CN113539408B

CN113539408B - 一种医学报告生成方法、模型的训练方法、装置及设备

Info

Publication number: CN113539408B
Application number: CN202111013687.9A
Authority: CN
Inventors: 边成
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2022-02-25
Anticipated expiration: 2041-08-31
Also published as: CN113539408A; WO2023029817A1

Abstract

本申请实施例公开了一种医学报告生成方法、模型的训练方法、装置及设备，通过分别对源图像和目标图像提取图像特征，利用图像特征分别得到对应的第一医学报告文本和第二医学报告文本；再利用判别器得到第一医学报告文本和第二医学报告文本分别对应的第一判别结果和第二判别结果；最后计算源图像特异性损失、目标图像特异性损失、交叉熵损失、第一对抗性损失、第二对抗性损失和第三对抗性损失，利用计算得到的损失训练医学报告生成模型。训练得到的医学报告生成模型，能够将从标签较多的源图像领域学习到的知识应用于其他类型的医学图像的领域中，实现自动生成标签较少或者没有标签的医学图像的医学报告文本。

Description

一种医学报告生成方法、模型的训练方法、装置及设备

技术领域

本申请涉及数据处理技术领域，具体涉及一种医学报告生成方法、模型的训练方法、装置及设备。

背景技术

医学影像是对人体或者人体某部分获得的内部组织影像，能够帮助医生了解患者的健康状况。医学影像具有对应的医学报告，医学报告中具有对该医学影像分析的结果。例如，医学报告中可能具有根据医学影像确定的患者的发病位置、病变的程度以及受到影响的器官等。

目前，难以针对医学影像自动生成对应的医学报告。如何基于医学影像自动生成医学报告是需要解决的问题。

发明内容

有鉴于此，本申请实施例提供一种医学报告生成方法、模型的训练方法、装置及设备，能够根据医学影像自动生成医学报告。

基于此，本申请实施例提供的技术方案如下：

第一方面，本申请实施例提供一种医学报告生成模型的训练方法，所述方法包括：

将源图像输入第一编码器，得到第一图像特征，将所述源图像输入第二编码器，得到第二图像特征；所述源图像对应有医学文本标签；

将目标图像输入第三编码器，得到第三图像特征，将所述目标图像输入所述第二编码器，得到第四图像特征；

将所述第二图像特征输入文本生成器，得到第一医学报告文本；

将所述第四图像特征输入所述文本生成器，得到第二医学报告文本；

将所述第一医学报告文本输入判别器，得到第一判别结果；

将所述第二医学报告文本输入所述判别器，得到第二判别结果；

根据所述第一图像特征以及所述第二图像特征，计算源图像特异性损失，根据所述第三图像特征以及所述第四图像特征，计算目标图像特异性损失；

根据所述第一医学报告文本以及所述源图像对应的医学文本标签计算交叉熵损失；

根据所述第一判别结果计算第一对抗性损失，根据所述第二判别结果计算第二对抗性损失以及第三对抗性损失；

根据所述源图像特征性损失、所述目标图像特征性损失、所述交叉熵损失、所述第一对抗性损失、所述第二对抗性损失以及所述第三对抗性损失，训练所述第一编码器、所述第二编码器、所述第三编码器、所述文本生成器以及所述判别器，重复执行所述将源图像输入第一图像特征编码器以及后续步骤，直到达到预设条件。

第二方面，本申请实施例提供一种医学报告生成方法，所述方法包括：

将医学图像输入编码器，得到医学图像特征；

将所述医学图像特征输入文本生成器，得到医学报告文本；

所述编码器是根据上述任一项实施例所述的医学报告生成模型的训练方法训练得到的第二编码器；

所述文本生成器是根据上述任一项实施例所述的医学报告生成模型的训练方法训练得到的文本生成器。

第三方面，本申请实施例提供一种医学报告生成模型的训练装置，所述装置包括：

第一输入单元，用于将源图像输入第一编码器，得到第一图像特征，将所述源图像输入第二编码器，得到第二图像特征；所述源图像对应有医学文本标签；

第二输入单元，用于将目标图像输入第三编码器，得到第三图像特征，将所述目标图像输入所述第二编码器，得到第四图像特征；

第三输入单元，用于将所述第二图像特征输入文本生成器，得到第一医学报告文本；

第四输入单元，用于将所述第四图像特征输入所述文本生成器，得到第二医学报告文本；

第五输入单元，用于将所述第一医学报告文本输入判别器，得到第一判别结果；

第六输入单元，用于将所述第二医学报告文本输入所述判别器，得到第二判别结果；

第一计算单元，用于根据所述第一图像特征以及所述第二图像特征，计算源图像特异性损失，根据所述第三图像特征以及所述第四图像特征，计算目标图像特异性损失；

第二计算单元，用于根据所述第一医学报告文本以及所述源图像对应的医学文本标签计算交叉熵损失；

第三计算单元，用于根据所述第一判别结果计算第一对抗性损失，根据所述第二判别结果计算第二对抗性损失以及第三对抗性损失；

执行单元，用于根据所述源图像特征性损失、所述目标图像特征性损失、所述交叉熵损失、所述第一对抗性损失、所述第二对抗性损失以及所述第三对抗性损失，训练所述第一编码器、所述第二编码器、所述第三编码器、所述文本生成器以及所述判别器，重复执行所述将源图像输入第一图像特征编码器以及后续步骤，直到达到预设条件。

第四方面，本申请实施例提供一种医学报告生成装置，所述装置包括：

输入单元，用于将医学图像输入编码器，得到医学图像特征；

生成单元，用于将所述医学图像特征输入文本生成器，得到医学报告文本；

第五方面，本申请实施例提供一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述任一实施例所述的医学报告生成模型的训练方法，或者实现上述实施例所述的医学报告生成方法。

第六方面，本申请实施例一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如上述任一实施例所述的医学报告生成模型的训练方法，或者实现上述实施例所述的医学报告生成方法。

由此可见，本申请实施例具有如下有益效果：

本申请实施例提供一种医学报告生成模型的训练方法和医学报告生成方法，通过分别对源图像和目标图像提取图像特征，利用图像特征分别得到对应的第一医学报告文本和第二医学报告文本；再利用判别器得到第一医学报告文本和第二医学报告文本分别对应的第一判别结果和第二判别结果；最后利用图像特征计算源图像特异性损失和目标图像特异性损失，利用第一医学报告文本和源图像对应的医学文本标签计算交叉熵损失，根据第一判别结果计算第一对抗性损失，根据第二判别结果计算第二对抗性损失以及第三对抗性损失，根据源图像特异性损失、目标图像特异性损失、交叉熵损失、第一对抗性损失、第二对抗性损失以及第三对抗性损失，训练第一编码器、第二编码器、第三编码器、文本生成器以及判别器，重复执行上述训练步骤，直到达到预设条件，得到用于医学报告生成的编码器和文本生成器。将医学图像输入编码器中，得到医学图像特征，再将医学图像特征输入文本生成器中，得到医学报告文本。

如此，利用具有医学报告文本标签较多的源图像和没有医学报告文本标签或者医学报告文本标签较少的目标图像，训练得到生成针对目标图像的医学图像类型的医学图像的医学报告文本的编码器和文本生成器。通过源图像和目标图像，能够学习到域不变的特征，从而将从标签较多的源图像领域学习到的知识应用于其他类型的医学图像的领域中，实现自动生成标签较少或者没有标签的医学图像的医学报告文本。

附图说明

图1为本申请实施例提供的示例性应用场景的框架示意图；

图2为本申请实施例提供的一种医学报告生成模型的训练方法的流程图；

图3为本申请实施例提供的一种医学报告生成模型的方法示意图；

图4为本申请实施例提供的另一种医学报告生成模型的方法示意图；

图5为本申请实施例提供的一种医学报告生成方法的流程图；

图6为本申请实施例提供的一种医学报告生成模型的训练装置的结构示意图；

图7为本申请实施例提供的一种医学报告生成装置的结构示意图；

图8为本申请实施例提供的一种电子设备的基本结构的示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

为便于理解本申请提供的技术方案，下面将先对本申请涉及的背景技术进行说明。

在对传统的医学报告文本生成方法进行研究后发现，目前是将具有标签的医学图像作为训练数据，利用训练数据训练得到生成医学报告文本的模型。但是，生成医学图像的标签较为困难，并且具有较多标签的医学图像的图像类型较为单一。目前，具有较多标签标记的医学图像基本为胸片图像，难以得到生成针对其他类型的医学图像的医学报告文本的模型。

基于此，本申请实施例提供一种医学报告生成模型的训练方法和一种医学报告生成方法，通过分别对源图像和目标图像提取图像特征，利用图像特征分别得到对应的第一医学报告文本和第二医学报告文本；再利用判别器得到第一医学报告文本和第二医学报告文本分别对应的第一判别结果和第二判别结果；最后利用图像特征计算源图像特异性损失和目标图像特异性损失，利用第一医学报告文本和源图像对应的医学文本标签计算交叉熵损失，根据第一判别结果计算第一对抗性损失，根据第二判别结果计算第二对抗性损失以及第三对抗性损失，根据源图像特异性损失、目标图像特异性损失、交叉熵损失、第一对抗性损失、第二对抗性损失以及第三对抗性损失，训练第一编码器、第二编码器、第三编码器、文本生成器以及判别器，重复执行上述训练步骤，直到达到预设条件，得到用于医学报告生成的编码器和文本生成器。将医学图像输入编码器中，得到医学图像特征，再将医学图像特征输入文本生成器中，得到医学报告文本。

为了便于理解本申请实施例提供的一种医学报告生成方法，下面结合图1所示的场景示例进行说明。参见图1，该图为本申请实施例提供的示例性应用场景的框架示意图。

在实际应用中，将医学图像101输入至训练好的编码器102中，得到医学图像101所对应的医学图像特征103，再将医学图像特征103输入至训练好的文本生成器104中，得到文本生成器104输出的医学报告文本105。

本领域技术人员可以理解，图1所示的框架示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本申请实施方式的适用范围不受到该框架任何方面的限制。

基于上述说明，下面将结合附图对本申请提供的医学报告生成模型的训练方法进行详细说明。

参见图2所示，该图为本申请实施例提供的一种医学报告生成模型的训练方法的流程图，该方法包括步骤S201-S210。

S201：将源图像输入第一编码器，得到第一图像特征，将源图像输入第二编码器，得到第二图像特征；源图像对应有医学文本标签。

参见图3所示，该图为本申请实施例提供的一种医学报告生成模型的方法示意图。

源图像是具有对应的医学文本标签的医学图像。其中，医学文本标签是指医学图像对应的医学报告文本，例如可以是检测报告文本。在一种可能的实现方式中，源图像可以是来源于MIMIC-CXR(一种数据集)的胸片图像。

第一编码器用于提取源图像所特有的图像特征，也就是属于源域的图像特征。将源图像输入第一编码器中，得到第一编码器输出的第一图像特征。

第二编码器是源图像和目标图像共享的编码器，用于提取隐藏层的特征维度上源域和目标域相似的特征，也就是源域和目标域中共同的特征。将源图像输入至第二编码器中，得到第二编码器输出的第二图像特征。

第一编码器和第二编码器可以是由四层卷积层构成的。

在一种可能的实现方式中，第二编码器可以是采用Inception-v3(一种神经网络)，第一编码器可以采用ResNet(Deep residual network，深度残差网络)。

S202：将目标图像输入第三编码器，得到第三图像特征，将目标图像输入第二编码器，得到第四图像特征。

目标图像是属于除源图像所属的医学图像类型以外的图像类型的医学图像。目标图像可以包括一种或者多种图像类型的医学图像，目标图像中包括需要实现生成医学报告文本的医学图像的图像类型。比如，当需要对内窥镜产生的医学图像生成医学报告文本时，目标图像中包括通过内窥镜产生的医学图像。此外，目标图像中还可以包括CT(ComputedTomography，电子计算机断层扫描)图像等其他图像类型的医学图像。

目标图像可以包括不具有标签的医学图像，也可以包括具有对应的标签的医学图像。目标图像的标签可以是人工标注的医学报告文本，也可以是目标图像所属的文献、文章等文本中与目标图像相关的描述文本。

将目标图像输入至第二编码器中，得到第二编码器输出的第四图像特征。

第三编码器用于提取目标图像所特有的图像特征，也就是属于目标域的图像特征。将目标图像输入至第三编码器中，得到由第三编码器输出的第三图像特征。

其中，第三编码器可以是由四层卷积层构成的。第三编码器可以采用ResNet(Deepresidual network，深度残差网络)

S203：将第二图像特征输入文本生成器，得到第一医学报告文本。

文本生成器用于根据输入的医学图像的图像特征生成对应的医学报告文本。文本生成器可以由双向的双层的LSTM(Long Short-Term Memory，长短期记忆人工神经网络)构成。

将第二图像特征输入文本生成器中，得到由文本生成器输出的第一医学报告文本。

S204：将第四图像特征输入文本生成器，得到第二医学报告文本。

将第四图像特征输入上述文本生成器中，得到由文本生成器输出的第二医学报告文本。

S205：将第一医学报告文本输入判别器，得到第一判别结果。

判别器用于确定输入的医学报告文本所属的域，也就是确定输入的医学报告文本是属于源域还是目标域。判别器可以由两层卷积层和一层全连接层的CNN(ConvolutionalNeural Network，卷积神经网络)构成。

将第一医学报告文本输入至判别器中，得到判别器对于第一医学报告文本的第一判别结果。

S206：将第二医学报告文本输入判别器，得到第二判别结果。

将第二医学报告文本输入至判别器中，得到判别器对于第二医学报告文本的第二判别结果。

利用判别器能够实现对抗训练，使得第二编码器能够缩小第一医学报告文本和第一医学报告文本之间的差异，将来自不同域的特征映射到相同域中，实现特征级别的对齐。

S207：根据第一图像特征以及第二图像特征，计算源图像特异性损失，根据第三图像特征以及第四图像特征，计算目标图像特异性损失。

第一图像特征和第二图像特征是由不同的编码器对源图像进行特征提取得到的。根据第一图像特征和第二图像特征，能够计算得到源图像特异性损失。源图像特异性损失用于衡量第一图像特征和第二图像特征之间的差距。

源图像特异性损失可以通过下式表示：

其中，

为第二图像特征，

为第一图像特征。

为frobenius范数。

类似的，第三图像特征和第四图像特征是由不同的编码器对目标图像进行特征提取得到的。根据第三图像特征和第四图像特征，能够计算得到目标图像特异性损失。目标图像特异性损失用于衡量第三图像特征和第四图像特征之间的差距。

目标图像特异性损失可以通过下式表示：

其中，

为第四图像特征，

为第三图像特征。

S208：根据第一医学报告文本以及源图像对应的医学文本标签计算交叉熵损失。

源图像具有对应的医学文本标签。根据第一医学报告文本和源图像对应的医学文本标签，计算交叉熵损失。交叉熵损失用于衡量第一医学报告文本和医学文本标签之间的差距。

S209：根据第一判别结果计算第一对抗性损失，根据第二判别结果计算第二对抗性损失以及第三对抗性损失。

根据判别器输出的第一判别结果计算第一对抗性损失，根据第二判别结果计算第二对抗性损失以及第三对抗性损失。第一对抗性损失、第二对抗性损失以及第三对抗性损失是用于衡量生成判别结果是否属于相应的域。

在一种可能的实现方式中，本申请实施例提供根据第一判别结果计算第一对抗性损失的具体实施方式，以及一种根据第二判别结果计算第二对抗性损失以及第三对抗性损失的具体实施方式，具体请参见下文。

S210：根据源图像特异性损失、目标图像特异性损失、交叉熵损失、第一对抗性损失、第二对抗性损失以及第三对抗性损失，训练第一编码器、第二编码器、第三编码器、文本生成器以及判别器，重复执行将源图像输入第一图像特征编码器以及后续步骤，直到达到预设条件。

基于得到的源图像特异性损失、目标图像特异性损失、交叉熵损失、第一对抗性损失、第二对抗性损失以及第三对抗性损失，训练第一编码器、第二编码器、第三编码器、文本生成器和判别器。

基于源图像特异性损失，能够使得第一编码器和第二编码器学习到关于源图像的不同的图像特征。基于目标图像特异性损失，能够使得第二编码器和第三编码器学习到关于目标图像的不同的图像特征。利用交叉熵损失，能够训练使得文本生成器生成较为准确的第一医学报告文本。利用第一对抗性损失、第二对抗性损失以及第三对抗性损失，能够使得目标域和源域的域不变特征尽可能的接近。

在一种可能的实现方式中，本申请实施例提供一种根据源图像特异性损失、目标图像特异性损失、交叉熵损失、第一对抗性损失、第二对抗性损失以及第三对抗性损失，训练第一编码器、第二编码器、第三编码器、文本生成器以及判别器的具体实现方式，具体请参见下文。

在完成一次对第一编码器、第二编码器、第三编码器、文本生成器以及判别器的训练之后，重复执行上述S201-S210的步骤，直到达到预设条件。其中，预设条件是完成训练的条件。预设条件例如可以为训练的次数，或者可以为损失函数满足的数值条件。

基于上述S201-S210的相关内容可知，通过基于域不变特征，采用对抗训练的方式训练得到的第二编码器和文本生成器，能够对属于目标图像的图像类型的医学图像生成对应的医学报告文本。如此能够实现针对缺少标签的图像类型的医学图像生成医学报告文本，扩大了生成医学报告文本的医学图像类型的范围。并且，利用判别器能够实现将来自不同域的数据源映射到相同域中，实现特征级别的对齐，使得利用训练后得到的编码器和文本生成器，能够生成较为准确的医学图像对应的医学报告文本。

在一种可能的实现方式中，判别器用于确定医学报告文本所对应的图像的概率。将第一医学报告文本输入判别器，得到的判别器输出的第一判别结果中，包括第一医学报告文本中各个分词由源图像生成的第一概率值。将第二医学报告文本输入判别器，得到的判别器输出的第二判别结果中，包括第二医学报告文本中各个分词由源图像生成的第二概率值。其中，第一概率值可以表示为D(y_s)，y_s表示第一医学报告文本。第二概率值可以表示为D(y_t)，y_t表示第二医学报告文本。第一概率值和第二概率值的取值范围为从0到1。其中，越接近1表示由源图像生成的概率越高，月接近0表示由源图像生成的概率越低。

对应的，本申请实施例提供一种根据第一判别结果计算第一对抗性损失，具体包括：

将第一概率值取对数后求和，得到第一求和结果，取第一求和结果的负数值，得到第一对抗性损失。

将第一概率值取对数后求和，得到第一求和结果。第一求和结果可以表示为∑log[D(y_s)]。

再计算第一求和结果的负数值，得到第一对抗性损失。

第一对抗性损失可以由公式(3)表示。

L_adv1(y_s)＝-∑log [D(y_s)] (3)

本申请实施例提供一种根据第二判别结果计算第二对抗性损失以及第三对抗性损失，包括：

将第二概率值取对数后求和，得到第二求和结果，取第二求和结果的负数值，得到第二对抗性损失。

计算1与第二概率值之差后求和，得到第三求和结果，取第三求和结果的负数值，得到第三对抗性损失。

将第二概率值取对数后求和，得到第二求和结果。第二求和结果可以表示为∑log[D(y_t)]。

再计算第二求和结果的负数值，得到第二对抗性损失。

第二对抗性损失可以由公式(4)表示。

L_adv2(y_t)＝-∑log[D(y_t)] (4)

计算1与第二概率值中各个数值之差后求和，得到第三求和结果，取第三求和结果的负数值，得到第三对抗性损失。

第三对抗性损失可以由公式(5)表示。

L_adv3(y_t)＝-∑[1-D(y_t)] (5)

在一种可能的实现方式中，针对目标图像缺少标签的情况，可以通过重建图像的方式进行模型的优化。本申请实施例提供一种医学报告生成模型的训练方法，除上述S201-S210的步骤以外，方法还包括以下三个步骤。

参见图4所示，该图为本申请实施例提供的另一种医学报告生成模型的方法示意图。

A1：将第一图像特征以及第二图像特征输入第一解码器，得到重建源图像。

第一解码器用于根据输入的源图像的域不变特征和特有特征生成重建的源图像。将第一图像特征和第二图像特征输入第一解码器中，得到重建源图像。

第一解码器可以是由四层卷积层构成的。

A2：将第三图像特征以及第四图像特征输入第二解码器，得到重建目标图像。

第二解码器用于根据输入的目标图像的域不变特征和特有特征生成重建的目标图像。将第三图像特征和第四图像特征输入第二解码器中，得到重建目标图像。

第二解码器可以是由四层卷积层构成的。在本申请实施例中，编码器和解码器采用自编码器结构。

A3：根据源图像以及重建源图像，计算源图像感知损失，根据目标图像以及重建目标图像，计算目标图像感知损失。

根据源图像和重建源图像，计算源图像感知损失。源图像感知损失用于衡量源图像和重建源图像之间的差距。

根据目标图像和重建目标图像，计算目标图像感知损失。目标图像感知损失用于衡量目标图像和重建目标图像之间的差距。

在一种可能的实现方式中，本申请实施例提供一种根据源图像以及重建源图像，计算源图像感知损失的具体实施方式，以及一种根据目标图像以及重建目标图像，计算目标图像感知损失的具体实施方式，具体请参见下文。

对应的，本申请实施例提供一种根据源图像特征性损失、目标图像特征性损失、交叉熵损失、第一对抗性损失、第二对抗性损失以及第三对抗性损失，训练第一编码器、第二编码器、第三编码器、文本生成器以及判别器的具体实现方式，具体包括：

根据源图像特征性损失、目标图像特征性损失、交叉熵损失、第一对抗性损失、第二对抗性损失、第三对抗性损失、源图像感知损失以及目标图像感知损失，训练第一编码器、第二编码器、第三编码器、文本生成器、判别器、第一解码器以及第二解码器。

在得到源图像感知损失和目标图像感知损失之后，还可以根据源图像感知损失和目标图像感知损失优化模型，减小源图像和重建源图像以及目标图像和重建目标图像之间的差距，提高模型对源图像和目标图像的图像特征提取的准确程度。

在一种可能的实现方式中，根据源图像特异性损失、目标图像特异性损失、交叉熵损失、第一对抗性损失、第二对抗性损失、第三对抗性损失、源图像感知损失以及目标图像感知损失可以计算得到总损失。总损失可以由下式表示：

L＝L_difference+L_rec+L_ce+λ_adv1L_adv1(y_s)+λ_adv2L_adv2(y_t)+λ_adv3L_adv3(y_t) (6)

其中，L_difference表示源图像特异性损失和目标图像特异性损失的和。L_ce表示交叉熵损失。L_rec表示源图像感知损失和目标图像感知损失的和。L_adv1(y_s)表示第一对抗性损失，λ_adv1为第一对抗性损失对应的权重。L_adv2(y_t)表示第二对抗性损失，λ_adv2为第二对抗性损失对应的权重。L_adv3(y_t)表示第三对抗性损失，λ_adv3为第三对抗性损失对应的权重。

L_difference可以由下式表示：

L_difference＝L_sdist+L_tdist (7)

其中，L_sdist表示源图像特异性损失，L_tdist表示目标图像特异性损失。

L_rec可以由下式表示：

L_rec＝L_perc(x_s,x_srec；w)+L_perc(x_t,x_trec；w) (8)

其中，L_perc(x_s,x_srec；w)表示源图像感知损失，L_perc(x_t,x_trec；w)表示目标图像感知损失。

在得到总损失之后，可以以总损失的最小化的结果进行最大化为优化的目标，训练第一编码器、第二编码器、第三编码器、文本生成器、判别器、第一解码器以及第二解码器。

基于上述内容可知，采用重建图像的方式，可以实现在目标图像不具有标签的前提下优化编码器，使得编码器提取较为准确的图像特征，提高训练得到的模型的准确程度。

在一种可能的实现方式中，本申请实施例提供一种根据源图像以及重建源图像，计算源图像感知损失，包括以下四个步骤：

B1：将源图像输入第三图像特征提取网络，获取第三图像特征提取网络的各特征提取层输出的第七图像特征。

第三图像特征提取网络用于提取图像的图像特征。将源图像输入至第三图像特征提取网络中，得到由第三图像特征提取网络的各个特征提取层输出的第七图像特征。

其中，第三图像特征提取网络可以是VGG Net(一种深度卷积神经网络)。VGG Net可以是预先训练得到的。将源图像输入至VGG Net中，得到第七图像特征

其中，x_s表示源图像，l表示VGG Net中的第l层特征提取层。l为大于等于1，小于等于L的正整数，L为VGG Net的特征提取层的总层数。

B2：将重建源图像输入第三图像特征提取网络，获取第三图像特征提取网络的各特征提取层输出的第八图像特征。

利用第三图像特征提取网络提取重建源图像的图像特征，得到由第三图像特征提取网络中的各个特征提取层输出的第八图像特征。

以上述第三图像特征提取网络为VGG Net为例，第八图像特征可以表示为

其中，x_srec表示重建源图像。

B3：根据每一特征提取层输出的第七图像特征、第八图像特征以及该特征提取层对应的权重，计算该特征提取层对应的源图像损失。

第三特征提取网络中各个特征提取层具有对应的权重。根据每一特征提取层的权重，每一特征提取层输出的第七图像特征以及每一特征提取层输出的第八图像特征，计算该特征提取层对应的源图像损失。

在一种可能的实现方式中，可以先计算第七图像特征和第八图像特征之间的差值，再计算得到的差值的L1范数，最后将得到的差值的L1范数与权重相乘，得到该特征提取层对应的源图像损失。

B4：将各个特征提取层对应的源图像损失求和，得到源图像感知损失。

计算各个特征提取层的源图像损失之和，得到源图像感知损失。

源图像感知损失L_perc(x_s,x_srec；w)可以由下式表示：

其中，w^(l)表示第l层特征提取层的权重，N^(l)表示特征提取层的层数，||·||₁表示L1范数。

类似的，在一种可能的实现方式中，本申请实施例提供一种根据目标图像以及重建目标图像，计算目标图像感知损失的具体实施方式，具体包括以下四个步骤：

B5：将目标图像输入第三图像特征提取网络，获取第三图像特征提取网络的各特征提取层输出的第九图像特征。

利用第三图像特征提取网络提取目标图像的图像特征，得到由第三图像特征提取网络中的各个特征提取层输出的第九图像特征。

以上述第三图像特征提取网络为VGG Net为例，第九图像特征可以表示为φ^(l)(x_t)。其中，x_t表示目标图像。

B6：将重建目标图像输入第三图像特征提取网络，获取第三图像特征提取网络的各特征提取层输出的第十图像特征。

利用第三图像特征提取网络提取重建目标图像的图像特征，得到由第三图像特征提取网络中的各个特征提取层输出的第十图像特征。

以上述第三图像特征提取网络为VGG Net为例，第十图像特征可以表示为φ^(l)(x_trec)。其中，x_trec表示重建目标图像。

B7：根据每一特征提取层输出的第九图像特征、第十图像特征以及该特征提取层对应的权重，计算该特征提取层对应的目标图像损失。

第三特征提取网络中各个特征提取层具有对应的权重。根据每一特征提取层的权重，每一特征提取层输出的第九图像特征以及每一特征提取层输出的第十图像特征，计算该特征提取层对应的目标图像损失。

在一种可能的实现方式中，可以先计算第九图像特征和第十图像特征之间的差值，再计算得到的差值的L1范数，最后将得到的差值的L1范数与权重相乘，得到该特征提取层对应的目标图像损失。

B8：将各个特征提取层对应的目标图像损失求和，得到目标图像感知损失。

计算各个特征提取层的目标图像损失之和，得到目标图像感知损失。

目标图像感知损失L_perc(x_t,x_trec；w)可以由下式表示：

目标图像中部分目标图像可能具有对应的医学文本标签。对于具有医学文本标签的目标图像，可以采用半监督的方式训练模型。

对应的，在一种可能的实现方式中，本申请实施例提供一种医学报告生成模型的训练方法，在上述步骤S201-S210训练完成的基础上，还可以再次进行训练，即除上述步骤以外，还包括以下五个步骤：

C1：根据源图像与重建源图像的差异以及目标图像与重建目标图像的差异，确定第一分值。

第一分值用于衡量源图像与重建源图像的差异，以及目标图像与重建目标图像的差异。

在一种可能的实现方式中，本申请实施例提供一种根据源图像与重建源图像的差异以及目标图像与重建目标图像的差异，确定第一分值的具体实施方式，请参见下文。

C2：根据源图像特异性损失以及目标图像特异性损失，确定第二分值。

第二分值与源图像特异性损失以及目标图像特异性损失相关。

在一种可能的实现方式中，本申请实施例提供一种根据源图像特异性损失以及目标图像特异性损失，确定第二分值的具体实现方式，请参见下文。

C3：如果目标图像对应有医学文本标签，根据第二医学报告文本以及目标图像对应的医学文本标签，计算自然语言评估指标作为第三分值。

在部分目标图像具有对应的医学文本标签时，可以根据目标图像的医学文本标签和第二医学报告文本计算自然语言评估指标。将计算得到的自然语言评估指标确定为第三分值。

其中，自然语言评估指标可以是CIDEr(Consensus-based Image DescriptionEvaluation，基于共识的图像描述评估)等指标。第三分值可以由公式(11)表示。

SCORE_eval＝CIDEr(y_t,y) (11)

其中，CIDEr(y_t,y)表示y_t与y的CIDEr，y_t为基于目标图像生成的第二医学报告文本，y为目标图像对应的医学文本标签。

C4：将第一分值、第二分值以及第三分值加权求和，得到奖励值。

计算第一分值、第二分值和第三分值的加权和，得到奖励值。奖励值REWARD可以由公式(12)表示：

REWARD＝λ₁SCORE_rec+λ₂SCORE_dist+λ₃SCORE_eval (12)

其中，SCORE_rec表示第一分值，SCORE_dist表示第二分值，SCORE_eval表示第三分值。λ₁为第一分值对应的权重，λ₂为第二分值对应的权重，λ₃为第三分值对应的权重。

第一分值、第二分值和第三分值分别对应的权重可以根据需要进行设置。比如，在当目标图像不具有对应的医学文本标签时，λ₁＝λ₂＝0.5，λ₃＝0。在当目标图像具有对应的医学文本标签时，λ₁＝λ₂＝0.3，λ₃＝0.4。

奖励值能够通过重建图像的差异、图像的特异性损失以及自然语言评估指标三个方面反映模型的训练情况。

C5：以最大化奖励值为目标，重新训练第一编码器、第二编码器、第三编码器、文本生成器、判别器、第一解码器以及第二解码器。

将最大化奖励值作为训练目标，重新训练模型中的第一编码器、第二编码器、第三编码器、文本生成器、判别器、第一解码器以及第二解码器。

在本申请实施例中，将最大化奖励值作为训练的目标，能够强化学习更新文本生成器。并且，将自然语言评估指标作为第三分值，能够在训练模型时考虑到自然语言评估指标，实现模型训练与模型应用的目标一致，进一步提高模型的准确性。

进一步的，本申请实施例提供一种根据源图像与重建源图像的差异以及目标图像与重建目标图像的差异，确定第一分值的具体实施方式，包括以下7个步骤：

D1：将源图像输入第三图像特征提取网络，获取第三图像特征提取网络输出的第十一图像特征。

第三图像特征提取网络用于提取图像的图像特征。将源图像输入至第三图像特征提取网络中，得到第三图像特征提取网络输出的第十一图像特征。

其中，第三图像特征提取网络可以是VGG Net(一种深度卷积神经网络)。VGG Net可以是预先训练得到的。将源图像输入至VGG Net中，得到第十一图像特征

其中，x_s表示源图像的图像特征，l表示VGG Net中经过激活函数的第l层。l为大于等于1，小于等于L的正整数，L为VGG Net经过激活函数的最大层数。

D2：将重建源图像输入第三图像特征提取网络，获取第三图像特征提取网络输出的第十二图像特征。

利用第三图像特征提取网络提取重建源图像的图像特征，得到由第三图像特征提取网络输出的第十二图像特征。

仍以上述第三图像特征提取网络为VGG Net为例，第十二图像特征可以为

其中，x_srec是重建源图像的图像特征。

D3：根据第十一图像特征与第十二图像特征的差异，得到第一差异值。

第一差异值用于指示第十一图像特征和第十二图像特征的差异。

在一种可能的实现方式中，可以先计算第十二图像特征与第十一图像特征的差值，得到第一差值。再计算第一差值的L1范数，得到第一差异值。

第一差异值S₁可以由下式表示：

D4：将目标图像输入第三图像特征提取网络，获取第三图像特征提取网络输出的第十三图像特征。

利用第三图像特征提取网络提取目标图像的图像特征，得到第十三图像特征。

仍以上述第三图像特征提取网络为VGG Net为例，第十三图像特征可以为

其中，x_t是目标图像的图像特征。

D5：将目标重建图像输入第三图像特征提取网络，获取第三图像特征提取网络输出的第十四图像特征。

利用第三图像特征提取网络提取重建目标图像的图像特征，得到第十四图像特征。

(x_trec)。其中，x_trec是重建目标图像的图像特征。

D6：根据第十三图像特征与第十四图像特征的差异，得到第二差异值。

第二差异值用于指示第十三图像特征和第十四图像特征的差异。

在一种可能的实现方式中，可以先计算第十三图像特征与第十四图像特征的差值，得到第二差值。再计算第二差值的L1范数，得到第二差异值。

第二差异值S₂可以由下式表示：

D7：将第一差异值与第二差异值求和，得到第四求和结果，取第四求和结果的负数值，得到第一分值。

计算第一差异值和第二差异值的和，再对得到的和取负数值，得到第一分值。

第一分值SCORE_rec可以由公式(15)表示：

进一步的，本申请实施例提供一种根据源图像特异性损失以及目标图像特异性损失，确定第二分值的具体实施方式，包括：

将源图像特异性损失以及目标图像特异性损失求和，得到第五求和结果，取第五求和结果的负数值，得到第二分值。

第二分值SCORE_dist可以由公式(16)表示：

SCORE_dist＝-L_difference＝-(L_sdist+L_tdist) (16)

其中，L_sdist为源图像特异性损失，L_tdist为目标图像特异性损失，L_difference为第五求和结果。

在一种可能的实现方式中，还可以预先对第一编码器、第二编码器和第三编码器进行训练。

本申请实施例提供一种医学报告生成模型的训练方法，除上述步骤以外，还包括以下三个步骤。

E1：将训练图像输入第一图像特征提取网络，得到第五图像特征，将第五图像特征输入第一分类网络，得到训练图像的第一预测分类结果；根据训练图像的第一预测分类结果以及训练图像对应的分类标签，训练第一图像特征提取网络以及第一分类网络。

训练图像为用于训练编码器的图像。训练图像为具有分类标签的医学图像。分类标签为该医学图像对应的疾病。作为训练图像的医学图像可以是胸片，对应的分类标签例如可以是肺炎、肺结节、心肌肥大等疾病的疾病名称。训练图像可以是CheXpert-small数据集的图像。

第一图像特征提取网络用于提取图像特征。将训练图像输入至第一图像特征提取网络中，得到第一图像特征提取网络输出的第五图像特征。其中，第一图像特征提取网络可以是采用Inception-v3网络结构。

第一分类网络用于根据输入的图像特征确定图像的分类类型。将得到的第五图像特征再输入至第一分类网络中，得到训练图像的第一预测分类结果。第一预测分类结果中可以包括训练图像的图像类型。

训练图像的分类标签能够用于衡量训练图像的第一预测分类结果的准确程度。根据训练图像的分类标签和第一预测分类结果，训练第一图像特征提取网络和第一分类网络。

E2：将训练图像输入第二图像特征提取网络，得到第六图像特征，将第六图像特征输入第二分类网络，得到训练图像的第二预测分类结果；根据训练图像的第二预测分类结果以及训练图像对应的分类标签，训练第二图像特征提取网络以及第二分类网络；第一图像特征提取网络与第二图像特征提取网络的网络结构不同。

第二图像特征提取网络是与第一图像特征提取网络结构不同的网络。第二图像特征提取网络用于提取图像特征。将训练图像输入至第二图像特征提取网络中，得到第二图像特征提取网络输出的第六图像特征。

第二分类网络用于根据输入的图像特征确定图像的分类类型。将得到的第六图像特征再输入至第二分类网络中，得到第二分类网络输出的训练图像的第二预测分类结果。第二预测分类结果中可以包括训练图像的图像类型。

训练图像的分类标签可以用于衡量训练图像的第二预测分类结果是否准确。利用训练图像的分类标签和训练图像的第二预测分类结果，训练第二图像特征提取网络和第二分类网络。

E3：将训练完成的第一图像特征提取网络的模型参数确定为第一编码器以及第三编码器的初始模型参数，将训练完成的第二图像特征提取网络的模型参数确定为第二编码器的初始模型参数；第一图像特征提取网络与第一编码器以及第三编码器的网络结构相同，第二图像特征提取网络与第二编码器的网络结构相同。

第一图像特征提取网络与第一编码器以及第三编码器的网络结构相同。在得到训练完成的第一图像特征提取网络之后，利用第一图像特征提取网络确定第一编码器和第三编码器的初始模型参数。具体的，将第一特征提取网络的模型参数确定为第一编码器的初始模型参数，以及第三编码器的初始模型参数。

第二图像特征提取网络与第二编码器的网络结构相同。在得到训练完成的第二图像特征提取网络之后，利用第二图像特征提取网络的模型参数确定第二编码器的初始模型参数。具体的，将第二图像特征提取网络的模型参数确定为第二编码器的初始模型参数。

基于上述内容可知，通过利用训练图像预先训练第一图像特征提取网络和第二图像特征提取网络，再利用第一图像特征提取网络和第二图像特征提取网络的模型参数，确定第一编码器、第二编码器和第三编码器的初始模型参数。如此通过预训练使得第一编码器、第二编码器和第三编码器更为准确，提高第一编码器、第二编码器和第三编码器提取图像特征的准确性，并且提高模型训练的效率。

在另一种可能的实现方式中，可以随机初始化确定第一编码器、第二编码器和第三编码器的初始模型参数。本申请实施例还提供一种医学报告生成模型的训练方法，除上述步骤以外，还包括以下步骤。

随机初始化第一编码器、第二编码器以及第三编码器的初始模型参数。

在利用第一编码器、第二编码器和第三编码器训练之前，随机初始化第一编码器、第二编码器和第三编码器的初始模型参数。然后通过上述方式，对第一编码器、第二编码器和第三编码器进行训练，确定模型参数。

基于上述实施例提供的一种医学报告生成模型的训练方法，本申请实施例提供一种医学报告生成方法。参见图5所示，该图为本申请实施例提供的一种医学报告生成方法的流程图，方法包括S501-S502：

S501：将医学图像输入编码器，得到医学图像特征。

编码器是采用上述医学报告生成模型的训练方法训练得到的第二编码器。训练得到的第二编码器能够较为准确地提取医学图像的医学图像特征。

将需要生成对应的医学报告文本的医学图像输入至编码器中，得到医学图像对应的医学图像特征。需要说明的是，医学图像的图像类型与目标图像的图像类型一致。例如，目标图像中包括内窥镜产生的图像，对应的，医学图像可以为内窥镜产生的图像。

S502：将医学图像特征输入文本生成器，得到医学报告文本。

文本生成器是采用上述医学报告生成模型的训练方法所训练得到的文本生成器。训练得到的文本生成器能够基于输入的医学图像特征生成较为准确的医学报告文本。

将编码器输出的医学图像的医学图像特征输入文本生成器中，得到由文本生成器输出的医学报告文本。

基于上述内容可知，在本申请实施例中，利用上述医学报告生成模型的训练方法训练得到的编码器和文本生成器，能够适用于目标图像对应的图像类型的医学图像，生成医学图像对应的医学报告文本。

基于上述方法实施例提供的一种医学报告生成模型的训练方法，本申请实施例还提供了一种医学报告生成模型的训练装置，下面将结合附图对医学报告生成模型的训练装置进行说明。

参见图6所示，该图为本申请实施例提供的一种医学报告生成模型的训练装置的结构示意图。如图6所示，该医学报告生成模型的训练装置包括：

第一输入单元601，用于将源图像输入第一编码器，得到第一图像特征，将所述源图像输入第二编码器，得到第二图像特征；所述源图像对应有医学文本标签；

第二输入单元602，用于将目标图像输入第三编码器，得到第三图像特征，将所述目标图像输入所述第二编码器，得到第四图像特征；

第三输入单元603，用于将所述第二图像特征输入文本生成器，得到第一医学报告文本；

第四输入单元604，用于将所述第四图像特征输入所述文本生成器，得到第二医学报告文本；

第五输入单元605，用于将所述第一医学报告文本输入判别器，得到第一判别结果；

第六输入单元606，用于将所述第二医学报告文本输入所述判别器，得到第二判别结果；

第一计算单元607，用于根据所述第一图像特征以及所述第二图像特征，计算源图像特异性损失，根据所述第三图像特征以及所述第四图像特征，计算目标图像特异性损失；

第二计算单元608，用于根据所述第一医学报告文本以及所述源图像对应的医学文本标签计算交叉熵损失；

第三计算单元609，用于根据所述第一判别结果计算第一对抗性损失，根据所述第二判别结果计算第二对抗性损失以及第三对抗性损失；

执行单元610，用于根据所述源图像特征性损失、所述目标图像特征性损失、所述交叉熵损失、所述第一对抗性损失、所述第二对抗性损失以及所述第三对抗性损失，训练所述第一编码器、所述第二编码器、所述第三编码器、所述文本生成器以及所述判别器，重复执行所述将源图像输入第一图像特征编码器以及后续步骤，直到达到预设条件。

在一种可能的实现方式中，所述装置还包括：

第七输入单元，用于将所述第一图像特征以及所述第二图像特征输入第一解码器，得到重建源图像；

第八输入单元，用于将所述第三图像特征以及所述第四图像特征输入第二解码器，得到重建目标图像；

第四计算单元，用于根据所述源图像以及所述重建源图像，计算源图像感知损失，根据所述目标图像以及所述重建目标图像，计算目标图像感知损失；

所述执行单元，具体用于所述根据所述源图像特征性损失、所述目标图像特征性损失、所述交叉熵损失、所述第一对抗性损失、所述第二对抗性损失、所述第三对抗性损失、所述源图像感知损失以及所述目标图像感知损失，训练所述第一编码器、所述第二编码器、所述第三编码器、所述文本生成器、所述判别器、第一解码器以及所述第二解码器。

在一种可能的实现方式中，部分所述目标图像对应有医学文本标签；所述装置还包括：

第一确定单元，用于根据所述源图像与所述重建源图像的差异以及所述目标图像与所述重建目标图像的差异，确定第一分值；

第二确定单元，用于根据所述源图像特异性损失以及所述目标图像特异性损失，确定第二分值；

第五计算单元，用于如果所述目标图像对应有医学文本标签，根据所述第二医学报告文本以及所述目标图像对应的医学文本标签，计算自然语言评估指标作为第三分值；

求和单元，用于将所述第一分值、所述第二分值以及所述第三分值加权求和，得到奖励值；

训练单元，用于以最大化所述奖励值为目标，重新训练所述第一编码器、所述第二编码器、所述第三编码器、所述文本生成器、所述判别器、第一解码器以及所述第二解码器。

在一种可能的实现方式中，所述装置还包括：

第七输入单元，用于将训练图像输入第一图像特征提取网络，得到第五图像特征，将所述第五图像特征输入第一分类网络，得到所述训练图像的第一预测分类结果；根据所述训练图像的第一预测分类结果以及所述训练图像对应的分类标签，训练所述第一图像特征提取网络以及所述第一分类网络；

第八输入单元，用于将训练图像输入第二图像特征提取网络，得到第六图像特征，将所述第六图像特征输入第二分类网络，得到所述训练图像的第二预测分类结果；根据所述训练图像的第二预测分类结果以及所述训练图像对应的分类标签，训练所述第二图像特征提取网络以及所述第二分类网络；所述第一图像特征提取网络与所述第二图像特征提取网络的网络结构不同；

第三确定单元，用于将训练完成的所述第一图像特征提取网络的模型参数确定为所述第一编码器以及所述第三编码器的初始模型参数，将训练完成的所述第二图像特征提取网络的模型参数确定为所述第二编码器的初始模型参数；所述第一图像特征提取网络与所述第一编码器以及所述第三编码器的网络结构相同，所述第二图像特征提取网络与所述第二编码器的网络结构相同。

在一种可能的实现方式中，所述装置还包括：

初始化单元，用于随机初始化所述第一编码器、所述第二编码器以及所述第三编码器的初始模型参数。

在一种可能的实现方式中，所述第一判别结果包括判别所述第一医学报告文本中每个分词是否由所述源图像生成的第一概率值，所述第二判别结果包括判别所述第二医学报告文本中每个分词是否由所述源图像生成的第二概率值；

所述第三计算单元609，具体用于将所述第一概率值取对数后求和，得到第一求和结果，取所述第一求和结果的负数值，得到第一对抗性损失；

所述第三计算单元609，具体用于将所述第二概率值取对数后求和，得到第二求和结果，取所述第二求和结果的负数值，得到第二对抗性损失；

计算1与所述第二概率值之差后求和，得到第三求和结果，取所述第三求和结果的负数值，得到第三对抗性损失。

在一种可能的实现方式中，所述第四计算单元610，具体用于将所述源图像输入第三图像特征提取网络，获取所述第三图像特征提取网络的各特征提取层输出的第七图像特征；

将所述重建源图像输入所述第三图像特征提取网络，获取所述第三图像特征提取网络的各特征提取层输出的第八图像特征；

根据每一所述特征提取层输出的第七图像特征、第八图像特征以及该特征提取层对应的权重，计算该特征提取层对应的源图像损失；

将各个特征提取层对应的源图像损失求和，得到源图像感知损失；

所述第四计算单元610，具体用于将所述目标图像输入第三图像特征提取网络，获取所述第三图像特征提取网络的各特征提取层输出的第九图像特征；

将所述重建目标图像输入所述第三图像特征提取网络，获取所述第三图像特征提取网络的各特征提取层输出的第十图像特征；

根据每一所述特征提取层输出的第九图像特征、第十图像特征以及该特征提取层对应的权重，计算该特征提取层对应的目标图像损失；

将各个所述特征提取层对应的目标图像损失求和，得到目标图像感知损失。

在一种可能的实现方式中，所述第一确定单元，具体用于将所述源图像输入第三图像特征提取网络，获取所述第三图像特征提取网络输出的第十一图像特征；

将所述重建源图像输入所述第三图像特征提取网络，获取所述第三图像特征提取网络输出的第十二图像特征；

根据所述第十一图像特征与所述第十二图像特征的差异，得到第一差异值；

将所述目标图像输入所述第三图像特征提取网络，获取所述第三图像特征提取网络输出的第十三图像特征；

将所述目标重建图像输入所述第三图像特征提取网络，获取所述第三图像特征提取网络输出的第十四图像特征；

根据所述第十三图像特征与所述第十四图像特征的差异，得到第二差异值；

将所述第一差异值与所述第二差异值求和，得到第四求和结果，取所述第四求和结果的负数值，得到第一分值。

在一种可能的实现方式中，所述第二确定单元，具体用于将所述源图像特异性损失以及所述目标图像特异性损失求和，得到第五求和结果，取所述第五求和结果的负数值，得到第二分值。

基于上述方法实施例提供的一种医学报告生成方法，本申请实施例还提供了一种医学报告生成装置，下面将结合附图对医学报告生成装置进行说明。

参见图7所示，该图为本申请实施例提供的一种医学报告生成装置的结构示意图。如图7所示，该医学报告生成装置包括：

输入单元701，用于将医学图像输入编码器，得到医学图像特征；

生成单元702，用于将所述医学图像特征输入文本生成器，得到医学报告文本；

基于上述方法实施例提供的一种医学报告生成模型的训练方法和医学报告生成方法，本申请还提供一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述任一实施例所述的医学报告生成模型的训练方法，或者实现如上述实施例所述的医学报告生成方法。

下面参考图8，其示出了适于用来实现本申请实施例的电子设备800的结构示意图。本申请实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(Personal Digital Assistant，个人数字助理)、PAD(portable androiddevice，平板电脑)、PMP(Portable Media Player，便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV(television，电视机)、台式计算机等等的固定终端。图8示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，电子设备800可以包括处理装置(例如中央处理器、图形处理器等)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有电子设备800操作所需的各种程序和数据。处理装置801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

通常，以下装置可以连接至I/O接口805：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置807；包括例如磁带、硬盘等的存储装置808；以及通信装置809。通信装置809可以允许电子设备800与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备800，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置809从网络上被下载和安装，或者从存储装置808被安装，或者从ROM 802被安装。在该计算机程序被处理装置801执行时，执行本申请实施例的方法中限定的上述功能。

本申请实施例提供的电子设备与上述实施例提供的一种医学报告生成模型的训练方法和医学报告生成方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例与上述实施例具有相同的有益效果。

基于上述方法实施例提供的一种医学报告生成模型的训练方法和医学报告生成方法，本申请实施例提供了一种计算机存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如上述任一实施例所述的医学报告生成模型的训练方法，或者上述实施例所述的医学报告生成方法。

需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述医学报告生成模型的训练方法，或者医学报告生成方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元/模块的名称在某种情况下并不构成对该单元本身的限定，例如，语音数据采集模块还可以被描述为“数据采集模块”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本申请的一个或多个实施例，【示例一】提供了一种医学报告生成模型的训练方法，所述方法包括：

将所述第一医学报告文本输入判别器，得到第一判别结果；

根据本申请的一个或多个实施例，【示例二】提供了一种医学报告生成模型的训练方法，所述方法还包括：

将所述第一图像特征以及所述第二图像特征输入第一解码器，得到重建源图像；

将所述第三图像特征以及所述第四图像特征输入第二解码器，得到重建目标图像；

根据所述源图像以及所述重建源图像，计算源图像感知损失，根据所述目标图像以及所述重建目标图像，计算目标图像感知损失；

所述根据所述源图像特征性损失、所述目标图像特征性损失、所述交叉熵损失、所述第一对抗性损失、所述第二对抗性损失以及所述第三对抗性损失，训练所述第一编码器、所述第二编码器、所述第三编码器、所述文本生成器以及所述判别器，包括：

所述根据所述源图像特征性损失、所述目标图像特征性损失、所述交叉熵损失、所述第一对抗性损失、所述第二对抗性损失、所述第三对抗性损失、所述源图像感知损失以及所述目标图像感知损失，训练所述第一编码器、所述第二编码器、所述第三编码器、所述文本生成器、所述判别器、第一解码器以及所述第二解码器。

根据本申请的一个或多个实施例，【示例三】提供了一种医学报告生成模型的训练方法，部分所述目标图像对应有医学文本标签；所述方法还包括：

根据所述源图像与所述重建源图像的差异以及所述目标图像与所述重建目标图像的差异，确定第一分值；

根据所述源图像特异性损失以及所述目标图像特异性损失，确定第二分值；

如果所述目标图像对应有医学文本标签，根据所述第二医学报告文本以及所述目标图像对应的医学文本标签，计算自然语言评估指标作为第三分值；

将所述第一分值、所述第二分值以及所述第三分值加权求和，得到奖励值；

以最大化所述奖励值为目标，重新训练所述第一编码器、所述第二编码器、所述第三编码器、所述文本生成器、所述判别器、第一解码器以及所述第二解码器。

根据本申请的一个或多个实施例，【示例四】提供了一种医学报告生成模型的训练方法，所述方法还包括：

将训练图像输入第一图像特征提取网络，得到第五图像特征，将所述第五图像特征输入第一分类网络，得到所述训练图像的第一预测分类结果；根据所述训练图像的第一预测分类结果以及所述训练图像对应的分类标签，训练所述第一图像特征提取网络以及所述第一分类网络；

将训练图像输入第二图像特征提取网络，得到第六图像特征，将所述第六图像特征输入第二分类网络，得到所述训练图像的第二预测分类结果；根据所述训练图像的第二预测分类结果以及所述训练图像对应的分类标签，训练所述第二图像特征提取网络以及所述第二分类网络；所述第一图像特征提取网络与所述第二图像特征提取网络的网络结构不同；

将训练完成的所述第一图像特征提取网络的模型参数确定为所述第一编码器以及所述第三编码器的初始模型参数，将训练完成的所述第二图像特征提取网络的模型参数确定为所述第二编码器的初始模型参数；所述第一图像特征提取网络与所述第一编码器以及所述第三编码器的网络结构相同，所述第二图像特征提取网络与所述第二编码器的网络结构相同。

根据本申请的一个或多个实施例，【示例五】提供了一种医学报告生成模型的训练方法，所述方法还包括：

随机初始化所述第一编码器、所述第二编码器以及所述第三编码器的初始模型参数。

根据本申请的一个或多个实施例，【示例六】提供了一种医学报告生成模型的训练方法，所述第一判别结果包括判别所述第一医学报告文本中每个分词是否由所述源图像生成的第一概率值，所述第二判别结果包括判别所述第二医学报告文本中每个分词是否由所述源图像生成的第二概率值；

所述根据所述第一判别结果计算第一对抗性损失，包括：

将所述第一概率值取对数后求和，得到第一求和结果，取所述第一求和结果的负数值，得到第一对抗性损失；

所述根据所述第二判别结果计算第二对抗性损失以及第三对抗性损失，包括：

将所述第二概率值取对数后求和，得到第二求和结果，取所述第二求和结果的负数值，得到第二对抗性损失；

根据本申请的一个或多个实施例，【示例七】提供了一种医学报告生成模型的训练方法，所述根据所述源图像以及所述重建源图像，计算源图像感知损失，包括：

将所述源图像输入第三图像特征提取网络，获取所述第三图像特征提取网络的各特征提取层输出的第七图像特征；

所述根据所述目标图像以及所述重建目标图像，计算目标图像感知损失，包括：

将所述目标图像输入第三图像特征提取网络，获取所述第三图像特征提取网络的各特征提取层输出的第九图像特征；

根据本申请的一个或多个实施例，【示例八】提供了一种医学报告生成模型的训练方法，所述根据所述源图像与所述重建源图像的差异以及所述目标图像与所述重建目标图像的差异，确定第一分值，包括：

将所述源图像输入第三图像特征提取网络，获取所述第三图像特征提取网络输出的第十一图像特征；

根据本申请的一个或多个实施例，【示例九】提供了一种医学报告生成模型的训练方法，所述根据所述源图像特异性损失以及所述目标图像特异性损失，确定第二分值，包括：

将所述源图像特异性损失以及所述目标图像特异性损失求和，得到第五求和结果，取所述第五求和结果的负数值，得到第二分值。

根据本申请的一个或多个实施例，【示例十】提供了一种医学报告生成方法，所述方法包括：

将医学图像输入编码器，得到医学图像特征；

将所述医学图像特征输入文本生成器，得到医学报告文本；

根据本申请的一个或多个实施例，【示例十一】提供了一种医学报告生成模型的训练装置，所述装置包括：

根据本申请的一个或多个实施例，【示例十二】提供了一种医学报告生成模型的训练装置，所述装置还包括：

根据本申请的一个或多个实施例，【示例十三】提供了一种医学报告生成模型的训练装置，部分所述目标图像对应有医学文本标签；所述装置还包括：

根据本申请的一个或多个实施例，【示例十四】提供了一种医学报告生成模型的训练装置，所述装置还包括：

根据本申请的一个或多个实施例，【示例十五】提供了一种医学报告生成模型的训练装置，所述装置还包括：

根据本申请的一个或多个实施例，【示例十六】提供了一种医学报告生成模型的训练装置，所述第一判别结果包括判别所述第一医学报告文本中每个分词是否由所述源图像生成的第一概率值，所述第二判别结果包括判别所述第二医学报告文本中每个分词是否由所述源图像生成的第二概率值；

所述第三计算单元，具体用于将所述第一概率值取对数后求和，得到第一求和结果，取所述第一求和结果的负数值，得到第一对抗性损失；

所述第三计算单元，具体用于将所述第二概率值取对数后求和，得到第二求和结果，取所述第二求和结果的负数值，得到第二对抗性损失；

根据本申请的一个或多个实施例，【示例十七】提供了一种医学报告生成模型的训练装置，所述第四计算单元，具体用于将所述源图像输入第三图像特征提取网络，获取所述第三图像特征提取网络的各特征提取层输出的第七图像特征；

所述第四计算单元，具体用于将所述目标图像输入第三图像特征提取网络，获取所述第三图像特征提取网络的各特征提取层输出的第九图像特征；

根据本申请的一个或多个实施例，【示例十八】提供了一种医学报告生成模型的训练装置，所述第一确定单元，具体用于将所述源图像输入第三图像特征提取网络，获取所述第三图像特征提取网络输出的第十一图像特征；

根据本申请的一个或多个实施例，【示例十九】提供了一种医学报告生成模型的训练装置，所述第二确定单元，具体用于将所述源图像特异性损失以及所述目标图像特异性损失求和，得到第五求和结果，取所述第五求和结果的负数值，得到第二分值。

根据本申请的一个或多个实施例，【示例二十】提供了一种医学报告生成装置，所述装置包括：

根据本申请的一个或多个实施例，【示例二十一】提供了一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

根据本申请的一个或多个实施例，【示例二十二】提供了一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如上述任一实施例所述的医学报告生成模型的训练方法，或者实现上述实施例所述的医学报告生成方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种医学报告生成模型的训练方法，其特征在于，所述方法包括：

将所述第一医学报告文本输入判别器，得到第一判别结果；

根据所述源图像特异性损失、所述目标图像特异性损失、所述交叉熵损失、所述第一对抗性损失、所述第二对抗性损失以及所述第三对抗性损失，训练所述第一编码器、所述第二编码器、所述第三编码器、所述文本生成器以及所述判别器，重复执行所述将源图像输入第一图像特征编码器以及后续步骤，直到达到预设条件。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述根据所述源图像特异性损失、所述目标图像特异性损失、所述交叉熵损失、所述第一对抗性损失、所述第二对抗性损失以及所述第三对抗性损失，训练所述第一编码器、所述第二编码器、所述第三编码器、所述文本生成器以及所述判别器，包括：

所述根据所述源图像特异性损失、所述目标图像特异性损失、所述交叉熵损失、所述第一对抗性损失、所述第二对抗性损失、所述第三对抗性损失、所述源图像感知损失以及所述目标图像感知损失，训练所述第一编码器、所述第二编码器、所述第三编码器、所述文本生成器、所述判别器、第一解码器以及所述第二解码器。

3.根据权利要求2所述的方法，其特征在于，部分所述目标图像对应有医学文本标签；所述方法还包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述第一判别结果包括判别所述第一医学报告文本中每个分词是否由所述源图像生成的第一概率值，所述第二判别结果包括判别所述第二医学报告文本中每个分词是否由所述源图像生成的第二概率值；

所述根据所述第一判别结果计算第一对抗性损失，包括：

7.根据权利要求2所述的方法，其特征在于，所述根据所述源图像以及所述重建源图像，计算源图像感知损失，包括：

8.根据权利要求3所述的方法，其特征在于，所述根据所述源图像与所述重建源图像的差异以及所述目标图像与所述重建目标图像的差异，确定第一分值，包括：

将所述重建目标图像输入所述第三图像特征提取网络，获取所述第三图像特征提取网络输出的第十四图像特征；

9.根据权利要求3所述的方法，其特征在于，所述根据所述源图像特异性损失以及所述目标图像特异性损失，确定第二分值，包括：

10.一种医学报告生成方法，其特征在于，所述方法包括：

将医学图像输入编码器，得到医学图像特征；

将所述医学图像特征输入文本生成器，得到医学报告文本；

所述编码器是根据权利要求1-9任一项所述的医学报告生成模型的训练方法训练得到的第二编码器；

所述文本生成器是根据权利要求1-9任一项所述的医学报告生成模型的训练方法训练得到的文本生成器。

11.一种医学报告生成模型的训练装置，其特征在于，所述装置包括：

执行单元，用于根据所述源图像特异性损失、所述目标图像特异性损失、所述交叉熵损失、所述第一对抗性损失、所述第二对抗性损失以及所述第三对抗性损失，训练所述第一编码器、所述第二编码器、所述第三编码器、所述文本生成器以及所述判别器，重复执行所述将源图像输入第一图像特征编码器以及后续步骤，直到达到预设条件。

12.一种医学报告生成装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的医学报告生成模型的训练方法，或者实现如权利要求10所述的医学报告生成方法。

14.一种计算机可读介质，其特征在于，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-9中任一所述的医学报告生成模型的训练方法，或者实现如权利要求10所述的医学报告生成方法。