CN117393100A

CN117393100A - 诊断报告的生成方法、模型训练方法、系统、设备及介质

Info

Publication number: CN117393100A
Application number: CN202311688317.4A
Authority: CN
Inventors: 黄莉莉; 伍琦; 汤进; 李成龙; 江波; 赵海峰
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-01-12
Anticipated expiration: 2043-12-11
Also published as: CN117393100B

Abstract

本发明提供一种诊断报告的生成方法、模型训练方法、系统、设备及介质。训练方法包括：获取含病变标签和诊断报告的第一类医学影像图片、含病变标签标注的第二类医学影像图片、不含病变标签标注的第三类医学影像图片；根据学生模型生成三类医学影像图片对应的第一预测诊断报告、第二预测诊断报告和第三预测诊断报告；根据教师模型生成第三类医学影像图片的第四预测诊断报告；根据文本分类模型生成第一预测诊断报告和第二预测诊断报告的预测病变标签；基于预测病变标签和病变标签、第二预测诊断报告和诊断报告、第三预测诊断报告的第四预测诊断报告，更新学生模型和教师模型的参数，将训练好的学生模型作为诊断报告生成模型。提高了模型的准确率。

Description

诊断报告的生成方法、模型训练方法、系统、设备及介质

技术领域

本发明涉及智能医疗领域，特别涉及一种诊断报告的生成方法、模型训练方法、系统、设备及介质。

背景技术

放射科医生会定期检查患者的胸部X光图像，并撰写报告，总结其描述性发现和结论性印象。基于人工智能的医学报告生成系统可以大大减轻放射科医生的工作量，并帮助他们做出决策，因此，医学报告生成技术随之诞生。

医学报告生成是医学图像分析与自然语言生成技术的结合，是指利用患者的医疗影像数据与诊断报告作为数据集，通过深度学习提取并分析相关特征，从而生成该医学影像对应的结构化的诊断报告。由于医学图像数据集中，图像相似度高，有价值的图像特征难以像图像描述数据集中的图像特征易于学习，因此医学报告生成比传统的图像描述更有难度。

现有的报告生成方法采用有监督的训练方式，严重依赖于耦合的图像-报告对。然而，在医疗领域，不管是公开的还是私有的胸部X光数据集，通常具有大量病变标签注释和相对较少的诊断报告注释，更常见的情况是没有诊断报告注释，对于没有诊断报告注释的样本，这种依靠图像-报告对得到结果的模型准确度较低。此外，构建一个大规模的图像报告配对数据集既耗时又昂贵。因此，为了能够同时利用没有诊断报告注释的数据训练模型，统一不同的监督粒度，需要提供一种诊断报告的生成方法、模型训练方法、系统、设备及介质。

发明内容

本发明提供一种诊断报告的生成方法、模型训练方法、系统、设备及介质。以解决现有技术中无法利用没有诊断报告注释的数据进行训练以及训练的诊断报告生成模型准确度不高的问题。

本发明提供的一种诊断报告生成模型训练方法，包括：获取含病变标签和诊断报告的第一类医学影像图片、含病变标签标注的第二类医学影像图片、不含病变标签标注的第三类医学影像图片；将第一类医学影像图片、第二类医学影像图片、第三类医学影像图片输入预训练好的学生模型，分别提取各类医学影像图片的图像特征，对应生成第一预测诊断报告、第二预测诊断报告和第三预测诊断报告；将第三类医学影像图片输入教师模型，提取第三类医学影像图片的图像特征，生成第四预测诊断报告；其中，所述教师模型与所述学生模型的结构相同；将第一预测诊断报告和第二预测诊断报告输入预训练好的文本分类模型，提取诊断报告中的文本特征，生成预测病变标签；基于预测病变标签和病变标签的差异度、第二预测诊断报告和真实诊断报告的差异度，以及第三预测诊断报告的第四预测诊断报告的差异度，更新学生模型的参数和教师模型的参数，得到训练好的诊断报告生成模型；其中，所述诊断报告生成模型为训练好的学生模型。

于本发明一实施例中，所述文本分类模型通过预训练得到，所述文本分类模型的预训练过程包括：将第一类医学影像图片输入至文本分类模型，提取诊断报告中的文本特征；基于文本特征生成预测病变标签；基于交叉熵损失函数，计算预测病变标签和真实病变标签的差异值；根据差异值反向更新文本分类模型的参数，直至达到训练终止条件，得到预训练好的文本分类模型。

于本发明一实施例中，所述学生模型通过预训练得到，所述学生模型的预训练过程包括：将第一类医学影像图片输入至学生模型，基于卷积神经网络提取第一类医学影像图片中的图像特征，得到图像特征矩阵；其中，所述学生模型包括卷积神经网络和Transformer网络；对图像特征矩阵进行空间变换和位置编码，并将处理后的图像特征矩阵输入至Transformer的编码器，得到全局图像特征矩阵；将诊断报告进行词嵌入处理和位置编码，将处理后的诊断报告和全局图像特征矩阵输入至Transformer的解码器，得到预测诊断报告；基于交叉熵损失函数，计算预测诊断报告和真实诊断报告之间的差异度；根据差异度反向更新学生模型，直至达到预设终止条件，得到预训练好的学生模型。

于本发明一实施例中，所述基于预测病变标签和病变标签的差异度、第二预测诊断报告和真实诊断报告的差异度，以及第三预测诊断报告的第四预测诊断报告的差异度，更新学生模型的参数和教师模型的参数，包括：计算预测病变标签和真实病变标签的差异度，得到分类损失；计算第二预测诊断报告和真实诊断报告的差异度，得到报告生成损失；计算第三预测诊断报告的第四预测诊断报告的差异度，得到一致性损失；根据分类损失、一致性损失和报告生成损失，获得总损失，其中，/>为报告生成损失，/>为分类损失，/>为一致性损失；基于梯度下降法，使用总损失逐层反向传播，更新学生模型的参数；将学生模型的参数按照指数移动平均法进行计算，根据计算结果对应更新教师模型的参数。

于本发明一实施例中，所述分类损失，其中，n为病变标签的种类数，k为第一类医学影像图片和第二类医学影像图片的总数，和/>分别为第j个实例的第i种病变标签的真实值和预测值；所述报告生成损失，其中，l为诊断报告中的单词数量，v为词汇表中单词的数目，/>为第二预测诊断报告的第i个位置选择词汇表中第j个字的置信度，/>[0, 1]，/>为真实诊断报告的第i个位置选择词汇表中第j个字的置信度，/>；所述一致性损失/>，其中，/>为第四预测诊断报告中第i个位置选择词汇表中第j个字的置信度，/>为第三预测诊断报告和的第i个位置选择词汇表中第j个字的置信度，l为诊断报告中的单词数量，v为词汇表中单词的数目。

于本发明一实施例中，所述更新学生模型的参数和教师模型的参数时，冻结所述文本分类模型的参数。

于本发明一实施例中，还提供一种诊断报告的生成方法，所述方法包括：获取医学影像图片；将所述医学影像图片输入至上述任一项所述的诊断报告生成模型训练方法训练出的诊断报告生成模型中，提取所述医学影像图片的图像特征，并基于提取的图像特征，生成所述医学影像图片的诊断报告。

在本发明的另一方面，还提供了一种诊断报告生成模型训练系统，所述系统包括：数据获取模块，用于获取含病变标签和诊断报告的第一类医学影像图片、含病变标签标注的第二类医学影像图片、不含病变标签标注的第三类医学影像图片；学生模型数据输出模块，用于将第一类医学影像图片、第二类医学影像图片、第三类医学影像图片输入预训练好的学生模型，分别提取各类医学影像图片的图像特征，对应生成第一预测诊断报告、第二预测诊断报告和第三预测诊断报告；教师模型数据输出模块，用于将第三类医学影像图片输入教师模型，提取第三类医学影像图片的图像特征，生成第四预测诊断报告；其中，所述教师模型与所述学生模型的结构相同；标签预测模块，用于将第一预测诊断报告和第二预测诊断报告输入预训练好的文本分类模型，提取诊断报告中的文本特征，生成预测病变标签；参数更新模块，用于基于预测病变标签和病变标签的差异度、第二预测诊断报告和真实诊断报告的差异度，以及第三预测诊断报告的第四预测诊断报告的差异度，更新学生模型的参数和教师模型的参数，得到训练好的诊断报告生成模型；其中，所述诊断报告生成模型为训练好的学生模型。

于本发明一实施例中，还提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现上述任一项所述诊断报告生成模型训练方法或诊断报告的生成方法。

于本发明一实施例中，还提供一种计算机可读存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序被计算机的处理器执行时，使计算机执行上述任一项所述诊断报告生成模型训练方法或诊断报告的生成方法。

本发明提出的一种诊断报告的生成方法、模型训练方法、系统、设备及介质，通过将含病变标签和诊断报告的第一类医学影像图片、含病变标签标注的第二类医学影像图片、不含病变标签标注的第三类医学影像图片输入至预训练的学生模型中，得到与第一类医学影像图片对应的第一预测诊断报告，与第二类医学影像图片对应的第二预测诊断报告，以及与第三类医学影像图片对应的第三预测诊断报告。将第三类医学影像图片输入至教师模型，得到该医学影像图片对应的第四预测诊断报告。将第一预测诊断报告和第二预测诊断报告输入预训练好的文本分类模型，生成对应的预测病变标签。根据预测病变标签和病变标签的差异度、第二预测诊断报告和真实诊断报告的差异度，以及第三预测诊断报告的第四预测诊断报告的差异度，更新学生模型的参数和教师模型的参数，将训练好的学生模型作为诊断报告生成模型。本发明创造性提出了一种全方位监督的诊断报告生成算法，统一了不同的监督粒度，实现了图像和报告的解耦，极大降低了对于成对的图像-报告数据的依赖度，降低了数据收集的成本，提升了数据收集效率。

附图说明

图1显示为本发明实施例提供的诊断报告生成模型训练方法流程示意图；

图2显示为本发明实施例提供的参数更新的流程示意图；

图3显示为本发明实施例提供的诊断报告生成模型训练方法的总体流程图；

图4显示为本发明实施例提供的第一类医学影像图片的示意图；

图5显示为本发明实施例提供的第二类医学影像图片的示意图；

图6显示为本发明实施例提供的第三类医学影像图片的示意图；

图7显示为本发明实施例提供的预测诊断报告和真实诊断报告对比的示意图；

图8显示为本发明实施例提供的诊断报告生成模型训练系统的结构框图；

图9显示为诊断报告生成模型训练方法的电子设备的一结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

在下文描述中，探讨了大量细节，以提供对本发明实施例的更透彻的解释，然而，对本领域技术人员来说，可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的，在其他实施例中，以方框图的形式而不是以细节的形式来示出公知的结构和设备，以避免使本发明的实施例难以理解。

请参见图3，本发明提供一种诊断报告生成模型训练方法，通过将含病变标签和诊断报告的第一类医学影像图片、含病变标签标注的第二类医学影像图片、不含病变标签标注的第三类医学影像图片输入至预训练的学生模型中，得到与第一类医学影像图片对应的第一预测诊断报告，与第二类医学影像图片对应的第二预测诊断报告，以及与第三类医学影像图片对应的第三预测诊断报告。将第三类医学影像图片输入至教师模型，得到该医学影像图片对应的第四预测诊断报告。将第一预测诊断报告和第二预测诊断报告输入预训练好的文本分类模型，生成对应的预测病变标签。根据预测病变标签和病变标签的差异度、第二预测诊断报告和真实诊断报告的差异度，以及第三预测诊断报告的第四预测诊断报告的差异度，更新学生模型的参数和教师模型的参数，将训练好的学生模型作为诊断报告生成模型。本发明创造性提出了一种全方位监督的诊断报告生成算法，能够同时利用强标注、弱标注和无标注样本数据训练模型，统一了不同的监督粒度，实现了图像和报告的解耦，极大降低了对成对的图像-报告数据的依赖度。且训练的诊断报告生成模型具有较高的准确度，可以用于临床报告生成，并辅助医生撰写临床医疗报告。

请参见图1，诊断报告生成模型训练方法包括如下步骤：

S1、获取含病变标签和诊断报告的第一类医学影像图片、含病变标签标注的第二类医学影像图片、不含病变标签标注的第三类医学影像图片。

本发明所述的医学影像图片，是指医疗设备对人体或人体某部分，以非侵入方式取得内部组织的影像，医学影像图片的类型包括但不限于心血管造影、电子计算机断层扫描、正子发射断层扫描、核磁共振成像、医学超音波检查等。其中，根据所采用的射线不同可将电子计算机断层扫描分为：X射线CT（X-CT）、超声CT（UCT）以及γ射线CT（γ-CT）等。为便于叙述，本发明以胸部X射线图像为例予以说明，但可以理解的是，其他类型的医学影像图片也包含在本发明公开的保护范围内。

医学影像图片以及诊断报告和病变便签的获取途径包括但不限于从历史档案数据库中获取、从网络开源的数据库获取等，本发明中医学影像图片从网络开源的公开数据集MIMIC-CXR数据集中获取得到。诊断报告是几句话构成的报告文本，用于表征患者的检查情况，病变标签用于表征患者具体的某类病变表现，对于胸部X射线图像，其病变标签共包括十四种不同类型，包括：心脏纵隔增大、心脏肿大、肺部病变、肺部浑浊、水肿、肺实变、肺炎、肺不张、气胸、胸腔积液、其他胸腔症状、骨折、凝血功能障碍、医疗设备。可以理解的是，对于不同类型的医学影像图片，其病变标签需要适应性设置，在此不做限定。

请参见图4至图6，本发明中的第一类医学影像图片为含有病变标签、诊断报告的胸部X光射线图像，并将其作为强标注数据，第二类医学影像图片为仅含有病变标签的胸部X光射线图像，并将其作为弱标注数据，第三类医学影像图像为既不含有病变标签，又不含有诊断报告的胸部X光射线图像，并将其作为无标注数据。由于同时含有病变标签和诊断报告的数据较少，因此本发明中，获取少量的第一类医学影像图片，以及大量的第二类医学影像图片和第三类医学影像图片作为样本数据，示例性地，第一类医学影像图片为7470张，第二类医学影像图片和第三类医学影像图片分别为224316张。例如，对于强标注的第一类医学影像图片，真实诊断报告为纵膈上的结肠夹层重新显示。双侧气隙不透明增加，左侧比右侧大。没有气胸或大量胸腔积液。对应的真实病变标签为肺炎、其他胸腔症状。对于弱标注的第二类医学影像图片，该医学影像图片的真实病变标签为心脏肿大、肺部病变、凝血功能障碍。对于无标注的第三类医学影像图片，只有一个影像图片，没有病变标签和诊断报告。

S2、将第一类医学影像图片、第二类医学影像图片、第三类医学影像图片输入预训练好的学生模型，分别提取各类医学影像图片的图像特征，对应生成第一预测诊断报告、第二预测诊断报告和第三预测诊断报告。

将第一类医学影像图片、第二类医学影像图片和第三类医学影像图片输入至预训练好的学生模型中，提取第一类医学影像图片的图像特征，并根据提取的图像特征生成第一预测诊断报告；提取第二类医学影像图片的图像特征，并根据提取的图像特征生成第二预测诊断报告；提取第三类医学影像图片的图像特征，并根据提取的图像特征生成第三预测诊断报告。通过学生模型，可以提升模型从强标注数据中学习的能力。

S3、将第三类医学影像图片输入教师模型，提取第三类医学影像图片的图像特征，生成第四预测诊断报告；其中，所述教师模型与所述学生模型的结构相同。

教师模型与学生模型的结构相同，通过将预训练的学生模型进行初始化得到教师模型。将第三类医学影像图片输入至教师模型中，教师模型通过提取第三类医学影像图片中的图像特征，根据提取的图像特征生成第四预测诊断报告。通过教师模型，可以提升模型从无任何标注的图片中学习的能力。

S4、将第一预测诊断报告和第二预测诊断报告输入预训练好的文本分类模型，提取诊断报告中的文本特征，生成预测病变标签。

为了能够从弱标注数据中学习，首先需要构建并预训练一个文本分类模型，本发明中文本分类模型可以为任何一种能够实现文本特征提取的模型，例如LSTM、BERT、Transformer等，优选地，文本分类模型由长短期记忆网络（Long Short-Term Memory，LSTM）添加一个多标签分类头组成，其中，多标签分类头包括依次连接的用于通道数转换的1×1大小的卷积层、平均池化层和一个sigmoid层。当文本分类模型由长短期记忆网络添加一个多标签分类头组成时，预测病变标签的生成过程为：将第一预测诊断报告输入至预训练后的文本分类模型中，文本分类模型通过提取第一预测诊断报告中的第一文本特征，并将第一文本特征输入至多标签分类头，得到每个预测病变标签的概率值，选择其中概率值最高的病变标签作为第一预测诊断报告的预测病变标签。文本分类模型通过第二预测诊断报告，生成对应第二预测病变标签的过程与上述第一预测诊断报告的过程相同，在此不做赘述。可以理解的是，文本分类模型还可由一个卷积神经网络（CNN）模型和多标签分类头组成，其中，卷积神经网络包括多个不同长度的卷积滤波器，并使用缩放点积注意力机制来聚合所有空间位置和各卷积滤波器的特征表示。

S5、基于预测病变标签和病变标签的差异度、第二预测诊断报告和真实诊断报告的差异度，以及第三预测诊断报告的第四预测诊断报告的差异度，更新学生模型的参数和教师模型的参数，得到训练好的诊断报告生成模型；其中，所述诊断报告生成模型为训练好的学生模型。

对三类不同的医学影像图片进行全方位监督训练，计算文本分类模型输出的预测病变标签与真实病变标签的差异度，并将该差异度作为分类损失，计算第三预测诊断报告和第四预测诊断报告的差异度，并将该差异度作为报告生成损失，计算第二预测诊断报告和真实诊断报告的差异度，并将该差异度作为一致性损失，通过将一致性损失、报告生成损失和分类损失求和得到总损失。根据总损失更新学生模型和教师模型，当训练次数达到预设次数阈值，或总损失小于预设阈值时，模型训练完成，将训练好的学生模型作为诊断报告生成模型。

在本发明一实施例中，所述文本分类模型通过预训练得到，所述文本分类模型的预训练过程包括：

将第一类医学影像图片输入至文本分类模型，提取诊断报告中的文本特征；

基于文本特征生成预测病变标签；

基于交叉熵损失函数，计算预测病变标签和真实病变标签的差异值；

根据差异值反向更新文本分类模型的参数，直至达到训练终止条件，得到预训练好的文本分类模型。

本实施例中，以文本分类模型双向长短期记忆网络添加一个多标签分类头组成，进行相应说明。将第一类医学影像图片输入至文本分类模型，由于诊断报告包括若干个语句，语句可以看成是由词语组成的序列信息。先通过词嵌入算法将诊断报告中的每个词转换为一个向量，从而构建该诊断报告的文本向量序列。将文本向量序列输入至双向长短期记忆网络，结合文本向量序列中该词语的前后信息，应用标签种类数的附加注意力机制，提取诊断报告的文本特征向量。将文本特征向量输入至多标签分类头，获得每种病变标签对应的概率分布值。选择概率分布值最高的病变标签，作为该第一类医学影像图片对应的预测病变标签。使用交叉熵损失函数计算预测病变标签和真实病变标签的差异度，将差异度作为损失值，并根据损失值基于梯度下降法反向更新文本分类模型的各项参数，对文本分类模型进行迭代训练，直至达到训练终止条件，得到预训练好的文本分类模型，其中，迭代训练时，可采用交叉验证的方式，使用训练集和验证集交替训练，训练终止条件为达到预设的训练次数或文本分类模型在验证集上平均损失低于预设阈值。

在本发明一实施例中，所述学生模型通过预训练得到，所述学生模型的预训练过程包括：

将第一类医学影像图片输入至学生模型，基于卷积神经网络提取第一类医学影像图片中的图像特征，得到图像特征矩阵；其中，所述学生模型包括卷积神经网络和Transformer网络；

对图像特征矩阵进行空间变换和位置编码，并将处理后的图像特征矩阵输入至Transformer的编码器，得到全局图像特征矩阵；

将诊断报告进行词嵌入处理和位置编码，将处理后的诊断报告和全局图像特征矩阵输入至Transformer的解码器，得到预测诊断报告；

基于交叉熵损失函数，计算预测诊断报告和真实诊断报告之间的差异度；

根据差异度反向更新学生模型，直至达到预设终止条件，得到预训练好的学生模型。

本实施例中，卷积神经网络的类型包括但不限于Resnet、Denset等，为了更有效的利用特征，优选地，学生模型为DenseNet-121模型和Transformer框架，但可以理解的是，学生模型还可使用卷积神经网络和LSTM框架、卷积神经网络和BERT框架等，在此不做限定。将第一类医学影像图片输入至DenseNet-121模型，提取该医学影像图片在DenseNet-121模型每一层的特征，特征提取时，并将前面所有层的输出特征作为当前层的输入，直至将平均池化层之前提取的图像特征作为图像特征矩阵。将图像特征矩阵投影到d维空间进行空间变换，得到具有n个空间位置的空间特征矩阵。基于可学习的位置编码矩阵对图像特征矩阵进行位置编码，得到位置编码后特征矩阵/>。将位置编码后特征矩阵/>和空间特征矩阵/>一起输入至Transformer的编码器（即编码器输入/>），得到全局图像特征矩阵。将长度为m的诊断报告进行位置编码，得到位置编码后诊断报告。将诊断报告进行词嵌入处理，得到词嵌入后诊断报告/>。将词嵌入后诊断报告/>和位置编码后诊断报告/>、全局图像特征矩阵共同输入至Transformer的解码器，得到预测诊断报告。使用交叉熵损失函数计算预测诊断报告中每个单词和对应真实诊断报告中对应位置单词的差异度，得到报告生成损失。根据报告生成损失，基于梯度下降法方向更新学生模型，直至达到预设训练终止条件，得到预训练好的学生模型。其中，迭代训练时，可采用交叉验证的方式，使用训练集和验证集交替训练，训练终止条件为达到预设的训练次数或学生模型在验证集上平均损失低于预设阈值。

请参见图2，在本发明一实施例中，所述基于预测病变标签和病变标签的差异度、第二预测诊断报告和真实诊断报告的差异度，以及第三预测诊断报告的第四预测诊断报告的差异度，更新学生模型的参数和教师模型的参数，包括：

S51、计算预测病变标签和真实病变标签的差异度，得到分类损失；

S52、计算第二预测诊断报告和真实诊断报告的差异度，得到报告生成损失；

S53、计算第三预测诊断报告的第四预测诊断报告的差异度，得到一致性损失；

S54、根据分类损失、一致性损失和报告生成损失，获得总损失，其中，/>为报告生成损失，/>为分类损失，/>为一致性损失；

S55、基于梯度下降法，使用总损失逐层反向传播，更新学生模型的参数；

S56、将学生模型的参数按照指数移动平均法进行计算，根据计算结果对应更新教师模型的参数。

通过三类不同的医学影像图片，对模型进行全方位监督训练，其中，全方位监督训练包括弱监督分支的训练、强监督分支的训练和无监督分支的训练。具体地，在弱监督分支，通过计算文本分类模型输出的预测病变标签，以及真实病变标签的差异度，得到分类损失。分类损失的计算如公式（1）所示：

（1）

其中，为分类损失，n为病变标签的种类数，k为第一类医学影像图片和第二类医学影像图片的总数（即实例数量），/>，为第j个实例的第i种病变标签的真实值，[0, 1]，为第j个实例的第i种病变标签的预测值。

在强监督分支，通过计算学生模型输出的预测诊断报告，以及真实诊断报告之间的差异度，得到报告生成损失。报告生成损失的计算如公式（2）所示：

（2）

其中，为报告生成损失，l为诊断报告中的单词数量，v为词汇表中单词的数目，/>为真实诊断报告的第i个位置选择词汇表中第j个字的置信度，/>，为第二预测诊断报告的第i个位置选择词汇表中第j个字的置信度，/>[0,1]。

在无监督分支，通过计算学生模型输出的预测诊断报告，以及教师模型输出的预测诊断报告之间的差异度，得到一致性损失。一致性损失的计算如公式（3）所示：

（3）

其中，为一致性损失，/>为第四预测诊断报告中第i个位置选择词汇表中第j个字的置信度，/>为第三预测诊断报告和的第i个位置选择词汇表中第j个字的置信度，l为诊断报告中的单词数量，v为词汇表中单词的数目。

根据分类损失、一致性损失和报告生成损失，得到全方位监督训练的总损失为三者之和，通过梯度下降法将总损失逐层反向传播，更新学生模型的参数。每次学生模型参数更新时，将学生模型的每次更新记为一次时间步，教师模型在每个时间步，按照指数移动平均法，对学生模型的参数按照公式（4）进行计算，得到教师模型的参数值：

（4）

其中，为教师模型在当前时间步的参数值，/>为权重参数，/>为教师模型在前一时间步的参数值，/>为学生模型在当前时间步的参数值。可以理解的是，由于教师模型和学生模型的结构相同，因此具有的参数的类型和数量也相同，/>和/>为对应关系，即教师模型中当前时间步的A参数的取值/>，根据学生模型中A参数值/>、教师模型中前一时间步的A参数值/>得到，同理，B参数的取值也是根据学生模型中B参数值、教师模型中前一时间步的B参数值/>得到。

通过对学生模型和教师模型进行迭代训练，当验证集上的总损失值不再降低后，将验证集上总损失值最小的学生模型的参数作为诊断报告生成模型进行保存，完成训练。

在本发明一实施例中，所述更新学生模型的参数和教师模型的参数时，冻结所述文本分类模型的参数。即在更新参数时，保持文本分类模型的参数不变，使用梯度下降法更新学生模型的参数，使用指数移动平均法更新教师模型的参数。

请参见图7，在本发明一实施例中，还提供一种诊断报告的生成方法，所述方法包括：获取医学影像图片；将所述医学影像图片输入至上述任一项所述的诊断报告生成模型训练方法训练出的诊断报告生成模型中，提取所述医学影像图片的图像特征，并基于提取的图像特征，生成所述医学影像图片的诊断报告。对于任何一张医学影像图片，将其输入至训练好的诊断报告生成模型中，通过提取和识别医学影像图片中的图像特征，从而得到该图像特征对应的预测诊断报告。例如，编号为CXR3030_IM-1405的医学影像图片，真实诊断报告为：正常心脏纵膈轮廓。没有局灶性巩固。未见大量胸腔积液。没有气胸。未见急性骨质异常。通过诊断报告生成模型，得到的预测诊断报告为：双侧肺清晰。特别是没有局灶性实变气胸或胸腔积液的证据。心脏纵膈轮廓不明显。可见胸腔骨结构未见急性异常。由此可见，使用本发明所述诊断报告生成模型，生成的预测诊断报告与真实诊断报告的内容十分接近。

现有方式通常利用公开可用的数据集，开发基于编码器-解码器框架的深度学习模型，将卷积神经网络与循环神经网络集成在一起，用于图像分析和自然语言生成。但这种方式采用有监督的训练方式，对于数据对的耦合程度具有较高依赖度，本发明中提出的全监督训练方式，可以采用无监督、强监督和弱监督的方式同时训练模型，使得模型具有较高的鲁棒性。

请参见图8，该诊断报告生成模型训练系统100包括：数据获取模块110、学生模型数据输出模块120、教师模型数据输出模块130、标签预测模块140和参数更新模块150。其中，上述数据获取模块110用于获取含病变标签和诊断报告的第一类医学影像图片、含病变标签标注的第二类医学影像图片、不含病变标签标注的第三类医学影像图片。上述学生模型数据输出模块120用于将将第一类医学影像图片、第二类医学影像图片、第三类医学影像图片输入预训练好的学生模型，分别提取各类医学影像图片的图像特征，对应生成第一预测诊断报告、第二预测诊断报告和第三预测诊断报告。上述教师模型数据输出模块130用于将第三类医学影像图片输入教师模型，提取第三类医学影像图片的图像特征，生成第四预测诊断报告；其中，所述教师模型与所述学生模型的结构相同。上述标签预测模块140用于将第一预测诊断报告和第二预测诊断报告输入预训练好的文本分类模型，提取诊断报告中的文本特征，生成预测病变标签。上述参数更新模块150用于基于预测病变标签和病变标签的差异度、第二预测诊断报告和真实诊断报告的差异度，以及第三预测诊断报告的第四预测诊断报告的差异度，更新学生模型的参数和教师模型的参数，得到训练好的诊断报告生成模型；其中，所述诊断报告生成模型为训练好的学生模型。

需要说明的是，为了突出本发明的创新部分，本实施例中并没有将与解决本发明所提出的技术问题关系不太密切的模块引入，但这并不表明本实施例中不存在其它的模块。

请参见图9，所述电子设备1可以包括存储器12、处理器13和总线，还可以包括存储在所述存储器12中并可在所述处理器13上运行的计算机程序，例如诊断报告生成模型训练程序或诊断报告的生成程序。

其中，存储器12至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器（例如：SD或DX存储器等）、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。存储器12在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡（Smart Media Card, SMC）、安全数字（Secure Digital, SD）卡、闪存卡（Flash Card）等。进一步地，存储器12还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器12不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如诊断报告生成模型训练的代码或诊断报告的生成代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器13在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器（Central Processing unit，CPU）、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器13是所述电子设备1的控制核心（Control Unit），利用各种接口和线路连接整个电子设备1的各个部件，通过运行或执行存储在所述存储器12内的程序或者模块（例如诊断报告生成模型训练程序或诊断报告的生成程序等），以及调用存储在所述存储器12内的数据，以执行电子设备1的各种功能和处理数据。

所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述诊断报告生成模型训练方法或诊断报告的生成方法中的步骤。

示例性的，所述计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器12中，并由所述处理器13执行，以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述电子设备1中的执行过程。例如，所述计算机程序可以被分割数据获取模块110、学生模型数据输出模块120、教师模型数据输出模块130、标签预测模块140和参数更新模块150。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中，所述计算机可读存储介质可以是非易失性，也可以是易失性。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、计算机设备，或者网络设备等）或处理器（processor）执行本申请各个实施例所述诊断报告生成模型训练方法或诊断报告的生成方法的部分功能。

综上所述，本发明公开的一种诊断报告的生成方法、模型训练方法、系统、设备及介质，通过将含病变标签和诊断报告的第一类医学影像图片、含病变标签标注的第二类医学影像图片、不含病变标签标注的第三类医学影像图片输入至预训练的学生模型中，得到与第一类医学影像图片对应的第一预测诊断报告，与第二类医学影像图片对应的第二预测诊断报告，以及与第三类医学影像图片对应的第三预测诊断报告。将第三类医学影像图片输入至教师模型，得到该医学影像图片对应的第四预测诊断报告。将第一预测诊断报告和第二预测诊断报告输入预训练好的文本分类模型，生成对应的预测病变标签。根据预测病变标签和病变标签的差异度、第二预测诊断报告和真实诊断报告的差异度，以及第三预测诊断报告的第四预测诊断报告的差异度，更新学生模型的参数和教师模型的参数，将训练好的学生模型作为诊断报告生成模型。本发明创造性提出了一种全方位监督的诊断报告生成算法，能够同时利用强标注、弱标注和无标注样本数据训练模型，统一了不同的监督粒度，实现了图像和报告的解耦，极大降低了对成对数据的依赖度，充分利用了各种可用的数据。将医学影像图片输入至训练好的诊断报告生成模型中，可以生成对应的诊断报告，用于临床医疗报告生成，辅助医生撰写临床医疗报告。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种诊断报告生成模型训练方法，其特征在于，所述方法包括：

获取含病变标签和诊断报告的第一类医学影像图片、含病变标签标注的第二类医学影像图片、不含病变标签标注的第三类医学影像图片；

将第一类医学影像图片、第二类医学影像图片、第三类医学影像图片输入预训练好的学生模型，分别提取各类医学影像图片的图像特征，对应生成第一预测诊断报告、第二预测诊断报告和第三预测诊断报告；

将第三类医学影像图片输入教师模型，提取第三类医学影像图片的图像特征，生成第四预测诊断报告；其中，所述教师模型与所述学生模型的结构相同；

将第一预测诊断报告和第二预测诊断报告输入预训练好的文本分类模型，提取诊断报告中的文本特征，生成预测病变标签；

基于预测病变标签和病变标签的差异度、第二预测诊断报告和真实诊断报告的差异度，以及第三预测诊断报告的第四预测诊断报告的差异度，更新学生模型的参数和教师模型的参数，得到训练好的诊断报告生成模型；其中，所述诊断报告生成模型为训练好的学生模型。

2.根据权利要求1所述的诊断报告生成模型训练方法，其特征在于，所述文本分类模型通过预训练得到，所述文本分类模型的预训练过程包括：

基于文本特征生成预测病变标签；

3.根据权利要求1所述的诊断报告生成模型训练方法，其特征在于，所述学生模型通过预训练得到，所述学生模型的预训练过程包括：

4.根据权利要求1所述的诊断报告生成模型训练方法，其特征在于，所述基于预测病变标签和病变标签的差异度、第二预测诊断报告和真实诊断报告的差异度，以及第三预测诊断报告的第四预测诊断报告的差异度，更新学生模型的参数和教师模型的参数，包括：

计算预测病变标签和真实病变标签的差异度，得到分类损失；

计算第二预测诊断报告和真实诊断报告的差异度，得到报告生成损失；

计算第三预测诊断报告的第四预测诊断报告的差异度，得到一致性损失；

根据分类损失、一致性损失和报告生成损失，获得总损失，其中，/>为报告生成损失，/>为分类损失，/>为一致性损失；

基于梯度下降法，使用总损失逐层反向传播，更新学生模型的参数；

将学生模型的参数按照指数移动平均法进行计算，根据计算结果对应更新教师模型的参数。

5.根据权利要求4所述的诊断报告生成模型训练方法，其特征在于，所述分类损失，其中，n为病变标签的种类数，k为第一类医学影像图片和第二类医学影像图片的总数，/>和/>分别为第j个实例的第i种病变标签的真实值和预测值：

所述报告生成损失，其中，l为诊断报告中的单词数量，v为词汇表中单词的数目，/>为第二预测诊断报告的第i个位置选择词汇表中第j个字的置信度，/>[0, 1]，/>为真实诊断报告的第i个位置选择词汇表中第j个字的置信度，/>；

所述一致性损失，其中，/>为第四预测诊断报告中第i个位置选择词汇表中第j个字的置信度，/>为第三预测诊断报告和的第i个位置选择词汇表中第j个字的置信度，l为诊断报告中的单词数量，v为词汇表中单词的数目。

6.根据权利要求1所述的诊断报告生成模型训练方法，其特征在于，所述更新学生模型的参数和教师模型的参数时，冻结所述文本分类模型的参数。

7.一种诊断报告的生成方法，其特征在于，所述方法包括：

获取医学影像图片；

将所述医学影像图片输入至权利要求1-6任一项所述的诊断报告生成模型训练方法训练出的诊断报告生成模型中，提取所述医学影像图片的图像特征，并基于提取的图像特征，生成所述医学影像图片的诊断报告。

8.一种诊断报告生成模型训练系统，其特征在于，所述系统包括：

数据获取模块，用于获取含病变标签和诊断报告的第一类医学影像图片、含病变标签标注的第二类医学影像图片、不含病变标签标注的第三类医学影像图片；

学生模型数据输出模块，用于将第一类医学影像图片、第二类医学影像图片、第三类医学影像图片输入预训练好的学生模型，分别提取各类医学影像图片的图像特征，对应生成第一预测诊断报告、第二预测诊断报告和第三预测诊断报告；

教师模型数据输出模块，用于将第三类医学影像图片输入教师模型，提取第三类医学影像图片的图像特征，生成第四预测诊断报告；其中，所述教师模型与所述学生模型的结构相同；

标签预测模块，用于将第一预测诊断报告和第二预测诊断报告输入预训练好的文本分类模型，提取诊断报告中的文本特征，生成预测病变标签；

参数更新模块，用于基于预测病变标签和病变标签的差异度、第二预测诊断报告和真实诊断报告的差异度，以及第三预测诊断报告的第四预测诊断报告的差异度，更新学生模型的参数和教师模型的参数，得到训练好的诊断报告生成模型；其中，所述诊断报告生成模型为训练好的学生模型。

9.一种电子设备，其特征在于：所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1至6中任一项所述的诊断报告生成模型训练方法或权利要求7所述的诊断报告的生成方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序被计算机的处理器执行时，使计算机执行权利要求1至6中任一项所述的诊断报告生成模型训练方法或权利要求7所述的诊断报告的生成方法。