CN115223678A

CN115223678A - 基于多任务多模态深度学习的x光胸片诊断报告生成方法

Info

Publication number: CN115223678A
Application number: CN202210890845.7A
Authority: CN
Inventors: 崔少国; 尚曹志; 屈虎
Original assignee: Chongqing Normal University
Current assignee: Chongqing Normal University
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2022-10-21

Abstract

本发明提供一种基于多任务多模态深度学习的X光胸片诊断报告生成方法，包括以下步骤：由多模态特征提取器、多模态特征关系探索器和疾病状态分类器组成的多模态特征融合疾病分类网络模型搭建，报告生成网络模型搭建，联合训练与参数优化以及胸部疾病诊断报告自动生成。本申请通过输入多视角X光胸片及其临床历史文本，采用多模态特征提取器提取丰富的上下文信息，并利用这些信息共同对疾病状态标签进行预测，以显著提高预测准确率；通过将疾病分类结果返回给模型，使得模型在后续单词预测时获得更准确的疾病信息以缓解视觉数据偏差；通过多任务学习同时最小化疾病分类网络和报告生成网络的损失，使模型在精确生成诊断报告的同时具有更好鲁棒性。

Description

基于多任务多模态深度学习的X光胸片诊断报告生成方法

技术领域

本发明涉及医学图像理解技术领域，具体涉及一种基于多任务多模态深度学习的X光胸片诊断报告生成方法。

背景技术

X光胸片在临床工作流程中被广泛用于诊断、检测和治疗干预诸多常见胸部疾病，例如肺炎、气胸、肺癌和间质性肺疾病等。在经过放射学检查后，放射科医生需提供一份对正常以及异常部位进行消息描述的放射学报告以便辅助门诊医生诊断或转诊。然而，这一流程对于缺乏经验的医生可能会导致误诊或漏诊的情况发生，而对于有经验的医生撰写报告非常耗时和乏味导致效率低下。通过自动化生成放射学报告提高效率，减少不必要的错误，并减轻放射科医生编写报告的负担是一项极具价值的工作。

由于深度学习在计算机视觉和自然语言处理等领域快速且成功的发展，使得由图像到文字这一跨模态的过程得以实现。放射学报告自动生成是利用图像特征对每一个时间步进行单词预测，基于编解码框架的深度学习技术使得生成报告与医生撰写报告的相似度得到了显著提升。编解码框架能通过端对端的训练以有监督学习的方式从训练数据中自动学习面向具体任务的层级化特征。然而，本申请的发明人经过研究发现，当前基于深度学习的X光胸片检查报告自动生成存在以下不足：(1)通过单一视角的图像进行单词预测，无法全面的观察胸部的情况，容易误诊或漏诊；(2)基于纯数据驱动的深度学习方法，容易被巨大的视觉与语义的数据偏差误导，导致偏向生成正常的描述而无法正确的检查出异常。

发明内容

针对现有基于深度学习的X光胸片检查报告自动生成存在通过单一视角的图像进行单词预测，因而无法全面的观察胸部的情况，容易误诊或漏诊；以及基于纯数据驱动的深度学习方法，容易被巨大的视觉与语义的数据偏差误导，导致偏向生成正常的描述而无法正确的检查出异常的技术问题，本发明提供一种基于多任务多模态深度学习的X光胸片诊断报告生成方法。

为了解决上述技术问题，本发明采用了如下的技术方案：

基于多任务多模态深度学习的X光胸片诊断报告生成方法，包括以下步骤：

S1、多模态特征融合疾病分类网络模型搭建：所述多模态特征融合疾病分类网络用于生成输入X光胸片的常见疾病的分类结果，该多模态特征融合疾病分类网络包括多模态特征提取器、多模态特征关系探索器和疾病状态分类器；

S11、所述多模态特征提取器用于分别从输入X光胸片和临床历史文本提取不同模态特征，针对X光胸片采用深度卷积网络作为图像特征提取器，所述图像特征提取器包括第一至第四紧密连接层组和第一至第三过渡层，所述第一过渡层位于第一紧密连接层组之后，所述第二过渡层位于第二紧密连接层组之后，所述第三过渡层位于第三紧密连接层组之后，所述第四紧密连接层组位于第三过渡层之后，针对临床历史文本采用文本嵌入层获取文本特征；

S12、所述多模态特征关系探索器用于将多模态特征进行对齐融合，首先图像和文本特征分别通过一个多头自注意力模块强化模态内部之间的关联，再分别通过一个多头交叉注意力模块进行图像与文本两个模态间的对齐和融合，最后将两个多头交叉注意力模块的输出进行拼接得到最终的多模态综合特征；

S13、所述疾病状态分类器用于根据多模态综合特征对疾病的状态进行预测，所述疾病状态分类器由第一和第二多头注意力模块组成，所述第一多头注意力模块以疾病话题嵌入作为查询，并以多模态综合特征作为键和值得到综合疾病表示，所述第二多头注意力模块以综合疾病表示作为查询，并以疾病状态嵌入作为键和值得到的注意力分数作为疾病状态的概率分布，最后将疾病状态嵌入乘以概率分布后再与综合疾病表示相加得到状态感知的综合疾病表示；

S2、报告生成网络模型搭建：所述报告生成网络用于逐字生成诊断报告，该报告生成网络由十二个标准transformer解码层、一个全连接层和一个softmax回归层组成；每个标准transformer解码层中包括顺序设置的一个多头自注意力模块、一个多头交叉注意力模块和一个前馈神经网络，所述一个多头自注意力模块和一个多头交叉注意力模块中的注意力头数为1，所述全连接层位于最后一个标准transformer解码层之后；所述报告生成网络的输入是前述多模态特征融合疾病分类网络步骤S13中最后得到的状态感知的综合疾病表示，输出是0～1000的预测结果，分别表示词表中每个单词的索引；

S3、联合训练与参数优化：将步骤S1搭建的多模态特征融合疾病分类网络和步骤S2搭建的报告生成网络采用联合训练，其具体包括：

S31、首先采用Xavier方法对网络模型参数进行初始化，然后采用Adam算法优化网络目标函数，并运用误差反向传播算法更新网络模型参数；

S32、将包含AP、PA和LA的多视角X光胸片作为图像端输入，将临床历史文本部分作为文本端输入，将训练样本的疾病类别和诊断报告作为共同优化目标，将训练样本按7：1：2比例分为训练集、验证集和测试集；

S4、胸部疾病诊断报告自动生成：

S41、将AP、PA和LA的多视角X光胸片及对应临床历史文本作为输入，通过多模态特征提取器产生大小为原始图像1/32的特征图以及长度为300的单词嵌入；

S42、将提取的特征图与单词嵌入输入多模态特征关系探索器，生成多模态综合特征；

S43、将多模态综合特征输入疾病状态分类器生成不同疾病话题的状态概率以及状态感知的综合疾病表示；

S44、将状态感知的综合疾病表示输入到报告生成网络对每一个时间步的单词进行预测，形成最终的诊断报告。

进一步，所述多模态特征融合疾病分类网络的输入分为图像端和文本端，图像端输入大小为256×256的X光胸片，文本端输入长度为300的单词索引，所述多模态特征融合疾病分类网络输出的是大小为114×2的概率分布图，代表114个疾病话题划分为阴性或阳性的置信度。

进一步，所述步骤S11中，所述第一至第四紧密连接层组分别由6、12、24、16个紧密连接层组成，每个紧密连接层由两个卷积层组成，两个卷积层的卷积核大小分别为1×1、3×3，步长为1，每个紧密连接层的卷积核个数为32。

进一步，所述步骤S11中，所述第一至第三过渡层均包含一个卷积层和一个平均池化层，卷积层的卷积核大小为1×1，步长为1，卷积核个数分别为128、256、512。

进一步，任意一个卷积核所对应的输出特征图Z_i采用下式进行计算：

其中，r表示输入通道索引号，k表示输入通道数，W_ir表示第i个卷积核的第r个通道权值矩阵，

是卷积操作，I_r表示第r个输入通道图像。

进一步，所述多模态特征融合疾病分类网络和报告生成网络中的多头注意力由n个平行的头组成，且每个头都是一个带缩放点乘注意力，所述多头注意力具体定义如下：

MHA(X,Y)＝[Att₁(X,Y)；...；Att_n(X,Y)]W^O

其中，W_i ^Q、W_i ^K、W_i ^V表示第i个头的可学习参数矩阵，d_n为特征维度，W^O表示n个头拼接后的可学习参数矩阵，[:；:]表示拼接操作，X表示查询，Y表示键和值。

进一步，所述多模态特征融合疾病分类网络和报告生成网络中的前馈神经网络包含两个线性层和一次激活操作，具体表示如下：

FFN(x)＝max(0,xW_f+b_f)W_ff+b_ff

其中，W_f、W_ff表示为可学习参数矩阵，b_f、b_ff表示为可学习偏置，x表示输入。

进一步，所述多模态特征融合疾病分类网络和报告生成网络中每个注意力模块的softmax函数将网络输出的预测分值转换成概率分布，所述softmax函数定义如下：

其中，O_i、O_j是分类任务在第i、j类上的预测分数，S_j是分类任务属于j类的概率，C代表类别个数。

进一步，所述步骤S3中联合训练的初始学习率设为η_t＝1e^-4，在25次迭代后减少到5e^-5。

进一步，所述步骤S31中多模态特征融合疾病分类网络采用下列交叉熵函数为目标函数：

其中，M为疾病话题总数，y_ij表示第i个疾病话题的第j个状态标签，p_disease,ij表示第i个疾病话题被划分为第j个状态的概率；

报告生成网络采用下列交叉熵函数为目标函数：

其中，N为生成报告中单词总数，w_ij表示真实报告中第i个单词是否为单词表中的第j个单词，p_word,ij表示生成报告中第i个单词被划分为单词表中第j个单词的概率，u为单词表中总的单词数量；

联合训练目标函数由多模态特征融合疾病分类网络和报告生成网络的目标函数共同构成：

L_total＝L_cls+L_gen

其中，L_total为联合训练的目标函数，是算法模型总体损失，使L_total取极小值为最终优化目标。

与现有技术相比，本发明提供的基于多任务多模态深度学习的X光胸片诊断报告生成方法具有以下优点：

1、通过输入图像及其临床历史文本，采用多模态特征提取器可以提取更丰富的上下文信息，利用这些信息共同对疾病状态标签进行预测，即使用不同模态的特征共同对报告中每一个单词进行预测，为单词预测提供更丰富的上下文信息，可显著提高预测准确率。

2、将包含AP、PA和LA的多视角X光胸片作为图像端输入，因而能够全面观察胸部的情况，减少了误诊或漏诊。

3、通过将疾病分类结果返回给模型，使得模型在后续单词预测时获得更准确的疾病信息以缓解庞大的视觉数据偏差，由此可提高生成结果的准确性。

4、通过多任务学习同时最小化多模态特征融合疾病分类网络和报告生成网络的损失，确保网络同时输出准确分类结果和生成结果，使得模型具有更好的鲁棒性。

附图说明

图1是本发明提供的基于多任务多模态深度学习的X光胸片诊断报告生成方法流程示意图。

图2是本发明提供的多模态特征融合疾病分类网络结构示意图。

图3是本发明提供的多模态特征关系探索器和疾病状态分类器的网络结构示意图。

图4是本发明提供的第t时刻报告生成网络结构示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

请参考图1至图4所示，本发明提供一种基于多任务多模态深度学习的X光胸片诊断报告生成方法，包括以下步骤：

S1、多模态特征融合疾病分类网络模型搭建：所述多模态特征融合疾病分类网络用于生成输入X光胸片的常见疾病的分类结果(针对每一个疾病存在阴性或阳性两种标签)，该多模态特征融合疾病分类网络包括多模态特征提取器、多模态特征关系探索器和疾病状态分类器；

S11、所述多模态特征提取器用于分别从输入X光胸片和临床历史文本提取不同模态特征，针对X光胸片采用深度卷积网络作为图像特征提取器，所述图像特征提取器包括第一至第四紧密连接层组(Dense Block)和第一至第三过渡层(Transition Layer)，所述第一过渡层位于第一紧密连接层组之后，所述第二过渡层位于第二紧密连接层组之后，所述第三过渡层位于第三紧密连接层组之后，所述第四紧密连接层组位于第三过渡层之后，针对临床历史文本采用文本嵌入层(Embedding Layer)获取文本特征；

S13、所述疾病状态分类器用于根据多模态综合特征对疾病的状态进行预测，所述疾病状态分类器由第一和第二多头注意力模块组成，所述第一多头注意力模块以疾病话题嵌入作为查询，并以多模态综合特征作为键和值得到综合疾病表示，即第一多头注意力模块输出的是值的加权表达，所述第二多头注意力模块以综合疾病表示作为查询，并以疾病状态嵌入作为键和值得到的注意力分数作为疾病状态的概率分布，即第二多头注意力模块输出的是每一个疾病划分阴性或阳性的概率，或者说输出的是查询和键的注意力分数，最后将疾病状态嵌入乘以概率分布后再与综合疾病表示相加得到状态感知的综合疾病表示；

所述多模态特征融合疾病分类网络的输入分为图像端和文本端，图像端输入大小为256×256的X光胸片，文本端输入长度为300的单词索引，所述多模态特征融合疾病分类网络输出的是大小为114×2的概率分布图，代表114个疾病话题划分为阴性或阳性的置信度。具体所述多模态特征融合疾病分类网络模型参数见下表1：

表1 X光胸片疾病分类网络模型参数表(Padding＝1)

上表1中，序号21的输入是序号18和20拼接后的特征，序号22输出的是注意力矩阵；而为了保证卷积过程中特征图大小不变，在卷积过程中设置Padding＝1，表示卷积时用0填充图像周围。

S2、报告生成网络模型搭建：所述报告生成网络用于逐字生成诊断报告，该报告生成网络由十二个标准transformer解码层、一个全连接层和一个softmax回归层组成；每个标准transformer解码层中包括顺序设置的一个多头自注意力模块、一个多头交叉注意力模块和一个前馈神经网络，所述一个多头自注意力模块和一个多头交叉注意力模块中的注意力头数为1，所述全连接层位于最后一个标准transformer解码层之后；所述报告生成网络的输入是前述多模态特征融合疾病分类网络步骤S13中最后得到的状态感知的综合疾病表示，输出是0～1000的预测结果，分别表示词表中每个单词的索引，具体所述报告生成网络模型参数见下表2。

表2报告生成网络模型参数表

上表2中，t代表第t个时间步，全连接层的输入为序号36输出的最后一维特征。

S32、对于训练数据，本申请采用了当前最大的公开数据集，包含377110张X光胸片以及227835份诊断报告；具体本申请将包含AP(前后)、PA(后前)和LA(外侧)的多视角X光胸片作为图像端输入，将临床历史文本部分作为文本端输入，将训练样本的疾病类别和诊断报告作为共同优化目标，将训练样本按7：1：2比例分为训练集、验证集和测试集。

S4、胸部疾病诊断报告自动生成：

S42、将提取的特征图与单词嵌入输入多模态特征关系探索器，生成多模态综合特征；具体地，将特征图进行展平操作(flatten)后与单词嵌入分别通过两个独立的多头自注意力模块，然后交替作为两个多头自注意力模块的查询，最后进行拼接整合；

作为具体实施例，所述步骤S11中，所述第一至第四紧密连接层组分别由6、12、24、16个紧密连接层(Dense Layer)组成，每个紧密连接层由两个卷积层组成，两个卷积层的卷积核大小分别为1×1、3×3，步长为1，每个紧密连接层的卷积核个数为32。

作为具体实施例，所述步骤S11中，所述第一至第三过渡层均包含一个卷积层和一个平均池化层，卷积层的卷积核大小为1×1，步长为1，卷积核个数分别为128、256、512。由此，本申请提供的图像特征提取器通过紧密连接层组与过度层相结合，具有以下优势：1、由于密集连接方式，DenseNet(图像特征提取器)提升了梯度的反向传播，使得网络更容易训练，由于每层可以直达最后的误差信号，实现了隐式的“deep supervision”(缓解了梯度消失避免了随着网络深度增加而导致的网络退化)；2、参数更小且计算更高效，由于DenseNet是通过concat特征来实现短路连接，实现了特征重用，并且采用较小的膨胀率，每个层所独有的特征图是比较小的；3、由于特征复用，最后的疾病状态分类器使用了低级特征。

作为具体实施例，所述多模态特征融合疾病分类网络模型进行卷积操作运算中，任意一个卷积核所对应的输出特征图Z_i采用下式进行计算：

是卷积操作，I_r表示第r个输入通道图像。

作为具体实施例，所述多模态特征融合疾病分类网络和报告生成网络中的多头注意力由n个平行的头组成，且每个头都是一个带缩放点乘注意力，所述多头注意力具体定义如下：

MHA(X,Y)＝[Att₁(X,Y)；...；Att_n(X,Y)]W^O

作为具体实施例，所述多模态特征融合疾病分类网络和报告生成网络中的前馈神经网络包含两个线性层和一次激活操作，具体表示如下：

FFN(x)＝max(0,xW_f+b_f)W_ff+b_ff

作为具体实施例，所述多模态特征融合疾病分类网络和报告生成网络中每个注意力模块的softmax函数将网络输出的预测分值转换成概率分布，所述softmax函数定义如下：

作为具体实施例，所述步骤S3中联合训练的初始学习率设为η_t＝1e^-4，在25次迭代后减少到5e^-5，由此可以在训练开始阶段加快收敛，在接近收敛阶段避免震荡。

作为具体实施例，所述步骤S31中多模态特征融合疾病分类网络采用下列交叉熵函数为目标函数，即分类网损失函数如下：

报告生成网络采用下列交叉熵函数为目标函数，即生成网损失函数如下：

其中，N为生成报告中单词总数，w_ij表示真实报告中第i个单词是否为单词表中的第j个单词(0或1)，p_word,ij表示生成报告中第i个单词被划分为单词表中第j个单词的概率，u为单词表中总的单词数量；

L_total＝L_cls+L_gen

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于多任务多模态深度学习的X光胸片诊断报告生成方法，其特征在于，包括以下步骤：

S4、胸部疾病诊断报告自动生成：

2.根据权利要求1所述的基于多任务多模态深度学习的X光胸片诊断报告生成方法，其特征在于，所述多模态特征融合疾病分类网络的输入分为图像端和文本端，图像端输入大小为256×256的X光胸片，文本端输入长度为300的单词索引，所述多模态特征融合疾病分类网络输出的是大小为114×2的概率分布图，代表114个疾病话题划分为阴性或阳性的置信度。

3.根据权利要求1所述的基于多任务多模态深度学习的X光胸片诊断报告生成方法，其特征在于，所述步骤S11中，所述第一至第四紧密连接层组分别由6、12、24、16个紧密连接层组成，每个紧密连接层由两个卷积层组成，两个卷积层的卷积核大小分别为1×1、3×3，步长为1，每个紧密连接层的卷积核个数为32。

4.根据权利要求1所述的基于多任务多模态深度学习的X光胸片诊断报告生成方法，其特征在于，所述步骤S11中，所述第一至第三过渡层均包含一个卷积层和一个平均池化层，卷积层的卷积核大小为1×1，步长为1，卷积核个数分别为128、256、512。

5.根据权利要求3或4所述的基于多任务多模态深度学习的X光胸片诊断报告生成方法，其特征在于，任意一个卷积核所对应的输出特征图Z_i采用下式进行计算：

是卷积操作，I_r表示第r个输入通道图像。

6.根据权利要求1所述的基于多任务多模态深度学习的X光胸片诊断报告生成方法，其特征在于，所述多模态特征融合疾病分类网络和报告生成网络中的多头注意力由n个平行的头组成，且每个头都是一个带缩放点乘注意力，所述多头注意力具体定义如下：

MHA(X,Y)＝[Att₁(X,Y)；...；Att_n(X,Y)]W^O

7.根据权利要求1所述的基于多任务多模态深度学习的X光胸片诊断报告生成方法，其特征在于，所述多模态特征融合疾病分类网络和报告生成网络中的前馈神经网络包含两个线性层和一次激活操作，具体表示如下：

FFN(x)＝max(0,xW_f+b_f)W_ff+b_ff

8.根据权利要求1所述的基于多任务多模态深度学习的X光胸片诊断报告生成方法，其特征在于，所述多模态特征融合疾病分类网络和报告生成网络中每个注意力模块的softmax函数将网络输出的预测分值转换成概率分布，所述softmax函数定义如下：

9.根据权利要求1所述的基于多任务多模态深度学习的X光胸片诊断报告生成方法，其特征在于，所述步骤S3中联合训练的初始学习率设为η_t＝1e^-4，在25次迭代后减少到5e^-5。

10.根据权利要求1所述的基于多任务多模态深度学习的X光胸片诊断报告生成方法，其特征在于，所述步骤S31中多模态特征融合疾病分类网络采用下列交叉熵函数为目标函数：

报告生成网络采用下列交叉熵函数为目标函数：

L_total＝L_cls+L_gen

其中，L_total为联合训练的目标函数。