CN117316369B

CN117316369B - 平衡跨模态信息的胸部影像诊断报告自动生成方法

Info

Publication number: CN117316369B
Application number: CN202311070565.2A
Authority: CN
Inventors: 马元琳; 王向红; 董子龙; 牛小娇; 廉敬; 刘冀钊; 张家骏; 汤春阳
Original assignee: Lanzhou Jiaotong University
Current assignee: Lanzhou Jiaotong University
Priority date: 2023-08-24
Filing date: 2023-08-24
Publication date: 2024-05-07
Anticipated expiration: 2043-08-24
Also published as: CN117316369A

Abstract

本发明提供平衡跨模态信息的胸部影像诊断报告自动生成方法，涉及医疗信息领域。该网络通过优化编码器‑解码器框架，充分考虑了图像和文本之间的联系，在编码时，该网络的侧重点在图像特征处理，通过DFC‑MSPCNN和多感受野残差网络病灶区域信息提取模块对X射线影像区域进行多维特征提取；在解码时，该网络的侧重点在医学报告生成，通过图像文本对齐模块CMITAM寻找图像和文本之间的中间态，并将此中间态引入基于Transformer解码层的报告生成模块，在IUX‑Ray和MIMIC‑CXR基准数据集上进行其有效性验证，结果表明，本文方法在平衡胸部影像与文本信息方面有出色的表现，能够自动生成可靠的胸部X射线影像诊断报告。

Description

平衡跨模态信息的胸部影像诊断报告自动生成方法

技术领域

本发明涉及医疗信息领域，尤其涉及平衡跨模态信息的胸部影像诊断报告自动生成方法。

背景技术

X射线广泛用于骨折、肺部感染、肿瘤、心脏病和消化系统等疾病的检测和诊断。胸部影像诊断报告通常包括影像学所见、诊断意见和建议等部分，是对胸部影像检查结果的专业解读和总结，为临床医生提供关于患者胸部状况的详细的有价值信息。

胸部影像诊断报告自动生成的公认难题是：X射线影像特征难以提取；X射线影像难以与对应医学报告进行匹配；生成的医学报告存在大量复杂词汇等。靠医生使用传统方法整理形成胸部影像诊断报告，存在书写信息负载高、掺杂主观性因素不可避免、影像与文本信息关联匹配度不高等问题。近年来深度学习技术广泛应用，在目前机器学习尚不能实现多器官成像报告自动生成的情况下，一些学者提出了基于深度学习的医学影像报告自动生成方法，并在实际应用中取得了一定的成功，证明深度学习是一种有效的工具，但其在平衡图像特征或文本特征信息方面还存在不足。现有的研究对图像信息和文本信息之间的注释对应关系还解释得不够清楚，尚缺乏能够有效学习这种对应关系的适配模型设计。这导致生成的医学报告可能缺乏跨模态信息融合的可解释性和可描述性，影响到生成报告的可靠性。

本发明提出了一种平衡图像和文字信息的医学报告自动生成网络，与现有方法不同，该网络通过优化编码器-解码器框架，充分考虑了图像和文本之间的联系。在编码时，该网络的侧重点在图像特征处理，通过DFC-MSPCNN和多感受野残差网络病灶区域信息提取模块对X射线影像区域进行多维特征提取；在解码时，该网络的侧重点在医学报告生成，通过图像文本对齐模块CMITAM寻找图像和文本之间的中间态，并将此中间态引入基于Transformer解码层的报告生成模块，在IUX-Ray和MIMIC-CXR基准数据集上进行其有效性验证。实验结果表明，本文方法在平衡胸部影像与文本信息方面有出色的表现，能够自动生成可靠的胸部X射线影像诊断报告。

发明内容

为了解决上述技术问题，本发明提出了平衡跨模态信息的胸部影像诊断报告自动生成方法，网络模型主体包括DFC-MSPCNN模型、Resnet-152的多尺度残差网络、CMITAM跨模态图像文本对齐模块和Transformer模块的跨模态神经网络，并通过跨模态记忆网络，增强胸部X射线影像和对应医学报告的联系，

其中，DFC-MSPCNN模型公式为：

E_ij[n]＝e^-αE_ij[n-1]+Q(B+V)Y_ij[n] (3)

其中，突触权重矩阵W_ijkl代表中心神经元与相邻神经元相互作用的结果，采用一种新的权重矩阵设置方法，控制邻域神经元对中心神经元的影响力，新的权重矩阵W_ijkl如下式所示：

在公式(1)－公式(3)中，U_ij[n]是内部活动结果，E_ij[n]是动态阈值。

进一步地，所述Resnet-152的多尺度残差网络增加了一个最大池化层和一个平均池化层，并与DFC-MSPCNN提取到的特征进行融合，最后结合自注意力机制实现完整的胸部X射线影像特征提取。

进一步地，具体步骤如下：

S1：使用DFC-MSPCNN模型对图像的边缘特征进行提取，然后使用基于Resnet-152的多尺度残差网络对医学X射线影像进行多通道特征提取；

S2：基于CMN对原有Transformer的注意力层进行改进，生成Transformer模块的跨模态图像文本对齐模块；

S3：CMITAM跨模态图像文本对齐模块使用知识图谱矩阵存储中间态信息，通过存储中间态信息捕捉图像和文本之间的关联性；

S4：该知识网络在训练过程中记录了图像和文本特征的对应关系，将它们进行编码并存储在共享内存中；

S5：最后，通过解码器对处理后的中间态信息进行解码，实现医学报告自动生成。

采用上述技术方案所产生的有益效果在于：

(1)在编码时，侧重图像特征处理，通过DFC-MSPCNN和Restnet-152信息提取模块对X射线影像区域进行多维特征提取；

(2)在解码时，侧重医学报告生成，通过图像文本对齐模块CMITAM，寻找图像和文本之间的中间态，捕捉其中的相关性。

附图说明

图1为本发明的平衡图像和文字信息的医学报告自动生成网络主体框架示意图；

图2为本发明的DFC-MSPCNN模型结构示意图；

图3为本发明的胸部X射线影像特征提取网络示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于

说明本发明，但不用来限制本发明的范围。

①网络模型主体框架

平衡图像和文字信息的医学报告自动生成网络主体框架示意图如图1所示。

②基于DFC-MSPCNN和Resnet-152的特征提取网络

Eckhorn于20世纪90年代初提出PCNN基础模型，作为一种受视觉皮层启发的第三代人工神经网络，PCNN具备生物合理性和生物可解释性，具有脉冲调制和耦合链接特性。本发明简化Lian等人提出的(FC-MSPCNN算法，结合胸部X射线影像特征提取任务，提出了DFC-MSPCNN算法，用于病灶区域信息提取，DFC-MSPCNN模型结构示意图如图2所示。其计算公式如下：

E_ij[n]＝e^-αE_ij[n-1]+Q(B+V)Y_ij[n] (3)

在公式(1)－公式(3)中，U_ij[n]是内部活动结果，E_ij[n]是动态阈值，当U_ij[n]>E_ij[n]时，神经元点火，生成本文所需的胸部X射线影像边缘特征；当U_ij[n]<E_ij[n]时，神经元无脉冲生成。DFC-MSPCNN移除了传统PCNN模型中的链接强度β参数，因为新模型能够通过合理设置参数W_ijkl的值，实现领域神经元对中心神经元的影响。为了保证动态阈值和内部活动项的设定值更加合理，动态阈值中的幅度参数V被进一步简化，设定为e^-2α。参数B表示微调参数，可对动态阈值进行微调，被设置为1。参数Q表示乘积参数，可进一步调整动态阈值，被设定为整幅图像的大津阈值S'。本模型中参数α采用FC-MSPCNN模型的设置方法，本模型中的衰减因子α表达式：

在公式(5)中，P表示预设迭代次数，为一个有效点火周期神经元总的迭代次数。S_min表示整幅待处理图像最小像素灰度值。

此外，本发明基于Resnet-152网络增加了一个最大池化层和一个平均池化层，并与DFC-MSPCNN提取到的特征进行融合，最后结合自注意力机制实现完整的胸部X射线影像特征提取。

在网络训练过程中，原始输入图像采用卷积操作来增加其维度，通过最大池化层和平均池化层计算得到特征矩阵C₁和C₂，然后将原始输入信息部分映射到自注意力网络层，胸部X射线影像特征提取网络示意图如图3所示，其影像特征公式表达式如下：

在公式(6)－公式(8)中，C₁和C₂分别表示经过平均池化和最大池化的残差网络提取到的结构特征，σ表示Sigmoid函数，f表示进行卷积核为7的卷积操作，

c被视为通过特征标记μ(c)进行卷积操作得到的中间状态，n表示残差神经网络层的数量，总的Resnet层数为152，Avg和Max分别表示平均池化和最大池化，C表示原始状态下的可训练图像特征矩阵，C'表示自注意力特征矩阵，它将DFC-MSPCNN提取到的边缘特征与C₁和C₂进行融合。

在自注意力特征提取过程中，特征矩阵C'被引入DFC-MSPCNN和自注意力模块进行强化训练，生成最终的特征矩阵C”。自注意力机制模块可以更好地融合多分支特征信息，加快任务收敛速度，防止梯度消散，并增强Resnet-152对胸部X射线影像的特征提取能力。通过改进胸部X射线影像的多尺度特征提取能力，最终特征矩阵C”减少了原始图像信息在空间层次上的丢失以及扩张卷积过程中重复出现不重要信息的不利影响。

③CMITAM模块

本发明提出的图像文本对齐模块CMITAM如图1所示，是基于跨模态网络和注意力机制研发的。M_(t-1)为前一状态的知识图谱矩阵，CMITAM负责使用多头注意力机制将拼接学习到的跨模态知识嵌入到知识图谱矩阵中。在设计网络模型时，本发明参考了Transformer的门单元网络架构，输入Q为上一状态的知识图谱矩阵，评估信息K和V分别表示通过病灶区域信息提取模块和分词器学习到的图像特征和文本信息。知识图谱矩阵M_(t)具有两个主要作用：信息存储和信息输出。它通过组合网络的每一层来存储信息，并将每一层的信息权重进行排序以获得最优解。在CMITAM的训练过程中，插入如此多的参数可能会产生不利影响，比如信息混乱。因此，本发明提出了选择性遗忘门网络输出新的状态矩阵信息M_(t)，如图1所示，选择性遗忘门如式(9)所示：

M_(t)＝G_t[Sigmoid(W_f(M_(t-1),y_(t))+b_f)] (9)

其中W_f是用于控制输出结果的权重矩阵。本发明将M_(t-1)和y_(t)连接成一个连接矩阵，并和W_f进行矩阵乘法运算，再加上偏置b_f，使用Sigmoid函数将这个值映射到范围[0,1]。参考长短期记忆网络(Long Short-term Memory，LSTM)的门结构，本发明提出了选择性遗忘门G_t，选择性遗忘门通过矩阵运算获得当前状态的权重分数，如果输出值小于或等于0.15，则丢弃相应的信息，而如果结果大于或等于0.55，则保留相应的信息，最终生成存储胸部X射线影像和对应医学报告的中间态知识图谱矩阵。

在解码部分，本发明使用基于Transformer的解码器来实现胸部X射线影像报告自动生成任务(如图1所示)。首先，将编码器的最终语义表示作为解码器的初始隐藏状态，并引入一个起始标记作为解码器的第一个输入；然后，结合CMITAM提取到的中间态特征逐步生成每个词语，每次生成一个词语时，将其作为下一时刻的输入，并更新隐藏状态，以提高解码器的生成准确性；最后，采用注意力机制来完成报告自动生成，注意力机制允许解码器在生成每个词语时对知识图谱矩阵M_(t)的不同部分进行加权关注，以便更好地捕捉关联的语义信息。

本发明的实验图像：

1.是来自印第安纳大学公开X射线影像检查报告及影像集(IUX-RAY)，最终选择了3956份报告和7472幅图像。

2.是来自医学信息智能化重症监护胸部X射线(Medical Information Mart forIntensive Care-Chest X-Ray，MIMIC-CXR)数据集，其为麻省理工学院计算生理实验室建立的大型样本数据库，本团队已获得该数据集的使用权限，最终选择206563份报告和473057图像作为模型训练数据的主要来源。

引入双语评估替补(Bilingual Evaluation Understudy,BLEU)值作为报告自动生成效果的客观评价指标。包括BLEU-1到BLEU-4，ROUGE-L和METEOR得分，BLEU是2002年由科学家Kishore papineni在其论文中提出的，它的取值范围为0≤BLEU≤1，越接近1，表明翻译质量越好。

本发明将提出的CMITAM方法在IUX-RAY和MIMIC-CXR数据集上与其他五种先进方法进行比较，它们分别是先验和后验知识增强描述生成(Prior and Posterior KnowledgeEnhanced Description Generation,PPKED)、跨模态记忆网络(Cross-modal MemoryNetwork,CMN)、包容性任务感知框架(Inclusive Task-Aware framework,ITA)、基于视觉生成的预训练Transformer(Visual Generative Pre-trainedTransformer,VisualGPT)和区域指导报告生成(Region-Guided Report Generation,RGRG)，这五种方法均为基于Transformer的医学报告自动生成方法。对比评价结果如下：

表1各类实验方法指标评价结果

表2胸部X射线影像各部分提取LOU值

表1对比评价指标显示：与PPKED、CMN和ITA相比，本发明方法在两个数据集上显示出明显的优势；与VisualGPT相比，虽然其引入GPT预训练模型增强了模型的学习能力，在某些评价指标上占优，但在生成结果时可能存在错误匹配的问题，而本发明方法则使用知识图谱矩阵实现了对存储图像和报告中间态信息的有效提取；与RGRG相比，本发明方法与其在两个数据集上BLEU-1和ROUGE-L结果相似，RGRG方法采用区域导向的方式生成报告，本发明方法则使用DFC-MSPCNN和多感受野残差网络的病灶区域信息提取模块来辅助报告生成，侧重点有所不同。

综上所述，本发明方法在IUX-RAY和MIMIC-CXR数据集上表现出语言指标评价的综合优势。

表3给出了本发明CMITAM与VisualGPT、RGRG所生成报告的词组匹配直观对比结果，可以看出，本发明提出的CMITAM方法无论是形容词还是专业性名词的生成都达到了最好的效果，VisualGPT存在多处错误理解和关键名词生成错误，这可能是由于网络参数过多导致梯度难以回归，本发明在网络中使用选择性遗忘门来避免这一问题的发生。与RGRG相比，CMITAM生成内容与之相似，但是在个别名词的理解上还是CMITAM占有优势，这可能是因为RGRG和CMITAM的出发点都是以影像局部特征处理为出发点，RGRG之所以出现多处错误判断，主要原因在于其未能准确平衡X射线影像对应的医学文本特征，而本发明提出的CMITAM能够更好地处理胸部X射线影像和对应医学报告的中间态信息，从而构建更有利于模型收敛的网络通道。

值得一提的是，CMITAM模型能够预测和理解原文中的伪输入内容，并且预测结果与实际结果一致，证明了本发明模型处理医学报告的鲁棒性和有效性。

表3：本发明方法与其他方法进行直观对比结果

本发明提出的医学报告自动生成网络包括DFC-MSPCNN、Resnet-II、CMITAM和Transformer的解码器，机器学习算法使用MATLAB平台实现，深度学习实验平台为PyTorch1.9.1，编程语言为Python 3.6.13，中央处理器型号为i9-10 920x@3.5GHz，独立显卡为NVIDIA旗下的RTX4090Ti 24GB。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明，本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案，例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.平衡跨模态信息的胸部影像诊断报告自动生成方法，其特征在于，网络模型主体包括DFC-MSPCNN模型、Resnet-152的多尺度残差网络、CMITAM跨模态图像文本对齐模块和Transformer模块的跨模态神经网络，并通过跨模态记忆网络，增强胸部X射线影像和对应医学报告的联系，

其中，DFC-MSPCNN模型公式为：

(1)

(2)

(3)

其中，突触权重矩阵W _ijkl代表中心神经元与相邻神经元相互作用的结果，采用一种新的权重矩阵设置方法，控制邻域神经元对中心神经元的影响力，新的权重矩阵W _ijkl如下式所示：

(4)

在公式(1)－公式(3)中，U _ij[n]是内部活动结果，E _ij[n]是动态阈值；

所述Resnet-152的多尺度残差网络增加了一个最大池化层和一个平均池化层，并与DFC-MSPCNN提取到的特征进行融合，最后结合自注意力机制实现完整的胸部X射线影像特征提取；

医学报告自动生成具体步骤如下：

S4：知识图谱矩阵中的内存矩阵在训练过程中记录了图像和文本特征的对应关系，将它们进行编码并存储在共享内存中；