CN116779091B

CN116779091B - 一种多模态网络互联融合的胸部影像诊断报告自动生成方法

Info

Publication number: CN116779091B
Application number: CN202310710730.XA
Authority: CN
Inventors: 廉敬; 董子龙; 石斌; 刘冀钊; 张家骏; 张怀堃
Original assignee: Lanzhou Jiaotong University
Current assignee: Lanzhou Jiaotong University
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2024-02-27
Anticipated expiration: 2043-06-15
Also published as: CN116779091A

Abstract

本发明提供了一种多模态网络互联融合的胸部影像诊断报告自动生成方法，涉及医疗信息领域。本发明提出了一种基于残差网络(Resnet)、注意力机制(Transformer)模块的网络、跨模态强化记忆网络(DCTMN)的多模态网络互联融合医学报告自动生成方法，关照和融通上述两个发力点，促进跨模态(医学影像和对应报告文本)信息的交互与匹配，自动生成图像与文本信息有效融合的医学影像诊断报告。

Description

一种多模态网络互联融合的胸部影像诊断报告自动生成方法

技术领域

本发明涉及医疗信息领域，尤其涉及一种多模态网络互联融合的胸部影像诊断报告自动生成方法。

背景技术

近年来，医疗技术不断进步，其在医学影像诊断中的应用越来越广泛，由此产生了大量的医学影像数据。由于医学影像数据的复杂性和多样性，传统人工操作方式整理形成胸部影像诊断报告，存在书写信息负载高、医生重复劳动强度大等问题。因此，计算机自动生成医学影像报告的研究备受关注。

医学影像报告自动生成技术旨在提高医学数据处理的效率和准确性。使用自然语言处理技术和深度学习算法，可对医学影像数据进行训练和意义关联，形成易于理解和使用的基于自然语言文本的医学影像报告。医师根据该类报告科学制定治疗方案。

目前，有关医学报告自动生成的研究取得了一定进展，流行的方法主要有基于传统网络规则的方法和基于深度学习的方法。基于规则的方法依赖于专家知识和规则库，通过匹配和组合规则来生成报告。这种方法的优点是可解释性强，但需要人工编写规则，且难以适应新数据。相比之下，基于无监督的深度学习方法能通过网络训练自动从数据中学习报告生成的规律，具有更好的泛化能力。

基于深度学习的医学报告自动生成有两个切入点，即以图像处理为切入点和以自然语言处理为切入点。存在的问题是：以图像处理为切入点生成报告，模型很难完全理解领会图像的复杂信息，生成的报告缺乏语言表达的灵活性。以自然语言处理为切入点，生成报告的模型是基于预定义的模板，生成的报告同样缺乏灵活性，难以适应不同的应用场景。为了解决上述问题，本发明提出了一种基于残差网络(Resnet)、注意力机制(Transformer)模块的网络、跨模态强化记忆网络(DCTMN)的多模态网络互联融合医学报告自动生成方法，关照和融通上述两个发力点，促进跨模态(医学影像和对应报告文本)信息的交互与匹配，自动生成图像与文本信息有效融合的医学影像诊断报告。

发明内容

针对现有技术不足，本发明提供一种多模态网络互联融合的胸部影像诊断报告自动生成方法，包括以下步骤：

S1：双通道残差网络ResnetII特征提取，

a.对输入图像进行对比度增强、图像尺寸变换、图像像素块调整，得到预处理图像；

b.对预处理图像通过卷积神经网络CNN将图像转化为图像特征矩阵，并将该矩阵所有数据拉长为一列，得到胸部CT图像可训练图像特征矩阵C，之后代入ResnetII，提取与胸部器官关联度高的特征信息，得到最终胸部特征矩阵C”。

S2：跨模态记忆矩阵文本图像关系强化，

a.将胸部特征矩阵C”、文本信息矩阵和前状态跨膜态记忆矩阵M_(t-1)代入跨膜态强化记忆网络DCTMN，通过网络拼接和多头注意力运算，得到融合特征记忆矩阵。

b.将融合特征记忆矩阵代入选择性遗忘门，并将输出结果与胸部特征矩阵、文本信息矩阵计算求和，并代入更新门，得到可表示图像和文字特征的跨膜态记忆矩阵M_(t)。

S3：双通道解码器实现医学影像报告自动生成。

a.将ResnetII提取的胸部特征矩阵C”代入编码器和多头注意力机制网络，并将该输出结果与文本信息矩阵、可表示图像和文字特征的跨膜态记忆矩阵M_(t)共同输入双通道解码器Decoder，得到正确的医学影像报告。

进一步地，ResnetII中包含152层残差网络，其底层模块由12个不同维度卷积构成。

进一步地，DCTMN是基于注意力机制研发而成的；

其中，胸部特征矩阵C”表示ResnetII网络提取特征得到的图像特征矩阵，文本信息矩阵表示医学报告通过分词器编码步骤得到的可训练文本信息特征矩阵，前状态机跨膜态记忆矩阵M_(t-1)表示前一个状态图像信息和文本信息的关联度。

进一步地，在设计DCTMN时还改进了Transformer多头注意力机制，将主体输入Q、评价信息K和V代入多头注意力机制，其计算表达式如下：

Z＝∑Attention(Q,K,V) (8)

式中，Attention(Q,K,V)表示单头注意力机制的计算结果，d_k表示缩放系数，Z表示多头注意力机制的计算结果，之后把每一层的信息权重进行叠加求和，得到融合特征记忆矩阵。

进一步地，S2-b中的选择性遗忘门具体操作为将DCTMN模块提取的融合特征记忆矩阵代入判别器，通过提前对照设定好的评价指标进行多尺度模型判别，其表达式如下：

G_t(f)＝Sigmoid(W_f(M^(t-1),y_ei ^(t-1))+b_f) (9)

G_t(i)＝Sigmoid(W_i(M^(t-1),y_ei ^(t-1))+b_i) (10)

其中，W_f和W_i分别表示控制有用信息和无用信息的权重矩阵，y_ei ^(t-1)表示t-1时刻的遗忘门，G_t(f)和G_t(i)分别表示存储有用信息的记忆矩阵和存储无用信息的记忆矩阵，b_f和b_i分别表示G_t(f)和G_t(i)对应的偏置。

生成的结果输入更新门中，更新门将对输入的值进行评估并执行如下操作：

M_(t)＝G_t(f)+Tanh(G_t(i)+b_c) (11)

式中，上文中提到的参数b_f、b_i、b_c是公式(9)、公式(10)和公式(11)对应的偏置，M_(t)是可表示图像和文字特征的跨膜态记忆矩阵。

采用上述技术方案所产生的有益效果在于：

(1)在残差网络的基础上提出的多感受野残差网络病灶区域信息提取方法，该方法提高了网络模型对医学CT影像的特征提取能力。

(2)以注意力网络为基础提出的能明显增强CT影像和医学报告关联性的跨膜态记忆矩阵M_(t)，，以及可将不重要特征信息遗忘、将重要特征信息更新的选择性遗忘门网络模型。

(3)在生成医学报告时提出的具有较强处理图像文本信息能力的双通道Decoder模块。

附图说明

图1为本发明的主体网络模型框架实现步骤示意图；

图2为本发明的ResnetII网络架构示意图；

图3为本发明的选择性遗忘模块示意图；

图4为本发明的双通道Decoder模型对比图；

图5为本发明的对比试验结果示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于

说明本发明，但不用来限制本发明的范围。

图1为本发明主体网络模型框架实现步骤示意图，包括双通道残差网络(ResnetII)特征提取、跨模态记忆矩阵文本图像关系强化、双通道解码器实现医学影像报告自动生成。其具体实现步骤如下：

ResnetII特征提取实现步骤如下：

①对输入图像进行对比度增强、图像尺寸变换、图像像素块调整，得到预处理图像；

②对预处理图像通过卷积神经网络(CNN)将图像转化为图像特征矩阵，并将该矩阵所有数据拉长为一列，得到胸部CT图像可训练图像特征矩阵C，之后代入ResnetII，提取与胸部器官关联度高的特征信息，得到最终胸部特征矩阵C”。该残差网络既可以学习原始图像的胸部器官特征，又可以学习卷积提取后的胸部器官特征，避免了信息传递过程中出现的梯度消失和梯度爆炸问题，其中，ResnetII网络架构示意图如图2所示。

在图2中，Resnet-152表示152层残差网络，其底层模块由12个不同维度卷积(1×1和3×3为卷积核，64、128、256、512、1024、2048为网络层数)构成，

为确保编码器更好地学习胸部CT影像特征，加入双通道模块网络架构，内分最大池化(Maxpool)层和平均池化(AvgPool)层，并加入自注意力机制，增强Maxpool和AvgPool提取影像特征的效果。

训练ResnetII网络共包括2个步骤：双通道模块特征提取和自注意力机制模块特征提取。在双通道模块特征提取过程中，先对胸部CT图像可训练图像特征矩阵C进行卷积运算并增加维数，之后分别通过Maxpool和Avgpool将图像送入Resnet 152的膨胀卷积层得到Resnet网络输出结果(膨胀速率为2，卷积核大小为7×7)，再将该输出结果分别通过Maxpool和Avgpool进行双通道残差运算，并与原始输入信息进行相加求和运算，得到Resnet网络第一次处理后的特征矩阵C'。双通道模块特征提取增强了模型对胸部CT影像细节的多尺度提取能力，同时减少了单一使用膨胀卷积运算导致的原始图像空间层次信息丢失和不重要信息重复提取等负面影响。

如图2所示，每一步得到的特征矩阵c通过卷积运算学习得到的特征标记为H(c)，预期学习到的残差特征标记为F(c)＝H(c)-c，原始信息的特征标记为F(c)+c。

在自注意力机制模块特征提取过程中，将ResnetII网络第一次处理后的特征矩阵C'代入自注意力模块进行特征强化训练，生成最终胸部特征矩阵C”。自注意力机制模块特征提取能更好地融合多分支特征信息，加快任务收敛速度，防止梯度分散，提高ResnetII对胸部CT影像的特征提取能力。

跨模态记忆矩阵文本图像关系强化实现步骤如下：

①将胸部特征矩阵C”(在图1中用绿色矩形框表示)、文本信息矩阵(在图1中用蓝色矩形框表示)和前状态跨膜态记忆矩阵M_(t-1)代入DCTMN(在图1中用红色矩形框表示)，通过网络拼接和多头注意力运算，得到融合特征记忆矩阵。

在图1中，本发明提出的DCTMN是基于注意力机制研发而成的。其中，胸部特征矩阵C”表示ResnetII网络提取特征得到的图像特征矩阵，文本信息矩阵表示医学报告通过分词器编码步骤得到的可训练文本信息特征矩阵，前状态机跨膜态记忆矩阵M_(t-1)表示前一个状态图像信息和文本信息的关联度。本发明在设计DCTMN时还改进了Transformer多头注意力机制，将主体输入Q、评价信息K和V代入多头注意力机制，其计算表达式如下：

Z＝∑Attention(Q,K,V) (8)

式中，Attention(Q,K,V)表示单头注意力机制的计算结果，d_k表示缩放系数，Z表示多头注意力机制的计算结果。之后把每一层的信息权重进行叠加求和，得到融合特征记忆矩阵。

②将融合特征记忆矩阵代入选择性遗忘门，并将输出结果与胸部特征矩阵、文本信息矩阵计算求和，并代入更新门，得到可表示图像和文字特征的跨膜态记忆矩阵M_(t)。

为了解决DCTMN模块提取重要信息较为困难等问题，受长短期记忆网络(LSTM)门控单元的启发，基于LSTM的遗忘门、更新门和输出门，设计了一个选择性遗忘门模块，它能将多头注意力机制提取到的信息进行筛选，删除不重要的信息，并将重要信息进行权重分配。选择性遗忘门模块示意图如下：

如图3所示，α和β分别表示有用信息和无用信息。将DCTMN模块提取的融合特征记忆矩阵代入判别器，通过提前对照设定好的评价指标进行多尺度模型判别，主要的操作如下：

G_t(f)＝Sigmoid(W_f(M^(t-1),y_ei ^(t-1))+b_f) (9)

G_t(i)＝Sigmoid(W_i(M^(t-1),y_ei ^(t-1))+b_i) (10)

其中，W_f和W_i分别表示控制有用信息和无用信息的权重矩阵，y_ei ^(t-1)表示t-1时刻的遗忘门，G_t(f)和G_t(i)分别表示存储有用信息的记忆矩阵和存储无用信息的记忆矩阵，b_f和b_i分别表示G_t(f)和G_t(i)对应的偏置。以G_t(f)为例，将前状态跨膜态记忆矩阵M_(t-1)和t-1时刻的遗忘门y_ei ^(t-1)连接起来，并用W_f去乘连接后的矩阵，然后再加上一个偏置b_f防止梯度消失，最后通过Sigmoid函数将得到的概率矩阵映射到区间[0,1]，这能极大的减少计算复杂度。遗忘模块的输出结果将会与上一个单元的状态值进行对应元素的乘法运算，如果输出结果值为0或接近0，那么上一个单元的对应信息(比方说代表主语的无关信息)将被丢弃，如果结果趋向或等于1，那么对应的信息将被保留。生成的结果输入更新门中，更新门将对输入的值进行评估并执行如下操作：

M_(t)＝G_t(f)+Tanh(G_t(i)+b_c) (11)

式中，上文中提到的参数b_f、b_i、b_c是公式(9)、公式(10)和公式(11)对应的偏置，M_(t)是可表示图像和文字特征的跨膜态记忆矩阵，它融合了过去的单元状态信息、旧的单元内部的隐藏信息以及新的输入数据。

双通道解码器实现医学影像报告自动生成的实现步骤：

①将ResnetII提取的胸部特征矩阵C”代入编码器和多头注意力机制网络，并将该输出结果与本文信息矩阵、可表示图像和文字特征的跨膜态记忆矩阵M_(t)共同输入双通道解码器(Decoder)，得到正确的医学影像报告，双通道解码器模型示意图如图4所示。

在图中，本发明的Decoder模块参考了Transformer模型、AoA模型和Visual GPT模型，其中α、P_L、P_V是所谓的门结构，发明人对AoA模型的α门进行了修改，并在Visual GPT模型的基础上增加了一组判别门，负责判别当前状态。上下文双文本通道建立在Transformer模型的Decoder模块基础上，在Train模式下和在Test模式下Decoder的输入是不同的，在Train模式下，Decoder的输入是经过ResnetII处理后的图像特征和经过DCTMN模块处理后的医学CT影像和对应报告的关联矩阵，不论网络模型如何变化，输入永远是上一时刻储存进记忆矩阵的特征信息，然后通过并行运算将正确的语义权重逐个分配，最终得到报告词汇出现概率；在Test模式下，会调用已经训练好的权重文件进行测试验证生成的医学报告是否正确。我们在Add&Norm后加入了判别门模块，此模块是用来判别当前状态的输入是该词语的过去状态还是未来状态。如果是过去状态，就将之前在DCTMN学习到的信息进行强化，如果是未来信息，就会对其进行预测，判断是否与下一个词汇相同，这有助于网络模型加速收敛。最后，引入更新门更新状态权重，防止网络模型学习到重复的知识或者不重要的知识。

实施例：第一阶段，本发明选择印第安纳大学研究人员提取出的IU X-RAY数据集进行模型初步验证，该数据集内有报告3996份，对应图像8121幅，在预训练阶段，统一设定图像尺寸大小为224×224，在文本数据处理时，删除所有非字母数字标记，将所有单词转换为小写，并用特殊标记替换单次出现的标记。第二阶段，选择MIMIC-CXR数据集进行主体训练，该数据集为麻省理工学院计算生理实验室建立的大型样本数据库，包含BID医学中心的大量数据，选择其中206563份报告和473057图像作为主模型训练数据的主要来源，预训练与第一阶段保持一致。

实施例中，通过与其他五种具有代表性的算法比较，验证本发明算法的优越性能。对比算法包括ATT2IN算法、M2算法、R2GEN算法、VisualGPT算法、CMN算法。文本生成效果采用几种常用评价指标：双语评估替补指标(BLEU 1～4)、多样化的机器翻译评价指标(MTR)、翻译输出评价指标(Rouge-L)。IU X-RAY数据集和MIMIC-CXR数据集的实验结果如表1所示(最好的评价结果用加粗字体表示)。

表1：各网络模型评价指标结果对比图

经过与ATT2IN Transformer、M2 Transformer和R2GEN Transformer等方法的比较，本发明在IU X-RAY和MIMIC-CXR数据集上展现出了优越的性能。尤其是与ATT2INTransformer和M2 Transformer相比，本发明方法具有明显的优势。同时，在与VisualGPT算法的比较中，发现VisualGPT算法的MTR和RG-L评价指标结果与本发明结果类似。然而，VisualGPT算法通过引入GPT预训练步骤增强了模型的学习能力，而本发明方法则通过跨模态网络DCTMN来增强图像和报告之间的联系，并借助残差网络和迁移学习来辅助文本生成。通过相关实验，我们发现VisualGPT提取了过多的不重要信息，而本发明方法通过注意力机制和门单元只保留了重要信息，从而减少了模型的计算量并加快了网络收敛速度。此外，在对比实验中，本发明提出的跨模态网络模型在BLEU-1到BLEU-4评价指标上明显优于学界先进算法，进一步验证了本方法的优越性。

生成的医学影像报告如图5所示。从图中可以观察到，本发明提出的DCTMN方法在动词和名词的生成方面都达到了最佳效果。与ATT2IN和M2方法相比，DCTMN能够生成更准确的报告内容，而R2GEN存在多处错误理解，CMN存在关键名词生成错误。与VisualGPT相比，DCTMN生成的内容与之相似，但在个别名词的理解上，DCTMN明显具有优势。DCTMN模型能够准确预测原文中的伪输入内容，并且预测结果与实际结果一致。

综上所述，本发明方法在主观和客观结果上都优于目前主流的方法，表现出色。通过跨模态网络DCTMN的引入和注意力机制的优化，本发明方法能够更好地提取重要信息，减少计算量，并生成准确的医学影像报告。

除此之外，本发明提出的模型学习到了更多的医学知识，这些知识可能来自于放射图像及其报告之间共享的隐藏和规律性信息，记忆矩阵能明确合理地对其建模，以促进疾病症状的识别和医学报告的生成，对比其他实验方法具有较大优势。医学图像存在大量的潜在信息，本发明方法能极大提高信息收集能力，产生较少错误信息，放射科医生能够较容

易地筛选出这些错误信息。总之，本发明提出的模型成功地增强了医学报告的自动生成能力。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种多模态网络互联融合的胸部影像诊断报告自动生成方法，其特征包括如下步骤：

S1：双通道残差网络ResnetII特征提取，

b.对预处理图像通过卷积神经网络CNN将图像转化为图像特征矩阵，并将该矩阵所有数据拉长为一列，得到胸部CT图像可训练图像特征矩阵C，之后代入ResnetII，提取与胸部器官关联度高的特征信息，得到最终胸部特征矩阵C”；

S2：跨模态记忆矩阵文本图像关系强化，

a.将胸部特征矩阵C”、文本信息矩阵和前状态跨膜态记忆矩阵M_(t-1)代入跨膜态强化记忆网络DCTMN，通过网络拼接和多头注意力运算，得到融合特征记忆矩阵；

b.将融合特征记忆矩阵代入选择性遗忘门，并将输出结果与胸部特征矩阵、文本信息矩阵计算求和，并代入更新门，得到可表示图像和文字特征的跨膜态记忆矩阵M_(t)；

S3：双通道解码器实现医学影像报告自动生成；

a.将ResnetII提取的胸部特征矩阵C"代入Transformer的编码器，再将通过处理的结果使用多头注意力机制网络进行二次处理，并将该输出结果与文本信息矩阵、可表示图像和文字特征的跨膜态记忆矩阵M_(t)共同输入双通道解码器Decoder，得到正确的医学影像报告。

2.根据权利要求1所述的一种多模态网络互联融合的胸部影像诊断报告自动生成方法，其特征在于，ResnetII中包含152层残差网络，其底层模块由12个不同维度卷积构成。

3.根据权利要求1所述的一种多模态网络互联融合的胸部影像诊断报告自动生成方法，其特征在于，DCTMN是基于注意力机制研发而成的；

4.根据权利要求3所述的一种多模态网络互联融合的胸部影像诊断报告自动生成方法，其特征在于，在设计DCTMN时还改进了Transformer多头注意力机制，将主体输入Q、评价信息K和V代入多头注意力机制，其计算表达式如下：

Z＝∑Attention(Q,K,V) (8)

5.根据权利要求1所述的一种多模态网络互联融合的胸部影像诊断报告自动生成方法，其特征在于，S2-b中的选择性遗忘门具体操作为将DCTMN模块提取的融合特征记忆矩阵代入判别器，通过提前对照设定好的评价指标进行多尺度模型判别，其表达式如下：

G_t(f)＝Sigmoid(W_f(M^(t-1),y_ei ^(t-1))+b_f) (9)

G_t(i)＝Sigmoid(W_i(M^(t-1),y_ei ^(t-1))+b_i) (10)

其中，W_f和W_i分别表示控制有用信息和无用信息的权重矩阵，y_ei ^(t-1)表示t-1时刻的遗忘门，G_t(f)和G_t(i)分别表示存储有用信息的记忆矩阵和存储无用信息的记忆矩阵，b_f和b_i分别表示G_t(f)和G_t(i)对应的偏置；

M_(t)＝G_t(f)+Tanh(G_t(i)+b_c) (11)