CN115662565A

CN115662565A - 一种融合标签信息的医学影像报告生成方法及设备

Info

Publication number: CN115662565A
Application number: CN202211422392.1A
Authority: CN
Inventors: 孙水发; 梅周俊森; 吴义熔; 李小龙; 唐庭龙
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2023-01-31

Abstract

本发明公开了一种融合标签信息的医学影像报告生成方法及设备，属于医学影像处理与文本生成领域。包括以下步骤：构建医学影像报告生成模型；基于医学影像数据，提取影像中的视觉特征与语义特征；对语义特征进行识别分类，得到该影像的标签特征；对视觉特征与标签特征进行视觉、文本对齐融合，得到融合特征；将处理后的融合特征输入文本解码器中，实现医学影像报告生成。本发明加快工作流程的自动化，减轻医生工作负担，降低错误报告的出现概率，提高医疗报告的质量和标准化。

Description

一种融合标签信息的医学影像报告生成方法及设备

技术领域

本发明涉及医学影像处理与文本生成技术领域，更具体的说是涉及一种融合标签信息的医学影像报告生成方法及设备。

背景技术

医学影像报告自动生成任务旨在通过给定的医学影像，生成清晰(clear)、正确(correct)、简洁(concise)、完整(complete)、一致(consistent)、连贯(coherent)即6C特点的报告内容。从海量的影像诊断报告与医疗影像作为基础数据源，通过深度学习进行相关特征提取与分析，并能够生成结构化的诊断报告，是一种影像图像处理与自然语言生成技术结合的新方法。针对医学影像报告自动生成任务的研究，现有技术中仅实现了对胸腔常见疾病的分类和诊断报告生成，提出了多标签分类+目标检测+生成医学报告的多任务模型，其核心是通过分类任务预测疾病标签。及更换性能更好的编码器网络与解码器网络、训练额外的分类器来预测疾病标签或医疗标签，进一步提高报告质量。利用先验知识构建疾病图，获得疾病预测结果等。然而，在现有技术中，多数模型都是通过视觉特征来生成报告，同时模型生成的报告在几个评估指标有限，导致医学影像文本报告的生成效率、精度较低。

因此，如何提供一种融合标签信息的医学影像报告生成方法及设备是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种融合标签信息的医学影像报告生成方法及设备，基于Transformer与MIX-MLP多标签分类网络构成的编码器、协注意力机制以及分层LSTM解码器三个模块组成的医学报告生成框架，利用所构建的融合标签信息的医学影像报告生成框架自动生成医学影像报告。解决现有技术中医学影像文本报告的生成效率、精度较低的问题。

为了实现上述目的，本发明提供如下技术方案：

一方面，本发明公开了一种融合标签信息的医学影像报告生成方法，包括以下步骤：

构建医学影像报告生成模型框架，所述医学影像报告生成模型框架包括：编码器、分类模块、融合模块以及文本解码器；

获取医学影像数据，并对所述医学影像数据进行预处理后输入至所述医学影像报告生成模型框架；

通过所述编码器提取影像中的视觉特征与语义特征，得到视觉特征信息以及语义特征信息；

通过所述分类模块对语义特征信息进行识别分类，得到医学影像的标签特征信息；

通过所述融合模块对视觉特征信息与标签特征信息进行视觉文本对齐融合，得到融合特征信息；

将处理后的融合特征信息输入所述文本解码器中，生成医学影像报告并输出。

优选的，所述医学影像报告生成模型框架包括：基于Transformer模型的编码器，基于MIX-MLP的多标签分类网络的分类模块，基于POS-SCAN的视觉文本对齐注意力机制的融合模块以及分层LSTM网络的文本解码器。

优选的，所述获取医学影像数据，并对所述医学影像数据进行预处理后输入至所述医学影像报告生成模型框架，包括：

获取医学影像数据；

对所述医学影像数据进行向量化；

将讲过向量化的医学影像数据输入至所述医学影像报告生成模型框架。

优选的，所述通过所述编码器提取影像中的视觉特征与语义特征，得到视觉特征信息以及语义特征信息，包括：

将向量化的医学影像数据输入至基于Transformer模型的编码器；

所述Transformer模型的编码器作为视觉与语义特征提取器同时提取视觉与语义特征，得到特征信息；

将特征信息分离为视觉特征信息与语义特征信息。

通过上述技术方案，用Transformer编码器作为视觉与语义特征提取器同时提取两类特征。经过训练后从倒数第二层提取特征信息，将特征信息分离为视觉特征与语义特征分别输入到下游模组中。

优选的，所述通过所述分类模块对语义特征信息进行识别分类，得到医学影像的标签特征信息，包括：

基于MIX-MLP的多标签分类网络的分类模块，将语义特征信息进行分类标注，得到分类标注结果；

在MIX-MLP的多标签分类网络中引入Focal Loss损失函数，对分类标注结果进行整理，得到医学影像的标签特征信息。

优选的，所述通过所述融合模块对视觉特征信息与标签特征信息进行视觉文本对齐融合，得到融合特征信息，包括：

基于POS-SCAN的视觉文本对齐注意力机制的融合模块将视觉信息与多标签分类的语义信息映射到同一个联合语义空间中与文本信息对齐，判断医学影像中的全局图像与文本信息的相似性，得到相似度结果；

根据相似度结果，将医学影像中的全局图像与文本信息在细粒度上进行匹配，得到融合特征信息。

通过上述技术方案，基于POS-SCAN的视觉文本对齐注意力机制，通过将视觉信息与多标签分类的语义信息映射到同一个联合语义空间中与文本信息对齐，来推断全局图像与文本的相似性，使图像与文本在细粒度上匹配。

优选的，所述分层LSTM网络的文本解码器包括：句LSTM网络模块和词LSTM网络模块。

优选的，将处理后的融合特征信息输入所述文本解码器中，生成医学影像报告并输出，包括：

通过所述句LSTM网络模块将融合后的特征信息生成多个主题特征；

通过所述词LSTM网络模块为每个主题特征生成对应句子；

由多个句子组成一份完整的医学影像报告并输出。

另一方面，本发明公开了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行程序时实现融合标签信息的医学影像报告生成方法的步骤。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种融合标签信息的医学影像报告生成方法及设备，通基于Transformer与MIX-MLP多标签分类网络构成的编码器、协注意力机制以及分层LSTM解码器三个模块组成医学影像报告生成模型框架，利用所构建的医学影像报告生成模型框架实现医学影像报告自动生成。本发明具有加快工作流程的自动化，减轻医生工作负担，降低错误报告的出现概率，提高医疗报告的质量和标准化的有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的生成方法流程框架示意图；

图2为本发明实施例提供的基于MIX-MLP的多标签分类网络的分类模块分类的流程示意图；

图3为本发明实施例提供的基于POS-SCAN的视觉文本对齐注意力机制得到融合特征信息的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一方面，参见附图1所示，本发明实施例公开了一种融合标签信息的医学影像报告生成方法，包括以下步骤：

构建医学影像报告生成模型框架，医学影像报告生成模型框架包括：编码器、分类模块、融合模块以及文本解码器；

获取医学影像数据，并对医学影像数据进行预处理后输入至医学影像报告生成模型框架；

通过编码器提取影像中的视觉特征与语义特征，得到视觉特征信息以及语义特征信息；

通过分类模块对语义特征信息进行识别分类，得到医学影像的标签特征信息；

通过融合模块对视觉特征信息与标签特征信息进行视觉文本对齐融合，得到融合特征信息；

将处理后的融合特征信息输入文本解码器中，生成医学影像报告并输出。

在一个具体实施例中，获取医学影像数据，后将医学影像向量化，使之能够输入到框架中。

具体的，将其处理成为一个3维向量

其中C是通道数，H和W分别表示图像高度和宽度。

在一个具体实施例中，将影像向量输入到框架的编码器中提取其中的视觉特征与标签特征，具体步骤如下：

1)影像向量输入到框架的Transformer中得到视觉特征与初级语义特征，即Img→f_v，f_s′，其中

为视觉特征，

为初级语义特征。

具体的，将图像划分为M个图像块并展平为2维向量

每个图像块的分辨率为(P，P)，通道数为C，M＝HW/P²为图像块的数量。i_p通过一个全连接层投影到D维，再拼接一个可学习的位置编码向量

与携带位置信息的一维位置嵌入向量

相加，输入到Transformer编码器(z_l)中。整个编码器由L个Transformer编码器构成，每个编码器包含多头自注意力(Multi-Head Self-Attention，MSA)和多层感知机(Multi-LayerPerceptron，MLP)网络。MSA与MLP前加入LayerNorm(LN)与残差连接，减少过拟合与防止梯度消失。视觉、初级语义特征向量f_v，f_s′均由Transformer编码器输出，其输出向量Z＝[x_class；x₁；x₂；…；x_n]，令f_v＝[x₁；x₂；…；x_n]，f_s′＝[x_class]。

z₀＝[x_class；i₁E；i₂E；…；i_nE]+E_pos#(1)

z′_l＝MSA(LN(z_l-1))+z_l-1，l＝1，…，L#(2)

z_l＝MLP(LN(z_l))+z′_l，l＝1，…，L#(3)

Z＝LN(z_L)#(4)

f_s′特征向量通过一个K维fc全连接层输出

其中K为数据集中tag标签的种类数量，D是视觉特征的维度，D₁是语义特征的维度。

2)初级语义信息处理成为标签信息。

具体的，将初级语义信息输入到多标签分类网络中得到标签信息。

参见附图2所示，基于MIX-MLP的多标签分类网络的分类模块分类的流程示意图，使用ML P-Block的ML.P网络处理语义特征的第一个维度；转置语义特征的最后两个维度；使用MLP-Block的MLP网络处理语义特征的第二个维度；最后重复上述步骤Z次，输出标签特征信息。

具体的，基于MIX-MLP的多标签分类网络的分类模块由Z个MLP-Block网络串联得到，前一个MLP-Block网络的输出是后一个MLP-Block网络的输入。每个MLP-Block由两个MLP网络组成，第一个MLP网络作用于

的第一个维度，第二个MLP网络作用于

的第二个维度。每个MLP网络包含两个全连接层与一个GELU激活函数。

通过全连接层与softmax函数后得到

对

的第二个维度，即每个Tag标签的出现概率进行排序选取前N个Tag标签张量embedding后获得语义特征f_s，其可以表示为：

U_*，i＝X_*，i+W₂σ(W₁LayerNorm(X)_*，i)#(5)

Y_j，*＝U_j，*+W₄σ(W₃LayerNorm(U)_J，*)#(6)

其中W_1-4为MLP网络的参数矩阵，σ为GELU激活函数，i,j为两个MLP网络的隐藏层的维度，它的取值与特征向量的维度无关，θ为MLP-Block层，Z为MLP-Block数量,ζ为topk函数，将

排序后选取前N个向量。

在一个具体实施例中，将视觉信息和标签信息融合为融合特征信息。

参见附图3所示，基于POS-SCAN的视觉文本对齐注意力机制得到融合特征信息的流程示意图，输入视觉特征，计算其与文本特征之间的余弦相似度，计算视觉软注意力机制特征权重，与视觉特征相乘；同时，输入标签特征信息，计算其与文本特征之间的余弦相似度，计算语义软注意力机制特征权重，与标签特征相乘；最后，将两个向量拼接后通过全连接城，输出融合特征信息。

具体的，视觉信息和标签信息输入到协注意力机制中得到融合特征信息。对于编码器输出的

特征向量，使用一种图像文本匹配机制计算其与隐藏层状态的相似度，以更好地实现视觉-语义特征的对齐。具体细节为分别计算f_v、f_s与t-1时刻的句LSTM网络隐藏层状态

之间的余弦相似度

方法如下：

其中，m∈[1,M],n∈[1,N],t∈[1,T]，D₂是隐藏层状态的维度，BN为BatchNormalization层，控制梯度爆炸、防止梯度消失与过拟合；W_v,W_v,h是视觉相似度的参数矩阵，W_s,W_s,h是语义相似度的参数矩阵。视觉、语义相似度在标准化后计算视觉软注意力与语义软注意力机制特征权重，其表示如下：

其中，[x]₊≡max(x,0)，表示在x与0中取较大值，

通过下列公式计算各自的软注意力特征向量：

最后，将两个向量拼接起来，通过一个全连接层W_fc获得t时刻的协注意力特征向量

即：

在一个具体实施例中，将融合特征信息输入到编码器网络中得到生成文本；

具体的，分层LSTM网络的文本解码器包括：句LSTM网络模块和词LSTM网络模块。

更具体的，将融合特征信息知识融合输入到分层LSTM网络的句LSTM网络得到主题向量。具体而言，协注意力机制输出的特征向量

作为其输入，并生成对应的主题向量

主题向量输入词LSTM中产生句子。每输出一个主题向量，停止控制组件(Stop Control)会决定是否输出下一个主题向量。停止控制组件使用前一层隐藏层状态

与当前的隐藏层状态

计算生成下一句的概率p，句LSTM使用特征向量cof与内部的隐藏层状态h^(t)计算主题向量top^(t)，公式如下：

其中，W_top,hW_top,ctxW_stop,t-1W_stop,tW_stop,t是参数矩阵，LSTM₁表示句LSTM网络，

表示第t步时句LSTM网络生成下一句的概率。如果p大于预定义的阈值，则句LSTM网络将停止生成新的主题向量，词LSTM网络也将停止生成单词。

更具体的，将主题向量输入到分层LSTM网络的词LSTM网络中得到每个生成句子，再将每个句子串联起来，得到最终的生成报告。具体而言，词LSTM与句LSTM网络相似，是一个标准的LSTM网络，其第一个与第二个输入为词LSTM生成的主题向量top^(t)与预定义的起始标记，随后是单词序列。隐藏层状态同样的用于预测生成单词的分布p(y_t|y_1:t-1)，在词LSTM生成其单词序列

后，将所有生成序列串联起来形成最终报告

公式如下：

其中W_word,h为参数矩阵，v_start为起始标记，[；]表示拼接，LSTM₂表示词LSTM网络，

表示

在一个具体实施例中，还包括计算生成报告与影像报告之间损失。从而计算模型预测文本与真实样本之间的差异，通过训练与梯度下降法使模型生成的文本更加接近真实样本。

具体的，每一个训练样本有多处的损失计算，分别计算每一处的损失，前后相加得到总损失。将每一个训练样本看作一个元组(I,G,R)，其中I为图像，G为图像I对应的GroundTruth，R为图像I对应生成报告，由T个句子组成，每个句子由S_i个单词组成。对于每一个训练样本(I,G,R)，模型先计算其图像I所对应的标签在所有标签上的概率分布p_tag。考虑到tag分布的稀疏性，采用focal loss函数计算p_tag与真实标签的损失。Focal Loss函数是一种处理样本分类不均衡的损失函数，其公式如下：

其中N为Tag的数量，γ为样本难度调节因子，α为样本权重。

句LSTM分为T个时刻，计算每个时刻第i个句子在{STOP,CONTINUE}两种状态上的概率分布p'_i。最后将主题向量输入词LSTM网络，生成单词w_i,j。每个生成的单词序列由交叉熵损失函数(Cross Entropy，CE)计算损失。报告生成的训练损失是两个交叉熵损失之和：句子数量分布概率p_stop,i所对应的损失loss_sent，每个句子的字分布p_i,j所对应的损失loss_word。将3个损失组合在一起，得到整体训练损失：

其中，λ_tag,λ_sent,λ_word为预先设定的各个损失的权重。

另一方面，本发明实施例提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行程序时实现融合标签信息的医学影像报告生成方法的步骤。

经由上述的技术方案可知，与现有技术相比，本发明实施例公开提供了一种融合标签信息的医学影像报告生成方法及设备，具体的，为一种基于胸部X光影像的融合标签信息的医学影像报告生成方法及设备，具有以下有益效果：

1)本发明提出了一种可以从影像报告中生成医学影像报告的方法，并在IU-XAY与MIMIC-CXR数据集上取得了较好效果，在BLEU，ROUGE，METEOR等自然语言生成评估指标上优于现有模型；

2)本发明提出了一种可以从影像报告中生成医学影像标签的方法，并在MIMIC-CXR数据集上取得了较好效果，在准确率、召回率评估指标上优于现有模型。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种融合标签信息的医学影像报告生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种融合标签信息的医学影像报告生成方法，其特征在于，所述医学影像报告生成模型框架包括：基于Transformer模型的编码器，基于MIX-MLP的多标签分类网络的分类模块，基于POS-SCAN的视觉文本对齐注意力机制的融合模块以及分层LSTM网络的文本解码器。

3.根据权利要求1所述的一种融合标签信息的医学影像报告生成方法，其特征在于，所述获取医学影像数据，并对所述医学影像数据进行预处理后输入至所述医学影像报告生成模型框架，包括：

获取医学影像数据；

对所述医学影像数据进行向量化；

4.根据权利要求3所述的一种融合标签信息的医学影像报告生成方法，其特征在于，所述通过所述编码器提取影像中的视觉特征与语义特征，得到视觉特征信息以及语义特征信息，包括：

将特征信息分离为视觉特征信息与语义特征信息。

5.根据权利要求4所述的一种融合标签信息的医学影像报告生成方法，其特征在于，所述通过所述分类模块对语义特征信息进行识别分类，得到医学影像的标签特征信息，包括：

6.根据权利要求5所述的一种融合标签信息的医学影像报告生成方法，其特征在于，所述通过所述融合模块对视觉特征信息与标签特征信息进行视觉文本对齐融合，得到融合特征信息，包括：

7.根据权利要求6所述的一种融合标签信息的医学影像报告生成方法，其特征在于，所述分层LSTM网络的文本解码器包括：句LSTM网络模块和词LSTM网络模块。

8.根据权利要求7所述的一种融合标签信息的医学影像报告生成方法，其特征在于，将处理后的融合特征信息输入所述文本解码器中，生成医学影像报告并输出，包括：

通过所述词LSTM网络模块为每个主题特征生成对应句子；

由多个句子组成一份完整的医学影像报告并输出。

9.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行程序时实现权利要求1-8任一项所述的融合标签信息的医学影像报告生成方法的步骤。