CN114743630B

CN114743630B - 一种基于跨模态对比学习的医学报告生成方法

Info

Publication number: CN114743630B
Application number: CN202210347478.6A
Authority: CN
Inventors: 俞俊; 姜威; 朱素果
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2024-08-02
Anticipated expiration: 2042-04-01
Also published as: CN114743630A

Abstract

本发明公开了一种基于跨模态对比学习的医学报告生成方法。本发明步骤如下：1、使用ViT模型将图像切成图像块，然后使用可训练的线性投影将图像块映射到特定的特征空间中，同时添加位置保留位置信息，再输入标准的TransformerEncoder来提取图像特征；2、使用预训练好的ClinicalBERT对文本进行编码并通过全连接层将其映射到特征空间中，得到文本特征；3、将得到的图像特征和文本特征进行双塔结构的跨模态对比学习进行对齐操作；4、将得到的图像特征和文本特征输入到一个将Transformer和LSTM优势互补的框架Decoder‑L，得到每个时间步的单词概率分布；5、将得到的两个单词概率分布使用单塔结构的跨模态对比学习进行对齐。本发明将Transformer和LSTM进行优势互补，更好的捕捉句子生成的长期和短期依赖。

Description

一种基于跨模态对比学习的医学报告生成方法

技术领域

本发明涉及医学报告生成，尤其涉及一种基于跨模态对比学习的医学报告生成方法。

背景技术

胸片是临床上最常用的影像学检查方法之一。然而，解释胸片并撰写报告是繁琐的，这为放射科医生增加了大量的工作量。因此，使用机器学习技术的自动医学报告生成，有望减轻医生的负担并加快临床的工作流程。从根本上说，这可以看作是将视觉输入转换为文本输出，即一般所说的Image Caption任务。然而，将其转换到医学报告中并非易事，因为我们需要了解其复杂的结构和多样性，以及建模由放射科医生的不同专业知识和经验引起的不确定性。

大多数现有的成功的医学报告生成模型遵循标准的Image Caption方法，并采用encoder-decoder框架。但是直接将Image Caption的方法应用到医学报告生成是存在一些问题的，医学报告生成有其固有的一些难题：1)提取图像特征难：在Image Caption任务中，图像中主要是文本中所描述的事件，文本中也是图像中主要发生的事件，因此在ImageCaption任务中有效的图像特征在图像编码后容易得到。但是在医学报告生成任务中，想要准确的提取图像的特征，需要医生的专业知识以及经验，而这种专业知识和经验是很难通过建模得到的，这也是当前大多数医学报告生成模型效果差的主要原因。2)超长序列：Image Caption任务中文本往往是一个短句，只描述图像中主体的部分，而医学报告生成任务中的文本是一个长段，具有多句话，并且每个句子都围绕着一个具体的医学观察，即前后两个句子之间不存在关联。对于Image Caption任务中常用的LSTM，由于梯度消失或者梯度爆炸，很难对如此长的序列进行建模。最近有医学报告生成模型使用层次化LSTM，来解决这个问题，但是并不能很有效的捕捉句子生成的长期依赖。现在越来越多的模型利用Transformer来更好的捕捉句子生成的长期依赖，但是对于捕捉句子生成的短期依赖不如LSTM。

发明内容

本发明针对现有技术的不足，提供了可以用于医学报告生成的跨模态对比学习框架，用来模拟初学者通过阅读大量实例来达到放射科医生水平的过程来解决这个问题。医学报告生成的过程应该分成两部分：读懂和表达。对于初学者，一个实例中的放射学图像是难以理解的，而报告，是每句话对应一个具体的医学观察，是容易理解的。给定一个实例，初学者会先读懂报告，再反过来指导读懂放射学图像；然后根据对放射学图像和文本的理解写出两份报告，因为正确的报告并不只有一种，所以除了跟ground truth比较之外，还需要将两份报告相互比较，保留更多的可能性。为了模拟上述的工作模式，跨模态对比学习框架包括两个部分：双塔和单塔。双塔可以将图像特征和文本特征对齐，用文本特征指导图像特征的提取；单塔可以将两种模态特征解码输出的概率分布对齐，除了让两种特征的进一步对齐之外，也让解码保留了更多的可能性。同时，我们提出了一个将Transformer和LSTM优势互补的框架(Decoder-L)，由于Decoder中使用简单的相加操作作为残差连接并不能很好的将连接的两部分联系起来，我们决定将采用门控作为残差连接。此外，为了更好地提取图像特征，我们首先在医学报告生成任务中使用Vision Transformer(ViT)取代原来的CNN-Encoder，并通过实验证明其有效性，同时我们发现Vision Transformer比原来的CNN-Encoder更适合Caption这种复杂任务，因为其中的Self-Attention层完全可以类比于卷积层，由于其更复杂的特征，又比CNN多了更多可能性。

一种基于跨模态对比学习的医学报告生成的方法，其步骤如下：

步骤(1)、使用改进的ViT模型，首先将图像切成图像块，然后使用可训练的线性投影将图像块映射到特定的特征空间中，同时添加位置embedding以保留位置信息，再输入标准的Transformer Encoder来提取图像特征；

步骤(2)、使用预训练好的Clinical BERT对文本进行编码并通过全连接层将其映射到特征空间中，得到文本特征；

步骤(3)、将步骤(1)中得到的图像特征和步骤(2)中得到的文本特征进行双塔结构的跨模态对比学习进行对齐操作；

步骤(4)、将步骤(1)中得到的图像特征和步骤(2)中得到的文本特征输入到一个将Transformer和LSTM优势互补的框架Decoder-L，得到每个时间步的单词概率分布；

步骤(5)、将步骤(4)中输入图像特征得到的单词概率分布Ⅰ和输入文本特征得到的单词概率分布Ⅱ使用单塔结构的跨模态对比学习进行对齐。

进一步的，步骤(1)所述的使用改进的ViT模型提取图像特征，具体如下：

对于图像使用ViT模型提取图像特征h^I；

首先，将图像x拉平成二维的图像，并切成图像块其中是图像块的个数、(P,P)是图像块的大小；由于使用标准的Transformer Encoder，因此需要将图块拉平，使用可训练的线性投影映射到可以输入Transformer Encoder的大小，并添加位置embedding以保留位置信息E_pos，具体公式如下：

z′_l＝MSA(LN(z_l-1))+z_l-1,l＝1...L (公式2)

z_l＝MLP(LN(z′_l))+z′_l,l＝1...L (公式3)

h^I＝z_L (公式4)

其中，改进的ViT模型是将原ViT模型的最后一层分类层去掉，得到图像特征h^I；x_class是一个特殊的用来整合整体信息的变量；是第i个的图像块；E是对图像块进行编码的向量；E_pos是位置信息，对编码后的图像特征再加上位置编码；LN是LayerNormalization，层规范化；MSA是Transformer中的多头注意力；MLP是多层感知机；z是公式过程中的临时变量；h^I是提取的图像特征；z′_l和z_l表示中间变量，L表示层数。

进一步的，步骤(2)所述的使用预训练好的Clinical BERT对文本进行编码并通过全连接层将其映射到特征空间中，得到文本特征，具体如下：

对于文本其中N是文本的长度，使用预训练好的Clinical BERT编码并通过全连接层将其映射到特征空间中，得到文本特征h^W,具体公式如下：

h^W＝MLP(BERT(y′₁,y′₂,…,y′_N)) (公式5)

其中，BERT是预训练好的Clinical BERT，MLP是多层感知机。

进一步的，图像特征和文本特征能够被映射到同一个特征空间中，因此将同一个实例中的文本特征作为图像特征的正例，通过双塔结构的跨模态对比学习的方法进行对齐，公式如下：

其中，x是关键矩阵，y是查询矩阵，τ是温度蒸馏的超参数，M是矩阵的大小；InfoNCE(x,y)是使用两个大小相同的矩阵x和y，并计算y对于x的对齐距离；

loss_C1＝InfoNCE(h^I,h^W) (公式7)

其中，h^I和h^W分别是图像特征矩阵和文本特征矩阵，公式7使用InfoNCE对两个不同模态的矩阵进行对齐。

进一步的，步骤(4)所述的将步骤(1)中得到的图像特征和步骤(2)中得到的文本特征输入到Decoder-L得到每个时间步的单词概率分布，具体如下：

将句子生成的长期依赖交给Transformer的Decoder，将句子生成的短期依赖交给LSTM；在Decoder顶部添加一个LSTM，在Decoder和LSTM之间有一个额外的门控层Gate进行残差连接，由输入z₀进行调制，同时将编码后的特征h^I或h^W输入至LSTM和Decoder；

首先，将编码后的特征h^I或h^W输入LSTM进行初始化，并将当前时间步t的输入(y₀,y₁,…,y_t-1)进行编码，具体公式如下：

h₀,c₀＝LSTM(h^I) (公式8)

h₀,c₀＝LSTM(h^W) (公式9)

z₀＝embedding(y₁,y₂,…,y_t-1) (公式10)

其中，h^I和h^W是编码后的两种模态的特征，h₀和c₀是LSTM网络的初始状态矩阵，LSTM是长短时记忆网络，embedding是编码层；

然后，将R2Gen模型中Decoder的残差连接的相加操作改成门控层，具体公式如下：

M_t＝RM(M_t-1,z₀) (公式11)

z′_l＝MCLN(Gate(z_l-1,MMHA(z_l-1)),M_t),l＝1,…,N (公式12)

z″_l＝MCLN(Gate(z′_l-1,MHA(e,e,z′_l)),M_t),l＝1,…,N (公式13)

z_l＝MCLN(Gate(z″_l-1,MLP(z″_l-1)),M_t),l＝1,…,N (公式14)

其中，M_t是记忆矩阵，RM是根据编码后该时间步之前的输出对记忆矩阵进行调整函数，MCLN是加上记忆矩阵之后的层规范化，MMHA、MHA和MLP是标准Transformer中的层，Gate是门控层，N是Decoder的层数；

最后，将Transformer的Decoder和LSTM通过Gate连接，并通过输入z₀进行调制得到LSTM在时间步t的输出l_t，最终通过全连接层和softmax层得到时间步t的输出y_t，具体公式如下：

l_t,(h_t,c_t)＝LSTM(Gate(z₀,z_N),(h_t-1,c_t-1)) (公式15)

y_t＝Softmax(MLP(l_t)) (公式16)

其中，z_N是经过N层Decoder的输出，Gate是跟之前一样的门控层，LSTM是长短时记忆网络，h和t是LSTM用来保存之前信息的矩阵，MLP是多层感知机，Softmax是归一化指数函数，y^t是当前时间步输出的概率分布。

进一步的，步骤(5)所描述的单塔结构的跨模态对比学习对应decoder部分的跨模态对比学习，使用同一个decoder对两种不同模态的编码得到的特征进行解码，由于图像特征和文本特征被映射到同一个特征空间中后，两种被映射的特征就转换成了同一种隐藏特征，因此通过跨模态对比学习进行进一步的对齐；具体如下：

将编码后的两种模态特征h^I和h^W，输入Decoder-L中，把h^W作为h^I的正样本，通过InfoNCE将两种模态特征输出的概率分布和进行对齐；同时除了外，也跟GroundTroth进行交叉熵loss，防止因为的结果太差而将整体弄差；具体公式如下：

其中，y_t是第t个时间步的输出，h^I和h^W分别是图像特征和文本特征，CE是CrossEntropy Loss；T是时间步总数；

最终的Loss函数需要将四个loss按照权重加起来，具体公式如下：

Loss＝λ₁·Loss_C1+λ₂·Loss_C2+λ₃·Loss_I+λ₄·Loss_W (公式22)

其中，λ_i是损失函数的超参数，取值范围为[0,1]。

本发明有益效果：

本发明提出了可以用于医学报告生成任务的跨模态对比学习框架，旨在通过将图像特征和文本特征进行对齐，使模型更准确的提取有效的图像特征；本文将Transformer和LSTM进行优势互补，提出了Decoder-L框架，更好的捕捉句子生成的长期和短期依赖；本文首先在医学报告生成任务中使用Vision Transformer取代原来的CNN-Encoder，并通过实验证明其有效性；本文在在IU-Xray数据集上的实验证明了该方法的有效性。

附图说明

图1是本发明方法的具体流程示意图。

图2是本发明方法中整个模型框架图。

图3是本发明方法中使用的双塔跨模态对比学习框架图。

图4为本发明方法中使用的单塔跨模态对比学习框架图。

图5为本发明方法中构造的Decoder-L框架图。

具体实施方式

下面结合附图对本发明做进一步具体说明。

如图1所示，本发明提供一种基于跨模态对比学习的医学报告生成方法。针对现有技术的不足，提供了可以用于医学报告生成的跨模态对比学习框架，用来模拟初学者通过阅读大量实例来达到放射科医生水平的过程来解决这个问题。医学报告生成的过程应该分成两部分：读懂和表达。对于初学者，一个实例中的放射学图像是难以理解的，而报告，是每句话对应一个具体的医学观察，是容易理解的。给定一个实例，初学者会先读懂报告，再反过来指导读懂放射学图像；然后根据对放射学图像和文本的理解写出两份报告，因为正确的报告并不只有一种，所以除了跟ground truth比较之外，还需要将两份报告相互比较，保留更多的可能性。为了模拟上述的工作模式，跨模态对比学习框架包括两个部分：双塔和单塔。双塔可以将图像特征和文本特征对齐，用文本特征指导图像特征的提取；单塔可以将两种模态特征解码输出的概率分布对齐，除了让两种特征的进一步对齐之外，也让解码保留了更多的可能性。同时，我们提出了一个将Transformer和LSTM优势互补的框架(Decoder-L)，由于Decoder中使用简单的相加操作作为残差连接并不能很好的将连接的两部分联系起来，我们决定将采用门控作为残差连接。此外，为了更好地提取图像特征，我们首先在医学报告生成任务中使用Vision Transformer(ViT)取代原来的CNN-Encoder，并通过实验证明其有效性，同时我们发现Vision Transformer比原来的CNN-Encoder更适合Caption这种复杂任务，因为其中的Self-Attention层完全可以类比于卷积层，由于其更复杂的特征，又比CNN多了更多可能性。

如图2展示了本文的整体模型框架图，现在根据附图2来分别说明各个模块的细节：

步骤(1)、对于图像我们使用ViT提取图像特征h^I。首先，将图像x拉平成二维的图像，并切成图像块N＝HW/P²，其中N是图像块的个数、(P,P)是图像块的大小，我们将N设置为64，将(P,P)设置为(32,32)。由于使用标准的TransformerEncoder，因此需要将图块拉平，使用可训练的线性投影映射到可以输入TransformerEncoder的大小，并添加位置embedding以保留位置信息。

步骤(2)、使用预训练好的Clinical BERT对文本进行编码并通过全连接层将其映射到特征空间中，得到文本特征。对于文本其中N是文本的长度，我们使用预训练好的Clinical BERT编码得到756维的特征向量，然后通过全连接层将其映射到特征空间中转化为(98,512)的特征矩阵，得到文本特征h^W。

步骤(3)、附图3展示的是双塔结构的跨模态对比学习，对应整体模型的encoder部分，使用两个不同的encoder分别对两种不同模态的输入进行编码得到两个不同模态的大小为(98,512)的特征矩阵。由于同一个实例中的两种不同模态编码后的特征存在于同一个特征空间中，图像特征和文本特征可以被映射到这个特征空间中，因此可以将同一个实例中的文本作为图像的正例，通过双塔结构的跨模态对比学习的方法进行对齐。

步骤(4)、将步骤(1)中得到的图像特征和步骤(2)中得到的文本特征输入到我们提出了一个将Transformer和LSTM优势互补的框架(Decoder-L)如图5所示，得到每个时间步的单词概率分布。我们意图将句子生成的长期依赖交给Transformer的Decoder，将句子生成的短期依赖交给LSTM。我们在Decoder顶部添加了一个LSTM，在Decoder和LSTM之间有一个额外的门控层Gate进行残差连接，由输入z₀进行调制，同时将编码后的特征h^I或h^W输入至LSTM和Decoder。此外，我们选择使用R2Gen模型中的Decoder。但是R2Gen模型中的Decoder中使用简单的相加操作作为残差连接并不能很好的将连接的两部分联系起来，我们决定将采用同样的门控作为残差连接用来加强联系。

步骤(5)、附图4展示的是单塔结构的跨模态对比学习，对应decoder部分的跨模态对比学习，使用同一个decoder对两种不同模态的编码得到的特征进行解码，由于图像特征和文本特征被映射到同一个特征空间中后，两种被映射的特征就转换成了同一种隐藏特征，因此可以通过跨模态对比学习进行进一步的对齐。我们将编码后的两种模态特征h^I或h^W，输入Decoder-L中，把h^W作为h^I的正样本，通过InfoNCE将两个模态对于的输出的概率分布和进行对齐。同时除了外，也跟Ground Troth进行交叉熵loss，防止因为的结果太差而将整体弄差。最终的Loss函数需要将四个loss按照权重加起来，

为了测试本发明各个模块的性能，我们在IU-Xray数据集上进行测试，并按照模块相叠加的方式进行实验。实验结果见表1，表2中CIDEr、BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE和METEOR为衡量生成字幕的准确性的四个常用指标。Decoder-L如图5所示是我们提出的一种新的decoder的结构，VIT是在步骤(1)中我们使用的图像特征提取器，CLIP如图3所示是我们在步骤(3)的encoder部分使用的跨模态对比学习，MSCLIP如图4所示是我们在步骤(5)的decoder部分使用的跨模态对比学习。

表1：实验结果

Claims

1.一种基于跨模态对比学习的医学报告生成方法，其特征在于包括如下步骤：

步骤(1)、使用改进的ViT模型，首先将图像切成图像块，然后使用可训练的线性投影将图像块映射到特征空间中，同时添加位置embedding以保留位置信息，再输入标准的Transformer Encoder来提取图像特征；

步骤(5)、将步骤(4)中输入图像特征得到的单词概率分布Ⅰ和输入文本特征得到的单词概率分布Ⅱ使用单塔结构的跨模态对比学习进行对齐；

步骤(1)所述的使用改进的ViT模型提取图像特征，具体如下：

对于图像使用ViT模型提取图像特征h^I；

首先，将图像x拉平成二维的图像，并切成图像块其中是图像块的个数、(P,P)是图像块的大小；由于使用标准的Transformer Encoder，因此需要将图块拉平，使用可训练的线性投影映射到标准的Transformer Encoder，并添加位置embedding以保留位置信息Ε_pos，具体公式如下：

h^I＝z_L (公式4)

其中，改进的ViT模型是将原ViT模型的最后一层分类层去掉，得到图像特征h^I；x_class是一个特殊的用来整合整体信息的变量；是第i个的图像块；E是对图像块进行编码的向量；E_pos是位置信息，对编码后的图像特征再加上位置编码；LN是Layer Normalization，层规范化；MSA是Transformer中的多头注意力；MLP是多层感知机；z是公式过程中的临时变量；h^I是提取的图像特征；和表示中间变量，L表示层数；

步骤(5)所描述的单塔结构的跨模态对比学习对应decoder部分的跨模态对比学习，使用同一个decoder对两种不同模态的编码得到的特征进行解码，由于图像特征和文本特征被映射到同一个特征空间中后，两种被映射的特征就转换成了同一种隐藏特征，因此通过跨模态对比学习进行进一步的对齐；具体如下：

将编码后的两种模态特征h^I和h^W，输入Decoder-L中，把h^W作为h^I的正样本，通过InfoNCE将两种模态特征输出的概率分布和进行对齐；同时除了外，也跟Ground Troth进行交叉熵loss，防止因为的结果太差而将整体弄差；具体公式如下：

Loss＝λ₁·Loss_C1+λ₂·Loss_C2+λ₃·Loss_I+λ₄·Loss_W (公式22)

其中，λ_i是损失函数的超参数，取值范围为[0,1]。

2.根据权利要求1所述的一种基于跨模态对比学习的医学报告生成方法，其特征在于步骤(2)所述的使用预训练好的Clinical BERT对文本进行编码并通过全连接层将其映射到特征空间中，得到文本特征，具体如下：

h^W＝MLP(BERT(y′₁,y′₂,…,y′_N)) (公式5)

其中，BERT是预训练好的Clinical BERT，MLP是多层感知机。

3.根据权利要求2所述的一种基于跨模态对比学习的医学报告生成方法，图像特征和文本特征能够被映射到同一个特征空间中，因此将同一个实例中的文本特征作为图像特征的正例，通过双塔结构的跨模态对比学习的方法进行对齐，公式如下：

loss_C1＝InfoNCE(h^I,h^W) (公式7)

4.根据权利要求3所述的一种基于跨模态对比学习的医学报告生成方法，其特征在于步骤(4)所述的将步骤(1)中得到的图像特征和步骤(2)中得到的文本特征输入到Decoder-L得到每个时间步的单词概率分布，具体如下：

h₀,c₀＝LSTM(h^I) (公式8)

h₀,c₀＝LSTM(h^W) (公式9)

z₀＝embedding(y₁,y₂,…,y_t-1)(公式10)

M_t＝RM(M_t-1,z₀)(公式11)

l_t,(h_t,c_t)＝LSTM(Gate(z₀,z_N),(h_t-1,c_t-1))(公式15)

y_t＝Softmax(MLP(l_t))(公式16)