CN114743630B - 一种基于跨模态对比学习的医学报告生成方法 - Google Patents
一种基于跨模态对比学习的医学报告生成方法 Download PDFInfo
- Publication number
- CN114743630B CN114743630B CN202210347478.6A CN202210347478A CN114743630B CN 114743630 B CN114743630 B CN 114743630B CN 202210347478 A CN202210347478 A CN 202210347478A CN 114743630 B CN114743630 B CN 114743630B
- Authority
- CN
- China
- Prior art keywords
- image
- features
- text
- lstm
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000009826 distribution Methods 0.000 claims abstract description 18
- 230000007774 longterm Effects 0.000 claims abstract description 7
- 238000013507 mapping Methods 0.000 claims abstract description 7
- 230000000295 complement effect Effects 0.000 claims abstract description 3
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 9
- 230000015654 memory Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 3
- 238000004821 distillation Methods 0.000 claims description 2
- 238000009472 formulation Methods 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 230000006403 short-term memory Effects 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 235000019987 cider Nutrition 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000002601 radiography Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于跨模态对比学习的医学报告生成方法。本发明步骤如下:1、使用ViT模型将图像切成图像块,然后使用可训练的线性投影将图像块映射到特定的特征空间中,同时添加位置保留位置信息,再输入标准的TransformerEncoder来提取图像特征;2、使用预训练好的ClinicalBERT对文本进行编码并通过全连接层将其映射到特征空间中,得到文本特征;3、将得到的图像特征和文本特征进行双塔结构的跨模态对比学习进行对齐操作;4、将得到的图像特征和文本特征输入到一个将Transformer和LSTM优势互补的框架Decoder‑L,得到每个时间步的单词概率分布;5、将得到的两个单词概率分布使用单塔结构的跨模态对比学习进行对齐。本发明将Transformer和LSTM进行优势互补,更好的捕捉句子生成的长期和短期依赖。
Description
技术领域
本发明涉及医学报告生成,尤其涉及一种基于跨模态对比学习的医学报告生成方法。
背景技术
胸片是临床上最常用的影像学检查方法之一。然而,解释胸片并撰写报告是繁琐的,这为放射科医生增加了大量的工作量。因此,使用机器学习技术的自动医学报告生成,有望减轻医生的负担并加快临床的工作流程。从根本上说,这可以看作是将视觉输入转换为文本输出,即一般所说的Image Caption任务。然而,将其转换到医学报告中并非易事,因为我们需要了解其复杂的结构和多样性,以及建模由放射科医生的不同专业知识和经验引起的不确定性。
大多数现有的成功的医学报告生成模型遵循标准的Image Caption方法,并采用encoder-decoder框架。但是直接将Image Caption的方法应用到医学报告生成是存在一些问题的,医学报告生成有其固有的一些难题:1)提取图像特征难:在Image Caption任务中,图像中主要是文本中所描述的事件,文本中也是图像中主要发生的事件,因此在ImageCaption任务中有效的图像特征在图像编码后容易得到。但是在医学报告生成任务中,想要准确的提取图像的特征,需要医生的专业知识以及经验,而这种专业知识和经验是很难通过建模得到的,这也是当前大多数医学报告生成模型效果差的主要原因。2)超长序列:Image Caption任务中文本往往是一个短句,只描述图像中主体的部分,而医学报告生成任务中的文本是一个长段,具有多句话,并且每个句子都围绕着一个具体的医学观察,即前后两个句子之间不存在关联。对于Image Caption任务中常用的LSTM,由于梯度消失或者梯度爆炸,很难对如此长的序列进行建模。最近有医学报告生成模型使用层次化LSTM,来解决这个问题,但是并不能很有效的捕捉句子生成的长期依赖。现在越来越多的模型利用Transformer来更好的捕捉句子生成的长期依赖,但是对于捕捉句子生成的短期依赖不如LSTM。
发明内容
本发明针对现有技术的不足,提供了可以用于医学报告生成的跨模态对比学习框架,用来模拟初学者通过阅读大量实例来达到放射科医生水平的过程来解决这个问题。医学报告生成的过程应该分成两部分:读懂和表达。对于初学者,一个实例中的放射学图像是难以理解的,而报告,是每句话对应一个具体的医学观察,是容易理解的。给定一个实例,初学者会先读懂报告,再反过来指导读懂放射学图像;然后根据对放射学图像和文本的理解写出两份报告,因为正确的报告并不只有一种,所以除了跟ground truth比较之外,还需要将两份报告相互比较,保留更多的可能性。为了模拟上述的工作模式,跨模态对比学习框架包括两个部分:双塔和单塔。双塔可以将图像特征和文本特征对齐,用文本特征指导图像特征的提取;单塔可以将两种模态特征解码输出的概率分布对齐,除了让两种特征的进一步对齐之外,也让解码保留了更多的可能性。同时,我们提出了一个将Transformer和LSTM优势互补的框架(Decoder-L),由于Decoder中使用简单的相加操作作为残差连接并不能很好的将连接的两部分联系起来,我们决定将采用门控作为残差连接。此外,为了更好地提取图像特征,我们首先在医学报告生成任务中使用Vision Transformer(ViT)取代原来的CNN-Encoder,并通过实验证明其有效性,同时我们发现Vision Transformer比原来的CNN-Encoder更适合Caption这种复杂任务,因为其中的Self-Attention层完全可以类比于卷积层,由于其更复杂的特征,又比CNN多了更多可能性。
一种基于跨模态对比学习的医学报告生成的方法,其步骤如下:
步骤(1)、使用改进的ViT模型,首先将图像切成图像块,然后使用可训练的线性投影将图像块映射到特定的特征空间中,同时添加位置embedding以保留位置信息,再输入标准的Transformer Encoder来提取图像特征;
步骤(2)、使用预训练好的Clinical BERT对文本进行编码并通过全连接层将其映射到特征空间中,得到文本特征;
步骤(3)、将步骤(1)中得到的图像特征和步骤(2)中得到的文本特征进行双塔结构的跨模态对比学习进行对齐操作;
步骤(4)、将步骤(1)中得到的图像特征和步骤(2)中得到的文本特征输入到一个将Transformer和LSTM优势互补的框架Decoder-L,得到每个时间步的单词概率分布;
步骤(5)、将步骤(4)中输入图像特征得到的单词概率分布Ⅰ和输入文本特征得到的单词概率分布Ⅱ使用单塔结构的跨模态对比学习进行对齐。
进一步的,步骤(1)所述的使用改进的ViT模型提取图像特征,具体如下:
对于图像使用ViT模型提取图像特征hI;
首先,将图像x拉平成二维的图像,并切成图像块其中是图像块的个数、(P,P)是图像块的大小;由于使用标准的Transformer Encoder,因此需要将图块拉平,使用可训练的线性投影映射到可以输入Transformer Encoder的大小,并添加位置embedding以保留位置信息Epos,具体公式如下:
z′l=MSA(LN(zl-1))+zl-1,l=1...L (公式2)
zl=MLP(LN(z′l))+z′l,l=1...L (公式3)
hI=zL (公式4)
其中,改进的ViT模型是将原ViT模型的最后一层分类层去掉,得到图像特征hI;xclass是一个特殊的用来整合整体信息的变量;是第i个的图像块;E是对图像块进行编码的向量;Epos是位置信息,对编码后的图像特征再加上位置编码;LN是LayerNormalization,层规范化;MSA是Transformer中的多头注意力;MLP是多层感知机;z是公式过程中的临时变量;hI是提取的图像特征;z′l和zl表示中间变量,L表示层数。
进一步的,步骤(2)所述的使用预训练好的Clinical BERT对文本进行编码并通过全连接层将其映射到特征空间中,得到文本特征,具体如下:
对于文本其中N是文本的长度,使用预训练好的Clinical BERT编码并通过全连接层将其映射到特征空间中,得到文本特征hW,具体公式如下:
hW=MLP(BERT(y′1,y′2,…,y′N)) (公式5)
其中,BERT是预训练好的Clinical BERT,MLP是多层感知机。
进一步的,图像特征和文本特征能够被映射到同一个特征空间中,因此将同一个实例中的文本特征作为图像特征的正例,通过双塔结构的跨模态对比学习的方法进行对齐,公式如下:
其中,x是关键矩阵,y是查询矩阵,τ是温度蒸馏的超参数,M是矩阵的大小;InfoNCE(x,y)是使用两个大小相同的矩阵x和y,并计算y对于x的对齐距离;
lossC1=InfoNCE(hI,hW) (公式7)
其中,hI和hW分别是图像特征矩阵和文本特征矩阵,公式7使用InfoNCE对两个不同模态的矩阵进行对齐。
进一步的,步骤(4)所述的将步骤(1)中得到的图像特征和步骤(2)中得到的文本特征输入到Decoder-L得到每个时间步的单词概率分布,具体如下:
将句子生成的长期依赖交给Transformer的Decoder,将句子生成的短期依赖交给LSTM;在Decoder顶部添加一个LSTM,在Decoder和LSTM之间有一个额外的门控层Gate进行残差连接,由输入z0进行调制,同时将编码后的特征hI或hW输入至LSTM和Decoder;
首先,将编码后的特征hI或hW输入LSTM进行初始化,并将当前时间步t的输入(y0,y1,…,yt-1)进行编码,具体公式如下:
h0,c0=LSTM(hI) (公式8)
h0,c0=LSTM(hW) (公式9)
z0=embedding(y1,y2,…,yt-1) (公式10)
其中,hI和hW是编码后的两种模态的特征,h0和c0是LSTM网络的初始状态矩阵,LSTM是长短时记忆网络,embedding是编码层;
然后,将R2Gen模型中Decoder的残差连接的相加操作改成门控层,具体公式如下:
Mt=RM(Mt-1,z0) (公式11)
z′l=MCLN(Gate(zl-1,MMHA(zl-1)),Mt),l=1,…,N (公式12)
z″l=MCLN(Gate(z′l-1,MHA(e,e,z′l)),Mt),l=1,…,N (公式13)
zl=MCLN(Gate(z″l-1,MLP(z″l-1)),Mt),l=1,…,N (公式14)
其中,Mt是记忆矩阵,RM是根据编码后该时间步之前的输出对记忆矩阵进行调整函数,MCLN是加上记忆矩阵之后的层规范化,MMHA、MHA和MLP是标准Transformer中的层,Gate是门控层,N是Decoder的层数;
最后,将Transformer的Decoder和LSTM通过Gate连接,并通过输入z0进行调制得到LSTM在时间步t的输出lt,最终通过全连接层和softmax层得到时间步t的输出yt,具体公式如下:
lt,(ht,ct)=LSTM(Gate(z0,zN),(ht-1,ct-1)) (公式15)
yt=Softmax(MLP(lt)) (公式16)
其中,zN是经过N层Decoder的输出,Gate是跟之前一样的门控层,LSTM是长短时记忆网络,h和t是LSTM用来保存之前信息的矩阵,MLP是多层感知机,Softmax是归一化指数函数,yt是当前时间步输出的概率分布。
进一步的,步骤(5)所描述的单塔结构的跨模态对比学习对应decoder部分的跨模态对比学习,使用同一个decoder对两种不同模态的编码得到的特征进行解码,由于图像特征和文本特征被映射到同一个特征空间中后,两种被映射的特征就转换成了同一种隐藏特征,因此通过跨模态对比学习进行进一步的对齐;具体如下:
将编码后的两种模态特征hI和hW,输入Decoder-L中,把hW作为hI的正样本,通过InfoNCE将两种模态特征输出的概率分布和进行对齐;同时除了外,也跟GroundTroth进行交叉熵loss,防止因为的结果太差而将整体弄差;具体公式如下:
其中,yt是第t个时间步的输出,hI和hW分别是图像特征和文本特征,CE是CrossEntropy Loss;T是时间步总数;
最终的Loss函数需要将四个loss按照权重加起来,具体公式如下:
Loss=λ1·LossC1+λ2·LossC2+λ3·LossI+λ4·LossW (公式22)
其中,λi是损失函数的超参数,取值范围为[0,1]。
本发明有益效果:
本发明提出了可以用于医学报告生成任务的跨模态对比学习框架,旨在通过将图像特征和文本特征进行对齐,使模型更准确的提取有效的图像特征;本文将Transformer和LSTM进行优势互补,提出了Decoder-L框架,更好的捕捉句子生成的长期和短期依赖;本文首先在医学报告生成任务中使用Vision Transformer取代原来的CNN-Encoder,并通过实验证明其有效性;本文在在IU-Xray数据集上的实验证明了该方法的有效性。
附图说明
图1是本发明方法的具体流程示意图。
图2是本发明方法中整个模型框架图。
图3是本发明方法中使用的双塔跨模态对比学习框架图。
图4为本发明方法中使用的单塔跨模态对比学习框架图。
图5为本发明方法中构造的Decoder-L框架图。
具体实施方式
下面结合附图对本发明做进一步具体说明。
如图1所示,本发明提供一种基于跨模态对比学习的医学报告生成方法。针对现有技术的不足,提供了可以用于医学报告生成的跨模态对比学习框架,用来模拟初学者通过阅读大量实例来达到放射科医生水平的过程来解决这个问题。医学报告生成的过程应该分成两部分:读懂和表达。对于初学者,一个实例中的放射学图像是难以理解的,而报告,是每句话对应一个具体的医学观察,是容易理解的。给定一个实例,初学者会先读懂报告,再反过来指导读懂放射学图像;然后根据对放射学图像和文本的理解写出两份报告,因为正确的报告并不只有一种,所以除了跟ground truth比较之外,还需要将两份报告相互比较,保留更多的可能性。为了模拟上述的工作模式,跨模态对比学习框架包括两个部分:双塔和单塔。双塔可以将图像特征和文本特征对齐,用文本特征指导图像特征的提取;单塔可以将两种模态特征解码输出的概率分布对齐,除了让两种特征的进一步对齐之外,也让解码保留了更多的可能性。同时,我们提出了一个将Transformer和LSTM优势互补的框架(Decoder-L),由于Decoder中使用简单的相加操作作为残差连接并不能很好的将连接的两部分联系起来,我们决定将采用门控作为残差连接。此外,为了更好地提取图像特征,我们首先在医学报告生成任务中使用Vision Transformer(ViT)取代原来的CNN-Encoder,并通过实验证明其有效性,同时我们发现Vision Transformer比原来的CNN-Encoder更适合Caption这种复杂任务,因为其中的Self-Attention层完全可以类比于卷积层,由于其更复杂的特征,又比CNN多了更多可能性。
如图2展示了本文的整体模型框架图,现在根据附图2来分别说明各个模块的细节:
步骤(1)、对于图像我们使用ViT提取图像特征hI。首先,将图像x拉平成二维的图像,并切成图像块N=HW/P2,其中N是图像块的个数、(P,P)是图像块的大小,我们将N设置为64,将(P,P)设置为(32,32)。由于使用标准的TransformerEncoder,因此需要将图块拉平,使用可训练的线性投影映射到可以输入TransformerEncoder的大小,并添加位置embedding以保留位置信息。
步骤(2)、使用预训练好的Clinical BERT对文本进行编码并通过全连接层将其映射到特征空间中,得到文本特征。对于文本其中N是文本的长度,我们使用预训练好的Clinical BERT编码得到756维的特征向量,然后通过全连接层将其映射到特征空间中转化为(98,512)的特征矩阵,得到文本特征hW。
步骤(3)、附图3展示的是双塔结构的跨模态对比学习,对应整体模型的encoder部分,使用两个不同的encoder分别对两种不同模态的输入进行编码得到两个不同模态的大小为(98,512)的特征矩阵。由于同一个实例中的两种不同模态编码后的特征存在于同一个特征空间中,图像特征和文本特征可以被映射到这个特征空间中,因此可以将同一个实例中的文本作为图像的正例,通过双塔结构的跨模态对比学习的方法进行对齐。
步骤(4)、将步骤(1)中得到的图像特征和步骤(2)中得到的文本特征输入到我们提出了一个将Transformer和LSTM优势互补的框架(Decoder-L)如图5所示,得到每个时间步的单词概率分布。我们意图将句子生成的长期依赖交给Transformer的Decoder,将句子生成的短期依赖交给LSTM。我们在Decoder顶部添加了一个LSTM,在Decoder和LSTM之间有一个额外的门控层Gate进行残差连接,由输入z0进行调制,同时将编码后的特征hI或hW输入至LSTM和Decoder。此外,我们选择使用R2Gen模型中的Decoder。但是R2Gen模型中的Decoder中使用简单的相加操作作为残差连接并不能很好的将连接的两部分联系起来,我们决定将采用同样的门控作为残差连接用来加强联系。
步骤(5)、附图4展示的是单塔结构的跨模态对比学习,对应decoder部分的跨模态对比学习,使用同一个decoder对两种不同模态的编码得到的特征进行解码,由于图像特征和文本特征被映射到同一个特征空间中后,两种被映射的特征就转换成了同一种隐藏特征,因此可以通过跨模态对比学习进行进一步的对齐。我们将编码后的两种模态特征hI或hW,输入Decoder-L中,把hW作为hI的正样本,通过InfoNCE将两个模态对于的输出的概率分布和进行对齐。同时除了外,也跟Ground Troth进行交叉熵loss,防止因为的结果太差而将整体弄差。最终的Loss函数需要将四个loss按照权重加起来,
为了测试本发明各个模块的性能,我们在IU-Xray数据集上进行测试,并按照模块相叠加的方式进行实验。实验结果见表1,表2中CIDEr、BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE和METEOR为衡量生成字幕的准确性的四个常用指标。Decoder-L如图5所示是我们提出的一种新的decoder的结构,VIT是在步骤(1)中我们使用的图像特征提取器,CLIP如图3所示是我们在步骤(3)的encoder部分使用的跨模态对比学习,MSCLIP如图4所示是我们在步骤(5)的decoder部分使用的跨模态对比学习。
表1:实验结果
Claims (4)
1.一种基于跨模态对比学习的医学报告生成方法,其特征在于包括如下步骤:
步骤(1)、使用改进的ViT模型,首先将图像切成图像块,然后使用可训练的线性投影将图像块映射到特征空间中,同时添加位置embedding以保留位置信息,再输入标准的Transformer Encoder来提取图像特征;
步骤(2)、使用预训练好的Clinical BERT对文本进行编码并通过全连接层将其映射到特征空间中,得到文本特征;
步骤(3)、将步骤(1)中得到的图像特征和步骤(2)中得到的文本特征进行双塔结构的跨模态对比学习进行对齐操作;
步骤(4)、将步骤(1)中得到的图像特征和步骤(2)中得到的文本特征输入到一个将Transformer和LSTM优势互补的框架Decoder-L,得到每个时间步的单词概率分布;
步骤(5)、将步骤(4)中输入图像特征得到的单词概率分布Ⅰ和输入文本特征得到的单词概率分布Ⅱ使用单塔结构的跨模态对比学习进行对齐;
步骤(1)所述的使用改进的ViT模型提取图像特征,具体如下:
对于图像使用ViT模型提取图像特征hI;
首先,将图像x拉平成二维的图像,并切成图像块其中是图像块的个数、(P,P)是图像块的大小;由于使用标准的Transformer Encoder,因此需要将图块拉平,使用可训练的线性投影映射到标准的Transformer Encoder,并添加位置embedding以保留位置信息Εpos,具体公式如下:
hI=zL (公式4)
其中,改进的ViT模型是将原ViT模型的最后一层分类层去掉,得到图像特征hI;xclass是一个特殊的用来整合整体信息的变量;是第i个的图像块;E是对图像块进行编码的向量;Epos是位置信息,对编码后的图像特征再加上位置编码;LN是Layer Normalization,层规范化;MSA是Transformer中的多头注意力;MLP是多层感知机;z是公式过程中的临时变量;hI是提取的图像特征;和表示中间变量,L表示层数;
步骤(5)所描述的单塔结构的跨模态对比学习对应decoder部分的跨模态对比学习,使用同一个decoder对两种不同模态的编码得到的特征进行解码,由于图像特征和文本特征被映射到同一个特征空间中后,两种被映射的特征就转换成了同一种隐藏特征,因此通过跨模态对比学习进行进一步的对齐;具体如下:
将编码后的两种模态特征hI和hW,输入Decoder-L中,把hW作为hI的正样本,通过InfoNCE将两种模态特征输出的概率分布和进行对齐;同时除了外,也跟Ground Troth进行交叉熵loss,防止因为的结果太差而将整体弄差;具体公式如下:
其中,yt是第t个时间步的输出,hI和hW分别是图像特征和文本特征,CE是CrossEntropy Loss;T是时间步总数;
最终的Loss函数需要将四个loss按照权重加起来,具体公式如下:
Loss=λ1·LossC1+λ2·LossC2+λ3·LossI+λ4·LossW (公式22)
其中,λi是损失函数的超参数,取值范围为[0,1]。
2.根据权利要求1所述的一种基于跨模态对比学习的医学报告生成方法,其特征在于步骤(2)所述的使用预训练好的Clinical BERT对文本进行编码并通过全连接层将其映射到特征空间中,得到文本特征,具体如下:
对于文本其中N是文本的长度,使用预训练好的Clinical BERT编码并通过全连接层将其映射到特征空间中,得到文本特征hW,具体公式如下:
hW=MLP(BERT(y′1,y′2,…,y′N)) (公式5)
其中,BERT是预训练好的Clinical BERT,MLP是多层感知机。
3.根据权利要求2所述的一种基于跨模态对比学习的医学报告生成方法,图像特征和文本特征能够被映射到同一个特征空间中,因此将同一个实例中的文本特征作为图像特征的正例,通过双塔结构的跨模态对比学习的方法进行对齐,公式如下:
其中,x是关键矩阵,y是查询矩阵,τ是温度蒸馏的超参数,M是矩阵的大小;InfoNCE(x,y)是使用两个大小相同的矩阵x和y,并计算y对于x的对齐距离;
lossC1=InfoNCE(hI,hW) (公式7)
其中,hI和hW分别是图像特征矩阵和文本特征矩阵,公式7使用InfoNCE对两个不同模态的矩阵进行对齐。
4.根据权利要求3所述的一种基于跨模态对比学习的医学报告生成方法,其特征在于步骤(4)所述的将步骤(1)中得到的图像特征和步骤(2)中得到的文本特征输入到Decoder-L得到每个时间步的单词概率分布,具体如下:
将句子生成的长期依赖交给Transformer的Decoder,将句子生成的短期依赖交给LSTM;在Decoder顶部添加一个LSTM,在Decoder和LSTM之间有一个额外的门控层Gate进行残差连接,由输入z0进行调制,同时将编码后的特征hI或hW输入至LSTM和Decoder;
首先,将编码后的特征hI或hW输入LSTM进行初始化,并将当前时间步t的输入(y0,y1,…,yt-1)进行编码,具体公式如下:
h0,c0=LSTM(hI) (公式8)
h0,c0=LSTM(hW) (公式9)
z0=embedding(y1,y2,…,yt-1)(公式10)
其中,hI和hW是编码后的两种模态的特征,h0和c0是LSTM网络的初始状态矩阵,LSTM是长短时记忆网络,embedding是编码层;
然后,将R2Gen模型中Decoder的残差连接的相加操作改成门控层,具体公式如下:
Mt=RM(Mt-1,z0)(公式11)
其中,Mt是记忆矩阵,RM是根据编码后该时间步之前的输出对记忆矩阵进行调整函数,MCLN是加上记忆矩阵之后的层规范化,MMHA、MHA和MLP是标准Transformer中的层,Gate是门控层,N是Decoder的层数;
最后,将Transformer的Decoder和LSTM通过Gate连接,并通过输入z0进行调制得到LSTM在时间步t的输出lt,最终通过全连接层和softmax层得到时间步t的输出yt,具体公式如下:
lt,(ht,ct)=LSTM(Gate(z0,zN),(ht-1,ct-1))(公式15)
yt=Softmax(MLP(lt))(公式16)
其中,zN是经过N层Decoder的输出,Gate是跟之前一样的门控层,LSTM是长短时记忆网络,h和t是LSTM用来保存之前信息的矩阵,MLP是多层感知机,Softmax是归一化指数函数,yt是当前时间步输出的概率分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210347478.6A CN114743630B (zh) | 2022-04-01 | 2022-04-01 | 一种基于跨模态对比学习的医学报告生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210347478.6A CN114743630B (zh) | 2022-04-01 | 2022-04-01 | 一种基于跨模态对比学习的医学报告生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114743630A CN114743630A (zh) | 2022-07-12 |
CN114743630B true CN114743630B (zh) | 2024-08-02 |
Family
ID=82278214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210347478.6A Active CN114743630B (zh) | 2022-04-01 | 2022-04-01 | 一种基于跨模态对比学习的医学报告生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114743630B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116631566B (zh) * | 2023-05-23 | 2024-05-24 | 广州合昊医疗科技有限公司 | 一种基于大数据的医学影像报告智能生成方法 |
CN116796251A (zh) * | 2023-08-25 | 2023-09-22 | 江苏省互联网行业管理服务中心 | 一种基于图文多模态的不良网站分类方法、系统及设备 |
CN117542538A (zh) * | 2024-01-10 | 2024-02-09 | 中国科学技术大学 | 一种基于强化学习的医疗多模态内容分析及生成方法 |
CN118072899B (zh) * | 2024-02-27 | 2024-09-17 | 中国人民解放军总医院第二医学中心 | 一种基于扩散模型文本生成技术的骨密度报告生成平台 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111309971A (zh) * | 2020-01-19 | 2020-06-19 | 浙江工商大学 | 一种基于多级编码的文本到视频的跨模态检索方法 |
CN113641846A (zh) * | 2021-08-12 | 2021-11-12 | 中国石油大学(华东) | 一种基于强表示深度哈希的跨模态检索模型 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108319686B (zh) * | 2018-02-01 | 2021-07-30 | 北京大学深圳研究生院 | 基于受限文本空间的对抗性跨媒体检索方法 |
CN113780350B (zh) * | 2021-08-10 | 2023-12-19 | 上海电力大学 | 一种基于ViLBERT和BiLSTM的图像描述方法 |
CN113780003B (zh) * | 2021-08-31 | 2023-04-07 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 时空数据变分编解码跨模态增强方法 |
-
2022
- 2022-04-01 CN CN202210347478.6A patent/CN114743630B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111309971A (zh) * | 2020-01-19 | 2020-06-19 | 浙江工商大学 | 一种基于多级编码的文本到视频的跨模态检索方法 |
CN113641846A (zh) * | 2021-08-12 | 2021-11-12 | 中国石油大学(华东) | 一种基于强表示深度哈希的跨模态检索模型 |
Also Published As
Publication number | Publication date |
---|---|
CN114743630A (zh) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114743630B (zh) | 一种基于跨模态对比学习的医学报告生成方法 | |
US20230092027A1 (en) | Method and apparatus for training medical image report generation model, and image report generation method and apparatus | |
Chen et al. | MICU: Image super-resolution via multi-level information compensation and U-net | |
CN111401079A (zh) | 神经网络机器翻译模型的训练方法、装置及存储介质 | |
CN113159056A (zh) | 图像分割方法、装置、设备及存储介质 | |
CN110648331B (zh) | 用于医学图像分割的检测方法、医学图像分割方法及装置 | |
CN114445420B (zh) | 编解码结构结合注意力机制的图像分割模型及其训练方法 | |
CN116664588A (zh) | 基于掩码建模的3d医学图像分割模型建立方法及其应用 | |
CN117315244A (zh) | 融合多尺度特征的医学图像分割方法、设备、存储介质 | |
CN116757978A (zh) | 一种红外与可见光图像自适应融合方法、系统和电子设备 | |
CN116596150A (zh) | 基于多分支自注意力的Transformer霍克斯过程模型的事件预测方法 | |
CN114529917B (zh) | 一种零样本中文单字识别方法、系统、装置及存储介质 | |
CN116433654A (zh) | 一种改进的U-Net网络实现脊柱整体分割方法 | |
CN116258685A (zh) | 全局和局部特征同时提取与融合的多器官分割方法及装置 | |
CN113707278B (zh) | 一种基于空间编码的脑ct医学报告生成方法 | |
CN116523985B (zh) | 一种结构和纹理特征引导的双编码器图像修复方法 | |
CN117272237A (zh) | 基于多模态融合的专利附图多语言图解生成方法及系统 | |
CN116386802A (zh) | 一种基于扩散模型的医学影像报告生成方法及设备 | |
CN114664404A (zh) | 一种胎儿心脏超声图像诊断报告自动生成系统的实现方法 | |
CN112069777A (zh) | 一种基于骨架的二阶段数据到文本生成方法 | |
CN118398154B (zh) | 词语索引模型和医学报告的生成方法、系统、设备和介质 | |
CN117173401B (zh) | 基于交叉指导和特征级一致性双正则化的半监督医学图像分割方法及系统 | |
Zeng et al. | CP‐GAN: Meet the high requirements of diagnose report to medical image by content preservation | |
CN116847091B (zh) | 图像编码方法、系统、设备及介质 | |
CN111724467B (zh) | 一种用于3d打印的体素模型生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |