CN115662565A - 一种融合标签信息的医学影像报告生成方法及设备 - Google Patents

一种融合标签信息的医学影像报告生成方法及设备 Download PDF

Info

Publication number
CN115662565A
CN115662565A CN202211422392.1A CN202211422392A CN115662565A CN 115662565 A CN115662565 A CN 115662565A CN 202211422392 A CN202211422392 A CN 202211422392A CN 115662565 A CN115662565 A CN 115662565A
Authority
CN
China
Prior art keywords
medical image
information
visual
label
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211422392.1A
Other languages
English (en)
Inventor
孙水发
梅周俊森
吴义熔
李小龙
唐庭龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Three Gorges University CTGU
Original Assignee
China Three Gorges University CTGU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges University CTGU filed Critical China Three Gorges University CTGU
Priority to CN202211422392.1A priority Critical patent/CN115662565A/zh
Publication of CN115662565A publication Critical patent/CN115662565A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种融合标签信息的医学影像报告生成方法及设备,属于医学影像处理与文本生成领域。包括以下步骤:构建医学影像报告生成模型;基于医学影像数据,提取影像中的视觉特征与语义特征;对语义特征进行识别分类,得到该影像的标签特征;对视觉特征与标签特征进行视觉、文本对齐融合,得到融合特征;将处理后的融合特征输入文本解码器中,实现医学影像报告生成。本发明加快工作流程的自动化,减轻医生工作负担,降低错误报告的出现概率,提高医疗报告的质量和标准化。

Description

一种融合标签信息的医学影像报告生成方法及设备
技术领域
本发明涉及医学影像处理与文本生成技术领域,更具体的说是涉及一种融合标签信息的医学影像报告生成方法及设备。
背景技术
医学影像报告自动生成任务旨在通过给定的医学影像,生成清晰(clear)、正确(correct)、简洁(concise)、完整(complete)、一致(consistent)、连贯(coherent)即6C特点的报告内容。从海量的影像诊断报告与医疗影像作为基础数据源,通过深度学习进行相关特征提取与分析,并能够生成结构化的诊断报告,是一种影像图像处理与自然语言生成技术结合的新方法。针对医学影像报告自动生成任务的研究,现有技术中仅实现了对胸腔常见疾病的分类和诊断报告生成,提出了多标签分类+目标检测+生成医学报告的多任务模型,其核心是通过分类任务预测疾病标签。及更换性能更好的编码器网络与解码器网络、训练额外的分类器来预测疾病标签或医疗标签,进一步提高报告质量。利用先验知识构建疾病图,获得疾病预测结果等。然而,在现有技术中,多数模型都是通过视觉特征来生成报告,同时模型生成的报告在几个评估指标有限,导致医学影像文本报告的生成效率、精度较低。
因此,如何提供一种融合标签信息的医学影像报告生成方法及设备是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种融合标签信息的医学影像报告生成方法及设备,基于Transformer与MIX-MLP多标签分类网络构成的编码器、协注意力机制以及分层LSTM解码器三个模块组成的医学报告生成框架,利用所构建的融合标签信息的医学影像报告生成框架自动生成医学影像报告。解决现有技术中医学影像文本报告的生成效率、精度较低的问题。
为了实现上述目的,本发明提供如下技术方案:
一方面,本发明公开了一种融合标签信息的医学影像报告生成方法,包括以下步骤:
构建医学影像报告生成模型框架,所述医学影像报告生成模型框架包括:编码器、分类模块、融合模块以及文本解码器;
获取医学影像数据,并对所述医学影像数据进行预处理后输入至所述医学影像报告生成模型框架;
通过所述编码器提取影像中的视觉特征与语义特征,得到视觉特征信息以及语义特征信息;
通过所述分类模块对语义特征信息进行识别分类,得到医学影像的标签特征信息;
通过所述融合模块对视觉特征信息与标签特征信息进行视觉文本对齐融合,得到融合特征信息;
将处理后的融合特征信息输入所述文本解码器中,生成医学影像报告并输出。
优选的,所述医学影像报告生成模型框架包括:基于Transformer模型的编码器,基于MIX-MLP的多标签分类网络的分类模块,基于POS-SCAN的视觉文本对齐注意力机制的融合模块以及分层LSTM网络的文本解码器。
优选的,所述获取医学影像数据,并对所述医学影像数据进行预处理后输入至所述医学影像报告生成模型框架,包括:
获取医学影像数据;
对所述医学影像数据进行向量化;
将讲过向量化的医学影像数据输入至所述医学影像报告生成模型框架。
优选的,所述通过所述编码器提取影像中的视觉特征与语义特征,得到视觉特征信息以及语义特征信息,包括:
将向量化的医学影像数据输入至基于Transformer模型的编码器;
所述Transformer模型的编码器作为视觉与语义特征提取器同时提取视觉与语义特征,得到特征信息;
将特征信息分离为视觉特征信息与语义特征信息。
通过上述技术方案,用Transformer编码器作为视觉与语义特征提取器同时提取两类特征。经过训练后从倒数第二层提取特征信息,将特征信息分离为视觉特征与语义特征分别输入到下游模组中。
优选的,所述通过所述分类模块对语义特征信息进行识别分类,得到医学影像的标签特征信息,包括:
基于MIX-MLP的多标签分类网络的分类模块,将语义特征信息进行分类标注,得到分类标注结果;
在MIX-MLP的多标签分类网络中引入Focal Loss损失函数,对分类标注结果进行整理,得到医学影像的标签特征信息。
优选的,所述通过所述融合模块对视觉特征信息与标签特征信息进行视觉文本对齐融合,得到融合特征信息,包括:
基于POS-SCAN的视觉文本对齐注意力机制的融合模块将视觉信息与多标签分类的语义信息映射到同一个联合语义空间中与文本信息对齐,判断医学影像中的全局图像与文本信息的相似性,得到相似度结果;
根据相似度结果,将医学影像中的全局图像与文本信息在细粒度上进行匹配,得到融合特征信息。
通过上述技术方案,基于POS-SCAN的视觉文本对齐注意力机制,通过将视觉信息与多标签分类的语义信息映射到同一个联合语义空间中与文本信息对齐,来推断全局图像与文本的相似性,使图像与文本在细粒度上匹配。
优选的,所述分层LSTM网络的文本解码器包括:句LSTM网络模块和词LSTM网络模块。
优选的,将处理后的融合特征信息输入所述文本解码器中,生成医学影像报告并输出,包括:
通过所述句LSTM网络模块将融合后的特征信息生成多个主题特征;
通过所述词LSTM网络模块为每个主题特征生成对应句子;
由多个句子组成一份完整的医学影像报告并输出。
另一方面,本发明公开了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行程序时实现融合标签信息的医学影像报告生成方法的步骤。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种融合标签信息的医学影像报告生成方法及设备,通基于Transformer与MIX-MLP多标签分类网络构成的编码器、协注意力机制以及分层LSTM解码器三个模块组成医学影像报告生成模型框架,利用所构建的医学影像报告生成模型框架实现医学影像报告自动生成。本发明具有加快工作流程的自动化,减轻医生工作负担,降低错误报告的出现概率,提高医疗报告的质量和标准化的有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的生成方法流程框架示意图;
图2为本发明实施例提供的基于MIX-MLP的多标签分类网络的分类模块分类的流程示意图;
图3为本发明实施例提供的基于POS-SCAN的视觉文本对齐注意力机制得到融合特征信息的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一方面,参见附图1所示,本发明实施例公开了一种融合标签信息的医学影像报告生成方法,包括以下步骤:
构建医学影像报告生成模型框架,医学影像报告生成模型框架包括:编码器、分类模块、融合模块以及文本解码器;
获取医学影像数据,并对医学影像数据进行预处理后输入至医学影像报告生成模型框架;
通过编码器提取影像中的视觉特征与语义特征,得到视觉特征信息以及语义特征信息;
通过分类模块对语义特征信息进行识别分类,得到医学影像的标签特征信息;
通过融合模块对视觉特征信息与标签特征信息进行视觉文本对齐融合,得到融合特征信息;
将处理后的融合特征信息输入文本解码器中,生成医学影像报告并输出。
在一个具体实施例中,获取医学影像数据,后将医学影像向量化,使之能够输入到框架中。
具体的,将其处理成为一个3维向量
Figure BDA0003942391120000061
其中C是通道数,H和W分别表示图像高度和宽度。
在一个具体实施例中,将影像向量输入到框架的编码器中提取其中的视觉特征与标签特征,具体步骤如下:
1)影像向量输入到框架的Transformer中得到视觉特征与初级语义特征,即Img→fv,fs′,其中
Figure BDA0003942391120000062
为视觉特征,
Figure BDA0003942391120000063
为初级语义特征。
具体的,将图像划分为M个图像块并展平为2维向量
Figure BDA0003942391120000064
每个图像块的分辨率为(P,P),通道数为C,M=HW/P2为图像块的数量。ip通过一个全连接层投影到D维,再拼接一个可学习的位置编码向量
Figure BDA0003942391120000065
与携带位置信息的一维位置嵌入向量
Figure BDA0003942391120000066
相加,输入到Transformer编码器(zl)中。整个编码器由L个Transformer编码器构成,每个编码器包含多头自注意力(Multi-Head Self-Attention,MSA)和多层感知机(Multi-LayerPerceptron,MLP)网络。MSA与MLP前加入LayerNorm(LN)与残差连接,减少过拟合与防止梯度消失。视觉、初级语义特征向量fv,fs′均由Transformer编码器输出,其输出向量Z=[xclass;x1;x2;…;xn],令fv=[x1;x2;…;xn],fs′=[xclass]。
z0=[xclass;i1E;i2E;…;inE]+Epos#(1)
z′l=MSA(LN(zl-1))+zl-1,l=1,…,L#(2)
zl=MLP(LN(zl))+z′l,l=1,…,L#(3)
Z=LN(zL)#(4)
fs′特征向量通过一个K维fc全连接层输出
Figure BDA0003942391120000067
其中K为数据集中tag标签的种类数量,D是视觉特征的维度,D1是语义特征的维度。
2)初级语义信息处理成为标签信息。
具体的,将初级语义信息输入到多标签分类网络中得到标签信息。
参见附图2所示,基于MIX-MLP的多标签分类网络的分类模块分类的流程示意图,使用ML P-Block的ML.P网络处理语义特征的第一个维度;转置语义特征的最后两个维度;使用MLP-Block的MLP网络处理语义特征的第二个维度;最后重复上述步骤Z次,输出标签特征信息。
具体的,基于MIX-MLP的多标签分类网络的分类模块由Z个MLP-Block网络串联得到,前一个MLP-Block网络的输出是后一个MLP-Block网络的输入。每个MLP-Block由两个MLP网络组成,第一个MLP网络作用于
Figure BDA0003942391120000071
的第一个维度,第二个MLP网络作用于
Figure BDA0003942391120000072
的第二个维度。每个MLP网络包含两个全连接层与一个GELU激活函数。
Figure BDA0003942391120000073
通过全连接层与softmax函数后得到
Figure BDA0003942391120000074
Figure BDA0003942391120000075
的第二个维度,即每个Tag标签的出现概率进行排序选取前N个Tag标签张量embedding后获得语义特征fs,其可以表示为:
U*,i=X*,i+W2σ(W1LayerNorm(X)*,i)#(5)
Yj,*=Uj,*+W4σ(W3LayerNorm(U)J,*)#(6)
Figure BDA0003942391120000076
Figure BDA0003942391120000077
其中W1-4为MLP网络的参数矩阵,σ为GELU激活函数,i,j为两个MLP网络的隐藏层的维度,它的取值与特征向量的维度无关,θ为MLP-Block层,Z为MLP-Block数量,ζ为topk函数,将
Figure BDA0003942391120000078
排序后选取前N个向量。
在一个具体实施例中,将视觉信息和标签信息融合为融合特征信息。
参见附图3所示,基于POS-SCAN的视觉文本对齐注意力机制得到融合特征信息的流程示意图,输入视觉特征,计算其与文本特征之间的余弦相似度,计算视觉软注意力机制特征权重,与视觉特征相乘;同时,输入标签特征信息,计算其与文本特征之间的余弦相似度,计算语义软注意力机制特征权重,与标签特征相乘;最后,将两个向量拼接后通过全连接城,输出融合特征信息。
具体的,视觉信息和标签信息输入到协注意力机制中得到融合特征信息。对于编码器输出的
Figure BDA0003942391120000081
特征向量,使用一种图像文本匹配机制计算其与隐藏层状态的相似度,以更好地实现视觉-语义特征的对齐。具体细节为分别计算fv、fs与t-1时刻的句LSTM网络隐藏层状态
Figure BDA0003942391120000082
之间的余弦相似度
Figure BDA0003942391120000083
方法如下:
Figure BDA0003942391120000084
Figure BDA0003942391120000085
Figure BDA0003942391120000086
Figure BDA0003942391120000087
其中,m∈[1,M],n∈[1,N],t∈[1,T],D2是隐藏层状态的维度,BN为BatchNormalization层,控制梯度爆炸、防止梯度消失与过拟合;Wv,Wv,h是视觉相似度的参数矩阵,Ws,Ws,h是语义相似度的参数矩阵。视觉、语义相似度在标准化后计算视觉软注意力与语义软注意力机制特征权重,其表示如下:
Figure BDA0003942391120000088
Figure BDA0003942391120000089
其中,[x]+≡max(x,0),表示在x与0中取较大值,
Figure BDA00039423911200000810
通过下列公式计算各自的软注意力特征向量:
Figure BDA0003942391120000091
Figure BDA0003942391120000092
最后,将两个向量拼接起来,通过一个全连接层Wfc获得t时刻的协注意力特征向量
Figure BDA0003942391120000093
即:
Figure BDA0003942391120000094
在一个具体实施例中,将融合特征信息输入到编码器网络中得到生成文本;
具体的,分层LSTM网络的文本解码器包括:句LSTM网络模块和词LSTM网络模块。
更具体的,将融合特征信息知识融合输入到分层LSTM网络的句LSTM网络得到主题向量。具体而言,协注意力机制输出的特征向量
Figure BDA0003942391120000095
作为其输入,并生成对应的主题向量
Figure BDA0003942391120000096
主题向量输入词LSTM中产生句子。每输出一个主题向量,停止控制组件(Stop Control)会决定是否输出下一个主题向量。停止控制组件使用前一层隐藏层状态
Figure BDA0003942391120000097
与当前的隐藏层状态
Figure BDA0003942391120000098
计算生成下一句的概率p,句LSTM使用特征向量cof与内部的隐藏层状态h(t)计算主题向量top(t),公式如下:
Figure BDA0003942391120000099
Figure BDA00039423911200000910
Figure BDA00039423911200000911
其中,Wtop,hWtop,ctxWstop,t-1Wstop,tWstop,t是参数矩阵,LSTM1表示句LSTM网络,
Figure BDA00039423911200000912
表示第t步时句LSTM网络生成下一句的概率。如果p大于预定义的阈值,则句LSTM网络将停止生成新的主题向量,词LSTM网络也将停止生成单词。
更具体的,将主题向量输入到分层LSTM网络的词LSTM网络中得到每个生成句子,再将每个句子串联起来,得到最终的生成报告。具体而言,词LSTM与句LSTM网络相似,是一个标准的LSTM网络,其第一个与第二个输入为词LSTM生成的主题向量top(t)与预定义的起始标记,随后是单词序列。隐藏层状态同样的用于预测生成单词的分布p(yt|y1:t-1),在词LSTM生成其单词序列
Figure BDA0003942391120000101
后,将所有生成序列串联起来形成最终报告
Figure BDA0003942391120000102
公式如下:
Figure BDA0003942391120000103
Figure BDA0003942391120000104
其中Wword,h为参数矩阵,vstart为起始标记,[;]表示拼接,LSTM2表示词LSTM网络,
Figure BDA0003942391120000105
表示
Figure BDA0003942391120000106
在一个具体实施例中,还包括计算生成报告与影像报告之间损失。从而计算模型预测文本与真实样本之间的差异,通过训练与梯度下降法使模型生成的文本更加接近真实样本。
具体的,每一个训练样本有多处的损失计算,分别计算每一处的损失,前后相加得到总损失。将每一个训练样本看作一个元组(I,G,R),其中I为图像,G为图像I对应的GroundTruth,R为图像I对应生成报告,由T个句子组成,每个句子由Si个单词组成。对于每一个训练样本(I,G,R),模型先计算其图像I所对应的标签在所有标签上的概率分布ptag。考虑到tag分布的稀疏性,采用focal loss函数计算ptag与真实标签的损失。Focal Loss函数是一种处理样本分类不均衡的损失函数,其公式如下:
Figure BDA0003942391120000107
其中N为Tag的数量,γ为样本难度调节因子,α为样本权重。
句LSTM分为T个时刻,计算每个时刻第i个句子在{STOP,CONTINUE}两种状态上的概率分布p'i。最后将主题向量输入词LSTM网络,生成单词wi,j。每个生成的单词序列由交叉熵损失函数(Cross Entropy,CE)计算损失。报告生成的训练损失是两个交叉熵损失之和:句子数量分布概率pstop,i所对应的损失losssent,每个句子的字分布pi,j所对应的损失lossword。将3个损失组合在一起,得到整体训练损失:
Figure BDA0003942391120000111
其中,λtagsentword为预先设定的各个损失的权重。
另一方面,本发明实施例提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行程序时实现融合标签信息的医学影像报告生成方法的步骤。
经由上述的技术方案可知,与现有技术相比,本发明实施例公开提供了一种融合标签信息的医学影像报告生成方法及设备,具体的,为一种基于胸部X光影像的融合标签信息的医学影像报告生成方法及设备,具有以下有益效果:
1)本发明提出了一种可以从影像报告中生成医学影像报告的方法,并在IU-XAY与MIMIC-CXR数据集上取得了较好效果,在BLEU,ROUGE,METEOR等自然语言生成评估指标上优于现有模型;
2)本发明提出了一种可以从影像报告中生成医学影像标签的方法,并在MIMIC-CXR数据集上取得了较好效果,在准确率、召回率评估指标上优于现有模型。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种融合标签信息的医学影像报告生成方法,其特征在于,包括以下步骤:
构建医学影像报告生成模型框架,所述医学影像报告生成模型框架包括:编码器、分类模块、融合模块以及文本解码器;
获取医学影像数据,并对所述医学影像数据进行预处理后输入至所述医学影像报告生成模型框架;
通过所述编码器提取影像中的视觉特征与语义特征,得到视觉特征信息以及语义特征信息;
通过所述分类模块对语义特征信息进行识别分类,得到医学影像的标签特征信息;
通过所述融合模块对视觉特征信息与标签特征信息进行视觉文本对齐融合,得到融合特征信息;
将处理后的融合特征信息输入所述文本解码器中,生成医学影像报告并输出。
2.根据权利要求1所述的一种融合标签信息的医学影像报告生成方法,其特征在于,所述医学影像报告生成模型框架包括:基于Transformer模型的编码器,基于MIX-MLP的多标签分类网络的分类模块,基于POS-SCAN的视觉文本对齐注意力机制的融合模块以及分层LSTM网络的文本解码器。
3.根据权利要求1所述的一种融合标签信息的医学影像报告生成方法,其特征在于,所述获取医学影像数据,并对所述医学影像数据进行预处理后输入至所述医学影像报告生成模型框架,包括:
获取医学影像数据;
对所述医学影像数据进行向量化;
将讲过向量化的医学影像数据输入至所述医学影像报告生成模型框架。
4.根据权利要求3所述的一种融合标签信息的医学影像报告生成方法,其特征在于,所述通过所述编码器提取影像中的视觉特征与语义特征,得到视觉特征信息以及语义特征信息,包括:
将向量化的医学影像数据输入至基于Transformer模型的编码器;
所述Transformer模型的编码器作为视觉与语义特征提取器同时提取视觉与语义特征,得到特征信息;
将特征信息分离为视觉特征信息与语义特征信息。
5.根据权利要求4所述的一种融合标签信息的医学影像报告生成方法,其特征在于,所述通过所述分类模块对语义特征信息进行识别分类,得到医学影像的标签特征信息,包括:
基于MIX-MLP的多标签分类网络的分类模块,将语义特征信息进行分类标注,得到分类标注结果;
在MIX-MLP的多标签分类网络中引入Focal Loss损失函数,对分类标注结果进行整理,得到医学影像的标签特征信息。
6.根据权利要求5所述的一种融合标签信息的医学影像报告生成方法,其特征在于,所述通过所述融合模块对视觉特征信息与标签特征信息进行视觉文本对齐融合,得到融合特征信息,包括:
基于POS-SCAN的视觉文本对齐注意力机制的融合模块将视觉信息与多标签分类的语义信息映射到同一个联合语义空间中与文本信息对齐,判断医学影像中的全局图像与文本信息的相似性,得到相似度结果;
根据相似度结果,将医学影像中的全局图像与文本信息在细粒度上进行匹配,得到融合特征信息。
7.根据权利要求6所述的一种融合标签信息的医学影像报告生成方法,其特征在于,所述分层LSTM网络的文本解码器包括:句LSTM网络模块和词LSTM网络模块。
8.根据权利要求7所述的一种融合标签信息的医学影像报告生成方法,其特征在于,将处理后的融合特征信息输入所述文本解码器中,生成医学影像报告并输出,包括:
通过所述句LSTM网络模块将融合后的特征信息生成多个主题特征;
通过所述词LSTM网络模块为每个主题特征生成对应句子;
由多个句子组成一份完整的医学影像报告并输出。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行程序时实现权利要求1-8任一项所述的融合标签信息的医学影像报告生成方法的步骤。
CN202211422392.1A 2022-11-14 2022-11-14 一种融合标签信息的医学影像报告生成方法及设备 Pending CN115662565A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211422392.1A CN115662565A (zh) 2022-11-14 2022-11-14 一种融合标签信息的医学影像报告生成方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211422392.1A CN115662565A (zh) 2022-11-14 2022-11-14 一种融合标签信息的医学影像报告生成方法及设备

Publications (1)

Publication Number Publication Date
CN115662565A true CN115662565A (zh) 2023-01-31

Family

ID=85022298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211422392.1A Pending CN115662565A (zh) 2022-11-14 2022-11-14 一种融合标签信息的医学影像报告生成方法及设备

Country Status (1)

Country Link
CN (1) CN115662565A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117557883A (zh) * 2024-01-12 2024-02-13 中国科学技术大学 基于病理对齐扩散网络的医疗多模态内容分析及生成方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117557883A (zh) * 2024-01-12 2024-02-13 中国科学技术大学 基于病理对齐扩散网络的医疗多模态内容分析及生成方法

Similar Documents

Publication Publication Date Title
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
CN114298158A (zh) 一种基于图文线性组合的多模态预训练方法
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN111382565A (zh) 基于多标签的情绪-原因对抽取方法及系统
CN115132313A (zh) 基于注意力机制的医学影像报告自动生成方法
CN114723996A (zh) 模型的训练方法、图像描述生成方法和装置、设备、介质
CN114926835A (zh) 文本生成、模型训练方法和装置
CN111353445A (zh) 一种基于深度学习的患者援助智能审核系统
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN114611672A (zh) 模型训练方法、人脸识别方法及装置
CN116129141A (zh) 医学数据处理方法、装置、设备、介质和计算机程序产品
CN114612902A (zh) 图像语义分割方法、装置、设备、存储介质及程序产品
CN117036778A (zh) 一种基于图文转换模型的安全隐患识别标注方法
CN115662565A (zh) 一种融合标签信息的医学影像报告生成方法及设备
Belharbi et al. Deep neural networks regularization for structured output prediction
CN112216379A (zh) 一种基于智能联合学习的疾病诊断系统
CN116127080A (zh) 描述对象的属性值提取方法及相关设备
Shah et al. Line level modi (heritage script) ocr using attention based encoder-decoder architecture
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN115659242A (zh) 一种基于模态增强卷积图的多模态情感分类方法
CN115762721A (zh) 一种基于计算机视觉技术的医疗影像质控方法和系统
CN114881038A (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN115512340A (zh) 基于图片的意图检测方法及装置
Li et al. Supervised classification of plant image based on attention mechanism
Dehaqi et al. Adversarial image caption generator network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination