CN113035311B - 一种基于多模态注意力机制的医学图像报告自动生成方法 - Google Patents

一种基于多模态注意力机制的医学图像报告自动生成方法 Download PDF

Info

Publication number
CN113035311B
CN113035311B CN202110340777.2A CN202110340777A CN113035311B CN 113035311 B CN113035311 B CN 113035311B CN 202110340777 A CN202110340777 A CN 202110340777A CN 113035311 B CN113035311 B CN 113035311B
Authority
CN
China
Prior art keywords
keyword
sentence
word
medical image
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110340777.2A
Other languages
English (en)
Other versions
CN113035311A (zh
Inventor
林宇明
杨颖�
程良伦
赵艮平
张煜乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110340777.2A priority Critical patent/CN113035311B/zh
Publication of CN113035311A publication Critical patent/CN113035311A/zh
Application granted granted Critical
Publication of CN113035311B publication Critical patent/CN113035311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于多模态注意力机制的医学图像报告自动生成方法,使用关键词数据集训练图像特征提取模型,并用该模型提取与图像描述相关的视觉特征,并基于关键词注意力机制和空间注意力机制,利用多模态注意力机制生成联合的上下文向量;上下文向量被输入到了一个句子LSTM,展开几步,然后在每一步都会产生一个主题向量,主题向量表示了所需要生成的句子的语义;给定一个主题向量,单词LSTM以它作为输入,然后生成一个单词序列,用于形成一个句子,这个过程的终止由句子LSTM控制;最后将形成的所有句子组合到一起,列出标签列表,就完成了医学图像报告的自动生成。该方法能有效解决撰写医学图像报告耗时费力,容易出错的问题。

Description

一种基于多模态注意力机制的医学图像报告自动生成方法
技术领域
本发明涉及神经网络、图像处理以及医疗领域,具体涉及一种基于多模态注意力机制的医学图像报告自动生成方法。
背景技术
医学成像广泛用于临床实践中用于诊断和治疗,对于没有经验的医生来说,报告写作可能容易出错,而对于有经验的医生来说,报告写作也是一件耗费时间和乏味的工作。医学图像报告的自动生成中存在一些挑战:首先,完整的报告包含多种异构形式的信息,包括发现和标记;其次,医学图像中的异常区域难以识别。
发明内容
本发明的目的是提供一种基于多模态注意力机制的医学图像报告自动生成方法,用以生成正确完整的医学图像分析报告,提高识别的准确率。
为了实现上述任务,本发明采用以下技术方案:
一种基于多模态注意力机制的医学图像报告自动生成方法,包括以下步骤:
构建关键词类别数据集,关键词类别数据集中的每个样本包括医学图像、对应的描述语句以及描述语句中关键词的类别;
构建图像特征提取模型,基于所述关键词数据集训练,训练图像特征提取模型;当接收到输入的医学图像后,训练好的图像特征提取模型用于提取医学图像的图像空间特征、图像全局特征和预测的关键词特征;
将提取到的图像全局特征和关键词特征送入关键词注意力机制,得图像的语义特征;将提取到的图像全局特征和图像空间特征送入空间注意力机制,得到图像的视觉特征;
利用多模态注意力机制将所述视觉特征和语义特征结合起来,同时捕获图像的视觉和语义信息,生成联合的上下文向量;
将上下文向量输入到一个句子LSTM中,通过多步展开,在每一步产生每个句子的主题向量;
基于每个句子的主题向量,通过单词LSTM生成每个句子的单词序列,单次序列用于形成一个句子;最后将形成的所有句子组合到一起,列出标签列表,完成医学图像报告的自动生成。
进一步地,所述构建关键词类别数据集,包括:
对于医学图像数据集{I,C},I,C分别表示一张医学图像和对应的描述语句;通过关键词的词表构建,词频过滤,停用词、词性过滤,同义词合并,类别融合的步骤,构建关键词类别数据集{I,C,K},其中K代表关键词类别。
进一步地,所述图像特征提取模型利用预训练好的ResNet网络,输入关键词类别数据集,对特征提取模型进行训练,使得模型所生成的特征与真实特征之间的多标签分类损失最小;在训练过程中,式1为基于关键词的图像理解的目标函数,式2表示最终的目标函数,有:
Figure BDA0002999508230000021
Figure BDA0002999508230000022
式中,θ是模型的参数;I为给定的医学图片,C为生成的描述语句,K为描述语句中的关键词类别;p(C,K|I;θ)表示给定医学图像I以及模型参数θ得到描述语句C和关键词类别集合K的概率;p(C|I,K;θ1)为基于图片特征和关键词的语言模型;p(K|I;θ2)为基于图片特征的关键词模型;θ1、θ2分别为语言模型和关键词模型参数。
进一步地,所述图像特征提取模型在训练过程中,损失函数为:
对于关键词类别数据集{I,C,K},将数据集分为一个个的子集mini-batch;在损失函数中,n为mini-batch的数量,λ为L2正则的权重,m为关键词类别总数,η为惩罚系数,有:
Figure BDA0002999508230000023
式中,xi为单张医学图像,yi=[yi1,yi2,…,yij,…,yim]表示图片对应的关键词标签,j为关键词类别,yij的取值为0或1;pij代表第i张医学图中包含关键字类别j的概率;ri j为训练过程中的一个自适应权重,ri j=0.9t-1,t取决于本轮和上一轮mini-batch的训练状态,如果两次状态一致则t=t+1,如果不一致则t=1;θ为模型参数,L2(θ)表示θ的L2范数。
进一步地,所述关键词注意力机制、空间注意力机制的公式表达如下:
Figure BDA0002999508230000031
Figure BDA0002999508230000032
Figure BDA0002999508230000033
式中,ReLU是修正线性单元激活函数;ki是关键词对应词向量特征矩阵的第i个分量;Wa为待学习的权重,Wka、Wha为待学习的权重矩阵;ht为t时刻的隐藏状态;
Figure BDA0002999508230000034
为计算得到的ki的权重;/>
Figure BDA0002999508230000035
为未归一化的权重,n为关键词特征k的分量个数;at=[a0,t,a1,t,…,an,t]为归一化后的权重。
进一步地,所述利用多模态注意力机制将所述视觉特征和语义特征结合起来,同时捕获图像的视觉和语义信息,生成联合的上下文向量,包括:
联合的上下文向量ctx(s)由两个注意力机制联合生成,具体如下:
Figure BDA0002999508230000036
式中,wo和bo为待学习的权重和偏置项;kt和st分别表示t时刻应用了关键词注意力机制的关键词特征和空间注意力特征的空间特征;ws、wk和wh为待学习的权重矩阵;
Figure BDA0002999508230000037
为隐层状态。
进一步地,所述句子LSTM是一个单层LSTM,以上下文向量ctx作为输入,然后通过主题生成器为单词LSTM生成主题向量
Figure BDA0002999508230000038
在主题生成器中,使用深度输出层,通过结合隐层状态/>
Figure BDA0002999508230000039
和联合的上下文向量ctx(s)来加强主题向量t(s)中的上下文信息:
Figure BDA00029995082300000310
其中
Figure BDA00029995082300000311
和Wt,ctx为权重参数。/>
进一步地,每个句子的单词由单词LSTM生成,将句子LSTM产生的主题向量t(s)和特殊的START符号作为单词LSTM的第一第二输入,剩余的输入就是词序列;单词LSTM的隐层状态hword将直接被用来生成词分布;在每个单词LSTM生成其词分布后,得到的句子就是生成序列的连接。
进一步地,通过句子LSTM中的停止控制组件决定是继续或停止生成描述;停止控制组件是使用一个深度输出层来控制句子LSTM是否继续,这个层以上一步的和当前的隐层状态作为输入,并且生成分布来决定停止或继续生成;当句子LSTM将停止生成新的主题向量时,而单词LSTM也将停止产生词。
一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,处理器执行计算机程序时实现前述基于多模态注意力机制的医学图像报告自动生成方法的步骤。
一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现前述基于多模态注意力机制的医学图像报告自动生成方法的步骤。
与现有技术相比,本发明具有以下技术特点:
本发明建立一个基于关键词的图像特征提取模型,利用空间注意力机制和关键词注意力机制,引导模型定位异常的区域并为它们生成叙述,利用层次化的LSTM网络以生成长段落;通过分析医学图像的视觉特征和语义特征之间的相互关联信息,使模型理解医学图像和关键词的含义,以此生成正确、完整的医学图像分析报告。
附图说明
图1为本发明方法的流程示意图;
图2为构造关键词类别数据集的流程示意图。
具体实施方式
参见图1,本发明公开了一种基于多任务分层模型的医学图像报告自动生成方法,主要用以解决人工撰写医学图像报告耗时费力,容易出错的问题。一份完整的医学影像诊断报告是由文字描述(长段)和标签列表组成。本发明提出的基于多模态注意力机制的医学图像报告自动生成方法,包含一个基于关键词的图像特征提取模型和一个层次化的LSTM网络,用于自动预测标签并生成长段落的描述文字。本方法包括以下步骤:
步骤1,构建关键词类别数据集,关键词类别数据集中的每个样本包括医学图像、对应的描述语句以及描述语句中关键词的类别。
目前开源数据集中只提供了图片以及相对应的描述语句,所以需要自行构建关键词类别数据集。
对于医学图像数据集{I,C},I,C分别表示一张医学图像和对应的描述语句;描述语句中的关键词具有高频性、代表性、集成性等特点。利用这些特点,通过关键词的词表构建,词频过滤,停用词、词性过滤,同义词合并,类别融合等步骤,构建关键词类别数据集;构建过程如图2所示。
对医学图像数据集中所有图片都进行上述操作,从而将医学图像数据集扩展为包括关键词类别的关键词类别数据集{I,C,K},其中K代表关键词类别。
步骤2,构建图像特征提取模型,基于所述关键词数据集训练,训练图像特征提取模型;当接收到输入的医学图像后,训练好的图像特征提取模型用于提取医学图像的图像空间特征s、图像全局特征v和预测的关键词特征k。
为了充分利用视觉特征和语义特征,本发明通过构建基于关键词的图像特征提取模型,利用关键词提取与图像描述相关的视觉特征;图像特征提取模型的训练过程包括:
该图像特征提取模型利用预训练好的ResNet网络,输入关键词类别数据集,对特征提取模型进行训练,使得模型所生成的特征与真实特征之间的多标签分类损失最小;在训练过程中,式1为基于关键词的图像理解的目标函数,式2表示最终的目标函数,有:
Figure BDA0002999508230000051
Figure BDA0002999508230000052
式中,θ是模型的参数;I为给定的医学图片,C为生成的描述语句,K为描述语句中的关键词类别;p(C,K|I;θ)表示给定医学图像/以及模型参数θ得到描述语句C和关键词类别集合K的概率;p(C|I,K;θ1)为基于图片特征和关键词的语言模型,表示给定医学图像I、关键词类别K和模型参数θ1得到的描述语句C的概率;p(K|I;θ2)为基于图片特征的关键词模型;θ1、θ2分别为语言模型和关键词模型参数。
本发明使用关键词多标签分类,由于多标签分类中存在类别不平衡,本方案中的损失函数构建如式3:
对于关键词类别数据集{I,C,K},可以将数据集分为一个个的子集mini-batch;在损失函数中,n为mini-batch的数量,λ(λ<1)为L2正则的权重,m为关键词类别总数,η为惩罚系数,有:
Figure BDA0002999508230000061
式中,xi为单张医学图像,yi=[yi1,yi2,…,yij,…,yim]表示图片对应的关键词标签,j为关键词类别,yij的取值为0或1;pij代表第i张医学图中包含关键字类别j的概率;ri j为训练过程中的一个自适应权重,ri j=0.9t-1,t取决于本轮和上一轮mini-batch的训练状态,如果两次状态一致则t=t+1,如果不一致则t=1;θ为模型参数,L2(θ)表示θ的L2范数。
利用训练好的图像特征提取模型,提取输入医学图像的空间特征s和全局特征v,并预测图片所对应的关键词标签,将符合图片特征的标签标为1,不符合的标为0,得到预测的关键词特征k。
步骤3,将提取到的图像全局特征v和关键词特征k送入关键词注意力机制,得图像的语义特征;将提取到的图像全局特征v和图像空间特征s送入空间注意力机制,得到图像的视觉特征。
经过上一个步骤的处理,可以提取到图像空间特征s、图像全局特征v和预测的关键词特征k。目前图像理解方法仅使用视觉特征,但不是所有的视觉特征都能有效提取到,同时可能提取到不准确的视觉特征的问题。因此本发明提出了一种关键词注意力机制,以更好地提取到图像中重要内容的关键词;该关键词注意力机制是基于注意力机制CBAM(Convolutional Block Attention Module,CBAM),融合通道和空间注意力的注意力模块,使用图像全局特征v和关键词特征k作为关键词注意力机制的输入,最终输出图像的语义特征,即关键词特征值kt。式4~式6为关键词注意力机制的公式表达:
Figure BDA0002999508230000062
Figure BDA0002999508230000063
Figure BDA0002999508230000064
式中,ReLU是修正线性单元激活函数;ki是关键词对应词向量特征矩阵的第i个分量;Wa为待学习的权重,Wka、Wha为待学习的权重矩阵;ht为t时刻的隐藏状态;
Figure BDA0002999508230000065
为计算得到的ki的权重;/>
Figure BDA0002999508230000066
为未归一化的权重,n为关键词特征k的分量个数;at=[a0,t,a1,t,…,an,t]为归一化后的权重;
经过关键词注意力机制,模型就得到了每个关键词的权重,权重越高,表示对该关键词的关注度越高,在生成描述语句的时候应该将此关键词作为重点。
与关键词注意力机制同样重要的还有空间注意力机制。空间注意力机制以图像全局特征v和空间特征s作为输入,可以有效地检测到图像中的模糊对象、小目标、背景等元素,从而引导模型关注图像的重要区域,最终输出更优的视觉特征;空间注意力机制和关键词注意力机制的网络结构相同,两者参数更新方式也相同。
步骤4,利用多模态注意力机制将所述视觉特征和语义特征结合起来,同时捕获图像的视觉和语义信息,生成联合的上下文向量。
步骤3中提到的两个注意力机制具有相互补充的作用,当两种注意力机制有一个出现错误时,另一个可以对其进行矫正,从而得到更佳的视觉特征和语义特征。
本步骤的目的就是通过一定的方式,将获得的视觉特征和语义特征结合起来,同时捕获图像的视觉和语义信息,生成联合的上下文向量;该上下文向量是最终生成报告的基础,在时间步为s的句子LSTM中,联合的上下文向量
Figure BDA0002999508230000071
由两个注意力机制联合生成,具体如下:
Figure BDA0002999508230000072
式中,wo和bo为待学习的权重和偏置项;kt和st分别表示t时刻应用了关键词注意力机制的关键词特征和空间注意力特征的空间特征;ws、wk和wh为待学习的权重矩阵;
Figure BDA0002999508230000073
为隐层状态,(s)表示LSTM网络的时间步。
步骤5,将上下文向量输入到一个句子LSTM中,通过多步展开,在每一步产生每个句子的主题向量。
在步骤4得到了上下文向量,接下来从上下文向量开始解码的流程。医学图像报告通常包含多个句子,且每句都集中在一个特定的主题上。因此,本发明提出的模型利用了这种组成结构,用了层次化LSTM生成文本描述的方式:
首先生成一个序列来代表句子的高级主题向量,然后从每个主题向量中生成一个句子;具体过程是,上下文向量被输入到了一个句子LSTM网络中,展开几步,然后在每一步都会产生一个主题向量,主题向量表示了所需要生成的句子的语义。
句子LSTM是一个单层LSTM,以上下文向量
Figure BDA0002999508230000081
作为输入,然后通过主题生成器为单词LSTM生成主题向量/>
Figure BDA0002999508230000082
在主题生成器中,使用深度输出层,通过结合隐层状态
Figure BDA0002999508230000083
和联合的上下文向量ctx(s)来加强主题向量t(s)中的上下文信息:/>
Figure BDA0002999508230000084
其中
Figure BDA0002999508230000085
和Wt,ctx为权重参数。
步骤6,基于每个句子的主题向量,通过单词LSTM生成每个句子的单词序列,单次序列用于形成一个句子;最后将形成的所有句子组合到一起,列出标签列表,完成了医学图像报告的自动生成。
自动生成的医学图像报告中,每个句子的单词由单词LSTM生成,单词LSTM是一个单层的LSTM,将句子LSTM产生的主题向量t(s)和特殊的START符号作为单词LSTM的第一第二输入,剩余的输入就是词序列;单词LSTM的隐层状态
Figure BDA0002999508230000086
将直接被用来生成词分布:
p(word|hword)∝exp(Wouthword) 式9
其中word为生成的单词,Wout为参数矩阵;在每个单词LSTM生成其词分布后,得到的句子就是生成序列的连接。
给定一个主题向量,单词LSTM以它作为输入,然后生成一个单词序列,用于形成一个句子;句子LSTM中的停止控制组件决定是继续或停止生成描述。
在停止控制组件,也是使用一个深度输出层来控制句子LSTM是否继续,这个层以上一步的隐层状态
Figure BDA0002999508230000087
和当前的隐层状态/>
Figure BDA0002999508230000088
作为输入,并且生成分布{STOP=1,CONTINUE=0}(停止或继续生成):
Figure BDA0002999508230000089
其中Wstop,Wstop,s-1,Wstop,s为参数矩阵,如果
Figure BDA00029995082300000810
大于预设的阀值(如0.5),则该句子LSTM将停止生成新的主题向量,而单词LSTM也将停止产生词。
本申请实施例进一步提供一种终端设备,该终端设备可以为计算机、服务器;包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述基于多模态注意力机制的医学图像报告自动生成方法的步骤。
本申请的实施提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述基于多模态注意力机制的医学图像报告自动生成方法的步骤。
计算机程序也可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器中,并由处理器执行,以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在终端设备中的执行过程。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (9)

1.一种基于多模态注意力机制的医学图像报告自动生成方法,其特征在于,包括以下步骤:
构建关键词类别数据集,关键词类别数据集中的每个样本包括医学图像、对应的描述语句以及描述语句中关键词的类别;
构建图像特征提取模型,基于所述关键词类别数据集,训练图像特征提取模型;当接收到输入的医学图像后,训练好的图像特征提取模型用于提取医学图像的图像空间特征、图像全局特征和预测的关键词特征;
将提取到的图像全局特征和关键词特征送入关键词注意力机制,得图像的语义特征;将提取到的图像全局特征和图像空间特征送入空间注意力机制,得到图像的视觉特征;
利用多模态注意力机制将所述视觉特征和语义特征结合起来,同时捕获图像的视觉和语义信息,生成联合的上下文向量,包括:
联合的上下文向量ctx(s)由两个注意力机制联合生成,具体如下:
Figure FDA0004118806450000011
式中,wo和bo为待学习的权重和偏置项;kt和st分别表示t时刻应用了关键词注意力机制的关键词特征和空间注意力特征的空间特征;ws、wk和wh为待学习的权重矩阵;
Figure FDA0004118806450000012
为隐层状态;
将上下文向量输入到一个句子LSTM中,通过多步展开,在每一步产生每个句子的主题向量;
基于每个句子的主题向量,通过单词LSTM生成每个句子的单词序列,单词序列用于形成一个句子;最后将形成的所有句子组合到一起,列出标签列表,完成医学图像报告的自动生成。
2.根据权利要求1所述的基于多模态注意力机制的医学图像报告自动生成方法,其特征在于,所述构建关键词类别数据集,包括:
对于医学图像数据集{I,C},I,C分别表示一张医学图像和对应的描述语句;通过关键词的词表构建,词频过滤,停用词、词性过滤,同义词合并,类别融合的步骤,构建关键词类别数据集{I,C,K},其中K代表关键词类别。
3.根据权利要求1所述的基于多模态注意力机制的医学图像报告自动生成方法,其特征在于,所述图像特征提取模型利用预训练好的ResNet网络,输入关键词类别数据集,对特征提取模型进行训练,使得模型所生成的特征与真实特征之间的多标签分类损失最小;在训练过程中,式1为基于关键词的图像理解的目标函数,式2表示最终的目标函数,有:
Figure FDA0004118806450000021
Figure FDA0004118806450000022
式中,θ是模型的参数;I为给定的医学图片,C为生成的描述语句,K为描述语句中的关键词类别;p(C,K|I;θ)表示给定医学图像I以及模型参数θ得到描述语句C和关键词类别集合K的概率;p(C|I,K;θ1)为基于图片特征和关键词的语言模型;p(K|I;θ2)为基于图片特征的关键词模型;θ1、θ2分别为语言模型和关键词模型参数。
4.根据权利要求1所述的基于多模态注意力机制的医学图像报告自动生成方法,其特征在于,所述图像特征提取模型在训练过程中,损失函数为:
对于关键词类别数据集{I,C,K},将数据集分为一个个的子集mini-batch;在损失函数中,n为mini-batch的数量,λ为L2正则的权重,m为关键词类别总数,η为惩罚系数,有:
Figure FDA0004118806450000023
式中,xi为单张医学图像,yi=[yi1,yi2,…,yij,…,yim]表示图片对应的关键词标签,j为关键词类别,yij的取值为0或1;pij代表第i张医学图中包含关键字类别j的概率;ri j为训练过程中的一个自适应权重,ri j=0.9t-1,t取决于本轮和上一轮mini-batch的训练状态,如果两次状态一致则t=t+1,如果不一致则t=1;θ为模型参数,L2(θ)表示θ的L2范数。
5.根据权利要求1所述的基于多模态注意力机制的医学图像报告自动生成方法,其特征在于,所述关键词注意力机制、空间注意力机制的公式表达如下:
Figure FDA0004118806450000024
Figure FDA0004118806450000025
Figure FDA0004118806450000026
式中,ReLU是修正线性单元激活函数;ki是关键词对应词向量特征矩阵的第i个分量;Wa为待学习的权重,Wka、Wha为待学习的权重矩阵;ht为t时刻的隐藏状态;
Figure FDA0004118806450000031
为计算得到的ki的权重;/>
Figure FDA0004118806450000032
为未归一化的权重,n为关键词特征k的分量个数;at=[a0,t,a1,t,…,an,t]为归一化后的权重。
6.根据权利要求1所述的基于多模态注意力机制的医学图像报告自动生成方法,其特征在于,所述句子LSTM是一个单层LSTM,以上下文向量ctx作为输入,然后通过主题生成器为单词LSTM生成主题向量
Figure FDA0004118806450000033
在主题生成器中,使用深度输出层,通过结合隐层状态
Figure FDA0004118806450000034
和联合的上下文向量ctx(s)来加强主题向量t(s)中的上下文信息:
Figure FDA0004118806450000035
其中Wt,hsent和Wt,ctx为权重参数。
7.根据权利要求1所述的基于多模态注意力机制的医学图像报告自动生成方法,其特征在于,每个句子的单词由单词LSTM生成,将句子LSTM产生的主题向量t(s)和特殊的START符号作为单词LSTM的第一第二输入,剩余的输入就是词序列;单词LSTM的隐层状态hword将直接被用来生成词分布;在每个单词LSTM生成其词分布后,得到的句子就是生成序列的连接。
8.根据权利要求1所述的基于多模态注意力机制的医学图像报告自动生成方法,其特征在于,通过句子LSTM中的停止控制组件决定是继续或停止生成描述;停止控制组件是使用一个深度输出层来控制句子LSTM是否继续,这个层以上一步的和当前的隐层状态作为输入,并且生成分布来决定停止或继续生成;当句子LSTM将停止生成新的主题向量时,而单词LSTM也将停止产生词。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现根据权利要求1至8中任一权利要求所述方法的步骤。
CN202110340777.2A 2021-03-30 2021-03-30 一种基于多模态注意力机制的医学图像报告自动生成方法 Active CN113035311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110340777.2A CN113035311B (zh) 2021-03-30 2021-03-30 一种基于多模态注意力机制的医学图像报告自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110340777.2A CN113035311B (zh) 2021-03-30 2021-03-30 一种基于多模态注意力机制的医学图像报告自动生成方法

Publications (2)

Publication Number Publication Date
CN113035311A CN113035311A (zh) 2021-06-25
CN113035311B true CN113035311B (zh) 2023-05-23

Family

ID=76453124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110340777.2A Active CN113035311B (zh) 2021-03-30 2021-03-30 一种基于多模态注意力机制的医学图像报告自动生成方法

Country Status (1)

Country Link
CN (1) CN113035311B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230019211A1 (en) * 2021-06-30 2023-01-19 Nvidia Corporation Pretraining framework for neural networks
CN113779938B (zh) * 2021-08-13 2024-01-23 同济大学 基于视觉与主题协同注意力的连贯性故事生成系统及方法
CN114334068B (zh) * 2021-11-15 2022-11-01 深圳市龙岗中心医院(深圳市龙岗中心医院集团、深圳市第九人民医院、深圳市龙岗中心医院针灸研究所) 一种放射学报告生成方法、装置、终端及存储介质
CN114494813B (zh) * 2021-12-24 2024-03-05 西北工业大学 一种基于密集交叉注意力的指称表达生成方法
CN114677520A (zh) * 2022-03-22 2022-06-28 平安科技(深圳)有限公司 图像描述方法和装置、计算机设备、存储介质
CN114998482A (zh) * 2022-06-13 2022-09-02 厦门大学 文字艺术图案智能生成方法
CN114972929B (zh) * 2022-07-29 2022-10-18 中国医学科学院医学信息研究所 一种医学多模态模型的预训练方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109545302B (zh) * 2018-10-22 2023-12-22 复旦大学 一种基于语义的医学影像报告模板生成方法
US11531807B2 (en) * 2019-06-28 2022-12-20 Nuance Communications, Inc. System and method for customized text macros
CN110458282B (zh) * 2019-08-06 2022-05-13 齐鲁工业大学 一种融合多角度多模态的图像描述生成方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多层级图像表征的层次化注意力图像描述;王雷全 等;中国电子科学研究院学报;第15卷(第1期);63-68 *

Also Published As

Publication number Publication date
CN113035311A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN113035311B (zh) 一种基于多模态注意力机制的医学图像报告自动生成方法
Guo et al. Long text generation via adversarial training with leaked information
Keneshloo et al. Deep reinforcement learning for sequence-to-sequence models
Zadeh et al. Memory fusion network for multi-view sequential learning
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
Logeswaran et al. Sentence ordering and coherence modeling using recurrent neural networks
CN107066464B (zh) 语义自然语言向量空间
Yan et al. Video captioning using global-local representation
CN113268609B (zh) 基于知识图谱的对话内容推荐方法、装置、设备及介质
Islam et al. Exploring video captioning techniques: A comprehensive survey on deep learning methods
Jain et al. Video captioning: a review of theory, techniques and practices
CN113779310B (zh) 一种基于层级表征网络的视频理解文本生成方法
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
Ruwa et al. Mood-aware visual question answering
Li et al. Image describing based on bidirectional LSTM and improved sequence sampling
Khan et al. A deep neural framework for image caption generation using gru-based attention mechanism
Deorukhkar et al. A detailed review of prevailing image captioning methods using deep learning techniques
Hafeth et al. Semantic representations with attention networks for boosting image captioning
Parker et al. Named entity recognition through deep representation learning and weak supervision
CN116401364A (zh) 语言模型的训练方法、电子设备、存储介质及产品
CN113010717B (zh) 图像诗句描述生成方法、装置和设备
Kumar et al. Augmenting small data to classify contextualized dialogue acts for exploratory visualization
Tun et al. Multimodal Transfer Learning for Oral Presentation Assessment
Afrae et al. A Question answering System with a sequence to sequence grammatical correction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant