CN112614561A - 一种基于层级自注意力序列编码的脑ct医学报告生成方法 - Google Patents

一种基于层级自注意力序列编码的脑ct医学报告生成方法 Download PDF

Info

Publication number
CN112614561A
CN112614561A CN202011549376.XA CN202011549376A CN112614561A CN 112614561 A CN112614561 A CN 112614561A CN 202011549376 A CN202011549376 A CN 202011549376A CN 112614561 A CN112614561 A CN 112614561A
Authority
CN
China
Prior art keywords
image
brain
attention
data
nsa
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011549376.XA
Other languages
English (en)
Inventor
冀俊忠
胡启鹏
张晓丹
刘颖
王筝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202011549376.XA priority Critical patent/CN112614561A/zh
Publication of CN112614561A publication Critical patent/CN112614561A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于层级自注意力序列编码的医学报告生成方法,步骤(1)获取脑CT图像以及对应的医学报告数据并预处理;步骤(2)构建特征提取器;步骤(3)构建序列处理器,经过序列处理器之后,得到一个包含各个相邻断层块信息的图像特征编码VNSA以及基于整个病例的三维脑CT图像特征编码VSA;步骤(4)构建解码器;步骤(5)模型训练。深度学习在智能医疗的应用发展迅速,针对肺部的医学报告自动生成技术较为成熟,但针对脑CT的医学报告自动生成的研究与发明空缺。本方法搭建的模型实现了三维脑CT数据的编码,将这种编码与图像描述领域中的语言模型相结合,实现了CT影像的医学报告自动生成。

Description

一种基于层级自注意力序列编码的脑CT医学报告生成方法
技术领域
本发明涉及计算机视觉和自然语言处理两个领域,针对医学领域中报告自动生成任务,设计了一种基于层级自注意力序列编码的医学报告生成方法。
背景技术
医疗数据中有90%来自于医疗影像,与之对应的医学报告是具有专业医学知识和经验的放射科医生根据影像书写而成,是主治医生诊断疾病及明确治疗方案的关键依据。然而,放射科医生一直以来都面临着巨大的挑战:知识门槛高、培养周期长、任务繁重、漏诊率上升,而且医学影像数据还在逐年增长,放射科医生的增长速度和工作效率不足以应对这样的数据增长趋势。这意味着放射科医生在未来处理影像数据的压力会越来越大,甚至远远超过负荷。医学影像报告自动生成研究是解决目前面临问题的重要途径,辅助医生进行自动阅片的人工智能技术具有缓解医生的工作压力、降低漏诊率、节约学习和诊断时间等优势,对于病灶发现、手术方案规划与临床治疗都有着重要的医学价值。
脑CT(Computed Tomography)是一种检查方便,迅速安全,无痛苦,无创伤的检查方法,它能清楚的显示颅脑不同横断面的解剖关系和具体的脑组织结构,因而大大提高了病变的检出率和诊断的准确性,是脑血管疾病中常用的影像诊断方法。脑CT影像医学报告自动生成对脑血管疾病的诊断与治疗具有重要的临床意义。
近几年,由于计算机硬件计算能力的提高,数据量的爆发式增长,深度神经网络相关技术得到了发展,在计算机视觉、自然语言处理等研究领域表现出巨大的潜力。图像描述是计算机视觉和自然语言处理的一个交叉领域,是视觉到语言问题研究的基础。从计算机技术的角度看,医学报告的自动生成是图像描述在医学领域的应用研究。脑CT影像的独特性也给视觉语义匹配带来了新的挑战:经由断面扫描获得的影像层数多,层关系密切;三维空间中病灶稀疏,冗余信息多。
发明内容
深度学习在智能医疗的应用发展迅速,针对肺部疾病的医学报告自动生成技术较为成熟,但针对脑CT的医学报告自动生成的研究与发明空缺。深度学习中与之相关的图像描述领域的技术手段是该发明的基础技术手段,但脑CT影像为断层影像的序列组合,具有三维数据特性,常用的图像描述模型并不能完成三维数据的编码。近年来自注意力和长短时记忆网络(Long Short-Term Memory,LSTM)表现出良好的序列数据处理能力。根据脑CT影像的数据特性,本发明提出了一种基于层级自注意力序列编码的方法,有效地提取三维脑CT影像的空间序列特征,将这种序列编码的特征与图像描述的语言模型相结合实现了初步的针对脑CT影像的医学报告自动生成。基于层级自注意力序列编码的医学报告生成方法主要由编码器和解码器两部分组成,其中编码器部分由特征提取器和序列处理器组成,解码器由语言模型组成。
本发明采用的技术方案为一种基于层级自注意力序列编码的医学报告生成方法,该方法包括如下步骤:
步骤(1)获取脑CT图像以及对应的医学报告数据并预处理:
步骤(1.1)获取脑CT数据,包含图像数据I及其对应的报告文本数据
Figure BDA0002857396910000021
步骤(1.2)对脑CT数据中的图像数据I进行预处理。
步骤(1.3)对脑CT数据中的报告文本数据
Figure BDA0002857396910000031
进行预处理。
步骤(2)构建特征提取器,对特征提取网络进行预训练,完成脑CT图像数据I的编码,得到图像特征F:
步骤(2.1)采用深度卷积神经网络或目标检测模型构建特征提取器。
步骤(2.2)对构建好的特征提取器进行预训练。
步骤(2.3)将脑CT数据中的图像数据I输入到特征提取器中,完成脑CT图像数据的分类或目标检测任务,使用特征提取器倒数第二层神经网络中的特征表示作为图像编码,最终得到编码后的图像特征F。
步骤(3)构建序列处理器,序列处理器是一个层级的自注意力序列编码模型,包括处理相邻断层信息的NSA模块和处理全部断层信息的SA模块。经过序列处理器之后,得到一个包含各个相邻断层块信息的图像特征编码VNSA以及基于整个病例的三维脑CT图像特征编码VSA
步骤(3.1)采用一种基于自注意力机制和LSTM的序列编码模型。
步骤(3.2)将脑CT数据中的图像特征F输入到序列处理器中处理相邻断层信息的NSA模块,得到包含相邻断层块信息的图像特征VNSA
步骤(3.3)将相邻断层块信息的图像特征VNSA输入到序列处理器中处理全部断层信息的SA模块,最终得到基于整个病例的三维脑CT图像特征编码VSA
步骤(4)构建解码器,对三维脑CT图像特征VSA进行解码。解码器是一种包含注意力模型的循环神经网络,包括基于邻域自注意力的NSA-ATT网络和LSTM模型。解码器的输入为三维脑CT图像特征编码VSA以及相邻断层块的图像特征VNSA,输出为报告文本数据Y,Y={w0,w1,…,wT},wn表示组成报告的单词,n∈[0,T],T为报告文本数据的最长时刻,即报告的最大长度:
步骤(4.1)解码器中注意力模型NSA-ATT的构建。解码器中注意力模型NSA-ATT的输入包括t时刻的词编码xt(可由t-1时刻的解码器最终的输出wt-1线性变换得到,初始为零向量),相邻断层块信息的图像特征VNSA,在t时刻的输出为包含邻域自注意力信息的词编码向量
Figure BDA0002857396910000041
步骤(4.2)构建解码器中的LSTM模型。解码器中的LSTM模型的输入包括三维脑CT图像特征编码VSA和注意力模型NSA-ATT的在t时刻的输出
Figure BDA0002857396910000042
在t时刻的输出为LSTM在t时刻的隐藏层状态ht
步骤(4.3)解码器输出。对解码器中的LSTM在t时刻的输出ht进行线性变换与Softmax函数分类,得到最终整个解码器在t时刻的输出wt,不同时刻的输出组成最后产生的报告文本数据Y。
步骤(5)模型训练。基于产生的报告文本数据Y与标准的报告文本数据
Figure BDA0002857396910000043
计算交叉熵损失或者强化学习梯度损失,使用随机梯度下降算法对模型进行优化,得到最终模型。
请注意将上述本方法实施的基本流程梳理下,各个步骤之间是前后衔接的,比如步骤1的输出是步骤2的输入,它们前后之间是一个技术整体,请注意将上下文进行下修订。
附图说明
图1:数据预处理与特征提取。
图2:序列处理器。
图3:解码器。
图4:医学报告生成实例。
具体实施方式
下面以北京大学第三医学提供的567例数据为例,说明本发明的具体实施步骤:
步骤(1)获取脑CT图像以及对应的医学报告数据并预处理:
步骤(1.1)获取脑CT数据,包含图像数据I及其对应的报告文本数据
Figure BDA0002857396910000051
该数据集共包含17257张脑CT影像以及对应567例医学报告文本信息,其中训练集和验证集大小分别为517和50。
步骤(1.2)对脑CT数据中的图像数据I进行预处理。原脑CT医学影像为dicom格式,如图1中的去噪并转化所示我们使用医生常用的三种尺度的观察视图做为RGB三通道彩色图像的三个通道值,并去掉图像的边界噪声CT值-2000,最终得到PNG格式的脑CT图像数据。
步骤(1.3)对脑CT数据中的报告文本数据
Figure BDA0002857396910000052
进行预处理。去掉报告文本数据中的冗余标点符号;专业名词说法进行统一;使用逗号对不同句子进行分割;提取出每一个句子的关键词作为本发明中所使用的先验知识信息;使用加入了先验知识词典的节霸分词工具对报告文本数据进行分词,得到医学报告用语词典。最终报告文本词典包含279个单词。
步骤(2)构建特征提取器,对特征提取网络进行预训练,完成脑CT图像数据I的编码,得到图像特征F:
步骤(2.1)采用深度卷积神经网络或目标检测模型构建特征提取器。构建特征提取器,可以采用深度卷积神经网络,例如ResNet-101,也可以采用目标检测模型,例如RCNN、Faster RCNN等。
步骤(2.2)对构建好的特征提取器进行预训练。采用ImageNet、MS COCO等数据集,对特征提取器进行预训练,使其具有一定的分类或者目标检测能力。
步骤(2.3)把567例共计17257张脑CT图像数据I输入到特征提取器中,对图像数据进行分类或目标检测任务,如图1所示我们使用ResNet-101中倒数第二层神经网络中的特征作为图像编码,编码后的图像特征记为F。公式表达为:
F=Encoder(I)
步骤(3)构建序列处理器,序列处理器是一个层级的自注意力序列编码模型,包括处理相邻断层信息的NSA模块和处理全部断层信息的SA模块。经过序列处理器之后,得到一个包含各个相邻断层块信息的图像特征编码VNSA以及基于整个病例的三维脑CT图像特征编码VSA
步骤(3.1)采用一种基于自注意力机制和LSTM的序列编码模型。考虑到脑CT数据在空间上具有一定的序列关系。而自注意力机制常作为一个特征提取器在机器翻译、视频描述等领域中展现出很好的序列编码能力。常用的注意力模型的输入通常包含两部分:查询(query)特征与关键词(key)特征,表达式如下:
Figure BDA0002857396910000061
αi=Softmax(ei)
at=∑iivi)
Figure BDA0002857396910000062
为t时刻注意力模型的输入,作为注意力模型的查询特征,R表示实数,mq表示查询特征向量的维度;
Figure BDA0002857396910000063
为第i个视觉特征;V={v1,v2,…,vn},
Figure BDA0002857396910000064
作为注意力模型的关键词特征,mv表示视觉特征向量的维度,n表示视觉特征的数量。φ为相似度函数,用于计算查询特征
Figure BDA0002857396910000065
与V中每项视觉特征的相似性,可基于神经网络实现。ei表示查询特征与关键词特征的相似度。αi表示经过Softmax函数计算后视觉特征的权重信息。
Figure BDA0002857396910000066
为t时刻输出的视觉注意力特征。在自注意力机制中
Figure BDA0002857396910000071
与vi全部由特征向量自身F={f1,f2,…,fi}经过线性变化得到:
Figure BDA0002857396910000072
vi=Linear(fi)
在进行机器翻译过程中,自注意力机制是对每一个词得到新的考虑了上下文信息的表征。使用自注意力机制进行脑CT序列编码,使得在对每一个断层图像进行编码时可以引入相邻的其他断层信息。
使用自注意力机制我们得到新的考虑了上下文信息的脑CT影像表征,对于每一个断层块来说它仅包含了前后断层影像的信息,但是没有考虑到前后断层影像的先后空间序列关系,在长短时记忆网络LSTM中每一时刻的输入都与前面时刻所输入的信息具有前后的依赖关系,因此对于断层块之前的先后空间序列关系我们使用长短时记忆网络对其这种空间序列关系进行建模。
步骤(3.2)将脑CT数据中的图像特征F输入到序列处理器中处理相邻断层信息的NSA模块,得到包含相邻断层块信息的图像特征VNSA。如图2所示首先通过NSA网络得到考虑前后相邻断层信息的加权表示,随后通过NSA_LSTM网络对相邻断层块进行序列化建模得到包含断层块信息的图像特征VNSA(NSA Feature)。
考虑到病灶的稀疏性,本发明对自注意力机制进行修改,在对单张病灶图像进行编码时我们仅仅引入前后相邻的有限张断层信息,如图2所示该发明使用了前后三张断层图像作为一个断层块,实现基于邻域的自注意力机制(Neighboring Self Attention,NSA),我们以NSA作为断层图像的基本编码单元,通过层级注意力的方式扩大断层信息的引入量,进而达到对一整例脑CT图像进行编码的目的。
步骤(3.3)将相邻断层块信息的图像特征VNSA输入到序列处理器中处理全部断层信息的SA模块,最终得到基于整个病例的三维脑CT图像特征编码VSA。如图2所示首先通过SA网络计算出包含全部断层影像的加权表示,然后通过SA_LSTM网络得到整个病例的三维脑CT图像特征编码VSA(SA Feature)。
步骤(4)构建解码器,对三维脑CT图像特征VSA进行解码。解码器是一种包含注意力模型的循环神经网络,包括基于邻域自注意力的NSA-ATT网络和LSTM模型。解码器的输入为三维脑CT图像特征编码VSA以及相邻断层块的图像特征VNSA,输出为报告文本数据Y,Y={w0,w1,…,wT},wn表示组成报告的单词,n∈[0,T],T为报告文本数据的最长时刻,即报告的最大长度:
步骤(4.1)解码器中注意力模型NSA-ATT的构建。如图3所示,解码器中注意力模型NSA-ATT的输入包括t时刻的词编码xt(可由t-1时刻的解码器最终的输出wt-1线性变换得到,初始为零向量),相邻断层块信息的图像特征VNSA,在t时刻的输出为包含邻域自注意力信息的词编码向量
Figure BDA0002857396910000081
词编码xt,包含邻域自注意力信息的词编码向量
Figure BDA0002857396910000082
公式如下所示:
xt=Wxwwt-1
Figure BDA0002857396910000083
其中xt是对t-1时刻输出wt-1的编码,at是视觉和语义相匹配的注意力信息,concatenate表示特征向量的拼接。
步骤(4.2)构建解码器中的LSTM模型。解码器中的LSTM模型的输入包括三维脑CT图像特征编码VSA和注意力模型NSA-ATT的在t时刻的输出
Figure BDA0002857396910000084
在t时刻的输出为LSTM在t时刻的隐藏层状态ht
如图3所示,在构建解码器中的LSTM模型时使用序列处理器得到的两种特征VSA(SAFeature)和VNSA(NSA Feature),首先使用三维脑CT图像特征VSA用于语言生成模型的初始化,计算得到第一个LSTM所需要的隐藏层状态向量,从而进行第一个单词预测。在LSTM预测每一个单词的过程中我们使用断层块的图像特征VNSA作为LSTM模型中的视觉指导信息,使得在生成医学报告的单词时关注到与之相关的断层块信息。
下述公式为相关的LSTM公式,本发明在基础的LSTM模型上添加了视觉和语义相匹配的注意力信息at,使得在生成最终医学报告的每一个单词时关注脑CT影像的不同断层块信息,在t时刻的注意力信息at分别用于记忆细胞的输入门、遗忘门、更新单元、输出门中:
it=σ(Wixxt+Wihht-1+Wiaat)
ft=σ(Wfxxt+Wfhht-1+Wfaat)
Figure BDA0002857396910000091
ot=σ(Woxxt+Wohht-1+Woaat)
Figure BDA0002857396910000092
Figure BDA0002857396910000093
其中it、ft与ot分别表示输入门向量、遗忘门向量和输出门向量,σ表示Sigmoid激活函数,tanh表示tanh激活函数,
Figure BDA0002857396910000094
表示矩阵对应元素相乘,
Figure BDA0002857396910000095
表示更新单元的候选值,ct-1表示上一时刻的更新单元,ct表示t时刻的更新单元,ht-1表示上一时刻隐藏层的输出值,ht表示t时刻隐藏层的输出值,所有的W**表示线性变换的参数。
步骤(4.3)解码器输出。对解码器中的LSTM在t时刻的输出ht进行线性变换与Softmax函数分类,得到最终整个解码器在t时刻的输出wt,不同时刻的输出组成最后产生的报告文本数据Y。
步骤(5)模型训练:整个方法由图1、2、3三部分共同构成所示。可以基于交叉熵损失或者强化学习进行优化,本发明使用随机梯度下降算法,例如ADAM优化器对整个方法进行优化,训练参数,得到最终的模型。
为了验证本方法的可行性,我们进行了各个模块的消融对比实验。并通过BLEU,METEOR,ROUGE-L和CIDEr四个评价指标对结果进行了评价,这四种评价指标已经广泛应用于图像描述、自然语言处理等领域中对生成句子的定量评价中。图4展示了其中的一些样例,包括图像、对应的医学报告文本信息以及该方法生成的最终医学报告文本信息。
首先对方法进行定量分析。表1为各个模块的消融对比实验,表1的第一行使用CNN进行单张脑CT影像编码后直接使用LSTM进行空间序列的编码以及语言模型的构建,由于医学报告组成的特殊性,其最终的语言评价指标值与普通的图像描述评价指标值表现出明显的差异性,尤其是Cider指标较高。表1的第二行在引入了步骤(1.3)中的医学名词先验知识之后,最终生成的报告语言质量有明显提升,几乎所有的评分指标都被刷新。表1的第三行语言模型在引入基于单张脑CT影像的注意力机制之后,即步骤(4.1)、(4.2)引入的用于指导生成最终的报告语句的视觉特征为单张脑CT影像的图像特征,语言评价指标有所下降,但是最终生成的报告表现出多样性,报告所用词汇变多,句子长度开始有所改变,引入注意力机制之后的语言模型对脑CT数据具有更优的表达能力。表1的第四行在使用NSA模块对脑CT图像进行编码,并在解码过程中使用断层块特征作为注意力指导信息,即步骤(4.1)、(4.2)引入的用于指导生成最终的报告语句的视觉特征为VNSA时,报告的多样性更为明显,在最终生成医学报告中几乎不存在相同长度的报告结果,说明NSA模块对于医学报告生成的质量具有较大的提升。表1的第五行将NSA与SA相结合,即使用层级的自注意力序列编码模型之后,发现最终生成的医学报告不仅在语言评价指标上获得了大幅度的性能提升,并且在生成的报告语句描述质量上也获得了很好表述能力。实验结果表明,在针对脑出血病人该模型实现了初步的脑CT医学报告生成并且获得了较好的实验性能。
表1各个模块的消融对比实验
Figure BDA0002857396910000111
然后是对模型描述能力的定性分析,图四为该方法生成的医学报告实例,可以看出在语言描述能力上,预测的医学报告语句与原报告相比具有较高的契合度,在描述关键词相同的情况下,描述语句与原报告语句几乎一模一样。总体而言,无论是语言性能的定量评价,还是定性分析中展示的医学报告实例,本发明提出的医学报告自动生成框架取得了较好的效果,在未来的实际应用中具有良好的应用前景。

Claims (5)

1.一种基于层级自注意力序列编码的医学报告生成方法,其特征在于:该方法包括如下步骤:
步骤(1)获取脑CT图像以及对应的医学报告数据并预处理;
步骤(2)构建特征提取器,对特征提取网络进行预训练,完成脑CT图像数据I的编码,得到图像特征F;
步骤(3)构建序列处理器,序列处理器是一个层级的自注意力序列编码模型,包括处理相邻断层信息的NSA模块和处理全部断层信息的SA模块;经过序列处理器之后,得到一个包含各个相邻断层块信息的图像特征编码VNSA以及基于整个病例的三维脑CT图像特征编码VSA
步骤(4)构建解码器,对三维脑CT图像特征VSA进行解码;解码器是一种包含注意力模型的循环神经网络,包括基于邻域自注意力的NSA-ATT网络和LSTM模型;解码器的输入为三维脑CT图像特征编码VSA以及相邻断层块的图像特征VNSA,输出为报告文本数据Y,Y={w0,w1,…,wT},wn表示组成报告的单词,n∈[0,T],T为报告文本数据的最长时刻,即报告的最大长度;
步骤(5)模型训练;基于产生的报告文本数据Y与标准的报告文本数据
Figure FDA0002857396900000011
计算交叉熵损失或者强化学习梯度损失,使用随机梯度下降算法对模型进行优化,得到最终模型。
2.根据权利要求1所述的一种基于时空记忆注意力的图像描述方法,其特征在于:步骤(1)中,步骤(1.1)获取脑CT数据,包含图像数据I及其对应的报告文本数据
Figure FDA0002857396900000012
步骤(1.2)对脑CT数据中的图像数据I进行预处理;
步骤(1.3)对脑CT数据中的报告文本数据
Figure FDA0002857396900000013
进行预处理。
3.根据权利要求1所述的一种基于时空记忆注意力的图像描述方法,其特征在于:步骤(2)中,步骤(2.1)采用深度卷积神经网络或目标检测模型构建特征提取器;
步骤(2.2)对构建好的特征提取器进行预训练;
步骤(2.3)将脑CT数据中的图像数据I输入到特征提取器中,完成脑CT图像数据的分类或目标检测任务,使用特征提取器倒数第二层神经网络中的特征表示作为图像编码,最终得到编码后的图像特征F。
4.根据权利要求1所述的一种基于时空记忆注意力的图像描述方法,其特征在于:步骤(3)中,步骤(3.1)采用一种基于自注意力机制和LSTM的序列编码模型;
步骤(3.2)将脑CT数据中的图像特征F输入到序列处理器中处理相邻断层信息的NSA模块,得到包含相邻断层块信息的图像特征VNSA
步骤(3.3)将相邻断层块信息的图像特征VNSA输入到序列处理器中处理全部断层信息的SA模块,最终得到基于整个病例的三维脑CT图像特征编码VSA
5.根据权利要求1所述的一种基于时空记忆注意力的图像描述方法,其特征在于:步骤(4)中,步骤(4.1)解码器中注意力模型NSA-ATT的构建;解码器中注意力模型NSA-ATT的输入包括t时刻的词编码xt;t时刻的词编码xt由t-1时刻的解码器最终的输出wt-1线性变换得到,初始为零向量;相邻断层块信息的图像特征VNSA,在t时刻的输出为包含邻域自注意力信息的词编码向量
Figure FDA0002857396900000021
步骤(4.2)构建解码器中的LSTM模型;解码器中的LSTM模型的输入包括三维脑CT图像特征编码VSA和注意力模型NSA-ATT的在t时刻的输出
Figure FDA0002857396900000022
在t时刻的输出为LSTM在t时刻的隐藏层状态ht
步骤(4.3)解码器输出;对解码器中的LSTM在t时刻的输出ht进行线性变换与Softmax函数分类,得到最终整个解码器在t时刻的输出wt,不同时刻的输出组成最后产生的报告文本数据Y。
CN202011549376.XA 2020-12-24 2020-12-24 一种基于层级自注意力序列编码的脑ct医学报告生成方法 Pending CN112614561A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011549376.XA CN112614561A (zh) 2020-12-24 2020-12-24 一种基于层级自注意力序列编码的脑ct医学报告生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011549376.XA CN112614561A (zh) 2020-12-24 2020-12-24 一种基于层级自注意力序列编码的脑ct医学报告生成方法

Publications (1)

Publication Number Publication Date
CN112614561A true CN112614561A (zh) 2021-04-06

Family

ID=75244695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011549376.XA Pending CN112614561A (zh) 2020-12-24 2020-12-24 一种基于层级自注意力序列编码的脑ct医学报告生成方法

Country Status (1)

Country Link
CN (1) CN112614561A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313199A (zh) * 2021-06-21 2021-08-27 北京工业大学 一种于基于弱监督注意力的脑ct医学报告自动生成方法
CN113470777A (zh) * 2021-06-04 2021-10-01 江苏大学 一种肿瘤辅助诊断报告生成方法、装置、电子设备、存储介质
CN113539408A (zh) * 2021-08-31 2021-10-22 北京字节跳动网络技术有限公司 一种医学报告生成方法、模型的训练方法、装置及设备
CN113571148A (zh) * 2021-06-07 2021-10-29 四川大学华西医院 一键式精神影像个体化脑功能报告生成系统、设备及存储介质
CN113707278A (zh) * 2021-08-30 2021-11-26 北京工业大学 一种基于空间编码的脑ct医学报告生成方法
CN113724359A (zh) * 2021-07-14 2021-11-30 鹏城实验室 一种基于Transformer的CT报告生成方法
CN114091507A (zh) * 2021-09-02 2022-02-25 北京医准智能科技有限公司 超声病灶区域检测方法、装置、电子设备及存储介质
CN114972929A (zh) * 2022-07-29 2022-08-30 中国医学科学院医学信息研究所 一种医学多模态模型的预训练方法及装置
CN117056519A (zh) * 2023-08-17 2023-11-14 天津大学 面向跨领域的立法意见综合报告自动生成方法
CN117174240A (zh) * 2023-10-26 2023-12-05 中国科学技术大学 一种基于大模型领域迁移的医疗影像报告生成方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111864A (zh) * 2019-04-15 2019-08-09 中山大学 一种基于关系模型的医学报告生成模型及其生成方法
CN111126282A (zh) * 2019-12-25 2020-05-08 中国矿业大学 一种基于变分自注意力强化学习的遥感图像内容描述方法
CN111144553A (zh) * 2019-12-28 2020-05-12 北京工业大学 一种基于时空记忆注意力的图像描述方法
CN111414762A (zh) * 2020-02-19 2020-07-14 重庆邮电大学 基于dcu编码和自注意力机制的机器阅读理解方法
CN111428004A (zh) * 2020-03-26 2020-07-17 辽宁工程技术大学 一种融合辅助信息与层级自注意力循环神经网络方面的情感分析方法
CN111598041A (zh) * 2020-05-25 2020-08-28 青岛联合创智科技有限公司 一种用于物品查找的图像生成文本方法
CN111832644A (zh) * 2020-07-08 2020-10-27 北京工业大学 一种基于序列级别的脑部医疗影像报告生成方法及系统
CN112052889A (zh) * 2020-08-28 2020-12-08 西安电子科技大学 基于双门控递归单元解码的喉镜图像识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111864A (zh) * 2019-04-15 2019-08-09 中山大学 一种基于关系模型的医学报告生成模型及其生成方法
CN111126282A (zh) * 2019-12-25 2020-05-08 中国矿业大学 一种基于变分自注意力强化学习的遥感图像内容描述方法
CN111144553A (zh) * 2019-12-28 2020-05-12 北京工业大学 一种基于时空记忆注意力的图像描述方法
CN111414762A (zh) * 2020-02-19 2020-07-14 重庆邮电大学 基于dcu编码和自注意力机制的机器阅读理解方法
CN111428004A (zh) * 2020-03-26 2020-07-17 辽宁工程技术大学 一种融合辅助信息与层级自注意力循环神经网络方面的情感分析方法
CN111598041A (zh) * 2020-05-25 2020-08-28 青岛联合创智科技有限公司 一种用于物品查找的图像生成文本方法
CN111832644A (zh) * 2020-07-08 2020-10-27 北京工业大学 一种基于序列级别的脑部医疗影像报告生成方法及系统
CN112052889A (zh) * 2020-08-28 2020-12-08 西安电子科技大学 基于双门控递归单元解码的喉镜图像识别方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470777B (zh) * 2021-06-04 2024-04-09 江苏大学 一种肿瘤辅助诊断报告生成方法、装置、电子设备、存储介质
CN113470777A (zh) * 2021-06-04 2021-10-01 江苏大学 一种肿瘤辅助诊断报告生成方法、装置、电子设备、存储介质
CN113571148A (zh) * 2021-06-07 2021-10-29 四川大学华西医院 一键式精神影像个体化脑功能报告生成系统、设备及存储介质
CN113313199A (zh) * 2021-06-21 2021-08-27 北京工业大学 一种于基于弱监督注意力的脑ct医学报告自动生成方法
CN113724359A (zh) * 2021-07-14 2021-11-30 鹏城实验室 一种基于Transformer的CT报告生成方法
CN113724359B (zh) * 2021-07-14 2024-09-24 鹏城实验室 一种基于Transformer的CT报告生成方法
CN113707278A (zh) * 2021-08-30 2021-11-26 北京工业大学 一种基于空间编码的脑ct医学报告生成方法
CN113707278B (zh) * 2021-08-30 2023-11-03 北京工业大学 一种基于空间编码的脑ct医学报告生成方法
CN113539408A (zh) * 2021-08-31 2021-10-22 北京字节跳动网络技术有限公司 一种医学报告生成方法、模型的训练方法、装置及设备
CN114091507A (zh) * 2021-09-02 2022-02-25 北京医准智能科技有限公司 超声病灶区域检测方法、装置、电子设备及存储介质
CN114972929A (zh) * 2022-07-29 2022-08-30 中国医学科学院医学信息研究所 一种医学多模态模型的预训练方法及装置
CN117056519A (zh) * 2023-08-17 2023-11-14 天津大学 面向跨领域的立法意见综合报告自动生成方法
CN117174240A (zh) * 2023-10-26 2023-12-05 中国科学技术大学 一种基于大模型领域迁移的医疗影像报告生成方法
CN117174240B (zh) * 2023-10-26 2024-02-09 中国科学技术大学 一种基于大模型领域迁移的医疗影像报告生成方法

Similar Documents

Publication Publication Date Title
CN112614561A (zh) 一种基于层级自注意力序列编码的脑ct医学报告生成方法
Liu et al. Auto-encoding knowledge graph for unsupervised medical report generation
EP4266195A1 (en) Training of text and image models
Zhou et al. Employing Inception-Resnet-v2 and Bi-LSTM for Medical Domain Visual Question Answering.
Yang et al. Writing by memorizing: Hierarchical retrieval-based medical report generation
CN114220516A (zh) 一种基于层级循环神经网络解码的脑ct医学报告生成方法
CN117352121A (zh) 一种医学影像报告的生成方法及装置
Sarrouti et al. Visual question generation from radiology images
CN114708952B (zh) 一种图像标注方法、装置、存储介质和电子设备
CN116779091A (zh) 一种多模态网络互联融合的胸部影像诊断报告自动生成方法
Kuang et al. Towards simultaneous segmentation of liver tumors and intrahepatic vessels via cross-attention mechanism
CN117058307A (zh) 心脏三维核磁共振图像生成方法、系统、设备及储存介质
Xu et al. Advancing Medical Diagnostics with Deep Learning and Data Preprocessing
Xu et al. Hybrid reinforced medical report generation with m-linear attention and repetition penalty
Shaik et al. Gated contextual transformer network for multi-modal retinal image clinical description generation
CN117316369B (zh) 平衡跨模态信息的胸部影像诊断报告自动生成方法
CN116843995A (zh) 细胞影像学预训练模型构建方法和装置
CN115588486A (zh) 一种基于Transformer的中医诊断生成装置及其应用
Alqahtani et al. CNX-B2: A novel cnn-transformer approach for chest x-ray medical report generation
Leonardi et al. Enhancing medical image report generation through standard language models: leveraging the power of LLMs in healthcare
Zhang et al. Hierarchical medical image report adversarial generation with hybrid discriminator
Ashrafian et al. Vision-Language Synthetic Data Enhances Echocardiography Downstream Tasks
Reddy et al. Optimizing Medical Image Report Generation with Varied Attention Mechanisms
CN117558394B (zh) 一种基于跨模态网络的胸部x线影像报告生成方法
Yang et al. A study on the strategic application of semantic segmentation based on improved convolutional neural networks on english-chinese interaction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210406

WD01 Invention patent application deemed withdrawn after publication