CN112614561A - 一种基于层级自注意力序列编码的脑ct医学报告生成方法 - Google Patents
一种基于层级自注意力序列编码的脑ct医学报告生成方法 Download PDFInfo
- Publication number
- CN112614561A CN112614561A CN202011549376.XA CN202011549376A CN112614561A CN 112614561 A CN112614561 A CN 112614561A CN 202011549376 A CN202011549376 A CN 202011549376A CN 112614561 A CN112614561 A CN 112614561A
- Authority
- CN
- China
- Prior art keywords
- image
- brain
- attention
- data
- nsa
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 210000004556 brain Anatomy 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 230000002787 reinforcement Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000011160 research Methods 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 abstract description 3
- 210000004072 lung Anatomy 0.000 abstract 1
- 238000002591 computed tomography Methods 0.000 description 53
- 230000000007 visual effect Effects 0.000 description 12
- 238000003745 diagnosis Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 208000026106 cerebrovascular disease Diseases 0.000 description 2
- 235000019987 cider Nutrition 0.000 description 2
- 238000004451 qualitative analysis Methods 0.000 description 2
- 238000011158 quantitative evaluation Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 206010008111 Cerebral haemorrhage Diseases 0.000 description 1
- 208000019693 Lung disease Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000005013 brain tissue Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 231100000915 pathological change Toxicity 0.000 description 1
- 230000036285 pathological change Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于层级自注意力序列编码的医学报告生成方法,步骤(1)获取脑CT图像以及对应的医学报告数据并预处理;步骤(2)构建特征提取器;步骤(3)构建序列处理器,经过序列处理器之后,得到一个包含各个相邻断层块信息的图像特征编码VNSA以及基于整个病例的三维脑CT图像特征编码VSA;步骤(4)构建解码器;步骤(5)模型训练。深度学习在智能医疗的应用发展迅速,针对肺部的医学报告自动生成技术较为成熟,但针对脑CT的医学报告自动生成的研究与发明空缺。本方法搭建的模型实现了三维脑CT数据的编码,将这种编码与图像描述领域中的语言模型相结合,实现了CT影像的医学报告自动生成。
Description
技术领域
本发明涉及计算机视觉和自然语言处理两个领域,针对医学领域中报告自动生成任务,设计了一种基于层级自注意力序列编码的医学报告生成方法。
背景技术
医疗数据中有90%来自于医疗影像,与之对应的医学报告是具有专业医学知识和经验的放射科医生根据影像书写而成,是主治医生诊断疾病及明确治疗方案的关键依据。然而,放射科医生一直以来都面临着巨大的挑战:知识门槛高、培养周期长、任务繁重、漏诊率上升,而且医学影像数据还在逐年增长,放射科医生的增长速度和工作效率不足以应对这样的数据增长趋势。这意味着放射科医生在未来处理影像数据的压力会越来越大,甚至远远超过负荷。医学影像报告自动生成研究是解决目前面临问题的重要途径,辅助医生进行自动阅片的人工智能技术具有缓解医生的工作压力、降低漏诊率、节约学习和诊断时间等优势,对于病灶发现、手术方案规划与临床治疗都有着重要的医学价值。
脑CT(Computed Tomography)是一种检查方便,迅速安全,无痛苦,无创伤的检查方法,它能清楚的显示颅脑不同横断面的解剖关系和具体的脑组织结构,因而大大提高了病变的检出率和诊断的准确性,是脑血管疾病中常用的影像诊断方法。脑CT影像医学报告自动生成对脑血管疾病的诊断与治疗具有重要的临床意义。
近几年,由于计算机硬件计算能力的提高,数据量的爆发式增长,深度神经网络相关技术得到了发展,在计算机视觉、自然语言处理等研究领域表现出巨大的潜力。图像描述是计算机视觉和自然语言处理的一个交叉领域,是视觉到语言问题研究的基础。从计算机技术的角度看,医学报告的自动生成是图像描述在医学领域的应用研究。脑CT影像的独特性也给视觉语义匹配带来了新的挑战:经由断面扫描获得的影像层数多,层关系密切;三维空间中病灶稀疏,冗余信息多。
发明内容
深度学习在智能医疗的应用发展迅速,针对肺部疾病的医学报告自动生成技术较为成熟,但针对脑CT的医学报告自动生成的研究与发明空缺。深度学习中与之相关的图像描述领域的技术手段是该发明的基础技术手段,但脑CT影像为断层影像的序列组合,具有三维数据特性,常用的图像描述模型并不能完成三维数据的编码。近年来自注意力和长短时记忆网络(Long Short-Term Memory,LSTM)表现出良好的序列数据处理能力。根据脑CT影像的数据特性,本发明提出了一种基于层级自注意力序列编码的方法,有效地提取三维脑CT影像的空间序列特征,将这种序列编码的特征与图像描述的语言模型相结合实现了初步的针对脑CT影像的医学报告自动生成。基于层级自注意力序列编码的医学报告生成方法主要由编码器和解码器两部分组成,其中编码器部分由特征提取器和序列处理器组成,解码器由语言模型组成。
本发明采用的技术方案为一种基于层级自注意力序列编码的医学报告生成方法,该方法包括如下步骤:
步骤(1)获取脑CT图像以及对应的医学报告数据并预处理:
步骤(1.2)对脑CT数据中的图像数据I进行预处理。
步骤(2)构建特征提取器,对特征提取网络进行预训练,完成脑CT图像数据I的编码,得到图像特征F:
步骤(2.1)采用深度卷积神经网络或目标检测模型构建特征提取器。
步骤(2.2)对构建好的特征提取器进行预训练。
步骤(2.3)将脑CT数据中的图像数据I输入到特征提取器中,完成脑CT图像数据的分类或目标检测任务,使用特征提取器倒数第二层神经网络中的特征表示作为图像编码,最终得到编码后的图像特征F。
步骤(3)构建序列处理器,序列处理器是一个层级的自注意力序列编码模型,包括处理相邻断层信息的NSA模块和处理全部断层信息的SA模块。经过序列处理器之后,得到一个包含各个相邻断层块信息的图像特征编码VNSA以及基于整个病例的三维脑CT图像特征编码VSA:
步骤(3.1)采用一种基于自注意力机制和LSTM的序列编码模型。
步骤(3.2)将脑CT数据中的图像特征F输入到序列处理器中处理相邻断层信息的NSA模块,得到包含相邻断层块信息的图像特征VNSA。
步骤(3.3)将相邻断层块信息的图像特征VNSA输入到序列处理器中处理全部断层信息的SA模块,最终得到基于整个病例的三维脑CT图像特征编码VSA。
步骤(4)构建解码器,对三维脑CT图像特征VSA进行解码。解码器是一种包含注意力模型的循环神经网络,包括基于邻域自注意力的NSA-ATT网络和LSTM模型。解码器的输入为三维脑CT图像特征编码VSA以及相邻断层块的图像特征VNSA,输出为报告文本数据Y,Y={w0,w1,…,wT},wn表示组成报告的单词,n∈[0,T],T为报告文本数据的最长时刻,即报告的最大长度:
步骤(4.1)解码器中注意力模型NSA-ATT的构建。解码器中注意力模型NSA-ATT的输入包括t时刻的词编码xt(可由t-1时刻的解码器最终的输出wt-1线性变换得到,初始为零向量),相邻断层块信息的图像特征VNSA,在t时刻的输出为包含邻域自注意力信息的词编码向量
步骤(4.3)解码器输出。对解码器中的LSTM在t时刻的输出ht进行线性变换与Softmax函数分类,得到最终整个解码器在t时刻的输出wt,不同时刻的输出组成最后产生的报告文本数据Y。
请注意将上述本方法实施的基本流程梳理下,各个步骤之间是前后衔接的,比如步骤1的输出是步骤2的输入,它们前后之间是一个技术整体,请注意将上下文进行下修订。
附图说明
图1:数据预处理与特征提取。
图2:序列处理器。
图3:解码器。
图4:医学报告生成实例。
具体实施方式
下面以北京大学第三医学提供的567例数据为例,说明本发明的具体实施步骤:
步骤(1)获取脑CT图像以及对应的医学报告数据并预处理:
步骤(1.2)对脑CT数据中的图像数据I进行预处理。原脑CT医学影像为dicom格式,如图1中的去噪并转化所示我们使用医生常用的三种尺度的观察视图做为RGB三通道彩色图像的三个通道值,并去掉图像的边界噪声CT值-2000,最终得到PNG格式的脑CT图像数据。
步骤(1.3)对脑CT数据中的报告文本数据进行预处理。去掉报告文本数据中的冗余标点符号;专业名词说法进行统一;使用逗号对不同句子进行分割;提取出每一个句子的关键词作为本发明中所使用的先验知识信息;使用加入了先验知识词典的节霸分词工具对报告文本数据进行分词,得到医学报告用语词典。最终报告文本词典包含279个单词。
步骤(2)构建特征提取器,对特征提取网络进行预训练,完成脑CT图像数据I的编码,得到图像特征F:
步骤(2.1)采用深度卷积神经网络或目标检测模型构建特征提取器。构建特征提取器,可以采用深度卷积神经网络,例如ResNet-101,也可以采用目标检测模型,例如RCNN、Faster RCNN等。
步骤(2.2)对构建好的特征提取器进行预训练。采用ImageNet、MS COCO等数据集,对特征提取器进行预训练,使其具有一定的分类或者目标检测能力。
步骤(2.3)把567例共计17257张脑CT图像数据I输入到特征提取器中,对图像数据进行分类或目标检测任务,如图1所示我们使用ResNet-101中倒数第二层神经网络中的特征作为图像编码,编码后的图像特征记为F。公式表达为:
F=Encoder(I)
步骤(3)构建序列处理器,序列处理器是一个层级的自注意力序列编码模型,包括处理相邻断层信息的NSA模块和处理全部断层信息的SA模块。经过序列处理器之后,得到一个包含各个相邻断层块信息的图像特征编码VNSA以及基于整个病例的三维脑CT图像特征编码VSA:
步骤(3.1)采用一种基于自注意力机制和LSTM的序列编码模型。考虑到脑CT数据在空间上具有一定的序列关系。而自注意力机制常作为一个特征提取器在机器翻译、视频描述等领域中展现出很好的序列编码能力。常用的注意力模型的输入通常包含两部分:查询(query)特征与关键词(key)特征,表达式如下:
αi=Softmax(ei)
at=∑i(αivi)
为t时刻注意力模型的输入,作为注意力模型的查询特征,R表示实数,mq表示查询特征向量的维度;为第i个视觉特征;V={v1,v2,…,vn},作为注意力模型的关键词特征,mv表示视觉特征向量的维度,n表示视觉特征的数量。φ为相似度函数,用于计算查询特征与V中每项视觉特征的相似性,可基于神经网络实现。ei表示查询特征与关键词特征的相似度。αi表示经过Softmax函数计算后视觉特征的权重信息。为t时刻输出的视觉注意力特征。在自注意力机制中与vi全部由特征向量自身F={f1,f2,…,fi}经过线性变化得到:
vi=Linear(fi)
在进行机器翻译过程中,自注意力机制是对每一个词得到新的考虑了上下文信息的表征。使用自注意力机制进行脑CT序列编码,使得在对每一个断层图像进行编码时可以引入相邻的其他断层信息。
使用自注意力机制我们得到新的考虑了上下文信息的脑CT影像表征,对于每一个断层块来说它仅包含了前后断层影像的信息,但是没有考虑到前后断层影像的先后空间序列关系,在长短时记忆网络LSTM中每一时刻的输入都与前面时刻所输入的信息具有前后的依赖关系,因此对于断层块之前的先后空间序列关系我们使用长短时记忆网络对其这种空间序列关系进行建模。
步骤(3.2)将脑CT数据中的图像特征F输入到序列处理器中处理相邻断层信息的NSA模块,得到包含相邻断层块信息的图像特征VNSA。如图2所示首先通过NSA网络得到考虑前后相邻断层信息的加权表示,随后通过NSA_LSTM网络对相邻断层块进行序列化建模得到包含断层块信息的图像特征VNSA(NSA Feature)。
考虑到病灶的稀疏性,本发明对自注意力机制进行修改,在对单张病灶图像进行编码时我们仅仅引入前后相邻的有限张断层信息,如图2所示该发明使用了前后三张断层图像作为一个断层块,实现基于邻域的自注意力机制(Neighboring Self Attention,NSA),我们以NSA作为断层图像的基本编码单元,通过层级注意力的方式扩大断层信息的引入量,进而达到对一整例脑CT图像进行编码的目的。
步骤(3.3)将相邻断层块信息的图像特征VNSA输入到序列处理器中处理全部断层信息的SA模块,最终得到基于整个病例的三维脑CT图像特征编码VSA。如图2所示首先通过SA网络计算出包含全部断层影像的加权表示,然后通过SA_LSTM网络得到整个病例的三维脑CT图像特征编码VSA(SA Feature)。
步骤(4)构建解码器,对三维脑CT图像特征VSA进行解码。解码器是一种包含注意力模型的循环神经网络,包括基于邻域自注意力的NSA-ATT网络和LSTM模型。解码器的输入为三维脑CT图像特征编码VSA以及相邻断层块的图像特征VNSA,输出为报告文本数据Y,Y={w0,w1,…,wT},wn表示组成报告的单词,n∈[0,T],T为报告文本数据的最长时刻,即报告的最大长度:
步骤(4.1)解码器中注意力模型NSA-ATT的构建。如图3所示,解码器中注意力模型NSA-ATT的输入包括t时刻的词编码xt(可由t-1时刻的解码器最终的输出wt-1线性变换得到,初始为零向量),相邻断层块信息的图像特征VNSA,在t时刻的输出为包含邻域自注意力信息的词编码向量词编码xt,包含邻域自注意力信息的词编码向量公式如下所示:
xt=Wxwwt-1
其中xt是对t-1时刻输出wt-1的编码,at是视觉和语义相匹配的注意力信息,concatenate表示特征向量的拼接。
如图3所示,在构建解码器中的LSTM模型时使用序列处理器得到的两种特征VSA(SAFeature)和VNSA(NSA Feature),首先使用三维脑CT图像特征VSA用于语言生成模型的初始化,计算得到第一个LSTM所需要的隐藏层状态向量,从而进行第一个单词预测。在LSTM预测每一个单词的过程中我们使用断层块的图像特征VNSA作为LSTM模型中的视觉指导信息,使得在生成医学报告的单词时关注到与之相关的断层块信息。
下述公式为相关的LSTM公式,本发明在基础的LSTM模型上添加了视觉和语义相匹配的注意力信息at,使得在生成最终医学报告的每一个单词时关注脑CT影像的不同断层块信息,在t时刻的注意力信息at分别用于记忆细胞的输入门、遗忘门、更新单元、输出门中:
it=σ(Wixxt+Wihht-1+Wiaat)
ft=σ(Wfxxt+Wfhht-1+Wfaat)
ot=σ(Woxxt+Wohht-1+Woaat)
其中it、ft与ot分别表示输入门向量、遗忘门向量和输出门向量,σ表示Sigmoid激活函数,tanh表示tanh激活函数,表示矩阵对应元素相乘,表示更新单元的候选值,ct-1表示上一时刻的更新单元,ct表示t时刻的更新单元,ht-1表示上一时刻隐藏层的输出值,ht表示t时刻隐藏层的输出值,所有的W**表示线性变换的参数。
步骤(4.3)解码器输出。对解码器中的LSTM在t时刻的输出ht进行线性变换与Softmax函数分类,得到最终整个解码器在t时刻的输出wt,不同时刻的输出组成最后产生的报告文本数据Y。
步骤(5)模型训练:整个方法由图1、2、3三部分共同构成所示。可以基于交叉熵损失或者强化学习进行优化,本发明使用随机梯度下降算法,例如ADAM优化器对整个方法进行优化,训练参数,得到最终的模型。
为了验证本方法的可行性,我们进行了各个模块的消融对比实验。并通过BLEU,METEOR,ROUGE-L和CIDEr四个评价指标对结果进行了评价,这四种评价指标已经广泛应用于图像描述、自然语言处理等领域中对生成句子的定量评价中。图4展示了其中的一些样例,包括图像、对应的医学报告文本信息以及该方法生成的最终医学报告文本信息。
首先对方法进行定量分析。表1为各个模块的消融对比实验,表1的第一行使用CNN进行单张脑CT影像编码后直接使用LSTM进行空间序列的编码以及语言模型的构建,由于医学报告组成的特殊性,其最终的语言评价指标值与普通的图像描述评价指标值表现出明显的差异性,尤其是Cider指标较高。表1的第二行在引入了步骤(1.3)中的医学名词先验知识之后,最终生成的报告语言质量有明显提升,几乎所有的评分指标都被刷新。表1的第三行语言模型在引入基于单张脑CT影像的注意力机制之后,即步骤(4.1)、(4.2)引入的用于指导生成最终的报告语句的视觉特征为单张脑CT影像的图像特征,语言评价指标有所下降,但是最终生成的报告表现出多样性,报告所用词汇变多,句子长度开始有所改变,引入注意力机制之后的语言模型对脑CT数据具有更优的表达能力。表1的第四行在使用NSA模块对脑CT图像进行编码,并在解码过程中使用断层块特征作为注意力指导信息,即步骤(4.1)、(4.2)引入的用于指导生成最终的报告语句的视觉特征为VNSA时,报告的多样性更为明显,在最终生成医学报告中几乎不存在相同长度的报告结果,说明NSA模块对于医学报告生成的质量具有较大的提升。表1的第五行将NSA与SA相结合,即使用层级的自注意力序列编码模型之后,发现最终生成的医学报告不仅在语言评价指标上获得了大幅度的性能提升,并且在生成的报告语句描述质量上也获得了很好表述能力。实验结果表明,在针对脑出血病人该模型实现了初步的脑CT医学报告生成并且获得了较好的实验性能。
表1各个模块的消融对比实验
然后是对模型描述能力的定性分析,图四为该方法生成的医学报告实例,可以看出在语言描述能力上,预测的医学报告语句与原报告相比具有较高的契合度,在描述关键词相同的情况下,描述语句与原报告语句几乎一模一样。总体而言,无论是语言性能的定量评价,还是定性分析中展示的医学报告实例,本发明提出的医学报告自动生成框架取得了较好的效果,在未来的实际应用中具有良好的应用前景。
Claims (5)
1.一种基于层级自注意力序列编码的医学报告生成方法,其特征在于:该方法包括如下步骤:
步骤(1)获取脑CT图像以及对应的医学报告数据并预处理;
步骤(2)构建特征提取器,对特征提取网络进行预训练,完成脑CT图像数据I的编码,得到图像特征F;
步骤(3)构建序列处理器,序列处理器是一个层级的自注意力序列编码模型,包括处理相邻断层信息的NSA模块和处理全部断层信息的SA模块;经过序列处理器之后,得到一个包含各个相邻断层块信息的图像特征编码VNSA以及基于整个病例的三维脑CT图像特征编码VSA;
步骤(4)构建解码器,对三维脑CT图像特征VSA进行解码;解码器是一种包含注意力模型的循环神经网络,包括基于邻域自注意力的NSA-ATT网络和LSTM模型;解码器的输入为三维脑CT图像特征编码VSA以及相邻断层块的图像特征VNSA,输出为报告文本数据Y,Y={w0,w1,…,wT},wn表示组成报告的单词,n∈[0,T],T为报告文本数据的最长时刻,即报告的最大长度;
3.根据权利要求1所述的一种基于时空记忆注意力的图像描述方法,其特征在于:步骤(2)中,步骤(2.1)采用深度卷积神经网络或目标检测模型构建特征提取器;
步骤(2.2)对构建好的特征提取器进行预训练;
步骤(2.3)将脑CT数据中的图像数据I输入到特征提取器中,完成脑CT图像数据的分类或目标检测任务,使用特征提取器倒数第二层神经网络中的特征表示作为图像编码,最终得到编码后的图像特征F。
4.根据权利要求1所述的一种基于时空记忆注意力的图像描述方法,其特征在于:步骤(3)中,步骤(3.1)采用一种基于自注意力机制和LSTM的序列编码模型;
步骤(3.2)将脑CT数据中的图像特征F输入到序列处理器中处理相邻断层信息的NSA模块,得到包含相邻断层块信息的图像特征VNSA;
步骤(3.3)将相邻断层块信息的图像特征VNSA输入到序列处理器中处理全部断层信息的SA模块,最终得到基于整个病例的三维脑CT图像特征编码VSA;
5.根据权利要求1所述的一种基于时空记忆注意力的图像描述方法,其特征在于:步骤(4)中,步骤(4.1)解码器中注意力模型NSA-ATT的构建;解码器中注意力模型NSA-ATT的输入包括t时刻的词编码xt;t时刻的词编码xt由t-1时刻的解码器最终的输出wt-1线性变换得到,初始为零向量;相邻断层块信息的图像特征VNSA,在t时刻的输出为包含邻域自注意力信息的词编码向量
步骤(4.3)解码器输出;对解码器中的LSTM在t时刻的输出ht进行线性变换与Softmax函数分类,得到最终整个解码器在t时刻的输出wt,不同时刻的输出组成最后产生的报告文本数据Y。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011549376.XA CN112614561A (zh) | 2020-12-24 | 2020-12-24 | 一种基于层级自注意力序列编码的脑ct医学报告生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011549376.XA CN112614561A (zh) | 2020-12-24 | 2020-12-24 | 一种基于层级自注意力序列编码的脑ct医学报告生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112614561A true CN112614561A (zh) | 2021-04-06 |
Family
ID=75244695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011549376.XA Pending CN112614561A (zh) | 2020-12-24 | 2020-12-24 | 一种基于层级自注意力序列编码的脑ct医学报告生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112614561A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313199A (zh) * | 2021-06-21 | 2021-08-27 | 北京工业大学 | 一种于基于弱监督注意力的脑ct医学报告自动生成方法 |
CN113470777A (zh) * | 2021-06-04 | 2021-10-01 | 江苏大学 | 一种肿瘤辅助诊断报告生成方法、装置、电子设备、存储介质 |
CN113539408A (zh) * | 2021-08-31 | 2021-10-22 | 北京字节跳动网络技术有限公司 | 一种医学报告生成方法、模型的训练方法、装置及设备 |
CN113571148A (zh) * | 2021-06-07 | 2021-10-29 | 四川大学华西医院 | 一键式精神影像个体化脑功能报告生成系统、设备及存储介质 |
CN113707278A (zh) * | 2021-08-30 | 2021-11-26 | 北京工业大学 | 一种基于空间编码的脑ct医学报告生成方法 |
CN113724359A (zh) * | 2021-07-14 | 2021-11-30 | 鹏城实验室 | 一种基于Transformer的CT报告生成方法 |
CN114091507A (zh) * | 2021-09-02 | 2022-02-25 | 北京医准智能科技有限公司 | 超声病灶区域检测方法、装置、电子设备及存储介质 |
CN114972929A (zh) * | 2022-07-29 | 2022-08-30 | 中国医学科学院医学信息研究所 | 一种医学多模态模型的预训练方法及装置 |
CN117056519A (zh) * | 2023-08-17 | 2023-11-14 | 天津大学 | 面向跨领域的立法意见综合报告自动生成方法 |
CN117174240A (zh) * | 2023-10-26 | 2023-12-05 | 中国科学技术大学 | 一种基于大模型领域迁移的医疗影像报告生成方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110111864A (zh) * | 2019-04-15 | 2019-08-09 | 中山大学 | 一种基于关系模型的医学报告生成模型及其生成方法 |
CN111126282A (zh) * | 2019-12-25 | 2020-05-08 | 中国矿业大学 | 一种基于变分自注意力强化学习的遥感图像内容描述方法 |
CN111144553A (zh) * | 2019-12-28 | 2020-05-12 | 北京工业大学 | 一种基于时空记忆注意力的图像描述方法 |
CN111414762A (zh) * | 2020-02-19 | 2020-07-14 | 重庆邮电大学 | 基于dcu编码和自注意力机制的机器阅读理解方法 |
CN111428004A (zh) * | 2020-03-26 | 2020-07-17 | 辽宁工程技术大学 | 一种融合辅助信息与层级自注意力循环神经网络方面的情感分析方法 |
CN111598041A (zh) * | 2020-05-25 | 2020-08-28 | 青岛联合创智科技有限公司 | 一种用于物品查找的图像生成文本方法 |
CN111832644A (zh) * | 2020-07-08 | 2020-10-27 | 北京工业大学 | 一种基于序列级别的脑部医疗影像报告生成方法及系统 |
CN112052889A (zh) * | 2020-08-28 | 2020-12-08 | 西安电子科技大学 | 基于双门控递归单元解码的喉镜图像识别方法 |
-
2020
- 2020-12-24 CN CN202011549376.XA patent/CN112614561A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110111864A (zh) * | 2019-04-15 | 2019-08-09 | 中山大学 | 一种基于关系模型的医学报告生成模型及其生成方法 |
CN111126282A (zh) * | 2019-12-25 | 2020-05-08 | 中国矿业大学 | 一种基于变分自注意力强化学习的遥感图像内容描述方法 |
CN111144553A (zh) * | 2019-12-28 | 2020-05-12 | 北京工业大学 | 一种基于时空记忆注意力的图像描述方法 |
CN111414762A (zh) * | 2020-02-19 | 2020-07-14 | 重庆邮电大学 | 基于dcu编码和自注意力机制的机器阅读理解方法 |
CN111428004A (zh) * | 2020-03-26 | 2020-07-17 | 辽宁工程技术大学 | 一种融合辅助信息与层级自注意力循环神经网络方面的情感分析方法 |
CN111598041A (zh) * | 2020-05-25 | 2020-08-28 | 青岛联合创智科技有限公司 | 一种用于物品查找的图像生成文本方法 |
CN111832644A (zh) * | 2020-07-08 | 2020-10-27 | 北京工业大学 | 一种基于序列级别的脑部医疗影像报告生成方法及系统 |
CN112052889A (zh) * | 2020-08-28 | 2020-12-08 | 西安电子科技大学 | 基于双门控递归单元解码的喉镜图像识别方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113470777B (zh) * | 2021-06-04 | 2024-04-09 | 江苏大学 | 一种肿瘤辅助诊断报告生成方法、装置、电子设备、存储介质 |
CN113470777A (zh) * | 2021-06-04 | 2021-10-01 | 江苏大学 | 一种肿瘤辅助诊断报告生成方法、装置、电子设备、存储介质 |
CN113571148A (zh) * | 2021-06-07 | 2021-10-29 | 四川大学华西医院 | 一键式精神影像个体化脑功能报告生成系统、设备及存储介质 |
CN113313199A (zh) * | 2021-06-21 | 2021-08-27 | 北京工业大学 | 一种于基于弱监督注意力的脑ct医学报告自动生成方法 |
CN113724359A (zh) * | 2021-07-14 | 2021-11-30 | 鹏城实验室 | 一种基于Transformer的CT报告生成方法 |
CN113724359B (zh) * | 2021-07-14 | 2024-09-24 | 鹏城实验室 | 一种基于Transformer的CT报告生成方法 |
CN113707278A (zh) * | 2021-08-30 | 2021-11-26 | 北京工业大学 | 一种基于空间编码的脑ct医学报告生成方法 |
CN113707278B (zh) * | 2021-08-30 | 2023-11-03 | 北京工业大学 | 一种基于空间编码的脑ct医学报告生成方法 |
CN113539408A (zh) * | 2021-08-31 | 2021-10-22 | 北京字节跳动网络技术有限公司 | 一种医学报告生成方法、模型的训练方法、装置及设备 |
CN114091507A (zh) * | 2021-09-02 | 2022-02-25 | 北京医准智能科技有限公司 | 超声病灶区域检测方法、装置、电子设备及存储介质 |
CN114972929A (zh) * | 2022-07-29 | 2022-08-30 | 中国医学科学院医学信息研究所 | 一种医学多模态模型的预训练方法及装置 |
CN117056519A (zh) * | 2023-08-17 | 2023-11-14 | 天津大学 | 面向跨领域的立法意见综合报告自动生成方法 |
CN117174240A (zh) * | 2023-10-26 | 2023-12-05 | 中国科学技术大学 | 一种基于大模型领域迁移的医疗影像报告生成方法 |
CN117174240B (zh) * | 2023-10-26 | 2024-02-09 | 中国科学技术大学 | 一种基于大模型领域迁移的医疗影像报告生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112614561A (zh) | 一种基于层级自注意力序列编码的脑ct医学报告生成方法 | |
Liu et al. | Auto-encoding knowledge graph for unsupervised medical report generation | |
EP4266195A1 (en) | Training of text and image models | |
Zhou et al. | Employing Inception-Resnet-v2 and Bi-LSTM for Medical Domain Visual Question Answering. | |
Yang et al. | Writing by memorizing: Hierarchical retrieval-based medical report generation | |
CN114220516A (zh) | 一种基于层级循环神经网络解码的脑ct医学报告生成方法 | |
CN117352121A (zh) | 一种医学影像报告的生成方法及装置 | |
Sarrouti et al. | Visual question generation from radiology images | |
CN114708952B (zh) | 一种图像标注方法、装置、存储介质和电子设备 | |
CN116779091A (zh) | 一种多模态网络互联融合的胸部影像诊断报告自动生成方法 | |
Kuang et al. | Towards simultaneous segmentation of liver tumors and intrahepatic vessels via cross-attention mechanism | |
CN117058307A (zh) | 心脏三维核磁共振图像生成方法、系统、设备及储存介质 | |
Xu et al. | Advancing Medical Diagnostics with Deep Learning and Data Preprocessing | |
Xu et al. | Hybrid reinforced medical report generation with m-linear attention and repetition penalty | |
Shaik et al. | Gated contextual transformer network for multi-modal retinal image clinical description generation | |
CN117316369B (zh) | 平衡跨模态信息的胸部影像诊断报告自动生成方法 | |
CN116843995A (zh) | 细胞影像学预训练模型构建方法和装置 | |
CN115588486A (zh) | 一种基于Transformer的中医诊断生成装置及其应用 | |
Alqahtani et al. | CNX-B2: A novel cnn-transformer approach for chest x-ray medical report generation | |
Leonardi et al. | Enhancing medical image report generation through standard language models: leveraging the power of LLMs in healthcare | |
Zhang et al. | Hierarchical medical image report adversarial generation with hybrid discriminator | |
Ashrafian et al. | Vision-Language Synthetic Data Enhances Echocardiography Downstream Tasks | |
Reddy et al. | Optimizing Medical Image Report Generation with Varied Attention Mechanisms | |
CN117558394B (zh) | 一种基于跨模态网络的胸部x线影像报告生成方法 | |
Yang et al. | A study on the strategic application of semantic segmentation based on improved convolutional neural networks on english-chinese interaction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210406 |
|
WD01 | Invention patent application deemed withdrawn after publication |