CN114496151A - 一种基于深度学习的医疗影像报告自动生成方法 - Google Patents

一种基于深度学习的医疗影像报告自动生成方法 Download PDF

Info

Publication number
CN114496151A
CN114496151A CN202210004588.2A CN202210004588A CN114496151A CN 114496151 A CN114496151 A CN 114496151A CN 202210004588 A CN202210004588 A CN 202210004588A CN 114496151 A CN114496151 A CN 114496151A
Authority
CN
China
Prior art keywords
module
attention
image
data set
medical image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210004588.2A
Other languages
English (en)
Inventor
张立言
陈志贤
袁野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202210004588.2A priority Critical patent/CN114496151A/zh
Publication of CN114496151A publication Critical patent/CN114496151A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于深度学习的医疗影像报告自动生成方法,包括如下步骤:步骤1,准备数据集并对数据集进行预处理;步骤2,通过Attention模型进行医疗影像细粒度特征提取;步骤3,通过图像处理模块,使用图文对应的方式进行训练,采用关键词和图像特征进行对应,改进transformer模块,来提高机器对图像特征识别的准确性;步骤4,通过Decoder模块生成报告段落。本发明通过提取细粒度的医疗影像特征,改善训练模型,使得生成的诊断报告更加专业、准确。

Description

一种基于深度学习的医疗影像报告自动生成方法
技术领域
本发明属于计算机视觉和自然语言处理交叉领域,特别涉及一种医疗影像报告自动生成的方法。
背景技术
随着医疗技术的迅猛发展,医疗影像技术不断进步和完善,形成了包含X射线、CT、PET-CT、核磁共振等的医疗影像体系。医疗影像技术为医生诊断疾病提供极大的帮助,成为医生诊断疾病的重要依据。医疗影像报告的生成能够为医生的诊断提供帮助,减少医生的工作量和漏诊误诊的概率。目前关于医疗影像报告的数据集有ROCO、IU-Xray、MIMIC_CXR、CX-CHR等。
2016年Shin H.C.等人[7]把encoder-decoder模型运用到医疗影像报告的生成中。编码器encoder部分采用了GoogleNet卷积网络模型进行图像分析,解码器decoder部分使用了LSTM和GRU进行报告的生成。但是生成的效果不是很理想,并不能生成一份完整的报告,只能生成几个医疗术语单词。
2018年Baoyu Jing等人[9]提出了Co-Attention机制,引入了Hierarchial LSTM结构。文章构建了一个多任务的学习框架,它们共同进行标签的预测和诊断报告的生成。他们提出了共同注意力机制来关注异常信息,同时考虑了图像特征和语义特征,然后使用多层LSTM模型进行段落的生成,提高预测的准确性。
2020年Zhihong Chen等人[10]利用医疗影像报告的特点,在Transformer的decoder部分加入了记忆模块,这样可以让模型更好地理解影像报告中的局部结构。这个模型的encoder和decoder均采用了transformer模型,在decoder的transformer中引入了Relation Memory模块,用Memory来控制transformer输出特征的均值和方差,提升生成的医疗影像报告的质量。
2021年Fenglin Liu等人[11]提出了后验-先验知识探索及蒸馏(PPKED)框架,结合先验和后验知识来生成报告。这个模型主要包含了三个模块:后验知识探索PoKE模块、先验知识探索PrKE模块和多领域知识蒸馏器MKD模块。先验知识探索模块可以通过编码先验知识,从语料库中检索到的先验医疗影像报告和先验医学知识来减少文本生成的偏差。后验知识探索模块可以实现对当前影像的标签进行分类,确定大致的异常区域,然后再针对这个区域进行识别分析。先验和后验知识在经过多领域知识蒸馏模块的综合过滤后,得到最终的报告。
随着基于深度学习的医疗影像报告生成研究的深入,报告的生成越来越通顺规范,但是在几个评价指标上还是远远差于传统的image caption。这说明生成的报告虽然通顺规范,但还存在许多不足,也会造成很多漏诊、误诊的情况发生。医疗影像的特征提取相对于传统的RGB图像是较为困难的,传统的RGB图像是有显著的特征和事物,而医疗影像的特征差异很小,对模型来说是个考验。传统的image caption生成的句子较为简单,只需要描述图片,而医疗影像报告是需要专业术语进行分析报告,要有很强的逻辑性,在报告生成的过程中不仅仅要描述图像信息,还要分析具体的诊断,这也是医疗影像报告生成研究的一个难点。
参考文献:
[1]Vinyals O,Toshev A,Bengio S,et al.Show and tell:A neural imagecaption generator[C]//Proceedings of the IEEE conference on computer visionand pattern recognition.2015:3156-3164.
[2]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Advances in neural information processing systems.2017:5998-6008.
[3]Feng Y,Ma L,Liu W,et al.Unsupervised image captioning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition.2019:4125-4134.
[4]Cornia M,Stefanini M,Baraldi L,et al.Meshed-memory transformer forimage captioning[C]//Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition.2020:10578-10587.
[5]Kisilev P,Walach E,Barkan E,et al.From medical image to automaticmedical report generation[J].IBM Journal of Research and Development,2015,59(2/3):2:1-2:7.
[6]Kisilev P,Sason E,Barkan E,et al.Medical image captioning:Learningto describe medical image findings using multi-task-loss CNN[J].Deep Learningfor Precision Medicine,Riva del Garda,Italy,2016.
[7]Shin H C,Roberts K,Lu L,et al.Learning to read chest x-rays:Recurrent neural cascade model for automated image annotation[C]//Proceedingsof the IEEE conference on computer vision and pattern recognition.2016:2497-2506.
[8]Xue Y,Xu T,Long L R,et al.Multimodal recurrent model withattention for automated radiology report generation[C]//InternationalConference on Medical Image Computing and Computer-AssistedIntervention.Springer,Cham,2018:457-466.
[9]Jing B,Xie P,Xing E.On the Automatic Generation of Medical ImagingReports[J].arXiv:1711.08195.
[10]Chen Z,Song Y,Chang T H,et al.Generating Radiology Reports viaMemory-driven Transformer[C]//Proceedings of the 2020Conference on EmpiricalMethods in Natural Language Processing(EMNLP).2020.
[11]Liu F,Wu X,Ge S,et al.Exploring and Distilling Posterior andPrior Knowledge for Radiology Report Generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2021:13753-13762.
[12]Pavlopoulos J,Kougia V,Androutsopoulos I.A survey on biomedicalimage captioning[C]//Proceedings of the Second Workshop on Shortcomings inVision and Language.2019:26-36.
[13]Li CY,Liang X,Hu Z,Xing EP.Hybrid Retrieval-Generation ReinforcedAgent for Medical Image Report Generation[J].arXiv:1805.08298.
[14]Irvin J,Rajpurkar P,Ko M,et al.CheXpert:A Large Chest RadiographDataset with Uncertainty Labels and Expert Comparison[C]//AAAI Conference onArtificial Intelligence,2019.
[15]Li M,Wang F,X Chang,et al.Auxiliary Signal-Guided KnowledgeEncoder-Decoder for Medical Report Generation[J].arXiv:2006.03744.
[16]Subramanian S,Wang L L,Bogin B,et al.MedICaT:A Dataset of MedicalImages,Captions,and Textual References[J].arXiv:2010.06000.
[17]Wang F,X Liang,Xu L,et al.Unifying Relational Sentence Generationand Retrieval for Medical Image Report Composition[J].IEEE Transactions onCybernetics,2020.
[18]Huang J H,Wu T W,Worring M.Contextualized keyword representationsfor multi-modal retinal image captioning[C]//International Conference onMultimedia Retrieval,2021:242-250.
[19]Li S,Sui X,Luo X,et al.Medical Image Segmentation using Squeeze-and-Expansion Transformers[C]//International Joint Conference on ArtificialIntelligence,2021.
[20]Moon J H,Lee H,Shin W,et al.Multi-modal Understanding andGeneration for Medical Images and Text via Vision-Language Pre-Training.arXiv:2105.11333.
发明内容
本发明的目的是提供一种基于深度学习的医疗影像报告自动生成方法,以实现生成的诊断报告更加专业、准确的目的。
为实现上述目的,本发明采用的技术方案为:
一种基于深度学习的医疗影像报告自动生成方法,包括如下步骤:
步骤1,准备数据集并对数据集进行预处理;
步骤2,通过Attention模型进行医疗影像细粒度特征提取;
步骤3,通过图像处理(Encoder)模块,使用图文对应的方式进行训练,采用关键词和图像特征进行对应,改进transformer模块,来提高机器对图像特征识别的准确性;
步骤4,通过Decoder模块生成报告段落。
所述步骤1中,数据集为医疗影像数据集,数据集中包括医疗影像和对应的诊断报告,通过数据预处理,将诊断报告进行分词,并与医疗影像相对应存入json文件中,并使用Resnet101提取图片特征。
所述步骤1中,医疗影像数据集包括IU-Xray数据集、ROCO数据集、MIMIC-CXR数据集。IU-Xray数据集包含3955份报告和7470张影像;ROCO数据集包含超过81000张影像和报告;MIMIC-CXR这个数据集包含65739名患者的377110张胸部X光影像,共227835项影像检查。
所述步骤2中,首先使用Resnet抽取特征,再把这些特征输入到Attention模型中进行预训练,经过处理得到更加细粒度的特征输入模型进行训练。
所述步骤2中,Attention模型的整体结构如下:
input→Resnet→SAT模型→Attention矩阵→细粒度特征
其中,input为医疗影像图片;Resnet是深度残差网络,使用Resnet101提取医疗影像图片的基本特征;
Attention模型采用SAT(Show,Attend and Tell)模型,在传统的encoder-decoder框架中结合了注意力机制,注意力机制的作用是关注不同的图像区域,对不同的区域给出不同的权重,通过训练得到Attention矩阵,然后与特征相乘得到细粒度特征。
所述步骤3中,图像处理(Encoder)模块的整体结构如下:
input→图像处理模块→Encoder output
其中,input为细粒度特征和文本关键词信息;标准的transformer编码器模块(encoder layer)处理的是单一的图像特征输入,本发明的图像处理模块是在transformerencoder layer进行改进,让注意力同时关注到图片特征和文本关键词特征,使得细粒度特征和文本关键词相对应;Encoder output是得到的视觉和语义相结合的上下文向量context。
所述步骤4中,Decoder模块中采用两个LSTM模块和一个Attention模块,第一个LSTM模块判断是否继续生成句子,第二个LSTM模块进行句子的生成,Attention模块进行辅助生成。
所述步骤4中,Decoder模块的整体结构如下:
input→LSTM1→Attention→LSTM2→Decoder output
其中,input是图像处理(Encoder)模块的输出,它是一个上下文向量;LSTM1有两个作用:第一个作用是处理上下文向量输入到Attention模块,第二个作用是控制段落生成的结束,如果它发送的是Finish信号,LSTM2就停止生成句子;Attention模块的作用是接收LSTM1处理后的上下文向量,生成注意力矩阵,使得每句话每个词直接的联系更加紧密;LSTM2通过一个词一个词的方式生成一句话,通过循环得到完整的诊断报告。
本发明采用以上技术方案与现有技术相比,具有以下有益效果:
(1)本发明提取了细粒度的医疗影像特征。通过实验发现使用Resnet提取特征,特征十分相似,模型学习不到东西。所以本发明使用Attention模型进行预训练,提取细粒度的特征,使得模型能够学习到更多更有用的特征;
(2)本发明采用了医疗影像特征和文本关键词相对应的方法进行训练。传统的训练方法只是采用图像特征进行训练,模型只能学习到浅显的信息,并不能生成专业的医疗诊断。本发明使用影像特征和关键词共同训练,让模型能够学到专业知识,为后面报告生成做好准备;
(3)本发明采用了两个LSTM和一个Attention模块进行报告段落的生成。两个LSTM模块解决了段落生成的问题,Attention模块解决了段落生成超长距离依赖的问题,使得生成的报告更加完整、专业和准确。
具体实施方式:
下面对本发明做更进一步的解释。
本发明的一种基于深度学习的医疗影像报告自动生成方法,包括如下步骤:
步骤1,准备数据集并对数据集进行预处理:通过论文阅读和文献查找获取了3个可用数据集:IU-Xray、ROCO、MIMIC-CXR。IU-Xray数据集包含3955份报告和7470张影像,其中每名患者一般有两张胸部X光影像,分为正面和侧面;ROCO数据集包含超过81000张影像和报告,ROCO数据集不是单一部位的医疗影像,它包含了脑部、胸部、手部等不同部位的CT、X光影像;MIMIC-CXR这个数据集包含65739名患者的377110张胸部X光影像,共227835项影像检查。其中ROCO数据集给出了官方的划分,IU-Xray和MIMIC-CXR数据集的划分按照其他论文中的划分进行处理。
首先将数据集按照条件划分成训练集、验证集和测试集;其次将医疗影像赋予图像id后和报告一一对应;然后使用分词器punkt将报告进行分词,并与报告、影像一同存入json文件中,并使用Resnet101提取图片特征。
步骤2,基于SAT的医疗影像细粒度特征提取。细粒度特征提取模型的整体结构如下:
input→Resnet→SAT模型→Attention矩阵→细粒度特征
其中,input为医疗影像图片;Resnet是训练好的深度残差网络。
首先使用Resnet101提取基本的医疗影像特征,得到一系列的特征向量ai
ai={a1,...,aL},ai∈RD
其中L是向量的个数,L=H*W,H表示特征图的高度,W表示特征图的宽度,D是提取的特征图的维度,每个向量都对应医疗影像的一个区域。
然后将这些特征向量输入SAT模型中进行预训练。本发明主要使用SAT模型的Encoder部分,通过Encoder部分的Attention模块得到需要的Attention矩阵。Attention模块的作用就是生成一组权重矩阵,用αt={αt0,...,αti,...,αtL}进行表示,其中αt就是权重矩阵,ti表示在t时刻ai对应的权重,计算过程如下:
eti=fatt(ai,ht-1)
Figure BDA0003456098790000061
其中ht-1为t-1时刻decoder模块的隐含向量,fatt是一层神经网络。
本发明采用的是Soft Attention机制,即将各区域ai和它在t时刻对应的权重αti作加权求和,得到上下文向量context vector:
Figure BDA0003456098790000062
最后再将得到的这组上下文向量context vector和后面提取到的特征相乘,就可以得到所需要的细粒度的特征。
步骤3,在图像处理(Encoder)模块,使用一种图文对应的方式进行训练,采用关键词和图像特征进行对应,改进transformer的注意力模块,使它能够同时注意图像特征和关键词特征,并将两个注意力矩阵进行融合,来提高机器对图像特征识别的准确性。Encoder模块的整体结构如下:
input→图像处理模块→Encoder output
其中,input为细粒度特征和文本关键词信息;标准的transformer编码器模块(encoder layer)处理的是单一的图像特征输入,本发明的图像处理模块是在transformerencoder layer进行改进,让注意力同时关注到图片特征和文本关键词特征,使得细粒度特征和文本关键词相对应;Encoder output为视觉和语义相结合的上下文向量context。
将处理得到的细粒度特征和相应的关键词特征输入transformer的注意力模块,使用单层的前馈网络来分别计算视觉注意力权重矩阵αv,n和语义注意力权重矩阵αa,m,计算过程如下:
Figure BDA0003456098790000073
Figure BDA0003456098790000074
其中,Wv,Wv,h
Figure BDA0003456098790000075
是视觉注意网络的参数矩阵;Wa,Wa,h
Figure BDA0003456098790000076
是语义注意网络的参数矩阵;h是隐藏状态。
该步骤采用的也是Soft Attention机制,即将各区域特征向量和它在某一时刻对应的权重作加权求和,得到上下文向量context vector,所以视觉上下文向量和语义上下文向量的计算过程如下:
Figure BDA0003456098790000071
Figure BDA0003456098790000072
最后把视觉上下文向量和语义上下文向量链接为[vatt;aatt],再用一个全连接层FC将这两个注意力矩阵进行整合,得到最终的上下文向量context vector:
c=FC[vatt;aatt]
通过处理以后,图像处理(Encoder)模块最终得到上下文向量c,这个上下文向量包含了视觉特征和语义特征,最后将上下文向量c输入Decoder模块进行报告生成。
步骤4,通过Decoder模块进行报告段落的生成。Decoder模块采用两个LSTM模块,第一个LSTM模块判断是否继续生成句子,第二个LSTM模块进行句子的生成。由于段落的生成是超长距离依赖问题,只使用LSTM效果不佳,所以再引入了一个Attention模块进行辅助生成。
Decoder模块的整体结构如下:
input→LSTM1→Attention→LSTM2→Decoder output
其中,input是Encoder模块的输出,它是一个上下文向量。LSTM1有两个作用:第一个作用是处理上下文向量输入到Attention模块;第二个作用是控制段落生成的结束,如果它发送的是Finish信号,LSTM2就停止生成句子。Attention模块的作用是接收LSTM1处理后的上下文向量,生成注意力矩阵,使得每句话每个词直接的联系更加紧密。LSTM2通过一个词一个词的方式生成一句话,通过循环得到完整的诊断报告。
首先input经过LSTM1,LSTM1的主要作用是判断是否继续生成句子,应用了一个深度输出层来控制句子的生成。将s-1时刻的隐藏状态hs-1和s时刻的隐藏状态hs作为输入,计算过程如下:
p(Finish|hs-1,hs)∝exp{Wfinishtanh(Wfinish,s-1hs-1+Wfinish,shs)}
其中Wfinish,Wfinish,s-1,Wfinish,s是参数矩阵,hs-1是s-1时刻的隐藏状态,hs是s时刻的隐藏状态。
如果p(Finish|hs-1,hs)大于设定的阈值,则表示停止生成句子,LSTM2接收到信号后,停止产生单词,报告生成结束。
将LSTM1产生的p(Finish|hs-1,hs)还有相应的输入送入Attention模块,Attention模块对p(Finish|hs-1,hs)不做处理,Attention模块对相应的上下文向量进行处理,使其能够关注到更远的信息,然后输入到LSTM2模块进行句子生成。
首先使用Encoder模块得到的觉和语义相结合的上下文向量和该时刻的隐藏状态来得到一个向量t:
t=tanh(Wt,hh+Wt,cc)
其中Wt,h,Wt,c是权重矩阵,h是隐藏状态,c是Encoder模块得到的视觉和语义相结合的上下文向量。
LSTM2使用特殊的开始标志START和向量t作为输入,用单词的隐藏状态hword来预测单词的分布:
p(word|hword)∝exp(Wouthword)
其中Wout是参数矩阵,hword是单词的隐藏状态。
LSTM2每次生成一个单词,然后将这些单词进行拼接就形成了一句话,再把每句话进行拼接,得到最终的诊断报告。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种基于深度学习的医疗影像报告自动生成方法,其特征在于:包括如下步骤:
步骤1,准备数据集并对数据集进行预处理;
步骤2,通过Attention模型进行医疗影像细粒度特征提取;
步骤3,通过图像处理模块,使用图文对应的方式进行训练,采用关键词和图像特征进行对应,改进transformer模块,来提高机器对图像特征识别的准确性;
步骤4,通过Decoder模块生成报告段落。
2.根据权利要求1所述的基于深度学习的医疗影像报告自动生成方法,其特征在于:所述步骤1中,数据集为医疗影像数据集,数据集中包括医疗影像和对应的诊断报告,通过数据预处理,将诊断报告进行分词,并与医疗影像相对应存入json文件中,并使用Resnet101提取图片特征。
3.根据权利要求2所述的基于深度学习的医疗影像报告自动生成方法,其特征在于:所述步骤1中,医疗影像数据集包括IU-Xray数据集、ROCO数据集、MIMIC-CXR数据集。
4.根据权利要求1所述的基于深度学习的医疗影像报告自动生成方法,其特征在于:所述步骤2中,首先使用Resnet抽取特征,再把这些特征输入到Attention模型中进行预训练,经过处理得到更加细粒度的特征输入模型进行训练。
5.根据权利要求1或4所述的基于深度学习的医疗影像报告自动生成方法,其特征在于:所述步骤2中,Attention模型的整体结构如下:
input→Resnet→SAT模型→Attention矩阵→细粒度特征
其中,input为医疗影像图片;Resnet是深度残差网络,使用Resnet101提取医疗影像图片的基本特征。
6.根据权利要求1所述的基于深度学习的医疗影像报告自动生成方法,其特征在于:所述步骤3中,图像处理模块的整体结构如下:
input→图像处理模块→Encoder output
其中,input为细粒度特征和文本关键词信息;Encoder output是得到的视觉和语义相结合的上下文向量context。
7.根据权利要求1所述的基于深度学习的医疗影像报告自动生成方法,其特征在于:所述步骤4中,Decoder模块中采用两个LSTM模块和一个Attention模块,第一个LSTM模块判断是否继续生成句子,第二个LSTM模块进行句子的生成,Attention模块进行辅助生成。
8.根据权利要求1或7所述的基于深度学习的医疗影像报告自动生成方法,其特征在于:所述步骤4中,Decoder模块的整体结构如下:
input→LSTM1→Attention→LSTM2→Decoder output
其中,input是图像处理模块的输出,它是一个上下文向量;LSTM1有两个作用:第一个作用是处理上下文向量输入到Attention模块,第二个作用是控制段落生成的结束,如果它发送的是Finish信号,LSTM2就停止生成句子;Attention模块的作用是接收LSTM1处理后的上下文向量,生成注意力矩阵,使得每句话每个词直接的联系更加紧密;LSTM2通过一个词一个词的方式生成一句话,通过循环得到完整的诊断报告。
CN202210004588.2A 2022-01-05 2022-01-05 一种基于深度学习的医疗影像报告自动生成方法 Pending CN114496151A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210004588.2A CN114496151A (zh) 2022-01-05 2022-01-05 一种基于深度学习的医疗影像报告自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210004588.2A CN114496151A (zh) 2022-01-05 2022-01-05 一种基于深度学习的医疗影像报告自动生成方法

Publications (1)

Publication Number Publication Date
CN114496151A true CN114496151A (zh) 2022-05-13

Family

ID=81510726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210004588.2A Pending CN114496151A (zh) 2022-01-05 2022-01-05 一种基于深度学习的医疗影像报告自动生成方法

Country Status (1)

Country Link
CN (1) CN114496151A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882978A (zh) * 2022-07-12 2022-08-09 紫东信息科技(苏州)有限公司 引入图片翻译信息的胃部图像处理方法及系统
WO2024098387A1 (zh) * 2022-11-11 2024-05-16 京东方科技集团股份有限公司 医疗数据处理、医疗数据分析方法、电子设备以及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882978A (zh) * 2022-07-12 2022-08-09 紫东信息科技(苏州)有限公司 引入图片翻译信息的胃部图像处理方法及系统
WO2024098387A1 (zh) * 2022-11-11 2024-05-16 京东方科技集团股份有限公司 医疗数据处理、医疗数据分析方法、电子设备以及介质

Similar Documents

Publication Publication Date Title
Liu et al. Auto-encoding knowledge graph for unsupervised medical report generation
Lin et al. Pmc-clip: Contrastive language-image pre-training using biomedical documents
Lovelace et al. Learning to generate clinically coherent chest X-ray reports
Huang et al. Multi-attention and incorporating background information model for chest x-ray image report generation
CN114496151A (zh) 一种基于深度学习的医疗影像报告自动生成方法
Park et al. Medical image captioning model to convey more details: Methodological comparison of feature difference generation
Yuan et al. Large scale sign language interpretation
CN115205880A (zh) 一种医学影像报告生成方法及装置
Hou et al. Automatic report generation for chest X-ray images via adversarial reinforcement learning
CN113627564A (zh) 基于深度学习的ct医学影像处理模型训练方法及诊疗系统
Alsharid et al. Gaze-assisted automatic captioning of fetal ultrasound videos using three-way multi-modal deep neural networks
Pan et al. Muvam: A multi-view attention-based model for medical visual question answering
Karam et al. A progressive and cross-domain deep transfer learning framework for wrist fracture detection
Pelka et al. Branding-fusion of meta data and musculoskeletal radiographs for multi-modal diagnostic recognition
Gu et al. Automatic generation of pulmonary radiology reports with semantic tags
Wang et al. Tmrgm: A template-based multi-attention model for x-ray imaging report generation
Pelka et al. Variations on branding with text occurrence for optimized body parts classification
Yu et al. Clinically coherent radiology report generation with imbalanced chest x-rays
Pan et al. Chest radiology report generation based on cross-modal multi-scale feature fusion
Yang et al. Unsupervised domain adaptation learning for hierarchical infant pose recognition with synthetic data
Kaliosis et al. A Data-Driven Guided Decoding Mechanism for Diagnostic Captioning
Ravinder et al. Automated medical image captioning with soft attention‐based LSTM model utilizing YOLOv4 algorithm
Zhang et al. Hierarchical medical image report adversarial generation with hybrid discriminator
Hou et al. Radiology Report Generation via Visual Recalibration and Context Gating-Aware
Liu et al. Cross-Modal Self-Supervised Vision Language Pre-training with Multiple Objectives for Medical Visual Question Answering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination