CN114496151A

CN114496151A - 一种基于深度学习的医疗影像报告自动生成方法

Info

Publication number: CN114496151A
Application number: CN202210004588.2A
Authority: CN
Inventors: 张立言; 陈志贤; 袁野
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2022-05-13

Abstract

本发明公开了一种基于深度学习的医疗影像报告自动生成方法，包括如下步骤：步骤1，准备数据集并对数据集进行预处理；步骤2，通过Attention模型进行医疗影像细粒度特征提取；步骤3，通过图像处理模块，使用图文对应的方式进行训练，采用关键词和图像特征进行对应，改进transformer模块，来提高机器对图像特征识别的准确性；步骤4，通过Decoder模块生成报告段落。本发明通过提取细粒度的医疗影像特征，改善训练模型，使得生成的诊断报告更加专业、准确。

Description

一种基于深度学习的医疗影像报告自动生成方法

技术领域

本发明属于计算机视觉和自然语言处理交叉领域，特别涉及一种医疗影像报告自动生成的方法。

背景技术

随着医疗技术的迅猛发展，医疗影像技术不断进步和完善，形成了包含X射线、CT、PET-CT、核磁共振等的医疗影像体系。医疗影像技术为医生诊断疾病提供极大的帮助，成为医生诊断疾病的重要依据。医疗影像报告的生成能够为医生的诊断提供帮助，减少医生的工作量和漏诊误诊的概率。目前关于医疗影像报告的数据集有ROCO、IU-Xray、MIMIC_CXR、CX-CHR等。

2016年Shin H.C.等人[7]把encoder-decoder模型运用到医疗影像报告的生成中。编码器encoder部分采用了GoogleNet卷积网络模型进行图像分析，解码器decoder部分使用了LSTM和GRU进行报告的生成。但是生成的效果不是很理想，并不能生成一份完整的报告，只能生成几个医疗术语单词。

2018年Baoyu Jing等人[9]提出了Co-Attention机制，引入了Hierarchial LSTM结构。文章构建了一个多任务的学习框架，它们共同进行标签的预测和诊断报告的生成。他们提出了共同注意力机制来关注异常信息，同时考虑了图像特征和语义特征，然后使用多层LSTM模型进行段落的生成，提高预测的准确性。

2020年Zhihong Chen等人[10]利用医疗影像报告的特点，在Transformer的decoder部分加入了记忆模块，这样可以让模型更好地理解影像报告中的局部结构。这个模型的encoder和decoder均采用了transformer模型，在decoder的transformer中引入了Relation Memory模块，用Memory来控制transformer输出特征的均值和方差，提升生成的医疗影像报告的质量。

2021年Fenglin Liu等人[11]提出了后验-先验知识探索及蒸馏(PPKED)框架，结合先验和后验知识来生成报告。这个模型主要包含了三个模块：后验知识探索PoKE模块、先验知识探索PrKE模块和多领域知识蒸馏器MKD模块。先验知识探索模块可以通过编码先验知识，从语料库中检索到的先验医疗影像报告和先验医学知识来减少文本生成的偏差。后验知识探索模块可以实现对当前影像的标签进行分类，确定大致的异常区域，然后再针对这个区域进行识别分析。先验和后验知识在经过多领域知识蒸馏模块的综合过滤后，得到最终的报告。

随着基于深度学习的医疗影像报告生成研究的深入，报告的生成越来越通顺规范，但是在几个评价指标上还是远远差于传统的image caption。这说明生成的报告虽然通顺规范，但还存在许多不足，也会造成很多漏诊、误诊的情况发生。医疗影像的特征提取相对于传统的RGB图像是较为困难的，传统的RGB图像是有显著的特征和事物，而医疗影像的特征差异很小，对模型来说是个考验。传统的image caption生成的句子较为简单，只需要描述图片，而医疗影像报告是需要专业术语进行分析报告，要有很强的逻辑性，在报告生成的过程中不仅仅要描述图像信息，还要分析具体的诊断，这也是医疗影像报告生成研究的一个难点。

参考文献：

[1]Vinyals O,Toshev A,Bengio S,et al.Show and tell:A neural imagecaption generator[C]//Proceedings of the IEEE conference on computer visionand pattern recognition.2015:3156-3164.

[2]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Advances in neural information processing systems.2017:5998-6008.

[3]Feng Y,Ma L,Liu W,et al.Unsupervised image captioning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition.2019:4125-4134.

[4]Cornia M,Stefanini M,Baraldi L,et al.Meshed-memory transformer forimage captioning[C]//Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition.2020:10578-10587.

[5]Kisilev P,Walach E,Barkan E,et al.From medical image to automaticmedical report generation[J].IBM Journal of Research and Development,2015,59(2/3):2:1-2:7.

[6]Kisilev P,Sason E,Barkan E,et al.Medical image captioning:Learningto describe medical image findings using multi-task-loss CNN[J].Deep Learningfor Precision Medicine,Riva del Garda,Italy,2016.

[7]Shin H C,Roberts K,Lu L,et al.Learning to read chest x-rays:Recurrent neural cascade model for automated image annotation[C]//Proceedingsof the IEEE conference on computer vision and pattern recognition.2016:2497-2506.

[8]Xue Y,Xu T,Long L R,et al.Multimodal recurrent model withattention for automated radiology report generation[C]//InternationalConference on Medical Image Computing and Computer-AssistedIntervention.Springer,Cham,2018:457-466.

[9]Jing B,Xie P,Xing E.On the Automatic Generation of Medical ImagingReports[J].arXiv:1711.08195.

[10]Chen Z,Song Y,Chang T H,et al.Generating Radiology Reports viaMemory-driven Transformer[C]//Proceedings of the 2020Conference on EmpiricalMethods in Natural Language Processing(EMNLP).2020.

[11]Liu F,Wu X,Ge S,et al.Exploring and Distilling Posterior andPrior Knowledge for Radiology Report Generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2021:13753-13762.

[12]Pavlopoulos J,Kougia V,Androutsopoulos I.A survey on biomedicalimage captioning[C]//Proceedings of the Second Workshop on Shortcomings inVision and Language.2019:26-36.

[13]Li CY,Liang X,Hu Z,Xing EP.Hybrid Retrieval-Generation ReinforcedAgent for Medical Image Report Generation[J].arXiv:1805.08298.

[14]Irvin J,Rajpurkar P,Ko M,et al.CheXpert:A Large Chest RadiographDataset with Uncertainty Labels and Expert Comparison[C]//AAAI Conference onArtificial Intelligence,2019.

[15]Li M,Wang F,X Chang,et al.Auxiliary Signal-Guided KnowledgeEncoder-Decoder for Medical Report Generation[J].arXiv:2006.03744.

[16]Subramanian S,Wang L L,Bogin B,et al.MedICaT:A Dataset of MedicalImages,Captions,and Textual References[J].arXiv:2010.06000.

[17]Wang F,X Liang,Xu L,et al.Unifying Relational Sentence Generationand Retrieval for Medical Image Report Composition[J].IEEE Transactions onCybernetics,2020.

[18]Huang J H,Wu T W,Worring M.Contextualized keyword representationsfor multi-modal retinal image captioning[C]//International Conference onMultimedia Retrieval,2021:242-250.

[19]Li S,Sui X,Luo X,et al.Medical Image Segmentation using Squeeze-and-Expansion Transformers[C]//International Joint Conference on ArtificialIntelligence,2021.

[20]Moon J H,Lee H,Shin W,et al.Multi-modal Understanding andGeneration for Medical Images and Text via Vision-Language Pre-Training.arXiv:2105.11333.

发明内容

本发明的目的是提供一种基于深度学习的医疗影像报告自动生成方法，以实现生成的诊断报告更加专业、准确的目的。

为实现上述目的，本发明采用的技术方案为：

一种基于深度学习的医疗影像报告自动生成方法，包括如下步骤：

步骤1，准备数据集并对数据集进行预处理；

步骤2，通过Attention模型进行医疗影像细粒度特征提取；

步骤3，通过图像处理(Encoder)模块，使用图文对应的方式进行训练，采用关键词和图像特征进行对应，改进transformer模块，来提高机器对图像特征识别的准确性；

步骤4，通过Decoder模块生成报告段落。

所述步骤1中，数据集为医疗影像数据集，数据集中包括医疗影像和对应的诊断报告，通过数据预处理，将诊断报告进行分词，并与医疗影像相对应存入json文件中，并使用Resnet101提取图片特征。

所述步骤1中，医疗影像数据集包括IU-Xray数据集、ROCO数据集、MIMIC-CXR数据集。IU-Xray数据集包含3955份报告和7470张影像；ROCO数据集包含超过81000张影像和报告；MIMIC-CXR这个数据集包含65739名患者的377110张胸部X光影像，共227835项影像检查。

所述步骤2中，首先使用Resnet抽取特征，再把这些特征输入到Attention模型中进行预训练，经过处理得到更加细粒度的特征输入模型进行训练。

所述步骤2中，Attention模型的整体结构如下：

input→Resnet→SAT模型→Attention矩阵→细粒度特征

其中，input为医疗影像图片；Resnet是深度残差网络，使用Resnet101提取医疗影像图片的基本特征；

Attention模型采用SAT(Show，Attend and Tell)模型，在传统的encoder-decoder框架中结合了注意力机制，注意力机制的作用是关注不同的图像区域，对不同的区域给出不同的权重，通过训练得到Attention矩阵，然后与特征相乘得到细粒度特征。

所述步骤3中，图像处理(Encoder)模块的整体结构如下：

input→图像处理模块→Encoder output

其中，input为细粒度特征和文本关键词信息；标准的transformer编码器模块(encoder layer)处理的是单一的图像特征输入，本发明的图像处理模块是在transformerencoder layer进行改进，让注意力同时关注到图片特征和文本关键词特征，使得细粒度特征和文本关键词相对应；Encoder output是得到的视觉和语义相结合的上下文向量context。

所述步骤4中，Decoder模块中采用两个LSTM模块和一个Attention模块，第一个LSTM模块判断是否继续生成句子，第二个LSTM模块进行句子的生成，Attention模块进行辅助生成。

所述步骤4中，Decoder模块的整体结构如下：

input→LSTM1→Attention→LSTM2→Decoder output

其中，input是图像处理(Encoder)模块的输出，它是一个上下文向量；LSTM1有两个作用：第一个作用是处理上下文向量输入到Attention模块，第二个作用是控制段落生成的结束，如果它发送的是Finish信号，LSTM2就停止生成句子；Attention模块的作用是接收LSTM1处理后的上下文向量，生成注意力矩阵，使得每句话每个词直接的联系更加紧密；LSTM2通过一个词一个词的方式生成一句话，通过循环得到完整的诊断报告。

本发明采用以上技术方案与现有技术相比，具有以下有益效果：

(1)本发明提取了细粒度的医疗影像特征。通过实验发现使用Resnet提取特征，特征十分相似，模型学习不到东西。所以本发明使用Attention模型进行预训练，提取细粒度的特征，使得模型能够学习到更多更有用的特征；

(2)本发明采用了医疗影像特征和文本关键词相对应的方法进行训练。传统的训练方法只是采用图像特征进行训练，模型只能学习到浅显的信息，并不能生成专业的医疗诊断。本发明使用影像特征和关键词共同训练，让模型能够学到专业知识，为后面报告生成做好准备；

(3)本发明采用了两个LSTM和一个Attention模块进行报告段落的生成。两个LSTM模块解决了段落生成的问题，Attention模块解决了段落生成超长距离依赖的问题，使得生成的报告更加完整、专业和准确。

具体实施方式：

下面对本发明做更进一步的解释。

本发明的一种基于深度学习的医疗影像报告自动生成方法，包括如下步骤：

步骤1，准备数据集并对数据集进行预处理：通过论文阅读和文献查找获取了3个可用数据集：IU-Xray、ROCO、MIMIC-CXR。IU-Xray数据集包含3955份报告和7470张影像，其中每名患者一般有两张胸部X光影像，分为正面和侧面；ROCO数据集包含超过81000张影像和报告，ROCO数据集不是单一部位的医疗影像，它包含了脑部、胸部、手部等不同部位的CT、X光影像；MIMIC-CXR这个数据集包含65739名患者的377110张胸部X光影像，共227835项影像检查。其中ROCO数据集给出了官方的划分，IU-Xray和MIMIC-CXR数据集的划分按照其他论文中的划分进行处理。

首先将数据集按照条件划分成训练集、验证集和测试集；其次将医疗影像赋予图像id后和报告一一对应；然后使用分词器punkt将报告进行分词，并与报告、影像一同存入json文件中，并使用Resnet101提取图片特征。

步骤2，基于SAT的医疗影像细粒度特征提取。细粒度特征提取模型的整体结构如下：

input→Resnet→SAT模型→Attention矩阵→细粒度特征

其中，input为医疗影像图片；Resnet是训练好的深度残差网络。

首先使用Resnet101提取基本的医疗影像特征，得到一系列的特征向量a_i：

a_i＝{a₁,...,a_L},a_i∈R^D

其中L是向量的个数，L＝H*W，H表示特征图的高度，W表示特征图的宽度，D是提取的特征图的维度，每个向量都对应医疗影像的一个区域。

然后将这些特征向量输入SAT模型中进行预训练。本发明主要使用SAT模型的Encoder部分，通过Encoder部分的Attention模块得到需要的Attention矩阵。Attention模块的作用就是生成一组权重矩阵，用α_t＝{α_t0,...,α_ti,...,α_tL}进行表示，其中α_t就是权重矩阵，ti表示在t时刻a_i对应的权重，计算过程如下：

e_ti＝f_att(a_i,h_t-1)

其中h_t-1为t-1时刻decoder模块的隐含向量，f_att是一层神经网络。

本发明采用的是Soft Attention机制，即将各区域a_i和它在t时刻对应的权重α_ti作加权求和，得到上下文向量context vector：

最后再将得到的这组上下文向量context vector和后面提取到的特征相乘，就可以得到所需要的细粒度的特征。

步骤3，在图像处理(Encoder)模块，使用一种图文对应的方式进行训练，采用关键词和图像特征进行对应，改进transformer的注意力模块，使它能够同时注意图像特征和关键词特征，并将两个注意力矩阵进行融合，来提高机器对图像特征识别的准确性。Encoder模块的整体结构如下：

input→图像处理模块→Encoder output

其中，input为细粒度特征和文本关键词信息；标准的transformer编码器模块(encoder layer)处理的是单一的图像特征输入，本发明的图像处理模块是在transformerencoder layer进行改进，让注意力同时关注到图片特征和文本关键词特征，使得细粒度特征和文本关键词相对应；Encoder output为视觉和语义相结合的上下文向量context。

将处理得到的细粒度特征和相应的关键词特征输入transformer的注意力模块，使用单层的前馈网络来分别计算视觉注意力权重矩阵α_v,n和语义注意力权重矩阵α_a,m，计算过程如下：

其中，Wv，Wv_,h，

是视觉注意网络的参数矩阵；Wa，Wa_,h，

是语义注意网络的参数矩阵；h是隐藏状态。

该步骤采用的也是Soft Attention机制，即将各区域特征向量和它在某一时刻对应的权重作加权求和，得到上下文向量context vector，所以视觉上下文向量和语义上下文向量的计算过程如下：

最后把视觉上下文向量和语义上下文向量链接为[v_att；a_att]，再用一个全连接层FC将这两个注意力矩阵进行整合，得到最终的上下文向量context vector:

c＝FC[v_att；a_att]

通过处理以后，图像处理(Encoder)模块最终得到上下文向量c，这个上下文向量包含了视觉特征和语义特征，最后将上下文向量c输入Decoder模块进行报告生成。

步骤4，通过Decoder模块进行报告段落的生成。Decoder模块采用两个LSTM模块，第一个LSTM模块判断是否继续生成句子，第二个LSTM模块进行句子的生成。由于段落的生成是超长距离依赖问题，只使用LSTM效果不佳，所以再引入了一个Attention模块进行辅助生成。

Decoder模块的整体结构如下：

input→LSTM1→Attention→LSTM2→Decoder output

其中，input是Encoder模块的输出，它是一个上下文向量。LSTM1有两个作用：第一个作用是处理上下文向量输入到Attention模块；第二个作用是控制段落生成的结束，如果它发送的是Finish信号，LSTM2就停止生成句子。Attention模块的作用是接收LSTM1处理后的上下文向量，生成注意力矩阵，使得每句话每个词直接的联系更加紧密。LSTM2通过一个词一个词的方式生成一句话，通过循环得到完整的诊断报告。

首先input经过LSTM1，LSTM1的主要作用是判断是否继续生成句子，应用了一个深度输出层来控制句子的生成。将s-1时刻的隐藏状态h^s-1和s时刻的隐藏状态h^s作为输入，计算过程如下：

p(Finish|h^s-1,h^s)∝exp{W_finishtanh(W_finish,s-1h^s-1+W_finish,sh^s)}

其中W_finish，W_finish,s-1，W_finish,s是参数矩阵，h^s-1是s-1时刻的隐藏状态，h^s是s时刻的隐藏状态。

如果p(Finish|h^s-1,h^s)大于设定的阈值，则表示停止生成句子，LSTM2接收到信号后，停止产生单词，报告生成结束。

将LSTM1产生的p(Finish|h^s-1,h^s)还有相应的输入送入Attention模块，Attention模块对p(Finish|h^s-1,h^s)不做处理，Attention模块对相应的上下文向量进行处理，使其能够关注到更远的信息，然后输入到LSTM2模块进行句子生成。

首先使用Encoder模块得到的觉和语义相结合的上下文向量和该时刻的隐藏状态来得到一个向量t：

t＝tanh(W_t,hh+W_t,cc)

其中W_t,h，W_t,c是权重矩阵，h是隐藏状态，c是Encoder模块得到的视觉和语义相结合的上下文向量。

LSTM2使用特殊的开始标志START和向量t作为输入，用单词的隐藏状态h_word来预测单词的分布：

p(word|h_word)∝exp(W_outh_word)

其中W_out是参数矩阵，h_word是单词的隐藏状态。

LSTM2每次生成一个单词，然后将这些单词进行拼接就形成了一句话，再把每句话进行拼接，得到最终的诊断报告。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度学习的医疗影像报告自动生成方法，其特征在于：包括如下步骤：

步骤1，准备数据集并对数据集进行预处理；

步骤2，通过Attention模型进行医疗影像细粒度特征提取；

步骤3，通过图像处理模块，使用图文对应的方式进行训练，采用关键词和图像特征进行对应，改进transformer模块，来提高机器对图像特征识别的准确性；

步骤4，通过Decoder模块生成报告段落。

2.根据权利要求1所述的基于深度学习的医疗影像报告自动生成方法，其特征在于：所述步骤1中，数据集为医疗影像数据集，数据集中包括医疗影像和对应的诊断报告，通过数据预处理，将诊断报告进行分词，并与医疗影像相对应存入json文件中，并使用Resnet101提取图片特征。

3.根据权利要求2所述的基于深度学习的医疗影像报告自动生成方法，其特征在于：所述步骤1中，医疗影像数据集包括IU-Xray数据集、ROCO数据集、MIMIC-CXR数据集。

4.根据权利要求1所述的基于深度学习的医疗影像报告自动生成方法，其特征在于：所述步骤2中，首先使用Resnet抽取特征，再把这些特征输入到Attention模型中进行预训练，经过处理得到更加细粒度的特征输入模型进行训练。

5.根据权利要求1或4所述的基于深度学习的医疗影像报告自动生成方法，其特征在于：所述步骤2中，Attention模型的整体结构如下：

input→Resnet→SAT模型→Attention矩阵→细粒度特征

其中，input为医疗影像图片；Resnet是深度残差网络，使用Resnet101提取医疗影像图片的基本特征。

6.根据权利要求1所述的基于深度学习的医疗影像报告自动生成方法，其特征在于：所述步骤3中，图像处理模块的整体结构如下：

input→图像处理模块→Encoder output

其中，input为细粒度特征和文本关键词信息；Encoder output是得到的视觉和语义相结合的上下文向量context。

7.根据权利要求1所述的基于深度学习的医疗影像报告自动生成方法，其特征在于：所述步骤4中，Decoder模块中采用两个LSTM模块和一个Attention模块，第一个LSTM模块判断是否继续生成句子，第二个LSTM模块进行句子的生成，Attention模块进行辅助生成。

8.根据权利要求1或7所述的基于深度学习的医疗影像报告自动生成方法，其特征在于：所述步骤4中，Decoder模块的整体结构如下：

input→LSTM1→Attention→LSTM2→Decoder output

其中，input是图像处理模块的输出，它是一个上下文向量；LSTM1有两个作用：第一个作用是处理上下文向量输入到Attention模块，第二个作用是控制段落生成的结束，如果它发送的是Finish信号，LSTM2就停止生成句子；Attention模块的作用是接收LSTM1处理后的上下文向量，生成注意力矩阵，使得每句话每个词直接的联系更加紧密；LSTM2通过一个词一个词的方式生成一句话，通过循环得到完整的诊断报告。