CN108376558B

CN108376558B - 一种多模态核磁共振影像病历报告自动生成方法

Info

Publication number: CN108376558B
Application number: CN201810069685.3A
Authority: CN
Inventors: 熊贇; 陆周涛; 朱扬勇
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2018-01-24
Filing date: 2018-01-24
Publication date: 2021-08-20
Anticipated expiration: 2038-01-24
Also published as: CN108376558A

Abstract

本发明属于医疗数据分析与智能处理技术领域，具体是一种多模态核磁共振影像病历报告自动生成方法。本发明采用深度学习模型，其中，在使用卷积神经网络提取影像特征的基础上引入注意力矩阵，通过点乘运算给不同位置的特征赋予不同的权重，得到不同注意力下的影像特征；接着使用一个长短期记忆循环神经网络，根据不同注意力下的影像特征生成病历报告中每个句子的主题向量；再使用另一个长短期记忆循环神经网络，根据句子的主题向量生成每一个词；然后将这些词连接起来得到最后的病历报告。本发明在没有病历模版的情况下自动生成医学影像的病历中的描述文本，对缓解放射科医生的工作以及搭建智能化的计算机辅助诊断系统有着深远的意义。

Description

一种多模态核磁共振影像病历报告自动生成方法

技术领域

本发明属于医疗数据分析与智能处理技术领域，具体涉及为核磁共振影像自动生成自然语言形式病历报告的方法。

背景技术

根据2017年中国医学科学院肿瘤医院院长、国家癌症中心主任、中国科学院郝捷院士在放射肿瘤学学术年会上就《中国肿瘤的现状和趋势》的发言，可以发现，我国现在的肿瘤死亡率高于全球平均水平的17％，其原因包括缺乏有效的肿瘤筛查机制、缺乏高效且均质化的肿瘤诊疗体系，阻碍了患者的早期诊断以及有效的后期治疗。精准医疗以及基于计算机和大数据的医疗影像辅助诊断系统发挥着重要的作用。为了解决医学影像自动化诊断的问题，本发明通过收集影像及其诊断报告数据，并使用先进的大数据和深度学习的技术，让计算机学习放射科专家的影像诊断技术来自动撰写最终的病历报告。与人工撰写相比，这种方法能够更加稳定且高效地完成影像的自动诊断；同时通过将该病例报告自动生成系统应用于基层医院，可以从一定程度上解决诊疗技术的均质化问题。

本发明针对的影像检查方式是核磁共振成像技术。核磁共振是磁矩不为零的原子核，在外磁场作用下自旋能级发生塞曼分裂，共振吸收某一定频率的射频辐射的物理过程。与电子计算断层扫描技术(CT)技术相比，这种技术更加健康，因此也越来越成为常用的成像检查方式。本发明需要收集患者脑部的Flair，T1，T2和T2ce四种模态的核磁共振影像，并根据这些影像数据自动生成病例报告。

通过对四个模态的影像特征的分析，能发现有意义的模式，指导计算机自动生成报告，包括信号的特点、组织结构的情况以及初步诊断结果。传统的方法，通过影像特征分析得到病历属性的分类情况，需要针对每一个属性使用单独模型进行运算，而且得到的结果不是可读的文本，缺乏相关性排序。因此，需要有一个能够端到端地解决影像诊断病历报告的生成的技术，并就不同的影像对报告进行相应的组织，从而使得影像辅助诊断系统更加智能，更加稳定。

本发明针对多模态的核磁共振影像数据，提出一种基于深度学习的影像报告自动生成的方法。首先，将四种模态的影像按照预定义的方式分成不同的小块，使用U-Net卷积神经网络自动提取影像特征；接着将赋予了不同注意力的影像特征输入到一个长短期记忆网络中得到病例报告中每个句子的主题向量；最后根据这个主题向量使用第二个长短期记忆网络生成完整的句子。将这些句子组合起来就得到了初步的病历报告结果。本发明方法通过深度学习的技术，在没有病历模版的情况下自动生成医学影像的病历报告，对缓解放射科医生的工作以及搭建智能化的计算机辅助诊断系统有着深远的意义。

发明内容

本发明的目的在于提供一种根据多模态核磁共振影像自动生成自然语言形式病历报告的方法。

本发明方法通过结合卷积神经网络提取医学影像特征，以及循环神经网络生成文本序列，在没有病历模版的情况下自动生成医学影像的病历中的描述文本，优点在于能够自动提取影像特征并生成自然语言形式的病历报告，不需要人工干预。

本发明提供的根据多模态核磁共振影像自动生成自然语言形式病历报告的方法，其核心是能够通过自动提取多模态医学影像中不同位置的特征来指导涉及多个主题的病历报告的生成。为此，本发明中的深度学习模型，在使用卷积神经网络提取影像特征的基础上引入了注意力矩阵，通过点乘运算给不同位置的特征赋予不同的权重，得到不同注意力下的影像特征。接着使用一个长短期记忆循环神经网络，根据不同注意力下的影像特征来生成病历报告中每个句子的主题向量；再使用另一个长短期记忆循环神经网络，根据句子的主题向量来生成每一个词。将这些词连接起来就得到最后的病历报告。本发明方法通过结合卷积神经网络提取医学影像特征，以及循环神经网络生成文本序列，在没有病历模版的情况下自动生成医学影像的病历中的描述文本，对缓解放射科医生的工作以及搭建智能化的计算机辅助诊断系统有着深远的意义。

本发明提供的多模态核磁共振影像病历报告自动生成方法，是基于深度神经网络完成的，具体步骤为：

(1)影像预处理：由于核磁共振影像的偏差场扭曲问题，首先使用N4ITK方法(N.J.Tustison et al.,“N4ITK:Improved n3bias correction,”IEEE Trans.Med.Imag.,vol.29,no.6,pp.1310–1320,Jun.2010.)来进行矫正。其次，由于在不同患者或者不同时间点上得到的核磁共振影像无法保证同一模态在相同的组织上有着相同的亮度分布，还采用了Nyul(L.G.Nyúl,J.K.Udupa,and X.Zhang,“New variants of a method of MRI scalestandardization,”IEEE Trans.Med.Imag.,vol.19,no.2,pp.143– 150,Feb.2000.)等人提出的亮度均一化方法进行处理。

(2)深度神经网络的配置：神经网络模型包括提取影像特征的卷积神经网络、用于生成每个句子主题向量的长短期记忆网络以及用于生成完整句子的长短期记忆网络：

(2.0)卷积神经网络提取影像特征：首先将每一张图像分成不同的小块，即影像可以表示为

使用U-Net结构(Ronneberger,Olaf,Philipp Fischer,and ThomasBrox."U-net:Convolutional networks for biomedical image segmentation." InInternational Conference on Medical Image Computing and Computer-Assisted In-tervention,pp.234-241.Springer,Cham,2015)对每个小块进行病灶分割任务，并以网络最后一个3×3卷积层的输出作为这个小块的特征。由此得到影像对应的特征为

(2.1)使用注意力机制：注意力应与影像的特征以及之前已经描述过的主题有关，因此有了注意力的影像特征可以表示为

其中

表示生成前一个主题向量时的隐藏状态。计算有注意力的影像特征按如下步骤进行：

(2.11)获得注意力矩阵：

其中：

以保证在所有位置出的注意力系数的总和为1；

(2.12)通过加和操作得到赋予了注意力的影像特征：

(2.2)使用长短期记忆网络生成主题序列：每一个时间步s，通过步骤(2.1)所述方法得到影像特征，作为该时刻的长短期网络的输入，得到输出的隐藏状态

则该时刻对应的主题向量为

在计算主题向量的同时，还需要计算停止的概率：

当该估计值超过一定的阈值时，停止产生句子；

(2.3)使用长短期记忆网络生成完整的句子：使用主题向量和特殊的start标记作为网络初始两个时间步的输入，在之后的时间步中，以前一个时间步的隐藏状态作为输入(J.Krause,J.Johnson,R.Krishna,and L.Fei-Fei.A hierarchical approach forgenerating descriptive image paragraphs.In The IEEE Conference on ComputerVision and Pattern Recognition(CVPR),July 2017)。在每一个时间步上通过：

得到用来预测该位置处的词向量(这里使用One-Hot编码的方式编码词向量)，即可得到每一个词语。

(3)初始化模型的参数：

(3.1)在U-Net卷积神经网络中需要初始化每个卷积层的权重和偏置；

(3.2)在计算添加了注意力的影像特征时，需要初始化W_att，W_v，W_h；

(3.3)生成主题向量的长短期记忆网络中，需要初始化长短期记忆网络中输入门、遗忘门和输出门对应的权重参数，以及生成主题向量时权重W_t，sent和W_t，ctx，判断是否停止需要的权重W_STOP，W_STOP，s-1和W_STOP，s；

(3.4)生成完整句子的长短期记忆网络中，相应地输入门、遗忘门和输出门的权重参数，以及转换为词向量时的W_out参数。

(4)迭代优化参数：通过随机梯度下降算法，对网络参数进行优化。

步骤(4)中，所述对网络参数进行优化，具体流程为：

(4.0)首先使用完整的U-Net卷积网络进行影像分割的训练。对每一个输入的影像区域 I_n，计算得到预测的分割结果，并与实际的分割结果比较得到误差E。计算误差E相对每个卷积操作权重的梯度值，并用该梯度值乘上学习率(模型超参)作为参数的更新值。按上述过程迭代直至误差变化小于一定的值；

(4.1)使用上述训练好的模型，去掉最后一层计算分割结果的卷积层。将计算得到的初步影像特征按(2)中所述的方法，经过注意力矩阵和两个长短期记忆网络得到预测的词向量。模型的误差包括分割任务的误差，主题生成的长短期记忆网络中判断停止的概率误差以及与目标的词向量(这里使用One-Hot编码的方式表示词向量)之间的误差。按下式：

计算最终的误差E。再分别计算误差与W_v， W_att,W,W_h,W_t,sent，W_t,ctx，W_STOP,W_STOP,s-1,W_STOP,S,W_out，以及长短期记忆网络中与其他门结构(输入门、遗忘门和输出门)相关参数的梯度，使用对应的学习率来控制参数的更新值。通过若干次迭代，直到误差变化小于一定阈值，停止训练。这里，W_att为注意力矩阵的系数；W_v和W_h分别为注意力机制中视觉信息和语义信息的权重；W_t，sent和W_t，ctx为生成主题向量时对应长短期记忆网络隐状态和上下文信息的系数，W_STOP,W_STOP,s-1,W_STOP,S分别为用于计算是否停止产生句子时的系数，W_out为第二个长短期记忆网络的隐层状态转为词向量时的系数。

本发明方法通过结合卷积神经网络提取医学影像特征，以及循环神经网络生成文本序列，在没有病历模版的情况下自动生成医学影像的病历中的描述文本，对缓解放射科医生的工作以及搭建智能化的计算机辅助诊断系统有着深远的意义。

附图说明

图1为本发明所提出的方法模型结构图。其中，“病历文本”示例为左侧丘脑、大脑脚及脑干大片不规则异常信号，边界尚清，范围约39*38*32mm，T1WI flair为高低混杂信号，高信号为主，T2WI为高信号，T1WI病灶内部呈中等信号，外份呈低信号，增强后病灶不均匀明显强化，实性部分明显不均匀强化，囊性部分无强化。左侧脑室、三脑室受压。脑中线结构向右移位约10mm。鞍区结构未见特殊。颅底结构、信号无病理性变化。左侧丘脑、左侧大脑脚及脑干左份囊实性占位，考虑MT，高级别胶质瘤可能。大脑廉下疝形成。

图2为影像数据示例。其中，(a)Flair模态，(b)T1模态，(c)T1ce模态，(d)T2 模态。

图3为病灶分割结果示例。其中，(a)Flair模态分割结果，(b)T1模态分割结果，(c)T1ce模态分割结果，(d)T2模态分割结果。

具体实施方式

下面展示该方法的具体实施方式：

(1)数据预处理

(1.1)影像数据：使用N4ITK和Nyul两种方法对影像的亮度进行调整，得到如图1所示的结果；将影像分成44*44*20的若干相邻区域，对于每个区域提取132*132*108的小块，即在三个方向上增加44的填充(对于原影像边界外的区域用0填充)；对影像分割结果的ground truth按44*44*20的区域进行分割。(注：为了增加训练集大小，可以使 44*44*20的区域存在重叠)

(1.2)文本数据：1)将文本中重复的空格和标点符号去除；2)将文本以句号为标志，处理为以句为单位的样本。3)使用FoolNLTK对文本进行分词，并使用gensim得到词典和词向量模型(设定向量的维度为512)。例如['颅底','结构','、','信号','无病','理性','变化']，‘形态’依次可以转成如下向量的形式：

(2)初始化模型的参数：

(2.1)在U-Net卷积神经网络中使用Xavier的方法初始化每个卷积层的权重和偏置；

(2.2)在计算添加了注意力的影像特征时，需要初始化W_att，W_v，W_h；

(2.3)生成主题向量的长短期记忆网络中，需要初始化长短期记忆网络中输入门、遗忘门和输出门对应的权重参数，以及生成主题向量时权重W_t，sent和W_t，ctx，判断是否停止需要的权重W_STOP，W_STOP，s-1和W_STOP，s；

(2.4)生成完整句子的长短期记忆网络中，相应地输入门、遗忘门和输出门的权重参数，以及转换为词向量时的W_out参数。

(3)模型训练，迭代优化参数：通过随机梯度下降算法，对网络参数进行优化；具体流程为：

(3.0)UNet卷积网络的训练：首先使用完整的U-Net卷积网络进行影像分割的训练。对每一个输入的影像区域I_n，网络最后一层Convolution和Softmax函数会将提取的特征转化属于某一个类别(具体为影像背景-类0、正常组织-类3、水肿部分-类1、坏死部分-类2 和生长部分-类4)的概率。例如，网络某个输出的概率向量为[0.1657，0.1830，0.1455，0.3676，0.1382]，则网络对该位置处组织的预测为类3正常组织。对于这个样本计算均方误差为：

(0.1657-0)²+(0.1830-0)²+(0.1455-0)²+(0.3676-1)²+(0.1382-0)²＝0.50114474

使用该误差计算参数的梯度，乘上对应的学习率(初始化为0.03，每个30个迭代乘0.1)。按上述过程迭代直至误差变化小于一定的值。

(3.1)获得影像的特征：使用上述训练好的模型，提取网络最后两层(Convolution和 Softmax)得到图像的特征(R^{64×44×44×20}，其中64是每个位置的特征向量)。对于一个 240×240×155的影像，使用预处理部分介绍的方法可以得到288个patch。因此这个影像对应的特征为288×64×44×44×20。

(3.2)添加注意力：由于需要和第一个长短期记忆网络结合，因此需要先初始化第一个长短期记忆网络，具体为初始化第一个时间步的隐藏状态(R^512×1)使用一个 64×44×44×20×512的矩阵将前一步提取的每个区域的图像特征转化为和长短期记忆网络输入维度一致的向量。继而经过一个全联接层和Softmax函数得到对应这个区域的注意力矩阵(R^{64×44×44×20})。使用这个注意力矩阵点乘影像特征的矩阵，并对所有的小块求和，得到具有注意力的矩阵。

(3.3)生成主题向量：对上一步得到的矩阵，使用512×64×44×44×20得到维度为512 的向量，作为第一个时间步的输入状态。每一个时间步将得到维度为512的输出向量，结合该时间步对应的影像输入经过全联接和tanh之后得到最终的主题向量(R^512×1)。注意，前一个时间步的输出也将作为注意力机制的输入，更新之后的影像特征作为下一个时间步的输入。其次，使用相邻两个时间步的主题向量经过另一个全链接和tanh激活层的结构得到是否停止产生句子的概率预测。这里将阈值设为0.5，如果概率小于0.5则停止生成，否则继续生成下一个值。将病历文本最多句子数量设为6个，得到一个6维的向量，计算其与实际文本的平方误差。如果预测值为[0.3254，0.1263，0.3318，0.9163，0.7134，0.6178]，对应的实际样本为[0，0，0，0，1，1]，则对应的误差为：

(0.3254-0)²+(0.1263-0)²+(0.3318-0)²+(0.9163-0)²+(0.7134-1)²+ (0.6178-1)²＝1.29975018

(3.4)生成每个词：将上一步得到的主题向量(R^512×1)作为第二个长短期记忆网络第一个时间步的输入，每个时间步的输出设为512维，与该语料中的词进行距离的比较，来获得对该位置处的词的预测并将距离差作为该网络的误差。上述过程中的三个误差部分(卷积网络和两个长短期记忆网络)赋予不同的权重，并进行多任务的训练。将分割部分误差的权重设为0.3，主题停止预测误差的权重设为0.3，生成词的误差对应的权重设为0.4，作为多任务的误差。

(3.5)通过将词模型生成的词的预测用句号拼接，可以得到类似如下结果的病历文本：右侧额叶大片不规则异常信号，边界尚清，范围约62*72*59mm，T2WI flair病灶为稍高信号，周围白质片状高信号，T2WI病灶内部呈稍低信号，边缘呈稍高信号，周围白质片状稍高信号，T1WI病灶内部呈稍低信号，边缘呈稍高信号，周围白质片状稍低信号，增强后病灶不均匀明显强化。胼胝体、侧脑室前脚受压。中线结构左移约16mm范围。脑室系统扩大。脑池及脑沟形态、大小、信号未见异常。鞍区结构未见特殊。颅底结构、信号无病理性变化。右侧额叶跨中线囊实性占位，考虑MT，高级别胶质瘤可能。脑萎缩。

通过本发明方法，使用卷积神经网络自动提取多模态影像的特征，并结合注意力机制，使用长短期记忆网络来生成主题向量；将主题向量输入到另一个长短期记忆网络生成完整句子，最后得到一份自然语言形式的病历报告。相比于传统使用分类的方法得到不同的属性取值有着较大的突破；并且该方法通过学习优质的影像报告将为搭建智能化的影像诊断辅助系统，甚至解决诊疗技术非均质性问题提供有效的途径。