CN112614561A

CN112614561A - 一种基于层级自注意力序列编码的脑ct医学报告生成方法

Info

Publication number: CN112614561A
Application number: CN202011549376.XA
Authority: CN
Inventors: 冀俊忠; 胡启鹏; 张晓丹; 刘颖; 王筝
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-04-06

Abstract

本发明公开了一种基于层级自注意力序列编码的医学报告生成方法，步骤(1)获取脑CT图像以及对应的医学报告数据并预处理；步骤(2)构建特征提取器；步骤(3)构建序列处理器，经过序列处理器之后，得到一个包含各个相邻断层块信息的图像特征编码V_NSA以及基于整个病例的三维脑CT图像特征编码V_SA；步骤(4)构建解码器；步骤(5)模型训练。深度学习在智能医疗的应用发展迅速，针对肺部的医学报告自动生成技术较为成熟，但针对脑CT的医学报告自动生成的研究与发明空缺。本方法搭建的模型实现了三维脑CT数据的编码，将这种编码与图像描述领域中的语言模型相结合，实现了CT影像的医学报告自动生成。

Description

一种基于层级自注意力序列编码的脑CT医学报告生成方法

技术领域

本发明涉及计算机视觉和自然语言处理两个领域，针对医学领域中报告自动生成任务，设计了一种基于层级自注意力序列编码的医学报告生成方法。

背景技术

医疗数据中有90％来自于医疗影像，与之对应的医学报告是具有专业医学知识和经验的放射科医生根据影像书写而成，是主治医生诊断疾病及明确治疗方案的关键依据。然而，放射科医生一直以来都面临着巨大的挑战：知识门槛高、培养周期长、任务繁重、漏诊率上升，而且医学影像数据还在逐年增长，放射科医生的增长速度和工作效率不足以应对这样的数据增长趋势。这意味着放射科医生在未来处理影像数据的压力会越来越大，甚至远远超过负荷。医学影像报告自动生成研究是解决目前面临问题的重要途径，辅助医生进行自动阅片的人工智能技术具有缓解医生的工作压力、降低漏诊率、节约学习和诊断时间等优势，对于病灶发现、手术方案规划与临床治疗都有着重要的医学价值。

脑CT(Computed Tomography)是一种检查方便，迅速安全，无痛苦，无创伤的检查方法，它能清楚的显示颅脑不同横断面的解剖关系和具体的脑组织结构，因而大大提高了病变的检出率和诊断的准确性，是脑血管疾病中常用的影像诊断方法。脑CT影像医学报告自动生成对脑血管疾病的诊断与治疗具有重要的临床意义。

近几年，由于计算机硬件计算能力的提高，数据量的爆发式增长，深度神经网络相关技术得到了发展，在计算机视觉、自然语言处理等研究领域表现出巨大的潜力。图像描述是计算机视觉和自然语言处理的一个交叉领域，是视觉到语言问题研究的基础。从计算机技术的角度看，医学报告的自动生成是图像描述在医学领域的应用研究。脑CT影像的独特性也给视觉语义匹配带来了新的挑战：经由断面扫描获得的影像层数多，层关系密切；三维空间中病灶稀疏，冗余信息多。

发明内容

深度学习在智能医疗的应用发展迅速，针对肺部疾病的医学报告自动生成技术较为成熟，但针对脑CT的医学报告自动生成的研究与发明空缺。深度学习中与之相关的图像描述领域的技术手段是该发明的基础技术手段，但脑CT影像为断层影像的序列组合，具有三维数据特性，常用的图像描述模型并不能完成三维数据的编码。近年来自注意力和长短时记忆网络(Long Short-Term Memory，LSTM)表现出良好的序列数据处理能力。根据脑CT影像的数据特性，本发明提出了一种基于层级自注意力序列编码的方法，有效地提取三维脑CT影像的空间序列特征，将这种序列编码的特征与图像描述的语言模型相结合实现了初步的针对脑CT影像的医学报告自动生成。基于层级自注意力序列编码的医学报告生成方法主要由编码器和解码器两部分组成，其中编码器部分由特征提取器和序列处理器组成，解码器由语言模型组成。

本发明采用的技术方案为一种基于层级自注意力序列编码的医学报告生成方法，该方法包括如下步骤：

步骤(1)获取脑CT图像以及对应的医学报告数据并预处理：

步骤(1.1)获取脑CT数据，包含图像数据I及其对应的报告文本数据

步骤(1.2)对脑CT数据中的图像数据I进行预处理。

步骤(1.3)对脑CT数据中的报告文本数据

进行预处理。

步骤(2)构建特征提取器，对特征提取网络进行预训练，完成脑CT图像数据I的编码，得到图像特征F：

步骤(2.1)采用深度卷积神经网络或目标检测模型构建特征提取器。

步骤(2.2)对构建好的特征提取器进行预训练。

步骤(2.3)将脑CT数据中的图像数据I输入到特征提取器中，完成脑CT图像数据的分类或目标检测任务，使用特征提取器倒数第二层神经网络中的特征表示作为图像编码，最终得到编码后的图像特征F。

步骤(3)构建序列处理器，序列处理器是一个层级的自注意力序列编码模型，包括处理相邻断层信息的NSA模块和处理全部断层信息的SA模块。经过序列处理器之后，得到一个包含各个相邻断层块信息的图像特征编码V_NSA以及基于整个病例的三维脑CT图像特征编码V_SA：

步骤(3.1)采用一种基于自注意力机制和LSTM的序列编码模型。

步骤(3.2)将脑CT数据中的图像特征F输入到序列处理器中处理相邻断层信息的NSA模块，得到包含相邻断层块信息的图像特征V_NSA。

步骤(3.3)将相邻断层块信息的图像特征V_NSA输入到序列处理器中处理全部断层信息的SA模块，最终得到基于整个病例的三维脑CT图像特征编码V_SA。

步骤(4)构建解码器，对三维脑CT图像特征V_SA进行解码。解码器是一种包含注意力模型的循环神经网络，包括基于邻域自注意力的NSA-ATT网络和LSTM模型。解码器的输入为三维脑CT图像特征编码V_SA以及相邻断层块的图像特征V_NSA，输出为报告文本数据Y,Y＝{w₀,w₁,…,w_T},w_n表示组成报告的单词，n∈[0,T]，T为报告文本数据的最长时刻，即报告的最大长度：

步骤(4.1)解码器中注意力模型NSA-ATT的构建。解码器中注意力模型NSA-ATT的输入包括t时刻的词编码x_t(可由t-1时刻的解码器最终的输出w_t-1线性变换得到，初始为零向量)，相邻断层块信息的图像特征V_NSA，在t时刻的输出为包含邻域自注意力信息的词编码向量

步骤(4.2)构建解码器中的LSTM模型。解码器中的LSTM模型的输入包括三维脑CT图像特征编码V_SA和注意力模型NSA-ATT的在t时刻的输出

在t时刻的输出为LSTM在t时刻的隐藏层状态h_t。

步骤(4.3)解码器输出。对解码器中的LSTM在t时刻的输出h_t进行线性变换与Softmax函数分类，得到最终整个解码器在t时刻的输出w_t，不同时刻的输出组成最后产生的报告文本数据Y。

步骤(5)模型训练。基于产生的报告文本数据Y与标准的报告文本数据

计算交叉熵损失或者强化学习梯度损失，使用随机梯度下降算法对模型进行优化，得到最终模型。

请注意将上述本方法实施的基本流程梳理下，各个步骤之间是前后衔接的，比如步骤1的输出是步骤2的输入，它们前后之间是一个技术整体，请注意将上下文进行下修订。

附图说明

图1：数据预处理与特征提取。

图2：序列处理器。

图3：解码器。

图4：医学报告生成实例。

具体实施方式

下面以北京大学第三医学提供的567例数据为例，说明本发明的具体实施步骤：

步骤(1)获取脑CT图像以及对应的医学报告数据并预处理：

该数据集共包含17257张脑CT影像以及对应567例医学报告文本信息，其中训练集和验证集大小分别为517和50。

步骤(1.2)对脑CT数据中的图像数据I进行预处理。原脑CT医学影像为dicom格式，如图1中的去噪并转化所示我们使用医生常用的三种尺度的观察视图做为RGB三通道彩色图像的三个通道值，并去掉图像的边界噪声CT值-2000，最终得到PNG格式的脑CT图像数据。

步骤(1.3)对脑CT数据中的报告文本数据

进行预处理。去掉报告文本数据中的冗余标点符号；专业名词说法进行统一；使用逗号对不同句子进行分割；提取出每一个句子的关键词作为本发明中所使用的先验知识信息；使用加入了先验知识词典的节霸分词工具对报告文本数据进行分词，得到医学报告用语词典。最终报告文本词典包含279个单词。

步骤(2.1)采用深度卷积神经网络或目标检测模型构建特征提取器。构建特征提取器，可以采用深度卷积神经网络，例如ResNet-101，也可以采用目标检测模型，例如RCNN、Faster RCNN等。

步骤(2.2)对构建好的特征提取器进行预训练。采用ImageNet、MS COCO等数据集，对特征提取器进行预训练，使其具有一定的分类或者目标检测能力。

步骤(2.3)把567例共计17257张脑CT图像数据I输入到特征提取器中，对图像数据进行分类或目标检测任务，如图1所示我们使用ResNet-101中倒数第二层神经网络中的特征作为图像编码，编码后的图像特征记为F。公式表达为：

F＝Encoder(I)

步骤(3.1)采用一种基于自注意力机制和LSTM的序列编码模型。考虑到脑CT数据在空间上具有一定的序列关系。而自注意力机制常作为一个特征提取器在机器翻译、视频描述等领域中展现出很好的序列编码能力。常用的注意力模型的输入通常包含两部分：查询(query)特征与关键词(key)特征，表达式如下：

α_i＝Softmax(e_i)

a_t＝∑_i(α_iv_i)

为t时刻注意力模型的输入，作为注意力模型的查询特征，R表示实数，m_q表示查询特征向量的维度；

为第i个视觉特征；V＝{v₁,v₂,…,v_n}，

作为注意力模型的关键词特征，m_v表示视觉特征向量的维度，n表示视觉特征的数量。φ为相似度函数，用于计算查询特征

与V中每项视觉特征的相似性，可基于神经网络实现。e_i表示查询特征与关键词特征的相似度。α_i表示经过Softmax函数计算后视觉特征的权重信息。

为t时刻输出的视觉注意力特征。在自注意力机制中

与v_i全部由特征向量自身F＝{f₁,f₂,…,f_i}经过线性变化得到：

v_i＝Linear(f_i)

在进行机器翻译过程中，自注意力机制是对每一个词得到新的考虑了上下文信息的表征。使用自注意力机制进行脑CT序列编码，使得在对每一个断层图像进行编码时可以引入相邻的其他断层信息。

使用自注意力机制我们得到新的考虑了上下文信息的脑CT影像表征，对于每一个断层块来说它仅包含了前后断层影像的信息，但是没有考虑到前后断层影像的先后空间序列关系，在长短时记忆网络LSTM中每一时刻的输入都与前面时刻所输入的信息具有前后的依赖关系，因此对于断层块之前的先后空间序列关系我们使用长短时记忆网络对其这种空间序列关系进行建模。

步骤(3.2)将脑CT数据中的图像特征F输入到序列处理器中处理相邻断层信息的NSA模块，得到包含相邻断层块信息的图像特征V_NSA。如图2所示首先通过NSA网络得到考虑前后相邻断层信息的加权表示，随后通过NSA_LSTM网络对相邻断层块进行序列化建模得到包含断层块信息的图像特征V_NSA(NSA Feature)。

考虑到病灶的稀疏性，本发明对自注意力机制进行修改，在对单张病灶图像进行编码时我们仅仅引入前后相邻的有限张断层信息，如图2所示该发明使用了前后三张断层图像作为一个断层块，实现基于邻域的自注意力机制(Neighboring Self Attention，NSA)，我们以NSA作为断层图像的基本编码单元，通过层级注意力的方式扩大断层信息的引入量，进而达到对一整例脑CT图像进行编码的目的。

步骤(3.3)将相邻断层块信息的图像特征V_NSA输入到序列处理器中处理全部断层信息的SA模块，最终得到基于整个病例的三维脑CT图像特征编码V_SA。如图2所示首先通过SA网络计算出包含全部断层影像的加权表示，然后通过SA_LSTM网络得到整个病例的三维脑CT图像特征编码V_SA(SA Feature)。

步骤(4.1)解码器中注意力模型NSA-ATT的构建。如图3所示，解码器中注意力模型NSA-ATT的输入包括t时刻的词编码x_t(可由t-1时刻的解码器最终的输出w_t-1线性变换得到，初始为零向量)，相邻断层块信息的图像特征V_NSA，在t时刻的输出为包含邻域自注意力信息的词编码向量

词编码x_t，包含邻域自注意力信息的词编码向量

公式如下所示：

x_t＝W_xww_t-1

其中x_t是对t-1时刻输出w_t-1的编码，a_t是视觉和语义相匹配的注意力信息，concatenate表示特征向量的拼接。

在t时刻的输出为LSTM在t时刻的隐藏层状态h_t。

如图3所示，在构建解码器中的LSTM模型时使用序列处理器得到的两种特征V_SA(SAFeature)和V_NSA(NSA Feature)，首先使用三维脑CT图像特征V_SA用于语言生成模型的初始化，计算得到第一个LSTM所需要的隐藏层状态向量，从而进行第一个单词预测。在LSTM预测每一个单词的过程中我们使用断层块的图像特征V_NSA作为LSTM模型中的视觉指导信息，使得在生成医学报告的单词时关注到与之相关的断层块信息。

下述公式为相关的LSTM公式，本发明在基础的LSTM模型上添加了视觉和语义相匹配的注意力信息a_t，使得在生成最终医学报告的每一个单词时关注脑CT影像的不同断层块信息，在t时刻的注意力信息a_t分别用于记忆细胞的输入门、遗忘门、更新单元、输出门中：

i_t＝σ(W_ixx_t+W_ihh_t-1+W_iaa_t)

f_t＝σ(W_fxx_t+W_fhh_t-1+W_faa_t)

o_t＝σ(W_oxx_t+W_ohh_t-1+W_oaa_t)

其中i_t、f_t与o_t分别表示输入门向量、遗忘门向量和输出门向量，σ表示Sigmoid激活函数，tanh表示tanh激活函数，

表示矩阵对应元素相乘，

表示更新单元的候选值，c_t-1表示上一时刻的更新单元，c_t表示t时刻的更新单元，h_t-1表示上一时刻隐藏层的输出值，h_t表示t时刻隐藏层的输出值，所有的W_**表示线性变换的参数。

步骤(5)模型训练：整个方法由图1、2、3三部分共同构成所示。可以基于交叉熵损失或者强化学习进行优化，本发明使用随机梯度下降算法，例如ADAM优化器对整个方法进行优化，训练参数，得到最终的模型。

为了验证本方法的可行性，我们进行了各个模块的消融对比实验。并通过BLEU,METEOR,ROUGE-L和CIDEr四个评价指标对结果进行了评价，这四种评价指标已经广泛应用于图像描述、自然语言处理等领域中对生成句子的定量评价中。图4展示了其中的一些样例，包括图像、对应的医学报告文本信息以及该方法生成的最终医学报告文本信息。

首先对方法进行定量分析。表1为各个模块的消融对比实验，表1的第一行使用CNN进行单张脑CT影像编码后直接使用LSTM进行空间序列的编码以及语言模型的构建，由于医学报告组成的特殊性，其最终的语言评价指标值与普通的图像描述评价指标值表现出明显的差异性，尤其是Cider指标较高。表1的第二行在引入了步骤(1.3)中的医学名词先验知识之后，最终生成的报告语言质量有明显提升，几乎所有的评分指标都被刷新。表1的第三行语言模型在引入基于单张脑CT影像的注意力机制之后，即步骤(4.1)、(4.2)引入的用于指导生成最终的报告语句的视觉特征为单张脑CT影像的图像特征，语言评价指标有所下降，但是最终生成的报告表现出多样性，报告所用词汇变多，句子长度开始有所改变，引入注意力机制之后的语言模型对脑CT数据具有更优的表达能力。表1的第四行在使用NSA模块对脑CT图像进行编码，并在解码过程中使用断层块特征作为注意力指导信息，即步骤(4.1)、(4.2)引入的用于指导生成最终的报告语句的视觉特征为V_NSA时，报告的多样性更为明显，在最终生成医学报告中几乎不存在相同长度的报告结果，说明NSA模块对于医学报告生成的质量具有较大的提升。表1的第五行将NSA与SA相结合，即使用层级的自注意力序列编码模型之后，发现最终生成的医学报告不仅在语言评价指标上获得了大幅度的性能提升，并且在生成的报告语句描述质量上也获得了很好表述能力。实验结果表明，在针对脑出血病人该模型实现了初步的脑CT医学报告生成并且获得了较好的实验性能。

表1各个模块的消融对比实验

然后是对模型描述能力的定性分析，图四为该方法生成的医学报告实例，可以看出在语言描述能力上，预测的医学报告语句与原报告相比具有较高的契合度，在描述关键词相同的情况下，描述语句与原报告语句几乎一模一样。总体而言，无论是语言性能的定量评价，还是定性分析中展示的医学报告实例，本发明提出的医学报告自动生成框架取得了较好的效果，在未来的实际应用中具有良好的应用前景。

Claims

1.一种基于层级自注意力序列编码的医学报告生成方法，其特征在于：该方法包括如下步骤：

步骤(1)获取脑CT图像以及对应的医学报告数据并预处理；

步骤(2)构建特征提取器，对特征提取网络进行预训练，完成脑CT图像数据I的编码，得到图像特征F；

步骤(3)构建序列处理器，序列处理器是一个层级的自注意力序列编码模型，包括处理相邻断层信息的NSA模块和处理全部断层信息的SA模块；经过序列处理器之后，得到一个包含各个相邻断层块信息的图像特征编码V_NSA以及基于整个病例的三维脑CT图像特征编码V_SA；

步骤(4)构建解码器，对三维脑CT图像特征V_SA进行解码；解码器是一种包含注意力模型的循环神经网络，包括基于邻域自注意力的NSA-ATT网络和LSTM模型；解码器的输入为三维脑CT图像特征编码V_SA以及相邻断层块的图像特征V_NSA，输出为报告文本数据Y,Y＝{w₀,w₁,…,w_T},w_n表示组成报告的单词，n∈[0,T]，T为报告文本数据的最长时刻，即报告的最大长度；

步骤(5)模型训练；基于产生的报告文本数据Y与标准的报告文本数据

2.根据权利要求1所述的一种基于时空记忆注意力的图像描述方法，其特征在于：步骤(1)中，步骤(1.1)获取脑CT数据，包含图像数据I及其对应的报告文本数据

步骤(1.2)对脑CT数据中的图像数据I进行预处理；

步骤(1.3)对脑CT数据中的报告文本数据

进行预处理。

3.根据权利要求1所述的一种基于时空记忆注意力的图像描述方法，其特征在于：步骤(2)中，步骤(2.1)采用深度卷积神经网络或目标检测模型构建特征提取器；

步骤(2.2)对构建好的特征提取器进行预训练；

4.根据权利要求1所述的一种基于时空记忆注意力的图像描述方法，其特征在于：步骤(3)中，步骤(3.1)采用一种基于自注意力机制和LSTM的序列编码模型；

步骤(3.2)将脑CT数据中的图像特征F输入到序列处理器中处理相邻断层信息的NSA模块，得到包含相邻断层块信息的图像特征V_NSA；

步骤(3.3)将相邻断层块信息的图像特征V_NSA输入到序列处理器中处理全部断层信息的SA模块，最终得到基于整个病例的三维脑CT图像特征编码V_SA；

5.根据权利要求1所述的一种基于时空记忆注意力的图像描述方法，其特征在于：步骤(4)中，步骤(4.1)解码器中注意力模型NSA-ATT的构建；解码器中注意力模型NSA-ATT的输入包括t时刻的词编码x_t；t时刻的词编码x_t由t-1时刻的解码器最终的输出w_t-1线性变换得到，初始为零向量；相邻断层块信息的图像特征V_NSA，在t时刻的输出为包含邻域自注意力信息的词编码向量

步骤(4.2)构建解码器中的LSTM模型；解码器中的LSTM模型的输入包括三维脑CT图像特征编码V_SA和注意力模型NSA-ATT的在t时刻的输出

在t时刻的输出为LSTM在t时刻的隐藏层状态h_t；

步骤(4.3)解码器输出；对解码器中的LSTM在t时刻的输出h_t进行线性变换与Softmax函数分类，得到最终整个解码器在t时刻的输出w_t，不同时刻的输出组成最后产生的报告文本数据Y。