CN115659991A

CN115659991A - 一种基于共现关系分层注意力的脑ct医学报告自动生成方法

Info

Publication number: CN115659991A
Application number: CN202211401246.0A
Authority: CN
Inventors: 冀俊忠; 豆世鑫; 张晓丹
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2023-01-31

Abstract

本发明公开了一种基于共现关系分层注意力的脑CT医学报告自动生成方法，预处理脑CT数据集并建立词汇表；构建脑CT影像的特征提取器用于提取脑CT影像的视觉特征；构建共现关系语义注意力模块，用于提取脑CT影像中常见医学术语的语义注意力特征，其内部包括词嵌入层及语义注意力机制。构建主题向量引导的视觉注意力模块，该模块中的主题向量融合常见及罕见的医学术语的语义信息，完整表达句子层级的医学术语主题，该医学术语主题则指导视觉注意力机制捕捉重要的病灶区域特征。本方法结合常见医学术语之间的共现关系推测缺失的语义信息，从而提取更加丰富的语义注意力特征，分层协作提升生成的脑CT医学报告的准确性、多样性。

Description

一种基于共现关系分层注意力的脑CT医学报告自动生成方法

技术领域

本发明涉及医学影像，计算机视觉和自然语言处理三个领域，针对脑CT医学报告自动生成这一目标，设计了一种基于共现关系分层注意力的脑CT医学报告自动生成方法。

背景技术

如今医学影像技术在临床诊断过程中扮演非常重要的角色，放射科医生通过分析医学影像来做出临床诊断并书写诊断报告。在人口稠密的国家和地区，放射科医生每天可能需要阅读大量的医学影像，并将其诊断结果写成报告。这个过程占用了他们大部分的精力和时间，严重影响到放射科医生的工作效率。

众多医学影像技术中，颅脑影像(脑CT)用于诊断各种脑血管疾病，如脑出血、脑梗塞、蛛网膜下腔出血、脑内血肿等，快速且准确地确诊疾病对于临床治疗十分重要。因此，辅助医生更高效的发现病灶和书写医学报告具有较高的研究与应用价值，脑CT医学报告的自动生成对于提升医生的阅片效率，辅助医生给出更加完善和准确的临床诊断具有重要的意义。

医学报告生成是近年来医学影像与计算机技术领域的新兴研究方向，其目标是为一组医学影像自动生成连贯且符合书写逻辑的医学报告。目前该领域的大部分研究工作均为针对胸部X光影像的医学报告自动生成方法，关于脑CT影像的医学报告自动生成研究较少。与其他影像数据相比，脑CT影像为序列数据即包含多张连续性图像。脑CT影像具有三维性，病灶具有连续性与稀疏性；报告内容复杂，包含大量的专业医学术语且具有更强的非结构化性。

大多数现有的医学报告自动生成方法均采用自然图像描述领域中的编码器-解码器框架，该框架使用ResNet等卷积神经网络作为编码器提取输入图像的视觉特征，使用RNN、LSTM等循环神经网络作为解码器生成相应的句子。为了进一步挖掘关键的视觉特征，注意力机制被引入到编码器-解码器框架中。注意力机制源于对人脑视觉系统的研究，认知科学研究表明，由于神经系统信息处理的瓶颈，人脑会有选择性地关注所有信息中的重要部分，同时忽略其他无用的信息。目前注意力机制(Attention Mechanism)被广泛应用于许多图像处理相关领域，该注意力机制通过对不同特征分配不同的权重，使得模型可以选择性地关注特征中重要的一部分，同时忽略其他可见的信息。医学报告生成中引入注意力机制可以模仿医生的阅片经验，有重点的关注医学影像的病灶区域信息，从而使生成的医学报告更加准确。

现有的基于注意力机制的医学报告自动生成的方法忽略了脑CT中包含的医学术语之间的语义相关性，比如一些常见医学术语可能同时出现，例如基底节区低密度影常伴随着低密度水肿带出现。脑CT影像中通常包含丰富的医学术语信息，其中一些医学术语可能密切相关，但是已有工作忽略了常见医学术语之间潜在的共现关系依赖，并且缺少对罕见医学术语的关注，例如眼眶凹陷、蛛网膜囊肿等，这严重限制了生成的脑CT医学报告的准确性与多样性。为了解决上述问题，本发明试图通过分析脑CT中常见医学术语之间的共现关系来挖掘潜在的病理信息，提取更加丰富的语义信息，同时关注较罕见的医学术语，结合分层注意力机制捕捉重要的病灶区域特征从而生成准确的脑CT医学报告。

发明内容

目前关于脑CT医学报告自动生成的研究较少。脑CT医学报告生成任务即为一组脑CT影像自动生成其相应的脑CT医学报告。如图1所示，一组脑CT影像由多张切片组成，其中病灶具有连续性与稀疏性；相应的医学报告如图1(a)所示，其内容复杂，由征象描述和诊断结论组成，征象描述详细介绍了脑CT影像中存在的病症，诊断结论则是对异常病症的简要概括。图1(b)则展示了该组脑CT影像对应的多个医学术语。由于脑CT影像中存在丰富的病理信息，为了挖掘医学术语之间的共现关系依赖，鼓励关于罕见医学术语的句子生成，增强视觉语义信息之间的协同作用，本发明试图探索脑CT中常见医学术语之间的共现关系，以挖掘常见医学术语的语义相关性，提取更加丰富的语义信息，同时关注罕见医学术语，提取重要的病灶区域特征，结合视觉、语义分层注意力机制生成准确且多样的脑CT医学报告。

为实现上述目的，本发明提出一种基于共现关系分层注意力的脑CT医学报告自动生成方法，其特征在于：(1)预处理脑CT数据集，得到标准化的三维脑CT影像及其对应的脑CT医学报告文本，建立词汇表；(2)构建脑CT影像的特征提取器用于提取脑CT影像的视觉特征F＝[f₁,f₂,…f_i,…f_N]，其中N代表脑CT影像序列的切片数量，f_i代表第i张脑CT切片的视觉特征；(3)构建共现关系语义注意力模块，该共现关系语义注意力模块用于提取脑CT影像中常见医学术语的语义注意力特征，其内部包括词嵌入层及语义注意力机制。词嵌入层用来将常见医学术语嵌入到语义特征，语义注意力机制则计算各个医学术语对应的权重，来给不同的医学术语语义信息分配不同的关注度，提取重要的语义信息，忽略不相关的医学术语。为了推测潜在的语义信息，丰富语义表达，本发明提出共现关系语义注意力以探索医学术语之间的共现关系，挖掘医学术语之间的语义相关性。主要做法为提取数据集中常见医学术语，经词嵌入层得到医学术语的语义特征，用于语义注意力的计算并得到每个医学术语对应的权重，常见医学术语之间的共现关系矩阵经线性变换嵌入到关系权重，关系权重会与之前计算的每个医学术语对应的权重进行融合来得到一个新的权重。新的权重结合了常见医学术语之间的共现关系，更能表达各个医学术语的重要程度并且对那些潜在的相关的医学术语给予一定的关注，丰富了语义注意力特征的表达，包含了更多的病理信息。(4)构建主题向量引导的视觉注意力模块，该模块中的主题向量融合了常见及罕见的医学术语的语义信息，完整的表达了句子层级的医学术语主题，该医学术语主题则指导视觉注意力机制捕捉重要的病灶区域特征。主要做法为首先整理数据集中罕见医学术语库，通过视觉全局特征来检索相应的罕见医学术语并通过词嵌入的方式得到罕见医学术语主题向量。将常见医学术语的语义注意力特征嵌入到常见医学术语主题向量并与罕见医学术语主题向量进行融合，然后指导视觉注意力机制捕捉重要的病灶区域从而得到视觉注意力特征，其中视觉注意力机制包括一个序列注意力及一个空间注意力，序列注意力用以选择重要的切片序列，空间注意力则选择切片中的病灶区域，两者进行结合来捕捉重要切片中的关键病灶区域特征，进而通过语言生成模型来进行医学报告的生成。本发明实现的具体步骤如下：

步骤(1)对脑CT影像及其对应的医学报告数据集进行预处理：

步骤(1.1)：采集脑CT影像构建切片序列，每一个患者数据包含其通过脑CT影像生成的RGB图像序列I＝{I₁,I₂,…I_i,…I_N}，

与对应的医学报告Y＝[y₁,y₂,…y_i,…y_T]，其中N代表脑CT切片序列的数量，I_i代表第i张切片的RGB图像矩阵，W和H分别代表该图像的宽度和高度，y_i代表报告中的第i个单词，T代表脑CT医学报告中单词的个数。

代表该图像的维度为3×W×H。

步骤(1.2)按7：1：2的比例将所有患者数据划分为训练集、验证集和测试集。其中，训练集用于学习模型的参数；验证集用于确定超参数；测试集用于验证模型性能。

步骤(1.3)数据预处理：对于切片数量不超过24的脑CT影像序列使用插值算法补全，对于切片数量超过24的脑CT影像序列使用均匀采样方法挑选。

步骤(2)构建特征提取器提取脑CT影像的视觉特征图F＝[f₁,f₂,…f_i,…f_N]和全局特征FC＝[fc₁,fc₂,…fc_i,…fc_N]，其中N代表脑CT切片序列的数量，f_i代表第i张脑CT切片的视觉特征图，fc_i代表第i张脑CT切片的全局视觉特征。使用Resnet101网络在脑CT数据集上训练，最后将Resnet101网络的最后一层特征图作为最后的图像视觉特征F，提取图像视觉特征F的计算过程如下：

F，FC＝Resnet101(I)

步骤(3)构建共现关系驱动的语义注意力模块，提取常见医学术语的语义信息，并结合常见医学术语之间的共现关系及语义注意力机制来挖掘医学术语之间的语义相关性，推测缺失的语义信息。其具体过程如下：

步骤(3.1)构建共现关系驱动的语义注意力模块中的语义注意力机制用于提取脑CT影像中对应的常见医学术语的语义特征，该机制首先对m个常见医学术语关键词K＝{k₁,k₂,…k_i,…k_m}进行词嵌入得到常见医学术语的语义特征S，然后结合语义注意力机制，以视觉全局特征引导注意力的计算，从而对不同的医学术语的语义特征赋予不同权重，自动捕捉重要的语义信息。首先通过对常见医学术语语义特征S计算其语义注意力权重α_init，计算过程如下：

S＝Embedding(K)

e＝φ(h^m,FC,S)

α_init＝Softmax(e)

Embedding为语义嵌入层，将常见医学术语嵌入到语义特征S，φ为前馈神经网络，自动学习到其内部三个参数之间的相关性矩阵，h^m为用于编码和记忆已经生成的句子的LSTM^m内部的隐藏层状态，FC为视觉全局特征，S为常见医学术语的语义特征。e为前馈神经网络的输出，α_init为输出的初始语义注意力权重。其中LSTM^m及其隐藏层状态h^m定义如下：

h^m＝LSTM^m(sen_pre)

sen_pre为上一个已经生成的句子。语义注意力损失函数定义如下：

Loss_sem＝BCE(σ(e),label)

其中，BCE代表二元交叉熵损失函数，σ代表sigmoid激活函数，label代表每个样本对应的正确的常见医学术语的标签。得到初始的语义注意力权重α_init之后，为了利用常见医学术语之间存在的共现关系，推测缺失的语义信息，挖掘常见医学术语的语义相关性，增强语义注意力特征的表达，本发明引入常见医学术语之间的共现关系矩阵并嵌入到关系权重，结合初始语义注意力权重与语义特征计算最终的语义注意力特征。

步骤(3.2)构建常见医学术语之间的共现关系矩阵R。根据脑CT数据集，统计脑CT医学报告中常见医学术语的出现频率及医学术语之间的共现频率，进而计算医学术语之间的共现关系值。具体定义如下：

其中，f(a,b)代表a、b两个医学术语同时出现在报告中的频率，f(a)、f(b)分别代表a、b两个医学术语单独出现在报告中的频率。N代表总的样本数量。max代表取最大值，log代表对数函数。

步骤(3.3)将初始的语义注意力权重与关系矩阵相结合作为最终的注意力权重，进而提取更加丰富的语义信息。具体做法为：

(I)将共现关系矩阵嵌入到关系权重α_R：

α_R＝Relu(W_RR)

其中，W_R代表线性嵌入层的参数矩阵，R为静态的共现关系矩阵。Relu代表激活函数。

(II)将初始注意力权重与关系权重结合，得到最终的注意力权重，进而计算最终的语义注意力特征S_att：

S_att＝α_init*α_R*S

其中，α_init为初始注意力权重，α_R代表关系权重。

步骤(4)构建常见罕见主题引导的视觉注意力模块。该模块融合了常见医学术语及罕见医学术语的语义信息作为句子层级的主题向量来指导视觉注意力的计算，以捕捉关键的病灶区域特征。提出分层循环网络作为语言模型以生成脑CT医学报告。具体步骤如下:

步骤(4.1)首先，根据步骤(3)得到的常见医学术语的语义注意力特征S_att得到句子层级的常见医学术语主题向量

其中，W_c,

W_S为前馈神经网络中的可学习参数，

为LSTM^m的隐藏层状态。为了建模罕见医学术语的语义信息，根据医生的临床经验和数据集中的脑CT医学报告，统计了脑CT影像对应的40个罕见医学术语，例如眼眶突出、蝶窦粘膜增厚、脑回变浅等。根据全局视觉特征从罕见医学术语库中检索相应的罕见医学术语，并通过词嵌入的方式得到罕见医学术语的主题向量

具体步骤如下：

其中，W_rare,W_fc,

为前馈神经网络中的可学习参数，rare_index为检索到的罕见医学术语库中对应的下标。Embedding为嵌入层。然后，我们将常见医学术语主题向量与罕见医学术语主题向量进行融合得到最终的句子层级的主题向量来指导视觉注意力机制的计算。

步骤(4.2)首先融合常见医学术语主题向量与罕见医学术语主题向量：

其中W_topic,W_c,W_r为前馈神经网络中的可学习参数。λ_common,λ_rare分别代表常见医学术语主题向量与罕见医学术语主题向量的权重。为了指导检索罕见医学术语的过程，引入罕见医学术语分类损失，其定义如下：

Loss_rare＝CE(rare_index,rare_label)

其中，CE代表交叉熵损失，rare_label为真实标签。在得到句子层级的主题向量Topic_s之后，在句子层级和单词层级分别指导序列注意力及空间注意力的计算，从而得到视觉注意力特征V_att：

V_att＝α^frame*α^spatial*F

其中，Attention^spatial,Attention^frame分别代表空间注意力与序列注意力的计算。序列注意力通过对每个切片分配不同的权重来从切片序列中选取最重要的切片，空间注意力则通过对切片内部的尺度特征分配不同的权重来捕捉重要的病灶区域特征。

分别代表LSTM^word,LSTM^sent的隐藏状态，LSTM^word,LSTM^sent的定义如下：

其中，sen_pre代表上一个生成的句子，[,]代表连接操作，V_att代表每个时间步对应的视觉注意力特征，

分别代表LSTM^sent、LSTM^word在t-1时间步的隐藏状态，x_t代表在每个时间步输入的单词，在训练过程中，其来自真实报告，在测试过程中，其来自上一个时间步生成的单词。通过sen_pre与

LSTM^word,LSTM^sent以一种交互的方式协作生成最终的医学报告。最终在每个时间步预测的单词的概率分布p_t可定义为：

其中，

为线性嵌入层的可学习参数，

为第t时间步LSTM^word的隐藏状态。y_t为预测的单词，p_t为预测的单词对应的概率，最终组成一段脑CT医学报告。通过如下损失函数优化语言模型的训练过程：

最终，总的损失函数定义如下：

Loss＝λ₁*Loss_word+λ₂*Loss_sem+λ₃*Loss_rare

其中，λ₁,λ₂,λ₃分别代表各个Loss的权重，用来平衡各个Loss的量级，以更好的训练模型。

与现有方法相比，本发明具有以下明显的优势和创新：

本发明提出一种基于共现关系分层注意力的脑CT医学报告自动生成方法，所述方法具有以下特点：1)设计了一种共现关系驱动的语义注意力机制(CRSA)以挖掘脑CT影像中常见医学术语的语义信息，并结合常见医学术语之间的共现关系推测缺失的语义信息，从而提取更加丰富的语义注意力特征。2)设计了常见罕见主题引导的视觉注意力机制(CRVA)通过融合常见医学术语及罕见医学术语的主题向量来作为句子层级的主题向量，进而指导视觉注意力机制捕捉关键的病灶区域特征用于脑CT医学报告生成，且通过LSTM^word和LSTM^sent的分层协作提升生成的脑CT医学报告的准确性、多样性。3)本发明首次挖掘脑CT影像中常见医学术语之间的语义相关性，并兼顾罕见医学术语的语义信息，充分的实验证明了本发明所提出的方法的有效性。

附图说明

图1：一组脑CT影像及其对应的医学报告和医学术语的示意图。

图2：一种基于共现关系分层注意力的脑CT医学报告自动生成方法的框架图。

图3：常见医学术语的共现关系矩阵的示意图。

图4：本发明生成的医学报告的展示图。

具体实施方式

本实施例中以合作医院提供的脑CT影像及其对应的医学报告为研究对象，具体说明本方法的实施步骤：

步骤(1)对脑CT影像及其对应的医学报告数据集进行预处理：

步骤(1.1)数据：采集脑CT影像构建切片序列，每一个患者数据包含其通过脑CT影像生成的RGB图像序列I＝{I₁,I₂,…I_i,…I_N}，

与对应的脑CT医学报告Y＝[y₁,y₂,…y_i,…y_T]，其中N代表脑CT切片序列的数量，I_i代表第i张切片的RGB图像矩阵，W和H分别代表该图像的宽度和高度，y_i代表脑CT医学报告中的第i个单词，T代表脑CT医学报告中单词的个数。

代表该图像的维度为3×W×H。

步骤(1.2)按照7：1：2的比例随机将数据集划分为训练集、验证集和测试集三部分，每部分的样本数分别为1436/204/408。

步骤(1.3)数据预处理：对于切片数量不超过24的脑CT影像序列使用插值算法补全，对于切片数量超过24的脑CT影像序列使用均匀采样方法挑选。然后将脑CT影像的宽度、高度统一为512×512，最后对脑CT影像切片序列进行标准化和均一化。

步骤(2)构建特征提取器：首先基于脑CT影像中是否存在出血病灶构建了一个二分类数据集，之后基于该数据集使用预训练过的ResNet101模型对此二分类任务微调，最后将ResNet101网络的最后一层卷积层作为最终的视觉特征图

代表维度，将其平均池化后的特征作为最终的全局视觉特征

其中2048表示通道的个数，24表示脑CT影像切片序列中切片的数量，196表示特征图空间注意力单元的个数。提取特征的公式如下：

F，FC＝Resnet101(I)

步骤(3)构建本发明提出的共现关系驱动的语义注意力模块用于提取常见医学术语的语义信息，并结合常见医学术语之间的共现关系及语义注意力机制来挖掘医学术语之间的语义相关性，推测缺失的语义信息，获得具有丰富语义信息的语义注意力特征。其具体过程如下：

步骤(3.1)构建共现关系驱动的语义注意力模块中的语义注意力机制用于提取脑CT影像中对应的常见医学术语的语义特征，该机制首先对m个常见医学术语关键词K＝{k₁,k₂,…k_i,…k_m}进行词嵌入得到常见医学术语的语义特征S，然后结合语义注意力机制，以视觉全局特征引导注意力的计算，从而对不同的医学术语的语义特征赋予不同权重，自动捕捉重要的语义信息。具体来说，该机制首先通过对常见医学术语的语义特征S计算其语义注意力权重α_init，计算过程如下：

S＝Embedding(K)

e＝φ(h^m,FC,S)

α_init＝Softmax(e)

φ为一个前馈神经网络，可以自动学习到其内部三个参数之间的相关性矩阵，Embedding为语义嵌入层，将常见医学术语嵌入到语义特征S，h^m为用于编码和记忆已经生成的句子的LSTM^m内部的隐藏层状态，FC为视觉全局特征，S为常见医学术语语义特征。e为前馈神经网络的输出，α_init为输出的初始语义注意力权重。其中LSTM^m及其隐藏层状态h^m定义如下：

h^m＝LSTM^m(sen_pre)

sen_pre为上一个已经生成的句子。为了指导初始语义注意力计算过程，本发明设计语义注意力损失函数定义如下：

Loss_sem＝BCE(σ(e),label)

其中，BCE代表二元交叉熵损失函数，σ代表sigmoid激活函数，label代表每个样本对应的正确的常见医学术语的标签。通过上述过程得到初始的语义注意力权重α_init之后，为了利用常见医学术语之间存在的共现关系，推测缺失的语义信息，挖掘常见医学术语的语义相关性，增强语义注意力特征的表达，本发明引入常见医学术语之间的共现关系矩阵并嵌入到关系权重，结合初始语义注意力权重与语义特征计算最终的语义注意力特征。

步骤(3.2)构建常见医学术语之间的共现关系矩阵R。根据脑CT数据集，统计医学报告中常见医学术语的出现频率及医学术语之间的共现频率，进而计算医学术语之间的共现关系值。具体定义如下：

其中，f(a,b)代表a、b两个医学术语同时出现在报告中的频率，f(a)、f(b)分别代表a、b两个医学术语单独出现在报告中的频率。N代表总的样本数量。

(III)将共现关系矩阵嵌入到关系权重α_R：

α_R＝Relu(W_RR)

其中，W_R代表线性嵌入层的参数矩阵，R为静态的共现关系矩阵。

(IV)将初始注意力权重与关系权重结合，得到最终的注意力权重，进而计算最终的语义注意力特征S_att：

S_att＝α_init*α_R*S

步骤(4)构建常见罕见主题引导的视觉注意力模块。该模块融合了常见医学术语及罕见医学术语的语义信息作为句子层级的主题向量来指导视觉注意力的计算，以捕捉关键的病灶区域特征。并结合语言模型用于生成医学报告，由于医学报告的段落较长，仅仅使用传统的单层LSTM不足以生成准确且多样的脑CT医学报告，因此我们提出分层循环网络作为本发明中的语言模型。具体步骤如下:

其中，W_c,

W_S为前馈神经网络中的可学习参数，

为LSTM^m的隐藏层状态。为了建模罕见医学术语的语义信息，本发明根据医生的临床经验和数据集中的医学报告，统计了脑CT影像对应的40个罕见医学术语，例如眼眶突出、蝶窦粘膜增厚、脑回变浅等。然后我们根据全局视觉特征从罕见医学术语库中检索对应的罕见医学术语，并通过词嵌入的方式得到罕见医学术语的主题向量

具体步骤如下：

其中，W_rare,W_fc,

为前馈神经网络中的可学习参数，rare_index为检索到的罕见医学术语库中对应的下标。然后，我们将常见医学术语主题向量与罕见医学术语主题向量进行融合得到最终的句子层级的主题向量来指导视觉注意力机制的计算。

其中W_topic,W_c,W_r为前馈神经网络中的可学习参数。λ_common,λ_rare分别代表常见医学术语主题向量与罕见医学术语主题向量的权重。为了指导检索罕见医学术语的过程，本发明引入罕见医学术语分类损失，其定义如下：

Loss_rare＝CE(rare_index,rare_label)

V_att＝α^frame*^αspatial*F

其中，sen_pre代表上一个生成的句子，[,]代表连接操作，V_att代表每个时间步对应的视觉注意力特征，x_t代表在每个时间步输入的单词，在训练过程中，其来自真实报告，在测试过程中，其来自上一个时间步生成的单词。通过sen_pre与

其中，

为线性嵌入层的可学习参数，

为第t时间步LSTM^word的隐藏状态。y_t为预测的单词，最终组成一段医学报告。通过如下损失函数优化语言模型的训练过程：

步骤(5)定义整体损失函数和脑CT医学报告自动生成网络:

步骤(5.1)定义语言生成模块的损失函数。本发明所述的一种基于共现关系分层注意力的脑CT医学报告自动生成方法是为患者的脑CT影像I＝{I₁,L₂,…I_i,…I_N}生成其对应的脑CT医学报告Y＝{y₁,…,y_T},其中I作为网络训练和测试的输入，医学报告Y作为网络训练的真实标签，网络的输出为预测的报告

其中，y_i、

分别代表一个真实报告和预测报告的第i个单词，T、

分别代表一个真实脑CT医学报告和预测报告中单词的个数。本发明最终的语言生成模块的目标函数为最大化真实报告与预测报告的相似性，计算公式如下：

其中θ^*代表训练后的所有的网络参数，θ代表模型中所有待训练的网络参数。语言生成模块的损失函数使用交叉熵损失，具体定义如下：

其中

代表模型生成的第t个词语的预测概率值。

步骤(5.2)定义本发明所述的一种基于共现关系分层注意力的脑CT医学报告自动生成方法最终的损失函数，包含三个部分：

Loss＝λ₁*Loss_word+λ₂*Loss_sem+λ₃*Loss_rare

最终，在Adam优化器下网络可以自适应的优化真实报告和预测报告的损失值，完成训练后，输入一组脑CT影像，模型可以自动为其生成一段连贯且准确的脑CT医学报告。

为了验证本发明所述方法的有效性，我们在脑CT医学报告数据集上对上述提出的方法进行了实验，并与现有的其他方法进行了充分的对比分析。在具体实施过程中，我们与三个图像描述领域的主流方法CNN-RNN、Soft-ATT以及Up-Down方法进行了对比，同时复现了针对于胸部X光影像医学报告自动生成的两种方法，即将HRNN和MRMA也作为对比方法。此外，我们与脑CT医学报告生成领域唯一的一篇工作WGAM也进行了充分的比较。实验不仅采用针对文本生成等自然语言处理任务中的自动评价指标，包括BLEU、METEOR、ROUGE、CIDEr，这些评价指标通过计算模型生成语句与参考语句之间相似度的高低从而评价模型的有效性，而且提取了n个关键词来作为临床评价指标，用以评估生成的医学报告中关键词的准确率(accuracy)与精确率(precision)、召回率(recall)、f1分数(F1)。

表1本发明所提方法与不同方法的对比实验(％)

表1展示了本发明方法和其他方法在7个语言指标上和4个临床指标上的表现结果的对比。可以看出，早期没有使用注意力机制的基于编码器-解码器框架的方法即CNN-RNN、HRNN的性能明显低于其他使用了注意力机制的方法如Soft-ATT、Up-Down，这说明了注意力机制的引入有利于模型捕捉关键的病灶区域特征。我们的方法的基线为基于编码器-解码器框架的分层循环网络。如表1所示，本方法在所有指标中均达到了良好的性能，尤其CIDEr指标上的提升最为明显，这体现出所提方法在脑CT医学报告自动生成领域的有效性。HRNN和本方法有着相似的语言模型，即都包含了句子层面的循环网络和单词层面的循环网络。相对于HRNN方法，本发明中的方法使用单词LSTM来控制生成句子的个数，增加了单词LSTM和句子LSTM在语言生成过程中的协作。此外，本方法将语义注意力机制与视觉注意力机制以分层的形式结合起来，增强了视觉、语义信息之间的协同作用。MRMA采用了基于注意力机制的多模态递归模型，其表现优于HRNN，但该方法的性能在各个指标上还是不如本方法。

此外，我们还进行了消融实验证明本发明所提方法中两个注意力模块的有效性，一个为共现关系驱动的语义注意力模块(CRSA)，一个为常见罕见主题引导的视觉注意力模块(CRVA)。本方法的Baseline为基于编码器-解码器框架的分层循环网络。

表2本发明所提方法中不同模块的消融实验(％)

如表2所示，在所有指标上，Baseline+CRSA及Baseline+CRVA较Baseline有明显提升且Baseline+CRVA具有更好的性能，这证明了常见及罕见医学术语主题对视觉注意力机制的引导的有效性。我们提出的方法Baseline+CRSA+CRVA，在所有指标上都获得了最优的性能。这表明了挖掘医学术语之间的共现关系帮助模型提取到了更加丰富完整的语义信息。

综上所述，本发明通过对比实验和消融实验，验证了本文提出的方法在脑CT医学报告自动生成任务中的有效性。这是由于CRSA模块挖掘到了常见医学术语之间的语义相关性，能够推测出可能缺失的语义信息，促进模型提取到更加丰富的语义注意力特征，且CRVA模块融合了常见及罕见的医学术语主题向量，引导视觉注意力机制捕捉到了关键且准确的病灶区域特征。另外，语言生成模块中的分层循环网络在生成长段落文本任务中也发挥了其独特的优势。

图4展示了我们提出的方法的定性结果。可以看出，我们的方法不仅能捕捉到完整的常见医学术语的语义信息，还能生成相对罕见的症状描述。然而，已有工作在生成罕见医学术语方面具有较差的性能。如图4中(a)所示，我们的模型完整的预测出了“顶叶”及“枕叶”处的病理，然而已有工作忽略了这一点。我们的模型同时预测出了“基底节区低密度影”及“边界清晰”等病理。这表明我们的方法较以往工作更能挖掘到丰富的语义信息，这依赖于本方法中常见医学术语之间的共现关系的引入。如图4中(b)所示，“脑回肿胀”属于相对罕见的医学术语，我们的模型正确预测出了这一医学术语，然而已有的工作忽略了针对类似“脑回肿胀”这些罕见医学术语的描述。此外，在句子连贯性方面，我们的模型要优于基线方法和已有的方法，例如WGAM模型生成的报告中存在重复性的句子，如“脑沟变浅，脑沟变浅”等，而我们的模型生成的医学报告具有更好的连贯性，同时具有多样性。

Claims

1.一种基于共现关系分层注意力的脑CT医学报告自动生成方法，其特征在于：该方法包括如下步骤，(1)预处理脑CT数据集，得到标准化的三维脑CT影像及其对应的脑CT医学报告文本，建立词汇表；(2)构建脑CT影像的特征提取器用于提取脑CT影像的视觉特征F＝[f₁,f₂,…f_i,…f_N]，其中N代表脑CT影像序列的切片数量，f_i代表第i张脑CT切片的视觉特征；(3)构建共现关系语义注意力模块，该共现关系语义注意力模块用于提取脑CT影像中常见医学术语的语义注意力特征，其内部包括词嵌入层及语义注意力机制；(4)构建主题向量引导的视觉注意力模块，将常见医学术语的语义注意力特征嵌入到常见医学术语主题向量并与罕见医学术语主题向量进行融合，然后指导视觉注意力机制捕捉病灶区域从而得到视觉注意力特征，视觉注意力机制包括一个序列注意力及一个空间注意力，序列注意力用以选择重要的切片序列，空间注意力则选择切片中的病灶区域，两者进行结合来捕捉切片中的关键病灶区域特征，通过语言生成模型生成脑CT医学报告。

2.根据权利要求1所述的一种基于共现关系分层注意力的脑CT医学报告自动生成方法，其特征在于：对脑CT影像及其对应的脑CT医学报告数据集进行预处理过程如下，

与对应的脑CT医学报告Y＝[y₁,y₂,…y_i,…y_T]，其中N代表脑CT切片序列的数量，I_i代表第i张切片的RGB图像矩阵，W和H分别代表该图像的宽度和高度，y_i代表脑CT医学报告中的第i个单词，T代表脑CT医学报告中单词的个数；

代表该图像的维度为3×W×H；

步骤(1.2)按7：1：2的比例将所有患者数据划分为训练集、验证集和测试集；其中，训练集用于学习模型的参数；验证集用于确定超参数；测试集用于验证模型性能；

3.根据权利要求1所述的一种基于共现关系分层注意力的脑CT医学报告自动生成方法，其特征在于：构建特征提取器用于提取脑CT影像的视觉特征图F＝[f₁,f₂,…f_i,…f_N]和全局特征FC＝[fc₁,fc₂,…fc_i,…fc_N]，其中N代表脑CT切片序列的数量，f_i代表第i张脑CT切片的视觉特征图，fc_i代表第i张脑CT切片的全局视觉特征；使用Resnet101网络在脑CT数据集上训练，最后将Resnet101网络的最后一层特征图作为最后的图像视觉特征F，提取图像视觉特征F的计算过程如下：

F，FC＝Resnet101(I)。

4.根据权利要求1所述的一种基于共现关系分层注意力的脑CT医学报告自动生成方法，其特征在于：构建共现关系驱动的语义注意力模块,提取常见医学术语的语义信息，并结合常见医学术语之间的共现关系及语义注意力机制来挖掘常见医学术语之间的语义相关性，推测缺失的语义信息；其具体过程如下：

步骤(3.1)构建共现关系驱动的语义注意力模块中的语义注意力机制用于提取脑CT影像中对应的常见医学术语的语义特征，该语义注意力机制对m个常见医学术语关键词K＝{k₁,k₂,…k_i,…k_m}进行词嵌入得到常见医学术语的语义特征S，结合语义注意力机制，以视觉全局特征引导注意力的计算，对不同的医学术语的语义特征赋予不同权重，自动捕捉重要的语义信息；首先通过对常见医学术语的语义特征S计算其语义注意力权重α_init，计算过程如下：

S＝Embedding(K)

e＝φ(h^m,FC,S)

α_init＝Softmax(e)

Enbedding为语义嵌入层，将常见医学术语嵌入到语义特征S，φ为前馈神经网络，自动学习到其内部三个参数之间的相关性矩阵，h^m为用于编码和记忆已经生成的句子的LSTM^m内部的隐藏层状态，FC为视觉全局特征，S为常见医学术语的语义特征；e为前馈神经网络的输出，α_init为输出的初始语义注意力权重；其中LSTM^m及其隐藏层状态h^m定义如下：

h^m＝LSTM^m(sen_pre)

sen_pre为上一个已经生成的句子；语义注意力损失函数定义如下：

Loss_sem＝BCE(σ(e),label)

其中，BCE代表二元交叉熵损失函数，σ代表sigmoid激活函数，label代表每个样本对应的正确的常见医学术语的标签；得到初始的语义注意力权重α_init之后，引入常见医学术语之间的共现关系矩阵并嵌入到关系权重，结合初始语义注意力权重与语义特征计算最终的语义注意力特征；

步骤(3.2)构建常见医学术语之间的共现关系矩阵R；根据脑CT数据集，统计脑CT医学报告中常见医学术语的出现频率及其之间的共现频率，进而计算常见医学术语之间的共现关系值；具体定义如下：

其中，f(a,b)代表a、b两个常见医学术语同时出现在脑CT医学报告中的频率，f(a)、f(b)分别代表a、b两个常见医学术语单独出现在脑CT医学报告中的频率；N代表总的样本数量；max代表取最大值，log代表对数函数。

步骤(3.3)将初始的语义注意力权重与关系矩阵相结合作为最终的注意力权重，进而提取更加丰富的语义信息；具体做法为：

(I)将共现关系矩阵嵌入到关系权重α_R：

α_R＝Relu(W_RR)

其中，W_R代表线性嵌入层的参数矩阵，R为静态的共现关系矩阵；

Relu代表激活函数；

S_att＝α_init*α_R*S

其中，α_init为初始注意力权重，α_R代表关系权重。

5.根据权利要求1所述的一种基于共现关系分层注意力的脑CT医学报告自动生成方法，其特征在于：构建常见罕见主题引导的视觉注意力模块；该模块融合了常见医学术语及罕见医学术语的语义信息作为句子层级的主题向量来指导视觉注意力的计算，以捕捉关键的病灶区域特征；常见医学术语包括基底节区低密度影、丘脑出血、侧脑室受压变窄、脑中线右移等出现频率比较高的病症，罕见医学术语包括蝶窦粘膜增厚、眼眶局部凹陷、蛛网膜囊肿等比较罕见的病症；提出分层循环网络作为语言模型生成脑CT医学报告；具体步骤如下:

其中，W_c,

W_S为前馈神经网络中的可学习参数，

为LSTM^m的隐藏层状态；为建模罕见医学术语的语义信息，根据全局视觉特征从罕见医学术语库中检索相应的罕见医学术语，并通过词嵌入的方式得到罕见医学术语的主题向量

具体步骤如下：

其中，W_rare,W_fc,

为前馈神经网络中的可学习参数，rare_index为检索到的罕见医学术语库中对应的医学术语的下标；Embedding为嵌入层；然后，将常见医学术语主题向量与罕见医学术语主题向量进行融合得到最终的句子层级的主题向量来指导视觉注意力机制的计算；

其中W_topic,W_c,W_r为前馈神经网络中的可学习参数；λ_common,λ_rare分别代表常见医学术语主题向量与罕见医学术语主题向量的权重；为了指导检索罕见医学术语的过程，引入罕见医学术语分类损失，其定义如下：

Loss_rare＝CE(rare_index,rare_label)

其中，CE代表交叉熵损失，rare_label为真实标签，rare_index为预测值；在得到句子层级的主题向量Topic_s之后，在句子层级和单词层级分别指导序列注意力及空间注意力的计算，从而得到视觉注意力特征V_att：

V_att＝α^frame*α^spatial*F

其中，Attention^spatial,Attention^frame分别代表空间注意力与序列注意力的计算；序列注意力通过对每个切片分配不同的权重来从切片序列中选取最重要的切片，空间注意力则通过对切片内部的尺度特征分配不同的权重来捕捉重要的病灶区域特征；

分别代表LSTM^sent、LSTM^word在t-1时间步的隐藏状态，x_t代表在每个时间步输入的单词，在训练过程中，其来自真实的脑CT医学报告，在测试过程中，其来自上一个时间步生成的单词；通过sen_pre与

LSTM^word,LSTM^sent以一种交互的方式协作生成最终的脑CT医学报告；最终在每个时间步预测的单词的概率分布p_t可定义为：

其中，

为线性嵌入层的可学习参数，

为第t时间步LSTM^word的隐藏状态；y_t为预测的单词，p_t为预测的单词对应的概率，最终组成一段脑CT医学报告；通过如下损失函数优化语言模型的训练过程：

最终，损失函数定义如下：

Loss＝λ₁*Loss_word+λ₂*Loss_sem+λ₃*Loss_rare