CN116230154A

CN116230154A - 基于记忆强化Transformer的胸腔X光诊断报告生成方法

Info

Publication number: CN116230154A
Application number: CN202310207651.7A
Authority: CN
Inventors: 李放; 栾金锋; 王晓玲
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-06-06

Abstract

本发明公开了一种基于记忆强化Transformer的胸腔X光诊断报告生成方法，根据实际需要收集若干胸腔X光图像及对应的诊断报告，基于诊断报告构建词表，得到每个诊断报告中词表包含单词的单词概率矩阵和词向量矩阵，连同胸腔X光图像构成一个训练样本，从而得到训练样本集；构建基于Transformer和记忆模块的诊断报告单词预测模型；采用训练样本对诊断报告单词预测模型进行训练，将待生成诊断报告胸腔X光图像输入训练好的诊断报告单词预测模型，得到单词概率矩阵，最后采用文本序列生成算法生成最终的诊断报告文本。本发明在Transformer模型中引入记忆模块，实现在仅有胸腔X光图像的情况下自动生成对应的诊断报告，同时提高诊断报告文本生成的质量。

Description

基于记忆强化Transformer的胸腔X光诊断报告生成方法

技术领域

本发明属于计算机视觉技术领域，更为具体地讲，涉及一种基于记忆强化Transformer的胸腔X光诊断报告生成方法。

背景技术

随着深度学习算法的不断发展，人工智能的相关技术在各行各业已经得到了充分的应用，在医疗诊断领域也存在一些落地应用。医学图像在医学临床实践中被经常用来诊断和治疗。根据患者的医疗图像撰写对应的报告是一件非常耗时且繁琐的事情，同时对于一些经验尚浅的医生可能撰写出错误的诊断报告。在中国，优质的医疗资源相对来说较为稀缺，有大量患者的医疗图像需要对应的报告，相对于患者的数量，医生的数量较为缺乏，所以利用人工智能技术辅助医生生成诊断报告是非常有必要的。目前人工智能技术无法在临床实践上完全代替医生，但是可以帮助医生更好地完成工作，减轻医生的负担，特别是对于经验尚浅的医生，能够帮助他们完成诊断报告的撰写，减少遗漏等现象。使用人工智能来生成报告是一种有效的方法。但仍有两个主要挑战：首先，随着病人数量的增加，需要定期对模型进行微调，这浪费了大量的时间；第二，由于医学报告较为复杂，现有人工智能技术所生成文本的质量还需要改进。

此外，如何能够快速对于模型进行迭代，是该领域中的一项重要内容。由于文本生成模型通常采用较大的模型，导致模型在新数据到来时，更新模型参数需要付出大量的成本。同时与自然图像的解释不同，医学诊断报告的文本更长，需要更加精确的描述，能够全面准确地描述图像中的异常区域，这也是该领域的另一项重要内容。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于记忆强化Transformer的胸腔X光诊断报告生成方法，在Transformer模型中引入记忆模块，实现在仅有胸腔X光图像的情况下自动生成对应的诊断报告，同时提高诊断报告文本生成的质量。

为了实现上述发明目的，本发明基于记忆强化Transformer的胸腔X光诊断报告生成方法包括以下步骤：

S1：根据实际需要收集若干胸腔X光图像，同时获取每张胸腔X光图像对应的诊断报告；

统计在所有诊断报告中出现的单词，将这些单词组成词表，记词表中单词数量为K；根据实际需要设置诊断报告长度T，为每份诊断报告生成大小为D×K的单词概率矩阵P，当诊断报告中第t个位置为词表中第k个单词时，令单词概率矩阵P中第t行第k列元素p_t,k＝1，否则p_t,k＝0，t＝1,2,…,T，k＝1,2,…,K；

为词表中的每个单词随机生成初始词向量c_k，记词向量的维度为L，然后为每份诊断报告生成大小为T×L的词向量矩阵C，词向量矩阵C中第t行行向量即为诊断报告中第t个位置单词的词向量；

将每张胸腔X光图像和对应的诊断报告的词向量矩阵、单词概率矩阵作为一个训练样本，从而得到训练样本集；

S2：构建诊断报告单词预测模型，包括视觉特征编码器，Transformer编码器，记忆强化解码器，全连接层和Softmax层，其中：

视觉特征编码器用于对胸腔X光图像进行视觉特征编码，得到视觉特征X＝{x₁,x₂,…,x_N}并输出至Transformer编码器，其中N表示视觉特征的数量；

Transformer编码器用于根据接收的视觉特征X＝{x₁,x₂,…,x_N}提取隐藏状态，得到每个视觉特征x_i的隐向量h_i并输出至记忆强化解码器；

记忆强化解码器用于对N个隐向量h_i进行解码，得到解码后的特征并发送给全连接层；记忆强化解码器包括输出嵌入层，L组网络块和记忆模块，其中：

输出嵌入层用于对训练样本中的词向量矩阵C进行嵌入处理，得到大小为T×L的嵌入词向量矩阵Y，记第t个单词的嵌入词向量为y_t，将嵌入词向量矩阵Y输出至记忆模块、遮蔽多头注意力层和第1组网络块的第一特征融合模块；

记忆模块用于根据嵌入词向量矩阵Y生成记忆矩阵M，输出至每组网络块中的第一MCLN模块、第二MLCN模块和第三MLCN模块；其中，记忆矩阵M采用迭代更新的方式生成，具体方法为：

1)令单词序号t＝1，初始化大小为D×L的初始记忆矩阵M₀，初始化单词的嵌入词向量y₀，其中D表示记忆模块中记忆槽的大小，D＜T；

2)采用如下计算公式得到第t个单词的记忆矩阵M_t：

M_t＝(1-Z_t)⊙C_t+Z_t⊙M_t-1

其中：

C_t＝tanh(W_mcM_t-1+W_scS_t+b_c)

Z_t＝sigmoid(W_mzM_t-1+W_szS_t+b_z)

S_t＝MultiHeadAtt(M_t-1,[M_t-1；y_t-1],[M_t-1；y_t-1])

⊙代表阿达玛乘积，W_mc，W_sc，W_mz，W_sz表示可学习的权重，b_c，b_z表示可学习的偏差项；C_t表示内部状态，Z_t是更新门；tanh()、sigmoid()为激活函数；

MultiHeadAtt()表示多头注意力机制，该多头注意力机制中将记忆矩阵M_t-1作为多头注意力的查询，然后将上一个单词的M_t-1与上一个单词的嵌入词向量y_t-1连接得到[M_t-1；y_t-1]，作为多头注意力的键和值；

3)判断是否t＜T，如果是，令t＝t+1，返回步骤2)，否则进入步骤4)；

4)将每个记忆矩阵M_t按照行优先转换为长度为D×L的记忆向量m_t，然后将T个记忆向量m_t作为行向量构成大小为T×(D×L)的记忆矩阵M；

每组网络块分别包括遮蔽多头注意力模块、第一特征融合模块、第一MCLN模块、多头注意力模块、第二特征融合模块、第二MLCN模块、前向反馈模块、第三特征融合模块和第三MLCN模块，其中：

遮蔽多头注意力模块用于基于遮蔽多头注意力机制对所接收的特征矩阵f_A,In进行处理，得到大小为T×L特征矩阵f_A,1，其中第1个网络块中的遮蔽多头注意力模块接收的特征矩阵为输出嵌入层输出的嵌入词向量矩阵Y，第2个至第L个网络块中的遮蔽多头注意力模块接收的特征矩阵为上一个网络块中第三MLCN模块输出的特征矩阵；

第一特征融合模块用于对遮蔽多头注意力模块接收的特征矩阵f_A,In和输出的特征矩阵f_A,1进行相加，得到大小为T×L的融合特征矩阵f₁输出至第一MCLN模块；

第一MCLN模块，用于根据记忆矩阵M对融合特征矩阵f₁进行处理，得到大小为T×L的特征矩阵f_m,1输出至多头注意力模块和第二特征融合模块；MCLN模块的处理过程如下：

记MCLN模块接收到的融合特征矩阵为In，采用如下方法得到特征矩阵f_m,1中第t行行向量f_m,1[t]：

初始化可学习参数γ和β，然后对参数γ进行更新，更新公式如下所示：

Δγ_t＝f_mlp(m_t)

对参数β进行更新，更新公式如下所示：

Δβ_t＝f_mlp(m_t)

其中，f_mlp()表示多层感知器；

第t行行向量f_m,1[t]计算公式如下所示：

其中，In_t是所输入的融合特征矩阵In的第t行行向量，μ和v表示融合特征矩阵In中行向量的均值和标准差；

多头注意力模块用于接收N个隐向量h_i和特征矩阵f_m,1，将隐向量h_i作为多头注意力的查询和键，将特征矩阵f_m,1作为多头注意力的值，基于多头注意力机制处理得到大小为T×L的特征矩阵f_A,2并发送给第二特征融合模块；

第二特征融合模块用于对特征矩阵f_m,1和特征矩阵f_A,2进行相加，得到大小为T×L的融合特征矩阵f₂输出至第二MCLN模块；

第二MLCN模块用于对用于根据记忆矩阵M对融合特征矩阵f₂进行处理，得到大小为T×L的特征矩阵f_m,2输出至前向反馈模块和第三特征融合模块；

前向反馈模块用于对特征特征矩阵f_m,2进行线性变化处理，得到大小为T×L的特征矩阵f₃输出至第三特征融合模块；

第三特征融合模块将特征矩阵f_m,2和特征矩阵f₃进行相加，得到大小为T×L的融合特征矩阵f₄输出至第三MLCN模块；

第三MLCN模块用于对用于根据记忆矩阵M对融合特征矩阵f₄进行处理，得到大小为T×L的特征矩阵f_m,3进行输出，第1至第L-1个网络块中的第三MLCN模块将特征矩阵f_m,3输出至下一个网络块，第L个网络块中的第三MLCN模块将特征矩阵f_m,3输出至全连接层；

全连接层用于对接收的特征矩阵进行线性变化，将得到的特征输出至Softmax层；

Softmax层用于根据得到的特征，预测得到词表中每个单词在诊断报告中各个位置出现的概率，得到单词概率矩阵；

S3：将步骤S1中训练样本集中每张胸腔X光图像作为输入，对应的单词概率矩阵作为期望输出，对诊断报告单词预测模型进行训练，得到训练好的诊断报告单词预测模型；

S4：对于待生成诊断报告的胸腔X光图像，将该胸腔X光图像输入步骤S3中训练好的诊断报告单词预测模型，得到该胸腔X光图像对应的单词概率矩阵；

S5：根据步骤S4生成的单词概率向量，采用文本序列生成算法生成最终的诊断报告文本。

本发明基于记忆强化Transformer的胸腔X光诊断报告生成方法，根据实际需要收集若干胸腔X光图像及对应的诊断报告，基于诊断报告构建词表，得到每个诊断报告中词表包含单词的单词概率矩阵和词向量矩阵，连同胸腔X光图像构成一个训练样本，从而得到训练样本集；构建基于Transformer和记忆模块的诊断报告单词预测模型；采用训练样本对诊断报告单词预测模型进行训练，将待生成诊断报告胸腔X光图像输入训练好的诊断报告单词预测模型，得到单词概率矩阵，最后采用文本序列生成算法生成最终的诊断报告文本。

本发明具有以下有益效果：

1)本发明的诊断报告单词预测模型使用了记忆强化解码器，在模型的计算过程中记忆出文本的特定模式，从而提升诊断报告文本生成的质量；

2)本发明的诊断报告单词预测模型中视觉特征编码器可以采用预训练的ViT模块，节约诊断报告单词预测模型的训练时间，提升视觉特征对于胸腔X光图像的表征能力，从而进一步提升诊断报告文本生成的质量。

附图说明

图1是本发明基于记忆强化Transformer的胸腔X光诊断报告生成方法的具体实施方式流程图；

图2是本发明中诊断报告单词预测模型的结构图；

图3是本发明记忆强化解码器的结构图；

图4是本实施例中记忆模块的结构图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于记忆强化Transformer的胸腔X光诊断报告生成方法的具体实施方式流程图。如图1所示，本发明基于记忆强化Transformer的胸腔X光诊断报告生成方法的具体步骤包括：

S101：获取训练样本：

根据实际需要收集若干胸腔X光图像，同时获取每张胸腔X光图像对应的诊断报告。

对于训练样本集中的诊断报告，统计在所有诊断报告中出现的单词，将这些单词组成词表，记词表中单词数量为K。根据实际需要设置诊断报告长度T，为每份诊断报告生成大小为T×K的单词概率矩阵P，当诊断报告中第t个位置为词表中第k个单词时，令单词概率矩阵P中第t行第k列元素p_t,k＝1，否则p_t,k＝0，t＝1,2,…,T，k＝1,2,…,K。

为词表中的每个单词随机生成初始词向量c_k，记词向量的维度为L，然后为每份诊断报告生成大小为T×L的词向量矩阵C，词向量矩阵C中第t行行向量即为诊断报告中第t个位置单词的词向量。

将每张胸腔X光图像和对应的诊断报告的词向量矩阵、单词概率矩阵作为一个训练样本，从而得到训练样本集。

为了更好地提取胸腔X光图像特征，提高对模型的训练样本，通常需要对胸腔X光图像和诊断报告采用预设方法进行预处理。本实施例中胸腔X光图像的预处理方法为：将胸腔X光图像的大小归一化至预设尺寸(本实施例中256x256)，接着进行随机的图像裁剪(本实施例中裁剪后尺寸为224x224)，将裁剪后的图像进行随机的水平翻转，最后对图像进行正则化。

本实施例中诊断报告的预处理方法为：对诊断报告进行文本清洗，然后去除句号以外的所有标点符号，将涉及患者隐私的单词采用默认字符(例如“XXX”)进行替换。

S102：构建诊断报告单词预测模型：

本发明首先根据胸腔X光图像预测得到单词在诊断报告中出现的概率，然后再根据单词的出现概率生成诊断报告。显然，单词预测概率的准确度对于最终诊断报告的优劣是关键。因此，本发明着重对诊断报告单词预测模型进行了改进，将记忆模型引入，提高了单词预测概率的准确度。图2是本发明中诊断报告单词预测模型的结构图。如图2所示，本发明中诊断报告单词预测模型包括视觉特征编码器，Transformer编码器，记忆强化解码器，全连接层和Softmax层，接下来分别对各个模块进行详细说明。

视觉特征编码器用于对胸腔X光图像进行视觉特征编码，得到视觉特征X＝{x₁,x₂,…,x_N}并输出至Transformer编码器，其中N表示视觉特征的数量。

为了提高视觉特征对于胸腔X光图像的表征能力，视觉特征编码器可以采用预训练的CNN(Convolutional Neural Network，卷积神经网络)网络或ViT(VisionTransformer，视觉转换器)模块。本实施例中采用预训练的ViT模块作为视觉特征编码器。同时为了提高ViT模块的性能，采用MAE(Masked Autoencoders，屏蔽自动编码器)方法对ViT模块进行预训练，具体方法为：

根据实际需要选择一个解码器，将ViT模块的输出作为解码器的输入，解码器根据ViT模块的视觉特征重构出图像，从而构成编码解码模型。将训练样本集中的胸腔X光图像划分成若干大小相同的图像块，根据预设的遮挡比例随机遮挡一部分图像块，得到遮挡处理后的胸腔X光图像。将遮挡处理后的胸腔X光图像分块作为编码解码模型的输入，原始胸腔X光图像作为编码解码模型的期望输出，对编码解码模型进行训练，从而完成ViT模块的训练。损失函数是图像的重建损失，通常使用均方误差函数。

Transformer编码器用于根据接收的视觉特征X＝{x₁,x₂,…,x_N}提取隐藏状态，得到每个视觉特征x_i的隐向量h_i并输出至记忆强化解码器。由于视觉特征编码器是提取的视觉特征，而本发明的任务是文本生成，这两个任务之间存在一定的差距，所以本发明采用Transformer编码器来提取视觉特征的隐向量，从而实现两个任务的适配。本实施例中Transformer编码器使用标准的3层Transformer编码器。

记忆强化解码器用于对N个隐向量h_i进行解码，得到解码后的特征并发送给全连接层。

由于诊断报告之间存在一定的相似性，也就是说诊断报告之间存在一些模式，这些模型可以被外部记忆所记录。例如这个模式，“The heart is normal in size.”和“Theheart size within normal limits.”会经常出现相似图片的报告中，并且显示出一致性。因此本发明使用在Transformer解码器的基础上结合了记忆模块，记忆模块可以在模型的计算过程中记忆出文本的特定模式，从而提升诊断报告生成的质量。记忆模块在文本生成，视频解释，医疗诊断报告生成较为常用，本发明中为了进一步提升诊断报告的生成质量，对记忆模块进行了改进，从而更好地与Transformer解码器进行结合。图3是本发明记忆强化解码器的结构图。如图3所示，本发明中记忆强化解码器包括输出嵌入层，L组网络块(block)和记忆模块，其中：

输出嵌入层(Output Embedding)用于对训练样本中的词向量矩阵C进行嵌入处理，得到大小为T×L的嵌入词向量矩阵Y，记第t个单词的嵌入词向量为y_t，将嵌入词向量矩阵Y输出至记忆模块、遮蔽多头注意力层和第1组网络块的第一特征融合模块。

记忆模块用于根据嵌入词向量矩阵Y生成记忆矩阵M，输出至每组网络块中的第一MCLN模块、第二MLCN模块和第三MLCN模块。其中，记忆矩阵M采用迭代更新的方式生成，具体方法为：

1)令单词序号t＝1，初始化大小为D×L的初始记忆矩阵M₀，初始化单词的嵌入词向量y₀，其中D表示记忆模块中记忆槽(memory slot)的大小，D＜T。本实施例中，初始记忆矩阵M₀采用随机选择的D个初始词向量构成，单词词向量y₀为随机选择的一个初始词向量。

2)采用如下计算公式得到第t个单词的记忆矩阵M_t：

M_t＝(1-Z_t)⊙C_t+Z_t⊙M_t-1

其中：

C_t＝tanh(W_mcM_t-1+W_scS_t+b_c)

Z_t＝sigmoid(W_mzM_t-1+W_szS_t+b_z)

S_t＝MultiHeadAtt(M_t-1,[M_t-1；y_t-1],[M_t-1；y_t-1])

⊙代表阿达玛乘积(Hadamard product)，W_mc，W_sc，W_mz，W_sz表示可学习的权重，b_c，b_z表示可学习的偏差项。C_t表示内部状态(internal cell state)，Z_t是更新门，它决定保留前一个记忆状态中的哪些信息，从而减少冗余并保持生成段落的一致性。tanh()、sigmoid()为激活函数。

MultiHeadAtt()表示多头注意力机制，该多头注意力机制中将记忆矩阵M_t-1作为多头注意力的查询(query)，然后将上一个单词的M_t-1与上一个单词的嵌入词向量y_t-1连接得到[M_t-1；y_t-1]，作为多头注意力的键(key)和值(value)。

这种更新机制非常类似于LSTM和GRU，但是它的不同之处在于，多头注意力被用来编码记忆状态，因此支持多个记忆槽，而不是LSTM和GRU中的单一记忆槽，这使它具有更高的复杂关系建模能力。

3)判断是否t＜T，如果是，令t＝t+1，返回步骤2)，否则进入步骤4)。

4)将每个记忆矩阵M_t按照行优先转换为长度为D×L的记忆向量m_t，然后将T个记忆向量m_t作为行向量构成大小为T×(D×L)的记忆矩阵M。

图4是本实施例中记忆模块的结构图。如图4所示，本实施例中记忆模块包括第一多层感知器，第二多层感知器、连接模块、多头注意力模块、第三多层感知器、第四多层感知器、第一求和模块、第二求和模块、tanh激活层、sigmoid激活层和记忆矩阵运算模块，其中：

第一多层感知器用于对记忆矩阵运算模块计算得到的上一个单词的记忆矩阵M_t-1赋予权重W_mz，得到W_mzM_t-1并发送给第一求和模块。

第二多层感知器用于对记忆矩阵运算模块计算得到的上一个单词的记忆矩阵M_t-1赋予权重W_mc，得到W_mcM_t-1并发送给第二求和模块。

连接模块用于将记忆矩阵运算模块计算得到的上一个单词的的记忆矩阵M_t-1与嵌入词向量y_t-1进行连接，得到连接矩阵[M_t-1；y_t-1]并发送给多头注意力模块。

多头注意力模块用于将记忆矩阵M_t-1作为多头注意力的查询，将连接矩阵[M_t-1；y_t-1]作为多头注意力的键和值，处理得到特征S_t并发送给第三多层感知器和第四多层感知器。

第三多层感知器用于对特征S_t赋予权重W_sz，得到W_szS_t并发送给第一求和模块。

第四多层感知器用于对特征S_t赋予权重W_sc，得到W_scS_t并发送给第二求和模块。

第一求和模块用于将接收的W_mzM_t-1、W_szS_t连同偏差项b_z求和，得到W_mzM_t-1+W_szS_t+b_z并发送给sigmoid激活层。

第二求和模块用于将接收的W_mcM_t-1、W_scS_t连同偏差项b_c求和，得到W_mcM_t-1+W_scS_t+b_c并发送给tanh激活层。

sigmoid激活层用于采用激活函数sigmoid()对W_mzM_t-1+W_szS_t+b_z进行处理，得到更新门Z_t并发送给记忆矩阵运算模块。

tanh激活层用于采用激活函数tanh()对W_mcM_t-1+W_scS_t+b_c进行处理，得到内部状态C_t并发送给记忆矩阵运算模块。

记忆矩阵运算模块用于根据内部状态C_t和更新门Z_t对记忆矩阵M_t-1进行运算，得到记忆矩阵M_t，运算公式如下：

M_t＝(1-Z_t)⊙C_t+Z_t⊙M_t-1

并将每个记忆矩阵M_t按照行优先转换为长度为D×L的记忆向量m_t，然后将T个记忆向量m_t构成大小为T×(D×L)的记忆矩阵M。

遮蔽多头注意力模块(Masked Multi-head Attention)用于基于遮蔽多头注意力机制对所接收的特征矩阵f_A,In进行处理，得到大小为T×L特征矩阵f_A,1，其中第1个网络块中的遮蔽多头注意力模块接收的特征矩阵为输出嵌入层输出的嵌入词向量矩阵Y，第2个至第L个网络块中的遮蔽多头注意力模块接收的特征矩阵为上一个网络块中第三MLCN模块输出的特征矩阵。遮蔽多头注意力机制与普通多头注意力机制的区别在于，在中间特征进行Softmax计算之前，需要将中间特征采用Mask(遮蔽)矩阵进行遮蔽处理(当Mask矩阵中元素值为0时，将中间矩阵中对应位置的元素值改为-1e9，Mask矩阵中元素值为0时，中间矩阵中对应位置的元素值不变)，以遮蔽部分特征值。Mask矩阵中，主对角线以上的值为0，主对角线以及以下的值为1。

第一特征融合模块用于对遮蔽多头注意力模块接收的特征矩阵f_A,In和输出的特征矩阵f_A,1进行相加，得到大小为T×L的融合特征矩阵f₁输出至第一MCLN模块。

第一MCLN(Memory-driven Conditional Layer Normalization，记忆驱动的条件层正则化)模块，用于根据记忆矩阵M对融合特征矩阵f₁进行处理，得到大小为T×L的特征矩阵f_m,1输出至多头注意力模块和第二特征融合模块。

在自然语言处理的任务中外部记忆被广泛使用，但是外部记忆不能很好地与Transformer解码器的解码过程结合起来，因为文本生成的过程中，解码过程和记忆更新的过程是高度耦合的，为了解决这个问题，提升长文本生成的质量，在本发明中引入了MCLN模块。MCLN能够将层正则化和外部记忆结合起来，以此来增强Transformer的解码能力。为此MCLN引入了两个关键参数γ和β，分别是为了缩放和移动所学习到的特征。MCLN模块的处理过程如下：

Δγ_t＝f_mlp(m_t)

类似地，对参数β进行更新，更新公式如下所示：

Δβ_t＝f_mlp(m_t)

其中，f_mlp()表示多层感知器。也就是说，MCLN模块根据外部记忆的值来更新参数γ和β，得到当前单词对应的参数

和/>

最后将这两个参数融入层标准化的计算中，第t行行向量f_m,1[t]的计算公式如下所示：

其中，In_t是所输入的融合特征矩阵In的第t行行向量，μ和v表示融合特征矩阵In中行向量的均值和标准差。

多头注意力模块(Multi-head Attention)用于接收N个隐向量h_i和特征矩阵f_m,1，将隐向量h_i作为多头注意力的查询和键，将特征矩阵f_m,1作为多头注意力的值，基于多头注意力机制处理得到大小为T×L的特征矩阵f_A,2并发送给第二特征融合模块。

第二特征融合模块用于对特征矩阵f_m,1和特征矩阵f_A,2进行相加，得到大小为T×L的融合特征矩阵f₂输出至第二MCLN模块。

第二MLCN模块用于对用于根据记忆矩阵M对融合特征矩阵f₂进行处理，得到大小为T×L的特征矩阵f_m,2输出至前向反馈模块和第三特征融合模块。

前向反馈模块(Feed Forward)用于对特征特征矩阵f_m,2进行线性变化处理，得到大小为T×L的特征矩阵f₃输出至第三特征融合模块。

第三特征融合模块将特征矩阵f_m,2和特征矩阵f₃进行相加，得到大小为T×L的融合特征矩阵f₄输出至第三MLCN模块。

第三MLCN模块用于对用于根据记忆矩阵M对融合特征矩阵f₄进行处理，得到大小为T×L的特征矩阵f_m,3进行输出，第1至第L-1个网络块中的第三MLCN模块将特征矩阵f_m,3输出至下一个网络块，第L个网络块中的第三MLCN模块将特征矩阵f_m,3输出至全连接层。

全连接层用于对接收的特征矩阵进行线性变化，将得到的特征输出至Softmax层。

Softmax层用于根据得到的特征，预测得到词表中每个单词在诊断报告中各个位置出现的概率，得到单词概率矩阵。

S103：训练诊断报告单词预测模型：

将步骤S101中训练样本集中每张胸腔X光图像作为输入，对应的单词概率矩阵作为期望输出，对诊断报告单词预测模型进行训练，得到训练好的诊断报告单词预测模型。

本实施例中，采用负对数似然作为诊断报告单词预测模型的损失函数。

当视觉特征编码器采用预训练好的ViT模块时，在诊断报告单词预测模型的训练过程中，可以令ViT模块的参数固定不变，可以大大减少模型更新过程中的计算量，大幅度减少模型的收敛时间，根据实验结果表明可以从2到3天的收敛时间缩短到1天内。

S104：诊断报告单词预测：

对于待生成诊断报告的胸腔X光图像，将该胸腔X光图像输入步骤S103中训练好的诊断报告单词预测模型，得到该胸腔X光图像对应的单词概率矩阵。

S105：生成诊断报告：

根据步骤S104生成的单词概率向量，采用文本序列生成算法生成最终的诊断报告文本。

目前业内已经提出多种文本序列生成算法，如greedy search、维特比算法、beamsearch等，在实际应用中可以根据需要选择。本实施例中，采用Beam Search算法。

为了更好地说明本发明中的技术效果，采用具体实例对本发明进行实验验证，所选用的数据集为MIMIC-CXR数据集和IU-Xray数据集。同时本次实验验证中选择了一些现有的诊断报告生成法进行对比验证，分别是：

对比方法1：CNN-RNN模型，使用CNN作为视觉特征提取器，使用RNN(LSTM)作为文本生成器。

对比方法2：AdaAtt模型，其使用CNN作为视觉特征提取器，使用LSTM作为模型的文本生成器，但是与CNN-RNN模型的不同之处在于，它在LSTM中引入了自适应注意力机制，可以让模型更加关注图像中的某些区域。

对比方法3：Att2in模型，引入强化学习，提升了文本生成质量。

对比方法4：Up-Down模型，在视觉特征提取器部分Fast R-CNN中引入了Bottom-up注意力机制，也就是基于目标和图像中的显著区域来计算注意力。

对比方法5：Transformer模型，使用vanilla Transformer来进行医学图像的诊断报告生成。

对比方法5：HRGR-Agent模型，使用CNN提取视觉特征，使用RNN进行文本生成，之后利用强化学习在句子级和单词级别上分别奖励召回策略模块和文本生成模块。

对比方法6：CMAS-RL模型，使用强化学习进行了模型的训练，引入多代理合作系统，能够隐含地捕捉了图像中的异常区域和正常区域之间的不平衡分布。

对比方法7：R2Gen模型，在vanilla Transformer的基础上引入记忆模块。

对比方法8：CMN模型，在R2Gen的基础上改进了外部记忆模块。

对比方法9：PPKED模型，基础架构是Transformer，在Transformer编码器中进行了文本，视觉特征的对齐，同时引入了外部的先验知识，知识图谱，已有报告的文本信息等。

本次实验验证中，本发明所提出的诊断报告单词预测模型中视觉特征提取器是ViT-base，使用MAE方法在CheXpert数据集上进行预训练，预训练的超参数参照MAE。在整个模型的训练过程中，视觉特征提取器部分的参数不变。使用8头的多头注意力，优化器使用的是Adam，批次大小为48，学习率为3e-4，权重衰减(weight decay)为5e-5，并且使用了amsgrad。

本次实验验证中，采用BLEU评估法、METEOR评估法、ROUGE评估法三种评估方法来获取每个方法的性能指标。表1是本实施例中本发明和对比方法的指标对比表。

表1

如表1所示，在MIMIC-CXR数据集上，本发明的记忆槽(memory slots)大小为2，BLEU指标全面领先于其他的模型，在METEOR指标几乎与PPKED持平，仅仅ROUGE-L指标有一些差距。在IU-Xray数据集上，本发明的记忆槽大小为1，BLEU指标相较于其他的算法取得了压倒性的优势，METEOR指标也大大优于其他算法，仅仅在ROUGE-L指标上略低于其他算法。可见，总体来说本发明所提出的方法是相当有效的，具有较大的优势。

此外，本次实验验证还在MIMIC-CXR数据集上进行了消融实验。表2是本实施例中本发明诊断报告单词预测模型在消融实验中的性能对比表。

表2

本次实验验证中，诊断报告单词预测模型的BASE模型为ViT+Transformer编码器+Transformer解码器。从消融实验中可以观测到许多的现象：第一点，在绝大多数的NLG(Natural language generation)指标上，BASE+记忆模块和BASE+预训练ViT+记忆模块的效果都是领先于BASE版本的。这个现象证明了将外部记忆模块引入Transformer的有效性，因为胸腔X光图像诊断报告的文本是高度模式化的，这些模式被合理地建模了。第二点，对比BASE模型和BASE+pretrained ViT以及BASE+记忆模块和BASE+预训练ViT+记忆模块，可以认为使用预训练ViT作为模型的视觉特征提取器是有非常大的效果的，因为预训练ViT已经学习到了正确提取胸腔X光图像的视觉特征。第三点，在绝大多数的NLG指标上，本发明的诊断报告单词预测模型均取得了最好的性能，说明本发明提出的方法是切实有效的。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于记忆强化Transformer的胸腔X光诊断报告生成方法，其特征在于，包括以下步骤：

2)采用如下计算公式得到第t个单词的记忆矩阵M_t：

M_t＝(1-Z_t)⊙C_t+Z_t⊙M_t-1

其中：

C_t＝tanh(W_mcM_t-1+W_scS_t+b_c)

Z_t＝sigmoid(W_mzM_t-1+W_szS_t+b_z)

S_t＝MultiHeadAtt(M_t-1,[M_t-1；y_t-1],[M_t-1；y_t-1])

Δγ_t＝f_mlp(m_t)

对参数β进行更新，更新公式如下所示：

Δβ_t＝f_mlp(m_t)

其中，f_mlp()表示多层感知器；

第t行行向量f_m,1[t]计算公式如下所示：

2.根据权利要求1所述的胸腔X光诊断报告生成方法，其特征在于，所述步骤S1中对胸腔X光图像和诊断报告采用预设方法进行预处理，其中：

胸腔X光图像的预处理方法为：将胸腔X光图像的大小归一化至预设尺寸，接着进行随机的图像裁剪，将裁剪后的图像进行随机的水平翻转，最后对图像进行正则化；

诊断报告的预处理方法为：对诊断报告进行文本清洗，然后去除句号以外的所有标点符号，将涉及患者隐私的单词采用默认字符进行替换。

3.根据权利要求1所述的胸腔X光诊断报告生成方法，其特征在于，所述步骤S3中的视觉特征编码器采用预训练的ViT模块，ViT模块的预训练方法为：根据实际需要选择一个解码器，将ViT模块的输出作为解码器的输入，解码器根据ViT模块的视觉特征重构出图像，从而构成编码解码模型；将训练样本集中的胸腔X光图像划分成若干大小相同的图像块，根据预设的遮挡比例随机遮挡一部分图像块，得到遮挡处理后的胸腔X光图像；将遮挡处理后的胸腔X光图像分块作为编码解码模型的输入，原始胸腔X光图像作为编码解码模型的期望输出，对编码解码模型进行训练，从而完成ViT模块的训练。

4.根据权利要求1所述的胸腔X光诊断报告生成方法，其特征在于，所述步骤S3中记忆模块包括第一多层感知器，第二多层感知器、连接模块、多头注意力模块、第三多层感知器、第四多层感知器、第一求和模块、第二求和模块、tanh激活层、sigmoid激活层和记忆矩阵运算模块，其中：

第一多层感知器用于对记忆矩阵运算模块计算得到的上一个单词的记忆矩阵M_t-1赋予权重W_mz，得到W_mzM_t-1并发送给第一求和模块；

第二多层感知器用于对记忆矩阵运算模块计算得到的上一个单词的记忆矩阵M_t-1赋予权重W_mc，得到W_mcM_t-1并发送给第二求和模块；

连接模块用于将记忆矩阵运算模块计算得到的上一个单词的的记忆矩阵M_t-1与嵌入词向量y_t-1进行连接，得到连接矩阵[M_t-1；y_t-1]并发送给多头注意力模块；

多头注意力模块用于将记忆矩阵M_t-1作为多头注意力的查询，将连接矩阵[M_t-1；y_t-1]作为多头注意力的键和值，处理得到特征S_t并发送给第三多层感知器和第四多层感知器；

第三多层感知器用于对特征S_t赋予权重W_sz，得到W_szS_t并发送给第一求和模块；

第四多层感知器用于对特征S_t赋予权重W_sc，得到W_scS_t并发送给第二求和模块；

第一求和模块用于将接收的W_mzM_t-1、W_szS_t连同偏差项b_z求和，得到W_mzM_t-1+W_szS_t+b_z并发送给sigmoid激活层；

第二求和模块用于将接收的W_mcM_t-1、W_scS_t连同偏差项b_c求和，得到W_mcM_t-1+W_scS_t+b_c并发送给tanh激活层；

sigmoid激活层用于采用激活函数sigmoid()对W_mzM_t-1+W_szS_t+b_z进行处理，得到更新门Z_t并发送给记忆矩阵运算模块；

tanh激活层用于采用激活函数tanh()对W_mcM_t-1+W_scS_t+b_c进行处理，得到内部状态C_t并发送给记忆矩阵运算模块；

M_t＝(1-Z_t)⊙C_t+Z_t⊙M_t-1

5.根据权利要求1所述的胸腔X光诊断报告生成方法，其特征在于，所述步骤S3中采用负对数似然作为诊断报告单词预测模型的损失函数。

6.根据权利要求1所述的胸腔X光诊断报告生成方法，其特征在于，所述步骤S3中在诊断报告单词预测模型的训练过程中，令ViT模块的参数固定不变。

7.根据权利要求1所述的胸腔X光诊断报告生成方法，其特征在于，所述步骤S5中文本序列生成算法采用Beam Search算法。