CN114664404A

CN114664404A - 一种胎儿心脏超声图像诊断报告自动生成系统的实现方法

Info

Publication number: CN114664404A
Application number: CN202210210339.9A
Authority: CN
Inventors: 曾宪华; 黄海云
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2022-06-24

Abstract

本发明公开了一种胎儿心脏超声图像诊断报告自动生成系统的实现方法，本发明方法的核心步骤包括：首先对传入的一批胎儿心脏超声图像进行两种不同的数据增强，将增强的图像编码为特征表示；根据此特征的投影计算对比损失的同时，将此特征传入注意力模块中计算得到图像特征指导解码器解码生成句子；在每个时间步，解码器的输入都与前一个时间步的隐藏状态做多次交互，将交互之后的特征输入到LSTM进行解码操作，根据真实词和生成词计算交叉熵损失。训练完成之后，学到一个胎儿心脏超声图像诊断报告生成模型。将模型封装到系统，系统用此模型对图像进行推理，生成的报告显示在系统界面右下角。

Description

一种胎儿心脏超声图像诊断报告自动生成系统的实现方法

技术领域

本发明属于人工智能中的医学图像主题生成技术领域，涉及一种胎儿心脏超声图像诊断报告自动生成系统的实现方法。

背景技术

在人口越来越多的今天，新生儿的身体健康对人们非常重要，有许多胎儿出生就夭折，大多数都是死于先天性心脏疾病。因此，胎儿的心脏诊断至关重要，医生可以在孕妇怀孕期间时，通过超声图像了解胎儿的健康问题，并撰写对应的诊断报告。对于经验丰富的医生来说，撰写诊断报告这种简单的工作是很枯燥乏味的，对于经验不足的医生来说，这样的工作不仅枯燥乏味，而且容易出错。因此为胎儿心脏超声图像自动生成文本是一大便利，不仅能减少医生不必要的工作量，降低经验不足的医生出错的概率，还能降低患者等待的时间。

由于胎儿心脏超声图像具有纹理不清晰、噪声大、背景信息单一等特点，为胎儿心脏超声图像生成诊断报告具有很大的挑战。当胎儿心脏超声图像内存在多个目标时，如果形状不固定，由于胎儿心脏超声图像成像时的仪器角度不同，同一个器官在不同的图像上的大小、形状不一定一样，不同器官在同一个图中形状有可能一样，很难判断是否是同一个器官。相比于自然图像简洁明了的描述，胎儿心脏超声图像中很多诊断报告都比较长，偏向于模板化，且胎儿心脏超声图像大都是针对少量疾病类别的图像，图像间差异较小，单纯的监督学习方法不能很好的拟合数据真实的分布，以至于不能很好地获取图像中有用的信息。

发明内容

针对以上问题，提出了一种胎儿心脏超声图像诊断报告自动生成系统的实现方法，此方法利用注意力机制来关注图像中的重点区域，并使用多次交互的方式对注意力进行增强，这有利于模型识别图像重点区域以及生成较长诊断报告的能力。同时，使用对比学习，将图像类间差异增大，类内差异减小，增强图像的表示能力，更好地获取图像中有用的信息，进而提升整体模型的性能。最后将模型封装到系统中，医生可以通过简单的交互式界面进行辅助诊断。

本发明旨在解决以上现有技术的问题，提出了一种胎儿心脏超声图像诊断报告自动生成系统的实现方法，包括以下步骤：

1)将输入的胎儿心脏超声图像进行两种数据增强后编码为特征表示，根据特征计算对比损失

2)根据步骤1)得到的图像编码特征，使用注意力机制计算出全局图像特征和局部注意特征；

3)结合步骤2)得到的局部注意特征、图像对应真实句子的词向量和解码器上一个时间步的上下文向量得到新的特征；

4)将步骤3)得到的特征与解码器的隐藏状态进行交互，将交互后的输入和隐藏状态传入到解码器LSTM中；

5)将步骤2)计算得到的全局图像特征与解码器生成的当前时间步的隐藏状态一起传入到注意力块中，将注意力块生成的特征和解码器的隐藏状态使用GLU激活函数计算得到新的特征，称为上下文信息，利用上下文信息预测生成词，并根据真实词和生成词计算交叉熵损失

6)、循环步骤1)到步骤5)训练模型。

7)将步骤6)训练得到的模型封装到胎儿心脏超声图像诊断报告自动生成系统中。

本发明具有以下有益技术效果：

本发明提出的方法，可以利用注意力机制自动关注图像的重点区域，充分利用图像和句子模态间的高阶交互信息，并使用了一种多阶交互的方式来对注意力进行增强，减少上下文信息的丢失，使其能够解决部分诊断报告过长的问题。对于胎儿心脏超声图像大都是针对少量疾病类别的图像，图像间差异较小，类间差异与类内差异界限不明确的问题，使用对比学习思想，构建对比损失训练，让相似度高的样本接近，相似度低的样本远离，从而提高编码器对图像的表示能力，提高整体模型生成句子的准确性。更有效地辅助医生进行诊断。

附图说明

图1是本发明的总体框架图；

图2是构建对比损失的示意图；

图3是解码器端每个时间步工作的图。

图4是胎儿心脏超声图像诊断报告自动生成系统数据预处理的示意图。

图5是胎儿心脏超声图像诊断报告自动生成系统诊断超声图像的示意图。

图6是胎儿心脏超声图像诊断报告自动生成系统生成的诊断报告完整图。

图7是胎儿心脏超声图像诊断报告自动生成系统的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

如图1所示，一种胎儿心脏超声图像诊断报告自动生成系统的实现方法，包括：

1)、构建胎儿心脏超声图像数据集，对训练的一批胎儿心脏超声图像进行必要的预处理操作。

2)、图像编码为特征表示。

3)、如图2所示，构建并计算对比损失。

4)、根据步骤2)得到的图像编码表示，使用注意力机制计算出全局图像特征和局部注意特征。

5)、结合步骤4)得到的局部注意特征、图像对应真实句子的词向量和解码器上一个时间步的上下文向量得到新的特征。

6)、如图3所示，将步骤5)得到的特征与解码器的隐藏状态进行交互，以减少上下文信息的丢失，更好地建模长距离语义。将交互后的输入和隐藏状态传入到解码器LSTM中。

7)、将步骤4)计算得到的全局图像特征与解码器生成的当前时间步的隐藏状态一起传入到注意力块中，以更好地利用图像信息和语义信息之间的高阶交互。将注意力块生成的特征和解码器的隐藏状态使用GLU激活函数计算得到新的特征，称为上下文信息。并利用上下文信息预测生成词。

8)、结合步骤3)的对比损失与步骤7)的预测词和真实词之间的交叉熵损失，训练模型。

9)、将训练好的模型封装到胎儿心脏超声图像诊断报告自动生成系统中，系统主要包括两个功能，分别是图像增强、生成报告；在使用系统时，首先选择性地对图像预处理，然后点击系统的生成报告按钮，系统会使用模型推理，生成对应胎儿心脏超声图像的诊断报告，显示到系统右下角，并且可以手动地保存报告与图像。

10)、系统使用包括：如图4所示，首先可以选择性的对图像进行预处理工作。预处理之后，如图5所示，传入图像，点击生成报告，系统会根据步骤2)、步骤4)、步骤5)、步骤6)、步骤7)进行推理，将生成的报告显示在系统右下角的框内。如图5所示，生成的诊断报告和图像一起保存到doc文档中，供用户打印。如图6所示，生成的诊断报告结果和图像一起保存到文件中。图7为使用系统生成图像对应诊断报告的流程图。

进一步的，所述步骤1)首先使用两种数据增强方法，对训练的一个批次大小为B的图像

使用两种不同的数据增强方式增强得到新的图像{f_aug1(I₁),...,f_aug1(I_B),f_aug2(I₁),...,f_aug2(I_B)}，数据增强方式f_aug1、f_aug2包括随机旋转、水平翻转、垂直翻转等方式。

进一步的，所述步骤2)的具体操作为：将步骤1)得到的增强后的图像当做新的一批图像，批次大小变为原来的两倍，将这些图像传入到编码器中，编码器采用了残差网络Resnet-101：

V_i＝Resnet101(I_i)

得到2B个图像的编码特征

其中图像特征

表示图像编码后得到了N组特征，v_k表示图像的第k组特征，

表示每组图像特征的维度，D_v是维度大小。

进一步的，所述步骤3)的具体细节为：对批次大小为2B的图像特征

中的每个图像V_i使用全局平均池化操作，再使用一个全连接层将其映射为新的图像特征：

其中

表示特征的维度大小为n，fc表示全连接层。对于同一张图像的两种不同数据增强后的特征(zⁱ,z^j)，用以下公式计算得到对比损失：

其中τ是超参数温度系数，能调节对困难样本的关注程度，温度系数越小，越能将原始样本和最相似的负样本分开。sim(zⁱ,z^j)为zⁱ,z^j这两个特征向量的余弦相似度，计算公式如下所示：

分别表示图像特征向量zⁱ,z^j的第k个值。

总的对比损失函数为这一批图像的对比损失函数之和：

其中k∈[1,2,...,B]，第k个图像和第k+B个图像为同一张图像的两种不同数据增强后的图像。l表示损失函数。

进一步的，从所述步骤4)开始，后面步骤所有的描述都是对于一副图像而言，一批图像中的其他图像操作同理。对于一批图像特征

中的一个图像特征V_i做处理，得到注意力块的初始查询Q⁽⁰⁾、键K⁽⁰⁾、值V⁽⁰⁾，V_i的值如步骤2)所示：

K⁽⁰⁾＝V_i

V⁽⁰⁾＝V_i

然后使用注意力机制计算得到图像注意力特征：

其中M为注意力块的叠加个数。每个注意力块的计算过程F_X-Linear(K,V,Q)，计算公式如下所示：

β^s＝softmax(B^s)

其中W_k、

W_b、W_e、W_v、

都是嵌入矩阵，k_i表示第i个键，

查询Q和每个键k_i之间的联合双线性查询-键表示，σ为激活函数，B^s为变换后的双线性查询-键表示，

为B^s的第i个元素，

和

表示嵌入的维度，β^s为B^s的分布，

为β^s的第i个元素，

为

计算得到的全局通道描述符，β^c为信道上的注意分布，v_i为值序列V的第i个值，⊙表示元素乘积；

注意力块叠加的计算公式如下：

其中

表示嵌入矩阵，m＝{1,2,3,...,M+1}，M表示叠加的注意模块个数。

表示m个注意力块叠加之后得到的特征，

表示初始键序列K⁽⁰⁾经过m个注意力块叠加之后得到K^(m)的第i个元素，

表示表示初始值序列V⁽⁰⁾经过m个注意力块叠加之后得到V^(m)的第i个元素。

叠加注意力块M个后，得到全局图像特征v_global和局部注意特征v_att如下：

其中

是嵌入矩阵，D是维度大小。

进一步的，所述步骤5)中的具体细节为：对于解码器LSTM当前时间步t，根据步骤4)计算得到的局部注意特征v_att和当前时间步的词向量，解码器LSTM当前时间步的输入为：

x_t＝[v_att+c′_t-1,e_t]

进一步的，所述步骤6)多次交互输入与隐藏状态的计算过程如下：

其中e_t是当前时间步的词向量，⊙代表元素乘积，c′_t-1是上一个时间步的上下文信息。

是嵌入矩阵，D_x,D_h是输入特征x_t和隐藏状态h_t-1的维度，x_t与h_t-1分别为当前输入特征和LSTM上一个时间步的隐藏状态，

等同于x_t，

等同于h_t-1。当t为0时，即第一个时间步的时候，h_-1、c′_-1为初始化。输入特征每次都与最新计算的隐藏状态的嵌入做元素乘积得到新的特征，隐藏状态每次都与最新计算的特征的嵌入做元素乘积得到新的隐藏状态。

与

为计算后最终的特征与隐藏状态。

多次交互后的输入特征和隐藏状态输入到解码器LSTM中：

其中c_t表示LSTM第t个时间步的单元状态。

进一步的，所述步骤7)的具体操作为：将解码器当前时间步的隐藏状态h_t作为注意力块的查询，步骤4)计算得到的图像全局特征v_global同时作为键和值，传入到注意力块中计算得到新的特征

使用全连接层调整

的维度后与当前时间步的隐藏状态一起使用GLU激活函数，可以得到当前时间步的上下文信息c′_t：

c′_t＝GLU([W_deF_X-Linear(v_global,v_global,h_t),h_t])

其中W_de是嵌入矩阵，F_X-Linear表示一个X-Linear注意力块的计算。

使用上下文信息预测当前时间步输出词向量的分布，即生成的向量中各个词所占的概率：

w_t＝Softmax(W_|Σ|c′_t)

其中W_|Σ|是嵌入矩阵，|Σ|是词表的大小。最后直接取概率最大的词作为当前时间步的输出。

解码器LSTM工作过程中，第一个时间步的词向量代表的是一个“<start>”的特殊字符，最后一个时间步生成的词向量代表特殊字符“<end>”。重复步骤4)到步骤7)中生成词的过程，直到生成“<end>”为止，句子生成完毕。

训练的交叉熵损失函数如下所示：

其中的

表示根据前t-1个真实词组成的真实句子

生成当前时间步的真实词

的概率。T表示真实句子的长度。

进一步的，所述步骤8)的具体细节为：综合步骤3)和步骤7)的损失函数，构造整个模型训练的总损失函数。由于两个损失在训练中的重要性会有所区别，组合的总损失函数如下所示：

L_all＝αL_c+βL(θ)

其中超参数α和β为两个损失在训练中的权重。

进一步的，所述步骤9)将训练好的模型封装到胎儿心脏超声图像诊断报告自动生成系统中，用户在点击生成报告时，系统进行的操作为：首先使用Resnet101作为编码器提取图像的一组区域特征，通过注意模块得到全局特征和注意特征，注意特征在每个时间步与词嵌入向量、前一个时间步的上下文向量融合作为解码器的输入，在每个时间步，输入都与前一个时间步的隐藏状态做多次交互，以更好地获得前面时间步的信息，融合之后的特征和新的隐藏状态输入到LSTM解码，LSTM每个时间步的输出与图像全局特征经过注意模块计算并使用GLU激活函数得到上下文信息，上下文信息经过全连接层解码为预测的词。直到预测词为特殊字符“<end>”为止，推理过程结束。推理过程结束后，将所有生成的词组成句子，显示到系统界面中。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种胎儿心脏超声图像诊断报告自动生成系统的实现方法，其特征在于，包括以下步骤：

1)将输入的胎儿心脏超声图像进行两种数据增强后编码为特征表示，根据特征计算对比损失；

3)结合步骤2)得到的局部注意特征、图像对应真实句子的词向量和解码器上一个时间步的上下文向量得到新的输入特征；

4)将步骤3)得到的输入特征与解码器的隐藏状态进行交互，将交互后得到的新的输入特征和新的隐藏状态传入到解码器LSTM中；

5)将步骤2)计算得到的全局图像特征与解码器生成的当前时间步的隐藏状态一起传入到注意力块中，将注意力块生成的特征和解码器的隐藏状态使用GLU激活函数计算得到新的特征，称为上下文信息，利用上下文信息预测生成词，并根据真实词和生成词计算交叉熵损失；

6)、循环步骤1)到步骤5)训练模型；

2.根据权利要求1所述一种胎儿心脏超声图像诊断报告自动生成系统的实现方法，其特征在于：步骤1)所述将输入图像编码为特征表示，同时计算对比损失。

3.根据权利要求2所述一种胎儿心脏超声图像诊断报告自动生成系统的实现方法，其特征在于：步骤2)所述使用注意力机制计算出全局图像特征v_global和局部注意特征v_att。

4.根据权利要求1所述一种胎儿心脏超声图像诊断报告自动生成系统的实现方法，其特征在于：所述步骤3)具体为：对于解码器LSTM当前时间步t，根据局部注意特征v_att和当前时间步的词向量，得到解码器LSTM当前时间步的输入x_t。

5.根据权利要求1所述一种胎儿心脏超声图像诊断报告自动生成系统的实现方法，其特征在于：所述步骤4)中多次交互输入x_t与上一个时间步的隐藏状态h_t-1的计算过程如下：

其中e_t是当前时间步的词向量，⊙代表元素乘积，

等同于x_t，

等同于h_t-1；经过以上的计算，得到的

与

为计算后最终的特征与隐藏状态；将多次交互后的输入特征

和隐藏状态

输入到解码器LSTM参与解码。

6.根据权利要求1所述一种胎儿心脏超声图像诊断报告自动生成系统的实现方法，其特征在于：所述步骤5)具体包括：将解码器当前时间步的隐藏状态h_t作为注意力块的查询，图像全局特征v_global同时作为键和值，传入到注意力块中计算得到新的特征

使用全连接层调整

的维度后与当前时间步的隐藏状态一起使用GLU激活函数，得到上下文信息c_t′。并使用上下文信息预测当前时间步输出词向量的分布。

7.根据权利要求1-6任一项所述一种胎儿心脏超声图像诊断报告自动生成系统的实现方法，其特征在于：

构造整个模型训练的总损失函数为：

其中超参数α和β为两个损失在训练中的权重，左边是总对比损失k∈[1,2,...,B]，第k个图像和第k+B个图像为同一张图像的两种不同数据增强后的图像，右边是交叉熵损失，

表示根据前t-1个真实词组成的真实句子

生成当前时间步的真实词

的概率，T表示真实句子的长度，L_c表示总对比损失函数。

8.根据权利要求1所述一种胎儿心脏超声图像诊断报告自动生成系统的实现方法，其特征在于：所述步骤7)将训练好的模型封装到系统中，系统主要包括两个功能，分别是图像增强、生成报告；在使用系统时，首先选择性地对图像预处理，然后点击系统的生成报告按钮，系统会使用模型推理，生成对应胎儿心脏超声图像的诊断报告，显示到系统右下角，并且可以手动地保存报告与图像。