CN112581431B

CN112581431B - 一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法

Info

Publication number: CN112581431B
Application number: CN202011418672.6A
Authority: CN
Inventors: 曾宪华; 黄正义
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Guangzhou Dayu Chuangfu Technology Co ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2022-08-23
Anticipated expiration: 2040-12-07
Also published as: CN112581431A

Abstract

本发明公开了一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法，包括：通过长短时记忆网络提取超声图像诊断报告的句子特征和词特征；在生成器不同阶段的特征图与注意力特征相拼接作为下一阶段的输入；利用真实超声图像和生成超声图像的深度特征和浅层特征构建内容保持损失，同时结合判别器对抗损失共同优化生成超声图像；内容损失通过原始超声图像和生成超声图像的深度特征以及浅层特征之间的差异来构造；通过构建的损失函数，利用梯度下降法优化生成器模型。本发明能够通过超声诊断报告生成相应的超声图像，同时保证图像内容与诊断报告的语义一致，并生成细致的纹理细节。

Description

一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法

技术领域

本发明涉及超声图像生成以及深度学习和从文本生成图像的方法。结合对抗损失，注意力机制和内容保持损失来优化从超声诊断报告生成超声图像的过程。

背景技术

在医疗领域，医生的诊断过程通常都是经验性的。因此诊断的速度和准确性都是随医生的经验和能力而定的。在诊断过程中若能够有相应病例作为参考，可以有效的提升医生的诊断速率和准确性。也能够进一步减小新人医生的诊断压力。因此我们希望可以从诊断报告生成具有与之相同或者相似病理的医学图像作为参考，以加快医生的诊断速度和医生的诊断准确率。同时，由于图像存储消耗的存储资源巨大，多数医院都会选择定期删除数据库的老旧数据。这也造成了对过往病例查询困难的问题。无论是对医学教育所需要的数据收集，还是作为诊断参考的需求都造成了一定的困扰。相反，文本的存储资源占比要远远小于图像的存储资源占比。因此，通过只存储诊断报告数据，而在需要时通过诊断报告生成与之相应的医学图像能够有效的节省存储资源。可以为各方医学图像数据需求提供更大的数据存储能力。而目前从诊断报告生成医学图像存在以下问题：1.为提供相应图像作为医生诊断的参考，生成图像的内容准确性尤为重要。如何保证生成图像的内容与诊断报告一致。2.医学图像不同于自然图像，对于图像的质量有更高的要求。如何生成细节纹理更加丰富清晰的图像。而目前超声图像在医学图像领域应用尤为广泛，因此从超声诊断报告生成超声图像的研究对于医学图像领域意义重大。

发明内容

基于上述问题，通过生成对抗网络从超声诊断报告重建超声图像：通过长短时记忆网络提取超声诊断报告的句子特征和词特征；通过将词特征与每个阶段的特征图相结合得到注意力特征，将注意力特征和上一阶段的特征图共同作为下一阶段的输入，以此提高文本特征的利用率，同时进一步保持生成超声图像与超声诊断报告的语义一致性；然后结合对抗损失和内容保持损失共同优化生成超声图像的全局内容和局部细节；计算总目标损失的梯度，利用梯度迭代更新生成模型。

本发明旨在解决上述现有技术问题。提出了一种可以从超声诊断报告生成对应超声图像的方法。本发明的技术方案包括以下步骤：

1)通过超声诊断报告构建一个词库，每一个单词对应一个数字，以此将诊断报告构建为由数字表示的一维向量，并作为长短时记忆网络的输入。通过统计各个单词在超声诊断报告文本数据中出现的次数进行排序，其次序与单词构成一个字典，即次序就代表该单词。

2)通过长短时记忆网络提取句子特征和词特征，将长短时记忆网络各阶段的输出进行拼接得到词特征w，长短时记忆网络最后一层的隐藏层作为句子特征s。

3)将句子特征s与词特征w输入到由卷积神经网络构成的生成器G中，通过上采样的方式生成与假图像。

4)将生成图像

和真实图像I输入到由卷积神经网络构成的判别器D中，通过生成对抗思想得到对抗损失。

5)使用VGG网络提取真实图像和生成图像的深度特征，构建深度特征之间的均方误差，同时求取真实图像与生成图像的像素点之间的均方误差，最后计算生成图像相邻像素点之间的均方误差，通过三项均方误差构建内容保持损失。

6)结合内容保持损失与对抗损失，从全局内容和局部细节来优化生成图像。

7)最后通过计算损失梯度，通过梯度反向传播算法优化生成器与判别器。

进一步的，通过诊断报告构建词库，每个词对应一个数字，将诊断报告构建为数字代表的一维特征S。

进一步的，通过长短时记忆网络提取句子特征和词特征：

s,w＝LSTM(S)

其中s代表句子特征，w代表词特征，LSTM代表长短时记忆网络[2]。

进一步的，将词特征与句子特征作为输入生成假图像，生成器由3个阶段构成，每个阶段生成的特征图与词特征构建成注意力特征，词特征和特征图同时作为下一阶段的输入：

f₀＝H₀(s),

f_i＝H_i(f_i-1,F_i ^att(f_i-1,w)),i∈{1,2,...,x-1},

其中H_i代表第i个阶段，我们的模型共3个阶段。f_i代表第i个阶段的特征图。F_i ^att代表第i个阶段的注意力模型。H_G代表图像生成层，将特征图转换为图像矩阵。

代表生成图像，x代表模型的阶段数，本模型取3，H₀代表第一阶段，即LSTM提取文本特征阶段。f₀代表第一阶段的特征图，即LSTM提取文本特征阶段。

其中注意力模型F^att如下：

词特征w首先由感知层A_i转换到和特征图相同的语义空间中。w′_i＝A_iw代表转换后的词特征。计算词特征w′_i和特征图f_i每个子区域f_i ^j,j∈{1,...,50}之间的注意力分数：

其中r_i ^j,k＝f_i ^jw′_i ^k，w′_i ^k代表第k个单词，N代表句子长度。由每个单词的注意力分数我们可以得到注意力特征

进一步的，通过生成对抗的思想：生成器生成图像期望判别器尽可能判别生成的图像为真，而判别器尽可能判别生成图像为假，以此构建对抗损失：

其中D代表判别器，G代表生成器，I代表真实图像。

代表判别器判别真实图形为真的期望，

代表判别器判别真实图形与文本匹配的期望。

代表判别器判别生成图像为假的期望，

代表判别器判别生成图像与文本不匹配的期望。

进一步的，为保持生成图像的纹理细节和整体内容结构更加真实，利用内容保持损失来约束生成图像的深度特征和浅层特征与真实图像一致：

L_p＝L_MSE+L_VGG+L_TV

其中MSE代表均方差函数，VGG代表VGG卷积神经网络[1]，TV代表总变差损失函数。P代表生成图像的高，Q代表生成图像的宽，U₁代表提取的深度特征的高，U₂代表提取的深度特征的宽。y代表真实图像的像素点，

代表生成图像的像素点。v代表真实图像深度特征的像素点，

代表生成图像深度特征的像素点。

进一步的，结合判别损失和内容保持损失共同优化生成模型，最终的目标函数为：

其中λ_i,i∈{1,2,3,4}代表各项损失的权重。

综上，本发明通过长短时记忆网络提取超声图像诊断报告的句子特征和词特征，其中取每一状态的输出拼接为词特征，最后一层隐藏层的状态作为句子特征；在生成器不同阶段的特征图与注意力特征相拼接作为下一阶段的输入，更加充分的利用句子特征，优化生成超声图像与超声诊断报告的语义一致性，其中注意力特征通过计算每一个单词和图像之间的注意力得分取得；利用真实超声图像和生成超声图像的深度特征和浅层特征构建内容保持损失，约束生成超声图像的内容及结构更加接近真实超声图像，同时结合判别器对抗损失共同优化生成超声图像；内容损失通过原始超声图像和生成超声图像的深度特征以及浅层特征之间的差异来构造，约束其均方误差，保持深度和浅层特征的相似性，使生成超声图像具有真实超声图像的纹理细节，并保持图像内容全局一致；判别器损失来自于另一个卷积神经网络，通过最小化生成超声图像而最大化真实超声图像的概率产生；通过构建的损失函数，利用梯度下降法优化生成器模型。

本发明还具有以下优点及有益效果：

1、提出了基于超声图像的从文本生成图像的方法，首次将文本生成应用到医学领域，并针对超声图像的生成做模型优化，该研究对于医学辅助诊断和医学图像存储有着重要的研究意义。

2、为符合医学图像的高要求，提出通过内容保持损失从深度和浅层特征两方面，分别计算真实超声图像与生成超声图像的像素点之间的均方误差和提取的两幅图像的深度特征之间的均方误差，以及计算生成超声图像的相邻像素点之间的均方误差，来优化超声图像的生成，同时结合注意力机制保证生成超声图像内容与超声诊断报告之间的语义一致性。

3、本发明能够从超声诊断报告生成对应的超声图像，通过内容保持损失保证生成超声图像纹理细节的真实性。

附图说明

图1为本发明的算法框架图；

图2，图3为本发明的实验结果图。

具体实施方式

下面将结合本发明实施事例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上诉技术问题的技术方案是：

通过诊断报告构建词库，通过统计各个单词整个文本数据中出现的次数进行排序，其次序与单词构成一个字典，即次序就代表该单词，以此将诊断报告构建为由数字表示的一维向量；为了提取更加有效的句子特征s和词特征w，本发明使用对离散数据具有更加优秀的特征提取能力的模型长短时记忆网络；生成模型由三个阶段组成，将句子特征s和词特征w作为生成器G的输入，其中词特征结合注意力机制求得注意力特征，将注意力特征和每个阶段的特征图作为下一阶段的输入，更加充分的利用句子特征，优化生成超声图像与超声诊断报告的语义一致性；通过将生成图像

输入判别器D得到对抗损失

使用VGG16网络提取真实图像I和生成图像

的深度特征v和

构建深度特征之间的均方误差L_VGG，同时求取真实图像与生成图像的像素点之间的均方误差L_MSE，最后计算生成图像相邻像素点之间的均方误差L_TV，通过三项均方误差构建内容保持损失L_P；结合内容保持损失与对抗损失，从全局内容和局部细节来优化生成图像；最后通过计算损失梯度，通过梯度反向传播算法优化生成模型。

下面将详细说明本发明的技术方案：

一种从超声诊断报告生成超声医学图像的方法，包括：

为了将超声诊断报告作为模型输入，本发明通过超声诊断报告构建一个词库，每一个单词对应一个数字，以此将诊断报告构建为由数字表示的一维向量。通过统计各个单词在整个超声诊断报告文本数据中出现的次数进行排序。其次序与单词构成一个字典，即次序就代表该单词。将诊断报告构建为数字代表的一维特征作为长短时记忆网络的输入。

为了提取更加有效的句子特征和词特征，我们使用对离散数据具有更加优秀的特征提取能力的模型长短时记忆网络；通过长短时记忆网络提取句子特征和词特征，将长短时记忆网络各阶段的输出进行拼接得到词特征w，长短时记忆网络最后一层的隐藏层作为句子特征s。

将句子特征s与词特征w输入到由卷积神经网络构成的生成器G中，通过上采样的方式生成与诊断报告对应的256x256大小的假图像，生成器由3个阶段构成，每个阶段生成的特征图f_i与词特征w构建成注意力特征

注意力特征

特征图f_i同时作为下一阶段的输入；每阶段的特征图大小分别为64x64,128x128,256x256。

将生成图像

和真实图像I输入到由卷积神经网络构成的判别器D中，通过生成对抗的思想得到对抗损失：生成器生成图像期望判别器尽可能判别生成的图像为真，而判别器尽可能判别生成图像为假，以此构建对抗损失使生成图像逐步逼近真是图像。

为保持生成图像的纹理细节和整体内容结构更加真实，使用VGG16网络提取真实图像和生成图像的深度特征，构建深度特征之间的均方误差，同时求取真实图像与生成图像的像素点之间的均方误差，最后计算生成图像相邻像素点之间的均方误差，通过三项均方误差构建内容保持损失。利用内容保持损失L_p来约束生成图像的深度特征和浅层特征与真实图像一致；其中L_p＝L_MSE+L_VGG+L_TV，内容保持损失由三部分组成，L_MSE其中代表生成图像与真实图像像素点之间的均方误差，L_VGG代表真实图像与生成图像深度特征之间的均方误差，即感知VGG损失，L_TV而代表生成图像相邻像素点之间的均方误差，即总变差损失。

结合判别损失和内容保持损失共同优化生成模型

代表来自判别器的对抗损失，L_G代表生成器的整体损失，从全局内容和局部细节来优化生成图像。

根据误差反向传播算法求得总损失关于生成图像的梯度，然后通过基于梯度的优化方法对生成器与判别器进行优化。

步骤一：诊断报告预处理操作

通过统计各个单词在所有诊断报告中出现的次数，通过从高到低排序，其排序对应的数字为每个单词构建一个字典。以这些数字代表每个单词，将诊断报告构建成由数字代表的一维向量。

步骤二：从诊断报告生成医学图像

通过长短时记忆网络提取句子特征和词特征：

s,w＝LSTM(S)

将词特征与句子特征作为输入生成假图像，生成器由3个阶段构成，每个阶段生成的特征图与词特征构建成注意力特征，词特征和特征图同时作为下一阶段的输入：

f₀＝H₀(s),

f_i＝H_i(f_i-1,F_i ^att(f_i-1,w)),i∈{1,2,...,x-1},

其中H_i代表第i个阶段，我们的模型共3个阶段。f_i代表第i个阶段的特征图。x代表模型的阶段数，本模型取3，H₀代表第一阶段，即LSTM提取文本特征阶段。f₀代表第一阶段的特征图，即LSTM提取文本特征阶段。F_i ^att代表第i个阶段的注意力模型。H_G代表图像生成层，将特征图转换为图像矩阵。

代表生成图像。其中注意力模型F^att如下：

其中r_i ^j,k＝f_i ^jw′_i ^k，w′₁ ^k代表第k个单词，N代表句子长度。由每个单词的注意力分数我们可以得到注意力特征

步骤三：构建模型损失函数

通过生成对抗的思想：生成器生成图像期望判别器尽可能判别生成的图像为真，而判别器尽可能判别生成图像为假，以此构建对抗损失：

其中D代表判别器，G代表生成器，I代表真实图像。

代表判别器判别真实图形为真的期望，

代表判别器判别真实图形与文本匹配的期望。

代表判别器判别生成图像为假的期望，

代表判别器判别生成图像与文本不匹配的期望。

为保持生成图像的纹理细节和整体内容结构更加真实，利用内容保持损失来约束生成图像的深度特征和浅层特征与真实图像一致：

L_p＝L_MSE+L_VGG+L_TV

其中MSE代表均方差函数，VGG代表VGG卷积神经网络[1]，TV代表总变差损失函数。P代表生成图像的高，Q代表生成图像的宽，U₁代表提取的深度特征的高和U₂代表提取的深度特征的宽。y代表真实图像的像素点，

代表生成图像的像素点。v代表真实图像深度特征的像素点，

代表生成图像深度特征的像素点。

结合判别损失和内容保持损失共同优化生成模型，最终的目标函数为：

其中λ_i,i∈{1,2,3,4}代表各项损失的权重。

采用上述方法得到的结果图如图2和图3所示。

显然，以上所述为本发明的较佳实例，并不用于限定本发明的保护范围。凡在本发明的原则之内，任何熟悉本领域的技术人员作出修改、同等替换和改进，都应视为包含在本发明的保护范围内。

[1]Simonyan K,Zisserman A.Very Deep Convolutional Networks for Large-Scale Image Recognition[J].international conference on learningrepresentations,2015.

[2]Hochreiter S,Schmidhuber J.Long short-term memory[J].NeuralComputation,1997,9(8):1735-1780.

Claims

1.一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法，其特征在于，包括以下步骤：

1)通过超声诊断报告构建一个词库，每一个单词对应一个数字，以此将诊断报告构建为由数字表示的一维向量，并作为长短时记忆网络的输入；

2)通过长短时记忆网络提取句子特征和词特征，将长短时记忆网络各阶段的输出进行拼接得到词特征w，长短时记忆网络最后一层的隐藏层作为句子特征s；

3)将句子特征s与词特征w输入到由卷积神经网络构成的生成器G中，通过上采样的方式生成假图像；所述生成器G由三个阶段组成，每个阶段生成的特征图f_i与词特征w构建成注意力特征

注意力特征

和特征图f_i同时作为下一阶段的输入：

f₀＝H₀(s),

其中H_i代表第i个阶段，f_i代表第i个阶段的特征图，F_i ^att代表第i个阶段的注意力模型，H_G代表图像生成层，

代表生成图像，x代表模型的阶段数，H₀代表第一阶段，f₀代表第一阶段的特征图；

所述注意力模型的处理过程如下：

词特征w首先由感知层A_i转换到和特征图相同的语义空间中，w′_i＝A_iw，w′_i代表转换后的词特征，计算转换后的词特征w′_i和特征图f_i每个子区域f_i ^j,j∈{1,...,50}之间的注意力分数：

其中r_i ^j,k＝f_i ^jw′_i ^k，w′_i ^k代表第k个单词，N代表句子长度，由每个单词的注意力分数得到注意力特征

表示注意力分数；

4)将生成图像

和真实图像I输入到由卷积神经网络构成的判别器D中，通过生成对抗思想得到对抗损失，所述生成对抗思想为生成器生成假图像期望判别器判别生成的图像为真，而判别器判别生成图像为假，以此构建对抗损失：

其中D代表判别器，G代表生成器，I代表真实图像，

代表生成图像，

代表判别器判别真实图形为真的期望，

代表判别器判别真实图形与文本匹配的期望，

代表判别器判别生成图像为假的期望，

代表判别器判别生成图像与文本不匹配的期望；

5)使用VGG网络提取真实图像和生成图像的深度特征，构建深度特征之间的均方误差，同时求取真实图像与生成图像的像素点之间的均方误差，最后计算生成图像相邻像素点之间的均方误差，通过三项均方误差构建内容保持损失；

6)结合内容保持损失与对抗损失，从全局内容和局部细节来优化生成图像；

7)最后通过计算损失梯度，通过梯度反向传播算法优化生成器与判别器，所述优化生成器与判别器，最终的目标函数为：

其中λ_i,i∈{1,2,3,4}代表各项损失的权重。

2.根据权利要求1所述一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法，其特征在于：步骤1)中所述构建词库，通过统计各个单词在超声诊断报告文本数据中出现的次数进行排序，其次序与单词构成一个字典，即次序就代表该单词。

3.根据权利要求1所述一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法，其特征在于：步骤2)所述通过长短时记忆网络提取句子特征和词特征：

s,w＝LSTM(S)

其中s代表句子特征，w代表词特征，LSTM代表长短时记忆网络，S代表输入的一维文本向量。

4.根据权利要求1所述一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法，其特征在于：步骤5)所述内容保持损失L_p＝L_MSE+L_VGG+L_TV，其中L_MSE代表生成图像与真实图像像素点之间的均方误差，L_VGG代表真实图像与生成图像深度特征之间的均方误差，L_TV而代表生成图像相邻像素点之间的均方误差。

5.根据权利要求4所述一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法，其特征在于：所述L_MSE，L_VGG和L_TV如下：

其中MSE代表均方差函数，VGG代表VGG卷积神经网络，TV代表总变差损失函数，P代表生成图像的高，Q代表生成图像的宽，U₁代表提取的深度特征的高，U₂代表提取的深度特征的宽，y代表真实图像的像素点，

代表生成图像的像素点，v代表真实图像深度特征的像素点，

代表生成图像深度特征的像素点。