CN112581431B - 一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法 - Google Patents

一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法 Download PDF

Info

Publication number
CN112581431B
CN112581431B CN202011418672.6A CN202011418672A CN112581431B CN 112581431 B CN112581431 B CN 112581431B CN 202011418672 A CN202011418672 A CN 202011418672A CN 112581431 B CN112581431 B CN 112581431B
Authority
CN
China
Prior art keywords
image
representing
word
attention
generated image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011418672.6A
Other languages
English (en)
Other versions
CN112581431A (zh
Inventor
曾宪华
黄正义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Dayu Chuangfu Technology Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011418672.6A priority Critical patent/CN112581431B/zh
Publication of CN112581431A publication Critical patent/CN112581431A/zh
Application granted granted Critical
Publication of CN112581431B publication Critical patent/CN112581431B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10132Ultrasound image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法,包括:通过长短时记忆网络提取超声图像诊断报告的句子特征和词特征;在生成器不同阶段的特征图与注意力特征相拼接作为下一阶段的输入;利用真实超声图像和生成超声图像的深度特征和浅层特征构建内容保持损失,同时结合判别器对抗损失共同优化生成超声图像;内容损失通过原始超声图像和生成超声图像的深度特征以及浅层特征之间的差异来构造;通过构建的损失函数,利用梯度下降法优化生成器模型。本发明能够通过超声诊断报告生成相应的超声图像,同时保证图像内容与诊断报告的语义一致,并生成细致的纹理细节。

Description

一种基于内容保持与注意力机制的从超声诊断报告生成超声 图像的方法
技术领域
本发明涉及超声图像生成以及深度学习和从文本生成图像的方法。结合对抗损失,注意力机制和内容保持损失来优化从超声诊断报告生成超声图像的过程。
背景技术
在医疗领域,医生的诊断过程通常都是经验性的。因此诊断的速度和准确性都是随医生的经验和能力而定的。在诊断过程中若能够有相应病例作为参考,可以有效的提升医生的诊断速率和准确性。也能够进一步减小新人医生的诊断压力。因此我们希望可以从诊断报告生成具有与之相同或者相似病理的医学图像作为参考,以加快医生的诊断速度和医生的诊断准确率。同时,由于图像存储消耗的存储资源巨大,多数医院都会选择定期删除数据库的老旧数据。这也造成了对过往病例查询困难的问题。无论是对医学教育所需要的数据收集,还是作为诊断参考的需求都造成了一定的困扰。相反,文本的存储资源占比要远远小于图像的存储资源占比。因此,通过只存储诊断报告数据,而在需要时通过诊断报告生成与之相应的医学图像能够有效的节省存储资源。可以为各方医学图像数据需求提供更大的数据存储能力。而目前从诊断报告生成医学图像存在以下问题:1.为提供相应图像作为医生诊断的参考,生成图像的内容准确性尤为重要。如何保证生成图像的内容与诊断报告一致。2.医学图像不同于自然图像,对于图像的质量有更高的要求。如何生成细节纹理更加丰富清晰的图像。而目前超声图像在医学图像领域应用尤为广泛,因此从超声诊断报告生成超声图像的研究对于医学图像领域意义重大。
发明内容
基于上述问题,通过生成对抗网络从超声诊断报告重建超声图像:通过长短时记忆网络提取超声诊断报告的句子特征和词特征;通过将词特征与每个阶段的特征图相结合得到注意力特征,将注意力特征和上一阶段的特征图共同作为下一阶段的输入,以此提高文本特征的利用率,同时进一步保持生成超声图像与超声诊断报告的语义一致性;然后结合对抗损失和内容保持损失共同优化生成超声图像的全局内容和局部细节;计算总目标损失的梯度,利用梯度迭代更新生成模型。
本发明旨在解决上述现有技术问题。提出了一种可以从超声诊断报告生成对应超声图像的方法。本发明的技术方案包括以下步骤:
1)通过超声诊断报告构建一个词库,每一个单词对应一个数字,以此将诊断报告构建为由数字表示的一维向量,并作为长短时记忆网络的输入。通过统计各个单词在超声诊断报告文本数据中出现的次数进行排序,其次序与单词构成一个字典,即次序就代表该单词。
2)通过长短时记忆网络提取句子特征和词特征,将长短时记忆网络各阶段的输出进行拼接得到词特征w,长短时记忆网络最后一层的隐藏层作为句子特征s。
3)将句子特征s与词特征w输入到由卷积神经网络构成的生成器G中,通过上采样的方式生成与假图像。
4)将生成图像
Figure BDA0002821229280000023
和真实图像I输入到由卷积神经网络构成的判别器D中,通过生成对抗思想得到对抗损失。
5)使用VGG网络提取真实图像和生成图像的深度特征,构建深度特征之间的均方误差,同时求取真实图像与生成图像的像素点之间的均方误差,最后计算生成图像相邻像素点之间的均方误差,通过三项均方误差构建内容保持损失。
6)结合内容保持损失与对抗损失,从全局内容和局部细节来优化生成图像。
7)最后通过计算损失梯度,通过梯度反向传播算法优化生成器与判别器。
进一步的,通过诊断报告构建词库,每个词对应一个数字,将诊断报告构建为数字代表的一维特征S。
进一步的,通过长短时记忆网络提取句子特征和词特征:
s,w=LSTM(S)
其中s代表句子特征,w代表词特征,LSTM代表长短时记忆网络[2]。
进一步的,将词特征与句子特征作为输入生成假图像,生成器由3个阶段构成,每个阶段生成的特征图与词特征构建成注意力特征,词特征和特征图同时作为下一阶段的输入:
f0=H0(s),
fi=Hi(fi-1,Fi att(fi-1,w)),i∈{1,2,...,x-1},
Figure BDA0002821229280000024
其中Hi代表第i个阶段,我们的模型共3个阶段。fi代表第i个阶段的特征图。Fi att代表第i个阶段的注意力模型。HG代表图像生成层,将特征图转换为图像矩阵。
Figure BDA0002821229280000025
代表生成图像,x代表模型的阶段数,本模型取3,H0代表第一阶段,即LSTM提取文本特征阶段。f0代表第一阶段的特征图,即LSTM提取文本特征阶段。
其中注意力模型Fatt如下:
词特征w首先由感知层Ai转换到和特征图相同的语义空间中。w′i=Aiw代表转换后的词特征。计算词特征w′i和特征图fi每个子区域fi j,j∈{1,...,50}之间的注意力分数:
Figure BDA0002821229280000021
其中ri j,k=fi jw′i k,w′i k代表第k个单词,N代表句子长度。由每个单词的注意力分数我们可以得到注意力特征
Figure BDA0002821229280000022
进一步的,通过生成对抗的思想:生成器生成图像期望判别器尽可能判别生成的图像为真,而判别器尽可能判别生成图像为假,以此构建对抗损失:
Figure BDA0002821229280000031
其中D代表判别器,G代表生成器,I代表真实图像。
Figure BDA0002821229280000032
代表判别器判别真实图形为真的期望,
Figure BDA0002821229280000033
代表判别器判别真实图形与文本匹配的期望。
Figure BDA0002821229280000034
代表判别器判别生成图像为假的期望,
Figure BDA0002821229280000035
代表判别器判别生成图像与文本不匹配的期望。
进一步的,为保持生成图像的纹理细节和整体内容结构更加真实,利用内容保持损失来约束生成图像的深度特征和浅层特征与真实图像一致:
Lp=LMSE+LVGG+LTV
Figure BDA0002821229280000036
Figure BDA0002821229280000037
Figure BDA0002821229280000038
其中MSE代表均方差函数,VGG代表VGG卷积神经网络[1],TV代表总变差损失函数。P代表生成图像的高,Q代表生成图像的宽,U1代表提取的深度特征的高,U2代表提取的深度特征的宽。y代表真实图像的像素点,
Figure BDA0002821229280000039
代表生成图像的像素点。v代表真实图像深度特征的像素点,
Figure BDA00028212292800000310
代表生成图像深度特征的像素点。
进一步的,结合判别损失和内容保持损失共同优化生成模型,最终的目标函数为:
Figure BDA00028212292800000311
其中λi,i∈{1,2,3,4}代表各项损失的权重。
综上,本发明通过长短时记忆网络提取超声图像诊断报告的句子特征和词特征,其中取每一状态的输出拼接为词特征,最后一层隐藏层的状态作为句子特征;在生成器不同阶段的特征图与注意力特征相拼接作为下一阶段的输入,更加充分的利用句子特征,优化生成超声图像与超声诊断报告的语义一致性,其中注意力特征通过计算每一个单词和图像之间的注意力得分取得;利用真实超声图像和生成超声图像的深度特征和浅层特征构建内容保持损失,约束生成超声图像的内容及结构更加接近真实超声图像,同时结合判别器对抗损失共同优化生成超声图像;内容损失通过原始超声图像和生成超声图像的深度特征以及浅层特征之间的差异来构造,约束其均方误差,保持深度和浅层特征的相似性,使生成超声图像具有真实超声图像的纹理细节,并保持图像内容全局一致;判别器损失来自于另一个卷积神经网络,通过最小化生成超声图像而最大化真实超声图像的概率产生;通过构建的损失函数,利用梯度下降法优化生成器模型。
本发明还具有以下优点及有益效果:
1、提出了基于超声图像的从文本生成图像的方法,首次将文本生成应用到医学领域,并针对超声图像的生成做模型优化,该研究对于医学辅助诊断和医学图像存储有着重要的研究意义。
2、为符合医学图像的高要求,提出通过内容保持损失从深度和浅层特征两方面,分别计算真实超声图像与生成超声图像的像素点之间的均方误差和提取的两幅图像的深度特征之间的均方误差,以及计算生成超声图像的相邻像素点之间的均方误差,来优化超声图像的生成,同时结合注意力机制保证生成超声图像内容与超声诊断报告之间的语义一致性。
3、本发明能够从超声诊断报告生成对应的超声图像,通过内容保持损失保证生成超声图像纹理细节的真实性。
附图说明
图1为本发明的算法框架图;
图2,图3为本发明的实验结果图。
具体实施方式
下面将结合本发明实施事例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上诉技术问题的技术方案是:
通过诊断报告构建词库,通过统计各个单词整个文本数据中出现的次数进行排序,其次序与单词构成一个字典,即次序就代表该单词,以此将诊断报告构建为由数字表示的一维向量;为了提取更加有效的句子特征s和词特征w,本发明使用对离散数据具有更加优秀的特征提取能力的模型长短时记忆网络;生成模型由三个阶段组成,将句子特征s和词特征w作为生成器G的输入,其中词特征结合注意力机制求得注意力特征,将注意力特征和每个阶段的特征图作为下一阶段的输入,更加充分的利用句子特征,优化生成超声图像与超声诊断报告的语义一致性;通过将生成图像
Figure BDA0002821229280000043
输入判别器D得到对抗损失
Figure BDA0002821229280000041
使用VGG16网络提取真实图像I和生成图像
Figure BDA0002821229280000042
的深度特征v和
Figure BDA0002821229280000044
构建深度特征之间的均方误差LVGG,同时求取真实图像与生成图像的像素点之间的均方误差LMSE,最后计算生成图像相邻像素点之间的均方误差LTV,通过三项均方误差构建内容保持损失LP;结合内容保持损失与对抗损失,从全局内容和局部细节来优化生成图像;最后通过计算损失梯度,通过梯度反向传播算法优化生成模型。
下面将详细说明本发明的技术方案:
一种从超声诊断报告生成超声医学图像的方法,包括:
为了将超声诊断报告作为模型输入,本发明通过超声诊断报告构建一个词库,每一个单词对应一个数字,以此将诊断报告构建为由数字表示的一维向量。通过统计各个单词在整个超声诊断报告文本数据中出现的次数进行排序。其次序与单词构成一个字典,即次序就代表该单词。将诊断报告构建为数字代表的一维特征作为长短时记忆网络的输入。
为了提取更加有效的句子特征和词特征,我们使用对离散数据具有更加优秀的特征提取能力的模型长短时记忆网络;通过长短时记忆网络提取句子特征和词特征,将长短时记忆网络各阶段的输出进行拼接得到词特征w,长短时记忆网络最后一层的隐藏层作为句子特征s。
将句子特征s与词特征w输入到由卷积神经网络构成的生成器G中,通过上采样的方式生成与诊断报告对应的256x256大小的假图像,生成器由3个阶段构成,每个阶段生成的特征图fi与词特征w构建成注意力特征
Figure BDA0002821229280000051
注意力特征
Figure BDA0002821229280000052
特征图fi同时作为下一阶段的输入;每阶段的特征图大小分别为64x64,128x128,256x256。
将生成图像
Figure BDA0002821229280000053
和真实图像I输入到由卷积神经网络构成的判别器D中,通过生成对抗的思想得到对抗损失:生成器生成图像期望判别器尽可能判别生成的图像为真,而判别器尽可能判别生成图像为假,以此构建对抗损失使生成图像逐步逼近真是图像。
为保持生成图像的纹理细节和整体内容结构更加真实,使用VGG16网络提取真实图像和生成图像的深度特征,构建深度特征之间的均方误差,同时求取真实图像与生成图像的像素点之间的均方误差,最后计算生成图像相邻像素点之间的均方误差,通过三项均方误差构建内容保持损失。利用内容保持损失Lp来约束生成图像的深度特征和浅层特征与真实图像一致;其中Lp=LMSE+LVGG+LTV,内容保持损失由三部分组成,LMSE其中代表生成图像与真实图像像素点之间的均方误差,LVGG代表真实图像与生成图像深度特征之间的均方误差,即感知VGG损失,LTV而代表生成图像相邻像素点之间的均方误差,即总变差损失。
结合判别损失和内容保持损失共同优化生成模型
Figure BDA0002821229280000054
代表来自判别器的对抗损失,LG代表生成器的整体损失,从全局内容和局部细节来优化生成图像。
根据误差反向传播算法求得总损失关于生成图像的梯度,然后通过基于梯度的优化方法对生成器与判别器进行优化。
步骤一:诊断报告预处理操作
通过统计各个单词在所有诊断报告中出现的次数,通过从高到低排序,其排序对应的数字为每个单词构建一个字典。以这些数字代表每个单词,将诊断报告构建成由数字代表的一维向量。
步骤二:从诊断报告生成医学图像
通过长短时记忆网络提取句子特征和词特征:
s,w=LSTM(S)
其中s代表句子特征,w代表词特征,LSTM代表长短时记忆网络[2]。
将词特征与句子特征作为输入生成假图像,生成器由3个阶段构成,每个阶段生成的特征图与词特征构建成注意力特征,词特征和特征图同时作为下一阶段的输入:
f0=H0(s),
fi=Hi(fi-1,Fi att(fi-1,w)),i∈{1,2,...,x-1},
Figure BDA0002821229280000061
其中Hi代表第i个阶段,我们的模型共3个阶段。fi代表第i个阶段的特征图。x代表模型的阶段数,本模型取3,H0代表第一阶段,即LSTM提取文本特征阶段。f0代表第一阶段的特征图,即LSTM提取文本特征阶段。Fi att代表第i个阶段的注意力模型。HG代表图像生成层,将特征图转换为图像矩阵。
Figure BDA0002821229280000062
代表生成图像。其中注意力模型Fatt如下:
词特征w首先由感知层Ai转换到和特征图相同的语义空间中。w′i=Aiw代表转换后的词特征。计算词特征w′i和特征图fi每个子区域fi j,j∈{1,...,50}之间的注意力分数:
Figure BDA0002821229280000063
其中ri j,k=fi jw′i k,w′1 k代表第k个单词,N代表句子长度。由每个单词的注意力分数我们可以得到注意力特征
Figure BDA0002821229280000064
步骤三:构建模型损失函数
通过生成对抗的思想:生成器生成图像期望判别器尽可能判别生成的图像为真,而判别器尽可能判别生成图像为假,以此构建对抗损失:
Figure BDA0002821229280000065
其中D代表判别器,G代表生成器,I代表真实图像。
Figure BDA0002821229280000066
代表判别器判别真实图形为真的期望,
Figure BDA0002821229280000067
代表判别器判别真实图形与文本匹配的期望。
Figure BDA0002821229280000071
代表判别器判别生成图像为假的期望,
Figure BDA0002821229280000072
代表判别器判别生成图像与文本不匹配的期望。
为保持生成图像的纹理细节和整体内容结构更加真实,利用内容保持损失来约束生成图像的深度特征和浅层特征与真实图像一致:
Lp=LMSE+LVGG+LTV
Figure BDA0002821229280000073
Figure BDA0002821229280000074
Figure BDA0002821229280000075
其中MSE代表均方差函数,VGG代表VGG卷积神经网络[1],TV代表总变差损失函数。P代表生成图像的高,Q代表生成图像的宽,U1代表提取的深度特征的高和U2代表提取的深度特征的宽。y代表真实图像的像素点,
Figure BDA0002821229280000076
代表生成图像的像素点。v代表真实图像深度特征的像素点,
Figure BDA0002821229280000077
代表生成图像深度特征的像素点。
结合判别损失和内容保持损失共同优化生成模型,最终的目标函数为:
Figure BDA0002821229280000078
其中λi,i∈{1,2,3,4}代表各项损失的权重。
采用上述方法得到的结果图如图2和图3所示。
显然,以上所述为本发明的较佳实例,并不用于限定本发明的保护范围。凡在本发明的原则之内,任何熟悉本领域的技术人员作出修改、同等替换和改进,都应视为包含在本发明的保护范围内。
[1]Simonyan K,Zisserman A.Very Deep Convolutional Networks for Large-Scale Image Recognition[J].international conference on learningrepresentations,2015.
[2]Hochreiter S,Schmidhuber J.Long short-term memory[J].NeuralComputation,1997,9(8):1735-1780.

Claims (5)

1.一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法,其特征在于,包括以下步骤:
1)通过超声诊断报告构建一个词库,每一个单词对应一个数字,以此将诊断报告构建为由数字表示的一维向量,并作为长短时记忆网络的输入;
2)通过长短时记忆网络提取句子特征和词特征,将长短时记忆网络各阶段的输出进行拼接得到词特征w,长短时记忆网络最后一层的隐藏层作为句子特征s;
3)将句子特征s与词特征w输入到由卷积神经网络构成的生成器G中,通过上采样的方式生成假图像;所述生成器G由三个阶段组成,每个阶段生成的特征图fi与词特征w构建成注意力特征
Figure FDA0003687384860000011
注意力特征
Figure FDA0003687384860000012
和特征图fi同时作为下一阶段的输入:
f0=H0(s),
Figure FDA0003687384860000013
Figure FDA0003687384860000014
其中Hi代表第i个阶段,fi代表第i个阶段的特征图,Fi att代表第i个阶段的注意力模型,HG代表图像生成层,
Figure FDA0003687384860000015
代表生成图像,x代表模型的阶段数,H0代表第一阶段,f0代表第一阶段的特征图;
所述注意力模型的处理过程如下:
词特征w首先由感知层Ai转换到和特征图相同的语义空间中,w′i=Aiw,w′i代表转换后的词特征,计算转换后的词特征w′i和特征图fi每个子区域fi j,j∈{1,...,50}之间的注意力分数:
Figure FDA0003687384860000016
其中ri j,k=fi jw′i k,w′i k代表第k个单词,N代表句子长度,由每个单词的注意力分数得到注意力特征
Figure FDA0003687384860000017
Figure FDA0003687384860000018
表示注意力分数;
4)将生成图像
Figure FDA0003687384860000019
和真实图像I输入到由卷积神经网络构成的判别器D中,通过生成对抗思想得到对抗损失,所述生成对抗思想为生成器生成假图像期望判别器判别生成的图像为真,而判别器判别生成图像为假,以此构建对抗损失:
Figure FDA00036873848600000110
其中D代表判别器,G代表生成器,I代表真实图像,
Figure FDA00036873848600000111
代表生成图像,
Figure FDA00036873848600000112
代表判别器判别真实图形为真的期望,
Figure FDA00036873848600000113
代表判别器判别真实图形与文本匹配的期望,
Figure FDA00036873848600000114
代表判别器判别生成图像为假的期望,
Figure FDA0003687384860000021
代表判别器判别生成图像与文本不匹配的期望;
5)使用VGG网络提取真实图像和生成图像的深度特征,构建深度特征之间的均方误差,同时求取真实图像与生成图像的像素点之间的均方误差,最后计算生成图像相邻像素点之间的均方误差,通过三项均方误差构建内容保持损失;
6)结合内容保持损失与对抗损失,从全局内容和局部细节来优化生成图像;
7)最后通过计算损失梯度,通过梯度反向传播算法优化生成器与判别器,所述优化生成器与判别器,最终的目标函数为:
Figure FDA0003687384860000022
其中λi,i∈{1,2,3,4}代表各项损失的权重。
2.根据权利要求1所述一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法,其特征在于:步骤1)中所述构建词库,通过统计各个单词在超声诊断报告文本数据中出现的次数进行排序,其次序与单词构成一个字典,即次序就代表该单词。
3.根据权利要求1所述一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法,其特征在于:步骤2)所述通过长短时记忆网络提取句子特征和词特征:
s,w=LSTM(S)
其中s代表句子特征,w代表词特征,LSTM代表长短时记忆网络,S代表输入的一维文本向量。
4.根据权利要求1所述一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法,其特征在于:步骤5)所述内容保持损失Lp=LMSE+LVGG+LTV,其中LMSE代表生成图像与真实图像像素点之间的均方误差,LVGG代表真实图像与生成图像深度特征之间的均方误差,LTV而代表生成图像相邻像素点之间的均方误差。
5.根据权利要求4所述一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法,其特征在于:所述LMSE,LVGG和LTV如下:
Figure FDA0003687384860000023
Figure FDA0003687384860000024
Figure FDA0003687384860000031
其中MSE代表均方差函数,VGG代表VGG卷积神经网络,TV代表总变差损失函数,P代表生成图像的高,Q代表生成图像的宽,U1代表提取的深度特征的高,U2代表提取的深度特征的宽,y代表真实图像的像素点,
Figure FDA0003687384860000033
代表生成图像的像素点,v代表真实图像深度特征的像素点,
Figure FDA0003687384860000032
代表生成图像深度特征的像素点。
CN202011418672.6A 2020-12-07 2020-12-07 一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法 Active CN112581431B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011418672.6A CN112581431B (zh) 2020-12-07 2020-12-07 一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011418672.6A CN112581431B (zh) 2020-12-07 2020-12-07 一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法

Publications (2)

Publication Number Publication Date
CN112581431A CN112581431A (zh) 2021-03-30
CN112581431B true CN112581431B (zh) 2022-08-23

Family

ID=75127522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011418672.6A Active CN112581431B (zh) 2020-12-07 2020-12-07 一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法

Country Status (1)

Country Link
CN (1) CN112581431B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780483B (zh) * 2021-11-12 2022-01-28 首都医科大学附属北京潞河医院 结节超声分类数据处理方法及数据处理系统
CN114998607B (zh) * 2022-05-11 2023-01-31 北京医准智能科技有限公司 超声图像的特征提取方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543159A (zh) * 2018-11-12 2019-03-29 南京德磐信息科技有限公司 一种文本生成图像方法及装置
CN109754088A (zh) * 2017-11-06 2019-05-14 谷歌有限责任公司 具有训练生成式对抗网络的模块化基础结构的计算系统
CN110444277A (zh) * 2019-07-19 2019-11-12 重庆邮电大学 一种基于多生成多对抗的多模态脑部mri图像双向转换方法
US10733325B1 (en) * 2019-11-15 2020-08-04 Capital One Services, Llc Securing user-entered text in-transit

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111864B (zh) * 2019-04-15 2023-05-26 中山大学 一种基于关系模型的医学报告生成系统及其生成方法
US11423538B2 (en) * 2019-04-16 2022-08-23 Covera Health Computer-implemented machine learning for detection and statistical analysis of errors by healthcare providers

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754088A (zh) * 2017-11-06 2019-05-14 谷歌有限责任公司 具有训练生成式对抗网络的模块化基础结构的计算系统
CN109543159A (zh) * 2018-11-12 2019-03-29 南京德磐信息科技有限公司 一种文本生成图像方法及装置
CN110444277A (zh) * 2019-07-19 2019-11-12 重庆邮电大学 一种基于多生成多对抗的多模态脑部mri图像双向转换方法
US10733325B1 (en) * 2019-11-15 2020-08-04 Capital One Services, Llc Securing user-entered text in-transit

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"基于多模态递归网络的图像描述研究";束炎武;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20190115;第37-48页 *
"基于注意力机制与生成对抗网络的文本生成图像算法研究";黄正义;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20220315;第23-29页 *
"基于深度学习的图像描述模型研究及应用";关瑾宁;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20200215;第1-18页 *
"多特征融合的医学影像颜色感知算法";曾宪华 等;《计算机辅助设计与图形学学报》;20180331;第30卷(第3期);第375-384页 *

Also Published As

Publication number Publication date
CN112581431A (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
US20220309762A1 (en) Generating scene graphs from digital images using external knowledge and image reconstruction
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN110795556A (zh) 一种基于细粒度插入式解码的摘要生成方法
CN112581431B (zh) 一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法
CN108921047B (zh) 一种基于跨层融合的多模型投票均值动作识别方法
US20220172710A1 (en) Interactive systems and methods
CN111402365B (zh) 一种基于双向架构对抗生成网络的由文字生成图片的方法
CN113343705A (zh) 一种基于文本语义的细节保持图像生成方法及系统
CN112765370B (zh) 知识图谱的实体对齐方法、装置、计算机设备和存储介质
CN111444367A (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN113821668A (zh) 数据分类识别方法、装置、设备及可读存储介质
CN115222998B (zh) 一种图像分类方法
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN114565628A (zh) 一种基于边界感知注意的图像分割方法及系统
CN114048290A (zh) 一种文本分类方法及装置
CN114048851A (zh) 基于不均衡间隔的语义特征自学习方法、设备及存储介质
CN111858879B (zh) 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备
Perdana et al. Instance-based deep transfer learning on cross-domain image captioning
US20220245923A1 (en) Image information detection method and apparatus and storage medium
CN114863231A (zh) 基于渐进式融合的多视图跨模态匹配方法
CN114511488B (zh) 一种夜间场景的日间风格可视化方法
CN113658285B (zh) 一种人脸照片到艺术素描的生成方法
CN116306673B (zh) 一种文本特征提取方法与系统、电子设备、介质
CN116563524B (zh) 一种基于多视觉记忆单元的扫视路径预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240130

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Guangzhou Dayu Chuangfu Technology Co.,Ltd.

Country or region after: China

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

Country or region before: China

TR01 Transfer of patent right