CN112529857A - 基于目标检测与策略梯度的超声图像诊断报告生成方法 - Google Patents
基于目标检测与策略梯度的超声图像诊断报告生成方法 Download PDFInfo
- Publication number
- CN112529857A CN112529857A CN202011399345.0A CN202011399345A CN112529857A CN 112529857 A CN112529857 A CN 112529857A CN 202011399345 A CN202011399345 A CN 202011399345A CN 112529857 A CN112529857 A CN 112529857A
- Authority
- CN
- China
- Prior art keywords
- diagnosis report
- generated
- target detection
- language generation
- generation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000001514 detection method Methods 0.000 title claims abstract description 50
- 230000006870 function Effects 0.000 claims abstract description 61
- 210000000056 organ Anatomy 0.000 claims abstract description 16
- 201000010099 disease Diseases 0.000 claims abstract description 11
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 11
- 230000001575 pathological effect Effects 0.000 claims abstract description 9
- 230000003902 lesion Effects 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000002604 ultrasonography Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 12
- 230000000875 corresponding effect Effects 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 239000003795 chemical substances by application Substances 0.000 claims description 6
- 230000007787 long-term memory Effects 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 239000004576 sand Substances 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 claims description 3
- 235000019987 cider Nutrition 0.000 claims description 2
- 230000002596 correlated effect Effects 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10132—Ultrasound image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
Abstract
本发明请求保护一种基于目标检测与策略梯度的超声图像诊断报告生成方法,包括以下步骤:首先将图像输入目标检测模型中,预测器官区域的位置信息,根据预测出的位置信息提取出器官区域部分的特征编码;将提取到的特征编码输入到语言生成模型中,在每一个不同时刻解码特征编码并生成单词,最后将生成的单词组成一个句子序列即为最终输出的诊断报告。构造的损失函数包括目标检测模型的区域位置和疾病信息的误差,以及语言生成模型通过将生成的诊断报告与对应的标签诊断报告使用回报函数来计算得到的负期望值,训练的目的是最小化回报负期望。本发明能够生成超声图像对应的诊断报告,保持诊断报告的病理信息准确且语法自然。
Description
技术领域
本发明属于医学图像辅助诊断技术领域,属于医学图像诊断报告生成方法。
背景技术
超声图像在临床中广泛应用于疾病的诊断与治疗,诊断报告需要高水平的医生花费大量的时间来撰写,若是能利用计算机算法自动生成对应患者医学图像的诊断报告,这将会有助于辅助医生的诊断。超声图像诊断报告通常更侧重于描述异常部位的病理信息,因为它们能够描述疾病类别和指导治疗。如果能够定位异常部位的图像区域并对其进行正确的分析,这将极大有利于诊断报告的描述。大多数自然图像中都有多个不同的对象,不同的对象之间存在视觉上的位置信息,通常对象的前景与背景的分界较为明显。不同于自然图像,超声图像的噪声较大,且不同对象的前景与背景的分界较为模糊,难以准确的识别超声图像中的对象及其位置信息。同时,医学图像诊断报告算法通常使用极大似然估计来训练,生成文本的对数似然分数和文本描述质量不太具有相关性,比如生成文本的对数似然分数较高时,文本的描述质量不一定很好。为了缓解这个问题,研究者们发明了用于评估文本质量的标准语法度量指标,但这些度量指标是离散和不可微分的,传统方法很难对其进行优化。
基于上述问题,设计了一种新的方法,结合目标检测算法协同视觉和类别信息,提取包含更多器官区域的特征,减少背景对识别的影响。然后利用长短期记忆网络LSTM来解码特征,使用策略梯度算法对不可微分的标准语法度量指标进行优化,在每一个不同时刻解码特征编码并生成单词,最后将生成的单词组成一个句子序列即为最终输出的诊断报告。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种能够有效的对输入的超声图像生成诊断报告,同时保证了生成的诊断报告在语法上自然、语义上准确的基于目标检测与策略梯度的超声图像诊断报告生成方法。本发明的技术方案如下:
一种基于目标检测与策略梯度的超声图像诊断报告生成方法,其包括以下步骤:
1)、获取原始的超声图像I作为输入图像,将I输入至目标检测模型Faster RCNN中,利用卷积神经网络从输入图像中提取特征,然后根据病灶区域推荐网络来生成区域预测,通过最小化区域位置和疾病信息的误差来优化目标检测模型;
2)、将超声图像输入到经过训练的目标检测模型中,预测出器官区域的位置信息,并根据预测出的位置信息提取出器官区域部分的特征编码;
3)、语言生成模型的预训练:将提取出的特征编码输入到语言生成模型中,在每一个不同时刻解码特征编码并生成单词,最后将生成的单词组成一个诊断报告,将生成的诊断报告与诊断报告标签计算交叉熵损失从而优化语言生成模型;
4)、构建多指标回报函数:使用多种评估文本质量的标准语法度量指标构建回报函数,计算得到的数值和生成的诊断报告的质量呈正相关;
5)、将提取出的特征编码输入预训练后的语言生成模型中,得到在当前参数下采样生成的诊断报告;
6)、将提取出的特征编码输入预训练后的语言生成模型中,得到在当前参数下测试时刻生成的诊断报告;
7)、将步骤5)与步骤6)中生成得到的两组诊断报告使用回报函数进行计算;步骤4)中定义的回报函数是用于计算诊断报告的质量指数的,利用回报函数计算得到的数值来优化,最终优化的是网络;
8)、使用策略梯度算法根据步骤7)中的回报函数计算得到最终的梯度,并对语言生成模型的网络参数进行优化,最终优化的语言生成模型网络,回报函数仅是用来计算梯度。
进一步的,所述步骤1)中,获取原始的超声图像作为输入图像,输入到目标检测模型中,利用卷积神经网络从图像中提取特征,然后使用候选区域预测网络来生成区域预测,通过最小化区域位置和疾病信息的误差来优化目标检测模型,具体包括:
目标检测模型包含两部分损失,分别是区域位置和疾病信息的误差,训练的目标是最小化这两个误差,将这一步骤定义为:
其中,i表示病灶区域推荐网络推荐的病灶区域编号,表示推荐的病灶区域真实的病理信息,qi表示病灶区域检测模型计算得到的病理信息,ti,j表示病灶区域检测模型计算得到的病灶区域位置补偿,表示平滑函数,表示病灶区域真实的位置补偿,这里的j∈{x,y,w,h},分别表示病灶区域中心位置的横坐标,纵坐标,以及病灶区域边框的宽和高。
进一步的,所述步骤2)中,将超声图像输入到目标检测模型中,根据预测出的位置信息提取出器官区域部分的特征编码,定义为:
进一步的,在步骤3)中,所述语言生成模型预训练的具体方法为:语言生成模型主要包含一个长短期记忆网络LSTM],将提取出的特征编码输入到语言生成模型中,在每一个不同时刻解码特征编码并生成单词,最后将生成的单词组成一个诊断报告,将生成的诊断报告与诊断报告标签计算交叉熵损失从而优化语言生成模型,所述长短期记忆网络LSTM定义为:
it=fsigmoid(Wivvt+Wihht-1)
gt=fsigmoid(Wgvvt+Wghht-1)
ot=fsigmoid(Wovvt+Wohht-1)
mt=gt⊙mt-1+it⊙(Wmvvt+Wmhht-1)
ht=ot⊙ftanh(mt)
ct=fsoftmax(ht)
其中,LSTM的核心是记忆单元mt,由三个门控制,这三个门分别是输入门it、遗忘门gt和输出门ot,ht、ht-1分别表示当前和上一个时间步的隐层信息,mt-1表示上一个时间步的记忆单元,fsigmoid、ftanh、fsoftmax分别表示sigmoid函数、tanh函数、softmax函数,Wiv、Wgv、Wov、Wmv分别表示输入门、遗忘门、输出门、记忆单元与输入层的连接权重,Wih、Wgh、Woh、Wmh分别表示输入门、遗忘门、输出门、记忆单元与隐层的连接权重,vt、ct分别表示输入与输出。
进一步的,所述步骤4)中,构建多指标回报函数的具体方法为:使用多种评估文本质量的标准语法度量指标,分别计算生成的诊断报告与标签的值并加权求和,所述回报函数定义为:
R(cs)=B(cs,c*)+M(cs,c*)+R(cs,c*)+C(cs,c*)
其中,B(·),M(·),R(·),C(·)分别代表Bleu[2],Meteor[3],Rouge[4]andCider[5],cs为生成的诊断报告,c*为对应的标签。
进一步的,所述步骤5)将提取出的特征编码输入预训练后的语言生成模型中,得到在当前参数下采样生成的诊断报告,过程定义为:
cs=fsoftmax(ht)
其中,cs为当前参数下采样生成的诊断报告;
所述步骤6)将提取出的特征编码输入预训练后的语言生成模型中,得到在当前参数下测试时刻生成的诊断报告,过程定义为:
cmax=argmaxpθ(cs∣v)
其中,cmax为当前参数下测试时刻得到的诊断报告。pθ表示当前参数下的策略、v表示特征编码。
进一步的,所述步骤7)中,将步骤5)与步骤6)中生成得到的两组诊断报告使用回报函数进行计算,具体包括:
R(cs)=B(cs,c*)+M(cs,c*)+R(cs,c*)+C(cs,c*)
R(cmax)=B(cmax,c*)+M(cmax,c*)+R(cmax,c*)+C(cmax,c*)
其中,R(cs)和R(cmax)为步骤5)与步骤6)中生成得到的两组诊断报告对应的回报值。
进一步的,所述步骤8)中,使用策略梯度算法根据回报函数计算得到最终的梯度,并对语言生成模型进行优化,具体包括:
在策略梯度理论框架下,定义语言生成模型为Agent,环境则是每个时间步输入的单词与图像特征,语言生成模型的参数θ定义了一个策略pθ,Agent与环境交互通过pθ采样得到一个单词序列cs,将生成的序列与相应的标签进行比较,通过回报函数计算便得到了奖励,以此来优化语言生成模型的参数。
进一步的,将损失定义为回报函数的负期望:
为了便于计算,通常可以使用单次采样的样本来近似计算,这时梯度为:
为了使训练更加稳定,添加基线来减少方差,这时的梯度为:
在当前参数下,通过回报函数计算测试时刻获得的序列和当前生成的序列,最终的梯度为:
本发明的优点及有益效果如下:
本发明创新点:1)提出了基于目标检测的特征提取方法。超声图像噪声较大,且不同对象的前景与背景的分界较为模糊,难以准确的识别超声图像中的对象及其位置信息。本发明结合目标检测算法协同视觉和类别信息,将病灶区域器官的位置检测出来,提取包含更多器官区域的特征,减少噪声和背景对识别的影响。2)构建多指标回报函数。现有的方法通常使用极大似然估计来训练,生成文本的对数似然分数和文本描述质量不太具有相关性。为了缓解这个问题,本发明使用多种评估文本质量的标准语法度量指标构建回报函数,克服了上述缺点。3)策略梯度优化。上述构建的多指标回报函数是离散和不可微分的,传统方法难以对其进行优化。本发明利用长短期记忆网络LSTM来解码特征,并使用策略梯度算法对不可微分的多指标回报函数进行优化,以达到生成的诊断报告在语法上越来越自然,语义上也越来越准确的目的。
附图说明
图1是本发明提供优选实施例的算法框架图;
图2为本发明的部分实验结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
为了解决医学图像具有噪声大、不同对象的前景与背景的分界较为模糊,识别难度较大的问题。输入图像到目标检测模型中,预测器官区域的位置,根据预测出的位置信息可以提取出含有更多器官部分的特征编码。将提取到的特征编码输入到语言生成模型中,语言生成模型主要由长短期记忆网络LSTM组成,LSTM在每一个时刻解码特征编码并生成单词,最后将生成的单词组成一个句子序列即为最终输出的诊断报告。此外,用于评价文本质量的语法度量指标是离散的和不可微的,在此基础上构造了一个新的回报函数,并通过策略梯度算法对回报函数进行优化,训练的目的是最小化回报负期望,以获得更好的文本描述质量,使得诊断报告的病理信息准确且语法自然。
下面将详细说明本发明的技术方案:
一种超声图像诊断报告生成方法,包括:
步骤一:训练目标检测模型
获取原始的超声图像作为输入图像,输入到目标检测模型中,利用卷积神经网络从图像中提取特征,然后使用候选区域预测网络来生成区域预测,通过最小化区域位置和疾病信息的误差来优化目标检测模型,具体包括:
目标检测模型包含两部分损失,分别是区域位置和疾病信息的误差,训练的目标是最小化这两个误差,将这一步骤定义为:
其中,i表示病灶区域推荐网络推荐的病灶区域编号,表示推荐的病灶区域真实的病理信息,qi表示病灶区域检测模型计算得到的病理信息,ti,j表示病灶区域检测模型计算得到的病灶区域位置补偿,表示平滑函数,表示病灶区域真实的位置补偿,这里的j∈{x,y,w,h},分别表示病灶区域中心位置的横坐标,纵坐标,以及病灶区域边框的宽和高。
步骤二:提取特征编码
将超声图像输入到目标检测模型中,根据预测出的位置信息提取出器官区域部分的特征编码,定义为:
步骤三:语言生成模型定义与预训练
语言生成模型预训练的具体方法为:语言生成模型主要包含一个长短期记忆网络LSTM,将提取出的特征编码输入到语言生成模型中,在每一个不同时刻解码特征编码并生成单词,最后将生成的单词组成一个诊断报告,将生成的诊断报告与诊断报告标签计算交叉熵损失从而优化语言生成模型,所述长短期记忆网络LSTM定义为:
it=fsigmoid(Wivvt+Wihht-1)
gt=fsigmoid(Wgvvt+Wghht-1)
ot=fsigmoid(Wovvt+Wohht-1)
mt=gt⊙mt-1+it⊙(Wmvvt+Wmhht-1)
ht=ot⊙ftanh(mt)
ct=fsoftmax(ht)
其中,LSTM的核心是记忆单元mt,由三个门控制,这三个门分别是输入门it、遗忘门gt和输出门ot,ht、ht-1分别表示当前和上一个时间步的隐层信息,mt-1表示上一个时间步的记忆单元,fsigmoid、ftanh、fsoftmax分别表示sigmoid函数、tanh函数、softmax函数,Wiv、Wgv、Wov、Wmv分别表示输入门、遗忘门、输出门、记忆单元与输入层的连接权重,Wih、Wgh、Woh、Wmh分别表示输入门、遗忘门、输出门、记忆单元与隐层的连接权重,vt、ct分别表示输入与输出。
步骤四:构建多指标回报函数
构建多指标回报函数的具体方法为:使用多种评估文本质量的标准语法度量指标,分别计算生成的诊断报告与标签的值并加权求和,所述回报函数定义为:
R(cs)=B(cs,c*)+M(cs,c*)+R(cs,c*)+C(cs,c*)
其中,B(·),M(·),R(·),C(·)分别代表Bleu,Meteor,Rouge and Cider,cs为生成的诊断报告,c*为对应的标签。
步骤五:获取采样生成得到的诊断报告
将提取出的特征编码输入预训练后的语言生成模型中,得到在当前参数下采样生成的诊断报告,所述过程定义为:
cs=fsoftmax(ht)
其中,cs为当前参数下采样生成的诊断报告。
步骤六:获取测试时刻得到的诊断报告
将提取出的特征编码输入预训练后的语言生成模型中,得到在当前参数下测试时刻生成的诊断报告,过程定义为:
cmax=argmaxpθ(cs∣v)
其中,cmax为当前参数下测试时刻得到的诊断报告。pθ表示当前参数下的策略、v表示特征编码。
步骤七:回报函数的计算
将步骤5)与步骤6)中生成得到的两组诊断报告使用回报函数进行计算,具体包括:
R(cs)=B(cs,c*)+M(cs,c*)+R(cs,c*)+C(cs,c*)
R(cmax)=B(cmax,c*)+M(cmax,c*)+R(cmax,c*)+C(cmax,c*)
其中,R(cs)和R(cmax)为步骤5)与步骤6)中生成得到的两组诊断报告对应的回报值。
步骤八:策略梯度优化
使用策略梯度算法根据回报函数计算得到最终的梯度,并对语言生成模型进行优化,在策略梯度理论框架下,定义语言生成模型为Agent,环境则是每个时间步输入的单词与图像特征,语言生成模型的参数θ定义了一个策略pθ,Agent与环境交互通过pθ采样得到一个单词序列cs,将生成的序列与相应的标签进行比较,通过回报函数计算便得到了奖励,以此来优化语言生成模型的参数。将损失定义为回报函数的负期望:
为了便于计算,通常可以使用单次采样的样本来近似计算,这时梯度为:
若直接使用上式计算梯度,会带来高方差的问题。为了使训练更加稳定,可以添加基线来减少方差。这时的梯度为:
在当前参数下,通过回报函数计算测试时刻获得的序列和当前生成的序列,最终的梯度为:
综上所述,本发明的创新和优势:
本发明提出的一种基于目标检测与多指标策略梯度优化的超声图像诊断报告生成方法,可以实现超声图像的诊断报告生成,生成的诊断报告具有语法上自然,语义上准确的特点。
本发明提出的一种基于目标检测与多指标策略梯度优化的超声图像诊断报告生成方法,结合目标检测算法协同视觉和类别信息,将病灶区域器官的位置检测出来,提取包含更多器官区域的特征,减少噪声和背景对识别的影响。
本发明提出的一种基于目标检测与多指标策略梯度优化的超声图像诊断报告生成方法,构建多指标回报函数,克服了现有的方法生成文本的对数似然分数和文本描述质量不太具有相关性这一问题。
本发明提出的一种基于目标检测与多指标策略梯度优化的超声图像诊断报告生成方法,使用策略梯度算法对不可微分的多指标回报函数进行优化。
[1]Hochreiter S,JüRgen A Schmidhuber.Long Short-Term Memory[J].NeuralComputation,1997.
[2]Papineni K,Roukos S,Ward T,et al.BLEU:a method for automaticevaluation of machine translation[C]//Proceedings of the 40th Annual Meetingon Association for Computational Linguistics.Association for ComputationalLinguistics,2002:311-318.
[3]Banerjee S,Lavie A.METEOR:An automatic metric for MT evaluationwith improved correlation with human judgments[C]//Proceedings of the ACLWorkshop on Intrinsic and Extrinsic Evaluation Measures for MachineTranslation and/or Summarization.2005:65-72.
[4]Lin C Y.Rouge:A package for automatic evaluation of summaries[C]//Text Summarization Branches Out.2004:74-81.
[5]Vedantam R,Lawrence Zitnick C,Parikh D.Cider:Consensus-based imagedescription evaluation[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2015:4566-4575.
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (9)
1.一种基于目标检测与策略梯度的超声图像诊断报告生成方法,其特征在于,包括以下步骤:
1)、获取原始的超声图像I作为输入图像,将I输入至目标检测模型Faster RCNN中,利用卷积神经网络从输入图像中提取特征,然后根据病灶区域推荐网络来生成区域预测,通过最小化区域位置和疾病信息的误差来优化目标检测模型;
2)、将超声图像输入到经过训练的目标检测模型中,预测出器官区域的位置信息,并根据预测出的位置信息提取出器官区域部分的特征编码;
3)、语言生成模型的预训练:将提取出的特征编码输入到语言生成模型中,在每一个不同时刻解码特征编码并生成单词,最后将生成的单词组成一个诊断报告,将生成的诊断报告与诊断报告标签计算交叉熵损失从而优化语言生成模型;
4)、构建多指标回报函数:使用多种评估文本质量的标准语法度量指标构建回报函数,计算得到的数值和生成的诊断报告的质量呈正相关;
5)、将提取出的特征编码输入预训练后的语言生成模型中,得到在当前参数下采样生成的诊断报告;
6)、将提取出的特征编码输入预训练后的语言生成模型中,得到在当前参数下测试时刻生成的诊断报告;
7)、将步骤5)与步骤6)中生成得到的两组诊断报告使用回报函数进行计算;步骤4)中定义的回报函数是用于计算诊断报告的质量指数的,利用回报函数计算得到的数值来优化,最终优化的是网络;
8)、使用策略梯度算法根据步骤7)中的回报函数计算得到最终的梯度,并对语言生成模型的网络参数进行优化。
2.根据权利要求1所述的一种基于目标检测与策略梯度的超声图像诊断报告生成方法,其特征在于,所述步骤1)中,获取原始的超声图像作为输入图像,输入到目标检测模型中,利用卷积神经网络从图像中提取特征,然后使用候选区域预测网络来生成区域预测,通过最小化区域位置和疾病信息的误差来优化目标检测模型,具体包括:
目标检测模型包含两部分损失,分别是区域位置和疾病信息的误差,训练的目标是最小化这两个误差,将这一步骤定义为:
4.根据权利要求3所述的一种基于目标检测与策略梯度的超声图像诊断报告生成方法,其特征在于,在步骤3)中,所述语言生成模型预训练的具体方法为:语言生成模型主要包含一个长短期记忆网络LSTM,将提取出的特征编码输入到语言生成模型中,在每一个不同时刻解码特征编码并生成单词,最后将生成的单词组成一个诊断报告,将生成的诊断报告与诊断报告标签计算交叉熵损失从而优化语言生成模型,所述长短期记忆网络LSTM定义为:
it=fsigmoid(Wivvt+Wihht-1)
gt=fsigmoid(Wgvvt+Wghht-1)
ot=fsigmoid(Wovvt+Wohht-1)
ct=fsoftmax(ht)
其中,LSTM的核心是记忆单元mt,由三个门控制,这三个门分别是输入门it、遗忘门gt和输出门ot,ht、ht-1分别表示当前和上一个时间步的隐层信息,mt-1表示上一个时间步的记忆单元,fsigmoid、ftanh、fsoftmax分别表示sigmoid函数、tanh函数、softmax函数,Wiv、Wgv、Wov、Wmv分别表示输入门、遗忘门、输出门、记忆单元与输入层的连接权重,Wih、Wgh、Woh、Wmh分别表示输入门、遗忘门、输出门、记忆单元与隐层的连接权重,vt、ct分别表示输入与输出。
5.根据权利要求4所述的一种基于目标检测与策略梯度的超声图像诊断报告生成方法,其特征在于,所述步骤4)中,构建多指标回报函数的具体方法为:使用多种评估文本质量的标准语法度量指标,分别计算生成的诊断报告与标签的值并加权求和,所述回报函数定义为:
R(cs)=B(cs,c*)+M(cs,c*)+R(cs,c*)+C(cs,c*)
其中,B(·),M(·),R(·),C(·)分别代表Bleu[2],Meteor[3],Rouge[4]and Cider[5],cs为生成的诊断报告,c*为对应的标签。
6.根据权利要求5所述的一种基于目标检测与策略梯度的超声图像诊断报告生成方法,其特征在于,所述步骤5)将提取出的特征编码输入预训练后的语言生成模型中,得到在当前参数下采样生成的诊断报告,过程定义为:
cs=fsoftmax(ht)
其中,cs为当前参数下采样生成的诊断报告;
所述步骤6)将提取出的特征编码输入预训练后的语言生成模型中,得到在当前参数下测试时刻生成的诊断报告,过程定义为:
cmax=arg max pθ(cs∣v)
其中,cmax为当前参数下测试时刻得到的诊断报告,pθ表示当前参数下的策略、v表示特征编码。
7.根据权利要求6所述的一种基于目标检测与策略梯度的超声图像诊断报告生成方法,其特征在于,所述步骤7)中,将步骤5)与步骤6)中生成得到的两组诊断报告使用回报函数进行计算,具体包括:
R(cs)=B(cs,c*)+M(cs,c*)+R(cs,c*)+C(cs,c*)
R(cmax)=B(cmax,c*)+M(cmax,c*)+R(cmax,c*)+C(cmax,c*)
其中,R(cs)和R(cmax)为步骤5)与步骤6)中生成得到的两组诊断报告对应的回报值。
8.根据权利要求7所述的一种基于目标检测与策略梯度的超声图像诊断报告生成方法,其特征在于,所述步骤8)中,使用策略梯度算法根据回报函数计算得到最终的梯度,并对语言生成模型进行优化,具体包括:
在策略梯度理论框架下,定义语言生成模型为Agent,环境则是每个时间步输入的单词与图像特征,语言生成模型的参数θ定义了一个策略pθ,Agent与环境交互通过pθ采样得到一个单词序列cs,将生成的序列与相应的标签进行比较,通过回报函数计算便得到了奖励,以此来优化语言生成模型的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011399345.0A CN112529857B (zh) | 2020-12-03 | 2020-12-03 | 基于目标检测与策略梯度的超声图像诊断报告生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011399345.0A CN112529857B (zh) | 2020-12-03 | 2020-12-03 | 基于目标检测与策略梯度的超声图像诊断报告生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112529857A true CN112529857A (zh) | 2021-03-19 |
CN112529857B CN112529857B (zh) | 2022-08-23 |
Family
ID=74998256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011399345.0A Active CN112529857B (zh) | 2020-12-03 | 2020-12-03 | 基于目标检测与策略梯度的超声图像诊断报告生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112529857B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539408A (zh) * | 2021-08-31 | 2021-10-22 | 北京字节跳动网络技术有限公司 | 一种医学报告生成方法、模型的训练方法、装置及设备 |
CN114334068A (zh) * | 2021-11-15 | 2022-04-12 | 深圳市龙岗中心医院(深圳市龙岗中心医院集团、深圳市第九人民医院、深圳市龙岗中心医院针灸研究所) | 一种放射学报告生成方法、装置、终端及存储介质 |
CN114998607A (zh) * | 2022-05-11 | 2022-09-02 | 北京医准智能科技有限公司 | 超声图像的特征提取方法、装置、电子设备及存储介质 |
CN116631566A (zh) * | 2023-05-23 | 2023-08-22 | 重庆邮电大学 | 一种基于大数据的医学影像报告智能生成方法 |
CN116758341A (zh) * | 2023-05-31 | 2023-09-15 | 北京长木谷医疗科技股份有限公司 | 一种基于gpt的髋关节病变智能诊断方法、装置及设备 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106846306A (zh) * | 2017-01-13 | 2017-06-13 | 重庆邮电大学 | 一种超声图像自动描述方法和系统 |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN107145910A (zh) * | 2017-05-08 | 2017-09-08 | 京东方科技集团股份有限公司 | 医学影像的表现生成系统、其训练方法及表现生成方法 |
CN107609563A (zh) * | 2017-09-15 | 2018-01-19 | 成都澳海川科技有限公司 | 图片语义描述方法及装置 |
WO2018094295A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Adaptive attention model for image captioning |
CN108376558A (zh) * | 2018-01-24 | 2018-08-07 | 复旦大学 | 一种多模态核磁共振影像病历报告自动生成方法 |
CN108416776A (zh) * | 2018-03-16 | 2018-08-17 | 京东方科技集团股份有限公司 | 图像识别方法、图像识别装置、计算机产品和可读存储介质 |
CN108875807A (zh) * | 2018-05-31 | 2018-11-23 | 陕西师范大学 | 一种基于多注意力多尺度的图像描述方法 |
CN109559295A (zh) * | 2018-06-04 | 2019-04-02 | 新影智能科技(昆山)有限公司 | 图像分析系统、方法、计算机可读存储介质、及电子终端 |
CN109685116A (zh) * | 2018-11-30 | 2019-04-26 | 腾讯科技(深圳)有限公司 | 图像描述信息生成方法和装置及电子装置 |
CN110163230A (zh) * | 2018-06-15 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种图像标注方法和装置 |
KR20190140504A (ko) * | 2018-05-25 | 2019-12-20 | 창원대학교 산학협력단 | 강화학습을 이용한 이미지 캡션 생성 방법 및 시스템 |
CN110909736A (zh) * | 2019-11-12 | 2020-03-24 | 北京工业大学 | 一种基于长短期记忆模型与目标检测算法的图像描述方法 |
CN110929640A (zh) * | 2019-11-20 | 2020-03-27 | 西安电子科技大学 | 一种基于目标检测的宽幅遥感描述生成方法 |
CN111063410A (zh) * | 2019-12-20 | 2020-04-24 | 京东方科技集团股份有限公司 | 一种医学影像文本报告的生成方法及装置 |
CN111144553A (zh) * | 2019-12-28 | 2020-05-12 | 北京工业大学 | 一种基于时空记忆注意力的图像描述方法 |
CN111325216A (zh) * | 2018-12-14 | 2020-06-23 | 中国移动通信集团安徽有限公司 | 图像局部特征的描述方法、装置、计算机设备及存储介质 |
CN111582371A (zh) * | 2020-05-07 | 2020-08-25 | 广州视源电子科技股份有限公司 | 一种图像分类网络的训练方法、装置、设备及存储介质 |
-
2020
- 2020-12-03 CN CN202011399345.0A patent/CN112529857B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018094295A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Adaptive attention model for image captioning |
CN106846306A (zh) * | 2017-01-13 | 2017-06-13 | 重庆邮电大学 | 一种超声图像自动描述方法和系统 |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN107145910A (zh) * | 2017-05-08 | 2017-09-08 | 京东方科技集团股份有限公司 | 医学影像的表现生成系统、其训练方法及表现生成方法 |
CN107609563A (zh) * | 2017-09-15 | 2018-01-19 | 成都澳海川科技有限公司 | 图片语义描述方法及装置 |
CN108376558A (zh) * | 2018-01-24 | 2018-08-07 | 复旦大学 | 一种多模态核磁共振影像病历报告自动生成方法 |
CN108416776A (zh) * | 2018-03-16 | 2018-08-17 | 京东方科技集团股份有限公司 | 图像识别方法、图像识别装置、计算机产品和可读存储介质 |
KR20190140504A (ko) * | 2018-05-25 | 2019-12-20 | 창원대학교 산학협력단 | 강화학습을 이용한 이미지 캡션 생성 방법 및 시스템 |
CN108875807A (zh) * | 2018-05-31 | 2018-11-23 | 陕西师范大学 | 一种基于多注意力多尺度的图像描述方法 |
CN109559295A (zh) * | 2018-06-04 | 2019-04-02 | 新影智能科技(昆山)有限公司 | 图像分析系统、方法、计算机可读存储介质、及电子终端 |
CN110163230A (zh) * | 2018-06-15 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种图像标注方法和装置 |
CN109685116A (zh) * | 2018-11-30 | 2019-04-26 | 腾讯科技(深圳)有限公司 | 图像描述信息生成方法和装置及电子装置 |
CN111325216A (zh) * | 2018-12-14 | 2020-06-23 | 中国移动通信集团安徽有限公司 | 图像局部特征的描述方法、装置、计算机设备及存储介质 |
CN110909736A (zh) * | 2019-11-12 | 2020-03-24 | 北京工业大学 | 一种基于长短期记忆模型与目标检测算法的图像描述方法 |
CN110929640A (zh) * | 2019-11-20 | 2020-03-27 | 西安电子科技大学 | 一种基于目标检测的宽幅遥感描述生成方法 |
CN111063410A (zh) * | 2019-12-20 | 2020-04-24 | 京东方科技集团股份有限公司 | 一种医学影像文本报告的生成方法及装置 |
CN111144553A (zh) * | 2019-12-28 | 2020-05-12 | 北京工业大学 | 一种基于时空记忆注意力的图像描述方法 |
CN111582371A (zh) * | 2020-05-07 | 2020-08-25 | 广州视源电子科技股份有限公司 | 一种图像分类网络的训练方法、装置、设备及存储介质 |
Non-Patent Citations (9)
Title |
---|
DAQING LIU 等: "Context-Aware Visual Policy Network for Sequence-Level Image Captioning", 《MM’18》 * |
JUN HE 等: "Feedback evaluations to promote image captioning", 《IET IMAGE PROCESSING》 * |
SHENGFENG LIU 等: "Deep Learning in Medical Ultrasound Analysis: A Review", 《ENGINEERING》 * |
TORU NISHINO 等: "Reinforcement Learning with Imbalanced Dataset for Data-to-Text Medical Report Generation", 《FINDINGS OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: EMNLP 2020》 * |
XIANHUA ZENG 等: "Deep learning for ultrasound image caption generation based on object detection", 《NEUROCOMPUTING》 * |
XIANHUA ZENG 等: "Generating diagnostic report for medical image by high-middle-level visual information incorporation on double deep learning models", 《COMPUTER METHODS AND PROGRAMS IN BIOMEDICINE》 * |
常致富 等: "基于深度学习的图像自动标注方法综述", 《山东大学学报(工学版)》 * |
汤鹏杰 等: "融合图像场景及物体先验知识的图像描述生成模型", 《中国图象图形学报》 * |
莫宏伟 等: "基于注意力融合的图像描述生成方法", 《智能系统学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539408A (zh) * | 2021-08-31 | 2021-10-22 | 北京字节跳动网络技术有限公司 | 一种医学报告生成方法、模型的训练方法、装置及设备 |
CN114334068A (zh) * | 2021-11-15 | 2022-04-12 | 深圳市龙岗中心医院(深圳市龙岗中心医院集团、深圳市第九人民医院、深圳市龙岗中心医院针灸研究所) | 一种放射学报告生成方法、装置、终端及存储介质 |
CN114334068B (zh) * | 2021-11-15 | 2022-11-01 | 深圳市龙岗中心医院(深圳市龙岗中心医院集团、深圳市第九人民医院、深圳市龙岗中心医院针灸研究所) | 一种放射学报告生成方法、装置、终端及存储介质 |
CN114998607A (zh) * | 2022-05-11 | 2022-09-02 | 北京医准智能科技有限公司 | 超声图像的特征提取方法、装置、电子设备及存储介质 |
CN114998607B (zh) * | 2022-05-11 | 2023-01-31 | 北京医准智能科技有限公司 | 超声图像的特征提取方法、装置、电子设备及存储介质 |
CN116631566A (zh) * | 2023-05-23 | 2023-08-22 | 重庆邮电大学 | 一种基于大数据的医学影像报告智能生成方法 |
CN116758341A (zh) * | 2023-05-31 | 2023-09-15 | 北京长木谷医疗科技股份有限公司 | 一种基于gpt的髋关节病变智能诊断方法、装置及设备 |
CN116758341B (zh) * | 2023-05-31 | 2024-03-19 | 北京长木谷医疗科技股份有限公司 | 一种基于gpt的髋关节病变智能诊断方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112529857B (zh) | 2022-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112529857B (zh) | 基于目标检测与策略梯度的超声图像诊断报告生成方法 | |
Zhu et al. | Electrocardiogram generation with a bidirectional LSTM-CNN generative adversarial network | |
Shou et al. | Conversational emotion recognition studies based on graph convolutional neural networks and a dependent syntactic analysis | |
CN111444709A (zh) | 文本分类方法、装置、存储介质及设备 | |
Xiao et al. | Multimodality sentiment analysis in social Internet of things based on hierarchical attentions and CSAT-TCN with MBM network | |
Bandi et al. | The power of generative ai: A review of requirements, models, input–output formats, evaluation metrics, and challenges | |
Wu et al. | Automatic depression recognition by intelligent speech signal processing: A systematic survey | |
CN112287089A (zh) | 用于自动问答系统的分类模型训练、自动问答方法及装置 | |
Sun et al. | Video question answering: a survey of models and datasets | |
AI-Atroshi et al. | Automated speech based evaluation of mild cognitive impairment and Alzheimer’s disease detection using with deep belief network model | |
Lu et al. | Speech depression recognition based on attentional residual network | |
Utsumi | A neurobiologically motivated analysis of distributional semantic models | |
CN106448660B (zh) | 一种引入大数据分析的自然语言模糊边界确定方法 | |
Kung | Research on signal processing technology optimization of contact image sensor based on BP neural network algorithm | |
Lian et al. | Cross modification attention-based deliberation model for image captioning | |
Jian et al. | English text readability measurement based on convolutional neural network: A hybrid network model | |
CN116645980A (zh) | 一种聚焦样本特征间距的全生命周期语音情感识别方法 | |
Laux et al. | Two-stage visual speech recognition for intensive care patients | |
Zhang et al. | Knowledge-aware attentive wasserstein adversarial dialogue response generation | |
CN116994695A (zh) | 报告生成模型的训练方法、装置、设备及存储介质 | |
CN111783473B (zh) | 医疗问答中最佳答案的识别方法、装置和计算机设备 | |
CN113886539A (zh) | 话术推荐方法、装置、客服设备及存储介质 | |
Zeng et al. | Learning cross-modality features for image caption generation | |
Li et al. | Are lexical representations graded or discrete? | |
Panditharathna et al. | Question and answering system for investment promotion based on nlp |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240123 Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province Patentee after: Guangzhou Dayu Chuangfu Technology Co.,Ltd. Country or region after: China Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS Country or region before: China |
|
TR01 | Transfer of patent right |