CN116364227A - 基于记忆能力学习的医学影像报告自动生成方法 - Google Patents

基于记忆能力学习的医学影像报告自动生成方法 Download PDF

Info

Publication number
CN116364227A
CN116364227A CN202310340187.9A CN202310340187A CN116364227A CN 116364227 A CN116364227 A CN 116364227A CN 202310340187 A CN202310340187 A CN 202310340187A CN 116364227 A CN116364227 A CN 116364227A
Authority
CN
China
Prior art keywords
layer
attention
output
memory
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310340187.9A
Other languages
English (en)
Inventor
刘哲
李赛赛
宋余庆
邱成健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202310340187.9A priority Critical patent/CN116364227A/zh
Publication of CN116364227A publication Critical patent/CN116364227A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于记忆能力学习的医学影像报告自动生成方法,使用预训练并且在医学数据集上微调的视觉编码器提取医学图像的网格视觉特征,通过空间信息增强模块减少网格视觉特征的空间信息损失,再送入编码器得到视觉信号,将视觉信号送入记忆解码器中的每个记忆解码层,学习影像报告中行文模式化的特性并得到隐藏状态;语言特征表示模块将诊断报告作为输入得到语言信号;最后将语言信号、视觉信号和隐藏状态送入自适应注意力模块生成报告,该模块能够在生成报告的过程中根据隐藏状态自动衡量视觉信号和语言信号对生成内容的贡献。本发明方法能显著提高了医学影像生成报告的精度。

Description

基于记忆能力学习的医学影像报告自动生成方法
技术领域
本发明属于深度学习技术领域,具体涉及一种基于记忆能力学习的医学影像报告自动生成方法,应用于计算机辅助诊断和智慧医疗。
背景技术
医学影像作为一种非侵入式技术手段,借助某种介质与人体相互作用,对人体内部器官结构进行拍摄并以图像的方式展示出来。放射科医生根据影像提供的信息,对身体健康情况做出判断,并撰写诊断报告,这对于疾病筛查以及后续的临床治疗具有十分重要的帮助。截至2018年,我国医学影像数据的年增长率约为30%,而放射科医生数量的年增长率仅为4.1%,导致放射科医生沉重的工作负担以及工作压力的日益加重,随着医生精力的消耗,进而导致漏诊和误诊的发生。随着人工智能的快速发展以及智能医疗的普及应用,使用机器代替人工自动生成诊断报告正成为一种现实。在医疗资源匮乏以及放射科医生经验不足或精力消耗的情况下,使用机器自动生成诊断报告可以减轻放射科医生的工作负担以及降低漏诊和误诊的概率,而且还能让病人快速的获取自身的健康情况。因此如何借助深度学习技术实现医学报告的自动化生成,对临床诊断效率的提升具有重大帮助。
随着深度学习在计算机视觉和自然语言处理领域的发展,自然图像描述任务作为连接计算机视觉和自然语言处理的多模态任务,引起了越来越广泛的研究。自然图像描述任务就是给定一张自然图像,为其视觉内容生成单句的文本描述。随着编码器-解码器结构在图像描述任务中的广泛应用,作为其衍生的医学影像报告自动生成任务也愈发受到关注与研究。医学影像报告自动生成任务是给定一张医学图像,生成医学术语的长段落描述,其与图像描述任务的区别在于医学报告存在高度模式化的性质以及医学图像分辨率更低。现有的医学影像报告自动生成任务大多沿用编码器-解码器框架,即先用卷积神经网络将医学图像编码为中间的向量表示,然后使用循环神经网络作为解码器将编码后的向量作为输入生成最终的文本报告。为了提升生成报告的准确性,编码器-解码器框架往往会采用注意力机制来关注医学图像中的异常病变区域,并为其生成相关的病情描述。现有的方法大多致力于设计全新的注意力机制来关注医学图像中异常病变区域的视觉特征,而没有利用诊断报告存在高度模式化的性质,以及在解码过程中平等对待所有单词的生成,影响生成报告的精度。
发明内容
针对现有技术中存在不足,本发明提供了一种基于记忆能力学习的医学影像报告自动生成方法,解决了现有方法未能利用诊断报告模式化的性质,以及解码过程中平等对待所有单词生成,从而带来生成报告精度不足的问题。
本发明是通过以下技术手段实现上述技术目的的。
一种基于记忆能力学习的医学影像报告自动生成方法:
提取处理后的医学图像的网格视觉特征;
所述网格视觉特征经空间信息增强模块计算后送入编码器编码,得到视觉信号;
将所述视觉信号送入记忆解码器,获取隐藏状态;
诊断报告经过语言特征表示模块,得到语言信号;
构建自适应注意模块:包括一个带掩码的多头注意力层A和一个多头注意力层A,所述隐藏状态送入带掩码的多头注意力层A,得到新的隐藏状态;将所述语言信号和视觉信号拼接在一起并分别映射成向量,再与同一个时间步新的隐藏状态映射成的向量一同送入多头注意力层A,获得预测单词的分布概率,将分布概率最大的单词对应的索引即为需要的生成报告。
进一步的技术方案,所述记忆解码器包括6个结构相同的记忆解码层,每个记忆解码层包括一个带掩码的多头注意力层B、三个受记忆驱动的约束归一化层、一个多头注意力层B、一个前馈神经网络层A和一个关系记忆模块;所述受记忆驱动的约束归一化层的具体为:将t时刻的记忆矩阵Ct扩展变为ct,再经过线性层预测参数γ和β的改变量Δγt、Δβt,将改变量和参数相加,得到新的参数
Figure BDA0004157935840000021
和/>
Figure BDA0004157935840000022
并与r、受记忆驱动的约束归一化层的均值及方差进行运算,其中r表示带掩码的多头注意力层的输出Y1′与加入位置信息的词向量yt-1残差连接的结果;所述关系记忆模块包括多头注意力层、线性层和门控模块,将t-1时刻的记忆矩阵Ct-1、Ct-1与yt-1拼接在一起的结果送入多头注意力层,输出C′1,将所述C′1与Ct-1求和送入线性层并加上Ct-1和C′1,输出/>
Figure BDA0004157935840000023
所述Ct-1和/>
Figure BDA0004157935840000024
经过门控模块,输出t时刻的记忆矩阵Ct
进一步的技术方案,映射成向量后,进行缩放点积注意力的计算,得到第p个注意力头在第t个时间步单词的关注结果,将第p个注意力头中所有时间步单词的关注结果拼接在一起,获得第p个注意力头中单词序列的关注结果,将所有注意力头中单词序列的关注结果拼接在一起,并经线性映射获得多头注意力层A的输出,经线性变换,最终获得预测单词的分布概率。
更进一步的技术方案,所述空间信息增强模块用于计算网格视觉特征中两网格之间的相对几何特征。
更进一步的技术方案,所述相对几何特征是根据网格中心坐标、相对宽度和相对高度计算得到的,所述网格中心坐标、相对宽度和相对高度由网格的一对2维相对位置计算得到。
进一步的技术方案,所述语言特征表示模块包括一个预训练的文本编码器和一个带掩码的多头注意力层C,预训练的文本编码器对诊断报告的单词序列进行编码提取语言特征,提取的语言特征经线性变换加上位置编码送入带掩码的多头注意力层C,得到语言信号。
进一步的技术方案,所述网格视觉特征是使用视觉编码器提取的,所述视觉编码器具体为:将在ImageNet上预训练的ResNet50中的全连接层的输出通道改为14,然后在医学数据集CheXpert上进行微调,再将微调过后的ResNet50去掉最后的池化层和全连接层,使用512个1×1卷积层进行替代。
更进一步的技术方案所述编码器分为多个结构相同的编码层,每个编码层中包括一个多头注意力层C、一个前馈神经网络层B和两个归一化层,中间采用残差连接;多头注意力层C将网格视觉特征映射成n个不同的向量,相对几何特征融入多头注意力层C的缩放点积注意力,计算得到n个不同的注意力头输出特征,将n个注意力头输出特征拼接在一起,经线性层映射后得到多头注意力层C的输出;所述多头注意力层C的输出与网格视觉特征进行残差连接,并送入第一个归一化层,将第一个归一化层的输出送入前馈神经网络层B,将前馈神经网络层B的输出与第一个归一化层的输出进行残差连接,并送入第二个归一化层,得到编码层的输出;其它编码层将前一个编码层的输出作为输入,最后一个编码层的输出结果为视觉信号。
更进一步的技术方案,所述隐藏状态的获取过程为:带掩码的多头注意力层B的输出与加入位置信息的词向量进行残差连接,并与关系记忆模块变换后的输出ct一同输入第一个受记忆驱动的约束归一化层,输出Y2′,Y2′及所述视觉信号送入多头注意力层B,输出Y3′,Y3′与Y2′进行残差连接,与ct一同输入第二个受记忆驱动的约束归一化层,得到Y4′,Y4′送入前馈神经网络层,输出Y5′,将Y4′和Y5′进行残差连接,与ct一同送入第三个受记忆驱动的约束归一化层;其它记忆解码层将前一记忆解码层的输出作为输入,最后一个记忆解码层输出隐藏状态。
更进一步的技术方案,所述门控模块输出的记忆矩阵Ct通过如下公式计算得到:
Figure BDA0004157935840000031
其中:σ是sigmoid函数,⊙是哈德曼乘积,
Figure BDA0004157935840000032
表示遗忘门,/>
Figure BDA0004157935840000033
表示输入门。
本发明的有益效果为:
(1)本发明通过添加空间信息增强模块,减少网格视觉特征展平后带来的空间信息损失。
(2)本发明通过添加关系记忆模块和受记忆驱动的约束归一化层,能够学习影像报告中存在的行文模式化的特性,得到更深层次隐藏状态的向量表示。
(3)本发明通过添加自适应注意力模块在生成报告的过程中根据隐藏状态自动衡量视觉信号和语言信号对生成内容的贡献,解码过程中平等对待所有单词生成,提高生成报告的精度。
附图说明
图1为本发明所述基于记忆能力学习的医学影像报告自动生成方法整体框图;
图2为本发明所述编码层的结构示意图;
图3为本发明所述记忆解码层的结构示意图;
图4为本发明所述门控模块示意图;
图5为本发明所述自适应注意力模块结构示意图。
具体实施方式
下面结合附图以及具体实施例对本发明作进一步的说明,但本发明的保护范围并不限于此。
如图1所示,本发明一种基于记忆能力学习的医学影像报告自动生成方法,具体包括以下步骤:
步骤(1):从训练集中随机抽取一张医学图像并将其放缩到256×256尺寸大小,进一步随机裁剪到224×224尺寸大小,更进一步对图像进行随机水平翻转,随机进行亮度和对比度变换,最后将图像转换成张量形式,并进行标准化处理;其中训练集选自IU-Xray数据集。
步骤(2):首先将在ImageNet上预训练的ResNet50中的全连接层的输出通道改为14,然后在医学数据集CheXpert上进行微调,再将微调过后的ResNet50去掉最后的池化层和全连接层,使用512个1×1卷积层进行替代,作为视觉编码器;使用视觉编码器提取步骤(1)处理后的医学图像的网格视觉特征U1′:
U1′=ResNet50(I)(1)
其中:
Figure BDA0004157935840000041
是输入图像(即步骤(1)处理后的医学图像),/>
Figure BDA0004157935840000042
是提取的网格视觉特征。
步骤(3):为了减少网格视觉特征U1′展平后送入编码器带来的空间位置信息损失,构建空间信息增强模块,空间信息增强模块用于计算两网格之间的相对几何特征。
步骤(3.1):计算网格视觉特征U′1中每个网格的一对2维相对位置:
Figure BDA0004157935840000051
其中/>
Figure BDA0004157935840000052
表示网格i左上角的相对位置坐标,/>
Figure BDA0004157935840000053
表示网格i右下角的相对位置坐标;计算2维相对位置是在PyThon软件上通过编程实现的,具体过程为现有技术;
步骤(3.2):计算网格i的相对中心坐标(cxi,cyi)、相对宽度wi和相对高度hi
Figure BDA0004157935840000054
Figure BDA0004157935840000055
Figure BDA0004157935840000056
步骤(3.3):计算网格i和j之间的相对几何特征:
Figure BDA0004157935840000057
G=lWG (6)
λg=ReLU(GWλ) (7)
其中:
Figure BDA0004157935840000058
是网格间的相对几何关系,/>
Figure BDA0004157935840000059
和/>
Figure BDA00041579358400000510
是可学习的权重参数,/>
Figure BDA00041579358400000511
是l的高维表征/>
Figure BDA00041579358400000512
是相对几何特征;ReLU函数作为一个零点修正操作,仅考虑具有几何关系的网格特征。
步骤(4):将网格视觉特征U1′经空间信息增强模块计算后送入编码器编码得到视觉信号;编码器分为六个结构相同的编码层,每个编码层中包含一个多头注意力层、一个前馈神经网络层和两个归一化层,中间采用残差连接,如图2所示;编码层1的操作流程如下:
步骤(4.1):多头注意力层分为8个头,可以从多个角度去获取信息;将网格视觉特征U1′尺寸改成49×512后送入多头注意力层,多头注意力层用8个不同的线性层将网格视觉特征U1′映射成8组不同的查询向量Qh、键向量Kh和值向量Vh
Figure BDA0004157935840000061
其中:
Figure BDA0004157935840000062
表示第h个头中线性映射成查询向量Qh的可学习权重参数,
Figure BDA0004157935840000063
表示第h个头中线性映射成键向量Kh的可学习权重参数,/>
Figure BDA0004157935840000064
表示第h个头中线性映射成值向量Vh的可学习权重参数,h=1,2…8;
步骤(4.2):将步骤(3.3)中得到的相对几何特征λg融入多头注意力层的缩放点积注意力,计算得到8个不同的注意力头输出特征:
Figure BDA0004157935840000065
其中:dk表示键向量Kh的维度,每个注意力头输出的特征headh的维度为49×64;
步骤(4.3):将8个注意力头输出的特征headh拼接在一起,经线性层映射后得到多头注意力层的输出Z:
Z=MHA(U′1,U′1,U′1)=Concat(head1,...,head8)WZ (10)
其中:MHA表示多头注意力层,
Figure BDA0004157935840000066
表示将拼接后的注意力头的输出映射成向量Z的可学习权重参数,多头注意力层的输出Z的维度为49×512;
步骤(4.4):将多头注意力层的输出Z与网格视觉特征U′1进行残差连接,并送入第一个归一化层,得到输出
Figure BDA0004157935840000067
U′2=LayerNorm(U′1+Z) (11)
步骤(4.5):将第一个归一化层的输出送入前馈神经网络层,得到
Figure BDA0004157935840000068
Figure BDA0004157935840000069
其中:
Figure BDA00041579358400000610
和/>
Figure BDA00041579358400000611
为可学习权重参数;
步骤(4.6):将前馈神经网络层的输出
Figure BDA00041579358400000612
与第一个归一化层的输出
Figure BDA00041579358400000613
进行残差连接,并送入第二个归一化层,得到编码层1的输出/>
Figure BDA00041579358400000614
U′4=LayerNorm(U′2+U′3) (13)
其它编码层将前一编码层的输出作为输入,重复上述过程,唯一的区别在于步骤(4.2)中缩放点积注意力的计算过程中,相对几何特征λg不再参与计算,其他步骤的计算过程相同。编码层6的输出结果为视觉信号
Figure BDA0004157935840000071
如以下公式所示:
U=fen6(fen5(fen4(fen3(fen2(U′4))))) (14)
其中:fen2(·)-fen6(·)表示步骤(4.1)至步骤(4.6)之间的计算过程。
步骤(5):将编码层6输出的视觉信号
Figure BDA0004157935840000072
送入记忆解码器获取隐藏状态,其中记忆解码器包含六个结构相同的记忆解码层,每个记忆解码层包含一个带掩码的多头注意力层、三个受记忆驱动的约束归一化层、一个多头注意力层、一个前馈神经网络层和一个关系记忆模块,如图3所示;在t时刻第一个记忆解码层(对应图1中的编码层记忆解码器1)的具体实施如下:
步骤(5.1):将t时刻之前预测的单词序列X={x0,x1,...,xt-1}进行词嵌入以及位置编码作为记忆解码层的输入,位置编码的计算过程如下:
PE(pos,2e)=sin(pos/100002e/d) (15)
PE(pos,2e+1)=cos(pos/100002e/d) (16)
yt-1=X+PE (17)
其中:pos表示单词在句子中所处的位置,e表示词嵌入向量的维度,词嵌入向量的维度大小d取512,
Figure BDA0004157935840000073
表示加入位置信息的词向量,M为单词序列的最大长度;位置编码向量中的每个维度对应于一个正弦曲线,每个奇/偶数位置都有对应的PE编码;
步骤(5.2):带掩码的多头注意力层与步骤(4.1)-(4.3)的计算过程类似,在此不再赘述,唯一区别在于步骤(4.2)中的缩放点积注意力的计算;带掩码的多头注意力层为每个注意力头中缩放点积注意力的计算引入一个下三角矩阵,矩阵的大小为49×49,上三角的数值全为0,主对角线及以下全为1,然后进行注意力的运算即可,如以下公式所示:
Figure BDA0004157935840000074
Y1′=MMHA(yt-1,yt-1,yt-1) (19)
其中:⊙是哈德曼乘积,MMHA表示带掩码的多头注意力层,
Figure BDA0004157935840000075
为带掩码的多头注意力层的输出结果;
步骤(5.3):带掩码的多头注意力层的输出Y1′与yt-1进行残差连接,得到r,并与关系记忆模块变换后的输出ct一同输入第一个受记忆驱动的约束归一化层,得到
Figure BDA0004157935840000081
r=Y1′+yt-1 (20)
Y2′=MDCNL(r,ct) (21)
步骤(5.4):将上一步的结果,以及编码层6输出的视觉信号送入多头注意力层,得到
Figure BDA0004157935840000082
Y3′=MHA(Y2′,U,U) (22)
步骤(5.5):将多头注意力层的输出Y3′与步骤(5.3)中的Y2′进行残差连接,与ct一同输入第二个受记忆驱动的约束归一化层,得到
Figure BDA0004157935840000083
Y4′=MDCNL(Y2′+Y3′,ct) (23)
步骤(5.6):将上一步的输出Y4′送入前馈神经网络层获取输出结果
Figure BDA0004157935840000084
Figure BDA0004157935840000085
其中:
Figure BDA0004157935840000086
和/>
Figure BDA0004157935840000087
表示可学习的权重参数;
步骤(5.7):将第二个受记忆驱动的约束归一化层的输出Y4′和前馈神经网络层的输出Y5′进行残差连接,与ct一同送入第三个受记忆驱动的约束归一化层,得到
Figure BDA0004157935840000088
Y6′=MDCNL(Y′4+Y′5,ct) (25)
其它记忆解码层将前一记忆解码层的输出作为输入,重复步骤(5.2)至步骤(5.7)之间的过程。最后一个记忆解码层(对应图1中的记忆解码器中的记忆解码层6)输出隐藏状态
Figure BDA0004157935840000089
如以下公式所示:
HW=fde6(fde5(fde4(fde3(fde2(Y′6))))) (26)
其中:fde2(·)-fde6(·)表示步骤(5.2)至步骤(5.7)之间的计算过程。
步骤(6):相关的医学图像能够在诊断报告中共享相似的行文模式,可以作为彼此的参考,对生成过程起到帮助作用;构建关系记忆模块充分利用这些特性,计算行文模式之间的交互以及生成过程;关系记忆模块包含多头注意力层、线性层和门控模块,如图3所示;在t时刻关系记忆模块的具体流程如下:
步骤(6.1):将t-1时刻的记忆矩阵Ct-1,以及Ct-1与步骤(5.1)的yt-1拼接在一起送入多头注意力层:
C′1=MHA(Ct-1,[Ct-1;yt-1],[Ct-1;yt-1]) (27)
步骤(6.2):将t-1时刻的记忆矩阵Ct-1和步骤(6.1)中多头注意力层的输出C′1求和送入线性层中,将线性层的输出结果加上t-1时刻的记忆矩阵Ct-1和多头注意力层的输出C′1得到
Figure BDA0004157935840000091
Figure BDA0004157935840000092
步骤(6.3):构建门控模块来缓解关系记忆模块在循环解码过程带来的梯度消失和梯度爆炸,门控模块的详细结构如图4所示,为了确保yt-1可以用于Ct-1的计算,通过将其复制成多行并扩展为矩阵Yt-1,对t-1时刻的记忆矩阵Ct-1进行双曲正切函数激活,将Yt-1和激活结果送入输入门获取
Figure BDA0004157935840000093
将Yt-1和激活的Ct-1送入遗忘门,得到/>
Figure BDA0004157935840000094
遗忘门/>
Figure BDA0004157935840000095
和输入门
Figure BDA0004157935840000096
分别用于平衡来自Ct-1和yt-1的输入,具体计算如下:
Figure BDA0004157935840000097
Figure BDA0004157935840000098
其中:Wf,Wi是遗忘门和输入门中Yt-1的可训练权重,Uf,Ui是遗忘门和输入门中Ct-1的可训练权重;
步骤(6.4):将
Figure BDA0004157935840000099
进行sigmoid函数激活,使用双曲正切函数对/>
Figure BDA00041579358400000910
进行计算,将对Ct进行计算的结果与激活的/>
Figure BDA00041579358400000911
进行相乘,将激活的/>
Figure BDA00041579358400000912
与t-1时刻的记忆矩阵Ct-1进行相乘,最后将两个相乘结果进行相加,得到门控模块的最终输出Ct,具体公式如下:
Figure BDA00041579358400000913
其中:σ是sigmoid函数,Ct是整个关系记忆模块在时刻t的输出。
步骤(7):利用关系记忆模块的输出Ct对记忆解码层中表示缩放和移动学习表征的两个关键参数γ和β产生影响,进一步融合记忆信息,提高解码性能,也即受记忆驱动的约束归一化层的具体处理流程如下:
步骤(7.1):将t时刻的记忆矩阵Ct扩展变为ct,经过线性层预测γ的改变量Δγt,得到新的参数
Figure BDA0004157935840000101
计算公式如下:
Δγt=Linear(ct) (32)
Figure BDA0004157935840000102
步骤(7.2):经过线性层预测β的改变量Δβt,得到新的参数
Figure BDA0004157935840000103
计算公式如下:
Δβt=Linear(ct) (34)
Figure BDA0004157935840000104
步骤(7.3):将新的参数
Figure BDA0004157935840000105
和/>
Figure BDA0004157935840000106
与受记忆驱动的约束归一化层的均值、方差进行下述运算:
Figure BDA0004157935840000107
其中:μ和v分别是的受记忆驱动的约束归一化层的均值和标准差;记忆解码层中第一个和第二个受记忆驱动的约束归一化层的输出结果fMDCNL(r)送入下一个模块用作输入,第三个受记忆驱动的约束归一化层的输出用作下一个记忆解码层的输入。
步骤(8):构建语言特征表示模块获取给定序列的语言特征,语言特征表示模块包含一个在大型语料库上预训练的文本编码器BERT和一个带掩码的多头注意力层;具体流程如下:
步骤(8.1):使用预训练的文本编码器BERT对诊断报告的单词序列进行编码提取语言特征:
lf=BERT(W) (37)
其中:
Figure BDA0004157935840000108
是BERT模型输出的语言特征;
步骤(8.2):上一步提取的语言特征lf经线性变换加上步骤(5.1)中的位置编码送入带掩码的多头注意力层,得到语言信号
Figure BDA0004157935840000109
S=MMHA(Linear(lf)+PE) (38)
步骤(9):构建自适应注意模块,不直接使用最后一个记忆解码层输出的隐藏状态HW来预测单词,而是将步骤(8)中输出的语言信号S、步骤(4)中最后一个编码层输出的视觉信号U和隐藏状态HW组合在一起,来度量视觉信号和语言信号对每个单词预测的贡献;自适应注意模块包含一个带掩码的多头注意力层、三个线性层和一个多头注意力层,图5描述了该模块的具体结构,计算过程如下:
将隐藏状态
Figure BDA00041579358400001010
送入带掩码的多头注意力层,获得/>
Figure BDA0004157935840000111
H=MaskedMultiHeadAttention(Hw) (39)
在每个时间步选择对应的隐藏状态和语言信号,并将语言信号和视觉信号拼接在一起与隐藏状态一同送入多头注意力层,获得预测单词的分布概率,将分布概率最大的单词对应的索引即为需要的生成报告;以时间步t为例,具体计算过程如下:
首先将时间步t的隐藏状态ht经线性层映射为查询向量qt,时间步t的语言信号st和视觉信号U拼接在一起经线性层分别映射成键向量kt和值向量vt
Figure BDA0004157935840000112
其中:qp,t为多头注意力层中第p个注意力头中第t个单词的查询向量,kp,t,vp,t分别为多头注意力层中第p个注意力头中第t个时间步单词的键向量和值向量,
Figure BDA0004157935840000113
表示第p个注意力头中线性映射成查询向量qp,t的可学习权重参数,/>
Figure BDA0004157935840000114
表示第p个注意力头中线性映射成键向量kp,t的可学习权重参数,/>
Figure BDA0004157935840000115
表示第p个注意力头中线性映射成值向量vp,t的可学习权重参数,p=1,2…8;
然后进行缩放点积注意力的计算,得到第p个注意力头在第t个时间步单词的关注结果headj,t
Figure BDA0004157935840000116
将第p个注意力头中所有时间步单词的关注结果拼接在一起,获得第p个注意力头中单词序列的关注结果headp
headp=Concate(headp,1,headp,2,...,headP,M) (42)
将所有注意力头中单词序列的关注结果拼接在一起,并经线性映射获得多头注意力层的输出att:
att=Concate(head1,head2,...,head8)WO (43)
经过线性变换,最终获得预测单词的分布概率
Figure BDA0004157935840000117
Figure BDA0004157935840000118
其中:b表示偏置项,WO表示线性映射成att的可学习权重参数,Watt表示线性映射成
Figure BDA0004157935840000119
的可学习权重参数,log-softmax表示函数。
本实施例中,多头注意力层、前馈神经网络层、归一化层、带掩码的多头注意力层、线性层、文本编码器的具体结构均为现有技术。
所述实施例为本发明的优选的实施方式,但本发明并不限于上述实施方式,在不背离本发明的实质内容的情况下,本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims (10)

1.一种基于记忆能力学习的医学影像报告自动生成方法,其特征在于:
提取处理后的医学图像的网格视觉特征;
所述网格视觉特征经空间信息增强模块计算后送入编码器编码,得到视觉信号;
将所述视觉信号送入记忆解码器,获取隐藏状态;
诊断报告经过语言特征表示模块,得到语言信号;
构建自适应注意模块:包括一个带掩码的多头注意力层A和一个多头注意力层A,所述隐藏状态送入带掩码的多头注意力层A,得到新的隐藏状态;将所述语言信号和视觉信号拼接在一起并分别映射成向量,再与同一个时间步新的隐藏状态映射成的向量一同送入多头注意力层A,获得预测单词的分布概率,将分布概率最大的单词对应的索引即为需要的生成报告。
2.根据权利要求1所述的医学影像报告自动生成方法,其特征在于,所述记忆解码器包括6个结构相同的记忆解码层,每个记忆解码层包括一个带掩码的多头注意力层B、三个受记忆驱动的约束归一化层、一个多头注意力层B、一个前馈神经网络层A和一个关系记忆模块;所述受记忆驱动的约束归一化层的具体为:将t时刻的记忆矩阵Ct扩展变为ct,再经过线性层预测参数γ和β的改变量Δγt、Δβt,将改变量和参数相加,得到新的参数
Figure FDA0004157935820000011
和/>
Figure FDA0004157935820000012
并与r、受记忆驱动的约束归一化层的均值及方差进行运算,其中r表示带掩码的多头注意力层的输出Y1′与加入位置信息的词向量yt-1残差连接的结果;所述关系记忆模块包括多头注意力层、线性层和门控模块,将t-1时刻的记忆矩阵Ct-1、Ct-1与yt-1拼接在一起的结果送入多头注意力层,输出C′1,将所述C′1与Ct-1求和送入线性层并加上Ct-1和C′1,输出/>
Figure FDA0004157935820000013
所述Ct-1和/>
Figure FDA0004157935820000014
经过门控模块,输出t时刻的记忆矩阵Ct
3.根据权利要求1所述的医学影像报告自动生成方法,其特征在于,映射成向量后,进行缩放点积注意力的计算,得到第p个注意力头在第t个时间步单词的关注结果,将第p个注意力头中所有时间步单词的关注结果拼接在一起,获得第p个注意力头中单词序列的关注结果,将所有注意力头中单词序列的关注结果拼接在一起,并经线性映射获得多头注意力层A的输出,经线性变换,最终获得预测单词的分布概率。
4.根据权利要求2所述的医学影像报告自动生成方法,其特征在于,所述空间信息增强模块用于计算网格视觉特征中两网格之间的相对几何特征。
5.根据权利要求4所述的医学影像报告自动生成方法,其特征在于,所述相对几何特征是根据网格中心坐标、相对宽度和相对高度计算得到的,所述网格中心坐标、相对宽度和相对高度由网格的一对2维相对位置计算得到。
6.根据权利要求1所述的医学影像报告自动生成方法,其特征在于,所述语言特征表示模块包括一个预训练的文本编码器和一个带掩码的多头注意力层C,预训练的文本编码器对诊断报告的单词序列进行编码提取语言特征,提取的语言特征经线性变换加上位置编码送入带掩码的多头注意力层C,得到语言信号。
7.根据权利要求1所述的医学影像报告自动生成方法,其特征在于,所述网格视觉特征是使用视觉编码器提取的,所述视觉编码器具体为:将在ImageNet上预训练的ResNet50中的全连接层的输出通道改为14,然后在医学数据集CheXpert上进行微调,再将微调过后的ResNet50去掉最后的池化层和全连接层,使用512个1×1卷积层进行替代。
8.根据权利要求4所述的医学影像报告自动生成方法,其特征在于,所述编码器分为多个结构相同的编码层,每个编码层中包括一个多头注意力层C、一个前馈神经网络层B和两个归一化层,中间采用残差连接;多头注意力层C将网格视觉特征映射成n个不同的向量,相对几何特征融入多头注意力层C的缩放点积注意力,计算得到n个不同的注意力头输出特征,将n个注意力头输出特征拼接在一起,经线性层映射后得到多头注意力层C的输出;所述多头注意力层C的输出与网格视觉特征进行残差连接,并送入第一个归一化层,将第一个归一化层的输出送入前馈神经网络层B,将前馈神经网络层B的输出与第一个归一化层的输出进行残差连接,并送入第二个归一化层,得到编码层的输出;其它编码层将前一个编码层的输出作为输入,最后一个编码层的输出结果为视觉信号。
9.根据权利要求8所述的医学影像报告自动生成方法,其特征在于,所述隐藏状态的获取过程为:带掩码的多头注意力层B的输出与加入位置信息的词向量进行残差连接,并与关系记忆模块变换后的输出ct一同输入第一个受记忆驱动的约束归一化层,输出Y2′,Y2′及所述视觉信号送入多头注意力层B,输出Y3′,Y3′与Y2′进行残差连接,与ct一同输入第二个受记忆驱动的约束归一化层,得到Y4′,Y4′送入前馈神经网络层,输出Y5′,将Y4′和Y5′进行残差连接,与ct一同送入第三个受记忆驱动的约束归一化层;其它记忆解码层将前一记忆解码层的输出作为输入,最后一个记忆解码层输出隐藏状态。
10.根据权利要求2所述的医学影像报告自动生成方法,其特征在于,所述门控模块输出的记忆矩阵Ct通过如下公式计算得到:
Figure FDA0004157935820000021
其中:σ是sigmoid函数,⊙是哈德曼乘积,
Figure FDA0004157935820000022
表示遗忘门,/>
Figure FDA0004157935820000023
表示输入门。
CN202310340187.9A 2023-03-31 2023-03-31 基于记忆能力学习的医学影像报告自动生成方法 Pending CN116364227A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310340187.9A CN116364227A (zh) 2023-03-31 2023-03-31 基于记忆能力学习的医学影像报告自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310340187.9A CN116364227A (zh) 2023-03-31 2023-03-31 基于记忆能力学习的医学影像报告自动生成方法

Publications (1)

Publication Number Publication Date
CN116364227A true CN116364227A (zh) 2023-06-30

Family

ID=86907620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310340187.9A Pending CN116364227A (zh) 2023-03-31 2023-03-31 基于记忆能力学习的医学影像报告自动生成方法

Country Status (1)

Country Link
CN (1) CN116364227A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117372306A (zh) * 2023-11-23 2024-01-09 山东省人工智能研究院 一种基于双编码器的肺部医学影像增强方法
CN117393100A (zh) * 2023-12-11 2024-01-12 安徽大学 诊断报告的生成方法、模型训练方法、系统、设备及介质
CN117558459A (zh) * 2024-01-10 2024-02-13 中国科学技术大学 一种记忆驱动的医疗多模态内容分析及生成方法
CN117594184A (zh) * 2024-01-19 2024-02-23 中国科学技术大学 一种基于记忆网络的医疗多模态内容分析及生成方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117372306A (zh) * 2023-11-23 2024-01-09 山东省人工智能研究院 一种基于双编码器的肺部医学影像增强方法
CN117372306B (zh) * 2023-11-23 2024-03-01 山东省人工智能研究院 一种基于双编码器的肺部医学影像增强方法
CN117393100A (zh) * 2023-12-11 2024-01-12 安徽大学 诊断报告的生成方法、模型训练方法、系统、设备及介质
CN117393100B (zh) * 2023-12-11 2024-04-05 安徽大学 诊断报告的生成方法、模型训练方法、系统、设备及介质
CN117558459A (zh) * 2024-01-10 2024-02-13 中国科学技术大学 一种记忆驱动的医疗多模态内容分析及生成方法
CN117594184A (zh) * 2024-01-19 2024-02-23 中国科学技术大学 一种基于记忆网络的医疗多模态内容分析及生成方法

Similar Documents

Publication Publication Date Title
CN116364227A (zh) 基于记忆能力学习的医学影像报告自动生成方法
CN107016438B (zh) 一种基于中医辨证人工神经网络算法模型的系统
CN108376558B (zh) 一种多模态核磁共振影像病历报告自动生成方法
Ding et al. FTransCNN: Fusing Transformer and a CNN based on fuzzy logic for uncertain medical image segmentation
CN114944213A (zh) 基于记忆驱动的Transformer医学内窥镜图像报告生成方法
CN115690072A (zh) 基于多模态深度学习的胸片特征提取和疾病分类方法
CN114863111A (zh) 交互融合Transformer的超声图像量化方法
CN113781461A (zh) 一种病人智能监控排序方法
CN116258732A (zh) 一种基于pet/ct图像跨模态特征融合的食管癌肿瘤靶区分割方法
Song et al. Feature extraction processing method of medical image fusion based on neural network algorithm
CN116797572A (zh) 基于多模态数据的类风湿关节炎活动度分级装置
Yu et al. An unsupervised hybrid model based on CNN and ViT for multimodal medical image fusion
Ji et al. Lung nodule detection in medical images based on improved YOLOv5s
Zheng et al. Pneumoconiosis identification in chest X-ray films with CNN-based transfer learning
CN116779091B (zh) 一种多模态网络互联融合的胸部影像诊断报告自动生成方法
Shen [Retracted] Implementation of CT Image Segmentation Based on an Image Segmentation Algorithm
CN116309754A (zh) 一种基于局部-全局信息协作的大脑医学图像配准方法及系统
CN114708952B (zh) 一种图像标注方法、装置、存储介质和电子设备
CN115762721A (zh) 一种基于计算机视觉技术的医疗影像质控方法和系统
CN115565671A (zh) 基于跨模型相互教学半监督的房颤辅助分析方法
CN115239740A (zh) 基于GT-UNet的全心分割算法
Shaik et al. Gated contextual transformer network for multi-modal retinal image clinical description generation
Tanwar et al. Artificial Intelligence and Machine Learning: An Intelligent Perspective of Emerging Technologies
Gupta Skin Lesion Classification Based on Various Machine Learning Models Explained by Explainable Artificial Intelligence
Jing et al. USCT: Uncertainty-regularized symmetric consistency learning for semi-supervised teeth segmentation in CBCT

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination