CN115223678A - 基于多任务多模态深度学习的x光胸片诊断报告生成方法 - Google Patents

基于多任务多模态深度学习的x光胸片诊断报告生成方法 Download PDF

Info

Publication number
CN115223678A
CN115223678A CN202210890845.7A CN202210890845A CN115223678A CN 115223678 A CN115223678 A CN 115223678A CN 202210890845 A CN202210890845 A CN 202210890845A CN 115223678 A CN115223678 A CN 115223678A
Authority
CN
China
Prior art keywords
disease
modal
network
word
report generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210890845.7A
Other languages
English (en)
Inventor
崔少国
尚曹志
屈虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Normal University
Original Assignee
Chongqing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Normal University filed Critical Chongqing Normal University
Priority to CN202210890845.7A priority Critical patent/CN115223678A/zh
Publication of CN115223678A publication Critical patent/CN115223678A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Radiology & Medical Imaging (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供一种基于多任务多模态深度学习的X光胸片诊断报告生成方法,包括以下步骤:由多模态特征提取器、多模态特征关系探索器和疾病状态分类器组成的多模态特征融合疾病分类网络模型搭建,报告生成网络模型搭建,联合训练与参数优化以及胸部疾病诊断报告自动生成。本申请通过输入多视角X光胸片及其临床历史文本,采用多模态特征提取器提取丰富的上下文信息,并利用这些信息共同对疾病状态标签进行预测,以显著提高预测准确率;通过将疾病分类结果返回给模型,使得模型在后续单词预测时获得更准确的疾病信息以缓解视觉数据偏差;通过多任务学习同时最小化疾病分类网络和报告生成网络的损失,使模型在精确生成诊断报告的同时具有更好鲁棒性。

Description

基于多任务多模态深度学习的X光胸片诊断报告生成方法
技术领域
本发明涉及医学图像理解技术领域,具体涉及一种基于多任务多模态深度学习的X光胸片诊断报告生成方法。
背景技术
X光胸片在临床工作流程中被广泛用于诊断、检测和治疗干预诸多常见胸部疾病,例如肺炎、气胸、肺癌和间质性肺疾病等。在经过放射学检查后,放射科医生需提供一份对正常以及异常部位进行消息描述的放射学报告以便辅助门诊医生诊断或转诊。然而,这一流程对于缺乏经验的医生可能会导致误诊或漏诊的情况发生,而对于有经验的医生撰写报告非常耗时和乏味导致效率低下。通过自动化生成放射学报告提高效率,减少不必要的错误,并减轻放射科医生编写报告的负担是一项极具价值的工作。
由于深度学习在计算机视觉和自然语言处理等领域快速且成功的发展,使得由图像到文字这一跨模态的过程得以实现。放射学报告自动生成是利用图像特征对每一个时间步进行单词预测,基于编解码框架的深度学习技术使得生成报告与医生撰写报告的相似度得到了显著提升。编解码框架能通过端对端的训练以有监督学习的方式从训练数据中自动学习面向具体任务的层级化特征。然而,本申请的发明人经过研究发现,当前基于深度学习的X光胸片检查报告自动生成存在以下不足:(1)通过单一视角的图像进行单词预测,无法全面的观察胸部的情况,容易误诊或漏诊;(2)基于纯数据驱动的深度学习方法,容易被巨大的视觉与语义的数据偏差误导,导致偏向生成正常的描述而无法正确的检查出异常。
发明内容
针对现有基于深度学习的X光胸片检查报告自动生成存在通过单一视角的图像进行单词预测,因而无法全面的观察胸部的情况,容易误诊或漏诊;以及基于纯数据驱动的深度学习方法,容易被巨大的视觉与语义的数据偏差误导,导致偏向生成正常的描述而无法正确的检查出异常的技术问题,本发明提供一种基于多任务多模态深度学习的X光胸片诊断报告生成方法。
为了解决上述技术问题,本发明采用了如下的技术方案:
基于多任务多模态深度学习的X光胸片诊断报告生成方法,包括以下步骤:
S1、多模态特征融合疾病分类网络模型搭建:所述多模态特征融合疾病分类网络用于生成输入X光胸片的常见疾病的分类结果,该多模态特征融合疾病分类网络包括多模态特征提取器、多模态特征关系探索器和疾病状态分类器;
S11、所述多模态特征提取器用于分别从输入X光胸片和临床历史文本提取不同模态特征,针对X光胸片采用深度卷积网络作为图像特征提取器,所述图像特征提取器包括第一至第四紧密连接层组和第一至第三过渡层,所述第一过渡层位于第一紧密连接层组之后,所述第二过渡层位于第二紧密连接层组之后,所述第三过渡层位于第三紧密连接层组之后,所述第四紧密连接层组位于第三过渡层之后,针对临床历史文本采用文本嵌入层获取文本特征;
S12、所述多模态特征关系探索器用于将多模态特征进行对齐融合,首先图像和文本特征分别通过一个多头自注意力模块强化模态内部之间的关联,再分别通过一个多头交叉注意力模块进行图像与文本两个模态间的对齐和融合,最后将两个多头交叉注意力模块的输出进行拼接得到最终的多模态综合特征;
S13、所述疾病状态分类器用于根据多模态综合特征对疾病的状态进行预测,所述疾病状态分类器由第一和第二多头注意力模块组成,所述第一多头注意力模块以疾病话题嵌入作为查询,并以多模态综合特征作为键和值得到综合疾病表示,所述第二多头注意力模块以综合疾病表示作为查询,并以疾病状态嵌入作为键和值得到的注意力分数作为疾病状态的概率分布,最后将疾病状态嵌入乘以概率分布后再与综合疾病表示相加得到状态感知的综合疾病表示;
S2、报告生成网络模型搭建:所述报告生成网络用于逐字生成诊断报告,该报告生成网络由十二个标准transformer解码层、一个全连接层和一个softmax回归层组成;每个标准transformer解码层中包括顺序设置的一个多头自注意力模块、一个多头交叉注意力模块和一个前馈神经网络,所述一个多头自注意力模块和一个多头交叉注意力模块中的注意力头数为1,所述全连接层位于最后一个标准transformer解码层之后;所述报告生成网络的输入是前述多模态特征融合疾病分类网络步骤S13中最后得到的状态感知的综合疾病表示,输出是0~1000的预测结果,分别表示词表中每个单词的索引;
S3、联合训练与参数优化:将步骤S1搭建的多模态特征融合疾病分类网络和步骤S2搭建的报告生成网络采用联合训练,其具体包括:
S31、首先采用Xavier方法对网络模型参数进行初始化,然后采用Adam算法优化网络目标函数,并运用误差反向传播算法更新网络模型参数;
S32、将包含AP、PA和LA的多视角X光胸片作为图像端输入,将临床历史文本部分作为文本端输入,将训练样本的疾病类别和诊断报告作为共同优化目标,将训练样本按7:1:2比例分为训练集、验证集和测试集;
S4、胸部疾病诊断报告自动生成:
S41、将AP、PA和LA的多视角X光胸片及对应临床历史文本作为输入,通过多模态特征提取器产生大小为原始图像1/32的特征图以及长度为300的单词嵌入;
S42、将提取的特征图与单词嵌入输入多模态特征关系探索器,生成多模态综合特征;
S43、将多模态综合特征输入疾病状态分类器生成不同疾病话题的状态概率以及状态感知的综合疾病表示;
S44、将状态感知的综合疾病表示输入到报告生成网络对每一个时间步的单词进行预测,形成最终的诊断报告。
进一步,所述多模态特征融合疾病分类网络的输入分为图像端和文本端,图像端输入大小为256×256的X光胸片,文本端输入长度为300的单词索引,所述多模态特征融合疾病分类网络输出的是大小为114×2的概率分布图,代表114个疾病话题划分为阴性或阳性的置信度。
进一步,所述步骤S11中,所述第一至第四紧密连接层组分别由6、12、24、16个紧密连接层组成,每个紧密连接层由两个卷积层组成,两个卷积层的卷积核大小分别为1×1、3×3,步长为1,每个紧密连接层的卷积核个数为32。
进一步,所述步骤S11中,所述第一至第三过渡层均包含一个卷积层和一个平均池化层,卷积层的卷积核大小为1×1,步长为1,卷积核个数分别为128、256、512。
进一步,任意一个卷积核所对应的输出特征图Zi采用下式进行计算:
Figure BDA0003767478930000041
其中,r表示输入通道索引号,k表示输入通道数,Wir表示第i个卷积核的第r个通道权值矩阵,
Figure BDA0003767478930000042
是卷积操作,Ir表示第r个输入通道图像。
进一步,所述多模态特征融合疾病分类网络和报告生成网络中的多头注意力由n个平行的头组成,且每个头都是一个带缩放点乘注意力,所述多头注意力具体定义如下:
Figure BDA0003767478930000043
MHA(X,Y)=[Att1(X,Y);...;Attn(X,Y)]WO
其中,Wi Q、Wi K、Wi V表示第i个头的可学习参数矩阵,dn为特征维度,WO表示n个头拼接后的可学习参数矩阵,[:;:]表示拼接操作,X表示查询,Y表示键和值。
进一步,所述多模态特征融合疾病分类网络和报告生成网络中的前馈神经网络包含两个线性层和一次激活操作,具体表示如下:
FFN(x)=max(0,xWf+bf)Wff+bff
其中,Wf、Wff表示为可学习参数矩阵,bf、bff表示为可学习偏置,x表示输入。
进一步,所述多模态特征融合疾病分类网络和报告生成网络中每个注意力模块的softmax函数将网络输出的预测分值转换成概率分布,所述softmax函数定义如下:
Figure BDA0003767478930000051
其中,Oi、Oj是分类任务在第i、j类上的预测分数,Sj是分类任务属于j类的概率,C代表类别个数。
进一步,所述步骤S3中联合训练的初始学习率设为ηt=1e-4,在25次迭代后减少到5e-5
进一步,所述步骤S31中多模态特征融合疾病分类网络采用下列交叉熵函数为目标函数:
Figure BDA0003767478930000052
其中,M为疾病话题总数,yij表示第i个疾病话题的第j个状态标签,pdisease,ij表示第i个疾病话题被划分为第j个状态的概率;
报告生成网络采用下列交叉熵函数为目标函数:
Figure BDA0003767478930000053
其中,N为生成报告中单词总数,wij表示真实报告中第i个单词是否为单词表中的第j个单词,pword,ij表示生成报告中第i个单词被划分为单词表中第j个单词的概率,u为单词表中总的单词数量;
联合训练目标函数由多模态特征融合疾病分类网络和报告生成网络的目标函数共同构成:
Ltotal=Lcls+Lgen
其中,Ltotal为联合训练的目标函数,是算法模型总体损失,使Ltotal取极小值为最终优化目标。
与现有技术相比,本发明提供的基于多任务多模态深度学习的X光胸片诊断报告生成方法具有以下优点:
1、通过输入图像及其临床历史文本,采用多模态特征提取器可以提取更丰富的上下文信息,利用这些信息共同对疾病状态标签进行预测,即使用不同模态的特征共同对报告中每一个单词进行预测,为单词预测提供更丰富的上下文信息,可显著提高预测准确率。
2、将包含AP、PA和LA的多视角X光胸片作为图像端输入,因而能够全面观察胸部的情况,减少了误诊或漏诊。
3、通过将疾病分类结果返回给模型,使得模型在后续单词预测时获得更准确的疾病信息以缓解庞大的视觉数据偏差,由此可提高生成结果的准确性。
4、通过多任务学习同时最小化多模态特征融合疾病分类网络和报告生成网络的损失,确保网络同时输出准确分类结果和生成结果,使得模型具有更好的鲁棒性。
附图说明
图1是本发明提供的基于多任务多模态深度学习的X光胸片诊断报告生成方法流程示意图。
图2是本发明提供的多模态特征融合疾病分类网络结构示意图。
图3是本发明提供的多模态特征关系探索器和疾病状态分类器的网络结构示意图。
图4是本发明提供的第t时刻报告生成网络结构示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
请参考图1至图4所示,本发明提供一种基于多任务多模态深度学习的X光胸片诊断报告生成方法,包括以下步骤:
S1、多模态特征融合疾病分类网络模型搭建:所述多模态特征融合疾病分类网络用于生成输入X光胸片的常见疾病的分类结果(针对每一个疾病存在阴性或阳性两种标签),该多模态特征融合疾病分类网络包括多模态特征提取器、多模态特征关系探索器和疾病状态分类器;
S11、所述多模态特征提取器用于分别从输入X光胸片和临床历史文本提取不同模态特征,针对X光胸片采用深度卷积网络作为图像特征提取器,所述图像特征提取器包括第一至第四紧密连接层组(Dense Block)和第一至第三过渡层(Transition Layer),所述第一过渡层位于第一紧密连接层组之后,所述第二过渡层位于第二紧密连接层组之后,所述第三过渡层位于第三紧密连接层组之后,所述第四紧密连接层组位于第三过渡层之后,针对临床历史文本采用文本嵌入层(Embedding Layer)获取文本特征;
S12、所述多模态特征关系探索器用于将多模态特征进行对齐融合,首先图像和文本特征分别通过一个多头自注意力模块强化模态内部之间的关联,再分别通过一个多头交叉注意力模块进行图像与文本两个模态间的对齐和融合,最后将两个多头交叉注意力模块的输出进行拼接得到最终的多模态综合特征;
S13、所述疾病状态分类器用于根据多模态综合特征对疾病的状态进行预测,所述疾病状态分类器由第一和第二多头注意力模块组成,所述第一多头注意力模块以疾病话题嵌入作为查询,并以多模态综合特征作为键和值得到综合疾病表示,即第一多头注意力模块输出的是值的加权表达,所述第二多头注意力模块以综合疾病表示作为查询,并以疾病状态嵌入作为键和值得到的注意力分数作为疾病状态的概率分布,即第二多头注意力模块输出的是每一个疾病划分阴性或阳性的概率,或者说输出的是查询和键的注意力分数,最后将疾病状态嵌入乘以概率分布后再与综合疾病表示相加得到状态感知的综合疾病表示;
所述多模态特征融合疾病分类网络的输入分为图像端和文本端,图像端输入大小为256×256的X光胸片,文本端输入长度为300的单词索引,所述多模态特征融合疾病分类网络输出的是大小为114×2的概率分布图,代表114个疾病话题划分为阴性或阳性的置信度。具体所述多模态特征融合疾病分类网络模型参数见下表1:
表1 X光胸片疾病分类网络模型参数表(Padding=1)
Figure BDA0003767478930000081
Figure BDA0003767478930000091
上表1中,序号21的输入是序号18和20拼接后的特征,序号22输出的是注意力矩阵;而为了保证卷积过程中特征图大小不变,在卷积过程中设置Padding=1,表示卷积时用0填充图像周围。
S2、报告生成网络模型搭建:所述报告生成网络用于逐字生成诊断报告,该报告生成网络由十二个标准transformer解码层、一个全连接层和一个softmax回归层组成;每个标准transformer解码层中包括顺序设置的一个多头自注意力模块、一个多头交叉注意力模块和一个前馈神经网络,所述一个多头自注意力模块和一个多头交叉注意力模块中的注意力头数为1,所述全连接层位于最后一个标准transformer解码层之后;所述报告生成网络的输入是前述多模态特征融合疾病分类网络步骤S13中最后得到的状态感知的综合疾病表示,输出是0~1000的预测结果,分别表示词表中每个单词的索引,具体所述报告生成网络模型参数见下表2。
表2报告生成网络模型参数表
Figure BDA0003767478930000092
Figure BDA0003767478930000101
上表2中,t代表第t个时间步,全连接层的输入为序号36输出的最后一维特征。
S3、联合训练与参数优化:将步骤S1搭建的多模态特征融合疾病分类网络和步骤S2搭建的报告生成网络采用联合训练,其具体包括:
S31、首先采用Xavier方法对网络模型参数进行初始化,然后采用Adam算法优化网络目标函数,并运用误差反向传播算法更新网络模型参数;
S32、对于训练数据,本申请采用了当前最大的公开数据集,包含377110张X光胸片以及227835份诊断报告;具体本申请将包含AP(前后)、PA(后前)和LA(外侧)的多视角X光胸片作为图像端输入,将临床历史文本部分作为文本端输入,将训练样本的疾病类别和诊断报告作为共同优化目标,将训练样本按7:1:2比例分为训练集、验证集和测试集。
S4、胸部疾病诊断报告自动生成:
S41、将AP、PA和LA的多视角X光胸片及对应临床历史文本作为输入,通过多模态特征提取器产生大小为原始图像1/32的特征图以及长度为300的单词嵌入;
S42、将提取的特征图与单词嵌入输入多模态特征关系探索器,生成多模态综合特征;具体地,将特征图进行展平操作(flatten)后与单词嵌入分别通过两个独立的多头自注意力模块,然后交替作为两个多头自注意力模块的查询,最后进行拼接整合;
S43、将多模态综合特征输入疾病状态分类器生成不同疾病话题的状态概率以及状态感知的综合疾病表示;
S44、将状态感知的综合疾病表示输入到报告生成网络对每一个时间步的单词进行预测,形成最终的诊断报告。
作为具体实施例,所述步骤S11中,所述第一至第四紧密连接层组分别由6、12、24、16个紧密连接层(Dense Layer)组成,每个紧密连接层由两个卷积层组成,两个卷积层的卷积核大小分别为1×1、3×3,步长为1,每个紧密连接层的卷积核个数为32。
作为具体实施例,所述步骤S11中,所述第一至第三过渡层均包含一个卷积层和一个平均池化层,卷积层的卷积核大小为1×1,步长为1,卷积核个数分别为128、256、512。由此,本申请提供的图像特征提取器通过紧密连接层组与过度层相结合,具有以下优势:1、由于密集连接方式,DenseNet(图像特征提取器)提升了梯度的反向传播,使得网络更容易训练,由于每层可以直达最后的误差信号,实现了隐式的“deep supervision”(缓解了梯度消失避免了随着网络深度增加而导致的网络退化);2、参数更小且计算更高效,由于DenseNet是通过concat特征来实现短路连接,实现了特征重用,并且采用较小的膨胀率,每个层所独有的特征图是比较小的;3、由于特征复用,最后的疾病状态分类器使用了低级特征。
作为具体实施例,所述多模态特征融合疾病分类网络模型进行卷积操作运算中,任意一个卷积核所对应的输出特征图Zi采用下式进行计算:
Figure BDA0003767478930000111
其中,r表示输入通道索引号,k表示输入通道数,Wir表示第i个卷积核的第r个通道权值矩阵,
Figure BDA0003767478930000112
是卷积操作,Ir表示第r个输入通道图像。
作为具体实施例,所述多模态特征融合疾病分类网络和报告生成网络中的多头注意力由n个平行的头组成,且每个头都是一个带缩放点乘注意力,所述多头注意力具体定义如下:
Figure BDA0003767478930000113
MHA(X,Y)=[Att1(X,Y);...;Attn(X,Y)]WO
其中,Wi Q、Wi K、Wi V表示第i个头的可学习参数矩阵,dn为特征维度,WO表示n个头拼接后的可学习参数矩阵,[:;:]表示拼接操作,X表示查询,Y表示键和值。
作为具体实施例,所述多模态特征融合疾病分类网络和报告生成网络中的前馈神经网络包含两个线性层和一次激活操作,具体表示如下:
FFN(x)=max(0,xWf+bf)Wff+bff
其中,Wf、Wff表示为可学习参数矩阵,bf、bff表示为可学习偏置,x表示输入。
作为具体实施例,所述多模态特征融合疾病分类网络和报告生成网络中每个注意力模块的softmax函数将网络输出的预测分值转换成概率分布,所述softmax函数定义如下:
Figure BDA0003767478930000121
其中,Oi、Oj是分类任务在第i、j类上的预测分数,Sj是分类任务属于j类的概率,C代表类别个数。
作为具体实施例,所述步骤S3中联合训练的初始学习率设为ηt=1e-4,在25次迭代后减少到5e-5,由此可以在训练开始阶段加快收敛,在接近收敛阶段避免震荡。
作为具体实施例,所述步骤S31中多模态特征融合疾病分类网络采用下列交叉熵函数为目标函数,即分类网损失函数如下:
Figure BDA0003767478930000122
其中,M为疾病话题总数,yij表示第i个疾病话题的第j个状态标签,pdisease,ij表示第i个疾病话题被划分为第j个状态的概率;
报告生成网络采用下列交叉熵函数为目标函数,即生成网损失函数如下:
Figure BDA0003767478930000131
其中,N为生成报告中单词总数,wij表示真实报告中第i个单词是否为单词表中的第j个单词(0或1),pword,ij表示生成报告中第i个单词被划分为单词表中第j个单词的概率,u为单词表中总的单词数量;
联合训练目标函数由多模态特征融合疾病分类网络和报告生成网络的目标函数共同构成:
Ltotal=Lcls+Lgen
其中,Ltotal为联合训练的目标函数,是算法模型总体损失,使Ltotal取极小值为最终优化目标。
与现有技术相比,本发明提供的基于多任务多模态深度学习的X光胸片诊断报告生成方法具有以下优点:
1、通过输入图像及其临床历史文本,采用多模态特征提取器可以提取更丰富的上下文信息,利用这些信息共同对疾病状态标签进行预测,即使用不同模态的特征共同对报告中每一个单词进行预测,为单词预测提供更丰富的上下文信息,可显著提高预测准确率。
2、将包含AP、PA和LA的多视角X光胸片作为图像端输入,因而能够全面观察胸部的情况,减少了误诊或漏诊。
3、通过将疾病分类结果返回给模型,使得模型在后续单词预测时获得更准确的疾病信息以缓解庞大的视觉数据偏差,由此可提高生成结果的准确性。
4、通过多任务学习同时最小化多模态特征融合疾病分类网络和报告生成网络的损失,确保网络同时输出准确分类结果和生成结果,使得模型具有更好的鲁棒性。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.基于多任务多模态深度学习的X光胸片诊断报告生成方法,其特征在于,包括以下步骤:
S1、多模态特征融合疾病分类网络模型搭建:所述多模态特征融合疾病分类网络用于生成输入X光胸片的常见疾病的分类结果,该多模态特征融合疾病分类网络包括多模态特征提取器、多模态特征关系探索器和疾病状态分类器;
S11、所述多模态特征提取器用于分别从输入X光胸片和临床历史文本提取不同模态特征,针对X光胸片采用深度卷积网络作为图像特征提取器,所述图像特征提取器包括第一至第四紧密连接层组和第一至第三过渡层,所述第一过渡层位于第一紧密连接层组之后,所述第二过渡层位于第二紧密连接层组之后,所述第三过渡层位于第三紧密连接层组之后,所述第四紧密连接层组位于第三过渡层之后,针对临床历史文本采用文本嵌入层获取文本特征;
S12、所述多模态特征关系探索器用于将多模态特征进行对齐融合,首先图像和文本特征分别通过一个多头自注意力模块强化模态内部之间的关联,再分别通过一个多头交叉注意力模块进行图像与文本两个模态间的对齐和融合,最后将两个多头交叉注意力模块的输出进行拼接得到最终的多模态综合特征;
S13、所述疾病状态分类器用于根据多模态综合特征对疾病的状态进行预测,所述疾病状态分类器由第一和第二多头注意力模块组成,所述第一多头注意力模块以疾病话题嵌入作为查询,并以多模态综合特征作为键和值得到综合疾病表示,所述第二多头注意力模块以综合疾病表示作为查询,并以疾病状态嵌入作为键和值得到的注意力分数作为疾病状态的概率分布,最后将疾病状态嵌入乘以概率分布后再与综合疾病表示相加得到状态感知的综合疾病表示;
S2、报告生成网络模型搭建:所述报告生成网络用于逐字生成诊断报告,该报告生成网络由十二个标准transformer解码层、一个全连接层和一个softmax回归层组成;每个标准transformer解码层中包括顺序设置的一个多头自注意力模块、一个多头交叉注意力模块和一个前馈神经网络,所述一个多头自注意力模块和一个多头交叉注意力模块中的注意力头数为1,所述全连接层位于最后一个标准transformer解码层之后;所述报告生成网络的输入是前述多模态特征融合疾病分类网络步骤S13中最后得到的状态感知的综合疾病表示,输出是0~1000的预测结果,分别表示词表中每个单词的索引;
S3、联合训练与参数优化:将步骤S1搭建的多模态特征融合疾病分类网络和步骤S2搭建的报告生成网络采用联合训练,其具体包括:
S31、首先采用Xavier方法对网络模型参数进行初始化,然后采用Adam算法优化网络目标函数,并运用误差反向传播算法更新网络模型参数;
S32、将包含AP、PA和LA的多视角X光胸片作为图像端输入,将临床历史文本部分作为文本端输入,将训练样本的疾病类别和诊断报告作为共同优化目标,将训练样本按7:1:2比例分为训练集、验证集和测试集;
S4、胸部疾病诊断报告自动生成:
S41、将AP、PA和LA的多视角X光胸片及对应临床历史文本作为输入,通过多模态特征提取器产生大小为原始图像1/32的特征图以及长度为300的单词嵌入;
S42、将提取的特征图与单词嵌入输入多模态特征关系探索器,生成多模态综合特征;
S43、将多模态综合特征输入疾病状态分类器生成不同疾病话题的状态概率以及状态感知的综合疾病表示;
S44、将状态感知的综合疾病表示输入到报告生成网络对每一个时间步的单词进行预测,形成最终的诊断报告。
2.根据权利要求1所述的基于多任务多模态深度学习的X光胸片诊断报告生成方法,其特征在于,所述多模态特征融合疾病分类网络的输入分为图像端和文本端,图像端输入大小为256×256的X光胸片,文本端输入长度为300的单词索引,所述多模态特征融合疾病分类网络输出的是大小为114×2的概率分布图,代表114个疾病话题划分为阴性或阳性的置信度。
3.根据权利要求1所述的基于多任务多模态深度学习的X光胸片诊断报告生成方法,其特征在于,所述步骤S11中,所述第一至第四紧密连接层组分别由6、12、24、16个紧密连接层组成,每个紧密连接层由两个卷积层组成,两个卷积层的卷积核大小分别为1×1、3×3,步长为1,每个紧密连接层的卷积核个数为32。
4.根据权利要求1所述的基于多任务多模态深度学习的X光胸片诊断报告生成方法,其特征在于,所述步骤S11中,所述第一至第三过渡层均包含一个卷积层和一个平均池化层,卷积层的卷积核大小为1×1,步长为1,卷积核个数分别为128、256、512。
5.根据权利要求3或4所述的基于多任务多模态深度学习的X光胸片诊断报告生成方法,其特征在于,任意一个卷积核所对应的输出特征图Zi采用下式进行计算:
Figure FDA0003767478920000031
其中,r表示输入通道索引号,k表示输入通道数,Wir表示第i个卷积核的第r个通道权值矩阵,
Figure FDA0003767478920000032
是卷积操作,Ir表示第r个输入通道图像。
6.根据权利要求1所述的基于多任务多模态深度学习的X光胸片诊断报告生成方法,其特征在于,所述多模态特征融合疾病分类网络和报告生成网络中的多头注意力由n个平行的头组成,且每个头都是一个带缩放点乘注意力,所述多头注意力具体定义如下:
Figure FDA0003767478920000033
MHA(X,Y)=[Att1(X,Y);...;Attn(X,Y)]WO
其中,Wi Q、Wi K、Wi V表示第i个头的可学习参数矩阵,dn为特征维度,WO表示n个头拼接后的可学习参数矩阵,[:;:]表示拼接操作,X表示查询,Y表示键和值。
7.根据权利要求1所述的基于多任务多模态深度学习的X光胸片诊断报告生成方法,其特征在于,所述多模态特征融合疾病分类网络和报告生成网络中的前馈神经网络包含两个线性层和一次激活操作,具体表示如下:
FFN(x)=max(0,xWf+bf)Wff+bff
其中,Wf、Wff表示为可学习参数矩阵,bf、bff表示为可学习偏置,x表示输入。
8.根据权利要求1所述的基于多任务多模态深度学习的X光胸片诊断报告生成方法,其特征在于,所述多模态特征融合疾病分类网络和报告生成网络中每个注意力模块的softmax函数将网络输出的预测分值转换成概率分布,所述softmax函数定义如下:
Figure FDA0003767478920000041
其中,Oi、Oj是分类任务在第i、j类上的预测分数,Sj是分类任务属于j类的概率,C代表类别个数。
9.根据权利要求1所述的基于多任务多模态深度学习的X光胸片诊断报告生成方法,其特征在于,所述步骤S3中联合训练的初始学习率设为ηt=1e-4,在25次迭代后减少到5e-5
10.根据权利要求1所述的基于多任务多模态深度学习的X光胸片诊断报告生成方法,其特征在于,所述步骤S31中多模态特征融合疾病分类网络采用下列交叉熵函数为目标函数:
Figure FDA0003767478920000042
其中,M为疾病话题总数,yij表示第i个疾病话题的第j个状态标签,pdisease,ij表示第i个疾病话题被划分为第j个状态的概率;
报告生成网络采用下列交叉熵函数为目标函数:
Figure FDA0003767478920000051
其中,N为生成报告中单词总数,wij表示真实报告中第i个单词是否为单词表中的第j个单词,pword,ij表示生成报告中第i个单词被划分为单词表中第j个单词的概率,u为单词表中总的单词数量;
联合训练目标函数由多模态特征融合疾病分类网络和报告生成网络的目标函数共同构成:
Ltotal=Lcls+Lgen
其中,Ltotal为联合训练的目标函数。
CN202210890845.7A 2022-07-27 2022-07-27 基于多任务多模态深度学习的x光胸片诊断报告生成方法 Pending CN115223678A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210890845.7A CN115223678A (zh) 2022-07-27 2022-07-27 基于多任务多模态深度学习的x光胸片诊断报告生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210890845.7A CN115223678A (zh) 2022-07-27 2022-07-27 基于多任务多模态深度学习的x光胸片诊断报告生成方法

Publications (1)

Publication Number Publication Date
CN115223678A true CN115223678A (zh) 2022-10-21

Family

ID=83613319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210890845.7A Pending CN115223678A (zh) 2022-07-27 2022-07-27 基于多任务多模态深度学习的x光胸片诊断报告生成方法

Country Status (1)

Country Link
CN (1) CN115223678A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115880222A (zh) * 2022-11-07 2023-03-31 浙江大学 一种基于深度学习的多模态影像处理方法和系统
CN116189884A (zh) * 2023-04-24 2023-05-30 成都中医药大学 一种基于面部视觉的多模态融合中医体质判别方法及系统
CN116259407A (zh) * 2023-05-16 2023-06-13 季华实验室 基于多模态数据的疾病诊断方法、装置、设备及介质
CN116452593A (zh) * 2023-06-16 2023-07-18 武汉大学中南医院 血管性认知障碍的ai评估模型的构建方法、装置及系统
CN117316369A (zh) * 2023-08-24 2023-12-29 兰州交通大学 平衡跨模态信息的胸部影像诊断报告自动生成方法
CN117393100A (zh) * 2023-12-11 2024-01-12 安徽大学 诊断报告的生成方法、模型训练方法、系统、设备及介质
CN117522877A (zh) * 2024-01-08 2024-02-06 吉林大学 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115880222B (zh) * 2022-11-07 2023-06-13 浙江大学 一种基于深度学习的多模态影像处理方法和系统
CN115880222A (zh) * 2022-11-07 2023-03-31 浙江大学 一种基于深度学习的多模态影像处理方法和系统
CN116189884B (zh) * 2023-04-24 2023-07-25 成都中医药大学 一种基于面部视觉的多模态融合中医体质判别方法及系统
CN116189884A (zh) * 2023-04-24 2023-05-30 成都中医药大学 一种基于面部视觉的多模态融合中医体质判别方法及系统
CN116259407A (zh) * 2023-05-16 2023-06-13 季华实验室 基于多模态数据的疾病诊断方法、装置、设备及介质
CN116452593B (zh) * 2023-06-16 2023-09-05 武汉大学中南医院 血管性认知障碍的ai评估模型的构建方法、装置及系统
CN116452593A (zh) * 2023-06-16 2023-07-18 武汉大学中南医院 血管性认知障碍的ai评估模型的构建方法、装置及系统
CN117316369A (zh) * 2023-08-24 2023-12-29 兰州交通大学 平衡跨模态信息的胸部影像诊断报告自动生成方法
CN117316369B (zh) * 2023-08-24 2024-05-07 兰州交通大学 平衡跨模态信息的胸部影像诊断报告自动生成方法
CN117393100A (zh) * 2023-12-11 2024-01-12 安徽大学 诊断报告的生成方法、模型训练方法、系统、设备及介质
CN117393100B (zh) * 2023-12-11 2024-04-05 安徽大学 诊断报告的生成方法、模型训练方法、系统、设备及介质
CN117522877A (zh) * 2024-01-08 2024-02-06 吉林大学 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法
CN117522877B (zh) * 2024-01-08 2024-04-05 吉林大学 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法

Similar Documents

Publication Publication Date Title
CN115223678A (zh) 基于多任务多模态深度学习的x光胸片诊断报告生成方法
WO2021233112A1 (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
AU2020260078B2 (en) Computer-implemented machine learning for detection and statistical analysis of errors by healthcare providers
CN110459287A (zh) 来自医学文本报告的结构化报告数据
CN110390674B (zh) 图像处理方法、装置、存储介质、设备以及系统
Zheng et al. Pay attention to doctor–patient dialogues: Multi-modal knowledge graph attention image-text embedding for COVID-19 diagnosis
JP2021509301A (ja) 医用画像からの心エコー計測値の自動化抽出のための方法、コンピュータプログラム及び装置
CN111275118B (zh) 基于自我修正式标签生成网络的胸片多标签分类方法
US11244755B1 (en) Automatic generation of medical imaging reports based on fine grained finding labels
EP4266195A1 (en) Training of text and image models
US20200027554A1 (en) Simulating Patients for Developing Artificial Intelligence Based Medical Solutions
CN116779091B (zh) 一种多模态网络互联融合的胸部影像诊断报告自动生成方法
US20200027530A1 (en) Simulating Patients for Developing Artificial Intelligence Based Medical Solutions
CN113779179A (zh) 一种基于深度学习和知识图谱的icd智能编码的方法
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
Liu et al. Medical visual question answering via conditional reasoning and contrastive learning
CN112069825B (zh) 面向警情笔录数据的实体关系联合抽取方法
US11763081B2 (en) Extracting fine grain labels from medical imaging reports
Daniels et al. Exploiting visual and report-based information for chest x-ray analysis by jointly learning visual classifiers and topic models
WO2021012225A1 (en) Artificial intelligence system for medical diagnosis based on machine learning
Zaghir et al. Real-world patient trajectory prediction from clinical notes using artificial neural networks and UMLS-based extraction of concepts
US11928186B2 (en) Combined deep learning and knowledge driven reasoning for artificial intelligence classification
CN115295133A (zh) 一种面向手术操作的编码校验方法
CN114882993B (zh) 问题的解释要素生成方法、装置、介质及电子设备
CN117393100B (zh) 诊断报告的生成方法、模型训练方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination