CN110111864B - 一种基于关系模型的医学报告生成系统及其生成方法 - Google Patents

一种基于关系模型的医学报告生成系统及其生成方法 Download PDF

Info

Publication number
CN110111864B
CN110111864B CN201910300182.7A CN201910300182A CN110111864B CN 110111864 B CN110111864 B CN 110111864B CN 201910300182 A CN201910300182 A CN 201910300182A CN 110111864 B CN110111864 B CN 110111864B
Authority
CN
China
Prior art keywords
layer
medical
term memory
abnormal
memory network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910300182.7A
Other languages
English (en)
Other versions
CN110111864A (zh
Inventor
梁小丹
王福宇
林倞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910300182.7A priority Critical patent/CN110111864B/zh
Publication of CN110111864A publication Critical patent/CN110111864A/zh
Application granted granted Critical
Publication of CN110111864B publication Critical patent/CN110111864B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于关系模型的医学报告生成系统及其生成方法,所述系统包括:深度卷积网络,用于对异常术语进行分类并抽取视觉特征,并将其输入分为两级的双向长短期记忆网络层进行注意力操作,在每级双向长短期记忆网络层后接入全连接层以分别负责选择模板和单词;分级递归神经网络,包括2层双向长短期记忆网络层,其顶层双向长短期记忆网络层通过注意力操作,再连接全连接层选择正确的模板,低层双向长短期记忆网络层介入顶层的信息并连接全连接层选择正确的单词;报告生成模块,包括用于预测异常句子的模板解码器和用于正常句子生成的单词解码器,以根据所述分级递归神经网络的决策选择对当前句子生成使用模板检索或句子生成,并将所有来自检索或自动生成的句子最终连接起来形成医学报告。

Description

一种基于关系模型的医学报告生成系统及其生成方法
技术领域
本发明涉及机器学习技术领域,特别是涉及一种基于关系模型的医学报告生成系统及其生成方法。
背景技术
自动生成医学图像报告最近引起了越来越多的研究兴趣,这对于简化诊断程序和减轻医生负担具有显著的潜力。不同于生成一个单句的传统视觉图像理解任务,生成描述患者状况和症状的主题一致的长报告,在计算机视觉和自然语言处理的交叉领域上构成了更具挑战性的任务。除了与图像理解和视觉问答(VQA)共有的困难(例如,细粒度的视觉处理和推理,桥接视觉和语言模式)外,医学报告生成是一个由多个句子或段落组成的长篇叙事,必须有一个合理的逻辑和一致的主题。此外,作为面向任务的挑战,它不仅需要预测高度准确的医学术语诊断,还需要预测多种形式的信息,包括结论和细节发现。
基于深度神经网络架构,序列到序列模型和视觉注意机制已经在图像理解和视觉问答(VQA)中被广泛采用,其通过学习关注图像的显着区域来提高性能。然而,在没有关于视觉内容的其他先验知识的情况下,这种计算的视觉注意力可能集中于不相关的区。虽然已经提出了一些方法来通过求助于基于集成检索,分层架构和多任务学习来缓解这个问题,但是很少有人考虑关键实体,主题关系和段落一致性。由于数据集偏差,针对不同医学图像,它们有可能在报告中生成相似的句子。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于关系模型的医学报告生成系统及其生成方法,以实现统一检索和关系主题驱动的医学报告生成系统,生成准确和类似人的医学报告。
为达上述目的,本发明提出一种基于关系模型的医学报告生成系统,包括:
深度卷积网络,用于对异常术语进行分类并抽取视觉特征,并将其输入分为两级的双向长短期记忆网络层进行注意力操作,在每级双向长短期记忆网络层后接入全连接层以分别负责选择模板和单词;
分级递归神经网络,包括2层双向长短期记忆网络层,其顶层双向长短期记忆网络层通过注意力操作,再连接全连接层选择正确的模板,低层双向长短期记忆网络层介入顶层的信息并连接全连接层选择正确的单词;
报告生成模块,包括用于预测异常句子的模板解码器和用于正常句子生成的单词解码器,以根据所述分级递归神经网络的决策选择对当前句子生成使用模板检索或句子生成,并将所有来自检索或自动生成的句子最终连接起来形成医学报告。
优选地,给定医学图像I,所述深度卷积网络通过于卷积层引入残差模块提取其特征图并接入全连接层,生成所有异常医学术语的分布。
优选地,所述深度卷积网络还通过异常多标签分类损失对异常术语的分布进行优化,所述异常多标签分类损失由两部分组成,其表述为:
Figure GDA0004093744390000021
第一项为每个类别的平均二元交叉熵损失,其中ai表示异常医学术语i的多标签分类概率,yi是基本医学术语的标签,第二项是关系约束损失,其中r(i,j)表示这两个异常医学术语之间的相关性,R*表示关系矩阵r中的非零数,对于一对异常概率ai和aj,如果相关系数r(i,j)更大,关系约束损失可以引导ai和aj更接近。同样,当r(i,j)较小时,ai和aj不会相互影响。
优选地,所述分级递归神经网络包括:
关系主题编码器,用于通过注意力操作,采用自上而下的机制,为单词解码器生成关系主题向量qi以顺序地预测单词,产生编码的上下文主题向量ci用于自适应句子生成;
自适应生成器,用于将所述关系主题编码器生成的上下文主题向量ci作为输入以决定是否对当前句子生成使用模板检索或句子生成。
优选地,所述关系主题编码器包括双向长短期记忆网络层和注意力层组成,在每个时间戳,双向长短期记忆网络层连接自适应生成器的先前状态
Figure GDA0004093744390000031
图像均值特征/>
Figure GDA0004093744390000032
上一个模板的嵌入向量Oi-1作为输入向量:
Figure GDA0004093744390000033
Figure GDA0004093744390000034
Figure GDA0004093744390000035
Figure GDA0004093744390000036
Figure GDA0004093744390000037
所述编码器通过双向长短期记忆网络层产生隐状态
Figure GDA0004093744390000038
并用于产生3种信号向量:首先/>
Figure GDA0004093744390000039
被线性投影成停止信号zi,这里的Wz是一个可训练的权重参数;att代表注意力操作,生成上下文注意力向量ci;最后,将隐状态/>
Figure GDA00040937443900000310
和上下文注意力向量ci送入到全连接层,生成主题向量qi
优选地,所述自适应生成器包括双向长短期记忆网络层和Softmax分类器,当所述关系主题编码器产生隐藏状态
Figure GDA00040937443900000311
而注意力层生成上下文主题向量ci时,自适应生成器所述为句子I生成自适应决策di
优选地,所述自适应决策di生成如下:
Figure GDA00040937443900000312
Figure GDA00040937443900000313
Figure GDA0004093744390000041
/>
其中Wd代表全连接的权重,bd代表偏置。
为达到上述目的,本发明还提供一种基于关系模型的医学报告生成方法,包括如下步骤:
步骤S1,建立基于关系模型的医学报告生成系统,所述医学报告系统由深度卷积网络和分级递归神经网络构成,所述深度卷积网络通过于卷积层引入残差模块,对异常术语进行分类并抽取视觉特征,并将其输入分为两级的双向长短期记忆网络层进行注意力操作,在每级双向长短期记忆网络层后接入全连接层分别负责选择模板和单词,所述分级递归神经网络由2层双向长短期记忆网络层构成,顶层双向长短期记忆网络层通过注意力操作,再连接全连接层选择正确的模板,低层双向长短期记忆网络层介入顶层的信息并连接全连接层选择正确的单词;
步骤S2,给定医学图像,利用深度卷积网络对异常术语进行分类并抽取视觉特征,并将其输入分为两级的双向长短期记忆网络层进行注意力操作;
步骤S3,顶层双向长短期记忆网络层通过注意力操作,再连接全连接层选择正确的模板,低层双向长短期记忆网络层介入顶层的信息并连接全连接层选择正确的单词;
步骤S4,利用用于预测异常句子的模板解码器和用于正常句子生成的单词解码器,根据自适应生成器的决策选择对当前句子生成使用模板检索或句子生成,并将所有来自检索或自动生成的句子最终连接起来形成医学报告。
优选地,于步骤S1中,于建立所述医学报告生成系统后,对所建立的医学报告生成系统采用上述过程进行训练学习,使用反向传播算法,通过大量的医学影像分类数据预训练卷积神经网络层来获得高级视觉特征,通过大量医学报告的文本数据,使用反向传播算法迭代训练卷积网络层、双向长短期记忆网络层、全连接层的模型参数,直到收敛。
优选地,步骤S3进一步包括:
步骤S301,利用关系主题编码器,通过注意力操作,采用自上而下的机制,为单词解码器生成关系主题向量qi以顺序地预测单词,产生编码的上下文主题向量ci用于自适应句子生成;
步骤S302,利用自适应生成器,将关系主题编码器生成的上下文主题向量ci作为输入以决定是否对当前句子生成使用模板检索或句子生成。
与现有技术相比,本发明一种基于关系模型的医学报告生成系统及其生成方法基于卷积神经网络和递归神经网络,实现了一个统一检索和关系主题驱动的生成系统,通过采用递归神经网络方法,根据医学图像所展示的视觉信息,推理出患者的异常疾病,进而生成相应的诊断报告,本发明能够在医学术语与特定疾病间建立联系,并统一了自动生成和模板检索,分别处理常见的描述以及罕见的异常描述,同时确保语义信息与检测到的医学术语相关联,能够生成更准确和类似人的医学报告。
附图说明
图1为医学报告实例图;
图2为本发明一种基于关系模型的医学报告生成系统的结构示意图;
图3为本发明具体实施例分级递归神经网络20的结构示意图;
图4为本发明一种基于关系模型的医学报告生成方法的步骤流程图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
一般地,作为一种实用的长文本生成任务,医学图像报告生成必须满足更多关键要求并确保医学术语使用的正确性。一般医学报告具有多种形式,包括描述正常和异常特征的医学发现部分,表示最突出的医学结论的句子,以及作为整个报告的关键词列表的医学术语,如图1所示。一般而言,放射科医师首先检查患者的图像是否存在特殊区域,考虑突出症状之间的相关性,然后根据关键词通过遵循正常病例的某些模式和模板来编写句子,并调整特定病例的陈述。
本发明采用了类似的方法,提出了一个统一检索和关系主题驱动的医学报告生成系统,称为Relation-paraNet,它保证最终报告中医学术语的语义一致性,并激励生成罕见异常描述的句子。在本发明中,该Relation-paraNet以两种方式利用混合知识共同推理,首先,探索所有异常医学术语之间的显性关系,促进视觉注意力学习和主题表示编码,以获得更好的面向主题的症状描述。本发明关注反映报告关键词的异常医学术语,并引入关系主题来指导句子生成,并且本发明挖掘所有异常关键词之间的显式语义一致性,进行异常分类以引起视觉注意力学习。另一方面,为了产生更好的面向主题的症状描述,本发明还整合了视觉特征和异常关系来编码主题表示,这对于描述报告中独立句子的主要思想是必不可少的。
此外,根据放射科医师经常遵循编写报告的模板这一事实的启发,本发明还根据上下文主题编码器引入自适应生成模块,其在模板检索和句子生成之间做出选择,本发明使用模块检索来决定由自动生成模块自动生成句子或是从模板数据库中检索特定句子,模板数据库基于可用医学报告收集的人类先前知识构建,为了实现有效和强大的报告生成,考虑到医学报告的一致性书写逻辑和风格,将已经生成的句子信息编码回网络以产生下一句。实验结果表明,统一检索和关系主题,本发明的Relation-paraNet能够生成更准确和类似人的医学报告。
图2为本发明一种基于关系模型的医学报告生成系统的结构示意图。如图2所示,本发明一种基于关系模型的医学报告生成系统,包括:
深度卷积网络20,用于通过于卷积层引入残差模块,对异常术语进行分类并抽取视觉特征,并将其输入分为两级的双向长短期记忆网络层进行注意力操作,在每级双向长短期记忆网络层后接入全连接层分别负责选择模板和单词。
如前所述,视觉注意力可以很好地用于物体定位和图像理解。然而,视觉注意力通常不足以编码高级语义信息来识别异常。为此,本发明探讨了可以与图像特征协作的医学术语之间的关系,稳健地生成句子的关系主题。
在本发明中,通过深度卷积网络20将异常分类视为多标签图像分类任务。特别地,给定医学图像I,首先通过深度卷积神经网络(CNN)提取其特征图并接入全连接层,生成所有异常医学术语的分布。在本发明中,为了多标签分类,深度卷积网络20还计算每个类别的二元交叉熵,此外,所有异常医学术语之间的关系对于异常分类也是至关重要的,因为一些医学术语经常与其他术语并同发生,例如,“主动脉迂曲”和“纹理增多”经常出现在一起,因此,这两种异常的预测分数应该更接近,为了利用这些显式关系,除了每个类别的平均二元交叉熵损失,还添加另一个关系约束损失,以对异常术语的分布进行优化,最后,异常多标签分类损失由两部分组成,其表述为:
Figure GDA0004093744390000071
第一项为每个类别的平均二元交叉熵损失,其中ai表示异常医学术语i的多标签分类概率,yi是基本医学术语的标签,第二项是关系约束损失,其中r(i,j)表示这两个异常医学术语之间的相关性,R*表示关系矩阵r中的非零数,对于一对异常概率ai和aj,如果相关系数r(i,j)更大,关系约束损失可以引导ai和aj更接近。同样,当r(i,j)较小时,ai和aj不会相互影响。
其中,静态关系矩阵是根据整个训练集中每对异常术语的共现频数计算的,其定义如下:
Figure GDA0004093744390000081
其中f(i,j)表示为共现频数,f(i)表示为异常术语i的频数,F表示为异常术语的频数总数。
这里需说明的是,提取特征图为一般的现有技术,本发明之异常分类是在原有技术基础上通过上述公式(1)实现,原有技术只有标签分类,本发明则增加了一项约束损失项,以获得更准确的异常术语。
例如,图2中出现的骨折、浮肿,是数据集中的几个异常术语实例,术语之间的数值代表了两个术语之间的关系,数值越大代表两者关系越紧密,这个数值是通过公式(2)计算出来的。
提取特征图后,接入全连接层,生成所有异常医学术语的分布分数(在0-1之间),当一个术语分数大于0.5就代表样本包含改异常术语,通过公式(1)得到损失函数,优化该函数就可以得到准确的异常术语分类。
分级递归神经网络20,由2层双向长短期记忆网络层构成,顶层双向长短期记忆网络层通过注意力操作,再连接全连接层选择正确的模板,低层双向长短期记忆网络层介入顶层的信息并连接全连接层选择正确的单词。
具体地,如图3所示,分级递归神经网络20包括:
关系主题编码器201,用于通过注意力操作,采用自上而下的机制,为单词解码器生成关系主题向量qi以顺序地预测单词,以及产生编码的上下文主题向量ci用于自适应句子生成。
主题信息对于指导图像理解模型生成更好的面向主题的语言表达非常重要,目前已经提出了大量基于注意力的深度神经网络来生成用于图像理解和文本生成的主题。然而,由于缺乏对关键实体,主题关系和段落一致性的考虑,先前方法预测的主题对于医疗报告生成而言是次优的。为了探索所有异常医学术语之间的显性关系以引导视觉注意力学习和主题表示编码以获得更好的面向主题的症状描述,本发明利用关系主题编码器来生成更具辨别力的主题,如图3所示,关系主题编码器201有两个关键输入:第一个是通过异常医学术语学习增强的图像特征,其提供视觉信息以帮助编码器聚焦于显著性区域;此外,本发明还将前一个模板的嵌入向量提供给解码器,解码器强制编码器记忆之前的主题和生成过的句子信息,这是一种自上而下的机制,它使用特定于任务的上下文来为下一个主题预测注意力分布和图像权重特征。
具体地,关系主题编码器由双向长短期记忆网络(Long short-term memory)层(即顶层双向长短期记忆网络层)和注意力层组成,在每个时间戳,LSTM层连接自适应生成模块的先前状态
Figure GDA0004093744390000091
图像均值特征/>
Figure GDA0004093744390000092
上一个模板的嵌入向量Oi-1为即图中的templatei-1作为输入向量:
Figure GDA0004093744390000093
Figure GDA0004093744390000094
Figure GDA0004093744390000095
Figure GDA0004093744390000096
Figure GDA0004093744390000097
其中,Wq1与Wq2分别代表两个全连接(编码隐含层
Figure GDA0004093744390000098
和上下文主题向量ci)的权重,该编码器通过LSTM层产生隐状态/>
Figure GDA0004093744390000099
并用于产生3种信号向量:首先/>
Figure GDA00040937443900000911
被线性投影成停止信号zi,这里的Wz是一个可训练的权重参数;第二,att代表注意力操作,生成上下文注意力向量ci;最后,将隐状态/>
Figure GDA00040937443900000910
和上下文注意力向量ci送入到全连接层,生成主题向量qi
通过这种方式,为单词解码器生成关系主题向量qi以顺序地预测单词,同时,产生编码的上下文主题向量ci用于自适应句子生成。
自适应生成器202,用于将关系主题编码器201生成的上下文主题向量ci作为输入以决定是否对当前句子生成使用模板检索或句子生成。
由于正常句子的频率远高于异常句子的频率,采用医学报告生成的最新方法往往产生正常句子,如“心脏大小正常”,“肺部清晰”或者“没有急性骨质异常”。对于“主动脉迂曲扩张”,“心影增大”等,模型不能准确地写出这些异常的句子。接受患者的医学影像,医生首先掌握对异情况常的理解,并按照一定的模式撰写报告。他们通常会重复使用正常术语的模板,但在必要时调整某些情况(异常)的语句。受此启发,本发明设计了一个自适应生成器,它将检索和生成结合起来,模拟医生的报告编写过程,如图3所示。
具体地,自适应生成器202将编码的上下文主题向量ci作为输入来决定是否对当前句子生成使用模板检索或句子生成,自适应生成器202由双向长短期记忆网络层和Softmax分类器组成,当关系主题编码器201产生隐藏状态
Figure GDA0004093744390000101
而注意力层生成上下文主题向量ci时,自适应生成器202为句子I生成自适应决策di。假设模板数据库的大小是N,那么决策空间是N+1,因为句子生成也是决策之一,则
Figure GDA0004093744390000102
/>
Figure GDA0004093744390000103
Figure GDA0004093744390000104
其中,Wd代表全连接的权重,bd代表偏置。
即,上下文主题向量ci输入至自适应生成器202,自适应生成器202包含全连接层对模板分类,如果模板库有N个,那么会产生N+1个分数,多出来的1代表不从模板库选择,转而句子生成,如果自适应生成器决定不使用模板,那么就会依赖单词解码器,即句子生成,一个单词一个单词的生成(即选择单词),最终形成一个句子。
此外,本发明考虑多标签分类和模板选择,选择更符合异常医学术语的模板。通过将医学术语和模板的静态关系矩阵相乘,将异常医学术语分类的分布转换为模板分类分布。类似地,根据公式计算医学术语和模板的静态关系矩阵,通过计算模板分布与异常医学术语引导的模板分布之间的相对熵损失,本发明的框架学习根据异常医学术语分类选择合适的模板。
报告生成模块30,包括用于预测异常句子的模板解码器和用于正常句子生成的单词解码器,以根据自适应生成器202的决策选择对当前句子生成使用模板检索或句子生成,并将所有来自检索或自动生成的句子最终连接起来形成医学报告。
在某些情况下,自适应生成器202倾向于自动生成句子,单词解码器用于逐字生成新句子,关系主题向量qi表示生成的句子的整体特征。遵循之前的工作,主题向量和特殊的“start”标记(加入的特殊标记,一般地,每一句话开头会手动加一个特殊标记,比如,我来自中国加入该特殊标记变为<start>我来自中国.,<start>用于生成“我”这个词)
被视为LSTM层的第一个和第二个输入,随后的输入是单词嵌入向量,对于每个单词,单词解码器的隐藏状态用于预测词汇表中单词的分布,最后,所有来自检索或自动生成的句子最终被连接起来形成医学报告。
图4为本发明一种基于关系模型的医学报告生成方法的步骤流程图。如图4所示,本发明一种基于关系模型的医学报告生成方法,包括如下步骤:
步骤S1,建立基于关系模型的医学报告生成系统,所述医学报告系统由深度卷积网络和分级递归神经网络构成,所述深度卷积网络通过于卷积层引入残差模块,对异常术语进行分类并抽取视觉特征,并将其输入分为两级的双向长短期记忆网络层进行注意力操作,在每级双向长短期记忆网络层后接入全连接层分别负责选择模板和单词,所述分级递归神经网络由2层双向长短期记忆网络层构成,顶层双向长短期记忆网络层通过注意力操作,再连接全连接层选择正确的模板,低层双向长短期记忆网络层介入顶层的信息并连接全连接层选择正确的单词。
步骤S2,给定医学图像I,利用深度卷积网络对异常术语进行分类并抽取视觉特征,并将其输入分为两级的双向长短期记忆网络层进行注意力操作。
如前所述,视觉注意力可以很好地用于物体定位和图像理解。然而,视觉注意力通常不足以编码高级语义信息来识别异常。为此,本发明探讨了可以与图像特征协作的医学术语之间的关系,稳健地生成句子的关系主题。
具体地,给定医学图像I,首先通过深度卷积神经网络(CNN)提取其特征图并接入全连接层,生成所有异常医学术语的分布。较佳地,为了多标签分类,深度卷积网络还计算每个类别的二元交叉熵,此外,所有异常医学术语之间的关系对于异常分类也是至关重要的,因为一些医学术语经常与其他术语并同发生,例如,“主动脉迂曲”和“纹理增多”经常出现在一起,因此,这两种异常的预测分数应该更接近,为了利用这些显式关系,除了每个类别的平均二元交叉熵损失,还添加另一个关系约束损失,最后,异常多标签分类损失由两部分组成,其表述为:
Figure GDA0004093744390000121
第一项为每个类别的平均二元交叉熵损失,其中ai表示异常医学术语i的多标签分类概率,yi是基本医学术语的标签,第二项是关系约束损失,其中r(i,j)表示这两个异常医学术语之间的相关性,R*表示关系矩阵r中的非零数,对于一对异常概率ai和aj,如果相关系数r(i,j)更大,关系约束损失可以引导ai和aj更接近。同样,当r(i,j)较小时,ai和aj不会相互影响。
其中,静态关系矩阵是根据整个训练集中每对异常术语的共现频数计算的,其定义如下:
Figure GDA0004093744390000122
其中f(i,j)表示为共现频数,f(i)表示为异常术语i的频数,F表示为异常术语的频数总数。
步骤S3,顶层双向长短期记忆网络层通过注意力操作,再连接全连接层选择正确的模板,低层双向长短期记忆网络层介入顶层的信息并连接全连接层选择正确的单词。
具体地,步骤S3进一步包括:
步骤S301,利用关系主题编码器,通过注意力操作,采用自上而下的机制,为单词解码器生成关系主题向量qi以顺序地预测单词,产生编码的上下文主题向量ci用于自适应句子生成。
主题信息对于指导图像理解模型生成更好的面向主题的语言表达非常重要,目前已经提出了大量基于注意力的深度神经网络来生成用于图像理解和文本生成的主题。然而,由于缺乏对关键实体,主题关系和段落一致性的考虑,先前方法预测的主题对于医疗报告生成而言是次优的。为了探索所有异常医学术语之间的显性关系以引导视觉注意力学习和主题表示编码以获得更好的面向主题的症状描述,本发明利用关系主题编码器来生成更具辨别力的主题,如图3所示,关系主题编码器有两个关键输入:第一个是通过异常医学术语学习增强的图像特征,其提供视觉信息以帮助编码器聚焦于显著性区域;此外,本发明还将前一个模板的嵌入向量提供给解码器,解码器强制编码器记忆之前的主题和生成过的句子信息,这是一种自上而下的机制,它使用特定于任务的上下文来为下一个主题预测注意力分布和图像权重特征。
具体地,关系主题编码器由双向长短期记忆网络(Long short-term memory)层和注意力层组成,在每个时间戳,LSTM层连接自适应生成模块的先前状态
Figure GDA0004093744390000131
图像均值特征
Figure GDA0004093744390000132
上一个模板的嵌入向量Oi-1作为输入向量:/>
Figure GDA0004093744390000133
Figure GDA0004093744390000134
Figure GDA0004093744390000135
Figure GDA0004093744390000136
Figure GDA0004093744390000137
该编码器通过LSTM层产生隐状态
Figure GDA0004093744390000138
并用于产生3种信号向量:首先/>
Figure GDA0004093744390000139
被线性投影成停止信号zi,这里的Wz是一个可训练的权重参数;第二,att代表注意力操作,生成上下文注意力向量ci;最后,将隐状态/>
Figure GDA0004093744390000141
和上下文注意力向量ci送入到全连接层,生成主题向量qi
通过这种方式,为单词解码器生成关系主题向量qi以顺序地预测单词,同时,产生编码的上下文主题向量ci用于自适应句子生成。
步骤S302,利用自适应生成器,将关系主题编码器生成的上下文主题向量ci作为输入以决定是否对当前句子生成使用模板检索或句子生成。
由于正常句子的频率远高于异常句子的频率,采用医学报告生成的最新方法往往产生正常句子,如“心脏大小正常”,“肺部清晰”或者“没有急性骨质异常”。对于“主动脉迂曲扩张”,“心影增大”等,模型不能准确地写出这些异常的句子。接受患者的医学影像,医生首先掌握对异情况常的理解,并按照一定的模式撰写报告。他们通常会重复使用正常术语的模板,但在必要时调整某些情况(异常)的语句。受此启发,本发明设计了一个自适应生成器,它将检索和生成结合起来,模拟医生的报告编写过程,如图3所示。
具体地,自适应生成器将编码的上下文主题向量ci作为输入来决定是否对当前句子生成使用模板检索或句子生成,自适应生成器由双向长短期记忆网络层和Softmax分类器组成,当关系主题编码器201产生隐藏状态
Figure GDA0004093744390000142
而注意力层生成上下文主题向量ci时,自适应生成器为句子I生成自适应决策di。假设模板数据库的大小是N,那么决策空间是N+1,因为句子生成也是决策之一,则
Figure GDA0004093744390000143
Figure GDA0004093744390000144
Figure GDA0004093744390000145
此外,本发明考虑多标签分类和模板选择,选择更符合异常医学术语的模板。通过将医学术语和模板的静态关系矩阵相乘,将异常医学术语分类的分布转换为模板分类分布。类似地,根据公式计算医学术语和模板的静态关系矩阵,通过计算模板分布与异常医学术语引导的模板分布之间的相对熵损失,本发明的框架学习根据异常医学术语分类选择合适的模板。
步骤S4,利用用于预测异常句子的模板解码器和用于正常句子生成的单词解码器,根据自适应生成器的决策选择对当前句子生成使用模板检索或句子生成,并将所有来自检索或自动生成的句子最终连接起来形成医学报告。
在某些情况下,自适应生成器倾向于自动生成句子,单词解码器用于逐字生成新句子,关系主题向量qi表示生成的句子的整体特征。遵循之前的工作,主题向量和特殊的“start”标记被视为LSTM层的第一个和第二个输入,随后的输入是单词嵌入向量,对于每个单词,单词解码器的隐藏状态用于预测词汇表中单词的分布,最后,所有来自检索或自动生成的句子最终被连接起来形成医学报告。
较佳地,于步骤S1中,于建立所述医学报告生成模型后,对所建立的医学报告生成系统采用上述过程进行训练学习,具体地,可使用反向传播算法,即通过大量的医学影像分类数据预训练卷积神经网络层来获得高级视觉特征;通过大量医学报告的文本数据,使用反向传播算法迭代训练卷积网络层、双向长短期记忆网络层、全连接层的模型参数,直到收敛。
实施例:
如图1所示,医学图像的完整诊断报告由文本描述和医学术语列表组成。为了生成医学报告,本发明之医学报告生成系统将医学图像作为输入,以生成一系列句子S=(s1,s2,...,sm)。每个句子由一系列单词组成si=(wi,1,wi,2,...,wi,n),其中i是句子的索引,j是单词的索引。为了生成主题一致的长篇报告,遵循医生的推理程序,本发明在分层框架中制定生成过程,首先通过其语义关系预测主要医学术语,然后通过医学术语引导的视觉注意学习产生一系列隐含的关系句主题,并通过结合检索模板和单词预测生成每个句子,如图2所示,医学图像首先被馈送到用于医学术语分类的深度卷积神经网络(CNN)和用于生成关系主题的关系主题编码器,然后接入用于预测异常句子的模板解码器和用于正常句子生成的单词解码器,并且生成模块根据上下文主题向量自适应地改变。
与现有技术相比,本发明具有如下优点:
1、本发明可将医学术语的语义一致性纳入最终报告中,并鼓励生成罕见描述异常的句子;
2、本发明引入了一个统一检索和关系主题驱动的生成系统,称为Relation-paraNet,其集成了一个关系主题编码器,学习医学术语之间的显式语义一致性和一个自适应生成器,在模板检索和句子生成之间转换,获得更自然的医疗报告;
3、本发明优于两个医学报告数据集的所有现有工作,并在人类评估下实现最先进的性能。
综上所述,本发明一种基于关系模型的医学报告生成系统及其生成方法基于卷积神经网络和递归神经网络,实现了一个统一检索和关系主题驱动的生成系统,通过采用递归神经网络方法,根据医学图像所展示的视觉信息,推理出患者的异常疾病,进而生成相应的诊断报告,本发明能够在医学术语与特定疾病间建立联系,并统一了自动生成和模板检索,分别处理常见的描述以及罕见的异常描述,同时确保语义信息与检测到的医学术语相关联,能够生成更准确和类似人的医学报告。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (4)

1.一种基于关系模型的医学报告生成系统,包括:
深度卷积网络,用于对异常术语进行分类并抽取视觉特征,并将其输入分为两级的双向长短期记忆网络层进行注意力操作,在每级双向长短期记忆网络层后接入全连接层以分别负责选择模板和单词;
分级递归神经网络,包括2层双向长短期记忆网络层,其顶层双向长短期记忆网络层通过注意力操作,再连接全连接层选择正确的模板,低层双向长短期记忆网络层介入顶层的信息并连接全连接层选择正确的单词;
报告生成模块,包括用于预测异常句子的模板解码器和用于正常句子生成的单词解码器,报告生成模块用于根据所述分级递归神经网络的决策选择对当前句子采用模板检索或句子生成策略,并将所有来自检索或自动生成的句子最终连接起来形成医学报告;
给定医学图像I,所述深度卷积网络通过于卷积层引入残差模块提取其特征图并接入全连接层,生成所有异常医学术语的分布;
所述深度卷积网络还通过异常多标签分类损失对异常术语的分布进行优化,所述异常多标签分类损失由两部分组成,其表述为:
Figure FDA0004118792200000011
第一项为每个类别的平均二元交叉熵损失,其中ai表示异常医学术语i的多标签分类概率,aj表示异常医学术语j的多标签分类概率,yi是基本医学术语的标签,第二项是关系约束损失,其中r(i,j)表示异常医学术语i和j之间的相关性,R*表示关系矩阵r中的非零数,对于一对异常概率ai和aj,如果相关系数r(i,j)越大,关系约束损失可以引导ai和aj越接近;同样,当r(i,j)越小时,ai和aj越不会相互影响;
所述分级递归神经网络包括:
关系主题编码器,用于通过注意力操作,采用自上而下的机制,为单词解码器生成关系主题向量qi以顺序地预测单词,产生编码的上下文主题向量ci用于自适应句子生成;
自适应生成器,用于将所述关系主题编码器生成的上下文主题向量ci作为输入以决定是否对当前句子生成使用模板检索或句子生成;
所述关系主题编码器包括双向长短期记忆网络层和注意力层,在每个时间戳,双向长短期记忆网络层连接自适应生成器的先前状态
Figure FDA0004118792200000021
图像均值特征/>
Figure FDA0004118792200000022
上一个模板的嵌入向量Oi-1作为输入向量:
Figure FDA0004118792200000023
Figure FDA0004118792200000024
Figure FDA0004118792200000025
Figure FDA0004118792200000026
Figure FDA0004118792200000027
所述关系主题编码器通过双向长短期记忆网络层产生隐状态
Figure FDA0004118792200000028
并用于产生3种信号向量:首先/>
Figure FDA0004118792200000029
被线性投影成停止信号zi,其中Wz是一个可训练的权重参数;att代表注意力操作,生成上下文主题向量ci;最后,将隐状态/>
Figure FDA00041187922000000210
和上下文主题向量ci送入到全连接层,生成关系主题向量qi
所述自适应生成器包括双向长短期记忆网络层和Softmax分类器,当所述关系主题编码器通过双向长短期记忆网络层产生隐状态
Figure FDA00041187922000000211
而注意力层生成上下文主题向量ci时,自适应生成器为句子I生成自适应决策di
所述自适应决策di生成如下:
Figure FDA00041187922000000212
Figure FDA00041187922000000213
Figure FDA00041187922000000214
其中Wd代表全连接的权重,bd代表偏置。
2.一种基于关系模型的医学报告生成方法,包括如下步骤:
步骤S1,建立如权利要求1所述的基于关系模型的医学报告生成系统;
步骤S2,给定医学图像,利用深度卷积网络对异常术语进行分类并抽取视觉特征,并将其输入分为两级的双向长短期记忆网络层进行注意力操作;
步骤S3,顶层双向长短期记忆网络层通过注意力操作,再连接全连接层选择正确的模板,低层双向长短期记忆网络层介入顶层的信息并连接全连接层选择正确的单词;
步骤S4,利用用于预测异常句子的模板解码器和用于正常句子生成的单词解码器,根据自适应生成器的决策选择对当前句子采用模板检索或句子生成策略,并将所有来自检索或自动生成的句子最终连接起来形成医学报告。
3.如权利要求2所述的一种基于关系模型的医学报告生成方法,其特征在于:于步骤S1中,于建立所述医学报告生成系统后,对所建立的医学报告生成系统采用以下过程进行训练学习,使用反向传播算法,通过大量的医学影像分类数据预训练卷积神经网络层来获得高级视觉特征,通过大量医学报告的文本数据,使用反向传播算法迭代训练卷积网络层、双向长短期记忆网络层、全连接层的模型参数,直到收敛。
4.如权利要求2所述的一种基于关系模型的医学报告生成方法,其特征在于,步骤S3进一步包括:
步骤S301,利用关系主题编码器,通过注意力操作,采用自上而下的机制,为单词解码器生成关系主题向量qi以顺序地预测单词,产生编码的上下文主题向量ci用于自适应句子生成;
步骤S302,利用自适应生成器,将关系主题编码器生成的上下文主题向量ci作为输入以决定是否对当前句子生成使用模板检索或句子生成。
CN201910300182.7A 2019-04-15 2019-04-15 一种基于关系模型的医学报告生成系统及其生成方法 Active CN110111864B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910300182.7A CN110111864B (zh) 2019-04-15 2019-04-15 一种基于关系模型的医学报告生成系统及其生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910300182.7A CN110111864B (zh) 2019-04-15 2019-04-15 一种基于关系模型的医学报告生成系统及其生成方法

Publications (2)

Publication Number Publication Date
CN110111864A CN110111864A (zh) 2019-08-09
CN110111864B true CN110111864B (zh) 2023-05-26

Family

ID=67485443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910300182.7A Active CN110111864B (zh) 2019-04-15 2019-04-15 一种基于关系模型的医学报告生成系统及其生成方法

Country Status (1)

Country Link
CN (1) CN110111864B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027946A (zh) * 2020-03-08 2020-04-17 杭州鲁尔物联科技有限公司 一种桥梁检测报告生成方法及系统
CN111489802B (zh) * 2020-03-31 2023-07-25 重庆金域医学检验所有限公司 报告单编码模型生成方法、系统、设备及存储介质
CN112309528B (zh) * 2020-10-27 2023-04-07 上海交通大学 一种基于视觉问答方法的医疗影像报告生成方法
CN112581431B (zh) * 2020-12-07 2022-08-23 重庆邮电大学 一种基于内容保持与注意力机制的从超声诊断报告生成超声图像的方法
CN112614561A (zh) * 2020-12-24 2021-04-06 北京工业大学 一种基于层级自注意力序列编码的脑ct医学报告生成方法
CN112992308B (zh) * 2021-03-25 2023-05-16 腾讯科技(深圳)有限公司 医学图像报告生成模型的训练方法及图像报告生成方法
CN112966527B (zh) * 2021-04-21 2022-12-30 吉林大学 一种基于自然语言推理的关系抽取模型的生成方法
CN114334068B (zh) * 2021-11-15 2022-11-01 深圳市龙岗中心医院(深圳市龙岗中心医院集团、深圳市第九人民医院、深圳市龙岗中心医院针灸研究所) 一种放射学报告生成方法、装置、终端及存储介质
CN114708952B (zh) * 2022-06-02 2022-10-04 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种图像标注方法、装置、存储介质和电子设备
CN115132314B (zh) * 2022-09-01 2022-12-20 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 检查印象生成模型训练方法、装置及生成方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109545302A (zh) * 2018-10-22 2019-03-29 复旦大学 一种基于语义的医学影像报告模板生成方法
CN109583440A (zh) * 2017-09-28 2019-04-05 北京西格码列顿信息技术有限公司 结合影像识别与报告编辑的医学影像辅助诊断方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10127271B2 (en) * 2012-09-06 2018-11-13 Koninklijke Philips N.V. Generating a query
US9807473B2 (en) * 2015-11-20 2017-10-31 Microsoft Technology Licensing, Llc Jointly modeling embedding and translation to bridge video and language
EP3408755A1 (en) * 2016-01-26 2018-12-05 Koninklijke Philips N.V. Systems and methods for neural clinical paraphrase generation
US10255269B2 (en) * 2016-12-30 2019-04-09 Microsoft Technology Licensing, Llc Graph long short term memory for syntactic relationship discovery
CN107563498B (zh) * 2017-09-08 2020-07-14 中国石油大学(华东) 基于视觉与语义注意力相结合策略的图像描述方法及系统
CN108491680A (zh) * 2018-03-07 2018-09-04 安庆师范大学 基于残差网络和注意力机制的药物关系抽取方法
CN109543820B (zh) * 2018-11-23 2022-09-23 中山大学 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583440A (zh) * 2017-09-28 2019-04-05 北京西格码列顿信息技术有限公司 结合影像识别与报告编辑的医学影像辅助诊断方法及系统
CN109545302A (zh) * 2018-10-22 2019-03-29 复旦大学 一种基于语义的医学影像报告模板生成方法

Also Published As

Publication number Publication date
CN110111864A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CN110111864B (zh) 一种基于关系模型的医学报告生成系统及其生成方法
Logeswaran et al. Sentence ordering and coherence modeling using recurrent neural networks
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN108416065B (zh) 基于层级神经网络的图像-句子描述生成系统及方法
WO2021223323A1 (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
CN117009490A (zh) 基于知识库反馈的生成式大语言模型的训练方法和装置
US11915809B2 (en) Method and system for automatically generating a section in a radiology report
US20220172040A1 (en) Training a machine-learned model based on feedback
CN111553159B (zh) 一种问句生成方法及系统
US20230386646A1 (en) Combined vision and language learning models for automated medical reports generation
CN115048447B (zh) 一种基于智能语义补全的数据库自然语言接口系统
CN113408430B (zh) 基于多级策略和深度强化学习框架的图像中文描述系统及方法
CN111144410B (zh) 一种跨模态的图像语义提取方法、系统、设备及介质
CN112309528B (zh) 一种基于视觉问答方法的医疗影像报告生成方法
CN112069827B (zh) 一种基于细粒度主题建模的数据到文本生成方法
CN115630649B (zh) 一种基于生成模型的医学中文命名实体识别方法
CN116779091B (zh) 一种多模态网络互联融合的胸部影像诊断报告自动生成方法
Lin Reinforcement learning and bandits for speech and language processing: Tutorial, review and outlook
Xu et al. Deep image captioning: A review of methods, trends and future challenges
CN114781651A (zh) 基于对比学习的小样本学习鲁棒性提升方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN117377950A (zh) 使用机器学习加速文档归类
CN117648429A (zh) 基于多模态自适应检索式增强大模型的问答方法及系统
CN111582287B (zh) 一种基于充足视觉信息与文本信息的图像描述方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant