CN116932722A - 一种基于跨模态数据融合的医学视觉问答方法及系统 - Google Patents

一种基于跨模态数据融合的医学视觉问答方法及系统 Download PDF

Info

Publication number
CN116932722A
CN116932722A CN202310933589.XA CN202310933589A CN116932722A CN 116932722 A CN116932722 A CN 116932722A CN 202310933589 A CN202310933589 A CN 202310933589A CN 116932722 A CN116932722 A CN 116932722A
Authority
CN
China
Prior art keywords
network
text
answer
task
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310933589.XA
Other languages
English (en)
Inventor
张艺烽
谢夏
李志勇
胡月明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan University
Original Assignee
Hainan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan University filed Critical Hainan University
Priority to CN202310933589.XA priority Critical patent/CN116932722A/zh
Publication of CN116932722A publication Critical patent/CN116932722A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • G06F16/3328Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages using graphical result space presentation or visualisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Animal Behavior & Ethology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提供了一种基于跨模态数据融合的医学视觉问答方法及系统,包括:基于文本特征提取网络、图像特征提取网络、特征融合网络、知识图谱学习网络和分类网络,构建多任务学习模型;实体预测任务和答案预测任务共用分类网络中除输出层之外的网络层;基于样本医学图像、对应的有答案标签的样本问题文本以及医学知识图谱,以实体预测任务和答案预测任务的损失为约束,训练多任务学习模型;基于训练完成的多任务学习模型,构建答案预测模型;将待预测的医学图像及其对应的问题文本输入至答案预测模型,获得问题文本的答案。本发明解决了现有的医疗图像数据集标注难度大,标注样本少的问题,在医疗图像问答的任务上达到了较高的准确率。

Description

一种基于跨模态数据融合的医学视觉问答方法及系统
技术领域
本发明属于自然语言处理和计算机视觉技术领域,更具体地,涉及一种基于跨模态数据融合的医学视觉问答方法及系统。
背景技术
医学视觉问答(visual question answer,VQA)的目的是准确回答医学图像所呈现的临床问题,近年来受到了广泛关注。
与自然图像的视觉问答相比,医学图像的数据集相对较小,更难以标记,因此现有的医学视觉问答模型主要依靠迁移学习来获取特征表示,很容易导致错误的特征提取,进而导致模型的准确率较低。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于跨模态数据融合的医学视觉问答方法及系统,旨在解决现有医学图像数据集较少导致医学视觉问答模型准确率较低的问题。
为实现上述目的,第一方面,本发明提供了一种基于跨模态数据融合的医学视觉问答方法,包括:
S101基于文本特征提取网络、图像特征提取网络、特征融合网络、知识图谱学习网络和分类网络,构建多任务学习模型;其中,知识图谱学习网络和分类网络用于完成医学知识图谱中三元组的实体预测任务;文本特征提取网络、图像特征提取网络、特征融合网络和分类网络用于完成医学视觉问答的答案预测任务;所述实体预测任务和所述答案预测任务共用分类网络中除输出层之外的网络层;
S102基于样本医学图像、对应的有答案标签的样本问题文本以及医学知识图谱,以实体预测任务和答案预测任务的损失为约束,训练多任务学习模型;
S103基于训练完成的多任务学习模型,构建答案预测模型;
S104将待预测的医学图像及其对应的问题文本输入至答案预测模型,获得问题文本的答案。
在一个可选的示例中,所述知识图谱学习网络包括Transformer和AdapterFusion;
所述实体预测任务的损失基于如下步骤确定:
将样本问题文本输入至Transformer,获得文本编码向量;
将医学知识图谱和文本编码向量输入至Adapter Fusion,获得知识融合特征;
将知识融合特征输入至分类网络,获得预测的实体;
基于预测的实体与医学知识图谱中对应三元组的实际实体,确定实体预测任务的损失。
在一个可选的示例中,所述答案预测任务的损失基于如下步骤确定:
将样本医学图像输入至图像特征提取网络,获得样本图像特征;
将样本医学图像对应的样本问题文本输入至文本特征提取网络,获得样本文本特征;
将样本图像特征和样本文本特征输入至特征融合网络,获得样本融合特征;
将样本融合特征输入至分类网络,获得预测的答案;
基于预测的答案与对应的答案标签,确定答案预测任务的损失。
在一个可选的示例中,所述特征融合网络采用自注意力网络与指导注意力网络构建。
在一个可选的示例中,所述文本特征提取网络采用BioBert中的编码器对问题文本进行特征提取;图像特征提取网络采用Vilt模型对医学图像分块进行特征提取。
第二方面,本发明提供了一种基于跨模态数据融合的医学视觉问答系统,包括:
多任务模型构建模块,用于基于文本特征提取网络、图像特征提取网络、特征融合网络、知识图谱学习网络和分类网络,构建多任务学习模型;其中,知识图谱学习网络和分类网络用于完成医学知识图谱中三元组的实体预测任务;文本特征提取网络、图像特征提取网络、特征融合网络和分类网络用于完成医学视觉问答的答案预测任务;所述实体预测任务和所述答案预测任务共用分类网络中除输出层之外的网络层;
多任务学习模块,用于基于样本医学图像、对应的有答案标签的样本问题文本以及医学知识图谱,以实体预测任务和答案预测任务的损失为约束,训练多任务学习模型;
问答模型构建模块,用于基于训练完成的多任务学习模型,构建答案预测模型;
医学视觉问答模块,用于将待预测的医学图像及其对应的问题文本输入至答案预测模型,获得问题文本的答案。
在一个可选的示例中,所述多任务模型构建模块中知识图谱学习网络包括Transformer和Adapter Fusion;
所述多任务学习模块中实体预测任务的损失基于如下步骤确定:
将样本问题文本输入至Transformer,获得文本编码向量;
将医学知识图谱和文本编码向量输入至Adapter Fusion,获得知识融合特征;
将知识融合特征输入至分类网络,获得预测的实体;
基于预测的实体与医学知识图谱中对应三元组的实际实体,确定实体预测任务的损失。
在一个可选的示例中,所述多任务学习模块中答案预测任务的损失基于如下步骤确定:
将样本医学图像输入至图像特征提取网络,获得样本图像特征;
将样本医学图像对应的样本问题文本输入至文本特征提取网络,获得样本文本特征;
将样本图像特征和样本文本特征输入至特征融合网络,获得样本融合特征;
将样本融合特征输入至分类网络,获得预测的答案;
基于预测的答案与对应的答案标签,确定答案预测任务的损失。
在一个可选的示例中,所述多任务模型构建模块中特征融合网络采用自注意力网络与指导注意力网络构建。
在一个可选的示例中,所述多任务模型构建模块中文本特征提取网络采用BioBert中的编码器对问题文本进行特征提取;图像特征提取网络采用Vilt模型对医学图像分块进行特征提取。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明提供一种基于跨模态数据融合的医学视觉问答方法及系统,通过引入医疗领域的知识图谱中的结构化知识作为增强知识,并建立实体预测任务和答案预测任务的多任务学习模型进行训练,能够有效提升答案预测模型的性能,可以解决现有的医疗图像数据集标注难度大,标注样本少的问题,在医疗图像问答的任务上可以达到较高的准确率。
附图说明
图1是本发明提供的医学视觉问答方法的流程示意图;
图2是本发明提供的Adapter Fusion的结构示意图;
图3是本发明提供的多任务学习模型的结构示意图;
图4是本发明提供的交叉注意力模块及其多头注意力层的结构示意图;
图5是本发明提供的医学视觉问答系统的架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于跨模态数据融合的医学视觉问答方法,图1是本发明提供的医学视觉问答方法的流程示意图,如图1所示,该方法包括:
步骤S101,基于文本特征提取网络、图像特征提取网络、特征融合网络、知识图谱学习网络和分类网络,构建多任务学习模型;其中,知识图谱学习网络和分类网络用于完成医学知识图谱中三元组的实体预测任务;文本特征提取网络、图像特征提取网络、特征融合网络和分类网络用于完成医学视觉问答的答案预测任务;实体预测任务和答案预测任务共用分类网络中除输出层之外的网络层;
步骤S102,基于样本医学图像、对应的有答案标签的样本问题文本以及医学知识图谱,以实体预测任务和答案预测任务的损失为约束,训练多任务学习模型;
步骤S103,基于训练完成的多任务学习模型,构建答案预测模型;
步骤S104,将待预测的医学图像及其对应的问题文本输入至答案预测模型,获得问题文本的答案。
此处,医学知识图谱中三元组的实体预测任务具体可以是尾实体预测,例如,预测某个疾病的症状是什么。医学图像例如可以是头部、肺部CT图像等。
可以理解的是,医学视觉问答的答案预测任务可以是二分类任务,也可以是多分类任务,具体可以根据需求对应调整分类网络的答案预测输出层,例如,问题文本为“是否有主动脉瘤的迹象”,此时答案预测任务为二分类任务,又例如,问题文本为“病灶区域有几个”、或“是哪种类别的疾病”等,此时答案预测任务为多分类任务。
需要说明的是,通过实体预测任务和答案预测任务共用分类网络中除输出层之外的网络层,将实体预测任务的损失和答案预测任务的损失作为模型的总体损失,并引入知识图谱中的结构化知识支撑多任务学习,能够有效提升分类网络的分类性能,在此基础上,将训练完成的多任务学习模型中的文本特征提取网络、图像特征提取网络、特征融合网络和分类网络组成答案预测模型,进而可以提升答案预测模型的准确率。
本发明实施例提供的方法,通过引入医疗领域的知识图谱中的结构化知识作为增强知识,并建立实体预测任务和答案预测任务的多任务学习模型进行训练,能够有效提升答案预测模型的性能,可以解决现有的医疗图像数据集标注难度大,标注样本少的问题,在医疗图像问答的任务上可以达到较高的准确率。
基于上述实施例,知识图谱学习网络包括Transformer和Adapter Fusion;
实体预测任务的损失基于如下步骤确定:
将样本问题文本输入至Transformer,获得文本编码向量;
将医学知识图谱和文本编码向量输入至Adapter Fusion,获得知识融合特征;
将知识融合特征输入至分类网络,获得预测的实体;
基于预测的实体与医学知识图谱中对应三元组的实际实体,确定实体预测任务的损失。
需要说明的是,在实体预测阶段,输入文本数据经Transformer后接AdapterFusion,知识图谱在Adapter阶段引入进来,这是一种引入外部数据接入模型比较好的方式,可以只用学习少量参数。
进一步地,此处的Transformer可以采用医学文本模型PubMedBert的Transformer。考虑到知识图谱的图结构很难正常去融合,需要划分子图,对此,本发明先将医学知识图谱拆分成子图,每个子图包含若干个三元组,针对图结构的先验知识采用子图学习模型(Adapter Fusion),配合医学文本模型PubMedBert完成实体预测的任务。
基于上述任一实施例,将基于划分知识图谱的事实知识注入到医学预训练模型PubMedBERT中,最终结合分类网络完成实体预测任务。模型参数更新与基于事实的知识注入同步进行。
图2是本发明提供的Adapter Fusion的结构示意图,如图2所示,该结构包括adapter适配器部分和适配器-融合层部分,首先将知识图谱KG表示为一组有序三元组G=(h,r,t)|h,r∈R,t∈E,其中r和E分别是关系和实体的集合。本发明使用子图划分,将一个完成的知识图谱划分为K个子图,即G→{G1,G2,…,GK},然后学习每个子图要表示的具体参数,即ΦG→{ΦG1,ΦG2,…,ΦGK}。在模块的最后,使用softmax注意力层作为适配器-融合层来融合在每个子图中学习到的参数。从图2可以看出,它使用带有softmax权重的attention来学习第l层adapter适配器上的上下文混合权重:
其中Θl,0是文本经过Transformer输出的文本编码向量,sl,k是通过融合每个适配器的输出得到的,并作为输入发送到下一层,最后一层F是通过选择对应的目标任务预测头f来得到对应的预测的实体标签y:
图2中Query、Key和Value是在适配器融合过程中使用的三个可学习权重。预训练的输出Transformer的权重是查询的输入,而Key和Value的输入是对应adapter的输出。
基于上述任一实施例,答案预测任务的损失基于如下步骤确定:
将样本医学图像输入至图像特征提取网络,获得样本图像特征;
将样本医学图像对应的样本问题文本输入至文本特征提取网络,获得样本文本特征;
将样本图像特征和样本文本特征输入至特征融合网络,获得样本融合特征;
将样本融合特征输入至分类网络,获得预测的答案;
基于预测的答案与对应的答案标签,确定答案预测任务的损失。
基于上述任一实施例,特征融合网络采用自注意力网络与指导注意力网络构建。
需要说明的是,交叉注意力机制通常用于单一模态,而本发明中特征融合模块采用基于自注意力网络与指导注意力网络的跨模态交叉注意力机制,不同模态的信息采用多头交叉注意力机制进行跨模态融合,并为融合设计特定的损失函数,实现融合模块充分挖掘各个模态的信息并相互作用,有效融合视觉和语言特征等不同模态的输入,解决了现有技术中跨模态特征融合交互不充分的问题。
基于上述任一实施例,文本特征提取网络采用BioBert中的编码器对问题文本进行特征提取;图像特征提取网络采用Vilt(视觉-语言Transformer)模型对医学图像分块进行特征提取。
本发明采用医疗文本的预训练模型BioBert对问题进行编码,更好地理解医疗领域的相关问题;图像端采用Vilt模型对图像分块(patch)进行高效地特征提取,将更多的计算资源放在融合阶段。
基于上述任一实施例,图3是本发明提供的多任务学习模型的结构示意图,如图3所示,本发明提出的模型框架包括用于高效视觉语言表示学习的预训练范式、基于医学知识图谱的子图学习模型、用于不同特征融合的多头协同注意力(MCAN)模块,以及用于预测问题相关答案的VQA分类器(即上述的分类网络)。
在图像编码部分,最简单的视觉嵌入方案是在图像块上进行线性投影。该方法首先引入用于图像分类的ViT(视觉Transformer)模型中的编码器,提高了效率。该方法将视觉信息的嵌入过程简化到文本信息的嵌入阶段,提高了嵌入效率。此外,提出的MCAN融合机制可以与该视觉嵌入方案结合使用。这样,图像编码(即上述的图像特征提取网络输出的图像特征)可以以一种更有效的方式表达:
vclass为模态类型。输入图像可以看作是一系列图像patch,然后被切片并平展成/>然后通过线性投影/>将其转换为视觉嵌入,再与位置嵌入/>相加,V嵌入到/>最后与其对应的模态类型嵌入连接。
在文本编码端使用加载的预训练模型BioBert,利用训练好的权重初始化编码器。类似的文本模型的表示(即上述的文本特征提取网络输出的文本特征)可由下式得出:
最终的多模态输入可以表示为:
其中,vmty为图像特征对应的模态类型嵌入,tmty为文本特征对应的模态类型嵌入,以方便跨模态交叉注意力机制获知哪部分来自文本,哪部分来自图像。
在多模态输入归一化后具有深度输入交互的多头协同注意力模块中,通过d-depth transformer层迭代更新后最终得到跨模态上下文序列zd。p是通过线性投影和双曲正切对整个多模态输入的池化表示。
其中,MLP为多层感知机,LN为层归一化。
再通过与进行元素相加、总和等运算即可得到特征融合网络输出的融合特征,最后将融合特征输入到分类器中进行答案预测。
基于上述任一实施例,图4是本发明提供的交叉注意力模块及其多头注意力层的结构示意图,如图4所示,融合阶段首先采用自注意力模块(即上述的自注意力网络)与指导注意力模块(即上述的指导注意力网络)组建交叉注意力模块,图4(a)中的指导注意力单元接收两组输入特征X和Y,并输出X的受关注特征Z,对X的注意力由Y中包含的知识指导。流程图的图4(b)多头注意力层的输入是多条信息的图像和文本模态。
具体做法与自注意力机制类似,缩放点积注意力的输入包括具有一定维度dkey、dquery的键key和查询q,以及具有相同维度dvalue的值,其中注意力的具体做法是对于给定的查询和n个键值对,本发明对所有值/>对q和/>学习到的注意力进行加权,并使用softmax函数得到值上相应的注意力权重:
多个并行独立的点积注意力组成多头注意力,每个点积注意力统称为“头”,最终的多头特征输出F可以表示为:
F=MA(q,key,value)=[head1,head2,…,headh]Wo
另外指导注意力模块其具体实现依赖于两组输入特征即文本特征和图像特征,第一个集合包含一种模态的信息,第二个集合/>它为X上的注意力学习提供指导,并包含关于另一模态的信息。引导注意力单元的主要任务是分别对X和Y中的成对样本si=[xi,yi]进行建模。
基于自注意力模块与指导注意力模块,本发明进一步利用这些交互来获取参与的图像特征,并构建最终模型的融合网络层,如图4所示,输入特征首先转化为自注意力单元来捕获自身的特征信息,然后添加一个指导注意力单元来建模每个区域xi∈X与每个单词yi∈Y之间的密集模态交互。为了简化模型结构,使用堆叠策略来实现模型层的深度级联:
[Xl+1,Yl+1]=MCAN(l)([X(l),Y(l)])
最终,通过这些输入特征构建一个两层的MLP层进行答案预测。将模型的总体损失作为MCAN损失和知识图谱融合设计对应的损失函数的加权和来计算。模型最终的损失函数LT为:
LT=LMCAN+βLKE
其中LMCAN是基于分类的知识推理预测的交叉熵损失,即答案预测任务的损失,而LKE是子图适配器中实体预测的交叉熵损失,即实体预测任务的损失。其中β在训练前的初始设置可以为0.75,这是一个用于平衡两个损失项的超参数。
本发明提出一种解决方案采用医疗知识图谱中的结构化知识作为增强知识来弥补医疗数据集存在的不足,具体技术方案为,图像和文本的学习使用预训练模型来进行特征抽取,利用METIS算法将知识图谱分为多个子图,采用分子图学习的Adapter模块进行学习,最后将学习到的知识与一个医学的文本模型PubMedBERT进行Adapter-Fusion融合形成跨模态知识,将跨模态知识用于分类器进行知识问答。通过此技术对现有的医疗图像数据集标注难度大标注样本少,跨模态特征融合交互不充分等问题进行解决。
通过实验对比发现,知识图谱的引入能很好的解决因医疗数据集规模小的问题,此外消融实验也证明了采用的特征提取方法以及融合模块都在效率上得到很大的提升。最后,与先进的采用相同数据集输入的现有模型相比,本发明的模型效果要更优,在医疗图像问答的任务上达到了更高的准确率。
基于上述任一实施例,本发明提供一种基于跨模态数据融合的医学视觉问答系统,图5是本发明提供的医学视觉问答系统的架构图,如图5所示,该系统包括:
多任务模型构建模块510,用于基于文本特征提取网络、图像特征提取网络、特征融合网络、知识图谱学习网络和分类网络,构建多任务学习模型;其中,知识图谱学习网络和分类网络用于完成医学知识图谱中三元组的实体预测任务;文本特征提取网络、图像特征提取网络、特征融合网络和分类网络用于完成医学视觉问答的答案预测任务;实体预测任务和答案预测任务共用分类网络中除输出层之外的网络层;
多任务学习模块520,用于基于样本医学图像、对应的有答案标签的样本问题文本以及医学知识图谱,以实体预测任务和答案预测任务的损失为约束,训练多任务学习模型;
问答模型构建模块530,用于基于训练完成的多任务学习模型,构建答案预测模型;
医学视觉问答模块540,用于将待预测的医学图像及其对应的问题文本输入至答案预测模型,获得问题文本的答案。
可以理解的是,上述各个模块的详细功能实现可参见前述方法实施例中的介绍,在此不做赘述。
另外,本发明实施例提供了另一种基于跨模态数据融合的医学视觉问答装置,其包括:存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现上述实施例中的方法。
此外,本发明还提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现上述实施例中的方法。
基于上述实施例中的方法,本发明实施例提供了一种计算机程序产品,当计算机程序产品在处理器上运行时,使得处理器执行上述实施例中的方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于跨模态数据融合的医学视觉问答方法,其特征在于,包括:
S101基于文本特征提取网络、图像特征提取网络、特征融合网络、知识图谱学习网络和分类网络,构建多任务学习模型;其中,知识图谱学习网络和分类网络用于完成医学知识图谱中三元组的实体预测任务;文本特征提取网络、图像特征提取网络、特征融合网络和分类网络用于完成医学视觉问答的答案预测任务;所述实体预测任务和所述答案预测任务共用分类网络中除输出层之外的网络层;
S102基于样本医学图像、对应的有答案标签的样本问题文本以及医学知识图谱,以实体预测任务和答案预测任务的损失为约束,训练多任务学习模型;
S103基于训练完成的多任务学习模型,构建答案预测模型;
S104将待预测的医学图像及其对应的问题文本输入至答案预测模型,获得问题文本的答案。
2.根据权利要求1所述的方法,其特征在于,所述知识图谱学习网络包括Transformer和Adapter Fusion;
所述实体预测任务的损失基于如下步骤确定:
将样本问题文本输入至Transformer,获得文本编码向量;
将医学知识图谱和文本编码向量输入至Adapter Fusion,获得知识融合特征;
将知识融合特征输入至分类网络,获得预测的实体;
基于预测的实体与医学知识图谱中对应三元组的实际实体,确定实体预测任务的损失。
3.根据权利要求1所述的方法,其特征在于,所述答案预测任务的损失基于如下步骤确定:
将样本医学图像输入至图像特征提取网络,获得样本图像特征;
将样本医学图像对应的样本问题文本输入至文本特征提取网络,获得样本文本特征;
将样本图像特征和样本文本特征输入至特征融合网络,获得样本融合特征;
将样本融合特征输入至分类网络,获得预测的答案;
基于预测的答案与对应的答案标签,确定答案预测任务的损失。
4.根据权利要求1所述的方法,其特征在于,所述特征融合网络采用自注意力网络与指导注意力网络构建。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述文本特征提取网络采用BioBert中的编码器对问题文本进行特征提取;图像特征提取网络采用Vilt模型对医学图像分块进行特征提取。
6.一种基于跨模态数据融合的医学视觉问答系统,其特征在于,包括:
多任务模型构建模块,用于基于文本特征提取网络、图像特征提取网络、特征融合网络、知识图谱学习网络和分类网络,构建多任务学习模型;其中,知识图谱学习网络和分类网络用于完成医学知识图谱中三元组的实体预测任务;文本特征提取网络、图像特征提取网络、特征融合网络和分类网络用于完成医学视觉问答的答案预测任务;所述实体预测任务和所述答案预测任务共用分类网络中除输出层之外的网络层;
多任务学习模块,用于基于样本医学图像、对应的有答案标签的样本问题文本以及医学知识图谱,以实体预测任务和答案预测任务的损失为约束,训练多任务学习模型;
问答模型构建模块,用于基于训练完成的多任务学习模型,构建答案预测模型;
医学视觉问答模块,用于将待预测的医学图像及其对应的问题文本输入至答案预测模型,获得问题文本的答案。
7.根据权利要求6所述的系统,其特征在于,所述多任务模型构建模块中知识图谱学习网络包括Transformer和Adapter Fusion;
所述多任务学习模块中实体预测任务的损失基于如下步骤确定:
将样本问题文本输入至Transformer,获得文本编码向量;
将医学知识图谱和文本编码向量输入至Adapter Fusion,获得知识融合特征;
将知识融合特征输入至分类网络,获得预测的实体;
基于预测的实体与医学知识图谱中对应三元组的实际实体,确定实体预测任务的损失。
8.根据权利要求6所述的系统,其特征在于,所述多任务学习模块中答案预测任务的损失基于如下步骤确定:
将样本医学图像输入至图像特征提取网络,获得样本图像特征;
将样本医学图像对应的样本问题文本输入至文本特征提取网络,获得样本文本特征;
将样本图像特征和样本文本特征输入至特征融合网络,获得样本融合特征;
将样本融合特征输入至分类网络,获得预测的答案;
基于预测的答案与对应的答案标签,确定答案预测任务的损失。
9.根据权利要求6所述的系统,其特征在于,所述多任务模型构建模块中特征融合网络采用自注意力网络与指导注意力网络构建。
10.根据权利要求6至9中任一项所述的系统,其特征在于,所述多任务模型构建模块中文本特征提取网络采用BioBert中的编码器对问题文本进行特征提取;图像特征提取网络采用Vilt模型对医学图像分块进行特征提取。
CN202310933589.XA 2023-07-26 2023-07-26 一种基于跨模态数据融合的医学视觉问答方法及系统 Pending CN116932722A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310933589.XA CN116932722A (zh) 2023-07-26 2023-07-26 一种基于跨模态数据融合的医学视觉问答方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310933589.XA CN116932722A (zh) 2023-07-26 2023-07-26 一种基于跨模态数据融合的医学视觉问答方法及系统

Publications (1)

Publication Number Publication Date
CN116932722A true CN116932722A (zh) 2023-10-24

Family

ID=88389516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310933589.XA Pending CN116932722A (zh) 2023-07-26 2023-07-26 一种基于跨模态数据融合的医学视觉问答方法及系统

Country Status (1)

Country Link
CN (1) CN116932722A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235670A (zh) * 2023-11-10 2023-12-15 南京信息工程大学 基于细粒度交叉注意力的医学影像问题视觉解答方法
CN117313958A (zh) * 2023-11-28 2023-12-29 山东大学 基于迁移学习的低压分布式光伏功率预测方法及系统
CN117407541A (zh) * 2023-12-15 2024-01-16 中国科学技术大学 一种基于知识增强的知识图谱问答方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235670A (zh) * 2023-11-10 2023-12-15 南京信息工程大学 基于细粒度交叉注意力的医学影像问题视觉解答方法
CN117313958A (zh) * 2023-11-28 2023-12-29 山东大学 基于迁移学习的低压分布式光伏功率预测方法及系统
CN117313958B (zh) * 2023-11-28 2024-02-20 山东大学 基于迁移学习的低压分布式光伏功率预测方法及系统
CN117407541A (zh) * 2023-12-15 2024-01-16 中国科学技术大学 一种基于知识增强的知识图谱问答方法
CN117407541B (zh) * 2023-12-15 2024-03-29 中国科学技术大学 一种基于知识增强的知识图谱问答方法

Similar Documents

Publication Publication Date Title
CN109299216B (zh) 一种融合监督信息的跨模态哈希检索方法和系统
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
CN111522962B (zh) 序列推荐方法、装置及计算机可读存储介质
CN111353076B (zh) 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
WO2022057669A1 (zh) 基于结构化上下文信息的知识图谱预训练方法
CN110427605B (zh) 面向短文本理解的省略恢复方法
CN110334219A (zh) 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN112966127A (zh) 一种基于多层语义对齐的跨模态检索方法
CN116932722A (zh) 一种基于跨模态数据融合的医学视觉问答方法及系统
CN112364174A (zh) 基于知识图谱的病人病历相似度评估方法及系统
CN112015868B (zh) 基于知识图谱补全的问答方法
CN114418954A (zh) 一种基于互学习的半监督医学图像分割方法及其系统
CN112561064B (zh) 基于owkbc模型的知识库补全方法
WO2024032096A1 (zh) 反应物分子的预测方法、训练方法、装置以及电子设备
CN112380863A (zh) 一种基于多头自注意力机制的序列标注方法
CN114090783A (zh) 一种异构知识图谱融合方法及系统
CN110990596A (zh) 一种基于自适应量化多模态哈希检索方法及系统
CN115827954A (zh) 动态加权的跨模态融合网络检索方法、系统、电子设备
CN115221369A (zh) 视觉问答的实现方法和基于视觉问答检验模型的方法
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
CN116386895B (zh) 基于异构图神经网络的流行病舆情实体识别方法与装置
Perdana et al. Instance-based deep transfer learning on cross-domain image captioning
CN116910190A (zh) 多任务感知模型获取方法、装置、设备及可读存储介质
CN115759262A (zh) 基于知识感知注意力网络的视觉常识推理方法及系统
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination