CN117407541B - 一种基于知识增强的知识图谱问答方法 - Google Patents
一种基于知识增强的知识图谱问答方法 Download PDFInfo
- Publication number
- CN117407541B CN117407541B CN202311724158.9A CN202311724158A CN117407541B CN 117407541 B CN117407541 B CN 117407541B CN 202311724158 A CN202311724158 A CN 202311724158A CN 117407541 B CN117407541 B CN 117407541B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- representation
- medical
- visual
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000000007 visual effect Effects 0.000 claims abstract description 154
- 230000004927 fusion Effects 0.000 claims abstract description 32
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims description 91
- 230000006870 function Effects 0.000 claims description 20
- 230000000873 masking effect Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000008520 organization Effects 0.000 claims description 6
- 230000001143 conditioned effect Effects 0.000 claims description 4
- 238000005065 mining Methods 0.000 claims description 4
- 241000396377 Tranes Species 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Human Computer Interaction (AREA)
- Animal Behavior & Ethology (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于知识增强的知识图谱问答方法,包括:将目标图像、目标问题输入到已训练完成的医学视觉语言模型中;将目标图像通过图像编码器编码得到目标图像特征,将目标问题通过文本编码器编码得到目标语言特征;基于目标图像特征与预训练后医学视觉语言模型的知识表示池中图像特征表示之间的相似度得分,结合知识表示池中的知识特征表示得到目标图像知识表示;基于跨模态注意力融合机制融合目标图像知识表示、目标图像特征和目标语言特征,以输出知识增强的多模态表示特征;将多模态表示特征输入到答案分类器中以输出与目标问题对应的医学回答;该知识图谱问答方法提高了医学视觉语言模型对输入问题的输出准确度。
Description
技术领域
本发明涉及知识问答技术领域,尤其涉及一种基于知识增强的知识图谱问答方法。
背景技术
几年来,随着人工智能技术的飞速发展,深度学习在医学领域的应用大大增加。医疗信息化的快速发展以及医疗设备的更新迭代使得海量且类型多样的医学数据产生。在各种类型的医学数据中,医学图像和医学文本是医学数据里面比较重要和常见的两种模态的数据。医学图像包括X射线图像、核磁共振成像(MRI)、CT图像、超声图像等影像数据,医学文本包括放射性图像报告、医生诊断报告等。因为各种通用领域视觉语言模型的出现以及这些模型在视觉和语言多模态任务上的出色表现,人们开始把视觉语言模型运用到医学领域上。医学视觉语言模型通过同时处理这两种模态的医学数据,能够挖掘两种数据之间的关系以及生成多模态特征表示,为医学领域的各种视觉语言任务提供支撑。
医学视觉语言模型对处理各种多模态视觉任务具有重要意义,这些任务涉及计算机视觉、自然语言处理以及医学等多个领域,如医学视觉问答任务。医学视觉问答任务是模型根据一张给定的医学图像,给出与输入的问题相匹配的正确答案。在医学领域,这对于医生和病人来说都很有意义,医生可以利用医学视觉语言模型来辅助自己做决策,减少误诊的概率,提高医生的工作效率,病人能利用医学视觉语言模型来解释医学图像,以此来粗略了解自己身体的健康程度,最终能加快病人的治愈。
对于医学视觉语言模型,如何提高模型的性能和泛化能力是一个非常重要的问题,也是一个当前亟待解决的问题。
发明内容
基于背景技术存在的技术问题,本发明提出了一种基于知识增强的知识图谱问答方法,提高了医学视觉语言模型的准确度。
本发明提出的一种基于知识增强的知识图谱问答方法,包括如下步骤:
S100:将目标图像、目标问题输入到已训练完成的医学视觉语言模型中,所述医学视觉语言模型包括视觉编码器、文本编码器、跨模态注意力融合机制和答案分类器;
S200:将目标图像通过图像编码器编码得到目标图像特征,将目标问题通过文本编码器编码得到目标语言特征;
S300:计算目标图像特征与预训练后医学视觉语言模型的知识表示池中图像特征表示之间的相似度得分,将按降序排列的前个相似度得分的加权相加并结合知识表示池中知识特征表示得到目标图像知识表示;
S400:基于跨模态注意力融合机制融合目标图像知识表示、目标图像特征和目标语言特征,以输出知识增强的多模态表示特征;
S500:将多模态表示特征输入到答案分类器中以输出与目标问题对应的医学回答;
所述医学视觉语言模型的预训练过程如下:
S1:构建预训练数据集,提取训练数据集中所有医学文本中的医学实体,将医学实体链接到知识库中得到知识图谱子图,对知识图谱子图使用图表示学习的方法得到所有医学实体的嵌入表示,基于所有医学实体的嵌入表示构建知识实体集,所述预训练数据集包括医学图像、知识实体集和医学文本;
S2:使用视觉编码器、文本编码器、知识编码器分别对医学图像、医学文本、知识实体集进行编码得到视觉表示、语言表示/>和知识表示/>;
S3:使用基于跨模态注意力融合机制融合视觉表示、语言表示/>和知识表示/>,得到基于知识增强的视觉多模态表示特征/>和语言多模态表示特征/>,医学视觉语言模型预训练结束后,基于视觉表示/>和知识表示构建知识表示池P,P的组织形式为(/>,其中/>为图像特征表示,/>为知识特征表示,/>表示序号,/>,/>为知识表示池P的大小。
进一步地,在步骤S2中,具体包括:
基于跨模态注意力融合机制融合视觉表示、语言表示/>和知识表示/>,得到知识增强的视觉表示特征/>和语言表示特征/>;
基于跨模态注意力融合机制融合视觉表示特征和语言表示特征/>,得到基于知识增强的视觉多模态表示特征/>和语言多模态表示特征/>;
其中,视觉表示特征、语言表示特征/>、视觉多模态表示特征/>和语言多模态表示特征/>的计算公式如下:
其中,表示注意力机制,/>分别表示参量,/>表示激活函数,/>表示转置操作,/>表示/>的维度,/>分别对应/>、/>、/>或者/>,/>分别对应/>、/>、或者/>,/>分别对应/>、/>、/>或者/>。
进一步地,利用掩码图像建模、掩码语言建模以及对比学习任务对预训练的医学视觉语言模型进行约束,以构建预训练医学视觉语言模型的总损失函数,具体为:
利用掩码图像建模随机掩盖一部分医学图像,基于预训练的医学视觉语言模型预测以可见医学图像为条件的掩盖医学图像部分;
基于给定的知识库,利用掩码语言建模随机掩盖部分医学文本中的医学实体,根据上下文信息重建该部分医学实体;
基于对比学习任务缩小同类数据的特征距离,扩大不同类数据的特征距离,所述同类数据为医学图像和医学图像对应的医学文本。
进一步地,在基于对比学习任务缩小同类数据的特征距离,扩大不同类数据的特征距离中,具体为:
对于相似的医学图像和医学图像/>以及对应相似的医学文本/>和医学文本/>;
当两个数据对(),(/>)的知识特征表示的相似度得分/>大于一个阈值时,认为数据对(/>,/>),(/>,/>)构成一个正样本对,所述正样本对对应于同类数据。
进一步地,医学视觉语言模型预训练的总损失函数公式如下:
其中,表示掩码图像建模的损失函数,/>表示掩码语言建模的损失函数,表示对比学习任务的损失函数;
其中,表示表使得医学视觉语言模型提高预测掩盖医学图像成功的概率,表示掩盖的医学图像部分,/>表示未被掩盖的医学图像部分,/>表示输入的医学图像,/>表示医学文本,/>表示使医学视觉语言模型提高预测掩盖医学实体成功的概率,表示掩盖的医学实体部分,/>表示未掩盖的医学实体部分,/>表示两个知识特征表示/>之间的相似度/>得分,/>分别表示两个不同数据对对应的知识特征表示,/>表示求期望,/>表示知识表示池的大小。
进一步地,对预训练后的医学视觉语言模型进行训练,过程如下:
构建一个训练样本集,所述训练样本集包括训练图像和训练问题;
将训练图像通过步骤S2的视觉编码器编码得到训练视觉表示,将训练问题通过步骤S2的文本编码器编码得到训练语言表示/>;
计算训练视觉表示与图像特征表示/>之间的相似度得分,所述图像特征表示/>为步骤S3得到的知识表示池中的特征;
将按降序排列的前个相似度得分的加权相加并结合知识特征表示/>得到训练知识表示/>,所述知识特征表示/>为步骤S3得到的知识表示池中的特征;
将训练视觉表示、训练知识表示、训练语言表示输入到预训练后的医学视觉语言模型中,使用基于跨模态注意力融合机制融合输出视觉多模态表示特征和语言多模态表示特征;
将视觉多模态表示特征和语言多模态表示特征输送到答案分类器中以输出与训练问题对应的医学回答。
进一步地,训练知识表示的计算公式如下:
其中,表示按降序排列的前/>个相似度得分,/>表示训练视觉表示/>与图像特征表示/>之间相似度得分,/>表示乘积。
进一步地,在步骤S1中,对知识图谱子图使用图表示学习的方法得到所有医学实体的嵌入表示具体为:
使用TranE初步学习知识图谱子图的表征语义信息;
然后使用图注意力网络聚集知识图谱子图中节点的邻居局部信息,挖掘实体和关系的语义信息,得到各个医学实体的嵌入表示。
本发明提供的一种基于知识增强的知识图谱问答方法的优点在于:本发明结构中提供的一种基于知识增强的知识图谱问答方法,该知识图谱问答方法通过引入了外部知识来增强医学视觉语言模型的性能,通过知识增强的对比学习来预训练医学视觉语言模型的方式能更好地挖掘数据间的相似性特征,另外通过医学视觉语言模型维护一个知识表示池能把训练好的医学视觉语言模型迁移到医学视觉问答任务中,提高了模型的准确度。
附图说明
图1为本发明的流程示意图;
图2为医学视觉语言模型的结构示意图;
图3为利用知识表示池进行知识表示计算的示意图。
具体实施方式
下面,通过具体实施例对本发明的技术方案进行详细说明,在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
如图1至3所示,本发明提出的一种基于知识增强的知识图谱问答方法,包括如下步骤S100至S500:
S100:将目标图像、目标问题输入到已训练完成的医学视觉语言模型中,所述医学视觉语言模型包括视觉编码器、文本编码器、跨模态注意力融合机制和答案分类器;
S200:将目标图像通过图像编码器编码得到目标图像特征,将目标问题通过文本编码器编码得到目标语言特征;
S300:计算目标图像特征与预训练后医学视觉语言模型的知识表示池中图像特征表示之间的相似度得分,将按降序排列的前个相似度得分的加权相加并结合知识表示池中的知识特征表示得到目标图像知识表示;
S400:基于跨模态注意力融合机制融合目标图像知识表示、目标图像特征和目标语言特征,以输出知识增强的多模态表示特征;
S500:将多模态表示特征输入到答案分类器中以输出与目标问题对应的医学回答。
该知识图谱问答方法通过引入了外部知识来增强医学视觉语言模型的性能,通过知识增强的对比学习来训练医学视觉语言模型的方式能更好地挖掘数据间的相似性特征,另外通过医学视觉语言模型维护一个知识表示池能把训练好的医学视觉语言模型迁移到医学视觉问答任务中,提高模型的准确度。
本实施例中的医学视觉语言模型可以更好地促进医学视觉语言模型捕捉医学图像和医学文本的语义特征,并通过加强两种模态数据之间的交互来提高医学视觉语言模型具有更好的泛化能力和可解释性,提高模型在医学视觉问答任务中的性能,在本实施例中,首先对医学视觉语言模型进行一定的预训练,并通过掩码图像建模、掩码语言建模以及对比学习任务对预训练的医学视觉语言模型进行训练调整,进而构建预训练医学视觉语言模型的总损失函数,从而在医学视觉语言模型预训练结束后,构建一个知识表示池,该知识表示池的作用是构建目标图像的知识表示;然后对预训练后的医学视觉语言模型进行再次训练,使得医学语言模型能够对输入的训练图像、训练问题以及构建的知识表示池进行融合后输出较为准确的医学回答,从而在医学语言模型实际使用过程中,目标图像和目标问题作为医学语言模型的输入时,通过将目标图像、目标问题和模型维护的知识表示池之间的高效融合,从而输出较为准确的医学回答。以下具体说明医学视觉语言模型。
(A)医学视觉语言模型的预训练
本实施例中对于医学视觉语言模型的预训练过程如下S1至S4。
S1:构建预训练数据集,提取训练数据集中所有医学文本中的医学实体,将医学实体链接到知识库中得到知识图谱子图,对知识图谱子图使用图表示学习的方法得到所有医学实体的嵌入表示,基于所有医学实体的嵌入表示构建知识实体集,所述预训练数据集包括医学图像、知识实体集和医学文本;
提取预训练数据集中所有医学文本中的医学实体使用的方法是命名实体识别技术,然后将其链接到知识库中对应的正确实体对象。所使用的知识库是一体化医学语言系统,包含了大量结构化的医学专家知识,其知识的组织形式是一个包含相关信息的三元组(头实体,关系,尾实体),这种引入结构化的外部医学领域专家知识来增强医学视觉语言模型,能够更好地引导图像模态特征和文本模态特征对齐。
抽取医学实体后得到一个知识图谱子图,使用图表示学习的方法学习知识图谱子图中医学实体和关系的嵌入表示。常用的图学习方法包括TransE、GCN、GAT等,具体为,先使用TranE/ GCN/GAT初步学习该知识图谱子图的表征语义信息,然后使用图注意力网络聚集图中节点的邻居局部信息,进一步挖掘实体和关系的语义信息,得到各个医学实体的嵌入表示。
S2:使用视觉编码器、文本编码器、知识编码器分别对医学图像、医学文本、知识实体集进行编码得到视觉表示、语言表示/>和知识表示/>;
常用的视觉编码器有ResNet、VGGNet、Faster R-CNN、ViT-B等,常用的文本编码器包括BERT、LSTM、BiLSTM、GRU、RoBERTa-base等。
例如:使用视觉编码器ViT-B来对医学图像进行编码,使用文本编码器RoBERTa-base对医学文本进行编码。知识实体表示集合的形式为,其中/>为该医学文本中抽取到的医学实体的数目,/>为步骤S1中图表示学习得到的关于第/>个医学实体的嵌入表示。使用基于3层全连接层和一层自注意力网络层组成的神经网络对知识实体表示集合进行编码,得到所有医学实体的嵌入表示,这些医学实体的嵌入表示组成知识实体集/>。
S3:使用基于跨模态注意力融合机制融合视觉表示、语言表示/>和知识表示/>,得到基于知识增强的视觉多模态表示特征/>和语言多模态表示特征/>,医学视觉语言模型预训练结束后,基于视觉表示/>和知识表示/>构建知识表示池P,P的组织形式为(/>,其中/>为图像特征表示,/>为知识特征表示,/>表示序号,/>,/>为知识表示池P的大小;
和/>这两个特征是一个向量,/>代表以视觉为基本特征,融合了语言表示特征和知识表示的一个多模态表示特征。/>代表以语言为基本特征,融合了视觉表示特征和知识表示的一个多模态表示特征。
需要说明的是,预训练的目的是为了让医学视觉语言模型学习如何从医学图像、医学文本、知识实体集中提取特征,以及学习挖掘这些特征的关系来完成特征的融合。知识表示池的建立是在医学视觉语言模型完成了预训练后才构建的,它是对医学图像经过了图像编码器后的视觉表示和知识实体集经过了知识编码器后的知识表示/>的一个集合汇总,即P的组织形式为(/>,根据/>取值不同,对应不同的视觉表示/>和知识表示/>。
本发明实例提供的医学视觉语言模型的结构是基于跨模态注意力融合机制。跨模态注意力模块是基于Transformer层实现的,每个模块由多个Transformer层组成。跨模态注意力融合机制为利用注意力机制来促进不同模态之间的两两交互以此来挖掘它们之间的关系和融合它们的特征信息。具体表现为对于步骤S2得到的视觉表示/>、语言表示/>和知识表示/>,利用跨模态注意力机制得到知识增强的视觉表示特征/>和语言表示特征/>,再对这两种(/>和/>)表示使用跨模态注意力机制,最终得到基于知识增强的视觉多模态表示特征/>和语言多模态表示特征/>,其计算公式如下:
其中,表示注意力机制,/>分别表示参量,/>表示激活函数,/>表示转置操作,/>表示/>的维度,在计算/>时,/>对应/>,/>对应/>,/>分别对应/>,/>对应/>;在计算/>时,/>对应/>,/>对应/>,/>对应/>;在计算/>时,/>对应/>,/>对应/>,/>对应/>;在计算/>时,/>对应/>,/>对应/>,/>对应/>。
在步骤S1至S3中对医学视觉语言模型进行预训练过程中,利用掩码图像建模、掩码语言建模以及对比学习任务对预训练医学视觉语言模型进行约束,基于掩码图像建模、掩码语言建模以及对比学习任务分别对应的损失函数构建医学视觉语言模型的总损失函数,具体为(a1)至(a3):
(a1)利用掩码图像建模随机掩盖一部分医学图像,基于神经网络模型预测以可见医学图像为条件的掩盖医学图像部分;
掩码图像建模任务为掩盖一部分输入医学图像,让预训练的医学视觉语言模型来预测以可见医学图像为条件的掩盖部分,促进模型学习医学图像的特征;掩码图像建模的损失函数为:
其中,表示表使得医学视觉语言模型提高预测掩盖医学图像成功的概率,表示掩盖的医学图像部分,/>表示未被掩盖的医学图像部分,/>表示输入的医学图像,/>表示医学文本。
(a2)基于给定的知识库,利用掩码语言建模随机掩盖部分医学文本中的医学实体,根据上下文信息重建该部分医学实体;
基于给定的知识库,利用掩码语言建模随机掩盖部分医学文本中的掩码语言建模任务是根据给定的知识库,随机掩盖医学文本中的医学实体,然后根据上下文信息重建该部分实体,促进模型关注医学知识实体,理解关键的医学语义信息;对于输入医学图像和医学文本/>,掩码语言建模的损失函数如下:
其中,表示使医学视觉语言模型提高预测掩盖医学实体成功的概率,/>表示掩盖的医学实体部分,/>表示未掩盖的医学实体部分。
(a3)基于对比学习任务缩小同类数据的特征距离,扩大不同类数据的特征距离;
其中,在医学视觉语言模型种,比较的数据是医学图像和医学文本。同类数据指的是一张医学图像与其对应的医学文本,或者是该医学图像与经过知识表示筛选后的相似的医学文本。不同类数据指的是一张医学图像与没有多大关系的医学文本。
对比学习任务为缩小同类数据的特征距离,扩大不同类数据的特征距离。具体表现为对于医学图像及其对应医学文本/>,和其它医学图像/>、医学文本/>,有:
即正样本对之间的相似度score得分远大于负样本对之间的相似度得分。本发明使用基于知识增强改进的对比学习,传统的对比学习只把数据集中的匹配的医学图像和医学文本对当成正样本,忽视了数据集中存在相似的医学图像、/>或相似的医学文本/>、,直接把(/>,/>),(/>,/>)当成负样本会忽略一定的语义信息,利用知识表示扩展正样本对,当两个数据对(/>,/>),(/>,/>)的知识表示的相似度得分/>大于一个阈值时,会认为(/>,/>),(/>,/>)也构成一个正样本对,以此来更细粒度地挖掘数据之间的相似性特征,其中相似度得分使用欧拉距离来衡量,阈值设定为0.8;对比学习任务的损失函数如下:。
其中,表示两个知识特征表示/>之间的相似度/>得分,/>分别表示两个不同数据对对应的知识特征表示,/>表示求期望,/>表示知识表示池的大小。
(a4)医学视觉语言模型的总损失函数为:
其中,表示掩码图像建模的损失函数,/>表示掩码语言建模的损失函数,表示对比学习任务的损失函数。
(B)对预训练后的医学视觉语言模型继续训练,以将预训练后医学视觉语言模型所维护的知识表示池迁移到医学视觉问答任务,从而提高了医学视觉语言模型基于目标图像和目标问题作为输入时,输出医学回答的准确性。
(b1)构建一个训练样本集,所述训练样本集包括训练图像和训练问题;
在对预训练后的医学视觉语言模型进行继续训练时,此时医学视觉语言模型中已经存在一个待维护的知识表示池,本发明设计的知识表示池P的组织形式为(,其中为图像特征表示,/>为其对应的知识特征表示,/>,N为知识表示池的大小,取决于训练数据集的大小。/>特征表示由步骤S3训练好的医学视觉语言模型得到。
(b2)将训练图像通过步骤S2的视觉编码器编码得到训练视觉表示,将训练问题通过步骤S2的文本编码器编码得到训练语言表示/>;
训练视觉表示和训练语言表示/>的得到过程与步骤S2中视觉表示/>和语言表示/>的得到过程是一致的,可以采用同一视觉编码器和文本编码器进行处理。
(b3)计算训练视觉表示与图像特征表示/>之间的相似度得分,所述图像特征表示/>为步骤S3得到的知识表示池中的特征;
(b4)将按降序排列的前个相似度得分的加权相加并结合知识特征表示/>得到训练知识表示/>,所述知识特征表示/>为步骤S3得到的知识表示池中的特征;
具体为:对于输入,使用步骤S2中的视觉编码器ViT-B,得到验证视觉表示/>,对于知识表示池中/>,计算相似度得分,使用得分前/>的加权相加得到验证知识表示:
其中,表示按降序排列的前/>个相似度得分,/>表示训练视觉表示/>与图像特征表示/>之间相似度得分,/>表示乘积;/>由人工设定,根据实验效果进行调整,此案例可以设置为20。然后再使用这些特征表示,根据医学视觉问答任务对医学视觉语言模型进行微调和推理。本发明实例提供的利用知识表示池进行知识表示计算的示意图如图3所示。
(b5)将训练视觉表示、训练知识表示、训练语言表示输入到预训练后的医学视觉语言模型中,使用基于跨模态注意力融合机制融合输出视觉多模态表示特征和语言多模态表示特征;
在基于跨模态注意力融合机制在将训练视觉表示、训练知识表示、训练语言表示进行融合时,可以通过步骤S3中的融合方式,可以将训练知识表示与知识实体集对应,将训练视觉表示与视觉表示对应,将训练语言表示与语言表示/>对应,这种对应下,可以通过步骤S3中的融合公式直接计算得到训练视觉表示、训练知识表示、训练语言表示的融合结果。
(b6)将视觉多模态表示特征和语言多模态表示特征输送到答案分类器中以输出与训练问题对应的医学回答。
通过(b1)至(b6)对预训练后的医学视觉语言模型进行再次训练,从而维护预训练后的知识表示池,进而在对医学视觉语言模型实际使用过程中,可以通过与较为准确的知识表示池之间的计算融合得到较为准确的医学回答,从而为医生对患者病情准确评估提供了有力支撑。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种基于知识增强的知识图谱问答方法,其特征在于,包括如下步骤:
S100:将目标图像、目标问题输入到已训练完成的医学视觉语言模型中,所述医学视觉语言模型包括视觉编码器、文本编码器、跨模态注意力融合机制和答案分类器;
S200:将目标图像通过图像编码器编码得到目标图像特征,将目标问题通过文本编码器编码得到目标语言特征;
S300:计算目标图像特征与预训练后医学视觉语言模型的知识表示池中图像特征表示之间的相似度得分,将按降序排列的前个相似度得分的加权相加并结合知识表示池中知识特征表示得到目标图像知识表示;
S400:基于跨模态注意力融合机制融合目标图像知识表示、目标图像特征和目标语言特征,以输出知识增强的多模态表示特征;
S500:将多模态表示特征输入到答案分类器中以输出与目标问题对应的医学回答;
所述医学视觉语言模型的预训练过程如下:
S1:构建预训练数据集,提取预训练数据集中所有医学文本中的医学实体,将医学实体链接到知识库中得到知识图谱子图,对知识图谱子图使用图表示学习的方法得到所有医学实体的嵌入表示,基于所有医学实体的嵌入表示构建知识实体集,所述预训练数据集包括医学图像、知识实体集和医学文本;
S2:使用视觉编码器、文本编码器、知识编码器分别对医学图像、医学文本、知识实体集进行编码得到视觉表示、语言表示/>和知识表示/>;
S3:基于跨模态注意力融合机制融合视觉表示、语言表示/>和知识表示/>,得到基于知识增强的视觉多模态表示特征/>和语言多模态表示特征/>,医学视觉语言模型预训练结束后,基于视觉表示/>和知识表示/>构建知识表示池P,P的组织形式为(/>,其中/>为图像特征表示,/>为知识特征表示,/>表示序号,/>,/>为知识表示池P的大小。
2.根据权利要求1所述的基于知识增强的知识图谱问答方法,其特征在于,在步骤S3中,具体包括:
基于跨模态注意力融合机制融合视觉表示、语言表示/>和知识表示/>,得到知识增强的视觉表示特征/>和语言表示特征/>;
基于跨模态注意力融合机制融合视觉表示特征和语言表示特征/>,得到基于知识增强的视觉多模态表示特征/>和语言多模态表示特征/>;
其中,视觉表示特征、语言表示特征/>、视觉多模态表示特征/>和语言多模态表示特征/>的计算公式如下:
其中,表示注意力机制,/>分别表示参量,/>表示激活函数,/>表示转置操作,/>表示/>的维度,/>分别对应/>、/>、/>或者/>,/>分别对应/>、/>、/>或者/>,/>分别对应/>、/>、/>或者/>。
3.根据权利要求1所述的基于知识增强的知识图谱问答方法,其特征在于,利用掩码图像建模、掩码语言建模以及对比学习任务对预训练的医学视觉语言模型进行约束,以构建预训练医学视觉语言模型的总损失函数,具体为:
利用掩码图像建模随机掩盖一部分医学图像,基于预训练的医学视觉语言模型预测以可见医学图像为条件的掩盖医学图像部分;
基于给定的知识库,利用掩码语言建模随机掩盖部分医学文本中的医学实体,根据上下文信息重建该部分医学实体;
基于对比学习任务缩小同类数据的特征距离,扩大不同类数据的特征距离,所述同类数据为医学图像和医学图像对应的医学文本。
4.根据权利要求3所述的基于知识增强的知识图谱问答方法,其特征在于,在基于对比学习任务缩小同类数据的特征距离,扩大不同类数据的特征距离中,具体为:
对于相似的医学图像和医学图像/>以及对应相似的医学文本/>和医学文本/>;
当两个数据对(),(/>)的知识特征表示的相似度得分/>大于一个阈值时,认为数据对(/>,/>),(/>,/>)都构成正样本对,所述正样本对对应于同类数据。
5.根据权利要求3所述的基于知识增强的知识图谱问答方法,其特征在于,医学视觉语言模型预训练的总损失函数公式如下:
其中,表示掩码图像建模的损失函数,/>表示掩码语言建模的损失函数,/>表示对比学习任务的损失函数;
其中,表示使得医学视觉语言模型提高预测掩盖医学图像成功的概率,/>表示掩盖的医学图像部分,/>表示未被掩盖的医学图像部分,/>表示输入的医学图像,/>表示医学文本,/>表示使医学视觉语言模型提高预测掩盖医学实体成功的概率,/>表示掩盖的医学实体部分,/>表示未掩盖的医学实体部分,/>表示两个知识特征表示/>之间的相似度/>得分,/>分别表示两个不同数据对对应的知识特征表示,/>表示求期望,/>表示知识表示池的大小。
6.根据权利要求1所述的基于知识增强的知识图谱问答方法,其特征在于,对预训练后的医学视觉语言模型继续进行训练,过程如下:
构建一个训练样本集,所述训练样本集包括训练图像和训练问题;
将训练图像通过步骤S2的视觉编码器编码得到训练视觉表示,将训练问题通过步骤S2的文本编码器编码得到训练语言表示/>;
计算训练视觉表示与图像特征表示/>之间的相似度得分,所述图像特征表示/>为步骤S3得到的知识表示池中的特征;
将按降序排列的前个相似度得分的加权相加并结合知识特征表示/>得到训练知识表示/>,所述知识特征表示/>为步骤S3得到的知识表示池中的特征;
将训练视觉表示、训练知识表示、训练语言表示输入到预训练后的医学视觉语言模型中,基于跨模态注意力融合机制融合输出视觉多模态表示特征和语言多模态表示特征;
将视觉多模态表示特征和语言多模态表示特征输送到答案分类器中以输出与训练问题对应的医学回答。
7.根据权利要求6所述的基于知识增强的知识图谱问答方法,其特征在于,训练知识表示的计算公式如下:
其中,表示按降序排列的前/>个相似度得分,/>表示训练视觉表示与图像特征表示/>之间相似度得分,/>表示乘积。
8.根据权利要求3所述的基于知识增强的知识图谱问答方法,其特征在于,在步骤S1中,对知识图谱子图使用图表示学习的方法得到所有医学实体的嵌入表示具体为:
使用TranE初步学习知识图谱子图的表征语义信息;
然后使用图注意力网络聚集知识图谱子图中节点的邻居局部信息,挖掘实体和关系的语义信息,得到各个医学实体的嵌入表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311724158.9A CN117407541B (zh) | 2023-12-15 | 2023-12-15 | 一种基于知识增强的知识图谱问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311724158.9A CN117407541B (zh) | 2023-12-15 | 2023-12-15 | 一种基于知识增强的知识图谱问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117407541A CN117407541A (zh) | 2024-01-16 |
CN117407541B true CN117407541B (zh) | 2024-03-29 |
Family
ID=89491190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311724158.9A Active CN117407541B (zh) | 2023-12-15 | 2023-12-15 | 一种基于知识增强的知识图谱问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117407541B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117892140B (zh) * | 2024-03-15 | 2024-05-31 | 浪潮电子信息产业股份有限公司 | 视觉问答及其模型训练方法、装置、电子设备、存储介质 |
CN118193684B (zh) * | 2024-05-16 | 2024-07-23 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于大语言模型和知识图谱的多模态推理方法及装置 |
CN118467707A (zh) * | 2024-07-10 | 2024-08-09 | 北京大学 | 一种医学视觉问答方法、装置、设备及存储介质 |
CN118520932A (zh) * | 2024-07-25 | 2024-08-20 | 山东海量信息技术研究院 | 视觉语言模型训练方法、设备、介质和计算机程序产品 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110895561A (zh) * | 2019-11-13 | 2020-03-20 | 中国科学院自动化研究所 | 基于多模态知识感知的医疗问答检索方法、系统、装置 |
WO2021012878A1 (zh) * | 2019-07-19 | 2021-01-28 | 平安科技(深圳)有限公司 | 医疗领域知识图谱问答处理方法、装置、设备及存储介质 |
CN112992317A (zh) * | 2021-05-10 | 2021-06-18 | 明品云(北京)数据科技有限公司 | 一种医学数据处理方法、系统、设备及介质 |
CN114201592A (zh) * | 2021-12-02 | 2022-03-18 | 重庆邮电大学 | 面向医学图像诊断的视觉问答方法 |
CN114821245A (zh) * | 2022-05-30 | 2022-07-29 | 大连大学 | 一种基于全局视觉信息干预的医学视觉问答方法 |
CN115994212A (zh) * | 2023-03-15 | 2023-04-21 | 阿里巴巴达摩院(杭州)科技有限公司 | 视觉问答处理方法、视觉问答模型的训练方法及装置 |
CN116704272A (zh) * | 2022-02-25 | 2023-09-05 | 复旦大学 | 用于医学视觉-语言多模态任务的文本嵌入表示方法及系统 |
CN116759068A (zh) * | 2023-05-26 | 2023-09-15 | 惠州市中心人民医院 | 针对消化系统的医学视觉问答方法及系统 |
CN116932722A (zh) * | 2023-07-26 | 2023-10-24 | 海南大学 | 一种基于跨模态数据融合的医学视觉问答方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9984772B2 (en) * | 2016-04-07 | 2018-05-29 | Siemens Healthcare Gmbh | Image analytics question answering |
US20210240931A1 (en) * | 2018-04-30 | 2021-08-05 | Koninklijke Philips N.V. | Visual question answering using on-image annotations |
US10949718B2 (en) * | 2019-05-08 | 2021-03-16 | Accenture Global Solutions Limited | Multi-modal visual question answering system |
US11901047B2 (en) * | 2020-10-28 | 2024-02-13 | International Business Machines Corporation | Medical visual question answering |
-
2023
- 2023-12-15 CN CN202311724158.9A patent/CN117407541B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021012878A1 (zh) * | 2019-07-19 | 2021-01-28 | 平安科技(深圳)有限公司 | 医疗领域知识图谱问答处理方法、装置、设备及存储介质 |
CN110895561A (zh) * | 2019-11-13 | 2020-03-20 | 中国科学院自动化研究所 | 基于多模态知识感知的医疗问答检索方法、系统、装置 |
CN112992317A (zh) * | 2021-05-10 | 2021-06-18 | 明品云(北京)数据科技有限公司 | 一种医学数据处理方法、系统、设备及介质 |
CN114201592A (zh) * | 2021-12-02 | 2022-03-18 | 重庆邮电大学 | 面向医学图像诊断的视觉问答方法 |
CN116704272A (zh) * | 2022-02-25 | 2023-09-05 | 复旦大学 | 用于医学视觉-语言多模态任务的文本嵌入表示方法及系统 |
CN114821245A (zh) * | 2022-05-30 | 2022-07-29 | 大连大学 | 一种基于全局视觉信息干预的医学视觉问答方法 |
CN115994212A (zh) * | 2023-03-15 | 2023-04-21 | 阿里巴巴达摩院(杭州)科技有限公司 | 视觉问答处理方法、视觉问答模型的训练方法及装置 |
CN116759068A (zh) * | 2023-05-26 | 2023-09-15 | 惠州市中心人民医院 | 针对消化系统的医学视觉问答方法及系统 |
CN116932722A (zh) * | 2023-07-26 | 2023-10-24 | 海南大学 | 一种基于跨模态数据融合的医学视觉问答方法及系统 |
Non-Patent Citations (2)
Title |
---|
基于多模态知识感知注意力机制的问答方法;张莹莹等;计算机研究与发展;20200515(05);全文 * |
基于特定领域知识的医疗问答系统信息质量预测;胡泽等;智能计算机与应用;20191101(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117407541A (zh) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117407541B (zh) | 一种基于知识增强的知识图谱问答方法 | |
Shen et al. | An introduction to deep learning in medical physics: advantages, potential, and challenges | |
Pandey et al. | Recent deep learning techniques, challenges and its applications for medical healthcare system: a review | |
Wang et al. | Prompt engineering for healthcare: Methodologies and applications | |
CN109918671B (zh) | 基于卷积循环神经网络的电子病历实体关系抽取方法 | |
Ren et al. | Cgmvqa: A new classification and generative model for medical visual question answering | |
US20200118682A1 (en) | Medical diagnostic aid and method | |
Hu et al. | Automatic construction of Chinese herbal prescriptions from tongue images using CNNs and auxiliary latent therapy topics | |
CN107516110A (zh) | 一种基于集成卷积编码的医疗问答语义聚类方法 | |
Dai et al. | Analyzing tongue images using a conceptual alignment deep autoencoder | |
CN115331769B (zh) | 基于多模态融合的医学影像报告生成方法及装置 | |
CN112561064B (zh) | 基于owkbc模型的知识库补全方法 | |
Liu et al. | Heterogeneous graph reasoning for knowledge-grounded medical dialogue system | |
CN112309528B (zh) | 一种基于视觉问答方法的医疗影像报告生成方法 | |
CN113779220A (zh) | 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法 | |
CN113971837B (zh) | 一种基于知识的多模态特征融合的动态图神经手语翻译方法 | |
CN116779091B (zh) | 一种多模态网络互联融合的胸部影像诊断报告自动生成方法 | |
Pan et al. | AMAM: an attention-based multimodal alignment model for medical visual question answering | |
CN113707339A (zh) | 一种多源异质数据库间概念对齐与内容互译方法及系统 | |
CN112765370A (zh) | 知识图谱的实体对齐方法、装置、计算机设备和存储介质 | |
CN114781382A (zh) | 基于rwlstm模型融合的医疗命名实体识别系统及方法 | |
CN113779298B (zh) | 一种基于复合损失的医学视觉问答方法 | |
Wang et al. | Medical visual question answering based on question-type reasoning and semantic space constraint | |
Sun et al. | TSRNet: Diagnosis of COVID-19 based on self-supervised learning and hybrid ensemble model | |
CN116913459B (zh) | 基于深度卷积网络控制门模型的用药推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |