CN117407541B

CN117407541B - 一种基于知识增强的知识图谱问答方法

Info

Publication number: CN117407541B
Application number: CN202311724158.9A
Authority: CN
Inventors: 张信明; 凌海锋
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-03-29
Anticipated expiration: 2043-12-15
Also published as: CN117407541A

Abstract

本发明公开了一种基于知识增强的知识图谱问答方法，包括：将目标图像、目标问题输入到已训练完成的医学视觉语言模型中；将目标图像通过图像编码器编码得到目标图像特征，将目标问题通过文本编码器编码得到目标语言特征；基于目标图像特征与预训练后医学视觉语言模型的知识表示池中图像特征表示之间的相似度得分，结合知识表示池中的知识特征表示得到目标图像知识表示；基于跨模态注意力融合机制融合目标图像知识表示、目标图像特征和目标语言特征，以输出知识增强的多模态表示特征；将多模态表示特征输入到答案分类器中以输出与目标问题对应的医学回答；该知识图谱问答方法提高了医学视觉语言模型对输入问题的输出准确度。

Description

一种基于知识增强的知识图谱问答方法

技术领域

本发明涉及知识问答技术领域，尤其涉及一种基于知识增强的知识图谱问答方法。

背景技术

几年来，随着人工智能技术的飞速发展，深度学习在医学领域的应用大大增加。医疗信息化的快速发展以及医疗设备的更新迭代使得海量且类型多样的医学数据产生。在各种类型的医学数据中，医学图像和医学文本是医学数据里面比较重要和常见的两种模态的数据。医学图像包括X射线图像、核磁共振成像（MRI）、CT图像、超声图像等影像数据，医学文本包括放射性图像报告、医生诊断报告等。因为各种通用领域视觉语言模型的出现以及这些模型在视觉和语言多模态任务上的出色表现，人们开始把视觉语言模型运用到医学领域上。医学视觉语言模型通过同时处理这两种模态的医学数据，能够挖掘两种数据之间的关系以及生成多模态特征表示，为医学领域的各种视觉语言任务提供支撑。

医学视觉语言模型对处理各种多模态视觉任务具有重要意义，这些任务涉及计算机视觉、自然语言处理以及医学等多个领域，如医学视觉问答任务。医学视觉问答任务是模型根据一张给定的医学图像，给出与输入的问题相匹配的正确答案。在医学领域，这对于医生和病人来说都很有意义，医生可以利用医学视觉语言模型来辅助自己做决策，减少误诊的概率，提高医生的工作效率，病人能利用医学视觉语言模型来解释医学图像，以此来粗略了解自己身体的健康程度，最终能加快病人的治愈。

对于医学视觉语言模型，如何提高模型的性能和泛化能力是一个非常重要的问题，也是一个当前亟待解决的问题。

发明内容

基于背景技术存在的技术问题，本发明提出了一种基于知识增强的知识图谱问答方法，提高了医学视觉语言模型的准确度。

本发明提出的一种基于知识增强的知识图谱问答方法，包括如下步骤：

S100：将目标图像、目标问题输入到已训练完成的医学视觉语言模型中，所述医学视觉语言模型包括视觉编码器、文本编码器、跨模态注意力融合机制和答案分类器；

S200：将目标图像通过图像编码器编码得到目标图像特征，将目标问题通过文本编码器编码得到目标语言特征；

S300：计算目标图像特征与预训练后医学视觉语言模型的知识表示池中图像特征表示之间的相似度得分，将按降序排列的前个相似度得分的加权相加并结合知识表示池中知识特征表示得到目标图像知识表示；

S400：基于跨模态注意力融合机制融合目标图像知识表示、目标图像特征和目标语言特征，以输出知识增强的多模态表示特征；

S500：将多模态表示特征输入到答案分类器中以输出与目标问题对应的医学回答；

所述医学视觉语言模型的预训练过程如下：

S1：构建预训练数据集，提取训练数据集中所有医学文本中的医学实体，将医学实体链接到知识库中得到知识图谱子图，对知识图谱子图使用图表示学习的方法得到所有医学实体的嵌入表示，基于所有医学实体的嵌入表示构建知识实体集，所述预训练数据集包括医学图像、知识实体集和医学文本；

S2：使用视觉编码器、文本编码器、知识编码器分别对医学图像、医学文本、知识实体集进行编码得到视觉表示、语言表示/>和知识表示/>；

S3：使用基于跨模态注意力融合机制融合视觉表示、语言表示/>和知识表示/>，得到基于知识增强的视觉多模态表示特征/>和语言多模态表示特征/>，医学视觉语言模型预训练结束后，基于视觉表示/>和知识表示构建知识表示池P，P的组织形式为(/>，其中/>为图像特征表示，/>为知识特征表示，/>表示序号，/>，/>为知识表示池P的大小。

进一步地，在步骤S2中，具体包括：

基于跨模态注意力融合机制融合视觉表示、语言表示/>和知识表示/>，得到知识增强的视觉表示特征/>和语言表示特征/>；

基于跨模态注意力融合机制融合视觉表示特征和语言表示特征/>，得到基于知识增强的视觉多模态表示特征/>和语言多模态表示特征/>；

其中，视觉表示特征、语言表示特征/>、视觉多模态表示特征/>和语言多模态表示特征/>的计算公式如下：

其中，表示注意力机制，/>分别表示参量，/>表示激活函数，/>表示转置操作，/>表示/>的维度，/>分别对应/>、/>、/>或者/>，/>分别对应/>、/>、或者/>，/>分别对应/>、/>、/>或者/>。

进一步地，利用掩码图像建模、掩码语言建模以及对比学习任务对预训练的医学视觉语言模型进行约束，以构建预训练医学视觉语言模型的总损失函数，具体为：

利用掩码图像建模随机掩盖一部分医学图像，基于预训练的医学视觉语言模型预测以可见医学图像为条件的掩盖医学图像部分；

基于给定的知识库，利用掩码语言建模随机掩盖部分医学文本中的医学实体，根据上下文信息重建该部分医学实体；

基于对比学习任务缩小同类数据的特征距离，扩大不同类数据的特征距离，所述同类数据为医学图像和医学图像对应的医学文本。

进一步地，在基于对比学习任务缩小同类数据的特征距离，扩大不同类数据的特征距离中，具体为：

对于相似的医学图像和医学图像/>以及对应相似的医学文本/>和医学文本/>；

当两个数据对（），（/>）的知识特征表示的相似度得分/>大于一个阈值时，认为数据对（/>，/>），（/>，/>）构成一个正样本对，所述正样本对对应于同类数据。

进一步地，医学视觉语言模型预训练的总损失函数公式如下：

其中，表示掩码图像建模的损失函数，/>表示掩码语言建模的损失函数，表示对比学习任务的损失函数；

其中，表示表使得医学视觉语言模型提高预测掩盖医学图像成功的概率，表示掩盖的医学图像部分，/>表示未被掩盖的医学图像部分，/>表示输入的医学图像，/>表示医学文本，/>表示使医学视觉语言模型提高预测掩盖医学实体成功的概率，表示掩盖的医学实体部分，/>表示未掩盖的医学实体部分，/>表示两个知识特征表示/>之间的相似度/>得分，/>分别表示两个不同数据对对应的知识特征表示，/>表示求期望，/>表示知识表示池的大小。

进一步地，对预训练后的医学视觉语言模型进行训练，过程如下：

构建一个训练样本集，所述训练样本集包括训练图像和训练问题；

将训练图像通过步骤S2的视觉编码器编码得到训练视觉表示，将训练问题通过步骤S2的文本编码器编码得到训练语言表示/>；

计算训练视觉表示与图像特征表示/>之间的相似度得分，所述图像特征表示/>为步骤S3得到的知识表示池中的特征；

将按降序排列的前个相似度得分的加权相加并结合知识特征表示/>得到训练知识表示/>，所述知识特征表示/>为步骤S3得到的知识表示池中的特征；

将训练视觉表示、训练知识表示、训练语言表示输入到预训练后的医学视觉语言模型中，使用基于跨模态注意力融合机制融合输出视觉多模态表示特征和语言多模态表示特征；

将视觉多模态表示特征和语言多模态表示特征输送到答案分类器中以输出与训练问题对应的医学回答。

进一步地，训练知识表示的计算公式如下：

其中，表示按降序排列的前/>个相似度得分，/>表示训练视觉表示/>与图像特征表示/>之间相似度得分，/>表示乘积。

进一步地，在步骤S1中，对知识图谱子图使用图表示学习的方法得到所有医学实体的嵌入表示具体为：

使用TranE初步学习知识图谱子图的表征语义信息；

然后使用图注意力网络聚集知识图谱子图中节点的邻居局部信息，挖掘实体和关系的语义信息，得到各个医学实体的嵌入表示。

本发明提供的一种基于知识增强的知识图谱问答方法的优点在于：本发明结构中提供的一种基于知识增强的知识图谱问答方法，该知识图谱问答方法通过引入了外部知识来增强医学视觉语言模型的性能，通过知识增强的对比学习来预训练医学视觉语言模型的方式能更好地挖掘数据间的相似性特征，另外通过医学视觉语言模型维护一个知识表示池能把训练好的医学视觉语言模型迁移到医学视觉问答任务中，提高了模型的准确度。

附图说明

图1为本发明的流程示意图；

图2为医学视觉语言模型的结构示意图；

图3为利用知识表示池进行知识表示计算的示意图。

具体实施方式

下面，通过具体实施例对本发明的技术方案进行详细说明，在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。

如图1至3所示，本发明提出的一种基于知识增强的知识图谱问答方法，包括如下步骤S100至S500：

S300：计算目标图像特征与预训练后医学视觉语言模型的知识表示池中图像特征表示之间的相似度得分，将按降序排列的前个相似度得分的加权相加并结合知识表示池中的知识特征表示得到目标图像知识表示；

S500：将多模态表示特征输入到答案分类器中以输出与目标问题对应的医学回答。

该知识图谱问答方法通过引入了外部知识来增强医学视觉语言模型的性能，通过知识增强的对比学习来训练医学视觉语言模型的方式能更好地挖掘数据间的相似性特征，另外通过医学视觉语言模型维护一个知识表示池能把训练好的医学视觉语言模型迁移到医学视觉问答任务中，提高模型的准确度。

本实施例中的医学视觉语言模型可以更好地促进医学视觉语言模型捕捉医学图像和医学文本的语义特征，并通过加强两种模态数据之间的交互来提高医学视觉语言模型具有更好的泛化能力和可解释性，提高模型在医学视觉问答任务中的性能，在本实施例中，首先对医学视觉语言模型进行一定的预训练，并通过掩码图像建模、掩码语言建模以及对比学习任务对预训练的医学视觉语言模型进行训练调整，进而构建预训练医学视觉语言模型的总损失函数，从而在医学视觉语言模型预训练结束后，构建一个知识表示池，该知识表示池的作用是构建目标图像的知识表示；然后对预训练后的医学视觉语言模型进行再次训练，使得医学语言模型能够对输入的训练图像、训练问题以及构建的知识表示池进行融合后输出较为准确的医学回答，从而在医学语言模型实际使用过程中，目标图像和目标问题作为医学语言模型的输入时，通过将目标图像、目标问题和模型维护的知识表示池之间的高效融合，从而输出较为准确的医学回答。以下具体说明医学视觉语言模型。

（A）医学视觉语言模型的预训练

本实施例中对于医学视觉语言模型的预训练过程如下S1至S4。

提取预训练数据集中所有医学文本中的医学实体使用的方法是命名实体识别技术，然后将其链接到知识库中对应的正确实体对象。所使用的知识库是一体化医学语言系统，包含了大量结构化的医学专家知识，其知识的组织形式是一个包含相关信息的三元组（头实体，关系，尾实体），这种引入结构化的外部医学领域专家知识来增强医学视觉语言模型，能够更好地引导图像模态特征和文本模态特征对齐。

抽取医学实体后得到一个知识图谱子图，使用图表示学习的方法学习知识图谱子图中医学实体和关系的嵌入表示。常用的图学习方法包括TransE、GCN、GAT等，具体为，先使用TranE/ GCN/GAT初步学习该知识图谱子图的表征语义信息，然后使用图注意力网络聚集图中节点的邻居局部信息，进一步挖掘实体和关系的语义信息，得到各个医学实体的嵌入表示。

常用的视觉编码器有ResNet、VGGNet、Faster R-CNN、ViT-B等，常用的文本编码器包括BERT、LSTM、BiLSTM、GRU、RoBERTa-base等。

例如：使用视觉编码器ViT-B来对医学图像进行编码，使用文本编码器RoBERTa-base对医学文本进行编码。知识实体表示集合的形式为，其中/>为该医学文本中抽取到的医学实体的数目，/>为步骤S1中图表示学习得到的关于第/>个医学实体的嵌入表示。使用基于3层全连接层和一层自注意力网络层组成的神经网络对知识实体表示集合进行编码，得到所有医学实体的嵌入表示，这些医学实体的嵌入表示组成知识实体集/>。

S3：使用基于跨模态注意力融合机制融合视觉表示、语言表示/>和知识表示/>，得到基于知识增强的视觉多模态表示特征/>和语言多模态表示特征/>，医学视觉语言模型预训练结束后，基于视觉表示/>和知识表示/>构建知识表示池P，P的组织形式为(/>，其中/>为图像特征表示，/>为知识特征表示，/>表示序号，/>，/>为知识表示池P的大小；

和/>这两个特征是一个向量，/>代表以视觉为基本特征，融合了语言表示特征和知识表示的一个多模态表示特征。/>代表以语言为基本特征，融合了视觉表示特征和知识表示的一个多模态表示特征。

需要说明的是，预训练的目的是为了让医学视觉语言模型学习如何从医学图像、医学文本、知识实体集中提取特征，以及学习挖掘这些特征的关系来完成特征的融合。知识表示池的建立是在医学视觉语言模型完成了预训练后才构建的，它是对医学图像经过了图像编码器后的视觉表示和知识实体集经过了知识编码器后的知识表示/>的一个集合汇总，即P的组织形式为(/>，根据/>取值不同，对应不同的视觉表示/>和知识表示/>。

本发明实例提供的医学视觉语言模型的结构是基于跨模态注意力融合机制。跨模态注意力模块是基于Transformer层实现的，每个模块由多个Transformer层组成。跨模态注意力融合机制为利用注意力机制来促进不同模态之间的两两交互以此来挖掘它们之间的关系和融合它们的特征信息。具体表现为对于步骤S2得到的视觉表示/>、语言表示/>和知识表示/>，利用跨模态注意力机制得到知识增强的视觉表示特征/>和语言表示特征/>，再对这两种（/>和/>）表示使用跨模态注意力机制，最终得到基于知识增强的视觉多模态表示特征/>和语言多模态表示特征/>，其计算公式如下：

其中，表示注意力机制，/>分别表示参量，/>表示激活函数，/>表示转置操作，/>表示/>的维度，在计算/>时，/>对应/>，/>对应/>，/>分别对应/>，/>对应/>；在计算/>时，/>对应/>，/>对应/>，/>对应/>；在计算/>时，/>对应/>，/>对应/>，/>对应/>；在计算/>时，/>对应/>，/>对应/>，/>对应/>。

在步骤S1至S3中对医学视觉语言模型进行预训练过程中，利用掩码图像建模、掩码语言建模以及对比学习任务对预训练医学视觉语言模型进行约束，基于掩码图像建模、掩码语言建模以及对比学习任务分别对应的损失函数构建医学视觉语言模型的总损失函数，具体为（a1）至（a3）：

（a1）利用掩码图像建模随机掩盖一部分医学图像，基于神经网络模型预测以可见医学图像为条件的掩盖医学图像部分；

掩码图像建模任务为掩盖一部分输入医学图像，让预训练的医学视觉语言模型来预测以可见医学图像为条件的掩盖部分，促进模型学习医学图像的特征；掩码图像建模的损失函数为：

其中，表示表使得医学视觉语言模型提高预测掩盖医学图像成功的概率，表示掩盖的医学图像部分，/>表示未被掩盖的医学图像部分，/>表示输入的医学图像，/>表示医学文本。

（a2）基于给定的知识库，利用掩码语言建模随机掩盖部分医学文本中的医学实体，根据上下文信息重建该部分医学实体；

基于给定的知识库，利用掩码语言建模随机掩盖部分医学文本中的掩码语言建模任务是根据给定的知识库，随机掩盖医学文本中的医学实体，然后根据上下文信息重建该部分实体，促进模型关注医学知识实体，理解关键的医学语义信息；对于输入医学图像和医学文本/>，掩码语言建模的损失函数如下：

其中，表示使医学视觉语言模型提高预测掩盖医学实体成功的概率，/>表示掩盖的医学实体部分，/>表示未掩盖的医学实体部分。

（a3）基于对比学习任务缩小同类数据的特征距离，扩大不同类数据的特征距离；

其中，在医学视觉语言模型种，比较的数据是医学图像和医学文本。同类数据指的是一张医学图像与其对应的医学文本，或者是该医学图像与经过知识表示筛选后的相似的医学文本。不同类数据指的是一张医学图像与没有多大关系的医学文本。

对比学习任务为缩小同类数据的特征距离，扩大不同类数据的特征距离。具体表现为对于医学图像及其对应医学文本/>，和其它医学图像/>、医学文本/>，有：

即正样本对之间的相似度score得分远大于负样本对之间的相似度得分。本发明使用基于知识增强改进的对比学习，传统的对比学习只把数据集中的匹配的医学图像和医学文本对当成正样本，忽视了数据集中存在相似的医学图像、/>或相似的医学文本/>、，直接把（/>，/>），（/>，/>）当成负样本会忽略一定的语义信息，利用知识表示扩展正样本对，当两个数据对（/>，/>），（/>，/>）的知识表示的相似度得分/>大于一个阈值时，会认为（/>，/>），（/>，/>）也构成一个正样本对，以此来更细粒度地挖掘数据之间的相似性特征，其中相似度得分使用欧拉距离来衡量，阈值设定为0.8；对比学习任务的损失函数如下：。

其中，表示两个知识特征表示/>之间的相似度/>得分，/>分别表示两个不同数据对对应的知识特征表示，/>表示求期望，/>表示知识表示池的大小。

（a4）医学视觉语言模型的总损失函数为：

其中，表示掩码图像建模的损失函数，/>表示掩码语言建模的损失函数，表示对比学习任务的损失函数。

（B）对预训练后的医学视觉语言模型继续训练，以将预训练后医学视觉语言模型所维护的知识表示池迁移到医学视觉问答任务，从而提高了医学视觉语言模型基于目标图像和目标问题作为输入时，输出医学回答的准确性。

（b1）构建一个训练样本集，所述训练样本集包括训练图像和训练问题；

在对预训练后的医学视觉语言模型进行继续训练时，此时医学视觉语言模型中已经存在一个待维护的知识表示池，本发明设计的知识表示池P的组织形式为(，其中为图像特征表示，/>为其对应的知识特征表示，/>，N为知识表示池的大小，取决于训练数据集的大小。/>特征表示由步骤S3训练好的医学视觉语言模型得到。

（b2）将训练图像通过步骤S2的视觉编码器编码得到训练视觉表示，将训练问题通过步骤S2的文本编码器编码得到训练语言表示/>；

训练视觉表示和训练语言表示/>的得到过程与步骤S2中视觉表示/>和语言表示/>的得到过程是一致的，可以采用同一视觉编码器和文本编码器进行处理。

（b3）计算训练视觉表示与图像特征表示/>之间的相似度得分，所述图像特征表示/>为步骤S3得到的知识表示池中的特征；

（b4）将按降序排列的前个相似度得分的加权相加并结合知识特征表示/>得到训练知识表示/>，所述知识特征表示/>为步骤S3得到的知识表示池中的特征；

具体为：对于输入，使用步骤S2中的视觉编码器ViT-B，得到验证视觉表示/>，对于知识表示池中/>，计算相似度得分，使用得分前/>的加权相加得到验证知识表示：

其中，表示按降序排列的前/>个相似度得分，/>表示训练视觉表示/>与图像特征表示/>之间相似度得分，/>表示乘积；/>由人工设定，根据实验效果进行调整，此案例可以设置为20。然后再使用这些特征表示，根据医学视觉问答任务对医学视觉语言模型进行微调和推理。本发明实例提供的利用知识表示池进行知识表示计算的示意图如图3所示。

（b5）将训练视觉表示、训练知识表示、训练语言表示输入到预训练后的医学视觉语言模型中，使用基于跨模态注意力融合机制融合输出视觉多模态表示特征和语言多模态表示特征；

在基于跨模态注意力融合机制在将训练视觉表示、训练知识表示、训练语言表示进行融合时，可以通过步骤S3中的融合方式，可以将训练知识表示与知识实体集对应，将训练视觉表示与视觉表示对应，将训练语言表示与语言表示/>对应，这种对应下，可以通过步骤S3中的融合公式直接计算得到训练视觉表示、训练知识表示、训练语言表示的融合结果。

（b6）将视觉多模态表示特征和语言多模态表示特征输送到答案分类器中以输出与训练问题对应的医学回答。

通过（b1）至（b6）对预训练后的医学视觉语言模型进行再次训练，从而维护预训练后的知识表示池，进而在对医学视觉语言模型实际使用过程中，可以通过与较为准确的知识表示池之间的计算融合得到较为准确的医学回答，从而为医生对患者病情准确评估提供了有力支撑。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于知识增强的知识图谱问答方法，其特征在于，包括如下步骤：

所述医学视觉语言模型的预训练过程如下：

S1：构建预训练数据集，提取预训练数据集中所有医学文本中的医学实体，将医学实体链接到知识库中得到知识图谱子图，对知识图谱子图使用图表示学习的方法得到所有医学实体的嵌入表示，基于所有医学实体的嵌入表示构建知识实体集，所述预训练数据集包括医学图像、知识实体集和医学文本；

S3：基于跨模态注意力融合机制融合视觉表示、语言表示/>和知识表示/>，得到基于知识增强的视觉多模态表示特征/>和语言多模态表示特征/>，医学视觉语言模型预训练结束后，基于视觉表示/>和知识表示/>构建知识表示池P，P的组织形式为(/>，其中/>为图像特征表示，/>为知识特征表示，/>表示序号，/>，/>为知识表示池P的大小。

2.根据权利要求1所述的基于知识增强的知识图谱问答方法，其特征在于，在步骤S3中，具体包括：

其中，表示注意力机制，/>分别表示参量，/>表示激活函数，/>表示转置操作，/>表示/>的维度，/>分别对应/>、/>、/>或者/>，/>分别对应/>、/>、/>或者/>，/>分别对应/>、/>、/>或者/>。

3.根据权利要求1所述的基于知识增强的知识图谱问答方法，其特征在于，利用掩码图像建模、掩码语言建模以及对比学习任务对预训练的医学视觉语言模型进行约束，以构建预训练医学视觉语言模型的总损失函数，具体为：

4.根据权利要求3所述的基于知识增强的知识图谱问答方法，其特征在于，在基于对比学习任务缩小同类数据的特征距离，扩大不同类数据的特征距离中，具体为：

当两个数据对（），（/>）的知识特征表示的相似度得分/>大于一个阈值时，认为数据对（/>，/>），（/>，/>）都构成正样本对，所述正样本对对应于同类数据。

5.根据权利要求3所述的基于知识增强的知识图谱问答方法，其特征在于，医学视觉语言模型预训练的总损失函数公式如下：

其中，表示掩码图像建模的损失函数，/>表示掩码语言建模的损失函数，/>表示对比学习任务的损失函数；

其中，表示使得医学视觉语言模型提高预测掩盖医学图像成功的概率，/>表示掩盖的医学图像部分，/>表示未被掩盖的医学图像部分，/>表示输入的医学图像，/>表示医学文本，/>表示使医学视觉语言模型提高预测掩盖医学实体成功的概率，/>表示掩盖的医学实体部分，/>表示未掩盖的医学实体部分，/>表示两个知识特征表示/>之间的相似度/>得分，/>分别表示两个不同数据对对应的知识特征表示，/>表示求期望，/>表示知识表示池的大小。

6.根据权利要求1所述的基于知识增强的知识图谱问答方法，其特征在于，对预训练后的医学视觉语言模型继续进行训练，过程如下：

将训练视觉表示、训练知识表示、训练语言表示输入到预训练后的医学视觉语言模型中，基于跨模态注意力融合机制融合输出视觉多模态表示特征和语言多模态表示特征；

7.根据权利要求6所述的基于知识增强的知识图谱问答方法，其特征在于，训练知识表示的计算公式如下：

其中，表示按降序排列的前/>个相似度得分，/>表示训练视觉表示与图像特征表示/>之间相似度得分，/>表示乘积。

8.根据权利要求3所述的基于知识增强的知识图谱问答方法，其特征在于，在步骤S1中，对知识图谱子图使用图表示学习的方法得到所有医学实体的嵌入表示具体为：

使用TranE初步学习知识图谱子图的表征语义信息；