CN115757717A - 一种基于图注意力机制的医疗领域问答算法 - Google Patents
一种基于图注意力机制的医疗领域问答算法 Download PDFInfo
- Publication number
- CN115757717A CN115757717A CN202211368420.6A CN202211368420A CN115757717A CN 115757717 A CN115757717 A CN 115757717A CN 202211368420 A CN202211368420 A CN 202211368420A CN 115757717 A CN115757717 A CN 115757717A
- Authority
- CN
- China
- Prior art keywords
- question
- graph
- knowledge
- node
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于知识图谱的问答系统是问答系统中的一个热门分支,随着社会不断地进步发展,信息时代,人们获取的信息多而杂乱,从互联网上获取的信息往往缺乏精确性,基于知识图谱的问答系统就可以将杂乱繁多的信息整合起来,给出的具有语义理解智能程度高、回答准确性高结果。在已有的基于知识图谱问答系统中,在给定上下文的条件下,目前现有的方法,对于问答对使用语言模型处理,对于知识图谱使用图神经网络进行处理,并且相互之间不更新彼此的嵌入,也不做语义的对齐表示,问答对与知识图谱由于分开表示,限制了模型推理的能力,针对上述问题,本发明提出一种基于GAT‑KBD的医疗领域问答算法,将问答对和知识图谱的信息联合构建图谱,最终取得了更好的效果。
Description
技术领域
本发明属于自然语言处理领域。
背景技术
基于知识图谱的问答系统是问答系统中的一个热门分支,随着社会不断地进步发展,人们对医疗健康的需求也随之提高。且随着互联网技术的发展,人们获取医疗知识和相关信息也越来越方便,然而信息时代,人们获取的信息多而杂乱,从互联网上获取的信息往往缺乏精确性,基于知识图谱的问答系统就可以将杂乱繁多的信息整合起来,给出的具有语义理解智能程度高、回答准确性高、检索准确率高的结果。在已有的基于知识图谱问答系统中,在给定上下文的条件下,目前现有的方法,对于问答对使用语言模型处理,对于知识图谱使用图神经网络(Graph Neural Networks,GNN)进行处理,并且相互之间不更新嵌入,也不做语义的对齐表示。因此问答对与知识图谱由于分开表示,限制了模型推理的能力。
发明内容
本发明提出一种基于图神经网络的医疗领域问答算法。内容如下:
(1)提出了GAT-KBD算法,并给出了相应的总体流程图。
(2)首先本发明构建了医疗领域知识图谱。
(3)然后GAT-KBD算法对知识图谱和问答对进行联接
(4)之后GAT-KBD算法对节点相关性评估
(5)最后给出了GAT-KBD用到的GAT网络架构
附图和附表说明
图1为本发明的算法整体架构图。
图2为本发明的整体流程图。
图3为本发明的知识图谱构建流程图。
具体实施方式
基于知识图谱的问答系统是问答系统中的一个热门分支,随着社会不断地进步发展,人们对医疗健康的需求也随之提高。且随着互联网技术的发展,人们获取医疗知识和相关信息也越来越方便,然而信息时代,人们获取的信息多而杂乱,从互联网上获取的信息往往缺乏精确性,基于知识图谱的问答系统就可以将杂乱繁多的信息整合起来,给出的具有语义理解智能程度高、回答准确性高、检索准确率高的结果。在已有的基于知识图谱问答系统中,在给定上下文的条件下,目前现有的方法,对于问答对使用语言模型处理,对于知识图谱使用图神经网络(Graph Neural Networks,GNN)进行处理,并且并不相互更新彼此的表示,也不做语义的对齐表示。因此问答对与知识图谱由于分开表示,限制了模型推理的能力。本专利提出的GAT-KBD算法可以通过对问答问答对和知识图谱的融合表示,提高问答系统的推理能力,实现对基于知识图谱的问答系统的优化。
下面将会描述该算法的思路,并给出算法的具体步骤。
首先简要分析了目前基于知识图谱的问答系统中存在问答对和知识图谱缺少联系的问题,据此提出解决方案并介绍GAT-KBD算法的设计框架(如图1所示);然后是对GAT-KBD的详细描述,包括构建医疗领域知识图谱,然后给定一个问答对,本发明将其与已经检索到的知识图谱连接起来,形成一个联合图谱,计算在已知上下文的情况下与的每个实体节点的相关性,最终对问题进行推理(如图2所示)。
在图1中,基于图神经网络的医疗领域问答算法(GAT-KBD),首先构建医疗领域知识图谱,对给定的一个问题q和一个答案选项a,我们将它们连接起来以获得问答对[q,a]。为了充分使用语言模型和知识图谱的知识,本文对给定的问答对进行推理,使用语言模型获得问答对的表示,并从知识图谱中检索子图。然后我们引入一个表示问答对的问答对节点,并将其与目标实体连接起来,得到联合问答对和知识图谱的联合图谱,为了更好地捕捉问答对节点和联合图谱中每个其他节点之间的关系,本文使用语言模型为每对节点计算相关性得分,并使用该得分作为每个节点的附加特征。最后使用GNN模块在联合图谱上进行多轮消息传递。
具体步骤如下:
步骤一:构建医疗领域知识图谱
知识图谱的构建形式一般分为自顶向下和自底向上两种方法。如图3所示,本文主要采用的是两种方法相结合的方式,首先采用的是自底向上的方式,从外部数据中抽象出来本体概念,本体的属性等构建一套医疗领域知识图谱,然后再根据现有的知识库做扩充数据,用本体去限制约束数据层,如此循环最终构建一个完善的、内容丰富、数量众多的医疗领域知识图谱。
知识抽取的工作是构建知识图谱的基础,知识抽取就是从相关的半结构化以及结构化的文档或者网页中抽取出所需要的知识,知识抽取的流程一般流程可以简单的分为语义提取、分析关联两个步骤。医疗领域知识图谱的知识抽取具体包括数据的爬虫、数据的预处理、实体、关系以及属性的抽取。为了丰富医疗领域知识图谱知识图谱中的三元组,本文根据获取到的药品和治疗方案采用维基百科抽取到的医疗领域的的语料,并使用医院提供的数据集,采用基于规则和依存句法分析的方法进行知识抽取。最终的知识图谱包括包括药品、菜谱、食物、检查、科室、药企、疾病、症状共八个实体,以及隶属科室、忌口、宜吃、推荐菜谱、同类药品、推荐药品、检查项目、药企制作、疾病症状、伴随病症、治疗科室共十一个属性。并存放在Neo4j数据库中。
步骤二:对知识图谱和问答对进行联接
为了聚合问答对和知识图谱的信息,本文构建了基于问答对和知识图谱的联合图谱。本文引入了一个新的问答对节点z来表示问答对,并定义两种新的关系,rz,q和rz,a,利用这两个新的关系将问答对节点z同知识图谱的子图中的目标节点Vq,a连接起来。本发明定义的两种关系类型能够利用问答对和知识图谱中的相关实体之间的关系,其中,rz,q表示从问题q和知识图谱中的目标节点之间的关系,rz,a表示从回答a和知识图谱中的目标节点之间的关系。最终得到一个融合了问答对信息和知识图谱信息的联合图谱Gw=(Vw,Ew)用于后续的问答推理任务。其中Gw中的节点可分为四类T={Z,Q,A,O},其中Z表示问答对节点Vz、Q表示问题节点V_q、A表示回答节点V_a和O表示其他节点V_o。最后,我们用语言模型将问答对节点Z作初始化嵌入,并对知识图谱的节点作实体嵌入,用Emb(v)和Emb(z)表示。
步骤三:节点相关性评估
在基于知识图谱的医疗领域问答中,知识图谱中的大部分节点其实是与当前问答无关的,比如在问题“静脉曲张患者饮食上应当注意什么?”,备选答案有Va=(白酒,鸡肉,心内科,心脏病),在知识图谱检索中,由问题节点(静脉曲张,饮食)找到了节点(人,医院)这类通用节点,又找到了(肺结核)这一类无关节点,引入不相关或是通用节点会导致引入不必要的推理,最终给出回答的准确率降低。针对此问题,本发明仅采样四跳以内的节点,检索节点数大于1000的局部图谱,并对节点相关性进行量化评估,使用预训练语言模型对问答对下的局部知识图谱节点Vsub的相关性进行评分。对于每个节点V,我们将目标实体嵌入与问答对嵌入连接起来,相关性评估算法如下式所示:
ρv=fhead(fenc([Emb(z);Emb(v)]))
其中,fhead·fenc表示语言模型计算出Emb(v)的概率。这个相关评分ρv能够表示每个节点对于给定一个问答对的重要性,后续节点和链接预测工作。
步骤四:图注意力网络架构
其中表示节点t的邻域,mst∈RD表示从每个邻居节点s到t的消息,αst是将每个消息mst从s扩展到t的注意权重。然后将消息的总和通过2层MLP,并进行批量归一化处理。对于每个节点t∈Vw,本文使用一个线性变换fh来设置利用这一步变换将步骤2中得到的初始节点嵌入映射到RD,当GAT-KBD消息传递在联合图谱中时,它将联合利用和更新问答对和知识图谱的嵌入。
然后,本发明进一步提出嵌入信息mst和注意力αst计算方法。由于联合图谱是一个多关系图,从初始节点传递到目标节点的消息应该聚合它们之间的关系,即边和初始-目标节点类型的关系类型。为此,我们首先得到每个节点t的类型嵌入ut,以及从节点s到节点t的嵌入关系rst如下式所示:
接着计算从s到t的信息如下式所示:
两个节点之间的关联性,是由它们的节点类型、关系和节点相关性评分决定的。我们利用注意力机制获取两个节点之间的关联性,首先通过嵌入每个节点的相关性评分:
ρt=fρ(ρt)
然后得到查询向量q,k用于计算从节点s到节点t的注意力权重αst:
最终得到注意力权重为:
步骤五:推理学习
对于给定的一个问题q和一个答案选项a,GAT-KBD使用问答对和知识图谱的信息来计算a是答案的概率,
p(a|q)∝exp(MLP(zLM,zGAT,g))
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围。凡采用等同替换或等效替换,这些变化是显而易见,一切利用本发明构思的发明创造均在保护之列。
Claims (5)
1.一种基于图注意力机制的医疗领域问答算法,该算法包括以下步骤:
步骤一:构建医疗领域知识图谱
知识图谱的构建形式一般分为自顶向下和自底向上两种方法,本文主要采用的是两种方法相结合的方式,首先采用的是自底向上的方式,从外部数据中抽象出来本体概念,本体的属性等构建一套医疗领域知识图谱,然后再根据现有的知识库做扩充数据,用本体去限制约束数据层,如此循环最终构建一个完善的、内容丰富、数量众多的医疗领域知识图谱;
知识抽取的工作是构建知识图谱的基础,知识抽取就是从相关的半结构化以及结构化的文档或者网页中抽取出所需要的知识,知识抽取的流程一般流程可以简单的分为语义提取、分析关联两个步骤,医疗领域知识图谱的知识抽取具体包括数据的爬虫、数据的预处理、实体、关系以及属性的抽取,为了丰富医疗领域知识图谱知识图谱中的三元组,本文根据获取到的药品和治疗方案采用维基百科抽取到的医疗领域的的语料,并使用医院提供的数据集,采用基于规则和依存句法分析的方法进行知识抽取,最终的知识图谱包括包括药品、菜谱、食物、检查、科室、药企、疾病、症状共八个实体,以及隶属科室、忌口、宜吃、推荐菜谱、同类药品、推荐药品、检查项目、药企制作、疾病症状、伴随病症、治疗科室共十一个属性,并存放在Neo4j数据库中;
步骤二:对知识图谱和问答对进行联接
为了聚合问答对和知识图谱的信息,本文构建了基于问答对和知识图谱的联合图谱,本文引入了一个新的问答对节点z来表示问答对,并定义两种新的关系,rz,q和rz,a,利用这两个新的关系将问答对节点z同知识图谱的子图中的目标节点Vq,a连接起来,本发明定义的两种关系类型能够利用问答对和知识图谱中的相关实体之间的关系,其中,rz,q表示从问题q和知识图谱中的目标节点之间的关系,rz,a表示从回答a和知识图谱中的目标节点之间的关系,最终得到一个融合了问答对信息和知识图谱信息的联合图谱Gw=(Vw,Ew)用于后续的问答推理任务,其中Cw中的节点可分为四类T={Z,Q,A,0},其中Z表示问答对节点Vz、Q表示问题节点V_q、A表示回答节点V_a和0表示其他节点V_o,最后,我们用语言模型将问答对节点Z作初始化嵌入,并对知识图谱的节点作实体嵌入,用Emb(v)和Emb(z)表示;
步骤三:节点相关性评估
在基于知识图谱的医疗领域问答中,知识图谱中的大部分节点其实是与当前问答无关的,比如在问题“静脉曲张患者饮食上应当注意什么?”,备选答案有Va=(白酒,鸡肉,心内科,心脏病),在知识图谱检索中,由问题节点(静脉曲张,饮食)找到了节点(人,医院)这类通用节点,又找到了(肺结核)这一类无关节点,引入不相关或是通用节点会导致引入不必要的推理,最终给出回答的准确率降低,针对此问题,本发明仅采样四跳以内的节点,检索节点数大于1000的局部图谱,并对节点相关性进行量化评估,使用预训练语言模型对问答对下的局部知识图谱节点Vsub的相关性进行评分,对于每个节点V,我们将目标实体嵌入与问答对嵌入连接起来,相关性评估算法如下式所示:
ρv=fhead(fenc([Emb(z);Emb(v)]))
其中,fhead·fenc表示语言模型计算出Emb(v)的概率,这个相关评分ρv能够表示每个节点对于给定一个问答对的重要性,后续节点和链接预测工作;
步骤四:图注意力网络架构
其中表示节点t的邻域,mst∈RD表示从每个邻居节点s到t的消息,αst是将每个消息mst从s扩展到t的注意权重,然后将消息的总和通过2层MLP,并进行批量归一化处理,对于每个节点t∈Vw,本文使用一个线性变换fh来设置利用这一步变换将步骤2中得到的初始节点嵌入映射到RD,当GAT-KBD消息传递在联合图谱中时,它将联合利用和更新问答对和知识图谱的嵌入;
然后,本发明进一步提出嵌入信息mst和注意力αst计算方法,由于联合图谱是一个多关系图,从初始节点传递到目标节点的消息应该聚合它们之间的关系,即边和初始-目标节点类型的关系类型,为此,我们首先得到每个节点t的类型嵌入ut,以及从节点s到节点t的嵌入关系rst如下式所示:
接着计算从s到t的信息如下式所示:
两个节点之间的关联性,是由它们的节点类型、关系和节点相关性评分决定的,我们利用注意力机制获取两个节点之间的关联性,首先通过嵌入每个节点的相关性评分:
ρt=fρ(ρt)
然后得到查询向量q,k用于计算从节点s到节点t的注意力权重αst:
最终得到注意力权重为:
步骤五:推理学习
对于给定的一个问题q和一个答案选项a,GAT-KBD使用问答对和知识图谱的信息来计算a是答案的概率,
p(a|q)∝exp(MLP(zLM,zGAT,g))
2.如权利要求1所述方法,其特征在于,步骤1中使用了复合方法构建。
3.如权利要求1所述方法,其特征在于,步骤2中对已有知识图谱和问答对进行联接,构造了联合图谱,从而能够充分利用知识图谱和问答对中的信息。
4.如权利要求1所述方法,其特征在于,步骤3中仅采样四跳以内的节点,检索节点数大于1000的局部图谱,减缓了无关信息影响问答结果准确性的现象。
5.如权利要求1所述方法,其特征在于,步骤4中使用了图注意力算法作为图神经网络层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211368420.6A CN115757717A (zh) | 2022-11-03 | 2022-11-03 | 一种基于图注意力机制的医疗领域问答算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211368420.6A CN115757717A (zh) | 2022-11-03 | 2022-11-03 | 一种基于图注意力机制的医疗领域问答算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115757717A true CN115757717A (zh) | 2023-03-07 |
Family
ID=85357154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211368420.6A Pending CN115757717A (zh) | 2022-11-03 | 2022-11-03 | 一种基于图注意力机制的医疗领域问答算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115757717A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028613A (zh) * | 2023-03-29 | 2023-04-28 | 上海数字大脑科技研究院有限公司 | 常识问答方法、系统、计算机设备和存储介质 |
CN117290489A (zh) * | 2023-11-24 | 2023-12-26 | 烟台云朵软件有限公司 | 一种行业问答知识库快速构建方法与系统 |
CN117609466A (zh) * | 2023-12-04 | 2024-02-27 | 北方工业大学 | 一种基于大数据分析的语音智能问答系统 |
-
2022
- 2022-11-03 CN CN202211368420.6A patent/CN115757717A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028613A (zh) * | 2023-03-29 | 2023-04-28 | 上海数字大脑科技研究院有限公司 | 常识问答方法、系统、计算机设备和存储介质 |
CN116028613B (zh) * | 2023-03-29 | 2023-06-20 | 上海数字大脑科技研究院有限公司 | 常识问答方法、系统、计算机设备和存储介质 |
CN117290489A (zh) * | 2023-11-24 | 2023-12-26 | 烟台云朵软件有限公司 | 一种行业问答知识库快速构建方法与系统 |
CN117290489B (zh) * | 2023-11-24 | 2024-02-23 | 烟台云朵软件有限公司 | 一种行业问答知识库快速构建方法与系统 |
CN117609466A (zh) * | 2023-12-04 | 2024-02-27 | 北方工业大学 | 一种基于大数据分析的语音智能问答系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ihnaini et al. | A smart healthcare recommendation system for multidisciplinary diabetes patients with data fusion based on deep ensemble learning | |
Grampurohit et al. | Disease prediction using machine learning algorithms | |
CN112131393B (zh) | 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法 | |
CN115757717A (zh) | 一种基于图注意力机制的医疗领域问答算法 | |
CN111666477B (zh) | 一种数据处理方法、装置、智能设备及介质 | |
US20190035505A1 (en) | Intelligent triage server, terminal and system based on medical knowledge base (mkb) | |
Mansingh et al. | Using ontologies to facilitate post-processing of association rules by domain experts | |
CN112102937A (zh) | 一种慢性病辅助决策的患者数据可视化方法及系统 | |
US11640403B2 (en) | Methods and systems for automated analysis of behavior modification data | |
CN104516942A (zh) | 概念驱动的自动分节标识 | |
CN110838368A (zh) | 一种基于中医临床知识图谱的机器人主动问诊方法 | |
CN114072782A (zh) | 问题推荐方法及装置、系统和电子设备、可读存储介质 | |
CN109213871A (zh) | 患者信息知识图谱构建方法、可读存储介质和终端 | |
CN109147954A (zh) | 基于知识图谱的患者信息处理装置 | |
Kaur et al. | Food image-based nutritional management system to overcome polycystic Ovary Syndrome using DeepLearning: A systematic review | |
CN112598563A (zh) | 一种基于知识图谱的智慧城市数据构建方法 | |
CN114676233A (zh) | 基于骨骼肌知识图谱的医疗自动问答方法 | |
Gu et al. | Discovering and visualizing knowledge evolution of chronic disease research driven by emerging technologies | |
Lu et al. | Chinese clinical named entity recognition with word-level information incorporating dictionaries | |
CN114334179A (zh) | 一种数字化医疗管理方法和系统 | |
Yuan et al. | Efficient symptom inquiring and diagnosis via adaptive alignment of reinforcement learning and classification | |
Bisercic et al. | Interpretable medical diagnostics with structured data extraction by large language models | |
US20230316095A1 (en) | Systems and methods for automated scribes based on knowledge graphs of clinical information | |
CN117253629A (zh) | 导医信息推送方法、装置、设备、介质和计算机程序产品 | |
Li et al. | Personalized intelligent syndrome differentiation guided by TCM consultation philosophy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |