CN112148851A - 一种基于知识图谱的医药知识问答系统的构建方法 - Google Patents
一种基于知识图谱的医药知识问答系统的构建方法 Download PDFInfo
- Publication number
- CN112148851A CN112148851A CN202010940684.9A CN202010940684A CN112148851A CN 112148851 A CN112148851 A CN 112148851A CN 202010940684 A CN202010940684 A CN 202010940684A CN 112148851 A CN112148851 A CN 112148851A
- Authority
- CN
- China
- Prior art keywords
- question
- graph
- knowledge
- entity
- medicine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003814 drug Substances 0.000 title claims abstract description 81
- 238000010276 construction Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 6
- 208000024891 symptom Diseases 0.000 claims description 42
- 201000010099 disease Diseases 0.000 claims description 41
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 41
- 235000013305 food Nutrition 0.000 claims description 34
- 230000004044 response Effects 0.000 claims description 16
- 238000012800 visualization Methods 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 4
- 230000000007 visual effect Effects 0.000 abstract 2
- 238000004140 cleaning Methods 0.000 abstract 1
- 229940079593 drug Drugs 0.000 description 26
- 238000000605 extraction Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 201000005569 Gout Diseases 0.000 description 3
- 230000003449 preventive effect Effects 0.000 description 3
- 235000014102 seafood Nutrition 0.000 description 3
- 238000002560 therapeutic procedure Methods 0.000 description 3
- 206010067484 Adverse reaction Diseases 0.000 description 2
- 230000006838 adverse reaction Effects 0.000 description 2
- 239000000306 component Substances 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 235000005911 diet Nutrition 0.000 description 2
- 230000037213 diet Effects 0.000 description 2
- 239000002552 dosage form Substances 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 208000015181 infectious disease Diseases 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 206010015218 Erythema multiforme Diseases 0.000 description 1
- 208000010201 Exanthema Diseases 0.000 description 1
- 241000287420 Pyrus x nivalis Species 0.000 description 1
- 208000024780 Urticaria Diseases 0.000 description 1
- 229960001138 acetylsalicylic acid Drugs 0.000 description 1
- 125000003118 aryl group Chemical group 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000013339 cereals Nutrition 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 201000005884 exanthem Diseases 0.000 description 1
- 230000005802 health problem Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 206010037844 rash Diseases 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于知识图谱的医药知识问答系统的构建方法,首先,从相关医学网站上抽取医药知识,经过数据清洗和加工,构建为医药知识图谱;其次,将用户输入的自然语言问句经过语句分析,识别出命名实体,以及实体之间的关系,进一步将自然语言问句转化成语义查询图,利用子图同构匹配方式在医药知识图谱中查找问题答案;最后,将问题答案以可视化的方式反馈给用户。本发明能够有效的提高医药知识答案的检索准确率,以可视化的方式向用户提供医药知识答案,便于用户可以更直观地对答案进行理解。
Description
技术领域
本发明涉及医药技术领域,尤其是一种基于知识图谱的医药知识问答系统的构建方法。
背景技术
近年来,随着社会的发展和科技的进步,人们对健康问题愈加重视,对医疗药品的使用也愈发谨慎。为了让用户能快速便捷地获取到具有针对性的医药知识,通常以知识问答系统的形式向用户提供服务。
目前,医药知识问答领域已有较多研究进展。黄魏龙提出利用Word2Vec网络训练词向量并结合TextCNN问题分类算法构建问题分类模块对用户问题进行预分类,并引入基于双向长短时记忆网络的启发式扩展实体检测和基于相似矩阵匹配的AR-SMCNN关系检测算法结合知识库寻找问题答案,该方法相比于简单的文字匹配获得了更好的效果(基于深度学习的医药知识问答系统构建研究[D].华中科技大学,2019)。陈梅梅通过知识抽取构建医疗知识图谱,并使用实体识别和基于长短期记忆(LSTM)网络结构的属性链接算法计算问题意图和相关属性之间的对应程度,以此实现医疗问答(“基于知识图谱的医疗问答系统设计与实现”[D].厦门大学,2019)。Mourad Sarrouti提出了一个SemBioNLQA的语义生物医学问答系统,该系统以自然语言作为输入,以简短而精确的答案和摘要作为输出,系统主要使用lexico-syntactic模式和问题分类的机器学习算法对自然语言问题分类,进一步使用PubMed搜索引擎进行相似文档检索,并利用BM25模型对文章检索,最后对答案进行提取。(“SemBioNLQA:A semantic biomedical question answering system for retrievingexact and ideal answers to natural language questions”[J],ArtificialIntelligence in Medicine,2020)。申请号为CN202010222744.3的发明专利“一种基于词嵌入匹配技术的知识图谱问答方法及装置”通过获取用户输入问句并对问句预处理;将处理后的问句送入实体标注模块标注主实体;将问句送入词嵌入匹配模块查询最优主实体;将问句送入关系抽取模块获取关系信息;将最优主实体与关系信息送入客实体查询模块,在知识图谱数据库中进行客实体查询,找到对应的客实体;根据查询的最优主实体、关系信息和客实体,获取问句对应的答案。该发明通过加入词嵌入匹配模块,与知识图谱中的各个实体的表示特征进行欧式距离的计算,从而辅助主实体的选择,解决传统模型在实体标注时易产生错误,难以得到准确有效的答案的问题;申请号为CN202010029333.2的发明专利“一种基于深度网络和文本相似度的自动问答方法及装置”通过根据多个深度卷积神经网络对提问语料集进行编码,获得所述提问语料集的语义特征向量;判断所述提问语料集中问题与相似问题或非相似问题的固有关系,并确定问题与相似问题和问题与非相似问题的两对向量组合;根据三角函数计算所述问题与所述相似问题的第一向量距离和所述问题与所述非相似问题的第二向量距离,确定所述第一向量距离与所述第二向量距离的距离差;根据所述距离差设计损失函数,将所述距离差输入所述损失函数训练所述提问语料集,获得量化问法间相似度模型,达到了在积累数据量不足的情况下,可以完成自动问答的功能。
综上所述,现有技术主要存在以下2个问题:
(1)现有的问答系统多采用问题模板的形式,通过事先预设一些问题模板,符合模板的问题可被准确回答。然而问题是多种多样,通过设置问题模板涵盖的问题是十分有限的,通过预设问题模板的问答系统存在效率低下的问题。
(2)现有的智能问答系统多用深度学习模型,需要训练大量的语料,当数据量不足以支撑训练时,得到的答案存在不准确的情况。
要实现高质量的医药知识问答,其核心在于建立药品与适应症之间的关联关系,以及利用关联关系进行准确回答。知识图谱是结构化的语义信息知识库,其通过对错综复杂的数据进行有效的加工、处理、整合,转化为清楚的“实体-关系-实体”三元组,从而实现知识的快速响应和推理。通过构建医药知识图谱用户可通过查询引擎进行基于语义的检索,对所需知识精确定位,提高检索质量。
发明内容
本发明要解决的技术问题是:为了克服现有技术中之不足,本发明提供一种基于知识图谱的医药知识问答系统的构建方法,通过所建立的合适的医药问答系统帮助用户在适应症和药品之间进行相互的精确检索以达到“对症下药”及“合理用药”的目的。
本发明解决其技术问题所采用的技术方案是:一种基于知识图谱的医药知识问答系统的构建方法,所述问答系统包括:
用户客户端,用于用户访问医药知识问答系统输入自然语言问句;数据服务器用于存储和管理系统所有的数据,包括关键数据——医药知识图谱;响应服务器用于为用户系统操作、可视化的问题答案展示。
所述的构建方法包括以下步骤:
S1、从医学网站上抽取相关的医学知识通过数据预处理转化成结构化的知识构建医药知识图谱,医药知识图谱存储于数据服务器,用于支持响应服务器端医药知识可视化和问题答案检索;
S2、响应服务器上的医药知识问答系统首先将用户输入的问句通过jieba分词,识别出问句中的命名实体和实体关系,进一步结合句法依存树将自然语言问句转化成语义查询图;然后访问数据服务器端的医药知识图谱,运用子图匹配的方式进行答案检索;当系统无法精确匹配问题答案时,利用相似度寻找同一上位概念框架下的相似命名实体,给出相似问题答案;
S3、将检索到的答案以图谱可视化的方式反馈给用户客户端。
具体说,所述步骤S1中医药知识图谱的构建,具体包括以下步骤:
S1.1、将医药信息映射到药品实体及其属性;所述医药信息包括:药品信息、症状信息、疾病信息以及食物信息,具体说,
所述药品信息包括药品名称、英文名、汉语拼音、别名、剂型、适用症、禁忌症、注意事项、不良反应、用法用量、药物之间的相互作用、成分、药品类别、生产厂家。其中,药品名称映射到药品实体名称;药品的英文名、汉语拼音、别名等信息分别映射到药品实体的相应属性值。
所述症状信息映射到症状命名实体及其属性,并为症状实体与药品实体之间建立名为“症状表现”的有向实体关系,该关系方向由药品实体指向症状实体。所述症状信息包括症状名称,病因和食疗方法,其中症状名称映射到症状实体名称,症状的病因、食疗方法信息映射到症状实体的相应属性值。
进一步地,将疾病信息映射到疾病实体及其属性,并为疾病实体与药品之间建立名为“可用药”的实体关系,该关系由疾病实体指向药品实体;进一步为疾病实体与症状实体之间建立名为“症状表现”的实体关系,该关系由疾病实体指向症状实体。所述疾病信息包括疾病名称、英文名称、别名、预防措施、病因、易感人群、传染方式、治疗方式、临床表现,其中疾病名称映射为疾病实体名称,疾病的英文名称、别名、预防措施等信息映射到疾病实体的相应的属性值。
最后将食物信息映射成食物实体,其中食物名称映射到食物实体名称,并为疾病实体与食物实体之间建立名为“可食用食物为”的有向实体关系,该关系由疾病实体指向食物实体。
S1.2、在数据服务器中创建一个具有上位概念框架的医药知识图谱,上位概念框架包括“药品”概念、“疾病”概念、“症状”概念、“食物”概念及各概念的相应属性。
进一步地,所述步骤S2中的答案检索,具体包括以下步骤:
S2.1、响应服务器端获取用户客户端输入的自然语言问句,并对问句进行分词处理,识别出所述问句中的命名实体;
S2.2、抽取命名实体之间的实体关系并存储于句法依存树中;
S2.3、根据句法依存树构建为语义查询图;
S2.4、对于语义查询图中的每个节点,构建在已有的医药知识图谱中与所述语义查询图相匹配的节点候选集,从节点候选集出发,使用动态规划方法遍历医药知识图谱,找到最有可能匹配的子图。
S2.5、根据所述语义查询图中的边与该边在所述医药知识图谱中相匹配的路径之间的相似度,得到候选答案子图的整体相似度,当无法精确查询时,此时系统通过查询问句语义查询图中的命名实体的上位概念节点,通过计算问句中的命名实体与该命名实体的同一上位概念框架下的节点进行相似性对比,相似性对比依据相似性距离计算进行,其中相似性距离值在[-1,1]范围内。
进一步地,所述步骤S3中的问题答案反馈给用户,具体包括以下步骤:
S3.1、当子图完全匹配时,以图谱可视化的方式将问句的答案反馈给前端用户;
S3.2、当子图不能匹配时,将相似问句的答案以及答案相似度以图谱可视化的方式反馈给用户。
本发明的有益效果是:
(1)、本发明不需要事先人工设立模板,且对复杂问句分析非常有效。
(2)、本发明将问题答案检索转化为子图匹配,与一般的关键词检索相比,可以最大限度的将用户的输入内容进行意图识别,并反馈给用户最多、最相关的医药知识。
(3)、本发明利用图数据库构建以图形式存储的医药知识图谱,准确描述了药品、疾病、症状信息,并对药品与疾病和症状进行关联,与现有的以关系型数据库管理事件信息方法相比,提供了事件以图形展示的可视化能力。
(4)、本发明通过构建医药知识图谱,使得用户检索得到的答案更加精确。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明所述医药问答系统的结构原理示意图。
图2是本发明所述医药知识问答系统的构建流程示意图。
图3是本发明所述医药知识问答系统的架构示意图。
图4是本发明所述医药知识问答系统的答案检索流程示意图。
图5是本发明公开的医药知识图谱部分实例示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
如图1所示的是一种基于知识图谱的医药知识问答系统,该问答系统包括:用户客户端、数据服务器以及响应服务器,其中的用户客户端用于提供给用户通过网络服务输入自然语言问句;数据服务器用于存储和管理系统相关的所有数据,核心功能是以知识图谱的形式展示医药信息,数据服务器是整体系统的数据源,数据服务器中的知识图谱是响应服务器端进行问题答案检索的基础;响应服务器提供自然语言问句接收,问题答案检索,医药知识图谱可视化,答案反馈这四个主要功能,其中问题答案检索模块是通过句法分析提取出用户输入自然语言问句的实体以及关系,将自然语言问句转化为语义查询图,运用子图匹配算法进行语义检索,并将检索得到的内容结果反馈给用户客户端。
如图2所示,一种基于知识图谱的医药知识问答系统的构建方法,包括以下步骤:
步骤S1:从医学网站上抽取相关的医学知识(包括疾病信息、药品信息、症状信息、食物信息),通过数据预处理转化成结构化的知识构建医药知识图谱,医药知识图谱存储于数据服务器,用于支持响应服务器端医药知识可视化和问题答案检索;
步骤S2:响应服务器上的医药知识问答系统首先将用户输入的问句通过jieba分词,识别出问句中的命名实体和实体关系,进一步结合句法依存树将自然语言问句转化成语义查询图;然后访问数据服务器端的医药知识图谱,运用子图匹配的方式进行答案检索;当系统无法精确匹配问题答案时,利用相似度寻找同一上位概念框架下的相似命名实体,给出相似问题答案;
步骤S3:将检索到的答案以图谱可视化的方式反馈给用户客户端。
所述步骤S1具体为:
步骤S1.1、通过爬虫技术爬取相关的专业医疗网站,进一步对网页进行解析,利用HanLp工具识别出命名实体及其属性,形成实体1、实体2、……、实体n和属性1、属性2、……属性n,并基于依存句法分析来抽取命名实体之间的关系,形成关系1、关系2、……、关系n。所述命名实体抽取主要包括对疾病命名实体、药品命名实体、症状命名实体以及食物命名实体的抽取。所述命名实体抽取内容主要包括对疾病命名实体、药品命名实体、症状命名实体以及食物命名实体的抽取。所述命名实体抽取过程如下:根据药品的主治功能,并结合某药品常用于治疗某种疾病、某药品适用于某种症状、某药品常用于治疗某种疾病等描述抽取得到疾病、药品、症状的命名实体及实体间关系;根据某疾病适宜吃某事物、不宜吃某事物、忌吃某食物等描述抽取食品命名实体及实体间关系,如:痛风不适宜吃海鲜,命名实体为“痛风”、“海鲜”,实体之间的关系为“不宜吃”。
优选地,对于上述四个命名实体,考虑的属性分别如下:
所述药品命名实体属性包括英文名、汉语拼音、别名、剂型、适用症、禁忌症、注意事项、不良反应、用法用量、药物之间的相互作用、成分、药品类别、生产厂家;
所述症状命名实体属性包括病因、食疗方法;
所述疾病命名实体属性包括英文名称、别名、预防措施、病因、易感人群、传染方式、治疗方式、临床表现。
所述食物实体属性包括食物类型(谷薯类、蔬菜水果类、动物性食物、大豆及其制品、纯能量食物)。
步骤S1.2、利用图数据库将疾病信息构建为疾病知识图谱,该知识图谱由多个三元组<hd,rd,td>组成,其中hd为实体名称(可为疾病名称),td为尾实体(即实体属性),rd为连接头实体hd与尾实体td的关系,疾病相关信息各字段(例如别名)分别映射为一个尾实体(即实体属性),疾病信息各字段值(例如别名数值)分别映射为尾实体的值(即实体的属性值),将构建的疾病知识图谱存储在数据服务器。
具体操作时,利用图数据库将药品基本数据映射为药品知识图谱,该知识图谱由多个三元组<hm,rm,tm>组成,其中hm为头实体,头实体由实体名称(可为药品名称)组成,rm为连接头实体hm和尾实体tm的关系,tm为尾实体(即实体属性),药品基本数据字段(例如英文名)分别映射为一个尾实体tm,药品基本数据字段值(例如英文名的值)对应映射为各尾实体的值(即实体的属性值),将构建的药品知识图谱存储在数据服务器;
利用图数据库将症状基本数据映射为症状知识图谱,该知识图谱由多个三元组<hs,rs,ts>组成,其中hs为头实体,头实体由实体名称(可为症状名称)组成,rs为连接头实体hs和尾实体ts的关系,ts为尾实体(即实体属性),症状信息各字段(例如病因)分别映射为一个尾实体ts,症状信息各字段值(例如病因的值)对应映射为各尾实体的值(即实体的属性值),将构建的症状知识图谱存储在数据服务器;
利用图数据库将食物数据映射为食物知识图谱,该知识图谱由多个三元组<hf,rf,tf>组成,其中hf为头实体,头实体由实体名称(可为食物名称)组成,rf为连接头实体hf和尾实体tf的关系,tf为尾实体(即实体属性),食物信息各字段(例如食物类型)分别映射为一个尾实体tf,食物信息各字段值(例如食物类型的值)对应映射为各尾实体的值(即实体的属性值),将构建的食物知识图谱存储在数据服务器;
步骤1.3、建立关系rt连接疾病实体hd和药品实体hm,形成三元组<hs,rt,hm>,例如<痛风,常用药,阿司匹林片>。
首先建立关系rn连接疾病实体和症状实体hs,形成三元组<hd,rn,hs>,例如<荨麻疹,常见症,多形红斑样皮疹>。
其次建立关系rg连接症状实体hs和食物实体hf,形成三元组<hs,rg,hf>,例如<咳嗽,宜吃,雪梨>。
步骤S1.4、在数据服务器中创建一个具有上位概念框架的医药知识图谱,利用图数据库构建的上位概念框架表示如下:
T={C,P,R}
其中,T为医药知识图谱上位概念框架,C为概念型实体集合(可看作概念集合),P为概念型属性集合,R为概念型关系集合,C包含“药品”概念型实体Cm、“疾病”概念型实体Cd、“症状”概念型实体Cs,“食物”概念型实体Cf,P包含Cm相关概念型属性Pm、Cd相关概念型属性Pd、Cs相关概念型属性Ps、Cf相关概念型属性Pf,R包含Cm相关概念型关系Rm、Cd相关概念型关系Rd、Cs相关概念型关系Rs、Cf相关概念型关系Rf。
建立关系ri,通过ri连接医药知识图谱中的药品实体hm至“药品”概念型实体Cm,构建三元组<hm,ri,Cm>。
建立关系ri,通过ri连接医药知识图谱中的每个药品实体属性(尾实体)tm至“药品”概念型实体Cm的相关概念型属性Pm,构成三元组<tm,ri,Pm>。
建立关系ri,通过ri连接医疗知识图谱中的疾病实体hd至“疾病”概念型实体Cd,构成三元组<hd,ri,Cd>。
建立关系ri,通过ri连接医药知识图谱中的每个疾病实体属性(尾实体)td至“疾病”概念型实体Cd的相关概念型属性Pd,构成三元组<td,ri,Pd>。
建立关系ri,通过ri连接医药知识图谱中的症状实体hs至“症状”概念型实体Cs,构成三元组<hs,ri,Cs>。
建立关系ri,通过ri连接医药知识图谱中的每个症状实体属性(尾实体)ts至“症状”概念型实体Cs的相关概念型属性Ps,构成三元组<ts,ri,Ps>。
建立关系ri,通过ri连接医药知识图谱中的食物实体hf至“食物”概念型实体Cf,构成三元组<hf,ri,Cf>。
建立关系ri,通过ri连接医药知识图谱中的每个食物实体属性(尾实体)tf至“食物”概念型实体Cf的相关概念型属性Pf,构成三元组<tf,ri,Pf>。
通过以上步骤将疾病、药品、症状和食物多个三元组连接至上位概念框架,构成完整的医药知识图谱,如图3所示。
所述步骤S2如图4所示,具体为:
步骤S2.1、响应服务器端获取用户客户端输入的自然语言问句,并对问句进行分词处理,识别出所述问句中的命名实体。
步骤S2.2、抽取命名实体之间的实体关系形成句法依存树。
步骤S2.3、将上述抽取的命名实体节点和节点之间语义关系构建为语义查询图。
步骤S2.4、对于语义查询图中的每个节点,构建在已有的医药知识图谱中与所述语义查询图相匹配的节点候选集。从节点候选集出发,使用动态规划方法遍历医药知识图谱,找到最有可能匹配的子图。
步骤S2.5、根据所述语义查询图中的边与该边在所述医药知识图谱中相匹配的路径之间的相似度得到候选答案子图的整体相似度。相似性对比依据相似性距离进行计算,所述相似性距离计算采用余弦相似度计算方法,
其中similarity(A,B)为余弦相似度值,A和B分别为两个实体或两个属性,n为知识图谱中关键实体或属性的数量,i为值为1~n的整型变量。其中相似性距离值在[-1,1]范围内,其中-1为完全不相似,1为完全相似。
当计算出的相似度不为1,即不能完全子图匹配。优选地,当无法精确查询时,此时系统通过查询问句语义查询图中的命名实体的上位概念节点,通过计算问句中的命名实体与该命名实体的同一上位概念框架下的节点进行相似性对比。
所述步骤S3具体为:
S3.1、当子图完全匹配时,以图谱可视化的方式将问句的答案反馈给前端用户,如图5所示;
S3.2、当子图不能匹配时,将相似问句的答案以及答案相似度以图谱可视化的方式反馈给用户。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
Claims (4)
1.一种基于知识图谱的医药知识问答系统的构建方法,所述问答系统包括:
用户客户端,用于用户访问医药知识问答系统输入自然语言问句;数据服务器用于存储和管理系统所有的数据,包括关键数据——医药知识图谱;响应服务器用于为用户系统操作、可视化的问题答案展示,其特征是:所述的构建方法包括以下步骤:
S1、从医学网站上抽取相关的医学知识通过数据预处理转化成结构化的知识构建医药知识图谱,医药知识图谱存储于数据服务器,用于支持响应服务器端医药知识可视化和问题答案检索;
S2、响应服务器上的医药知识问答系统首先将用户输入的问句通过jieba分词,识别出问句中的命名实体和实体关系,进一步结合句法依存树将自然语言问句转化成语义查询图;然后访问数据服务器端的医药知识图谱,运用子图匹配的方式进行答案检索;当系统无法精确匹配问题答案时,利用相似度寻找同一上位概念框架下的相似命名实体,给出相似问题答案;
S3、将检索到的答案以图谱可视化的方式反馈给用户客户端。
2.如权利要求1所述的医药知识问答系统的构建方法,其特征是:所述步骤S1中医药知识图谱的构建,具体包括以下步骤:
S1.1、将医药信息映射到药品实体及其属性;
S1.2、在数据服务器中创建一个具有上位概念框架的医药知识图谱,上位概念框架包括“药品”概念、“疾病”概念、“症状”概念、“食物”概念及各概念的相应属性。
3.如权利要求1所述的医药知识问答系统的构建方法,其特征是:所述步骤S2中的答案检索,具体包括以下步骤:
S2.1、响应服务器端获取用户客户端输入的自然语言问句,并对问句进行分词处理,识别出所述问句中的命名实体;
S2.2、抽取命名实体之间的实体关系并存储于句法依存树中;
S2.3、根据句法依存树构建为语义查询图;
S2.4、对于语义查询图中的每个节点,构建在已有的医药知识图谱中与所述语义查询图相匹配的节点候选集,从节点候选集出发,使用动态规划方法遍历医药知识图谱,找到最有可能匹配的子图。
S2.5、根据所述语义查询图中的边与该边在所述医药知识图谱中相匹配的路径之间的相似度,得到候选答案子图的整体相似度,当无法精确查询时,此时系统通过查询问句语义查询图中的命名实体的上位概念节点,通过计算问句中的命名实体与该命名实体的同一上位概念框架下的节点进行相似性对比,相似性对比依据相似性距离计算进行,其中相似性距离值在[-1,1]范围内。
4.如权利要求1所述的医药知识问答系统的构建方法,其特征是:所述步骤S3中的问题答案反馈给用户,具体包括以下步骤:
S3.1、当子图完全匹配时,以图谱可视化的方式将问句的答案反馈给前端用户;
S3.2、当子图不能匹配时,将相似问句的答案以及答案相似度以图谱可视化的方式反馈给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010940684.9A CN112148851A (zh) | 2020-09-09 | 2020-09-09 | 一种基于知识图谱的医药知识问答系统的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010940684.9A CN112148851A (zh) | 2020-09-09 | 2020-09-09 | 一种基于知识图谱的医药知识问答系统的构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112148851A true CN112148851A (zh) | 2020-12-29 |
Family
ID=73890103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010940684.9A Pending CN112148851A (zh) | 2020-09-09 | 2020-09-09 | 一种基于知识图谱的医药知识问答系统的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112148851A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905764A (zh) * | 2021-02-07 | 2021-06-04 | 深圳万海思数字医疗有限公司 | 流行病咨询防治与培训系统构建方法及系统 |
CN112905744A (zh) * | 2021-02-25 | 2021-06-04 | 华侨大学 | 一种侨情问答方法、装置、设备及存储装置 |
CN113010663A (zh) * | 2021-04-26 | 2021-06-22 | 东华大学 | 一种基于工业认知图谱的自适应推理问答方法和系统 |
CN113076301A (zh) * | 2021-03-31 | 2021-07-06 | 北京搜狗科技发展有限公司 | 一种构建知识库的方法、信息查询方法、装置及设备 |
CN113157863A (zh) * | 2021-04-25 | 2021-07-23 | 平安科技(深圳)有限公司 | 问答数据处理方法、装置、计算机设备及存储介质 |
CN113297369A (zh) * | 2021-07-26 | 2021-08-24 | 中国科学院自动化研究所 | 基于知识图谱子图检索的智能问答系统 |
CN113764112A (zh) * | 2021-09-16 | 2021-12-07 | 山东大学第二医院 | 一种在线医疗问答方法 |
CN115422321A (zh) * | 2022-07-26 | 2022-12-02 | 亿达信息技术有限公司 | 一种知识图谱复杂逻辑推理方法、组件和知识图谱的查询检索方法 |
WO2023047360A1 (en) * | 2021-09-23 | 2023-03-30 | The Joan and Irwin Jacobs Technion-Cornell Institute | Multi-stage machine learning techniques for profiling hair and uses thereof |
CN116186232A (zh) * | 2023-04-26 | 2023-05-30 | 中国电子技术标准化研究院 | 一种标准知识智能问答实现方法、装置、设备和介质 |
CN116775947A (zh) * | 2023-06-16 | 2023-09-19 | 北京枫清科技有限公司 | 一种图数据语义检索方法、装置、电子设备及存储介质 |
WO2023213166A1 (zh) * | 2022-05-05 | 2023-11-09 | 北京京东拓先科技有限公司 | 文本的处理方法、装置和计算机可读存储介质 |
CN117076689A (zh) * | 2023-08-21 | 2023-11-17 | 浙江大学 | 一种中药制药工艺路线智能设计方法 |
CN117151122A (zh) * | 2023-10-30 | 2023-12-01 | 湖南三湘银行股份有限公司 | 一种基于自然语言处理的银行客服会话问答处理方法及系统 |
CN117909487A (zh) * | 2024-03-20 | 2024-04-19 | 北方健康医疗大数据科技有限公司 | 一种面向老年人的医学问答服务方法、系统、装置及介质 |
CN113157863B (zh) * | 2021-04-25 | 2024-05-28 | 平安科技(深圳)有限公司 | 问答数据处理方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017185887A1 (en) * | 2016-04-29 | 2017-11-02 | Boe Technology Group Co., Ltd. | Apparatus and method for analyzing natural language medical text and generating medical knowledge graph representing natural language medical text |
CN109492077A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于知识图谱的石化领域问答方法及系统 |
CN110399457A (zh) * | 2019-07-01 | 2019-11-01 | 吉林大学 | 一种智能问答方法和系统 |
CN110457431A (zh) * | 2019-07-03 | 2019-11-15 | 深圳追一科技有限公司 | 基于知识图谱的问答方法、装置、计算机设备和存储介质 |
CN111046272A (zh) * | 2019-10-31 | 2020-04-21 | 九次方大数据信息集团有限公司 | 一种基于医疗知识图谱的智能问答系统 |
-
2020
- 2020-09-09 CN CN202010940684.9A patent/CN112148851A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017185887A1 (en) * | 2016-04-29 | 2017-11-02 | Boe Technology Group Co., Ltd. | Apparatus and method for analyzing natural language medical text and generating medical knowledge graph representing natural language medical text |
CN109492077A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于知识图谱的石化领域问答方法及系统 |
CN110399457A (zh) * | 2019-07-01 | 2019-11-01 | 吉林大学 | 一种智能问答方法和系统 |
CN110457431A (zh) * | 2019-07-03 | 2019-11-15 | 深圳追一科技有限公司 | 基于知识图谱的问答方法、装置、计算机设备和存储介质 |
CN111046272A (zh) * | 2019-10-31 | 2020-04-21 | 九次方大数据信息集团有限公司 | 一种基于医疗知识图谱的智能问答系统 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905764A (zh) * | 2021-02-07 | 2021-06-04 | 深圳万海思数字医疗有限公司 | 流行病咨询防治与培训系统构建方法及系统 |
CN112905744A (zh) * | 2021-02-25 | 2021-06-04 | 华侨大学 | 一种侨情问答方法、装置、设备及存储装置 |
CN113076301A (zh) * | 2021-03-31 | 2021-07-06 | 北京搜狗科技发展有限公司 | 一种构建知识库的方法、信息查询方法、装置及设备 |
CN113157863A (zh) * | 2021-04-25 | 2021-07-23 | 平安科技(深圳)有限公司 | 问答数据处理方法、装置、计算机设备及存储介质 |
WO2022227162A1 (zh) * | 2021-04-25 | 2022-11-03 | 平安科技(深圳)有限公司 | 问答数据处理方法、装置、计算机设备及存储介质 |
CN113157863B (zh) * | 2021-04-25 | 2024-05-28 | 平安科技(深圳)有限公司 | 问答数据处理方法、装置、计算机设备及存储介质 |
CN113010663A (zh) * | 2021-04-26 | 2021-06-22 | 东华大学 | 一种基于工业认知图谱的自适应推理问答方法和系统 |
CN113297369A (zh) * | 2021-07-26 | 2021-08-24 | 中国科学院自动化研究所 | 基于知识图谱子图检索的智能问答系统 |
CN113297369B (zh) * | 2021-07-26 | 2022-04-01 | 中国科学院自动化研究所 | 基于知识图谱子图检索的智能问答系统 |
CN113764112A (zh) * | 2021-09-16 | 2021-12-07 | 山东大学第二医院 | 一种在线医疗问答方法 |
WO2023047360A1 (en) * | 2021-09-23 | 2023-03-30 | The Joan and Irwin Jacobs Technion-Cornell Institute | Multi-stage machine learning techniques for profiling hair and uses thereof |
WO2023213166A1 (zh) * | 2022-05-05 | 2023-11-09 | 北京京东拓先科技有限公司 | 文本的处理方法、装置和计算机可读存储介质 |
CN115422321B (zh) * | 2022-07-26 | 2024-03-26 | 亿达信息技术有限公司 | 一种知识图谱复杂逻辑推理方法、组件和知识图谱的查询检索方法 |
CN115422321A (zh) * | 2022-07-26 | 2022-12-02 | 亿达信息技术有限公司 | 一种知识图谱复杂逻辑推理方法、组件和知识图谱的查询检索方法 |
CN116186232A (zh) * | 2023-04-26 | 2023-05-30 | 中国电子技术标准化研究院 | 一种标准知识智能问答实现方法、装置、设备和介质 |
CN116775947A (zh) * | 2023-06-16 | 2023-09-19 | 北京枫清科技有限公司 | 一种图数据语义检索方法、装置、电子设备及存储介质 |
CN116775947B (zh) * | 2023-06-16 | 2024-04-19 | 北京枫清科技有限公司 | 一种图数据语义检索方法、装置、电子设备及存储介质 |
CN117076689A (zh) * | 2023-08-21 | 2023-11-17 | 浙江大学 | 一种中药制药工艺路线智能设计方法 |
CN117151122A (zh) * | 2023-10-30 | 2023-12-01 | 湖南三湘银行股份有限公司 | 一种基于自然语言处理的银行客服会话问答处理方法及系统 |
CN117151122B (zh) * | 2023-10-30 | 2024-03-22 | 湖南三湘银行股份有限公司 | 基于自然语言处理的银行客服会话问答处理方法及系统 |
CN117909487A (zh) * | 2024-03-20 | 2024-04-19 | 北方健康医疗大数据科技有限公司 | 一种面向老年人的医学问答服务方法、系统、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112148851A (zh) | 一种基于知识图谱的医药知识问答系统的构建方法 | |
CN111708874B (zh) | 基于复杂意图智能识别的人机交互问答方法与系统 | |
WO2021000676A1 (zh) | 问答方法、问答装置、计算机设备及存储介质 | |
CN104216913B (zh) | 问题回答方法、系统和计算机可读介质 | |
CN110990590A (zh) | 一种基于强化学习和迁移学习的动态金融知识图谱构建方法 | |
CN109471949B (zh) | 一种宠物知识图谱的半自动化构建方法 | |
CN112487202B (zh) | 融合知识图谱与bert的中文医学命名实体识别方法、装置 | |
CN110675944A (zh) | 分诊方法及装置、计算机设备及介质 | |
CN113505243A (zh) | 基于医疗知识图谱的智能问答方法和装置 | |
Sun et al. | Progress and challenges on entity alignment of geographic knowledge bases | |
Löffler et al. | Dataset search in biodiversity research: Do metadata in data repositories reflect scholarly information needs? | |
CN113590837A (zh) | 一种基于深度学习的食品及健康知识图谱构建方法 | |
CN111191048A (zh) | 基于知识图谱的急诊问答系统构建方法 | |
CN106777996A (zh) | 一种基于Solr的体检数据搜索系统 | |
CN113764112A (zh) | 一种在线医疗问答方法 | |
White | Examining scientific vocabulary: mapping controlled vocabularies with free text keywords | |
Tommasi et al. | Combining multiple cues for visual madlibs question answering | |
Peng et al. | MPSC: A multiple-perspective semantics-crossover model for matching sentences | |
Buche et al. | How to manage incompleteness of nutritional food sources?: A solution using foodon as pivot ontology | |
Peral et al. | Enrichment of the phenotypic and genotypic Data Warehouse analysis using Question Answering systems to facilitate the decision making process in cereal breeding programs | |
Houssein et al. | Semantic protocol and resource description framework query language: a comprehensive review | |
CN113868387A (zh) | 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法 | |
Cortez | Use of metadata vocabularies in data retrieval | |
Papier et al. | Framework for improved communication: the Dermatology Lexicon Project | |
KR102448275B1 (ko) | 생물 종 동정을 활용한 생물학적 정보 추론 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |