CN111061841A

CN111061841A - 知识图谱的构建方法及装置

Info

Publication number: CN111061841A
Application number: CN201911316296.7A
Authority: CN
Inventors: 张铭; 刘世兴; 朱熠恺; 琚玮; 戴自霖; 朱红文; 周莉; 陈雪; 邹声鹏; 代亚菲
Original assignee: Peking University; BOE Technology Group Co Ltd
Current assignee: Peking University; BOE Technology Group Co Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-04-24
Anticipated expiration: 2039-12-19
Also published as: CN111061841B

Abstract

本发明提供了一种知识图谱的构建方法及装置，属于数据处理技术领域。其中，知识图谱的构建方法，包括：获取预设领域的多组数据，每组数据包括实体名称属性和与所述实体名称属性对应的属性值；利用所述多组数据构建实体集合，所述实体集合包括预设领域的多个实体；根据所述多组数据中的属性频率设置实体类型之间的预设关系，构建包括多个所述预设关系的预设关系集合；从所述多组数据中提取知识图谱关系，建立包括多个三元组数据的三元组集合，每一所述三元组数据包括两个实体以及所述两个实体之间的关系；对所述实体集合、所述预设关系集合和所述三元组集合进行整合，得到知识图谱。本发明的技术方案能够提高知识图谱的知识准确率和召回率。

Description

知识图谱的构建方法及装置

技术领域

本发明涉及数据处理技术领域，特别是指一种知识图谱的构建方法及装置。

背景技术

随着社会飞速发展，我们已经进入信息爆炸时代，每天都会有海量新的实体与信息产生。互联网作为当今最为便捷的信息获取平台，用户对有效信息筛选与归纳的需求日益迫切，如何从海量数据中获取有价值的信息成为一个难题，知识图谱于此应运而生。

知识图谱主要用来描述真实世界中存在的各种实体(entity)和概念(concept)，以及它们之间的关系。每个实体或概念用一个全局唯一确定的ID来标识，称为它们的标识符(identifier)。每个“属性——值”对(attribute-value pair，AVP)用来刻画实体的内在特性，而关系(relation)用来连接两个实体，刻画它们之间的关联。知识图谱可被看作是一张巨大的图，图中的节点表示实体或概念，而图中的边则由属性或关系构成。

一个知识图谱的模式(schema)相当于一个领域内的数据模型，包含了这个领域里面有意义的概念类型以及这些类型的属性。有知识图谱作为辅助，搜索引擎能够洞察用户查询背后的语义信息，返回更为精准、结构化的信息，更大可能地满足用户的查询需求。

相关技术是以百科站点为基础构建知识图谱，如维基百科和百度百科。其中大部分的知识是从百科中的结构化信息即信息框(infobox)中抽取的，知识的准确率和召回率高度依赖于人工标注的质量，不仅费时费力，错误率比较高，并且不能及时对知识图谱进行及时更新。

发明内容

本发明要解决的技术问题是提供一种知识图谱的构建方法及装置，能够提高知识图谱的知识准确率和召回率。

为解决上述技术问题，本发明的实施例提供技术方案如下：

一方面，提供一种知识图谱的构建方法，包括：

获取预设领域的多组数据，每组数据包括实体名称属性和与所述实体名称属性对应的属性值；

利用所述多组数据构建实体集合，所述实体集合包括预设领域的多个实体；

根据所述多组数据中的属性频率设置实体类型之间的预设关系，构建包括多个所述预设关系的预设关系集合；

从所述多组数据中提取知识图谱关系，建立包括多个三元组数据的三元组集合，每一所述三元组数据包括两个实体以及所述两个实体之间的关系；

对所述实体集合、所述预设关系集合和所述三元组集合进行整合，得到知识图谱。

可选地，所述利用所述多组数据构建实体集合还包括：

从预设数据库中提取多条三元组，根据三元组的关系名称确定三元组两端的实体类型，如果三元组两端的实体类型为预设领域的实体类型，则将三元组两端的实体加入所述实体集合。

可选地，所述属性值包括文本描述，所述多组数据还包括信息框属性，利用所述多组数据构建实体集合还包括从属性值的文本描述和/或信息框属性的文本描述中识别实体的步骤，所述识别实体的步骤包括：

使用结巴中文分词工具对所述文本描述进行分词处理；

使用预设的实体字典作为分词工具的匹配词典，基于词典匹配的方法从分词结果中识别出实体，并删除同一文本描述下冗余的实体。

可选地，所述从所述多组数据中提取知识图谱关系，建立包括多个三元组数据的三元组集合包括：

根据所述预设关系集合设置实体名称属性到预设关系的映射关系；

对每组数据，遍历其每个实体名称属性，如果一实体名称属性a能映射到一预设关系r，则将该预设关系r确定为待提取关系；

确定所述实体名称属性a表示的实体e1的类型，根据实体e1的类型和预设关系r确定三元组右端的实体类型t；

根据预设关系r和实体类型t通过字典匹配算法或语言模板匹配算法从所述多组数据中提取三元组右端的实体e2，建立包括e1，r和e2的三元组。

可选地，通过字典匹配算法从所述多组数据中提取三元组右端的实体e2包括：

如果实体名称属性a对应的属性值为文本描述，则在该文本描述中识别出的实体中，将实体类型为t的实体作为三元组右端的实体e2；

如果实体名称属性a对应的属性值为多个属性-属性值对，则判断每个属性-属性值对的属性是否为实体且实体类型为t，如果是实体且实体类型为t，则将该实体作为三元组右端的实体e2；

如果实体名称属性a对应的属性值为多个属性-属性值对，则判断每个属性-属性值对的属性是否能够提取出实体且实体类型为t，如果能够提取出实体且实体类型为t，则将提取出的实体作为三元组右端的实体e2。

可选地，判断每个属性-属性值对的属性是否为实体或能够提取出实体包括：

如果每个属性-属性值对的属性位于实体字典中，则该属性为实体；

如果每个属性-属性值对的属性未位于实体字典中，使用正则表达式去除属性字符串中包含的噪声字符，若去噪后的字符串位于实体字典中，则该属性能够提取出实体。

可选地，所述属性值包括文本描述，通过语言模板匹配算法从所述多组数据中提取三元组右端的实体e2包括：

利用语言模板匹配出所述文本描述中的目标子文本块，使用字典匹配方法从所述目标子文本块中匹配出实体类型为t的实体作为三元组右端的实体e2。

可选地，所述方法还包括：

根据实体类型和所述预设关系构建知识图谱模式，所述知识图谱模式包括两个实体类型以及所述两个实体类型之间的关系；

所述根据实体e1的类型和预设关系r确定三元组右端的实体类型t包括：

根据实体e1的类型、预设关系r和所述知识图谱模式确定三元组右端的实体类型t。

可选地，所述预设领域为医疗领域。

本发明的实施例还提供了一种知识图谱的构建装置，包括：

获取模块，用于获取预设领域的多组数据，每组数据包括实体名称属性和与所述实体名称属性对应的属性值；

第一构建模块，用于利用所述多组数据构建实体集合，所述实体集合包括预设领域的多个实体；

第二构建模块，用于根据所述多组数据中的属性频率设置实体类型之间的预设关系，构建包括多个所述预设关系的预设关系集合；

建立模块，用于从所述多组数据中提取知识图谱关系，建立包括多个三元组数据的三元组集合，每一所述三元组数据包括两个实体以及所述两个实体之间的关系；

处理模块，用于对所述实体集合、所述预设关系集合和所述三元组集合进行整合，得到知识图谱。

本发明的实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的知识图谱的构建方法的步骤。

本发明的实施例具有以下有益效果：

上述方案中，基于获取的数据构建知识图谱，首先利用包括实体名称属性和与实体名称属性对应的属性值的多组数据构建实体集合，之后根据多组数据中的属性频率设置实体类型之间的预设关系，构建包括多个预设关系的预设关系集合，再从多组数据中提取知识图谱关系，建立包括多个三元组数据的三元组集合，最后对实体集合、预设关系集合和三元组集合进行整合，得到知识图谱。本发明的技术方案中，知识图谱的构建速度快，准确率高，节约了人力成本，可以适用于多种领域知识图谱的构建，可扩展性强。

附图说明

图1为本发明实施例知识图谱的构建方法的流程示意图；

图2为本发明实施例知识图谱的构建装置的结构框图；

图3为本发明具体实施例知识图谱的构建方法的流程示意图；

图4为本发明实施例建立三元组的的流程示意图。

具体实施方式

为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供一种知识图谱的构建方法及装置，能够提高知识图谱的知识准确率和召回率。

本发明的实施例提供一种知识图谱的构建方法，如图1所示，包括：

步骤101：获取预设领域的多组数据，每组数据包括实体名称属性和与所述实体名称属性对应的属性值；

步骤102：利用所述多组数据构建实体集合，所述实体集合包括预设领域的多个实体；

步骤103：根据所述多组数据中的属性频率设置实体类型之间的预设关系，构建包括多个所述预设关系的预设关系集合；

步骤104：从所述多组数据中提取知识图谱关系，建立包括多个三元组数据的三元组集合，每一所述三元组数据包括两个实体以及所述两个实体之间的关系；

步骤105：对所述实体集合、所述预设关系集合和所述三元组集合进行整合，得到知识图谱。

本实施例中，基于获取的数据构建知识图谱，首先利用包括实体名称属性和与实体名称属性对应的属性值的多组数据构建实体集合，之后根据多组数据中的属性频率设置实体类型之间的预设关系，构建包括多个预设关系的预设关系集合，再从多组数据中提取知识图谱关系，建立包括多个三元组数据的三元组集合，最后对实体集合、预设关系集合和三元组集合进行整合，得到知识图谱。本发明的技术方案中，知识图谱的构建速度快，准确率高，节约了人力成本，可以适用于多种领域知识图谱的构建，可扩展性强。

本发明的示例性实施例中，所述利用所述多组数据构建实体集合还包括：

其中，预设数据库可以是百科站点，如维基百科和百度百科等网络数据库，也可以是其他类型的数据库。

本发明的示例性实施例中，所述属性值包括文本描述，所述多组数据还包括信息框属性，利用所述多组数据构建实体集合还包括从属性值的文本描述和/或信息框属性的文本描述中识别实体的步骤，所述识别实体的步骤包括：

使用结巴中文分词工具对所述文本描述进行分词处理；

使用预设的实体字典作为分词工具的匹配词典，基于词典匹配的方法从分词结果中识别出实体，并删除同一文本描述下冗余的实体，利用基于词典匹配的方法识别实体，识别速度快，准确率高。

本发明的示例性实施例中，所述从所述多组数据中提取知识图谱关系，建立包括多个三元组数据的三元组集合包括：

本发明的示例性实施例中，通过字典匹配算法从所述多组数据中提取三元组右端的实体e2包括：

一具体示例中，判断每个属性-属性值对的属性是否为实体或能够提取出实体包括：

一具体示例中，所述属性值包括文本描述，通过语言模板匹配算法从所述多组数据中提取三元组右端的实体e2包括：

利用语言模板匹配出所述文本描述中的目标子文本块，使用字典匹配方法从所述目标子文本块中匹配出实体类型为t的实体作为三元组右端的实体e2。使用语言模板和字典匹配方法抽取实体，速度快，准确率高，能够节约大量的人力成本。

本发明的示例性实施例中，所述方法还包括：

其中，上述实施例中，预设领域可以为医疗领域，当然预设领域并不局限为医疗领域，还可以为其他领域，比如图像处理领域、显示领域等。

本发明的实施例还提供了一种知识图谱的构建装置，如图2所示，包括：

获取模块21，用于获取预设领域的多组数据，每组数据包括实体名称属性和与所述实体名称属性对应的属性值；

第一构建模块22，用于利用所述多组数据构建实体集合，所述实体集合包括预设领域的多个实体；

第二构建模块23，用于根据所述多组数据中的属性频率设置实体类型之间的预设关系，构建包括多个所述预设关系的预设关系集合；

建立模块24，用于从所述多组数据中提取知识图谱关系，建立包括多个三元组数据的三元组集合，每一所述三元组数据包括两个实体以及所述两个实体之间的关系；

处理模块25，用于对所述实体集合、所述预设关系集合和所述三元组集合进行整合，得到知识图谱。

本发明的示例性实施例中，第一构建模块22还用于从预设数据库中提取多条三元组，根据三元组的关系名称确定三元组两端的实体类型，如果三元组两端的实体类型为预设领域的实体类型，则将三元组两端的实体加入所述实体集合。

本发明的示例性实施例中，所述属性值包括文本描述，所述多组数据还包括信息框属性，第一构建模块22还用于从属性值的文本描述和/或信息框属性的文本描述中识别实体，所述识别实体的步骤包括：

使用结巴中文分词工具对所述文本描述进行分词处理；

本发明的示例性实施例中，建立模块24具体用于根据所述预设关系集合设置实体名称属性到预设关系的映射关系；对每组数据，遍历其每个实体名称属性，如果一实体名称属性a能映射到一预设关系r，则将该预设关系r确定为待提取关系；确定所述实体名称属性a表示的实体e1的类型，根据实体e1的类型和预设关系r确定三元组右端的实体类型t；根据预设关系r和实体类型t通过字典匹配算法或语言模板匹配算法从所述多组数据中提取三元组右端的实体e2，建立包括e1，r和e2的三元组。

本发明的示例性实施例中，建立模块24具体用于如果实体名称属性a对应的属性值为文本描述，则在该文本描述中识别出的实体中，将实体类型为t的实体作为三元组右端的实体e2；如果实体名称属性a对应的属性值为多个属性-属性值对，则判断每个属性-属性值对的属性是否为实体且实体类型为t，如果是实体且实体类型为t，则将该实体作为三元组右端的实体e2；如果实体名称属性a对应的属性值为多个属性-属性值对，则判断每个属性-属性值对的属性是否能够提取出实体且实体类型为t，如果能够提取出实体且实体类型为t，则将提取出的实体作为三元组右端的实体e2。

本发明的示例性实施例中，所述装置还包括：

第三构建模块，用于根据实体类型和所述预设关系构建知识图谱模式，所述知识图谱模式包括两个实体类型以及所述两个实体类型之间的关系；

一具体实施例中，以构建医疗领域的知识图谱为例，如图3所示，本发明的知识图谱的构建方法包括以下步骤：

步骤301：获取医疗疾病、症状、检查和药物相关的多条医疗领域的数据；

其中每条数据为多个属性-属性值对，其中包含一个知识图谱实体名称属性，每个属性值可以为一个文本描述或多个属性-属性值对，另外，部分数据还可以包含信息框属性，对应的信息框属性值为多个属性-属性值对。

具体地，可以从百度百科、百科名医网站、用药助手网站和医疗教材上获取医疗领域的数据。获取的数据可以包括百科名医网站心血管病科下的疾病、症状、检查等数据；用药助手网站的心血管系统药物数据；医学教材的心血管系统疾病数据；百度百科相关疾病、症状、药物的百科数据；中文开放知识图谱(OpenKG.CN)的中文症状知识库的数据。除了中文症状知识库数据外，其他数据需要处理成Json格式数据，方便处理。Json格式数据包括多个属性-属性值对，根据百科页面的组织格式，处理后的每条Json数据包含名称、类型(疾病、症状、检查、药物等)属性和其他与该实体相关的属性，如病因、适应症属性等，部分数据还包含信息框属性，信息框里是多个属性-属性值对，包含一些基本信息。获取自医学教材的数据格式可以与书中的目录匹配，还可以获取ICD-10编码的疾病名称、ICD-10循环系统疾病名称作为一个医疗词典。

一具体示例中，一条Json格式数据如下所示：

{"name":"心脏病","class":"疾病","病因":{"1.先天性心脏病":"'胎儿期心脏发育异常所致，病变可累及心脏各组织。'","2.后天性心脏病":"'出生后心脏受到...'"},"分类":{"1.按病因分类":"'可分为先天性、风湿性...'","2.按病理解剖分类":"'可分为冠状动脉病变...'","3.按病理生理分类":"'包括心绞痛、心肌梗死...'"},"临床表现":{"1.症状":"'常见的自觉...'","2.体征":"'常见体征有：心脏增大...'","(1)望诊":"'如...'","(2)触诊":"'震颤是...'","(3)叩诊":"'通过叩诊...'","(4)听诊":"'包括心音...'","(5)周围血管体征":"'在动脉上主要表现...'"},"检查":{"1.实验室检查":"'除血、尿常规检查外，...'","(1)侵入性检查":"'主要有心导管检查和...'","(2)非侵入性检查":"'包括各种类型的...'","①心电图检查":"'常见的有普通心电图...'","②超声心动图检查":"'心血管超声诊断方法和...'","③X线检查":"'如透视、平片、CT等。'","④磁共振检查":"'用于心血管...'","⑤放射性核素检查":"'主要包括心肌灌注显像和心血池显像。'"},"info_box":{"英文名称":"heart disease","就诊科室":"心血管内科","常见病因":"动脉硬化、高血压、病毒感染、呼吸道疾病等","常见症状":"心悸、心绞痛、呼吸困难、咳嗽咯血、胸痛或胸部不适等"}}

其中，分号前面的为属性，如："name"、"class"、"病因"、"1.先天性心脏病"、"2.后天性心脏病"、"1.按病因分类"、"2.按病理解剖分类"、"3.按病理生理分类"、"临床表现"、"1.症状"、"2.体征"、"(1)望诊"、"(2)触诊"、"(3)叩诊"、"(4)听诊"、"(5)周围血管体征"、"检查"、"1.实验室检查"、"(1)侵入性检查"、"(2)非侵入性检查"、"①心电图检查"、"②超声心动图检查"、"③X线检查"、"④磁共振检查"、"⑤放射性核素检查"、"info_box"、"英文名称"、"就诊科室"、"常见病因"、"常见症状"；剩余的部分，也就是分号后面的为相应的属性值，每条数据由多个属性-属性值对组成。其中，"name":"心脏病"为实体名称属性和对应的属性值，有的属性值包括多个属性-属性值对，比如属性"分类"对应的属性值为{"1.按病因分类":"'可分为先天性、风湿性...'","2.按病理解剖分类":"'可分为冠状动脉病变...'","3.按病理生理分类":"'包括心绞痛、心肌梗死...'"}，包括三个属性-属性值对。

步骤302：从每条数据中提取疾病、症状、检查、药物和生产厂家等实体名称属性值，从开放中文症状知识库提取检查实体名称，构建医疗实体集合；

其中，从每条数据中提取疾病、症状、检查、药物和生产厂家等实体名称的方法为：对每条数据，获取该数据的实体名称属性值，比如上述列举的Json格式数据中的实体名称属性"name"对应的属性值："心脏病"。根据类型属性判断实体类型，医疗实体类型可以包括疾病、症状、检查和药物四类。

其中，从开放中文症状知识库提取检查实体名称的方法为：对开放中文症状知识库的每条三元组数据，根据三元组关系名称推断三元组两端实体类型，如果三元组两端的实体类型为检查，则将该实体加入检查实体集合。

上述属性值可以包括文本描述，在从属性值的文本描述和信息框属性的文本描述中识别医疗实体时，可以使用jieba(结巴)中文分词工具对文本描述进行分词处理，并使用预设的医疗实体字典作为分词工具的匹配词典，基于词典匹配的方法从分词结果中识别出医疗实体，并删除同一文本描述下冗余的医疗实体，利用基于词典匹配的方法识别医疗实体，识别速度快，准确率高。

本实施例中，可以使用ICD-10编码的疾病、ICD-10循环系统疾病、百科名医心血管科疾病、教材的心血管系统疾病等作为疾病字典，用药助手网站的心血管系统相关药物作为药物字典，百科名医心血管科相关检查和从中文开放知识图谱(OpenKG.CN)的中文症状知识库中抽取的检查实体作为检查字典，采用百科名医心血管科相关症状构成症状字典，利用上述字典组成预定义的医疗实体字典，作为分词工具的匹配词典。

步骤303：统计所有属性-属性值对，根据属性频率设置预设关系实体类型之间的预设关系，构建包括多个所述预设关系的预设关系集合；

所有数据中，所有属性出现的总次数为C,属性a在所有数据中的出现次数为Ca,则属性a的属性频率为：Ca/C。

一具体示例中，假设所有数据(Json格式数据)只有2条以下数据：

{"name":"..病","class":"疾病","病因":"...","分类":"...","临床表现":"...","检查":"..."}

{"name":"..病","class":"疾病","病因":"...","分类":"...","检查":"..."}

则可以统计出所有属性共出现的次数C＝11，属性a“临床表现”出现次数Ca＝1,则其属性频率为：1/11。

其中，预设关系可以包括：常见症状，常见病因，并发症、检查、分类等。

步骤304：根据实体类型和预设关系集合构建知识图谱模式，该知识图谱模式规定每个知识图谱三元组的实体类型集、关系集和每个关系两端的实体类型；

其中，知识图谱模式用于描述实体类型间的关系，如表1所示，其中一行(疾病,常见症状,症状)，描述了疾病实体能够与症状实体存在“常见症状”关系，说明这个症状是这个疾病的常见症状。

知识图谱为符合知识图谱模式的具体示例，而不仅仅是实体类型与关系类型，比如知识图谱的一个示例是：(心脏病，常见症状，心悸)。

表1

实体类型	关系名	实体类型
			疾病	检查	检查
疾病	常见症状	症状
			疾病	常见病因	疾病
疾病	并发症	疾病
			疾病	分类	疾病
症状	并发症	疾病
			症状	常见病因	疾病
症状	检查	检查
			症状	常见症状	症状
药物	适应证	疾病
			药物	不良反应	症状
药物	生产厂家	厂商
			检查	适应证	疾病

步骤305：从每条数据的除信息框属性外的每个属性提取知识图谱关系，建立该条数据的实体名称属性值表示的实体与每个属性值包含的实体间的关系连接，构成实体-关系-实体三元组；对于信息框属性，则对信息框属性对应的属性值中的属性-属性值对进行前述抽取方法。

本实施例采用字典匹配算法和语言模板匹配算法相结合的方法抽取实体。从百科名医、百度百科、用药助手等网站获取的数据具有一定的格式，比如百科名医网站的疾病页面会分为病因、临床表现、检查、并发症等文本内容，所以可以从相应的文本抽取关系。另外，百度百科的信息框包含疾病的常见病因、常见症状等信息，也可以抽取出相应的关系。

可以根据预设关系集合，建立Json数据中每个属性到关系的映射关系。语言模板根据数据特点制定，比如关系“常见病因”的模板包括“病因为…”、“由…引起”等。

如图4所示，进行关系抽取，建立三元组的步骤如下所示：

步骤401：根据预设关系集合设置数据的每个属性到关系的映射关系。如Json数据包含的“病因”、“病因及特点”的属性映射为关系“常见病因”；

步骤402：对每条数据，遍历其每个属性(记为a)，如果该属性能映射到一个预设关系(记为r)，则选择此关系作为待抽取关系并执行余下步骤，否则忽略该属性；

步骤403：判断该条数据的实体名称属性值表示的实体(记为e1)的类型，并根据知识图谱模式和待预设关系r确定三元组右端实体类型(记为t)；

步骤404：根据关系r选择采用字典匹配算法或语言模板匹配算法来抽取三元组右端实体(记为e2)，得到零个或多个三元组(e1,r,e2)。

如果属性a对应的属性值为文本描述，则在该文本中识别出的实体中，将实体类型为t的实体(记为e2)作为三元组右端实体；如果属性a对应的属性值为多个属性-属性值对，则判断每个属性-属性值对的属性是否为实体或可提取出实体且实体类型为t，若满足条件，则将该实体(记为e2)作为三元组右端实体。

其中，上述判断属性是否为实体或可提取出实体的方法为：如果该属性在实体字典中则是实体，否则使用正则表达式去除属性字符串中包含的噪声字符，若去噪后的字符串在实体字典，则该属性名是一个实体。

语言模板匹配方法为：对每个模板，匹配出文本中的目标子文本块，再使用字典匹配方法从该子文本块中匹配出实体类型为t的实体(记为e2)作为三元组右端实体。

步骤306：知识图谱整合，对获得的实体集合、预设关系集合和三元组集合进行整合，消除冗余和歧义。

整合各个数据来源的三元组，并进行去除重复等操作，得到最终的知识图谱三元组集合。去除重复包括去除三元组中两端实体为同一实体的不同表述，或者三元组右端实体为左端实体的子类型且关系类型不是“分类”等情况。针对这种情况，需要根据两端实体的文本相似度，删除相似度大于某一阈值且关系不是“分类”的三元组。

其中，实体集合是所有疾病、症状、检查、药物和生产厂家的具体实例集合，包括{心脏病，心悸，CT检查，…}。预设关系集合是表1中间一列的内容，包括{检查,常见症状,常见病因,并发症,分类,并发症,常见病因,检查,常见症状,适应证,不良反应,生产厂家,适应证}。整合后形成的知识图谱包含多个类似于(心脏病，常见症状，心悸)的三元组，所有的三元组构成一个知识图谱的数据。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、用户终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理用户终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理用户终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理用户终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理用户终端设备上，使得在计算机或其他可编程用户终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程用户终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者用户终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者用户终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者用户终端设备中还存在另外的相同要素。

以上所述的是本发明的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本发明所述的原理前提下还可以作出若干改进和润饰，这些改进和润饰也在本发明的保护范围内。

Claims

1.一种知识图谱的构建方法，其特征在于，包括：

2.根据权利要求1所述的知识图谱的构建方法，其特征在于，所述利用所述多组数据构建实体集合还包括：

3.根据权利要求1所述的知识图谱的构建方法，其特征在于，所述属性值包括文本描述，所述多组数据还包括信息框属性，利用所述多组数据构建实体集合还包括从属性值的文本描述和/或信息框属性的文本描述中识别实体的步骤，所述识别实体的步骤包括：

使用结巴中文分词工具对所述文本描述进行分词处理；

4.根据权利要求1所述的知识图谱的构建方法，其特征在于，所述从所述多组数据中提取知识图谱关系，建立包括多个三元组数据的三元组集合包括：

5.根据权利要求4所述的知识图谱的构建方法，其特征在于，通过字典匹配算法从所述多组数据中提取三元组右端的实体e2包括：

6.根据权利要求5所述的知识图谱的构建方法，其特征在于，判断每个属性-属性值对的属性是否为实体或能够提取出实体包括：

7.根据权利要求4所述的知识图谱的构建方法，其特征在于，所述属性值包括文本描述，通过语言模板匹配算法从所述多组数据中提取三元组右端的实体e2包括：

8.根据权利要求4所述的知识图谱的构建方法，其特征在于，所述方法还包括：

9.根据权利要求1-8中任一项所述的知识图谱的构建方法，其特征在于，所述预设领域为医疗领域。

10.一种知识图谱的构建装置，其特征在于，包括：

11.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的知识图谱的构建方法的步骤。