CN110970112A

CN110970112A - 一种面向营养健康的知识图谱构建方法和系统

Info

Publication number: CN110970112A
Application number: CN201811146167.3A
Authority: CN
Inventors: 朱泽春; 钟敬德; 刘旭
Original assignee: Joyoung Co Ltd
Current assignee: Joyoung Co Ltd
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2020-04-07
Anticipated expiration: 2038-09-29
Also published as: CN110970112B

Abstract

本申请提出一种面向营养健康的知识图谱构建方法和系统，所述方法包括：确定营养健康相关的数据源，从中收集与营养健康相关的本体数据，并分别为每个数据源建立一个本体结构；根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体；根据各数据源的索引信息确定所述实体之间的关联关系；根据所述实体以及所述实体之间的关联关系建立所述知识图谱。完成针对营养健康领域的知识图谱的构建，建立完善的知识图谱。

Description

一种面向营养健康的知识图谱构建方法和系统

技术领域

本发明涉及大数据处理领域，具体涉及一种面向营养健康的知识图谱构建方法和系统。

背景技术

目前，随着语义网的不断发展，万维网中含有越来越多的本体的形式的知识。本体作为一种新颖的知识表现形式，在语义网的发展扮演着极其重要的作用，基于本体的应用也越来越多。随着语义网中的本体的不断增加，必然存在相关或相同的应用领域存在相近或相同的本体，由于这些本体的来源不同，本体的构建方式不同，因此这些本体之间可以信息互补，因此要建立一个完善的知识图谱，必须基于多种不同的数据源。

由于数据源不同，本体的构建方式不同，语义异构成了构建知识图谱的最大的问题。近年来，国内外虽然有很多新的系统被研发出来，但是依然没有综合针对食谱、食材、营养素、疾病症状、人群、中医体质和运动领域知识图谱，仅仅已有的领域无关的图谱，无法挖掘依然没有综合针对食谱、食材、营养素、疾病症状、人群、中医体质和运动领域的更深层次的信息，因此，创建的知识图谱达不到实用的标准。

发明内容

本发明提供一种面向营养健康的知识图谱构建方法和系统，建立完善的面向营养健康知识图谱。

为了实现上述发明目的，本发明采取的技术方案如下：

第一方面，本发明提供一种面向营养健康的知识图谱构建方法，包括：

确定营养健康相关的数据源，从中收集与营养健康相关的本体数据，并分别为每个数据源建立一个本体结构；

根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体；

根据各数据源的索引信息确定所述实体之间的关联关系；

根据所述实体以及所述实体之间的关联关系建立所述知识图谱。

优选地，所述数据源至少包括以下之一：网页以及书籍。

优选地，所述根据各数据源的索引信息确定所述实体之间的关联关系包括：

所述数据源为网页，所述索引信息为所述网页中的超链接；

当所述超链接跳转的页面为另一实体的介绍页时，建立所述跳转页面介绍的实体与当前实体的关系；对超链接跳转名进行语义解析，根据语义解析结果确定所述跳转页面介绍的实体与当前实体的关系的内容；

当所述超链接跳转的页面不是已有实体的介绍页时，判断所述跳转页面介绍的实体是否与所述知识图谱相关；

当所述跳转页面介绍的实体与所述知识图谱无关时，则忽略所述跳转页面介绍的实体；

当所述跳转页面介绍的实体与所述知识图谱相关时，则补充所述跳转页面介绍的实体的定义，并创建所述跳转页面介绍的实体与当前实体的关系，对超链接跳转名进行语义解析，根据语义解析结果确定所述跳转页面介绍的实体与当前实体的关系的内容。

所述数据源为书籍，所述索引信息为所述书籍中的目录以及参考文献信息；

当所述目录或者参考文件信息是另一实体的描述时，建立所述描述的实体与当前实体的关系；对目录名称或参考文献名称进行语义解析，根据语义解析结果确定所述描述的实体与当前实体的关系的内容；

当所述目录或者参考文件信息不是已有实体的描述时，判断所述描述的实体是否与所述知识图谱相关；

当所述描述的实体与所述知识图谱无关时，则忽略描述的实体；

当所述描述的实体与所述知识图谱相关时，则补充所述描述的实体定义，并创建所述描述的实体与当前实体的关系；对目录名称或参考文献名称进行语义解析，根据语义解析结果确定所述描述的实体与当前实体的关系的内容。

优选地，根据各数据源的索引信息确定所述实体之间的关联关系之后还包括：

根据所述实体之间的关联关系进行关系推理；

根据关系的传递性和所述实体之间的关联关系，推理出实体之间没有介绍的潜在的关系；

根据所述实体的特征和所述实体之间存在的关联关系，推理出具有相似特征的其它实体与所述实体之间的关联关系。

优选地，收集与营养健康相关的本体数据包括以下至少之一：

通过网页爬虫技术从营养健康相关的网站中获得本体数据；

通过文字识别技术从营养健康相关的书籍中获得本体数据。

优选地，为每个数据源建立一个本体结构包括：

从数据源的层级结构和/或目录信息中建立对应的多个结构树，并提取每个节点的关键字作为标签；

按照所述标签对所获得的多个结构树进行合并获得本体结构。

优选地，按照所述标签对所获得的多个结构树进行合并获得本体结构树包括：

添加抽象父节点，按照所述标签对所获得的多个结构树合并至成一个结构树；

比较合并后的结构树的同一层节点的名称，将名称相同的节点作为同一本体对象；

如果存在多个同名对象，则比较其标签；

如果标签不同，则将同名对象合并；如果标签相同而描述不同，则确定同名对象冲突；

将合并后的结构树作为本体结构。

优选地，根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体包括：

如果本体结构的节点是可合并的，则合并不同数据源的数据，形成对应的实体结构；

如果本体结构的节点是冲突的，则舍弃标记的数据源的数据，形成对应的实体结构；

如果本体结构树的节点为非合并或非冲突的，则提取所述数据源的数据；形成对应的实体结构。

第二方面，本发明还提供一种面向营养健康的知识图谱构建系统，其特征在于，包括：

建立模块，被配置为确定营养健康相关的数据源，从中收集与营养健康相关的本体数据，并分别为每个数据源建立一个本体结构；

合并模块，被配置为根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体；

关系模块，被配置为根据各数据源的索引信息确定所述实体之间的关联关系；

图谱模块，被配置为根据所述实体以及所述实体之间的关联关系建立所述知识图谱。

本发明完成针对营养健康领域的知识图谱的构建，建立完善的知识图谱。具有如下有益效果：

1、本发明获取多个数据源中涉及食谱、食材、营养素、疾病症状、人群、中医体质、运动的本体数据，针对不同数据源采用不同的数据获取方式，实现准确、全面的获取本体数据；

2、本发明综合多个领域和多个数据源的本体数据，建立完善的跨领域的本体结构，进而建立完善的知识图谱；

3、本发明根据已存在的实体之间的关联关系，可以推理出诸多潜在的关系，大大提升知识图谱的实用性；

4、本发明对于同一数据源的多个领域获得的本体数据存在冲突时，采用节点标签比较的方式进行合并处理，有很好的处理效果，本体的内容相比单一自然文本所描述的更加丰富准确；

5、本发明对于不同数据源获得的本体结构，通过合并或舍弃的方式梳理实体的属性；

6、本发明针对食谱、食材、营养素、疾病症状、人群、中医体质、运动多个领域，综合本体数据，基于已有的关系推导出不同领域下在自然文本中都没有明确提及实体之间的关系，可以很好的完善知识图谱的逻辑关系。

附图说明

图1为本发明实施例的面向营养健康的知识图谱构建方法的流程图；

图2为本发明实施例的关系推理的示意图；

图3为本发明实施例的关系推理的示意图；

图4为本发明实施例的合并结构树的示意图；

图5为本发明实施例的合并结构树的示意图；

图6为本发明实施例的面向营养健康的知识图谱构建系统的结构示意图；

图7为本发明实施例1知识图谱构建流程图；

图8为本发明实施例1的合并结构树的示意图；

图9为本发明实施例1的合并结构树的示意图；

图10为本发明实施例1的关系推理的示意图；

图11为本发明实施例1的关系推理的示意图。

具体实施方式

为使本发明的发明目的、技术方案和有益效果更加清楚明了，下面结合附图对本发明的实施例进行说明，需要说明的是，在不冲突的情况下，本申请中的实施例和实施例中的特征可以相互任意组合。

如图1所示，本发明实施例提供一种面向营养健康的知识图谱构建方法，包括：

S101、确定营养健康相关的数据源，从中收集与营养健康相关的本体数据，并分别为每个数据源建立一个本体结构；

S102、根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体；

S103、根据各数据源的索引信息确定所述实体之间的关联关系；

S104、根据所述实体以及所述实体之间的关联关系建立所述知识图谱。

本发明实施例中，步骤S101中所述数据源可以至少包括以下之一：网页以及书籍。

本发明实施例首先确定数据源，包括网页和书籍，获取网页和书籍数据源中涉及食谱、食材、营养素、疾病症状、人群、中医体质、运动的本体数据，能够准确、全面的获取本体数据。

本发明实施例中，步骤S103中所述根据各数据源的索引信息确定所述实体之间的关联关系包括：

所述数据源为网页，所述索引信息为所述网页中的超链接；

从所述网页的超链接跳转关系中抽取与当前实体和/或所述知识图谱相关的实体；

建立所述跳转页面介绍的实体与当前实体的关系。

本发明实施例中，当所述数据源为网页，所述索引信息为所述网页中的超链接时：

当所述跳转页面介绍的实体与所述知识图谱相关时，则补充所述跳转页面介绍的实体的定义，并创建所述跳转页面介绍的实体与当前实体的关系；对超链接跳转名进行语义解析，根据语义解析结果确定所述跳转页面介绍的实体与当前实体的关系的内容。

从所述书籍的目录或参考文献信息中抽取与当前实体和/或所述知识图谱相关的实体；

建立所述目录或者参考文件信息描述的实体与当前实体的关系。

本发明实施例中，当所述数据源为书籍，所述索引信息为所述书籍中的目录以及参考文献信息时：

当所述描述的实体与所述知识图谱相关时，则补充所述描述的实体定义，并创建所述描述的实体与当前实体的关系；对目录名称或参考文献名称进行语义解析，根据语义解析结果确定所述描述的实体与当前实体的关系的内容；。

本发明实施例中在抽取实体关系时，从食谱、食材、营养素、疾病症状、人群、中医体质、运动的网页中本体介绍页中的所有超链接，实体的关系则基于这些超链接抽取；如果超链接跳转的页面是另一实体的介绍页，则直接建立这两个实体的关系，本发明实施例在确定两个实体的关系时，对超链接跳转名进行语义解析，根据语义解析结果确定所述跳转页面介绍的实体与当前实体的关系的内容，例如关系名为超链接的跳转名；如果跳转的页面不是已有实体的介绍页，则有两种情况：跳转页面和知识图谱无关，可以忽略；跳转页面和知识图谱相关，说明结构树定义有遗漏，需要补充本体定义、抽取实体后，再创建关系。本发明实施例中在抽取实体关系时，从食谱、食材、营养素、疾病症状、人群、中医体质、运动的书籍中的目录以及参考文献信息确定实体关系与网页相似。

本发明实施例中利用超链接、目录、参考文件确定尸体之间的关系，并根据语义解析结果确定关系内容，在进行实体抽取时涉及的数据量小，并且确定的关系明确、准确。

本发明实施例中，根据各数据源的索引信息确定所述实体之间的关联关系之后还包括：

根据所述实体之间的关联关系进行关系推理；

本发明实施例可以根据所述实体的特征和所述实体之间已存在的A关系，推理出具有相似特征的其它实体与所述实体拥有A关系。

本发明实施例中，在进行关系推理时根据步骤S103中获取的实体关系，推理出不同实体之间的新关系。新关系主要有两种推理逻辑：

根据关系的传递性，可以推理出本体数据中没有介绍的潜在的关系：如图2所示，比如对象A和对象B有关系1，对象B和对象C也有关系1，那么对象A和对象C也有可能具有关系1。

根据实体的特征和已有的关系，可以推理出具有相似特征的其它实体，也拥有上述已存在的关系。例如，对象A拥有特征a，对象A和对象C存在关系1，对象B也拥有特征a，则对象B与对象C也可能存在关系1。如图3所示，根据已存在的因果关系，可以建立不同领域下的对象之间的关系，比如对象A和对象C有关系1，对象B与对象A具有相似的特征，那么对象A和对象C也有可能具有关系1，再例如对象A和对象B有关系1，对象B和对象C有关系2，那么对象A和对象C也有可能具有关系1。

本发明实施例针对食谱、食材、营养素、疾病症状、人群、中医体质、运动多个领域，综合本体数据，根据已存在的实体之间的关联关系，推导出不同领域下、在自然文本中都没有明确提及、潜在的实体之间的关系，可以很好的完善知识图谱的逻辑关系，大大提升知识图谱的实用性。

本发明实施例中，步骤S101中收集与营养健康相关的本体数据包括以下至少之一：

通过网页爬虫技术从营养健康相关的网站中获得本体数据；

通过文字识别技术从营养健康相关的书籍中获得本体数据。

本发明实施例针对不同数据源采用不同的数据获取方式，可以综合多个领域和多个数据源的本体数据，建立完善的跨领域的本体结构，进而建立完善的知识图谱。

本发明实施例中，步骤S101中为每个数据源建立一个本体结构包括：

本发明实施例中，按照所述标签对所获得的多个结构树进行合并获得本体结构树包括：

如果存在多个同名对象，则比较其标签；

将合并后的结构树作为本体结构。

随着语义网的不断发展，万维网中含有越来越多的本体的形式的知识，不同来源本体构建方式不同，可以信息互补。因此，要建立一个完善的知识图谱，不能基于单一的数据源，所以多种数据源带来的语义异构问题，是构建本体的最大挑战。构造本体结构的步骤：

通过网页爬虫和OCR技术，从食谱、食材、营养素、疾病症状、人群、中医体质、运动的相关网站和书籍获取本体数据；

通过数据源的结构，比如网站介绍的层级结构、书籍的目录结构，建立与之对应的结构树(每个数据源建立一个结构树)，并提取每个节点的关键字作为标签，比如人群的年龄段、性别，味道等都是标签，标签对应的是实体的属性。

如果是书籍，则完全按照目录的结构建立即可。

如果是网站，需要分析网址的结构(比如hostname、href径深等)，并记录当前连接和父链接的结构，对比当前页面内跳转链接的结构，如果不符合当前的结构则不再爬取；对当前页面的内容做分析，如果内容和目录介绍不一致则不爬取。

本发明对于同一数据源的多个领域获得的本体数据存在冲突时，采用节点标签比较的方式进行合并处理，有很好的处理效果，本体的内容相比单一自然文本所描述的更加丰富准确。

如图4所示，对创建的结构树，进行简单合并，以保证数据的完整性为首要目的，通过添加抽象父节点，将多个结构树合并至成一个结构树；

对简单合并后的结构树进行逻辑合并，消除冗余信息。如图5所示，同一层的节点，通过名称和标签比较，如果名称相同则视为同一个本体对象，如果存在多个同名对象，则比较其标签，如果标签不同，则同名对象合并；如果标签相同而描述不同，则定义冲突。本发明实施例可以将有冲突的合并节点逐一列出，基于TFIDF(Term Frequency–InverseDocument Frequency，用于信息检索与数据挖掘的常用加权技术)计算标签的描述与目录描述的相似度，根据所述相似度计算结果，最终决定是合并还是舍弃。

本发明实施例中，步骤S102中根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体包括：

本发明实施例中对本体结构，抽取对应数据源的数据，并映射至实体结构对应节点下的实体，实体结构中节点定义的标签，抽取时获取其值作为实体的属性。抽取逻辑如下：

如果结构树的节点是普通节点(没有合并或冲突)，则直接抽取。

如果结构树的节点是合并的，则合并两个数据源的数据

如果结构树的节点是有冲突的，则舍弃人工标记的数据源的数据。

本发明对于不同数据源获得的本体结构，通过合并或舍弃的方式梳理实体的属性。

如图6所示，本发明实施例还提供一种面向营养健康的知识图谱构建系统，包括：

建立模块100，被配置为确定营养健康相关的数据源，从中收集与营养健康相关的本体数据，并分别为每个数据源建立一个本体结构；

合并模块200，被配置为根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体；

关系模块300，被配置为根据各数据源的索引信息确定所述实体之间的关联关系；

图谱模块400，被配置为根据所述实体以及所述实体之间的关联关系建立所述知识图谱。

实施例一

如图7所示，本实施例说明面向营养健康领域的知识图谱构建的过程：

1)构造本体结构：

1a)通过爬虫、ORC技术从食谱、食材、营养素、疾病症状、人群、中医体质和运动的网站、书籍中获取本体数据；

1b)通过网站或书籍的结构，为每一个数据源建立一个本体结构，本实施例中本体结构为结构树；

1c)如图8所示，通过简单合并将多个结构树并成一个结构树；

1d)如图9所示，通过逻辑合并，将步骤1c)获得的结构树去除冗余节点，构造结构树，发现实体“蔬菜”在两个数据源下分别有“绿色”标签，对应的描述分别是指颜色和种植方法，则分别计算出描述的相似度做判断的辅助参数，最终决定是合并还是舍弃一个数据源的数据；

2)抽取实体：

2a)如果结构树的节点是普通节点(没有合并或冲突)，则直接抽取；

2b)如果结构树的节点是合并的，则合并两个数据源的数据；

2c)如果结构树的节点是有冲突的，则舍弃一个数据源的数据；

3)抽取实体关系：

3a)从食谱、食材、营养素、疾病症状、人群、中医体质、运动的网站中本体介绍页中的所有超链接，实体的关系则基于这些超链接抽取；

3b)如果超链接跳转的页面是另一实体的介绍页，则直接建立这两个实体的关系，关系名为超链接的跳转名；

3c)如果跳转的页面不是已有实体的介绍页，则有两种情况：跳转页面和知识图谱无关，可以忽略；跳转页面和知识图谱相关；结构树定义有遗漏，需要人工补充本体定义、抽取实体后，再创建关系；

4)关系推理：

4a)根据步骤3获取的实体关系，推理出不同实体之间的新关系。新关系主要有两种推理逻辑。

4b)如图10所示，根据关系的传递性，可以推理出本体数据中没有介绍的潜在的关系；

4c)如图11所示，根据实体的特征和已有的关系，可以推理出具有相似特征的其它实体，也拥有已存在的关系；根据已存在的因果关系，可以建立不同领域下的对象之间的关系。

虽然本发明所揭示的实施方式如上，但其内容只是为了便于理解本发明的技术方案而采用的实施方式，并非用于限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭示的核心技术方案的前提下，可以在实施的形式和细节上做任何修改与变化，但本发明所限定的保护范围，仍须以所附的权利要求书限定的范围为准。

Claims

1.一种面向营养健康的知识图谱构建方法，其特征在于，包括：

根据各数据源的索引信息确定所述实体之间的关联关系；

2.如权利要求1所述的方法，其特征在于，所述数据源至少包括以下之一：网页以及书籍。

3.如权利要求2所述的方法，其特征在于，所述根据各数据源的索引信息确定所述实体之间的关联关系包括：

所述数据源为网页，所述索引信息为所述网页中的超链接；

4.如权利要求2所述的方法，其特征在于，所述根据各数据源的索引信息确定所述实体之间的关联关系包括：

5.如权利要求3或4所述的方法，其特征在于，根据各数据源的索引信息确定所述实体之间的关联关系之后还包括：

根据所述实体之间的关联关系进行关系推理；

6.如权利要求2-4中任一项所述的方法，其特征在于，收集与营养健康相关的本体数据包括以下至少之一：

通过网页爬虫技术从营养健康相关的网站中获得本体数据；

通过文字识别技术从营养健康相关的书籍中获得本体数据。

7.如权利要求2-4中任一项所述的方法，其特征在于，为每个数据源建立一个本体结构包括：

8.如权利要求7所述的方法，其特征在于，按照所述标签对所获得的多个结构树进行合并获得本体结构树包括：

如果存在多个同名对象，则比较其标签；

将合并后的结构树作为本体结构。

9.根据权利要求2-4中任一项所述的方法，其特征在于，根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体包括：

10.一种面向营养健康的知识图谱构建系统，其特征在于，包括：