CN110970112A - 一种面向营养健康的知识图谱构建方法和系统 - Google Patents
一种面向营养健康的知识图谱构建方法和系统 Download PDFInfo
- Publication number
- CN110970112A CN110970112A CN201811146167.3A CN201811146167A CN110970112A CN 110970112 A CN110970112 A CN 110970112A CN 201811146167 A CN201811146167 A CN 201811146167A CN 110970112 A CN110970112 A CN 110970112A
- Authority
- CN
- China
- Prior art keywords
- entity
- data
- entities
- page
- data source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 235000016709 nutrition Nutrition 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000035764 nutrition Effects 0.000 title claims abstract description 8
- 238000010276 construction Methods 0.000 claims abstract description 8
- 238000013507 mapping Methods 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims description 27
- 238000005516 engineering process Methods 0.000 claims description 9
- 230000001502 supplementing effect Effects 0.000 claims description 4
- 239000007787 solid Substances 0.000 claims description 3
- 201000010099 disease Diseases 0.000 description 11
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 11
- 239000003814 drug Substances 0.000 description 11
- 235000013305 food Nutrition 0.000 description 11
- 239000000463 material Substances 0.000 description 11
- 235000015097 nutrients Nutrition 0.000 description 11
- 208000024891 symptom Diseases 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 210000001520 comb Anatomy 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/60—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to nutrition control, e.g. diets
Landscapes
- Health & Medical Sciences (AREA)
- Nutrition Science (AREA)
- Engineering & Computer Science (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Machine Translation (AREA)
Abstract
本申请提出一种面向营养健康的知识图谱构建方法和系统,所述方法包括:确定营养健康相关的数据源,从中收集与营养健康相关的本体数据,并分别为每个数据源建立一个本体结构;根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体;根据各数据源的索引信息确定所述实体之间的关联关系;根据所述实体以及所述实体之间的关联关系建立所述知识图谱。完成针对营养健康领域的知识图谱的构建,建立完善的知识图谱。
Description
技术领域
本发明涉及大数据处理领域,具体涉及一种面向营养健康的知识图谱构建方法和系统。
背景技术
目前,随着语义网的不断发展,万维网中含有越来越多的本体的形式的知识。本体作为一种新颖的知识表现形式,在语义网的发展扮演着极其重要的作用,基于本体的应用也越来越多。随着语义网中的本体的不断增加,必然存在相关或相同的应用领域存在相近或相同的本体,由于这些本体的来源不同,本体的构建方式不同,因此这些本体之间可以信息互补,因此要建立一个完善的知识图谱,必须基于多种不同的数据源。
由于数据源不同,本体的构建方式不同,语义异构成了构建知识图谱的最大的问题。近年来,国内外虽然有很多新的系统被研发出来,但是依然没有综合针对食谱、食材、营养素、疾病症状、人群、中医体质和运动领域知识图谱,仅仅已有的领域无关的图谱,无法挖掘依然没有综合针对食谱、食材、营养素、疾病症状、人群、中医体质和运动领域的更深层次的信息,因此,创建的知识图谱达不到实用的标准。
发明内容
本发明提供一种面向营养健康的知识图谱构建方法和系统,建立完善的面向营养健康知识图谱。
为了实现上述发明目的,本发明采取的技术方案如下:
第一方面,本发明提供一种面向营养健康的知识图谱构建方法,包括:
确定营养健康相关的数据源,从中收集与营养健康相关的本体数据,并分别为每个数据源建立一个本体结构;
根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体;
根据各数据源的索引信息确定所述实体之间的关联关系;
根据所述实体以及所述实体之间的关联关系建立所述知识图谱。
优选地,所述数据源至少包括以下之一:网页以及书籍。
优选地,所述根据各数据源的索引信息确定所述实体之间的关联关系包括:
所述数据源为网页,所述索引信息为所述网页中的超链接;
当所述超链接跳转的页面为另一实体的介绍页时,建立所述跳转页面介绍的实体与当前实体的关系;对超链接跳转名进行语义解析,根据语义解析结果确定所述跳转页面介绍的实体与当前实体的关系的内容;
当所述超链接跳转的页面不是已有实体的介绍页时,判断所述跳转页面介绍的实体是否与所述知识图谱相关;
当所述跳转页面介绍的实体与所述知识图谱无关时,则忽略所述跳转页面介绍的实体;
当所述跳转页面介绍的实体与所述知识图谱相关时,则补充所述跳转页面介绍的实体的定义,并创建所述跳转页面介绍的实体与当前实体的关系,对超链接跳转名进行语义解析,根据语义解析结果确定所述跳转页面介绍的实体与当前实体的关系的内容。
优选地,所述根据各数据源的索引信息确定所述实体之间的关联关系包括:
所述数据源为书籍,所述索引信息为所述书籍中的目录以及参考文献信息;
当所述目录或者参考文件信息是另一实体的描述时,建立所述描述的实体与当前实体的关系;对目录名称或参考文献名称进行语义解析,根据语义解析结果确定所述描述的实体与当前实体的关系的内容;
当所述目录或者参考文件信息不是已有实体的描述时,判断所述描述的实体是否与所述知识图谱相关;
当所述描述的实体与所述知识图谱无关时,则忽略描述的实体;
当所述描述的实体与所述知识图谱相关时,则补充所述描述的实体定义,并创建所述描述的实体与当前实体的关系;对目录名称或参考文献名称进行语义解析,根据语义解析结果确定所述描述的实体与当前实体的关系的内容。
优选地,根据各数据源的索引信息确定所述实体之间的关联关系之后还包括:
根据所述实体之间的关联关系进行关系推理;
根据关系的传递性和所述实体之间的关联关系,推理出实体之间没有介绍的潜在的关系;
根据所述实体的特征和所述实体之间存在的关联关系,推理出具有相似特征的其它实体与所述实体之间的关联关系。
优选地,收集与营养健康相关的本体数据包括以下至少之一:
通过网页爬虫技术从营养健康相关的网站中获得本体数据;
通过文字识别技术从营养健康相关的书籍中获得本体数据。
优选地,为每个数据源建立一个本体结构包括:
从数据源的层级结构和/或目录信息中建立对应的多个结构树,并提取每个节点的关键字作为标签;
按照所述标签对所获得的多个结构树进行合并获得本体结构。
优选地,按照所述标签对所获得的多个结构树进行合并获得本体结构树包括:
添加抽象父节点,按照所述标签对所获得的多个结构树合并至成一个结构树;
比较合并后的结构树的同一层节点的名称,将名称相同的节点作为同一本体对象;
如果存在多个同名对象,则比较其标签;
如果标签不同,则将同名对象合并;如果标签相同而描述不同,则确定同名对象冲突;
将合并后的结构树作为本体结构。
优选地,根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体包括:
如果本体结构的节点是可合并的,则合并不同数据源的数据,形成对应的实体结构;
如果本体结构的节点是冲突的,则舍弃标记的数据源的数据,形成对应的实体结构;
如果本体结构树的节点为非合并或非冲突的,则提取所述数据源的数据;形成对应的实体结构。
第二方面,本发明还提供一种面向营养健康的知识图谱构建系统,其特征在于,包括:
建立模块,被配置为确定营养健康相关的数据源,从中收集与营养健康相关的本体数据,并分别为每个数据源建立一个本体结构;
合并模块,被配置为根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体;
关系模块,被配置为根据各数据源的索引信息确定所述实体之间的关联关系;
图谱模块,被配置为根据所述实体以及所述实体之间的关联关系建立所述知识图谱。
本发明完成针对营养健康领域的知识图谱的构建,建立完善的知识图谱。具有如下有益效果:
1、本发明获取多个数据源中涉及食谱、食材、营养素、疾病症状、人群、中医体质、运动的本体数据,针对不同数据源采用不同的数据获取方式,实现准确、全面的获取本体数据;
2、本发明综合多个领域和多个数据源的本体数据,建立完善的跨领域的本体结构,进而建立完善的知识图谱;
3、本发明根据已存在的实体之间的关联关系,可以推理出诸多潜在的关系,大大提升知识图谱的实用性;
4、本发明对于同一数据源的多个领域获得的本体数据存在冲突时,采用节点标签比较的方式进行合并处理,有很好的处理效果,本体的内容相比单一自然文本所描述的更加丰富准确;
5、本发明对于不同数据源获得的本体结构,通过合并或舍弃的方式梳理实体的属性;
6、本发明针对食谱、食材、营养素、疾病症状、人群、中医体质、运动多个领域,综合本体数据,基于已有的关系推导出不同领域下在自然文本中都没有明确提及实体之间的关系,可以很好的完善知识图谱的逻辑关系。
附图说明
图1为本发明实施例的面向营养健康的知识图谱构建方法的流程图;
图2为本发明实施例的关系推理的示意图;
图3为本发明实施例的关系推理的示意图;
图4为本发明实施例的合并结构树的示意图;
图5为本发明实施例的合并结构树的示意图;
图6为本发明实施例的面向营养健康的知识图谱构建系统的结构示意图;
图7为本发明实施例1知识图谱构建流程图;
图8为本发明实施例1的合并结构树的示意图;
图9为本发明实施例1的合并结构树的示意图;
图10为本发明实施例1的关系推理的示意图;
图11为本发明实施例1的关系推理的示意图。
具体实施方式
为使本发明的发明目的、技术方案和有益效果更加清楚明了,下面结合附图对本发明的实施例进行说明,需要说明的是,在不冲突的情况下,本申请中的实施例和实施例中的特征可以相互任意组合。
如图1所示,本发明实施例提供一种面向营养健康的知识图谱构建方法,包括:
S101、确定营养健康相关的数据源,从中收集与营养健康相关的本体数据,并分别为每个数据源建立一个本体结构;
S102、根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体;
S103、根据各数据源的索引信息确定所述实体之间的关联关系;
S104、根据所述实体以及所述实体之间的关联关系建立所述知识图谱。
本发明实施例中,步骤S101中所述数据源可以至少包括以下之一:网页以及书籍。
本发明实施例首先确定数据源,包括网页和书籍,获取网页和书籍数据源中涉及食谱、食材、营养素、疾病症状、人群、中医体质、运动的本体数据,能够准确、全面的获取本体数据。
本发明实施例中,步骤S103中所述根据各数据源的索引信息确定所述实体之间的关联关系包括:
所述数据源为网页,所述索引信息为所述网页中的超链接;
从所述网页的超链接跳转关系中抽取与当前实体和/或所述知识图谱相关的实体;
建立所述跳转页面介绍的实体与当前实体的关系。
本发明实施例中,当所述数据源为网页,所述索引信息为所述网页中的超链接时:
当所述超链接跳转的页面为另一实体的介绍页时,建立所述跳转页面介绍的实体与当前实体的关系;对超链接跳转名进行语义解析,根据语义解析结果确定所述跳转页面介绍的实体与当前实体的关系的内容;
当所述超链接跳转的页面不是已有实体的介绍页时,判断所述跳转页面介绍的实体是否与所述知识图谱相关;
当所述跳转页面介绍的实体与所述知识图谱无关时,则忽略所述跳转页面介绍的实体;
当所述跳转页面介绍的实体与所述知识图谱相关时,则补充所述跳转页面介绍的实体的定义,并创建所述跳转页面介绍的实体与当前实体的关系;对超链接跳转名进行语义解析,根据语义解析结果确定所述跳转页面介绍的实体与当前实体的关系的内容。
本发明实施例中,步骤S103中所述根据各数据源的索引信息确定所述实体之间的关联关系包括:
所述数据源为书籍,所述索引信息为所述书籍中的目录以及参考文献信息;
从所述书籍的目录或参考文献信息中抽取与当前实体和/或所述知识图谱相关的实体;
建立所述目录或者参考文件信息描述的实体与当前实体的关系。
本发明实施例中,当所述数据源为书籍,所述索引信息为所述书籍中的目录以及参考文献信息时:
当所述目录或者参考文件信息是另一实体的描述时,建立所述描述的实体与当前实体的关系;对目录名称或参考文献名称进行语义解析,根据语义解析结果确定所述描述的实体与当前实体的关系的内容;
当所述目录或者参考文件信息不是已有实体的描述时,判断所述描述的实体是否与所述知识图谱相关;
当所述描述的实体与所述知识图谱无关时,则忽略描述的实体;
当所述描述的实体与所述知识图谱相关时,则补充所述描述的实体定义,并创建所述描述的实体与当前实体的关系;对目录名称或参考文献名称进行语义解析,根据语义解析结果确定所述描述的实体与当前实体的关系的内容;。
本发明实施例中在抽取实体关系时,从食谱、食材、营养素、疾病症状、人群、中医体质、运动的网页中本体介绍页中的所有超链接,实体的关系则基于这些超链接抽取;如果超链接跳转的页面是另一实体的介绍页,则直接建立这两个实体的关系,本发明实施例在确定两个实体的关系时,对超链接跳转名进行语义解析,根据语义解析结果确定所述跳转页面介绍的实体与当前实体的关系的内容,例如关系名为超链接的跳转名;如果跳转的页面不是已有实体的介绍页,则有两种情况:跳转页面和知识图谱无关,可以忽略;跳转页面和知识图谱相关,说明结构树定义有遗漏,需要补充本体定义、抽取实体后,再创建关系。本发明实施例中在抽取实体关系时,从食谱、食材、营养素、疾病症状、人群、中医体质、运动的书籍中的目录以及参考文献信息确定实体关系与网页相似。
本发明实施例中利用超链接、目录、参考文件确定尸体之间的关系,并根据语义解析结果确定关系内容,在进行实体抽取时涉及的数据量小,并且确定的关系明确、准确。
本发明实施例中,根据各数据源的索引信息确定所述实体之间的关联关系之后还包括:
根据所述实体之间的关联关系进行关系推理;
根据关系的传递性和所述实体之间的关联关系,推理出实体之间没有介绍的潜在的关系;
根据所述实体的特征和所述实体之间存在的关联关系,推理出具有相似特征的其它实体与所述实体之间的关联关系。
本发明实施例可以根据所述实体的特征和所述实体之间已存在的A关系,推理出具有相似特征的其它实体与所述实体拥有A关系。
本发明实施例中,在进行关系推理时根据步骤S103中获取的实体关系,推理出不同实体之间的新关系。新关系主要有两种推理逻辑:
根据关系的传递性,可以推理出本体数据中没有介绍的潜在的关系:如图2所示,比如对象A和对象B有关系1,对象B和对象C也有关系1,那么对象A和对象C也有可能具有关系1。
根据实体的特征和已有的关系,可以推理出具有相似特征的其它实体,也拥有上述已存在的关系。例如,对象A拥有特征a,对象A和对象C存在关系1,对象B也拥有特征a,则对象B与对象C也可能存在关系1。如图3所示,根据已存在的因果关系,可以建立不同领域下的对象之间的关系,比如对象A和对象C有关系1,对象B与对象A具有相似的特征,那么对象A和对象C也有可能具有关系1,再例如对象A和对象B有关系1,对象B和对象C有关系2,那么对象A和对象C也有可能具有关系1。
本发明实施例针对食谱、食材、营养素、疾病症状、人群、中医体质、运动多个领域,综合本体数据,根据已存在的实体之间的关联关系,推导出不同领域下、在自然文本中都没有明确提及、潜在的实体之间的关系,可以很好的完善知识图谱的逻辑关系,大大提升知识图谱的实用性。
本发明实施例中,步骤S101中收集与营养健康相关的本体数据包括以下至少之一:
通过网页爬虫技术从营养健康相关的网站中获得本体数据;
通过文字识别技术从营养健康相关的书籍中获得本体数据。
本发明实施例针对不同数据源采用不同的数据获取方式,可以综合多个领域和多个数据源的本体数据,建立完善的跨领域的本体结构,进而建立完善的知识图谱。
本发明实施例中,步骤S101中为每个数据源建立一个本体结构包括:
从数据源的层级结构和/或目录信息中建立对应的多个结构树,并提取每个节点的关键字作为标签;
按照所述标签对所获得的多个结构树进行合并获得本体结构。
本发明实施例中,按照所述标签对所获得的多个结构树进行合并获得本体结构树包括:
添加抽象父节点,按照所述标签对所获得的多个结构树合并至成一个结构树;
比较合并后的结构树的同一层节点的名称,将名称相同的节点作为同一本体对象;
如果存在多个同名对象,则比较其标签;
如果标签不同,则将同名对象合并;如果标签相同而描述不同,则确定同名对象冲突;
将合并后的结构树作为本体结构。
随着语义网的不断发展,万维网中含有越来越多的本体的形式的知识,不同来源本体构建方式不同,可以信息互补。因此,要建立一个完善的知识图谱,不能基于单一的数据源,所以多种数据源带来的语义异构问题,是构建本体的最大挑战。构造本体结构的步骤:
通过网页爬虫和OCR技术,从食谱、食材、营养素、疾病症状、人群、中医体质、运动的相关网站和书籍获取本体数据;
通过数据源的结构,比如网站介绍的层级结构、书籍的目录结构,建立与之对应的结构树(每个数据源建立一个结构树),并提取每个节点的关键字作为标签,比如人群的年龄段、性别,味道等都是标签,标签对应的是实体的属性。
如果是书籍,则完全按照目录的结构建立即可。
如果是网站,需要分析网址的结构(比如hostname、href径深等),并记录当前连接和父链接的结构,对比当前页面内跳转链接的结构,如果不符合当前的结构则不再爬取;对当前页面的内容做分析,如果内容和目录介绍不一致则不爬取。
本发明对于同一数据源的多个领域获得的本体数据存在冲突时,采用节点标签比较的方式进行合并处理,有很好的处理效果,本体的内容相比单一自然文本所描述的更加丰富准确。
如图4所示,对创建的结构树,进行简单合并,以保证数据的完整性为首要目的,通过添加抽象父节点,将多个结构树合并至成一个结构树;
对简单合并后的结构树进行逻辑合并,消除冗余信息。如图5所示,同一层的节点,通过名称和标签比较,如果名称相同则视为同一个本体对象,如果存在多个同名对象,则比较其标签,如果标签不同,则同名对象合并;如果标签相同而描述不同,则定义冲突。本发明实施例可以将有冲突的合并节点逐一列出,基于TFIDF(Term Frequency–InverseDocument Frequency,用于信息检索与数据挖掘的常用加权技术)计算标签的描述与目录描述的相似度,根据所述相似度计算结果,最终决定是合并还是舍弃。
本发明实施例中,步骤S102中根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体包括:
如果本体结构的节点是可合并的,则合并不同数据源的数据,形成对应的实体结构;
如果本体结构的节点是冲突的,则舍弃标记的数据源的数据,形成对应的实体结构;
如果本体结构树的节点为非合并或非冲突的,则提取所述数据源的数据;形成对应的实体结构。
本发明实施例中对本体结构,抽取对应数据源的数据,并映射至实体结构对应节点下的实体,实体结构中节点定义的标签,抽取时获取其值作为实体的属性。抽取逻辑如下:
如果结构树的节点是普通节点(没有合并或冲突),则直接抽取。
如果结构树的节点是合并的,则合并两个数据源的数据
如果结构树的节点是有冲突的,则舍弃人工标记的数据源的数据。
本发明对于不同数据源获得的本体结构,通过合并或舍弃的方式梳理实体的属性。
如图6所示,本发明实施例还提供一种面向营养健康的知识图谱构建系统,包括:
建立模块100,被配置为确定营养健康相关的数据源,从中收集与营养健康相关的本体数据,并分别为每个数据源建立一个本体结构;
合并模块200,被配置为根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体;
关系模块300,被配置为根据各数据源的索引信息确定所述实体之间的关联关系;
图谱模块400,被配置为根据所述实体以及所述实体之间的关联关系建立所述知识图谱。
实施例一
如图7所示,本实施例说明面向营养健康领域的知识图谱构建的过程:
1)构造本体结构:
1a)通过爬虫、ORC技术从食谱、食材、营养素、疾病症状、人群、中医体质和运动的网站、书籍中获取本体数据;
1b)通过网站或书籍的结构,为每一个数据源建立一个本体结构,本实施例中本体结构为结构树;
1c)如图8所示,通过简单合并将多个结构树并成一个结构树;
1d)如图9所示,通过逻辑合并,将步骤1c)获得的结构树去除冗余节点,构造结构树,发现实体“蔬菜”在两个数据源下分别有“绿色”标签,对应的描述分别是指颜色和种植方法,则分别计算出描述的相似度做判断的辅助参数,最终决定是合并还是舍弃一个数据源的数据;
2)抽取实体:
2a)如果结构树的节点是普通节点(没有合并或冲突),则直接抽取;
2b)如果结构树的节点是合并的,则合并两个数据源的数据;
2c)如果结构树的节点是有冲突的,则舍弃一个数据源的数据;
3)抽取实体关系:
3a)从食谱、食材、营养素、疾病症状、人群、中医体质、运动的网站中本体介绍页中的所有超链接,实体的关系则基于这些超链接抽取;
3b)如果超链接跳转的页面是另一实体的介绍页,则直接建立这两个实体的关系,关系名为超链接的跳转名;
3c)如果跳转的页面不是已有实体的介绍页,则有两种情况:跳转页面和知识图谱无关,可以忽略;跳转页面和知识图谱相关;结构树定义有遗漏,需要人工补充本体定义、抽取实体后,再创建关系;
4)关系推理:
4a)根据步骤3获取的实体关系,推理出不同实体之间的新关系。新关系主要有两种推理逻辑。
4b)如图10所示,根据关系的传递性,可以推理出本体数据中没有介绍的潜在的关系;
4c)如图11所示,根据实体的特征和已有的关系,可以推理出具有相似特征的其它实体,也拥有已存在的关系;根据已存在的因果关系,可以建立不同领域下的对象之间的关系。
虽然本发明所揭示的实施方式如上,但其内容只是为了便于理解本发明的技术方案而采用的实施方式,并非用于限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭示的核心技术方案的前提下,可以在实施的形式和细节上做任何修改与变化,但本发明所限定的保护范围,仍须以所附的权利要求书限定的范围为准。
Claims (10)
1.一种面向营养健康的知识图谱构建方法,其特征在于,包括:
确定营养健康相关的数据源,从中收集与营养健康相关的本体数据,并分别为每个数据源建立一个本体结构;
根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体;
根据各数据源的索引信息确定所述实体之间的关联关系;
根据所述实体以及所述实体之间的关联关系建立所述知识图谱。
2.如权利要求1所述的方法,其特征在于,所述数据源至少包括以下之一:网页以及书籍。
3.如权利要求2所述的方法,其特征在于,所述根据各数据源的索引信息确定所述实体之间的关联关系包括:
所述数据源为网页,所述索引信息为所述网页中的超链接;
当所述超链接跳转的页面为另一实体的介绍页时,建立所述跳转页面介绍的实体与当前实体的关系;对超链接跳转名进行语义解析,根据语义解析结果确定所述跳转页面介绍的实体与当前实体的关系的内容;
当所述超链接跳转的页面不是已有实体的介绍页时,判断所述跳转页面介绍的实体是否与所述知识图谱相关;
当所述跳转页面介绍的实体与所述知识图谱无关时,则忽略所述跳转页面介绍的实体;
当所述跳转页面介绍的实体与所述知识图谱相关时,则补充所述跳转页面介绍的实体的定义,并创建所述跳转页面介绍的实体与当前实体的关系,对超链接跳转名进行语义解析,根据语义解析结果确定所述跳转页面介绍的实体与当前实体的关系的内容。
4.如权利要求2所述的方法,其特征在于,所述根据各数据源的索引信息确定所述实体之间的关联关系包括:
所述数据源为书籍,所述索引信息为所述书籍中的目录以及参考文献信息;
当所述目录或者参考文件信息是另一实体的描述时,建立所述描述的实体与当前实体的关系;对目录名称或参考文献名称进行语义解析,根据语义解析结果确定所述描述的实体与当前实体的关系的内容;
当所述目录或者参考文件信息不是已有实体的描述时,判断所述描述的实体是否与所述知识图谱相关;
当所述描述的实体与所述知识图谱无关时,则忽略描述的实体;
当所述描述的实体与所述知识图谱相关时,则补充所述描述的实体定义,并创建所述描述的实体与当前实体的关系;对目录名称或参考文献名称进行语义解析,根据语义解析结果确定所述描述的实体与当前实体的关系的内容。
5.如权利要求3或4所述的方法,其特征在于,根据各数据源的索引信息确定所述实体之间的关联关系之后还包括:
根据所述实体之间的关联关系进行关系推理;
根据关系的传递性和所述实体之间的关联关系,推理出实体之间没有介绍的潜在的关系;
根据所述实体的特征和所述实体之间存在的关联关系,推理出具有相似特征的其它实体与所述实体之间的关联关系。
6.如权利要求2-4中任一项所述的方法,其特征在于,收集与营养健康相关的本体数据包括以下至少之一:
通过网页爬虫技术从营养健康相关的网站中获得本体数据;
通过文字识别技术从营养健康相关的书籍中获得本体数据。
7.如权利要求2-4中任一项所述的方法,其特征在于,为每个数据源建立一个本体结构包括:
从数据源的层级结构和/或目录信息中建立对应的多个结构树,并提取每个节点的关键字作为标签;
按照所述标签对所获得的多个结构树进行合并获得本体结构。
8.如权利要求7所述的方法,其特征在于,按照所述标签对所获得的多个结构树进行合并获得本体结构树包括:
添加抽象父节点,按照所述标签对所获得的多个结构树合并至成一个结构树;
比较合并后的结构树的同一层节点的名称,将名称相同的节点作为同一本体对象;
如果存在多个同名对象,则比较其标签;
如果标签不同,则将同名对象合并;如果标签相同而描述不同,则确定同名对象冲突;
将合并后的结构树作为本体结构。
9.根据权利要求2-4中任一项所述的方法,其特征在于,根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体包括:
如果本体结构的节点是可合并的,则合并不同数据源的数据,形成对应的实体结构;
如果本体结构的节点是冲突的,则舍弃标记的数据源的数据,形成对应的实体结构;
如果本体结构树的节点为非合并或非冲突的,则提取所述数据源的数据;形成对应的实体结构。
10.一种面向营养健康的知识图谱构建系统,其特征在于,包括:
建立模块,被配置为确定营养健康相关的数据源,从中收集与营养健康相关的本体数据,并分别为每个数据源建立一个本体结构;
合并模块,被配置为根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体;
关系模块,被配置为根据各数据源的索引信息确定所述实体之间的关联关系;
图谱模块,被配置为根据所述实体以及所述实体之间的关联关系建立所述知识图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811146167.3A CN110970112B (zh) | 2018-09-29 | 2018-09-29 | 一种面向营养健康的知识图谱构建方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811146167.3A CN110970112B (zh) | 2018-09-29 | 2018-09-29 | 一种面向营养健康的知识图谱构建方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110970112A true CN110970112A (zh) | 2020-04-07 |
CN110970112B CN110970112B (zh) | 2024-03-12 |
Family
ID=70027145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811146167.3A Active CN110970112B (zh) | 2018-09-29 | 2018-09-29 | 一种面向营养健康的知识图谱构建方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110970112B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111897969A (zh) * | 2020-07-27 | 2020-11-06 | 武汉大学 | 一种基于知识图谱的食物成分和营养健康的关联性分析方法及系统 |
CN112507138A (zh) * | 2020-12-28 | 2021-03-16 | 医渡云(北京)技术有限公司 | 专病知识图谱构建方法及装置、介质及电子设备 |
CN112802578A (zh) * | 2020-12-23 | 2021-05-14 | 四川长虹电器股份有限公司 | 基于食物健康特征知识库的食物、菜谱推荐方法 |
CN113486186A (zh) * | 2020-08-27 | 2021-10-08 | 青岛海信电子产业控股股份有限公司 | 一种健康饮食知识图谱构建、食材推荐方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183869A (zh) * | 2015-09-16 | 2015-12-23 | 分众(中国)信息技术有限公司 | 楼宇知识图谱数据库及其构建方法 |
CN105550190A (zh) * | 2015-06-26 | 2016-05-04 | 许昌学院 | 面向知识图谱的跨媒体检索系统 |
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN106874378A (zh) * | 2017-01-05 | 2017-06-20 | 北京工商大学 | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 |
CN106919689A (zh) * | 2017-03-03 | 2017-07-04 | 中国科学技术信息研究所 | 基于术语释义知识单元的专业领域知识图谱动态构建方法 |
CN107887036A (zh) * | 2017-11-09 | 2018-04-06 | 北京纽伦智能科技有限公司 | 临床决策辅助系统的构建方法、装置及临床决策辅助系统 |
CN107967267A (zh) * | 2016-10-18 | 2018-04-27 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN108446368A (zh) * | 2018-03-15 | 2018-08-24 | 湖南工业大学 | 一种包装产业大数据知识图谱的构建方法及设备 |
-
2018
- 2018-09-29 CN CN201811146167.3A patent/CN110970112B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550190A (zh) * | 2015-06-26 | 2016-05-04 | 许昌学院 | 面向知识图谱的跨媒体检索系统 |
CN105183869A (zh) * | 2015-09-16 | 2015-12-23 | 分众(中国)信息技术有限公司 | 楼宇知识图谱数据库及其构建方法 |
CN107967267A (zh) * | 2016-10-18 | 2018-04-27 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN106874378A (zh) * | 2017-01-05 | 2017-06-20 | 北京工商大学 | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 |
CN106919689A (zh) * | 2017-03-03 | 2017-07-04 | 中国科学技术信息研究所 | 基于术语释义知识单元的专业领域知识图谱动态构建方法 |
CN107887036A (zh) * | 2017-11-09 | 2018-04-06 | 北京纽伦智能科技有限公司 | 临床决策辅助系统的构建方法、装置及临床决策辅助系统 |
CN108446368A (zh) * | 2018-03-15 | 2018-08-24 | 湖南工业大学 | 一种包装产业大数据知识图谱的构建方法及设备 |
Non-Patent Citations (1)
Title |
---|
吴运兵等: "基于多数据源的知识图谱构建方法研究", 《福州大学学报(自然科学版)》, vol. 45, no. 3, pages 329 - 335 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111897969A (zh) * | 2020-07-27 | 2020-11-06 | 武汉大学 | 一种基于知识图谱的食物成分和营养健康的关联性分析方法及系统 |
CN113486186A (zh) * | 2020-08-27 | 2021-10-08 | 青岛海信电子产业控股股份有限公司 | 一种健康饮食知识图谱构建、食材推荐方法 |
CN112802578A (zh) * | 2020-12-23 | 2021-05-14 | 四川长虹电器股份有限公司 | 基于食物健康特征知识库的食物、菜谱推荐方法 |
CN112802578B (zh) * | 2020-12-23 | 2022-03-15 | 四川长虹电器股份有限公司 | 基于食物健康特征知识库的食物、菜谱推荐方法 |
CN112507138A (zh) * | 2020-12-28 | 2021-03-16 | 医渡云(北京)技术有限公司 | 专病知识图谱构建方法及装置、介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110970112B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deepak et al. | Personalized and enhanced hybridized semantic algorithm for web image retrieval incorporating ontology classification, strategic query expansion, and content-based analysis | |
CN106874378B (zh) | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN103955529B (zh) | 一种互联网信息搜索聚合呈现方法 | |
CN110555153A (zh) | 一种基于领域知识图谱的问答系统及其构建方法 | |
Cantador et al. | Enriching ontological user profiles with tagging history for multi-domain recommendations | |
CN110970112B (zh) | 一种面向营养健康的知识图谱构建方法和系统 | |
CN101388022B (zh) | 一种融合文本语义和视觉内容的Web人像检索方法 | |
US20100036797A1 (en) | Semantic search engine | |
Hienert et al. | Digital library research in action–supporting information retrieval in sowiport | |
Lin et al. | An integrated approach to extracting ontological structures from folksonomies | |
KR20060017765A (ko) | 개념 네트워크 | |
CN102119383A (zh) | 便利内容检索服务系统内本体和语言模型生成的信息获取和汇聚方法及子系统 | |
CN103226578A (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
CN105117397B (zh) | 一种基于本体的医学文档语义关联检索方法 | |
CN101393565A (zh) | 基于本体的面向虚拟博物馆的搜索方法 | |
CN111813874B (zh) | 太赫兹知识图谱构建方法及系统 | |
Wang et al. | A novel blockchain oracle implementation scheme based on application specific knowledge engines | |
Das et al. | A CV parser model using entity extraction process and big data tools | |
CN106528633A (zh) | 一种基于关键词推荐的视频社会关注度提高方法 | |
CN112149422A (zh) | 一种基于自然语言的企业新闻动态监测方法 | |
CN111460173B (zh) | 一种甲状腺癌的疾病本体模型的构建方法 | |
US20120109965A1 (en) | System for automatic semantic-based mining | |
Banu et al. | A novel ensemble vision based deep web data extraction technique for web mining applications | |
Fung et al. | Discover information and knowledge from websites using an integrated summarization and visualization framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |