CN110019842A - 一种建立知识图谱的方法及装置 - Google Patents

一种建立知识图谱的方法及装置 Download PDF

Info

Publication number
CN110019842A
CN110019842A CN201811160597.0A CN201811160597A CN110019842A CN 110019842 A CN110019842 A CN 110019842A CN 201811160597 A CN201811160597 A CN 201811160597A CN 110019842 A CN110019842 A CN 110019842A
Authority
CN
China
Prior art keywords
entity
ontology
map
belonging
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811160597.0A
Other languages
English (en)
Inventor
葛婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201811160597.0A priority Critical patent/CN110019842A/zh
Publication of CN110019842A publication Critical patent/CN110019842A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种建立知识图谱的方法和装置,具体为,预先建立本体图谱,然后通过对非结构化或半结构化的知识文档进行语义分析,提取知识文档中的实体以及实体所属的本体。根据本体图谱中各个实体所属的本体之间的关系,可以确定出各个所提取的实体之间的关系,以建立包括各个实体之间的关系的实体图谱。将实体图谱中的每个实体与本体图谱中该实体所属的本体分别建立关联关系,从而建立出知识图谱。本申请将独立建立实体图谱和本体图谱,并通过本体图谱和实体图谱的对应实现本体与实体的关联,所建立的知识图谱是知识文档的结构化表达,方便知识管理和应用。同时,通过管理本体图谱,可以统一对实体图谱进行管理。

Description

一种建立知识图谱的方法及装置
技术领域
本申请涉及计算机技术领域,具体涉及一种建立知识图谱的方法及装置。
背景技术
在各个专业领域,随着时间的发展,会积累很多种类的知识。这些知识有些总结整理为书籍,有些流传于网络,有些存在于行业专家的头脑中,随着经验不断积累。这些知识构成了一个行业能够生存和发展的关键,更是行业创新不可缺少的部分。知识的归纳和整理是数字化、智能化过程中必不可少的环节。只有在原有知识的基础上,才能有更好的创新和发展。
在现有技术中,可以将知识进行收集、整理,保存到知识数据库中。但是,该方式至少对知识进行了整理,以便于检索,没有对知识进行结构化处理。知识数据库中的知识如果需要在智能化过程中应用,还需要进行大量的结构化处理,没有达到真正对某行业知识的管理及进行后续应用的目的。
发明内容
有鉴于此,本申请实施例提供一种建立知识图谱的方法及装置,以解决现有技术中知识未经结构化处理无法直接应用的技术问题。
为解决上述问题,本申请实施例提供的技术方案如下:
第一方面,本申请实施例提供了一种建立知识图谱的方法,所述方法包括:
获取预先建立的本体图谱,所述本体图谱包括各个本体之间的关系;
对知识文档进行语义分析,提取所述知识文档中的实体以及所述实体所属的本体,所述实体所属的本体在所述本体图谱中;
根据所述本体图谱中所述实体所属的本体之间的关系,确定各个所述实体之间的关系,建立包括各个所述实体之间的关系的实体图谱;
将所述实体图谱中的目标实体与所述本体图谱中所述目标实体所属的本体建立关联关系,生成知识图谱,所述目标实体分别取所述实体图谱中的每个实体。
在一种可能的实现方式中,所述实体图谱中的每个实体还具有包括该实体所属本体的本体标签。
在一种可能的实现方式中,所述将所述实体图谱中的目标实体与所述本体图谱中所述目标实体所属的本体建立关联关系,生成知识图谱,包括:
读取所述实体图谱中的目标实体的本体标签;
根据所述目标实体的本体标签在所述本体图谱中查找所述目标实体所属的本体;
将所述实体图谱中的目标实体与所述本体图谱中所述目标实体所属的本体建立关联关系,生成知识图谱。
在一种可能的实现方式中,所述方法还包括:
在所述实体图谱中查找待查找实体;
从所述实体图谱中获取与所述待查找实体具有关系的实体。
在一种可能的实现方式中,所述在所述实体图谱中查找待查找实体,包括:
获取待查找实体的本体标签;
在所述实体图谱中查找具有所述待查找实体的本体标签的实体;
在所述具有所述待查找实体的本体标签的实体中查找所述待查找实体。
在一种可能的实现方式中,所述方法还包括:
在所述本体图谱中添加新增本体;
提取所述知识文档中属于所述新增本体的实体;
根据所述本体图谱中所述新增本体与其他本体之间的关系,在所述实体图谱中添加所述属于所述新增本体的实体;
将所述实体图谱中所述属于所述新增本体的实体与所述本体图谱中的所述新增本体建立关联关系,更新所述知识图谱。
第二方面,本申请实施例提供了一种建立知识图谱的装置,所述装置包括:
第一获取单元,用于获取预先建立的本体图谱,所述本体图谱包括各个本体之间的关系;
第一提取单元,用于对知识文档进行语义分析,提取所述知识文档中的实体以及所述实体所属的本体,所述实体所属的本体在所述本体图谱中;
建立单元,用于根据所述本体图谱中所述实体所属的本体之间的关系,确定各个所述实体之间的关系,建立包括各个所述实体之间的关系的实体图谱;
生成单元,用于将所述实体图谱中的目标实体与所述本体图谱中所述目标实体所属的本体建立关联关系,生成知识图谱,所述目标实体分别取所述实体图谱中的每个实体。
在一种可能的实现方式中,所述实体图谱中的每个实体还具有包括该实体所属本体的本体标签。
在一种可能的实现方式中,所述生成单元,包括:
读取子单元,用于读取所述实体图谱中的目标实体的本体标签;
第一查找子单元,用于根据所述目标实体的本体标签在所述本体图谱中查找所述目标实体所属的本体;
生成子单元,用于将所述实体图谱中的目标实体与所述本体图谱中所述目标实体所属的本体建立关联关系,生成知识图谱。
在一种可能的实现方式中,所述装置还包括:
查找单元,用于在所述实体图谱中查找待查找实体;
第二获取单元,用于从所述实体图谱中获取与所述待查找实体具有关系的实体。
在一种可能的实现方式中,所述查找单元,包括:
获取子单元,用于获取待查找实体的本体标签;
第二查找子单元,用于在所述实体图谱中查找具有所述待查找实体的本体标签的实体;
第三查找子单元,用于在所述具有所述待查找实体的本体标签的实体中查找所述待查找实体。
在一种可能的实现方式中,所述装置还包括:
第一添加单元,用于在所述本体图谱中添加新增本体;
第二提取单元,用于提取所述知识文档中属于所述新增本体的实体;
第二添加单元,用于根据所述本体图谱中所述新增本体与其他本体之间的关系,在所述实体图谱中添加所述属于所述新增本体的实体;
更新单元,用于将所述实体图谱中所述属于所述新增本体的实体与所述本体图谱中的所述新增本体建立关联关系,更新所述知识图谱。
第三方面,本申请实施例提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行第一方面所述的建立知识图谱的方法。
第四方面,本申请实施例一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行第一方面所述的建立知识图谱的方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例预先建立本体图谱,然后通过对非结构化或半结构化的知识文档进行语义分析,提取知识文档中的实体以及实体所属的本体。根据本体图谱中各个实体所属的本体之间的关系,可以确定出各个所提取的实体之间的关系,以建立包括各个实体之间的关系的实体图谱。将实体图谱中的每个实体与本体图谱中该实体所属的本体分别建立关联关系,从而建立出知识图谱。本申请实施例将独立建立实体图谱和本体图谱,并通过本体图谱和实体图谱的对应实现本体与实体的关联,所建立的知识图谱是知识文档的结构化表达,方便知识管理和应用。同时,通过管理本体图谱,可以统一对实体图谱进行管理,实现行业知识的简单化统一管理。
附图说明
图1为本申请实施例提供的示例性应用场景的框架示意图;
图2为本申请实施例提供的一种建立知识图谱的方法的流程图;
图3为本申请实施例提供的一种本体图谱示意图;
图4为本申请实施例提供的一种实体图谱示意图;
图5为本申请实施例提供的一种知识图谱示意图;
图6为本申请实施例提供的另一种实体图谱示意图;
图7为本申请实施例提供的另一种知识图谱示意图;
图8为本申请实施例提供的一种建立知识图谱的装置结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
为便于理解本申请的技术方案,下面将先对本申请的背景技术进行说明。
发明人在对传统的知识管理研究中发现,传统的知识管理技术虽然针对各专业领域的知识进行了整理以便于检索,但并未对知识进行结构化处理,进而导致知识数据库中的知识无法直接应用于智能化过程,未真正实现对某行业知识的管理以及进行后续应用的目的。
基于此,本申请实施例针对各个专业领域,可以预先建立每个专业领域的本体图谱,该本体图谱包括各个本体之间的关系,然后通过对非结构化或半结构化的知识文档进行语义分析,提取知识文档中的实体以及实体所述的本体,再根据本体图谱中各个实体所述的本体之间的关系,确定所提取的各个实体之间的关系,从而建立包括各个实体之间的关系的实体图谱。将实体图谱中每个实体与本体图谱中的该实体所属的本体之间分别建立关联关系,从而建立知识图谱。本申请实施例可以分别建立本体图谱和实体图谱,并通过本体图谱与实体图谱的对应关系实现本体与实体的关联,所建立的知识图谱是知识文档的结构化表达,方便知识管理和应用。同时,可以通过本体图谱,统一对实体图谱进行管理,实现行业知识的简单化统一管理。
参见图1,该图为本申请实施例提供的示例性应用场景的框架示意图,其中,本申请实施例提供的建立知识图谱的方法可以应用于客户端10,该客户端10可以从服务器20中获取预先建立的本体图谱,并对知识文档进行语义分析,提取知识文档中的实体以及实体所属的本体,然后根据本体图谱建立实体图谱,进而将实体图谱中的每个实体与本体图谱中的该实体所属的本体建立关联关系,生成知识图谱。可以理解的是,本申请实施例提供的建立知识图谱的方法也可以应用于服务器20。
本领域技术人员可以理解,图1所示的框架示意图仅是本申请的实施方式可以在其中得以实现的一个示例,本申请实施方式的适用范围不受到该框架任何方面的限制。
需要注意的是,本申请实施例中的客户端10可以搭载在终端中,终端可以是现有的、正在研发的或将来研发的、能够通过任何形式的有线和/或无线连接(例如,Wi-Fi、LAN、蜂窝、同轴电缆等)实现与服务器交互的任何用户设备,包括但不限于:现有的、正在研发的或将来研发的智能手机、非智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机、大型计算机等。还需要注意的是,本申请实施例中服务器可以是现有的、正在研发的或将来研发的、能够对知识进行管理的应用服务的设备的一个示例。本申请的实施方式在此方面不受任何限制。
为便于理解本申请提供的技术方案,下面将结合附图对本申请实施例提供的一种建立知识图谱的方法进行说明。
参见图2,该图为本申请实施例提供的一种建立知识图谱的方法的流程图,如图2所示,该方法可以包括:
S201:获取预先建立的本体图谱。
本实施例中,为建立某专业领域的知识图谱,首先获取该专业领域已建立的本体图谱。该本体图谱是指对某专业领域中抽象概念集合以及每个抽象概念之间关系的一种表达方式。
在实际应用中,可以由某专业领域的专业人员建立属于本专业领域的本体图谱,从而可以通过该本体图谱可以获取各个本体之间的关系。当然,也可以采用自动方法建立本体图谱,为保证自动建立的本体图谱的准确性,可以由专业人员对初步建立的本体图谱进行校正。
例如,油田开采行业中,存在的本体可以有,油田、区块、油藏、油藏发现史、油藏类型、发现时间、开采时间等多个本体。可以根据存在的多个本体以及本体之间的关系建立油田行业的本体图谱,例如图3所示。其中,油田本体可以是指该油田的名称、区块本体是指该油田划分的区块数量,油藏本体是指该油田的油藏属性等等。需要说明的是,图3仅示出了油田行业部分本体图谱。
S202:对知识文档进行语义分析,提取知识文档中的实体以及该实体所属的本体。
本实施例中,对获取的知识文档进行语义分析,从该知识文档中提取实体以及该实体所属的本体。其中,实体是对应本体的具体事物。例如,油田本体可以对应的实体有,大庆油田、胜利油田、以及克拉玛依油田等具体的油田。同时,实体所属的本体需在本体图谱中,否则无法根据本体图谱中本体之间的关系,建立各个实体之间的关系。
例如,知识文档为“史南油田史深100断块为一典型的深层异常高压低渗砂岩沙三段油藏,平均孔隙度为18.5%,平均渗透率13.3×10-3μm,属于岩性油藏。于1993年12月被发现,并与1994年投入生产。1994年1月至1995年3月进行了第一开发阶段,主要进行弹性能量的开采,此次开采共投入59口井同时进行,日产量为414吨”。在具体实现时,通过对上述知识文档进行语义分析,可以提取该知识文档中所包括的实体为史南油田、史深100地区、沙三段等等,同时还可以提取每个实体所属的本体分别为油田本体、区块本体、油藏本体等等本体,上述本体均需包括在本体图谱中。
另外,需要说明的是,当知识文档中包括某一本体的多个实体时,例如包括多个油藏信息时,在提取实体时,还需要提取该实体所属的顶层实体,该顶层实体为本体图谱中最顶层本体对应的实体,以确定所提取实体分别所属的顶层实体。例如知识文档中既有史南油田的相关信息,也有大庆油田的相关信息,其中,史南油田的油藏类型为岩性油藏(即油藏类型本体对应有岩性油藏这一实体),大庆油田的油藏类型为底层油藏(即油藏类型本体对应有底层油藏这一实体),则在提取实体岩性油藏和底层油藏时,还需提取岩性油藏所属的顶层实体“史南油田”,底层油藏所述的顶层实体“大庆油田”,使岩性油藏与史南油田相对应,底层油藏与大庆油田相对应。史南油田和大庆油田对应油田本体,油田本体属于本体图谱中最顶层本体。
S203:根据本体图谱中实体所属的本体之间的关系,确定各个实体之间的关系,建立包括各个实体之间的关系的实体图谱。
本实施例中,本体图谱中包括各个本体之间的关系,而提取的实体所属的本体也在该本体图谱中,因此,可以根据本体图谱中各个本体之间的关系,确定所提取的各个实体之间的关系,从而建立包括各个实体之间的关系的实体图谱。
在实际应用中,可以对属于同一专业领域的所有知识文档进行语义分析,提取知识文档中的所有实体以及实体所属的本体,但实体所属的本体需在本体图谱中,然后根据本体图谱所包括的各个本体之间的关系建立实体图谱。当知识文档中仅包括一种顶层实体时,建立该顶层实体对应的实体图谱;当知识文档中包括多个顶层实体时,分别建立每个顶层实体对应的子实体图谱,则实体图谱可以包括多个子实体图谱。
例如,当知识文档中仅包括史南油田的相关信息,可以根据图3所示的本体图谱中各个本体之间的关系,建立实体图谱,如图4所示。当知识文档中包括多个油田的信息时,建立每个油田对应的子实体图谱,每个子实体图谱如图4所示,则油田行业的实体图谱包括多个子实体图谱。
在一种可能的实现方式中,当生成实体图谱时,可以在后续的研究中进行应用,具体可以为,在实体图谱中查找待查找实体;在实体图谱中获取与待查找实体具有关系的实体。具体实现时,可以以待查找实体为关键词在实体图谱中进行查找,以获取与该待查找实体具有关联关系的实体。
例如,待查找实体为沙三段,则可以以沙三段为关键词在实体图谱中搜索与沙三段具有关系的实体,通过搜索可以获取具有关系的实体有史深100地区、岩性油藏、史南油田。
需要说明的是,获取与待查找实体具有关系的实体,不仅包括与待查找实体具有直接关系的实体,也包括具有间接关系的实体。也就是,可以获取该待查找实体所属子实体图谱中的所有实体。例如,与沙三段具有直接关系的实体有岩性油藏、1993年12月、1994年等,间接关系的实体为史南油田、投产井数。
另外,当实体图谱中多个子实体图谱中均包括待查找实体时,则获取每个子实体图谱中与该待查找实体具有关系的实体。
S204:将实体图谱中的目标实体与本体图谱中目标实体所属的本体建立关联关系,生成知识图谱。
本实施例中,对于实体图谱中的任意一个实体,将该实体与本体图谱中该实体所属的本体之间建立关联关系,从而生成知识图谱。其中,目标实体分别取实体图谱中的每个实体。
例如,图4所示的实体图谱,该实体图谱中每一个实体均对应一个本体,史南油田属于油田本体,史深100地区属于区块本体等等。则将图4中的每个实体与图3所示的本体图谱之间建立关联关系,从而生成油田行业的知识图谱,例如图5所示。
通过上述实施例可知,本申请实施例预先建立本体图谱,然后通过对非结构化或半结构化的知识文档进行语义分析,提取知识文档中的实体以及实体所属的本体。根据本体图谱中各个实体所属的本体之间的关系,可以确定出各个所提取的实体之间的关系,以建立包括各个实体之间的关系的实体图谱。将实体图谱中的每个实体与本体图谱中该实体所属的本体分别建立关联关系,从而建立出知识图谱。本申请实施例将独立建立实体图谱和本体图谱,并通过本体图谱和实体图谱的对应实现本体与实体的关联,所建立的知识图谱是知识文档的结构化表达,方便知识管理和应用。同时,通过管理本体图谱,可以统一对实体图谱进行管理,实现行业知识的简单化统一管理。
在本申请实施例一种可能的实现方式中,为便于实体图谱中每个实体与本体图谱中该实体所述的本体之间建立关系,还可以在建立实体图谱时每个实体包括该实体所述本体的本体标签。当生成知识图谱时,根据实体图谱中每个实体所包括的本体标签与本体图谱中本体建立关联关系。
则S204可以为,首先读取实体图谱中的目标实体的本体标签;再根据目标实体的本体标签在本体图谱中查找目标实体所属的本体;最后,将实体图谱中的目标实体与本体图谱中目标实体所属的本体建立联系关系,生成知识图谱。
即针对实体图谱中的每个实体,获取该实体的本体标签,根据该本体标签在本体图谱中查找与本体标签对应的本体,然后将该本体以及本体标签对应的实体之间建立关联关系。当实体图谱中每个实体与本体图谱中的本体建立关联关系时,生成知识图谱。
为便于理解,在图4所示的实体图谱中添加每个实体所述本体的本体标签,则条件本体标签后的实体图谱如图6所示,则将图6所示的实体图谱与图3所示的本体图谱建立关联关系,生成知识图谱,如图7所示。
在实际应用中,当实体图谱中每个实体添加本体标签后,可以利用本体标签查找待查找实体,从而提高查找效率。具体可以为,获取待查找实体的本体标签;在实体图谱中查找具有待查找实体的本体标签的实体;在具有待查找实体的本体标签的实体中查找待查找实体。
在具体实现时,可以首先获取待查找实体的本体标签,然后在实体图谱中查找具有该本体标签的实体,再从在携带有该本体标签的实体中查找待查找实体。例如,待查实体为岩性油藏,其对应的本体标签为油藏类型,则在实体图谱中查找具有油藏类型该本体标签的实体,如果存在多个实体的本体标签为油藏类型,则先提取本体标签为油藏类型的多个实体,然后再从提取的多个实体中查找为岩性油藏,从而提高查找岩性油藏的效率。
可以理解的是,随着行业的不断发展,可能会出现新的本体或实体,为保证本体图谱的完整性以及新出现的实体具有对应的本体,还可以在本体图谱中添加新的本体。
基于此,一种可能的实现方式中,还可以包括,在本体图谱中添加新增本体;提取知识文档中属于该新增本体的实体;然后根据该本体图谱中新增本体与其他本体之间的关系,在实体图谱中添加所述属于该新增本体的实体;将实体图谱中属于该新增本体的实体与本体图谱中的该新增本体建立关联关系,更新知识图谱。
在具体实现时,可以根据该新增本体自身的属性在本体图谱中进行添加,然后提取知识文档中属于该新增本体的实体,并根据新增本体与其他本体之间的关系,在实体图谱中添加该新增本体对应的实体,并建立实体图谱中属于该新增本体的实体与本体图谱中该新增本体之间的关联关系,进而实现知识图谱的更新。
例如,新增本体为“压力特征”,该压力特征是指油藏的压力,则将“压力特征”添加到油藏本体之后,与“油藏发现史”、“油藏类型”、“开发历程”等本体并列。则提取的属于“压力特征”的实体A,与沙三段相连,与岩性油藏、1993年12月以及1994年等实体并列。
可见,通过建立实体图谱、本体图谱以及二者之间的关系,可以通过本体图谱对实体图谱进行统一管理,能够快速完成实体图谱的填充。
基于上述方法实施例,本申请还提供了一种建立知识图谱的装置,下面将结合附图对该装置进行说明。
参见图8,该图为本申请实施例提供的一种建立知识图谱的装置,如图8所示,该装置可以包括:
第一获取单元801,用于获取预先建立的本体图谱,所述本体图谱包括各个本体之间的关系;
第一提取单元802,用于对知识文档进行语义分析,提取所述知识文档中的实体以及所述实体所属的本体,所述实体所属的本体在所述本体图谱中;
建立单元803,用于根据所述本体图谱中所述实体所属的本体之间的关系,确定各个所述实体之间的关系,建立包括各个所述实体之间的关系的实体图谱;
生成单元804,用于将所述实体图谱中的目标实体与所述本体图谱中所述目标实体所属的本体建立关联关系,生成知识图谱,所述目标实体分别取所述实体图谱中的每个实体。
在一种可能的实现方式中,所述实体图谱中的每个实体还具有包括该实体所属本体的本体标签。
在一种可能的实现方式中,所述生成单元,包括:
读取子单元,用于读取所述实体图谱中的目标实体的本体标签;
第一查找子单元,用于根据所述目标实体的本体标签在所述本体图谱中查找所述目标实体所属的本体;
生成子单元,用于将所述实体图谱中的目标实体与所述本体图谱中所述目标实体所属的本体建立关联关系,生成知识图谱。
在一种可能的实现方式中,所述装置还包括:
查找单元,用于在所述实体图谱中查找待查找实体;
第二获取单元,用于从所述实体图谱中获取与所述待查找实体具有关系的实体。
在一种可能的实现方式中,所述查找单元,包括:
获取子单元,用于获取待查找实体的本体标签;
第二查找子单元,用于在所述实体图谱中查找具有所述待查找实体的本体标签的实体;
第三查找子单元,用于在所述具有所述待查找实体的本体标签的实体中查找所述待查找实体。
在一种可能的实现方式中,所述装置还包括:
第一添加单元,用于在所述本体图谱中添加新增本体;
第二提取单元,用于提取所述知识文档中属于所述新增本体的实体;
第二添加单元,用于根据所述本体图谱中所述新增本体与其他本体之间的关系,在所述实体图谱中添加所述属于所述新增本体的实体;
更新单元,用于将所述实体图谱中所述属于所述新增本体的实体与所述本体图谱中的所述新增本体建立关联关系,更新所述知识图谱。
需要说明的是,本实施例中各个模块的实现可以参见上述方法实施例,本实施例在此不再赘述。
通过上述描述,本申请实施例预先建立本体图谱,然后通过对非结构化或半结构化的知识文档进行语义分析,提取知识文档中的实体以及实体所属的本体。根据本体图谱中各个实体所属的本体之间的关系,可以确定出各个所提取的实体之间的关系,以建立包括各个实体之间的关系的实体图谱。将实体图谱中的每个实体与本体图谱中该实体所属的本体分别建立关联关系,从而建立出知识图谱。本申请实施例将独立建立实体图谱和本体图谱,并通过本体图谱和实体图谱的对应实现本体与实体的关联,所建立的知识图谱是知识文档的结构化表达,方便知识管理和应用。同时,通过管理本体图谱,可以统一对实体图谱进行管理,实现行业知识的简单化统一管理。
所述建立知识图谱的装置包括处理器和存储器,上述第一获取单元、第一提取单元、建立单元和生成单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来以解决现有技术中知识未经结构化处理无法直接应用的技术问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述建立知识图谱方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述建立知识图谱方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获取预先建立的本体图谱,所述本体图谱包括各个本体之间的关系;
对知识文档进行语义分析,提取所述知识文档中的实体以及所述实体所属的本体,所述实体所属的本体在所述本体图谱中;
根据所述本体图谱中所述实体所属的本体之间的关系,确定各个所述实体之间的关系,建立包括各个所述实体之间的关系的实体图谱;
将所述实体图谱中的目标实体与所述本体图谱中所述目标实体所属的本体建立关联关系,生成知识图谱,所述目标实体分别取所述实体图谱中的每个实体。
在一种可能的实现方式中,所述实体图谱中的每个实体还具有包括该实体所属本体的本体标签。
在一种可能的实现方式中,所述将所述实体图谱中的目标实体与所述本体图谱中所述目标实体所属的本体建立关联关系,生成知识图谱,包括:
读取所述实体图谱中的目标实体的本体标签;
根据所述目标实体的本体标签在所述本体图谱中查找所述目标实体所属的本体;
将所述实体图谱中的目标实体与所述本体图谱中所述目标实体所属的本体建立关联关系,生成知识图谱。
在一种可能的实现方式中,所述方法还包括:
在所述实体图谱中查找待查找实体;
从所述实体图谱中获取与所述待查找实体具有关系的实体。
在一种可能的实现方式中,所述在所述实体图谱中查找待查找实体,包括:
获取待查找实体的本体标签;
在所述实体图谱中查找具有所述待查找实体的本体标签的实体;
在所述具有所述待查找实体的本体标签的实体中查找所述待查找实体。
在一种可能的实现方式中,所述方法还包括:
在所述本体图谱中添加新增本体;
提取所述知识文档中属于所述新增本体的实体;
根据所述本体图谱中所述新增本体与其他本体之间的关系,在所述实体图谱中添加所述属于所述新增本体的实体;
将所述实体图谱中所述属于所述新增本体的实体与所述本体图谱中的所述新增本体建立关联关系,更新所述知识图谱。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取预先建立的本体图谱,所述本体图谱包括各个本体之间的关系;
对知识文档进行语义分析,提取所述知识文档中的实体以及所述实体所属的本体,所述实体所属的本体在所述本体图谱中;
根据所述本体图谱中所述实体所属的本体之间的关系,确定各个所述实体之间的关系,建立包括各个所述实体之间的关系的实体图谱;
将所述实体图谱中的目标实体与所述本体图谱中所述目标实体所属的本体建立关联关系,生成知识图谱,所述目标实体分别取所述实体图谱中的每个实体。
在一种可能的实现方式中,所述实体图谱中的每个实体还具有包括该实体所属本体的本体标签。
在一种可能的实现方式中,所述将所述实体图谱中的目标实体与所述本体图谱中所述目标实体所属的本体建立关联关系,生成知识图谱,包括:
读取所述实体图谱中的目标实体的本体标签;
根据所述目标实体的本体标签在所述本体图谱中查找所述目标实体所属的本体;
将所述实体图谱中的目标实体与所述本体图谱中所述目标实体所属的本体建立关联关系,生成知识图谱。
在一种可能的实现方式中,所述方法还包括:
在所述实体图谱中查找待查找实体;
从所述实体图谱中获取与所述待查找实体具有关系的实体。
在一种可能的实现方式中,所述在所述实体图谱中查找待查找实体,包括:
获取待查找实体的本体标签;
在所述实体图谱中查找具有所述待查找实体的本体标签的实体;
在所述具有所述待查找实体的本体标签的实体中查找所述待查找实体。
在一种可能的实现方式中,所述方法还包括:
在所述本体图谱中添加新增本体;
提取所述知识文档中属于所述新增本体的实体;
根据所述本体图谱中所述新增本体与其他本体之间的关系,在所述实体图谱中添加所述属于所述新增本体的实体;
将所述实体图谱中所述属于所述新增本体的实体与所述本体图谱中的所述新增本体建立关联关系,更新所述知识图谱。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种建立知识图谱的方法,其特征在于,所述方法包括:
获取预先建立的本体图谱,所述本体图谱包括各个本体之间的关系;
对知识文档进行语义分析,提取所述知识文档中的实体以及所述实体所属的本体,所述实体所属的本体在所述本体图谱中;
根据所述本体图谱中所述实体所属的本体之间的关系,确定各个所述实体之间的关系,建立包括各个所述实体之间的关系的实体图谱;
将所述实体图谱中的目标实体与所述本体图谱中所述目标实体所属的本体建立关联关系,生成知识图谱,所述目标实体分别取所述实体图谱中的每个实体。
2.根据权利要求1所述的方法,其特征在于,所述实体图谱中的每个实体还具有包括该实体所属本体的本体标签。
3.根据权利要求2所述的方法,其特征在于,所述将所述实体图谱中的目标实体与所述本体图谱中所述目标实体所属的本体建立关联关系,生成知识图谱,包括:
读取所述实体图谱中的目标实体的本体标签;
根据所述目标实体的本体标签在所述本体图谱中查找所述目标实体所属的本体;
将所述实体图谱中的目标实体与所述本体图谱中所述目标实体所属的本体建立关联关系,生成知识图谱。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述实体图谱中查找待查找实体;
从所述实体图谱中获取与所述待查找实体具有关系的实体。
5.根据权利要求4所述的方法,其特征在于,所述在所述实体图谱中查找待查找实体,包括:
获取待查找实体的本体标签;
在所述实体图谱中查找具有所述待查找实体的本体标签的实体;
在所述具有所述待查找实体的本体标签的实体中查找所述待查找实体。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述本体图谱中添加新增本体;
提取所述知识文档中属于所述新增本体的实体;
根据所述本体图谱中所述新增本体与其他本体之间的关系,在所述实体图谱中添加所述属于所述新增本体的实体;
将所述实体图谱中所述属于所述新增本体的实体与所述本体图谱中的所述新增本体建立关联关系,更新所述知识图谱。
7.一种建立知识图谱的装置,其特征在于,所述装置包括:
第一获取单元,用于获取预先建立的本体图谱,所述本体图谱包括各个本体之间的关系;
第一提取单元,用于对知识文档进行语义分析,提取所述知识文档中的实体以及所述实体所属的本体,所述实体所属的本体在所述本体图谱中;
建立单元,用于根据所述本体图谱中所述实体所属的本体之间的关系,确定各个所述实体之间的关系,建立包括各个所述实体之间的关系的实体图谱;
生成单元,用于将所述实体图谱中的目标实体与所述本体图谱中所述目标实体所属的本体建立关联关系,生成知识图谱,所述目标实体分别取所述实体图谱中的每个实体。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第一添加单元,用于在所述本体图谱中添加新增本体;
第二提取单元,用于提取所述知识文档中属于所述新增本体的实体;
第二添加单元,用于根据所述本体图谱中所述新增本体与其他本体之间的关系,在所述实体图谱中添加所述属于所述新增本体的实体;
更新单元,用于将所述实体图谱中所述属于所述新增本体的实体与所述本体图谱中的所述新增本体建立关联关系,更新所述知识图谱。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至6中任意一项所述的建立知识图谱的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任意一项所述的建立知识图谱的方法。
CN201811160597.0A 2018-09-30 2018-09-30 一种建立知识图谱的方法及装置 Pending CN110019842A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811160597.0A CN110019842A (zh) 2018-09-30 2018-09-30 一种建立知识图谱的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811160597.0A CN110019842A (zh) 2018-09-30 2018-09-30 一种建立知识图谱的方法及装置

Publications (1)

Publication Number Publication Date
CN110019842A true CN110019842A (zh) 2019-07-16

Family

ID=67188482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811160597.0A Pending CN110019842A (zh) 2018-09-30 2018-09-30 一种建立知识图谱的方法及装置

Country Status (1)

Country Link
CN (1) CN110019842A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457491A (zh) * 2019-08-19 2019-11-15 中国农业大学 一种基于游离状态节点的知识图谱重构方法及装置
CN111177399A (zh) * 2019-12-04 2020-05-19 华瑞新智科技(北京)有限公司 一种知识图谱构建方法和装置
CN111475604A (zh) * 2019-09-18 2020-07-31 北京国双科技有限公司 数据处理方法及装置
CN111737471A (zh) * 2020-06-28 2020-10-02 中国农业科学院农业信息研究所 一种基于知识图谱的档案管理模型构建方法及系统
CN111858962A (zh) * 2020-07-27 2020-10-30 腾讯科技(成都)有限公司 数据处理方法、装置及计算机可读存储介质
CN112486919A (zh) * 2020-11-13 2021-03-12 北京北大千方科技有限公司 文档管理方法、系统及存储介质
CN112528032A (zh) * 2019-09-18 2021-03-19 北京国双科技有限公司 油气数据处理方法及装置
CN113792152A (zh) * 2021-08-23 2021-12-14 南京信息工程大学 一种三角图与知识图谱的融合方法
CN115146075A (zh) * 2022-07-11 2022-10-04 中科雨辰科技有限公司 一种获取知识图谱的数据处理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183869A (zh) * 2015-09-16 2015-12-23 分众(中国)信息技术有限公司 楼宇知识图谱数据库及其构建方法
US20160259899A1 (en) * 2015-03-04 2016-09-08 Expeda ehf Clinical decision support system for diagnosing and monitoring of a disease of a patient
CN107657063A (zh) * 2017-10-30 2018-02-02 合肥工业大学 医学知识图谱的构建方法及装置
CN108549731A (zh) * 2018-07-11 2018-09-18 中国电子科技集团公司第二十八研究所 一种基于本体模型的知识图谱构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160259899A1 (en) * 2015-03-04 2016-09-08 Expeda ehf Clinical decision support system for diagnosing and monitoring of a disease of a patient
CN105183869A (zh) * 2015-09-16 2015-12-23 分众(中国)信息技术有限公司 楼宇知识图谱数据库及其构建方法
CN107657063A (zh) * 2017-10-30 2018-02-02 合肥工业大学 医学知识图谱的构建方法及装置
CN108549731A (zh) * 2018-07-11 2018-09-18 中国电子科技集团公司第二十八研究所 一种基于本体模型的知识图谱构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田萍芳: "《面向云出版的语义关键技术》", 30 April 2015 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457491A (zh) * 2019-08-19 2019-11-15 中国农业大学 一种基于游离状态节点的知识图谱重构方法及装置
CN112528032A (zh) * 2019-09-18 2021-03-19 北京国双科技有限公司 油气数据处理方法及装置
CN111475604A (zh) * 2019-09-18 2020-07-31 北京国双科技有限公司 数据处理方法及装置
WO2021051909A1 (zh) * 2019-09-18 2021-03-25 北京国双科技有限公司 油气数据处理方法及装置
CN111177399A (zh) * 2019-12-04 2020-05-19 华瑞新智科技(北京)有限公司 一种知识图谱构建方法和装置
CN111177399B (zh) * 2019-12-04 2023-06-16 华瑞新智科技(北京)有限公司 一种知识图谱构建方法和装置
CN111737471A (zh) * 2020-06-28 2020-10-02 中国农业科学院农业信息研究所 一种基于知识图谱的档案管理模型构建方法及系统
CN111737471B (zh) * 2020-06-28 2023-10-13 中国农业科学院农业信息研究所 一种基于知识图谱的档案管理模型构建方法及系统
CN111858962A (zh) * 2020-07-27 2020-10-30 腾讯科技(成都)有限公司 数据处理方法、装置及计算机可读存储介质
CN112486919A (zh) * 2020-11-13 2021-03-12 北京北大千方科技有限公司 文档管理方法、系统及存储介质
CN113792152A (zh) * 2021-08-23 2021-12-14 南京信息工程大学 一种三角图与知识图谱的融合方法
CN115146075A (zh) * 2022-07-11 2022-10-04 中科雨辰科技有限公司 一种获取知识图谱的数据处理系统
CN115146075B (zh) * 2022-07-11 2023-03-10 中科雨辰科技有限公司 一种获取知识图谱的数据处理系统

Similar Documents

Publication Publication Date Title
CN110019842A (zh) 一种建立知识图谱的方法及装置
US11941016B2 (en) Using specified performance attributes to configure machine learning pipepline stages for an ETL job
Yang et al. On construction of an energy monitoring service using big data technology for the smart campus
CN102270225B (zh) 数据变更日志监控方法和数据变更日志监控装置
CN107957957A (zh) 测试用例的获取方法和装置
CN105653691B (zh) 信息资源管理方法及管理装置
US9690843B2 (en) Data classification
CN106407303A (zh) 数据存储、查询方法及装置
CN111472754B (zh) 抽油机井的故障处理方法、装置、存储介质及电子设备
CN111382155A (zh) 一种数据仓库的数据处理方法、电子设备及介质
Liu et al. On construction of an energy monitoring service using big data technology for smart campus
Mohamed et al. A review on big data management and decision-making in smart grid
CN110019111A (zh) 数据处理方法、装置、存储介质以及处理器
Yeung et al. Integrating machine learning technology to data analytics for e-commerce on cloud
CN111625607A (zh) 油气知识图谱的构建方法、装置、电子设备和存储介质
CN102880677B (zh) 一种基于哈希的文件打包和读取方法
CN104572832B (zh) 一种需求元模型构建方法及装置
Pingos et al. A Data Lake Metadata Enrichment Mechanism via Semantic Blueprints.
CN103823881B (zh) 分布式数据库的性能优化的方法及装置
CN111475604A (zh) 数据处理方法及装置
US11797577B2 (en) Smart data warehouse for cloud-based reservoir simulation
CN103425490A (zh) 基于crm系统中运行对象数据的管理方法
US10997129B1 (en) Data set virtual neighborhood characterization, provisioning and access
CN102981817B (zh) 基于Hadoop的RFID中间件构件库设计方法
CN108241624A (zh) 一种查询脚本的生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190716

RJ01 Rejection of invention patent application after publication