CN110275894B - 一种知识图谱的更新方法、装置、电子设备及存储介质 - Google Patents

一种知识图谱的更新方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110275894B
CN110275894B CN201910549693.2A CN201910549693A CN110275894B CN 110275894 B CN110275894 B CN 110275894B CN 201910549693 A CN201910549693 A CN 201910549693A CN 110275894 B CN110275894 B CN 110275894B
Authority
CN
China
Prior art keywords
knowledge
ontology
triple
triples
updated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910549693.2A
Other languages
English (en)
Other versions
CN110275894A (zh
Inventor
张绍震
应雄
姜海军
楼承先
马佳军
赵晨煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hundsun Technologies Inc
Original Assignee
Hundsun Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hundsun Technologies Inc filed Critical Hundsun Technologies Inc
Priority to CN201910549693.2A priority Critical patent/CN110275894B/zh
Publication of CN110275894A publication Critical patent/CN110275894A/zh
Application granted granted Critical
Publication of CN110275894B publication Critical patent/CN110275894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种知识图谱的更新方法、装置、电子设备及存储介质,其中,方法包括:获取预先建立的本体模型,以及获取依据属于本体模型的知识三元组形成的知识图谱;在目标知识三元组中存在满足预设条件的知识三元组的情况下,将满足预设条件的知识三元组所对应的本体作为目标本体,并将满足预设条件的知识三元组所对应的本体关系作为目标本体关系;将目标本体与目标本体关系添加到本体模型,得到更新后的本体模型;至少从预设的结构化数据中,提取属于更新后的本体模型的知识三元组;采用属于更新后的本体模型的知识三元组,更新所述知识图谱。通过本申请达到随着预设领域的信息的更新,对知识图谱中所包含的实体和实体关系进行更新的效果。

Description

一种知识图谱的更新方法、装置、电子设备及存储介质
技术领域
本申请涉及知识图谱领域,特别是涉及一种知识图谱的更新方法及装置、一种电子设备,以及一种计算机可读存储介质。
背景技术
目前,任意一个领域的信息都存在着大量的实体和实体关系,为了更有效的对所存在的实体和实体关系进行分析和挖掘,需要将大量的实体和实体关系建立连接。
构建知识图谱为实体和实体关系建立连接提供了一个有效途径。具体的,知识图谱从逻辑关系的维度并以图形的方式将实体和实体关系进行展示。在实际应用中,可以利用知识图谱所建立的实体和实体关系进行挖掘和分析,例如,在金融领域预警潜在投资风险等。
随着信息技术的发展,各个领域的信息都在更新。为了使得基于知识图谱所分析得到的结果具有较高的准确性,需要随着领域信息的更新,对知识图谱中所包含的实体和实体关系进行更新。
发明内容
基于此,本申请提出了一种知识图谱的更新方法、装置、电子设备以及一种计算机可读存储介质,用以更新知识图谱中的实体与实体关系。
本申请提供的技术方案为:
本申请提供了一种知识图谱的更新方法,包括:
获取预先建立的本体模型,以及获取依据属于所述本体模型的知识三元组形成的知识图谱;
在目标知识三元组中存在满足预设条件的知识三元组的情况下,将满足所述预设条件的知识三元组所对应的本体作为目标本体,并将满足所述预设条件的知识三元组所对应的本体关系作为目标本体关系;所述目标知识三元组为从结构化数据,和/或,非结构化数据中提取的属于预设领域的知识三元组;所述预设条件至少包括:对应的本体与本体关系不属于所述本体模型;
将所述目标本体与所述目标本体关系添加到所述本体模型,得到更新后的本体模型;
至少从预设的结构化数据中,提取属于所述更新后的本体模型的知识三元组;
采用属于所述更新后的本体模型的知识三元组,更新所述知识图谱。
可选的,所述至少从预设的结构化数据中,提取属于所述更新后的本体模型的知识三元组,包括:
获取预设的第一采集策略;所述第一采集策略依据所述更新后的本体模型中的本体与本体关系建立,且所述第一采集策略用于采集属于所述更新后的本体模型的知识三元组;
从所述预设的结构化数据中采集满足所述第一采集策略的知识三元组为第一知识三元组;
将所述第一知识三元组作为属于所述更新后的本体模型的知识三元组。
可选的,在所述将所述第一知识三元组作为属于所述更新后的本体模型的知识三元组之前,还包括:
获取预设的第二采集策略;所述第二采集策略用于确定属于所述预设领域的知识三元组;
从预设的非结构化数据中,采集满足所述第二采集策略的知识三元组为第二知识三元组;
从所述第二知识三元组中,确定属于所述更新后的本体模型的知识三元组为第三知识三元组;
所述将所述第一知识三元组作为属于所述更新后的本体模型的知识三元组,具体为:将所述第一知识三元组与所述第三知识三元组,作为属于所述更新后的本体模型的知识三元组。
可选的,在将所述第一知识三元组与所述第三知识三元组,作为属于所述更新后的本体模型的知识三元组之前,还包括:
从所述第一知识三元组中,确定置信度大于预设的第一置信度阈值的第一知识三元组为第一目标知识三元组;针对任一所述第一知识三元组,该第一知识三元组的置信度为该第一知识三元组所来源于的结构化数据的置信度;
从所述第二知识三元组中,确定置信度大于预设的第二置信度阈值的第二知识三元组为第二目标知识三元组;针对任一所述第二知识三元组,该第二知识三元组的置信度为:该第二知识三元组的出现的次数与该第二知识三元组所来源于的非结构化数据的置信度间的加权和;该第二知识三元组的出现的次数为:从所述非结构化数据进行一次采集所得到的满足所述第二采集策略的知识三元组中,该第二知识三元组出现的次数;
所述从所述第二知识三元组中,确定属于所述更新后的本体模型的知识三元组为第三知识三元组,具体为:
从所述第二目标知识三元组中,确定属于所述更新后的本体模型的知识三元组为第三目标知识三元组;
所述将所述第一知识三元组与所述第三知识三元组,作为属于所述更新后的本体模型的知识三元组,具体为:
将所述第一目标知识三元组与所述第三目标知识三元组,作为属于所述更新后的本体模型的知识三元组。
可选的,在所述采用属于所述更新后的本体模型的知识三元组,更新所述知识图谱之后,还包括:
根据所述更新后的本体模型中的本体及本体关系,遍历更新后的知识图谱,确定所述更新后的知识图谱中缺失的信息;
获取依据所述缺失的信息所制定的第三采集策略;
采集满足所述第三采集策略的知识三元组;
在采集到满足所述第三采集策略的知识三元组的情况下,采用满足所述第三采集策略的知识三元组,对所述更新后的知识图谱进行更新。
可选的,在所述采集满足所述第三采集策略的知识三元组之后,还包括:
在未采集到满足所述第三采集策略的知识三元组的情况下,记录所确定出的所述更新后的知识图谱中缺失的信息;
统计所记录的缺失的信息中,相同实体出现的次数以及相同的实体关系出现的次数;
在任意一个实体出现的次数大于预设的第一次数阈值的情况下,输出用于指示人工对该实体进行补充的信息;
在任意一个实体关系出现的次数大于预设的第二次数阈值的情况下,输出用于指示人工对该实体关系进行补充的信息。
可选的,所述预设条件还包括:出现次数大于预设次数阈值。
可选的,依据属于所述本体模型的知识三元组形成知识图谱的方式,包括:
至少从所述预设的结构化数据中,提取属于所述本体模型的知识三元组;
采用属于所述本体模型的知识三元组,形成所述知识图谱。
本申请还提供了一种知识图谱的更新装置,包括:
获取模块,用于获取预先建立的本体模型,以及获取依据属于所述本体模型的知识三元组形成的知识图谱;
确定模块,用于在目标知识三元组中存在满足预设条件的知识三元组的情况下,将满足所述预设条件的知识三元组所对应的本体作为目标本体,并将满足所述预设条件的知识三元组所对应的本体关系作为目标本体关系;所述目标知识三元组为从结构化数据,和/或,非结构化数据中提取的属于预设领域的知识三元组;所述预设条件至少包括:对应的本体与本体关系不属于所述本体模型;
添加模块,用于将所述目标本体与所述目标本体关系添加到所述本体模型,得到更新后的本体模型;
提取模块,用于至少从预设的结构化数据中,提取属于所述更新后的本体模型的知识三元组;
第一更新模块,用于采用属于所述更新后的本体模型的知识三元组,更新所述知识图谱。
可选的,所述提取模块,用于所述至少从预设的结构化数据中,提取属于所述更新后的本体模型的知识三元组,包括:
获取预设的第一采集策略;所述第一采集策略依据所述更新后的本体模型中的本体与本体关系建立,且所述第一采集策略用于采集属于所述更新后的本体模型的知识三元组;
从所述预设的结构化数据中采集满足所述第一采集策略的知识三元组为第一知识三元组;
将所述第一知识三元组作为属于所述更新后的本体模型的知识三元组。
可选的,所述提取模块,还用于在所述将所述第一知识三元组作为属于所述更新后的本体模型的知识三元组之前,获取预设的第二采集策略;所述第二采集策略用于确定属于所述预设领域的知识三元组;从预设的非结构化数据中,采集满足所述第二采集策略的知识三元组为第二知识三元组;从所述第二知识三元组中,确定属于所述更新后的本体模型的知识三元组为第三知识三元组;
所述提取模块,具体用于将所述第一知识三元组作为属于所述更新后的本体模型的知识三元组,具体为:将所述第一知识三元组与所述第三知识三元组,作为属于所述更新后的本体模型的知识三元组。
可选的,所述提取模块,还用于在所述将所述第一知识三元组与所述第三知识三元组,作为属于所述更新后的本体模型的知识三元组之前,从所述第一知识三元组中,确定置信度大于预设的第一置信度阈值的第一知识三元组为第一目标知识三元组;针对任一所述第一知识三元组,该第一知识三元组的置信度为该第一知识三元组所来源于的结构化数据的置信度;从所述第二知识三元组中,确定置信度大于预设的第二置信度阈值的第二知识三元组为第二目标知识三元组;针对任一所述第二知识三元组,该第二知识三元组的置信度为:该第二知识三元组的出现的次数与该第二知识三元组所来源于的非结构化数据的置信度间的加权和;该第二知识三元组的出现的次数为:从所述非结构化数据进行一次采集所得到的满足所述第二采集策略的知识三元组中,该第二知识三元组出现的次数;
所述提取模块,具体用于从所述第二知识三元组中,确定属于所述更新后的本体模型的知识三元组为第三知识三元组,具体为:从所述第二目标知识三元组中,确定属于所述更新后的本体模型的知识三元组为第三目标知识三元组;
所述提取模块,具体用于所述将所述第一知识三元组与所述第三知识三元组,作为属于所述更新后的本体模型的知识三元组,具体为:将所述第一目标知识三元组与所述第三目标知识三元组,作为属于所述更新后的本体模型的知识三元组。
可选的,该装置还包括:第二更新模块,用于在所述采用属于所述更新后的本体模型的知识三元组,更新所述知识图谱之后,根据所述更新后的本体模型中的本体及本体关系,遍历更新后的知识图谱,确定所述更新后的知识图谱中缺失的信息;获取依据所述缺失的信息所制定的第三采集策略;采集满足所述第三采集策略的知识三元组;在采集到满足所述第三采集策略的知识三元组的情况下,采用满足所述第三采集策略的知识三元组,对所述更新后的知识图谱进行更新。
可选的,所述第二更新模块,还用于在未采集到满足所述第三采集策略的知识三元组的情况下,记录所确定出的所述更新后的知识图谱中缺失的信息;统计所记录的缺失的信息中,相同实体出现的次数以及相同的实体关系出现的次数;在任意一个实体出现的次数大于预设的第一次数阈值的情况下,输出用于指示人工对该实体进行补充的信息;在任意一个实体关系出现的次数大于预设的第二次数阈值的情况下,输出用于指示人工对该实体关系进行补充的信息。
可选的,所述预设条件还包括:出现次数大于预设次数阈值。
可选的,该装置还包括:形成模块,用于至少从所述预设的结构化数据中,提取属于所述本体模型的知识三元组;采用属于所述本体模型的知识三元组,形成所述知识图谱。
本申请还提供了一种电子设备,包括:存储器和与所述存储器耦合的处理器,所述存储器中存储有一个或多个程序,当所述一个或多个程序在所述处理器上执行时实现上述任意一种方法。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或多个程序,当所述一个或多个程序在处理器上执行时实现上述任意一种方法。
本申请的有益效果为:
在本申请提供的知识图谱的更新方案中,获取预先建立的本体模型,以及获取依据属于该本体模型的知识三元组构建的知识图谱,在从结构化数据,和/或,非结构化数据中提取的属于预设领域的知识三元组中,存在对应的本体与本体关系不属于该本体模型的知识三元组的情况下,将不属于该本体模型的本体作为目标本体,并将不属于该本体模型的本体关系作为目标本体关系,此时,得到的目标本体与目标本体关系是属于该预设领域但本体模型中不存在的本体与本体关系。并将该目标本体与该目标本体关系添加到该本体模型中,得到更新后的本体模型。
由于非结构化数据具有信息丰富并且包含预设领域的最新信息,因此从非结构化数据中提取的属于预设领域的知识三元组具有信息丰富并且包含预设领域的最新信息,因此,从非结构化数据中提取出的属于预设领域的知识三元组中,存在对应的本体与本体关系不属于该本体模型的知识三元组情况下,不属于该本体模型的本体与本体关系就具有信息丰富并且包含预设领域的最新信息的特点,进而,将该本体与本体关系添加到该本体模型后,所得到的更新后的本体模型也就具有信息丰富并且包含预设领域的最新信息的特点。
进而,在本申请提供的知识图谱的更新方案中,至少从预设的结构化数据中,提取属于更新后的本体模型的知识三元组,此时,所提取到的知识三元组就具有信息丰富并且包含预设领域最新信息的特点,使得采用所提取到的知识三元组,更新依据属于更新前本体模型的知识三元组所构建的知识图谱,得到更新后的知识图谱,此时,更新后的知识图谱就具有信息丰富并且包含预设领域最新信息的特点,因此,本申请提供的知识图谱的更新方案可以实现随着预设领域的信息的更新,对知识图谱中所包含的实体和实体关系进行更新的效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种知识图谱的构建方法的流程图;
图2为本申请实施例提供的一种知识图谱的更新方法的流程图;
图3为本申请实施例提供的一种知识图谱的更新装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例所公开的知识图谱的更新方法,可以应用在金融、生物医疗、法律、公安、航空、智能问答等领域,以下实施例中,以金融领域为例进行说明。
对于本申请中的名词解释:
实体指现实世界中客观存在并可以相互区分的对象或事物。可以为具体的人事物,也可以为抽象的概念。
例如,A公司、B公司、C公司、小明、小红、小丽等都是实体。
实体关系指用于描述两个实体之间的对应关系。
例如,“小明是A公司的员工”,在该句文本中,“员工”一词连接了实体“小明”和实体“A公司”,因此,“员工”一词就是实体“小明”和实体“A公司”的实体关系。
知识三元组指由实体对中的两个实体以及两个实体间的对应关系所构成的组合。包含实体对中的两个实体以及两个实体的对应关系
例如,“小明是A公司的员工”,在该句文本中,“小明”和“A公司”为实体对中的两个实体,“员工”为“小明”和“A公司”为两个实体间的对应关系,因此,“小明”、“员工”和“A公司”组成了一个知识三元组。
本体(Ontology)指用于描述一类实体的统称,其原自1993年Thomas Gruber教授提出的本体论最广为认同的定义:共享概念模型的明确的形式化规范说明。本体论最终的目的是去实现知识表达,构建知识库,实现知识推理,及借由本体论中的基本元素:实体与实体间的关联,作为描述真实世界的知识模型。
例如,“公司”是A公司、B公司、C公司的统称;“人物”是小明、小红、小丽的统称;因此,A公司、B公司和C公司所对应的本体为“公司”;小明、小红和小丽所对应的本体为“人物”。
本体关系指各个本体之间的对应关系。
例如,“小明是A公司的员工”,实体“小明”对应的本体为“人物”,实体“A公司”对应的本体为“公司”,“员工”对应的本体是“职务”,因此,“职务”就是本体“人物”和本体“公司”的关系,即“职务”就是“人物”和“公司”这个两个本体对应的关系。
本体属性指用于描述本体性质的信息。
例如,对于本体“公司”的属性可以包括“公司名称”、“公司地址”和“公司电话”等信息。
预设领域指一个特定的领域。例如,金融领域。
本体模型指对预设领域中的本体及其本体关系以及本体属性的形式化表达。
图1为本申请公开的一种知识图谱的构建方法,包括以下步骤:
步骤101:获取针对预设的初始本体模型所制定的第一数据采集策略。
在本实施例中,初始本体模型可以预先通过本体建模工具(如:Protégé,斯坦福大学开发的本体编辑和知识获取软件)构建。为了描述方便,本实施例中,将事先通过本体建模工具构建的本体模型统称为初始本体模型。初始本体模型可以包括一些常见的和/或基础的本体及本体关系,本体用于描述所述实体所属的类别,本体关系用于描述各个本体之间的关系。
以金融领域为例,在本步骤中针对金融领域所构建的初始本体模型可以包括一些公司、机构、人物、产品、证券等常见和/或基础的本体及本体关系。
在实际应用中,技术人员根据初始本体模型中的本体及本体关系,制定用于从结构化数据中采集知识三元组的数据采集策略,为了描述方便,将所制定的数据采集策略统称为第一数据采集策略。
具体的,技术人员依据初始本体模型所制定第一数据采集策略可以包括:数据类型、数据来源、目标字段、约束条件和知识抽取方式等。其中,数据类型表示所需寻找的知识三元组的类型;数据来源为寻找所需知识三元组的来源;目标字段为本体及本体关系的名称或名称的近义词;约束条件可以为对用户输入数据类型内容、数据来源的内容以及目标字段的内容的数据合法性校验;知识抽取方式表示采集知识三元组的方式。
以初始本体模型中的本体及本体关系包括公司、职务和人物为例,介绍针对(公司、职务和人物)所定制的第一数据采集策略中各部分的具体内容。数据类型为字符串类型、数据来源为预设的数据库表的名称、目标字段分别为“公司”(或者“公司”的同义词)、“职务”(或者“职务”的同义词)和“人物”(或者“人物”的同义词)、约束条件为数据校验规则(如数据完整性、规范性、准确性、有效性、时效性等属性校验)、知识抽取方式为获取知识三元组的方法或工具(常用工具有:D2RQ、OpenIE5.0、Deepdive、Reverb、OLLIE,常用方法有:基于模板的方法(触发词的Pattern,依存句法分析的Pattern)、基于监督学习的方法(机器学习方法)、弱监督学习的方法(远程监督、Bootstrapping))。
上述以初始本体模型中的本体及本体关系包括公司、职务和人物,制定了用于采集公司、职务和人物对应的知识三元组所需的第一数据采集策略;针对初始本体模型的本体及本体关系中所包括的其他本体及本体关系,同样制定对应的第一数据采集策略,例如,初始本体模型的本体及本体关系中还包括公司、产品和人物,此时,还要制定用于采集公司、产品和人物对应的知识三元组对应的第一数据采集策略。
此时,本实施例获取到了初始本体模型中,本体及本体关系对应的第一数据采集策略,并将所获取的本体及本体关系对应的第一数据采集策略以一定数据结构进行存储。
步骤102:利用第一数据采集策略,从预设领域的结构化数据中采集知识三元组。
在实际应用中,数据可以分为结构化数据和非结构化数据,其中,结构化数据指由二维表结构和/或类JSON结构来表达逻辑,并严格地遵循数据格式与长度规范的数据。在实际应用中,结构化数据主要通过具有特定格式的文档(如:csv、excel、sql等格式的文件)、关系型数据库和/或非关系型数据库进行存储和管理。其中,结构化数据为具有特定格式的文件和/或存储在数据库中,数据结构明确无歧义,易于解析的数据。非结构化数据指数据结构不规则或不完整的数据。在实际应用中,非结构化数据包括半结构化的XML、HTML以及不规则表格化的文档等,也包括非结构化的文本、图片、音频和视频等。
以金融领域为例,金融领域的结构化数据可以为现有关系型和/或非关系型数据库中的金融领域数据、保存有金融领域数据的具有特定格式的文档(如:csv、excel、sql等格式的文件);金融领域的非结构化数据可以为金融资讯、公司财报、年报、公告等。
具体的,在本步骤中,利用所制定的第一数据采集策略在结构化数据中采集符合每个第一数据采集策略的知识三元组。
步骤103:从所采集的知识三元组中筛选获取满足第一预设条件的知识三元组。
为了描述方便,本实施例将从所采集的知识三元组中筛选获取满足预设条件的知识三元组,称为第一初始知识三元组。在本步骤中,第一预设条件可以为:置信度大于预设的第一置信度阈值。具体的,从所采集的知识三元组中抽取出第一初始知识三元组的过程可以包括步骤A1~步骤A2:
步骤A1:确定所采集的每个知识三元组的置信度。
在本步骤中,针对任意一个所采集的知识三元组,该知识三元组的置信度依据该知识三元组的数据来源的可信度确定,数据来源的可信度为该数据来源的真实可靠性。具体的,获取该知识三元组的数据来源,并依据数据来源与置信度间的预设对应关系,确定该知识三元组的数据来源的置信度。例如,该知识三元组的数据来源为某一真实可靠的数据库业务表,并依据预设的数据来源与置信度间的对应关系,确定该数据库业务表的置信度,该数据库业务表的置信度即为该知识三元组的置信度。
步骤A2:获取置信度大于第一置信度阈值的知识三元组为第一初始知识三元组。
在本步骤中,获取的置信度大于第一置信度阈值的知识三元组称为第一初始知识三元组。
在本实施例中,还将所获取到的第一初始知识三元组以及与第一初始知识三元组对应的本体及本体关系进行保存。例如,针对初始本体模型中的公司、职位和人物这一本体及本体关系,所确定出的第一初始知识三元组为xx公司的xx人为经理;此时,需要保存xx公司的xx人为经理,以及公司、职位和人物。
步骤104:获取第二数据采集策略。
在本实施例中,技术人员制定用于从非结构化数据中采集与预设领域相关的知识三元组的数据采集策略,为了描述方便,技术人员所制定的数据采集策略称为第二数据采集策略。
具体的,制定第二数据采集策略的方式可以包括:通过爬虫框架定制爬虫和自然语言处理NLP工具。其中,所定制的爬虫中包括了寻找与预设领域相关的知识三元组的搜索策略;自然语言处理NLP工具用于对所寻找到的与预设领域相关的知识三元组进行语义分析,确定知识三元组对应的本体及本体关系。
在实际应用中,除了采用定制爬虫获取与预设领域相关的知识三元组对应的本体及本体关系外,还可以采用其他获取知识三元组的方法或工具(常用工具有:D2RQ、OpenIE5.0、Deepdive、Reverb、OLLIE,常用方法有:基于模板的方法(触发词的Pattern,依存句法分析的Pattern)、基于监督学习的方法(机器学习方法)、弱监督学习的方法(远程监督、Bootstrapping))等方式。
步骤105:按照第二数据采集策略,从预设领域的非结构化数据中采集知识三元组,并确定所采集的知识三元组对应的本体与本体关系。
以金融领域为例,在本步骤中,通过第二数据采集策略从金融资讯、公司财报、年报、公告等非结构化数据中,采集与金融领域相关的知识三元组,以及所采集的知识三元组对应的本体及本体关系。
步骤106:从所采集的满足第二数据采集策略知识三元组中确定满足第二预设条件的知识三元组为第二初始知识三元组。
为了描述方便,本实施例中将满足第二数据采集策略的知识三元组中满足第二预设条件的知识三元组,称为第二初始知识三元组。在本步骤中,第二预设条件可以为置信度大于预设的第二置信度阈值。
具体的,从满足第二数据采集策略知识三元组中,确定第二初始知识三元组的过程,可以包括以下步骤B1~步骤B2:
步骤B1:确定满足第二数据采集策略的每个知识三元组的置信度。
在本步骤中,满足第二数据采集策略的任意一个知识三元组的置信度为:该知识三元组的出现次数和数据来源的预设可信度的加权值。其中,该知识三元组的出现次数表示依据第二数据采集策略从预设的非结构化数据的一次采集结果中,该知识三元组出现的次数。
步骤B2:获取置信度大于第二置信度阈值的知识三元组为第二初始知识三元组。
在本步骤中,获取的置信度大于第二置信度阈值的知识三元组,称为第二初始知识三元组。
需要说明的是,在本实施例中,当按照第一数据采集策略所采集的知识三元组的置信度不大于第一置信度阈值时,由人工进行审核,并将经过人工审核的知识三元组确定为第一初始知识三元组;对于按照第二数据采集策略采集出的置信度不大于第二置信度阈值的知识三元组,同样由人工进行审核,并将经过人工审核的知识三元组确定为第二初始知识三元组。
步骤107:从第一初始知识三元组与第二初始知识三元组中,确定出属于初始本体模型的知识三元组。
在本步骤中,第一初始知识三元组是根据初始本体模型中的本体及本体关系采集到的,因此,第一初始知识三元组是属于初始本体模型中的本体及本体关系的知识三元组。第二初始知识三元组是从非结构化数据中采集的与预设领域相关的知识三元组,因此,第二初始知识三元组中可能包含不属于初始本体模型的知识三元组。
因此,在本步骤中,从第二初始知识三元组对应的本体及本体关系中,确定属于初始本体模型的第二初始知识三元组,为了描述方便,将第二初始知识三元组中属于初始本体模型的第二知识三元组,称为第三初始知识三元组,并将第一初始三元组与第三初始知识三元组,确定为属于初始本体模型中的本体与本体关系的知识三元组。
步骤108:依据所确定出的属于初始本体模型知识三元组,构建知识图谱。
在本步骤中,利用第一初始知识三元组与第三初始知识三元组,构建知识图谱,具体的,依据第一初始知识三元组与第三初始知识三元组构建知识图谱的方式是现有技术,这里不再赘述。
本实施例的有益效果包括:
有益效果一、
在本实施例中,获取通过初始本体模型制定的第一数据采集策略,并获取用于从非结构化数据中采集属于预设领域的知识三元组的第二数据采集策略。从预设的结构化数据中采集满足第一数据采集策略的知识三元组,以及从预设的非结构化数据中采集满足第二数据采集策略的知识三元组。并从所采集的知识三元组中确定属于初始本体模型的知识三元组,并采用属于初始本体模型的知识三元组,构建知识图谱。因此,本实施例实现了构建知识图谱。
有益效果二、
在本实施例中,在得到满足第一数据采集策略的知识三元组后,从该知识三元组中确定置信度大于第一置信度阈值的知识三元组为第一初始知识三元组,在得到满足第二数据采集策略的知识三元组后,从该知识三元组中确定置信度大于第二置信度阈值的知识三元组为第二初始知识三元组。并从第二初始知识三元组中确定属于初始本体模型的知识三元组为第三初始知识三元组,此时,所得到的第一初始知识三元组与第三初始知识三元组都是属于初始本体模型的知识三元组,并且都是置信度大于对应的置信度阈值的知识三元组。因此,第一初始知识三元组与第三初始知识三元组的置信度较高,进而,依据该第一初始知识三元组与第三初始知识三元组所构建的知识图谱的准确性较高。
上述构建的知识图谱是依据属于初始本体模型的知识三元组构建的,随着预设领域的不断发展,初始本体模型中可能不会包含预设领域最新消息对应的本体与本体关系,使得依据初始本体模型构建的知识图谱中缺少该预设领域的最新消息中的知识三元组,进而,需要不断更新知识图谱。
由于非结构化数据中携带有该预设领域的最新信息,因此非结构化数据包含初始本体模型中不包括的信息以及预设领域更丰富的信息,因此,从非结构化数据中所提取的知识三元组中包含了初始构建的本体模型中不包括的信息以及金融领域更丰富的信息。
因此,依据该知识三元组中所对应的本体及本体关系,确定对应的本体与本体关系中不属于初始本体模型的知识三元组,可以通过将所确定出的不属于初始本体模型的本体与本体关系添加到该初始本体模型中,实现对初始本体模型的更新,并采用属于更新后的本体模型的知识三元组更新已构建的知识图谱,得到更新后的知识图谱。
并重复执行采用不属于当前本体模型的本体与本体关系添加到当前的本体模型,实现对当前本体模型的更新,以及采用属于当前更新后的本体模型的知识三元组,更新当前的知识图谱,实现对当前知识图谱的更新。使得更新后的知识图谱中所包含信息越来越丰富,以及更新后的知识图谱包含了预设领域的最新信息。
由于在本申请中,更新知识图谱的过程是一个循环更新的过程,为了描述简单,以对图1构建的知识图谱的一次更新过程为例,介绍对知识图谱的更新过程。具体的,对知识图谱的一次更新过程如图2所示,图2为本申请公开的一种更新知识图谱的方法,包括以下步骤:
步骤201:获取预先建立的本体模型,以及获取依据属于该本体模型的知识三元组形成的知识图谱。
在本步骤中,所获取的本体模型为图1对应的实施例中构建的初始本体模型。所获取的知识图谱是依据属于初始本体模型的知识三元组构建的知识图谱。
步骤202:判断目标知识三元组中是否存在满足第三预设条件的目标知识三元组,若存在满足第三预设条件的目标知识三元组,则执行步骤203,否则,执行步骤202。
在本步骤中,目标知识三元组为从非结构化数据中采集得到的满足第二数据采集策略的知识三元组。其中,在本实施例中,从非结构化数据中采集满足第二数据采集策略的知识三元组是不断执行。
第三预设条件为对应的本体与本体关系不属于初始本体模型,即在步骤中,判断针对目标知识三元组所确定出的本体及本体关系中,是否存在不属于初始本体模型的本体及本体关系。
在实际应用中,第三预设条件还可以包括出现次数大于预设的次数阈值,即判断目标知识三元组所对应的本体及本体关系中,是否存在不属于初始本体模型以及出现次数大于预设次数阈值的本体及本体关系。
若存在,则执行步骤203;若不存在,由于从非结构化数据中采集目标知识三元组的过程是不断执行的,因此,若当前所采集到的目标知识三元组中不存在满足第三预设条件的目标知识三元组,则继续执行本步骤的动作,即继续判断后续所采集到的目标知识三元组中是否存在满足第三预设条件的目标知识三元组,直至所采集到的目标知识三元组中存在满足第三预设条件的目标知识三元组为止,再执行步骤203。
步骤203:将满足第三预设条件的目标知识三元组对应的本体及本体关系,添加到初始本体模型,得到更新后的本体模型。
为了描述方便,将满足第三预设条件的目标知识三元组对应的本体称为目标本体,将满足第三预设条件的目标知识三元组对应的本体关系称为目标本体关系。在本步骤中,将目标本体与目标本体关系添加到初始本体模型中,实现对初始本体模型的更新,为了描述方便,将添加目标本体与目标本体关系后的初始本体模型,称为更新后的本体模型。
例如,初始本体模型中包括公司、职务和第一人物,满足第三预设条件的目标知识三元组对应的本体及本体关系为第一人物、配偶和第二人物,此时,将第一人物、配偶和第二人物中的配偶和第二人物,添加到初始本体模型中,使得所添加的配偶和第二人物与初始本体模型中的第一人物关联起来,得到更新后的本体模型。
步骤204:获取依据更新后的本体模型所制定的第一采集策略以及获取第二采集策略。
技术人员根据更新后的本体模型中的本体及本体关系,制定用于从结构化数据中采集属于更新后的本体模型的知识三元组的采集策略,为了描述方便,将所获取的采集策略称为第一采集策略。具体的,第一采集策略的制定方法,可参考图1对应的实施例中的步骤101中第一数据采集策略的制定方法,这里不再赘述。
在本步骤中,第二采集策略为人工制定的用于从非结构化数据中采集属于预设领域的知识三元组,为了描述方便,称为第二采集策略。该第二采集策略可以与图1对应的实施例中所获取的第二数据采集策略相同。具体的,在本实施例中第二采集策略的制定方式与图1对应的实施例中第二数据采集策略的制定方式相同,这里不再赘述。
步骤205:从预设的结构化数据中采集满足第一采集策略的知识三元组,以及从预设的非结构化数据中采集满足第二数据采集策略的知识三元组。
在本步骤中,从预设的结构化数据中采集满足第一采集策略的知识三元组,为了描述方便,将采集到的满足第一采集策略的知识三元组称为第一知识三元组。从预设的非结构化数据中采集满足第二采集策略的知识三元组,为了描述方便,将采集到的满足第二采集策略的知识三元组称为第二知识三元组。
步骤206:从第一知识三元组中确定置信度大于预设的第一置信度阈值的知识三元组,以及从第二知识三元组中确定置信度大于预设的第二置信度阈值的知识三元组。
在本步骤中,从第一知识三元组中确定置信度大于预设的第一置信度阈值的知识三元组的方式,与图1对应的实施例中步骤103中确定第一初始三元组的方式相同,这里不再赘述。为了描述方便,将确定出的置信度大于第一置信度阈值的知识三元组称为第一目标知识三元组。
在本步骤中,从第二知识三元组中确定置信度大于预设的第二置信度阈值的知识三元组的方式,与图1对应的实施例中步骤106中确定第二初始三元组的方式相同,这里不再赘述。为了描述方便,将确定出的置信度大于第二置信度阈值的知识三元组称为第二目标知识三元组。
步骤207:从第一目标知识三元组与第二目标知识三元组中,确定属于更新后的本体模型的知识三元组。
第一目标知识三元组是满足第一采集策略的知识三元组,并且第一采集策略是依据更新后的本体模型建立的,因此,第一目标知识三元组一定是属于更新后的本体模型的。由于第二目标知识三元组是从非结构化数据中采集得到的,因此,第二目标知识三元组中可能存在不属于更新后的本体模型的知识三元组,也可能存在属于更新后的本体模型的知识三元组。
在本步骤中,从第一目标知识三元组与第二目标知识三元组中,确定属于更新后的本体模型的知识三元组,为了描述方便,将第二目标知识三元组中属于更新后的本体模型的目标知识三元组,称为第三目标知识三元组。即得到第一目标知识三元组以及第三目标知识三元组。
步骤208:采用确定出的属于更新后的本体模型的知识三元组,更新已形成的知识图谱。
具体的,采用第一目标知识三元组与第三目标知识三元组,对已形成的知识图谱的更新方式为现有技术,这里不再赘述。
需要说明的是,在本实施例中,从第一知识三元组中确定第一目标知识三元组,从第二知识三元组中确定第三目标知识三元组的目的是提高用于更新知识图谱的知识三元组的置信度,以提高更新后的知识图谱的准确性。当然,在实际中,还可以直接依据第二知识三元组中属于更新后的本体模型的知识三元组以及第一知识三元组,更新知识图谱。本实施例并不对更新知识图谱所使用的知识三元组的置信度作限定。
步骤209:根据更新后的本体模型中的本体及本体关系,遍历当前更新后的知识图谱,确定更新后的知识图谱中缺失的信息。
具体的,依据知识图谱中节点与节点关系所对应的本体与本体关系,并将节点与节点关系对应的本体及本体关系,与本体模型与更新后的本体模型中的本体及本体关系进行比较,确定知识图谱中所缺失的信息。
例如,更新后的本体模型中包括公司、职务、第一人物、配偶和第二人物,知识图谱中的节点与节点关系为xx公司、经理和xx人,此时,可以确定出节点与节点关系对应的本体及本体关系为公司、职务和人物,此时,与更新后的本体模型中的公司、职务、第一人物、配偶和第二人物相比较,得到节点与节点关系对应的本体及本体关系中缺失配偶和第二人物,此时,与xx人是配偶关系的人物名称是知识图谱缺失的信息。
为了便于寻找知识图谱所缺失的信息,可以将xx人与配偶保存在关系缺失数据库。
步骤210:获取依据确定出的知识图谱中缺失信息所制定的第三采集策略。
在本步骤中,第三采集策略是用于采集知识图谱中所缺失的信息的数据采集策略,该第三采集策略由技术人员确定,具体的,第三采集策略可以包括数据类型、数据来源、目标字段、约束条件和知识获取方式,具体的,第三采集策略中所包含的各部分内容的含义,与第一采集策略中所包含的各部分内容的含义对应相同,这里不再赘述。
以关系缺失库中的xx人与配偶为例,技术人员所制定的第三采集策略中的各部分的内容具体可以为:数据类型为字符串,数据来源为技术人员所确定的数据来源(例如,数据库表名称),目标字段分别为xx、配偶(或者“配偶”的同义词)与人物(或者“人物”的同义词),约束条件为预设的校验标准,知识抽取方式为技术人员确定的用于搜索知识三元组的工具,包括但不限于以下方法或工具,常用工具有:D2RQ、OpenIE5.0、Deepdive、Reverb、OLLIE,常用方法有:基于模板的方法(触发词的Pattern,依存句法分析的Pattern)、基于监督学习的方法(机器学习方法)、弱监督学习的方法(远程监督、Bootstrapping)等方式。
步骤211:采集满足第三采集策略知识三元组。
在本步骤中,依据第三采集策略中的具体信息采集知识三元组。
步骤212:判断是否采集到满足第三采集策略的知识三元组,若采集到满足第三采集策略的知识三元组,则执行步骤213,否则,执行步骤214。
步骤213:依据采集到的知识三元组更新知识图谱。
在采集到知识三元组后,就得到了知识图谱中所缺失的信息。并将当前得到的知识图谱中缺失的信息,添加到知识图谱,实现对知识图谱的更新。
上述步骤211~步骤213通过第三采集策略采集知识三元组,并依据采集到的知识三元组更新知识图谱。
在实际应用中,当依据本体模型确定出知识图谱中缺失实体关系,并且与缺失的实体关系相连接的两个实体已知时,除了通过技术人员制定该缺失的实体关系对应的第三数据采集策略外,还可以根据Path Ranking算法可以通过缺失的关系所连接的实体的已有路径,预测实体间的潜在关系的这个特性,通过Path Ranking算法确定所缺失的实体关系。此外,还可以基于表示学习的模型,将实体和实体关系映射为空间中的向量,通过空间中向量的运算,预测所缺失的实体关系。
步骤214:记录知识图谱中所缺失的信息。
在没有找到知识图谱中所缺失的信息的情况下,在本步骤中,记录知识图谱中所缺失的信息。例如,记录xx人、配偶和第二人物。
并返回步骤201继续执行,此时,步骤201所获取的本体模型是本实施例中更新后的本体模型,所获取的已形成的知识图谱是本实施例中更新后的知识图谱。
在本实施例中,除了记录知识图谱中所缺失的信息之外,还需要统计记录的所缺失的信息中,缺失相同实体的次数,以及缺失相同实体关系的次数。当缺失相同实体的次数大于预设次数阈值,或者缺失相同实体关系的次数大于预设次数阈值时,表明该实体或实体关系,由程序自动补充难度较大,将由人工介入的方式进行补充,例如,输出用于指示人工补充的信息。
在本实施例中,获取预先建立的本体模型,以及获取依据属于该本体模型的知识三元组构建的知识图谱,在从结构化数据,和/或,非结构化数据中提取的属于预设领域的知识三元组中,存在对应的本体与本体关系不属于该本体模型的知识三元组的情况下,将不属于该本体模型的本体作为目标本体,并将不属于该本体模型的本体关系作为目标本体关系,此时,得到的目标本体与目标本体关系是属于该预设领域但本体模型中不存在的本体与本体关系。并将该目标本体与该目标本体关系添加到该本体模型中,得到更新后的本体模型。
由于非结构化数据具有信息丰富并且包含预设领域的最新信息,因此从非结构化数据中提取的属于预设领域的知识三元组具有信息丰富并且包含预设领域的最新信息,因此,从非结构化数据中提取出的属于预设领域的知识三元组中,存在对应的本体与本体关系不属于该本体模型的知识三元组情况下,不属于该本体模型的本体与本体关系就具有信息丰富并且包含预设领域的最新信息的特点,进而,将该本体与本体关系添加到该本体模型后,所得到的更新后的本体模型也就具有信息丰富并且包含预设领域的最新信息的特点。
进而,在本申请提供的知识图谱的更新方案中,至少从预设的结构化数据中,提取属于更新后的本体模型的知识三元组,此时,所提取到的知识三元组就具有信息丰富并且包含预设领域最新信息的特点,使得采用所提取到的知识三元组,更新依据属于更新前本体模型的知识三元组所构建的知识图谱,得到更新后的知识图谱,此时,更新后的知识图谱就具有信息丰富并且包含预设领域最新信息的特点,因此,本申请提供的知识图谱的更新方案可以实现随着预设领域的信息的更新,对知识图谱中所包含的实体和实体关系进行更新的效果。
图3为本申请提供的一种知识图谱的更新装置,包括:获取模块301、确定模块302、添加模块303、提取模块304和第一更新模块305。
其中,获取模块301,用于获取预先建立的本体模型,以及获取依据属于本体模型的知识三元组形成的知识图谱。确定模块302,用于在目标知识三元组中存在满足预设条件的知识三元组的情况下,将满足预设条件的知识三元组所对应的本体作为目标本体,并将满足预设条件的知识三元组所对应的本体关系作为目标本体关系,目标知识三元组为从结构化数据,和/或,非结构化数据中提取的属于预设领域的知识三元组,预设条件至少包括:对应的本体与本体关系不属于本体模型。添加模块303,用于将目标本体与目标本体关系添加到本体模型,得到更新后的本体模型。提取模块304,用于至少从预设的结构化数据中,提取属于更新后的本体模型的知识三元组。第一更新模块305,用于采用属于更新后的本体模型的知识三元组,更新知识图谱。
可选的,提取模块304,用于至少从预设的结构化数据中,提取属于更新后的本体模型的知识三元组,包括:获取预设的第一采集策略,第一采集策略依据更新后的本体模型中的本体与本体关系建立,且第一采集策略用于采集属于更新后的本体模型的知识三元组。从预设的结构化数据中采集满足第一采集策略的知识三元组为第一知识三元组。将第一知识三元组作为属于更新后的本体模型的知识三元组。
可选的,提取模块304,还用于在将第一知识三元组作为属于更新后的本体模型的知识三元组之前,获取预设的第二采集策略。第二采集策略用于确定属于预设领域的知识三元组,从预设的非结构化数据中,采集满足第二采集策略的知识三元组为第二知识三元组;从第二知识三元组中,确定属于更新后的本体模型的知识三元组为第三知识三元组。提取模块304,具体用于将第一知识三元组作为属于更新后的本体模型的知识三元组,具体为:将第一知识三元组与第三知识三元组,作为属于更新后的本体模型的知识三元组。
可选的,提取模块304,还用于在将第一知识三元组与第三知识三元组,作为属于更新后的本体模型的知识三元组之前,从第一知识三元组中,确定置信度大于预设的第一置信度阈值的第一知识三元组为第一目标知识三元组。针对任一第一知识三元组,该第一知识三元组的置信度为该第一知识三元组所来源于的结构化数据的置信度,从第二知识三元组中,确定置信度大于预设的第二置信度阈值的第二知识三元组为第二目标知识三元组。针对任一第二知识三元组,该第二知识三元组的置信度为:该第二知识三元组的出现的次数与该第二知识三元组所来源于的非结构化数据的置信度间的加权和,该第二知识三元组的出现的次数为:从非结构化数据进行一次采集所得到的满足第二采集策略的知识三元组中,该第二知识三元组出现的次数。
提取模块304,具体用于从第二知识三元组中,确定属于更新后的本体模型的知识三元组为第三知识三元组,具体为:从第二目标知识三元组中,确定属于更新后的本体模型的知识三元组为第三目标知识三元组。
提取模块304,具体用于将第一知识三元组与第三知识三元组,作为属于更新后的本体模型的知识三元组,具体为:将第一目标知识三元组与第三目标知识三元组,作为属于更新后的本体模型的知识三元组。
可选的,该装置还包括:第二更新模块306,用于在采用属于更新后的本体模型的知识三元组,更新知识图谱之后,根据更新后的本体模型中的本体及本体关系,遍历更新后的知识图谱,确定更新后的知识图谱中缺失的信息。获取依据缺失的信息所制定的第三采集策略。采集满足第三采集策略的知识三元组。在采集到满足第三采集策略的知识三元组的情况下,采用满足第三采集策略的知识三元组,对更新后的知识图谱进行更新。
可选的,第二更新模块306,还用于在未采集到满足第三采集策略的知识三元组的情况下,记录所确定出的所述更新后的知识图谱中缺失的信息。统计所记录的缺失的信息中,相同实体出现的次数以及相同的实体关系出现的次数。在任意一个实体出现的次数大于预设的第一次数阈值的情况下,输出用于指示人工对该实体进行补充的信息。在任意一个实体关系出现的次数大于预设的第二次数阈值的情况下,输出用于指示人工对该实体关系进行补充的信息。
可选的,所述预设条件还包括:出现次数大于预设次数阈值。
可选的,该装置还包括:形成模块307,用于至少从预设的结构化数据中,提取属于本体模型的知识三元组。采用属于本体模型的知识三元组,形成知识图谱。
图4为本申请实施例提供的一种电子设备,包括:存储器401和处理器402,存储器401和处理器402耦合,存储器401中存储有一个或多个程序,当一个或多个程序在处理器402上执行时实现上述任意一种知识图谱的更新方法。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有一个或多个程序,当一个或多个程序在处理器上执行时实现上述任意一种知识图谱的更新方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同相似部分互相参见即可。在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。在文中的“包括”、“包含”等词语解释为包含的含义而不是排他或穷举的含义;也就是说,是“包含但不限于”的含义。在不脱离本发明构思的前提下,还可以做出变形、同等替换、改进等,这些都属于本发明的保护范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种知识图谱的更新方法,其特征在于,包括:
获取预先建立的本体模型,以及获取依据属于所述本体模型的知识三元组形成的知识图谱;
在目标知识三元组中存在满足预设条件的知识三元组的情况下,将满足所述预设条件的知识三元组所对应的本体作为目标本体,并将满足所述预设条件的知识三元组所对应的本体关系作为目标本体关系;所述目标知识三元组为从结构化数据,和/或,非结构化数据中提取的属于预设领域的知识三元组;所述预设条件至少包括:对应的本体与本体关系不属于所述本体模型;
将所述目标本体与所述目标本体关系添加到所述本体模型,得到更新后的本体模型,所述更新后的本体模型的结构和预先建立的本体模型的结构不同,所述更新后的本体模型具有信息丰富并且包含预设领域的最新信息的特点;
至少从预设的结构化数据中,提取属于所述更新后的本体模型的知识三元组;
采用属于所述更新后的本体模型的知识三元组,更新所述知识图谱;
根据所述更新后的本体模型中的本体及本体关系,遍历更新后的知识图谱,确定所述更新后的知识图谱中缺失的信息;
获取依据所述缺失的信息所制定的第三采集策略,所述第三采集策略包括数据类型、数据来源、目标字段、约束条件和知识获取方式;
采集满足所述第三采集策略的知识三元组;
在采集到满足所述第三采集策略的知识三元组的情况下,采用满足所述第三采集策略的知识三元组,对所述更新后的知识图谱进行更新。
2.根据权利要求1所述的方法,其特征在于,所述至少从预设的结构化数据中,提取属于所述更新后的本体模型的知识三元组,包括:
获取预设的第一采集策略;所述第一采集策略依据所述更新后的本体模型中的本体与本体关系建立,且所述第一采集策略用于采集属于所述更新后的本体模型的知识三元组;
从所述预设的结构化数据中采集满足所述第一采集策略的知识三元组为第一知识三元组;
将所述第一知识三元组作为属于所述更新后的本体模型的知识三元组。
3.根据权利要求2所述的方法,其特征在于,在所述将所述第一知识三元组作为属于所述更新后的本体模型的知识三元组之前,还包括:
获取预设的第二采集策略;所述第二采集策略用于确定属于所述预设领域的知识三元组;
从预设的非结构化数据中,采集满足所述第二采集策略的知识三元组为第二知识三元组;
从所述第二知识三元组中,确定属于所述更新后的本体模型的知识三元组为第三知识三元组;
所述将所述第一知识三元组作为属于所述更新后的本体模型的知识三元组,具体为:将所述第一知识三元组与所述第三知识三元组,作为属于所述更新后的本体模型的知识三元组。
4.根据权利要求3所述的方法,其特征在于,在将所述第一知识三元组与所述第三知识三元组,作为属于所述更新后的本体模型的知识三元组之前,还包括:
从所述第一知识三元组中,确定置信度大于预设的第一置信度阈值的第一知识三元组为第一目标知识三元组;针对任一所述第一知识三元组,该第一知识三元组的置信度为该第一知识三元组所来源于的结构化数据的置信度;
从所述第二知识三元组中,确定置信度大于预设的第二置信度阈值的第二知识三元组为第二目标知识三元组;针对任一所述第二知识三元组,该第二知识三元组的置信度为:该第二知识三元组的出现的次数与该第二知识三元组所来源于的非结构化数据的置信度间的加权和;该第二知识三元组的出现的次数为:从所述非结构化数据进行一次采集所得到的满足所述第二采集策略的知识三元组中,该第二知识三元组出现的次数;
所述从所述第二知识三元组中,确定属于所述更新后的本体模型的知识三元组为第三知识三元组,具体为:
从所述第二目标知识三元组中,确定属于所述更新后的本体模型的知识三元组为第三目标知识三元组;
所述将所述第一知识三元组与所述第三知识三元组,作为属于所述更新后的本体模型的知识三元组,具体为:
将所述第一目标知识三元组与所述第三目标知识三元组,作为属于所述更新后的本体模型的知识三元组。
5.根据权利要求1所述的方法,其特征在于,在所述采集满足所述第三采集策略的知识三元组之后,还包括:
在未采集到满足所述第三采集策略的知识三元组的情况下,记录所确定出的所述更新后的知识图谱中缺失的信息;
统计所记录的缺失的信息中,相同实体出现的次数以及相同的实体关系出现的次数;
在任意一个实体出现的次数大于预设的第一次数阈值的情况下,输出用于指示人工对该实体进行补充的信息;
在任意一个实体关系出现的次数大于预设的第二次数阈值的情况下,输出用于指示人工对该实体关系进行补充的信息。
6.根据权利要求1所述的方法,其特征在于,依据属于所述本体模型的知识三元组形成知识图谱的方式,包括:
至少从所述预设的结构化数据中,提取属于所述本体模型的知识三元组;
采用属于所述本体模型的知识三元组,形成所述知识图谱。
7.一种知识图谱的更新装置,其特征在于,包括:
获取模块,用于获取预先建立的本体模型,以及获取依据属于所述本体模型的知识三元组形成的知识图谱;
确定模块,用于在目标知识三元组中存在满足预设条件的知识三元组的情况下,将满足所述预设条件的知识三元组所对应的本体作为目标本体,并将满足所述预设条件的知识三元组所对应的本体关系作为目标本体关系;所述目标知识三元组为从结构化数据,和/或,非结构化数据中提取的属于预设领域的知识三元组;所述预设条件至少包括:对应的本体与本体关系不属于所述本体模型;
添加模块,用于将所述目标本体与所述目标本体关系添加到所述本体模型,得到更新后的本体模型,所述更新后的本体模型的结构和预先建立的本体模型的结构不同,所述更新后的本体模型具有信息丰富并且包含预设领域的最新信息的特点;
提取模块,用于至少从预设的结构化数据中,提取属于所述更新后的本体模型的知识三元组;
第一更新模块,用于采用属于所述更新后的本体模型的知识三元组,更新所述知识图谱;
其中,所述知识图谱的更新装置,还用于根据所述更新后的本体模型中的本体及本体关系,遍历更新后的知识图谱,确定所述更新后的知识图谱中缺失的信息;获取依据所述缺失的信息所制定的第三采集策略;采集满足所述第三采集策略的知识三元组;在采集到满足所述第三采集策略的知识三元组的情况下,采用满足所述第三采集策略的知识三元组,对所述更新后的知识图谱进行更新。
8.一种电子设备,其特征在于,包括存储器和与所述存储器耦合的处理器,所述存储器中存储有一个或多个程序,当所述一个或多个程序在所述处理器上执行时实现权利要求1~6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或多个程序,当所述一个或多个程序在处理器上执行时实现权利要求1~6中任一项所述的方法。
CN201910549693.2A 2019-06-24 2019-06-24 一种知识图谱的更新方法、装置、电子设备及存储介质 Active CN110275894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910549693.2A CN110275894B (zh) 2019-06-24 2019-06-24 一种知识图谱的更新方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910549693.2A CN110275894B (zh) 2019-06-24 2019-06-24 一种知识图谱的更新方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110275894A CN110275894A (zh) 2019-09-24
CN110275894B true CN110275894B (zh) 2021-12-14

Family

ID=67961653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910549693.2A Active CN110275894B (zh) 2019-06-24 2019-06-24 一种知识图谱的更新方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110275894B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127494B (zh) * 2019-12-30 2022-10-11 海信集团有限公司 一种知识图谱的更新方法及装置
CN111444181B (zh) * 2020-03-20 2021-05-11 腾讯科技(深圳)有限公司 知识图谱更新方法、装置及电子设备
WO2021210148A1 (ja) * 2020-04-16 2021-10-21 富士通株式会社 オントロジー生成プログラム、オントロジー生成装置およびオントロジー生成方法
CN111444189B (zh) * 2020-04-17 2021-04-16 北京房江湖科技有限公司 数据处理方法、装置、介质和电子设备
CN111611405B (zh) * 2020-05-22 2023-03-21 北京明略软件系统有限公司 一种知识图谱构建方法、装置、电子设备及存储介质
KR20220014713A (ko) * 2020-07-29 2022-02-07 삼성전자주식회사 서비스의 제공을 위한 지식 그래프를 수정하는 시스템 및 방법
CN112417170B (zh) * 2020-11-23 2023-11-14 南京大学 面向不完备知识图谱的关系链接方法
CN113111135A (zh) * 2021-04-22 2021-07-13 北京金山数字娱乐科技有限公司 一种知识图谱构建方法及装置
CN114328883B (zh) * 2022-03-08 2022-06-28 恒生电子股份有限公司 一种机器阅读理解的数据处理方法、装置、设备及介质
CN115309870B (zh) * 2022-10-11 2022-12-20 启元世界(北京)信息技术服务有限公司 一种知识获取方法及装置
CN117454979B (zh) * 2023-10-26 2024-04-19 上海峻思寰宇数据科技有限公司 一种个案图谱更新方法及系统
CN117171364B (zh) * 2023-10-30 2024-02-02 北京华控智加科技有限公司 运维知识图谱更新方法及装置
CN117252201B (zh) * 2023-11-17 2024-02-27 山东山大华天软件有限公司 面向知识图谱的离散型制造行业工艺数据提取方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368468A (zh) * 2017-06-06 2017-11-21 广东广业开元科技有限公司 一种运维知识图谱的生成方法及系统
CN109241290A (zh) * 2017-07-10 2019-01-18 华东师范大学 一种知识图谱补全方法、装置与存储介质
CN109543047A (zh) * 2018-11-21 2019-03-29 焦点科技股份有限公司 一种基于医疗领域网站的知识图谱构建方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9235806B2 (en) * 2010-06-22 2016-01-12 Primal Fusion Inc. Methods and devices for customizing knowledge representation systems
US9679024B2 (en) * 2014-12-01 2017-06-13 Facebook, Inc. Social-based spelling correction for online social networks
CN106203761B (zh) * 2015-04-30 2021-07-13 微软技术许可有限责任公司 提取并显现来自数据源的用户工作属性
CN106886543B (zh) * 2015-12-16 2020-01-17 清华大学 结合实体描述的知识图谱表示学习方法和系统
CN106776711B (zh) * 2016-11-14 2020-04-07 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
CN109033314B (zh) * 2018-07-18 2020-10-23 哈尔滨工业大学 内存受限情况下的大规模知识图谱的实时查询方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368468A (zh) * 2017-06-06 2017-11-21 广东广业开元科技有限公司 一种运维知识图谱的生成方法及系统
CN109241290A (zh) * 2017-07-10 2019-01-18 华东师范大学 一种知识图谱补全方法、装置与存储介质
CN109543047A (zh) * 2018-11-21 2019-03-29 焦点科技股份有限公司 一种基于医疗领域网站的知识图谱构建方法

Also Published As

Publication number Publication date
CN110275894A (zh) 2019-09-24

Similar Documents

Publication Publication Date Title
CN110275894B (zh) 一种知识图谱的更新方法、装置、电子设备及存储介质
CN109446343B (zh) 一种公共安全知识图谱构建的方法
WO2021196520A1 (zh) 一种面向税务领域知识图谱的构建方法及系统
Jiang et al. An unsupervised approach for discovering relevant tutorial fragments for APIs
US20200242140A1 (en) Method, apparatus, device and medium for determining text relevance
US8631048B1 (en) Data alignment system
JP2022120014A (ja) データ取り込みおよび該データへのユーザアクセス促進システムおよび方法
US10332012B2 (en) Knowledge driven solution inference
WO2015093541A1 (ja) シナリオ生成装置、及びそのためのコンピュータプログラム
KR101542195B1 (ko) 비정형 데이터로부터 특성을 추출하여 지식 베이스를 구축하는 시스템 및 방법
US20110137919A1 (en) Apparatus and method for knowledge graph stabilization
EP3343400A1 (en) System and method for dynamically creating a domain ontology
Wan et al. Extracting association rules from XML documents using XQuery
WO2015093540A1 (ja) フレーズペア収集装置、及びそのためのコンピュータプログラム
CN111899089A (zh) 基于知识图谱的企业风险预警方法及系统
Foong et al. Cyberbullying system detection and analysis
CN113779272A (zh) 基于知识图谱的数据处理方法、装置、设备及存储介质
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN111813960A (zh) 基于知识图谱的数据安全审计模型装置、方法及终端设备
EP2996047A1 (en) A method and system for selecting public data sources
KR102421904B1 (ko) 재난사고 원인분석의 고도화 방법
Xu et al. Novel approach of semantic annotation by fuzzy ontology based on variable precision rough set and concept lattice
KR20080007740A (ko) 웹 온톨로지 검색/분류 시스템 및 방법
CN111143394B (zh) 知识数据处理方法、装置、介质及电子设备
CN112559756A (zh) 一种地震事件知识图谱构建方法、应用方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant