CN110909168A - 知识图谱的更新方法和装置、存储介质及电子装置 - Google Patents

知识图谱的更新方法和装置、存储介质及电子装置 Download PDF

Info

Publication number
CN110909168A
CN110909168A CN201910900847.8A CN201910900847A CN110909168A CN 110909168 A CN110909168 A CN 110909168A CN 201910900847 A CN201910900847 A CN 201910900847A CN 110909168 A CN110909168 A CN 110909168A
Authority
CN
China
Prior art keywords
triple
attribute
attribute value
conflict
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910900847.8A
Other languages
English (en)
Other versions
CN110909168B (zh
Inventor
王安然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910900847.8A priority Critical patent/CN110909168B/zh
Publication of CN110909168A publication Critical patent/CN110909168A/zh
Application granted granted Critical
Publication of CN110909168B publication Critical patent/CN110909168B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种知识图谱的更新方法和装置、存储介质及电子装置,涉及人工智能领域的自然语言处理技术。其中,该方法包括:获取待处理文本中的第一三元组,其中,第一三元组包括第一主语、第一属性以及第一属性值;在预定的知识图谱中查找第一三元组出现冲突的第二三元组,其中,第二三元组包括第二主语、第二属性以及第二属性值;在查找到与第一三元组出现冲突的第二三元组的情况下,根据第二三元组与第一三元组出现冲突的冲突类型确定是否将第一三元组加入到知识图谱中。本发明解决了直接将从文本中提取的三元组添加到知识图谱中会导致知识图谱的冗余和错误的技术问题。

Description

知识图谱的更新方法和装置、存储介质及电子装置
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种知识图谱的更新 方法和装置、存储介质及电子装置。
背景技术
知识图谱本质上是一种语义网络,网络中有多个节点,称为实体。三 元组是知识图谱中最小的结构单元,其形式为:(主语,属性,宾语),也 可以表示为(主语,属性,属性值)。现有技术中在补充知识图谱时,在 从文本中抽取三元组后直接添加到知识图谱中。此时如果知识图谱中已存 在相同的三元组或者需要更新的三元组,会导致知识图谱的冗余和错误。
针对现有技术中直接将从文本中提取的三元组添加到知识图谱中会 导致知识图谱的冗余和错误的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种知识图谱的更新方法和装置、存储介质及电 子装置,以至少解决直接将从文本中提取的三元组添加到知识图谱中会导 致知识图谱的冗余和错误的技术问题。
根据本发明实施例的一个方面,提供了一种知识图谱的更新方法,包 括:获取待处理文本中的第一三元组,其中,所述第一三元组包括第一主 语、第一属性以及第一属性值;在预定的知识图谱中查找与所述第一三元 组出现冲突的第二三元组,其中,所述第二三元组包括第二主语、第二属 性以及第二属性值;在查找到与所述第一三元组出现冲突的所述第二三元 组的情况下,根据所述第二三元组与所述第一三元组出现冲突的冲突类型确定是否将所述第一三元组加入到所述知识图谱中。
根据本发明实施例的另一方面,还提供了一种知识图谱的更新装置, 包括:
第一获取模块,用于获取待处理文本中的第一三元组,其中,所述第 一三元组包括第一主语、第一属性以及第一属性值;
查找模块,用于在预定的知识图谱中查找与所述第一三元组出现冲突 的第二三元组,其中,所述第二三元组包括第二主语、第二属性以及第二 属性值;
第一确定模块,用于在查找到与所述第一三元组出现冲突的所述第二 三元组的情况下,根据所述第二三元组与所述第一三元组出现冲突的冲突 类型确定是否将所述第一三元组加入到所述知识图谱中。
可选地,所述确定模块包括:
第一确定单元,用于在所述冲突类型为冲突不等价类型的情况下,获 取对所述第一三元组的标注结果,并根据所述标注结果确定是否将所述第 一三元组加入到所述知识图谱中;
第二确定单元,用于在所述冲突类型为冲突等价类型的情况下,确定 不将所述第一三元组加入到所述知识图谱中。
可选地,所述查找模块包括:
第三确定单元,用于在所述第一主语与所述第二主语相同、所述第一 属性与所述第二属性不同且不等价、所述第一属性值与所述第二属性值相 同的情况下,确定查找到与所述第一三元组出现冲突的所述第二三元组、 且所述冲突类型为所述冲突不等价类型;
第四确定单元,用于在所述第一主语与所述第二主语相同、所述第一 属性与所述第二属性不同且等价、所述第一属性值与所述第二属性值相同 的情况下,确定查找到与所述第一三元组出现冲突的所述第二三元组、且 所述冲突类型为所述冲突等价类型;
第五确定单元,用于在所述第一主语与所述第二主语相同、所述第一 属性与所述第二属性相同、所述第一属性值与所述第二属性值不同且不等 价的情况下,确定查找到与所述第一三元组出现冲突的所述第二三元组、 且所述冲突类型为所述冲突不等价类型;
第六确定单元,用于在所述第一主语与所述第二主语相同、所述第一 属性与所述第二属性相同、所述第一属性值与所述第二属性值不同且等价 的情况下,确定查找到与所述第一三元组出现冲突的所述第二三元组、且 所述冲突类型为所述冲突等价类型。
可选地,所述第五确定单元包括:
判断子单元,用于判断所述第一属性和所述第二属性对应的目标属性 值是否唯一存在;
第一确定子单元,用于当所述目标属性值唯一存在时,获取对所述第 一三元组的标注结果,并根据所述标注结果确定是否将所述第一三元组加 入到所述知识图谱中;
加入子单元,用于当所述目标属性值不是唯一存在时,将所述第一三 元组加入到所述知识图谱中。
可选地,所述装置还包括:
第二获取模块,用于获取所述第一属性A1和所述第二属性B1同时出 现的次数C以及所述第一属性A1和任意所述第二属性同时出现的次数S;
第二确定模块,用于当C与S之比大于或等于预设阈值时,确定所述 第一属性A1和所述第二属性B1等价;
第三确定模块,用于当C与S之比小于所述预设阈值时,确定所述第 一属性A1和所述第二属性B1不等价。
可选地,所述装置还包括:
处理模块,用于对所述第一属性值A2和所述第二属性值B2进行归一 化处理,得到具有相同文本格式和/或度量单位的所述第一属性值A2和所 述第二属性值B2;
第四确定模块,用于当经过所述归一化处理后的所述第一属性值A2 和所述第二属性值B2相同时,确定所述第一属性值A2和所述第二属性值 B2等价;
第五确定模块,用于当经过所述归一化处理后的所述第一属性值A2 和所述第二属性值B2不同时,确定所述第一属性值A2和所述第二属性值 B2不等价。
可选地,所述第一确定模块包括:
替换单元,用于当所述标注结果显示出现冲突的所述第一三元组为正 确结果时,使用所述第一三元组替换所述知识图谱中与所述第一三元组存 在冲突的所述第二三元组;
第七确定单元,用于当所述标注结果显示出现冲突的所述第一三元组 为错误结果时,确定不将所述第一三元组加入到所述知识图谱中。
可选地,所述装置还包括:
第六确定模块,用于在所述第一主语与所述第二主语相同、所述第一 属性与所述第二属性不同且不等价、所述第一属性值与所述第二属性值不 同且不等价的情况下,确定将所述第一三元组加入到所述知识图谱中。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质, 该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执 行上述知识图谱的更新方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述 处理器通过计算机程序执行上述的知识图谱的更新方法。
在本发明实施例中,通过获取待处理文本中的第一三元组,其中,第 一三元组包括第一主语、第一属性以及第一属性值;在预定的知识图谱中 查找与第一三元组出现冲突的第二三元组,其中,第二三元组包括第二主 语、第二属性以及第二属性值;在查找到与第一三元组出现冲突的第二三 元组的情况下,根据所第二三元组与第一三元组出现冲突的冲突类型确定 是否将第一三元组加入到知识图谱中,达到了在更新知识图谱时主动识别出与知识图谱中已有三元组存在冲突的第一三元组,根据冲突类型确定是 否将第一三元组加入到知识图谱中从而避免知识图谱的冗余和错误的目 的,从而实现了高效且准确更新知识图谱的技术效果,进而解决了直接将 从文本中提取的三元组添加到知识图谱中会导致知识图谱的冗余和错误 的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一 部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发 明的不当限定。在附图中:
图1是根据本发明实施例一种可选的知识图谱的更新方法的硬件环境 示意图;
图2是根据本发明实施例的一种可选的知识图谱的更新方法的流程图;
图3是根据本发明实施例的一种可选的知识图谱的更新方法的应用环 境示意图;
图4是根据本发明实施例的又一种可选的知识图谱的更新方法的流程 图;
图5是根据本发明实施例的知识图谱的更新装置的一种可选的结构框 图;
图6是根据本发明实施例的一种可选的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明 实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施 例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动 前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语 “第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺 序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这 里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺 序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于 覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、 产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚 地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
人工智能(Artificial Intelligence,简称为AI)是利用数字计算机或者数字 计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使 用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智 能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种 新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究 各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功 能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术 也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智 能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电 一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技 术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,简称为NLP)是计算机科学 领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用 自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、 计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言, 即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语 言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识 图谱等技术。
本发明实施例中涉及的三元组提取主要是应用NLP技术,从文本中 提取主语、属性和宾语(属性值),组成三元组。
知识图谱本质上是一种语义网络,网络中有多个节点,称为实体。如, “刘德华”,“腾讯”,“北京市”等。这些实体发散出的边表示了这个实体 相关的信息,可以是文本也可以是其他实体。如,刘德华的妻子是朱丽倩。 在图谱中“刘德华”、“朱丽倩”都是实体,两个实体存在一条边,边的名 称是“妻子”。
三元组是知识图谱中最小的结构单元,其形式为:(主语,属性,宾 语)。如:三元组(刘德华,妻子,朱丽倩),(刘德华,出生地,香港), 其中,“妻子”“出生地”都是表示属性,属性前面的词语表示主语,后 面的词语表示宾语,也可以称宾语为主语的属性值,如,朱丽倩就是主语 刘德华的“妻子”的属性值。从无结构化文本中抽取有结构的三元组信息 称为三元组抽取。如给出句子:刘德华与妻子朱丽倩于8号返港。可以从 中抽取(刘德华,妻子,朱丽倩)三元组信息。当知识图谱中缺少这个属 性的值或者属性值有增加的时候,可以将三元组添加到知识图谱中作为数 据补充。如对于图谱中“邓超”这个实体,它没有“儿女”这个属性的时 候。当我们抽取到了(邓超,儿女,等等)时候,这个三元组需要补充到 知识图谱中;之后我们由抽取到了(邓超,儿女,花花)时,这个也需要 补充到知识图谱中。
本发明实施例提供了一种知识图谱的更新方法。图1是根据本发明实 施例一种可选的知识图谱的更新方法的硬件环境示意图,如图1所示,该 硬件环境可以包括但不限于用户设备102、网络110、服务器112,其中, 用户设备102中可以包括但不限于存储器104、处理器106、显示器108, 服务器112可以包括但不限于数据库114、处理引擎116。此处的用户设备 可以但不限于是智能手机(如Android手机、iOS手机等)、平板电脑、掌 上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端 设备。在图1所示的硬件场景中,用户设备102提供了一组文本信息,可 以从该文本信息中提取三元组补充到知识图谱中,本发明实施例的知识图 谱的更新方法一种可选的实现步骤如下:
步骤S102,用户设备102提供文本信息“王菲的前夫是李亚鹏”,并 将该文本信息发送到网络端110,并指示网络端110将文本信息发送到服 务器112;
步骤S104,网络端110将文本信息转发给服务器112;
步骤S106,服务器112接收到文本信息后,获取文本信息中的第一三 元组,例如(王菲,前夫,李亚鹏),其中,王菲是主语,前夫是属性, 李亚鹏是属性值,也可以称为宾语,服务器112将获取的第一三元组与知 识图谱中已有的第二三元组进行比对,判断是否存在冲突,可以是属性冲 突,也可以是属性值冲突,然后根据冲突结果确定是否将第一三元组加入 到知识图谱中;
步骤S108,服务器112将结果信息发送到网络端110,结果信息用于 指示是否将第一三元组加入到知识图谱中;
步骤S110,网络端110将从服务器112接收到的结果信息反馈给用户 设备102。
可选地,在本发明实施例中,上述知识图谱的更新方法可以但不限于 应用于服务器112中,用户设备102可以但不限于为手机、平板电脑、笔 记本电脑、PC机等支持运行应用客户端的终端设备。上述服务器112、用 户设备102可以但不限于通过网络实现数据交互,上述网络可以包括但不 限于无线网络或有线网络。其中,该无线网络包括:蓝牙、WIFI及其他 实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、 局域网。上述仅是一种示例,本实施例中对此不作任何限定。
可选地,步骤S106可以通过以下步骤实现:获取待处理文本中的第 一三元组,其中,第一三元组包括第一主语、第一属性以及第一属性值; 在预定的知识图谱中查找与第一三元组出现冲突的第二三元组,其中,第 二三元组包括第二主语、第二属性以及第二属性值;在查找到与第一三元 组出现冲突的第二三元组的情况下,根据第二三元组与第一三元组出现冲 突的冲突类型确定是否将第一三元组加入到知识图谱中。
图2是本发明实施例的一种可选的知识图谱的更新方法的流程图。如 图2所示,该方法包括:
步骤S202,获取待处理文本中的第一三元组,其中,第一三元组包括 第一主语、第一属性以及第一属性值;
步骤S204,在预定的知识图谱中查找第一三元组出现冲突的第二三元 组,其中,第二三元组包括第二主语、第二属性以及第二属性值;
步骤S206,在查找到与第一三元组出现冲突的第二三元组的情况下, 根据第二三元组与第一三元组出现冲突的冲突类型确定是否将第一三元 组加入到知识图谱中。
可选地,待处理文本可以是从知识图谱中提取的文本,也可以是从外 部来源获取的文本,外部来源可以是新闻、期刊、网络论坛等任意可以获 取文本信息的平台,本发明实施例对此不做限定。
可选地,在本实施例中,上述知识图谱的更新方法可以应用于如图3 所示的第一客户端302、服务器304所构成的硬件环境中,图2所示的各 个步骤的执行主体可以但不限于是服务器304。如图3所示,服务器304 接收到客户端302发送的待处理文本信息,从待处理文本信息中提取第一 三元组,服务器304将获取的第一三元组与知识图谱中已有的第二三元组 进行比对,判断是否存在冲突,可以是属性冲突,也可以是属性值冲突, 然后根据冲突结果确定是否将第一三元组加入到知识图谱中。
服务器304中的处理步骤包括:
步骤S301,获取待处理文本中的第一三元组,其中,第一三元组包括 第一主语、第一属性以及第一属性值;
步骤S302,在预定的知识图谱中查找第一三元组出现冲突的第二三元 组,其中,第二三元组包括第二主语、第二属性以及第二属性值;
步骤S303,在查找到与第一三元组出现冲突的第二三元组的情况下, 根据第二三元组与第一三元组出现冲突的冲突类型确定是否将第一三元 组加入到知识图谱中。
可选地,根据第二三元组与第一三元组出现冲突的冲突类型确定是否 将第一三元组加入到知识图谱中,可以通过以下步骤实现:
S1,在冲突类型为冲突不等价类型的情况下,获取对第一三元组的标 注结果,并根据标注结果确定是否将第一三元组加入到知识图谱中;
S2,在冲突类型为冲突等价类型的情况下,确定不将第一三元组加入 到知识图谱中。
本发明实施例中涉及的冲突,可以是第一三元组的主语与第二三元组 的主语相同时出现的冲突,如果知识图谱中的第二三元组的主语,也就是 知识图谱中的实体,没有与第一三元组的主语相同的,那么可以认为知识 图谱中不存在与第一三元组存在冲突的第二三元组。另一种情况下,也可 能第一三元组和第二三元组的主语不同,但是属性和属性值均相同或等价, 而属性值又具有唯一性,此时也可以认为存在冲突。例如,第一三元组为 (A,配偶,C),知识图谱中存在第二三元组(B,配偶,C),C只可能 是一个人的配偶,即属性值具有唯一性,不可能同时是A和B的配偶, 此时第一三元组和第二三元组存在冲突,而知识图谱中不存在主语A对应 的实体,此时可以将第一三元组进行人工标注,审核其准确性,如果第一 三元组(A,配偶,C)是准确的,那么可以使用第一三元组(A,配偶,C)替换掉知识图谱中的第二三元组(B,配偶,C),如果第一三元组(A, 配偶,C)是错误的,直接放弃,不将其添加到知识图谱中。
一般知识图谱中的实体的获取是通过网络爬虫的方式在网络数据中 获取,本发明实施例中涉及的知识图谱的更新主要涉及对知识图谱中已有 实体的相关数据进行更新,因此,下文中涉及的第一三元组,可以理解为 第一三元组的第一主语均可以在知识图谱中找到对应的实体。
冲突类型可以分为冲突等价类型和冲突不等价类型,其中,冲突等价 类型可以分为属性值等价的冲突和属性名等价的冲突,冲突不等价类型可 以分为属性值不等价的冲突和属性名不等价的冲突。
可选地,在预定的知识图谱中查找与第一三元组出现冲突的第二三元 组,包括:
一、在第一主语与第二主语相同、第一属性与第二属性不同且不等价、 第一属性值与第二属性值相同的情况下,确定查找到与第一三元组出现冲 突的第二三元组、且冲突类型为冲突不等价类型。
举例说明,属性名冲突是指,当主语和宾语(属性值)都相同,但是 属性不同的情况。例如第一三元组为(王菲,前夫,李亚鹏),第二三元 组为(王菲,配偶,李亚鹏),此时,第一三元组的属性名是“前夫”,第 二三元组的属性名是“配偶”,二者非等价关系,可以确定第一三元组和 第二三元组存在不等价冲突。
二、在第一主语与第二主语相同、第一属性与第二属性不同且等价、 第一属性值与第二属性值相同的情况下,确定查找到与第一三元组出现冲 突的第二三元组、且冲突类型为冲突等价类型。
举例说明,例如第一三元组为(张文平,妻子,李媛媛),第二 三元组为(张文平,配偶,李媛媛),此时,第一三元组的属性名是 “妻子”,第二三元组的属性名是“配偶”,二者可以理解为等价关系, 可以确定第一三元组和第二三元组存在等价冲突。
可选地,根据第二三元组与第一三元组出现冲突的冲突类型确定是否 将第一三元组加入到知识图谱中之前,所述方法还包括:
S1,获取第一属性A1和第二属性B1同时出现的次数C以及第一属 性A1和任意第二属性同时出现的次数S;
S2,当C与S之比大于或等于预设阈值时,确定第一属性A1和第二 属性B1等价;
S3,当C与S之比小于预设阈值时,确定第一属性A1和第二属性B1 不等价。
举例说明,本发明实施例基于共现频率的方法映射第一三元组抽取属 性词r和知识图谱中第二三元组属性词r’,过滤掉等价属性的第一三元组。 具体如下:将属性名冲突的情况汇总,对所有r-r’对应情况统计频次。 对于第一三元组某属性ri和知识图谱中第二三元组某属性r’i共同出现次 数统计为Count(ri,r’i),三元组某属性ri与其他任意属性r’j冲突的所 有情况计数为Sum(ri,r’j)。设定一个阈值t,如果Count(ri,r’i)/Sum(ri,, r’j)>t,那么(ri-r’i)存在映射关系,即为等价属性,第一三元组和第 二三元组的冲突就是等价冲突,否则就是不等价的冲突三元组。
三、在第一主语与第二主语相同、第一属性与第二属性相同、第一属 性值与第二属性值不同且不等价的情况下,确定查找到与第一三元组出现 冲突的第二三元组、且冲突类型为冲突不等价类型。
四、在第一主语与第二主语相同、第一属性与第二属性相同、第一属 性值与第二属性值不同且等价的情况下,确定查找到与第一三元组出现冲 突的第二三元组、且冲突类型为冲突等价类型。
属性值冲突是指,当主语和属性都相同,但是宾语(属性值)不同的 情况。举例说明,例如第一三元组为(王菲,配偶,李亚鹏),第二三元 组为(王菲,配偶,窦唯)。第一三元组的属性值是“李亚鹏”,第二三元 组的属性值时“窦唯”,李亚鹏和窦唯不是等价关系,是完全不同的属性 值,因此为不等价冲突。如果第一三元组为(肖战,生日,1991-10-5), 第二三元组为(肖战,生日,1991年10月5日),此时第一三元组的属性 值是“1991-10-5”,第二三元组的属性值是“1991年10月5日”,属于同 一个含义的不同表达形式,可以认定为等价的属性值,即第一三元组和第 二三元组为等价冲突。
可选地,在第一主语与第二主语相同、第一属性与第二属性相同、第 一属性值与第二属性值不同且不等价的情况下,所述方法还包括:
S1,判断第一属性和第二属性对应的目标属性值是否唯一存在;
S2,当目标属性值唯一存在时,获取对第一三元组的标注结果,并根 据标注结果确定是否将第一三元组加入到知识图谱中;
S3,当目标属性值不是唯一存在时,将所第一三元组加入到知识图谱 中。
关于属性值的不等价冲突仅限于只有一个属性值的属性,即属性值具 有唯一性,例如:“配偶”,“出生日期”等。对于可以存在多个属性值的 属性,如“好友”、“同事”,不认定为属性值冲突。
可选地,根据第二三元组与第一三元组出现冲突的冲突类型确定是否 将第一三元组加入到知识图谱中之前,所述方法还包括:
对第一属性值A2和第二属性值B2进行归一化处理,得到具有相同文 本格式和/或度量单位的第一属性值A2和第二属性值B2;
当经过归一化处理后的第一属性值A2和第二属性值B2相同时,确定 第一属性值A2和第二属性值B2等价;
当经过归一化处理后的第一属性值A2和第二属性值B2不同时,确定 第一属性值A2和第二属性值B2不等价。
在属性值对比时,存在一些等价但是字符串不匹配的情况,如在知识 图谱中,出生日期多为datetime格式的数据(1999-1-1),但是文本抽的结 果多为(1999年1月1日)。所以需要对时间以及长度等度量单位进行归 一。等价三元组不计为属性值冲突情况。
五、还有一种等价冲突的情况,第一三元组和第二三元组的主语、属 性、属性值均相同,则证明这个第一三元组已经在知识图谱中存在了。
对于上述等价冲突的情况,可以直接舍弃第一三元组,不必添加到知 识图谱中,而对于不等价冲突的情况,需要进行人工标注,人工确定是否 是最新且准确的三元组数据,如果是,就替换掉原知识图谱中存在冲突的 第二三元组,将都第一三元组添加到知识图谱中,如果不是,就舍弃第一 三元组,不添加到知识图谱中。
还有一种情况,就是第一三元组既没有存在于知识图谱中,也没有与 它存在冲突的第二三元组,例如,第一三元组为(邓超,子女,小花), 知识图谱中的第二三元组存在(邓超,子女,等等),此时虽然属性相同, 但是该属性可以对应多个属性值,可以直接将第一三元组直接添加到知识 图谱中,也可以转由人工标注,根据标注结果确定是否将第一三元组添加 到知识图谱中。
可选地,在冲突类型为冲突不等价类型的情况下,获取对第一三元组 的标注结果,并根据标注结果确定是否将第一三元组加入到知识图谱中, 包括:
当标注结果显示出现冲突的第一三元组为正确结果时,使用第一三元 组替换知识图谱中与第一三元组存在冲突的第二三元组;
当标注结果显示出现冲突的第一三元组为错误结果时,确定不将第一 三元组加入到知识图谱中。
可选地,在预定的知识图谱中查找与第一三元组出现冲突的第二三元 组之后,所述方法还包括:
在第一主语与第二主语相同、第一属性与第二属性不同且不等价、第 一属性值与第二属性值不同且不等价的情况下,确定将第一三元组加入到 知识图谱中。
图4是根据本发明实施例的又一种可选的知识图谱的更新方法的流程 图,如图4所示,包括以下步骤:
步骤1:回标文本,输入到三元组抽取模型,抽取三元组。
输入句子或者段落这类的非结构化文本信息到三元组抽取模型,获得 三元组。因为需要导入到知识图谱当中,所以抽取的三元组要包含知识图 谱的实体,且需要知道抽取的三元组中的主语应该对应到知识图谱中的哪 个实体上。首先需要根据字符串匹配,找到包含知识图谱实体的文本,即 根据实体回标文本,获取待抽取的文本。
根据文本来源,可以分为以下两种情况:
第一种是来自于知识图谱的描述实体的文本。那么抽取出的三元组的 主语就是该知识图谱的实体,带有知识图谱该实体的标识。如:知识图谱 中id为1001的名称为“王菲”这个实体,其中后描述她个人信息的简介。 那么使用这个简介作为抽取三元组的文本的话,抽取的所有三元组中,保 留(王菲,属性,宾语)这种形式的三元组,并将其映射为(1001,属性, 宾语)。如果知识图谱中存在一个三元组(刘德华,出生地,刘德华于1961 年出生于中国香港),此时从知识图谱中获取的待分类文本是“刘德华于 1961年出生于中国香港”,可以直接对应到其在知识图谱中的实体“刘德 华”。
第二种情况是待分类本文来自于知识图谱以外的文本信息,可以是网 络论坛、新闻消息、论文报纸等。那么抽取的三元组中的主语不知道对应 到知识图谱当中的哪个实体上,所以需要借助实体链接工具,根据上下文 信息判断三元祖中的实体应该对应到知识图谱当中的哪个实体上。同样可 以把抽取的三元组形式映射成第一种情况的格式,最终得到的三元组的形 式是(实体id,属性,宾语)。
步骤2:三元组与知识图谱比对。
对于抽取的三元组(也就是前文所述第一三元组,以下简称为A), 用符号(e,r,p)表示,对于知识图谱中的三元组(也就是前文所述第二三 元组,以下简称为B),用(e’,r’,p’)表示,其中e表示主语,r表示 属性,p表示宾语。
对于三元组的对比分为三种情况:
1)Exist(存在的三元组)
当e=e',r=r',p=p'时,则证明这个三元组已经在知识图谱中存在了。
2)Conflict(冲突的三元组)
冲突是指A和B存在不一致的情况,首先,本发明实施例定义抽取 三元组和知识图谱三元组冲突(Conflict)的两种形式:
a.属性名冲突:e=e',r!=r',p=p'
属性名冲突是指,当主语和宾语都相同,但是属性不同的情况。
例1:A为(王菲,前夫,李亚鹏),B为(王菲,配偶,李亚鹏)
例2:A为(张文平,妻子,李媛媛),B为(张文平,配偶,李 媛媛)。
例2这种等价的三元组甄别出来,不添加到知识图谱当中。仅把例1 作为真正属性名冲突的情况。
b.属性值冲突:e=e',r=r',p!=p'
属性值冲突是指,当主语和属性都相同,但是宾语不同的情况.
例:A为(王菲,配偶,李亚鹏),B为(王菲,配偶,窦唯)。
这种冲突仅限于只有一个属性值的属性,例如:“配偶”,“出生日期”。 对于可以存在多值的属性,如“好友”、“同事”,不作为属性值冲突。
在属性值对比时,存在一些等价但是字符串不匹配的情况,如在知识 图谱中,出生日期多为datetime格式的数据(1999-1-1),但是文本抽的结 果多为(1999年1月1日)。所以需要对时间以及长度等度量单位进行归 一。等价三元组不计为属性值冲突情况。
3)New(新三元组)
既不是Exist的也不是Conflict的三元组则为新的三元组。
步骤4:人工标注Conflict部分和低分的New部分,更新模型。
对于Conflict的三元组有可能是模型抽取的三元组本身就是错误的, 也有可能是知识图谱的三元组需要更新所,以需要人工标注确定是哪种情 况。
对于New的三元组,如果分类得分高于设定阈值可以不用人工标注, 对于低分的也需要人工标注来保证三元组的正确性。此处的分类得分可以 是在抽取三元组的过程中,每个抽取的三元组都有一个对应的概率得分, 例如,(刘德华,家,九龙)对应的得分是0.6,(刘德华,公司,九龙) 对应的得分是0.8,可以认为是三元组准确性的得分,然后与知识图谱比 对后分别得到冲突、new、已存在三类,冲突和已存在的不考虑得分,只 对new这一类考虑得分,高分(大于或等于预设阈值)直接补充进图谱, 低分(小于预设阈值)进行人工标注。
这些人工标注的数据同时可以微调(fine-tuning)三元组抽取模型,可 以提高三元组抽取的准确度。
步骤5:标注结果导入到知识图谱。
将标注为正确的三元组导入到知识图谱。对于来自Conflict的三元组 的操作是进行知识图谱的更新,对于来自New的三元组的操作是知识图 谱的补充。
本发明实施例提出了一种基于三元组的知识图谱数据补充以及更新 的方法和流程。通过抽取属性和图谱属性的频次统计解决属性不一致情况 下的映射问题;同时将三元组比对分为了Exist、Conflict、New三种情况, 对应了抽取三元组到知识图谱的三种操作:丢弃、更新、补充;最后根据 三元组标注的结果在添加到知识图谱以外还可以用于fine-tuning抽取模型。 可以解决抽取三元组导入知识图谱中冗余以及三元组更新的问题,同时可 以通过将抽取三元组划分减少人工标注的标注量。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都 表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受 所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序 或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实 施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根 据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当 然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理 解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软 件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可 以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所 述的方法。
根据本发明实施例的另一个方面,还提供了一种用于实施上述知识图 谱的更新方法的知识图谱的更新装置。图5是根据本发明实施例的知识图 谱的更新装置的一种可选的结构框图,如图5所示,该装置包括:
第一获取模块502,用于获取待处理文本中的第一三元组,其中,第 一三元组包括第一主语、第一属性以及第一属性值;
查找模块504,用于在预定的知识图谱中查找与第一三元组出现冲突 的第二三元组,其中,第二三元组包括第二主语、第二属性以及第二属性 值;
第一确定模块506,用于在查找到与第一三元组出现冲突的第二三元 组的情况下,根据第二三元组与第一三元组出现冲突的冲突类型确定是否 将第一三元组加入到知识图谱中。
可选地,确定模块506包括:
第一确定单元,用于在冲突类型为冲突不等价类型的情况下,获取对 第一三元组的标注结果,并根据标注结果确定是否将第一三元组加入到知 识图谱中;
第二确定单元,用于在冲突类型为冲突等价类型的情况下,确定不将 第一三元组加入到知识图谱中。
可选地,所述查找模块504包括:
第三确定单元,用于在所述第一主语与所述第二主语相同、所述第一 属性与所述第二属性不同且不等价、所述第一属性值与所述第二属性值相 同的情况下,确定查找到与所述第一三元组出现冲突的所述第二三元组、 且所述冲突类型为所述冲突不等价类型;
第四确定单元,用于在所述第一主语与所述第二主语相同、所述第一 属性与所述第二属性不同且等价、所述第一属性值与所述第二属性值相同 的情况下,确定查找到与所述第一三元组出现冲突的所述第二三元组、且 所述冲突类型为所述冲突等价类型;
第五确定单元,用于在所述第一主语与所述第二主语相同、所述第一 属性与所述第二属性相同、所述第一属性值与所述第二属性值不同且不等 价的情况下,确定查找到与所述第一三元组出现冲突的所述第二三元组、 且所述冲突类型为所述冲突不等价类型;
第六确定单元,用于在所述第一主语与所述第二主语相同、所述第一 属性与所述第二属性相同、所述第一属性值与所述第二属性值不同且等价 的情况下,确定查找到与所述第一三元组出现冲突的所述第二三元组、且 所述冲突类型为所述冲突等价类型。
可选地,所述第五确定单元包括:
判断子单元,用于判断所述第一属性和所述第二属性对应的目标属性 值是否唯一存在;
第一确定子单元,用于当所述目标属性值唯一存在时,获取对所述第 一三元组的标注结果,并根据所述标注结果确定是否将所述第一三元组加 入到所述知识图谱中;
加入子单元,用于当所述目标属性值不是唯一存在时,将所述第一三 元组加入到所述知识图谱中。
可选地,所述装置还包括:
第二获取模块,用于获取所述第一属性A1和所述第二属性B1同时出 现的次数C以及所述第一属性A1和任意所述第二属性同时出现的次数S;
第二确定模块,用于当C与S之比大于或等于预设阈值时,确定所述 第一属性A1和所述第二属性B1等价;
第三确定模块,用于当C与S之比小于所述预设阈值时,确定所述第 一属性A1和所述第二属性B1不等价。
可选地,所述装置还包括:
处理模块,用于对所述第一属性值A2和所述第二属性值B2进行归一 化处理,得到具有相同文本格式和/或度量单位的所述第一属性值A2和所 述第二属性值B2;
第四确定模块,用于当经过所述归一化处理后的所述第一属性值A2 和所述第二属性值B2相同时,确定所述第一属性值A2和所述第二属性值 B2等价;
第五确定模块,用于当经过所述归一化处理后的所述第一属性值A2 和所述第二属性值B2不同时,确定所述第一属性值A2和所述第二属性值 B2不等价。
可选地,所述第一确定模块包括:
替换单元,用于当所述标注结果显示出现冲突的所述第一三元组为正 确结果时,使用所述第一三元组替换所述知识图谱中与所述第一三元组存 在冲突的所述第二三元组;
第七确定单元,用于当所述标注结果显示出现冲突的所述第一三元组 为错误结果时,确定不将所述第一三元组加入到所述知识图谱中。
可选地,所述装置还包括:
第六确定模块,用于在所述第一主语与所述第二主语相同、所述第一 属性与所述第二属性不同且不等价、所述第一属性值与所述第二属性值不 同且不等价的情况下,确定将所述第一三元组加入到所述知识图谱中。
根据本发明实施例的又一个方面,还提供了一种用于实施上述知识图 谱的更新方法的电子装置,上述电子装置可以但不限于应用于上述图1所 示的服务器112中。如图6所示,该电子装置包括存储器902和处理器904, 该存储器902中存储有计算机程序,该处理器904被设置为通过计算机程 序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网 络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执 行以下步骤:
S1,获取待处理文本中的第一三元组,其中,第一三元组包括第一主 语、第一属性以及第一属性值;
S2,在预定的知识图谱中查找第一三元组出现冲突的第二三元组,其 中,第二三元组包括第二主语、第二属性以及第二属性值;
S3,在查找到与第一三元组出现冲突的第二三元组的情况下,根据第 二三元组与第一三元组出现冲突的冲突类型确定是否将第一三元组加入 到知识图谱中。
可选地,本领域普通技术人员可以理解,图6所示的结构仅为示意, 电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、 掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终 端设备。图6其并不对上述电子装置的结构造成限定。例如,电子装置还 可包括比图6中所示更多或者更少的组件(如网络接口等),或者具有与 图6所示不同的配置。
其中,存储器602可用于存储软件程序以及模块,如本发明实施例中 的知识图谱的更新方法和装置对应的程序指令/模块,处理器604通过运 行存储在存储器602内的软件程序以及模块,从而执行各种功能应用以及 数据处理,即实现上述的知识图谱的更新方法。存储器602可包括高速随 机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、 闪存、或者其他非易失性固态存储器。在一些实例中,存储器602可进一 步包括相对于处理器604远程设置的存储器,这些远程存储器可以通过网 络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域 网、移动通信网及其组合。其中,存储器602具体可以但不限于用于储存 知识图谱的更新方法的程序步骤。作为一种示例,如图6所示,上述存储 器602中可以但不限于包括上述知识图谱的更新装置中的第一获取模块502、查找模块504和第一确定模块506。此外,还可以包括但不限于上述 知识图谱的更新装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置606用于经由一个网络接收或者发送数据。 上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装 置606包括一个网络适配器(Network Interface Controller,NIC),其可通 过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。 在一个实例中,传输装置606为射频(Radio Frequency,RF)模块,其用 于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器608,用于显示可疑帐号的告警 推送;和连接总线610,用于连接上述电子装置中的各个模块部件。
本发明的实施例还提供了一种计算机可读的存储介质,该存储介质中 存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项 方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以 下步骤的计算机程序:
S1,获取待处理文本中的第一三元组,其中,第一三元组包括第一主 语、第一属性以及第一属性值;
S2,在预定的知识图谱中查找第一三元组出现冲突的第二三元组,其 中,第二三元组包括第二主语、第二属性以及第二属性值;
S3,在查找到与第一三元组出现冲突的第二三元组的情况下,根据第 二三元组与第一三元组出现冲突的冲突类型确定是否将第一三元组加入 到知识图谱中。
可选地,存储介质还被设置为存储用于执行上述实施例中的方法中所 包括的步骤的计算机程序,本实施例中对此不再赘述。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的 各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬 件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包 括:闪存盘、只读存储器(Read-OnlyMemory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为 独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。 基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的 部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计 算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算 机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实 施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可 通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的, 例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外 的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统, 或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦 合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或 通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的, 作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地 方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的 部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元 中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在 一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软 件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的 普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进 和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (11)

1.一种知识图谱的更新方法,其特征在于,包括:
获取待处理文本中的第一三元组,其中,所述第一三元组包括第一主语、第一属性以及第一属性值;
在预定的知识图谱中查找与所述第一三元组出现冲突的第二三元组,其中,所述第二三元组包括第二主语、第二属性以及第二属性值;
在查找到与所述第一三元组出现冲突的所述第二三元组的情况下,根据所述第二三元组与所述第一三元组出现冲突的冲突类型确定是否将所述第一三元组加入到所述知识图谱中。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第二三元组与所述第一三元组出现冲突的冲突类型确定是否将所述第一三元组加入到所述知识图谱中,包括:
在所述冲突类型为冲突不等价类型的情况下,获取对所述第一三元组的标注结果,并根据所述标注结果确定是否将所述第一三元组加入到所述知识图谱中;
在所述冲突类型为冲突等价类型的情况下,确定不将所述第一三元组加入到所述知识图谱中。
3.根据权利要求2所述的方法,其特征在于,所述在预定的知识图谱中查找与所述第一三元组出现冲突的第二三元组,包括:
在所述第一主语与所述第二主语相同、所述第一属性与所述第二属性不同且不等价、所述第一属性值与所述第二属性值相同的情况下,确定查找到与所述第一三元组出现冲突的所述第二三元组、且所述冲突类型为所述冲突不等价类型;
在所述第一主语与所述第二主语相同、所述第一属性与所述第二属性不同且等价、所述第一属性值与所述第二属性值相同的情况下,确定查找到与所述第一三元组出现冲突的所述第二三元组、且所述冲突类型为所述冲突等价类型;
在所述第一主语与所述第二主语相同、所述第一属性与所述第二属性相同、所述第一属性值与所述第二属性值不同且不等价的情况下,确定查找到与所述第一三元组出现冲突的所述第二三元组、且所述冲突类型为所述冲突不等价类型;
在所述第一主语与所述第二主语相同、所述第一属性与所述第二属性相同、所述第一属性值与所述第二属性值不同且等价的情况下,确定查找到与所述第一三元组出现冲突的所述第二三元组、且所述冲突类型为所述冲突等价类型。
4.根据权利要求3所述的方法,其特征在于,所述在所述第一主语与所述第二主语相同、所述第一属性与所述第二属性相同、所述第一属性值与所述第二属性值不同且不等价的情况下,所述方法还包括:
判断所述第一属性和所述第二属性对应的目标属性值是否唯一存在;
当所述目标属性值唯一存在时,获取对所述第一三元组的标注结果,并根据所述标注结果确定是否将所述第一三元组加入到所述知识图谱中;
当所述目标属性值不是唯一存在时,将所述第一三元组加入到所述知识图谱中。
5.根据权利要求3所述的方法,其特征在于,所述根据所述第二三元组与所述第一三元组出现冲突的冲突类型确定是否将所述第一三元组加入到所述知识图谱中之前,所述方法还包括:
获取所述第一属性A1和所述第二属性B1同时出现的次数C以及所述第一属性A1和任意所述第二属性同时出现的次数S;
当C与S之比大于或等于预设阈值时,确定所述第一属性A1和所述第二属性B1等价;
当C与S之比小于所述预设阈值时,确定所述第一属性A1和所述第二属性B1不等价。
6.根据权利要求3所述的方法,其特征在于,所述根据所述第二三元组与所述第一三元组出现冲突的冲突类型确定是否将所述第一三元组加入到所述知识图谱中之前,所述方法还包括:
对所述第一属性值A2和所述第二属性值B2进行归一化处理,得到具有相同文本格式和/或度量单位的所述第一属性值A2和所述第二属性值B2;
当经过所述归一化处理后的所述第一属性值A2和所述第二属性值B2相同时,确定所述第一属性值A2和所述第二属性值B2等价;
当经过所述归一化处理后的所述第一属性值A2和所述第二属性值B2不同时,确定所述第一属性值A2和所述第二属性值B2不等价。
7.根据权利要求2所述的方法,其特征在于,所述在所述冲突类型为冲突不等价类型的情况下,获取对所述第一三元组的标注结果,并根据所述标注结果确定是否将所述第一三元组加入到所述知识图谱中,包括:
当所述标注结果显示出现冲突的所述第一三元组为正确结果时,使用所述第一三元组替换所述知识图谱中与所述第一三元组存在冲突的所述第二三元组;
当所述标注结果显示出现冲突的所述第一三元组为错误结果时,确定不将所述第一三元组加入到所述知识图谱中。
8.根据权利要求1所述的方法,其特征在于,所述在预定的知识图谱中查找与所述第一三元组出现冲突的第二三元组之后,所述方法还包括:
在所述第一主语与所述第二主语相同、所述第一属性与所述第二属性不同且不等价、所述第一属性值与所述第二属性值不同且不等价的情况下,确定将所述第一三元组加入到所述知识图谱中。
9.一种知识图谱的更新装置,其特征在于,包括:
获取模块,用于获取待处理文本中的第一三元组,其中,所述第一三元组包括第一主语、第一属性以及第一属性值;
查找模块,用于在预定的知识图谱中查找与所述第一三元组出现冲突的第二三元组,其中,所述第二三元组包括第二主语、第二属性以及第二属性值;
确定模块,用于在查找到与所述第一三元组出现冲突的所述第二三元组的情况下,根据所述第二三元组与所述第一三元组出现冲突的冲突类型确定是否将所述第一三元组加入到所述知识图谱中。
10.一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至8任一项中所述的方法。
11.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。
CN201910900847.8A 2019-09-23 2019-09-23 知识图谱的更新方法和装置、存储介质及电子装置 Active CN110909168B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910900847.8A CN110909168B (zh) 2019-09-23 2019-09-23 知识图谱的更新方法和装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910900847.8A CN110909168B (zh) 2019-09-23 2019-09-23 知识图谱的更新方法和装置、存储介质及电子装置

Publications (2)

Publication Number Publication Date
CN110909168A true CN110909168A (zh) 2020-03-24
CN110909168B CN110909168B (zh) 2023-02-24

Family

ID=69815451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910900847.8A Active CN110909168B (zh) 2019-09-23 2019-09-23 知识图谱的更新方法和装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN110909168B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694967A (zh) * 2020-06-11 2020-09-22 腾讯科技(深圳)有限公司 属性抽取方法、装置、电子设备及介质
CN112308464A (zh) * 2020-11-24 2021-02-02 中国人民公安大学 业务流程数据处理方法和装置
CN112860912A (zh) * 2021-02-10 2021-05-28 北京字节跳动网络技术有限公司 一种更新知识图谱的方法及装置
CN117171364A (zh) * 2023-10-30 2023-12-05 北京华控智加科技有限公司 运维知识图谱更新方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268581A (zh) * 2017-07-14 2018-07-10 广东神马搜索科技有限公司 知识图谱的构建方法及装置
CN108647318A (zh) * 2018-05-10 2018-10-12 北京航空航天大学 一种基于多源数据的知识融合方法
CN109271530A (zh) * 2018-10-17 2019-01-25 长沙瀚云信息科技有限公司 一种疾病知识图谱构建方法和平台系统、设备、存储介质
CN109446343A (zh) * 2018-11-05 2019-03-08 上海德拓信息技术股份有限公司 一种公共安全知识图谱构建的方法
CN109508420A (zh) * 2018-11-26 2019-03-22 北京羽扇智信息科技有限公司 一种知识图谱属性的清洗方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268581A (zh) * 2017-07-14 2018-07-10 广东神马搜索科技有限公司 知识图谱的构建方法及装置
CN108647318A (zh) * 2018-05-10 2018-10-12 北京航空航天大学 一种基于多源数据的知识融合方法
CN109271530A (zh) * 2018-10-17 2019-01-25 长沙瀚云信息科技有限公司 一种疾病知识图谱构建方法和平台系统、设备、存储介质
CN109446343A (zh) * 2018-11-05 2019-03-08 上海德拓信息技术股份有限公司 一种公共安全知识图谱构建的方法
CN109508420A (zh) * 2018-11-26 2019-03-22 北京羽扇智信息科技有限公司 一种知识图谱属性的清洗方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694967A (zh) * 2020-06-11 2020-09-22 腾讯科技(深圳)有限公司 属性抽取方法、装置、电子设备及介质
CN111694967B (zh) * 2020-06-11 2023-10-20 腾讯科技(深圳)有限公司 属性抽取方法、装置、电子设备及介质
CN112308464A (zh) * 2020-11-24 2021-02-02 中国人民公安大学 业务流程数据处理方法和装置
CN112308464B (zh) * 2020-11-24 2023-11-24 中国人民公安大学 业务流程数据处理方法和装置
CN112860912A (zh) * 2021-02-10 2021-05-28 北京字节跳动网络技术有限公司 一种更新知识图谱的方法及装置
CN112860912B (zh) * 2021-02-10 2024-05-07 北京字节跳动网络技术有限公司 一种更新知识图谱的方法及装置
CN117171364A (zh) * 2023-10-30 2023-12-05 北京华控智加科技有限公司 运维知识图谱更新方法及装置
CN117171364B (zh) * 2023-10-30 2024-02-02 北京华控智加科技有限公司 运维知识图谱更新方法及装置

Also Published As

Publication number Publication date
CN110909168B (zh) 2023-02-24

Similar Documents

Publication Publication Date Title
CN110909168B (zh) 知识图谱的更新方法和装置、存储介质及电子装置
CN109299110B (zh) 数据查询方法、装置、存储介质和电子设备
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
US20200133962A1 (en) Knowledge graph generating apparatus, method, and non-transitory computer readable storage medium thereof
CN103530334A (zh) 基于比较模板的数据匹配系统和方法
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN114153980A (zh) 知识图谱构建方法和装置、检查方法、存储介质
CN105426305A (zh) 一种控件属性解析系统及方法
CN114090671A (zh) 数据导入方法、装置、电子设备及存储介质
CN112395425A (zh) 一种数据处理方法、装置、计算机设备以及可读存储介质
CN110209781A (zh) 一种文本处理方法、装置以及相关设备
US10650195B2 (en) Translated-clause generating method, translated-clause generating apparatus, and recording medium
CN113836272A (zh) 关键信息的展示方法、系统、计算机设备及可读存储介质
CN113836316A (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
CN107798004B (zh) 关键词查找方法、装置及终端
CN110489740B (zh) 语义解析方法及相关产品
CN112818693A (zh) 一种电子元器件型号词的自动提取方法及系统
US10229105B1 (en) Mobile log data parsing
CN112860811B (zh) 数据血缘关系的确定方法、装置、电子设备和存储介质
CN106339381A (zh) 一种信息处理方法及装置
CN114579580A (zh) 存储数据的方法、查询数据的方法和装置
CN114385918A (zh) 消息推送方法、装置、计算机设备及存储介质
CN102982422B (zh) 工艺文档数据的处理方法及装置
CN111078727A (zh) 一种简要描述生成方法、装置及计算机可读存储介质
CN114896991B (zh) 文本翻译方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021400

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant