CN104484459B

CN104484459B - 一种对知识图谱中的实体进行合并的方法及装置

Info

Publication number: CN104484459B
Application number: CN201410838342.0A
Authority: CN
Inventors: 胡士文; 项碧波
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2014-12-29
Filing date: 2014-12-29
Publication date: 2019-07-23
Anticipated expiration: 2034-12-29
Also published as: CN104484459A

Abstract

本发明涉及一种对知识图谱中的实体进行合并的方法及装置，该方法包括如下步骤：根据知识图谱中实体对应的结构化数据，生成一级特征向量；根据实体对应的文档中包含的term，生成二级特征向量；根据所述一级特征向量和二级特征向量确定不同实体间的相似度；本发明通过将实体ID分别构建一级特征向量和二级特征向量，来对同名的实体ID进行相似度计算，可以准确地判断同名的实体ID是否为同一事物，从而可以减少知识图谱中同一事物存在多个实体ID，使得知识图谱内容更加准确，结构更加紧凑。

Description

一种对知识图谱中的实体进行合并的方法及装置

技术领域

本发明涉及计算机搜索技术领域，尤其是涉及一种对知识图谱中的实体进行合并的方法及装置。

背景技术

计算机快速发展和普及的今天，为了更方便地、清晰地获取信息、学习知识，更经常的使用搜索引擎服务来进行信息搜索和查询。由于搜索引擎是基于爬虫抓取的方式获得网络资源信息，以关键词匹配的方式给出相应的搜索结果，然而往往搜索结果纷繁多样，有时不能直接满足用户特定的精准需求或全面性需求，用户可能还需调整搜索关键词发起多次搜索请求，效率比较低，用户体验也较差，因此对于搜索资源尚待进一步的挖掘及更准确的分类。另外，搜索引擎虽然从垂直网站中能获得的垂直数据质量较高，但是有时也会出现错误和遗漏，因此需要对错误进行处理和属性补充。基于此，不同渠道获取的数据在进行调整和更新时，由于来自不同的数据对于同一事物的描述方式不同，或者对于同一事物，不同的数据来源对其进行不同角度的描述，会出现同一个事物具有多个不同版本的数据描述，也需要对数据进行关联和梳理。。

发明内容

鉴于上述问题，本发明创造性的提出使用知识图谱的模式来克服上述问题或者至少部分地解决或者减缓上述问题，同时进一步创造性的对应用于知识图谱对实体类数据进行合并。

根据本发明的一个方面，提供一种对知识图谱中的实体进行合并的方法，其特征在于，包括如下步骤：

根据知识图谱中实体对应的结构化数据，生成一级特征向量；

根据实体对应的文档中包含的term，生成二级特征向量；

根据所述一级特征向量和二级特征向量确定不同实体间的相似度；

将相似度大于预设阈值的不同实体进行合并。

其中，根据知识图谱中实体对应的结构化数据生成一级特征向量的步骤进一步包括：根据与实体对应的URL获取结构化数据。

其中，根据实体对应的文档中包含的term生成二级特征向量的步骤进一步包括；

获取实体对应的文档中的term的逆文档频率，

根据所述逆文档频率确定二级特征向量候选term；

根据二级特征向量候选term生成二级特征向量。

其中，根据所述逆文档频率确定二级特征向量候选term的步骤进一步包括：

将所述逆文档频率与预定阈值进行比较；

选择逆文档频率高于预定阈值的term，作为二级特征向量候选term。

其中，根据所述一级特征向量和二级特征向量确定不同实体间的相似度的步骤进一步包括：

获取所述一级特征向量和二级特征向量的同义词；

根据所述一级特征向量、二级特征向量以及其同义词确定不同实体间的相似度。

其中，根据所述一级特征向量和二级特征向量确定不同实体间的相似度，进一步包括：

在第一级特征向量不同时，判断第一级特征向量是否为特定属性的相关数据；

如果是，则不进行实体合并；所述特定属性为预先设定的进行实体区分的属性。

根据本发明的另一个方面，提供一种知识图谱中的实体合并装置，包括：

知识图谱实体库，适于存储知识图谱；

一级特征向量生成单元，用于根据知识图谱中实体对应的结构化数据，生成一级特征向量；

二级特征向量生成单元，用于根据实体对应的文档中包含的term，生成二级特征向量；

相似度确定单元，用于根据所述一级特征向量和二级特征向量确定不同实体间的相似度；

实体合并单元，用于将相似度大于预设阈值的不同实体进行合并。

其中，所述一级特征向量生成单元进一步包括：结构化数据获取子单元，用于根据与实体对应的URL获取结构化数据。

其中，所述二级特征向量生成单元进一步包括；

逆文档频率获取子单元，用于获取实体对应的文档中的term的逆文档频率，

候选term确定子单元，用于根据所述逆文档频率确定二级特征向量候选term；

二级特征向量生成子单元，用于根据二级特征向量候选term生成二级特征向量。

其中，逆文档频率获取子单元进一步包括：

比较模块，用于将所述逆文档频率与预定阈值进行比较；

选择模块，用于选择逆文档频率高于预定阈值的term，作为二级特征向量候选term。

其中，相似度确定单元进一步包括：

同义词获取子单元，用于获取所述一级特征向量和二级特征向量的同义词；

相似度确定子单元，用于根据所述一级特征向量、二级特征向量以及其同义词确定不同实体间的相似度。

其中，相似度确定单元进一步包括：

第一特征向量比较单元，用于判断不同实体的第一特征向量是否相同；

属性判断单元，用于在第一级特征向量不同时判断第一级特征向量是否为特定属性的相关数据；如果是，且指示实体合并单元不进行实体合并，所述特定属性为预先设定的进行实体区分的属性。

本发明的有益效果为：

本发明的对知识图谱中实体进行合并的方法及装置，通过将实体ID分别构建一级特征向量和二级特征向量，能够对每个实体ID的特征清楚，有层次地描述，并根据一级特征向量与二级特征向量之间的相似度来对同名的实体ID进行相似度计算，可以准确地判断同名的实体ID是否为同一事物，是否需要合并，从而可以减少知识图谱中对同一事物存在多个实体ID的问题，使得知识图谱内容更加准确，结构更加紧凑。进一步地，本发明的技术方案应用到搜索引擎中，对其海量数据进行关联和梳理，从而能够更好的优化搜索结果，提高搜索效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示意性示出了本发明实施例的搜索结果的推送方法的流程图。

图2示意性地示出了本发明实施例的对知识图谱中的实体进行合并的方法的步骤S2的具体流程图。

图3示意性地示出了本发明实施例的知识图谱中实体合并装置的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

在构建知识图谱或对知识图谱进行更新时，在进行数据融合的过程中，需要解决语义一致性的问题，即判断不同的实体实际上是否描述的是同一事物，并对不同来源的相同实体进行合并，本发明的实施例通过为每个实体构件特征向量来解决上述问题。

本发明的一个实施例中，提供一种对知识图谱中的实体进行合并的方法。

图1示意性地示出了本发明实施例的一种对知识图谱中的实体进行合并的方法。

参照图1，本发明实施例的对知识图谱中的实体进行合并的方法，包括如下步骤：

S1、根据知识图谱中实体对应的结构化数据，生成一级特征向量；

知识图谱中的结构化数据，是适合查阅与处理的AVP数据，AVP数据通指含有属性与属性值的结构化数据对，即“属性名—属性值”对。本实施例的AVP数据格式为：实体名+<tab>+属性名+<tab>+属性值+<tab>+数据所在url+<tab>+网页的爬取时间。

基于知识图谱中与实体对应的结构化数据，根据与实体对应的URL获取结构化数据，然后将结构化数据生成一级特征向量。

在本实施例中，实体ID的特征向量为与实体ID相关联的一系列term。如在影视作品中常见的存在同名作品存在多个版本的数据问题，为了确定不同版本是否为同一实体ID，首先将实体ID对应URL的结构化数据生成一级特征向量。如实体天龙八部(黄日华)版的一个一级特征向量term可以生成为以主演为内容：黄日化、李若彤、樊少皇、陈浩民。

S2、根据实体对应的文档中包含的term，生成二级特征向量；

二级特征向量是根据实体ID对应的文档中包含的term的逆文档频率来生成的。本实施例中，term为文档中的兴趣词。

参照图2，步骤S2具体包括：

S21、获取实体对应的文档中的term的逆文档频率，

S22、根据所述逆文档频率确定二级特征向量候选term；

S23、根据二级特征向量候选term生成二级特征向量。

上述过程中，步骤S22进一步包括：

S221、将所述逆文档频率与预定阈值进行比较；

S222、选择逆文档频率高于预定阈值的term，作为二级特征向量候选term。

S3、根据所述一级特征向量和二级特征向量确定不同实体间的相似度；

该步骤S3具体为：

获取所述一级特征向量和二级特征向量的同义词；

在本实施例中，与实体ID相关联的同义词通过以下方式产生：

获取用户搜索日志；

统计通过同义词到实体相应URL的点击次数；

根据所述点击次数确定同义词对于实体的可信度；

将所述可信度满足预定条件的同义词与相应的实体ID进行关联。

另外，同义词的查询获取通过从可靠的数据源挖掘获取、和/或从结构化数据的别名信息中挖掘获取、和/或从预设的同义词关联存储数据库中查询获取。

S4、将相似度大于预设阈值的不同实体进行合并。

在另一个实施例中，步骤S3根据所述一级特征向量和二级特征向量确定不同实体间的相似度，还可以通过以下方式实现：

为使本发明实施例容易理解，现举例对其进行具体说明。

以人物姓名张大伟为例，在网络数据中，姓名为张大伟的实体有多个，每个实体对应了不同的结构化数据，根据每个实体的结构化数据，生成每个实体张大伟的一级特征向量为：

张大伟1：“教授，XX大学老师”、张大伟2：“演员，XX剧团成员”、张大伟3：“教授，XX电影协会会员，话剧演员”；

由于上述的特征向量并不能确定上述三个实体中是否有实体是表示同一个人，因此根据每个实体对应的文档中包含的term，生成二级特征向量。

在张大伟1的文档中逆文档频率较高的term生成的二级特征向量有：数学教师、XX理工大学、数学建模XX大赛等。

张大伟2的文档中逆文档频率较高的term包含有：XX电视剧主演，XX话剧演员，演员XX的研究生导师；

张大伟3的文档中逆文档频率较高的term生成的二级特征向量有：主演XX电视剧，演员XX在读XX学校时的研究生导师，出演话剧XX。

根据上述三个张大伟实体的一级特征向量和二级特征向量进行相似度对比，张大伟2和张大伟3的一级特征向量均包含了特征“演员”，二级特征向量中“XX电视剧主演”与“主演XX电视剧”为同义词，“XX话剧演员”与“出演XX话剧”为同义词，“演员XX的研究生导师”与“演员XX在读XX学校时的研究生导师”为相似词组，因此可以得出实体张大伟2与实体张大伟3表示同一个人，因此将这两个实体的数据进行合并，以减少数据的冗余。

另外，张大伟1与张大伟2的一级特征向量中虽然都包含了“教授”，但是二级特征向量中的term并不相同或相似，因此这两个实体并不表示同一个人。

上述的方法中，通过将实体ID分贝构建一级特征向量和二级特征向量，能够对每个实体ID的特征清楚，有层次地划分，从而可以准确地判断不同实体是否为同一事物，是否需要合并，从而可以减少知识图谱中对同一事物存在多个实体ID的问题，使得知识图谱内容更加准确，结构更加紧凑。

根据本发明的另一个方面，提供一种知识图谱中的实体合并装置。

参照图3，本发明实施例的知识图谱中的实体合并装置具体包括：

知识图谱实体库10，适于存储知识图谱；

一级特征向量生成单元20，用于根据知识图谱中实体对应的结构化数据，生成一级特征向量；

二级特征向量生成单元30，用于根据实体对应的文档中包含的term，生成二级特征向量；

相似度确定单元40，用于根据所述一级特征向量和二级特征向量确定不同实体间的相似度；

实体合并单元50，用于将相似度大于预设阈值的不同实体进行合并。

在上述实施例中，一级特征向量生成单元20包括：结构化数据获取子单元201，用于根据与实体对应的URL获取结构化数据。

二级特征向量生成单元30还包括；

逆文档频率获取子单元301，用于获取实体对应的文档中的term的逆文档频率，

候选term确定子单元302，用于根据所述逆文档频率确定二级特征向量候选term；

二级特征向量生成子单元303，用于根据二级特征向量候选term生成二级特征向量。

在又一个实施例中，逆文档频率获取子单元301进一步包括：

比较模块，用于将所述逆文档频率与预定阈值进行比较；

相似度确定单元40进一步包括：

同义词获取子单元401，用于获取所述一级特征向量和二级特征向量的同义词；

相似度确定子单元402，用于根据所述一级特征向量、二级特征向量以及其同义词确定不同实体间的相似度。

另外，在又一个实施例中，相似度确定单元40也可以包括：

第一特征向量比较单元403，用于判断不同实体的第一特征向量是否相同；

属性判断单元404，用于在第一级特征向量不同时判断第一级特征向量是否为特定属性的相关数据；如果是，且指示实体合并单元不进行实体合并，所述特定属性为预先设定的进行实体区分的属性。

本发明的知识图谱中实体合并的方法和装置，通过将实体ID分别构建一级特征向量和二级特征向量，能够对每个实体ID的特征清楚，有层次地描述，并根据一级特征向量与二级特征向量之间的相似度来对同名的实体ID进行相似度计算，从而可以准确地判断同名的实体ID是否为同一事物，是否需要合并，从而可以减少知识图谱中对同一事物存在多个实体ID的问题，使得知识图谱内容更加准确，结构更加紧凑。进一步地，本发明的技术方案应用到搜索引擎中，对其海量数据进行关联和梳理，从而能够更好的优化搜索结果，提高搜索效率。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的服务器、客户端，和系统等设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种对知识图谱中的实体进行合并的方法，包括如下步骤：

根据实体对应的文档中包含的term，生成二级特征向量；

将相似度大于预设阈值的不同实体进行合并；

其中，所述结构化数据是适合查阅与处理的AVP数据，所述AVP数据通指含有属性与属性值的结构化数据对；

获取所述一级特征向量和二级特征向量的同义词；

根据所述一级特征向量、二级特征向量以及其同义词确定不同实体间的相似度；

同义词的查询获取通过从可靠的数据源挖掘获取、和/或从结构化数据的别名信息中挖掘获取、和/或从预设的同义词关联存储数据库中查询获取。

2.根据权利要求1所述的方法，根据知识图谱中实体对应的结构化数据生成一级特征向量的步骤进一步包括：根据与实体对应的URL获取结构化数据。

3.根据权利要求1或2所述的方法，根据实体对应的文档中包含的term生成二级特征向量的步骤进一步包括；

获取实体对应的文档中的term的逆文档频率，

根据所述逆文档频率确定二级特征向量候选term；

根据二级特征向量候选term生成二级特征向量。

4.根据权利要求3所述的方法，根据所述逆文档频率确定二级特征向量候选term的步骤进一步包括：

将所述逆文档频率与预定阈值进行比较；

5.根据权利要求1、2或4所述的方法，根据所述一级特征向量和二级特征向量确定不同实体间的相似度，进一步包括：

6.一种知识图谱中的实体合并装置，包括：

知识图谱实体库，适于存储知识图谱；

实体合并单元，用于将相似度大于预设阈值的不同实体进行合并；

相似度确定单元进一步包括：

相似度确定子单元，用于根据所述一级特征向量、二级特征向量以及其同义词确定不同实体间的相似度；

7.根据权利要求6所述的实体合并装置，所述一级特征向量生成单元进一步包括：结构化数据获取子单元，用于根据与实体对应的URL获取结构化数据。

8.根据权利要求6或7所述的实体合并装置，所述二级特征向量生成单元进一步包括；

9.根据权利要求8所述的实体合并装置，逆文档频率获取子单元进一步包括：

比较模块，用于将所述逆文档频率与预定阈值进行比较；

10.根据权利要求6、7或9所述的实体合并装置，相似度确定单元进一步包括：