CN106202041A

CN106202041A - 一种解决知识图谱中的实体对齐问题的方法和装置

Info

Publication number: CN106202041A
Application number: CN201610509704.0A
Authority: CN
Inventors: 王智广
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2016-07-01
Filing date: 2016-07-01
Publication date: 2016-12-07
Anticipated expiration: 2036-07-01
Also published as: CN106202041B

Abstract

本发明提供了一种解决知识图谱中的实体对齐问题的方法和装置,通过对所述两个或两个以上具体相同名字的实体与百科中的多义项做比较，来判断所述两个或两个以上具体相同名字的实体是否为相同的实体。本发明的技术方案能够有效解决现有技术中通过人工方式解决实体对齐的问题，不仅节约了成本，而且能够大大提高效率。

Description

一种解决知识图谱中的实体对齐问题的方法和装置

技术领域

本发明涉及通信网络技术领域，具体涉及一种解决知识图谱中的实体对齐问题的方法和装置。

背景技术

随着互联网的飞速发展，为了更方便地、清晰地获取信息、学习知识，更经常的使用搜索引擎服务来进行信息搜索和查询。在知识图谱领域，面临实体对齐的问题。所谓实体对齐指的是：从不同网页中抽取的实体(概念)，如何判断这些实体是否是同一个。“实体”可以是现实中的一个事物，也可以是一个概念等等。比如一个公司就是一个实体，一个术语也是一个实体。不同渠道获取的数据在进行调整和更新时，由于来自不同的数据对于同一事物的描述方式不同，或者对于同一事物，不同的数据来源对其进行不同角度的描述，会出现同一个事物具有多个不同版本的数据描述，也需要对数据进行关联和梳理。

比如从网页http://movie.douban.com/subject/24751756/中抽取的实体中有一个名为“冯小刚”的实体，从网页http://baike.so.com/doc/1168497-1236034.html中抽取的实体中也有一个名为“冯小刚”的实体，这两个实体是同一个。

在解决实体对齐的问题中，很难找到一个策略保证100％的正确，因此容易把两个不同的实体误认为是同一个实体。比如从不同的网页中抽出来的两个“成龙”并不是同一个实体，一个为影星成龙，另一个为动漫《成龙历险记》中的角色成龙。因为他们都曾在动漫《成龙历险记》中出现过(比如豆瓣网页https://movie.douban.com/subject/1933857/中明确标出了《成龙历险记》的主演直接链接到影星成龙的页面https://movie.douban.com/celebrity/1054531/，其实影星成龙在此动漫中是配音)，如果先前并不知道他们的类型(确定类型是难度较大的工作，也存在一定的错误率)，往往会被认为是同一个。

现有技术中存在如下不足:，往往只能人工的方式来解决问题，例如设定一些黑名单等，以明确标出这些实体不是同一个。但人工的方式成本较高,且效率低下。

发明内容

鉴于上述问题，提出了本发明的技术方案以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题。

根据本发明的一个方面，提供了一种解决知识图谱中的实体对齐问题的方法，所述方法包括：

从网页中获取知识图谱中的两个或两个以上具体相同名字的实体；

对所述两个或两个以上具体相同名字的实体与指定的实体集合中的元素做比较；

如果所述两个或两个以上具体相同名字的实体均与所述实体集合中的同一个元素相同，则判断所述两个或两个以上具体相同名字的实体为相同的实体；

否则，判断所述两个或两个以上具体相同名字的实体为不相同的实体。

进一步的，所述实体集合为百科多义项，所述元素为百科多义项中的多义项。

进一步的，所述百科多义项包括具有相同名字的两个或者两个以上的多义项。

进一步的，所述对所述两个或两个以上具体相同名字的实体与指定的实体集合中的元素做比较包括：

获取所述实体的属性信息；

对所述实体的属性信息进行数据预处理，并对经过数据预处理后的属性信息进行数据校验；

根据所述与实体对应的属性确定所述两个或两个以上具体相同名字的实体是否均与所述百科多义项中的同一个多义项相同。

进一步的，所述获取与实体对应的属性信息包括：

从网络百科中采集各实体的结构化数据，以及，从质量度超过指定阈值的网页中采集各实体的非结构化数据；

其中，所述结构化数据和非结构化数据中包含实体的属性信息，所述属性信息包含属性名和对应的属性值。

进一步的，对所述实体的属性信息进行数据预处理，包括：

在所述结构化数据和所述非结构化数据中各实体的属性信息中去除错误的属性信息；

从所述结构化数据和所述非结构化数据中各实体的属性信息中，识别出语义相同的属性信息；

对识别出的语义相同的属性信息执行去重或者归一化处理。

进一步的，所述对经过数据预处理后的属性信息进行数据校验，包括：

根据预设的校验规则，判断经过数据预处理后的属性信息的属性值是否正确；

若判断出经过数据预处理后的属性信息的属性值不正确，在经过数据预处理后的属性信息中删除属性值不正确的属性信息。

进一步的，根据所述与实体对应的属性确定所述两个或两个以上具体相同名字的实体是否均与所述百科多义项中的同一个多义项相同包括：

按照重要性从高到低的顺序对百科多义项中的多义项的预定数量的所述属性信息进行排序；

对预定数量的属性信息进行加权求和以计算其相似度；

如果所述两个或两个以上具体相同名字的实体与百科多义项中的同一个多义项相似度均大于等于预定的阈值，则判定所述两个或两个以上具体相同名字的实体为相同的实体；否则，判定所述两个或两个以上具体相同名字的实体为不相同的实体。

根据本发明的另一方面，提供了一种解决知识图谱中的实体对齐问题的装置，所述装置包括：

实体获取模块，用于从网页中获取知识图谱中的两个或两个以上具体相同名字的实体；

比较模块，用于对所述两个或两个以上具体相同名字的实体与指定的实体集合中的元素做比较；

判断模块，用于根据比较的结果进行判断：如果所述两个或两个以上具体相同名字的实体均与所述实体集合中的同一个元素相同，则判断所述两个或两个以上具体相同名字的实体为相同的实体；

进一步的，所述比较模块包括：

属性信息获取单元，用于获取所述实体的属性信息；

预处理单元，用于对所述实体的属性信息进行数据预处理；

校验单元，用于对经过数据预处理后的属性信息进行数据校验；

确定单元，用于根据所述与实体对应的属性确定所述两个或两个以上具体相同名字的实体是否均与所述百科多义项中的同一个多义项相同。

进一步的，所述属性信息获取单元包括：

进一步的，对预处理单元包括：

对识别出的语义相同的属性信息执行去重或者归一化处理。

进一步的，所述校验单元包括：

进一步的，所述确定单元进一步包括：

对预定数量的属性信息进行加权求和以计算其相似度；

本发明的有益效果为：

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文具体实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出具体实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明的解决知识图谱中的实体对齐问题的方法流程图；

图2为本发明的方法中预处理和校验步骤的示意图；

图3为本发明的方法中确定步骤的示意图；

图4为本发明的解决知识图谱中的实体对齐问题的装置示意图；

图5为本发明的装置中比较模块的示意图。

具体实施方式

下面结合附图和具体的实施方式对本发明作进一步详细的描述。

图1为本发明的解决知识图谱中的实体对齐问题的方法流程图。本实施例的方法可以由解决知识图谱中的实体对齐问题的装置来执行，该装置可以通过软件的方式实现，并集成于搜索引擎客户端(如360搜索等)所在的终端设备(例如，笔记本、pad、手机等)中。

在构建知识图谱或对知识图谱进行更新时，在进行数据融合的过程中，需要解决实体对齐的问题，即判断不同的实体实际上是否描述的是同一事物。如图1所示，本发明提供了一种解决知识图谱中的实体对齐问题的方法，所述方法包括：

S101、从网页中获取知识图谱中的两个或两个以上具体相同名字的实体；

S102、对所述两个或两个以上具体相同名字的实体与指定的实体集合中的元素做比较；

S103、如果所述两个或两个以上具体相同名字的实体均与所述实体集合中的同一个元素相同，则判断所述两个或两个以上具体相同名字的实体为相同的实体；

进一步的，所述实体集合为百科多义项，所述百科多义项包括具有相同名字的两个或者两个以上的多义项。所述百科，包括但不限于360百科、维基百科、互动百科、百度百科等网络百科数据。多义项，指百科中包含有两个或两个以上的义项。百科词条中，每一个不同概念意义事物的叙述内容称为义项。每一个义项，具有独立的义项名、百科名片、基本信息模块、正文、参考资料等内容。义项名是对词条名所指代事物作明确识别的词组，是义项内容说明。义项名一般为事物的属性、从属关系等，应具有代表性强、认知度高、简短易识别的特点。

图2为本发明的方法中预处理和校验步骤的示意图。

S201、获取与实体对应的属性信息；

S202、对所述实体的属性信息进行数据预处理，并对经过数据预处理后的属性信息进行数据校验；

S203、根据所述与实体对应的属性确定所述两个或两个以上具体相同名字的实体是否均与所述百科多义项中的同一个多义项相同。

进一步的，步骤S201具体为：

所述获取与实体对应的属性信息包括：

进一步的，由于采集到的各实体的结构化数据和非结构化数据的来源众多且数据质量不一，因此需要先对各实体的结构化数据和非结构化数据进行处理，以提高获取的属性信息准确性。

进一步的，所述S202、对所述实体的属性信息进行数据预处理，并对经过数据预处理后的属性信息进行数据校验具体为：

对所述结构化数据和非结构化数据中各实体的属性信息进行数据预处理的方法可以包括但不限于：

首先，在所述结构化数据和非结构化数据中各实体的属性信息中去除错误的属性信息。然后，从所述结构化数据和非结构化数据中各实体的属性信息中，识别出语义相同的属性信息。最后，对识别出的语义相同的属性信息执行去重或者归一化处理。

可以理解得是，在结构化数据和非结构化数据中各实体的属性信息中可能会存在错误的属性信息，因此有必要对错误的属性信息进行清除，以提高知识图谱的准确性。例如，可以基于已有的其他知识图谱中实体与其他实体的关系，对采集的结构化数据和非结构化数据中各实体的关系中的错误的关系进行识别，从而对识别出的错误的关系进行去除。

在一个具体的实现过程中，可以根据结构化数据中实体的描述文本中对应关系的说明，识别出语义相同的属性信息。或者，也可以根据非结构化数据中实体的共现数据，识别出语义相同的属性信息。或者，还可以根据该实体在其他知识图谱中有共同指向的其他实体的数目比例数据，识别出语义相同的属性信息。

由于不同结构化数据和非结构化数据中实体的属性信息语义相同但是描述不同，因此，在识别出语义相同的属性信息后，对识别出的语义相同的属性信息进行去重处理，去除其中一个属性信息；或者，也可以进行归一化处理。该归一化处理可以是以其中一个属性信息为准，或者也可以根据两个属性信息，重新生成一个属性信息，将该重新生成的属性信息作为归一化处理的结果，且对语义相同的两个属性信息进行去除。

例如，某人物的绰号和外号在语义上是相同的，因此，可以保留绰号，去除外号，或者，也可以保留外号，去除绰号。再例如，对于与时间相关的实体，将1999年8月1号下午3点24分24秒和一九九九年八月一日15点24分24秒进行时间归一化，标准ISO6801(19990801152424)，以供后期进行合并。对于与地点相关的实体进行地点归一化处理(例如通过最大生成树算法(MST))，得到地点的标准格式(国家.省/州/自治区.城市.区.镇，以及经纬度)。

去重处理和归一化处理都是为了在实体的属性信息中去除冗余的重复数据，减少后续的数据处理量。

在对各实体的属性信息进行数据预处理后，还需要对属性信息进行数据校验。

举例说明，对经过数据预处理后的属性信息进行数据校验的方法可以包括但不限于：

根据预设的校验规则，判断经过数据预处理后的属性信息的属性值是否正确；若判断出经过数据预处理后的属性信息的属性值不正确，在经过数据预处理后的属性信息中删除属性值不正确的属性信息。

可以理解的是，校验规则中可以定义属性信息中的属性值的合理数值，若属性信息中的属性值与合理数值不符，则该属性信息的属性值是错误的，即该属性信息属于错误数据，因此需要删除该属性信息。

例如，实体是人物，人物的身高属性的属性值不会超过2.5米，所以若判断出某人物的身高属性的属性值超过2.5米，表示该属性信息是错误的。或者，又例如，实体是人物，人物的女儿属性的属性值的性别是女性，所以若判断出某人物的女儿属性的属性值的性别是男性，表示该属性信息是错误的。

校验步骤的目的是提高属性信息的准确性。

另外，还可以在上述数据校验之后，再进行一次人工数据校验，以进一步提高数据准确性。

图3为本发明的方法中确定步骤的示意图。

S301、按照重要性从高到低的顺序对百科多义项中的多义项的预定数量的所述属性信息进行排序；

S302、对预定数量的属性信息进行加权求和以计算其相似度；

S303、如果所述两个或两个以上具体相同名字的实体与百科多义项中的同一个多义项相似度均大于等于预定的阈值，则判定所述两个或两个以上具体相同名字的实体为相同的实体；否则，判定所述两个或两个以上具体相同名字的实体为不相同的实体。

进一步的，S301、按照重要性从高到低的顺序对百科多义项中的多义项的预定数量的所述属性信息进行排序具体为：对实体进行对比，其本质是对其属性信息进行对比。而属性信息的区分度显然是不同的，因此按照重要性(即区分度)从高到低的顺序对所述属性信息进行排序，将有利于对实体进行比较和区分。

进一步的，S302、对预定数量的属性信息进行加权求和以计算其相似度；S303、如果所述两个或两个以上具体相同名字的实体与百科多义项中的同一个多义项相似度均大于等于预定的阈值，则判定所述两个或两个以上具体相同名字的实体为相同的实体；否则，判定所述两个或两个以上具体相同名字的实体为不相同的实体具体为：

首先对排序好的属性信息赋予适当的权重值。属性信息不同，则其权重值也不同。例如，实体“成龙”的“身份”属性信息最为重要，其权重值应该最大。相比之下，由于真人的成龙与动漫中的成龙的武功都很好，因此该属性信息对应的权重值应相应较小。

如果与百科做比较的实体具有该属性信息，则将该属性信息相应的记为1，否则记为0。对所有预定数量的属性信息进行加权求和之后即可得到从网页获取的实体与百科的实体之间的相似度。

当然，相似度的计算方法包括但并不限于上述方法，其他的方法如采用逆文档频率的方法也可以得到实体之间的相似度。

进一步的，将计算得到的相似度与预定的阈值做比较包括：如果所述两个或两个以上具体相同名字的实体与百科多义项中的同一个多义项相似度均大于等于预定的阈值，则判定网页获取的两个或两个以上具体相同名字的实体与百科多义项中的同一个多义项均为同一个实体，即所述两个或两个以上具体相同名字的实体为相同的实体；

否则，如果所述两个或两个以上具体相同名字的实体与百科中的不同的实体义项相似度大于等于预定的阈值，则判定两个或两个以上具体相同名字的实体为不相同的实体。此时，可以基于上述相似度的判定结果对所述两个或两个以上具体相同名字的实体进行进一步区分。例如：第一个实体“成龙”为中国香港演员、导演；第二个实体“成龙”为美国动漫《成龙历险记》中的角色。

如图4所示，本发明提供了一种解决知识图谱中的实体对齐问题的装置，所述装置包括：

实体获取模块401，用于从网页中获取知识图谱中的两个或两个以上具体相同名字的实体；

比较模块402，用于对所述两个或两个以上具体相同名字的实体与指定的实体集合中的元素做比较；

判断模块403，用于根据比较的结果进行判断：如果所述两个或两个以上具体相同名字的实体均与所述实体集合中的同一个元素相同，则判断所述两个或两个以上具体相同名字的实体为相同的实体；

图5为本发明的装置中比较模块的示意图。

进一步的，所述比较模块包括：

属性信息获取单元501，用于获取所述实体的属性信息；

预处理单元502，用于对所述实体的属性信息进行数据预处理；

校验单元503，用于对经过数据预处理后的属性信息进行数据校验；

确定单元504，用于根据所述与实体对应的属性确定所述两个或两个以上具体相同名字的实体是否均与所述百科多义项中的同一个多义项相同。

进一步的，所述属性信息获取单元包括：

进一步的，对所述实体的属性信息进行数据预处理，并对经过数据预处理后的属性信息进行数据校验具体为：

校验步骤的目的是提高属性信息的准确性。

对预定数量的属性信息进行加权求和以计算其相似度；

进一步的，按照重要性从高到低的顺序对百科多义项中的多义项的预定数量的所述属性信息进行排序具体为：对实体进行对比，其本质是对其属性信息进行对比。而属性信息的区分度显然是不同的，因此按照重要性(即区分度)从高到低的顺序对所述属性信息进行排序，将有利于对实体进行比较和区分。

进一步的，对预定数量的属性信息进行加权求和以计算其相似度；如果所述两个或两个以上具体相同名字的实体与百科多义项中的同一个多义项相似度均大于等于预定的阈值，则判定所述两个或两个以上具体相同名字的实体为相同的实体；否则，判定所述两个或两个以上具体相同名字的实体为不相同的实体具体为：

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置。这样的实现本发明的程序可以存储在计算机可读介质上。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

此外，还应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种解决知识图谱中的实体对齐问题的方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述实体集合为百科多义项，所述元素为百科多义项中的多义项。

3.如权利要求1-2中任一项所述的方法，其特征在于，所述百科多义项包括具有相同名字的两个或者两个以上的多义项。

4.如权利要求1-3中任一项所述的方法，其特征在于，所述对所述两个或两个以上具体相同名字的实体与指定的实体集合中的元素做比较包括：

获取所述实体的属性信息；

5.如权利要求1-4中任一项所述的方法，其特征在于，所述获取与实体对应的属性信息包括：

6.一种解决知识图谱中的实体对齐问题的装置，其特征在于，所述装置包括：

7.如权利要求6所述的方法，其特征在于，所述实体集合为百科多义项，所述元素为百科多义项中的多义项。

8.如权利要求6-7中任一项所述的方法，其特征在于，所述百科多义项包括具有相同名字的两个或者两个以上的多义项。

9.如权利要求6-8中任一项所述的方法，其特征在于，所述比较模块包括：

属性信息获取单元，用于获取所述实体的属性信息；

预处理单元，用于对所述实体的属性信息进行数据预处理；

10.如权利要求6-9中任一项所述的方法，其特征在于，所述属性信息获取单元包括：