CN110795572B

CN110795572B - 一种实体对齐方法、装置、设备及介质

Info

Publication number: CN110795572B
Application number: CN201911040304.XA
Authority: CN
Inventors: 王策; 杜东
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2022-05-17
Anticipated expiration: 2039-10-29
Also published as: CN110795572A

Abstract

本申请提供的实体对齐方法，可用于人工智能领域的知识库中的实体对齐，包括：获取所有实体的属性信息，属性信息为与实体相关的文本信息；对属性信息进行切词，得到单词集合；获取单词集合中各个单词的词向量，得到词向量集合；根据词向量集合，获取每个词向量所在文本的文本属性值向量；根据每个实体所包含文本的文本属性值向量，获取每个实体的实体相似度向量；判定实体相似度向量的相似度高于预设值的两个实体为相似实体，以实现实体对齐。本申请实施例还提供一种装置、设备及介质，通过自然语言处理技术将词向量转化为文本向量的方式，将实体的属性信息向量化，从而通过语义分析的方式应用了实体的文本特征，提升了实体对齐的准确性。

Description

一种实体对齐方法、装置、设备及介质

技术领域

本发明涉及计算机技术领域，更具体地说，涉及一种实体对齐方法、装置、设备及介质。

背景技术

实体(Entity)是指客观存在并可相互区别的事物，包括具体的人、事、物、抽象的概念或联系，例如：球员A所在的球队为队伍B，则球员A和队伍B 都是实体，他们的关系就是所属球队和球员关系，球员A--->所属球队--->队伍 B，队伍B--->球员--->球员A。

知识库中包含多种类别的实体。实体对齐(Entity Alignment)也被称作实体匹配(Entity Matching)，是指对于异构数据源知识库中的各个实体，找出属于现实世界中的同一实体。例如对于“张三”实体而言，A网站上记录有关于张三的百科资料，B网站上同样记录有关于张三的简介信息，在AB两个网站上所记载的张三为同一实体，因此需要通过实体对齐的方式将两个中所记录的实体判定为同一实体，以在知识库关于“张三”的词条中实现实体对齐。

知识库中的实体通过自然语言进行记录，需要通过自然语言处理(NatureLanguage processing,NLP)进行实体对齐，自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

基于人工智能的实体对齐方案采用分类规则的方法具体包括：每个类型的实体定义一些关键属性，计算这些属性的相似度，每个属性相似度加权求和，大于某个阈值则认为两个实体相似，要进行融合。例如：对于A网站和B 网站的记载，张三的出生日期都是1961年9月27日，名称相同且出生日期相同，因此判定AB两个网站上锁记载的张三是相同的实体。

然而在实际工作过程中，每个来源的知识图谱实体信息准确度不能保证，导致实体的关键属性存在噪音，当部分实体缺乏关于关键属性的记载时，属性值的相似度无法计算，导致实体对齐不能实现，同时，由于文本描述方式多样化，没有使用实体文本信息的深度语义特征。

因此，现有技术中的实体对齐方式还有待于改进。

发明内容

有鉴于此，为解决上述问题，本发明提供的技术方案如下：

一种实体对齐方法，包括：

获取所有实体的属性信息，所述属性信息为与所述实体相关的文本信息；

对所述属性信息进行切词，得到单词集合；

获取所述单词集合中各个单词的词向量，得到词向量集合；

根据所述词向量集合，获取每个词向量所在文本的文本属性值向量；

根据每个所述实体所包含文本的所述文本属性值向量，获取每个实体的实体相似度向量；

判定所述实体相似度向量的相似度高于预设值的两个实体为相似实体，以实现实体对齐。

一种实体对齐装置，包括：

第一获取单元，所述第一获取单元用于获取所有实体的属性信息，所述属性信息为与所述实体相关的文本信息；

切词单元，所述切词单元用于对所述第一获取单元获取的所述属性信息进行切词，得到单词集合；

第二获取单元，所述第二获取单元用于获取所述切词单元得到的所述单词集合中各个单词的词向量，得到词向量集合；

第三获取单元，所述第三获取单元用于根据所述第二获取单元获取的所述词向量集合，获取每个词向量所在文本的文本属性值向量；

第四获取单元，所述第四获取单元用于根据所述第三获取单元获取的每个所述实体所包含文本的所述文本属性值向量，获取每个实体的实体相似度向量；

判定单元，所述判定单元判定所述第四获取单元获取的所述实体相似度向量的相似度高于预设值的两个实体为相似实体，以实现实体对齐。

可选地，所述第三获取单元，还用于：

分别获取两个待比较实体各自的词向量集合；

根据所述两个待比较实体的词向量集合之间各个词向量的向量内积的值得到第一矩阵；

根据所述第一矩阵获取所述两个待比较实体之间各个单词的单词相似值；

将所述两个待比较实体各自的单词相似值相加，得到两个待比较实体各自的文本属性相似值；

通过归一化算法将所述两个待比较文本各自的文本属性相似值转化为文本属性值向量。

可选地，所述第三获取单元，还用于：

获取第一实体的第一词向量集合，所述第一词向量集合中包括u1[1]、u1[2] 至u1[m]的m个词向量；

获取第二实体的第二词向量集合，所述第二词向量集合中包括u2[1]、u2[2] 至u2[k]的k个词向量；

所述根据所述两个待比较实体的词向量集合之间各个词向量的向量内积的值得到第一矩阵，包括：

计算所述第一词向量集合与所述第二词向量集合的向量内积，得到m×k 的矩阵W，其中，所述矩阵W中的元素W[i][j]等于向量u1[i]和向量u2[j] 的第一cos值，所述u1[i]为所述第一词向量集合中的一个向量所述i为大于等于1小于等于m的任意一个正整数，所述u2[j]为所述第二词向量集合中的一个向量，所述j为大于等于1小于等于k的任意一个正整数。

可选地，所述第三获取单元，还用于：

获取所述第一词向量集合各个词向量与所述第二词向量集合中各个词向量的上下文相似度b1[n]，其中，所述n大于1小于k，所述b1[n]＝W[n][1]+ W[n][2]+…+W[n][k]；

获取所述第二词向量集合各个词向量与所述第一词向量集合中各个词向量的上下文相似度b2[r]，其中，所述r大于1小于m，所述b2[r]＝W[r][1]+W[r][2] +…+W[r][m]。

可选地，所述第三获取单元，还用于：

获取所述第一词向量集合各个词向量与所述第二词向量集合中各个词向量的上下文相似度b1[n]，其中，所述n大于1小于k，所述b1[n]＝W[n][1]*u2[1] +W[n][2]*u2[2]+…+W[n][k]*u2[k]；

获取所述第二词向量集合各个词向量与所述第一词向量集合中各个词向量的上下文相似度b2[r]，其中，所述r大于1小于m，所述b2[r]＝W[r][1]*u1[1]+ W[r][2]*u1[2]+…+W[r][m]*u1[m]。

可选地，所述第三获取单元，还用于：

分别比较所述第一词向量集合中各个单词的所述u1[i]与所述b1[n]的大小，在一个词向量中，若所述u1[i]大于所述b1[n]，输出当前单词对应的单词相似值为1，若u1[i]小于或等于所述b1[n]，输处当前单词对应的单词相似值为0；

分别比较所述第二词向量集合中各个单词的所述u2[j]与所述b2[r]的大小，在一个词向量中，若所述u2[j]大于所述b2[r]，输出当前单词对应的单词相似值为1，若u2[j]小于或等于所述b2[r]，输处当前单词对应的单词相似值为0。

可选地，所述判定单元，还用于：

计算两个待比较实体的实体相似度向量的第二cos值；

当所述第二cos值高于预设值，判定所述两个待比较实体相似。

一种计算机存储介质，包括指令，当该指令在计算机设备上运行时，使得该计算机设备执行上述任意一项所述的方法。

一种计算机可读存储介质，包括指令，当所述指令在计算机设备上运行时，使得所述计算机设备执行上述任意一项所述的方法。

本申请提供的实体对齐方法，可用于知识库中的实体对齐，包括：获取所有实体的属性信息，所述属性信息为与所述实体相关的文本信息；对所述属性信息进行切词，得到单词集合；获取所述单词集合中各个单词的词向量，得到词向量集合；根据所述词向量集合，获取每个词向量所在文本的文本属性值向量；根据每个所述实体所包含文本的所述文本属性值向量，获取每个实体的实体相似度向量；判定所述实体相似度向量的相似度高于预设值的两个实体为相似实体，以实现实体对齐。本申请实施例还提供一种装置、设备及介质，能够通过将词向量转化为文本向量的方式，将实体的属性信息向量化，从而通过语义分析的方式应用了实体的文本特征，提升了实体对齐的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1A为本申请实施例所提供的实体对齐方法的一个实施例的流程图；

图1B为本申请实施例中一种实体信息的示意图；

图1C为本申请实施例中另一种实体信息的示意图；

图1D为本申请实施例所提供的实体对齐方法的一个实施例的示意图；

图2为本申请实施例所提供的实体对齐方法的另一个实施例的流程图；

图3A为本申请实施例所提供的实体对齐方法的另一个实施例的流程图；

图3B为本申请实施例所提供的实体对齐方法的另一个实施例的示意图；

图4为本申请实施例所提供的计算机设备的示意图；

图5为本申请实施例所提供的实体对齐装置的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

当前，基于人工智能的实体对齐方案主要采用分类规则的方法包括：每个类型的实体定义一些关键属性，计算这些属性的相似度，每个属性相似度加权求和，大于某个阈值则认为两个实体相似，要进行融合。例如：对于A网站和B网站的记载，张三的出生日期都是1961年9月27日，名称相同且出生日期相同，因此判定AB两个网站上锁记载的张三是相同的实体。

因此，针对上述问题，本申请实施例提供了一种实体对齐方法，可以应用于知识库中的实体对齐，需要说明的是，本申请实施例所提供的实体对齐对于所应用的知识库不进行限制，可以是各类提供知识信息的平台。为便于理解，以下对本申请实施例所提供的方法进行详细说明。

请参阅图1A，如图1A所示，本申请实施例所提供的实体对齐方法包括以下步骤。

101、获取所有实体的属性信息。

本实施例中，所有实体指的是全网能够获取的所有实体，即网络中记载的客观存在并可相互区别的事物，包括具体的人、事、物、抽象的概念或联系，该属性信息为与实体相关的文本信息，例如，图1B示出了A网站中关于“张三”的第一实体信息，图1C中出了B网站中关于“张三”的第二实体信息，其中，记载了张三的出生日期，出生地、代表作品等文本信息。分别构成张三实体的属性信息。

102、对属性信息进行切词，得到单词集合。

本实施例中，属性信息为文本信息，因此，对属性信息进行切词，从而可以得到由单词组成的单词集合，例如，在图1B所示的A网站中记载的关于“张三”的第一实体信息中，属性信息：“出生地”记载了张三的出生地为“香港新界大埔镇泰亨村”，则对该属性信息切词后，得到单词集合{“香港”，“新界”，“大埔镇”，“泰亨村”}，依照同样方法对一个实体中的所有属性信息切词，从而得到关于一个实体的全部单词集合。

103、获取单词集合中各个单词的词向量，得到词向量集合。

本实施例中，对单词集合中的单词进行向量训练，得到词向量集合，具体的词向量训练方法可以采用word2vector预训练好的词向量或者随机初始化。

104、根据词向量集合，获取每个词向量所在文本的文本属性值向量。

本实施例中，文本信息由单词构成，根据每个单词的词向量，即可得到文本信息的文本属性值向量，例如，根据词向量集合{“香港”，“新界”，“大埔镇”，“泰亨村”}得到文本：“香港新界大埔镇泰亨村”的文本属性值向量。

105、根据每个实体所包含文本的文本属性值向量，获取每个实体的实体相似度向量。

本实施例中，具体实现方式可以是将一个实体中所有属性信息的文本属性值向量拼接，从而得到该实体的实体相似度向量，从而实现了将实体由文本信息向向量信息的转变，使得实体的信息之间不仅能够单纯地通过文本进行比对检索，还可以通过实体相似度向量来判断实体之间所表述的语义是否接近，从而提升了实体对齐的准确性。

106、判定实体相似度向量的相似度高于预设值的两个实体为相似实体，以实现实体对齐。

本实施例中，步骤106的具体实施方式可以为：

计算两个待比较实体的实体相似度向量的cos值；

当该cos值高于预设值，判定所述两个待比较实体相似。

一般而言，当cos值大于0.8时，认为两个实体相似。

上述步骤101至106中的工作流程可以简化为如图1D所示的示意图，如图 1D所示，Attr1、Attr2和Attr3分别代表待比较的三个实体，seq1和seq2分别为一个实体中待比较的两个属性信息。步骤101中获取到各个实体的属性信息，之后步骤102对属性信息进行切词，步骤103通过向量训练得到词向量，步骤104通过词向量得到文本属性值向量，步骤105得到实体的实体相似度向量，最后步骤106执行实体对齐。

本申请实施例提供的实体对齐方法区别于传统的通过文本分类规则对实体进行对齐的方式，本申请实施例所提供的方法首先对实体属性信息中的单词进行向量化，之后对所得到的词向量集合进行处理，得到词向量集合所在的文本的文本属性值向量，在拼接后得到整个实体的实体相似度向量，从而实现了对实体的向量化，向量化后的实体在执行实体对齐的过程中，基于语义含义进行区分，因此不会受到由于关键属性缺乏记载而出现噪音的现象，通过向量化的方式能够计算实体之间的相似度，同时根据实体所记载的深度语义特征对实体进行区分，避免了由于文本描述方式不同导致实体无法对齐的情况。

需要说明的是，对于上述步骤104、根据词向量集合：获取每个词向量所在文本的文本属性值向量，本申请实施例提供了一种更具体的实施方式，来实现由词向量计算得到文本属性值向量的步骤。为便于理解，以下结合附图，对步骤104的细化方案做进一步说明。

请参阅图2，如图2所示，上述步骤104的具体实现方式可以包括以下步骤。

201、分别获取两个待比较实体各自的词向量集合。

本实施例中，为了实现全网实体的对齐，需要在实体之间执行两两比对，从而确定两个实体之间是否需要对齐，因此需要获取两个待比较实体各自的词向量集合，以执行后续操作。

202、根据两个待比较实体的词向量集合之间各个词向量的向量内积的值得到第一矩阵。

本实施例中，例如，第一实体的词向量集合中的第一个词向量u1[1]与第二实体的词向量集合中的第一个词向量u2[1]进行向量内积计算(点乘)，得到第一矩阵的第一个元素W[1][1]，第一实体的词向量集合中的第二个词向量 u1[2]与第二实体的词向量集合中的第一个词向量u2[1]进行向量内积计算(点乘)，得到第一矩阵的第二个元素W[2][1]，依次类推，直到得到第一矩阵的最后一个元素W[m][k]，由此可见，第一矩阵中的一个元素记录了第一实体中的一个词向量与第二实体中的一个词向量的点乘结果，该点乘结果可用于反应两个词向量的相似程度。

203、根据第一矩阵获取所述两个待比较实体之间各个单词的单词相似值。

本实施例中，如上述步骤202所述，第一矩阵中的每个元素代表了待比较的两个实体中的两个单词的相似度，因此，根据第一矩阵中的元素，可以进一步得出单词相似值，该单词相似值可以用于直观地衡量两个比较的单词之间的相似程度。

204、将两个待比较实体各自的单词相似值相加，得到两个待比较实体各自的文本属性相似值。

本实施例中，为了便于运算，步骤203中将单词相似程度换算成了单词相似值，在本步骤中，对各个实体中的单词相似值加和，从而得到了实体的文本属性相似值。

205、通过归一化算法将两个待比较文本各自的文本属性相似值转化为文本属性值向量。

本实施例中，通过步骤201至204得到实体的文本属性相似值，其中，步骤203将词向量的结果转化为单词相似值，其目的是为了便于在步骤204中进行加和，以得到实体的文本属性相似值，而在后续步骤中，还需要对实体之间的相似度进行比较，因此，需要将文本属性相似值转化为文本属性值向量，以进行后续步骤的文本对齐。

上述步骤201至205中，将实体之间的词汇进行向量内积计算得到第一矩阵，从而通过第一矩阵可以知晓两个实体间每个单词两两的相似度，之后将该单词相似度转化为单词相似值，将单词相似值加和从而得到文本相似值，最后通过归一化算法将文本相似值转化为文本属性向量，从而得空了每个实体的向量。

需要说明的是，上述步骤201至205可以通过具体的算法来实现，为便于理解，以下结合附图，对步骤201至205的算法具体实施过程做详细介绍。

请参阅图3A，如图3A所示，201至205的算法具体实施过程包括以下步骤。

301、获取第一实体的第一词向量集合，所述第一词向量集合中包括u1[1]、 u1[2]至u1[m]的m个词向量。

本实施例中，第一实体为获取到的任意一个实体，第一词向量集合m个中的词向量记为u1[1]、u1[2]……u1[m]，例如，图1B中所示的对于A网站中关于张三的出生地：香港新界大埔镇泰亨村，转化为第一词向量集合中对应了4个词向量，其中，u1[1]用于表示“香港“的词向量，u1[2]用于表示”新界“的词向量，u1[3]用于表示”大埔镇“的词向量，u1[4]用于表示”泰亨村“的词向量。

302、获取第二实体的第二词向量集合，所述第二词向量集合中包括u2[1]、 u2[2]至u2[k]的k个词向量。

本实施例中，第二实体为获取到的任意一个实体，第二词向量集合k个中的词向量记为u2[1]、u2[2]……u2[k]，例如，图1C中所示的对于B网站中关于张三的出生地：香港新界，转化为第一词向量集合中对应了2个词向量，其中，u2[1]用于表示“香港“的词向量，u2[2]用于表示”新界“的词向量。

303、计算所述第一词向量集合与所述第二词向量集合的向量内积，得到 m×k的矩阵W。

本实施例中，矩阵W的具体生成方式如图3B所示，以第一词向量集合的m 个词向量作为纵列，以第二词向量集合的k个词向量作为横行，将纵列中的每个词向量分别点乘横行中的各个词向量，最终得到矩阵W，矩阵W中一个元素表达为W[i][j]＝u1[i]×u2[j]，i为大于等于1小于等于m的任意一个正整数，j 为大于等于1小于等于k的任意一个正整数。

例如，对于图1B中所示的对于A网站中关于张三的出生地：香港新界大埔镇泰亨村，切分后得到的四个词向量：u1[1]＝“香港“、u1[2]＝”新界“、u1[3]＝”大埔镇“、u1[4]＝”泰亨村“；对于图1C中所示的对于B网站中关于张三的出生地：香港新界，切分后得到的两个词向量：u2[1]＝“香港“、u2[2]＝”新界“。点乘后得到一个4×2的矩阵W‘，矩阵W’中各个元素的计算方法如下表1所示。

表1

在上述表1中，语义越接近的词向量，所计算得到的值就越大，从而实现了实体之间的软对齐步骤。

304、获取第一词向量集合各个词向量与第二词向量集合中各个词向量的上下文相似度b1[n]。

本实施例中，n大于1小于k，具体地，b1[n]＝W[n][1]+W[n][2]+…+ W[n][k]，即，将矩阵W中一个横行的各个元素相加，即可得到该行的上下文相似度b1[n]。依然以上述表1为例，b1[1]＝W[1][1]+W[1][2]＝“香港”×“香港”的相似度+“香港”×“新界”的相似度，从而得到了第一词向量集合中，“香港”一词和第二词向量集合中各个词汇分别比较后计算得到的相似度数值。

305、获取第二词向量集合各个词向量与第一词向量集合中各个词向量的上下文相似度b2[r]。

本实施例中，r大于1小于m，具体地，b2[r]＝W[r][1]+W[r][2]+…+ W[r][m]，即，将矩阵W中一个纵列的各个元素相加，即可得到该列的上下文相似度b2[r]。依然以上述表1为例，b2[1]＝W[1][1]+W[2][1]+W[3][1]+ W[4][1]＝“香港”×“香港”的相似度+“新界”×“香港”的相似度+“大埔镇”×“香港”的相似度+“泰亨村”×“香港”的相似度。从而得到了第二词向量集合中，“香港”一词和第一词向量集合中各个词汇分别比较后计算得到的相似度数值。

需要说明的是，一般而已，在一个句子当中，越开头的词汇往往具有更上位的含义，例如地址信息“香港新界大埔镇泰亨村”，只要两个句子开头均为香港，则说明这两个地址均位于香港特别行政区界内，比较相近，因此在地址信息中，开头的词汇在相似度比对的过程中占有更高的权重。针对这种句子中不同词汇所占权重不同的现象，在计算b1[n]和b2[r]的过程中，可以通过乘以权重的方式，来强化每个词汇的轻重程度，具体计算公式为：

b1[n]＝W[n][1]*u2[1]+W[n][2]*u2[2]+…+W[n][k]*u2[k]；

b2[r]＝W[r][1]*u1[1]+W[r][2]*u1[2]+…+W[r][m]*u1[m]。

与前述计算方法的区别在于，矩阵中的每个元素在加和之前，乘以被比较向量的向量值，从而在所得到的结果中，原本较大的值会更大，原本较小的值会更小，起到了加权的目的。

上述步骤305得到了每个词向量与上下文的相似度，即一个实体中的一个单词与另一个实体中各个单词之间的相似度，此时，需要通过以下步骤，计算各个单词的相似值，从而将相似度由向量转化为数值。

306、分别比较第一词向量集合中各个单词的u1[i]与b1[n]的大小。

本实施例中，在一个词向量中，若u1[i]大于b1[n]，输出当前单词对应的单词相似值为1，若u1[i]小于或等于b1[n]，输处当前单词对应的单词相似值为 0。继续以上述关于张三实体的出生地信息为例：

第一词向量u1[1]＝“香港”；

b1[1]＝W[1][1]+W[1][2]＝“香港”×“香港”的相似度+“香港”×“新界”的相似度；

当两个向量较为相似时，计算所得到的向量值就会更小，当u1[1]>b1[1] 时，说明第二实体中包含与“香港”关联性较强的单词，此时，将第一词向量的单词相似值输出为1，从而使得词向量中的特征明显地保留了下来。

相反，若通过同样方法，计算得到一个词向量中u1[i]小于或等于b1[n]，说明该词向量与第二实体中的词汇关联性较弱，此时，将该词向量的单词相似值输出为0，从而实现了对不重要词向量的过滤。

307、分别比较第二词向量集合中各个单词的u2[j]与b2[r]的大小。

本实施例中，在一个词向量中，若u2[j]大于b2[r]，输出当前单词对应的单词相似值为1，若u2[j]小于或等于b2[r]，输处当前单词对应的单词相似值为 0。具体计算过程与上述步骤306相同，此处不再赘述。

308、将第一实体中所有词向量对应的单词相似值相加，得到第一实体的文本属性相似值。

本实施例中，通过步骤306的处理，特征明显的词向量输出1，特征不明显的词向量输出0，从而最终得到的文本属性相似值能够反映第一实体中有多少个单词与第二实体中相似，例如第一实体的第一文本属性相似值为2，说明第一实体中有2个单词在第二实体中有相似记载。

309、将第二实体中所有词向量对应的单词相似值相加，得到第二实体的文本属性相似值。

本实施例中，通过步骤307的处理，特征明显的词向量输出1，特征不明显的词向量输出0，从而最终得到的文本属性相似值能够反映第二实体中有多少个单词与第一实体中相似，例如第二实体的第二文本属性相似值为2，说明第二实体中有2个单词在第一实体中有相似记载。

310、通过归一化算法分别将第一实体和第二实体的文本属性相似值转化为文本属性值向量。

本实施例中，将第一实体和第二实体的文本属性相似值通过归一化算法转化为向量值，从而能够根据向量，来具体计算第一实体和第二实体之间的相似度。

根据步骤310所得到的文本属性向量，从而实现了单词之间的毕竟，再执行后续步骤105和106，从而实现本申请实施例所提供的实体对齐方法。

本申请实施例所提供的实体对齐方法，可用于知识库中的实体对齐，包括：获取所有实体的属性信息，所述属性信息为与所述实体相关的文本信息；对所述属性信息进行切词，得到单词集合；获取所述单词集合中各个单词的词向量，得到词向量集合；根据所述词向量集合，获取每个词向量所在文本的文本属性值向量；根据每个所述实体所包含文本的所述文本属性值向量，获取每个实体的实体相似度向量；判定所述实体相似度向量的相似度高于预设值的两个实体为相似实体，以实现实体对齐。本申请实施例还提供一种装置、设备及介质，能够通过将词向量转化为文本向量的方式，将实体的属性信息向量化，从而通过语义分析的方式应用了实体的文本特征，提升了实体对齐的准确性。

上述对本申请实施例提供的方案进行了介绍。可以理解的是，计算机设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

从硬件结构上来描述，上述方法可以由一个实体设备实现，也可以由多个实体设备共同实现，还可以是一个实体设备内的一个逻辑功能模块，本申请实施例对此不作具体限定。

例如，上述方法均可以通过图4中的计算机设备来实现。图4为本申请实施例提供的计算机设备的硬件结构示意图。该计算机设备包括至少一个处理器401，通信线路402，存储器403以及至少一个通信接口404。

处理器401可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，服务器 IC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路402可包括一通路，在上述组件之间传送信息。

通信接口404，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

存储器403可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyer服务器able programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM) 或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信线路402与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器403用于存储执行本申请方案的计算机执行指令，并由处理器401来控制执行。处理器401用于执行存储器403中存储的计算机执行指令，从而实现本申请上述实施例提供的方法。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，处理器401可以包括一个或多个CPU，例如图4中的CPU0和CPU1。

在具体实现中，作为一种实施例，计算机设备可以包括多个处理器，例如图4中的处理器401和处理器407。这些处理器中的每一个可以是一个单核 (single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，计算机设备还可以包括输出设备405 和输入设备406。输出设备405和处理器401通信，可以以多种方式来显示信息。例如，输出设备405可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube， CRT)显示设备，或投影仪(projector)等。输入设备406和处理器401通信，可以以多种方式接收用户的输入。例如，输入设备406可以是鼠标、键盘、触摸屏设备或传感设备等。

上述的计算机设备可以是一个通用设备或者是一个专用设备。在具体实现中，计算机设备可以是台式机、便携式电脑、网络服务器、掌上电脑(personal digitalassistant，PDA)、移动手机、平板电脑、无线终端设备、嵌入式设备或有图4中类似结构的设备。本申请实施例不限定计算机设备的类型。

本申请实施例可以根据上述方法示例对存储设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

比如，以采用集成的方式划分各个功能单元的情况下，图5示出了一种实体对齐装置的示意图。

如图5所示，本申请实施例提供的实体对齐装置，包括：

第一获取单元501，所述第一获取单元501用于获取所有实体的属性信息，所述属性信息为与所述实体相关的文本信息；

切词单元502，所述切词单元502用于对所述第一获取单元501获取的所述属性信息进行切词，得到单词集合；

第二获取单元503，所述第二获取单元503用于获取所述切词单元502得到的所述单词集合中各个单词的词向量，得到词向量集合；

第三获取单元504，所述第三获取单元504用于根据所述第二获取单元 503获取的所述词向量集合，获取每个词向量所在文本的文本属性值向量；

第四获取单元505，所述第四获取单元505用于根据所述第三获取单元 504获取的每个所述实体所包含文本的所述文本属性值向量，获取每个实体的实体相似度向量；

判定单元506，所述判定单元506判定所述第四获取单元505获取的所述实体相似度向量的相似度高于预设值的两个实体为相似实体，以实现实体对齐。

可选地，所述第三获取单元504，还用于：

分别获取两个待比较实体各自的词向量集合；

可选地，所述第三获取单元504，还用于：

可选地，所述判定单元506，还用于：

计算两个待比较实体的实体相似度向量的第二cos值；

进一步的，本发明实施例还提供一种计算机存储介质，包括指令，当该指令在计算机设备上运行时，使得该计算机设备执行上述方法。

有关本申请实施例提供的计算机存储介质中存储的程序的详细描述可参照上述实施例，在此不做赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种实体对齐方法，其特征在于，包括：

对所述属性信息进行切词，得到单词集合；

获取所述单词集合中各个单词的词向量，得到词向量集合；

分别获取两个待比较实体各自的词向量集合；

通过归一化算法将所述两个待比较实体各自的文本属性相似值转化为文本属性值向量；

2.根据权利要求1所述的方法，其特征在于，所述分别获取两个待比较实体各自的词向量集合，包括：

获取第一实体的第一词向量集合，所述第一词向量集合中包括u1[1]、u1[2]至u1[m]的m个词向量；

获取第二实体的第二词向量集合，所述第二词向量集合中包括u2[1]、u2[2]至u2[k]的k个词向量；

计算所述第一词向量集合与所述第二词向量集合的向量内积，得到m×k的矩阵W，其中，所述矩阵W中的元素W[i][j]等于向量u1[i]和向量u2[j]的第一cos值，所述u1[i]为所述第一词向量集合中的一个向量所述i为大于等于1小于等于m的任意一个正整数，所述u2[j]为所述第二词向量集合中的一个向量，所述j为大于等于1小于等于k的任意一个正整数。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一矩阵获取所述两个待比较实体之间各个单词的单词相似值，包括：

获取所述第一词向量集合各个词向量与所述第二词向量集合中各个词向量的上下文相似度b1[n]，其中，所述n大于1小于k，所述b1[n]＝W[n][1]+W[n][2]+…+W[n][k]；

获取所述第二词向量集合各个词向量与所述第一词向量集合中各个词向量的上下文相似度b2[r]，其中，所述r大于1小于m，所述b2[r]＝W[r][1]+W[r][2]+…+W[r][m]。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一矩阵获取所述两个待比较实体之间各个单词的单词相似值，包括：

获取所述第一词向量集合各个词向量与所述第二词向量集合中各个词向量的上下文相似度b1[n]，其中，所述n大于1小于k，所述b1[n]＝W[n][1]*u2[1]+W[n][2]*u2[2]+…+W[n][k]*u2[k]；

获取所述第二词向量集合各个词向量与所述第一词向量集合中各个词向量的上下文相似度b2[r]，其中，所述r大于1小于m，所述b2[r]＝W[r][1]*u1[1]+W[r][2]*u1[2]+…+W[r][m]*u1[m]。

5.根据权利要求3或4所述的方法，其特征在于，所述根据所述第一矩阵获取所述两个待比较实体之间各个单词的单词相似值，还包括：

6.根据权利要求1所述的方法，其特征在于，所述判定所述实体相似度向量的相似度高于预设值的两个实体为相似实体，以实现实体对齐，包括：

计算两个待比较实体的实体相似度向量的第二cos值；

7.一种实体对齐装置，其特征在于，包括：

第三获取单元，所述第三获取单元用于分别获取两个待比较实体各自的词向量集合；根据所述两个待比较实体的词向量集合之间各个词向量的向量内积的值得到第一矩阵；根据所述第一矩阵获取所述两个待比较实体之间各个单词的单词相似值；将所述两个待比较实体各自的单词相似值相加，得到两个待比较实体各自的文本属性相似值；通过归一化算法将所述两个待比较实体各自的文本属性相似值转化为文本属性值向量；

8.一种计算机设备，其特征在于，所述计算机设备包括：交互装置、输入/输出(I/O)接口、处理器和存储器，所述存储器中存储有程序指令；

所述交互装置用于获取用户输入的操作指令；

所述处理器用于执行存储器中存储的程序指令，执行如权利要求1-6中任意一项所述的方法。

9.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1-6中任意一项所述的方法。