CN110837568A

CN110837568A - 实体对齐方法及装置、电子设备、存储介质

Info

Publication number: CN110837568A
Application number: CN201911187076.9A
Authority: CN
Inventors: 王新乐; 史腾飞
Original assignee: Jingshuo Technology Beijing Co Ltd
Current assignee: Beijing second hand Artificial Intelligence Technology Co.,Ltd.
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2020-02-25

Abstract

本申请提供一种实体对齐方法及装置、电子设备、存储介质，属于数据处理技术领域，方法包括：获取待处理的语料词集合；将语料词集合中的每个语料词，转换为对应的词向量；按照不同类别数，对所有词向量进行多次聚类，获得每个语料词所对应词向量的类别标签组合；根据不同语料词的类别标签组合，将类别标签组合相同比例大于阈值的多个语料词确定为同一实体的不同实体指称。本申请上述提供的技术方案，由此无需依赖标准库即可查找出同一实体的多种表达样式，减少实体的种类，为知识图谱的构建做准备。

Description

实体对齐方法及装置、电子设备、存储介质

技术领域

本申请涉及数据处理技术领域，特别涉及一种实体对齐方法及装置、电子设备、计算机可读存储介质。

背景技术

实体(Entity)是指客观存在并可相互区别的事物，包括具体的人、事、物、抽象的概念或联系，知识库中包含多种类别的实体。实体对齐(Entity Alignment)是指找出写法上不同但表示同一实体的不同指称。

目前，实体对齐主要通过基于字符串匹配进行实体链接。基于标准指称字符串库，在待匹配指称字符串中查找标准指称字符串。如果待匹配指称字符串中，标准指称字符串可以被找到，则将待匹配指称字符串与标准指称字符串建立映射关系，即待匹配指称字符串与标准指称字符串属于同一实体的不同指称可以合并。例如，标准指称“New York”和待匹配指称“New York纽约”，“New York纽约”包含“New York”，则建立映射关系{“New York纽约”:“New York”}。

上述方法需要有完整的标准实体库，无法处理不在库内的新实体。且字符串匹配需要待匹配字符串精确包含标准产品名称，条件过于苛刻，故目前的实体对齐方法无法准确识别判断是否属于同一实体的不同指称。

发明内容

本申请实施例的目的在于提供一种实体对齐方法，用以解决现有实体对齐方法必须依赖于标准实体库而产生的问题。

一方面，本申请提供了一种实体对齐方法，所述方法包括：

获取待处理的语料词集合；

将所述语料词集合中的每个语料词，转换为对应的词向量；

按照不同类别数，对所有词向量进行多次聚类，获得每个语料词所对应词向量的类别标签组合；

根据不同语料词的类别标签组合，将所述类别标签组合相同比例大于阈值的多个语料词确定为同一实体的不同实体指称。

在一实施例中，所述将所述语料词集合中的每个语料词，转换为对应的词向量，包括：

将所述语料词集合中的每个语料词，通过已构建的词嵌入模型，获取所述语料词对应的词向量。

在一实施例中，所述将所述语料词集合中的每个语料词，通过已构建的词嵌入模型，获取所述语料词对应的词向量之后，所述方法还包括：

对无法获取到词向量的语料词进行分词操作，获得所述语料词的若干分词；

利用已构建的词嵌入模型，将每个分词转换为对应的词向量；

对所述语料词中每个分词对应的词向量进行叠加，得到所述语料词对应的词向量。

在一实施例中，所述按照不同类别数，对所有词向量进行多次聚类，获得每个语料词所对应词向量的类别标签组合，包括：

通过多次更新类别数，对所有词向量按照所述类别数进行多次聚类，确定不同类别数时每个词向量所在的类别；

针对每个词向量，根据不同类别数时所述词向量所在的类别，得到所述词向量的类别标签组合。

在一实施例中，所述针对每个词向量，根据不同类别数时所述词向量所在的类别，得到所述词向量的类别标签组合，包括：

对每次聚类得到的多个类别分别进行标记，得到不同类别数时每个类别对应的标签；

针对每个词向量，根据不同类别数时所述词向量所在的类别以及所述类别的标签，得到所述词向量的类别标签组合。

在一实施例中，所述根据不同语料词的类别标签组合，将所述类别标签组合相同比例大于阈值的多个语料词确定为同一实体的不同实体指称，包括：

根据不同语料词的类别标签组合，计算任意两个语料词之间所述类别标签组合的相同比例；

将所述相同比例大于阈值的语料词划分为同一实体的不同实体指称。

在一实施例中，在所述根据不同语料词的类别标签组合，将所述类别标签组合相同比例大于阈值的多个语料词确定为同一实体的不同实体指称之后，所述方法还包括：

从所述同一实体的不同实体指称中获取实体标准指称；

针对所述同一实体，建立所述实体标准指称与所述同一实体其余实体指称的映射关系。

另一方面，本申请还提供了一种实体对齐装置，所述装置包括：

数据获取模块，用于获取待处理的语料词集合；

向量转换模块，用于将所述语料词集合中的每个语料词，转换为对应的词向量；

标签组合模块，用于按照不同类别数，对所有词向量进行多次聚类，获得每个语料词所对应词向量的类别标签组合；

语料选取模块，用于根据不同语料词的类别标签组合，将所述类别标签组合相同比例大于阈值的多个语料词确定为同一实体的不同实体指称。

进一步，本申请还提供了一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述实体对齐方法。

另外，本申请还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成上述实体对齐方法。

本申请上述提供的技术方案，通过将语料词转换为词向量，按照不同类别数对所有词向量进行多次聚类，从而得到每个语料词的类别标签组合，对于类别标签组合基本相同的语料词可以认为是属于同一实体的不同实体指称，由此无需依赖标准库即可查找出同一实体的多种表达样式，减少实体的种类，为知识图谱的构建做准备。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的实体对齐方法的应用场景示意图；

图2是本申请实施例提供的实体对齐方法的流程示意图；

图3是图2对应实施例中步骤230的细节流程图；

图4是图3对应实施例中步骤232的细节流程图；

图5是本申请实施例提供的实体对齐装置的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实体对齐不仅可以减少实体的种类，也可以降低知识图谱的稀疏性。知识图谱是用来分析实体关系的重要技术手段。构建知识图谱的基础就是确定实体和关系。而由于自然语言表达的多样性，同一实体会存在不同指称，因此，为了降低图谱的稀疏性、减少实体的种类，进行实体对齐是构建知识图谱重要的基础前提。

图1为本申请一实施例提供的实体对齐方法的应用场景示意图。如图1所示，该应用场景包括服务端110。服务端110可以是服务器、服务器集群或者云计算中心。服务端110可以采用实施例提供的实体对齐方法，寻找同一实体的不同实体指称，从而可以减少实体的种类，以利于后续知识图谱的构建。

在一实施例中，上述应用场景还可以包括客户端120，客户端120可以运行应用程序的个人电脑(personal computer，PC)、平板电脑、智能手机、个人数字助理(personaldigital assistant，PDA)等。服务端110可以从客户端120获取大量文章，从中抽取语料词。进而服务端110可以采用本申请提供的方法，进行实体对齐。

本申请还提供了一种电子设备。该电子设备可以是图1所示的服务端110。如图1所示，服务端110可以包括处理器111；用于存储处理器111可执行指令的存储器112；其中，该处理器111被配置为执行本申请提供的实体对齐方法。

存储器112可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序可由处理器111执行以完成本申请提供的实体对齐方法。

图2是本申请实施例提供的实体对齐方法的流程示意图。如图2所示，该方法可以包括以下步骤210-步骤240。

在步骤210中，获取待处理的语料词集合。

举例来说，可以通过实体抽取算法从大量文章中抽取待处理的语料词集合。待处理的语料词集合中包括大量语料词，并需要对这些语料词进行实体对齐。实体对齐是指寻找属于同一实体的不同实体指称，也就是寻找相同语义的不同表达方式。

服务端可以从外部设备直接获取待处理的语料词集合，也可以从外部设备获取大量文章，进而通过实体抽取算法抽取语料词集合。实体抽取又可以称为命名实体识别，抽取的是文本中的原子信息元素，如人名、组织/机构名、地理位置、事件/日期、字符值、金额值等。实体抽取任务包括实体检测和分类，即先找到命名实体再进行分类。例如，可以按照“某商品使用场景”这个指定类别，抽取待处理的语料词集合。如下表1所示，为抽取的部分语料词。

表1 抽取的语料词举例

Id(序号)	实体指称
		0001	炎热的夏季
0002	炎炎夏日
		0003	夏日炎炎
0004	出门旅游
		0005	外出旅行

由上图可以看出，0001～0003属于同一场景实体的不同指称，0004、0005属于同一场景实体的不同指称。如不进行实体对齐，则在图谱中将会存在5种不同场景，因此实体对齐对于知识图谱的构建具有重要作用。

在步骤220中，将所述语料词集合中的每个语料词，转换为对应的词向量。

词向量是指用数字向量的形式来表示语料词。将文本中的语料词转换为词向量，又可以称为词嵌入，故本实施例可以采用现有的词嵌入方法将语料词转换为词向量。在一实施例中，可以采用word2vec算法将语料词转换为词向量。word2vec是google在2013年推出的一个NLP工具，它的特点是将所有的词向量化，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系。

在一实施例中，可以将语料词集合中的每个语料词，通过已构建的词嵌入模型，获取所述语料词对应的词向量。

其中，词嵌入模型可以是CBOW(Continuous Bag-of-Words)模型与Skip-Gram模型。CBOW模型的输入是某一个特定词的上下文相关的词对应的词向量，而输出就是这特定词的词向量。Skip-Gram模型和CBOW的思路是反着来的，即输入是特定词的词向量，而输出是特定词对应的上下文词向量。故可以通过已有的词嵌入模型，将语料词转换为词向量。

在一实施例中，如果所有语料词都能够通过词嵌入模型得到词向量，则词向量转换完成。反之，则对无法获取到词向量的语料词进行分词操作，获得语料词的若干分词；利用已构建的词嵌入模型，将每个分词转换为对应的词向量；对语料词中每个分词对应的词向量进行叠加，得到所述语料词对应的词向量。

其中，对每个分词对应的词向量进行叠加，可以是将同一语料词的所有分词的词向量进行相加，将相加结果作为该语料词的词向量。

举例来说，“外出旅游”这个语料词，采用jieba分词器，可以将词拆分为“外出”和“旅游”。“外出”转化为词向量(0，0，0，0，0，0，0，1，1，1)；“旅游”转化为词向量(1，1，1，0，0，0，0，0，0，0)；故“外出旅游”可以表示为(1，1，1，0，0，0，0，1，1，1)。

在步骤230中，按照不同类别数，对所有词向量进行多次聚类，获得每个语料词所对应词向量的类别标签组合。

类别数是指聚类时设定的分类数量。假设语料词总数为N个，则类别数k可以按照公式k＝Alpha*N进行选取。其中，Alpha为类别系数，取值为[0.01,0.02,0.03,…,0.19,0.20]。

其中，对所有词向量进行聚类可以采用Kmeans聚类算法。1、首先选取一个k值，即希望将所有词向量经过聚类得到k个集合。2、从所有词向量中随机选择k个数据点作为质心。3、对所有词向量中每一个数据点，计算其与每一个质心的距离(如欧式距离)，离哪个质心近，就划分到那个质心所属的集合。4、把所有数据归好集合后，一共有k个集合。然后重新计算每个集合的质心。5、如果新计算出来的质心和原来的质心之间的距离小于某一个设置的阈值(表示重新计算的质心的位置变化不大，趋于稳定，或者说收敛)，可以认为聚类已经达到期望的结果，算法终止。6、如果新质心和原质心距离变化很大，需要迭代3～5步骤。

由此可以选取不同的k值，实现对所有词向量的多次聚类。每次聚类均可得到词向量的一个类别标签。某个词向量的类别标签组合可以认为是多次聚类时该词向量的类别标签构成的集合。举例来说，语料词“淡季”，第一次聚类的类别标签是1，第二次聚类的类别标签是372，第三次聚类的类别标签是2，第四次聚类的类别标签是19，则该语料词“淡季”的类别标签组合可以认为是[1,372,2,19]。通过上述方法可以得到每个语料词所对应词向量的类别标签组合。

在步骤240中，根据不同语料词的类别标签组合，将所述类别标签组合相同比例大于阈值的多个语料词确定为同一实体的不同实体指称。

在一实施例中，阈值可以是50％，如果任意两个语料词的类别标签组合的相同比例大于50％，可以认为这两个语料词属于同一实体的不同实体指称。根据需要，阈值可以是60％、70％。

例如，“淡季”的类别标签组合是[1,372,2,19]，淡季时期的类别标签组合是[1,372,2,365]，“淡季”与“淡季时期”具有“1,372,2”三个类别标签相同，故类别标签组合的相同比例P＝3/4＝75％。此时相同比例大于设定的阈值50％，可以认为“淡季”与“淡季时期”属于同一实体的不同实体指称。也就是说，“淡季”和“淡季时期”属于相同语义的不同写法。

在一实施例中，在上述步骤240之后，本申请提供的方法还可以包括：从所述同一实体的不同实体指称中获取实体标准指称；针对所述同一实体，建立所述实体标准指称与所述同一实体其余实体指称的映射关系。

实体标准指称是指命名的标准名称。某一实体的实体标准指称可以认为是用户从该实体的不同实体指称中选取的，如表2所示。

表2 实体标准指称的一种举例。

实体指称	投票分组	标准指称
			淡季	1	淡季
淡季时期	1	淡季
			户外工作	2	户外工作
室外工作	2	户外工作

从表2中可以看出，“淡季”和“淡季时期”属于同一实体的不同实体指称，标准指称可以选择“淡季”；“户外工作”和“室外工作”属于同一实体的不同实体指称，标准指称可以选为“户外工作”。

之后，可以建立命名的标准名称与同组其他实体指称之间的映射关系，即建立“淡季时期”与“淡季”映射关系，建立“室外工作”与“户外工作”的映射关系。建立的映射关系可以用于后续知识图谱的构建。

上述提供的技术方案，通过将语料词转换为词向量，按照不同类别数对所有词向量进行多次聚类，从而得到每个语料词的类别标签组合，对于类别标签组合基本相同的语料词可以认为是属于同一实体的不同实体指称，由此无需依赖标准库即可查找出同一实体的多种表达样式，减少实体的种类，为知识图谱的构建做准备。

在一实施例，如图3所示，上述步骤230具体可以包括以下步骤231和步骤232。

在步骤231中，通过多次更新类别数，对所有词向量按照所述类别数进行多次聚类，确定不同类别数时，每个词向量所在的类别。

服务端可以按照设定的类别数k₁，采用Kmeans聚类算法对所有词向量进行第一次聚类，从而得到k₁个类别，并确定了每个词向量所在的类别。更新类别数，按照设定的类别数k2，采用Kmeans聚类算法对所有词向量进行第二次聚类，从而得到k₂个类别，并确定了每个词向量所在的类别。以此类推，可以不断更新类别数，重复s次对所有词向量进行聚类，并确定每次聚类时，词向量被划分的类别。

在步骤232中，针对每个词向量，根据不同类别数时，所述词向量所在的类别，得到所述词向量的类别标签组合。

在聚类过程中，距离接近的词向量会被划分到同一类别，故通过多次聚类，如果存在两个词向量，在多次聚类时均被划分到同一类别，则可以认为这两个词向量语义接近。因此这两个词向量对应的语料词属于同一实体的不同实体指称。基于这样的原理，本实施例针对每个词向量，对该词向量每次聚类时被划分到的类别进行汇总，得到该词向量的类别标签组合。进而方便比较不同词向量的类别标签组合的相同比例，如果两个词向量的类别标签组合的相同比例较大，可以认为这两个词向量多次被划分到同一类别，语义接近。如果相同比例大于阈值(例如0.5)，可以判定这两个词向量对应的语料词属于同一实体的不同写法。

在一实施例中，如图4所示，上述步骤232可以包括以下步骤2321和2322。

在步骤2321中，对每次聚类得到的多个类别分别进行标记，得到不同类别数时，每个类别对应的标签。

举例来说，按照类别数k₁，对所有词向量进行聚类，得到k₁个类别。可以将k₁个类别依次标记为序号1、2、3、5……k₁；按照类别数k₂，对所有词向量进行聚类，得到k₂个类别。可以将k₂个类别依次标记为序号1、2、3、5……k₂；以此类推，对于每次聚类得到的多个类别均进行标记。标签是指对类别进行标记的标记内容，例如可以是序号。根据需要，标签也可以是其他文字或其他字符串形式。

在步骤2322中，针对每个词向量，根据不同类别数时，所述词向量所在的类别以及所述类别的标签，得到所述词向量的类别标签组合。

表3是四次聚类得到的语料词的类别标签。如下表3所示，在第一次聚类时，“淡季”所在类别的标签是1；第二次聚类时，“淡季”所在类别的标签是372；第三次聚类时，“淡季”所在类别的标签是2；第四次聚类时，“淡季”所在类别的标签是19。在第一次聚类时，“淡季时期”所在类别的标签是1；第二次聚类时，“淡季时期”所在类别的标签是372；第三次聚类时，“淡季时期”所在类别的标签是2；第四次聚类时，“淡季时期”所在类别的标签是365。

表3 四次聚类得到的语料词的类别标签

实体指称	类别标签1	类别标签2	类别标签3	类别标签4
					淡季	1	372	2	19
淡季时期	1	372	2	365
					户外工作	2	373	233	164
室外工作	2	373	350	143
					睡眠不好	3	115	51	156
天气真好	4	120	2	175

其中，[1,372,2,19]可以认为是“淡季”的类别标签组合；[1,372,2,365]可以认为是“淡季时期”的类别标签组合。以此类推，根据每次聚类时，词向量所在类别的标签，可以得到该词向量的类别标签组合。

假设“淡季”的类别标签组合为[1,372,2,19]和“淡季时期”的类别标签组合为[1,372,2,365]，可见，在第一次、第二次、第三次聚类时，“淡季”与“淡季时期”划分到同一类别，第四次聚类时划分到不同类别。按照投票法，“淡季”和“淡季时期”划分到同一类别的概率是75％。同理，“淡季”与“天气真好”划分到同一类别的概率是P＝1/4＝0.25。假设阈值是0.5，则“淡季”和“淡季时期”可以认为是同一实体的不同实体指称。

图5是本申请一实施例提供的实体对齐装置的框图。该实体对齐装置可以作为图1所示实施环境中的服务端，执行上文提供的实体对齐方法。如图5所示，该实体对齐装置包括：数据获取模块510、向量转换模块520、标签组合模块530和语料选取模块540。

数据获取模块510，用于获取待处理的语料词集合；

向量转换模块520，用于将所述语料词集合中的每个语料词，转换为对应的词向量；

标签组合模块530，用于按照不同类别数，对所有词向量进行多次聚类，获得每个语料词所对应词向量的类别标签组合；

语料选取模块540，用于根据不同语料词的类别标签组合，将所述类别标签组合相同比例大于阈值的多个语料词确定为同一实体的不同实体指称。

上述装置中各个模块的功能和作用的实现过程具体详见上述实体对齐方法中对应步骤的实现过程，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种实体对齐方法，其特征在于，所述方法包括：

获取待处理的语料词集合；

将所述语料词集合中的每个语料词，转换为对应的词向量；

2.根据权利要求1所述的方法，其特征在于，所述将所述语料词集合中的每个语料词，转换为对应的词向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述语料词集合中的每个语料词，通过已构建的词嵌入模型，获取所述语料词对应的词向量之后，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述按照不同类别数，对所有词向量进行多次聚类，获得每个语料词所对应词向量的类别标签组合，包括：

5.根据权利要求4所述的方法，其特征在于，所述针对每个词向量，根据不同类别数时所述词向量所在的类别，得到所述词向量的类别标签组合，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据不同语料词的类别标签组合，将所述类别标签组合相同比例大于阈值的多个语料词确定为同一实体的不同实体指称，包括：

7.根据权利要求1所述的方法，其特征在于，在所述根据不同语料词的类别标签组合，将所述类别标签组合相同比例大于阈值的多个语料词确定为同一实体的不同实体指称之后，所述方法还包括：

从所述同一实体的不同实体指称中获取实体标准指称；

8.一种实体对齐装置，其特征在于，所述装置包括：

数据获取模块，用于获取待处理的语料词集合；

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-7任意一项所述的实体对齐方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的实体对齐方法。