CN110457543B

CN110457543B - 一种基于端到端多视角匹配的实体消解方法和系统

Info

Publication number: CN110457543B
Application number: CN201910676415.3A
Authority: CN
Inventors: 付成; 韩先培; 孙乐; 陈波
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2021-10-22
Anticipated expiration: 2039-07-25
Also published as: CN110457543A

Abstract

本发明公开一种基于端到端多视角匹配的实体消解方法和系统，可用于数据清洗、数据整合、信息检索、知识融合等技术领域。该方法主要包含：(一)多视角的属性对比；(二)基于闸门机制的自适应度量选择；(三)端到端的实体匹配框架。多视角的属性对比使用多种类型的相似度度量函数来对评估两个实体在每个属性上的相似程度。自适应度量选择通过学习一个选择向量，为每个属性挑选出最优的相似度度量。端到端的实体匹配框架将属性对比、度量选择等组件建模到一个统一的神经网络框架，使得所有组件可在训练中同时进行优化。本发明提出的实体匹配模型能够很好地进行全局优化，能够有效避免传统方法中的错误传递问题，从而得到更好的实体消解性能。

Description

一种基于端到端多视角匹配的实体消解方法和系统

技术领域

本发明涉及一种实体消解方法，特别是涉及一种基于端到端多视角匹配的实体消解方法和系统，可用于数据清洗、数据整合、信息检索、知识融合等技术领域。

背景技术

实体消解也称为实体匹配或实体对齐，是判断相同或不同来源的2个实体描述是否指向真实世界同一对象的过程。在不同的应用领域的中，实体消解任务也有不同的叫法。例如，在数据库领域，它也被称之为记录链接、记录匹配，或者重复检测；在自然语言处理和信息检索领域，它则常被称为共指消解。实体消解技术在数据清洗、数据整合、信息检索、知识融合等方面都有着十分重要的作用。

实体消解任务的一个主要的特点在于，待消解的每个实体记录都是一个结构化的对象，由一个或者多个<属性，属性值>对组成。而这些不同的属性则有可能是异构的，也就是说它们的属性值属于不同的数据类型。例如，在实际场景中，一个商品实体记录可能由标题、价格、品牌、分类、型号等多个属性组成，其中：标题通常是一段文本；价格则是一个数字；而品牌、分类、型号等则是较短的字符串，而且往往是来自于固定的字符串集合。

给定两个拥有对齐属性的实体记录，典型的实体消解方法首先对比每个属性下属于不同实体的两个属性值，然后聚合所有属性的对比结果来做出最终的实体消解决定。由于属性的异构性，当前有很多的相似度度量方法被提出用于属性值对比，包括用于字符串属性的基于字符的相似度、用于文本属性的语义相似度，以及用于数字属性的数值相似度等。面对多种多样的相似度度量方法，实体消解任务的一个主要挑战在于，如何为不同的属性挑选合适的度量。

为了解决上述由实体属性异构性带来的相似度度量选择问题，现有的实体消解方法主要采用两种方式：一种是通过人工选择；另一种是设计启发式算法进行选择。然而，这两种方法都存在一定的不足之处：首先，它们都只能应用于特定的实体消解问题，而很难泛化到其他的场景下；其次，在这些方法中，相似度度量学习和度量选择通常是两个独立的过程，容易导致误差传播问题，而且整个实体消解模型也很难进行全局优化。

发明内容

为克服现有实体消解技术在相似度度量选择方面泛化性不足和容易导致误差传播的问题，本发明提供了一种基于端到端多视角匹配的实体消解方法和系统。

本发明的内容包括：(一)多视角的属性对比；(二)基于闸门机制的自适应度量选择；(三)端到端的实体匹配框架。多视角的属性对比使用多种类型的相似度度量函数来对评估两个实体在每个属性上的相似程度。基于闸门机制的度量选择模块用于为每个属性选择最优的对比结果。端到端的实体匹配框架将上述属性对比、度量选择等组件建模到一个统一的神经网络架构中，使得所有功能模块可以在训练当中同时进行优化。

本发明所采用的技术方案如下：

一种基于端到端多视角匹配的实体消解方法，包括以下步骤：

1)使用不同类型的相似度度量函数从不同的视角对两个实体进行属性对比，评估两个实体在每个属性上的相似度度量；

2)基于闸门机制进行自适应的相似度度量选择，通过学习一个选择向量，为每个属性挑选出最优的相似度度量；

3)采用神经网络层对选择的所有属性的最优的相似性度量进行聚合，获得实体消解结果，即两个实体是否为同一个实体。

进一步地，采用端到端的实体匹配框架，将步骤1)的属性对比、步骤2)的度量选择和步骤3)的聚合过程建模到一个统一的神经网络框架，使得步骤1)至步骤3)在训练中根据预测结果与真实样本的误差使用反向传播算法同时进行优化。

进一步地，实体的属性采用三种表示方式：数字表示、字符串表示、分布式词向量序列。

进一步地，所述步骤1)使用多种类型的相似性度量函数来计算每一对属性值的相似程度，使得后续的步骤2)中能够为不同的属性选择不同视角的度量方式。

进一步地，所述相似性度量函数包括：基于字符串的相似性度量函数、基于数值的相似性度量函数、基于神经网络的相似性度量函数。

进一步地，所述步骤2)中基于闸门机制的自适应的相似度度量选择，能够通过模型训练阶段的学习，自动地为每个属性选择最合适的相似度度量方法。

进一步地，所述闸门机制为：对于每一个属性A，假设步骤1)输出n个相似度度量结果r＝[r₁，r₂，...，r_n]，使用一个选择向量g＝[g₁，g₂，...，g_n]来进行相似度度量选择，其中如果第i个相似度度量被选择，则g_i＝1，否则g_i＝0。

基于同一发明构思，本发明还提供一种基于端到端多视角匹配的实体消解系统，其包括：

属性表示层模块，用于表示实体的每个属性；

对比层模块，用于使用不同类型的相似度度量函数，从不同的视角对两个实体进行属性对比，评估两个实体在每个属性上的相似度度量；

选择层模块，用于基于闸门机制进行自适应的相似度度量选择，通过学习一个选择向量，为每个属性挑选出最优的相似度度量；

聚合层模块，用于采用神经网络层对选择的所有属性的最优的相似性度量进行聚合，获得实体消解结果，即两个实体是否为同一个实体。

进一步地，所述属性表示层模块、对比层模块、选择层模块和聚合层模块部署于统一的神经网络框架，在训练中以端到端的方式进行全局优化。

与现有技术相比，本发明的有益效果是：

1)提出了一个“对比-选择-聚合”的神经网络实体匹配框架，使得属性的相似度度量选择可以与属性对比、对比结果聚合等其他过程一起进行联合学习，从而整个实体匹配模型可以很好地进行全局优化，能够有效避免传统方法中的错误传递问题，从而得到更好的实体消解性能。

2)提出了一种基于闸门机制的自适应度量选择方法，通过为每个属性学习一个选择向量，能够准确地为属性挑选出最佳的相似度度量。

附图说明

图1为用于实体消解的端到端多视角匹配框架。其中，<a₁，a₁’>～<a_m，a_m’>是两个实体记录的所有属性值对，f₁～f_n表示多种相似性度量函数，softmax表示softmax分类器，P(y|e，e′)表示实体记录e和e′指向同一个实体的概率。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明的一种基于端到端多视角匹配的实体消解方法，其关键步骤包括：

1)多视角的属性对比：使用多种类型的相似度度量函数来评估两个实体在每个属性上的相似程度；

2)基于闸门机制的自适应度量选择：通过学习一个选择向量，为每个属性挑选出最优的相似度度量；

3)端到端的实体匹配框架：将属性对比、度量选择等组件建模到一个统一的神经网络框架，使得所有组件可以在训练中根据预测结果与真实样本的误差使用反向传播算法同时进行优化。

本发明涉及以下所述的关键要素：

1.“对比-选择-聚合”的端到端实体匹配框架

给定两个实体纪录，本发明设计了一个如图1所示的“对比-选择-聚合”的神经网络框架来对其进行消解。该框架由属性表示层、对比层、选择层和聚合层所组成，其中属性表示层输入的是两个实体记录的所有属性值对，框架最上层的输出为输入的两个实体记录的匹配概率。具体地，首先使用一组相似性度量函数来从多个不同的角度来对属性值进行对比(对比层)，然后采用一个闸门机制来为不同的属性选择最优的度量方法(选择层)，最后再结合所有属性中选择出来的对比结果来做出最终的实体消解决定(聚合层)。以下是该框架的逐层描述：

1)属性表示层

由于属性的异构性，在本框架中使用了每个属性的三种表示：

(1)数字表示(如果属性值是数值的话)；

(2)字符串表示，也就说，每个属性值表示为一个字符序列；

(3)分布式词向量序列{x₁，x₂，...x_k}。其中x₁，x₂，...x_k表示k个词向量。

之所以用上述三种表示，是因为想要尽可能地为后续的对比阶段保留更多的信息。

2)对比层

该层使用一组可学习的相似性度量来从不同的视角对属性值进行比较。对于每个属性值对<a，a′>，从多个视角对它们进行比较，并输出n个相似性度量结果[r₁，r₂，...，r_n]。

该层中，多个视角是指使用多种类型的相似度度量函数/方法来对评估两个实体在每个属性上的相似程度。为了使得模型能够从多个视角进行属性值对比，应该尽量包含不同类型的相似度度量度量方法，例如基于字符串的、基于数值的，以及基于神经网络的等等。

3)选择层

在这一层中，通过一个闸门机制自适应地为每个属性选择最合适的相似性度量。该闸门机制详见后文描述。

4)聚合层

在这一层中，首先将所有属性所选择的相似性结果拼接成一个比较向量，然后将其输入到一个两层的HighwayNet神经网络，最后再通过一个softmax模块来做出最终的决策。该层的输出是匹配概率P(y＝1|e，e′)，其中y＝1表示实体记录e和e′指向的是同一个实体。

上述框架将所有的属性对比、度量选择和对比结果聚合过程都建模为可学习的神经网络组件，因此整个实体匹配框架可以以端到端的方式进行全局优化。

2.基于闸门机制的自适应度量选择

不同实体消解任务中，不同属性的最优相似性度量是对上下文敏感的。由于实体消解问题中属性度量方法的多样性，手动选择，或者一些启发式规则的方法则很难被泛化到不同的应用场景。

为了解决这个问题，本发明设计了一个闸门机制，能够自适应地学会为不同实体消解场景下的不同属性选择最优的相似度度量。具体而言，对于每一个属性A，假设模型对比层输出n个相似度度量结果是r＝[r₁，r₂，...，r_n]，该闸门机制将会使用一个选择向量g＝[g₁，g₂，...，g_n]来进行相似度度量选择，其中如果第i个相似度度量被选择，则g_i＝1，否则g_i＝0。

为了学习属性A的选择向量g，首先用一个向量

来表示A。其中v是随机初始化并在训练过程中学习到的。

表示向量的维度是d。然后通过如下公式来计算软选择向量s：

s＝softmax(δ(vW+b))

其中

和

是待学习的参数。

s_i＝s[i]是第i个相似度度量被选中的概率。通过使用软选择向量s，可以得到最终的硬选择向量g：

g＝h(s)

其中h是一个元素级别的函数，当s_i＝＝max(s)时，它会将g_i的值赋为1，否则设置为0。使用学习到的硬选择向量g，选择层将会为属性A选择出对比结果c如下：

c＝r[k]

其中k是向量g中非0元素的索引值。

上述硬选择向量g作为1个闸门来控制r中的哪个对比结果可以被选择用于最终的实体消解决策。通过使用以上闸门机制，可以将相似度度量选择变成一个可学习的组件，而不是和现有技术一样依赖于人工选择或者启发式规则。通过这种方式，本发明的模型可以自适应地为不同的属性选择不同的度量。这使得本发明的方法能够很容易地泛化到不同的场景中。

下面以包含3个属性(标题、品牌、型号)的商品实体消解为例，说明本发明方法的实施过程。

训练语料：

正例1：表1中标记为指向同一个商品对象的实体记录的<属性，属性值>对

表1

	标题	品牌	价格
				记录1	Microsoft comfort optical mouse silver blue	Microsoft	19.95
记录2	Comfort opt mse3000 silver blue	Microsoft	17.99

负例2：表2中标记为不指向同一个商品对象的实体记录的<属性，属性值>对表2

	标题	品牌	价格
				记录1	sibelius 4 professional edition	sibelius	599
记录2	adobe flash cs3 professional	adobe	799

测试例1：表3中的两个实体记录是否指向同一个商品对象表3

	标题	品牌	价格
				记录1	adobe creative suite cs3 design premium(mac)	adobe	1799
记录2	adobe cs3 design premium	adobe	1845

实施步骤：

(一)首先，预先定义用于对比实体属性值的度量函数集。为了使得模型能够从多个视角进行属性值对比，该集合中应该尽量包含不同类型的相似性度量方法，例如基于字符串的、基于数值的，以及基于神经网络的等等。

(二)基于训练语料，对本方法中构建的神经网络实体消解模型进行训练。模型在训练过程中能够学会为不同的属性选择不同的最优相似度度量。例如，对于上述示例中的文本类的“标题”属性，模型可能会为其选择一个能够更好捕获文本语义信息的基于深度学习的度量函数；对于字符串类的“品牌”属性，模型可能会为其选择一个基于字符串的度量函数；而对于数值类的“价格”属性，则可能会为其选择一个基于数值差异的度量函数。

(三)将测试样例输入训练好的实体消解模型中，模型将会预测每条测试样例中的实体记录对是否匹配。以测试例1为例，由于记录1和记录2的“标题”高度相似，“品牌”信息完全相同，“价格”也非常接近，基于本方法的模型可以综合这些信息得出该测试例为正例的概率更大，即记录1和记录2指向的是同一个商品对象。

表4中是基于本发明构建的实体消解系统(MPM)在两个公开的商品实体消解数据集(Walmart-Amazon和Amazon-Google)上的测试性能。将本发明与当前在这两个数据集上性能最好的两类系统进行了对比，其中：Magellan是基于传统机器学习方法的系统，它首先从实体对中提取中大量的属性匹配特征，然后使用一个SVM模型来将所有特征进行融合，从而得出最终的实体对消解结果；RNN和Hybrid是近期提出的基于深度神经网络的实体消解模型，与本发明中方法不同的是，它们采用的是单一视角的匹配方法，即对所有的实体属性都采用同一种预先定义的相似度度量方法。在测试中，采用F1值作为主要的性能指标。从表4中可以看到，在全部两个数据集上，无论是相比于传统的Magellan系统，还是基于深度学习的RNN和Hybrid模型，本发明中基于端到端多视角匹配的实体消解系统(MPM)都有显著的F1值提升，从而有效地验证了本发明中方法的有效性。

表4

基于同一发明构思，本发明的另一实施例提供一种基于端到端多视角匹配的实体消解系统，该系统包括：

属性表示层模块，用于表示实体的每个属性；

其中，所述属性表示层模块、对比层模块、选择层模块和聚合层模块部署于统一的神经网络框架，在训练中以端到端的方式进行全局优化。

基于同一发明构思，本发明的另一个实施例提供一种计算机/服务器，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的原理和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于端到端多视角匹配的实体消解方法，其特征在于，包括以下步骤：

3)采用神经网络层对选择的所有属性的最优的相似性度量进行聚合，获得实体消解结果，即两个实体是否为同一个实体；

采用端到端的实体匹配框架，将步骤1)的属性对比、步骤2)的度量选择和步骤3)的聚合过程建模到一个统一的神经网络框架，使得步骤1)至步骤3)在训练中根据预测结果与真实样本的误差使用反向传播算法同时进行优化。

2.如权利要求1所述的方法，其特征在于，实体的属性采用三种表示方式：数字表示、字符串表示、分布式词向量序列。

3.如权利要求1所述的方法，其特征在于：所述步骤1)使用多种类型的相似性度量函数来计算每一对属性值的相似程度，使得后续的步骤2)中能够为不同的属性选择不同视角的度量方式。

4.如权利要求3所述的方法，其特征在于，所述相似性度量函数包括：基于字符串的相似性度量函数、基于数值的相似性度量函数、基于神经网络的相似性度量函数。

5.如权利要求1所述的方法，其特征在于：所述步骤2)中基于闸门机制的自适应的相似度度量选择，能够通过模型训练阶段的学习，自动地为每个属性选择最合适的相似度度量方法。

6.如权利要求5所述的方法，其特征在于，所述闸门机制为：对于每一个属性A，假设步骤1)输出n个相似度度量结果r＝[r₁，r₂，...，r_n]，使用一个选择向量g＝[g₁，g₂，...，g_n]来进行相似度度量选择，其中如果第i个相似度度量被选择，则g_i＝1，否则g_i＝0。

7.如权利要求6所述的方法，其特征在于，所述选择向量g采用以下方式学习得到：

a)用一个向量

来表示A，其中v是随机初始化并在训练过程中学习到的；

b)通过如下公式来计算软选择向量s：

s＝softmax(δ(vW+b))

其中，

和

是待学习的参数；

s_i＝s[i]是第i个相似度度量被选中的概率；

c)通过使用软选择向量s得到最终的选择向量g：

g＝h(s)

其中，h是一个元素级别的函数，当s_i＝＝max(s)时，它将g_i的值赋为1，否则设置为0。

8.一种基于端到端多视角匹配的实体消解系统，其特征在于，包括：

属性表示层模块，用于表示实体的每个属性；

聚合层模块，用于采用神经网络层对选择的所有属性的最优的相似性度量进行聚合，获得实体消解结果，即两个实体是否为同一个实体；

所述属性表示层模块、对比层模块、选择层模块和聚合层模块部署于统一的神经网络框架，在训练中以端到端的方式根据预测结果与真实样本的误差使用反向传播算法同时进行优化。