CN104881413B

CN104881413B - 实体匹配方法和装置

Info

Publication number: CN104881413B
Application number: CN201410072492.5A
Authority: CN
Inventors: 兰亮; 袁明轩; 曾嘉
Original assignee: Huawei Technologies Co Ltd
Current assignee: XFusion Digital Technologies Co Ltd
Priority date: 2014-02-28
Filing date: 2014-02-28
Publication date: 2018-01-09
Anticipated expiration: 2034-02-28
Also published as: US20160364366A1; WO2015127855A1; CN104881413A

Abstract

本发明实施例提供一种实体匹配方法和装置。该方法包括：在读入实体数量不一致的第一数据源和第二数据源后，分别计算出核矩阵K和L，然后求解第一优化目标函数得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M，最后输出解得的矩阵M。本发明实施例提供的实体匹配方法和装置，能够处理数据源的实体数量不一致时的实体匹配，从而可以有效提高数据挖掘工作的准确率以及展示数据价值。

Description

实体匹配方法和装置

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种实体匹配方法和装置。

背景技术

在大数据的背景下，我们可以通过各种服务收集到用户在不同数据源上的行为数据，例如通过运行商的移动宽带数据源可以得到用户在真实世界里的行为轨迹数据，通过智汇云数据源可以得到用户下载和安装APP应用的信息，还有通过各种公用的应用程序接口(API)也可以很容易得到用户其它各种不同类型的数据(例如微博数据，人人网数据等等)。当前情况下，这些数据源都是相互独立的，不同的数据源分别描述了用户在不同的维度的行为信息，如果能够将这些数据源统一关联起来，就能够更清晰和更准确的了解用户，数据的作用和价值才会最大限度地发挥出来。

目前，将不同数据源统一关联起来的实现方法是对不同数据源之间进行实体匹配，现有的一种核排序(Kernelized Sorting(N.Quadrianto et al.,2010))的方法能够在无法直接计算不同数据源上数据记录之间相似性的情况下进行实体匹配，该方法首先在不同数据源上计算各自的核矩阵，不同数据源的实体(用户)数量一致，然后通过将不同数据源上的核矩阵之间的相关性最大化来进行实体匹配。另一种凸化核排序(ConvexKernelized Sorting(N.Djuric et al.,2012))方法是对核排序方法的一个扩展，凸化核排序能够保证找到一个全局的最优解，而且求解的过程可以使用一些常用的凸优化问题的软件包来实现，在效果上比核排序更加稳定和准确。

但是，上述两种方法都要求不同数据源的实体数量必须一致，在实际问题中，当两个数据源的实体数量不一致时，上述方法无法处理数据源之间的实体匹配。

发明内容

本发明实施例提供一种实体匹配方法和装置，能够处理数据源的实体数量不一致时的实体匹配，从而可以有效提高数据挖掘工作的准确率。

第一方面，本发明实施例提供一种实体匹配方法，包括：

读入第一数据源和第二数据源后，在所述第一数据源上计算出m₁×m₁的核矩阵K，在所述第二数据源上计算出m₂×m₂的核矩阵L，所述第一数据源和第二数据源的实体数量分别为m₁和m₂；

求解第一优化目标函数，得到所述第一数据源中的实体和所述第二数据源中的实体的对应关系矩阵M，所述第一优化目标函数如下所示：

其中，矩阵M为m₂×m₁的矩阵，M_ij=1表示所述第一数据源中的第j个实体和所述第二数据源中的第i个实体相匹配，M_ij=0表示所述第一数据源中的第j个实体和所述第二数据源中的第i个实体不匹配；

输出解得的矩阵M。

在第一方面的第一种可能的实施方式中，所述第一优化目标函数为：

所述求解第一优化目标函数，包括：

使用凸优化软件包求解所述第一优化目标函数。

结合第一方面或第一方面的第一种可能的实施方式中，在第一方面的第二种可能的实施方式中，所述求解第一优化目标函数之前，还包括：

根据实体的唯一标识符对所述第一数据源中的实体和所述第二数据源中的实体进行实体匹配，不存在匹配的实体时，求解所述第一优化目标函数；

存在匹配的实体时，将存在匹配的实体构成m₂×m₁的矩阵A，其中，所述第一数据源中的第j个实体和所述第二数据源中的第i个实体相匹配时，A_ij=1，所述第一数据源中的第j个实体和所述第二数据源中的第i个实体不匹配时，A_ij=0，并求解第二优化目标函数，得到所述第一数据源中的实体和所述第二数据源中的实体的对应关系矩阵M，所述第二优化目标函数如下所示：

其中，H为m₁×m₁的矩阵，所述第一数据源中的第i个实体属于可根据所述唯一标识符找到匹配的实体时，H_ii=1，否则H_ii=0，λ为预定义标量。

结合第一方面的第二种可能的实施方式，在第一方面的第三种可能的实施方式中，所述第二优化目标函数为：

所述求解第二优化目标函数，包括：

使用凸优化软件包求解所述第二优化目标函数。

结合第一方面至第一方面的第三种可能的实施方式任一项所述的方法，在第一方面的第四种可能的实施方式中，所述输出解得的矩阵M，包括：

对所述矩阵M的每一列进行由大到小排序，输出每一列中M_ij值最大的N个实体，或者，

将所述矩阵M的每一列的最大值对应的值设置为1，每一列除最大值之外的其他值对应的值设置为0，输出匹配结果。

第二方面，本发明实施例提供一种实体匹配装置，包括：

计算模块，用于在读入第一数据源和第二数据源后，在所述第一数据源上计算出m₁×m₁的核矩阵K，在所述第二数据源上计算出m₂×m₂的核矩阵L，所述第一数据源和第二数据源的实体数量分别为m₁和m₂；

第一处理模块，用于求解第一优化目标函数，得到所述第一数据源中的实体和所述第二数据源中的实体的对应关系矩阵M，所述第一优化目标函数如下所示：

输出模块，用于输出解得的矩阵M。

在第二方面的第一种可能的实施方式中，所述第一优化目标函数为：

所述第一处理模块求解第一优化目标函数，包括：

使用凸优化软件包求解所述第一优化目标函数。

结合第二方面或第二方面的第一种可能的实施方式，在第二方面的第二种可能的实施方式中，还包括：

匹配模块，用于在所述第一处理模块求解第一优化目标函数之前，根据实体的唯一标识符对所述第一数据源中的实体和所述第二数据源中的实体进行实体匹配；

不存在匹配的实体时，所述第一处理模块求解所述第一优化目标函数；

第二处理模块，用于在存在匹配的实体时，将存在匹配的实体构成m₂×m₁的矩阵A，其中，所述第一数据源中的第j个实体和所述第二数据源中的第i个实体相匹配时，A_ij=1，所述第一数据源中的第j个实体和所述第二数据源中的第i个实体不匹配时，A_ij=0，并求解第二优化目标函数，得到所述第一数据源中的实体和所述第二数据源中的实体的对应关系矩阵M，所述第二优化目标函数如下所示：

结合第二方面的第二种可能的实施方式，在第二方面的第三种可能的实施方式中，所述第二优化目标函数为：

所述第二处理模块求解第二优化目标函数，包括：

使用凸优化软件包求解所述第二优化目标函数。

结合第二方面至第二方面的第三种可能的实施方式任一项所述的方法，在第二方面的第四种可能的实施方式中，所述输出模块输出解得的矩阵M，包括：

本发明实施例提供的实体匹配方法，通过在读入实体数量不一致的第一数据源和第二数据源后，分别计算出核矩阵K和L，然后求解第一优化目标函数得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M，最后输出解得的矩阵M。因此能够处理数据源的实体数量不一致时的实体匹配，从而可以有效提高数据挖掘工作的准确率以及展示数据价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实体匹配方法实施例一的流程图；

图2为本发明实体匹配方法实施例二的流程图；

图3为本发明实体匹配装置实施例一的结构示意图；

图4为本发明实体匹配装置实施例二的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的实体匹配方法和装置能够解决无法直接计算不同数据源上数据记录之间相似性的情况下进行实体匹配的问题，能够处理数据源的实体数量不一致时的实体匹配。另外，还可有效利用珍贵的样本标注消息来提高实体匹配的准确率。本发明实施例的方法可以广泛应用到异质数据源整合系统当中。下面结合附图详细说明本发明实施例提供的实体匹配方法和装置。

图1为本发明实体匹配方法实施例一的流程图，如图1所示，本实施例的方法可以包括：

S101、读入第一数据源和第二数据源后，在第一数据源上计算出m1×m1的核矩阵K，在第二数据源上计算出m₂×m₂的核矩阵L，第一数据源和第二数据源的实体数量分别为m₁和m₂。

具体来说，读入第一数据源和第二数据源的实现例如是通过使用从键盘上读取文本来实现数据输入。第一数据源和第二数据源的实体数量分别为m₁和m₂，例如第一数据源为X={x₁,x₂,...,x_m1}，第二数据源为Y={y₁,y₂,...,y_m2}。读入第一数据源和第二数据源后，在在第一数据源上计算出m₁×m₁的核矩阵K，核矩阵K中的第(i,j)个元素K_ij表示的是x_i和x_j在再生核希尔伯特空间(Reproducing Kernel Hilbert Space)上的相似性。同样的，在第二数据源上计算出m₂×m₂的核矩阵L。

实体匹配的目的是为了找到第一数据源中的实体和第二数据源中的实体之间的一一对应关系。这种不同数据源之间的一一对应关系可以通过一个m₂×m₁的排列矩阵M来表示，M_ij=1表示第一数据源中的第j个实体和第二数据源中的第i个实体相匹配，M_ij=0表示第一数据源中的第j个实体和第二数据源中的第i个实体不匹配，为了找到实体在第一数据源和第二数据源之间的一一对应关系，需要找到一个最优的排列矩阵M来对核矩阵K的行进行重新排列，对核矩阵L的列进行重新排列，使得重新排列后的这两个核矩阵的相关性最大。这个过程可以以数学形式表达成一个如下第一目标函数所示优化问题。

S102、求解第一优化目标函数，得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M，第一优化目标函数如下所示：

其中，矩阵M为m₂×m₁的矩阵。需说明的是，核矩阵K和L已经通过K=EKE和L=ELE进行标准化，其中E=I-1/m。将变量M_ij限定为0,1时,此问题为二元整数规划问题(BinaryInteger Programming),求解第一优化目标函数的过程例如可以通过分枝定界法(branchand bound)求解，但是基于这种方法求解耗时长。

为了实现软匹配和简化上述优化问题，本发明实施例将矩阵M的每个元素必须属于0或1的约束条件变为M_ij≥0，则第一优化目标函数变为：

此时求解第一优化目标函数，可以使用凸优化软件包求解第一优化目标函数，求解过程比较方便快捷。

S103、输出解得的矩阵M。

具体地，输出解得的矩阵M有两种可实施的方式，一种方式可以是对矩阵M的每一列进行由大到小排序，输出每一列中M_ij值最大的N个实体。另一种方式是将矩阵M的每一列的最大值对应的值设置为1，每一列除最大值之外的其他值对应的值设置为0，输出匹配结果。

本实施例提供的实体匹配方法，通过在读入实体数量不一致的第一数据源和第二数据源后，分别计算出核矩阵K和L，然后求解第一优化目标函数得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M，最后输出解得的矩阵M。因此能够处理数据源的实体数量不一致时的实体匹配，从而可以有效提高数据挖掘工作的准确率以及展示数据价值。

在处理实际问题中，常常可能会有小部分标注好的数据，即就是知道两个数据源中有小部分实体之间的一一对应关系，这一小部分的标注信息将会非常有价值，但是现有的实体匹配方法无法利用这一小部分标注信息，本发明实施例提出一种实体匹配方法，可以有效利用珍贵的样本标注消息来提高实体匹配的准确率，下面将结合附图详细说明。

图2为本发明实体匹配方法实施例二的流程图，如图2所示，本实施例的方法可以包括：

S201、读入第一数据源和第二数据源后，在第一数据源上计算出m₁×m₁的核矩阵K，在第二数据源上计算出m₂×m₂的核矩阵L，第一数据源和第二数据源的实体数量分别为m₁和m₂。

S202、根据实体的唯一标识符对第一数据源中的实体和第二数据源中的实体进行实体匹配。不存在匹配的实体时，执行S203，存在匹配的实体时，执行S204。

具体来说，对于小部分的标注信息，通过实体的唯一标识符（ID）进行简单实体匹配，能够知道第一数据源中的k个实体和第二数据源中的k个实体的一一对应关系。可能由于数据缺失等问题，这里k的值会很小，也许很多情况下k的值为0。这k个实体在两个数据源中的一一对应关系可以用一个m₂×m₁的矩阵A来表示。k的值为0时，也就是存在匹配的实体。

S203、求解第一优化目标函数。

具体过程如上述图1所示的方法，此处不再赘述。

S204、将存在匹配的实体构成m₂×m₁的矩阵A，其中，第一数据源中的第j个实体和第二数据源中的第i个实体相匹配时，A_ij=1，第一数据源中的第j个实体和第二数据源中的第i个实体不匹配时，A_ij=0，并求解第二优化目标函数，得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M，第二优化目标函数如下所示：

其中，H为m₁×m₁的矩阵，第一数据源中的第i个实体属于可根据唯一标识符找到匹配的实体时，H_ii=1，否则H_ii=0，λ为预定义标量，例如λ可以为0.1，1或者其它数值。需说明的是，核矩阵K和L已经通过K=EKE和L=ELE进行标准化，其中E=I-1/m。将变量M_ij限定为0,1时,求解问题为二元整数规划问题(Binary Integer Programming),求解第一优化目标函数的过程例如可以通过分枝定界法(branch and bound)求解，但是基于这种方法求解耗时长。

为了实现软匹配和简化上述优化问题，本发明实施例将矩阵M的每个元素必须属于0或1的约束条件变为Mij≥0，则第二优化目标函数为：

此时求解第二优化目标函数，可以使用凸优化软件包求解第二优化目标函数，求解过程比较方便快捷。

S205、输出解得的矩阵M。

本实施例提供的实体匹配方法，通过在读入实体数量不一致的第一数据源和第二数据源后，分别计算出核矩阵K和L，然后根据实体的唯一标识符对第一数据源中的实体和第二数据源中的实体进行实体匹配。不存在匹配的实体时求解第一优化目标函数得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M，存在匹配的实体时将存在匹配的实体构成矩阵A，并求解第二优化目标函数得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M，最后输出解得的矩阵M。因此能够处理数据源的实体数量不一致时的实体匹配，还可有效利用珍贵的样本标注消息来提高实体匹配的准确率，从而可以有效提高数据挖掘工作的准确率以及展示数据价值。

图3为本发明实体匹配装置实施例一的结构示意图，如图3所示，本实施例的装置可以包括：计算模块11、第一处理模块12和输出模块13，其中，计算模块11用于在读入第一数据源和第二数据源后，在第一数据源上计算出m₁×m₁的核矩阵K，在第二数据源上计算出m₂×m₂的核矩阵L，第一数据源和第二数据源的实体数量分别为m₁和m₂。

第一处理模块12用于求解第一优化目标函数，得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M，第一优化目标函数如下所示：

其中，矩阵M为m₂×m₁的矩阵，M_ij=1表示第一数据源中的第j个实体和第二数据源中的第i个实体相匹配，M_ij=0表示第一数据源中的第j个实体和第二数据源中的第i个实体不匹配。需说明的是，核矩阵K和L已经通过K=EKE和L=ELE进行标准化，其中E=I-1/m。将变量M_ij限定为0,1时,此问题为二元整数规划问题(Binary Integer Programming),求解第一优化目标函数的过程例如可以通过分枝定界法(branch and bound)求解，但是基于这种方法求解耗时长。

第一处理模块12求解第一优化目标函数，具体为：使用凸优化软件包求解第一优化目标函数。

输出模块13用于输出解得的矩阵M。

具体地，输出模块13输出解得的矩阵M有两种可实施的方式，一种方式可以是对矩阵M的每一列进行由大到小排序，输出每一列中M_ij值最大的N个实体。另一种方式是将矩阵M的每一列的最大值对应的值设置为1，每一列除最大值之外的其他值对应的值设置为0，输出匹配结果。

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理类似，此处不再赘述。

本实施例提供的实体匹配装置，通过计算模块在读入实体数量不一致的第一数据源和第二数据源后，分别计算出核矩阵K和L，然后第一处理模块求解第一优化目标函数得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M，最后输出模块输出解得的矩阵M。因此能够处理数据源的实体数量不一致时的实体匹配，从而可以有效提高数据挖掘工作的准确率以及展示数据价值。

在处理实际问题中，常常可能会有小部分标注好的数据，即就是知道两个数据源中有小部分实体之间的一一对应关系，这一小部分的标注信息将会非常有价值，但是现有的实体匹配方法无法利用这一小部分标注信息，本发明实施例提出一种实体匹配装置，可以有效利用珍贵的样本标注消息来提高实体匹配的准确率，图4为本发明实体匹配装置实施例二的结构示意图，如图4所示，本实施例的装置在图3所示装置的基础上，还可以包括：匹配模块14和第二处理模块15，匹配模块14用于在第一处理模块求解第一优化目标函数之前，根据实体的唯一标识符对第一数据源中的实体和第二数据源中的实体进行实体匹配。不存在匹配的实体时，第一处理模块12求解第一优化目标函数。第二处理模块15用于在存在匹配的实体时，将存在匹配的实体构成m₂×m₁的矩阵A，其中，第一数据源中的第j个实体和第二数据源中的第i个实体相匹配时，A_ij=1，第一数据源中的第j个实体和第二数据源中的第i个实体不匹配时，A_ij=0，并求解第二优化目标函数，得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M，第二优化目标函数如下所示：

其中，H为m₁×m₁的矩阵，第一数据源中的第i个实体属于可根据唯一标识符找到匹配的实体时，H_ii=1，否则H_ii=0，λ为预定义标量。需说明的是，核矩阵K和L已经通过K=EKE和L=ELE进行标准化，其中E=I-1/m。将变量M_ij限定为0,1时,求解问题为二元整数规划问题(Binary Integer Programming),求解第一优化目标函数的过程例如可以通过分枝定界法(branch and bound)求解，但是基于这种方法求解耗时长。

为了实现软匹配和简化上述优化问题，本发明实施例将矩阵M的每个元素必须属于0或1的约束条件变为M_ij≥0，则第二优化目标函数为：

此时第二处理模块15求解第二优化目标函数，具体为：使用凸优化软件包求解第二优化目标函数。

同样地，输出模块13输出解得的矩阵M有两种可实施的方式，一种方式可以是对矩阵M的每一列进行由大到小排序，输出每一列中M_ij值最大的N个实体。另一种方式是将矩阵M的每一列的最大值对应的值设置为1，每一列除最大值之外的其他值对应的值设置为0，输出匹配结果。

本实施例的装置，可以用于执行图2所示方法实施例的技术方案，其实现原理类似，此处不再赘述。

本实施例提供的实体匹配装置，通过计算模块在读入实体数量不一致的第一数据源和第二数据源后，分别计算出核矩阵K和L，然后匹配模块根据实体的唯一标识符对第一数据源中的实体和第二数据源中的实体进行实体匹配。不存在匹配的实体时第一处理模块求解第一优化目标函数得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M，存在匹配的实体时第二处理模块将存在匹配的实体构成矩阵A，并求解第二优化目标函数得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M，最后输出解得的矩阵M。因此能够处理数据源的实体数量不一致时的实体匹配，还可有效利用珍贵的样本标注消息来提高实体匹配的准确率，从而可以有效提高数据挖掘工作的准确率以及展示数据价值。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种实体匹配方法，其特征在于，包括：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> </mrow> </mtd> <mtd> <mrow> <msub> <mi>M</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&Element;</mo> <mo>{</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> </mtd> <mtd> <mrow> <mo>&ForAll;</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </mtd> </mtr> </mtable> </mfenced>

其中，矩阵M为m₂×m₁的矩阵，M_ij＝1表示所述第一数据源中的第j个实体和所述第二数据源中的第i个实体相匹配，M_ij＝0表示所述第一数据源中的第j个实体和所述第二数据源中的第i个实体不匹配；

输出解得的矩阵M。

2.根据权利要求1所述的方法，其特征在于，所述第一优化目标函数为：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> </mrow> </mtd> <mtd> <mrow> <msub> <mi>M</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&GreaterEqual;</mo> <mn>0</mn> </mrow> </mtd> <mtd> <mrow> <mo>&ForAll;</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </mtd> </mtr> </mtable> </mfenced>

所述求解第一优化目标函数，包括：

使用凸优化软件包求解所述第一优化目标函数。

3.根据权利要求1或2所述的方法，其特征在于，所述求解第一优化目标函数之前，还包括：

存在匹配的实体时，将存在匹配的实体构成m₂×m₁的矩阵A，其中，所述第一数据源中的第j个实体和所述第二数据源中的第i个实体相匹配时，A_ij＝1，所述第一数据源中的第j个实体和所述第二数据源中的第i个实体不匹配时，A_ij＝0，并求解第二优化目标函数，得到所述第一数据源中的实体和所述第二数据源中的实体的对应关系矩阵M，所述第二优化目标函数如下所示：

<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>M</mi> </munder> <mo>|</mo> <mo>|</mo> <msup> <mi>KM</mi> <mi>T</mi> </msup> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mi>L</mi> <mi>M</mi> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>&lambda;</mi> <mo>|</mo> <mo>|</mo> <mi>M</mi> <mi>H</mi> <mo>-</mo> <mi>A</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow>

其中，H为m₁×m₁的矩阵，所述第一数据源中的第i个实体属于可根据所述唯一标识符找到匹配的实体时，H_ii＝1，否则H_ii＝0，λ为预定义标量。

4.根据权利要求3所述的方法，其特征在于，所述第二优化目标函数为：

所述求解第二优化目标函数，包括：

使用凸优化软件包求解所述第二优化目标函数。

5.根据权利要求1或2所述的方法，其特征在于，所述输出解得的矩阵M，包括：

6.一种实体匹配装置，其特征在于，包括：

输出模块，用于输出解得的矩阵M。

7.根据权利要求6所述的装置，其特征在于，所述第一优化目标函数为：

所述第一处理模块求解第一优化目标函数，包括：

使用凸优化软件包求解所述第一优化目标函数。

8.根据权利要求6或7所述的装置，其特征在于，还包括：

第二处理模块，用于在存在匹配的实体时，将存在匹配的实体构成m₂×m₁的矩阵A，其中，所述第一数据源中的第j个实体和所述第二数据源中的第i个实体相匹配时，A_ij＝1，所述第一数据源中的第j个实体和所述第二数据源中的第i个实体不匹配时，A_ij＝0，并求解第二优化目标函数，得到所述第一数据源中的实体和所述第二数据源中的实体的对应关系矩阵M，所述第二优化目标函数如下所示：

9.根据权利要求8所述的装置，其特征在于，所述第二优化目标函数为：

所述第二处理模块求解第二优化目标函数，包括：

使用凸优化软件包求解所述第二优化目标函数。

10.根据权利要求6或7所述的装置，其特征在于，所述输出模块输出解得的矩阵M，包括：