CN104881413B - 实体匹配方法和装置 - Google Patents
实体匹配方法和装置 Download PDFInfo
- Publication number
- CN104881413B CN104881413B CN201410072492.5A CN201410072492A CN104881413B CN 104881413 B CN104881413 B CN 104881413B CN 201410072492 A CN201410072492 A CN 201410072492A CN 104881413 B CN104881413 B CN 104881413B
- Authority
- CN
- China
- Prior art keywords
- msub
- mrow
- msup
- entity
- data source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 239000011159 matrix material Substances 0.000 claims abstract description 101
- 238000005457 optimization Methods 0.000 claims abstract description 87
- 102000008297 Nuclear Matrix-Associated Proteins Human genes 0.000 claims abstract description 19
- 108010035916 Nuclear Matrix-Associated Proteins Proteins 0.000 claims abstract description 19
- 210000000299 nuclear matrix Anatomy 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 82
- 238000007418 data mining Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供一种实体匹配方法和装置。该方法包括:在读入实体数量不一致的第一数据源和第二数据源后,分别计算出核矩阵K和L,然后求解第一优化目标函数得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M,最后输出解得的矩阵M。本发明实施例提供的实体匹配方法和装置,能够处理数据源的实体数量不一致时的实体匹配,从而可以有效提高数据挖掘工作的准确率以及展示数据价值。
Description
技术领域
本发明实施例涉及通信技术领域,尤其涉及一种实体匹配方法和装置。
背景技术
在大数据的背景下,我们可以通过各种服务收集到用户在不同数据源上的行为数据,例如通过运行商的移动宽带数据源可以得到用户在真实世界里的行为轨迹数据,通过智汇云数据源可以得到用户下载和安装APP应用的信息,还有通过各种公用的应用程序接口(API)也可以很容易得到用户其它各种不同类型的数据(例如微博数据,人人网数据等等)。当前情况下,这些数据源都是相互独立的,不同的数据源分别描述了用户在不同的维度的行为信息,如果能够将这些数据源统一关联起来,就能够更清晰和更准确的了解用户,数据的作用和价值才会最大限度地发挥出来。
目前,将不同数据源统一关联起来的实现方法是对不同数据源之间进行实体匹配,现有的一种核排序(Kernelized Sorting(N.Quadrianto et al.,2010))的方法能够在无法直接计算不同数据源上数据记录之间相似性的情况下进行实体匹配,该方法首先在不同数据源上计算各自的核矩阵,不同数据源的实体(用户)数量一致,然后通过将不同数据源上的核矩阵之间的相关性最大化来进行实体匹配。另一种凸化核排序(ConvexKernelized Sorting(N.Djuric et al.,2012))方法是对核排序方法的一个扩展,凸化核排序能够保证找到一个全局的最优解,而且求解的过程可以使用一些常用的凸优化问题的软件包来实现,在效果上比核排序更加稳定和准确。
但是,上述两种方法都要求不同数据源的实体数量必须一致,在实际问题中,当两个数据源的实体数量不一致时,上述方法无法处理数据源之间的实体匹配。
发明内容
本发明实施例提供一种实体匹配方法和装置,能够处理数据源的实体数量不一致时的实体匹配,从而可以有效提高数据挖掘工作的准确率。
第一方面,本发明实施例提供一种实体匹配方法,包括:
读入第一数据源和第二数据源后,在所述第一数据源上计算出m1×m1的核矩阵K,在所述第二数据源上计算出m2×m2的核矩阵L,所述第一数据源和第二数据源的实体数量分别为m1和m2;
求解第一优化目标函数,得到所述第一数据源中的实体和所述第二数据源中的实体的对应关系矩阵M,所述第一优化目标函数如下所示:
其中,矩阵M为m2×m1的矩阵,Mij=1表示所述第一数据源中的第j个实体和所述第二数据源中的第i个实体相匹配,Mij=0表示所述第一数据源中的第j个实体和所述第二数据源中的第i个实体不匹配;
输出解得的矩阵M。
在第一方面的第一种可能的实施方式中,所述第一优化目标函数为:
所述求解第一优化目标函数,包括:
使用凸优化软件包求解所述第一优化目标函数。
结合第一方面或第一方面的第一种可能的实施方式中,在第一方面的第二种可能的实施方式中,所述求解第一优化目标函数之前,还包括:
根据实体的唯一标识符对所述第一数据源中的实体和所述第二数据源中的实体进行实体匹配,不存在匹配的实体时,求解所述第一优化目标函数;
存在匹配的实体时,将存在匹配的实体构成m2×m1的矩阵A,其中,所述第一数据源中的第j个实体和所述第二数据源中的第i个实体相匹配时,Aij=1,所述第一数据源中的第j个实体和所述第二数据源中的第i个实体不匹配时,Aij=0,并求解第二优化目标函数,得到所述第一数据源中的实体和所述第二数据源中的实体的对应关系矩阵M,所述第二优化目标函数如下所示:
其中,H为m1×m1的矩阵,所述第一数据源中的第i个实体属于可根据所述唯一标识符找到匹配的实体时,Hii=1,否则Hii=0,λ为预定义标量。
结合第一方面的第二种可能的实施方式,在第一方面的第三种可能的实施方式中,所述第二优化目标函数为:
所述求解第二优化目标函数,包括:
使用凸优化软件包求解所述第二优化目标函数。
结合第一方面至第一方面的第三种可能的实施方式任一项所述的方法,在第一方面的第四种可能的实施方式中,所述输出解得的矩阵M,包括:
对所述矩阵M的每一列进行由大到小排序,输出每一列中Mij值最大的N个实体,或者,
将所述矩阵M的每一列的最大值对应的值设置为1,每一列除最大值之外的其他值对应的值设置为0,输出匹配结果。
第二方面,本发明实施例提供一种实体匹配装置,包括:
计算模块,用于在读入第一数据源和第二数据源后,在所述第一数据源上计算出m1×m1的核矩阵K,在所述第二数据源上计算出m2×m2的核矩阵L,所述第一数据源和第二数据源的实体数量分别为m1和m2;
第一处理模块,用于求解第一优化目标函数,得到所述第一数据源中的实体和所述第二数据源中的实体的对应关系矩阵M,所述第一优化目标函数如下所示:
其中,矩阵M为m2×m1的矩阵,Mij=1表示所述第一数据源中的第j个实体和所述第二数据源中的第i个实体相匹配,Mij=0表示所述第一数据源中的第j个实体和所述第二数据源中的第i个实体不匹配;
输出模块,用于输出解得的矩阵M。
在第二方面的第一种可能的实施方式中,所述第一优化目标函数为:
所述第一处理模块求解第一优化目标函数,包括:
使用凸优化软件包求解所述第一优化目标函数。
结合第二方面或第二方面的第一种可能的实施方式,在第二方面的第二种可能的实施方式中,还包括:
匹配模块,用于在所述第一处理模块求解第一优化目标函数之前,根据实体的唯一标识符对所述第一数据源中的实体和所述第二数据源中的实体进行实体匹配;
不存在匹配的实体时,所述第一处理模块求解所述第一优化目标函数;
第二处理模块,用于在存在匹配的实体时,将存在匹配的实体构成m2×m1的矩阵A,其中,所述第一数据源中的第j个实体和所述第二数据源中的第i个实体相匹配时,Aij=1,所述第一数据源中的第j个实体和所述第二数据源中的第i个实体不匹配时,Aij=0,并求解第二优化目标函数,得到所述第一数据源中的实体和所述第二数据源中的实体的对应关系矩阵M,所述第二优化目标函数如下所示:
其中,H为m1×m1的矩阵,所述第一数据源中的第i个实体属于可根据所述唯一标识符找到匹配的实体时,Hii=1,否则Hii=0,λ为预定义标量。
结合第二方面的第二种可能的实施方式,在第二方面的第三种可能的实施方式中,所述第二优化目标函数为:
所述第二处理模块求解第二优化目标函数,包括:
使用凸优化软件包求解所述第二优化目标函数。
结合第二方面至第二方面的第三种可能的实施方式任一项所述的方法,在第二方面的第四种可能的实施方式中,所述输出模块输出解得的矩阵M,包括:
对所述矩阵M的每一列进行由大到小排序,输出每一列中Mij值最大的N个实体,或者,
将所述矩阵M的每一列的最大值对应的值设置为1,每一列除最大值之外的其他值对应的值设置为0,输出匹配结果。
本发明实施例提供的实体匹配方法,通过在读入实体数量不一致的第一数据源和第二数据源后,分别计算出核矩阵K和L,然后求解第一优化目标函数得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M,最后输出解得的矩阵M。因此能够处理数据源的实体数量不一致时的实体匹配,从而可以有效提高数据挖掘工作的准确率以及展示数据价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实体匹配方法实施例一的流程图;
图2为本发明实体匹配方法实施例二的流程图;
图3为本发明实体匹配装置实施例一的结构示意图;
图4为本发明实体匹配装置实施例二的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的实体匹配方法和装置能够解决无法直接计算不同数据源上数据记录之间相似性的情况下进行实体匹配的问题,能够处理数据源的实体数量不一致时的实体匹配。另外,还可有效利用珍贵的样本标注消息来提高实体匹配的准确率。本发明实施例的方法可以广泛应用到异质数据源整合系统当中。下面结合附图详细说明本发明实施例提供的实体匹配方法和装置。
图1为本发明实体匹配方法实施例一的流程图,如图1所示,本实施例的方法可以包括:
S101、读入第一数据源和第二数据源后,在第一数据源上计算出m1×m1的核矩阵K,在第二数据源上计算出m2×m2的核矩阵L,第一数据源和第二数据源的实体数量分别为m1和m2。
具体来说,读入第一数据源和第二数据源的实现例如是通过使用从键盘上读取文本来实现数据输入。第一数据源和第二数据源的实体数量分别为m1和m2,例如第一数据源为X={x1,x2,...,xm1},第二数据源为Y={y1,y2,...,ym2}。读入第一数据源和第二数据源后,在在第一数据源上计算出m1×m1的核矩阵K,核矩阵K中的第(i,j)个元素Kij表示的是xi和xj在再生核希尔伯特空间(Reproducing Kernel Hilbert Space)上的相似性。同样的,在第二数据源上计算出m2×m2的核矩阵L。
实体匹配的目的是为了找到第一数据源中的实体和第二数据源中的实体之间的一一对应关系。这种不同数据源之间的一一对应关系可以通过一个m2×m1的排列矩阵M来表示,Mij=1表示第一数据源中的第j个实体和第二数据源中的第i个实体相匹配,Mij=0表示第一数据源中的第j个实体和第二数据源中的第i个实体不匹配,为了找到实体在第一数据源和第二数据源之间的一一对应关系,需要找到一个最优的排列矩阵M来对核矩阵K的行进行重新排列,对核矩阵L的列进行重新排列,使得重新排列后的这两个核矩阵的相关性最大。这个过程可以以数学形式表达成一个如下第一目标函数所示优化问题。
S102、求解第一优化目标函数,得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M,第一优化目标函数如下所示:
其中,矩阵M为m2×m1的矩阵。需说明的是,核矩阵K和L已经通过K=EKE和L=ELE进行标准化,其中E=I-1/m。将变量Mij限定为0,1时,此问题为二元整数规划问题(BinaryInteger Programming),求解第一优化目标函数的过程例如可以通过分枝定界法(branchand bound)求解,但是基于这种方法求解耗时长。
为了实现软匹配和简化上述优化问题,本发明实施例将矩阵M的每个元素必须属于0或1的约束条件变为Mij≥0,则第一优化目标函数变为:
此时求解第一优化目标函数,可以使用凸优化软件包求解第一优化目标函数,求解过程比较方便快捷。
S103、输出解得的矩阵M。
具体地,输出解得的矩阵M有两种可实施的方式,一种方式可以是对矩阵M的每一列进行由大到小排序,输出每一列中Mij值最大的N个实体。另一种方式是将矩阵M的每一列的最大值对应的值设置为1,每一列除最大值之外的其他值对应的值设置为0,输出匹配结果。
本实施例提供的实体匹配方法,通过在读入实体数量不一致的第一数据源和第二数据源后,分别计算出核矩阵K和L,然后求解第一优化目标函数得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M,最后输出解得的矩阵M。因此能够处理数据源的实体数量不一致时的实体匹配,从而可以有效提高数据挖掘工作的准确率以及展示数据价值。
在处理实际问题中,常常可能会有小部分标注好的数据,即就是知道两个数据源中有小部分实体之间的一一对应关系,这一小部分的标注信息将会非常有价值,但是现有的实体匹配方法无法利用这一小部分标注信息,本发明实施例提出一种实体匹配方法,可以有效利用珍贵的样本标注消息来提高实体匹配的准确率,下面将结合附图详细说明。
图2为本发明实体匹配方法实施例二的流程图,如图2所示,本实施例的方法可以包括:
S201、读入第一数据源和第二数据源后,在第一数据源上计算出m1×m1的核矩阵K,在第二数据源上计算出m2×m2的核矩阵L,第一数据源和第二数据源的实体数量分别为m1和m2。
S202、根据实体的唯一标识符对第一数据源中的实体和第二数据源中的实体进行实体匹配。不存在匹配的实体时,执行S203,存在匹配的实体时,执行S204。
具体来说,对于小部分的标注信息,通过实体的唯一标识符(ID)进行简单实体匹配,能够知道第一数据源中的k个实体和第二数据源中的k个实体的一一对应关系。可能由于数据缺失等问题,这里k的值会很小,也许很多情况下k的值为0。这k个实体在两个数据源中的一一对应关系可以用一个m2×m1的矩阵A来表示。k的值为0时,也就是存在匹配的实体。
S203、求解第一优化目标函数。
具体过程如上述图1所示的方法,此处不再赘述。
S204、将存在匹配的实体构成m2×m1的矩阵A,其中,第一数据源中的第j个实体和第二数据源中的第i个实体相匹配时,Aij=1,第一数据源中的第j个实体和第二数据源中的第i个实体不匹配时,Aij=0,并求解第二优化目标函数,得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M,第二优化目标函数如下所示:
其中,H为m1×m1的矩阵,第一数据源中的第i个实体属于可根据唯一标识符找到匹配的实体时,Hii=1,否则Hii=0,λ为预定义标量,例如λ可以为0.1,1或者其它数值。需说明的是,核矩阵K和L已经通过K=EKE和L=ELE进行标准化,其中E=I-1/m。将变量Mij限定为0,1时,求解问题为二元整数规划问题(Binary Integer Programming),求解第一优化目标函数的过程例如可以通过分枝定界法(branch and bound)求解,但是基于这种方法求解耗时长。
为了实现软匹配和简化上述优化问题,本发明实施例将矩阵M的每个元素必须属于0或1的约束条件变为Mij≥0,则第二优化目标函数为:
此时求解第二优化目标函数,可以使用凸优化软件包求解第二优化目标函数,求解过程比较方便快捷。
S205、输出解得的矩阵M。
具体地,输出解得的矩阵M有两种可实施的方式,一种方式可以是对矩阵M的每一列进行由大到小排序,输出每一列中Mij值最大的N个实体。另一种方式是将矩阵M的每一列的最大值对应的值设置为1,每一列除最大值之外的其他值对应的值设置为0,输出匹配结果。
本实施例提供的实体匹配方法,通过在读入实体数量不一致的第一数据源和第二数据源后,分别计算出核矩阵K和L,然后根据实体的唯一标识符对第一数据源中的实体和第二数据源中的实体进行实体匹配。不存在匹配的实体时求解第一优化目标函数得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M,存在匹配的实体时将存在匹配的实体构成矩阵A,并求解第二优化目标函数得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M,最后输出解得的矩阵M。因此能够处理数据源的实体数量不一致时的实体匹配,还可有效利用珍贵的样本标注消息来提高实体匹配的准确率,从而可以有效提高数据挖掘工作的准确率以及展示数据价值。
图3为本发明实体匹配装置实施例一的结构示意图,如图3所示,本实施例的装置可以包括:计算模块11、第一处理模块12和输出模块13,其中,计算模块11用于在读入第一数据源和第二数据源后,在第一数据源上计算出m1×m1的核矩阵K,在第二数据源上计算出m2×m2的核矩阵L,第一数据源和第二数据源的实体数量分别为m1和m2。
具体来说,读入第一数据源和第二数据源的实现例如是通过使用从键盘上读取文本来实现数据输入。第一数据源和第二数据源的实体数量分别为m1和m2,例如第一数据源为X={x1,x2,...,xm1},第二数据源为Y={y1,y2,...,ym2}。读入第一数据源和第二数据源后,在在第一数据源上计算出m1×m1的核矩阵K,核矩阵K中的第(i,j)个元素Kij表示的是xi和xj在再生核希尔伯特空间(Reproducing Kernel Hilbert Space)上的相似性。同样的,在第二数据源上计算出m2×m2的核矩阵L。
第一处理模块12用于求解第一优化目标函数,得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M,第一优化目标函数如下所示:
其中,矩阵M为m2×m1的矩阵,Mij=1表示第一数据源中的第j个实体和第二数据源中的第i个实体相匹配,Mij=0表示第一数据源中的第j个实体和第二数据源中的第i个实体不匹配。需说明的是,核矩阵K和L已经通过K=EKE和L=ELE进行标准化,其中E=I-1/m。将变量Mij限定为0,1时,此问题为二元整数规划问题(Binary Integer Programming),求解第一优化目标函数的过程例如可以通过分枝定界法(branch and bound)求解,但是基于这种方法求解耗时长。
为了实现软匹配和简化上述优化问题,本发明实施例将矩阵M的每个元素必须属于0或1的约束条件变为Mij≥0,则第一优化目标函数变为:
第一处理模块12求解第一优化目标函数,具体为:使用凸优化软件包求解第一优化目标函数。
输出模块13用于输出解得的矩阵M。
具体地,输出模块13输出解得的矩阵M有两种可实施的方式,一种方式可以是对矩阵M的每一列进行由大到小排序,输出每一列中Mij值最大的N个实体。另一种方式是将矩阵M的每一列的最大值对应的值设置为1,每一列除最大值之外的其他值对应的值设置为0,输出匹配结果。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理类似,此处不再赘述。
本实施例提供的实体匹配装置,通过计算模块在读入实体数量不一致的第一数据源和第二数据源后,分别计算出核矩阵K和L,然后第一处理模块求解第一优化目标函数得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M,最后输出模块输出解得的矩阵M。因此能够处理数据源的实体数量不一致时的实体匹配,从而可以有效提高数据挖掘工作的准确率以及展示数据价值。
在处理实际问题中,常常可能会有小部分标注好的数据,即就是知道两个数据源中有小部分实体之间的一一对应关系,这一小部分的标注信息将会非常有价值,但是现有的实体匹配方法无法利用这一小部分标注信息,本发明实施例提出一种实体匹配装置,可以有效利用珍贵的样本标注消息来提高实体匹配的准确率,图4为本发明实体匹配装置实施例二的结构示意图,如图4所示,本实施例的装置在图3所示装置的基础上,还可以包括:匹配模块14和第二处理模块15,匹配模块14用于在第一处理模块求解第一优化目标函数之前,根据实体的唯一标识符对第一数据源中的实体和第二数据源中的实体进行实体匹配。不存在匹配的实体时,第一处理模块12求解第一优化目标函数。第二处理模块15用于在存在匹配的实体时,将存在匹配的实体构成m2×m1的矩阵A,其中,第一数据源中的第j个实体和第二数据源中的第i个实体相匹配时,Aij=1,第一数据源中的第j个实体和第二数据源中的第i个实体不匹配时,Aij=0,并求解第二优化目标函数,得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M,第二优化目标函数如下所示:
其中,H为m1×m1的矩阵,第一数据源中的第i个实体属于可根据唯一标识符找到匹配的实体时,Hii=1,否则Hii=0,λ为预定义标量。需说明的是,核矩阵K和L已经通过K=EKE和L=ELE进行标准化,其中E=I-1/m。将变量Mij限定为0,1时,求解问题为二元整数规划问题(Binary Integer Programming),求解第一优化目标函数的过程例如可以通过分枝定界法(branch and bound)求解,但是基于这种方法求解耗时长。
为了实现软匹配和简化上述优化问题,本发明实施例将矩阵M的每个元素必须属于0或1的约束条件变为Mij≥0,则第二优化目标函数为:
此时第二处理模块15求解第二优化目标函数,具体为:使用凸优化软件包求解第二优化目标函数。
同样地,输出模块13输出解得的矩阵M有两种可实施的方式,一种方式可以是对矩阵M的每一列进行由大到小排序,输出每一列中Mij值最大的N个实体。另一种方式是将矩阵M的每一列的最大值对应的值设置为1,每一列除最大值之外的其他值对应的值设置为0,输出匹配结果。
本实施例的装置,可以用于执行图2所示方法实施例的技术方案,其实现原理类似,此处不再赘述。
本实施例提供的实体匹配装置,通过计算模块在读入实体数量不一致的第一数据源和第二数据源后,分别计算出核矩阵K和L,然后匹配模块根据实体的唯一标识符对第一数据源中的实体和第二数据源中的实体进行实体匹配。不存在匹配的实体时第一处理模块求解第一优化目标函数得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M,存在匹配的实体时第二处理模块将存在匹配的实体构成矩阵A,并求解第二优化目标函数得到第一数据源中的实体和第二数据源中的实体的对应关系矩阵M,最后输出解得的矩阵M。因此能够处理数据源的实体数量不一致时的实体匹配,还可有效利用珍贵的样本标注消息来提高实体匹配的准确率,从而可以有效提高数据挖掘工作的准确率以及展示数据价值。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种实体匹配方法,其特征在于,包括:
读入第一数据源和第二数据源后,在所述第一数据源上计算出m1×m1的核矩阵K,在所述第二数据源上计算出m2×m2的核矩阵L,所述第一数据源和第二数据源的实体数量分别为m1和m2;
求解第一优化目标函数,得到所述第一数据源中的实体和所述第二数据源中的实体的对应关系矩阵M,所述第一优化目标函数如下所示:
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mi>M</mi>
</munder>
<mo>|</mo>
<mo>|</mo>
<msup>
<mi>KM</mi>
<mi>T</mi>
</msup>
<mo>-</mo>
<msup>
<mrow>
<mo>(</mo>
<mi>L</mi>
<mi>M</mi>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>s</mi>
<mo>.</mo>
<mi>t</mi>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>M</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>&Element;</mo>
<mo>{</mo>
<mn>0</mn>
<mo>,</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>&ForAll;</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mrow>
<msup>
<mi>M</mi>
<mi>T</mi>
</msup>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
<mo>&le;</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
</mrow>
<mrow>
<mi>M</mi>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
<mo>&le;</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
</mrow>
<mrow>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mi>M</mi>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
<mo>=</mo>
<mi>min</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
</mrow>
其中,矩阵M为m2×m1的矩阵,Mij=1表示所述第一数据源中的第j个实体和所述第二数据源中的第i个实体相匹配,Mij=0表示所述第一数据源中的第j个实体和所述第二数据源中的第i个实体不匹配;
输出解得的矩阵M。
2.根据权利要求1所述的方法,其特征在于,所述第一优化目标函数为:
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mi>M</mi>
</munder>
<mo>|</mo>
<mo>|</mo>
<msup>
<mi>KM</mi>
<mi>T</mi>
</msup>
<mo>-</mo>
<msup>
<mrow>
<mo>(</mo>
<mi>L</mi>
<mi>M</mi>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>s</mi>
<mo>.</mo>
<mi>t</mi>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>M</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>&GreaterEqual;</mo>
<mn>0</mn>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>&ForAll;</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mrow>
<msup>
<mi>M</mi>
<mi>T</mi>
</msup>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
<mo>&le;</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
</mrow>
<mrow>
<mi>M</mi>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
<mo>&le;</mo>
<msub>
<mi>I</mi>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
</mrow>
<mrow>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mi>M</mi>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
<mo>=</mo>
<mi>min</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
</mrow>
所述求解第一优化目标函数,包括:
使用凸优化软件包求解所述第一优化目标函数。
3.根据权利要求1或2所述的方法,其特征在于,所述求解第一优化目标函数之前,还包括:
根据实体的唯一标识符对所述第一数据源中的实体和所述第二数据源中的实体进行实体匹配,不存在匹配的实体时,求解所述第一优化目标函数;
存在匹配的实体时,将存在匹配的实体构成m2×m1的矩阵A,其中,所述第一数据源中的第j个实体和所述第二数据源中的第i个实体相匹配时,Aij=1,所述第一数据源中的第j个实体和所述第二数据源中的第i个实体不匹配时,Aij=0,并求解第二优化目标函数,得到所述第一数据源中的实体和所述第二数据源中的实体的对应关系矩阵M,所述第二优化目标函数如下所示:
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mi>M</mi>
</munder>
<mo>|</mo>
<mo>|</mo>
<msup>
<mi>KM</mi>
<mi>T</mi>
</msup>
<mo>-</mo>
<msup>
<mrow>
<mo>(</mo>
<mi>L</mi>
<mi>M</mi>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>+</mo>
<mi>&lambda;</mi>
<mo>|</mo>
<mo>|</mo>
<mi>M</mi>
<mi>H</mi>
<mo>-</mo>
<mi>A</mi>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>s</mi>
<mo>.</mo>
<mi>t</mi>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>M</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>&Element;</mo>
<mo>{</mo>
<mn>0</mn>
<mo>,</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>&ForAll;</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mrow>
<msup>
<mi>M</mi>
<mi>T</mi>
</msup>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
<mo>&le;</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
</mrow>
<mrow>
<mi>M</mi>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
<mo>&le;</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
</mrow>
<mrow>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mi>M</mi>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
<mo>=</mo>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
</mrow>
其中,H为m1×m1的矩阵,所述第一数据源中的第i个实体属于可根据所述唯一标识符找到匹配的实体时,Hii=1,否则Hii=0,λ为预定义标量。
4.根据权利要求3所述的方法,其特征在于,所述第二优化目标函数为:
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mi>M</mi>
</munder>
<mo>|</mo>
<mo>|</mo>
<msup>
<mi>KM</mi>
<mi>T</mi>
</msup>
<mo>-</mo>
<msup>
<mrow>
<mo>(</mo>
<mi>L</mi>
<mi>M</mi>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>+</mo>
<mi>&lambda;</mi>
<mo>|</mo>
<mo>|</mo>
<mi>M</mi>
<mi>H</mi>
<mo>-</mo>
<mi>A</mi>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>s</mi>
<mo>.</mo>
<mi>t</mi>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>M</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>&GreaterEqual;</mo>
<mn>0</mn>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>&ForAll;</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mrow>
<msup>
<mi>M</mi>
<mi>T</mi>
</msup>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
<mo>&le;</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
</mrow>
<mrow>
<mi>M</mi>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
<mo>&le;</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
</mrow>
<mrow>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mi>M</mi>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
<mo>=</mo>
<mi>min</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
</mrow>
所述求解第二优化目标函数,包括:
使用凸优化软件包求解所述第二优化目标函数。
5.根据权利要求1或2所述的方法,其特征在于,所述输出解得的矩阵M,包括:
对所述矩阵M的每一列进行由大到小排序,输出每一列中Mij值最大的N个实体,或者,
将所述矩阵M的每一列的最大值对应的值设置为1,每一列除最大值之外的其他值对应的值设置为0,输出匹配结果。
6.一种实体匹配装置,其特征在于,包括:
计算模块,用于在读入第一数据源和第二数据源后,在所述第一数据源上计算出m1×m1的核矩阵K,在所述第二数据源上计算出m2×m2的核矩阵L,所述第一数据源和第二数据源的实体数量分别为m1和m2;
第一处理模块,用于求解第一优化目标函数,得到所述第一数据源中的实体和所述第二数据源中的实体的对应关系矩阵M,所述第一优化目标函数如下所示:
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mi>M</mi>
</munder>
<mo>|</mo>
<mo>|</mo>
<msup>
<mi>KM</mi>
<mi>T</mi>
</msup>
<mo>-</mo>
<msup>
<mrow>
<mo>(</mo>
<mi>L</mi>
<mi>M</mi>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>s</mi>
<mo>.</mo>
<mi>t</mi>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>M</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>&Element;</mo>
<mo>{</mo>
<mn>0</mn>
<mo>,</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>&ForAll;</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mrow>
<msup>
<mi>M</mi>
<mi>T</mi>
</msup>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
<mo>&le;</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
</mrow>
<mrow>
<mi>M</mi>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
<mo>&le;</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
</mrow>
<mrow>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mi>M</mi>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
<mo>=</mo>
<mi>min</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
</mrow>
其中,矩阵M为m2×m1的矩阵,Mij=1表示所述第一数据源中的第j个实体和所述第二数据源中的第i个实体相匹配,Mij=0表示所述第一数据源中的第j个实体和所述第二数据源中的第i个实体不匹配;
输出模块,用于输出解得的矩阵M。
7.根据权利要求6所述的装置,其特征在于,所述第一优化目标函数为:
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mi>M</mi>
</munder>
<mo>|</mo>
<mo>|</mo>
<msup>
<mi>KM</mi>
<mi>T</mi>
</msup>
<mo>-</mo>
<msup>
<mrow>
<mo>(</mo>
<mi>L</mi>
<mi>M</mi>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>s</mi>
<mo>.</mo>
<mi>t</mi>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>M</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>&GreaterEqual;</mo>
<mn>0</mn>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>&ForAll;</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mrow>
<msup>
<mi>M</mi>
<mi>T</mi>
</msup>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
<mo>&le;</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
</mrow>
<mrow>
<mi>M</mi>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
<mo>&le;</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
</mrow>
<mrow>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mi>M</mi>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
<mo>=</mo>
<mi>min</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
</mrow>
所述第一处理模块求解第一优化目标函数,包括:
使用凸优化软件包求解所述第一优化目标函数。
8.根据权利要求6或7所述的装置,其特征在于,还包括:
匹配模块,用于在所述第一处理模块求解第一优化目标函数之前,根据实体的唯一标识符对所述第一数据源中的实体和所述第二数据源中的实体进行实体匹配;
不存在匹配的实体时,所述第一处理模块求解所述第一优化目标函数;
第二处理模块,用于在存在匹配的实体时,将存在匹配的实体构成m2×m1的矩阵A,其中,所述第一数据源中的第j个实体和所述第二数据源中的第i个实体相匹配时,Aij=1,所述第一数据源中的第j个实体和所述第二数据源中的第i个实体不匹配时,Aij=0,并求解第二优化目标函数,得到所述第一数据源中的实体和所述第二数据源中的实体的对应关系矩阵M,所述第二优化目标函数如下所示:
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mi>M</mi>
</munder>
<mo>|</mo>
<mo>|</mo>
<msup>
<mi>KM</mi>
<mi>T</mi>
</msup>
<mo>-</mo>
<msup>
<mrow>
<mo>(</mo>
<mi>L</mi>
<mi>M</mi>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>+</mo>
<mi>&lambda;</mi>
<mo>|</mo>
<mo>|</mo>
<mi>M</mi>
<mi>H</mi>
<mo>-</mo>
<mi>A</mi>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>s</mi>
<mo>.</mo>
<mi>t</mi>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>M</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>&Element;</mo>
<mo>{</mo>
<mn>0</mn>
<mo>,</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>&ForAll;</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mrow>
<msup>
<mi>M</mi>
<mi>T</mi>
</msup>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
<mo>&le;</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
</mrow>
<mrow>
<mi>M</mi>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
<mo>&le;</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
</mrow>
<mrow>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mi>M</mi>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
<mo>=</mo>
<mi>min</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
</mrow>
其中,H为m1×m1的矩阵,所述第一数据源中的第i个实体属于可根据所述唯一标识符找到匹配的实体时,Hii=1,否则Hii=0,λ为预定义标量。
9.根据权利要求8所述的装置,其特征在于,所述第二优化目标函数为:
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mi>M</mi>
</munder>
<mo>|</mo>
<mo>|</mo>
<msup>
<mi>KM</mi>
<mi>T</mi>
</msup>
<mo>-</mo>
<msup>
<mrow>
<mo>(</mo>
<mi>L</mi>
<mi>M</mi>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>+</mo>
<mi>&lambda;</mi>
<mo>|</mo>
<mo>|</mo>
<mi>M</mi>
<mi>H</mi>
<mo>-</mo>
<mi>A</mi>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>s</mi>
<mo>.</mo>
<mi>t</mi>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>M</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>&GreaterEqual;</mo>
<mn>0</mn>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>&ForAll;</mo>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mrow>
<msup>
<mi>M</mi>
<mi>T</mi>
</msup>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
<mo>&le;</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
</mrow>
<mrow>
<mi>M</mi>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
<mo>&le;</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
</mrow>
<mrow>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mi>M</mi>
<msub>
<mn>1</mn>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
</msub>
<mo>=</mo>
<mi>min</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>m</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>m</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
</mrow>
所述第二处理模块求解第二优化目标函数,包括:
使用凸优化软件包求解所述第二优化目标函数。
10.根据权利要求6或7所述的装置,其特征在于,所述输出模块输出解得的矩阵M,包括:
对所述矩阵M的每一列进行由大到小排序,输出每一列中Mij值最大的N个实体,或者,
将所述矩阵M的每一列的最大值对应的值设置为1,每一列除最大值之外的其他值对应的值设置为0,输出匹配结果。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410072492.5A CN104881413B (zh) | 2014-02-28 | 2014-02-28 | 实体匹配方法和装置 |
PCT/CN2015/072607 WO2015127855A1 (zh) | 2014-02-28 | 2015-02-10 | 实体匹配方法和装置 |
US15/245,795 US20160364366A1 (en) | 2014-02-28 | 2016-08-24 | Entity Matching Method and Apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410072492.5A CN104881413B (zh) | 2014-02-28 | 2014-02-28 | 实体匹配方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104881413A CN104881413A (zh) | 2015-09-02 |
CN104881413B true CN104881413B (zh) | 2018-01-09 |
Family
ID=53948908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410072492.5A Active CN104881413B (zh) | 2014-02-28 | 2014-02-28 | 实体匹配方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20160364366A1 (zh) |
CN (1) | CN104881413B (zh) |
WO (1) | WO2015127855A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468330B (zh) * | 2021-07-06 | 2023-04-28 | 北京有竹居网络技术有限公司 | 信息获取方法、装置、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6144964A (en) * | 1998-01-22 | 2000-11-07 | Microsoft Corporation | Methods and apparatus for tuning a match between entities having attributes |
CN102227725A (zh) * | 2008-12-02 | 2011-10-26 | 艾利森电话股份有限公司 | 用于匹配实体的系统和方法 |
CN102385625A (zh) * | 2010-10-26 | 2012-03-21 | 微软公司 | 实体名称匹配 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8949227B2 (en) * | 2010-03-12 | 2015-02-03 | Telefonaktiebolaget L M Ericsson (Publ) | System and method for matching entities and synonym group organizer used therein |
-
2014
- 2014-02-28 CN CN201410072492.5A patent/CN104881413B/zh active Active
-
2015
- 2015-02-10 WO PCT/CN2015/072607 patent/WO2015127855A1/zh active Application Filing
-
2016
- 2016-08-24 US US15/245,795 patent/US20160364366A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6144964A (en) * | 1998-01-22 | 2000-11-07 | Microsoft Corporation | Methods and apparatus for tuning a match between entities having attributes |
CN102227725A (zh) * | 2008-12-02 | 2011-10-26 | 艾利森电话股份有限公司 | 用于匹配实体的系统和方法 |
CN102385625A (zh) * | 2010-10-26 | 2012-03-21 | 微软公司 | 实体名称匹配 |
Non-Patent Citations (3)
Title |
---|
Convex Kernelized Sorting;Nemanja Djuric 等;《Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence》;20120726;第12卷(第11期);893-899 * |
Kernelized Sorting;Novi Quadrianto 等;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;20101031;第32卷(第10期);1809-1821 * |
Variational Bayesian Matching;Arto Klami;《Asian Conference on Machine Learning》;20121231;205-220 * |
Also Published As
Publication number | Publication date |
---|---|
US20160364366A1 (en) | 2016-12-15 |
WO2015127855A1 (zh) | 2015-09-03 |
CN104881413A (zh) | 2015-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Anderson et al. | Finding long chains in kidney exchange using the traveling salesman problem | |
Gao et al. | An analysis of the patenting activities and collaboration among industry-university-research institutes in the Chinese ICT sector | |
CN106575246A (zh) | 机器学习服务 | |
CN106663038A (zh) | 用于机器学习的特征处理配方 | |
CN107436762A (zh) | 一种寄存器代码文件生成方法、装置和电子设备 | |
CN104615667A (zh) | 一种基础数据生成方法、测试用数据生成方法及其装置 | |
CN103995908A (zh) | 一种数据导入方法及装置 | |
CN103345484A (zh) | 基于动态域的报表处理系统及方法 | |
CN106980667B (zh) | 一种给文章标注标签的方法和装置 | |
Griffiths et al. | Evolutionary heritage shapes tree distributions along an Amazon‐to‐Andes elevation gradient | |
CN111291125A (zh) | 一种数据处理方法及相关设备 | |
CN103870571B (zh) | 多维联机分析处理系统中的立方体重构方法和装置 | |
CN107451204A (zh) | 一种数据查询方法、装置及设备 | |
CN104881413B (zh) | 实体匹配方法和装置 | |
WO2021093320A1 (zh) | 用于输出信息的方法和装置 | |
Kravchenko | The problem of measuring and assessing national innovation systems | |
CN107644025A (zh) | 分布式数据库的wal记录的分发方法和装置 | |
CN109582476A (zh) | 数据处理方法、装置及系统 | |
Anthony | Introducing fireant: A freeware, multiplatform social media data-analysis tool | |
CN109902178A (zh) | 一种多级文本分类方法及系统 | |
CN106126611A (zh) | 一种教学效果的图形展示方法 | |
CN110020227A (zh) | 一种数据排序方法和装置 | |
Chaban | Cointegration analysis with structural breaks and deterministic trends: an application to the Canadian dollar | |
Greivel et al. | Improving Mathematical Exposition of an Industrial-Scale Linear Program | |
CN106897443A (zh) | 大数据的划分方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211223 Address after: 450046 Floor 9, building 1, Zhengshang Boya Plaza, Longzihu wisdom Island, Zhengdong New Area, Zhengzhou City, Henan Province Patentee after: xFusion Digital Technologies Co., Ltd. Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd. |
|
TR01 | Transfer of patent right |