CN103761298A

CN103761298A - 一种基于分布式架构的实体匹配方法

Info

Publication number: CN103761298A
Application number: CN201410025006.4A
Authority: CN
Inventors: 陈杰; 金澈清; 周傲英
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2014-01-20
Filing date: 2014-01-20
Publication date: 2014-04-30
Anticipated expiration: 2034-01-20
Also published as: CN103761298B

Abstract

本发明公开了一种基于分布式架构的实体匹配方法，依次包括如下步骤：块生成步骤，对于每个数据元组生成若干个关键词，合并具有相同关键词的数据元组得到若干个块；接口实现步骤，将包含过多数据元组的块分割成多个子块，对于每个块或者子块生成至少一个数字签名sig并计算数字签名sig的Tightness Index值；实体匹配步骤，将包含过多数据元组的块分割成多个子块，选取块或者子块具有Tightness Index值最小的sig作为其Key值，随后构建两两待比较记录对进行实体匹配并采用集合记录已匹配的记录对。本发明适用于分布式文件系统，可均衡多个节点的负载，并可避免重复比较记录对，提高分布式文件系统整体的运行性能。

Description

一种基于分布式架构的实体匹配方法

技术领域

本发明属于数据库技术领域，尤其涉及基于分布式架构的实体匹配技术。

背景技术

实体匹配技术旨在发现来自同一个实体的相互匹配的记录。例如，给定一堆来自不同数据源的文献集合，实体匹配技术可以用来发现来自同一篇文献的若干条匹配记录；给定一堆指纹记录集合，判断来自于同一个人的指纹记录等。该项技术被广泛应用在数据清洗、数据集成等各个领域中，一直受到颇多关注。

由于实体匹配技术需要进行O(n²)次两两比较，并且很多的比较都是不相关记录之间的无意义比较，可以用基于块划分技术来避免这些不相关比较。它只选取少量具有潜在匹配可能性的记录对进行精确比较，这将大大减少比较的开销。然而，精确比较一直是较为耗时的过程，执行一次具体的实体匹配任务往往需要耗费几个小时甚至几十天。与此同时，现有的MapReduce框架可以并行地利用成千上万台机器同时执行程序，进而提升整体运行效率。目前，已经有越来越多的基于MapReduce框架的应用来加速处理过程。

图7显示的是MapReduce框架中数据的处理流程的示意图。数据元组以块(通常默认大小：64MB)为单位存放在分布式文件系统中(HDFS，Hadoop Distributed File System)。Map任务从分布式文件系统中逐条读入该数据元组。一般方式下，Map任务会优先读取当前所在节点中存储的数据元组，避免从其他节点读入数据元组造成不必要的数据传输。根据指定的Map函数，每个Map任务开始处理每条数据元组，对于每条数据元组生成一条(Key，Value)键值对。随后，Reduce函数会自动将输入的信息根据Key进行Shuffle处理，将节点中具有相同Key的数据元组的(Key，Value)键值对进一步合并成(Key，(Value₁，Value₂，...))的形式，进一步作为Reduce函数的输入。Reduce函数将对输入的(Key，(Value₁，Value₂，...))数据作进一步整合，输出合并后的结果分配到分布式文件系统的各个节点上。

然而，基于MapReduce框架的应用直接扩展到该实体匹配框架中存在两大固有缺陷：负载不均衡和重复记录对比较。负载不均衡是指分布式文件系统中每个节点的任务负荷不一致，导致有些节点完成较早而有些节点完成较晚。重复记录对比较是指相同的记录对会在不同节点上多次比较。这两个方面的问题将大大耗费现有的分布式文件系统的资源，降低整体性能。

为了克服现有技术中负载不均衡和重复记录对比较的缺陷，本发明提出了一种基于分布式架构的实体匹配方法。

发明内容

本发明提出了一种基于分布式架构的实体匹配方法，该方法是对分布式文件系统中相似数据元组进行匹配的方法，依次包括如下步骤：

块生成步骤，对于每个数据元组生成至少一个关键词，将具有相同关键词的数据元组合并为一个块；

接口实现步骤，包括下述子步骤：a.将包含过多数据元组的块进行分割，得到多个子块；b.对于每个块或者子块生成至少一个数字签名sig，计算所述至少一个数字签名sig的每个数字签名sig的Tightness Index值；

实体匹配步骤，其包括下述子步骤：a.将包含过多数据元组的块进行分割，得到多个子块；b.对于每个块或者子块生成至少一个数字签名sig，并在每个所述块或者子块中根据每个所述数字签名sig的Tightness Index值选取其中一个所述数字签名sig作为所述每个块或者子块的Key值；c.对具有相同Key值的所述块或者子块中的数据元组进行两两实体匹配，输出匹配结果，并以集合保存已匹配的数据元组避免相同记录对重复比较。

本发明提出的基于分布式架构的实体匹配方法中，所述接口实现步骤中分割所述块的方法包括如下步骤：

步骤A1：设定块中包含最大数据元组数的阈值；

步骤A2：选取一个块，当块所含数据元组数大于阈值时，则判定其包含过多数据元组；否则进行步骤A4；

步骤A3：对包含过多数据元组的块进行分割，得到多个子块；

步骤A4：重新进行步骤A2选取下一个块进行分割，直至对所有块完成分割为止。

本发明提出的基于分布式架构的实体匹配方法中，步骤A3分割成子块的方法包括如下步骤：

步骤A31：对包含过多数据元组的块进行均匀分割，得到多个自交子块；所述自交子块所含数据元组数量不超过阈值；

步骤A32：将所述自交子块交叉合并，生成交叉子块；所述交叉子块所含数据元组数量不超过阈值的两倍。

本发明提出的基于分布式架构的实体匹配方法中，所述数字签名sig是由块或者子块基于哈希函数计算生成的。

本发明提出的基于分布式架构的实体匹配方法中，所述接口实现步骤中生成TightnessIndex值的方法包括如下步骤：

步骤B1：对所有所述数字签名sig进行排序，并合并相同的数字签名sig；

步骤B2：对于一个所述数字签名sig，计算所述数字签名sig下所有不同的数据元组的总数，记作n；

步骤B3：计算具有相同所述数字签名sig的所有块所包含数据元组的总数，记作m；

步骤B4：计算所述数字签名sig的Tightness Index值，Tightness Index＝n/m；

步骤B5：重新进行步骤B2选取下一个数字签名sig并计算其Tightness Index值，直至完成计算所有Tightness Index值为止。

本发明提出的基于分布式架构的实体匹配方法中，实体匹配步骤中选取Tightness Index值最小的数字签名sig作为所述块或者子块的Key值。

本发明提出的基于分布式架构的实体匹配方法中，实体匹配步骤中匹配数据元组的方法包括如下步骤：

步骤D1：将所述块或者子块中所包含的数据元组配对，生成待比较的记录对，所述记录对包括两个数据元组；

步骤D2：建立集合，用于保存已比较的记录对；

步骤D3：选取一个记录对，若所述记录对不存在于所述集合中则继续，否则进行步骤D6；

步骤D4：设定相似度阈值，计算所述记录对中链各个数据元组的相似度值；若所述相似度值大于所述相似度阈值，则将所述记录对记为匹配结果；步骤D5：将所述记录对存入所述集合中；

步骤D6：选取下一个记录对进行匹配，直至所有记录对完成匹配为止，输出匹配结果。

本发明的有益效果包括：对包含过多数据元组的大块进行分割，均衡每个节点的块所含数据元组的个数，从而实现分布式文件系统中各节点的负载均衡；引入Tightness Index值表征块之间的相关程度，将相关的块引入同一节点中进行匹配，从而避免了相同的记录对在不同节点中进行重复比较，并且在同一节点中引入集合用以保存已比较的记录对，避免单一节点内记录对的重复比较，从而整体优化了分布式文件系统的工作性能。本发明将负载均衡解决方案和重复记录对比较解决方案有机结合，同时有效地解决负载不均衡与重复记录对比较的问题。

附图说明

图1是本发明基于分布式架构的实体匹配方法的总体流程图。

图2是块生成步骤中数据处理的流程图。

图3是接口实现步骤的流程图。

图4是接口实现步骤中数据处理的流程图。

图5是实体匹配步骤的流程图。

图6是实体匹配过程中数据处理的流程图。

图7是背景技术MapReduce框架中数据处理流程的示意图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

图1显示的本发明基于分布式架构的实体匹配方法的总体流程图。本发明包含块生成步骤、接口实现步骤和实体匹配步骤三个步骤。三个步骤的功能描述如下：

本发明实体匹配方法是基于块划分的实体匹配技术，因此步骤S1块生成步骤是接口实现步骤与实体匹配步骤的基础，它主要完成将分布式文件系统中的数据元组划分到一起形成各个块的过程。

步骤S2接口实现步骤主要针对于解决分布式架构上的两大问题：负载不均衡和重复记录对比较。接口实现步骤先按块的大小对大块进行分割从而整体上解决负载不均衡的问题，并且为实体匹配步骤引入Tightness Index值，通过MapReduce提供的分布式缓存技术，可以将接口实现步骤生成的统计资料缓存到每个Map任务中，为实体匹配步骤中避免重复记录对比较提供重要信息，从而提高实体匹配步骤的运行效率。

步骤S3实体匹配步骤则是最为耗时的，实体匹配步骤利用缓存的统计资料运用至实体匹配过程中，为每一个块选择合适的sig值，从而确保相同的数据元组可以以较大概率进入到同一个节点中，进而利用集合从待比较的记录对中快速识别出已经比较的记录对。故实体匹配步骤只对未比较的记录对进行相似度计算，克服了重复记录对比较的缺陷。

本发明是基于上述构思提出的，关于上述步骤的具体实施过程作如下描述：

图2显示的是块生成步骤的流程图。本实例中给定了一个数据集合，该数据集合包含9条数据元组，每条数据元组包含其在该数据集合Data Set中的ID值，该ID值表示该数据元组在数据集合Data Set中的序号(rID，record ID)，以及该数据元组所包含的数据内容(Content)。本实施例中的数据集合中前6条数据元组所包含的数据内容代表的是MartinLuther King，美国著名的民权运动领袖人物，而后3条数据元组所包含的数据内容代表了MarkTwain，美国著名的作家。

由于数据元组存在噪声和错误，因此往往采用多个块生成函数，而不是仅仅采用一个块生成函数。这样的好处是，更多匹配的数据元组将会被放入到候选的块中，提高算法的精确性。在该实例中采用了基于前缀划分和基于后缀划分生成两种不同的关键词，从而形成两种不同的块生成方法。例如：t₁的数据元组“Martin Luther King”通过前缀分割，得到由前缀字符串关键词“Ma”组成的Key为“F·Ma”，其中F表示前缀分割First。同样基于后缀分割后，得到由后缀字符串关键词“ng”组成的Key为“L·ng”，其中L表示后缀分割Last。

当对上述所有数据元组进行分割后，通过MapReduce自身提供的shuffle处理对所有关键词进行排序及合并，将具有相同Key的数据元组合并在一组中形成一个快。例如，将key“F·Ma”把数据元组t₁，t₂，t₃，t₄，t₅，t₈聚集在一个块中，生成块b₁{t₁，t₂，t₃，t₄，t₅，t₈}；按照key“L·ng”把数据元组t₁，t₃，t₄，t₅，t₆，t₇聚集在一个块中，得到块b₂{t₁，t₃，t₄，t₅，t₆，t₇}，同理得到块b₃与块b₄。块生成步骤所得到的块结果将被用于接口实现步骤与实体匹配步骤中。

图3显示的接口实现步骤的流程图。其中主要包括两个子步骤，a.将包含过多数据元组的块进行分割，得到多个子块；b.对于每个块或者子块生成至少一个数字签名sig，计算每个数字签名sig的Tightness Index值。

首先获取当前所处理的块所包含的数据元组的总数，Map函数判断其总数是否超过设定的阈值MAXBS参数。若大于该MAXBS参数，则认为该块包含过多的数据元组(以下简称为大块)，大块是将会影响后续处理效率的负载任务。从而先对大块进行分割生成多个自交子块，；自交子块所含数据元组数量不超过MAXBS参数，再对自交子块进行交叉合并，生成交叉子块，生成的交叉子块所含数据元组数量不超过MAXBS参数的两倍。参阅图4，由于设定MAXBS参数等于3，Map函数判断b₁和b₂为大块，从而将他们分别分成2个自交子块和1个交叉子块。其中，b₁的自交子块为：{t₁，t₂，t₃}和{t₄，t₅，t₈}，交叉子块为{t₁，t₂，t₃；t₄，t₅，t₈}。分割完成后，根据指定的哈希函数对每一个块或者子块生成至少一个数字签名sig并输出(Sig，Value)对。每一个块或者子块所生成数字签名sig的数量根据指定的哈希函数数量而定。本实例中指定两个哈希函数H₁：(x-1)mod9与H₂：(9-x)mod9，其中x表示该数据元组的ID。经过哈希函数作用后，根据新得到的哈希值对块中所有的数据元组进行排序。排序后取前K个数据元组的ID号作为sig值，在本实例中，K值取1。以块3为例，包含{t₆，t₇，t₉}这三个数据元组，根据哈希函数H₁作用于块3得到的排序结果为：{t₆，t₇，t₉}，根据哈希函数H₂作用于块3得到的排序结果为：{t₉，t₇，t₆}。因此产生两个sig值，分别为6和9。而最终的sig值记为H₁·6与H₂·9，其中H₁用来代表其来自于哈希函数H₁，H₂用来代表其来自于哈希函数H₂。

Reduce函数根据数字签名sig对所有(Sig，Value)对进行排序和合并(即，shuffle处理)，合并后从中选取第一个数字签名sig由Reduce函数计算出当前sig下的Tightness Index值（TI)，直至计算所有数字签名sig的TI值后输出所有(Key，TI)对形成TI表(TiTable)，其中Key的内容为数字签名sig，TI值为该key的value。本实例中以sig：H₁·1为例作进一步详细说明。如图4所示，H₁·1将四个块(或子块)合并到了一起，它们分别是：{t₁，t₂，t₃}，{t₁，t₂，t₃；t₄，t₅，t₈}，{t₁，t₃，t₄}，{t₁，t₃，t₄；t₅，t₆，t₇}。进而可以发现一共包含的不同数据元组为t₁，t₂，t₃，t₄，t₅，t₆，t₇，t₈，总个数为8(即，n＝8)；而所有块包含的数据元组个数之和为3+6+3+6＝18(即，m＝18)。从而H₁·1的sig值为n/m＝4/9。

以上是关于接口实现步骤的具体实施过程，在分布式文件系统中可通过以下方法1中的相关代码实现，方法1的代码如下所示：

接口实现步骤中获得的TI值表征了该块或子块中数据元组的相关程度，数据元组越相关TI值越小，TI表在实体匹配步骤中成为重要的参考因素。

图5显示的实体匹配步骤的流程图。实体匹配步骤包括下述子步骤：a.将包含过多数据元组的块进行分割，得到多个子块；b.对于每个块或者子块生成至少一个数字签名sig，并在每个块或者子块中根据每个数字签名sig的Tightness Index值选取其中一个数字签名sig作为每个块或者子块的Key值；c.对具有相同sig值的块或者子块中的数据元组进行匹配，输出匹配结果，并以集合保存已匹配的数据元组。

参阅图6，在上述接口实现步骤中生成的TI表由MapReduce提供的分布式缓存机制导入到各个Map节点内存中。由于接口实现步骤中的TI值是基于分割后的块或子块生成的，故实体匹配步骤与接口实现步骤相同也需要对块生成步骤得到的块进行分割操作将大块b₁与b₂分割成若干个自交子块和交叉子块，使得TI表在实体匹配步骤中具有意义。

分割完成后，选取该块或者子块下的具有最小TI值的数字签名sig作为该该块或者子块的Key，通过Map函数输出该块或者子块的(Sig，Value)对，其中Value为该块或者子块中所含的记录(数据元组)。TI值用于表征数字签名的相关程度，TI值越小的数字签名表示该块中与该数字签名的相关程度越高，与该数字签名相关的数据元组更相似，因此以TI值最小的数字签名作为该块的Key值并合并，能将最相关的数据元组分配到同一节点中进行下一步匹配，能够降低多个节点之间重复比较的概率。

Reduce函数将所有(Key，Value)对按sig进行排序和合并(即，shuffle处理)后，具有相同sig值的块或者子块聚集在一起。依次遍历每一个块构建该块中所有待比较的记录对Pair，每一个记录对Pair包含两个记录(即，数据元组)，然后在每个节点内构建集合Set用以记录已经比较的记录对从而避免单个节点内记录对的重复比较。

进行比较时先选取一个记录对，如果该记录对未存在于集合Set中则精确比较该记录对中两个记录；否则认定该记录对是已经比较的记录对，将跳过该记录对并选取下一个记录对进行比较。

精确比较记录对的过程中，若计算后得到两个记录的相似度大于指定的阈值则判定这两个记录相互匹配，并输出该记录对作为本发明实体匹配的结果之一；否则不输出任何信息。然后将该记录对存入集合Set中，选取下一个记录对进行比较。当完成该块中的所有记录对的比较时，选取下一个块比较该块中所有记录对，直至完成所有块的比较后得到本发明匹配方法的结果。

例如，图6中显示的Reduce函数的输入中，Key为H₁·1的子块{t₁，t₂，t₃}的待比较的记录对为{t₁，t₂}、{t₁，t₃}与{t₂，t₃}，Key为H₁·1的子块{t₁，t₃，t₄}的待比较的记录对为{t₁，t₃}、{t₁，t₄}与{t₃，t₄}。在本例中，相似度函数为编辑距离相似度函数，阀值设定为0.8，因此记录对{t₁，t₃}的相似度值为0.94，高于阀值0.8，故认定该记录对为匹配记录对输出。在子块{t₁，t₂，t₃}完成记录对比较时，集合Set中包含的已比较记录对为{t₁，t₂}、{t₁，t₃}与{t₂，t₃}，当子块{t₁，t₃，t₄}进行记录对比较时，记录对{t₁，t₃}已存在于集合Set中，故记录对{t₁，t₃}可跳过比较，从而避免了重复记录对比较。

以上是关于实体匹配步骤的具体实施过程，在分布式文件系统中可通过以下方法2中的相关代码实现，方法2的代码如下所示：

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于分布式架构的实体匹配方法，该方法是对分布式文件系统中相似数据元组进行匹配的方法，其特征在于，依次包括如下步骤：

接口实现步骤，包括下述子步骤：

a.将包含过多数据元组的块进行分割，得到多个子块；

b.对于每个块或者子块生成至少一个数字签名sig，计算所述至少一个数字签名sig的每个数字签名sig的Tightness Index值；

实体匹配步骤，其包括下述子步骤：

a.将包含过多数据元组的块进行分割，得到多个子块；

b.对于每个块或者子块生成至少一个数字签名sig，并在每个所述块或者子块中根据每个所述数字签名sig的Tightness Index值选取其中一个所述数字签名sig作为所述每个块或者子块的Key值；

c.对具有相同Key值的所述块或者子块中的数据元组进行两两匹配，输出匹配结果，并采用集合保存已匹配的数据元组以避免相同记录对重复比较。

2.如权利要求1所述的基于分布式架构的实体匹配方法，其特征在于，所述接口实现步骤中分割所述块的方法包括如下步骤：

步骤A1：设定块中包含最大数据元组数的阈值；

步骤A2：选取一个块，当块所含数据元组数大于阈值时，判定其包含过多数据元组；否则进行步骤A4；

3.如权利要求2所述的基于分布式架构的实体匹配方法，其特征在于，步骤A3分割成子块的方法包括如下步骤：

4.如权利要求1所述的基于分布式架构的实体匹配方法，其特征在于，所述数字签名sig是由块或者子块基于哈希函数计算生成的。

5.如权利要求1所述的基于分布式架构的实体匹配方法，其特征在于，所述接口实现步骤中生成Tightness Index值的方法包括如下步骤：

6.如权利要求1所述的基于分布式架构的实体匹配方法，其特征在于，实体匹配步骤中选取Tightness Index值最小的数字签名sig作为所述块或者子块的Key值。

7.如权利要求1所述的基于分布式架构的实体匹配方法，其特征在于，实体匹配步骤中匹配数据元组的方法包括如下步骤：

步骤D1：将所述块或者子块中所包含的数据元组配对，生成至少一对记录对，所述记录对包括两个数据元组；

步骤D2：建立集合，用于保存已比较的记录对；

步骤D4：设定相似度阈值，计算所述记录对中链各个数据元组的相似度值；若所述相似度值大于所述相似度阈值，则将所述记录对记为匹配结果；

步骤D5：将所述记录对存入所述集合中；