CN103761298B - 一种基于分布式架构的实体匹配方法 - Google Patents
一种基于分布式架构的实体匹配方法 Download PDFInfo
- Publication number
- CN103761298B CN103761298B CN201410025006.4A CN201410025006A CN103761298B CN 103761298 B CN103761298 B CN 103761298B CN 201410025006 A CN201410025006 A CN 201410025006A CN 103761298 B CN103761298 B CN 103761298B
- Authority
- CN
- China
- Prior art keywords
- block
- sub
- digital signature
- record
- sig
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000006870 function Effects 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 9
- 150000001875 compounds Chemical class 0.000 claims description 2
- 238000004321 preservation Methods 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 240000002853 Nelumbo nucifera Species 0.000 description 1
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 1
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 1
- 244000131316 Panax pseudoginseng Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 244000144992 flock Species 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于分布式架构的实体匹配方法,依次包括如下步骤:块生成步骤,对于每个数据元组生成若干个关键词,合并具有相同关键词的数据元组得到若干个块;接口实现步骤,将包含过多数据元组的块分割成多个子块,对于每个块或者子块生成至少一个数字签名sig并计算数字签名sig的Tightness Index值;实体匹配步骤,将包含过多数据元组的块分割成多个子块,选取块或者子块具有Tightness Index值最小的sig作为其Key值,随后构建两两待比较记录对进行实体匹配并采用集合记录已匹配的记录对。本发明适用于分布式文件系统,可均衡多个节点的负载,并可避免重复比较记录对,提高分布式文件系统整体的运行性能。
Description
技术领域
本发明属于数据库技术领域,尤其涉及基于分布式架构的实体匹配技术。
背景技术
实体匹配技术旨在发现来自同一个实体的相互匹配的记录。例如,给定一堆来自不同数据源的文献集合,实体匹配技术可以用来发现来自同一篇文献的若干条匹配记录;给定一堆指纹记录集合,判断来自于同一个人的指纹记录等。该项技术被广泛应用在数据清洗、数据集成等各个领域中,一直受到颇多关注。
由于实体匹配技术需要进行O(n2)次两两比较,并且很多的比较都是不相关记录之间的无意义比较,可以用基于块划分技术来避免这些不相关比较。它只选取少量具有潜在匹配可能性的记录对进行精确比较,这将大大减少比较的开销。传统的技术方案采用单一的分块函数用于比较两条记录之间的相似性。例如,令f代表相似性函数,τ代表阈值参数,当两条记录之间的相似性大于τ时,则为它们赋予相同的键值,认为它们是候选的匹配元组。而当采用多个分块函数时,则将进一步提升实体匹配的有效性。例如,令f1,...,fk代表k个不同的分块函数,τ1,...,τk代表k个阈值参数,当任一函数判定成功时(即:利用fi函数判断的相似度高于τi),则认为这两个元组候选的匹配元组。易知,使用多个相似性函数能够显著提升实体匹配的有效性。精确比较一直是较为耗时的过程,执行一次具体的实体匹配任务往往需要耗费几个小时甚至几十天。与此同时,现有的MapReduce框架可以并行地利用成千上万台机器同时执行程序,进而提升整体运行效率。目前,已经有越来越多的基于MapReduce框架的应用来加速处理过程。
图7显示的是MapReduce框架中数据的处理流程的示意图。数据元组以块(通常默认大小:64MB)为单位存放在分布式文件系统中(HDFS,Hadoop Distributed FileSystem)。Map任务从分布式文件系统中逐条读入该数据元组。一般方式下,Map任务会优先读取当前所在节点中存储的数据元组,避免从其他节点读入数据元组造成不必要的数据传输。根据指定的Map函数,每个Map任务开始处理每条数据元组,对于每条数据元组生成一条(Key,Value)键值对。随后,Reduce函数会自动将输入的信息根据Key进行Shuffle(混洗)处理,将节点中具有相同Key的数据元组的(Key,Value)键值对进一步合并成(Key,(Value1,Value2,…))的形式,进一步作为Reduce函数的输入。Reduce函数将对输入的(Key,(Value1,Value2,…))数据作进一步整合,输出合并后的结果分配到分布式文件系统的各个节点上。
然而,基于MapReduce框架的应用直接扩展到该实体匹配框架中存在两大固有缺陷:负载不均衡和重复记录对比较。负载不均衡是指分布式文件系统中每个节点的任务负荷不一致,导致有些节点完成较早而有些节点完成较晚。重复记录对比较是指相同的记录对会在不同节点上多次比较,其发生原因在于同一对元组有可能被多个相似性函数认定为是候选的匹配元组。这两个方面的问题将大大耗费现有的分布式文件系统的资源,降低整体性能。
为了克服现有技术中负载不均衡和重复记录对比较的缺陷,本发明提出了一种基于分布式架构的实体匹配方法。
发明内容
本发明提出了一种基于分布式架构的实体匹配方法,该方法是对分布式文件系统中相似数据元组进行匹配的方法,依次包括如下步骤:
块生成步骤,对于每个数据元组生成至少一个关键词,将具有相同关键词的数据元组合并为一个块;
接口实现步骤,包括下述子步骤:a.将包含过多数据元组的块进行分割,得到多个子块;b.对于每个块或者子块生成至少一个数字签名sig,计算所述至少一个数字签名sig的每个数字签名sig的Tightness Index值;
实体匹配步骤,其包括下述子步骤:a.将包含过多数据元组的块进行分割,得到多个子块;b.对于每个块或者子块生成至少一个数字签名sig,并在每个所述块或者子块中根据每个所述数字签名sig的Tightness Index值选取其中一个所述数字签名sig作为所述每个块或者子块的Key值;c.对具有相同Key值的所述块或者子块中的数据元组进行两两实体匹配,输出匹配结果,并以集合保存已匹配的数据元组避免相同记录对重复比较。
本发明提出的基于分布式架构的实体匹配方法中,所述接口实现步骤中分割所述块的方法包括如下步骤:
步骤A1:设定块中包含最大数据元组数的阈值;
步骤A2:选取一个块,当块所含数据元组数大于阈值时,则判定其包含过多数据元组;否则进行步骤A4;
步骤A3:对包含过多数据元组的块进行分割,得到多个子块;
步骤A4:重新进行步骤A2选取下一个块进行分割,直至对所有块完成分割为止。
本发明提出的基于分布式架构的实体匹配方法中,步骤A3分割成子块的方法包括如下步骤:
步骤A31:对包含过多数据元组的块进行均匀分割,得到多个自交子块;所述自交子块所含数据元组数量不超过阈值;
步骤A32:将所述自交子块交叉合并,生成交叉子块;所述交叉子块所含数据元组数量不超过阈值的两倍。
本发明提出的基于分布式架构的实体匹配方法中,所述数字签名sig是由块或者子块基于哈希函数计算生成的。
本发明提出的基于分布式架构的实体匹配方法中,所述接口实现步骤中生成Tightness Index值的方法包括如下步骤:
步骤B1:在Map阶段,对于每一个数据块b,会输出h个键值对(sig1(b),b),...,(sigh(b),b)。通过MapReduce框架的混洗过程合并相同的数字签名sig,在Reduce阶段得到输入的键值对(sig,(b1,b2,...));
步骤B2:对于Reduce中获得的一个键值对(sig,(b1,b2,...)),计算所述数字签名sig下所有不同的数据元组的总数,记作n;
步骤B3:计算具有相同所述数字签名sig的所有块所包含数据元组的总数,记作m;
步骤B4:计算所述数字签名sig的Tightness Index值,Tightness Index=n/m;
步骤B5:重新进行步骤B2选取下一个数字签名sig并计算其Tightness Index值,直至完成计算所有Tightness Index值为止。
本发明提出的基于分布式架构的实体匹配方法中,实体匹配步骤中选取Tightness Index值最小的数字签名sig作为所述块或者子块的Key值。
本发明提出的基于分布式架构的实体匹配方法中,实体匹配步骤中匹配数据元组的方法包括如下步骤:
步骤D1:将所述块或者子块中所包含的数据元组配对,生成待比较的记录对,所述记录对包括两个数据元组;
步骤D2:建立集合,用于保存已比较的记录对;
步骤D3:选取一个记录对,若所述记录对不存在于所述集合中则继续,否则进行步骤D6;
步骤D4:设定相似度阈值,计算所述记录对中链各个数据元组的相似度值;若所述相似度值大于所述相似度阈值,则将所述记录对记为匹配结果;步骤D5:将所述记录对存入所述集合中;
步骤D6:选取下一个记录对进行匹配,直至所有记录对完成匹配为止,输出匹配结果。
本发明的有益效果包括:对包含过多数据元组的大块进行分割,均衡每个节点的块所含数据元组的个数,从而实现分布式文件系统中各节点的负载均衡;引入TightnessIndex值表征块之间的相关程度,将相关的块引入同一节点中进行匹配,从而避免了相同的记录对在不同节点中进行重复比较,并且在同一节点中引入集合用以保存已比较的记录对,避免单一节点内记录对的重复比较,从而整体优化了分布式文件系统的工作性能。本发明将负载均衡解决方案和重复记录对比较解决方案有机结合,同时有效地解决负载不均衡与重复记录对比较的问题。
附图说明
图1是本发明基于分布式架构的实体匹配方法的总体流程图。
图2是块生成步骤中数据处理的流程图。
图3是接口实现步骤的流程图。
图4是接口实现步骤中数据处理的流程图。
图5是实体匹配步骤的流程图。
图6是实体匹配过程中数据处理的流程图。
图7是背景技术MapReduce框架中数据处理流程的示意图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
图1显示的本发明基于分布式架构的实体匹配方法的总体流程图。本发明包含块生成步骤、接口实现步骤和实体匹配步骤三个步骤。三个步骤的功能描述如下:
本发明实体匹配方法是基于块划分的实体匹配技术,因此步骤S1块生成步骤是接口实现步骤与实体匹配步骤的基础,它主要完成将分布式文件系统中的数据元组划分到一起形成各个块的过程。
步骤S2接口实现步骤主要针对于解决分布式架构上的两大问题:负载不均衡和重复记录对比较。接口实现步骤先按块的大小对大块进行分割从而整体上解决负载不均衡的问题,并且为实体匹配步骤引入Tightness Index值,通过MapReduce提供的分布式缓存技术,可以将接口实现步骤生成的统计资料缓存到每个Map任务中,为实体匹配步骤中避免重复记录对比较提供重要信息,从而提高实体匹配步骤的运行效率。
步骤S3实体匹配步骤则是最为耗时的,实体匹配步骤利用缓存的统计资料运用至实体匹配过程中,为每一个块选择合适的sig值,从而确保相同的数据元组可以以较大概率进入到同一个节点中,进而利用集合从待比较的记录对中快速识别出已经比较的记录对。故实体匹配步骤只对未比较的记录对进行相似度计算,克服了重复记录对比较的缺陷。
本发明是基于上述构思提出的,关于上述步骤的具体实施过程作如下描述:
图2显示的是块生成步骤的流程图。本实例中给定了一个数据集合,该数据集合包含9条数据元组,每条数据元组包含其在该数据集合Data Set中的ID值,该ID值表示该数据元组在数据集合Data Set中的序号(rID,record ID),以及该数据元组所包含的数据内容(Content)。本实施例中的数据集合中前6条数据元组所包含的数据内容代表的是MartinLuther King,美国著名的民权运动领袖人物,而后3条数据元组所包含的数据内容代表了Mark Twain,美国著名的作家。
在该实例中采用了基于前缀划分和基于后缀划分生成两种不同的关键词,从而形成两种不同的块生成方法。例如:t1的数据元组“Martin Luther King”通过前缀分割,得到由前缀字符串关键词“Ma”组成的Key为“F·Ma”,其中F表示前缀分割First。同样基于后缀分割后,得到由后缀字符串关键词“ng”组成的Key为“L·ng”,其中L表示后缀分割Last。
当对上述所有数据元组进行分割后,通过MapReduce自身提供的混洗处理对所有关键词进行排序及合并,将具有相同Key的数据元组合并在一组中形成一个快。例如,将key“F·Ma”把数据元组t1,t2,t3,t4,t5,t8聚集在一个块中,生成块b1{t1,t2,t3,t4,t5,t8};按照key“L·ng”把数据元组t1,t3,t4,t5,t6,t7聚集在一个块中,得到块b2{t1,t3,t4,t5,t6,t7},同理得到块b3与块b4。块生成步骤所得到的块结果将被用于接口实现步骤与实体匹配步骤中。
图3显示的接口实现步骤的流程图。其中主要包括两个子步骤,a.将包含过多数据元组的块进行分割,得到多个子块;b.对于每个块或者子块生成至少一个数字签名sig,计算每个数字签名sig的Tightness Index值。
首先获取当前所处理的块所包含的数据元组的总数,Map函数判断其总数是否超过设定的阈值MAXBS参数。若大于该MAXBS参数,则认为该块包含过多的数据元组(以下简称为大块),大块是将会影响后续处理效率的负载任务。从而先对大块进行分割生成多个自交子块,;自交子块所含数据元组数量不超过MAXBS参数,再对自交子块进行交叉合并,生成交叉子块,生成的交叉子块所含数据元组数量不超过MAXBS参数的两倍。参阅图4,由于设定MAXBS参数等于3,Map函数判断b1和b2为大块,从而将他们分别分成2个自交子块和1个交叉子块。其中,b1的自交子块为:{t1,t2,t3}和{t4,t5,t8},交叉子块为{t1,t2,t3;t4,t5,t8}。分割完成后,根据指定的哈希函数对每一个块或者子块生成至少一个数字签名sig并输出(Sig,Value)对。每一个块或者子块所生成数字签名sig的数量根据指定的哈希函数数量而定。本实例中指定两个哈希函数H1:(x-1)mod 9与H2:(9-x)mod 9,其中x表示该数据元组的ID。经过哈希函数作用后,根据新得到的哈希值对块中所有的数据元组进行排序。排序后取前K个数据元组的ID号作为sig值,在本实例中,K值取1。以块3为例,包含{t6,t7,t9}这三个数据元组,根据哈希函数H1作用于块3得到的排序结果为:{t6,t7,t9},根据哈希函数H2作用于块3得到的排序结果为:{t9,t7,t6}。因此产生两个sig值,分别为6和9。而最终的sig值记为H1·6与H2·9,其中H1用来代表其来自于哈希函数H1,H2用来代表其来自于哈希函数H2。
Reduce函数根据数字签名sig对所有(Sig,Value)对进行排序和合并(即,混洗处理),合并后从中选取第一个数字签名sig由Reduce函数计算出当前sig下的TightnessIndex值(TI),直至计算所有数字签名sig的TI值后输出所有(Key,TI)对形成TI表(TiTable),其中Key的内容为数字签名sig,TI值为该key的value。本实例中以sig:H1·1为例作进一步详细说明。如图4所示,H1·1将四个块(或子块)合并到了一起,它们分别是:{t1,t2,t3},{t1,t2,t3;t4,t5,t8},{t1,t3,t4},{t1,t3,t4;t5,t6,t7}。进而可以发现一共包含的不同数据元组为t1,t2,t3,t4,t5,t6,t7,t8,总个数为8(即,n=8);而所有块包含的数据元组个数之和为3+6+3+6=18(即,m=18)。从而H1·1的sig值为n/m=4/9。
以上是关于接口实现步骤的具体实施过程,在分布式文件系统中可通过以下方法1中的相关代码实现,方法1的代码如下所示:
接口实现步骤中获得的TI值表征了该块或子块中数据元组的相关程度,数据元组越相关TI值越小,TI表在实体匹配步骤中成为重要的参考因素。
图5显示的实体匹配步骤的流程图。实体匹配步骤包括下述子步骤:a.将包含过多数据元组的块进行分割,得到多个子块;b.对于每个块或者子块生成至少一个数字签名sig,并在每个块或者子块中根据每个数字签名sig的Tightness Index值选取其中一个数字签名sig作为每个块或者子块的Key值;c.对具有相同sig值的块或者子块中的数据元组进行匹配,输出匹配结果,并以集合保存已匹配的数据元组。
参阅图6,在上述接口实现步骤中生成的TI表由MapReduce提供的分布式缓存机制导入到各个Map节点内存中。由于接口实现步骤中的TI值是基于分割后的块或子块生成的,故实体匹配步骤与接口实现步骤相同也需要对块生成步骤得到的块进行分割操作将大块b1与b2分割成若干个自交子块和交叉子块,使得TI表在实体匹配步骤中具有意义。
分割完成后,选取该块或者子块下的具有最小TI值的数字签名sig作为该该块或者子块的Key,通过Map函数输出该块或者子块的(Sig,Value)对,其中Value为该块或者子块中所含的记录(数据元组)。TI值用于表征数字签名的相关程度,TI值越小的数字签名表示该块中与该数字签名的相关程度越高,与该数字签名相关的数据元组更相似,因此以TI值最小的数字签名作为该块的Key值并合并,能将最相关的数据元组分配到同一节点中进行下一步匹配,能够降低多个节点之间重复比较的概率。
Reduce函数将所有(Key,Value)对按sig进行排序和合并(即,混洗处理)后,具有相同sig值的块或者子块聚集在一起。依次遍历每一个块构建该块中所有待比较的记录对Pair,每一个记录对Pair包含两个记录(即,数据元组),然后在每个节点内构建集合Set用以记录已经比较的记录对从而避免单个节点内记录对的重复比较。
进行比较时先选取一个记录对,如果该记录对未存在于集合Set中则精确比较该记录对中两个记录;否则认定该记录对是已经比较的记录对,将跳过该记录对并选取下一个记录对进行比较。
精确比较记录对的过程中,若计算后得到两个记录的相似度大于指定的阈值则判定这两个记录相互匹配,并输出该记录对作为本发明实体匹配的结果之一;否则不输出任何信息。然后将该记录对存入集合Set中,选取下一个记录对进行比较。当完成该块中的所有记录对的比较时,选取下一个块比较该块中所有记录对,直至完成所有块的比较后得到本发明匹配方法的结果。
例如,图6中显示的Reduce函数的输入中,Key为H1·1的子块{t1,t2,t3}的待比较的记录对为{t1,t2}、{t1,t3}与{t2,t3},Key为H1·1的子块{t1,t3,t4}的待比较的记录对为{t1,t3}、{t1,t4}与{t3,t4}。在本例中,相似度函数为编辑距离相似度函数,阀值设定为0.8,因此记录对{t1,t3}的相似度值为0.94,高于阀值0.8,故认定该记录对为匹配记录对输出。在子块{t1,t2,t3}完成记录对比较时,集合Set中包含的已比较记录对为{t1,t2}、{t1,t3}与{t2,t3},当子块{t1,t3,t4}进行记录对比较时,记录对{t1,t3}已存在于集合Set中,故记录对{t1,t3}可跳过比较,从而避免了重复记录对比较。
以上是关于实体匹配步骤的具体实施过程,在分布式文件系统中可通过以下方法2中的相关代码实现,方法2的代码如下所示:
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。
Claims (5)
1.一种基于分布式架构的实体匹配方法,该方法是对分布式文件系统中相似数据元组进行匹配的方法,其特征在于,依次包括如下步骤:
块生成步骤,采用多个块生成函数对于每个数据元组生成至少一个关键词,将具有相同关键词的数据元组合并为一个块;
接口实现步骤,包括下述子步骤:
a.设定块中包含最大数据元组数的阈值,当块所含数据元组数大于阈值时对其进行均匀分割,得到多个所含数据元组数量不超过阈值的自交子块,将所述自交子块交叉合并,生成所含数据元组数量不超过阈值的两倍的交叉子块,直至分割所有块为止;
b.对于每个块或者子块生成至少一个数字签名sig,计算所述至少一个数字签名sig的每个数字签名sig的Tightness Index值;
实体匹配步骤,其包括下述子步骤:
a.根据每个所述数字签名sig的Tightness Index值选取其中一个所述数字签名sig作为所述每个块、自交子块或者交叉子块的Key值;
b.对具有相同Key值的所述块、自交子块或者交叉子块中的数据元组进行两两匹配,输出匹配结果,并采用集合保存已匹配的数据元组以避免相同记录对重复比较。
2.如权利要求1所述的基于分布式架构的实体匹配方法,其特征在于,所述数字签名sig是由块或者子块基于哈希函数计算生成的。
3.如权利要求1所述的基于分布式架构的实体匹配方法,其特征在于,所述接口实现步骤中生成Tightness Index值的方法包括如下步骤:
步骤B1:对于每一个数据块b,会输出h个键值对(sig1(b),b),...,(sigh(b),b),通过MapReduce框架的混洗过程合并相同的数字签名sig,在Reduce阶段得到输入的键值对(sig,(b1,b2,...));
步骤B2:对于Reduce中获得的一个键值对(sig,(b1,b2,...)),计算所述数字签名sig下所有不同的数据元组的总数,记作n;
步骤B3:计算具有相同所述数字签名sig的所有块所包含数据元组的总数,记作m;
步骤B4:计算所述数字签名sig的Tightness Index值,Tightness Index=n/m;
步骤B5:重新进行步骤B2选取下一个数字签名sig并计算其Tightness Index值,直至完成计算所有Tightness Index值为止。
4.如权利要求1所述的基于分布式架构的实体匹配方法,其特征在于,实体匹配步骤中选取Tightness Index值最小的数字签名sig作为所述块或者子块的Key值。
5.如权利要求1所述的基于分布式架构的实体匹配方法,其特征在于,实体匹配步骤中匹配数据元组的方法包括如下步骤:
步骤D1:将所述块或者子块中所包含的数据元组配对,生成至少一对记录对,所述记录对包括两个数据元组;
步骤D2:建立集合,用于保存已比较的记录对;
步骤D3:选取一个记录对,若所述记录对不存在于所述集合中则继续,否则进行步骤D6;
步骤D4:设定相似度阈值,计算所述记录对的相似度值;若所述相似度值大于所述相似度阈值,则将所述记录对记为匹配结果;
步骤D5:将所述记录对存入所述集合中;
步骤D6:选取下一个记录对进行匹配,直至所有记录对完成匹配为止,输出匹配结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410025006.4A CN103761298B (zh) | 2014-01-20 | 2014-01-20 | 一种基于分布式架构的实体匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410025006.4A CN103761298B (zh) | 2014-01-20 | 2014-01-20 | 一种基于分布式架构的实体匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103761298A CN103761298A (zh) | 2014-04-30 |
CN103761298B true CN103761298B (zh) | 2017-04-19 |
Family
ID=50528535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410025006.4A Expired - Fee Related CN103761298B (zh) | 2014-01-20 | 2014-01-20 | 一种基于分布式架构的实体匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103761298B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326217A (zh) * | 2015-06-15 | 2017-01-11 | 华东师范大学 | 一种基于随机算法的分布式实体匹配方法 |
CN108183802B (zh) * | 2018-01-11 | 2020-06-19 | 深圳市沃特沃德股份有限公司 | 数字签名生成方法和装置 |
CN112632105B (zh) * | 2020-01-17 | 2021-09-10 | 华东师范大学 | 大规模事务负载生成与数据库隔离级别正确性验证系统及方法 |
US20230214360A1 (en) * | 2022-01-05 | 2023-07-06 | Jpmorgan Chase Bank, N.A. | Method and system for facilitating distributed entity resolution |
CN114595167A (zh) * | 2022-02-15 | 2022-06-07 | 阿里巴巴(中国)有限公司 | 分布式缓存系统、方法以及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101764835A (zh) * | 2008-12-25 | 2010-06-30 | 华为技术有限公司 | 基于MapReduce编程架构的任务分配方法及装置 |
KR101255060B1 (ko) * | 2012-07-16 | 2013-04-16 | 한국과학기술정보연구원 | 맵리듀스 기반 분산 병렬 개체 추출 시스템 및 방법 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080133474A1 (en) * | 2006-11-30 | 2008-06-05 | Yahoo! Inc. | Bioinformatics computation using a maprreduce-configured computing system |
-
2014
- 2014-01-20 CN CN201410025006.4A patent/CN103761298B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101764835A (zh) * | 2008-12-25 | 2010-06-30 | 华为技术有限公司 | 基于MapReduce编程架构的任务分配方法及装置 |
KR101255060B1 (ko) * | 2012-07-16 | 2013-04-16 | 한국과학기술정보연구원 | 맵리듀스 기반 분산 병렬 개체 추출 시스템 및 방법 |
Non-Patent Citations (1)
Title |
---|
Load Balancing for MapReduce-based Entity Resolution;Lars Kolb等;《Proc.28th Intl.Conference on Data Engineering(ICDE),2012》;20120430;第1页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103761298A (zh) | 2014-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rong et al. | Fast and scalable distributed set similarity joins for big data analytics | |
CN103970722B (zh) | 一种文本内容去重的方法 | |
US10496624B2 (en) | Index key generating device, index key generating method, and search method | |
CN103761298B (zh) | 一种基于分布式架构的实体匹配方法 | |
CN103810224B (zh) | 信息持久化和查询方法及装置 | |
US9934324B2 (en) | Index structure to accelerate graph traversal | |
US20140344195A1 (en) | System and method for machine learning and classifying data | |
WO2016078592A1 (zh) | 批量数据查询方法和装置 | |
CN110222029A (zh) | 一种大数据多维分析计算效率提升方法及系统 | |
US11288266B2 (en) | Candidate projection enumeration based query response generation | |
CN103440246A (zh) | 用于MapReduce的中间结果数据排序方法及系统 | |
Goyal et al. | Cross platform (RDBMS to NoSQL) database validation tool using bloom filter | |
CN114511330B (zh) | 一种基于改进的cnn-rf的以太坊庞氏骗局检测方法及系统 | |
Du et al. | Research on decision tree algorithm based on information entropy | |
Yang et al. | Parallel co-location pattern mining based on neighbor-dependency partition and column calculation | |
CN113220820B (zh) | 基于图的高效sparql查询应答方法、装置和设备 | |
CN107506394B (zh) | 一种消除大数据规范关系连接冗余的优化方法 | |
Abu-Soud | A novel approach for dealing with missing values in machine learning datasets with discrete values | |
Slavov et al. | Fast processing of SPARQL queries on RDF quadruples | |
US20230091018A1 (en) | Implementing superset-guaranteeing expressions in query execution | |
CN104572880B (zh) | 基于用户的协同过滤的并行实现方法及系统 | |
CN112579831B (zh) | 基于SimRank全局矩阵平滑收敛的网络社区发现方法、装置及存储介质 | |
US10469257B2 (en) | Matrix and key generation device, matrix and key generation system, matrix coupling device, matrix and key generation method, and program | |
Du et al. | A novel knn join algorithms based on hilbert r-tree in mapreduce | |
CN108121807A (zh) | Hadoop环境下多维索引结构OBF-Index的实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170419 |
|
CF01 | Termination of patent right due to non-payment of annual fee |