CN103761298A - 一种基于分布式架构的实体匹配方法 - Google Patents

一种基于分布式架构的实体匹配方法 Download PDF

Info

Publication number
CN103761298A
CN103761298A CN201410025006.4A CN201410025006A CN103761298A CN 103761298 A CN103761298 A CN 103761298A CN 201410025006 A CN201410025006 A CN 201410025006A CN 103761298 A CN103761298 A CN 103761298A
Authority
CN
China
Prior art keywords
sub
block
piece
data tuple
digital signature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410025006.4A
Other languages
English (en)
Other versions
CN103761298B (zh
Inventor
陈杰
金澈清
周傲英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201410025006.4A priority Critical patent/CN103761298B/zh
Publication of CN103761298A publication Critical patent/CN103761298A/zh
Application granted granted Critical
Publication of CN103761298B publication Critical patent/CN103761298B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Abstract

本发明公开了一种基于分布式架构的实体匹配方法,依次包括如下步骤:块生成步骤,对于每个数据元组生成若干个关键词,合并具有相同关键词的数据元组得到若干个块;接口实现步骤,将包含过多数据元组的块分割成多个子块,对于每个块或者子块生成至少一个数字签名sig并计算数字签名sig的Tightness Index值;实体匹配步骤,将包含过多数据元组的块分割成多个子块,选取块或者子块具有Tightness Index值最小的sig作为其Key值,随后构建两两待比较记录对进行实体匹配并采用集合记录已匹配的记录对。本发明适用于分布式文件系统,可均衡多个节点的负载,并可避免重复比较记录对,提高分布式文件系统整体的运行性能。

Description

一种基于分布式架构的实体匹配方法
技术领域
本发明属于数据库技术领域,尤其涉及基于分布式架构的实体匹配技术。
背景技术
实体匹配技术旨在发现来自同一个实体的相互匹配的记录。例如,给定一堆来自不同数据源的文献集合,实体匹配技术可以用来发现来自同一篇文献的若干条匹配记录;给定一堆指纹记录集合,判断来自于同一个人的指纹记录等。该项技术被广泛应用在数据清洗、数据集成等各个领域中,一直受到颇多关注。
由于实体匹配技术需要进行O(n2)次两两比较,并且很多的比较都是不相关记录之间的无意义比较,可以用基于块划分技术来避免这些不相关比较。它只选取少量具有潜在匹配可能性的记录对进行精确比较,这将大大减少比较的开销。然而,精确比较一直是较为耗时的过程,执行一次具体的实体匹配任务往往需要耗费几个小时甚至几十天。与此同时,现有的MapReduce框架可以并行地利用成千上万台机器同时执行程序,进而提升整体运行效率。目前,已经有越来越多的基于MapReduce框架的应用来加速处理过程。
图7显示的是MapReduce框架中数据的处理流程的示意图。数据元组以块(通常默认大小:64MB)为单位存放在分布式文件系统中(HDFS,Hadoop Distributed File System)。Map任务从分布式文件系统中逐条读入该数据元组。一般方式下,Map任务会优先读取当前所在节点中存储的数据元组,避免从其他节点读入数据元组造成不必要的数据传输。根据指定的Map函数,每个Map任务开始处理每条数据元组,对于每条数据元组生成一条(Key,Value)键值对。随后,Reduce函数会自动将输入的信息根据Key进行Shuffle处理,将节点中具有相同Key的数据元组的(Key,Value)键值对进一步合并成(Key,(Value1,Value2,...))的形式,进一步作为Reduce函数的输入。Reduce函数将对输入的(Key,(Value1,Value2,...))数据作进一步整合,输出合并后的结果分配到分布式文件系统的各个节点上。
然而,基于MapReduce框架的应用直接扩展到该实体匹配框架中存在两大固有缺陷:负载不均衡和重复记录对比较。负载不均衡是指分布式文件系统中每个节点的任务负荷不一致,导致有些节点完成较早而有些节点完成较晚。重复记录对比较是指相同的记录对会在不同节点上多次比较。这两个方面的问题将大大耗费现有的分布式文件系统的资源,降低整体性能。
为了克服现有技术中负载不均衡和重复记录对比较的缺陷,本发明提出了一种基于分布式架构的实体匹配方法。
发明内容
本发明提出了一种基于分布式架构的实体匹配方法,该方法是对分布式文件系统中相似数据元组进行匹配的方法,依次包括如下步骤:
块生成步骤,对于每个数据元组生成至少一个关键词,将具有相同关键词的数据元组合并为一个块;
接口实现步骤,包括下述子步骤:a.将包含过多数据元组的块进行分割,得到多个子块;b.对于每个块或者子块生成至少一个数字签名sig,计算所述至少一个数字签名sig的每个数字签名sig的Tightness Index值;
实体匹配步骤,其包括下述子步骤:a.将包含过多数据元组的块进行分割,得到多个子块;b.对于每个块或者子块生成至少一个数字签名sig,并在每个所述块或者子块中根据每个所述数字签名sig的Tightness Index值选取其中一个所述数字签名sig作为所述每个块或者子块的Key值;c.对具有相同Key值的所述块或者子块中的数据元组进行两两实体匹配,输出匹配结果,并以集合保存已匹配的数据元组避免相同记录对重复比较。
本发明提出的基于分布式架构的实体匹配方法中,所述接口实现步骤中分割所述块的方法包括如下步骤:
步骤A1:设定块中包含最大数据元组数的阈值;
步骤A2:选取一个块,当块所含数据元组数大于阈值时,则判定其包含过多数据元组;否则进行步骤A4;
步骤A3:对包含过多数据元组的块进行分割,得到多个子块;
步骤A4:重新进行步骤A2选取下一个块进行分割,直至对所有块完成分割为止。
本发明提出的基于分布式架构的实体匹配方法中,步骤A3分割成子块的方法包括如下步骤:
步骤A31:对包含过多数据元组的块进行均匀分割,得到多个自交子块;所述自交子块所含数据元组数量不超过阈值;
步骤A32:将所述自交子块交叉合并,生成交叉子块;所述交叉子块所含数据元组数量不超过阈值的两倍。
本发明提出的基于分布式架构的实体匹配方法中,所述数字签名sig是由块或者子块基于哈希函数计算生成的。
本发明提出的基于分布式架构的实体匹配方法中,所述接口实现步骤中生成TightnessIndex值的方法包括如下步骤:
步骤B1:对所有所述数字签名sig进行排序,并合并相同的数字签名sig;
步骤B2:对于一个所述数字签名sig,计算所述数字签名sig下所有不同的数据元组的总数,记作n;
步骤B3:计算具有相同所述数字签名sig的所有块所包含数据元组的总数,记作m;
步骤B4:计算所述数字签名sig的Tightness Index值,Tightness Index=n/m;
步骤B5:重新进行步骤B2选取下一个数字签名sig并计算其Tightness Index值,直至完成计算所有Tightness Index值为止。
本发明提出的基于分布式架构的实体匹配方法中,实体匹配步骤中选取Tightness Index值最小的数字签名sig作为所述块或者子块的Key值。
本发明提出的基于分布式架构的实体匹配方法中,实体匹配步骤中匹配数据元组的方法包括如下步骤:
步骤D1:将所述块或者子块中所包含的数据元组配对,生成待比较的记录对,所述记录对包括两个数据元组;
步骤D2:建立集合,用于保存已比较的记录对;
步骤D3:选取一个记录对,若所述记录对不存在于所述集合中则继续,否则进行步骤D6;
步骤D4:设定相似度阈值,计算所述记录对中链各个数据元组的相似度值;若所述相似度值大于所述相似度阈值,则将所述记录对记为匹配结果;步骤D5:将所述记录对存入所述集合中;
步骤D6:选取下一个记录对进行匹配,直至所有记录对完成匹配为止,输出匹配结果。
本发明的有益效果包括:对包含过多数据元组的大块进行分割,均衡每个节点的块所含数据元组的个数,从而实现分布式文件系统中各节点的负载均衡;引入Tightness Index值表征块之间的相关程度,将相关的块引入同一节点中进行匹配,从而避免了相同的记录对在不同节点中进行重复比较,并且在同一节点中引入集合用以保存已比较的记录对,避免单一节点内记录对的重复比较,从而整体优化了分布式文件系统的工作性能。本发明将负载均衡解决方案和重复记录对比较解决方案有机结合,同时有效地解决负载不均衡与重复记录对比较的问题。
附图说明
图1是本发明基于分布式架构的实体匹配方法的总体流程图。
图2是块生成步骤中数据处理的流程图。
图3是接口实现步骤的流程图。
图4是接口实现步骤中数据处理的流程图。
图5是实体匹配步骤的流程图。
图6是实体匹配过程中数据处理的流程图。
图7是背景技术MapReduce框架中数据处理流程的示意图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
图1显示的本发明基于分布式架构的实体匹配方法的总体流程图。本发明包含块生成步骤、接口实现步骤和实体匹配步骤三个步骤。三个步骤的功能描述如下:
本发明实体匹配方法是基于块划分的实体匹配技术,因此步骤S1块生成步骤是接口实现步骤与实体匹配步骤的基础,它主要完成将分布式文件系统中的数据元组划分到一起形成各个块的过程。
步骤S2接口实现步骤主要针对于解决分布式架构上的两大问题:负载不均衡和重复记录对比较。接口实现步骤先按块的大小对大块进行分割从而整体上解决负载不均衡的问题,并且为实体匹配步骤引入Tightness Index值,通过MapReduce提供的分布式缓存技术,可以将接口实现步骤生成的统计资料缓存到每个Map任务中,为实体匹配步骤中避免重复记录对比较提供重要信息,从而提高实体匹配步骤的运行效率。
步骤S3实体匹配步骤则是最为耗时的,实体匹配步骤利用缓存的统计资料运用至实体匹配过程中,为每一个块选择合适的sig值,从而确保相同的数据元组可以以较大概率进入到同一个节点中,进而利用集合从待比较的记录对中快速识别出已经比较的记录对。故实体匹配步骤只对未比较的记录对进行相似度计算,克服了重复记录对比较的缺陷。
本发明是基于上述构思提出的,关于上述步骤的具体实施过程作如下描述:
图2显示的是块生成步骤的流程图。本实例中给定了一个数据集合,该数据集合包含9条数据元组,每条数据元组包含其在该数据集合Data Set中的ID值,该ID值表示该数据元组在数据集合Data Set中的序号(rID,record ID),以及该数据元组所包含的数据内容(Content)。本实施例中的数据集合中前6条数据元组所包含的数据内容代表的是MartinLuther King,美国著名的民权运动领袖人物,而后3条数据元组所包含的数据内容代表了MarkTwain,美国著名的作家。
由于数据元组存在噪声和错误,因此往往采用多个块生成函数,而不是仅仅采用一个块生成函数。这样的好处是,更多匹配的数据元组将会被放入到候选的块中,提高算法的精确性。在该实例中采用了基于前缀划分和基于后缀划分生成两种不同的关键词,从而形成两种不同的块生成方法。例如:t1的数据元组“Martin Luther King”通过前缀分割,得到由前缀字符串关键词“Ma”组成的Key为“F·Ma”,其中F表示前缀分割First。同样基于后缀分割后,得到由后缀字符串关键词“ng”组成的Key为“L·ng”,其中L表示后缀分割Last。
当对上述所有数据元组进行分割后,通过MapReduce自身提供的shuffle处理对所有关键词进行排序及合并,将具有相同Key的数据元组合并在一组中形成一个快。例如,将key“F·Ma”把数据元组t1,t2,t3,t4,t5,t8聚集在一个块中,生成块b1{t1,t2,t3,t4,t5,t8};按照key“L·ng”把数据元组t1,t3,t4,t5,t6,t7聚集在一个块中,得到块b2{t1,t3,t4,t5,t6,t7},同理得到块b3与块b4。块生成步骤所得到的块结果将被用于接口实现步骤与实体匹配步骤中。
图3显示的接口实现步骤的流程图。其中主要包括两个子步骤,a.将包含过多数据元组的块进行分割,得到多个子块;b.对于每个块或者子块生成至少一个数字签名sig,计算每个数字签名sig的Tightness Index值。
首先获取当前所处理的块所包含的数据元组的总数,Map函数判断其总数是否超过设定的阈值MAXBS参数。若大于该MAXBS参数,则认为该块包含过多的数据元组(以下简称为大块),大块是将会影响后续处理效率的负载任务。从而先对大块进行分割生成多个自交子块,;自交子块所含数据元组数量不超过MAXBS参数,再对自交子块进行交叉合并,生成交叉子块,生成的交叉子块所含数据元组数量不超过MAXBS参数的两倍。参阅图4,由于设定MAXBS参数等于3,Map函数判断b1和b2为大块,从而将他们分别分成2个自交子块和1个交叉子块。其中,b1的自交子块为:{t1,t2,t3}和{t4,t5,t8},交叉子块为{t1,t2,t3;t4,t5,t8}。分割完成后,根据指定的哈希函数对每一个块或者子块生成至少一个数字签名sig并输出(Sig,Value)对。每一个块或者子块所生成数字签名sig的数量根据指定的哈希函数数量而定。本实例中指定两个哈希函数H1:(x-1)mod9与H2:(9-x)mod9,其中x表示该数据元组的ID。经过哈希函数作用后,根据新得到的哈希值对块中所有的数据元组进行排序。排序后取前K个数据元组的ID号作为sig值,在本实例中,K值取1。以块3为例,包含{t6,t7,t9}这三个数据元组,根据哈希函数H1作用于块3得到的排序结果为:{t6,t7,t9},根据哈希函数H2作用于块3得到的排序结果为:{t9,t7,t6}。因此产生两个sig值,分别为6和9。而最终的sig值记为H1·6与H2·9,其中H1用来代表其来自于哈希函数H1,H2用来代表其来自于哈希函数H2
Reduce函数根据数字签名sig对所有(Sig,Value)对进行排序和合并(即,shuffle处理),合并后从中选取第一个数字签名sig由Reduce函数计算出当前sig下的Tightness Index值(TI),直至计算所有数字签名sig的TI值后输出所有(Key,TI)对形成TI表(TiTable),其中Key的内容为数字签名sig,TI值为该key的value。本实例中以sig:H1·1为例作进一步详细说明。如图4所示,H1·1将四个块(或子块)合并到了一起,它们分别是:{t1,t2,t3},{t1,t2,t3;t4,t5,t8},{t1,t3,t4},{t1,t3,t4;t5,t6,t7}。进而可以发现一共包含的不同数据元组为t1,t2,t3,t4,t5,t6,t7,t8,总个数为8(即,n=8);而所有块包含的数据元组个数之和为3+6+3+6=18(即,m=18)。从而H1·1的sig值为n/m=4/9。
以上是关于接口实现步骤的具体实施过程,在分布式文件系统中可通过以下方法1中的相关代码实现,方法1的代码如下所示:
Figure BDA0000459015750000061
接口实现步骤中获得的TI值表征了该块或子块中数据元组的相关程度,数据元组越相关TI值越小,TI表在实体匹配步骤中成为重要的参考因素。
图5显示的实体匹配步骤的流程图。实体匹配步骤包括下述子步骤:a.将包含过多数据元组的块进行分割,得到多个子块;b.对于每个块或者子块生成至少一个数字签名sig,并在每个块或者子块中根据每个数字签名sig的Tightness Index值选取其中一个数字签名sig作为每个块或者子块的Key值;c.对具有相同sig值的块或者子块中的数据元组进行匹配,输出匹配结果,并以集合保存已匹配的数据元组。
参阅图6,在上述接口实现步骤中生成的TI表由MapReduce提供的分布式缓存机制导入到各个Map节点内存中。由于接口实现步骤中的TI值是基于分割后的块或子块生成的,故实体匹配步骤与接口实现步骤相同也需要对块生成步骤得到的块进行分割操作将大块b1与b2分割成若干个自交子块和交叉子块,使得TI表在实体匹配步骤中具有意义。
分割完成后,选取该块或者子块下的具有最小TI值的数字签名sig作为该该块或者子块的Key,通过Map函数输出该块或者子块的(Sig,Value)对,其中Value为该块或者子块中所含的记录(数据元组)。TI值用于表征数字签名的相关程度,TI值越小的数字签名表示该块中与该数字签名的相关程度越高,与该数字签名相关的数据元组更相似,因此以TI值最小的数字签名作为该块的Key值并合并,能将最相关的数据元组分配到同一节点中进行下一步匹配,能够降低多个节点之间重复比较的概率。
Reduce函数将所有(Key,Value)对按sig进行排序和合并(即,shuffle处理)后,具有相同sig值的块或者子块聚集在一起。依次遍历每一个块构建该块中所有待比较的记录对Pair,每一个记录对Pair包含两个记录(即,数据元组),然后在每个节点内构建集合Set用以记录已经比较的记录对从而避免单个节点内记录对的重复比较。
进行比较时先选取一个记录对,如果该记录对未存在于集合Set中则精确比较该记录对中两个记录;否则认定该记录对是已经比较的记录对,将跳过该记录对并选取下一个记录对进行比较。
精确比较记录对的过程中,若计算后得到两个记录的相似度大于指定的阈值则判定这两个记录相互匹配,并输出该记录对作为本发明实体匹配的结果之一;否则不输出任何信息。然后将该记录对存入集合Set中,选取下一个记录对进行比较。当完成该块中的所有记录对的比较时,选取下一个块比较该块中所有记录对,直至完成所有块的比较后得到本发明匹配方法的结果。
例如,图6中显示的Reduce函数的输入中,Key为H1·1的子块{t1,t2,t3}的待比较的记录对为{t1,t2}、{t1,t3}与{t2,t3},Key为H1·1的子块{t1,t3,t4}的待比较的记录对为{t1,t3}、{t1,t4}与{t3,t4}。在本例中,相似度函数为编辑距离相似度函数,阀值设定为0.8,因此记录对{t1,t3}的相似度值为0.94,高于阀值0.8,故认定该记录对为匹配记录对输出。在子块{t1,t2,t3}完成记录对比较时,集合Set中包含的已比较记录对为{t1,t2}、{t1,t3}与{t2,t3},当子块{t1,t3,t4}进行记录对比较时,记录对{t1,t3}已存在于集合Set中,故记录对{t1,t3}可跳过比较,从而避免了重复记录对比较。
以上是关于实体匹配步骤的具体实施过程,在分布式文件系统中可通过以下方法2中的相关代码实现,方法2的代码如下所示:
Figure BDA0000459015750000081
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (7)

1.一种基于分布式架构的实体匹配方法,该方法是对分布式文件系统中相似数据元组进行匹配的方法,其特征在于,依次包括如下步骤:
块生成步骤,对于每个数据元组生成至少一个关键词,将具有相同关键词的数据元组合并为一个块;
接口实现步骤,包括下述子步骤:
a.将包含过多数据元组的块进行分割,得到多个子块;
b.对于每个块或者子块生成至少一个数字签名sig,计算所述至少一个数字签名sig的每个数字签名sig的Tightness Index值;
实体匹配步骤,其包括下述子步骤:
a.将包含过多数据元组的块进行分割,得到多个子块;
b.对于每个块或者子块生成至少一个数字签名sig,并在每个所述块或者子块中根据每个所述数字签名sig的Tightness Index值选取其中一个所述数字签名sig作为所述每个块或者子块的Key值;
c.对具有相同Key值的所述块或者子块中的数据元组进行两两匹配,输出匹配结果,并采用集合保存已匹配的数据元组以避免相同记录对重复比较。
2.如权利要求1所述的基于分布式架构的实体匹配方法,其特征在于,所述接口实现步骤中分割所述块的方法包括如下步骤:
步骤A1:设定块中包含最大数据元组数的阈值;
步骤A2:选取一个块,当块所含数据元组数大于阈值时,判定其包含过多数据元组;否则进行步骤A4;
步骤A3:对包含过多数据元组的块进行分割,得到多个子块;
步骤A4:重新进行步骤A2选取下一个块进行分割,直至对所有块完成分割为止。
3.如权利要求2所述的基于分布式架构的实体匹配方法,其特征在于,步骤A3分割成子块的方法包括如下步骤:
步骤A31:对包含过多数据元组的块进行均匀分割,得到多个自交子块;所述自交子块所含数据元组数量不超过阈值;
步骤A32:将所述自交子块交叉合并,生成交叉子块;所述交叉子块所含数据元组数量不超过阈值的两倍。
4.如权利要求1所述的基于分布式架构的实体匹配方法,其特征在于,所述数字签名sig是由块或者子块基于哈希函数计算生成的。
5.如权利要求1所述的基于分布式架构的实体匹配方法,其特征在于,所述接口实现步骤中生成Tightness Index值的方法包括如下步骤:
步骤B1:对所有所述数字签名sig进行排序,并合并相同的数字签名sig;
步骤B2:对于一个所述数字签名sig,计算所述数字签名sig下所有不同的数据元组的总数,记作n;
步骤B3:计算具有相同所述数字签名sig的所有块所包含数据元组的总数,记作m;
步骤B4:计算所述数字签名sig的Tightness Index值,Tightness Index=n/m;
步骤B5:重新进行步骤B2选取下一个数字签名sig并计算其Tightness Index值,直至完成计算所有Tightness Index值为止。
6.如权利要求1所述的基于分布式架构的实体匹配方法,其特征在于,实体匹配步骤中选取Tightness Index值最小的数字签名sig作为所述块或者子块的Key值。
7.如权利要求1所述的基于分布式架构的实体匹配方法,其特征在于,实体匹配步骤中匹配数据元组的方法包括如下步骤:
步骤D1:将所述块或者子块中所包含的数据元组配对,生成至少一对记录对,所述记录对包括两个数据元组;
步骤D2:建立集合,用于保存已比较的记录对;
步骤D3:选取一个记录对,若所述记录对不存在于所述集合中则继续,否则进行步骤D6;
步骤D4:设定相似度阈值,计算所述记录对中链各个数据元组的相似度值;若所述相似度值大于所述相似度阈值,则将所述记录对记为匹配结果;
步骤D5:将所述记录对存入所述集合中;
步骤D6:选取下一个记录对进行匹配,直至所有记录对完成匹配为止,输出匹配结果。
CN201410025006.4A 2014-01-20 2014-01-20 一种基于分布式架构的实体匹配方法 Expired - Fee Related CN103761298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410025006.4A CN103761298B (zh) 2014-01-20 2014-01-20 一种基于分布式架构的实体匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410025006.4A CN103761298B (zh) 2014-01-20 2014-01-20 一种基于分布式架构的实体匹配方法

Publications (2)

Publication Number Publication Date
CN103761298A true CN103761298A (zh) 2014-04-30
CN103761298B CN103761298B (zh) 2017-04-19

Family

ID=50528535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410025006.4A Expired - Fee Related CN103761298B (zh) 2014-01-20 2014-01-20 一种基于分布式架构的实体匹配方法

Country Status (1)

Country Link
CN (1) CN103761298B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326217A (zh) * 2015-06-15 2017-01-11 华东师范大学 一种基于随机算法的分布式实体匹配方法
CN108183802A (zh) * 2018-01-11 2018-06-19 深圳市沃特沃德股份有限公司 数字签名生成方法和装置
CN112632105A (zh) * 2020-01-17 2021-04-09 华东师范大学 大规模事务负载生成与数据库隔离级别正确性验证系统及方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230214360A1 (en) * 2022-01-05 2023-07-06 Jpmorgan Chase Bank, N.A. Method and system for facilitating distributed entity resolution

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133474A1 (en) * 2006-11-30 2008-06-05 Yahoo! Inc. Bioinformatics computation using a maprreduce-configured computing system
CN101764835A (zh) * 2008-12-25 2010-06-30 华为技术有限公司 基于MapReduce编程架构的任务分配方法及装置
KR101255060B1 (ko) * 2012-07-16 2013-04-16 한국과학기술정보연구원 맵리듀스 기반 분산 병렬 개체 추출 시스템 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133474A1 (en) * 2006-11-30 2008-06-05 Yahoo! Inc. Bioinformatics computation using a maprreduce-configured computing system
CN101764835A (zh) * 2008-12-25 2010-06-30 华为技术有限公司 基于MapReduce编程架构的任务分配方法及装置
KR101255060B1 (ko) * 2012-07-16 2013-04-16 한국과학기술정보연구원 맵리듀스 기반 분산 병렬 개체 추출 시스템 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LARS KOLB等: "Load Balancing for MapReduce-based Entity Resolution", 《PROC.28TH INTL.CONFERENCE ON DATA ENGINEERING(ICDE),2012》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326217A (zh) * 2015-06-15 2017-01-11 华东师范大学 一种基于随机算法的分布式实体匹配方法
CN108183802A (zh) * 2018-01-11 2018-06-19 深圳市沃特沃德股份有限公司 数字签名生成方法和装置
CN112632105A (zh) * 2020-01-17 2021-04-09 华东师范大学 大规模事务负载生成与数据库隔离级别正确性验证系统及方法
CN112632105B (zh) * 2020-01-17 2021-09-10 华东师范大学 大规模事务负载生成与数据库隔离级别正确性验证系统及方法

Also Published As

Publication number Publication date
CN103761298B (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
CN106233259A (zh) 在分散存储网络中检索多世代存储数据
WO2017096892A1 (zh) 索引构建方法、查询方法及对应装置、设备、计算机存储介质
CN109656798B (zh) 基于顶点重排序的超级计算机大数据处理能力测试方法
CN102163226A (zh) 基于映射-化简和分词及邻接排序去重方法
CN106778079A (zh) 一种基于MapReduce的DNA序列k‑mer频次统计方法
CN104731925A (zh) 基于MapReduce的FP-Growth的负载均衡并行计算方法
CN106203494A (zh) 一种基于内存计算的并行化聚类方法
Goyal et al. Cross platform (RDBMS to NoSQL) database validation tool using bloom filter
CN103761298A (zh) 一种基于分布式架构的实体匹配方法
Phan et al. Toward intersection filter-based optimization for joins in mapreduce
CN105589908A (zh) 用于事务集合的关联规则计算方法
CN104933143A (zh) 获取推荐对象的方法及装置
CN102207935A (zh) 用于创建索引的方法和系统
CN104834709B (zh) 一种基于负载均衡的并行余弦模式挖掘方法
JP2017532658A (ja) 効率的な1対1結合のための方法
CN107506394B (zh) 一种消除大数据规范关系连接冗余的优化方法
CN110505322A (zh) 一种ip地址段查找方法及装置
Papadakis et al. Blocking for large-scale entity resolution: Challenges, algorithms, and practical examples
Al-Hamodi et al. An enhanced frequent pattern growth based on MapReduce for mining association rules
WO2018082320A1 (zh) 数据流连接方法及装置
CN106844553A (zh) 基于样本数据的数据探测和扩充方法及装置
CN104794129A (zh) 一种基于查询日志的数据处理方法和系统
CN109684185A (zh) 基于启发式遍历的超级计算机大数据处理能力测试方法
CN103885834A (zh) 一种分布式环境下的模式匹配处理器
CN113495901A (zh) 一种面向可变长数据块的快速检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170419