CN102163226B

CN102163226B - 基于映射-化简和分词及邻接排序去重方法

Info

Publication number: CN102163226B
Application number: CN 201110090766
Authority: CN
Inventors: 尹建伟; 苏伟兵; 吴朝晖; 邓水光; 李莹; 吴健
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2011-04-12
Filing date: 2011-04-12
Publication date: 2013-03-13
Anticipated expiration: 2031-04-12
Also published as: CN102163226A

Abstract

本发明公开了一种基于Map-Reduce和分词及邻接排序去重方法，通过基于Hadoop的Map-Reduce分布式框架下采用SNM方法的基础上的一种分词排序的邻接排序去重方法，解决了在运用信息抽取技术进行信息抽取时抽取获得的数据存在着数据大量重复的问题，并且设计对数据进行分布式处理，根据字段匹配方法计算记录间的相似度判断记录是否重复，提高整体的去重运行效率。

Description

基于映射-化简和分词及邻接排序去重方法

技术领域

本发明涉及到基于Map-Reduce分布式框架下的高效数据去重方法，该方法基于Map-Reduce分布式框架，以分词排序编辑距离的相似度匹配方法作为字段相似度方法、以邻接排序方法（SNM）为记录的去重方法，能够有效地提高计算机去重的运行效率。

背景技术

随着互联网的快速发展，互联网已经成为最为流行的信息发布媒体，已经发展成为一个全球的、巨大的、分布和共享的信息空间。网络也迅速崛起成为一种重要的交换和信息传播的手段，WEB上也出现了丰富的数据资源。网络也成为人们获取信息的重要途径，但是随着互联网的爆破式增长，人们为了得到自己所需的信息，不得不花费大量的时间和精力来浏览、搜索自己需要的信息，从而诞生了很多搜索引擎来帮助人们索引查找相关的网页。它事先将搜索到的页面进行检索，通过用户给定关键词来查找相关的网页，返回给用户，但是搜索引擎只能查找到与用户关键词相关的信息，却不能代替用户提取出用户最需要的信息。搜索引擎返回的页面包含了大量与关键字无关的其他内容，返回结果的准确性也存在问题；用户需要从页面中通过人工的方式提取信息，对不用来源的信息进行比对时需要浏览大量的网页，极大地增加了用户的工作量和负担。

为了解决上述问题，需要一种能够快速、准确地从海量数据里面提取有效信息的技术手段来帮助用户完成这项工作。信息融合系统可以代替人们完成上述工作，信息融合系统从不同的数据来源来抽取出人们关心的信息反馈给用户。信息融合系统运用WEB信息抽取技术代替用户从网页中抽取出用户感兴趣的信息。WEB信息抽取技术获取网页数据并以结构化的形式组织数据，从而可以给第三方应用程序或者用户提供一种结构化数据表现形式，也使得利用WEB中相关数据变为可能。

但是在运用信息抽取技术进行信息抽取时抽取获得的数据存在着数据大量重复的问题，在实践中对淘宝网进行信息抽取时共有样本798个，但是通过网络爬虫抓取页面和对抓取的页面进行信息抽取时获得到5689个抽取结果，其中存在着大量的数据重复，具体分析这些信息重复的主要原因为：

1. 完全相同的数据出现在不同的网页中：由于网页中对于物品分类的标准不同，导致相同的信息分类出现在不同的页面中，在对不同的网页进行信息抽取时就得到完全相同的数据信息。例如在淘宝网上有“三星手机”与“1000元以上”这两个分类标准就导致两个集合之间存在着交集。

2. 表述不同，但是信息内涵相同的数据：不同的信息表述不同的数据的方式是不相同的，因此在信息系统中就需要识别出同一内容的不同表现形式。

并且由于信息来源很大程度上来源于互联网，而互联网上的信息非常的浩繁和巨大，采用现有的单机运行框架已经无法高效地处理海量信息。

发明内容

本发明针对现有技术的不足，提出一种基于Map-Reduce分布式框架下的高效数据去重方法，该方法基于Hadoop（“海盗框架”）的Map-Reduce分布式框架下采用SNM（邻接排序方法）方法的基础上的一种分词排序的邻接排序去重方法（SSNM方法）。

为了解决上述技术问题，本发明的技术方案包括以下步骤：

基于Map-Reduce和分词及邻接排序去重方法，包括以下步骤：

1）用户在客户端输入自己需要查询信息的关键字；

2）服务器端获取步骤1）中用户输入的的关键字；

3）所述服务器端通过应用编辑距离方法对关键字进行分词，对分词结果进行排序后得到字符串，最后计算出所述关键字中每两个字段间字符串间的编辑距离；

4）将步骤3）中所述排序后的字符串作为关键字进行排序，将此结果应用于记录去重方法的排序；

5）设计所述服务器端，使所述服务器端能在分布式框架下能正常运行，并设置所述分布式框架使之能正常运行步骤1）~步骤4）；

所述分布式框架采用Map-Reduce框架。

作为可选方案，所述步骤3）中编辑距离的计算采用动态规划法进行计算，其计算公式如下：

Figure 201110090766X100002DEST_PATH_IMAGE001

（a）

其中G(i,j)可以表示为如下的函数表示：

Figure 201110090766X100002DEST_PATH_IMAGE002

其中存在

Figure 201110090766X100002DEST_PATH_IMAGE003

（b）

其中数组P和Q表示两个待计算编辑距离的字符串数组，二维数据distance[i][j]表示P和Q字符串的子串间的编辑距离，distance[i][j]含义就是从P[0]到P[i]形成的字符串和Q[0]到Q[j]所形成的字符串间的编辑距离值。

作为可选方案，所述记录去重方法采用SNM方法。

作为可选方案，所述设置Map-Reduce框架包括以下步骤：

1）MRSSNM将排序后的字符串集合S分割成N组小集合Si（i的范围为1到N），使之能在单台计算机上处理；

2）根据不同的键，利用分布式环境分布到不同的Reduce函数过程上逐一处理，一次的计算保证在这小块集合中是没有重复的

3）在Reduce函数过程处理后的输出结果后，将不同集合的数据合并起来处理重新做一次MRSSNM操作；

4）将完成整个操作后将结果重新作为去重的输入数据，重复多次执行来保证符合预先设定的去重操作准确性和召回率。

本发明的有益效果在于：

1.高效的字段匹配方法

字段间的相似度匹配时不再直接根据字符串计算编辑距离的方法，而是在计算时先对字符串分词排序，然后进行相似度的计算。

2高效的去重方法

整个数据去重方法基于Map-Reduce分布式框架，对数据进行分布式处理，根据字段匹配方法计算记录间的相似度判断记录是否重复，提高整体的去重运行效率。

附图说明

图1基于分词排序的编辑距离方法流程图；

图2 SSNM方法实现流程图；

图3 SSNM方法的分布式设计；

图4基于Map-Reduce的SSNM方法流程。

具体实施方式

以下将结合附图和具体实施例对本发明做进一步说明

在数据去重方法中将需要去重的数据集合称为记录集合，记录集合中的每一条记录包含多条字段信息。去重方法的一般步骤是将记录进行两两比较，比较记录的相似性判断记录是否重复。在去重方法实现中最上层的是去重方法框架，中间是去重方法判断两条记录是否相同，而记录之间的相似度依赖于记录间字段的匹配情况，去重方法由这三个层次组成，每一对记录在进行相似度比较时都要涉及到这三个层次。本方法侧重点在去重方法框架和字段匹配方法两个部分，在这两部分分别提出基于分词排序的编辑距离方法和基于Map-Reduce的SSNM方法。

1. 基于分词排序的编辑距离方法：

普通的编辑距离方法存在着不能够准确地计算两个字段间字符串间的编辑距离，例如在淘宝页面中就有如下被抽取的两条记录字段“史记全52册线装大字本正版”，“ 正版新书史记全52册线装大字本”中“全52册”两个语句两个词的顺序与关键字符串的顺序发生变化，服务器通过计算它们两者的编辑距离为13，但是如果将“正版”和“全52册”分词后进行排序，关键字的排序后为：“全52册史记线状大字本正版”，序号6排序后排序为：“() 全52册史记线状大字本新书正版”后的编辑距离为7，两者之间有着巨大的差距。普通的编辑距离方法对词组出现在字符串中的顺序非常的敏感，完全相同的词组出现在不同字段中因为出现的顺序不同，从而导致两者的编辑距离差异较大，无法正确衡量两个字段串间的编辑距离。本发明提出一种分词排序后的编辑距离方法，过程是先对字符串进行分词，对分词结果进行排序，最后对排序后得到的字符串进行编辑距离的计算。

编辑距离的计算采用动态规划法进行计算，通过以下的计算公式可以得到计算结果：

（公式1）

其中G(i,j)可以表示为如下的函数表示：

Figure 201110090766X100002DEST_PATH_IMAGE005

其中存在

Figure 201110090766X100002DEST_PATH_IMAGE006

（公式2）

方法具体实现流程如附图1所示，在计算编辑距离时先将字符串分词，对分词产生分词词组进行排序形成新字符串，最后将该字符串作为目标字符串，采用动态规划法计算两者的编辑距离。

2. 基于分词排序编辑距离的邻接记录去重方法（SSNM）：

在实现记录去重方法时选用SNM方法作为记录去重方法，为了适应基于分词排序的编辑距离方法，需要将SNM做相应的改进，在SNM方法的第一步排序改为采用分词排序后的字符串作为排序关键字进行排序。方法的具体框架参见附图2，其中P、Q表示的是两个字符串的字符序列数组，在SSNM方法中先将所有的记录根据分词排序后产生的字符串排序，设定窗口大小，遍历排序后的集合中的每条记录，当窗口为空时将记录加入窗口中，记录与窗口中记录相似度超过阈值时判定该记录重复，删除该记录，当记录不与窗口中记录重复，则根据先入先出原则将窗口中的记录移出到不重复队列，再将该记录加入窗口中。

3. 基于Map-Reduce的SSNM方法（MRSSNM）：

基于Map-Reduce的SSNM方法，在SSNM方法的基础上，运用分布式框架将数据分拆成多个小数据块，分别进行SSNM方法去重，进而合并得到去重后的结果。在Map-Reduce框架上运行SSNM方法，将该方法命名为MRSSNM方法。

记录集合排序：在Hadoop（“海盗框架”）的分布式框架中由于Map-Reduce的框架限制无法对数据进行分布式排序，排序时可以采用分置法进行排序。集合S可以将集合中所有的元素都分拆成小集合，在每个小集合中单独进行排序，排序好的结果写入分布式文件系统中，当每个小集合都排序完成时，将排序好的文件两两合并，生成一个有序队列，所有的文件归并操作完成到最后就是整个S排序后的集合。

MRSSNM先将排序后的集合S分割成N组小集合Si（i的范围为1到N）适合在单台计算机上处理，然后根据不同的键（Key）利用分布式环境分布到不同的Reduce函数过程上逐一处理，一次的计算保证在这小块集合中是没有重复的，但是无法保证与其他集合是没有重复的。但是排序后重复的记录会出现在邻近的集合内部，因此在Reduce函数过程处理后的输出结果需要将不同集合的数据合并起来处理重新做一次MRSSNM操作。完成整个操作后将结果重新作为去重的输入数据，重复多趟执行来保证去重操作的准确性和召回率。

MRSSNM方法的细节说明，如附图4所述：

1. 记在Map函数过程中传入的参数（Key，又称为键）为mk，mk同时也是该记录在集合中的序号，流程图中第4个方框中Reduce函数过程中Key值计算公式为：(mk/Q)+1，其中Q为Reduce函数过程中运行SSNM方法的最大记录数，流程图中第7个方框中需要将前后两块进行拼接，计算公式分成两种情况进行计算，当Map中传入的键值（Key）在集合Si的前半部分时，则映射到Reduce函数中的参数命名为RKey，

则有

Figure 201110090766X100002DEST_PATH_IMAGE007

当且仅当

Figure 201110090766X100002DEST_PATH_IMAGE008

（公式3）

当Map函数过程中传入的键（mk）在集合Si的后半部分集合中时，则映射到Reduce过程中的参数键值RKey为

Figure 201110090766X100002DEST_PATH_IMAGE009

，

当且仅当（公式4）

其中存在，Q为Reduce函数过程中运行SSNM方法的最大记录数。

2. 分布式框架采用Hadoop的Map-Reduce框架，该框架还带有一个分布式文件系统可以保存在过程中产生的中间数据，由分布式框架来完成系统之间的数据通信及相互间的协调。

3. 利用分布式框架进行数据的分布式操作，将每个小集合分布到同一个Map上时需要进行Key-Value（键值对）的映射，每个小集合中的数据都映射到同一个键（Key）上，在分布式框架中同一个Key（Key）的数据将被映射到同一台机器上（Map函数过程）。

4. 在Map上利用不同的Key值产生公式计算映射到Reduce操作中的key值，在Reduce中采用SSNM方法进行去重操作，前一步的Map过程中计算的Key值目的是将集合S分成多个大小一致的小集合，后一步的Map过程则通过Key值计算将前一集合的后半部分和后一个集合的前半部分合并，重新做一次MRSSNM去重操作。

5. 增加循环执行的次数可以提高去重操作的准确性，本方法中SSNM方法在Reduce过程中执行两次。但是该方法理论上无法完全去除所有的重复，但是经过多轮次的去重操作后可以得到次优的结果，而且具有良好的可扩展性，基于分布式强大的计算能力提高整个去重操作的效率。

该方法的实施部署流程采用自上而下的方式，主要分成SSNM方法的分布式设计、SSNM方法、基于分词排序的编辑距离方法。

图3是SSNM方法的分布式设计，其中集合S表示所有已排序等待去重的数据集合；SSNM方法在Reduce步骤中运行。在Map中设置Reduce过程总的归并计算个数Q时需要考虑单台计算机的计算能力，不宜过大或者过小，过大时会造成单个Reduce无法进行后续的SSNM方法操作；输入将其中的每个元素按照自己的序号映射到分布式框架和文件系统，分布式框架会根据每个元素的序号将元素归并到一个Reduce中执行，在第一次Map中直接按照当前记录的序号除以Q得到的除数加一作为映射到Reduce中key值，这样操作后就将所有的记录按排序顺序进行分块；经过MRSSNM方法计算出来的去重数据存储在分布式文件系统中，在进行第二次去重操作时需要在被分割的两端的数据合并做一次SSNM方法，来提高去重的准确性，因此需要将前一个集合的后一部分和后一集合的前一部分合并，该合并采用公式3、公式4计算就可以达到这样的目的；为了提高MRSSNM方法去重质量，可以多次循环运行上述方法，多次循环操作去重。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围内。

Claims

1.一种基于映射-化简和分词及邻接排序去重方法，其特征在于，包括以下步骤：

1）用户在客户端输入查询信息的关键字；

2）服务器端获取步骤1）中所述的关键字；

3）所述服务器端应用编辑距离方法对关键字进行分词、排序后得到字符串，最后计算出所述关键字中每两个字段间字符串间的编辑距离；

5）设计所述服务器端，使所述服务器端能在分布式框架下能正常运行，并设置所述分布式框架使之能正常运行步骤1）～步骤4）；

所述分布式框架采用映射-化简框架；

所述步骤3）中编辑距离的计算采用动态规划法进行计算，其计算公式如下：

其中G(i,j)可以表示为如下的函数表示：

G(i,j)＝min(dstance[i][j-1]+1,dstance[i-1][j]+1,dstance[i-1][j-1]+f(i,j)),

其中存在

f (i, j) = \{\begin{matrix} 1, if (P [i] = Q [j]) \\ 0, if (P [i] &NotEqual; Q [j]) \end{matrix} - - - (b);

其中数组P和Q表示两个待计算编辑距离的字符串数组，二维数据distance[i][j]表示P和Q字符串的子串间的编辑距离，distance[i][j]含义就是从P[0]到P[i]形成的字符串和Q[0]到Q[j]所形成的字符串间的编辑距离值，所述&&符号表示与符号，所述==符号表示等于符号，所述if表示如果，所述≠符号表示不等于符号，所述i和j表示取值参数；

所述设置映射-化简框架包括以下步骤：

11）MRSSNM将排序后的字符串集合S分割成N组小集合Si，其中i的范围为1到N，使之能在单台计算机上处理；

12）根据不同的键，利用分布式环境分布到不同的Reduce函数过程上逐一处理，一次的计算保证在这小块集合中是没有重复的；

13）在Reduce函数过程处理后的输出结果后，将不同集合的数据合并起来处理重新做一次MRSSNM操作；

14）完成整个操作后，将结果重新作为去重的输入数据，重复多次执行来保证符合预先设定的去重操作准确性和召回率；

所述MRSSNM为在映射-化简框架上运行基于分词排序编辑距离的邻接记录去重方法。

2.根据权利要求1所述的一种基于映射-化简和分词及邻接排序去重方法，其特征在于，所述记录去重方法采用邻接排序方法。