CN110738020A

CN110738020A - 一种基于spark的批量方法

Info

Publication number: CN110738020A
Application number: CN201911025624.8A
Authority: CN
Inventors: 刘德彬; 陈玮; 黄羽; 张宝林
Original assignee: Chongqing Yu Yu Da Data Technology Co Ltd
Current assignee: Chongqing Yucun Technology Co ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2020-01-31
Anticipated expiration: 2039-10-25
Also published as: CN110738020B

Abstract

本发明公开了一种基于spark的批量方法，所述方法如下：清洗文本，去掉无意义的空白字符和网页标签；用清洗之后的文本计算出局部敏感散列值；将清洗后的文本与散列值组成一一对应关系，做成表格形式；将局部敏感散列值相对平均切分为N段，利用spark的join算子计算汉明距离相似性，进而实现海量数据去重；本发明的有益效果是：使用了一种新颖方法计算出新获取的散列值与已有的散列值之间的相似性，可用于大批量数据去重，甚至海量数据去重；并且资源消耗很小，速度很快。

Description

一种基于spark的批量方法

技术领域

本发明属于spark技术领域，具体涉及一种基于spark的批量方法。

背景技术

文本去重，通常不是指文本完全一样，而是指文本在内容上有一定比例的重复。目前常用的去重算法，主要是先用局部敏感的散列算法(如simhash算法)计算出局部敏感散列(hash)值，然后再计算新获取的散列值与已有的散列值逐一比较，计算相似性(计算相似性，主要的算法是汉明距离(hamming距离)、余弦距离、欧式几何距离)。常用的方式有：1)使用smlar插件，将已有的散列值存入PostgreSQL数据库，用新获取的散列值检索数据库；2)用spark逐一计算新获取的散列值与将已有的散列值之间的相似性。但这些方法普遍存在的问题有：

1)无法大批量计算出哪些新获取的散列值与已有的相同，也就无法大批量去重。比如第2)种方法，如果新获取的散列值有M(1百万)个，已有的散列值有N(5千万)个，那么需要计算的相似性的复杂度为M*N(1百万乘以5千万，超过十万亿级别)，数据量急剧增加，需要的内存和算力也急剧增加，在实际生产中难以接受；

2)效率低。比如上面第1)种方法，当新获取的散列值有1百万以上时需要查询数据库1百万次，查询一次需要30ms左右，1百万次需要8个多小时，这个在实际生产中是难以接受的。

申请号为201611207408.1的一种数据去重方法，该专利直接在内存查询中的无重复数据集散列值，该方法命中率极低，效率极低，而且难以使用在海量数据的场景下。

申请号为201811531642.9的一种基于内容感知的数据去重方法与装置，此专利主要是通过机算汉明距离来判断是否有重复，但是在海量数据中，非常难以直接计算出新获取的散列值与已有的散列值之间的相似性。

发明内容

本发明的目的在于提供一种基于spark的批量方法，以解决上述背景技术中提出的无法大批量计算出哪些新获取的散列值与已有的相同，也就无法大批量去重；效率低，难以使用在海量数据的场景下问题。

为实现上述目的，本发明提供如下技术方案：一种基于spark的批量方法，所述方法如下：

步骤一：清洗文本，去掉无意义的空白字符和网页标签；

步骤二：用清洗之后的文本计算出局部敏感散列值；

步骤三：将清洗后的文本与散列值组成一一对应关系，做成表格形式；

步骤四：将局部敏感散列值相对平均切分为N段，利用spark的join算子计算汉明距离相似性，进而实现海量数据去重；

步骤五：将去重之后的数据与旧数据合并，得到下一次去重的旧数据。

作为本发明的一种优选的技术方案，所述步骤二中，散列值为64位2进制。

作为本发明的一种优选的技术方案，所述表格内包含的字段：ID、文本、文本的散列值。

作为本发明的一种优选的技术方案，所述文本的散列值为该行文本的某局部敏感散列算法求出的散列值。

作为本发明的一种优选的技术方案，还包括匹配模块，该匹配模块用于将清洗后的文本与散列值组成一一对应。

作为本发明的一种优选的技术方案，所述步骤四中，将局部敏感散列值相对平均切分为N段，该N＝α+1，其中，α为3。

作为本发明的一种优选的技术方案，还包括spark去重模块，该去重模块用于将需要去重的表与历史表join起来，找到重复的数据；join的字段为两张表的局部敏感散列值分N段的字段，join两表N段字段之间为或逻辑(OR)。

与现有技术相比，本发明的有益效果是：

(1)使用了一种新颖方法计算出新获取的散列值与已有的散列值之间的相似性，可用于大批量数据去重，甚至海量数据去重；

(2)去重消耗资源很少，速度很快。

附图说明

图1为本发明的整体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：一种基于spark的批量方法，方法如下：

步骤一：清洗文本，去掉无意义的空白字符和网页标签；

步骤二：用清洗之后的文本计算出局部敏感散列值；

具体如下：

1.清洗文本，去掉无意义的空白字符和网页标签，用清洗之后的文本计算出局部敏感散列值，假设散列值为L位2进制(通常为64位2进制)，将清洗后的文本与散列值组成一一对应关系，做成表格形式。

假设有两个表—A表、B表，其中A表包含的字段有：ID、文本、文本的散列值，其中B表包含的字段有：ID、文本的散列值，且A表中有需要去重的，而B表没有需要去重的，所以先要去掉A表内部的重复，然后再用A表与B表相比较，去掉A表中的重复，这里表中的ID为唯一ID，用于标记一行文本数据本身的唯一性，可以为UUID；这里表中的文本的散列值为该行文本的某局部敏感散列算法求出的散列值，如果是冷启动，第一次去重，没有B表，那么只需要A表自身去重即可。

2.利用spark的join算子计算汉明距离相似性。

新获取文本的散列值与将已有文本的散列值之间汉明距离小于等于给定阈值α(α为整数，通常为3)，那么新获取文本与已有文本相似，应该去掉已有文本。

1)将A表中的散列值和B表中的散列值相对平均切分为N段(N＝α+1)，假设散列值长度为L，需要将其切分为N段，相对切分算法的过程：

输入：整数L，整数N

输出：Array数组，数组长度为N，数组元素之和为L；

①初始化长度为N的数组Array，Array的每个元素的值为0；

②循环迭代Array，从前往后循环，每Array循环一次元素，将Array的每个元素元素加1，循环到Array最后一个元素时，从第一个元素开始再循环一轮，直到总循环次数为L次；

③总循环为L次时，结束循环，返回Array数组。

相对切分算法的伪代码：

2)利用spark的join实现去重，在汉明距离计算相似性时，假设相似性阈值α，小于等于α判定为相似，大于α判定为不相似，两个散列值都切分N段(N＝α+1)；如果两个散列值相似，那么一定有α位二进制相同，那么这α位最多可以分布在α段中，那么意味着至少有一段相同，也即两个这散列值切分的某一段必定相同；对于求某一段散列值相等来说，在spark中非常方便处理、高效、快捷；算法实现过程：

输入：A表(字段：id、text、hash、hash_1、hash_2……hash_N),B表(字段：id、hash、hash_1、hash_2……hash_N)，有多少段，hash_N就为多少。

输出：去重之后的A表，新的B表。

①A表自身去重。

步骤1：找到A表中相似的行得到duplicate_A表，SQL语句形式如下：

SELECT t1.*,min(t1.hash,t2.hash)as to_left_hash

FROM A t1

INNER JOIN A t2

ON(t1.id！＝t2.id)AND(t1.hash_1＝t2.hash_1OR t1.hash_2＝t2.hash_2OR...OR t1.hash_N＝t2.hash_N)

步骤2：去掉A表中相似的行得到hamming_not_duplicate_A，SQL语句形式如下：

SELECT t31.*

FROM A t31

LEFT JOIN duplicate_A t41

ON t31.id＝t41.id AND t41.id IS NULL

UNION

SELECT t32.*

FROM A t32

INNER JOIN duplicate_A t42

ON t32.id＝t42.id AND t32.hash＝t42.hash

②A表与B表相比去重。

步骤一：找到hamming_not_duplicate_A表与B表相似的行得到duplicate_AB表，SQL语句形式如下：

SELECT t5.*

FROM hamming_not_duplicate_A t5

INNER JOIN B t6

ON t5.hash_1＝t6.hash_1OR t5.hash_2＝t6.hash_2OR...ORt5.hash_N＝t6.hash_N

步骤二：去掉duplicate_AB表与B表相似的行得到hamming_not_duplicate_AB表，hamming_not_duplicate_AB表就是A表根据汉明距离求相似性去重之后得到的最后结果表，SQL语句形式如下：

SELECT t7.*

FROM duplicate_AB t7

INNER JOIN A t8

ON t7.id＝t8.id AND t8.id IS NULL

③将hamming_not_duplicate_AB与B表合并在一起，得到新的B表，供下一次使用，SQL语句形式如下：

SELECT t9.id,t9.hash

FROM hamming_not_duplicate_AB t9

UNION

SELECT t10.id,t10.hash

FROM B t10

本实施例中，优选的，还包括匹配模块，该匹配模块用于将清洗后的文本与散列值组成一一对应。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于spark的批量方法，其特征在于：所述方法如下：

步骤一：清洗文本，去掉无意义的空白字符和网页标签；

步骤二：用清洗之后的文本计算出局部敏感散列值；

2.根据权利要求1所述的一种基于spark的批量方法，其特征在于：所述步骤二中，散列值为64位2进制。

3.根据权利要求1所述的一种基于spark的批量方法，其特征在于：所述表格内包含的字段：ID、文本、文本的散列值。

4.根据权利要求1所述的一种基于spark的批量方法，其特征在于：所述文本的散列值为该行文本的某局部敏感散列算法求出的散列值。

5.根据权利要求1所述的一种基于spark的批量方法，其特征在于：还包括匹配模块，该匹配模块用于将清洗后的文本与散列值组成一一对应。

6.根据权利要求1所述的一种基于spark的批量方法，其特征在于：所述步骤四中，将局部敏感散列值相对平均切分为N段，该N＝α+1，其中，α为3。

7.根据权利要求1所述的一种基于spark的批量方法，其特征在于：还包括spark去重模块，该去重模块用于将需要去重的表与历史表join起来，找到重复的数据；join的字段为两张表的局部敏感散列值分N段的字段，join两表N段字段之间为或逻辑(OR)。