CN105677661A

CN105677661A - 一种检测社交媒体重复数据的方法

Info

Publication number: CN105677661A
Application number: CN201410663537.6A
Authority: CN
Inventors: 章群燕; 石丹丹; 钱卫宁; 周傲英
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2014-09-30
Filing date: 2014-11-19
Publication date: 2016-06-15

Abstract

本发明公开了一种检测社交媒体重复数据的方法，包括如下步骤：对社交媒体的每一条文本数据划分成多个文本元素，由文本元素分别组成与文本数据相对应的集合；利用哈希函数将集合中的各文本元素分别映射成相应的哈希值并获取其中最小哈希值，重复进行多次映射之后获得由多个最小哈希值组成的数组，数组作为文本数据的最小哈希签名；利用局部敏感哈希算法将最小哈希签名中的每一个最小哈希值所对应的文本元素映射至不同的检测队列中；计算同一个检测队列中的任意两个文本元素之间的Jaccard相似度，Jaccard相似度高于阈值的文本元素判断为重复数据。本发明提高了大规模文本重复性检测的效率。

Description

一种检测社交媒体重复数据的方法

技术领域

本发明属于数据挖掘技术领域，尤其涉及一种检测社交媒体重复数据的方法。

背景技术

随着社交媒体的迅猛发展，社交媒体重复性垃圾也借机快速滋生，社交媒体上抄袭复制成风，大量的完全重复性或近似重复性内容，充斥着社交媒体网络，占据用户的社交视野，严重影响人们的正常社交生活，模糊社交话题和趋势，侵害原作者的著作权，阻碍社交网络的健康发展。因此检测重复性内容，清除重复性质的社交媒体垃圾有着极其重要的意义。

在重复性检测方面，已有许多成熟的算法理论和技术。并且重复检测研究和技术主要集中在文档复制检测上，初期文档复制检测主要用于程序复制检测，现在则主要用于文本检测。

在程序复制检测上，1976年Ottenstein首次提出了基于属性计数法(AttributeCounting)用于代码检测，1996年Verc和Wise提出结合结构度量法(StructureMetrics)来检测剽窃，现有的程序复制检测方法都是基于属性计数法和和结构度量法来实现的。

在文本重复检测研究上，1993年ARIZONA大学的Manber推出sif工具以用来在海量文件系统中检测相似文件，提出使用近似指纹(ApproximateFingerprints)来计算文件之间的相似度。1995年，美国斯坦福大学提出文本复制检测COPS系统(CopyProtectionSystem)以用于文档复制检测，COPS系统以标点符号分界将文档分为句子序列，然后统计两篇文档中相同句子的比例计算文档相似度，COPS系统对于大规模文档检测效率较快，但是不能检测句子内部局部重复的情况。随后，Garcia-Molina和Shivakumar等人又提出了SCAM(StanfordCopyAnalysisMethod)原型，使用词频统计的方法计算文本之间的相似度。在采用词频统计的方法上，其中较为突出的还有香港理工大学Si和Leong等人提出的利用关键词统计方法来计算文本相似度的CHECK原型。2000年Monostori等人建立了MDR(MatchDetectReveal)原型[18]，利用后缀树来搜寻字符串之间的最大子串计算文本间的相似度。2006年，NamohKang等人提出PPChecker(PlagirismPatternChecker)系统，利用语义序列模型来进行文档复制性检测。Glatt程序提出使用基于写作风格的方法来检测文档相似度，Glatt程序在一篇文档中删除一定的单词，然后让测试人去填补空白词汇，并依据这个作为相似度评测标准。DanielJ.Bernstein教授提出了DJB哈希原型，是目前公布的最有效的哈希函数，俗称“Times33”算法，就是不断的乘33。

至今用于文档重复检测的方法大致可以分为基于词频统计、基于字符串比较、基于数字指纹、基于语义分析和基于写作风格的方法。

基于词频统计的方法，借鉴了信息检索中向量模型的概念，首先统计文档中单词出现的频率，然后利用反向索引存储单词和词频信息，再通过相关频率模型来计算文档相似度，这一方法容易受噪声影响带来较大误差。基于字符串比较的方法，利用重复字符串的比例来判断文档相似度，例如MDR就采用直接字符串匹配法，MDR首先把文档构建成后缀树，然后进行最大匹配字符串搜索，这种方法开销大，效率慢，不适用于大规模数据检测。基于数字指纹的方法，通过直接生成文档指纹或者提取文档特征处理生成指纹，然后通过比对指纹来计算文档相似度。基于语义分析的方法，采用自然语言理解和处理的方法来进行文档复制性检测，该方法不仅能过检测出文档句子内部分不同的情况，而且可以通过语义分析在一定程度上实现本发明不同但是字面意义相同的重复性文档，但是提取文本语义特征较为复杂，特别是对于中文这种语义较为复杂的语言，语义分析的难度更大，并且该方法很难消除语义分歧等情况，复制检测准确率很难保证。基于写作风格的方法，认为每个人都有自己的写作习惯，这些习惯风格可以被用来当做文档的指纹才检测文档复制性，这种方法自动化较差，适用性较低。

鉴于以上重复性检测方法的不足，本发明提出了一种检测社交媒体重复数据的方法。本发明提高了大规模文本重复性检测的效率。

发明内容

本发明提出了一种检测社交媒体重复数据的方法，包括如下步骤：

步骤一：对社交媒体的每一条文本数据划分成多个文本元素，由所述文本元素分别组成与所述文本数据相对应的集合；

步骤二：利用哈希函数将所述集合中的各文本元素分别映射成相应的哈希值并获取其中最小哈希值，重复进行多次映射之后获得由多个最小哈希值组成的数组，所述数组作为所述文本数据的最小哈希签名；

步骤三：利用局部敏感哈希算法将所述最小哈希签名中的每一个最小哈希值所对应的文本元素映射至不同的检测队列中；计算同一个检测队列中的任意两个文本元素之间的Jaccard相似度，Jaccard相似度高于阈值的文本元素判断为重复数据。

本发明提出的所述检测社交媒体重复数据的方法中，在所述步骤一之前进一步包括文本数据的预处理，所述处理用于删除社交媒体中既定的特殊字符、网站链接和常用文字。

本发明提出的所述检测社交媒体重复数据的方法中，在所述步骤一中，利用Shingling算法将所述文本数据划分为多个文本元素。

本发明提出的所述检测社交媒体重复数据的方法中，所述步骤二中，使用基于加法和移位的oneByOneHash哈希函数作为最小哈希函数族，通过利用所述最小哈希函数族将所述集合中的各文本元素分别映射成相应的哈希值。

本发明提出的所述检测社交媒体重复数据的方法中，所述步骤三中利用DJB哈希函数将每一个最小哈希值对应的文本元素分配至不同的检测队列中。

本发明提出的所述检测社交媒体重复数据的方法中，所述步骤三中设定的Jaccard相似度的阈值以如下公式表示：

Threshold＝(1/b)^1/γ；

式中，b表示最小哈希函数被划分后的段数，r表示每段中的元素数量。

本发明提出的所述检测社交媒体重复数据的方法中，在所述步骤三中，在计算Jaccard相似度之前进一步包括：对所述检测队列中的每个文本元素按照字符串长度升序或降序排列，并设定距离上界值，计算任意两个文本元素之间的字符串长度差距，若所述差距小于所述距离上界值，则计算所述两个文本元素之间的Jaccard相似度。

本发明的有益效果在于：本发明利用MapReduce框架实现局部敏感哈希LSH算法对用户微博中的重复内容进行高效检测，并且通过进一步改进LSH算法使得算法的效率更高。实验表明算法的检测准确率与召回率均能达到80％以上。并且检测速度较快，适用于较大规模社交媒体重复性检测。本发明利用重复性检测算法对新浪微博数据集进行检测，结果发现新浪微博的重复率在7％左右，大部分微博存在重复现象的用户在3％左右。高重复率的用户行为与正常用户的行为存在明显差异。

附图说明

图1是本发明检测社交媒体重复数据的方法的流程图。

图2是LSH冲突概率图。

图3是Minhash签名分段。

图4是局部敏感哈希。

图5是k值对于准确率和召回率的曲线图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明在社交媒体重复性检测上采用局部敏感哈希(LocalSensitiveHashing,LSH)算法。局部敏感哈希算法由PiotrIndyk和RajeevMotwani在1998年第一次提出，并且由AristidesGionis和P.Indyk等人在1999年给出具体实现方法。局部敏感哈希算法认为在允许一定误差的情况下，如果两个元素相似，则通过映射操作后两个元素仍然相似，这样可以把注意力放在那些最有可能相似的元素上，而不用逐对进行计算。局部敏感哈希算法最初提出是用于检测高纬度下最近邻查找(NearestNeighborSearch,NNS)问题，经过不断发展，LSH已经可以应用在多种问题上，其中Standford大学李凯等人将局部敏感哈希算法用于多媒体内容(图片、声音和视频等)相似性检测，KogaH.和IshibashiT.等人利用LSH做层次聚类，局部敏感哈希算法同样可以应用在大规模文本重复性检测上。本发明在LSH的基础上通过前缀过滤方法提高了执行效率，并实现了LSH的MapReduce框架。

本发明在进行重复性检测前根据微博数据特征对微博进行一些预处理操作，消除一些特殊情况对重复性检测结果的干扰，包括既定的特殊字符、网站链接和常用文字等等。

1)微博使用“”符号表示提到，用户可以在发布微博内容中“”其他用户，被“”到的用户会收到“”体现，一些重复性微博只简单的修改、删除或大量添加“”用户，而实质性内容并没有改变，检测前应该消除“”符号的干扰。

2)微博支持“##”插入话题，并提供话题搜索功能，用户可以在两个“#”之间插入话题，点击话题便可以自动搜索微博上所有包含有该话题的相关微博。部分微博内容相同，但是却通过插入不同的“##”话题或刻意添加热门话题以吸引注意力，“##”同样会对检测带来干扰，应该预处理进行去除。

3)微博设置140字的发布内容字数限制，微博对所有用户添加的超级链接都做了短链接处理，例如，链接以http://t.cn或http://sinaurl.cn为开始，而重复微博通常插入一些不同外部网站链接，以提高点击率和浏览量，本发明应该消除这些链接对重复性检测所造成干扰。

4)用户可以在发布内容中添加一些特殊表情，微博所有表情都以“[]”标注，例如“[哈哈]”在界面上将被转化为一个笑脸。这些链接和特殊表情符号，同样都是一些干扰因素，应该进行预处理。

5)微博支持用户上传分享图片，并自动生成“分享图片”(或“ShareImgae”)等常用文字的文字说明，这些自动生成的微博在文字内容上重复，会干扰本发明重复性检测结果，应该进行预处理数据。

(1)k-Shingling算法生成集合

Shingling是将文本表示成集合的一种有效的方法。文本由一连串字符组成，k-shingles表示文本中所有长度为k的字符子串，由k-shingles组成的集合可以用来表示文本。例如，文本“社交媒体重复性检测”用2-shingles可以表示为{社交,交媒,媒体,体重,重复,复性,性检,检测}。

K-shingles的关键是选择k的大小，如果k选择的过小，文本的k-shingles集合中将会出现过多shingles与其他文本一致，这样文本的相似度就会过高，相反，如果k选择的过大，文本的相似度就会比实际相似度低。选择k的大小应该根据文本长度和文本字符集大小来决定，k的选择应该让任意shingle在任意文本中出现的概率都较小。社交媒体文本大小通常较小，而且每条微博通常控制在140字以内，因此本实施例仅以k为2为例，经实验可知K的取值范围为2到4不等，也可根据实验结果在此范围外选取最优k值。

MapReduce框架下的算法伪代码如表1所示，Map阶段的输入的key为微博的id，value为微博的内容；对每一条微博删去上述特殊字符，并完成shingling操作，输出的key为分词的长度，value为微博id，发布者，发布时间，分词结果。Reduce阶段只是简单的输出。

表1MapReduce框架下的算法伪代码实现方式

(2)生成最小哈希签名

处理文本数据本身不仅占用空间大，而且处理效率低，所以要对文本进行有效的签名压缩，本发明采用最小哈希Minhash算法对文本进行签名处理。

对于集合A和集合B，假设y表示A和B的Minhash数组中相同元素的个数，则可以用y/k来估算集合A和B之间的Jaccard相似系数J(A，B)。可以把每个Minhash看做一次p＝J的伯努利实验，则n次Minhash的期望为E(k)＝pn，标准差为所以n次Minhash估算Jaccard相似系数的误差为

σ / n = \sqrt{p (1 - P) / h} \leq 1 / 2 \sqrt{n} .

所以Minhash可以起到对大文本进行压缩签名的目的，并可以以此作为文档之间Jaccard相似度的计算依据。其中，Jaccard相似度：对于集合A和集合B，A和B之间的Jaccard相似系数定义为：

J (A, B) = \frac{A \cap B}{A \cup B}

Jaccard相似系数为两个集合交集的个数除以两个集合并集的个数，体现和两个集合相同元素的比例。J(A,B)≥0且J(A,B)≤1，当J(A,B)＝0时表示两个集合完全不同，当J(A,B)＝1时表示两个集合完全重复。

最小哈希签名(Minhash)如以下表2所示，假设h是将集合S中元素映射为数字的哈希函数，h_min(S)为哈希处理后集合元素的最小哈希值。若：

h_min(A)＝h_min(B)；

必有：

h_min(A)∈A∩B，h_min(B)∈A∩B；

所以：

Pγ[h_min(A)＝h_min(B)]＝J(A,B)

若对集合S做n次hash，每次选取集合元素最小哈希值h_min(S)，则集合S可以表示为一个长度为n的数组。表3以“社交媒体重复性检测”文本为例说明了Minhash签名的计算过程，F(x)表示一次hash操作。例如第一次hash得到的值中最小值为99，n次hash后得到的签名为{99,67,87…93}。

表2最小哈希函数的伪代码实现方式

表3最小哈希函数的计算流程

(3)局部敏感哈希

局部敏感哈希(LSH)函数是根据文档Minhash签名，使用基于加法和移位的oneByOneHash哈希函数构建Minhash函数族可以通过将最小哈希签名分为b段，每段r个元素，其中br＝n。图3中，利用DJB哈希函数作为LSH算法，利用LSH算法将Minhash签名分为3段每段3个元素。构建hash函数，对数据每段r个元素进行hash映射以分配检测队列号。如果一个检测队列里的数据大于或等于两条，则该检测队列冲突，本文认为检测队列里的数据即为重复数据。如图4所示，经过LSH处理，2号检测队列内有{S1,S2}两条数据，则2号检测队列冲突，S1与S2为重复数据。

参阅以下表4，构建hash函数，对数据每段r个元素进行hash映射以分配检测队列号。如果一个检测队列里的数据大于或等于两条，则该检测队列冲突。如图4，检测队列2为冲突检测队列。

虽然利用Minhash对文本进行签名压缩，可以加快相似性计算的速度，但是在进行大规模数据重复性检测时，逐对计算文档之间的相似度的处理效率较低，本发明利用局部敏感哈希(LocalSensitiveHashing，LSH)算法对所有数据进行处理，认为一个检测队列中的数据为潜在的重复数据。

本发明假设一对文档之间的Jaccard相似度为s，则两文档Minhash签名的一对元素相同的概率为s，可以推出Minhash相似度如以下多个公式表示：

同一段内，两文档r个Minhash元素都相同的概率为S^γ；

同一段内，两文档r个Minhash元素都不相同的概率为1-S^γ；

所有b个段，两文档r个Minhash元素都不相同的概率为(1-S^γ)^b；

两文档在至少一个段内所有r个Minhash元素相同的概率为1-(1-S^γ)^b；

参见图2，LSH算法两数据间冲突的概率呈S曲线(S-curve)。所以当两文档的Jaccard相似度大于或等于(1/b)^1/γ时，它们冲突的概率大幅度提高。

为了获得更高重复性检测准确度，可以再次计算冲突检测队列里文本数据的Minhash相似度，选取大于阈值(1/b)^1/γ的数据为重复数据，但是这样做大大降低了程序效率。

表4局部哈希函数的代码化实现方式

在此基础上，本发明进一步对同一个检测队列中的字符串按长度排序，然后将每个字符串s将与其列表中后面不远的另一个字符串t进行比较。假定两个字符串Jaccard距离的上界是J。对于任意一个字符串x，记它的长度为Lx。注意到Ls≤Lt。s和t所表示的集合的交集的大小不可能超过Ls，而其并集的大小不低于Lt。因此，s和t的Jaccard相似度最多为Ls/Lt。即，为使s和t之间能够对比，必须要求J≤Ls/Lt，即Lt≤Ls/J。基于长度筛选的代码化实现方式如以下表5所示：

表5基于长度筛选的代码化实现方式

图5显示了k值对于准确率和召回率。本发明检测算法在配置了不同的参数的情况下，其运行效率、召回率(Recall)和准确率(Precision)会受到参数的影响。配置的参数包括k-shingles的参数k和LSHMinhash分段段数b。算法效率主要由在相同的数据集合情况下算法执行的时间来衡量。现假设检测结果中的重复数据(TruePositive,TP)个数为a，检测结果中的不重复数据(FalsePositive,FP)个数为b，整个数据集中未被检测到的重复数据(FalsePositive,FP)个数为c，整个数据集中未被检测到的不重复数据(FalseNegative,FN)个数为d，如下表所示：

表6检测结果表

召回率为检测结果中重复数据占整个数据集中重复数据的比例，即R＝a/(a+c)，准确率为检测结果中重复数据占所有检测到的数据的比例，即P＝a/(a+b)。通常在大规模数据集中，召回率和准确度是相互制约的，本发明算法应该保证召回率和准确度都比较理想。本实施例中，在标记样本数据时，先根据数据间的Jaccard相似度找出所有可能相似的数据，然后再进行筛选，在4,894条非转发微博数据中已事先标记出228条重复微博数据，作为实验性能判断的标准。

首先利用Minhash函数个数选取200个Minhash函数签名，以保证Minhash估算Jaccard相似系数准确度大于99％，配置的参数包括k-shingles的参数k和LSHMinhash分段段数b。因为常见的微博文本数据限制在140字以内，所以本文选取k∈{2,3,4}，针对200个Minhash函数签名，选取b∈{5,10,20,30,40,50}作为候选参数。在4,894条非转发新浪微博数据集上实施本发明检测算法获得的重复微博数据结果如图5所示，其检测出的重复微博数据的数量与228条重复微博数据的比重能保持在90％以上，证明了本发明检测社交媒体重复数据的方法具有良好的检测侧效果。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种检测社交媒体重复数据的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的检测社交媒体重复数据的方法，其特征在于，在所述步骤一之前进一步包括文本数据的预处理，所述处理用于删除社交媒体中既定的特殊字符、网站链接和常用文字。

3.如权利要求1所述的检测社交媒体重复数据的方法，其特征在于，在所述步骤一中，利用Shingling算法将所述文本数据划分为多个文本元素。

4.如权利要求1所述的检测社交媒体重复数据的方法，其特征在于，所述步骤二中，使用基于加法和移位的oneByOneHash哈希函数作为最小哈希函数族，通过利用所述最小哈希函数族将所述集合中的各文本元素分别映射成相应的哈希值。

5.如权利要求1所述的检测社交媒体重复数据的方法，其特征在于，所述步骤三中利用DJB哈希函数将每一个最小哈希值对应的文本元素分配至不同的检测队列中。

6.如权利要求1所述的检测社交媒体重复数据的方法，其特征在于，所述步骤三中设定的Jaccard相似度的阈值以如下公式表示：

Threshold＝(1/b)^1/r；

7.如权利要求1所述的检测社交媒体重复数据的方法，其特征在于，在所述步骤三中，在计算Jaccard相似度之前进一步包括：对所述检测队列中的每个文本元素按照字符串长度升序或降序排列，并设定距离上界值，计算任意两个文本元素之间的字符串长度差距，若所述差距小于所述距离上界值，则计算所述两个文本元素之间的Jaccard相似度。