CN105119910A

CN105119910A - 基于模板的在线社交网络垃圾信息实时检测方法

Info

Publication number: CN105119910A
Application number: CN201510439035.XA
Authority: CN
Inventors: 陈焰; 高泓彧; 卜凯; 朱添田
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-07-23
Filing date: 2015-07-23
Publication date: 2015-12-02

Abstract

本发明公开了一种基于模板的在线社交网络垃圾信息实时检测方法，进行检测前先初始化一个空的垃圾模板库，检测时利用垃圾模板库对待检测信息进行模板匹配以进行垃圾信息过滤：匹配成功，则认为该信息为垃圾信息，并利用垃圾模板库对后续待检测信息进行垃圾信息过滤；否则，对该待检测信息进行辅助过滤以确定其是否为垃圾信息，以及为垃圾信息时的所属类别并按类别对垃圾信息进行缓存；在根据缓存结果更新垃圾模板库，并利用更新后的垃圾模板库对后续待检测信息进行模板匹配。本发明的检测方法可识别的信息的范围，检测准确率高，速度快，能够实现在线实时检测。

Description

基于模板的在线社交网络垃圾信息实时检测方法

技术领域

本发明涉及互联网安全技术领域，具体涉及一种基于模板的在线社交网络垃圾信息实时检测方法。

背景技术

在之前对Twitter数据的研究中，有至少4％的信息是垃圾信息。而到了2014年，5％的Twitter用户是垃圾信息机器人。垃圾信息的传播不仅会耗费大量的网络资源，还会影响用户的上网体验，更有可能骗取用户点击相关的恶意链接从而造成经济损失。

文献“Beyondblacklists:learningtodetectmaliciouswebsitesfromsuspiciousurls”(J.Ma,L.K.Saul,S.Savage,andG.M.Voelker,inKDD,2009,pp.1245–1254)公开了一种基于信息URL重定向链接以及恶意URL的进行垃圾信息检测的方法，即通过对社交网络中信息最后附带的URL进行分析，用重定向以及黑名单检测等方法找出恶意的URL，它们所对应的信息即为垃圾信息，等等。

尽管这些方法都能够从一定程度上减轻在线社交网络垃圾信息对人们造成的负面影响，但是对于垃圾信息制造者如何批量生产垃圾信息，使用了何种技术都很少有涉及。

A.Pitsillidis,等人提出了一种基于模板的垃圾信息检测方法，详见参考文献“BotnetJudo:FightingSpamwithItself,”inNDSS,2010。

但是该方法也存在如下局限性：

第一，在进行检测时，假设所有模板都存在固定词汇，而在现实的在线社交网络中往往会使用两个等价的词或短语表达同一个意思，这使得检测精度下降；

第二，大部分信息中存在的一些影响全局的噪声词汇，除了某些标签以外还有一些语义无关词汇会影响模板的创建，导致创建的模板不准确，进而无法进行精确的识别；

第三，需要一条明确的垃圾信息作为某一类模板的基准。这使得模板创建的范围变得狭隘，效率变低。这些局限性使得该方法并不能很好地用于复杂多变的在线社交网络。

发明内容

针对现有技术的不足，本发明提供了一种高精度的基于模板的在线社交网络垃圾信息实时检测方法。该在线社交网络垃圾信息实时检测方法主要用于英文在线社交网络，如Twitter,Facebook等大部分垃圾信息是基于模板创建的平台)。通过提取垃圾信息中潜在的模板来实时创建模板，然后实例化模板进行垃圾信息匹配，从而起到垃圾信息检测功能，进而能够有效实现在垃圾信息传播前的抑制功能。

一种基于模板的在线社交网络垃圾信息实时检测方法，进行检测前先初始化一个空的垃圾模板库，检测时利用所述的垃圾模板库对待检测信息进行模板匹配以进行模板匹配：

若匹配成功，则认为该信息为垃圾信息，并利用所述的垃圾模板库对后续待检测信息进行垃圾信息过滤；

否则，进行如下步骤：

(a)对该待检测信息进行辅助过滤以确定其是否为垃圾信息，以及为垃圾信息时的所属类别并按类别对垃圾信息进行缓存(即按类别将确定为垃圾信息的待检测信息放入缓存中)；

(b)根据缓存结果更新所述的垃圾模板库，并利用更新后的垃圾模板库对后续待检测信息进行模板匹配。

对于在线社交网络垃圾信息实时检测方法，待检测的信息通常为信息流，垃圾信息检测时可以逐条处理，也可以针对若干条信息进行并行处理。

通过模板匹配进行垃圾信息过滤时去掉垃圾信息，并保留非垃圾信息作为垃圾信息过滤的结果进行后续处理。

初始情况下，垃圾模板库为空(即不存在垃圾模板)，此时所有信息均不能与垃圾模板库匹配(即垃圾模板库中不存在与该信息相匹配的垃圾模板)

作为优选，所述垃圾模板库中的各个垃圾模板为正则表达式，相应的进行模板匹配时基于正则表达式进行。

所述步骤(a)利用本文相似度采用基于学习的方法对待检测信息进行辅助过滤。

本发明垃圾信息过滤的结果进行辅助过滤时具体采用如文献“TowardsOnlineSpamFilteringinSocialNetworks”(H.Gao,Y.Chen,K.Lee,D.Palsetia,andA.Choudhary,inNDSS,2012)公开的垃圾信息的检测方法，具体如下：

首先获取信息的独立特征，形成大规模的训练集进行训练，再利用文本相似度得到不同的信息分类，包括加入到原有分类与新增分类，最后利用有监督的机器学习方法，分出垃圾信息类与非垃圾信息类。

辅助垃圾信息过滤器的选择：垃圾信息制造者可以避免垃圾信息被辅助垃圾信息过滤器过滤从而使得系统得不到相应的训练样本，本发明选择的辅助垃圾信息过滤方法增加了辅助垃圾信息过滤器的多样性，结合多种已存在的垃圾信息检测系统作为辅助垃圾信息过滤器。

根据分类的垃圾信息更新所述的垃圾模板库时：

统计缓存中所有类垃圾信息的总条数，当总条数大于阈值时，针对每一类垃圾信息分别构建相应的垃圾模板并存入垃圾模板库以更新垃圾模板库。

在进行检测时，将辅助过滤后每类垃圾信息中垃圾信息按照类别进行缓存，每次进行辅助过滤后立即统计缓存中垃圾信息的总条数

作为优选，所述阈值为1000。

通过如下步骤构建每类垃圾信息的垃圾模板：

(S1)将该类中的垃圾信息分为若干个小类：

(S2)计算该小类垃圾信息的公共超串，再利用所述的公共超串计算得到相应的列缩减矩阵；

(S3)对列缩减矩阵进行列连接，并将列连接后的列缩减矩阵中字段性质相同的元素映射到相同的区域；

(S4)针对经过步骤(S3)处理后的列缩减矩阵的每个区域，将该区域中的内容合并，并利用正则表达式表示该区域的合并结果进而得到相应的垃圾模板。

作为优选，所述步骤(S1)中将含有k个具有连续相同词汇的垃圾信息归为同一小类，k为2～8。

为提高在线社交网络垃圾信息实时检测方法的检测精确度，所述步骤(b)更新模板库前还对缓存中的垃圾信息进行去噪，并利用去噪后的结果更新垃圾模板库。

作为优选，本发明中利用条件随机场模型进行去噪：

利用CRFs(条件随机场)模型，Freq(s)代表词汇s出现的频率。CRFs模型中的三个特性：Freq(ti)得到ti的普及度，Freq(ti*ti+1)^2/freq(ti)freq(ti+1)和freq(ti-1*ti)^2/freq(ti-1)freq(ti)代表在ti发生的概率与其周围词汇的关系。将这些特性加入CRFs模型中。进一步地，增加了4条正交特性来得到噪音的共同特性，即ti是否大写，是否为数字，是否是标签，是否是用户提及(“”)。并且手工标记了1000条实例信息作为训练集来训练CRFs模型，标记出每条信息里面的每个词为噪音还是非噪音。

利用CFRs，人工标记噪音词汇以去除噪声，使得模板创建被噪音的影响降到最低。

与现有技术相比，本发明的在线社交网络垃圾信息实时检测方法具有如下优点：

不需要使用固定词汇创建模板，通过识别出信息中频繁出现的等效片段来创建模板，从而扩大利可识别的信息的范围，提高检测精度；

进行模板匹配时若匹配成功，则不必通过辅助过滤，直接以模板匹配结果完成检测，根据实际情况调整检测方案，在提高检测速度、保证检测的实时性的同时还能够保证检测的准确率；

通过模板匹配和辅助过滤相结合以得到分类的垃圾信息，最后对每个类分别创建垃圾模板，提高了模板创建效率，进而大大提高了检测速度，保证了检测的实时性。

附图说明

图1为本实施例的高精度的基于模板的在线社交网络垃圾信息实时检测方法的检测流程示意图。

具体实施例方式

下面将结合附图和具体实施方式对本发明进行详细说明。

本实施例基于模板的在线社交网络垃圾信息实时检测方法，进行检测前先初始化一个空的垃圾模板库，垃圾模板库用于存储垃圾模板，其中各个垃圾模板为正则表达式。

初始化一个空的垃圾模板库，即可以理解为初始情况下，垃圾模板库中不存在垃圾模板。

如图1所示，利用本实施例的方法对输入的数据流(信息流)进行检测时利用垃圾模板库对当前待检测信息进行模板匹配以进行垃圾信息过滤；

本实施例中基于正则表达式进行模板匹配：

若模板匹配成功，则认为当前待检测信息为垃圾信息过滤掉，并直接利用该垃圾模板库(即对当前待检测信息进行模板匹配时的模板库)对后续待检测信息进行垃圾信息过滤(即不进入后续操作)；

否则，认为不是垃圾信息保留，并继续进行后续操作：

(a)利用基于学习的方法对当前待检测信息进行辅助过滤以确定其是否为垃圾信息，以及为垃圾信息时的所属类别并按类别对垃圾信息进行缓存。

对于辅助过滤后确定不是垃圾信息的信息不处理，直接利用对当前待检测信息进行模板匹配时的模板库对后续待检测信息进行模板匹配。

进行辅助过滤时，首先构建一个辅助过滤器，(具体详见文献：“TowardsOnlineSpamFilteringinSocialNetworks”，H.Gao,Y.Chen,K.Lee,D.Palsetia,andA.Choudhary,inNDSS,2012)，然后将模板匹配时不匹配的待检测信息输入到辅助过滤器，认为匹配的待检测信息不是垃圾信息过滤掉，不匹配的待检测信息是垃圾信息保留以进行后续处理。

通过该方法进行辅助过滤还能够根据垃圾信息的文本相似度同时完成对判别出的当前待检测信息所属的垃圾信息的类别。

在实际应用时，根据辅助过滤结果对不同类的垃圾信息进行分类缓存，即将不同类的垃圾信息放入相应的垃圾信息缓冲区(即缓存)中。

(b)根据缓存结果更新垃圾模板库(即当前待检测信息进行模板匹配时采用的模板库)，并利用更新后的垃圾模板库对后续待检测信息进行模板匹配。

通过如下步骤根据缓存结果更新垃圾模板库：

首先统计辅助过滤后垃圾信息缓冲区中总垃圾信息的条数(即所有类垃圾信息的总条数)，并根据统计结果判断垃圾信息缓冲区中的垃圾信息数量(即条数)是否到达(大于)阈值(本实施例阈值为1000)，则构建相应的垃圾模板并存入垃圾模板库以更新垃圾模板库。

构建每类垃圾信息的垃圾模板时：

(S1)将该类中的垃圾信息分为若干个小类，本实施例中将含有4个连续相同词汇的垃圾信息归为同一小类。

(S2)针对任意一个小类，计算该小类垃圾信息的公共超串(即CommonSupersequence)，并根据公共超串构建该小类的矩阵表示，并对构建的矩阵表示进行列缩减得到相应的列缩减矩阵；

以表1中的5个信息为例，表1是提取到的一个类中的所有信息。观察前两行信息，如果用不变量创建模板的方法，前两行信息将会被归为一类，后三行信息将会被归为另一类。进而将会失去“RIPJonasBevacquamakingoutwith…”这样的结构，使得垃圾信息不能够被完全检测到。

表1

本实施例中采用朴素近似算法计算公共超串：

将n子串(即信息，每一行表示一个子串)作为输入，初始化超串s，然后迭代选择子串最左边的元素a作为输入，加入到s中。同时删除输入子串中的a，重复上述步骤直到所有子串为空，输出s。如表2所示，为本实施例的子串输入的矩阵表示，其中，第一行是最终得到的超串，其余列是输入的子串。

具体详见参看文献，Majority-Merge[T.JiangandM.Li.Ontheapproximationofshortestcommonsupersequencesandlongestcommonsubsequences.nProceedingsofthe21stInternationalColloquiumonAutomata,LanguagesandProgramming,ICALP’94,pages191–202,London,UK,UK,1994.Springer-Verlag。

表2

计算列缩减矩阵的方法：

对矩阵表示进行列缩减即将公共超串中相同的列进行合并，只有满足以下三个条件的列才能被合并：

I.列j和列k拥有相同的字段，

II.在任何行至少有一列是空，

III.如果i行，k列不为空，则所有在i行，j列与k列之间的元素必须为空。本实施例中对步骤如表2所示的矩阵表示进行列缩减得到的列缩减矩阵如表3所示。

表3

本实施例中对列缩减矩阵进行列连接：

针对任意两列，若列缩减矩阵中非零元素对应的位置相同，则认为这两类对应，并将非空元素进行连接；并将连接后的结果中字段性质相同的元素映射到相同的区域。

如表3所示的列缩减矩阵时，将不同列的非空的元素一一对应，如Beppe与Signori对应，但是第4列和第5列不能对应，因为Isaacs对应了making和空串。经过列连接的矩阵，相同的列可能有不同的内容，如表4，它们映射到相同的字典宏(即相同的区域)。

表4

本实施例中步骤(S4)具体如下：

针对每个区域，将该区域中的内容合并，并利用正则表达式表示该区域的合并结果进而得到相应的垃圾模板。

正则表达式表示，即把创建的模板用正则表达式表示，首先初始化正则表达式字符串为一个空串s，如果一个列中所有元素都由相同的值，则将这个值直接加到s中，否则，用“|”来开分隔所有独一无二的值，并将其都加到s中，如表4所示。然后添加开始和结尾标志位，本实施例中用“^”和“$”分别表示正则表达式的开始和结尾。

本实施例中输入是一串在线社交网络(推特)的信息流，进行模板匹配时首先过滤出垃圾信息，其余的信息进入辅助垃圾信息过滤器。一开始模板匹配模型中没有任何模板，所以所有的信息将会通过并进入辅助垃圾信息过滤器进行辅助过滤，辅助垃圾信息过滤器通过训练得到，训练时采用的训练集为含有部分已知的垃圾信息(本实施例中一个推特黑名单中存在的垃圾信息列表)。如果信息与辅助垃圾信息过滤器中的内容相匹配，则这部分信息会进入垃圾信息缓冲区。当垃圾信息缓冲区中的信息数量达到一定的阈值，这部分信息将会先进行去噪处理，之后用于进行模板创建以便创建新的垃圾信息模板(即垃圾模板)。

为提高本实施例的检测方法的检测精度，步骤(b)更新模板库前还对缓存中的垃圾信息进行去噪，并利用去噪后的结果更新垃圾模板库。

由于去噪能够直接提高构建的垃圾模板的精度，针对辅助过滤得到的分类的垃圾信息，如果数量未达到要求，进行去噪会造成应用资源浪费，因此本实施例中去噪仅在总条数满足阈值后进行，然后再更新垃圾模板库。

垃圾信息中常常含有提及他人的符号，标签，没有意义的词汇等语义无关项。无疑，这增加了通过构建模板来检测垃圾信息的难度，将这些内容标记为“噪音”，并对其进行预处理，使得其在模板创建中有效地被忽略。使用条件随机域模型来训练标记噪音。Freq(s)代表字符串s出现的频率。条件随机域模型中的三个特性：Freq(ti)得到ti的普及度，Freq(ti*ti+1)^2/freq(ti)freq(ti+1)和freq(ti-1*ti)^2/freq(ti-1)freq(ti)代表在ti发生的概率与其周围字符串的关系。将这些特性加工成5个离散的分位数放入条件随机域模型中。进一步地，增加了4条正交特性来得到噪音的共同特性，即ti是否大写，是否为数字，是否是标签，是否是用户提及(“”)。为了训练我们自己的条件随机域模型，手工标记了1000条推特信息作为训练集，标记出每条信息里面的每个词为噪音还是非噪音。然后将这些训练过的模型应用到模板创建模型之前，在对标记的推特信息的单独测试中，人工标记的正确率达到了92％。

选取2011年6月1日到2011年6月21日的17,000,000条Twitter数据(即信息)进行评估测试。

首先对17,000,000条Twitter数据进行人工智能分类，通过人工智能分类筛选出基于模板的信息和基于非模板的信息，分类结果如表5所示。可以看出，以模板为基础的占据了63％，说明了大部分的信息拥有潜在的模板，为便于对比说明，本实施例中还同时观察2012年1月的信息(Twitter数据)，可以看出以模板为基础的信息比例在增加。

表5

表6为本实施例的检验垃圾信息精确度的评估与对其他方法的性能比较结果，可以看出，本实施例的检测方法针对所有种类的信息的进行检测时的总体TP(truepositive)和总体FP(falsepositive)分别为76.2％和0.12％，用于检测基于模板的信息时的TP高达95.7％，领先于相似的其他模板检测方法,如Judo检测方法(A.Pitsillidis,K.Levchenko,C.Kreibich,C.Kanich,G.Voelker,V.Paxson,N.Weaver,andS.Savage,“BotnetJudo:FightingSpamwithItself,”inNDSS,2010.)。

表6

此外，还对本实施例的方法进行检测方法的检测速度进行了评估，其中，针对每一条信息进行模板匹配时，耗时为8～80ms，进行模板创建时，本实施例的检测方法，对于达到阈值的1000条垃圾信息创建模板时，平均每类仅需要2.3秒，由于各类创建模板是并行执行的，所以速度非常快。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于模板的在线社交网络垃圾信息实时检测方法，其特征在于，进行检测前先初始化一个空的垃圾模板库，检测时利用所述的垃圾模板库对待检测信息进行模板匹配以进行垃圾信息过滤：

若匹配成功，则认为该信息为垃圾信息，并利用所述的垃圾模板库对后续待检测信息进行模板匹配；

否则，进行如下步骤：

（a）对该待检测信息进行辅助过滤以确定其是否为垃圾信息，以及为垃圾信息时的所属类别并按类别对垃圾信息进行缓存；

（b）根据缓存结果更新所述的垃圾模板库，并利用更新后的垃圾模板库对后续待检测信息进行模板匹配。

2.如权利要求1所述的基于模板的在线社交网络垃圾信息实时检测方法，其特征在于，所述垃圾模板库中的各个垃圾模板为正则表达式，相应的进行模板匹配时基于正则表达式进行。

3.如权利要求1所述的基于模板的在线社交网络垃圾信息实时检测方法，其特征在于，所述步骤（a）利用本文相似度采用基于学习的方法对待检测信息进行辅助过滤。

4.如权利要求3所述的基于模板的在线社交网络垃圾信息实时检测方法，其特征在于，根据分类的垃圾信息更新所述的垃圾模板库时：

5.如权利要求4所述的基于模板的在线社交网络垃圾信息实时检测方法，其特征在于，所述阈值为1000。

6.如权利要求5所述的基于模板的在线社交网络垃圾信息实时检测方法，其特征在于，通过如下步骤构建每类垃圾信息的垃圾模板：

（S1）将该类中的垃圾信息分为若干个小类：

（S2）计算该小类垃圾信息的公共超串，再利用所述的公共超串计算得到相应的列缩减矩阵；

（S3）对列缩减矩阵进行列连接，并将列连接后的列缩减矩阵中字段性质相同的元素映射到相同的区域；

（S4）针对经过步骤（S3）处理后的列缩减矩阵的每个区域，将该区域中的内容合并，并利用正则表达式表示该区域的合并结果进而得到相应的垃圾模板。

7.如权利要求6所述的基于模板的在线社交网络垃圾信息实时检测方法，其特征在于，所述步骤（S1）中将含有k个具有连续相同词汇的垃圾信息归为同一小类，k为2～8。

8.如权利要求1～7中任意一项所述的基于模板的在线社交网络垃圾信息实时检测方法，其特征在于，所述步骤（b）更新模板库前还对缓存中的垃圾信息进行去噪，并利用去噪后的结果更新垃圾模板库。