CN104933191A

CN104933191A - 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端

Info

Publication number: CN104933191A
Application number: CN201510402429.8A
Authority: CN
Inventors: 周德海
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2015-07-09
Filing date: 2015-07-09
Publication date: 2015-09-23

Abstract

本发明公开了一种基于贝叶斯算法的垃圾评论识别方法、系统及终端，步骤如下：将一定数量且确定为正常评论的内容输入到贝叶斯算法的训练集中进行训练，以新评论的内容为关键词，在原有评论库中通过搜索引擎进行搜索；再者检测原有评论库中的评论与新评论的相似度以及数量，根据相似度即数量确定新评论是否为嫌疑垃圾评论；将被判定为嫌疑垃圾评论的新评论的内容输入到贝叶斯算法中进行判定，确定是否为正常评论。本发明结合搜索引擎和贝叶斯算法，能够在没有之前的垃圾评论内容做参照的情况下，在大量的评论中，智能的将垃圾评论挖掘识别出来。避免了纯贝叶斯算法需要依赖于以前的垃圾评论内容，不能智能识别出新的变种的垃圾评论内容的现象。

Description

一种基于贝叶斯算法的垃圾评论识别方法、系统及终端

技术领域

本发明涉及网络安全技术，特别涉及一种基于贝叶斯算法的垃圾评论识别方法、系统及终端。

背景技术

近年来，随着因特网的快速发展，人们发表观点以及相互交流的方式也发生了改变，网络已经成为人们获取知识、交流沟通、发布信息的主要工具，对于当今视频网站、博客、微博、电子商务等互动式平台的发展，评论中信息的挖掘越来越受到关注，人们在观看视频，阅读博客、微博或者在电子商务平台上购买商品后，通常会做出相应的评论，表达自己的观点，例如视频的评论可以反映观看者对于视频的观看后的感觉，博文或者微博评论可以反映阅读者对博文的观点以及对发布者的情感表达，商品评论可以分析出购买者对商品的满意度，供后来者参考。

但是针对相关互动式平台，特别是较为出名的网站或者人气较高的发布者发布的信息，有些用户为谋取私利或者破坏社会稳定，经常发布一些垃圾评论，例如，无关的广告评论、推销评论、含有政治、暴力、色情等评论内容。传统的垃圾评论识别方法主要是通过各种用户特征如关键词来搜索评论本身所携带的内容以检测垃圾评论，在识别后进行事先屏蔽或者事后删除。但是在网站中垃圾评论和正常评论在形式上有时并无区别，而且垃圾评论者可以通过将关键词替换为谐音字词来刻意规避该关键词搜索，很容易被恶意评论这绕过。现有的各种网络系统中，一般是根据贝叶斯算法判别评论内容是否为垃圾评论，贝叶斯算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法，通过这种算法对评论内容进行判别时，可以将恶意评论者想得到的关键词替换内容也作为训练样本输入到贝叶斯算法的训练集，恶意评论者很难通过关键词的替换来绕过识别，具有判别精度更高的优点。但是贝叶斯算法需要根据已有的垃圾评论内容做基础，从而判断新的评论内容是否正常，那就会面临一个问题，如果恶意评论者发的是一条和已有的垃圾内容差别很大的内容，则贝叶斯算法将无法直接识别出来。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于贝叶斯算法的垃圾评论识别方法，该识别方法结合搜索引擎和贝叶斯算法，能够在没有之前的垃圾评论内容做参照的情况下，在大量的评论中，智能的将垃圾评论挖掘识别出来。

本发明的第二目的在于，提供一种用于实现上述方法的基于贝叶斯算法的垃圾评论识别系统。

本发明的第三目的在于，提供一种终端。

本发明的第一目的通过下述技术方案实现：一种基于贝叶斯算法的垃圾评论识别方法，步骤如下：

选择一定数量并且确定为正常评论的内容加入到贝叶斯算法的训练集中进行训练；以新评论的内容作为关键词，通过搜索引擎在原有评论库中进行搜索；

检测在原有评论库中搜索到的评论与新评论的相似度以及数量，当在原有评论库中搜索到和新评论内容的相似度达到预设的第一阈值且数量达到预设的第二阈值的评论时，则将该新评论以及与该新评论相似度达到预设的第一阈值的评论判定为嫌疑垃圾评论；

将被判定为嫌疑垃圾评论的新评论的内容输入到贝叶斯算法中进行判定，若判定结果为该新评论为正常评论的概率达到预设的第三阈值时，则将该新评论判定为正常评论，否则判定为垃圾评论。

优选的，所述选取输入到贝叶斯算法的训练集中进行训练的正常评论的数量为10万条以上。

优选的，原有评论库中的评论与新评论的相似度指的是：新评论和原有评论库中的评论的内容中相同文字的数量与新评论内容中文字总量之间的比值。

优选的，所述预设的第一阈值为80％。

优选的，所述预设的第二阈值200条。

优选的，所述预设的第三阈值为80％。

优选的，还包括以下步骤：当新评论被判定为垃圾评论时，拦截该新评论的内容。

本发明的第二目的通过下述技术方案实现：一种基于贝叶斯算法的垃圾评论识别系统，包括

获取模块，用于获取一定数量并且确定为正常评论的内容，然后输入到贝叶斯算法的训练集中进行训练；

原有评论库，用于存放所有的评论内容的数据库，为原有的数据库；

搜索引擎模块，用于以新评论的内容作为关键词，在原有评论库进行搜索；

相似度检测模块，用于检测搜索引擎模块搜索到原有评论库中的评论和新评论之间的相似度；

数量检测模块，用于检测原有评论库中与新评论内容的相似度达到预设的第一阈值的评论的数量；

嫌疑垃圾评论判定模块，用于在原有评论库中搜索到和新评论的内容的相似度达到预设的第一阈值且数量达到预设的第二阈值的评论时，将新评论以及与该新评论相似度达到预设的第一阈值的评论判定为嫌疑垃圾评论；

以及垃圾评论判定模块，用于将被判定为嫌疑垃圾评论的新评论的内容输入到贝叶斯算法中进行判定，若判定结果为该新评论为正常评论的概率达到预设的第三阈值时，则将该新评论判定为正常评论，否则判定为垃圾评论。

优选的，还包括拦截模块，用于在所述垃圾评论判定模块判定新评论为垃圾评论时，拦截该新评论的内容。

本发明的第三目的通过下述技术方案实现：一种终端，包括上述所述的基于贝叶斯算法的垃圾评论识别系统。

本发明相对于现有技术具有如下的优点及效果：

本发明首先选择一定数量并且确定为正常评论的内容加入到贝叶斯算法的训练集中进行训练；以新评论的内容作为关键词，通过搜索引擎在原有评论库中进行搜索；检测原有评论库中的评论与新评论的相似度以及数量，当在原有评论库中搜索到和新评论内容的相似度达到预设的第一阈值且数量达到预设的第二阈值的评论时，则将该新评论以及与该新评论相似度达到预设的第一阈值的评论判定为嫌疑垃圾评论；将被判定为嫌疑垃圾评论的新评论的内容输入到贝叶斯算法中进行判定，若判定结果为该新评论为正常评论的概率达到预设的第三阈值时，则将该新评论判定为正常评论，否则判定为垃圾评论。本发明首先通过搜索引擎搜索原有评论库，根据相似度判断新评论是否为嫌疑垃圾评论，针对嫌疑垃圾评论再进一步通过贝叶斯算法进行判断，最终确定新评论是否为垃圾评论。本发明结合搜索引擎和贝叶斯算法，并且建立正常评论的训练集，因此能够在没有之前的垃圾评论内容做参照的情况下，在大量的评论中，智能的将垃圾评论挖掘识别出来。避免了纯贝叶斯算法需要依赖于以前的垃圾评论内容，不能智能识别出新的变种垃圾评论内容的现象。能够有效识别出垃圾评论，降低各种垃圾广告对用户的干扰，提升用户体验。

附图说明

图1是本发明实施例1方法的流程图。

图2是本发明实施例2系统的组成框图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

如图1所示，本实施例公开了一种基于贝叶斯算法的垃圾评论识别方法，步骤如下：

选择一定数量并且确定为正常评论的内容加入到贝叶斯算法的训练集中进行训练；本步骤中选取输入到贝叶斯算法训练集中进行训练的正常评论的数量为10万条以上，一般是10至50万条。

以新评论的内容作为关键词，通过搜索引擎在原有评论库中进行搜索；

检测在原有评论库中搜索到的评论与新评论的相似度以及数量，当在原有评论库中搜索到和新评论的内容的相似度达到预设的第一阈值且数量达到预设的第二阈值的评论时，则将该新评论和与该新评论相似度达到预设的第一阈值的评论判定为嫌疑垃圾评论，否则将新评论判定为正常评论；其中本实施例中预设的第一阈值为80％，预设的第二阈值为200条。

将被判定为嫌疑垃圾评论的新评论的内容输入到贝叶斯算法中进行判定，若判定结果为该新评论为正常评论的概率达到预设的第三阈值时，则将该新评论判定为正常评论，否则判定为垃圾评论。在本实施例中预设的第三阈值为80％。

当新评论被判定为垃圾评论时，拦截该新评论的内容。

本实施例上述步骤中，原有评论库中的评论与新评论的相似度指的是：新评论和原有评论库中的评论内容中相同文字的数量与新评论内容中文字总量之间的比值。例如新评论的内容有10个字，如果原有评论库里至少有200条评论的内容有至少8个字与这条新评论重合，那么我们认为原有评论库中这200条评论和这条新评论都是有嫌疑的。这样做的理由是，垃圾评论一般都会批量的发，所以如果发现系统中涌进来大量类似的评论，那很可能是垃圾评论。

本实施例上述识别方法首先通过搜索引擎搜索原有评论库，根据相似度判断新评论是否为嫌疑垃圾评论，针对嫌疑垃圾评论再进一步通过贝叶斯算法进行判断，最终确定新评论是否为垃圾评论。本实施例上述识别方法结合搜索引擎和贝叶斯算法，能够在没有之前的垃圾评论内容做参照的情况下，在大量的评论中，智能的将垃圾评论挖掘识别出来。避免了纯贝叶斯算法需要依赖于以前的垃圾评论内容，不能智能识别出新的变种的垃圾评论内容的现象。能够有效识别出垃圾评论，降低各种垃圾广告对用户的干扰，提升用户体验。

实施例2

如图2所示，本实施例还公开了一种用于实现上述识别方法的基于贝叶斯算法的垃圾评论识别系统，其包括

原有评论库，用于所有评论内容的数据库，是系统原有的数据库；

搜索引擎模块，用于以新评论的内容作为关键词，在原有评论库中搜索评论的内容；

嫌疑垃圾评论判定模块，用于在原有评论库中搜索到和新评论的内容的相似度达到预设的第一阈值且数量达到预设的第二阈值的评论时，将新评论和与该新评论相似度达到预设的第一阈值的评论判定为嫌疑垃圾评论；本实施例中预设的第一阈值为80％，预设的第二阈值为200条。

垃圾评论判定模块，用于将被判定为嫌疑垃圾评论的新评论的内容输入到贝叶斯算法中进行判定，若判定结果为该新评论为正常评论的概率达到预设的第三阈值时，则将该新评论判定为正常评论，否则判定为垃圾评论。在本实施例中预设的第三阈值为80％。

拦截模块，用于在垃圾评论判定模块判定新评论为垃圾评论时，拦截该新评论的内容。以阻值垃圾评论的发布。

实施例3

本实施例还公开了一种包括上述基于贝叶斯算法的垃圾评论识别系统的终端。该终端可以为手机、平板电脑和计算机。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于贝叶斯算法的垃圾评论识别方法，其特征在于，步骤如下：

选择一定数量并且确定为正常评论的内容加入到贝叶斯算法的训练集中进行训练；

2.根据权利要求1所述的基于贝叶斯算法的垃圾评论识别方法，其特征在于，所述选取输入到贝叶斯算法的训练集中进行训练的正常评论的数量为10万条以上。

3.根据权利要求1所述的基于贝叶斯算法的垃圾评论识别方法，其特征在于，原有评论库中的评论与新评论的相似度指的是：新评论和原有评论库中的评论的内容中相同文字的数量与新评论内容中文字总量之间的比值。

4.根据权利要求1所述的基于贝叶斯算法的垃圾评论识别方法，其特征在于，所述预设的第一阈值为80％。

5.根据权利要求1所述的基于贝叶斯算法的垃圾评论识别方法，其特征在于，所述预设的第二阈值200条。

6.根据权利要求1所述的基于贝叶斯算法的垃圾评论识别方法，其特征在于，所述预设的第三阈值为80％。

7.根据权利要求1所述的基于贝叶斯算法的垃圾评论识别方法，其特征在于，还包括以下步骤：当新评论被判定为垃圾评论时，拦截该新评论的内容。

8.一种基于贝叶斯算法的垃圾评论识别系统，其特征在于，包括

9.根据权利要求7所述的基于贝叶斯算法的垃圾评论识别系统，其特征在于，还包括拦截模块，用于在所述垃圾评论判定模块判定新评论为垃圾评论时，拦截该新评论的内容。

10.一种终端，其特征在于，包括权利要求8或9所述的基于贝叶斯算法的垃圾评论识别系统。