CN103795612A

CN103795612A - 即时通讯中的垃圾和违法信息检测方法

Info

Publication number: CN103795612A
Application number: CN201410020880.9A
Authority: CN
Inventors: 张朝阳; 张爱华; 张月; 张鹏; 曹亮
Original assignee: Beijing 58 Information Technology Co Ltd
Current assignee: Beijing 58 Information Technology Co Ltd
Priority date: 2014-01-15
Filing date: 2014-01-15
Publication date: 2014-05-14
Anticipated expiration: 2034-01-15
Also published as: CN103795612B

Abstract

本发明提供了一种即时通讯中的垃圾和违法信息检测方法。根据本发明的方法包括如下步骤：a)建立包含正、负样本的样本库，所述正、负样本是基于用户行为样本以及用户聊天内容样本生成的；b)基于所述样本库生成判别异常行为的决策树；c)利用决策树实时检测有异常行为的用户IP；d)对步骤c中检测得到的异常行为的用户IP进行处理。利用本发明的即时通讯中的垃圾和违法信息检测方法，能够准确并高效地遏制即时通讯中的垃圾和违法信息的传播，净化用户的上网环境，保障用户体验。

Description

即时通讯中的垃圾和违法信息检测方法

技术领域

本发明涉及即时通讯信息过滤技术，特别是一种即时通讯中的垃圾和违法信息检测方法。

背景技术

即时通讯所拥有的实时性、跨平台性、成本低、效率高等诸多优势，使之成为网民们最喜爱的网络沟通方式之一。从即时通讯工具的出现到目前为止，即时通讯经过不到十年的发展，取得了巨大的成功，它即将超越电子邮件服务而成为互联网上最普及的交流方式。

目前，很多电子商务网站（例如二手商品交易平台等网站）为了增强网站用户的活跃度、网站的互动性，都会在网站中添加即时通讯的功能。而且，为了增强网站的活跃度,有些网站将即时通讯的权限设置为：网站账户的注册门槛很低；任何用户无需登录即可向任意卖家发送消息；卖家可以向访问过他帖子的用户发送消息；即时通讯中用户不能主动选择接收即时消息。由于以上特点，使得用户不可避免的会接收到没有任何价值的即时消息，甚至是黄色、钓鱼、造假等违法信息。而随着即时通讯用户群数目的不断扩大，这种无价值的即时消息不可避免的也越来越多，这也给即时通讯的用户带来了很大的困扰。

现有的一种即时通讯中垃圾信息的检测方法是采用贝叶斯这种概率算法对非法短信内容进行识别，然而这种方法中存在较高的误判率。

因此，需要一种即时通讯中的垃圾和违法信息检测方法，来准确并高效地遏制即时通讯中的垃圾和违法信息的传播，净化用户的上网环境，保障用户体验。

发明内容

本发明的目的是提供一种即时通讯中的垃圾和违法信息检测方法。

根据本发明的一种用于即时通讯中的垃圾和违法信息检测方法，所述方法包括如下步骤：a)建立包含正、负样本的样本库，所述正、负样本是基于用户行为样本以及用户聊天内容样本生成的；b)基于所述样本库生成判别异常行为的决策树；c)利用决策树实时检测有异常行为的用户IP；d)对步骤c中检测得到的异常行为的用户IP进行处理。

优选地，所述步骤a中对用户行为样本分析包括如下子步骤：a1)抽取信息日志中的用户行为特征数据，统计行为特征来生成行为特征向量；a2)设置行为特征向量每个维度上的行为特征阈值，将超过行为特征阈值的数据划分为负样本，将低于行为特征阈值的数据划分为正样本。

优选地，所述步骤a中对用户聊天内容样本分析包括如下子步骤：a3)对用户聊天消息内容进行聚类；a4)在通过聚类得到的大簇中抽取代表样本；a5)对代表样本进行审查，将审查后的垃圾信息或违法信息归为聊天内容样本库的负样本，将审查后的正常信息归为聊天内容样本库的正样本。

优选地，所述步骤a1中以用户IP地址为单位从多个维度统计行为特征。

优选地，所述步骤a2中的设置行为特征阈值的方法包括按照初始比例分位点设置初始的行为特征阈值；以及通过计算阈值以上的行为特征对总体行为特征的方差的影响，调整行为特征阈值。

优选地，所述步骤a3中的聚类的算法采用DBSCAN算法。

优选地，所述步骤b中采用C4.5算法生成判别异常行为的决策树。

优选地，所述步骤c还包括对用户聊天内容进行检测。

优选地，在所述聊天内容中检测垃圾消息及违法消息使用的敏感词是利用CHI特征项选择方法产生。

优选地，所述步骤d的处理包括暂缓该IP的用户的即时消息的发送、增加对用户的限制规则，调低该用户在即时通讯时的敏感词阈值。

利用本发明的即时通讯中的垃圾和违法信息检测方法，能够准确并高效地遏制即时通讯中的垃圾和违法信息的传播，净化用户的上网环境，保障用户体验。

附图说明

参考随附的附图，本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明，其中：

图1示意性示出了本发明的即时通讯中的垃圾和违法信息检测方法的流程图。

具体实施方式

通过参考示范性实施例，本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而，本发明并不受限于以下所公开的示范性实施例；可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

本发明的一种即时通讯中的垃圾和违法信息检测方法，通过训练及更新判别模型，来对即时通讯中的垃圾和违法信息进行检测。

图1示意性示出了本发明的即时通讯中的垃圾和违法信息检测方法的流程图。如图1所示：

步骤110，建立包含正、负样本的样本库。样本库中的正、负样本的生成是基于用户行为样本以及用户之间聊天内容样本。下面对获取和分析两种样本的方法进行详细说明。

对用户行为样本进行分析

首先，抽取信息日志中的用户行为特征数据，统计行为特征来生成行为特征向量。首先以用户IP地址为单位从多个维度统计行为特征，并形成由多个行为特征组成的行为特征向量。

用户行为例如包括登录、发消息等。用户行为特征例如包括同一IP地址在一天内以多少个账号登录、发送消息量、消息回复比率、夜间发送消息量向单人发送消息的最高值，在多少个城市发送消息，在多少个频道发送消息等。例如，假设1个IP地址一天产生了100个用户行为，系统假设只统计3个维度的用户行为特征，例如以多少个账号登录、发送消息量、消息回复比率。那么一个行为特征向量是(5,200,0.05)，这表示这个IP一天当中以5个账号登录，发出去了200条消息，收到回复的消息量除以发出去的消息量是0.05。

然后，设置行为特征向量每个维度上的行为特征阈值，该行为特征阈值用于区分正常用户行为和异常用户行为，并且只要行为特征向量中有一个维度的行为特征在行为特征阈值以上就将该行为特征向量标记为异常。以“日消息发送量”这个维度为例，假如这个维度上的阈值定为90，那所有日消息发送量在90以上的IP都认为是异常行为。

设置行为特征阈值的方法包括如下2个子步骤：

（1）首先按照初始比例分位点设置初始的行为特征阈值，即将特征向量统计结果的一个初始比例分位点的特征向量值设为行为特征阈值。该初始比例分位点优选为五分之四分位点。对于现有的所有行为特征向量，每个行为特征向量中含有多个行为特征，现以“日消息发送量”行为特征为例，对按照初始比例分位点设置初始的行为特征阈值进行解释。例如，现有1000个行为特征向量，即存在组成1000个行为特征向量的1000个“日消息发送量”行为特征，对1000个“日消息发送量”行为特征从小到大排序，将位于总特征的五分之四分位点的行为特征值初步设为“日消息发送量”行为特征的阈值，该行为特征阈值例如是80。即，对1000个“日消息发送量”从小到大排序，前800个都小于80，后200个大于80，即将位于五分之四分位点的行为特征值80初步为“日消息发送量”的行为特征阈值。

（2）通过计算阈值以上的行为特征对总体行为特征的方差的影响，调整行为特征阈值。其中，方差表示样本的离散程度，方差越大说明样本越分散，方差越小说明样本越集中。这里仍以上述“日消息发送量”行为特征为例，“日消息发送量”的行为特征阈值被初步设为80，计算前800个样本的方差X，并计算包括阈值以上的200个样本的1000个样本的方差Y，如果Y-X较小（即最高的五分之一对总体的方差影响较小），，例如(Y-X)/X<0.1，这说明后200个样本中包含正常样本，需要进一步调高行为特征阈值。

此时需要适当把阈值调高，例如，将其从80调到90。此时日消息发送量大于90的IP只有50个，如果X代表前950个的方差，Y代表全部（1000个）的方差，若此时Y-X的结果比较大，则表示这50个和前950个分隔得比较远，即日消息发送量大于90的样本对总体样本的方差影响比较大。说明把阈值定在90是合理的。

用于统计行为特征的数据是日志信息中的数据。在利用以上算法确定出行为特征阈值之后，将日志信息中超过行为特征阈值的数据划分为负样本，将低于行为特征阈值的数据划分为正样本，从而形成了样本库。

对用户聊天内容进行样本分析

首先，对聊天消息内容进行聚类。以用户IP为单位对其所有消息进行聚类。

优选地，当某用户IP的一天内的消息量超过所设定的阈值（例如20）时，对聊天消息内容进行聚类。

优选地，进行聚类的算法优选采用DBSCAN算法。DBSCAN算法是一种基于密度的聚类算法。该算法的目的在于过滤低密度区域，发现稠密度样本点，跟传统的基于层次聚类和划分聚类的凸形聚类簇不同，该算法可以发现任意形状的聚类簇，与传统的算法相比它有如下优点：不需要输入打算划分的聚类个数；聚类簇的形状没有bias；可以在需要时输入过滤噪声的参数。

优选地，聚类时的距离计算方法优选采用Jacard相似度。

然后，在通过聚类得到的大簇中抽取代表样本。

最后，对代表样本进行审查，将审查后的垃圾信息或违法信息放入聊天内容样本库的负样本中，将审查后的正常信息放入聊天内容样本库的正样本中。

优选地，将发送垃圾信息或违法信息的用户IP的行为特征向量放入行为样本库的负样本中；

步骤120，基于所生成的包含正负样本的样本库生成判别异常行为的决策树。优选地，本发明采用C4.5算法生成判别异常行为的决策树。其中，C4.5算法一种决策树算法，具有分类精度高、成的模式简单、以及对噪声数据有很好的健壮性的优点，是目前应用最为广泛的归纳推理算法之一。

步骤130，利用决策树实时检测有异常行为的用户IP。即，决策树利用决策树对同一IP地址下的各项行为特征进行检测。

优选地，在步骤130中，还对用户聊天内容进行检测。具体地，检测垃圾消息及违法消息。检测包括敏感词的聊天消息，若发现聊天消息包括敏感词则禁止该聊天消息的发送。

优选地，检测包括特殊敏感词的组合的聊天消息。通过对敏感词的各种组合进行实验，找出是垃圾消息或违法消息的可能性较大的组合，并对包括该组合的聊天消息进行检测，以提高判定聊天消息为垃圾消息或违法消息的置信度。

更优选地，在检测聊天内容中的垃圾消息及违法消息时使用的敏感词是利用CHI特征项选择方法产生的。即，在检测垃圾消息及违法消息时使用的敏感词是利用CHI特征项选择方法在聊天内容样本库中选取的。并且，优选地，在选取敏感词时，采用关联规则挖掘的方法，找出那些与已知敏感词同时出现的词，将其作为敏感词并加入敏感词库。

步骤140，对异常行为的IP进行处理。若通过步骤130检测出某IP的行为是异常行为（行为特征向量为异常，或聊天内容含有敏感词），则对该IP的用户进行限制，并对以后一段时期他以送的消息实施更严格的监控。其中，限制优选包括：暂缓该IP的用户的即时消息的发送。更严格的监控包括增加对用户的限制规则，调低该用户在即时通讯时的敏感词阈值。例如，若正常情况下将日消息发送量大于90的行为判定为异常，在对于某些用户进行“更严格的监控”时，则将日消息发送量大于80的行为判定为异常。又例如，在正常情况下允许即时通讯文本中包含“58”的词汇，在对于某些用户进行“更严格的监控”时，则将包含“58”的消息判定为异常，不允许该消息发送。

结合这里披露的本发明的说明和实践，本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的，本发明的真正范围和主旨均由权利要求所限定。

Claims

1.一种用于即时通讯中的垃圾和违法信息检测方法，所述方法包括如下步骤：

a)建立包含正、负样本的样本库，所述正、负样本是基于用户行为样本以及用户聊天内容样本生成的；

b)基于所述样本库生成判别异常行为的决策树；

c)利用决策树实时检测有异常行为的用户IP；

d)对步骤c中检测得到的异常行为的用户IP进行处理。

2.如权利要求1所述的方法，其中所述步骤a中对用户行为样本分析包括如下子步骤：

a1)抽取信息日志中的用户行为特征数据，统计行为特征来生成行为特征向量；

a2)设置行为特征向量每个维度上的行为特征阈值，将超过行为特征阈值的数据划分为负样本，将低于行为特征阈值的数据划分为正样本。

3.如权利要求1所述的方法，其中所述步骤a中对用户聊天内容样本分析包括如下子步骤：

a3)对用户聊天消息内容进行聚类；

a4)在通过聚类得到的大簇中抽取代表样本；

a5)对代表样本进行审查，将审查后的垃圾信息或违法信息归为聊天内容样本库的负样本，将审查后的正常信息归为聊天内容样本库的正样本。

4.如权利要求2所述的方法，其中所述步骤a1中以用户IP地址为单位从多个维度统计行为特征。

5.如权利要求2所述的方法，其中所述步骤a2中的设置行为特征阈值的方法包括按照初始比例分位点设置初始的行为特征阈值；以及通过计算阈值以上的行为特征对总体行为特征的方差的影响，调整行为特征阈值。

6.如权利要求3所述的方法，其中所述步骤a3中的聚类的算法采用DBSCAN算法。

7.如权利要求1所述的方法，其中所述步骤b中采用C4.5算法生成判别异常行为的决策树。

8.如权利要求1所述的方法，其中所述步骤c还包括对用户聊天内容进行检测。

9.如权利要求8所述的方法，其中在所述聊天内容中检测垃圾消息及违法消息使用的敏感词是利用CHI特征项选择方法产生。

10.如权利要求1所述的方法，其中所述步骤d的处理包括暂缓该IP的用户的即时消息的发送、增加对用户的限制规则，调低该用户在即时通讯时的敏感词阈值。