CN102098332B

CN102098332B - 一种内容审核方法和装置

Info

Publication number: CN102098332B
Application number: CN201010615219.4A
Authority: CN
Inventors: 赵浩多
Original assignee: Beijing Feinno Communication Technology Co Ltd
Current assignee: Beijing Feinno Communication Technology Co Ltd
Priority date: 2010-12-30
Filing date: 2010-12-30
Publication date: 2014-04-16
Anticipated expiration: 2030-12-30
Also published as: CN102098332A

Abstract

本发明公开了一种内容审核方法和装置。在本发明依次通过前置过滤、用户分析、文本归类，不同类的文本采用不同的方式进行过滤，对词库采取分级计分的方式，最终采用人工审核方式对用户提交的内容进行审核，并进行反向培训。本发明的技术方案，能够准确、高效地完成内容审核工作。

Description

一种内容审核方法和装置

技术领域

本发明涉及互联网技术领域，特别是涉及一种内容审核方法和装置。

背景技术

随着互联网的普及，网民数量越来越多，网络舆论热点层出不穷，基于Web2.0的用户交互便利带来了用户生成内容（UGC，UserGenerated Content）的飞速增长，同时也带来了敏感、色情、低俗、广告信息的增长。尤其对于目前流行的社会性网络服务（SNS，Social Networking Services）网站，具有用户发送信息的频率高、传播速度快、数据量大等特点。如何解决这类信息的过滤，为用户维护一个净化的空间成为了迫切的需求。

目前常用的一种方案是根据黑白名单及其对应的规则对网络用户上传的内容进行过滤。或者，基于大量的样本库，对网络用户上传的内容进行审核。

但是，对于前一方案来说，黑白名单的维护成本高，而且用户已经产生大量垃圾信息以后才能加入黑名单，比较被动。

对于后一方案来说：

1、表述同一种意图，用中文可以有多种语言组织方式，这样就带来了前期样本累积非常大；

2、互联网应用中经常在用户每次内容转载和发布后，内容长度都会有变化，尤其对于长文本的情况，针对字数和相似的验证并不是很有效；

3、没有针对内容热度的不同区分处理的优先级，大并发的应用中对大量信息的过滤会成为整个系统的瓶颈。

可见，当前迫切需要一种准确、高效的内容审核方案，以应对网络发展的现状。

发明内容

本发明提供了一种内容审核方法，该能够准确、高效地完成内容审核。

本发明还提供了一种内容审核装置，该装置能够准确、高效地完成内容审核。

为达到上述目的，本发明的技术方案是这样实现的：

本发明公开了一种内容审核方法，对于用户所提交的内容，该审核方法包括以下步骤：

A、根据高危内容检测策略，对用户所提交的内容进行前置过滤处理，如命中，则拒绝上传该内容，否则执行步骤B；

B、根据所维护的用户信息，判断是否允许该用户上传所提交的内容，是则执行步骤C，否则拒绝上传该内容；

C、根据用户所提交的内容的长短，将其归类为长文本、短文本或昵称类；

D、如果用户所提交的内容为短文本或昵称类，则通过分词提取特征信息，对特征信息进行MD5计算后与已有的样本库进行对比，如命中，则拒绝上传该内容，否则执行步骤E；如果用户所提交的内容为长文本，则直接执行步骤E；

E、将用户所提交的内容与多级词库进行匹配，计算总分值，如果总分值大于或等于第一预设阀值，则拒绝上传该内容，如果总分值小于第一预设阀值且大于第二预设阀值，则执行步骤F，如果总分值小于或等于第二预设阀值，则上传该内容；

F、人工审核用户所提交的内容，判断是否允许该用户上传所提交的内容，是则上传该内容，否则拒绝上传该内容；反向培训所述多级词库。

本发明还提供了一种内容审核装置，该装置包括：前置过滤模块、用户分析模块、内容归类模块、短文本过滤模块、文本信息过滤模块、数据库模块和人机接口模块，其中：

前置过滤模块，用于接收用户所提交的内容，根据高危内容检测策略，对用户所提交的内容进行前置过滤处理，如命中，则拒绝上传该内容，否则将用户所提交的内容发送给用户分析模块；

用户分析模块，用于根据所维护的用户信息，判断是否允许该用户上传所提交的内容，是则将用户所提交的内容发送给内容归类模块，否则拒绝上传该内容；

内容归类模块，用于根据用户所提交的内容的长短，将其归类为长文本、短文本或昵称类；如果为短文本或昵称类，则将用户所提交的内容发送给短文本过滤模块，如果为长文本，则将用户所提交的内容发送给文本信息过滤模块；

短文本过滤摸块，用于通过分词提取用户所提交内容的特征信息，对特征信息进行MD5计算后与已有的样本库进行对比，如命中，则拒绝上传该内容，否则将用户所提交的内容发送给文本信息过滤模块；

文本信息过滤模块，用于将用户所提交的内容与多级词库进行匹配，计算总分值，如果总分值大于或等于第一预设阀值，则拒绝上传该内容，如果总分值小于第一预设阀值且大于第二预设阀值，则将用户所提交的内容发送给人机接口模块，如果总分值小于或等于第二预设阀值，则上传该内容；其中，将用户所提交内容所匹配到的所有词库的分值进行累加得到所述的总分值。

数据库模块，用于保存多级词库中，不同级别的词库对应不同的分值；接收人工审核结果的反向培训；

人机接口模块，用于输出用户所提交的内容，由人工进行审核，并根据人工审核结果判断是否允许该用户上传所提交的内容，是则上传该内容，否则拒绝上传该内容。

由上述可见，本发明这种依次通过前置过滤、用户分析、文本归类，不同类的文本采用不同的方式进行过滤，最终采用人工审核并进行反向培训的技术方案，能够准确、高效地完成内容审核工作。

附图说明

图1是本发明实施例中的一种内容审核方法流程示意图；

图2是本发明实施例中的对词库进行分级的一个示例图；

图3是本发明实施例中的的Service Broker的队列示意图；

图4是本发明中一种内容审核装置的组成结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1是本发明实施例中的一种内容审核方法流程示意图。如图1所示，该内容审核方法包括：

1、根据高危内容检测策略，对用户所提交的内容进行前置过滤处理，如命中，则拒绝上传该内容，否则执行步骤2；

在本步骤中，在用户提交内容处对最敏感信息进行按拆词和精确匹配两种方式进行匹配检测，如果命中则直接返回并提示用户。这部分敏感词的设置相对少，主要控制重点时间段高危敏感的内容。

2、进行用户分析，即根据所维护的用户信息，判断是否允许该用户上传所提交的内容，是则执行步骤3，否则拒绝上传该内容；

在本步骤中，具体进行用户行为的记录，通过所记录的用户的违规行为，调整用户所提交内容的优先审核级别；根据用户的好友数以及用户的个人资料判断该用户是否频繁发送违规信息的用户；对于频繁发送违规信息的用户，其违规记录次数达到预设阀值时，进行禁封并加入黑名单中。

本步骤中对用户进行分级，例如：黑白名单用户、发送过违规信息的用户、无好友信息档案的用户等。

3、根据所维护的用户关注热点信息，判断用户所提交的内容是否为用户所关注的热点，以及判断用户所提交的内容是否为推荐内容，并根据判断结果调整用户所提交的内容优先审核级别。

在本步骤中，对用户关注热点进行统计，记录每次用户提交内容关联的关键（key）值，以便对热点内容进行重点关注。另外对被推荐到用户关注区域的内容进行重点监控，适当提高该类信息的审核级别。该操作主要针对发送广告垃圾信息的用户。

在本发明的一个实施例中，可以按内容的热度进行分级，例如分为热点关注信息、推荐信息、普通信息等。针对不同热度级别的信息采用不同的审核优先级。

4、根据用户所提交的内容的长短，将其归类为长文本、短文本或昵称类；

在本步骤中，针对内容长度和来源特征，对各类信息进行分类，并根据不同分类应用不同的审核过滤策略。

在本发明的实施例中，分为长文本（200字以上）、短文本（200字以下）和昵称类（20字以下），其中：

长文本：有语义、政治黄色类信息为主，内容比较复杂包含如Html、图片、链接、视频等外站引用信息，内容审核时间长需要运用的相关审核模块也比较多；

短文本：语义比较单一，主要是广告、诈骗、灌水类信息，发送频度快，传播速度快

昵称类：火星文、形似字、多音字较多，以政治、色情信息为主。

5、对用户所提交的内容进行如下处理：转换形似字、清除忽略字词、繁简转换。

本步骤中是对待过滤内容进行文本净化处理。

6、如果用户所提交的内容为短文本或昵称类，则进行短文本过滤处理，即通过分词提取特征信息，对特征信息进行MD5计算后与已有的样本库进行对比，如命中，则拒绝上传该内容，否则执行步骤7；如果用户所提交的内容为长文本，则直接执行步骤7；

本步骤具体可以采用短文本指纹识别技术，由于发送广告和诈骗信息都是同一时段大批量发送相似的信息，因此这种方式可以高效地应对这种情况的发生。另外，由于昵称内容非常简短，而更新频度很高，基于昵称内容简短，无太多语义组织，直接基于简单关键词匹配和主副词即可达到较好的效果。

7、将用户所提交的内容与多级词库进行匹配，计算总分值，如果总分值大于或等于第一预设阀值，则拒绝上传该内容，如果总分值小于第一预设阀值且大于第二预设阀值，则执行步骤F，如果总分值小于或等于第二预设阀值，则上传该内容；其中，所述多级词库中，不同级别的词库对应不同的分值，将用户所提交内容所匹配到的所有词库的分值进行累加得到所述的总分值。

在本发明实施例中对词库进行拆分，分为高危词库、敏感词库、嫌疑词库。所有词库统一运用主副词、形似词、多音词简繁体、特殊字符忽略策略。

图2是本发明实施例中的对词库进行分级的一个示例图。在图2中采取如下的分值策略：

1+2+3+4=色情粗口诈骗政治事件身体部位15分

2+3+4=色情粗口诈骗政治事件人物14分

1+3+4=色情粗口诈骗身体部位13分

1+2+4=色情政治事件人物身体部位12分

1+2+3=色情粗口身体部位11分

3+4=色情粗口诈骗10分

2+4=色情政治事件人物9分

1+3=粗口诈骗身体部位8分

2+3=粗口诈骗政治事件人物7分

1+4=色情身体部位6分

1+2=政治事件人物身体部位5分

色情4分

粗口诈骗3分

政治事件人物2分

身体部位1分

使用以上策略对文本内容进行过滤评分，分值到达第一设定阀值直接删除并备份，怀疑数据（分值在第一预设阀值和第二预设阀值之间）人工进行进一步审核，即执行步骤8。

8、人工审核用户所提交的内容，判断是否允许该用户上传所提交的内容，是则上传该内容，否则拒绝上传该内容；反向培训所述多级词库。

在本步骤中，人工审核完成提交结果并将结果内容反馈给审核系统，对系统敏感词库进行反向培训。

反馈培训流程，第一步是对误判内容进行分词，第二步分析词在系统中是否有对应内容，如果有调整对应词条分值。如果没有进入嫌疑词，为以后词的调整准备语料。

在本发明的一个实施例中，分级审核最终部署文本分类模块，该模块基于朴素贝叶斯文本分类算法，将一篇文档看作是一系列有序排列的词的集合。文档属于C_j类特征词w_i出现一次的概率为P（w_i/C_j），文档中出现x_i次特征词w_i的概率为

出现一次这种次序排列的词的集合的概率为

为了具体实现上述的内容审核方法，本发明中采用结构化查询语言SQL Service Broker作为消息队列，采用Quartz.NET实现任务的调度。

即基于以上要求采用基于SQL Server Service Broker（为消息和队列应用程序提供SQL Server数据库引擎本机支持）,内部传输格式采用XML。图3是本发明实施例中的的Service Broker的队列示意图。

Quartz.NET是一个开源的作业调度框架，是OpenSymphony的Quartz API的.NET移植，它用C#写成，可用于winform和asp.net应用中。它提供了巨大的灵活性而不牺牲简单性。能够用它来为执行一个作业而创建简单的或复杂的调度。用Quartz.NET实现所有任务调度，达到对队列数据的高效并行处理，并可实现任务的热插拔，单独任务单独管理和维护。

基于上述实施例给出本发明中的一种内容审核装置的组成结构。

图4是本发明中一种内容审核装置的组成结构示意图。如图4所示，该装置包括：前置过滤模块401、用户分析模块402、内容归类模块403、短文本过滤模块404、文本信息过滤模块405、数据库模块406和人机接口模块407，其中：

前置过滤模块401，用于接收用户所提交的内容，根据高危内容检测策略，对用户所提交的内容进行前置过滤处理，如命中，则拒绝上传该内容，否则将用户所提交的内容发送给用户分析模块402；

用户分析模块402，用于根据所维护的用户信息，判断是否允许该用户上传所提交的内容，是则将用户所提交的内容发送给内容归类模块403，否则拒绝上传该内容；

内容归类模块403，用于根据用户所提交的内容的长短，将其归类为长文本、短文本或昵称类；如果为短文本或昵称类，则将用户所提交的内容发送给短文本过滤模块404，如果为长文本，则将用户所提交的内容发送给文本信息过滤模块405；

短文本过滤摸块404，用于通过分词提取用户所提交内容的特征信息，对特征信息进行MD5计算后与已有的样本库进行对比，如命中，则拒绝上传该内容，否则将用户所提交的内容发送给文本信息过滤模块405；

文本信息过滤模块405，用于将用户所提交的内容与多级词库进行匹配，计算总分值，如果总分值大于或等于第一预设阀值，则拒绝上传该内容，如果总分值小于第一预设阀值且大于第二预设阀值，则将用户所提交的内容发送给人机接口模块，如果总分值小于或等于第二预设阀值，则上传该内容；其中，将用户所提交内容所匹配到的所有词库的分值进行累加得到所述的总分值。

数据库模块406，用于保存多级词库中，不同级别的词库对应不同的分值；接收人工审核结果的反向培训；

人机接口模块407，用于输出用户所提交的内容，由人工进行审核，并根据人工审核结果判断是否允许该用户上传所提交的内容，是则上传该内容，否则拒绝上传该内容。

图4所示的装置还可以进一步包括：内容热度分析模块408，用于接收来自用户分析模块402的用户所提交的内容；用于根据所维护的用户关注热点信息，判断用户所提交的内容是否为用户所关注的热点，以及判断用户所提交的内容是否为推荐内容，并根据判断结果调整用户所提交的内容优先审核级别；将用户所提交的内容发送给内容归类模块403。

图4所示的装置还可以进一步包括：文字信息整理模块409，用于接收内容归类模块403发送的用户所提交的内容，对用户所提交的内容进行如下处理：转换形似字、清除忽略字词、繁简转换，然后将用户所提交的内容发送给短文本过滤模块404或文本信息过滤模块405。

在图4所示的装置中，所述用户分析模块402，用于进行用户行为的记录，通过所记录的用户的违规行为，调整用户所提交内容的优先审核级别；用于根据用户的好友数以及用户的个人资料判断该用户是否频繁发送违规信息的用户；对于频繁发送违规信息的用户，其违规记录次数达到预设阀值时，进行禁封并加入黑名单中。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种内容审核方法，其特征在于，对于用户所提交的内容，该审核方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，在步骤B之后，并在步骤C之前，该方法进一步包括：

B1、根据所维护的用户关注热点信息，判断用户所提交的内容是否为用户所关注的热点，以及判断用户所提交的内容是否为推荐内容，并根据判断结果调整用户所提交的内容优先审核级别。

3.根据权利要求1所述的方法，其特征在于，在步骤C之后，并在步骤D之前，该方法进一步包括：

C1，对用户所提交的内容进行如下处理：转换形似字、清除忽略字词和繁简转换。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述步骤B包括：

进行用户行为的记录，通过所记录的用户的违规行为，调整用户所提交内容的优先审核级别；

根据用户的好友数以及用户的个人资料判断该用户是否频繁发送违规信息的用户；

对于频繁发送违规信息的用户，其违规记录次数达到预设阀值时，进行禁封并加入黑名单中。

5.根据权利要求1至3中任一项所述的方法，其特征在于，在所述步骤E中，所述将用户所提交的内容与多级词库进行匹配，计算总分值包括：所述多级词库中，不同级别的词库对应不同的分值，将用户所提交内容所匹配到的所有词库的分值进行累加得到所述的总分值。

6.根据权利要求1至3中任一项所述的方法，其特征在于，在实现该方法时，采用结构化查询语言SQL ServiceBroker作为消息队列，采用Quartz.NET实现任务的调度。

7.一种内容审核装置，其特征在于，该装置包括：前置过滤模块、用户分析模块、内容归类模块、短文本过滤模块、文本信息过滤模块、数据库模块和人机接口模块，其中：

短文本过滤模块，用于通过分词提取用户所提交内容的特征信息，对特征信息进行MD5计算后与已有的样本库进行对比，如命中，则拒绝上传该内容，否则将用户所提交的内容发送给文本信息过滤模块；

文本信息过滤模块，用于将用户所提交的内容与多级词库进行匹配，计算总分值，如果总分值大于或等于第一预设阀值，则拒绝上传该内容，如果总分值小于第一预设阀值且大于第二预设阀值，则将用户所提交的内容发送给人机接口模块，如果总分值小于或等于第二预设阀值，则上传该内容；其中，将用户所提交内容所匹配到的所有词库的分值进行累加得到所述的总分值；

8.根据权利要求7所述的装置，其特征在于，该装置进一步包括：

内容热度分析模块，用于接收来自用户分析模块的用户所提交的内容；用于根据所维护的用户关注热点信息，判断用户所提交的内容是否为用户所关注的热点，以及判断用户所提交的内容是否为推荐内容，并根据判断结果调整用户所提交的内容优先审核级别；将用户所提交的内容发送给内容归类模块。

9.根据权利要求7所述的装置，其特征在于，该装置进一步包括：

文字信息整理模块，用于接收内容归类模块发送的用户所提交的内容，对用户所提交的内容进行如下处理：转换形似字、清除忽略字词和繁简转换，然后将用户所提交的内容发送给短文本过滤模块或文本信息过滤模块。

10.根据权利要求7至9中任一项所述的装置，其特征在于，

所述用户分析模块，用于进行用户行为的记录，通过所记录的用户的违规行为，调整用户所提交内容的优先审核级别；用于根据用户的好友数以及用户的个人资料判断该用户是否频繁发送违规信息的用户；对于频繁发送违规信息的用户，其违规记录次数达到预设阀值时，进行禁封并加入黑名单中。