CN102591983A

CN102591983A - 一种广告过滤系统及其过滤方法

Info

Publication number: CN102591983A
Application number: CN201210004667XA
Authority: CN
Inventors: 吴华鹏; 曾明; 刘宇
Original assignee: PHOENIX ONLINE (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Current assignee: PHOENIX ONLINE (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Priority date: 2012-01-10
Filing date: 2012-01-10
Publication date: 2012-07-18

Abstract

一种广告过滤系统，包括：内容输入接口、特征分析模块、以及决策计算模块、数据记录模块、信息库、指令输出接口、人工操作输入接口和机器学习模块；其中，内容输入接口用于接收来自于互联网互动产品的用户生成内容；特征分析模块用于分析用户生成内容，提取用户生成内容的多种特征，并根据特征历史情况及人工操作记录计算特征值，生成特征向量；信息库用于存储用户生成内容的各项特征数据；决策计算模块用于根据特征分析模块生成的特征向量综合判断是否对用户生成内容进行过滤；数据记录模块用于将特征数据、分类数据以及人工操作记录写入信息库；指令输出接口用于将决策计算模块判断的结果整理成显示/屏蔽操作指令，同步给互联网互动产品；人工操作输入接口用于接收并解析人工修改过滤结果的操作；机器学习模块利用每次分析的结果以及人工操作记录进行学习，并根据学习更新决策计算模块。

Description

一种广告过滤系统及其过滤方法

技术领域

本发明涉及一种广告过滤系统及其过滤方法，尤其涉及一种针对互联网互动产品的特点，对灌水及商业广告等信息进行准确过滤的过滤系统及其过滤方法，属于网络信息安全技术领域。

背景技术

现阶段，互联网上各大论坛、博客等都面临着广告帖的大量灌入，极度影响用户的互动体验。一般，论坛、博客都有提供给版主删除广告、违法信息的操作后台，但是人工不能保证及时的屏蔽广告。本发明正是嵌入在这样的操作后台，使用多种方法提取文本特征。这些方法可以看做弱分类器，根据Boosting思想，我们使用人工神经网络将多种识别方法自适应融合。本发明识别速度快、识别率高，支持无人工操作。

目前，各个网站针对此情况一般都是采用如下的技术措施：

1.将发帖过多或间隔时间过短的帖子交予人工审查。这种方法可以对一部分广告做到过滤，但是面对过多用户同时发布多篇广告帖时，需要审查的帖子数量过多，管理员压力巨大，审查时间也会过长。

2.网友举报发布广告帖的用户：对于广告帖，网友可以进行举报，每人可举报一次，当举报数超过一定数量时，对被举报用户进行禁言措施。此种方法需要活跃用户自发参与，但若数量太大或马甲重复发帖，单凭网友力量很难解决。

3.关键词过滤方式：使用常见广告词汇作为关键词，包含关键词禁止发布。此种方法只能处理低级广告，若出现词变形或绕关键词，则无法识别。

4.使用预先设定的过滤参数，过滤参数不能根据不断变化的广告帖自动变化，即使出现过多误判，也只能人工对参数更新，而不能自我学习，无法适应广告帖发展趋势。

5.只是使用预订参数自动过滤，对人工操作没有给予考虑：当一些经过过滤系统过滤认为并不存在问题的帖子，可能由于其他规则被人工操作删除后，由于不会学习人工操作，下次系统遇到相似的帖子仍然不会过滤。

针对现有技术的种种不足，本发明嵌入到互动产品用户生成内容管理后台，根据内容及用户行为过滤广告帖内容。需要解决如下问题：

1.根据内容特点识别及过滤广告帖等不良内容；

2.结合用户历史及内容历史提高识别准确度；

3.分析每次人工操作，并在后续过滤中发挥作用；

4.自动对比机器与人工操作结果，自动调整参数。

发明内容

本发明所要解决的技术问题在于提供一种广告过滤系统及其过滤方法，可以对广告帖等不良信息进行自动过滤。

为实现上述的发明目的，本发明采用下述的技术方案：

一种广告过滤系统，其特征在于：

所述广告过滤系统包括内容输入接口、特征分析模块、以及决策计算模块、数据记录模块、信息库、指令输出接口、人工操作输入接口和机器学习模块；其中，

内容输入接口用于接收来自于互联网互动产品的用户生成内容；

特征分析模块用于分析用户生成内容，提取用户生成内容的多种特征，并根据特征历史情况及人工操作记录计算特征值，生成特征向量；

信息库用于存储用户生成内容的各项特征数据；

决策计算模块用于根据特征分析模块生成的特征向量综合判断是否对用户生成内容进行过滤；

数据记录模块用于将特征数据、分类数据以及人工操作记录写入信息库；

指令输出接口用于将决策计算模块判断的结果整理成显示/屏蔽操作指令，同步给互联网互动产品；

人工操作输入接口用于接收并解析人工修改过滤结果的操作；

机器学习模块利用每次分析的结果以及人工操作记录进行学习，并根据学习更新决策计算模块。

所述内容输入接口包括：

数据输入接口，校验输入的用户生成内容数据的数据格式以及完整性；

解析器，解析输入的用户生成内容数据，获得ID、标题、内容、用户ID、发布时间等信息。

所述特征分析模块包括：分词器、相似度分析模块、文本内容分类模块、发帖间隔分析模块、联系方式分析模块、URL提取器、URL分析模块、图片内容分析模块以及用户分析模块。

所述分词器使用汉语词法分析系统对用户生成内容中的文本内容进行分词；

所述相似度分析模块对分词后的词进行分析，得到与当前内容相似的内容发布次数，并根据人工操作记录或相似发布次数得到当前用户生成内容可能为广告的相似度特征值。

所述文本内容分类模块使用分词后的词在文本分类特征词集合进行映射得到词向量，使用支持向量机对词向量进行分类，得出的删除概率作为文本内容分类模块特征值。

发帖间隔分析模块根据用户ID对比该用户上次发帖时间与本次时间，得到发帖时间间隔，并根据发帖时间间隔得到当前用户生成内容可能为广告的发帖间隔特征值；

所述联系方式分析模块用于提取解析后的用户生成内容数据中可能存在的联系方式，并对该联系方式进行分析，得到与当前联系方式相同的联系方式发布过多少次，并根据人工操作记录或联系方式发布次数得到当前用户生成内容可能为广告的联系方式特征值。

URL提取器从解析后的数据中识别出所有URL；

URL分析模块对每个URL进行次数统计，并根据人工操作记录或出现次数最多的URL次数得到当前用户生成内容可能为广告的URL特征值。

所述图片内容分析模块从解析后的用户生成内容数据的图片中选取一个或多个特定点，计算图片校验值；

对该图片校验值进行分析，得到与当前图片校验值相同的值出现过多少次就代表相同图片发布过多少次，并根据人工操作记录或相同图片发布次数得到当前用户生成内容可能为广告的图片特征值。

所述用户分析模块从用户库中查询用户发文记录，根据用户发帖被删除和通过次数进行计算用户特征值。

所述信息库具有联系方式库、用户库、图片特征库、URL库、文章库以及相似度倒排索引，其中

联系方式库用于存储联系方式内容、联系方式种类、联系方式出现次数、以及广告过滤通过和删除次数；

用户库用于存储用户ID和上次发帖时间；

图片特征库用于存储图片特征、图片出现次数以及广告过滤通过和删除次数；

URL库用于存储Url内容、URL出现次数以及广告过滤通过和删除次数；

文章库用于存储文章ID和广告过滤通过和删除次数；

相似度倒排索引用于快速匹配文本相似度。

所述决策计算模块根据相似度分析模块、文本内容分类模块、发帖间隔分析模块、联系方式分析模块、URL分析模块、图片内容分析模块以及用户分析模块产生的特征值生成一个多维特征向量，并经由神经网络进行分类，确定输入的用户生成内容是否为广告帖。

所述机器学习模块通过对特征数据和分类数据的分析，使用反向传播算法对降噪后的数据进行机器学习，找到最优的决策神经网络，并对当前神经网络进行更新；

所述机器学习模块还通过对词和分类数据的分析，使用X2统计选择文本分类特征词，并更新文本分类特征词库。

一种广告过滤方法，基于上述广告过滤系统实现，其特征在于包括如下的步骤：

a.接收用户生成内容；

b.对用户生成内容进行解析；

c.分析用户生成内容，并提取用户生成内容的多种特征；

d.根据多种特征分别得到用户内容可能为广告的多个特征值；

e.根据多个特征值生成一个多维特征向量；

f.利用多维特征向量对用户生产数据进行神经网络分类，确定输入的用户生成内容是否为广告帖；

g.更新信息库；

h.输出显示或屏蔽操作指令至互动产品；

i.可接收人工操作结果，并提升之后的过滤效果；

j.定时对每次分析和过滤的结果以及人工操作记录进行学习，并根据学习更新神经网络分类方法和更新文本分类特征词集合。

所述步骤c中提取用户生成内容的多种特征具体包括：

提取相似度特征，用于分析与当前内容相似的内容发布次数并结合人工操作记录来获得相似度特征；

提取文本分类特征，用于分析用户生成内容文字特点，使用支持向量机进行分类，得出删除概率，从而获得文本分类特征；

提取发帖间隔特征，用于根据用户ID对比该用户上次发帖时间与本次时间，得到发帖时间间隔特征；

提取联系方式特征，用于提取用户生成内容数据中可能存在的联系方式，并对该联系方式进行分析，得到与当前联系方式相同的联系方式发布过多少次并结合人工操作记录来获得联系方式特征；

提取URL特征，用于分析与当前URL相同的URL出现过多少次并结合人工操作记录来获得URL特征；

提取图片特征，用于分析与当前图片相同的图片出现过多少次并结合人工操作记录来获得图片特征；

提取用户特征，根据用户发帖被删除和通过次数并结合人工操作记录来获得用户特征。

所述步骤d中得到用户内容可能为广告的多个特征值包括：

相似度特征值、文本分类特征值、发帖间隔特征值、联系方式特征值、URL特征值、图片特征值和用户特征值。

所述步骤f使用人工神经网络分类算法对步骤e生成的特征向量进行分类。

所述步骤g中更新信息库包括：

更新联系方式库、URL库、用户库、文章库、相似度倒排索引以及图片特征库，其中

更新联系方式库：更新联系方式内容、联系方式种类以及联系方式出现次数还有人工操作通过和删除次数；

更新URL库：更新URL内容及其出现次数还有人工操作通过和删除次数；

更新用户库：更新用户ID和上次发帖时间还有人工操作通过和删除次数；

更新文章库：更新文章ID和广告过滤通过/删除次数还有人工操作通过和删除次数；

更新图片特征库：更新图片校验值、相同图片出现次数和广告过滤通过/删除次数还有人工操作通过和删除次数；

更新相似度倒排索引。

所述步骤j中对每次分析和过滤的结果进行学习包括：

加载特征数据和分类数据，依据文本ID合并特征数据及分类数据，降噪后使用反向传播算法对降噪后的数据进行机器学习，并更新神经网络；

加载词数据和分类数据，依据文本ID合并词数据及分类数据，使用X2统计选择文本分类特征词，并更新文本分类特征词库。

利用本发明所提供的广告过滤系统及其过滤方法可以有效解决背景技术中提及的四个问题：

本发明提供的广告过滤系统及其过滤方法：

1.具有自主学习能力，能够根据每次的过滤结果每次分析和过滤的结果进行学习，并根据学习更新系统，与自动根据广告帖发展趋势做出适应性过滤策略调整。

2.覆盖了内容过滤及多种行为过滤。相对于其他方法，识别更全面，召回率很有优势，漏删少。

3.自动结合人工操作，将人工操作作为自动过滤过滤的重要考虑因素，并能够根据人工操作记录进行智能学习更新。

4.使用神经网络对特征向量进行决策计算，全体特征值对决策均有贡献。相对其他技术，准确率很有优势，误删少。

下面结合附图和具体实施方式对本发明作进一步的详细说明。

附图说明

图1为本发明所提供的广告过滤系统的整体结构示意图；

图2为本发明所提供的广告过滤系统的计算流程图；

图3为本发明所提供的广告过滤系统的神经网络学习流程图；

图4为本发明所提供的广告过滤系统的文本分类特征学习流程图。

图5为本发明所提供的广告过滤系统的决策计算模块的人工神经网络结构图；

图6为本发明所提供的广告过滤系统的发帖间隔分析的高斯函数图。

图7所示为广告图示例图。

具体实施方式

为了提高本发明对不良信息的过滤效果，发明人对大量互联网互动产品中的灌水、广告帖进行了分析，发现灌水或广告帖包括以下特点的一点或几点：

1.多次发布：发布广告者希望更多的人看到广告，会在多个版块、重复发相同或相似内容。

2.发布时间间隔短：由于使用广告发布机之类的软件，发布时间间隔比用户正常发布时间间隔短。

3.留有联系方式：包括座机号、手机号、QQ号、电子邮件，网址。

4.统一的文本特征：广告帖内容与正常帖有较大的不同，会出现很多正常贴中很少出现的文字。

5.发布广告帖的ID，不会发正常帖。

6.很有可能用图片代替文字，但同一张图会重复发多次。

本发明使用的技术有：

1.文本相似度计算

顾名思义，文本相似度为测量若干文本间的相似程度。一般需要使用到的有，停用词过滤、特征选择、加权、相似度测量方法。本发明中采用简化模式，要求匹配速度。故采用了倒排索引的方法来记录特征词。

2.停用词

即已被认定为没有必要收录的词。若使用这些词作为特征，对效果有负面影响。

如：？()不会一他的又

3.ICTCLAS分词

中国科学院计算技术研究所在多年研究工作积累的基础上，研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology，Chinese Lexical AnalysisSystem)，主要功能包括中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典。

4.人工神经网络分类器

人工神经网络是由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的，试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。人工神经网络通过提供的训练样本、验证样本进行自学习，学习算法叫反向传播。神经网络是分类器的一种。是常见的特征自学习权重计算的方法。

输入数据为特征分析模块提取出的由若干个[0，1]区间实数构成的特征向量。

输出数据为两个实数，分别表示判定为正常帖或广告帖的数值。若正常帖数值大，则判定为正常帖，否则为垃圾帖。如图5所示。

5.X²统计特征选择

若干文档中，存在设定好的分类C：{C₁，C₂，C₃...C_m}，文档总数为N，t为待选择词，C_i为第i个分类。

以A表示所有文档中t和C_i同时发生的次数；

B表示所有文档中t发生和C_i不发生的次数；

C表示所有文档中t不发生和C_i发生的次数；

6.SVM分类器

SVM方法是通过一个非线性映射p，把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间)，使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题。SVM应用核函数的展开定理，就不需要知道非线性映射的显式表达式；由于是在高维特征空间中建立线性学习机，所以与线性模型相比，不但几乎不增加计算的复杂性，而且在某种程度上避免了“维数灾难”.这一切要归功于核函数的展开和计算理论.

选择不同的核函数，可以生成不同的SVM，常用的核函数有以下4种：

(1)线性核函数K(x，y)＝x·y；

(2)多项式核函数K(x，y)＝[(x·y)+1]d；

(3)径向基函数K(x，y)＝exp(-|x-y|^2/d^2)

(4)二层神经网络核函数K(x，y)＝tanh(a(x·y)+b).

本发明使用LibSVM软件包实现。

LIBSVM是台湾大学林智仁(Lin Chih-Jen)副教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包，他不但提供了编译好的可在Windows系列系统的执行文件，还提供了源代码，方便改进、修改以及在其它操作系统上应用；该软件对SVM所涉及的参数调节相对比较少，提供了很多的默认参数，利用这些默认参数可以解决很多问题。

7.高斯函数(正态分布)

由于函数图右半段适合于随时间衰减的状况，故在本发明中使用高斯函数计算发帖时间间隔的特征计算。高斯函数图如图6所示。

如附图1所示，本发明所提供的广告过滤系统包括内容输入接口、特征分析模块、以及决策计算模块、数据记录模块、信息库、指令输出接口、人工操作输入接口和机器学习模块；其中，

信息库用于存储用户生成内容的各项特征数据；

指令输出接口用于将决策计算模块判断的结果整理成显示或屏蔽操作指令，同步给互联网互动产品；

人工操作输入接口用于接收并解析人工修改过滤结果的操作。

内容输入接口包括：

数据输入接口：对输入数据进行校验，数据格式、完整性。

解析器：解析数据，获得ID、标题、内容(包含链接、图片信息)、用户ID、发布时间。

下面结合附图2，对本发明提供的广告过滤系统的计算流程进行详细说明：

特征分析模块包括：分词器、相似度分析模块、文本内容分类模块、发帖间隔分析模块、联系方式分析模块、URL提取器、URL分析模块、图片内容分析模块和用户分析模块。

所述分词器使用汉语词法分析系统(ICTCLAS)对用户生成内容中的文本内容进行分词；

分词器工作流程：

1.使用汉语词法分析系统(ICTCLAS)进行分词

2.过滤所有词中的停用词

3.提取出名词、动词、形容词、位置词

4.提交至相似度分析、文本内容分类

相似度分析模块对分词后的词进行分析，得到与当前内容相似的内容发布过多少次，并根据相似发布次数得到当前用户生成内容可能为广告的相似度特征值。

相似度分析模块工作流程：

提取分词后词频最高的20个词，构成词向量；

依次在相似度倒排索引中查询，得到文本集合；

查看文本集合中词命中次数大于阈值的文本ID集合；

依次对集合中文本取文本操作库数据，是否有人工操作记录

若总人工操作文本数大于2，使用人工操作倾向性(正常/广告)，公式：

V_{similar} = \frac{N_{del}}{N_{pass} + N_{del} + 1}

否则，使用相似内容发布次数判定是否有广告帖倾向，出现越多值越大，次数0-12的值分别为{0，0，0.2，0.3，0.4，0.5，0.6，0.7，0.7，0.8，0.8，0.9，0.9}，12以上为0.9。

文本内容分类模块使用分词后的词在文本分类特征词集合中做映射，得到一个特征词向量。使用已训练完成的SVM(支持向量机)对特征词向量进行分类计算，得出当前用户生成内容为广告内容的概率，作为文本内容分类的特征值。

文本内容分类模块工作流程：

使用词，对文本分类特征词集合(已预先学习)进行映射，得到一个特征词向量

使用SVM(支持向量机)对特征词向量进行分类，得出当前用户生成内容为广告的概率([0，1]区间的实数)，作为文本内容分类的特征值。

发帖间隔分析模块工作流程：

根据用户ID，在用户库中获得上次发帖时间；

对比上次发帖时间与本次时间，得到发帖间隔；

使用高斯函数计算时间间隔对应的特征值：

V = e^{\frac{- t^{2}}{K}}

其中，t为发帖间隔，单位为秒；e为自然对数底；参数K一般选324，可视需求提高。

所述联系方式分析模块用于提取解析后的用户生成内容数据中可能存在的联系方式，并对该联系方式进行分析，得到与当前联系方式相同的联系方式发布过多少次，并根据联系方式发布次数得到当前用户生成内容可能为广告的联系方式特征值。

联系方式分析模块工作流程：

1.提取可能存在的联系方式：

联系方式可能包括：QQ号、手机号、座机号，这些一般都是由数字组成的，考虑到阿拉伯数字有很多种变形，广告帖经常会发布变形的数字，如1可以变为：一、壹、one、①，需要对上述变形进行转换。

a)手机号识别：手机号有固定构成形式，故用正则表达式识别。

b)按照变形词表，将文本内所有变形数字转为原始数字(如①-＞1)

c)去掉多余空格及符号

d)使用正则表达式识别：

[^\\d]1[^\\d]{0，2}([3|5][^\\d]{0，2}[0-9]{1}|8[^\\d]{0，2}0|8[^\\d]{0，2}5

|8[^\\d]{0，2}6|8[^\\d]{0，2}7|8[^\\d]{0，2}8|8[^\\d]{0，2}9)[^\\d]{0，2}

([0-9][^\\d]{0，2}){7}[0-9][^\\d]

1)QQ号、座机号识别：并不是所有连续数字就是联系方式，也有可能是身份证，中奖号等。所以，存在类别词表：{“Q”，“Q”}，{“企”，“鹅”}，{“电”，“话”}，{“致”，“电”}等，用于标记数字串的类别，一般出现在连续6位以上(包括6位)数字串前。

a)按照变形词表，将文本内所有变形数字转为原始数字(如①-＞1)

b)对于每个连续6位以上(包括6位)数字串，位置在检查数字串前的5位字符串是否顺序包含名称词表内容。

(\\d[^\\d]{0，2}){5，}\\d

c)若存在，则标记为联系方式。

变形词表：

0，零，O，o，◎，&#48；

1，一，壹，①，I，&#49；

2，二，貳，②，II，&#50；

3，三，叁，③，III，&#51；

4，四，肆，④，IV，&#52；

5，五，伍，⑤，V，&#53；

6，六，陆，⑥，VI，&#54；

7，七，柒，⑦，VII，&#55；

8，八，捌，⑧，VIII，&#56；

9，九，玖，⑨，IX，&#57；

类别词表：

{″Q″，″Q″}，{″腾″，″讯″}，{″Q″，″″}，{″订″，″购″}

{″滕″，″讯″}，{″滕″，″迅″}，{″腾″，″迅″}，{″手″，″机″}，

{″pho″，″ne″}，{″电″，″话″}，{″移动″，″电话″}，{″群″，″号″}，

{″座″，″机″}，{″请″，″拨″}，{″联系″，″方式″}，{″扣″，″扣″}，

{″企″，″鹅″}，{″交″，″流″}，{″联″，″系″}，{″热″，″线″}，

{″短″，″信″}，{″专″，″线″}

2.对于得到的联系方式，根据如下方式计算特征值：

循环对每个联系方式取联系方式库数据，做如下计算：

a)若人工操作数大于2，使用人工操作倾向性(正常/广告)，公式：

V_{contact} = \frac{N_{del}}{N_{pass} + N_{del} + 1}

b)否则，使用出现次数作为判定依据，出现越多值越大，次数0-12的值为{0，0，0.3，0.6，0.9，0.9，0.9，0.9，0.9，0.9，0.9，0.9，0.9}，12以上为0.9。

c)使用所有联系方式中出现次数最多相对应的值作为特征值(若有一个联系方式判定是广告，则此文本为广告)。

URL提取器从解析后的数据中识别出所有URL：

URL提取器工作流程：

1.使用正则表达式识别所有URL；

2.使用URL分析模块对每个URL进行分析。

URL分析模块对每个URL进行次数统计，并根据出现次数最多的URL次数得到当前用户生成内容可能为广告的URL特征值：

URL分析模块工作流程：

循环对每个URL，取URL库数据，做如下计算

1.若人工操作数大于2，使用人工操作倾向性(正常/广告)，公式：

V_{URL} = \frac{N_{del}}{N_{pass} + N_{del} + 1}

2.否则，使用URL出现次数作为判定是否有广告帖倾向依据，URL出现越多值越大，URL出现次数0-12的值为{0，0，0.2，0.5，0.7，0.9，0.9，0.9，0.9，0.9，0.9，0.9，0.9}，12以上为0.9。

3.使用所有URL中具有的最大值的作为URL特征值

图片内容分析模块从解析后的用户生成内容数据的图片中选取一个或多个特定点，计算图片校验值；

图片内容分析模块工作流程：

1.从图片中每个不重叠4*4像素中取位置(2，2)的点，生成MD5码；

2.使用本次MD5比对过去的所有MD5，MD5相同代表图片相同；

3.对于所有相同图片，取图片特征库数据，若总人工操作文本数大于2，使用人工操作倾向性(正常/广告)，公式：

V_{picture} = \frac{N_{del}}{N_{pass} + N_{del} + 1}

4.否则，使用相同图片发布次数判定是否有广告帖倾向依据，相同图片出现越多值越大，相同图片出现次数0-12的值为{0，0，0.2，0.4，0.6，0.8，0.9，0.9，0.9，0.9，0.9，0.9，0.9}，12以上为0.9；

5.使用所有图片中V最大的作为特征值。

用户分析模块从用户库中查询用户发文记录，根据用户发帖被删除和通过次数进行计算用户特征值。

用户分析模块工作流程：

1.从用户库中查询用户发文记录

2.若人工操作数大于2，使用人工操作倾向性(正常/广告)，公式：

V_{User} = \frac{N_{del}}{N_{pass} + N_{del} + 1}

决策计算模块根据相似度分析模块、文本内容分类模块、发帖间隔分析模块、联系方式分析模块、URL分析模块、图片内容分析模块产生的特征值生成一个多维特征向量，特征向量作为输入，使用神经网络进行分类，输出层的输出为正常和广告，根据输出层最大值选择显示或屏蔽操作。

数据记录模块用于将特征数据、分类数据以及人工操作记录写入信息库。

信息库包括：

联系方式库：使用缓存结构，存储内容为

1.联系方式内容(如“13811234567”)

2.联系方式种类(如“手机”)

3.出现次数

4.人工通过/删除数

URL库：使用缓存结构，存储内容为

1.URL内容(如“http://www.abcd.com”)

2.出现次数

3.人工通过/删除数

用户库：使用缓存结构，存储内容为

1.用户名

2.上次发帖时间

3.人工通过/删除数

文本操作库：使用缓存结构，存储内容为

1.文本ID

2.广告帖过滤通过/删除次数

3.人工通过/删除数

图片特征库：使用缓存结构，存储内容为

1.图片特征值

2.出现次数

3.广告帖过滤通过/删除次数

4.人工通过/删除数

相似度倒排索引，采用：词-文本ID1-文本ID2-......的方式存储，用于快速匹配文本相似度。

以下结合附图3和附图4对机器学习模块进行神经网络学习和文本分类特征学习的流程进行详细说明：

机器学习模块通过对特征数据和分类数据的分析，使用反向传播算法对降噪后的数据进行机器学习，找到最优的决策神经网络，并对当前神经网络进行更新，

具体流程如下：

a)特征数据收集

加载特征数据

b)分类数据收集

加载分类数据，排重

c)特征-分类数据合并

依据文本ID合并特征数据及分类数据，按时间逆序排列

d)降噪

去除明显不利于神经网络学习的数据。如特征全部低于0.1，却被定义为广告的文本。

如下格式，第一列位分类情况，之后各列为特征值

e)反向传播学习

使用带冲量模型的反向传播算法对降噪后的数据进行机器学习。依据取判别函数值，找到每次学习判别函数值得最高点，取此神经网络为最优神经网络。

判别函数：

S＝1.0*pr+1.2*dr-0.3*pn-0.5*dn-1.5*pw-2.0*dw

判别函数定义：

正常内容：正确识别数为pr误识别数为pw疑似数为pn

垃圾内容：正确是别数为dr误识别数为dw疑似数为dn

当判别函数值S为极大值时，此时人工神经网络为最优神经网络。

f)更新神经网络

机器学习模块通过对词和分类数据的分析，使用X²统计选择文本分类特征词，并更新文本分类特征词库，具体流程如下：

a)词收集

加载词信息记录的词

b)词-分类数据合并

依据文本ID合并词数据及分类数据，按时间逆序排列

c)过滤器：停用词过滤，词性过滤

d)词统计：统计词频信息，及在各分类中的分布情况

e)高频/低频词过滤：过滤词的文档频次过低(没有代表性)及过高的词(没有区分度)

f)X²统计量选择特征词：按X²统计量公式计算，取值最高的200个词和最低的200个词作为文本分类特征词

g)更新文本分类特征词库

以下通过实际示例说明过滤流程：

广告帖

文本ID：1234567

标题：武平哪里有假钞出售假币出售＝134￥7286￥0005＝

用户ID：无边大海

发帖时间：2011-11-21 13:08:40

参见图7，内容：

武平哪里有假钞出售假币出售＝134￥7286￥0005＝哪里有假币出售假钱出售◆＝①③④⑦②⑧⑥⑤＝◆

假钞假币出售出售硬币◆电*话：1*2*3*4*5*6*7*8◆

----------------------------------------------------------------------●

低价销售[假币][假钞]：进口技术，以假可当真。本公司商品价格如下：

人民币：100的10元，50的5元，20的2元，10的1元，1硬币1毛台湾版：

----------------------------------------------------------------------●查看详情

100的30元，50的15元，20的8元，10的4元，5的2元，硬币3毛朝鲜版：

100的30元，50的15元，20的8元，10的4元，5的2元，硬币3毛做工精致，

运行步骤：

1.数据输入接口。

2.解析数据，解析得到：ID，subject，UserID，Time，Content

3.分词：

a)Content分词：武平/哪里/有/假钞/出售/假币/出售......

b)过滤停用词：武平/哪里/假钞/出售/假币/出售......

c)提取出名词、动词、形容词、位置词：武平/假钞/出售/假币/出售

4.相似度分析

a)词频：(武平，1)(假钞，3)(出售，6)(假币，3)......

b)取最高20个：元，出售，假钞，假币，硬币......

c)依次在相似度倒排索引中查询，得到文本集合

出售12345678910

假钞1245710121618

假币1471117

硬币245101923

......

文本集合为1234567891011121617181923

d)查看文本集合中词命中次数大于阈值的文本ID集合

词数20，阈值为15，经过词相同大于15的文本ID为12410

e)依次对集合中文本取文本操作库数据，是否有人工操作记录，

比如12有操作记录均为删除

f)若总人工操作文本数大于2，使用人工操作倾向性(正常/广告)，公式：

V_{similar} = \frac{N_{del}}{N_{pass} + N_{del} + 1}

数量不大于2，所以将采用次数方法

g)使用相似内容发布次数判定是否有广告帖倾向，出现越多值越大。次数0-12的值分别为{0，0，0.2，0.3，0.4，0.5，0.6，0.7，0.7，0.8，0.8，0.9，0.9}，12以上为0.9。

数量为4，取值0.4，因此V_Similar＝0.4。

5.文本内容分类

a)使用词(接3C)，对文本分类特征词集合进行(已预先学习)映射，得到一个特征向量

若总体特征词中有，出售假币假钞青海旅游武平

形成了特征向量(6，3，3，0，0，1......)

b)使用SVM(支持向量机)对特征向量进行分类，得出分类结果，计算删除概率。

调用LibSVM对特征向量进行分类，得到结果1，计算删除概率

得到V＝0.7834。

6.发帖间隔分析

a)根据用户ID，在用户库中获得上次发帖时间

从缓存中获取无边大海上次发帖时间2011-11-21 13:08:10

b)对比上次发帖时间与本次时间，得到时间间隔(单位：秒)

计算出时间间隔：30s

c)使用高斯函数计算时间间隔对应

其中，e是自然对数底，t为发帖间隔，单位为秒；参数K为324，根据公式得出V＝0.0622。

7.联系方式分析

a)按照变形词表，将文本内所有变形数字转为原始数字(如φ-＞1)

①③④⑦②⑧⑥

⑤-＞13472860005

134￥7286￥0005-＞134￥7286￥0005

b)去掉多余符号

13472860005，134￥7286￥0005

c)使用正则表达式识别(带有间隔)

3472860005，13472860005

d)对于每个连续6位以上(包括6位)数字串，检查数字串前5位的字符串是否顺序包含名称词表内容。

电*话：1*2*3*4*5*6*7*8

提取到12345678，向前查询，找到“电话”，标记为联系方式

e)若存在，则标记为联系方式

f)查询是否有联系方式人工操作记录

g)若人工操作数大于2，使用人工操作倾向性(正常/广告)，公式：

V_{contact} = \frac{N_{del}}{N_{pass} + N_{del} + 1}

13472860005被人工删除5次，通过1次，V＝5/7＝0.7143，12345678被删除3词通过2词，V＝3/6＝0.5

h)循环对每个联系方式取联系方式库数据，使用出现次数作为判定依据，出现越多值越大。

次数0-12的值为{0，0，0.3，0.6，0.9，0.9，0.9，0.9，0.9，0.9，0.9，0.9，0.9}，12以上为0.9。

未进行此操作

i)使用所有联系方式中V最大的作为特征值(若有一个联系方式判定是广告，则此文本为广告)

最大的为13472860005，取值为0.7143，所以V＝0.7143

8.URL提取

使用正则表达式识别所有URL

http://www.xxxxxx.com/

http://www.xxxxxx.com/a.jpg

9.URL分析

循环对每个URL，取URL库数据，

V_{URL} = \frac{N_{del}}{N_{pass} + N_{del} + 1}

若都未被人工操作过，跳过此步

b)否则，使用出现次数作为判定依据，出现越多值越大。

次数0-12的值为{0，0，0.2，0.5，0.7，0.9，0.9，0.9，0.9，0.9，0.9，0.9，0.9}，12以上为0.9。

若http://www.xxxxxx.com总出现10次，得出V＝0.9，

http://www.xxxxxx.com/a.jpg出现0次，得出V＝0。

c)使用所有URL中V最大的作为特征值(若有一个URL判定是广告链接，则此文本为广告)

V＝0.9。

10.图片内容分析

若图片以附件形式上传，很多互动产品会为图片分配一个特定的URL，URL分析算法无法对其进行计算，故提出图片内容分析算法。流程如下，

a)解析图片

b)从图片中每个不重叠4*4像素中取位置(2，2)的点，生成MD5码

MD5为902fbdd2b1df0c4f70b4a5d23525e932

c)使用本次MD5比对过去的所有MD5，MD5相同代表图片相同

库中发现20次相同

d)对于所有相同图片，取图片特征库数据，若总人工操作文本数大于2，使用人工操作倾向性(正常/广告)，公式：

V_{picture} = \frac{N_{del}}{N_{pass} + N_{del} + 1}

无人工操作记录

e)否则，使用相同图片发布次数判定是否有广告帖倾向，出现越多值越大次数0-12的值为{0，0，0.2，0.4，0.6，0.8，0.9，0.9，0.9，0.9，0.9，0.9，0.9}，12以上为0.9。

已出现10次，即V＝0.9。

11.用户分析

从用户库中查询用户发文记录

a)查用户库，无边大海用户共发文100次，其中95次被删除，5次被通过(机器+人工)

b)若人工操作数大于2，使用人工操作倾向性(正常/广告)，公式：

V_{User} = \frac{N_{del}}{N_{pass} + N_{del} + 1}

得出V＝0.9406

12.神经网络分类

a)合并各方法得到的特征，得到一个7维特征向量，各特征在[0，1]区间内。

根据上述计算，特征向量为

(0.4000，1.0000，0.0622，0.7143，0.9000，0.9000，0.9406)

b)以特征向量作为输入，使用神经网络进行分类，输出层为正常和广告。

输出层：正常0.5广告14.3

c)根据输出层最大值选择显示/屏蔽操作。

神经网络计算广告＞正常，即确定为广告。

利用本发明所提供的的广告过滤系统及其过滤方法可以有效解决背景技术中提及的四个问题。

本发明提供的的广告过滤系统及其过滤方法：

此外，本发明提供的广告过滤系统及其过滤方法还具备如下几个特点：

1.支持无人工操作。生成神经网络后，系统可自动对广告帖进行过滤，不需要人工操作，以减少人力成本。

2.不易被绕过，比一般系统支持更多的变形。本发明中多次使用变形词表和特殊符号过滤等方法，显著提升URL、联系方式提取的准确度，提升整体识别率。

3.人工操作具有延续性。若人工参与过滤流程，每做一次操作均会影响未来的过滤结果，提升识别率及准确度。

以上对本发明所提供的本发明提供的广告过滤系统及其过滤方法进行了详细的说明。对本领域的技术人员而言，在不背离本发明实质精神的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。

Claims

1.一种广告过滤系统，其特征在于：

信息库用于存储用户生成内容的各项特征数据；

2.如权利要求1所述的广告过滤系统，其特征在于：

所述内容输入接口包括：

3.如权利要求1所述的广告过滤系统，其特征在于：

4.如权利要求3所述的广告过滤系统，其特征在于：

5.如权利要求3所述的广告过滤系统，其特征在于：

6.如权利要求3所述的广告过滤系统，其特征在于：

7.如权利要求3所述的广告过滤系统，其特征在于：

URL提取器从解析后的数据中识别出所有URL；

8.如权利要求3所述的广告过滤系统，其特征在于：

9.如权利要求3所述的广告过滤系统，其特征在于：

10.如权利要求1所述的广告过滤系统，其特征在于：

用户库用于存储用户ID和上次发帖时间；

文章库用于存储文章ID和广告过滤通过和删除次数；

相似度倒排索引用于快速匹配文本相似度。

11.如权利要求1所述的用户生成内容过滤系统，其特征在于：

12.如权利要求1所述的用户生成内容过滤系统，其特征在于：

13.一种广告过滤方法，基于权利要求1-12之一的的广告过滤系统实现，其特征在于包括如下的步骤：

a.接收用户生成内容；

b.对用户生成内容进行解析；

c.分析用户生成内容，并提取用户生成内容的多种特征；

e.根据多个特征值生成一个多维特征向量；

g.更新信息库；

h.输出显示或屏蔽操作指令至互动产品；

i.可接收人工操作结果，并提升之后的过滤效果；

14.如权利要求13所述的广告过滤方法，其特征在于：

所述步骤c中提取用户生成内容的多种特征具体包括：

15.如权利要求13所述的广告过滤方法，其特征在于：

所述步骤d中得到用户内容可能为广告的多个特征值包括：

16.如权利要求13所述的广告过滤方法，其特征在于：

17.如权利要求13所述的广告过滤方法，其特征在于：

所述步骤g中更新信息库包括：

更新联系方式库、URL库、用户库、文章库、相似度倒排索引、以及图片特征库，其中

更新相似度倒排索引。

18.如权利要求13所述的广告过滤方法，其特征在于：

所述步骤j中对每次分析和过滤的结果进行学习包括：