CN102419777B

CN102419777B - 一种互联网图片广告过滤系统及其过滤方法

Info

Publication number: CN102419777B
Application number: CN 201210004669
Authority: CN
Inventors: 吴华鹏; 曾明; 刘宇; 史金城
Original assignee: PHOENIX ONLINE (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Current assignee: PHOENIX ONLINE (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Priority date: 2012-01-10
Filing date: 2012-01-10
Publication date: 2013-10-02
Anticipated expiration: 2032-01-10
Also published as: CN102419777A

Abstract

一种互联网图片广告过滤系统及其过滤方法，包括：内容输入接口、特征分析模块、以及决策计算模块、信息库、指令输出接口；其中，内容输入接口用于接收来自于互联网互动产品的用户生成内容；特征分析模块用于分析用户生成内容，提取用户生成内容的多种特征，并根据特征历史情况及人工操作记录计算特征值，生成特征向量；信息库用于存储用户生成内容的各项特征数据；决策计算模块用于根据特征分析模块生成的特征向量综合判断是否对用户生成内容进行过滤；指令输出接口用于将决策计算模块判断的结果整理成显示/屏蔽操作指令，同步给互联网互动产品。

Description

一种互联网图片广告过滤系统及其过滤方法

技术领域

本发明涉及一种互联网图片广告过滤系统及其过滤方法，尤其涉及一种针对互联网互动产品的特点，对灌水及商业广告等信息进行准确过滤的过滤系统及其过滤方法，属于网络信息安全技术领域。

背景技术

现阶段，互联网上各大论坛、博客等都面临着广告帖的大量灌入，极度影响用户的互动体验。一般，论坛、博客都有提供给版主删除广告、违法信息的操作后台，但是人工不能保证及时的屏蔽广告。本发明正是嵌入在这样的操作后台，使用多种方法提取文本特征。这些方法可以看做弱分类器，根据Boosting思想，我们使用人工神经网络将多种识别方法自适应融合。本发明识别速度快、识别率高，支持无人工操作。

目前，各个网站针对此情况一般都是采用如下的技术措施：

1.将发帖过多或间隔时间过短的帖子交予人工审查。这种方法可以对一部分广告做到过滤，但是面对过多用户同时发布多篇广告帖时，需要审查的帖子数量过多，管理员压力巨大，审查时间也会过长。

2.网友举报发布广告帖的用户：对于广告帖，网友可以进行举报，每人可举报一次，当举报数超过一定数量时，对被举报用户进行禁言措施。此种方法需要活跃用户自发参与，但若数量太大或马甲重复发帖，单凭网友力量很难解决。

3.关键词过滤方式：使用常见广告词汇作为关键词，包含关键词禁止发布。此种方法只能处理低级广告，若出现词变形或绕关键词，则无法识别。

4.使用预先设定的过滤参数，过滤参数不能根据不断变化的广告帖自动变化，即使出现过多误判，也只能人工对参数更新，而不能自我学习，无法适应广告帖发展趋势。

5.只是使用预订参数自动过滤，对人工操作没有给予考虑：当一些经过过滤系统过滤认为并不存在问题的帖子，可能由于其他规则被人工操作删除后，由于不会学习人工操作，下次系统遇到相似的帖子仍然不会过滤。

针对现有技术的种种不足，本发明嵌入到互动产品用户生成内容管理后台，根据内容及用户行为过滤广告帖内容。需要解决如下问题：

1.根据内容特点识别及过滤广告帖等不良内容；

2.结合用户历史及内容历史提高识别准确度；

3.根据图片的发布特征识别广告帖。

发明内容

本发明所要解决的技术问题在于提供一种互联网图片广告过滤系统及其过滤方法，可以对广告帖等不良信息进行自动过滤。

为实现上述的发明目的，本发明采用下述的技术方案：

一种互联网图片广告过滤系统，包括内容输入接口、特征分析模块、以及决策计算模块、数据记录模块、信息库、指令输出接口、人工操作输入接口和机器学习模块；其中，

内容输入接口用于接收来自于互联网互动产品的用户生成内容；

特征分析模块用于分析用户生成内容，提取用户生成内容的多种特征，并根据特征历史情况及人工操作记录计算特征值，生成特征向量；

信息库用于存储用户生成内容的各项特征数据；

决策计算模块用于根据特征分析模块生成的特征向量综合判断是否对用户生成内容进行过滤；

指令输出接口用于将决策计算模块判断的结果整理成显示/屏蔽操作指令，同步给互联网互动产品；

所述内容输入接口包括：

数据输入接口，校验输入的用户生成内容数据的数据格式以及完整性；

解析器，解析输入的用户生成内容数据，获得ID、标题、内容、用户ID、发布时间等信息。

所述特征分析模块包括：发帖间隔分析模块、URL提取器、URL分析模块、图片内容分析模块以及用户分析模块。

发帖间隔分析模块根据用户ID对比该用户上次发帖时间与本次时间，得到发帖时间间隔，并根据发帖时间间隔得到当前用户生成内容可能为广告的发帖间隔特征值；

URL提取器从解析后的数据中识别出所有URL；

URL分析模块对每个URL进行次数统计，并根据出现次数最多的URL次数得到当前用户生成内容可能为广告的URL特征值。

所述图片内容分析模块从解析后的用户生成内容数据的图片中选取一个或多个特定点，计算图片校验值；

对该图片校验值进行分析，得到与当前图片校验值相同的值出现过多少次就代表相同图片发布过多少次，并根据相同图片发布次数得到当前用户生成内容可能为广告的图片特征值。

所述用户分析模块从用户库中查询用户发文记录，根据用户发帖被删除和通过次数进行计算用户特征值。

所述信息库具有用户库、图片特征库、URL库，其中，用户库用于存储用户ID和上次发帖时间；图片特征库用于存储图片特征、图片出现次数以及广告过滤通过和删除次数；URL库用于存储Url内容、URL出现次数以及广告过滤通过和删除次数；

所述决策计算模块根据发帖间隔分析模块、URL分析模块、图片内容分析模块以及用户分析模块产生的特征值生成一个多维特征向量，并经由神经网络进行分类，确定输入的用户生成内容是否为广告帖。

一种互联网图片广告过滤方法，基于上述广告过滤系统实现，其特征在于包括如下的步骤：

a.接收用户生成内容；

b.对用户生成内容进行解析；

c.分析用户生成内容，并提取用户生成内容的多种特征；

d.根据多种特征分别得到用户内容可能为广告的多个特征值；

e.根据多个特征值生成一个多维特征向量；

f.利用多维特征向量对用户生产数据进行神经网络分类，确定输入的用户生成内容是否为广告帖；

g.更新信息库；

h.输出显示或屏蔽操作指令至互动产品。

所述步骤c中提取用户生成内容的多种特征具体包括：

提取发帖间隔特征，用于根据用户ID对比该用户上次发帖时间与本次时间，得到发帖时间间隔特征；提取URL特征，用于分析与当前URL相同的URL出现过多少次来获得URL特征；提取图片特征，用于分析与当前图片相同的图片出现过多少次来获得图片特征；提取用户特征，根据用户发帖被删除和通过次数来获得用户特征。

所述步骤d中得到用户内容可能为广告的多个特征值包括：发帖间隔特征值、URL特征值、图片特征值和用户特征值。

所述步骤f使用人工神经网络分类算法对步骤e生成的特征向量进行分类。

所述步骤g中更新信息库包括：更新URL库、用户库、以及图片特征库，其中更新URL库：

更新URL内容及其出现次数还有人工操作通过和删除次数；

更新用户库：更新用户ID和上次发帖时间还有人工操作通过和删除次数；

更新图片特征库：更新图片校验值、相同图片出现次数和广告过滤通过/删除次数还有人工操作通过和删除次数。

利用本发明所提供的广告过滤系统及其过滤方法可以有效解决背景技术中提及的四个问题：

本发明提供的广告过滤系统及其过滤方法：

1.具有自主学习能力，能够根据每次的过滤结果每次分析和过滤的结果进行学习，并根据学习更新系统，与自动根据广告帖发展趋势做出适应性过滤策略调整。

2.覆盖了内容过滤及多种行为过滤。相对于其他方法，识别更全面，召回率很有优势，漏删少。

4.使用神经网络对特征向量进行决策计算，全体特征值对决策均有贡献。相对其他技术，准确率很有优势，误删少。

下面结合附图和具体实施方式对本发明作进一步的详细说明。

附图说明

图1为本发明所提供的广告过滤系统的整体结构示意图；

图2为本发明所提供的广告过滤系统的流程图；

图3为本发明所提供的广告过滤系统的神经网络学习流程图；

图4本发明所提供的广告过滤系统的决策计算模块的人工神经网络结构图；

图5本发明所提供的广告过滤系统的发帖间隔分析的高斯函数图；

图6是一广告贴示例图。

具体实施方式

为了提高本发明对不良信息的过滤效果，发明人对大量互联网互动产品中的灌水、广告帖进行了分析，发现灌水或广告帖包括以下特点的一点或几点：

1.多次发布：发布广告者希望更多的人看到广告，会在多个版块、重复发相同或相似内容。

2.发布时间间隔短：由于使用广告发布机之类的软件，发布时间间隔比用户正常发布时间间隔短。

3.留有联系方式：包括座机号、手机号、QQ号、电子邮件，网址。

4.统一的文本特征：广告帖内容与正常帖有较大的不同，会出现很多正常贴中很少出现的文字。

5.发布广告帖的ID，不会发正常帖。

6.很有可能用图片代替文字，但同一张图会重复发多次。

本发明使用的技术有：

1.人工神经网络分类器

人工神经网络是由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的，试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。人工神经网络通过提供的训练样本、验证样本进行自学习，学习算法叫反向传播。神经网络是分类器的一种。是常见的特征自学习权重计算的方法。

输入数据为特征分析模块提取出的由若干个[0，1]区间实数构成的特征向量。

输出数据为两个实数，分别表示判定为正常帖或广告帖的数值。若正常帖数值大，则判定为正常帖，否则为垃圾帖。如图5所示。

2.高斯函数(正态分布)

由于函数图右半段适合于随时间衰减的状况，故在本发明中使用高斯函数计算发帖时间间隔的特征计算。高斯函数图如图6所示。

如附图1所示，本发明所提供的互联网图片广告过滤系统包括内容输入接口、特征分析模块、以及决策计算模块、数据记录模块、信息库、指令输出接口、人工操作输入接口和机器学习模块；其中，内容输入接口用于接收来自于互联网互动产品的用户生成内容；特征分析模块用于分析用户生成内容，提取用户生成内容的多种特征，并根据特征历史情况及人工操作记录计算特征值，生成特征向量；信息库用于存储用户生成内容的各项特征数据；决策计算模块用于根据特征分析模块生成的特征向量综合判断是否对用户生成内容进行过滤；指令输出接口用于将决策计算模块判断的结果整理成显示或屏蔽操作指令，同步给互联网互动产品；人工操作输入接口用于接收并解析人工修改过滤结果的操作。

内容输入接口包括：数据输入接口：对输入数据进行校验，数据格式、完整性。解析器：解析数据，获得ID、标题、内容(包含链接、图片信息)、用户ID、发布时间。

下面结合附图2，对本发明提供的广告过滤系统的计算流程进行详细说明：

特征分析模块包括：发帖间隔分析模块、URL提取器、URL分析模块、图片内容分析模块和用户分析模块。

发帖间隔分析模块根据用户ID对比该用户上次发帖时间与本次时间，得到发帖时间间隔，并根据发帖时间间隔得到当前用户生成内容可能为广告的发帖间隔特征值；发帖间隔分析模块工作流程：

根据用户ID，在用户库中获得上次发帖时间；

对比上次发帖时间与本次时间，得到发帖间隔；

使用高斯函数计算时间间隔对应的特征值：

V = e^{\frac{- t^{2}}{K}}

其中，e就是自然对数底，t为发帖间隔，单位为秒；参数K一般选324，可视需求提高。

URL提取器从解析后的数据中识别出所有URL。

URL提取器工作流程：

(1)使用正则表达式识别所有URL；

(2)使用URL分析模块对每个URL进行分析。

URL分析模块工作流程：

循环对每个URL，取URL库数据，做如下计算

(1)若人工操作数大于2，使用人工操作倾向性(正常/广告)，公式：

V_{URL} = \frac{N_{del}}{N_{pass} + N_{del} + 1}

(2)否则，使用URL出现次数作为判定是否有广告帖倾向依据，URL出现越多值越大，URL出现次数0-12的值为{0，0，0.2，0.5，0.7，0.9，0.9，0.9，0.9，0.9，0.9，0.9，0.9}，12以上为0.9。

(3)使用所有URL中具有的最大值的作为URL特征值

图片内容分析模块从解析后的用户生成内容数据的图片中选取一个或多个特定点，计算图片校验值；对该图片校验值进行分析，得到与当前图片校验值相同的值出现过多少次就代表相同图片发布过多少次，并根据人工操作记录或相同图片发布次数得到当前用户生成内容可能为广告的图片特征值。

图片内容分析模块工作流程：

(1)从图片中每个不重叠4*4像素中取位置(2，2)的点，生成MD5码；

(2)使用本次MD5比对过去的所有MD5，MD5相同代表图片相同；

(3)对于所有相同图片，取图片特征库数据，若总人工操作文本数大于2，使用人工操作倾向性(正常/广告)，公式：

V_{picture} = \frac{N_{del}}{N_{pass} + N_{del} + 1}

(4)否则，使用相同图片发布次数判定是否有广告帖倾向依据，相同图片出现越多值越大，相同图片出现次数0-12的值为{0，0，0.2，0.4，0.6，0.8，0.9，0.9，0.9，0.9，0.9，0.9，0.9}，12以上为0.9；

(5)使用所有图片中V最大的作为特征值。

用户分析模块从用户库中查询用户发文记录，根据用户发帖被删除和通过次数进行计算用户特征值。

用户分析模块工作流程：

(1)从用户库中查询用户发文记录

(2)若人工操作数大于2，使用人工操作倾向性(正常/广告)，公式：

V_{User} = \frac{N_{del}}{N_{pass} + N_{del} + 1}

决策计算模块根据相似度分析模块、文本内容分类模块、发帖间隔分析模块、联系方式分析模块、URL分析模块、图片内容分析模块产生的特征值生成一个多维特征向量，特征向量作为输入，使用神经网络进行分类，输出层的输出为正常和广告，根据输出层最大值选择显示或屏蔽操作。

人工操作输入接口用于接收并解析人工修改过滤结果的操作。

数据记录模块用于将特征数据、分类数据以及人工操作记录写入信息库。

信息库包括：

URL库：使用缓存结构，存储内容为

1.URL内容(如“http://www.abcd.com”)

2.出现次数

3.人工通过/删除数

用户库：使用缓存结构，存储内容为

1.用户名

2.上次发帖时间

3.人工通过/删除数

图片特征库：使用缓存结构，存储内容为

1.图片特征值

2.出现次数

3.广告帖过滤通过/删除次数

4.人工通过/删除数

以下通过实际示例，结合附图3和附图4对机器学习模块进行神经网络学习和文本分类特征学习的流程进行详细说明：

广告帖，参见图6：

文本ID：1234567

标题：大学生疯狂派对现场

用户ID：oocnnnvo

发帖时间：2011-12-27 18:24:53

运行步骤：

1.数据输入接口。

2.解析数据，解析得到：ID，subject，UserID，Time，Content

3.发帖间隔分析

a)根据用户ID，在用户库中获得上次发帖时间

从缓存中获取无边大海上次发帖时间2011-12-27 18:24:23

b)对比上次发帖时间与本次时间，得到时间间隔(单位：秒)

计算出时间间隔：30s

c)使用高斯函数计算时间间隔对应的特征值

V = e^{\frac{- t^{2}}{K}}

其中，e是自然对数底，t为发帖间隔，单位为秒；参数K为324，根据

公式得出V＝0.0622。

4.URL提取

使用正则表达式识别所有URL

跳转链接：http://www.yinyue9.cn/？ghyj

图片链接：

http://bbsfile.ifeng.com/bbsfile/attachments/month_1201/20120104_d2cc267a28530b666facWVo6JnFSdFEp.gif

5.URL分析

循环对每个URL，取URL库数据，

a)使用出现次数作为判定依据，出现越多值越大。

次数0-12的值为{0，0，0.2，0.5，0.7，0.9，0.9，0.9，0.9，0.9，0.9，0.9，0.9}，12以上为0.9。

若http://www.yinyue9.cn/？ghyj总出现10次，得出V＝0.9，http://bbsfile.ifeng.com/bbsfile/attachments/month_1201/20120104_d2cc267a28530b666facWVo6JnFSdFEp.gif出现0次，得出V＝0。

b)使用所有URL中V最大的作为特征值(若有一个URL判定是广告链接，则此文本为广告)

V＝0.9。

6.图片内容分析

若图片以附件形式上传，很多互动产品会为图片分配一个特定的URL，URL分析算法无法对其进行计算，故提出图片内容分析算法。流程如下，

a)解析图片

b)从图片中每个不重叠4*4像素中取位置(2，2)的点，生成MD5码

MD5为dad431020839e98473c1de0859043e66

c)使用本次MD5比对过去的所有MD5，MD5相同代表图片相同

库中发现20次相同

d)使用相同图片发布次数判定是否有广告帖倾向，出现越多值越大

次数0-12的值为{0，0，0.2，0.4，0.6，0.8，0.9，0.9，0.9，0.9，0.9，0.9，0.9}，12以上为0.9。

已出现10次，即V＝0.9。

7.用户分析

从用户库中查询用户发文记录

a)查用户库，oocnnnvo用户共发文100次，其中95次被删除，5次被通过；

b)若人工操作数大于2，使用人工操作倾向性(正常/广告)，公式：

V_{User} = \frac{N_{del}}{N_{pass} + N_{del} + 1}

得出V＝0.9406

8.神经网络分类

a)合并各方法得到的特征，得到一个4维特征向量，各特征在[0，1]区间内。

根据上述计算，特征向量为

(0.0622，0.9000，0.9000，0.9406)

b)以特征向量作为输入，使用神经网络进行分类，输出层为正常和广告。

输出层：正常0.5广告14.3

c)根据输出层最大值选择显示/屏蔽操作。

神经网络计算广告＞正常，即确定为广告

利用本发明所提供的的广告过滤系统及其过滤方法可以有效解决背景技术中提及的四个问题。本发明提供的的广告过滤系统及其过滤方法：

此外，本发明提供的广告过滤系统及其过滤方法还具备如下几个特点：

1.支持无人工操作。生成神经网络后，系统可自动对广告帖进行过滤，不需要人工操作，以减少人力成本。

2.不易被绕过，比一般系统支持更多的变形。本发明中多次使用变形词表和特殊符号过滤等方法，显著提升URL、联系方式提取的准确度，提升整体识别率。

以上对本发明所提供的本发明提供的广告过滤系统及其过滤方法进行了详细的说明。对本领域的技术人员而言，在不背离本发明实质精神的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。

Claims

1.一种互联网图片广告过滤系统，其特征在于：

所述广告过滤系统包括内容输入接口、特征分析模块、以及决策计算模块、信息库、指令输出接口；其中，

信息库用于存储用户生成内容的各项特征数据；

其中，所述特征分析模块包括：发帖间隔分析模块、URL提取器、URL分析模块、图片内容分析模块以及用户分析模块；

所述发帖间隔分析模块根据用户ID对比该用户上次发帖时间与本次时间，得到发帖时间间隔，并根据发帖时间间隔得到用于确定当前用户生成内容是否为广告的发帖间隔特征值；

所述URL提取器从解析后的数据中识别出所有URL；

所述URL分析模块对每个URL进行次数统计，并根据出现次数最多的URL次数得到用于确定当前用户生成内容是否为广告的URL特征值；

所述图片内容分析模块从解析后的用户生成内容数据的图片中选取一个或多个特定点，计算图片校验值；对该图片校验值进行分析，得到与当前图片校验值相同的值出现过多少次就代表相同图片发布过多少次，并根据相同图片发布次数得到用于确定当前用户生成内容是否为广告的图片特征值；

2.如权利要求1所述的广告过滤系统，其特征在于：

所述内容输入接口包括:

解析器，解析输入的用户生成内容数据，获得ID、标题、内容、用户ID、发布时间信息。

3.如权利要求1所述的广告过滤系统，其特征在于：

所述信息库具有用户库、图片特征库、URL库，其中

用户库用于存储用户ID和上次发帖时间；

图片特征库用于存储图片特征、图片出现次数以及广告过滤通过和删除次数；

URL库用于存储URL内容、URL出现次数以及广告过滤通过和删除次数。

4.如权利要求1所述的广告过滤系统，其特征在于：

5.一种互联网图片广告过滤方法，基于权利要求1-4之一所述的广告过滤系统实现，其特征在于包括如下的步骤：

a.接收用户生成内容；

b.对用户生成内容进行解析；

c.分析用户生成内容，并提取用户生成内容的多种特征；

d.根据多种特征分别得到用于确定用户内容是否为广告的多个特征值；

e.根据多个特征值生成一个多维特征向量；

g.更新信息库；

具.输出显示或屏蔽操作指令至互动产品。

6.如权利要求5所述的广告过滤方法，其特征在于：

所述步骤c中提取用户生成内容的多种特征具体包括：

提取发帖间隔特征，用于根据用户ID对比该用户上次发帖时间与本次时间，得到发帖时间间隔特征；

提取URL特征，用于分析与当前URL相同的URL出现过多少次并结合人工操作记录来获得URL特征；

提取图片特征，用于分析与当前图片相同的图片出现过多少次并结合人工操作记录来获得图片特征；

提取用户特征，根据用户发帖被删除和通过次数获得用户特征。

7.如权利要求5所述的广告过滤方法，其特征在于：

所述步骤d中得到用于确定用户内容是否为广告的多个特征值包括：

发帖间隔特征值、URL特征值、图片特征值和用户特征值。

8.如权利要求5所述的广告过滤方法，其特征在于：

9.如权利要求5所述的广告过滤方法，其特征在于：

所述步骤g中更新信息库包括：

更新URL库：更新URL内容及其出现次数还有人工操作通过和删除次数；