CN108170810A

CN108170810A - 一种基于动态行为的广告检测方法

Info

Publication number: CN108170810A
Application number: CN201711468021.6A
Authority: CN
Inventors: 张卫丰; 陈贵美
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-06-15

Abstract

一种基于动态行为的广告检测方法，主要是提取调用路径的特征生成检测模型，属于互联网领域。广告检测方法首先获取网页所有的网络请求，整理出请求的先后顺序，获取响应内容的函数调用路径。然后用Adblock中的EasyList列表作为标准判断是否是广告节点。整理好请求路径、相应文件的函数调用路径之后提取我们需要的特征。最后用机器学习方法的决策树自动学习生成检测规则，为了防止过拟合，还有需要用后剪枝的方法对其处理以获得更精确的检测模型。

Description

一种基于动态行为的广告检测方法

技术领域

一种基于动态行为的广告检测方法，主要是提取调用路径的特征生成检测模型，属于互联网领域。

背景技术

目前，互联网发展十分迅速，互联网与传统行业的结合也促进了传统行业的发展。现在，最流行的互联网+的模式主要有：互联网+衣食住行，互联网+教育，互联网+医疗等等，可以说互联网可以和任何行业结合，也给我们的生活带来了翻天覆地的变化。

互联网广告是互联网行业最主要的赢利模式。网络广告是当今最普遍的广告，而且仍然在大幅增长。美国网络广告的年收入从2005的125亿增加到2015年的596亿，达到了17%的复合年均增长率（CompoundAnnual Growth Rate，CAGR）。网络广告是许多互联网公司的主要收入来源，并且已经被部署在大多数高流量的网站上。2017年，超过1.97亿的流行网站参与了网络广告活动。

现在对广告的研究也不曾间断，为了降低广告的负面影响，出现了Adblock、Ghostery等广告屏蔽软件。为了帮助搜索引擎获得商业利润，又出现了Webranze这样的帮助广告避免被屏蔽的软件。以Adblock为代表的广告屏蔽软件是通过人工设置URL黑名单来实现的，如果出现了新的没有被报告或没有被发现的广告时，它不能屏蔽相应的广告。Webranze通过在服务器端和客户端对URL地址进行混淆、对页面元素属性进行随机化，使得每次生成的页面中用于匹配的URL和元素都无法根据已有的黑名单列表匹配出，从而绕过广告屏蔽软件的检测。

发明内容

本发明的目的是从广告节点及其路径传递过程中的相关内容中识别出显著特征，生成检测规则，并利用它们建立一个新的检测系统，从而实现对广告的检测。

本发明采用如下技术方案：

本发明所述的基于动态行为的广告检测方法，该检测方法如下：

1）用户访问多个网页，分别记录单个网页中产生的所有请求、浏览器事件、响应体及状态码；

2）根据步骤1）中所采集到的多个网页中所有的请求、浏览器事件、响应体及状态码；通过分析请求、浏览器事件、响应体及状态码判断请求之间调用关系建立请求的调用路径并建立路径统一标准；同时通过获取访问的响应文件内的的函数调用路径；

3）、针对步骤2）中请求调用路径中是否与访问主页域名相同，判断是否是出版商节点，非出版商节点利用Adblock中的EasyList和EasyPrivacy列表判断是否属于广告请求；根据是否是广告请求或非广告请求判断响应文件是否广告文件或非广告文件；

4）针对步骤2）中响应文件判断文件中压缩情况、标记匿名函数个数、标记短函数名字个数，标记路径长度、标记内容插入方式提取广告特征；

5）、针对步骤3）中请求调用路径中标记广告请求路径长度与非广告请求路径长度；

6）、将上述步骤中获取的广告调用路径、广告文件函数调用路径、非广告调用路径、非广告文件函数调用路径进行分组；广告调用链路与广告文件函数调用路径为一组，非广告调用路径与非广告文件函数调用路径为一组；将两组作为测试组，将相同的数据作为验证集，利用机器学习中的决策树方法自动学习生成检测广告模型。

本发明所述的基于动态行为的广告检测方法，所述的步骤3）中出版商节点为来自出版商域的节点；广告节点为匹配EasyList或EasyPrivacy特性且非出版商节点；非广告节点为广告节点与出版商节点之外的节点。

本发明所述的基于动态行为的广告检测方法，所述步骤6）中用测试集数据做测试，自动学习生成检测规则；用验证集数据做验证，并记录精度；对决策树进行剪枝，用验证集数据验证；如精度提高，则合并节点直至精度不再提高后或者精确的检测模型。

有益效果

本发明提供的基于动态行为的广告检测方法，对于广告的研究不曾停止，Adblock等软件大多是人工设置URL黑名单的方式来拦截广告。对于新出现的广告却不能拦截，WebRanze防止广告屏蔽的软件是在服务器端和客户端对URL地址进行混淆、对页面元素属性进行随机化，使得每次生成的页面中用于匹配的URL和元素都无法根据已有的黑名单列表匹配出，从而绕过广告屏蔽软件的检测。有对广告的检测研究是专门针对广告的脚本文件中的某些特征进行机器学习，生成检测规则。对广告调用路径上的动态行为却没有涉及。也有对广告的广告词的语法特征和普通网页内容的不同进行机器学习生成检测规则的。他们大多数都是基于静态的广告内容，对于广告的动态行为却没有涉及。广告的动态行为更能体现广告的特征，机器学习生成的检测规则更精确，并且能检测出新出现的广告。

附图说明

图1是广告检测系统建立的流程图；

图2是机器学习方法生成检测规则的流程图。

具体实施方式

为使本发明实施例的目的和技术方案更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围：

如图所示：本发明通过使用代理工具，爬取整个网页的动态请求，并获取每个请求，响应，浏览器事件，响应体，响应码等信息，然后分析每个HTTP请求之间的因果关系，建立请求链路，以表示请求之间的传播路径、网络的交互轨迹。我们根据Adblock中的EasyList和EasyPrivacy列表判断请求是否属于广告内容的请求，获取到广告传播路径的拓扑结构和非广告路径的拓扑结构。并获取路径上的响应内容的相关文件，对相关文件相应内容做分析。最后利用机器学习的决策树自动生成检测规则。

本发明方法具体包括如下步骤：

步骤1：获取用户访问一个网页的过程中产生的所有请求，响应，浏览器事件，响应体，响应码等信息。

使用Alexa前100名的网站作为用户访问列表，在多个不同的地理位置，使用不同的浏览器访问页面，每次访问都连续刷新多次，并且访问之后清除缓存再进行下一次访问，这样可以获得更多不同的广告链路。每次访问都要记录访问的一些信息，以利于对访问之间的因果关系做判断。

步骤2：根据第一步获取的请求相应内容，分析出请求之间的关系，建立请求的调用路径。

重定向通常是通过JavaScript、HTML代码或者HTTP重定向（例如，通过状态码302作为响应）实现的。我们可以通过请求域（一个页面通过A请求加载然后产生了B请求）或请求的响应内容（A请求的响应是浏览器重定向到B请求），然而对于脚本产生的重定向却不能使用这种方法，可以从脚本中抽取出URL，然后去匹配HTTP请求。对于字符串拼接的URL，我们可以识别出URL的域名，然后假定所有这个域名内的后续请求都来自于这段脚本。

对于脚本内部的函数调用路径，我们可以通过插桩实现，如Jalangi。我们不仅要获取到函数之间的调用关系还要获取到网页广告或非广告内容的最终操作方式（如InsertBefore，AppendChild，Document.write等等）。

步骤2.1：对于请求路径，我们做一个统一的标准：节点，函数调用，路径，域路径。节点即为每一个URL请求，节点之间的前后关系代表了请求的先后顺序；函数调用即为脚本内部的函数调用，一个脚本内部包含多个函数调用；路径由多个节点组成，代表了URL请求的因果关系、网络交互轨迹，；域路径即为：不同的URL可能来自于相同的域，我们把这些URL进行合并，这也代表了广告商、出版商之间的关系。

步骤3：利用Adblock中的EasyList和EasyPrivacy列表判断路径节点是否属于广告请求，属于广告请求的链路一组，非广告请求的链路一组。

我们把路径上的节点分为三类：出版商节点，广告节点和非广告节点。出版商节点：即来自出版商域的节点，一般会出现在路径的源点，少部分出现在路径的其他位置，出现在其他位置是因为请求重定向。广告节点：如果一个节点匹配EasyList或EasyPrivacy特性，并且不是出版商节点即为广告节点，提供广告内容显示的节点也为广告节点。非广告节点：即为广告节点和出版商节点之外的节点。我们标识节点所属的域，并统计与该域相关联的不同发布者的数量，找出该节点的频率。并统计广告链路和非广告链路的链路长度。

步骤4：对响应内容的文件做分析，比如是否是经过压缩的文件，以及文件内部的函数调用路径特性，相应内容的插入方式等等。

对于响应内容是经过压缩过的文件则标记为压缩，正常的代码格式的文件标记为未压缩。对于文件内部的函数调用，我们发现大部分广告文件的函数调用为匿名的函数调用，有名字的函数调用名字大多为一个字母，所以我们把这两个特点作为特征。在一个函数调用路径中，匿名函数调用达5个以上标记为5个以上，否则标记为5个以下。此外，对于函数的调用路径长度做统计。有名字的函数调用名字字母在两个以内并且个数为两以内的记为记为两个以内，否则记为两个以外。对于网页内容的插入方式，如实记录。

步骤5：广告调用链路、广告文件函数调用路径为一组，非广告调用路径、广告文件函数调用路径为一组作为测试集，相同的数据作为验证集，利用机器学习的决策树自动学习生成检测规则。

我们的特征有节点的频率、路径调用长度、文件是否压缩、匿名函数个数、两个字母函数名字的个数、函数调用路径长度、函数的插入方式等。因此整个决策树一棵拥有大量的叶节点。通过学习、剪枝处理，可以生成更加精确的检测模型。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于动态行为的广告检测方法，其特征在于：该检测方法如下：

1）、用户访问多个网页，分别记录单个网页中产生的所有请求、浏览器事件、响应体及状态码；

2）、根据步骤1）中所采集到的多个网页中所有的请求、浏览器事件、响应体及状态码；通过分析请求、浏览器事件、响应体及状态码判断请求之间调用关系建立请求的调用路径并建立路径统一标准；同时通过获取访问的响应文件内的的函数调用路径；

4）、针对步骤2）中响应文件判断文件中压缩情况、标记匿名函数个数、标记短函数名字个数，标记路径长度、标记内容插入方式提取广告特征；

2.根据权利要求1所述的基于动态行为的广告检测方法，其特征在于：所述的步骤3）中出版商节点为来自出版商域的节点；广告节点为匹配EasyList或EasyPrivacy特性且非出版商节点；非广告节点为广告节点与出版商节点之外的节点。

3.根据权利要求1所述的基于动态行为的广告检测方法，其特征在于：所述步骤6）中用测试集数据做测试，自动学习生成检测规则；用验证集数据做验证，并记录精度；对决策树进行剪枝，用验证集数据验证；如精度提高，则合并节点直至精度不再提高后或者精确的检测模型。