CN111488509A

CN111488509A - 一种获取互联网金融广告的方法

Info

Publication number: CN111488509A
Application number: CN202010277162.5A
Authority: CN
Inventors: 施力; 江颖硕; 张兆心; 唐积强; 吴震; 卢卫; 杨菁林; 董群; 郭长勇; 王伟
Original assignee: National Computer Network and Information Security Management Center; Harbin Institute of Technology Weihai
Current assignee: National Computer Network and Information Security Management Center; Harbin Institute of Technology Weihai
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2020-08-04

Abstract

本发明提供一种获取互联网金融广告的方法，包括以下步骤：(1)获取金融广告爬取网站及其链接；(2)打开步骤(1)中的网站和链接，获取网站中金融广告的URL；(3)根据步骤(2)的广告URL和图片src依照Adblock插件过滤规则编写过滤规则列表；(4)根据步骤(3)编写的过滤规则列表，将过滤规则列表保存进数据库；(5)根据步骤(1)中的网站，爬取网站内容，提取相应的url、图片src属性，然后将提取到的内容根据步骤(4)的过滤规则列表通过python的adblockparser解析器进行过滤获取金融广告；其解决了站内广告不规则站点无法使用统一的Xpath规则获取站内的所有广告内容的技术问题。本发明可广泛应用于获取网站内部及其子网站里的广告内容。

Description

一种获取互联网金融广告的方法

技术领域

本发明涉及一种获取金融广告的方法，特别是涉及一种获取互联网金融广告的方法。

背景技术

互联网金融广告的兴起与发展是互联网时代背景下金融业快速发展的产物，但是不防有一些涉嫌违法违规的广告宣传的出现威胁着网络世界，因此需要获取大量的广告数据对其进行深度分析以总结风险广告的内容特征。

我们知道，现如今的爬虫技术能够按照一定规则大量获取搜索引擎，例如针对百度贴吧等这些广告规则的站点，因为这些站点内部的广告的网页源码规则都是一致的，可以使用统一的Xpath规则获取站内全部广告，但是对于站内广告不规则的例如金融网站和财经网站等站点，无法使用统一的Xpath规则获取站内的所有广告内容，因为这些网站内部的广告网页源码规则不一致，若是使用Xpath规则，一个网站便需要写多个广告提取规则，代码冗长，要爬取的网站数目巨多，工程变得异常繁琐。

发明内容

本发明针对站内广告不规则的例如金融网站和财经网站等站点，无法使用统一的Xpath规则获取站内的所有广告内容，因为这些网站内部的广告网页源码规则不一致，若是使用Xpath规则，一个网站便需要写多个广告提取规则，代码冗长，要爬取的网站数目巨多，工程变得异常繁琐的技术问题，提供更便捷和更省力的获取网站内部及其子网站里的广告内容的一种获取互联网金融广告的方法。

为此，本发明的技术方案是，一种获取互联网金融广告的方法，包括以下步骤：

(1)获取金融广告爬取网站及其链接；

(2)打开步骤(1)中的网站和链接，获取网站中金融广告的URL，若有图片也要获取图片src；

(3)根据步骤(2)的广告URL和图片src依照Adblock插件过滤规则编写过滤规则列表；

(4)根据步骤(3)编写的过滤规则列表，将过滤规则列表保存进数据库；

(5)根据步骤(1)中的网站，爬取网站内容，提取相应的url、图片src属性，然后将提取到的内容根据步骤(4)的过滤规则列表通过python的adblockparser解析器进行过滤获取金融广告。

优选地，步骤(1)中通过选取部分金融以及财经类的网站，然后根据这些网站下方的友情链接进行扩展，一般深入两到三层，将所有网站的名称和链接保存进数据库。

优选地，步骤(2)中获取网站中金融广告的URL以及广告图片src，包括以下步骤：

a.通过浏览器打开网站链接；

b.人工识别网站中所有的金融广告，包括图片广告和文字广告；

c.将识别到的广告的URL以及图片广告的src保存至一张表中；

主页识别完毕后，再打开网站内的几个子链接，继续进行步骤b和步骤c，涵盖大部分子网站的广告。

优选地，步骤(3)中的Adblock是一款广告拦截插件，除其本身自有的广告过滤清单，还可以人工设置广告的过滤规则来达到更加高级的广告过滤需求；过滤规则主要用到以下几项：

a1.通配符(*)：可以链接中随意生成的数字或者日期等等；

b1.匹配网址开头/结尾：|

|http://adv:只会拦截http://adv开始的url；

||adv：前面两条||并且后面直接跟着网址，则会忽略http与https的差异，同时拦截http://adv、https://adv和http://www.adv；

swf|:只会拦截swf结尾的url；

将步骤(2)保存的广告URL和src根据a1、b1两项编写广告过滤规则，构建过滤规则列表，列表包含规则id、网站名称、网站域名(精确到子域名)、广告规则。

优选地，步骤(5)获取金融广告，包括以下步骤：

a2.安装adblockparser解析器；步骤a2的adblockparser解析器，是用于Adblock加滤波器的python解析器，是一个用于处理Adblock加过滤规则的软件包；它可以解析Adblock加过滤器和MATCH url；

b2.模拟浏览器打开网站的URL，利用Xpath规则获取网站内所有的URL和src；步骤b2中将获取的URL继续进行步骤b2，深入两到三层；

c2.从数据库中获取过滤规则并保存进列表中，然后从过滤规则列表创建adblockparser解析器中的AdblockRules实例；

d2.将步骤b获取的URL和src依次使用步骤c中实例检查是否符合广告规则；步骤d2检查是否符合广告规则，是将所有待测选项传递到AdblockRules实例的should_block方法中，符合规则返回True，不符合返回False；

e2.将步骤d2中符合广告规则的结果联合其所在网页位置的所有广告相关内容保存进数据库。

本发明的有益效果是，编写的爬虫代码对所有网站都是通用的，不用对每个网站分别写爬虫代码，针对网站内部的不同类型的广告不用分别编写Xpath规则，而只需将他们的URL和src编写成的Adblock规则保存进数据库，用到时只需从数据库中读取即可，这样只需通过保存进数据库的几条规则遍可识别网站内部的所有广告，针对爬取广告内容，所有网站共用一种爬取规则，而传统的爬虫技术需要对所有网页源码规则不一致的网站单独写爬取规则，每个网站又针对所爬取的每条信息单独写爬取规则，所以和传统的方法相比大大降低了人力成本。

附图说明

图1是本发明实施例的整体功能结构逻辑示意图。

具体实施方式

下面结合实施例对本发明做进一步描述。

一种获取互联网金融广告的方法，如图1所示，包括以下步骤：

(1)获取金融广告爬取网站及其链接；

步骤(1)中通过选取部分金融以及财经类的网站，然后根据这些网站下方的友情链接进行扩展，一般深入两到三层，将所有网站的名称和链接保存进数据库。

步骤(2)中获取网站中金融广告的URL以及广告图片src，包括以下步骤：

a.通过浏览器打开网站链接；

c.将识别到的广告的URL以及图片广告的src保存至一张表中；

主页识别完毕后，随意打开网站内的几个子链接，继续进行步骤b和步骤c，这样可以几乎涵盖所有子网站的广告，因为一般所有网站及其子网站的广告几乎是一样的。

步骤(3)中的Adblock是一款非常强大的广告拦截插件，除了其本身自有的广告过滤清单，还可以自己设置广告的过滤规则来达到更加高级的广告过滤需求；过滤规则主要用到了以下几项：

a1.通配符(*)：可以链接中随意生成的数字或者日期等等；

b1.匹配网址开头/结尾：|

|http://adv:只会拦截http://adv开始的url；

swf|:只会拦截swf结尾的url；

步骤(5)获取金融广告，包括以下步骤：

e2.将步骤d中符合广告规则的结果联合其所在网页位置的所有广告相关内容保存进数据库。

进一步以获取网贷天眼及其子网站内部金融广告为例进行本实施例技术方案以及步骤的描述，一种获取网贷天眼及其子网站内部金融广告的方法，包括以下步骤：

步骤1：打开网贷天眼“https://www.p2peye.com/”，将网贷天眼下方的所有友情链接以及网站名称保存进数据库；

步骤2：打开“https://www.p2peye.com/”，人工识别网贷天眼中的所有广告，保存广告URL和src：

“https://www.p2peye.com/advertising.php？d＝586&url＝http://www.p2peye.com/huodong/？response＝ty-gg-cpc”

“https://imgadvert.p2peye.com/2019/11/27/4f1d7ee97fe0653bb93b4e93ed97f7f0.jpg？v＝1574823033”

“https://imgadvert.p2peye.com/2018/01/02/ccdf3864e2fa9089f9eca4fc7a48ea0a.png？v＝1542875902”等。

步骤3：将步骤2获取的广告URL和图片src依照Adblock插件过滤规则编写过滤规则：

“||www.p2peye.com/advertising.php？d＝586&url＝*？r*|”

“||imgadvert.p2peye.com/*/*/*/*.jpg？v＝*|”

“||imgadvert.p2peye.com/*/*/*/*.png？v＝*|”…

步骤4：打开网站天眼的几个子网站，重复步骤2和步骤3；

步骤5：将规则id(数据库自动生成)、网站名称、网站域名(精确到子域名)、广告规则保存进数据库；

步骤6：安装adblockparser解析器；

步骤7：编写爬虫代码，模拟浏览器打开“https://www.p2peye.com/”，利用利用Xpath规则获取网站天眼内所有的URL和src，将获取的URL继续进行步骤7，深入两到三层；

步骤8：从数据库中获取过滤规则并保存进列表raw_rules中，然后从过滤规则列表创建adblockparser解析器中的AdblockRules实例rules；

步骤9：将步骤7获取的URL和src依次传递到rules实例的should_block方法中检查是否符合广告规则，符合规则返回True，不符合返回False，调用语句：rules.should_block(url/src)；

步骤10：将步骤9中返回True的结果链接所在网页位置的所有广告相关内容保存进数据库，即获取了网贷天眼及网贷天眼子网站的所有广告。

通过将人眼识别到的金融广告URL和src编写成Adblock规则保存进数据库，爬取广告时，再从数据库获取过滤规则即可，所编写的爬虫代码对所有网站及其子网站均通用，增加了广告获取的覆盖性，扩展时也只需扩展数据库的网站保存表和规则列表，易于扩展，降低了人力成本。

惟以上所述者，仅为本发明的具体实施例而已，当不能以此限定本发明实施的范围，故其等同组件的置换，或依本发明专利保护范围所作的等同变化与修改，皆应仍属本发明权利要求书涵盖之范畴。

Claims

1.一种获取互联网金融广告的方法，其特征是包括以下步骤：

(1)获取金融广告爬取网站及其链接；

2.根据权利要求1所述的一种获取互联网金融广告的方法，其特征在于所述步骤(1)中通过选取部分金融以及财经类的网站，然后根据这些网站下方的友情链接进行扩展，一般深入两到三层，将所有网站的名称和链接保存进数据库。

3.根据权利要求1所述的一种获取互联网金融广告的方法，其特征在于步骤(2)中获取网站中金融广告的URL以及广告图片src，包括以下步骤：

a.通过浏览器打开网站链接；

c.将识别到的广告的URL以及图片广告的src保存至一张表中；

4.根据权利要求1所述的一种获取互联网金融广告的方法，其特征在于步骤(3)中的Adblock是一款广告拦截插件，除其本身自有的广告过滤清单，还可以人工设置广告的过滤规则来达到更加高级的广告过滤需求；过滤规则主要用到以下几项：

a1.通配符(*)：可以链接中随意生成的数字或者日期等等；

b1.匹配网址开头/结尾：|

|http://adv:只会拦截http://adv开始的url；

swf|:只会拦截swf结尾的url；

5.根据权利要求1所述的一种获取互联网金融广告的方法，其特征在于步骤(5)获取金融广告，包括以下步骤：