CN111488509A - 一种获取互联网金融广告的方法 - Google Patents

一种获取互联网金融广告的方法 Download PDF

Info

Publication number
CN111488509A
CN111488509A CN202010277162.5A CN202010277162A CN111488509A CN 111488509 A CN111488509 A CN 111488509A CN 202010277162 A CN202010277162 A CN 202010277162A CN 111488509 A CN111488509 A CN 111488509A
Authority
CN
China
Prior art keywords
advertisement
website
filtering
financial
rules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010277162.5A
Other languages
English (en)
Inventor
施力
江颖硕
张兆心
唐积强
吴震
卢卫
杨菁林
董群
郭长勇
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Harbin Institute of Technology Weihai
Original Assignee
National Computer Network and Information Security Management Center
Harbin Institute of Technology Weihai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center, Harbin Institute of Technology Weihai filed Critical National Computer Network and Information Security Management Center
Priority to CN202010277162.5A priority Critical patent/CN111488509A/zh
Publication of CN111488509A publication Critical patent/CN111488509A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种获取互联网金融广告的方法,包括以下步骤:(1)获取金融广告爬取网站及其链接;(2)打开步骤(1)中的网站和链接,获取网站中金融广告的URL;(3)根据步骤(2)的广告URL和图片src依照Adblock插件过滤规则编写过滤规则列表;(4)根据步骤(3)编写的过滤规则列表,将过滤规则列表保存进数据库;(5)根据步骤(1)中的网站,爬取网站内容,提取相应的url、图片src属性,然后将提取到的内容根据步骤(4)的过滤规则列表通过python的adblockparser解析器进行过滤获取金融广告;其解决了站内广告不规则站点无法使用统一的Xpath规则获取站内的所有广告内容的技术问题。本发明可广泛应用于获取网站内部及其子网站里的广告内容。

Description

一种获取互联网金融广告的方法
技术领域
本发明涉及一种获取金融广告的方法,特别是涉及一种获取互联网金融广告的方法。
背景技术
互联网金融广告的兴起与发展是互联网时代背景下金融业快速发展的产物,但是不防有一些涉嫌违法违规的广告宣传的出现威胁着网络世界,因此需要获取大量的广告数据对其进行深度分析以总结风险广告的内容特征。
我们知道,现如今的爬虫技术能够按照一定规则大量获取搜索引擎,例如针对百度贴吧等这些广告规则的站点,因为这些站点内部的广告的网页源码规则都是一致的,可以使用统一的Xpath规则获取站内全部广告,但是对于站内广告不规则的例如金融网站和财经网站等站点,无法使用统一的Xpath规则获取站内的所有广告内容,因为这些网站内部的广告网页源码规则不一致,若是使用Xpath规则,一个网站便需要写多个广告提取规则,代码冗长,要爬取的网站数目巨多,工程变得异常繁琐。
发明内容
本发明针对站内广告不规则的例如金融网站和财经网站等站点,无法使用统一的Xpath规则获取站内的所有广告内容,因为这些网站内部的广告网页源码规则不一致,若是使用Xpath规则,一个网站便需要写多个广告提取规则,代码冗长,要爬取的网站数目巨多,工程变得异常繁琐的技术问题,提供更便捷和更省力的获取网站内部及其子网站里的广告内容的一种获取互联网金融广告的方法。
为此,本发明的技术方案是,一种获取互联网金融广告的方法,包括以下步骤:
(1)获取金融广告爬取网站及其链接;
(2)打开步骤(1)中的网站和链接,获取网站中金融广告的URL,若有图片也要获取图片src;
(3)根据步骤(2)的广告URL和图片src依照Adblock插件过滤规则编写过滤规则列表;
(4)根据步骤(3)编写的过滤规则列表,将过滤规则列表保存进数据库;
(5)根据步骤(1)中的网站,爬取网站内容,提取相应的url、图片src属性,然后将提取到的内容根据步骤(4)的过滤规则列表通过python的adblockparser解析器进行过滤获取金融广告。
优选地,步骤(1)中通过选取部分金融以及财经类的网站,然后根据这些网站下方的友情链接进行扩展,一般深入两到三层,将所有网站的名称和链接保存进数据库。
优选地,步骤(2)中获取网站中金融广告的URL以及广告图片src,包括以下步骤:
a.通过浏览器打开网站链接;
b.人工识别网站中所有的金融广告,包括图片广告和文字广告;
c.将识别到的广告的URL以及图片广告的src保存至一张表中;
主页识别完毕后,再打开网站内的几个子链接,继续进行步骤b和步骤c,涵盖大部分子网站的广告。
优选地,步骤(3)中的Adblock是一款广告拦截插件,除其本身自有的广告过滤清单,还可以人工设置广告的过滤规则来达到更加高级的广告过滤需求;过滤规则主要用到以下几项:
a1.通配符(*):可以链接中随意生成的数字或者日期等等;
b1.匹配网址开头/结尾:|
|http://adv:只会拦截http://adv开始的url;
||adv:前面两条||并且后面直接跟着网址,则会忽略http与https的差异,同时拦截http://adv、https://adv和http://www.adv;
swf|:只会拦截swf结尾的url;
将步骤(2)保存的广告URL和src根据a1、b1两项编写广告过滤规则,构建过滤规则列表,列表包含规则id、网站名称、网站域名(精确到子域名)、广告规则。
优选地,步骤(5)获取金融广告,包括以下步骤:
a2.安装adblockparser解析器;步骤a2的adblockparser解析器,是用于Adblock加滤波器的python解析器,是一个用于处理Adblock加过滤规则的软件包;它可以解析Adblock加过滤器和MATCH url;
b2.模拟浏览器打开网站的URL,利用Xpath规则获取网站内所有的URL和src;步骤b2中将获取的URL继续进行步骤b2,深入两到三层;
c2.从数据库中获取过滤规则并保存进列表中,然后从过滤规则列表创建adblockparser解析器中的AdblockRules实例;
d2.将步骤b获取的URL和src依次使用步骤c中实例检查是否符合广告规则;步骤d2检查是否符合广告规则,是将所有待测选项传递到AdblockRules实例的should_block方法中,符合规则返回True,不符合返回False;
e2.将步骤d2中符合广告规则的结果联合其所在网页位置的所有广告相关内容保存进数据库。
本发明的有益效果是,编写的爬虫代码对所有网站都是通用的,不用对每个网站分别写爬虫代码,针对网站内部的不同类型的广告不用分别编写Xpath规则,而只需将他们的URL和src编写成的Adblock规则保存进数据库,用到时只需从数据库中读取即可,这样只需通过保存进数据库的几条规则遍可识别网站内部的所有广告,针对爬取广告内容,所有网站共用一种爬取规则,而传统的爬虫技术需要对所有网页源码规则不一致的网站单独写爬取规则,每个网站又针对所爬取的每条信息单独写爬取规则,所以和传统的方法相比大大降低了人力成本。
附图说明
图1是本发明实施例的整体功能结构逻辑示意图。
具体实施方式
下面结合实施例对本发明做进一步描述。
一种获取互联网金融广告的方法,如图1所示,包括以下步骤:
(1)获取金融广告爬取网站及其链接;
(2)打开步骤(1)中的网站和链接,获取网站中金融广告的URL,若有图片也要获取图片src;
(3)根据步骤(2)的广告URL和图片src依照Adblock插件过滤规则编写过滤规则列表;
(4)根据步骤(3)编写的过滤规则列表,将过滤规则列表保存进数据库;
(5)根据步骤(1)中的网站,爬取网站内容,提取相应的url、图片src属性,然后将提取到的内容根据步骤(4)的过滤规则列表通过python的adblockparser解析器进行过滤获取金融广告。
步骤(1)中通过选取部分金融以及财经类的网站,然后根据这些网站下方的友情链接进行扩展,一般深入两到三层,将所有网站的名称和链接保存进数据库。
步骤(2)中获取网站中金融广告的URL以及广告图片src,包括以下步骤:
a.通过浏览器打开网站链接;
b.人工识别网站中所有的金融广告,包括图片广告和文字广告;
c.将识别到的广告的URL以及图片广告的src保存至一张表中;
主页识别完毕后,随意打开网站内的几个子链接,继续进行步骤b和步骤c,这样可以几乎涵盖所有子网站的广告,因为一般所有网站及其子网站的广告几乎是一样的。
步骤(3)中的Adblock是一款非常强大的广告拦截插件,除了其本身自有的广告过滤清单,还可以自己设置广告的过滤规则来达到更加高级的广告过滤需求;过滤规则主要用到了以下几项:
a1.通配符(*):可以链接中随意生成的数字或者日期等等;
b1.匹配网址开头/结尾:|
|http://adv:只会拦截http://adv开始的url;
||adv:前面两条||并且后面直接跟着网址,则会忽略http与https的差异,同时拦截http://adv、https://adv和http://www.adv;
swf|:只会拦截swf结尾的url;
将步骤(2)保存的广告URL和src根据a1、b1两项编写广告过滤规则,构建过滤规则列表,列表包含规则id、网站名称、网站域名(精确到子域名)、广告规则。
步骤(5)获取金融广告,包括以下步骤:
a2.安装adblockparser解析器;步骤a2的adblockparser解析器,是用于Adblock加滤波器的python解析器,是一个用于处理Adblock加过滤规则的软件包;它可以解析Adblock加过滤器和MATCH url;
b2.模拟浏览器打开网站的URL,利用Xpath规则获取网站内所有的URL和src;步骤b2中将获取的URL继续进行步骤b2,深入两到三层;
c2.从数据库中获取过滤规则并保存进列表中,然后从过滤规则列表创建adblockparser解析器中的AdblockRules实例;
d2.将步骤b获取的URL和src依次使用步骤c中实例检查是否符合广告规则;步骤d2检查是否符合广告规则,是将所有待测选项传递到AdblockRules实例的should_block方法中,符合规则返回True,不符合返回False;
e2.将步骤d中符合广告规则的结果联合其所在网页位置的所有广告相关内容保存进数据库。
进一步以获取网贷天眼及其子网站内部金融广告为例进行本实施例技术方案以及步骤的描述,一种获取网贷天眼及其子网站内部金融广告的方法,包括以下步骤:
步骤1:打开网贷天眼“https://www.p2peye.com/”,将网贷天眼下方的所有友情链接以及网站名称保存进数据库;
步骤2:打开“https://www.p2peye.com/”,人工识别网贷天眼中的所有广告,保存广告URL和src:
“https://www.p2peye.com/advertising.php?d=586&url=http://www.p2peye.com/huodong/?response=ty-gg-cpc”
“https://imgadvert.p2peye.com/2019/11/27/4f1d7ee97fe0653bb93b4e93ed97f7f0.jpg?v=1574823033”
“https://www.p2peye.com/advertising.php?d=586&url=http://www.p2peye.com/huodong/?response=ty-gg-cpc”
“https://imgadvert.p2peye.com/2018/01/02/ccdf3864e2fa9089f9eca4fc7a48ea0a.png?v=1542875902”等。
步骤3:将步骤2获取的广告URL和图片src依照Adblock插件过滤规则编写过滤规则:
“||www.p2peye.com/advertising.php?d=586&url=*?r*|”
“||imgadvert.p2peye.com/*/*/*/*.jpg?v=*|”
“||imgadvert.p2peye.com/*/*/*/*.png?v=*|”…
步骤4:打开网站天眼的几个子网站,重复步骤2和步骤3;
步骤5:将规则id(数据库自动生成)、网站名称、网站域名(精确到子域名)、广告规则保存进数据库;
步骤6:安装adblockparser解析器;
步骤7:编写爬虫代码,模拟浏览器打开“https://www.p2peye.com/”,利用利用Xpath规则获取网站天眼内所有的URL和src,将获取的URL继续进行步骤7,深入两到三层;
步骤8:从数据库中获取过滤规则并保存进列表raw_rules中,然后从过滤规则列表创建adblockparser解析器中的AdblockRules实例rules;
步骤9:将步骤7获取的URL和src依次传递到rules实例的should_block方法中检查是否符合广告规则,符合规则返回True,不符合返回False,调用语句:rules.should_block(url/src);
步骤10:将步骤9中返回True的结果链接所在网页位置的所有广告相关内容保存进数据库,即获取了网贷天眼及网贷天眼子网站的所有广告。
通过将人眼识别到的金融广告URL和src编写成Adblock规则保存进数据库,爬取广告时,再从数据库获取过滤规则即可,所编写的爬虫代码对所有网站及其子网站均通用,增加了广告获取的覆盖性,扩展时也只需扩展数据库的网站保存表和规则列表,易于扩展,降低了人力成本。
惟以上所述者,仅为本发明的具体实施例而已,当不能以此限定本发明实施的范围,故其等同组件的置换,或依本发明专利保护范围所作的等同变化与修改,皆应仍属本发明权利要求书涵盖之范畴。

Claims (5)

1.一种获取互联网金融广告的方法,其特征是包括以下步骤:
(1)获取金融广告爬取网站及其链接;
(2)打开步骤(1)中的网站和链接,获取网站中金融广告的URL,若有图片也要获取图片src;
(3)根据步骤(2)的广告URL和图片src依照Adblock插件过滤规则编写过滤规则列表;
(4)根据步骤(3)编写的过滤规则列表,将过滤规则列表保存进数据库;
(5)根据步骤(1)中的网站,爬取网站内容,提取相应的url、图片src属性,然后将提取到的内容根据步骤(4)的过滤规则列表通过python的adblockparser解析器进行过滤获取金融广告。
2.根据权利要求1所述的一种获取互联网金融广告的方法,其特征在于所述步骤(1)中通过选取部分金融以及财经类的网站,然后根据这些网站下方的友情链接进行扩展,一般深入两到三层,将所有网站的名称和链接保存进数据库。
3.根据权利要求1所述的一种获取互联网金融广告的方法,其特征在于步骤(2)中获取网站中金融广告的URL以及广告图片src,包括以下步骤:
a.通过浏览器打开网站链接;
b.人工识别网站中所有的金融广告,包括图片广告和文字广告;
c.将识别到的广告的URL以及图片广告的src保存至一张表中;
主页识别完毕后,再打开网站内的几个子链接,继续进行步骤b和步骤c,涵盖大部分子网站的广告。
4.根据权利要求1所述的一种获取互联网金融广告的方法,其特征在于步骤(3)中的Adblock是一款广告拦截插件,除其本身自有的广告过滤清单,还可以人工设置广告的过滤规则来达到更加高级的广告过滤需求;过滤规则主要用到以下几项:
a1.通配符(*):可以链接中随意生成的数字或者日期等等;
b1.匹配网址开头/结尾:|
|http://adv:只会拦截http://adv开始的url;
||adv:前面两条||并且后面直接跟着网址,则会忽略http与https的差异,同时拦截http://adv、https://adv和http://www.adv;
swf|:只会拦截swf结尾的url;
将步骤(2)保存的广告URL和src根据a1、b1两项编写广告过滤规则,构建过滤规则列表,列表包含规则id、网站名称、网站域名(精确到子域名)、广告规则。
5.根据权利要求1所述的一种获取互联网金融广告的方法,其特征在于步骤(5)获取金融广告,包括以下步骤:
a2.安装adblockparser解析器;步骤a2的adblockparser解析器,是用于Adblock加滤波器的python解析器,是一个用于处理Adblock加过滤规则的软件包;它可以解析Adblock加过滤器和MATCH url;
b2.模拟浏览器打开网站的URL,利用Xpath规则获取网站内所有的URL和src;步骤b2中将获取的URL继续进行步骤b2,深入两到三层;
c2.从数据库中获取过滤规则并保存进列表中,然后从过滤规则列表创建adblockparser解析器中的AdblockRules实例;
d2.将步骤b获取的URL和src依次使用步骤c中实例检查是否符合广告规则;步骤d2检查是否符合广告规则,是将所有待测选项传递到AdblockRules实例的should_block方法中,符合规则返回True,不符合返回False;
e2.将步骤d2中符合广告规则的结果联合其所在网页位置的所有广告相关内容保存进数据库。
CN202010277162.5A 2020-04-10 2020-04-10 一种获取互联网金融广告的方法 Pending CN111488509A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010277162.5A CN111488509A (zh) 2020-04-10 2020-04-10 一种获取互联网金融广告的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010277162.5A CN111488509A (zh) 2020-04-10 2020-04-10 一种获取互联网金融广告的方法

Publications (1)

Publication Number Publication Date
CN111488509A true CN111488509A (zh) 2020-08-04

Family

ID=71794793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010277162.5A Pending CN111488509A (zh) 2020-04-10 2020-04-10 一种获取互联网金融广告的方法

Country Status (1)

Country Link
CN (1) CN111488509A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597196A (zh) * 2020-12-16 2021-04-02 盐城数智科技有限公司 基于物联网技术的广告信息自动过滤方法
CN113965385A (zh) * 2021-10-25 2022-01-21 恒安嘉新(北京)科技股份公司 一种异常网站的监控处理方法、装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021172A (zh) * 2014-05-30 2014-09-03 北京搜狗科技发展有限公司 广告过滤方法及广告过滤装置
CN108733764A (zh) * 2018-04-16 2018-11-02 优视科技有限公司 基于机器学习的广告过滤规则生成方法和广告过滤系统
US10296552B1 (en) * 2018-06-30 2019-05-21 FiaLEAF LIMITED System and method for automated identification of internet advertising and creating rules for blocking of internet advertising

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021172A (zh) * 2014-05-30 2014-09-03 北京搜狗科技发展有限公司 广告过滤方法及广告过滤装置
CN108733764A (zh) * 2018-04-16 2018-11-02 优视科技有限公司 基于机器学习的广告过滤规则生成方法和广告过滤系统
US10296552B1 (en) * 2018-06-30 2019-05-21 FiaLEAF LIMITED System and method for automated identification of internet advertising and creating rules for blocking of internet advertising

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597196A (zh) * 2020-12-16 2021-04-02 盐城数智科技有限公司 基于物联网技术的广告信息自动过滤方法
CN113965385A (zh) * 2021-10-25 2022-01-21 恒安嘉新(北京)科技股份公司 一种异常网站的监控处理方法、装置、设备和介质
CN113965385B (zh) * 2021-10-25 2024-06-11 恒安嘉新(北京)科技股份公司 一种异常网站的监控处理方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN104766014B (zh) 用于检测恶意网址的方法和系统
CN107590169B (zh) 一种运营商网关数据的预处理方法及系统
KR100382947B1 (ko) 인터넷 맞춤정보 서비스시스템
CN101534306B (zh) 一种钓鱼网站的检测方法及装置
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
CN103186670B (zh) 一种完整采集网页信息的方法和系统
CN105608134A (zh) 一种基于多线程的网络爬虫系统及其网页爬取方法
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN104156490A (zh) 基于文字识别检测可疑钓鱼网页的方法及装置
CN108399150A (zh) 文本处理方法、装置、计算机设备和存储介质
CN102306201B (zh) 一种网页标题分析的方法和系统
CN106570750B (zh) 基于浏览器插件的自动报税方法、系统及浏览器插件
CN107590236B (zh) 一种面向建筑施工企业的大数据采集方法和系统
CN110352427A (zh) 用于收集与网络化环境中的欺诈性内容相关联的数据的系统和方法
CN109033282A (zh) 一种基于抽取模板的网页正文抽取方法及装置
CN102982117A (zh) 信息搜索方法和装置
CN111488509A (zh) 一种获取互联网金融广告的方法
CN102760150A (zh) 基于属性重现和标签路径的网页抽取方法
CN107786537A (zh) 一种基于互联网交叉搜索的孤页植入攻击检测方法
CN102982118A (zh) 一种基于收藏夹的搜索方法和装置
CN107491465A (zh) 用于搜索内容的方法和装置以及数据处理系统
CN110222251A (zh) 一种基于网页分割和搜索算法的服务包装方法
CN113032655A (zh) 一种暗网电子数据提取固定方法
CN103838862A (zh) 一种视频搜索的方法、装置及终端
CN104317884B (zh) 网站来源页面类型的获取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200804