CN108153880A - 一种关于网络图片的多策略自适应爬取技术 - Google Patents

一种关于网络图片的多策略自适应爬取技术 Download PDF

Info

Publication number
CN108153880A
CN108153880A CN201711432929.1A CN201711432929A CN108153880A CN 108153880 A CN108153880 A CN 108153880A CN 201711432929 A CN201711432929 A CN 201711432929A CN 108153880 A CN108153880 A CN 108153880A
Authority
CN
China
Prior art keywords
reptile
picture
strategy
component
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711432929.1A
Other languages
English (en)
Inventor
沈家云
王松
郝圣禹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Non Dipper Data Technology Development Co Ltd
Original Assignee
Beijing Non Dipper Data Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Non Dipper Data Technology Development Co Ltd filed Critical Beijing Non Dipper Data Technology Development Co Ltd
Priority to CN201711432929.1A priority Critical patent/CN108153880A/zh
Publication of CN108153880A publication Critical patent/CN108153880A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机技术领域,具体涉及一种网络图片的多策略自适应爬取技术。本发明采用的技术方法可分为四个步骤:步骤一,建立不同策略的爬虫组件;步骤二,建立爬虫组件的调度策略;步骤三,建立爬取链接排重机制;步骤四,建立智能爬取策略。

Description

一种关于网络图片的多策略自适应爬取技术
技术领域
本发明涉及计算机技术领域,具体涉及一种网络图片的多策略自适应爬取技术。
背景技术
近年来,网络图片在种类与数量呈现出爆炸式的增长。在海量的网络元素中,图片更符合人类阅读习惯和需求,图像用户群体极速扩张,数据的使用、传播与共享技术快速更新,图片分享网站获得了高速发展。网络平台在提供信息储存服务、丰富网民生活的同时,也不可避免地遇到了网络图片资源的无法准确、有效获取的难题。
当前基于垂直搜索引擎的主题爬虫主要有三种爬取策略:基于网页文字的评价方法、基于链接结构评价的方法、基于文字内容和链接结构相结合的综合策略。基于网页文字的评价方法主要是对网页内容文本,锚文本以及其上下文,URL字符串等文字内容信息进行分析,该方法仅针对网页内容文本进行爬取,无法满足对互联网图片进行爬取的需要。基于链接结构的评价方法采用的垂直搜索引擎可以利用网页之间链接的指向性预测候选链接的重要性,以指导爬虫爬行。基于文字内容和链接结构综合评价方法,采用网页内容文本、锚文本的文本内容和相邻页面的链接关系等综合评价候选链接的优先级。
本发明根据维度扩展的、标注权重的关键词标签构建了基于URL结构树的图片网络资源多策略自适应爬取技术。据此实现合理对各大主流网站图片资源爬取,该技术优化了基于垂直搜索引擎的爬行策略,分析网页信息的分布结构,基于索引网页提出了效率更高的抓取策略,同时对索引网页采取较高的爬取优先级,进行重访,保证消息的时效性。
发明内容
本发明的目的是为了解决精准有效获取图片网络资源,实现对各大主流网站图片资源的合理爬取,从而提高海量的图片结构化程度以及准确性、保证用户体验、促进交易量提升,从而推动整个行业发展。图片网络资源多策略自适应爬取技术主要针对爬取范围、爬取资源上传时间、加权多维关键词标签等建立灵活的爬取机制,根据图片关键词标签自发在网络搜索匹配度高的资源,对常用反爬虫策略可实现自动判别、破解。
为了实现上述目的,本发明采用了由四个环节组成的技术方案:针对各大主流网站或反扒取策略建立不同爬取策略的爬虫组件;针对爬虫种类、爬取要求、爬取任务等建立爬虫组件的调度策略;建立爬取链接排重机制,以解决URL库中存在重复内容问题;建立智能爬取策略,通过关键字在监测网站中进行检索,将检索到不同网站的链接地址放入智能爬取队列中,针对不同的网站类型通过调度不同的爬虫和定义爬取策略来依次爬取队列中链接的图片。
步骤一,建立不同策略的爬虫组件
步骤二,建立爬虫组件的调度策略
步骤三,建立爬取链接排重机制
步骤四,建立智能爬取策略
本发明通过建立不同策略的爬虫组件、建立爬虫组件的调度策略、建立爬取链接排重机制和建立智能爬取策略四个步骤,实现对各大主流网站图片网络资源的自适应多策略爬取,为行业内利用网络图片资源检测图片盗版、图片侵权等提供了有力的技术支撑。
本发明优势在于:
1.本发明优化了基于垂直搜索引擎的爬行策略,分析网页信息的分布结构,基于索引网页提出效率更高的抓取策略。
2.本发明对索引网页采取较高的爬取优先级,进行重访,解决了其他爬取方式不能保证消息时效性的问题。
3.本发明设计的自适应多策略爬取技术,可根据图片关键词标签自发在网络搜索匹配度高的资源,对常用反爬虫策略可实现自动判别、破解。
附图说明
图1是本发明的整体技术路线示意图;
图2是本发明的目标爬取技术示意图;
图3是本发明的Selenium流程图
具体实施方式
下面结合附图对本发明的实施方案进行阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
本发明的整体技术路线如图1所示分为:建立不同策略的爬虫组件、建立爬虫组件的调度策略、建立爬取链接排重机制和建立智能爬取策略四个部分。
步骤一,由于各大主流网站图片资源布设的方式各有不同,例如直接上传图片资源、引用图片链接等,所以设计针对图片布设方式的策略,实现爬虫组件库的建立。
步骤二,网站中的资源板块之间会存在架构的差异性,针对不同资源板块架构,选择适合每一板块的爬虫组件,配置合适的爬虫组件后根据下载任务需要提供的爬虫数量(爬取资源)构建灵活的调度策略。
步骤三,在进行多个爬虫同时进行多任务处理时,爬取的链接会存在重复的情况。为了解决这种情况,本发明建立了爬取链接排重机制,将爬取过程中每次新提取到的URL进行排重处理,去掉URL库中已经存在的链接,仅将从来没有出现过的URL放入抓取队列。
步骤四,通过关键字在监测网站中进行检索,将检索到不同网站的链接地址放入智能爬取队列中,针对不同的网站类型通过调度不同的爬虫和定义的爬取策略来依次爬取队列中链接的图片。
实施例一
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
步骤一,以图2中为例,设计针对淘宝网图片布设方式的策略,首先进行关键字搜索大嘴猴,采用图3所示的Selenium流程图,驱动淘宝页面的搜索框,然后用Selenium+Firefox(模拟浏览器)进行页面加载和驱动搜索框和翻页等操作,网页进行跳转后对大嘴猴的图片进行收集并按照关键词顺序进行整理,最后实现大嘴猴图片的获取,以及爬虫组件库的建立。
步骤二,网站中的资源板块之间会存在架构的差异性。针对淘宝网向网站服务器发送网页访问请求,并获取网站服务器根据该网页访问请求返回的反馈内容,进一步获得相应的网页内容,并从中分析获得相应的网页内容,选择适合每一板块的爬虫组件,配置合适的爬虫组件后根据下载任务需要提供的爬虫数量(爬取资源)构建灵活的调度策略。
步骤三,对淘宝进行多线程爬虫时,爬取的目标图片链接常会出现重复。通过本发明建立了爬取链接排重机制,将URL设置成一个无序不重复元素集,并采用布隆过滤器实现将爬取过程中每次新提取到的URL进行排重处理,去掉URL库中已经存在的链接的功能,从而将没有出现过的URL放入抓取队列。
步骤四,经过排重机制筛选后,爬取的链接为多任务爬取图片网络资源提供了准备条件。此后,通过关键字在淘宝网中进行检索,将检索到不同图片的链接地址放入智能爬取队列中,针对不同的网站类型通过调度不同的爬虫和定义的爬取策略来依次爬取队列中链接的图片。在本实例中,从接口返回图片信息,将获取的信息存入数据库中,直接根据图片的URL下载图片到指定文件路径中,并对图片进行编号,与采集的图片信息相对应,实现淘宝网大嘴猴图片的自适应多策略爬取。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (5)

1.本发明涉及计算机技术领域,具体涉及一种网络图片的多策略自适应爬取技术。本发明采用的技术方法可分为四个步骤:
步骤一,建立不同策略的爬虫组件
步骤二,建立爬虫组件的调度策略
步骤三,建立爬取链接排重机制
步骤四,建立智能爬取策略。
2.根据权利要求1所述的方法,其特征在于:在步骤一中,由于各大主流网站图片资源布设的方式各有不同,例如直接上传图片资源、引用图片链接等,所以设计针对图片布设方式的策略,实现爬虫组件库的建立。
3.根据权利要求1所述的方法,其特征在于:在步骤二中,网站中的资源板块之间会存在架构的差异性,针对不同资源板块架构,选择适合每一板块的爬虫组件,配置合适的爬虫组件后根据下载任务需要提供的爬虫数量(爬取资源)构建灵活的调度策略。
4.根据权利要求1所述的方法,其特征在于:在步骤三中,在进行多个爬虫同时进行多任务处理时,爬取的链接会存在重复的情况。为了解决这种情况,本发明建立了爬取链接排重机制,将爬取过程中每次新提取到的URL进行排重处理,去掉URL库中已经存在的链接,仅将从来没有出现过的URL放入抓取队列。
5.根据权利要求1所述的方法,其特征在于:在步骤四中,通过关键字在监测网站中进行检索,将检索到不同网站的链接地址放入智能爬取队列中,针对不同的网站类型通过调度不同的爬虫和定义的爬取策略来依次爬取队列中链接的图片。
CN201711432929.1A 2017-12-26 2017-12-26 一种关于网络图片的多策略自适应爬取技术 Pending CN108153880A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711432929.1A CN108153880A (zh) 2017-12-26 2017-12-26 一种关于网络图片的多策略自适应爬取技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711432929.1A CN108153880A (zh) 2017-12-26 2017-12-26 一种关于网络图片的多策略自适应爬取技术

Publications (1)

Publication Number Publication Date
CN108153880A true CN108153880A (zh) 2018-06-12

Family

ID=62463064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711432929.1A Pending CN108153880A (zh) 2017-12-26 2017-12-26 一种关于网络图片的多策略自适应爬取技术

Country Status (1)

Country Link
CN (1) CN108153880A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213912A (zh) * 2018-08-16 2019-01-15 北京神州泰岳软件股份有限公司 一种抓取网络数据的方法及网络数据抓取调度装置
CN110209909A (zh) * 2019-04-19 2019-09-06 平安科技(深圳)有限公司 数据爬取方法、装置、计算机设备和存储介质
CN111597421A (zh) * 2020-04-30 2020-08-28 武汉思普崚技术有限公司 一种实现网站图片爬虫的方法、装置、设备及存储介质
CN112149063A (zh) * 2020-09-14 2020-12-29 浙江数秦科技有限公司 一种网络图片侵权在线监测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213912A (zh) * 2018-08-16 2019-01-15 北京神州泰岳软件股份有限公司 一种抓取网络数据的方法及网络数据抓取调度装置
CN110209909A (zh) * 2019-04-19 2019-09-06 平安科技(深圳)有限公司 数据爬取方法、装置、计算机设备和存储介质
CN111597421A (zh) * 2020-04-30 2020-08-28 武汉思普崚技术有限公司 一种实现网站图片爬虫的方法、装置、设备及存储介质
CN111597421B (zh) * 2020-04-30 2022-08-30 武汉思普崚技术有限公司 一种实现网站图片爬虫的方法、装置、设备及存储介质
CN112149063A (zh) * 2020-09-14 2020-12-29 浙江数秦科技有限公司 一种网络图片侵权在线监测方法

Similar Documents

Publication Publication Date Title
CN108153880A (zh) 一种关于网络图片的多策略自适应爬取技术
AU2005200231B2 (en) Decision-theoretic web-crawling and predicting web-page change
Sharma et al. A brief review on search engine optimization
West et al. Mining missing hyperlinks from human navigation traces: A case study of Wikipedia
Whittington et al. Temporal road closures improve habitat quality for wildlife
US7640488B2 (en) System, method, and service for using a focused random walk to produce samples on a topic from a collection of hyper-linked pages
Downing et al. Collapse and reorganization of a food web of Mwanza Gulf, Lake Victoria
US20120054143A1 (en) Systems and methods for rule based inclusion of pixel retargeting in campaign management
US9165040B1 (en) Producing a ranking for pages using distances in a web-link graph
CN102646129A (zh) 一种主题相关的分布式网络爬虫系统
US9323861B2 (en) Method and apparatus for enhanced web browsing
US20090204575A1 (en) Modular web crawling policies and metrics
CN103714149B (zh) 一种自适应增量式的深层网络数据源发现方法
CN103530414B (zh) 网页关键词的拓词方法和装置
Dincturk et al. A statistical approach for efficient crawling of rich internet applications
Coutts et al. Meta‐models as a straightforward approach to the sensitivity analysis of complex models
CN106033428B (zh) 统一资源定位符的选择方法和统一资源定位符的选择装置
Aljumah IoT-based intrusion detection system using convolution neural networks
Converse et al. Reproductive failure in the eastern migratory population: the interaction of research and management
CN107908773A (zh) 基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法
JP2008299842A (ja) 広告執行による反応情報提供方法、コンピュータ読み取り可能な記録媒体、広告執行による反応情報提供システム
US20180322199A1 (en) Optimizing the allocation of jobs on job portal
Lush et al. Predicting the habitat usage of A frican black rhinoceros (D iceros bicornis) using r andom f orest models
Hassine et al. Open data quality dimensions and metrics: State of the art and applied use cases
Grover et al. An overview of search engine optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180612

WD01 Invention patent application deemed withdrawn after publication