CN108153880A

CN108153880A - 一种关于网络图片的多策略自适应爬取技术

Info

Publication number: CN108153880A
Application number: CN201711432929.1A
Authority: CN
Inventors: 沈家云; 王松; 郝圣禹
Original assignee: Beijing Non Dipper Data Technology Development Co Ltd
Current assignee: Beijing Non Dipper Data Technology Development Co Ltd
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2018-06-12

Abstract

本发明涉及计算机技术领域，具体涉及一种网络图片的多策略自适应爬取技术。本发明采用的技术方法可分为四个步骤：步骤一，建立不同策略的爬虫组件；步骤二，建立爬虫组件的调度策略；步骤三，建立爬取链接排重机制；步骤四，建立智能爬取策略。

Description

一种关于网络图片的多策略自适应爬取技术

技术领域

本发明涉及计算机技术领域，具体涉及一种网络图片的多策略自适应爬取技术。

背景技术

近年来，网络图片在种类与数量呈现出爆炸式的增长。在海量的网络元素中，图片更符合人类阅读习惯和需求，图像用户群体极速扩张，数据的使用、传播与共享技术快速更新，图片分享网站获得了高速发展。网络平台在提供信息储存服务、丰富网民生活的同时，也不可避免地遇到了网络图片资源的无法准确、有效获取的难题。

当前基于垂直搜索引擎的主题爬虫主要有三种爬取策略：基于网页文字的评价方法、基于链接结构评价的方法、基于文字内容和链接结构相结合的综合策略。基于网页文字的评价方法主要是对网页内容文本，锚文本以及其上下文，URL字符串等文字内容信息进行分析，该方法仅针对网页内容文本进行爬取，无法满足对互联网图片进行爬取的需要。基于链接结构的评价方法采用的垂直搜索引擎可以利用网页之间链接的指向性预测候选链接的重要性，以指导爬虫爬行。基于文字内容和链接结构综合评价方法，采用网页内容文本、锚文本的文本内容和相邻页面的链接关系等综合评价候选链接的优先级。

本发明根据维度扩展的、标注权重的关键词标签构建了基于URL结构树的图片网络资源多策略自适应爬取技术。据此实现合理对各大主流网站图片资源爬取，该技术优化了基于垂直搜索引擎的爬行策略，分析网页信息的分布结构，基于索引网页提出了效率更高的抓取策略，同时对索引网页采取较高的爬取优先级，进行重访，保证消息的时效性。

发明内容

本发明的目的是为了解决精准有效获取图片网络资源，实现对各大主流网站图片资源的合理爬取，从而提高海量的图片结构化程度以及准确性、保证用户体验、促进交易量提升，从而推动整个行业发展。图片网络资源多策略自适应爬取技术主要针对爬取范围、爬取资源上传时间、加权多维关键词标签等建立灵活的爬取机制，根据图片关键词标签自发在网络搜索匹配度高的资源，对常用反爬虫策略可实现自动判别、破解。

为了实现上述目的，本发明采用了由四个环节组成的技术方案：针对各大主流网站或反扒取策略建立不同爬取策略的爬虫组件；针对爬虫种类、爬取要求、爬取任务等建立爬虫组件的调度策略；建立爬取链接排重机制，以解决URL库中存在重复内容问题；建立智能爬取策略，通过关键字在监测网站中进行检索，将检索到不同网站的链接地址放入智能爬取队列中，针对不同的网站类型通过调度不同的爬虫和定义爬取策略来依次爬取队列中链接的图片。

步骤一，建立不同策略的爬虫组件

步骤二，建立爬虫组件的调度策略

步骤三，建立爬取链接排重机制

步骤四，建立智能爬取策略

本发明通过建立不同策略的爬虫组件、建立爬虫组件的调度策略、建立爬取链接排重机制和建立智能爬取策略四个步骤，实现对各大主流网站图片网络资源的自适应多策略爬取，为行业内利用网络图片资源检测图片盗版、图片侵权等提供了有力的技术支撑。

本发明优势在于：

1.本发明优化了基于垂直搜索引擎的爬行策略，分析网页信息的分布结构，基于索引网页提出效率更高的抓取策略。

2.本发明对索引网页采取较高的爬取优先级，进行重访，解决了其他爬取方式不能保证消息时效性的问题。

3.本发明设计的自适应多策略爬取技术，可根据图片关键词标签自发在网络搜索匹配度高的资源，对常用反爬虫策略可实现自动判别、破解。

附图说明

图1是本发明的整体技术路线示意图；

图2是本发明的目标爬取技术示意图；

图3是本发明的Selenium流程图

具体实施方式

下面结合附图对本发明的实施方案进行阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

本发明的整体技术路线如图1所示分为：建立不同策略的爬虫组件、建立爬虫组件的调度策略、建立爬取链接排重机制和建立智能爬取策略四个部分。

步骤一，由于各大主流网站图片资源布设的方式各有不同，例如直接上传图片资源、引用图片链接等，所以设计针对图片布设方式的策略，实现爬虫组件库的建立。

步骤二，网站中的资源板块之间会存在架构的差异性，针对不同资源板块架构，选择适合每一板块的爬虫组件，配置合适的爬虫组件后根据下载任务需要提供的爬虫数量(爬取资源)构建灵活的调度策略。

步骤三，在进行多个爬虫同时进行多任务处理时，爬取的链接会存在重复的情况。为了解决这种情况，本发明建立了爬取链接排重机制，将爬取过程中每次新提取到的URL进行排重处理，去掉URL库中已经存在的链接，仅将从来没有出现过的URL放入抓取队列。

步骤四，通过关键字在监测网站中进行检索，将检索到不同网站的链接地址放入智能爬取队列中，针对不同的网站类型通过调度不同的爬虫和定义的爬取策略来依次爬取队列中链接的图片。

实施例一

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

步骤一，以图2中为例，设计针对淘宝网图片布设方式的策略，首先进行关键字搜索大嘴猴，采用图3所示的Selenium流程图，驱动淘宝页面的搜索框，然后用Selenium+Firefox(模拟浏览器)进行页面加载和驱动搜索框和翻页等操作，网页进行跳转后对大嘴猴的图片进行收集并按照关键词顺序进行整理，最后实现大嘴猴图片的获取，以及爬虫组件库的建立。

步骤二，网站中的资源板块之间会存在架构的差异性。针对淘宝网向网站服务器发送网页访问请求，并获取网站服务器根据该网页访问请求返回的反馈内容，进一步获得相应的网页内容，并从中分析获得相应的网页内容，选择适合每一板块的爬虫组件，配置合适的爬虫组件后根据下载任务需要提供的爬虫数量(爬取资源)构建灵活的调度策略。

步骤三，对淘宝进行多线程爬虫时，爬取的目标图片链接常会出现重复。通过本发明建立了爬取链接排重机制，将URL设置成一个无序不重复元素集，并采用布隆过滤器实现将爬取过程中每次新提取到的URL进行排重处理，去掉URL库中已经存在的链接的功能，从而将没有出现过的URL放入抓取队列。

步骤四，经过排重机制筛选后，爬取的链接为多任务爬取图片网络资源提供了准备条件。此后，通过关键字在淘宝网中进行检索，将检索到不同图片的链接地址放入智能爬取队列中，针对不同的网站类型通过调度不同的爬虫和定义的爬取策略来依次爬取队列中链接的图片。在本实例中，从接口返回图片信息，将获取的信息存入数据库中，直接根据图片的URL下载图片到指定文件路径中，并对图片进行编号，与采集的图片信息相对应，实现淘宝网大嘴猴图片的自适应多策略爬取。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.本发明涉及计算机技术领域，具体涉及一种网络图片的多策略自适应爬取技术。本发明采用的技术方法可分为四个步骤：

步骤一，建立不同策略的爬虫组件

步骤二，建立爬虫组件的调度策略

步骤三，建立爬取链接排重机制

步骤四，建立智能爬取策略。

2.根据权利要求1所述的方法，其特征在于：在步骤一中，由于各大主流网站图片资源布设的方式各有不同，例如直接上传图片资源、引用图片链接等，所以设计针对图片布设方式的策略，实现爬虫组件库的建立。

3.根据权利要求1所述的方法，其特征在于：在步骤二中，网站中的资源板块之间会存在架构的差异性，针对不同资源板块架构，选择适合每一板块的爬虫组件，配置合适的爬虫组件后根据下载任务需要提供的爬虫数量(爬取资源)构建灵活的调度策略。

4.根据权利要求1所述的方法，其特征在于：在步骤三中，在进行多个爬虫同时进行多任务处理时，爬取的链接会存在重复的情况。为了解决这种情况，本发明建立了爬取链接排重机制，将爬取过程中每次新提取到的URL进行排重处理，去掉URL库中已经存在的链接，仅将从来没有出现过的URL放入抓取队列。

5.根据权利要求1所述的方法，其特征在于：在步骤四中，通过关键字在监测网站中进行检索，将检索到不同网站的链接地址放入智能爬取队列中，针对不同的网站类型通过调度不同的爬虫和定义的爬取策略来依次爬取队列中链接的图片。