CN103020313B

CN103020313B - 一种基于探测网页更新周期的抓取方法

Info

Publication number: CN103020313B
Application number: CN201310007246.7A
Authority: CN
Inventors: 王丽华; 牟宏磊; 王宝会; 蒙洋; 贾佳; 李明亮; 杨磊
Original assignee: Beihang University
Current assignee: Beijing easy to use Lianyou Technology Co.,Ltd.
Priority date: 2013-01-08
Filing date: 2013-01-08
Publication date: 2015-10-07
Anticipated expiration: 2033-01-08
Also published as: CN103020313A

Abstract

本发明提供一种基于探测网页更新周期的抓取方法，所述方法为通过周期性探测网页内容获取网页更新时间进行设置规则，设置内容包括页面url链接，ip地址，网页获取方式，网页获取UA等。页面的url链接主要是指定抓取网页的目标链接，此链接可以依据给予的网页源进行设置或者依旧历史抓取信息进行设置。Ip地址用于指明此链接服务器的ip地址信息，获取方式为服务器返回或者历史信息中获得。网页获取方式依据网页更新时间进行修改设置。网页获取UA可依据需求进行设置为实名和匿名。本发明能够在获取不同网页的同时很好地获取同一网页源的不同时期的网页信息。

Description

一种基于探测网页更新周期的抓取方法

技术领域

本发明涉及页面抓取周期性探测规则的方法的技术领域，具体涉及一种基于探测网页更新周期的抓取方法。

背景技术

随着网络上海量信息的爆炸式增长，通用搜索引擎面临着索引规模、更新速度和个性化需求等多方面的挑战。面对这些挑战，适应特定主题和个性化搜索的主题网络爬虫(focusedcrawler or topical crawler)应运而生。基于主题网络爬虫的搜索引擎(即第四代搜索引擎)已经成为当前搜索引擎和Web信息挖掘中的一个研究热点和难点。通用网络爬虫的目标就是尽可能多地采集信息页面，而在这一过程中它并不太在意页面采集的顺序和被采集页面的相关主题。作为搜索引擎的基础结构之一，网络爬虫直接面向互联网，他是搜索引擎的数据来源，决定着整个系统的内容是否丰富、信息能否得到及时更新，其性能直接影响整个搜索引擎的效果。

三屏融合视频推送是指在同一平台（或多个平台相互协调）下为机顶盒、个人计算机、智能手机及其它一切具有网络接入能力的多媒体内容播放设备提供内容服务的系统。通过该系统可为用户提供多屏视频内容推荐、多屏视频内容分享、位移电视等业务体验，满足用户在任意时间、任意地点通过任意设备观看任意影片的需求。

国际上主流的电信运营商和设备制造商、软件商等都提出了各自的三屏融合业务和模式。比如美国的AT&T及其贝尔实验室就投入巨资进行三屏融合业务和体系架构的研究和开发。软件巨人微软也在大力倡导三屏融合业务的发展。从终端用户角度看，一个用户可以同时享有TV屏、PC屏、Mobile屏等多种终端，用户期望从各个屏幕都可以获取所需要的信息并获得相应的体验。从业务层面看，三屏所呈现的业务形态也处于快速的融合期。比如基于PC的互联网电视TV化、手机化是业界近期的显著趋势。从支撑三屏业务的后台网络层面看，三屏融合实质上是三网融合发展的外在体体现，三屏终端的协议适配系统则是实现三屏融合的核心技术。电信运营商和设备制造商、软件商都对三屏终端的协议适配系统提出迫切的需求。

为了更好的支持三屏展示，本文提出一种基于探测网页更新周期的抓取方法，此方法可以及时获取更新网页，将网页可以及时有效的更新给用户使用。

发明内容

本发明要解决的技术问题是：提供一种基于探测网页更新周期的抓取方法，利用探测信息方式进行网页抓取信息的获取，依据网页更新的时间及其他维度的定义指标进行制定规则，制定规则后进行下一步的抓取网页，本方法有效的获得更新页面，加强页面获取的实时性。

本发明采用的技术方案为：一种基于探测网页更新周期的抓取方法，该方法包括如下步骤：

步骤（1）、页面来源于页面抓取的历史信息，从历史信息中获取待抓取的网页页面或者依据提供的页面源信息进行设置；

步骤（2）、设置定时探测抓取周期，主要依据指定时间进行周期设置，并且周期性的获取网页信息；

步骤（3）、将获取的网页信息进行规则制定，如果页面更新时间有所改变，则将页面抓取的方式改为获取（GET），其他均为检测（CHK）方式进行；

步骤（4）、通过步骤（3）设置好的规则，进行下一步抓取或者进行页面本地存储。

其中，所述步骤（1）中页面来源于页面抓取的历史信息，从历史信息中获取待抓取的网页页面或者依据提供的页面源信息进行设置，其步骤为：

步骤1.1：通过指定的页面进行获取页面url获取，并且建立页面历史信息列表；

步骤1.2：对于不存在历史信息列表中的页面采用直接获取（GET）的方式进行，对于存在历史信息列表中的页面采用检测（CHK）方式进行；如果是指定的目标页面，则直接设置其方式为检测（CHK）方式进行。

其中，所述步骤（2）中设置定时探测抓取周期，主要依据指定时间进行周期设置，并且周期性的获取网页信息，其步骤为：

步骤2.1：页面设置依据配置的方式进行设置探测抓取周期，采用系统时钟的方式进行周期性的抓取触发。

其中，所述步骤（3）中将获取的网页信息进行规则制定，如果页面更新时间有所改变，则将页面抓取的方式改为获取（GET），其他均为检测（CHK）方式进行，其步骤为：

步骤3.1：通过周期性获取到的页面信息进行规则设置，获取目标页面链接url；

步骤3.2：获取目标链接url的服务器ip地址；

步骤3.3：设置抓取页面的UA为匿名或者实名；

步骤3.4：获取页面更新时间，如果页面与历史信息的页面更新时间有所不同，则制定页面获取方式为获取（GET），如果页面与历史信息的页面更新时间相同，则指定页面获取方式为检测（CHK）。

其中，所述步骤（4）中通过步骤（3）设置好的规则，进行下一步抓取或者进行页面本地存储，其步骤为：

步骤4.1：将所述获取的网页信息进行组合拼装，如果是更新时间有所变化的页面则创建页面抓取线程，进行下一次页面抓取，如果更新时间没有变化，则将页面信息进行本地保存，将页面信息进行记录，存储为历史信息为下次抓取提供抓取依据。

本发明基于探测网页更新周期，提出一种新型的抓取系统方法，灵活有效地获取更新页面信息，解决页面信息更新无法感知的问题。

附图说明

图1为基于探测网页更新周期的抓取方法的原理框图。

具体实施方式

下面结合附图以及具体实施例进一步说明本发明。

本发明提供基于探测网页更新周期的抓取方法，其流程图如图1所示，具体步骤如下：

步骤3.2：获取目标链接url的服务器ip地址；

步骤3.3：设置抓取页面的UA为匿名或者实名；

最后应说明的是：显然，上述实施例仅仅是为清楚地说明本发明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围之中。

Claims

1.一种基于探测网页更新周期的抓取方法，其特征在于，该方法包括如下步骤：

步骤(1)、页面来源于页面抓取的历史信息，从历史信息中获取待抓取的网页页面或者依据提供的页面源信息进行设置；

步骤(2)、设置定时探测抓取周期，主要依据指定时间进行周期设置，并且周期性的获取网页信息；

步骤(3)、将获取的网页信息进行规则制定，如果页面更新时间有所改变，则将页面抓取的方式改为获取(GET)，其他均为检测(CHK)方式进行；

步骤(4)、通过步骤(3)设置好的规则，进行下一步抓取或者进行页面本地存储；

所述步骤(1)中页面来源于页面抓取的历史信息，从历史信息中获取待抓取的网页页面或者依据提供的页面源信息进行设置，其步骤为：

步骤1.2：对于不存在历史信息列表中的页面采用直接获取(GET)的方式进行，对于存在历史信息列表中的页面采用检测(CHK)方式进行；如果是指定的目标页面，则直接设置其方式为检测(CHK)方式进行；

所述步骤(2)中设置定时探测抓取周期，主要依据指定时间进行周期设置，并且周期性的获取网页信息，其步骤为：

步骤2.1：页面设置依据配置的方式进行设置探测抓取周期，采用系统时钟的方式进行周期性的抓取触发；

所述步骤(3)中将获取的网页信息进行规则制定，如果页面更新时间有所改变，则将页面抓取的方式改为获取(GET)，其他均为检测(CHK)方式进行，其步骤为：

步骤3.2：获取目标链接url的服务器ip地址；

步骤3.3：设置抓取页面的UA为匿名或者实名；

步骤3.4：获取页面更新时间，如果页面与历史信息的页面更新时间有所不同，则制定页面获取方式为获取(GET)，如果页面与历史信息的页面更新时间相同，则指定页面获取方式为检测(CHK)；

所述步骤(4)中通过步骤(3)设置好的规则，进行下一步抓取或者进行页面本地存储，其步骤为：

步骤4.1：将所述获取的网页信息进行组合拼装，如果是更新时间有所变化的页面则创建页面抓取线程，进行下一次页面抓取，如果更新时间没有变化，则将页面信息进行本地保存，将页面信息进行记录，存储为历史信息为下次抓取提供抓取依据；

该基于探测网页更新周期的抓取方法利用探测信息方式进行网页抓取信息的获取，依据网页更新的时间及其他维度的定义指标进行制定规则，制定规则后进行下一步的抓取网页，该基于探测网页更新周期的抓取方法有效的获得更新页面，加强页面获取的实时性。