CN103020313B - 一种基于探测网页更新周期的抓取方法 - Google Patents

一种基于探测网页更新周期的抓取方法 Download PDF

Info

Publication number
CN103020313B
CN103020313B CN201310007246.7A CN201310007246A CN103020313B CN 103020313 B CN103020313 B CN 103020313B CN 201310007246 A CN201310007246 A CN 201310007246A CN 103020313 B CN103020313 B CN 103020313B
Authority
CN
China
Prior art keywords
page
webpage
carry out
mode
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310007246.7A
Other languages
English (en)
Other versions
CN103020313A (zh
Inventor
王丽华
牟宏磊
王宝会
蒙洋
贾佳
李明亮
杨磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing easy to use Lianyou Technology Co.,Ltd.
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201310007246.7A priority Critical patent/CN103020313B/zh
Publication of CN103020313A publication Critical patent/CN103020313A/zh
Application granted granted Critical
Publication of CN103020313B publication Critical patent/CN103020313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于探测网页更新周期的抓取方法,所述方法为通过周期性探测网页内容获取网页更新时间进行设置规则,设置内容包括页面url链接,ip地址,网页获取方式,网页获取UA等。页面的url链接主要是指定抓取网页的目标链接,此链接可以依据给予的网页源进行设置或者依旧历史抓取信息进行设置。Ip地址用于指明此链接服务器的ip地址信息,获取方式为服务器返回或者历史信息中获得。网页获取方式依据网页更新时间进行修改设置。网页获取UA可依据需求进行设置为实名和匿名。本发明能够在获取不同网页的同时很好地获取同一网页源的不同时期的网页信息。

Description

一种基于探测网页更新周期的抓取方法
技术领域
本发明涉及页面抓取周期性探测规则的方法的技术领域,具体涉及一种基于探测网页更新周期的抓取方法。
背景技术
随着网络上海量信息的爆炸式增长,通用搜索引擎面临着索引规模、更新速度和个性化需求等多方面的挑战。面对这些挑战,适应特定主题和个性化搜索的主题网络爬虫(focusedcrawler or topical crawler)应运而生。基于主题网络爬虫的搜索引擎(即第四代搜索引擎)已经成为当前搜索引擎和Web信息挖掘中的一个研究热点和难点。通用网络爬虫的目标就是尽可能多地采集信息页面,而在这一过程中它并不太在意页面采集的顺序和被采集页面的相关主题。作为搜索引擎的基础结构之一,网络爬虫直接面向互联网,他是搜索引擎的数据来源,决定着整个系统的内容是否丰富、信息能否得到及时更新,其性能直接影响整个搜索引擎的效果。
三屏融合视频推送是指在同一平台(或多个平台相互协调)下为机顶盒、个人计算机、智能手机及其它一切具有网络接入能力的多媒体内容播放设备提供内容服务的系统。通过该系统可为用户提供多屏视频内容推荐、多屏视频内容分享、位移电视等业务体验,满足用户在任意时间、任意地点通过任意设备观看任意影片的需求。
国际上主流的电信运营商和设备制造商、软件商等都提出了各自的三屏融合业务和模式。比如美国的AT&T及其贝尔实验室就投入巨资进行三屏融合业务和体系架构的研究和开发。软件巨人微软也在大力倡导三屏融合业务的发展。从终端用户角度看,一个用户可以同时享有TV屏、PC屏、Mobile屏等多种终端,用户期望从各个屏幕都可以获取所需要的信息并获得相应的体验。从业务层面看,三屏所呈现的业务形态也处于快速的融合期。比如基于PC的互联网电视TV化、手机化是业界近期的显著趋势。从支撑三屏业务的后台网络层面看,三屏融合实质上是三网融合发展的外在体体现,三屏终端的协议适配系统则是实现三屏融合的核心技术。电信运营商和设备制造商、软件商都对三屏终端的协议适配系统提出迫切的需求。
为了更好的支持三屏展示,本文提出一种基于探测网页更新周期的抓取方法,此方法可以及时获取更新网页,将网页可以及时有效的更新给用户使用。
发明内容
本发明要解决的技术问题是:提供一种基于探测网页更新周期的抓取方法,利用探测信息方式进行网页抓取信息的获取,依据网页更新的时间及其他维度的定义指标进行制定规则,制定规则后进行下一步的抓取网页,本方法有效的获得更新页面,加强页面获取的实时性。
本发明采用的技术方案为:一种基于探测网页更新周期的抓取方法,该方法包括如下步骤:
步骤(1)、页面来源于页面抓取的历史信息,从历史信息中获取待抓取的网页页面或者依据提供的页面源信息进行设置;
步骤(2)、设置定时探测抓取周期,主要依据指定时间进行周期设置,并且周期性的获取网页信息;
步骤(3)、将获取的网页信息进行规则制定,如果页面更新时间有所改变,则将页面抓取的方式改为获取(GET),其他均为检测(CHK)方式进行;
步骤(4)、通过步骤(3)设置好的规则,进行下一步抓取或者进行页面本地存储。
其中,所述步骤(1)中页面来源于页面抓取的历史信息,从历史信息中获取待抓取的网页页面或者依据提供的页面源信息进行设置,其步骤为:
步骤1.1:通过指定的页面进行获取页面url获取,并且建立页面历史信息列表;
步骤1.2:对于不存在历史信息列表中的页面采用直接获取(GET)的方式进行,对于存在历史信息列表中的页面采用检测(CHK)方式进行;如果是指定的目标页面,则直接设置其方式为检测(CHK)方式进行。
其中,所述步骤(2)中设置定时探测抓取周期,主要依据指定时间进行周期设置,并且周期性的获取网页信息,其步骤为:
步骤2.1:页面设置依据配置的方式进行设置探测抓取周期,采用系统时钟的方式进行周期性的抓取触发。
其中,所述步骤(3)中将获取的网页信息进行规则制定,如果页面更新时间有所改变,则将页面抓取的方式改为获取(GET),其他均为检测(CHK)方式进行,其步骤为:
步骤3.1:通过周期性获取到的页面信息进行规则设置,获取目标页面链接url;
步骤3.2:获取目标链接url的服务器ip地址;
步骤3.3:设置抓取页面的UA为匿名或者实名;
步骤3.4:获取页面更新时间,如果页面与历史信息的页面更新时间有所不同,则制定页面获取方式为获取(GET),如果页面与历史信息的页面更新时间相同,则指定页面获取方式为检测(CHK)。
其中,所述步骤(4)中通过步骤(3)设置好的规则,进行下一步抓取或者进行页面本地存储,其步骤为:
步骤4.1:将所述获取的网页信息进行组合拼装,如果是更新时间有所变化的页面则创建页面抓取线程,进行下一次页面抓取,如果更新时间没有变化,则将页面信息进行本地保存,将页面信息进行记录,存储为历史信息为下次抓取提供抓取依据。
本发明基于探测网页更新周期,提出一种新型的抓取系统方法,灵活有效地获取更新页面信息,解决页面信息更新无法感知的问题。
附图说明
图1为基于探测网页更新周期的抓取方法的原理框图。
具体实施方式
下面结合附图以及具体实施例进一步说明本发明。
本发明提供基于探测网页更新周期的抓取方法,其流程图如图1所示,具体步骤如下:
步骤(1)、页面来源于页面抓取的历史信息,从历史信息中获取待抓取的网页页面或者依据提供的页面源信息进行设置;
其中,所述步骤(1)中页面来源于页面抓取的历史信息,从历史信息中获取待抓取的网页页面或者依据提供的页面源信息进行设置,其步骤为:
步骤1.1:通过指定的页面进行获取页面url获取,并且建立页面历史信息列表;
步骤1.2:对于不存在历史信息列表中的页面采用直接获取(GET)的方式进行,对于存在历史信息列表中的页面采用检测(CHK)方式进行;如果是指定的目标页面,则直接设置其方式为检测(CHK)方式进行。
步骤(2)、设置定时探测抓取周期,主要依据指定时间进行周期设置,并且周期性的获取网页信息;
其中,所述步骤(2)中设置定时探测抓取周期,主要依据指定时间进行周期设置,并且周期性的获取网页信息,其步骤为:
步骤2.1:页面设置依据配置的方式进行设置探测抓取周期,采用系统时钟的方式进行周期性的抓取触发。
步骤(3)、将获取的网页信息进行规则制定,如果页面更新时间有所改变,则将页面抓取的方式改为获取(GET),其他均为检测(CHK)方式进行;
其中,所述步骤(3)中将获取的网页信息进行规则制定,如果页面更新时间有所改变,则将页面抓取的方式改为获取(GET),其他均为检测(CHK)方式进行,其步骤为:
步骤3.1:通过周期性获取到的页面信息进行规则设置,获取目标页面链接url;
步骤3.2:获取目标链接url的服务器ip地址;
步骤3.3:设置抓取页面的UA为匿名或者实名;
步骤3.4:获取页面更新时间,如果页面与历史信息的页面更新时间有所不同,则制定页面获取方式为获取(GET),如果页面与历史信息的页面更新时间相同,则指定页面获取方式为检测(CHK)。
步骤(4)、通过步骤(3)设置好的规则,进行下一步抓取或者进行页面本地存储。
其中,所述步骤(4)中通过步骤(3)设置好的规则,进行下一步抓取或者进行页面本地存储,其步骤为:
步骤4.1:将所述获取的网页信息进行组合拼装,如果是更新时间有所变化的页面则创建页面抓取线程,进行下一次页面抓取,如果更新时间没有变化,则将页面信息进行本地保存,将页面信息进行记录,存储为历史信息为下次抓取提供抓取依据。
最后应说明的是:显然,上述实施例仅仅是为清楚地说明本发明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围之中。

Claims (1)

1.一种基于探测网页更新周期的抓取方法,其特征在于,该方法包括如下步骤:
步骤(1)、页面来源于页面抓取的历史信息,从历史信息中获取待抓取的网页页面或者依据提供的页面源信息进行设置;
步骤(2)、设置定时探测抓取周期,主要依据指定时间进行周期设置,并且周期性的获取网页信息;
步骤(3)、将获取的网页信息进行规则制定,如果页面更新时间有所改变,则将页面抓取的方式改为获取(GET),其他均为检测(CHK)方式进行;
步骤(4)、通过步骤(3)设置好的规则,进行下一步抓取或者进行页面本地存储;
所述步骤(1)中页面来源于页面抓取的历史信息,从历史信息中获取待抓取的网页页面或者依据提供的页面源信息进行设置,其步骤为:
步骤1.1:通过指定的页面进行获取页面url获取,并且建立页面历史信息列表;
步骤1.2:对于不存在历史信息列表中的页面采用直接获取(GET)的方式进行,对于存在历史信息列表中的页面采用检测(CHK)方式进行;如果是指定的目标页面,则直接设置其方式为检测(CHK)方式进行;
所述步骤(2)中设置定时探测抓取周期,主要依据指定时间进行周期设置,并且周期性的获取网页信息,其步骤为:
步骤2.1:页面设置依据配置的方式进行设置探测抓取周期,采用系统时钟的方式进行周期性的抓取触发;
所述步骤(3)中将获取的网页信息进行规则制定,如果页面更新时间有所改变,则将页面抓取的方式改为获取(GET),其他均为检测(CHK)方式进行,其步骤为:
步骤3.1:通过周期性获取到的页面信息进行规则设置,获取目标页面链接url;
步骤3.2:获取目标链接url的服务器ip地址;
步骤3.3:设置抓取页面的UA为匿名或者实名;
步骤3.4:获取页面更新时间,如果页面与历史信息的页面更新时间有所不同,则制定页面获取方式为获取(GET),如果页面与历史信息的页面更新时间相同,则指定页面获取方式为检测(CHK);
所述步骤(4)中通过步骤(3)设置好的规则,进行下一步抓取或者进行页面本地存储,其步骤为:
步骤4.1:将所述获取的网页信息进行组合拼装,如果是更新时间有所变化的页面则创建页面抓取线程,进行下一次页面抓取,如果更新时间没有变化,则将页面信息进行本地保存,将页面信息进行记录,存储为历史信息为下次抓取提供抓取依据;
该基于探测网页更新周期的抓取方法利用探测信息方式进行网页抓取信息的获取,依据网页更新的时间及其他维度的定义指标进行制定规则,制定规则后进行下一步的抓取网页,该基于探测网页更新周期的抓取方法有效的获得更新页面,加强页面获取的实时性。
CN201310007246.7A 2013-01-08 2013-01-08 一种基于探测网页更新周期的抓取方法 Active CN103020313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310007246.7A CN103020313B (zh) 2013-01-08 2013-01-08 一种基于探测网页更新周期的抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310007246.7A CN103020313B (zh) 2013-01-08 2013-01-08 一种基于探测网页更新周期的抓取方法

Publications (2)

Publication Number Publication Date
CN103020313A CN103020313A (zh) 2013-04-03
CN103020313B true CN103020313B (zh) 2015-10-07

Family

ID=47968916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310007246.7A Active CN103020313B (zh) 2013-01-08 2013-01-08 一种基于探测网页更新周期的抓取方法

Country Status (1)

Country Link
CN (1) CN103020313B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399933B (zh) * 2013-08-08 2017-01-18 人民搜索网络股份公司 一种抓取网络平面媒体的网页内容的方法及系统
CN104123342A (zh) * 2014-06-30 2014-10-29 海视云(北京)科技有限公司 一种内容推荐方法及装置
CN105528376B (zh) * 2014-10-22 2019-11-15 腾讯科技(深圳)有限公司 多媒体信息更新方法及装置
CN104391953B (zh) * 2014-11-27 2017-12-19 北京国双科技有限公司 检测网页更新的方法及装置
CN106547775B (zh) * 2015-09-21 2020-03-03 北京国双科技有限公司 网站内容的检测方法及装置
CN106547774B (zh) * 2015-09-21 2020-02-28 北京国双科技有限公司 网站内容的检测方法及装置
CN105824880A (zh) * 2016-03-09 2016-08-03 乐视网信息技术(北京)股份有限公司 一种网页抓取方法及装置
CN107423059A (zh) * 2017-07-07 2017-12-01 北京小米移动软件有限公司 页面的显示方法、装置及终端
CN108763537B (zh) * 2018-05-31 2021-05-18 河南科技大学 一种基于时间感知的增量机器爬虫方法
CN113434787B (zh) * 2021-05-14 2023-11-07 国网河北省电力有限公司衡水供电分公司 网络数据获取方法、装置及终端设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100501746C (zh) * 2007-12-11 2009-06-17 腾讯科技(深圳)有限公司 网页抓取方法和网页抓取服务器
CN102063477B (zh) * 2010-12-13 2012-11-28 百度在线网络技术(北京)有限公司 一种网站数据抓取装置及方法

Also Published As

Publication number Publication date
CN103020313A (zh) 2013-04-03

Similar Documents

Publication Publication Date Title
CN103020313B (zh) 一种基于探测网页更新周期的抓取方法
CN112073649B (zh) 多媒体数据的处理方法、生成方法及相关设备
CN101888409B (zh) 基于广域网的远程信息发布和监控系统及其控制方法
KR101691524B1 (ko) 4d 데이터를 시각화하기 위한 시각화 방법 및 시스템, 및 통합 데이터 파일 생성 방법 및 장치
CN105516820A (zh) 一种弹幕交互方法和装置
CN110381383B (zh) 一种基于移动端交互式音视频生成的方法、装置、计算设备及存储介质
CN105721813A (zh) 一种视频轨迹自动形成方法及系统
CN104125206A (zh) 一种客户端的硬件环境适配方法、装置、服务器及系统
WO2014059393A1 (en) Remote interface templates
CN104484142A (zh) 拼接墙的web页面显示方法和系统
CN110321120A (zh) 数据处理方法、数据处理装置及计算机可读存储介质
CN102377735A (zh) 多媒体广告系统和控制多媒体广告播放的方法
CN103888739B (zh) 安防设备的地理位置信息配置方法和系统
CN101998044A (zh) 实况拍摄影像的方法及装置
CN103281303A (zh) 一种获取数据的方法和设备
CN105677699A (zh) 一种为用户生成新闻页面的方法和装置
CN106412003A (zh) 信息推送方法、装置及信息请求装置
CN103902608B (zh) 一种监控网页图片并进行压缩的方法和装置
CN102866830B (zh) 界面动态显示方法及装置
CN102984231A (zh) 基于浏览器的交互方法
CN102572533B (zh) Iptv中央、区域业务管理系统
CN102186021A (zh) 一种地理位置信息的电视应用呈现方法和系统
CN105607594B (zh) 基于智能家居的服务器内存查找设备的方法
CN101951497B (zh) Iptv业务系统、中央、区域业务管理系统及运营方法
CN104468505A (zh) 一种安全审计日志播放方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210507

Address after: 100085 room 1008, 10 / F, block F, No.9, Shangdi 3rd Street, Haidian District, Beijing

Patentee after: Beijing easy to use Lianyou Technology Co.,Ltd.

Address before: 100191 No. 37, Haidian District, Beijing, Xueyuan Road

Patentee before: BEIHANG University

TR01 Transfer of patent right
CP02 Change in the address of a patent holder

Address after: Room 1601, 14th Floor, No. 27 Zhichun Road, Haidian District, Beijing, 100086

Patentee after: Beijing easy to use Lianyou Technology Co.,Ltd.

Address before: 100085 room 1008, 10 / F, block F, No.9, Shangdi 3rd Street, Haidian District, Beijing

Patentee before: Beijing easy to use Lianyou Technology Co.,Ltd.

CP02 Change in the address of a patent holder