CN103793421A - 基于网页结构的信息动态采集更新调度方法 - Google Patents
基于网页结构的信息动态采集更新调度方法 Download PDFInfo
- Publication number
- CN103793421A CN103793421A CN201210428272.2A CN201210428272A CN103793421A CN 103793421 A CN103793421 A CN 103793421A CN 201210428272 A CN201210428272 A CN 201210428272A CN 103793421 A CN103793421 A CN 103793421A
- Authority
- CN
- China
- Prior art keywords
- page
- collection
- scheduling
- link
- weights
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于网页结构的信息动态采集更新调度方法,该方法包括:S1,采用网页结构分析方法对每个采集后的网页进行量化打分;S2,页面分数大于一定阈值()判定为Hub页面,参与更新采集调度;S3,将Hub页面分数划定等级,不同等级采用不同的调度周期实施调度;S4,每轮采集后,重新调整Hub页面调度等级,在持续调整过程中实现更新采集效果的不断优化。本发明实现了海量信息时代下,信息采集系统准确、高效的要求。
Description
技术领域
本发明涉及一种网络信息的处理技术,具体地说,是涉及一种基于网页结构的信息动态采集更新调度方法。
背景技术
互联网信息通常包含两部分内容,一种是以链接为主的索引页面也称Hub页面,另一种是以内容为主的内容页面也称Topic页面。网页信息采集是指对网络上的信息利用网络爬虫技术自动搜集的过程,是搜索引擎系统建设的重要基础环节。
在海量互联网信息的背景下,增量网页识别能力是实现高效信息收集的必备条件。而目前业界普遍采用的方法依然是全量采集,即每一轮次信息采集都要把采集范围内的所有网页全部采集下来,或者采集到一定的网页数量即停止采集,这就给采集系统带来了超强的负荷。学术界也有不少学者在研究信息动态采集调度策略问题,集中在对特定领域及特定类型网页的信息采集策略,主要采用基于网页相关度或热点查询的权重计算方法、基于网页信息构建采集规则等的方法。这些方法对于通用互联网信息采集工作显得苍白无力,难以适应海量信息时代下,信息采集系统准确、高效的要求。
发明内容
鉴于以上不足,本发明实施例提供了一种基于网页结构的信息动态采集更新调度方法,采用基于网页结构化分析方法自动识别Hub页面,根据Hub页面对新Topic页面贡献度大小动态调整Hub页面活跃度,实现网页信息动态采集更新,达到海量互联网信息时代下高效信息采集的目的。
本发明实施例提供一种基于网页结构的信息动态采集更新调度方法,包括:
S1、采用网页结构分析方法对每个采集后的网页进行量化打分;
S2、页面分数大于一定阈值(θ)判定为Hub页面,参与更新采集调度;
S3、将Hub页面分数划定等级,不同等级采用不同的调度周期实施调度;
S4、每轮采集后,重新调整Hub页面调度等级,在持续调整过程中实现更新采集效果的不断优化。
其中,S1中有效网页结构信息包括:锚文本、有效链接、新链接、URL特征、非链接文字等。从采集后的网页中抽取这些信息,并计算其在网页中所占的对应比例。
每一项结构信息所占比例作为量化打分的一个量化因子,所有量化因子定义如下。
量化因子A:锚文本占比,是页面中所有锚文本字符长度之和与网页所有的内容字符的长度之比。
量化因子B:有效链接占比,锚文本长度符合一定长度范围的链接作为有效链接,长度超过一定大小或者小于一定大小的链接作为无效链接。页面中有效链接数与总链接数之比即为有效链接占比。
量化因子C:新链接占比,在页面新发现的链接数与页面中总链接数之比。
量化因子D:URL特征,如果网页的URL名字包含“index.htm”、“default.htm”等字符串,则对该网页的权值增加D。
量化因子E:非链接文字占比,页面中非链接文字字符长度之和与网页所有内容字符的长度之比。
量化因子F:调度奖罚因子,如果网页在调度周期内采集成功,权值加F;否则权值减F。
根据上述量化因子对页面进行量化加权,采用的加权公式如下:
页面量化分数=α*A+β*B+γ*C+D-δ*E+/-F,其中α、β、γ、δ为各量化因子的加权系数,量化分数为百分制,当量化分数大于100时记为100,不足0时记为0。
S2根据页面权值,选取大于一定阈值(θ)的页面作为Hub页面,参与更新调度。
S3根据页面权值,将Hub页面划分到不同权值范围,每一个权值范围作为一个等级,赋予不同的调度周期,根据采集规模的不同,确定周期范围。
S4每次更新采集后要对页面进行重新量化打分,划分为不同等级后的Hub页面如果在调度周期内再次采集时遇到网络错误、页面被删除等,会降低一定权值,根据调整后的权值,重新确定等级,判定页面的调度周期。如果采集时更新采集成功则相应增加一定权值,同样根据调整后的权值,重新确定范围,判定该页面的调度周期以实现动态调整。
目前大型网页采集系统很难实现增量式实时采集,本发明借助网页结构信息,设计一种量化打分算法,识别Hub页面,并对Hub页面进行动态登记调整,使得高等级的Hub页面得到优先调度,实现机器和网络资源的优化和高效使用,达到海量信息增量式采集准确、高校的目的。
附图说明
图1为本发明实施例提供的基于网页结构的信息动态采集更新调度方法的流程图。
图2为本发明实施例提供的基于网页结构分析方法的页面量化打分算法的流程图。
具体实施方式
下面结合附图和实施例对本发明方法作进一步详细说明。
如图1所示为基于网页结构的信息动态采集更新调度方法的流程图,采集系统对每一个采集后的网页进行分析,实现动态采集更新调度。调度策略包括:采用页面量化打分算法对采集网页进行量化打分(S1)、选定大于一定阈值的页面作为Hub页面(S2)、按Hub页面得分划定等级,赋予不同的采集周期,进行更新调度采集(S3)、每轮采集后重新对页面量化打分,调整页面等级及采集周期(S4)。
S1中采集系统对每个采集后的网页进行分析,获取网页结构信息,并对每一项结构信息所占比例进行量化打分,量化打分因子包括:锚文本占比A、有效链接占比B、新链接占比C、URL特征因子D、非链接文字占比E、调度奖罚因子F。
采用如下加权公式,根据上述量化因子对页面进行量化加权:
页面量化分数=α*A+β*B+γ*C+D-δ*E+/-F,其中α、β、γ、δ为各量化因子的加权系数,量化分数为百分制,当量化分数大于100时记为100,不足0时记为0。
量化因子的加权系数会根据目标网站集合的不同而有所差别,其取值范围通常依据经验来确定,例如新闻类网站α的经验值为0.45、β的经验值为0.15、γ的经验值为0.15、δ的经验值为0.25,政府类网站α的经验值为0.2、β的经验值为0.4、γ的经验值为0.2、δ的经验值为0.2。
调度奖罚因子在初始打分时不存在,每轮采集后对页面进行分数调整时,调度奖罚因子是一个重要调整因子。
S2根据页面量化分数,选取大于一定阈值(θ)的页面作为Hub页面,参与下一期更新调度。例如,页面量化分制为百分制,阈值θ可取值为60。
S3根据页面量化分数,将Hub页面划分到不同权值范围,每一个权值范围作为一个等级,赋予不同的调度周期,根据采集规模的不同,确定周期范围。如下表为一种调度周期计划:
权值范围 | 调度周期 |
90 ~ 100 | 1天 |
80 ~ 90 | 5天 |
70 ~ 80 | 10天 |
60 ~ 70 | 30天 |
0 ~ 60 | 不更新采集 |
S4每次采集后需要对页面重新量化打分,此时增加调度奖罚因子对上一轮采集调度情况进行测评。
Claims (9)
1.基于网页结构的信息动态采集更新调度方法,其特征在于,包括:
S1,采用网页结构分析方法对每个采集后的网页进行量化打分;
S2,页面分数大于一定阈值(θ)判定为Hub页面,参与更新采集调度;
S3,将Hub页面分数划定等级,不同等级采用不同的调度周期实施调度;
S4,每轮采集后,重新调整Hub页面调度等级,在持续调整过程中实现更新采集效果的不断优化。
2.如权利要求1所述的信息动态采集更新调度方法,其特征在于,更新调度策略需在对待采集网页进行初始采集后进行。
3.如权利要求1所述的信息动态采集更新调度方法,其特征在于,S1中有效网页结构信息包括:锚文本、有效链接、新链接、URL特征、非链接文字等。
4.如权利要求1和权利要求3所述的信息动态采集更新调度方法,其特征在于,每一项结构信息所占比例作为量化打分的一个量化因子,所有量化因子定义如下:
量化因子A:锚文本占比,是页面中所有锚文本字符长度之和与网页所有的内容字符的长度之比;
量化因子B:有效链接占比,锚文本长度符合一定长度范围的链接作为有效链接,长度超过一定大小或者小于一定大小的链接作为无效链接;页面中有效链接数与总链接数之比即为有效链接占比;
量化因子C:新链接占比,在页面新发现的链接数与页面中总链接数之比;
量化因子D:URL特征,如果网页的URL名字包含“index.htm”、“default.htm”等字符串,则对该网页的权值增加D;
量化因子E:非链接文字占比,页面中非链接文字字符长度之和与网页所有内容字符的长度之比;
量化因子F:调度奖罚因子,如果网页在调度周期内采集成功,权值加F;否则权值减F。
5.如权利要求1和权利要求4所述的信息动态采集更新调度方法,其特征在于,页面量化加权打分,按如下公式计算:
页面量化分数=α*A+β*B+γ*C+D-δ*E +/- F,其中α、β、γ、δ为各量化因子的加权系数。
6.如权利要求5所述的信息动态采集更新调度方法,其特征在于,量化分数为百分制,当量化分数大于100时记为100,不足0时记为0。
7.如权利要求5和权利要求6所述的信息动态采集更新调度方法,其特征在于,量化分数大于一定阈值(θ)的页面作为Hub页面,参与更新调度,否则不进行更新调度。
8.如权利要求1和权利要求5所述的信息动态采集更新调度方法,其特征在于,将Hub页面的量化分数划分到不同权值范围,每一个权值范围作为一个等级,赋予不同的调度周期,根据采集规模的不同,确定周期范围。
9.如权利要求1所述的信息动态更新采集调度方法,其特征在于,每次更新采集后需要对页面进行重新量化打分,划分为不同等级后的Hub页面,如果在调度周期内采集失败,则降低一定权值;如果采集成功则相应增加一定权值,根据调整后的权值,重新确定范围,判断该页面的调度周期,实施动态调度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210428272.2A CN103793421B (zh) | 2012-10-31 | 2012-10-31 | 基于网页结构的信息动态采集更新调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210428272.2A CN103793421B (zh) | 2012-10-31 | 2012-10-31 | 基于网页结构的信息动态采集更新调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103793421A true CN103793421A (zh) | 2014-05-14 |
CN103793421B CN103793421B (zh) | 2017-07-07 |
Family
ID=50669103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210428272.2A Active CN103793421B (zh) | 2012-10-31 | 2012-10-31 | 基于网页结构的信息动态采集更新调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103793421B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105404458A (zh) * | 2014-09-10 | 2016-03-16 | 腾讯科技(深圳)有限公司 | 网页内容更新方法及装置 |
CN106407218A (zh) * | 2015-07-31 | 2017-02-15 | 北京国双科技有限公司 | 导航网页的检测方法和装置 |
CN110609952A (zh) * | 2019-08-15 | 2019-12-24 | 中国平安财产保险股份有限公司 | 数据采集方法、系统和计算机设备 |
CN110874430A (zh) * | 2018-08-09 | 2020-03-10 | 北大方正集团有限公司 | 网络爬虫调度方法、装置及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6601075B1 (en) * | 2000-07-27 | 2003-07-29 | International Business Machines Corporation | System and method of ranking and retrieving documents based on authority scores of schemas and documents |
US20070266306A1 (en) * | 2000-06-29 | 2007-11-15 | Egocentricity Ltd. | Site finding |
CN101178713A (zh) * | 2006-11-29 | 2008-05-14 | 腾讯科技(深圳)有限公司 | 一种采集网页的方法及系统 |
CN101329687A (zh) * | 2008-07-31 | 2008-12-24 | 清华大学 | 一种新闻网页定位方法 |
US20090119291A1 (en) * | 2005-09-30 | 2009-05-07 | International Business Machines Corporation | Microhubs and its applications |
JP2010108363A (ja) * | 2008-10-31 | 2010-05-13 | Yahoo Japan Corp | クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム |
CN102609511A (zh) * | 2012-02-06 | 2012-07-25 | 奇智软件(北京)有限公司 | 导航页面数据处理方法及装置 |
-
2012
- 2012-10-31 CN CN201210428272.2A patent/CN103793421B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070266306A1 (en) * | 2000-06-29 | 2007-11-15 | Egocentricity Ltd. | Site finding |
US6601075B1 (en) * | 2000-07-27 | 2003-07-29 | International Business Machines Corporation | System and method of ranking and retrieving documents based on authority scores of schemas and documents |
US20090119291A1 (en) * | 2005-09-30 | 2009-05-07 | International Business Machines Corporation | Microhubs and its applications |
CN101178713A (zh) * | 2006-11-29 | 2008-05-14 | 腾讯科技(深圳)有限公司 | 一种采集网页的方法及系统 |
CN101329687A (zh) * | 2008-07-31 | 2008-12-24 | 清华大学 | 一种新闻网页定位方法 |
JP2010108363A (ja) * | 2008-10-31 | 2010-05-13 | Yahoo Japan Corp | クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム |
CN102609511A (zh) * | 2012-02-06 | 2012-07-25 | 奇智软件(北京)有限公司 | 导航页面数据处理方法及装置 |
Non-Patent Citations (3)
Title |
---|
基于主题的Web信息采集技术研究;李盛韬;《中国优秀硕士学位论文全文数据库》;20070215;I139-203 * |
李盛韬: "基于主题的Web信息采集技术研究", 《中国优秀硕士学位论文全文数据库》 * |
龚诚: "网页增量式采集技术研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105404458A (zh) * | 2014-09-10 | 2016-03-16 | 腾讯科技(深圳)有限公司 | 网页内容更新方法及装置 |
CN105404458B (zh) * | 2014-09-10 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 网页内容更新方法及装置 |
CN106407218A (zh) * | 2015-07-31 | 2017-02-15 | 北京国双科技有限公司 | 导航网页的检测方法和装置 |
CN106407218B (zh) * | 2015-07-31 | 2020-03-03 | 北京国双科技有限公司 | 导航网页的检测方法和装置 |
CN110874430A (zh) * | 2018-08-09 | 2020-03-10 | 北大方正集团有限公司 | 网络爬虫调度方法、装置及设备 |
CN110874430B (zh) * | 2018-08-09 | 2022-06-14 | 北大方正集团有限公司 | 网络爬虫调度方法、装置及设备 |
CN110609952A (zh) * | 2019-08-15 | 2019-12-24 | 中国平安财产保险股份有限公司 | 数据采集方法、系统和计算机设备 |
CN110609952B (zh) * | 2019-08-15 | 2024-04-26 | 中国平安财产保险股份有限公司 | 数据采集方法、系统和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN103793421B (zh) | 2017-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Schneeberger et al. | Driving forces and rates of landscape change as a promising combination for landscape change research—An application on the northern fringe of the Swiss Alps | |
CN109858728B (zh) | 基于分行业用电特性分析的负荷预测方法 | |
CN103793421A (zh) | 基于网页结构的信息动态采集更新调度方法 | |
CN103577581B (zh) | 农产品价格趋势预测方法 | |
CN106156792A (zh) | 一种基于台区电气特征参数的低压台区聚类方法 | |
Olauson et al. | Correlation between wind power generation in the European countries | |
CN102339290B (zh) | 一种网页数据信息的定向采集方法及装置 | |
CN104156783A (zh) | 计及气象累积效应的电力系统最大日负荷预测系统及方法 | |
CN103605878B (zh) | 一种基于数据建模和模型移植的通用血糖预测方法 | |
CN103841173A (zh) | 一种垂直网络蜘蛛 | |
CN103310013A (zh) | 一种面向主题的网页采集系统 | |
CN101667198B (zh) | 实时垂直搜索引擎对象缓存优化方法 | |
CN104077489A (zh) | 一种能耗设备能效分析方法及其分析系统 | |
Lv | Retracted article: agricultural climate change and multilingual GIS database translation system based on embedded database and artificial intelligence | |
CN102368253A (zh) | 一种网络节点评级的方法 | |
CN105824941B (zh) | 一种基于waqm的网站无障碍检测最佳抽样方法 | |
CN104636318A (zh) | 一种大数据方差标准差的分布式或增量计算方法 | |
CN103593380A (zh) | 在线交友网站的魅力用户推荐平台 | |
CN103336851A (zh) | 一种专利文献模型树构建方法 | |
CN113177711A (zh) | 一种海洋牧场集约用海调整方法及系统 | |
Shahrokh et al. | Land suitability evaluation using analytical hierarchy process technique in Zarrinshahr and Mobarakeh (Isfahan) | |
Wang et al. | Content information extraction of theme web pages based on tag information | |
CN103955460A (zh) | 基于膜计算的搜索方法 | |
Rezaee et al. | Evaluation and comparison of the sustainability level of agronomy crops under drought condition by using MCDA in the east of Zayandeh-Rud river basin | |
CN103399918A (zh) | 一种提高网站被搜索率的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 100088 Beijing city Haidian District No. 6 Zhichun Road Jinqiu International Building 14 floor 14B04 Patentee after: TOLS INFORMATION TECHNOLOGY Co.,Ltd. Address before: 100088 Beijing city Haidian District No. 6 Zhichun Road Jinqiu International Building 14 floor 14B04 Patentee before: BEIJING TRS INFORMATION TECHNOLOGY Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |