CN103176985A - 一种及时高效的互联网信息爬取方法 - Google Patents
一种及时高效的互联网信息爬取方法 Download PDFInfo
- Publication number
- CN103176985A CN103176985A CN2011104309970A CN201110430997A CN103176985A CN 103176985 A CN103176985 A CN 103176985A CN 2011104309970 A CN2011104309970 A CN 2011104309970A CN 201110430997 A CN201110430997 A CN 201110430997A CN 103176985 A CN103176985 A CN 103176985A
- Authority
- CN
- China
- Prior art keywords
- page
- crawling
- information
- website
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009193 crawling Effects 0.000 title claims abstract description 97
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000002372 labelling Methods 0.000 claims abstract description 7
- 238000012544 monitoring process Methods 0.000 claims description 24
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 10
- 238000005516 engineering process Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013278 delphi method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种及时高效的互联网信息爬取方法,属于信息技术领域。本方法为:1)设定种子地址,爬取保存网页信息并确定导航页面;2)对每一导航页面进行多次爬取,并对爬取的网页进行分析标注;4)建立每一网站的主题判断模型和导航页面变更时间序列预测模型;5)预测每一网站导航页面下一次变更时间,确定下一爬取时间,爬取导航页面并提取未爬取过的子页面地址和锚文本;6)利用所建主题判断模型对上一步提取的子页面地址和锚文本进行判断,并据判断结果分别处理;7)基于新爬取的主题相关页面,形成或更新每一网站导航页面的当前变更时间序列,确定下一爬取时间进行网页爬取。本发明能在较小负载下,保证所采集信息的新颖性和主题性。
Description
技术领域
本发明属于信息技术领域,尤其涉及一种及时高效的互联网信息爬取方法。
背景技术
随着互联网的快速发展,它已经变成了世界上规模最大的公共数据源,而且其规模还正在不停的增长着。从其中包含的内容看,互联网上存在众多的通过超链接方式链接在一起的网页信息,并且其中相当大的一部分具有动态变化的特点;以此为基础,互联网上可以提供众多的服务,而且通过人、组织等之间的交流形成了一个和真实社会有一定对应、关联关系的虚拟社会。为此,以从互联网的结构、内容、日志等之中探寻有用知识为目标的Web数据挖掘得到了很大的关注和发展,以互联网上的内容作为挖掘对象的内容挖掘尤其如此。以这些挖掘工作为基础的应用也得到了广泛的关注,服务于多种目的的互联网信息监控、信息预警等即是这样的应用。
为进行互联网上的内容挖掘和执行特定的信息监控、预警等应用,首先需要采用一定的技术采集符合要求的互联网内容,这一般需要通过基于有限范围爬取、垂直爬取或主题爬取等技术的互联网信息爬虫(Crawler)系统完成。很明显,信息监控、预警等应用对采集的信息有着特定的不同于一般搜索引擎的需求,其中两个最重要需求是:(1)信息的主题相关性,即所采集的信息应符合预期的主题需要,或者说采集的信息在内容上和预定话题或者主题应该是相关的;(2)信息的新颖性,即要保证目标网站所出现的新信息能在第一时间得到。
关于信息的主题性问题,考虑到互联网上的信息超大规模,为支持特定的信息监控等应用,对互联网上的所有信息进行完全采集是不现实的,也是无意义的。对此,可以采用主题聚焦技术对互联网上的信息进行分类,对相关内容进行快速采集,而对不相关内容则采取抛弃措施。为了判断页面是否相关,锚文本、链接结构等是可以利用的条件。在对一个网页进行是否相关分类的基础上,可以采取对其(假定相关)内部的子链接全部访问、据特征赋以不同的分值后排序并按照次序进行访问的方法等。从实践的效果看,采取这些主题爬取技术做法得到的效果尚有进一步提高的必要。
关于网页信息的新颖性问题-即目标网站中出现的网页信息在一定时间范围内(比如10分钟)是否在本地数据库中出现的问题。与此相关联的是通用搜索引擎中的时新性问题。关于信息的时新性问题,从一般搜索引擎的角度看,主要考虑到互联网上的网页信息在不停的增加、删除和修改。为了准确的查看网页中的内容,需要搜索引擎的爬虫对已经爬取过的页面进行访问看它们是否发生了变化,以保持网页集合的时新性-指所抓取的网页中当前为新网页的比例。简单的考虑,为保证所采集的页面都是最新的,可以不停的去访问页面,但这会给信息提供者、信息采集者带来极大的采集负载(包括可能影响网站的正常运行、增加了极大的网络流量等等)。为此,有研究工作对网页的变化情况进行总体研究,并在此基础上对网页的重新访问进行规划。但注意到一般搜索引擎所关注的信息时新性问题不同于前述的页面新颖性问题。信息监控、预警应用中主要关注的问题是目标网站出现的新信息是否在有限的时间范围内被抓取回来了,相对而言,对时间非常敏感,其关注每一个网页对象,同时其对信息的主题范围比较关注。而一般搜索引擎主要关注的问题是抓取回来的网页信息是否发生了变化,如果发生变化,则要更新,相对而言对时间不太敏感,其关注本地资源库的总体指标,同时其不关注信息的主题范围;另外,相关研究中对网页的重新访问规划往往基于事先设定的条件(比如网页的变化规律),但这些条件在现实情况下往往不能满足,因此网页重新访问规划的效果往往比较差。因此这些技术不能直接应用到信息监控、预警应用中。
为满足互联网信息监控、信息预警等应用的信息需求,另外一个需要考虑的问题是:如何将互联网信息的主题爬取(关注页面的话题相关性)和及时爬取(关注页面的新颖性问题)等技术思路结合在一起,优化、整合相关技术以形成一个及时、高效的互联网信息爬虫系统。经过查阅文献发现,目前尚未有研究工作涉及于此。
因此,为满足互联网信息监控、信息预警等应用的信息需求,迫切需要解决以下问题:优化、开发互联网信息主题爬取、及时爬取相关技术,并整合形成一个及时、高效的互联网信息爬虫系统,以在较低信息爬取负载(比如对信息提供网站有较小的影响、产生较少的无效网络流量等)条件下保证所获取网页信息的新颖性、主题性特征。
发明内容
为解决上述的问题,本发明的目的在于提供一种在较低采集负载(比如对提供信息的网站有较低的影响、减少无效的网络流量等)的条件下保证所爬取页面新颖性、主题性的互联网信息爬取方法。
借鉴智能系统思路,方法中形成的步骤如下所述。
一、信息收集和整理
设定种子Url、爬取层数限制、爬取的最大页面数等参数,采用通用爬虫对网页进行爬取并保存;在分析这些网页所属网站及其导航页面的基础上,对每一网站分配一特定专用的爬取线程,并在一确定的时间范围内进行频繁(时间间隔较小)页面爬取,并保存相关信息。
二、建立模型
对频繁爬取的网页信息进行整理、分析,即将爬取的每一个网站的页面分为导航页面、主题相关页面、主题不相关页面、后续页面等类别。对每一网站,将爬取的主题相关页面的发布时间(即导航页面的主题相关子页面发布时间)形成一时间序列的基础上,建立导航页面变更的时间序列预测模型;同时,基于上述建立的页面集合,建立主题相关、主题不相关、后续页面判断模型以及通用的主题相关判断模型。
三、网页信息爬取
各网站对应的线程按照时间序列预测模型的时间预测值,进行导航页面及其子页面的爬取,过程中对页面进行上述主题相关、主题不相关、后续页面不同类别判断并进行分别的处理。对于属于主题相关的页面进行爬取保存并进行二次过滤确认。同时计算导航页面下一次变更的时间预测值,为后续页面爬取提供时间依据。
四、网页信息后续处理
对经过上述步骤爬取得到的主题相关的网页信息,按照预定的信息监控等需求,进行网页信息的后续处理。
五、样本、模型更新
在新爬取得到的网页信息基础上,定期执行样本集合、模型的更新:对经过判断模型分类后的网页等进行二次审核-确认其类别是否正确,并将经过审核步骤后的信息按照其准确的类别属性增加到不同的类别中;在更新后的样本集合基础上,进行各类别的判断模型、时间序列预测模型更新。
六、网站监控列表更新
对于网页爬取过程中发现的新网站,定期执行页面分析、整理、建立时间序列预测模型及主题判断模型等后加入网站监控列表中。同时对于列表中一定时间范围内采集的主题相关页面数小于事先设定阈值的网站,则停用。
本发明在信息收集和整理过程中设定种子Url等爬取参数后采用通用爬虫获得初始的网页信息,并对这些网页信息进行链接结构分析后得到网页信息所属网站及其导航页面的列表,从而简化了信息监控问题的范围和复杂程度。
本发明在网页信息分析、整理的基础上,对每一个网站分配给特定的爬取线程负责此网站的信息爬取工作,进一步简化了信息监控问题中资源分配的问题。
本发明对频繁爬取得到的网页信息,将其分类为导航页面、主题相关页面、主题不相关页面、后续页面等类别,以此为基础建立了主题相关、主题不相关、后续页面等的判断模型。并以主题相关页面的发布时间序列(即导航页面的主题相关子链接产生的时间序列)为基础,建立导航页面变化的时间序列预测模型。
本发明基于上述的页面分类集合,采用了“从正例和无标注数据中学习”的机器学习方法-偏置SVM建立了主题相关判断模型、主题不相关判断模型、后续页面判断模型(特征为标题-锚文本)和基于内容、链接的通用主题相关判断模型--以页面内容(分词、去除停用词后得到各词语的频率,并采用频率法降维后形成向量)、链接特征(包括对信息的网站内出链数占总出链数比例、信息的网站外出链数占总出链数比例、信息链接主题相关页面集合内的信息数占总出链数比例、主题相关页面集合内链接信息的数量占总页面数比例等进行加权计算)组合形成联合特征向量后建立判断模型。
本发明为了对每个网站导航页面的变更建立时间序列预测模型,采取了频繁(较小的时间间隔)爬取收集导航页面变更历史信息后采用时间窗口内历史变更时间段预测新的变更时间段的做法。为确定时间窗口长度,首先将历史时间序列分为工作日、节假日及6:00-18:00、18:00-6:00四种类型,对每种类型的历史时间序列,通过寻找导航页面变更时间段预测值和实际的变更值之间的相关性最强(比如简单相关系数的值最大)时的时间窗口长度的方法,得到预测导航页面下一次变更时间段的计算时间窗口长度,从而建立了导航页面下一次变更的时间序列预测模型。基于此,并结合相关阈值综合决定页面的下一次爬取时间。
本发明在爬取页面过程中,结合上述的主题判断模型,对页面进行类别判断,根据其所属的类别不同采取不同的措施。其中对既属于主题相关类别、也属于主题不相关类别的网页信息(即主题相关判断模型、主题不相关判断模型的判断结果都为正例或都为反例),采取爬取页面后进行基于内容、链接的主题相关判断方式,减少了网页标题(锚文本)和内容不匹配或网页标题(锚文本)词语分布发生变化时的误判情况,从而提高了主题分类及爬取信息的准确度。同时基于更新的导航页面当前变更时间序列,对导航页面的下一次变更作出预测。
本发明根据爬取得到的网页信息,定期执行样本集合、模型的更新,保证了爬取时间预测模型、页面主题判断模型的准确性和随时间更新。
本发明对网页爬取过程中所发现的新网站,采取了链接结构分析、整理、建立主题判断模型和导航页面变更时间序列预测模型后增加到列表的做法,保证了监控列表、范围的逐步扩大。同时也对列表中网站相关的主题相关页面数进行分析,对于在一定时间范围内采集的主题相关页面数小于一定阈值的网站,则停用。
本发明综合了网页信息的及时爬取、主题爬取等技术思路,保证了信息监控、预警等应用的信息主题性、及时性等需求得到满足。
与现有技术相比,本发明的优点:
本发明通过综合网页信息的及时爬取、主题爬取技术,对网站的导航页面建立变更的时间序列预测模型,对其子页面根据标题、链接结构、内容等建立主题相关、主题不相关、后续页面等判断模型,并在后续过程中定期对这些模型进行动态更新;基于此对网站的导航页面及其子页面进行爬取,并对其中的子页面进行判断取舍,能在不带来较大负载(对目标网站的影响、无效网络流量等)的条件下,保证所采集信息的新颖性和主题性。
附图说明
图1及时、高效的互联网信息爬取方法示意图;
图2信息收集和整理阶段流程图;
图3建立模型阶段流程图;
图4网页信息爬取阶段流程图。
具体实施方式
本发明的具体实施方式如图1所示。下面详述其步骤。
一、信息收集和整理(如图2所示)
1、收集相关信息Url地址
按照预定的主题含义,首先选择确定部分(比如3-5个)主题关键词;在通用搜索引擎上输入这些主题关键词,得到查询结果列表;对查询结果进行整理和Url提取,得到部分相关信息的Url地址。
2、初始Url设置及网页信息爬取
选用互联网信息爬虫软件(比如Heritrix、Nutch等),并将步骤一、1整理得到的这些Url地址作为种子Url地址在软件中进行设置,同时选择网页信息爬取的层数、信息爬取的最大页面数等参数(事先确定)并在软件中进行设置,之后采用通用互联网信息爬取的方式(不进行主题相关判断、及时性预测)进行网页信息爬取。并将爬取得到的网页信息保存到数据库中。
3、网页信息整理
将所有爬取到的网页进行链接结构分析(通过构建链接图分析)。分析的内容主要是对爬取得到的网页进行信息源及导航页面整理、确认。即将网页信息按照其所属网站及链接关系不同进行归纳,找出这些网页所属的网站及网站的导航页面。
4、线程分配
将步骤一、3整理出来的每一网站及其导航页面作为网页信息监控的对象,并分配给一特定的网页信息爬取线程进行信息爬取。这就形成了一个目标Url及对应爬取线程的网站监控列表。
5、频繁爬取页面
在一定的时间范围内(比如2个月),每个线程以较低的时间间隔(比如2分钟,据经验事先确定)对指定网站的导航页面及其子链接页面进行爬取、保存,并提取、记录导航页面的最后变更时间等信息,将导航网页的相关元数据(含每次采集得到的页面最后变更时间等)一并保存到数据库(和步骤一、2的信息保存数据库不同)中。
二、建立模型(如图3所示)
1、网页信息整理、标注
对步骤一、5爬取得到的网页进行整理、标注。整理、标注的内容主要是对爬取得到的网页进行主题相关判断和标注(类别主要分为三种:相关、不相关、后续页面),如果爬取的网页信息和预定的主题相关,则标注为相关页面;如果爬取的网页信息和预定主题不相关,则标注为不相关页面;如果页面内容是某一网页的后续页面,则标注为后续页面。这样对步骤一、3整理出来的每一个网站,均有一个对应的主题相关页面集合、主题不相关页面集合、后续页面集合。具体的,对每一个网站的网页,可分为导航页面、内容页面(又可分为主题相关页面、主题不相关页面)、后续页面(如下一页等)等类别。
2、建立时间序列预测模型
对步骤一、3整理出来的每一个网站(及其导航页面),以前面收集的导航页面的变更时间(即其子链接页面的发布时间)为基础,整理形成导航页面变更的时间序列。考虑到信息监控的主题相关需求,这里在时间序列中排除不相关页面的情况,从而最终形成一个网站导航页面的变更时间序列(即主题相关子页面发布时间序列)。
在此基础上,建立针对导航页面变更的时间序列预测模型。其过程为:首先将时间分为节假日、工作日两种类型,对每一种类型的时间,又分为两种子类型,分别是6:00-18:00,18:00-6:00两个时间段。这样,前面建立的时间序列就可以分为4种类型,相应的,时间序列预测模型也需要针对这四种类型的时间序列建立。方法中建立的时间序列预测模型主要原理是:依据历史时期内导航页面的变更时间序列,预测以后导航页面的变更情况。
即:导航页面的下一次变更时间Tnext(下一次变更时间)=Tcurrent(当前变更时间)+Tinterval(变更的时间段)。其中,Tinterval依据历史时期内导航页面的变更时间序列计算得到,则问题转变为确定Tinterval。
为了确定Tinterval,方法中采取的模式是用以前的变更时间段均值去预测下一次变更的时间段。这里面就出现一个问题:用以前的哪些变更时间段去预测下一次变更的时间段呢?为此,方法中定义了一个时间窗口的概念Twindow,设Twindow的长度为N,则有:所以,问题又转变为确定N。
为此,我们在以前收集的历史时间序列的基础上,计算每次导航页面变更的实际Tinterval,并采用不同长度的时间窗口内的实际Tinterval去预测下一次(历史时间序列内)变更的Tinterval,并基于此计算预测值和实际的变更值之间的相关系数(事先通过散点图观察其形状,选择合适的相关系数表达式),则寻找预测值和实际的变更值之间的相关性最强(比如简单相关系数的值最大)时的时间窗口长度即为我们要选择的时间窗口长度。由此,我们确定了基于四种时间序列类型的时间窗口长度Np(p=1、2、3、4),从而可以据此计算导航页面下一次变更的时间预测值。
在建立导航页面变更的时间序列预测模型基础上,即可产生形成针对网站导航页面的下一次爬取时间预测值,即导航页面下一次变更的时间预测值T1(更确切的是时间段,即导航页面下一次发生变化的时间和当前变化的时间的差值);同时,结合导航页面子页面的发布时间等情况设定导航页面下一次变更时间预测值的最大阈值MAX(比如2小时,事先确定)、最小阈值MIN(比如5分钟,事先确定)和折中值Mid(比如1小时,事先确定),对上述确定的参数进行保存。综合上述参数,可以确定下一次爬取网站导航页面的时间,从而可以相对准确、有效的指导信息爬取系统的下一次爬取时间,避免无益的行为。
3、建立主题判断模型
对每一个网站及其导航页面,以前面收集、整理、标注的主题相关页面集合、主题不相关页面集合、后续页面集合(如下一页等)为样本基础,以页面标题为特征(具体方法是对页面标题进行分词后,建立各词是否出现的0-1向量),采用一种“从正例和无标注数据中学习”的机器学习方法-偏置SVM(Liu,B.,Y.Dai,X.Li,W.Lee,and P.Yu.Building text classifiersusing positive and unlabeled examples.Proceedings of IEEE International Conference on DataMining,2003.)建立页面主题相关判断模型、页面主题不相关判断模型、后续页面判断模型。并以所有网站的主题相关页面(通用主题相关页面集合)为基础,形成特征向量,过程为:
将信息页面内容分词、去除停用词后得到各词语的频率,并选择频率法降维后形成向量,设为P。
同时,计算信息页面的链接特征包括信息的网站内出链数占总出链数比例、信息的网站外出链数占总出链数比例、信息链接主题相关页面集合内的信息数占总出链数比例、主题相关页面集合内链接信息的数量占总页面数比例等,并将各项参数加权(权数事先通过德尔斐法确定,但须保证权数之和为1)计算得到总的数值,设为k。
则形成表征信息页面的联合特征向量k*P。基于此采用上述的偏置SVM方法建立基于内容、链接的通用主题相关判断模型(在上述模型的建立过程中,须保证建立的模型准确率尽可能高-阈值事先设定),对上述确定的模型参数进行保存(建立模型过程中所基于的无标注样本集合为正例集合之外的样本所组成的集合,比如对建立主题相关判断模型而言,正例集合为主题相关页面集合,无标注样本集合是由其他的主题不相关页面、后续页面等组成的集合)。
三、网页信息爬取(如图4所示)
1、网页爬取时间确定
对每一个网站,预先设定的相应爬取线程根据前述步骤建立的时间序列预测模型预测下一次导航页面发生变化的时间(根据时间点的不同,根据前面步骤确定的不同类型时间段的时间窗口长度Np,计算下一次变更时间段的预测值,假设为T1;其中,时间窗口长度内的下一次变更时间段预测值T1=Mid),并根据如下的规则,确定启动针对导航页面的爬取时间T(设网站导航页面当前变更时间为Tcur):
如果Min<T1<Max,则T=Tcur+T1;
如果Max<T1,则T=Tcur+Max;
如果T1<Min,则T=Tcur+Min。
在确定针对导航页面爬取时间的基础上,在预定的时间启动针对导航页面的爬取工作。
2、网页主题判断
对导航页面进行爬取并进行预处理,提取其中的子页面Url及其锚文本;对这些子页面Url首先进行页面是否爬取判断(即根据本地数据库中是否存在此Url及其锚文本确定),对于之前已经爬取过的网页,直接放弃后续处理;对于未爬取过的子页面Url和其锚文本分别应用前面建立的主题相关判断模型、主题不相关判断模型、后续页面判断模型进行判断,并按照如下规则处理:
a如果子页面属于后续页面类别(即后续页面判断模型判断结果为正例)并且爬取的层数小于预先设定的爬取层数限制,则继续爬取此子页面,并将子页面中的Url及其锚文本提取出来,首先进行页面是否爬取判断(即根据本地数据库中是否存在此Url及其锚文本确定),对于未爬取过的页面Url和其锚文本分别应用前面建立的主题相关判断模型、主题不相关判断模型、后续页面判断模型等进行检测判断。以此循环(同步骤三、2),直至达到爬取层数限制,或不存在后续页面。
b如果子页面属于主题相关页面类别(即主题相关判断模型判断结果为正例、主题不相关判断模型的判断结果为反例),则爬取保存。
c如果子页面属于主题不相关页面类别(即主题相关判断模型判断结果为反例、主题不相关判断模型的判断结果为正例),则放弃。
d如果子页面既属于主题相关页面类别,也属于主题不相关页面类别(即主题相关判断模型、主题不相关判断模型的判断结果都为正例或都为反例)时,则直接爬取子页面后提取页面内容、链接特征,进行基于内容、链接的通用主题相关判断,如果属于主题相关类别,则保存此子页面,否则放弃。
3、网页二次过滤
由于网页爬取过程中,主要依靠锚文本作为特征进行主题是否相关判断,可能存在误差。因此在网页爬取保存后,采用基于内容、链接的通用主题相关判断模型对其进行离线的二次过滤判断,对属于主题相关类别的页面,则标注后进行后续处理(包括保存页面的发布时间,即导航页面的变更时间,形成或更新导航页面的当前变更时间序列);否则标注后放弃。同时,依据导航页面的当前变更时间序列,计算新的T1,为后续爬取提供预测时间值。
如果在一次导航页面爬取过程中,不存在新的主题相关子页面,则更新T1=T1+Min,为后续爬取提供预测时间值。
四、网页信息后续处理
对经过上述步骤爬取得到的主题相关的网页信息,按照预定的信息监控等需求,进行网页信息的后续处理。
五、样本、模型更新
在将爬取得到的主题相关页面进行后续预定处理的同时,为保证信息爬取时间预测、主题判断的准确性,以新爬取得到的网页信息为基础,定期(比如每隔1个月)执行样本更新、模型更新过程。
1、对每一网站,对于经过主题相关判断、过滤后的网页信息进行二次审核判断,对于确属主题相关的网页,进行标注,对各网站主题相关和通用主题相关页面集合进行更新,否则将这些信息据其类别不同归到主题不相关页面集合或后续页面集合中;同时对前述过程中放弃不用的网页(含定期执行的主题不相关页面爬取过程中得到的网页)、后续页面等进行二次审核、整理,并在此基础上更新主题不相关页面、后续页面集合。
2、对每一网站,以上述经过审核确认、更新的主题相关页面集合为基础,提取页面发布时间等元数据,并更新导航页面的历史变更时间序列。以此为基础,按照步骤二、2更新时间序列预测模型。
3、对每一网站,基于更新后的主题相关页面、主题不相关页面、后续页面和通用主题相关页面集合,对上述的主题相关判断模型、主题不相关判断模型、后续页面判断模型进行更新,同时对基于内容和链接的通用主题相关判断模型进行模型更新(同步骤二、3)。
六、网站监控列表更新
对于网页信息爬取过程中发现的不在目前监控列表中的网站,首先保存到数据库中。之后定期执行页面分析、整理归纳其导航页面、频繁页面采集、建立导航页面变更的时间序列预测模型及主题相关、不相关、后续页面判断模型等后加入监控列表中(同步骤一、二中的相关做法)。
同时,定期对监控列表中各网站相关的主题相关页面数进行统计分析,对于一定时间范围内采集的主题相关页面数量小于一定阈值(事先设定)的网站,则停用。
由此,完整地实现了在较低采集负载(对信息提供网站较小的影响、较低的无效网络流量等)条件下保证所获取网页信息的新颖性、主题性的网页信息爬取方法。为特定信息监控、预警等应用提供了及时、高效的信息基础。
Claims (12)
1.一种及时高效的互联网信息爬取方法,其步骤为:
1)将设定信息源作为种子地址进行网页信息爬取并保存,确定所爬取网页所属网站及网站的导航页面;
2)将确定出的每一网站导航页面作为一爬取对象进行多次爬取,并对其子页面爬取保存;
3)将步骤2)所爬取的网页进行主题相关判断和标注,将爬取的每一网站的页面分别标注为:主题相关页面、主题不相关页面、后续页面;
4)基于标注的页面集合及形成的无标注样本集合,建立每一网站的页面主题相关判断模型、页面主题不相关判断模型、后续页面判断模型及基于内容和链接的通用主题相关判断模型;根据每次爬取时网站导航页面的主题相关子页面的发布时间建立一导航页面变更时间序列,创建每一网站的导航页面变更时间序列预测模型;
5)利用所述导航页面变更时间序列预测模型预测每一网站导航页面下一次变更时间,然后利用该变更时间预测值确定每一网站导航页面的下一爬取时间,爬取网站导航页面并提取其中未爬取过的子页面地址和锚文本;
6)利用所建页面主题相关判断模型、页面主题不相关判断模型、后续页面判断模型和通用主题相关判断模型对上一步提取的子页面地址和锚文本进行判断:如果子页面属于后续页面类别,则继续进行爬取;如果子页面属于主题相关页面,则爬取保存;如果子页面属于主题不相关页面类别,则放弃;
7)基于新爬取的主题相关页面,形成或更新每一网站导航页面的当前变更时间序列,采用步骤5)方法确定每一网站导航页面下一爬取时间进行网页爬取。
2.如权利要求1所述的方法,其特征在于设定信息源的方法为:首先在通用搜索引擎上输入预定主题关键词,搜索得到一查询结果列表;然后从查询结果中提取地址作为所述设定信息源。
3.如权利要求1或2所述的方法,其特征在于对每一所述爬取对象分配一网页信息爬取线程,并建立一目标地址及对应爬取线程的监控列表。
4.如权利要求3所述的方法,其特征在于设定所述网页信息爬取线程的爬取时间间隔,在设定爬取时间范围内对所述爬取对象进行定期爬取。
5.如权利要求1所述的方法,其特征在于将时间分为节假日、工作日两种类型,对每一种类型的时间分别划分两个时间段,从而将所述变更时间序列分为4种类型,对每一类型时间序列建立一导航页面变更时间序列预测模型。
7.如权利要求6所述的方法,其特征在于确定N值的方法为:根据所述导航页面历史变更时间序列计算每次导航页面变更的实际Tinterval;然后采用不同的时间窗口内的实际Tinterval预测历史变更时间序列内下一次变更的Tinterval,并计算预测值和实际的变更值之间的相关系数,选取预测值和实际的变更值之间的相关性最强时的时间窗口长度值确定为N值。
8.如权利要求6所述的方法,其特征在于确定每一网站导航页面的下一爬取时间T的方法为:如果Min<T1<Max,则T=Tcur+T1;如果Max<T1,则T=Tcur+Max;如果T1<Min,则T=Tcur+Min;其中,Tcur为网站导航页面当前变更时间,T1为网站导航页面下一次变更时间段预测值,Max为网站导航页面下一次变更时间段预测值的最大阈值,Min为网站导航页面下一次变更时间段预测值的最小阈值。
9.如权利要求8所述的方法,其特征在于,如果某一次导航页面爬取过程中,不存在新的主题相关子页面,则更新T1=T1+Min。
10.如权利要求1所述的方法,其特征在于采用偏置SVM机器学习方法建立所述页面主题相关判断模型、页面主题不相关判断模型、后续页面判断模型、基于内容和链接的通用主题相关判断模型。
11.如权利要求1所述的方法,其特征在于基于标注的主题相关页面集合和由其他页面组成的无标注样本集合建立所述通用主题相关判断模型的方法为:首先,将信息页面内容分词、去除停用词后得到各词语的频率,并选择频率法降维后形成向量,设为P;然后,计算信息页面的网站内出链数占总出链数比例、网站外出链数占总出链数比例、信息链接主题相关页面集合内的信息数占总出链数比例、主题相关页面集合内链接信息的数量占总页面数比例,并将各项参数加权计算得到总的数值,设为k;然后采用联合特征向量k*P表征信息页面,利用偏置SVM机器学习方法建立基于内容、链接的通用主题相关判断模型。
12.如权利要求11所述的方法,其特征在于所述步骤6)中,首先将锚文本作为特征,利用所建页面主题相关判断模型、页面主题不相关判断模型、后续页面判断模型对步骤5)提取的未爬取子页面地址和锚文本进行判断,如果子页面属于后续页面类别,则继续进行爬取;如果子页面属于主题相关页面,则爬取保存;如果子页面属于主题不相关页面类别,则放弃;否则直接爬取子页面后基于网页内容和链接建立特征向量,利用所建通用主题相关判断模型对爬取的页面进行判断,对于属于主题相关的类别,则标注保存,否则放弃。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110430997.0A CN103176985B (zh) | 2011-12-20 | 2011-12-20 | 一种及时高效的互联网信息爬取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110430997.0A CN103176985B (zh) | 2011-12-20 | 2011-12-20 | 一种及时高效的互联网信息爬取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103176985A true CN103176985A (zh) | 2013-06-26 |
CN103176985B CN103176985B (zh) | 2016-06-29 |
Family
ID=48636866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110430997.0A Active CN103176985B (zh) | 2011-12-20 | 2011-12-20 | 一种及时高效的互联网信息爬取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103176985B (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617264A (zh) * | 2013-12-02 | 2014-03-05 | 北京奇虎科技有限公司 | 时效性种子页的抓取方法及装置 |
CN104408198A (zh) * | 2014-12-15 | 2015-03-11 | 北京国双科技有限公司 | 网页页面内容的获取方法和装置 |
CN105183749A (zh) * | 2015-07-13 | 2015-12-23 | 北京奇虎科技有限公司 | 一种爬取推广内容并供搜索使用的方法和装置 |
CN105447202A (zh) * | 2015-12-31 | 2016-03-30 | 宁波公众信息产业有限公司 | 一种互联网信息采集系统 |
CN105528416A (zh) * | 2015-12-07 | 2016-04-27 | 中南大学 | 一种网站更新内容的监测方法及系统 |
CN105677802A (zh) * | 2015-12-31 | 2016-06-15 | 宁波公众信息产业有限公司 | 一种互联网信息分析系统 |
CN105897466A (zh) * | 2016-03-30 | 2016-08-24 | 中国联合网络通信集团有限公司 | 一种网页资源分布的评价方法和装置 |
CN106202383A (zh) * | 2016-07-08 | 2016-12-07 | 武汉烽火普天信息技术有限公司 | 一种应用于网络爬虫的网络带宽占比动态预测方法与系统 |
CN106407218A (zh) * | 2015-07-31 | 2017-02-15 | 北京国双科技有限公司 | 导航网页的检测方法和装置 |
CN106534285A (zh) * | 2016-10-27 | 2017-03-22 | 杭州华三通信技术有限公司 | 一种访问方法及装置 |
CN106547803A (zh) * | 2015-09-23 | 2017-03-29 | 北京国双科技有限公司 | 爬取网站增量资源的方法和装置 |
CN106611005A (zh) * | 2015-10-26 | 2017-05-03 | 北京国双科技有限公司 | 一种设置爬虫爬取时间间隔的方法及装置 |
CN107025230A (zh) * | 2016-01-29 | 2017-08-08 | 北京国双科技有限公司 | 网络爬虫的处理方法及装置 |
CN107622125A (zh) * | 2017-09-29 | 2018-01-23 | 联想(北京)有限公司 | 一种信息爬取方法和装置、电子设备 |
CN108073588A (zh) * | 2016-11-09 | 2018-05-25 | 北京国双科技有限公司 | 栏目信息提取方法和装置 |
CN108073608A (zh) * | 2016-11-09 | 2018-05-25 | 北京国双科技有限公司 | 数据信息的更新方法及装置 |
CN108509640A (zh) * | 2018-04-11 | 2018-09-07 | 焦点科技股份有限公司 | 一种基于序列预测的网页布局优化方法 |
CN108614841A (zh) * | 2016-12-13 | 2018-10-02 | 北京国双科技有限公司 | 时间间隔的调整方法和装置 |
CN109657055A (zh) * | 2018-11-09 | 2019-04-19 | 中山大学 | 基于层次混合网络的标题党文章检测方法及联邦学习策略 |
CN109670101A (zh) * | 2018-12-28 | 2019-04-23 | 北京奇安信科技有限公司 | 爬虫调度方法、装置、电子设备及存储介质 |
CN110188300A (zh) * | 2019-05-30 | 2019-08-30 | 吉林大学 | 一种面向汽车领域的采购信息的处理方法及装置 |
CN110489627A (zh) * | 2019-08-12 | 2019-11-22 | 南京烽火天地通信科技有限公司 | 一种互联网爬虫路由方法 |
CN115827948A (zh) * | 2023-02-09 | 2023-03-21 | 中南大学 | 一种爬取文献数据的单反射性智能体和文献数据爬取方法 |
CN115858902A (zh) * | 2023-02-23 | 2023-03-28 | 巢湖学院 | 一种页面爬虫规则更新方法、系统、介质及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080168041A1 (en) * | 2005-12-21 | 2008-07-10 | International Business Machines Corporation | System and method for focused re-crawling of web sites |
CN101561814A (zh) * | 2009-05-08 | 2009-10-21 | 华中科技大学 | 基于社会标注的主题爬虫系统 |
CN102236674A (zh) * | 2010-04-29 | 2011-11-09 | 腾讯科技(深圳)有限公司 | 一种索引页更新方法及装置 |
-
2011
- 2011-12-20 CN CN201110430997.0A patent/CN103176985B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080168041A1 (en) * | 2005-12-21 | 2008-07-10 | International Business Machines Corporation | System and method for focused re-crawling of web sites |
CN101561814A (zh) * | 2009-05-08 | 2009-10-21 | 华中科技大学 | 基于社会标注的主题爬虫系统 |
CN102236674A (zh) * | 2010-04-29 | 2011-11-09 | 腾讯科技(深圳)有限公司 | 一种索引页更新方法及装置 |
Non-Patent Citations (2)
Title |
---|
LUCIANO BARBOSA 等: "An Adaptive Crawler for Locating Hidden-Web Entry Points", 《THE INTERNATIONAL WORLD WIDE WEB CONFERENCE COMMITTEE》 * |
贺晟: "搜索引擎中主题网络爬虫的研究与设计", 《中国优秀硕士论文全文数据库》 * |
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617264A (zh) * | 2013-12-02 | 2014-03-05 | 北京奇虎科技有限公司 | 时效性种子页的抓取方法及装置 |
CN104408198B (zh) * | 2014-12-15 | 2018-07-17 | 北京国双科技有限公司 | 网页页面内容的获取方法和装置 |
CN104408198A (zh) * | 2014-12-15 | 2015-03-11 | 北京国双科技有限公司 | 网页页面内容的获取方法和装置 |
CN105183749A (zh) * | 2015-07-13 | 2015-12-23 | 北京奇虎科技有限公司 | 一种爬取推广内容并供搜索使用的方法和装置 |
CN105183749B (zh) * | 2015-07-13 | 2018-10-12 | 北京奇虎科技有限公司 | 一种爬取推广内容并供搜索使用的方法和装置 |
CN106407218B (zh) * | 2015-07-31 | 2020-03-03 | 北京国双科技有限公司 | 导航网页的检测方法和装置 |
CN106407218A (zh) * | 2015-07-31 | 2017-02-15 | 北京国双科技有限公司 | 导航网页的检测方法和装置 |
CN106547803A (zh) * | 2015-09-23 | 2017-03-29 | 北京国双科技有限公司 | 爬取网站增量资源的方法和装置 |
CN106547803B (zh) * | 2015-09-23 | 2019-12-13 | 北京国双科技有限公司 | 爬取网站增量资源的方法和装置 |
CN106611005B (zh) * | 2015-10-26 | 2020-04-03 | 北京国双科技有限公司 | 一种设置爬虫爬取时间间隔的方法及装置 |
CN106611005A (zh) * | 2015-10-26 | 2017-05-03 | 北京国双科技有限公司 | 一种设置爬虫爬取时间间隔的方法及装置 |
CN105528416A (zh) * | 2015-12-07 | 2016-04-27 | 中南大学 | 一种网站更新内容的监测方法及系统 |
CN105677802A (zh) * | 2015-12-31 | 2016-06-15 | 宁波公众信息产业有限公司 | 一种互联网信息分析系统 |
CN105447202A (zh) * | 2015-12-31 | 2016-03-30 | 宁波公众信息产业有限公司 | 一种互联网信息采集系统 |
CN107025230A (zh) * | 2016-01-29 | 2017-08-08 | 北京国双科技有限公司 | 网络爬虫的处理方法及装置 |
CN105897466B (zh) * | 2016-03-30 | 2018-10-12 | 中国联合网络通信集团有限公司 | 一种网页资源分布的评价方法和装置 |
CN105897466A (zh) * | 2016-03-30 | 2016-08-24 | 中国联合网络通信集团有限公司 | 一种网页资源分布的评价方法和装置 |
CN106202383B (zh) * | 2016-07-08 | 2019-11-19 | 武汉烽火普天信息技术有限公司 | 一种应用于网络爬虫的网络带宽占比动态预测方法与系统 |
CN106202383A (zh) * | 2016-07-08 | 2016-12-07 | 武汉烽火普天信息技术有限公司 | 一种应用于网络爬虫的网络带宽占比动态预测方法与系统 |
CN106534285B (zh) * | 2016-10-27 | 2020-10-20 | 新华三技术有限公司 | 一种访问方法及装置 |
CN106534285A (zh) * | 2016-10-27 | 2017-03-22 | 杭州华三通信技术有限公司 | 一种访问方法及装置 |
CN108073608A (zh) * | 2016-11-09 | 2018-05-25 | 北京国双科技有限公司 | 数据信息的更新方法及装置 |
CN108073588A (zh) * | 2016-11-09 | 2018-05-25 | 北京国双科技有限公司 | 栏目信息提取方法和装置 |
CN108073588B (zh) * | 2016-11-09 | 2021-07-30 | 北京国双科技有限公司 | 栏目信息提取方法和装置 |
CN108614841A (zh) * | 2016-12-13 | 2018-10-02 | 北京国双科技有限公司 | 时间间隔的调整方法和装置 |
CN107622125A (zh) * | 2017-09-29 | 2018-01-23 | 联想(北京)有限公司 | 一种信息爬取方法和装置、电子设备 |
CN107622125B (zh) * | 2017-09-29 | 2020-02-21 | 联想(北京)有限公司 | 一种信息爬取方法和装置、电子设备 |
CN108509640A (zh) * | 2018-04-11 | 2018-09-07 | 焦点科技股份有限公司 | 一种基于序列预测的网页布局优化方法 |
CN109657055A (zh) * | 2018-11-09 | 2019-04-19 | 中山大学 | 基于层次混合网络的标题党文章检测方法及联邦学习策略 |
CN109670101A (zh) * | 2018-12-28 | 2019-04-23 | 北京奇安信科技有限公司 | 爬虫调度方法、装置、电子设备及存储介质 |
CN110188300A (zh) * | 2019-05-30 | 2019-08-30 | 吉林大学 | 一种面向汽车领域的采购信息的处理方法及装置 |
CN110188300B (zh) * | 2019-05-30 | 2023-04-07 | 吉林大学 | 一种面向汽车领域的采购信息的处理方法及装置 |
CN110489627A (zh) * | 2019-08-12 | 2019-11-22 | 南京烽火天地通信科技有限公司 | 一种互联网爬虫路由方法 |
CN110489627B (zh) * | 2019-08-12 | 2023-01-24 | 南京烽火天地通信科技有限公司 | 一种互联网爬虫路由方法 |
CN115827948A (zh) * | 2023-02-09 | 2023-03-21 | 中南大学 | 一种爬取文献数据的单反射性智能体和文献数据爬取方法 |
CN115827948B (zh) * | 2023-02-09 | 2023-05-02 | 中南大学 | 一种爬取文献数据的单反射性智能体和文献数据爬取方法 |
WO2024164476A1 (zh) * | 2023-02-09 | 2024-08-15 | 中南大学 | 一种爬取文献数据的单反射性智能体和文献数据爬取方法 |
CN115858902A (zh) * | 2023-02-23 | 2023-03-28 | 巢湖学院 | 一种页面爬虫规则更新方法、系统、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN103176985B (zh) | 2016-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103176985B (zh) | 一种及时高效的互联网信息爬取方法 | |
CN103176983B (zh) | 一种基于互联网信息的事件预警方法 | |
CN103425799A (zh) | 基于主题的个性化研究方向推荐系统和推荐方法 | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及系统 | |
CN104899324B (zh) | 一种基于idc有害信息监测系统的样本训练系统 | |
CN103186676A (zh) | 一种主题知识自增长型聚焦网络爬虫搜索方法 | |
CN103714140A (zh) | 一种基于主题网络爬虫的搜索方法及装置 | |
CN104133868A (zh) | 一种用于垂直爬虫数据分类整合的策略 | |
Kononova et al. | Synthetic Method in Interdisciplinary Terminological Landscape Research of Digital Economy | |
KR20140081721A (ko) | 텍스트마이닝을 이용한 중요 키워드 도출 시스템, 방법, 및 상기 방법을 실행시키기 위한 컴퓨터 판독 가능한 프로그램을 기록한 매체 | |
CN115858598A (zh) | 基于企业大数据的目标信息筛选匹配方法及相关设备 | |
Balasubramaniam | Hybrid fuzzy-ontology design using FCA based clustering for information retrieval in semantic web | |
CN103823847A (zh) | 一种关键词的扩充方法及装置 | |
CN102737125A (zh) | 基于Web时态对象模型的过时网页信息自动发现方法 | |
Plaza | Semantics and experience in the future web | |
CN104965894A (zh) | 一种用于idc有害信息监测平台的数据分析系统 | |
KR100557874B1 (ko) | 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체 | |
CN112597370A (zh) | 指定需求范围的网页信息自主搜集筛选系统 | |
Chi et al. | Expert identification based on dynamic LDA topic model | |
Yang et al. | An exploration of link-based knowledge map in academic web space | |
CN103838786A (zh) | 一种Web数据自动采集的方法 | |
CN114238735B (zh) | 一种互联网数据智能采集方法 | |
CN115689224A (zh) | 基于轨迹语义化和图卷积网络的出租车需求预测方法 | |
Návrat et al. | Acquiring, organising and presenting information and knowledge from the web | |
CN107038172A (zh) | 一种基于语义的油田搜索引擎构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |