CN102073683A - 一种分布式的实时新闻信息采集系统 - Google Patents

一种分布式的实时新闻信息采集系统 Download PDF

Info

Publication number
CN102073683A
CN102073683A CN 201010599916 CN201010599916A CN102073683A CN 102073683 A CN102073683 A CN 102073683A CN 201010599916 CN201010599916 CN 201010599916 CN 201010599916 A CN201010599916 A CN 201010599916A CN 102073683 A CN102073683 A CN 102073683A
Authority
CN
China
Prior art keywords
node
module
page
url
central server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010599916
Other languages
English (en)
Inventor
章毅
彭德中
张蕾
吕建成
张海仙
徐小伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN 201010599916 priority Critical patent/CN102073683A/zh
Publication of CN102073683A publication Critical patent/CN102073683A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种分布式的实时新闻信息采集系统,系统构架为中央服务器、若干子采集结点和数据库服务器,每个子采集结点负责采集新闻页面,并都通过TCP/IP协议与中央服务器进行通信,将采集的新闻页面转发给中央服务器,由中央服务器把所有下载的新闻页面存储入数据库服务器中。该系统能克服现有技术的缺陷,主要针对新闻数据量大,更新速度快以及具有很高重复性的特点,进行高效、稳定的采集,而且成本低、易于部署。

Description

一种分布式的实时新闻信息采集系统
技术领域
本发明涉及信息采集技术领域,具体涉及一种分布式的可针对互联网上新闻信息进行实时发现与采集的系统。
背景技术
信息采集领域经常从两个方面来研究采集器的设计:一是信息采集器的系统构架与拓扑结构;二是采集器下载网络资源的方式及任务的分配策略。目前信息采集器的系统构架主要分集中式和分布式两种,但对于采集系统构架的专门研究却不多。集中式的采集器主要应用在智能代理等小系统上,其对性能的要求不高。而分布式的采集器在大型搜索引擎上应用的最多,性能要求较高。分布式主要目的是进行负载的平衡,即将多个采集器同时运行,按IP地址、域名、地理位置等对互联网资源进行划分并下载网页。从本质上看,分布式的采集器多个集中式采集器的划区域运行,并对多个集中式采集器进行协作管理。另外就是采集器以何种方式和何种策略进行资源搜索。对此,目前国内外学者从理论和实践应用上做了许多研究工作。采集器搜索网络资源的方式上主要有两种:一是用元搜索引擎从基本搜索引擎中获得资源清单,然后根据资源清单采集资源:二是设计相对独立的搜索器,根据搜索需求设计采集策略并进行资源分析采集。前者的搜索器结构较简单,主要包括向基本搜索引擎提交查询指令并接收资源清单的连接模块、以及下载资源的下载模块。后者则需要有采集策略控制模块、主题搜索智能代理模块等。
在搜索策略上采用元搜索方式的搜索器直接从基本搜索引擎中获得资源清单,而后只做简单的筛选工作(如:去除广告链接、重复链接和死链接等)便进行资源的采集。其优点是不需要对资源做内容分析和链接结构分析,同时采集的速度相对较快,使资源数据库能较快的达到一定规模;缺点是采集的规模、质量、更新周期决定于所依靠的基本搜索引擎,同时不能对专业资源进行有目的的深度采集。独立设计的搜索器的搜索策略则相对复杂,主要是基于内容相似度或基于Web结构评价的方式获得未采集的链接估算价值,并根据价值的大小选取优先采集的队列。
集中式采集的工作原理是:给定的一组初始种子链接(URL)集合,通过采集器主体程序多线程抓取对应的页面后,对URL对应的html页面进行分析,页面内容提取模块将页面中有用的信息获保存到本地数据库中,链接分析模块将html页面中的的链接提取出来,并经过链接过滤器后,添加到待下载链接库中。下载程序持续下载待下载链接库的链接(URL),直到满足一定的条件时,采集过程结束。采集器在抓取网页数据时,可以将Web上的网页集合看成是一个有向图,从给定的起始URL开始,沿着网页中的链接,按照一定的策略进行。目前常用的采集策略有以下几种:(1)深度优先算法:该算法是指网络采集器会从选定的一个超链接开始,按照一条线路,一个一个链接访问下去,直到达到这条线路的叶子节点,即不包含任何超链接的HTML文件,处理完这条线路之后再转入下一个起始页,继续访问新的起始页面所包含的链接中的一条,直到到达叶子节点。这个方法有个优点是采集器在设计的时候比较容易。(2)广度优先算法:广度优先算法是指采集器优先抓取起始网页中包含链接的所有网页,然后再选择其中的一个链接网页,继续抓取在这个网页中链接的所有网页。这种搜索方法是实现通用网络爬虫的最佳方法,因为它的特点是易于实现,并且能够避免陷进一个无穷尽的深层分支中去,可以让采集器并行工作,从而提高运行效率。(3)启发式搜索算法:源于人工智能,即先通过在线获得的领域知识评价待访问链接的价值,借以推断信息资源的分布情况,然后按一定的原则选择价值最大的链接进行下一步的搜索,找到到达目标节点的最佳路径,删除不好节点,保留那些好的节点,该算法主要用于主题信息采集器的设计中。
分布式信息采集器的工作方式:随着互联网上Web信息的爆炸性增长,网络信息采集系统的速度越来越不能满足实际应用的需要。即使大型的信息采集系统对Web的覆盖率也只有30-40%,刷新一遍已经采集的页面常常需要数周到几个月的时间。解决这一问题的直接办法是升级信息采集器的硬件,采用处理能力更强的计算机系统,然而这种方法的扩展性有限,性价比也不高。因而人们找了一个更好的选择,用分布式方式来进行网页信息采集。分布式网络采集系统要比集中式网络采集系统有更高的性能,是今后大规模网络采集器发展的一个重要方向。
分布式网络信息采集器是由多个集中式网络采集器构成的。分布式系统中的每个节点都可以看作一个集中式网络采集器。分布式采集器与集中式采集器的工作原理基本相同,但前者需要各个节点协作完成网页的抓取,从而使得分布式采集的效率远远高于集中式采集。分布式采集的系统结构有多种,工作方式也各不相同。对于典型的分布式采集系统,它的每个节点不仅从web页面获得URL,同时也从其它节点接收URL。然后节点对URL对应的网页进行解析,并将不属于自己爬行范围的URL转发给其它节点。目前,分布式网络采集系统已经有了不少应用,例如现在著名的Google和Alta Vista搜索引擎所采用的网络采集系统。但由于商业机密等因素的影响,较详细的介绍分布式网络采集系统的文章并不多,并且基于Web信息采集的分布式理论也还不完善,仍然有待研究。目前,较著名的分布式采集系统有Google Crawler、Mercator、Internet Archive Crawler、UbiCrawler等,国内的有北大天网的WebGather系统。
Google的分布式采集系统由四台机器组成,其中一台机器是中央主机,其它三台机器只负责爬行网页,并且只与中央主机通信。中央主机从一个文件里读取URL,并把它们分发给其它机器的Crawler进程。爬虫采用异步I/O同时从300个网站上获取数据。所有的Crawler将下载来的页面压缩并存放在磁盘上。然后Indexer进程从这些HTML页面中将URL提取出来,并存放在另一个磁盘文件中。URLResolver进程读取这个存放链接的文件,将其中的相对链接转化为绝对链接,然后存入一个文件供中央主机读取。不足之处在于如果中央主机失效,则整个系统都会停止工作,而且中央主机的URL分发模块常常成为整个系统的瓶颈。
Mercator是Alta Vista搜索引擎的网络采集系统,它完全由JAVA写成。Mercator的可扩展性非常好,可以通过增减或替换模块来实现不同的功能。Mercator采用的数据结构可以使无论爬行的规模有多大,只占用有限的内存,数据结构的大部分都在硬盘中存放。并且Mercator只存放URL的checksum值,这样可以节省大量的内存和磁盘空间。Mercator为最近访问URL建立了缓存,该缓存的命中率达到85%。在提高系统性能方面,Mercator系统做了非常多的工作,比如重写JAVA核心库,建立缓存,采用高速硬盘系统。
Internet Archive采集系统采用多个机器共同搜集网页。每个Crawler进程负责搜集64个Web站点的网页。Crawler从起始URL集合中读取,采用异步I/O并行爬取网页。网页下载后,提取出超链接。如果超链接属于本Crawler负责搜集的Web站点,则加入未访问URL集合,否则存储到交叉URL文件中。批处理模块定期分配这些交叉URL文件到相应的搜集模块,在此过程中要过滤掉重复的URL。
发明内容
本发明所要解决的问题是:如何提供一种分布式的实时新闻信息采集系统,该系统能克服现有技术的缺陷,主要针对新闻数据量大,更新速度快以及具有很高重复性的特点,进行高效、稳定的采集,而且成本低、易于部署。 
本发明所提出的技术问题是这样解决的:提供一种分布式的实时新闻信息采集系统,系统构架为中央服务器、若干子采集结点和数据库服务器,每个子采集结点负责采集新闻页面,并都通过TCP/IP协议与中央服务器进行通信,将采集的新闻页面转发给中央服务器,由中央服务器把所有下载的新闻页面存储入数据库服务器中,其特征在于,包括以下模块:
URL处理模块:主要功能负责给待采集的URL排序,并向协议处理模块分配URL;
协议处理模块:主要功能是通过各种Web协议来完成新闻数据的采集;
重复内容检测模块:主要功能是根据系统能够的需要,从简单的段落匹配到复杂的文本相似度计算来减小重复采集;
URL提取模块:主要功能是对于采集到并经过重复内容检测的新闻页面进行页面类型判别,并进行必要的转换;
Meta信息获取模块:主要功能是将所获取的新闻页面中提取出来URL的好坏给出一个度量,将度量结果传输到URL处理器中用于排序;
语义信息解析模块:主要功能是对文本内容建立简单的索引;
数据库:主要功能是将经过重复内容检测后的页面数据、提取出来的Meta信息、主题和摘要都要存入数据库,以备其他应用使用。
按照本发明所提供的分布式的实时新闻信息采集系统,其特征在于,中央服务器包含以下模块:
子采集结点的添加删除管理模块:主要功能是负责维护子采集结点表,该表中记录子采集结点的IP地址、端口号、结点编号、及其运行状态;
子采集结点的运行监视与控制模块:主要功能是当中央服务器要求查看某个子采集结点的运行信息时,向此子结点发送查看或控制命令,当子采集结点接收到命令时,判断命令的类型,并执行相应的操作,然后把操作返回的结果传送给中心服务器;
子采集结点的任务分配及参数配置管理模块:主要功能是根据每个采集任务的大小,将任务均匀分配给每个子采集结点,每个子采集结点可能得到一个或多个目标新闻网站的采集任务,每个任务通过配置文件进行设置,其中包括目标新闻网站的种子链接、采集深度、采集时的线程数、采集时间和流量控制,在子采集结点获得配置文件后,调整程序的运行参数,执行采集任务,并将此结点的信息发馈给中心服务器;
网页数据的接收与整理入库模块:主要功能是采集服务一直监听来自子采集结点的数据传送请求,当子采集结点下载页面完毕后,立即向中心服务器提出文件传输请求,中心服务器响应请求后,开始传输数据,并记录页面的下载时间信息和页面的来源信息,然后将数据存储进行数据库中。
按照本发明所提供的分布式的实时新闻信息采集系统,其特征在于,子采集结点包括以下模块:链接调度模块、域名解析模块、异步I/O下载页面模块、网页分析模块、链接过滤模块、页面传输模块和实时刷新模块。
中心结点是整个采集系统运行的核心,主要提供对新闻采集的配置与维护,并运行服务器端程序,此服务器端程序能够动态的识别到新加入与退出集群系统的采集结点,并能接收整个集群系统中子采集结点传输的页面,并对下载的页面分析处理后保存入数据库。中心结点具有以下功能:(1)添加删除节点:动态的添加删除节点使得分布式系统有更好的可扩展性、健壮性。管理员可以通过控制节点来添加删除节点。(2)监控运行节点:通过控制节点可以监控分布式系统中任何一个爬行节点的运行状态,包括各个节点运行时间、下载网页数量、内存使用情况等等。(3)动态调整爬虫运行参数:在运行过程中对爬虫的参数进行调整可以使分布式爬虫具有更好的可管理性和可配置性。这些运行参数包括爬行速度、爬虫线程数、爬行深度等。
本发明针对互联网上的新闻数据进行采集,新闻数据具有数据量大,更新速度快以及具有很高重复性的特点。而这种新型的网络新闻信息采集器能有效的针对这种问题,进行高效、稳定的采集,而且具有成本低、易于部署的优点,采用这种中心网络拓补结构使得子结点之间的连结比较松散,可以通过加入与退出子结点的方式来管理采集的规模。这种方式使得系统有较好的可扩展性。
附图说明
图1是分布式采集器的系统结构图;
图2是子采集结点的下载流程图;
图3是子采集结点的增量采集数据流图;
图4是子采集结点的刷新采集数据流图。
具体实施方式
下面结合附图对本发明作进一步描述:
本发明由每个独立的采集结点负责新闻页面的采集,所有采集的页面通过TCP/IP与中心结点进行通信,子采集结点将采集的页面转发给中心结点。由中心结点负责把所有下载的新闻页面存储入数据库中。
Web信息采集系统基本上可以划分为七个部分:URL处理器、协议处理器、重复内容检测器、URL提取器、Meta信息获取器、语义信息解析器和数据库,它们协调起来从Web上获取信息。
1.       URL处理器:这个部件主要给待采集的URL排序,并根据一定的策略向协议处理器分配URL。按照采集系统规模的不同,URL可以是多个采集队列,也可以是一个URL Server. URL处理器还有一个任务就是DNS解析。
2.       协议处理器:这个部件处于系统的底层,主要通过各种Web协议来完成数据的采集。一般来说协议包括HTTP、FTP、Gopher以及BBS,也有些采集系统根据应用的需要采集Web Chat、ICQ等特殊信息。但从主流上看,仍以HTTP为主。下面简要说一下对HTTP协议页面采集的基本步骤:1)按照页面URL,抽出目标站点地址和端口号,若无端口号设为HTTP默认端口80。判断该站点的连接方式设置.若设为直接连接则与该地址和端口建立网络连接;若设为穿越Proxy连接则与指定的Proxy地址和端口建立网络连接。2)若建立网络连接失败,说明该站点不可达,中止抓取该页面并将其抛弃;否则继续下一步获取指定页面。3)由页面URL组装HTTP请求头,若该站点需要用户标识和口令则将其填入请求头中,发送请求到目标站点。若超过一定时间未收到应答消息则中止抓取该页面并将其抛弃;否则继续下一步骤分析应答消息。4)分析应答头,判断返回的状态码:若状态码为2xx,返回正确页面,进入步骤5;若状态码为301或302,表示页面被重定向,从应答头中提取出新的目标URL,转入步骤3;若返回其它状态码,说明页面连接失败,中止抓取该页面并将其抛弃。5)从应答头中提取出日期、长度、页面类型等页面信息。若设置了页面抓取限制,进行必要的判断和过滤,抛弃不符合要求的页面。6)读取页面的内容。对于长度较大的页面,采用分块读取再拼接的方法保证页面内容的完整。至此该页面的抓取完成。
3.       重复内容检测器:Web上存在着大量的镜像页面和内容,最近的研究表明,将近30%的页面是重复的。这极大地浪费了网络的带宽和影响了系统的效率。所以,重复内容检测变成了采集系统,特别是大型采集系统的重要组成部分。要采用的检测方法,根据系统的需要,从简单的段落匹配到复杂的文本相似度计算等。
4.       URL提取器:对于采集到的页面,经过重复内容检测后,需要分析其中的链接,并对链接进行必要的转换,这些任务由URL提取器来完成。首先判别页面类型,对类型为“text、html、shtml和、htm”等的页面进行分析链接。页面的类型可由应答头分析得出,有些WWW站点返回的应答信息格式不完整,此时须通过分析页面URL中的文件扩展名来判别页面类型。页面链接中给出的URL可以是多种格式的,可能是完整的包括协议、站点和路径的,也可能是省略了部分内容的,或者是一个相对路径。为处理方便,一般先将其规格化成统一的格式。
5.       Meta信息获取器:这里所要获取的内容包括已采集页面的Meta信息、页面的主题、页面的摘要等。获取它们的主要目的是力图在没有对页面内容语义信息进行理解的前提下,尽可能多地挖掘meta、结构等的语义信息,来为从这些页面中提取出来的URL的好坏,给出一个度量。度量的结果传输到URL处理器,用于排序。
6.       语义信息解析器:根据采集策略的不同,有些采集器还有语义信息解析器。这里所说的语义信息解析就是指对文本内容建立简单的索引。因为它在一定程度上挖掘了页面内容的语义,所以叫做语义信息解析器。对于一些大型的信息采集器,比如AltaVista,由于采集的信息量很大,对语义挖掘的深度要求较高,因此一般将页面语义挖掘与信息采集独立开来,而用专门的部件进行处理。对于一些轻量级的采集系统,比如基于用户个性化的采集,因为采集的信息量不大(这样语义信息解析就不太影响采集效率)和采集过程中更需要语义信息制导,所以它们也常用到语义信息解析器。
7.       数据库:经过重复内容检测后的页面数据、提取出来的Meta信息、主题和摘要等都要存入数据库,以备其他应用使用。比如,对于Google这样的搜索引擎,这个数据库中的内容将用于建立索引。如果系统有语义信息解析器,则解析出来的内容也存人数据库。由于数据较多,因此在存入数据库之前,数据一般要进行压缩。
本发明采用C/S架构,通过将普通PC机集群成分布式的网络系统来实现高性能、大数据量的网络新闻采集。附图1是整个系统的拓补结构图。整个采集系统连接成星型拓补结构,中央结点为中心采集服务器,其余各边缘结点为子采集结点。对于每个子采集结点的其任务为下载一个目标新闻服务器站点下的网页数据,并实时监视目标站点的变化,对于已经更新的网页能够自动识别与下载。各子采集结点把下载数据通过本地网络传输到中心服务结点,然后由中心结点负责将数据分析处理并存入数据库。
整个分布式系统是由多台PC机构成的集群,其中每一台PC机称为一个结点,并由系统分配一个ID号。该ID号用来标识网络中的不同结点。在系统中,有一个中心服务结点,其余的都是子采集结点,网络采用星形拓补结构。在整个分布式系统中,所有子采集结点都采用相同的工作方式,任意两个子采集结点不能相互通信,子采集结点都能够通过TCP/IP协议与中心结点服务器保持通信。每个子采集结点上运行若干个网页抓取线程。当要动态增加或者删除节点时,其它节点需要与中心协调节点通信,并由中心服务结点负责统一分配ID,通知系统其它节点有节点加入或退出等任务。
中心结点服务器:中心服务器主要包含的模块有子采集结点的添加删除管理、子采集结点的运行监视与控制、子采集结点的任务分配及参数配置管理、网页数据的接收与整理入库等。
(1)子采集结点的添加删除管理:由中心结点维护一个子采集结点表。表中记录子采集结点的IP地址、端口号、结点编号、及其运行状态。系统运行时,由子采集结点向中心服务器发出请求加入采集集群系统的消息,服务器在接收到消息后,响应子结点,将子结点的信息加入到采集结点表中。当系统要删除某个子结点的采集任务时,由中心服务器向些编号的子结点发出停止采集的消息,子结点在接收到消息后进行响应,停止采集并向中心结点发出消息已响应的信息。此时,中心服务器可从子采集结点表中删除此子结点的内容。
(2)子采集结点的运行监视与控制:采用类似(1)的思路,当服务器要求查看某个子结点的运行信息时,会向此子结点发送查看或控制命令。当子结点接收到命令时,判断命令的类型,并执行相应的操作,然后把操作返回的结果传送给中心服务器。
(3)子采集结点的任务分配及参数配置管理:分布式的采集系统通过中心结点将对每个子采集结点进行任务分配及参数配置。具体为:中心结点根据每个采集任务的大小,将任务均匀分配给每个子采集结点。每个采集结点可能得到一个或多个目标新闻网站的采集任务。每个任务通过配置文件进行设置,其中包括目标新闻网站的种子链接、采集深度、采集时的线程数、采集时间、流量控制等参数。在子采集结点获得配置文件后,调整程序的运行参数,执行采集任务,并将此结点的信息发馈给中心服务器。
(4)网页数据的接收与整理入库:采集服务一直监听来自子采集结点的数据传送请求。当子结点下载页面完毕后,立即向中心服务器提出文件传输请求。中心服务器响应请求后,开始传输数据,并记录页面的下载时间信息、页面的来源信息等,然后将数据存储进行数据库中。
子采集结点的实现:子采集结点是分布式采集器的任务执行单元。它的工作方式是从一个初始的URL集出发,将这些URL全部放入到一个有序的待采集队列里。而采集部件从这个队列里按顺序取出URL,通过Web上的协议,获取URL所指向的页面,然后从这些已获取的页面中提取出新的URL,并将它们继续放入到待采集队列里,然后重复上面的过程,直到采集器根据自己的策略停止采集.下面对每个模块的实现进行具体说明:
(1)             链接调度模块
URLs共分成两部分。一部分是已经下载的URLs,保存在已下载URL的hash表中。另外是待下载URLs,保存在待下载URL队列中。由于待下载队列中的数据量大,不能完全存储在内存中,因此将其保存在磁盘中。内存中仅存有少量的URL在当前待下载队列中,当内存下载队列中的URL被下载完成后,由链接调度将外存中的待下载URL读入内存待下载队列中。在网页被下载后,通过链接解析器把页面中的URL解析出来加入经过链接过滤器后加入到待下载队列中。
(2)域名解析模块
通过链接进行下载页面,所需要做的第一步工作就是要对链接作DNS解析,得到网页所在的主机的IP 地址。而DNS 解析是需要耗费大量的时间与资源,因为有些域名请求要经过很多层服务器才能解析到。并且作DNS解析的函数通常是同步的,即使是在多个线程里调用这个函数,它们都会阻塞在一起,依次等待结果的返回。为此提供一种解决的方法:在采集系统中加入DNS解析器,专门处理URL的解析,并建立DNS解析缓存,这样对域名的解析大多数都可以通过查寻本地的缓存进行,大大的提高系统的性能。
(3)异步I/O下载页面模块
下载线程主要通过HTTP 协议与Web 服务器进行通信。传统的下载页面的方法是采用socket 的同步IO。同步IO 采用每一线程对应每一连接,编程简单,且性能随着CPU 个数的增加而呈线性增加,但单个CPU 的扩展性差,随着连接的增多线程的切换将是一个很大的开销。因此这种阻塞式的IO,下载效率较低。本系统中采用非阻塞的异步IO。非阻塞IO能够克服同步IO中底层通信中,CPU等待网络数据到达的阻塞问题,减少CPU的空闲时间,使得下载速度更加快速、高效。
(4)网页分析模块
网页分析主要是内容分析和链接抽取。网页中有很多不同的编码格式,这些格式来自不同的文本(简体中文、繁体中文、英文等) 。HTML 、XML 网页除了标题和正文以外,会有许多版权信息、广告链接以及公共的频道链接,这些链接和文本一般没有太大的价值,在提取网页内容的时候,需要过滤这些无用的链接。
(5)链接过滤模块
在下载的过程中,不可避免地会遇到重复的链接,系统要消除这些重复的链接,是个很困难的问题。对于已经下载URL,必须保存在内存表中才能判断下一个待下载队列中的URL是否需要下载已减少重复出现的URL不必要的下载。但随着下载的进行,内存表中的URL所占用的空间越来越大,从而不可能将所有URL都保存的内存中。为此,系统中设计了一种改进的内存hash表来保存已下载的URL。Hash表采用分块存储,将URLs存储表划分成小块,再对小的内存块按照先进先出算法进行调度,保证后来下载的URL保存在内存中,最先下载的URL最早被调度出内存。这种算法具有很高的可行性,和内存命中率。
(6)页面传输模块
采集结点只负责页面的下载,不会对下载的页面进行存储。对下载页面的存储任务有中心结点完成。页面传输模块完成将下载完成的页面通过TCP/IP协议把数据传给中心结点,中心结点对数据进行分析处理后存储进数据库。
(7)实时刷新模块
对于网上不断更新的网页,实时刷新模块定时自动检测网页的变化,提取里面的更新链接,并把链接加入到链接库中。对于Web页,系统将其分成目录型页面和主题目录型页面两种。目录型网页是指网页内有很多指向其他主题型网页的链接信息的网页,目的是引导用户找到相关的主题型网页。主题型页面是页面中包含具体新闻内容的网页。依此,也将链接划分成主题链接和目录链接。对于主题链接,由于其对应的网页经常发生变化,因此要对其估计出更新时间并对其重复采集,获取新的网页。对网页更新时间的预测,可以通过下面公式计算:
Figure 12737DEST_PATH_IMAGE001
则网页的平均年龄计算公式为:
Figure 2010105999165100002DEST_PATH_IMAGE002
通过计算出网页的更新时间间隔即可在刷新采集中设置其采集间隔时间来定时获取更新的网页。
图2为采集子结点的程序运行流程图。每个采集子结点通过本地配置或中央服务器进行管理配置,将运行参数与下载源种子文件进行设置,并将种子链接加入下载队列,然后对队列中的链接进行判断,如果此链接对应的页面已经下载,则丢弃此链接,并取下一条链接。反之,则下载些链接对应的页面,则解析页面链接,将解析的链接加入URL记录文件,更新已下载的内存hash表,并将页面入库。
图3是采集子结点进行增量采集的数据流图。采集子结点通过从种子列表或待下载链接库中获取源源不断的链接地址,并根据此链接从Internet中下载对应页面。当采集结束或手动停止时,程序将待下载链接进行断点设置,自动记录当前下载点。当采集再次开始时,根据断点记录进行设置,从而使采集工作进行增量进行。
图4为采集子结点进行实时采集的数据流图。采集结点自动判断URL是为目录型或主题型。若URL为目录型链接,则根据网页的刷新时间进行周期性的更新下载,更新时间由公式自动判别发现。如果为主题型的页面,则直接下载页面,并将下载页面保存。

Claims (3)

1.一种分布式的实时新闻信息采集系统,系统构架为中央服务器、若干子采集结点和数据库服务器,每个子采集结点负责采集新闻页面,并都通过TCP/IP协议与中央服务器进行通信,将采集的新闻页面转发给中央服务器,由中央服务器把所有下载的新闻页面存储入数据库服务器中,其特征在于,包括以下模块:
URL处理模块:主要功能负责给待采集的URL排序,并向协议处理模块分配URL;
协议处理模块:主要功能是通过各种Web协议来完成新闻数据的采集;
重复内容检测模块:主要功能是根据系统能够的需要,从简单的段落匹配到复杂的文本相似度计算来减小重复采集;
URL提取模块:主要功能是对于采集到并经过重复内容检测的新闻页面进行页面类型判别,并进行必要的转换;
Meta信息获取模块:主要功能是将所获取的新闻页面中提取出来URL的好坏给出一个度量,将度量结果传输到URL处理器中用于排序;
语义信息解析模块:主要功能是对文本内容建立简单的索引;
数据库:主要功能是将经过重复内容检测后的页面数据、提取出来的Meta信息、主题和摘要都要存入数据库,以备其他应用使用。
2.根据权利要求1所述的分布式的实时新闻信息采集系统,其特征在于,中央服务器包含以下模块:
子采集结点的添加删除管理模块:主要功能是负责维护子采集结点表,该表中记录子采集结点的IP地址、端口号、结点编号、及其运行状态;
子采集结点的运行监视与控制模块:主要功能是当中央服务器要求查看某个子采集结点的运行信息时,向此子结点发送查看或控制命令,当子采集结点接收到命令时,判断命令的类型,并执行相应的操作,然后把操作返回的结果传送给中心服务器;
子采集结点的任务分配及参数配置管理模块:主要功能是根据每个采集任务的大小,将任务均匀分配给每个子采集结点,每个子采集结点可能得到一个或多个目标新闻网站的采集任务,每个任务通过配置文件进行设置,其中包括目标新闻网站的种子链接、采集深度、采集时的线程数、采集时间和流量控制,在子采集结点获得配置文件后,调整程序的运行参数,执行采集任务,并将此结点的信息发馈给中心服务器;
网页数据的接收与整理入库模块:主要功能是采集服务一直监听来自子采集结点的数据传送请求,当子采集结点下载页面完毕后,立即向中心服务器提出文件传输请求,中心服务器响应请求后,开始传输数据,并记录页面的下载时间信息和页面的来源信息,然后将数据存储进行数据库中。
3.根据权利要求1所述的分布式的实时新闻信息采集系统,其特征在于,子采集结点包括以下模块:链接调度模块、域名解析模块、异步I/O下载页面模块、网页分析模块、链接过滤模块、页面传输模块和实时刷新模块。
CN 201010599916 2010-12-22 2010-12-22 一种分布式的实时新闻信息采集系统 Pending CN102073683A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010599916 CN102073683A (zh) 2010-12-22 2010-12-22 一种分布式的实时新闻信息采集系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010599916 CN102073683A (zh) 2010-12-22 2010-12-22 一种分布式的实时新闻信息采集系统

Publications (1)

Publication Number Publication Date
CN102073683A true CN102073683A (zh) 2011-05-25

Family

ID=44032222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010599916 Pending CN102073683A (zh) 2010-12-22 2010-12-22 一种分布式的实时新闻信息采集系统

Country Status (1)

Country Link
CN (1) CN102073683A (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102291469A (zh) * 2011-09-23 2011-12-21 王楠 个性化定向采集云服务系统
CN102402627A (zh) * 2011-12-31 2012-04-04 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法
CN102495872A (zh) * 2011-11-30 2012-06-13 中国科学技术大学 对移动设备用户进行个性化新闻推荐的方法和装置
CN102609456A (zh) * 2012-01-12 2012-07-25 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法
CN102932448A (zh) * 2012-10-30 2013-02-13 工业和信息化部电信传输研究所 一种分布式网络爬虫的url排重系统及方法
CN102955795A (zh) * 2011-08-24 2013-03-06 句容今太科技园有限公司 Web信息采集系统
CN103177061A (zh) * 2011-12-23 2013-06-26 Sap股份公司 分区表中的唯一值估计
CN103198078A (zh) * 2012-01-09 2013-07-10 北大方正集团有限公司 一种互联网新闻事件报道趋势分析方法及系统
CN103595800A (zh) * 2013-11-18 2014-02-19 中国联合网络通信集团有限公司 一种数据实时分发处理装置及方法
CN104123342A (zh) * 2014-06-30 2014-10-29 海视云(北京)科技有限公司 一种内容推荐方法及装置
CN104468653A (zh) * 2013-09-17 2015-03-25 易搜比控股公司 一种分布式采集、混搭与发布新闻的方法
CN104504006A (zh) * 2014-12-11 2015-04-08 厦门市美亚柏科信息股份有限公司 对新闻客户端的数据采集及解析的方法及系统
CN104580463A (zh) * 2015-01-08 2015-04-29 浪潮软件集团有限公司 一种基于移动终端的互联网信息采集监控方法及系统
CN104699757A (zh) * 2015-01-15 2015-06-10 南京邮电大学 云环境下分布式网络信息采集方法
CN104735138A (zh) * 2015-03-09 2015-06-24 中国科学院计算技术研究所 一种面向用户生成内容的分布式采集方法与系统
CN104899323A (zh) * 2015-06-19 2015-09-09 成都国腾实业集团有限公司 一种用于idc有害信息监测平台的爬虫系统
CN104899324A (zh) * 2015-06-19 2015-09-09 成都国腾实业集团有限公司 一种基于idc有害信息监测系统的样本训练系统
CN104965894A (zh) * 2015-06-19 2015-10-07 成都国腾实业集团有限公司 一种用于idc有害信息监测平台的数据分析系统
CN105100155A (zh) * 2014-05-15 2015-11-25 北大方正集团有限公司 动态部署下载机方法和动态部署下载机装置
CN105207852A (zh) * 2015-10-09 2015-12-30 西安未来国际信息股份有限公司 一种基于分布式网络数据定向采集的方法
CN107451289A (zh) * 2017-08-14 2017-12-08 四川汇源吉迅数码科技有限公司 基于垂直搜索引擎的数字内容查询系统
CN108268549A (zh) * 2016-12-31 2018-07-10 中国移动通信集团湖北有限公司 数据稽核系统和方法
CN108595315A (zh) * 2018-03-22 2018-09-28 阿里巴巴集团控股有限公司 一种日志采集方法、装置及设备
CN108595510A (zh) * 2018-03-22 2018-09-28 成都数聚城堡科技有限公司 一种基于浏览器端的爬虫、分布式爬虫系统及方法
CN108900359A (zh) * 2018-08-08 2018-11-27 四川长虹网络科技有限责任公司 网络设备参数批量采集系统及方法
CN109165333A (zh) * 2018-07-12 2019-01-08 电子科技大学 一种基于网页数据的高速主题爬虫方法
CN111092921A (zh) * 2018-10-24 2020-05-01 北大方正集团有限公司 数据采集方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080021906A1 (en) * 2000-02-22 2008-01-24 Harvey Lunenfeld Metasearching by Sending a Plurality of Queries to a Plurality of Servers
CN101370024A (zh) * 2007-08-15 2009-02-18 北京灵图软件技术有限公司 信息的分布式采集方法及系统
CN101382956A (zh) * 2008-10-06 2009-03-11 中国科学院计算技术研究所 一种面向主题的信息采集方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080021906A1 (en) * 2000-02-22 2008-01-24 Harvey Lunenfeld Metasearching by Sending a Plurality of Queries to a Plurality of Servers
CN101370024A (zh) * 2007-08-15 2009-02-18 北京灵图软件技术有限公司 信息的分布式采集方法及系统
CN101382956A (zh) * 2008-10-06 2009-03-11 中国科学院计算技术研究所 一种面向主题的信息采集方法和系统

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955795A (zh) * 2011-08-24 2013-03-06 句容今太科技园有限公司 Web信息采集系统
CN102291469B (zh) * 2011-09-23 2013-11-20 王楠 个性化定向采集云服务系统
CN102291469A (zh) * 2011-09-23 2011-12-21 王楠 个性化定向采集云服务系统
CN102495872A (zh) * 2011-11-30 2012-06-13 中国科学技术大学 对移动设备用户进行个性化新闻推荐的方法和装置
CN102495872B (zh) * 2011-11-30 2013-07-24 中国科学技术大学 对移动设备用户进行个性化新闻推荐的方法和装置
CN103177061B (zh) * 2011-12-23 2017-08-08 Sap欧洲公司 分区表中的唯一值估计
CN103177061A (zh) * 2011-12-23 2013-06-26 Sap股份公司 分区表中的唯一值估计
CN102402627B (zh) * 2011-12-31 2013-08-14 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法
CN102402627A (zh) * 2011-12-31 2012-04-04 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法
CN103198078A (zh) * 2012-01-09 2013-07-10 北大方正集团有限公司 一种互联网新闻事件报道趋势分析方法及系统
CN103198078B (zh) * 2012-01-09 2016-08-03 北大方正集团有限公司 一种互联网新闻事件报道趋势分析方法及系统
CN102609456A (zh) * 2012-01-12 2012-07-25 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法
CN102932448B (zh) * 2012-10-30 2016-04-27 工业和信息化部电信传输研究所 一种分布式网络爬虫的url排重系统及方法
CN102932448A (zh) * 2012-10-30 2013-02-13 工业和信息化部电信传输研究所 一种分布式网络爬虫的url排重系统及方法
CN104468653A (zh) * 2013-09-17 2015-03-25 易搜比控股公司 一种分布式采集、混搭与发布新闻的方法
CN103595800A (zh) * 2013-11-18 2014-02-19 中国联合网络通信集团有限公司 一种数据实时分发处理装置及方法
CN103595800B (zh) * 2013-11-18 2017-04-05 中国联合网络通信集团有限公司 一种数据实时分发处理装置及方法
CN105100155A (zh) * 2014-05-15 2015-11-25 北大方正集团有限公司 动态部署下载机方法和动态部署下载机装置
CN104123342A (zh) * 2014-06-30 2014-10-29 海视云(北京)科技有限公司 一种内容推荐方法及装置
CN104504006A (zh) * 2014-12-11 2015-04-08 厦门市美亚柏科信息股份有限公司 对新闻客户端的数据采集及解析的方法及系统
CN104504006B (zh) * 2014-12-11 2017-12-01 厦门市美亚柏科信息股份有限公司 对新闻客户端的数据采集及解析的方法及系统
CN104580463A (zh) * 2015-01-08 2015-04-29 浪潮软件集团有限公司 一种基于移动终端的互联网信息采集监控方法及系统
CN104699757B (zh) * 2015-01-15 2018-03-13 南京邮电大学 云环境下分布式网络信息采集方法
CN104699757A (zh) * 2015-01-15 2015-06-10 南京邮电大学 云环境下分布式网络信息采集方法
CN104735138A (zh) * 2015-03-09 2015-06-24 中国科学院计算技术研究所 一种面向用户生成内容的分布式采集方法与系统
CN104735138B (zh) * 2015-03-09 2018-01-09 中国科学院计算技术研究所 一种面向用户生成内容的分布式采集方法与系统
CN104899323B (zh) * 2015-06-19 2018-09-11 成都国腾实业集团有限公司 一种用于idc有害信息监测平台的爬虫系统
CN104965894A (zh) * 2015-06-19 2015-10-07 成都国腾实业集团有限公司 一种用于idc有害信息监测平台的数据分析系统
CN104899324A (zh) * 2015-06-19 2015-09-09 成都国腾实业集团有限公司 一种基于idc有害信息监测系统的样本训练系统
CN104899323A (zh) * 2015-06-19 2015-09-09 成都国腾实业集团有限公司 一种用于idc有害信息监测平台的爬虫系统
CN104899324B (zh) * 2015-06-19 2018-09-11 成都国腾实业集团有限公司 一种基于idc有害信息监测系统的样本训练系统
CN105207852A (zh) * 2015-10-09 2015-12-30 西安未来国际信息股份有限公司 一种基于分布式网络数据定向采集的方法
CN108268549A (zh) * 2016-12-31 2018-07-10 中国移动通信集团湖北有限公司 数据稽核系统和方法
CN107451289A (zh) * 2017-08-14 2017-12-08 四川汇源吉迅数码科技有限公司 基于垂直搜索引擎的数字内容查询系统
CN108595315A (zh) * 2018-03-22 2018-09-28 阿里巴巴集团控股有限公司 一种日志采集方法、装置及设备
CN108595510A (zh) * 2018-03-22 2018-09-28 成都数聚城堡科技有限公司 一种基于浏览器端的爬虫、分布式爬虫系统及方法
CN108595315B (zh) * 2018-03-22 2022-03-04 创新先进技术有限公司 一种日志采集方法、装置及设备
CN109165333A (zh) * 2018-07-12 2019-01-08 电子科技大学 一种基于网页数据的高速主题爬虫方法
CN108900359A (zh) * 2018-08-08 2018-11-27 四川长虹网络科技有限责任公司 网络设备参数批量采集系统及方法
CN111092921A (zh) * 2018-10-24 2020-05-01 北大方正集团有限公司 数据采集方法、装置及存储介质
CN111092921B (zh) * 2018-10-24 2022-05-10 北大方正集团有限公司 数据采集方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN102073683A (zh) 一种分布式的实时新闻信息采集系统
Shkapenyuk et al. Design and implementation of a high-performance distributed web crawler
CN100525288C (zh) 网络中大有效负载分布的方法和装置
CN102130838B (zh) 一种基于阿瑞斯协议的对等网络缓存系统的实现方法
Chitraa et al. A novel technique for sessions identification in web usage mining preprocessing
CN103235820B (zh) 一种集群系统中数据存储方法与装置
CN103970788A (zh) 一种基于网页爬取的爬虫技术
CN104394211A (zh) 一种基于Hadoop用户行为分析系统设计与实现方法
CN101888313B (zh) 一种主机探测系统和方法
CN103310012A (zh) 一种分布式网络爬虫系统
CN101370024A (zh) 信息的分布式采集方法及系统
CN101046806B (zh) 搜索引擎系统和方法
CN101826110B (zh) 一种BitTorrent种子文件爬取方法
Shrivastava A methodical study of web crawler
CN103258017B (zh) 一种并行的垂直交叉网络数据采集方法及系统
CN109284435A (zh) 面向互联网的用户交互痕迹捕获、存储和检索的系统及方法
CN113656673A (zh) 面向广告投放的主从分布内容爬取机器人
Gupta The issues and challenges with the web crawlers
CN107733694A (zh) 面向物联网实时数据的自动分析方法
CN101882290A (zh) 互联网环境下基于情境本体的服务集成方法
CN112597369A (zh) 基于改良云平台的网页蜘蛛主题式搜索系统
CN110515695A (zh) 一种日志数据处理方法及系统
Zheng et al. An infrastructure for web services migration in clouds
CN110046319A (zh) 社交媒体信息采集方法、装置、系统、设备及存储介质
Zhong et al. A web crawler system design based on distributed technology

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110525