背景技术
随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。
为了迎合对互联网上信息快速搜集的需要,因而出现了一种互联网信息实时监测系统。互联网信息实时监测系统是一种在基础计算硬件和计算资源的基础上,应用特定的信息采集软件,将互联网上用户感兴趣的内容采集下来,并实现存储和管理的一种系统。系统可以为实时垂直搜索引擎、互联网舆论监测(舆情监测)、商业品牌评论调研、企事业危机管理、社会突发公共事件等应用提供解决方案。其可以通过对网页内容的自动采集处理、敏感词过滤、智能聚类分类、主题检测、专题聚焦、统计分析的系统,实现对相关网络监督管理的需要,并最终形成简报、专报、分析报告、移动快报等,为决策层全面掌握信息动态,做出正确引导,提供分析依据。
目前,市场上的互联网信息实时监测系统的设计采用的是传统的软硬件系统思路。一个厂商会为一个客户提供一套计算硬件、一套搜索软件和一套管理软件,而且整个系统由该用户独占,和其他用户没有关系。
如图1所示,其为现有的一种互联网信息实时监测系统的结构示意图。用户终端10通过宽带等硬件设施连接到互联网13上,终端10包括有搜索单元11和数据管理单元12,搜索单元11从互联网站点中采集相关的信息,并传输给数据管理单元12,由数据管理单元12汇总形成用户指定形式的信息数据。
这种互联网信息实时监测系统可以自主地对网络信息进行监测,并按照用户的需要有针对性地采集信息,可以大大节约用户遍历网络站点所需要的时间。但是,现有的互联网信息实时监测系统也存在着一些缺陷:
由于各个用户所使用的系统和计算资源是相互独立的,而单个用户不可能承担实时遍历整个互联网的硬件投入(实际一套系统一般仅包括若干台服务器,例如3-5台),因而大大限制了单个用户对信息的采集范围。并且有限的计算资源也使系统对网络站点的遍历时间过长,导致信息的实时性不高,这就从根本上降低了系统的服务质量。
具体实施方式
本实用新型所述的云计算(Cloud Computing),是指IT基础设施以及服务的交付和使用模式,用户通过网络以按需、易扩展的方式获得所需的资源和服务。这种资源和服务一般是和软件、互联网相关的。在技术本质上,它是并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)的发展。
本实用新型通过云计算的思想,重新设计互联网信息监测系统的底层构架,实现计算资源的共享,从而提高实际系统的实时性。
以下结合附图,具体说明本实用新型。
请参见图2,其为本实用新型基于云计算的互联网信息监测系统的一种实施例结构图。其包括若干用户终端20、采集任务协调器24和数据协调器25。用户终端20和互联网23相连,用于对互联网23信息进行实时监测和采集,并对采集到的信息进行规划和管理。其中,每个用户终端20又进一步包括搜索单元21和数据管理单元22。搜索单元21用于对互联网23站点进行监测和采集,数据管理单元22用于对用户需要的互联网23信息进行管理。采集任务协调器24与所有的搜索单元21相连,用于将各个用户终端20需要遍历的互联网站点汇总为一个总的采集范围,并进行划分后,将相应的搜索范围信息分配给各个搜索单元21。数据协调器25与所有的搜索单元21及所有的数据管理单元22相连,用于将所有的搜索单元21采集到的数据进行汇总,并根据各个用户的需要,分配传输到各个数据管理单元22中。采集任务协调器24和数据协调器25是整个系统的运转枢纽,它们的工作都可以通过互联网远程实现(当然,托管到厂商的集中机房也是可以的)。
各个用户终端20的采集范围是由用户指定的互联网站点,例如,论坛、博客和新闻站点。一般地,在互联网实时监测系统中,论坛和博客等Web2.0由于其用户参与度高和交互性好的特点而成为主要监测目标。用户终端20会事先将各自的采集范围通过互联网23发送给采集任务协调器24。然后采集任务协调器24会将各个用户终端20的采集范围进行汇总。汇总后总的采集范围即是所有参与系统协作的用户终端20的采集范围的并集。
例如,用户1的采集范围是集合C1,用户2的采集范围的集合C2,那么用户1和用户2总的采集范围就是:
C=C1∪C2
之后,采集任务协调器24会将总的采集范围进行重新划分,并分配给各个用户终端20的搜索单元21。值得注意的是,采集任务协调器24向各个用户终端20分配采集任务时,需要考虑各个用户终端20采集资源的容量(即用户终端20的硬件计算能力、带宽大小等),从而最终达到计算的均衡性。
接着各个用户终端20的搜索单元21根据分配到的采集范围,对相应的互联网站点进行实时采集,然后将采集到的互联网信息统一传输给数据协调器25。数据协调器25的功能是将各个搜索单元21采集得到的数据进行汇总,并将相应的数据分配到需要的数据管理单元22中。最后,由数据管理单元22对接收到的互联网信息进行分析和处理,并形成图形、分析报告等用户需要的数据。
值得注意的是,对于某个用户终端20独有的采集目标,系统具有一定的灵活性。这里所述的独有的采集目标可以理解为只有该用户终端20进行监测和采集的互联网站点,独有的采集目标可以定义为:
Di=Ci-C1∪C2...∪Ci-1∪Ci+1∪...CN
其中,Di为用户i独有的采集目标(为叙述方便,本申请中将某一用户i所使用的用户终端记为用户i),Ci为用户i的采集范围,N为用户终端的个数。因此,对于来自于某一用户终端独有的采集目标的数据,可以从搜索单元21的服务器直接导入到数据管理单元22的服务器中,而不必经过远程的数据协调器25,这样可以节约数据协调器25的计算资源,从而可以提高数据分配的速度,进而提高了数据采集的实时性。
对于这种情况的系统实现方式,如图3所示,在采集任务协调器24中设置有独有采集目标反馈子单元31。当采集任务协调器24获取各个用户终端20的采集范围之后,由独有采集目标反馈子单元31对各个采集范围进行分析,并将用户独有的采集站点信息反馈给相应的搜索单元21,从而使该独有的互联网站点由对应的用户终端20独自采集。
系统在服务表现上,可以根据连接关系的不同提供三种类型的服务:
(1)公共云。如图2所示的系统运行模式。用户终端20服从采集任务协调器24的调配,由采集任务协调器24分配采集目标。在这种模式下,系统整体上实现了计算资源最大限度的共享。因此,效率是最高的。
(2)私有云。用户终端20和采集任务协调器24切断联系,和数据协调器25也无联系,采集计算资源由用户终端20私自享用。系统框图如图1所示。这时,和公共云相比,模型系统结构简单、数据安全性好。但是,最大的问题是计算资源共享程度低。当用户终端20的采集目标范围很小,或者对系统的实时性要求很低的情况下,私有云模式的应用比较有价值。当用户终端20一直工作于私有云状态下,就可以独立实施到用户终端20处,此时,系统就退化为传统的互联网信息实时监测系统了。
(3)混合云。介于公共云和私有云之间的模式,用户终端20可以根据需要在公有云和私有云之间切换。
为便于进一步理解本实用新型,下面对系统的实时性提高做简要的分析。假设用户i的采集范围是Ci,其消耗单位计算资源量记为||Ci||;用户i提供的采集计算资源为Ri,计算资源可用量记为||Ri||(||Ri||是根据用户i的计算机硬件处理能力决定的)。这样,用户i若采用私有云服务模式,其系统遍历周期为:
Ti=||Ci||/||Ri||
其中系统遍历周期Ti表示用户i独自遍历互联网站点的速度,也即是数据采集速度。
当有N个用户参与到公共云模型中时,则系统的遍历周期变为:
T=||C1∪C2...∪Ci∪...CN||/||R1||+||R2||...+||Ri||+...||RN||
其中遍历周期T表示采用公共云模式的情况下,系统整体的数据采集速度。
假设在理想情况下:
(1)各个用户终端采集目标相同。也就是说,总采集目标和各个用户的采集目标相同,即C1=C2=...=CN
(2)各个用户终端的计算资源相同,即计算能力相同,带宽也相同,即R1=R2=...=RN。
则系统的遍历周期T为:
T=Ti/N
由此可见,采用公共云的模式下,相对于私有云的模式来说,可以大大提高系统整体的数据采集速度,具有实时性好的优点。当然,在实际应用中,各个用户的采集范围难免会存在一些差异,但是因为互联网具有聚集效应,大型网络站点是用户普遍关心的,个别用户关心的站点一般数量少,而且由于关注度不高的网络站点一般规模较小,消耗计算资源量也小,在周期估计中权重小,因而对系统的遍历周期产生的影响也相对较小。
下面介绍本实用新型基于云计算的互联网信息监测系统的工作过程,如图4所示,其包括以下步骤:
S401,获取各个用户终端关于互联网站点的采集范围。
各个用户终端的采集范围是由用户指定的互联网站点,例如,论坛、博客和新闻站点。一般地,在互联网实时监测系统中,论坛和博客等Web2.0由于其用户参与度高和交互性好的特点而成为主要监测目标。
S402,将所有用户终端的采集范围进行汇总。汇总后总的采集范围即是所有参与系统协作的用户终端的采集范围的并集。
S403,将汇总后的采集范围重新划分,并分配给各个用户终端。分配采集任务时,需要考虑各个用户终端采集资源的容量(即用户终端20的硬件计算能力、带宽大小等),从而最终达到计算的均衡性。
S404,接收所有用户终端采集的互联网信息并进行汇总。
S405,根据各个用户终端的需要,将相应的互联网信息分配传输给各个用户终端。最后,由用户终端各自对接收到的互联网信息进行分析和处理,并形成图形、分析报告等用户需要的数据。
值得注意的是,对于某个用户终端独有的采集目标,可以采用更为灵活的处理方式,即在步骤S401之后还可以进一步包括步骤:
S501,对各个用户终端各自的采集范围进行分析。
S502,将各个用户终端独有的互联网站点信息反馈给相应的用户终端,以由用户终端独自对独有的互联网站点进行采集。
本实用新型可以将各个用户的采集计算资源进行的统一管理,在逻辑上将它们集中起来(在物理上可以是集中的、也可以是分布式的),实现有效协同工作,共同承担巨大的采集搜索计算任务。从而,从本质上提高系统的实时性。
以上公开的仅为本实用新型的几个具体实施例,但本实用新型并非局限于此,任何本领域的技术人员能思之的变化,都应落在本实用新型的保护范围内。