CN201726426U - 基于云计算的互联网信息监测系统 - Google Patents

基于云计算的互联网信息监测系统 Download PDF

Info

Publication number
CN201726426U
CN201726426U CN201020195175XU CN201020195175U CN201726426U CN 201726426 U CN201726426 U CN 201726426U CN 201020195175X U CN201020195175X U CN 201020195175XU CN 201020195175 U CN201020195175 U CN 201020195175U CN 201726426 U CN201726426 U CN 201726426U
Authority
CN
China
Prior art keywords
user
internet
information
data
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN201020195175XU
Other languages
English (en)
Inventor
翁时锋
张长水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NINGBO ZHONGQING CYYUN NEW MEDIA TECHNOLOGY CO., LTD.
Original Assignee
NINGBO DAXIANG INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NINGBO DAXIANG INFORMATION TECHNOLOGY Co Ltd filed Critical NINGBO DAXIANG INFORMATION TECHNOLOGY Co Ltd
Priority to CN201020195175XU priority Critical patent/CN201726426U/zh
Application granted granted Critical
Publication of CN201726426U publication Critical patent/CN201726426U/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Computer And Data Communications (AREA)

Abstract

本实用新型提出一种基于云计算的互联网信息监测系统,其包括若干用户终端、采集任务协调器和数据协调器。用户终端与互联网相连,其中每个用户终端又进一步包括搜索单元和数据管理单元。搜索单元用于对互联网站点进行监测和采集。数据管理单元用于对采集得到的互联网信息进行管理。采集任务协调器与所有的搜索单元相连,用于将各个用户需要遍历的互联网站点汇总为一个总的采集范围,并进行划分后,将相应的搜索范围信息分配给各个搜索单元。数据协调器与所有的搜索单元及所有的数据管理单元相连,用于将所有的搜索单元采集到的数据进行汇总,并根据各个用户的需要,分配传输到各个数据管理单元中。本实用新型具有实时性高的优点。

Description

基于云计算的互联网信息监测系统
技术领域
本实用新型涉及一种网络技术,特别涉及一种基于云计算的互联网信息监测系统。
背景技术
随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。
为了迎合对互联网上信息快速搜集的需要,因而出现了一种互联网信息实时监测系统。互联网信息实时监测系统是一种在基础计算硬件和计算资源的基础上,应用特定的信息采集软件,将互联网上用户感兴趣的内容采集下来,并实现存储和管理的一种系统。系统可以为实时垂直搜索引擎、互联网舆论监测(舆情监测)、商业品牌评论调研、企事业危机管理、社会突发公共事件等应用提供解决方案。其可以通过对网页内容的自动采集处理、敏感词过滤、智能聚类分类、主题检测、专题聚焦、统计分析的系统,实现对相关网络监督管理的需要,并最终形成简报、专报、分析报告、移动快报等,为决策层全面掌握信息动态,做出正确引导,提供分析依据。
目前,市场上的互联网信息实时监测系统的设计采用的是传统的软硬件系统思路。一个厂商会为一个客户提供一套计算硬件、一套搜索软件和一套管理软件,而且整个系统由该用户独占,和其他用户没有关系。
如图1所示,其为现有的一种互联网信息实时监测系统的结构示意图。用户终端10通过宽带等硬件设施连接到互联网13上,终端10包括有搜索单元11和数据管理单元12,搜索单元11从互联网站点中采集相关的信息,并传输给数据管理单元12,由数据管理单元12汇总形成用户指定形式的信息数据。
这种互联网信息实时监测系统可以自主地对网络信息进行监测,并按照用户的需要有针对性地采集信息,可以大大节约用户遍历网络站点所需要的时间。但是,现有的互联网信息实时监测系统也存在着一些缺陷:
由于各个用户所使用的系统和计算资源是相互独立的,而单个用户不可能承担实时遍历整个互联网的硬件投入(实际一套系统一般仅包括若干台服务器,例如3-5台),因而大大限制了单个用户对信息的采集范围。并且有限的计算资源也使系统对网络站点的遍历时间过长,导致信息的实时性不高,这就从根本上降低了系统的服务质量。
实用新型内容
本实用新型的目的是提出一种基于云计算的互联网信息监测系统,以解决现有的互联网信息监测系统采集范围小、实时性不高的问题。
本实用新型提出一种基于云计算的互联网信息监测系统,用于对互联网信息进行实时采集,包括若干用户终端、采集任务协调器和数据协调器。用户终端与互联网相连,用于对互联网信息进行实时监测和采集,并对采集到的信息进行规划和管理。其中,每个用户终端又进一步包括搜索单元和数据管理单元。搜索单元用于对互联网站点进行监测和采集。数据管理单元用于对采集得到的互联网信息进行管理。采集任务协调器与所有的搜索单元相连,用于将各个用户需要遍历的互联网站点汇总为一个总的采集范围,并进行划分后,将相应的搜索范围信息分配给各个搜索单元。数据协调器与所有的搜索单元及所有的数据管理单元相连,用于将所有的搜索单元采集到的数据进行汇总,并根据各个用户的需要,分配传输到各个数据管理单元中。
依照本实用新型较佳实施例所述的基于云计算的互联网信息监测系统,采集任务协调器还包括独有采集目标反馈子单元,其与所有的搜索单元相连,用于对各个用户的信息采集范围进行分析,并将用户独有的采集站点信息反馈给相应的搜索单元,以由搜索单元从独有采集站点处采集的信息,直接导入本地的数据管理单元中。
相对于现有技术,本实用新型的有益效果是:本实用新型可以将各个用户的采集计算资源进行的统一管理,在逻辑上将它们集中起来(在物理上可以是集中的、也可以是分布式的),实现有效协同工作,共同承担巨大的采集搜索计算任务。从而,从本质上提高系统的实时性。
当然,实施本实用新型的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
图1为现有的一种互联网信息实时监测系统的结构示意图;
图2为本实用新型基于云计算的互联网信息监测系统的一种实施例结构图;
图3为本实用新型采集任务协调器的一种实施例结构图;
图4为本实用新型基于云计算的互联网信息监测系统的工作过程流程图;
图5为本实用新型处理独有的采集目标时的一种实施例流程图。
具体实施方式
本实用新型所述的云计算(Cloud Computing),是指IT基础设施以及服务的交付和使用模式,用户通过网络以按需、易扩展的方式获得所需的资源和服务。这种资源和服务一般是和软件、互联网相关的。在技术本质上,它是并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)的发展。
本实用新型通过云计算的思想,重新设计互联网信息监测系统的底层构架,实现计算资源的共享,从而提高实际系统的实时性。
以下结合附图,具体说明本实用新型。
请参见图2,其为本实用新型基于云计算的互联网信息监测系统的一种实施例结构图。其包括若干用户终端20、采集任务协调器24和数据协调器25。用户终端20和互联网23相连,用于对互联网23信息进行实时监测和采集,并对采集到的信息进行规划和管理。其中,每个用户终端20又进一步包括搜索单元21和数据管理单元22。搜索单元21用于对互联网23站点进行监测和采集,数据管理单元22用于对用户需要的互联网23信息进行管理。采集任务协调器24与所有的搜索单元21相连,用于将各个用户终端20需要遍历的互联网站点汇总为一个总的采集范围,并进行划分后,将相应的搜索范围信息分配给各个搜索单元21。数据协调器25与所有的搜索单元21及所有的数据管理单元22相连,用于将所有的搜索单元21采集到的数据进行汇总,并根据各个用户的需要,分配传输到各个数据管理单元22中。采集任务协调器24和数据协调器25是整个系统的运转枢纽,它们的工作都可以通过互联网远程实现(当然,托管到厂商的集中机房也是可以的)。
各个用户终端20的采集范围是由用户指定的互联网站点,例如,论坛、博客和新闻站点。一般地,在互联网实时监测系统中,论坛和博客等Web2.0由于其用户参与度高和交互性好的特点而成为主要监测目标。用户终端20会事先将各自的采集范围通过互联网23发送给采集任务协调器24。然后采集任务协调器24会将各个用户终端20的采集范围进行汇总。汇总后总的采集范围即是所有参与系统协作的用户终端20的采集范围的并集。
例如,用户1的采集范围是集合C1,用户2的采集范围的集合C2,那么用户1和用户2总的采集范围就是:
C=C1∪C2
之后,采集任务协调器24会将总的采集范围进行重新划分,并分配给各个用户终端20的搜索单元21。值得注意的是,采集任务协调器24向各个用户终端20分配采集任务时,需要考虑各个用户终端20采集资源的容量(即用户终端20的硬件计算能力、带宽大小等),从而最终达到计算的均衡性。
接着各个用户终端20的搜索单元21根据分配到的采集范围,对相应的互联网站点进行实时采集,然后将采集到的互联网信息统一传输给数据协调器25。数据协调器25的功能是将各个搜索单元21采集得到的数据进行汇总,并将相应的数据分配到需要的数据管理单元22中。最后,由数据管理单元22对接收到的互联网信息进行分析和处理,并形成图形、分析报告等用户需要的数据。
值得注意的是,对于某个用户终端20独有的采集目标,系统具有一定的灵活性。这里所述的独有的采集目标可以理解为只有该用户终端20进行监测和采集的互联网站点,独有的采集目标可以定义为:
Di=Ci-C1∪C2...∪Ci-1∪Ci+1∪...CN
其中,Di为用户i独有的采集目标(为叙述方便,本申请中将某一用户i所使用的用户终端记为用户i),Ci为用户i的采集范围,N为用户终端的个数。因此,对于来自于某一用户终端独有的采集目标的数据,可以从搜索单元21的服务器直接导入到数据管理单元22的服务器中,而不必经过远程的数据协调器25,这样可以节约数据协调器25的计算资源,从而可以提高数据分配的速度,进而提高了数据采集的实时性。
对于这种情况的系统实现方式,如图3所示,在采集任务协调器24中设置有独有采集目标反馈子单元31。当采集任务协调器24获取各个用户终端20的采集范围之后,由独有采集目标反馈子单元31对各个采集范围进行分析,并将用户独有的采集站点信息反馈给相应的搜索单元21,从而使该独有的互联网站点由对应的用户终端20独自采集。
系统在服务表现上,可以根据连接关系的不同提供三种类型的服务:
(1)公共云。如图2所示的系统运行模式。用户终端20服从采集任务协调器24的调配,由采集任务协调器24分配采集目标。在这种模式下,系统整体上实现了计算资源最大限度的共享。因此,效率是最高的。
(2)私有云。用户终端20和采集任务协调器24切断联系,和数据协调器25也无联系,采集计算资源由用户终端20私自享用。系统框图如图1所示。这时,和公共云相比,模型系统结构简单、数据安全性好。但是,最大的问题是计算资源共享程度低。当用户终端20的采集目标范围很小,或者对系统的实时性要求很低的情况下,私有云模式的应用比较有价值。当用户终端20一直工作于私有云状态下,就可以独立实施到用户终端20处,此时,系统就退化为传统的互联网信息实时监测系统了。
(3)混合云。介于公共云和私有云之间的模式,用户终端20可以根据需要在公有云和私有云之间切换。
为便于进一步理解本实用新型,下面对系统的实时性提高做简要的分析。假设用户i的采集范围是Ci,其消耗单位计算资源量记为||Ci||;用户i提供的采集计算资源为Ri,计算资源可用量记为||Ri||(||Ri||是根据用户i的计算机硬件处理能力决定的)。这样,用户i若采用私有云服务模式,其系统遍历周期为:
Ti=||Ci||/||Ri||
其中系统遍历周期Ti表示用户i独自遍历互联网站点的速度,也即是数据采集速度。
当有N个用户参与到公共云模型中时,则系统的遍历周期变为:
T=||C1∪C2...∪Ci∪...CN||/||R1||+||R2||...+||Ri||+...||RN||
其中遍历周期T表示采用公共云模式的情况下,系统整体的数据采集速度。
假设在理想情况下:
(1)各个用户终端采集目标相同。也就是说,总采集目标和各个用户的采集目标相同,即C1=C2=...=CN
(2)各个用户终端的计算资源相同,即计算能力相同,带宽也相同,即R1=R2=...=RN
则系统的遍历周期T为:
T=Ti/N
由此可见,采用公共云的模式下,相对于私有云的模式来说,可以大大提高系统整体的数据采集速度,具有实时性好的优点。当然,在实际应用中,各个用户的采集范围难免会存在一些差异,但是因为互联网具有聚集效应,大型网络站点是用户普遍关心的,个别用户关心的站点一般数量少,而且由于关注度不高的网络站点一般规模较小,消耗计算资源量也小,在周期估计中权重小,因而对系统的遍历周期产生的影响也相对较小。
下面介绍本实用新型基于云计算的互联网信息监测系统的工作过程,如图4所示,其包括以下步骤:
S401,获取各个用户终端关于互联网站点的采集范围。
各个用户终端的采集范围是由用户指定的互联网站点,例如,论坛、博客和新闻站点。一般地,在互联网实时监测系统中,论坛和博客等Web2.0由于其用户参与度高和交互性好的特点而成为主要监测目标。
S402,将所有用户终端的采集范围进行汇总。汇总后总的采集范围即是所有参与系统协作的用户终端的采集范围的并集。
S403,将汇总后的采集范围重新划分,并分配给各个用户终端。分配采集任务时,需要考虑各个用户终端采集资源的容量(即用户终端20的硬件计算能力、带宽大小等),从而最终达到计算的均衡性。
S404,接收所有用户终端采集的互联网信息并进行汇总。
S405,根据各个用户终端的需要,将相应的互联网信息分配传输给各个用户终端。最后,由用户终端各自对接收到的互联网信息进行分析和处理,并形成图形、分析报告等用户需要的数据。
值得注意的是,对于某个用户终端独有的采集目标,可以采用更为灵活的处理方式,即在步骤S401之后还可以进一步包括步骤:
S501,对各个用户终端各自的采集范围进行分析。
S502,将各个用户终端独有的互联网站点信息反馈给相应的用户终端,以由用户终端独自对独有的互联网站点进行采集。
本实用新型可以将各个用户的采集计算资源进行的统一管理,在逻辑上将它们集中起来(在物理上可以是集中的、也可以是分布式的),实现有效协同工作,共同承担巨大的采集搜索计算任务。从而,从本质上提高系统的实时性。
以上公开的仅为本实用新型的几个具体实施例,但本实用新型并非局限于此,任何本领域的技术人员能思之的变化,都应落在本实用新型的保护范围内。

Claims (2)

1.一种基于云计算的互联网信息监测系统,用于对互联网信息进行实时采集,其特征在于,包括:
若干用户终端,与互联网相连,用于对互联网信息进行实时监测和采集,并对采集到的信息进行规划和管理,其中,每个用户终端又进一步包括:
一搜索单元,用于对互联网站点进行监测和采集;
一数据管理单元,用于对用户需要的互联网信息进行管理;
一采集任务协调器,与所有的搜索单元相连,用于将各个用户需要遍历的互联网站点汇总为一个总的采集范围,并进行划分后,将相应的搜索范围信息分配给各个搜索单元;
一数据协调器,与所有的搜索单元及所有的数据管理单元相连,用于将所有的搜索单元采集到的数据进行汇总,并根据各个用户的需要,分配传输到各个数据管理单元中。
2.如权利要求1所述的基于云计算的互联网信息监测系统,其特征在于,该采集任务协调器还包括一独有采集目标反馈子单元,与所有的搜索单元相连,用于对各个用户的信息采集范围进行分析,并将用户独有的采集站点信息反馈给相应的搜索单元,以由该搜索单元从独有采集站点处采集的信息,直接导入本地的数据管理单元中。
CN201020195175XU 2010-05-14 2010-05-14 基于云计算的互联网信息监测系统 Expired - Lifetime CN201726426U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201020195175XU CN201726426U (zh) 2010-05-14 2010-05-14 基于云计算的互联网信息监测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201020195175XU CN201726426U (zh) 2010-05-14 2010-05-14 基于云计算的互联网信息监测系统

Publications (1)

Publication Number Publication Date
CN201726426U true CN201726426U (zh) 2011-01-26

Family

ID=43494779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201020195175XU Expired - Lifetime CN201726426U (zh) 2010-05-14 2010-05-14 基于云计算的互联网信息监测系统

Country Status (1)

Country Link
CN (1) CN201726426U (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101902497A (zh) * 2010-05-14 2010-12-01 翁时锋 基于云计算的互联网信息监测系统及方法
CN102728059A (zh) * 2011-04-02 2012-10-17 德信互动科技(北京)有限公司 基于云的游戏实现系统
CN102728058A (zh) * 2011-04-02 2012-10-17 德信互动科技(北京)有限公司 基于云的游戏实现系统
CN102946423A (zh) * 2012-10-31 2013-02-27 中国运载火箭技术研究院 一种基于分布式系统架构的数据映射推送系统及方法
CN104660456A (zh) * 2014-08-25 2015-05-27 深圳市有方科技有限公司 一种无线网络现场分析系统及方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101902497A (zh) * 2010-05-14 2010-12-01 翁时锋 基于云计算的互联网信息监测系统及方法
CN102728059A (zh) * 2011-04-02 2012-10-17 德信互动科技(北京)有限公司 基于云的游戏实现系统
CN102728058A (zh) * 2011-04-02 2012-10-17 德信互动科技(北京)有限公司 基于云的游戏实现系统
CN102946423A (zh) * 2012-10-31 2013-02-27 中国运载火箭技术研究院 一种基于分布式系统架构的数据映射推送系统及方法
CN102946423B (zh) * 2012-10-31 2015-05-27 中国运载火箭技术研究院 一种基于分布式系统架构的数据映射推送系统及方法
CN104660456A (zh) * 2014-08-25 2015-05-27 深圳市有方科技有限公司 一种无线网络现场分析系统及方法

Similar Documents

Publication Publication Date Title
CN101902497B (zh) 基于云计算的互联网信息监测系统及方法
CN106709003A (zh) 基于Hadoop的海量日志数据处理方法
CN112130999B (zh) 一种基于边缘计算的电力异构数据处理方法
CN105809356A (zh) 一种基于应用集成云平台的信息系统资源管理方法
CN105069025A (zh) 一种大数据的智能聚合可视化与管控系统
CN201726426U (zh) 基于云计算的互联网信息监测系统
CN102208991A (zh) 一种日志处理方法、设备和系统
CN106873945A (zh) 基于批处理和流式处理的数据处理架构及数据处理方法
CN105635283A (zh) 一种云制造服务的组织管理和使用方法和系统
Li et al. Adaptive resource allocation based on the billing granularity in edge-cloud architecture
CN104486116A (zh) 多维度查询流量数据的方法及系统
CN108268569A (zh) 基于大数据技术的水资源监测数据采集与分析系统及方法
Wickramaarachchi et al. Real-time analytics for fast evolving social graphs
CN115934856A (zh) 一种构造综合能源数据资产的方法和系统
Zhang et al. Behavior reconstruction models for large-scale network service systems
CN103226572B (zh) 一种基于数据压缩的可扩展的监控方法及系统
Ou et al. Research on network performance optimization technology based on cloud-edge collaborative architecture
CN110713090A (zh) 一种实现多目标电梯异常状态实时监测的系统及方法
CN111049898A (zh) 一种实现计算集群资源跨域架构的方法及系统
CN106341474B (zh) 一种基于icn与sdn网络的资料管控中心及其内容管理方法
CN112054926B (zh) 集群管理方法、装置、电子设备及存储介质
Zayas et al. Getting ready for data analytics of electric power distribution systems
CN208061204U (zh) 一种配电网多源异构数据抽取处理硬件平台
CN110826824A (zh) 一种面向风险管控的电网企业相关方关系监测系统
Yao et al. The application of big data in production and environment

Legal Events

Date Code Title Description
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: 201100 Shanghai city Minhang District Road 399 Lane 44 spring Room 501 No.

Patentee after: Weng Shifeng

Patentee after: NINGBO ZHONGQING CYYUN NEW MEDIA TECHNOLOGY CO., LTD.

Address before: 201100 Shanghai city Minhang District Road 399 Lane 44 spring Room 501 No.

Patentee before: Weng Shifeng

Patentee before: Ningbo Daxiang Information Technology Co., Ltd.

AV01 Patent right actively abandoned

Granted publication date: 20110126

Effective date of abandoning: 20130227

RGAV Abandon patent right to avoid regrant