CN102143022B - 用于ip网络的云测量装置和测量方法 - Google Patents

用于ip网络的云测量装置和测量方法 Download PDF

Info

Publication number
CN102143022B
CN102143022B CN2011100632351A CN201110063235A CN102143022B CN 102143022 B CN102143022 B CN 102143022B CN 2011100632351 A CN2011100632351 A CN 2011100632351A CN 201110063235 A CN201110063235 A CN 201110063235A CN 102143022 B CN102143022 B CN 102143022B
Authority
CN
China
Prior art keywords
data
measurement
module
measuring probe
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2011100632351A
Other languages
English (en)
Other versions
CN102143022A (zh
Inventor
崔毅东
何娜
金跃辉
宋茂强
丁海杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN2011100632351A priority Critical patent/CN102143022B/zh
Publication of CN102143022A publication Critical patent/CN102143022A/zh
Application granted granted Critical
Publication of CN102143022B publication Critical patent/CN102143022B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种用于IP网络的云测量装置和测量方法,该装置设有三种部件:数据分析器、测量探针和负载均衡器。其中数据分析器有数据回收、负载均衡、数据处理、决策和云计算五个模块,测量探针有测量、数据采集、数据适配和管理四个模块,负载均衡器有通信、网络性能监测和负载均衡决策三个模块。本发明利用云计算平台存储海量的测量数据,保证数据存储的可靠性和可拓展性,利用云计算平台的并行处理机制,对海量测量数据进行快速分析和数据挖掘。测量探针支持多种测量算法,支持多种格式的数据采集,测量方法提供了拥塞响应策略和负载均衡策略。从而解决海量的测量数据的存储和处理,众多测量探针与数据分析器之间的数据可靠性与负载均衡问题。

Description

用于IP网络的云测量装置和测量方法
技术领域
本发明涉及一种用于IP网络的云测量装置和方法,属于计算机软件技术中的涉及云计算的数据分析和分布式数据采集的技术领域。
背景技术
首先,介绍本发明技术方案中涉及的相关技术术语的涵义:
网络测量:它是遵照设定的方法和技术,利用软件和硬件工具测试和验证表征网络性能指标的一系列活动的总称。包含以下三个要素:(1)测量对象:包括被测量的节点和链路,主要测量能够反映网络性能的一些指标,例如链路的传输时延、带宽、丢包率等。(2)测量环境:包括测量点的选取、测量时间的确定、测量设备、测量链路的类型等。(3)测量方法:针对某一具体的网络行为指标,选取合适的测量方法。
云计算:从网格计算发展而来,由大量的计算机集群使用虚拟机方式,通过高速互联网络互连而组成大型的虚拟资源池。这些虚拟资源可自主管理和配置,采用数据冗余的方式保证虚拟资源的高可用性,并具有分布式存储和计算、高扩展性、高可用性、用户友好性等特征。
Hadoop:是目前最成熟的云计算开源结构,它是基于Google云计算平台内部原理实现的、采用分布式系统架构的开源云计算平台,由Apache基金会开发。
HDFS:Hadoop文件系统(Hadoop Distributed File System)的缩写,是分布式计算的存储基础。HDFS部署在低廉的硬件上,具有高容错性特点,能够提供高传输率访问应用程序的数据,特别适合具有超大数据集的应用程序。
Mapreduce:是由Map和Reduce组成的简化的并行计算模型,分别执行任务的分解和对结果的汇总操作;能够提供强大的计算能力,用于对大规模数据集进行并行计算。
HBase:作为Apache的Hadoop项目的子项目,它是一种构建于HDFS的分布式、面向列的存储系统,适用于实时读写、随机访问超大数据集。
简单网络管理协议SNMP(Simple Network Management Protocol):是目前TCP/IP网络中应用最广泛的网络管理协议,其基本功能包括监视网络性能、监测分析网络差错和配置网络设备等。
瓶颈节点:在一个较长时间段内,其处理能力或者某个接口处于饱和状态的执行路由功能的网络节点。
瓶颈链路:在一个较长时间段内,其带宽使用率处于饱和状态的网络传输链路。
负载均衡:建立在现有网络结构上,提供一种廉价、有效、透明的扩展网络设备和服务器的带宽与增加吞吐量的方法,从而加强网络数据处理能力,提高网络的灵活性和可用性。
现在,随着Internet技术和网络业务的飞速发展,用户对IP资源的需求空前增长,网络变得日益复杂,不断增加的用户和应用导致网络负担沉重,从而引起网络性能下降,这就需要提取和分析网络的性能指标。因此,网络性能数据对于分析网络行为、解决网络故障、预测新业务等都具有很重要的参考价值。
如何处理海量数据和监控网络设备的运行状况是网络测量的重要研究点。随着云计算技术的推广,利用云计算平台强大的数据处理能力来处理海量数据,已经成为当前网络测量体系中数据管理层和数据分析层的研究与发展趋势。云计算是一种新兴的商业计算模型,它是藉由网络把多个成本相对较低的计算资源进行统一管理和调度,从而构成一个计算资源池,能够向用户提供透明、强大的计算能力。云计算平台则将计算任务分布在资源池的不同计算单元上,使各种应用系统能够根据需要获取计算能力、存储空间和各种软件服务。
现有技术中,网络测量的数据分析操作大多采用集中管理的平台,由独立的一个管理平台同时对多个测量探针的海量测量数据进行分析与处理。当该数据分析平台在处理海量测量数据时,因其计算处理能力有限,很容易成为系统的瓶颈。许多分布式测量平台是构建在不可靠的廉价计算机或小型嵌入式系统上的集群系统,由于其节点数量众多,集群中的节点失效成为常态而不是异常;而且,目前的分布式测量平台还缺乏有效的故障恢复机制。当数据分析平台发生故障失效后,就会造成测量探针的测量数据丢失,对系统的可靠性造成严重影响。再者,目前的分布式测量平台也缺乏有效的负载均衡策略,测量探针将测量结果数据上传到设定的数据分析平台时,无法根据网络状态和数据分析平台的负载情况自组织地动态生成网络拓扑,这就非常容易地使得网络中的数据流量分布不均衡,某些数据分析平台就会因负载过重而造成单点故障,无法为用户提供完全透明的服务。
发明内容
有鉴于此,本发明的目的是提供一种用于IP网络的云测量装置和测量方法,以便解决海量的网络性能测量数据的存储和快速处理问题,以及分布式的众多测量探针与数据分析器之间的数据可靠性与负载均衡问题。
为了达到上述发明目的,本发明提供了一种用于IP网络的云测量装置,其特征在于:该装置设有下述三种部件:
一个或多个数据分析器,用于收集来自多个测量探针的不同数据格式的测量数据,并对其进行初步解析后,存入云计算模块的文件系统;该一个或多个数据分析器都设置于位于对用户完全透明的云计算平台的集群系统中的PC机,每个数据分析器分别设有数据回收模块、负载均衡模块、数据处理模块、决策模块和云计算模块;
多个测量探针,设置于小型嵌入式系统或PC机,用作具有拓展功能的网络性能探测装置,能支持多种测量算法和同时测量不同的性能指标;该多个测量探针分布式设置于网络中任意指定位置,以满足被测网络的各种测量需求;也能随时随地加入或退出该云测量装置,动态、快速、自组织地与数据分析器之间形成最佳路由;设有测量模块、数据采集模块、数据适配模块和管理模块;
负载均衡器,位于IP网络的核心节点,负责平衡该云测量装置中各个数据分析器之间的数据流量,以提供透明机制拓展测量探针和数据分析器的数量;利用相应的负载均衡策略,评估该云测量装置包括存储、运行、传输和带宽的多种开销,自组织地为各个测量探针选择宿主数据分析器和动态生成拓扑,避免数据分析器因负载过重而成为整个设备性能的瓶颈;还以物理冗余方式,增设备用负载均衡器和进程来实现高度容错性,避免负载均衡器发生单点故障;设有网络性能监测模块、通信模块和负载均衡决策模块。
为了达到上述发明目的,本发明提供了一种采用本发明云测量装置的云测量方法,其特征在于:先将多个测量探针动态加入测量网络,并由负载均衡器为其分别选择当前网络状态下的最优数据分析器,动态生成网络拓扑;完成拓扑构建后,测量探针执行测量操作:监测网络性能指标和将测量数据上传给数据分析器;同时数据分析器对测量探针上传的测量数据进行处理,根据用户需求分析得出性能统计指标。
本发明用于IP网络的云测量装置和方法的技术创新点是:利用云计算平台的大型虚拟资源池存储海量的测量数据,保证数据存储的可靠性和可拓展性,再利用云计算平台的并行处理机制,对海量测量数据进行快速、并发的分析处理和数据挖掘。测量探针支持各种不同的测量算法的部署,支持多种格式的数据采集,在测量方法上提供了拥塞响应策略和负载均衡策略。
因此,本发明具有如下有益效果:本发明云测量装置将测量数据保存于云计算平台,保证测量装置即使发生频繁的故障,仍然能够确保存储的测量数据可靠、安全,利用云计算平台为存储和管理测量数据提供了几乎无限大的存储空间。另外,本发明云测量装置将数据处理与数据挖掘策略都映射到云计算平台提供的并行数据处理机制中执行,有效提高了数据的计算处理功能,非常适合对海量的测量数据进行搜索、挖掘和分析,提高了系统的整体性能。再者,本发明云测量装置具有良好的可拓展性,支持测量探针和数据分析器的动态加入和退出,且测量探针既能够支持各种不同测量算法,又可以部署在网络中的任何位置。数据分析器则设置于云计算平台的集群系统的PC机上,轻松地实现不同设备间的数据与应用共享,同时支持多种格式的测量数据的采集和处理策略。本发明测量方法针对数据分析器所在节点的失效和拥塞设置了响应策略,保证数据采集过程中的数据完整性和高可靠性。还提供了负载均衡策略,为测量探针和数据分析器之间动态生成最优拓扑,提高了该云测量装置的服务质量和计算能力,平衡了网络的负载和流量。因此,本发明具有很好的推广应用前景。
附图说明
图1是本发明用于IP网络的云测量装置结构组成和数据流的示意图。
图2是本发明用于IP网络的云测量装置测量方法流程图。
图3是本发明用于IP网络的云测量装置中字符串格式的测量数据传输时序图。
图4是本发明用于IP网络的云测量装置拥塞响应时序图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图和实施例对本发明作进一步的详细描述。
云计算是通过网络把多个成本相对较低的计算实体整合成为一个计算能力强大的系统,其核心思想是将大量利用网络相互连接的计算资源统一管理和调度,构成一个巨型计算资源池向用户提供透明、强大的计算能力。本发明使用了开源云计算平台Hadoop搭建了私有云,充分利用云计算平台高速可靠地存储和运算海量的测量数据,并将海量的处理结果数据保存于Hadoop分布式文件系统HDFS上。HDFS有着高容错性特点,部署在低廉的硬件上,应用程序能够高速率地访问数据,利用Hadoop提供的Mapreduce编程模型对大规模的测量数据集进行并行计算,就能够将计算与处理任务分配到多台计算机或服务器上并行地处理,有效地提高了计算能力。然后,再将分析后得到的测量结果保存于HBase数据库。HBase是一种构建在HDFS之上的分布式、面向列的非关系型存储系统,用于存储需要实时读写和随机访问的海量测量数据。
参见图1,介绍本发明用于IP网络的云测量装置,其设有下述三种部件:
一个或多个数据分析器,设置于对用户透明的云计算平台的集群系统中的PC机上,用于收集来自不同测量探针的多种数据格式的测量数据,并对其进行解析后,存入云计算模块的文件系统;每个数据分析器分别设有数据回收模块、负载均衡模块、数据处理模块、决策模块和云计算模块。其中,
数据回收模块,作为数据分析器中的业务逻辑主控模块,用于接收与其连接的测量探针的测量数据,根据负载均衡模块的指令,监控测量探针的任务执行状态,并将测量数据送至数据处理模块进行处理。
负载均衡模块,用于监控数据分析器所位于的PC机工作状态与自身数据流量,分别与测量探针和负载均衡器交互信息,实现装置的负载均衡和拥塞控制。
数据处理模块,根据调用决策模块接口查询到的决策信息和不同的处理策略,对来自数据回收模块的测量数据进行解析处理;并根据数据的实时性要求判断是否采取数据缓冲策略:若测量结果要求实时性,则将解析结果按测量任务类型分类直接存入云计算模块的数据持久化层;若测量结果没有实时性要求,则将解析结果数据缓存于云计算模块的数据缓冲区,当存储的数据量达到阈值后,再调用云计算模块的性能分析单元处理测量结果。
决策模块,包括以关系型数据库形式存储的多种决策信息的决策库,用于为数据处理模块提供一组访问接口,以便根据数据处理模块提供的测量数据提供处理相应数据的各种决策信息;该决策模块的拓展性强,只需在决策库中增设决策表就能增添相应的处理功能,并兼用热、冷备份保证决策库的可靠性。
云计算模块,利用云计算平台集群系统的存储可靠与并行计算的特性,用于存储和管理海量的测量数据与处理结果,并具有海量数据的快速计算处理能力,设有顺序连接的下述三个单元:
数据缓冲区,用于为数据处理模块缓存实时性要求不高的测量数据。
性能分析单元,藉由云计算模块提供的并行数据处理功能,对海量测量数据进行搜索、挖掘与分析,以便对大规模计算执行并发、分布式处理,显著地提高了数据处理能力;处理的数据源有两类:缓存于数据缓存区的非实时海量测量数据和根据用户需求、动态选择的存储于数据持久化层的海量测量数据。
数据持久化层,用于将测量结果数据根据测量任务分类,分别存储在云计算平台的分布式文件系统或分布式非关系型数据库,通过存储数据块的冗余备份,保证数据的存储可靠性。
多个测量探针,分布式设置于网络中任意指定位置,以满足被测网络的各种测量需求;其与小型嵌入式系统或PC机相连接,用作具有拓展功能的网络性能探测装置,能支持多种测量算法和同时测量不同的性能指标;这些测量探针能随时随地动态加入或退出云测量装置,快速、自组织地与数据分析器之间形成最佳路由;设有测量模块、数据采集模块、数据适配模块和管理模块。其中,
测量模块,负责根据设置的测量算法执行相应的测量操作,并将获取的测量数据送至数据采集模块;该模块具有拓展功能:根据实际需求和业务发展,能够灵活扩充其测量功能;且每个测量模块采用设定的一种测量算法。
数据采集模块,负责将测量模块采集的测量数据上传给数据分析器,该模块能够采集多种格式的数据,并对该云测量装置的拥塞控制和差错控制信号作出响应,采取相应机制保证数据的完整性。
数据适配模块,作为该测量探针的控制模块,负责与数据分析器和负载均衡器交互信令;该模块周期地探测其宿主数据分析器的状态,并为测量探针处理拥塞与均衡负载策略,支持整个装置动态生成最优拓扑。
管理模块,负责监控与管理测量模块,并监控各个测量任务的运行状态与整个测量探针的运行情况。
负载均衡器,位于IP网络的核心节点,负责平衡该云测量装置中各个数据分析器之间的数据流量,以提供透明机制拓展测量探针和数据分析器的数量;利用相应的负载均衡策略,评估该云测量装置的存储、运行、传输和带宽的多种开销,自组织地为各个测量探针选择宿主数据分析器和动态生成拓扑,避免数据分析器因负载过重而成为整个设备性能的瓶颈;还以物理冗余方式,增设备用负载均衡器和进程来实现高度容错性,避免负载均衡器发生单点故障;设有网络性能监测模块、通信模块和负载均衡决策模块。其中,
网络性能监测模块,负责利用网络测量技术,采集网络运行状态的定量数据,并周期性地汇聚这些测量数据和分析网络运行状态,以确定网络中的瓶颈链路与瓶颈节点位置;同时与数据分析器的负载均衡模块交互信令,实时监控该云监测装置中所有数据分析器的运行状态,以获取该装置包括运行状态与数据流量的各种参数;
通信模块,负责与测量探针进行通信,接收测量探针的负载均衡请求,再根据告警级别将该请求加入请求队列;并将负载均衡决策模块评估的最优数据分析器的相关信息回传给测量探针;
负载均衡决策模块,根据测量探针提供的决策因子,对网络性能监测模块监测到的性能数据进行评估,为请求队列中的测量探针选择当前条件下最优的数据分析器,再将决策结果返回通信模块。
本发明云测量装置的测量方法是:先将多个测量探针动态加入测量网络,并由负载均衡器为其分别选择当前网络状态下的最优数据分析器,动态生成网络拓扑;完成拓扑构建后,测量探针执行测量操作:监测网络性能指标和将测量数据上传给数据分析器;同时数据分析器对测量探针上传的测量数据进行处理,根据用户的需求分析得出性能统计指标。该测量方法支持多种格式的测量数据的采集和分析,支持多种通信方式的数据传输;还提供了负载均衡策略,支持测量探针和数据分析器的动态加入和退出,为测量探针和数据分析器之间动态生成最优拓扑,以及平衡网络的负载和流量。
参见图2,介绍本发明云测量装置执行的云测量方法操作步骤:
步骤1,多个测量探针动态加入测量网络,并由负载均衡器分别为其选择当前网络状态下的最优数据分析器,动态生成网络拓扑。该步骤的操作内容如下:
(11)节点加入:当每个测量探针初次接入网络或者与该测量探针连接的数据分析器发生崩溃性故障时,该测量探针的数据适配模块都向负载均衡器发送连接请求,请求为其分配一个当前网络条件下性能最优的数据分析器。
(12)负载均衡器实时监控整个网络运行状态:使用SNMP协议获取各个网络设备的运行状态,同时监测云计算平台中的所有数据分析器的数据流量及其所位于的PC机的运行状态,即CPU利用率和内存使用率;再按照设定时间粒度汇聚监测数据,分析网络运行状态,确定网络中的瓶颈链路与瓶颈节点位置,维护与更新数据分析器运行状态表中包括数据流量、设备状态的各种参数。
(13)均衡负载:负载均衡器维护一个多级队列顺序处理测量探针的负载请求,当接收到测量探针的连接请求后,按照请求的告警优先级的高低顺序将负载请求加入请求队列后,依次为当前请求队列中的测量探针选择最优数据分析器;再按照负载评估计算公式计算每个数据分析器的负载评估指标L(i),为测量探针选择负载指标最小的数据分析器;如果从测量探针到数据分析器的路径存在瓶颈节点时,则要重新选择。其中,负载评估指标L(i)的负载评估计算公式为:
Figure BSA00000452196700091
式中,自然数下标i是系统中的数据分析器序号,Fi为序号为i的数据分析器的当前数据流量,Avg(Fi)为设定时间粒度下系统中所有数据分析器的流量均值;Ci为序号为i的数据分析器的当前CPU利用率,Avg(Ci)为设定时间粒度下系统中所有数据分析器的CPU利用率均值;Mi为序号为i的数据分析器的当前内存利用率,Avg(Mi)为设定时间粒度下系统中所有数据分析器的内存使用率均值;系数α和β分别为测量探针的数据流量和设备运行状态的两个评估值比例系数,该两个系数α和β取决于测量探针为完成测量任务的数据流量、实时性和网络部署情况的各种综合因素,用于衡量当前测量探针对其宿主数据分析器网络性能或设备性能的要求的差异性,且α+β=1。
(14)更新状态表:为每个测量探针分配最优数据分析器后,负载均衡器重新查询各个数据分析器的工作状态,及时更新数据分析器运行状态表中对应的数据流量、设备状态的各种参数。
步骤2,测量探针测量网络性能,同时将测量结果数据上传到数据分析器。该步骤包括下列操作内容:测量探针接收到负载均衡器反馈的最优数据分析器的信息后,测量探针的测量模块开始测量网络性能指标,并由数据采集模块将其从测量模块提取的测量数据上传给宿主数据分析器,同时缓存测量数据;只有其接收到数据分析器确认接收到该数据后,才从缓存中删除之;该测量探针通过心跳管理机制判断宿主数据分析器的运行状态,一旦发现宿主数据分析器发生故障时,就立即停止数据上传和重新选择新的数据分析器,同时缓存该段时间生成的测量数据,保证数据完整性。
步骤3,数据分析器对测量数据进行分析处理后,将测量结果呈现给用户;并接受用户的查询和分析请求。该步骤的操作内容如下:
(31)分析回传数据:数据分析器接收到测量探针的测量数据后,根据决策模块中决策库的相应策略分析该测量数据的实时性要求和处理方法:如果当前测量任务的实时性要求高,就直接解析测量数据,并将解析结果存入云计算模块的数据持久化层的分布式非关系型数据库中;否则,将测量数据缓存于云计算模块的数据缓冲区;且当数据缓冲区中的数据缓存到设定规模后,就调用云计算模块的性能分析单元并行分析测量数据和进行相关指标的评估;
(32)避免拥塞:数据分析器的负载均衡模块实时监测该数据分析器的当前数据流量,当数据流量超过设定阈值,就认为出现拥塞状态;此时,该数据分析器向与其相连的所有测量探针发送拥塞告警信号;测量探针接收到拥塞告警信号就进入拥塞响应状态:立即停止上传数据,并对该期间的测量数据进行缓存;直到该数据分析器的数据流量低于设定阈值,才向与其连接的各个测量探针发送拥塞解除信号;各个测量探针接收到拥塞解除信号,再随机等待一段时间后,将测量数据重新传送给数据分析器;当测量探针处于拥塞响应状态时间超过设定时间后,就自行中断与数据分析器之间的连接,并向负载均衡器发送连接请求,要求重新为其分配最优的数据分析器;
(33)呈现测量结果和接收用户查询:数据分析器将解析测量数据和对网络性能的评估结果,利用定量定性的图表通过web页面呈现给用户;同时,通过web页面,用户能够实时监控每个测量探针的测量任务运行状态以及该测量探针的工作状态,以控制测量任务的执行;此外,数据分析器能够响应用户对采集到的海量测量数据进行深度分析的请求,利用云计算模块的性能分析单元中部署的分析算法对测量数据进行并行的深度分析处理,得到用户需要的性能指标。
参见图3,介绍本发明云测量装置采集字符串格式的测量数据的工作流程:
1,测量探针新加入网络后,测量探针的数据适配模块向负载均衡器发送连接请求,请求为其分配一个当前网络条件下性能最优的数据分析器。
2,测量探针的测量模块支持各种测量算法的部署,并按照设定策略测量所监测网络的性能指标,生成测量数据。
3,测量探针的数据采集模块从测量模块提取测量数据,并上传给宿主数据分析器和缓存测量数据,只有接收到数据分析器确认接收到该数据后,再将其从缓存中删除。
4,数据分析器接收到测量探针上传的数据后,根据决策模块的决策库的相应策略分析该测量数据的实时性要求和处理方法,如果当前测量任务的实时性要求高,则直接解析测量数据,并将解析结果存入云计算模块的数据持久化层中的HBase数据库,如果当前测量任务没有实时性要求,则将数据缓存在云计算模块的数据缓冲区中,当存储的数据量达到阈值后,调用云计算模块的性能分析单元并行分析测量数据和进行相关指标的评估
5,测量探针通过心跳管理机制,判断宿主数据分析器的运行状态,当发现宿主数据分析器发生故障时,测量探针立即停止上传测量数据,重新选择新的数据分析器,并且缓存该段时间生成的测量数据,保证测量数据的完整性。
6,用户可以对已经采集到的海量测量数据进行深度分析,数据分析器响应用户的相关请求,利用云计算模块的性能分析单元中部署的相关分析算法,对测量数据并行地进行深度分析处理,得到用户需要的性能指标。
7,用户通过web页面查看测量结果数据、测量任务的执行状态、各个装置的工作状态等信息。通过表格、图形等多种呈现手段,定量、定性地查看测量的网络性能数据,并且可以通过web页面对测量任务,系统设备等进行控制和调度。
本发明由于部署的测量探针规模大,测量的数据量大,对数据的可靠性要求高,因此加入拥塞控制策略,避免数据分析器因数据量过大造成崩溃性故障。
参见图4,具体介绍本发明云测量装置在数据量过大时的拥塞响应策略:
1,数据分析器的负载均衡模块实时监测当前数据分析器的数据流量,当数据流量超过设定阈值后,就认为出现拥塞状态,数据分析器向与其相连的所有测量探针发送拥塞告警信号。
2,测量探针接收到拥塞告警信号后,进入拥塞响应状态:立即停止向数据分析器上传数据,并缓存该段时间采集到的测量数据。
3,当数据分析器监测到数据流量降到设定阈值之下时,向其连接的所有的测量探针发送拥塞解除信号,各测量探针接收到该信号后,随机再等待一段时间,将测量数据传送给数据分析器进行处理。
4,当测量探针处于拥塞响应状态时间超过指定时间后,测量探针中断与数据分析器之间的连接,并向负载均衡器发送连接请求,负载均衡器重新为其分配最优的数据分析器。
综上所述,本发明能够高效地对网络的各种性能参数进行测量,并解决了海量性能数据的存储和快速处理问题,具有很强的灵活性,可靠性和可拓展性。
本发明已经进行了实施试验,试验的结果证明,该技术方案是成功的,实现了发明目的。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改,等同替换,改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于IP网络的云测量装置,其特征在于:该装置设有下述三种部件:
一个或多个数据分析器,用于收集来自多个测量探针的不同数据格式的测量数据,并对其进行初步解析后,存入云计算模块的文件系统;该一个或多个数据分析器都设置于位于对用户完全透明的云计算平台的集群系统中的PC机;每个数据分析器分别设有数据回收模块、负载均衡模块、数据处理模块、决策模块和云计算模块;
多个测量探针,设置于小型嵌入式系统或PC机,用作具有拓展功能的网络性能探测装置,能支持多种测量算法和同时测量不同的性能指标;该多个测量探针分布式设置于网络中任意指定位置,以满足被测网络的各种测量需求;也能随时随地加入或退出该云测量装置,动态、快速、自组织地与数据分析器之间形成最佳路由;设有测量模块、数据采集模块、数据适配模块和管理模块;
负载均衡器,位于IP网络的核心节点,负责平衡该云测量装置中各个数据分析器之间的数据流量,以提供透明机制拓展测量探针和数据分析器的数量;利用相应的负载均衡策略,评估该云测量装置包括存储、运行、传输和带宽的多种开销,自组织地为各个测量探针选择宿主数据分析器和动态生成拓扑,避免数据分析器因负载过重而成为整个设备性能的瓶颈;还以物理冗余方式,增设备用负载均衡器和进程来实现高度容错性,避免负载均衡器发生单点故障;设有网络性能监测模块、通信模块和负载均衡决策模块。
2.根据权利要求1所述的云测量装置,其特征在于:所述数据分析器中的各个模块的功能分别是:
数据回收模块,作为数据分析器中的业务逻辑主控模块,用于接收与其连接的测量探针的测量数据,根据负载均衡模块的指令,监控测量探针的任务执行状态,并将测量数据送至数据处理模块进行处理;
负载均衡模块,用于监控数据分析器所位于的PC机工作状态与自身数据流量,分别与测量探针和负载均衡器交互信息,实现该云测量装置的负载均衡和拥塞控制;
数据处理模块,根据调用决策模块接口查询到的决策信息和不同的处理策略,对来自数据回收模块的测量数据进行解析处理;并根据数据的实时性要求判断是否采取数据缓冲策略:若测量结果要求实时性,则将解析结果按测量任务类型分类直接存入云计算模块的数据持久化层;若测量结果没有实时性要求,则将解析结果数据缓存于云计算模块的数据缓冲区,当存储的数据量达到阈值后,再调用云计算模块的性能分析单元处理测量结果;
决策模块,包括以关系型数据库形式存储的多种决策信息的决策库,用于为数据处理模块提供一组访问接口,以便根据数据处理模块提供的测量数据提供处理相应数据的各种决策信息;该决策模块的拓展性强,只需在决策库中增设决策表就能增添相应的处理功能,并兼用热、冷备份保证决策库的可靠性;
云计算模块,利用云计算平台集群系统的存储可靠与并行计算的特性,用于存储和管理海量的测量数据与处理结果,并具有海量数据的快速计算处理能力,设有顺序连接的下述三个单元:
数据缓冲区,用于为数据处理模块缓存实时性要求不高的测量数据;
性能分析单元,藉由云计算模块提供的并行数据处理功能,对海量测量数据进行搜索、挖掘与分析,以便对大规模计算执行并发、分布式处理,显著地提高了数据处理能力;处理的数据源有两类:缓存于数据缓存区的非实时海量测量数据和根据用户需求、动态选择的存储于数据持久化层的海量测量数据;
数据持久化层,用于将测量结果数据根据测量任务分类,分别存储在云计算平台的分布式文件系统或分布式非关系型数据库,通过存储数据块的冗余备份,保证数据的存储可靠性。
3.根据权利要求1所述的云测量装置,其特征在于:所述测量探针中各个模块的功能分别是:
测量模块,负责根据设置的测量算法执行相应的测量操作,并将获取的测量数据送至数据采集模块;该模块具有拓展功能:根据实际需求和业务发展,能够灵活扩充其测量功能;且每个测量模块采用设定的一种测量算法;
数据采集模块,负责将测量模块采集的测量数据上传给数据分析器,该模块能够采集多种格式的数据,并对该云测量装置的拥塞控制和差错控制信号作出响应,采取相应机制保证数据的完整性;
数据适配模块,作为该测量探针的控制模块,负责与数据分析器和负载均衡器交互信令;该模块周期地探测其宿主数据分析器的状态,并为测量探针处理拥塞与均衡负载策略,支持整个云测量装置动态生成最优拓扑;
管理模块,负责监控与管理测量模块,并监控各个测量任务的运行状态与整个测量探针的运行情况。
4.根据权利要求1所述的云测量装置,其特征在于:所述负载均衡器的各个模块的功能分别是:
网络性能监测模块,负责利用网络测量技术,采集网络运行状态的定量数据,并周期性地汇聚这些测量数据和分析网络运行状态,以确定网络中的瓶颈链路与瓶颈节点位置;同时与数据分析器的负载均衡模块交互信令,实时监控该云测量装置中所有数据分析器的运行状态,以获取该云测量装置包括运行状态与数据流量的各种参数;
通信模块,负责与测量探针进行通信,接收测量探针的负载均衡请求,再根据告警级别将该请求加入请求队列;并将负载均衡决策模块评估的最优数据分析器的相关信息回传给测量探针;
负载均衡决策模块,根据测量探针提供的决策因子,对网络性能监测模块监测到的性能数据进行评估,为请求队列中的测量探针选择当前条件下最优的数据分析器,再将决策结果返回通信模块。
5.一种采用权利要求1所述的云测量装置的云测量方法,其特征在于:先将多个测量探针动态加入测量网络,并由负载均衡器为其分别选择当前网络状态下的最优数据分析器,动态生成网络拓扑;完成拓扑构建后,测量探针执行测量操作:监测网络性能指标和将测量数据上传给数据分析器;同时数据分析器对测量探针上传的测量数据进行处理,根据用户需求分析得出性能统计指标。
6.根据权利要求5所述的云测量方法,其特征在于:所述方法包括下列操作步骤:
(1)多个测量探针动态加入测量网络,并由负载均衡器分别为其选择当前网络状态下的最优数据分析器,动态生成网络拓扑;
(2)测量探针测量网络性能,同时将测量结果数据上传到数据分析器;
(3)数据分析器对测量数据进行分析处理后,将测量结果呈现给用户;并接受用户的查询和分析请求。
7.根据权利要求6所述的方法,其特征在于:所述步骤(1)包括下列操作内容:
(11)节点加入:当每个测量探针初次接入网络或者与该测量探针连接的数据分析器发生崩溃性故障时,该测量探针的数据适配模块都向负载均衡器发送连接请求,请求为其分配一个当前网络条件下性能最优的数据分析器;
(12)负载均衡器实时监控整个网络运行状态:使用SNMP协议获取各个网络设备的运行状态,同时监测云计算平台中的所有数据分析器的数据流量及其所位于的PC机的运行状态,即CPU利用率和内存使用率;再按照设定时间粒度汇聚监测数据,分析网络运行状态,确定网络中的瓶颈链路与瓶颈节点位置,维护与更新数据分析器运行状态表中包括数据流量、设备状态的各种参数;
(13)均衡负载:负载均衡器维护一个多级队列顺序处理测量探针的负载请求,当接收到测量探针的连接请求后,按照请求的告警优先级的高低顺序将负载请求加入请求队列,依次为当前请求队列中的测量探针选择最优数据分析器;再按照负载评估计算公式计算每个数据分析器的负载评估指标,为测量探针选择负载指标最小的数据分析器;如果从测量探针到数据分析器的路径存在瓶颈节点时,则要重新选择;
(14)更新状态表:为每个测量探针分配最优数据分析器后,负载均衡器重新查询各个数据分析器的工作状态,及时更新数据分析器运行状态表中对应的数据流量、设备状态的各种参数。
8.根据权利要求7所述的方法,其特征在于:所述步骤(13)中,负载评估指标L(i)的负载评估计算公式为: L ( i ) = α × F i Avg ( Fi ) + β 2 × ( C i Avg ( C i ) + M i Avg ( M i ) ) ; 式中,自然数下标i是系统中的数据分析器序号,Fi为序号为i的数据分析器的当前数据流量,Avg(Fi)为设定时间粒度下系统中所有数据分析器的流量均值;Ci为序号为i的数据分析器的当前CPU利用率,Avg(Ci)为设定时间粒度下系统中所有数据分析器的CPU利用率均值;Mi为序号为i的数据分析器的当前内存利用率,Avg(Mi)为设定时间粒度下系统中所有数据分析器的内存使用率均值;系数α和β分别为测量探针的数据流量和设备运行状态的两个评估值比例系数,该两个系数α和β取决于测量探针为完成测量任务的数据流量、实时性和网络部署情况的各种综合因素,用于衡量当前测量探针对其宿主数据分析器网络性能或设备性能的要求的差异性,且α+β=1。
9.根据权利要求6所述的方法,其特征在于:所述步骤(2)包括下列操作内容:测量探针接收到负载均衡器反馈的最优数据分析器的信息后,测量探针的测量模块开始测量网络性能指标,并由数据采集模块将其从测量模块提取的测量数据上传给宿主数据分析器,同时缓存测量数据;测量探针只有在其数据采集模块接收到数据分析器确认接收到该数据后,才从缓存中删除该数据;该测量探针通过心跳管理机制判断宿主数据分析器的运行状态,一旦发现宿主数据分析器发生故障时,就立即停止数据上传和重新选择新的数据分析器,同时缓存该段时间生成的测量数据,保证数据完整性。
10.根据权利要求6所述的方法,其特征在于:所述步骤(3)包括下列操作内容:
(31)分析回传数据:数据分析器接收到测量探针的测量数据后,根据决策模块中决策库的相应策略分析该测量数据的实时性要求和处理方法:如果当前测量任务的实时性要求高,就直接解析测量数据,并将解析结果存入云计算模块的数据持久化层的分布式非关系型数据库中;否则,将测量数据缓存于云计算模块的数据缓冲区;且当数据缓冲区中的数据缓存到设定规模后,就调用云计算模块的性能分析单元并行分析测量数据和进行相关指标的评估;
(32)避免拥塞:数据分析器的负载均衡模块实时监测该数据分析器的当前数据流量,当数据流量超过设定阈值,就认为出现拥塞状态;此时,该数据分析器向与其相连的所有测量探针发送拥塞告警信号;测量探针接收到拥塞告警信号就进入拥塞响应状态:立即停止上传数据,并对该期间的测量数据进行缓存;直到该数据分析器的数据流量低于设定阈值,才向与其连接的各个测量探针发送拥塞解除信号;各个测量探针接收到拥塞解除信号,再随机等待一段时间后,将测量数据重新传送给数据分析器;当测量探针处于拥塞响应状态时间超过设定时间后,就自行中断与数据分析器之间的连接,并向负载均衡器发送连接请求,要求重新为其分配最优的数据分析器;
(33)呈现测量结果和接收用户查询:数据分析器将解析测量数据和对网络性能的评估结果,利用定量定性的图表通过web页面呈现给用户;同时,通过web页面,用户能够实时监控每个测量探针的测量任务运行状态以及该测量探针的工作状态,以控制测量任务的执行;此外,数据分析器能够响应用户对采集到的海量测量数据进行深度分析的请求,利用云计算模块的性能分析单元中部署的分析算法对测量数据进行并行的深度分析处理,得到用户需要的性能指标。
CN2011100632351A 2011-03-16 2011-03-16 用于ip网络的云测量装置和测量方法 Expired - Fee Related CN102143022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100632351A CN102143022B (zh) 2011-03-16 2011-03-16 用于ip网络的云测量装置和测量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100632351A CN102143022B (zh) 2011-03-16 2011-03-16 用于ip网络的云测量装置和测量方法

Publications (2)

Publication Number Publication Date
CN102143022A CN102143022A (zh) 2011-08-03
CN102143022B true CN102143022B (zh) 2013-09-25

Family

ID=44410262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100632351A Expired - Fee Related CN102143022B (zh) 2011-03-16 2011-03-16 用于ip网络的云测量装置和测量方法

Country Status (1)

Country Link
CN (1) CN102143022B (zh)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102427470A (zh) * 2011-11-10 2012-04-25 山东浪潮齐鲁软件产业股份有限公司 一种云监控中心的架构方法
CN102546771A (zh) * 2011-12-27 2012-07-04 西安博构电子信息科技有限公司 基于特征模型的云挖掘网络舆情监测系统
CN102647468A (zh) * 2012-04-01 2012-08-22 成都静水飞云科技有限责任公司 云计算负载均衡评估系统及评估方法
CN102710503B (zh) * 2012-05-15 2017-03-15 郑州云海信息技术有限公司 一种基于“云海os”的网络负载均衡方法
CN102737126B (zh) * 2012-06-19 2014-03-12 合肥工业大学 云计算环境下的分类规则挖掘方法
CN103152352B (zh) * 2013-03-15 2016-02-10 北京邮电大学 一种基于云计算环境的全信息安全取证监听方法和系统
CN104519010B (zh) * 2013-09-27 2018-01-16 中国电信股份有限公司 网络安全探针的部署方法和装置
CN103747060B (zh) * 2013-12-26 2017-12-08 惠州华阳通用电子有限公司 一种基于流媒体服务集群的分布式监控系统及方法
US10284619B2 (en) * 2014-01-22 2019-05-07 Telefonaktiebolaget Lm Ericsson (Publ) Method for scalable distributed network traffic analytics in telco
CN103856353B (zh) * 2014-03-06 2018-01-26 上海爱数信息技术股份有限公司 一种业务日志数据访问与统计分析的方法及装置
CN103955509A (zh) * 2014-04-30 2014-07-30 广西电网公司电力科学研究院 一种海量电力计量数据的快速检索方法
CN105281967B (zh) * 2014-06-20 2019-06-28 北京神州泰岳软件股份有限公司 一种数据采集方法和系统
CN104065538B (zh) * 2014-07-07 2017-09-08 湖南网数科技有限公司 网络性能的测量控制方法、控制服务器和系统
US10581756B2 (en) * 2014-09-09 2020-03-03 Microsoft Technology Licensing, Llc Nonintrusive dynamically-scalable network load generation
CN105592487B (zh) * 2014-10-22 2020-04-03 中兴通讯股份有限公司 一种lte网络业务流量评估方法及装置
CN104598378B (zh) * 2014-12-31 2018-01-30 天津橙子科技有限公司 一种web工程自动化测试探针
CN105022292A (zh) * 2015-06-10 2015-11-04 柳州市智融科技有限公司 因特网数据处理系统
CN104980968A (zh) * 2015-06-19 2015-10-14 饶品魁 一种基于LTE-A网络的CoMP监测方法
CN104936216A (zh) * 2015-06-19 2015-09-23 饶品魁 一种基于LTE-A网络的CoMP监测系统
CN105071954B (zh) * 2015-07-17 2018-12-25 云南电网有限责任公司信息中心 基于探针技术的资源池故障诊断与定位处理方法
CN105306526B (zh) * 2015-09-11 2018-10-12 中国人民解放军63796部队 一种大推力火箭大流量遥测数据处理方法
CN106682805A (zh) * 2015-11-10 2017-05-17 中兴通讯股份有限公司 一种基站负荷评估方法及装置
CN105574078A (zh) * 2015-12-02 2016-05-11 上海华兴数字科技有限公司 一种挖掘机的数据分析系统及方法
CN107404505B (zh) * 2016-05-19 2019-11-15 北京金山云网络技术有限公司 一种报文的处理方法、网关设备及连接存储设备
CN106254172A (zh) * 2016-07-14 2016-12-21 东软集团股份有限公司 异构应用数据采集方法及装置
WO2018053687A1 (zh) * 2016-09-20 2018-03-29 海能达通信股份有限公司 一种业务处理方法、系统及装置
CN106452969A (zh) * 2016-10-26 2017-02-22 广西瀚特信息产业股份有限公司 一种基于云服务检测网络性能的方法及系统
CN106571959A (zh) * 2016-10-26 2017-04-19 广西瀚特信息产业股份有限公司 一种基于云服务的网络分析方法及系统
CN107015892B (zh) * 2017-03-30 2020-11-03 腾讯科技(深圳)有限公司 一种压力测试方法、装置和系统
CN107147535A (zh) * 2017-06-02 2017-09-08 中国人民解放军理工大学 一种分布式的网络测量数据统计分析方法
CN107798056A (zh) * 2017-09-05 2018-03-13 海纳信成(北京)信息技术有限公司 一种数据查询方法及装置
CN107483297B (zh) * 2017-10-11 2023-06-02 飞思达技术(北京)有限公司 对嵌入式设备上所承载业务质量的主动监测系统及方法
CN107566535B (zh) * 2017-10-27 2020-05-05 武汉大学 基于Web地图服务并发访问时序规则的自适应负载均衡方法
CN109788012B (zh) * 2017-11-14 2022-04-01 阿里巴巴集团控股有限公司 一种健康检查方法和装置、健康检查控制方法和控制器
CN108683729B (zh) * 2018-05-14 2019-06-18 重庆第二师范学院 一种面向可信云的环境监测数据安全存储系统及方法
CN109688068A (zh) * 2019-02-03 2019-04-26 辽宁邮电规划设计院有限公司 基于大数据分析的网络负载均衡方法和装置
CN110795600A (zh) * 2019-11-05 2020-02-14 成都深思科技有限公司 一种分布式网络流量的聚合降维统计方法
CN111338682B (zh) * 2020-02-27 2023-05-09 上海百秋新网商数字科技有限公司 基于负载的持续升级系统服务方法
CN112994987B (zh) * 2021-05-07 2021-09-14 阿里云计算有限公司 云网络、用于云网络的测量系统、方法、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101883029A (zh) * 2009-05-05 2010-11-10 埃森哲环球服务有限公司 云中的应用移植方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6990513B2 (en) * 2000-06-22 2006-01-24 Microsoft Corporation Distributed computing services platform

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101883029A (zh) * 2009-05-05 2010-11-10 埃森哲环球服务有限公司 云中的应用移植方法和系统

Also Published As

Publication number Publication date
CN102143022A (zh) 2011-08-03

Similar Documents

Publication Publication Date Title
CN102143022B (zh) 用于ip网络的云测量装置和测量方法
Tamilvizhi et al. A novel method for adaptive fault tolerance during load balancing in cloud computing
CN102081622B (zh) 评估系统健康度的方法及系统健康度评估装置
Peng et al. Hadoopwatch: A first step towards comprehensive traffic forecasting in cloud computing
Moldovan et al. Mela: Monitoring and analyzing elasticity of cloud services
CN103152393B (zh) 一种云计算的计费方法和计费系统
Birje et al. Cloud monitoring system: basics, phases and challenges
Li et al. CloudMon: a resource‐efficient IaaS cloud monitoring system based on networked intrusion detection system virtual appliances
CN111427678A (zh) 汽车诊断云平台中的虚拟化资源调度系统、方法
CN109088747A (zh) 云计算系统中资源的管理方法和装置
Tu et al. An optimized cluster storage method for real-time big data in Internet of Things
CN114301917A (zh) 一种弹性伸缩的设备接入系统及其工作方法
CN105022823B (zh) 一种基于数据挖掘的云服务性能预警事件生成方法
Peng et al. Towards comprehensive traffic forecasting in cloud computing: Design and application
Ramu Performance Impact of Microservices Architecture
CN103078764A (zh) 基于虚拟计算任务的运行监测系统及方法
Velrajan et al. QoS management in multi-access edge compute
CN108351795A (zh) 用于映射虚拟机通信路径的方法和系统
Wang et al. Log data modeling and acquisition in supporting SaaS software performance issue diagnosis
Savu et al. Efficient network monitoring for large data acquisition systems
Mampage et al. A deep reinforcement learning based algorithm for time and cost optimized scaling of serverless applications
Chunlei et al. Design and implementation of a TCP long connection load balancing algorithm based on negative feedback mechanism
Liu et al. Monitoring of Grid Performance Based-on Agent
CN110826824A (zh) 一种面向风险管控的电网企业相关方关系监测系统
CN115866678B (zh) 一种基于网络能耗热点探测的移动边缘缓存资源优化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130925

Termination date: 20160316

CF01 Termination of patent right due to non-payment of annual fee