CN104184819B - 多层级负载均衡云资源监控方法 - Google Patents

多层级负载均衡云资源监控方法 Download PDF

Info

Publication number
CN104184819B
CN104184819B CN201410437310.XA CN201410437310A CN104184819B CN 104184819 B CN104184819 B CN 104184819B CN 201410437310 A CN201410437310 A CN 201410437310A CN 104184819 B CN104184819 B CN 104184819B
Authority
CN
China
Prior art keywords
monitoring
node
resource
cluster
centroid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410437310.XA
Other languages
English (en)
Other versions
CN104184819A (zh
Inventor
郁强
吴庆九
曹晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
City Cloud Technology (china) Co Ltd
Original Assignee
City Cloud Technology (china) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by City Cloud Technology (china) Co Ltd filed Critical City Cloud Technology (china) Co Ltd
Priority to CN201410437310.XA priority Critical patent/CN104184819B/zh
Publication of CN104184819A publication Critical patent/CN104184819A/zh
Application granted granted Critical
Publication of CN104184819B publication Critical patent/CN104184819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种多层级负载均衡云资源监控方法,包括:建立分布式多层监控架构;分析各个监控节点资源状态并结合云平台用户指定需求自动生成各个资源监控脚本;群集中心节点综合主动兼被动的主机发现策略不断对所负责局域网进行监测;监控中心节点实时根据各个群集中心节点负载状态调整传输协议等监控策略,使用快速压缩、双向传输技术降低监控数据的传输开销,并在中心节点故障时及时切换群集中心节点;监控中心节点定期对各个资源的历史监控数据进行挖掘分析,并进行提前预警及深入监控。根据大规模分布式的云环境的特点,自动发现集群新节点,并依赖负载均衡技术,赋之于强大的容错机制和事件引擎,从而保证了云环境的高可靠性和安全性。

Description

多层级负载均衡云资源监控方法
技术领域
本发明涉及云计算技术,特别涉及一种支持主动发现的多层级负载均衡云资源监控方法。
背景技术
随着互联网时代的不断深入,云计算和大数据时代已经到来,传统的IT架构已经无法支持产生的海量数据,数据中心规模呈现出爆棚式的增长趋势。传统的物理资源监控方法已经无法满足当下所需,大量的人力运维成本给企业带来了严重的负担。在这种形势下,企业用云环境替代了传统IT基础设施架构,但是大规模扁平化的云资源是否安全可靠,云服务的整体性能能否像传统物理服务器那样稳定可靠,都需要有强大的云监控平台完成对整个数据中心多个集群的监控,对CPU、内存、存储、网络等资源进行7*24小时的实时监控,完善的报警体系,强大的容错机制,这些都将成为云监控的基本需求。
为此,云监控技术应运而生,在监控物理机资源的同时,也将重点转向了虚拟机资源。在兼容传统监控元素的同时,基于云环境的特点,对云监控技术也有了新的要求。首先,云主机虚拟网络是基于用户隔离的,如果将每个用户的所有云主机分为一个集群的话,云监控要涵盖所有的用户集群,必须通过云网络去实现所有监控功能。其次,基于云平台的弹性扩展特性,应对采集的监控数据进行智能分析,启动相应事件处理引擎,特别是处于长期报警状态或者闲置状态的云主机节点,应能自动修改云主机规格。再次,报警策略灵活配置,用户可以根据云主机上部署的应用,多维度多聚合度对监控的报警策略进行配置。最后,云监控技术应能够实现在大规模集群环境下的负载均衡和流量分发,防止网络阻塞。
当前,很多云监控产品已经如雨后春笋般的出现,有传统的监控产品改版的,也有新型的云监控产品。OpenStack的Ceilometer,做为一个社区的开源项目,最近才正式以稳定版本发布到OpenStack中,稳定性和可靠性有待验证,到目前为止Ceilometer受限于OpenStack,兼容性较差。Nagios,提供强大的监控框架,完善的报警系统以及容错控制,但是自带的组件监控项较少,目前无报警数据持久化存储以及友好的图形化界面展示。Ganglia,提供强大的监控机制,丰富的监控项,灵活的监控拓扑,完善的监控图表显示,但是缺乏报警功能,用户只能人工去发现问题。
发明内容
本发明解决的问题是提供一种多层级负载均衡云资源监控方法,能保证云环境的高可靠性和安全性。
为解决上述问题,本发明实施例提供了一种多层级负载均衡云资源监控方法,包括:建立分布式多层监控架构,并根据网络状况以及实际资源分布建立多个监控资源群集;分析各个监控节点资源状态并结合云平台用户指定需求自动生成各个资源监控脚本,并根据各资源不同优先级生成合适报警设置模板以及应急启动脚本;群集中心节点综合主动兼被动的主机发现策略不断对所负责局域网进行监测;监控中心节点实时根据各个群集中心节点负载状态调整传输协议等监控策略,使用快速压缩、双向传输技术降低监控数据的传输开销,并在中心节点故障时及时切换群集中心节点;监控中心节点定期对各个资源的历史监控数据进行挖掘分析,根据各个资源的多维度监控数据建立资源健康预测模型,有针对地对各个故障概率较高的资源进行提前预警及深入监控。
可选的,还包括:对云平台搭建的物理环境进行全面调研分析,然后根据整体云主机网络区域划分以及集群规模进行多层级的群集规划,并按照不同资源分布选取合适中心节点以及存储节点,具体方法包括:
选取具有公共网络接入能力同时具有较强计算资源的物理服务器作为多层级云资源监控总体中心节点,部署监控数据接收代理服务,接收子群集节点上报的监控数据并加以分析报警展示;
根据云平台所含物理服务器网络拓扑分布进行子群集划分,每个群集划分后选取计算资源最丰富节点作为子群集中心节点;
各级中心节点与其子群集中心节点、最底层子群集中心节点与群集内其它节点形成多层级的分布式监控架构,最底层物理服务器节点均部署监控数据采集代理服务,负责根据需求实时收集监控数据,之后根据网络状况监控数据由物理节点推送到所属子群集中心节点或等待被中心节点主动收集;
各个子群集中心节点同时部署监控数据采集代理服务以及监控数据接收服务,在接收子节点所有监控数据并展示分析的同时,也将所属群集信息加以精炼对上层中心节点进行上报;
在云平台资源监控总体中心节点注册各个群集以及所属子群集信息,后续的管理操作均通过自顶向下模式由中心节点向下扩散。
可选的,还包括:生成各个资源监控、报警以及应急处理脚本之前,需要针对每个资源自身情况,结合用户对资源使用倾向性,在已有的脚本模板规则库中进行搜索,生成并部署对应的脚本配置,实现有针对性的细粒度监测,具体方法包括:
扫描物理服务器所有资源根据配置模板库生成资源监控脚本,同时根据物理设备应用类型有针对性选择监控重点;
中心节点根据群集所属各个物理服务器适配生成的监控脚本,在配置模板库中选取对应的必备报警模板作为默认报警规则加入中心节点;
中心节点获取各物理服务器上用户服务进程运行状态,根据用户指定需求由配置模板库中选取对应的服务应急启动脚本部署到对应物理节点,保证相关服务在监控发现故障出错后,能够快速重启确保服务不出现中断状态。
可选的,由各个中心节点保持对其所负责群集进行实时的资源探测,当有新设备建立或加入时能够及时加入对应群集,并由对应群集中心节点部署代理服务加入到整体资源监控中,具体实施包括以下内容:
各个群集中心节点利用被动方式在所属子网内广播ARP数据包,之后在动态更新的高速ARP缓存中提取子网内主机的IP及MAC地址映射表,并更新到统一维护的全局地址映射表中,对于已有活动主机项进行MAC验证确认,而新增主机则触发后续主机发现确认;
中心节点对于所在子网的局域网内进行主动的主机发现,通过半开端口的TCP连接方式对活动主机进行连接验证。这种主动扫描探测方式能够较好确认主机状态,但为防止过度消耗网络带宽,仅对已知地址的活动主机进行状态确认;
在验证主动发现的新增主机活跃后,对应群集中心节点负责完成对新增服务器主机的监控代理部署以及监控、报警和应急处理脚本的配置,完成配置后群集中心节点向上层中心节点提交更新信息。
可选的,建立多种策略来对数据以及负载的分流和转移,以达到整体监控资源使用的平衡高效,具体措施包含以下内容:
报警规则计算分析的下降,实时报警需要根据监控数据进行规则匹配分析并生成分发对应报警内容,操作相对于监控要耗费较多计算资源。报警规则计算分析处理从总体中心节点蹭蹭下降到各个子群集中心节点,将计算负载逐层分散到各级中心节点上,保证系统不存在单点处理能力瓶颈,总体中心节点仅需要收集合并各个子中心节点上报的报警信息。
监控数据传输支持推送以及拉取两种方式,初始状态物理节点监控数据由所属群集中心节点统一拉取,中心节点能够自主控制监控信息实时性及状态判定。当中心节点负载上升无法提供更多空闲资源到所属群集各节点进行统一拉取时,则将该群集监控数据传输协议切换为推送方式,每个物理节点自主推送其监控数据到群集中心节点,降低中心节点负载消耗。
监控代理服务内嵌多级复合压缩技术,根据实时网络流量随时调整压缩级别设置,即时网络状况较差时,则监控代理会自主使用压缩技术将传输数据压缩,消耗部分计算资源来换取对网络传输带宽要求的大幅降低,同时监控代理能够根据计算资源空闲状况与网络状况选取最佳压缩级别达到整体资源效率平衡。
默认对各级监控及报警信息配置优先级属性,当系统负载过高后,优先传输报警信息以及重要监控信息,通用或级别较低监控信息则由本地缓存临时存储延迟传输。
各级中心节点根据子节点负载状态动态调整监控策略,增大状态数据采集间隔,减少总体数据传输量。
可选的,还包括:在群集中心节点利用对每个物理节点历史状态信息的收集,形成每个云资源使用的历史样本集,在样本集基础上利用数据挖掘中生存分析技术为每个物理节点的云资源使用模式建立风险回归模型,后续监控数据能够结合模型得到该资源后续发生故障的风险概率,帮助运维人员提早对云平台故障进行尽早的预测和预防,具体包括:
群集中心节点接收云资源监控数据同时,以用户配置或系统默认间隔阈值随机抽取数据,作为分析样本保存在该云资源专属状态历史信息库中,并利用高斯模型建立在线数据分布函数,即时清理可能引起生存分析模型偏差的异常及噪声数据。
利用半参数的Cox比例风险回归模型建立云资源针对事件以及时间的风险函数的回归模型,群集中心节点根据风险回归模型对后续监控数据进行实时的风险评估,当出现故障风险较大时则生成相应报警信息。
与现有技术相比,本技术方案具有以下优点:
本发明实施例根据大规模分布式的云环境的特点,结合当前云平台环境以及发展中的云监控产品特点,提出了基于大规模云计算集群的多层级负载均衡的全新的云资源监控方法,既具备了完善的监控机制,又提供了健全的报警流程以及容错机制。同时针对云环境的特点,提供对云主机的智能化自适应监控,自动调整云主机资源规格;基于云网络的垮租户的云主机统一监控;结合云主机上应用的特点,定制监控策略和报警。从而保证了云环境的高可靠性和安全性。
附图说明
图1是本发明实施例的多层级负载均衡云资源监控方法的流程示意图;
图2是本发明实施例的多层级负载均衡云资源监控的原理示意图。
具体实施方式
下面结合附图,通过具体实施例,对本发明的技术方案进行清楚、完整的描述。
本发明实施例提供了一种多层级负载均衡云资源监控方法,请参考图1和图2,包括:
步骤S101,建立分布式多层监控架构,并根据网络状况以及实际资源分布建立多个监控资源群集;
步骤S102,分析各个监控节点资源状态并结合云平台用户指定需求自动生成各个资源监控脚本,并根据各资源不同优先级生成合适报警设置模板以及应急启动脚本;
步骤S103,群集中心节点综合主动兼被动的主机发现策略不断对所负责局域网进行监测;
步骤S104,监控中心节点实时根据各个群集中心节点负载状态调整传输协议等监控策略,使用快速压缩、双向传输技术降低监控数据的传输开销,并在中心节点故障时及时切换群集中心节点;
步骤S105,监控中心节点定期对各个资源的历史监控数据进行挖掘分析,根据各个资源的多维度监控数据建立资源健康预测模型,有针对地对各个故障概率较高的资源进行提前预警及深入监控。
具体的,在执行步骤S101时,需要对云平台搭建的物理环境进行全面调研分析,根据整体云主机网络区域划分以及集群规模进行多层级的群集规划,并按照不同资源分布选取合适中心节点以及存储节点,具体方法包括:
首先选取具有公共网络接入能力同时具有较强计算资源的物理服务器作为多层级云资源监控总体中心节点,部署监控数据接收代理服务,接收子群集节点上报的监控数据并加以分析报警展示;
根据云平台所含物理服务器网络拓扑分布进行子群集划分,每个群集划分后选取计算资源最丰富节点作为子群集中心节点;
各级中心节点与其子群集中心节点、最底层子群集中心节点与群集内其它节点形成多层级的分布式监控架构。最底层物理服务器节点均部署监控数据采集代理服务,负责根据需求实时收集监控数据,之后根据网络状况监控数据由物理节点推送到所属子群集中心节点或等待被中心节点主动收集;
各个子群集中心节点同时部署监控数据采集代理服务以及监控数据接收服务,在接收子节点所有监控数据并展示分析的同时,也将所属群集信息加以精炼对上层中心节点进行上报;
在云平台资源监控总体中心节点注册各个群集以及所属子群集信息,后续的管理操作均通过自顶向下模式由中心节点向下扩散。
执行步骤S102,在生成各个资源监控、报警以及应急处理脚本之前,需要针对每个资源自身情况,结合用户对资源使用倾向性,在已有的脚本模板规则库中进行搜索,生成并部署对应的脚本配置,实现有针对性的细粒度监测,方法的具体实施包含以下内容:
扫描物理服务器所有资源根据配置模板库生成资源监控脚本,同时根据物理设备应用类型有针对性选择监控重点;
中心节点根据群集所属各个物理服务器适配生成的监控脚本,在配置模板库中选取对应的必备报警模板作为默认报警规则加入中心节点;
中心节点获取各物理服务器上用户服务进程运行状态,根据用户指定需求由配置模板库中选取对应的服务应急启动脚本部署到对应物理节点,保证相关服务在监控发现故障出错后,能够快速重启确保服务不出现中断状态。
执行步骤S103,各个中心节点保持对其所负责群集进行实时的资源探测,当有新设备建立或加入时能够及时加入对应群集,并由对应群集中心节点部署代理服务加入到整体资源监控中,具体包括:
各个群集中心节点利用被动方式在所属子网内广播ARP数据包,之后在动态更新的高速ARP缓存中提取子网内主机的IP及MAC地址映射表,并更新到统一维护的全局地址映射表中,对于已有活动主机项进行MAC验证确认,而新增主机则触发后续主机发现确认;
中心节点对于所在子网的局域网内进行主动的主机发现,通过半开端口的TCP连接方式对活动主机进行连接验证。这种主动扫描探测方式能够较好确认主机状态,但为防止过度消耗网络带宽,仅对已知地址的活动主机进行状态确认;
在验证主动发现的新增主机活跃后,对应群集中心节点负责完成对新增服务器主机的监控代理部署以及监控、报警和应急处理脚本的配置,完成配置后群集中心节点向上层中心节点提交更新信息。
执行步骤S104,建立多种策略来对数据以及负载的分流和转移,以达到整体监控资源使用的平衡高效,具体措施包含以下内容:
报警规则计算分析的下降,实时报警需要根据监控数据进行规则匹配分析并生成分发对应报警内容,操作相对于监控要耗费较多计算资源。报警规则计算分析处理从总体中心节点蹭蹭下降到各个子群集中心节点,将计算负载逐层分散到各级中心节点上,保证系统不存在单点处理能力瓶颈,总体中心节点仅需要收集合并各个子中心节点上报的报警信息;
监控数据传输支持推送以及拉取两种方式,初始状态物理节点监控数据由所属群集中心节点统一拉取,中心节点能够自主控制监控信息实时性及状态判定。当中心节点负载上升无法提供更多空闲资源到所属群集各节点进行统一拉取时,则将该群集监控数据传输协议切换为推送方式,每个物理节点自主推送其监控数据到群集中心节点,降低中心节点负载消耗;
监控代理服务内嵌多级复合压缩技术,根据实时网络流量随时调整压缩级别设置,即时网络状况较差时,则监控代理会自主使用压缩技术将传输数据压缩,消耗部分计算资源来换取对网络传输带宽要求的大幅降低,同时监控代理能够根据计算资源空闲状况与网络状况选取最佳压缩级别达到整体资源效率平衡;
默认对各级监控及报警信息配置优先级属性,当系统负载过高后,优先传输报警信息以及重要监控信息,通用或级别较低监控信息则由本地缓存临时存储延迟传输;
各级中心节点根据子节点负载状态动态调整监控策略,增大状态数据采集间隔,减少总体数据传输量。
执行步骤S105,在群集中心节点利用对每个物理节点历史状态信息的收集,形成每个云资源使用的历史样本集,在样本集基础上利用数据挖掘中生存分析技术为每个物理节点的云资源使用模式建立风险回归模型,后续监控数据能够结合模型得到该资源后续发生故障的风险概率,帮助运维人员提早对云平台故障进行尽早的预测和预防,具体包括:
群集中心节点接收云资源监控数据同时,以用户配置或系统默认间隔阈值随机抽取数据,作为分析样本保存在该云资源专属状态历史信息库中,并利用高斯模型建立在线数据分布函数,即时清理可能引起生存分析模型偏差的异常及噪声数据;
利用半参数的Cox比例风险回归模型建立云资源针对事件以及时间的风险函数的回归模型,群集中心节点根据风险回归模型对后续监控数据进行实时的风险评估,当出现故障风险较大时则生成相应报警信息。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。

Claims (5)

1.一种多层级负载均衡云资源监控方法,其特征在于,包括:
建立分布式多层监控架构,并根据网络状况以及实际资源分布建立多个监控资源群集;
分析各个监控节点资源状态并结合云平台用户指定需求自动生成各个资源监控脚本,并根据各资源不同优先级生成合适报警设置模板以及应急启动脚本;
群集中心节点综合主动兼被动的主机发现策略不断对所负责局域网进行监测;
监控中心节点实时根据各个群集中心节点负载状态调整传输协议等监控策略,使用快速压缩、双向传输技术降低监控数据的传输开销,并在集群中心节点故障时及时切换群集中心节点;
监控中心节点定期对各个资源的历史监控数据进行挖掘分析,根据各个资源的多维度监控数据建立资源健康预测模型,有针对地对各个故障概率较高的资源进行提前预警及深入监控;
还包括:对云平台搭建的物理环境进行全面调研分析,然后根据整体云主机网络区域划分以及集群规模进行多层级的群集规划,并按照不同资源分布选取合适集群中心节点以及存储节点,具体方法包括:
选取具有公共网络接入能力同时具有较强计算资源的物理服务器作为多层级云资源监控总体中心节点,部署监控数据接收代理服务,接收子群集中心节点上报的监控数据并加以分析报警展示;
根据云平台所含物理服务器网络拓扑分布进行子群集划分,每个群集划分后选取计算资源最丰富节点作为子群集中心节点;
各级中心节点与其子群集中心节点、最底层子群集中心节点与群集内其它节点形成多层级的分布式监控架构,最底层物理服务器节点均部署监控数据采集代理服务,负责根据需求实时收集监控数据,之后根据网络状况将监控数据由物理节点推送到所属子群集中心节点或等待被子群集中心节点主动收集;
各个子群集中心节点同时部署监控数据采集代理服务以及监控数据接收服务,在接收子节点所有监控数据并展示分析的同时,也将所属群集信息加以精炼对上层中心节点进行上报;
在云平台资源监控总体中心节点注册各个群集以及所属子群集信息,后续的管理操作均通过自顶向下模式由资源监控总体中心节点向下扩散。
2.根据权利要求1所述的一种多层级负载均衡云资源监控方法,其特征在于,还包括:生成各个资源监控、报警以及应急处理脚本之前,需要针对每个资源自身情况,结合用户对资源使用倾向性,在已有的脚本模板规则库中进行搜索,生成并部署对应的脚本配置,实现有针对性的细粒度监测,具体方法包括:
扫描物理服务器所有资源,根据配置模板库生成资源监控脚本,同时根据物理设备应用类型有针对性选择监控重点;
中心节点根据群集所属各个物理服务器适配生成的监控脚本,在配置模板库中选取对应的必备报警模板作为默认报警规则加入中心节点;
中心节点获取各物理服务器上用户服务进程运行状态,根据用户指定需求由配置模板库中选取对应的服务应急启动脚本部署到对应物理服务器,保证相关服务在监控发现故障出错后,能够快速重启确保服务不出现中断状态。
3.根据权利要求1所述的一种多层级负载均衡云资源监控方法,其特征在于,由各个群集中心节点保持对其所负责群集进行实时的资源探测,当有新设备建立或加入时能够及时加入对应群集,并由对应群集中心节点部署代理服务加入到整体资源监控中,具体实施包括以下内容:
各个群集中心节点利用被动方式在所属子网内广播ARP数据包,之后在动态更新的高速ARP缓存中提取子网内主机的IP及MAC地址映射表,并更新到统一维护的全局地址映射表中,对于已有活动主机项进行MAC验证确认,而新增主机则触发后续主机发现确认;
群集中心节点对于所在子网的局域网内进行主动的主机发现,通过半开端口的TCP连接方式对活动主机进行连接验证;这种主动扫描探测方式能够较好确认主机状态,但为防止过度消耗网络带宽,仅对已知地址的活动主机进行状态确认;
在验证主动发现的新增主机活跃后,对应群集中心节点负责完成对新增服务器主机的监控代理部署以及监控、报警和应急处理脚本的配置,完成配置后群集中心节点向上层中心节点提交更新信息。
4.根据权利要求1所述的一种多层级负载均衡云资源监控方法,其特征在于,建立多种策略来对数据以及负载的分流和转移,以达到整体监控资源使用的平衡高效,具体措施包含以下内容:
报警规则计算分析的下降,实时报警需要根据监控数据进行规则匹配分析并生成分发对应报警内容,操作相对于监控要耗费较多计算资源;报警规则计算分析处理从资源监控总体中心节点层层下降到各个子群集中心节点,将计算负载逐层分散到各级中心节点上,保证系统不存在单点处理能力瓶颈,资源监控总体中心节点仅需要收集合并各个子群集中心节点上报的报警信息;
监控数据传输支持推送以及拉取两种方式,初始状态物理节点监控数据由所属群集中心节点统一拉取,子群集中心节点能够自主控制监控信息实时性及状态判定;
当子群集中心节点负载上升无法提供更多空闲资源到所属群集各节点进行统一拉取时,则将该群集监控数据传输协议切换为推送方式,每个物理节点自主推送其监控数据到群集中心节点,降低群集中心节点负载消耗;
监控代理服务内嵌多级复合压缩技术,根据实时网络流量随时调整压缩级别设置,即时网络状况较差时,则监控代理会自主使用压缩技术将传输数据压缩,消耗部分计算资源来换取对网络传输带宽要求的大幅降低,同时监控代理能够根据计算资源空闲状况与网络状况选取最佳压缩级别达到整体资源效率平衡;
默认对各级监控及报警信息配置优先级属性,当系统负载过高后,优先传输报警信息以及重要监控信息,通用或级别较低监控信息则由本地缓存临时存储延迟传输;
各级群集中心节点根据子节点负载状态动态调整监控策略,增大状态数据采集间隔,减少总体数据传输量。
5.根据权利要求1所述的一种多层级负载均衡云资源监控方法,其特征在于,还包括:在群集中心节点利用对每个物理节点历史状态信息的收集,形成每个云资源使用的历史样本集,在样本集基础上利用数据挖掘中生存分析技术为每个物理节点的云资源使用模式建立风险回归模型,后续监控数据能够结合模型得到该资源后续发生故障的风险概率,帮助运维人员提早对云平台故障进行尽早的预测和预防,具体包括:
群集中心节点接收云资源监控数据同时,以用户配置或系统默认间隔阈值随机抽取数据,作为分析样本保存在该云资源专属状态历史信息库中,并利用高斯模型建立在线数据分布函数,即时清理可能引起生存分析模型偏差的异常及噪声数据;
利用半参数的Cox比例风险回归模型建立云资源针对事件以及时间的风险函数的回归模型,群集中心节点根据风险回归模型对后续监控数据进行实时的风险评估,当出现故障风险较大时则生成相应报警信息。
CN201410437310.XA 2014-08-29 2014-08-29 多层级负载均衡云资源监控方法 Active CN104184819B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410437310.XA CN104184819B (zh) 2014-08-29 2014-08-29 多层级负载均衡云资源监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410437310.XA CN104184819B (zh) 2014-08-29 2014-08-29 多层级负载均衡云资源监控方法

Publications (2)

Publication Number Publication Date
CN104184819A CN104184819A (zh) 2014-12-03
CN104184819B true CN104184819B (zh) 2017-12-05

Family

ID=51965548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410437310.XA Active CN104184819B (zh) 2014-08-29 2014-08-29 多层级负载均衡云资源监控方法

Country Status (1)

Country Link
CN (1) CN104184819B (zh)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104486152B (zh) * 2014-12-11 2019-04-12 北京国双科技有限公司 网络系统运行状态检测方法及装置和负载均衡方法及装置
CN104391737B (zh) * 2014-12-15 2016-03-30 成都英力拓信息技术有限公司 云平台中负载平衡的优化方法
CN105988907B (zh) * 2015-01-29 2019-04-02 深圳市腾讯计算机系统有限公司 业务监控方法和装置
CN104796294A (zh) * 2015-05-07 2015-07-22 上海逸云信息科技发展有限公司 一种云加速网络监控系统及方法
US9665460B2 (en) * 2015-05-26 2017-05-30 Microsoft Technology Licensing, Llc Detection of abnormal resource usage in a data center
CN104901964A (zh) * 2015-05-28 2015-09-09 北京邮电大学 一种用于保护云系统的安全监控方法
CN104954181A (zh) * 2015-06-08 2015-09-30 北京集奥聚合网络技术有限公司 一种分布式集群设备故障预警方法
CN104991854B (zh) * 2015-06-12 2018-09-04 北京奇虎科技有限公司 一种服务器资源的监控统计方法和系统
CN104935672B (zh) * 2015-06-29 2018-05-11 新华三技术有限公司 负载均衡服务高可用实现方法和设备
CN106469346B (zh) * 2015-08-20 2018-10-02 阿里巴巴集团控股有限公司 一种基于区域的风险控制方法和设备
CN105376100B (zh) * 2015-12-09 2019-05-21 国云科技股份有限公司 一种适用于云平台资源监控的分布式告警规则评估方法
CN105610983A (zh) * 2016-03-07 2016-05-25 北京荣之联科技股份有限公司 一种分布式的网络监控方法及系统
CN105847055A (zh) * 2016-03-25 2016-08-10 乐视控股(北京)有限公司 一种服务器分组管理方法和装置
CN106027298B (zh) * 2016-05-20 2019-07-26 深圳市永兴元科技股份有限公司 分布式数据系统的数据采集方法及分布式数据系统
CN106095641A (zh) * 2016-06-12 2016-11-09 浪潮电子信息产业股份有限公司 一种监控方法、装置和系统
CN106209482A (zh) * 2016-09-13 2016-12-07 郑州云海信息技术有限公司 一种数据中心监控方法及系统
CN106534186B (zh) * 2016-12-07 2019-08-16 北京数字观星科技有限公司 一种远程应急响应系统及其响应方法
CN106708016B (zh) * 2016-12-22 2019-12-10 中国石油天然气股份有限公司 故障监控方法和装置
TWI665899B (zh) * 2017-01-19 2019-07-11 香港商阿里巴巴集團服務有限公司 基於區域的風險控制方法和設備
CN106856508A (zh) * 2017-02-08 2017-06-16 北京百度网讯科技有限公司 数据中心的云监控方法及云平台
CN107066365B (zh) * 2017-02-20 2021-01-01 创新先进技术有限公司 一种系统异常的监测方法及装置
CN106982136B (zh) * 2017-03-07 2020-03-10 西安电子科技大学 一种多域分层的多域物联网平台及多域管理方法
CN108696555B (zh) * 2017-04-11 2020-01-14 贵州白山云科技股份有限公司 一种设备探测方法及装置
CN108510416A (zh) * 2018-03-28 2018-09-07 南京红松信息技术有限公司 考试流量监控系统及实现方法
CN108512945A (zh) * 2018-05-22 2018-09-07 四川斐讯信息技术有限公司 一种代理终端的决策方法
CN108737182A (zh) * 2018-05-22 2018-11-02 平安科技(深圳)有限公司 系统异常的处理方法及系统
CN108769060B (zh) * 2018-06-21 2021-06-01 曙光信息产业(北京)有限公司 自动添加服务器的方法、装置和集群监控系统
CN109033840B (zh) * 2018-06-28 2021-08-03 成都飞机工业(集团)有限责任公司 一种对计算机终端进行保密检查的方法
CN109150599B (zh) * 2018-08-10 2021-04-20 浪潮通用软件有限公司 一种基于云架构的运维监控系统
CN109194546A (zh) * 2018-09-14 2019-01-11 郑州云海信息技术有限公司 一种基于Grafana的OpenStack主机集群监控系统及方法
CN110932875B (zh) * 2018-09-19 2022-11-22 中兴通讯股份有限公司 一种大数据云计算环境下的告警装置及方法
CN109302324A (zh) * 2018-11-23 2019-02-01 快云信息科技有限公司 一种私有云监控预警方法及系统
CN109901971A (zh) * 2019-02-18 2019-06-18 国家计算机网络与信息安全管理中心 动态可编程的主机监控系统
CN109743230A (zh) * 2019-02-18 2019-05-10 国家计算机网络与信息安全管理中心 基于统计信息的监控数据传输系统
CN109873738A (zh) * 2019-02-26 2019-06-11 启迪云计算有限公司 一种可弹性伸缩的云计算监控平台
CN110191016B (zh) * 2019-05-21 2021-08-13 深信服科技股份有限公司 云平台业务监控方法、装置、设备、系统及可读存储介质
CN110611680B (zh) * 2019-09-25 2021-06-25 腾讯科技(深圳)有限公司 一种数据包压缩控制方法及装置
US11005721B1 (en) * 2020-06-30 2021-05-11 Juniper Networks, Inc. Scalable control plane for telemetry data collection within a distributed computing system
CN111880997A (zh) * 2020-07-29 2020-11-03 曙光信息产业(北京)有限公司 一种分布式监控系统、监控方法及装置
US20220254505A1 (en) * 2021-02-10 2022-08-11 International Business Machines Corporation Healthcare application insight compilation sensitivity
CN113315812A (zh) * 2021-04-30 2021-08-27 桂林理工大学 一种云环境下基于Agent的信任管理系统
CN113468159A (zh) * 2021-07-19 2021-10-01 广东电网有限责任公司 一种数据应用全链路管控方法及系统
CN113656242B (zh) * 2021-07-29 2023-12-22 济南浪潮数据技术有限公司 一种服务器集群的监控方法及系统
CN113919412B (zh) * 2021-09-02 2023-07-25 中国电子科技集团公司第二十九研究所 一种数据分发方法、设备及存储介质
CN114157585A (zh) * 2021-12-09 2022-03-08 京东科技信息技术有限公司 一种业务资源监测的方法和装置
CN114584589A (zh) * 2022-03-04 2022-06-03 杭州智麒科技有限公司 一种快速扫描发现资源并快速监控的实现方法
CN114629782A (zh) * 2022-04-01 2022-06-14 西安超越申泰信息科技有限公司 一种多个云平台间抗毁接替方法
CN114928615B (zh) * 2022-05-19 2023-10-24 网宿科技股份有限公司 负载均衡方法、装置、设备及可读存储介质
CN114979158B (zh) * 2022-05-23 2024-04-09 深信服科技股份有限公司 一种资源监控方法、系统、设备及计算机可读存储介质
CN116708506B (zh) * 2023-06-28 2023-10-27 广州豪特节能环保科技股份有限公司 一种数据中心智能监控方法、系统以及存储介质
CN116541261B (zh) * 2023-07-06 2023-09-05 成都睿的欧科技有限公司 一种基于云资源监测的资源管理方法及系统
CN117749627A (zh) * 2024-02-19 2024-03-22 护航科技股份有限公司 一种网络服务启停管理系统、方法及系统架构

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719841A (zh) * 2009-11-13 2010-06-02 曙光信息产业(北京)有限公司 分布式集群监控系统及方法
CN102750602A (zh) * 2012-04-20 2012-10-24 广东电网公司信息中心 一种云平台异构一体化资源管理系统
CN103024060A (zh) * 2012-12-20 2013-04-03 中国科学院深圳先进技术研究院 一种开放式云计算大规模集群监控系统及方法
CN103095533A (zh) * 2013-02-22 2013-05-08 浪潮电子信息产业股份有限公司 一种云计算系统平台中的定时监控方法
CN103414748A (zh) * 2013-07-12 2013-11-27 广东电子工业研究院有限公司 一种云平台监控架构及其监控实现方法
CN103546536A (zh) * 2013-08-28 2014-01-29 北京清控人居环境研究院有限公司 污水处理厂物联网系统
CN103581339A (zh) * 2013-11-25 2014-02-12 广东电网公司汕头供电局 基于云计算的存储资源分配监控处理方法
CN103685486A (zh) * 2013-12-02 2014-03-26 中国科学院计算技术研究所 跨数据中心集群的分布式系统监控方法及系统
CN104011685A (zh) * 2012-12-26 2014-08-27 华为技术有限公司 一种虚拟机系统的资源管理方法、虚拟机系统和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2943880A4 (en) * 2013-01-12 2016-10-19 F5 Networks Inc USER INTERFACE FOR VISUALIZING RESOURCE PERFORMANCE AND MANAGING RESOURCES IN CLOUD OR DISTRIBUTED SYSTEMS

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719841A (zh) * 2009-11-13 2010-06-02 曙光信息产业(北京)有限公司 分布式集群监控系统及方法
CN102750602A (zh) * 2012-04-20 2012-10-24 广东电网公司信息中心 一种云平台异构一体化资源管理系统
CN103024060A (zh) * 2012-12-20 2013-04-03 中国科学院深圳先进技术研究院 一种开放式云计算大规模集群监控系统及方法
CN104011685A (zh) * 2012-12-26 2014-08-27 华为技术有限公司 一种虚拟机系统的资源管理方法、虚拟机系统和装置
CN103095533A (zh) * 2013-02-22 2013-05-08 浪潮电子信息产业股份有限公司 一种云计算系统平台中的定时监控方法
CN103414748A (zh) * 2013-07-12 2013-11-27 广东电子工业研究院有限公司 一种云平台监控架构及其监控实现方法
CN103546536A (zh) * 2013-08-28 2014-01-29 北京清控人居环境研究院有限公司 污水处理厂物联网系统
CN103581339A (zh) * 2013-11-25 2014-02-12 广东电网公司汕头供电局 基于云计算的存储资源分配监控处理方法
CN103685486A (zh) * 2013-12-02 2014-03-26 中国科学院计算技术研究所 跨数据中心集群的分布式系统监控方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《云计算环境资源监控系统研究》;李君 等;《数学的实践与认识》;20140430;第44卷(第7期);第120-128页 *
《面向云平台的集群运维管理方法研究》;罗芸 等;《现代电信科技》;20130731(第7期);第54-59页 *

Also Published As

Publication number Publication date
CN104184819A (zh) 2014-12-03

Similar Documents

Publication Publication Date Title
CN104184819B (zh) 多层级负载均衡云资源监控方法
CN103761309B (zh) 一种运营数据处理方法及系统
CN106130796B (zh) Sdn网络拓扑流量可视化监控方法及控制终端
CN103019172B (zh) 自组织无线电监测系统
TWI547817B (zh) 叢集運算架構的資源規劃方法、系統及裝置
CN107317707B (zh) 一种基于点覆盖集的sdn网络拓扑管理方法
CN103974140B (zh) 一种基于tr069协议的大规模交互电视终端管理方法及系统
CN103024060A (zh) 一种开放式云计算大规模集群监控系统及方法
CN105791151B (zh) 一种动态流量控制方法,及装置
CN106027328A (zh) 一种基于应用容器部署的集群监控的方法及系统
CN107426003A (zh) 一种故障检测方法及装置
CN109313841B (zh) 用于在传感器网络中实现自适应聚类的方法和系统
CN105656715B (zh) 用于监测云计算环境下网络设备的状态的方法和装置
CN105516292A (zh) 一种智能变电站云平台的热备方法
CN104539689A (zh) 一种云平台下的资源监控方法
CN110225512A (zh) 一种蜂窝物联网的无线资源控制方法及系统
CN105187781A (zh) 一种自动添加监控设备的方法和装置
CN103795575A (zh) 一种面向多数据中心的系统监控方法
CN106302569A (zh) 处理虚拟机集群的方法和计算机系统
CN105592551B (zh) 一种信道分配方法及装置
CN1819531A (zh) 基于移动代理的部落式大规模网络故障管理办法
CN103152420B (zh) 一种避免Ovirt虚拟管理平台单点失效的方法
CN109672731A (zh) 一种分布式节点信息监测方法、系统及应用
CN105207835A (zh) 一种无线局域网的网元工作状态的判定方法及装置
CN104038360A (zh) 基于新无线接入控制器架构的网管实现系统及实现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Hangzhou City, Zhejiang province 310052 Binjiang District River Street South Road No. 588 building, 17 storey main building, Hengxin 18

Applicant after: City cloud technology (China) Co., Ltd.

Address before: Hengxin Building No. 588 Hangzhou 310000 Zhejiang province Binjiang District River Street Jiangnan Avenue 17-18

Applicant before: City cloud technology (Hangzhou) Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Multi level load balancing cloud resource monitoring method

Effective date of registration: 20200805

Granted publication date: 20171205

Pledgee: Bank of Jiangsu Limited by Share Ltd. Hangzhou branch

Pledgor: CCI (CHINA) Co.,Ltd.

Registration number: Y2020330000582

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220322

Granted publication date: 20171205

Pledgee: Bank of Jiangsu Limited by Share Ltd. Hangzhou branch

Pledgor: CCI (CHINA) Co.,Ltd.

Registration number: Y2020330000582

PC01 Cancellation of the registration of the contract for pledge of patent right