CN104917639A - 基于集群监控分配数据业务方法及装置 - Google Patents

基于集群监控分配数据业务方法及装置 Download PDF

Info

Publication number
CN104917639A
CN104917639A CN201510317063.4A CN201510317063A CN104917639A CN 104917639 A CN104917639 A CN 104917639A CN 201510317063 A CN201510317063 A CN 201510317063A CN 104917639 A CN104917639 A CN 104917639A
Authority
CN
China
Prior art keywords
time interval
predetermined time
computing equipment
predetermined
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510317063.4A
Other languages
English (en)
Other versions
CN104917639B (zh
Inventor
杨挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hongxiang Technical Service Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510317063.4A priority Critical patent/CN104917639B/zh
Publication of CN104917639A publication Critical patent/CN104917639A/zh
Application granted granted Critical
Publication of CN104917639B publication Critical patent/CN104917639B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供了一种基于集群监控分配数据业务的方法和装置,所述方法包括:以预定监控频率监控并采集在预定时长内多台计算设备多个预定监控项的监控数据,其中,每台计算设备各自承载相应的数据业务;基于预定时间间隔对采集到的在预定时长内每台计算设备的每个预定监控项的监控数据进行分析处理,确定每台计算设备的监控分析结果;根据监控分析结果,确定在预定时长内所述多台计算设备基于预定时间间隔的可用性信息;根据基于预定时间间隔的可用性信息,重新分配每台计算设备各自承载的数据业务。上述方法及装置可根据可用性信息对集群中多台计算设备所承载的数据业务重新进行分配,确保数据业在已有计算设备中的合理分配。

Description

基于集群监控分配数据业务方法及装置
技术领域
本发明涉及计算机技术领域,具体而言,本发明涉及一种基于集群监控分配数据业务方法及装置。
背景技术
集群是一组相互独立的、通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。当集群为服务器集群时,指将网络中的若干服务器集中起来执行同一种服务、对外部相当于一个服务器的技术,具有高扩展、高可用、高性价比等特点。
集群中的每台服务器承载相应的数据业务,现有技术在集群内分配数据业务的过程中,为了节约成本,在机器压力允许的条件下,会采用在单机器上放置尽量多数据业务的策略,以确保资源利用最大化。但是,对机器分配数据业务并运行一段时间之后,承载在机器中的数据业务由于运行趋于稳定或版本升级等原因,可能会使得运行时间缩短,因此可产生硬件资源空闲的情况。因此,仅根据每台机器上承载的数据业务量多少判断该机器是否可用的方式不能准确且合理的对数据业务进行分配,由此可能产生硬件资源浪费、分配不合理等问题。
发明内容
为克服上述技术问题或者至少部分地解决上述技术问题,特提出以下技术方案:
本发明的实施例提出了一种基于集群监控分配数据业务的方法,包括:
以预定监控频率监控并采集在预定时长内多台计算设备多个预定监控项的监控数据,其中,每台计算设备各自承载相应的数据业务;
基于预定时间间隔对采集到的在预定时长内每台计算设备的每个预定监控项的监控数据进行分析处理,确定每台计算设备的监控分析结果;
根据监控分析结果,确定在预定时长内所述多台计算设备基于预定时间间隔的可用性信息;以及
根据基于预定时间间隔的可用性信息,重新分配每台计算设备各自承载的数据业务。
本发明的另一实施例提出了一种基于集群监控分配数据业务的装置,包括:
监控模块,用于以预定监控频率监控并采集在预定时长内多台计算设备多个预定监控项的监控数据,其中,每台计算设备各自承载相应的数据业务;
分析模块,用于基于预定时间间隔对采集到的在预定时长内每台计算设备的每个预定监控项的监控数据进行分析处理,确定每台计算设备的监控分析结果;
可用性确定模块,用于根据监控分析结果,确定在预定时长内多台计算设备基于预定时间间隔的可用性信息;以及
业务分配模块,用于根据基于预定时间间隔的可用性信息,重新分配每台计算设备各自承载的数据业务。
本发明的实施例中,通过对集群式计算设备中的每台机器设备的多项预定监控项进行监控,并对不同类型的预定监控项的监控数据进行不同的分析来判断机器的可用性信息,根据基于时间特性的机器的可用性信息对集群中多台计算设备所承载的数据业务重新进行合理的分配,确保数据业在已有计算设备中的合理分配,对多台计算机器分配数据业务并运行一段时间之后,可重新调整分配计算设备各自承载的数据业务,提升系统的自动化运维水平,节约人力成本。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明中基于集群监控分配数据业务的方法一个实施例的流程示意图;
图2为本发明中基于集群监控分配数据业务的方法一个优选实施例的流程示意图
图3为本发明中基于集群监控分配数据业务的装置一个实施例的结构示意图;
图4为本发明中基于集群监控分配数据业务的装置一个优选实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
在上下文中所称“计算设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的存续指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。计算设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。
本发明的实施例中,所述计算设备可为网络服务器,所述多个计算设备可组成的服务器组或大规模服务器集群。
图1为本发明中基于集群监控分配数据业务的方法一个实施例的流程示意图。
步骤S110:以预定监控频率监控并采集在预定时长内多台计算设备多个预定监控项的监控数据,其中,每台计算设备各自承载相应的数据业务;步骤S120:基于预定时间间隔对采集到的在预定时长内每台计算设备的每个预定监控项的监控数据进行分析处理,确定每台计算设备的监控分析结果;步骤S130:根据监控分析结果,确定在预定时长内多台计算设备基于预定时间间隔的可用性信息;步骤S140:根据基于预定时间间隔的可用性信息,重新分配每台计算设备各自承载的数据业务。
本发明的实施例中,通过对集群式计算设备中的每台机器设备的多项预定监控项进行监控,并对不同类型的预定监控项的监控数据进行不同的分析来判断机器的可用性信息,根据基于时间特性的机器的可用性信息对集群中多台计算设备所承载的数据业务重新进行合理的分配,确保数据业在已有计算设备中的合理分配,对多台计算机器分配数据业务并运行一段时间之后,可重新调整分配计算设备各自承载的数据业务,提升系统的自动化运维水平,节约人力成本。
步骤S110:以预定监控频率监控并采集在预定时长内多台计算设备多个预定监控项的监控数据,其中,每台计算设备各自承载相应的数据业务。
每台计算设备可承载相应的一种或多种数据业务,为前端服务器提供数据服务支持。
其中,监控并采集监控数据的方式包括但不限于:
ganglia监控方式;zabbix监控方式;nagios监控方式。
其中,预定监控项包括但不限于:
CPU负载率;可用磁盘容量;I/O数量,即每秒对磁盘读写总次数;网络流量;内存占用率。
在此,预定监控项可为管理员在监控之前根据监控需求预先设置的。
例如,通过ganglia监控方式,以每30分钟一次的预定监控频率监控并采集在3个月内多台计算设备的CPU负载率、可用磁盘容量、I/O数量、网络流量及内存占用率等多个预定监控项的监控数据。
可选地,步骤S110之前,在多个计算设备上分别部署监控工具,在执行监控步骤时,启动监控工具,并通过监控工具执行多个预定监控项的监控数据监控及采集。
具体地,通过自动化配置和管理工具进行监控工具的部署,如SaltStack自动化工具在多个计算设备上批量部署监控工具ganglia。
步骤S120:基于预定时间间隔对采集到的在预定时长内每台计算设备的每个预定监控项的监控数据进行分析处理,确定每台计算设备的监控分析结果。
例如,基于每小时分析一次的预定时间间隔,对采集到的在3个月内每台计算设备的每个预定监控项的监控数据进行分析处理,确定在3个月内每台计算设备每小时的监控分析结果。
如图2所示,基于预定时间间隔对采集到的在预定时长内每台计算设备的每个预定监控项的监控数据进行分析处理,确定每台计算设备的监控分析结果的步骤具体包括步骤S221和步骤S222;步骤S221:基于预定时间间隔对采集到的在预定时长内每台计算设备的每个预定监控项的监控数据进行计算处理,确定与每个预定监控项相应的测评值;步骤S222:将与每个预定监控项相应的测评值与该预定监控项的预设阈值进行比较,确定在预定时长内每台计算设备相应的基于预定时间间隔的预定监控项的监控分析结果。
具体地,对每台计算设备的每个预定监控项,将采集到的在预定时长内的监控数据以预定时间间隔内进行贝叶斯分析,计算确定与每个预定监控项相应的测评值;例如,将采集到的在3个月内的任一预定监控项的监控数据以每小时一次的计算频率进行贝叶斯分析,计算确定每小时该预定监控项相应的测评值;将每个预定监控项相应的测评值与该预定监控项的预设阈值进行比较,根据比较结果确定在预定时长内每台计算设备相应的基于预定时间间隔的预定监控项的监控分析结果。
更具体地,计算测评值及相应的确定监控分析结果的方式包括:
1)基于预定时间间隔对采集到的在预定时长内的CPU负载率进行平均值计算,确定相应的测评值为CPU负载率平均值;当在预定时间间隔内CPU负载率平均值大于CPU负载率阈值时,确定在该预定时间间隔内该计算设备的CPU负载率属于非正常状态;
例如,对采集到的在3个月内CPU负载率以每小时为单位进行平均值计算,确定相应的测评值为3个月内每小时CPU负载率平均值;比较每一每小时CPU负载率平均值与CPU负载率阈值的大小,当任一小时CPU负载率平均值大于CPU负载率阈值时,在该一小时内该计算设备的CPU负载率属于非正常状态;
2)基于预定时间间隔对采集到的在预定时长内的可用磁盘容量进行最大值计算,确定相应测评值为可用磁盘容量最大值;当在预定时间间隔内可用磁盘容量最大值小于磁盘容量阈值时,确定在该预定时间间隔内该计算设备的可用磁盘容量属于非正常状态;
例如,对采集到的在3个月内可用磁盘容量以每小时为单位进行最大值计算,确定相应的测评值为3个月内每小时可用磁盘容量最大值;比较每一每小时可用磁盘容量最大值与可用磁盘容量阈值的大小,当任一小时可用磁盘容量最大值小于磁盘容量阈值时,在该一小时内该计算设备的可用磁盘容量属于非正常状态;
3)基于预定时间间隔对采集到的在预定时长内的I/O数量进行平均值计算,确定相应的测评值为I/O平均值;当在预定时间间隔内I/O平均值大于I/O阈值时,确定在该预定时间间隔内该计算设备的I/O数量属于非正常状态;
例如,对采集到的在3个月内I/O数量以每小时为单位进行平均值计算,确定相应的测评值为3个月内每小时I/O数量平均值;比较每一每小时I/O数量平均值与I/O阈值的大小,当任一小时I/O平均值大于I/O阈值时,在该一小时内该计算设备的I/O数量属于非正常状态;
4)基于预定时间间隔对采集到的在预定时长内的网络流量进行最大值计算,确定相应的测评值为网络流量最大值;当在预定时间间隔内网络流量最大值大于网络流量阈值时,确定在该预定时间间隔内该计算设备的网络流量属于非正常状态;
例如,对采集到的在3个月内网络流量以每小时为单位进行最大值计算,确定相应的测评值为3个月内每小时网络流量最大值;比较每一每小时网络流量最大值与网络流量阈值的大小,当任一小时网络流量最大值大于网络流量阈值时,在该一小时内该计算设备的网络流量属于非正常状态;
5)基于预定时间间隔对采集到的在预定时长内的内存占用率进行最大值计算,确定相应的测评值为内存占用率最大值;当在预定时间间隔内内存占用率最大值大于内存占用率阈值时,确定在该预定时间间隔内该计算设备的内存属于非正常状态。
例如,对采集到的在3个月内内存占用率以每小时为单位进行最大值计算,确定相应的测评值为3个月内每小时内存占用率最大值;比较每一每小时内存占用率最大值与内存占用率阈值的大小,当任一小时内存占用率最大值大于内存占用率阈值时,在该一小时内该计算设备的内存占用率属于非正常状态。
步骤S130:根据监控分析结果,确定在预定时长内多台计算设备基于预定时间间隔的可用性信息。
具体地,在预定时长内多台计算设备基于预定时间间隔的可用性信息,包括以下情形:
当在预定时间间隔内一台计算设备的多个预定监控项均属于正常状态,则该计算设备在该预定时间间隔内为可用设备;或者
当在预定时间间隔内一台计算设备的任一预定监控项属于非正常状态,则该计算设备在该预定时间间隔内为不可用设备。
可选地,对于一台计算设备,如果在步骤S110中采集数据失败,即未采集到在预定时长内任一预定监控项的监控数据时,确定该计算设备的可用性为未知;需要检测监控工具是否异常,当监控工具恢复正常时,重新执行步骤S110、步骤S120和步骤S130来判断该计算设备的可用性。
可选地,对于一台计算设备,如果在步骤S110中采集数据有误时,即采集到在预定时长内任一预定监控项的监控数据与正常监控数据有较大偏差时,确定该计算设备的可用性为待定;需要重新执行步骤S110、步骤S120和步骤S130来采集监控数据从而判断该计算设备的可用性。
步骤S140:根据基于预定时间间隔的可用性信息,重新分配每台计算设备各自承载的数据业务。
具体地,重新分配每台计算设备各自承载的数据业务的方式,包括以下至少一种情形:
根据基于预定时间间隔的可用性信息,分配新的数据业务至相应的计算设备;
根据基于预定时间间隔的可用性信息,在多台计算设备中对其各自承载相应的数据业务重新调整分配。
例如,机器A承载2个数据业务,机器B承载3个数据业务;对三个月内的机器A及机器B每小时的可用性进行分析,确定机器A在每天8点-16点之间为不可用设备,在每天16点-第二天8点为可用设备,且机器B在每天8点-16点之间为可用设备,在每天16点-第二天8点为不可用设备;则可对机器A和机器B中的承载业务重新调整分配,将机器A承载的2个数据业务及机器B承载的3个数据业务全部放置机器A上或机器B上;重新分配数据业务后节省了一台机器资源。
又例如,机器A在每天8点-16点之间为不可用设备,在每天16点-第二天8点为可用设备,一个新的数据业务的运行时间为每天18点-第二天6点,其运行时间包含在机器A为可用设备的时间区间内,则将该新的数据业务分配至机器A;新增数据业务后无需新增一台机器,节省了机器资源。
优选地,重新分配每台计算设备各自承载的数据业务后,每台计算设备的每个预定监控项的监控数据不超过该预定监控项相应的预设阈值。
例如,机器A在每天8点-16点之间为不可用设备,在每天16点-第二天8点为可用设备,在该时段内使用I/O数量为6G,与I/O数量相应的预设阈值为10G,则可分配至机器A一个新的数据业务,该新的数据业务的运行时间在每天16点-第二天8点内,且在该时段内使用I/O数量不超过4G。
优选地(参照图1),该方法还包括步骤S150(图中未示出);步骤S150:创建监控数据库,并将采集到的多台计算设备的多个预定监控项的监控数据、相应的监控数据采集的时间信息、监控分析结果及基于预定时间间隔的可用性信息保存至监控数据库。
具体地,为监控系统创建监控数据库,其中,监控数据库优选为MongoDB,并将采集到的多台计算设备的多个预定监控项的监控数据、相应的监控数据采集的时间信息、监控分析结果及基于预定时间间隔的可用性信息相关联地保存至监控数据库。其中,监控数据采集的时间信息可包括监控数据采集时间起始点、监控数据采集时长中的至少一个,而存储监控数据采集的时间信息是用于辨识基于预定时间间隔的数据信息的有效性。
本优选实施例中,在硬件设备相对空闲时,可预先基于采集到的多台计算设备的多个预定监控项的监控数据分析确定监控分析结果及基于预定时间间隔的可用性信息,并将上述信息保存于监控数据库中。当接收到来自系统管理员的业务分配触发操作或基于预定的业务分配设置,执行根据基于预定时间间隔的可用性信息重新分配每台计算设备各自承载的数据业务的步骤;即重新分配业务不实时进行,可响应于后续的分配需求从监控数据库中提取相关数据再进行数据业务的重新分配。
图3为本发明中基于集群监控分配数据业务的装置一个实施例的结构示意图。
监控模块310以预定监控频率监控并采集在预定时长内多台计算设备多个预定监控项的监控数据,其中,每台计算设备各自承载相应的数据业务;分析模块320基于预定时间间隔对采集到的在预定时长内每台计算设备的每个预定监控项的监控数据进行分析处理,确定每台计算设备的监控分析结果;可用性确定模块330根据监控分析结果,确定在预定时长内多台计算设备基于预定时间间隔的可用性信息;业务分配模块340根据基于预定时间间隔的可用性信息,重新分配每台计算设备各自承载的数据业务。
本发明的实施例中,通过对集群式计算设备中的每台机器设备的多项预定监控项进行监控,并对不同类型的预定监控项的监控数据进行不同的分析来判断机器的可用性信息,根据基于时间特性的机器的可用性信息对集群中多台计算设备所承载的数据业务重新进行合理的分配,确保数据业在已有计算设备中的合理分配,提升系统的自动化运维水平,节约人力成本。
监控模块310以预定监控频率监控并采集在预定时长内多台计算设备多个预定监控项的监控数据,其中,每台计算设备各自承载相应的数据业务。
每台计算设备可承载相应的一种或多种数据业务,为前端服务器提供数据服务支持。
其中,监控并采集监控数据的方式包括但不限于:
ganglia监控方式;zabbix监控方式;nagios监控方式。
其中,预定监控项包括但不限于:
CPU负载率;可用磁盘容量;I/O数量,即每秒对磁盘读写总次数;网络流量;内存占用率。
在此,预定监控项可为管理员在监控之前根据监控需求预先设置的。
例如,通过ganglia监控方式,以每30分钟一次的预定监控频率监控并采集在3个月内多台计算设备的CPU负载率、可用磁盘容量、I/O数量、网络流量及内存占用率等多个预定监控项的监控数据。
可选地,监控模块310监控并采集监控数据之前,在多个计算设备上分别部署监控工具,在执行监控步骤时,启动监控工具,并通过监控工具执行多个预定监控项的监控数据监控及采集。
具体地,通过自动化配置和管理工具进行监控工具的部署,如SaltStack自动化工具在多个计算设备上批量部署监控工具ganglia。
分析模块320基于预定时间间隔对采集到的在预定时长内每台计算设备的每个预定监控项的监控数据进行分析处理,确定每台计算设备的监控分析结果。
例如,基于每小时分析一次的预定时间间隔,对采集到的在3个月内每台计算设备的每个预定监控项的监控数据进行分析处理,确定在3个月内每台计算设备每小时的监控分析结果。
如图4所示,分析模块包括计算单元421和比较单元422;计算单元421基于预定时间间隔对采集到的在预定时长内每台计算设备的每个预定监控项的监控数据进行计算处理,确定与每个预定监控项相应的测评值;比较单元422将与每个预定监控项相应的测评值与该预定监控项的预设阈值进行比较,确定在预定时长内每台计算设备相应的基于预定时间间隔的预定监控项的监控分析结果。
具体地,对每台计算设备的每个预定监控项,将采集到的在预定时长内的监控数据以预定时间间隔内进行贝叶斯分析,计算确定与每个预定监控项相应的测评值;例如,将采集到的在3个月内的任一预定监控项的监控数据以每小时一次的计算频率进行贝叶斯分析,计算确定每小时该预定监控项相应的测评值;将每个预定监控项相应的测评值与该预定监控项的预设阈值进行比较,根据比较结果确定在预定时长内每台计算设备相应的基于预定时间间隔的预定监控项的监控分析结果。
更具体地,计算测评值及相应的确定监控分析结果的方式包括:
1)基于预定时间间隔对采集到的在预定时长内的CPU负载率进行平均值计算,确定相应的测评值为CPU负载率平均值;当在预定时间间隔内CPU负载率平均值大于CPU负载率阈值时,确定在该预定时间间隔内该计算设备的CPU负载率属于非正常状态;
例如,对采集到的在3个月内CPU负载率以每小时为单位进行平均值计算,确定相应的测评值为3个月内每小时CPU负载率平均值;比较每一每小时CPU负载率平均值与CPU负载率阈值的大小,当任一小时CPU负载率平均值大于CPU负载率阈值时,在该一小时内该计算设备的CPU负载率属于非正常状态;
2)基于预定时间间隔对采集到的在预定时长内的可用磁盘容量进行最大值计算,确定相应测评值为可用磁盘容量最大值;当在预定时间间隔内可用磁盘容量最大值小于磁盘容量阈值时,确定在该预定时间间隔内该计算设备的可用磁盘容量属于非正常状态;
例如,对采集到的在3个月内可用磁盘容量以每小时为单位进行最大值计算,确定相应的测评值为3个月内每小时可用磁盘容量最大值;比较每一每小时可用磁盘容量最大值与可用磁盘容量阈值的大小,当任一小时可用磁盘容量最大值小于磁盘容量阈值时,在该一小时内该计算设备的可用磁盘容量属于非正常状态;
3)基于预定时间间隔对采集到的在预定时长内的I/O数量进行平均值计算,确定相应的测评值为I/O平均值;当在预定时间间隔内I/O平均值大于I/O阈值时,确定在该预定时间间隔内该计算设备的I/O数量属于非正常状态;
例如,对采集到的在3个月内I/O数量以每小时为单位进行平均值计算,确定相应的测评值为3个月内每小时I/O数量平均值;比较每一每小时I/O数量平均值与I/O阈值的大小,当任一小时I/O平均值大于I/O阈值时,在该一小时内该计算设备的I/O数量属于非正常状态;
4)基于预定时间间隔对采集到的在预定时长内的网络流量进行最大值计算,确定相应的测评值为网络流量最大值;当在预定时间间隔内网络流量最大值大于网络流量阈值时,确定在该预定时间间隔内该计算设备的网络流量属于非正常状态;
例如,对采集到的在3个月内网络流量以每小时为单位进行最大值计算,确定相应的测评值为3个月内每小时网络流量最大值;比较每一每小时网络流量最大值与网络流量阈值的大小,当任一小时网络流量最大值大于网络流量阈值时,在该一小时内该计算设备的网络流量属于非正常状态;
5)基于预定时间间隔对采集到的在预定时长内的内存占用率进行最大值计算,确定相应的测评值为内存占用率最大值;当在预定时间间隔内内存占用率最大值大于内存占用率阈值时,确定在该预定时间间隔内该计算设备的内存属于非正常状态。
例如,对采集到的在3个月内内存占用率以每小时为单位进行最大值计算,确定相应的测评值为3个月内每小时内存占用率最大值;比较每一每小时内存占用率最大值与内存占用率阈值的大小,当任一小时内存占用率最大值大于内存占用率阈值时,在该一小时内该计算设备的内存占用率属于非正常状态。
可用性确定模块330根据监控分析结果,确定在预定时长内多台计算设备基于预定时间间隔的可用性信息。
具体地,在预定时长内多台计算设备基于预定时间间隔的可用性信息,包括以下情形:
当在预定时间间隔内一台计算设备的多个预定监控项均属于正常状态,则该计算设备在该预定时间间隔内为可用设备;或者
当在预定时间间隔内一台计算设备的任一预定监控项属于非正常状态,则该计算设备在该预定时间间隔内为不可用设备。
可选地,对于一台计算设备,如果在步骤S110中采集数据失败,即未采集到在预定时长内任一预定监控项的监控数据时,确定该计算设备的可用性为未知;需要检测监控工具是否异常,当监控工具恢复正常时,重新执行步骤S110、步骤S120和步骤S130来判断该计算设备的可用性。
可选地,对于一台计算设备,如果在步骤S110中采集数据有误时,即采集到在预定时长内任一预定监控项的监控数据与正常监控数据有较大偏差时,确定该计算设备的可用性为待定;需要重新执行步骤S110、步骤S120和步骤S130来采集监控数据从而判断该计算设备的可用性。
业务分配模块340根据基于预定时间间隔的可用性信息,重新分配每台计算设备各自承载的数据业务。
具体地,重新分配每台计算设备各自承载的数据业务的方式,包括以下至少一种情形:
根据基于预定时间间隔的可用性信息,分配新的数据业务至相应的计算设备;
根据基于预定时间间隔的可用性信息,在多台计算设备中对其各自承载相应的数据业务重新调整分配。
例如,机器A承载2个数据业务,机器B承载3个数据业务;对三个月内的机器A及机器B每小时的可用性进行分析,确定机器A在每天8点-16点之间为不可用设备,在每天16点-第二天8点为可用设备,且机器B在每天8点-16点之间为可用设备,在每天16点-第二天8点为不可用设备;则可对机器A和机器B中的承载业务重新调整分配,将机器A承载的2个数据业务及机器B承载的3个数据业务全部放置机器A上或机器B上;重新分配数据业务后节省了一台机器资源。
又例如,机器A在每天8点-16点之间为不可用设备,在每天16点-第二天8点为可用设备,一个新的数据业务的运行时间为每天18点-第二天6点,其运行时间包含在机器A为可用设备的时间区间内,则将该新的数据业务分配至机器A;新增数据业务后无需新增一台机器,节省了机器资源。
优选地,重新分配每台计算设备各自承载的数据业务后,每台计算设备的每个预定监控项的监控数据不超过该预定监控项相应的预设阈值。
例如,机器A在每天8点-16点之间为不可用设备,在每天16点-第二天8点为可用设备,在该时段内使用I/O数量为6G,与I/O数量相应的预设阈值为10G,则可分配至机器A一个新的数据业务,该新的数据业务的运行时间在每天16点-第二天8点内,且在该时段内使用I/O数量不超过4G。
优选地(参照图3),该装置还包括数据库创建模块(图中未示出);数据库创建模块创建监控数据库,并将采集到的多台计算设备的多个预定监控项的监控数据、相应的监控数据采集的时间信息、监控分析结果及基于预定时间间隔的可用性信息保存至监控数据库。
具体地,为监控系统创建监控数据库,其中,监控数据库优选为MongoDB,并将采集到的多台计算设备的多个预定监控项的监控数据、相应的监控数据采集的时间信息、监控分析结果及基于预定时间间隔的可用性信息相关联地保存至监控数据库。其中,监控数据采集的时间信息可包括监控数据采集时间起始点、监控数据采集时长中的至少一个,而存储监控数据采集的时间信息是用于辨识基于预定时间间隔的数据信息的有效性。
本优选实施例中,在硬件设备相对空闲时,可预先基于采集到的多台计算设备的多个预定监控项的监控数据分析确定监控分析结果及基于预定时间间隔的可用性信息,并将上述信息保存于监控数据库中。当接收到来自系统管理员的业务分配触发操作或基于预定的业务分配设置时,再根据基于预定时间间隔的可用性信息重新分配每台计算设备各自承载的数据业务;即重新分配业务不实时进行,可响应于后续的分配需求从监控数据库中提取相关数据再进行数据业务的重新分配。
本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable ProgrammableRead-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于集群监控分配数据业务的方法,其特征在于,包括:
以预定监控频率监控并采集在预定时长内多台计算设备多个预定监控项的监控数据,其中,每台计算设备各自承载相应的数据业务;
基于预定时间间隔对采集到的在预定时长内每台计算设备的每个预定监控项的监控数据进行分析处理,确定每台计算设备的监控分析结果;
根据所述监控分析结果,确定在预定时长内所述多台计算设备基于预定时间间隔的可用性信息;以及
根据所述基于预定时间间隔的可用性信息,重新分配每台计算设备各自承载的数据业务。
2.根据权利要求1所述的基于集群监控分配数据业务的方法,其中,基于预定时间间隔对采集到的在预定时长内每台计算设备的每个预定监控项的监控数据进行分析处理,确定每台计算设备的监控分析结果的步骤,进一步包括:
基于预定时间间隔对采集到的在预定时长内每台计算设备的每个预定监控项的监控数据进行计算处理,确定与每个预定监控项相应的测评值;
将与每个预定监控项相应的测评值与该预定监控项的预设阈值进行比较,确定在预定时长内每台计算设备相应的基于预定时间间隔的预定监控项的监控分析结果。
3.根据权利要求2所述的基于集群监控分配数据业务的方法,其中,基于预定时间间隔对采集到的在预定时长内每台计算设备的每个预定监控项的监控数据进行计算处理,确定与每个预定监控项相应的测评值,具体包括以下至少一种情形:
基于预定时间间隔对采集到的在预定时长内的CPU负载率进行平均值计算,确定相应的测评值为CPU负载率平均值;
基于预定时间间隔对采集到的在预定时长内的可用磁盘容量进行最大值计算,确定相应测评值为可用磁盘容量最大值;
基于预定时间间隔对采集到的在预定时长内的每秒I/O数量进行平均值计算,确定相应的测评值为每秒I/O平均值;
基于预定时间间隔对采集到的在预定时长内的网络流量进行最大值计算,确定相应的测评值为网络流量最大值;
基于预定时间间隔对采集到的在预定时长内的内存占用率进行最大值计算,确定相应的测评值为内存占用率最大值。
4.根据权利要求3所述的基于集群监控分配数据业务的方法,其中,将与每个预定监控项相应的测评值与该预定监控项的预设阈值进行比较,确定在预定时长内每台计算设备相应的基于预定时间间隔的预定监控项的监控分析结果,具体包括以下至少一项:
当在预定时间间隔内CPU负载率平均值大于CPU负载率阈值时,确定在该预定时间间隔内该计算设备的CPU负载率属于非正常状态;
当在预定时间间隔内可用磁盘容量最大值小于磁盘容量阈值时,确定在该预定时间间隔内该计算设备的可用磁盘容量属于非正常状态;
当在预定时间间隔内每秒I/O平均值大于I/O阈值时,确定在该预定时间间隔内该计算设备的每秒I/O数量属于非正常状态;
当在预定时间间隔内网络流量最大值大于网络流量阈值时,确定在该预定时间间隔内该计算设备的网络流量属于非正常状态;
当在预定时间间隔内内存占用率最大值大于内存占用率阈值时,确定在该预定时间间隔内该计算设备的内存属于非正常状态。
5.根据权利要求1-4任一项所述的基于集群监控分配数据业务的方法,根据所述基于预定时间间隔的可用性信息,重新分配每台计算设备各自承载的数据业务的步骤,包括以下至少一种情形:
根据所述基于预定时间间隔的可用性信息,分配新的数据业务至相应的计算设备;
根据所述基于预定时间间隔的可用性信息,在所述多台计算设备中对其各自承载相应的数据业务重新调整分配。
6.一种基于集群监控分配数据业务的装置,其特征在于,包括:
监控模块,用于以预定监控频率监控并采集在预定时长内多台计算设备多个预定监控项的监控数据,其中,每台计算设备各自承载相应的数据业务;
分析模块,用于基于预定时间间隔对采集到的在预定时长内每台计算设备的每个预定监控项的监控数据进行分析处理,确定每台计算设备的监控分析结果;
可用性确定模块,用于根据所述监控分析结果,确定在预定时长内所述多台计算设备基于预定时间间隔的可用性信息;以及
业务分配模块,用于根据所述基于预定时间间隔的可用性信息,重新分配每台计算设备各自承载的数据业务。
7.根据权利要求6所述的基于集群监控分配数据业务的装置,其中,所述分析模块具体包括:
计算单元,用于基于预定时间间隔对采集到的在预定时长内每台计算设备的每个预定监控项的监控数据进行计算处理,确定与每个预定监控项相应的测评值;
比较单元,用于将与每个预定监控项相应的测评值与该预定监控项的预设阈值进行比较,确定在预定时长内每台计算设备相应的基于预定时间间隔的预定监控项的监控分析结果。
8.根据权利要求7所述的基于集群监控分配数据业务的装置,其中,所述计算单元具体用于以下至少一种情形:
基于预定时间间隔对采集到的在预定时长内的CPU负载率进行平均值计算,确定相应的测评值为CPU负载率平均值;
基于预定时间间隔对采集到的在预定时长内的可用磁盘容量进行最大值计算,确定相应测评值为可用磁盘容量最大值;
基于预定时间间隔对采集到的在预定时长内的每秒I/O数量进行平均值计算,确定相应的测评值为每秒I/O平均值;
基于预定时间间隔对采集到的在预定时长内的网络流量进行最大值计算,确定相应的测评值为网络流量最大值;
基于预定时间间隔对采集到的在预定时长内的内存占用率进行最大值计算,确定相应的测评值为内存占用率最大值。
9.根据权利要求8所述的基于集群监控分配数据业务的装置,其中,所述比较单元具体用于以下至少一种情形:
当在预定时间间隔内CPU负载率平均值大于CPU负载率阈值时,确定在该预定时间间隔内该计算设备的CPU负载率属于非正常状态;
当在预定时间间隔内可用磁盘容量最大值小于磁盘容量阈值时,确定在该预定时间间隔内该计算设备的可用磁盘容量属于非正常状态;
当在预定时间间隔内每秒I/O平均值大于I/O阈值时,确定在该预定时间间隔内该计算设备的每秒I/O数量属于非正常状态;
当在预定时间间隔内网络流量最大值大于网络流量阈值时,确定在该预定时间间隔内该计算设备的网络流量属于非正常状态;
当在预定时间间隔内内存占用率最大值大于内存占用率阈值时,确定在该预定时间间隔内该计算设备的内存属于非正常状态。
10.根据权利要求6-9任一项所述的基于集群监控分配数据业务的装置,所述业务分配模块用于以下至少一种情形:
根据所述基于预定时间间隔的可用性信息,分配新的数据业务至相应的计算设备;
根据所述基于预定时间间隔的可用性信息,在所述多台计算设备中对其各自承载相应的数据业务重新调整分配。
CN201510317063.4A 2015-06-10 2015-06-10 基于集群监控分配数据业务方法及装置 Active CN104917639B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510317063.4A CN104917639B (zh) 2015-06-10 2015-06-10 基于集群监控分配数据业务方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510317063.4A CN104917639B (zh) 2015-06-10 2015-06-10 基于集群监控分配数据业务方法及装置

Publications (2)

Publication Number Publication Date
CN104917639A true CN104917639A (zh) 2015-09-16
CN104917639B CN104917639B (zh) 2018-07-03

Family

ID=54086367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510317063.4A Active CN104917639B (zh) 2015-06-10 2015-06-10 基于集群监控分配数据业务方法及装置

Country Status (1)

Country Link
CN (1) CN104917639B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777022A (zh) * 2016-12-08 2017-05-31 浪潮电子信息产业股份有限公司 一种基于对比模式实现服务器硬件资源智能化分配的方法
CN107196873A (zh) * 2016-03-15 2017-09-22 阿里巴巴集团控股有限公司 一种分布式集群的业务请求发送方法及装置
CN107391633A (zh) * 2017-06-30 2017-11-24 北京奇虎科技有限公司 数据库集群自动优化处理方法、装置及服务器
CN108092815A (zh) * 2017-12-22 2018-05-29 合肥寰景信息技术有限公司 一种多通道并行处理信号集群性能监测方法
CN108509634A (zh) * 2018-04-10 2018-09-07 深信服科技股份有限公司 抖动故障监测方法、监测装置及计算机可读存储介质
CN108805778A (zh) * 2018-04-28 2018-11-13 平安科技(深圳)有限公司 电子装置、采集征信数据的方法及存储介质
CN111598449A (zh) * 2020-05-15 2020-08-28 安阳工学院 一种城乡规划监控管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101601014A (zh) * 2006-12-12 2009-12-09 Lsi公司 利用存储负载信息来平衡集群虚拟机
CN102117225A (zh) * 2009-12-31 2011-07-06 上海可鲁系统软件有限公司 一种工业自动化多点集群系统及其任务管理方法
CN102694868A (zh) * 2012-06-07 2012-09-26 浪潮电子信息产业股份有限公司 一种集群系统实现及任务动态分配方法
CN103731295A (zh) * 2012-10-11 2014-04-16 国际商业机器公司 用于运行虚拟整合设备的方法和系统
CN104679594A (zh) * 2015-03-19 2015-06-03 成都艺辰德迅科技有限公司 一种中间件分布式计算方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101601014A (zh) * 2006-12-12 2009-12-09 Lsi公司 利用存储负载信息来平衡集群虚拟机
CN102117225A (zh) * 2009-12-31 2011-07-06 上海可鲁系统软件有限公司 一种工业自动化多点集群系统及其任务管理方法
CN102694868A (zh) * 2012-06-07 2012-09-26 浪潮电子信息产业股份有限公司 一种集群系统实现及任务动态分配方法
CN103731295A (zh) * 2012-10-11 2014-04-16 国际商业机器公司 用于运行虚拟整合设备的方法和系统
CN104679594A (zh) * 2015-03-19 2015-06-03 成都艺辰德迅科技有限公司 一种中间件分布式计算方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107196873A (zh) * 2016-03-15 2017-09-22 阿里巴巴集团控股有限公司 一种分布式集群的业务请求发送方法及装置
CN107196873B (zh) * 2016-03-15 2020-07-31 阿里巴巴集团控股有限公司 一种分布式集群的业务请求发送方法及装置
CN106777022A (zh) * 2016-12-08 2017-05-31 浪潮电子信息产业股份有限公司 一种基于对比模式实现服务器硬件资源智能化分配的方法
CN106777022B (zh) * 2016-12-08 2018-08-14 浪潮电子信息产业股份有限公司 一种基于对比模式实现服务器硬件资源智能化分配的方法
CN107391633A (zh) * 2017-06-30 2017-11-24 北京奇虎科技有限公司 数据库集群自动优化处理方法、装置及服务器
CN108092815A (zh) * 2017-12-22 2018-05-29 合肥寰景信息技术有限公司 一种多通道并行处理信号集群性能监测方法
CN108509634A (zh) * 2018-04-10 2018-09-07 深信服科技股份有限公司 抖动故障监测方法、监测装置及计算机可读存储介质
CN108805778A (zh) * 2018-04-28 2018-11-13 平安科技(深圳)有限公司 电子装置、采集征信数据的方法及存储介质
CN108805778B (zh) * 2018-04-28 2023-11-24 平安科技(深圳)有限公司 电子装置、采集征信数据的方法及存储介质
CN111598449A (zh) * 2020-05-15 2020-08-28 安阳工学院 一种城乡规划监控管理系统

Also Published As

Publication number Publication date
CN104917639B (zh) 2018-07-03

Similar Documents

Publication Publication Date Title
CN104917639A (zh) 基于集群监控分配数据业务方法及装置
CN104917836A (zh) 基于集群监控分析计算设备可用性的方法及装置
CN110442498B (zh) 异常数据节点的定位方法、装置、存储介质及计算机设备
CN105631026A (zh) 一种安全数据分析系统
CN105049268A (zh) 分布式计算资源分配系统和任务处理方法
CN103186603B (zh) 确定sql语句对关键业务的性能的影响的方法、系统和设备
CN107203552B (zh) 垃圾回收方法及装置
CN103685459A (zh) 分布式系统、服务器计算机、分布式管理服务器和故障防止方法
CN103502990A (zh) 用于事件的内存中处理的系统和方法
CN102724313A (zh) 基于云计算的集群式桥梁运营安全监控系统
CN105556499A (zh) 智能自动缩放
CN106502871A (zh) 监管系统的告警阈值动态配置系统及方法
CN102223254A (zh) 监控系统及方法
CN102056200A (zh) 一种业务处理流程监控方法和系统
CN114896166A (zh) 场景库构建方法、装置、电子设备及存储介质
CN112579692A (zh) 一种数据同步方法、装置、系统、设备及存储介质
CN110955516B (zh) 批量任务处理方法、装置、计算机设备和存储介质
CN104967532A (zh) Toc技术运维系统及应用方法
CN112286762A (zh) 基于云环境的系统信息分析方法、装置、电子设备及介质
CN108920098A (zh) 一种存储管理系统收集信息的方法、系统及设备
CN108989116B (zh) 大数据收集分析系统及方法
CN105740054A (zh) 一种虚拟机管理方法及装置
CN114463096A (zh) 一种信息配对方法、装置、设备及介质
US20140165058A1 (en) System resource management method for virtual system
CN113419852A (zh) 微服务的请求响应方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220727

Address after: 300450 No. 9-3-401, No. 39, Gaoxin 6th Road, Binhai Science Park, Binhai New Area, Tianjin

Patentee after: 3600 Technology Group Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230627

Address after: 1765, floor 17, floor 15, building 3, No. 10 Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: Beijing Hongxiang Technical Service Co.,Ltd.

Address before: 300450 No. 9-3-401, No. 39, Gaoxin 6th Road, Binhai Science Park, Binhai New Area, Tianjin

Patentee before: 3600 Technology Group Co.,Ltd.