CN103795575B - 一种面向多数据中心的系统监控方法 - Google Patents

一种面向多数据中心的系统监控方法 Download PDF

Info

Publication number
CN103795575B
CN103795575B CN201410048686.1A CN201410048686A CN103795575B CN 103795575 B CN103795575 B CN 103795575B CN 201410048686 A CN201410048686 A CN 201410048686A CN 103795575 B CN103795575 B CN 103795575B
Authority
CN
China
Prior art keywords
management
equipment
service end
monitoring
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410048686.1A
Other languages
English (en)
Other versions
CN103795575A (zh
Inventor
刘变红
袁鹏飞
吴庆民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201410048686.1A priority Critical patent/CN103795575B/zh
Publication of CN103795575A publication Critical patent/CN103795575A/zh
Application granted granted Critical
Publication of CN103795575B publication Critical patent/CN103795575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Computer And Data Communications (AREA)

Abstract

本发明提供一种面向多数据中心的系统监控方法,采用管理者和代理的方式,这里的管理者是指管理客户端、代理是指管理服务端,其中管理服务端采集存储设备所有的参数、状态信息,并将信息上报至管理客户端;管理客户端提供人机操作界面,同时将控制命令发送到管理服务端,再由管理服务端对设备进行统一的分发控制,这里的监控包括:中心资源对象状态信息监控和管理服务器之间状态监控。该一种面向多数据中心的系统监控方法和现有技术相比,实现容量预估功能,为用户决定是否添加设备提供有价值的参考;提高数据中心存储系统的更加有效的数据支撑能力和利用效率,实用性强,易于推广。

Description

一种面向多数据中心的系统监控方法
技术领域
本发明涉及计算机技术领域,具体的说是一种面向多数据中心的系统监控方法。
背景技术
要实现对多个数据中心的数据存储进行监控管理,客户数据中心现在以及未来均将呈现出存储系统的多元化趋势,多元化包括存储设备的多元化、存储网络的多元化、数据类型的多元化等。为了对多元化的环境进行系统监控分析及实现用户方便管理,可以采用面向对象的设计思想,将存储环境理解成是由大量的对象组成的。这些对象即是统一存储管理软件需要元素。而存储系统的多元化趋势,增大了管理难度和维护成本。为了提高数据中心存储系统的更加有效的数据支撑能力和利用效率,并最大限度的在保证存储系统满足应用需求的前提下降低总体拥有成本。本发明提供一种面向多数据中心的系统监控方法。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种面向多数据中心的系统监控方法。
本发明的技术方案是按以下方式实现的,该一种面向多数据中心的系统监控方法,采用管理者和代理的方式,这里的管理者是指管理客户端、代理是指管理服务端,其中管理服务端采集存储设备所有的参数、状态信息,并将信息上报至管理客户端;管理客户端提供人机操作界面,同时将控制命令发送到管理服务端,再由管理服务端对设备进行统一的分发控制;
管理者和代理采用面向对象的观点对多数据中心的数据存储管理对象进行监控,提供设备监控和健康状态分析的统一视图,这里的监控包括:中心资源对象状态信息监控,通过定期离散的从存储设备中获取状态信息来实现;
管理服务器之间状态监控,管理服务器间的相互检测确保管理服务器在网内,并及时的进行管理服务器间的配置同步。
所述管理服务端采用环状权值分布的策略对存储设备的管理服务器进行有效管理,所述环状权值分布的详细实现过程为:
a) 设备按权重排序,如果一个设备核心的路由数量高于其他的设备,则该设备就是核心设备;
b) 最高权重优先定位,其中最为核心的设备是第一组,它们将以屏幕正中央为圆心,均匀分布在某个半径的圆圈上,半径的确定取决于要定位的设备数量,数量越多半径值越大;当这些设备定位结束时,也就确定了此设备在屏幕中心点的角度,此角度将作为下个步骤定位的依据;
c) “卫星”设备布局,假定有n个核心设备,那么每个核心设备的卫星设备只可以分布在360/n的扇形范围内;
d) 绘制链路连线。
所述管理者与代理之间使用同一个管理信息库,作为网络信息传输的基础,这里的管理信息库的程序数据接收入口处收到响应或命令时,首先将收到的第一个元素解出,得到此识别标识后,再根据标识调用对应的处理方法即可对其后的管理信息库元素数据进行处理,不再需要对管理信息库对象进行全部遍历操作。
所述系统监控方法采用无连接的UDP进行通信,使用命令的方式来访问管理信息库,每个命令称为协议数据单元PDU,其中PDU包括GetRequest、GetNextRequest、SetRequest、Trap、Response类型,其中管理服务端采用Trap操作方式定时将采集到的数据上报至管理客户端进行显示;管理客户端对服务端采用SetRequest操作方式进行监控命令的下达,对部分需要获得少量返回参数的监控命令使用GetRequest操作方式进行下达。
本发明与现有技术相比所产生的有益效果是:
本发明的一种面向多数据中心的系统监控方法实现对所有节点状态和节点存储对象状态信息即时信息监控;实现数据库对节点和节点存储对象状态记录,为用户呈现指定时间段内状态信息;实现存储对象资源利用率监控并呈现;实现资源使用情况信息采集并分析,实现容量预估功能,为用户决定是否添加设备提供有价值的参考;提高数据中心存储系统的更加有效的数据支撑能力和利用效率,并最大限度的在保证存储系统满足应用需求的前提下降低总体拥有成本;实现复杂存储环境的统一监控管理;实用性强,易于推广。
附图说明
附图1为本发明监控信息流程图。
附图2为卫星设备示意图。
具体实施方式
下面结合附图对本发明的一种面向多数据中心的系统监控方法作以下详细说明。
如附图1所示,一种面向多数据中心的系统监控方法,采用面向对象的观点对多数据中心的数据存储管理对象进行监控,提供设备监控和健康状态分析的统一视图,其中多数据中心是指设备复杂化,拓扑多样化的存储环境,不仅包括磁盘阵列和应用服务器,还包括了存储交换、网关等一系列的设备;所述对象是指存储管理对象,存储环境理解成是由大量的对象组成的,这些对象即是统一存储管理软件需要元素,统一管理系统是对象本身及对象与对象之间的关系的管理,从而实现整个存储环境的管理;所述设备监控是对整个存储网络进行统一监控管理,实现对所有节点状态和节点存储对象状态信息即时信息监控;其具体实现过程为:
首先将系统按照技术、应用范围等逻辑将系统划分为若干个问题域。存储环境中可以将对象分为与存储架构相关的、与存储介质相关的、与设备相关的等。每个问题域中会包含多个对象,对象与对象之间相互作用,有机结合。
面向多数据中心的系统监控机制对整个存储网络进行统一监控管理,实现对所有节点状态和节点存储对象状态信息即时信息监控;实现数据库对节点和节点存储对象状态记录,为用户呈现指定时间段内状态信息;实现存储对象资源利用率监控并呈现;实现资源使用情况信息采集并分析,实现容量预估功能,为用户决定是否添加设备提供有价值的参考;
检测到异常情况后及时在客户端拓扑图中体现并通过邮件、邮件及短信等方式通知用户;
统一监控分为中心资源对象状态信息监控和管理服务器之间状态监控两部分;
1、中心资源对象状态信息监控
状态资源监控是通过定期离散的从存储设备中获取状态信息来实现的。不同的存储系统提供了不同的状态信息获取接口。本方案将实现一个动态监控进程,定时收集数据并对数据进行格式化实现系统监控的目的。
通过调研发现,不同的存储设备提供的可监控内容有所不同。但从总体来看,对于用户较关心的一般状态均可通过其接口或者变通的方式实现。初步分析,需要监控的内容包括系统健康状态、各种资源利用率监控等。
监控获取的数据有多方面的应用。首先,可以根据监控的数据判断存储设备及存储网络的健康状态,对健康状态进行预警;其次,能够及时的发现存储环境运行异常,并及时报警,以使用户能及时处理;再次,可以资源利用等方面进行数据分析,以预测将来的资源利用趋势。
2、管理服务器之间状态监控
管理服务器间的相互检测目的是确保管理服务器在网内,并及时的进行管理服务器间的配置同步。
本发明是基于对多数据中心存储环境的统一存储管理的应用。存储环境是由大量的对象组成的,这些对象即是统一存储管理软件需要元素。对存储环境的监控即对这些对象本身及对象与对象之间的关系的监控,从而实现整个存储环境的系统监控。
系统监控机制采用管理者/代理模型。管理者通过向代理发送相应的命令获得代理中指定的信息,代理负责响应管理者发出的各种信息,或者以主动上报的方式向管理者提供必要的信息,从而实现管理者与代理之间的信息通信。系统监控机制由管理信息结构、管理信息库和管理协议等几个部分组成。管理信息库定义了系统监控机制所用信息的组织和标识,管理信息库用来贮存管理信息,定义了可以通过网络管理协议进行访问的管理对象的集合。管理者与代理之间都使用同一个管理信息库作为接口结构,可实现相互信息的理解与管理。
系统监控机制是管理者和代理之间的异步请求和响应的机制,定义了管理者如何对代理进程的管理信息库对象进行读写操作,定义了所使用的传输层协议、支持的操作、操作相关的PDU结构等。网络管理信息的数据从管理信息库中获取,再经过网络管理系统应用程序进行过滤、分析、加工等处理。系统监控机制采用无连接的UDP进行通信,使用命令的方式来访问管理信息库,每个命令称为协议数据单元(PDU)。在系统监控机制中,典型的PDU包括GetRequest、GetNextRequest、SetRequest、Trap、Response等几种类型。
进一步的,该监控方法包括以下几个部分:
1、环状权值分布。
在多数据中心的存储环境中,多个数据中心分布在不同的区域,并且每个数据中心的存储设备呈现出多样性,所以采用环状权值分布的策略对存储设备的管理服务器进行有效管理。“环状权值分布”,主要是因为引入了设备在网络中“权值”的概念。由于布局的主要目的是让主要设备能够分布且合理定位在屏幕上,所以拓扑布局的算法首先是找出那些权重最高的设备并依此排序进行设备定位。算法主要的步骤有:
a) 设备按“权重”排序。系统主要面向的是路由及交换设备,所以对拓扑图最为敏感的信息就是“路由”信息。如果一个设备核心的路由数量高于其他的设备,则该设备就是所谓的“核心设备”。
b) 最高权重优先定位。步骤a)已经确定了最为核心的设备以及按“权值”排序后的设备分组。最为核心的设备是第一组,它们将以屏幕正中央为圆心,均匀分布在某个半径的圆圈上。半径的确定取决于要定位的设备数量,数量越多半径值越大。当这些设备定位结束时,也就确定了此设备在屏幕中心点的角度,此角度将作为下个步骤定位的依据。
c) “卫星”设备布局。与核心设备相联接的设备都归类为该核心设备的卫星设备,“卫星”设备的具体分布算法如下:
假定有n个核心设,备那么每个核心设备的卫星设备只可以分布在360/n的扇形范围内,如图2 所示。
图2中有3个核心设备,被分为A、B、C三个扇形区域,以R2为例它的3个卫星设备就分布在B区域,且在B扇形内根据均匀分布,半径会以卫星设备的数量作相应的修正。
d) 绘制链路连线。核心设备区域的连线允许交错,因为这部分的连线几乎不太可能做到不交叉。由于分布是基于环的,所以连线即便有交错,问题也不会很严重。卫星设备的连线主要是对上一个设备的,这种情况下可以直连,如果卫星设备之间有连线,则可对卫星设备的布局会做一些小调整,尽量不出现连线的过度交叉。
此时如果发现x设备与z设备间有连线,就会根据屏幕上的空间对x或z的位置做一些小的调整,以让x与z的连线分布得更为合理。
2、监控管理信息库设计。
在系统监控机制中,当数据中心中的存储设备出现故障的时候使用Trap操作将信息主动发送到客户端,客户端可以把配置信息、管理信息通过Set操作发送到管理服务端,服务端再通过具体的分发对存储设备进行操作。所以说,在系统监控机制中,用到最多的是Trap操作与SetRequest操作两种,所有的Trap操作都在程序的某一个入口处接收数据,所有的SetRequest操作又在程序的另一个入口处接收数据。而在同一个PDU操作命令中划分出具体是远程命令数据的哪一种,则需要应用程序本身提供一种处理机制来进行解析。采用将收到的数据管理信息库元素的遍历,直至找到对应的元素,此方法的缺点是进行遍历操作将要消耗大量的资源,尤其在秒定时及大数据量传输时表现更为明显。下面的管理信息库设计即为解决此问题而设计。
a) 管理者与代理之间使用同一个管理信息库,作为网络信息传输的基础。
b) 进行管理信息库设计时,将同一条命令或返回响应的数据集合在一个对象节点下,在节点内的第一个元素设计为本节点的名称,通过查找第一个元素标识即可识别这一节点内的数据具体是哪一个设备的什么类型的数据或者是哪一类型的命令操作等。程序数据接收入口处收到响应或命令时,首先将收到的第一个元素解出,得到此识别标识后,再根据标识调用对应的处理方法即可对其后的管理信息库元素数据进行处理,不再需要对管理信息库对象进行全部遍历操作。
3、监控信息流程。
系统监控机制提供了GetRequest、GetNextRequest、SetRequest、Trap、Response等5种命令类型的PDU操作,根据多数据中心存储设备的功能特点及所传送的数据的特点,将使用到GetRequest、SetRequest、Trap等3种操作方式。
a) 管理服务端采用Trap操作方式定时将采集到的数据上报至管理客户端进行显示。
b)管理客户端对服务端采用SetRequest操作方式进行监控命令的下达,对部分需要获得少量返回参数的监控命令使用GetRequest操作方式进行下达。监控信息流程如图1所示。
4、Trap信息的有效性。
Trap模块实现的功能是在多数据中心的存储设备出现事件时管理客户端能得到通知。设备在自己所能够支持的事件范围内,通过定义不同含义的Trap报文,按照设备自身所配置的接收对象将Trap发送出去。
a) 使用中间层来代理实现统一侦听Trap版本的。
b) 对Trap进行建模,将其核心抽象为一种可扩展可配置的模式 。
c) Trap过滤,即如何过滤出有用的Trap信息,在客户端系统中形成了过滤规则文件,与规则文件匹配的Trap信息即为有用的信息,否则为无用的Trap信息。
以上所述仅为本发明的实施例而已,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种面向多数据中心的系统监控方法,其特征在于采用管理者和代理的方式,这里的管理者是指管理客户端、代理是指管理服务端,其中管理服务端采集存储设备所有的参数、状态信息,并将信息上报至管理客户端;管理客户端提供人机操作界面,同时将控制命令发送到管理服务端,再由管理服务端对设备进行统一的分发控制;
管理者和代理采用面向对象的观点对多数据中心的数据存储管理对象进行监控,提供设备监控和健康状态分析的统一视图,这里的监控包括:中心资源对象状态信息监控,通过定期离散的从存储设备中获取状态信息来实现;
管理服务器之间状态监控,管理服务器间的相互检测确保管理服务器在网内,并及时的进行管理服务器间的配置同步;
所述管理服务端采用环状权值分布的策略对存储设备的管理服务器进行有效管理,所述环状权值分布的详细实现过程为:
a) 设备按权重排序,如果一个设备核心的路由数量高于其他的设备,则该设备就是核心设备;
b) 最高权重优先定位,其中最为核心的设备是第一组,它们将以屏幕正中央为圆心,均匀分布在某个半径的圆圈上,半径的确定取决于要定位的设备数量,数量越多半径值越大;当这些设备定位结束时,也就确定了此设备在屏幕中心点的角度,此角度将作为下个步骤定位的依据;
c) “卫星”设备布局,假定有n个核心设备,那么每个核心设备的卫星设备只可以分布在360/n的扇形范围内;
d) 绘制链路连线。
2.根据权利要求1所述的一种面向多数据中心的系统监控方法,其特征在于:所述管理者与代理之间使用同一个管理信息库,作为网络信息传输的基础,这里的管理信息库的程序数据接收入口处收到响应或命令时,首先将收到的第一个元素解出,得到此识别标识后,再根据标识调用对应的处理方法即可对其后的管理信息库元素数据进行处理,不再需要对管理信息库对象进行全部遍历操作。
3.根据权利要求1所述的一种面向多数据中心的系统监控方法,其特征在于:所述系统监控方法采用无连接的UDP进行通信,使用命令的方式来访问管理信息库,每个命令称为协议数据单元PDU,其中PDU包括GetRequest、GetNextRequest、SetRequest、Trap、Response类型,其中管理服务端采用Trap操作方式定时将采集到的数据上报至管理客户端进行显示;管理客户端对服务端采用SetRequest操作方式进行监控命令的下达,对部分需要获得少量返回参数的监控命令使用GetRequest操作方式进行下达。
CN201410048686.1A 2014-02-12 2014-02-12 一种面向多数据中心的系统监控方法 Active CN103795575B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410048686.1A CN103795575B (zh) 2014-02-12 2014-02-12 一种面向多数据中心的系统监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410048686.1A CN103795575B (zh) 2014-02-12 2014-02-12 一种面向多数据中心的系统监控方法

Publications (2)

Publication Number Publication Date
CN103795575A CN103795575A (zh) 2014-05-14
CN103795575B true CN103795575B (zh) 2017-12-01

Family

ID=50670900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410048686.1A Active CN103795575B (zh) 2014-02-12 2014-02-12 一种面向多数据中心的系统监控方法

Country Status (1)

Country Link
CN (1) CN103795575B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103973815A (zh) * 2014-05-27 2014-08-06 浪潮电子信息产业股份有限公司 一种跨数据中心存储环境统一监控方法
CN104104683A (zh) * 2014-07-22 2014-10-15 浪潮电子信息产业股份有限公司 一种面向多数据中心的安全体系实现方法
CN104184826A (zh) * 2014-09-05 2014-12-03 浪潮(北京)电子信息产业有限公司 多数据中心存储环境管理方法和系统
CN106355785B (zh) * 2016-08-29 2019-03-29 广州御银科技股份有限公司 一种状态监控系统
CN107360588B (zh) * 2017-09-15 2020-10-13 武汉虹信通信技术有限责任公司 一种小基站oam的消息处理方法
CN108092813A (zh) * 2017-12-21 2018-05-29 郑州云海信息技术有限公司 数据中心综合管理系统服务器硬件管理框架及实现方法
CN109120443A (zh) * 2018-08-17 2019-01-01 郑州云海信息技术有限公司 一种网络附加存储nas设备的管理方法和装置
CN111209162B (zh) * 2020-01-03 2023-07-04 北京同有飞骥科技股份有限公司 分层建模的系统监控方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101483887A (zh) * 2009-02-25 2009-07-15 南京邮电大学 一种应用于无线多媒体传感器网络的多代理协作方法
CN101854270A (zh) * 2010-04-23 2010-10-06 山东中创软件工程股份有限公司 多系统运行状态监控方法及系统
CN102480749A (zh) * 2010-11-25 2012-05-30 中国移动通信集团浙江有限公司 一种远程采集主机进程信息的方法、装置和系统
CN103246606A (zh) * 2013-04-26 2013-08-14 广东电网公司电力科学研究院 Esb平台的性能方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101483887A (zh) * 2009-02-25 2009-07-15 南京邮电大学 一种应用于无线多媒体传感器网络的多代理协作方法
CN101854270A (zh) * 2010-04-23 2010-10-06 山东中创软件工程股份有限公司 多系统运行状态监控方法及系统
CN102480749A (zh) * 2010-11-25 2012-05-30 中国移动通信集团浙江有限公司 一种远程采集主机进程信息的方法、装置和系统
CN103246606A (zh) * 2013-04-26 2013-08-14 广东电网公司电力科学研究院 Esb平台的性能方法和系统

Also Published As

Publication number Publication date
CN103795575A (zh) 2014-05-14

Similar Documents

Publication Publication Date Title
CN103795575B (zh) 一种面向多数据中心的系统监控方法
Wang et al. STCS: Spatial-temporal collaborative sampling in flow-aware software defined networks
CN104365067B (zh) 用于重组跨集群分发的分组的系统和方法
CN107241319B (zh) 基于vpn的分布式网络爬虫系统及调度方法
CN104380660B (zh) 用于在多核和集群系统中进行陷阱监控的系统和方法
US20020129127A1 (en) Apparatus and method for routing a transaction to a partitioned server
CN109618002A (zh) 一种微服务网关优化方法、装置及存储介质
CN102761454A (zh) 一种物联网监控方法及系统
CN106340176A (zh) 一种智能电表的信息共享方法、智能电表及采集路由器
CN106201754A (zh) 任务信息分析方法及装置
CN106034137A (zh) 用于分布式系统的智能调度方法及分布式服务系统
CN111817911A (zh) 一种探测网络质量的方法、装置、计算设备及存储介质
CN108600300A (zh) 日志数据处理方法及装置
CN106452922A (zh) 一种应用于物联网的数据中心处理方法
CN110430265A (zh) 一种获得服务器和交换机间对应关系的方法及装置
CN107070744A (zh) 服务器监控方法
CN107592274A (zh) 一种计算机网络服务器的控制管理方法
CN107018018A (zh) 一种基于sdn的服务器增量在线升级方法及系统
CN117751567A (zh) 公用设施通信网络的动态处理分发
CN108494625A (zh) 一种网络性能分析系统
CN105991367A (zh) 一种测量虚拟机之间通信依赖关系的方法和系统
CN108121639A (zh) 一种基于云平台的数据中心综合管理系统设计方法
Mohammadi et al. Taxonomy of traffic engineering mechanisms in software-defined networks: a survey
CN106161339B (zh) 获取ip访问关系的方法及装置
CN105591467B (zh) 基于面向服务架构的继电保护故障信息主站系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant