CN103546313A - 基于云计算的it运维管理系统 - Google Patents

基于云计算的it运维管理系统 Download PDF

Info

Publication number
CN103546313A
CN103546313A CN201310445007.XA CN201310445007A CN103546313A CN 103546313 A CN103546313 A CN 103546313A CN 201310445007 A CN201310445007 A CN 201310445007A CN 103546313 A CN103546313 A CN 103546313A
Authority
CN
China
Prior art keywords
cloud
server
monitoring
cloud node
node monitor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310445007.XA
Other languages
English (en)
Inventor
黄身锞
林志建
兰晴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FUZHOU ZHUOSIDUN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
FUZHOU ZHUOSIDUN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FUZHOU ZHUOSIDUN INFORMATION TECHNOLOGY Co Ltd filed Critical FUZHOU ZHUOSIDUN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310445007.XA priority Critical patent/CN103546313A/zh
Publication of CN103546313A publication Critical patent/CN103546313A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供一种基于云计算的IT运维管理系统,所述系统包括:一云中央控制器,复数个云节点监测服务器以及复数个客户端数据库服务器,云中央控制器,负责对各个云节点监测服务器调度监控任务,根据云节点监测服务器的数量和监测内容将监控任务分发给对应的云节点监测服务器,并检测各云节点监测服务器的工作状态;云节点监测服务器,获取客户端数据库服务器的监测信息,随着客户端数据库服务器的数量增加,能增加监控云节点监控服务器的数据量,且增加的云节点监控服务器自动注册到所述云中央控制器中,云中央控制器进行分配监控任务。本发明能对数据中心的服务器、网络和应用进行集中监控。

Description

基于云计算的IT运维管理系统
技术领域
本发明涉及网络监控技术领域,尤其涉及一种基于云计算的IT运维管理系统。
背景技术
云计算是一个新兴的商业计算模型。利用高速互联网的传输能力,将数据的处理过程从个人计算机或服务器移到互联网上的计算机集群中。这些计算机都是很普通的工业标准服务器,由一个大型的数据处理中心管理着,数据中心按客户的需要分配计算资源,达到与超级计算机同样的效果。
但现有的服务器管理软件、硬件管理软件却在监控实时性、管理便捷性、监控对象广泛性,以及智能预警等诸多方面未能符合要求,无法确保实时的预警策略及时落地。
早期的维护设备数量较少,型号也较单一,维护及管理起来比较简单和耗费的时间较少,当时的维护也只停留在基础,简单来说,硬件的监控也只是在本机上查看设备的名称和了解一下硬件的使用情况,但是只是针对小规模设备的维护对象,小规模的维护团队就能满足要求,成本及效率的把控能够得到控制。但是随着设备的增加,规模的扩大及设备的改革换代,维护的复杂程度成倍增加及多样化,硬件的大小程度耗损及定期的更新,一个维护团队所耗费的时间及维护成本也会成倍的递增。
无盘服务器,IDC机房等服务器的稳定运行及便捷管理是至关重要、也是最为基础的核心部分,直观的列图试、实时、单独的预警报告、独立的运行状态报告及故障硬件报告在管理人员眼中占据了重要的位置。目前传统的监控管理软件都存在着些许的不足,无法打破实时、智能预警、自动报警及云端监控的瓶颈,如CPU故障、内存故障、热插拔面板其中一个接口的故障。
所有星能云监控管理平台实现了直观智能的便捷式管理,打破了传统尴尬的局面,用户可以直观的实时远程监控每一台设备、每一个细小的变化及便捷管理,甚至包括运行时长,硬件的物理损伤程度,服务器带机情况等实时信息。而且用户还可以用中文汉字备注每台设备在机房的哪个位置,例如A区机柜4号设备等信息。
云计算平台服务端的复杂性和创新性,对于运维是个全新的挑战,运维思路和方式都为之发生改变。这种改变不是简单的在传统运维上的优化,而是基于云计算特征孕育而生的运维重构;这种改变也并非一蹴而就,是随着云计算平台的发展过程不断演进,许多都没有最佳实践可循,是在摸着石头过河中不断积累经验。相对传统的网站运维,云计算平台运维的主要特征如下。
集群是基本运维单位:组成云计算平台的节点都是普通PC服务器,平台的高可用性,不再借助传统的高投入服务器硬件冗余方案(RAID、网络双上连、双电源等)实现,而是通过云计算平台自身的鲁棒性保障。这需要运维改变视角,从原来把服务器作为基本运维单位,转变为以集群作为基本运维单位。传统运维场景下的“及时”维修服务器,在云计算场景下,可以“轻松”定期维修。而这种“轻松”,并不是对运维需求的降低,而是基于对集群整体容量和健康状态的管理能力,即通过有效提炼和过滤各种服务器的个体运行状态,映射出集群的整体状态的能力。集群的容量管理、部署、监控、故障管理等运维任务,都必须以集群为单位进行。
云计算集群的规模大:单集群的规模,是衡量云计算平台能力的重要指标之一。对于生产环境而言,云计算集群也必须达到一定规模,才能实现云计算平台的高可用、低成本等真正价值。因此,在进行运维的规划和实现时,都要以满足大规模为必要条件。
可运维性是云平台基本属性:集群可运维性包括实现高效和大规模的部署、升级、迁移、扩容和故障管理等运维任务,是集群必须具备的能力。云平台从第一天设计开始,就必须包括该属性。开发团队和运维团队需要紧密协同,结合平台和运维特性加以实现。较之传统运维,云计算平台对于大规模集群的可运维性、可管理性等的要求高很多,是集群落地的刚性需求。
为了解决传统二级架构监控方案中存在的弊端,更好地对大型数据中心和分布式广域网进行集中监控,将最新的云计算技术应用到IT监控领域,而设计了本发明专利文件。
现有技术中公开了一种“用于IT系统的分布式运维监控系统”,见公开号为:103001806A,公开日为:2013-03-27的中国专利,该系统包括:至少一个监控前端,其安装在位于需要监控的IT系统所在的企业局域网中的一台服务器中,用于采集被监控的IT系统的运行情况;至少一个监控客户端,安装在位于需要监控的IT系统所在的企业局域网中的一台服务器中,用于管理所述监控前端,具有自身的数据存储能力,提供B/S或C/S方式浏览所述监控前端采集到的运行信息;数据汇总端,其位于互联网或企业内部局域网中,用于接收所述至少一个监控客户端上传的数据和提供下载监控配置数据功能;数据展现端,其位于互联网或企业内部网中,为用户通过C/S或B/S方式展现与数据汇总端所汇总的数据,为企业提供统一管理平台。但该发明不具备:动态负载均衡功能、可靠双机热备功能、多机容灾备份功能。发明内容
本发明要解决的技术问题,在于提供一种基于云计算的IT运维管理系统,能对数据中心的服务器、网络和应用进行集中监控;大大提升维护工程师的工作效率。
本发明是这样实现的:一种基于云计算的IT运维管理系统,所述系统包括:一云中央控制器,复数个云节点监测服务器以及复数个客户端数据库服务器,且各云节点监测服务器均对应一个客户端数据库服务器;
所述云中央控制器,负责对各个云节点监测服务器调度监控任务,根据云节点监测服务器的数量和监测内容将监控任务分发给对应的云节点监测服务器,并检测各云节点监测服务器的工作状态,一旦任意一台云节点监测服务器出现故障立刻将监控任务转移到其他的云节点监测服务器上;
所述云节点监测服务器,获取客户端数据库服务器的监测信息,随着客户端数据库服务器的数量增加,能增加监控云节点监控服务器的数据量,且增加的云节点监控服务器自动注册到所述云中央控制器中,云中央控制器进行分配监控任务。
本发明具有如下优点:本发明具有:1、动态负载均衡:监测云中的服务器根据数量和计算能力动态承担各自的监测任务,当数量和计算能力发生变化时,通过自动调节机制去重新调整各自的监测任务量。
2、可靠双机热备:两台主控制台服务器组成高效的“主”—“备”模式,“主”服务器和“备”服务器之间通过“智能心跳”技术实时关联,一旦主控制服务器宕机,备份服务器马上启动执行任务。
3、多机容灾备份:监测云和存储云中的多台服务器实现多机容灾互备,如果监测云和存储云中有服务器宕机,这些服务器的监测任务马上就会被重新分配到其它正常运行的服务器上,保证了监控的连续性。
4、强大的虚拟计算能力:把多台云节点监测服务器的监测能力虚拟到一起,实现对数据中心大规模服务器的海量监控,监测数量可达100万台以上。
5、便捷的分布式部署,一个界面的集中管理:把一套系统通过多台机器进行分布式部署,通过一个界面进行统一集中管理,大大提升维护工程师的工作效率。
6、高效的动态扩容能力:监测能力动态扩容,以后当数据中心的新设备增加时,只要相应增加“监测云”中的服务器即可实现动态扩容。
附图说明
图1为本发明系统的原理框图。
具体实施方式
参照图1所示,本发明为一种基于云计算的IT运维管理系统,所述系统包括:一云中央控制器,复数个云节点监测服务器以及复数个客户端数据库服务器,且各云节点监测服务器均对应一个客户端数据库服务器;
所述云中央控制器,负责对各个云节点监测服务器调度监控任务,根据云节点监测服务器的数量和监测内容将监控任务分发给对应的云节点监测服务器,并检测各云节点监测服务器的工作状态,一旦任意一台云节点监测服务器出现故障立刻将监控任务转移到其他的云节点监测服务器上;
所述云节点监测服务器,获取客户端数据库服务器的监测信息,随着客户端数据库服务器的数量增加,能增加监控云节点监控服务器的数据量,且增加的云节点监控服务器自动注册到所述云中央控制器中,云中央控制器进行分配监控任务。
本发明的系统的云架构方案的优势在于:首先是部署实施简单,只要在总部部署一套系统即可完成整个广域网的监测,二级单位和三级单位无需部署监控系统,只需登录总系统。其中,所述系统在运行时,在云中央控制器中进行配置监测信息,所述监测信息包括:被监测的客户端数据库服务器的信息、监测的指标信息和报警条件。
另外,本发明中,所述云节点监测服务器根据客户端数据库服务器的数量和自身的计算能力动态承担各自的监测任务,当数量和自身的计算能力发生变化时,通过自动调节机制去重新调整各自的监测任务量,不会出现某台云节点监测服务器忙,另一台云节点监测服务器闲的情况。
这里需要说明的是:本发明中,所述云节点监测服务器还提供有双机热备功能;即云节点监测服务器之前互相备份,如果各云节点监测服务器中有服务器宕机,宕机的服务器的监测任务马上就会被重新分配到其它正常运行的云节点监测服务器上,保证了监控的连续性。所述云中央控制器能组成高效的“主”—“备”模式,“主”服务器和“备”服务器之间通过“心跳线”技术实时关联,一旦主控制服务器宕机,备份服务器马上启动执行任务。
总之,本发明能对数据中心的服务器、网络和应用进行集中监控;大大提升维护工程师的工作效率。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (5)

1.一种基于云计算的IT运维管理系统,其特征在于,所述系统包括:一云中央控制器,复数个云节点监测服务器以及复数个客户端数据库服务器,且各云节点监测服务器均对应一个客户端数据库服务器;
所述云中央控制器,负责对各个云节点监测服务器调度监控任务,根据云节点监测服务器的数量和监测内容将监控任务分发给对应的云节点监测服务器,并检测各云节点监测服务器的工作状态,一旦任意一台云节点监测服务器出现故障立刻将监控任务转移到其他的云节点监测服务器上;
所述云节点监测服务器,获取客户端数据库服务器的监测信息,随着客户端数据库服务器的数量增加,能增加监控云节点监控服务器的数据量,且增加的云节点监控服务器自动注册到所述云中央控制器中,云中央控制器进行分配监控任务。
2.根据权利要求1所述的基于云计算的IT运维管理系统,其特征在于:所述系统在运行时,在云中央控制器中进行配置监测信息,所述监测信息包括:被监测的客户端数据库服务器的信息、监测的指标信息和报警条件。
3.根据权利要求1所述的基于云计算的IT运维管理系统,其特征在于:所述云节点监测服务器根据客户端数据库服务器的数量和自身的计算能力动态承担各自的监测任务,当数量和自身的计算能力发生变化时,通过自动调节机制去重新调整各自的监测任务量,不会出现某台云节点监测服务器忙,另一台云节点监测服务器闲的情况。
4.根据权利要求1所述的基于云计算的IT运维管理系统,其特征在于:所述云节点监测服务器还提供有双机热备功能;即云节点监测服务器之前互相备份,如果各云节点监测服务器中有服务器宕机,宕机的服务器的监测任务马上就会被重新分配到其它正常运行的云节点监测服务器上,保证了监控的连续性。
5.根据权利要求1所述的基于云计算的IT运维管理系统,其特征在于:所述云中央控制器能组成高效的“主”—“备”模式,“主”服务器和“备”服务器之间通过“心跳线”技术实时关联,一旦主控制服务器宕机,备份服务器马上启动执行任务。
CN201310445007.XA 2013-09-26 2013-09-26 基于云计算的it运维管理系统 Pending CN103546313A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310445007.XA CN103546313A (zh) 2013-09-26 2013-09-26 基于云计算的it运维管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310445007.XA CN103546313A (zh) 2013-09-26 2013-09-26 基于云计算的it运维管理系统

Publications (1)

Publication Number Publication Date
CN103546313A true CN103546313A (zh) 2014-01-29

Family

ID=49969388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310445007.XA Pending CN103546313A (zh) 2013-09-26 2013-09-26 基于云计算的it运维管理系统

Country Status (1)

Country Link
CN (1) CN103546313A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104348683A (zh) * 2014-10-28 2015-02-11 北京奇虎科技有限公司 一种信息提供方法及装置
CN104572304A (zh) * 2015-01-26 2015-04-29 赞奇科技发展有限公司 智能均衡的集群渲染任务维管方法
CN105024851A (zh) * 2015-06-25 2015-11-04 四川理工学院 一种基于云计算的监控管理系统
WO2016070762A1 (zh) * 2014-11-03 2016-05-12 中国银联股份有限公司 一种云平台监控方法以及云平台监控系统
CN105635279A (zh) * 2015-12-29 2016-06-01 长城信息产业股份有限公司 一种分布式监控系统及数据采集方法
CN105979273A (zh) * 2016-05-06 2016-09-28 苏州清云网络科技有限公司 基于大数据及云计算的智能商用电视的云监控与云运维
CN106339260A (zh) * 2016-08-19 2017-01-18 北京小米移动软件有限公司 基于Jenkins平台的任务分配方法及装置
CN107483601A (zh) * 2017-08-28 2017-12-15 郑州云海信息技术有限公司 一种分布式定时任务的实现方法及执行系统
CN107612770A (zh) * 2017-09-07 2018-01-19 郑州云海信息技术有限公司 一种监控节点管理方法及装置
CN108241567A (zh) * 2016-12-23 2018-07-03 航天星图科技(北京)有限公司 一种云系统服务器状态地图管理方法
CN108363407A (zh) * 2018-01-04 2018-08-03 浙江大学 一种无人船自主航行的协同云控制系统
WO2018161341A1 (zh) * 2017-03-10 2018-09-13 深圳市博信诺达经贸咨询有限公司 基于云技术的安防监控实现的方法及装置
CN109104334A (zh) * 2018-08-23 2018-12-28 郑州云海信息技术有限公司 监控系统中节点的管理方法和装置
CN111522723A (zh) * 2020-04-17 2020-08-11 杭州威佩网络科技有限公司 一种数据采集方法及装置
CN112328444A (zh) * 2020-10-09 2021-02-05 国家电网有限公司 一种云计算机管理系统及其管理方法
WO2021203975A1 (zh) * 2020-11-11 2021-10-14 平安科技(深圳)有限公司 服务器调配方法、装置、设备及存储介质
CN115426292A (zh) * 2022-09-01 2022-12-02 在云上(南京)智能科技有限公司 一种适用于多云管理的运维系统及其方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102413019A (zh) * 2011-12-21 2012-04-11 广东宏海讯科科技发展有限公司 一种基于云计算的网络实时监控系统方法
CN102546256A (zh) * 2012-01-12 2012-07-04 易云捷讯科技(北京)有限公司 用于对云计算服务进行监控的系统及方法
CN102710465A (zh) * 2012-06-07 2012-10-03 浪潮电子信息产业股份有限公司 一种监控集群存储接口节点负载的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102413019A (zh) * 2011-12-21 2012-04-11 广东宏海讯科科技发展有限公司 一种基于云计算的网络实时监控系统方法
CN102546256A (zh) * 2012-01-12 2012-07-04 易云捷讯科技(北京)有限公司 用于对云计算服务进行监控的系统及方法
CN102710465A (zh) * 2012-06-07 2012-10-03 浪潮电子信息产业股份有限公司 一种监控集群存储接口节点负载的方法

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016066084A1 (zh) * 2014-10-28 2016-05-06 北京奇虎科技有限公司 一种信息提供方法及装置
CN104348683A (zh) * 2014-10-28 2015-02-11 北京奇虎科技有限公司 一种信息提供方法及装置
TWI644534B (zh) * 2014-11-03 2018-12-11 中國銀聯股份有限公司 Cloud platform monitoring method and cloud platform monitoring system
WO2016070762A1 (zh) * 2014-11-03 2016-05-12 中国银联股份有限公司 一种云平台监控方法以及云平台监控系统
CN105592122A (zh) * 2014-11-03 2016-05-18 中国银联股份有限公司 一种云平台监控方法以及云平台监控系统
CN104572304A (zh) * 2015-01-26 2015-04-29 赞奇科技发展有限公司 智能均衡的集群渲染任务维管方法
CN104572304B (zh) * 2015-01-26 2018-02-02 江苏赞奇科技股份有限公司 智能均衡的集群渲染任务维管方法
CN105024851A (zh) * 2015-06-25 2015-11-04 四川理工学院 一种基于云计算的监控管理系统
CN105024851B (zh) * 2015-06-25 2018-07-24 四川理工学院 一种基于云计算的监控管理系统
CN105635279A (zh) * 2015-12-29 2016-06-01 长城信息产业股份有限公司 一种分布式监控系统及数据采集方法
CN105979273B (zh) * 2016-05-06 2021-04-02 苏州清云网络科技有限公司 基于大数据及云计算的智能商用电视的云监控与云运维
CN105979273A (zh) * 2016-05-06 2016-09-28 苏州清云网络科技有限公司 基于大数据及云计算的智能商用电视的云监控与云运维
CN106339260A (zh) * 2016-08-19 2017-01-18 北京小米移动软件有限公司 基于Jenkins平台的任务分配方法及装置
CN108241567A (zh) * 2016-12-23 2018-07-03 航天星图科技(北京)有限公司 一种云系统服务器状态地图管理方法
CN108241567B (zh) * 2016-12-23 2019-03-08 中科星图股份有限公司 一种云系统服务器状态地图管理方法
WO2018161341A1 (zh) * 2017-03-10 2018-09-13 深圳市博信诺达经贸咨询有限公司 基于云技术的安防监控实现的方法及装置
CN107483601A (zh) * 2017-08-28 2017-12-15 郑州云海信息技术有限公司 一种分布式定时任务的实现方法及执行系统
CN107612770A (zh) * 2017-09-07 2018-01-19 郑州云海信息技术有限公司 一种监控节点管理方法及装置
CN108363407A (zh) * 2018-01-04 2018-08-03 浙江大学 一种无人船自主航行的协同云控制系统
CN109104334A (zh) * 2018-08-23 2018-12-28 郑州云海信息技术有限公司 监控系统中节点的管理方法和装置
CN109104334B (zh) * 2018-08-23 2021-04-02 郑州云海信息技术有限公司 监控系统中节点的管理方法和装置
CN111522723A (zh) * 2020-04-17 2020-08-11 杭州威佩网络科技有限公司 一种数据采集方法及装置
CN112328444A (zh) * 2020-10-09 2021-02-05 国家电网有限公司 一种云计算机管理系统及其管理方法
WO2021203975A1 (zh) * 2020-11-11 2021-10-14 平安科技(深圳)有限公司 服务器调配方法、装置、设备及存储介质
CN115426292A (zh) * 2022-09-01 2022-12-02 在云上(南京)智能科技有限公司 一种适用于多云管理的运维系统及其方法

Similar Documents

Publication Publication Date Title
CN103546313A (zh) 基于云计算的it运维管理系统
CN102402395B (zh) 基于仲裁磁盘的高可用系统不间断运行方法
US9031692B2 (en) Cloud robot system and method of integrating the same
KR101916847B1 (ko) 크로스-클라우드식 관리 및 고장수리 기법
CN102739435B (zh) 作为服务的故障检测与恢复
CN105095001B (zh) 分布式环境下虚拟机异常恢复方法
EP2293164A1 (en) Cloud computing for a process control and monitoring system
CN107302465B (zh) 一种PCIe Switch服务器整机管理方法
CN103595131B (zh) 一种变电站变电设备在线监测系统
CN112380086B (zh) 分布式微服务架构数据中心智能感知控制系统及方法
CN104335137B (zh) 管理计算系统的功耗和性能
Bautista et al. Collecting, monitoring, and analyzing facility and systems data at the national energy research scientific computing center
CN105553701A (zh) 一种配网调控系统及其控制方法
CN101924650B (zh) 故障信息系统的服务和服务器智能自治的实现方法
CN103152414A (zh) 一种基于云计算的高可用系统及其实现方法
US8891403B2 (en) Inter-cluster communications technique for event and health status communications
CN102724313B (zh) 基于云计算的集群式桥梁运营安全监控系统
CN103973815A (zh) 一种跨数据中心存储环境统一监控方法
CN109218100A (zh) 分布式对象存储集群及其请求响应方法、系统和存储介质
CN212183550U (zh) 一种基于云平台的新型城市轨道交通综合监控系统
CN103106126A (zh) 一种基于虚拟化的高可用计算机系统
CN105893211A (zh) 一种监控的方法及系统
CN110659180A (zh) 基于集群技术的数据中心基础设施管理系统
CN102932399A (zh) 电网调度云灾备系统
CN109284294A (zh) 采集数据的方法及装置、存储介质、处理器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140129