CN1988477A - 具有高可用性特征的网络管理系统 - Google Patents

具有高可用性特征的网络管理系统 Download PDF

Info

Publication number
CN1988477A
CN1988477A CN 200610125550 CN200610125550A CN1988477A CN 1988477 A CN1988477 A CN 1988477A CN 200610125550 CN200610125550 CN 200610125550 CN 200610125550 A CN200610125550 A CN 200610125550A CN 1988477 A CN1988477 A CN 1988477A
Authority
CN
China
Prior art keywords
server
state
application module
network management
opposite end
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200610125550
Other languages
English (en)
Inventor
丰晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZHONGGUANG COMMUNICATION CO WUHAN
Original Assignee
ZHONGGUANG COMMUNICATION CO WUHAN
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHONGGUANG COMMUNICATION CO WUHAN filed Critical ZHONGGUANG COMMUNICATION CO WUHAN
Priority to CN 200610125550 priority Critical patent/CN1988477A/zh
Publication of CN1988477A publication Critical patent/CN1988477A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种具有高可用性特征的网络管理系统,涉及网络通信领域中的网络管理系统。本发明包括网管客户端(300)、以太网交换机(400)和被管网元(500),设置有结构相同互为备份的第一、二网管服务器(100、200);第一网管服务器(100)包括服务器管理器(110)、对端服务器检测模块(120)、网管应用模块(130)和数据库(140);服务器管理器(110)采用指定的接口与算法管理各个应用模块的启动、关闭及状态变迁以及整个网管服务器的状态变迁;对端服务器检测模块(120)负责检测对端服务器的状态。本发明有利于提高系统的灵活性及负载的均衡;易于实施;具有广泛的适应性,即应用在许多其它类型的需要提供高可用性服务的场合。

Description

具有高可用性特征的网络管理系统
技术领域
本发明涉及网络通信领域中的网络管理系统,尤其涉及一种具有高可用性特征的网络管理系统。
背景技术
在人类进入信息化时代的今天,人们的各种活动越来越依赖各种通信网络的正常运行。基于这样的要求,人们开发了大量的网络管理系统来对各种被管网络进行管理,以保证网络连续不断地有效可靠地运行。
网络管理系统主要包括配置管理,故障管理,性能管理,安全管理,记费管理五大基本管理功能。其中每一项管理功能对被管网络的正常运行来说,都是至关重要的。管理员通过使用配置管理功能,来保证网络中的各种设备的配置的可靠的初始化与运行时调整;通过使用故障管理功能,可以及时发现定位网络运行中出现的故障,并加以排除,且基于历史故障数据,对网络的改进与调整提供依据;通过使用性能管理功能,可以及时发现网络运行中的性能瓶颈,并加以调整解决,且基于历史性能数据对网络的发展规划提供依据;通过使用安全管理功能,可以网络用户与网络资源不被非法使用;通过使用记费管理功能,以保证网络是可运营的。
对于运行关键任务的网络的网络管理员而言,网络管理系统的失效,几乎是一场灾难。在此期间,管理员如同瞎子摸象一般,无法了解网络的真实运行状况,管理指令无法下达到被管网络,网络故障无法被及时发现和排除,被管网络的故障与性能,记费数据会丢失或者无法被及时收集。没有网管管理系统实时监控网络,很难保证网络的可靠稳定运行。因此,高可用性的网络要求高可用性的网络管理系统。
人们通常运用硬件和软件冗余备份技术实现系统的高可用性,以保证系统每周7天,每天24小时的不间断服务。所谓冗余备份是指将系统中关键的硬件和软件模块实行1+1备份,系统运行时,正在工作的为外界提供服务的部分称为主用,作为备份以便随时接替发生故障的主用工作的部分称为备用。系统可用性程度的高低的关键在于主备切换的速度,以及主备切换过程对系统为外界提供的服务的影响程度。
发明内容
本发明的目的是针对网络管理系统的特殊性,提供一种切实可行,方便快捷,灵活有效的方案,即一种具有高可用性特征的网络管理系统,以实现网络管理系统99.999%的高可用性。
本发明的目的是这样实现的:
一般来讲,网络管理系统由网管服务器,网管客户端,被管网络及网元构成。通常一台网管服务器可以管理多个以至成百上千的被管网元,其上运行的多种多样的网管应用程序,不停地主动采集被管网元的管理信息,并随时接收被管网元发来的事件与通知。网管服务器还为数个,数十个网管客户端提供接入服务。网络管理员通过网管客户端来使用网管服务器提供的网管功能。随着网管服务器的运行,会有大量的网管数据保存在其数据库中。同时,网管服务器还有可能向外部其它应用如运营支撑系统提供实时或非实时信息。因此,网络管理系统的可用性程度的关键在于网管服务器的可用性程度。
本处网管服务器是指由服务器端网管软件及其所运行的计算机软硬件平台所组成的系统。网管服务器软件是指安装在网管服务器上,实现网管服务功能的软件。网管服务器一般都带有数据库系统,网管服务器软件通常由多个相互协同工作的网管应用程序组成,通过网管服务器的网络接口与网管客户端及被管网元进行通信。因此整个网管服务器存在计算机主机硬件及支撑软件的故障,网管应用程序的故障,数据库故障,网络故障等多种故障风险。
针对这多种故障风险,本发明在网络管理系统中提出一整套方法来保证其高可用性,包括:
1)通过1+1冗余备份的的组网方式来排除计算机软硬件,业务数据,网络通信链路的单点失效故障。
2)通过网管应用程序的高可用性软件框架和主备切换算法来保证网管应用程序的高可用性。
3)通过数据库复制技术,来保证网管数据库的完整性与一致性。
4)通过动态IP绑定来保证对网管系统对外界提供服务的透明性。
一、本发明的组网结构
如图1,本发明包括网管客户端300、以太网交换机400和被管网元500,设置有结构相同互为备份的的第一、二网管服务器100、200;
第一、二网管服务器100、200分别与以太网交换机400连通;以太网交换机400包括结构相同互为备份的的第一、二以太网交换机410、420;网管客户端400和被管网元500分别通过以太网交换机400与第一、二网管服务器100、200相连。
互为备份的第一、二网管服务器100、200之间,相互传输着数据库之间的复制数据和网管服务器软件的状态检测与同步数据。一旦它们之间的通信链路发生故障,双机冗余备份即无从谈起。为了在两台网管服务器之间提供高可靠的、低时延的通信链路,整个系统采用互为冗余备份的第一、二以太网交换机410、420,每台网管服务器配置两个100M以太网卡,分别连至不同的以太网交换机;通过这样的措施,避免了网卡,网线,交换机的单点故障。
二、网管服务器软件框架
如图2,第一、二网管服务器100、200互为主备,内部组件完全一样,故以第一网管服务器100为例说明。
第一网管服务器100包括:服务器管理器110、对端服务器检测模块120、网管应用模块130和数据库140;网管应用模块130包括一到多个网管应用模块。
其中服务器管理器110是系统的核心管理模块,采用指定的接口与算法管理本网管服务器内部的各个应用模块的启动、关闭及状态变迁;它与网管应用模块130、对端服务器检测模120块之间存在着接口;通过对端服务器检测模块120,它可以取得当前对端网管服务器200的状态信息;通过与网管应用模块130的接口,服务器管理器110可以启动、关闭各网管应用模块130以及改变其状态。
对端服务器检测模块120是高可用性系统的关键模块之一,负责检测对端服务器的状态,并将相关信息传递给本端服务器管理器;第一网管服务器100的对端服务器检测模块120与第二网管服务器的220之间通过TCP协议进行通信,每隔一个周期性的间隙相互交换各自网管服务器的状态信息。
各网管应用模块(130)的状态与数据同步逻辑,由其根据自身实际情况分别实现。网管应用模块130与服务器管理器110之间存在着接口;第一网管服务器100中的网管应用模块130与第二网管服务器200中的网管应用模块230之间也存在基于TCP协议之上的通信接口,以实现主备网管服务器之间的各网管应用模块的状态与数据同步逻辑。
三、数据库复制
选择支持数据库复制技术的数据库,在服务激活状态下的服务器所对应的数据库上所发生的事务,将同时复制到处于服务备用状态下的服务器所对应的数据库中。因此当发生主备切换后,备用数据库具有与主用数据库相同的数据。所以备用能迅速接替主用,开始工作。图2中数据库140与240之间即采用了数据库复制技术。
四、动态IP绑定
为了使主备切换对网管用户及被管网络而言透明,为本系统设置一个对外服务IP,该IP始终绑定在处于服务激活状态的网管服务器的一个网卡上,因此当发生主备切换后,该IP所绑定的网卡所在的服务器将发生变化。对于网管客户端而言,如果其与网管服务器的通信基于TCP协议,需要具有及时重建连接的功能。如果基于UDP协议,则主备切换,对网管客户端影响很小。对于基于SNMP协议的被管网元而言,主备切换的影响对其影响也是很小的。
本发明具有下列优点和积极效果:
1、相对于类似系统而言,本发明并不预先设定网管服务器的主备关系,主备关系由两台网管服务器在运行中根据自身状态及对方状态或通过协商决定,这将有利于提高的系统的灵活性及负载的均衡。
2、通过对外提供统一的服务IP地址,最大程度地减小了由非高可用性系统向高可用性系统进化时对网管用户及被管网络设备的所产生的影响,使得本发明易于实施。
3、本发明所采用方法的基本原理具有广泛的适应性。对于网络管理系统之外的应用,如对本发明所提出的具体方法根据实际情况稍加改造,也可以应用在许多其它类型的需要提供高可用性服务的场合。
附图说明
图1是本发明组网结构框图;
图2是本发明软件框架图;
图3是本发明软件状态变迁图。
其中:
100-第一网管服务器,
110-第一服务器管理器,
120-第一对端服务器检测模块,
130-第一网管应用模块,
140-第一数据库;
200-第二网管服务器;
110-第二服务器管理器,
120-第二对端服务器检测模块,
130-第二网管应用模块,
140-第二数据库;
300-网管客户端;
400-以太网交换机,
410-第一以太网交换机,420-第二以太网交换机;
500-被管网元。
0-未启动(常态);
1-启动状态(过渡状态);
2-正在初始化状态(过渡状态);
3-服务备用状态(常态);
4-服务正在激活状态(过渡状态);
5-服务已激活状态(常态);
6-正在去激活状态(过渡状态);
9-退出服务状态(常态)。
汉译英:
IP-网际协议;
TCP-传输控制协议;
UDP-用户数据报协议;
IFCONFIG-UNIX下网络接口配置命令;
ORACLE-一种常用数据库的名字。
具体实施方式
下面结合附图和具体的实施实施例进一步说明
一、系统组网以及配置
如图1,具有高可用性特征的网管服务器由一对互为主备的第一、二网管服务器100、200与一对互为冗余的第一、二以太网交换机410、420组成。网管服务器的硬件可以选择业界常用的服务器计算平台,如SUN SPARC系列,选用SOLARIS 9作为其操作系统,选用ORACLE数据库。
每台网管服务器上安装双网卡,分别配置两个静态IP地址,这两个静态IP地址是第一网管服务器100与第二网管服务器200的对端检测模块120与220之间的状态检测,以及第一网管服务器100的网管应用模块130与第二网管服务器的网管应用模块230之间的数据同步,以及第一网管服务器的数据库140与第二网管服务器的数据库240之间的数据复制的通信IP地址。在数据库中配置这一对网管服务器的对外IP地址,该IP地址即是动态IP,该IP只绑定在处于主用状态的网管服务器的某个一个网卡上。当网管服务器发生主备切换时,从备用状态进入主用状态的网管服务器的服务器管理器执行IFCONFIG命令,将动态IP绑定到本机的一个网卡上。
通过配置启动ORACLE第一、二数据库140、240的数据库复制功能,使得任一个数据库上的更新,都能及时的反映到另一个数据库之中。
二、网管服务器的软件实现
如图2,本网络管理系统中存在一对结构相同、互为主备的网管服务器。以第一网管服务器100为例,每一个网管服务器由服务器管理110、对端检测模块120、网管应用模块130、数据库140组成;各组件之间存在通信接口。
服务器管理器110采用统一的接口来管理各网管应用模块130,这样当向网管应用模块130中增加新的模块时,只需该应用模块实现该接口,即可集成到整个系统中来。
这个接口包括一系列方法,该方法由服务器管理器110调用,由各网管应用模块130执行。
主要方法包括:
1)初始化(initialize)
2)激活(active)
3)去激活(deactive)
4)关闭(shutdown)
5)同步(sync)
这些方法的执行,会导致各网管应用模块130的状态的变迁,服务器管理器110综合各网管应用模块130的状态,采用特定原则来决定整个服务器的当前状态。并根据对端检测模块120提供的对端状态,来决定下一步的状态变迁走向。
以下是网管服务器软件运行时的十种可能状态:
0)NO_START             未启动(常态)
1)START                启动状态(过渡状态)
2)INITIALIZING         正在初始化状态(过渡状态)
3)IS_STBY              服务备用状态(常态)
4)ACTIVATING           服务正在激活状态(过渡状态)
5)IS_ACT               服务已激活状态(常态)
6)DEACTIVATING         正在去激活状态(过渡状态)
7)IS_STBY_NEGOTIATING  双备用协商状态(过渡状态)
8)IS_ACT_NEGOTIATING   双激活协商状态(过渡状态)
9)OOS                  退出服务状态(常态)
其中,未启动,退出服务,服务已备用,服务已激活是四种稳定的状态,其它的状态是向这四种状态变迁过程中的中间过渡状态。
可将四个稳定状态按下列次序进行排序:未启动,退出服务,服务已备用,服务已激活。未启动为最低状态,服务服务已激活为最高状态。服务器管理器110以所有网管应用模块中的最低状态来决定网管服务器100的当前状态。例如,只有在本网管服务器上所有的网管应用模块都处于服务备用状态,服务器管理器才认为本网管服务器处于服务备用状态,如果有一个网管应用模块处于退出服务状态,则网管服务器会认为本网管服务器处于退出服务状态。
如前所述,每个网管服务器在运行时的状态变迁,不仅要考虑自身的当前状态,还要考虑到对端服务器的当前状态。
网管服务器软件的状态变迁过程如图3所示,下面结合该图说明网管服务器的状态变迁,主备网管服务器之间的数据同步,以及主备切换过程。
1)启动状态,该状态是软件运行时的最初状态。
在该状态下,执行各个应用用模块的初始化方法,系统进入正在初始化状态(initializing)。
2)等待所有应用模块初始化成功,系统进入服务备用状态。如果失败,则系统退出或进入退出服务状态。
3)在服务备用状态下,对端服务器检测模块检测对端服务器状态。
①如果对端服务器状态为服务已激活状态,则本端服务器维持服务备用状态不变。
②如果对端服务器状态也为服务备用状态,则本端服务器执行状态协商方法,来决定各自下一阶段的状态。这时的过渡状态为双备用协商状态。
③如果对端服务器为退出服务状态,则本端服务器执行各个模块的激活方法,中间过渡状态为正在激活状态。如果所有应用模块的激活成功,则进入服务已激活状态。如果失败,则系统进入退出服务状态。
4)在本端处于服务正在激活状态时,对端服务器检测模块检测到对端处于服务已激活状态,则本端执行服务去激活方法,以回到服务备用状态。
5)在本端进入服务已激活状态时,对端服务器检测模块检测到对端服务器也处于服务已激活状态,则也需要执行状态协商方法。这时的过渡状态为双激活协商状态。
6)状态协商过程
对于网管服务器软件而言,它需要同时维持本端服务器的状态和对端服务器的状态。如果本端和对端服务器的当前状态同为服务备用,则需要通过协商,确定一方进入服务已激活状态,另一方保持服务备用状态。同理,如果本端和对端服务器的当前状态同为服务已激活状态,也需要通过协商,使一方保持服务已激活状态,而另一方去激活,回到服务备用状态。
在协商过程中,系统将处于双激活协商状态或双备用协商状态。
7)数据同步
处于服务备用状态的服务器中各应用模块,依据自身的算法,采取相应的同步算法,实现主备应用间的数据与状态同步,以便当备用接替原来的主用工作时,服务不至受到影响。
8)主备切换
在通常情况下,系统中两个网管服务器软件,其中一个处于服务激活状态,而另一台处于服务备用状态,两个软件相互周期性检测对方状态,当一方无法取得另一方的状态时,便认定对方状态为退出服务状态。
当处于服务备用状态下的服务器检测到原来处于服务激活状态的服务器进入退出服务状态时,该服务器将迅速激活,接替原主用服务器的工作。

Claims (3)

1、一种具有高可用性特征的网络管理系统,包括网管客户端(300)、以太网交换机(400)和被管网元(500),其特征在于:
设置有结构相同互为备份的的第一、二网管服务器(100、200);
第一、二网管服务器(100、200)分别与以太网交换机(400)连通;以太网交换机(400)包括结构相同互为备份的的第一、二以太网交换机(410、420);网管客户端(400)和被管网元(500)分别通过以太网交换机(400)与第一、二网管服务器(100、200)相连;
第一网管服务器(100)包括服务器管理器(110)、对端服务器检测模块(120)、网管应用模块(130)和数据库(140);网管应用模块(130)包括1到多个相互独立的网管应用模块;
服务器管理器(110)采用指定的接口与算法管理各个应用模块的启动、关闭及状态变迁以及整个网管服务器的状态变迁;
对端服务器检测模块(120)负责检测对端服务器的状态;
各网管应用模块(130)的状态与数据同步逻辑,由其根据自身实际情况分别实现。
2、按权利要求1所述的一种具有高可用性特征的网络管理系统,其特征在于:
服务器管理器(110)采用统一的接口管理各网管应用模块(130),该接口主要包括初始化、激活、去激活、关闭、同步的方法,该方法由服务器管理器(110)调用,由各网管应用模块(130)执行,导致各网管应用模块(130)的状态的变迁。
3、按权利要求2所述的一种具有高可用性特征的网络管理系统,其特征在于:
所述网管应用模块(130)的状态的变迁是服务器管理器(110)综合各网管应用模块(130)的状态,并根据对端检测模块(120)提供的对端状态,来决定下一步的状态变迁走向,主要包括未启动、启动状态、正在初始化状态、服务备用状态、服务正在激活状态、服务已激活状态、正在去激活状态、双备用协商状态、双激活协商状态、退出服务状态。
CN 200610125550 2006-12-22 2006-12-22 具有高可用性特征的网络管理系统 Pending CN1988477A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200610125550 CN1988477A (zh) 2006-12-22 2006-12-22 具有高可用性特征的网络管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200610125550 CN1988477A (zh) 2006-12-22 2006-12-22 具有高可用性特征的网络管理系统

Publications (1)

Publication Number Publication Date
CN1988477A true CN1988477A (zh) 2007-06-27

Family

ID=38185119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200610125550 Pending CN1988477A (zh) 2006-12-22 2006-12-22 具有高可用性特征的网络管理系统

Country Status (1)

Country Link
CN (1) CN1988477A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101883025A (zh) * 2010-06-28 2010-11-10 中兴通讯股份有限公司 一种业务网元设备的业务检测方法、系统及一种网管中心
CN101908980A (zh) * 2010-08-20 2010-12-08 中兴通讯股份有限公司 一种网管升级的方法及系统
CN101183984B (zh) * 2007-12-14 2011-11-09 华为技术有限公司 网管系统、管理方法及设备
CN102281563A (zh) * 2010-06-11 2011-12-14 海能达通信股份有限公司 一种通信系统、用在通信系统中的切换方法和网管服务器
CN101782863B (zh) * 2009-01-14 2013-04-03 国际商业机器公司 用于对工作进行负载平衡的方法和系统
CN106411589A (zh) * 2016-09-29 2017-02-15 北京神州绿盟信息安全科技股份有限公司 一种实现高可用的方法和装置
CN107807630A (zh) * 2017-11-29 2018-03-16 瑞斯康达科技发展股份有限公司 一种主备设备的切换控制方法、其切换控制系统及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183984B (zh) * 2007-12-14 2011-11-09 华为技术有限公司 网管系统、管理方法及设备
CN101782863B (zh) * 2009-01-14 2013-04-03 国际商业机器公司 用于对工作进行负载平衡的方法和系统
CN102281563A (zh) * 2010-06-11 2011-12-14 海能达通信股份有限公司 一种通信系统、用在通信系统中的切换方法和网管服务器
CN101883025A (zh) * 2010-06-28 2010-11-10 中兴通讯股份有限公司 一种业务网元设备的业务检测方法、系统及一种网管中心
CN101908980A (zh) * 2010-08-20 2010-12-08 中兴通讯股份有限公司 一种网管升级的方法及系统
CN106411589A (zh) * 2016-09-29 2017-02-15 北京神州绿盟信息安全科技股份有限公司 一种实现高可用的方法和装置
CN107807630A (zh) * 2017-11-29 2018-03-16 瑞斯康达科技发展股份有限公司 一种主备设备的切换控制方法、其切换控制系统及装置

Similar Documents

Publication Publication Date Title
CN106850260A (zh) 一种虚拟化资源管理平台的部署方法和装置
JP5102901B2 (ja) データセンタにわたる複数データサーバ間のデータ完全性を保持する方法およびシステム
CN100426751C (zh) 保证集群系统中配置信息一致的方法
US7937716B2 (en) Managing collections of appliances
US20090063650A1 (en) Managing Collections of Appliances
CN1988477A (zh) 具有高可用性特征的网络管理系统
US20120134299A1 (en) Automated topology formation in dynamic distributed environments
CN103139018B (zh) 一种调变一体化系统下的网卡状态监测与tcp通信方法
CN111949444A (zh) 一种基于分布式服务集群的数据备份与恢复系统及方法
CN111984274B (zh) 一种一键自动化部署etcd集群的方法及装置
CN110580198B (zh) OpenStack计算节点自适应切换为控制节点的方法及装置
CN111966465A (zh) 一种实时修改宿主机配置参数的方法、系统、设备及介质
CN114338670B (zh) 一种边缘云平台和具有其的网联交通三级云控平台
CN110674192A (zh) 一种Redis高可用VIP漂移方法、终端及存储介质
CN102487332B (zh) 故障处理方法、装置和系统
CN111865632A (zh) 分布式数据存储集群的切换方法及切换指令发送方法和装置
CN103281200A (zh) 一种用于轨道交通综合监控系统的冗余热备实现方法
CN105468446A (zh) 一种基于Linux的HPC作业调度实现高可用的方法
Corsava et al. Intelligent architecture for automatic resource allocation in computer clusters
CN107590032A (zh) 存储集群故障转移的方法及存储集群系统
CN107302600A (zh) 一种分布式ftp服务的实现方法及装置
CN114153655A (zh) 容灾系统创建方法、容灾方法、装置、设备及介质
CN100362811C (zh) 一种获取配置信息的方法
CN114363164A (zh) 云网络服务编排控制方法、系统、存储介质和电子设备
CN101453354A (zh) 一种基于atca架构的高可用性系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication