CN103580926A - 一种轻量热备系统同步方法 - Google Patents

一种轻量热备系统同步方法 Download PDF

Info

Publication number
CN103580926A
CN103580926A CN201310571590.9A CN201310571590A CN103580926A CN 103580926 A CN103580926 A CN 103580926A CN 201310571590 A CN201310571590 A CN 201310571590A CN 103580926 A CN103580926 A CN 103580926A
Authority
CN
China
Prior art keywords
layer
application module
application
standby
hot standby
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310571590.9A
Other languages
English (en)
Other versions
CN103580926B (zh
Inventor
王鹤
张增华
王向群
孙晓艳
李春龙
吴军民
张刚
黄辉
黄在朝
于海
虞跃
姚启桂
喻强
任杰
陈伟
黄治
于鹏飞
邓辉
吴鹏
王玮
沈文
侯功
陶静
刘川
陈磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Shanghai Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Shanghai Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI, State Grid Shanghai Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201310571590.9A priority Critical patent/CN103580926B/zh
Publication of CN103580926A publication Critical patent/CN103580926A/zh
Application granted granted Critical
Publication of CN103580926B publication Critical patent/CN103580926B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明涉及一种轻量热备系统同步方法,所述系统包括应用模块层、网络控制管理层和基础平台层;所述基础平台层包括硬件层、操作系统和HSL硬件封装,用于为网络控制管理数据层提供基础平台;网络控制管理数据层采用NSM的同步,用于应用模块层连接;应用模块层之间同步,用于根据应用需求可动态加载和卸除。所述方法包括(1)检测设备应用状态并获取应用信息;(2)检测设备主备板信息并选定主板与备板后通知系统;(3)系统启动相应程序并同步主备板;(4)主板出现宕机,备板即刻接管,提升备板为主控板,通知系统并启动所需要程序。本发明减轻系统负担,简化双主机争抢资源,缩短切换时间,易用性好并且资源占用少。

Description

一种轻量热备系统同步方法
技术领域
本发明属于计算机技术领域,具体讲涉及一种轻量热备系统同步方法。
背景技术
高可用集群采用冗余的硬件和专门的软件,可以在系统出现问题时迅速进行恢复,大大提高了系统的可用性。心跳机制是高可用集群的基础技术。心跳周期性地检测集群中结点机器的工作状态,当节点机器工作状态出现变化时,能够通知集群软件的其它部件。高可用集群的出现是为了使集群的整体服务尽可能可用,从而减少由计算机硬件和软件易错性所带来的损失。它通过保护用户的业务程序对外不间断提供的服务,把因软件/硬件/人为造成的故障对业务的影响降低到最小程度。如果某个节点失效,它的备援节点将在几秒钟的时间内接管它的职责。因此,对于用户而言,集群永远不会停机。高可用集群软件的主要作用就是实现故障检查和业务切换的自动化。大容量OLT设备主控板采用一主一备的方式,当主控板的主板宕机或故障时,备用板监测到主控板的主板故障,备用板启动相关程序(主要是协议模块相关程序),实现切换,提高程序的可用性。但目前并没有一种快速、简单、实用的实现切换同步的方法。
发明内容
针对现有技术的不足,本发明提供了一种轻量热备系统同步方法,利用该方法可以快速自动主备切换与同步,同时减轻系统负担,增加系统稳定性,其中,NSM的触发机制与应用模块的定时或触发机制,减少资源消耗,也可以按需修改,网络控制管理层触发式同步,保证主备两者一致。可实现后期的快速切换。
本发明的目的是采用下述技术方案实现的:
一种轻量热备系统,其改进之处在于,所述系统包括应用模块层、网络控制管理层和基础平台层;
所述基础平台层包括硬件层、操作系统和HSL硬件封装,用于为网络控制管理数据层提供基础平台;
所述网络控制管理数据层采用NSM的同步,用于应用模块层连接;
所述应用模块层之间同步,用于根据应用需求可动态加载和卸除。
优选的,所述网络控制管理数据层NSM之间的数据结构同步采用触发式机制同步接口;所述应用模块层之间采用定时机制或触发机制同步接口。
本发明基于另一目的提供的一种轻量热备系统同步方法,其改进之处在于,所述方法包括:
(1)检测设备应用状态并获取应用信息;
(2)检测设备主备板信息并选定主板与备板后通知系统;
(3)系统启动相应程序并同步主备板;
(4)主板出现宕机,备板即刻接管,提升备板为主控板,通知系统并启动所需要程序。
优选的,所述步骤(1)包括通过脚本程序检测设备的当前应用状态,获取内核模块信息、进程运行信息、磁盘挂载信息和应用配置信息,并将它们整合为应用信息。
优选的,所述步骤(2)包括两块主控板硬件同时启动,以竞争机制选取主备板。
优选的,所述步骤(3)包括基础平台相应启动网络管理层NSM与应用模块层;所述备用板网络管理层NSM主动同步主控板中NSM数据,以按需启动相应的应用模块;所述应用模块中对应主控板所需同步进行数据同步。
优选的,所述主备板包括由Eth0网卡接入外部网络,供外部访问和由Eth1网卡在大容量OLT中直接互连,配置内部IP,供心跳使用的两块主控板。
优选的,所述两块主控板采用直接连接作为心跳线连接在两板之间,用于避免不必要的失效切换。
与现有技术比,本发明的有益效果为:
1)减轻系统负担:在同步时,两类接口原理一类为NSM之间的触发式机制,按需同步既减少系统负担又有效减少对Flash的擦写次数。另一类应用模块同步接口采用定时机制或触发机制,亦能整体减少机器资源消耗,也提供了接口修改该参数,对于复杂环境下的嵌入式设备很有益。
2)简化双主机争抢资源:两机同时启动时,如果出现争抢情况时,应用脚本会主动对备板进行重启,从而保证系统正常。
3)缩短切换时间:本发明NSM触发式同步,保证了两者的一致性,可以迅速实现网络控制管理层的快速切换,既可满足最快方式的切换与接管。缩短了设备工作中断时间,对于服务器设备很有裨益。
4)易用性好:本发明分别实现了两种同步接口,一类是网络管理控制数据结构NSM的同步,该数据结构是实现各应用模块的基础。第二类是各应用模块间的同步,此类模块式根据应用需求可动态加载和卸除,针对于此设计的同步接口,是面向各应用模块的,他们应用了统一的数据接口规则及同步机制,只需要根据各应用模块按照规则设计相应的数据结构即可。
5)资源占用少:本发明未对Flash进行不间断性读取,大大减少资源需求。对CPU和内存也无特殊要求。
附图说明
图1为本发明提供的一种轻量热备系统同步方法流程图。
图2为本发明提供的一种轻量热备系统内部结构图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
本发明设计了三层,为轻量级热备实时同步提供了基础架构,面向两层,分别实现了两种同步接口,一类是网络管理控制数据结构NSM的同步,该数据结构是实现各应用模块的基础。第二类是各应用模块间的同步,此类模块式根据应用需求可动态加载和卸除,针对于此设计的同步接口,是面向各应用模块的,他们应用了统一的数据接口规则及同步机制,只需要根据各应用模块按照规则设计相应的数据结构即可。
热备同步时,这两类接口的工作原理也稍有差异,NSM之间的数据结构同步是触发式机制,即只要NSM数据结构有变化时备用板立即从主控板进行同步。另一类的同步接口,应用模块同步接口可采用定时机制或者触发机制,这样整体减少机器资源消耗,目前定时是100MS,也提供给了接口修改该参数。
热备切换时,NSM触发式同步,保证了两者的一致性,可以迅速实现网络控制管理层的快速切换。
应用模块也可以根据重要级别实现,定时同步时间可修改,这样显示出模块的重要度的差别。
基础平台层包括硬件层,操作系统和HSL硬件封装,为网络控制管理层提供基础平台;网络控制管理层网络管理数据结构NSM系统分析。为实现上层应用模块加载提供基础。
应用模块同步接口面向应用模块,按需根据规则设计相应数据结构即可。
NSM的触发机制与应用模块的定时或触发机制,减少资源消耗,也可以按需修改。
网络控制管理层触发式同步,保证主备两者一致。可实现后期的快速切换。
本发明具体实现方法为:
预保存应用环境下相关的工作状态,转化保存应用功能,写入Flash中的对应配置选项区块。
实时监控RAM分区中文件化,主机配置变化会储存在RAM分区中,同步脚本实时监控RAM分区,配置变化时即时同步到备用板中,以预防主机突然出现固障而配置不易丢失。
本发明事先面向多种状态保存,对Flash分区与RAM分区分别保存,恢复时根据具体情况还原至原来状态,更加保证系统的准确与稳定。
简化双主机争抢资源:简化原有stonish插件,无需增加冗余线及磁盘。在出现双板争抢情况时,应用脚本只要探测到双虚IP出现时,既对备板进行重启,以保证系统中只有一块主机存在,从而保证系统正常。
根据快速备份恢复的所述的要求,网络管理层NSM针对主功能器件的状态保存,既设备多种状态保存。备用机预先启用内核关键所需程序及同步。
应用模块层中Auth、Lacp、Mstp、Epon等在预先启动完成,从而实现快速切换时不需再等待程序启动,可以直接接管。
本发明具体流程如下:
1、利用脚本程序检测设备的当前应用状态,获取内核模块信息、进程运行信息、磁盘挂载信息、应用配置信息,并将它们整合为应用信息。
2、利用整合的信息检测设备主备板信息,2秒内选定主板与备板。并通知到系统。
3、系统按照主备节点后续所需启动相应程序。基础平台相应启动,网络管理层NSM与应用模块层。备用板网络管理层NSM主动同步主控板中NSM数据,以按需启动相应的应用模块。应用模块中对应主控板所需同步进行数据同步。
4、主板出现宕机时,备板即刻接管,提升为主控板,通知下发到系统中,启动另外所需要程序。
其所用到过程详细为:
热备系统在大容量OLT中采用两块主控板(都配备有双网卡)作为主备板,两块主控板的Eth0网卡接入外部网络,供外部访问;两块主控板的Eth1网卡在大容量OLT中直接互连,配置内部IP,供心跳使用;在大容量OLT中主控板和备用板是直接连接作为心跳线连接在两板之间。这样就可以是为了避免不必要的失效切换,故用了条独立的物理路径作为通信路径了解对方的运行情况。此方案容错功能实现的关键是在主板宕机进行切换时,对客户端来说主服务器是透明的,即主板的切换在工作端看来没有变化,所有基于主板的应用都正常。
主备板硬件完全一样同时启动,以竞争机制选取主备:
(1)、主控板加电后,从Flash启动进入u-boot,由u-boot进行基本的硬件初始化后引导Linux;同步RTC时钟,加载独立于内核以外的其它设备驱动,加载BCM SDK;Linux启动完毕后,执行platform_init进行平台级配置,如槽位检测,配置IP地址等;执行热备程序,选举Active主控板。加载网络管理控制数据结构NSM,启动安全认证协议Authd,端口聚合lacp,EPON配置epond、人机接口命令Imi与imish……。
(2)、同时备用板加电,前期与主控板相同,在监测到IP为备时;加载网络管理控制数据结构NSM,触发式机制对主控板NSM网络控制管理数据进行同步。进而根据需求启动所需应用模块,应用模块定时同步主控板中相应数据。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种轻量热备系统,其特征在于,所述系统包括应用模块层、网络控制管理层和基础平台层;
所述基础平台层包括硬件层、操作系统和HSL硬件封装,用于为网络控制管理数据层提供基础平台;
所述网络控制管理数据层采用NSM的同步,用于应用模块层连接;
所述应用模块层之间同步,用于根据应用需求可动态加载和卸除。
2.如权利要求1所述的一种轻量热备系统,其特征在于,所述网络控制管理数据层NSM之间的数据结构同步采用触发式机制同步接口;所述应用模块层之间采用定时机制或触发机制同步接口。
3.一种轻量热备系统同步方法,其特征在于,所述方法包括:
(1)检测设备应用状态并获取应用信息;
(2)检测设备主备板信息并选定主板与备板后通知系统;
(3)系统启动相应程序并同步主备板;
(4)主板出现宕机,备板即刻接管,提升备板为主控板,通知系统并启动所需要程序。
4.如权利要求3所述的一种轻量热备系统同步方法,其特征在于,所述步骤(1)包括通过脚本程序检测设备的当前应用状态,获取内核模块信息、进程运行信息、磁盘挂载信息和应用配置信息,并将它们整合为应用信息。
5.如权利要求3所述的一种轻量热备系统同步方法,其特征在于,所述步骤(2)包括两块主控板硬件同时启动,以竞争机制选取主备板。
6.如权利要求3所述的一种轻量热备系统同步方法,其特征在于,所述步骤(3)包括基础平台相应启动网络管理层NSM与应用模块层;所述备用板网络管理层NSM主动同步主控板中NSM数据,以按需启动相应的应用模块;所述应用模块中对应主控板所需同步进行数据同步。
7.如权利要求3所述的一种轻量热备系统同步方法,其特征在于,所述主备板包括由Eth0网卡接入外部网络,供外部访问和由Eth1网卡在大容量OLT中直接互连,配置内部IP,供心跳使用的两块主控板。
8.如权利要求3所述的一种轻量热备系统同步方法,其特征在于,所述两块主控板采用直接连接作为心跳线连接在两板之间,用于避免不必要的失效切换。
CN201310571590.9A 2013-11-13 2013-11-13 一种轻量热备系统同步方法 Active CN103580926B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310571590.9A CN103580926B (zh) 2013-11-13 2013-11-13 一种轻量热备系统同步方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310571590.9A CN103580926B (zh) 2013-11-13 2013-11-13 一种轻量热备系统同步方法

Publications (2)

Publication Number Publication Date
CN103580926A true CN103580926A (zh) 2014-02-12
CN103580926B CN103580926B (zh) 2017-12-05

Family

ID=50051907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310571590.9A Active CN103580926B (zh) 2013-11-13 2013-11-13 一种轻量热备系统同步方法

Country Status (1)

Country Link
CN (1) CN103580926B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776119A (zh) * 2016-11-24 2017-05-31 北京小米移动软件有限公司 服务实例的重启方法、装置及服务器

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1175353C (zh) * 2001-01-19 2004-11-10 华为技术有限公司 一种双机备份的实现方法
CN1190018C (zh) * 2002-05-13 2005-02-16 华为技术有限公司 主控板数据热备份的方法
CN101854566B (zh) * 2009-04-02 2014-08-13 华为技术有限公司 无源光网络保护方法、主备切换控制设备和系统
CN101648570B (zh) * 2009-08-31 2012-01-25 郑州三方软件技术有限公司 一种双机热备切换器和双机热备切换方法
CN202841134U (zh) * 2012-09-13 2013-03-27 浙江创亿光电设备有限公司 一种基于数据中心的主控交换板热备份系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776119A (zh) * 2016-11-24 2017-05-31 北京小米移动软件有限公司 服务实例的重启方法、装置及服务器

Also Published As

Publication number Publication date
CN103580926B (zh) 2017-12-05

Similar Documents

Publication Publication Date Title
US10601657B2 (en) Instance node management method and management device
CN105471622B (zh) 一种基于Galera的控制节点主备切换的高可用方法及系统
CN105159798A (zh) 一种虚拟机的双机热备方法、双机热备管理服务器和系统
CN106850260A (zh) 一种虚拟化资源管理平台的部署方法和装置
CN102916825A (zh) 一种双机热备系统的管理设备、管理方法及双机热备系统
CN103532753A (zh) 一种基于内存换页同步的双机热备方法
CN112948063B (zh) 云平台的创建方法、装置、云平台以及云平台实现系统
CN103501290A (zh) 一种基于动态备份虚拟机的高可靠服务系统构建方法
CN106713056A (zh) 一种分布式集群下备机选举切换的方法
CN104506362A (zh) 一种cc-numa多节点服务器上系统状态切换和监控的方法
CN113127270A (zh) 一种基于云计算的3取2安全计算机平台
CN112477919B (zh) 一种适用于列车控制系统平台的动态冗余备份方法及系统
CN104484243A (zh) 一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法
CN109245926A (zh) 智能网卡、智能网卡系统及控制方法
CN112511326B (zh) 一种切换方法、装置、设备和存储介质
WO2006005251A1 (fr) Procede et systeme de realisation de la fonction de commutation dans un systeme de communication
CN105068763A (zh) 一种针对存储故障的虚拟机容错系统和方法
CN111078352A (zh) 一种基于kvm虚拟化系统的双机热备部署方法及系统
CN101114935A (zh) 系统升级的方法、升级系统及监控实体
CN102487332B (zh) 故障处理方法、装置和系统
CN103580926A (zh) 一种轻量热备系统同步方法
CN110399254A (zh) 一种服务器cmc双机热活方法、系统、终端及存储介质
CN110677288A (zh) 一种通用于多场景部署的边缘计算系统及方法
CN114124803B (zh) 设备管理方法、装置、电子设备及存储介质
CN102983997A (zh) 主控服务迁移方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant