CN107733684A - 一种基于龙芯处理器的多控制器计算冗余集群 - Google Patents

一种基于龙芯处理器的多控制器计算冗余集群 Download PDF

Info

Publication number
CN107733684A
CN107733684A CN201710770974.1A CN201710770974A CN107733684A CN 107733684 A CN107733684 A CN 107733684A CN 201710770974 A CN201710770974 A CN 201710770974A CN 107733684 A CN107733684 A CN 107733684A
Authority
CN
China
Prior art keywords
controller
controllers
itself
master controller
master
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710770974.1A
Other languages
English (en)
Other versions
CN107733684B (zh
Inventor
王之平
苏小峰
黄晨
张宏德
窦振飞
韩雨桐
汪文明
易航
卢頔
王芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Launch Vehicle Technology CALT
Beijing Institute of Astronautical Systems Engineering
Original Assignee
China Academy of Launch Vehicle Technology CALT
Beijing Institute of Astronautical Systems Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Launch Vehicle Technology CALT, Beijing Institute of Astronautical Systems Engineering filed Critical China Academy of Launch Vehicle Technology CALT
Priority to CN201710770974.1A priority Critical patent/CN107733684B/zh
Publication of CN107733684A publication Critical patent/CN107733684A/zh
Application granted granted Critical
Publication of CN107733684B publication Critical patent/CN107733684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/22Arrangements for detecting or preventing errors in the information received using redundant apparatus to increase reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明涉及一种基于龙芯处理器的多控制器计算冗余集群,包括多台控制器、交换机和共享存储空间;从控制器对所有主控制器进行监控,实时备份主控制器的工作内容及状态;控制器向外发送心跳报文,并获得其他控制器的心跳报文,判断其他控制器工作状态;当失效的控制器为主控制器,则其他未失效控制器将主控制器识别为故障,其他未失效控制器中优先级最高的控制器将自身切换为主控制器;如果失效的控制器为从控制器,则将该失效控制器识别为故障;根据实际需要确定主机和备机的数量,本发明具有系统层面的热备功能,当主计算机故障时,能够自动将服务迁到备份计算机上,备份计算机实时监控主计算机的工作状态,保证了切换的实时性,减少数据丢失。

Description

一种基于龙芯处理器的多控制器计算冗余集群
技术领域
本发明涉及一种基于龙芯处理器的多控制器计算冗余集群,属于地面设备可靠性设计领域。
背景技术
随着国产龙芯处理器越来越广泛的应用于航天产业中,对于国产龙芯处理器电气设备的可靠性也提出了越来越高的要求。仅仅通过提高单机的可靠性已经不能满足某些系统对可靠性的要求,因而如何提高系统的可靠性成为可靠性研究的热门课题。
冗余技术是提高控制系统可靠性的一种最有效的方法之一。一般来说,冗余服务的管理模式有两类:一类是采用全局集中管理模式,系统有全局唯一的管理者,它负责系统资源分配和冗余管理。另一类是分散管理模式,该模式下全系统有多个代理,各代理之间互相协调工作,分散管理模式不会出现单点失效引起的整个系统崩溃的情况。因此,分散管理模式更符合航天产品高可靠性的要求。如何实现多控制器计算机群冗余集群的协调工作,是本领域亟待解决的技术问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于龙芯处理器的多控制器计算冗余集群,确保系统长时间可信、可靠工作,为各类航天产品在整装整贮等各任务剖面中状态监测与寿命预测研究提供信息基础平台。
本发明目的通过如下技术方案予以实现:
提供一种基于龙芯处理器的多控制器计算冗余集群,包括多台控制器、交换机和共享存储空间;
多台控制器包括m台主控制器和n台备份控制器,每个控制器均向外发送心跳报文,并获得其他控制器的心跳报文,判断其他控制器工作状态;如果控制器在指定的时间内未收到某一控制器发送的心跳报文,则判定某一控制器失效,如果失效的控制器为主控制器,则其他未失效控制器将主控制器识别为故障,其他未失效控制器中优先级最高的控制器将自身切换为主控制器;如果失效的控制器为从控制器,则其它控制器将该失效控制器识别为故障;
共享存储空间,用于存储任务过程中所需要的数据与信息,可供各控制器读写;
交换机连接到所有的控制器,各控制器通过交换机交换数据。
优选的,当某一控制器发生故障时,如果判断将自身切换为主控制器,则将自身的工作内容及状态转换至原主控制器的工作内容及状态,接替原主控制器继续工作,实现集群的故障恢复。
优选的,当优先级高于主控制器的控制器重新发送心跳信号,其他控制器判断其恢复正常,优先级高于主控制器的控制器实时备份主控制器的工作内容及状态,并发送准备好信号至其他控制器,优先级高于主控制器的控制器将自身切换为主控制器,实现集群的状态恢复。
优选的,控制器还监控自身的工作状态,如果发现自身存在故障,则停止发送自身的心跳报文,并发出报警信号,果发现自身故障消除,则停止报警,并重新发送自身的心跳报文。
优选的,每台控制器至少配置三个以太网口,其中第一网口用于提供访问服务,第二网口用于接收和发送其他控制器的心跳监测数据,第三网口用于与共享存储空间通信。
优选的,每个控制器的体系结构分为四层,心跳层、成员层、资源分配层和资源层;心跳层通过心跳组件定时向其他控制器发送心跳报文,并接收他控制器的心跳报文发送给成员层;成员层,根据心跳报文判断其他控制器的工作状态,并向资源分配层发送冗余切换指令;资源分配层存储控制器当前控制状态,并发送给其他控制器,接收其他控制器的状态,执行切换操作;资源层用于提供访问服务,提供控制器资源的接口。
优选的,资源分配层分为四部分,集群资源管理(CRM)、集群信息基准(CIB)、策略引擎(PE)和转换引擎(TE)和本地资源管理(LRM),集群资源管理用来管理资源分配层的所有动作,集群信息基准用于存储优先级、状态和限值条件信息,策略引擎用于判断切换为主控制器的是否将为自身;转换引擎用于当将自身切换为主控制器时,自身的操作,本地资源管理用于调用控制器资源。
同时提供一种所述多控制器计算冗余集群的协同工作方法,,包括如下步骤:
(1)从多控制器计算冗余集群中选择主控制器,并设置从控制器的优先级;
(2)主控制器向外界提供服务,实时发送自身工作内容及状态;从控制器对所有主控制器进行监控,实时备份主控制器的工作内容及状态;每个控制器获得其他控制器的心跳报文,判断其他控制器工作状态;如果控制器在指定的时间内未收到某一控制器发送的心跳报文,则判定某一控制器失效,如果失效的控制器为主控制器,则其他未失效控制器将主控制器识别为故障,其他未失效控制器中优先级最高的控制器将自身切换为主控制器;如果失效的控制器为从控制器,则其它控制器将该失效控制器识别为故障。
优选的,当某一控制器发生故障时,如果判断将自身切换为主控制器,则将自身的工作内容及状态转换至原主控制器的工作内容及状态,接替原主控制器继续工作,实现集群的故障恢复。
优选的,当优先级高于主控制器的控制器重新发送心跳信号,其他控制器判断其恢复正常,优先级高于主控制器的控制器实时备份主控制器的工作内容及状态,并发送准备好信号至其他控制器,优先级高于主控制器的控制器将自身切换为主控制器,实现集群的状态恢复。优选的,控制器还监控自身的工作状态,如果发现自身存在故障,则停止发送自身的心跳报文,并发出报警信号,果发现自身故障消除,则停止报警,并重新发送自身的心跳报文。
本发明与现有技术相比具有如下优点:
(1)本发明多台计算机或服务器通过以太网连接,达到系统层面冗余效果的技术;可以根据实际需要确定主机和备机的数量,例如可以采用1台主机+1台备机热备以及3台主机+1备机等冗余模式;备份方式灵活多样;
(2)具有系统层面的热备功能,当主计算机故障时,能够自动将服务迁到备份计算机上,备份计算机实时监控主计算机的工作状态,保证了切换的实时性,减少数据丢失;
(3)具有自动报警功能,能够辅助值班人员快速寻找到故障计算机;
(4)当进行故障维修时,仅需将故障计算机断开,不影响其他计算机正常工作,不影响集群工作;当修复或更换的计算机重新接入时,集群自动将其设置为备机,实现集群的状态恢复。
附图说明
图1为本发明多控制器计算集群拓扑结构示意图;
图2为多控制器计算集群控制器结构示意图。
具体实施方式
结合图1,多控制器计算集群冗余技术是指多台计算机或服务器通过以太网连接,相互之间进行双机或多机备份,当当班计算机遇到故障时,可以迅速切换至另外一台备份计算机继续进行工作,从而达到系统层面冗余效果的技术。该技术可以大幅度减少人力消耗,提高工作效率,是解决整装整贮长时间战备值班等难题的有效方法。
多控制器计算集群冗余技术软硬件平台包括两台或四台控制器、交换机、测试电缆、共享存储空间;控制器装载计算集群冗余软件。
整个控制器计算集群的组件及其功能如下:
a)若干台控制器,是组成集群的主体,分别对外提供服务或作为备份服务器,各台控制器上均安装有计算集群冗余软件;
b)共享存储空间,用于存储任务过程中所需要的数据与信息,可供各控制器读写;共享存储空间可以为独立的存储器也可以是某个控制器存储空间的一部分。
c)交换机一台和网线若干,用于设备互联,所有的控制器均连接到交换机,通过交换机互相交换数据。
每台控制器至少配置三个以太网口,其中网口1用于提供访问服务,网口2用于接收和发送其他控制器的心跳监测数据,网口3用于与共享存储空间通信,各网口地址设置不同网段,起到数据隔离作用。
为了提高系统的可靠性和安全性,本发明设计了两种冗余模式,分别为1+1热备和3+1备份。
1+1热备指一台主机为工作机,另一台主机为备份机,在系统正常情况下,工作机为业务系统提供支持,备份机监视工作机的运行情况(工作机也同时监视备份机是否正常,有时备份机因某种原因出现异常,工作机可尽早通知系统管理员解决,确保下一次切换的可靠性)。当工作机出现异常、不能支持信息系统运行时,备份机主动接管工作机的工作,继续支持信息系统运行,从而保证信息系统能够不间断的运行。已宕机工作机经过修复正常后,系统管理员通过管理命令或经由人工或自动的方式将备份机的工作切换回工作机;也可以激活监视程序,监视备份机的运行情况,此时,原来的备份机成为工作机,而原来的工作机成为备份机。
3+1备份模式是3个主节点可以备份到1个子节点上。根据应用的级别,调整从节点的数量,可以是一个,也可以是多个,如果从节点为多个,则需要设置优先级。本发明适用于m个主控制器,n个从控制器。
一、多控制器计算集群硬件设计
为实现全系统国产自主可控的目标,建设国产化高可靠计算集群,本发明设计使用国产龙芯服务器作为硬件平台主体。国产龙芯服务器平台服务于系统测试数据的接收、处理、存储、读取功能。可以作为系统的数据中心、故障诊断中心、信息安全中心,负责完成测试时测试状态、流程信息、测试数据和安全日志进行接收、解析、入库、事后处理打印任务。
冗余集群包括多台控制器、交换机和共享存储空间;多台控制器包括m台主控制器和n台备份控制器,每控制器向外界提供服务,实时发送自身工作内容及状态;从控制器对所有主控制器进行监控,实时备份主控制器的工作内容及状态。
参见图2,控制器包括电源功能模块、主控功能模块、扩展存储功能模块。除去具备通用服务器主机的全部功能特性,还具有以太网、USB、VGA等通信接口,实现多种对外通信功能,并且以太网接口支持主从模式的双网卡绑定,网卡切换时间不大于50ms。电源功能模块,将220V交流电转换为5V和12V的直流电为主控功能模块和扩展存储功能模块供电;主控功能模块包括CPU(CPU1和CPU0)、内存(8G)、显存(2G)以及各类接口,接口包括两个以太网口(LAN)、两个I2C接口、GPIO接口、两个PS2接口、HAD接口、DVI接口、PCI-E接口、2个SATA接口、4个USB接口;扩展存储功能模块,对接口进行扩展,包括PCI-E接口、以太网口、两个SATA接口。
控制器采用VPX背板自定义总线架构,模块化加固机箱设计,主板硬件选用龙芯3A1500处理器+龙芯2H桥片的全国产化设计方案,运行中标麒麟Linux 6.0服务器版操作系统和武汉达梦数据库DM7 64位达梦3.2.2。
国产龙芯服务器平台的机箱及功能背板设计时参考VPX架构和VITA46.0基本规范进行设计,结构机箱及功能背板为电源功能模块、主控功能模块、扩展存储功能模块提供安装槽位、模块供电及模块间信号互连。功能模块采用直接插拔安装,机箱前面板不设盖板设计,具有功能模块锁紧固定方法,功能模块插拔应有插拔助力机构。机箱后面板为所有功能模块对外接口连接器安装区域。机箱能够具备风冷单元,为功能模块提供必要的散热措施,确保设备散热良好,不出现局部过热。机箱具备整体防振减振措施,能够抑制骚扰信号的传播,提高设备抗电磁干扰能力。
二、多控制器计算集群软件设计
计算集群包括多个控制器,其中一个或多个控制器作为主控制器,主控制器向外界提供服务,其他控制器作为从控制器,某一控制器对其他控制器进行监控。
多控制器计算集群软件需解决现有前端长时间值班的问题,保证关键业务、核心应用的稳定性和可靠性,达到前端设备高可靠、智能化的效果。多控制器计算集群软件分为四层,分别为通讯/基础设施层、成员层、资源分配层和资源层。
多控制器计算集群软件第一层是通讯/基础设施层,也称为心跳层。控制器通过该层的心跳组件定时向其他控制器发送心跳报文;并接收他控制器的心跳报文。
多控制器计算集群软件第二层是成员层,根据心跳报文判断其他控制器的工作状态,并控制多个控制器的冗余切换。在基于从第一层获得其他控制器的心跳报文,判断其他控制器为正常工作状态;如果控制器在指定的时间内未收到某一控制器发送的心跳报文,那么就会认为某一控制器失效,如果失效的控制器为主控制器,则其他未失效控制器将主控制器识别为故障,其他未失效控制器中优先级最高的控制器将自身切换为主控制器;如果失效的控制器为从控制器,则其它控制器将该失效控制器识别为故障。
多控制器计算集群软件第三层是资源分配层,存储控制器当前控制状态,并发送给其他控制器,接收其他控制器的状态,执行切换操作。由集群资源管理(CRM)、集群信息基准(CIB)、策略引擎(PE)和转换引擎(TE)、本地资源管理(LRM)四部分构成。集群资源管理用来管理资源分配层的所有动作(存储);集群信息基准用于存储集权配置、状态、节点、资源、限值条件等信息;策略引擎和转换引擎用于对集群做出更改的动作;本地资源管理用于调用本地资源。本层的具体功能如下:监控其他控制器的工作状态;控制器实时发送自身工作内容及状态,从控制器实时备份主控制器的工作内容及状态。当某一控制器发生故障时,如果成员层判断将自身切换为主控制器,则资源分配层将自身的工作内容及状态转换至原主控制器的工作内容及状态,接替原主控制器继续工作。例如原主控制器执行向共享存储空间发送文件的操作,发送自身工作内容为:向共享存储空间发送文件,状态为实时发送进度,切换后的主控制器,接替原主控制器的发送文件操作,状态为原主控制器的发送进度。
多控制器计算集群软件第四层是资源层也是最高层,用于实现与具体服务或资源的接口。资源层包括一个或更多的资源代理(RA)。资源代理是一种程序,通常是一个shell脚本,可以通过脚本来启动、停止和监测某种服务或资源。
提供一种基于龙芯处理器的多控制器计算冗余集群协同工作方法,计算集群包括多个控制器,其中一个控制器作为主控制器,主控制器向外界提供服务,其他控制器作为从控制器,从控制器对主控制器进行监控,从控制器为多个的情况同样适用。协同工作流程如下:
(1)从多控制器计算冗余集群中选择主控制器,并设置从控制器的优先级;
(2)主控制器向外界提供服务,实时发送自身工作内容及状态;从控制器对所有主控制器进行监控,实时备份主控制器的工作内容及状态;每个控制器获得其他控制器的心跳报文,判断其他控制器工作状态;如果控制器在指定的时间内未收到某一控制器发送的心跳报文,则判定某一控制器失效,如果失效的控制器为主控制器,则其他未失效控制器将主控制器识别为故障,其他未失效控制器中优先级最高的控制器将自身切换为主控制器;如果失效的控制器为从控制器,则其它控制器将该失效控制器识别为故障。
当某一控制器发生故障时,如果判断将自身切换为主控制器,则将自身的工作内容及状态转换至原主控制器的工作内容及状态,接替原主控制器继续工作,实现集群的故障恢复。
当优先级高于主控制器的控制器重新发送心跳信号,则其他控制器判断其恢复正常,优先级高于主控制器的控制器实时备份主控制器的工作内容及状态,并发送准备好信号至其他控制器,优先级高于主控制器的控制器将自身切换为主控制器,实现集群的状态恢复。通常优先级高的控制器工作时间更长,可靠性更高,因此优先选择优先级高的控制器作为主控制器。
所有的控制器实时发送自身工作内容及状态至共享存储空间,某一控制器从共享存储空间中读取其他控制器的工作内容及状态。
控制器还监控自身的工作状态,如果发现自身存在故障,则停止发送自身的心跳报文,并发出报警信号,包括蜂鸣报警、报警显示、向指定邮箱发送邮件等方式进行报警。如果发现自身故障消除,则停止报警,并重新发送自身的心跳报文。
当需要对故障控制器进行维修时,断开该故障控制器,不影响其他计算机正常工作,不影响集群工作。
当修复或更换的控制器重新接入时,扫描重新接入控制器的IP,并判断是否为集群内的控制器IP,如果不是则,忽略该控制器;如果是则将其设置为备机。
不同于传统控制器集群需在任务开始时设置好集群的主备份数量,本技术支持于任何时间段向控制器集群中增加备份控制器与减少备份控制器,而不影响集群整体的工作。
本发明的多控制器计算机群冗余技术,从整个拓扑设计了多控制器计算机群冗余体系,并对其主要工作模式进行了详细规划。本文所提的多控制器计算集群冗余技术原理可行,效果良好,为大规模部署多控制器计算集群和采用冗余技术提供技术支持,该技术可以全面提升航天产品集群的稳定性与可靠性水平。
以上所述,仅为本发明最佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。

Claims (10)

1.一种基于龙芯处理器的多控制器计算冗余集群,其特征在于:包括多台控制器、交换机和共享存储空间;
多台控制器包括m台主控制器和n台备份控制器,每个控制器均向外发送心跳报文,并获得其他控制器的心跳报文,判断其他控制器工作状态;如果控制器在指定的时间内未收到某一控制器发送的心跳报文,则判定某一控制器失效,如果失效的控制器为主控制器,则其他未失效控制器将主控制器识别为故障,其他未失效控制器中优先级最高的控制器将自身切换为主控制器;如果失效的控制器为从控制器,则其它控制器将该失效控制器识别为故障;
共享存储空间,用于存储任务过程中所需要的数据与信息,可供各控制器读写;
交换机连接到所有的控制器,各控制器通过交换机交换数据。
2.根据权利要求1所述的基于龙芯处理器的多控制器计算冗余集群,其特征在于:当某一控制器发生故障时,如果判断将自身切换为主控制器,则将自身的工作内容及状态转换至原主控制器的工作内容及状态,接替原主控制器继续工作,实现集群的故障恢复。
3.根据权利要求1或2所述的基于龙芯处理器的多控制器计算冗余集群,其特征在于:当优先级高于主控制器的控制器重新发送心跳信号,其他控制器判断其恢复正常,优先级高于主控制器的控制器实时备份主控制器的工作内容及状态,并发送准备好信号至其他控制器,优先级高于主控制器的控制器将自身切换为主控制器,实现集群的状态恢复。
4.根据权利要求1或2所述的基于龙芯处理器的多控制器计算冗余集群,其特征在于:控制器还监控自身的工作状态,如果发现自身存在故障,则停止发送自身的心跳报文,并发出报警信号,果发现自身故障消除,则停止报警,并重新发送自身的心跳报文。
5.根据权利要求1或2所述的基于龙芯处理器的多控制器计算冗余集群,其特征在于:每台控制器至少配置三个以太网口,其中第一网口用于提供访问服务,第二网口用于接收和发送其他控制器的心跳监测数据,第三网口用于与共享存储空间通信。
6.根据权利要求1或2所述的基于龙芯处理器的多控制器计算冗余集群,其特征在于:每个控制器的体系结构分为四层,心跳层、成员层、资源分配层和资源层;心跳层通过心跳组件定时向其他控制器发送心跳报文,并接收他控制器的心跳报文发送给成员层;成员层,根据心跳报文判断其他控制器的工作状态,并向资源分配层发送冗余切换指令;资源分配层存储控制器当前控制状态,并发送给其他控制器,接收其他控制器的状态,执行切换操作;资源层用于提供访问服务,提供控制器资源的接口。
7.根据权利要求6所述的基于龙芯处理器的多控制器计算冗余集群,其特征在于:资源分配层分为四部分,集群资源管理(CRM)、集群信息基准(CIB)、策略引擎(PE)和转换引擎(TE)和本地资源管理(LRM),集群资源管理用来管理资源分配层的所有动作,集群信息基准用于存储优先级、状态和限值条件信息,策略引擎用于判断切换为主控制器的是否将为自身;转换引擎用于当将自身切换为主控制器时,自身的操作,本地资源管理用于调用控制器资源。
8.一种基于权利要求1所述多控制器计算冗余集群的协同工作方法,其特征在于,包括如下步骤:
(1)从多控制器计算冗余集群中选择主控制器,并设置从控制器的优先级;
(2)主控制器向外界提供服务,实时发送自身工作内容及状态;从控制器对所有主控制器进行监控,实时备份主控制器的工作内容及状态;每个控制器获得其他控制器的心跳报文,判断其他控制器工作状态;如果控制器在指定的时间内未收到某一控制器发送的心跳报文,则判定某一控制器失效,如果失效的控制器为主控制器,则其他未失效控制器将主控制器识别为故障,其他未失效控制器中优先级最高的控制器将自身切换为主控制器;如果失效的控制器为从控制器,则其它控制器将该失效控制器识别为故障。
9.根据权利要求8所述方法,其特征在于,当某一控制器发生故障时,如果判断将自身切换为主控制器,则将自身的工作内容及状态转换至原主控制器的工作内容及状态,接替原主控制器继续工作,实现集群的故障恢复。
10.根据权利要求8所述方法,其特征在于,当优先级高于主控制器的控制器重新发送心跳信号,其他控制器判断其恢复正常,优先级高于主控制器的控制器实时备份主控制器的工作内容及状态,并发送准备好信号至其他控制器,优先级高于主控制器的控制器将自身切换为主控制器,实现集群的状态恢复。优选的,控制器还监控自身的工作状态,如果发现自身存在故障,则停止发送自身的心跳报文,并发出报警信号,果发现自身故障消除,则停止报警,并重新发送自身的心跳报文。
CN201710770974.1A 2017-08-31 2017-08-31 一种基于龙芯处理器的多控制器计算冗余集群 Active CN107733684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710770974.1A CN107733684B (zh) 2017-08-31 2017-08-31 一种基于龙芯处理器的多控制器计算冗余集群

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710770974.1A CN107733684B (zh) 2017-08-31 2017-08-31 一种基于龙芯处理器的多控制器计算冗余集群

Publications (2)

Publication Number Publication Date
CN107733684A true CN107733684A (zh) 2018-02-23
CN107733684B CN107733684B (zh) 2021-02-09

Family

ID=61205562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710770974.1A Active CN107733684B (zh) 2017-08-31 2017-08-31 一种基于龙芯处理器的多控制器计算冗余集群

Country Status (1)

Country Link
CN (1) CN107733684B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108762672A (zh) * 2018-05-23 2018-11-06 新华三技术有限公司成都分公司 分布式存储设备、方法及级联模块
CN109471759A (zh) * 2018-11-21 2019-03-15 北京谷数科技有限公司 一种基于sas双控设备的数据库故障切换方法及设备
CN109976677A (zh) * 2019-04-03 2019-07-05 山东超越数控电子股份有限公司 一种存储系统控制方法、存储系统控制装置及存储系统
CN110356228A (zh) * 2019-06-20 2019-10-22 浙江众泰汽车制造有限公司 一种汽车仪表系统及其控制方法
CN110417586A (zh) * 2019-07-18 2019-11-05 新华三大数据技术有限公司 服务监控方法、服务节点、服务器及计算机可读存储介质
CN110471326A (zh) * 2019-07-02 2019-11-19 浙江捷昌线性驱动科技股份有限公司 一种多升降平台控制系统及控制方法
CN110501924A (zh) * 2019-07-02 2019-11-26 浙江捷昌线性驱动科技股份有限公司 一种多升降平台控制系统及控制方法
CN110532137A (zh) * 2019-09-03 2019-12-03 山东超越数控电子股份有限公司 一种用于计算机的自动化离线备份装置及其使用方法
CN110658718A (zh) * 2019-11-08 2020-01-07 北京市轨道交通建设管理有限公司 一种多主控冗余切换控制方法及系统
CN109933550B (zh) * 2019-03-01 2021-02-09 北京星际荣耀空间科技有限公司 一种支持自定义信号的冗余通用总线系统
CN113050407A (zh) * 2021-03-04 2021-06-29 中国航空工业集团公司西安航空计算技术研究所 一种分布式处理系统主备控制器确定及切换方法
CN113472662A (zh) * 2021-07-09 2021-10-01 武汉绿色网络信息服务有限责任公司 路径重分配方法和网络业务系统
CN114609939A (zh) * 2021-12-01 2022-06-10 浙江中控技术股份有限公司 一种基于置信度的智能控制器主从角色判定方法及设备
CN114816898A (zh) * 2021-12-27 2022-07-29 深圳海兰云数据中心科技有限公司 一种海底数据中心监控系统、方法、装置及计算机设备
CN115407640A (zh) * 2022-11-01 2022-11-29 山东博硕自动化技术有限公司 一种多控多机自动控制系统及其控制方法
CN115694749A (zh) * 2022-10-25 2023-02-03 重庆长安汽车股份有限公司 一种应用冗余方法、装置、设备、存储介质
CN116185310A (zh) * 2023-04-27 2023-05-30 中茵微电子(南京)有限公司 一种存储器数据读写调度方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103117876A (zh) * 2013-01-24 2013-05-22 中兴通讯股份有限公司 用户状态信息的同步方法及装置
CN103647668A (zh) * 2013-12-16 2014-03-19 上海证券交易所 一种高可用集群内主机群体决策系统及切换方法
US20140108339A1 (en) * 2011-09-23 2014-04-17 Hybrid Logic Ltd System for live-migration and automated recovery of applications in a distributed system
CN105574590A (zh) * 2015-12-28 2016-05-11 中国民航信息网络股份有限公司 自适应总控灾备切换装置、系统及信号发生方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140108339A1 (en) * 2011-09-23 2014-04-17 Hybrid Logic Ltd System for live-migration and automated recovery of applications in a distributed system
CN103117876A (zh) * 2013-01-24 2013-05-22 中兴通讯股份有限公司 用户状态信息的同步方法及装置
CN103647668A (zh) * 2013-12-16 2014-03-19 上海证券交易所 一种高可用集群内主机群体决策系统及切换方法
CN105574590A (zh) * 2015-12-28 2016-05-11 中国民航信息网络股份有限公司 自适应总控灾备切换装置、系统及信号发生方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贠卫国: "一种DCS主控制器冗余优化设计与实现", 《工业控制计算机》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108762672B (zh) * 2018-05-23 2022-03-11 新华三技术有限公司成都分公司 分布式存储设备、方法及级联模块
CN108762672A (zh) * 2018-05-23 2018-11-06 新华三技术有限公司成都分公司 分布式存储设备、方法及级联模块
CN109471759A (zh) * 2018-11-21 2019-03-15 北京谷数科技有限公司 一种基于sas双控设备的数据库故障切换方法及设备
CN109933550B (zh) * 2019-03-01 2021-02-09 北京星际荣耀空间科技有限公司 一种支持自定义信号的冗余通用总线系统
CN109976677A (zh) * 2019-04-03 2019-07-05 山东超越数控电子股份有限公司 一种存储系统控制方法、存储系统控制装置及存储系统
CN110356228A (zh) * 2019-06-20 2019-10-22 浙江众泰汽车制造有限公司 一种汽车仪表系统及其控制方法
CN110471326A (zh) * 2019-07-02 2019-11-19 浙江捷昌线性驱动科技股份有限公司 一种多升降平台控制系统及控制方法
CN110501924A (zh) * 2019-07-02 2019-11-26 浙江捷昌线性驱动科技股份有限公司 一种多升降平台控制系统及控制方法
CN110417586A (zh) * 2019-07-18 2019-11-05 新华三大数据技术有限公司 服务监控方法、服务节点、服务器及计算机可读存储介质
CN110417586B (zh) * 2019-07-18 2022-04-08 新华三大数据技术有限公司 服务监控方法、服务节点、服务器及计算机可读存储介质
CN110532137A (zh) * 2019-09-03 2019-12-03 山东超越数控电子股份有限公司 一种用于计算机的自动化离线备份装置及其使用方法
CN110658718A (zh) * 2019-11-08 2020-01-07 北京市轨道交通建设管理有限公司 一种多主控冗余切换控制方法及系统
CN113050407A (zh) * 2021-03-04 2021-06-29 中国航空工业集团公司西安航空计算技术研究所 一种分布式处理系统主备控制器确定及切换方法
CN113050407B (zh) * 2021-03-04 2022-11-22 中国航空工业集团公司西安航空计算技术研究所 一种分布式处理系统主备控制器确定及切换方法
CN113472662A (zh) * 2021-07-09 2021-10-01 武汉绿色网络信息服务有限责任公司 路径重分配方法和网络业务系统
CN114609939A (zh) * 2021-12-01 2022-06-10 浙江中控技术股份有限公司 一种基于置信度的智能控制器主从角色判定方法及设备
CN114609939B (zh) * 2021-12-01 2024-04-02 浙江中控技术股份有限公司 一种基于置信度的智能控制器主从角色判定方法及设备
CN114816898A (zh) * 2021-12-27 2022-07-29 深圳海兰云数据中心科技有限公司 一种海底数据中心监控系统、方法、装置及计算机设备
CN115694749A (zh) * 2022-10-25 2023-02-03 重庆长安汽车股份有限公司 一种应用冗余方法、装置、设备、存储介质
CN115407640A (zh) * 2022-11-01 2022-11-29 山东博硕自动化技术有限公司 一种多控多机自动控制系统及其控制方法
CN116185310A (zh) * 2023-04-27 2023-05-30 中茵微电子(南京)有限公司 一种存储器数据读写调度方法及装置

Also Published As

Publication number Publication date
CN107733684B (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN107733684A (zh) 一种基于龙芯处理器的多控制器计算冗余集群
CN103346903B (zh) 一种双机备份的方法和装置
US7930388B2 (en) Blade server management system
CN105229613A (zh) 协调分布式系统中的故障恢复
CN109194514B (zh) 一种双机监测方法、装置、服务器及存储介质
CN102571498B (zh) 故障注入控制方法和装置
CN102724083A (zh) 基于软件同步的可降级三模冗余计算机系统
CN110427283B (zh) 一种双余度的燃油管理计算机系统
CN103853622A (zh) 一种互为备份的双余度控制方法
CN109857614A (zh) 一种机架服务器的容灾装置和方法
CN101488101A (zh) Cpci冗余备份系统
CN101557307B (zh) 调度自动化系统应用状态管理方法
CN117453036A (zh) 调整服务器中的设备的功耗的方法、系统及装置
CN109995554A (zh) 多级数据中心主备切换的控制方法及云调度指挥器
CN109614285B (zh) 用于综合模块化航电系统的配置管理方法
CN101799781A (zh) 一种集成式双机系统及实现方法
CN115190046B (zh) 一种服务器集群的检测方法、检测装置及计算设备
CN110740066A (zh) 一种席位不变的跨机故障迁移方法和系统
CN102638369B (zh) 一种主备倒换的仲裁方法、装置和系统
CN109684136A (zh) 一种灵活配置主控的通信架构系统
CN114355803A (zh) 基于任务监听的加固机多机系统及冗余设计方法
CN105843336A (zh) 具有多机柜管理模块的机柜及其韧体更新方法
CN101877714A (zh) 集合式服务器
CN108279755A (zh) 服务器风扇管理方法、装置、系统及计算机可读存储介质
CN113535471A (zh) 集群服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant