CN109460314A - 一种嵌入式系统的双机热备装置 - Google Patents

一种嵌入式系统的双机热备装置 Download PDF

Info

Publication number
CN109460314A
CN109460314A CN201811346932.6A CN201811346932A CN109460314A CN 109460314 A CN109460314 A CN 109460314A CN 201811346932 A CN201811346932 A CN 201811346932A CN 109460314 A CN109460314 A CN 109460314A
Authority
CN
China
Prior art keywords
kernel
module
node cluster
cluster hot
hot backup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811346932.6A
Other languages
English (en)
Other versions
CN109460314B (zh
Inventor
赵昶宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Jinhang Computing Technology Research Institute
Original Assignee
Tianjin Jinhang Computing Technology Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Jinhang Computing Technology Research Institute filed Critical Tianjin Jinhang Computing Technology Research Institute
Priority to CN201811346932.6A priority Critical patent/CN109460314B/zh
Publication of CN109460314A publication Critical patent/CN109460314A/zh
Application granted granted Critical
Publication of CN109460314B publication Critical patent/CN109460314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0796Safety measures, i.e. ensuring safe condition in the event of error, e.g. for controlling element
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • G05B19/048Monitoring; Safety

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明涉及一种嵌入式系统的双机热备装置,属于嵌入式系统技术领域。本发明利用AMP架构下非对称多核处理器的特点,在一块主机板(共有两个核)的每个核上运行单独的VxWorks操作系统,在每个单独的操作系统上实现双机热备功能。无需采用主机和备机两套设备,在一套设备机箱内部,每一块板卡均实现硬件资源双冗余。通过上述方式,实现了软件和硬件的双冗余。

Description

一种嵌入式系统的双机热备装置
技术领域
本发明属于嵌入式系统技术领域,具体涉及一种嵌入式系统的双机热备装置。
背景技术
目前最常见的双机容错技术有两种:
(1)采用第三方仲裁机构实现故障检测和双机切换;
(2)不用第三方仲裁机构,通过主备机身份识别,建立主备机之间的心跳通信,在主备机同步工作的前提下,实现主备机故障检测和切换。
上述两种方法均能实现双机热备功能,但是也都存在不足之处。
第一种双机容错技术的缺点是若第三方仲裁机构出现故障,则无法实现双机故障检测;第二种双机容错技术虽然没有利用第三方仲裁机构,但是若主机和备机在同一时间分别检测出不同类型的故障时,无法正确的实现双机切换功能。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何设计在嵌入式系统中设计一种双机热备的装置,有效的保证嵌入式系统稳定、可靠、有效和持续运行。
(二)技术方案
为了解决上述技术问题,本发明提供了一种嵌入式系统的双机热备装置,所述装置包括:
运行在本设备的主机板上的第一内核,在第一内核中配置如下组件形成第一双机热备功能模块:
INCLUDE_AMP_CPU
INCLUDE_AMP_CPU_00
INCLUDE_MOB_PLB_0
INCLUDE_MOB_PLB_1
INCLUDE_MCB_SM
INCLUDE_MIPC_SM
INCLUDE_SHELL
INCLUDE_WRLOAD
以及运行在本设备主机板上的第二内核,在第二内核中配置如下组件形成第二双机热备功能模块:
INCLUDE_AMP_CPU
INCLUDE_AMP_CPU_01
INCLUDE_MOB_PLB_0
INCLUDE_MOB_PLB_1
INCLUDE_MCB_SM
INCLUDE_MIPC_SM
INCLUDE_SHELL
INCLUDE_WRLOAD_IMAGE_BUILD
所述本设备运行VxWorks系统,第一双机热备功能模块、第二双机热备功能模块用于完成以下功能:
在本设备上电运行后,主机板上第一内核的第一双机热备功能模块、第二内核的第二双机热备功能模块首先分别对设备内部其他板卡进行自检,自检完成后第一内核和第二内核均向外部设备发送心跳信号,在心跳信号中包含设备自检结果;
外部设备通过以太网和串口接收本设备发送的心跳信号,只要收到其中一个内核发送的心跳信号,则外部设备向该内核发送控制命令,开始和该内核进行通讯,而此时外部设备只接收另外一个内核的心跳信号,不向其发送控制命令;
外部设备在与其中一个内核通讯的过程中,该内核上的双机热备功能模块检测本设备内部的板卡是否有故障,若有则立即通知外部设备;同时,使用该故障板卡上的备份硬件资源进行工作;如果外部设备在与当前内核通讯的过程中,接收不到该内核的心跳信号,则外部设备立即停止与当前内核进行通讯,并且向另一个内核发送控制命令,开始与另一个内核进行通讯。
优选地,第一双机热备功能模块与第二双机热备功能模块的IP地址不同。
优选地,所述装置还包括与所述主机板通过双口RAM连接的并进行数据交互、位于机箱内的1553B总线模块,所述1553B总线模块有双冗余总线通道。
优选地,所述装置还包括与所述主机板通过双口RAM连接的并进行数据交互、位于机箱内的串口模块,所述串口模块采用两片TL16c554芯片互为备份。
优选地,所述装置还包括与所述主机板通过双口RAM连接的并进行数据交互、位于机箱内的I/O模块;所述I/O模块实现了24路I/O接口的双冗余功能。
优选地,所述装置还包括与所述主机板通过双口RAM连接的并进行数据交互、位于机箱内的双冗余网络模块,所述双冗余网络模块采用两片Intel 82580千兆网卡互为备份。
优选地,所述第一双机热备功能模块、第二双机热备功能模块均用于检测1553B总线模块、智能串口模块、智能I/O模块是否工作正常。
(三)有益效果
本发明利用VxWorks系统AMP架构的多核特性,将双机热备功能模块分别运行在机箱内主机板上的不同核内;机箱内剩余板卡上的硬件资源采用冗余备份的方式,由外部设备充当仲裁机构,将切换的主动权交给外部设备。在外部设备和本设备通讯过程中,由外部设备决定和哪个核进行通讯。这种方式在一套机箱内使用一块主机板和几块外设板卡实现了整个系统的双机热备。这种方法无需使用仲裁机构,由外部设备充当仲裁机构,将切换的主动权交给外部设备。在外部设备和本设备通讯过程中,由外部设备决定和哪个核进行通讯。在本设备工作过程中,检测到某块板卡上的硬件资源有故障,则使用该硬件资源的备份资源进行工作。即使多块板卡同时出现故障,只需使用板卡上的备份资源,就可保证整个系统正常工作。该方法完美解决了目前双机容错技术中存在的不足,本发明提出的方法具有成本低,易于实现,可靠性高,主备机切换时间短等优点,大大满足短事务、强实时系统的要求,最大限度的保证了嵌入式系统的安全性、可用性和可靠性,增强了双机热备系统在复杂、恶劣环境下的可维护性。
附图说明
图1是本发明的装置原理框图;
图2是利用本发明的装置实现的双机热备方法具体实现流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
参考图1~图2,本发明提出的一种嵌入式系统的双机热备装置是在VxWorks系统下采用AMP(asymmetric muti-processing)多核架构实现双机热备,包括:
运行在本设备的主机板上的第一内核,在第一内核中配置如下组件形成第一双机热备功能模块:
INCLUDE_AMP_CPU
INCLUDE_AMP_CPU_00
INCLUDE_MOB_PLB_0
INCLUDE_MOB_PLB_1
INCLUDE_MCB_SM
INCLUDE_MIPC_SM
INCLUDE_SHELL
INCLUDE_WRLOAD
以及运行在本设备主机板上的第二内核,在第二内核中配置如下组件形成第二双机热备功能模块:
INCLUDE_AMP_CPU
INCLUDE_AMP_CPU_01
INCLUDE_MOB_PLB_0
INCLUDE_MOB_PLB_1
INCLUDE_MCB_SM
INCLUDE_MIPC_SM
INCLUDE_SHELL
INCLUDE_WRLOAD_IMAGE_BUILD
第一内核和第二内核上运行的双机热备功能模块除了IP地址不同外,其余功能性能完全相同。
所述装置还包括与所述主机板通过双口RAM连接的并进行数据交互、位于机箱内的1553B总线模块,所述1553B总线模块有双冗余总线通道。所述装置还包括与所述主机板通过双口RAM连接的并进行数据交互、位于机箱内的串口模块,所述串口模块采用两片TL16c554芯片互为备份。所述装置还包括与所述主机板通过双口RAM连接的并进行数据交互、位于机箱内的I/O模块;所述I/O模块实现了24路I/O接口的双冗余功能。所述装置还包括与所述主机板通过双口RAM连接的并进行数据交互、位于机箱内的双冗余网络模块,所述双冗余网络模块采用两片Intel 82580千兆网卡互为备份。
在本设备上电运行后,主机板上第一内核和第二内核内的双机热备功能模块首先分别对设备内部1553B总线模块、智能串口模块、智能I/O模块这几个板卡进行自检。自检完成后第一内核和第二内核均向外部设备发送心跳信号,在心跳信号中包含设备自检结果;
外部设备通过以太网和串口接收本设备发送的心跳信号,只要收到其中一个内核发送的心跳信号,则外部设备向该内核发送控制命令,开始和该内核进行通讯,而此时外部设备只接收另外一个内核的心跳信号,不向其(另一个内核)发送控制命令;
外部设备在与其中一个内核通讯的过程中,若该内核上的双机热备功能模块检测到本设备内部的板卡有故障,则立即通知外部设备;同时,使用该故障板卡上的备份硬件资源进行工作,以保证工作流程不会被终止;
如果外部设备在与当前内核通讯的过程中,接收不到该内核的心跳信号,则外部设备立即停止与当前内核进行通讯,并且向另一个内核发送控制命令,开始与另一个内核进行通讯。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (7)

1.一种嵌入式系统的双机热备装置,其特征在于,所述装置包括:
运行在本设备的主机板上的第一内核,在第一内核中配置如下组件形成第一双机热备功能模块:
INCLUDE_AMP_CPU
INCLUDE_AMP_CPU_00
INCLUDE_MOB_PLB_0
INCLUDE_MOB_PLB_1
INCLUDE_MCB_SM
INCLUDE_MIPC_SM
INCLUDE_SHELL
INCLUDE_WRLOAD
以及运行在本设备主机板上的第二内核,在第二内核中配置如下组件形成第二双机热备功能模块:
INCLUDE_AMP_CPU
INCLUDE_AMP_CPU_01
INCLUDE_MOB_PLB_0
INCLUDE_MOB_PLB_1
INCLUDE_MCB_SM
INCLUDE_MIPC_SM
INCLUDE_SHELL
INCLUDE_WRLOAD_IMAGE_BUILD
所述本设备运行VxWorks系统,第一双机热备功能模块、第二双机热备功能模块用于完成以下功能:
在本设备上电运行后,主机板上第一内核的第一双机热备功能模块、第二内核的第二双机热备功能模块首先分别对设备内部其他板卡进行自检,自检完成后第一内核和第二内核均向外部设备发送心跳信号,在心跳信号中包含设备自检结果;
外部设备通过以太网和串口接收本设备发送的心跳信号,只要收到其中一个内核发送的心跳信号,则外部设备向该内核发送控制命令,开始和该内核进行通讯,而此时外部设备只接收另外一个内核的心跳信号,不向其发送控制命令;
外部设备在与其中一个内核通讯的过程中,该内核上的双机热备功能模块检测本设备内部的板卡是否有故障,若有则立即通知外部设备;同时,使用该故障板卡上的备份硬件资源进行工作;如果外部设备在与当前内核通讯的过程中,接收不到该内核的心跳信号,则外部设备立即停止与当前内核进行通讯,并且向另一个内核发送控制命令,开始与另一个内核进行通讯。
2.如权利要求1所述的装置,其特征在于,第一双机热备功能模块与第二双机热备功能模块的IP地址不同。
3.如权利要求1所述的装置,其特征在于,所述装置还包括与所述主机板通过双口RAM连接的并进行数据交互、位于机箱内的1553B总线模块,所述1553B总线模块有双冗余总线通道。
4.如权利要求1所述的装置,其特征在于,所述装置还包括与所述主机板通过双口RAM连接的并进行数据交互、位于机箱内的串口模块,所述串口模块采用两片TL16c554芯片互为备份。
5.如权利要求1所述的装置,其特征在于,所述装置还包括与所述主机板通过双口RAM连接的并进行数据交互、位于机箱内的I/O模块;所述I/O模块实现了24路I/O接口的双冗余功能。
6.如权利要求1所述的装置,其特征在于,所述装置还包括与所述主机板通过双口RAM连接的并进行数据交互、位于机箱内的双冗余网络模块,所述双冗余网络模块采用两片Intel 82580千兆网卡互为备份。
7.如权利要求1至6中任一项所述的装置,其特征在于,所述第一双机热备功能模块、第二双机热备功能模块均用于检测1553B总线模块、智能串口模块、智能I/O模块是否工作正常。
CN201811346932.6A 2018-11-13 2018-11-13 一种嵌入式系统的双机热备装置 Active CN109460314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811346932.6A CN109460314B (zh) 2018-11-13 2018-11-13 一种嵌入式系统的双机热备装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811346932.6A CN109460314B (zh) 2018-11-13 2018-11-13 一种嵌入式系统的双机热备装置

Publications (2)

Publication Number Publication Date
CN109460314A true CN109460314A (zh) 2019-03-12
CN109460314B CN109460314B (zh) 2022-02-11

Family

ID=65610269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811346932.6A Active CN109460314B (zh) 2018-11-13 2018-11-13 一种嵌入式系统的双机热备装置

Country Status (1)

Country Link
CN (1) CN109460314B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101493809A (zh) * 2009-03-03 2009-07-29 哈尔滨工业大学 一种基于fpga的多核心星载计算机
CN203786723U (zh) * 2014-04-18 2014-08-20 北京盛博协同科技有限责任公司 基于x86 pc/104嵌入式cpu模块的双机冗余系统
CN104424053A (zh) * 2013-08-27 2015-03-18 上海机电工程研究所 基于冗余构架的arm嵌入式控制系统及控制方法
US20160323427A1 (en) * 2014-01-22 2016-11-03 Shanghai Jiao Tong University A dual-machine hot standby disaster tolerance system and method for network services in virtualilzed environment
CN108021406A (zh) * 2017-11-03 2018-05-11 中国航空工业集团公司西安航空计算技术研究所 一种适用于机载计算机的双余度热备份cpu系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101493809A (zh) * 2009-03-03 2009-07-29 哈尔滨工业大学 一种基于fpga的多核心星载计算机
CN104424053A (zh) * 2013-08-27 2015-03-18 上海机电工程研究所 基于冗余构架的arm嵌入式控制系统及控制方法
US20160323427A1 (en) * 2014-01-22 2016-11-03 Shanghai Jiao Tong University A dual-machine hot standby disaster tolerance system and method for network services in virtualilzed environment
CN203786723U (zh) * 2014-04-18 2014-08-20 北京盛博协同科技有限责任公司 基于x86 pc/104嵌入式cpu模块的双机冗余系统
CN108021406A (zh) * 2017-11-03 2018-05-11 中国航空工业集团公司西安航空计算技术研究所 一种适用于机载计算机的双余度热备份cpu系统

Also Published As

Publication number Publication date
CN109460314B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN103181133B (zh) 基于pcie交换的服务器系统及其倒换方法和设备
CN201909961U (zh) 一种冗余控制系统
CN107634855A (zh) 一种嵌入式系统的双机热备方法
CN101625568B (zh) 一种基于数据同步控制器的主控单元热备份系统和实现方法
WO2019076036A1 (zh) 一种基于冗余以太网的安全计算机系统
CN108462529B (zh) 主备板卡切换方法、光传送网络设备及存储介质
CN102724093B (zh) 一种atca机框及其ipmb连接方法
CN104050061A (zh) 一种基于PCIe总线多主控板冗余备份系统
CN111767244A (zh) 基于国产龙芯平台的双冗余计算机设备
CN101645915A (zh) 一种磁盘阵列主机通道子卡、在线切换系统及其切换方法
CN101488101A (zh) Cpci冗余备份系统
CN104199353A (zh) 一种冷备份与热备份组合的双主机指挥控制系统
CN107870662A (zh) 一种多CPU系统中CPU复位的方法及PCIe接口卡
CN105763488B (zh) 数据中心汇聚核心交换机及其背板
CN212541329U (zh) 基于国产龙芯平台的双冗余计算机设备
CN105471652A (zh) 大数据一体机及其冗余管理单元
CN110247809B (zh) 双环网控制系统的通信控制方法
CN109460314A (zh) 一种嵌入式系统的双机热备装置
CN114968873B (zh) 一种pcie数据交换装置和切换数据通路的方法
CN109271274A (zh) 一种嵌入式系统的双机热备方法
CN110333973A (zh) 一种多机热备的方法和系统
CN109684136A (zh) 一种灵活配置主控的通信架构系统
CN104182307A (zh) 一种基于自主冗余服务器的串口冗余切换方法
CN107885621B (zh) 一种基于飞腾平台的热备计算机
CN112988636B (zh) 用于数据加速处理的系统、板卡和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant