CN108847879A - 基于总线控制器的双机故障检测及恢复方法 - Google Patents

基于总线控制器的双机故障检测及恢复方法 Download PDF

Info

Publication number
CN108847879A
CN108847879A CN201810614659.4A CN201810614659A CN108847879A CN 108847879 A CN108847879 A CN 108847879A CN 201810614659 A CN201810614659 A CN 201810614659A CN 108847879 A CN108847879 A CN 108847879A
Authority
CN
China
Prior art keywords
control unit
far
bus control
unit
bus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810614659.4A
Other languages
English (en)
Other versions
CN108847879B (zh
Inventor
郭艳丽
张大伟
陈骏林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Satellite Engineering
Original Assignee
Shanghai Institute of Satellite Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Satellite Engineering filed Critical Shanghai Institute of Satellite Engineering
Priority to CN201810614659.4A priority Critical patent/CN108847879B/zh
Publication of CN108847879A publication Critical patent/CN108847879A/zh
Application granted granted Critical
Publication of CN108847879B publication Critical patent/CN108847879B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/1851Systems using a satellite or space-based relay
    • H04B7/18519Operations control, administration or maintenance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/40Bus networks
    • H04L12/40169Flexible bus arrangements
    • H04L12/40176Flexible bus arrangements involving redundancy
    • H04L12/40202Flexible bus arrangements involving redundancy by using a plurality of master stations

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Computer And Data Communications (AREA)
  • Small-Scale Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于总线控制器的双机故障检测及恢复方法,包括如下步骤:S1、总线上各远置单元周期性地向总线控制器发送数据备份请求;S2、总线控制器获取远置单元的备份数据并存储在本地;S3、总线控制器周期性地发送测试命令到各远置单元,测试其是否处于正常工作状态;S4、各远置单元接收到测试命令后按照相应要求进行处理,并将测试结果存放在总线缓存区中等步骤。本发明能够自动检测出总线远置单元故障,并在故障情况下与其备份单机建立通信连接,后者通过备份/恢复机制恢复故障前最新的任务状态和数据,尽可能减小故障损失,提高了整星的可靠性与安全性。

Description

基于总线控制器的双机故障检测及恢复方法
技术领域
本发明涉及一种故障检测及恢复方法,特别是涉及一种基于总线控制器的双机故障检测及恢复方法。
背景技术
星载数据管理系统通过串行数据总线与星上其它分系统连接,完成遥测的采集、遥控的分发、时间基准的维护及发布、并协调各分系统完成各类程控作业(比如完成载荷成像并将图像数据传输到地面)或应急处理等。星载数据管理系统作为总线控制器组织总线通信,完成数据的传输和调度。各远置单元,即连接在总线上的各分系统单机,在接收到总线控制器发出的命令后进行响应,完成数据的接收或发送。
卫星上各分系统单机通常采用冷备或热备等方式来实现硬件的冗余备份以提高系统的可靠性,并在互为备份的单机之间建立硬件链路来进行故障的检测,典型的做法是周期性监听对方单机的心跳信号。在检测出故障的情况下,通过切机来实现故障的恢复,即将权控制状态由主机转移到备机,由备机来接替主机继续工作。这种基于心跳链路的双机故障检测及恢复方法在实际应用中,存在以下明显不足:故障的恢复通过切换控制权来实现,切机后备机会忽略主机故障前的运行状态数据,因而会导致任务运行状态的不连续,甚至在某些工况下带来安全隐患,需要地面注数干预。
针对基于心跳链路的双机故障检测及恢复方法所存在的不足,本发明提出了一种基于总线控制器的双机故障检测及恢复方法,该方法与现有可靠性设计方法并不冲突,而是提高系统可靠性及可用性的另一举措。目前没有发现同本发明类似技术的说明或报道,也尚未收集到国内外类似的资料。
发明内容
本发明所要解决的技术问题是提供一种基于总线控制器的双机故障检测及恢复方法,该方法通过总线控制器对总线上各远置单元的运行状态进行周期性地检测,在远置单元故障的情况下自动建立与其备份单机的通信连接,并且该备份单机可以通过备份/恢复机制获取故障前的运行状态数据完成任务现场及数据的恢复。该方法简单实用,显著提高了卫星上各远置单元的可靠性和可用性,对延长整星的使用寿命也具有积极的作用。
本发明是通过下述技术方案来解决上述技术问题的:一种基于总线控制器的双机故障检测及恢复方法,包括如下步骤:
S1、总线上各远置单元周期性地向总线控制器发送数据备份请求;
S2、总线控制器获取远置单元的备份数据并存储在本地;
S3、总线控制器周期性地发送测试命令到各远置单元,测试其是否处于正常工作状态;
S4、各远置单元接收到测试命令后按照相应要求进行处理,并将测试结果存放在总线缓存区中;
S5、总线控制器获取测试结果;
S6、总线控制器判断各远置单元测试结果的正确性;如果不正确,则相应远置单元的通信错误计数器加1;否则将计数器清零;
S7、总线控制器判断各远置单元的通信错误计数器是否大于阈值N;如果大于N,则进入步骤S8;否则进入步骤S3;
S8、总线控制器自动建立与该远置单元备机间的通信连接,并将对应该远置单元的通信错误计数器清零;
S9、步骤S8中的备机向总线控制器发送数据恢复请求;
S10、总线控制器将步骤S2中存储的备份数据返回给请求方以恢复后者的任务现场及数据。
进一步地,所述总线采用集中式的时分串行总线,典型的是1553B总线,其主要特点是分布处理、集中控制和实时响应;总线控制器是总线上唯一可执行建立和启动数据传输任务的终端;远置单元在总线控制器的控制下获取数据或者发送数据。
进一步地,远置单元为连接在总线上的各系统单机,含主机和备机;对于采用冷备的单机,主备机可以采用同一个远置单元地址;对于采用热备的单机,主备机需要采用不同的远置单元地址。
进一步地,远置单元地址为各远置单元在总线上的标识,用于总线控制器识别不同的对象。
进一步地,远置单元的数据备份周期根据备份数据的更新频率、重要程度而定,不同的远置单元可采用不同的备份周期。
进一步地,备份数据为远置单元的重要运行状态数据,丢失会造成较大危害甚至导致任务的失败。
进一步地,总线控制器可为不同的远置单元分别开辟缓存空间来存储后者的备份数据,并周期性地更新备份数据。
进一步地,总线控制器的测试命令及处理要求由通信双方按照协议事先约定,出于通信开销或者可靠性的考虑,可根据实际情况进行简化或者附加处理。
其中,总线控制器进行测试的周期可以根据实际应用环境来确定。一般的原则是总线通信规模较大并且交互复杂,选择较短的测试周期。如果总线上通信规模较小并且交互简单,则选择较长的测试周期
本发明的一种基于总线控制器的双机故障检测及恢复方法能够自动检测出总线远置单元故障,并在故障情况下与其备份单机建立通信连接,后者通过备份/恢复机制恢复故障前最新的任务状态和数据,尽可能减小故障损失,提高了整星的可靠性与安全性。
附图说明
图1为本发明实施例的中总控制器、远置单元的布置示意图。
图2为本发明实施例的工作流程图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
如图1至图2所示,本发明的基于总线控制器的双机故障检测及恢复方法包括下列步骤:
S1、总线上各远置单元周期性地向总线控制器发送数据备份请求;
S2、总线控制器获取远置单元的备份数据并存储在本地;
S3、总线控制器周期性地发送测试命令到各远置单元,测试其是否处于正常工作状态;
S4、各远置单元接收到测试命令后按照相应要求进行处理,并将测试结果存放在总线缓存区中;
S5、总线控制器获取测试结果;
S6、总线控制器判断各远置单元测试结果的正确性;如果不正确,则相应远置单元的通信错误计数器加1;否则将计数器清零;
S7、总线控制器判断各远置单元的通信错误计数器是否大于阈值N;如果大于N,则进入步骤S8;否则进入步骤S3;
S8、总线控制器自动建立与该远置单元备机间的通信连接,并将对应该远置单元的通信错误计数器清零;
S9、步骤S8中的备机向总线控制器发送数据恢复请求;
S10、总线控制器将步骤S2中存储的备份数据返回给请求方以恢复后者的任务现场及数据。
所述总线一种集中式的时分串行总线,典型的是1553B总线,其主要特点是分布处理、集中控制和实时响应。总线控制器是总线上唯一可执行建立和启动数据传输任务的终端。远置单元是在总线控制器的控制下获取数据或者发送数据。远置单元为连接在总线上的各系统单机(含主机和备机)。对于采用冷备的单机,主备机可以采用同一个远置单元地址;对于采用热备的单机,主备机需要采用不同的远置单元地址。远置单元地址为各远置单元在总线上的标识,用于总线控制器识别不同的对象。远置单元的数据备份周期根据备份数据的更新频率、重要程度而定,不同的远置单元可采用不同的备份周期。备份数据为远置单元的重要运行状态数据,丢失会造成较大危害甚至导致任务的失败。总线控制器可为不同的远置单元分别开辟缓存空间来存储后者的备份数据,并周期性地更新备份数据。总线控制器进行测试的周期可以根据实际应用环境来确定。一般的原则是总线通信规模较大并且交互复杂,选择较短的测试周期。如果总线上通信规模较小并且交互简单,则选择较长的测试周期。总线控制器的测试命令及处理要求由通信双方按照协议事先约定,出于通信开销或者可靠性的考虑,可根据实际情况进行简化或者附加处理。
在具体实施例中,本实施例中星载数据管理系统作为总线控制器,通过1553B总线与卫星上各分系统单机连接。实施例中星载数据管理系统虽然采用双机热备,但由于总线控制器的处理机制较为特殊,本发明不详细描述。本实施例重点介绍采用双机热备的远置单元A,如图1所示,该远置单元涉及整星姿态控制和轨道控制的,其可靠性和安全性尤为重要。实施例中相互备份的单机之间采用心跳检测电路进行健康状况的检测与诊断,并在工作单机故障情况下自动夺取控制权继续工作。
总线控制器为了实时检测总线上各远置单元的工作状态,需要维护相应的信息状态表。本例中涉及两个表,一个是远置单元的地址映射表,一个是远置单元的通信错误计数表。在地址映射表中,维护的是远置单元主备机的地址以及当前有效单机地址,比如远置单元A主机的地址是3,备机的地址是4,当前处于工作状态的有效单机地址为3。在通信错误计数表中,描述的是该远置单元通信错误的计数器值,初值为0。
由于本实施例中总线通信信息量规模较大,并且对数据的实时性要求高,为节省总线通信开销,因此对总线控制器发送的测试命令进行简化:由于总线控制器以0.5秒为周期发送命令字检查各远置单元的数据请求情况(注意的是,总线通信是根据远置单元的有效单机地址进行),用于进行本周期的总线通信调度,本例中就根据该次通信返回的状态信息来确定对方的工作状态而不再单独发送测试命令。如果通信无误,则认为远置单元工作正常,将该远置单元的通信错误计数器清零,并根据其数据请求进行后续通信;否则将该远置单元的通信错误计数器加1并进行判断处理,具体流程见图2所示。本例中如果连续10次通信错误(即远置单元失效时间持续5秒),则判断该远置单元失效,与对应远置单元的备机建立通信连接。
本实施例中,远置单元A每16秒就请求运行状态数据的备份,数据长度为256字节,总线控制器获取到备份数据后存储在本地的内存中。如果远置单元A在周期t到周期t+10出现故障时,其备机会自动夺取控制权,并发送数据恢复请求。由于总线控制器并未获取到该请求,因此该请求持续存在(单机只有在请求发送完成后才会撤销该请求)。总线控制器在周期t+10时检测出单机通信故障,建立与远置单元A备机的通信连接,在周期t+11时接收到来自备机的数据恢复请求,此时将之前储存的备份数据发送给远置单元A备机,由后者完成任务状态现场和数据的恢复。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种基于总线控制器的双机故障检测及恢复方法,其特征在于,包括如下步骤:
S1、总线上各远置单元周期性地向总线控制器发送数据备份请求;
S2、总线控制器获取远置单元的备份数据并存储在本地;
S3、总线控制器周期性地发送测试命令到各远置单元,测试其是否处于正常工作状态;
S4、各远置单元接收到测试命令后按照相应要求进行处理,并将测试结果存放在总线缓存区中;
S5、总线控制器获取测试结果;
S6、总线控制器判断各远置单元测试结果的正确性;如果不正确,则相应远置单元的通信错误计数器加1;否则将计数器清零;
S7、总线控制器判断各远置单元的通信错误计数器是否大于阈值N;如果大于N,则进入步骤S8;否则进入步骤S3;
S8、总线控制器自动建立与该远置单元备机间的通信连接,并将对应该远置单元的通信错误计数器清零;
S9、步骤S8中的备机向总线控制器发送数据恢复请求;
S10、总线控制器将步骤S2中存储的备份数据返回给请求方以恢复后者的任务现场及数据。
2.如权利要求1所述的一种基于总线控制器的双机故障检测及恢复方法,其特征在于,所述总线采用集中式的时分串行总线;总线控制器是总线上唯一可执行建立和启动数据传输任务的终端;远置单元在总线控制器的控制下获取数据或者发送数据。
3.如权利要求1所述的一种基于总线控制器的双机故障检测及恢复方法,其特征在于,远置单元为连接在总线上的各系统单机,含主机和备机;对于采用冷备的单机,主备机可以采用同一个远置单元地址;对于采用热备的单机,主备机需要采用不同的远置单元地址。
4.如权利要求3所述的一种基于总线控制器的双机故障检测及恢复方法,其特征在于,远置单元地址为各远置单元在总线上的标识,用于总线控制器识别不同的对象。
5.如权利要求1所述的一种基于总线控制器的双机故障检测及恢复方法,其特征在于,远置单元的数据备份周期根据备份数据的更新频率、重要程度而定,不同的远置单元可采用不同的备份周期。
6.如权利要求1和5所述的一种基于总线控制器的双机故障检测及恢复方法,其特征在于,备份数据为远置单元的重要运行状态数据,丢失会造成较大危害甚至导致任务的失败。
7.如权利要求1所述的一种基于总线控制器的双机故障检测及恢复方法,其特征在于,总线控制器可为不同的远置单元分别开辟缓存空间来存储后者的备份数据,并周期性地更新备份数据。
8.如权利要求1所述的一种基于总线控制器的双机故障检测及恢复方法,其特征在于,总线控制器的测试命令及处理要求由通信双方按照协议事先约定,出于通信开销或者可靠性的考虑,可根据实际情况进行简化或者附加处理。
CN201810614659.4A 2018-06-14 2018-06-14 基于总线控制器的双机故障检测及恢复方法 Active CN108847879B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810614659.4A CN108847879B (zh) 2018-06-14 2018-06-14 基于总线控制器的双机故障检测及恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810614659.4A CN108847879B (zh) 2018-06-14 2018-06-14 基于总线控制器的双机故障检测及恢复方法

Publications (2)

Publication Number Publication Date
CN108847879A true CN108847879A (zh) 2018-11-20
CN108847879B CN108847879B (zh) 2021-05-11

Family

ID=64202369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810614659.4A Active CN108847879B (zh) 2018-06-14 2018-06-14 基于总线控制器的双机故障检测及恢复方法

Country Status (1)

Country Link
CN (1) CN108847879B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766229A (zh) * 2018-12-05 2019-05-17 华东师范大学 一种面向综合电子系统的异常检测方法
CN110245038A (zh) * 2019-06-21 2019-09-17 上海航天计算机技术研究所 数据交叉备份与恢复设备及方法
CN111443592A (zh) * 2020-03-24 2020-07-24 上海卫星工程研究所 设备控制权状态的传递方法及传递系统
CN111478856A (zh) * 2020-03-10 2020-07-31 上海卫星工程研究所 基于主从模式的双冗余设备间通信路由的寻址方法和系统
CN112383462A (zh) * 2020-11-13 2021-02-19 新华三技术有限公司合肥分公司 一种网络设备以及总线配置方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0981091A2 (en) * 1998-08-20 2000-02-23 Hitachi, Ltd. Data copying in storage systems
US20040039967A1 (en) * 2002-08-26 2004-02-26 Samsung Electronics Co., Ltd. Embedded controller for real-time backup of operation states of peripheral devices
CN101207408A (zh) * 2006-12-22 2008-06-25 中兴通讯股份有限公司 一种用于主备倒换的综合故障检测装置和方法
CN101807076A (zh) * 2010-05-26 2010-08-18 哈尔滨工业大学 基于profibus现场总线的具有协同热备份功能的双模冗余容错高可靠控制系统
CN106647613A (zh) * 2017-03-07 2017-05-10 中国电子信息产业集团有限公司第六研究所 一种基于mac的plc双机冗余方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0981091A2 (en) * 1998-08-20 2000-02-23 Hitachi, Ltd. Data copying in storage systems
US20040039967A1 (en) * 2002-08-26 2004-02-26 Samsung Electronics Co., Ltd. Embedded controller for real-time backup of operation states of peripheral devices
CN101207408A (zh) * 2006-12-22 2008-06-25 中兴通讯股份有限公司 一种用于主备倒换的综合故障检测装置和方法
CN101807076A (zh) * 2010-05-26 2010-08-18 哈尔滨工业大学 基于profibus现场总线的具有协同热备份功能的双模冗余容错高可靠控制系统
CN106647613A (zh) * 2017-03-07 2017-05-10 中国电子信息产业集团有限公司第六研究所 一种基于mac的plc双机冗余方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766229A (zh) * 2018-12-05 2019-05-17 华东师范大学 一种面向综合电子系统的异常检测方法
CN109766229B (zh) * 2018-12-05 2022-02-11 华东师范大学 一种面向综合电子系统的异常检测方法
CN110245038A (zh) * 2019-06-21 2019-09-17 上海航天计算机技术研究所 数据交叉备份与恢复设备及方法
CN110245038B (zh) * 2019-06-21 2023-08-18 上海航天计算机技术研究所 数据交叉备份与恢复设备及方法
CN111478856A (zh) * 2020-03-10 2020-07-31 上海卫星工程研究所 基于主从模式的双冗余设备间通信路由的寻址方法和系统
CN111478856B (zh) * 2020-03-10 2022-06-14 上海卫星工程研究所 基于主从模式的双冗余设备间通信路由的寻址方法和系统
CN111443592A (zh) * 2020-03-24 2020-07-24 上海卫星工程研究所 设备控制权状态的传递方法及传递系统
CN112383462A (zh) * 2020-11-13 2021-02-19 新华三技术有限公司合肥分公司 一种网络设备以及总线配置方法

Also Published As

Publication number Publication date
CN108847879B (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN108847879A (zh) 基于总线控制器的双机故障检测及恢复方法
CN103199972A (zh) 基于soa、rs485总线实现的双机热备份切换方法及热备份系统
CN107634855A (zh) 一种嵌入式系统的双机热备方法
CN107065830A (zh) 一种基于仲裁方式的双冗余热备份系统
CN105812161B (zh) 一种控制器故障备份方法和系统
CN107797880A (zh) 一种提高服务器主板bmc可靠性的方法
WO2021093403A1 (zh) 一种并联多端高压直流换流站控制权限切换系统及方法
JPH086910A (ja) クラスタ型計算機システム
CN104468217A (zh) 一种1394网络管理者故障下的网络重建方法
CN107992027A (zh) 一种dcs冗余通信模块切换方法
CN110196564B (zh) 一种抗单粒子辐照的平滑切换双机冗余配电系统
CN105550078B (zh) 一种主备自由切换1553b总线接口板
CN112650620B (zh) 一种存在主从关系的双机冷备份自主冗余方法
JP2773424B2 (ja) ネットワークシステムおよび接続コンピュータ切替え方法
CN110053650B (zh) 一种列车自动运行系统、列车自动运行系统架构及列车自动运行系统的模块管理方法
CN106850264B (zh) 一种网络设备
CN103840956A (zh) 一种物联网网关设备的备份方法
CN207992714U (zh) 安全性独立主备切换设备
CN107590032A (zh) 存储集群故障转移的方法及存储集群系统
CN112596945A (zh) 一种基于双主的灾备方法
CN107942646B (zh) 一种安全性独立主备切换设备及方法
JPH06343074A (ja) 耐故障性システム
CN115037674B (zh) 一种中央控制系统单机及多设备冗余备份方法
JPH0427239A (ja) Lan接続装置の制御方法
CN100499651C (zh) 一种对同步数字系列保护协议进行保护的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant