CN111769983A - 信号处理任务备份动态迁移容灾系统及备份动态迁移方法 - Google Patents

信号处理任务备份动态迁移容灾系统及备份动态迁移方法 Download PDF

Info

Publication number
CN111769983A
CN111769983A CN202010571675.7A CN202010571675A CN111769983A CN 111769983 A CN111769983 A CN 111769983A CN 202010571675 A CN202010571675 A CN 202010571675A CN 111769983 A CN111769983 A CN 111769983A
Authority
CN
China
Prior art keywords
task
signal processing
backup
component
dynamic migration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010571675.7A
Other languages
English (en)
Inventor
翟冠
王浩男
张丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zi Yu Wei Ye Electronic Technology Co ltd
Original Assignee
Beijing Zi Yu Wei Ye Electronic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zi Yu Wei Ye Electronic Technology Co ltd filed Critical Beijing Zi Yu Wei Ye Electronic Technology Co ltd
Priority to CN202010571675.7A priority Critical patent/CN111769983A/zh
Publication of CN111769983A publication Critical patent/CN111769983A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements

Abstract

本发明公开了属于嵌入式信号处理技术领域的一种信号处理任务备份动态迁移容灾系统及备份动态迁移方法。该信号处理任务备份动态迁移容灾系统由主控计算机、任务迁移控制组件分别和数据通信单元连接组成;其中,主控计算机包括任务调度组件和任务状态监控组件;任务迁移控制组件由信号处理单元和备份单元构成;二者通过数据通信单元进行通讯;本发明提出的容灾技术在任务状态监控组件和任务调度组件的干预下实时发现故障节点、实时启动备用节点、实时切换信号处理通信链路,整个容灾响应时间在毫秒量级完成,可以满足雷达、声纳、通信、电子战等嵌入式应用场合的强实时性。

Description

信号处理任务备份动态迁移容灾系统及备份动态迁移方法
技术领域
本发明属于嵌入式信号处理技术领域,特别涉及一种信号处理任务备份动态迁移容灾系统及备份动态迁移方法。
背景技术
在实时信号处理系统中,当一个或多个功能节点出现故障,如何迅速恢复系统功能,保证信号处理的不间断进行,是一个重要需求。实现该种需求的软硬件设计技术被称为容灾技术。在雷达、声纳、通信等应用场景下,容灾技术得到了广泛的应用。从实现原理上看,目前包括双机热备和备件替换两种方案。
广义上讲,双机热备就是对于重要的服务,使用两台服务器,互相备份,共同执行同一服务。当一台服务器出现故障时,可以由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续提供服务。从狭义上讲,双机热备就是使用互为备份的两台服务器共同执行同一服务,其中一台主机为工作机(Primary Server),另一台主机为备份主机(Standby Server)。在系统正常情况下,工作机为应用系统提供服务,备份机监视工作机的运行情况(一般是通过心跳诊断,工作机同时也在检测备份机是否正常),当工作机出现异常,不能支持应用系统运营时,备份机主动接管工作机的工作,继续支持关键应用服务,保证系统不间断的运行。双机热备针对的是IT核心服务器、存储、网络路由交换的故障的高可用性解决方案。
第二种备份是备件替换,多应用在刀片式处理系统中,例如VPX或CPCI体制的信号处理机箱,包含多块信号处理功能刀片。当某个刀片出现故障,需要人工掉电停机,将故障刀片取出,替换成备份刀片,然后重新启动系统。对双机热备方案而言,需要至少两套信号处理设备互为备份,增加了一倍的资源开销;对于备件替换方案而言,至少要准备一块或多块功能刀片作为备件,而不管是成套的信号处理设备还是功能刀片,成本都是非常高的。
发明内容
本发明的目的是提出一种信号处理任务备份动态迁移容灾系统及备份动态迁移方法,其特征在于,针对嵌入式信号处理系统在应用现场可能出现的处理器或功能刀片的损毁,设计了一种信号处理任务备份动态迁移容灾系统,当系统中某一个处理器或功能刀片出现故障,在上位机的监控下发现故障,并将故障处理部件的处理任务动态迁移至备用处理部件上,实现容灾处理,从而实现故障的实时发现判别,以及任务实时备份动态迁移;
所述信号处理任务备份动态迁移容灾系统由主控计算机、任务迁移控制组件分别和数据通信单元连接组成;其中,主控计算机包括任务调度组件和任务状态监控组件;任务迁移控制组件由信号处理单元和备份单元构成;二者通过数据通信单元进行通讯;
所述主控计算机负责运行通用操作系统以及软件组件,并负责与数据通信单元的数据交互;
所述数据通信单元负责信号处理单元和主控计算机之间的数据通信路由,支持的通信协议包含以太网、PCIe和串口;
所述信号处理单元负责在系统正常运行时的信号处理任务;
所述备份单元负责在系统中某个处理器或功能刀片出现问题后进行任务的动态迁移;
所述任务状态监控组件:运行在主控计算机上,负责与数据通信单元的数据交互,查询信号处理单元的工作状态,并向信号处理单元发送动态迁移的指令数据。
所述任务调度组件:运行在主控计算机上,根据任务状态监控组件的信息,依据信号处理单元和备份单元的工作状态和资源状态,对信号处理任务的运行进行动态调度。
所述任务迁移控制组件:运行在信号处理单元上;当信号处理单元的某个计算节点发生故障,则运行在健康状态处理单元上的动态迁移控制组件会在动态迁移命令的控制下,将通信数据发往备用处理单元。
一种信号处理任务备份动态迁移容灾系统的备份动态迁移容灾方法,其特征在于,实施步骤如下:
第一步:用户通过任务调度组件的人机交互界面,指定一个或多个备用处理单元;
第二步:任务状态监控组件每隔一段时间向各个处理器发送动态迁移状态查询指令;其中每隔一段时间由用户设定;
第三步:处理器在收到查询指令后,返回一包健康状态上报指令;
第四步:任务状态监控组件判断信号处理功能节点状态;如果在规定时间内收到所有节点返回的上报指令,则判断系统运行正常;如果任务状态监控组件在规定时间内未接到返回的状态上报指令,会向该处理器再发送一包健康状态询问指令,如果在规定时间内仍然接不到回令,则视为处理器损坏;
第五步:任务调度组件从用户指定的备用处理器中选中一个或若干个处理器,向这些被选中的备用处理器发送动态迁移指令;
第六步:任务调度组件向未发生故障的处理器下发动态迁移指令;
第七步:被选中的备用处理器收到动态迁移指令后,激活对应故障的备用模块代替出现故障的原有的信号处理功能;
第八步:备用处理器与未被损毁的处理器建立通信;
第九步:整个处理流程重新开始运行。
本发明的有益效果包括:(1)资源消耗少,本发明的优点在于可以在现有的信号处理功能刀片中选取一个或若干个备用信号处理节点,在不增加额外硬件开销的前提下实现容灾备份。(2)在嵌入式场合的强实时性,本发明提出的容灾技术在任务状态监控组件和任务调度组件的干预下实时发现故障节点、实时启动备用节点、实时切换信号处理通信链路,整个容灾响应时间在毫秒量级完成,可以满足雷达、声纳、通信、电子战等嵌入式应用场合的强实时性。(3)备份方案灵活,本发明提出的容灾迁移方案,可以在任务调度组件的干预下,在所有的信号处理节点中任意指定备选节点,一旦发生故障,也可以在众多备份节点中选择最优路径进行备份迁移,从而适应不同信号、数据处理场合的实际需求,实现最优调度及任务调度组件、任务迁移控制组件构成。
附图说明
图1为信号处理任务备份动态迁移容灾系统框图。
图2为备份动态迁移容灾的流程图。
图3为一个容灾系统的上位机和下位机框图。
图4为进行容灾迁移前后的设备运行状态。
具体实施方式
本发明提出一种信号处理任务备份动态迁移容灾系统及备份动态迁移方法,针对嵌入式信号处理系统在应用现场可能出现的处理器或功能刀片的损毁,设计了一种信号处理任务备份动态迁移容灾系统,当系统中某一个处理器或功能刀片出现故障,在上位机的监控下发现故障,并将故障处理部件的处理任务动态迁移至备用处理部件上,实现容灾处理,从而实现故障的实时发现判别,以及任务实时备份动态迁移;下面结合附图对本发明予以进一步说明。
图1所示为信号处理任务备份动态迁移容灾系统框图。所述信号处理任务备份动态迁移容灾系统由主控计算机、任务迁移控制组件分别和数据通信单元连接组成;其中,主控计算机包括任务调度组件和任务状态监控组件;任务迁移控制组件由信号处理单元和备份单元构成;二者通过数据通信单元进行通讯;对各部件的任务、作用描述如下,
所述主控计算机负责运行通用操作系统以及软件组件,并负责与数据通信单元的数据交互;
所述数据通信单元负责信号处理单元和主控计算机之间的数据通信路由,支持的通信协议包含以太网、PCIe和串口;
所述信号处理单元负责在系统正常运行时的信号处理任务;
所述备份单元负责在系统中某个处理器或功能刀片出现问题后进行任务的动态迁移;
所述任务状态监控组件:运行在主控计算机上,负责与数据通信单元的数据交互,查询信号处理单元的工作状态,并向信号处理单元发送动态迁移的指令数据。
所述任务调度组件:运行在主控计算机上,根据任务状态监控组件的信息,依据信号处理单元和备份单元的工作状态和资源状态,对信号处理任务的运行进行动态调度。
所述任务迁移控制组件:运行在信号处理单元上;当信号处理单元的某个计算节点发生故障,则运行在健康状态处理单元上的动态迁移控制组件会在动态迁移命令的控制下,将通信数据发往备用处理单元。
图2所示为备份动态迁移容灾的流程图。该信号处理任务备份动态迁移容灾系统的备份动态迁移容灾实施步骤如下:
第一步:用户通过任务调度组件的人机交互界面,指定一个或多个备用处理单元;
第二步:任务状态监控组件每隔一段时间向各个处理器发送动态迁移状态查询指令;其中每隔一段时间由用户设定;
第三步:处理器在收到查询指令后,返回一包健康状态(上报指令;
第四步:任务状态监控组件判断信号处理功能节点状态;如果在规定时间内收到所有节点返回的上报指令,则判断系统运行正常;如果任务状态监控组件在规定时间内未接到返回的状态上报指令,会向该处理器再发送一包健康状态询问指令,如果在规定时间内仍然接不到回令,则视为处理器损坏;
第五步:任务调度组件从用户指定的备用处理器中选中一个或若干个处理器,向这些被选中的备用处理器发送动态迁移指令;
第六步:任务调度组件向未发生故障的处理器下发动态迁移指令;
第七步:被选中的备用处理器收到动态迁移指令后,激活对应故障的备用模块代替出现故障的原有的信号处理功能;
第八步:备用处理器与未被损毁的处理器建立通信;
第九步:整个处理流程重新开始运行。
图3为一个简单的MIMO雷达,一个多片CPU处理器的主控计算机系统,其中多片CPU为工作处理器,2片为备用处理器。
设备正常工作状态下,用户通过上位机监测平台向下位机工作处理器发送一包健康状态查询指令;工作处理器在收到健康状态查询指令后,返回一包目前的健康状态指令。当上位机监测平台确定全部收到返回健康状态指令后,间隔一定时间后继续发送;一旦在规定的时间(超过1s)内未接收到返回的健康状态指令,会向该处理器再发送一包健康状态询问指令,如果在规定时间内仍然未接收到返回指令,则视为处理器损坏。用户通过上位机监测平台向被选中的未发生故障的备用处理器发送动态迁移指令。被选中的备用处理器接收到动态迁移指令后会激活相应的功能模块,与未被损毁的DSP建立通信,从而保证整个处理流程重新开始。
如图3中工作处理器CPU2发生故障,上位机监测平台不能收到返回的健康状态指令,上位机监测平台向备用处理器CPU1发送动态迁移指令,备用CPU1接收到动态迁移指令后,激活对应的备用模块代替出现故障的处理器CPU2内的模块的原有的信号处理功能;开始与工作的处理器CPU1、CPU3、CPU4建立连接,执行CPU2的任务(如图4所示),从而保障程序的正常执行。
综上所述,本发明提出的容灾技术在任务状态监控组件和任务调度组件的干预下实时发现故障节点、实时启动备用节点、实时切换信号处理通信链路,整个容灾响应时间在毫秒量级完成,可以满足雷达、声纳、通信、电子战等嵌入式应用场合的强实时性。
对于双机热备方案和备件替换方案,备份的硬件资源都是固定的。本发明提出的容灾迁移方案,可以在任务调度组件的干预下,在所有的信号处理节点中任意指定备选节点,一旦发生故障,也可以在众多备份节点中选择最优路径进行备份迁移,从而适应不同信号、数据处理场合的实际需求,实现最优调度及任务调度组件、任务迁移控制组件构成。

Claims (2)

1.一种信号处理任务备份动态迁移容灾系统,其特征在于,针对嵌入式信号处理系统在应用现场可能出现的处理器或功能刀片的损毁,设计了一种信号处理任务备份动态迁移容灾系统,当系统中某一个处理器或功能刀片出现故障,在上位机的监控下发现故障,并将故障处理部件的处理任务动态迁移至备用处理部件上,实现容灾处理,从而实现故障的实时发现判别,以及任务实时备份动态迁移;
所述信号处理任务备份动态迁移容灾系统由主控计算机、任务迁移控制组件分别和数据通信单元连接组成;其中,主控计算机包括任务调度组件和任务状态监控组件;任务迁移控制组件由信号处理单元和备份单元构成;二者通过数据通信单元进行通讯;
所述主控计算机负责运行通用操作系统以及软件组件,并负责与数据通信单元的数据交互;
所述数据通信单元负责信号处理单元和主控计算机之间的数据通信路由,支持的通信协议包含以太网、PCIe和串口;
所述信号处理单元负责在系统正常运行时的信号处理任务;
所述备份单元负责在系统中某个处理器或功能刀片出现问题后进行任务的动态迁移;
所述任务状态监控组件:运行在主控计算机上,负责与数据通信单元的数据交互,查询信号处理单元的工作状态,并向信号处理单元发送动态迁移的指令数据;
所述任务调度组件:运行在主控计算机上,根据任务状态监控组件的信息,依据信号处理单元和备份单元的工作状态和资源状态,对信号处理任务的运行进行动态调度;
所述任务迁移控制组件:运行在信号处理单元上;当信号处理单元的某个计算节点发生故障,则运行在健康状态处理单元上的动态迁移控制组件会在动态迁移命令的控制下,将通信数据发往备用处理单元。
2.一种信号处理任务备份动态迁移容灾系统的备份动态迁移容灾方法,其特征在于,实施步骤如下:
第一步:用户通过任务调度组件的人机交互界面,指定一个或多个备用处理单元;
第二步:任务状态监控组件每隔一段时间向各个处理器发送动态迁移状态查询指令;其中每隔一段时间由用户设定;
第三步:处理器在收到查询指令后,返回一包健康状态上报指令;
第四步:任务状态监控组件判断信号处理功能节点状态;如果在规定时间内收到所有节点返回的上报指令,则判断系统运行正常;如果任务状态监控组件在规定时间内未接到返回的状态上报指令,会向该处理器再发送一包健康状态询问指令,如果在规定时间内仍然接不到回令,则视为处理器损坏;
第五步:任务调度组件从用户指定的备用处理器中选中一个或若干个处理器,向这些被选中的备用处理器发送动态迁移指令;
第六步:任务调度组件向未发生故障的处理器下发动态迁移指令;
第七步:被选中的备用处理器收到动态迁移指令后,激活对应故障的备用模块代替出现故障的原有的信号处理功能;
第八步:备用处理器与未被损毁的处理器建立通信;
第九步:整个处理流程重新开始运行。
CN202010571675.7A 2020-06-22 2020-06-22 信号处理任务备份动态迁移容灾系统及备份动态迁移方法 Pending CN111769983A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010571675.7A CN111769983A (zh) 2020-06-22 2020-06-22 信号处理任务备份动态迁移容灾系统及备份动态迁移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010571675.7A CN111769983A (zh) 2020-06-22 2020-06-22 信号处理任务备份动态迁移容灾系统及备份动态迁移方法

Publications (1)

Publication Number Publication Date
CN111769983A true CN111769983A (zh) 2020-10-13

Family

ID=72722718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010571675.7A Pending CN111769983A (zh) 2020-06-22 2020-06-22 信号处理任务备份动态迁移容灾系统及备份动态迁移方法

Country Status (1)

Country Link
CN (1) CN111769983A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1592402A (zh) * 2003-09-02 2005-03-09 华为技术有限公司 一种主用、备用mcu的倒换装置及方法
CN101494697A (zh) * 2008-01-21 2009-07-29 中兴通讯股份有限公司 一种采用双刀片服务器的负载均衡方法和装置
US20090282142A1 (en) * 2008-05-09 2009-11-12 Fujitsu Limited Boot controlling method of managed computer
CN101996111A (zh) * 2010-11-30 2011-03-30 华为技术有限公司 一种倒换方法、装置及分布式刀片服务器系统
CN102983989A (zh) * 2012-11-07 2013-03-20 华为技术有限公司 一种服务器虚拟地址的迁移方法、装置和设备
CN106802854A (zh) * 2017-02-22 2017-06-06 郑州云海信息技术有限公司 一种多控制器系统的故障监控系统
CN109245301A (zh) * 2018-09-30 2019-01-18 南京南瑞继保电气有限公司 一种数字化集中式测控装置及热备用切换方法
CN105009086B (zh) * 2014-03-10 2019-01-18 华为技术有限公司 一种实现处理器切换的方法、计算机和切换装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1592402A (zh) * 2003-09-02 2005-03-09 华为技术有限公司 一种主用、备用mcu的倒换装置及方法
CN101494697A (zh) * 2008-01-21 2009-07-29 中兴通讯股份有限公司 一种采用双刀片服务器的负载均衡方法和装置
US20090282142A1 (en) * 2008-05-09 2009-11-12 Fujitsu Limited Boot controlling method of managed computer
CN101996111A (zh) * 2010-11-30 2011-03-30 华为技术有限公司 一种倒换方法、装置及分布式刀片服务器系统
CN102983989A (zh) * 2012-11-07 2013-03-20 华为技术有限公司 一种服务器虚拟地址的迁移方法、装置和设备
CN105009086B (zh) * 2014-03-10 2019-01-18 华为技术有限公司 一种实现处理器切换的方法、计算机和切换装置
CN106802854A (zh) * 2017-02-22 2017-06-06 郑州云海信息技术有限公司 一种多控制器系统的故障监控系统
CN109245301A (zh) * 2018-09-30 2019-01-18 南京南瑞继保电气有限公司 一种数字化集中式测控装置及热备用切换方法

Similar Documents

Publication Publication Date Title
US6477663B1 (en) Method and apparatus for providing process pair protection for complex applications
CN105302661A (zh) 一种实现虚拟化管理平台高可用的系统和方法
US7093013B1 (en) High availability system for network elements
US20020120884A1 (en) Multi-computer fault detection system
CN114090184B (zh) 一种虚拟化集群高可用性的实现方法和设备
CN101262479B (zh) 一种网络文件共享的方法、服务器和网络文件共享的系统
JP5285045B2 (ja) 仮想環境における故障復旧方法及びサーバ及びプログラム
CN101557307B (zh) 调度自动化系统应用状态管理方法
CN116881053B (zh) 数据处理方法及交换板、数据处理系统、数据处理装置
JP4592511B2 (ja) Ipネットワークサーバのバックアップシステム
CN105515838A (zh) 一种服务配置方法及ha集群系统
CN110740066B (zh) 一种席位不变的跨机故障迁移方法和系统
JP5285044B2 (ja) クラスタシステム復旧方法及びサーバ及びプログラム
CN111769983A (zh) 信号处理任务备份动态迁移容灾系统及备份动态迁移方法
US11954509B2 (en) Service continuation system and service continuation method between active and standby virtual servers
KR101883251B1 (ko) 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법
JPH07319836A (ja) 障害監視方式
Kitamura Configuration of a Power-saving High-availability Server System Incorporating a Hybrid Operation Method
CN110752955A (zh) 一种席位不变故障迁移系统和方法
Corsava et al. Self-healing intelligent infrastructure for computational clusters
JPH1188471A (ja) 試験方法及び試験装置
CN112328375B (zh) 一种用于跟踪分布式系统的数据片段的关联方法和装置
CN115499296B (zh) 一种云桌面热备管理方法、装置及系统
JP5277229B2 (ja) クラスタシステム復旧方法、サーバ及びソフトウェア
JPH10133963A (ja) 計算機の故障検出・回復方式

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201013

RJ01 Rejection of invention patent application after publication