CN114598591B - 嵌入式平台节点故障恢复系统及方法 - Google Patents

嵌入式平台节点故障恢复系统及方法 Download PDF

Info

Publication number
CN114598591B
CN114598591B CN202210232201.9A CN202210232201A CN114598591B CN 114598591 B CN114598591 B CN 114598591B CN 202210232201 A CN202210232201 A CN 202210232201A CN 114598591 B CN114598591 B CN 114598591B
Authority
CN
China
Prior art keywords
node
application
manager
fault
heartbeat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210232201.9A
Other languages
English (en)
Other versions
CN114598591A (zh
Inventor
檀学文
韩文俊
丁琳琳
李路野
程杭林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 14 Research Institute
Original Assignee
CETC 14 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 14 Research Institute filed Critical CETC 14 Research Institute
Priority to CN202210232201.9A priority Critical patent/CN114598591B/zh
Publication of CN114598591A publication Critical patent/CN114598591A/zh
Application granted granted Critical
Publication of CN114598591B publication Critical patent/CN114598591B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0695Management of faults, events, alarms or notifications the faulty arrangement being the maintenance, administration or management system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors
    • H04L49/557Error correction, e.g. fault recovery or fault tolerance

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了嵌入式平台节点故障恢复系统及方法,所述方法包括以下步骤:包括节点管理器、节点控制器、调度器和应用管理器;每个节点上均设置有节点管理器;节点管理器生成节点的心跳信息,并将心跳信息发送给节点控制器;节点管理器根据接收的应用文件和调度算法进行应用启动或故障恢复;所述节点控制器,负责实时接收节点管理器的心跳模块发送的心跳信息并判断节点是否故障。本发明提供了节点管理器、支持多种异构平台的应用执行和周期性心跳上报,发送节拍可配置,默认为1秒;支持分布式系统资源的按需分配,提高资源利用率。

Description

嵌入式平台节点故障恢复系统及方法
技术领域
本发明涉及雷达目标检测领域,具体涉及嵌入式平台节点故障恢复系统及方法。
背景技术
面对嵌入式平台运行环境不断变化带来的挑战,要求嵌入式平台面向任务功能可扩展、处理能力不断提升,以满足及时响应新的应用需求。
集群是一组相互独立的,通过高速网络互连的计算机,它们构成了一个组,并以单一系统的模式来管理。用户与集群相互作用时,集群像是一个独立的服务器。集群技术是一种通用技术,可以解决单机运算、IO能力的不足,提高服务的可靠性。传统方式下嵌入式平台发生故障时需要关机重启或者返厂维修,需要设计一种嵌入式平台节点故障恢复方法,用以保证后端应用的可靠运行。
发明内容
为了解决上述问题,本发明提出了一种嵌入式平台节点故障恢复系统,包括节点管理器、节点控制器、调度器和应用管理器;
每个节点上均设置有节点管理器;节点管理器生成节点的心跳信息,并将心跳信息发送给节点控制器;节点管理器根据接收的应用文件和调度算法进行应用启动或故障恢复;
所述节点控制器,负责实时接收节点管理器的心跳模块发送的心跳信息并判断节点是否故障;若节点故障,则将节点状态标记为故障并将标记为故障的节点状态发送给调度器;
所述调度器接收节点控制器发送的包含故障信息的节点状态并生成第二调度算法,并分配物理资源和逻辑资源;
所述应用管理器,接收应用文件,并根据调度器的调度算法将应用文件分发到对应的节点,由节点上的节点管理器进行应用启动或故障恢复;所述调度算法包括第一和第二调度算法。
进一步地,所述判断节点是否故障具体为:节点控制器检测到节点管理器的心跳信息连续丢失三次时判断节点故障。
进一步地,所述系统内的应用管理器、节点管理器、节点控制器和调度器之间的均以数据库为媒介采用发布订阅的模式完成数据通信。
进一步地,所述节点管理器,由应用启动模块和心跳模块组成;心跳模块生成节点的心跳信息,并将心跳信息发送给节点控制器;应用启动模块根据接收的应用文件和调度算法进行应用启动或故障恢复;
所述应用启动具体为:应用启动模块根据调度器的第一调度算法和应用管理器发送的应用文件启动应用;
所述调度器根据上位机的资源请求生成第一调度算法。
进一步地,所述调度器生成第一调度算法的依据包括资源类型、资源需求量、资源剩余量、资源负载、应用关联性五个因素。
本发明还提供了一种嵌入式平台节点故障恢复方法,所述方法基于上述任一系统实现,具体包括以下步骤:
节点管理器向节点控制器发送节点的心跳信息;
节点控制器根据节点的心跳信息判断节点是否故障;若故障,则将故障的节点状态发送给调度器,调度器根据故障的节点状态生成第二调度算法并进行故障恢复。
进一步地,所述节点管理器包括心跳模块和应用启动模块;所述节点管理器的心跳模块按照指定周期对心跳信息设置为active后发送给节点控制器。
进一步地,所述节点控制器包括节点心跳接收线程和节点心跳检测线程;
节点心跳接收线程获取来自节点管理器的心跳信息,并保存心跳信息;
节点心跳检测线程按照指定周期对心跳信息进行设置,所述设置具体为:遍历节点的心跳信息,若遍历到的节点的心跳信息为Active,则将心跳信息置为Confirm;若遍历到的心跳信息为Confirm,则将心跳信息置为Miss1;若遍历到的心跳信息为Miss1,则将心跳信息置为Miss2;若遍历到的心跳信息为Miss2,则将心跳信息置为Miss3并判定该节点故障;将故障节点的故障信息更新到节点状态中。
进一步地,所述第二调度算法具体为:
若故障应用有热备应用,故障时先用热备应用替换当前应用,满足应用恢复条件后根据CPU负载指标重新选择节点部署热备应用,若故障应用没有热备应用,则选择本节点或其他节点进行故障恢复;若是本节点恢复,则在故障应用所在节点上重新启动应用完成应用恢复,若是在其他节点上恢复,则根据待选节点的CPU负载指标选择负载最轻的节点作为目标节点来恢复应用完成应用迁移。
进一步地,还包括以下步骤:
调度器接收上位机的资源请求并根据资源请求生成第一调度算法;
应用管理器接收应用文件和第一调度算法并发送给节点管理器;
节点管理器通过根据第一调度算法并进行应用启动。
与现有技术相比,本发明具有以下有益效果:
1、本发明提供了节点管理器、支持多种异构平台的应用执行和周期性心跳上报,发送节拍可配置,默认为1秒;支持分布式系统资源的按需分配,提高资源利用率;
2、本发明提供了节点控制器模块,实时判断故障节点,实现嵌入式平台的高可靠设计,有效预防系统软硬件单点故障问题;
3、本发明提供了调度器模块,支持多种故障恢复调度算法,灵活配置;
4、本发明提供了应用管理器模块,为高实时嵌入式平台故障恢复功能服务。
附图说明
图1为本发明的节点故障恢复架构示意图。
图2为本发明的节点故障判断流程图。
具体实施方式
本发明的目的在于:解决传统嵌入式平台节点故障导致的后端应用无法持续运行问题,
以下结合附图对本发明的嵌入式平台节点故障恢复系统方法的具体实施方式做详细说明。
实施例一
如图1所示,本实施例提供的一种嵌入式平台节点故障恢复系统,包括节点管理器、节点控制器、调度器和应用管理器。
所述节点管理器,由应用启动模块和心跳模块组成,在每个节点上均设置有节点管理器。初始时,所述应用启动模块根据调度器的第一调度算法和应用管理器发送的应用文件启动应用;属于不同工作模式之间的应用,在分配过程中资源可复用;心跳模块生成节点的心跳信息,并将心跳信息发送给节点控制器,其中发送节拍可配置,默认为1秒。应用启动模块根据接收的应用文件和调度算法(包括第一调度算法和第二调度算法)进行应用启动或应用恢复。
所述节点控制器,负责实时接收节点管理器的心跳模块发送的心跳信息,节点控制器检测到节点管理器的心跳信息连续丢失三次,将节点状态标记为故障并将其发送给调度器。
所述调度器接收节点控制器发送的包含故障信息的节点状态,将第二调度算法发送给应用管理器进行应用恢复,应用管理器将第二调度算法发送给节点管理器,节点管理器根据第二调度算法启动应用并进行应用恢复。初始时,所述调度器根据上位机的资源请求形成第一调度算法,并分配物理资源和逻辑资源;调度器形成第一调度算法的依据包括资源类型、资源需求量、资源剩余量、资源负载、应用关联性五个因素;
所述应用管理器,接收上位机的应用文件,并根据调度器的调度算法(包括第一和第二调度算法)将应用文件分发到对应的节点。
本实施例中的通信交互采用异步的通信交互方式,即上位机、应用管理器、节点管理器、节点控制器和调度器之间的均以数据库为媒介采用发布订阅的模式完成数据通信,使得上位机、应用管理器、节点管理器、节点控制器和调度器之间解耦合。
实施例二
如图2所示,本实施例还提供了基于实施例一的节点故障恢复系统的节点恢复方法,支持故障节点的实时恢复和应用迁移,保证应用持续运行,提高系统的鲁棒性,具体包括以下步骤:
上位机向调度器发送资源请求;
调度器根据资源请求生成第一调度算法并分配物理资源和逻辑资源,并将第一调度算法反馈给上位机;
上位机根据第一调度算法将应用文件和第一调度算法发送给应用管理器,
应用管理器将应用文件和第一调度算法通过通信交互顺发到节点管理器,节点管理器通过操作系统调用接口和应用文件启动应用;
节点管理器的心跳模块按照指定周期对心跳信息设置为active,并将设置好的心跳信息发送给节点控制器;
节点控制器根据节点的心跳信息判断节点是否故障;若故障,则将故障的节点状态发送给调度器,调度器根据故障的节点状态生成第二调度算法并进行故障恢复。
所述节点控制器包括节点心跳接收线程和节点心跳检测线程;
节点心跳接收线程获取来自节点管理器的心跳信息,并保存心跳信息;
节点心跳检测线程按照指定周期对心跳信息进行设置,所述设置具体为:遍历节点的心跳信息,若遍历到的节点的心跳信息为Active,则将心跳信息置为Confirm;若遍历到的心跳信息为Confirm,则将心跳信息置为Miss1;若遍历到的心跳信息为Miss1,则将心跳信息置为Miss2;若遍历到的心跳信息为Miss2,则将心跳信息置为Miss3并判定该节点故障;将故障节点的故障信息更新到节点状态中。
节点控制器将包含有故障信息的节点状态发送给调度器生成第二调度算法并进行故障恢复。
所述第二调度算法具体为:
若故障应用有热备应用,故障时先用热备应用替换当前应用,满足应用恢复条件后根据CPU负载指标重新选择节点部署热备应用,若故障应用没有热备应用,则选择本节点或其他节点进行应用恢复;若是在本节点上恢复,则在故障应用当前节点上重新启动应用,若是在其他节点上恢复,则根据待选节点的CPU负载指标选择负载最轻的节点作为目标节点来恢复应用。上述第二调度算法能够大大节省应用恢复的时间。
所述当前节点上的应用恢复即为故障节点的实时恢复,所述在其他节点上进行应用恢复即为应用迁移。
本发明提供了节点管理器模块、支持多种异构平台的应用执行和周期性心跳上报,发送节拍可配置,默认为1秒,支持分布式系统资源的按需分配,提高资源利用率;本发明提供了节点控制器,实时判断故障节点,实现嵌入式平台的高可靠设计,有效预防系统软硬件单点故障问题;本发明提供了调度器,支持多种故障恢复调度算法,灵活配置;本发明提供了应用管理器模块,为高实时嵌入式平台故障恢复功能服务。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种嵌入式平台节点故障恢复系统,其特征在于,包括节点管理器、节点控制器、调度器和应用管理器;
每个节点上均设置有节点管理器;节点管理器生成节点的心跳信息,并将心跳信息发送给节点控制器;节点管理器根据接收的应用文件和调度算法进行应用启动或故障恢复;
所述节点控制器,负责实时接收节点管理器的心跳模块发送的心跳信息并判断节点是否故障;若节点故障,则将节点状态标记为故障并将标记为故障的节点状态发送给调度器;
所述调度器接收节点控制器发送的包含故障信息的节点状态并生成第二调度算法,并分配物理资源和逻辑资源;
所述应用管理器,接收应用文件,并根据调度器的调度算法将应用文件分发到对应的节点,由节点上的节点管理器进行应用启动或故障恢复;所述调度算法包括第一和第二调度算法;
所述调度器生成第一调度算法的依据包括资源类型、资源需求量、资源剩余量、资源负载、应用关联性五个因素;
所述第二调度算法具体为:
若故障应用有热备应用,故障时先用热备应用替换当前应用,满足应用恢复条件后根据CPU负载指标重新选择节点部署热备应用,若故障应用没有热备应用,则选择本节点或其他节点进行应用恢复;若是在本节点上恢复,则在故障应用当前节点上重新启动应用,若是在其他节点上恢复,则根据待选节点的CPU负载指标选择负载最轻的节点作为目标节点来恢复应用。
2.根据权利要求1所述的嵌入式平台节点故障恢复系统,其特征在于,
所述判断节点是否故障具体为:节点控制器检测到节点管理器的心跳信息连续丢失三次时判断节点故障。
3.根据权利要求2所述的嵌入式平台节点故障恢复系统,其特征在于,
所述系统内的应用管理器、节点管理器、节点控制器和调度器之间的均以数据库为媒介采用发布订阅的模式完成数据通信。
4.根据权利要求3所述的嵌入式平台节点故障恢复系统,其特征在于,
所述节点管理器,由应用启动模块和心跳模块组成;心跳模块生成节点的心跳信息,并将心跳信息发送给节点控制器;应用启动模块根据接收的应用文件和调度算法进行应用启动或故障恢复;
所述应用启动具体为:应用启动模块根据调度器的第一调度算法和应用管理器发送的应用文件启动应用;
所述调度器根据上位机的资源请求生成第一调度算法。
5.一种嵌入式平台节点故障恢复方法,其特征在于,所述方法基于权利要求1-4任一权利要求所述系统实现,具体包括以下步骤:
节点管理器向节点控制器发送节点的心跳信息;
节点控制器根据节点的心跳信息判断节点是否故障;若故障,则将故障的节点状态发送给调度器,调度器根据故障的节点状态生成第二调度算法并进行故障恢复。
6.根据权利要求5所述的嵌入式平台节点故障恢复方法,其特征在于,所述节点管理器包括心跳模块和应用启动模块;所述节点管理器的心跳模块按照指定周期对心跳信息设置为active后发送给节点控制器。
7.根据权利要求6所述的嵌入式平台节点故障恢复方法,其特征在于,
所述节点控制器包括节点心跳接收线程和节点心跳检测线程;
节点心跳接收线程获取来自节点管理器的心跳信息,并保存心跳信息;
节点心跳检测线程按照指定周期对心跳信息进行设置,所述设置具体为:遍历节点的心跳信息,若遍历到的节点的心跳信息为Active,则将心跳信息置为Confirm;若遍历到的心跳信息为Confirm,则将心跳信息置为Miss1;若遍历到的心跳信息为Miss1,则将心跳信息置为Miss2;若遍历到的心跳信息为Miss2,则将心跳信息置为Miss3并判定该节点故障;将故障节点的故障信息更新到节点状态中。
8.根据权利要求7所述的嵌入式平台节点故障恢复方法,其特征在于,还包括以下步骤:
调度器接收上位机的资源请求并根据资源请求生成第一调度算法;
应用管理器接收应用文件和第一调度算法并发送给节点管理器;
节点管理器通过根据第一调度算法并进行应用启动。
CN202210232201.9A 2022-03-07 2022-03-07 嵌入式平台节点故障恢复系统及方法 Active CN114598591B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210232201.9A CN114598591B (zh) 2022-03-07 2022-03-07 嵌入式平台节点故障恢复系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210232201.9A CN114598591B (zh) 2022-03-07 2022-03-07 嵌入式平台节点故障恢复系统及方法

Publications (2)

Publication Number Publication Date
CN114598591A CN114598591A (zh) 2022-06-07
CN114598591B true CN114598591B (zh) 2024-02-02

Family

ID=81808852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210232201.9A Active CN114598591B (zh) 2022-03-07 2022-03-07 嵌入式平台节点故障恢复系统及方法

Country Status (1)

Country Link
CN (1) CN114598591B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115242721A (zh) * 2022-07-05 2022-10-25 中国电子科技集团公司第十四研究所 一种嵌入式系统及基于其的数据流负载均衡方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689862B1 (en) * 2007-01-23 2010-03-30 Emc Corporation Application failover in a cluster environment
CN105024879A (zh) * 2015-07-15 2015-11-04 中国船舶重工集团公司第七0九研究所 虚拟机故障检测、恢复系统及虚拟机检测、恢复、启动方法
CN110784350A (zh) * 2019-10-25 2020-02-11 北京计算机技术及应用研究所 一种实时可用集群管理系统的设计方法
CN111176783A (zh) * 2019-11-20 2020-05-19 航天信息股份有限公司 容器治理平台的高可用方法、装置及电子设备
CN111694789A (zh) * 2020-04-22 2020-09-22 西安电子科技大学 嵌入式可重构异构测定方法、系统、存储介质、处理器
CN112636990A (zh) * 2020-12-31 2021-04-09 中国电子科技集团公司第十四研究所 一种资源管理系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI235299B (en) * 2004-04-22 2005-07-01 Univ Nat Cheng Kung Method for providing application cluster service with fault-detection and failure-recovery capabilities

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689862B1 (en) * 2007-01-23 2010-03-30 Emc Corporation Application failover in a cluster environment
CN105024879A (zh) * 2015-07-15 2015-11-04 中国船舶重工集团公司第七0九研究所 虚拟机故障检测、恢复系统及虚拟机检测、恢复、启动方法
CN110784350A (zh) * 2019-10-25 2020-02-11 北京计算机技术及应用研究所 一种实时可用集群管理系统的设计方法
CN111176783A (zh) * 2019-11-20 2020-05-19 航天信息股份有限公司 容器治理平台的高可用方法、装置及电子设备
CN111694789A (zh) * 2020-04-22 2020-09-22 西安电子科技大学 嵌入式可重构异构测定方法、系统、存储介质、处理器
CN112636990A (zh) * 2020-12-31 2021-04-09 中国电子科技集团公司第十四研究所 一种资源管理系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
多因素自适应心跳检测算法研究;易俗;殷慧文;王闯;张一川;;计算机工程与应用(24);全文 *

Also Published As

Publication number Publication date
CN114598591A (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
CN102394774B (zh) 一种云计算操作系统的控制器服务状态监控和故障恢复方法
CN103414712B (zh) 一种分布式虚拟桌面管理系统和方法
CN103778031A (zh) 一种云环境下的分布式系统多级故障容错方法
CN101876926B (zh) 一种非对称结构的软件三机热备容错方法
CN113067850B (zh) 一种多云场景下的集群编排系统
CN110177020A (zh) 一种基于Slurm的高性能集群管理方法
CN110190991B (zh) 一种多应用场景下的分布式流处理系统的容错方法
CN113821376B (zh) 一种基于云灾备的一体化备份容灾方法及系统
CN110727508A (zh) 一种任务调度系统和调度方法
CN114598591B (zh) 嵌入式平台节点故障恢复系统及方法
CN101594254B (zh) 一种基于代理技术的网格计算容错系统及方法
CN111459642A (zh) 一种分布式系统中故障处理和任务处理方法及装置
CN104123183A (zh) 集群作业调度方法和装置
CN110046064B (zh) 一种基于故障漂移的云服务器容灾实现方法
CN100435105C (zh) 集群环境下的应用服务器的系统再生方法
CN108445857B (zh) 一种scada系统的1+n冗余机制设计方法
CN112052095A (zh) 一种分布式高可用的大数据挖掘任务调度系统
CN112527469B (zh) 一种云计算服务器的容错组合方法
CN116346823A (zh) 一种基于消息队列的大数据异构任务调度方法及系统
CN115378800A (zh) 无服务器架构分布式容错系统、方法、装置、设备及介质
CN113515356A (zh) 一种轻量级分布式资源管理与任务调度器及方法
CN115480893B (zh) 异构化节点间的应用迁移方法、系统及集群
CN114827148B (zh) 基于云容错技术的云安全计算方法和装置、存储介质
CN108628708A (zh) 云计算容错方法及装置
CN115858245A (zh) 一种数据备份作业调度系统及备份作业调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant