CN115629855A - 一种多余度任务迁移策略和计算设备 - Google Patents

一种多余度任务迁移策略和计算设备 Download PDF

Info

Publication number
CN115629855A
CN115629855A CN202211259479.1A CN202211259479A CN115629855A CN 115629855 A CN115629855 A CN 115629855A CN 202211259479 A CN202211259479 A CN 202211259479A CN 115629855 A CN115629855 A CN 115629855A
Authority
CN
China
Prior art keywords
module
backup
unloading
application program
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202211259479.1A
Other languages
English (en)
Inventor
郭鑫宇
王立珂
郝月龙
王乐
颜文丽
陈丽君
刘晓娟
郝亮
李思儒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202211259479.1A priority Critical patent/CN115629855A/zh
Publication of CN115629855A publication Critical patent/CN115629855A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/485Task life-cycle, e.g. stopping, restarting, resuming execution
    • G06F9/4856Task life-cycle, e.g. stopping, restarting, resuming execution resumption being on a different machine, e.g. task migration, virtual machine migration
    • G06F9/4862Task life-cycle, e.g. stopping, restarting, resuming execution resumption being on a different machine, e.g. task migration, virtual machine migration the task being a mobile agent, i.e. specifically designed to migrate
    • G06F9/4875Task life-cycle, e.g. stopping, restarting, resuming execution resumption being on a different machine, e.g. task migration, virtual machine migration the task being a mobile agent, i.e. specifically designed to migrate with migration policy, e.g. auction, contract negotiation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1461Backup scheduling policy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3017Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is implementing multitasking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种多余度任务迁移策略和计算设备,包括:健康监控模块,用于进行实时监控与报错,故障管理模块,用于进行异常处理,加卸载模块,用于根据卸载请求进行卸载异常应用程序,加载应用程序镜像和初始化应用程序,冗余备份模块,用于读取蓝图中配置文件,以及根据异常状态类型选择进行对应的恢复异常状态中备份,并向加卸载模块发送构型确认。本发明通过实时监控应用程序运行状态及板卡健康信息,发生异常时,进行自动故障识别、故障诊断、故障恢复,通过应用程序异常卸载、自动加载功能实现构件级冗余备份,通过关键数据共享功能实现板卡级冗余备份,以及通过映像自动分发功能实现机间级冗余备份,全面提升任务可靠性。

Description

一种多余度任务迁移策略和计算设备
技术领域
本发明属于计算机技术领域,具体涉及一种多余度任务迁移策略和计算设备。
背景技术
集群运行环境或者工控运行环境下,需要考虑多余度设计,即当某个模块发生异常时,不会导致整个集群或者工控环境发生异常,这就需要对整个集群、工控环境设计快速备份和实时恢复机制。当应用软件、系统或者硬件发生异常时,能够对故障进行快速隔离和任务恢复。为了减少任务恢复消耗的时间,在计算设备硬件结构上,采用RAPID IO总线和共享内存进行板卡间的互联,在此硬件设计基础上,开发基于RAPID IO总线和共享内存的通信中间件,自动实现指定任务关键数据的实时共享和备份,为应用软件提供快速可靠的数据冗余备份机制,当应用软件、系统或者硬件模块发生异常时,可按照预先配置实现构件级冗余备份,板卡级冗余备份,以及通机间级冗余备份,全面提升系统可靠性。现有技术中,任务迁移策略存在以下特点:(1)任务迁移和任务恢复时间长,通常在秒级;(2)任务迁移时,迁移后的任务需要重新执行,不能跟随异常点发生前执行。
发明内容
针对现有技术中的不足之处,本发明提供一种多余度任务迁移策略和计算设备,适用于集群或者工控领域的计算机设备,内部集成多个计算功能模块,模块之间采用高速总线互联,在此基础上开发通信中间件、快速任务迁移和冗余备份功能,为整个计算设备提供多余度设计,即当一个或多个模块发生故障时,不影响整个计算设备的功能。
为了达到上述目的,本发明技术方案如下:
一种多余度任务迁移策略和计算设备,包括:
健康监控模块,用于进行实时监控与报错,当监测到某种异常状态,向故障管理模块发送异常信息,
故障管理模块,用于进行异常处理,根据异常信息向加卸载模块发送卸载请求,
加卸载模块,用于根据卸载请求进行卸载异常应用程序,并向冗余备份模块发送冗余备份请求,以及根据冗余备份模块的反馈进行加载应用程序镜像和初始化应用程序,
冗余备份模块,用于读取蓝图中配置文件,以及根据异常状态类型选择进行对应的恢复异常状态中备份,并向加卸载模块发送构型确认。
进一步的,所述异常状态分为应用级异常、板卡级异常和处理机异常,对应的恢复异常状态中备份为构件级、板卡级、机间级三级备份。
进一步的,所述构件级备份通过共享内存读取关键数据及运行状态进行。
进一步的,所述板卡级备份通过按照跨板卡读取蓝图构型信息进行。
进一步的,所述机间级备份按照跨处理机读取蓝图构型信息进行。
有益效果:本发明通过实时监控应用程序运行状态及板卡健康信息,发生异常时,进行自动故障识别、故障诊断、故障恢复,通过应用程序异常卸载、自动加载功能实现构件级冗余备份,通过关键数据共享功能实现板卡级冗余备份,以及通过映像自动分发功能实现机间级冗余备份,全面提升任务可靠性。同时,基于SRIO共享内存技术,实现任务间动态数据共享;毫秒级任务迁移;可配置冗余备份策略,支持冷备份、热备份以及机间备份。
附图说明
图1为本发明实施例中模块关系图;
图2为本发明实施例中整体流程图;
图3为本发明实施例中处理机构件级的冗余备份流程图;
图4为本发明实施例中处理机板卡级的冗余备份流程图;
图5为本发明实施例中处理机机间级的冗余备份流程图。
图中,100-健康监控模块,200-故障管理模块,300-加卸载模块,400-冗余备份模块。
具体实施方式
以下参照具体的实施例来说明本发明。本领域技术人员能够理解,这些实施例仅用于说明本发明,其不以任何方式限制本发明的范围。
一种多余度任务迁移策略和计算设备,如图1至图5所示,包括:
健康监控模块100,用于进行实时监控与报错,当监测到某种异常状态,向故障管理模块200发送异常信息,
故障管理模块200,用于进行异常处理,根据异常信息向加卸载模块300发送卸载请求,
加卸载模块300,用于根据卸载请求进行卸载异常应用程序,并向冗余备份模块400发送冗余备份请求,以及根据冗余备份模块400的反馈进行加载应用程序镜像和初始化应用程序,
冗余备份模块400,用于读取蓝图中配置文件,以及根据异常状态类型选择进行对应的恢复异常状态中构件级、板卡级、机间级三级备份,即共享内存读取关键数据及运行状态、按照跨板卡读取蓝图构型信息或者按照跨处理机读取蓝图构型信息,向加卸载模块300发送构型确认。其中,异常状态分为应用级异常、板卡级异常和处理机异常。
如图2所示,本实施例的工作流程:
若健康监控模块100监测到某种异常状态,则触发异常处理流程,同时冗余备份模块400恢复异常状态,将异常状态分为应用级异常,板卡级异常,处理机异常,分别对应恢复异常状态中构件级、板卡级、机间级三级备份。具体的,
(1)构件级备份:当某个应用程序出现异常情况时,触发构件级备份;恢复异常应用程序,同时从共享内存区读取该应用程序之前的运行状态,配置项以及所有数据;该构件级备份模式支持冷备份;
(2)板卡级备份:当处理机中某个应用程序已无法在预定板卡内正常实行时,触发板卡级备份;板卡级备份支持冷备份模式和热备份模式,冷备份模式下在另一个板卡上根据系统蓝图重新启动该应用程序,再通过共享内存区域恢复关键数据;热备份模式下,应用程序在初次启动时,就同时在两个板卡内加载运行,且两个板卡有“主从”之分;
(3)机间级备份:当应用程序在处理机中两个核心处理模块同时出现无法运行的异常情况时,触发机间级备份;将本地蓝图和镜像文件分发到另一台高效能处理机环境中重启启动该应用程序。
如图3所示,处理机构件级备份的工作原理:在处理机内部,构件按照蓝图配置功能进行冗余备份,当构件运行出现异常时,冗余策略遵循构件级冗余优化的原则,确保在处理机同一个计算模块实现构件的卸载与重新加载操作,同时从共享内存区读取该应用程序之前的运行状态并加载运行。
如图4所示,处理机板卡级备份的工作原理:在处理机内部,构件按照蓝图配置功能进行冗余备份,确保在某一台处理机计算模块出现故障时,可根据系统功能冗余备份策略优先将故障计算模块上运行的程序重新加载到同一处理机内的相应计算模块上,从而实现相应处理控制功能。
如图5所示,处理机机间级备份的工作原理:在两台处理机之间按照蓝图配置功能进行冗余备份,确保在某一台处理机计算模块出现故障的情形下,可根据系统功能冗余备份策略将故障计算模块上运行的程序重新加载到其他处理机内的相应计算模块上,从而实现相应处理控制功能。

Claims (5)

1.一种多余度任务迁移策略和计算设备,其特征在于,包括:
健康监控模块,用于进行实时监控与报错,当监测到某种异常状态,向故障管理模块发送异常信息,
故障管理模块,用于进行异常处理,根据异常信息向加卸载模块发送卸载请求,
加卸载模块,用于根据卸载请求进行卸载异常应用程序,并向冗余备份模块发送冗余备份请求,以及根据冗余备份模块的反馈进行加载应用程序镜像和初始化应用程序,
冗余备份模块,用于读取蓝图中配置文件,以及根据异常状态类型选择进行对应的恢复异常状态中备份,并向加卸载模块发送构型确认。
2.如权利要求1所述的多余度任务迁移策略和计算设备,其特征在于,所述异常状态分为应用级异常、板卡级异常和处理机异常,对应的恢复异常状态中备份为构件级、板卡级、机间级三级备份。
3.如权利要求1所述的多余度任务迁移策略和计算设备,其特征在于,所述构件级备份通过共享内存读取关键数据及运行状态进行。
4.如权利要求1所述的多余度任务迁移策略和计算设备,其特征在于,所述板卡级备份通过按照跨板卡读取蓝图构型信息进行。
5.如权利要求1所述的多余度任务迁移策略和计算设备,其特征在于,所述机间级备份按照跨处理机读取蓝图构型信息进行。
CN202211259479.1A 2022-10-14 2022-10-14 一种多余度任务迁移策略和计算设备 Withdrawn CN115629855A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211259479.1A CN115629855A (zh) 2022-10-14 2022-10-14 一种多余度任务迁移策略和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211259479.1A CN115629855A (zh) 2022-10-14 2022-10-14 一种多余度任务迁移策略和计算设备

Publications (1)

Publication Number Publication Date
CN115629855A true CN115629855A (zh) 2023-01-20

Family

ID=84905395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211259479.1A Withdrawn CN115629855A (zh) 2022-10-14 2022-10-14 一种多余度任务迁移策略和计算设备

Country Status (1)

Country Link
CN (1) CN115629855A (zh)

Similar Documents

Publication Publication Date Title
US10394672B2 (en) Cluster availability management
US7934119B2 (en) Failure recovery method
JP2011060055A (ja) 仮想計算機システム、仮想マシンの復旧処理方法及びそのプログラム
JP5392594B2 (ja) 仮想計算機冗長化システム、コンピュータシステム、仮想計算機冗長化方法、及びプログラム
US20170046233A1 (en) On demand remote diagnostics for hardware component failure and disk drive data recovery using embedded storage media
US7373542B2 (en) Automatic startup of a cluster system after occurrence of a recoverable error
WO2011004441A1 (ja) メモリダンプ機能を有するサーバおよびメモリダンプ取得方法
US20030177224A1 (en) Clustered/fail-over remote hardware management system
CN113147776A (zh) 车辆用热备份故障处理系统、方法及采用其的车辆
JP4757648B2 (ja) 処理装置及びその障害復旧方法
JPH07306794A (ja) 分散システム及び分散システムの高信頼化方法
CN115629855A (zh) 一种多余度任务迁移策略和计算设备
JP2009003537A (ja) 計算機
JPH0683657A (ja) サービスプロセッサの切り換え方式
US20230092343A1 (en) Lockstep processor recovery for vehicle applications
US10360173B2 (en) Server event log storage and retrieval system
CN116991637B (zh) 嵌入式系统的运行控制方法及装置、电子设备及存储介质
US11847467B2 (en) Boot method for embedded system including first and second baseboard management controller (BMC) and operating system (OS) image file using shared non-volatile memory module
JP6822706B1 (ja) クラスタシステム、サーバ装置、引継ぎ方法、及びプログラム
US7676682B2 (en) Lightweight management and high availability controller
CN117389781B (zh) 服务器设备的异常侦测与恢复方法、系统、服务器及介质
KR101564144B1 (ko) 펌웨어 관리 장치 및 방법
JP2785992B2 (ja) サーバプログラムの管理処理方式
CN117112296A (zh) 冗余系统的故障处理方法、装置、电子设备及存储介质
CN114398212A (zh) 存储器件测试异常处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20230120