CN115629855A - 一种多余度任务迁移策略和计算设备 - Google Patents
一种多余度任务迁移策略和计算设备 Download PDFInfo
- Publication number
- CN115629855A CN115629855A CN202211259479.1A CN202211259479A CN115629855A CN 115629855 A CN115629855 A CN 115629855A CN 202211259479 A CN202211259479 A CN 202211259479A CN 115629855 A CN115629855 A CN 115629855A
- Authority
- CN
- China
- Prior art keywords
- module
- backup
- unloading
- application program
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/485—Task life-cycle, e.g. stopping, restarting, resuming execution
- G06F9/4856—Task life-cycle, e.g. stopping, restarting, resuming execution resumption being on a different machine, e.g. task migration, virtual machine migration
- G06F9/4862—Task life-cycle, e.g. stopping, restarting, resuming execution resumption being on a different machine, e.g. task migration, virtual machine migration the task being a mobile agent, i.e. specifically designed to migrate
- G06F9/4875—Task life-cycle, e.g. stopping, restarting, resuming execution resumption being on a different machine, e.g. task migration, virtual machine migration the task being a mobile agent, i.e. specifically designed to migrate with migration policy, e.g. auction, contract negotiation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1458—Management of the backup or restore process
- G06F11/1461—Backup scheduling policy
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1458—Management of the backup or restore process
- G06F11/1469—Backup restoration techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3017—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is implementing multitasking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Hardware Redundancy (AREA)
Abstract
本发明公开了一种多余度任务迁移策略和计算设备,包括:健康监控模块,用于进行实时监控与报错,故障管理模块,用于进行异常处理,加卸载模块,用于根据卸载请求进行卸载异常应用程序,加载应用程序镜像和初始化应用程序,冗余备份模块,用于读取蓝图中配置文件,以及根据异常状态类型选择进行对应的恢复异常状态中备份,并向加卸载模块发送构型确认。本发明通过实时监控应用程序运行状态及板卡健康信息,发生异常时,进行自动故障识别、故障诊断、故障恢复,通过应用程序异常卸载、自动加载功能实现构件级冗余备份,通过关键数据共享功能实现板卡级冗余备份,以及通过映像自动分发功能实现机间级冗余备份,全面提升任务可靠性。
Description
技术领域
本发明属于计算机技术领域,具体涉及一种多余度任务迁移策略和计算设备。
背景技术
集群运行环境或者工控运行环境下,需要考虑多余度设计,即当某个模块发生异常时,不会导致整个集群或者工控环境发生异常,这就需要对整个集群、工控环境设计快速备份和实时恢复机制。当应用软件、系统或者硬件发生异常时,能够对故障进行快速隔离和任务恢复。为了减少任务恢复消耗的时间,在计算设备硬件结构上,采用RAPID IO总线和共享内存进行板卡间的互联,在此硬件设计基础上,开发基于RAPID IO总线和共享内存的通信中间件,自动实现指定任务关键数据的实时共享和备份,为应用软件提供快速可靠的数据冗余备份机制,当应用软件、系统或者硬件模块发生异常时,可按照预先配置实现构件级冗余备份,板卡级冗余备份,以及通机间级冗余备份,全面提升系统可靠性。现有技术中,任务迁移策略存在以下特点:(1)任务迁移和任务恢复时间长,通常在秒级;(2)任务迁移时,迁移后的任务需要重新执行,不能跟随异常点发生前执行。
发明内容
针对现有技术中的不足之处,本发明提供一种多余度任务迁移策略和计算设备,适用于集群或者工控领域的计算机设备,内部集成多个计算功能模块,模块之间采用高速总线互联,在此基础上开发通信中间件、快速任务迁移和冗余备份功能,为整个计算设备提供多余度设计,即当一个或多个模块发生故障时,不影响整个计算设备的功能。
为了达到上述目的,本发明技术方案如下:
一种多余度任务迁移策略和计算设备,包括:
健康监控模块,用于进行实时监控与报错,当监测到某种异常状态,向故障管理模块发送异常信息,
故障管理模块,用于进行异常处理,根据异常信息向加卸载模块发送卸载请求,
加卸载模块,用于根据卸载请求进行卸载异常应用程序,并向冗余备份模块发送冗余备份请求,以及根据冗余备份模块的反馈进行加载应用程序镜像和初始化应用程序,
冗余备份模块,用于读取蓝图中配置文件,以及根据异常状态类型选择进行对应的恢复异常状态中备份,并向加卸载模块发送构型确认。
进一步的,所述异常状态分为应用级异常、板卡级异常和处理机异常,对应的恢复异常状态中备份为构件级、板卡级、机间级三级备份。
进一步的,所述构件级备份通过共享内存读取关键数据及运行状态进行。
进一步的,所述板卡级备份通过按照跨板卡读取蓝图构型信息进行。
进一步的,所述机间级备份按照跨处理机读取蓝图构型信息进行。
有益效果:本发明通过实时监控应用程序运行状态及板卡健康信息,发生异常时,进行自动故障识别、故障诊断、故障恢复,通过应用程序异常卸载、自动加载功能实现构件级冗余备份,通过关键数据共享功能实现板卡级冗余备份,以及通过映像自动分发功能实现机间级冗余备份,全面提升任务可靠性。同时,基于SRIO共享内存技术,实现任务间动态数据共享;毫秒级任务迁移;可配置冗余备份策略,支持冷备份、热备份以及机间备份。
附图说明
图1为本发明实施例中模块关系图;
图2为本发明实施例中整体流程图;
图3为本发明实施例中处理机构件级的冗余备份流程图;
图4为本发明实施例中处理机板卡级的冗余备份流程图;
图5为本发明实施例中处理机机间级的冗余备份流程图。
图中,100-健康监控模块,200-故障管理模块,300-加卸载模块,400-冗余备份模块。
具体实施方式
以下参照具体的实施例来说明本发明。本领域技术人员能够理解,这些实施例仅用于说明本发明,其不以任何方式限制本发明的范围。
一种多余度任务迁移策略和计算设备,如图1至图5所示,包括:
健康监控模块100,用于进行实时监控与报错,当监测到某种异常状态,向故障管理模块200发送异常信息,
故障管理模块200,用于进行异常处理,根据异常信息向加卸载模块300发送卸载请求,
加卸载模块300,用于根据卸载请求进行卸载异常应用程序,并向冗余备份模块400发送冗余备份请求,以及根据冗余备份模块400的反馈进行加载应用程序镜像和初始化应用程序,
冗余备份模块400,用于读取蓝图中配置文件,以及根据异常状态类型选择进行对应的恢复异常状态中构件级、板卡级、机间级三级备份,即共享内存读取关键数据及运行状态、按照跨板卡读取蓝图构型信息或者按照跨处理机读取蓝图构型信息,向加卸载模块300发送构型确认。其中,异常状态分为应用级异常、板卡级异常和处理机异常。
如图2所示,本实施例的工作流程:
若健康监控模块100监测到某种异常状态,则触发异常处理流程,同时冗余备份模块400恢复异常状态,将异常状态分为应用级异常,板卡级异常,处理机异常,分别对应恢复异常状态中构件级、板卡级、机间级三级备份。具体的,
(1)构件级备份:当某个应用程序出现异常情况时,触发构件级备份;恢复异常应用程序,同时从共享内存区读取该应用程序之前的运行状态,配置项以及所有数据;该构件级备份模式支持冷备份;
(2)板卡级备份:当处理机中某个应用程序已无法在预定板卡内正常实行时,触发板卡级备份;板卡级备份支持冷备份模式和热备份模式,冷备份模式下在另一个板卡上根据系统蓝图重新启动该应用程序,再通过共享内存区域恢复关键数据;热备份模式下,应用程序在初次启动时,就同时在两个板卡内加载运行,且两个板卡有“主从”之分;
(3)机间级备份:当应用程序在处理机中两个核心处理模块同时出现无法运行的异常情况时,触发机间级备份;将本地蓝图和镜像文件分发到另一台高效能处理机环境中重启启动该应用程序。
如图3所示,处理机构件级备份的工作原理:在处理机内部,构件按照蓝图配置功能进行冗余备份,当构件运行出现异常时,冗余策略遵循构件级冗余优化的原则,确保在处理机同一个计算模块实现构件的卸载与重新加载操作,同时从共享内存区读取该应用程序之前的运行状态并加载运行。
如图4所示,处理机板卡级备份的工作原理:在处理机内部,构件按照蓝图配置功能进行冗余备份,确保在某一台处理机计算模块出现故障时,可根据系统功能冗余备份策略优先将故障计算模块上运行的程序重新加载到同一处理机内的相应计算模块上,从而实现相应处理控制功能。
如图5所示,处理机机间级备份的工作原理:在两台处理机之间按照蓝图配置功能进行冗余备份,确保在某一台处理机计算模块出现故障的情形下,可根据系统功能冗余备份策略将故障计算模块上运行的程序重新加载到其他处理机内的相应计算模块上,从而实现相应处理控制功能。
Claims (5)
1.一种多余度任务迁移策略和计算设备,其特征在于,包括:
健康监控模块,用于进行实时监控与报错,当监测到某种异常状态,向故障管理模块发送异常信息,
故障管理模块,用于进行异常处理,根据异常信息向加卸载模块发送卸载请求,
加卸载模块,用于根据卸载请求进行卸载异常应用程序,并向冗余备份模块发送冗余备份请求,以及根据冗余备份模块的反馈进行加载应用程序镜像和初始化应用程序,
冗余备份模块,用于读取蓝图中配置文件,以及根据异常状态类型选择进行对应的恢复异常状态中备份,并向加卸载模块发送构型确认。
2.如权利要求1所述的多余度任务迁移策略和计算设备,其特征在于,所述异常状态分为应用级异常、板卡级异常和处理机异常,对应的恢复异常状态中备份为构件级、板卡级、机间级三级备份。
3.如权利要求1所述的多余度任务迁移策略和计算设备,其特征在于,所述构件级备份通过共享内存读取关键数据及运行状态进行。
4.如权利要求1所述的多余度任务迁移策略和计算设备,其特征在于,所述板卡级备份通过按照跨板卡读取蓝图构型信息进行。
5.如权利要求1所述的多余度任务迁移策略和计算设备,其特征在于,所述机间级备份按照跨处理机读取蓝图构型信息进行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211259479.1A CN115629855A (zh) | 2022-10-14 | 2022-10-14 | 一种多余度任务迁移策略和计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211259479.1A CN115629855A (zh) | 2022-10-14 | 2022-10-14 | 一种多余度任务迁移策略和计算设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115629855A true CN115629855A (zh) | 2023-01-20 |
Family
ID=84905395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211259479.1A Withdrawn CN115629855A (zh) | 2022-10-14 | 2022-10-14 | 一种多余度任务迁移策略和计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115629855A (zh) |
-
2022
- 2022-10-14 CN CN202211259479.1A patent/CN115629855A/zh not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10394672B2 (en) | Cluster availability management | |
US7934119B2 (en) | Failure recovery method | |
JP2011060055A (ja) | 仮想計算機システム、仮想マシンの復旧処理方法及びそのプログラム | |
JP5392594B2 (ja) | 仮想計算機冗長化システム、コンピュータシステム、仮想計算機冗長化方法、及びプログラム | |
US20170046233A1 (en) | On demand remote diagnostics for hardware component failure and disk drive data recovery using embedded storage media | |
US7373542B2 (en) | Automatic startup of a cluster system after occurrence of a recoverable error | |
WO2011004441A1 (ja) | メモリダンプ機能を有するサーバおよびメモリダンプ取得方法 | |
US20030177224A1 (en) | Clustered/fail-over remote hardware management system | |
CN113147776A (zh) | 车辆用热备份故障处理系统、方法及采用其的车辆 | |
JP4757648B2 (ja) | 処理装置及びその障害復旧方法 | |
JPH07306794A (ja) | 分散システム及び分散システムの高信頼化方法 | |
CN115629855A (zh) | 一种多余度任务迁移策略和计算设备 | |
JP2009003537A (ja) | 計算機 | |
JPH0683657A (ja) | サービスプロセッサの切り換え方式 | |
US20230092343A1 (en) | Lockstep processor recovery for vehicle applications | |
US10360173B2 (en) | Server event log storage and retrieval system | |
CN116991637B (zh) | 嵌入式系统的运行控制方法及装置、电子设备及存储介质 | |
US11847467B2 (en) | Boot method for embedded system including first and second baseboard management controller (BMC) and operating system (OS) image file using shared non-volatile memory module | |
JP6822706B1 (ja) | クラスタシステム、サーバ装置、引継ぎ方法、及びプログラム | |
US7676682B2 (en) | Lightweight management and high availability controller | |
CN117389781B (zh) | 服务器设备的异常侦测与恢复方法、系统、服务器及介质 | |
KR101564144B1 (ko) | 펌웨어 관리 장치 및 방법 | |
JP2785992B2 (ja) | サーバプログラムの管理処理方式 | |
CN117112296A (zh) | 冗余系统的故障处理方法、装置、电子设备及存储介质 | |
CN114398212A (zh) | 存储器件测试异常处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230120 |