CN117851169A - 分布式综合任务处理系统健康管理方法 - Google Patents

分布式综合任务处理系统健康管理方法 Download PDF

Info

Publication number
CN117851169A
CN117851169A CN202311832393.8A CN202311832393A CN117851169A CN 117851169 A CN117851169 A CN 117851169A CN 202311832393 A CN202311832393 A CN 202311832393A CN 117851169 A CN117851169 A CN 117851169A
Authority
CN
China
Prior art keywords
health management
level
management system
node
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311832393.8A
Other languages
English (en)
Inventor
丰生磊
李成文
张伟栋
王纯委
余松涛
陆鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Aeronautics Computing Technique Research Institute of AVIC
Original Assignee
Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Aeronautics Computing Technique Research Institute of AVIC filed Critical Xian Aeronautics Computing Technique Research Institute of AVIC
Priority to CN202311832393.8A priority Critical patent/CN117851169A/zh
Publication of CN117851169A publication Critical patent/CN117851169A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明的分布式综合任务处理系统健康管理方法,包括系统级、次系统级和节点级,其中,节点级负责各处理节点的健康管理,搜集电源、内存、处理器、FC节点、重点芯片/模块、温度的健康信息,并通过交换网络上报至次系统级健康管理系统。次系统级负责次系统级健康管理,接收节点级上传的健康信息,将故障信息、健康状态预测结果通过交换网络上报系统管理级健康管理系统,并屏蔽抖动故障。系统级负责全系统健康管理,接收次系统级上传的健康信息,作出综合判断,实时监控全系统健康状态,诊断系统发生故障的原因,迅速作出决策,有效提升任务系统的可靠性、安全性以及系统的任务处理能力。

Description

分布式综合任务处理系统健康管理方法
技术领域
本发明涉及机载分布式综合模块化体系结构的技术领域,尤其涉及一种分布式综合任务处理系统健康管理方法。
背景技术
随着嵌入式系统的迅速发展,为了适应系统任务日益增多的趋势,分布式综合任务处理系统的复杂性也逐步提高。在高复杂性的背景下,系统的健康管理难度也急剧增加,而传统的健康管理方法主要依靠FMECA以及系统的自检结果来对故障信息进行定位,其缺点:
1、将软件故障和硬件故障混在一起,无法快速定位故障,排故周期长;
2、只是对已经发生的故障进行上报,无法根据已有的数据进行故障预测。
发明内容
有鉴于此,本发明提供的分布式综合任务处理系统健康管理方法,对各类故障信息做出快速处理以及进行故障预测,以缓减现阶段任务系统处理故障的压力,提高任务系统的处理能力和可靠性,满足高性能、高安全飞机系统对任务处理系统的需求。
一种分布式综合任务处理系统健康管理方法,包括节点级健康管理系统、次系统级健康管理系统和系统级健康管理系统,节点级健康管理系统配置有多个处理节点,其中,
所述节点级健康管理系统用于各处理节点的健康管理,包括搜集电源、内存、处理器、FC节点、芯片/模块、温度的健康信息及通过自检确定故障信息,并通过交换网络上报至所述次系统级健康管理系统;
所述次系统级健康管理系统接收节点级上传的健康信息,将故障信息、根据健康信息综合出的状态预测结果通过交换网络上报至系统级健康管理系统,屏蔽抖动故障;
所述系统级健康管理系统接收次系统级健康管理系统上传的健康信息,作出综合判断,实时监控全系统健康状态,诊断系统发生故障的原因,并作出决策。
有益效果
相较于传统健康管理系统,对故障信息进行软硬件分类,便于快速排故,并且,传统健康管理系统只是上报已经发生的故障,本发明不仅上报已发生的故障,还能根据健康信息预测潜在的故障,及传统健康管理系统在发现抖动的故障后,会一直通知处理机处理该故障,影响处理机执行其他任务。为不影响处理机工作,本发明在次系统级健康管理系统中设置故障连续出现次数阈值,超过该阈值后,次系统级健康管理系统屏蔽该故障,不会再将该故障上报系统级健康管理系统。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是分布式综合任务处理系统健康管理系统架构。
具体实施方式
下面结合附图对本公开实施例进行详细描述。
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践方面。
参见图1所示的分布式综合任务处理系统健康管理方法,包括节点级健康管理系统、次系统级健康管理系统和系统级健康管理系统,简称“节点级”、“次系统级”和“系统级”,节点级健康管理系统配置有多个处理节点,每个节点作为处理器,其中,
节点级健康管理系统用于各处理节点的健康管理,包括搜集电源、内存、处理器、FC节点、芯片/模块、温度的健康信息及通过自检确定故障信息,并通过交换网络上报至次系统级健康管理系统。例如,双余度管理系统作为次系统级健康管理系统,一般,包括两个次系统级节点。当节点级在启动或者运行过程中,其电压、内存、电源、部分重要元器件以及应用层软件运行工作状态异常时,节点级健康管理系统将该异常发送至次系统级健康管理系统,次系统级健康管理系统将接收到的异常信息分为硬件类和应用软件类,将异常信息进行综合处理后,发送至系统级健康管理系统。系统级健康管理系统根据接收到的故障信息,在极短的时间内作出决策,同时也将该决策与故障记录在本地NVRAM或者其他非易失性存储系统中;
次系统级健康管理系统用于次系统级健康管理,接收节点级上传的健康信息,将故障信息、根据健康信息综合出的状态预测结果通过交换网络上报至系统级健康管理系统,屏蔽抖动故障;
系统级健康管理系统用于机载的任务处理系统全系统健康管理,接收次系统级健康管理系统上传的健康信息,作出综合判断,实时监控全系统健康状态,诊断系统发生故障的原因,并作出决策,从而有效提升任务系统的可靠性、安全性以及系统的任务处理能力。
作为本案所提供的具体实施方式,系统级健康管理系统驻留的处理机分为根节点、次根节点和子节点,根节点的数量为两个,且互为热备份,其中,
系统级健康管理系统驻留的处理机的根节点在功能单元中属于独立电路,不占用功能单元处理资源,两个根节点之间设置通信链路,任意一个系统级健康管理系统驻留的处理机作为主根节点,用于接收健康信息并发送处理后的决策信息,另一个处理机作为从根节点,只接收健康信息并处理且不对外发送,若主根节点发生故障时,从根节点被配置获取控制权,代替主根节点工作。
进一步,次系统级健康管理系统驻留的处理机为次根节点,且数量为两个,在功能单元中属于独立电路,不占用功能单元处理资源,两个次根节点之间设置通信链路,互为热备份,其中的一个次系统级健康管理系统驻留的次根节点作为主次根节点,接收健康信息并发送处理后的信息,另一个次根节点作为从次根节点,只接收健康信息并处理且不对外发送,若主次根节点发生故障时,从根节点被配置获取控制权,代替主根节点工作,并且,节点级健康管理系统驻留的处理机为子节点,在功能单元中属于独立电路,不占用功能单元处理资源。
进一步的,系统级健康管理系统的根节点、次根节点以及子节点分别由独立电源供电,上电次序先于系统的功能电路。
作为本案所提供的具体实施方式,节点级健康管理系统的子节点负责对功能单元的电源、内存、处理器、FC节点、重点芯片/模块、温度的健康信息进行监控,当出现故障时,将故障信息上报给次系统级健康管理系统,并且,响应来自系统级健康管理系统下发的健康信息查询请求,自动向高层级的健康管理系统上报健康信息。
除根据收到的故障信息作出处理决策外,系统级健康管理系统还会通过交换网络周期性下发健康信息上报指令,各节点级健康管理系统收到指令后,将自身节点的健康信息上报至次系统级健康管理系统。次系统级健康管理系统分析收到的信息,判断是否有潜在的故障、即将发生的故障或者跳变的故障,若有以上前两类故障,则将该健康信息上报至系统级健康管理系统,若无,则不上报;若有跳变故障,该故障不停被上报至系统级健康管理系统,系统级健康管理系统不停响应该故障,影响其他任务进程,所以在次系统级健康管理系统设置阈值,当同一故障连续出现次数超过该阈值,则屏蔽该故障,同时告知故障的对应节点停止运行。
参见图1,包括系统级、次系统级和节点级。其中,节点级负责各处理节点的健康管理,搜集电源、内存、处理器、FC节点、重点芯片/模块、温度的健康状态,并通过交换网络上报次系统级健康管理系统。次系统级负责次系统级健康管理,接收节点级上传的健康信息,将故障信息、根据健康信息综合出的状态预测结果通过交换网络上报系统管理级健康管理系统,屏蔽抖动故障。系统级健康管理系统负责全系统健康管理,接收次系统级上传的健康信息,作出综合判断,实时监控全系统健康状态,诊断系统发生故障的原因,迅速作出决策,有效提升任务系统的可靠性、安全性以及系统的任务处理能力。
各层级的健康管理系统驻留在相应层级的处理机上。节点级健康管理系统驻留在节点机上,负责节点机的电源、内存、处理器、FC、温度以及相关重要应用软件运行状态的检测,并将检测结果上报至次系统级健康管理系统。次级管理系统分别驻留在两个相同的处理机B1/B2上,两个处理机为次根节点,两个次根节点之间设置通信链路,互为备份。其中的一个次根节点作为主次根节点,接收节点级系统管理发来的健康信息并发送处理后的决策信息至系统级健康管理系统。另一个根节点作为从次根节点,接收节点级系统管理发来的健康信息并处理,但不对外发送,若主次根节点发生故障,从次根节点夺权后代替主次根节点工作。系统级管理系统分别驻留在两个相同的处理机A1/A2上,该两个处理机为根节点,两个根节点之间设置通信链路,互为备份。其中的一个根节点作为主根节点,接收健康信息并发送处理后的决策信息。另一个根节点作为从根节点,只接收健康信息并处理,但不对外发送,若主根节点发生故障,从根节点夺权后代替主根节点工作。
当节点机在启动或者运行过程中,其电压、内存、电源、部分重要元器件以及应用层软件运行工作状态异常时,节点级健康管理系统将该异常发送至次系统级健康管理系统,次系统级健康管理系统将接收到的异常信息分为硬件类和应用软件类,将异常信息进行综合处理后,发送至系统级健康管理系统。系统级健康管理系统根据接收到的故障信息,在极短的时间内作出决策,同时也将该决策与故障记录在本地NVRAM或者其他非易失性存储系统中。
本发明的健康管理系统独立于系统功能电路,节省功能电路处理资源,使用独立的供电电源,并在上电后先于系统功能电路启动。对故障信息进行软硬件区分,明确故障排查方向,减少故障排查消耗时间,协助系统尽可能快得恢复工作;同时对故障外的健康信息进行汇总预测,筛选出潜在的故障风险;同时,针对抖动故障,设置抖动次数阈值,当该故障连续抖动次数超过阈值后,强制屏蔽该故障,不允许该故障将系统拖死,影响系统正常运行。
以上,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

Claims (6)

1.一种分布式综合任务处理系统健康管理方法,其特征在于,包括节点级健康管理系统、次系统级健康管理系统和系统级健康管理系统,节点级健康管理系统配置有多个处理节点,其中,
所述节点级健康管理系统用于各处理节点的健康管理,包括搜集电源、内存、处理器、FC节点、芯片/模块、温度的健康信息及通过自检确定故障信息,并通过交换网络上报至所述次系统级健康管理系统;
所述次系统级健康管理系统接收节点级上传的健康信息,将故障信息、根据健康信息综合出的状态预测结果通过交换网络上报至系统级健康管理系统,屏蔽抖动故障;
所述系统级健康管理系统接收次系统级健康管理系统上传的健康信息,作出综合判断,实时监控全系统健康状态,诊断系统发生故障的原因,并作出决策。
2.根据权利要求1所述的分布式综合任务处理系统健康管理方法,其特征在于,所述系统级健康管理系统驻留的处理机分为根节点、次根节点和子节点,根节点的数量为两个,且互为热备份,其中,
所述系统级健康管理系统驻留的处理机的根节点在功能单元中属于独立电路,不占用功能单元处理资源,两个根节点之间设置通信链路,任意一个所述系统级健康管理系统驻留的处理机作为主根节点,用于接收健康信息并发送处理后的决策信息,另一个处理机作为从根节点,只接收健康信息并处理且不对外发送,若主根节点发生故障时,从根节点被配置获取控制权,代替主根节点工作。
3.根据权利要求2所述的分布式综合任务处理系统健康管理方法,其特征在于,所述次系统级健康管理系统驻留的处理机为次根节点,且数量为两个,在功能单元中属于独立电路,不占用功能单元处理资源,两个次根节点之间设置通信链路,互为热备份,其中的一个所述次系统级健康管理系统驻留的次根节点作为主次根节点,接收健康信息并发送处理后的信息,另一个次根节点作为从次根节点,只接收健康信息并处理且不对外发送,若主次根节点发生故障时,从根节点被配置获取控制权,代替主根节点工作。
4.根据权利要求3所述的分布式综合任务处理系统健康管理方法,其特征在于,所述节点级健康管理系统驻留的处理机为子节点,在功能单元中属于独立电路,不占用功能单元处理资源。
5.根据权利要求4所述的分布式综合任务处理系统健康管理方法,其特征在于,所述系统级健康管理系统的根节点、次根节点以及子节点分别由独立电源供电,上电次序先于系统的功能电路。
6.根据权利要求5所述的分布式综合任务处理系统健康管理方法,其特征在于,所述节点级健康管理系统的子节点负责对功能单元的电源、内存、处理器、FC节点、重点芯片/模块、温度的健康信息进行监控,当出现故障时,将故障信息上报给次系统级健康管理系统,并且,响应来自系统级健康管理系统下发的健康信息查询请求,自动向高层级的健康管理系统上报健康信息。
CN202311832393.8A 2023-12-27 2023-12-27 分布式综合任务处理系统健康管理方法 Pending CN117851169A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311832393.8A CN117851169A (zh) 2023-12-27 2023-12-27 分布式综合任务处理系统健康管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311832393.8A CN117851169A (zh) 2023-12-27 2023-12-27 分布式综合任务处理系统健康管理方法

Publications (1)

Publication Number Publication Date
CN117851169A true CN117851169A (zh) 2024-04-09

Family

ID=90539495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311832393.8A Pending CN117851169A (zh) 2023-12-27 2023-12-27 分布式综合任务处理系统健康管理方法

Country Status (1)

Country Link
CN (1) CN117851169A (zh)

Similar Documents

Publication Publication Date Title
CN110798375B (zh) 一种增强容器集群高可用性的监控方法、系统及终端设备
CN103607297B (zh) 一种计算机集群系统的故障处理方法
CN103544092B (zh) 一种基于arinc653标准机载电子设备健康监控系统
CN104360868B (zh) 一种大型飞机综合处理平台中的多级故障管理方法
CN105550053A (zh) 一种提升可用性的监控对容错系统余度管理方法
CN104731670B (zh) 一种面向卫星的轮换式星载计算机容错系统
US20040003078A1 (en) Component management framework for high availability and related methods
JP2008097164A (ja) 複数の機能要素から構成されるシステムの故障監視方法
WO2002054255A1 (en) A method for managing faults in a computer system environment
CN110955571A (zh) 面向车规级芯片功能安全的故障管理系统
CN103425545A (zh) 一种多处理器服务器的系统容错方法
CN113194029B (zh) 自动识别和隔离服务网格边车故障的方法、系统、介质和设备
CN108769170A (zh) 一种集群网络故障自检系统及方法
CN105607973A (zh) 一种虚拟机系统中设备故障处理的方法、装置及系统
US20220301367A1 (en) Hot standby fault processing system, method for vehicle and vehicle for adopting same
US20040078732A1 (en) SMP computer system having a distributed error reporting structure
CN103995759B (zh) 基于核内外协同的高可用计算机系统故障处理方法及装置
CN117851169A (zh) 分布式综合任务处理系统健康管理方法
CN112201378A (zh) 基于核电厂dcs平台的热备切换方法、系统、终端及介质
CN110633176B (zh) 工作系统切换方法、立方星和切换装置
US20080008166A1 (en) Method of detecting defective module and signal processing apparatus
CN106444700A (zh) 一种汽车监控主机与定位模块的故障判断方法
CN112447201A (zh) 一种适用于sram型fpga产品的系统级空间单粒子防护方法
CN112751688A (zh) 一种otn设备的流控处理方法、电子设备及存储介质
CN110991673A (zh) 用于复杂系统的故障隔离和定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination