CN116010156B - 异常处理系统 - Google Patents

异常处理系统 Download PDF

Info

Publication number
CN116010156B
CN116010156B CN202310294257.1A CN202310294257A CN116010156B CN 116010156 B CN116010156 B CN 116010156B CN 202310294257 A CN202310294257 A CN 202310294257A CN 116010156 B CN116010156 B CN 116010156B
Authority
CN
China
Prior art keywords
abnormal
processor
instruction
component
exception
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310294257.1A
Other languages
English (en)
Other versions
CN116010156A (zh
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Moore Threads Technology Co Ltd
Original Assignee
Moore Threads Technology Co Ltd
Filing date
Publication date
Application filed by Moore Threads Technology Co Ltd filed Critical Moore Threads Technology Co Ltd
Priority to CN202310294257.1A priority Critical patent/CN116010156B/zh
Publication of CN116010156A publication Critical patent/CN116010156A/zh
Application granted granted Critical
Publication of CN116010156B publication Critical patent/CN116010156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本公开涉及一种异常处理系统,涉及计算机技术领域,该异常处理系统包括了远端监管系统和近端资源管理系统,近端资源管理系统用于根据获取的一个或多个处理器,以及处理器的外设的运行状态,确定处理器以及外设的异常状态,并对异常状态进行修复、记录、上报中的至少一种;远端监管系统用于根据获取的处理器、外设、近端资源管理系统中的至少一种的运行状态,确定处理器、外设、近端资源管理系统中的至少一种的异常状态,并生成针对异常状态的修复指令,和/或记录异常状态。本公开实施例的异常处理系统能够实时高效地获取近端资源管理系统中硬件资源的异常状态,并对获取到的异常状态快速响应,提高了异常处理系统的异常管理效率。

Description

异常处理系统
技术领域
本公开涉及计算机技术领域,尤其涉及一种异常处理系统。
背景技术
随着计算机系统应用水平不断提高,计算机硬件、软件及网络、数据库等技术的发展,可包括一个或多个处理器的集群系统提供了一种建立从中小规模到大规模并行处理系统的可扩展的方法,广泛应用于各行各业。
然而,在集群系统中,往往会由于某个硬件或某个程序的异常,而导致集群系统整体的运行效率较低或无法正常工作。在这种情况下,相关技术中,往往需要经过长时间系统培训的专业技术工程师,在现场问题调查时针对集群系统的状态不理想或故障情况进行诊断排查,定位集群系统的原始问题场景来源,给出相应的解决方案。然而,目前的系统异常处理方式解决问题的效率比较低。
发明内容
有鉴于此,本公开提出了一种能够提高异常处理效率的异常处理系统。
根据本公开的一方面,提供了一种异常处理系统,包括:远端监管系统和近端资源管理系统,所述近端资源管理系统至少包括一个或多个处理器,用于:获取所述一个或多个处理器,以及所述处理器的外设的运行状态;根据所述运行状态,确定所述处理器以及所述外设的异常状态;对所述异常状态进行修复、记录、上报中的至少一种;所述远端监管系统用于:获取所述处理器、所述外设、所述近端资源管理系统中的至少一种的运行状态;根据所述运行状态,确定所述处理器、所述外设、所述近端资源管理系统中的至少一种的异常状态;生成针对所述异常状态的修复指令,和/或记录所述异常状态。
在一种可能的实现方式中,所述近端资源管理系统包括服务器系统、管理卡系统中的至少一种;在所述近端资源管理系统包括服务器系统的情况下,所述服务器系统用于连接所述一个或多个处理器,并接收所述处理器以及所述外设的运行状态和/或异常状态,以对所述异常状态进行修复、记录、上报中的至少一种,以及接收所述远端监管系统的指令中的至少一种;在所述近端资源管理系统包括管理卡系统的情况下,所述管理卡系统用于连接所述一个或多个处理器,并接收所述处理器以及所述外设的运行状态和/或异常状态,以对所述异常状态进行修复、记录、上报中的至少一种,以及接收所述远端监管系统的指令中的至少一种;在所述近端资源管理系统包括管理卡系统和服务器系统的情况下,所述管理卡系统用于连接所述一个或多个处理器,所述服务器系统用于连接所述管理卡系统。
在一种可能的实现方式中,所述处理器进一步用于:根据所述处理器的运行状态,确定异常中断、异常信息和异常事件中的至少一种;将所述异常中断、异常信息和异常事件中的至少一种上报至所述服务器系统;接收所述服务器系统的异常处理指令和/或自愈指令,并执行所述异常处理指令和/或自愈指令,其中,所述异常处理指令包括软件异常处理指令、硬件异常处理指令中的至少一种。
在一种可能的实现方式中,所述服务器系统进一步用于:接收并记录所述异常中断、异常信息和异常事件中的至少一种;根据所述异常中断、异常信息和异常事件中的至少一种,生成所述异常处理指令和/或自愈指令,并下发至所述管理卡系统和/或所述处理器,其中,所述异常处理指令包括用于隔离所述管理卡系统和/或所述处理器的指令;和/或,根据服务器系统的运行状态,确定服务器系统的异常中断、异常信息和异常事件中的至少一种;根据所述服务器系统的异常中断、异常信息和异常事件中的至少一种,生成用于修复服务器系统的所述异常处理指令和/或自愈指令。
在一种可能的实现方式中,所述服务器系统还用于:将所述针对所述处理器、所述管理卡系统、所述服务器系统的异常中断、异常信息和异常事件中的至少一种,上报至所述远端监管系统; 所述远端监管系统进一步用于:接收并记录针对所述处理器、所述管理卡系统、所述服务器系统的所述异常中断、异常信息和异常事件中的至少一种;根据所述针对所述处理器、所述管理卡系统、所述服务器系统的异常中断、异常信息和异常事件中的至少一种,生成所述修复指令,并下发至所述处理器、所述管理卡系统或所述服务器系统。
在一种可能的实现方式中,所述服务器系统还用于:根据接收到的所述异常中断、异常信息和异常事件中的至少一种,生成异常日志,和/或,采集所述一个或多个处理器的异常日志;将所述异常日志,上报至所述远端监管系统;所述远端监管系统进一步用于:接收所述服务器系统上报的所述异常日志;根据所述异常日志,生成所述修复指令,并下发至所述处理器或所述服务器系统。
在一种可能的实现方式中,在所述处理器还包括安全阈值监管组件的情况下,所述安全阈值监管组件,用于在接收到所述近端资源管理系统和/或远端监管系统的安全阈值配置指令的情况下,根据预设的配置阈值范围,对所述安全阈值配置指令的控制值进行仲裁,得到仲裁结果,所述仲裁结果用于指示所述控制值是否属于所述配置阈值范围;在所述仲裁结果为所述控制值属于所述配置阈值范围的情况下,执行所述安全阈值配置指令,或者,在所述仲裁结果为所述控制值不属于所述配置阈值范围的情况下,不执行所述安全阈值配置指令,并上报失败原因信息至所述近端资源管理系统和/或远端监管系统。
在一种可能的实现方式中,所述失败原因信息包括阈值监管信息,所述安全阈值监管组件还用于:在所述控制值不属于所述配置阈值范围的情况下,生成所述阈值监管信息,并上报至所述近端资源管理系统和/或远端监管系统。
在一种可能的实现方式中,所述处理器还包括状态监控组件,用于获取所述处理器和/或处理器的外设的运行状态,所述运行状态包括功能运行状态、处理器引擎子系统运行状态、任务运行状态、片上系统运行状态、外设运行状态、端口运行状态中的至少一种;其中,所述状态监控组件包括功能状态监控组件、处理器引擎子系统监控组件、任务监控组件、片上系统监控组件、高速串行计算机扩展总线标准的端口监控组件中的至少一种;所述功能状态监控组件,用于获取所述功能运行状态,并用于在功能运行状态异常,或接收到所述修复指令的情况下,进行异常功能的重启;所述处理器引擎子系统监控组件,用于获取处理器的多个子系统的所述处理器引擎子系统运行状态;所述任务监控组件,用于获取预设任务的所述任务运行状态,并在所述预设任务运行状态异常,或接收到所述修复指令的情况下,进行所述预设任务的恢复处理;所述片上系统监控组件,用于获取片上系统的所述片上系统运行状态,以及所述片上系统控制的外设的运行状态;所述高速串行计算机扩展总线标准的端口监控组件,用于获取所述处理器的高速串行计算机扩展总线标准的端口运行状态,并在所述端口运行状态异常,或接收到所述修复指令的情况下,进行关闭端口和端口复位中的任意一种。
在一种可能的实现方式中,所述处理器还包括异常中断管理组件,用于在所述处理器发生预设类型的运行状态异常的情况下产生异常中断,并对异常中断进行上报、记录以及修复处理中的至少一种;其中,所述异常中断管理组件包括异常中断处理组件、异常事件上报组件、异常中断上报组件、中断记录模块中的至少一种;所述异常中断处理组件,用于:根据异常中断,生成异常事件;根据所述异常中断的等级,对所述异常事件进行上报、记录以及根据接收到的修复指令进行修复处理中的至少一种;所述异常事件上报组件,用于:将所述异常事件上报至所述近端资源管理系统和所述远端监管系统中的至少一个;所述异常中断上报组件,用于:将未生成异常事件的异常中断上报至所述近端资源管理系统和所述远端监管系统中的至少一个;所述中断记录模块,用于:记录所述异常中断的中断信息,以及针对所述异常中断的上报和修复处理情况。
在一种可能的实现方式中,所述处理器还包括自愈组件,用于:生成所述自愈指令,或者,接收所述服务器系统的所述自愈指令;根据所述自愈指令,对所述处理器进行重启或看门狗复位中的至少一种;其中,所述自愈组件包括接入式自愈组件、看门狗自愈组件中的至少一个;所述接入式自愈组件,用于根据所述自愈指令,对所述处理器进行重启处理;所述看门狗自愈组件,用于所述自愈指令,对所述处理器进行复位处理。
在一种可能的实现方式中,所述处理器还包括日志管理组件,用于记录所述异常中断、异常信息和异常事件中的至少一种;其中,所述日志管理组件包括关键信息记录组件、日志记录组件、计数组件中的至少一种;所述关键信息记录组件,用于在发生所述异常中断、异常信息和异常事件中的至少一种的情况下,记录所述处理器故障时刻的处理器状态信息;所述日志记录组件,用于在发生所述异常中断、异常信息和异常事件中的至少一种的情况下,记录所述异常中断、异常信息和异常事件中的至少一种的异常信息;所述计数组件,用于在发生所述异常中断、异常信息和异常事件中的至少一种的情况下,记录所述异常中断、异常信息和异常事件中的至少一种的计数信息。
在一种可能的实现方式中,所述处理器还包括异常修复组件,用于在接收到所述修复指令的情况下,根据所述修复指令,对处理器中的发生异常的组件进行修复处理;所述异常修复组件包括处理器引擎子系统修复组件、片上系统修复组件、整卡修复单元中的至少一种;所述处理器引擎子系统修复组件,用于在接收到所述修复指令的情况下,根据所述修复指令,对处理器引擎子系统进行逻辑复位处理;所述片上系统修复组件,用于在接收到所述修复指令的情况下,根据所述修复指令,对片上系统以及所述片上系统控制的外设进行修复处理;所述整卡修复单元,用于在接收到所述修复指令的情况下,根据所述修复指令,对所述处理器的全部组件进行重启或复位处理。
在一种可能的实现方式中,所述服务器系统还包括运行状态获取组件、运行状态获取组件、日志组件、鉴权组件、处理器修复模块、故障处理模块、自愈模块、处理器监控组件、管理卡系统监控组件、信息采集组件中的至少一种;所述运行状态获取组件,用于获取与所述服务器系统连接的所述管理卡系统和/或所述处理器的运行状态、异常状态和/或性能信息;所述日志组件,用于记录所述管理卡系统和/或所述处理器上报的异常状态的异常信息,以及记录所述服务器系统的异常状态的异常信息;所述鉴权组件,用于:在接收到所述远端监管系统的所述修复指令或控制指令的情况下,对所述远端监管系统的权限进行鉴定;在鉴定通过的情况下,执行所述修复指令或所述控制指令,或者,将所述修复指令或所述控制指令下发至所述管理卡系统和/或所述处理器,以使所述管理卡系统和/或所述处理器执行所述修复指令或所述控制指令;所述处理器修复模块,用于:接收所述处理器上报的异常中断、异常信息和异常事件中的至少一种;根据所述异常中断、异常信息和异常事件的至少一种,生成所述异常处理指令;将所述异常处理指令下发至所述处理器;所述故障处理模块,用于接收所述远端监管系统的修复指令,并根据所述修复指令对所述服务器系统或所述处理器的异常中断、异常信息和异常事件的至少一种进行修复处理;所述自愈模块,用于:接收所述处理器上报的异常中断、异常信息和异常事件中的至少一种;根据所述异常中断、异常信息和异常事件的至少一种,生成所述自愈指令;将所述自愈指令下发至所述处理器;和/或,生成所述自愈指令;根据所述自愈指令,对所述服务器进行重启或复位中的至少一种;所述处理器监控组件,用于:获取所述处理器的运行状态和所述异常状态;根据所述运行状态和所述异常状态,确定所述处理器的健康状态;根据所述处理器的健康状态,执行包括展示所述处理器的健康状态、将所述处理器的健康状态上报至所述远端监管系统、为所述远端监管系统提供所述处理器的健康状态的查询服务中的至少一种;所述管理卡系统监控组件用于:获取所述管理卡系统的运行状态和所述异常状态;根据所述运行状态和所述异常状态,确定所述管理卡系统的健康状态;根据所述管理卡系统的健康状态,执行包括展示所述管理卡系统的健康状态、将所述处理器的健康状态上报至所述远端监管系统、为所述远端监管系统提供所述处理器的健康状态的查询服务中的至少一种;所述信息采集组件,用于获取所述处理器、管理卡系统、服务器系统至少一种的运行状态和所述异常状态。
在一种可能的实现方式中,所述远端监管系统还包括远程修复组件、异常管理组件、异常显示模块、升级组件中的至少一种;所述远程修复组件,用于:根据所述处理器或所述近端资源管理系统上报的异常状态,对故障数据库进行查询;在所述故障数据库中查询到与所述异常状态对应的故障码的情况下,根据所述故障码,生成所述修复指令;将所述修复指令下发至所述处理器或所述近端资源管理系统;和/或,根据所述远端监管系统的人机交互界面,获取人工设置的所述修复指令;将所述修复指令下发至所述处理器或所述近端资源管理系统;和/或,在所述故障数据库中未查询到与所述异常状态对应的故障码的情况下,对所述异常状态进行远程诊断,确定异常类型;根据所述异常类型,生成所述修复指令;将所述修复指令下发至所述近端资源管理系统;所述异常管理组件,用于:根据所述异常状态生成异常记录;将所述异常记录存储于所述故障数据库,并根据所述异常记录查询所述故障数据库;所述异常显示模块,用于显示多个近端资源管理系统和/或处理器的健康状态,以及异常状态的历史记录;所述升级组件,用于:按照预设的轮询周期,对所述处理器或所述近端资源管理系统的版本信息进行查询;根据所述版本信息,从预设的升级数据库中提取对应所述版本信息的升级资源;将所述升级资源下发至所述处理器或所述近端资源管理系统;和/或,在所述处理器或所述近端资源管理系统上报的异常状态的情况下,对所述处理器或所述近端资源管理系统的版本信息进行查询;根据所述版本信息,从预设的升级数据库中提取对应所述版本信息的升级资源;将所述升级资源下发至所述处理器或所述近端资源管理系统;和/或,获取管理员输入的升级资源;将所述升级资源下发至所述处理器或所述近端资源管理系统。
在一种可能的实现方式中,所述系统还包括,通信分发系统,用于汇总多个所述处理器或所述近端资源管理系统上报的异常状态和运行状态,并发送至所述远端监管系统,以及将所述远端监管系统下发的修复指令或控制指令传输至目标处理器或目标近端资源管理系统。
在本公开实施例的异常处理系统,包括了远端监管系统和近端资源管理系统,近端资源管理系统用于:根据获取的一个或多个处理器,以及处理器的外设的运行状态,确定处理器以及外设的异常状态,并对异常状态进行修复、记录、上报中的至少一种;远端监管系统用于:根据获取的处理器、外设、近端资源管理系统中的至少一种的运行状态,确定处理器、外设、近端资源管理系统中的至少一种的异常状态,并生成针对所述异常状态的修复指令,和/或记录所述异常状态。通过远端监管系统和近端资源管理系统之间的配合使用,实时高效地获取近端资源管理系统中硬件资源(例如处理器、外设)的异常状态,并对获取到的异常状态快速响应,提高了异常处理系统的异常管理效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1示出根据本公开实施例的一种异常处理系统的框图。
图2示出根据本公开实施例的另一种异常处理系统的框图。
图3示出根据本公开实施例的一种应用于GPU卡集群场景的异常处理系统的示意图。
图4示出根据本公开实施例的一种应用于GPU单卡场景的异常处理系统的示意图。
图5示出根据本公开实施例的另一种异常处理系统的框图。
图6示出根据本公开实施例的另一种应用于GPU卡集群场景的异常处理系统的示意图。
图7示出根据本公开实施例的另一种应用于GPU单卡场景的异常处理系统的示意图。
图8示出根据本公开实施例的另一种异常处理系统的框图。
图9示出根据本公开实施例的另一种应用于GPU卡集群场景的异常处理系统的示意图。
图10示出根据本公开实施例的另一种应用于GPU单卡场景的异常处理系统的示意图。
图11示出根据本公开实施例的处理器的示意图。
图12示出根据本公开实施例的安全阈值监管组件的安全阈值监管数据流的示意图。
图13示出根据本公开实施例的安全阈值监管组件的示意图。
图14示出根据本公开实施例的状态监控组件的示意图。
图15示出根据本公开实施例的异常中断管理组件的示意图。
图16示出根据本公开实施例的自愈组件的示意图。
图17示出根据本公开实施例的日志管理组件的示意图。
图18示出根据本公开实施例的异常修复组件的示意图。
图19示出根据本公开实施例的处理器的数据流的示意图。
图20示出根据本公开实施例的服务器系统的示意图。
图21示出根据本公开实施例的远端监管系统与服务器系统之间的数据流的示意图。
图22示出根据本公开实施例的服务器系统的数据流的示意图。
图23示出根据本公开实施例的远端监管系统的示意图。
图24示出根据本公开实施例的远端监管系统的数据流的示意图。
图25示出根据本公开实施例的一种电子设备的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
另外,为了更好地说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
图1示出根据本公开实施例的异常处理系统的框图,如图1所示,所述异常处理系统包括:远端监管系统11和近端资源管理系统12。
所述近端资源管理系统12至少包括一个或多个处理器10,用于:获取所述一个或多个处理器10,以及所述处理器10的外设的运行状态;根据所述运行状态,确定所述处理器10以及所述外设的异常状态;对所述异常状态进行修复、记录、上报中的至少一种;
所述远端监管系统11用于:获取所述处理器10、所述外设、所述近端资源管理系统12中的至少一种的运行状态;根据所述运行状态,确定所述处理器10、所述外设、所述近端资源管理系统12中的至少一种的异常状态;生成针对所述异常状态的修复指令,和/或记录所述异常状态。
在一种可能的实现方式中,所述近端资源管理系统12可包括一个或多个处理器10,所述处理器10的类型包括但不限于中央处理器(Central Processing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)、张量处理器(Tensor Processing Unit,TPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(FieldProgrammable Gate Array,FPGA)、数字处理器 (Digital Signal Processor,DSP)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器、微处理器、嵌入式芯片等,本公开对处理器10的类型不作限制。
在一种可能的实现方式中,每个处理器10可以连接一个或多个外设,处理器10的外设可以包括与处理器10相连接的硬件设备,例如包括硬盘、磁盘、光盘等存储设备,打印机、显示器、绘图仪、鼠标、风扇等输入输出设备,调整解调器、网卡等通信设备,陀螺仪、光敏传感器、热敏传感器、气敏传感器、压敏传感器等传感器设备,本公开对处理器10的外设的类型不作限制。其中,处理器10可以通过总线接口与外设连接,总线接口可以包括IDE接口、串口、并口、PS\2接口、USB接口、PCI接口等,本公开对总线接口的类型不作限制。
在一种可能的实现方式中,所述异常处理系统还包括通信分发系统,用于汇总多个所述处理器10或所述近端资源管理系统12上报的异常状态和运行状态,并发送至所述远端监管系统11,以及将所述远端监管系统11下发的修复指令或控制指令传输至目标处理器10或目标近端资源管理系统12。
示例性地,通信分发系统可以包括数据处理器(Data Processing Unit,DPU)和/或网络接口控制器(Network Interface Controller,NIC)。DPU可用于网络数据的处理,例如包括网络协议处理、交换路由计算、数据的加密解密、数据压缩等。NIC作为连接设备和传输介质的接口,不仅可以实现与网络传输介质之间的物理连接和电信号匹配,还可以涉及数据帧的发送与接收、数据帧的封装与拆封、介质访问控制、数据的编码与解码、数据缓存等。
示例性地,通信分发系统可以被配置为便于远端监管系统11和近端资源管理系统12之间有线或无线方式的通信。远端监管系统11和近端资源管理系统12可以接入基于通信标准的无线网络,如无线网络(Wi-Fi)、第二代移动通信技术(2G)、第三代移动通信技术(3G)、第四代移动通信技术(4G)、通用移动通信技术的长期演进(LTE)、第五代移动通信技术(5G)或它们的组合。在一个示例性实施例中,所述通信分发系统还可以包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
通过通信分发系统,远端监管系统11可以通过任意种类的网络,例如包括局域网(LAN)或广域网(WAN),连接到近端资源管理系统12,以实现远端监管系统11和近端资源管理系统12之间数据的分发与通信,有利于提高异常处理系统的处理效率,扩展异常处理系统的适用性。
在一种可能的实现方式中,假设近端资源管理系统12获取到一个或多个处理器10的运行状态,和/或,任一处理器10的外设的运行状态,即可以根据获取到的运行状态确定处理器10和/或外设的异常状态,以对异常状态进行修复、记录、上报等处理;近端资源管理系统12还可以通过通信分发系统将获取到的运行状态发送至远端监管系统11,以使远端监管系统11可以根据接收到的运行状态确定处理器10和/或外设的异常状态,生成异常状态进行的修复指令,和/或,记录异常状态。
示例性地,假设近端资源管理系统12根据各处理器10的运行状态,例如各处理器10运行的温度状态,检测出某一处理器10处于温度过高的异常状态,近端资源管理系统12可以直接对该异常状态进行修复,例如可以关闭该处理器10的部分进程、提高处理器10附近的风扇的转速;或者,近端资源管理系统12还可以对该异常状态进行记录处理,例如记录当前处于异常状态的处理器10的温度值;或者,近端资源管理系统12还可以通过通信分发系统将异常状态上报至远端监管系统11,以使远端监管系统11根据异常状态生成针对处理器10处于温度过高的异常状态的修复指令,和/或,记录该异常状态,例如记录当前处于异常状态的处理器10的温度值。
示例性地,假设近端资源管理系统12根据各处理器10的外设的运行状态,检测出某一处理器10的风扇处于转速过高的异常状态,近端资源管理系统12可以直接对该异常状态进行修复,例如,关闭风扇;或者,近端资源管理系统12还可以对该异常状态进行记录处理,例如记录当前处于异常状态的风扇的转速值;或者,近端资源管理系统12还可以通过通信分发系统将该异常状态上报至远端监管系统11,以使远端监管系统11根据异常状态生成针对风扇处于转速过高的异常状态的修复指令,和/或,记录该异常状态,例如记录当前处于异常状态的风扇的转速值。
在一种可能的实现方式中,本公开实施例的异常处理系统可以包括一个远端监管系统11和N个(N≥1)近端资源管理系统12,可以为每个目标任务部署一个或多个近端资源管理系统12以提供近端的资源管理服务,远端监管系统11可以通过网络传输远程监控与管理这N个近端资源管理系统12。
通过这种方式,远端监管系统11和近端资源管理系统12可以相互配合使用,实时高效地获取近端资源管理系统12中硬件资源(例如处理器10、外设)的异常状态,并对获取到的异常状态快速响应,提高了异常处理系统的异常管理效率。
其中,近端资源管理系统12可以主动监管并修复任一处理器10、任一外设的软硬件的异常状态,近端资源管理系统12也可以将处理器10和外设的运行状态上报给远端监管系统11,通过远端监管系统11监管并修复任一处理器10、任一外设的软硬件的异常状态。
在一种可能的实现方式中,为了提高异常处理效率,图2示出根据本公开实施例的另一种异常处理系统的框图,如图2所示,在所述近端资源管理系统12还包括服务器系统13的情况下,所述服务器系统13用于连接所述一个或多个处理器10,并接收所述处理器10以及所述外设的运行状态和/或异常状态,以对所述异常状态进行修复、记录、上报中的至少一种,以及接收所述远端监管系统11的指令中的至少一种。其中,所述服务器系统13可包括多个服务器,每个服务器可以负责一个或多个处理器10。
下面以GPU卡作为处理器10的例子,对本公开实施例的异常处理系统进行举例说明。
其中,每个GPU卡可以包括显卡GPU和系统级芯片SOC,显卡GPU可用于处理图像和图形相关的运算工作,系统级芯片SOC可以用于将显卡GPU、CPU显卡连接的外设的运行状态和/或异常状态上报至服务器系统13,以使服务器系统13可以获取到GPU卡以及外设的运行状态和/或异常状态,进而服务器系统13可以对异常状态进行修复、记录、上报中的至少一种。本公开对每个GPU卡的构成不作具体限制。
示例性地,图3示出根据本公开实施例的一种应用于GPU卡集群场景的异常处理系统的示意图,如图3所示,近端资源管理系统12可以包括服务器系统13和M×N个(M,N为正整数)GPU卡(GPU卡11~GPU卡MN作为M×N个处理器10的示例),其中,服务器系统13可以包括服务器1~服务器N,每个服务器可以连接一个或多个GPU卡,用于接收GPU卡、GPU卡连接的外设的运行状态和/或异常状态,以对异常状态进行修复、记录、上报中的至少一种。进一步,服务器系统13包括的各服务器,还可以利用通信分发系统15接收远端监管系统11的指令,并根据远端监管系统11的指令,指示CPU卡执行相应的任务。
例如,服务器1可以连接第一列的GPU卡,即:GPU卡11~GPU卡M1,用于接收GPU卡11~GPU卡M1的运行状态和/或异常状态,以及与GPU卡11~GPU卡M1连接的外设的运行状态和/或异常状态,以对异常状态进行修复、记录、上报中的至少一种;进一步,服务器1还可以利用通信分发系统15接收远端监管系统11的指令,并根据远端监管系统11的指令,指示GPU卡11~GPU卡M1执行相应的任务。
服务器2可以连接第2列的GPU卡,即:GPU卡12~GPU卡M2,用于接收GPU卡12~GPU卡M2的运行状态和/或异常状态,以及与GPU卡12~GPU卡M2连接的外设的运行状态和/或异常状态,以对异常状态进行修复、记录、上报中的至少一种;进一步,服务器2还可以利用通信分发系统15接收远端监管系统11的指令,并根据远端监管系统11的指令,指示GPU卡12~GPU卡M2执行相应的任务。
以此类推,服务器N可以连接第N列的GPU卡,即:GPU卡1N~GPU卡MN,用于接收GPU卡1N~GPU卡MN的运行状态和/或异常状态,以及与GPU卡1N~GPU卡MN连接的外设的运行状态和/或异常状态,以对异常状态进行修复、记录、上报中的至少一种;进一步,服务器N还可以利用通信分发系统15接收远端监管系统11的指令,并根据远端监管系统11的指令,指示GPU卡1N~GPU卡MN执行相应的任务。
通过这种方式,对于存在多个处理器10的集群场景,可以使每个服务器分别负责部分处理器10,以提高异常处理的并行度,进而提高异常处理效率。
示例性地,图4示出根据本公开实施例的一种应用于GPU单卡场景的异常处理系统的示意图,如图4所示,近端资源管理系统12可以包括一个服务器(由一个服务器构成服务器系统13)和一个GPU卡(GPU卡作为处理器10),其中,服务器可以通过高速串行计算机扩展总线标准(Peripheral Component Interconnect express,PCIe)与通信分发系统15和GPU卡连接。
服务器可用于接收GPU卡的运行状态和/或异常状态,以及与GPU卡连接的外设的运行状态和/或异常状态,以对异常状态进行修复、记录、上报中的至少一种;进一步,服务器还可以利用通信分发系统15接收远端监管系统11的指令,并根据远端监管系统11的指令,指示GPU卡执行相应的任务。
应当理解,在实际的应用中,可以针对不同的应用场景,设置不同数量的服务器,以使用尽量少的处理器资源高效实现处理器异常管理,本公开的实施例对服务器系统13包括的服务器的数量不作限制。
在一种可能的实现方式中,所述服务器系统13还用于:将所述异常中断、异常信息和异常事件中的至少一种,上报至所述远端监管系统11;所述远端监管系统11进一步用于:接收并记录所述异常中断、异常信息和异常事件中的至少一种;根据所述异常中断、异常信息和异常事件中的至少一种,生成所述修复指令,并下发至所述处理器10或所述服务器系统13。
通过这种方式,有利于管理员可以利用远端监管系统11实时监控所述处理器10或所述服务器系统13,根据服务器系统13的上报信息对所述处理器10或所述服务器系统13进行修复。
在一种可能的实现方式中,所述服务器系统13还用于:根据服务器系统13的运行状态,确定服务器系统13的异常中断、异常信息和异常事件中的至少一种;根据所述服务器系统13的异常中断、异常信息和异常事件中的至少一种,生成用于修复服务器系统13的所述异常处理指令和/或自愈指令。
通过这种方式,服务器系统13可以主动针对自身的异常进行修复。
在一种可能的实现方式中,所述服务器系统13还用于:根据接收到的所述异常中断、异常信息和异常事件中的至少一种,生成异常日志,和/或,采集所述一个或多个处理器10的异常日志;将所述异常日志,上报至所述远端监管系统11;所述远端监管系统11进一步用于:接收所述服务器系统13上报的所述异常日志;根据所述异常日志,生成所述修复指令,并下发至所述处理器10或所述服务器系统13。
通过这种方式,由于异常日志可记录全面的信息,根据异常日志生成的修复指令,可以对系统进行更全面的修复,有利于提高异常处理的可靠性。
在一种可能的实现方式中,为了进一步提高异常处理效率,高效利用硬件资源,图5示出根据本公开实施例的另一种异常处理系统的示意图,如图5所示,在所述近端资源管理系统12还包括管理卡系统14的情况下,所述管理卡系统14用于连接所述一个或多个处理器10,并接收所述处理器10以及所述外设的运行状态和/或异常状态,以对所述异常状态进行修复、记录、上报中的至少一种,以及接收所述远端监管系统11的指令中的至少一种。其中,在不存在服务器系统13的情况下,管理卡系统14可起到替代服务器系统13功能的作用。
其中,可以将处理器集群中的任一处理器作为管理卡系统14,管理卡系统14包括但不限于中央处理器(Central Processing Unit,CPU)、图形处理器(GraphicsProcessing Unit,GPU)、张量处理器(Tensor Processing Unit,TPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(FieldProgrammable Gate Array,FPGA)、数字处理器 (Digital Signal Processor,DSP)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器、微处理器、嵌入式芯片等,本公开对管理卡系统14的类型不作限制。
示例性地,每个服务器系统13可包括一个或多个服务器,每个管理卡系统14可包括一个或多个管理卡,每个服务器可连接一个或多个管理卡,每个管理卡可连接一个或多个处理器10。
示例性地,每个处理器10可以根据各自的运行状态,确定各自的异常状态,并进行修复、记录、上报中的至少一种;每个管理卡可以根据各自的运行状态,确定各自的异常状态,并进行修复、记录、上报中的至少一种;每个服务器也可以根据各自的运行状态,确定各自的异常状态,并进行修复、记录、上报中的至少一种。
示例性地,每个管理卡可获取与该管理卡连接的一个或多个处理器10的运行状态,管理卡可根据接收的运行状态确定一个或多个处理器10的异常状态,并向一个或多个处理器10下发用于修复异常状态的指令;或者,每个管理卡可获取与该管理卡连接的一个或多个处理器10的异常状态,管理卡可根据一个或多个处理器10的异常状态生成用于修复该异常状态的指令,并将该指令下发至一个或多个处理器10。
示例性地,每个服务器可获取与该服务器连接的一个或多个管理卡的运行状态,服务器可根据接收的运行状态确定一个或多个管理卡的异常状态,并向一个或多个管理卡下发用于修复异常状态的指令;或者,每个服务器可获取与该服务器连接的一个或多个管理卡的异常状态,服务器可根据一个或多个管理卡的异常状态生成用于修复该异常状态的指令,并将该指令下发至一个或多个管理卡。
示例性地,每个服务器可经由管理卡获取一个或多个处理器10的运行状态,服务器可根据接收到的运行状态确定一个或多个处理器10的异常状态,并经由管理卡向一个或多个处理器10下发用于修复异常状态的指令;或者,每个服务器可经由管理卡获取一个或多个处理器10的异常状态,服务器可根据一个或多个处理器10的异常状态生成用于修复该异常状态的指令,并经由管理卡将该指令下发至一个或多个处理器10。
示例性地,所述服务器系统13可用于:将所述针对所述处理器10、所述管理卡系统14、所述服务器系统13的异常中断、异常信息和异常事件中的至少一种,上报至所述远端监管系统11; 所述远端监管系统11可用于:接收并记录针对所述处理器10、所述管理卡系统14、所述服务器系统13的所述异常中断、异常信息和异常事件中的至少一种;根据所述针对所述处理器10、所述管理卡系统14、所述服务器系统13的异常中断、异常信息和异常事件中的至少一种,生成所述修复指令,并下发至所述处理器10、所述管理卡系统14或所述服务器系统13。
其中,远端监管系统11接收的每个异常中断、异常信息和异常事件可分别对应一个编号,用于指示发生了异常中断、异常信息和异常事件的硬件,例如,远端监管系统11接收到某一编号为N的处理器10的异常中断,可以将生成的修复指令下发至编号为N的处理器10(或者经由服务器系统13、管理卡系统14转发至编号为M的管理卡),以使该处理器10执行修复指令;又例如,远端监管系统11接收到某一编号为M的管理卡的异常中断,可以将生成的修复指令下发至编号为M的管理卡(或者经由服务器系统13转发至编号为M的管理卡),以使编号为M的管理卡执行修复指令;又例如,远端监管系统11接收到某一编号为P的服务器的异常中断,可以将生成的修复指令下发至编号为P的服务器,以使编号为P的服务器执行修复指令。
示例性地,图6示出根据本公开实施例的一种应用于GPU卡集群场景的异常处理系统的示意图,如图6所示,近端资源管理系统12可以包括(M+1)×N个(M,N为正整数)个GPU卡,其中,管理卡系统14包括N个GPU卡,例如GPU卡1(管理卡)~GPU卡N(管理卡),管理卡系统14中的每个管理卡可以连接一个或多个GPU卡,用于接收GPU卡、GPU卡连接的外设的运行状态和/或异常状态,以对异常状态进行修复、记录、上报中的至少一种。进一步管理卡系统14包括的GPU卡1(管理卡)~GPU卡N(管理卡),还可以利用通信分发系统15接收远端监管系统11的指令,并根据远端监管系统11的指令,指示每个管理卡负责的CPU卡执行相应的任务。
例如,GPU卡1(管理卡)可以连接第一列的GPU卡,即:GPU卡11~GPU卡M1,用于接收GPU卡11~GPU卡M1的运行状态和/或异常状态,以及与GPU卡11~GPU卡M1连接的外设的运行状态和/或异常状态,以对异常状态进行修复、记录、上报中的至少一种;进一步,GPU卡1(管理卡)还可以利用通信分发系统15接收远端监管系统11的指令,并根据远端监管系统11的指令,指示GPU卡11~GPU卡M1执行相应的任务。
GPU卡2(管理卡)可以连接第2列的GPU卡,即:GPU卡12~GPU卡M2,用于接收GPU卡12~GPU卡M2的运行状态和/或异常状态,以及与GPU卡12~GPU卡M2连接的外设的运行状态和/或异常状态,以对异常状态进行修复、记录、上报中的至少一种;进一步,GPU卡2(管理卡)还可以利用通信分发系统15接收远端监管系统11的指令,并根据远端监管系统11的指令,指示GPU卡12~GPU卡M2执行相应的任务。
以此类推,GPU卡N(管理卡)可以连接第N列的GPU卡,即:GPU卡1N~GPU卡MN,用于接收GPU卡1N~GPU卡MN的运行状态和/或异常状态,以及与GPU卡1N~GPU卡MN连接的外设的运行状态和/或异常状态,以对异常状态进行修复、记录、上报中的至少一种;进一步, GPU卡N(管理卡)还可以利用通信分发系统15接收远端监管系统11的指令,并根据远端监管系统11的指令,指示GPU卡1N~GPU卡MN执行相应的任务。
通过这种方式,对于存在多个处理器10的集群场景,可以从近端资源管理系统12包括的处理器10集群中选择部分处理器10作为管理卡,以提高异常处理的并行度,进而提高异常处理效率。
示例性地,图7示出根据本公开实施例的另一种应用于GPU单卡场景的异常处理系统的示意图,如图7所示,近端资源管理系统12可以包括一个GPU卡0,并将该GPU卡0作为管理卡,即GPU卡0(管理卡),其中,GPU卡0(管理卡)可以通过高速串行计算机扩展总线标准(Peripheral Component Interconnect express,PCIe)与通信分发系统15连接。
GPU卡0(管理卡)可以根据获取到的自身的运行状态和/或异常状态,及其连接的外设的运行状态和/或异常状态,对异常状态进行修复、记录、上报中的至少一种;进一步,GPU卡0(管理卡)还可以利用通信分发系统15接收远端监管系统11的指令,并根据远端监管系统11的指令执行相应的任务。
应当理解,在实际的应用中,可以针对不同的应用场景,从处理器集群中选择不同数量的处理器作为管理卡,以使用尽量少的处理器资源高效实现处理器异常管理,本公开的实施例对管理卡系统14包括的管理卡的数量不作限制。
在一种可能的实现方式中,为了实现异常处理的分级管理,提高异常处理效率,图8示出根据本公开实施例的另一种异常处理系统的示意图,如图8所示,在所述近端资源管理系统12还包括管理卡系统14和服务器系统13的情况下,所述管理卡系统14用于连接所述一个或多个处理器10,所述服务器系统13用于连接所述管理卡系统14。
示例性地,图9示出根据本公开实施例的另一种应用于GPU卡集群场景的异常处理系统的示意图,如图9所示,近端资源管理系统12可以包括服务器系统13、管理卡系统14、M×N个(M,N为正整数)处理器10(例如GPU卡11~GPU卡MN),其中,服务器系统13可以包括服务器1~服务器N,管理卡系统14可包括GPU卡1(管理卡)~ GPU卡N(管理卡),每个服务器可以连接一个或多个GPU卡(管理卡),每个GPU卡(管理卡)可连接一个或多个GPU卡。
例如,服务器1可以连接GPU卡1(管理卡),GPU卡1(管理卡)连接第一列的GPU卡,即:GPU卡11~GPU卡M1。这样,GPU卡1(管理卡)可以根据接收的GPU卡11~GPU卡M1的运行状态和/或异常状态,以及与GPU卡11~GPU卡M1连接的外设的运行状态和/或异常状态,以对异常状态进行修复、记录、上报中的至少一种;或者,GPU卡1(管理卡)可以将接收的GPU卡11~GPU卡M1的运行状态和/或异常状态,以及与GPU卡11~GPU卡M1连接的外设的运行状态和/或异常状态,上传至服务器1,以使服务器1根据接收到的运行状态和/或异常状态生成对异常状态进行修复、记录、上报中的指令,并将该指令下发至GPU卡1(管理卡)或GPU卡11~GPU卡M1,指示GPU卡11~GPU卡M1执行相应的任务;或者,GPU卡1(管理卡)还可以接收服务器1利用通信分发系统15所转发的远端监管系统11的指令,并根据远端监管系统11的指令,指示GPU卡11~GPU卡M1执行相应的任务。
服务器2可以连接GPU卡2(管理卡),GPU卡2(管理卡)连接第二列的GPU卡,即:GPU卡12~GPU卡M2。这样,GPU卡2(管理卡)可以根据接收的GPU卡12~GPU卡M2的运行状态和/或异常状态,以及与GPU卡12~GPU卡M2连接的外设的运行状态和/或异常状态,以对异常状态进行修复、记录、上报中的至少一种;或者,GPU卡2(管理卡)可以将接收的GPU卡12~GPU卡M2的运行状态和/或异常状态,以及与GPU卡12~GPU卡M2连接的外设的运行状态和/或异常状态,上传至服务器2,以使服务器2根据接收到的运行状态和/或异常状态生成对异常状态进行修复、记录、上报中的指令,并将该指令下发至GPU卡2(管理卡)或GPU卡12~GPU卡M2,指示GPU卡12~GPU卡M2执行相应的任务;或者,GPU卡2(管理卡)还可以接收服务器2利用通信分发系统15所转发的远端监管系统11的指令,并根据远端监管系统11的指令,指示GPU卡12~GPU卡M2执行相应的任务。
以此类推,服务器N可以连接GPU卡N(管理卡),GPU卡N(管理卡)连接第N列的GPU卡,即:GPU卡1N~GPU卡MN。这样,GPU卡N(管理卡)可以根据接收的GPU卡1N~GPU卡MN的运行状态和/或异常状态,以及与GPU卡1N~GPU卡MN连接的外设的运行状态和/或异常状态,以对异常状态进行修复、记录、上报中的至少一种;或者,GPU卡N(管理卡)可以将接收的GPU卡1N~GPU卡MN的运行状态和/或异常状态,以及与GPU卡1N~GPU卡MN连接的外设的运行状态和/或异常状态,上传至服务器N,以使服务器N根据接收到的运行状态和/或异常状态生成对异常状态进行修复、记录、上报中的指令,并将该指令下发至GPU卡N(管理卡)或GPU卡1N~GPU卡MN,指示GPU卡1N~GPU卡MN执行相应的任务;或者,GPU卡N(管理卡)还可以接收服务器N利用通信分发系统15所转发的远端监管系统11的指令,并根据远端监管系统11的指令,指示GPU卡1N~GPU卡MN执行相应的任务。
通过这种方式,对于存在多个处理器10的集群场景,可以通过设置服务器系统13和管理卡系统14实现异常处理的分级管理,提高异常处理效率。
示例性地,图10示出根据本公开实施例的另一种应用于GPU单卡场景的异常处理系统的示意图。如图10所示,近端资源管理系统12可以包括一个服务器和一个GPU卡,其中,GPU卡还可以作为管理卡,即GPU卡(管理卡),服务器可以通过高速串行计算机扩展总线标准(Peripheral Component Interconnect express,PCIe)与通信分发系统15和GPU卡(管理卡)连接。
GPU卡(管理卡)可以获取自身的运行状态和/或异常状态,并将其发送至服务器,服务器可用于接收GPU卡(管理卡)的运行状态和/或异常状态,以及与GPU卡(管理卡)连接的外设的运行状态和/或异常状态,以对异常状态进行修复、记录、上报中的至少一种;进一步,服务器还可以利用通信分发系统15接收远端监管系统11的指令,并根据远端监管系统11的指令,指示GPU卡(管理卡)执行相应的任务。
应当理解,在实际的应用中,可以针对不同的应用场景,设置不同数量的服务器和管理卡,以使用尽量少的硬件资源高效实现处理器异常管理,本公开的实施例对服务器系统13包括的服务器的数量、以及管理卡系统14包括的管理卡数量不作限制。
下面对本公开实施例的异常处理系统进行展开说明。
图11示出根据本公开实施例的处理器10的示意图,如图11所示,所述处理器10可以包括:安全阈值监管组件101、状态监控组件102、异常中断管理组件103、自愈组件104、日志管理组件105、异常修复组件106、故障库上报组件107、异常事件管理组件108。
应当理解,图11仅作为示例,本公开的实施例对处理器10可包括的组件的数量与类别不作限制,可以根据实际的应用场景,删除和\或增加一个或多个具有某类功能的组件。
在一种可能的实现方式中,在所述处理器10还包括安全阈值监管组件101的情况下,所述安全阈值监管组件101,用于在接收到所述近端资源管理系统12和/或远端监管系统11的安全阈值配置指令的情况下,根据预设的配置阈值范围,对所述安全阈值配置指令的控制值进行仲裁,得到仲裁结果,所述仲裁结果用于指示所述控制值是否属于所述配置阈值范围;在所述仲裁结果为所述控制值属于所述配置阈值范围的情况下,执行所述安全阈值配置指令。
所述安全阈值监管组件101还用于,在所述仲裁结果为所述控制值不属于所述配置阈值范围的情况下,不执行所述安全阈值配置指令,并上报失败原因信息至所述近端资源管理系统12和/或远端监管系统11。其中,所述失败原因信息包括阈值监管信息,所述安全阈值监管组件101还用于:在所述控制值不属于所述配置阈值范围的情况下,生成所述阈值监管信息,并上报至所述近端资源管理系统12和/或远端监管系统11。
示例性地,图12示出根据本公开实施例的安全阈值监管组件101的安全阈值监管数据流的示意图,如图12所示,通过通信分发系统15,安全阈值监管组件101可以接收到近端资源管理系统12和/或远端监管系统11发送的安全阈值配置指令,所述安全阈值配置指令可用于对处理器10的外设的参数进行配置,将处理器10的外设的参数设置为安全阈值配置指令携带的控制值。
安全阈值监管组件101响应于接收到的安全阈值配置指令,可以判断安全阈值配置指令携带的控制值是否属于预设的配置阈值范围,如果安全阈值配置指令携带的控制值属于预设的配置阈值范围,可以执行该安全阈值配置指令,可以将处理器10的外设的参数设置为安全阈值配置指令携带的控制值;如果安全阈值配置指令携带的控制值不属于预设的配置阈值范围,安全阈值监管组件101不执行该安全阈值配置指令,上报失败原因信息至近端资源管理系统12和/或远端监管系统11,并等待近端资源管理系统12和/或远端监管系统11发送下一个安全阈值配置指令。
通过这种方式,可以高效实现安全阈值的监管,减少了硬件损坏的概率,提高待监管系统的安全性。
图13示出根据本公开实施例的安全阈值监管组件101的示意图,如图13所示,所述安全阈值监管组件101可以包括:工艺、电压、温度阈值监管组件1011、外设阈值监管组件1012、频率阈值监管组件1013、功耗阈值监管组件1014。
应当理解,本公开的实施例仅以工艺、电压、温度阈值监管组件1011、外设阈值监管组件1012、频率阈值监管组件1013、功耗阈值监管组件1014为例,在实际的应用中,安全阈值监管组件101可以包括各类功能的阈值监管组件,本公开对安全阈值监管组件101可包括的各类功能的阈值监管组件的数量和类型不作限制。
在一种可能的实现方式中,所述安全阈值监管组件101可包括工艺、电压、温度阈值监管组件1011,用于对传输至所述处理器10的工艺的安全阈值配置指令、电压的安全阈值配置指令和温度的安全阈值配置指令中的至少一种的控制值进行验证,并在所述控制值属于所述配置阈值范围的情况下,执行所述安全阈值配置指令。
示例性地,通过通信分发系统15,工艺、电压、温度阈值监管组件1011可以接收到近端资源管理系统12和/或远端监管系统11发送的工艺的安全阈值配置指令、电压的安全阈值配置指令和温度的安全阈值配置指令中的至少一种的控制值进行验证,判断工艺的安全阈值配置指令、电压的安全阈值配置指令和温度的安全阈值配置指令中的至少一种所携带的控制值是否属于预设的配置阈值范围,如果控制值属于预设的配置阈值范围,可以执行控制值对应的安全阈值配置指令,将处理器10的外设的参数设置为该控制值;如果控制值不属于预设的配置阈值范围,不执行该控制值对应的安全阈值配置指令,上报失败原因信息至近端资源管理系统12和/或远端监管系统11,并等待近端资源管理系统12和/或远端监管系统11发送下一个安全阈值配置指令。
例如,假设在工艺的安全阈值配置指令的控制值P属于预设的配置阈值范围,电压的安全阈值配置指令的控制值V和温度的安全阈值配置指令的控制值T不属于预设的配置范围情况下,可以执行工艺的安全阈值配置指令,将处理器10的外设的工艺参数设置为控制值P,并拒绝执行电压的安全阈值配置指令和温度的安全阈值配置指令,上报对应的失败原因信息至近端资源管理系统12和/或远端监管系统11,并等待近端资源管理系统12和/或远端监管系统11发送下一个电压的安全阈值配置指令和温度的安全阈值配置指令。
通过这种方式,工艺、电压、温度阈值监管组件1011可以提供工艺、电压、温度阈值监管能力,减少硬件损坏的概率。
在一种可能的实现方式中,所述安全阈值监管组件101可包括外设阈值监管组件1012,用于对传输至所述处理器10的外设的安全阈值配置指令的控制值进行验证,并在所述控制值属于所述配置阈值范围的情况下,执行所述安全阈值配置指令,所述外设包括风扇,所述控制值包括风扇转速值。
示例性地,通过通信分发系统15,外设阈值监管组件1012可以接收到近端资源管理系统12和/或远端监管系统11发送的外设的安全阈值配置指令的控制值FAN进行验证,判断外设的安全阈值配置指令的控制值FAN是否属于预设的配置阈值范围,如果控制值FAN属于预设的配置阈值范围,可以执行外设的安全阈值配置指令,将处理器10的外设的参数设置为该控制值FAN,例如将处理器10的风扇的转速值设置为外设的安全阈值配置指令携带的转速值FAN;如果控制值FAN不属于预设的配置阈值范围,不执行外设的安全阈值配置指令,上报失败原因信息至近端资源管理系统12和/或远端监管系统11,并等待近端资源管理系统12和/或远端监管系统11发送下一个外设的安全阈值配置指令。
通过这种方式,外设阈值监管组件1012可以提供外设阈值监管能力,减少处理器10的外设损坏的概率。
在一种可能的实现方式中,所述安全阈值监管组件101可包括频率阈值监管组件1013,用于对传输至所述处理器10的频率的安全阈值配置指令的控制值进行验证,并在所述控制值属于所述配置阈值范围的情况下,执行所述安全阈值配置指令。
示例性地,通过通信分发系统15,频率阈值监管组件1013可以接收到近端资源管理系统12和/或远端监管系统11发送的频率的安全阈值配置指令的控制值进行验证,判断频率的安全阈值配置指令的控制值是否属于预设的配置阈值范围,如果控制值属于预设的配置阈值范围,可以执行频率的安全阈值配置指令,将处理器10的频率的参数设置为该控制值;如果控制值不属于预设的配置阈值范围,不执行频率的安全阈值配置指令,上报失败原因信息至近端资源管理系统12和/或远端监管系统11,并等待近端资源管理系统12和/或远端监管系统11发送下一个频率的安全阈值配置指令。
通过这种方式,频率阈值监管组件1013可以提供频率阈值监管能力,减少处理器10因频率导致损坏的概率。
在一种可能的实现方式中,所述安全阈值监管组件101可包括功耗阈值监管组件1014,用于对传输至所述处理器10的功耗的安全阈值配置指令的控制值进行验证,并在所述控制值属于所述配置阈值范围的情况下,执行所述安全阈值配置指令。
示例性地,通过通信分发系统15,功耗阈值监管组件1014可以接收到近端资源管理系统12和/或远端监管系统11发送的功耗的安全阈值配置指令的控制值进行验证,判断功耗的安全阈值配置指令的控制值是否属于预设的配置阈值范围,如果控制值属于预设的配置阈值范围,可以执行功耗的安全阈值配置指令,将处理器10的功耗的参数设置为该控制值;如果控制值不属于预设的配置阈值范围,不执行功耗的安全阈值配置指令,上报失败原因信息至近端资源管理系统12和/或远端监管系统11,并等待近端资源管理系统12和/或远端监管系统11发送下一个功耗的安全阈值配置指令。
通过这种方式,功耗阈值监管组件1014可以提供功耗阈值监管能力,减少处理器10因功耗导致损坏的概率。
在一种可能的实现方式中,所述处理器10还包括:状态监控组件102,用于获取所述处理器10和/或处理器10的外设的运行状态,所述运行状态包括功能运行状态、处理器引擎子系统运行状态、任务运行状态、片上系统运行状态、外设运行状态、端口运行状态中的至少一种。
图14示出根据本公开实施例的状态监控组件102的示意图,如图14所示,所述状态监控组件102可以包括功能状态监控组件1021、处理器引擎子系统监控组件1022、任务监控组件1023、片上系统监控组件1024、高速串行计算机扩展总线标准的端口监控组件1025。
应当理解,状态监控组件102包括的组件1021~1025仅作为示例,在实际的应用中,状态监控组件102可以包括各类功能的状态监控组件,本公开对状态监控组件102可包括的各类功能的状态监控组件的数量和类型不作限制。
在一种可能的实现方式中,所述状态监控组件102包括功能状态监控组件1021,用于获取所述功能运行状态,并用于在功能运行状态异常,或接收到所述修复指令的情况下,进行异常功能的重启。
举例来说,假设某一认证系统包括人脸识别模块、语音识别模块、指纹识别模块,功能状态监控组件1021可以实时监控人脸识别模块、语音识别模块、指纹识别模块各模块的功能运行状态,并在任一模块的功能运行状态异常,或接收到修复指令的情况下,进行异常功能的重启。例如,如果人脸识别模块的功能运行状态异常,语音识别模块和指纹识别模块运行状态正常的情况下,可以执行对人脸识别模块进行重启的程序。
通过这种方式,可以监控功能模块级别的运行状态,进行功能模块级别的重启。
在一种可能的实现方式中,所述状态监控组件102包括处理器引擎子系统监控组件1022,用于获取处理器10的多个子系统的所述处理器引擎子系统运行状态。其中,处理器10的多个子系统可以包括图形渲染标准子系统、通用计算标准子系统、任务管理器子系统、帧管理器子系统、内存管理子系统、内核调度子系统等,本公开对处理器10包括的子系统的数量和类型不作限制。
通过处理器引擎子系统监控组件1022,可以提高处理器10内的各个子模块的监控。
在一种可能的实现方式中,所述状态监控组件102包括任务监控组件1023,用于获取预设任务的所述任务运行状态,并在所述预设任务运行状态异常,或接收到所述修复指令的情况下,进行所述预设任务的恢复处理。
通过任务监控组件1023,有利于提供针对目标任务的周期检查和监控,以使在目标任务失效的情况下,处理器10可以在限定时间内完成目标任务的恢复。
在一种可能的实现方式中,所述状态监控组件102包括片上系统监控组件1024,用于获取片上系统的所述片上系统运行状态,以及所述片上系统控制的外设的运行状态。
例如,假设片上系统SOC内部出现短路或者输出电流不足以驱动负载,可以获取到片上系统处于过载的运行状态;例如,假设片上系统SOC连接的外设温度传感器无法测量温度,可以获取到片上系统SOC控制的外设处于非正常工作状态。本公开对获取到的运动状态的类型不作限制。
通过状态监控组件102,可以监控片上系统SOC的运行状态,以及片上系统SOC连接的外设的运行状态,有利于处理器10根据不同的运行状态执行不同的策略。
在一种可能的实现方式中,所述状态监控组件102包括高速串行计算机扩展总线标准的端口监控组件1025,用于获取所述处理器10的高速串行计算机扩展总线标准的端口(Peripheral Component Interconnect express,PCIe)运行状态,并在所述端口运行状态异常,或接收到所述修复指令的情况下,进行关闭端口和端口复位中的任意一种。
例如,在处理器10的高速串行计算机扩展总线标准的端口的运行状态指示出该端口运行状态异常,处理器10可以主动关闭该端口;或者,在接收到修复指令的情况下,处理器10还可以采用复位策略,试图重新接入该端口。
通过高速串行计算机扩展总线标准的端口监控组件1025,可以对处理器10的高速串行计算机扩展总线标准的端口进行监控,有利于处理器10根据不同的情况执行不同的策略。
在一种可能的实现方式中,所述处理器10还包括:异常中断管理组件103,用于在所述处理器10发生预设类型的运行状态异常的情况下产生异常中断,并对异常中断进行上报、记录以及修复处理中的至少一种。
示例性地,图15示出根据本公开实施例的异常中断管理组件103的示意图,如图15所示,所述异常中断管理组件103可以包括异常中断处理组件1031、异常事件上报组件1032、异常中断上报组件1033、中断记录模块1034。
应当理解,异常中断管理组件103包括的组件1031~1034仅作为示例,在实际的应用中,异常中断管理组件103可以包括各类功能的组件或模块,本公开对异常中断管理组件103可包括的各类功能的组件或模块的数量和类型不作限制。
在一种可能的实现方式中,所述异常中断管理组件103包括异常中断处理组件1031,用于:根据异常中断,生成异常事件;根据所述异常中断的等级,对所述异常事件进行上报、记录以及根据接收到的修复指令进行修复处理中的至少一种。
示例性地,根据异常中断生成的异常事件可以与处理器10芯片的内部、外部的硬件电路产生的电信号相对应,用于改变处理器10的执行的指令顺序。在存在多个异常中断的情况下,可以根据所述异常中断的等级,确定多个异常中断的优先级,对优先级高的异常中断生成的异常事件先进行上报、记录以及根据接收到的修复指令进行修复处理中的至少一种;再对优先级低的异常中断生成的异常事件进行上报、记录以及根据接收到的修复指令进行修复处理中的至少一种。例如,异常中断的等级可以包括严重级别、告警级别、一般级别,可以优先处理严重级别的异常中断生成的异常事件,除了对异常事件进行上报、记录,还会响应于该严重级别的异常事件,根据接收到的修复指令进行修复处理;然后再处理告警级别和一般级别的异常中断生成的异常事件,可以仅对其进行上报和记录。
通过异常中断处理组件1031,可以提供异常中断处理能力,根据不同等级的异常中断进行不同等级的处理。
在一种可能的实现方式中,所述异常中断管理组件103包括异常事件上报组件1032,用于将所述异常事件上报至所述近端资源管理系统12和所述远端监管系统11中的至少一个。
示例性地,异常事件上报组件1032可连接异常中断处理组件1031,可接收异常中断处理组件1031生成的异常事件,并将其上报至近端资源管理系统12和所述远端监管系统11。
通过异常事件上报组件1032,可以提供异常上报能力,有利于快速地将异常事件上报至近端资源管理系统12或所述远端监管系统11。
在一种可能的实现方式中,所述异常中断管理组件103包括异常中断上报组件1033,用于:将未生成异常事件的异常中断上报至所述近端资源管理系统12和所述远端监管系统11中的至少一个。
示例性地,异常中断上报组件1033可连接异常中断处理组件1031,用于接收异常中断处理组件1031中未生成异常事件的异常中断,并将其上报至近端资源管理系统12或远端监管系统11。
通过异常中断上报组件1033可上报未生成异常事件的异常中断,有利于提高异常处理系统的稳定性。
在一种可能的实现方式中,所述异常中断管理组件103包括中断记录模块1034,用于记录所述异常中断的中断信息,以及针对所述异常中断的上报和修复处理情况。
示例性地,中断记录模块1034不仅可以记录处理器10在运行状态异常的情况下产生的异常中断的中断信号,还可以连接异常中断处理组件1031、异常事件上报组件1032、异常中断上报组件1033,用于记录针对异常中断处理组件1031中由异常中断生成的异常事件的上报和修复情况、针对异常事件上报组件1032中异常事件的上报情况、以及针对异常中断上报组件1033中未生成异常事件的异常中断的上报情况。
通过异常中断管理组件103可以记录异常中断情况以及处理情况,有利于追踪异常处理的执行过程。
在一种可能的实现方式中,所述处理器10还包括自愈组件104,用于:生成所述自愈指令,或者,接收所述服务器系统13的所述自愈指令;根据所述自愈指令,对所述处理器10进行重启或看门狗复位中的至少一种。其中,自愈指令可以由处理器10自己生成,也可以接收由外部服务器系统13生成的自愈指令,本公开对此不作限制。
图16示出根据本公开实施例的自愈组件104的示意图,如图16所示,自愈组件104可包括接入式自愈组件1041和看门狗自愈组件1042。应当理解,在实际的应用中,自愈组件104还可以包括其他各类具有自愈功能的组件,本公开对自愈组件104可包括的各类具有自愈功能的组件的数量和类型不作限制。
在一种可能的实现方式中,所述自愈组件104包括接入式自愈组件1041,用于根据所述自愈指令,对所述处理器10进行重启处理。
通过接入式自愈组件1041,可以提供处理器重新接入的方式进行处理器10的自愈。
在一种可能的实现方式中,所述自愈组件104包括看门狗自愈组件1042,用于所述自愈指令,对所述处理器10进行复位处理。
示例性地,看门狗自愈组件1042(Watch Dog Timer,WDT),可以包括硬件定时器电路和/或软件定时器,以及一个输入和一个输出,其中输入叫做喂狗,稳定运行的系统会在执行完相关指令后进行喂狗,若看门狗自愈组件1042在预设周期内没有收到喂狗信号,可认为系统故障,输出连接到处理器10的复位端。
通过看门狗自愈组件1042,可以提供软硬件看门狗功能实现处理器10的自愈,有利于提高系统运行的可靠性。
在一种可能的实现方式中,所述处理器10还包括日志管理组件105,用于记录所述异常中断、异常信息和异常事件中的至少一种。
图17示出根据本公开实施例的日志管理组件105的示意图,如图17所示,所述日志管理组件105包括关键信息记录组件1051、日志记录组件1052、计数组件1053。应当理解,日志管理组件105包括的组件1051~1053仅作为示例,在实际的应用中,日志管理组件105可以包括其他功能的日志组件,本公开对日志管理组件105可包括的组件的数量和类型不作限制。
在一种可能的实现方式中,所述日志管理组件105包括关键信息记录组件1051,用于在发生所述异常中断、异常信息和异常事件中的至少一种的情况下,记录所述处理器10故障时刻的处理器10状态信息。
通过关键信息记录组件1051,可以记录处理器10故障时刻的状态信息,有利于为后续故障处理提供有效依据。
在一种可能的实现方式中,所述日志管理组件105包括日志记录组件1052,用于在发生所述异常中断、异常信息和异常事件中的至少一种的情况下,记录所述异常中断、异常信息和异常事件中的至少一种的异常信息。
日志记录组件1052提供异常日志记录能力,进一步,还可以提供日志打包下载传输等管理能力。
在一种可能的实现方式中,所述日志管理组件105包括计数组件1053,用于在发生所述异常中断、异常信息和异常事件中的至少一种的情况下,记录所述异常中断、异常信息和异常事件中的至少一种的计数信息。
通过计数组件1053,可以提供异常情况或者场景的数量记录情况,并可以进一步将记录的计数信息打包下载传输至服务器系统13、管理卡系统14、远端监管系统11中的至少一者,本公开对此不作限制。
在一种可能的实现方式中,所述处理器10还包括异常修复组件106,用于在接收到所述修复指令的情况下,根据所述修复指令,对处理器10中的发生异常的组件进行修复处理。
图18示出根据本公开实施例的异常修复组件106的示意图,如图18所示,所述异常修复组件106可包括处理器引擎子系统修复组件1061、片上系统修复组件1062、整卡修复单元1063。应当理解,异常修复组件106包括的组件1061~1063仅作为示例,本公开对异常修复组件106可包括的组件的数量和类型不作限制。
在一种可能的实现方式中,所述异常修复组件106包括处理器引擎子系统修复组件1061,用于在接收到所述修复指令的情况下,根据所述修复指令,对处理器引擎子系统进行逻辑复位处理。示例性地,处理器引擎子系统可以包括时序系统、控制系统、缓存系统、运算系统等,处理器引擎子系统修复组件1061接收到修复指令,可以对全部的处理器引擎子系统进行逻辑复位处理;也可以对处理器引擎子系统包括的部分子系统,例如时序系统、控制系统、缓存系统、运算系统中的至少一种进行逻辑复位处理。
通过这种方式,可以实现处理器引擎子系统的修复和复位,有利于提高异常处理系统的灵活性。
在一种可能的实现方式中,所述异常修复组件106包括片上系统修复组件1062,用于在接收到所述修复指令的情况下,根据所述修复指令,对片上系统以及所述片上系统控制的外设进行修复处理。示例性地,每个处理器10可包括一个显卡GPU以及一个片上系统SOC,处理器10的片上系统修复组件1062可响应于接收到的修复指令,对片上系统以SOC及所述片上系统SOC控制的外设进行修复处理。
通过片上系统修复组件1062,有利于根据SOC芯片的运行状态,进行片上系统SOC的修复。
在一种可能的实现方式中,所述异常修复组件106包括整卡修复单元1063,用于在接收到所述修复指令的情况下,根据所述修复指令,对所述处理器10的全部组件进行重启或复位处理。示例性地,整卡修复单元1063可以响应于接收到的述修复指令,对处理器10整个芯片进行重启或复位处理。
在一种可能的实现方式中,所述故障库上报组件107用于存储日志管理组件105记录的异常中断、异常信息和异常事件中的至少一种。
在一种可能的实现方式中,异常事件管理组件108用于处理处理器10内的异常事件,例如,可根据接收状态监控组件102的运行状态生成异常事件,确定多个异常事件的处理优先级,对异常事件进行归类汇总等。
在一种可能的实现方式中,所述处理器10进一步用于:根据所述处理器10的运行状态,确定异常中断、异常信息和异常事件中的至少一种;将所述异常中断、异常信息和异常事件中的至少一种上报至所述服务器系统13;接收所述服务器系统13的异常处理指令和/或自愈指令,并执行所述异常处理指令和/或自愈指令,其中,所述异常处理指令包括软件异常处理指令、硬件异常处理指令中的至少一种。
示例性地,图19示出根据本公开实施例的处理器10的数据流的示意图。如图19所示,处理器10的状态监控组件102可用于监控处理器10和/或处理器10的外设的运行状态,并将异常的运行状态传输至异常事件管理组件108,异常事件管理组件108可以直接将异常的运行状态信息作为异常信息转发至日志管理组件105进行记录;异常事件管理组件108也可以根据收到的异常的运行状态生成异常事件,将异常事件发送至日志管理组件105进行记录;异常事件管理组件108还可以直接将接收到的异常事件发送至日志管理组件105进行记录。同步地,异常中断管理组件103可以将收到的异常中断发送至日志管理组件105进行记录。
日志管理组件105可以将记录的异常中断、异常信息和异常事件中的至少一种发送至故障库上报组件107,查询故障库上报组件107中是否储存了该异常中断、异常信息或异常事件,如果故障库上报组件107中存储了相同的异常中断、异常信息或异常事件,可以直接调用故障库上报组件107中存储的历史自愈指令,并将其发送至自愈组件104,以使自愈组件104根据自愈指令,对处理器10进行重启或看门狗复位中的至少一种;如果故障库上报组件107中没有存储相同的异常中断、异常信息或异常事件,可以将异常中断、异常信息或异常事件发送至自愈组件104,以使自愈组件104根据异常中断、异常信息或异常事件生成自愈指令,对根据生成的自愈指令对处理器10进行重启或看门狗复位中的至少一种。
示例性地,处理器10还可以将异常中断、异常信息和异常事件中的至少一种通过通信分发系统15上报至服务器系统13,以使服务器系统13根据异常中断、异常信息和异常事件中的至少一种生成异常处理指令和/或自愈指令,并将生成的异常处理指令和/或自愈指令回传至处理器10。处理器10可以响应于接收的服务器系统13的异常处理指令和/或自愈指令,并执行所述异常处理指令和/或自愈指令。
通过这种方式,可以高效实现处理器的异常管理,使处理可以正常稳定工作。
图20示出根据本公开实施例的服务器系统13的示意图,如图20所示,所述服务器系统13可以包括:运行状态获取组件131、日志组件132、鉴权组件133、处理器修复模块134、故障处理模块135、自愈模块136、监控组件137、通信组件138。应当理解,图20仅作为示例,本公开的实施例对服务器系统13可包括的模块或组件的数量与类别不作限制,可以根据实际的应用场景,删除和\或增加一个或多个具有某类功能的模块或组件。
在一种可能的实现方式中,运行状态获取组件131用于:获取与所述服务器系统13连接的所述管理卡系统14和/或所述处理器10的运行状态、异常状态和/或性能信息。
通过运行状态获取组件131,有利于快速获取处理器10的各类信息,便于后续对处理器10进行固件升级和性能分析。
在一种可能的实现方式中,日志组件132用于:记录所述管理卡系统14和/或所述处理器10上报的异常状态的异常信息,以及记录所述服务器系统13的异常状态的异常信息。其中,日志组件132即可以记录与服务器系统13连接的管理卡系统14和/或处理器10上报的异常状态的异常信息,也可以记录服务器系统13自身的异常状态的异常信息,本公开对此不作限制。
通过这种方式,可以提供服务器系统13、管理卡系统14或处理器10驱动日志记录能力,实现了日志的自动记录。
在一种可能的实现方式中,鉴权组件133用于:在接收到所述远端监管系统11的所述修复指令或控制指令的情况下,对所述远端监管系统11的权限进行鉴定;在所述鉴定通过的情况下,执行所述修复指令或所述控制指令,或者,将所述修复指令或所述控制指令下发至所述管理卡系统14和/或所述处理器10,以使所述管理卡系统14和/或所述处理器10执行所述修复指令或所述控制指令。
示例性地,响应于接收到远端监管系统11的所述修复指令或控制指令的情况下,可以向远端监管系统11发送一个身份验证请求,用于获取当前使用远端监管系统11的验证信息,所述验证信息可以包括用户名、用户密码、时间戳、随机数、密钥信息等,鉴权组件133可以根据验证信息对远端监管系统11的权限进行鉴定。
在远端监管系统11的权限鉴定通过的情况下,服务器系统13可以执行修复指令或控制指令,或者,也可以将修复指令或控制指令下发至管理卡系统14和/或处理器10,以使管理卡系统14和/或处理器10执行修复指令或所述控制指令。在远端监管系统11的权限鉴定不通过的情况下,服务器系统13可以对远端监管系统11的权限进行二次鉴定,也可以直接结束当前的流程,等待远端监管系统11的下一个修复指令或控制指令。
通过这种方式,不同的用户可以根据不同权限获得相应功能的使用权,减少非法用户占用硬件资源,有利于提高异常处理系统的安全性和可靠性。
在一种可能的实现方式中,处理器修复模块134用于:接收所述处理器10上报的异常中断、异常信息和异常事件中的至少一种;根据所述异常中断、异常信息和异常事件的至少一种,生成所述异常处理指令;将所述异常处理指令下发至所述处理器10。
其中,在服务器系统13资源比较充足的情况下,处理器修复模块134接收到多个不同处理器10的异常中断、异常信息和异常事件,可以并行地对异常中断、异常信息和异常事件进行处理,生成多个所述异常处理指令;将所述异常处理指令下发至对应的所述处理器10。或者,在服务器系统13资源比较少的情况下,处理器修复模块134可以对接收到的多个不同处理器10的异常中断、异常信息和异常事件进行分级处理,先根据优先级比较高的异常中断、异常信息、异常事件生成异常处理指令,并将异常处理指令下发至优先级高的处理器10;再根据优先级比较低的异常中断、异常信息、异常事件生成异常处理指令,并将异常处理指令下发至优先较低的处理器10。
通过这种方式,可以根据一个或多个处理器上报的各种异常事件,实现不同级别的处理器10的修复能力。
在一种可能的实现方式中,故障处理模块135用于:接收所述远端监管系统11的修复指令,并根据所述修复指令对所述服务器系统13或所述处理器10的异常中断、异常信息和异常事件的至少一种进行修复处理。
其中,每个修复指令可对应一个编号,所述编号用于指示修复指令的优先处理级别,例如,编号1代表严重级别、编号2代表告警级别,本公开对编号的具体形式,以及优先处理级别的数量和类型不作限制。这样,可以根据不同级别的修复指令,进行不同的故障处理。
在一种可能的实现方式中,故障处理模块135还可以用于,在服务器系统13资源短缺,在且接收到多个修复指令的情况下,可以先确定各修复指令之间的优先级,可以按照修复指令的优先级的顺序,对所述服务器系统13或所述处理器10的异常中断、异常信息和异常事件的至少一种进行修复处理。
在一种可能的实现方式中,故障处理模块135还可以用于,接收所述处理器10上报的异常中断、异常信息和异常事件中的至少一种;根据所述异常中断、异常信息和异常事件的至少一种,生成故障处理指令。
在一种可能的实现方式中,自愈模块136,用于:接收所述处理器10上报的异常中断、异常信息和异常事件中的至少一种;根据所述异常中断、异常信息和异常事件的至少一种,生成所述自愈指令;将所述自愈指令下发至所述处理器10。或者,所述自愈模块136还用于:生成所述自愈指令;根据所述自愈指令,对所述服务器进行重启或复位中的至少一种。
在一种可能的实现方式中,自愈模块136还用于:在根据自愈指令对任一处理器10或服务器进行重启或复位失败的情况下,隔离重启或复位失败的处理器10或服务器,并向异常管理系统的管理员发布告警信息。
在一种可能的实现方式中,监控组件137可包括处理器监控组件和管理卡系统监控组件中的至少一种。
示例性地,所述处理器监控组件,用于:获取所述处理器10的运行状态和所述异常状态;根据所述运行状态和所述异常状态,确定所述处理器10的健康状态;根据所述处理器10的健康状态,执行包括展示所述处理器10的健康状态、将所述处理器10的健康状态上报至所述远端监管系统11、为所述远端监管系统11提供所述处理器10的健康状态的查询服务中的至少一种。
示例性地,所述管理卡系统监控组件用于:获取所述管理卡系统14的运行状态和所述异常状态;根据所述运行状态和所述异常状态,确定所述管理卡系统14的健康状态;根据所述管理卡系统14的健康状态,执行包括展示所述管理卡系统14的健康状态、将所述处理器10的健康状态上报至所述远端监管系统11、为所述远端监管系统11提供所述处理器10的健康状态的查询服务中的至少一种。
通过这种方式,可以实时监控处理器10以及管理卡系统14的健康状态,以利于后续向使用者提供异常处理系统的全局性的健康状态。
在一种可能的实现方式中,通信组件138用于:向所述远端监管系统11上报所述处理器10或服务器系统13的异常中断、异常信息和异常事件中的至少一种,和/或,接收所述远端监管系统11发送的所述修复指令或控制指令。
在一种可能的实现方式中,通信组件138还用于将服务器系统13包括的各组件的处理结果或请求发送至远端监管系统11。
通过通信组件138,可以为服务器系统13提供远程通信的能力。
在一种可能的实现方式中,所述服务器系统13进一步用于:接收并记录所述异常中断、异常信息和异常事件中的至少一种;根据所述异常中断、异常信息和异常事件中的至少一种,生成所述异常处理指令和/或自愈指令,并下发至所述管理卡系统14和/或所述处理器10,其中,所述异常处理指令包括用于隔离所述管理卡系统14和/或所述处理器10的指令。
图21示出根据本公开实施例的远端监管系统11与服务器系统13之间的数据流的示意图,如图21所示,服务器系统13可以通过通信组件138获取远端监管系统11的修复指令或控制指令;鉴权组件133响应于服务器系统13接收到远端监管系统11的修复指令或控制指令,可对远端监管系统11的权限进行鉴定,并在远端监管系统11的权限鉴定通过的情况下,可以将收到的远端监管系统11的修复指令转发至故障处理模块135,以使故障处理模块135对处理器10进行故障修复;或者,在远端监管系统11的权限鉴定通过的情况下,鉴权组件133可以将收到的远端监管系统11的控制指令转发至监控组件137,以使监控组件137监控处理器10的健康状态是否存在异常状态;或者,在远端监管系统11的权限鉴定通过的情况下,鉴权组件133可以将收到的远端监管系统11的控制指令转发至运行状态获取组件131,以使运行状态获取组件131获取处理器10的运行状态。
通过这种方式,服务器系统13的各功能组件可以相互配合,高效执行接收到的远端监管系统11的修复指令或控制指令。
图22示出根据本公开实施例的服务器系统13的数据流的示意图,如图22所示,监控组件137可以根据获取的监控数据确定处理器10的健康状态,并将处理器10的异常的健康状态作为异常信息发送至故障处理模块135。故障处理模块135可以根据收到的异常中断、异常信息和异常事件的至少一种,生成故障处理指令。
故障处理模块135可以将生成的故障处理指令传输至日志组件132,以使日志组件132记录异常中断、异常信息和异常事件;或者,故障处理模块135可以将生成的故障处理指令传输至自愈模块136,以使自愈模块136对服务器系统13整体进行重启或复位中的至少一种;或者,故障处理模块135可以将生成的故障处理指令传输至处理器修复模块134,以使处理器修复模块134对目标处理器10进行修复。
服务器系统13的通信组件138可以向远端监管系统11上报自愈模块136和处理器修复模块134的处理过程或处理结果,以及通过日志组件132向远端监管系统11上报处理器10或服务器系统13的异常中断、异常信息和异常事件中的至少一种。
服务器系统13包括的各组件可以相互配合,高效异常处理系统中发生的异常中断、异常信息和异常事件,并通过通信组件138向远端监管系统11上报实时信息和请求,向用户展示异常处理系统的整体情况。
图23示出根据本公开实施例的远端监管系统11的示意图,如图23所示,所述远端监管系统11可包括:信息采集组件111、远程修复组件112、异常管理组件113、异常显示模块114、升级组件115、远程通信组件116、监控模块117,故障数据库118、远程管理组件119。
应当理解,图23仅作为远端监管系统11的示例,本公开的实施例对远端监管系统11可包括的模块或组件的数量与类别不作限制,可以根据实际的应用场景,删除和\或增加一个或多个具有某类功能的模块或组件。
在一种可能的实现方式中,所述远端监管系统11可包括信息采集组件111,用于获取所述处理器10、管理卡系统14、服务器系统13至少一种的运行状态和所述异常状态。
示例性地,信息采集组件111可通过有线网络和/或无线网络远程连接一个或多个处理器10,获取每个处理器10的运行状态和异常状态。
示例性地,信息采集组件111也可通过有线网络和/或无线网络远程连接管理卡系统14,获取管理卡系统14的运行状态和异常状态,其中,获取管理卡系统14的运行状态和异常状态可包括与管理卡系统14连接的一个或多个处理器10的运行状态和异常状态。
示例性地,信息采集组件111还可通过有线网络和/或无线网络远程连接服务器系统13,获取服务器系统13的运行状态和异常状态,其中,服务器系统13的运行状态和异常状态可包括与服务器系统13连接的一个或多个处理器10的运行状态和异常状态。
通过这种方式,可以远程连接处理器10、管理卡系统14、服务器系统13,有利于用户随时随地获取到产品的异常状态,为用户提供更好的体验。
在一种可能的实现方式中,所述远端监管系统11可包故障数据库118,用于组织、存储和管理故障数据,所述故障数据可包括对应各种故障场景的故障码,例如,每个异常状态可对应一个故障码,有利于高效准确地确定故障原因。
在一种可能的实现方式中,所述远端监管系统11可包括远程修复组件112,用于:根据所述处理器10或所述近端资源管理系统12上报的异常状态,对故障数据库118进行查询;在所述故障数据库118中查询到与所述异常状态对应的故障码的情况下,根据所述故障码,生成所述修复指令;将所述修复指令下发至所述处理器10或所述近端资源管理系统12。
或者,在所述故障数据库118中未查询到与所述异常状态对应的故障码的情况下,对所述异常状态进行远程诊断,确定异常类型;根据所述异常类型,生成所述修复指令;将所述修复指令下发至所述处理器10或所述近端资源管理系统12。
示例性地,信息采集组件111可以通过网络分别接收每个处理器10上报的异常状态;也可以通过设置在近端资源管理系统12的管理卡系统14、服务器系统13,先对各处理器10的异常状态进行汇总和整理,以接收管理卡系统14、服务器系统13上报的汇总和整理后的多个处理器10的异常状态;还可以接收近端资源管理系统12上报的异常状态,例如服务器系统13的异常状态、管理卡系统14的异常状态,本公开对上报异常状态的对象不作限制。
然后,信息采集组件111可以将获取到的异常状态发送至远程修复组件112,以使远程修复组件112可以根据异常状态对故障数据库118进行查询。如果远程修复组件112在故障数据库118中查询到与该异常状态对应的故障码,可以根据故障码生成相应的修复指令。或者,如果远程修复组件112在故障数据库118中未查询到与该异常状态对应的故障码,可以通过异常诊断函数对该异常状态进行远程诊断,确定异常类型,并根据所述异常类型,生成修复指令。
在远程修复组件112生成了修复指令之后,可以将修复指令下发至待修复的目标处理器10;也可以先将修复指令下发至近端资源管理系统12的管理卡系统14、服务器系统13,再由管理卡系统14、服务器系统13转发至待修复的目标处理器10;还可以将修复指令下发至近端资源管理系统12待修复的管理卡系统14,以待修复的服务器系统13,本公开对此不作限制。
通过这种方式,可根据获取的远程现场的异常情况,进行对应的远程诊断与修复,有利于扩展异常处理系统的适用范围。
在一种可能的实现方式中,所述远程修复组件112还用于:根据所述远端监管系统11的人机交互界面,获取人工设置的所述修复指令;将所述修复指令下发至所述处理器10或所述近端资源管理系统12。
示例性地,用户可以通过远端监管系统11的人机交互界面,例如触摸屏、液晶屏、LED屏中显示的人机交互界面,通过点选、语音输入、键盘输入等方式,用户可以主动设置修复指令,并将该修复指令下发至处理器10或近端资源管理系统12,以实现对处理器10或近端资源管理系统12的修复。
通过远程修复组件112可以实现人工下发修复命令,即可以在有异常时下发修复指令,也可能在没有异常时下发修复指令,有利于提高异常处理系统的灵活性。
在一种可能的实现方式中,所述远端监管系统11可包括异常管理组件113,用于:根据所述异常状态生成异常记录;将所述异常记录存储于所述故障数据库118,并根据所述异常记录查询所述故障数据库118。
示例性地,信息采集组件111可以通过网络分别接收每个处理器10上报的异常状态;也可以通过设置在近端资源管理系统12的管理卡系统14、服务器系统13,先对各处理器10的异常状态进行汇总和整理,以接收管理卡系统14、服务器系统13上报的汇总和整理后的多个处理器10的异常状态;还可以接收近端资源管理系统12上报的异常状态,例如服务器系统13的异常状态、管理卡系统14的异常状态,本公开对上报异常状态的对象不作限制。
然后,信息采集组件111可以将获取到的异常状态发送至异常管理组件113,以使异常管理组件113根据异常状态生成异常记录,并将该异常记录存储于故障数据库118。其中,为了节省硬件资源,可以查询故障数据库118中是否已存储过该异常状态,并在故障数据库118中未查询到该异常状态的情况下,将异常状态生成异常记录存入故障数据库118。
此外,异常管理组件113还可以用于处理处理器10上报的异常事件,并管理上报的异常事件,实现异常记录,生成故障数据,并存于故障数据库118,以有利于后续更高效地根据故障数据库118确认异常原因。
在一种可能的实现方式中,所述远端监管系统11可包括异常显示模块114,用于显示多个近端资源管理系统12和/或处理器10的健康状态,以及异常状态的历史记录。
示例性地,可以通过远端监管系统11连接的触摸屏、液晶屏、LED屏等各种类型的显示屏幕,显示多个近端资源管理系统12和/或处理器10的健康状态,以及异常状态的历史记录。其中,可以通过文字、表格、图像、视频等显示方式,显示多个近端资源管理系统12和/或处理器10的健康状态,以及异常状态的历史记录,本公开对具体的显示方式不作限制。
通过异常显示模块114,用户可以高效获取多个近端资源管理系统12和/或处理器10的健康状态,以及异常状态的历史记录。
在一种可能的实现方式中,所述远端监管系统11还包括升级组件115,用于:按照预设的轮询周期,对所述处理器10或所述近端资源管理系统12的版本信息进行查询;根据所述版本信息,从预设的升级数据库中提取对应所述版本信息的升级资源;将所述升级资源下发至所述处理器10或所述近端资源管理系统12。
示例性地,升级组件115可以按照预设的轮询周期,例如每N个小时一次,对处理器10或近端资源管理系统12的版本信息进行查询,该版本信息资源可包含版本标识、设备名称、版本时间等。升级组件115获取到版本信息,可根据所述版本信息查询预设的升级数据库,从预设的升级数据库中提取对应版本信息的升级资源。升级组件115将升级资源下发至处理器10或近端资源管理系统12,以实现对处理器10或近端资源管理系统12的升级。
通过这种方式,可以按照预设的轮询周期,对异常处理系统进行远程升级,以提高异常处理系统的稳定性。
在一种可能的实现方式中,所述升级组件115还用于:在所述处理器10或所述近端资源管理系统12上报的异常状态的情况下,对所述处理器10或所述近端资源管理系统12的版本信息进行查询;根据所述版本信息,从预设的升级数据库中提取对应所述版本信息的升级资源;将所述升级资源下发至所述处理器10或所述近端资源管理系统12。
通过这种方式,可以通过异常状态触发异常处理系统的远程升级,以通过升级的方式减少系统异常的概率。
在一种可能的实现方式中,所述升级组件115还用于:获取管理员输入的升级资源;将所述升级资源下发至所述处理器10或所述近端资源管理系统12。
通过这种方式,有利于用户自主判断是否进行升级处理,有利于提高异常处理系统的灵活性。
在一种可能的实现方式中,所述远端监管系统11还包括远程通信组件116,用于接收所述处理器10或所述近端资源管理系统12上报的异常状态和运行状态,以及向所述处理器10或所述近端资源管理系统12下发修复指令或控制指令。
远程通信组件116用于在远端监管系统11与处理器10或近端资源管理系统12之间,通过使用模拟或数字信号调制技术进行声音、数据、传真、图像、音频、视频和其它信息的电子传输,例如,远程通信组件116可以接收处理器10或近端资源管理系统12上报的异常状态和运行状态,远程通信组件116可以向处理器10或近端资源管理系统12下发修复指令或控制指令。
通过这种方式,可以实现数据的远程传输,有利于提高异常处理系统的适用性。
在一种可能的实现方式中,所述远端监管系统11还包括远程管理组件119,用于管理远端监管系统11中包括的一个或多个功能组件。远程管理组件119还可以作为远端监管系统11的信息枢纽,接收近端资源管理系统12上报的各类数据,例如可包括处理器10、管理卡系统14、服务器系统13中至少一种的异常状态、运行状态、健康状态等,并可以将近端资源管理系统12上报的各类数据按需发送给远端监管系统11中包括的其他功能组件;远程管理组件119还可以接收远端监管系统11中包括的其他功能组件直接或间接的反馈数据,例如包括各类控制指令、修复指令、升级资源等,并将这些反馈数据通过远程通信组件116转发给近端资源管理系统12。
在一种可能的实现方式中,所述远端监管系统11还包括监控模块117,用于监控获取处理器10、管理卡系统14、服务器系统13中至少一种的健康状态。
图24示出根据本公开实施例的远端监管系统11的数据流的示意图,如图24所示,用于直接或间接管理远端监管系统11中其他功能组件的远程管理组件119,可以与远程通信组件116连接,以通过远程通信组件116接收近端资源管理系统12上报的异常状态和运行状态,以及向近端资源管理系统12发送修复指令和控制指令。
示例性地,信息采集组件111可以将获取的近端资源管理系统12中包括的处理器10、管理卡系统14、服务器系统13至少一种的运行状态和异常状态,发送至远程管理组件119。
示例性地,监控模块117可以将查询指令发送至远程管理组件119,以使远程管理组件119经由远程通信组件116将查询指令下发至近端资源管理系统12。在远程管理组件119经由远程通信组件116接收到近端资源管理系统12响应于查询指令所上报的查询数据,例如包括近端资源管理系统12的健康状态、运行状态、异常状态、历史记录等,远程管理组件119可以将该查询数据反馈给监控模块117,以使监控模块117可以根据该查询数据确定近端资源管理系统12是否存在异常的监控结果。其中,监控模块117还可以将存在异常的监控结果发送至信息采集组件111,以使与信息采集组件111连接的异常显示模块114可以从信息采集组件111中获取并显示存在异常的监控结果。
示例性地,异常管理组件113可以从监控模块117中获取到近端资源管理系统12的异常状态,并根据异常状态生成修复指令,异常管理组件113可以将修复指令发送至远程管理组件119,以使远程管理组件119经由远程通信组件116将修复指令下发至近端资源管理系统12。异常管理组件113可以将获取到的近端资源管理系统12的异常状态存储到故障数据库118,也可以将获取到的近端资源管理系统12的异常状态发送至信息采集组件111,以使与信息采集组件111连接的异常显示模块114,可以从信息采集组件111中获取到近端资源管理系统12的异常状态,并显示该近端资源管理系统12的异常状态。
示例性地,故障数据库118可以将任一存储数据发送至信息采集组件111,以使与信息采集组件111连接的异常显示模块114,可以从信息采集组件111中获取故障数据库118中的存储数据,并显示该故障数据库118中的存储数据。
示例性地,升级组件115可以将升级资源发送至远程管理组件119,以使远程管理组件119经由远程通信组件116将升级资源下发至近端资源管理系统12。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
图25示出根据本公开实施例的一种电子设备的框图。例如,电子设备可以被提供为一服务器或终端设备。参照图25,电子设备1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理,一个有线或无线网络接口1950被配置为将电子设备1900连接到网络,和一个输入输出接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如微软服务器操作系统(Windows ServerTM),苹果公司推出的基于图形用户界面操作系统(Mac OS XTM),多用户多进程的计算机操作系统(UnixTM), 自由和开放原代码的类Unix操作系统(LinuxTM),开放原代码的类Unix操作系统(FreeBSDTM)或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器1932,上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (15)

1.一种异常处理系统,其特征在于,包括:一个远端监管系统和多个近端资源管理系统,每个目标任务部署一个或多个近端资源管理系统;
所述近端资源管理系统至少包括一个或多个处理器,用于:
获取所述一个或多个处理器,以及所述处理器的外设的运行状态;
根据所述运行状态,确定所述处理器以及所述外设的异常状态;
对所述异常状态进行修复、记录、上报中的至少一种;
其中,所述近端资源管理系统包括管理卡系统和服务器系统,所述管理卡系统用于连接所述一个或多个处理器,所述服务器系统用于连接所述管理卡系统,每个服务器系统包括一个或多个服务器,每个管理卡系统包括一个或多个管理卡,每个服务器连接一个或多个管理卡,每个管理卡连接一个或多个处理器,每个服务器经由管理卡获取一个或多个处理器的运行状态,服务器根据接收到的运行状态确定一个或多个处理器的异常状态;
所述远端监管系统用于:
获取所述处理器、所述外设、所述近端资源管理系统中的至少一种的运行状态;
根据所述运行状态,确定所述处理器、所述外设、所述近端资源管理系统中的至少一种的异常状态;
生成针对所述异常状态的修复指令,和/或记录所述异常状态;
其中,所述处理器还包括安全阈值监管组件,所述安全阈值监管组件,用于在接收到所述近端资源管理系统和/或远端监管系统的安全阈值配置指令的情况下,根据预设的配置阈值范围,对所述安全阈值配置指令的控制值进行仲裁,得到仲裁结果,所述仲裁结果用于指示所述控制值是否属于所述配置阈值范围,所述安全阈值配置指令的控制值包括所述处理器的工艺的安全阈值配置指令、电压的安全阈值配置指令、温度的安全阈值配置指令、外设的安全阈值配置指令、频率的安全阈值配置指令、功耗的安全阈值配置指令中的控制值;
其中,所述远端监管系统还包括升级组件,用于:按照预设的轮询周期,对所述近端资源管理系统的版本信息进行查询;根据所述版本信息,从预设的升级数据库中提取对应所述版本信息的升级资源;将所述升级资源下发至所述近端资源管理系统;和/或,
在所述近端资源管理系统上报的异常状态的情况下,对所述近端资源管理系统的版本信息进行查询;根据所述版本信息,从预设的升级数据库中提取对应所述版本信息的升级资源;将所述升级资源下发至所述近端资源管理系统;和/或,
获取管理员输入的升级资源;将所述升级资源下发至所述近端资源管理系统。
2.根据权利要求1所述的异常处理系统,其特征在于,所述处理器进一步用于:
根据所述处理器的运行状态,确定异常中断、异常信息和异常事件中的至少一种;
将所述异常中断、异常信息和异常事件中的至少一种经由管理卡系统上报至所述服务器系统;
经由管理卡系统接收所述服务器系统的异常处理指令和/或自愈指令,并执行所述异常处理指令和/或自愈指令,其中,所述异常处理指令包括软件异常处理指令、硬件异常处理指令中的至少一种。
3.根据权利要求2所述的异常处理系统,其特征在于,所述服务器系统进一步用于:
接收并记录所述异常中断、异常信息和异常事件中的至少一种;
根据所述异常中断、异常信息和异常事件中的至少一种,生成所述异常处理指令和/或自愈指令,并下发至所述管理卡系统和/或经由管理卡系统下发至所述处理器,其中,所述异常处理指令包括用于隔离所述管理卡系统和/或所述处理器的指令;
和/或,根据服务器系统的运行状态,确定服务器系统的异常中断、异常信息和异常事件中的至少一种;
根据所述服务器系统的异常中断、异常信息和异常事件中的至少一种,生成用于修复服务器系统的所述异常处理指令和/或自愈指令。
4.根据权利要求2所述的异常处理系统,其特征在于,所述服务器系统还用于:
将所述针对所述处理器、所述管理卡系统、所述服务器系统的异常中断、异常信息和异常事件中的至少一种,上报至所述远端监管系统;
所述远端监管系统进一步用于:
接收并记录针对所述处理器、所述管理卡系统、所述服务器系统的所述异常中断、异常信息和异常事件中的至少一种;
根据所述针对所述处理器、所述管理卡系统、所述服务器系统的异常中断、异常信息和异常事件中的至少一种,生成所述修复指令,并下发至所述服务器系统。
5.根据权利要求2所述的异常处理系统,其特征在于,所述服务器系统还用于:
根据接收到的所述异常中断、异常信息和异常事件中的至少一种,生成异常日志,和/或,经由管理卡系统采集所述一个或多个处理器的异常日志;
将所述异常日志,上报至所述远端监管系统;
所述远端监管系统进一步用于:
接收所述服务器系统上报的所述异常日志;
根据所述异常日志,生成所述修复指令,并下发至所述服务器系统。
6.根据权利要求2所述的异常处理系统,其特征在于,在所述仲裁结果为所述控制值属于所述配置阈值范围的情况下,执行所述安全阈值配置指令,或者,在所述仲裁结果为所述控制值不属于所述配置阈值范围的情况下,不执行所述安全阈值配置指令,并上报失败原因信息至所述近端资源管理系统和/或远端监管系统。
7.根据权利要求6所述的异常处理系统,其特征在于,所述失败原因信息包括阈值监管信息,所述安全阈值监管组件还用于:
在所述控制值不属于所述配置阈值范围的情况下,生成所述阈值监管信息,并上报至所述近端资源管理系统和/或远端监管系统。
8.根据权利要求2所述的异常处理系统,其特征在于,所述处理器还包括状态监控组件,用于获取所述处理器和/或处理器的外设的运行状态,所述运行状态包括功能运行状态、处理器引擎子系统运行状态、任务运行状态、片上系统运行状态、外设运行状态、端口运行状态中的至少一种;
其中,所述状态监控组件包括功能状态监控组件、处理器引擎子系统监控组件、任务监控组件、片上系统监控组件、高速串行计算机扩展总线标准的端口监控组件中的至少一种;
所述功能状态监控组件,用于获取所述功能运行状态,并用于在功能运行状态异常,或接收到所述修复指令的情况下,进行异常功能的重启;
所述处理器引擎子系统监控组件,用于获取处理器的多个子系统的所述处理器引擎子系统运行状态;
所述任务监控组件,用于获取预设任务的所述任务运行状态,并在所述预设任务运行状态异常,或接收到所述修复指令的情况下,进行所述预设任务的恢复处理;
所述片上系统监控组件,用于获取片上系统的所述片上系统运行状态,以及所述片上系统控制的外设的运行状态;
所述高速串行计算机扩展总线标准的端口监控组件,用于获取所述处理器的高速串行计算机扩展总线标准的端口运行状态,并在所述端口运行状态异常,或接收到所述修复指令的情况下,进行关闭端口和端口复位中的任意一种。
9.根据权利要求2所述的异常处理系统,其特征在于,所述处理器还包括异常中断管理组件,用于在所述处理器发生预设类型的运行状态异常的情况下产生异常中断,并对异常中断进行上报、记录以及修复处理中的至少一种;
其中,所述异常中断管理组件包括异常中断处理组件、异常事件上报组件、异常中断上报组件、中断记录模块中的至少一种;
所述异常中断处理组件,用于:根据异常中断,生成异常事件;根据所述异常中断的等级,对所述异常事件进行上报、记录以及根据接收到的修复指令进行修复处理中的至少一种;
所述异常事件上报组件,用于:将所述异常事件上报至所述近端资源管理系统和所述远端监管系统中的至少一个;
所述异常中断上报组件,用于:将未生成异常事件的异常中断上报至所述近端资源管理系统和所述远端监管系统中的至少一个;
所述中断记录模块,用于:记录所述异常中断的中断信息,以及针对所述异常中断的上报和修复处理情况。
10.根据权利要求2所述的异常处理系统,其特征在于,所述处理器还包括自愈组件,用于:
生成所述自愈指令,或者,经由管理卡系统接收所述服务器系统的所述自愈指令;
根据所述自愈指令,对所述处理器进行重启或看门狗复位中的至少一种;
其中,所述自愈组件包括接入式自愈组件、看门狗自愈组件中的至少一个;所述接入式自愈组件,用于根据所述自愈指令,对所述处理器进行重启处理;所述看门狗自愈组件,用于所述自愈指令,对所述处理器进行复位处理。
11.根据权利要求2所述的异常处理系统,其特征在于,所述处理器还包括日志管理组件,用于记录所述异常中断、异常信息和异常事件中的至少一种;
其中,所述日志管理组件包括关键信息记录组件、日志记录组件、计数组件中的至少一种;
所述关键信息记录组件,用于在发生所述异常中断、异常信息和异常事件中的至少一种的情况下,记录所述处理器故障时刻的处理器状态信息;
所述日志记录组件,用于在发生所述异常中断、异常信息和异常事件中的至少一种的情况下,记录所述异常中断、异常信息和异常事件中的至少一种的异常信息;
所述计数组件,用于在发生所述异常中断、异常信息和异常事件中的至少一种的情况下,记录所述异常中断、异常信息和异常事件中的至少一种的计数信息。
12.根据权利要求2所述的异常处理系统,其特征在于,所述处理器还包括异常修复组件,用于在接收到所述修复指令的情况下,根据所述修复指令,对处理器中的发生异常的组件进行修复处理;
所述异常修复组件包括处理器引擎子系统修复组件、片上系统修复组件、整卡修复单元中的至少一种;
所述处理器引擎子系统修复组件,用于在接收到所述修复指令的情况下,根据所述修复指令,对处理器引擎子系统进行逻辑复位处理;
所述片上系统修复组件,用于在接收到所述修复指令的情况下,根据所述修复指令,对片上系统以及所述片上系统控制的外设进行修复处理;
所述整卡修复单元,用于在接收到所述修复指令的情况下,根据所述修复指令,对所述处理器的全部组件进行重启或复位处理。
13.根据权利要求3所述的异常处理系统,其特征在于,所述服务器系统还包括运行状态获取组件、运行状态获取组件、日志组件、鉴权组件、处理器修复模块、故障处理模块、自愈模块、处理器监控组件、管理卡系统监控组件、信息采集组件中的至少一种;
所述运行状态获取组件,用于获取与所述服务器系统连接的所述管理卡系统和/或所述处理器的运行状态、异常状态和/或性能信息;
所述日志组件,用于记录所述管理卡系统和/或所述处理器经由管理卡系统上报的异常状态的异常信息,以及记录所述服务器系统的异常状态的异常信息;
所述鉴权组件,用于:在接收到所述远端监管系统的所述修复指令或控制指令的情况下,对所述远端监管系统的权限进行鉴定;在鉴定通过的情况下,执行所述修复指令或所述控制指令,或者,将所述修复指令或所述控制指令下发至所述管理卡系统和/或经由管理卡系统下发至所述处理器,以使所述管理卡系统和/或所述处理器执行所述修复指令或所述控制指令;
所述处理器修复模块,用于:经由管理卡系统接收所述处理器上报的异常中断、异常信息和异常事件中的至少一种;根据所述异常中断、异常信息和异常事件的至少一种,生成所述异常处理指令;将所述异常处理指令经由管理卡系统下发至所述处理器;
所述故障处理模块,用于接收所述远端监管系统的修复指令,并根据所述修复指令对所述服务器系统或所述处理器的异常中断、异常信息和异常事件的至少一种进行修复处理;
所述自愈模块,用于:接收所述处理器上报的异常中断、异常信息和异常事件中的至少一种;根据所述异常中断、异常信息和异常事件的至少一种,生成所述自愈指令;将所述自愈指令经由管理卡系统下发至所述处理器;和/或,生成所述自愈指令;根据所述自愈指令,对所述服务器进行重启或复位中的至少一种;
所述处理器监控组件,用于:获取所述处理器的运行状态和所述异常状态;根据所述运行状态和所述异常状态,确定所述处理器的健康状态;根据所述处理器的健康状态,执行包括展示所述处理器的健康状态、将所述处理器的健康状态上报至所述远端监管系统、为所述远端监管系统提供所述处理器的健康状态的查询服务中的至少一种;
所述管理卡系统监控组件用于:获取所述管理卡系统的运行状态和所述异常状态;根据所述运行状态和所述异常状态,确定所述管理卡系统的健康状态;根据所述管理卡系统的健康状态,执行包括展示所述管理卡系统的健康状态、将所述处理器的健康状态上报至所述远端监管系统、为所述远端监管系统提供所述处理器的健康状态的查询服务中的至少一种;
所述信息采集组件,用于获取所述处理器、管理卡系统、服务器系统至少一种的运行状态和所述异常状态。
14.根据权利要求1所述的异常处理系统,其特征在于,所述远端监管系统还包括远程修复组件、异常管理组件、异常显示模块、升级组件中的至少一种;
所述远程修复组件,用于:根据所述近端资源管理系统上报的异常状态,对故障数据库进行查询;在所述故障数据库中查询到与所述异常状态对应的故障码的情况下,根据所述故障码,生成所述修复指令;将所述修复指令下发至所述近端资源管理系统;和/或,
根据所述远端监管系统的人机交互界面,获取人工设置的所述修复指令;将所述修复指令下发至所述近端资源管理系统;和/或,
在所述故障数据库中未查询到与所述异常状态对应的故障码的情况下,对所述异常状态进行远程诊断,确定异常类型;根据所述异常类型,生成所述修复指令;将所述修复指令下发至所述近端资源管理系统;
所述异常管理组件,用于:根据所述异常状态生成异常记录;将所述异常记录存储于所述故障数据库,并根据所述异常记录查询所述故障数据库;
所述异常显示模块,用于显示多个近端资源管理系统和/或处理器的健康状态,以及异常状态的历史记录。
15.根据权利要求1所述的异常处理系统,其特征在于,所述异常处理系统还包括,通信分发系统,用于汇总多个所述处理器或所述近端资源管理系统上报的异常状态和运行状态,并发送至所述远端监管系统,以及将所述远端监管系统下发的修复指令或控制指令传输至目标处理器或目标近端资源管理系统。
CN202310294257.1A 2023-03-24 异常处理系统 Active CN116010156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310294257.1A CN116010156B (zh) 2023-03-24 异常处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310294257.1A CN116010156B (zh) 2023-03-24 异常处理系统

Publications (2)

Publication Number Publication Date
CN116010156A CN116010156A (zh) 2023-04-25
CN116010156B true CN116010156B (zh) 2024-06-04

Family

ID=

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302120A (zh) * 2015-11-19 2016-02-03 广州云湾信息技术有限公司 智能设备的远程服务装置、系统和方法
CN110113216A (zh) * 2019-05-20 2019-08-09 苏州爱开客信息技术有限公司 物联网设备故障远程修复系统
CN111414267A (zh) * 2019-01-04 2020-07-14 营邦企业股份有限公司 运用于数据中心的机柜异常状态的远端排除方法
CN111488258A (zh) * 2020-03-16 2020-08-04 国网辽宁省电力有限公司信息通信分公司 一种用于软硬件运行状态分析与预警的系统
CN111552556A (zh) * 2020-03-24 2020-08-18 合肥中科类脑智能技术有限公司 一种gpu集群服务管理系统及方法
CN112799909A (zh) * 2021-01-26 2021-05-14 上海瀚银信息技术有限公司 一种服务器自动化管理系统及方法
CN113938382A (zh) * 2021-10-15 2022-01-14 湖南麒麟信安科技股份有限公司 基于pacemaker的集群管理方法、系统及存储介质
CN114579373A (zh) * 2021-12-13 2022-06-03 北京市建筑设计研究院有限公司 一种算法资源的修复方法、装置、电子设备及存储介质
CN115098294A (zh) * 2022-08-24 2022-09-23 摩尔线程智能科技(北京)有限责任公司 异常事件的处理方法、电子设备及管理终端
CN115629785A (zh) * 2022-12-01 2023-01-20 摩尔线程智能科技(北京)有限责任公司 升级方法、电子设备及存储介质
CN115826563A (zh) * 2022-12-30 2023-03-21 江西方兴科技股份有限公司 一种基于plc机柜的远程故障监测系统及方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302120A (zh) * 2015-11-19 2016-02-03 广州云湾信息技术有限公司 智能设备的远程服务装置、系统和方法
CN111414267A (zh) * 2019-01-04 2020-07-14 营邦企业股份有限公司 运用于数据中心的机柜异常状态的远端排除方法
CN110113216A (zh) * 2019-05-20 2019-08-09 苏州爱开客信息技术有限公司 物联网设备故障远程修复系统
CN111488258A (zh) * 2020-03-16 2020-08-04 国网辽宁省电力有限公司信息通信分公司 一种用于软硬件运行状态分析与预警的系统
CN111552556A (zh) * 2020-03-24 2020-08-18 合肥中科类脑智能技术有限公司 一种gpu集群服务管理系统及方法
CN112799909A (zh) * 2021-01-26 2021-05-14 上海瀚银信息技术有限公司 一种服务器自动化管理系统及方法
CN113938382A (zh) * 2021-10-15 2022-01-14 湖南麒麟信安科技股份有限公司 基于pacemaker的集群管理方法、系统及存储介质
CN114579373A (zh) * 2021-12-13 2022-06-03 北京市建筑设计研究院有限公司 一种算法资源的修复方法、装置、电子设备及存储介质
CN115098294A (zh) * 2022-08-24 2022-09-23 摩尔线程智能科技(北京)有限责任公司 异常事件的处理方法、电子设备及管理终端
CN115629785A (zh) * 2022-12-01 2023-01-20 摩尔线程智能科技(北京)有限责任公司 升级方法、电子设备及存储介质
CN115826563A (zh) * 2022-12-30 2023-03-21 江西方兴科技股份有限公司 一种基于plc机柜的远程故障监测系统及方法

Similar Documents

Publication Publication Date Title
US20240054234A1 (en) Methods and systems for hardware and firmware security monitoring
US6836750B2 (en) Systems and methods for providing an automated diagnostic audit for cluster computer systems
KR20190090037A (ko) 클라우드 기반 운영 체제 이벤트 및 데이터 액세스 감시를 위한 시스템 및 방법
US20140122931A1 (en) Performing diagnostic tests in a data center
CN106919485B (zh) 一种基于服务器上配置硬件测试工具的系统
EP3591485B1 (en) Method and device for monitoring for equipment failure
US10476742B1 (en) Classification of auto scaling events impacting computing resources
EP3552107B1 (en) Device driver telemetry
US11734098B2 (en) Computer-readable recording medium storing failure cause identification program and method of identifying failure cause
US20160119381A1 (en) Ensuring Health and Compliance of Devices
CN112306802A (zh) 系统的数据获取方法、装置、介质和电子设备
CN115858221A (zh) 存储设备的管理方法、装置、存储介质及电子设备
CN116010156B (zh) 异常处理系统
US7860919B1 (en) Methods and apparatus assigning operations to agents based on versions
CN116010156A (zh) 异常处理系统
US11700178B2 (en) System and method for managing clusters in an edge network
CN110851316A (zh) 异常预警方法及装置、系统、电子设备、存储介质
US10467082B2 (en) Device driver verification
CN111767549A (zh) 检测方法和装置
CN113553243A (zh) 远端侦错方法
KR102526368B1 (ko) 멀티벤더를 지원하는 서버 관리 시스템
WO2023160010A1 (zh) 安全检测方法、装置、电子设备和存储介质
CN111258805B (zh) 一种服务器的硬盘状态监控方法、设备和计算机设备
US20240022923A1 (en) Proactive Configuration Auditing in O-RAN
JP2018160020A (ja) 監視システム、プログラムおよび監視方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant