CN115237644A - 系统故障处理方法、中央运算单元以及车辆 - Google Patents
系统故障处理方法、中央运算单元以及车辆 Download PDFInfo
- Publication number
- CN115237644A CN115237644A CN202210686901.5A CN202210686901A CN115237644A CN 115237644 A CN115237644 A CN 115237644A CN 202210686901 A CN202210686901 A CN 202210686901A CN 115237644 A CN115237644 A CN 115237644A
- Authority
- CN
- China
- Prior art keywords
- chip
- thread
- heartbeat information
- microcontroller
- management thread
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 9
- 238000012545 processing Methods 0.000 title description 15
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000012544 monitoring process Methods 0.000 claims abstract description 38
- 230000036541 health Effects 0.000 claims description 121
- 230000002159 abnormal effect Effects 0.000 claims description 32
- 230000004044 response Effects 0.000 claims description 9
- 230000000977 initiatory effect Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 12
- 230000003044 adaptive effect Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 238000011084 recovery Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/0757—Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0736—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in functional embedded systems, i.e. in a data processing system designed as a combination of hardware and software dedicated to performing a certain function
- G06F11/0739—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in functional embedded systems, i.e. in a data processing system designed as a combination of hardware and software dedicated to performing a certain function in a data processing system embedded in automotive or aircraft systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
- H04L41/0659—Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
- H04L41/0661—Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities by reconfiguring faulty entities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Cardiology (AREA)
- General Health & Medical Sciences (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请实施例公开了一种系统故障处理方法、中央运算单元以及车辆。所述方法包括:以预设周期向所述微控制器发送心跳信息,以使所述微控制器在预设时长内未接收到所述心跳信息时,重启所述片上系统;监测所述片上系统是否存在故障,若存在故障,重启所述片上系统,若在所述预设周期的周期时长内未重启成功,停止向所述微控制器发送心跳信息。通过上述方式使得,片上系统可以检测自身是否存在故障,若存在故障,可以通过重启片上系统,将片上系统恢复至正常运行状态;若重启不成功时,停止向微控制器发送心跳信息,使得微控制器在预设时长内未接收到心跳信息时,可以重启片上系统,以使片上系统恢复至正常运行状态,从而可以提高系统的稳定性。
Description
技术领域
本申请涉及汽车技术领域,更具体地,涉及一种系统故障处理方法、中央运算单元以及车辆。
背景技术
随着汽车技术的发展,中央运算单元可以实现整车基础性功能和智能舒适功能,并预留足够的扩展升级能力,以支持动力/新能源和部分自动驾驶功能的部署,因此保证中央运算单元的系统稳定性开始成为研究热点。在相关方式中,可以基于AUTOSAR(汽车开放系统架构)对系统中各个线程进行监控以及故障处理,但相关方式还存在稳定性差的问题。
发明内容
鉴于上述问题,本申请提出了一种系统故障处理方法、中央运算单元以及车辆,以实现改善上述问题。
第一方面,本申请提供了一种系统故障处理方法,所述方法包括:以预设周期向所述微控制器发送心跳信息,以使所述微控制器在预设时长内未接收到所述心跳信息时,重启所述片上系统;监测所述片上系统是否存在故障,若存在故障,重启所述片上系统,若在所述预设周期的周期时长内未重启成功,停止向所述微控制器发送心跳信息。
第二方面,本申请提供了另一种系统故障处理方法,所述方法包括:接收所述片上系统以预设周期发送的心跳信息;若在预设时长内未接收到所述心跳信息,通过电源管理重启所述片上系统;监测是否重启成功,若通过所述电源管理未重启成功,通过看门狗重启所述片上系统。
第三方面,本申请提供了一种中央运算单元,所述中央运算单元包括片上系统和微控制器,其中:所述片上系统用于以预设周期向所述微控制器发送心跳信息,以使所述微控制器在预设时长内未接收到所述心跳信息时,重启所述片上系统,并监测所述片上系统是否存在故障,若存在故障,重启所述片上系统,若在所述预设周期的周期时长内未重启成功,停止向所述微控制器发送心跳信息;所述微控制器用于接收所述片上系统以预设周期发送的心跳信息,若在预设时长内未接收到所述心跳信息,通过电源管理重启所述片上系统,监测是否重启成功,若通过所述电源管理未重启成功,通过看门狗重启所述片上系统。
第四方面,本申请提供了一种车辆,包括中央运算单元以及存储器;一个或多个程序被存储在所述存储器中并被配置为由所述中央运算单元执行,所述一个或多个程序配置用于执行上述的方法。
第五方面,本申请提供的一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行上述的方法。
本申请提供的一种系统故障处理方法、中央运算单元、车辆以及存储介质,在以预设周期向所述微控制器发送心跳信息,以使所述微控制器在预设时长内未接收到所述心跳信息时,重启所述片上系统后,监测所述片上系统是否存在故障,若存在故障,重启所述片上系统,若在所述预设周期的周期时长内未重启成功,停止向所述微控制器发送心跳信息。通过上述方式使得,片上系统可以检测自身是否存在故障,若存在故障,可以通过重启片上系统,将片上系统恢复至正常运行状态;若重启不成功时,停止向微控制器发送心跳信息,使得微控制器在预设时长内未接收到心跳信息时,可以重启片上系统,以使片上系统恢复至正常运行状态,从而可以提高系统的稳定性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请提出的一种中央运算单元的框架图;
图2示出了本申请实施例提出的一种系统故障处理方法的流程图;
图3示出了本申请提出的一种健康管理线程向微控制器发送心跳信息的示意图;
图4示出了本申请提出的一种片上系统控制线程向微控制器发送系统报文的示意图;
图5示出了本申请提出的一种线程恢复正常运行的方式的示意图;
图6示出了本申请提出的另一种线程恢复正常运行的方式的示意图;
图7示出了本申请另一实施例提出的一种系统故障处理方法的流程图;
图8示出了本申请提出的一种健康管理线程发送心跳信息和异常退出信号的示意图;
图9示出了实施例提出的又一种系统故障处理方法的流程图;
图10示出了本申请实施例提出的一种中央运算单元的结构框图;
图11示出了本申请提出的一种车辆的结构框图;
图12是本申请实施例的用于保存或者携带实现根据本申请实施例的系统故障处理方法的程序代码的存储单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中,发明人提出了一种系统故障处理方法、中央运算单元以及车辆,在以预设周期向所述微控制器发送心跳信息,以使所述微控制器在预设时长内未接收到所述心跳信息时,重启所述片上系统后,监测所述片上系统是否存在故障,若存在故障,重启所述片上系统,若在所述预设周期的周期时长内未重启成功,停止向所述微控制器发送心跳信息。通过上述方式使得,片上系统可以检测自身是否存在故障,若存在故障,可以通过重启片上系统,将片上系统恢复至正常运行状态;若重启不成功时,停止向微控制器发送心跳信息,使得微控制器在预设时长内未接收到心跳信息时,可以重启片上系统,以使片上系统恢复至正常运行状态,从而可以提高系统的稳定性。
为了更好地理解本申请实施例的方案,下面先对本申请实施例所使用的技术名词解释。
自适应汽车开放系统架构(Adaptive AUTomotive Open Systems Architecture,Adaptive AUTOSAR):可以对现代高速发展的汽车软件进行标准化管理以适应于软件的更新迭代,AUTOSAR架构可以彻底隔离了底层硬件和上层软件,大大增加了代码重用性,且解耦可以使工程师同时开发各层软件,互不冲突、共同维护。AUTOSAR架构对应的工具链成熟,生成代码可靠性强,从而可以帮助汽车企业缩短开发周期、提高开发效率、降低开发成本。
中央运算单元(Compact Control Unit):可以是车辆的控制中心,主要具备车辆控制、总线管理、数据通信等功能。
片上系统(System on a Chip,SoC):可以指在单个芯片上集成的一个完整的系统,SoC可以对所有或部分必要的电子电路进行包分组。
微控制单元(Microcontroller Unit,MCU),可以是把中央处理器(CentralProcess Unit,CPU)的频率与规格做适当缩减,并将内存(memory)、计数器(Timer)、通用串行总线(Universal Serial Bus,USB)、模/数转换等接口、驱动电路都整合在单一芯片上,形成芯片级的计算机。MCU可以针对不同的应用场合实现不同组合控制。
电源管理系统(Power Management,PM):可以是一种系统电源管理方案,可以为设备提供电源管理服务。
看门狗(watchDog):可以是一个定时器电路,一般有一个输入和一个输出,其中,输入叫做喂狗,输出一般连接到另外一个器件的复位端,看门狗的功能可以是定期的查看芯片内部的情况,一旦发生错误就向芯片发出重启信号。看门狗命令在程序的中断中可以拥有最高的优先级。
为了更好地理解本申请实施例的方案,下面先对本申请中央运算单元的框架进行介绍。
请参阅图1,本申请的中央运算单元10可以包括片上系统100和微控制器200,中央运算单元10可以为具有控制功能的电子器件,例如,中央运算单元10可以为CCU。
片上系统100可以为一个集成了多个功能线程的芯片,例如,片上系统100可以为SoC。如图1所示,片上系统100可以包含的功能线程有:健康管理线程101、状态管理线程102、启动管理线程103、初始化线程104、中间件线程105、应用程序线程106。其中,健康管理线程101可以包括健康管理主线程1011和健康管理从线程1012,健康管理主线程1011可以是基于Adaptive AUTOSAR的健康管理线程(Platform Health Management,PHM),PHM可以以监控实体为单元进行监测,每个监控实体可以映射到一个进程。健康管理从线程1012可以是基于Adaptive AUTOSAR的健康管理从线程(Health Slave),Health Slave可以用于实现片上系统100与微控制器200的通信以及监测PHM是否出现故障。状态管理线程102可以是基于Adaptive AUTOSAR的状态管理线程(SM),可以用于用于记录和仲裁片上系统100中所有功能线程的运行状态。启动管理线程103可以是基于Adaptive AUTOSAR的启动管理线程(EM),可以用于启动或者关闭片上系统100中除了初始化线程以外的功能线程。初始化线程104可以是Adaptive AUTOSAR的初始化启动程序。中间件线程105可以是基于AdaptiveAUTOSAR的中间件(AUTOSAR Stack、AUTOSAR Middleware)。应用程序线程106可以是基于Adaptive AUTOSAR搭建的相关应用程序,例如,与用户进行智能交互的应用程序等。片上系统100还可以包括片上系统控制线程107,片上系统控制线程107可以用于监测整个片上系统100的资源使用状况以及进程运行情况。
微控制器200可以指具有控制功能的芯片,例如,微控制器200可以为MCU。如图1所示,微控制器200可以包括健康监控线程201、电源管理202、看门狗203。其中,健康监控线程201可以是基于Adaptive AUTOSAR的健康监控线程(Health Monitoring,HM),可以用于实现片上系统100与微控制器200的通信以及控制电源管理202、看门狗203。电源管理202可以为PM,PM可以用于重启片上系统100。看门狗203可以为watchDog,watchDog可以负责整个硬件和系统的异常复位处理。
下面将结合附图对本申请的实施例进行介绍。
请参阅图2,本申请提供的一种系统故障处理方法,所述方法包括:
S110:以预设周期向所述微控制器发送心跳信息,以使所述微控制器在预设时长内未接收到所述心跳信息时,重启所述片上系统。
其中,片上系统可以包括健康管理线程,微控制器可以包括健康监控线程。
作为一种方式,健康管理线程可以以预设周期向微控制器发送心跳信息,以使微控制器在预设时长内未接收到心跳信息时,重启片上系统。
可选的,如图3所示,健康管理线程可以包括健康管理主线程和健康管理从线程,健康管理主线程可以以预设周期向健康管理从线程发送健康管理主线程的心跳信息,健康管理从线程每次接收到心跳信息后,可以通过IPCF(Inter-Platform CommunicationFramework,跨平台通讯架构)向微控制器中的健康监控线程转发健康管理主线程的心跳信息。
可选的,若微控制器在预设时长内未接收到未接收到心跳信息,则可以表明片上系统存在故障,微控制器可以重启片上系统,以使片上系统恢复至正常运行状态。
可选的,预设时长可以根据预设周期进行设置,考虑到心跳信息的传输时间,为了使微控制器可以正常接收到心跳信息,以便通过心跳信息准确判断片上系统是否存在故障,预设时长可以至少包括心跳信息的一个预设周期。同时为了提高微控制器对片上系统故障的响应速度,预设时长可以在确保可以正常接收到心跳信息的情况下,不用设置得过长。示例性的,健康管理线程发送心跳信息的预设周期可以为t1,则预设时长可以为T1,t1<T1<5×t1。
作为另一种方式,如图4所示,片上系统还可以包括片上系统控制线程,片上系统控制线程可以用于监测整个片上系统的资源使用状况以及进程运行情况,在该方式下,片上系统控制线程可以在检测到资源使用状况或进程运行情况出现问题(如片上系统的资源存储空间已满等)时,通过健康管理从线程向微控制器的健康监控线程发送系统报文,以使微控制器可以通过系统报文确认片上系统存在故障,从而重启片上系统。
S120:监测所述片上系统是否存在故障,若存在故障,重启所述片上系统,若在所述预设周期的周期时长内未重启成功,停止向所述微控制器发送心跳信息。
其中,片上系统可以包括启动管理线程、健康管理线程。片上系统的故障可以包括线程运行停滞或者异常退出等故障。在本申请实施例中,可以有多种方式监测片上系统是否存在故障。
作为一种方式,健康管理线程可以接收片上系统的目标线程的心跳信息,当健康管理线程在预设时长内未接收到目标线程发送的心跳信息时,确定目标线程存在故障,则可以关闭并重启启动管理线程,以使启动管理线程启动目标线程。
可选的,如图5所示,健康管理线程可以包括健康管理主线程和健康管理从线程,健康管理主线程可以接收片上系统的目标线程的心跳信息,当健康管理主线程在预设时长内未接收到目标线程发送的心跳信息时,确定目标线程存在故障,则可以关闭并重启启动管理线程,以使启动管理线程启动目标线程。
在本申请实施例中,目标线程可以为状态管理线程。作为一种方式,状态管理线程可以周期性地向健康管理线程发送心跳信息,若健康管理主线程在预设时长内未接收到状态管理线程的心跳信息,可以确定状态管理线程存在故障,健康管理线程可以关闭并重启启动管理线程,以使启动管理线程启动状态管理线程,从而使状态管理线程恢复正常。
可选的,片上系统还可以包括初始化线程,启动管理线程被关闭可以相当于启动管理线程异常退出。当启动管理线程异常退出时,启动管理线程可以向初始化线程发送异常退出信号,初始化线程可以响应于该异常退出信号,重新启动启动管理线程,以使启动管理线程启动状态管理线程。
可选的,在本申请实施例中,健康管理主线程还可以监测片上系统的其他线程,如健康管理从线程、启动管理线程、中间件线程、应用程序线程等。示例性的,健康管理从线程可以周期性地向健康管理主线程发送心跳信息,若健康管理主线程在预设时长内未接收到健康管理从线程的心跳信息,可以确定健康管理从线程存在故障,可以基于启动管理线程重启健康管理从线程,从而使健康管理从线程恢复正常。
需要说明的是,基于心跳信息确定片上系统中的线程存在故障可以是对应的线程出现运行停滞或者死锁等。
再者,需要说明的是,健康管理从线程、状态管理线程、启动管理线程、中间件线程、应用程序线程等发送心跳信息的时间周期可以由研发人员预先设置,每个线程对应的时间周期可以相同也可以不同。预设时长也可以是由研发人员基于多次试验结果进行设置的。
在本申请实施例中,可以通过健康管理主线程监测片上系统中启动管理线程、健康管理从线程、状态管理线程等的心跳信息,并在通过心跳信息确定片上系统对应的线程存在运行停滞等故障时,可以针对存在故障的线程采取相应的措施以使存在故障的线程可以恢复正常。并且,在健康管理线程出现故障时,还可以通过微控制器重启片上系统,以实现健康管理主线程的恢复,从而实现了对片上系统故障的闭环监测,进而提高了片上系统的稳定性和可靠性。并且可以在单个线程出现运行停滞等故障时,仅对存在故障的线程进行恢复,而不是对整个片上系统进行恢复,从而可以提高片上系统的恢复效率。
作为另一种方式,如图6所示,片上系统可以包括启动管理线程,启动管理线程可以响应于片上系统中线程的异常退出信号,重启片上系统中对应的线程。
其中,异常退出信号可以表征对应的线程异常退出,异常退出信号可以是crashsignal。
可选的,片上系统中向启动管理线程发送异常退出信号的线程可以有:健康管理主线程、健康管理从线程、状态管理线程、中间件线程、应用程序线程等。
其中,由于状态管理线程需要维护片上系统中所有线程的状态,且线程的中间状态较多,难以恢复,因此,在状态管理线程异常退出前,状态管理线程可以向启动管理线程发送异常退出信号,启动管理线程响应于状态管理线程的异常退出信号,可以向初始化线程发送异常退出信号并退出,初始化线程响应于启动管理线程的异常退出信号,重启启动管理线程,从而使启动管理线程重启状态管理线程。
可选的,若启动管理异常退出,启动管理线程可以向初始化线程发送异常退出信号,初始化线程可以响应于启动管理线程的异常退出信号,重新启动启动管理线程。
可选的,若启动管理线程未成功启动,表明初始化线程可能出现故障,则健康管理线程可以停止向微控制器发送心跳信息,使得微控制器在预设时长内未接收到心跳信息时,可以重启片上系统,从而重新启动启动管理线程。
在本申请实施例中,可以通过启动管理线程监测片上系统中健康管理主线程、健康管理从线程、状态管理线程、中间件线程、应用程序线程是否异常退出,并在通过异常退出信号确定片上系统对应的线程异常退出时,可以重新启动异常退出的线程,以使异常退出的线程可以恢复正常。并且,在启动管理线程异常退出时,还可以通过初始化线程对启动管理线程进行重启,以及在初始化线程未能成功重启启动管理线程时,还可以通过微控制器重置片上系统,以实现初始化线程以及启动管理线程的重启,从而实现了对片上系统中异常退出线程的闭环监测,进而提高了系统的稳定性和可靠性。并且可以在单个线程出现异常退出时,可以优先对该线程进行重启,而不是对整个片上系统进行重启,从而可以提高片上系统的恢复效率。
可选的,在本申请实施例中,需要通过心跳信息判断对应的线程是否出现运行停滞的故障,而对于线程的心跳信息的判断需要一定的时间,在确认对应的线程出现运行停滞的故障后,才会通过相关措施恢复对应的线程;而在线程异常退出时,可以直接向启动管理线程发送异常退出信号,使得启动管理可以在响应于异常退出信号后,立即重启对应的线程,因此,可以将出现运行停滞的线程恢复至正常运行的方式称为慢恢复方式,将异常退出的线程恢复至正常运行的方式称为快恢复方式。
在本实施例中,线程的状态可以包括运行停滞、异常退出、正常运行,当片上系统中的线程出现运行停滞或异常退出时,都可以通过相对应的解决措施(快恢复或者慢恢复的方式)将运行停滞或异常退出的线程重新恢复至正常运行状态,从而提高了片上系统的稳定性。
本实施例提供的一种系统故障处理方法,在以预设周期向所述微控制器发送心跳信息,以使所述微控制器在预设时长内未接收到所述心跳信息时,重启所述片上系统后,监测所述片上系统是否存在故障,若存在故障,重启所述片上系统,若在所述预设周期的周期时长内未重启成功,停止向所述微控制器发送心跳信息。通过上述方式使得,片上系统可以检测自身是否存在故障,若存在故障,可以通过重启片上系统,将片上系统恢复至正常运行状态;若重启不成功时,停止向微控制器发送心跳信息,使得微控制器在预设时长内未接收到心跳信息时,可以重启片上系统,以使片上系统恢复至正常运行状态,从而可以提高系统的稳定性。
请参阅图7,本申请提供的一种系统故障处理方法,所述方法包括:
S210:以预设周期向所述微控制器发送心跳信息,以使所述微控制器在预设时长内未接收到所述心跳信息时,重启所述片上系统。
作为一种方式,如图8左图所示,健康管理主线程可以以预设周期向健康管理从线程发送健康管理主线程的心跳信息,健康管理从线程每次接收到心跳信息后,可以通过IPCF(Inter-Platform Communication Framework,跨平台通讯架构)向健康监控线程转发健康管理主线程的心跳信息。
S220:监测所述片上系统是否存在故障,若存在故障,重启所述片上系统,若在所述预设周期的周期时长内未重启成功,停止向所述微控制器发送心跳信息。
S230:所述健康管理线程向所述启动管理线程发送异常退出信号,所述异常退出信号表征所述健康管理线程异常退出。
其中,健康管理线程可以包括健康管理主线程和健康管理从线程,作为一种方式,如图8右图所示,若健康管理线程因程序死循环、负载过高、资源不足等原因导致异常退出,健康管理线程可以在异常退出前向启动管理线程发送异常退出信号(如crash signal)。
可选的,当健康管理主线程或健康管理从线程异常退出时,对应的异常退出线程都可以向启动管理线程发送异常退出信号。
S240:所述启动管理线程响应于所述异常退出信号,重启所述健康管理线程。
作为一种方式,启动管理线程可以响应于异常退出信号,重启健康管理线程。
可选的,启动管理线程可以响应于健康管理主线程或健康管理从线程发送的异常退出信号,重启健康管理主线程或健康管理从线程。
在本申请实施例中,当监测到健康管理主线程处于非正常运行状态(运行停滞或异常退出)时,可以通过微控制器或者启动管理线程使健康管理主线程恢复至正常运行状态,从而实现了对健康管理主线程的闭环监测,以保证健康管理主线程的稳定性,从而使健康管理主线程可以继续监测片上系统是否存在故障,从而提高了片上系统的稳定性。
S250:重启后的所述健康管理线程监测所述片上系统其它线程的状态,向所述微控制器发送所述心跳信息。
其中,片上系统其它线程可以包括启动管理线程、状态管理线程、中间件线程、应用程序线程等。
作为一种方式,重启后的健康管理线程可以继续监测片上系统其它线程的状态,并向微控制器发送心跳信息。
可选的,重启后的健康管理线程可以继续监测启动管理线程,包括:启动管理线程可以周期性地向健康管理线程发送心跳信息,若健康管理线程未在预设时长内获取到启动管理线程的心跳信息,确定启动管理线程存在故障,健康管理线程关闭启动管理线程;启动管理线程向初始化线程发送异常退出信号;初始化线程重启启动管理线程。
可选的,若启动管理线程未成功启动,健康管理线程停止向微控制器发送心跳信息,使得微控制器在预设时长内未接收到心跳信息时,可以重启片上系统,从而重新启动启动管理线程。
本实施例提供的一种系统故障处理方法,通过上述方式使得,片上系统可以检测自身是否存在故障,若存在故障,可以通过重启片上系统,将片上系统恢复至正常运行状态;若重启不成功时,停止向微控制器发送心跳信息,使得微控制器在预设时长内未接收到心跳信息时,可以重启片上系统,以使片上系统恢复至正常运行状态,从而可以提高系统的稳定性。并且,在本实施例中,当健康管理线程异常退出时,可以通过启动管理线程将健康管理线程恢复至正常运行状态,当启动管理线程存在故障时可以通过健康管理线程恢复至正常运行状态,从而实现了片上系统中的两个核心线程的相互监测以及恢复,使得两个线程均可以处于正常运行状态,进而健康管理线程和启动管理线程可以进一步监测片上系统的其他线程,提高了片上系统的稳定性。
请参阅图9,本申请提供的一种系统故障处理方法,所述方法包括:
S310:接收所述片上系统以预设周期发送的心跳信息。
在本申请实施例中,微控制器可以包括健康监控线程、电源管理、看门狗,片上系统可以包括健康管理线程。
作为一种方式,健康监控线程可以接收健康管理线程以预设周期发送的心跳信息。
S320:若在预设时长内未接收到所述心跳信息,通过电源管理重启所述片上系统。
作为一种方式,若健康监控线程在预设时长内未接收到心跳信息,可以通过电源管理重启片上系统。
可选的,健康监控线程可以通过在预设时长内是否接收到心跳信息确定片上系统是否存在故障,若健康监控线程未在预设时长内接收到心跳信息,则确定片上系统存在故障,可以通过电源管理重启片上系统;若健康监控线程在在预设时长内接收到心跳信息,则确定片上系统不存在故障,可以继续监测片上系统的运行状态。
作为另一种方式,片上系统还可以包括片上系统控制线程,片上系统控制线程可以用于监测整个片上系统的资源使用状况以及进程运行情况,在该方式下,健康监控线程可以在接收到片上系统控制线程发送的系统报文,确定片上系统存在故障,从而通过电源管理重启片上系统。
可选的,系统报文可以表征片上系统的资源使用状况或进程运行情况出现问题(如片上系统的资源存储空间已满等),系统报文可以通过健康管理从线程发送至健康监控线程。
S330:监测是否重启成功,若通过所述电源管理未重启成功,通过看门狗重启所述片上系统。
作为一种方式,健康监控线程可以通过在预设时长内是否接收到心跳信息来监测是否将片上系统重启成功,若健康监控线程未在预设时长内未接收到心跳信息,则表明通过电源管理未将片上系统重启成功,可以通过看门狗重启整个中央运算单元,从而重启片上系统。
本实施例提供的一种系统故障处理方法,通过上述方式使得,微控制器在预设时长内未接收到片上系统的心跳信息时,可以通过电源管理重启所述片上系统,并监测是否重启成功,若通过所述电源管理未重启成功,通过看门狗重启所述片上系统,以使片上系统恢复至正常运行状态,从而可以提高系统的稳定性。
请参阅图10,本申请提供的一种中央运算单元100,所述系统包括片上系统和微控制器,其中:
所述片上系统,用于以预设周期向所述微控制器发送心跳信息,以使所述微控制器在预设时长内未接收到所述心跳信息时,重启所述片上系统,并监测所述片上系统是否存在故障,若存在故障,重启所述片上系统,若在所述预设周期的周期时长内未重启成功,停止向所述微控制器发送心跳信息。
所述微控制器,用于接收所述片上系统以预设周期发送的心跳信息,若在预设时长内未接收到所述心跳信息,通过电源管理重启所述片上系统,监测是否重启成功,若通过所述电源管理未重启成功,通过看门狗重启所述片上系统。
下面将结合图11对本申请提供的一种车辆进行说明。
请参阅图11,基于上述的系统故障处理方法、中央运算单元,本申请实施例还提供的另一种可以执行前述系统故障处理方法的车辆200。车辆200包括相互耦合的一个或多个(图中仅示出一个)中央运算单元202、存储器204。其中,该存储器204中存储有可以执行前述实施例中内容的程序,而中央运算单元202可以执行该存储器204中存储的程序。
其中,中央运算单元202可以为前述实施例中的中央运算单元。
存储器204可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器204可用于存储指令、程序、代码、代码集或指令集。存储器204可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端200在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
请参考图12,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质800中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质800包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。
综上所述,本申请提供的一种系统故障处理方法、中央运算单元以及车辆,在以预设周期向所述微控制器发送心跳信息,以使所述微控制器在预设时长内未接收到所述心跳信息时,重启所述片上系统后,监测所述片上系统是否存在故障,若存在故障,重启所述片上系统,若在所述预设周期的周期时长内未重启成功,停止向所述微控制器发送心跳信息。通过上述方式使得,片上系统可以检测自身是否存在故障,若存在故障,可以通过重启片上系统,将片上系统恢复至正常运行状态;若重启不成功时,停止向微控制器发送心跳信息,使得微控制器在预设时长内未接收到心跳信息时,可以重启片上系统,以使片上系统恢复至正常运行状态,从而可以提高系统的稳定性。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (11)
1.一种系统故障处理方法,其特征在于,所述方法包括:
以预设周期向所述微控制器发送心跳信息,以使所述微控制器在预设时长内未接收到所述心跳信息时,重启所述片上系统;
监测所述片上系统是否存在故障,若存在故障,重启所述片上系统,若在所述预设周期的周期时长内未重启成功,停止向所述微控制器发送心跳信息。
2.根据权利要求1所述的方法,其特征在于,所述片上系统包括启动管理线程以及健康管理线程,所述健康管理线程用于监测所述片上系统其它线程的状态,向所述微控制器发送所述心跳信息,所述启动管理线程用于启动所述片上系统对应的多个线程,所述方法还包括:
所述健康管理线程向所述启动管理线程发送异常退出信号,所述异常退出信号表征所述健康管理线程异常退出;
所述启动管理线程响应于所述异常退出信号,重启所述健康管理线程;
重启后的所述健康管理线程监测所述片上系统其它线程的状态,向所述微控制器发送所述心跳信息。
3.根据权利要求2所述的方法,其特征在于,所述片上系统还包括初始化线程,所述初始化线程用于启动所述启动管理线程,所述方法还包括:
所述启动管理线程周期性地向所述健康管理线程发送心跳信息;
若所述健康管理线程未在预设时长内获取到所述心跳信息,确定所述启动管理线程存在故障,所述健康管理线程关闭所述启动管理线程;
所述启动管理线程向所述初始化线程发送所述异常退出信号;
所述初始化线程重启所述启动管理线程。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若所述启动管理线程未成功启动,所述健康管理线程停止向所述微控制器发送心跳信息。
5.根据权利要求1所述的方法,其特征在于,所述片上系统包括启动管理线程、健康管理线程,所述监测所述片上系统是否存在故障,若存在故障,重启所述片上系统,包括:
所述健康管理线程接收所述片上系统的目标线程的心跳信息;
当所述健康管理线程在预设时长内未接收到所述目标线程发送的心跳信息时,确定所述目标线程存在故障;
关闭并重启所述启动管理线程,所述启动管理线程启动所述目标线程。
6.根据权利要求5所述的方法,其特征在于,所述片上系统还包括初始化线程,所述重启所述启动管理线程,包括:
若所述启动管理线程异常退出,所述启动管理线程向所述初始化线程发送异常退出信号;
所述初始化线程响应于所述异常退出信号,重新启动所述启动管理线程。
7.根据权利要求1所述的方法,其特征在于,所述片上系统包括启动管理线程,所述监测所述片上系统是否存在故障,若存在故障,重启所述片上系统,包括:
所述启动管理线程响应于所述片上系统中线程的异常退出信号,重启所述片上系统中对应的线程。
8.一种系统故障处理方法,其特征在于,所述方法包括:
接收所述片上系统以预设周期发送的心跳信息;
若在预设时长内未接收到所述心跳信息,通过电源管理重启所述片上系统;
监测是否重启成功,若通过所述电源管理未重启成功,通过看门狗重启所述片上系统。
9.一种中央运算单元,其特征在于,所述中央运算单元包括片上系统和微控制器,其中:
所述片上系统用于以预设周期向所述微控制器发送心跳信息,以使所述微控制器在预设时长内未接收到所述心跳信息时,重启所述片上系统,并监测所述片上系统是否存在故障,若存在故障,重启所述片上系统,若在所述预设周期的周期时长内未重启成功,停止向所述微控制器发送心跳信息;
所述微控制器用于接收所述片上系统以预设周期发送的心跳信息,若在预设时长内未接收到所述心跳信息,通过电源管理重启所述片上系统,监测是否重启成功,若通过所述电源管理未重启成功,通过看门狗重启所述片上系统。
10.一种车辆,其特征在于,包括中央运算单元以及存储器;
一个或多个程序被存储在所述存储器中并被配置为由所述中央运算单元执行,所述一个或多个程序配置用于执行权利要求1-8任一所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行权利要求1-8任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210686901.5A CN115237644B (zh) | 2022-06-16 | 2022-06-16 | 系统故障处理方法、中央运算单元以及车辆 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210686901.5A CN115237644B (zh) | 2022-06-16 | 2022-06-16 | 系统故障处理方法、中央运算单元以及车辆 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115237644A true CN115237644A (zh) | 2022-10-25 |
CN115237644B CN115237644B (zh) | 2024-04-23 |
Family
ID=83669317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210686901.5A Active CN115237644B (zh) | 2022-06-16 | 2022-06-16 | 系统故障处理方法、中央运算单元以及车辆 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115237644B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115817386A (zh) * | 2022-12-28 | 2023-03-21 | 中国重汽集团济南动力有限公司 | 一种基于中央控制器和智能edb的车辆状态管理系统及方法 |
CN116203962A (zh) * | 2023-03-13 | 2023-06-02 | 中国人民解放军海军工程大学 | 水面无人艇多模式航行安全控制方法、系统及设备 |
CN116932272A (zh) * | 2023-09-14 | 2023-10-24 | 飞腾信息技术有限公司 | 一种错误上报方法及微处理器 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170048307A1 (en) * | 2015-08-12 | 2017-02-16 | Fujitsu Limited | Apparatus and method to perform post-initialization control on applications in a server |
CN108038019A (zh) * | 2017-12-25 | 2018-05-15 | 曙光信息产业(北京)有限公司 | 一种基板管理控制器的故障自动恢复方法及系统 |
CN108255646A (zh) * | 2018-01-17 | 2018-07-06 | 重庆大学 | 一种基于心跳检测的工控应用程序故障自恢复的方法 |
CN109597719A (zh) * | 2018-12-10 | 2019-04-09 | 浪潮(北京)电子信息产业有限公司 | 一种多核系统的监控方法、系统、装置及可读存储介质 |
CN111831488A (zh) * | 2020-05-31 | 2020-10-27 | 中车永济电机有限公司 | 具有安全等级设计的tcms-mpu控制单元 |
US20210405097A1 (en) * | 2020-06-29 | 2021-12-30 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Reliable hardware metering |
-
2022
- 2022-06-16 CN CN202210686901.5A patent/CN115237644B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170048307A1 (en) * | 2015-08-12 | 2017-02-16 | Fujitsu Limited | Apparatus and method to perform post-initialization control on applications in a server |
CN108038019A (zh) * | 2017-12-25 | 2018-05-15 | 曙光信息产业(北京)有限公司 | 一种基板管理控制器的故障自动恢复方法及系统 |
CN108255646A (zh) * | 2018-01-17 | 2018-07-06 | 重庆大学 | 一种基于心跳检测的工控应用程序故障自恢复的方法 |
CN109597719A (zh) * | 2018-12-10 | 2019-04-09 | 浪潮(北京)电子信息产业有限公司 | 一种多核系统的监控方法、系统、装置及可读存储介质 |
CN111831488A (zh) * | 2020-05-31 | 2020-10-27 | 中车永济电机有限公司 | 具有安全等级设计的tcms-mpu控制单元 |
US20210405097A1 (en) * | 2020-06-29 | 2021-12-30 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Reliable hardware metering |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115817386A (zh) * | 2022-12-28 | 2023-03-21 | 中国重汽集团济南动力有限公司 | 一种基于中央控制器和智能edb的车辆状态管理系统及方法 |
CN116203962A (zh) * | 2023-03-13 | 2023-06-02 | 中国人民解放军海军工程大学 | 水面无人艇多模式航行安全控制方法、系统及设备 |
CN116932272A (zh) * | 2023-09-14 | 2023-10-24 | 飞腾信息技术有限公司 | 一种错误上报方法及微处理器 |
CN116932272B (zh) * | 2023-09-14 | 2023-11-21 | 飞腾信息技术有限公司 | 一种错误上报方法及微处理器 |
Also Published As
Publication number | Publication date |
---|---|
CN115237644B (zh) | 2024-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115237644B (zh) | 系统故障处理方法、中央运算单元以及车辆 | |
CN107122321B (zh) | 硬件修复方法、硬件修复系统以及计算机可读取存储装置 | |
US8677185B2 (en) | Information processing apparatus | |
JP2001101033A (ja) | オペレーティングシステム及びアプリケーションプログラムの障害監視方法 | |
CN103415840A (zh) | 跨硬件层和软件层的错误管理 | |
US7194614B2 (en) | Boot swap method for multiple processor computer systems | |
WO2015100878A1 (zh) | 一种芯片启动方法及多核处理器芯片、存储介质 | |
US20040177242A1 (en) | Dynamic computer system reset architecture | |
JP2007323631A (ja) | Cpu暴走判定回路 | |
US8060778B2 (en) | Processor controller, processor control method, storage medium, and external controller | |
US10572435B2 (en) | Techniques of accessing serial console of BMC using host serial port | |
CN111124749A (zh) | 紧耦合高性能计算机系统bmc系统自动修复方法及修复系统 | |
CN115904793B (zh) | 一种基于多核异构系统的内存转存方法、系统及芯片 | |
CN113535441A (zh) | 一种嵌入式系统故障诊断装置及方法 | |
CN116185510A (zh) | 分区切换启动方法、阵列服务器和计算机可读存储介质 | |
CN115951949A (zh) | 一种bios的配置参数的恢复方法、装置及计算设备 | |
CN116360865A (zh) | 集群管理方法、设备及计算系统 | |
CN107291653B (zh) | 一种多处理器系统及配置多处理器系统的方法 | |
CN112698870A (zh) | 开关机管理方法、计算设备及存储介质 | |
CN116991637B (zh) | 嵌入式系统的运行控制方法及装置、电子设备及存储介质 | |
CN112380083B (zh) | 一种bmc主备切换稳定性测试方法和系统 | |
US20220206823A1 (en) | Information processing method and electronic apparatus | |
CN118567331A (zh) | 异常处理方法、装置、设备、存储介质及车辆 | |
CN118069205A (zh) | 可编程逻辑器件版本的回退方法、装置、设备及存储介质 | |
CN114816886A (zh) | 服务器重启测试优化方法、系统、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |