CN114138534A - 一种系统挂死故障的恢复和定位方法、装置、设备及存储介质 - Google Patents

一种系统挂死故障的恢复和定位方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114138534A
CN114138534A CN202111465505.1A CN202111465505A CN114138534A CN 114138534 A CN114138534 A CN 114138534A CN 202111465505 A CN202111465505 A CN 202111465505A CN 114138534 A CN114138534 A CN 114138534A
Authority
CN
China
Prior art keywords
intelligent driving
watchdog
driving operation
kernel
operating system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111465505.1A
Other languages
English (en)
Other versions
CN114138534B (zh
Inventor
耿东久
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zebred Network Technology Co Ltd
Original Assignee
Zebred Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zebred Network Technology Co Ltd filed Critical Zebred Network Technology Co Ltd
Priority to CN202111465505.1A priority Critical patent/CN114138534B/zh
Publication of CN114138534A publication Critical patent/CN114138534A/zh
Application granted granted Critical
Publication of CN114138534B publication Critical patent/CN114138534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1441Resetting or repowering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2236Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test CPU or processors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种系统挂死故障的恢复和定位方法、装置、设备及存储介质,应用于智能车辆,智能车辆包括智能驾驶操作系统和安全岛域系统,智能驾驶操作系统包括设有看门狗的SoC,方法包括:中央处理器每间隔预设时长设置寄存器喂狗;当中央处理器长时间没有喂狗,看门狗向安全岛域系统发送外部中断信号,使安全岛域系统读取智能驾驶操作系统的硬件寄存器以记录异常现场,通知智能驾驶操作系统的进行热复位,热复位后启动内核转储功能捕获异常挂死现场;智能驾驶操作系统通过转储内核进行转储并重新启动智能驾驶操作系统。本发明在智能驾驶操作系统挂死时,通过其他系统进行热复位并记录异常现场,解决了系统挂死问题,同时也便于定位问题。

Description

一种系统挂死故障的恢复和定位方法、装置、设备及存储介质
技术领域
本发明涉及车辆安全驾驶技术领域,具体涉及一种系统挂死故障的恢复和定位方法、装置、设备及存储介质。
背景技术
随着智能车辆技术的进步,智能车辆中各种驾驶辅助设备也取得了长足的发展。在汽车领域,智能驾驶操作系统开始逐步走入人们的视野,智能驾驶操作系统可以在行车时进行辅助,例如可以提供AR导航,紧急避险等功能,在不久的将来,智能驾驶操作系统甚至可以提供自动驾驶服务。以紧急避险功能举例,紧急避险功能可以在前车急停或后车危险超越时紧急规避,在智能驾驶操作系统工作时,智能驾驶操作系统可以在短时间内操纵车辆行驶方向和刹车。
由于汽车车机的内存、算力或其他客观因素的原因,因此在某些情况下,智能驾驶操作系统会发生挂死,此时需要及时CPU检测到故障并尽快恢复,而在很多实际情形中,CPU已经彻底挂死无法执行指令,甚至无法响应不可屏蔽中断(Non Maskable Interrupt,NMI),只能人为手动下电重启,这对处于行驶状态中的车辆造成了巨大的安全隐患。同时,在只能手动下电重启的情况下,也无法记录智能驾驶操作系统挂死的异常现场信息,对开发人员后续定位问题带来了困难。
发明内容
针对现有技术的上述问题,本发明的目的在于提供一种系统挂死故障的恢复和定位方法、装置、设备及存储介质,能够及时处理和定位智能驾驶操作系统挂死故障问题。
为解决上述技术问题,本发明采用以下技术方案:
根据本发明实施例的一种系统挂死故障的恢复和定位方法,应用于智能车辆,智能车辆包括智能驾驶操作系统和安全岛域系统,智能驾驶操作系统包括至少一个设有看门狗的SoC,方法包括:
SoC的中央处理器每间隔预设时长向看门狗发起喂狗动作;当看门狗在连续间隔两次预设时长未接收到喂狗动作,看门狗向安全岛域系统发送外部中断信号,使安全岛域系统读取智能驾驶操作系统的硬件寄存器以记录异常现场,并对智能驾驶操作系统的进行热复位;
智能驾驶操作系统经过安全岛域系统热复位后,通过内核转储工具启动转储内核进行异常现场的转储,将异常现场转储到磁盘介质中;
智能驾驶操作系统转储完毕后,重新启动智能驾驶操作系统。
在本发明的一个实施例中,当看门狗在连续间隔两次预设时长未接收到喂狗动作,看门狗向安全岛域系统发送外部中断信号,使安全岛域系统读取智能驾驶操作系统的硬件寄存器以记录异常现场,并对智能驾驶操作系统的进行热复位,包括:
当看门狗在间隔预设时长时,第一次未收到喂狗动作,则看门狗向智能驾驶操作系统发送中断;
当看门狗在间隔第二个预设时长时,仍未接收到喂狗动作则向安全岛域系统发送外部中断信号,使安全岛域系统读取智能驾驶操作系统的硬件寄存器以记录异常现场,并对智能驾驶操作系统进行热复位以重启基本输入输出系统。
在本发明的一个实施例中,当看门狗在间隔第二个预设时长时,仍未接收到喂狗动作则向安全岛域系统发送外部中断信号,使安全岛域系统读取智能驾驶操作系统的硬件寄存器以记录异常现场,并对智能驾驶操作系统进行热复位,包括:
安全岛域系统读取智能驾驶操作系统的硬件寄存器,将硬件寄存器中的异常现场记录到黑匣子中;
安全岛域系统在智能驾驶操作系统中设置标识以通知智能驾驶操作系统进行热复位。
在本发明的一个实施例中,智能驾驶操作系统经过安全岛域系统热复位后,通过内核转储工具启动转储内核进行异常现场的转储,将异常现场转储到磁盘介质中,包括:
内核转储工具启动转储内核并通过共享内存将转储内核的信息传递给智能驾驶操作系统的基本输入输出系统;
基本输入输出系统通过转储内核捕获智能驾驶操作系统故障挂死时生成的异常现场并存放至预留内存中;
智能驾驶操作系统将预留内存中的异常现场转储至磁盘介质中。
在本发明的一个实施例中,信息包括:转储内核的目标地址、跳转参数。
在本发明的一个实施例中,内核转储工具启动转储内核并通过共享内存将转储内核的信息传递给智能驾驶操作系统的基本输入输出系统,包括:
基本输入输出系统对目标地址进行幻数校验,若幻数校验通过,则基本输入输出系统可以跳转至目标地址。
本发明的另一实施例还提供一种电子装置,电子装置包括智能驾驶操作系统和安全岛域系统,智能驾驶操作系统包括至少一个设有看门狗的SoC,包括:
喂狗模块,用于每间隔预设时长向看门狗发起喂狗动作;
看门狗模块,用于在间隔预设时长时未接收到喂狗动作时,向智能驾驶操作系统和安全岛域系统发送中断;
安全岛域系统包括:
异常现场记录模块,用于接收看门狗模块在间隔预设时长时未接收到喂狗动作时向安全岛域系统发送的外部中断,读取智能驾驶操作系统的硬件寄存器以记录异常现场;
热复位模块,用于通知智能驾驶操作系统进行热复位以使智能驾驶操作系统的基本输入输出系统通过转储内核进行转储并重新启动智能驾驶操作系统。
在本发明的一个实施例中,看门狗模块用于:
在间隔预设时长时,第一次未收到喂狗动作时,看门狗向智能驾驶操作系统发送中断;
在间隔第二个预设时长时,仍未接收到喂狗动作则向安全岛域系统发送外部中断信号,使安全岛域系统读取智能驾驶操作系统的硬件寄存器以记录异常现场,并对智能驾驶操作系统进行热复位。
在本发明的一个实施例中,异常现场记录模块用于:
使安全岛域系统读取智能驾驶操作系统的硬件寄存器,将硬件寄存器中的异常现场记录到黑匣子中。
在本发明的一个实施例中,热复位模块用于:
在黑匣子中设置标识以通知智能驾驶操作系统进行热复位。
在本发明的一个实施例中,电子装置包括:
地址信息传输模块,用于将转储内核的信息通过共享内存传递至智能驾驶操作系统的基本输入输出系统以使基本输入输出系统通过转储内核捕获智能驾驶操作系统故障挂死时生成的异常现场并存放至预留内存中,并在转储完毕后重启智能驾驶操作系统。
在本发明的一个实施例中,地址信息传输模块用于:
使基本输入输出系统对信息进行幻数校验,若幻数校验通过,则基本输入输出系统可以跳转至转储内核的目标地址。
本发明的另一实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述方法中任一项的系统挂死故障的恢复和定位方法。
本发明的另一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现上述方法中任一项的系统挂死故障的恢复和定位方法的步骤。
本发明的上述技术方案至少具有如下有益效果之一:
1.本发明实施例的系统挂死故障的恢复和定位方法,在智能驾驶操作系统发生挂死故障时可以及时检测到故障,并使用安全岛域系统对智能驾驶操作系统进行热复位,有效提升了产品安全性能;
2.本发明实施例的系统挂死故障的恢复和定位方法,通过安全岛域系统保存智能驾驶操作系统挂死异常现场,便于开发人员之后进行问题定位;
3.本发明实施例的系统挂死故障的恢复和定位方法,通过安全岛域系统保存智能驾驶操作系统挂死异常现场并可以上传至云端,不需要在车辆上额外设置调试接口,有利于节省车辆生产开销。
附图说明
图1为本发明实施例的系统挂死故障的恢复和定位方法的实施环境示意图;
图2为本发明实施例的系统挂死故障的恢复和定位方法的流程图;
图3为本发明实施例的智能驾驶操作系统挂死故障的电子装置的结构示意图;
图4为本发明实施例的智能驾驶操作系统挂死故障的电子设备的SoC框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面将参考附图并结合实施例来详细说明本发明的工作原理。
参考说明书附图1,其示出了本发明一个实施例提供的系统挂死故障的恢复和定位方法的实施环境示意图,如图1所示,该实施环境可以包括智能驾驶操作系统和安全岛域(Safety lsland)系统。在实际应用中,车辆驾驶中,智能驾驶操作系统负责提供驾驶辅助服务或自动驾驶服务,但可能会由于各种客观因素而挂死,在挂死之后需要及时的检测到故障并尽快恢复,例如可以通知安全岛域系统做驾驶系统主备切换或紧急刹车等,同时也需要记录异常现场,便于开发人员定位问题。所以,可以在智能驾驶操作系统中的SoC中设置一个看门狗并定时进行喂狗,在系统挂死后,系统无法继续喂狗,看门狗第一次检测到喂狗超时时,会向智能驾驶操作系统发送中断。当看门狗第二次检测到喂狗超时时,表明智能驾驶操作系统的CPU已经无法执行指令,需要外部系统对智能驾驶操作系统进行热复位,看门狗可以向安全岛域系统发出外部中断,安全岛域系统收到外部中断后可以记录智能驾驶操作系统挂死时的异常现场并记录至黑匣子,同时使智能驾驶操作系统的基本输入输出系统(Basic Input Output System,BIOS)进行热复位。然后使用内核转储工具启动Kdump以运行转储内核,并将转储内核的目标地址通过共享内存传递至智能驾驶操作系统的基本输入输出系统,此时基本输入输出系统可以根据目标地址跳转至并通过转储内核对异常现场进行转储以重新启动智能驾驶操作系统。
由此,在智能驾驶操作系统得CPU无法执行指令时,通过安全岛域系统对挂死的智能驾驶操作系统进行重启,有效提高了挂死重启的反应速度,提高了驾车安全性,同时,安全岛域系统中还保存了异常现场的相关信息,便于开发人员日后分析问题原因。
需要说明的是,图1仅仅是一种示例。本领域技术人员可以理解,虽然图1中只示出了智能驾驶操作系统与安全岛域系统中的部分模块,但并不构成对本发明实施例的限定,可以包括比图示更多或更少的模块。
下面结合图2具体描述本发明实施例提供的一种系统挂死故障的恢复和定位方法,图2为本发明实施例的智能驾驶操作系统挂死检测和恢复的方法的流程图。该方法应用于设置有智能驾驶操作系统的车辆,车辆还包括安全岛系统,智能驾驶操作系统包括至少一个设有看门狗的SoC,SoC的中央处理器定时喂狗,该流程图包括S210-S240,下面对几个步骤详细描述:
S210,SoC的中央处理器每间隔预设时长向看门狗发起喂狗动作。
本发明的一个实施例中,看门狗(Watchdog timer)是一种定时器电路,当智能驾驶操作系统的CPU正常工作的时候,会每隔一段时间输出一个信号到看门狗将看门狗定时器清零,该操作称为喂狗,如果当智能驾驶操作系统发生意外,导致CPU挂死无法定时喂狗,即,在预设时长内未收到喂狗动作,看门狗检测到定喂狗超时就会向智能驾驶操作系统发出一个中断信号以使智能驾驶操作系统热复位。
S220,当看门狗在连续间隔两次预设时长未接收到喂狗动作,看门狗向安全岛域系统发送外部中断信号,使安全岛域系统读取智能驾驶操作系统的硬件寄存器以记录异常现场,并对智能驾驶操作系统的进行热复位。
在本发明实施例中,当看门狗在间隔预设时长时,第一次未收到喂狗动作,则看门狗向智能驾驶操作系统发送中断;当看门狗在间隔第二个预设时长时,仍未接收到喂狗动作则向安全岛域系统发送外部中断信号,使安全岛域系统读取智能驾驶操作系统的硬件寄存器以记录异常现场,并对智能驾驶操作系统进行热复位。
具体来说,在本发明的一个实施例中,当看门狗第二次检测到喂狗超时时,即在第二个预设时长时,仍未接收到所述喂狗动作,表明智能驾驶操作系统的CPU已经无法执行指令,需要外部系统对智能驾驶操作系统进行操作以重启智能驾驶操作系统。看门狗向安全岛域系统发送外部中断后,安全岛域系统读取智能驾驶操作系统的硬件寄存器以记录异常现场,并可以通过云端或本地调试的方式将内核转储发送给开发人员,由此,为之后开发人员分析挂死原因提供了依据。
更具体来说,安全岛域系统读取智能驾驶操作系统的硬件寄存器后,会将读取到的异常现场的信息保存至黑匣子,黑匣子实质是一种自定义的信号处理函数,可以代替内核的默认处理将异常现场的信息保存,方便之后对问题进行定位。同时,安全岛域系统还会在智能驾驶操作系统中设置重启标识,以使智能驾驶操作系统进行热复位。
S230,智能驾驶操作系统经过安全岛域系统热复位后,通过内核转储工具启动转储内核进行异常现场的转储,将异常现场转储到磁盘介质中。
在本发明实施例中,智能驾驶操作系统经过安全岛域系统热复位后,可以使用kexec工具加载kdump以运行转储内核,并通过共享内存将转储内核的信息传递给智能驾驶操作系统的基本输入输出系统,kexec工具可以跳过整个引导装载程序阶段并直接跳转到一个新内核,而kdump可以在系统崩溃、死锁或死机时转储内存运行参数,由此,在kexec加载kdump后,kdump可以通过kexec工具运行一个新的内核,即转储内核,并通过共享内存将转储内核的信息传递给智能驾驶操作系统的基本输入输出系统;基本输入输出系统通过转储内核捕获智能驾驶操作系统故障挂死时生成的异常现场并存放至预留内存中;智能驾驶操作系统将预留内存中的异常现场转储至磁盘介质中。
具体来说,在本发明的一个实施例中,kexec工具可以根据预先配置的信息将转储内核的目标地址及地址参数,即存放转储内核的地址,通过共享内存发送至基本输入输出系统以使基本输入输出系统根据目标地址及地址参数跳转至转储内核所在的地址。基本输入输出系统是一组固化到计算机内主板上一个只读存储器(Read-Only Memory,ROM)芯片上的程序,可以使用转储内核捕获智能驾驶操作系统故障挂死时生成的异常现场并存放至预留内存中,异常现场可以包括系统运行时的内存信息,寄存器状态,堆栈指针,内存管理信息等信息,同时智能驾驶操作系统将预留内存中的异常现场转储至磁盘介质中。由此,基本输入输出系统可以跳转至转储内核的目标地址使用转储内核进行异常转储并重新启动智能驾驶操作系统。
更具体来说,基本输入输出系统在跳转至转储内核的目标地址前,会读取目标地址中的幻数(Magic Number)并和储存的幻数进行校验,如校验一致,则基本输入输出系统可以跳转至目标地址。幻数是一种自定义的校验数,由于内存地址信息较为冗长,进行内存地址校验的时间复杂度较高,此时可以设置一个或多个幻数对地址进行校验。目标地址是存放转储内核的地址,当基本输入输出系统跳转至目标地址,即为基本输入输出系统使用转储内核进行转储操作进行热服务提供了前置条件。
S240,智能驾驶操作系统转储完毕后,重新启动智能驾驶操作系统。
应当注意的是,本发明实施例的方法不仅可以应用于智能车辆的智能驾驶操作系统中,其他需要迅速热复位并保存异常现场的安全系统,均可以适用本方法。
本发明的另一实施例还提供一种电子装置,如图3所示,电子装置包括智能驾驶操作系统和安全岛域系统,智能驾驶操作系统包括至少一个设有看门狗的SoC,包括:
喂狗模块,用于每间隔预设时长向看门狗发起喂狗动作;
看门狗模块,用于在间隔预设时长时未接收到喂狗动作时,向智能驾驶操作系统和安全岛域系统发送中断;
安全岛域系统包括:
异常现场记录模块,用于接收看门狗模块在间隔预设时长时未接收到喂狗动作时向安全岛域系统发送的外部中断,读取智能驾驶操作系统的硬件寄存器以记录异常现场;
热复位模块,用于通知智能驾驶操作系统进行热复位以使智能驾驶操作系统的基本输入输出系统通过转储内核进行转储并重新启动智能驾驶操作系统。
在本发明的一个实施例中,看门狗模块用于:
在间隔预设时长时,第一次未收到喂狗动作时,看门狗向智能驾驶操作系统发送中断;
在间隔第二个预设时长时,仍未接收到喂狗动作则向安全岛域系统发送外部中断信号,使安全岛域系统读取智能驾驶操作系统的硬件寄存器以记录异常现场,并对智能驾驶操作系统进行热复位。
在本发明的一个实施例中,异常现场记录模块用于:
使安全岛域系统读取智能驾驶操作系统的硬件寄存器,将硬件寄存器中的异常现场记录到黑匣子中。
在本发明的一个实施例中,热复位模块用于:
在黑匣子中设置标识以通知智能驾驶操作系统进行热复位。
在本发明的一个实施例中,电子装置包括:
地址信息传输模块,用于将转储内核的信息通过共享内存传递至智能驾驶操作系统的基本输入输出系统以使基本输入输出系统通过转储内核捕获智能驾驶操作系统故障挂死时生成的异常现场并存放至预留内存中,并在转储完毕后重启智能驾驶操作系统。
在本发明的一个实施例中,地址信息传输模块用于:
使基本输入输出系统对信息进行幻数校验,若幻数校验通过,则基本输入输出系统可以跳转至转储内核的目标地址。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与相应方法实施例属于同一构思,其具体实现过程详见对应方法实施例,这里不再赘述。
本发明的另一实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述方法中的系统挂死故障的恢复和定位方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本发明的另一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现上述方法中的系统挂死故障的恢复和定位方法的步骤。
以运行在车机上为例,如图4所示,其示出了本申请的一实施例提供的SoC(Systemon Chip,片上系统)1300的框图。在图4中,相似的部件具有同样的附图标记。另外,虚线框是更先进的SoC的可选特征。在图4中,SoC1300包括:互连单元1350,其被耦合至应用处理器1310;系统代理单元1380;总线控制器单元1390;集成存储器控制器单元1340;一组或一个或多个协处理器1320,其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器;静态随机存取存储器(Static Random Access Memory,SRAM)单元1330;直接存储器存取(DMA)单元1360。在一个实施例中,协处理器1320包括专用处理器,诸如例如网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、或嵌入式处理器等。
静态随机存取存储器(SRAM)单元1330中可以包括用于存储数据和/或指令的一个或多个计算机可读介质。计算机可读存储介质中可以存储有指令,具体而言,存储有该指令的暂时和永久副本。该指令可以包括:由处理器中的至少一个单元执行时使Soc1300执行根据上述实施例中的计算方法,具体可参照上述图2所示的方法,在此不再赘述。
本领域普通技术人员可以理解,图4所示的结构仅为示意,SoC1300还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。
本发明一个实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质可设置于电子设备之中以保存用于实现一种系统挂死故障的恢复和定位方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述各种可选实施例中提供的系统挂死故障的恢复和定位方法。
可选地,在本发明实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本发明一个实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施例中提供的系统挂死故障的恢复和定位方法。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种系统挂死故障的恢复和定位方法,应用于智能车辆,其特征在于,所述智能车辆包括智能驾驶操作系统和安全岛域系统,所述智能驾驶操作系统包括至少一个设有看门狗的SoC,所述方法包括:
所述SoC的中央处理器每间隔预设时长向所述看门狗发起喂狗动作;当所述看门狗在连续间隔两次所述预设时长未接收到喂狗动作,所述看门狗向所述安全岛域系统发送外部中断信号,使所述安全岛域系统读取所述智能驾驶操作系统的硬件寄存器以记录异常现场,并对所述智能驾驶操作系统的进行热复位;
所述智能驾驶操作系统经过所述安全岛域系统热复位后,通过内核转储工具启动转储内核进行异常现场的转储,将异常现场转储到磁盘介质中;
所述智能驾驶操作系统转储完毕后,重新启动所述智能驾驶操作系统。
2.根据权利要求1所述的方法,其特征在于,当所述看门狗在连续间隔两次所述预设时长未接收到喂狗动作,所述看门狗向所述安全岛域系统发送外部中断信号,使所述安全岛域系统读取所述智能驾驶操作系统的硬件寄存器以记录异常现场,并对所述智能驾驶操作系统的进行热复位,包括:
当所述看门狗在间隔所述预设时长时,第一次未收到所述喂狗动作,则所述看门狗向所述智能驾驶操作系统发送中断;
当所述看门狗在间隔第二个所述预设时长时,仍未接收到所述喂狗动作则向所述安全岛域系统发送外部中断信号,使所述安全岛域系统读取所述智能驾驶操作系统的硬件寄存器以记录异常现场,并对所述智能驾驶操作系统进行热复位。
3.根据权利要求2所述的方法,其特征在于,当所述看门狗在间隔第二个所述预设时长时,仍未接收到所述喂狗动作则向所述安全岛域系统发送外部中断信号,使所述安全岛域系统读取所述智能驾驶操作系统的硬件寄存器以记录异常现场,并对所述智能驾驶操作系统进行热复位,包括:
所述安全岛域系统读取所述智能驾驶操作系统的硬件寄存器,将所述硬件寄存器中的异常现场记录到黑匣子中;
所述安全岛域系统在所述智能驾驶操作系统中设置标识以通知所述智能驾驶操作系统进行热复位以重启基本输入输出系统。
4.根据权利要求1所述的方法,其特征在于,所述智能驾驶操作系统经过所述安全岛域系统热复位后,通过内核转储工具启动转储内核进行异常现场的转储,将异常现场转储到磁盘介质中,包括:
所述内核转储工具启动所述转储内核并通过共享内存将所述转储内核的信息传递给所述智能驾驶操作系统的所述基本输入输出系统;
所述基本输入输出系统通过所述转储内核捕获所述智能驾驶操作系统故障挂死时生成的异常现场并存放至预留内存中;
所述智能驾驶操作系统将预留内存中的异常现场转储至磁盘介质中。
5.根据权利要求4所述的方法,其特征在于,所述信息包括:所述转储内核的目标地址、跳转参数。
6.根据权利要求5所述的方法,其特征在于,
所述内核转储工具启动所述转储内核并通过共享内存将所述转储内核的信息传递给所述智能驾驶操作系统的所述基本输入输出系统,包括:
所述基本输入输出系统对所述目标地址进行幻数校验,若幻数校验通过,则所述基本输入输出系统可以跳转至所述目标地址。
7.一种电子装置,所述电子装置包括智能驾驶操作系统和安全岛域系统,其特征在于,所述智能驾驶操作系统包括至少一个设有看门狗的SoC,包括:
喂狗模块,用于每间隔预设时长向所述看门狗发起喂狗动作;
看门狗模块,用于在间隔所述预设时长时未接收到所述喂狗动作时,向所述智能驾驶操作系统和所述安全岛域系统发送中断;
所述安全岛域系统包括:
异常现场记录模块,用于接收所述看门狗模块在间隔所述预设时长时未接收到所述喂狗动作时向所述安全岛域系统发送的外部中断,读取所述智能驾驶操作系统的硬件寄存器以记录异常现场;
热复位模块,用于通知所述智能驾驶操作系统进行热复位以使所述智能驾驶操作系统的基本输入输出系统通过转储内核进行转储并重新启动所述智能驾驶操作系统。
8.根据权利要求7所述的电子装置,其特征在于,所述看门狗模块用于:
在间隔所述预设时长时,第一次未收到所述喂狗动作时,所述看门狗向所述智能驾驶操作系统发送中断;
在间隔第二个所述预设时长时,仍未接收到所述喂狗动作则向所述安全岛域系统发送外部中断信号,使所述安全岛域系统读取所述智能驾驶操作系统的硬件寄存器以记录异常现场,并对所述智能驾驶操作系统进行热复位。
9.根据权利要求8所述的电子装置,其特征在于,所述异常现场记录模块用于:
使所述安全岛域系统读取所述智能驾驶操作系统的硬件寄存器,将所述硬件寄存器中的异常现场记录到黑匣子中。
10.根据权利要求9所述的电子装置,其特征在于,所述热复位模块用于:
在所述黑匣子中设置标识以通知所述智能驾驶操作系统进行热复位。
11.根据权利要求10所述的电子装置,其特征在于,所述电子装置包括:
地址信息传输模块,用于将所述转储内核的信息通过共享内存传递至所述智能驾驶操作系统的所述基本输入输出系统以使所述基本输入输出系统通过所述转储内核捕获所述智能驾驶操作系统故障挂死时生成的异常现场并存放至预留内存中,并在转储完毕后重启所述智能驾驶操作系统。
12.根据权利要求11所述的电子装置,其特征在于,所述地址信息传输模块用于:
使所述基本输入输出系统对所述信息进行幻数校验,若幻数校验通过,则所述基本输入输出系统可以跳转至所述转储内核的目标地址。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6中任一项所述的系统挂死故障的恢复和定位方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6中任一项所述的系统挂死故障的恢复和定位方法。
CN202111465505.1A 2021-12-01 2021-12-01 一种系统挂死故障的恢复和定位方法、装置、设备及存储介质 Active CN114138534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111465505.1A CN114138534B (zh) 2021-12-01 2021-12-01 一种系统挂死故障的恢复和定位方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111465505.1A CN114138534B (zh) 2021-12-01 2021-12-01 一种系统挂死故障的恢复和定位方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114138534A true CN114138534A (zh) 2022-03-04
CN114138534B CN114138534B (zh) 2024-10-01

Family

ID=80387640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111465505.1A Active CN114138534B (zh) 2021-12-01 2021-12-01 一种系统挂死故障的恢复和定位方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114138534B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114785673A (zh) * 2022-04-26 2022-07-22 杭州迪普科技股份有限公司 多主控vsm环境下主备倒换时获取异常信息的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120079328A1 (en) * 2010-09-27 2012-03-29 Hitachi Cable, Ltd. Information processing apparatus
CN104254840A (zh) * 2012-04-27 2014-12-31 马维尔国际贸易有限公司 在计算机系统中的存储器转储和分析
CN104679617A (zh) * 2013-11-27 2015-06-03 展讯通信(上海)有限公司 一种调试系统
CN106326055A (zh) * 2016-08-29 2017-01-11 四川九洲空管科技有限责任公司 一种机载防撞系统的软硬件死机检测及复位方法
CN112395137A (zh) * 2021-01-21 2021-02-23 北京太一星晨信息技术有限公司 一种linux内核异常的处理方法、设备及装置
CN113010336A (zh) * 2019-12-20 2021-06-22 珠海全志科技股份有限公司 应用处理器死机现场调试方法及应用处理器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120079328A1 (en) * 2010-09-27 2012-03-29 Hitachi Cable, Ltd. Information processing apparatus
CN104254840A (zh) * 2012-04-27 2014-12-31 马维尔国际贸易有限公司 在计算机系统中的存储器转储和分析
CN104679617A (zh) * 2013-11-27 2015-06-03 展讯通信(上海)有限公司 一种调试系统
CN106326055A (zh) * 2016-08-29 2017-01-11 四川九洲空管科技有限责任公司 一种机载防撞系统的软硬件死机检测及复位方法
CN113010336A (zh) * 2019-12-20 2021-06-22 珠海全志科技股份有限公司 应用处理器死机现场调试方法及应用处理器
CN112395137A (zh) * 2021-01-21 2021-02-23 北京太一星晨信息技术有限公司 一种linux内核异常的处理方法、设备及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114785673A (zh) * 2022-04-26 2022-07-22 杭州迪普科技股份有限公司 多主控vsm环境下主备倒换时获取异常信息的方法和装置
CN114785673B (zh) * 2022-04-26 2023-08-22 杭州迪普科技股份有限公司 主备倒换时获取异常信息的方法和装置

Also Published As

Publication number Publication date
CN114138534B (zh) 2024-10-01

Similar Documents

Publication Publication Date Title
CN108363659B (zh) 一种处理电子设备异常的方法及装置
CN114064132B (zh) 一种系统宕机恢复方法、装置、设备和系统
US8489932B2 (en) Server system and crash dump collection method
JP2001101033A (ja) オペレーティングシステム及びアプリケーションプログラムの障害監視方法
CN101937344B (zh) 一种计算机快速启动的装置及方法
US20140122421A1 (en) Information processing apparatus, information processing method and computer-readable storage medium
CN114138534A (zh) 一种系统挂死故障的恢复和定位方法、装置、设备及存储介质
CN114510755A (zh) 终端设备的防拆保护方法、终端设备及可读存储介质
EP3499373B1 (en) Method and apparatus for processing process
CN114416498A (zh) 日志获取方法、装置、计算机设备和存储介质
CN115292077A (zh) 内核异常处理方法及系统
CN115904793B (zh) 一种基于多核异构系统的内存转存方法、系统及芯片
CN105426263A (zh) 一种实现金库系统安全运行的方法及系统
JP3824548B2 (ja) 情報処理装置、電源制御装置、情報処理装置制御方法、プログラム、及び記録媒体
CN111240898B (zh) 一种基于Hypervisor的黑匣子实现方法及系统
CN109062718B (zh) 一种服务器及数据处理方法
CN113010336A (zh) 应用处理器死机现场调试方法及应用处理器
JP2007094537A (ja) メモリダンプ装置及びメモリダンプ採取方法
CN117493079A (zh) 车机系统重启方法、装置、设备及存储介质
CN105391575A (zh) 一种金库控制方法及系统
CN115437889B (zh) 一种应急处理方法、系统及计算设备
US20240340393A1 (en) Cloud storage expansion apparatus of video recorder
US20240101054A1 (en) In-vehicle device and method for starting the same
CN118467225A (zh) 基于可信系统的日志转储方法、装置、电子设备、介质
JP2010102441A (ja) 情報処理装置、情報処理プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant