CN117149489A

CN117149489A - 错误处理方法、处理系统及计算设备

Info

Publication number: CN117149489A
Application number: CN202311102335.XA
Authority: CN
Inventors: 彭崇武; 刘勇鹏; 王银峰; 王旭
Original assignee: Phytium Technology Co Ltd
Current assignee: Phytium Technology Co Ltd
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2023-12-01

Abstract

本申请提供了一种错误处理方法、处理系统及计算设备，方法应用于片上系统，片上系统包括至少一个处理器核和目标节点，至少一个处理器核包括目标处理器核，方法包括：在芯片系统的运行阶段，目标处理器核接收目标节点发送的第一SEI信号；若触发第一SEI信号的错误类型属于预设类型的错误，目标处理器核执行与错误类型匹配的错误处理策略，其中，预设类型的错误包括处理器核的错误和/或中断控制器的错误。在本申请实施例中，当目标处理器核接收到第一SEI信号时，若触发第一SEI信号的错误属于的预设类型的错误，相应地目标处理器核可以执行与错误类型匹配的错误处理策略，相比于基于RAS的错误处理方法，有助于提高错误处理的性能。

Description

错误处理方法、处理系统及计算设备

技术领域

本申请涉及技术领域，具体涉及一种错误处理方法、处理系统及计算设备。

背景技术

随着计算技术的发展，片上系统(System-on-a-chip，SOC)在各个领域均得到广泛的应用。在片上系统的运行过程中，可能会因为各种原因导致出现错误，从而导致片上系统的工作出现异常，甚至宕机。为了监测上述错误并进行相应的处理，相关技术中提出了基于可靠可用性服务(Reliability Availability Serviceability，RAS)机制进行错误处理的方法。然而，相关技术中的基于RAS的错误处理方法的性能有待于进一步地提高。

发明内容

本申请提供一种错误处理方法、处理系统及计算设备，下面对本申请实施例涉及的各个方面进行介绍。

第一方面，提供了一种错误处理方法，所述方法应用于片上系统，所述片上系统包括至少一个处理器核和目标节点，所述至少一个处理器核包括目标处理器核，所述方法包括：在芯片系统的运行阶段，所述目标处理器核接收所述目标节点发送的第一SEI信号；若触发所述第一使能中断(set interrupt enable，SEI)信号的错误类型属于预设类型的错误，所述目标处理器核执行与所述错误类型匹配的错误处理策略，其中，所述预设类型的错误包括处理器核的错误和/或中断控制器的错误。

在本申请实施例中，当片上系统发生异常时会触发第一SEI信号，相应地，当目标处理器核接收到第一SEI信号时，若触发第一SEI信号的错误属于的预设类型的错误，则目标处理器核可以执行与错误类型匹配的错误处理策略，相比于传统方案中基于RAS的错误处理方法，有助于提高错误处理的性能。

另一方面，SEI信号是ARM芯片架构内的系统错误中断信号，与中断请求的中断信号不同，SEI信号可以不依靠处理器核外的中断管理控制器，当处理器核上电后就可以工作，因此，在本申请实施例中，若发生系统错误来触发不依赖于中断控制器的第一SEI信号，有助于及时发现中断控制器的错误。

在一些实现方式中，若所述处理器核的错误为所述至少一个处理器核中一个处理器核产生的错误，所述错误处理策略与产生错误的处理器核的类型关联，所述处理器核的类型包括主核或从核，其中，所述主核用于为所述从核调度所述片上系统中的资源。

在本申请实施例中，错误处理策略与产生错误的处理器核的类型关联，有助于提高设置错误处理策略的合理性。

在一些实现方式中，若所述产生错误的处理器核的类型为主核，则与所述错误类型匹配的错误处理策略包括对所述芯片系统进行复位。

在本申请实施例中，若产生错误的处理器核的类型为主核，则与错误类型匹配的错误处理策略包括对芯片系统进行复位，有助于提高主核正常运行的可能性，以确保片上系统的性能。

在一些实现方式中，若所述产生错误的处理器核的类型为从核，则与所述错误类型匹配的错误处理策略包括对所述目标处理器核进行单核复位。

在本申请实施例中，若产生错误的处理器核的类型为从核，则与错误类型匹配的错误处理策略包括目标处理器核进行单核复位，有助于提高主核正常运行的可能性，以确保片上系统的性能。

在一些实现方式中，所述至少一个处理器核中的部分或全部处理器核属于目标核簇，若所述处理器核错误包括所述目标核簇产生的错误，所述错误处理策略与所述目标核簇的类型关联，所述目标核簇的类型包括主核簇或辅助核簇。

在本申请实施例中，错误处理策略与目标核簇的类型关联，有助于提高设置错误处理策略的合理性。

在一些实现方式中，若所述目标核簇为主核簇，则与所述错误类型匹配的错误处理策略包括对所述芯片系统执行复位操作。

在本申请实施例中，若目标核簇为主核簇，则与错误类型匹配的错误处理策略包括对芯片系统进行复位，有助于提高主核簇正常运行的可能性，以确保片上系统的性能。

在一些实现方式中，若所述目标核簇为辅助核簇，则与所述错误类型匹配的错误处理策略与所述目标核簇中除第一处理器核之外的剩余处理器核的运行状态关联，所述第一处理器核为发现所述当前错误的处理器核。

在本申请实施例中，若目标核簇为辅助核簇，则基于剩余处理器核的运行状态来设置匹配的错误处理策略，有助于减少发生错误的处理核对其他处理器核的影响的同时，提高辅助核簇正常工作的可能性。

在一些实现方式中，若所述剩余处理器核包括处于运行状态的处理器核，则与所述错误类型匹配的错误处理策略包括控制所述第一处理器核进入休眠状态。

在一些实现方式中，若所述剩余处理器核均处于休眠状态，则与所述错误类型匹配的错误处理策略包括对所述目标核簇进行复位。

在本申请实施例中，若剩余处理器核包括处于运行状态的处理器核，则控制第一处理器核进入休眠状态，以减少其他模型对第一处理器核的访问，有助于提高片上系统正常工作的可能性。

在一些实现方式中，如果所述当前错误属于中断控制器的错误，则与所述错误类型匹配的错误处理策略包括复位所述中断控制器。

在本申请实施例中，若当前错误属于中断控制器的错误，则与错误类型匹配的错误处理策略包括复位所述中断控制器，有助于提高中断控制器正常工作的可能性。

在一些实现方式中，所述方法还包括：在所述芯片系统的启动阶段，所述目标处理器核接收第二SEI信号；响应于所述第二SEI信号，所述目标处理器核利用电源模块进行复位。

在本申请实施例中，在芯片系统的启动阶段，若目标处理器核接收第二SEI信号，则目标处理器核利用电源模块进行复位，有助于降低错误处理的复杂度，以提高片上系统正常工作的可能性。

在一些实现方式中，所述方法还包括：响应于所述第一SEI信号，所述目标处理器核保护现场；如果所述当前错误不属于预设类型的错误，则所述目标处理器核恢复现场。

在本申请实施例中，若接收到第一SEI信号，则目标处理器核可以保护现场，并在当前错误不属于预设类型的错误，则恢复现场，有助于提高片上系统运行的连续性。

第二方面，提供了一种处理系统，包括：存储器，用于存储程序；处理器核，用于执行所述程序，以执行第一方面中所述的方法。

第三方面，提供了一种计算设备，包括如第二方面所述的处理系统。

第四方面，提供了一种计算机可读介质，所述计算机可读介质存储有程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行上述第一方面中所述的方法。

第五方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序/指令，当所述计算机程序/指令处理器被执行时实现如第一方面中所述的方法。

在一些实现方式中，上述计算机程序产品包括可以包括计算机程序代码，当计算机程序代码在计算机上运行时，使得计算机执行上述第一方面中所述的方法。

附图说明

图1为相关技术中的片上系统的架构的结构示意图。

图2所示为本申请实施例适用的片上系统的结构示意图。

图3所示为多核系统的结构示意图。

图4所示为本申请实施例提供的错误处理方法的示意性流程图。

图5所示为图4所示的方法中对错误类型的判断流程图。

图6所示为本申请实施例的一种实现方式的流程图。

图7所示为本申请实施例的另一种实现方式的流程图。

图8所示为本申请实施例提供的处理系统的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

随着计算技术的发展，片上系统在各个领域均得到广泛的应用。片上系统可以理解为具有计算功能的系统。例如，片上系统可以应用于移动终端、台式计算机、平板电脑、个人计算机(personal computer，PC)、个人数字助理(personal digital assistant，PDA)、智能手表、上网本、可穿戴电子设备、增强现实(augmented reality，AR)设备、服务器等设备，以为设备提供计算能力。

片上系统可以包括处理器核(例如，中央处理器(Central Processing Unit/Processor，CPU)核)，固件，存储器、外围硬件(或称硬件接口设备)、操作系统(operatingsystem，OS)、运行在操作系统上的虚拟机(virtual machine，VM)等。

在片上系统的运行过程中，可能会因为各种原因导致出现错误，从而导致片上系统的工作出现异常，甚至宕机。其所出现的错误例如可以是外围硬件处的错误或者片上系统内的不同通信层出的分组传输中所产生的错误。

为了监测上述错误并进行相应的处理，相关技术中通常采用RAS机制来实现，这里，RAS是指Reliability,Availability,and Serviceability，其中，Reliability：可靠性。指的是系统必须尽可能可靠，不会意外的崩溃，重启甚至导致系统物理损坏，这意味着一个具有可靠性的系统必须能够对某些小的错误能够做到自我修复，对于无法自修复的错误也尽可能进行隔离，保障系统其它部分正常运转。Availability：可用性。指的是系统必须能够尽可能长时间工作而不下线，即使系统出现一些小的问题也不会影响整个系统的正常运行。在某些情况下甚至可以进行热插拔(Hot Plug)的操作，替代有问题的组件，从而严格保证系统宕机时间(downtime)在一定范围。Serviceability：可服务性。指的是系统能够提供便利的诊断功能，如系统日志，动态监测手段方便管理人员进行系统诊断和维护操作，从而及早的发现错误并且修复错误。为了方便理解，下面结合图1对相关技术中的使用RAS机制来检测错误并进行相应处理的过程进行示例性说明。

如图1所示，为一种实现RAS机制的片上系统10的可能的架构。片上系统10的架构从底层到高层依次为硬件(hardware)层、固件层(EL3和EL2)、内核层(EL1)和应用层(EL0)。

硬件层中可设置错误记录寄存器以及错误中断模块。

固件层EL3中可设置有固件(firmware)(例如，固件可以是飞腾基础固件(phytiumbase firmware，PBF))。固件可包括软件委托异常接口(Software Delegated ExceptionInterface，SDEI)调度模块、安全分区管理模块(Secure Partion Manager，SPM)以及RAS错误处理模块。

固件层EL2中可设置有高级平台错误接口(Advanced Platform ErrorInterface，APEI)表和公共平台错误记录(Common Platform Error Record，CPER)条目。

内核层EL1中可设置有通用硬件错误源(Generic Hardware Error Source，GHES)驱动以及RAS事件。GHES驱动包括SDEI处理函数、SEA处理函数、错误IRQ处理函数以及SDEI客户端。

应用层EL0还可以称为操作系统(operating system，OS)用户层，因此，应用层可以理解为用户能够自定义和使用的层级。应用层中可设置有应用层故障管理系统，应用层故障管理系统中包括RAS应用。应用层EL0还可以设置有位于安全状态下的独立管理模式(Standalone Management Mode，SMM)。其中，SMM中包括RAS驱动、管理模式(ManagementMode，MM)错误处理函数(MM Error Handler)以及CPER生成库(CPER Generation Lib)。其中，CPER生成库与固件层EL2中的CPER条目的交互是基于统一可扩展固件接口(UnifiedExtensible Firmware Interface，UEFI)进行的。

当有错误发生时，RAS机制的工作流程如下：

1、硬件层中的错误中断模块响应于该错误的产生，注册RAS产生用到的错误信号，并把错误信号所触发的中断信号(例如，中断信号可以为同步外部终止(SynchronousExternal Abort，SEA)请求或者系统错误中断(System Error Interrupt，SEI)请求发送给固件。

2、固件中的RAS错误处理模块将中断信号发送给SPM，以调用SMM的管理模式下的MM错误处理函数以路由至应用层EL0内的SMM。

3、SMM根据DDR控制器中的错误记录寄存器(Error Record Resiger)记录的错误信息，按照APEI规范，将APEI规范所需信息写入HEST表指定的内存缓冲区，并返回固件。

4、固件通过内部的SDEI调度模块与内核层EL1中的SEDI客户端交互，以确定可以调用内核层EL1中的SEDI处理函数。其中，SDEI是固件到内核的通知机制，而CPER是固件到内核传递错误信息的载体。

5、内核层EL1中的GHES驱动可查询APEI表，以获取CPER条目。并且，GHES驱动可调用SDEI处理函数解析CPER条目，获取CPER条目记录的错误信息；并根据错误信息，处理错误。

6、GHES驱动将处理后的RAS事件通过串口输出给应用层EL0的RAS应用，以实现RAS事件的持久化。

需要说明的是，上述ELn(n＝0，1，2，3)表示不同的异常等级(Exception Level，EL)。异常等级确定了处理器当前的特权级别，ELn的n数值越大特权级别越高。

EL0是指用户特权，用于运行普通用户程序。EL1是指系统特权，通常运行操作系统内核。EL2用于运行虚拟化扩展的虚拟机监测程序(如Hypervisor等)。EL3运行安全状态(Secure State)中的安全监测器(Secure Monitor)，如固件等。其中，处于高EL模式的组件可访问低EL模式的组件的内存空间，而处于低EL模式的组件无访问高EL模式的组件的内存空间的权限。

由此可知，相关技术中的实现RAS机制的架构是基于高级配置与电源接口(Advanced Configuration and Power Interface，ACPI)规范中的SDEI实现的。SDEI需要固件支持SDEI服务，还需要完成相关CPER的功能。SDEI的体系以标准化的服务为主，会考虑到各个软件栈直接的接口和操作，其处理流程需要涉及到固件、UEFI、操作系统的软件栈的实现以及各个层级的不同交互方式，因此，结构比较复杂且研发维护成本偏高。同时，由于该实现架构需要借助固件层才能实现，由于固件层并未对用户公开，因此其处理架构的标准实用性差，无法适用于不同的场景和不同的可靠性要求，因此，使用其进行错误通知处理的效果并不理想。

针对上述问题，本申请实施例提供了一种错误处理方法，可应用于片上系统。在该方法中当片上系统发生异常时会触发第一SEI信号，相应地，当目标处理器核接收到第一SEI信号时，若触发第一SEI信号的错误属于的预设类型的错误，则目标处理器核可以执行与错误类型匹配的错误处理策略，相比于传统方案中基于RAS的错误处理方法，有助于提高错误处理的性能。

另一方面，使能中断(set interrupt enable，SEI)信号是ARM芯片架构内的系统错误中断信号，与中断请求的中断信号不同，SEI信号可以不依靠处理器核外的中断管理控制器，当处理器核上电后就可以工作，因此，在本申请实施例中，若发生系统错误来触发不依赖于中断控制器的第一SEI信号，有助于及时发现中断控制器的错误。

为了便于理解，下文先结合图2介绍本申请实施例适用的片上系统。所示是本申请实施例适用的片上系统200的结构示意图，片上系统200包括至少一个处理器核(core)210和目标节点220。片上系统200可以是单核系统，即片上系统200可以包括一个处理器核210。片上系统200也可以是多核系统，即片上系统200可以包括多个处理器核210。处理器核210是片上系统200的核心，处理器核210中包括目标处理器核211，多核系统中目标处理器核211可以是每一个处理器核210。目标节点220可以是片上系统200中发生错误的一个节点，例如某个目标处理器核211。

当片上系统200是多核系统时，处理器核210中的任意一个可以设置为主核(Primary Core)，其他则可以设置为从核(Secondary Core)。通常，主核和从核在处理系统中承担不同角色和功能，通过协同工作来提高系统的性能和效率。主核(Primary Core)是处理器中的主要核心，负责操作系统的启动、任务调度、中断处理等核心任务。主核通常具有较高的性能和功能，用于处理复杂的计算任务和管理系统资源。从核(Secondary Core)是处理器中的辅助核心，主要负责执行主核分配的任务，协助主核完成计算任务。从核通常具有较低的性能和功耗，可以进行并行计算和协同处理，以提高整个系统的性能。主核和从核之间的通信通常通过共享内存或者消息传递等方式进行。主核负责分配任务给从核，并监控从核的执行和结果返回，确保系统的稳定和可靠性。从核的数量可以根据系统需求进行扩展，从而提高系统的并行处理能力。主核和从核的组合可以根据具体应用场景进行灵活配置。例如，在嵌入式系统中，主核可以负责处理实时任务和控制任务，而从核可以负责处理数据处理任务和图形处理任务，以提高系统的实时性和性能。在服务器和大型计算机系统中，主核和从核可以共同处理大规模的并行计算任务，以提高系统的计算能力和吞吐量。

在一些场景中，多核系统可以采用簇状(cluster)架构，即将多个处理器核210分为多个簇，每个簇中包括一个或多个的处理器核210。例如图3所示，含有8个处理器核的片上系统300可以被分为4个簇，每个簇包含2个处理器核。簇状结构的多核系统中，同一个簇内的处理器核联系非常紧密，他们之间可以进行高效的数据通信，并共享存储器或运算单元等资源。但不同簇之间在功能上有所不同，多核系统可以包括主核簇(main corecluster)和辅助核簇(assistant core cluster)。例如图3中的主核簇为核簇310，辅助核簇为核簇320、核簇330和核簇340。其中主核簇是处理器中的主要核心集群，通常由性能较高的核心组成。它们通常用于执行计算密集型任务，如高性能计算、图形渲染等。主核簇的设计目标是提供高性能和低延迟的处理能力。而且辅助核簇是处理器中的辅助核心集群，通常由性能较低的核心组成。它们通常用于执行辅助任务，如后台任务、低优先级任务等。辅助核簇的设计目标是提供高能效和高吞吐量的处理能力。主核簇和辅助核簇之间通常存在一定的通信和协作机制。主核簇可以将一部分任务分配给辅助核簇执行，以实现任务的并行处理和资源的有效利用。辅助核簇也可以通过与主核簇的协作来提供一些辅助功能，如功耗管理、任务调度等。在实际应用中，主核簇和辅助核簇的组成和数量可以根据系统需求进行调整。一般来说，主核簇的核心数量较少，以提供较高的单核性能；而辅助核簇的核心数量较多，以提供较高的多核并行处理能力。这样的设计可以在满足高性能需求的同时，兼顾能效和成本的考虑。

在一些实现方式中，主核簇中可以包括一个主核以及至少一个从核。另外，从核簇中可以包括多个从核。

在一些实现方式中，上述片上系统还可以包括中断控制器，其中，中断控制器用于管理和处理系统中的各种中断信号。它负责接收和分发来自外部设备或内部模块的中断请求，并将其传递给相应的中断处理程序进行处理。通常，中断控制器包含以下一种或多种功能。

中断请求(Interupt ReQuest，IRQ)接收：中断控制器会接收来自外部设备或内部模块的中断请求信号。

中断请求分发：中断控制器会根据优先级和配置，将中断请求分配给相应的中断线或中断引脚。

中断掩码：中断控制器可以通过设置中断屏蔽寄存器来屏蔽或使能特定的中断请求。

中断优先级管理：中断控制器可以为不同的中断请求分配优先级，以确保高优先级的中断可以及时得到处理。

中断处理程序调度：中断控制器会根据中断请求的优先级，调度相应的中断处理程序进行处理。

中断处理程序执行：中断控制器会将中断信号传递给中断处理程序，让其执行相应的中断处理操作。

中断清除：中断控制器会在中断处理程序执行完毕后，清除相应的中断标志位。

中断控制器在芯片设计中起到了重要的作用，它可以帮助系统实现快速响应外部事件并及时进行处理，提高系统的可靠性和实时性。

下面基于图2所示的场景，结合图4对本申请实施例的错误处理方法进行介绍，如图4所示，该方法包括步骤S410和S420。

在步骤S410中，在芯片系统的运行阶段，目标处理器核接收目标节点发送的第一SEI信号。其中，目标节点可以理解为是发生错误的节点，例如，目标节点可以是处理器核心和/或中断控制器。

在步骤S420中，若触发第一SEI信号的错误类型属于预设类型的错误，目标处理器核执行与错误类型匹配的错误处理策略。目标处理器核接收到第一SEI信号之后，可以对触发第一SEI信号的错误的类型进行判断，判断错误属于哪一种预设类型，并基于预设类型确定错误处理策略。

在一些实现方式中，上述预设类型的错误包括处理器核的错误和/或中断控制器的错误。下文先介绍本申请实施例中的处理器核的错误以及匹配的错误处理策略。

在一些实现方式中，若处理器核的错误为至少一个处理器核中一个处理器核产生的错误(即单核错误)，则错误处理策略可以与产生错误的处理器核的类型关联，处理器核的类型包括主核或从核。其中，主核对应的错误处理策略与从核对应的错误处理策略不同。

在一些实现方式中，若产生错误的处理器核的类型为主核，则与错误类型匹配的错误处理策略包括对芯片系统进行复位，有助于提高主核正常运行的可能性，以确保片上系统的性能。

当然，在本申请实施例中，若产生错误的处理器核的类型为主核，也可以根据主核错误的严重程度来选择复位方式。主核错误的复位操作包括单核复位、局部复位操作、热复位处理或上下电复位处理等。当主核错误不严重时，可以采用单核复位或局部复位处理。当主核错误严重时，可以采用热复位处理或由片外控制进行上下电复位。例如，可以通过记录主核错误的次数来判断主核错误的严重程度，当次数小于某个阈值时可以认为主核错误不严重，否则认为主核错误达到严重程度。该阈值可以根据情况进行设定，本申请对此不进行限定。

在另一些实现方式中，若产生错误的处理器核的类型为从核，则与错误类型匹配的错误处理策略包括对目标处理器核进行单核复位，有助于在避免对片上系统的其他模块(其他处理器核)产生影响的情况下，提高从核正常运行的可能性，以确保片上系统的性能。

上文介绍了本申请实例中不同处理器核的类型所关联的错误处理策略。下文介绍本申请实施例中，不同类型的核簇所关联的错误处理策略不同，有助于提高错误处理策略指定的合理性。

也即是说，至少一个处理器核中的部分或全部处理器核属于目标核簇，若处理器核错误包括目标核簇产生的错误，错误处理策略与目标核簇的类型关联，目标核簇的类型包括主核簇或辅助核簇。

在一些实现方式中，若目标核簇为主核簇，即主核簇产生错误，则与错误类型匹配的错误处理策略包括对芯片系统执行复位操作。

在本申请实施例中，若主核簇产生错误，则可以对芯片系统执行复位操作，有助于提高主核簇正常工作的可能性，以确保片上系统的性能。

在一些实现方式中，若目标核簇为主核簇，则可以根据错误源所属的级别选择主核簇错误的复位操作。主核簇错误的复位操作包括单核复位和热复位等。错误源的级别包括级别1(level1，L1)和级别2(level2，L2)，其中，L1是处理器核1级缓存(cache)，L2是处理器核的2级缓存(cache)。例如可以通过读取错误信息记录寄存器来判断错误源的级别，如果属于L1级别，可以根据应用场景决定是否只进行单核复位处理，如果属于L2级别则可以进行热复位处理。

在一些实现方式中，若目标核簇为辅助核簇，即辅助核簇产生错误，则与错误类型匹配的错误处理策略与目标核簇中除第一处理器核之外的剩余处理器核的运行状态关联，第一处理器核为发现当前错误的处理器核。

在一些实现方式中，若目标核簇为辅助核簇，且该辅助核簇中除第一处理器核之外的剩余处理器核包括处于运行状态的处理器核，则与错误类型匹配的错误处理策略包括控制第一处理器核进入休眠状态。即在该辅助核簇中如果当发现当前错误的处理器核不是最后一个处于运行状态的处理器核时，则可以控制第一处理器核进入休眠状态。

例如，可以对第一处理器核进行休眠处理从而控制其进入休眠状态，例如向第一处理器核发送等待中断(wait for interrupt，WFI)指令，使第一处理器核进入休眠状态。进一步地，控制第一处理器核进入休眠状态后可以对该辅助核簇进行复位操作，让该辅助核簇进行全部复位。

当然，在本申请实施例中，若目标核簇为辅助核簇，且该辅助核簇中除第一处理器核之外的剩余处理器核包括处于运行状态的处理器核，则也可以不控制第一处理器核进入休眠状态。例如业务不需要复位该辅助核簇时，则可以不控制第一处理器核进入休眠状态。

在一些实现方式中，若目标核簇为辅助核簇，且该辅助核簇中除第一处理器核之外的剩余处理器核均处于休眠状态，则与错误类型匹配的错误处理策略包括对目标核簇进行复位。即在该辅助核簇中如果当发现当前错误的处理器核是最后一个处于运行状态的处理器核时，则可以对该辅助核簇进行复位处理，有助于提高第一处理器核正常工作的可能性。

在一些实现方式中，若目标核簇为辅助核簇，则可以根据错误源所属的级别决定与错误类型匹配的错误处理策略。例如可以通过读取信息记录寄存器来判断错误源的级别，当错误属于L2级别时，可以根据目标核簇中除第一处理器核之外的剩余处理器核的运行状态来选择错误处理策略。当错误属于L1级别时，则可以直接进行单核复位，例如通过电源管理模块复位1级缓存模块和对应的处理器核。

上文介绍了本申请实施例中不同目标核簇的类型所关联的错误处理策略。下文介绍本申请实施例中中断控制器的错误所关联的错误处理策略。

在一些实现方式中，如果当前错误属于中断控制器的错误，则与错误类型匹配的错误处理策略包括复位中断控制器，中断控制器的复位操作可以通过电源管理模块来实现。

在一些实现方式中，如果当前错误属于中断控制器的错误，可以根据中断控制器错误的严重程度来选择中断控制器的复位操作。中断控制器的复位操作可以包括普通复位、热复位或片外控制上下电复位。当错误未达到严重程度时可以进行普通复位，而当错误达到严重程度时则可以进行热复位或片外控制上下电复位。例如可以通过记录中断控制器错误的次数来判断中断控制器错误的严重程度，当次数小于某个阈值时可以认为错误不严重，否则认为错误达到严重程度。该阈值可以根据情况进行设定，本申请对此不进行限定。

图5示出了本申请实施例中的错误处理策略的示意性流程图，图5所示的方法包括步骤S510-S530。

在步骤S510中，接收到第一SEI信号后，目标处理器核首先判断是否是本核产生的错误。如果是本核产生的错误，则判断触发第一SEI信号的错误类型为预设类型中的处理器核的错误。如果不是本核产生的错误，则进入步骤S520。

在步骤S520中，判断目标处理器核是否是主核，如果是主核则进入步骤S530。

在步骤S530中，目标处理器核检查是否GIC错误。主核可以通过访问RAS寄存器组来获取RAS信息，并从中查询GIC的错误位，判断是否产生GIC错误。如果GIC发生错误，则判断触发第一SEI信号的错误类型为预设类型中的中断控制器的错误。如此一来，可以明确知道中断控制器是否产生错误，避免了当中断控制器出现异常时，导致使用IRQ相关的外设出现异常，从而无法确定外设出现了错误还是中断控制器出现了错误的情况。

通过上述判断流程，处理器核只需要遍历自己本身的错误，无需新增处理器核之间的通讯操作。在多核的应用场景下，无需担心多核带来的负担。

在一些实现方式中，上述方法还包括：在芯片系统的启动阶段，目标处理器核接收第二SEI信号；响应于第二SEI信号，目标处理器核利用电源模块进行复位。即在芯片系统的启动阶段，当片上系统内发生错误时，则可以直接利用电源模块进行复位。此时，目标处理器核接收到第二SEI信号时，无需对错误进行分析，直接进入错误的处理，即可以利用电源管理模块进行复位操作。有助于减少错误处理的复杂度，以提高片上系统正常工作的可能性。

在一些实现方式中，启动阶段的复位操作可以根据启动阶段错误的严重程度进行选择。启动阶段的复位操作可以包括普通复位、热复位，外部看门狗复位或片外控制上下电复位，当错误达到严重程度时，可以采用热复位，外部看门狗复位或片外控制上下电复位。当错误未达到严重程度时，可以采用普通复位。例如，可以通过记录启动阶段错误的次数来判断启动阶段错误的严重程度，当次数小于某个阈值时可以认为错误不严重，否则认为错误达到严重程度。该阈值可以根据情况进行设定，本申请对此不进行限定。

在一些实现方式中，上述方法还包括：响应于第一SEI信号，目标处理器核保护现场；如果当前错误不属于预设类型的错误，则目标处理器核恢复现场。即如果当前错误不属于处理器核的错误和/或中断控制器的错误，则目标处理器核可以不对该错误进行处理，可以直接对现场进行恢复，如此一来简化了处理流程。例如，如果主核在检查GIC的错误时没有发现错误，主核可以直接恢复现场并退出异常处理。

在一种可能的实现方式中，主核在检查中断控制器的错误时，在访问RAS寄存器组之前可以打开相应的看门狗使能，以预防主核访问芯片内部网络时出现正常运行之外的结果。

在一种可能的实现方式中，主核也可以在处理完中断控制器的错误后关闭看门狗使能，以预防主核访问芯片内部网络时出现正常运行之外的结果。

下面结合图6和图7对本申请实施例的错误处理方法的应用进行举例说明。如前文所述，在本申请实施例的错误处理方法中，在对错误处理之前，涉及到对错误的类型进行判断、对发生错误的核的身份进行判断以及对错误的级别进行判断等判断流程。为了方便理解，结合图6来进行处理错误之前的判断流程的示意性解释。

图6所示的片上系统包括4个核簇，分别是核簇0、核簇1、核簇2、核簇3，每个核簇各有两个处理器核。其中核簇0是主核簇，其余核簇是辅助核簇。图6所示的判断流程包括步骤S601-S609。

在步骤S601，当在启动阶段运行的处理器核有收到第二SEI信号时，无需分析，直接进入对应的软件处理。

在步骤S602，当在运行阶段收到第一SEI信号时，每个核都会先检查是否是本核产生的错误源。如果不是则进入步骤S603，如果是则进入步骤S605或S607。

在步骤S603，判断是否是主核，如果是则进入步骤S604。

在步骤S604，主核获取RAS信息，检查是否GIC错误。主核会打开对应的看门狗使能(预防主核访问芯片内部网络上出现正常运行之外的结果)，然后会去访问RAS寄存器组，去查询中断管理控制寄存器GIC的错误位，检查是否产生GIC错误。后续根据GIC是否有错误，进行相应的处理。

在步骤S605，如果主核簇发生了错误，判断是否是主核发生了错误。如果是主核发生了错误，进入主核错误对应的软件处理；如果是主核簇的非主核发生了错误，则进入步骤S606。

在步骤S606，读取错误信息记录寄存器，判断是错误源属于哪个级别，L1还是L2。如果属于L1，则进入L1对应的软件处理。如果属于L2，则进入L2对应的软件处理。

在步骤S607，如果辅助核簇发生了错误，读取错误信息记录寄存器，判断是错误源属于哪个级别，L1还是L2。如果是L1级别，则根据应用场景，进行L1对应的软件处理。如果是L2级别，则进入S608。

在步骤S608，判断是否需要复位处理。如果不需要复位处理，则进入步骤S609。如果不需要复位处理，则进入相应的处理。

在步骤S609，进一步判断是否是当前核簇最后一个运行状态的核，并进入对应的软件处理。

上面结合图6详细描述了本申请实施例的错误处理方法中涉及到的判断流程，下面结合图7详细描述本申请实施例的错误处理方法的执行流程，包括步骤S701-S713。图7所示的

在步骤S701，芯片上电后完成SEI信号使能的打开，完成不同阶段的异常向量表注册。其中，不同的阶段包括固件启动阶段、操作系统运行阶段。

在步骤S702，启动阶段收到第二SEI信号时，记录错误处理次数，调用复位操作接口，根据已经处理的错误次数严重程度，通知电源管理模块进行热复位或者上下电复位。

在步骤S703，当在运行阶段收到第一SEI信号时，保护现场，进入异常向量表对应的处理入口

在步骤S704，目标处理器核没有产生错误，判断目标处理器核是主核，则打开对应的看门狗使能，并判断GIC发生错误，此时可以对GIC进行复位操作。对应GIC的复位操作也可以通过电源管理模块来实现，并记录处理次数，当严重程度达到热复位或者上下电复位标准的时候，会进行对应的复位处理。

在步骤S705，GIC的复位操作完成后，主核完成GIC的初始化工作和中断注册。

在步骤S706，主核完成GIC的初始化后或者判断GIC没有发生错误时，关闭看门狗使能并恢复现场。

在步骤S707，目标处理器核没有产生错误，判断目标处理器核不是主核，则恢复现场。

在步骤S708，如果是主核发生了错误，直接进行热复位处理，次数达到严重程度，进行上下电复位处理。

在步骤S709，如果是主核簇的非主核发生L1的错误，可以根据应用场景决定是否只做单核复位。

在步骤S710，如果是主核簇的非主核发生L2的错误，则直接进行热复位。

在步骤S711，如果不是主核簇产生的错误，且错误属于L1则可以根据应用场景决定是否只做单核复位。

在步骤S712，如果不是主核簇产生的错误(即是辅助核簇产生的错误)，错误属于L2且进行复位处理。判断目标处理器核不是辅助核簇中最后一个在运行的核，则可以根据应用场景决定是否只做WFI(wait for interrupt)休眠处理。

在步骤S713，如果不是主核簇产生的错误(即是辅助核簇产生的错误)，错误属于L2且进行复位处理。判断目标处理器核是辅助核簇中最后一个在运行的核，则可以根据应用场景决定是否需要做当前主核簇复位处理。

通过本申请实施例的方法，可以对于危害级别高的错误，如处理器核错误和中断控制器错误，进行快速响应和处理，减少对业务造成的影响。且不通过SDEI的驱动去实现对错误的通知与处理，能够有效减少系统的负担。

上文结合图1至图7，详细描述了本申请的方法实施例，下面结合图8，详细描述本申请的装置实施例。应理解，方法实施例的描述与装置实施例的描述相互对应，因此，未详细描述的部分可以参见前面方法实施例。

图8是本申请实施例的处理系统的示意性框图。图8所示的处理系统800可以包括：存储器810、处理器核820。其中，存储器810、处理器核820通过内部连接通路相连，该存储器810用于存储指令，该处理器核820用于执行该存储器810存储的指令。

应理解，在本申请实施例中，该处理器核820可以采用通用的中央处理器(centralprocessing unit，CPU)，微处理器，应用专用集成电路(application specificintegrated circuit，ASIC)，或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例所提供的技术方案。

该存储器810可以包括只读存储器和随机存取存储器，并向处理器核820提供指令和数据。处理器核820的一部分还可以包括非易失性随机存取存储器。例如，处理器核820还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器核820中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的用于请求上行传输资源的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器810，处理器核820读取存储器810中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

应理解，本申请实施例中，该处理器核可以为中央处理单元(central processingunit，CPU)，该处理器核还可以是其他通用处理器、数字信号处理器(digital signalprocessor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在一种可能的实现方式中，本申请实施例还包括一种计算机可读存储介质，其上存储有用于执行上述各方面的方法的程序代码。

在一种可能的实现方式中，本申请实施例还包括一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当计算机程序代码在计算机上运行时，使得计算机执行上述各方面方法。

应理解，在本申请实施例中，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够读取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(digital video disc，DVD))或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种错误处理方法，其特征在于，所述方法应用于片上系统，所述片上系统包括至少一个处理器核和目标节点，所述至少一个处理器核包括目标处理器核，所述方法包括：

在芯片系统的运行阶段，所述目标处理器核接收所述目标节点发送的第一SEI信号；

若触发所述第一SEI信号的错误类型属于预设类型的错误，所述目标处理器核执行与所述错误类型匹配的错误处理策略，其中，所述预设类型的错误包括处理器核的错误和/或中断控制器的错误。

2.根据权利要求1所述的方法，其特征在于，若所述处理器核的错误为所述至少一个处理器核中一个处理器核产生的错误，所述错误处理策略与产生错误的处理器核的类型关联，所述处理器核的类型包括主核或从核，其中，所述主核用于为所述从核调度所述片上系统中的资源。

3.根据权利要求2所述的方法，其特征在于，若所述产生错误的处理器核的类型为主核，则与所述错误类型匹配的错误处理策略包括对所述芯片系统进行复位。

4.根据权利要求2所述的方法，其特征在于，若所述产生错误的处理器核的类型为从核，则与所述错误类型匹配的错误处理策略包括对所述目标处理器核进行单核复位。

5.根据权利要求1所述的方法，其特征在于，所述至少一个处理器核中的部分或全部处理器核属于目标核簇，若所述处理器核的错误包括所述目标核簇产生的错误，所述错误处理策略与所述目标核簇的类型关联，所述目标核簇的类型包括主核簇或辅助核簇。

6.根据权利要求5所述的方法，其特征在于，若所述目标核簇为主核簇，则与所述错误类型匹配的错误处理策略包括对所述芯片系统执行复位操作。

7.根据权利要求5所述的方法，其特征在于，若所述目标核簇为辅助核簇，则与所述错误类型匹配的错误处理策略与所述目标核簇中除第一处理器核之外的剩余处理器核的运行状态关联，所述第一处理器核为发现当前错误的处理器核。

8.根据权利要求7所述的方法，其特征在于，若所述剩余处理器核包括处于运行状态的处理器核，则与所述错误类型匹配的错误处理策略包括控制所述第一处理器核进入休眠状态。

9.根据权利要求7所述的方法，其特征在于，若所述剩余处理器核均处于休眠状态，则与所述错误类型匹配的错误处理策略包括对所述目标核簇进行复位。

10.根据权利要求1所述的方法，其特征在于，如果所述当前错误属于中断控制器的错误，则与所述错误类型匹配的错误处理策略包括复位所述中断控制器。

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述芯片系统的启动阶段，所述目标处理器核接收第二SEI信号；

响应于所述第二SEI信号，所述目标处理器核利用电源模块进行复位。

12.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于所述第一SEI信号，所述目标处理器核保护现场；

如果所述当前错误不属于预设类型的错误，则所述目标处理器核恢复现场。

13.一种处理系统，其特征在于，包括：

存储器，用于存储程序；

处理器核，用于执行所述程序，以执行如权利要求1至12中任一项所述的方法。

14.一种计算设备，其特征在于，包括如权利要求13所述的处理系统。

15.一种计算机可读存储介质，其特征在于，其上存储有用于执行如权利要求1至12中任一项所述的方法的程序。