CN105302768A

CN105302768A - 一种从cpu异常处理方法及装置

Info

Publication number: CN105302768A
Application number: CN201510673700.1A
Authority: CN
Inventors: 沈荣锋
Original assignee: Zhejiang Uniview Technologies Co Ltd
Current assignee: Zhejiang Uniview Technologies Co Ltd
Priority date: 2015-10-16
Filing date: 2015-10-16
Publication date: 2016-02-03

Abstract

本发明提供一种从CPU异常处理方法及装置，所述方法包括：检测共享缓存区中是否存在数据；若存在，将所述数据存储到本地缓存区；根据所述数据判断从CPU是否发生异常；若从CPU发生异常，重启所述从CPU。应用本发明实施例可以保证主CPU能够及时发现从CPU发生异常，并进行相应的异常恢复处理。

Description

一种从CPU异常处理方法及装置

技术领域

本发明涉及电子技术领域，尤其涉及一种从CPU异常处理方法及装置。

背景技术

随着电子技术的不断提升，多核的使用已经越来越普遍，如安防行业中的NVR(NetworkVideoRecorder，网络硬盘录像机)，DC(解码器)等设备都已经使用多核，即从原来的一个CPU(CenterProcessUnit，中央处理单元)增加至两个或者更多CPU，其中，包括一个主CPU，以及一个或多个从CPU(多个从CPU中通常一个处于工作状态，其余处于冗余备份状态)，主CPU负责业务处理，从CPU负责算法处理。

然而实践发现，在现有多核设备中，当从CPU发生异常(如从CPU挂死)时，主CPU无法获知从CPU发生异常，因而，主CPU无法采取任何措施进行异常恢复处理。

发明内容

本发明提供一种从CPU异常处理方法及装置，以解决现有技术中从CPU发生异常时主CPU无法对从CPU进行异常恢复处理的问题。

根据本发明实施例的第一方面，提供一种从CPU异常处理方法，应用于包括主CPU和至少一个从CPU的多核设备，包括：

检测共享缓存区中是否存在数据；

若存在，将所述数据存储到本地缓存区；

根据所述数据判断从CPU是否发生异常；

若从CPU发生异常，重启所述从CPU。

根据本发明实施例的第二方面，提供一种从CPU异常处理方法，应用于包括主CPU和至少一个从CPU的多核设备，包括：

检测从CPU是否发生异常；

当从CPU发生异常时，将异常信息对应的数据发送至共享缓存区，以使主CPU根据共享缓存区中的数据确定所述从CPU异常时，重启所述从CPU。

根据本发明实施例的第三方面，提供一种从CPU异常处理装置，应用于包括主CPU和至少一个从CPU的多核设备中的主CPU，包括：

检测单元，用于检测共享缓存区中是否存在数据；

存储单元，用于当所述共享缓存区中存在数据时，将所述数据存数到本地缓存区；

判断单元，用于根据所述数据判断从CPU是否发生异常；

异常处理单元，用于当从CPU发生异常时，重启所述从CPU。

根据本发明实施例的第四方面，提供一种从CPU异常处理装置，应用于包括主CPU和至少一个从CPU的多核设备中的从CPU，包括：

检测单元，用于检测从CPU是否发生异常；

发送单元，用于当从CPU发生异常时，将异常信息对应的数据发送至共享缓存区，以使主CPU根据共享缓存区中的数据确定所述从CPU异常时，重启所述从CPU。

应用本发明实施例，通过设置共享缓存区，该共享缓存区中可以存储从CPU的异常信息对应的数据；当主CPU检测到该共享缓存区中存在数据，可以将该数据存储到本地缓存区，并根据该数据判断从CPU是否发生异常，若从CPU发生异常，则重启从CPU，从而，保证了主CPU能够及时发现从CPU发生异常，并进行相应的异常恢复处理。

附图说明

图1是本发明实施例提供的一种从CPU异常处理方法的流程示意图；

图2是本发明实施例提供的另一种从CPU异常处理方法的流程示意图；

图3是本发明实施例提供的一种从CPU异常处理装置的结构示意图；

图4是本发明实施例提供的另一种从CPU异常处理装置的结构示意图；

图5是本发明实施例提供的另一种从CPU异常处理装置的结构示意图；

图6是本发明实施例提供的一种从CPU异常处理装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明实施例中技术方案作进一步详细的说明。

请参见图1，图1为本发明实施例提供的一种从CPU异常处理方法的流程示意图，其中，该从CPU异常处理方法可以应用于包括主CPU和至少一个从CPU的多核设备，如图1所示，该从CPU异常处理方法可以包括以下步骤：

需要说明的是，本发明实施例中，步骤101～步骤104的执行主体为多核设备中的主CPU。

步骤101、检测共享缓存区中是否存在数据。若是，转至步骤102；否则，结束当前流程。

本发明实施例中，考虑到现有技术中从CPU发生异常时，主CPU无法获知从CPU异常，因而，可以在多核设备中新增共享缓存区，多核设备中主CPU和从CPU均可以对该共享缓存区进行读写；当从CPU发生异常时，从CPU可以将异常信息对应的数据写入到该共享缓存区中，进而主CPU可以通过读取该共享缓存区中的数据，以确定从CPU是否发生异常。

相应地，在本发明实施例中，主CPU可以定时或周期性地扫描共享缓存区，以检测该共享缓存区中是否存在数据。

步骤102、将共享缓存区中的数据存储到本地缓存区。

本发明实施例中，当主CPU通过扫描共享缓存区检测到共享缓存区中存在数据时，主CPU可以将该共享缓存区中的数据存储到本地缓存区，如内核信息缓存区。

步骤103、根据该数据判断从CPU是否发生异常。若是，转至步骤104；否则，结束当前流程。

本发明实施例中，主CPU将共享缓存区中的数据存储到本地缓存区之后，可以对该数据进行分析，以确定从CPU是否发生异常。

作为一种可选的实施方式，在上述步骤102中，将共享缓存区中的数据存储到本地缓存区之后，还可以包括以下步骤：

创建一个文件节点，将本地缓存区中的数据存入该文件节点中。

在该实施方式中，为了避免主CPU由于掉电等原因导致本地缓存区中的数据丢失，主CPU将共享缓存区中的数据存储至本地缓存区之后，可以创建一个文件节点，并将本地缓存区中的数据存入该文件节点中，进而，主CPU可以将该文件节点存储到闪存或设备磁盘等存储区，以保证上述数据不受主CPU或/和设备掉电影响。

相应地，在步骤103中，根据数据判断从CPU是否发生异常，可以包括：

根据该文件节点中的数据判断从CPU是否发生异常。

步骤104、重启从CPU。

本发明实施例中，当主CPU根据获取到的数据确定从CPU发生异常时，为了保证业务能够正常运行，主CPU可以重启从CPU。

作为一种可选的实施方式，在本发明实施例中，若多核设备包括多个从CPU，上述步骤104中，重启从CPU之后，还可以包括：

启用冗余的从CPU。

在该实施方式中，当多核设备中包括多个从CPU时，主CPU在确定当前处于工作状态的从CPU发生异常，并重启该从CPU后，还可以启用冗余的从CPU，以保证业务的正常运行。

其中，当冗余的从CPU为一个时，主CPU可以直接启用该冗余的从CPU；当冗余的从CPU为多个时，主CPU可以从该多个冗余的从CPU中选择一个启用，其具体的选择策略本发明实施例不做限定。

作为另一种可选的实施方式，在本发明实施例中，若多核设备未包括多个从CPU，上述步骤104中，重启从CPU之后，还可以包括：

根据预先存储的业务关系，重新建立主CPU与重启后的从CPU之间的业务关系。

在该实施方式中，当多核设备正常运行业务时，主CPU会根据当前正在运行的业务，将主CPU与从CPU之间的业务关系进行存储；当多核设备中仅包括一个从CPU时，主CPU在确定该从CPU发生异常，并重启该从CPU之后，还可以根据预先存储的业务关系，重新建立主CPU与重启后的从CPU之间的业务关系。

进一步地，在本发明实施例中，当主CPU确定从CPU发生异常之后，还可以根据该异常信息生成错误日志，并将该错误日志保存至flash(闪存)或本地磁盘等存储区，以便运维人员后续能够查看相关异常信息，对设备进行维护。

可见，在图1所描述的方法流程中，通过设置共享缓存区，该共享缓存区中可以存储从CPU的异常信息对应的数据；当主CPU检测到该共享缓存区中存在数据，可以将该数据存储到本地缓存区，并根据该数据判断从CPU是否发生异常，若从CPU发生异常，则重启从CPU，从而，保证了主CPU能够及时发现从CPU发生异常，并进行相应的异常恢复处理。

请参见图2，图2为本发明实施例提供的另一种从CPU异常处理方法的流程示意图，其中，该从CPU异常处理方法可以应用于包括主CPU和至少一个从CPU的多核设备，如图2所示，该从CPU异常处理方法可以包括以下步骤：

需要说明的是，在本发明实施例中，步骤201～步骤202的执行主体为多核设备中的从CPU。

步骤201、检测从CPU是否发生异常。

步骤202、当从CPU发生异常时，将异常信息对应的数据发送至共享缓存区，以使主CPU根据共享缓存区中的数据确定从CPU异常时，重启该从CPU。

相应地，在本发明实施例中，当从CPU发生异常时，从CPU可以将异常信息对应的数据发送至共享缓存区；当主CPU检测到共享缓存区中存在数据，并根据该数据确定从CPU发生异常时，主CPU可以重启该从CPU，以实现从CPU异常恢复。

具体地，在本发明实施例中，当从CPU发生异常时，可以将异常信息对应的数据存储到本地缓存区，并通过专门的发送线程将本地缓存区中的数据发送至共享缓存区。

为了使本领域技术人员更好地理解本发明实施例提供的技术方案，下面结合具体的应用场景对本发明实施例提供的技术方案进行描述。

在该实施例中，以多核设备包括两个从CPU(从CPU0和从CPU1)为例进行描述，其中，从CPU1为冗余从CPU。

在该实施例中，主CPU与从CPU之间通过IPCM(InterProcessorCommunicationModule，核间通信模块)模块实现核间通信，IPCM模块主要可以包括GIC(GenericInterruptController，中断控制器)以及共享内存。

其中，共享内存是一块公共的数据存储区域，该区域的数据主CPU和从CPU均可以进行读写；当主CPU或从CPU将数据写入该共享区域后，可以通过GIC通知其它连接到该IPCM模块的CPU，该其它CPU可以根据需求读取该共享区域内的数据，从而实现主从CPU核间通信的基础。

在该实施例中，在多核设备中设置一个共享缓存区(也称为主从共享缓存区，sharebuffer)，该区域内的数据主从CPU均可访问，同时，各CPU中设置有本地缓存区(也称为内核信息缓存区，ringbuffer)。

基于上述应用场景，在该实施例中，从CPU异常处理方法的流程可以包括：

1、当从CPU0发生异常时，从CPU0可以通过printk(一种内核中运行的向控制台输出显示的函数)将异常信息对应的数据存入从CPU0的ringbuffer；

2、在从CPU0端起一个发送线程，该发送线程不停地扫描ringbuffer区域，一旦检测到ringbuffer区域有数据，就将数据发送至sharebuffer；

3、主CPU端起一个接收线程，该接收线程可以不停地扫描sharebuffer区域，一旦检测到sharebuffer中有数据，就将数据copy(复制)到本地缓存区，即ringbuffer；

4、主CPU端创建一个文件节点，将ringbuffer区域的数据存入该文件节点；

5、主CPU端通过访问文件节点，分析数据，判断从CPU0是否发生异常；

6、若从CPU0发生异常，生成错误日志，并将错误日志保存至flash；

7、重启从CPU0，并启用冗余的从CPU1。

通过以上描述可以看出，在本发明实施例提供的技术方案中，通过设置共享缓存区，该共享缓存区中可以存储从CPU的异常信息对应的数据；当主CPU检测到该共享缓存区中存在数据，可以将该数据存储到本地缓存区，并根据该数据判断从CPU是否发生异常，若从CPU发生异常，则重启从CPU，从而，保证了主CPU能够及时发现从CPU发生异常，并进行相应的异常恢复处理。

请参见图3，为本发明实施例提供的一种CPU异常处理装置的结构示意图，其中，该从CPU异常处理装置可以应用于上述多核设备的主CPU中，如图3所示，该从CPU异常处理装置可以包括：

检测单元310，用于检测共享缓存区中是否存在数据；

存储单元320，用于当所述共享缓存区中存在数据时，将所述数据存数到本地缓存区；

判断单元330，用于根据所述数据判断从CPU是否发生异常；

异常处理单元340，用于当从CPU发生异常时，重启所述从CPU。

在一种可选实施例中，若所述多核设备包括多个从CPU；

所述异常处理单元，还用于启用冗余的从CPU。

在另一种可选实施例中，若所述多核设备未包括多个从CPU；

所述异常处理单元340，还用于根据预先存储的业务关系，重新建立主CPU与重启后的从CPU之间的业务关系。

请一并参见图4，为本发明实施例提供的另一种从CPU异常处理装置的结构示意图，该实施例在前述图3所示实施例的基础上，所述从CPU异常处理装置可以还包括：

创建单元350，用于当创建一个文件节点，并将本地缓存区中的数据存入该文件节点中；

相应地，所述判断单元330，具体用于根据所述文件节点中的数据判断从CPU是否发生异常。

请一并参见图5，为本发明实施例提供的另一种从CPU异常处理装置的结构示意图，该实施例在前述图3所示实施例的基础上，所述从CPU异常处理装置可以还包括：

所述装置还包括：

生成单元360，用于当所述判断单元330判断所述从CPU发生异常时，生成错误日志，并将所述错误日志保存至闪存flash。

请参见图6，为本发明实施例提供的一种CPU异常处理装置的结构示意图，其中，该从CPU异常处理装置可以应用于上述多核设备的从CPU中，如图6所示，该从CPU异常处理装置可以包括：

检测单元610，用于检测从CPU是否发生异常；

发送单元620，用于当从CPU发生异常时，将异常信息对应的数据发送至共享缓存区，以使主CPU根据共享缓存区中的数据确定所述从CPU异常时，重启所述从CPU。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

由上述实施例可见，通过设置共享缓存区，该共享缓存区中可以存储从CPU的异常信息对应的数据；当主CPU检测到该共享缓存区中存在数据，可以将该数据存储到本地缓存区，并根据该数据判断从CPU是否发生异常，若从CPU发生异常，则重启从CPU，从而，保证了主CPU能够及时发现从CPU发生异常，并进行相应的异常恢复处理。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种从中央处理单元CPU异常处理方法，应用于包括主CPU和至少一个从CPU的多核设备，其特征在于，包括：

检测共享缓存区中是否存在数据；

若存在，将所述数据存储到本地缓存区；

根据所述数据判断从CPU是否发生异常；

若从CPU发生异常，重启所述从CPU。

2.根据权利要求1所述的方法，其特征在于，若所述多核设备包括多个从CPU，所述重启从CPU之后，还包括：

启用冗余的从CPU。

3.根据权利要求1所述的方法，其特征在于，若所述多核设备未包括多个从CPU，所述重启从CPU之后，还包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述将所述数据存储到本地缓存区之后，还包括：

创建一个文件节点，并将本地缓存区中的数据存入该文件节点中；

所述根据所述数据判断从CPU是否发生异常，包括：

根据所述文件节点中的数据判断从CPU是否发生异常。

5.根据权利要求1-3任一项所述的方法，其特征在于，若从CPU发生异常，所述方法还包括：

生成错误日志，并将所述错误日志保存至闪存flash。

6.一种从中央处理单元CPU异常处理方法，应用于包括主CPU和至少一个从CPU的多核设备，其特征在于，包括：

检测从CPU是否发生异常；

7.一种从中央处理单元CPU异常处理装置，应用于包括主CPU和至少一个从CPU的多核设备中的主CPU，其特征在于，包括：

检测单元，用于检测共享缓存区中是否存在数据；

判断单元，用于根据所述数据判断从CPU是否发生异常；

异常处理单元，用于当从CPU发生异常时，重启所述从CPU。

8.根据权利要求7所述的装置，其特征在于，若所述多核设备包括多个从CPU；

所述异常处理单元，还用于启用冗余的从CPU。

9.根据权利要求7所述的装置，其特征在于，若所述多核设备未包括多个从CPU；

所述异常处理单元，还用于根据预先存储的业务关系，重新建立主CPU与重启后的从CPU之间的业务关系。

10.根据权利要求7-9任一项所述的装置，其特征在于，所述装置还包括：

创建单元，用于当创建一个文件节点，并将本地缓存区中的数据存入该文件节点中；

所述判断单元，具体用于根据所述文件节点中的数据判断从CPU是否发生异常。

11.根据权利要求7-9任一项所述的装置，其特征在于，所述装置还包括：

生成单元，用于当所述判断单元判断所述从CPU发生异常时，生成错误日志，并将所述错误日志保存至闪存flash。

12.一种从中央处理单元CPU异常处理装置，应用于包括主CPU和至少一个从CPU的多核设备中的从CPU，其特征在于，包括：

检测单元，用于检测从CPU是否发生异常；