CN109872150A

CN109872150A - 具有时钟同步操作的数据处理系统

Info

Publication number: CN109872150A
Application number: CN201811468840.5A
Authority: CN
Inventors: J·里发立; N·H-C·阿米迪奥; L·A·伍德卢姆
Original assignee: NXP USA Inc
Current assignee: NXP USA Inc
Priority date: 2017-12-04
Filing date: 2018-12-04
Publication date: 2019-06-11
Also published as: US10802932B2; EP3493062A2; EP3493062A3; US20190171536A1

Abstract

公开一种数据处理系统以及用于操作该数据处理系统的方法。该方法包括通过比较来自第一处理核心和第二处理核心的输出信号来检测故障；基于检测到该故障而进入安全模式；在处于该安全模式时完成交易；以及确定该故障是否对应于硬错误。基于该故障对应于硬错误，处理核心中的一个处理核心被识别为故障核心。阻止该故障核心执行指令并且允许另一处理核心执行指令。

Description

具有时钟同步操作的数据处理系统

技术领域

本公开大体上涉及数据处理系统，且更确切地说，涉及一种具有时钟同步操作的数据处理系统。

背景技术

随着时间推移，集成电路的复杂性不断增加。正开发片上系统(System-on-Chip，SoC)和其它多核集成电路，以便支持各种应用，例如，汽车、工业和医疗应用等。设计用于这些应用的系统通常需要非常注意安全性。因此，需要改进的安全性处理技术。

发明内容

根据本发明的第一方面，提供一种操作数据处理系统的方法，包括：

通过比较来自第一处理核心和第二处理核心的输出信号来检测故障；

基于检测到所述故障而进入安全模式；

当处于所述安全模式时完成交易；

确定所述故障是否对应于硬错误；以及

基于所述故障对应于硬错误：

将处理核心中的一个处理核心识别为故障核心，所述故障核心与所述硬错误相关联；以及

阻止所述故障核心执行指令并且允许另一处理核心恢复执行指令。

在一个或多个实施例中，所述方法进一步包括在时钟同步模式下操作所述第一处理核心和所述第二处理核心，所述第二处理核心遮蔽所述第一处理核心。

在一个或多个实施例中，所述方法进一步包括在控制器处接收对应于所述故障的中断信号；以及响应于所述中断信号，调用服务例程来分析所述故障。

在一个或多个实施例中，确定所述故障是否对应于硬错误进一步包括：

在耦合到所述第一处理核心的第一处理器的第一高速缓冲存储器和耦合到所述第二处理核心的第二处理器的第二高速缓冲存储器中的至少一个高速缓冲存储器上执行存储器内建自测试(MBIST)；以及

在所述第一处理器和所述第二处理器中的至少一个处理器上执行逻辑内建自测试(LBIST)。

在一个或多个实施例中，当所述MBIST或LBIST失败时确定所述硬错误。

在一个或多个实施例中，所述方法进一步包括将第一核心域耦合到所述数据处理系统的系统总线，所述核心域包括所述第一处理核心和所述第二处理核心。

在一个或多个实施例中，所述安全模式包括将所述第一处理核心和所述第二处理核心与所述系统总线隔离。

在一个或多个实施例中，所述方法进一步包括基于所述故障不对应于硬错误，将所述第一核心域复位，所述处理系统的其它部分在所述第一核心域的复位期间继续正常操作。

在一个或多个实施例中，通过比较输出信号来检测所述故障包括延迟来自所述第一处理核心的输出信号，以与来自所述第二处理核心的输出信号在时间上对准。

根据本发明的第二方面，提供一种数据处理系统，包括：

耦合到系统总线的核心域，所述核心域包括：

第一处理核心，其包括耦合到第一高速缓冲存储器的第一处理器，

第二处理核心，其包括耦合到第二高速缓冲存储器的第二处理器，以及

时钟同步控制电路，其耦合到所述第一处理核心和所述第二处理核心，所述时钟同步控制电路被配置成通过比较来自所述第一处理核心和所述第二处理核心的输出信号来检测故障、基于检测到的故障而进入安全模式、以及在处于所述安全模式时完成交易；以及

耦合到所述时钟同步控制电路的控制器，所述控制器被配置成确定所述故障是否对应于硬错误，以及响应于所述故障对应于所述硬错误，允许所述第一处理核心和第二处理核心中的一个处理核心不与所述硬错误相关联以继续执行指令。

在一个或多个实施例中，所述时钟同步控制电路包括比较电路，所述比较电路被配置成当来自所述第一处理核心和所述第二处理核心的输出信号不匹配时检测到故障。

在一个或多个实施例中，所述控制器被配置成接收对应于所述故障的中断信号；以及响应于所述中断信号，调用服务例程来分析所述故障。

在一个或多个实施例中，用于分析所述故障的所述服务例程包括将在所述第一高速缓冲存储器和所述第二高速缓冲存储器中的至少一个高速缓冲存储器上执行的存储器内建自测试(MBIST)，以及将在所述第一处理器和所述第二处理器中的至少一个处理器上执行的逻辑内建自测试(LBIST)。

在一个或多个实施例中，基于所述故障不对应于硬错误，所述控制器被配置成将第一核心域复位，并且允许所述处理系统的其它部分在所述核心域的复位期间继续正常操作。

根据本发明的第三方面，提供一种操作数据处理系统的方法，包括：

在时钟同步模式下操作核心域，所述核心域包括遮蔽第二处理核心的第一处理核心；

通过比较来自所述第一处理核心和所述第二处理核心的输出信号来检测故障；

基于检测到所述故障而进入安全模式，所述安全模式将所述核心域与系统总线隔离；

确定所述故障是否对应于硬错误；

基于所述故障对应于硬错误，阻止所述故障核心执行指令并且允许所述处理核心不与所述硬错误相关联以恢复执行指令。

在一个或多个实施例中，通过比较输出信号来检测所述故障包括延迟来自所述第二处理核心的输出信号，以与来自所述第一处理核心的输出信号在时间上对准。

在一个或多个实施例中，所述方法进一步包括生成对应于所述故障的中断信号；以及响应于控制器处的所述中断信号，调用服务例程来分析所述故障。

在所述第一处理器和所述第二处理器中的至少一个处理器上执行逻辑内建自测试(LBIST)；

其中当所述MBIST或LBIST失败时确定所述硬错误。

在一个或多个实施例中，所述方法进一步包括基于所述故障不对应于硬错误，将所述核心域复位并且允许所述数据处理系统的其它部分在所述核心域的复位期间继续正常操作。

本发明的这些和其它方面将根据下文中所描述的实施例显而易见，且参考这些实施例予以阐明。

附图说明

本发明借助于例子示出并且不受附图的限制，在附图中类似标记指示类似元件。为简单和清晰起见，示出图中的元件，并且这些元件未必按比例绘制。

图1以简化框图形式示出根据本发明的实施例的示例性数据处理系统。

图2以简化示意图形式示出根据本发明的实施例的示例性时钟同步控制块。

图3以时序图形式示出根据本发明的实施例的示例性时钟同步故障信号计时。

图4以流程图图解形式示出根据本发明的实施例的示例性时钟同步故障流。

具体实施方式

一般来说，提供数据处理系统以及用于在时钟同步模式下操作的方法。在时钟同步模式期间比较从核心域的两个处理核心产生的输出信号。当检测到故障时，核心域进入安全模式并且确定故障是由软错误还是由硬错误引起。当处于安全模式时，在完成未决交易之后，核心域与数据处理系统的系统总线分离。通过在耦合到每个处理核心的处理器的高速缓冲存储器上执行存储器内建自测试(memory built-in self-test，MBIST)以及在每个处理核心的处理器上执行逻辑内建自测试(logic built-in self-test，LBIST)来分析故障。当MBIST或LBIST失败时确定硬错误，并且当MBIST和LBIST都通过时确定软错误。当确定硬错误时，故障分析还识别哪个核心是故障核心。

基于故障对应于硬错误，阻止故障核心并允许非故障核心继续操作。通过阻止故障核心并允许非故障核心继续执行，数据处理系统可以在安全性应用中所期望的降低或降级操作模式下继续操作。基于故障对应于软错误，执行核心域的复位，同时允许数据处理系统的其它部分正常操作。因为核心域的复位不会影响数据处理系统的其它部分，所以可以实现在安全性应用中也期望的显著停机时间节省。

图1以简化框图形式示出根据本发明的实施例的示例性数据处理系统100。在一些实施例中，数据处理系统100可以表征为片上系统(system-on-a-chip，SoC)。处理系统100包括系统总线102、核心域104和106、控制器108、存储器110，以及其它外围设备112。核心域104包括处理核心114和116，以及时钟同步控制块118。时钟同步控制块118、控制器108、存储器110和其它外围设备112各自借助于相应的通信总线双向耦合到系统总线102。核心114和116各自借助于时钟同步控制块118和相应的通信总线双向耦合到系统总线102。

系统总线102可以包括任何类型的总线、交换结构、片上网络(network on chip，NoC)等，用于互连和传送任何类型的信息，例如，数据、地址、指令、中断和控制。系统总线102为写入到存储器、数据传送等交易，以及其它信息的通信提供通信骨干。具体来说，系统总线102为核心域104和106、控制器108、存储器110，以及其它外围设备112之间的交易提供通信骨干。

核心域104包括核心114和116，该核心114和116借助于时钟同步控制块118耦合到系统总线102。处理核心114和116分别各自包括处理器(120、124)和高速缓冲存储器(122、126)。标记为CPU1的处理器120耦合到标记为CACHE1的高速缓冲存储器122，并且标记为CPU2的处理器124耦合到标记为CACHE2的高速缓冲存储器126。例如逻辑内建自测试(logicbuilt-in self-test，LBIST)的试验电路耦合到CPU1和CPU2中的每个处理器，并且存储器内建自测试(memory built-in self-test，MBIST)耦合到CACHE1和CACHE2中的每个处理器。CPU1和CPU2可以包括用于处理、计算等的任何类型的电路，例如，状态机、微处理器单元(microprocessor unit，MPU)、微控制器单元(microcontroller unit，MCU)、数字信号处理器(digital signal processor，DSP)，以及其它合适类型的处理单元。在此实施例中，核心114和116实际上彼此相同，例如，具有相似架构和电路。

处理系统100可以包括类似于核心域104的多核域(例如，核心域106)，每个核心域包括类似于核心114和116的处理核心、共享存储器(未示出)、类似于时钟同步控制块108的时钟同步控制电路、中断电路(未示出)，以及其它外围设备。例如，核心域106可以类似于核心域104，该核心域104包括类似于核心114和116的电路、时钟同步控制块118等。核心域106可以独立于核心域104操作，例如，在多处理或多线程处理系统中。在一些实施例中，核心域106可以具有不同核心、存储器和其它电路。在一些实施例中，核心域104中的核心114和116可以各自包括类似于核心114和116的多个核心。例如，核心114可以包括具有两个处理器的两个核心，该两个处理器类似于耦合到类似于CACHE1的两个高速缓冲存储器的CPU1，并且核心116可以包括具有两个处理器的两个核心，该两个处理器类似于耦合到类似于CACHE2的两个高速缓冲存储器的CPU2。

核心114和116一般被配置成执行指令集，以便实施指定任务。在实施指令的过程中，核心114和116可以生成例如，写入到存储器、数据传送等交易。核心114和116可以被配置成在性能模式下独立地操作，或可以被配置成在时钟同步模式下一起操作。核心114和116还可以被配置成在降级模式下操作，在该降级模式下，一个核心停用并且另一核心独立地操作。在时钟同步模式中，一个核心可以通过执行相同指令并生成相同交易来遮蔽另一核心。例如，标记为CORE1的核心114和标记为CORE2的核心116可以被配置成使用时钟同步控制块118在时钟同步模式下操作(例如，作为时钟同步对)，使得CORE2遮蔽CORE1，从而允许每个核心的输出彼此比较出不一致。通过比较时钟同步对的输出，可以保证数据处理系统100中的安全性水平，因为可检测到硬错误和软错误。在此实施例中，当CORE2遮蔽CORE1时，CORE2的输出仅用于比较并且因此从系统总线102解耦。如本文所使用的术语“遮蔽”指执行相同指令并生成相同交易。

时钟同步控制块118包括电路，该电路被配置成基于由控制器108提供的控制信号而在CORE1和CORE2与系统总线102之间选择性地路由信号。时钟同步控制块118包括输入和输出，该输入和输出被耦合成将信号提供到CORE1和CORE2、系统总线102以及控制器108，并且从CORE1和CORE2、系统总线102以及控制器108接收信号。时钟同步控制块118还包括电路，该电路被配置成将从CORE1和CORE2中的每个核心产生的输出信号相比较，以确定此类输出信号是否彼此一致。借助于耦合在控制器108与时钟同步控制块118之间的控制信号线传输一组控制信号。

控制器108耦合到系统总线102和时钟同步控制块118。控制器108包括用于处理、计算等的电路，例如，状态机、处理核心等。控制器108一般被配置成执行指令，并且将响应提供到所接收中断信号以便实施指定任务。控制器108被配置成将控制信号提供到时钟同步控制块118，并且被配置成从时钟同步控制块118接收故障指示信号和/或中断信号。

存储器110可以包括任何类型的易失性或非易失性存储器阵列单元，例如，静态随机存取存储器(static random-access memory，SRAM)、动态随机存取存储器(dynamicrandom-access memory，DRAM)、闪存存储器等。处理系统100可以包括类似于存储器110的多个存储器，或不同存储器类型的组合。例如，除了SRAM 110之外，处理系统100还可以包括闪存存储器。

例如，处理系统100的其它外围设备112可以包括任何数目的其它电路和功能硬件块，例如，加速器、计时器、计数器、通信装置、接口、模/数转换器、数/模转换器、PLL等。包括在其它外围设备112中的其它电路和功能硬件块中的每一个可以借助于相应的通信总线耦合到系统总线102。

图2以简化示意图形式示出根据本发明的实施例的图1的示例性时钟同步控制块118。时钟同步控制块118包括用于从系统总线102接收信号的标记为C1IN和C2IN的输入、用于从CORE1和CORE2接收输出信号的标记为C1OUT和C2OUT的输入、用于将输出信号提供到系统总线102的标记为C1OUTX和C2OUTX的输出，以及用于将输入信号提供到CORE1和CORE2的标记为C1IN和C2INX的输出。时钟同步控制块118还包括用于从控制器108接收控制信号的标记为SEL1、SEL2和LS的控制输入，以及用于将一个或多个故障指示信号和/或中断信号提供到控制器108的标记为FAULT的控制输出。在此实施例中，时钟同步控制块118包括复用器电路202-206、延迟电路208和210，以及比较单元212。

延迟电路208和210可以被配置成将相应信号延迟预定的固定延迟量。固定延迟量可以由从0(零)到N的值表示，其中0对应于零延迟并且N对应于N数目个时钟循环延迟。在一些实施例中，延迟电路208和210可以被配置成借助于控制信号输入(例如，DLYI、DLYO)将相应信号延迟可编程延迟量。例如，延迟电路208可以被编程为基于由控制器108提供的控制信号值将信号延迟预定量(例如，两个时钟循环)。可编程延迟量还可以由从0(零)到N的值表示，其中0对应于零延迟并且N对应于N数目个时钟循环延迟。

复用器电路202-206可以各自被配置成基于控制信号的值而选择将路由到输出的多个输入中的一个输入。在此实施例中，复用器电路202-206中的每个复用器电路被配置为双输入、单输出开关电路。复用器电路202-206还可以被称为选择器电路。在其它实施例中可以使用其它复用器电路配置和布置。

复用器电路202-206被耦合成接收控制信号LS、SEL1和SEL2，以将所选择输入耦合到相应的复用器输出。控制信号LS、SEL1和SEL2中的每个控制信号可以具有对应于CORE1和CORE2的操作模式的值。例如，在CORE2遮蔽CORE1的时钟同步模式中，控制信号LS、SEL1和SEL2可以各自设定成第一值，从而允许输入信号C1IN借助于复用器202路由到CORE1和CORE2，来自CORE1的输出信号C1OUT借助于复用器204路由到系统总线102，以及来自CORE2的输出信号C2OUT借助于复用器206阻止。因为相同输入信号路由到CORE1和CORE2两者，所以来自CORE1和CORE2两者的输出信号可以在比较单元212中彼此进行比较。

在CORE1和CORE2独立地操作的性能模式中，控制信号LS和SEL2可以各自设定成第二值(同时SEL1设定成第一值)，从而允许C2IN输入信号路由到CORE2并且输出信号C2OUT路由到系统总线102。在第一降级模式中，CORE1被阻止并且CORE2可操作。控制信号LS、SEL1和SEL2可以各自设定成第二值，从而允许C2IN输入信号路由到CORE2并且输出信号C2OUT路由到系统总线102，同时在复用器204处阻止CORE1输出信号C1OUT。在第二降级模式中，CORE1可操作并且CORE2被阻止。控制信号SEL1和SEL2可以各自设定成第一值(同时LS设定成第二值)，从而允许输出信号C1OUT路由到系统总线102，同时在复用器206处阻止CORE2输出信号C2OUT。当处于第一或第二降级模式中时，可以减小数据处理系统100中的安全性水平，因为硬错误和软错误不像在时钟同步模式中那样可以容易检测到。

比较单元212包括用于接收第一组信号(例如，C1OUTD)和第二组信号(例如，C2OUT)的输入，以及用于提供一个或多个故障指示信号(例如，FAULT)的一个或多个输出。比较单元212包括电路，该电路被配置成将第一组信号与第二组信号相比较并在出现失配时生成故障指示。一般来说，预期第一组信号和第二组信号相同。然而，可能出现故障(还称为错误情况)，其中第一组中的信号中的一个信号不同于第二组中的对应信号，并且因此生成故障指示。故障指示可以采用标志、信号和/或中断请求形式，控制器108通过该中断请求以另外的动作作出响应。

图3以简化时序图形式示出根据本发明的实施例的示例性时钟同步故障信号计时300。与时间在X轴上示出相对，各种信号在Y轴上示出。借助于实例，在时序图300中描绘对应于图1和2的时钟同步操作。出于参考目的，CLOCK信号波形包括编号的时钟循环。在图3中所描绘的实施例中，核心域116的CORE1和CORE2在时钟同步模式中操作，由此CORE2遮蔽CORE1。在此实施例中，将输入信号C1IN路由到CORE1。将C1IN信号延迟一个时钟循环以形成路由到CORE2的C1IND信号。因此，CORE2基于与CORE1相同的输入信号而稍后及时操作一个时钟循环。因此，将CORE1输出信号C1OUT延迟一个时钟循环以形成C1OUTD信号来与CORE2输出信号C2OUT进行比较。

在时钟循环3处，将C1OUTD波形描绘为C1OUT波形的一个时钟循环延迟。例如，C1OUT信号包括在时钟循环2中标记为D1的数据值，并且延迟的信号C1OUTD包括在时钟循环3中的数据值D1。因为将到达CORE2的输入信号延迟一个时钟循环(C1IND)，所以CORE2输出信号C2OUT与C1OUTD信号在时间上对准。因此，C1OUTD和C2OUT信号在比较单元212中彼此进行比较。例如，在时钟循环3和4中，输出信号C2OUT与C1OUTD信号匹配，并且并未生成故障指示(FAULT)。然而，在时钟循环5中，C1OUTD信号包括数据值D3，而C2OUT信号包括数据值DX，该数据值DX被检测为故障，因此生成故障指示作为FAULT波形上的逻辑高信号。FAULT波形上的故障指示的上升边缘进而导致准备信号(C1RDY、C2RDY)对于CORE1和CORE2两者无效。在C1RDY和C2RDY信号两者无效的情况下，核心域104可以过渡到安全模式。

当处于安全模式时，CORE1和CORE2与系统总线102分离并且允许完成任何未决交易。未决交易可以包括面向尚未完成的系统外围设备(例如，存储器110、其它外围设备112)的负载或存储请求。当核心域104处于安全模式时，其它核心域(例如，核心域106)和其它电路以及功能块(例如，控制器108、存储器110和其它外围设备112)可以正常操作。标记为TRANS的波形描绘多个未决交易。例如，在时钟循环5处，当核心1和CORE2进入安全模式时，剩余三个未决交易。在时钟循环8处，CORE1和CORE2已完成两个交易，其中如TRANS波形中所示剩余一个交易。在时钟循环9处，如通过TRANS波形中的0(零)指示，已完成所有未决交易。在已完成未决交易之后，C1RDY和C2RDY信号在时钟循环10处有效。

图4以流程图图解形式示出根据本发明的实施例的简化时钟同步故障流。在以下步骤中描述对应于图1和图2中所描绘的块和电路的示例性时钟同步操作。

在步骤402处，使核心域104通电。在核心域104的通电期间，CORE1和CORE2、时钟同步控制块108、相关联存储器，以及其它核心域电路中的每一个复位。在核心域104的通电和复位之后，CORE1和CORE2可以开始独立地执行。因为核心域104可以是片上系统(system-on-chip，SoC)等的一部分，所以核心域104可以在SoC的通电期间通电。同样，核心域104可以在SoC的复位操作(例如，通电复位)期间复位。

在步骤404处，进入核心域104的时钟同步模式。控制器108将一个或多个控制信号提供到核心域104，以使CORE1和核心2以及时钟同步控制块118在时钟同步模式下操作。例如LS、SEL1和SEL2的控制信号用于配置到达/来自相应核心的信号流，并且例如DLYI和DLYO的控制信号用于从0(零)时钟循环延迟到N数目个时钟循环延迟配置相应信号延迟量。

例如，在时钟同步模式中，控制信号LS用于借助于复用器202将信号C1IND路由到C2INX作为CORE2输入信号。因为CORE1和CORE2在时钟同步模式中接收相同输入信号(例如，指令)，CORE1和CORE2预期执行相同操作并且提供相同输出信号，除非出现故障。控制信号SEL1用于借助于复用器204将C1OUT信号路由到C1OUTX作为CORE1输出信号，并且控制信号SEL2用于借助于复用器206阻止C2OUT信号路由到核心域104外部。控制信号DLYI用于选择延迟量(例如，一个时钟循环)，延迟电路210将C1IN信号延迟该延迟量以形成C1IND信号。同样，控制信号DLYO用于选择延迟量(例如，一个时钟循环)，延迟电路208将C1OUT信号延迟该延迟量以形成C1OUTD信号。

在步骤406处，将CORE1输出信号与CORE2输出信号相比较。将CORE1输出信号C1OUT延迟(例如，一个循环)，以形成C1OUTD信号来将CORE1与CORE2输出信号在时间上对准。因此，C1OUTD信号在比较单元212中与CORE2输出信号C2OUT进行比较。C1OUTD和C2OUT信号可以各自包括数十个或数百个个别信号。比较单元212的电路被配置成将数十个或数百个C1OUTD信号中的每个信号与一个时钟循环中的相应C2OUT信号相比较。可能发生故障，其中C1OUTD信号中的信号中的一个信号不同于C2OUT信号中的对应信号。故障可以对应于软错误或硬错误。软错误或硬错误一般与CORE1或CORE2电路以及其外围设备(例如，高速缓冲存储器)相关联。当检测到故障时，故障指示以标志、信号和/或中断请求的形式生成并且在控制器108处接收到。

在步骤408处，检测故障并生成故障指示。当C1OUTD信号中的信号中的一个信号不同于C2OUT信号中的对应信号时，通过比较单元212检测故障。故障可以由于软错误或硬错误而发生。硬错误还可以被称为永久性错误(例如，电气过应力或潜在缺陷)。软错误还可以被称为不会损坏装置的瞬态错误(例如，电磁干扰、α粒子或电压尖峰)。进而，故障指示以标志、信号和/或中断请求的形式生成。

在步骤410处，进入安全模式并且完成未决交易。响应于故障指示，核心域104进入安全模式。当处于安全模式时，CORE1和CORE2与系统总线102分离并且完成任何未决交易。核心域106可以继续处理交易，并且在核心域104处于安全模式时，处理系统100的其它部分可以继续正常操作。当完成所有未决交易时，将中断请求传输到控制器108以进行另外的动作。

在步骤412处，通过执行测试，例如，存储器内建自测试(memory built-in self-test，MBIST)、逻辑内建自测试(logic built-in self-test，LBIST)等分析故障。当在控制器108处接收到中断请求时，起始中断服务例程(interrupt service routine，ISR)或其它软件例程开始在控制器108处执行以分析故障。例如，MBIST在耦合到CORE1和CORE2中的每一个的存储器(例如，高速缓存器)上执行。当完成MBIST时，LBIST在CORE1和CORE2中的每一个上执行。在一些实施例中，可以执行其它测试以确定哪个(如果存在的话)核心或核心外围设备发生故障。

在步骤414处，确定故障类型以及哪个核心(如果存在的话)发生故障。在分析故障之后，可以确定故障类型(例如，软错误或硬错误)。当MBIST失败或LBIST失败时，故障类型表征为硬错误。为了识别哪个核心发生故障，硬错误可以对应于具有CORE1或CORE2中的任一个的错误，或与CORE1或CORE2相关联的存储器(例如，高速缓存器)错误。例如，与CORE1相关联的高速缓冲存储器错误可以表征为硬错误，并且因为高速缓冲存储器错误与CORE1相关联，所以CORE1被视为故障核心。当MBIST和LBIST通过时，故障类型表征为软错误。

在步骤416处，确定故障类型是否表征为硬错误。当故障类型不表征为硬错误时，故障类型可以被视为软错误并且流程在步骤418处继续。当故障类型表征为硬错误时，流程在420处继续。

在步骤418处，核心域104复位。当确定软错误时，核心域104复位。当核心域104复位时，核心域106和处理系统100的其它部分可以继续正常操作。在完成核心域104复位之后，退出安全模式。在核心域104复位之后，流程在步骤404处通过进入时钟同步模式而继续。

在步骤420处，核心域104复位。当确定硬错误时，核心域104复位。当核心域104复位时，核心域106和处理系统100的其它部分可以继续正常操作。在完成核心域104复位之后，退出安全模式并且流程在步骤422处通过进入降级模式而继续。

在步骤422处，停用故障核心并且在降级模式下运行另一核心。因为故障对应于硬错误，所以CORE1和CORE2中的一个被识别为故障核心且另一个以及时钟同步控制块118被配置成在降级操作模式下操作(例如，当处于时钟同步模式下时不保证安全性)。例如，基于故障对应于硬错误并且CORE2被识别为故障核心，CORE1恢复执行指令并且CORE2被阻止执行指令。

一般来说，提供一种操作数据处理系统的方法，该方法包括：通过比较来自第一处理核心和第二处理核心的输出信号来检测故障；基于检测故障而进入安全模式；在处于安全模式时完成交易；确定故障是否对应于硬错误；以及基于故障对应于硬错误：将处理核心中的一个处理核心识别为故障核心，该故障核心与硬错误相关联；以及阻止故障核心执行指令并允许另一处理核心恢复执行指令。该方法可以另外包括在时钟同步模式下操作第一处理核心和第二处理核心，该第二处理核心遮蔽该第一处理核心。该方法可以另外包括在控制器处接收对应于故障的中断信号；以及响应于中断信号，调用服务例程来分析故障。确定故障是否对应于硬错误可以另外包括：在耦合到第一处理核心的第一处理器的第一高速缓冲存储器和耦合到第二处理核心的第二处理器的第二高速缓冲存储器中的至少一个高速缓冲存储器上执行存储器内建自测试(memory built-in self-test，MBIST)；以及在第一处理器和第二处理器中的至少一个处理器上执行逻辑内建自测试(logic built-inself-test，LBIST)。当MBIST或LBIST失败时可以确定硬错误。该方法可以另外包括将第一核心域耦合到数据处理系统的系统总线，核心域包括第一处理核心和第二处理核心。安全模式可以包括将第一处理核心和第二处理核心与系统总线隔离。该方法可以另外包括基于故障不对应于硬错误，将第一核心域复位，处理系统的其它部分在第一核心域的复位期间继续正常操作。通过比较输出信号检测故障可以包括延迟来自第一处理核心的输出信号，以与来自第二处理核心的输出信号在时间上对准。

在另一实施例中，提供一种处理系统，该处理系统包括耦合到系统总线的核心域，该核心域包括：第一处理核心，其包括耦合到第一高速缓冲存储器的第一处理器；第二处理核心，其包括耦合到第二高速缓冲存储器的第二处理器；以及时钟同步控制电路，其耦合到第一处理核心和第二处理核心，该时钟同步控制电路被配置成通过比较来自第一处理核心和第二处理核心的输出信号来检测故障、基于检测到的故障进入安全模式，以及在安全模式下完成交易；以及耦合到时钟同步控制电路的控制器，该控制器被配置成确定故障是否对应于硬错误，以及响应于故障对应于硬错误，允许第一处理核心和第二处理核心中的一个处理核心不与硬错误相关联以继续执行指令。时钟同步控制电路可以包括比较电路，该比较电路被配置成当来自第一处理核心和第二处理核心的输出信号不匹配时检测到故障。安全模式可以包括将第一处理核心和第二处理核心与系统总线隔离。控制器可以被配置成接收对应于故障的中断信号；以及响应于中断信号，调用服务例程来分析故障。用于分析故障的服务例程可以包括将在第一高速缓冲存储器和第二高速缓冲存储器中的至少一个高速缓冲存储器上执行的存储器内建自测试(memory built-in self-test，MBIST)，以及将在第一处理器和第二处理器中的至少一个处理器上执行的逻辑内建自测试(logic built-in self-test，LBIST)。基于故障不对应于硬错误，控制器可以被配置成将第一核心域复位并且允许处理系统的其它部分在核心域的复位期间正常操作。

在又一实施例中，提供一种操作数据处理系统的方法，该方法包括在时钟同步模式下操作核心域，该核心域包括遮蔽第二处理核心的第一处理核心；通过比较来自第一处理核心和第二处理核心的输出信号来检测故障；基于检测到故障而进入安全模式，该安全模式将核心域与系统总线隔离；确定故障是否对应于硬错误；将处理核心中的一个处理核心识别为故障核心，该故障核心与硬错误相关联；基于故障对应于硬错误，阻止故障核心执行指令并且允许处理核心不与硬错误相关联以恢复执行指令。通过比较输出信号检测故障可以包括延迟来自第二处理核心的输出信号，以与来自第一处理核心的输出信号在时间上对准。该方法可以另外包括生成对应于故障的中断信号；以及响应于控制器处的中断信号，调用服务例程来分析故障。确定故障是否对应于硬错误可以另外包括在耦合到第一处理核心的第一处理器的第一高速缓冲存储器和耦合到第二处理核心的第二处理器的第二高速缓冲存储器中的至少一个高速缓冲存储器上执行存储器内建自测试(memory built-inself-test，MBIST)；以及在第一处理器和第二处理器中的至少一个处理器上执行逻辑内建自测试(logic built-in self-test，LBIST)，其中当MBIST或LBIST失败时确定硬错误。该方法可以另外包括基于故障不对应于硬错误，将核心域复位并且允许数据处理系统的其它部分在核心域的复位期间继续正常操作。

因此，到目前为止，可以了解，已提供数据处理系统以及用于在时钟同步模式下操作的方法。在时钟同步模式期间比较从核心域的两个处理核心产生的输出信号。当检测到故障时，核心域进入安全模式并且确定故障是由软错误还是由硬错误引起。当处于安全模式时，核心域与数据处理系统的系统总线分离并且完成未决交易。通过在耦合到每个处理核心的处理器的高速缓冲存储器上执行存储器内建自测试(memory built-in self-test，MBIST)以及在每个处理核心的处理器上执行逻辑内建自测试(logic built-in self-test，LBIST)来分析故障。当MBIST或LBIST失败时确定硬错误，并且当MBIST和LBIST都通过时确定软错误。当确定硬错误时，故障分析还识别哪个核心是故障核心。

基于故障对应于硬错误，阻止故障核心并且允许非故障核心继续操作。通过阻止故障核心并允许非故障核心继续执行，数据处理系统可以在安全性应用中所期望的降低或降级操作模式下继续操作。基于故障对应于软错误，执行核心域的复位，同时允许数据处理系统的其它部分正常操作。因为核心域的复位不会影响数据处理系统的其它部分，所以可以实现在安全性应用中也期望的显著停机时间节省。

如本文所使用，术语“总线”用于指代多个信号或导体，该多个信号或导体可以用于传送一个或多个各种类型的信息，例如数据、地址、控制或状态。如本文中所论述的导体可以参考单个导体、多个导体、单向导体或双向导体示出或描述。然而，不同的实施例可以改变导体的实施方案。例如，可以使用单独的单向连接而不是双向连接，且反之亦然。而且，多个导体可以用串行地或以时分复用的方式传送多个信号的单个导体替换。同样地，载送多个信号的单个导体可以被分成载送这些信号的子集的各种不同导体。因此，存在用于传送信号的许多选择方案。

本文中在参考使信号、状态位或类似设备呈现为其逻辑真或逻辑假状态时分别使用术语“使有效”或“设定”和“取消”(或“使无效”或“清除”)。如果逻辑真状态为逻辑电平一，那么逻辑假状态为逻辑电平零。并且如果逻辑真状态是逻辑电平零，那么逻辑假状态是逻辑电平一。

本文中所描述的每个信号可以被设计为正逻辑或负逻辑。在负逻辑信号的情况下，信号为低电平有效，其中逻辑真状态对应于逻辑电平零。在正逻辑信号的情况下，信号为高电平有效，其中逻辑真状态对应于逻辑电平一。应注意，本文中所描述的的任何信号均可以被设计为负逻辑信号或正逻辑信号。因此，在替代实施例中，描述为正逻辑信号的那些信号可以实施为负逻辑信号，且描述为负逻辑信号的那些信号可以实施为正逻辑信号。

因为实施本发明的设备大部分由本领域的技术人员已知的电子组件和电路组成，所以为了理解和了解本发明的基本概念并且为了不混淆或偏离本发明的教示，将不会以比上文所示出的认为必要的任何更大程度阐述电路细节。

在适当时，以上实施例中的一些可以使用多种不同信息处理系统实施。例如，尽管图1和其论述描述示例性数据处理架构，但呈现这种示例性架构仅为了在论述本发明的各种方面时提供有用的参考。当然，出于论述的目的，该架构的描述已被简化，并且其只是可根据本发明使用的适当架构的许多不同类型中的一种。本领域技术人员将认识到，逻辑块之间的边界仅仅是说明性的，且替代实施例可以合并逻辑块或电路元件，或对各种逻辑块或电路元件施加功能性的替代分解。

而且，例如，在一个实施例中，数据处理系统100的所示元件是位于单个集成电路上或同一装置内的电路。或者，数据处理系统100可以包括任何数目的单独集成电路或彼此互连的单独装置。

虽然本文中参考具体实施例描述了本发明，但是可以在不脱离如所附权利要求书中所阐述的本发明的范围的情况下进行各种修改和改变。因此，说明书和图式应视为说明性而不是限制性意义，并且预期所有这些修改都包括在本发明的范围内。并不意图将本文中关于具体实施例所描述的任何益处、优点或问题的解决方案理解为任何或所有权利要求的关键、必需或必不可少的特征或元素。

此外，如本文中所使用，术语“一”被定义为一个或多于一个。另外，权利要求书中对例如“至少一个”和“一个或多个”等引导性短语的使用不应被解释为暗示由不定冠词“一”引导的另一权利要求要素将含有此类引导的权利要求要素的任何特定权利要求限制于仅含有一个此类要素的发明，即使是当同一权利要求包括引导性短语“一个或多个”或“至少一个”和例如“一”等不定冠词时也如此。上述同样适用于定冠词的使用。

除非另外说明，否则例如“第一”和“第二”等术语用于任意地区别此类术语所描述的元件。因此，这些术语不一定预期指示此类元件的时间或其它优先级。

Claims

1.一种操作数据处理系统的方法，其特征在于，包括：

基于检测到所述故障而进入安全模式；

当处于所述安全模式时完成交易；

确定所述故障是否对应于硬错误；以及

基于所述故障对应于硬错误：

2.根据权利要求1所述的方法，其特征在于，进一步包括在时钟同步模式下操作所述第一处理核心和所述第二处理核心，所述第二处理核心遮蔽所述第一处理核心。

3.根据权利要求1所述的方法，其特征在于，进一步包括在控制器处接收对应于所述故障的中断信号；以及响应于所述中断信号，调用服务例程来分析所述故障。

4.根据权利要求1所述的方法，其特征在于，确定所述故障是否对应于硬错误进一步包括：

5.根据权利要求1所述的方法，其特征在于，进一步包括将第一核心域耦合到所述数据处理系统的系统总线，所述核心域包括所述第一处理核心和所述第二处理核心。

6.根据权利要求5所述的方法，其特征在于，所述安全模式包括将所述第一处理核心和所述第二处理核心与所述系统总线隔离。

7.根据权利要求5所述的方法，其特征在于，进一步包括基于所述故障不对应于硬错误，将所述第一核心域复位，所述处理系统的其它部分在所述第一核心域的复位期间继续正常操作。

8.根据权利要求1所述的方法，其特征在于，通过比较输出信号来检测所述故障包括延迟来自所述第一处理核心的输出信号，以与来自所述第二处理核心的输出信号在时间上对准。

9.一种数据处理系统，其特征在于，包括：

耦合到系统总线的核心域，所述核心域包括：

10.一种操作数据处理系统的方法，其特征在于，包括：

确定所述故障是否对应于硬错误；