CN104137077B - 处理器系统 - Google Patents

处理器系统 Download PDF

Info

Publication number
CN104137077B
CN104137077B CN201280069607.4A CN201280069607A CN104137077B CN 104137077 B CN104137077 B CN 104137077B CN 201280069607 A CN201280069607 A CN 201280069607A CN 104137077 B CN104137077 B CN 104137077B
Authority
CN
China
Prior art keywords
core
abnormal
wdt
storage device
processor unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201280069607.4A
Other languages
English (en)
Other versions
CN104137077A (zh
Inventor
德永寿郎
落合真
落合真一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN104137077A publication Critical patent/CN104137077A/zh
Application granted granted Critical
Publication of CN104137077B publication Critical patent/CN104137077B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/88Monitoring involving counting

Abstract

存储器225存储有各核116~118的日志信息。当在某个核中发生了异常的情况下,各核将在存储器225中存储的、本核的日志信息写入备份存储装置126。由此,能够将发生了异常的核以外的核的日志信息保存于备份存储装置126。

Description

处理器系统
技术领域
本发明涉及包括多个处理器单元的处理器系统。
在本说明书中,以下,以在1个CPU(Central Processing Unit,中央处理单元)封装内配置有多个处理系统(CPU核、以下简称为核)的多核CPU为中心进行说明,但对配置有多个CPU(单核CPU或者多核CPU)的多CPU系统、多处理器系统也适用本说明书记载的说明。
即,以下所示的多核CPU的“核”能够改称为多CPU系统、多处理器系统中的各个“CPU”、“处理器”。
另外,“处理器单元”这样的用语被用作还包括多核CPU中的“核”、和多CPU系统、多处理器系统中的“CPU”以及“处理器”的任一者的概念。
背景技术
RAS方式(RAS:Reliability,Availability,Serviceability(可靠性、可用性、可维修性))是指,用watchdog timer(以下简记为“WDT”(看门狗定时器))探测多核CPU的1个核的异常,将存储器上的日志信息(以下还简称为“日志”)保存到备份存储装置的异常处置方式。
WDT是计算机的硬件时间测量器。
在RAS方式中,在主程序陷入到意外停机等不正常的状态而未进行规则性的看门狗操作(WDT的复位操作)(WDT超时)的情况下,执行例外处理(WDT例外)。
关于例外处理,在以使意外停机了的系统返回到正常工作为目的而使系统复位的情况下执行的情况较多,但有时在使系统强制停止的情况、在切断电源之后的再接通时也被执行。
在具有将对引起了障碍的问题的调试有用的信息等保存到介质中的功能的RAS方式的情况下,WDT进行更复杂的处理。
例如,在由于WDT的超时而开始了的日志信息的保存处理在某个时间内未完成的情况下,不论日志信息是否被保存,WDT都在经过一定的延迟时间之后使系统可靠地复位。
使用WDT最多的是嵌入式系统,还有时在微型控制器中内置WDT。
还提出了不仅对单体的CPU,而且针对多核CPU、多处理器等具有多个CPU的系统也应用WDT的方法。
另外,在专利文献1中,公开了如下的方式:在多处理器系统中,某个处理器向其它处理器通过WDT例外通知本处理器处于动作异常状态,其它处理器向动作异常状态的处理器通知作为异常恢复动作的触发的中断,在动作异常状态的处理器未受理中断的情况下,其它处理器使动作异常状态的处理器复位。
现有技术文献
专利文献1:日本特开2000-311155号公报
发明内容
发明所要解决的技术问题
在某个处理器中发生了异常的情况下,除了发生了异常的处理器的日志信息以外,未发生异常的其它处理器的日志信息也成为用于障碍解析、系统修复的重要的线索。
在专利文献1的技术中,发生了异常的处理器的日志信息被保存到备份存储装置中,但未发生异常的其它处理器的日志信息不被保存。
本发明是鉴于这点完成的,其主要目的在于,在某个处理器单元中发生了异常的情况下,能够保存未发生异常的其它处理器单元的日志信息。
解决技术问题的技术方案
本发明所涉及的处理器系统,其特征在于,具有:
多个处理器单元;
第一存储装置,存储各处理器单元的日志信息;以及
第二存储装置,与所述第一存储装置不同,
各处理器单元在某个处理器单元中发生了异常的情况下,将在所述第一存储装置中存储的、本处理器单元的日志信息写入所述第二存储装置。
发明效果
根据本发明,各处理器单元当在某个处理器单元中发生了异常的情况下,将第一存储装置的本处理器单元的日志信息写入到第二存储装置中。
因此,能够保存未发生异常的处理器单元的日志信息。
附图说明
图1是示出实施方式1的CPU板的结构例的图。
图2是说明实施方式1的正常时的动作例的图。
图3是说明实施方式1的异常发生时的动作例的图。
图4是示出实施方式1的异常发生时的动作例的流程图。
图5是示出实施方式1的异常发生时的动作例的流程图。
图6是示出实施方式1的异常发生时的动作例的流程图。
图7是示出实施方式2的CPU板的结构例的图。
图8是说明实施方式2的正常时的动作例的图。
图9是说明实施方式2的异常发生时的动作例的图。
图10是示出实施方式2的异常发生时的动作例的流程图。
图11是示出实施方式2的异常发生时的动作例的流程图。
图12是示出实施方式2的异常发生时的动作例的流程图。
图13是示出实施方式2的异常发生时的动作例的流程图。
图14是示出实施方式2的管理程序(hypervisor)和OS、核、应用程序的关系的图。
符号说明
100:CPU板;101:周期处理APP-1;102:周期处理APP-2;103:周期处理APP-N;104:OS-1;105:OS-2;106:OS-N;107:RAS处理部1;108:RAS处理部2;109:RAS处理部N;110:WDT驱动器;111:WDT驱动器;112:WDT驱动器;113:WDT例外处理程序(exception handler);114:WDT例外处理程序;115:WDT例外处理程序;116:核1;117:核2;118:核N;119:中断控制器;120:WDT-1;121:WDT-2;122:WDT-N;123:延迟装置;124:板复位装置;125:存储器;126:备份存储装置;200:CPU板;201:周期处理APP-1;202:周期处理APP-2;203:周期处理APP-N;204:OS-1;205:OS-2;206:OS-N;207:RAS处理部1;208:RAS处理部2;209:RAS处理部N;210:WDT驱动器;211:WDT驱动器;212:WDT驱动器;213:WDT例外处理程序;214:WDT例外处理程序;215:WDT例外处理程序;216:核1;217:核2;218:核N;219:中断控制器;220:WDT-1;221:WDT-2;222:WDT-N;223:延迟装置;224:板复位装置;225:存储器;226:备份存储装置;250:管理程序;251:管理程序1;252:管理程序2;253:管理程序N;254:异常通知交换部;255:异常通知交换部;256:异常通知交换部。
具体实施方式
在以下所示的实施方式1以及实施方式2中,说明在某个核中发生了异常的情况下,能够将未发生异常的其它核的日志信息保存到备份存储装置中的结构。
另外,在实施方式1以及实施方式2中,说明即使在发生了异常的异常发生核的异常处置功能(RAS功能)没有正常地动作的情况下,也能够将异常发生核的日志信息保存到备份存储装置中的结构。
在以往的技术中,存在如下的课题:在通过WDT探测多核CPU的一个核的异常并将存储器上的日志保存到备份存储装置而最终进行板复位那样的异常处置方式(RAS方式)中,在异常发生核上的RAS功能没有正常地动作的情况下,无法保存异常发生核的异常发生时的日志。
例如,在专利文献1的技术中,将通过WDT探测到的1个处理器的异常通知给其它处理器,经由其它处理器对异常发生处理器施加异常恢复动作的触发,但由于该异常恢复动作由异常发生处理器自身进行,所以在该异常恢复动作没有正常地动作的情况下,无法将异常发生处理器的日志保存到备份存储装置中。
在实施方式1以及实施方式2中,鉴于这点,说明如下的结构:即使在异常发生核的RAS功能没有正常地动作的情况下也能够将异常发生核的日志保存到备份存储装置中的结构、以及能够将没有发生异常的其它核的日志保存到备份存储装置中的结构。
实施方式1.
[实施方式1:结构的说明]
图1是示出本实施方式的CPU板100的结构例的框图。
CPU板100的硬件构成要素是:N个核116~118、与各核对应的N个WDT120~122、存储器125、备份存储装置126、中断控制器119、延迟装置123、以及板复位装置124。
核116~118分别相当于处理器单元的例子。
另外,存储器125相当于第一存储装置的例子。
另外,备份存储装置126相当于第二存储装置的例子。
另外,中断控制器119相当于异常通知装置的例子。
核116~118的软件构成要素是:使WDT周期性地复位的应用程序(周期处理APP)101~103、OS(Operating System,操作系统)104~106、RAS处理部107~109、WDT驱动器110~112、以及WDT例外处理程序113~115。
另外,也可以代替WDT120~122,使用具有进行定时器动作而通知CPU的异常发生的构造的外部WDT。
另外,在后述中,说明了“各WDT被设定为如果发生WDT超时则将全部核的数量的WDT例外通知给中断控制器119”的情况,但也可以代替WDT120~122而使用进行相同动作的硬件。
[实施方式1:设定的说明]
对实施方式1中的、WDT120~122和中断控制器119的硬件设定进行说明。
各WDT被设定为如果发生WDT超时,则将全部核的数量的WDT例外通知给中断控制器119。
中断控制器119被设定为如果受理了WDT例外,则按照循环法(round robin)对全部核通知WDT例外。
[实施方式1:动作的概要说明]
接下来,对动作进行说明。
在实施方式1中,在WDT例外发生时向全部核的RAS处理部依次通知异常发生,各核的RAS处理部将本核的日志保存到备份存储装置126中。
另外,在异常发生核的RAS处理部没有正常地动作的情况下,正常工作的其它核的RAS处理部代替地进行异常发生核的日志的保存。
本实施方式的动作的概要如以下所述。
i)如上述[实施方式1:设定的说明]所述,WDT如果发生了WDT超时则将全部核的数量的WDT例外通知至中断控制器119。
即,WDT针对1次的WDT超时发生,将核数量的WDT例外发生通知(N个WDT例外发生通知)输出至中断控制器119。
如果输入了来自WDT的WDT例外发生通知,则中断控制器119向各核以循环法依次进行异常发生的通知。
由此,针对1次的WDT的超时发生,向全部核依次通知异常的发生。
ii)在接收了异常发生通知的各核的RAS处理部中,将各自的核的日志保存到备份存储装置126中。
iii)接收了异常发生通知的各核的RAS处理部能够通过WDT例外的种类,获知哪个核的WDT输出了WDT例外发生通知。
异常发生核以外的核的RAS处理部判定是否开始将异常发生核的日志向备份存储装置126保存。
然后,在未开始异常发生核的日志的保存的情况下,异常发生核以外的核的RAS处理部进行将异常发生核的日志向备份存储装置126的保存。
[实施方式1:动作的详细说明]
接下来,对本实施方式的动作的详情进行说明。
(动作的详细说明:正常时的动作)
首先,使用图2,说明正常时的动作。
核1(116)的周期处理APP-1(101)周期性地进行WDT复位。
周期处理APP-1(101)经由WDT驱动器110对WDT-1(120)进行复位。
由于正常时在发生WDT超时之前进行WDT复位,所以不发生WDT例外。
在核2(117)、核N(118)中也进行同样的处理(102→111→121、103→112→122的箭头)。
(动作的详细说明:异常发生时的动作)
接下来,使用图4、图5以及图6的流程图,说明异常发生时的动作。
使用图3来补充此时的框图上的处理的流程。
此处,以在核1(116)中发生异常、在WDT-1(120)中发生WDT例外的例子进行说明。
在S111中,发生WDT超时。
在S112中,WDT-1(120)在延迟了一定时间之后调出进行板复位的处理(图3的从120向123的箭头)。
在S101中延迟了一定时间之后,调出板复位处理S102(图3的从123向124的箭头)。
该延迟时间设为与RAS处理部完成将全部核的日志保存在备份存储装置126中的时间相比充分长的时间。
在S113中,WDT-1(120)将核数量的WDT例外通知至中断控制器119(图3的从120向119的箭头)。
在S171中,中断控制器119从WDT-1(120)输入全部核的数量的WDT例外通知,按循环法向各核的WDT例外处理程序通知WDT-1(120)的例外(图3的从119向113、114、115的箭头)。
接下来,参照图5,说明向核1(116)的例外通知后的动作(S120:日志备份处理)。
在S121中异常发生核(核1)的WDT例外处理程序113没有正常地动作,异常发生核的RAS处理部1(107)未被执行的情况下,无法由异常发生核的RAS处理部1(107)将异常发生核的日志保存到备份存储装置126(S122)。
在S121中异常发生核的WDT例外处理程序113正常地动作了的情况下,在S123中,WDT例外处理程序113向本核的RAS处理部1(107)通知异常(图3的从113向107的箭头)。
在S124中,RAS处理部1(107)判定是否开始了将异常发生核的日志拷贝到备份存储装置126,在拷贝未开始的情况下,在S125中将异常发生核的日志拷贝到备份存储装置(图3的从107向127、130的箭头)。
此处,能够使用存储器125上的标志、信号量(semaphore)等共享资源,来确认是否开始将各核的日志拷贝到备份存储装置126。
如上所述,由于中断控制器119按循环法向各核的WDT例外处理程序通知WDT例外的发生,所以有时相比于异常发生核(核1)的RAS处理部1(107),其它核的RAS处理更早开始异常发生核的日志的拷贝(图6的S135)。
因此,RAS处理部1(107)在S124中确认是否由其它核的RAS处理部开始了日志的拷贝。
接下来,RAS处理部1(107)在S126中,判断是否全部核的日志拷贝都完成了,在某个核中日志拷贝未完成的情况下,RAS处理部1(107)的处理完成。
另一方面,在S126中全部核的日志拷贝完成了的情况下,RAS处理部1(107)调出S102的板复位处理(在图3中是确认了核N的RAS处理部完成了全部拷贝的例子,为从109向124的箭头)。
此处,能够使用存储器125上的标志、信号量等共享资源,来确认全部核的日志拷贝是否完成了。
另外,关于图3的板复位装置124的板复位处理,在延迟装置123的延迟后也被调出,但在确认了所有RAS处理的完成的时间点进行板复位具有不等待延迟而相应地能够更快地进行板复位的效果。
接下来,参照图6,说明向核2(117)以及核N(118)的例外通知后的动作(S130:日志备份处理)。
以下,说明作为核2(117)的处理,但在核N(118)中也进行同样的处理。
在S131中,核2(117)的RAS处理部2(108)经由WDT驱动器111而将WDT-2(121)复位(图3的从108经由111向121的箭头)。
这是用于防止在进行基于WDT-1(120)的例外发生通知的接收的RAS处理的期间,发生异常发生核以外的WDT超时的处理。
接下来,在S132中,核2(117)的WDT例外处理程序114向核2(117)的RAS处理部2(108)通知异常(图3的从114向108的箭头)。
接下来,RAS处理部2(108)在S133中,将核2(117)的日志向备份存储装置126拷贝(图3的从108向128、131的箭头)。
接下来,RAS处理部2(108)在S134中确认是否开始了将异常发生核(核1)的日志向备份存储装置126拷贝,如果未开始,则在S135中将异常发生核的日志向备份存储装置126拷贝(核2的RAS处理部2(108)代替实施图3的从127向130的箭头)。
由此,异常发生核以外的RAS处理部能够代替地将异常发生核的日志向备份存储装置126拷贝。
接下来,在S136中,RAS处理部2(108)判断是否所有日志拷贝都完成,在某个核中日志拷贝未完成的情况下,RAS处理部2(108)的处理完成。
另一方面,在S136中全部核的日志拷贝都完成了的情况下,RAS处理部2(108)调出S102的板复位处理。
[实施方式1:效果]
如以上那样,向全部核的RAS处理部依次通知异常发生,各核的RAS处理部将本核的日志信息保存到备份存储装置中。
因此,异常发生核以外的其它核的日志信息也能够保存到备份存储装置中,能够对板整体的故障解析有用。
另外,即使在异常发生核的RAS处理部没有正常地动作的情况下,通过正常工作的其它核代替异常发生核的日志信息的保存,也能够将异常发生核的日志信息保存到备份存储装置中。
另外,在本实施方式中,由于WDT的设定、中断控制器的设定利用了现有的技术,所以能够简易并且廉价地实现本实施方式的构造。
实施方式2.
在以上的在实施方式1中,使1次的WDT例外发生全部核的数量,但在本实施方式中,说明存在管理程序,通过将1个核接收的WDT例外经由管理程序向其它核通知,从而向全部核进行WDT异常通知的例子。
另外,本实施方式中的管理程序是指面向嵌入式设备的管理程序,是在多核上同时执行多个OS,并且实现OS之间的协作和执行环境保护的软件。
图14示出2核CPU中的嵌入式管理程序的简单的框图。
如图14所示,管理程序1在核1中动作,进行核1和OS1的协作,管理程序2在核2中动作,进行核2和OS2的协作。
另外,在管理程序1与管理程序2之间也实现协作。
[实施方式2:结构的说明]
图7是示出本实施方式的CPU板200的结构例的框图。
CPU板200的硬件构成要素与在实施方式1中说明的部分相同,所以省略说明。
关于核216~218的软件构成要素,与实施方式1相同的名称的要素与在实施方式1中说明的部分相同,所以省略说明,仅说明与实施方式1不同的要素。
在各核与OS之间存在管理程序(管理程序整体是250、构成管理程序整体的各核上的管理程序是251~253)。
在各管理程序中,包括用于将由WDT例外处理程序接受的异常通知通知至其它管理程序的异常通知交换部254~256。
另外,也可以如在实施方式1中说明的那样,代替WDT220~222,使用具有进行定时器动作而通知CPU的异常发生的构造的外部WDT。
另外,也可以将管理程序替代为具有在各CPU之间交换异常通知的构造的其它手段。
[实施方式2:设定的说明]
对实施方式2中的中断控制器219的硬件设定进行说明。
中断控制器219被设定为如果输入了WDT例外发生通知,则通过多播对全部核通知WDT例外。
[实施方式2:动作的概要说明]
接下来,对动作进行说明。
在本实施方式中,通过多播,经由管理程序向全部核的RAS处理部通知异常发生,各核的RAS处理部将本核的日志保存到备份存储装置226中。
另外,在异常发生核的RAS处理部没有正常地动作的情况下,正常工作的其它核的RAS处理部代替地进行异常发生核的日志的保存。
本实施方式的动作的概要如以下所述。
i)如上述[实施方式2:结构的说明]所述,中断控制器219如果被通知了WDT例外的发生,则向各核通过多播同时进行通知异常。
ii)在核的上位存在管理程序。
对各核的WDT例外处理程序进行从上述中断控制器219向各核的异常通知。
WDT例外处理程序以先到先服务(first-come,first-served)的方式接受该异常通知。
最先接受到异常通知的WDT例外处理程序对自己的核的管理程序内的异常通知交换部通知异常。
异常通知交换部对其它核的管理程序内的异常通知交换部通知异常。
各核的管理程序内的异常通知交换部向该核的RAS处理部通知异常,各核的RAS处理部同时并行地开始处理执行。
iii)接收到异常通知的各核的RAS处理部将各自的核的日志保存到备份存储装置226中。
iv)接收到异常通知的各核的RAS处理部能够通过WDT例外的种类获知哪个核的WDT进行了异常通知。
异常发生核以外的核的RAS处理部判定是否开始了将异常发生核的日志向备份存储装置保存。
然后,在异常发生核的日志的保存未开始的情况下,异常发生核以外的核的RAS处理部进行将异常发生核的日志向备份存储装置的保存。
[实施方式2:动作的详细说明]
接下来,对本实施方式的动作的详情进行说明。
(动作的详细说明:正常时的动作)
首先,使用图8,说明正常时的动作。
核1(216)的周期处理APP-1(201)周期性地进行WDT复位。
周期处理APP-1(201)经由WDT驱动器210而使WDT-1(220)复位。
由于正常时在发生WDT超时之前进行WDT复位,所以不发生WDT例外。
在核2(217)、核N(218)中也进行同样的处理(202→211→221、203→212→222的箭头)。
(动作的详细说明:异常发生时的动作)
接下来,使用图10~图13的流程图,说明异常发生时的动作。
使用图9,补充此时的框图上的处理的流程。
此处,以在核1(216)中发生异常,在WDT-1(220)中发生WDT例外,最先接受来自中断控制器219的WDT例外的是核2(217)的例子进行说明。
在S211中,发生WDT超时。
在S212中,WDT-1(220)在延迟一定时间之后调出进行板复位的处理(图9的从220向223的箭头)。
在S201中延迟了一定时间之后,板复位处理S202被调出(图9的从223向224的箭头)。
该延迟时间设为与RAS处理部完成将全部核的日志在备份存储装置226保存的时间相比充分长的时间。
在S213中,WDT-1(220)将WDT例外通知至中断控制器219(图9的从220向219的箭头)。
在S271中,中断控制器219从WDT-1(220)接收WDT例外,通过多播向各核的WDT例外处理程序通知WDT-1(220)的例外(图9的从219向213、214、215的箭头)。
在本实施方式中,说明核2(217)最先接受到WDT例外的情况(因此图9的从219向214的箭头设为实线、从219向213的箭头和从219向215的箭头设为虚线)。
接下来,参照图11,说明核1(216)的动作(S220:日志备份处理)。
在S221中异常发生核(核1)的WDT例外处理程序213没有正常地动作、异常发生核的RAS处理部1(207)未被执行的情况下,无法由异常发生核的RAS处理部1(207)将异常发生核的日志向备份存储装置226保存(S222)。
在S221中异常发生核的WDT例外处理程序213正常地动作的情况下,在本例子中,在S223以及S224中,RAS处理部1(207)什么都不做。
在本例子中,因为核2(217)最先接受WDT例外,所以RAS处理部1(207)什么都不做。
以后,核1(216)在接收到来自最先接受到WDT例外的管理程序(在本例子中核2的管理程序)的异常通知之后动作(后述)。
接下来,参照图13,说明核N(218)的动作(S250:日志备份处理)。
在S251中,因为在本例子中核2最先接受WDT例外,所以RAS处理部N(209)什么都不做(S252)。
以后,核N(218)在接收到来自最先接受到WDT例外的管理程序(在本例子中核2的管理程序)的异常通知之后动作(后述)。
接下来,参照图12,说明最先接受到WDT例外的核2(217)的动作(S230:日志备份处理)。
在S231中,因为在本例中核2(217)的WDT例外处理程序214最先接受WDT例外,所以进入到S233,WDT例外处理程序214向本核的异常通知交换部255通知WDT-1(220)的异常(图9的从214向255的箭头)。
在S234中,异常通知交换部255向其它核的异常通知交换部254、256传达WDT-1(220)的例外发生(图9的从255向254、256的两个箭头)。
另外,接受到例外发生之后的核1和核N的动作在后叙述。
在S235中,RAS处理部2(208)将本核的WDT-2(221)复位(图9的从208经由211向221的箭头)。
这是用于防止在进行基于WDT-1(220)的例外发生通知的接收的RAS处理的期间发生异常发生核以外的WDT超时的处理。
接下来,在S236中,异常通知交换部255向本核的RAS处理部2(208)通知异常(图9的从255向208的箭头)。
接下来,在S237中,RAS处理部2(208)将本核的日志拷贝到备份存储装置226(图9的从208向227、230的箭头)。
接下来,RAS处理部2(208)在S238中确认是否开始了异常发生核的日志的拷贝,如果未开始,则在S239中将异常发生核的日志向备份存储装置226拷贝(核2的RAS处理部2(208)代替实施图9的从226向229的箭头)。
由此,异常发生核以外的RAS处理部能够代替地将异常发生核的日志向备份存储装置226拷贝。
接下来,在S240中,RAS处理部2(208)判断是否全部核的日志拷贝都完成,在某个核中日志拷贝未完成的情况下,RAS处理部2(208)的处理完成。
另一方面,在S240中全部核的日志拷贝都完成了的情况下,RAS处理部2(208)调出S202的板复位处理(图9是核N调出该处理的例子,从209向224的箭头)。
接下来,参照图11,说明通过图12的S234的处理通知了WDT-1(220)的异常的核1(216)的处理。
如果在S226中,核1的异常通知交换部254没有正常地动作,则异常发生核(核1)的RAS处理部1(207)不动作。
另一方面,如果异常通知交换部254正常地动作,则进行S227~S229以及S280的处理。
S227与S236相同,S228与S238相同,S229与S237相同,S280与S240相同。
因此,省略各步骤的说明。
另外,在核1(216)的WDT例外处理程序213最先取得了WDT例外的情况下,在S223中成为“是”,如S225所示,进行图12的S233以及S234的处理。
之后,进行S227以后的处理。
接下来,参照图13,说明通过图12的S234的处理被通知了WDT-1(220)的异常的核N(218)的处理。
在S254中,异常通知交换部256接受WDT-1(220)的异常通知。
以后,进行S255~S260的处理。
另外,S255~S260与图12的S235~S240相同。
因此,省略各步骤的说明。
另外,在核N(218)的WDT例外处理程序215最先取得了WDT例外的情况下,在S251中成为“是”,如S253所示,进行图12的S233以及S234的处理。
之后,进行S255以后的处理。
[实施方式2:效果]
在实施方式1的方式中,由于向各核依次通知异常,所以发生例外通知的延迟,与之相对,在实施方式2的方式中,向各核的异常通知同时进行,所以具有不会发生该延迟,能够尽快完成RAS处理部的同时并行处理的效果。
其以外的效果与实施方式1的效果相同。

Claims (3)

1.一种处理器系统,其特征在于,具有:
多个处理器单元;
第一存储装置,存储各处理器单元的日志信息;
第二存储装置,当在某个处理器单元中发生了异常的情况下,被写入在所述第一存储装置中存储的日志信息;以及
异常发生通知装置,当在某个处理器单元中发生了异常的情况下,按循环法将异常的发生通知至各处理器单元,
各处理器单元当在其它处理器单元中发生了异常的情况下,判定是否开始了将在所述第一存储装置中存储的、发生了异常的异常发生处理器单元的日志信息写入所述第二存储装置,当在未开始将所述异常发生处理器单元的日志信息写入所述第二存储装置的情况下,将在所述第一存储装置中存储的所述异常发生处理器单元的日志信息写入所述第二存储装置,
各处理器单元在被所述异常发生通知装置通知了异常的发生时,将在所述第一存储装置中存储的、本处理器单元的日志信息写入所述第二存储装置。
2.一种处理器系统,其特征在于,具有:
多个处理器单元;
第一存储装置,存储各处理器单元的日志信息;
第二存储装置,当在某个处理器单元中发生了异常的情况下,被写入在所述第一存储装置中存储的日志信息;以及
异常发生通知装置,当在某个处理器单元中发生了异常的情况下,通过多播将异常的发生通知至各处理器单元,
各处理器单元当在其它处理器单元中发生了异常的情况下,判定是否开始了将在所述第一存储装置中存储的、发生了异常的异常发生处理器单元的日志信息写入所述第二存储装置,当在未开始将所述异常发生处理器单元的日志信息写入所述第二存储装置的情况下,将在所述第一存储装置中存储的所述异常发生处理器单元的日志信息写入所述第二存储装置,
各处理器单元当在所述多个处理器单元中最先取得了来自所述异常发生通知装置的通知的情况下,将异常的发生通知至其它处理器单元,将在所述第一存储装置中存储的、本处理器单元的日志信息写入所述第二存储装置。
3.根据权利要求2所述的处理器系统,其特征在于,
各处理器单元在从其它处理器单元被通知了在某个处理器单元中发生了异常时,将本处理器单元的日志信息写入所述第二存储装置。
CN201280069607.4A 2012-02-13 2012-02-13 处理器系统 Expired - Fee Related CN104137077B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/053236 WO2013121502A1 (ja) 2012-02-13 2012-02-13 プロセッサシステム

Publications (2)

Publication Number Publication Date
CN104137077A CN104137077A (zh) 2014-11-05
CN104137077B true CN104137077B (zh) 2017-07-14

Family

ID=48983668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280069607.4A Expired - Fee Related CN104137077B (zh) 2012-02-13 2012-02-13 处理器系统

Country Status (7)

Country Link
US (1) US20150006978A1 (zh)
EP (1) EP2816480A4 (zh)
JP (1) JP5726340B2 (zh)
KR (1) KR101581608B1 (zh)
CN (1) CN104137077B (zh)
TW (1) TW201333686A (zh)
WO (1) WO2013121502A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014118940A1 (ja) * 2013-01-31 2014-08-07 三菱電機株式会社 計算機装置及び計算機装置の制御方法
JP6816345B2 (ja) * 2015-04-24 2021-01-20 富士電機株式会社 駆動制御装置
JP6049961B1 (ja) * 2015-06-16 2016-12-21 オリンパス株式会社 Cpu監視装置
US10585755B2 (en) * 2016-11-29 2020-03-10 Ricoh Company, Ltd. Electronic apparatus and method for restarting a central processing unit (CPU) in response to detecting an abnormality
US11150973B2 (en) * 2017-06-16 2021-10-19 Cisco Technology, Inc. Self diagnosing distributed appliance
JP6919597B2 (ja) * 2018-03-01 2021-08-18 オムロン株式会社 コンピュータおよびその制御方法
CN112527541A (zh) * 2019-09-19 2021-03-19 华为技术有限公司 一种确定多核处理器中故障计算核的方法及电子设备
CN110673976A (zh) * 2019-09-20 2020-01-10 Oppo广东移动通信有限公司 一种多核系统的异常检测方法、异常检测装置及电子设备
US11354182B1 (en) * 2019-12-10 2022-06-07 Cisco Technology, Inc. Internal watchdog two stage extension

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761739A (en) * 1993-06-08 1998-06-02 International Business Machines Corporation Methods and systems for creating a storage dump within a coupling facility of a multisystem enviroment
JP2821418B2 (ja) * 1996-04-24 1998-11-05 北海道日本電気ソフトウェア株式会社 マルチプロセッサシステムの障害情報記録方式
US5790772A (en) * 1996-04-30 1998-08-04 International Business Machines Corporation Communications method involving groups of processors of a distributed computing environment
JP2000181890A (ja) * 1998-12-15 2000-06-30 Fujitsu Ltd マルチプロセッサ交換機及びその主プロセッサ切替方法
JP2000311155A (ja) 1999-04-27 2000-11-07 Seiko Epson Corp マルチプロセッサシステム及び電子機器
WO2006082657A1 (ja) * 2005-02-07 2006-08-10 Fujitsu Limited マルチcpuコンピュータおよびシステム再起動方法
US7984341B2 (en) * 2008-02-25 2011-07-19 International Business Machines Corporation Method, system and computer program product involving error thresholds
CN101650674A (zh) * 2009-09-11 2010-02-17 杭州中天微系统有限公司 主处理器与协处理器接口之间的异常处理方法及实现装置
JP2011159136A (ja) * 2010-02-02 2011-08-18 Seiko Epson Corp 制御装置、制御装置の異常検出・復旧方法および電子機器
EP2592557A4 (en) * 2010-07-06 2014-03-26 Mitsubishi Electric Corp PROCESSOR AND PROGRAM

Also Published As

Publication number Publication date
US20150006978A1 (en) 2015-01-01
KR20140105034A (ko) 2014-08-29
JP5726340B2 (ja) 2015-05-27
EP2816480A1 (en) 2014-12-24
EP2816480A4 (en) 2016-05-04
TW201333686A (zh) 2013-08-16
CN104137077A (zh) 2014-11-05
WO2013121502A1 (ja) 2013-08-22
JPWO2013121502A1 (ja) 2015-05-11
KR101581608B1 (ko) 2015-12-30

Similar Documents

Publication Publication Date Title
CN104137077B (zh) 处理器系统
US11627041B2 (en) Dynamic reconfiguration of resilient logical modules in a software defined server
EP2306318B1 (en) Enhanced solid-state drive management in high availability and virtualization contexts
US10346215B2 (en) Replication of a virtualized computing environment to a computing system with offline hosts
US9798556B2 (en) Method, system, and apparatus for dynamic reconfiguration of resources
Scales et al. The design of a practical system for fault-tolerant virtual machines
CN100338555C (zh) 在逻辑分区的数据处理系统中降低功耗的方法和装置
US8788879B2 (en) Non-volatile memory for checkpoint storage
US8990617B2 (en) Fault-tolerant computer system, fault-tolerant computer system control method and recording medium storing control program for fault-tolerant computer system
US9389976B2 (en) Distributed persistent memory using asynchronous streaming of log records
US20160378344A1 (en) Processor and platform assisted nvdimm solution using standard dram and consolidated storage
Wang et al. Proactive process-level live migration and back migration in HPC environments
US9176834B2 (en) Tolerating failures using concurrency in a cluster
WO2015003877A2 (en) Speculative recovery using storage snapshot in a clustered database
JP5392594B2 (ja) 仮想計算機冗長化システム、コンピュータシステム、仮想計算機冗長化方法、及びプログラム
US10929234B2 (en) Application fault tolerance via battery-backed replication of volatile state
EP1839156A1 (en) Managing multiprocessor operations
US20220300384A1 (en) Enhanced fencing scheme for cluster systems without inherent hardware fencing
US20220171672A1 (en) Storage of machine check exceptions
WO2017078707A1 (en) Method and apparatus for recovering in-memory data processing system
JP2015064637A (ja) パス切替装置、パス切替方法及びパス切替プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170714

Termination date: 20200213