CN102971715B - 处理器装置以及程序 - Google Patents

处理器装置以及程序 Download PDF

Info

Publication number
CN102971715B
CN102971715B CN201080067910.1A CN201080067910A CN102971715B CN 102971715 B CN102971715 B CN 102971715B CN 201080067910 A CN201080067910 A CN 201080067910A CN 102971715 B CN102971715 B CN 102971715B
Authority
CN
China
Prior art keywords
memory dump
processor device
processor core
storage arrangement
implementation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201080067910.1A
Other languages
English (en)
Other versions
CN102971715A (zh
Inventor
摄津敦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN102971715A publication Critical patent/CN102971715A/zh
Application granted granted Critical
Publication of CN102971715B publication Critical patent/CN102971715B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1629Error detection by comparing the output of redundant processing systems
    • G06F11/165Error detection by comparing the output of redundant processing systems with continued operation after detection of the error
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant

Abstract

在处理器芯(2)的存储器转储实施部(35)将作为共用存储器的存储器装置(5)的数据保存到HDD装置(7)时发生了异常的情况下,存储器转储异常检测部(37)检测存储器转储异常,芯协作部(36)对处理器芯(1)的芯协作部(30)通知存储器转储异常,处理器芯(1)的存储器转储实施部(29)从芯协作部(30)被通知存储器转储实施部(35)的存储器转储异常,代替存储器转储实施部(35)而将存储器装置(5)的数据保存到HDD装置(7)。

Description

处理器装置以及程序
技术领域
本发明涉及处理器装置将存储器装置的数据保存到二次存储装置中的存储器转储技术。
背景技术
在计算机系统中一般利用如下方法:在发生故障时将存储器装置(以下,还简称为存储器)的内容保存到二次存储装置(将它称为存储器转储),灵活应用于故障原因的解析。
在以往的存储器转储方式中,一般是发生了故障的处理器装置(以下,还简称为处理器)自身保存到二次存储装置中,但在该情况下,在由发生了故障的处理器无法保存到二次存储装置的情况下,无法实施存储器转储。
作为解决这个问题的方法,例如有专利文献1记载的方法。 
在专利文献1的方法中,在故障发生处理器能够访问二次存储装置的情况下,故障发生处理器将故障处理程序载入共用存储器,并使用载入到共用存储器中的故障处理程序将固有存储器的内容保存到二次存储装置。
另一方面,在故障发生处理器无法访问二次存储装置的情况下,首先,从健全的处理器中选定特定的处理器作为支援处理器。
然后,支援处理器将故障处理程序载入共用存储器,故障发生处理器使用载入到共用存储器中的故障处理程序,将固有存储器的内容拷贝到共用存储器。
接下来,支援处理器将拷贝到共用存储器中的故障发生处理器的固有存储器的数据保存到二次存储装置。
专利文献1:日本特开平8-30565号公报
发明内容
在上述以往技术中,根据处理器装置信息中预先设定的构成信息,来决定故障发生处理器可否将固有存储器的内容保存到二次存储装置中。
并且,在成为故障发生处理器能够将固有存储器的内容保存到二次存储装置的设定的情况下,如果在故障发生处理器使用故障处理程序将固有存储器的内容保存到二次存储装置中的过程中故障处理程序变得异常,则无法向二次存储装置保存。
作为故障处理程序变得异常的情形,有如下情形:在故障处理程序被保持在共用存储器中的情况下,从其它代码向程序代码发生写入,代码成为非法(由于所谓的程序的缺陷(bug)而发生)。
进而,作为故障处理程序变得异常的情形,考虑如下情形:处理器具备将逻辑地址空间变换为物理地址空间的MMU(Memory Management Unit,存储器管理单元),在故障处理程序代码使用逻辑地址空间进行动作的情况下,从其它代码向用于对保存有故障信息(故障发生处理器的固有存储器的内容)的区域的逻辑地址空间进行访问的变换表格发生写入,逻辑地址空间设定成为非法。
在成为这样的情形的情况下,即使成为故障发生处理器能够将固有存储器的内容保存到二次存储装置的设定,由于在二次存储装置中保存固有存储器的内容的过程中成为异常,所以无法保存。
另外,在支援处理器将故障发生处理器的固有存储器的内容保存到二次存储装置的情形中,如果故障发生处理器在将固有存储器的内容保存到共用存储器的过程中成为异常,则也无法保存。
进而,在支援处理器从共用存储器将故障发生处理器的固有存储器的内容保存到二次存储装置的时候,当针对进行保存处理的程序、共用存储器的逻辑地址空间发生了上述那样的现象的情况下,也无法保存到二次存储装置。
本发明以解决上述那样的课题为主要的目的,其目的在于提供一 种如下构造:在多个处理器装置共用存储器装置的结构中,即使试运行存储器转储的处理器装置成为无法正常地进行存储器转储的状态,也能够通过其它处理器装置可靠地实施存储器转储。
本发明的处理器装置与进行存储器装置的存储器转储的其它处理器装置连接,并与所述其它处理器装置共用所述存储器装置,其特征在于,具有:
故障检测部,检测在所述其它处理器装置中未正常地进行存储器转储的情形;以及
存储器转储实施部,在由所述故障检测部检测到在所述其它处理器装置中未正常地进行存储器转储的情况下,代替所述其它处理器装置而进行所述存储器装置的存储器转储。
根据本发明,当故障检测部检测到在其它处理器装置中未正常地进行存储器转储的情况下,存储器转储实施部代替其它处理器装置而进行存储器装置的存储器转储,所以即使试运行存储器转储的处理器装置成为无法正常地进行存储器转储的状态,也能够可靠地实施存储器转储。
附图说明
图1是示出实施方式1的硬件结构例的图。
图2是示出实施方式1的软件结构例的图。
图3是示出实施方式1的发生故障时的动作例的图。
图4是示出实施方式1的发生故障时的动作例的图。
图5是示出实施方式1的发生故障时的动作例的流程图。
图6是示出实施方式1的发生故障时的动作例的流程图。
图7是示出实施方式2的硬件结构例的图。
图8是示出实施方式2的软件结构例的图。
图9是示出实施方式2的发生故障时的动作例的图。
图10是示出实施方式2的发生故障时的动作例的图。
图11是示出实施方式2的发生故障时的动作例的流程图。
图12是示出实施方式2的发生故障时的动作例的流程图。
图13是示出实施方式3的软件结构例的图。
图14是示出实施方式3的发生故障时的动作例的图。
图15是示出实施方式3的发生故障时的动作例的图。
图16是示出实施方式3的发生故障时的动作例的流程图。
图17是示出实施方式3的发生故障时的动作例的流程图。
图18是示出实施方式4的软件结构例的图。
图19是示出实施方式4的发生故障时的动作例的图。
图20是示出实施方式4的发生故障时的动作例的图。
图21是示出实施方式4的发生故障时的动作例的流程图。
图22是示出实施方式4的发生故障时的动作例的流程图。
图23是示出实施方式5的软件结构例的图。
图24是示出实施方式5的发生故障时的动作例的图。
图25是示出实施方式5的发生故障时的动作例的图。
图26是示出实施方式5的发生故障时的动作例的图。
图27是示出实施方式5的发生故障时的动作例的流程图。
图28是示出实施方式5的发生故障时的动作例的流程图。
图29是示出实施方式5的发生故障时的动作例的流程图。
(符号说明) 
1:处理器芯;2:处理器芯;3:处理器芯;4:总线;5:存储器装置;6:控制台装置;7:HDD装置;8:备份存储器装置;9:运算处理部;10:运算处理部;11:运算处理部;12:高速缓冲器;13:高速缓冲器;14:高速缓冲器;15:处理器芯间通信功能;16:处理器芯间通信功能;17:处理器芯间通信功能;18:MMU;19:MMU;20:MMU;21:OS;22:OS;23:OS;24:转储文件;25:文件信息储存区域;26:OS初始化部;27:存储器转储设定部;28:异常检测部;29:存储器转储实施部;30:芯协作部;31:存储器转储异常检测部;32:OS初始化部;33:存储器转储设定部;34:异常检测部;35:存储器转储实施部;36:芯协作部;37:存储器转储异常 检测部;44:OS21用区域;45:OS22用区域;46:OS23用区域;50:映射部;51:映射部;54:页面表格;55:页面表格;56:页面表格;60:监视部;61:应答部;63:计数器;64:计数器;70:映射区域;71:映射区域;72:映射区域;80:监视部;81:监视部;83:计数器;84:计数器;85:计数器;290:存储器转储实施部;300:芯协作部;350:存储器转储实施部;360:芯协作部;410:存储器转储实施部;420:芯协作部。
具体实施方式
实施方式1.
在本实施方式中,说明多个处理器芯共用存储器的硬件结构中的存储器转储方式。
更具体而言,本实施方式涉及如下情况的存储器转储方式:在多个操作系统以及应用程序在各处理器芯上动作的结构中,1个处理器芯中发生故障,由在该处理器芯上动作的OS向二次存储装置保存存储器内容的过程中,在该处理器芯中发生了异常。
并且,在本实施方式中说明如下的存储器转储方式:在实施存储器转储的处理器芯中检测异常,检测出异常的处理器芯对其它处理器芯指示存储器转储,其它处理器芯将存储器内容保存到二次存储装置,从而即使在存储器转储处理中发生了故障,也能够可靠地实施存储器转储。
以下,使用附图,说明实施方式1的存储器转储方式。
图1示出本实施方式的存储器转储方式中的硬件(H/W)结构例。
在图中,1、2、3是进行运算处理的处理器芯,相互通过总线4而结合。
各处理器芯是处理器装置的例子。
另外,通过总线4而结合了处理器芯1、处理器芯2、处理器芯3、与存储器装置5、控制台装置6、硬盘装置(以下,还记载为HDD装置)7以及备份存储器装置8。
存储器装置5保持操作系统(以下,还记载为OS)的代码和数据、应用程序(以下,还记载为AP)的代码和数据、以及堆/栈。
如上所述,处理器芯1、处理器芯2、处理器芯3共用存储器装置5。
控制台装置6输出来自OS、AP的消息。
硬盘装置7在存储器转储时储存存储器装置5的内容。
备份存储器装置8保持着HDD装置7上存在的用于将存储器装置5的内容进行保存的文件的信息。
在处理器芯1、处理器芯2、处理器芯3中,分别存在进行运算处理的运算处理部9(处理器芯1)、10(处理器芯2)、11(处理器芯3)、临时保持存储器装置5的内容以及运算处理部的处理结果的高速缓冲器12(处理器芯1)、13(处理器芯2)、14(处理器芯3)、以及用于在各处理器芯之间进行通信的处理器芯间通信功能15(处理器芯1)、16(处理器芯2)、17(处理器芯3)。
关于处理器芯间通信功能,利用如下方法等:对处理器芯通知中断的方法;希望通信的处理器芯经由存储器装置5对通信目的地处理器芯所参照的存储器区域附加标记、且通信目的地处理器芯参照该标记从而掌握通知的方法。
在本实施方式中,图示了3个处理器芯,但无需一定是3个,既可以是2个处理器芯,也可以是4个以上的处理器芯,动作本身没有变更。
图2是示出相对图1所示的H/W结构的软件(S/W)的结构例的图。
在图中,操作系统(OS)21在处理器芯1中动作。
同样地,OS22在处理器芯2中动作,OS23在处理器芯3中动作。
另外,在HDD装置7中,存在用于保存存储器装置5的内容的存储区域即转储文件24,在备份存储器装置8中存在文件信息储存区域25,该文件信息储存区域25储存有转储文件24在HDD装置7内 的位置信息等。
在处理器芯1的OS21中存在:OS初始化部26,在处理器芯1的复位时动作,进行OS21自身的初始化;存储器转储设定部27(还记载为转储设定部27),对文件信息储存区域25设定转储文件24的信息;异常检测部28,在OS21的动作中执行非法命令或者发生了向非法地址的访问从而OS21无法再动作时,检测其异常。
另外,在OS21中存在存储器转储实施部29(还记载为转储实施部29),该存储器转储实施部29根据来自异常检测部28的指示,基于文件信息储存区域25中存在的转储文件信息,将存储器装置5的内容写入到转储文件24。
如后所述,存储器转储实施部29当检测到在其它处理器芯(例如,处理器芯2)中没有正常地进行存储器转储的情况下,代替其它处理器芯而进行存储器装置5的存储器转储。
而且,在OS21中存在:芯协作部30,用于进行处理器芯间的通信;以及存储器转储异常检测部31(还记载为转储异常检测部31),在存储器转储实施部29的处理中发生了异常的情况下,检测其异常。
在处理器芯2的OS22中,作为同样的单元,也存在OS初始化部32、存储器转储设定部33(还记载为转储设定部33)、异常检测部34、存储器转储实施部35(以下,还记载为转储实施部35)、芯协作部36、存储器转储异常检测部37(还记载为转储异常检测部37)。
另外,在图2中,虽然省略了图示,但在处理器芯3的OS23中,作为同样的单元,也存在OS初始化部、存储器转储设定部、异常检测部、存储器转储实施部、芯协作部、存储器转储异常检测部。
在提及OS23中的各要素的情况下,记载为OS初始化部38、存储器转储设定部39、异常检测部40、存储器转储实施部41、芯协作部42、存储器转储异常检测部43。
另外,芯协作部30、芯协作部36以及芯协作部42分别相当于故障检测部、存储器转储完成通知部以及存储器转储要求部的例子。
另外,存储器转储异常检测部31、存储器转储异常检测部37以 及存储器转储异常检测部43相当于存储器转储要求部的例子。
如后所述,在处理器芯2试运行存储器转储的情形中,存储器转储异常检测部37监视存储器转储实施部35的存储器转储的实施状况。
然后,当存储器转储异常检测部37检测到在存储器转储实施部35中未正常地进行存储器转储的情况下,芯协作部36例如对处理器芯1的芯协作部30进行要求,使得代替存储器转储实施部35而实施存储器装置5的存储器转储。
另外,芯协作部30从芯协作部36接收存储器转储的要求、即在处理器芯2中未正常地进行存储器转储的意思的通知,检测在处理器芯2中未正常地进行存储器转储的情况。
另外,在处理器芯1的存储器转储实施部29中存储器转储正常地完成了的情况下,芯协作部30对芯协作部36通知存储器转储正常地完成的情况。
在处理器芯1、处理器芯2、处理器芯3上动作的OS21、OS22、OS23的执行代码和数据、以及在各OS上动作的应用程序(AP)存在于存储器装置5内。
为此,在存储器装置5中,存在OS21利用的OS21用区域44、OS22利用的OS22用区域、以及OS23利用的OS23用区域。
关于各OS用区域,如果代码、数据重叠,则OS无法动作,所以相互独立地(以不同的物理地址)配置于存储器装置5内。
另外,各OS内的要素也存在于各OS用区域,OS21的存储器转储实施部29、芯协作部30等的代码、数据作为OS21用区域44的存储器转储实施部290(还记载为转储实施部290)、芯协作部300等而存在,同样地OS22的各要素以及OS23的各要素也分别存在于OS22用区域45、OS23用区域46。
在OS22用区域45中,存储器转储实施部35、芯协作部36等的代码、数据也作为存储器转储实施部350(还记载为转储实施部350)、芯协作部360等而存在。
而且,在OS23用区域46中,存储器转储实施部41、芯协作部 42等的代码、数据也作为存储器转储实施部410(还记载为转储实施部410)、芯协作部420等而存在。
接下来,使用图3、图4内的箭头以及图5、图6的流程图,说明本实施方式中的存储器转储方式的发生故障时的动作例。
另外,在图3、图4中,根据作图上的理由,省略了处理器芯3、存储器装置5内的OS23用区域46、控制台装置6的图示。
在图3~图6中,说明在处理器芯2上动作的OS22中发生故障、并且OS22的存储器转储实施部35在存储器装置5上的代码/数据即OS22用区域45内的存储器转储实施部350的数据被破坏了时的例子。
首先,如果在OS22动作中发生了故障,则OS22的异常检测部34检测其异常(图5的S101)。
在该异常检测中,有由于资源不足而由OS22单独检测为异常的情况、由于非法地址访问、非法命令执行而在处理器芯2上发生例外从而检测为异常的情况。
如果由异常检测部34检测到这些异常,则异常检测部34在进行了异常的原因确定等处理之后,对存储器转储实施部35发出存储器转储的指示(图3以及图5的S102)。
接收到存储器转储指示的存储器转储实施部35以使异常检测部34不会再次检测出存储器转储实施中发生的处理器芯2的例外(因为如果检测出则会再次发生存储器转储指示)的方式,以在发生了例外的情况下使存储器转储异常检测部37进行检测的方式设定了处理器芯2之后,从备份存储器装置8内存在的文件信息储存区域25取得HDD装置7内存在的转储文件24的位置信息(图3以及图5的S103)。
接下来,存储器转储实施部35根据所取得的位置信息,向HDD装置7内的转储文件24写入存储器装置5的内容(图3以及图5的S104)。
此处,如果存储器装置5的OS22用区域45内的存储器转储实施部350的数据未被破坏,则不会妨碍存储器转储实施部35的动作, 所以存储器转储实施部35的存储器转储处理正常地结束。
但是,在存储器装置5的OS22用区域45的存储器转储实施部350的数据被破坏了的情况下,存储器转储实施部35的动作变得不稳定,由于非法命令执行、非法访问而在处理器芯2上发生例外。
在该情况下,由于存储器转储实施部35的动作已经成为非法,所以即使再次使存储器转储实施部35动作,也无法正常地进行存储器转储动作。
存储器转储异常检测部37对存储器转储实施部35的存储器转储的实施状况进行监视,所以由存储器转储异常检测部37检测出在处理器芯2上发生了例外的情况(图3以及图5的S105)。
如果检测到异常,则存储器转储异常检测部37对芯协作部36指示向其它处理器芯进行通知(包括存储器转储的实施要求的通知)(图3以及图5的S106)。
从存储器转储异常检测部37接收到指示的芯协作部36选择应发送通知的处理器芯。
此处,芯协作部36对处理器芯1进行通知(图3以及图5的S107)。
关于处理器芯的选择,有预先决定特定的处理器芯的方法、将各处理器芯的负荷状况记录到存储器装置5内而选择负荷最低的处理器芯等的方法。
另外,关于向处理器芯进行的通知,采用利用处理器芯间中断的方法、通过向存储器装置5内的共同区域进行读写而取得同步的方法。
在本实施方式中,通过这样的方法,处理器芯2的芯协作部36选择处理器芯1,并向处理器芯1进行通知。
处理器芯1的芯协作部30接收该通知(图6的S108)。
处理器芯1的芯协作部30如果接收到来自处理器芯2的芯协作部36的通知,则对存储器转储实施部29指示存储器转储(图4以及图6的S109)。
存储器转储实施部29从备份存储器装置8内存在的文件信息储存区域25取得HDD装置7内存在的转储文件24的位置信息(图4以及图6的S110),并根据所取得的位置信息,对HDD装置7内的转储文件24写入存储器装置5的内容(图4以及图6的S111)。
虽然存储器装置5内的OS22用区域45内的存储器转储实施部350的数据被破坏,但不妨碍存储器装置5内的OS21用区域44的存储器转储实施部290的动作,所以存储器转储实施部29的存储器转储正常地结束。
在存储器转储实施部29中,如果存储器转储结束,则对芯协作部30进行存储器转储结束的通知(图4以及图6的S112)。
芯协作部30对作为通知源的处理器芯2进行处理完成的通知(图4以及图6的S113)。
处理器芯2的芯协作部36接收该通知(图5的S114)。
处理器芯2的芯协作部36如果接收到来自处理器芯1的芯协作部30的通知,则对存储器转储异常检测部37进行处理完成的通知(图4以及图5的S115)。
接收到该通知后,存储器转储异常检测部37对异常检测部34进行处理完成的通知(图4以及图5的S116)。
由于存储器内容被保存,接收到通知的异常检测部34使装置停止或者重起动(图4以及图5的S117)。
以上是本实施方式中的存储器转储方式的发生故障时的动作。
如以上那样,在实施方式1的存储器转储方式中,1个处理器芯发生故障,由在该处理器芯上动作的OS向二次存储装置保存存储器内容的过程中,在存储器转储实施部内发生了异常时,对其它处理器芯指示存储器转储,在其它处理器芯上实施存储器转储。
因此,即使在存储器转储处理中发生了故障,也能够可靠地实施存储器转储。
另外,也可以通过处理器芯1的存储器转储实施部29的处理,与处理器芯2的存储器转储实施部35实施的处理同样地,以使存储器转储异常检测部31检测处理器芯1的例外的方式对处理器芯1进行设定,在处理器芯1的存储器转储实施部29的处理中发生了异常时,进而对其它处理器芯(例如,处理器芯3)指示存储器转储。
这样,能够更可靠地实施存储器转储。
另外,在本实施方式中,在由处理器芯1的存储器转储实施部29实施的存储器转储处理结束之后,经由芯协作部30对处理器芯2的异常检测部34通知处理完成,由处理器芯2的异常检测部34实施装置的停止或者重起动。
对此,存储器转储实施部29对处理器芯1的异常检测部28通知处理完成,由异常检测部28进行装置的停止或者重起动,从而也能够得到同样的存储器转储方式。
另外,在本实施方式中,关于存储器转储实施部35的处理内的异常,由存储器转储异常检测部37检测处理器芯2的例外发生,由此检测异常。
对此,并非发生例外,而是存储器转储实施部35检测到所利用的数据是非法时,即使对存储器转储异常检测部37通知异常,也能够得到同样的存储器转储方式。
另外,在本实施方式中,关于存储器转储实施部35的处理内的异常,由OS22内的存储器转储异常检测部37检测处理器芯2的例外发生,由此检测异常。
对此,利用H/W的虚拟化支援功能,在OS22无法动作那样的状态(例如,双重错误)下,通过虚拟化支援功能,使与OS22不同的功能(虚拟化支援代码)动作,在其中,进行向处理器芯1的存储器转储指示,从而也能够得到同样的存储器转储方式。
另外,与虚拟化支援功能不同地,使处理器芯的例外发生转移到以往在处理器芯中具备的系统管理模式(System Management Mode:SMM),在以SMM模式进行动作的代码内,进行向处理器芯1的存储器转储指示,从而也能够得到同样的存储器转储方式。
即,对存储器转储实施部35的处理内的异常进行检测的部分不限于OS22(处理器芯2),而也可以是包括OS21(处理器芯1)、OS23(处理器芯3)的其它构造。
另外,在本实施方式中,由存储器转储异常检测部37检测存储器转储实施部35的处理内的异常。
对此,异常检测部34在异常检测时判断是否为存储器转储实施中,如果不是存储器转储实施中,则对存储器转储实施部35进行存储器转储指示,如果是存储器转储实施中,则对芯协作部36指示向其它处理器芯的通知,从而不需要存储器转储异常检测部37而能够得到同样的存储器转储方式。
作为异常检测部34判断是否是存储器转储实施中的方法,能够通过判断在异常检测时执行的代码位置是否在存储器转储实施部35的代码内,或在存储器转储实施部35开始存储器转储时对存储器装置5内的特定的区域进行标记并由异常检测部34读取该标记,从而进行判断。
另外,在本实施方式中,使处理器芯1、2、3上的OS具有同样的功能,但仅在1个处理器芯中具备芯协作部以及存储器转储实施部而设为存储器转储专用,在其它OS的存储器转储中发生了异常的情况下,对存储器转储专用的处理器芯进行通知,从而也能够得到同样的存储器转储方式。
另外,在处理器芯2的存储器转储实施部35实施存储器转储的过程中存储器转储实施部350破损了的情况下,在破损时存储器装置5的一部分数据已经保存于HDD装置7。
但是,处理器芯1的存储器转储实施部29无法确认通过存储器转储实施部35将哪个数据保存到HDD装置7,所以与存储器转储实施部35中的存储器转储的进展状况无关地,从最初起重做存储器转储。
以上,在本实施方式中,说明了在多个操作系统(OS)在具备多个处理器芯、各处理器芯共用的存储器、以及保存发生故障时的存储器内容的二次存储装置的硬件上进行动作的结构中包括以下的构成要素的存储器转储方式。
(1)在各处理器芯上的OS中具有以下的构成要素。
(a)在发生故障时将存储器内容保存到二次存储装置中的单元
(b)对在保存到二次存储装置的期间发生的异常进行检测的单元
(c)从上述(b)的单元调用并对其它处理器芯进行通知的单元
(d)接收来自其它处理器芯的通知并调用上述(a)的单元的单元
实施方式2.
在本实施方式中说明如下结构下的存储器转储方式:具备持有多个处理器芯以及将逻辑地址空间变换为物理地址空间的MMU的硬件结构,在其上多个操作系统(OS)以及应用程序(AP)进行动作。
更具体而言,在本实施方式的存储器转储方式中,设置存储器转储处理专用处理器芯,除了存储器转储处理专用处理器芯以外,仅能够将各自使用的存储器区域作为逻辑地址空间来参照,存储器转储处理专用处理器芯能够将所有存储器作为逻辑地址空间来参照。
并且,在本实施方式的存储器转储方式中,1个处理器芯发生故障,在该处理器芯上动作的OS内将存储器内容保存到二次存储装置的过程中,在存储器转储处理中发生了异常的情况下,在由实施存储器转储的处理器芯检测到异常之后,检测到异常的处理器芯对存储器转储处理专用处理器芯指示存储器转储,存储器转储处理专用处理器芯在二次存储装置中保存存储器内容。
根据本实施方式的存储器转储方式,除了存储器转储处理专用处理器芯以外,仅能够将各自使用的存储器区域作为逻辑地址空间来参照,所以存储器转储处理专用处理器芯上的存储器转储处理用的代码不会被其它处理器芯破坏,能够可靠地实施存储器转储。
图7示出本实施方式的存储器转储方式中的硬件(H/W)结构例。
在图7中,除了MMU(Memory Management Unit)18、19、20以外,与图1所示的要素相同。
此处,省略MMU18、19、20以外的要素的说明。
MMU18、19、20具有将逻辑地址变换为存储器装置5的物理地址的功能,处理器芯1、2、3用于将存储器装置5作为地址空间而在逻辑上进行分割。
各处理器芯上的OS通过使用该MMU,能够将存储器装置5的一部分用作该OS专用的存储器,使其它处理器芯的OS无法参照。 
在本实施方式中,虽然图示了3个处理器芯,但无需是3个,既可以是2个处理器芯,也可以是4个以上的处理器芯,动作本身没有变更。
图8是示出相对图1所示的H/W结构的软件(S/W)的结构例的图。
在图8中,根据作图上的理由,省略控制台装置6的图示,并且,省略了处理器芯3的OS23的内部结构的图示。
另外,处理器芯3的OS23的内部结构与处理器芯2的OS22相同。
即,OS23如对图2进行说明那样,具备OS初始化部38、存储器转储设定部39、异常检测部40、存储器转储实施部41、芯协作部42、存储器转储异常检测部43、以及后述的映射部52。
另外,在图8中,虽然省略了记述,但在本实施方式中,芯协作部30、芯协作部36以及芯协作部42也分别相当于故障检测部、存储器转储完成通知部以及存储器转储要求部的例子,存储器转储异常检测部37以及存储器转储异常检测部43相当于存储器转储要求部的例子。
在实施方式2中,处理器芯1的OS21与其它处理器芯的OS不同,成为如下结构:具有专用地处理存储器转储的功能,不具有存储器转储设定部、异常检测部、存储器转储异常检测部。
另外,在各OS中具备映射部(在OS21中具备映射部50,在OS22中具备映射部51,在OS23中具备映射部52(未图示)),该映射部使用处理器芯的MMU(图7的MMU18(处理器芯1)、MMU19(处理器芯2)、MMU20(处理器芯3))而用于在逻辑地址空间上 将存储器装置5设为能够参照(映射)。
映射部50、51、52指定各自的OS可访问的存储器装置5的物理地址空间。
如后所述,OS22、OS23在存储器转储时以外被设定与存储器装置5的一部分物理地址空间对应的逻辑地址空间,仅能够访问一部分物理地址空间。
另一方面,在存储器转储时,映射部51、52对各个OS设定以存储器装置5内的所有物理地址为对象的逻辑地址,设为存储器转储实施部35、41能够访问存储器装置5内的所有物理地址的状态。
映射部51、52是访问控制部的例子。
另外,在存储器装置5中具备页面表格,该页面表格是用于由各处理器芯的MMU对逻辑地址空间和物理地址空间进行变换的表格。
通过映射部50设定处理器芯1的MMU18使其参照OS21用区域44内存在的页面表格54。
在页面表格54内设定的逻辑地址空间和物理地址空间的变换信息被设定为能够参照储存有OS21的各要素的代码(存储器转储实施部290、芯协作部300等)以及页面表格54的OS21用区域44、即存储器装置5整体。
由此,在处理器芯1中,能够参照存储器装置5整体。
另外,通过映射部51设定处理器芯2的MMU19使其参照OS22用区域45内存在的页面表格55。
在页面表格55内设定的逻辑地址空间和物理地址空间的变换信息被设定为仅能够参照储存有OS22的各要素的代码(存储器转储实施部350、芯协作部360等)以及页面表格55的OS22用区域45。
由此,在处理器芯2中,仅能够参照OS22用区域45,无法参照OS21用区域44的存储器转储实施部290、OS23用区域46。
这样,防止由于处理器芯2内的处理而使OS21用的区域、OS23用的区域被破坏数据。
同样地,通过映射部52设定处理器芯3的MMU20使其参照OS 23用区域46内存在的页面表格56。
在页面表格56内设定的逻辑地址空间和物理地址空间的变换信息被设定为仅能够参照储存有OS23的各要素的代码(存储器转储实施部410、芯协作部420等)以及页面表格56的OS23用区域46。
由此,在处理器芯3中,仅能够参照OS23用区域46,无法参照OS21用区域44的存储器转储实施部290、OS22用区域45。
这样,防止由于处理器芯3内的处理而使OS21用的区域、OS22用的区域被破坏数据。
接下来,使用图9、图10内的箭头以及图11、图12的流程图,说明本实施方式中的存储器转储方式的发生故障时的动作例。
另外,在图9、图10中,根据作图上的理由,省略了处理器芯3、存储器装置5内的OS23用区域46、控制台装置6的图示。
在图9~图12中,以在处理器芯2上动作的OS22中发生故障、并且OS22的存储器转储实施部35的存储器装置5上的代码/数据即OS22用区域45内的存储器转储实施部350的数据被破坏了的情况为例子进行说明。
首先,如果在OS22动作中发生故障,则OS22的异常检测部34检测其异常(图11的S201)。
如果由异常检测部34检测到异常,则异常检测部34在进行了异常的原因确定等处理之后,对存储器转储实施部35发出存储器转储的指示(图9以及图11的S202)。
接收到存储器转储指示的存储器转储实施部35以不使异常检测部34再次检测存储器转储实施中发生的处理器芯2的例外的方式,以在发生了例外的情况下使存储器转储异常检测部37进行检测的方式设定了处理器芯2之后,从备份存储器装置8内存在的文件信息储存区域25取得HDD装置7内存在的转储文件24的位置信息(图9以及图11的S203)。
接下来,存储器转储实施部35根据所取得的位置信息,进行向HDD装置7内的转储文件24写入存储器装置5的内容的处理。
在处理器芯2中,MMU19使用存储器装置5的OS22用区域45内存在的页面表格55而进行动作,所以OS22的存储器转储实施部35仅能够访问存储器装置5的OS22用区域45。
因此,如以下那样进行写入存储器装置5的内容的处理。
首先,存储器转储实施部35检查存储器装置5的物理地址空间的开头页面(以一定的尺寸(一般是4K字节)对地址空间进行划分而得到的区域)是否存在于OS22用区域45内(图11的S204)。
这根据参照页面表格55并在处理器芯2的逻辑地址空间中是否包含期望的物理地址而进行判断。
在期望的物理地址未包含于OS22用区域45的情况下(在图11的S204中“否”),存储器转储实施部35对映射部51进行指示,使得在处理器芯2的逻辑地址空间上(映射区域57)能够参照物理地址空间(图9以及图11的S205)。
映射部51设定MMU19使用的页面表格55,使得在处理器芯2的逻辑地址空间能够参照物理地址空间。
在期望的物理地址包含于OS22用区域45的情况下(在图11的S204中“是”),由于在逻辑地址空间上已经能够参照物理地址,所以不对映射部51发出指示。
在向OS22用区域的映射(图9以及图11的S205)完成、或者已经能够参照(在图11的S204中“是”)的情况下,接下来存储器转储实施部35向转储文件24写入与物理地址空间的开头页面对应的逻辑地址空间的页面(图9以及图11的S206)。
然后,在未发生异常(在图11的S207中“否”)的情况下,在物理地址空间的接下来的页面中进行S204至S206的处理。
此处,如果存储器装置5的OS22用区域45内的存储器转储实施部350的数据未被破坏,则不会妨碍存储器转储实施部35的动作,所以在物理地址空间内的存储器装置5的内容全部被储存到转储文件24中的时候,存储器转储实施部35的存储器转储处理正常地结束。
但是,在存储器装置5的OS22用区域45的存储器转储实施部 350的数据被破坏了的情况下,存储器转储实施部35的动作成为异常(在图11的S207中“是”),由于非法命令执行、非法访问而在处理器芯2上发生例外。
在该情况下,存储器转储实施部35的动作已经成为非法,所以即使使存储器转储实施部35再次动作,也无法使存储器转储正常地动作。
由存储器转储异常检测部37检测出在处理器芯2上发生了例外的情况(图9以及图11的S208)。
如果检测到异常,则存储器转储异常检测部37对芯协作部36指示向其它处理器芯进行通知(包括存储器转储的实施要求的通知)(图9以及图11的S209)。
从存储器转储异常检测部37接收到指示的芯协作部36选择应发送的处理器芯。
在本实施方式中,使处理器芯1发挥专用地处理存储器转储的功能,所以芯协作部36对处理器芯1进行发送(图9以及图11的S210)。
处理器芯1的芯协作部30接收该通知(图12的S211)。
处理器芯1的芯协作部30如果接收到来自处理器芯2的芯协作部36的通知,则对存储器转储实施部29指示存储器转储(图10以及图12的S212)。
存储器转储实施部29从备份存储器装置8内存在的文件信息储存区域25取得HDD装置7内存在的转储文件24的位置信息(图10以及图12的S213),根据所取得的位置信息,向HDD装置7内的转储文件24写入存储器装置5的内容(图10以及图12的S214)。
虽然存储器装置5内的OS22用区域45内的存储器转储实施部350的数据被破坏,但不妨碍存储器装置5内的OS21用区域44的存储器转储实施部290的动作,所以存储器转储实施部29的存储器转储正常地结束。
另外,根据OS21用区域44的页面表格54,在处理器芯1中,存储器装置5能够参照所有逻辑地址空间,无需调用映射部50。
在存储器转储实施部29中,如果存储器转储结束,则对芯协作部30进行存储器转储结束的通知(图10以及图12的S215)。
芯协作部30对作为通知源的处理器芯2进行处理完成的通知(图10以及图12的S216)。
处理器芯2的芯协作部36接收该通知(图11的S217)。
处理器芯2的芯协作部36如果接收到来自处理器芯1的芯协作部30的通知,则对存储器转储异常检测部37进行处理完成的通知(图10以及图11的S218)。
接收到该通知后,存储器转储异常检测部37对异常检测部34进行处理完成的通知(图10以及图11的S219)。
由于存储器内容被保存,接收到通知的异常检测部34使装置停止或者重起动(图10以及图11的S220)。
以上是本实施方式中的存储器转储方式的发生故障时的动作。
在实施方式2的存储器转储方式中,利用将逻辑地址空间变换为物理地址空间的MMU,使各处理器芯在逻辑地址空间进行动作,进行通常的动作的处理器芯只能够参照该处理器芯动作的OS可利用的特定的存储器区域,仅有专用地进行存储器转储的处理器芯能够参照存储器整体。
另外,在实施方式2的存储器转储方式中,1个处理器芯发生故障,由在该处理器芯上动作的OS向二次存储装置保存存储器内容的过程中,在存储器转储实施部内发生了异常时,在由实施存储器转储的处理器芯检测到异常之后,检测到异常的处理器芯对存储器转储处理专用处理器芯指示存储器转储,通过存储器转储处理专用处理器芯上的存储器转储实施部,在二次存储装置中保存存储器内容。
因此,在实施方式2的存储器转储方式中,即使在存储器转储处理中发生了故障,也能够可靠地实施存储器转储。
另外,在本实施方式中,进行通常的动作的处理器芯只能够参照该处理器芯动作的OS可利用的特定的存储器区域,仅有专用地进行存储器转储的处理器芯能够参照存储器整体,所以即使在进行通常的 动作的处理器芯中发生了破坏存储器内的数据那样的异常状态,也不会对在专用地进行存储器转储的处理器芯上动作的代码造成影响。
以上,在本实施方式中,说明了各处理器芯具备能够分割存储器而将各存储器作为不同的地址空间进行管理的MMU(Memory Management Unit)、并包括以下的构成要素的存储器转储方式。
(1)在1个处理器芯上的OS中具有以下的构成要素
(a)使用MMU而将存储器整体设为可访问的单元
(2)在上述(1)以外的处理器芯上的OS中具有以下的构成要素
(a)使用MMU而仅将存储器的特定的区域设为可访问的单元
(b)在发生故障时,将其它存储器的内容设为可访问的单元
(c)在二次存储装置中保存的期间发生了异常的情况下对上述(1)的处理器芯进行通知的单元
实施方式3.
在本实施方式的存储器转储方式中,存储器转储处理专用处理器芯定期地监视其它处理器芯的状态,在检测到异常的情况下,存储器转储处理专用处理器芯自身使检测到异常的处理器芯停止,实施存储器转储。
根据本实施方式的存储器转储方式,即使在发生了故障的处理器芯自身由于意外停机(hang up)等而无法动作的情况下,也能够可靠地实施存储器转储。
在实施方式3中,H/W结构与实施方式2相同,示出在图7中。
图13是示出相对图7所示的H/W结构的软件(S/W)的结构例的图。
在实施方式3中,在处理器芯1的OS21中,存在用于对处理器芯2的OS22以及处理器芯3的OS23的动作状况进行监视的监视部60。
监视部60监视后述的计数器的计数器值。在其它处理器芯正常地动作的期间,以规定的周期来更新该计数器值。
然后,监视部60在计数器值的更新停止了的情况下,判断为在其它处理器芯中发生了故障。
另外,在处理器芯2的OS22中,存在表示OS22无问题地动作的应答部61,在处理器芯3的OS23中也存在同样的应答部62(未图示)。
另外,在存储器装置5中,存在为了表示OS22进行动作而由应答部61更新计数器值的计数器63、和为了表示OS23进行动作而由应答部62更新计数器值的计数器64。
即,应答部61在OS22正常地动作的期间以规定的周期来更新计数器63的计数器值,在监视部60中示出处理器芯2正常地动作的情况。
同样地,应答部62在OS23正常地动作的期间以规定的周期来更新计数器64的计数器值,在监视部60中示出处理器芯3正常地动作的情况。
应答部61、62是计数器值更新部的例子。
另外,在实施方式3中,由处理器芯2以及处理器芯3的异常检测部检测到异常时的动作与实施方式2相同,如图9、图10的箭头以及图11、图12的流程图所示。
接下来,说明本实施方式中的存储器转储方式的发生故障时的动作例。
具体而言,使用图14、图15内的箭头以及图16、图17的流程图,说明处理器芯意外停机、即突然陷入无法动作的状态的情形下的动作例。
另外,在图14、图15中,根据作图上的理由,省略了处理器芯3、存储器装置5内的OS23用区域46、控制台装置6的图示。
在图14~图17中,说明处理器芯2意外停机的情况的例子。
首先,说明处理器芯2以及处理器芯3无问题地动作的状态下的处理器芯2以及处理器芯3的动作。
在处理器芯2无问题地动作的情况下,在图16的S301中处理器芯2的OS22实施通常的动作。
然后,检查是否经过一定时间(图16的S302)。
也可以根据监视OS内部时刻的更新状况、或由于时刻变化而发生的中断,起动该检查。
在S302中,在未经过一定时间的情况下(在图16的S302中“否”),返回S301而继续通常的动作。
在S302中经过了一定时间的情况下(在图16的S302中“是”),在OS22中应答部61进行动作,使存储器装置5的OS22用区域45存在的计数器63加1(图14以及图16的S303)。
由此,每隔一定时间对计数器63进行加法运算,监视部60通过观察计数器63,能够确认OS22进行动作。
在S303中对计数器63进行了加法运算之后,OS22返S301而继续通常的动作。
以上是处理器芯2的动作。
另外,处理器芯3中的动作与图14以及图16所示的处理器芯2的动作(S301~S303)相同,省略说明。
接下来,说明处理器芯1的动作。
在处理器芯1中,首先,OS21的监视部60检查经过了一定时间的情况(图17的S310)。
在未经过一定时间的情况下(在S310中“否”),还不需要进行处理器芯2以及处理器芯3的检查,所以返回到最初。
在S310中经过了一定时间的情况下(在S310中“是”),检查计数器63以及计数器64(图14以及图17的S311)。
在图14中,仅图示了监视部60检查OS22用区域45的计数器63的情况,但监视部60还同时检查OS23用区域46的计数器64。
此处,在经过一定时间时计数器63以及计数器64的值被正确地更新(递增计数)的情况下(在图17的S311中“是”),判断为处理器芯2以及处理器芯3正常地动作,返回到最初。
在处理器芯2无法动作的情况下,在OS22的应答部61中不实施计数器63的更新,所以通过监视部60在S311中进行的计数器63的更新检查,监视部60判断为OS22无法动作即发生了异常(在S312中“否”)。
由此,监视部60对存储器转储实施部29指示存储器转储(图14以及图17的S313)。
存储器转储实施部29根据来自监视部60的指示,从备份存储器装置8内存在的文件信息储存区域25取得HDD装置7内存在的转储文件24的位置信息(图15以及图17的S314),根据所取得的位置信息,向HDD装置7内的转储文件24写入存储器装置5的内容(图15以及图17的S315)。
处理器芯2虽然无法动作但不会妨碍存储器装置5内的OS21用区域44的存储器转储实施部290的动作,所以存储器转储实施部29的存储器转储正常地结束。
另外,根据OS21用区域44的页面表格54,在处理器芯1中,存储器装置5能够参照所有逻辑地址空间,无需调用映射部50。
在存储器转储实施部29中,如果存储器转储结束,则对监视部60进行存储器转储结束的通知(图15以及图17的S316)。
由于存储器内容被保存,接收到通知的监视部60使装置停止或者重起动(图15以及图17的S317)。
以上是本实施方式中的存储器转储方式的发生故障时的动作。
在实施方式3的存储器转储方式中,在进行通常的动作的处理器芯中,设置每隔一定时间对存储器内的数据进行更新的单元,在专用地进行存储器转储的处理器芯中,设置每隔一定时间参照该数据、并在数据未被更新的情况下对存储器转储的实施进行指示的单元。
因此,在本实施方式的存储器转储方式中,在进行通常的动作的处理器芯中在H/W上成为意外停机状态,并在OS的异常探测部无法动作的状态下,也能够可靠地实施存储器转储。
另外,在本实施方式中,通过定期地更新存储器内的数据,来判断进行通常的动作的处理器芯是否正常地动作。
对此,使用处理器芯间通信,进行通常的动作的处理器芯定期地使进行存储器转储的处理器芯发生通知中断,进行存储器转储的处理器芯在未出现定期的中断的情况下,判断为未正常地动作,实施存储器转储,从而也能够得到同样的存储器转储方式。
以上,在本实施方式中,说明了在各处理器芯中包括以下的构成要素的存储器转储方式。
(1)在实施方式2记载的专用地处理存储器转储的处理器芯上的OS中具有以下的构成要素。
(a)在检查下述(2)(a)并在一定时间内值未被更新的情况下将存储器内容保存到二次存储装置的单元
(2)在上述(1)的处理器芯以外的处理器芯上的OS中具有以下的构成要素。
(a)存储器内的、自身可访问的区域中存在的计数器
(b)在存储器转储中每隔一定时间对计数器进行更新的单元
实施方式4.
在本实施方式中,说明如下结构下的存储器转储方式:具备持有多个处理器芯以及将逻辑地址空间变换为物理地址空间的MMU的硬件结构,在其上多个操作系统(OS)以及应用程序(AP)进行动作。
更具体而言,在本实施方式的存储器转储方式中,各处理器芯仅能够将各自使用的存储器区域作为逻辑地址空间来参照,1个处理器芯发生故障,在该处理器芯上动作的OS内在二次存储装置中保存存储器内容的过程中,在存储器转储处理中发生了异常的情况下,在由实施存储器转储的处理器芯检测到异常之后,检测到异常的处理器芯对其它处理器芯指示存储器转储,在使其它处理器芯上的OS能够将所有存储器作为逻辑地址空间进行参照之后,实施存储器转储。
根据本实施方式的存储器转储方式,不用具有存储器转储处理专用处理器芯,就能够可靠地实施存储器转储。
在实施方式4中,H/W结构与实施方式2相同,如图7所示。
图18是示出相对图7所示的H/W结构的软件(S/W)的结构例 的图。
在实施方式4中,与实施方式2不同,处理器芯1不是专用地处理存储器转储的结构。
因此,在处理器芯1的OS21中,与实施方式1同样地具备存储器转储设定部27、异常检测部28、存储器转储异常检测部31。
处理器芯2的OS22以及处理器芯3的OS23的结构与实施方式2相同。
另外,存储器装置5的结构也与实施方式2不同,设定为如下:OS21用区域44不表示存储器装置5整体,处理器芯1的MMU18使用的页面表格54与OS22用区域45、OS23用区域46不重复,而仅能够参照OS21用区域44。
即,在本实施方式中,对处理器芯1分配以存储器装置5的一部分物理地址为对象的逻辑地址,在存储器转储时以外,处理器芯1使用MMU18,仅能够访问以所分配的逻辑地址为对象的一部分物理地址。
另外,在存储器装置5内的各OS用区域中,具有用于在各OS内的区域(逻辑地址空间)中参照OS用区域外的存储器区域的区域。
在OS21用区域44中具备映射区域70,在OS22用区域45中具备映射区域71,在OS23用区域46中具备映射区域72。
另外,在本实施方式中,存储器转储实施部29、35、41还是计数器值更新部的例子。
另外,在本实施方式中,除了映射部51、52以外,映射部50也成为访问控制部的例子。
接下来,使用图19、图20内的箭头以及图21、图22的流程图,说明本实施方式中的存储器转储方式的发生故障时的动作。
另外,在图19、图20中,根据作图上的理由,省略了处理器芯3、存储器装置5内的OS23用区域46、控制台装置6的图示。
在图19~图22中,以在处理器芯2上动作的OS22中发生故障、并且OS22的存储器转储实施部35在存储器装置5上的代码/数据即 OS22用区域45内的存储器转储实施部350的数据被破坏了的情况为例子进行说明。
首先,如果在OS22动作中发生故障,则OS22的异常检测部34检测其异常(图21的S401)。
如果由异常检测部34检测到异常,则异常检测部34在进行了异常的原因确定等处理之后,对存储器转储实施部35发出存储器转储的指示(图19以及图21的S402)。
接收到存储器转储指示的存储器转储实施部35以不使异常检测部34再次检测存储器转储实施中发生的处理器芯2的例外的方式,以在发生了例外的情况下使存储器转储异常检测部37进行检测的方式设定了处理器芯2之后,从备份存储器装置8内存在的文件信息储存区域25取得HDD装置7内存在的转储文件24的位置信息(图19以及图21的S403)。
接下来,存储器转储实施部35根据所取得的位置信息,进行向HDD装置7内的转储文件24写入存储器装置5的内容的处理。
在处理器芯2中,MMU19使用存储器装置5的OS22用区域45内存在的页面表格55进行动作,所以OS22的存储器转储实施部35仅能够访问存储器装置5的OS22用区域45。
因此,如以下那样进行写入存储器装置5的内容的处理。
首先,存储器转储实施部35检查存储器装置5的物理地址空间的开头页面(以一定的尺寸(一般是4K字节)对地址空间进行划分而得到的区域)是否存在于OS22用区域45内(图21的S404)。
这根据参照页面表格55并在处理器芯2的逻辑地址空间中是否包含有期望的物理地址而进行判断。
在OS22用区域45中没有包含期望的物理地址的情况下(在图21的S404中“否”),存储器转储实施部35对映射部51进行指示,使得在处理器芯2的逻辑地址空间上(映射区域71)能够参照物理地址空间(图19以及图21的S405)。
映射部51设定MMU19所使用的页面表格55,使得在处理器芯 2的逻辑地址空间能够参照物理地址空间。
另外,在图19中,示出了在映射区域71中设定了开头页面以及OS21用区域44的例子,但如果针对其它区域也反复进行同样的处理,则能够参照存储器装置5的全部区域。
在期望的物理地址包含于OS22用区域45的情况下(在图21的S404中“是”),在逻辑地址空间上已经能够参照物理地址,所以不会对映射部51发出指示。
在向OS22用区域45的映射(图19以及图21的S405)完成、或者已经能够参照(在图21的S404中“是”)的情况下,接下来存储器转储实施部35将与物理地址空间的开头页面对应的逻辑地址空间的页面写入到转储文件24(图19以及图21的S406)。
然后,在未发生异常(在图21的S407中“否”)的情况下,在物理地址空间的接下来的页面中进行S404至S406的处理。
此处,如果存储器装置5的OS22用区域45内的存储器转储实施部350的数据未被破坏,则不会妨碍存储器转储实施部35的动作,所以在物理地址空间内的存储器装置5的内容全部被储存到转储文件24中的时候,存储器转储实施部35的存储器转储处理正常地结束。
但是,在存储器装置5的OS22用区域45的存储器转储实施部350的数据被破坏了的情况下,存储器转储实施部35的动作成为异常(在图21的S407中“是”),由于非法命令执行、非法访问而在处理器芯2上发生例外。
在该情况下,存储器转储实施部35的动作已经成为非法,所以即使使存储器转储实施部35再次动作,也无法使存储器转储正常地动作。
由存储器转储异常检测部37检测出在处理器芯2上发生了例外的情况(图19以及图21的S408)。
如果检测到异常,则存储器转储异常检测部37对芯协作部36指示向其它处理器芯的通知(包括存储器转储的实施要求的通知)(图19以及图21的S409)。
从存储器转储异常检测部37接收到指示的芯协作部36选择应发送的处理器芯。
在本实施方式中对处理器芯1进行发送(图19以及图21的S410)。
关于处理器芯的选择,与实施方式1同样地有预先决定特定的处理器芯的方法、或将各处理器芯的负荷状况记录到存储器装置5内并选择负荷最低的处理器芯等方法。
在本实施方式中,通过这样的方法,处理器芯2的芯协作部36选择处理器芯1,对处理器芯1进行通知的发送(图19以及图21的S410)。
处理器芯1的芯协作部30接收该通知(图22的S411)。
处理器芯1的芯协作部30如果接收到来自处理器芯2的芯协作部36的通知,则对存储器转储实施部29指示存储器转储(图20以及图22的S412)。
存储器转储实施部29从备份存储器装置8内存在的文件信息储存区域25取得HDD装置7内存在的转储文件24的位置信息(图20以及图22的S413),根据所取得的位置信息,进行向HDD装置7内的转储文件24写入存储器装置5的内容的处理。
在处理器芯1中,MMU18使用存储器装置5的OS21用区域44内存在的页面表格54进行动作,所以OS21的存储器转储实施部29仅能够访问存储器装置5的OS21用区域44。
因此,如以下那样进行写入存储器装置5的内容的处理。
首先,存储器转储实施部29检查存储器装置5的物理地址空间的开头页面(以一定的尺寸(一般是4K字节)对地址空间进行划分而得到的区域)是否存在于OS21用区域44内(图22的S414)。
这根据参照页面表格54并在处理器芯1的逻辑地址空间中是否包括期望的物理地址而进行判断。
在期望的物理地址没有包含在OS21用区域44中的情况下(在图22的S414中“否”),存储器转储实施部29对映射部50进行指示, 使得在处理器芯1的逻辑地址空间上(映射区域70)能够参照物理地址空间(图20以及图22的S415)。
映射部50设定MMU18所使用的页面表格54,使得在处理器芯1的逻辑地址空间能够参照物理地址空间。
另外,在图20中,示出了在映射区域70中设定了开头页面以及OS22用区域45的例子,但如果对其它区域也反复进行同样的处理,则能够参照存储器装置5的全部区域。
在期望的物理地址包含于OS21用区域44的情况下(在图22的S414中“是”),在逻辑地址空间上已经能够参照物理地址,所以不会对映射部50发出指示。
在向OS21用区域44的映射(图20以及图22的S415)完成、或者已经能够参照(在图22的S414中“是”)的情况下,接下来存储器转储实施部29将与物理地址空间的开头页面对应的逻辑地址空间的页面写入到转储文件24(图20以及图22的S416)。
然后,检查是否对存储器装置5的所有区域进行了存储器转储(图22的S417),在未对所有区域进行的情况下(在图22的S417中“否”),在物理地址空间的接下来的页面中进行S414至S416的处理。
虽然存储器装置5内的OS22用区域45内的存储器转储实施部350的数据被破坏,但不会妨碍存储器装置5内的OS21用区域44的存储器转储实施部290的动作,所以存储器转储实施部29的存储器转储正常地结束。
存储器转储实施部29如果对存储器装置5的所有区域结束了存储器转储(在图22的S417中“是”),则对芯协作部30进行存储器转储结束的通知(图20以及图22的S418)。
芯协作部30对作为通知源的处理器芯2进行处理完成的通知(图20以及图22的S419)。
处理器芯2的芯协作部36接收该通知(图21的S420)。
处理器芯2的芯协作部36如果接收到来自处理器芯1的芯协作部30的通知,则对存储器转储异常检测部37进行处理完成的通知(图 20以及图21的S421)。
接收到该通知后,存储器转储异常检测部37对异常检测部34进行处理完成的通知(图20以及图21的S422)。
由于存储器内容被保存,接收到通知的异常检测部34使装置停止或者重起动(图20以及图21的S423)。
以上是本实施方式中的存储器转储方式的发生故障时的动作。
在实施方式4的存储器转储方式中,利用将逻辑地址空间变换为物理地址空间的MMU,使各处理器芯在逻辑地址空间中动作,使得仅能够参照该处理器芯动作的OS可利用的特定的存储器区域。
另外,在实施方式4的存储器转储方式中,1个处理器芯发生故障,由在该处理器芯上动作的OS向二次存储装置保存存储器内容的过程中,在存储器转储实施部内发生了异常时,在由实施存储器转储的处理器芯检测到异常之后,检测到异常的处理器芯对其它处理器芯指示存储器转储,接收到指示的处理器芯上的存储器转储实施部在该处理器芯动作的逻辑地址空间中设定页面表格使得能够参照该处理器芯无法参照的存储器区域,在二次存储装置中保存存储器内容。
因此,在实施方式4的存储器转储方式中,即使在存储器转储处理中发生了故障,也无需专用地处理存储器转储的处理器芯,而能够可靠地实施存储器转储。
以上,在本实施方式中,说明了各处理器芯具备能够分割存储器而将各存储器作为不同的地址空间进行管理的MMU(Memory Management Unit)、并包括以下的构成要素的存储器转储方式。
(1)在各处理器芯上的OS中具有以下的构成要素。
(a)使用MMU而仅能够访问存储器的特定的区域的单元
(b)在发生故障时使其它存储器的内容成为可访问的单元。
实施方式5.
在本实施方式的存储器转储方式中,在某处理器芯中进行存储器转储处理时发生了异常时,发生了故障的处理器芯对其它处理器芯指示存储器转储,发生了故障的处理器芯监视其它处理器芯的存储器转 储,在一定时间内存储器转储处理未结束的情况下,使该其它处理器芯停止,对另1个其它处理器芯指示存储器转储。
在实施方式5中,H/W结构与实施方式1相同,如图1所示。
图23是示出相对图1所示的H/W结构的软件(S/W)的结构例的图。
在实施方式5中,为了监视由其它处理器芯实施的存储器转储处理,在OS21中具备监视部80,在OS22中具备监视部81,在OS23中具备监视部82(未图示)。
另外,在存储器装置5中,作为表示在各处理器芯中的存储器转储处理中存储器转储继续进行动作的计数器,在OS21用区域44中具备计数器83,在OS22用区域45中具备计数器84,在OS23用区域中具备计数器85。
其以外的结构与实施方式1相同。
另外,在本实施方式中,芯协作部30、芯协作部36以及芯协作部42也分别相当于故障检测部、存储器转储完成通知部以及存储器转储要求部的例子。
另外,在本实施方式中,存储器转储异常检测部31、存储器转储异常检测部37以及存储器转储异常检测部43也相当于存储器转储要求部的例子。
接下来,使用图24、图25、图26的箭头以及图27、图28、图29的流程图,说明本实施方式中的存储器转储方式的发生故障时的动作。
另外,在图24、图25、图26中,根据作图上的理由,省略了处理器芯3、存储器装置5内的OS23用区域46、控制台装置6的图示。
在图24~图29中,说明在处理器芯2上动作的OS22中发生故障、并且OS22的存储器转储实施部35在存储器装置5上的代码/数据即OS22用区域45内的存储器转储实施部350的数据被破坏了时的例子。
首先,如果在OS22动作中发生故障,则OS22的异常检测部 34检测其异常(图27的S501)。
异常检测部34在进行了异常的原因确定等处理之后,对存储器转储实施部35发出存储器转储的指示(图24以及图27的S502)。
接收到存储器转储指示的存储器转储实施部35以使异常检测部34不会再次检测存储器转储实施中发生的处理器芯2的例外(因为如果检测则会再次发生存储器转储指示)的方式,以在发生了例外的情况下使存储器转储异常检测部37进行检测的方式设定了处理器芯2之后,从备份存储器装置8内存在的文件信息储存区域25取得HDD装置7内存在的转储文件24的位置信息(图24以及图27的S503)。
接下来,存储器转储实施部35根据所取得的位置信息,向HDD装置7内的转储文件24写入存储器装置5的内容(图24以及图27的S504)。
此处,如果存储器装置5的OS22用区域45内的存储器转储实施部350的数据未被破坏,则不会妨碍存储器转储实施部35的动作,所以存储器转储实施部35的存储器转储处理正常地结束。
但是,在存储器装置5的OS22用区域45的存储器转储实施部350的数据被破坏了的情况下,存储器转储实施部35的动作变得不稳定,由于非法命令执行、非法访问而在处理器芯2上发生例外。
由存储器转储异常检测部37检测在处理器芯2上发生了例外的情况(图24以及图27的S505)。
如果检测到异常,则存储器转储异常检测部37对芯协作部36指示向其它处理器芯的通知(包括存储器转储的实施要求的通知)(图24以及图27的S506)。
从存储器转储异常检测部37接收到指示的芯协作部36选择应发送的处理器芯。
在本实施方式中,对处理器芯1进行通知的发送(图24以及图27的S507)。
处理器芯2的芯协作部36选择处理器芯1,并向处理器芯1进行通知。 
处理器芯1的芯协作部30接收该通知(图29的S508)。
处理器芯1的芯协作部30如果接收到来自处理器芯2的芯协作部36的通知,则对存储器转储实施部29指示存储器转储(图25以及图28的S509)。
存储器转储实施部29从备份存储器装置8内存在的文件信息储存区域25取得HDD装置7内存在的转储文件24的位置信息(图25以及图28的S510),根据所取得的位置信息,向HDD装置7内的转储文件24写入存储器装置5的内容。
如以下那样进行该处理。
首先,存储器转储实施部29从存储器装置5的开头将1个页面量(4KB)保存到转储文件24(图25以及图28的S511)。
然后,存储器转储实施部29对存储器装置5中存在的OS21用区域44的计数器83相加1(图25以及图28的S512)。
接下来,存储器转储实施部29检查是否对存储器装置5的所有区域结束了存储器转储(图29的S513)。
在尚未对所有区域结束存储器转储的情况下(在图29的S513中“否”),对存储器装置5的接下来的页面进行存储器转储(图25以及图28的S511),对计数器83再次相加1(图25以及图28的S512)。
对存储器装置5整体实施这个处理。
在对存储器装置5的所有区域结束了存储器转储的情况下(在图29的S513中“是”),处理器芯1结束处理。
虽然存储器装置5内的OS22用区域45内的存储器转储实施部350的数据被破坏,但不会妨碍存储器装置5内的OS21用区域44的存储器转储实施部290的动作,所以存储器转储实施部29的存储器转储正常地结束。
在S507中,如果处理器芯2的芯协作部36进行向处理器芯1的通知,则处理器芯2的存储器转储异常检测部37对监视部81通知监视的开始(图26以及图28的S514)。
接收到通知的监视部81首先检查是否经过了一定时间(图28的 S515)。
如果未经过一定时间(在S515中“否”),则监视部81直至经过时间为止进行等待。
在S515中判明经过了一定时间的情况下(在S515中“是”),监视部81检查处理器芯1的存储器转储实施部29是否参照在S512中更新的存储器装置5的OS21用区域44内存在的计数器83并更新了值(图26以及图28的S516)。
每当通过处理器芯1的存储器转储实施部29实施了1个页面量的存储器转储时,对计数器83的内容相加1,所以只要不妨碍存储器转储实施部29的动作,则每当监视部81参照计数器时值被更新。
在被更新了的情况下(在S516中“是”),监视部81根据计数器83的值,检查存储器转储是否结束(图28的S517)。
在处理器芯1的存储器转储实施部29中,针对每1个页面(4KB)对计数器83相加1,所以在存储器装置5整体中实施了存储器转储时的计数器值能够通过下式计算出来,
计数器83的值=存储器安装量÷4KB,
在计数器83成为该值时,能够判断为对存储器装置5整体结束了存储器转储。
针对存储器装置5整体,在存储器转储尚未结束的情况下(在S517中“否”),返回到S515,再次等待一定时间(S515),检查计数器83的值是否被更新(S516)。
在S517中,计数器83的值成为表示针对存储器装置5整体实施了存储器转储的值时,监视部81对存储器转储异常检测部37进行处理完成的通知(图26以及图28的S518)。
接收到通知的存储器转储异常检测部37对异常检测部34进行处理完成的通知(图26以及图28的S519)。
由于存储器内容被保存,接收到通知的异常检测部34使装置停止或者重起动(图26以及图28的S520)。
在S516中,计数器83的值未被更新的情况下(在S516中“否”), 监视部81对存储器转储异常检测部37进行表示存储器转储处理异常的通知(图26的S522)。
存储器转储异常检测部37将异常信息保存到备份存储器装置8内等,在进行了异常的记录之后,进行处理器芯1的停止(图28的S521)。
这通过使用芯协作部36进行与通常的处理器芯间通信不同的系统的通知,从而能够判断在处理器芯1中出现停止指示的情况。
存储器转储异常检测部37基于此而判断为无法正常地进行处理器芯1的存储器转储,返回到S506,对其它处理器芯(处理器芯3)经由芯协作部36而进行存储器转储指示。
由此,通过处理器芯3的存储器转储实施部41实施存储器转储。以上是本实施方式中的存储器转储方式的发生故障时的动作。
在实施方式5的存储器转储方式中,在各处理器芯上,设置对其它处理器芯的存储器转储处理进行监视的监视部,并且设置在各处理器芯中的存储器转储处理中表示存储器转储处理正常地动作的计数器,监视部每隔一定时间参照该计数器,在值未被更新的情况下,判断为异常,对其它处理器芯实施存储器转储。
因此,能够得到如下的存储器转储方式:在某处理器芯中的存储器转储处理中发生异常并由其它处理器芯实施了存储器转储时,即使成为在其它处理器芯的存储器转储处理中陷入意外停机那样的状态的状况,也能够可靠地实施存储器转储。
以上,在本实施方式中,说明了在各处理器芯中包括以下的构成要素的存储器转储方式。
(1)在各处理器芯上的OS中具有以下的构成要素。
(a)存储器内存在的计数器
(b)在存储器转储中每隔一定时间对计数器进行更新的单元
(c)在二次存储装置中保存的期间发生异常而对其它处理器芯通知了存储器转储之后检查计数器值,在一定时间内值未被更新的情况下对其它处理器芯通知存储器转储的单元。

Claims (14)

1.一种处理器装置,与进行存储器装置的存储器转储的其它处理器装置连接,并与所述其它处理器装置共用所述存储器装置,其特征在于,具有:
故障检测部,检测在所述其它处理器装置中未正常地进行存储器转储的情形;
存储器转储实施部,在由所述故障检测部检测到在所述其它处理器装置中未正常地进行存储器转储的情况下,代替所述其它处理器装置而进行所述存储器装置的存储器转储;以及
存储器转储要求部,该存储器转储要求部监视由所述存储器转储实施部实施的存储器转储的实施状况,当检测到在所述存储器转储实施部中未正常地进行存储器转储的情况下,对由所述故障检测部检测到未正常地进行存储器转储的处理器装置以外的其它处理器装置进行要求使得代替所述存储器转储实施部而实施所述存储器装置的存储器转储。
2.根据权利要求1所述的处理器装置,其特征在于,
所述故障检测部从所述其它处理器装置接收未正常地进行存储器转储的意思的通知,检测在所述其它处理器装置中未正常地进行存储器转储的情形。
3.根据权利要求1所述的处理器装置,其特征在于,
所述处理器装置还具有监视部,该监视部在所述其它处理器装置正常地动作的期间监视由所述其它处理器装置以规定的周期更新的计数器值,在所述计数器值的更新停止了的情况下,判断为所述其它处理器装置未正常地动作,对所述存储器转储实施部指示进行所述存储器装置的存储器转储,
所述存储器转储实施部根据来自所述监视部的指示,进行所述存储器装置的存储器转储。
4.根据权利要求1所述的处理器装置,其特征在于,
所述处理器装置还具有存储器转储完成通知部,该存储器转储完成通知部在由所述存储器转储实施部实施的存储器转储正常地完成了的情况下,向所述其它处理器装置通知由所述存储器转储实施部实施的存储器转储正常地完成。
5.根据权利要求1所述的处理器装置,其特征在于,
所述处理器装置与将逻辑地址变换为所述存储器装置的物理地址的MMU连接,被分配以所述存储器装置内的一部分物理地址为对象的逻辑地址,在存储器转储时以外,连接到使用所述MMU仅能够对以所分配的逻辑地址为对象的一部分物理地址进行访问的其它处理器装置。
6.根据权利要求1所述的处理器装置,其特征在于,
所述处理器装置与将逻辑地址变换为所述存储器装置的物理地址的MMU连接,被分配以所述存储器装置内的所有物理地址为对象的逻辑地址,
所述存储器转储实施部使用所述MMU,访问所述存储器装置内的所有物理地址而进行存储器转储。
7.根据权利要求1所述的处理器装置,其特征在于,
所述处理器装置与将逻辑地址变换为所述存储器装置的物理地址的MMU连接,被分配以所述存储器装置内的一部分物理地址为对象的逻辑地址,在存储器转储时以外,使用所述MMU,仅能够访问以所分配的逻辑地址为对象的一部分物理地址,
所述处理器装置还具有访问控制部,该访问控制部在存储器转储时,设定以所述存储器装置内的所有物理地址为对象的逻辑地址,设为所述存储器转储实施部能够访问所述存储器装置内的所有物理地址的状态,
所述存储器转储实施部使用所述MMU,访问所述存储器装置内的所有物理地址而进行存储器转储。
8.根据权利要求1所述的处理器装置,其特征在于,
所述处理器装置与分别共用所述存储器装置并进行所述存储器装置的存储器转储的2个以上的其它处理器装置连接。
9.根据权利要求1所述的处理器装置,其特征在于,
所述处理器装置与分别共用所述存储器装置并进行所述存储器装置的存储器转储的2个以上的其它处理器装置连接,
所述处理器装置还具有计数器值更新部,该计数器值更新部在由所述存储器转储实施部正常地进行存储器转储的期间,以规定的周期更新由至少某一个其它处理器装置监视更新状况的计数器值。
10.一种处理器装置,与其它处理器装置连接,并与所述其它处理器装置共用存储器装置,其特征在于,具有:
存储器转储实施部,在规定的情况下,进行所述存储器装置的存储器转储;以及
存储器转储要求部,监视由所述存储器转储实施部实施的存储器转储的实施状况,当检测到在所述存储器转储实施部中未正常地进行存储器转储的情况下,对所述其它处理器装置进行要求使得代替所述存储器转储实施部而实施所述存储器装置的存储器转储。
11.根据权利要求10所述的处理器装置,其特征在于,
所述处理器装置还具有计数器值更新部,该计数器值更新部以规定的周期更新由所述其它处理器装置监视更新状况的计数器值。
12.根据权利要求10所述的处理器装置,其特征在于,
所述处理器装置还具有监视部,该监视部在所述存储器转储要求部对所述其它处理器装置要求实施存储器转储之后,在所述其它处理器装置中正常地进行存储器转储的期间,监视由所述其它处理器装置以规定的周期更新的计数器值,在所述计数器值的更新停止了的情况下,判断为在所述其它处理器装置中未正常地进行存储器转储。
13.根据权利要求12所述的处理器装置,其特征在于,
所述处理器装置与分别共用所述存储器装置并进行所述存储器装置的存储器转储的2个以上的其它处理器装置连接,
所述存储器转储要求部在由所述监视部判断为在要求实施存储器转储的处理器装置中未正常地进行存储器转储的情况下,对由所述监视部判断为未正常地进行存储器转储的处理器装置以外的其它处理器装置要求实施所述存储器装置的存储器转储。
14.根据权利要求10所述的处理器装置,其特征在于,
所述处理器装置与将逻辑地址变换为所述存储器装置的物理地址的MMU连接,被分配以所述存储器装置内的一部分物理地址为对象的逻辑地址,在存储器转储时以外,使用所述MMU,仅能够访问以所分配的逻辑地址为对象的一部分物理地址,
所述处理器装置还具有访问控制部,该访问控制部在存储器转储时,设定以所述存储器装置内的所有物理地址为对象的逻辑地址,设为所述存储器转储实施部能够访问所述存储器装置内的所有物理地址的状态,
所述存储器转储实施部使用所述MMU,访问所述存储器装置内的所有物理地址而进行存储器转储。
CN201080067910.1A 2010-07-06 2010-07-06 处理器装置以及程序 Expired - Fee Related CN102971715B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/061436 WO2012004854A1 (ja) 2010-07-06 2010-07-06 プロセッサ装置及びプログラム

Publications (2)

Publication Number Publication Date
CN102971715A CN102971715A (zh) 2013-03-13
CN102971715B true CN102971715B (zh) 2015-07-08

Family

ID=45440856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080067910.1A Expired - Fee Related CN102971715B (zh) 2010-07-06 2010-07-06 处理器装置以及程序

Country Status (5)

Country Link
US (1) US8583960B2 (zh)
EP (1) EP2592557A4 (zh)
JP (1) JP5225515B2 (zh)
CN (1) CN102971715B (zh)
WO (1) WO2012004854A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012143978A1 (ja) * 2011-04-22 2012-10-26 富士通株式会社 情報処理装置及び情報処理装置の処理方法
CN104137077B (zh) * 2012-02-13 2017-07-14 三菱电机株式会社 处理器系统
JP6035909B2 (ja) * 2012-06-29 2016-11-30 富士通株式会社 ストレージシステムおよびストレージシステムの制御方法
JP6035908B2 (ja) * 2012-06-29 2016-11-30 富士通株式会社 ストレージシステム
JP6133614B2 (ja) * 2013-02-12 2017-05-24 Necプラットフォームズ株式会社 障害ログ採取装置、障害ログ採取方法、及び、障害ログ採取プログラム
US9417947B1 (en) * 2013-03-15 2016-08-16 Twitter, Inc. System and method for robust storage of error event information
WO2014204437A2 (en) * 2013-06-18 2014-12-24 Empire Technology Development Llc Tracking core-level instruction set capabilities in a chip multiprocessor
TWI625622B (zh) * 2013-10-31 2018-06-01 聯想企業解決方案(新加坡)有限公司 在多核心處理器系統與運作多核心處理器系統的電腦實施方法
JP6221702B2 (ja) * 2013-12-05 2017-11-01 富士通株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
US9740551B2 (en) 2014-12-02 2017-08-22 International Business Machines Corporation Enhanced restart of a core dumping application
US10216562B2 (en) * 2016-02-23 2019-02-26 International Business Machines Corporation Generating diagnostic data
US9690508B1 (en) * 2016-09-27 2017-06-27 International Business Machines Corporation PDSE physical dump anonymizer
KR20190037666A (ko) * 2017-09-29 2019-04-08 에스케이하이닉스 주식회사 데이터 저장 장치 및 그것의 동작 방법
US20210216667A1 (en) 2020-01-10 2021-07-15 Acronis International Gmbh Systems and methods for protecting against unauthorized memory dump modification
JP2022118489A (ja) 2021-02-02 2022-08-15 キオクシア株式会社 メモリシステム
US11644999B2 (en) * 2021-09-10 2023-05-09 Qualcomm Incorporated Protecting memory regions based on occurrence of an event

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1755660A (zh) * 2004-09-28 2006-04-05 惠普开发有限公司 冗余处理器中的诊断存储器转储方法
CN101025701A (zh) * 2006-02-22 2007-08-29 株式会社日立制作所 存储器转储方法、存储器转储程序以及计算机系统
CN101263457A (zh) * 2005-09-30 2008-09-10 国际商业机器公司 用于替换故障物理处理器的方法和装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59148492A (ja) 1983-02-14 1984-08-25 Hitachi Ltd 二重化構成電子交換機の再開処理方式
JPS61260338A (ja) * 1985-05-14 1986-11-18 Fujitsu Ltd メモリダンプ方式
JPS63200242A (ja) 1987-02-16 1988-08-18 Nec Corp ホツトスタンバイシステムの系切替え方式
JPS6476230A (en) 1987-09-18 1989-03-22 Nec Corp Fault information dumping system in duplexed constitution multi-processor
JPH02257358A (ja) 1989-03-30 1990-10-18 Nec Commun Syst Ltd マルチプロセッサシステムにおける障害情報収集方式
JPH03216742A (ja) * 1990-01-20 1991-09-24 Fujitsu Ltd メモリダンプシステム
JP2570104B2 (ja) 1993-05-31 1997-01-08 日本電気株式会社 情報処理装置に於ける障害情報採取方式
US5761739A (en) * 1993-06-08 1998-06-02 International Business Machines Corporation Methods and systems for creating a storage dump within a coupling facility of a multisystem enviroment
JPH07234808A (ja) 1994-02-24 1995-09-05 Toshiba Corp システムダンプ採取方式
JPH0830565A (ja) 1994-07-18 1996-02-02 Fuji Xerox Co Ltd マルチプロセッサ装置およびその障害情報収集方法
JPH09330253A (ja) 1996-06-10 1997-12-22 Nec Corp メモリダンプ方法及びそれを適用したメモリダンプシステム
JP2000148544A (ja) * 1998-11-05 2000-05-30 Nec Eng Ltd ダンプ出力方式
US6779132B2 (en) * 2001-08-31 2004-08-17 Bull Hn Information Systems Inc. Preserving dump capability after a fault-on-fault or related type failure in a fault tolerant computer system
US7308609B2 (en) * 2004-04-08 2007-12-11 International Business Machines Corporation Method, data processing system, and computer program product for collecting first failure data capture information
JP2006040001A (ja) * 2004-07-28 2006-02-09 Mitsubishi Heavy Ind Ltd コンピュータシステム及びメモリダンプ方法
JP2006172100A (ja) 2004-12-15 2006-06-29 Hitachi Ltd オペレーティングシステムの高速切替え方式及びその方法
JP4489802B2 (ja) * 2005-02-07 2010-06-23 富士通株式会社 マルチcpuコンピュータおよびシステム再起動方法
US8375386B2 (en) * 2005-06-29 2013-02-12 Microsoft Corporation Failure management for a virtualized computing environment
WO2007077604A1 (ja) * 2005-12-28 2007-07-12 Fujitsu Limited 情報処理装置及びハングアップ監視方法
US7788537B1 (en) * 2006-01-31 2010-08-31 Emc Corporation Techniques for collecting critical information from a memory dump
JP2007334403A (ja) 2006-06-12 2007-12-27 Mitsubishi Electric Corp 計算機システム障害対応方式及び計算機システム障害対応方法
CN101295268B (zh) * 2007-04-27 2011-03-02 国际商业机器公司 面向软件系统的分区存储器转储方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1755660A (zh) * 2004-09-28 2006-04-05 惠普开发有限公司 冗余处理器中的诊断存储器转储方法
CN101263457A (zh) * 2005-09-30 2008-09-10 国际商业机器公司 用于替换故障物理处理器的方法和装置
CN101025701A (zh) * 2006-02-22 2007-08-29 株式会社日立制作所 存储器转储方法、存储器转储程序以及计算机系统

Also Published As

Publication number Publication date
US20130111264A1 (en) 2013-05-02
EP2592557A4 (en) 2014-03-26
CN102971715A (zh) 2013-03-13
US8583960B2 (en) 2013-11-12
JPWO2012004854A1 (ja) 2013-09-02
JP5225515B2 (ja) 2013-07-03
EP2592557A1 (en) 2013-05-15
WO2012004854A1 (ja) 2012-01-12

Similar Documents

Publication Publication Date Title
CN102971715B (zh) 处理器装置以及程序
CN101154180B (zh) 一种任务栈溢出的监测方法
EP2966571B1 (en) Method for migrating memory data and computer therefor
JP5915086B2 (ja) 切替制御装置、切替制御方法、情報処理装置および切替制御プログラム
CN101122877A (zh) 双工系统和处理器切换方法
WO2013105554A1 (ja) 制御装置監視システムおよび制御装置の監視方法
JP2006277078A (ja) ログ情報管理装置、ログ情報管理方法およびログ情報管理プログラム
CN112199240A (zh) 一种节点故障时进行节点切换的方法及相关设备
JP2009129101A (ja) 情報処理装置の障害処理システム
JP4653838B2 (ja) 演算処理装置、演算処理装置の制御方法及び制御プログラム
US20140025903A1 (en) Multi-core processor system
JP5987797B2 (ja) 情報処理装置及びプログラム
CN115576734B (zh) 一种多核异构日志存储方法和系统
CN105247491B (zh) 计算机系统和控制方法
JP6337607B2 (ja) 情報処理装置、共有メモリ管理方法及び共有メモリ管理プログラム
JP2007206949A (ja) ディスクアレイ装置、ディスクアレイ装置の制御方法、ディスクアレイ装置の制御プログラム
WO2012137239A1 (ja) 計算機システム
JP2007293802A (ja) ディスクアレイ装置、ディスクアレイ装置の制御方法及びディスクアレイ装置の制御プログラム。
CN106933558B (zh) 一种电源控制方法及装置
JP2009116699A (ja) 情報処理システム
JP2008310460A (ja) 制御回路、記憶媒体、処理装置、組込みシステムならびに領域管理方法
JP4611659B2 (ja) 不正アクセス検出装置、不正アクセス検出方法、プログラム
CN107577571B (zh) 问题定位方法及多核处理器
JP2006260393A (ja) Cpuシステム
JP5454686B2 (ja) マルチコアプロセッサシステム、復元プログラム、および復元方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150708

Termination date: 20190706

CF01 Termination of patent right due to non-payment of annual fee