JP2014044511A - 計算機及びメモリ検査方法 - Google Patents
計算機及びメモリ検査方法 Download PDFInfo
- Publication number
- JP2014044511A JP2014044511A JP2012185505A JP2012185505A JP2014044511A JP 2014044511 A JP2014044511 A JP 2014044511A JP 2012185505 A JP2012185505 A JP 2012185505A JP 2012185505 A JP2012185505 A JP 2012185505A JP 2014044511 A JP2014044511 A JP 2014044511A
- Authority
- JP
- Japan
- Prior art keywords
- memory
- inspection
- unit
- event
- failure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0721—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
- G06F11/0724—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/073—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0772—Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Techniques For Improving Reliability Of Storages (AREA)
- Debugging And Monitoring (AREA)
- For Increasing The Reliability Of Semiconductor Memories (AREA)
- Hardware Redundancy (AREA)
Abstract
【解決手段】プロセッサ、メモリ及びI/Oデバイスを備える計算機であって、メモリ90は、システム制御部を実現するシステムソフトウェア20及び検査部50を実現する検査プログラムを格納し、プロセッサは、障害アドレスをシステム制御部に通知するメモリ障害通知部75を有し、システム制御部は、発生したイベントの種類に基づいて、検査プログラムを実行する必要があるか否かを判定する調整部300と、メモリの異なる記憶領域を使用してイベントを処理する複数のイベント処理部と、メモリ障害を記録する障害記録部と、検査結果情報を参照して、イベントを処理するイベント処理部を選択するイベント処理部セレクタ110と、を有する。
【選択図】図2
Description
図1は、本発明の実施例1における物理計算機の構成例を示すブロック図である。
次に、物理計算機10上で実行されるソフトウェアの構成の主要部と、制御対象となるハードウェア要素について、図2を参照しながら詳述する。
次に、ハイパバイザ20が実行する処理の一例について、フローチャートを参照しながら説明する。
図12は、本発明の実施例1における検査部50が実行する処理の一例を説明するフローチャートである。
実施例1によれば、システム制御部として稼動するハイパバイザ20とは別の検査部50がメモリ90を検査するため、メモリ障害が検出されてもハイパバイザ20のダウンを回避できる。
図14は、本発明の実施例2における物理計算機の構成例を示すブロック図である。
次に、物理計算機10上で実行されるソフトウェアの構成の主要部と、制御対象となるハードウェア要素について、図15を参照しながら詳述する。
次に、OS40が実行する処理の一例について、以下、フローチャートを参照しながら説明する。
検査部50が実行する処理は、実施例1の図12と同一であり、また、メモリ縮退処理は、実施例1の図13と同一であるため説明を省略する。
実施例2によれば、システム制御部として稼動するOS40とは別の検査部50がメモリ90を検査するため、メモリ障害の発生を検出されてもOS40のダウンを回避できる。
12 LAN
13 ストレージ装置
14 SAN
15 コンソール
20 ハイパバイザ
30 仮想計算機
31 インターコネクト
40 OS
50 検査部
52 処理内容識別情報保持部
54 検査状態保持部
56 検査対象選択部
60 アプリケーション
70 CPU
75 メモリ障害通知部
80 I/Oデバイス
85 ChipSet
90 メモリ
100 イベント処理制御部
110 イベント処理部セレクタ
120 縮退表
130 優先度表
140 イベント処理部
150 検査待ち合わせ部
200 メモリマップ
210 メモリ縮退処理部
250 メモリ検査制御部
300 検査頻度調整部
310 重要度判定部
320 重要度マップ
350 頻度判定部
360 時刻表
370 判定閾値
380 検査要否マップ
Claims (13)
- プロセッサ、前記プロセッサに接続されるメモリ、及び前記プロセッサに接続されるI/Oデバイスを備える計算機であって、
前記メモリは、前記計算機全体を制御するシステム制御部を実現するシステムソフトウェア、及び、前記メモリにおけるメモリ障害の有無を検査する検査部を実現する検査プログラムを格納し、
前記プロセッサは、前記メモリ障害を検出した場合に、当該メモリ障害が発生した前記メモリのアドレスである障害アドレスを前記システム制御部に通知するメモリ障害通知部を有し、
前記システム制御部は、
前記システム制御部の稼働中に発生したイベントの種類に基づいて、前記検査プログラムを実行する必要があるか否かを判定する調整部と、
前記メモリの異なる記憶領域を使用して前記イベントを処理する複数のイベント処理部と、
前記複数のイベント処理部の各々が使用する前記メモリの記憶領域に対して前記検査部が実行するメモリ検査の結果を保持する検査結果情報と、
前記メモリ検査によってメモリ障害が検出された場合に、前記障害アドレスを含む前記メモリの記憶領域を使用する前記イベント処理部を特定し、前記検査結果情報に前記特定されたイベント処理部における前記メモリ障害を記録する障害記録部と、
前記検査結果情報を参照して、前記メモリ障害が発生していない前記メモリの記憶領域を使用する前記複数のイベント処理部の中から、前記イベントを処理するイベント処理部を選択するイベント処理部セレクタと、
を有することを特徴とする計算機。 - 請求項1に記載の計算機であって、
前記システム制御部は、
前記複数のイベント処理部の各々が使用する前記メモリの記憶領域を特定するアドレス範囲を格納するメモリマップを管理し、
前記調整部の判定の結果に基づいて、前記検査プログラムの実行を制御するメモリ検査制御部を有し、
前記検査部は、前記メモリマップを参照して、検査対象のアドレス範囲を特定する検査対象選択部を有することを特徴とする計算機。 - 請求項2に記載の計算機であって、
前記検査部は、前記メモリ検査の実行状態を保持する検査状態保持部を管理し、
前記システム制御部は、前記検査状態保持部から取得された前記メモリ検査の実行状態に基づいて、前記メモリ検査が終了するまで前記イベントの処理の開始を遅らせる検査待ち合わせ部を有することを特徴とする計算機。 - 請求項2又は請求項3に記載の計算機であって、
前記調整部は、
前記各イベントの重要度を保持する重要度情報を管理し、
前記重要度情報に基づいて、前記検査プログラムを実行する必要があるか否かを判定する重要度判定部を有することを特徴とする計算機。 - 請求項4に記載の計算機であって、
前記調整部は、
前記イベント毎に、前回の前記イベントに対応する処理が実行された時刻を保持する時刻情報を管理し、
前記時刻情報に基づいて、所定のイベントが前回発生してから再度発生するまでの経過時刻を算出し、前記算出された経過時刻に基づいて、前記検査プログラムを実行する必要があるか否かを判定する頻度判定部を有することを特徴とする計算機。 - 請求項2又は3に記載の計算機であって、
前記調整部は、前記イベント毎に、前記検査プログラムを実行する必要があるか否かを示す情報を保持する検査要否情報を管理し、
前記調整部は、前記検査要否情報を参照して、前記検査プログラムを実行する必要があるか否かを判定することを特徴とする計算機。 - プロセッサ、前記プロセッサに接続されるメモリ、及び前記プロセッサに接続されるI/Oデバイスを備える計算機におけるメモリ検査方法であって、
前記メモリは、前記計算機全体を制御するシステム制御部を実現するシステムソフトウェア、及び、前記メモリにおけるメモリ障害の有無を検査する検査部を実現する検査プログラムを格納し、
前記プロセッサは、前記メモリ障害を検出した場合に、当該メモリ障害が発生した前記メモリのアドレスである障害アドレスを前記システム制御部に通知するメモリ障害通知部を有し、
前記システム制御部は、
前記メモリの異なる記憶領域を使用して前記システム制御部の稼働中に発生したイベントを処理する複数のイベント処理部と、
前記複数のイベント処理部の各々が使用する前記メモリの記憶領域に対して前記検査部が実行するメモリ検査の結果を保持する検査結果情報と、を有し、
前記方法は、
前記システム制御部が、前記システム制御部の稼働中に発生したイベントの種類に基づいて、前記検査プログラムを実行する必要があるか否かを判定する第1のステップと、
前記システム制御部が、前記メモリ検査によってメモリ障害が検出された場合に、前記障害アドレスを含む前記メモリの記憶領域を使用する前記イベント処理部を特定する第2のステップと、
前記システム制御部が、前記検査結果情報に前記特定されたイベント処理部における前記メモリ障害を記録する第3のステップと、
前記システム制御部が、前記検査結果情報を参照して、前記メモリ障害が発生していない前記メモリの記憶領域を使用する前記複数のイベント処理部の中から、前記イベントを処理するイベント処理部を選択する第4のステップと、
を含むことを特徴とするメモリ検査方法。 - 請求項7に記載のメモリ検査方法であって、
前記システム制御部は、前記複数のイベント処理部の各々が使用する前記メモリの記憶領域を特定するアドレス範囲を格納するメモリマップを管理し、
前記第1のステップは、
前記システム制御部が、前記検査プログラムを実行する必要であると判定された場合に、前記検査プログラムを実行させるステップと、
前記検査部が、前記メモリマップを参照して、検査対象のアドレス範囲を特定するステップと、を含むことを特徴とするメモリ検査方法。 - 請求項8に記載のメモリ検査方法であって、
前記検査部は、前記メモリ検査の実行状態を保持する検査状態保持部を管理し、
前記方法は、前記システム制御部が、前記検査状態保持部から取得された前記メモリ検査の実行状態に基づいて、前記メモリ検査が終了するまで前記イベントの処理の開始を遅らせるステップを含むことを特徴とするメモリ検査方法。 - 請求項8又は請求項9に記載のメモリ検査方法であって、
前記システム制御部は、前記各イベントの重要度を保持する重要度情報を管理し、
前記第1のステップでは、前記重要度情報に基づいて、前記検査プログラムを実行する必要があるか否かを判定することを特徴とするメモリ検査方法。 - 請求項10に記載のメモリ検査方法であって、
前記システム制御部は、前記イベント毎に、前回の前記イベントに対応する処理が実行された時刻を保持する時刻情報を管理し、
前記第1のステップは、
前記時刻情報に基づいて、所定のイベントが前回発生してから再度発生するまでの経過時刻を算出するステップと、
前記算出された経過時刻に基づいて、前記検査プログラムを実行する必要があるか否かを判定するステップと、を含むことを特徴とするメモリ検査方法。 - 請求項8又は請求項9に記載のメモリ検査方法であって、
前記システム制御部は、前記イベント毎に、前記検査プログラムを実行する必要があるか否かを示す情報を保持する検査要否情報を管理し、
前記第1のステップでは、前記検査要否情報を参照して、前記検査プログラムを実行する必要があるか否かを判定することを特徴とするメモリ検査方法。 - プロセッサ、前記プロセッサに接続されるメモリ、及び前記プロセッサに接続されるI/Oデバイスを備える計算機であって、
前記メモリは、前記計算機全体を制御するシステム制御部を実現するシステムソフトウェア、及び、前記メモリにおけるメモリ障害の有無を検査する検査部を実現する検査プログラムを格納し、
前記プロセッサは、前記メモリ障害を検出した場合に、当該メモリ障害が発生した前記メモリのアドレスである障害アドレスを前記システム制御部に通知するメモリ障害通知部を有し、
前記システム制御部は、
前記検査プログラムの実行を制御するメモリ検査制御部と、
前記検査部が実行するメモリ検査の結果に基づいて、前記メモリ障害が発生していない前記メモリの記憶領域のみを使用して前記システム制御部の処理を継続する縮退処理部と、を有することを特徴とする計算機。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012185505A JP5831858B2 (ja) | 2012-08-24 | 2012-08-24 | 計算機及びメモリ検査方法 |
US13/888,670 US9176806B2 (en) | 2012-08-24 | 2013-05-07 | Computer and memory inspection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012185505A JP5831858B2 (ja) | 2012-08-24 | 2012-08-24 | 計算機及びメモリ検査方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014044511A true JP2014044511A (ja) | 2014-03-13 |
JP5831858B2 JP5831858B2 (ja) | 2015-12-09 |
Family
ID=50149124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012185505A Expired - Fee Related JP5831858B2 (ja) | 2012-08-24 | 2012-08-24 | 計算機及びメモリ検査方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9176806B2 (ja) |
JP (1) | JP5831858B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017033113A (ja) * | 2015-07-29 | 2017-02-09 | 富士通株式会社 | システム、情報処理装置、および情報処理方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117389790B (zh) * | 2023-12-13 | 2024-02-23 | 苏州元脑智能科技有限公司 | 可恢复故障的固件检测系统、方法、存储介质及服务器 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000293391A (ja) * | 1999-04-07 | 2000-10-20 | Mitsubishi Electric Corp | 大規模メモリシステム管理方法および装置 |
JP2007140920A (ja) * | 2005-11-18 | 2007-06-07 | Kyocera Mita Corp | 画像形成装置 |
JP2012103999A (ja) * | 2010-11-12 | 2012-05-31 | Hitachi Ltd | メモリエラーによるシステム停止を軽減するためのメモリ制御方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6480982B1 (en) | 1999-06-04 | 2002-11-12 | International Business Machines Corporation | Computer RAM memory system with enhanced scrubbing and sparing |
US8176250B2 (en) * | 2003-08-29 | 2012-05-08 | Hewlett-Packard Development Company, L.P. | System and method for testing a memory |
US7328315B2 (en) | 2005-02-03 | 2008-02-05 | International Business Machines Corporation | System and method for managing mirrored memory transactions and error recovery |
US8745323B2 (en) * | 2011-09-01 | 2014-06-03 | Dell Products L.P. | System and method for controller independent faulty memory replacement |
US8990646B2 (en) * | 2012-05-31 | 2015-03-24 | Hewlett-Packard Development Company, L.P. | Memory error test routine |
-
2012
- 2012-08-24 JP JP2012185505A patent/JP5831858B2/ja not_active Expired - Fee Related
-
2013
- 2013-05-07 US US13/888,670 patent/US9176806B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000293391A (ja) * | 1999-04-07 | 2000-10-20 | Mitsubishi Electric Corp | 大規模メモリシステム管理方法および装置 |
JP2007140920A (ja) * | 2005-11-18 | 2007-06-07 | Kyocera Mita Corp | 画像形成装置 |
JP2012103999A (ja) * | 2010-11-12 | 2012-05-31 | Hitachi Ltd | メモリエラーによるシステム停止を軽減するためのメモリ制御方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017033113A (ja) * | 2015-07-29 | 2017-02-09 | 富士通株式会社 | システム、情報処理装置、および情報処理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5831858B2 (ja) | 2015-12-09 |
US20140059389A1 (en) | 2014-02-27 |
US9176806B2 (en) | 2015-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190384648A1 (en) | Proactive high availability in a virtualized computer system | |
JP5851503B2 (ja) | 高可用性仮想機械環境におけるアプリケーションの高可用性の提供 | |
US8413144B1 (en) | Providing application-aware high availability of virtual machines | |
EP2798491B1 (en) | Method and device for managing hardware errors in a multi-core environment | |
US8862927B2 (en) | Systems and methods for fault recovery in multi-tier applications | |
US8880936B2 (en) | Method for switching application server, management computer, and storage medium storing program | |
US8219851B2 (en) | System RAS protection for UMA style memory | |
US10353786B2 (en) | Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program | |
US20210133054A1 (en) | Prioritized transfer of failure event log data | |
CN111880906A (zh) | 虚拟机高可用性管理方法、系统以及存储介质 | |
Suminto et al. | Pbse: A robust path-based speculative execution for degraded-network tail tolerance in data-parallel frameworks | |
WO2018036104A1 (zh) | 一种布署虚拟机的方法、系统以及物理服务器 | |
US9195528B1 (en) | Systems and methods for managing failover clusters | |
US9148479B1 (en) | Systems and methods for efficiently determining the health of nodes within computer clusters | |
US20230342268A1 (en) | Uncorrectable Memory Error Recovery For Virtual Machine Hosts | |
WO2013190694A1 (ja) | 計算機の復旧方法、計算機システム及び記憶媒体 | |
US11163630B2 (en) | Using real-time analytics to manage application features | |
JP5831858B2 (ja) | 計算機及びメモリ検査方法 | |
US10768940B2 (en) | Restoring a processing unit that has become hung during execution of an option ROM | |
US8984336B1 (en) | Systems and methods for performing first failure data captures | |
JP6164283B2 (ja) | ソフトウェア安全停止システム、ソフトウェア安全停止方法、およびプログラム | |
US20230315561A1 (en) | Memory Error Recovery Using Write Instruction Signaling | |
US20220229719A1 (en) | Error logging during system boot and shutdown | |
KR102254797B1 (ko) | 리소스 제어 장치, 리소스 제어 방법 및 기록 매체에 저장된 리소스 제어 프로그램 | |
WO2016031049A1 (ja) | 計算機システム及び計算機の制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150714 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150728 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150907 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150929 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151019 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5831858 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |