JP5751626B2 - Memory test apparatus, memory test method, and memory test program - Google Patents

Memory test apparatus, memory test method, and memory test program Download PDF

Info

Publication number
JP5751626B2
JP5751626B2 JP2011157798A JP2011157798A JP5751626B2 JP 5751626 B2 JP5751626 B2 JP 5751626B2 JP 2011157798 A JP2011157798 A JP 2011157798A JP 2011157798 A JP2011157798 A JP 2011157798A JP 5751626 B2 JP5751626 B2 JP 5751626B2
Authority
JP
Japan
Prior art keywords
memory
failure
test
page
memory area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011157798A
Other languages
Japanese (ja)
Other versions
JP2013025452A (en
Inventor
敏 深澤
敏 深澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2011157798A priority Critical patent/JP5751626B2/en
Publication of JP2013025452A publication Critical patent/JP2013025452A/en
Application granted granted Critical
Publication of JP5751626B2 publication Critical patent/JP5751626B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、メモリ試験装置、メモリ試験方法およびメモリ試験プログラムに関し、特に、情報処理装置に備えられた大容量や小容量のメモリに関して、ページ閉塞されたメモリエリアアドレス空間の再使用を自動的に可能にし、かつ、メモリエリアアドレス空間の障害の潜在化を防止するメモリ試験装置、メモリ試験方法およびメモリ試験プログラムに関する。   The present invention relates to a memory test apparatus, a memory test method, and a memory test program, and in particular, automatically reuses a memory area address space that is blocked by a page for a large-capacity or small-capacity memory provided in an information processing apparatus. The present invention relates to a memory test apparatus, a memory test method, and a memory test program that enable and prevent potential failure of a memory area address space.

情報処理装置に備えられているメモリに障害が発生した場合であっても、情報処理装置としての運用を継続することを可能にするために、例えば、特許文献1の特開平9−81464号公報「計算機システムのメモリ障害回復方法および回復システム」や特許文献2の特開平11−259374号公報「メモリ試験装置および方法および記録媒体」等に記載されているように、従来から種々の技術が提案されている。   In order to continue operation as an information processing apparatus even when a failure occurs in a memory provided in the information processing apparatus, for example, Japanese Patent Laid-Open No. 9-81464 of Patent Document 1 is disclosed. Various techniques have been proposed in the past as described in "Memory failure recovery method and recovery system for computer system" and Japanese Patent Application Laid-Open No. 11-259374 "Memory test apparatus and method and recording medium" in Patent Document 2. Has been.

特開平9−81464号公報(第6−8頁)JP-A-9-81464 (page 6-8) 特開平11−259374号公報(第4−6頁)JP 11-259374 A (page 4-6)

しかしながら、前記特許文献1や前記特許文献2のような従来のメモリ試験方式においては、大容量のメモリを有する情報処理装置の場合は、情報処理装置の立ち上げ時間を短縮しようとする観点から、十分なメモリ試験を実施しない場合があり、情報処理装置立ち上げ時にメモリ障害を効果的に検出することができないという問題があり、また、小容量のメモリを有する情報処理装置(一般的には、組み込み系の情報処理装置)の場合は、故障を検知した或るメモリエリアアドレス空間の閉塞(ページ閉塞)を実施した場合に、使用可能なメモリ領域の大幅な減少を招いて、システム動作が不安定になり兼ねないという問題も生じる。   However, in the conventional memory test methods such as Patent Document 1 and Patent Document 2, in the case of an information processing device having a large-capacity memory, from the viewpoint of shortening the startup time of the information processing device, There is a case where sufficient memory test is not performed, there is a problem that a memory failure cannot be effectively detected when the information processing apparatus is started up, and an information processing apparatus having a small capacity memory (in general, In the case of an embedded information processing device), if a certain memory area address space where a failure is detected is blocked (page blocking), the usable memory area is greatly reduced, resulting in a system operation failure. There is also a problem that it may become stable.

また、情報処理装置の運用中にメモリ障害を検知しても、当該メモリ障害を診断するために実施する再現試験において当該メモリ障害を再現することができず、当該メモリ障害の効果的な解析を行うことができないという場合も多く発生している。   Even if a memory failure is detected during operation of the information processing apparatus, the memory failure cannot be reproduced in a reproduction test performed to diagnose the memory failure, and an effective analysis of the memory failure is performed. There are many cases where this is not possible.

より詳しくは、次の第1ないし第4のような課題が従来のメモリ試験方式には存在している。なお、ここで、使用する用語の「メモリエリアアドレス空間」とは、DIMM(Dual Inline Memory Module)や主記憶装置だけではなく、不揮発性メモリやSRAM(Static Random Access Memory)などのOS(Operating System:オペレーティングシステム、以降OSと表記する)上で使用することが可能なメモリ空間の総称を示している。また、或る特定のメモリエリアアドレス空間(ページと称する)で短期間に訂正可能障害が大量に発生した場合、当該特定のメモリエリアアドレス空間にアクセスし続けると、訂正不可能障害が発生するかもしれないので、一般に、訂正可能障害の発生回数があらかじめ定めた閾値を超えた場合に、OSなどがソフトウエア的に本メモリエリアアドレス空間(Page:ページ)にアクセスしないように制御している。この処理を「ページ閉塞処理」と称している。   More specifically, the following first to fourth problems exist in the conventional memory test system. The term “memory area address space” used here is not only a DIMM (Dual Inline Memory Module) and main storage device, but also an OS (Operating System) such as a non-volatile memory and SRAM (Static Random Access Memory). : Operating system, hereinafter referred to as OS) is a general term for memory spaces that can be used. Further, when a large number of correctable failures occur in a short time in a specific memory area address space (referred to as a page), an uncorrectable failure may occur if the specific memory area address space is continuously accessed. Therefore, in general, when the number of occurrences of correctable failures exceeds a predetermined threshold, the OS or the like is controlled so as not to access this memory area address space (Page: page) by software. This process is called “page blocking process”.

第1に、訂正可能障害が大量に発生しているメモリエリアアドレス空間(ページ)では、初期に書き込みが1回のみ行われ、以降、読み出し動作のみであった場合、訂正可能障害状態となった当該メモリエリアアドレス空間に対して、そのままページ閉塞を実施することは必ずしも相応しいとは限らない。   First, in a memory area address space (page) in which a large number of correctable failures have occurred, writing is performed only once at an initial stage, and thereafter, when only a read operation is performed, a correctable failure state is entered. It is not always appropriate to perform page blocking as it is for the memory area address space.

例えば、或るメモリアドレスに対して、1回書き込みが行われ、それ以降書き込みは一切行われなかったとする。このような場合においては、当該メモリアドレスに対する再書き込みを行うことなく、短期的に読み出し動作が数百回に亘って行われてしまい、訂正可能障害があらかじめ定めた閾値を超えたと判断されてしまう場合がある。   For example, it is assumed that a certain memory address is written once and no further writing is performed thereafter. In such a case, the read operation is performed several hundred times in a short time without performing rewriting to the memory address, and it is determined that the correctable failure exceeds a predetermined threshold value. There is a case.

また、第2に、メモリ上の或るセルが或る値にスタックしていた場合であっても、スタックした状態と同じ値のデータが書き込まれた場合であれば、書き込まれたデータを読み出してもエラーを検出することができない。しかし、スタックした値と反対の値のデータが書き込まれた場合には、スタックしたメモリエリアに書き込まれたデータを読み出した場合には、必ず、エラーが発生することになる。   Second, even if a certain cell in the memory is stacked at a certain value, if the data having the same value as the stacked state is written, the written data is read. Even an error cannot be detected. However, when data having a value opposite to the stacked value is written, an error always occurs when the data written in the stacked memory area is read.

したがって、訂正可能障害の発生頻度があらかじめ定めた閾値よりも少ないにも関わらず、メモリ中には障害が潜んでいることになり、現状では、ページ閉塞状態に設定されないものの、将来、ページ閉塞される可能性が高いメモリエリアが存在していることになる。   Therefore, although the frequency of occurrence of correctable faults is less than a predetermined threshold value, faults are hidden in the memory, and currently the page block state is not set, but the page is blocked in the future. This means that there is a memory area that is likely to be stored.

また、第3に、DIMM/メモリなどの障害被疑部品のみを交換して、メモリ試験機に装着して再現試験を実施しても、障害が再現しないことがある。   Third, even if only a suspected failure part such as a DIMM / memory is replaced and mounted on a memory testing machine, a failure test may not be reproduced.

例えば、DIMM/メモリとボードとの相性などで障害が再現しなくなることがあり、障害が発生している環境下で、再現試験を実施することが重要であるケースがある。つまり、いわゆる「相性問題」と称される現象が発生した場合には、障害が発生している環境下で再現試験を実施すれば、障害被疑部品が、DIMM/メモリではなく、ボードであることを解析することも容易になる。   For example, the failure may not be reproduced due to compatibility between the DIMM / memory and the board, and there are cases where it is important to perform a reproduction test in an environment where the failure occurs. In other words, if a so-called “compatibility problem” occurs, if the reproducibility test is performed in an environment where a failure has occurred, the suspected failure component is not a DIMM / memory, but a board. It becomes easy to analyze.

また、障害が発生している環境下で再現試験を実施した際に、DIMM/メモリを交換しても、毎回同じメモリ試験結果が得られる場合には、障害被疑部品はボードであると判別することができる。   Also, if the same memory test result is obtained every time even if the DIMM / memory is replaced when a reproduction test is performed in an environment where a failure has occurred, it is determined that the suspected faulty part is a board. be able to.

さらに、第4に、近年はメモリ容量の増大に伴い、情報処理装置の立ち上げ時に全てのメモリエリアアドレス空間に対して入念なメモリ試験を実施すると、立ち上げ時間も増大するという問題があり、立ち上げ時においてすべてのメモリエリアアドレス空間に対してはメモリ試験を実施しないこともある。そのため、立ち上げ時において、OSが稼動する前に、メモリのエラーアドレス、エラーデータパターンを見つけ出すことができない場合もある。   Fourthly, with the increase in memory capacity in recent years, there is a problem that the startup time also increases when careful memory tests are performed on all memory area address spaces at the time of startup of the information processing apparatus. The memory test may not be performed on all memory area address spaces at the time of startup. Therefore, at the time of start-up, there may be a case where the error address and error data pattern of the memory cannot be found before the OS is activated.

(本発明の目的)
本発明は、上述の事情に鑑みてなされたものであり、ページ閉塞されたメモリエリアアドレス空間の再使用を可能にするとともに、障害の潜在化を防止することが可能なメモリ試験装置、メモリ試験方法およびメモリ試験プログラムを提供することを、その目的としている。
(Object of the present invention)
The present invention has been made in view of the above-described circumstances, and enables a memory area address space in which a page is blocked to be reused and a memory test apparatus and a memory test capable of preventing a failure from occurring. It is an object to provide a method and a memory test program.

前述の課題を解決するため、本発明によるメモリ試験装置、メモリ試験方法およびメモリ試験プログラムは、主に、次のような特徴的な構成を採用している。   In order to solve the above-described problems, the memory test apparatus, the memory test method, and the memory test program according to the present invention mainly adopt the following characteristic configuration.

(1)本発明によるメモリ試験装置は、情報処理装置のメモリの試験を行うために当該情報処理装置に備えられたメモリ試験装置であって、当該情報処理装置の運用中に前記メモリに訂正可能障害が発生したことを検知した際に、該訂正可能障害が発生したメモリアドレスが含まれているメモリエリアアドレス空間を障害発生ページとして登録する障害登録手段と、しかる後の当該情報処理装置の立ち上げ動作時に、前記障害登録手段により登録された前記障害発生ページに該当する前記メモリエリアアドレス空間に対して、あらかじめ定めたテストパターンからなる特別なメモリ試験を実施するメモリ試験実施手段と、該メモリ試験実施手段によって実施した前記特別なメモリ試験の実施結果として、前記障害発生ページに該当する前記メモリエリアアドレス空間に障害が検知されなかった場合には、前記障害発生ページに該当する前記メモリエリアアドレス空間を正常なメモリエリアアドレス空間としてシステムに組み込んで立ち上げ後のOS(Operating System)が使用することが可能な状態に復帰させる正常復帰手段と、を少なくとも備えていることを特徴とする。   (1) A memory test apparatus according to the present invention is a memory test apparatus provided in the information processing apparatus for testing the memory of the information processing apparatus, and can be corrected in the memory during operation of the information processing apparatus. When detecting that a failure has occurred, failure registration means for registering the memory area address space including the memory address in which the correctable failure has occurred as a failure page, and the startup of the information processing apparatus thereafter A memory test execution means for performing a special memory test having a predetermined test pattern for the memory area address space corresponding to the failure occurrence page registered by the failure registration means during the raising operation; As a result of the special memory test performed by the test execution means, the memory corresponding to the failure page is recorded. When no failure is detected in the re-area address space, the OS (Operating System) is used after the memory area address space corresponding to the failed page is incorporated into the system as a normal memory area address space. And at least normal return means for returning to a state in which it can be performed.

(2)本発明によるメモリ試験方法は、情報処理装置のメモリの試験を行うために当該情報処理装置に備えられたメモリ試験装置におけるメモリ試験方法であって、当該情報処理装置の運用中に前記メモリに訂正可能障害が発生したことを検知した際に、該訂正可能障害が発生したメモリアドレスが含まれているメモリエリアアドレス空間を障害発生ページとして登録する障害登録ステップと、しかる後の当該情報処理装置の立ち上げ動作時に、前記障害登録手段により登録された前記障害発生ページに該当する前記メモリエリアアドレス空間に対して、あらかじめ定めたテストパターンからなる特別なメモリ試験を実施するメモリ試験実施ステップと、該メモリ試験実施ステップにおいて実施した前記特別なメモリ試験の実施結果として、前記障害発生ページに該当する前記メモリエリアアドレス空間に障害が検知されなかった場合には、前記障害発生ページに該当する前記メモリエリアアドレス空間を正常なメモリエリアアドレス空間としてシステムに組み込んで立ち上げ後のOS(Operating System)が使用することが可能な状態に復帰させる正常復帰ステップと、を少なくとも有していることを特徴とする。   (2) A memory test method according to the present invention is a memory test method in a memory test apparatus provided in the information processing apparatus for testing a memory of the information processing apparatus. When detecting that a correctable failure has occurred in the memory, a failure registration step of registering the memory area address space containing the memory address in which the correctable failure has occurred as a failed page, and the information after that A memory test execution step for performing a special memory test consisting of a predetermined test pattern for the memory area address space corresponding to the failed page registered by the failure registration means during the startup operation of the processing device And as a result of the special memory test performed in the memory test execution step, If no failure is detected in the memory area address space corresponding to the failed page, the memory area address space corresponding to the failed page is incorporated into the system as a normal memory area address space and And at least a normal return step for returning to a state that can be used by the operating system (OS).

(3)本発明によるメモリ試験プログラムは、少なくとも前記(2)に記載のメモリ試験方法の各ステップを、コンピュータによって実行可能なプログラムとして実施していることを特徴とする。   (3) A memory test program according to the present invention is characterized in that at least each step of the memory test method described in (2) is implemented as a program executable by a computer.

本発明のメモリ試験装置、メモリ試験方法およびメモリ試験プログラムによれば、以下のような効果を奏することができる。   According to the memory test apparatus, the memory test method, and the memory test program of the present invention, the following effects can be obtained.

第1の効果は、特に、間歇的にメモリ上のデータが或る値にスタック/固定化した場合等において、一時的にページ閉塞したメモリエリアアドレス空間を自動的に再利用することが可能になることである。   The first effect is that the memory area address space in which the page is temporarily blocked can be automatically reused particularly when the data on the memory is intermittently stacked / fixed to a certain value. It is to become.

第2の効果は、次の点にある。近年の組み込み系情報処理装置にもページ閉塞機能が既に備えられているかまたは今後組み込まれていく状況にあるが、しかし、組み込み系情報処理装置のメモリは大容量ではなく、小容量の場合がほとんどである。また、SRAMなどの小容量RAMに対してもページ閉塞機能を実施する状況にある。かくのごとき小容量のメモリに対してページ閉塞が実施されると、使用可能なメモリ容量が大幅に減少してしまうことになって、システム動作が不安定になってしまう場合も生じる。本発明においては、システムの立ち上げの都度、可能な限りページ閉塞を実施しないように設定することができるので、システム動作の安定化を図ることができる、という効果が得られる。   The second effect is as follows. Recent embedded information processing devices already have a page-blocking function or are in the process of being incorporated in the future. However, the memory of embedded information processing devices is not large in capacity but mostly small in capacity. It is. In addition, the page blocking function is also implemented for a small-capacity RAM such as an SRAM. When page blocking is performed for such a small-capacity memory, the usable memory capacity is greatly reduced, and the system operation may become unstable. In the present invention, every time the system is started up, it can be set so as not to block the page as much as possible, so that an effect of stabilizing the system operation can be obtained.

第3の効果は、立ち上げ時に実施する特別なメモリ試験においてエラー(故障)を検知した時のメモリアドレス、データパターンをメモリのDIMM(Dual Inline Memory Module)のSPD(Special Presence Detect)、診断機能部の不揮発性メモリやSRAM(Static Random Access Memory)等に保持するので、故障診断用に以降に実施する再現試験において、故障が再現しなくとも、保持されている詳細な障害状態に基づいて、障害解析を行うことが容易になることである。さらには、例えば、障害の解析結果を必要とするカスタマサポート者や、お客様への障害報告者にとっては、詳細なデータが必要な場合があり、このような場面においても有効な情報を提供することができる。   The third effect is that the memory address and data pattern when an error (failure) is detected in a special memory test executed at start-up, the memory DIMM (Dual Inline Memory Module) SPD (Special Presence Detect), diagnostic function Because it is held in the non-volatile memory, SRAM (Static Random Access Memory), etc., even if the failure is not reproduced in the reproduction test to be carried out for failure diagnosis later, based on the detailed failure state being held, It is easy to perform failure analysis. Furthermore, for example, detailed information may be necessary for customer supporters who need the analysis results of troubles and trouble reporters to customers, and provide useful information even in such situations. Can do.

本発明に係るメモリ試験装置の装置構成の一例を説明するためブロック構成図である。It is a block block diagram for demonstrating an example of the apparatus structure of the memory test apparatus based on this invention. 情報処理装置としてCPUがメモリを使用している際に、当該メモリに訂正可能障害が発生したときの動作の一例を示すフローチャートである。10 is a flowchart illustrating an example of an operation when a correctable failure occurs in a memory when the CPU is using the memory as the information processing apparatus. 図2において発生した訂正可能障害のメモリエリアアドレス空間に対して情報処理装置の再立ち上げ時に特別なメモリ試験を実施して、該メモリ試験の実施結果に基づいてメモリエリアアドレス空間のページ閉塞を解除したり、逆に、ページ閉塞を行うとともに障害情報を採取して保管したりする動作の一例を示すフローチャートである。A special memory test is performed on the memory area address space of the correctable failure that occurred in FIG. 2 when the information processing apparatus is restarted, and the page block of the memory area address space is blocked based on the execution result of the memory test. It is a flowchart which shows an example of operation | movement which cancels | releases or conversely performs a page block | close and collects and stores failure information. 障害発生回数登録テーブルのテーブル構成の一例を示すテーブルである。It is a table which shows an example of a table structure of a failure occurrence frequency registration table. メモリ試験結果登録テーブルのテーブル構成の一例を示すテーブルである。It is a table which shows an example of a table structure of a memory test result registration table.

以下、本発明によるメモリ試験装置、メモリ試験方法およびメモリ試験プログラムの好適な実施形態について添付図を参照して説明する。なお、以下の説明においては、本発明によるメモリ試験装置およびメモリ試験方法について説明するが、このメモリ試験方法をコンピュータにより実行可能なメモリ試験プログラムとして実施するようにしても良いし、あるいは、そのメモリ試験プログラムをコンピュータにより読み取り可能な記録媒体に記録するようにしても良いことは言うまでもない。   Preferred embodiments of a memory test apparatus, a memory test method, and a memory test program according to the present invention will be described below with reference to the accompanying drawings. In the following description, the memory test apparatus and the memory test method according to the present invention will be described. However, the memory test method may be implemented as a memory test program that can be executed by a computer, or the memory test method may be used. Needless to say, the test program may be recorded on a computer-readable recording medium.

(本発明の特徴)
本発明の実施形態の説明に先立って、本発明の特徴についてその概要をまず説明する。本発明は、組み込み型基盤を含む各種の情報処理装置に備えられているメモリ(DIMM(Dual Inline Memory Module)を用いたメモリやSRAM(Static Random Access Memory)等)において、或るメモリエリアアドレス空間(ページ)に短期的に訂正可能障害があらかじめ定めた閾値を超えて発生したために、OSが当該メモリエリアアドレス空間を使用しないような処置いわゆるページ閉塞を実施したような場合であっても、ページ閉塞した当該メモリエリアアドレス空間に対して、再立ち上げ時に、特別なメモリ試験を実施して、訂正可能障害などが発生しなければ、再度システムに組み込むことを可能にし、使用可能なメモリの総容量の減少を防止することと、特別なメモリ試験の実施時に訂正可能障害が再現した場合には、詳細なデータを保持して、故障解析情報として保持することとを、主要な特徴としている。
(Features of the present invention)
Prior to the description of the embodiments of the present invention, an outline of the features of the present invention will be described first. The present invention relates to a memory area address space in a memory (such as a memory using a DIMM (Dual Inline Memory Module) or an SRAM (Static Random Access Memory)) provided in various information processing apparatuses including an embedded base. Even if the OS performs a so-called page blockage in which the OS does not use the memory area address space because a short-term correctable failure has occurred in the (page) exceeding a predetermined threshold value, When the memory area address space that has been blocked is restarted, a special memory test is performed. If no correctable failure occurs, it can be re-installed in the system, and the total available memory Prevents capacity loss and retains detailed data if correctable faults are reproduced when performing special memory tests. The main feature is that it is stored as failure analysis information.

つまり、本発明においては、運用中にページ閉塞されたメモリエリアアドレス空間、訂正可能障害が検出されたメモリエリアアドレス空間に関する情報を登録しておき、システムの再立ち上げ時に、登録しておいた該メモリエリアドレス空間に対してあらかじめ用意したテストパターンからなる特別なメモリ試験を実施することによって、訂正可能障害などが検出されない場合には、ページ閉塞されたメモリエリアアドレス空間を使用可能な状態に復帰させて、再度、OSの資産(OSが使用することが可能なメモリエリアアドレス空間)とするとともに、特別なメモリ試験において再度障害が発生する場合には、その障害パターンを障害解析用として保持することを主要な特徴としている。   That is, in the present invention, information related to the memory area address space where the page is blocked during operation and the memory area address space where the correctable failure is detected is registered, and is registered when the system is restarted. By executing a special memory test consisting of a test pattern prepared in advance for the memory area address space, if a correctable failure is not detected, the memory area address space that is blocked by the page is made usable. Restore it and set it again as an OS asset (memory area address space that can be used by the OS), and if a failure occurs again during a special memory test, the failure pattern is retained for failure analysis The main feature is to do.

ここで、特別なメモリ試験とは、具体的には、オール"0"書き込みや、オール"1"書き込みの場合だけではなく、"0"書き込み/読み出し→"1"書き込み/読み出し→"0"書き込み/読み出し→"1"書き込み/読み出しのような"0"、"1"反転書き込み/読み出しシーケンスや、"0x5555"書き込み/読み出し→"0xAAAA"書き込み/読み出し→"0x5555"書き込み/読み出しのような"01パターン"、"10パターン"反転書き込み/読み出しシーケンスなども含むメモリ試験であり、訂正可能障害が発生する可能性があるテストパターンを用いたメモリ試験を実施するものである。   Here, the special memory test is not only the case of all “0” write or all “1” write, but also “0” write / read → “1” write / read → “0”. Write / read → "0" like "1" write / read, reverse write / read sequence, or "0x5555" write / read-> "0xAAAA" write / read-> "0x5555" write / read A memory test including a “01 pattern”, a “10 pattern” inversion write / read sequence, etc., and a memory test using a test pattern in which a correctable failure may occur.

本発明においては、情報処理装置の再立ち上げ前に、前回の運用中にページ閉塞されたメモリエリアアドレス空間、訂正可能障害が発生したメモリエリアアドレス空間、に関する情報をテーブルに登録しておく。しかる後、情報処理装置の再立ち上げを実施した際に、再立ち上げのメモリ初期化時に、前記テーブルを参照して、ページ閉塞されたメモリエリアアドレス空間、訂正可能障害が発生したメモリエリアアドレス空間に対して、前述のような特別なメモリ試験を実施する。   In the present invention, before the information processing apparatus is restarted, information related to the memory area address space where the page is blocked during the previous operation and the memory area address space where the correctable failure has occurred is registered in the table. After that, when the information processing apparatus is restarted, the memory area address space where the page is blocked and the memory area address where the correctable failure has occurred are referred to at the time of memory initialization at the time of restart. A special memory test as described above is performed on the space.

特別なメモリ試験の実施結果として、障害が検出されることなく、当該特別なメモリ試験に合格すると、試験対象となった当該メモリエリアアドレス空間(ページ閉塞されたメモリエリアアドレス空間、訂正可能障害が発生したメモリエリアアドレス空間)は、そのままシステムに組み込まれて、OSによって使用することが可能なメモリエリアになる。   As a result of executing a special memory test, if the fault is not detected and the special memory test is passed, the memory area address space to be tested (the memory area address space in which the page is blocked, the correctable fault is The generated memory area address space) is incorporated into the system as it is and becomes a memory area that can be used by the OS.

一方、障害が再度検出されて、当該特別なメモリ試験に不合格となると、試験対象となった当該メモリエリアアドレス空間(ページ閉塞されたメモリエリアアドレス空間、訂正可能障害が発生したメモリエリアアドレス空間)をシステムに組み込むことなく、隔離した状態にするとともに、当該特別なメモリ試験において再度エラーになった時のメモリアドレス、データパターンを、例えば、メモリがDIMMの場合には当該DIMMの各種のスペックを格納しているROM領域であるSPD(Special Presence Detect)、あるいは、診断機能部の不揮発性メモリやSRAM等に保持する。保持したメモリアドレス、データパターンは、障害解析時に使用される。   On the other hand, when a failure is detected again and the special memory test is failed, the memory area address space to be tested (a memory area address space in which a page is blocked, a memory area address space in which a correctable failure has occurred) ) Is isolated without being incorporated into the system, and the memory address and data pattern when an error occurs again in the special memory test, for example, when the memory is a DIMM, various specifications of the DIMM Are stored in a SPD (Special Presence Detect) which is a ROM area in which is stored, or in a nonvolatile memory or SRAM of the diagnostic function unit. The retained memory address and data pattern are used during failure analysis.

かくのごとき特別なメモリ試験を情報処理装置の再立ち上げ時に実施することによって、特別なメモリ試験の実施結果として、正常であれば、ページ閉塞されていたメモリエリアアドレス空間、訂正可能障害を検出していたメモリエリアアドレス空間をシステムに再度組み込んで、OSが使用可能なメモリの総容量が低下することを防止し、一方、訂正可能障害が再現した場合には、詳細なデータを保持しておいて、障害解析時に使用することを可能にしている。   By executing a special memory test such as this when the information processing device is restarted, if the normal memory test results are normal, the memory area address space that was blocked and correctable faults were detected. The memory area address space that has been used is re-installed in the system to prevent the total amount of memory that can be used by the OS from being reduced. On the other hand, if a correctable fault is reproduced, the detailed data is retained. It can be used for failure analysis.

(実施形態の構成例)
次に、本発明に係るメモリ試験装置の具体的な実施形態について、その一例を説明する。図1は、本発明に係るメモリ試験装置の装置構成の一例を説明するためブロック構成図であり、メモリ試験装置としては一般的な情報処理装置からなっており、かつ、当該情報処理装置が運用中に使用するメモリを、本メモリ試験装置の試験対象としている場合を示している。
(Configuration example of embodiment)
Next, an example of a specific embodiment of the memory test apparatus according to the present invention will be described. FIG. 1 is a block diagram for explaining an example of the configuration of a memory test apparatus according to the present invention. The memory test apparatus is composed of a general information processing apparatus, and the information processing apparatus is operated. This shows a case where the memory used inside is the test target of this memory test apparatus.

本実施形態のメモリ試験装置を構成する図1の情報処理装置は、中央処理装置(CPU:Central Processing Unit)10、メモリ11、不揮発性メモリ12、チップセット20、ベースボード管理コントローラ(BMC:Baseboard Management Controller)30、メモリ31、SRAM(Static Random Access Memory)32を少なくとも備えている。   The information processing apparatus of FIG. 1 that constitutes the memory test apparatus of the present embodiment includes a central processing unit (CPU) 10, a memory 11, a nonvolatile memory 12, a chipset 20, and a baseboard management controller (BMC: Baseboard). Management Controller) 30, memory 31, and SRAM (Static Random Access Memory) 32.

中央処理装置(CPU)10は、当該情報処理装置の全体の動作を制御するための処理装置である。また、メモリ11は、中央処理装置10で使用される各種のデータを記憶するための主記憶装置であり、DIMM(Dual Inline Memory Module)等を用いたメモリであって、本メモリ試験装置が試験対象とするメモリの一つである。また、不揮発性メモリ12は、電源がオフになってもデータを保持するメモリであって、診断機能部として中央処理装置10で使用される各種のデータやファームウェアを格納するためのメモリであり、本メモリ試験装置において必要とするデータやテーブルも記憶している。また、チップセット20は、中央処理装置10や各種IO(Input/Output)装置等との間のインタフェースを司る集積回路群であり、図1においては、中央処理装置10とベースボード管理コントローラ30との間のインタフェースを司る場合を図示している。   A central processing unit (CPU) 10 is a processing unit for controlling the overall operation of the information processing apparatus. The memory 11 is a main storage device for storing various data used in the central processing unit 10, and is a memory using a DIMM (Dual Inline Memory Module) or the like. One of the target memories. The non-volatile memory 12 is a memory that retains data even when the power is turned off, and stores various data and firmware used in the central processing unit 10 as a diagnostic function unit. Data and tables necessary for the memory test apparatus are also stored. The chip set 20 is an integrated circuit group that manages an interface between the central processing unit 10 and various IO (Input / Output) devices. In FIG. 1, the central processing unit 10, the baseboard management controller 30, and the like. The case where it manages the interface between is illustrated.

ベースボード管理コントローラ(BMC)30は、中央処理装置10上のOSとは独立に動作する処理装置であり、メモリ31やSRAM32等の障害処理を実施したり、障害からの復旧処理を実施したりする。図1においては、少なくともメモリ31に障害が発生したことを外部に対して通知することができる機能と障害が発生したときの症状を示す情報を採取して保持することができる機能とを備えている。また、メモリ31は、ベースボード管理コントローラ30で使用される各種のデータを記憶するための記憶装置であり、DIMM(Dual Inline Memory Module)等を用いたメモリであって、本メモリ試験装置が試験対象とするもう一つメモリである。また、SRAM32は、電源がオフ状態になってもベースボード管理コントローラ30において必要となるデータを保持するための記憶装置であって、診断機能部としてベースボード管理コントローラ30で使用される各種のデータやファームウェアを格納するためのメモリであり、本メモリ試験装置において必要とするデータやテーブルも記憶している。なお、SRAM32は、不揮発性メモリ12と同様の不揮発性メモリであっても構わない。   The baseboard management controller (BMC) 30 is a processing device that operates independently of the OS on the central processing unit 10, and performs failure processing of the memory 31, the SRAM 32, etc., and recovery processing from the failure. To do. In FIG. 1, at least a function capable of notifying the outside that a failure has occurred in the memory 31 and a function capable of collecting and holding information indicating a symptom when the failure has occurred are provided. Yes. The memory 31 is a storage device for storing various data used by the baseboard management controller 30, and is a memory using a DIMM (Dual Inline Memory Module) or the like. Another target memory. The SRAM 32 is a storage device for holding data necessary for the baseboard management controller 30 even when the power is turned off, and various data used by the baseboard management controller 30 as a diagnostic function unit. And a memory for storing firmware, and also stores data and tables necessary for the memory test apparatus. Note that the SRAM 32 may be a nonvolatile memory similar to the nonvolatile memory 12.

また、中央処理装置10には、ハードウェアとの間で最も低いレベルで入出力を行うファームウェアとして、BIOS(Basic Input/Output System)40が備えられており、立ち上げ時に、本メモリ試験装置の重要な機能の一つである特別なメモリ試験をメモリ11等に対して実施する機能も有している。一方、ベースボード管理コントローラ30には、ハードウェアとの間で最も低いレベルで入出力を行うファームウェアとして、BMCFW(BMC Firmware)41が備えられており、BIOS40と同様、立ち上げ時に、本メモリ試験装置の重要な機能の一つである特別なメモリ試験をメモリ31等に対して実施する機能も有している。   Further, the central processing unit 10 is provided with a BIOS (Basic Input / Output System) 40 as firmware for performing input / output with the hardware at the lowest level. It also has a function of performing a special memory test, which is one of important functions, on the memory 11 and the like. On the other hand, the baseboard management controller 30 is provided with a BMCFW (BMC Firmware) 41 as firmware that performs input / output at the lowest level with the hardware. A special memory test, which is one of the important functions of the apparatus, is also performed on the memory 31 and the like.

なお、ベースボード管理コントローラ30、ベースボード管理コントローラ30用のメモリ31、ベースボード管理コントローラ30のデータ保持用のSRAM32は、本実施形態においては、実装する場合について説明するが、メモリ試験の実施対象が中央処理装置10にて使用されるメモリ11のみであった場合には、場合によっては、実装しないようにしても良い。   In this embodiment, the base board management controller 30, the memory 31 for the base board management controller 30, and the SRAM 32 for holding data of the base board management controller 30 will be described. However, if only the memory 11 used in the central processing unit 10 is used, it may not be mounted in some cases.

(実施形態の動作の説明)
次に、図1に示したメモリ試験装置の動作の一例について、図2、図3のフローチャートを用いて詳細に説明する。図2は、情報処理装置として中央処理装置10がメモリ11を使用している際、または、ベースボード管理コントローラ30がメモリ31を使用している際に、当該メモリ11またはメモリ31に訂正可能障害が発生したときの動作の一例を示すフローチャートであり、訂正可能障害が発生したメモリエリアアドレス空間を登録したり、メモリエリアアドレス空間に対するページ閉塞を実施したりする動作例を示している。
(Description of operation of embodiment)
Next, an example of the operation of the memory test apparatus shown in FIG. 1 will be described in detail with reference to the flowcharts of FIGS. FIG. 2 shows that when the central processing unit 10 is using the memory 11 as an information processing device, or when the baseboard management controller 30 is using the memory 31, the memory 11 or the memory 31 can be corrected. 7 is a flowchart illustrating an example of an operation when a memory failure occurs, and illustrates an operation example in which a memory area address space in which a correctable failure has occurred is registered or a page is blocked for the memory area address space.

また、図3は、図2において発生した訂正可能障害のメモリエリアアドレス空間に対して情報処理装置の再立ち上げ時に特別なメモリ試験を実施して、該メモリ試験の実施結果に基づいてメモリエリアアドレス空間のページ閉塞を解除したり、逆に、ページ閉塞を行うとともに障害情報を採取して保管したりする動作の一例を示すフローチャートである。図3のフローチャートにおいては、情報処理装置に立ち上げ時に、前回の運用中におけるメモリの障害状況があらかじめ登録されている障害発生回数登録テーブルを利用して特別なメモリ試験を実施して、中央処理装置10上で動作するOSが、ページ閉塞を解除すべきか、または、ページ閉塞を実施すべきか、というメモリ試験実施結果をOSに対して通知する動作例を示している。   Also, FIG. 3 shows a memory area based on the result of the memory test performed by performing a special memory test on the memory area address space of the correctable failure that occurred in FIG. It is a flowchart which shows an example of operation | movement which cancels | releases the page block of address space, and conversely performs a page block and collects and stores failure information. In the flowchart of FIG. 3, when the information processing apparatus is started up, a special memory test is performed using a failure occurrence number registration table in which the failure state of the memory during the previous operation is registered in advance. An example of operation in which the OS operating on the apparatus 10 notifies the OS of a memory test execution result indicating whether the page block should be released or the page block should be performed is shown.

なお、以下で用いている"メモリエリアのアドレス"とは、次のような意味である。すなわち、"メモリエリアのアドレス"とは、中央処理装置10がメモリ11にアクセスする際のアドレス(メモリアクセスアドレス)、または、ベースボード管理コントローラ30がメモリ31にアクセスする際のアドレス(メモリアクセスアドレス)をページ閉塞単位に区切ったものを示している。   The “memory area address” used below has the following meaning. That is, the “memory area address” is an address when the central processing unit 10 accesses the memory 11 (memory access address), or an address when the baseboard management controller 30 accesses the memory 31 (memory access address). ) Is divided into page block units.

ここで、"ページ閉塞単位"は、中央処理装置10やベースボード管理コントローラ30上で動作するOSの種類によって容量が異なる。例えば、或るOSの場合には、1,024Byte単位であり、また、異なる別のOSの場合には、4,096Byte単位である。ページ閉塞単位が、4,096Byte単位であった場合には、メモリエリアのアドレス"1000(16進数表示)"の次のメモリエリアのアドレスは、"2000(16進数表示)"になる。   Here, the “page block unit” has a different capacity depending on the type of OS running on the central processing unit 10 and the baseboard management controller 30. For example, in the case of a certain OS, the unit is 1,024 bytes, and in the case of another different OS, the unit is 4,096 bytes. When the page block unit is 4,096 bytes, the address of the memory area next to the memory area address “1000 (hexadecimal number display)” is “2000 (hexadecimal number display)”.

したがって、ページ閉塞単位が4,096Byte単位の場合、メモリアクセスアドレスのアドレス範囲が"1000(16進数表示)"〜"1FFF(16進数表示)"までのメモリエリアのアドレスは、"1000(16進数表示)"であり、また、メモリアクセスアドレスのアドレス範囲が"2000(16進数表示)"〜"2FFF(16進数表示)"までのメモリエリアのアドレスは、"2000(16進数表示)"であり、また、メモリアクセスアドレスのアドレス範囲が"F000(16進数表示)"〜"FFFF(16進数表示)"までのメモリエリアのアドレスは、"F000(16進数表示)"である。   Therefore, when the page block unit is 4,096 bytes, the memory area address from “1000 (hexadecimal number display)” to “1FFF (hexadecimal number display)” is “1000 (hexadecimal number). The address of the memory area from “2000 (hexadecimal display)” to “2FFF (hexadecimal display)” is “2000 (hexadecimal display)”. The address of the memory area from “F000 (hexadecimal number display)” to “FFFF (hexadecimal number display)” is “F000 (hexadecimal number display)”.

次に、図2のフローチャートを用いて、情報処理装置として運用中につまり中央処理装置10がメモリ11を使用している際に訂正可能障害が発生した場合の動作の一例について説明する。   Next, an example of an operation when a correctable failure occurs during operation as an information processing apparatus, that is, when the central processing unit 10 uses the memory 11, will be described with reference to the flowchart of FIG.

図2のフローチャートにおいて、情報処理装置として中央処理装置10が例えばDIMM/メモリからなるメモリ11を使用している運用中においては、メモリ11に訂正可能障害が発生したか否かを障害検出用のハードウェアによって常時監視している(ステップA101)。   In the flowchart of FIG. 2, during operation in which the central processing unit 10 uses, for example, the DIMM 11 / memory as an information processing device, whether or not a correctable failure has occurred in the memory 11 is detected. Monitoring is always performed by hardware (step A101).

中央処理装置10がアクセスしたメモリ11に訂正可能障害が発生したことをハードウェアによって検出しない限り(ステップA201のNo)、ステップA201の動作を繰り返して、メモリ11のアクセス状態をハードウェアによって監視し続けることになる。一方、中央処理装置10がアクセスしたメモリ11に訂正可能障害が発生したことをハードウェアによって検出した場合には(ステップA201のYes)、障害を検出した当該ハードウェアは、訂正可能障害が発生したメモリエリアのアドレス例えばメモリエリアのアドレス"A1"を、訂正可能障害の発生回数に関する情報を管理するテーブルすなわち図4に示す障害発生回数登録テーブル100に登録する処理を制御する(ステップA202)。   Unless the hardware detects that a correctable fault has occurred in the memory 11 accessed by the central processing unit 10 (No in step A201), the operation of step A201 is repeated, and the access state of the memory 11 is monitored by hardware. Will continue. On the other hand, when it is detected by hardware that a correctable fault has occurred in the memory 11 accessed by the central processing unit 10 (Yes in step A201), the correctable fault has occurred in the hardware in which the fault has been detected. A process of registering the address of the memory area, for example, the address “A1” of the memory area in the table for managing information relating to the number of occurrences of correctable faults, that is, the fault occurrence count registration table 100 shown in FIG. 4 is controlled (step A202).

障害登録手段(障害登録主テップ)を形成するステップA202において、訂正可能障害が発生したメモリエリアのアドレス例えばメモリエリアのアドレス"A1"の図4に示す障害発生回数登録テーブル100への登録処理をBIOS40またはBMCFW41にて制御することにより、メモリエリアのアドレスごとの訂正可能障害の発生回数を記録している障害発生回数登録テーブル100のメモリエリアのアドレス例えばメモリエリアのアドレス"A1"に関する訂正可能障害の発生回数が更新される。   In step A202, which forms the failure registration means (failure registration main step), the process of registering the address of the memory area where the correctable failure has occurred, for example, the address "A1" of the memory area in the failure occurrence number registration table 100 shown in FIG. By controlling with the BIOS 40 or the BMCFW 41, the correctable fault relating to the address of the memory area of the fault occurrence number registration table 100 that records the correctable fault occurrence count for each address of the memory area, for example, the address “A1” of the memory area The number of occurrences of is updated.

図4は、障害発生回数登録テーブル100のテーブル構成の一例を示すテーブルであり、登録レコードが有効か否かを示す有効表示101、訂正可能障害が発生したメモリエリアアドレスを登録するメモリエリアアドレス102、訂正可能障害の発生回数を登録する発生回数103を少なくとも含んで構成されている。   FIG. 4 is a table showing an example of the table configuration of the failure occurrence count registration table 100. The valid display 101 indicates whether the registration record is valid, and the memory area address 102 for registering the memory area address where the correctable failure has occurred. The number of occurrences 103 for registering the number of occurrences of correctable faults is included at least.

ここで、図4に示す障害発生回数登録テーブル100は、中央処理装置10上で動作するBIOS40によって読み書き動作を制御する場合には、中央処理装置10にて使用される不揮発性メモリ12内に配置されており、一方、ベースボード管理コントローラ30上で動作するBMCFW41によって読み書き動作を制御する場合には、ベースボード管理コントローラ30にて使用されるSRAM32内に配置される。   Here, the failure occurrence frequency registration table 100 shown in FIG. 4 is arranged in the non-volatile memory 12 used in the central processing unit 10 when the read / write operation is controlled by the BIOS 40 operating on the central processing unit 10. On the other hand, when the read / write operation is controlled by the BMCFW 41 operating on the baseboard management controller 30, it is arranged in the SRAM 32 used in the baseboard management controller 30.

なお、図4に示す障害発生回数登録テーブル100は、訂正可能障害が発生したメモリエリアアドレスの登録レコード数が9個までの例を示しているが、本発明は、登録レコード数をこの例の9個に限るものではなく、訂正可能障害を検出するハードウェア上の制約がない限り、任意の登録レコード数を有する構成とすることができる。   Note that the failure occurrence frequency registration table 100 shown in FIG. 4 shows an example in which the number of registered records of the memory area address where a correctable failure has occurred is up to 9, but the present invention sets the number of registered records in this example. The number is not limited to nine, and any number of registered records can be used as long as there is no hardware restriction for detecting a correctable fault.

初期状態においては、障害発生回数登録テーブル100の有効表示101に示す"有効bit−m(m=1〜9)"のすべてについて、それぞれの登録レコードについて無効を示す"0"が設定されている。つまり、有効表示101に示す"有効bit−m"の値が無効を示す"0"の場合は、当該登録レコードに該当するメモリエリアアドレス102の"メモリエリアアドレス−m"および発生回数103の"カウンタ−m"は無効の情報であることを示している。一方、有効表示101の"有効bit−m(m=1〜9のいずれか)"が、当該登録レコードについて有効であることを示す"1"に設定されている場合、当該登録レコードに該当するメモリエリアアドレス102の"メモリエリアアドレス−m"および発生回数103の"カウンタ−m"は有意な情報として設定されていることを示している。   In the initial state, “0” indicating invalidity is set for each of the “valid bit-m (m = 1 to 9)” shown in the valid display 101 of the failure occurrence count registration table 100. . That is, when the value of “valid bit-m” shown in the valid display 101 is “0” indicating invalidity, “memory area address-m” of the memory area address 102 corresponding to the registration record and “number of occurrences 103” The counter-m ″ indicates invalid information. On the other hand, when “valid bit-m (one of m = 1 to 9)” of the valid display 101 is set to “1” indicating that the registration record is valid, it corresponds to the registration record. This indicates that “memory area address-m” of the memory area address 102 and “counter-m” of the number of occurrences 103 are set as significant information.

ステップA202において、訂正可能障害が発生したメモリエリアのアドレス例えばメモリエリアのアドレス"A1"に関して図4の障害発生回数登録テーブル100への登録処理を行う場合、初期状態では、前述の通り、有効表示101のすべての"有効bit−m(m=1〜9)"は、登録レコードが無効であることを示す"0"に設定されているので、有効表示101のいずれか任意の"有効bit−m"例えば"有効bit−1"が有効であることを示す"1"に書き換えられる。さらに、当該"有効bit−1"欄の登録レコードとして、メモリエリアアドレス102の"メモリエリアアドレス−1"は、訂正可能障害が発生したメモリエリアのアドレス例えばメモリエリアのアドレス"A1"に更新され、発生回数103の"カウンタ−1"は"0"から+1インクリメントされて"1"に更新される。   In step A202, when registering the address of the memory area in which the correctable fault has occurred, for example, the address “A1” of the memory area, in the fault occurrence count registration table 100 in FIG. Since all “valid bit-m (m = 1 to 9)” of 101 are set to “0” indicating that the registration record is invalid, any “valid bit- m "For example," valid bit-1 "is rewritten to" 1 "indicating that it is valid. Further, as a registration record in the “valid bit-1” column, “memory area address-1” of the memory area address 102 is updated to the address of the memory area where the correctable failure has occurred, for example, the address “A1” of the memory area. The “counter-1” of the occurrence count 103 is incremented by 1 from “0” and updated to “1”.

しかる後、訂正可能障害が発生したメモリエリアのアドレス例えばメモリエリアのアドレス"A1"の障害発生回数が、あらかじめ定めた閾値を超えたか否かを確認する(ステップA203)。該メモリエリアのアドレス例えばメモリエリアのアドレス"A1"の障害発生回数が閾値を超えていない場合は(ステップA203のNo)、ステップA201に復帰して、該メモリエリアのアドレス例えばメモリエリアのアドレス"A1"について次の訂正可能障害の発生を監視する状態を継続する。   Thereafter, it is confirmed whether or not the number of failure occurrences of the address of the memory area where the correctable failure has occurred, for example, the address “A1” of the memory area has exceeded a predetermined threshold (step A203). If the number of failure occurrences of the address of the memory area, for example, the address “A1” of the memory area does not exceed the threshold value (No in Step A203), the process returns to Step A201, and the address of the memory area, for example, the address of the memory area ” The state of monitoring the occurrence of the next correctable fault for A1 "is continued.

一方、該メモリエリアのアドレス例えばメモリエリアのアドレス"A1"の障害発生回数が閾値を超えた場合には(ステップA203のYes)、ステップA102に移行して、中央処理装置10上で動作するOSに対して、該メモリエリアのアドレス例えばメモリエリアのアドレス"A1"のページ(メモリエリアアドレス空間)は許容された障害発生回数を超えてしまっている旨を通知する。該通知を受け取った中央処理装置10上のOSは、閾値を超えた回数の訂正可能障害が発生した該メモリエリアのアドレス例えばメモリエリアのアドレス"A1"のページ(メモリエリアアドレス空間)に関するページ閉塞処理を実施し、当該ページを運用系から切り離して隔離する(ステップA102)。   On the other hand, when the number of failure occurrences of the address of the memory area, for example, the address “A1” of the memory area exceeds the threshold (Yes in Step A203), the process proceeds to Step A102 and the OS operating on the central processing unit 10 To the address of the memory area, for example, the page (memory area address space) of the address “A1” of the memory area, is notified that the allowable number of failures has been exceeded. The OS on the central processing unit 10 that has received the notification closes the page relating to the address of the memory area where the correctable failure has occurred a number of times exceeding the threshold, for example, the page (memory area address space) of the memory area address “A1”. The process is executed, and the page is separated from the active system and isolated (step A102).

次に、ステップA202における障害発生回数登録テーブル100の更新処理について、さらに詳細に説明する。障害発生回数登録テーブル100に登録レコードが全くない初期状態で、ステップA201にて訂正可能障害が検出されたメモリエリアのアドレス"A1"が転送されてくると、前述したように、有効表示101のいずれかの"有効bit−m"例えば"有効bit−1"が有効を示す"1"に書き換えられ、該当するメモリエリアアドレス102の"メモリエリアアドレス−1"には、転送されてきたメモリエリアのアドレス"A1"を格納し、発生回数103の"カウンタ−1"には+1インクリメントされて"1"を設定する。   Next, the update process of the failure occurrence number registration table 100 in step A202 will be described in more detail. When the address “A1” of the memory area in which the correctable failure is detected in step A201 is transferred in the initial state where there is no registration record in the failure occurrence number registration table 100, as described above, the valid display 101 is displayed. Any "valid bit-m", for example, "valid bit-1" is rewritten to "1" indicating validity, and the transferred memory area is transferred to "memory area address-1" of the corresponding memory area address 102 Address "A1" is stored, and "counter-1" of the number of occurrences 103 is incremented by +1 and set to "1".

しかる後、ステップA201にて訂正可能障害を検出したメモリエリアのアドレスとしてメモリエリアのアドレス"A1"が再度転送されてくると、まず、障害発生回数登録テーブル100の有効表示101の中から有効を示す"1"が設定されている"有効bit−m"を探索する。本実施例においては、例えば"有効bit−1"が"1"に設定されているので、該"有効bit−1"を抽出し、次に、該"有効bit−1"の登録レコードを確認する動作に移行する。すなわち、"有効bit−1"に登録されているメモリエリアアドレス102の"メモリエリアアドレス−1"が、今回転送されてきたメモリエリアのアドレス"A1"と一致しているか否かを確認する。   Thereafter, when the address “A1” of the memory area is transferred again as the address of the memory area in which the correctable fault is detected in step A201, first, the validity is displayed from the valid display 101 of the fault occurrence count registration table 100. Search for “valid bit-m” in which “1” is set. In this embodiment, for example, “valid bit-1” is set to “1”, so that “valid bit-1” is extracted, and then the registration record of “valid bit-1” is confirmed. Move to the operation. That is, it is confirmed whether or not the “memory area address-1” of the memory area address 102 registered in “valid bit-1” matches the address “A1” of the memory area transferred this time.

本実施例においては、メモリエリアアドレス102の"メモリエリアアドレス−1"は、今回転送されてきたメモリエリアのアドレス"A1"と一致しているので、今回転送されてきたメモリエリアのアドレス"A1"が障害発生回数登録テーブル100に登録済みであることが判別される。したがって、当該メモリエリアのアドレス"A1"において第2回目の訂正可能障害が発生したことを障害発生回数登録テーブル100に登録するために、発生回数103の"カウンタ−1"を+1インクリメントして"1"から"2"に更新する。   In the present embodiment, since the “memory area address-1” of the memory area address 102 matches the address “A1” of the memory area transferred this time, the address “A1” of the memory area transferred this time. It is determined that “is already registered in the failure occurrence frequency registration table 100. Therefore, in order to register in the failure occurrence number registration table 100 that the second correctable failure has occurred at the address “A1” of the memory area, “counter-1” of the occurrence number 103 is incremented by +1. Update from 1 "to" 2 ".

つまり、同一メモリエリアのアドレス"A1"において複数回の訂正可能障害が発生した場合、障害発生回数登録テーブル100への登録内容は、第1回目の障害発生時には、有効表示101の"有効bit−m"例えば"有効bit−1"を有効な状態"1"に設定する動作と、該当するメモリエリアアドレス102の"メモリエリアアドレス−1"にメモリエリアのアドレス"A1"を登録する動作と、該当する発生回数103の"カウンタ−1"を"1"に設定する動作とを実施することになる。一方、同一メモリエリアのアドレス"A1"の第2回目以降の障害発生時には、該当する発生回数103の"カウンタ−1"を+1インクリメントにする動作のみを実施することになる。   In other words, when a plurality of correctable failures occur at the address “A1” in the same memory area, the registered contents in the failure occurrence number registration table 100 are “valid bit−” of the valid display 101 when the first failure occurs. m “for example, an operation for setting“ valid bit-1 ”to a valid state“ 1 ”; an operation for registering the memory area address“ A1 ”in“ memory area address-1 ”of the corresponding memory area address 102; The operation of setting “counter-1” corresponding to the number of occurrences 103 to “1” is performed. On the other hand, when the second and subsequent failures of the address “A1” in the same memory area occur, only the operation of incrementing the “counter-1” of the corresponding occurrence count 103 by +1 is performed.

なお、ステップA201にて次に訂正可能障害を検出したメモリエリアのアドレスとして、最初に検出したメモリエリアのアドレス"A1"とは異なるメモリエリアのアドレス"A2"が転送されてきた場合には、障害発生回数登録テーブル100の有効表示101の中から有効を示す"1"が設定されている"有効bit−m(m=1〜9)"を探索して、"1"に設定されていた"有効bit−m"のいずれも、それぞれに該当するメモリエリアアドレス102の"メモリエリアアドレス−m"が、今回転送されてきたメモリエリアのアドレス"A2"と一致していない場合として、新規の登録動作になる。   If the address “A2” of the memory area different from the address “A1” of the memory area detected first is transferred as the address of the memory area where the next correctable failure is detected in step A201, "Valid bit-m (m = 1 to 9)" in which "1" indicating validity is set is searched from the valid display 101 of the failure occurrence count registration table 100 and set to "1". As for any of the “valid bit-m”, a case where the “memory area address-m” of the corresponding memory area address 102 does not match the address “A2” of the memory area transferred this time is new. It becomes registration operation.

したがって、有効表示101の"有効bit−m(m=1〜9)"のうち、無効を示す"0"が設定されている"有効bit−i"を探索して、探索した"有効bit−i"を、前述のように、有効を示す"1"に書き換えるとともに、該当するメモリエリアアドレス102の"メモリエリアアドレス−i"には、今回転送されてきたメモリエリアのアドレス"A2"を格納し、発生回数103の"カウンタ−i"には+1インクリメントされて"1"を設定する。   Therefore, “valid bit-i” in which “0” indicating invalidity is searched for among “valid bit-m (m = 1 to 9)” of the valid display 101, and the “valid bit- As described above, “i” is rewritten to “1” indicating validity, and the memory area address “A2” transferred this time is stored in “memory area address-i” of the corresponding memory area address 102. Then, “counter-i” of the number of occurrences 103 is incremented by +1 and set to “1”.

なお、障害発生回数登録テーブル100には登録されていない新たなメモリエリアのアドレス"A3"において訂正可能障害が発生したために、障害発生回数登録テーブル100への新規登録を行おうとして、有効表示101の"有効bit−m(m=1〜9)"のうち、無効を示す"0"が設定されている"有効bit−i"を探索した際に、"有効bit−m(m=1〜9)"のすべてが有効を示す"1"に設定されてしまっていて、満杯の状態になっていた場合には、有効な登録レコードの中から、置換することが最も可能な登録レコードを抽出して、登録済みの該登録レコードと差し替えることによって、新規登録を実施するようにしても良い。   Since a correctable failure has occurred at the address “A3” of a new memory area that is not registered in the failure occurrence number registration table 100, an effective display 101 is displayed in order to newly register in the failure occurrence number registration table 100. When “valid bit-i” in which “0” indicating invalidity is searched for among “valid bit-m (m = 1 to 9)”, “valid bit-m (m = 1 to 9)” is searched. 9) If all of "1" are set to "1" indicating validity and are full, the registration record that can be replaced is extracted from the valid registration records. Then, a new registration may be performed by replacing the registered record.

例えば、登録済みの各登録レコードの発生回数103の"カウンタ−m(m=1〜9)"の中から、カウント値が最も少ない"カウンタ−j"を検出して、発生回数が最も少ないメモリエリアアドレスとして検出したメモリエリアアドレス102の"メモリエリアアドレス−j"を、今回転送されてきた新規登録のメモリエリアのアドレス"A3"に書き換えるとともに、発生回数103の"カウンタ−j"を第1回目であることを示す"1"に書き換えるようにしても良い。また、発生回数が最も少ないメモリエリアアドレスが複数存在していた場合には、最若番側から発生回数が最も少ないメモリエリアアドレスを置換候補として選択するようにしても良いし、または、最老番側から発生回数が最も少ないメモリエリアアドレスを置換候補として選択するようにしても良い。   For example, the “counter-j” having the smallest count value is detected from the “counter-m (m = 1 to 9)” of the number of occurrences 103 of each registered record, and the memory having the smallest number of occurrences is detected. The "memory area address-j" of the memory area address 102 detected as the area address is rewritten to the address "A3" of the newly registered memory area transferred this time, and the "counter-j" of the occurrence count 103 is changed to the first. It may be rewritten to “1” indicating the second time. In addition, when there are a plurality of memory area addresses with the lowest occurrence frequency, the memory area address with the lowest occurrence frequency may be selected as the replacement candidate from the youngest number side, or the oldest The memory area address with the smallest number of occurrences may be selected as the replacement candidate from the number side.

あるいは、他の置換候補として、図4の障害発生回数登録テーブル100には記載していないが、各登録レコードについて、最新に発生した訂正可能障害の発生日時を障害発生回数登録テーブル100に登録することにし、最新に発生した訂正可能障害の発生日時が最も古いメモリエリアアドレスを、新規登録のメモリエリアアドレスに対する置換候補として選択するようにしても良い。   Alternatively, although not described in the failure occurrence number registration table 100 of FIG. 4 as other replacement candidates, the most recent correctable failure occurrence date and time is registered in the failure occurrence number registration table 100 for each registered record. In other words, the memory area address with the oldest correctable failure occurrence date and time may be selected as a replacement candidate for the newly registered memory area address.

次に、図3のフローチャートを用いて、あらかじめ定めたテストパターンからなる特別なメモリ試験により、情報処理装置の立ち上げ動作中に実施するメモリ確認動作例について説明する。   Next, an example of a memory check operation performed during the start-up operation of the information processing apparatus using a special memory test having a predetermined test pattern will be described with reference to the flowchart of FIG.

情報処理装置の立ち上げ動作が指示されると(ステップB100)、中央処理装置10上で動作するBIOS40およびベースボード管理コントローラ30上で動作するBMCFW41は、不揮発性メモリ12およびSRAM32それぞれに備えている図4の障害発生回数登録テーブル100を参照して登録内容を確認する(ステップB101)。登録内容の確認動作として、まず、障害発生回数登録テーブル100のすべての登録レコードを確認したか否かをチェックする(ステップB102)。すべての登録レコードのチェックがまだ完了していない場合は(ステップB102のNo)、次にチェックすべき登録レコードの有効表示101の"有効bit−m(m=1〜9のいずれか)"が、有効を示す"1"に設定されているか否かを確認する(ステップB103)。   When an instruction to start up the information processing apparatus is issued (step B100), the BIOS 40 operating on the central processing unit 10 and the BMCFW 41 operating on the baseboard management controller 30 are provided in the nonvolatile memory 12 and the SRAM 32, respectively. The registered contents are confirmed with reference to the failure occurrence frequency registration table 100 in FIG. 4 (step B101). As a confirmation operation of the registered contents, first, it is checked whether or not all registered records in the failure occurrence number registration table 100 have been confirmed (step B102). If all of the registration records have not been checked yet (No in step B102), “valid bit-m (any of m = 1 to 9)” of the valid display 101 of the registration record to be checked next is displayed. Then, it is confirmed whether or not “1” indicating validity is set (step B103).

有効を示す"1"に設定されていない場合は(ステップB103のNo)、無効なデータであるので、次の登録レコードをチェックするために、ステップB102に復帰する。一方、登録レコードの有効表示101の"有効bit−m(m=1〜9のいずれか)"が、有効を示す"1"に設定されていた場合は(ステップB103のYes)、当該"有効bit−m(m=1〜9のいずれか)"を無効を示す"0"に初期化するとともに、当該登録レコードに該当するメモリエリアアドレス102の"メモリエリアアドレス−m"を取り出して(ステップB104)、該"メモリエリアアドレス−m"が示すメモリエリアのアドレスに対して、前述したような特別なメモリ試験を実施する(ステップB105)。   If “1” indicating validity is not set (No in Step B103), the data is invalid, and the process returns to Step B102 to check the next registration record. On the other hand, when “valid bit-m (any of m = 1 to 9)” in the valid display 101 of the registered record is set to “1” indicating validity (Yes in step B103), the “valid” bit-m (one of m = 1 to 9) ”is initialized to“ 0 ”indicating invalidity, and“ memory area address-m ”of the memory area address 102 corresponding to the registration record is extracted (step B104) A special memory test as described above is performed on the address of the memory area indicated by the "memory area address-m" (step B105).

ここで、該"メモリエリアアドレス−m"が示すメモリエリアのアドレスは、前述したように、ページ閉塞単位となる或る範囲のメモリエリアアドレス空間であり、特別なメモリ試験は、当該範囲のメモリエリアアドレス空間に対して網羅的に実施されることになる。また、メモリ試験実施手段(メモリ試験実施ステップ)を形成するステップB105において実施する特別なメモリ試験は、訂正可能障害が発生する可能性があるテストパターンを用いた試験であり、具体的には、前述したように、オール"0"書き込みや、オール"1"書き込みの場合だけではなく、"0"書き込み/読み出し→"1"書き込み/読み出し→"0"書き込み/読み出し→"1"書き込み/読み出しのような"0"、"1"反転書き込み/読み出しシーケンスや、"0x5555"書き込み/読み出し→"0xAAAA"書き込み/読み出し→"0x5555"書き込み/読み出しのような"01パターン"、"10パターン"反転書き込み/読み出しシーケンスなども含むメモリ試験である。   Here, as described above, the address of the memory area indicated by the “memory area address−m” is a certain range of memory area address space as a page block unit. It will be implemented exhaustively for the area address space. Further, the special memory test performed in step B105 forming the memory test execution means (memory test execution step) is a test using a test pattern in which a correctable failure may occur. Specifically, As described above, not only for all “0” write and all “1” write, but also “0” write / read → “1” write / read → “0” write / read → “1” write / read “0”, “1” inversion write / read sequence such as “0x5555” write / read → “0xAAAA” write / read → “0x5555” “01 pattern”, “10 pattern” inversion, etc. This is a memory test including a write / read sequence.

なお、本実施例においては、特別なメモリ試験は、登録レコードの有効表示101の"有効bit−m(m=1〜9のいずれか)"が、有効を示す"1"に設定されているすべてのメモリエリアのアドレス空間(つまり、訂正可能障害が検知されたメモリエリアのアドレス空間)に対して実施する場合について説明しているが、本発明は、この場合に限るものではない。例えば、ページ閉塞された状態にあるメモリエリアのアドレス空間のみに対して、言い換えれば、有効表示101の"有効bit−m(m=1〜9のいずれか)"が有効を示す"1"に設定されているメモリエリアのアドレス空間のうち、発生回数103の"カウンタ−m(m=1〜9)"のカウント値が、あらかじめ定めた閾値を超えているメモリエリアのアドレス空間のみに対して実施するようにしても良い。   In this embodiment, in the special memory test, “valid bit-m (one of m = 1 to 9)” of the valid display 101 of the registered record is set to “1” indicating validity. Although the description has been given of the case where the present invention is applied to the address space of all the memory areas (that is, the address space of the memory area in which a correctable failure is detected), the present invention is not limited to this case. For example, for only the address space of the memory area that is in a page-blocked state, in other words, “valid bit-m (any of m = 1 to 9)” of the valid display 101 is “1” indicating that it is valid. Of the address space of the set memory area, only the address space of the memory area in which the count value of “counter-m (m = 1 to 9)” of the number of occurrences 103 exceeds a predetermined threshold value. You may make it implement.

また、特別なメモリ試験を実施すべき対象となるメモリエリアのアドレス空間が複数存在している場合には、特別なメモリ試験の実施順序として、最若番側から、順次、有効を示す"1"が設定されているメモリエリアのアドレス空間(つまり、訂正可能障害が検知されたメモリエリアのアドレス空間)またはページ閉塞されたメモリエリアのアドレス空間に対して実施していくように順序付けを行うようにしても良い。   In addition, when there are a plurality of address spaces in a memory area to be subjected to a special memory test, the order of execution of the special memory test is sequentially indicated from the lowest number as “1”. The ordering is performed so as to be performed for the address space of the memory area where "" is set (that is, the address space of the memory area where the correctable failure is detected) or the address space of the memory area where the page is blocked. Anyway.

図3のフローチャートに戻って、次に、ステップB104において障害発生回数登録テーブル100から取り出した或る"メモリエリアアドレス−m"が示すメモリエリアのアドレス空間に対して、ステップB105において実施した特別なメモリ試験の実施結果の良否判定を行う(ステップB106)。   Returning to the flowchart of FIG. 3, the special processing performed in step B <b> 105 is performed on the address space of the memory area indicated by a certain “memory area address−m” extracted from the failure occurrence frequency registration table 100 in step B <b> 104. The quality of the memory test execution result is determined (step B106).

特別なメモリ試験の実施結果として故障を検知しなかった場合には(ステップB106のNo)、当該メモリエリアのアドレス空間は正常な状態にあるものとして、特別なメモリ試験の試験結果として、障害が検知されたメモリエリアアドレスを登録する図5のメモリ試験結果登録テーブル200への登録動作を行うことなく、障害発生回数登録テーブル100の次の登録レコードをチェックするために、ステップB102に復帰する。この結果、たとえ、先の運用中にページ閉塞状態に設定されたとしても、情報処理装置の再立ち上げ後においては、ページ閉塞状態から開放されて、OSが使用可能な状態に復帰することになる。   If no failure is detected as a result of the special memory test (No in Step B106), it is assumed that the address space of the memory area is in a normal state, and a fault is detected as the test result of the special memory test. In order to check the next registration record in the failure occurrence number registration table 100 without performing the registration operation in the memory test result registration table 200 of FIG. 5 for registering the detected memory area address, the process returns to Step B102. As a result, even if the page block state is set during the previous operation, after the information processing apparatus is restarted, the page block state is released and the OS can be returned to a usable state. Become.

一方、特別なメモリ試験の実施結果として故障を検知した場合には(ステップB106のYes)、当該メモリエリアのアドレス空間は、故障が発生しているものとして、今回の立ち上げ時においてはOSがシステムに組み込むことができないページ閉塞候補として、BIOS40またはBMCFW41は、不揮発性メモリ12またはSRAM32に備えている図5のメモリ試験結果登録テーブル200の登録内容を更新する(ステップB107)。   On the other hand, when a failure is detected as a result of the special memory test (Yes in step B106), the address space in the memory area is assumed to have failed, and the OS is not As a page blocking candidate that cannot be incorporated into the system, the BIOS 40 or BMCFW 41 updates the registration contents of the memory test result registration table 200 of FIG. 5 provided in the nonvolatile memory 12 or the SRAM 32 (step B107).

図5は、メモリ試験結果登録テーブル200のテーブル構成の一例を示すテーブルであり、登録レコードが有効か否かを示す有効表示201、故障を検知したメモリエリアアドレスを登録するメモリエリアアドレス202を少なくとも含んで構成されている。   FIG. 5 is a table showing an example of a table configuration of the memory test result registration table 200. The memory test result registration table 200 includes at least a valid display 201 indicating whether or not a registration record is valid, and a memory area address 202 for registering a memory area address in which a failure is detected. It is configured to include.

ここで、図5に示すメモリ試験結果登録テーブル200は、中央処理装置10上で動作するBIOS40によって読み書き動作を制御する場合には、中央処理装置10にて使用される診断機能部の不揮発性メモリ12内に配置されており、一方、ベースボード管理コントローラ30上で動作するBMCFW41によって読み書き動作を制御する場合には、ベースボード管理コントローラ30にて使用される診断機能部のSRAM32内に配置されている。   Here, the memory test result registration table 200 shown in FIG. 5 is a non-volatile memory of the diagnostic function unit used in the central processing unit 10 when the read / write operation is controlled by the BIOS 40 operating on the central processing unit 10. On the other hand, when the BMCFW 41 operating on the baseboard management controller 30 controls the read / write operation, it is disposed in the SRAM 32 of the diagnostic function unit used in the baseboard management controller 30. Yes.

なお、図5に示すメモリ試験結果登録テーブル200は、特別なメモリ試験において故障を検知したメモリエリアアドレスの登録レコード数が、n個で示すように、図4の障害発生回数登録テーブル100の場合とは異なり、9個までではなく、任意の登録レコード数を有する構成としている。一般には、図5のメモリ試験結果登録テーブル200の登録可能レコード数は、図4の障害発生回数登録テーブル100の場合よりも多くなるように構成することが望ましい。   Note that the memory test result registration table 200 shown in FIG. 5 is the case of the fault occurrence frequency registration table 100 shown in FIG. Unlike the above, the number of registered records is not limited to nine. In general, it is desirable that the number of records that can be registered in the memory test result registration table 200 in FIG. 5 is larger than that in the failure occurrence number registration table 100 in FIG.

情報処理装置を新規に設置した初期状態においては、メモリ試験結果登録テーブル200の有効表示201に示す"有効bit−m(m=1〜n)"のすべてについて、それぞれの登録レコードについて無効を示す"0"が設定されている。つまり、有効表示201に示す"有効bit−m"の値が無効を示す"0"の場合は、当該登録レコードに該当するメモリエリアアドレス202の"メモリエリアアドレス−m"は無効の情報であることを示している。一方、有効表示201の"有効bit−m(m=1〜nのいずれか)"が、当該登録レコードについて有効であることを示す"1"に設定されている場合、当該登録レコードに該当するメモリエリアアドレス102の"メモリエリアアドレス−m"は有意な情報として設定されていることを示している。   In an initial state in which an information processing apparatus is newly installed, all “valid bit-m (m = 1 to n)” shown in the valid display 201 of the memory test result registration table 200 are invalid for each registration record. “0” is set. That is, when the value of “valid bit-m” shown in the valid display 201 is “0” indicating invalidity, “memory area address-m” of the memory area address 202 corresponding to the registration record is invalid information. It is shown that. On the other hand, when “valid bit-m (any of m = 1 to n)” of the valid display 201 is set to “1” indicating that it is valid for the registration record, it corresponds to the registration record. This indicates that “memory area address-m” of the memory area address 102 is set as significant information.

なお、メモリ試験結果登録テーブル200の有効表示201に示す"有効bit−m(m=1〜n)"は、オペレータによる消去操作等の特別の操作を実施した場合に限って、無効を示す"0"に設定することができるものであって、情報処理装置の立ち上げの都度、無効を示す"0"に設定されるものでもないし、また、ハードウェア、BIOS40またはBMCFW41の判定によって自動的に消去されることもなく、情報処理装置の立ち上げ時に実施される特別なメモリ試験結果として故障を検知すれば、システムとして使用可能なメモリ容量が不足しない量としてあらかじめ定めた或る一定量に達するまでは順次蓄積されていくことになる。   Note that “valid bit-m (m = 1 to n)” shown in the valid display 201 of the memory test result registration table 200 indicates invalid only when a special operation such as an erasing operation by the operator is performed. It can be set to “0”, and is not set to “0” indicating invalidity every time the information processing apparatus is started up. Also, it is automatically determined by determination of hardware, BIOS 40 or BMCFW 41 If a failure is detected as a result of a special memory test that is performed when the information processing apparatus is started up without being erased, the memory capacity that can be used as a system reaches a certain predetermined amount. Until then, it will be accumulated sequentially.

つまり、図5のメモリ試験結果登録テーブル200は、図4の障害発生回数登録テーブル100とほとんど同じであるが、主に以下の点が異なっている。
(1)メモリ試験結果登録テーブル200の登録可能レコード数は、一般に、図4の障害発生回数登録テーブル100の場合よりも多い。
(2)特定の操作(つまりオペレータによる消去操作)を実施しない限り、図5のメモリ試験結果登録テーブル200の登録内容は消去されない。つまり、図5のメモリ試験結果登録テーブル200の有効表示201に示す"有効bit−m(m=1〜n)"は、特定の操作を実施しない限り、無効を示す"0"にはならない。
(3)図4の障害発生回数登録テーブル100の有効表示201に示す"有効bit−m(m=1〜n)"は、情報処理装置を立ち上げる都度、図3のステップB104において、無効を示す"0"に設定されることによって、"有効bit−m(m=1〜n)"のすべてが、無効を示す"0"に設定されるが、一方、図5のメモリ試験結果登録テーブル200の有効表示201に示す"有効bit−m(m=1〜n)"は、ハードウェア、BIOS40またはBMCFW41の判定によって自動的に無効を示す"0"に設定されることはない。
That is, the memory test result registration table 200 in FIG. 5 is almost the same as the failure occurrence number registration table 100 in FIG. 4, but mainly differs in the following points.
(1) The number of records that can be registered in the memory test result registration table 200 is generally larger than that in the failure occurrence number registration table 100 of FIG.
(2) The registered content of the memory test result registration table 200 in FIG. 5 is not erased unless a specific operation (that is, an erase operation by the operator) is performed. That is, “valid bit-m (m = 1 to n)” shown in the valid display 201 of the memory test result registration table 200 in FIG. 5 does not become “0” indicating invalidity unless a specific operation is performed.
(3) The “valid bit-m (m = 1 to n)” shown in the valid display 201 of the failure occurrence count registration table 100 in FIG. 4 is invalidated in step B104 in FIG. By setting “0” to indicate, all “valid bit-m (m = 1 to n)” are set to “0” indicating invalidity, but on the other hand, the memory test result registration table of FIG. The “valid bit-m (m = 1 to n)” shown in the valid display 201 of 200 is not automatically set to “0” indicating invalidity by the determination of the hardware, the BIOS 40 or the BMCFW 41.

ステップB107において、故障が検知されたメモリエリアのアドレス例えばメモリエリアのアドレス"A1"に関して図5のメモリ試験結果登録テーブル200への登録処理を行う場合、初期状態では、前述の通り、有効表示201のすべての"有効bit−m(m=1〜n)"は、登録レコードが無効であることを示す"0"に設定されているので、有効表示201のいずれかの"有効bit−m"例えば"有効bit−1"が有効であることを示す"1"に書き換えられる。さらに、当該"有効bit−1"欄の登録レコードとして、メモリエリアアドレス202の"メモリエリアアドレス−1"は、今回立ち上がるOSがシステムに組み込むことを抑止するページ閉塞候補として、特別なメモリ試験において故障が検知されたメモリエリアのアドレス例えばメモリエリアのアドレス"A1"に更新される。   In step B107, when the registration process to the memory test result registration table 200 of FIG. 5 is performed with respect to the address of the memory area where the failure is detected, for example, the address “A1” of the memory area, in the initial state, as described above, the valid display 201 Since all “valid bit-m (m = 1 to n)” are set to “0” indicating that the registration record is invalid, any “valid bit-m” in the valid display 201 is displayed. For example, “valid bit-1” is rewritten to “1” indicating that it is valid. Further, as a registration record in the “valid bit-1” column, “memory area address-1” of the memory area address 202 is used as a page blocking candidate to prevent the OS that is currently started from being incorporated into the system in a special memory test. The address of the memory area where the failure is detected, for example, the address “A1” of the memory area is updated.

さらに、故障が検知された当該メモリエリアアドレス空間(つまり、図2のフローチャートにおいてページ閉塞されたメモリエリアアドレス空間、訂正可能障害が発生したメモリエリアアドレス空間のうち、特別なメモリ試験にて障害が検知されたメモリエリアアドレス空間)を、システムに組み込むことなく、隔離したままの状態にするためのページ閉塞候補とするのみならず、障害情報保持手段(障害情報保持ステップ)として、当該メモリエリアアドレス空間の障害診断を効果的に実施することができるように、当該特別なメモリ試験においてエラーになった時のメモリアドレス、データパターンを、障害解析用の情報として、例えば、メモリ11またはメモリ31がDIMMの場合には当該DIMMの各種のスペックを格納しているROM領域であるSPD(Special Presence Detect)、あるいは、当該特別なメモリ試験のファームウェアが格納されている診断機能部の不揮発性メモリ12またはSRAM32等に保持する(ステップB108)。   Further, the memory area address space in which the failure is detected (that is, the memory area address space in which the page is blocked in the flowchart of FIG. 2 or the memory area address space in which the correctable failure has occurred) The detected memory area address space) is not limited to a page block candidate for being kept in an isolated state without being incorporated into the system, but also as a failure information holding means (fault information holding step). In order to effectively perform the fault diagnosis of the space, for example, the memory 11 or the memory 31 uses the memory address and data pattern when an error occurs in the special memory test as information for failure analysis. In the case of a DIMM, various specifications of the DIMM are stored. Is OM region SPD (Special Presence Detect), or the special memory test firmware held in the nonvolatile memory 12 or SRAM32 such diagnostics unit stored (step B 108).

なお、特別なメモリ試験の試験結果の保持は、DIMMのSPDだけでも良いし、診断機能部の不揮発性メモリ12またはSRAM32だけでも良いし、DIMMのSPD、不揮発性メモリ12またはSRAM32の両方であっても良い。また、DIMMのSPDや不揮発性メモリ12、SRAM32には、複数の試験結果(メモリアドレス、データパターン)を保持することができる。保持したメモリアドレス、データパターンは、障害解析時に使用されることになる。しかる後、障害発生回数登録テーブル100の次の登録レコードをチェックするために、ステップB102に復帰する。   It should be noted that the test result of the special memory test may be retained only by the DIMM SPD, the nonvolatile memory 12 or the SRAM 32 of the diagnostic function unit, or both the DIMM SPD, the nonvolatile memory 12 or the SRAM 32. May be. The DIMM SPD, the nonvolatile memory 12 and the SRAM 32 can hold a plurality of test results (memory addresses and data patterns). The held memory address and data pattern are used at the time of failure analysis. Thereafter, in order to check the next registration record in the failure occurrence count registration table 100, the process returns to Step B102.

ステップB102において、すべての登録レコードのチェックが完了したことを判別した場合は(ステップB102のYes)、特別なメモリ試験の実施結果を登録しているメモリ試験結果登録テーブル200の登録内容を確認して、有効表示201の"有効bit−m(m=1〜n)"が有効であることを示す"1"に設定されている登録レコードが存在しているか否かをチェックする(ステップB109)。   When it is determined in step B102 that all the registered records have been checked (Yes in step B102), the registered contents of the memory test result registration table 200 in which the results of the special memory test are registered are confirmed. Then, it is checked whether or not there is a registration record set to “1” indicating that “valid bit-m (m = 1 to n)” of the valid display 201 is valid (step B109). .

有効表示201の"有効bit−m(m=1〜n)"が"1"に設定されている登録レコードが存在していた場合には(ステップB109のYes)、立ち上げ動作中のOSは、ページ閉塞手段(ページ閉塞ステップ)として、該当するメモリエリアアドレス202の"メモリエリアアドレス−m"に設定されているメモリエリアアドレス空間を、ページ閉塞状態に設定することによって、今回の立ち上げにおいて、OSがシステムに組み込むことを抑止して、当該メモリエリアアドレス空間を立ち上げ後の運用中に使用することができない状態に隔離する(ステップB110)。   If there is a registration record in which “valid bit-m (m = 1 to n)” of the valid display 201 is set to “1” (Yes in step B109), the OS being started up is As a page blocking means (page blocking step), the memory area address space set in the “memory area address-m” of the corresponding memory area address 202 is set to the page blocking state, so that the current startup The OS is prevented from being incorporated into the system, and the memory area address space is isolated so that it cannot be used during operation after startup (step B110).

一方、有効表示201の"有効bit−m(m=1〜n)"が"1"に設定されているメモリエリアアドレス202の"メモリエリアアドレス−m"に設定されているメモリエリアアドレス空間を除く他のメモリエリアアドレス空間については、正常復帰手段(正常復帰ステップ)として、今回の立ち上げにおいて、OSがシステムに組み込むことにより、当該メモリエリアアドレス空間を立ち上げ後の運用時に使用することを可能な状態にする。すなわち、メモリ試験結果登録テーブル200に登録されていないメモリエリアアドレス空間については、たとえ、図2のフローチャートにおいて前回の運用時にページ閉塞状態に設定されていたとしても、今回の立ち上げ時に実施した特別なメモリ試験結果として、故障が検知されることがなかったので、正常な状態に復帰したものと看做して、今回の立ち上げにおいて、OSがシステムに組み込み、使用可能な状態に設定する。   On the other hand, the memory area address space set in “memory area address-m” of the memory area address 202 in which “valid bit-m (m = 1 to n)” in the valid display 201 is set to “1”. For the other memory area address spaces, the OS is incorporated into the system at the start-up as a normal return means (normal return step) so that the memory area address space can be used during operation after the start-up. Make it possible. That is, for the memory area address space that is not registered in the memory test result registration table 200, even if the page block state was set during the previous operation in the flowchart of FIG. As a result of the memory test, since no failure was detected, it is considered that the system has returned to a normal state, and the OS is incorporated into the system and set to a usable state at this start-up.

以上のごとき特別なメモリ試験を実施することによって、情報処理装置の立ち上げ時に、前回までの運用時にはページ閉塞されていたメモリエリアアドレス空間あるいは訂正可能障害を検出していたメモリエリアアドレス空間についても、システムに再度組み込むことを可能にするとともに、特別なメモリ試験において訂正可能障害が再現した場合には、当該メモリエリアアドレス空間をページ閉塞し、かつ、特別なメモリ試験時の詳細なデータ(メモリアドレスやテストパターン)を保持して、障害解析に有効に使用することを可能にしている。   By performing a special memory test as described above, when the information processing device is started up, the memory area address space that has been page-blocked during the previous operation or the memory area address space that has detected a correctable fault In the case where a correctable fault is reproduced in a special memory test, the memory area address space is blocked, and detailed data (memory Address and test pattern) and can be used effectively for failure analysis.

(実施形態の効果の説明)
以上に詳細に説明したように、本実施形態においては、次のような効果が得られる。
(Explanation of effect of embodiment)
As described in detail above, the following effects are obtained in the present embodiment.

第1の効果は、特に、間歇的にメモリ上のデータが或る値にスタック/固定化した場合等において、一時的にページ閉塞したメモリエリアアドレス空間を自動的に再利用することが可能になることである。   The first effect is that the memory area address space in which the page is temporarily blocked can be automatically reused particularly when the data on the memory is intermittently stacked / fixed to a certain value. It is to become.

第2の効果は、次の点にある。近年の組み込み系情報処理装置にもページ閉塞機能が既に備えられているかまたは今後組み込まれていく状況にあるが、しかし、組み込み系情報処理装置のメモリは大容量ではなく、小容量の場合がほとんどである。また、SRAMなどの小容量RAMに対してもページ閉塞機能を実施する状況にある。かくのごとき小容量のメモリに対してページ閉塞が実施されると、使用可能なメモリ容量が大幅に減少してしまうことになって、システム動作が不安定になってしまう場合も生じる。本発明においては、システムの立ち上げの都度、可能な限りページ閉塞を実施しないように設定することができるので、システム動作の安定化を図ることができる、という効果が得られる。   The second effect is as follows. Recent embedded information processing devices already have a page-blocking function or are in the process of being incorporated in the future. However, the memory of embedded information processing devices is not large in capacity but mostly small in capacity. It is. In addition, the page blocking function is also implemented for a small-capacity RAM such as an SRAM. When page blocking is performed for such a small-capacity memory, the usable memory capacity is greatly reduced, and the system operation may become unstable. In the present invention, every time the system is started up, it can be set so as not to block the page as much as possible, so that an effect of stabilizing the system operation can be obtained.

第3の効果は、立ち上げ時に実施する特別なメモリ試験においてエラー(故障)を検知した時のメモリアドレス、データパターンをメモリ11やメモリ31のDIMM(Dual Inline Memory Module)のSPD(Special Presence Detect)、診断機能部の不揮発性メモリ12やSRAM(Static Random Access Memory)32等に保持するので、故障診断用に以降に実施する再現試験において、故障が再現しなくとも、保持されている詳細な障害状態に基づいて、障害解析を行うことが容易になることである。   The third effect is that a memory address and a data pattern when an error (failure) is detected in a special memory test performed at start-up are displayed as SPD (Special Presence Detect) of DIMM (Dual Inline Memory Module) of the memory 11 or the memory 31. ), Since it is held in the nonvolatile memory 12 of the diagnostic function unit, SRAM (Static Random Access Memory) 32, etc., even if the failure is not reproduced in the reproduction test to be performed later for failure diagnosis, it is held in detail. It is easy to perform failure analysis based on the failure state.

以上、本発明の好適な実施形態の構成を説明した。しかし、上に説明した実施形態は、本発明の単なる例示に過ぎず、何ら本発明を限定するものではないことに留意されたい。本発明の要旨を逸脱することなく、特定用途に応じて種々の変形変更が可能であることが、当業者には容易に理解できよう。   The configuration of the preferred embodiment of the present invention has been described above. However, it should be noted that the embodiments described above are merely illustrative of the present invention and do not limit the present invention in any way. Those skilled in the art will readily understand that various modifications and changes can be made according to a specific application without departing from the gist of the present invention.

10 中央処理装置(CPU:Central Processing Unit)
11 メモリ
12 不揮発性メモリ
20 チップセット
30 ベースボード管理コントローラ(BMC:Baseboard Management
Controller)
31 メモリ
32 SRAM
40 BIOS(Basic Input/Output System)
41 BMCFW(BMC Firmware)
100 障害発生回数登録テーブル
101 有効表示
102 メモリエリアアドレス
103 発生回数
200 メモリ試験結果登録テーブル
201 有効表示
202 メモリエリアアドレス
10 Central Processing Unit (CPU)
11 Memory 12 Non-volatile memory 20 Chipset 30 Baseboard Management Controller (BMC)
Controller)
31 Memory 32 SRAM
40 BIOS (Basic Input / Output System)
41 BMCFW (BMC Firmware)
100 Fault occurrence count registration table 101 Valid display 102 Memory area address 103 Occurrence count 200 Memory test result registration table 201 Valid display 202 Memory area address

Claims (10)

情報処理装置のメモリの試験を行うために当該情報処理装置に備えられたメモリ試験装置であって、当該情報処理装置の運用中に前記メモリに訂正可能障害が発生したことを検知した際に、該訂正可能障害が発生したメモリアドレスが含まれているメモリエリアアドレス空間を障害発生ページとして登録する障害登録手段と、しかる後の当該情報処理装置の立ち上げ動作時に、前記障害登録手段により登録された前記障害発生ページに該当する前記メモリエリアアドレス空間に対して、あらかじめ定めたテストパターンからなる特別なメモリ試験を実施するメモリ試験実施手段と、該メモリ試験実施手段によって実施した前記特別なメモリ試験の実施結果として、前記障害発生ページに該当する前記メモリエリアアドレス空間に障害が検知されなかった場合には、前記障害発生ページに該当する前記メモリエリアアドレス空間を正常なメモリエリアアドレス空間としてシステムに組み込んで立ち上げ後のOS(Operating System)が使用することが可能な状態に復帰させる正常復帰手段と、を少なくとも備えていることを特徴とするメモリ試験装置。   A memory test apparatus provided in the information processing apparatus for testing the memory of the information processing apparatus, and when detecting that a correctable failure has occurred in the memory during operation of the information processing apparatus, A failure registration unit that registers a memory area address space including a memory address in which the correctable failure has occurred as a failed page, and is registered by the failure registration unit during the subsequent startup operation of the information processing apparatus. Further, a memory test execution means for executing a special memory test having a predetermined test pattern for the memory area address space corresponding to the failed page, and the special memory test executed by the memory test execution means As a result of the operation, a failure is detected in the memory area address space corresponding to the failed page. If not, the memory area address space corresponding to the failed page is incorporated into the system as a normal memory area address space and returned to a state that can be used by the operating system (OS) after startup. A memory test apparatus comprising at least normal return means. 前記メモリ試験実施手段によって実施した前記特別なメモリ試験の実施結果として、前記障害発生ページに該当する前記メモリエリアアドレス空間に障害が検知された場合、当該障害発生ページに該当する前記メモリエリアアドレス空間を立ち上げ後のOSが使用することができないページ閉塞状態に設定するページ閉塞手段と、前記特別なメモリ試験において障害が発生したテストパターンとメモリアドレスとを障害解析用の情報として保持する障害情報保持手段とを備えていることを特徴とする請求項1に記載のメモリ試験装置。   If a failure is detected in the memory area address space corresponding to the failed page as a result of the special memory test performed by the memory test execution means, the memory area address space corresponding to the failed page Failure information that holds, as information for failure analysis, a page blocking means for setting a page blocking state that cannot be used by the OS after the OS is started, and a test pattern and memory address in which a failure has occurred in the special memory test The memory test apparatus according to claim 1, further comprising a holding unit. 前記メモリ試験実施手段は、前記特別なメモリ試験の実施結果として、障害が検知された場合、障害が検知された前記障害発生ページに該当する前記メモリエリアアドレス空間に関する情報をメモリ試験結果登録テーブルに登録し、前記ページ閉塞手段は、前記メモリ試験結果登録テーブルに登録された前記障害発生ページに該当する前記メモリエリアアドレス空間に関する情報に基づいて、ページ閉塞状態に設定することを特徴とする請求項2に記載のメモリ試験装置。   When a failure is detected as a result of executing the special memory test, the memory test execution means stores information on the memory area address space corresponding to the page where the failure has been detected in a memory test result registration table. The registered page, and the page block means sets the page block state based on information on the memory area address space corresponding to the failed page registered in the memory test result registration table. 2. The memory test apparatus according to 2. 前記障害情報保持手段は、前記特別なメモリ試験において障害が発生したテストパターンとメモリアドレスとを、障害診断用に用いられる不揮発性メモリまたはSRAM(Static Random Access Memory)に保持し、あるいは、前記メモリがDIMM(Dual Inline Memory Module)からなっている場合には該DIMMのスペックを格納するROM領域であるSPD(Special Presence Detect)に保持することを特徴とする請求項2または3に記載のメモリ試験装置。   The fault information holding means holds a test pattern and a memory address in which a fault has occurred in the special memory test in a nonvolatile memory or SRAM (Static Random Access Memory) used for fault diagnosis, or the memory 4. The memory test according to claim 2, wherein the memory test is held in a SPD (Special Presence Detect) which is a ROM area for storing the specifications of the DIMM when the memory is a DIMM (Dual Inline Memory Module). apparatus. 前記障害登録手段は、当該情報処理装置の運用中に前記メモリに訂正可能障害が発生したことを検知した際に、該訂正可能障害が発生したメモリアドレスが含まれているメモリエリアアドレス空間を前記障害発生ページとして当該メモリエリアアドレス空間における訂正可能障害の発生回数とともに障害発生回数登録テーブルに登録し、該障害発生回数登録テーブルに登録された訂正可能障害の発生回数が、あらかじめ定めた閾値を超えたメモリエリアアドレス空間を、以降、当該情報処理装置の再立ち上げが実施されるまでOSが使用することができないページ閉塞状態に設定することを特徴とする請求項1ないし4のいずれかに記載のメモリ試験装置。   When the failure registration unit detects that a correctable failure has occurred in the memory during operation of the information processing apparatus, the failure registration unit stores a memory area address space including the memory address in which the correctable failure has occurred. Register as a failure page in the failure occurrence number registration table together with the number of correctable failure occurrences in the memory area address space, and the number of correctable failure occurrences registered in the failure occurrence number registration table exceeds a predetermined threshold 5. The memory area address space is set to a page blocking state that cannot be used by the OS until the information processing apparatus is restarted thereafter. Memory test equipment. 情報処理装置のメモリの試験を行うために当該情報処理装置に備えられたメモリ試験装置におけるメモリ試験方法であって、当該情報処理装置の運用中に前記メモリに訂正可能障害が発生したことを検知した際に、該訂正可能障害が発生したメモリアドレスが含まれているメモリエリアアドレス空間を障害発生ページとして登録する障害登録ステップと、しかる後の当該情報処理装置の立ち上げ動作時に、登録された前記障害発生ページに該当する前記メモリエリアアドレス空間に対して、あらかじめ定めたテストパターンからなる特別なメモリ試験を実施するメモリ試験実施ステップと、該メモリ試験実施ステップにおいて実施した前記特別なメモリ試験の実施結果として、前記障害発生ページに該当する前記メモリエリアアドレス空間に障害が検知されなかった場合には、前記障害発生ページに該当する前記メモリエリアアドレス空間を正常なメモリエリアアドレス空間としてシステムに組み込んで立ち上げ後のOS(Operating System)が使用することが可能な状態に復帰させる正常復帰ステップと、を少なくとも有していることを特徴とするメモリ試験方法。


A memory test method in a memory test apparatus provided in the information processing apparatus for testing a memory of the information processing apparatus, wherein a correctable fault is detected in the memory during operation of the information processing apparatus when the, and fault registration step of registering the memory area address space in which the correctable fault contains memory address generated as a failure page, during start-up operation of thereafter of the information processing apparatus is registered A memory test execution step for performing a special memory test having a predetermined test pattern for the memory area address space corresponding to the failed page, and the special memory test performed in the memory test execution step. As a result of the above, the memory area address space corresponding to the failed page If no harm is detected, the memory area address space corresponding to the failed page can be incorporated into the system as a normal memory area address space and used by a booted OS (Operating System). And a normal return step for returning to the state.


前記メモリ試験実施ステップにおいて実施した前記特別なメモリ試験の実施結果として、前記障害発生ページに該当する前記メモリエリアアドレス空間に障害が検知された場合、当該障害発生ページに該当する前記メモリエリアアドレス空間を立ち上げ後のOSが使用することができないページ閉塞状態に設定するページ閉塞ステップと、前記特別なメモリ試験において障害が発生したテストパターンとメモリアドレスとを障害解析用の情報として保持する障害情報保持ステップとを有していることを特徴とする請求項6に記載のメモリ試験方法。   When a failure is detected in the memory area address space corresponding to the failed page as a result of the special memory test performed in the memory test execution step, the memory area address space corresponding to the failed page Failure information that holds, as information for failure analysis, a page blocking step for setting a page blocking state that cannot be used by the OS after starting up, and a test pattern and memory address in which a failure has occurred in the special memory test The memory test method according to claim 6, further comprising a holding step. 前記メモリ試験実施ステップにおいては、前記特別なメモリ試験の実施結果として、障害が検知された場合、障害が検知された前記障害発生ページに該当する前記メモリエリアアドレス空間に関する情報をメモリ試験結果登録テーブルに登録し、前記ページ閉塞ステップにおいては、前記メモリ試験結果登録テーブルに登録された前記障害発生ページに該当する前記メモリエリアアドレス空間に関する情報に基づいて、ページ閉塞状態に設定することを特徴とする請求項7に記載のメモリ試験方法。   In the memory test execution step, when a failure is detected as a result of executing the special memory test, information on the memory area address space corresponding to the failure occurrence page where the failure is detected is stored in a memory test result registration table. In the page block step, the page block state is set based on information on the memory area address space corresponding to the failed page registered in the memory test result registration table. The memory test method according to claim 7. 前記障害情報保持ステップにおいては、前記特別なメモリ試験において障害が発生したテストパターンとメモリアドレスとを、障害診断用に用いられる不揮発性メモリまたはSRAM(Static Random Access Memory)に保持し、あるいは、前記メモリがDIMM(Dual Inline Memory Module)からなっている場合には該DIMMのスペックを格納するROM領域であるSPD(Special Presence Detect)に保持することを特徴とする請求項7または8に記載のメモリ試験方法。   In the fault information holding step, a test pattern and a memory address in which a fault has occurred in the special memory test is held in a nonvolatile memory or SRAM (Static Random Access Memory) used for fault diagnosis, or 9. The memory according to claim 7, wherein when the memory is a DIMM (Dual Inline Memory Module), the memory is held in a SPD (Special Presence Detect) which is a ROM area for storing the specifications of the DIMM. Test method. 請求項6ないし9のいずれかに記載のメモリ試験方法の各ステップを、コンピュータによって実行可能なプログラムとして実施していることを特徴とするメモリ試験プログラム。   10. A memory test program, wherein each step of the memory test method according to claim 6 is implemented as a program executable by a computer.
JP2011157798A 2011-07-19 2011-07-19 Memory test apparatus, memory test method, and memory test program Active JP5751626B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011157798A JP5751626B2 (en) 2011-07-19 2011-07-19 Memory test apparatus, memory test method, and memory test program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011157798A JP5751626B2 (en) 2011-07-19 2011-07-19 Memory test apparatus, memory test method, and memory test program

Publications (2)

Publication Number Publication Date
JP2013025452A JP2013025452A (en) 2013-02-04
JP5751626B2 true JP5751626B2 (en) 2015-07-22

Family

ID=47783758

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011157798A Active JP5751626B2 (en) 2011-07-19 2011-07-19 Memory test apparatus, memory test method, and memory test program

Country Status (1)

Country Link
JP (1) JP5751626B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9299457B2 (en) * 2014-02-23 2016-03-29 Qualcomm Incorporated Kernel masking of DRAM defects

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3156654B2 (en) * 1997-10-30 2001-04-16 日本電気株式会社 Duplex computer system and its operation method
JP3171325B2 (en) * 1998-03-12 2001-05-28 日本電気株式会社 Memory test apparatus and method and recording medium

Also Published As

Publication number Publication date
JP2013025452A (en) 2013-02-04

Similar Documents

Publication Publication Date Title
JP4617405B2 (en) Electronic device for detecting defective memory, defective memory detecting method, and program therefor
US7496823B2 (en) Hardware based memory scrubbing
EP1659494B1 (en) Method and apparatus for classifying memory errors
US8255614B2 (en) Information processing device that accesses memory, processor and memory management method
KR101374455B1 (en) Memory errors and redundancy
JP4901987B1 (en) Storage device, electronic device, and error data correction method
JP5965076B2 (en) Uncorrectable memory error processing method and its readable medium
US8812910B2 (en) Pilot process method for system boot and associated apparatus
WO2017215377A1 (en) Method and device for processing hard memory error
JP2006510071A (en) Various methods and apparatus for tracking failed memory locations to enable execution to invalidate repeatedly failed memory locations
CN102968353A (en) Fail address processing method and fail address processing device
US20060277444A1 (en) Recordation of error information
JP5751626B2 (en) Memory test apparatus, memory test method, and memory test program
JP2009211625A (en) Start log storage method for information processor
US8626992B2 (en) Storage device with identification information
JP2012103999A (en) Memory control method for reducing occurrence of system stoppage due to memory error
JP2008077378A (en) System, method and program for diagnosing start
CN110476153A (en) The method and electronic equipment of access instruction SRAM
TWI777259B (en) Boot method
CN112562774B (en) Storage device mounting method and device, computer device and storage medium
CN112181712B (en) Method and device for improving reliability of processor core
JP3314719B2 (en) Flash EEPROM and its test method
JP2011210117A (en) Pos terminal device and pos terminal control method
JP2008090969A (en) Debugging system of redundancy operation program and program
JP2007241839A (en) Digital signal processing apparatus and method for storing failure abnormality information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140611

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20140807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150127

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150514

R150 Certificate of patent or registration of utility model

Ref document number: 5751626

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150