JP2008191864A - Data processor and start-up method thereof - Google Patents

Data processor and start-up method thereof Download PDF

Info

Publication number
JP2008191864A
JP2008191864A JP2007024541A JP2007024541A JP2008191864A JP 2008191864 A JP2008191864 A JP 2008191864A JP 2007024541 A JP2007024541 A JP 2007024541A JP 2007024541 A JP2007024541 A JP 2007024541A JP 2008191864 A JP2008191864 A JP 2008191864A
Authority
JP
Japan
Prior art keywords
memory
inspection
ecc
error
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007024541A
Other languages
Japanese (ja)
Inventor
Hiroteru Tsuchiya
裕輝 土屋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba TEC Corp
Original Assignee
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba TEC Corp filed Critical Toshiba TEC Corp
Priority to JP2007024541A priority Critical patent/JP2008191864A/en
Publication of JP2008191864A publication Critical patent/JP2008191864A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Detection And Correction Of Errors (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To further improve reliability by early detecting a failure of an ECC memory. <P>SOLUTION: The data processor checks, when a start-up instruction is given, whether a history of memory error is recorded by a recording means or not. When the history of memory error is recorded, the processor inspects the ECC memory. When abnormality of the ECC memory is detected as a result, start-up is stopped after giving a warning for memory error. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、ECC(Error Check and Correct)メモリを用いたデータ処理装置及びその起動方法に関する。   The present invention relates to a data processing apparatus using an ECC (Error Check and Correct) memory and a starting method thereof.

現在、一般家庭等で用いられるPC(パーソナルコンピュータ)等のデータ処理装置には、メモリエラーが発生した場合にメモリエラーの発生を検出するパリティチェック機能が付与されたメモリが使用されている。パリティチェック機能付メモリは、8ビットに対して1ビットの冗長ビットを持たせ、メモリ書き込み時と読み込み時とが同一ビットであるかのチェック(パリティチェック)を行うメモリである。パリティチェック時に、書き込み時と読み込み時とが同一でないときには、メモリエラーとして検知する。このようなパリティチェック機能付メモリは、メモリエラーが発生したことを検知するだけで、どのビットにエラーが発生したのかを特定することはできない。このため、信頼性が乏しい。   Currently, a data processing apparatus such as a PC (personal computer) used in a general household uses a memory to which a parity check function for detecting the occurrence of a memory error when a memory error occurs is provided. The memory with a parity check function is a memory that has one redundant bit for 8 bits and performs a check (parity check) to check whether the memory writing and reading are the same bit. At the time of parity check, if the writing time and reading time are not the same, a memory error is detected. Such a memory with a parity check function cannot detect which bit an error has occurred only by detecting that a memory error has occurred. For this reason, the reliability is poor.

そこで、データベース・サーバやPOS(Point Of Sales)システム等の高い信頼性が求められるデータ処理装置には、主としてECCメモリが用いられる。ECCメモリは、パリティチェック機能付メモリのようなメモリエラーの検出だけではなく、エラーが発生した部位を特定し、このエラーを正しい値に訂正することが可能なメモリである。   Therefore, an ECC memory is mainly used in a data processing apparatus such as a database server or a POS (Point Of Sales) system that requires high reliability. The ECC memory is a memory capable of not only detecting a memory error like a memory with a parity check function but also specifying a part where the error has occurred and correcting the error to a correct value.

ECCメモリは、主機能として、例えば64ビットにつき8ビットのエラー訂正のためのデータを対応させ、64ビットのうち1ビットがエラーの値になったときに、このエラーを検出し訂正する機能を有する。また、2ビット以上がエラーとなった場合には、ECCメモリは、この2ビットメモリエラーを訂正することはできないが、検知することが可能に形成されている。   The ECC memory has a function to detect and correct this error when, for example, 8 bits of data for error correction correspond to 64 bits and 1 bit out of 64 bits becomes an error value as a main function. Have. Further, when an error occurs in 2 bits or more, the ECC memory cannot correct the 2-bit memory error but can detect it.

このようなECCメモリは、パリティチェック機能付メモリと比較すると、より多くの冗長データが必要となり、さらにメモリのコストも必要となってしまう問題点もある。しかし、ECCメモリは、システムのメモリエラーを訂正することで、信頼性を高くすることができるため、データベース・サーバやPOSシステム等の高い信頼性が必要なデータ処理方法等に多用されている。   Compared with a memory with a parity check function, such an ECC memory has a problem that more redundant data is required and the cost of the memory is also required. However, since the ECC memory can improve the reliability by correcting the memory error of the system, it is frequently used for a data processing method that requires high reliability such as a database server or a POS system.

従来、このようなECCメモリを用いたデータ処理装置として、ECCメモリにエラーが発生した際には制御権をOS(Operating System)からBIOS(Basic Input Operating System)に切替え、1ビットメモリエラーであり自動的に修復された場合には、当該BIOSに付加されたECCメモリエラー処理モジュールに当該1ビットメモリエラーをカウントしつつログを取る記録処理を実行させた後に制御権をOSに戻し、2ビット以上のメモリエラーの場合には、上記ECCメモリエラー処理モジュールに当該2ビットメモリエラーをカウントしつつログを取る記録処理を実行させた後にシステムエラー警告を行い、動作停止させることで信頼性を向上させるようにしたものが知られている(例えば特許文献1参照)。
特開2002−73427号公報
Conventionally, as a data processing apparatus using such an ECC memory, when an error occurs in the ECC memory, the control right is switched from OS (Operating System) to BIOS (Basic Input Operating System), which is a 1-bit memory error. If it is automatically repaired, the ECC memory error processing module added to the BIOS executes a recording process for logging while counting the 1-bit memory error, and then returns the control right to the OS. In the case of the above memory errors, the ECC memory error processing module performs a recording process for taking a log while counting the 2-bit memory error, then issues a system error warning, and improves the reliability by stopping the operation. What is made to perform is known (for example, refer patent document 1).
JP 2002-73427 A

このように、従来のECCメモリを用いたデータ処理装置においては、メモリエラーの履歴をログとして残すことはできたものの、1ビットメモリエラーであった場合には自動的に修復されるために、ユーザはメモリエラーが発生したことに気付かない。メモリエラーは、ノイズ等の外要因によって偶発的に発生するだけでなく、メモリの劣化等による故障前兆によって発生する場合もある。しかし、いずれの原因でメモリエラーが発生したのかは外部からは判別できない。これを判別するには、システムの管理者等が、メモリ検査を指示し実行する必要があった。また、メモリ故障の前兆に気づかずにメモリが故障するまで放置されてしまうこともある。このため、ECCメモリ故障によるシステムロックや機能停止等が発生してしまい、サーバシステムやPOSシステム等の機能停止となる可能性があった。   As described above, in the data processing apparatus using the conventional ECC memory, the history of the memory error can be left as a log, but when it is a 1-bit memory error, it is automatically repaired. The user is unaware that a memory error has occurred. A memory error may not only occur accidentally due to external factors such as noise, but may also occur due to a failure sign due to memory degradation or the like. However, it is not possible from the outside to determine the cause of the memory error. In order to determine this, a system administrator or the like has to instruct and execute a memory test. In addition, the memory may be left unattended until the memory fails. For this reason, a system lock or a function stop due to an ECC memory failure may occur, which may cause a function stop of the server system or the POS system.

本発明は、このような事情に基づいてなされたもので、その目的とするところは、ECCメモリの故障を早期に検知することができ、信頼性をさらに向上できるデータ処理装置及びその起動方法を提供しようとするものである。   The present invention has been made based on such circumstances, and an object of the present invention is to provide a data processing apparatus capable of detecting a failure of an ECC memory at an early stage and further improving reliability and a starting method thereof. It is something to be offered.

本発明のデータ処理装置は、メモリエラーの検出及びその修正機能を有するECCメモリと、このECCメモリにメモリエラーが発生した履歴を記録する記録手段とを備えたものであって、起動指示があると、記録手段によりメモリエラーの履歴が記録されているか否かを判断する判断手段と、この判断手段によりメモリエラーの履歴が記録されていると判断されたことを条件にECCメモリの検査を実行する検査手段と、この検査手段による検査の結果、ECCメモリの異常が検出されると、メモリエラーの警告後に起動を停止する起動停止手段とを備えたものである。   A data processing apparatus according to the present invention includes an ECC memory having a function of detecting and correcting a memory error, and a recording means for recording a history of occurrence of a memory error in the ECC memory, and has a start instruction. And determining means for determining whether or not the memory error history is recorded by the recording means, and checking the ECC memory on condition that the memory error history is determined to be recorded by the determining means And an activation stop means for stopping activation after a memory error warning when an abnormality of the ECC memory is detected as a result of the inspection by the inspection means.

また、本発明のデータ処理装置の起動方法は、起動指示があると、記録手段によりメモリエラーの履歴が記録されているか否かを判断する判断ステップと、この判断ステップによりメモリエラーの履歴が記録されていると判断されると、ECCメモリの検査を実行する検査ステップと、この検査ステップによりECCメモリの異常が検出されると、メモリエラーの警告後に起動を停止する起動停止ステップとを備えたものである。   Further, according to the data processing apparatus activation method of the present invention, when there is an activation instruction, a determination step for determining whether or not a memory error history is recorded by the recording means, and a memory error history is recorded by this determination step. If it is determined that the ECC memory has been detected, an inspection step for performing an inspection of the ECC memory and an activation stop step for stopping the activation after a warning of a memory error when an abnormality of the ECC memory is detected by the inspection step are provided. Is.

かかる手段を講じた本発明によれば、ECCメモリの故障を早期に検知することができ、信頼性をさらに向上できるデータ処理装置及びその起動方法を提供できる。   According to the present invention in which such measures are taken, it is possible to provide a data processing apparatus that can detect a failure of the ECC memory at an early stage and can further improve the reliability, and a startup method thereof.

以下、本発明の一実施の形態を、図面を参照して説明する。
図1は本実施の形態に係るデータ処理装置1の要部構成を示すブロック図である。
図1に示すように、データ処理装置1は、制御部本体としてCPU10を搭載している。また、データの受け渡しの管理等の情報流通を制御するチップセット20と、メインメモリとしてのECCメモリ30と、画像の処理を行う画像処理カード40と、拡張ボード等を装着するための複数のPCIスロット50と、BIOS(Basic Input/Output System)60とを備え、これら構成品を、例えばPCIバス等のバスライン70によりCPU10に接続している。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a main configuration of a data processing apparatus 1 according to the present embodiment.
As shown in FIG. 1, the data processing apparatus 1 is equipped with a CPU 10 as a control unit main body. In addition, a chip set 20 that controls information distribution such as management of data transfer, an ECC memory 30 as a main memory, an image processing card 40 that performs image processing, and a plurality of PCIs for mounting expansion boards and the like A slot 50 and a BIOS (Basic Input / Output System) 60 are provided, and these components are connected to the CPU 10 by a bus line 70 such as a PCI bus.

チップセット20は、CPU10とバスライン70とを接続するために用いられるノースブリッジ21と、各種コントローラ等の機能を有するサウスブリッジ22とを備えている。画像処理カード40には、情報を出力するための画面41が接続されている。チップセット20は、CPU10と他構成品とを接続するよう形成されている。   The chip set 20 includes a north bridge 21 used for connecting the CPU 10 and the bus line 70 and a south bridge 22 having functions of various controllers and the like. A screen 41 for outputting information is connected to the image processing card 40. The chip set 20 is formed to connect the CPU 10 and other components.

ノースブリッジ21は、OS制御によりアプリケーションを起動し、データ処理を実行することができるよう、CPU10をECCメモリ30等の他構成品と接続可能に形成されている。また、ノースブリッジ21には、ECCメモリ30に1ビットメモリエラーが発生し、それを検出すると、その1ビットメモリエラーを自動的に修復するECC制御回路が形成されている。   The north bridge 21 is configured so that the CPU 10 can be connected to other components such as the ECC memory 30 so that an application can be activated and data processing can be executed under OS control. The north bridge 21 is also provided with an ECC control circuit that automatically repairs the 1-bit memory error when a 1-bit memory error occurs in the ECC memory 30 and is detected.

BIOS60には、ECCメモリにメモリエラーが発生した履歴を記録する記録手段としてのECCメモリエラー処理モジュールが実装されている。記録手段は、エラー発生回数Xをカウントするカウンタを含む。また、エラー発生状況(発生箇所,発生内容等)をログとして取り記録するログファイルを有する。   The BIOS 60 is provided with an ECC memory error processing module as a recording unit for recording a history of occurrence of memory errors in the ECC memory. The recording means includes a counter that counts the error occurrence count X. In addition, it has a log file that records the error occurrence status (occurrence location, occurrence content, etc.) as a log.

このように構成されたデータ処理装置1の基本的な動作の流れを、図2の流れ図を用いて説明する。
データ処理装置1の電源投入等により起動が指示されると、データ処理装置1では、後述する起動処理が実行される(ST1)。そして、この起動処理によりシステムが正常に立ち上がると、データ処理装置1では、OSが作動する(ST2)。これにより、以後、CPU10は、OSの制御下でデータ処理装置1を動作させる。
A basic operation flow of the data processing apparatus 1 configured as described above will be described with reference to a flowchart of FIG.
When the activation is instructed by turning on the power of the data processing apparatus 1 or the like, the data processing apparatus 1 executes an activation process to be described later (ST1). When the system starts up normally by this activation process, the OS operates in the data processing apparatus 1 (ST2). Thereby, thereafter, the CPU 10 operates the data processing apparatus 1 under the control of the OS.

この通常の動作の中で、ECCメモリ30が使用される(ST3)。すなわち、データの書込み及び読出しが行われる。このとき、ECCメモリ30に1ビットメモリエラーが発生し、それが検知されると(ST4、YES)、CPU10の制御権がOSからBIOS60へ切り替えられる(ST5)。なお、ECCメモリ30の1ビットメモリエラーは、ECC制御回路によって自動的に修復される(ST6)。   In this normal operation, the ECC memory 30 is used (ST3). That is, data is written and read. At this time, if a 1-bit memory error occurs in the ECC memory 30 and is detected (ST4, YES), the control right of the CPU 10 is switched from the OS to the BIOS 60 (ST5). The 1-bit memory error in the ECC memory 30 is automatically repaired by the ECC control circuit (ST6).

BIOSに制御権が切替えられると、このBIOSに付加されたECCメモリエラー処理モジュールが前記カウンタをカウントアップ(X←X+1)する(ST7)。例えば、データ処理装置1を起動してから初めてのメモリエラーであれば、カウント数Xは1となる。また、エラー発生状況のログ処理を行う。その後、CPU10の制御権がBIOS60からOSへと戻される(ST8)。   When the control right is switched to the BIOS, the ECC memory error processing module added to the BIOS counts up the counter (X ← X + 1) (ST7). For example, if the memory error is the first after the data processing device 1 is started, the count number X is 1. Also, log processing of error occurrence status. Thereafter, the control right of the CPU 10 is returned from the BIOS 60 to the OS (ST8).

一方、ECCメモリ30に発生したメモリエラーが1ビットメモリエラーではなく2ビット以上のメモリエラーであった場合にも(ST9、YES)、CPU10の制御権がOSからBIOS60へ切り替えられる(ST10)。ただし、2ビット以上のメモリエラーは、ECCメモリ30では自己修復されない。   On the other hand, when the memory error occurring in the ECC memory 30 is not a 1-bit memory error but a memory error of 2 bits or more (ST9, YES), the control right of the CPU 10 is switched from the OS to the BIOS 60 (ST10). However, the memory error of 2 bits or more is not self-repaired in the ECC memory 30.

BIOS60に制御権が切替えられると、このBIOSに付加されたECCメモリエラー処理モジュールが前記カウンタをカウントアップ(X←X+1)する(ST11)。また、エラー発生状況のログ処理を行う。その後、CPU10の制御権がBIOS60からOSへと戻される(ST12)。なお、1ビットメモリエラーと2ビット以上のメモリエラーとでカウント数Xを分別してもよい。   When the control right is switched to the BIOS 60, the ECC memory error processing module added to the BIOS counts up the counter (X ← X + 1) (ST11). Also, log processing of error occurrence status. Thereafter, the control right of the CPU 10 is returned from the BIOS 60 to the OS (ST12). Note that the count number X may be classified by a 1-bit memory error and a 2-bit or more memory error.

OSに制御権が戻されると、データ処理装置1では、システムの終了指示(ST13)があるまで、ECCメモリが使用される(ST4)。終了指示が有ると(ST13のYES)、システム停止がOSに指示され、データ処理装置1はシャットダウンされる(ST14)。   When the control right is returned to the OS, the data processing apparatus 1 uses the ECC memory until there is a system termination instruction (ST13) (ST4). If there is an end instruction (YES in ST13), the OS is instructed to stop the system, and the data processing apparatus 1 is shut down (ST14).

次に、ST1の起動処理の手順について図3の流れ図を用いて説明する。   Next, the procedure of the activation process of ST1 will be described using the flowchart of FIG.

CPU10は、起動処理を開始すると、前回の当該データ処理装置1の稼動時に、メモリエラーが発生したかどうか、すなわち、メモリエラーの履歴が記録されているか否かを、カウンタのカウント数Xから判断する(ST21:判断手段)。具体的には、カウント数Xが1以上の場合には、メモリエラーの履歴が記録されているのでメモリエラーが発生していると判断し、カウント数Xが0の場合にはメモリエラーが発生していないと判断する。   When starting the activation process, the CPU 10 determines from the count number X of the counter whether or not a memory error has occurred during the previous operation of the data processing apparatus 1, that is, whether or not a memory error history is recorded. (ST21: determination means). Specifically, when the count number X is 1 or more, it is determined that a memory error has occurred since a memory error history is recorded. When the count number X is 0, a memory error has occurred. Judge that it is not.

メモリエラーが発生していた場合(ST21、YES)には、ECCメモリ30に対して詳細メモリ検査を行う(ST22:検査手段)。ここで、詳細メモリ検査とは、ECCメモリ30の全領域において、ECCメモリ30の物理領域に障害が発生していないかを調べる検査である。   If a memory error has occurred (ST21, YES), a detailed memory inspection is performed on the ECC memory 30 (ST22: inspection means). Here, the detailed memory check is a check for checking whether a failure has occurred in the physical area of the ECC memory 30 in all areas of the ECC memory 30.

この詳細メモリ検査が終了し、検査結果でECCメモリ30の故障が発見されると(ST23、YES)、CPU10は、画面41に例えば、ECCメモリ30が故障しているため交換してください、との旨を表示させる(ST24)。表示後、CPU10は、システムを停止させ(ST25:起動停止手段)、データ処理装置1をシャットダウンさせる。データ処理装置1をシャットダウンさせることで、ECCメモリ30の故障をこれ以上進行させないようにする。   When this detailed memory inspection is completed and a failure of the ECC memory 30 is found in the inspection result (ST23, YES), the CPU 10 should be replaced on the screen 41 because, for example, the ECC memory 30 has failed. Is displayed (ST24). After the display, the CPU 10 stops the system (ST25: activation stop means) and shuts down the data processing apparatus 1. By shutting down the data processing apparatus 1, the failure of the ECC memory 30 is prevented from proceeding further.

例えば、ECCメモリ30は、故障していたとしても、表面上は問題なく作動することがある。このために、この作動を行うことで、ECCメモリ30が完全に壊れる可能性がある。データ処理装置1を使用中にECCメモリ30が故障すると、フリーズやシステムロック等が発生してしまう可能性があり、これらにより、データ処理装置1が使用不能となる場合がある。データ処理装置1が使用不能となると、データ処理装置1を店舗のPOSシステム等に用いたときは会計ができなくなる等の不都合が生じる。これを防ぐためにも、画面41に警告を表示後、システムを停止させる。   For example, the ECC memory 30 may operate without any problem on the surface even if it has failed. For this reason, the ECC memory 30 may be completely destroyed by performing this operation. If the ECC memory 30 breaks down while the data processing apparatus 1 is in use, there is a possibility that a freeze, a system lock, or the like will occur, which may make the data processing apparatus 1 unusable. If the data processing device 1 becomes unusable, there will be inconveniences such as inability to perform accounting when the data processing device 1 is used in a store POS system or the like. In order to prevent this, the system is stopped after a warning is displayed on the screen 41.

ST23で、ECCメモリ30の故障が発見されないときは(ST23、NO)、カウント数Xを0として、カウンタをリセットする(ST26:履歴解除手段)。しかる後、通常の起動を行う(ST27)。一方、カウンタのカウント数Xが0であり、メモリエラーが発生していない場合には(ST21、NO)、CPU10は、簡易メモリ検査を実行する(ST28:簡易検査手段)。この簡易メモリ検査とは、例えばECCメモリ30の特定領域のみをチェックするものである。簡易メモリ検査は、特定領域のみのチェックを行うため、検査にかかる時間を詳細メモリ検査に比べ、短時間とすることができる。メモリ検査のために必要とする時間を短時間とすることで、起動性が向上することとなる。   If no failure of the ECC memory 30 is found in ST23 (ST23, NO), the count number X is set to 0 and the counter is reset (ST26: history canceling means). Thereafter, normal activation is performed (ST27). On the other hand, when the count number X of the counter is 0 and no memory error has occurred (NO in ST21), the CPU 10 executes a simple memory test (ST28: simple test means). This simple memory check is to check only a specific area of the ECC memory 30, for example. Since the simple memory inspection checks only a specific area, the time required for the inspection can be made shorter than the detailed memory inspection. By making the time required for the memory inspection short, the startability is improved.

簡易メモリ検査実行後、CPU10は、この簡易メモリ検査によりメモリの故障が検知されたかどうかを判定する(ST29)。このとき、簡易メモリ検査によりメモリの故障が検知された場合には(ST29のYES)、ST22に進み、ECCメモリ30に対して詳細メモリ検査を行う。これ以降はST22以降からの動作となる。   After executing the simple memory test, the CPU 10 determines whether or not a memory failure is detected by the simple memory test (ST29). At this time, if a memory failure is detected by the simple memory inspection (YES in ST29), the process proceeds to ST22, and a detailed memory inspection is performed on the ECC memory 30. After this, the operation starts from ST22.

簡易メモリ検査の結果、メモリ故障が検知されなかった場合には、ST27に進み、通常の起動を実行する。   If a memory failure is not detected as a result of the simple memory test, the process proceeds to ST27 and normal activation is executed.

このように本実施の形態のデータ処理装置1においては、システム起動時に、前回のデータ処理装置1作動時のECCメモリ30のメモリエラー発生履歴の有無をチェックしている。そして、メモリエラーが発生していた場合には、ECCメモリ30に対して詳細なメモリ検査を行うようにしている。したがって、前回ECCメモリ30を使用した場合に1ビット又は2ビットメモリエラーが発生した場合には、メモリエラーがノイズ等の外要因によりメモリエラーが発生したのか、又は、ECCメモリ30の故障又は故障の前兆によりメモリエラーが発生したのかを検査することが可能となる。これにより、ECCメモリ30の故障によるメモリ障害のためのシステムロック等を未然に防止することができる。このため、ECCメモリ30の信頼性の向上とすることもできる。   As described above, in the data processing device 1 of the present embodiment, the presence or absence of the memory error occurrence history of the ECC memory 30 when the data processing device 1 was operated last time is checked when the system is activated. If a memory error has occurred, a detailed memory check is performed on the ECC memory 30. Therefore, when a 1-bit or 2-bit memory error has occurred when the ECC memory 30 was used last time, the memory error has occurred due to external factors such as noise, or the ECC memory 30 has failed or has failed. It is possible to inspect whether a memory error has occurred due to the precursor. Thereby, a system lock or the like due to a memory failure due to a failure of the ECC memory 30 can be prevented in advance. For this reason, the reliability of the ECC memory 30 can be improved.

また、詳細メモリ検査は、ECCメモリ30の全領域で行う検査のため、検査を行うのに長時間必要となる。このため、信頼性を向上させるために、詳細メモリ検査を毎回行っていると、データ処理装置1使用までに時間がかかり、起動性及び使用効率等が悪くなる。そこで本実施の形態では、メモリエラー発生履歴の有無をチェックした結果、メモリエラーが発生していなかった場合には、短時間で済む簡易なメモリ検査を実行するようにしている。したがって、信頼性を向上させつつ、検査時間の短縮とすることが可能となる。これにより、起動性及び使用効率も向上することとなる。   Further, since the detailed memory inspection is performed on the entire area of the ECC memory 30, it takes a long time to perform the inspection. For this reason, if the detailed memory inspection is performed every time in order to improve the reliability, it takes time until the data processing apparatus 1 is used, and the startability and the use efficiency are deteriorated. Therefore, in the present embodiment, if a memory error has not occurred as a result of checking the presence or absence of a memory error occurrence history, a simple memory test that can be completed in a short time is executed. Therefore, it is possible to shorten the inspection time while improving the reliability. Thereby, startability and use efficiency will also be improved.

さらに、前回の使用時にメモリエラーが発生していなかったとしても、簡易メモリ検査を行うことで、表立たないメモリ故障を発見することもできる。さらに、簡易メモリ検査でメモリ故障を発見したら、詳細メモリ検査を自動的に実行させることとなる。ECCメモリ30が故障していたとしても、メモリエラーが発生しないことがあり、この見落としを簡易メモリ検査で判断した後に詳細メモリ検査を行うことで、2重のチェックとなり、より信頼性は向上する。   Furthermore, even if a memory error has not occurred during the previous use, it is possible to find a memory failure that does not appear by performing a simple memory test. Further, when a memory failure is found by the simple memory inspection, the detailed memory inspection is automatically executed. Even if the ECC memory 30 is out of order, a memory error may not occur, and a detailed memory inspection is performed after judging this oversight by a simple memory inspection, so that a double check is performed and reliability is further improved. .

このように、本実施の形態に係るデータ処理装置1によれば、前回のデータ処理装置1のECCメモリ30の状況に応じて、次回起動時に、検査方法を判別し、ECCメモリ30の検査を行うため、高い信頼性をえることができる。また、無駄な検査を実行しないために、検査時間の短縮とすることもできる。   As described above, according to the data processing apparatus 1 according to the present embodiment, the inspection method is determined at the next startup according to the state of the ECC memory 30 of the previous data processing apparatus 1, and the ECC memory 30 is inspected. Therefore, high reliability can be obtained. In addition, since the useless inspection is not performed, the inspection time can be shortened.

なお、この発明は前記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。   Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage.

例えば、前記実施の形態では、システム起動後毎に、前回のデータ処理装置1作動時のメモリエラーのカウント数に応じて検査方法を判別する、としたが、これを、毎回行わなくともよい。例えば、通常、システム起動毎に簡易メモリ検査を行い、故障と判定されたときに詳細メモリ検査を行うこととする。そして、データ処理装置1の起動時間をカウントすることで、一定の起動時間を作動させた次のシステム起動時に、検査方法を判定するものとしてもよい。これにより、例えば、使用場所や環境等でノイズが多く発生する場所で、ECCメモリのエラーが頻発することによる、システム起動時毎の検査時間の短縮とすることもできる。   For example, in the above-described embodiment, the inspection method is determined according to the memory error count during the previous operation of the data processing apparatus 1 every time the system is started, but this need not be performed every time. For example, a simple memory test is usually performed every time the system is started, and a detailed memory test is performed when a failure is determined. And it is good also as what determines a test | inspection method at the time of the next system starting which operated the fixed starting time by counting the starting time of the data processor 1. FIG. As a result, for example, the ECC memory error frequently occurs in a place where a lot of noise is generated in the place of use, environment, or the like, thereby shortening the inspection time at each system startup.

また、システム起動毎に簡易メモリ検査を行うと同時に、画面41に前回のビットメモリエラーの発生カウント数Xを表示するようにしてもよい。このカウント数Xをユーザが確認し、必要と思われるときに詳細メモリ検査を行い、通常は簡易メモリ検査を行うことにより、検査にかかる時間を低減させることが可能となる。また、簡易メモリ検査で故障判断がなされたときに、詳細メモリ検査を行うため、信頼性も向上とすることができる。   In addition, the simple memory test may be performed every time the system is started, and at the same time, the previous bit memory error occurrence count X may be displayed on the screen 41. By checking the count number X by the user and performing a detailed memory inspection when it is deemed necessary, and usually performing a simple memory inspection, the time required for the inspection can be reduced. Further, since the detailed memory inspection is performed when the failure determination is made by the simple memory inspection, the reliability can be improved.

さらに、システム起動毎に前回のメモリエラーのカウント数に応じて検査方法を判別し、検査を実行するのではなく、システム終了時に、システム終了時のメモリエラーのカウント数Xから検査方法を判別し、検査を実行するようにしてもよい。このようにすることで、検査時間を設けるのをシステム終了時(データ処理装置1シャットダウン時)とすることで、次回起動するときに検査を行わない。これにより、起動のための起動時間を短縮させることができるとともに、検査終了後自動的に電源が落ちるよう形成することで、検査時に放置したとしてもよくなる。   Furthermore, each time the system is started, the inspection method is determined according to the previous memory error count, and instead of executing the inspection, the inspection method is determined from the memory error count X at the time of system end when the system ends. The inspection may be executed. In this way, the inspection time is provided when the system is terminated (when the data processing apparatus 1 is shut down), so that the inspection is not performed at the next startup. As a result, the startup time for startup can be shortened, and the power is automatically turned off after completion of the inspection, so that it may be left at the time of inspection.

また、データ処理装置1は、スーパーマーケットにおける会計場(チェックアウトカウン)に設置されているPOS(Point Of Sales)端末を含む商品販売データ処理装置に適用してもよいし、サーバシステムに用いる端末に用いても適用できる。   Further, the data processing apparatus 1 may be applied to a merchandise sales data processing apparatus including a POS (Point Of Sales) terminal installed at a checkout count in a supermarket, or a terminal used for a server system. It can be applied even if it is used.

この他にも、ST23にて、ECCメモリ30が故障と判断された場合は、画面41に故障情報を表示するとともに、ECCメモリ30内の情報を外部媒体にバックアップできるようなプログラムを発動する構成としてもよい。   In addition to this, when it is determined in ST23 that the ECC memory 30 has failed, the failure information is displayed on the screen 41, and a program that can back up the information in the ECC memory 30 to an external medium is activated. It is good.

この他、前記実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を組み合わせてもよい。   In addition, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, the constituent elements over different embodiments may be combined.

本実施の形態に係るデータ処理装置の要部構成を示すブロック図。The block diagram which shows the principal part structure of the data processor which concerns on this Embodiment. 同データ処理装置の基本的な動作を示す流れ図。The flowchart which shows the basic operation | movement of the same data processor. 同データ処理装置のメモリ検査方法の動作を示す流れ図。The flowchart which shows operation | movement of the memory test | inspection method of the same data processor.

符号の説明Explanation of symbols

1…データ処理装置、10…CPU、20…チップセット、21…ノースブリッジ、22…サウスブリッジ、30…ECCメモリ、40…画像処理カード、41…画面、50…PCIスロット、60…BIOS、70…バスライン。   DESCRIPTION OF SYMBOLS 1 ... Data processing apparatus, 10 ... CPU, 20 ... Chip set, 21 ... North bridge, 22 ... South bridge, 30 ... ECC memory, 40 ... Image processing card, 41 ... Screen, 50 ... PCI slot, 60 ... BIOS, 70 ... Bus line.

Claims (6)

メモリエラーの検出及びその修正機能を有するECCメモリと、このECCメモリにメモリエラーが発生した履歴を記録する記録手段とを備えたデータ処理装置において、
起動指示があると、前記記録手段によりメモリエラーの履歴が記録されているか否かを判断する判断手段と、
この判断手段により前記メモリエラーの履歴が記録されていると判断されたことを条件に前記ECCメモリの検査を実行する検査手段と、
この検査手段による検査の結果、前記ECCメモリの異常が検出されると、メモリエラーの警告後に起動を停止する起動停止手段と、
を具備したことを特徴とするデータ処理装置。
In a data processing apparatus comprising an ECC memory having a function of detecting and correcting a memory error, and a recording means for recording a history of occurrence of the memory error in the ECC memory,
When there is a start instruction, a determination unit that determines whether a history of memory errors is recorded by the recording unit;
Inspection means for executing an inspection of the ECC memory on the condition that the determination means records that the history of the memory error is recorded;
As a result of the inspection by the inspection means, when an abnormality of the ECC memory is detected, start stop means for stopping start after a memory error warning;
A data processing apparatus comprising:
前記検査手段による検査の結果、前記ECCメモリの異常が検出されないと、前記記録手段に記録されているメモリエラー発生履歴を解除する履歴解除手段、をさらに具備したことを特徴とする請求項1記載のデータ処理装置。   2. The apparatus according to claim 1, further comprising history canceling means for canceling a memory error occurrence history recorded in the recording means when an abnormality of the ECC memory is not detected as a result of the inspection by the inspection means. Data processing equipment. 前記検査手段による前記ECCメモリの検査は、当該ECCメモリの全領域を検査する詳細メモリ検査であり、
前記判断手段により前記メモリエラーの履歴が記録されていないと判断されたことを条件に前記ECCメモリの特定領域を検査する簡易メモリ検査を実行する簡易検査手段をさらに備えたことを特徴とする請求項1または2に記載のデータ処理装置。
The inspection of the ECC memory by the inspection means is a detailed memory inspection that inspects the entire area of the ECC memory,
The apparatus further comprises simple inspection means for executing a simple memory inspection that inspects a specific area of the ECC memory on the condition that the memory error history is determined not to be recorded by the determination means. Item 3. The data processing device according to Item 1 or 2.
メモリエラーの検出及びその修正機能を有するECCメモリと、このECCメモリにメモリエラーが発生した履歴を記録する記録手段とを備えたデータ処理装置の起動方法であって、
データ処理装置は、
起動指示があると、前記記録手段によりメモリエラーの履歴が記録されているか否かを判断する判断ステップと、
この判断ステップによりメモリエラーの履歴が記録されていると判断されると、前記ECCメモリの検査を実行する検査ステップと、
この検査ステップにより前記ECCメモリの異常が検出されると、メモリエラーの警告後に起動を停止する起動停止ステップと、
を備えたことを特徴とするデータ処理装置の起動方法。
上記メモリ故障判断手段で上記ECCメモリが故障と判断された場合には、この判断結果を出力し、上記システムを停止可能に形成されていることを特徴とするデータ処理装置の起動方法。
An activation method of a data processing apparatus comprising an ECC memory having a function of detecting and correcting a memory error, and a recording means for recording a history of occurrence of the memory error in the ECC memory,
Data processing equipment
When there is an activation instruction, a determination step of determining whether or not a memory error history is recorded by the recording unit;
If it is determined that a memory error history is recorded in this determination step, an inspection step for performing an inspection of the ECC memory;
When an abnormality of the ECC memory is detected by this inspection step, a start stop step for stopping start after a memory error warning;
A method for starting a data processing apparatus, comprising:
A method for starting a data processing apparatus, wherein the memory failure determination means outputs the determination result when the ECC memory is determined to be defective, and the system can be stopped.
前記検査ステップによる前記ECCメモリの検査は、当該ECCメモリの全領域を検査する詳細メモリ検査であり、
前記判断ステップにより前記メモリエラーの履歴が記録されていないと判断された場合には、前記ECCメモリの特定領域を検査する簡易メモリ検査を実行する簡易検査ステップをさらに備えたことを特徴とする請求項4に記載のデータ処理装置の起動方法。
The inspection of the ECC memory by the inspection step is a detailed memory inspection that inspects the entire area of the ECC memory,
A simple inspection step for executing a simple memory inspection for inspecting a specific area of the ECC memory when the determination step determines that the history of the memory error is not recorded. Item 5. A data processing apparatus startup method according to Item 4.
前記起動停止ステップは、起動を停止する前に前記記録手段に記録されているメモリエラー発生履歴を解除することを特徴とする請求項4または5記載のデータ処理装置の起動方法。   6. The data processing apparatus activation method according to claim 4 or 5, wherein the activation stop step releases the memory error occurrence history recorded in the recording means before the activation is stopped.
JP2007024541A 2007-02-02 2007-02-02 Data processor and start-up method thereof Pending JP2008191864A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007024541A JP2008191864A (en) 2007-02-02 2007-02-02 Data processor and start-up method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007024541A JP2008191864A (en) 2007-02-02 2007-02-02 Data processor and start-up method thereof

Publications (1)

Publication Number Publication Date
JP2008191864A true JP2008191864A (en) 2008-08-21

Family

ID=39751918

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007024541A Pending JP2008191864A (en) 2007-02-02 2007-02-02 Data processor and start-up method thereof

Country Status (1)

Country Link
JP (1) JP2008191864A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928718A (en) * 2019-11-18 2020-03-27 上海维谛信息科技有限公司 Exception handling method, system, terminal and medium based on correlation analysis
CN114356455A (en) * 2022-01-06 2022-04-15 深圳忆联信息系统有限公司 Method and device for improving chip starting reliability

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928718A (en) * 2019-11-18 2020-03-27 上海维谛信息科技有限公司 Exception handling method, system, terminal and medium based on correlation analysis
CN110928718B (en) * 2019-11-18 2024-01-30 上海维谛信息科技有限公司 Abnormality processing method, system, terminal and medium based on association analysis
CN114356455A (en) * 2022-01-06 2022-04-15 深圳忆联信息系统有限公司 Method and device for improving chip starting reliability
CN114356455B (en) * 2022-01-06 2023-12-05 深圳忆联信息系统有限公司 Method and device for improving starting reliability of chip

Similar Documents

Publication Publication Date Title
US6976197B2 (en) Apparatus and method for error logging on a memory module
WO2021169260A1 (en) System board card power supply test method, apparatus and device, and storage medium
US6564348B1 (en) Method and apparatus for storing and using chipset built-in self-test signatures
US6216226B1 (en) Method and system for dynamically selecting a boot process within a data processing system
US8166338B2 (en) Reliable exception handling in a computer system
EP2175372B1 (en) Computer apparatus and processor diagnostic method
US20090150721A1 (en) Utilizing A Potentially Unreliable Memory Module For Memory Mirroring In A Computing System
TWI470420B (en) Dubugging method and computer system using the smae
US6550019B1 (en) Method and apparatus for problem identification during initial program load in a multiprocessor system
TW201520895A (en) System and method for automatically recovering BIOS of a computer
US7574621B2 (en) Method and system for identifying and recovering a file damaged by a hard drive failure
TWI474163B (en) Access system and method for accessing basic input output system
JP2008191864A (en) Data processor and start-up method thereof
JP2005149501A (en) System and method for testing memory with expansion card using dma
TWI584114B (en) Power failure detection system and method thereof
CN116069538A (en) Fault repairing method and device, electronic equipment and storage medium
JP2004021922A (en) Pseudo memory failure injection device
US8626992B2 (en) Storage device with identification information
JP6217086B2 (en) Information processing apparatus, error detection function diagnosis method, and computer program
TWI777259B (en) Boot method
US7168006B2 (en) Method and system for saving the state of integrated circuits upon failure
US20070179635A1 (en) Method and article of manufacure to persistently deconfigure connected elements
TWI840907B (en) Computer system and method for detecting deviations, and non-transitory computer readable medium
US11831337B2 (en) Semiconductor device and error detection methods
US7895493B2 (en) Bus failure management method and system