JP2013061841A - Information processing device and test method for information processing device - Google Patents
Information processing device and test method for information processing device Download PDFInfo
- Publication number
- JP2013061841A JP2013061841A JP2011200329A JP2011200329A JP2013061841A JP 2013061841 A JP2013061841 A JP 2013061841A JP 2011200329 A JP2011200329 A JP 2011200329A JP 2011200329 A JP2011200329 A JP 2011200329A JP 2013061841 A JP2013061841 A JP 2013061841A
- Authority
- JP
- Japan
- Prior art keywords
- test
- control unit
- unit
- identification information
- counter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Stored Programmes (AREA)
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は情報処理装置および情報処理装置の試験方法に関する。 The present invention relates to an information processing apparatus and an information processing apparatus testing method.
製品の信頼性を保証するために、製品の開発期間中および製造期間中に電圧、温度、クロック周波数等の、製品の選択されたコンポーネントに関連した動作状況の変化に対してマージン試験を行うことが知られている。また、マージン試験を行う製品の動作監視を行うウォッチドッグタイマ回路を製品内に設け、製品内のCPUやメモリが動作不能となった場合には、ウォッチドックタイマが動作し、リセット信号をCPUおよび電源部に出力する技術が知られている。 To ensure product reliability, perform margin testing for changes in operating conditions associated with selected components of the product, such as voltage, temperature, and clock frequency, during product development and manufacturing. It has been known. Also, a watchdog timer circuit that monitors the operation of the product that performs the margin test is provided in the product, and when the CPU or memory in the product becomes inoperable, the watchdog timer operates and the reset signal is sent to the CPU and A technique for outputting to a power supply unit is known.
例えば、製品の電圧やクロック周波数を一定時間毎に変更するマージン試験を、試験項目を変えて連続して実行する場合、製品のCPUやメモリがハングアップ(hang-up)する等の理由により、試験項目が変更されなくなる場合がある。この場合、マージン試験自体は停止せずに実行されるため、ウォッチドッグタイマ回路ではエラーが検出できないという問題がある。 For example, when a margin test that changes the voltage or clock frequency of a product at regular intervals is executed continuously by changing test items, the product CPU or memory hangs up. Test items may not be changed. In this case, since the margin test itself is executed without stopping, there is a problem that the watchdog timer circuit cannot detect an error.
本発明はこのような点に鑑みてなされたものであり、試験時にハングアップから復旧する情報処理装置および情報処理装置の試験方法を提供することを目的とする。 The present invention has been made in view of these points, and an object thereof is to provide an information processing apparatus that recovers from a hang-up during a test and a method for testing the information processing apparatus.
上記目的を達成するために、開示の情報処理装置が提供される。この情報処理装置は、識別情報記憶部と、制御部と、指示部とを有している。
識別情報記憶部は、複数の試験項目のうち、現在実行されている試験項目の試験を識別する識別情報を記憶する。
In order to achieve the above object, a disclosed information processing apparatus is provided. The information processing apparatus includes an identification information storage unit, a control unit, and an instruction unit.
The identification information storage unit stores identification information for identifying a test of a test item currently being executed among the plurality of test items.
制御部は、試験対象に複数の試験項目の試験をそれぞれ実行し、1つの試験項目の試験の終了に伴い識別情報記憶部に記憶されている識別情報を、次に実行する試験項目の試験の識別情報に変更する試験実行部と、所定時間以内に識別情報記憶部に記憶されている識別情報が変更されたか否かを判断する判断部とを備える。 The control unit executes tests of a plurality of test items on the test object, and the identification information stored in the identification information storage unit at the end of the test of one test item is used for the test of the test item to be executed next. A test execution unit that changes to identification information, and a determination unit that determines whether or not the identification information stored in the identification information storage unit has been changed within a predetermined time.
指示部は、判断部が、識別情報が所定時間以内に変更されなかったと判断した場合、制御部の再起動を制御部に電圧を供給する回路に指示する。 When the determination unit determines that the identification information has not been changed within a predetermined time, the instruction unit instructs the circuit that supplies a voltage to the control unit to restart the control unit.
試験時にハングアップから復旧することができる。 Can recover from hang-ups during testing.
以下、実施の形態の情報処理装置を、図面を参照して詳細に説明する。
<第1の実施の形態>
図1は、第1の実施の形態の情報処理装置を示す図である。
Hereinafter, an information processing apparatus according to an embodiment will be described in detail with reference to the drawings.
<First Embodiment>
FIG. 1 is a diagram illustrating the information processing apparatus according to the first embodiment.
第1の実施の形態の情報処理装置(コンピュータ)1は、制御部1aと、記憶部1bと、指示部1cと、制御部1aに伝送路3を介して接続された接続機器2と、制御部1aおよび接続機器2に電圧を供給する電圧供給回路4とを有している。制御部1aは、CPU(Central Processing Unit)が備える機能により実現することができる。記憶部1bは、例えば不揮発性のメモリデバイスが備えるデータ記憶領域により実現することができる。指示部1cは、例えばFPGA(Field Programmable Gate Array)が備える機能により実現することができる。
The information processing apparatus (computer) 1 according to the first embodiment includes a control unit 1a, a storage unit 1b, an
接続機器2としては、例えば、PCIe(PCI Express)スイッチや、SAS(Serial Attached SCSI)エクスパンダ等のSASデバイスが挙げられる。
制御部1aは、試験実行部1a1と、判断部1a2とを有している。
Examples of the connected
The control unit 1a includes a test execution unit 1a1 and a determination unit 1a2.
試験実行部1a1は、試験対象である制御部1a自身および接続機器2の電圧、クロック周波数を設計値から±1%、±2%・・・と順に変化させながら、試験項目に従って制御部1a、接続機器2に負荷をかけるマージン試験を実行する。本実施の形態のマージン試験をより具体的に説明すると、マージン試験では情報処理装置1を一定時間(例えば1時間)連続して運転する。運転中に、最初の試験項目である接続機器2のマージン試験を30分間行い、その後、2番目の試験項目である制御部1aのマージン試験を30分行う。そして、情報処理装置1の運転中に制御部1aおよび接続機器2に発生した異常の種別に基づいて、情報処理装置1が電源電圧、クロック周波数の変化に対してどこまでマージンを持っているのかを検証する。
The test execution unit 1a1 changes the voltage and clock frequency of the control unit 1a itself and the connected
記憶部1bは、マージン試験の実行状態を示すフラグを記憶するフラグ記憶部1b1と、現在実行されているマージン試験の試験項目を識別する識別情報を記憶する識別情報記憶部1b2を有する。 The storage unit 1b includes a flag storage unit 1b1 that stores a flag indicating a margin test execution state, and an identification information storage unit 1b2 that stores identification information for identifying a test item of a margin test currently being executed.
フラグ記憶部1b1のフラグは、試験実行部1a1がマージン試験を実行しているときに1(有効)にセットされ、マージン試験を実行していないときに0(無効)にセットされる。また、最初の試験項目である接続機器2のマージン試験を行っている場合の識別情報は「TP1」であり、2番目の試験項目である制御部1aのマージン試験を行っている場合の識別情報は「TP2」である。
The flag in the flag storage unit 1b1 is set to 1 (valid) when the test execution unit 1a1 is executing a margin test, and is set to 0 (invalid) when the margin test is not being performed. The identification information when the margin test of the connected
試験実行部1a1は、マージン試験を開始する際に、フラグ記憶部1b1のフラグを1に設定する。また、試験実行部1a1は、接続機器2のマージン試験を行う際に、識別情報として「TP1」を識別情報記憶部1b2に設定する。そして、試験実行部1a1は、接続機器2のマージン試験の終了に伴い識別情報記憶部1b2に記憶されている「TP1」を、次に実行する制御部1aのマージン試験の識別情報である「TP2」に変更する。
The test execution unit 1a1 sets the flag in the flag storage unit 1b1 to 1 when starting the margin test. The test execution unit 1a1 sets “TP1” as identification information in the identification information storage unit 1b2 when performing a margin test of the connected
判断部1a2は、フラグ記憶部1b1に記憶されているフラグが1であるとき、すなわち、試験実行部1a1がマージン試験を実行しているときに識別情報記憶部1b2に記憶されている識別情報を監視し、識別情報が35分以内に「TP1」から「TP2」に変更されたか否かを判断する。なお、35分は、接続機器2のマージン試験が30分行われることに基づき、識別情報の変更の判断に用いる時間の一例であり、情報処理装置1の管理者が任意の時間に設定することができる。識別情報が35分以内に「TP1」から「TP2」に変更されなかった場合は、制御部1aがハングアップし、接続機器2のマージン試験から制御部1aのマージン試験に移行していないと管理者が判断することができる。
The determination unit 1a2 displays the identification information stored in the identification information storage unit 1b2 when the flag stored in the flag storage unit 1b1 is 1, that is, when the test execution unit 1a1 is executing a margin test. Monitoring is performed to determine whether or not the identification information has been changed from “TP1” to “TP2” within 35 minutes. Note that 35 minutes is an example of a time used to determine whether to change the identification information based on a 30-minute margin test of the connected
また、判断部1a2は、接続機器2のマージン試験の開始に伴い、指示部1cが備えるカウンタ1c1のカウンタ値を所定値(以下、第1のカウンタ値と言う)にセットする。なお、カウンタ1c1は、アップカウンタでもよいし、ダウンカウンタでもよいが、本実施の形態ではダウンカウンタであるものとして説明する。
The determination unit 1a2 sets the counter value of the counter 1c1 included in the
指示部1cは、カウンタ1c1が第1のカウンタ値にセットされると、カウンタ1c1のカウントを開始する。指示部1cは、カウンタ1c1のカウンタ値が「0」に達すると、判断部1a2によるカウンタ1c1へのカウンタ値のセットが停止されたと判断する。なお、「0」は、第2のカウンタ値の一例である。
When the counter 1c1 is set to the first counter value, the
判断部1a2は、接続機器2のマージン試験が開始されてから識別情報が「TP1」である間は、カウンタ値が「0」に達しないように、カウンタ1c1を第1のカウンタ値にセットする動作を定期的に繰り返し行う。
The determination unit 1a2 sets the counter 1c1 to the first counter value so that the counter value does not reach “0” while the identification information is “TP1” after the margin test of the connected
判断部1a2は、識別情報が35分以内に「TP1」から「TP2」に変更されなかったと判断した場合、カウンタ1c1への第1のカウンタ値のセットを停止する。第1のカウンタ値のセットが停止されることにより、カウンタ1c1のカウンタ値が、「0」に達する。 If the determination unit 1a2 determines that the identification information has not been changed from “TP1” to “TP2” within 35 minutes, the determination unit 1a2 stops setting the first counter value in the counter 1c1. When the setting of the first counter value is stopped, the counter value of the counter 1c1 reaches “0”.
指示部1cは、カウンタ1c1のカウンタ値が「0」に達すると、制御部1aの再起動を電圧供給回路4に指示する。このように、カウンタ1c1を用いて識別情報の変更を確認することにより、指示部1cは、制御部1aの動作状態にかかわらず、制御部1aのハングアップを認識することができる。
When the counter value of the counter 1c1 reaches “0”, the
電圧供給回路4は、指示部1cから制御部1aを再起動する指示を受け付けると、制御部1aを再起動する。すなわち、制御部1aの電源をON状態からOFF状態にし、再度ON状態にする処理を行う。
When the voltage supply circuit 4 receives an instruction to restart the control unit 1a from the
情報処理装置1によれば、マージン試験の試験項目を識別する識別情報の変更の有無を判断し、識別情報が所定時間以内に更新されなかった場合、制御部1aの再起動を行うことにより、ハングアップから復旧する。従って、例えば、制御部1aが再起動された場合、再起動前の試験項目の次の試験項目でマージン試験を続行するよう設定しておけば、マージン試験を継続して行うことができる。なお、本実施の形態では、試験項目が35分以内に更新されなかった場合、制御部1aの再起動を行うようにしたが、制御部1aの再起動を行う前に制御部1aをリセットし、リセット後も試験項目が所定時間以内に更新されなかった場合、制御部1aの再起動を実行するようにしてもよい。 According to the information processing apparatus 1, it is determined whether or not the identification information for identifying the test item of the margin test has been changed, and when the identification information is not updated within a predetermined time, the control unit 1a is restarted, Recover from a hangup. Therefore, for example, when the control unit 1a is restarted, the margin test can be continued if the margin test is set to continue with the test item next to the test item before the restart. In this embodiment, when the test item is not updated within 35 minutes, the control unit 1a is restarted. However, before the control unit 1a is restarted, the control unit 1a is reset. If the test item is not updated within a predetermined time even after resetting, the control unit 1a may be restarted.
以下、第2の実施の形態において、開示の情報処理装置をストレージ装置に適用した場合について説明する。
<第2の実施の形態>
図2は、第2の実施の形態のストレージ装置の全体構成図を示す図である。
Hereinafter, in the second embodiment, a case where the disclosed information processing apparatus is applied to a storage apparatus will be described.
<Second Embodiment>
FIG. 2 is an overall configuration diagram of the storage apparatus according to the second embodiment.
図2に示すストレージ装置100は、複数のHDDを備える。ストレージ装置100内のDE(Drive Enclosure)210、220のそれぞれには、ストレージ装置を構成する複数のHDDが格納されている。また、ストレージ装置100は、DE210、220内のHDDに対するアクセスを制御する2つの制御モジュール(CM:Controller Module)10a、10bを備えている。なお、DE210、220は、例えば、ストレージ装置100の外部に設けられていてもよい。また、ストレージ装置としては、HDDに限らず、例えばSSD(Solid State Drive)等の他の種類のストレージ装置が使用されてもよい。
The
ストレージ装置100には、ホスト装置110と管理端末装置120とが接続されている。ホスト装置110は、ユーザの操作に応じてストレージ装置100内の制御モジュール10aまたは制御モジュール10bに対して、DE210内のHDDまたはDE220内のHDDへのアクセスを要求する。なお、ホスト装置110と制御モジュール10a、10bとは、例えば、光ファイバを介して接続されている。
A
管理端末装置120は、管理者の操作に応じてストレージ装置100の動作を管理する。例えば、管理端末装置120は、管理者の操作に応じてストレージ装置100内の制御モジュール10a、10bのそれぞれの電源をON状態にしたり、OFF状態にしたりすることを要求することができる。なお、管理端末装置120と制御モジュール10a、10bとは、例えば、LAN(Local Area Network)ケーブルを介して接続されている。また、管理端末装置120は、ストレージ装置100に対し後述するマージン試験を行った結果を示すログファイルを管理端末装置120が備える図示しない記憶部に記憶する。
The
制御モジュール10a、10bは、それぞれ、ホスト装置110からのアクセス要求に応じてDE210、220内のHDDへのアクセスを制御する。例えば、制御モジュール10a、10bは、それぞれ、HDDに記憶されたデータの読み出し要求をホスト装置110から受け付けると、読み出しを要求されたデータをHDDから読み出し、ホスト装置110に送信する。あるいは、制御モジュール10a、10bは、それぞれ、HDDへのデータの書き込み要求をホスト装置110から受け付けると、書き込みを要求されたデータをHDDに書き込む。
The
また、制御モジュール10a、10bは、DE210、220内のHDDに記憶されたデータをキャッシュする機能を備える。また、制御モジュール10aと制御モジュール10bとは互いにデータを送受信でき、制御モジュール10a、10bは、例えば、他方のCMが保持するキャッシュデータのバックアップを互いに保持する。また、制御モジュール10a、10bの一方は、制御モジュール10a、10bの他方の電源を制御することも可能になっている。なお、制御モジュール10a、10bは、例えば、DE210、220内のHDDに記憶されたデータをRAID(Redundant Arrays of Inexpensive Disks)によって管理してもよい。
The
図3は、ストレージシステム内の制御モジュールのハードウェア構成例を示す図である。
制御モジュール10a、10bは、マージン試験を行う機能を有している。本実施の形態で実行するマージン試験は、制御モジュール10a、10bに電力やクロック信号を供給するデバイスの個体差や、ストレージ装置100の使用環境等によって発生する電源電圧、クロック周波数の設計値からのずれを考慮しても、ストレージ装置100が正常に動作することを確認する試験である。より具体的には、本実施の形態のマージン試験は、ストレージ装置100の制御モジュール10a、10bおよびDE210、220内で使用されている各デバイスの電源電圧、クロック周波数を設計値から±1%、±2%・・・と順に変化させながら、試験対象のデバイスに負荷をかける。負荷をかける試験対象のデバイスおよび負荷をかける箇所は、用意された試験項目により予め決定されている。
FIG. 3 is a diagram illustrating a hardware configuration example of the control module in the storage system.
The
マージン試験では、ストレージ装置100を一定時間(例えば4時間)連続して運転する。そして運転中に、ストレージ装置100が備える各デバイスに発生した異常の種別に基づいてストレージ装置100が、電源電圧、クロック周波数に対してどこまでマージンを持っているのかを検証する。
In the margin test, the
制御モジュール10aは、制御部10と、監視部20と、リセット回路30と、電源回路40と、クロック回路50と、MRAM(Magnetoresistive Random Access Memory)60とを有している。
The
制御部10は、CPU11、RAM(Random Access Memory)12、PCIe(Peripheral Component Interconnect Express)スイッチ13、SASコントローラ14a、14b、SASエクスパンダ15a、15b、PCH(Platform Controller Hub)16、SSD17、トランシーバ18を有している。
The control unit 10 includes a
また、制御モジュール10bは、制御モジュール10aと同じハードウェア構成によって実現される。そこで、ここでは基本的に、制御モジュール10aのハードウェア構成について説明し、制御モジュール10bのハードウェア構成の説明については省略する。
The
CPU11は、制御モジュール10a全体を統括的に制御する。RAM12は、制御モジュール10aの主記憶装置として使用され、CPU11に実行させるプログラムの少なくとも一部や、このプログラムによる処理に必要な各種データを一時的に記憶する。また、RAM12は、DE210、220内のHDDに記憶されたデータのキャッシュ領域としても使用される。RAM12の一例として、DDR3 SDRAM(Double-Data-Rate3 Synchronous Dynamic Random Access Memory)等が挙げられる。
The
PCIeスイッチ13は、CPU11およびSASコントローラ14a、14bとの間で、PCIeバスを介してデータを送受信する。また、PCIeスイッチ13は、ホスト装置110や、制御モジュール10bが備えるPCIスイッチと接続されている。以下、PCIeスイッチ13と制御モジュール10bが備えるPCIeスイッチとの間の通信経路を「通信経路P1」と呼ぶ。
The
CPU11と、制御モジュール10bが備えるCPUとは、通信経路P1を通じて通信できるようになっている。例えば、CPU11は、制御モジュール10bにおいて発生した異常の内容を示す異常検出情報を、制御モジュール10bが備えるCPUから通信経路P1を通じて取得することができる。また、例えば、CPU11および制御モジュール10bが備えるCPUは、RAM12、制御モジュール10bが備えるRAMにそれぞれ記憶されたHDDのキャッシュデータを、通信経路P1を通じて他方の制御モジュールが備えるCPUに送信し、他方の制御モジュール内のRAMにキャッシュデータをバックアップするように依頼することもできる。
The
SASコントローラ14a、14bは、SASデバイスであるDE210、220内のHDDとの間のインタフェース処理を実行する制御回路である。SASコントローラ14aは、制御モジュール10bのSASコントローラに接続されている。また、SASコントローラ14aは、SASエクスパンダ15aを通じてDE210、220に接続されている。また、SASコントローラ14aは、SASエクスパンダ15aを通じてクロック回路50および電源回路40に接続されている。
The
SASコントローラ14bは、制御モジュール10bのSASコントローラに接続されている。また、SASコントローラ14bは、SASエクスパンダ15bを通じてDE210、220に接続されている。また、SASコントローラ14bは、制御モジュール10b内のSASエクスパンダを通じてDE210、220と接続されている。このように、SASコントローラ14bとDE210、220とが2つのSASエクスパンダを通じて接続されることで、SASコントローラ14bからDE210、220へのアクセス経路が冗長化されている。
The
SASエクスパンダ15aは、SASコントローラ14aとDE210、220との中継デバイスの機能に加え、制御部10の動作を監視する監視部20側の機能を備えている。なお、SASエクスパンダ15aの監視部20側の機能については後述する。
The SAS expander 15a has a function on the monitoring unit 20 side that monitors the operation of the control unit 10 in addition to the function of a relay device between the
SASエクスパンダ15bは、SASコントローラとSASデバイスとの間でデータを中継する。なお、SASエクスパンダ15bは、内部にメモリを備え、制御モジュール10aの電源状態を示す情報を内部のメモリに保持する。
The
PCH16は、CPU11と、SSD17、トランシーバ18およびFPGA22との間で、データを送受信する。
SSD17は、制御モジュール10aの二次記憶装置として使用され、CPU11により実行されるプログラムやその実行に必要な各種のデータ等を記憶する。なお、二次記憶装置としては、例えば、HDD等の他の種類の不揮発性記憶装置が使用されてもよい。SSD17には、マージン記憶領域171が設けられている。マージン記憶領域171には、マージン試験に使用する電圧の初期値(電圧初期値)およびクロックの初期値(クロック初期値)が予め記憶されている。また、マージン記憶領域171には、マージン試験に使用する電圧の設定値(電圧マージン設定値)およびクロックの設定値(クロックマージン設定値)が予め複数記憶されている。図3に示す電圧/クロックマージン設定値1、電圧/クロックマージン設定値2、・・・、電圧/クロックマージン設定値Xは、それぞれ電圧マージン設定値およびクロックマージン設定値の異なる組み合わせを示している。
The
The
また、SSD17には、第1カタログ172、第2カタログ173、OS(Operating System)174が記憶されている。
第1カタログ172および第2カタログ173には、マージン試験中にCPU11に実行させるプログラムが記憶されている。
The
The
OS174には、CPU11に実行させるプログラムが記憶されている。
トランシーバ18は、RS−232Cケーブルや、LANケーブルを介して管理端末装置120に接続されており、管理端末装置120との間でデータを送受信する。
The
The
監視部20は、SASエクスパンダ15aと、FPGA22とを備えている。SASエクスパンダ15aとFPGA22との間はローカルバスで接続されている。
SASエクスパンダ15aは、監視部20側の機能としてPostPhase監視部211と、電圧マージン制御部212と、クロックマージン制御部213とを備えている。
The monitoring unit 20 includes a SAS expander 15 a and an
The SAS expander 15a includes a
PostPhase監視部211は、制御部10への電源投入後に起動するBIOSの起動中に、BIOSの各プログラムの実行結果を識別するPostPhaseコードが生成されていることを監視する。PostPhase監視部211は、PostPhaseコードの生成を監視することで、BIOSの起動処理が実行されていることを把握することができる。
The
電圧マージン制御部212は、I2Cバスを介して電源回路40に接続されている。電圧マージン制御部212は、MRAM60に記憶されている電圧マージン設定値を電源回路40に設定する。
The voltage
クロックマージン制御部213は、I2Cバスを介してクロック回路50に接続されている。クロックマージン制御部213は、MRAM60に記憶されているクロックマージン設定値をクロック回路50に設定する。
The clock
FPGA22は、制御モジュール10a内のハードウェアの状態を監視する機能を備える。FPGA22は、制御モジュール10a内のハードウェアの異常を検出すると、検出した異常の内容を示す異常検出情報をCPU11に通知する。また、FPGA22は、異常検出情報をMRAM60に保存する。さらに、FPGA22は、CPU11によってプログラム実行時の異常が検出された場合、検出された異常の内容を示す異常検出情報をCPU11から受信し、受信した異常検出情報をMRAM60に保存する。また、FPGA22は、CPU11からの要求、または制御モジュール10bが備えるFPGAからの要求に応じて、MRAM60に保存した異常検出情報を制御モジュール10bが備えるFPGAに送信することもできる。
The
また、FPGA22は、制御モジュール10aの電源状態を制御する機能を備える。FPGA22は、CPU11からの要求、または制御モジュール10bが備えるFPGAからの要求に応じて電源回路40を制御し、制御モジュール10aの電源をON状態にしたり、OFF状態にしたりする。
The
さらに、FPGA22は、制御モジュール10bが備えるFPGAと通信する機能を備える。以下、FPGA22と制御モジュール10bが備えるFPGAとの間の通信経路を、「通信経路P2」と呼ぶ。FPGA22は、例えば、CPU11からの要求に応じて、制御モジュール10bの電源を所定の状態に遷移させるように、通信経路P2を通じて制御モジュール10bが備えるFPGAに要求する。
Further, the
なお、FPGA22が実行する処理は、例えば、マイクロコンピュータ等の他の種類の制御回路によって実行されてもよい。
FPGA22は、WDT監視処理部221と、リセット制御部222と、電源制御部223とを有している。
Note that the processing executed by the
The
WDT監視処理部221は、制御部10のハングアップを検出し、制御部10を再起動する機能を有する。このWDT監視処理部221は、WDT0カウンタ221a、WDT2カウンタ221b、およびWDT3カウンタ221cを有する。WDT0カウンタ221a、WDT2カウンタ221b、およびWDT3カウンタ221cは、いずれもダウンカウンタである。WDT0カウンタ221a、WDT2カウンタ221b、およびWDT3カウンタ221cのカウンタ値の更新は、CPU11が行う。
The WDT
CPU11によってWDT0カウンタ221a、WDT2カウンタ221b、およびWDT3カウンタ221cのカウンタ値が更新されるとWDT監視処理部221は、WDT0カウンタ221aのダウンカウントを開始する。WDT0カウンタ221aのカウンタ値が0になると、WDT監視処理部221は、WDT0カウンタ221aのタイムアウトを制御部10に通知する。その後、WDT監視処理部221は、WDT2カウンタ221bのダウンカウントを開始する。
When the
WDT2カウンタ221bのカウンタ値が0になると、WDT監視処理部221は、リセット制御部222に制御部10のリセットを指示する。その後、WDT監視処理部221は、WDT3カウンタ221cのダウンカウントを開始する。
When the counter value of the
WDT3カウンタ221cのカウンタ値が0になり、かつ、後述するマージン試験フラグ記憶領域67のフラグが1にセットされている場合、WDT監視処理部221は、制御部10の再起動を電源制御部223に指示する。
When the counter value of the
リセット制御部222は、WDT監視処理部221の指示に基づきリセット回路30を制御し、制御部10をリセットするリセット信号を制御部10に供給する。
電源制御部223は、WDT監視処理部221の指示に基づき電源回路40を制御し、制御部10を再起動する。
The
The power
リセット回路30は、リセット制御部222の制御の下で、制御モジュール10aが備える各デバイスにリセット信号を供給する。
電源回路40は、電源制御部223の制御の下で、制御モジュール10aの電源をON状態にしたり、OFF状態にしたりする。また、電源回路40は、電圧マージン制御部212の制御により、制御部10に供給する電圧を変更する。
The
The
クロック回路50は、クロック信号を生成し、ストレージ装置100が備える各デバイスに供給する。また、クロック回路50は、クロックマージン制御部213の制御により、制御部10に供給するクロック周波数を変更する。
The
MRAM60は、FPGA22での処理に用いる各種のデータや、制御モジュール10aにおいて検出された異常の内容を示す異常検出情報を記憶する不揮発性メモリである。 このMRAM60は、リセットフラグ記憶領域61、PostPhaseフラグ記憶領域62、PostPhaseカウンタ63、第1起動カウンタ64、第2起動カウンタ65、実行状態チェックフラグ記憶領域66、マージン試験フラグ記憶領域67、TP種別記憶領域68、電圧マージン設定値記憶領域69、クロックマージン設定値記憶領域70、およびPostPhaseコード記憶領域71を有している。
The
リセットフラグ記憶領域61は、監視部20の指示により制御部10の再起動が実行されたか否かを示すフラグを記憶する領域である。
PostPhaseフラグ記憶領域62は、PostPhase監視部211にPostPhaseコードの生成を監視させるか否かを示すフラグを記憶する領域である。本実施の形態の当該フラグは、PostPhase監視部211にPostPhaseコードの生成を監視させることを示す1にセットされている。
The reset
The PostPhase
PostPhaseカウンタ63は、PostPhaseコードの生成を判断するのに用いるカウンタ値を記憶するダウンカウンタである。PostPhaseカウンタ63のカウンタ値は、制御部10により定期的に所定の値にセットされる。このカウンタ値が0になっても、新たなPostPhaseコードが生成されない場合、PostPhase監視部211は、PostPhaseコードが生成されていないと判断する。
The
第1起動カウンタ64は、ある電圧/クロックマージン設定値を用いて試験を実行した後に、電圧/クロックマージン設定値を変えて次の試験に遷移させるか否かを判断するのに用いるカウンタ値を記憶するカウンタである。
The
第2起動カウンタ65は、マージン試験において変更する電圧/クロックマージン設定値の残数を示すカウンタ値を記憶するカウンタである。
実行状態チェックフラグ記憶領域66は、ある試験項目の試験の実行中であることを示すフラグを記憶する領域である。
The
The execution state check flag storage area 66 is an area for storing a flag indicating that a test for a certain test item is being executed.
マージン試験フラグ記憶領域67は、マージン試験の実行中であることを示すフラグを記憶する領域である。マージン試験フラグ記憶領域67のフラグが1にセットされており、かつ、WDT3カウンタ221cのカウントが満了した場合は、監視部20より制御部10の再起動が実行される。マージン試験フラグ記憶領域67のフラグは、電圧マージンおよびクロックマージンを設定する直前にCPU11によって1にセットされる。
The margin test
TP種別記憶領域68は、試験項目を示す情報を記憶する領域である。試験項目を示す情報としては、例えば、SASコントローラ14a、14bおよびSASエクスパンダ15a、15bに対する負荷試験項目を示す「TPa」や、CPU11の負荷試験項目を示す「TPb」等が挙げられる。
The TP
電圧マージン設定値記憶領域69には、マージン試験に用いる電圧マージン設定値が記憶される。
クロックマージン設定値記憶領域70には、マージン試験に用いるクロックマージン設定値が記憶される。
The voltage margin setting
The clock margin setting
PostPhaseコード記憶領域71には、BIOSの各プログラムの実行結果を識別するPostPhaseコードが記憶される。BIOSの起動が停止した場合、管理者は、PostPhaseコード記憶領域71に記憶されているPostPhaseコードを参照することで、BIOSのプログラムがどこまで実行されたのかを知ることができる。 The PostPhase code storage area 71 stores a PostPhase code for identifying the execution result of each program of the BIOS. When the activation of the BIOS is stopped, the administrator can know how far the BIOS program has been executed by referring to the PostPhase code stored in the PostPhase code storage area 71.
次に、CPU11が備える機能を説明する。
図4は、CPUが備える機能を示すブロック図である。
CPU11は、WDT処理部111と、フラグ制御部112と、マージン試験部113と、マージン設定部114とを有している。
Next, functions provided in the
FIG. 4 is a block diagram illustrating functions of the CPU.
The
WDT処理部111は、実行状態チェックフラグ記憶領域66のフラグが0にセットされている場合、WDT0カウンタ221a、WDT2カウンタ221bおよびWDT3カウンタ221cのカウンタ値を4秒で0になるカウンタ値に定期的(例えば4秒以内)に設定する。
When the flag of the execution state check flag storage area 66 is set to 0, the
WDT処理部111は、実行状態チェックフラグ記憶領域66のフラグが1にセットされている場合、WDT0カウンタ221a、WDT2カウンタ221bおよびWDT3カウンタ221cの設定に加えて、TP種別記憶領域68のTP種別が35分以内に更新されたかどうかをチェックする。WDT処理部111は、35分以内にTP種別の更新がなかった場合は、マージン試験により制御部10がハングアップしたと判断し、WDT処理を停止する。WDT処理が停止すると、WDT監視処理部221が、WDT3カウンタ221cのカウント満了(カウンタ値0)を検出し、マージン試験フラグ記憶領域67のフラグが1の場合は監視部20より制御部10が再起動される。制御部10の再起動により、制御部10は、ハングアップ状態から復旧する。
When the flag of the execution state check flag storage area 66 is set to 1, the
フラグ制御部112は、MRAM60に設定されている各種フラグを所定の条件下で1または0にセットする。
マージン試験部113は、前述したマージン試験を実行する。マージン試験対象のデバイスは、例えばCPU11自身、制御モジュール10a、10b間の通信を行うPCIeスイッチ13並びに、制御モジュール10a、10bとDE210、220とを接続するSASコントローラ14a、14bおよびSASエクスパンダ15a、15bである。
The
The
マージン設定部114は、SSD17のマージン記憶領域171に記憶されている各種設定値をMRAM60の電圧マージン設定値記憶領域69およびクロックマージン設定値記憶領域70に記憶する。
The
次に、制御モジュール10aの処理を説明する。
図5および図6は、制御モジュールの処理を説明するフローチャートである。
[ステップS1] 制御モジュール10aの電源がON状態になると、監視部20が起動する。なお、制御部10の電源はOFF状態のままである。監視部20が起動すると、ステップS2に遷移する。
Next, the process of the
5 and 6 are flowcharts for explaining the processing of the control module.
[Step S1] When the
[ステップS2] FPGA22は、第2起動カウンタ65のカウンタ値に、マージン記憶領域171に記憶されている電圧/クロックマージン設定値の個数Xを代入する。その後、ステップS3に遷移する。
[Step S2] The
[ステップS3] 電圧マージン制御部212は、MRAM60の電圧マージン設定値記憶領域69に記憶されている電圧マージン設定値を電源回路40に設定する。その後、ステップS4に遷移する。
[Step S <b> 3] The voltage
[ステップS4] 電源制御部223は、電源回路40を制御して制御部10の電源をON状態にする。電源がON状態になることにより、制御部10には、電圧マージン設定値の電圧が供給される。その後、ステップS5に遷移する。
[Step S <b> 4] The power
[ステップS5] クロックマージン制御部213は、MRAM60のクロックマージン設定値記憶領域70に記憶されているクロックマージン設定値をクロック回路50に設定する。その後、ステップS6に遷移する。
[Step S <b> 5] The clock
[ステップS6] リセット制御部222は、制御部10のリセット信号を解除する。その後、ステップS7に遷移する。
[ステップS7] リセット制御部222は、リセットフラグ記憶領域61のフラグ(図5ではリセットフラグと表記。以下同じ)を0に設定する。その後、ステップS8に遷移する。
[Step S <b> 6] The
[Step S7] The
[ステップS8] CPU11は、BIOSの起動を開始する。その後、ステップS9に遷移する。BIOSは、PostPhaseカウンタ63に所定のカウンタ値を設定し、設定したカウンタ値が0になる前にPostPhaseコードを生成する。PostPhase監視部211は、PostPhaseの監視処理を開始する。なお、PostPhase監視処理については、後に詳述する。
[Step S8] The
[ステップS9] フラグ制御部112は、リセットフラグ記憶領域61のフラグが0か否かを判断する。フラグが1である場合(ステップS9のNo)、ステップS10に遷移する。フラグが0である場合(ステップS9のYes)、ステップS12に遷移する。
[Step S9] The
[ステップS10] CPU11は、BIOSの起動を停止する。BIOSの起動が停止することにより、PostPhaseコードの生成も停止する。その後、ステップS11に遷移する。
[Step S10] The
[ステップS11] PostPhase監視部211は、制御部10の再起動を電源制御部223に指示する。その後、制御部10が再起動されると、処理がステップS6に遷移する。
[Step S11] The
[ステップS12] フラグ制御部112は、リセットフラグ記憶領域61のフラグを1に設定する。その後、ステップS13に遷移する。
[ステップS13] 監視部20は、BIOSの起動の完了を確認するとPostPhaseの監視を終了する。また、CPU11によるBIOSの起動が完了すると、OS174が起動する。その後、ステップS14に遷移する。
[Step S12] The
[Step S <b> 13] When the monitoring unit 20 confirms the completion of activation of the BIOS, the monitoring of the PostPhase is terminated. When the activation of the BIOS by the
[ステップS14] マージン設定部114は、電圧マージン設定値記憶領域69の電圧マージン設定値をマージン記憶領域171に記憶されている電圧初期値に書き換える。また、マージン設定部114は、クロックマージン設定値記憶領域70のクロックマージン設定値をマージン記憶領域171に記憶されているクロック初期値に書き換える。その後、ステップS15に遷移する。
[Step S14] The
[ステップS15] マージン試験部113は、監視部20によるWDT監視の設定を有効にする。この処理により、WDT監視処理部221がWDT監視処理を開始する。また、WDT処理部111は、WDT処理を開始する。その後、ステップS16に遷移する。なお、WDT監視処理およびWDT処理は、後に詳述する。
[Step S15] The
[ステップS16] マージン試験部113は、第1起動カウンタ64のカウンタ値をインクリメントする。その後、ステップS17に遷移する。
[ステップS17] マージン試験部113は、第1起動カウンタ64のカウンタ値が1であるか否かを判断する。第1起動カウンタ64のカウンタ値が1である場合(ステップS17のYes)、ステップS18に遷移する。第1起動カウンタ64のカウンタ値が1以外の値である場合(ステップS17のNo)、ステップS28に遷移する。
[Step S16] The
[Step S <b> 17] The
[ステップS18] 制御部10は、OS174の起動完了時に自動で第2カタログ173が実行される設定を有効にする。その後、ステップS19に遷移する。
[ステップS19] 制御部10は、第2起動カウンタ65のカウンタ値をデクリメントする。その後、ステップS20に遷移する。
[Step S <b> 18] The control unit 10 enables the setting for automatically executing the
[Step S19] The controller 10 decrements the counter value of the
[ステップS20] CPU11は、OS174の起動が完了するとステップS21に遷移する。
[ステップS21] フラグ制御部112は、実行状態チェックフラグ記憶領域66のフラグ(図5では実行状態チェックフラグと表記。以下同じ)を1に設定する。その後、ステップS22に遷移する。
[Step S20] When the activation of the
[Step S21] The
[ステップS22] フラグ制御部112は、TP種別記憶領域68のTP種別をTPaに設定する。その後、ステップS23に遷移する。
[ステップS23] マージン試験部113は、ステップS3にて設定された電圧マージン設定値およびステップS5にて設定されたクロックマージン設定値を用いてSASコントローラ14a、14bおよびSASエクスパンダ15a、15bの負荷試験を実行する。SASコントローラ14a、14bおよびSASエクスパンダ15a、15bの負荷試験が終了すると、ステップS24に遷移する。なお、マージン試験部113は、高速伝送路の負荷試験中に何らかのエラーが発生すると、エラーが発生したことを示すメッセージ(以下、「第1のメッセージ」と言う)を作成し、CPU11内のキャッシュに一時記憶する。
[Step S22] The
[Step S23] The
[ステップS24] マージン試験部113は、TP種別記憶領域68のTP種別をTPbに設定する。その後、ステップS25に遷移する。
[ステップS25] マージン試験部113は、CPU11の負荷試験を実行する。マージン試験部113は、CPU11の負荷試験中に何らかのエラーが発生すると、第1のメッセージを作成し、CPU11内のキャッシュに一時記憶する。CPU負荷試験が終了すると、マージン試験部113は、マージン試験の結果を示すログファイルを作成する。ログファイルの作成の際、マージン試験部113は、CPU11内のキャッシュを参照し、第1のメッセージが作成されているか否かを確認する。第1のメッセージが作成されていれば、マージン試験部113は、第1のメッセージを含むログファイルを作成する。第1のメッセージが作成されていなければ、マージン試験部113は、マージン試験中にエラーが発生しなかったことを示すメッセージ(以下、「第2のメッセージ」と言う)を含むログファイルを作成する。そして、マージン試験部113は、作成したログファイルを管理端末装置120に転送する。その後、ステップS26に遷移する。
[Step S24] The
[Step S25] The
[ステップS26] フラグ制御部112は、実行状態チェックフラグ記憶領域66のフラグを0に設定する。その後、ステップS27に遷移する。
[ステップS27] CPU11は、制御部10の再起動指示をFPGA22に送る。これにより、電源制御部223が電源回路40を制御して制御部10を再起動する。CPU11が再起動されると、ステップS5以降の処理が引き続き実行される。
[Step S <b> 26] The
[Step S <b> 27] The
[ステップS28] CPU11は、OS174起動完了時に自動で第1カタログ172が実行される設定を有効にする。その後、ステップS29に遷移する。
[ステップS29] CPU11は、OS174の起動が完了するとステップS30に遷移する。
[Step S <b> 28] The
[Step S29] When the activation of the
[ステップS30] フラグ制御部112は、実行状態チェックフラグ記憶領域66のフラグを1に設定し、マージン試験フラグ記憶領域67のフラグを1に設定し、TP種別記憶領域68の値を0に設定し、第1起動カウンタ64のカウンタ値を0に設定する。その後、ステップS31に遷移する。
[Step S30] The
[ステップS31] CPU11は、第2起動カウンタ65のカウンタ値を確認する。具体的には、第2起動カウンタ65のカウンタ値がXか否かを判断する。第2起動カウンタ65のカウンタ値がXではなければ第2起動カウンタ65のカウンタ値がX−1か否かを判断する。このように、第2起動カウンタ65のカウンタ値と対比する値をデクリメントして、第2起動カウンタ65のカウンタ値と一致する値を確認する。そして、値が一致すれば、ステップS32に遷移する。以下、一致した値をnとする。また、一致した値が0であればステップS34に遷移する。
[Step S31] The
[ステップS32] マージン設定部114は、次回起動時の電圧マージン設定値およびクロックマージン設定値をマージン記憶領域171から読み出し、電圧マージン設定値記憶領域69およびクロックマージン設定値記憶領域70に設定する。例えば、n=2であれば、電圧/クロックマージン設定値2に設定されている電圧マージン設定値およびクロックマージン設定値を読み出す。その後、ステップS33に遷移する。
[Step S32] The
[ステップS33] CPU11は、制御部10の再起動をFPGA22に指示する。この処理により、電源制御部223は、電源回路40を制御して制御部10を再起動する。制御部10が再起動すると、CPU11は、ステップS4以降の処理を実行する。
[Step S <b> 33] The
[ステップS34] CPU11は、制御部10の電源をOFF状態にする指示をFPGA22に送る。この指示により、電源制御部223は、電源回路40を制御して制御部10の電源をOFF状態にする。これにより、図5および図6の処理が終了する。
[Step S <b> 34] The
次に、図5のステップS8にてPostPhase監視部211が開始するPostPhase監視処理を説明する。
図7は、PostPhase監視処理を説明するフローチャートである。
Next, the PostPhase monitoring process started by the
FIG. 7 is a flowchart for explaining the PostPhase monitoring process.
[ステップS41] PostPhase監視部211は、PostPhaseカウンタ63のカウント値が0になる前にBIOSがPostPhaseコードを生成したか否かを判断する。PostPhaseカウンタが0になる前にBIOSがPostPhaseコードを生成した場合(ステップS41のYes)、ステップS42に遷移する。PostPhaseカウンタが0になる前にBIOSがPostPhaseコードを生成しなかった場合(ステップS41のNo)、ステップS43に遷移する。
[Step S41] The
[ステップS42] PostPhase監視部211は、例えばOS174の起動を検出することで、CPU11がBIOSの起動を完了したか否かを判断する。BIOSの起動が完了した場合(ステップS42のYes)、図7の処理を終了する。BIOSの起動が完了していない場合(ステップS42のNo)、ステップS41に遷移する。
[Step S42] The
[ステップS43] PostPhase監視部211は、マージン試験フラグ記憶領域67のフラグが1か否かを判断する。フラグが1ではない場合、すなわち、フラグが0である場合(ステップS43のNo)、フラグが1になるまで待機する。フラグが1である場合(ステップS43のYes)、ステップS44に遷移する。
[Step S43] The
[ステップS44] PostPhase監視部211は、制御部10の再起動を電源制御部223に指示する。その後、図7の処理を終了する。
次に、図5のステップS15にてWDT処理部111が開始するWDT処理を説明する。
[Step S <b> 44] The
Next, the WDT process started by the
図8は、WDT処理を説明するフローチャートである。
[ステップS51] WDT処理部111は、TP種別記憶領域68のTP種別を変数Aに格納する。その後、ステップS52に遷移する。
FIG. 8 is a flowchart for explaining the WDT processing.
[Step S51] The
[ステップS52] WDT処理部111は、現在時刻を変数T1に設定する。その後、ステップS53に遷移する。
[ステップS53] WDT処理部111は、WDT0カウンタ221a、WDT2カウンタ221b、WDT3カウンタ221cそれぞれのカウンタ値を4秒に更新する。その後、ステップS54に遷移する。
[Step S52] The
[Step S53] The
[ステップS54] WDT処理部111は、実行状態チェックフラグ記憶領域66のフラグが1か否かを判断する。フラグが1である場合(ステップS54のYes)、ステップS55に遷移する。フラグが1ではない場合、すなわち、フラグが0である場合(ステップS54のNo)、ステップS53に遷移する。
[Step S54] The
[ステップS55] WDT処理部111は、TP種別記憶領域68のTP種別が変数Aに等しいか否かを判断する。TP種別が変数Aに等しい場合(ステップS55のYes)、ステップS56に遷移する。TP種別が変数Aに等しくない場合(ステップS55のNo)、ステップS57に遷移する。
[Step S55] The
[ステップS56] WDT処理部111は、現在時刻を変数T2に設定する。その後、ステップS58に遷移する。
[ステップS57] WDT処理部111は、現在時刻を変数T1に設定する。その後、ステップS58に遷移する。
[Step S56] The
[Step S57] The
[ステップS58] WDT処理部111は、変数T2から変数T1を引いた時間が35分以上か否かを判断する。変数T2から変数T1を引いた時間が35分以上である場合(ステップS58のYes)、図8の処理を終了する。図8の処理が終了すると、WDT0カウンタ221a、WDT2カウンタ221b、WDT3カウンタ221cそれぞれのカウンタ値の更新が停止する。一方、変数T2から変数T1を引いた時間が35分未満である場合(ステップS58のNo)、ステップS53に遷移する。
[Step S58] The
以上で図8の処理の説明を終了する。なお、ステップS58にて判断基準とした35分は、一例であり、判断基準とする時間は、試験項目に合わせて任意の時間に設定することができる。 This is the end of the description of the processing in FIG. Note that 35 minutes as the determination criterion in step S58 is an example, and the time as the determination criterion can be set to any time according to the test item.
次に、図5のステップS15にてWDT監視処理部221が開始するWDT監視処理を説明する。
図9は、WDT監視処理を説明するフローチャートである。
Next, the WDT monitoring process started by the WDT
FIG. 9 is a flowchart for explaining the WDT monitoring process.
[ステップS61] WDT監視処理部221は、WDT0カウンタ221aのカウント満了前にWDT0カウンタ221aのカウンタ値の更新があったか否かを判断する。WDT0カウンタ221aのカウント満了前にWDT0カウンタ221aのカウンタ値の更新があった場合(ステップS61のYes)、WDT監視処理部221は、再度、ステップS61以降の処理を行う。WDT0カウンタ221aのカウント満了前にWDT0カウンタ221aのカウンタ値の更新がなかった場合(ステップS61のNo)、ステップS62に遷移する。
[Step S61] The
[ステップS62] WDT監視処理部221は、WDT0カウンタ221aのカウント満了によるタイムアウトをCPU11に通知する。CPU11は、タイムアウトの通知を受け取ると、WDT0カウンタ221aのタイムアウトがあった旨のログファイルを作成し、管理端末装置120に転送する。その後、ステップS63に遷移する。
[Step S62] The WDT
[ステップS63] WDT監視処理部221は、WDT2カウンタ221bのカウント満了前にWDT2カウンタ221bのカウンタ値の更新があったか否かを判断する。WDT2カウンタ221bのカウント満了前にWDT2カウンタ221bのカウンタ値の更新があった場合(ステップS63のYes)、WDT監視処理部221は、再度、ステップS61以降の処理を行う。WDT0カウンタ221aのカウント満了前にWDT0カウンタ221aのカウンタ値の更新がなかった場合(ステップS63のNo)、ステップS64に遷移する。
[Step S63] The
[ステップS64] WDT監視処理部221は、制御部10のリセットをリセット制御部222に指示する。その後、ステップS65に遷移する。
[ステップS65] WDT監視処理部221は、WDT3カウンタ221cのカウント満了前にWDT3カウンタ221cのカウンタ値の更新があったか否かを判断する。なお、WDT3カウンタ221cのカウント満了は、第2のカウンタ値になることの一例を示している。また、WDT3カウンタ221cのカウンタ値の更新は、第1のカウンタ値に設定されることの一例を示している。WDT3カウンタ221cのカウント満了前にWDT3カウンタ221cのカウンタ値の更新があった場合(ステップS65のYes)、WDT監視処理部221は、再度、ステップS61以降の処理を行う。WDT3カウンタ221cのカウント満了前にWDT3カウンタ221cのカウンタ値の更新がなかった場合(ステップS65のNo)、ステップS66に遷移する。
[Step S64] The
[Step S65] The
[ステップS66] WDT監視処理部221は、マージン試験フラグ記憶領域67のフラグが1にセットされているか否かを判断する。フラグが1にセットされている場合(ステップS66のYes)、ステップS67に遷移する。フラグが1にセットされていない場合(ステップS66のNo)、フラグが1にセットされるまで待機する。
[Step S66] The WDT
[ステップS67] WDT監視処理部221は、制御部10の再起動を電源制御部223に指示する。その後、図9の処理を終了する。
図10は、試験結果を説明する図である。
[Step S67] The
FIG. 10 is a diagram for explaining the test results.
図10に示す画面121は、管理端末装置120に接続されたモニタ120aに表示された画面を示している。
マージン記憶領域171に記憶されている全ての電圧/クロックマージン設定値についてのログファイルが生成されていれば、管理者は、全ての電圧/クロックマージン設定値についてマージン試験が終了したと判断することができる。
A
If log files for all voltage / clock margin setting values stored in the margin storage area 171 have been generated, the administrator determines that the margin test has been completed for all voltage / clock margin setting values. Can do.
画面121には、各マージン設定値についてマージン試験を行った結果得られたログファイル121a〜121fが表示されている。例えば、ログファイル121aのファイル名「2011-1-27_043828-V0-C0-CM1-1.txt」は、先頭から2011年1月27日の4時38分28秒に試験を開始し、電圧マージンをV0に設定し、クロックマージンをC0に設定し、制御モジュール10bでマージン試験を行ったことを示している。
On the
管理者は、マージン試験が正常に終了したか否かを例えば以下の方法により確認することができる。
ログファイル121a〜121fのうち、第1のメッセージを示す「ERROR MESSAGE」の文言が含まれているログファイルが存在すれば、そのログファイルが作成されたマージン試験中に何らかのエラーが発生していることが分かる。よって、管理者は、第1のメッセージを含むログファイルを用いてエラー解析を実施することができる。
The administrator can confirm whether or not the margin test has been completed normally by, for example, the following method.
If there is a log file including the word “ERROR MESSAGE” indicating the first message among the
また、ログファイル121a〜121fのうち、第1のメッセージが含まれておらず、第2のメッセージが含まれているログファイルについては、管理者は、マージン試験中にエラーが発生しなかったと判断することができる。第2のメッセージの一例としては、第2カタログ173の試験項目が、2011年1月27日の0時51分18秒に正常に完了したことを示す「catalog [catalog2_1.cat](TID:0x81d267c) normal end 2011.01.27 00:51:18」等が挙げられる。
In addition, regarding the log files that do not include the first message and include the second message among the
また、ログファイル121a〜121f内に第2のメッセージが含まれていないログファイルが存在すれば、管理者は、そのログファイルが作成されたマージン試験中にエラーが発生し、制御部10がハングアップまたは制御部10の異常リセット等が発生し、制御部10が再起動されたと判断することができる。
If there is a log file that does not include the second message in the
以上述べたように、ストレージ装置100によれば、CPU11および監視部20のどちらからもアクセスできるMRAM60にTP種別記憶領域68を用意した。そして、WDT監視処理部221は、マージン試験の実行中にTP種別記憶領域68のTP種別を定期的にチェックし、35分以内にTP種別が更新されなければ、制御部10がハングアップしたと判断し、制御部10を再起動するようにした。これによってストレージ装置100は、ハングアップ状態から復旧され、次のマージン設定での連続運転が実施される。
As described above, according to the
また、MRAM60にリセットフラグ記憶領域61を用意し、リセット制御部222は、CPU11のリセット信号を解除する前にこのリセットフラグ記憶領域61のフラグを0に設定する(ステップS9の処理)。またCPU11はBIOSの起動が完了したときにリセットフラグを1に設定する(ステップS14の処理)。さらにCPU11はBIOS起動直後にリセットフラグが1であった場合BIOSの起動を停止する(ステップS15の処理)。また、BIOSの起動中にPostPhase監視部211が定期的にPostPhaseフラグ記憶領域62のフラグを更新し、PostPhase監視部211は、PostPhaseコードが指定時間内に生成されなければ制御部10を再起動する。これにより、PostPhase監視部211からのCPU11のリセット解除以外の、異常なCPU11のリセットによってBIOSが起動された場合は、CPU11が再起動する。従って、マージン試験中に何らかの異常が発生し、CPU11に対し予期せぬリセットがかかった場合においてもマージン試験を継続して行うことができる。
Further, the reset
以上、本発明の情報処理装置および情報処理装置の試験方法を、図示の実施の形態に基づいて説明したが、本発明はこれに限定されるものではなく、各部の構成は、同様の機能を有する任意の構成のものに置換することができる。また、本発明に、他の任意の構成物や工程が付加されていてもよい。 The information processing apparatus and the information processing apparatus testing method of the present invention have been described based on the illustrated embodiment. However, the present invention is not limited to this, and the configuration of each part has the same function. It can be replaced with one having any structure. Moreover, other arbitrary structures and processes may be added to the present invention.
また、本発明は、前述した各実施の形態のうちの、任意の2以上の構成(特徴)を組み合わせたものであってもよい。
なお、本実施の形態では、マージン試験を行う場合を例に制御モジュール10aの処理を説明したが、制御モジュール10aを用いて実行できる試験の種類はマージン試験に限定されない。
Further, the present invention may be a combination of any two or more configurations (features) of the above-described embodiments.
In the present embodiment, the processing of the
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、情報処理装置1および制御モジュール10a、10bが有する機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリ等が挙げられる。磁気記憶装置には、ハードディスクドライブ、フレキシブルディスク(FD)、磁気テープ等が挙げられる。光ディスクには、DVD、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)/RW等が挙げられる。光磁気記録媒体には、MO(Magneto-Optical disk)等が挙げられる。
The above processing functions can be realized by a computer. In that case, a program describing the processing contents of the functions of the information processing apparatus 1 and the
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD、CD−ROM等の可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。 When distributing the program, for example, a portable recording medium such as a DVD or a CD-ROM in which the program is recorded is sold. It is also possible to store the program in a storage device of a server computer and transfer the program from the server computer to another computer via a network.
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、ネットワークを介して接続されたサーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。 The computer that executes the program stores, for example, the program recorded on the portable recording medium or the program transferred from the server computer in its own storage device. Then, the computer reads the program from its own storage device and executes processing according to the program. The computer can also read the program directly from the portable recording medium and execute processing according to the program. In addition, each time a program is transferred from a server computer connected via a network, the computer can sequentially execute processing according to the received program.
また、上記の処理機能の少なくとも一部を、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)等の電子回路で実現することもできる。 Further, at least a part of the above processing functions can be realized by an electronic circuit such as a DSP (Digital Signal Processor), an ASIC (Application Specific Integrated Circuit), or a PLD (Programmable Logic Device).
1 情報処理装置
1a、10 制御部
1a1 試験実行部
1a2 判断部
1b 記憶部
1b1 フラグ記憶部
1b2 識別情報記憶部
1c 指示部
1c1 カウンタ
2 接続機器
3 伝送路
4 電圧供給回路
10a、10b 制御モジュール
11 CPU
111 WDT処理部
112 フラグ制御部
113 マージン試験部
114 マージン設定部
20 監視部
22 FPGA
221a WDT0カウンタ
221b WDT2カウンタ
221c WDT3カウンタ
221 WDT監視処理部
222 リセット制御部
223 電源制御部
30 リセット回路
40 電源回路
50 クロック回路
60 MRAM
100 ストレージ装置
211 PostPhase監視部
212 電圧マージン制御部
213 クロックマージン制御部
DESCRIPTION OF SYMBOLS 1 Information processing apparatus 1a, 10 Control part 1a1 Test execution part 1a2 Judgment part 1b Storage part 1b1 Flag storage part 1b2 Identification
111
DESCRIPTION OF
Claims (4)
試験対象に前記複数の試験項目の試験をそれぞれ実行し、1つの試験項目の試験の終了に伴い前記識別情報記憶部に記憶されている識別情報を、次に実行する試験項目の試験の識別情報に変更する試験実行部と、所定時間以内に前記識別情報記憶部に記憶されている識別情報が変更されたか否かを判断する判断部とを備える制御部と、
前記判断部が、前記識別情報が前記所定時間以内に変更されなかったと判断した場合、前記制御部の再起動を前記制御部に電圧を供給する回路に指示する指示部と、
を有することを特徴とする情報処理装置。 An identification information storage unit for storing identification information for identifying a test of a currently executed test item among a plurality of test items;
The test information of the test item to be executed next is executed by executing the test of the plurality of test items on the test object, and the identification information stored in the identification information storage unit at the end of the test of one test item. A control unit comprising: a test execution unit to be changed to; and a determination unit that determines whether or not the identification information stored in the identification information storage unit has been changed within a predetermined time;
An instruction unit that instructs a circuit that supplies a voltage to the control unit to restart the control unit when the determination unit determines that the identification information has not been changed within the predetermined time;
An information processing apparatus comprising:
前記制御部は、前記所定時間以内に前記識別情報が更新された場合は、前記カウンタのカウンタ値を所定のタイミングで第1のカウンタ値に設定する処理を実行し、
前記指示部は、前記カウンタのカウンタ値が第2のカウンタ値になる前に前記制御部により前記第1のカウンタ値に設定されなければ、前記制御部の再起動を指示することを特徴とする請求項1記載の情報処理装置。 The instruction unit has a counter,
The control unit, when the identification information is updated within the predetermined time, executes a process of setting the counter value of the counter to a first counter value at a predetermined timing,
The instruction unit instructs to restart the control unit unless the control unit sets the first counter value before the counter value of the counter reaches the second counter value. The information processing apparatus according to claim 1.
試験対象に複数の試験項目の試験をそれぞれ実行し、1つの試験項目の試験の終了に伴い識別情報記憶部に記憶されている現在実行されている試験項目の試験を識別する識別情報を、次に実行する試験項目の試験の識別情報に変更し、
所定時間以内に前記識別情報記憶部に記憶されている識別情報が変更されたか否かを判断し、
前記識別情報が前記所定時間以内に変更されなかったと判断した場合、前記複数の試験項目の試験をそれぞれ実行する制御部の再起動を前記制御部に電圧を供給する回路に指示する、
ことを特徴とする情報処理装置の試験方法。 Information processing device
The identification information for identifying the test of the currently executed test item stored in the identification information storage unit at the end of the test of one test item is executed next to each test of the plurality of test items on the test target. Change to the test identification information of the test item
Determining whether or not the identification information stored in the identification information storage unit has been changed within a predetermined time;
When it is determined that the identification information has not been changed within the predetermined time, the control unit that performs the test of each of the plurality of test items is instructed to restart a circuit that supplies a voltage to the control unit.
A method for testing an information processing apparatus.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011200329A JP5909948B2 (en) | 2011-09-14 | 2011-09-14 | Information processing apparatus and information processing apparatus testing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011200329A JP5909948B2 (en) | 2011-09-14 | 2011-09-14 | Information processing apparatus and information processing apparatus testing method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013061841A true JP2013061841A (en) | 2013-04-04 |
JP5909948B2 JP5909948B2 (en) | 2016-04-27 |
Family
ID=48186454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011200329A Active JP5909948B2 (en) | 2011-09-14 | 2011-09-14 | Information processing apparatus and information processing apparatus testing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5909948B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016188825A (en) * | 2015-03-30 | 2016-11-04 | ルネサスエレクトロニクス株式会社 | Semiconductor device and system |
US9626153B2 (en) | 2014-09-16 | 2017-04-18 | Fujitsu Limited | Control device and control method |
CN110515815A (en) * | 2019-08-19 | 2019-11-29 | 成都华镭科技有限公司 | The monitoring method of board resetting test |
CN112948189A (en) * | 2021-02-25 | 2021-06-11 | 山东英信计算机技术有限公司 | Margin test method, margin test system and related device |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1185569A (en) * | 1997-09-02 | 1999-03-30 | Fujitsu Ltd | Processor |
JP2001187247A (en) * | 1999-12-28 | 2001-07-10 | Sankyo Kk | Game machine |
JP2001211232A (en) * | 2000-01-25 | 2001-08-03 | Ricoh Co Ltd | Device management control method and system for remote access |
JP2005018462A (en) * | 2003-06-26 | 2005-01-20 | Nec Computertechno Ltd | System and method for supervising processor stall |
JP2006023970A (en) * | 2004-07-08 | 2006-01-26 | Oki Electric Ind Co Ltd | Device abnormality restoration system |
JP2011081566A (en) * | 2009-10-06 | 2011-04-21 | Toshiba Tec Corp | Electronic apparatus and program |
JP2011145872A (en) * | 2010-01-14 | 2011-07-28 | Yamatake Corp | Operation monitoring device of cpu board |
-
2011
- 2011-09-14 JP JP2011200329A patent/JP5909948B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1185569A (en) * | 1997-09-02 | 1999-03-30 | Fujitsu Ltd | Processor |
JP2001187247A (en) * | 1999-12-28 | 2001-07-10 | Sankyo Kk | Game machine |
JP2001211232A (en) * | 2000-01-25 | 2001-08-03 | Ricoh Co Ltd | Device management control method and system for remote access |
JP2005018462A (en) * | 2003-06-26 | 2005-01-20 | Nec Computertechno Ltd | System and method for supervising processor stall |
JP2006023970A (en) * | 2004-07-08 | 2006-01-26 | Oki Electric Ind Co Ltd | Device abnormality restoration system |
JP2011081566A (en) * | 2009-10-06 | 2011-04-21 | Toshiba Tec Corp | Electronic apparatus and program |
JP2011145872A (en) * | 2010-01-14 | 2011-07-28 | Yamatake Corp | Operation monitoring device of cpu board |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9626153B2 (en) | 2014-09-16 | 2017-04-18 | Fujitsu Limited | Control device and control method |
JP2016188825A (en) * | 2015-03-30 | 2016-11-04 | ルネサスエレクトロニクス株式会社 | Semiconductor device and system |
US10310007B2 (en) | 2015-03-30 | 2019-06-04 | Renesas Electronics Corporation | Semiconductor apparatus and system |
CN110515815A (en) * | 2019-08-19 | 2019-11-29 | 成都华镭科技有限公司 | The monitoring method of board resetting test |
CN112948189A (en) * | 2021-02-25 | 2021-06-11 | 山东英信计算机技术有限公司 | Margin test method, margin test system and related device |
CN112948189B (en) * | 2021-02-25 | 2022-12-09 | 山东英信计算机技术有限公司 | Margin test method, margin test system and related device |
Also Published As
Publication number | Publication date |
---|---|
JP5909948B2 (en) | 2016-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI627527B (en) | Method for recovering a baseboard management controller and baseboard management controller | |
JP5909264B2 (en) | Secure recovery apparatus and method | |
JP6291248B2 (en) | Firmware upgrade error detection and automatic rollback | |
JP4723290B2 (en) | Disk array device and control method thereof | |
JP5183542B2 (en) | Computer system and setting management method | |
US8458510B2 (en) | LPAR creation and repair for automated error recovery | |
TWI632462B (en) | Switching device and method for detecting i2c bus | |
US20180060231A1 (en) | Out-of-band data recovery in computing systems | |
JP4939180B2 (en) | Run initialization code to configure connected devices | |
WO2018095107A1 (en) | Bios program abnormal processing method and apparatus | |
WO2021057795A1 (en) | System starting method and apparatus, node device and computer-readable storage medium | |
EP2798428B1 (en) | Apparatus and method for managing operation of a mobile device | |
JP5909948B2 (en) | Information processing apparatus and information processing apparatus testing method | |
JP2014071668A (en) | Information processor, start program, and start method | |
TW200426571A (en) | Policy-based response to system errors occurring during os runtime | |
US11768672B1 (en) | Systems and methods for user-controlled deployment of software updates | |
JP2007025933A (en) | Storage system and its firmware automatic updating method | |
JP2017091077A (en) | Pseudo-fault generation program, generation method, and generator | |
US7861112B2 (en) | Storage apparatus and method for controlling the same | |
JP4836732B2 (en) | Information processing device | |
WO2017072904A1 (en) | Computer system and failure detection method | |
JP5910413B2 (en) | Information processing apparatus, activation program, and activation method | |
CN113835971A (en) | Monitoring method for abnormal lighting of server backboard and related components | |
JP6911591B2 (en) | Information processing device, control device and control method of information processing device | |
JP6160688B2 (en) | Information processing apparatus, information processing method, and information processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140508 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150217 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151027 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160314 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5909948 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |