JP2020071492A - 情報処理システム - Google Patents

情報処理システム Download PDF

Info

Publication number
JP2020071492A
JP2020071492A JP2018202452A JP2018202452A JP2020071492A JP 2020071492 A JP2020071492 A JP 2020071492A JP 2018202452 A JP2018202452 A JP 2018202452A JP 2018202452 A JP2018202452 A JP 2018202452A JP 2020071492 A JP2020071492 A JP 2020071492A
Authority
JP
Japan
Prior art keywords
host unit
circuit
learning
information processing
active
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018202452A
Other languages
English (en)
Inventor
遼 西河
Ryo Nishikawa
遼 西河
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2018202452A priority Critical patent/JP2020071492A/ja
Publication of JP2020071492A publication Critical patent/JP2020071492A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】判断基準を自ら学習し、判断基準が変更されても監視回路の改修が不要な情報処理システムを提供する。【解決手段】情報処理システムの監視回路30は、共通バス10を経由して運用系ホストユニット1が正常に動作しているか否かを監視する。学習回路40は、運用系ホストユニットがアプリケーション実行時にアクセスするアドレスやデータを記憶部に蓄積し、正常に実行中にアクセスするアドレスやデータを学習する。学習回路は、運用系ホストユニットが、異常なアドレスやデータにアクセスした場合に、その動作が異常と判断し、切り替え回路31に切り替え要求信号20を出力する。切り替え回路は、運用系ホストユニットに対して待機系ホストであることを指示する切り替え信号21を出力すると同時に、待機系ホストユニット2に対して運用系ホストであることを指示する切り替え信号22を出力し、待機系ホストユニットは待機モードから運用系に移行する。【選択図】図1

Description

本発明は情報処理システムに関するものであり、特に、障害発生時にCPUの系の切り替えを自動で実行可能な情報処理システムに関する。
プロセッサ(以下、CPUという)を搭載したホストユニットが冗長構成を成している場合において、運用中のホストユニット(以下、運用系ホストユニットという)にハードウェア障害が発生した際、あるいは強制リセットが実行された際には、切替え信号によって待機状態のホストユニット(以下、待機系ホストユニット)に対して運用系ホストユニットが運用できない状態となったことを通知し、待機状態であった待機系ホストユニットに運用系を遷移する系切り替えの動作が実行される(例えば、特許文献1参照)。
特開2006-260393号公報
しかしながら、ハードウェア障害等が発生したか否かを監視するには、従来、正常な応答時間などの判断基準を予めユーザが決めておく必要があった。そして、その判断基準を監視回路に反映しなければならないという課題があった。
また、使用するアプリケーションの改修や追加によって判断基準が変更された場合、その変更内容を反映するために監視回路を改修しなければならないという課題があった。
この発明は係る課題を解決するためになされたものであり、判断基準を自ら学習し、判断基準が変更される場合であっても監視回路の改修が不要な情報処理システムを提供することを目的とする。
この発明に係る情報処理システムは、共通バスにより接続された複数のホストユニットと、前記共通バスと接続され、前記ホストユニットの動作が正常であるか異常であるかを監視する監視回路と、前記監視回路から切り替え要求信号を受信すると、運用状態のホストユニットを待機状態のホストユニットに切り替え、待機状態のホストユニットを運用状態のホストユニットに切り替える切り替え信号を出力する切り替え回路と、を備え、前記監視回路は学習機能を有する学習回路を備え、前記学習回路は前記運用状態のホストユニットがアプリケーション実行時にアクセスする正常なアドレスを学習し、前記運用状態のホストユニットが正常なアドレスでないアドレスにアクセスすると、前記運用状態のホストユニットの動作が異常であると判断する。
本発明の情報処理システムによれば、判断基準が変更される場合であっても監視回路の改修が不要となるため、情報処理システムの運用管理が容易になる。
本発明の実施の形態1に係る情報処理システムの構成を示す図である。 本発明の実施の形態1に係る情報処理システムのホストユニットに、PPMCを適用した情報処理システムの構成例を示す図である。 本発明に係る情報処理システムの切り替え制御デバイスによるシステムの状態遷移を説明する図である。
実施の形態1.
以下、本発明の実施の形態について図面を参照しながら説明する。なお、各図中で同一の符号のものは同一又は相当部分を示す。
図1は、本実施の形態を示す情報処理システム100のシステム構成図である。
情報処理システム100は運用系ホストユニット1、待機系ホストユニット2、監視回路30、切り替え回路31が実装され、更に監視回路30には学習回路40が実装される。
運用系ホストユニット1と待機系ホストユニット2は共通バス10に接続される。
運用系ホストユニット1は切り替え回路31から、切り替え信号21とリセット信号23を入力する。同様に、待機系ホストユニット2は切り替え回路31から、切り替え信号22とリセット信号23を入力する。
監視回路30は共通バス10に接続され、切り替え回路31に対して切り替え要求信号20を出力する。
切り替え回路31は、監視回路30から切り替え要求信号20を入力すると、切り替え信号21、22とリセット信号23を、運用系ホストユニット1と待機系ホストユニット2の各々に出力する。
学習回路40は監視回路30内部に実装されており、この学習回路40にはコンピュータ上で知能を実現するAI(artificial intelligence。人工知能)技術が適用される。
情報処理システム100は、切り替え回路31がホストユニット1に対して出力する切り替え信号21と、同じく切り替え回路31がホストユニット2に対して出力する切り替え信号22により、一方のホストユニットが運用系ホストであり、他方のホストユニットが待機系ホストであること指示する。
一例として、切り替え回路31は、ホストユニット1に対して運用系ホストであることを指示する切り替え信号21を出力し、ホストユニット2に対して待機系ホストであることを指示する切り替え信号22を同タイミングに出力する。この結果、ホストユニット1は運用系ホストとして動作し、ホストユニット2は待機系ホストとして動作する。
監視回路30は、共通バス10を経由して運用系ホストユニット1が正常に動作しているか否かを監視する。
運用系ホストユニット1が正常に動作しているか否かの監視は、例えば次のように行う。
監視回路30に備えられた学習回路40は、運用系ホストユニット1がアプリケーション実行時にアクセスするアドレスやデータを記憶部(図示せず)に蓄積する。
このようにして、運用系ホストユニット1がアプリケーションを正常に実行中にアクセスするアドレスやデータを学習する。
学習回路40は、学習結果に基いて、運用系ホストユニット1がアプリケーション実行時に異常なアドレスやデータにアクセスした場合に、運用系ホストユニット1の動作が異常であると判断する。
上述の例では、運用系ホストユニットがアクセルするアドレスやデータに基づいて、学習回路40が学習結果を用いてホストユニットの正常、あるいは異常を判断していたが、これに限られるものではない。
例えば、学習回路40が、運用系ホストユニット1が割り込み要因に対して割り込みハンドラを正常に実行したときの応答時間を学習し、応答時間が所定の時間を超えても割り込みハンドラが実行されなかったことに基づいて、ホストユニットの異常を判断してもよい。
または、監視回路30にウォッチドックタイマやレジスタを実装しておき、学習回路40が、運用系ホストユニット1がウォッチドックタイマやレジスタに正常にアクセスする頻度やアクセス間隔を学習し、アクセス頻度が学習した範囲を超えたり、アクセス間隔が学習した所定の時間を超えたことに基づいて、ホストユニットの異常を判断してもよい。
学習回路40が学習する期間としては、学習の対象とする事象、例えば共通バスへのアクセス、ウォッチドックタイマやレジスタへのアクセス、割り込みハンドラの実行などが、システム起動から所定の回数発生するまで学習するようにしてもよい。
学習回路40が学習する期間は一例であり、学習回路40はシステム起動から所定の期間内は学習し、するようにしてもよい。
また、学習回路40の学習開始期間は、システムを起動するシステム起動時だけではなく、システム運用中に定期的に、あるいは不定期的に任意の期間または任意の回数学習する様にしてもよい。
また、システム運用前のデバッグ時に、学習回路40が学習するようにしてもよい。
また、学習回路40は、繰り返し学習する際に以前の学習結果から継続して学習してもよいし、或いは、以前の学習結果を初期化して初めから学習し直すようにしてもよい。
次に、学習回路40が運用系ホストユニット1の異常を判断すると、監視回路30は切り替え回路31に対して、切り替え要求信号20を出力する。
切り替え要求信号20を受信した切り替え回路31は、運用系ホストユニット1に対して待機系ホストであることを指示する切り替え信号21を出力すると同時に、待機系ホストユニット2に対して運用系ホストであることを指示する切り替え信号22を出力する。
次に、切り替え回路31はリセット信号23を運用系ホストユニット1、待機系ホストユニット2に各々出力し、システムリセットを行う。
システムリセットにより、運用系ホストユニット1は切り替え信号21が待機系に指示されるため、待機系として待機動作を開始する。
一方、待機系ホストユニット2は切り替え信号22が運用系として指示されるため、従来の待機モードから運用系に移行して運用動作を開始する。
待機系となったホストユニット1と運用系となったホストユニット2は、共にシステムリセットにより動作を開始するため、バスシステム全体の構成情報や割り込みの入出力の管理が再構成される。この動作は電源投入時の動作と同じであるため、ホストユニット1とホストユニット2は特別な処理を行う必要はない。
このように本実施の形態に係る情報処理システムは学習回路40を備え、学習回路40が学習を行い、運用系ホストユニットの監視を行えるようにした。監視の一例として、学習回路40が、各種アプリケーションが正常に動作しているときにアクセスするアドレスやデータを記憶しておき異常なアクセスを監視する方法、ウォッチドックタイマやレジスタに一定期間内にアクセスできるかを監視する方法、割り込み要因の入力に対して割り込みハンドラが一定期間内に実行できるかを監視する方法などを挙げた。これにより、判断基準が変更される場合であっても監視回路の改修が不要となるため、情報処理システムの運用管理が容易になるという効果を奏する。更に、学習回路40が、ホストユニットがウォッチドックタイマやレジスタへ正常にアクセスしたと判断する期間や、割り込みハンドラが正常に実行されたと判断する期間を学習することで、異常検知の信頼性や切り替え速度を向上することができる。
実施の形態2.
実施の形態2では、ホストユニットとしてPPMCを用いる例を示す。
PPMCは、IEEE 1386.1 PMC と、ANSI/VITA 32-2003 (R2009) Processor PMCで規定されているキャリアボードのPMCコネクタに実装できるCPUボードである。PPMCはキャリアボードに複数実装することができる。
図2は、実施の形態2に係る情報処理システムのシステム構成図である。
図2において、実施の形態1における情報処理システム100に相当するキャリアボード200には、運用系ホストユニット1に相当するPPMC101、待機系ホストユニット2に相当するPPMC102、監視回路130、切り替え回路131、学習回路140が実装される。
PPMC101とPPMC102は、共通バス10に相当するPCIバス110に接続され、実施の形態1における切り替え信号21、22に相当するMONARCH#信号121、122、同じく実施の形態1におけるリセット信号23に相当するRST#信号123が入力される。
監視回路130はPCIバス110に接続され、切り替え要求信号120を出力する。切り替え回路131は、監視回路130から切り替え要求信号120を入力し、MONARCH#信号121、122とRST#信号123を出力する。
RST#信号123はPCIの規格に準拠した論理Lが有意の信号である。
PPMCは規格よってモナークモード、ノンモナークモードの2つの動作形態がある。MONARCH#信号はモナークモードかノンモナークモードかを指示する信号であり、MONARCH#信号が論理Lのときはモナークモード、論理Hのときはノンモナークモードを指示する。
運用系とするPPMCにはホスト機能を持たせたいため、モナークモードを運用系、ノンモナークモードを待機系と位置付ける。こうすることによって、MONARCH#信号121,122はPPMC101、102が運用系であるか、待機系であるかを指示する信号として活用することができる。
図3は、本実施の形態に係るキャリアボード200の切り替え回路によるシステムの状態遷移を説明する図である。
切り替え要求信号120と、MONARCH#信号121と、MONARCH#信号122と、RST#信号123の信号波形を、横軸を時間軸にして示している。なお、図3では切り替え信号120は論理Lを有意の信号にしているが、論理Hを有意の信号としてもよい。
図3において、初期状態では、MONARCH#信号121はPPMC101に運用系、すなわちモナークモードであることを示す論理Lの信号を出力し、MONARCH#信号122はPPMC102に待機系、すなわちノンモナークであることを示す論理Hの信号を出力している。この結果、PPMC101は運用系として動作し、PPMC102は待機系ホストとして動作している。
監視回路130はPCIバス110を観測するなどして、学習回路140で観測状況を学習し、運用系のPPMC101が正常に動作しているか監視する。監視回路130は運用系のPPMC101が異常と判断したとき、論理Lの切り替え信号120を切り替え回路31に出力する。
切り替え回路131は、監視回路130から論理Lの切り替え要求信号120を入力されたとき、PPMC101を運用系から待機系に切り替え、また、PPMC102を待機系から運用系に切り替える。
MONARCH#信号121はPPMC101に待機系であることを指示するため論理Lから論理Hに出力を変更する、MONARCH#信号122はPPMC102に運用系であることを指示するため、論理Hから論理Lに出力を変更する。
切り替え回路131は論理LのRST#信号123をPPMC101、102に出力しシステムリセットをする。システムリセットにより、PPMC101はMONARCH#信号121が論理Hに指示されるため待機系として動作を開始する。PPMC102はMONARCH#信号122が論理Lに指示されるため運用系として動作を開始する。
待機系のPPMC101も運用系のPPMC102もリセットにより動作を開始するため、バスシステム全体の構成情報や割り込みの入出力の管理が再構成される。この動作は電源投入時の動作と同じため、PPMC101とPPMC102には特別な処理は不要である。
本実施の形態の学習回路140は実施の形態1での学習回路40と同じく、PCIバス110を観測し、観測結果を学習して、運用系PPMC(運用状態のPPMC101、102のいずれか)の異常を判断する。
監視回路130に備えられた学習回路140は、運用系PPMC101がアプリケーション実行時にアクセスするアドレスやデータを記憶部(図示せず)に蓄積する。このようにして、運用系PPMC101がアプリケーションを正常に実行中にアクセスするアドレスやデータを学習する。学習回路140は、学習結果に基いて、運用系PPMC101がアプリケーション実行時に異常なアドレスやデータにアクセスした際に、運用系PPMC101の動作が異常であると判断する。
なお、上述の例では、運用系PPMC101がアクセルするアドレスやデータに基づいて、学習回路140が学習結果を用いてホストユニットの正常、あるいは異常を判断していたが、これに限られるものではない。
例えば、学習回路140が、運用系PPMC101が割り込み要因に対して割り込みハンドラを正常に実行したときの応答時間を学習し、応答時間が所定の時間を超えても割り込みハンドラが実行されなかったことに基づいて、PPMC101の異常を判断してもよい。
また、監視回路130にウォッチドックタイマやレジスタを実装しておき、学習回路140が、運用系の運用系PPMC101がウォッチドックタイマやレジスタに正常にアクセスする頻度やアクセス間隔を学習し、アクセス頻度が学習した範囲を超えたり、アクセス間隔が学習した所定の時間を超えたことに基づいて、運用系PPMC101の異常を判断してもよい。
学習回路140が学習する期間としては、学習の対象とする事象、例えば共通バスへのアクセス、ウォッチドックタイマやレジスタへのアクセス、割り込みハンドラの実行などが、システム起動から所定の回数発生するまで学習するようにしてもよい。
学習回路140が学習する期間は一例であり、学習回路140はシステム起動から所定の期間内は学習するようにしてもよい。
また、学習回路140の学習開始期間は、システムを起動するシステム起動時だけではなく、システム運用中に定期的に、あるいは不定期的に任意の期間または任意の回数学習するようにしてもよい。
また、システム運用前のデバッグ時に、学習回路140が学習するようにしてもよい。
また、学習回路140は、繰り返し学習する際に以前の学習結果から継続して学習してもよいし、或いは、以前の学習結果を初期化して初めから学習し直すようにしてもよい。
このように本実施の形態に係る情報処理システムは、切り替え制御機能をPPMCから独立させて実装することで、既存のPPMCに特別な変更を加えることなく互換性を保ったまま切り替え機能を実現でき、開発コストを低減することができる。
また、切り替え制御機能をPPMCから独立することで、PPMCが故障した場合でも故障を検出し切り替えすることができる。特にPPMCのように、既存の規格に準拠して構成されている場合にも、既存のPPMCをそのまま使い、切り替え機能を実現することができる。
なお、学習の際にPPMC101あるいはPPMC102が正常に動作中であるか否かの判断は、少なくとも初期の間はユーザが学習回路140に教えるようにしてもよい。例えば異常時はユーザが操作をしてアラーム信号を発信して、学習回路140に運用系PPMCの異常を知らせるようにしてもよい。あるいは、PPMCが自ら異常を判断すると、学習回路140に対して異常を知らせる信号を出力するようにしてもよい。このようにすることで、学習回路140は、初期においてユーザにより異常と判断された運用系PPMCがアクセスするアドレスやデータを異常なアドレスやデータとして記憶し学習することが可能となる。
1 運用系ホストユニット、2 待機系ホストユニット、10 共通バス、20 切り替え要求信号、21 切り替え信号、22 切り替え信号、23 リセット信号、30、130 監視回路、31、131 切り替え回路、40、140 学習回路、100 情報処理システム、110 PCIバス、101 運用系PPMC、102 待機系PPMC、121 MONARCH#信号、122 MONARCH#信号、123 RST#信号、200 キャリアボード

Claims (3)

  1. 共通バスにより接続された複数のホストユニットと、
    前記共通バスと接続され、前記ホストユニットの動作が正常であるか異常であるかを監視する監視回路と、
    前記監視回路から切り替え要求信号を受信すると、運用状態のホストユニットを待機状態のホストユニットに切り替え、待機状態のホストユニットを運用状態のホストユニットに切り替える切り替え信号を出力する切り替え回路と、を備え、
    前記監視回路は学習機能を有する学習回路を備え、前記学習回路は前記運用状態のホストユニットがアプリケーション実行時にアクセスする正常なアドレスを学習し、前記運用状態のホストユニットが正常なアドレスでないアドレスにアクセスすると、前記運用状態のホストユニットの動作が異常であると判断することを特徴とする情報処理システム。
  2. 前記学習回路は、前記運用状態のホストユニットが割り込み要因に対して割り込みハンドリングを正常に実行する期間を学習し、前記期間内に割り込みハンドリングを実行しない場合に前記運用状態のホストユニットの動作が異常であると判断することを特徴とする請求項1記載の情報処理システム。
  3. 前記学習回路はシステムの負荷状況を学習してアクセス期間を設定し、前記アクセス期間内にアクセスが無い場合に前記運用状態のホストユニットの動作が異常であると判断することを特徴とする請求項1記載の情報処理システム。
JP2018202452A 2018-10-29 2018-10-29 情報処理システム Pending JP2020071492A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018202452A JP2020071492A (ja) 2018-10-29 2018-10-29 情報処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018202452A JP2020071492A (ja) 2018-10-29 2018-10-29 情報処理システム

Publications (1)

Publication Number Publication Date
JP2020071492A true JP2020071492A (ja) 2020-05-07

Family

ID=70549546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018202452A Pending JP2020071492A (ja) 2018-10-29 2018-10-29 情報処理システム

Country Status (1)

Country Link
JP (1) JP2020071492A (ja)

Similar Documents

Publication Publication Date Title
JPS61502223A (ja) 再構成可能なデュアル・プロセッサ・システム
US7089413B2 (en) Dynamic computer system reset architecture
JP2017187992A (ja) 制御装置、制御方法およびプログラム
JP4655718B2 (ja) コンピュータシステム及びその制御方法
CN109358982B (zh) 硬盘自愈装置、方法以及硬盘
CN115480884A (zh) 芯片、芯片的测试监控方法及计算机可读存储介质
US5226151A (en) Emergency resumption processing apparatus for an information processing system
JP2020071492A (ja) 情報処理システム
KR100697988B1 (ko) 과도한 인터럽트로부터 시스템을 보호하는 장치 및 그 방법
JPH1153225A (ja) 障害処理装置
JP2009237758A (ja) サーバシステム、サーバ管理方法、およびそのプログラム
US10089200B2 (en) Computer apparatus and computer mechanism
JP6654662B2 (ja) サーバ装置およびサーバシステム
JP4507875B2 (ja) 多重化装置及びレガシーデバイス多重化方法
JP6424134B2 (ja) 計算機システム及び計算機システムの制御方法
JP2004348335A (ja) 障害検出方法及び情報処理システム
JP2013254333A (ja) 多重系制御システム及びその制御方法
JP2001175545A (ja) サーバシステムおよび障害診断方法ならびに記録媒体
JPH07200334A (ja) 二重化同期運転方式
JPH033041A (ja) タイムアウト監視回路
JP2011022741A (ja) コンピュータシステム、サービスプロセッサ、及びその診断方法
JPH10143393A (ja) 診断処理装置
JP2015141589A (ja) サーバ装置、サーバシステムおよび障害対策方法
JPH11202963A (ja) コンピュータ搭載装置
JPH0855040A (ja) システム運転方法