JP2020071492A

JP2020071492A - 情報処理システム

Info

Publication number: JP2020071492A
Application number: JP2018202452A
Authority: JP
Inventors: 遼西河; Ryo Nishikawa
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2020-05-07

Abstract

【課題】判断基準を自ら学習し、判断基準が変更されても監視回路の改修が不要な情報処理システムを提供する。【解決手段】情報処理システムの監視回路３０は、共通バス１０を経由して運用系ホストユニット１が正常に動作しているか否かを監視する。学習回路４０は、運用系ホストユニットがアプリケーション実行時にアクセスするアドレスやデータを記憶部に蓄積し、正常に実行中にアクセスするアドレスやデータを学習する。学習回路は、運用系ホストユニットが、異常なアドレスやデータにアクセスした場合に、その動作が異常と判断し、切り替え回路３１に切り替え要求信号２０を出力する。切り替え回路は、運用系ホストユニットに対して待機系ホストであることを指示する切り替え信号２１を出力すると同時に、待機系ホストユニット２に対して運用系ホストであることを指示する切り替え信号２２を出力し、待機系ホストユニットは待機モードから運用系に移行する。【選択図】図１

Description

本発明は情報処理システムに関するものであり、特に、障害発生時にＣＰＵの系の切り替えを自動で実行可能な情報処理システムに関する。

プロセッサ（以下、ＣＰＵという）を搭載したホストユニットが冗長構成を成している場合において、運用中のホストユニット(以下、運用系ホストユニットという)にハードウェア障害が発生した際、あるいは強制リセットが実行された際には、切替え信号によって待機状態のホストユニット(以下、待機系ホストユニット)に対して運用系ホストユニットが運用できない状態となったことを通知し、待機状態であった待機系ホストユニットに運用系を遷移する系切り替えの動作が実行される（例えば、特許文献１参照）。

特開２００６-２６０３９３号公報

しかしながら、ハードウェア障害等が発生したか否かを監視するには、従来、正常な応答時間などの判断基準を予めユーザが決めておく必要があった。そして、その判断基準を監視回路に反映しなければならないという課題があった。
また、使用するアプリケーションの改修や追加によって判断基準が変更された場合、その変更内容を反映するために監視回路を改修しなければならないという課題があった。

この発明は係る課題を解決するためになされたものであり、判断基準を自ら学習し、判断基準が変更される場合であっても監視回路の改修が不要な情報処理システムを提供することを目的とする。

この発明に係る情報処理システムは、共通バスにより接続された複数のホストユニットと、前記共通バスと接続され、前記ホストユニットの動作が正常であるか異常であるかを監視する監視回路と、前記監視回路から切り替え要求信号を受信すると、運用状態のホストユニットを待機状態のホストユニットに切り替え、待機状態のホストユニットを運用状態のホストユニットに切り替える切り替え信号を出力する切り替え回路と、を備え、前記監視回路は学習機能を有する学習回路を備え、前記学習回路は前記運用状態のホストユニットがアプリケーション実行時にアクセスする正常なアドレスを学習し、前記運用状態のホストユニットが正常なアドレスでないアドレスにアクセスすると、前記運用状態のホストユニットの動作が異常であると判断する。

本発明の情報処理システムによれば、判断基準が変更される場合であっても監視回路の改修が不要となるため、情報処理システムの運用管理が容易になる。

本発明の実施の形態１に係る情報処理システムの構成を示す図である。本発明の実施の形態１に係る情報処理システムのホストユニットに、PPMCを適用した情報処理システムの構成例を示す図である。本発明に係る情報処理システムの切り替え制御デバイスによるシステムの状態遷移を説明する図である。

実施の形態１．
以下、本発明の実施の形態について図面を参照しながら説明する。なお、各図中で同一の符号のものは同一又は相当部分を示す。

図１は、本実施の形態を示す情報処理システム１００のシステム構成図である。
情報処理システム１００は運用系ホストユニット１、待機系ホストユニット２、監視回路３０、切り替え回路３１が実装され、更に監視回路３０には学習回路４０が実装される。

運用系ホストユニット１と待機系ホストユニット２は共通バス１０に接続される。
運用系ホストユニット１は切り替え回路３１から、切り替え信号２１とリセット信号２３を入力する。同様に、待機系ホストユニット２は切り替え回路３１から、切り替え信号２２とリセット信号２３を入力する。
監視回路３０は共通バス１０に接続され、切り替え回路３１に対して切り替え要求信号２０を出力する。
切り替え回路３１は、監視回路３０から切り替え要求信号２０を入力すると、切り替え信号２１、２２とリセット信号２３を、運用系ホストユニット１と待機系ホストユニット２の各々に出力する。
学習回路４０は監視回路３０内部に実装されており、この学習回路４０にはコンピュータ上で知能を実現するＡＩ（artificial intelligence。人工知能）技術が適用される。

情報処理システム１００は、切り替え回路３１がホストユニット１に対して出力する切り替え信号２１と、同じく切り替え回路３１がホストユニット２に対して出力する切り替え信号２２により、一方のホストユニットが運用系ホストであり、他方のホストユニットが待機系ホストであること指示する。
一例として、切り替え回路３１は、ホストユニット１に対して運用系ホストであることを指示する切り替え信号２１を出力し、ホストユニット２に対して待機系ホストであることを指示する切り替え信号２２を同タイミングに出力する。この結果、ホストユニット１は運用系ホストとして動作し、ホストユニット２は待機系ホストとして動作する。

監視回路３０は、共通バス１０を経由して運用系ホストユニット１が正常に動作しているか否かを監視する。

運用系ホストユニット１が正常に動作しているか否かの監視は、例えば次のように行う。
監視回路３０に備えられた学習回路４０は、運用系ホストユニット１がアプリケーション実行時にアクセスするアドレスやデータを記憶部（図示せず）に蓄積する。
このようにして、運用系ホストユニット１がアプリケーションを正常に実行中にアクセスするアドレスやデータを学習する。
学習回路４０は、学習結果に基いて、運用系ホストユニット１がアプリケーション実行時に異常なアドレスやデータにアクセスした場合に、運用系ホストユニット１の動作が異常であると判断する。

上述の例では、運用系ホストユニットがアクセルするアドレスやデータに基づいて、学習回路４０が学習結果を用いてホストユニットの正常、あるいは異常を判断していたが、これに限られるものではない。
例えば、学習回路４０が、運用系ホストユニット１が割り込み要因に対して割り込みハンドラを正常に実行したときの応答時間を学習し、応答時間が所定の時間を超えても割り込みハンドラが実行されなかったことに基づいて、ホストユニットの異常を判断してもよい。

または、監視回路３０にウォッチドックタイマやレジスタを実装しておき、学習回路４０が、運用系ホストユニット１がウォッチドックタイマやレジスタに正常にアクセスする頻度やアクセス間隔を学習し、アクセス頻度が学習した範囲を超えたり、アクセス間隔が学習した所定の時間を超えたことに基づいて、ホストユニットの異常を判断してもよい。

学習回路４０が学習する期間としては、学習の対象とする事象、例えば共通バスへのアクセス、ウォッチドックタイマやレジスタへのアクセス、割り込みハンドラの実行などが、システム起動から所定の回数発生するまで学習するようにしてもよい。

学習回路４０が学習する期間は一例であり、学習回路４０はシステム起動から所定の期間内は学習し、するようにしてもよい。

また、学習回路４０の学習開始期間は、システムを起動するシステム起動時だけではなく、システム運用中に定期的に、あるいは不定期的に任意の期間または任意の回数学習する様にしてもよい。
また、システム運用前のデバッグ時に、学習回路４０が学習するようにしてもよい。

また、学習回路４０は、繰り返し学習する際に以前の学習結果から継続して学習してもよいし、或いは、以前の学習結果を初期化して初めから学習し直すようにしてもよい。

次に、学習回路４０が運用系ホストユニット１の異常を判断すると、監視回路３０は切り替え回路３１に対して、切り替え要求信号２０を出力する。

切り替え要求信号２０を受信した切り替え回路３１は、運用系ホストユニット１に対して待機系ホストであることを指示する切り替え信号２１を出力すると同時に、待機系ホストユニット２に対して運用系ホストであることを指示する切り替え信号２２を出力する。

次に、切り替え回路３１はリセット信号２３を運用系ホストユニット１、待機系ホストユニット２に各々出力し、システムリセットを行う。
システムリセットにより、運用系ホストユニット１は切り替え信号２１が待機系に指示されるため、待機系として待機動作を開始する。
一方、待機系ホストユニット２は切り替え信号２２が運用系として指示されるため、従来の待機モードから運用系に移行して運用動作を開始する。

待機系となったホストユニット１と運用系となったホストユニット２は、共にシステムリセットにより動作を開始するため、バスシステム全体の構成情報や割り込みの入出力の管理が再構成される。この動作は電源投入時の動作と同じであるため、ホストユニット１とホストユニット２は特別な処理を行う必要はない。

このように本実施の形態に係る情報処理システムは学習回路４０を備え、学習回路４０が学習を行い、運用系ホストユニットの監視を行えるようにした。監視の一例として、学習回路４０が、各種アプリケーションが正常に動作しているときにアクセスするアドレスやデータを記憶しておき異常なアクセスを監視する方法、ウォッチドックタイマやレジスタに一定期間内にアクセスできるかを監視する方法、割り込み要因の入力に対して割り込みハンドラが一定期間内に実行できるかを監視する方法などを挙げた。これにより、判断基準が変更される場合であっても監視回路の改修が不要となるため、情報処理システムの運用管理が容易になるという効果を奏する。更に、学習回路４０が、ホストユニットがウォッチドックタイマやレジスタへ正常にアクセスしたと判断する期間や、割り込みハンドラが正常に実行されたと判断する期間を学習することで、異常検知の信頼性や切り替え速度を向上することができる。

実施の形態２．
実施の形態２では、ホストユニットとしてＰＰＭＣを用いる例を示す。
ＰＰＭＣは、IEEE 1386.1 PMC と、ANSI/VITA 32-2003 (R2009) Processor PMCで規定されているキャリアボードのＰＭＣコネクタに実装できるＣＰＵボードである。ＰＰＭＣはキャリアボードに複数実装することができる。

図２は、実施の形態２に係る情報処理システムのシステム構成図である。
図２において、実施の形態１における情報処理システム１００に相当するキャリアボード２００には、運用系ホストユニット１に相当するＰＰＭＣ１０１、待機系ホストユニット２に相当するＰＰＭＣ１０２、監視回路１３０、切り替え回路１３１、学習回路１４０が実装される。

ＰＰＭＣ１０１とＰＰＭＣ１０２は、共通バス１０に相当するＰＣＩバス１１０に接続され、実施の形態１における切り替え信号２１、２２に相当するＭＯＮＡＲＣＨ＃信号１２１、１２２、同じく実施の形態１におけるリセット信号２３に相当するＲＳＴ＃信号１２３が入力される。
監視回路１３０はＰＣＩバス１１０に接続され、切り替え要求信号１２０を出力する。切り替え回路１３１は、監視回路１３０から切り替え要求信号１２０を入力し、ＭＯＮＡＲＣＨ＃信号１２１、１２２とＲＳＴ＃信号１２３を出力する。
ＲＳＴ＃信号１２３はＰＣＩの規格に準拠した論理Ｌが有意の信号である。

ＰＰＭＣは規格よってモナークモード、ノンモナークモードの２つの動作形態がある。ＭＯＮＡＲＣＨ＃信号はモナークモードかノンモナークモードかを指示する信号であり、ＭＯＮＡＲＣＨ＃信号が論理Ｌのときはモナークモード、論理Ｈのときはノンモナークモードを指示する。
運用系とするＰＰＭＣにはホスト機能を持たせたいため、モナークモードを運用系、ノンモナークモードを待機系と位置付ける。こうすることによって、ＭＯＮＡＲＣＨ＃信号１２１，１２２はＰＰＭＣ１０１、１０２が運用系であるか、待機系であるかを指示する信号として活用することができる。

図３は、本実施の形態に係るキャリアボード２００の切り替え回路によるシステムの状態遷移を説明する図である。
切り替え要求信号１２０と、ＭＯＮＡＲＣＨ＃信号１２１と、ＭＯＮＡＲＣＨ＃信号１２２と、ＲＳＴ＃信号１２３の信号波形を、横軸を時間軸にして示している。なお、図３では切り替え信号１２０は論理Ｌを有意の信号にしているが、論理Ｈを有意の信号としてもよい。

図３において、初期状態では、ＭＯＮＡＲＣＨ＃信号１２１はＰＰＭＣ１０１に運用系、すなわちモナークモードであることを示す論理Ｌの信号を出力し、ＭＯＮＡＲＣＨ＃信号１２２はＰＰＭＣ１０２に待機系、すなわちノンモナークであることを示す論理Ｈの信号を出力している。この結果、ＰＰＭＣ１０１は運用系として動作し、ＰＰＭＣ１０２は待機系ホストとして動作している。

監視回路１３０はＰＣＩバス１１０を観測するなどして、学習回路１４０で観測状況を学習し、運用系のＰＰＭＣ１０１が正常に動作しているか監視する。監視回路１３０は運用系のＰＰＭＣ１０１が異常と判断したとき、論理Lの切り替え信号１２０を切り替え回路３１に出力する。

切り替え回路１３１は、監視回路１３０から論理Ｌの切り替え要求信号１２０を入力されたとき、ＰＰＭＣ１０１を運用系から待機系に切り替え、また、ＰＰＭＣ１０２を待機系から運用系に切り替える。
ＭＯＮＡＲＣＨ＃信号１２１はＰＰＭＣ１０１に待機系であることを指示するため論理Ｌから論理Ｈに出力を変更する、ＭＯＮＡＲＣＨ＃信号１２２はＰＰＭＣ１０２に運用系であることを指示するため、論理Ｈから論理Ｌに出力を変更する。

切り替え回路１３１は論理ＬのＲＳＴ＃信号１２３をＰＰＭＣ１０１、１０２に出力しシステムリセットをする。システムリセットにより、ＰＰＭＣ１０１はＭＯＮＡＲＣＨ＃信号１２１が論理Ｈに指示されるため待機系として動作を開始する。ＰＰＭＣ１０２はＭＯＮＡＲＣＨ＃信号１２２が論理Ｌに指示されるため運用系として動作を開始する。

待機系のＰＰＭＣ１０１も運用系のＰＰＭＣ１０２もリセットにより動作を開始するため、バスシステム全体の構成情報や割り込みの入出力の管理が再構成される。この動作は電源投入時の動作と同じため、ＰＰＭＣ１０１とＰＰＭＣ１０２には特別な処理は不要である。

本実施の形態の学習回路１４０は実施の形態１での学習回路４０と同じく、ＰＣＩバス１１０を観測し、観測結果を学習して、運用系ＰＰＭＣ（運用状態のＰＰＭＣ１０１、１０２のいずれか）の異常を判断する。
監視回路１３０に備えられた学習回路１４０は、運用系ＰＰＭＣ１０１がアプリケーション実行時にアクセスするアドレスやデータを記憶部（図示せず）に蓄積する。このようにして、運用系ＰＰＭＣ１０１がアプリケーションを正常に実行中にアクセスするアドレスやデータを学習する。学習回路１４０は、学習結果に基いて、運用系ＰＰＭＣ１０１がアプリケーション実行時に異常なアドレスやデータにアクセスした際に、運用系ＰＰＭＣ１０１の動作が異常であると判断する。

なお、上述の例では、運用系ＰＰＭＣ１０１がアクセルするアドレスやデータに基づいて、学習回路１４０が学習結果を用いてホストユニットの正常、あるいは異常を判断していたが、これに限られるものではない。
例えば、学習回路１４０が、運用系ＰＰＭＣ１０１が割り込み要因に対して割り込みハンドラを正常に実行したときの応答時間を学習し、応答時間が所定の時間を超えても割り込みハンドラが実行されなかったことに基づいて、ＰＰＭＣ１０１の異常を判断してもよい。

また、監視回路１３０にウォッチドックタイマやレジスタを実装しておき、学習回路１４０が、運用系の運用系ＰＰＭＣ１０１がウォッチドックタイマやレジスタに正常にアクセスする頻度やアクセス間隔を学習し、アクセス頻度が学習した範囲を超えたり、アクセス間隔が学習した所定の時間を超えたことに基づいて、運用系ＰＰＭＣ１０１の異常を判断してもよい。

学習回路１４０が学習する期間としては、学習の対象とする事象、例えば共通バスへのアクセス、ウォッチドックタイマやレジスタへのアクセス、割り込みハンドラの実行などが、システム起動から所定の回数発生するまで学習するようにしてもよい。

学習回路１４０が学習する期間は一例であり、学習回路１４０はシステム起動から所定の期間内は学習するようにしてもよい。

また、学習回路１４０の学習開始期間は、システムを起動するシステム起動時だけではなく、システム運用中に定期的に、あるいは不定期的に任意の期間または任意の回数学習するようにしてもよい。
また、システム運用前のデバッグ時に、学習回路１４０が学習するようにしてもよい。

また、学習回路１４０は、繰り返し学習する際に以前の学習結果から継続して学習してもよいし、或いは、以前の学習結果を初期化して初めから学習し直すようにしてもよい。

このように本実施の形態に係る情報処理システムは、切り替え制御機能をＰＰＭＣから独立させて実装することで、既存のＰＰＭＣに特別な変更を加えることなく互換性を保ったまま切り替え機能を実現でき、開発コストを低減することができる。
また、切り替え制御機能をＰＰＭＣから独立することで、ＰＰＭＣが故障した場合でも故障を検出し切り替えすることができる。特にＰＰＭＣのように、既存の規格に準拠して構成されている場合にも、既存のＰＰＭＣをそのまま使い、切り替え機能を実現することができる。

なお、学習の際にＰＰＭＣ１０１あるいはＰＰＭＣ１０２が正常に動作中であるか否かの判断は、少なくとも初期の間はユーザが学習回路１４０に教えるようにしてもよい。例えば異常時はユーザが操作をしてアラーム信号を発信して、学習回路１４０に運用系ＰＰＭＣの異常を知らせるようにしてもよい。あるいは、ＰＰＭＣが自ら異常を判断すると、学習回路１４０に対して異常を知らせる信号を出力するようにしてもよい。このようにすることで、学習回路１４０は、初期においてユーザにより異常と判断された運用系ＰＰＭＣがアクセスするアドレスやデータを異常なアドレスやデータとして記憶し学習することが可能となる。

１運用系ホストユニット、２待機系ホストユニット、１０共通バス、２０切り替え要求信号、２１切り替え信号、２２切り替え信号、２３リセット信号、３０、１３０監視回路、３１、１３１切り替え回路、４０、１４０学習回路、１００情報処理システム、１１０ＰＣＩバス、１０１運用系ＰＰＭＣ、１０２待機系ＰＰＭＣ、１２１ＭＯＮＡＲＣＨ＃信号、１２２ＭＯＮＡＲＣＨ＃信号、１２３ＲＳＴ＃信号、２００キャリアボード

Claims

共通バスにより接続された複数のホストユニットと、
前記共通バスと接続され、前記ホストユニットの動作が正常であるか異常であるかを監視する監視回路と、
前記監視回路から切り替え要求信号を受信すると、運用状態のホストユニットを待機状態のホストユニットに切り替え、待機状態のホストユニットを運用状態のホストユニットに切り替える切り替え信号を出力する切り替え回路と、を備え、
前記監視回路は学習機能を有する学習回路を備え、前記学習回路は前記運用状態のホストユニットがアプリケーション実行時にアクセスする正常なアドレスを学習し、前記運用状態のホストユニットが正常なアドレスでないアドレスにアクセスすると、前記運用状態のホストユニットの動作が異常であると判断することを特徴とする情報処理システム。
前記学習回路は、前記運用状態のホストユニットが割り込み要因に対して割り込みハンドリングを正常に実行する期間を学習し、前記期間内に割り込みハンドリングを実行しない場合に前記運用状態のホストユニットの動作が異常であると判断することを特徴とする請求項１記載の情報処理システム。
前記学習回路はシステムの負荷状況を学習してアクセス期間を設定し、前記アクセス期間内にアクセスが無い場合に前記運用状態のホストユニットの動作が異常であると判断することを特徴とする請求項１記載の情報処理システム。