JP2023091269A

JP2023091269A - アクセラレータ装置を利用した情報処理装置及び情報処理方法

Info

Publication number: JP2023091269A
Application number: JP2021205929A
Authority: JP
Inventors: 巧上薗; Takumi Uezono; 宏章井辻; Hiroaki Itsuji; 健一新保; Kenichi Shinpo; 昌義高橋; Masayoshi Takahashi; 裕植松; Yutaka Uematsu
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2023-06-30
Also published as: WO2023119774A1

Abstract

【課題】アクセラレータ装置が大型にならないように情報処理装置の信頼性と動作継続性とを両立する。【解決手段】演算対象を用いた演算をアクセラレータ装置により行う情報処理装置が、演算対象が使用される情報が入力される都度に、下記を行う。・演算対象における複数の演算要素の各々について、当該演算要素の演算結果の正確性が演算対象の出力情報の正確性に影響する度合である故障影響度を基に、当該演算要素に、アクセラレータ装置における複数の処理回路から、演算のための使用可能な処理回路である演算回路の他に、演算の正確性診断のための使用可能な処理回路である一つ以上の診断回路を割り当てるかを決定する。・演算対象における演算要素の数と、少なくとも一つの診断回路が割り当てられた演算要素の数と、演算要素の故障影響度とに基づき、情報処理装置の動作を継続するか否かの判断に用いられる情報処理装置の信頼性を算出する。【選択図】図１

Description

本発明は、概して、アクセラレータ装置による演算を含んだ情報処理技術に関する。

機械学習又は深層学習の市場が形成され、自動運転や産業インフラ装置等のエッジ機器へのＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）活用が進展しており、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）や専用ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）などのハードウェアアクセラレータの使用が進んでいる。これらエッジ機器では、環境や経年変化の影響でハードウェアの異常が発生する可能性がある。システムの安定的な動作継続のためには、ハードウェアの異常検出だけでなく、復旧技術が必須である。

復旧方法としては、例えば、
（＊）システムを再起動する、
（＊）主系（現用系）に異常が発生した場合に主系から待機系へ切り替える、
（＊）異常が発生した部位を除いた動作である縮退動作を行う、
などが知られている。

また、特許文献１には、自己修復機能付き情報処理装置が開示されている。

特開平８－４４５８１号公報

近年、信頼性と動作継続性との両立がエッジ機器に求められてきている。また、エッジ機器は、情報処理装置の一例である。信頼性と動作継続性との両立は、エッジ機器以外の情報処理装置についても求められ得る。

アクセラレータ装置を備えた情報処理装置がある。情報処理のうちの所定種類の演算をアクセラレータ装置が実行する。これにより、処理の高速化が期待できる。所定種類の演算としては、例えば、機械学習モデルを用いた演算がある。機械学習モデルとして、グラフ構造の機械学習モデル（複数のノードとそれぞれノード間を結ぶ複数のエッジとを有する機械学習モデル）がある。グラフ構造の機械学習モデルとしては、例えば、ニューラルネットワークがあるが、ニューラルネットワークに代えて決定木などのグラフ構造モデルが採用されてもよい。

アクセラレータ装置は、一つ以上のハードウェアアクセラレータを有する。ハードウェアアクセラレータは、複数の処理回路を有する。アクセラレータ装置における処理回路の故障を検出するための診断として、演算対象における同一の演算要素の演算を複数の処理回路が行い当該複数の処理回路の演算結果を比較することが考えられる。例えば、「演算対象」としては、グラフ構造の機械学習モデルがあり、「演算要素」としては、グラフ構造の機械学習モデルにおけるノードがある。「演算対象」に情報を入力することで複数の演算要素のうちの少なくとも一部の演算要素を経て（当該情報を用いた演算が行われて）「演算対象」から情報が出力される。

アクセラレータ装置における処理回路に故障が検出されたた場合、上述した従来の復旧方法では、動作継続は可能であるが、故障発生後の信頼性が低下する可能性がある。

例えば、グラフ構造の機械学習モデルにおけるノード毎に主系としての処理回路と待機系としての処理回路とが割り当てられたアクセラレータ装置が考えられる。このアクセラレータ装置では、主系に故障が発生した場合には、待機系への切り替えを経て動作継続がされる。しかし、この場合、切り替え先の待機系に故障が発生すると、次の切り替え先が無く、故に、信頼性が低下する。また、ノード毎に主系と待機系の２系統が維持される必要があるため、アクセラレータ装置が大型になり、情報処理装置（例えば、エッジ機器）の要求スペックを満たせない可能性がある。

このような問題は、所定種類の演算が、グラフ構造の機械学習モデルを用いた演算以外の演算でもあり得る。

本発明の目的は、アクセラレータ装置が大型にならないように情報処理装置の信頼性と動作継続性とを両立することである。

入力された情報の演算に使用されて情報が出力される演算対象を用いた演算をアクセラレータ装置により行う情報処理装置が、割り当て決定部と、信頼性判定部とを備える。演算対象が使用される情報が入力される都度に、下記が行われる。
・割り当て決定部が、演算対象における複数の演算要素の各々について、当該演算要素の演算結果の正確性が演算対象の出力情報の正確性に影響する度合である故障影響度を基に、当該演算要素に、アクセラレータ装置における複数の処理回路から、演算のための使用可能な処理回路である演算回路の他に、演算の正確性診断のための使用可能な処理回路である一つ以上の診断回路を割り当てるかを決定する。
・信頼性判定部が、演算対象における演算要素の数と、少なくとも一つの診断回路が割り当てられた演算要素の数と、演算要素の故障影響度とに基づき、情報処理装置の動作を継続するか否かの判断に用いられる、情報処理装置の信頼性を算出する。

本発明によれば、アクセラレータ装置が大型にならないように情報処理装置の信頼性と動作継続性とを両立することができる。

第１の実施形態に係る情報処理装置の構成図。第１の実施形態に係る情報処理装置の動作フローチャート。第２の実施形態に係る情報処理装置の構成図。第２の実施形態に係る情報処理装置の動作フローチャート。第３の実施形態に係る情報処理装置の構成図。第３の実施形態に係る情報処理装置の構成図。情報処理装置のハードウェア構成図。

以下の説明では、「インターフェース装置」は、一つ以上のインターフェースデバイスでよい。当該一つ以上のインターフェースデバイスは、下記のうちの少なくとも一つでよい。
・一つ以上のＩ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）インターフェースデバイス。Ｉ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）インターフェースデバイスは、Ｉ／Ｏデバイスと遠隔の表示用計算機とのうちの少なくとも一つに対するインターフェースデバイスである。表示用計算機に対するＩ／Ｏインターフェースデバイスは、通信インターフェースデバイスでよい。少なくとも一つのＩ／Ｏデバイスは、ユーザインターフェースデバイス、例えば、キーボード及びポインティングデバイスのような入力デバイスと、表示デバイスのような出力デバイスとのうちのいずれでもよい。
・一つ以上の通信インターフェースデバイス。一つ以上の通信インターフェースデバイスは、一つ以上の同種の通信インターフェースデバイス（例えば一つ以上のＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ））であってもよいし二つ以上の異種の通信インターフェースデバイス（例えばＮＩＣとＨＢＡ（ＨｏｓｔＢｕｓＡｄａｐｔｅｒ））であってもよい。

また、以下の説明では、「メモリ」は、一つ以上の記憶デバイスの一例である一つ以上のメモリデバイスであり、典型的には主記憶デバイスでよい。メモリにおける少なくとも一つのメモリデバイスは、揮発性メモリデバイスであってもよいし不揮発性メモリデバイスであってもよい。

また、以下の説明では、「永続記憶装置」は、一つ以上の記憶デバイスの一例である一つ以上の永続記憶デバイスでよい。永続記憶デバイスは、典型的には、不揮発性の記憶デバイス（例えば補助記憶デバイス）でよく、具体的には、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、ＮＶＭＥ（Ｎｏｎ－ＶｏｌａｔｉｌｅＭｅｍｏｒｙＥｘｐｒｅｓｓ）ドライブ、又は、ＳＣＭ（ＳｔｏｒａｇｅＣｌａｓｓＭｅｍｏｒｙ）でよい。

また、以下の説明では、「記憶装置」は、メモリと永続記憶装置の少なくともメモリでよい。

また、以下の説明では、「プロセッサ」は、一つ以上のプロセッサデバイスでよい。少なくとも一つのプロセッサデバイスは、典型的には、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）のようなマイクロプロセッサデバイスでよい。少なくとも一つのプロセッサデバイスは、シングルコアでもよいしマルチコアでもよい。

また、以下の説明では、「ｙｙｙ部」の表現にて機能を説明することがあるが、機能は、一つ以上のコンピュータプログラムがプロセッサによって実行されることで実現されてもよいし、一つ以上のハードウェア回路（例えばＦＰＧＡ又はＡＳＩＣ）によって実現されてもよいし、それらの組合せによって実現されてもよい。プログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び／又はインターフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを有する装置が行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機又は計算機が読み取り可能な記録媒体（例えば非一時的な記録媒体）であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。

以下、本発明の実施形態について図面を参照して説明する。
［第１の実施形態］

図１は、第１の実施形態に係る情報処理装置の構成例を示す図である。また、図２は、当該情報処理装置の動作フローチャートである。

情報処理装置１２Ａは、影響度計算部２と、優先度決定部４と、割り当て決定部５と、アクセラレータ装置６Ａと、診断情報収集部７と、使用可能リソース特定部９と、信頼性判定部１０とを有する。アクセラレータ装置６Ａは、複数のＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１７Ｇと、複数のＧＰＵ１７Ｇを制御するコントローラ３０と、各コア２１の演算結果が格納されるメモリ２２とを有する。ＧＰＵ１７Ｇは、ハードウェアアクセラレータの一例であり、具体的には、並列処理デバイスの一例である。ＧＰＵ１７Ｇは、複数のコア（ＧＰＵコア）２１を有する。

影響度計算部２は、影響度計算を行う（Ｓ２０１）。具体的には、影響度計算部２は、学習済みニューラルネットワーク１（ニューラルネットワークを表すデータ）に対して、各ノードで故障が発生し演算を誤った場合にその故障の影響が出力に影響するか否かを定量的に解析する。解析方法は、各ノードに対して故障を仮定して行ったシミュレーション結果と、通常時のシミュレーション結果を比較し、影響の有無を調べる、エラーインジェクションが考えられる。影響度の定量化の方法としては、例えば、ＡＶＦ（ＡｒｃｈｉｔｅｃｔｕｒａｌＶｕｌｎｅｒａｂｉｌｉｔｙＦａｃｔｏｒ）を活用する。ＡＶＦは、ノードで発生する全故障モードに対する、故障影響がニューラルネットワーク演算結果の誤りとなる割合で定義する。影響度計算部３による解析の結果としての情報が、故障影響度３として出力される。故障影響度３は、学習済みニューラルネットワーク１におけるノード毎の影響度を表す情報を含む。

優先度決定部４は、優先度決定を行う（Ｓ２０２）。具体的には、優先度決定部４は、故障影響度３を用いて学習済ニューラルネットワーク１内の各ノードに対して、診断優先度を設定する。診断優先度の定義としては、故障影響度の大きいノードから順位付けを行い、その順位を優先度とする方法や、故障影響度の大きさを用いてノード群を２つ以上作成し、ノード群に対して優先度をつける方法などが考えられる。

割り当て決定部５は、機能割り当て決定を行う（Ｓ２０３）。具体的には、割り当て決定部５は、使用可能リソース特定部９から取得された情報が一つ以上の使用可能なハードウェアリソース（本実施形態ではコア２１）を表している場合、少なくとも一つの使用可能なコア２１に、ニューラルネットワーク内の特定のノードについての演算を行う演算機能、又は、ニューラルネットワーク内の特定のノードについて診断を行う診断機能を割り当てる。使用可能なコア２１に限りがあるため、割り当て決定部５は、最初に演算機能の割り当てを行い、残ったコア２１に対して診断機能を割り当てていく。残ったコア２１に対して診断機能を割り当てていく際、割り当て決定部５は、診断優先度の高いノードから先に、診断機能を割り当てていき、使用可能なコア２１がなくなったら終了とする。割り当て決定部５は、診断ノード（演算結果の診断がされるノード）の情報を診断ノード情報として信頼性判定部１０に送る。診断ノード情報は、例えば、診断ノードのＩＤのリストを含んでよい。また、割り当て決定部５は、使用可能リソース特定部９から取得された情報が表す使用不可能なコア２１（ハードウェアリソース）に対しては、有効な演算を実行させないよう、ＮＯＰ（ＮｏＯｐｅｒａｔｉｏｎ）を割り当てる。例えば、割り当て決定部５は、ノード１～１０までの演算はＧＰＵ１７Ｇａ、ノード１１～２０までの演算はＧＰＵ１７Ｇｂなどのように割り当てを行う。割り当て結果を表す割当結果情報は、実行するＧＰＵ１７Ｇを表す情報（例えば、一意のＧＰＵ番号など）と、そのＧＰＵ１７Ｇで実行する演算情報（例えば、オペランド、使用データ）とを少なくとも含む。すなわち、割り当て結果情報は、ノードについて演算機能及び診断機能の各々の割当て先のＧＰＵ１７Ｇを表す情報が含まれる。いずれのノードについて演算機能又は診断機能が割り当てられるかは、割り当て結果情報において定められていてもよいし、割り当て結果情報を基にアクセラレータ装置６Ａのコントローラ３０によって決定されてもよい。割り当て決定部５は、割り当て結果情報をアクセラレータ装置６に送る。

信頼性判定部１０は、信頼性計算を行う（Ｓ２０４）。具体的には、信頼性判定部１０は、診断ノード情報と故障影響度３とを用いて、情報処理装置１２Ａの信頼性を定量的に導出する。信頼性判定部１０は、導出された信頼性が要求された信頼性を満たすか否か（つまり、動作を継続するか否か）を判定する（Ｓ２０５）。

システム（情報処理装置１２Ａ）の信頼性の定量的指標としては、例えば診断カバー率が考えられる。診断カバー率Ｃは以下のような数式で計算することが可能である。

ここで、Ｎは診断対象ノードの集合、ＡＶＦ_ａは、診断対象ノードａに対する定量的影響度、ＡＶＦ_ａｌｌはニューラルネットワークに含まれる全てのノードのＡＶＦの和を表す。診断カバー率Ｃは、コアの多重化が維持されるノード（後述の演算コアの他に診断コアが割り当てられるノード）の故障影響度の高さと、多重化が維持されるノードの数に依存する。例えば、コアの多重化が維持されるノードが減ってもそのノードの故障影響度が小さければ、診断カバー率の低下は小さい。言い換えれば、コアの多重化が維持されるノードが減りそのノードの故障影響度が大きいと、診断カバー率の低下は大きい。

信頼性判定部１０は、導出された信頼性を表す情報である信頼性情報１１を外部に送る（例えば、信頼性情報１１を表示装置に表示するか、信頼性情報１１を監視などの用途に用いる上位のコンピュータシステムに信頼性情報１１を送信する）。また、信頼性判定部１０は、導出されたシステム信頼性が一定値未満であれば（Ｓ２０５：Ｎｏ）、不安全であると判断して、アクセラレータ装置６の演算を中止させ、システム停止（情報処理装置１２Ａの動作継続の停止）を行う（Ｓ２０９）。システム停止に代えて、信頼性判定部１０は、システム停止の決定を外部（例えば、ユーザ、又は、外部のコンピュータシステム）に通知してもよい。

信頼性が一定値以上であれば（Ｓ２０５：Ｙｅｓ）、演算及び診断が実行される（Ｓ２０６）。すなわち、アクセラレータ装置６Ａのコントローラ３０が、割り当て決定部５からの割り当て結果情報を基に、演算を実行するＧＰＵ１７Ｇを特定し、特定されたＧＰＵ１７Ｇについて、演算制御情報（例えば、オペランドやデータ）を決定して、決定した演算制御情報を当該ＧＰＵ１７Ｇに送る。ＧＰＵ１７Ｇは、演算制御情報に基づいて演算及び診断を実行する。例えば、一つのノードについて、演算機能が割り当てられるコア２１である演算コア（例えば主系）と、診断機能がそれぞれ割り当てられる二つ以上のコア２１である二つ以上の診断コア（例えば冗長系）とがある。演算コアと二つ以上の診断コアが同一の演算を行い、それぞれの演算結果がメモリ２２に格納される。

診断情報収集部７は、診断機能が割り当てられたＧＰＵ１７Ｇから診断情報を収集する（Ｓ２０７）。診断情報は、同一のノードについて、演算コアと二つ以上の診断コアの各々の演算結果を含んでもよいし、それらの演算結果の比較の結果（例えば、異なる演算結果を出力したコア）を表す情報を含んでもよい。収集は、ＧＰＵ１７Ｇとの間に結ばれたパス（直接診断情報収集部７へ診断情報を送付するためのパス）を通じて行われてもよいし、メモリ２２に格納されている診断情報を診断情報収集部７が読み出す方法により行われてもよい。診断情報収集部７は、収取した診断情報から、故障が発生したコアである故障コアを特定し、故障コアを表す故障コア情報を使用可能リソース特定部９へ送付する。

使用可能リソース特定部９は、故障コアがあるか否かを判定する（Ｓ２０８）。例えば、使用可能リソース特定部９は、故障コア有を表す故障コア情報を診断情報収集部７から受けたか否かを判定する。

Ｓ２０８の判定結果が偽の場合（Ｓ２０８：Ｎｏ）、処理がＳ２０３に戻る。

Ｓ２０８の判定結果が真の場合（Ｓ２０８：Ｙｅｓ）、使用可能リソース特定部９は、使用可能コア（ハードウェアリソース）を特定する（Ｓ２１０）。具体的には、使用可能リソース特定部９は、ハードウェアリソース情報８を参照する。ハードウェアリソース情報８は、例えば、外部から入力された情報であり、アクセラレータ装置６Ａにおける全コアを表す情報（例えば、いずれのＧＰＵ１７Ｇにいずれのコア２１が存在するかを表す情報）を含む。使用可能リソース特定部９は、ハードウェアリソース情報８が表すコアのうち、故障コア情報が表す故障コア以外（すなわち、故障が発生していないコア）を、使用可能コアとして特定し、使用可能コアを表す情報を割り当て決定部５に送る。そして、Ｓ２０３が行われる。

学習済ニューラルネットワーク１には適宜に情報が入力される。学習済ニューラルネットワーク１に情報が入力される都度に、Ｓ２０３以降が行われる。

本実施形態によれば、学習済ニューラルネットワーク１の処理中にコアに故障が発生しても、学習済ニューラルネットワーク１を基に計算されたノード毎の故障影響度を基に、システム信頼性の低下を最小限に抑え、高信頼に情報処理装置１２Ａの継続動作を実現できる。
［第２の実施形態］

第２の実施形態を説明する。その際、第１の実施形態との相違点を主に説明し、第１の実施形態との共通点については説明を省略又は簡略する。

本実施形態では、複数種類のハードウェアアクセラレータを用いてニューラルネットワーク演算が行われる。

図３は、第２の実施形態に係る情報処理装置の構成例を示す図である。また、図４は、当該情報処理装置の動作フローチャートである。

情報処理装置１２Ｂは、アクセラレータ装置６Ａに代えてアクセラレータ装置６Ｂを有する。アクセラレータ装置６Ｂは、複数種類のハードウェアアクセラレータ１７を有する。具体的には、アクセラレータ装置６Ｂは、ＧＰＵ１７Ｇの他に、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）１７Ｆを有する。ＦＰＧＡ１７は、回路書き換え部４０と、複数の処理回路４１を有する。処理回路４１として、演算機能が割り当てられる処理回路である演算回路４１Ｐと、診断機能が割り当てられる処理回路である診断回路４１Ｄとがある。ＦＰＧＡ１７Ｆに代えて、他種の機能書き換え可能デバイスがハードウェアアクセラレータ１７として備えられてもよいし、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）がハードウェアアクセラレータ１７として備えられてもよい。

情報処理装置１２Ｂは、演算制御部１４及び書き換え制御部１５を有する。

ＦＰＧＡ１７Ｆに書き込まれる回路を表す回路情報１３が情報処理装置１２Ｂに入力され記憶される。書き換え制御部１５が、回路情報１３をＦＰＧＡ１７の回路書き換え部４０に入力し、回路書き換え部４０が、入力された回路情報１３が表す回路をＦＰＧＡ１７に構築するようになっている。回路情報１３は、処理回路４１毎に演算回路４１Ｐであるか診断回路４１Ｄであるかを表す情報を含んでよい。また、書き換え制御部１５は、ＦＰＧＡ１７Ｆに書き込まれる回路を表す回路情報１３を割り当て決定部５に入力するようになっている。これにより、書き換え制御部１５は、ＦＰＧＡ１７Ｆに書き込まれている回路構成を把握できる。

割り当て決定部５は、Ｓ２０５：Ｙｅｓの後、Ｓ２０３の割り当て後の回路（例えば、処理回路４１毎に演算回路４１Ｐであるか診断回路４１Ｄであるか）が、ＦＰＧＡ１７Ｆの最新の回路（例えば、入力された回路情報１３が表す回路）と一致しているか否かを判定する（Ｓ４０６）。

Ｓ４０６の判定結果が真の場合（Ｓ４０６：Ｙｅｓ）、図２のＳ２０６以降が行われる。すなわち、割り当て決定部５は、割り当て結果情報を、演算制御部１４に送る。演算制御部１４は、割り当て決定部５からの割り当て結果情報を基に、演算を実行するハードウェアアクセラレータ１７を特定し、特定されたハードウェアアクセラレータ１７について、演算制御情報（例えば、オペランドやデータ）を決定して、決定した演算制御情報を当該ハードウェアアクセラレータ１７に送る。ハードウェアアクセラレータ１７は、演算制御情報に基づいて演算及び診断を実行する。例えば、一つのノードについて、演算機能が割り当てられる処理回路として演算コア又は演算回路４１Ｐと、診断機能がそれぞれ割り当てられる二つ以上の処理回路である二つ以上の診断コア又は二つ以上の診断回路４１Ｄとがある。このように、演算制御部１４は、コントローラ３０と同様の処理を行うようになっている。

Ｓ４０６の判定結果が偽の異なる場合（Ｓ４０６：Ｎｏ）、回路書き換えが行われる（Ｓ４１１）。すなわち、割り当て決定部５は、割り当ての結果に従う回路変更情報（例えば、割り当てが変更された処理回路と変更後の割り当てとを表す情報）を書き換え制御部１５に送る。書き換え制御部１５は、回路情報１３を読み出し、読み出した回路情報１３に、入力された回路変更情報を適用し、割り当て決定後の回路を表す回路情報を、ＦＰＧＡ１７Ｆの回路書き換え部４０に入力する。この回路情報に従う書き換えが完了したら、書き換え制御部１５は、割り当て決定部５に、ＦＰＧＡ１７に入力した回路情報を送る。割り当て決定部５は、その回路情報を保持する。この回路情報が回路情報１３に上書きされてもよい。Ｓ４１１の後、Ｓ２０６以降の処理が行われる。

本実施形態によれば、複数種類のハードウェアアクセラレータ１７を有する情報処理装置１２Ｂにおいてもシステム信頼性の低下を最小限に抑え、高信頼に情報処理装置１２Ｂの継続動作を実現できる。また、複数種類のハードウェアアクセラレータ１７が使用されることで、共通原因故障を排除することができ（例えば、ＧＰＵ１７Ｇ及びＦＰＧＡ１７Ｆの一方のハードウェアアクセラレータに共通の故障原因が生じても他方のハードウェアアクセラレータが継続動作することが期待され）、より高い信頼性が期待できる。

なお、Ｓ４１１の回路書き換えは、ＦＰＧＡ１７全体の回路書き換えでもよいが、本実施形態では、部分書き換え（具体的には、例えば、機能割り当てが変更される処理回路を含んだ回路部分の書き換え）がされてもよい。ＦＰＧＡ１Ｆの一部を書き換える機能は、パーシャルリコンフィギュレーション（部分再構成）と呼ばれ、ＦＰＧＡベンダより提供されている機能である。

すなわち、ＧＰＵ１７Ｇが使用される場合、コアに割り当てる機能の変更はプログラムにより可能であり、故に、切り替え時間が短い。一方、ＦＰＧＡ１７Ｆが使用される場合、処理回路に割り当てる機能の変更には実装回路の書き換えが必要であり、切り替え時間がＧＰＵ１７Ｇと比較して長い。なお、ＦＰＧＡ１７Ｆに汎用回路を実装してＧＰＵ１７Ｇと同様な使い方をすることも可能であるが、アプリケーションに特化した回路を構成して所望の性能を実現できるというＦＰＧＡ１７Ｆの利点を生かせない。

そこで、本実施形態では、書き換え制御部１５が、ＦＰＧＡ１７Ｆについて、書き換えが必要な場所を特定し、必要最低限の場所のみを書き換えることで、書き換え時間を最小化する。特に、ニューラルネットワークの演算においては、入力データ（例えばカメラの撮影画像）が異なるだけで同じ演算を毎サイクル行うという特徴がある。したがって、演算回路の数は基本的に変わらない。

これにより、ＦＰＧＡ１７Ｆの書き換え時間を短縮し、ＦＰＧＡ１７Ｆの故障発生から復旧までの時間を短縮することができる。
［第３の実施形態］

第３の実施形態を説明する。その際、第１及び第２の実施形態との相違点を主に説明し、第１及び第２の実施形態との共通点については説明を省略又は簡略する。

本実施形態では、ＦＰＧＡ１７Ｆを用いてニューラルネットワーク演算が行われる。

図５は、第３の実施形態に係る情報処理装置の構成例を示す図である。また、図６は、当該情報処理装置の動作フローチャートである。

情報処理装置１２Ｃは、アクセラレータ装置６Ａ又は６Ｂに代えてアクセラレータ装置６Ｃを有する。アクセラレータ装置６Ｃは、一つ以上のＦＰＧＡ１７Ｆである。ＦＰＧＡ１７Ｆは、演算回路４１Ｐ間の連携のためのスイッチ５０と、演算回路４１Ｐと診断回路４１Ｄ間の連携のためのスイッチ５１とを有する。

本実施形態では、一部書き換えは、回路の書き換えに代えて又は加えて、配線書き換えを含み、書き換え時間の一層の短縮が期待される。

具体的には、割り当て決定部５は、Ｓ２０５：Ｙｅｓの後、Ｓ２０３の割り当て後の回路が、ＦＰＧＡ１７Ｆの最新の回路と一致しているか否かを判定する（Ｓ６１０）。

Ｓ６１０の判定結果が偽の場合（Ｓ６１０：Ｎｏ）、割り当て決定部５は、使用可能リソース特定部９からの情報（例えば、使用可能リソースを表す情報と、故障リソースを表す情報とを含んだ情報）を基に、故障が生じたリソースが診断回路４１Ｄであるか否かを判定する（Ｓ６１１）。

Ｓ６１１の判定結果が偽の場合（Ｓ６１１：Ｎｏ）、割り当て決定部５は、書き換え制御部１５に、処理回路の書き換えを実行させ（Ｓ６１２）、その後に、配線の書き換えを実行させる（Ｓ６１３）。このＳ６１２及びＳ６１３は、例えば、処理回路の書き換えの内容と配線の書き換えの内容とを含む回路情報がＦＰＧＡ１７Ｆの回路書き換え部４０に入力されてもよい。また、Ｓ６１１：Ｎｏの後のＳ６１３は、スイッチ５０及び５１の配線の書き換えでよい。

Ｓ６１１の判定結果が真の場合（Ｓ６１１：Ｙｅｓ）、割り当て決定部５は、書き換え制御部１５に、配線の書き換えを実行させる（Ｓ６１３）。Ｓ６１１：Ｙｅｓの後のＳ６１３は、スイッチ５１の配線の書き換えでよい。

回路書き換え及び配線書き換えの具体例として、一つの演算回路４１Ｐａに対して二つの診断回路４１Ｄａ及び４１Ｄｂが存在するケース、つまり、一つのノードにつき処理回路の三重化がされているケースを例に取る。本ケースでは、故障個所は、演算回路４１Ｐａ、診断回路４１Ｄａ又は診断回路４１Ｄｂの３通りある。

演算回路４１Ｐａに故障が発生している場合、演算回路４１Ｐａが実行していた演算を診断回路４１Ｄａ及び４１Ｄｂのどれかに割り当てる必要がある。このため、いずれかの診断回路４１Ｄが演算回路４１Ｐに書き換えられる必要がある。この場合、診断回路を演算回路に書き換えることが必要である。

一方、診断回路４１Ｄａ又は４１Ｄｂに故障が発生している場合、故障が生じている診断回路４１Ｄの診断機能を別の診断回路４１Ｄに移す必要がある。但し、機能それ自体は変わらないため、診断回路４１Ｄに対する入出力のみの変更で対応が可能である。具体的には、例えば、診断回路４１Ｄａで故障が発生している場合、診断回路４１Ｄａの入出力につながっていた配線が、別の診断回路４１Ｄの入出力に接続されればよい。

以上のように、診断回路４１Ｄで故障が発生しているか否かが判定され、診断回路４１Ｄで故障が発生している場合、配線のみが書き換えられればよい。なお、図５に例示のＦＰＧＡ１７Ｆの構成や、図６に例示の動作フローチャートは、第２の実施形態に適用されてもよい。

上述した第１乃至第３の実施形態の説明を、例えば以下のように総括することができる。以下の総括は、少なくとも一つの実施形態の補足説明又は変形例の説明を含んでもよい。

情報処理装置１２が、入力された情報の演算に使用されて情報が出力される演算対象を用いた演算をアクセラレータ装置６により行うようになっている。情報処理装置１２は、例えば、図７に示すように、インターフェース装置７０１と、記憶装置７０２と、アクセラレータ装置６と、それらに接続されたプロセッサ７０３とを備える。インターフェース装置７０１を介して、ハードウェアリソース情報８（例えば、アクセラレータ装置６が有する複数の処理回路を表す情報）及び学習済ニューラルネットワーク１（グラフ構造の機械学習モデルの一例）が入力されてよい。また、インターフェース装置７０１を介して、学習済ニューラルネットワーク１の入力情報（例えば、カメラによる撮影画像）が入力されてよい。また、インターフェース装置７０１を介して、信頼性情報１１（例えば、算出された信頼性を表す情報）が出力されてもよい。情報処理装置１２は、いわゆるエッジ機器でもよいし、エッジ機器のようなクライアントと通信するサーバでもよい。情報処理装置１２がサーバの場合、物理的な計算機システムとしてのサーバでもよいし、物理的な計算機システム（例えば、複数種類の物理的な計算リソースを含んだクラウド基盤）に基づく論理的な計算機システム（例えば、クラウドコンピューティングサービス）としてのサーバでもよい。また、アクセラレータ装置６は、情報処理装置１２に搭載されていてもよいし、情報処理装置１２に通信可能に接続されていてもよい。また、アクセラレータ装置６は、一つ又は複数のハードウェアアクセラレータ１７でもよいし、一つ又は複数のハードウェアアクセラレータ１７が搭載されたパッケージとしての装置でもよい。また、記憶装置７０２に、上述のハードウェアリソース情報８、学習済ニューラルネットワーク１、故障影響度３、信頼性情報１１、割り当て結果情報、診断情報及び診断ノード情報の少なくとも一部が格納されてもよい。プロセッサ７０３がコンピュータプログラムを実行することにより、影響度計算部２、優先度決定部４、割り当て決定部５、信頼性判定部１０、診断情報収集部７、使用可能リソース特定部９、演算制御部１４及び書き換え制御部１５の少なくとも一つの機能が実現されてよい。

情報処理装置１２が、割り当て決定部５と、信頼性判定部１０とを備える。演算対象（上述の例では学習済ニューラルネットワーク１）が使用される情報が入力される都度に、下記が行われる。
・割り当て決定部５が、演算対象における複数の演算要素（例えば、複数のノード）の各々について、当該演算要素の演算結果の正確性が演算対象の出力情報の正確性に影響する度合である故障影響度を基に、当該演算要素に、アクセラレータ装置６の複数の処理回路から、演算のための使用可能な処理回路である演算回路の他に、演算の正確性診断のための使用可能な処理回路である一つ以上の診断回路を割り当てるかを決定する。なお、「処理回路」は、例えば、コア２１や処理回路４１である。「演算回路」は、演算機能が割り当てられた処理回路である。「診断回路」は、診断機能が割り当てられた回路である。
・信頼性判定部１０が、演算対象における演算要素の数と、少なくとも一つの診断回路が割り当てられた演算要素の数と、演算要素の故障影響度とに基づき、情報処理装置１２の動作を継続するか否かの判断に用いられる情報処理装置１２の信頼性（例えば、上述の診断カバー率Ｃ）を算出する。

割り当て決定部５が行う処理の別の表現は、各演算要素の故障影響度を基に、当該演算要素の演算冗長性“ｎ”（ｎは整数）を制御することでよい。ｎ＝０であれば、診断回路は割り当てられない。言い換えれば、ｎと同数の診断回路が割り当てられる。故障が発生している処理回路は、演算要素について（ｎ＋１）の演算結果を比較することにより特定することが可能である。例えば、いずれか一つの演算結果が他の二つ以上の演算結果と異なる場合、当該一つの演算結果を算出した処理回路に故障が発生していると判断することができる。

このように、演算要素の故障影響度によって当該演算要素の演算冗長性が制御されるので、故障影響度の小さい演算要素については診断回路が割り当てられなくても信頼性を一定値以上に維持できる可能性があり、故に、アクセラレータ装置６が大型にならないように情報処理装置１２の信頼性と動作継続性とを両立することができる。

なお、上述の実施形態では、信頼性判定部１０が、算出した信頼性が一定値以上か否かを判定し、当該判定の結果に応じて動作継続か動作停止かを制御するが、算出した信頼性が一定値以上か否かの判定、及び、当該判定の結果に応じて動作継続か動作停止かを制御することは、情報処理装置１２の外部（例えば、ユーザによる手動操作、又は、上位システム）により行われてもよい。例えば、情報処理装置１２は、車両の自動運転制御を行う装置でもよいし、自動運転制御を行う上位システムに接続された装置でもよい。例えば、信頼性判定部１０は、信頼性が第１の値（上述の一定値の一例）以上であるが第２の値未満の場合、信頼性が第２の値以上の場合に行っていた自動操作の対象の一部の対象を手動操作の対象に変更してもよい。インターフェース装置７０１には、表示装置が接続されていてもよく、信頼性判定部１０は、信頼性情報１１が表す信頼性を表示装置に表示してもよいし、或いは、算出した信頼性に応じた自動操作の内容を表示装置に表示してもよい。

割り当て決定部５は、演算要素の故障影響度の高さに基づく演算要素順に、少なくとも演算回路を含む一つ以上の使用可能な処理回路を演算要素に割り当ててよい。これにより、数に限りがある使用可能な処理回路を、演算要素の故障影響度の高さに基づき効率的に割り当てることができる。

情報処理装置１２の動作継続が決定された場合、複数の演算要素の各々について、下記が行われてよい。これにより、アクセラレータ装置６の最新の状態（いずれの処理回路に故障が発生しているか）に応じて処理回路を演算要素に割り当てることができる。
・複数の演算要素の各々について、当該演算要素に割り当てられた一つ以上の処理回路の各々による、当該演算要素の処理。
・一つ以上の診断回路が割り当てられた演算要素毎に、演算回路と一つ以上の診断回路の処理結果から、当該演算回路及び一つ以上の診断回路の少なくとも一つに故障が発生しているか否かを判断すること。

情報処理装置１２が、書き換え制御部１５を更に備えてよく、一つ又は複数のハードウェアアクセラレータの少なくとも一つは、ＦＰＧＡ１７Ｆ（回路書き換え可能なハードウェアアクセラレータ（例えばＰＧＡ（ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ））の一例）でよい。ＦＰＧＡ１７Ｆの現在の回路構成（例えば、診断回路の数）が、割り当て決定部５による割り当ての結果としての回路構成（例えば、診断回路の数）と異なっている場合、書き換え制御部１５が、当該回路構成の差分についての回路書き換え（処理回路それ自体の書き換えと処理回路間の配線の書き換えとの少なくとも一方）をＦＰＧＡ１７Ｆに指示してよい。この指示に応答して、ＦＰＧＡ１７による回路書き換えが実行される。その後に、動作継続（例えばＳ２０６以降）が可能となる。これにより、回路書き換えに要する時間を最小限にし、以って、回路書き換え完了待ちによる情報処理の遅延を低減することができる。

具体的には、例えば、下記の少なくとも一つが行われてよい。これにより、故障が発生している処理回路が演算回路であるか診断回路であるかに応じて、回路書き換えに要する時間を最適にすることが期待できる。
・書き換え制御部１５は、演算回路に故障が発生していれば、いずれかの診断回路を演算回路に書き換えることと（ＦＰＧＡ１７Ｆの現在の回路構成では演算回路が減っているが割り当ての結果としては演算回路の数が維持されているため）、処理回路間の配線を書き換えることとを、ＦＰＧＡ１７Ｆに指示する。
・書き換え制御部１５は、診断回路に故障が発生していれば、処理回路間の配線を書き換えることを、回路書き換え可能なハードウェアアクセラレータに指示し、処理回路の書き換えを、前記回路書き換え可能なハードウェアアクセラレータに指示しない。

演算対象の一例は、学習済ニューラルネットワーク１でよい。ニューラルネットワーク１は、例えば、入力層（複数の入力ノード）と、中間層（複数の中間ノード）と、出力層（複数の出力ノード）と、複数の重みパラメータ、複数のバイアスパラメータと、を含んでよい。影響度計算部２が、重みパラメータ又はバイアスパラメータに基づいて、各中間ノードから各出力ノードへの影響度を計算してよい。その計算結果を表す情報が故障影響度３でよい。

また、ニューラルネットワーク１に代えて、複数のノードを有するグラフ構造の他種の機械学習モデル（例えば、決定木）が採用されてもよい。また、演算要素毎の故障影響度を表す故障影響度３は、影響度計算部２により生成されることに代えて、外部から入力された情報でもよい。

１…学習済ニューラルネットワーク、２…影響度計算部、３…故障影響度、４…優先度決定部、５…割り当て決定部、６…アクセラレータ装置、７…診断情報収集部、８…ハードウェアリソース情報、９…使用可能リソース特定部、１０…信頼性判定部、１１…信頼性情報、１２…情報処理装置、１７…ハードウェアアクセラレータ

Claims

入力された情報の演算に使用されて情報が出力される演算対象を用いた演算をアクセラレータ装置により行う情報処理装置において、
割り当て決定部と、
信頼性判定部と
を備え、
前記アクセラレータ装置は、複数の処理回路を有する一つ又は複数のハードウェアアクセラレータを有し、
前記演算対象が使用される情報が入力される都度に、
前記割り当て決定部が、前記演算対象における複数の演算要素の各々について、当該演算要素の演算結果の正確性が前記演算対象の出力情報の正確性に影響する度合である故障影響度を基に、当該演算要素に、前記複数の処理回路から、演算のための使用可能な処理回路である演算回路の他に、演算の正確性診断のための使用可能な処理回路である一つ以上の診断回路を割り当てるかを決定し、
前記信頼性判定部が、前記演算対象における演算要素の数と、少なくとも一つの診断回路が割り当てられた演算要素の数と、演算要素の故障影響度とに基づき、前記情報処理装置の動作を継続するか否かの判断に用いられる前記情報処理装置の信頼性を算出する、
情報処理装置。
前記割り当て決定部は、演算要素の故障影響度の高さに基づく演算要素順に、少なくとも演算回路を含む一つ以上の使用可能な処理回路を演算要素に割り当てる、
請求項１に記載の情報処理装置。
前記情報処理装置の動作継続が決定された場合、
前記複数の演算要素の各々について、当該演算要素に割り当てられた一つ以上の処理回路の各々による、当該演算要素の処理と、
一つ以上の診断回路が割り当てられた演算要素毎に、演算回路と一つ以上の診断回路の処理結果から、当該演算回路及び一つ以上の診断回路の少なくとも一つに故障が発生しているか否かを判断することと
が行われ、
使用可能な処理回路とは、故障が発生したと判断されていない処理回路である、
請求項１に記載の情報処理装置。
書き換え制御部を更に備え、
前記一つ又は複数のハードウェアアクセラレータの少なくとも一つは、回路書き換え可能なハードウェアアクセラレータであり、
前記回路書き換え可能なハードウェアアクセラレータの現在の回路構成が、前記割り当て決定部による割り当ての結果としての回路構成と異なっている場合、前記書き換え制御部が、当該回路構成の差分についての回路書き換えを前記回路書き換え可能なハードウェアアクセラレータに指示する、
請求項１に記載の情報処理装置。
前記回路書き換え可能なハードウェアアクセラレータの現在の回路構成が、前記割り当て決定部による割り当ての結果としての回路構成と異なっている場合、前記書き換え制御部は、
演算回路に故障が発生していれば、いずれかの診断回路を演算回路に書き換えることと、処理回路間の配線を書き換えることとを、前記回路書き換え可能なハードウェアアクセラレータに指示し、
診断回路に故障が発生していれば、処理回路間の配線を書き換えることを、前記回路書き換え可能なハードウェアアクセラレータに指示し、処理回路の書き換えを、前記回路書き換え可能なハードウェアアクセラレータに指示しない、
請求項４に記載の情報処理装置。
前記演算対象は、複数のノードを有するグラフ構造の機械学習モデルであり、
前記複数の演算要素は、前記複数のノードである、
請求項１に記載の情報処理装置。
前記グラフ構造の機械学習モデルは、ニューラルネットワークである、
請求項６に記載の情報処理装置。
入力された情報の演算に使用されて情報が出力される演算対象を用いた演算をアクセラレータ装置により行う情報処理方法において、
演算対象が使用される情報が入力される都度に、
（Ａ）コンピュータが、前記演算対象における複数の演算要素の各々について、当該演算要素の演算結果の正確性が前記演算対象の出力情報の正確性に影響する度合である故障影響度を基に、当該演算要素に、前記アクセラレータ装置が有する一つ又は複数のハードウェアアクセラレータの複数の処理回路から、演算のための使用可能な処理回路である演算回路の他に、演算の正確性診断のための使用可能な処理回路である一つ以上の診断回路を割り当てるかを決定し、
（Ｂ）コンピュータが、前記演算対象における演算要素の数と、少なくとも一つの診断回路が割り当てられた演算要素の数と、演算要素の故障影響度とに基づき、情報処理を継続するか否かの判断に用いられる情報処理の信頼性を算出する、
情報処理方法。
（Ａ）では、コンピュータが、演算要素の故障影響度の高さに基づく演算要素順に、少なくとも演算回路を含む一つ以上の使用可能な処理回路を演算要素に割り当てる、
請求項８に記載の情報処理方法。
（Ｂ）で算出された信頼性が一定値以上の場合、
前記複数の演算要素の各々について、当該演算要素に割り当てられた一つ以上の処理回路の各々による、当該演算要素の処理が行われ、
コンピュータが、一つ以上の診断回路が割り当てられた演算要素毎に、演算回路と一つ以上の診断回路の処理結果から、当該演算回路及び一つ以上の診断回路の少なくとも一つに故障が発生しているか否かを判断し、
使用可能な処理回路とは、故障が発生したと判断されていない処理回路である、
請求項８に記載の情報処理方法。
前記一つ又は複数のハードウェアアクセラレータの少なくとも一つは、回路書き換え可能なハードウェアアクセラレータであり、
前記回路書き換え可能なハードウェアアクセラレータの現在の回路構成が、（Ａ）の割り当ての結果としての回路構成と異なっている場合、コンピュータが、当該回路構成の差分についての回路書き換えを前記回路書き換え可能なハードウェアアクセラレータに指示する、
請求項８に記載の情報処理方法。
前記演算対象は、複数のノードを有するグラフ構造の機械学習モデルであり、
前記複数の演算要素は、前記複数のノードである、
請求項８に記載の情報処理方法。