JP7408533B2

JP7408533B2 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP7408533B2
Application number: JP2020204346A
Authority: JP
Inventors: 亮太田村; 瑞城小野; 雅則古田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2024-01-05
Anticipated expiration: 2040-12-09
Also published as: US20220179688A1; JP2022091486A; US11941439B2

Description

本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。

複数のＤＮＮ（Deep Neural Network）アクセラレータをインタフェース回路で接続してＤＮＮの推論を行うニューラルネットワークプロセッサシステムが提案されている。また、計算問題を分割してスケジューリングする技術として、以下のような技術が提案されている。
・Ｎ体問題を部分問題に分割して解く際にタスクを計算ユニットに分配する技術
・畳み込みニューラルネットワーク（Convolutional Neural Network：ＣＮＮ）の畳み込み（Convolution）レイヤを含む複数のレイヤを１つにまとめ、まとめたレイヤを行方向（高さ方向）および列方向（幅方向）で分割した複数のFused Tile（ＦＴ）それぞれを、コンピュータクラスタ上で並列に計算する技術（Fused Tile Partitioning：ＦＴＰ）

特表２０２０‐５１７００６号公報特許第５５９２５２３号公報

Zhuoran Zhao, Kamyar Mirzazad Barijough, and Andreas Gerstlauer, "DeepThings: Distributed Adaptive Deep Learning Inference on Resource-Constrained IoT Edge Clusters", IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems （Volume: 37 , Issue: 11 , Nov. 2018）

しかしながら、従来技術では、分割した計算の実行を効率化できない場合があった。例えば、上記のようなニューラルネットワークプロセッサシステムは、複数のＤＮＮ専用の集積回路が相互接続された推論システムを構成する実装手段に留まり、例えば通信回数の削減および通信手段の最適化を行うことができなかった。この結果、ＤＮＮの計算を効率的に実行できなかった。上記のような計算問題を分割してスケジューリングする技術でも、通信回数の削減を行うことができず、計算を効率化できなかった。

実施形態の情報処理装置は、割当部と、実行制御部と、を備える。割当部は、ニューラルネットワークを用いて処理されるｎ次元（ｎは２以上の整数）の対象データに含まれる複数の部分データのうち、第１データと、第１データとｍ次元（ｍは１≦ｍ≦ｎを満たす整数）の方向に隣接する第２データと、を含む１以上の第１部分データをそれぞれ処理する１以上の第１タスクを、第１計算装置に割り当てる。実行制御部は、対象データに含まれる複数の部分データのうち、第２計算装置が実行中の第２部分データの実行状態に応じて、１以上の第１タスクに含まれる第２タスクの実行を、第１計算装置に対して指示する。

実施形態にかかる情報処理システムのブロック図。管理装置のブロック図。計算装置のブロック図。実施形態にかかる情報処理システムの動作の概要を示すフローチャート。ＣＮＮの分散実行動作のシーケンス図。比較例および本実施形態の転送時間の内訳の例を示す図。タスクのスケジューリングのフローチャート。部分データの一例を示す図。タスクのスケジューリングの例を示す図。タスクのスケジューリングの例を示す図。タスクのスケジューリングの例を示す図。タスクのスケジューリングの例を示す図。タスクの分散実行動作のシーケンス図。３つのタスクに関連する処理を並列化した場合の動作例を示す図。情報処理システムを監視システムとして実現する例を示す図。

以下に添付図面を参照して、この発明にかかる情報処理装置の好適な実施形態を詳細に説明する。

以下では、主にＣＮＮによる計算を複数の計算装置で分散して実行させるシステムの例を説明する。適用可能な計算は、ＣＮＮによる計算に限られず、例えば、ＣＮＮ以外のニューラルネットワークによる計算であってもよい。また、以下では、カメラなどの撮影装置で撮影された画像を対象としてＣＮＮによる処理を行う例を説明する。処理対象となるデータは画像に限られず、どのようなデータであってもよい。

実施形態にかかる情報処理システムは、ＣＮＮによる計算の実行状態を管理する管理装置（情報処理装置の一例）と、ＣＮＮの計算を分散して行う複数の計算装置と、を含む。管理装置は、使用するデータまたは途中計算を共有可能なタスクの一部を計算装置ごとにまとめて割り当て、割り当てたタスクの中から実際に実行するタスクを指示するように、分散処理するＣＮＮのタスクをスケジューリングする。これにより、各計算装置でのタスクの実行時間を短縮することができる。

また、管理装置は、ＣＮＮの分散処理において必要となるデータ（入出力特徴マップ、途中計算の結果など）を、タスクを実行する計算装置にまとめて送信する。また、実施形態にかかる管理装置は、タスクを実行した計算装置から、他の計算装置が必要とするデータなどをまとめて受信する。これにより、計算に用いるデータの通信回数を削減することができる。

図１は、実施形態にかかる情報処理システムの構成の一例を示すブロック図である。図１に示すように、実施形態にかかる情報処理システムは、管理装置１００と、計算装置２００ａ、２００ｂと、撮影装置３００ａ、３００ｂと、ネットワーク４００と、を備えている。

撮影装置３００ａ、３００ｂは、それぞれ計算装置２００ａ、２００ｂと接続される。撮影装置３００ａ、３００ｂは、画像を撮影し、接続される計算装置２００ａ、２００ｂに撮影した画像を送信する。

計算装置２００ａ、２００ｂは、管理装置１００からの指示に応じて、ＣＮＮの計算を分散して実行する。計算装置２００ａ、２００ｂは、同様の構成を備えるため、区別する必要がない場合は単に計算装置２００という場合がある。同様に、撮影装置３００ａ、３００ｂは、同様の構成を備えるため、区別する必要がない場合は単に撮影装置３００という場合がある。

図１では、２個の計算装置２００および２個の撮影装置３００が記載されているが、計算装置２００および撮影装置３００はそれぞれ３個以上であってもよい。

ネットワーク４００は、管理装置１００と、計算装置２００と、を接続する。ネットワーク４００は、どのような構成のネットワークであってもよいが、例えばインターネットまたはローカルエリアネットワーク（ＬＡＮ）である。ネットワーク４００は、無線ネットワーク、有線ネットワーク、および、無線および有線が混在するネットワークのいずれであってもよい。

管理装置１００は、情報処理システム内のいずれの計算装置２００とも通信が行えるように接続される。複数の計算装置２００の間で管理装置１００を介さずに通信を行える必要はない。

管理装置１００は、主なハードウェア構成として、記憶装置２１と、ＣＰＵ（Central Processing Unit）１１と、通信インタフェース（Ｉ／Ｆ）１２と、を備えている。

記憶装置２１は、管理装置１００による各種処理で用いられる各種情報を記憶する。例えば記憶装置２１は、ＣＮＮモデルの各レイヤのパラメータ（重み情報など）および接続関係などを含むモデル構造を記憶する。

モデル構造は、さらに、少なくとも一部のレイヤの分散実行に必要な情報を含む。分散実行に必要な情報は、ＣＮＮのレイヤの種別、および、レイヤの分割方法などを含む。レイヤの種別は、ＲｅＬＵ（Rectified Linear Unit）、および、畳み込み（Convolution）などの、レイヤで実行される処理を表す。レイヤの分割方法は、例えば、レイヤの処理を何個のタスクに分割するか、および、分割した複数のタスク間の計算の重複状態などを含む。

例えばＦＴＰでは、上記のように、複数のレイヤが結合されたレイヤが、行方向および列方向で複数のＦＴに分割される。またＦＴＰでは、後段のレイヤの処理のため、前段のレイヤの複数のＦＴが重複するように分割される場合がある。このように、レイヤの分割方法は、分割の方向に関する情報、分割するＦＴの個数、および、ＦＴの重複状態（タスク間の計算の重複状態）を含みうる。

なお、分割方法は、ＦＴＰと同様の方法に限られず、どのような方法であってもよい。例えば、複数のレイヤが結合されたレイヤではない通常のレイヤを、ｍ次元の方向（例えば行方向）およびｍ次元と異なる次元の方向（例えば列方向）で複数のタイルに分割する方法を用いてもよい。

ＣＰＵ１１は、タスクのスケジューリングを含めた汎用の演算を実行可能なプロセッサである。通信Ｉ／Ｆ１２は、計算装置２００などの他の装置とネットワーク４００を介した通信を行う。

計算装置２００は、主なハードウェア構成として、記憶装置４１と、プロセッサ３１と、通信Ｉ／Ｆ３２と、を備えている。

記憶装置４１は、計算装置２００による各種処理で用いられる各種情報を記憶する。例えば記憶装置４１は、計算装置２００で分散処理する各レイヤのパラメータ（重み情報など）を含む分割モデル構造を記憶する。各計算装置２００は、上記の分割方法に従って分割されるレイヤのタスクのうちいずれかを分散処理することが予め定められる。分割モデル構造は、管理装置１００が記憶するモデル構造のうち、自装置で分散処理するタスクに対応する部分のモデルの構造を示す。

プロセッサ３１は、例えば、ＣＮＮモデルを高速に実行可能なＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）、および、ＡＳＩＣ（Application Specific Integrated Circuit）などにより実現される。

通信Ｉ／Ｆ１２は、管理装置１００などの他の装置とネットワーク４００を介した通信を行う。

なお、記憶装置２１、４１は、フラッシュメモリ、メモリカード、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。

図２は、管理装置１００の機能構成の一例を示すブロック図である。図２に示すように、管理装置１００は、記憶部１２０と、割当部１０１と、実行制御部１０２と、通信制御部１１０と、を備えている。

記憶部１２０は、例えば図１の記憶装置２１に相当する。記憶部１２０は、上記のようなモデル構造１２１の他にタスク実行状態１２２を記憶するとともに、割り当てキュー１２３として機能する。

タスク実行状態１２２は、タスクごとの実行状態を含む。例えばタスク実行状態１２２は、タスクを識別する情報と、実行状態とを対応づけた情報である。実行状態は、例えば、未割り当て、割り当て済み（未実行）、実行中、および、実行済み、のうちいずれかを示す。

割り当てキュー１２３は、計算装置２００に割り当てたタスクの情報を記憶する。例えば割り当てキュー１２３は、計算装置２００ごとに定められ、該当する計算装置２００に割り当てたタスクの情報を記憶する。共通の割り当てキュー１２３が、計算装置２００の識別情報と、割り当てたタスクの情報と、を対応づけて記憶してもよい。タスクの情報は、例えば、どのＣＮＮのどのレイヤの何行何列目であるかなどの、タスクを特定可能な情報である。

割当部１０１は、ＣＮＮによる処理を、各計算装置２００に割り当てる。例えば割当部１０１は、記憶部１２０に記憶されたモデル構造１２１（レイヤの分割方法）を参照し、ＣＮＮによる処理を複数のタスクに分割する。そして割当部１０１は、分割したタスクを、計算装置２００のいずれかにそれぞれ割り当てる。

本実施形態では、割当部１０１は、ＣＮＮを用いて処理されるｎ次元（ｎは２以上の整数）の対象データに含まれる複数の部分データのうち１以上の部分データＤＡ（第１部分データ）をそれぞれ処理する１以上のタスクＴＡ（第１タスク）を各計算装置２００に割り当てる。部分データＤＡは、相互に隣接するデータＤＡＡ（第１データ）およびデータＤＡＢ（第２データ）を含む。すなわち、データＤＡＢは、データＤＡＡとｍ次元（ｍは１≦ｍ≦ｎを満たす整数）の方向に隣接するデータである。

対象データは、例えば、ＣＮＮの畳み込みレイヤの入力または出力となる特徴マップである。例えば、２次元の画像データ（行方向および列方向の画素ごとにＲＧＢの各チャネルの画素値を含むデータなど）、および、２次元の画像データを前段の畳み込みレイヤで演算した結果であるデータが、特徴マップになりうる。この場合、ｍ次元の方向は、行方向および列方向のいずれであってもよい。

また、タスクの実行を要求した計算装置２００、すなわち、タスクを実行できる計算装置２００（例えば計算装置２００ｂ）が存在するが、未割り当てのタスクが存在しない場合、割当部１０１は、他の計算装置２００（例えば計算装置２００ａ）に割り当てたタスクの一部の割り当てを、タスクを実行できる計算装置２００に移動する。例えば、割当部１０１は、タスクに割り当てられていないデータが対象データに含まれない場合に、他の計算装置２００（例えば計算装置２００ａ）に割り当てた部分データの一部を、タスクの実行を要求した計算装置２００（例えば計算装置２００ｂ）に割り当てる。割当部１０１によるタスクの割り当て方法の詳細は後述する。

実行制御部１０２は、割り当てたタスクの実行を制御する。例えば実行制御部１０２は、他の計算装置２００（第２計算装置、例えば計算装置２００ｂ）が実行中の部分データ（第２部分データ）の実行状態に応じて、ある計算装置２００（例えば計算装置２００ａ）に割り当てられた１以上のタスクＴＡのいずれかであるタスクＴＡ’（第２タスク）の実行を、この計算装置２００（例えば計算装置２００ａ）に対して指示する。

実行制御部１０２は、例えば、他の計算装置２００によるデータの処理結果のうち、タスクＴＡ’の処理に使用するデータを示す補助データ（第１補助データ）と、タスクＴＡ’で処理する部分データと、を含む実行指示を、通信制御部１１０（後述する送信部１１２）を用いて送信することにより、タスクＴＡ’の実行を指示する。このように、本実施形態では、ＣＮＮの分散処理において必要となるデータ（タスクＴＡ’で処理する部分データ、他の計算装置２００の処理結果）を、タスクを実行する計算装置２００に対する要求としてまとめて送信することができる。

通信制御部１１０は、計算装置２００などの他の装置との間の通信を制御する。通信制御部１１０は、受信部１１１と、送信部１１２と、を備えている。

受信部１１１は、他の装置から情報を受信する。例えば受信部１１１は、上記のような実行指示を送信した計算装置２００から、実行指示に対する応答を受信する。応答は、例えば、タスクＴＡ’の処理結果と、タスクＴＡ’の実行時（計算過程）に得られるデータであって他の計算装置２００による処理にも使用するデータを示す補助データ（第２補助データ）と、を含む。このように、本実施形態では、１つの実行指示に対する応答として、その後の処理で必要となるデータをまとめた応答を受信することができる。

タスクＴＡ’が、レイヤＬＡ、レイヤＬＢ、および、レイヤＬＣの３つのレイヤが結合されたレイヤを分割したＦＴを処理するタスクであるとする。この場合、例えばレイヤＬＣの出力が、タスクＴＡ’の処理結果に相当する。また、例えば、レイヤＬＡおよびレイヤＬＢの少なくとも一方の出力のうち、タスクＴＡ’に隣接する他のタスク（ＦＴ）が使用する部分（ＦＴの端部での出力など）が、タスクＴＡ’の計算過程に得られる、他の計算装置２００による処理にも使用する補助データに相当する。

なお、補助データは上記に限られず、例えば、周囲のタスクが未実行か否かを示す情報などの他の情報をさらに含んでもよい。周囲のタスクとは、例えば、隣接する部分データを処理するタスクである。

送信部１１２は、他の装置に対して情報を送信する。例えば送信部１１２は、実行制御部１０２の指示に応じて、タスクの実行指示を計算装置２００に送信する。

上記各部（割当部１０１、実行制御部１０２、および、通信制御部１１０）は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ１１などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（Integrated Circuit）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

次に、計算装置２００の機能構成について説明する。図３は、計算装置２００の機能構成の一例を示すブロック図である。図３に示すように、計算装置２００、記憶部２２０と、タスク実行部２０１と、通信制御部２１０と、を備えている。

記憶部２２０は、例えば図１の記憶装置４１に相当する。記憶部２２０は、上記のような分割モデル構造２２１を記憶する。

タスク実行部２０１は、管理装置１００からの実行指示に従ってタスクを実行する。

通信制御部２１０は、管理装置１００などの他の装置との間の通信を制御する。通信制御部２１０は、受信部２１１と、送信部２１２と、を備えている。

受信部２１１は、他の装置から情報を受信する。例えば受信部２１１は、管理装置１００から実行指示を受信する。送信部２１２は、他の装置に対して情報を送信する。例えば送信部２１２は、実行指示に対する応答を管理装置１００に送信する。

上記各部（タスク実行部２０１、および、通信制御部２１０）は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵなどのプロセッサ（プロセッサ３１など）にプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣなどのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

次に図４を用いて、本実施形態にかかる情報処理システムの動作について説明する。図４は、本実施形態にかかる情報処理システムの動作の概要を示すフローチャートである。

まず撮影装置３００ａは、画像を撮影し、接続されている計算装置２００に対して、撮影した画像を送信する（ステップＳ１０１）。

次に、計算装置２００は、管理装置１００に対してＣＮＮの実行開始を通知し、他の計算装置２００と協調してＣＮＮを分散処理する（ステップＳ１０２）。

最後に、管理装置１００は、分散処理を行った各計算装置２００から処理結果（例えば出力特徴マップ）を受信し、受信した処理結果を集計（統合）する（ステップＳ１０３）。これにより、ＣＮＮ全体の処理結果を得ることができる。

次に、本実施形態にかかる情報処理システムによるＣＮＮの分散実行動作について説明する。図５は、本実施形態にかかる情報処理システムのＣＮＮの分散実行動作の一例を示すシーケンス図である。なお、図５では、計算装置２００ａに接続される撮影装置３００ａにより撮影された画像に対するＣＮＮの処理を実行する場合を例に説明する。

撮影装置３００ａは、画像を撮影する（ステップＳ２０１）。撮影装置３００ａは、撮影した画像を計算装置２００ａに送信する（ステップＳ２０２）。計算装置２００ａは、ＣＮＮにより処理する画像が得られたことを管理装置１００に通知するとともに、受け取った画像を送信する（ステップＳ２０３）。

管理装置１００は、計算装置２００ａから受け取った画像に対するタスクを登録する（ステップＳ２０４）。例えば管理装置１００の割当部１０１は、記憶部１２０からモデル構造１２１を読み出す。割当部１０１は、モデル構造１２１を参照して、ＣＮＮを構成する複数のレイヤの処理順序に従い、処理が可能な１つ以上のレイヤ（ＦＴＰなどの場合、複数のレイヤをまとめたレイヤ）を決定する。

なお、例えば以下のような場合は、複数のレイヤを並列に処理することが可能であり、割当部１０１は、複数のレイヤを処理が可能なレイヤとして決定することができる。
・複数の計算装置２００からの画像を同時に処理中である。
・ＣＮＮが枝分かれする構造を有する。

割当部１０１は、読み出した情報（レイヤの分散実行に必要な情報）を参照して、決定したレイヤの処理を複数のタスクに分割する。なお、ＣＮＮは、分散処理しないレイヤ（全結合レイヤなど）を含んでもよく、この場合は、割当部１０１は、レイヤの処理を複数のタスクに分割しない。割当部１０１は、決定したレイヤの処理を、実行が必要なタスク（実行状態＝未割り当て）として記憶部１２０（タスク実行状態１２２）に登録する。

以下、登録したタスクの実行が完了するまで、ステップＳ２０５～ステップＳ２１０の処理が繰り返される。

まず割当部１０１は、記憶部１２０からタスク実行状態１２２を読み出し、読み出したタスク実行状態１２２を参照して、タスクの実行順序のスケジューリングを行う（ステップＳ２０５）。スケジューリングでは、例えば、実行状態が未割り当てのタスクをいずれの計算装置２００に割り当てるか、および、タスクの実行順序が決定される。スケジューリングの詳細は後述する。

次に実行制御部１０２は、割り当てたタスクの実行を計算装置２００ａに指示する（ステップＳ２０６）。なお、計算装置２００ｂにタスクを割り当て、計算装置２００ｂにタスクの実行を指示する場合もあるが、この場合については後述する。

計算装置２００ａに割り当てられたタスクをタスクＴＡ、タスクＴＡのうち実行指示を送信するタスクをタスクＴＡ’とする。実行指示は、例えば以下の情報を含む。
・タスクＴＡ’の計算の種別
・タスクＴＡ’で処理する部分データ（入力特徴マップのうち、タスクＴＡ’で必要となるデータなど）
・補助データ（タスクＴＡ’以外のタスクでの途中計算のうちタスクＴＡ’の処理に必要な部分、周囲のタスクが未実行か否かを示す情報など）

実行制御部１０２は、既に計算装置２００ａ上に存在するデータについては冗長に送信しないように構成してもよい。既に存在するか否かは、例えば、タスクＴＡ’で処理する部分データ、および、補助データの少なくとも一方を計算したタスクを実行した計算装置２００が、タスクＴＡ’の実行指示を送信する予定である計算装置２００ａであったかにより判定可能である。

実行指示を受信した計算装置２００ａは、必要に応じて分割モデル構造２２１からレイヤのパラメータ（重み情報など）を読み出し、指示されたタスクＴＡ’を実行する（ステップＳ２０７）。

タスクＴＡ’を実行後、計算装置２００ａは、実行指示に対する応答を管理装置１００に送信する（ステップＳ２０８）。応答は、例えば以下の情報を含む。
・タスクＴＡ’の実行が終了したことを示す情報
・タスクＴＡ’の処理結果（出力特徴マップなど）
・補助データ（実行指示に含まれる補助データである周辺タスクの実行状態から判定した、他の計算装置２００で再利用される可能性がある途中計算の結果など）

応答を受信した管理装置１００は、記憶部１２０に記憶されたタスク実行状態１２２を更新する（ステップＳ２０９）。例えば管理装置１００は、タスクＴＡ’の実行が終了したことを登録する。

管理装置１００は、レイヤに対するタスクが終了したか否かを判定する（ステップＳ２１０）。例えばレイヤの処理が複数のタスクに分割された場合、割当部１０１は、複数のタスクがすべて終了したかを判定する。

終了していない場合（ステップＳ２１０：Ｎｏ）、タスクのスケジューリング（ステップＳ２０５）に戻り、処理が繰り返される。終了した場合（ステップＳ２１０：Ｙｅｓ）、管理装置１００は、ＣＮＮのすべてのレイヤの処理が終了したか否かを判定する（ステップＳ２１１）。

終了していない場合（ステップＳ２１１：Ｎｏ）、ステップＳ２０４に戻り、次のレイヤについてのタスクの登録から処理が繰り返される。終了した場合（ステップＳ２１１：Ｙｅｓ）、管理装置１００は、ＣＮＮによる処理結果を出力し（ステップＳ２１２）、分散実行動作を終了する。

上記のように、ステップＳ２０６～ステップＳ２０８は、管理装置１００から計算装置２００ａに対する１回の通信（実行指示の送信）、および、計算装置２００ａから管理装置１００に対する１回の通信（応答の送信）の合計２回の通信で実現できる。従って、例えば、タスクの実行指示・応答の送受信と、タスクの実行に必要なデータの送受信とを分けて実行するような構成（以下、比較例という）より、通信回数を削減することができる。

比較例は、例えば、以下のような構成である。
・計算に用いるデータ（特徴マップなど）は、各計算装置に分散して記憶する。
・タスクの実行指示、タスクの終了の通知（応答）は、計算装置と管理装置との間で通信する（通信回数＝２回）。
・実行が指示されたタスクに必要なデータは、計算装置間で送受信する（通信回数＝２回）。

装置間の通信では、データ本体の転送時間の他に、通信の初期化のためのコストなどに基づく遅延時間が生じうる。遅延時間は、通信ごとに発生するため、通信回数を削減すれば、遅延時間を抑制することが可能となる。

本実施形態は、管理装置を介して計算装置間で計算に用いるデータを送受信するため、データ本体の転送時間は比較例より増加しうる。一方、上記のように通信回数を削減できるため、遅延時間を減少させることができる。図６は、比較例および本実施形態の転送時間の内訳の例を示す図である。例えばデータ本体の転送時間の増加より、遅延時間の減少の影響が大きいような状況であれば、図６に示すように、本実施形態により通信の効率化が可能になる。この結果、分割した計算の実行を効率化することができる。

次に、図５のステップＳ２０５のスケジューリングの詳細を説明する。図７は、タスクのスケジューリングの一例を示すフローチャートである。

割当部１０１は、タスクの割り当て対象とする計算装置２００に既にタスクが割り当てられているか否かを判定する（ステップＳ３０１）。例えば割当部１０１は、対象とする計算装置２００に対応する割り当てキュー１２３に、割り当てられたタスクの情報が記憶されているか否かを判定する。

割り当てられたタスクが存在しない場合（ステップＳ３０１：Ｎｏ）、割当部１０１は、記憶部１２０のタスク実行状態１２２から、すべてのタスクの実行状態を読み出す（ステップＳ３０２）。

割当部１０１は、複数のレイヤが同時に登録されている場合、複数のレイヤのうち、いずれのレイヤのタスクを実行するかを決定する（ステップＳ３０３）。

次に、割当部１０１は、割り当て対象とするレイヤに、実行状態が未割り当てであるタスクが存在するか否かを判定する（ステップＳ３０４）。未割り当てのタスクが存在する場合（ステップＳ３０４：Ｙｅｓ）、割当部１０１は、未割り当てのタスクのうち、２列分のタスクを計算装置２００に割り当てる（ステップＳ３０６）。すなわち割当部１０１は、２列分のタスクを、割り当て対象とする計算装置２００に対応する割り当てキュー１２３に登録する。２列分のタスクは、相互に隣接するデータＤＡＡおよびデータＤＡＢを含む上記の部分データＤＡを処理するタスクＴＡに相当する。なお、未割り当てのタスクが２列分残っていない場合は、割当部１０１は、１列分のタスクを割り当てキュー１２３に登録する。

図８は、部分データＤＡの一例を示す図である。図８に示すように、部分データＤＡは、１６個（２列×８行）の小領域を含む。１つの小領域が、１つのタスクで処理される。なお、図８の例では、列の方向が、ｍ次元の方向に相当し、行の方向が、ｍ次元に直交する次元の方向に相当する。

部分データＤＡを２×２の４個の小領域を含むブロックで分けた場合、割当部１０１は、ブロックに含まれる４個の小領域に対応するタスクを、予め定められた順序で実行するように、タスクの実行順序を決定する。予め定められた順序は、例えば、左上の小領域、右下の小領域、右上の小領域、右下の小領域の順序である。また、図８に示すように、ブロック間では、行方向で上のブロックから下のブロックに向かう順序で、対応する位置の小領域の実行順序が決定される。この結果、図８の数字で示す順序で、部分データＤＡに含まれる各小領域を処理するタスクの実行順序が決定される。

図７に戻り、ステップＳ３０４で未割り当てのタスクが存在しない場合（ステップＳ３０４：Ｎｏ）、割当部１０１は、実行状態が未実行であるタスクが最も多い計算装置２００のタスクの一部を、割り当て対象とする計算装置２００に割り当てる（ステップＳ３０５）。

例えば割当部１０１は、割り当て対象とするレイヤのタスクを実行している計算装置２００のうち、実行状態が未実行であるタスクが最も多い計算装置２００を検索する。次に割当部１０１は、検索された計算装置２００に割り当てられ、実行状態が未実行であるタスクの半分に相当するタスクを、新たにタスクの割り当て対象とする計算装置２００に割り当てる。この際、割当部１０１は、割り当て先を移動するタスクを、実行順序が先頭から１つおきとなるように選択する。半分に相当するタスクとは、例えば未実行であるタスクの個数Ｃが偶数の場合は、Ｃ／２個のタスクであり、個数Ｃが奇数の場合は、（Ｃ＋１）／２または（Ｃ－１）／２個のタスクである。

ステップＳ３０１で割り当てられたタスクが存在すると判定された場合（ステップＳ３０１：Ｙｅｓ）、ステップＳ３０５の実行後、および、ステップＳ３０６の実行後、割当部１０１は、割り当てキュー１２３に登録されているタスクのうち、隣接するタスクが他の計算装置２００で実行中でなく、かつ、実行順序が最も早いタスクを実行するように、タスクの実行をスケジューリングする（ステップＳ３０７）。

なお、割り当てキュー１２３に登録されているすべてのタスクの隣接するタスクが他の計算装置２００で実行中である場合は、割当部１０１は、実行中である隣接するタスクの数が最も少ないタスクで、かつ、実行順序が最も早いタスクの実行をスケジューリングする。

次に、図９～図１２を用いて、タスクのスケジューリングの例について説明する。各図は、レイヤ（３つの３×３サイズの畳み込みレイヤをＦＴＰにより結合したレイヤ）を行方向および列方向にそれぞれ８個に分割した合計６４個のＦＴ（８×８のＦＴ）に対してスケジューリングを行った結果を示す。数値は、ＦＴを処理するタスクを割り当てた計算装置を識別する値を示す。

図９および図１１は、非特許文献１（以下、Ｚｈａｏという）で開示されている手法に従いスケジューリングした結果の例を示す。図９は、４個の計算装置に対するスケジューリングの結果であり、図１１は、５個の計算装置に対するスケジューリングの結果である。

また、図１０および図１２は、本実施形態の手法に従いスケジューリングした結果の例を示す。図１０は、４個の計算装置に対するスケジューリングの結果であり、図１２は、５個の計算装置に対するスケジューリングの結果である。

図９および図１１に示すように、Ｚｈａｏの手法では、隣接するＦＴがそれぞれ別の計算装置で実行されるようにスケジューリングされる箇所が多い。これに対して本実施形態の手法では、相互に隣接するデータ（ＦＴ）を含む部分データを処理するタスクが各計算装置に割り当てられるため、上記のような箇所が少なくなる。隣接するＦＴを同じ計算装置で実行すれば、途中計算を計算装置間で通信する必要がなくなるため、分割したタスクの実行を効率化することができる。

次に、図１３を用いて、ＣＮＮによる処理を指示した計算装置以外の計算装置によるタスクの分散実行動作について説明する。図１３は、図５に示すように計算装置２００ａがＣＮＮの処理を指示した場合の、計算装置２００ｂによるタスクの分散実行動作の例を含む。

ステップＳ４０１～ステップＳ４０４は、未実行のタスクが存在しない場合の動作例である。ステップＳ４０５以降は、未実行のタスクが存在する場合の動作例である。

計算装置２００ｂは、例えば、実行が指示されたタスクが完了したことなどにより、新たなタスクを実行可能な状態となった場合に、管理装置１００に対して未実行のタスクが存在するか否かを確認する（ステップＳ４０１）。管理装置１００の割当部１０１は、ステップＳ２０５（図７）と同様の手順で、タスクの実行順序のスケジューリングを行う（ステップＳ４０２）。スケジューリングの結果、割り当てられるタスクが存在しない場合には、管理装置１００（送信部１１２）は、タスクが存在しないことを計算装置２００ｂに通知する（ステップＳ４０３）。通知を受信した計算装置２００ｂは、一定時間待機する（ステップＳ４０４）。

一定時間の待機後、計算装置２００ｂは、再度、管理装置１００に対して未実行のタスクが存在するか否かを確認する（ステップＳ４０５）。管理装置１００の割当部１０１は、ステップＳ２０５（図７）と同様の手順で、タスクの実行順序のスケジューリングを行う（ステップＳ４０６）。スケジューリングの結果、未実行のタスクを計算装置２００ｂに割り当てた場合は、実行順序に従い、割り当てたタスクの１つの実行指示を計算装置２００ｂに送信する（ステップＳ４０７）。

ステップＳ４０８～ステップＳ４１１は、図５のステップＳ２０７～ステップＳ２１０と同様である。なお、図１３では、図５のステップＳ２１１、ステップＳ２１２などの記載を省略しているが、ＣＮＮの処理が終了するまで図５と同様の処理が実行される。

なお、本実施形態は、以下に示す変形例のいずれか、または、複数によって一部の動作を置き換えても実施できる。

（変形例１）
ニューラルネットワークの分散処理するレイヤのタスクは、ＦＴＰの手法により得られるＦＴを処理するタスク、すなわち、畳み込みレイヤを少なくとも含む複数のレイヤを結合したレイヤを行方向および列方向で分割した複数のＦＴをそれぞれ処理する複数のタスクであってもよい。

（変形例２）
実行制御部１０２は、１つの割り当てられたタスクではなく複数の割り当てられたタスクを連続して実行するように実行指示を送信してもよい。例えば実行制御部１０２は、複数のタスクで用いる部分データ（入力特徴マップ）および補助データなどを含む実行指示を、複数のタスクを割り当てた計算装置２００に送信する。管理装置１００（受信部１１１）は、計算装置２００から、複数のタスクによる１つの処理結果（出力特徴マップ（および補助データを含む応答を受信する。複数のタスクは、相互に隣接する複数のタスクであってもよい。この場合、隣接するタスクで使用するデータを示す補助データの送信が不要となるため、通信量の削減が可能となる。

（変形例３）
計算装置２００は、ステップＳ２０８のようにタスクの実行終了後に管理装置１００に応答を送信し、その後に新たなタスクを受け取るのではなく、あるタスクの実行中に新たなタスクの実行指示を受けてもよい。これにより、複数のタスクに関連する処理の一部を並列に実行させ、ＣＮＮの計算をより効率化できる。並列化できる処理は、例えば以下の処理である。
・あるタスクの計算と、次のタスクの実行指示の受信
・あるタスクの処理結果を含む応答の送信と、次のタスクの計算

図１４は、３つのタスクＴ０１、Ｔ０２、Ｔ０３に関連する処理を並列化した場合の動作例を示す図である。白の矩形は、実行指示の受信を表す。黒の矩形は、タスクの計算を表す。灰色の矩形は、タスクの処理結果を含む応答の送信を表す。

（変形例４）
ＣＮＮの処理の対象となる画像の入力方法は、撮影装置３００により撮影された画像を計算装置２００を介して管理装置１００に送信する方法に限られず、どのような方法で管理装置１００に入力されてもよい。例えば、記憶媒体に記憶された画像を管理装置１００が読み出して入力する方法、および、ネットワーク４００に接続された装置から画像を受信して入力する方法が用いられてもよい。

（適用システム例）
本実施形態の情報処理システムは、例えば、建物の監視システムに適用することができる。図１５は、本実施形態の情報処理システムを監視システムとして実現する例を示す図である。監視システムでは、監視カメラなどの撮影装置３００ａで人物６００の画像が撮影されたときに、撮影された画像に対するＣＮＮによる画像認識処理が、計算装置２００ａおよび２００ｂに効率よく分散して実行される。計算終了後、管理装置１００は、クラウドサーバ５００と連携して、警備センタへの連絡、および、労働者の勤怠管理などを実行する。

以上説明したとおり、本実施形態によれば、ニューラルネットワークによる処理を分散して実行する際の通信を最適化し、分割した計算の実行を効率化することが可能となる。

実施形態にかかる情報処理装置で実行されるプログラムは、ＲＯＭ等に予め組み込まれて提供される。

実施形態にかかる情報処理装置で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、実施形態にかかる情報処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、実施形態にかかる情報処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

実施形態にかかる情報処理装置で実行されるプログラムは、コンピュータを上述した情報処理装置の各部として機能させうる。このコンピュータは、ＣＰＵがコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００管理装置
１０１割当部
１０２実行制御部
１１０通信制御部
１１１受信部
１１２送信部
１２０記憶部
２００ａ、２００ｂ計算装置
２０１タスク実行部
２１０通信制御部
２１１受信部
２１２送信部
２２０記憶部
３００ａ、３００ｂ撮影装置
４００ネットワーク
５００クラウドサーバ

Claims

第１計算装置および第２計算装置を含む複数の計算装置に接続される情報処理装置であって、
ニューラルネットワークを用いて処理されるｎ次元（ｎは２以上の整数）の対象データに含まれる複数の部分データのうち、第１データと、前記第１データとｍ次元（ｍは１≦ｍ≦ｎを満たす整数）の方向に隣接する第２データと、を含む１以上の第１部分データをそれぞれ処理する１以上の第１タスクを、前記第１計算装置に割り当てる割当部と、
前記対象データに含まれる複数の部分データのうち、前記第２計算装置が実行中の第２部分データの実行状態に応じて、１以上の前記第１タスクに含まれる第２タスクの実行を、前記第１計算装置に対して指示する実行制御部と、
を備える情報処理装置。
前記実行制御部は、前記第２部分データの処理結果のうち前記第２タスクの処理に使用するデータを示す第１補助データと、前記第２タスクで処理する前記第１部分データと、を含む実行指示を前記第１計算装置に送信することにより、前記第２タスクの実行を指示する、
請求項１に記載の情報処理装置。
前記第２タスクの処理結果と、前記第２タスクの実行時に得られるデータであって前記第２計算装置による処理に使用するデータを示す第２補助データと、を含む、前記実行指示に対する応答を、前記第１計算装置から受信する受信部をさらに備える、
請求項２に記載の情報処理装置。
前記実行制御部は、１以上の前記第１タスクに含まれる複数の前記第２タスクの実行を指示する、
請求項１に記載の情報処理装置。
前記対象データは、ｎ次元のデータを、ｍ次元の方向およびｍ次元と異なる次元の方向で分割したタイルである、
請求項１に記載の情報処理装置。
前記ニューラルネットワークは、畳み込みニューラルネットワークであり、
前記タイルは、前記畳み込みニューラルネットワークに含まれる畳み込みレイヤを少なくとも含む複数のレイヤを統合したデータを分割したＦｕｓｅｄＴｉｌｅである、
請求項５に記載の情報処理装置。
前記割当部は、タスクに割り当てられていない部分データが前記対象データに含まれない場合に、前記第２計算装置に割り当てたタスクが処理する第３部分データの一部を処理する第３タスクを、前記第１計算装置に割り当てる、
請求項１に記載の情報処理装置。
前記第３部分データは、複数の小領域を含み、
前記割当部は、
複数の前記小領域に実行順序を割り当て、
タスクに割り当てられていない部分データが前記対象データに含まれない場合に、複数の前記小領域のうち、前記実行順序が１つおきとなるように選択した小領域を処理する前記第３タスクを、前記第１計算装置に割り当てる、
請求項７に記載の情報処理装置。
前記第３部分データは、左上の小領域と、前記左上の小領域にｍ次元の方向に隣接する右上の小領域と、前記左上の小領域にｍ次元に直交する次元の方向に隣接する左下の小領域と、前記左下の小領域にｍ次元の方向に隣接する右下の小領域と、を含むブロックを１個以上含む、
請求項８に記載の情報処理装置。
前記割当部は、タスクに割り当てられていない部分データが前記対象データに含まれない場合に、前記第２計算装置に割り当てたタスクが処理する第３部分データの半分に相当するデータを処理する第３タスクを、前記第１計算装置に割り当てる、
請求項７に記載の情報処理装置。
前記実行制御部は、１以上の前記第１部分データのうち、前記第２計算装置が実行中のタスクが処理する部分データに隣接しない前記第１部分データを処理する前記第２タスクの実行を、前記第１計算装置に対して指示する、
請求項１に記載の情報処理装置。
第１計算装置および第２計算装置を含む複数の計算装置に接続される情報処理装置で実行される情報処理方法であって、
ニューラルネットワークを用いて処理されるｎ次元（ｎは２以上の整数）の対象データに含まれる複数の部分データのうち、第１データと、前記第１データとｍ次元（ｍは１≦ｍ≦ｎを満たす整数）の方向に隣接する第２データと、を含む１以上の第１部分データをそれぞれ処理する１以上の第１タスクを、前記第１計算装置に割り当てる割当ステップと、
前記対象データに含まれる複数の部分データのうち、前記第２計算装置が実行中の第２部分データの実行状態に応じて、１以上の前記第１タスクに含まれる第２タスクの実行を、前記第１計算装置に対して指示する実行制御ステップと、
を含む情報処理方法。
第１計算装置および第２計算装置を含む複数の計算装置に接続される情報処理装置が備えるコンピュータに、
ニューラルネットワークを用いて処理されるｎ次元（ｎは２以上の整数）の対象データに含まれる複数の部分データのうち、第１データと、前記第１データとｍ次元（ｍは１≦ｍ≦ｎを満たす整数）の方向に隣接する第２データと、を含む１以上の第１部分データをそれぞれ処理する１以上の第１タスクを、前記第１計算装置に割り当てる割当ステップと、
前記対象データに含まれる複数の部分データのうち、前記第２計算装置が実行中の第２部分データの実行状態に応じて、１以上の前記第１タスクに含まれる第２タスクの実行を、前記第１計算装置に対して指示する実行制御ステップと、
を実行させるためのプログラム。