JP2023549198A

JP2023549198A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2023549198A
Application number: JP2023528196A
Authority: JP
Inventors: ダーシットバギャニー
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2023-11-22
Also published as: WO2022102100A1

Abstract

本開示の目的は、ＡＣＮＮにおける冗長な計算を削減できる情報処理装置を提供することである。情報処理装置は、入力データを用いてＡＣＮＮモデル（１０２）を訓練するように構成された人工畳み込みニューラルネットワーク（ＡＣＮＮ）訓練部（１０１）と、ラベル情報を生成するように構成されたラベル生成部（１０３）と、ラベル情報を用いてポリシーＮＮモデル（１０５）を訓練するように構成されたポリシーニューラルネットワーク（ＮＮ）訓練部（１０４）を備え、ＡＣＮＮモデルは複数の畳み込みブロックを含み、ラベル情報は、ＡＣＮＮモデル内のどの畳み込みブロックを入力データの計算に使用すべきかを示し、ポリシーＮＮモデルは、ＡＣＮＮモデル内のどの畳み込みブロックを計算に使用すべきかを決定するために使用される。
【選択図】図３

Description

本開示は、情報処理装置、情報処理方法及び非一時的なコンピュータ可読媒体に関する。

現代において、人工畳み込みニューラルネットワーク（ＡＣＮＮ）は、分類、オブジェクト検出、セマンティックセグメンテーションなどといった複数の視覚処理アプリケーションのための最先端ソリューションとなっている。

この技術の関連技術として、特許文献１には、強化学習システムが公開されている。この強化学習システムは、行動選択ポリシーニューラルネットワークを有し、強化学習手法を用いて行動選択ポリシーニューラルネットワークを訓練する。訓練により、強化学習システムは、期待される長期的な時間割引報酬（time-discounted reward）を最大化するポリシー出力を生成することができる。

国際公開第２０１８／０５３１８７号

出力を高精度にすることを達成するために、ＡＣＮＮは、畳み込みレイヤを含む多くの畳み込みブロックを備えることをしばしば要求される。そのため、ＡＣＮＮの計算量は過剰になりがちであるが、特許文献１はこの問題を開示していない。

本開示の目的は、ＡＣＮＮにおける冗長な計算を削減することができる情報処理装置、情報処理方法および非一時的なコンピュータ可読媒体を提供することである。

第１の例示的側面では、情報処理装置は、入力データを用いてＡＣＮＮモデルを訓練する人工畳み込みニューラルネットワーク（ＡＣＮＮ）訓練手段と、ラベル情報を生成するラベル生成手段と、ラベル情報を用いてポリシーＮＮモデルを訓練するポリシーニューラルネットワーク（ＮＮ）訓練手段を備え、ＡＣＮＮモデルは複数の畳み込みブロックを含み、ラベル情報は、ＡＣＮＮモデル内のどの畳み込みブロックを入力データの計算に使用すべきかを示し、ポリシーＮＮモデルは、ＡＣＮＮモデル内のどの畳み込みブロックを計算に使用すべきかを決定するために使用される。

第２の例示的側面では、情報処理方法は、入力データを用いて人工畳み込みニューラルネットワーク（ＡＣＮＮ）モデルを訓練し、ラベル情報を生成し、ラベル情報を用いてポリシーニューラルネットワーク（ＮＮ）モデルを訓練することを有し、ＡＣＮＮモデルは複数の畳み込みブロックを含み、ラベル情報は、ＡＣＮＮモデル内のどの畳み込みブロックを入力データの計算に使用すべきかを示し、ポリシーＮＮモデルは、ＡＣＮＮモデル内のどの畳み込みブロックを計算に使用すべきかを決定するために使用される。

第３の例示的側面は、入力データを用いて人工畳み込みニューラルネットワーク（ＡＣＮＮ）モデルを訓練し、ラベル情報を生成し、ラベル情報を用いてポリシーニューラルネットワーク（ＮＮ）モデルを訓練することを有し、ＡＣＮＮモデルは複数の畳み込みブロックを含み、ラベル情報は、ＡＣＮＮモデル内のどの畳み込みブロックを入力データの計算に使用すべきかを示し、ポリシーＮＮモデルは、ＡＣＮＮモデル内のどの畳み込みブロックを計算に使用すべきかを決定するために使用される、ことをコンピュータに実行させるプログラムを格納する非一時的なコンピュータ可読媒体である。

本開示によれば、ＡＣＮＮにおける冗長な計算を削減することができる情報処理装置、情報処理方法および非一時的なコンピュータ可読媒体を提供することができる。

図１は、関連技術にかかるモデル訓練システムのブロック図である。図２は、関連技術にかかるＡＣＮＮモデルを示すブロック図である。図３は、実施の形態１にかかる情報処理装置のブロック図である。図４は、実施の形態１にかかる情報処理装置の方法を示すフローチャートである。図５は、実施の形態２にかかるモデル訓練システムのブロック図である。図６は、実施の形態２にかかるＡＣＮＮモデルを示すブロック図である。図７は、実施の形態２にかかるモデル訓練システムの方法を示すフローチャートである。図８は、実施の形態２にかかるサンプル例示画像１についての畳み込みブロックの出力を示す表である。図９は、実施の形態２にかかるサンプル例示画像２についての畳み込みブロックの出力を示す表である。図１０は、実施の形態２にかかる例示画像１についての畳み込みブロックの選択を示す概略図である。図１１は、実施の形態２にかかる例示画像２についての畳み込みブロックの選択を示す概略図である。図１２は、ブロックバイタリティデータベースの内容を示す表である。図１３は、実施の形態にかかる情報処理装置のブロック図である。

(関連技術の概要)
本開示による実施の形態を説明する前に、関連技術の概要を、図１及び２を参照して説明する。

ＡＣＮＮは通常、複数の訓練画像と対応するターゲットラベルで主に構成される訓練データベースを使用して訓練される。訓練画像はＡＣＮＮに入力され、複数の計算の後、ＡＣＮＮが予測を生成する。予測は、画像内または画像についてのオブジェクトのクラス、バウンディングボックス（Bounding Box）、セグメンテーション、高さ、重みなどであってもよい。ＡＣＮＮによる入力画像についての予測の生成は、一般に、ＡＣＮＮの順伝播という。予測はターゲットラベルと比較され、予測がターゲットラベルからどれだけ離れているかに基づいて、ＡＣＮＮのパラメータ（重み）が更新される。ＡＣＮＮのパラメータの更新は、一般に逆伝播という。順伝播と逆伝播の複数のインターリーブ実行は、一般に訓練フェーズという。また、入力画像についてのＡＣＮＮの順伝播だけは、一般に推論フェーズという。

訓練フェーズの後、テスト画像は、推論フェーズで訓練されたＡＣＮＮに入力され、ＡＣＮＮは予測を生成する。ＡＣＮＮが広く受け入れられている主な理由は、推論フェーズでの予測の精度が高いことである。

図１に、ＡＣＮＮシステム（モデル訓練システム）１０が示される。ＡＣＮＮシステムは、ＡＣＮＮモデル１１（以下、ＡＣＮＮ１１という）とポリシーニューラルネットワークモデル１２（以下、ポリシーＮＮ１２という）を備える。

ＡＣＮＮ１１のサンプル例を図２に示す。訓練フェーズの後、画像ＩＭは訓練されたＡＣＮＮ１１に入力され、訓練されたＡＣＮＮ１１は予測ＰＲを出力する。ＡＣＮＮ１１は複数の畳み込みブロック(図２では「ブロック」と表記される)を備える。各畳み込みブロックは、逆畳み込み、畳み込み、アップサンプリング、修正線形ユニット（Rectified Linear Unit：ＲｅＬＵ）などのような操作を実行する複数の畳み込みレイヤを備える。畳み込みブロックの配置は、訓練されたＡＣＮＮ１１の精度において重要な役割を果たす。図２に示すように、畳み込みブロックはカスケード若しくは並列、またはその両方に配置される。

図２では、カスケードに配置された畳み込みブロックは、カスケードブロック部２１として示されている。カスケード配置の場合、畳み込みブロック(図２のブロックＳ１、ブロックＳ２、...、ブロックＳＮとして表される)は、ＡＣＮＮ１１内の１または複数の先行するブロック(例えば多くの先行するブロック)からの入力を取得する。したがって、カスケードブロック部２１では、畳み込みブロックは順次実行される。

図２では、並列に配置された畳み込みブロックは、並列ブロック部２２として示されている。並列配置の場合、すべての畳み込みブロックの実行が互いに独立するように、複数の畳み込みブロック（図２のブロックＰ１、ブロックＰ２、...、ブロックＰＭで表される）が並列に配置される。言い換えれば、どの畳み込みブロックも、並列に配置された他の畳み込みブロックからの入力を有さない。

一般に、並列に配置された畳み込みブロックは、特徴の異なるバリエーションを抽出するように設計されている。この一例は、オブジェクトの形状の特徴であるが、これに限定されない。画像内のオブジェクトの異なる可能な形状のバリエーションは、異なる並列畳み込みブロックを用いて抽出される。並列に配置された畳み込みブロックの出力から、ＡＣＮＮ１１における後の畳み込みブロックのために、１または複数の出力が選択される。選択されていないものに対応する出力は無視される。

高精度な能力を有するＡＣＮＮ１１は、一般にカスケードと並列の畳み込みブロックの数が多く、それによって大きな計算量が要求される。大きな計算量が要求されるため、計算資源が限られたシステムでＡＣＮＮ１１を使用するのがやっかいになる。

ＡＣＮＮ１１の計算の複雑さを削減するために、ＡＣＮＮ１１を部分的に実行することがソリューションの候補の一つである。入力画像は必ずしも複雑なオブジェクトまたはさまざまなオブジェクトを有するわけではないため、ＡＣＮＮの計算のある一部は常に予測の精度に貢献しているわけではない。そのため、特定の計算を省略することで、ＡＣＮＮ１１は高い精度を維持する高い能力を有する。

２０１８年にＣＶＰＲ２０１８で発表されたＷｕらの著書“BlockDrop: Dynamic Inference Paths in Residual Networks”（以下、改良された関連技術という）では、ＡＣＮＮの部分的な実行にポリシーＮＮを使用するという概念が紹介されている。このため、図１ではポリシーＮＮ１２が導入されている。

基本的に、ポリシーＮＮ１２は、入力画像に対して非常に重要な畳み込みブロックのみの計算を実行するようにＡＣＮＮ１１を決定／誘導するために採用される。ポリシーＮＮ１２は、ＡＣＮＮ１１についてのポリシー／スキームの観点からガイダンスを生成する。ポリシーＮＮ１２の予測は、ポリシーという。ポリシーは、精度を維持しながら、既定の入力画像に対してＡＣＮＮ１１内のすべての畳み込みブロックのいずれを保持またはドロップする必要があることを示す。その後、ＡＣＮＮ１１は、推論中にポリシーごとに保持される予定だった畳み込みブロックのみを計算する。もちろん、採用されたポリシーＮＮ１２によってもたらされる計算オーバーヘッドは、ＡＣＮＮ１１よりも小さくなるはずである。

しかしながら、改良された関連技術では、ポリシーＮＮ１２に追加の訓練時間が必要となるという短所がある。改良された関連技術では、ポリシーＮＮ１２の訓練に基づく強化学習が用いられる。強化学習では、精度を維持しながら計算量を減らすための決まった優れたポリシーがないため、広い探索空間を探索する傾向がある。このような広い空間の探索は、長い訓練時間が改良された関連技術のために不可避となるため、２つの大きな問題がある。

第１の問題は、計算量を減らすだけでなく、ＡＣＮＮ１１の精度を維持する優れたポリシーＮＮのために広い探索空間を探索することの困難さである。

第１の問題の理由は、Ｎ個の畳み込みブロックを有するＡＣＮＮ１１に対して探索されるポリシーの数が、入力画像に対して２Ｎであることである。また、計算量の削減と精度の間にはトレードオフが存在する。直観的には、ＡＣＮＮ１１で一部の計算を省略すると精度の障害になる。最悪の場合、２Ｎと訓練画像の数の積が、優れたポリシーＮＮ１２の訓練のために探索されるポリシーの数となる。

第２の問題は、ＡＣＮＮ１１の訓練フェーズの後に一定の準備を必要とするという制限であり、これはポリシーＮＮ１２の訓練フェーズの開始に遅れをもたらす。

上記の制限の理由は、ＡＣＮＮ１１の訓練フェーズから訓練情報を取得し、ある追加計算モジュールを使用して特定の追加計算を実行する必要があることである。

本開示は、精度の低下が少ないＡＣＮＮ計算を短期化するための優れたポリシーＮＮの構築に関するものである。言い換えれば、本開示の主な目的は、時間効率の良い訓練方法を提供することであり、これにより、精度の低下が少なくなるように、入力画像に対して部分的な実行を行うことができる。

(実施の形態１)
まず、本開示の実施の形態１にかかる情報処理装置１００について、図３を参照して説明する。

図３を参照すると、情報処理装置１００は、人工畳み込みニューラルネットワーク（ＡＣＮＮ）訓練部１０１、ＡＣＮＮモデル１０２（以下、ＡＣＮＮ１０２という）、ラベル生成部１０３、ポリシーＮＮ訓練部１０４、及びポリシーＮＮモデル（以下、ポリシーＮＮ１０５という）を備える。情報処理装置１００は、例えば、コンピュータまたは機械である。一例として、情報処理装置１００の構成要素のうち少なくとも１つは、１または複数のメモリと１または複数のプロセッサの組み合わせとして、情報処理装置１００に搭載することができる。

ＡＣＮＮ訓練部１０１は、入力データを用いてＡＣＮＮ１０２を訓練する。入力データは情報処理装置１００内に格納されてもよいが、情報処理装置１００の外部からＡＣＮＮ訓練部１０１に入力されてもよい。

ＡＣＮＮ１０２は複数の畳み込みブロックを有する。これらの畳み込みブロックは、カスケードまたは並列に配置されてもよい。ＡＣＮＮ１０２は、入力データが用いられてＡＣＮＮ訓練部１０１によって訓練され、予測を出力することができる。予測の例は既に以前に示した通りである。

ラベル生成部１０３は、ラベル情報を生成する。ラベル情報は、ＡＣＮＮ１０２内のどの１つの畳み込みブロックまたは複数の畳み込みブロック（以下、畳み込みブロックという）を入力データの計算に使用すべきかを示す。例えば、ラベル情報は、並列に配置されたどの畳み込みブロックを計算に使用すべきかを示してもよい。例として、ラベル生成部１０３は、ＡＣＮＮ訓練部１０１によって行われたＡＣＮＮ１０２の訓練の計算に基づいて、このラベル情報を生成できる。

ポリシーＮＮ訓練部１０４は、ラベル生成部１０３によって生成されたラベル情報を用いて、ポリシーＮＮ１０５を訓練する。ポリシーＮＮ１０５は、ＡＣＮＮ１０２内のどの畳み込みブロックを汎用の計算に使用すべきかを決定するために使用される。そのため、ポリシーＮＮ１０５が十分に訓練されると、ＡＣＮＮ１０２の出力の精度を失うことなく、汎用のＡＣＮＮ１０２での計算をより減らすことができる。

次に、図４のフローチャートを参照して、本実施の形態の処理例を説明する。

まず、ＡＣＮＮ訓練部１０１は、入力データを用いてＡＣＮＮを訓練する（図４のステップＳ１１）。入力データには、例えば画像データが含まれる。しかしながら、入力データはこの例に限らない。

次に、ラベル生成部１０３は、ラベル情報を生成する（図４のステップＳ１２）。前述のように、ラベル生成部１０３は、ＡＣＮＮ１０２の訓練フェーズでの計算に基づいて、このラベル情報を生成してもよい。

最後に、ポリシーＮＮ訓練部１０４は、ラベル生成部１０３によって生成されるラベル情報を用いてポリシーＮＮ１０５を訓練する（図４のステップＳ１３）。これらの処理を行うことで、情報処理装置１００は、訓練されたポリシーＮＮ１０５を使用することで、ＡＣＮＮ１０２における冗長な計算を削減することができる。さらに、ポリシーＮＮ１０５の訓練が、ＡＣＮＮ１０２の訓練の実際の計算結果に基づいていてもよいため、この方法は、ＡＣＮＮ１０２の精度の低下を抑えることができる。

この実施の形態では、情報処理装置１００は、ＡＣＮＮ１０２とポリシーＮＮ１０５を備える。ただし、ＡＣＮＮ１０２とポリシーＮＮ１０５の少なくとも一方が、情報処理装置１００の外部に配置されていてもよい。

(実施の形態２)
次に、本開示の実施の形態２について、添付の図面を参照して以下で説明する。この実施の形態２は、実施の形態１の具体例の１つを示すが、実施の形態１の具体例はこれに限定されない。

図５は、実施の形態２にかかるモデル訓練システムを示す。図５に示すように、モデル訓練システム２００は、訓練データベース２０１、ＡＣＮＮ訓練部２０２、ＡＣＮＮモデル２０３（以下、ＡＣＮＮ２０３という）、ラベル入手（procurement）部２０４、ブロックバイタリティー（Block Vitality）データベース２０５、ポリシーＮＮ訓練部２０６、及びポリシーＮＮモデル２０７（以下、ポリシーＮＮ２０７という）を備える。モデル訓練システム２００は、情報処理装置Ｐに搭載されたシステムとして実現することができる。モデル訓練システム２００は、計算のために他のユニットを備えてもよい。この実施の形態では、モデル訓練システム２００を画像認識に適用することができるが、適用はこれに限定されない。

訓練データベース２０１は、画像と、各画像の対応するラベルからなるデータベースである。ラベルは、モデル訓練システム２００が訓練フェーズ後にＡＣＮＮ２０３の出力として入手しようとする予測のターゲットである。

ＡＣＮＮ訓練部２０２は、訓練データベース２０１からラベルとともに画像を取得し、ＡＣＮＮ２０３の訓練フェーズでＡＣＮＮ２０３の訓練と検証を実行する機能を有する。さらに、ＡＣＮＮ２０３の推論フェーズでは、ＡＣＮＮ訓練部２０２は訓練データベース２０１から画像を取得し、ＡＣＮＮ２０３でのすべての画像を推論することができる。

ＡＣＮＮ２０３は、画像の形式で入力信号を受け取り、複数の畳み込みブロックを実行し、予測を生成するニューラルネットワークモデルである。上述のように、ＡＣＮＮ訓練部２０２はＡＣＮＮ２０３を訓練する。ＡＣＮＮ２０３が訓練フェーズを経た後、ＡＣＮＮ２０３は、ここでは訓練されたＡＣＮＮ２０３という。訓練されたＡＣＮＮは、ＡＣＮＮ訓練部２０２によって、訓練データベース２０１内のすべての画像に対して推論される。モデル訓練システム２００は、訓練データベース２０１とＡＣＮＮ訓練部２０２を使用して、この方法で訓練されたＡＣＮＮを生成する。

図６は、ＡＣＮＮ２０３の構成を示す。ＡＣＮＮ２０３は、カスケードブロック部２１１、並列ブロック部２１２、及び非極大値抑制（Non-Maximum Suppression：ＮＭＳ）ブロックを有する。各ブロックの詳細を以下に示す。

カスケードブロック部２１１は、カスケードに配置された複数の畳み込みブロックを有する。カスケード配置の場合、畳み込みブロック（図６のブロックＳ１、ブロックＳ２、...、ブロックＳＮとして表される）は、ＡＣＮＮ２０３内の１または複数の先行ブロック（例えば多くの先行ブロック）から入力を取得する。したがって、カスケードブロック部２１１内では、畳み込みブロックは順次実行される。

並列ブロック部２１２は、並列に配置された複数の畳み込みブロックを有する。並列配置の場合、複数の畳み込みブロック（図６のブロックＰ１、ブロックＰ２、...、ブロックＰＭとして表される）が、すべての畳み込みブロックの実行が互いに独立するように並列に配置される。言い換えれば、並列ブロック部２１２では、どの畳み込みブロックも、並列に配置された他の畳み込みブロックからの入力を有さない。

カスケードブロック部２１１および並列ブロック部２１２内の各畳み込みブロックは、逆畳み込み、畳み込み、アップサンプリング、修正線形ユニット（ＲｅＬＵ）などのような操作を実行する複数の畳み込みレイヤを有する。畳み込みブロックの配置は、訓練されたＡＣＮＮ２０３の精度において非常に重要な役割を果たす。

ＮＭＳブロック２１３は、ＡＣＮＮ２０３における計算の最終ブロックである。このブロックは、非極大値抑制（ＮＭＳ）などの操作を実行する。ＮＭＳブロック２１３の出力は、訓練されたＡＣＮＮ２０３の予測である。

カスケードブロック部２１１内で逐次実行されるカスケード配置の畳み込みブロックとは反対に、並列ブロック部２１２内で並列に配置された畳み込みブロックは独立して実行される。並列ブロック部２１２内の並列配置の畳み込みブロックがすべて実行されると、もしあれば、後続の畳み込みブロックに出力が供給される。並列配置の畳み込みブロックがＡＣＮＮ２０３の後部／深層部にある場合（すなわち、後続の畳み込みブロックが存在しない場合）、出力は最終ブロック、つまりＮＭＳブロック２１３に供給される。訓練フェーズの後、画像ＩＭは訓練されたＡＣＮＮ２０３に入力され、訓練されたＡＣＮＮ２０３は予測ＰＲを出力する。

図５に戻ると、ＮＭＳブロック２１３によって、それぞれの入力画像に対し、並列ブロック部２１２内に並列配置されたどの１または複数の畳み込みブロックの出力が選択されたかという情報を、ラベル入手部２０４は入手する。ラベル入手部２０４が入手したラベル情報は、ブロックバイタリティデータベース２０５の生成に使用される。

ブロックバイタリティデータベース２０５は、訓練されたＡＣＮＮ２０３内の並列ブロック部２１２の並列畳み込みブロックのそれぞれを表すラベルを有する。各ラベルはバイナリ値、すなわち「キープ」または「ドロップ」を有する。ＮＭＳブロック２１３による各画像の推論中に、並列畳み込みブロックを表す対応する出力が選択された場合、「キープ」値がラベルに割り当てられる。ＮＭＳブロック２１３によって出力が選択されなかった並列畳み込みブロックには、「ドロップ」値が割り当てられる。

「キープ」値は、ラベルによって表される特定の並列畳み込みブロックが非常に重要であることを示し、したがって、訓練されたＡＣＮＮ２０３は、それぞれの入力画像に対して特定の並列畳み込みブロックを実行するようにポリシーＮＮ２０７によってガイドされる必要がある。言い換えれば、「キープ」ラベルは、並列ブロック部２１２内の対応する並列畳み込みブロックが、特定の入力画像のオブジェクトに存在する特徴を抽出するのに優れていることを意味する。

同様に、「ドロップ」値は、ラベルによって表される特定の並列畳み込みブロックが重要ではなく、そのため、訓練されたＡＣＮＮ２０３は、それぞれの入力画像に対して特定の並列畳み込みブロックの実行を省略するようにポリシーＮＮ２０７によってガイドされる必要があることを示す。言い換えれば、「ドロップ」値は、並列ブロック部２１２内の対応する並列畳み込みブロックが、入力画像のオブジェクト内の特定の特徴を抽出するのに優れていないことを示す。

したがって、並列畳み込みブロックの「キープ」値と「ドロップ」値は、訓練されたＡＣＮＮ２０３に、特定の入力画像に対してガイドされるべき決まったポリシー／スキームを表していることが導かれる。

ポリシーＮＮ訓練部２０６は、訓練データベース２０１から画像を取得し、ブロックバイタリティデータベース２０５から対応するラベルを取得し、ポリシーＮＮ２０７の訓練フェーズでポリシーＮＮ２０７の訓練と検証を実行する。その結果、訓練されたポリシーＮＮ２０７が生成される。さらに、ポリシーＮＮ２０７の推論フェーズでは、ポリシーＮＮ訓練部２０６は訓練データベース２０１から画像を取得し、ポリシーＮＮ２０７にてすべての画像を推論することができる。

ポリシーＮＮ２０７は、画像の形式で入力信号を受信し、複数の計算を実行し、ポリシーを生成するニューラルネットワークモデルである。ポリシーは基本的に複数のバイナリ出力である。各バイナリ出力は、訓練されたＡＣＮＮ２０３内のそれぞれの並列に配置された畳み込みブロックの実行を「キープ」または「ドロップ」することに対応する。したがって、ポリシーＮＮ２０７のバイナリ出力の数は、訓練されたＡＣＮＮ２０３内の並列に配置された畳み込みブロックの数と少なくとも等しくなる。ポリシーＮＮ２０７が訓練フェーズを経た後、ポリシーＮＮ２０７は、ここでは訓練されたポリシーＮＮ２０７という。

モデル訓練システム２００は、ブロックバイタリティデータベース２０５（すなわち、ブロックバイタリティデータベース２０５のラベル）とポリシーＮＮ訓練部２０６を使用して、訓練されたポリシーＮＮ２０７をこのようにして生成する。

図７のフローチャートを参照して、本実施形態の処理例を説明する。

まず、モデル訓練システム２００は、訓練データベース２０１とＡＣＮＮ訓練部２０２を使用して、訓練されたＡＣＮＮ２０３を生成する。具体的には、ＡＣＮＮ２０３の訓練フェーズで、ＡＣＮＮ訓練部２０２は、訓練データベース２０１からラベルとともに画像を取得し、ＡＣＮＮ２０３を訓練して、訓練されたＡＣＮＮ２０３を生成する（図７のステップＳ２１）。

次に、ＡＣＮＮ２０３の訓練フェーズの後、モデル訓練システム２００は、訓練されたＡＣＮＮ２０３の推論フェーズでＡＣＮＮ訓練部２０２を使用する（図７のステップＳ２２）。訓練されたＡＣＮＮ２０３の推論フェーズでは、訓練されたＡＣＮＮ２０３は、訓練データベース２０１内のすべての画像を推論する。推論中、すなわち各画像の順伝播中に、訓練されたＡＣＮＮ２０３のすべての畳み込みブロックが実行される。

推論中、カスケードブロック部２１１内のカスケード配置された畳み込みブロックとは反対に、並列ブロック部２１２内の並列配置された畳み込みブロックは独立して実行される。ＮＭＳブロック２１３は、ＮＭＳの結果に基づいて、訓練されたＡＣＮＮ２０３の予測を出力する。

同一の訓練されたＡＣＮＮ２０３内のすべての並列畳み込みブロックの出力は、入力画像ごとに異なっていてもよい。出力の一例は、オブジェクト検出タスクにあり、すべての並列畳み込みブロックは、それぞれが複数のクラスに対する信頼度スコアを有するバウンディングボックスを予測する。ただし、これらはこの例に限定されない。特定のクラスの小さなオブジェクトを含む入力画像の場合、異なる並列畳み込みブロックは、より大きなオブジェクトまたは異なるクラスを含む入力画像の他の場合と比較して、異なる信頼度スコアとバウンディングボックスを有することになる。

図８及び９はそれぞれ、入力画像１及び入力画像２に対する並列畳み込みブロックの出力のサンプル例を、表形式で示す。図８の列Ｃ１１と図９の列Ｃ２１は、それぞれ画像、すなわち画像１と画像２の名前を表す。図８の列Ｃ１２と図９の列Ｃ２２はそれぞれ並列ブロック、すなわちブロックＰ１からＰＭを表す。図８の列Ｃ１３と図９の列Ｃ２３は、それぞれ複数クラスに対する信頼度スコアの配列のリストを表す。列Ｃ１３とＣ２３の各配列の要素のシーケンスは、予測されるオブジェクトのクラスのシーケンスに対応する。図８の列Ｃ１４と図９の列Ｃ２４は、それぞれクラスのシーケンスを表す。この実施形態では、オブジェクトのクラスの例は「犬」と「猫」である。図８の列Ｃ１５と図９の列Ｃ２５は、それぞれの並列畳み込みブロックによって予測されるバウンディングボックスのリストを表す。

事前定義された閾値スコアよりも高い信頼度スコアを有する並列ブロック部２１２内の並列畳み込みブロックの出力は、図６のＮＭＳブロック２１３によって、その出力として選択される。

図８及び９のサンプル訓練例について、事前定義された閾値スコアが０．５であるとする。次に、ＮＭＳブロック２１３は、入力画像１に対する並列畳み込みブロックのすべての出力から、ブロックＰ２の出力を選択する。選択の理由は、図８では、ブロックＰ２だけが信頼度スコア０．８２、すなわち０．５を超えたスコアを有するためである。

図１０は、図８に関する状況を示す。図１０では、ＮＭＳブロック２１３によって選択されたブロックＰ２が、太字のエッジで縁取られた白いブロックとして示される。ただし、ＮＭＳブロック２１３によって選択されていない並列ブロック部２１２内の他のブロックは、ハッチングされたブロックとして示される。

同様に、ＮＭＳブロック２１３は、入力画像２に対する並列畳み込みブロックのすべての出力から、ブロックＰＭの出力を選択する。選択の理由は、図９では、ブロックＰＭだけが信頼度スコア０．７１、すなわち０．５を超えたスコアを有するためである。

図１１は、図９に関する状況を示す。図１１では、ＮＭＳブロック２１３で選択されたブロックＰＭは、太字のエッジで縁取られた白いブロックとして示される。ただし、ＮＭＳブロック２１３によって選択されていない並列ブロック部２１２内の他のブロックは、ハッチングされたブロックとして示される。

前述のように、ＮＭＳブロック２１３によって、それぞれの入力画像に対し、１または複数のどの並列畳み込みブロックの出力が選択されたかという情報は、ラベル入手部２０４で入手される。ラベル入手部２０４は、この情報を使用して、ブロックバイタリティデータベース２０５を生成する。ブロックバイタリティデータベース２０５は、並列ブロック部２１２内の並列畳み込みブロックに対する「キープ」および「ドロップ」値の情報を有する。このようにして、訓練データベース２０１内のすべての画像に対して、訓練されたＡＣＮＮ２０３の推論フェーズからキープ／ドロップラベルが生成され、これらのキープ／ドロップラベルは、訓練データベース内のそれぞれの画像とともに、ポリシーＮＮ訓練部２０６によるポリシーＮＮ２０７の訓練に使用されることで、優れたポリシーＮＮモデルが取得できる。この処理を、図７のステップＳ２２の「各訓練画像のラベリング」という。

訓練データベース２０１のすべての画像が訓練されたＡＣＮＮ２０３で推論されると、図７のステップＳ２２の最後において、ブロックバイタリティデータベース２０５といわれる新しいデータベースが取得される。

図１２は、ブロックバイタリティデータベース２０５内のラベル情報のサンプル例を、表形式で示す。先に説明したように、画像１については、ＮＭＳブロック２１３によってブロックＰ２が選択されるため、図１２では「キープ」値が割り当てられている。これに対して、並列ブロック部２１２内の他のブロックは、ＮＭＳブロック２１３によって選択されないため、図１２では「ドロップ」値が割り当てられている。

同様に、画像２については、ＮＭＳブロック２１３によってブロックＰＭが選択されるため、図１２では「キープ」値が割り当てられている。これに対して、並列ブロック部２１２内の他のブロックは、ＮＭＳブロック２１３によって選択されないため、図１２では「ドロップ」値が割り当てられている。

ポリシーＮＮ訓練部２０６は、ブロックバイタリティデータベース２０５からラベルとともに画像を取得し、ポリシーＮＮ２０７の訓練と検証を実行する機能を有する。

上記のように、ポリシーＮＮ２０７によって生成されるポリシーは、基本的に複数のバイナリ出力である。各バイナリ出力は、訓練されたＡＣＮＮ２０３内のそれぞれの並列に配置された畳み込みブロックの実行を「キープ」または「ドロップ」することに対応する。

ポリシーＮＮ２０７の訓練フェーズでは、ポリシーＮＮ訓練部２０６は、ポリシーＮＮ２０７を訓練して、訓練されたポリシーＮＮ２０７を生成する（図７のステップＳ２３）。そのために、ポリシーＮＮ訓練部２０６は、ブロックバイタリティデータベース２０５のラベル情報を使用する。

入力画像ごとに、ポリシーＮＮ２０７のために存在する修正ポリシーを学習できる点に留意する必要がある。したがって、優れたポリシーＮＮ２０７のための広い探索空間の探索は必要ない。

また、モデル訓練システム２００によって必要とされる追加の計算又は計算手段もない。訓練されたＡＣＮＮ２０３を取得した直後には、訓練されたＡＣＮＮ２０３にて推論フェーズを一度実行することで、訓練データベース２０１内のすべての画像のラベル入手に要する時間が短縮され、ポリシーＮＮ２０７の訓練をすぐに開始させることができる。そのため、入力画像に対して部分的な実行を行うことが可能な、時間効率の良い訓練方法を提供することができる。

モデル訓練システム２００のもう１つのキーポイントは、出力が選択されない畳み込みブロックに対応する実行が、ポリシーＮＮ２０７によって省略されるようにガイドされることである。したがって、訓練されたＡＣＮＮ２０３による予測の精度低下が少ないという保証が、結論付けられることができる。

この実施形態では、並列ブロック部２１２（すなわち、ブロックＰ１、Ｐ２、...、ＰＭ）内の畳み込みブロックは、ポリシーＮＮ２０７に対する選択オブジェクトである。したがって、モデル訓練システム２００は、ＡＣＮＮ２０３内の不必要な並列配置の畳み込みブロックによる過剰な計算を削減することができる。

この実施形態では、ＡＣＮＮ２０３が画像認識に使用され、画像ＩＭは計算用の入力データとしてＡＣＮＮ２０３に入力される。したがって、モデル訓練システム２００は、画像認識の分野における冗長な計算を削減することができる。

さらに、並列ブロック部２１２内の畳み込みブロックは、ポリシーＮＮ２０７に対する選択オブジェクトであり、異なる畳み込みブロックは、画像内のオブジェクトの特徴の異なるバリエーション（具体的には、取り得る形状のバリエーション）を抽出する。したがって、モデル訓練システム２００は、より短い時間で画像内のオブジェクトの正確な形状を指定することができる。

この実施形態では、ＮＭＳブロックとラベル入手部２０４（ラベル生成部１０３に対応）は、ＡＣＮＮ２０３の推論フェーズ中にラベル情報を生成する。したがって、ラベル情報を生成するための新しいデータを準備する必要がないため、モデル訓練システム２００は、ポリシーＮＮ２０７の訓練の時間を短縮することができる。

この実施形態では、ラベル入手部２０４は、ＮＭＳの機能に基づいてラベル情報を生成する。そのため、モデル訓練システム２００は、より短い時間でオブジェクトを検出することができる。

さらに、ラベル情報は各畳み込みブロックの信頼度スコアに基づいて生成される。そのため、モデル訓練システム２００によって、高い精度でのオブジェクト検出を行うことができる。

なお、本開示の説明において、文脈上、明示的に別段の定めがない限り、単数形「ａ」、「ａｎ」及び「ｔｈｅ」で表される要素は、単一の要素だけでなく、複数の要素であってもよいことに留意されたい。

なお、本発明は、上記の実施形態に限定されるものではなく、本発明の精神を逸脱することなく、適宜修正することができることに留意されたい。例えば、計算対象は画像に限定されない。

実施の形態２では、訓練データベース２０１、ＡＣＮＮ２０３、ブロックバイタリティデータベース２０５、及びポリシーＮＮモデル２０７のうち少なくとも１つが、情報処理装置Ｐの外部に配置されてもよい。

次に、上記の複数の実施形態で説明された情報処理装置の構成例について、図１３を参照して以下で説明する。

図１３は、情報処理装置の構成例を示すブロック図である。情報処理装置９０は、図１３に示すように、ネットワークインターフェース９１、プロセッサ９２及びメモリ９３を備える。

ネットワークインターフェース９１は、通信システムを構成する他のネットワークノード装置との通信に使用される。たとえば、ネットワークインターフェース９１は、訓練データベース２０１および／またはブロックバイタリティデータベース２０５に格納されているデータを受信してもよい。

プロセッサ９２は、メモリ９３からソフトウェア（コンピュータプログラム）をロードし、ロードされたソフトウェアを実行することによって、上記の実施形態の図面を参照して説明された処理を行う。プロセッサ９２は、例えば、マイクロプロセッサ、ＭＰＵ（Micro Processing Unit）、又はＣＰＵ（Central Processing Unit）であってもよい。プロセッサ９２は、複数のプロセッサを含んでもよい。この場合、各プロセッサは、命令群を含む１または複数のプログラムを実行して、図面を参照して上記で説明したアルゴリズムをコンピュータに実行させる。

メモリ９３は揮発性メモリで構成されてもよいし、不揮発性メモリで構成されてもよいが、メモリ９３は揮発性メモリと不揮発性メモリの組み合わせで構成されてもよい。メモリ９３は、プロセッサ９２から離間して配置されたストレージを含んでもよい。この場合、プロセッサ９２はＩ／Ｏインターフェース（不図示）を介してメモリ９３にアクセスしてもよい。

図１３に示された例では、ソフトウェアモジュール群を格納するためにメモリ９３が使用されている。プロセッサ９２は、メモリ９３からソフトウェアモジュール群を読み込み、読み込んだソフトウェアモジュールを実行することで、上記の実施形態で説明された処理を行うことができる。

上述のように、上記の実施形態での各構成は、ハードウェアとソフトウェア（コンピュータプログラム）の組み合わせで構成されてもよい。ただし、各構成は、単独のハードウェアまたはソフトウェアで構成されてもよいし、複数のハードウェアまたはソフトウェアで構成されてもよい。

上記の例では、プログラムは格納され、任意の種類の非一時的なコンピュータ可読媒体を使用してコンピュータに提供されることができる。非一時的なコンピュータ可読媒体には、任意の種類の有形記憶媒体が含まれる。非一時的なコンピュータ可読媒体の例としては、磁気記憶媒体（例えば、フロッピーディスク、磁気テープ、ハードディスクドライブなど。）、光磁気記憶媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（compact disc read only memory）、ＣＤ－Ｒ（compact disc recordable）、ＣＤ－Ｒ／Ｗ（compact disc rewritable）、及び半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（programmable ROM）、ＥＰＲＯＭ（erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory）など）がある。プログラムは、任意の種類の一時的なコンピュータ可読媒体を使用してコンピュータに提供されてもよい。一時的なコンピュータ可読媒体の例としては、電気信号、光信号、電磁波がある。一時的なコンピュータ可読媒体は、有線通信回線（例えば、電線、光ファイバー）または無線通信回線を介してコンピュータにプログラムを提供することができる。

なお、本開示は、上記の実施形態に限定されるものではなく、本開示の趣旨及び範囲を逸脱せずに、適宜修正することができる。

１００情報処理装置
１０１ＡＣＮＮ訓練部
１０２ＡＣＮＮモデル
１０３ラベル生成部
１０４ポリシーＮＮ訓練部
１０５ポリシーＮＮモデル
２００モデル訓練システム
２０１訓練データベース
２０２ＡＣＮＮ訓練部
２０３ＡＣＮＮモデル
２０４ラベル入手部
２０５ブロックバイタリティデータベース
２０６ポリシーＮＮ訓練部
２０７ポリシーＮＮモデル
２１１カスケードブロック部
２１２並列ブロック部
２１３ＮＭＳブロック

Claims

入力データを用いてＡＣＮＮモデルを訓練する人工畳み込みニューラルネットワーク（ＡＣＮＮ）訓練手段と、
ラベル情報を生成するラベル生成手段と、
前記ラベル情報を用いてポリシーＮＮモデルを訓練するポリシーニューラルネットワーク（ＮＮ）訓練手段を備え、
前記ＡＣＮＮモデルは複数の畳み込みブロックを含み、
前記ラベル情報は、前記ＡＣＮＮモデル内のどの畳み込みブロックを前記入力データの計算に使用すべきかを示し、
前記ポリシーＮＮモデルは、前記ＡＣＮＮモデル内のどの畳み込みブロックを計算に使用すべきかを決定するために使用される、
情報処理装置。
前記ＡＣＮＮモデル内の前記畳み込みブロックは並列に配置される、
請求項１に記載の情報処理装置。
前記ＡＣＮＮモデルは画像認識に使用され、画像が前記ＡＣＮＮモデルに入力され、前記画像は前記計算用の前記入力データである、
請求項１及び２に記載の情報処理装置。
前記ＡＣＮＮモデル内の前記畳み込みブロックは並列に配置され、前記ＡＣＮＮモデル内の異なる畳み込みブロックは、前記画像内のオブジェクトの異なる可能な特徴のバリエーションを抽出する、
請求項３に記載の情報処理装置。
前記ラベル生成手段は、前記入力データを用いて、前記ＡＣＮＮモデルの推論フェーズ中に前記ラベル情報を生成する、
請求項１乃至４のいずれか１項に記載の情報処理装置。
前記ラベル生成手段は、非極大値抑制（ＮＭＳ）の機能に基づいて前記ラベル情報を生成する、
請求項１乃至５のいずれか１項に記載の情報処理装置。
前記ラベル情報は、前記ＡＣＮＮモデル内の各畳み込みブロックの信頼度スコアにもさらに基づく、
請求項６に記載の情報処理装置。
入力データを用いて人工畳み込みニューラルネットワーク（ＡＣＮＮ）モデルを訓練し、
ラベル情報を生成し、
前記ラベル情報を用いてポリシーニューラルネットワーク（ＮＮ）モデルを訓練し、
前記ＡＣＮＮモデルは複数の畳み込みブロックを含み、
前記ラベル情報は、前記ＡＣＮＮモデル内のどの畳み込みブロックを前記入力データの計算に使用すべきかを示し、
前記ポリシーＮＮモデルは、前記ＡＣＮＮモデル内のどの畳み込みブロックを計算に使用すべきかを決定するために使用される、
情報処理方法。
入力データを用いて人工畳み込みニューラルネットワーク（ＡＣＮＮ）モデルを訓練し、
ラベル情報を生成し、
前記ラベル情報を用いてポリシーニューラルネットワーク（ＮＮ）モデルを訓練し、
前記ＡＣＮＮモデルは複数の畳み込みブロックを含み、
前記ラベル情報は、前記ＡＣＮＮモデル内のどの畳み込みブロックを前記入力データの計算に使用すべきかを示し、
前記ポリシーＮＮモデルは、前記ＡＣＮＮモデル内のどの畳み込みブロックを計算に使用すべきかを決定するために使用される、
ことをコンピュータに実行させるためのプログラムを格納した非一時的なコンピュータ可読媒体。