JP2023549198A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2023549198A
JP2023549198A JP2023528196A JP2023528196A JP2023549198A JP 2023549198 A JP2023549198 A JP 2023549198A JP 2023528196 A JP2023528196 A JP 2023528196A JP 2023528196 A JP2023528196 A JP 2023528196A JP 2023549198 A JP2023549198 A JP 2023549198A
Authority
JP
Japan
Prior art keywords
acnn
model
training
policy
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023528196A
Other languages
English (en)
Inventor
ダーシット バギャニー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2023549198A publication Critical patent/JP2023549198A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

Figure 2023549198000001
本開示の目的は、ACNNにおける冗長な計算を削減できる情報処理装置を提供することである。情報処理装置は、入力データを用いてACNNモデル(102)を訓練するように構成された人工畳み込みニューラルネットワーク(ACNN)訓練部(101)と、ラベル情報を生成するように構成されたラベル生成部(103)と、ラベル情報を用いてポリシーNNモデル(105)を訓練するように構成されたポリシーニューラルネットワーク(NN)訓練部(104)を備え、ACNNモデルは複数の畳み込みブロックを含み、ラベル情報は、ACNNモデル内のどの畳み込みブロックを入力データの計算に使用すべきかを示し、ポリシーNNモデルは、ACNNモデル内のどの畳み込みブロックを計算に使用すべきかを決定するために使用される。
【選択図】図3

Description

本開示は、情報処理装置、情報処理方法及び非一時的なコンピュータ可読媒体に関する。
現代において、人工畳み込みニューラルネットワーク(ACNN)は、分類、オブジェクト検出、セマンティックセグメンテーションなどといった複数の視覚処理アプリケーションのための最先端ソリューションとなっている。
この技術の関連技術として、特許文献1には、強化学習システムが公開されている。この強化学習システムは、行動選択ポリシーニューラルネットワークを有し、強化学習手法を用いて行動選択ポリシーニューラルネットワークを訓練する。訓練により、強化学習システムは、期待される長期的な時間割引報酬(time-discounted reward)を最大化するポリシー出力を生成することができる。
国際公開第2018/053187号
出力を高精度にすることを達成するために、ACNNは、畳み込みレイヤを含む多くの畳み込みブロックを備えることをしばしば要求される。そのため、ACNNの計算量は過剰になりがちであるが、特許文献1はこの問題を開示していない。
本開示の目的は、ACNNにおける冗長な計算を削減することができる情報処理装置、情報処理方法および非一時的なコンピュータ可読媒体を提供することである。
第1の例示的側面では、情報処理装置は、入力データを用いてACNNモデルを訓練する人工畳み込みニューラルネットワーク(ACNN)訓練手段と、ラベル情報を生成するラベル生成手段と、ラベル情報を用いてポリシーNNモデルを訓練するポリシーニューラルネットワーク(NN)訓練手段を備え、ACNNモデルは複数の畳み込みブロックを含み、ラベル情報は、ACNNモデル内のどの畳み込みブロックを入力データの計算に使用すべきかを示し、ポリシーNNモデルは、ACNNモデル内のどの畳み込みブロックを計算に使用すべきかを決定するために使用される。
第2の例示的側面では、情報処理方法は、入力データを用いて人工畳み込みニューラルネットワーク(ACNN)モデルを訓練し、ラベル情報を生成し、ラベル情報を用いてポリシーニューラルネットワーク(NN)モデルを訓練することを有し、ACNNモデルは複数の畳み込みブロックを含み、ラベル情報は、ACNNモデル内のどの畳み込みブロックを入力データの計算に使用すべきかを示し、ポリシーNNモデルは、ACNNモデル内のどの畳み込みブロックを計算に使用すべきかを決定するために使用される。
第3の例示的側面は、入力データを用いて人工畳み込みニューラルネットワーク(ACNN)モデルを訓練し、ラベル情報を生成し、ラベル情報を用いてポリシーニューラルネットワーク(NN)モデルを訓練することを有し、ACNNモデルは複数の畳み込みブロックを含み、ラベル情報は、ACNNモデル内のどの畳み込みブロックを入力データの計算に使用すべきかを示し、ポリシーNNモデルは、ACNNモデル内のどの畳み込みブロックを計算に使用すべきかを決定するために使用される、ことをコンピュータに実行させるプログラムを格納する非一時的なコンピュータ可読媒体である。
本開示によれば、ACNNにおける冗長な計算を削減することができる情報処理装置、情報処理方法および非一時的なコンピュータ可読媒体を提供することができる。
図1は、関連技術にかかるモデル訓練システムのブロック図である。 図2は、関連技術にかかるACNNモデルを示すブロック図である。 図3は、実施の形態1にかかる情報処理装置のブロック図である。 図4は、実施の形態1にかかる情報処理装置の方法を示すフローチャートである。 図5は、実施の形態2にかかるモデル訓練システムのブロック図である。 図6は、実施の形態2にかかるACNNモデルを示すブロック図である。 図7は、実施の形態2にかかるモデル訓練システムの方法を示すフローチャートである。 図8は、実施の形態2にかかるサンプル例示画像1についての畳み込みブロックの出力を示す表である。 図9は、実施の形態2にかかるサンプル例示画像2についての畳み込みブロックの出力を示す表である。 図10は、実施の形態2にかかる例示画像1についての畳み込みブロックの選択を示す概略図である。 図11は、実施の形態2にかかる例示画像2についての畳み込みブロックの選択を示す概略図である。 図12は、ブロックバイタリティデータベースの内容を示す表である。 図13は、実施の形態にかかる情報処理装置のブロック図である。
(関連技術の概要)
本開示による実施の形態を説明する前に、関連技術の概要を、図1及び2を参照して説明する。
ACNNは通常、複数の訓練画像と対応するターゲットラベルで主に構成される訓練データベースを使用して訓練される。訓練画像はACNNに入力され、複数の計算の後、ACNNが予測を生成する。予測は、画像内または画像についてのオブジェクトのクラス、バウンディングボックス(Bounding Box)、セグメンテーション、高さ、重みなどであってもよい。ACNNによる入力画像についての予測の生成は、一般に、ACNNの順伝播という。予測はターゲットラベルと比較され、予測がターゲットラベルからどれだけ離れているかに基づいて、ACNNのパラメータ(重み)が更新される。ACNNのパラメータの更新は、一般に逆伝播という。順伝播と逆伝播の複数のインターリーブ実行は、一般に訓練フェーズという。また、入力画像についてのACNNの順伝播だけは、一般に推論フェーズという。
訓練フェーズの後、テスト画像は、推論フェーズで訓練されたACNNに入力され、ACNNは予測を生成する。ACNNが広く受け入れられている主な理由は、推論フェーズでの予測の精度が高いことである。
図1に、ACNNシステム(モデル訓練システム)10が示される。ACNNシステムは、ACNNモデル11(以下、ACNN11という)とポリシーニューラルネットワークモデル12(以下、ポリシーNN12という)を備える。
ACNN11のサンプル例を図2に示す。訓練フェーズの後、画像IMは訓練されたACNN11に入力され、訓練されたACNN11は予測PRを出力する。ACNN11は複数の畳み込みブロック(図2では「ブロック」と表記される)を備える。各畳み込みブロックは、逆畳み込み、畳み込み、アップサンプリング、修正線形ユニット(Rectified Linear Unit:ReLU)などのような操作を実行する複数の畳み込みレイヤを備える。畳み込みブロックの配置は、訓練されたACNN11の精度において重要な役割を果たす。図2に示すように、畳み込みブロックはカスケード若しくは並列、またはその両方に配置される。
図2では、カスケードに配置された畳み込みブロックは、カスケードブロック部21として示されている。カスケード配置の場合、畳み込みブロック(図2のブロックS1、ブロックS2、...、ブロックSNとして表される)は、ACNN11内の1または複数の先行するブロック(例えば多くの先行するブロック)からの入力を取得する。したがって、カスケードブロック部21では、畳み込みブロックは順次実行される。
図2では、並列に配置された畳み込みブロックは、並列ブロック部22として示されている。並列配置の場合、すべての畳み込みブロックの実行が互いに独立するように、複数の畳み込みブロック(図2のブロックP1、ブロックP2、...、ブロックPMで表される)が並列に配置される。言い換えれば、どの畳み込みブロックも、並列に配置された他の畳み込みブロックからの入力を有さない。
一般に、並列に配置された畳み込みブロックは、特徴の異なるバリエーションを抽出するように設計されている。この一例は、オブジェクトの形状の特徴であるが、これに限定されない。画像内のオブジェクトの異なる可能な形状のバリエーションは、異なる並列畳み込みブロックを用いて抽出される。並列に配置された畳み込みブロックの出力から、ACNN11における後の畳み込みブロックのために、1または複数の出力が選択される。選択されていないものに対応する出力は無視される。
高精度な能力を有するACNN11は、一般にカスケードと並列の畳み込みブロックの数が多く、それによって大きな計算量が要求される。大きな計算量が要求されるため、計算資源が限られたシステムでACNN11を使用するのがやっかいになる。
ACNN11の計算の複雑さを削減するために、ACNN11を部分的に実行することがソリューションの候補の一つである。入力画像は必ずしも複雑なオブジェクトまたはさまざまなオブジェクトを有するわけではないため、ACNNの計算のある一部は常に予測の精度に貢献しているわけではない。そのため、特定の計算を省略することで、ACNN11は高い精度を維持する高い能力を有する。
2018年にCVPR 2018で発表されたWuらの著書“BlockDrop: Dynamic Inference Paths in Residual Networks”(以下、改良された関連技術という)では、ACNNの部分的な実行にポリシーNNを使用するという概念が紹介されている。このため、図1ではポリシーNN12が導入されている。
基本的に、ポリシーNN12は、入力画像に対して非常に重要な畳み込みブロックのみの計算を実行するようにACNN11を決定/誘導するために採用される。ポリシーNN12は、ACNN11についてのポリシー/スキームの観点からガイダンスを生成する。ポリシーNN12の予測は、ポリシーという。ポリシーは、精度を維持しながら、既定の入力画像に対してACNN11内のすべての畳み込みブロックのいずれを保持またはドロップする必要があることを示す。その後、ACNN11は、推論中にポリシーごとに保持される予定だった畳み込みブロックのみを計算する。もちろん、採用されたポリシーNN12によってもたらされる計算オーバーヘッドは、ACNN11よりも小さくなるはずである。
しかしながら、改良された関連技術では、ポリシーNN12に追加の訓練時間が必要となるという短所がある。改良された関連技術では、ポリシーNN12の訓練に基づく強化学習が用いられる。強化学習では、精度を維持しながら計算量を減らすための決まった優れたポリシーがないため、広い探索空間を探索する傾向がある。このような広い空間の探索は、長い訓練時間が改良された関連技術のために不可避となるため、2つの大きな問題がある。
第1の問題は、計算量を減らすだけでなく、ACNN11の精度を維持する優れたポリシーNNのために広い探索空間を探索することの困難さである。
第1の問題の理由は、N個の畳み込みブロックを有するACNN11に対して探索されるポリシーの数が、入力画像に対して2Nであることである。また、計算量の削減と精度の間にはトレードオフが存在する。直観的には、ACNN11で一部の計算を省略すると精度の障害になる。最悪の場合、2Nと訓練画像の数の積が、優れたポリシーNN12の訓練のために探索されるポリシーの数となる。
第2の問題は、ACNN11の訓練フェーズの後に一定の準備を必要とするという制限であり、これはポリシーNN12の訓練フェーズの開始に遅れをもたらす。
上記の制限の理由は、ACNN11の訓練フェーズから訓練情報を取得し、ある追加計算モジュールを使用して特定の追加計算を実行する必要があることである。
本開示は、精度の低下が少ないACNN計算を短期化するための優れたポリシーNNの構築に関するものである。言い換えれば、本開示の主な目的は、時間効率の良い訓練方法を提供することであり、これにより、精度の低下が少なくなるように、入力画像に対して部分的な実行を行うことができる。
(実施の形態1)
まず、本開示の実施の形態1にかかる情報処理装置100について、図3を参照して説明する。
図3を参照すると、情報処理装置100は、人工畳み込みニューラルネットワーク(ACNN)訓練部101、ACNNモデル102(以下、ACNN102という)、ラベル生成部103、ポリシーNN訓練部104、及びポリシーNNモデル(以下、ポリシーNN105という)を備える。情報処理装置100は、例えば、コンピュータまたは機械である。一例として、情報処理装置100の構成要素のうち少なくとも1つは、1または複数のメモリと1または複数のプロセッサの組み合わせとして、情報処理装置100に搭載することができる。
ACNN訓練部101は、入力データを用いてACNN102を訓練する。入力データは情報処理装置100内に格納されてもよいが、情報処理装置100の外部からACNN訓練部101に入力されてもよい。
ACNN102は複数の畳み込みブロックを有する。これらの畳み込みブロックは、カスケードまたは並列に配置されてもよい。ACNN102は、入力データが用いられてACNN訓練部101によって訓練され、予測を出力することができる。予測の例は既に以前に示した通りである。
ラベル生成部103は、ラベル情報を生成する。ラベル情報は、ACNN102内のどの1つの畳み込みブロックまたは複数の畳み込みブロック(以下、畳み込みブロックという)を入力データの計算に使用すべきかを示す。例えば、ラベル情報は、並列に配置されたどの畳み込みブロックを計算に使用すべきかを示してもよい。例として、ラベル生成部103は、ACNN訓練部101によって行われたACNN102の訓練の計算に基づいて、このラベル情報を生成できる。
ポリシーNN訓練部104は、ラベル生成部103によって生成されたラベル情報を用いて、ポリシーNN105を訓練する。ポリシーNN105は、ACNN102内のどの畳み込みブロックを汎用の計算に使用すべきかを決定するために使用される。そのため、ポリシーNN105が十分に訓練されると、ACNN102の出力の精度を失うことなく、汎用のACNN102での計算をより減らすことができる。
次に、図4のフローチャートを参照して、本実施の形態の処理例を説明する。
まず、ACNN訓練部101は、入力データを用いてACNNを訓練する(図4のステップS11)。入力データには、例えば画像データが含まれる。しかしながら、入力データはこの例に限らない。
次に、ラベル生成部103は、ラベル情報を生成する(図4のステップS12)。前述のように、ラベル生成部103は、ACNN102の訓練フェーズでの計算に基づいて、このラベル情報を生成してもよい。
最後に、ポリシーNN訓練部104は、ラベル生成部103によって生成されるラベル情報を用いてポリシーNN105を訓練する(図4のステップS13)。これらの処理を行うことで、情報処理装置100は、訓練されたポリシーNN105を使用することで、ACNN102における冗長な計算を削減することができる。さらに、ポリシーNN105の訓練が、ACNN102の訓練の実際の計算結果に基づいていてもよいため、この方法は、ACNN102の精度の低下を抑えることができる。
この実施の形態では、情報処理装置100は、ACNN102とポリシーNN105を備える。ただし、ACNN102とポリシーNN105の少なくとも一方が、情報処理装置100の外部に配置されていてもよい。
(実施の形態2)
次に、本開示の実施の形態2について、添付の図面を参照して以下で説明する。この実施の形態2は、実施の形態1の具体例の1つを示すが、実施の形態1の具体例はこれに限定されない。
図5は、実施の形態2にかかるモデル訓練システムを示す。図5に示すように、モデル訓練システム200は、訓練データベース201、ACNN訓練部202、ACNNモデル203(以下、ACNN203という)、ラベル入手(procurement)部204、ブロックバイタリティー(Block Vitality)データベース205、ポリシーNN訓練部206、及びポリシーNNモデル207(以下、ポリシーNN207という)を備える。モデル訓練システム200は、情報処理装置Pに搭載されたシステムとして実現することができる。モデル訓練システム200は、計算のために他のユニットを備えてもよい。この実施の形態では、モデル訓練システム200を画像認識に適用することができるが、適用はこれに限定されない。
訓練データベース201は、画像と、各画像の対応するラベルからなるデータベースである。ラベルは、モデル訓練システム200が訓練フェーズ後にACNN203の出力として入手しようとする予測のターゲットである。
ACNN訓練部202は、訓練データベース201からラベルとともに画像を取得し、ACNN203の訓練フェーズでACNN203の訓練と検証を実行する機能を有する。さらに、ACNN203の推論フェーズでは、ACNN訓練部202は訓練データベース201から画像を取得し、ACNN203でのすべての画像を推論することができる。
ACNN203は、画像の形式で入力信号を受け取り、複数の畳み込みブロックを実行し、予測を生成するニューラルネットワークモデルである。上述のように、ACNN訓練部202はACNN203を訓練する。ACNN203が訓練フェーズを経た後、ACNN203は、ここでは訓練されたACNN203という。訓練されたACNNは、ACNN訓練部202によって、訓練データベース201内のすべての画像に対して推論される。モデル訓練システム200は、訓練データベース201とACNN訓練部202を使用して、この方法で訓練されたACNNを生成する。
図6は、ACNN203の構成を示す。ACNN203は、カスケードブロック部211、並列ブロック部212、及び非極大値抑制(Non-Maximum Suppression:NMS)ブロックを有する。各ブロックの詳細を以下に示す。
カスケードブロック部211は、カスケードに配置された複数の畳み込みブロックを有する。カスケード配置の場合、畳み込みブロック(図6のブロックS1、ブロックS2、...、ブロックSNとして表される)は、ACNN203内の1または複数の先行ブロック(例えば多くの先行ブロック)から入力を取得する。したがって、カスケードブロック部211内では、畳み込みブロックは順次実行される。
並列ブロック部212は、並列に配置された複数の畳み込みブロックを有する。並列配置の場合、複数の畳み込みブロック(図6のブロックP1、ブロックP2、...、ブロックPMとして表される)が、すべての畳み込みブロックの実行が互いに独立するように並列に配置される。言い換えれば、並列ブロック部212では、どの畳み込みブロックも、並列に配置された他の畳み込みブロックからの入力を有さない。
カスケードブロック部211および並列ブロック部212内の各畳み込みブロックは、逆畳み込み、畳み込み、アップサンプリング、修正線形ユニット(ReLU)などのような操作を実行する複数の畳み込みレイヤを有する。畳み込みブロックの配置は、訓練されたACNN203の精度において非常に重要な役割を果たす。
NMSブロック213は、ACNN203における計算の最終ブロックである。このブロックは、非極大値抑制(NMS)などの操作を実行する。NMSブロック213の出力は、訓練されたACNN203の予測である。
カスケードブロック部211内で逐次実行されるカスケード配置の畳み込みブロックとは反対に、並列ブロック部212内で並列に配置された畳み込みブロックは独立して実行される。並列ブロック部212内の並列配置の畳み込みブロックがすべて実行されると、もしあれば、後続の畳み込みブロックに出力が供給される。並列配置の畳み込みブロックがACNN203の後部/深層部にある場合(すなわち、後続の畳み込みブロックが存在しない場合)、出力は最終ブロック、つまりNMSブロック213に供給される。訓練フェーズの後、画像IMは訓練されたACNN203に入力され、訓練されたACNN203は予測PRを出力する。
図5に戻ると、NMSブロック213によって、それぞれの入力画像に対し、並列ブロック部212内に並列配置されたどの1または複数の畳み込みブロックの出力が選択されたかという情報を、ラベル入手部204は入手する。ラベル入手部204が入手したラベル情報は、ブロックバイタリティデータベース205の生成に使用される。
ブロックバイタリティデータベース205は、訓練されたACNN203内の並列ブロック部212の並列畳み込みブロックのそれぞれを表すラベルを有する。各ラベルはバイナリ値、すなわち「キープ」または「ドロップ」を有する。NMSブロック213による各画像の推論中に、並列畳み込みブロックを表す対応する出力が選択された場合、「キープ」値がラベルに割り当てられる。NMSブロック213によって出力が選択されなかった並列畳み込みブロックには、「ドロップ」値が割り当てられる。
「キープ」値は、ラベルによって表される特定の並列畳み込みブロックが非常に重要であることを示し、したがって、訓練されたACNN203は、それぞれの入力画像に対して特定の並列畳み込みブロックを実行するようにポリシーNN207によってガイドされる必要がある。言い換えれば、「キープ」ラベルは、並列ブロック部212内の対応する並列畳み込みブロックが、特定の入力画像のオブジェクトに存在する特徴を抽出するのに優れていることを意味する。
同様に、「ドロップ」値は、ラベルによって表される特定の並列畳み込みブロックが重要ではなく、そのため、訓練されたACNN203は、それぞれの入力画像に対して特定の並列畳み込みブロックの実行を省略するようにポリシーNN207によってガイドされる必要があることを示す。言い換えれば、「ドロップ」値は、並列ブロック部212内の対応する並列畳み込みブロックが、入力画像のオブジェクト内の特定の特徴を抽出するのに優れていないことを示す。
したがって、並列畳み込みブロックの「キープ」値と「ドロップ」値は、訓練されたACNN203に、特定の入力画像に対してガイドされるべき決まったポリシー/スキームを表していることが導かれる。
ポリシーNN訓練部206は、訓練データベース201から画像を取得し、ブロックバイタリティデータベース205から対応するラベルを取得し、ポリシーNN207の訓練フェーズでポリシーNN207の訓練と検証を実行する。その結果、訓練されたポリシーNN207が生成される。さらに、ポリシーNN207の推論フェーズでは、ポリシーNN訓練部206は訓練データベース201から画像を取得し、ポリシーNN207にてすべての画像を推論することができる。
ポリシーNN207は、画像の形式で入力信号を受信し、複数の計算を実行し、ポリシーを生成するニューラルネットワークモデルである。ポリシーは基本的に複数のバイナリ出力である。各バイナリ出力は、訓練されたACNN203内のそれぞれの並列に配置された畳み込みブロックの実行を「キープ」または「ドロップ」することに対応する。したがって、ポリシーNN207のバイナリ出力の数は、訓練されたACNN203内の並列に配置された畳み込みブロックの数と少なくとも等しくなる。ポリシーNN207が訓練フェーズを経た後、ポリシーNN207は、ここでは訓練されたポリシーNN207という。
モデル訓練システム200は、ブロックバイタリティデータベース205(すなわち、ブロックバイタリティデータベース205のラベル)とポリシーNN訓練部206を使用して、訓練されたポリシーNN207をこのようにして生成する。
図7のフローチャートを参照して、本実施形態の処理例を説明する。
まず、モデル訓練システム200は、訓練データベース201とACNN訓練部202を使用して、訓練されたACNN203を生成する。具体的には、ACNN203の訓練フェーズで、ACNN訓練部202は、訓練データベース201からラベルとともに画像を取得し、ACNN203を訓練して、訓練されたACNN203を生成する(図7のステップS21)。
次に、ACNN203の訓練フェーズの後、モデル訓練システム200は、訓練されたACNN203の推論フェーズでACNN訓練部202を使用する(図7のステップS22)。訓練されたACNN203の推論フェーズでは、訓練されたACNN203は、訓練データベース201内のすべての画像を推論する。推論中、すなわち各画像の順伝播中に、訓練されたACNN203のすべての畳み込みブロックが実行される。
推論中、カスケードブロック部211内のカスケード配置された畳み込みブロックとは反対に、並列ブロック部212内の並列配置された畳み込みブロックは独立して実行される。NMSブロック213は、NMSの結果に基づいて、訓練されたACNN203の予測を出力する。
同一の訓練されたACNN203内のすべての並列畳み込みブロックの出力は、入力画像ごとに異なっていてもよい。出力の一例は、オブジェクト検出タスクにあり、すべての並列畳み込みブロックは、それぞれが複数のクラスに対する信頼度スコアを有するバウンディングボックスを予測する。ただし、これらはこの例に限定されない。特定のクラスの小さなオブジェクトを含む入力画像の場合、異なる並列畳み込みブロックは、より大きなオブジェクトまたは異なるクラスを含む入力画像の他の場合と比較して、異なる信頼度スコアとバウンディングボックスを有することになる。
図8及び9はそれぞれ、入力画像1及び入力画像2に対する並列畳み込みブロックの出力のサンプル例を、表形式で示す。図8の列C11と図9の列C21は、それぞれ画像、すなわち画像1と画像2の名前を表す。図8の列C12と図9の列C22はそれぞれ並列ブロック、すなわちブロックP1からPMを表す。図8の列C13と図9の列C23は、それぞれ複数クラスに対する信頼度スコアの配列のリストを表す。列C13とC23の各配列の要素のシーケンスは、予測されるオブジェクトのクラスのシーケンスに対応する。図8の列C14と図9の列C24は、それぞれクラスのシーケンスを表す。この実施形態では、オブジェクトのクラスの例は「犬」と「猫」である。図8の列C15と図9の列C25は、それぞれの並列畳み込みブロックによって予測されるバウンディングボックスのリストを表す。
事前定義された閾値スコアよりも高い信頼度スコアを有する並列ブロック部212内の並列畳み込みブロックの出力は、図6のNMSブロック213によって、その出力として選択される。
図8及び9のサンプル訓練例について、事前定義された閾値スコアが0.5であるとする。次に、NMSブロック213は、入力画像1に対する並列畳み込みブロックのすべての出力から、ブロックP2の出力を選択する。選択の理由は、図8では、ブロックP2だけが信頼度スコア0.82、すなわち0.5を超えたスコアを有するためである。
図10は、図8に関する状況を示す。図10では、NMSブロック213によって選択されたブロックP2が、太字のエッジで縁取られた白いブロックとして示される。ただし、NMSブロック213によって選択されていない並列ブロック部212内の他のブロックは、ハッチングされたブロックとして示される。
同様に、NMSブロック213は、入力画像2に対する並列畳み込みブロックのすべての出力から、ブロックPMの出力を選択する。選択の理由は、図9では、ブロックPMだけが信頼度スコア0.71、すなわち0.5を超えたスコアを有するためである。
図11は、図9に関する状況を示す。図11では、NMSブロック213で選択されたブロックPMは、太字のエッジで縁取られた白いブロックとして示される。ただし、NMSブロック213によって選択されていない並列ブロック部212内の他のブロックは、ハッチングされたブロックとして示される。
前述のように、NMSブロック213によって、それぞれの入力画像に対し、1または複数のどの並列畳み込みブロックの出力が選択されたかという情報は、ラベル入手部204で入手される。ラベル入手部204は、この情報を使用して、ブロックバイタリティデータベース205を生成する。ブロックバイタリティデータベース205は、並列ブロック部212内の並列畳み込みブロックに対する「キープ」および「ドロップ」値の情報を有する。このようにして、訓練データベース201内のすべての画像に対して、訓練されたACNN203の推論フェーズからキープ/ドロップラベルが生成され、これらのキープ/ドロップラベルは、訓練データベース内のそれぞれの画像とともに、ポリシーNN訓練部206によるポリシーNN207の訓練に使用されることで、優れたポリシーNNモデルが取得できる。この処理を、図7のステップS22の「各訓練画像のラベリング」という。
訓練データベース201のすべての画像が訓練されたACNN203で推論されると、図7のステップS22の最後において、ブロックバイタリティデータベース205といわれる新しいデータベースが取得される。
図12は、ブロックバイタリティデータベース205内のラベル情報のサンプル例を、表形式で示す。先に説明したように、画像1については、NMSブロック213によってブロックP2が選択されるため、図12では「キープ」値が割り当てられている。これに対して、並列ブロック部212内の他のブロックは、NMSブロック213によって選択されないため、図12では「ドロップ」値が割り当てられている。
同様に、画像2については、NMSブロック213によってブロックPMが選択されるため、図12では「キープ」値が割り当てられている。これに対して、並列ブロック部212内の他のブロックは、NMSブロック213によって選択されないため、図12では「ドロップ」値が割り当てられている。
ポリシーNN訓練部206は、ブロックバイタリティデータベース205からラベルとともに画像を取得し、ポリシーNN207の訓練と検証を実行する機能を有する。
上記のように、ポリシーNN207によって生成されるポリシーは、基本的に複数のバイナリ出力である。各バイナリ出力は、訓練されたACNN203内のそれぞれの並列に配置された畳み込みブロックの実行を「キープ」または「ドロップ」することに対応する。
ポリシーNN207の訓練フェーズでは、ポリシーNN訓練部206は、ポリシーNN207を訓練して、訓練されたポリシーNN207を生成する(図7のステップS23)。そのために、ポリシーNN訓練部206は、ブロックバイタリティデータベース205のラベル情報を使用する。
入力画像ごとに、ポリシーNN207のために存在する修正ポリシーを学習できる点に留意する必要がある。したがって、優れたポリシーNN207のための広い探索空間の探索は必要ない。
また、モデル訓練システム200によって必要とされる追加の計算又は計算手段もない。訓練されたACNN203を取得した直後には、訓練されたACNN203にて推論フェーズを一度実行することで、訓練データベース201内のすべての画像のラベル入手に要する時間が短縮され、ポリシーNN207の訓練をすぐに開始させることができる。そのため、入力画像に対して部分的な実行を行うことが可能な、時間効率の良い訓練方法を提供することができる。
モデル訓練システム200のもう1つのキーポイントは、出力が選択されない畳み込みブロックに対応する実行が、ポリシーNN207によって省略されるようにガイドされることである。したがって、訓練されたACNN203による予測の精度低下が少ないという保証が、結論付けられることができる。
この実施形態では、並列ブロック部212(すなわち、ブロックP1、P2、...、PM)内の畳み込みブロックは、ポリシーNN207に対する選択オブジェクトである。したがって、モデル訓練システム200は、ACNN203内の不必要な並列配置の畳み込みブロックによる過剰な計算を削減することができる。
この実施形態では、ACNN203が画像認識に使用され、画像IMは計算用の入力データとしてACNN203に入力される。したがって、モデル訓練システム200は、画像認識の分野における冗長な計算を削減することができる。
さらに、並列ブロック部212内の畳み込みブロックは、ポリシーNN207に対する選択オブジェクトであり、異なる畳み込みブロックは、画像内のオブジェクトの特徴の異なるバリエーション(具体的には、取り得る形状のバリエーション)を抽出する。したがって、モデル訓練システム200は、より短い時間で画像内のオブジェクトの正確な形状を指定することができる。
この実施形態では、NMSブロックとラベル入手部204(ラベル生成部103に対応)は、ACNN203の推論フェーズ中にラベル情報を生成する。したがって、ラベル情報を生成するための新しいデータを準備する必要がないため、モデル訓練システム200は、ポリシーNN207の訓練の時間を短縮することができる。
この実施形態では、ラベル入手部204は、NMSの機能に基づいてラベル情報を生成する。そのため、モデル訓練システム200は、より短い時間でオブジェクトを検出することができる。
さらに、ラベル情報は各畳み込みブロックの信頼度スコアに基づいて生成される。そのため、モデル訓練システム200によって、高い精度でのオブジェクト検出を行うことができる。
なお、本開示の説明において、文脈上、明示的に別段の定めがない限り、単数形「a」、「an」及び「the」で表される要素は、単一の要素だけでなく、複数の要素であってもよいことに留意されたい。
なお、本発明は、上記の実施形態に限定されるものではなく、本発明の精神を逸脱することなく、適宜修正することができることに留意されたい。例えば、計算対象は画像に限定されない。
実施の形態2では、訓練データベース201、ACNN203、ブロックバイタリティデータベース205、及びポリシーNNモデル207のうち少なくとも1つが、情報処理装置Pの外部に配置されてもよい。
次に、上記の複数の実施形態で説明された情報処理装置の構成例について、図13を参照して以下で説明する。
図13は、情報処理装置の構成例を示すブロック図である。情報処理装置90は、図13に示すように、ネットワークインターフェース91、プロセッサ92及びメモリ93を備える。
ネットワークインターフェース91は、通信システムを構成する他のネットワークノード装置との通信に使用される。たとえば、ネットワークインターフェース91は、訓練データベース201および/またはブロックバイタリティデータベース205に格納されているデータを受信してもよい。
プロセッサ92は、メモリ93からソフトウェア(コンピュータプログラム)をロードし、ロードされたソフトウェアを実行することによって、上記の実施形態の図面を参照して説明された処理を行う。プロセッサ92は、例えば、マイクロプロセッサ、MPU(Micro Processing Unit)、又はCPU(Central Processing Unit)であってもよい。プロセッサ92は、複数のプロセッサを含んでもよい。この場合、各プロセッサは、命令群を含む1または複数のプログラムを実行して、図面を参照して上記で説明したアルゴリズムをコンピュータに実行させる。
メモリ93は揮発性メモリで構成されてもよいし、不揮発性メモリで構成されてもよいが、メモリ93は揮発性メモリと不揮発性メモリの組み合わせで構成されてもよい。メモリ93は、プロセッサ92から離間して配置されたストレージを含んでもよい。この場合、プロセッサ92はI/Oインターフェース(不図示)を介してメモリ93にアクセスしてもよい。
図13に示された例では、ソフトウェアモジュール群を格納するためにメモリ93が使用されている。プロセッサ92は、メモリ93からソフトウェアモジュール群を読み込み、読み込んだソフトウェアモジュールを実行することで、上記の実施形態で説明された処理を行うことができる。
上述のように、上記の実施形態での各構成は、ハードウェアとソフトウェア(コンピュータプログラム)の組み合わせで構成されてもよい。ただし、各構成は、単独のハードウェアまたはソフトウェアで構成されてもよいし、複数のハードウェアまたはソフトウェアで構成されてもよい。
上記の例では、プログラムは格納され、任意の種類の非一時的なコンピュータ可読媒体を使用してコンピュータに提供されることができる。非一時的なコンピュータ可読媒体には、任意の種類の有形記憶媒体が含まれる。非一時的なコンピュータ可読媒体の例としては、磁気記憶媒体(例えば、フロッピーディスク、磁気テープ、ハードディスクドライブなど。)、光磁気記憶媒体(例えば光磁気ディスク)、CD-ROM(compact disc read only memory)、CD-R(compact disc recordable)、CD-R/W(compact disc rewritable)、及び半導体メモリ(例えば、マスクROM、PROM(programmable ROM)、EPROM(erasable PROM)、フラッシュROM、RAM(random access memory)など)がある。プログラムは、任意の種類の一時的なコンピュータ可読媒体を使用してコンピュータに提供されてもよい。一時的なコンピュータ可読媒体の例としては、電気信号、光信号、電磁波がある。一時的なコンピュータ可読媒体は、有線通信回線(例えば、電線、光ファイバー)または無線通信回線を介してコンピュータにプログラムを提供することができる。
なお、本開示は、上記の実施形態に限定されるものではなく、本開示の趣旨及び範囲を逸脱せずに、適宜修正することができる。
100 情報処理装置
101 ACNN訓練部
102 ACNNモデル
103 ラベル生成部
104 ポリシーNN訓練部
105 ポリシーNNモデル
200 モデル訓練システム
201 訓練データベース
202 ACNN訓練部
203 ACNNモデル
204 ラベル入手部
205 ブロックバイタリティデータベース
206 ポリシーNN訓練部
207 ポリシーNNモデル
211 カスケードブロック部
212 並列ブロック部
213 NMSブロック

Claims (9)

  1. 入力データを用いてACNNモデルを訓練する人工畳み込みニューラルネットワーク(ACNN)訓練手段と、
    ラベル情報を生成するラベル生成手段と、
    前記ラベル情報を用いてポリシーNNモデルを訓練するポリシーニューラルネットワーク(NN)訓練手段を備え、
    前記ACNNモデルは複数の畳み込みブロックを含み、
    前記ラベル情報は、前記ACNNモデル内のどの畳み込みブロックを前記入力データの計算に使用すべきかを示し、
    前記ポリシーNNモデルは、前記ACNNモデル内のどの畳み込みブロックを計算に使用すべきかを決定するために使用される、
    情報処理装置。
  2. 前記ACNNモデル内の前記畳み込みブロックは並列に配置される、
    請求項1に記載の情報処理装置。
  3. 前記ACNNモデルは画像認識に使用され、画像が前記ACNNモデルに入力され、前記画像は前記計算用の前記入力データである、
    請求項1及び2に記載の情報処理装置。
  4. 前記ACNNモデル内の前記畳み込みブロックは並列に配置され、前記ACNNモデル内の異なる畳み込みブロックは、前記画像内のオブジェクトの異なる可能な特徴のバリエーションを抽出する、
    請求項3に記載の情報処理装置。
  5. 前記ラベル生成手段は、前記入力データを用いて、前記ACNNモデルの推論フェーズ中に前記ラベル情報を生成する、
    請求項1乃至4のいずれか1項に記載の情報処理装置。
  6. 前記ラベル生成手段は、非極大値抑制(NMS)の機能に基づいて前記ラベル情報を生成する、
    請求項1乃至5のいずれか1項に記載の情報処理装置。
  7. 前記ラベル情報は、前記ACNNモデル内の各畳み込みブロックの信頼度スコアにもさらに基づく、
    請求項6に記載の情報処理装置。
  8. 入力データを用いて人工畳み込みニューラルネットワーク(ACNN)モデルを訓練し、
    ラベル情報を生成し、
    前記ラベル情報を用いてポリシーニューラルネットワーク(NN)モデルを訓練し、
    前記ACNNモデルは複数の畳み込みブロックを含み、
    前記ラベル情報は、前記ACNNモデル内のどの畳み込みブロックを前記入力データの計算に使用すべきかを示し、
    前記ポリシーNNモデルは、前記ACNNモデル内のどの畳み込みブロックを計算に使用すべきかを決定するために使用される、
    情報処理方法。
  9. 入力データを用いて人工畳み込みニューラルネットワーク(ACNN)モデルを訓練し、
    ラベル情報を生成し、
    前記ラベル情報を用いてポリシーニューラルネットワーク(NN)モデルを訓練し、
    前記ACNNモデルは複数の畳み込みブロックを含み、
    前記ラベル情報は、前記ACNNモデル内のどの畳み込みブロックを前記入力データの計算に使用すべきかを示し、
    前記ポリシーNNモデルは、前記ACNNモデル内のどの畳み込みブロックを計算に使用すべきかを決定するために使用される、
    ことをコンピュータに実行させるためのプログラムを格納した非一時的なコンピュータ可読媒体。
JP2023528196A 2020-11-13 2020-11-13 情報処理装置、情報処理方法及びプログラム Pending JP2023549198A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/042509 WO2022102100A1 (en) 2020-11-13 2020-11-13 Information processing apparatus, information processing method, and computer readable medium

Publications (1)

Publication Number Publication Date
JP2023549198A true JP2023549198A (ja) 2023-11-22

Family

ID=81602416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023528196A Pending JP2023549198A (ja) 2020-11-13 2020-11-13 情報処理装置、情報処理方法及びプログラム

Country Status (2)

Country Link
JP (1) JP2023549198A (ja)
WO (1) WO2022102100A1 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6831347B2 (ja) * 2018-04-05 2021-02-17 日本電信電話株式会社 学習装置、学習方法および学習プログラム

Also Published As

Publication number Publication date
WO2022102100A1 (en) 2022-05-19

Similar Documents

Publication Publication Date Title
CN110807515B (zh) 模型生成方法和装置
US10719423B2 (en) Apparatus and method for application deployment assessment
JP6404564B2 (ja) デコーダ、デコード方法およびプログラム
KR101869438B1 (ko) 딥 러닝을 이용하여 환자의 진단 이력으로부터 질병 예후를 예측하는 방법 및 시스템
US20210233391A1 (en) Method and device for predicting traffic flow or travel time period
JP2018092614A (ja) データベースのための畳み込みニューラルネットワークモデルの決定装置及び決定方法
CN114580263A (zh) 基于知识图谱的信息系统故障预测方法及相关设备
US20210406683A1 (en) Learning method and information processing apparatus
US20230385596A1 (en) Method and system for evaluating consistency of an engineered system
CN111966334A (zh) 一种业务处理方法、装置及设备
KR102142943B1 (ko) 클라우드 기반의 인공지능 연산 서비스 방법 및 이를 수행하는 장치
US20210397948A1 (en) Learning method and information processing apparatus
CN116702835A (zh) 神经网络推理加速方法、目标检测方法、设备及存储介质
JPWO2019189249A1 (ja) 学習装置、学習方法、及びプログラム
JP2023549198A (ja) 情報処理装置、情報処理方法及びプログラム
CN115917562A (zh) 深度学习模型的推理方法、装置、计算机设备和存储介质
CN116308738B (zh) 一种模型训练的方法、业务风控的方法及装置
CN114242196B (zh) 临床医疗记录自动生成方法和装置
CN115409168A (zh) 神经网络优化方法及其装置
CN110021166B (zh) 用于处理用户出行数据的方法、装置和计算设备
KR20220099487A (ko) 멀티에이전트 강화학습에서 호기심 기반 탐색 및 경험 데이터 우선순위 결정 방법
US20230023899A1 (en) Policy learning method, policy learning apparatus, and program
JP4230890B2 (ja) モデル同定装置,モデル同定プログラム及びモデル同定装置の動作方法
JP6984729B2 (ja) 意味推定システム、方法およびプログラム
WO2019171538A1 (ja) 意味推定システム、方法およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230510

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230510