JP2019515376A

JP2019515376A - 直列畳み込みニューラルネットワーク

Info

Publication number: JP2019515376A
Application number: JP2018554684A
Authority: JP
Inventors: ウルフ，ライオア; ムシンスキー，アサフ
Original assignee: ラモットアットテルアビブユニバーシティ，リミテッド
Priority date: 2016-04-21
Filing date: 2017-04-20
Publication date: 2019-06-06
Anticipated expiration: 2037-04-20
Also published as: JP7041427B2

Abstract

少なくとも１つの画像内の少なくとも１つのオブジェクトを検出する畳み込みニューラルネットワークシステム。本システムは、少なくとも１つの画像内の予め定められた画像ウインドウサイズに対応する複数のオブジェクト検出器を含む。各々のオブジェクト検出器は、少なくとも１つの画像に対するそれぞれのダウンサンプリング比と関連付けられる。各々のオブジェクト検出器は、それぞれの畳み込みニューラルネットワーク及び畳み込みニューラルネットワークと結合されたオブジェクト分類器を含む。それぞれの畳み込みニューラルネットワークは、複数の畳み込み層を含む。オブジェクト分類器は、畳み込みニューラルネットワークからの結果に従って、画像内のオブジェクトを分類する。同一のそれぞれのダウンサンプリング比と関連付けられたオブジェクト検出器は、オブジェクト検出器の少なくとも１つのグループを定義する。オブジェクト検出器のグループにおけるオブジェクト検出器は、共通畳み込み層と関連付けられる。【選択図】図４

Description

開示される技術は概して、ニューラルネットワークに関し、特に、直列畳み込みニューラルネットワークについての方法及びシステムに関する。

本分野において畳み込みニューラルネットワーク（ＣＮＮ）が知られている。そのようなネットワークは典型的には、画像内のオブジェクト検出及び分類のために採用される。畳み込みニューラルネットワーク（ＣＮＮ）は典型的には、更に多くの層のうちの１つから構築される。各々の層において、演算が実行される。典型的には、この演算は、活性化関数による畳み込み演算及び乗算のうちの１つである、この演算は更に、ダウンサンプリングとも称されるプーリングを含むことがある。

層ごとに、それぞれの組のメタパラメータが定義される。それらのメタパラメータは、採用されるフィルタの数、フィルタのサイズ、畳み込みのストライド、ダウンサンプリング比、ダウンサンプリングサイズのサイズ、そのストライド、及び採用される活性化関数などを含む。ここで、本分野において既知である、全体的に１０と参照符号が付されるＣＮＮを概略的に表す図１を参照する。ＣＮＮ１０は、画像１６などの画像内の特徴を検出するために採用される。ニューラルネットワーク１０は、層１２_１（図１）などの複数の層を含む。ＣＮＮ１０は、複数の層１２_１、１２_２、…、１２_Ｎ、及び分類器１４を含む。入力画像１６は、層１２_１に供給される。層１２_１は少なくとも、そのそれぞれのフィルタにより画像１６を畳み込み、活性化関数によってフィルタの出力の各々を乗算する。層１２_１は、その出力を層１２_２に提供し、層１２_２は、それぞれのフィルタによりそれぞれのその演算を実行する。この処理は、層１２_Ｎの出力が分類器１４に提供されるまで繰り返す。層１２_Ｎの出力は、ＣＮＮ１０において採用されるフィルタに対応する特徴のマップである。この特徴マップは、特徴マップと関連付けられたそれぞれの画像ウインドウ内の入力画像１６に特徴が存在する確率に関連する。層１２_Ｎの出力における特徴マップは、各々が特徴に対応する複数のマトリックスとして具体化されることがあり、各々のマトリックスにおけるエントリの値は、マトリックスにおけるエントリの位置（すなわち、エントリのインデックス）と関連付けられた特定の画像ウインドウ（すなわち、境界ボックス）内で、そのマトリックスと関連付けられた特徴を入力画像１６が含む確率を表す。画像ウインドウのサイズは、畳み込み演算の間にＣＮＮ１０における層の数、カーネルのサイズ、及びカーネルのストライドに従って判定される。

分類器１４は、本分野において既知のいずれかのタイプの分類器であってもよい（例えば、ランダムフォレスト分類器、サポートベクトルマシン−ＳＶＭ分類器、及び畳み込み分類器など）。分類器１４は、ＣＮＮ１０が検出するように訓練されたオブジェクトを分類する。分類器１４は、画像ウインドウごとに、オブジェクトがその画像ウインドウ内に位置するそれぞれの検出信頼度レベルと共に分類情報を提供することができる。概して、分類器１４の出力は、対応する画像ウインドウ内のオブジェクトの検出及び分類に関連する値のベクトル（単数又は複数）である。値のこのベクトル（単数又は複数）は、本明細書で「分類ベクトル」と称される。

ここで、本分野において既知である、全体的に５０と参照符号が付される例示的なＣＮＮを概略的に表す図２を参照する。ＣＮＮは、２つの層、第１の層５１_１及び第２の層５１_２を含む。第１の層５１_１は、画像５２をそれへの入力として受信する。第１の層５１_１では、畳み込み演算が実行され、第２の層５１_２では、活性化関数が畳み込みの結果に適用される。画像５２は、画素のマトリックスを含み、各々の画素は、それぞれの値（例えば、グレーレベル値）又は値（複数）（例えば、カラー値）と関連付けられる。画像５２は、オブジェクト（例えば、通りを歩いている人間、公園で遊んでいる犬、及び通りにおける車両など）を含むシーンを表すことができる。

第１の層５１_１では、画像５２は、フィルタ５４_１及び５４_２の各々の１つにより畳み込まれる。フィルタ５４_１及び５４_２は、畳み込みカーネル又は単にカーネルとも称される。したがって、フィルタ５４_１及び５４_２の各々は、画像内の選択された位置上でシフトされる。各々の選択された位置において、フィルタにより重複する画素値は、フィルタのそれぞれの重みによって乗算され、この乗算の結果が合計される（すなわち、乗算及び和演算）。全体的に、選択された位置は、「ストライド」と称される予め定められたステップサイズによって画像上でフィルタをシフトすることによって定義される。フィルタ５４_１及び５４_２の各々は、画像内で識別されることになる特徴に対応する。フィルタのサイズと共にストライドは、ＣＮＮの設計者によって選択された設計パラメータである。フィルタ５４_１及び５４_２の各々より画像５２を畳み込むことは、２つの特徴画像又はマトリックス、フィルタ５４_１及び５４_２のそれぞれの特徴画像５６_１及び特徴画像５６_２を含む特徴マップを作成する（すなわち、それぞれの画像はフィルタごとに作成される）。特徴画像内の各々の画素又はエントリは、１つの乗算及び和演算の結果に対応する。よって、マトリックス５６_１及び５６_２の各々は、フィルタ５４_１及び５４_２のそれぞれに対応するそれぞれの画像特徴と関連付けられる。また、各々のエントリは、入力画像５２に対してそれぞれの画像ウインドウと関連付けられる。したがって、マトリックス５６_１及び５６_２の各々内の各々のエントリの値は、エントリと関連付けられた画像ウインドウ内で、それと関連付けられた特徴の特徴強度を表す。特徴画像５６_１及び５６_２のサイズ（すなわち、画素の数）は、画像５２のサイズよりも小さいことがあることに留意されたい。第１の層５１_１の出力は、第２の層５１_２に提供される。第２の層５１_２では、特徴画像５６_１及び５６_２の各々における各値は次いで、入力として活性化関数５８（例えば、シグモイド、ガウス、及び双曲型ｔａｎｈなど）に適用される。層５１_２の出力は次いで、分類器６０に提供され、分類器６０は、画像５２内のオブジェクトを検出及び分類し、特徴マップにおいてエントリごとに分類ベクトルを作成する。

画像内のオブジェクトを検出及び分類する前に、ＣＮＮ１０（図１）又はＣＮＮ５０（図２）などのＣＮＮによって採用される関数の様々なフィルタの重み及びパラメータが判定される必要がある。それらの重み及びパラメータは、訓練工程において判定される。ＣＮＮの初期重み及びパラメータ（すなわち、訓練が開始される前）が適宜判定される（例えば、ランダムに）。訓練の間、その中でオブジェクトが検出及び分類されている訓練画像又は画像（複数）は、入力としてＣＮＮに提供される。言い換えると、画像ウインドウごとに予め定められたそれぞれの分類ベクトルを有する画像は、入力としてＣＮＮに提供される。ＣＮＮネットワークの層は、各々の訓練画像に適用され、分類ベクトル、各々の訓練画像のそれぞれが判定される（すなわち、その中のオブジェクトが検出及び分類される）。それらの分類ベクトルは、予め定められた分類ベクトルと比較される。ＣＮＮの分類ベクトルと予め定められた分類ベクトルとの間の誤差（例えば、差異の二乗和、ログ損失、ｓｏｆｔｍａｘｌｏｇ損失）が判定される。この誤差は次いで、１つ以上の反復を含むことがある、逆伝播工程においてＣＮＮの重み及びパラメータを更新するために採用される。

公開文献「ＡｃｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋＣａｓｃａｄｅｆｏｒＦａｃｅＤｅｔｅｃｔｉｏｎ」、Ｌｉ等は、ネットワークの３つのペアを含むＣＮＮに関する。各々のペアは、分類（検出）ネットワーク及び境界ボックス回帰ネットワークを包含する。検出の間、画像プラミッドは、画像のマルチスケールスキャニングを可能にするように生成される。次いで、第１の分類ネットワーク（ＤＥＴ１２）が、画像内の全てのウインドウをスキャンし、低信頼度を示すそれらをフィルタするために採用される。第１の境界ボックス回帰ネットワーク（ＣＬＢ１２）が、全ての残りのウインドウの位置を補正するために採用される。非最大抑制（Ｎｏｎ−ｍａｘｉｍａｌｓｕｐｐｒｅｓｓｉｏｎ）が次いで、高重複部分を有するウインドウを除去するために適用される。次の段階では、境界ボックス回帰を実行する第２の境界ボックス回帰ネットワーク（ＣＬＢ２４）がそれに続く、第２の分類ネットワーク（ＤＥＴ２４）が、残りのウインドウをフィルタするために採用される。最後に、第３の境界ボックス回帰ネットワーク（ＣＬＢ４８）がそれに続く、第３の分類ネットワーク（ＤＥＴ４８）が採用される。

開示される技術の目的は、新規の畳み込みニューラルネットワーク方法及びシステムを提供することである。よって、開示される技術に従って、少なくとも１つの画像内の少なくとも１つのオブジェクトを検出する畳み込みニューラルネットワークシステムが提供される。システムは、少なくとも１つの画像内の予め定められた画像ウインドウサイズに対応する複数のオブジェクト検出器を含む。各々のオブジェクト検出器は、少なくとも１つの画像に対してそれぞれのダウンサンプリング比と関連付けられる。各々のオブジェクト検出器は、それぞれの畳み込みニューラルネットワーク及び畳み込みニューラルネットワークと結合されたオブジェクト分類器を含む。それぞれの畳み込みニューラルネットワークは、複数の畳み込み層を含む。オブジェクト分類器は、畳み込みニューラルネットワークからの結果に従ってオブジェクトを分類する。同一のそれぞれのダウンサンプリング比と関連付けられたオブジェクト検出器は、オブジェクト検出器の少なくとも１つのグループを定義する。オブジェクト検出器のグループにおけるオブジェクト検出器は、共通畳み込み層と関連付けられる。

よって、開示される技術の別の態様に従って、複数のダウンサンプルされた画像を作成するために、複数のダウンサンプリング比に従って画像をダウンサンプリングする手順を含む畳み込みニューラルネットワーク方法が提供される。各々のダウンサンプルされた画像は、それぞれのダウンサンプリング比と関連付けられる。方法は更に、対応する畳み込みニューラルネットワークによって、ダウンサンプルされた画像ごとに少なくとも１つの画像に対して予め定められた画像ウインドウサイズにおいてオブジェクトを検出し、画像内のオブジェクトを分類する手順を含む。同一のそれぞれのダウンサンプリング比と関連付けられたそれぞれのダウンサンプルされた画像内のオブジェクトを検出する畳み込みニューラルネットワークは、畳み込みニューラルネットワークの少なくとも１つのグループを定義する。畳み込みニューラルネットワークのグループにおける畳み込みニューラルネットワークは、共通畳み込み層と関連付けられる。

開示される技術は、図面と併用される以下の詳細な説明からより完全に理解及び認識されよう。

本分野において既知であるＣＮＮを概略的に表す。本分野において既知である例示的なＣＮＮを概略的に表す。開示される技術の実施形態に従って入力画像内のオブジェクトを検出するＣＮＮシステムを概略的に表す。開示される技術の実施形態に従って入力画像内のオブジェクトを検出するＣＮＮシステムを概略的に表す。開示される技術の別の実施形態に従って構築され、動作可能である、入力画像内のオブジェクトを検出する例示的なＣＮＮシステムを概略的に表す。開示される技術の更なる実施形態に従って訓練セットを判定するために採用される、その中にオブジェクトを有する画像を概略的に表す。開示される技術の更なる実施形態に従って訓練セットを判定するために採用される、その中にオブジェクトを有する画像を概略的に表す。開示される技術の更なる実施形態に従って訓練セットを判定するために採用される、その中にオブジェクトを有する画像を概略的に表す。開示される技術の更なる実施形態に従って訓練セットを判定するために採用される、その中にオブジェクトを有する画像を概略的に表す。開示される技術の更なる実施形態に従って訓練セットを判定するために採用される、その中にオブジェクトを有する画像を概略的に表す。開示される技術の更なる実施形態に従って訓練セットを判定するために採用される、その中にオブジェクトを有する画像を概略的に表す。開示される技術の更なる実施形態に従って訓練セットを判定するために採用される、その中にオブジェクトを有する画像を概略的に表す。開示される技術の更なる実施形態に従って訓練セットを判定するために採用される、その中にオブジェクトを有する画像を概略的に表す。開示される技術の別の実施形態に従って動作可能である、ニューラルネットワークについての訓練セットを判定する方法を概略的に表す。開示される技術の更なる実施形態に従って動作可能である、ＣＮＮについての方法を概略的に表す。

開示される技術は、画像内のオブジェクトを検出するＣＮＮネットワークシステムを提供することによって従来技術の欠点を解消する。開示される技術に従ったＣＮＮネットワークは、複数のオブジェクト検出器を含む。各々のオブジェクト検出器は、画像内のそれぞれの予め定められた画像ウインドウサイズと関連付けられる。各々のオブジェクト検出器は、画像に対するそれへの入力におけるそれぞれのダウンサンプリング比と関連付けられる。各々のオブジェクト検出器は、複数の畳み込み層を含むそれぞれのＣＮＮを少なくとも含む。各々の畳み込み層は、複数のフィルタによりそれへの入力を畳み込み、この畳み込みの結果が活性化関数によって処理される。各々のオブジェクト検出器は更に、畳み込みニューラルネットワークからの結果に従って画像内のオブジェクトを分類する、畳み込みニューラルネットワークと結合されたオブジェクト分類器を含む。同一のそれぞれのダウンサンプリング比と関連付けられたオブジェクト検出器は、オブジェクト検出器の少なくとも１つのグループを定義する。オブジェクト検出器のグループにおけるオブジェクト検出器は、共通畳み込み層を共有する。よって、それらの共通畳み込み層は、オブジェクト検出器のグループにおける全てのオブジェクト検出器について一回算出されてもよい。

また、開示される技術に従って、ＣＮＮ入力画像に対する同一のそれぞれの画像ウインドウサイズと関連付けられたオブジェクト検出器は、スケール検出器を定義する。各々のスケール検出器は、ＣＮＮ入力画像のそれぞれのスケールと関連付けられる。スケール検出器がオブジェクト検出器及びダウンサンプラの同一の構成を示すとき、並びにオブジェクト検出器におけるＣＮＮが同様の特性を有する層のグループを示すとき、オブジェクト検出器は次いで、以下で更に説明される共通層を有するように訓練される。訓練スケール検出器のＣＮＮの重み及びパラメータが判定されると、この訓練スケール検出器の複製は、開示される技術のＣＮＮシステムを定義するように配置される。

また、ＣＮＮを訓練するために採用されるサンプルの数は、図５Ａ〜５Ｈ及び６と共に更に説明されるように、各々のサンプルを特徴参照位置と位置合わせし、サンプルをランダムに摂動させることによって初期数を上回って増加することができる。

ここで、開示される技術実施形態に従って、入力画像１０６内のオブジェクトを検出する、全体的に１００と参照符号が付されるＣＮＮシステムを概略的に表す、図３Ａ及び３Ｂを参照する。ＣＮＮシステム１００は、複数のスケール検出器１０２_１、１０２_２、…、１０２_Ｎ、及び複数のダウンサンプラ１０４_１〜１０４_Ｎ−１を含む。ダウンサンプラ１０４_１〜１０４_Ｎ−１の各々は、それぞれのダウンサンプリング比と関連付けられる。スケール検出器１０２_２、…、１０２_Ｎの各々は、それへの入力において、それぞれのダウンサンプラ１０４_１〜１０４_Ｎ−１と結合される。よって、各々のスケール検出器は、入力画像１０６に対するそれぞれのダウンサンプリング比（すなわち、スケール）と関連付けられる。スケール検出器１０２_１は、その入力において、入力画像１０６を受信する（すなわち、スケール検出器１０２_１のそれぞれのダウンサンプリング比は１つである）。システム１００は、複数のスケールオブジェクト検出器として見なされてもよく、スケール検出器１０２_２、…、１０２_Ｎの各々は、その入力において入力画像１０６のダウンサンプルされたバージョンを受信する。言い換えると、スケール検出器１０２_１、１０２_２、…、１０２_Ｎの各々は、入力画像１０６のそれぞれのスケールと関連付けられる。図３Ａでは、ダウンサンプラ１０４_１〜１０４_Ｎ−１は、直列のダウンサンプラに配置され、各々のダウンサンプラは、その入力において前のダウンサンプラの出力を受信する（すなわち、その入力において入力画像１０６を受信するダウンサンプラ１０４_１を除き）。しかしながら、ダウンサンプラ１０４_１〜１０４_Ｎ−１は、並列に配置されてもよく、各々のダウンサンプラは、その入力において入力画像１０６を受信し、スケール検出器１０２_２、…、１０２_Ｎのそれぞれの１つと関連付けられた対応するダウンサンプリング比によって入力画像１０６をダウンサンプルする。

図３Ｂを参照して、そこで表されるのは、スケール検出器１０２_１、１０２_２、…、１０２_Ｎのうちの１つであるスケール検出器１０２_ｉである。オブジェクト検出器１０２_ｉは、複数のオブジェクト検出器１０８_１、１０８_２、…、１０８_Ｌ、及び複数のＬ−１ダウンサンプラを含み、複数のＬ−１ダウンサンプラから、ダウンサンプラ１１０_Ｌ−１及び１１０_Ｌ−２が図３Ｂにおいて表される。オブジェクト検出器１０８_１、１０８_２、…、１０８_Ｌの各々は、それぞれのＣＮＮ及び分類器を含む。各々のＣＮＮは、複数の畳み込み層を含む。オブジェクト検出器１０８_１は、Ｍ１層を含み、オブジェクト検出器１０８_２は、Ｍ２層を含み、オブジェクト検出器１０８_３は、Ｍ３層を含み、Ｍ１、Ｍ２、及びＭ３は、整数である。一般性の喪失なく、Ｍ３＞＝Ｍ２＞＝Ｍ１である。

オブジェクト検出器の各々はまた、それへの入力における画像に対するそれぞれの画像ウインドウサイズと関連付けられる。図３Ｂにおいて示される例では、オブジェクト検出器１０８_１は、それへの入力におけるダウンサンプルされた画像に対するＩ１×Ｉ２の画像ウインドウサイズと関連付けられ、オブジェクト検出器１０８_２は、それへの入力におけるダウンサンプルされた画像に対するＫ１×Ｋ２の画像ウインドウサイズと関連付けられ、オブジェクト検出器１０８_Ｌは、それへの入力における画像に対するＪ１×Ｊ２の画像ウインドウサイズと関連付けられる（すなわち、それは、ダウンサンプルされた画像、又はオブジェクト検出器１０８_Ｌがスケール検出器１０２_１に位置するときの元の入力画像１０６であってもよい）。Ｉ１、Ｋ１、及びＪ１は、画像ウインドウサイズの幅に対応し、Ｉ２、Ｋ２、及びＪ２は、画像ウインドウサイズの高さに対応する。そのようにして、オブジェクト検出器１０８_１、１０８_２、…、１０８_Ｌの各々は、入力画像１０６に対する同一のそれぞれの画像ウインドウサイズと関連付けられる。このそれぞれの画像ウインドウサイズ（すなわち、受入領域）は、畳み込み演算の間に、それへの入力における各々の１０８_１、１０８_２、…、１０８_Ｌと関連付けられたダウンサンプリング比、各々のオブジェクト検出器における畳み込み層の数、カーネルのサイズ、及びカーネルのストライドと関連付けられる。

各々のＣＮＮの出力は、それぞれの分類器と結合される。検出器１０８_１、１０８_２、…、１０８_Ｌ−１の各々の１つの入力は、それぞれのダウンサンプラと結合される。各々のダウンサンプラ、及びオブジェクト検出器１０８_Ｌは、画像１０５を受信し、画像１０５は、その入力における入力画像１０６のダウンサンプルされたバージョンであってもよい。ダウンサンプラの各々は、それぞれのダウンサンプリング比によってそれへの入力画像をダウンサンプルし、ダウンサンプルされた画像をオブジェクト検出器１０８_１、１０８_２、…、１０８_Ｌ−１のそれぞれの１つに提供する。その結果、１０８_１、１０８_２、…、１０８_Ｌの各々は、入力画像１０６に対するそれぞれのダウンサンプリング比と関連付けられる。このそれぞれのダウンサンプリング比は、ダウンサンプラ１０４_１〜１０４_Ｎ−１のダウンサンプリング比及びオブジェクト検出器１０８_１、１０８_２、…、１０８_Ｌの各々と結合されたダウンサンプラのダウンサンプリング比によって判定される。

オブジェクト検出器１０８_１、１０８_２、…、１０８_Ｌの各々におけるそれぞれのＣＮＮの各々の層は、対応するフィルタによりそれに提供された画像を畳み込む。各々のＣＮＮの出力は、ＣＮＮによって採用されるフィルタに対応する特徴のマップである。特徴マップは、値のエントリを含む。特徴マップにおける各々のエントリの各値は、エントリと関連付けられた画像ウインドウ内で、様々なフィルタと関連付けられた特徴の特徴強度を表す。この特徴マップは、それぞれの分類器に提供される。各々の分類器は、ＣＮＮシステム１００が検出するように訓練されたオブジェクトを分類し、画像ウインドウごとに、分類ベクトルを提供する。この分類ベクトルは、オブジェクトがその画像ウインドウ内に位置する検出信頼度レベルに関連する値を含み、更に、以下で更に詳しく述べられるように、画像ウインドウ補正係数を含んでもよい（すなわち、境界ボックス回帰）。

図４と共に以下で更に例示されるように、オブジェクト検出器１０８_１、１０８_２、…、１０８_Ｌの各々は、入力画像１０４に対するそれぞれのダウンサンプリング比と関連付けられる。同一のそれぞれのダウンサンプリング比を有するオブジェクト検出器は、オブジェクト検出器のグループを定義する。開示される技術に従って、オブジェクト検出器のグループにおけるオブジェクト検出器は、共通畳み込み層と関連付けられる（すなわち、それらのオブジェクト検出器への入力画像が同一であるから）。そのようにして、それらの共通畳み込み層は、オブジェクト検出器のグループごとに１回算出される必要がある。

上記言及されたように、オブジェクト検出器１０８_１、１０８_２、…、１０８_Ｌの各々の出力は、入力画像１０６に対するそれぞれの画像ウインドウサイズと関連付けられる。そのようにして、複数のスケール検出器が採用されるとき、同一のそれぞれの画像ウインドウサイズと関連付けられた２つ以上のオブジェクト検出器が存在することができる。したがって、それらのオブジェクト検出器のうちの１つのみが、入力画像１０４内のオブジェクト（すなわち、それぞれの画像ウインドウサイズと関連付けられた画像ウインドウ内の）を検出及び分類するために採用されてもよい。しかしながら、検出信頼度レベルが十分でない場合、より多くの数の層を有する別のオブジェクト検出器が採用されてもよく、よって、算出の複雑度を低減させる（すなわち、平均で）（例えば、実行される演算の数の点で）。他のオブジェクト検出器は、オブジェクトが予め定められた値を上回ってそこに位置する確率により画像ウインドウのみを処理する。言い換えると、他のオブジェクト検出器を採用する前に、背景に関連する画像ウインドウは、第１のオブジェクト検出器によって判定された確率に従って除去される。

ここで、開示される技術の別の実施形態に従って構築され、動作可能である、入力画像内のオブジェクトを検出する、全体的に２００と参照符号が付される例示的なＣＮＮシステムを概略的に表す、図４を参照する。例示的なＣＮＮシステム２００は、２つのスケール検出器、第１のスケール検出器２０２_１及び第２のスケール検出器２０２_２、並びにダウンサンプラ２１８を含む。第１のスケール検出器２０２_１及び第２のスケール検出器２０２_２の各々は、複数のオブジェクト検出器及び複数のダウンサンプラを含む。ダウンサンプラは、図４において「ＤＳ」と短縮される。第１のスケール検出器２０２_１は、オブジェクト検出器２０４_１、２０４_２、及び２０４_３．．．並びにダウンサンプラ２１０及び２１２を含む。第２のスケール検出器２０２_２は、オブジェクト検出器２０６_１、２０６_２、及び２０６_３、並びにダウンサンプラ２１４及び２１６を含む。オブジェクト検出器２０４_１、２０４_２、２０４_３、２０６_１、２０６_２、及び２０６_３の各々は、それぞれのＣＮＮ及びそれぞれの分類器（図４において「ＣＬＡＳＳ」と短縮される）２０５_１、２０５_２、２０５_３、２０７_１、２０７_２、及び２０７_３を含む。各々のＣＮＮは、複数の畳み込み層（図４において「Ｌ」と短縮される）を含む。オブジェクト検出器２０４_１及び２０６_１のＣＮＮは、Ｍ１層を含み、オブジェクト検出器２０４₂及び２０６₂のＣＮＮは、Ｍ２層を含み、オブジェクト検出器２０４_３及び２０６_３のＣＮＮは、Ｍ３層を含み、Ｍ１、Ｍ２、及びＭ３は、整数である。一般性の喪失なく、Ｍ３＞＝Ｍ２＞＝Ｍ１である。

オブジェクト検出器の各々はまた、それへの入力における画像に対するそれぞれの画像ウインドウサイズと関連付けられる。図４において示さされる例では、オブジェクト検出器２０４_１及び２０６_１は、それへの入力におけるダウンサンプルされた画像に対するＩ１×Ｉ２の画像ウインドウサイズと関連付けられ、オブジェクト検出器２０４_２及び２０６_２は、それへの入力におけるダウンサンプルされた画像に対するＫ１×Ｋ２の画像ウインドウサイズと関連付けられ、オブジェクト検出器２０４_３及び２０６_３は、それへの入力における画像に対するＪ１×Ｊ２の画像ウインドウサイズと関連付けられる（すなわち、オブジェクト検出器２０６_３への入力画像のみがダウンサンプルされる）。Ｉ１、Ｋ１、及びＪ１は、画像ウインドウサイズの幅に対応し、Ｉ２、Ｋ２、及びＪ２は、画像ウインドウサイズの高さに対応する。そのようにして、オブジェクト検出器２０４_１、２０４_２、２０４_３、２０６_１、２０６_２、及び２０６_３の各々は、入力画像２０８に対するそれぞれの画像ウインドウサイズと関連付けられる。このそれぞれの画像ウインドウサイズは、畳み込み演算の間に、それへの入力におけるオブジェクト検出器２０４_１、２０４_２、２０４_３、２０６_１、２０６_２、及び２０６_３の各々と関連付けられたダウンサンプリング比、各々のオブジェクト検出器における畳み込み層の数、カーネルのサイズ、並びにカーネルのストライドに従って判定される。入力画像２０８に対するオブジェクト検出器２０４_１、２０４_２、２０４_３、２０６_１、２０６_２、及び２０６_３の各々のそれぞれの画像ウインドウサイズは、オブジェクト検出器２０４_１、２０４_２、２０４_３、２０６_１、２０６_２、及び２０６_３の各々と関連付けられたそれぞれのダウンサンプリング比によって、それへの入力におけるそれぞれの画像ウインドウサイズに関連する。例えば、入力画像２０８に対する検出器２０４_１のそれぞれの画像ウインドウサイズは、Ｒ２＊Ｉ１×Ｒ２＊Ｉ２である。同様に、入力画像２０８に対する検出器２０４_２のそれぞれの画像ウインドウサイズは、Ｒ１＊Ｋ１×Ｒ１＊Ｋ２である。

各々の畳み込みネットワークの出力は、それぞれの分類器２０５_１、２０５_２、２０５_３、２０７_１、２０７_２、及び２０７_３の入力と結合される。図４において表される配置では、オブジェクト検出器２０４_１、２０４_２、２０４_３、２０６_１、２０６_２、及び２０６_３の各々は、それぞれのダウンサンプラと結合される。オブジェクト検出器２０４_１の入力は、ダウンサンプラ２１０の出力と結合される。オブジェクト検出器２０４_２の入力は、ダウンサンプラ２１２の出力と結合される。オブジェクト検出器２０６_１の入力は、ダウンサンプラ２１４の出力と結合される。オブジェクト検出器２０６_２の入力は、ダウンサンプラ２１６の出力と結合され、オブジェクト検出器２０６_３の入力は、出力ダウンサンプラ２１８と結合される。ダウンサンプラ２１４及び２１６の入力はまた、ダウンサンプラ２１８の出力と結合される。

オブジェクト検出器２０４_３、ダウンサンプラ２１０、ダウンサンプラ２１２、及びダウンサンプラ２１８は、その入力において入力画像２０８を受信する。ダウンサンプラ２１０、ダウンサンプラ２１２、及びダウンサンプラ２１８の各々は、そのそれぞれのダウンサンプリング比によって入力画像２０８をダウンサンプルする。ダウンサンプラ２１０は、ダウンサンプルされた画像をオブジェクト検出器２０４_１に提供する。ダウンサンプラ２１２は、ダウンサンプルされた画像をオブジェクト検出器２０４_２に提供し、ダウンサンプラ２１８は、ダウンサンプルされた画像をオブジェクト検出器２０６_３、ダウンサンプラ２１４、及びダウンサンプラ２１６に提供する。ダウンサンプラ２１４は、それに提供された画像を更にダウンサンプルし、２回ダウンサンプルされた画像をオブジェクト検出器２０６_１に提供する。ダウンサンプラ２１６はまた、それに提供された画像を更にダウンサンプルし、２回ダウンサンプルされた画像をオブジェクト検出器２０６_２に提供する。

オブジェクト検出器２０４_１、２０４_２、２０４_３、２０６_１、２０６_２、及び２０６_３の各々の１つにおけるそれぞれのＣＮＮの各々の層は、対応するフィルタによりそれに提供された画像を畳み込む。各々のＣＮＮの出力は、ＣＮＮにおいて採用されるフィルタに対応する特徴のマップである。上記説明されたように、特徴マップは値を含み、特徴マップにおける各々のエントリの各々の値は、エントリと関連付けられた画像ウインドウ内で、様々なフィルタと関連付けられた特徴の特徴強度を表す。特徴マップの各々は、分類器２０５_１、２０５_２、２０５_３、２０７_１、２０７_２、及び２０７_３の各々に提供される。

分類器２０５_１、２０５_２、２０５_３、２０７_１、２０７_２、及び２０７_３の各々は、それへの入力としてそれぞれのマトリックスを受信する。分類器２０５_１、２０５_２、２０５_３、２０７_１、２０７_２、及び２０７_３の各々は、分類ベクトルを判定する。この分類ベクトルは、オブジェクト（単一又は複数）（すなわち、ＣＮＮが検出するように訓練された）が、それに提供された特徴マップと関連付けられた画像ウインドウの各々に位置する確率に関連する値を含む。更に、分類器２０５_１、２０５_２、２０５_３、２０７_１、２０７_２、及び２０７_３の各々の１つによって判定された分類ベクトルは、それに提供された特徴マップと関連付けられた画像ウインドウごとの画像ウインドウ補正係数に関連する値を含む。それらの画像ウインドウ補正係数は、例えば、画像ウインドウの幅及び高さへの補正を含む。それらの画像ウインドウ補正係数は更に、画像ウインドウの位置と共に、画像ウインドウの方位への補正を含んでもよい。それらの画像ウインドウ補正係数は、以下で更に詳しく述べられるように、ＣＮＮが提供するように訓練された分類ベクトルの一部である。分類ベクトルは、例えば、サンプルが特定のクラスに属することを指定する二値を含む。例えば、ベクトル［１，０］は、サンプルが「ＦＡＣＥ」クラスに属し、「ＮＯＴ−ＦＡＣＥ」クラスに属さないことを示す。分類ベクトルは、３つ以上のクラスを含んでもよい。加えて、このベクトルは、３Ｄの姿勢、属性（年齢、顔における性別、車内の色及び型）、並びに境界ボックス回帰ターゲット値などの追加の情報の数的表現を含んでもよい。

分類器２０５_１、２０５_２、２０５_３、２０７_１、２０７_２、及び２０７_３の各々は、特徴マップにより分類フィルタ又はフィルタ（複数）を畳み込む（例えば、１×１×Ｑ×Ｎフィルタであり、Ｑは、特徴マップにおけるマトリックスの数であり、Ｎは、判定されることになる分類情報に関連する分類フィルタの数である）畳み込み分類器として具体化されてもよく、そのようなフィルタ（単一又複数）の出力は、上記言及された確率及び補正係数である。そのような畳み込み分類器のパラメータは、以下で更に説明されるように、ＣＮＮの訓練の間に判定される。

上記言及されたように、オブジェクト検出器２０４_１、２０４_２、２０４_３、２０６_１、２０６_２、及び２０６_３の各々は、ＣＮＮ２００への入力画像２０８に対して（すなわち、その中でオブジェクトが検出されている画像）、それへの入力におけるそれぞれのダウンサンプリング比と関連付けられる。更に、上記言及されたように、それへの入力における同一のそれぞれのダウンサンプリング比を有するオブジェクト検出器は、オブジェクト検出器のグループを定義する。ＣＮＮシステム２００では、ダウンサンプラ２１２及び２１８は、同一の第１のダウンサンプリング比、Ｒ１によって入力画像２０８をダウンサンプルする。ダウンサンプラ２１６は、ダウンサンプリング比Ｒ１によって入力画像２０８を更にダウンサンプルする。よって、オブジェクト検出器２０６_２と関連付けられたサンプリング比は、Ｒ１＊Ｒ１である。ダウンサンプラ２１０は、Ｒ１とは異なる第２のダウンサンプリング比、Ｒ２によって入力画像２０８をダウンサンプルする。Ｒ２＝Ｒ１＊Ｒ１であるとき、オブジェクト検出器２０４_１及び２０６_２は次いで、同一のそれぞれのダウンサンプリング比（すなわち、Ｒ２）と関連付けられ、オブジェクト検出器のグループを定義する（すなわち、図４において網掛けされた左斜め線によって示されるように）。同様に、オブジェクト検出器２０４_２及び２０６_３は、同一のダウンサンプリング比（すなわち、Ｒ１）と関連付けられ、オブジェクト検出器の別のグループを定義する（すなわち、図４において網掛けされた垂直線によって示されるように）。ダウンサンプラ２１４は、ダウンサンプリング比Ｒ２によってダウンサンプラ２１８からの出力をダウンサンプルする。図４において表されるダウンサンプリング配置は、本明細書で例として示されるにすぎないことに留意されたい。更なる例として、図４において、３つのダウンサンプリング比が採用されるので（すなわち、Ｒ１、Ｒ２、及びＲ１＊Ｒ２）、次いで、３つのダウンサンプラは十分であり、各々のダウンサンプラの出力は、ダウンサンプラのダウンサンプリング比と関連付けられたオブジェクト検出器に提供される。そのような３つのダウンサンプラは、並列して、又は直列のダウンサンプラに配置されてもよい。

開示される技術に従って、そこでの入力における同一のそれぞれのダウンサンプリング比と関連付けられたオブジェクト検出器は、オブジェクト検出器のグループを定義する。オブジェクト検出器の同一のグループにおけるオブジェクト検出器は、共通畳み込み層と関連付けられる（すなわち、それらのオブジェクト検出器への入力画像のサイズが同一であるので）。それらの共通畳み込み層は、同一の畳み込みカーネル（すなわち、フィルタ）を共有し、それへの入力における同一の画像サイズに対して動作する。そのようにして、それらの共通畳み込み層は、オブジェクト検出器のグループごとに１回のみ算出される必要がある。図４では、オブジェクト検出器２０４_１及び２０６_２は、それへの入力における同一のそれぞれのダウンサンプリング比と関連付けられ、オブジェクト検出器のグループを定義する。そのようにして、オブジェクト検出器２０４_１及び２０６_２における層１−Ｍ１は共通層である。よって、オブジェクト検出器２０４_１及び２０６_２における層１−Ｍ１は、オブジェクト検出の間に１回算出されてもよい。オブジェクト検出器２０６_２は、層Ｍ１＋１−Ｍ２を継続及び算出するために層Ｍ１からの結果を採用する。同様に、オブジェクト検出器２０４_２及び２０６_３は、同一のそれぞれのダウンサンプリング比と関連付けられ、オブジェクト検出器のグループを定義する。そのようにして、オブジェクト検出器２０４_２及び２０６_３における層１−Ｍ２は、共通層であり、１回算出されてもよい。オブジェクト検出器２０６_３は、層Ｍ２＋１−Ｍ３を継続及び算出するために層Ｍ２からの結果を採用する。概して、グループにおけるオブジェクト検出器は、異なるスケール検出器と関連付けられてもよいからである。よって、オブジェクト検出器のグループにおけるオブジェクト検出器のＣＮＮは、画像プラミッドの異なるスケールにおいて特徴マップを作成するものと見なされてもよく、１つのスケールにおいて１つのオブジェクト検出器のＣＮＮによって作成された特徴マップは、別のスケールにおいて別のオブジェクト検出器のＣＮＮによって採用される。

また、上記言及されたように、オブジェクト検出器２０４_１、２０４_２、２０４_３２０６_１、２０６_２、及び２０６_３の各々の出力は、入力画像２０８に対するそれぞれの画像ウインドウサイズと関連付けられる。特に、オブジェクト検出器２０４_１、２０４_２、及び２０４_３からの出力は、画像２０８内の同一の第１の画像ウインドウサイズと関連付けられる。同様に、オブジェクト検出器２０６_１、２０６_２、及び２０６_３からの出力は、画像２０８内の同一の第２の画像ウインドウサイズと関連付けられる。そのようにして、第１の画像ウインドウサイズについて、オブジェクト検出器２０４_１、２０４_２、及び２０４_３のうちの１つのみが入力画像２０８内のオブジェクトを検出及び分類するために採用されてもよい。同様に、第２の画像ウインドウサイズについて、オブジェクト検出器２０６_１、２０６_２、及び２０６_３のうちの１つのみが入力画像２０８内のオブジェクトを検出及び分類するために採用されてもよい。典型的には、より少ない数の層を示すＣＮＮを有するオブジェクト検出器が検出される。しかしながら、検出信頼度レベルが十分でない場合、より多くの数の像を有する異なる検出器が採用されてもよく、よって、算出の複雑度を低減させる（すなわち、平均で）。例えば、オブジェクト検出器２０４_１によって作成された検出信頼度が十分でない場合、次いで、オブジェクト検出器２０４_２が採用されることになる。にも関わらず、オブジェクト検出器２０４_２は、オブジェクトが予め定められた値を上回ってそこに位置する確率により画像ウインドウのみを処理してもよい。言い換えると、オブジェクト検出器２０４_２を採用する前に、背景に関連する画像ウインドウは、オブジェクト検出器２０４_１によって判定された確率に従って除去される。

訓練
上記説明されたように、開示される技術に従ったＣＮＮは、複数のスケール検出器を含む。各々のスケール検出器は、複数のオブジェクト検出器を含む。各々のオブジェクト検出器は、それぞれのＣＮＮを含む。スケール検出器の各々がオブジェクト検出器及びダウンサンプラの同一の構成を示すとき、並びにオブジェクト検出器におけるＣＮＮが同様の特性を有する層のグループを示すとき（すなわち、同一のフィルタサイズ、ストライド、及び活性化関数を示し、同一に順序付けられる）、オブジェクト検出器のＣＮＮは次いで、共通層を有するように訓練される。

上記及び以下の本明細書における用語「同様の特性を有する層のグループ」は、層のグループに関連し、各々のグループにおける層は、同一のフィルタサイズ、ストライド、及び活性化関数を示し、グループにおける層は、同一に順序付けられる。上記及び以下の本明細書における用語「共通層」は、同様の特性を有する層のグループに関連し（すなわち、異なるオブジェクト検出器における）、グループにおける対応する層（すなわち、各々のグループにおける第１の層、各々のグループにおける第２の層など）は、同様の重み及びパラメータを有する。例えば、図４を参照して、スケール検出器２０２_１及び２０２_２は、オブジェクト検出器及びダウンサンプラの同一の構成を示す。更に、オブジェクト検出器２０４_１、２０４_２、２０４_３、２０６_１、２０６_２、及び２０６_３のＣＮＮにおける層１−Ｍ１は、同様の特性を有する層のグループであり、それらのオブジェクト検出器のそれぞれのＣＮＮは、共通層を有するように訓練される。また、オブジェクト検出器２０４_２、２０４_３、２０６_２、及び２０６_３のＣＮＮにおける層Ｍ１＋１−Ｍ２はまた、同様の特性を有する層のグループであり、それらのオブジェクト検出器のそれぞれのＣＮＮは、共通層を有するように訓練される。同様に、オブジェクト検出器２０４_３及び２０６_３のＣＮＮの層Ｍ２＋１−Ｍ３は、同様の特性を有する層のグループであり、それらのオブジェクト検出器のそれぞれのＣＮＮは、共通層を有するように訓練される。

１つの代替手段に従って、ＣＮＮシステムにおけるオブジェクト検出器は、各々が予め定められたそれぞれの分類ベクトルを有する、同一の訓練サンプル又はサンプル（複数）が提供される。サンプル又はサンプル（複数）のサイズは、それへの入力における画像に対する各々のオブジェクト検出器と関連付けられた画像ウインドウサイズに対応する（例えば、図３Ｂ及び４におけるＩ１×Ｉ２、Ｋ１×Ｋ２、及びＪ１×Ｊ２）。各々のオブジェクト検出器は、それに提供された訓練サンプル内のオブジェクトを検出及び分類するためにそれぞれのＣＮＮ及び分類器を採用し、各々のサンプルのそれぞれの分類ベクトルを作成する。それらの分類ベクトルは、予め定められた分類ベクトルと比較される。オブジェクト検出器のそれぞれのＣＮＮによって作成された分類ベクトルとそれぞれの予め定められた分類ベクトルとの間の誤差（例えば、差異の二乗和、ログ損失、ｓｏｆｔｍａｘｌｏｇ損失）が判定される。この誤差を最小化する重み及びパラメータについての補正係数は次いで、各々のそれぞれのオブジェクト検出器における各々のＣＮＮの重み及びパラメータについて判定される。ＣＮＮの重み及びパラメータは次いで、それに従って更新される。全てのオブジェクト検出器のそれぞれのＣＮＮにおける同様の特性を有する層のグループの全ての重み及びパラメータは次いで、共通層を作成するために、平均化され、同様の特性を有する層のそれぞれのグループに適用される。例えば、全てのオブジェクト検出器における全てのＣＮＮの第１のＭ１層についての重み及びパラメータが平均化される。同様に、全てのオブジェクト検出器における全てのＣＮＮのＭ１＋１−Ｍ２層についての重み及びパラメータが平均化されるなどである。更新された重み及びパラメータを平均化し、補正係数を平均化し、それらの平均化された補正係数に従って重み及びパラメータを更新することは、ＣＮＮが同一の重み及びパラメータにより初期化されるときに同等である。

別の代替手段に従って、スケール検出器の各々がオブジェクト検出器及びダウンサンプラの同一の構成を示すとき、並びにオブジェクト検出器におけるＣＮＮが同様の特性を有する層のグループを示すとき、スケール検出器の単一のインスタンスが次いで訓練されてもよい。スケール検出器のこの単一のインスタンスは、本明細書で「訓練スケール検出器」と称される。訓練スケール検出器により開示される技術に従ってＣＮＮを訓練するために、訓練スケール検出器は、各々が予め定められたそれぞれの分類ベクトルを有する、訓練サンプルが提供される。１つの代替手段に従って、オブジェクトのリストを含む画像及び境界ボックスは、訓練スケール検出器に提供される。別の代替手段に従って、サンプルは、スケール検出器におけるオブジェクト検出器への入力に対して最大画像ウインドウサイズ（例えば、図３Ｂ及び４におけるＪ１×Ｊ２）と類似のサイズ（すなわち、必ずしも同様でない）を示す。それらのサンプルは次いで、他のオブジェクト検出器のそれぞれのサイズ（例えば、図３Ｂ及び４におけるＩ１×Ｉ２、Ｋ１×Ｋ２）を示す訓練サンプルを作成するためにダウンサンプルされる（すなわち、オブジェクト検出器１０２_ｉ−図３Ｂにおけるダウンサンプル１１０_Ｌ−１及び１１０_Ｌ−２と類似した訓練スケール検出器のダウンサンプルによって）。各々のオブジェクト検出器は、それに提供された訓練サンプル内のオブジェクトを検出及び分類するためにそれぞれのＣＮＮ及び分類器を採用し、各々のサンプルのそれぞれの分類ベクトルを作成する。それらの分類ベクトルは、予め定められた分類ベクトルと比較される。ＣＮＮの分類ベクトルと予め定められた分類ベクトルとの間の誤差が判定される。

図３Ａ、３Ｂ、及び４と共に上記説明されたなど構成における複数のスケール検出器を採用するために、上記言及された誤差を最小化する重み及びパラメータについての補正係数は次いで、訓練スケール検出器における各々のそれぞれのオブジェクト検出器における各々のＣＮＮの重み及びパラメータについて判定される。ＣＮＮの重み及びパラメータは次いで、それに従って更新される。訓練スケール検出器における全てのオブジェクト検出器のそれぞれのＣＮＮにおける同様の特性を有する層の全てのグループの重み及びパラメータは次いで、共通層を作成するために、平均化され、同様の特性を有する層のそれぞれのグループに適用される。訓練スケール検出器のＣＮＮの重み及びパラメータが判定されると、この訓練スケール検出器の複製は、スケール検出器１０８_１〜１０８_Ｎ（図３Ａ）の各々の１つを実装するように配置され、開示される技術のＣＮＮシステムを定義する。

訓練の間、ＣＮＮの重み及びパラメータが更新され、その結果、この誤差が最小化される。そのような最適化は、例えば、確率的勾配降下法（ＳＧＤ）などの勾配降下法工程を採用して実装されてもよい。勾配降下法工程に従って、ＣＮＮにおける層ごと及びサンプルごとに判定された重み及びパラメータ（又は、新たな重み及びパラメータ）に対する補正は、全てのサンプルについて平均化される。重み及びパラメータに対する補正は、ＣＮＮの重み及びパラメータに対する誤差の偏微分に従って判定される（すなわち、ＣＮＮが合成関数として見なされてもよいから）。この工程は、判定された数の反復、又は誤差が予め定められた値を下回るまでのいずれかで複数の反復で繰り返される。ＳＧＤに従って、反復の各々において、サンプルの一部のみが反復の各々において採用される。更に、連鎖法則、層への入力、層の出力、及び誤差に対する出力の導関数は、その層の重み及びパラメータの導関数を判定するために必要とされる。

上記言及されたように、開示される技術に従ってＣＮＮによって提供された分類ベクトルは、画像ウインドウ補正係数を含む。訓練の間に画像ウインドウ補正係数を提供するようにＣＮＮを訓練するために、各々の分類ベクトルに対応する画像ウインドウの位置と方位との間の差異（すなわち、特徴マップにおけるこのベクトルのインデックスによって定義されるような）、及びサンプルの実際の位置と方位との間の差異が判定される。この差異は、例えば、確率的勾配降下法を使用して最小化される。

訓練データ
概して、ＣＮＮは、入力画像内のオブジェクトを定義するように訓練され、ＣＮＮが検出するように訓練されたオブジェクトが入力画像内の様々な位置に存在する確率に関連する情報を作成する。ＣＮＮは、各々が予め定められた分類ベクトルと関連付けられた、サンプル（画像又はいずれかの他のデータ）を含む訓練セットを使用して訓練される。訓練するために採用されたサンプルは典型的には、画像から切り取られた画像ウインドウである。各々のサンプルは、画像内のオブジェクトを有する画像ウインドウの重複に従って分類される（すなわち、クラスはサンプルについて判定される）。サンプルが画像内のいずれかのオブジェクトと重複しないとき、そのサンプルは、背景として分類される。上記言及されたように、訓練工程は、ＣＮＮの出力値と採用されるサンプルと関連付けられた値との間の誤差を削減するように（例えば、差異の二乗和、ログ損失、ｓｏｆｔｍａｘｌｏｇ損失）ＣＮＮパラメータを修正する。

開示される技術に従って、初期数の訓練サンプルを有し、検出及び分類されたオブジェクトを有する初期訓練セットを仮定すると、訓練セットにおける訓練サンプルの数は、初期数を上回って増加することができる。言い換えると、より多くの数の訓練サンプルを有する訓練セットは、初期の訓練セットから作成される。ここで、開示される技術の更なる実施形態に従って、訓練セットを判定するために採用された、その中にオブジェクト（例えば、面）を有する画像２５０、２８０、及び３１０を概略的に表す、図５Ａ〜５Ｈを参照する。最初に、画像２５０、２８０、及び３１０内のオブジェクト２５３、２５５、２８３、２８５、３１３、及び３１５が検出される。その後、予め定められたサイズを示す四角形境界は、検出されたオブジェクトの周りで定義される。四角形境界などは、上記及び以下の本明細書でオブジェクトの「境界ボックス」と称される。

画像２５０、２８０、及び３１０内のオブジェクト２５３、２５５、２８３、２８５、３１３、及び３１５の各々は、それぞれの境界ボックスによって境界がつけられる。画像２５０内では、オブジェクト２５３は、境界ボックス２５２によって境界がつけられ、オブジェクト２５５は、境界ボックス２５４によって境界がつけられる。画像２８０内では、オブジェクト２８３は、境界ボックス２８２によって境界がつけられ、オブジェクト２８５は、境界ボックス２８４によって境界がつけられる。画像３１０内では、オブジェクト３１３は、境界ボックス３１２によって境界がつけられ、オブジェクト３１５は、境界ボックス３１４によって境界がつけられる。各々の境界ボックスは、それぞれのサイズを示す。画像２５０、２８０、及び３１０内では、２つの異なる境界ボックスサイズが例示される。境界ボックス２５２、２８２、及び３１４は、第１のサイズを示し、境界ボックス２５４、２８４、及び３１２は、第２のサイズを示す。各々の境界ボックスは、それぞれの相対座標系と関連付けられる。境界ボックス２５２は、座標系２５６と関連付けられ、境界ボックス２５４は、座標系２５８と関連付けられ、境界ボックス２８２は、座標系２８６と関連付けられ、境界ボックス２８４は、座標系２８８と関連付けられ、境界ボックス３１２は、座標系３１６と関連付けられ、境界ボックス２１４は、座標系３１８と関連付けられる。

オブジェクトのキーポイントごとに、それぞれの特徴位置が境界ボックスと関連付けられた座標系において判定される。図５Ａ〜５Ｈにおいて示される例では、オブジェクトの特徴タイプは、顔の目、鼻、及び口である（すなわち、オブジェクトは顔である）。図５Ｂを参照して、境界ボックス２５２の座標系２５６において、ポイント２６０_１及び２６０_２は、顔２５３の目の位置を表し、ポイント２６２は、顔２５３の鼻の位置を表し、ポイント２６４_１、２６４_２、及び２６４_３は、顔２５３の口の位置を表す。同様に、境界ボックス２５４の座標系２５８において、ポイント２６６_１及び２６６_２は、オブジェクト２５５の目の位置を表し、ポイント２６８は、オブジェクト２５５の鼻の位置を表し、ポイント２７０_１、２７０_２、及び２７０_３は、オブジェクト２５５の口の位置を表す。図５Ｄを参照して、境界ボックス２８２の座標系２８６において、ポイント２９０_１及び２９０_２は、オブジェクト２８３の目の位置を表し、ポイント２９２は、オブジェクト２８３の鼻の位置を表し、ポイント２９４_１、２９４_２、及び２９４_３は、オブジェクト２８３の口の位置を表す。同様に、境界ボックス２８４の座標系２８８において、ポイント２９６_１及び２９６_２は、オブジェクト２８５の目の位置を表し、ポイント２９８は、オブジェクト２８５の鼻の位置を表し、ポイント３００_１、３００_２、及び３００_３は、オブジェクト２８５の口の位置を表す。図５Ｆを参照して、境界ボックス３１２の座標系３１６において、ポイント３２０_１及び３２０_２は、オブジェクト３１３の目の位置を表し、ポイント３２２は、オブジェクト３１３の鼻の位置を表し、ポイント３２２_１、３２２_２、及び３２２_３は、オブジェクト３１３の口の位置を表す。同様に、境界ボックス３１４の座標系２１８において、ポイント３２６_１及び３２６_２は、オブジェクト３１５の目の位置を表し、ポイント３２８は、オブジェクト３１５の鼻の位置を表し、ポイント３２９_１、３２９_２、及び３２９_３は、オブジェクト３１５の口の位置を表す。典型的には、それぞれの座標系におけるオブジェクトのキーポイントの位置は、例えば、０〜１になるように正規化される（すなわち、境界ボックスの角は、座標［０，０］、［０，１］、［１，１］、［１，０］に位置する）。言い換えると、それぞれの境界ボックス２５２、２５４、２８２、２８４、３１２、及び３１４の座標系２５６、２５８、２８６、２８８、３１６、及び３１６はそれぞれ、境界ボックスの位置及びサイズに対して正規化される。よって、様々な特徴の位置は、境界ボックスのサイズと独立して関連することができる。

図５Ｇを参照して、様々なオブジェクトのキーポイントの正規化された位置は、任意の境界ボックス３３０において重ね合わせて表される。境界ボックスの座標系が正規化されるので（すなわち、１つの座標系における位置が別の座標系における同一の位置に対応する）、異なる境界ボックスにおける同一のオブジェクトのキーポイントタイプ（例えば、目）と関連付けられた位置が平均化されてもよい。

その後、オブジェクトのキーポイントタイプ（例えば、目、鼻、口）ごとに、特徴参照位置が判定される。図５Ｈを参照して、境界ボックスについて、任意のサイズ、ポイント３３６_１は、ポイント２６０_１、２９０_１、３２６_１２６６_１、２９６_１、及び３２０_１の位置の平均位置を表し、ポイント３３６_２は、ポイント２６０_２、２９０_２、３２６_２、２６６_２、２９６_２、及び３２０_２の位置の平均位置を表す。ポイント３３８は、ポイント２６２、２９２、３２８、２６８、２９８、及び３２２の位置の平均位置を表す。ポイント３４０_１は、ポイント２６４_１、２９４_１、３２９_１、２７０_１、３００_１、及び３２４_１の位置の平均位置を表す。ポイント３４０_２は、ポイント２６４_２、２９４_２、３２９_２、２６４_２、３００_２、及び３２４_２の位置の平均位置を表し、ポイント３４０_３は、ポイント２６４_３、２９４_３、３２９_３、２７０_３、３００_３、及び３２４_３の位置の平均位置を表す。

それらの平均位置は、特徴参照位置を定義する。ポイント３３６_１及び３３６_２は、目の特徴参照位置を定義し、ポイント３３８は、鼻の参照位置を定義し、ポイント３４０_１、３４０_１、及び３４０_３は、口の参照位置を定義する。

それらのキーポイントの参照位置が判定されると、初期訓練サンプルの各々における各々のオブジェクトは、それらのキーポイントの参照位置と位置合わせされ、その結果、各々のオブジェクトのキーポイントは、選択された位置合わせコスト関数（例えば、オブジェクトのキーポイントとキーポイントの参照位置との間の差異の二乗誤差）を最適化することによって判定された程度にそれぞれのキーポイントの参照位置と位置合わせする。その後、訓練サンプルの各々は、この参照位置から摂動され、よって、新たな訓練サンプルを作成する。摂動は、オブジェクトの水平シフト、垂直シフト、及び方位シフトのうちの少なくとも１つを含む。各々のサンプルの摂動は、選択された確率分布（例えば、ガウス）に従ってランダムに判定される。それらの摂動を採用することで、訓練セットにおける訓練サンプルの数を、その初期のサイズを上回って増加させることができる。この工程はまた、「訓練サンプル増強」と称され、それによって作成された訓練サンプルは、「増強された訓練サンプル」と称される。図５Ａ〜５Ｈにおいて示される例示的な訓練セットでは、各々の画像は、２つの境界ボックスサイズを示す訓練サンプルを含む。しかしながら、概して、１つのサイズの境界ボックスを示す訓練サンプルは、異なるサイズの境界ボックスを示す訓練サンプルを作成するように縮尺化されてもよい。この縮尺化された境界ボックスは次いで、訓練サンプルとして採用されてもよい。

ここで、開示される技術の別の実施形態に従って動作可能である、ニューラルネットワークについての訓練セットを判定する方法を概略的に表す、図６を参照する。手順３５０では、訓練セットの複数の画像内のオブジェクト及びそれぞれのオブジェクトのキーポイントが検出され、予め定められたサイズを示す境界ボックスは、各々の検出されたオブジェクトの周りで定義される。オブジェクトは、例えば、人間の観察者によって（すなわち、手動で）判定されてもよい。オブジェクトはまた、自動化された検出器を採用することによって、又は準自動化された方式で判定されてもよい（例えば、オブジェクトは、自動検出器によって検出され、人間の観察者によって検証される）。

手順３５２では、境界ボックス内の各々のオブジェクトのキーポイントの位置が判定される。手順３５４では、オブジェクトのキーポイントタイプについて、それぞれのキーポイントの参照位置が判定される。それぞれのキーポイントの参照位置は、同一のタイプのオブジェクトのキーポイントの平均位置に従って判定され、平均値は、初期訓練セットにおける全てのオブジェクトのオブジェクトのキーポイント位置に従って判定される。

手順３５６では、それぞれの参照位置を有する初期訓練セットにおける全ての訓練サンプルを登録する。

手順３５８では、参照位置からの位置合わせされたサンプルの各々をランダムに摂動させる。

ここで、開示される技術の更なる実施形態に従って動作可能である、ＣＮＮについての方法を概略的に表す、図７を参照する。手順４００では、増強された訓練サンプルは、初期訓練セットから作成される。図５Ａ〜５Ｈ及び６と共に上記説明されている。

手順４０２では、オブジェクト検出器のＣＮＮは、共通層を有するように訓練される。１つの代替手段に従って、オブジェクト検出器の同様の特性を有する層の全てのグループの重み及びパラメータ（又は、それらに対する補正係数）は、共通層を作成するように平均化される。別の代替手段に従って、単一の訓練スケール検出器が訓練され、訓練スケール検出器の複製が配置され、ＣＮＮシステムを定義する。各々の複製は、入力画像のそれぞれの縮尺化されたバージョンと関連付けられ、訓練スケール検出器の複製は、ＣＮＮシステムを定義する。

手順４０４では、少なくとも１つの画像内の少なくとも１つのオブジェクトは、定義されたＣＮＮシステムを採用することによって検出及び分類される。少なくとも１つの画像内の少なくとも１つのオブジェクトを検出及び分類することは、以下のサブ手順を含む：
複数のダウンサンプルされた画像を作成するために、複数のダウンサンプリング比に従って画像をダウンサンプリングし、各々のダウンサンプルされた画像は、それぞれのダウンサンプリング比と関連付けられ、
ダウンサンプルされた画像ごとに、対応するＣＮＮによって、画像に対する予め定められた画像ウインドウサイズにおいてオブジェクトを検出し、
画像内のオブジェクトを分類する。それぞれのダウンサンプルされた画像内のオブジェクトを検出し、同一のそれぞれのダウンサンプリング比と関連付けられたＣＮＮは、ＣＮＮの少なくとも１つのグループを定義する。畳み込みネットワークのグループにおけるＣＮＮは、共通畳み込み層と関連付けられる。

図４を参照して、上記説明されたように、オブジェクト検出器２０４_１及び２０６_２のそれぞれのＣＮＮは、ＣＮＮのグループを定義する。同様に、オブジェクト検出器２０４_２及び２０６_３のそれぞれのＣＮＮは、ＣＮＮのグループを定義する。

当業者は、開示される技術が上記で特に示され、及び説明されたものに限定されないことを認識するであろう。開示される技術の範囲は、以下の特許請求の範囲のみによって定義される。

Claims

少なくとも１つの画像内の少なくとも１つのオブジェクトを検出する畳み込みニューラルネットワークシステムであって、前記システムは、
複数のオブジェクト検出器を備え、各々のオブジェクト検出器は、前記少なくとも１つの画像内の予め定められた画像ウインドウサイズに対応し、各々のオブジェクト検出器は、前記少なくとも１つの画像に対するそれぞれのダウンサンプリング比と関連付けられ、各々のオブジェクト検出器は、
それぞれの畳み込みニューラルネットワークであって、前記畳み込みニューラルネットワークは、複数の畳み込み層を含む、前記それぞれの畳み込みニューラルネットワークと、
前記畳み込みニューラルネットワークからの結果に従って前記画像内のオブジェクトを分類する、前記畳み込みニューラルネットワークと結合されたオブジェクト分類器と
を含み、
同一のそれぞれのダウンサンプリング比と関連付けられたオブジェクト検出器は、オブジェクト検出器の少なくとも１つのグループを定義し、オブジェクト検出器のグループにおけるオブジェクト検出器は、共通畳み込み層と関連付けられる、
畳み込みニューラルネットワークシステム。
各々がそれぞれのダウンサンプリング比と関連付けられた複数のダウンサンプラを更に含み、前記ダウンサンプラは、前記画像の前記縮尺化されたバージョンを作成するように構成され、各々の縮尺化されたバージョンは、それぞれのダウンサンプリング比と関連付けられる、請求項１に記載の畳み込みニューラルネットワークシステム。
ダウンサンプラ、及び前記画像に対する同一のそれぞれの画像ウインドウサイズと関連付けられたオブジェクト検出器は、スケール検出器を定義し、各々のスケール検出器は、前記画像のそれぞれの縮尺化されたバージョンと関連付けられる、請求項２に記載の畳み込みニューラルネットワークシステム。
前記オブジェクト分類器は、畳み込み分類器であり、前記それぞれの畳み込みニューラルネットワークによって提供された特徴マップにより少なくとも１つの分類フィルタを畳み込む、請求項１に記載の畳み込みニューラルネットワークシステム。
前記それぞれの畳み込みニューラルネットワークは複数の特徴を含む特徴マップを作成し、各々のエントリは、前記エントリと関連付けられた画像ウインドウ内で特徴強度を表し、前記画像ウインドウは、前記それぞれの画像ウインドウサイズを示す、請求項４に記載の畳み込みニューラルネットワークシステム。
前記オブジェクト分類器は、前記オブジェクトが前記特徴と関連付けられた画像ウインドウの各々に位置する確率を提供する、請求項５に記載の畳み込みニューラルネットワークシステム。
前記分類ベクトルは更に、前記特徴マップと関連付けられた画像ウインドウごとの画像ウインドウ補正係数を含み、前記画像ウインドウ補正係数は、各々の画像ウインドウの幅及び高さへの補正、各々の画像ウインドウの位置への補正、並びに各々の画像ウインドウの方位への補正を含む、請求項６に記載の畳み込みニューラルネットワークシステム。
単一の訓練スケール検出器は、スケール検出器がオブジェクト検出器の同一の構成を示すとき、及びオブジェクト検出器におけるＣＮＮが同様の特性を有するグループの層を示すときに訓練される、請求項３に記載の畳み込みニューラルネットワークシステム。
前記訓練スケール検出器を訓練する前に、訓練セットにおける訓練サンプルの数は、
それぞれの訓練サンプルの境界ボックス内の各々のオブジェクトのキーポイントの位置を判定し、
オブジェクトのキーポイントタイプについて、同一のタイプのオブジェクトのキーポイントの平均位置に従って、それぞれの特徴参照位置を判定し、平均値は、初期訓練セットにおける全てのオブジェクトのオブジェクトのキーポイント位置に従って判定され、
初期訓練セットにおける全ての訓練サンプルを特徴参照位置に登録し、
この参照位置からの位置合わせされた訓練サンプルの各々をランダムに摂動させる
ことによって訓練サンプルの初期数を上回って増加する、請求項８に記載の畳み込みニューラルネットワークシステム。
複数のダウンサンプルされた画像を作成するために、複数のダウンサンプリング比に従って画像をダウンサンプリングする手順であって、各々のダウンサンプルされた画像は、それぞれのダウンサンプリング比と関連付けられる、前記ダウンサンプリングする手順と、
ダウンサンプルされた画像ごとに、対応する畳み込みニューラルネットワークによって、少なくとも１つの画像に対する予め定められた画像ウインドウサイズにおいてオブジェクトを検出する手順と、
前記画像内のオブジェクト分類する手順と、
を含み、
同一のそれぞれのダウンサンプリング比と関連付けられたそれぞれのダウンサンプルされた画像内のオブジェクトを検出する畳み込みニューラルネットワークは、畳み込みニューラルネットワークの少なくとも１つのグループを定義し、畳み込みニューラルネットワークのグループにおける畳み込みニューラルネットワークは、共通畳み込み層と関連付けられる、
畳み込みニューラルネットワーク方法。
前記画像をダウンサンプリングする前記手順の前に、
初期訓練セットから増強された訓練サンプルを作成する手順と、
共通層を有するように前記畳み込みニューラルネットワークを訓練する手順と
を更に含む、請求項１０に記載の畳み込みニューラルネットワーク方法。
共通層を有するように前記畳み込みニューラルネットワークを訓練することは、オブジェクト検出器の同様の特性を有する層の全てのグループの重み及びパラメータを平均化することを含む、請求項１１に記載の畳み込みニューラルネットワーク方法。
共通層を有するための前記畳み込みニューラルネットワークは、前記増強された訓練サンプルを採用し、前記訓練スケール検出器の複製を配置することによって単一の訓練スケール検出器を訓練することを含み、各々の複製は、前記少なくとも１つの画像のそれぞれの縮尺化されたバージョンと関連付けられ、前記訓練スケール検出器の前記複製は、畳み込みニューラルネットワークシステムを定義する、請求項１１に記載の畳み込みニューラルネットワーク方法。
増強された訓練サンプルを作成する前記手順は、
それぞれの訓練サンプルの境界ボックス内の各々のオブジェクトのキーポイントの位置を判定するサブ手順と、
オブジェクトのキーポイントタイプについて、同一のタイプの前記オブジェクトのキーポイントの平均位置に従って、それぞれのキーポイントの参照位置を判定するサブ手順であって、平均値は、前記初期訓練セットにおける全てのオブジェクトの前記オブジェクトキーポイントの位置に従って判定される、前記判定するサブ手順と、
前記初期訓練セットにおける全ての訓練サンプルを特徴参照位置に登録するサブ手順と、
この参照位置から位置合わせされた訓練サンプルの各々をランダムに摂動させるサブ手順と
を含む、請求項１１に記載の畳み込みニューラルネットワーク方法。