JP7151016B2

JP7151016B2 - 直方体検出のための深層機械学習システム

Info

Publication number: JP7151016B2
Application number: JP2022101621A
Authority: JP
Inventors: マリシーウィッツトマシュ; ラビノビッチアンドリュー; バドリナラヤナンヴィジャイ; ドウィベディデビダッタ
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2016-11-15
Filing date: 2022-06-24
Publication date: 2022-10-11
Anticipated expiration: 2037-11-14
Also published as: US20210134000A1; IL297846B1; AU2022202694A1; AU2017361061A1; US11328443B2; US10937188B2; KR20230170119A; CN110168477B; EP3542250A4; IL297846B2; CA3043352A1; JP2019536154A; US20220237815A1; US11797860B2; CN110168477A; AU2017361061B2; US10621747B2; JP2021108138A; JP6854344B2; JP2022126809A

Description

（関連出願の相互参照）
本願は、２０１６年１１月１５日に出願され“ＤＥＥＰＣＵＢＯＩＤＤＥＴＥＣＴＩＯＮ：ＢＥＹＯＮＤ２ＤＢＯＵＮＤＩＮＧＢＯＸＥＳ”と題された米国特許出願第６２／４２２，５４７号に対する優先権の利益を主張するものであり、該米国特許出願の内容は、その全体が参照により本明細書中に援用される。

本開示は、概して、画像内の３次元オブジェクト検出のためのシステムおよび方法に関し、より具体的には、画像内の直方体を検出するための深層機械学習システムに関する。

深層ニューラルネットワーク（ＤＮＮ）は、計算機械学習方法である。ＤＮＮは、人工ニューラルネットワーク（ＮＮ）のクラスに属する。ＮＮを用いることで、計算グラフが、構築され、これは、生物学的ニューラルネットワークの特徴を模倣するものである。生物学的ニューラルネットワークは、計算に特化し、そうでなければ、他の方法を通して捕捉することが困難であり得る、生物学系の能力の多くに責任がある、特徴を含む。いくつかの実装では、そのようなネットワークは、接続が一方向性である、シーケンシャル層化構造に配列される。例えば、特定の層の人工ニューロンの出力は、後続層の人工ニューロンの入力に接続されることができる。ＤＮＮは、多数の層（例えば、１０、１００、またはそれよりも多くの層）を伴う、ＮＮであることができる。

異なるＮＮは、異なる視点において相互に異なる。例えば、異なるＮＮのトポロジまたはアーキテクチャ（例えば、層の数および層が相互接続される方法）および加重は、異なり得る。加重は、生物学系内のニューラル接続のシナプス強度にほぼ類似し得る。加重は、１つの層から別の層に伝搬される効果の強度に影響を及ぼす。人工ニューロンの出力は、その入力の加重された和の非線形関数であることができる。ＮＮの加重は、これらの総和内に現れる加重であることができる。

世界の３次元（３Ｄ）表現を単一単眼画像から構築することは、コンピュータビジョンにおける重要な課題である。本開示は、３Ｄ直方体（例えば、ボックス状オブジェクト）の検出および画像内の特徴点の位置特定のためのシステムおよび方法の実施例を提供する。一側面では、深層直方体検出器が、画像内の同時直方体検出および特徴点位置特定のために使用されることができる。深層直方体検出器は、畳み込み特徴マップを入力画像から決定するために、訓練された畳み込みニューラルネットワークの複数の畳み込み層および非畳み込み層を含むことができる。深層直方体検出器の領域提案ネットワークは、畳み込み特徴マップを使用して、画像内の直方体を囲繞する境界ボックスを決定することができる。深層直方体検出器のプーリング層およびリグレッサ層は、直方体の精緻化された境界ボックスおよびパラメータ化された表現を決定するために、反復特徴プーリングを実装することができる。

本明細書に説明される主題の１つ以上の実装の詳細が、付随の図面および以下の説明に記載される。他の特徴、側面、および利点は、説明、図面、および請求項から明白となるであろう。本概要または以下の詳細な説明のいずれも、本発明の主題の範囲を定義または限定することを主張するものではない。
本発明は、例えば、以下の項目を提供する。
（項目１）
直方体検出および特徴点位置特定のためのシステムであって、
非一過性メモリであって、前記非一過性メモリは、
実行可能命令と、
直方体検出のための画像と、
直方体検出器であって、
畳み込み特徴マップを前記画像から生成するための第１の畳み込みニューラルネットワーク（ＣＮＮ）の複数の畳み込み層および非畳み込み層と、
前記畳み込み特徴マップを使用して直方体を前記画像の直方体画像場所に備える少なくとも１つの着目領域（ＲｏＩ）を決定するための第２のＣＮＮを備える領域提案ネットワーク（ＲＰＮ）と、
前記畳み込み特徴マップおよび前記直方体を備えるＲｏＩを使用して精緻化された直方体画像場所における精緻化されたＲｏＩおよび前記直方体の表現を決定するためのプーリング層および少なくとも１つのリグレッサ層と
を備える、直方体検出器と
を記憶するように構成される、非一過性メモリと、
前記非一過性メモリと通信するハードウェアプロセッサであって、前記ハードウェアプロセッサは、前記実行可能命令によって、
前記画像を受信することと、
前記第１のＣＮＮの複数の畳み込み層および前記非畳み込み層および前記画像を使用して、前記畳み込み特徴マップを生成することと、
前記ＲＰＮを使用して、前記直方体を前記画像の直方体画像場所に備える少なくとも１つのＲｏＩを決定することと、
前記プーリング層および前記直方体画像場所を使用して、前記直方体を備えるＲｏＩに対応する前記畳み込み特徴マップのサブマップを決定することと、
前記少なくとも１つのリグレッサ層および前記直方体を備えるＲｏＩに対応する前記畳み込み特徴マップのサブマップを使用して、前記精緻化された直方体画像場所における精緻化されたＲｏＩおよび前記直方体の表現を決定することと
を行うようにプログラムされる、ハードウェアプロセッサと
を備える、システム。
（項目２）
前記ハードウェアプロセッサはさらに、
前記精緻化された直方体画像場所を使用して、前記直方体を備える精緻化されたＲｏＩに対応する前記畳み込み特徴マップの精緻化されたサブマップを決定することと、
前記プーリング層、前記少なくとも１つのリグレッサ層、および前記直方体を備える精緻化されたＲｏＩに対応する前記畳み込み特徴マップの精緻化されたサブマップを使用して、さらなる精緻化された直方体画像場所におけるさらなる精緻化されたＲｏＩおよび前記直方体のさらなる定義された表現を決定することと
を行うようにプログラムされる、項目１に記載のシステム。
（項目３）
前記直方体画像場所は、２次元（２Ｄ）境界ボックスとして表される、項目１に記載のシステム。
（項目４）
前記精緻化された直方体画像場所は、２次元（２Ｄ）境界ボックスとして表される、項目１に記載のシステム。
（項目５）
前記少なくとも１つのリグレッサ層は、２つ以上の層を備える、項目１に記載のシステム。
（項目６）
前記２つ以上の層は、全結合層、非全結合層、または任意のそれらの組み合わせを備える、項目５に記載のシステム。
（項目７）
ＲＰＮは、深層ニューラルネットワーク（ＤＮＮ）を備える、項目１に記載のシステム。
（項目８）
前記直方体の表現は、前記直方体のパラメータ化された表現を備える、項目１に記載のシステム。
（項目９）
前記直方体のパラメータ化された表現は、前記画像内の直方体の複数の特徴点の場所を備える、項目８に記載のシステム。
（項目１０）
前記複数の特徴点は、前記画像内の直方体の８つの頂点を備える、項目９に記載のシステム。
（項目１１）
前記パラメータ化された表現は、前記画像の中心からの前記直方体の複数の特徴点の正規化されたオフセットを備える、項目８に記載のシステム。
（項目１２）
前記直方体のパラメータ化された表現は、１２のパラメータを備える、項目８に記載のシステム。
（項目１３）
前記直方体のパラメータ化された表現は、消失点パラメータ化を備える、項目８に記載のシステム。
（項目１４）
前記ハードウェアプロセッサはさらに、
前記精緻化された直方体画像場所における精緻化されたＲｏＩおよび前記直方体の表現に基づいて、前記システムのユーザと相互作用する
ようにプログラムされる、項目１に記載のシステム。
（項目１５）
前記直方体は、定常ボックスに対応し、
前記システムのユーザと相互作用するために、前記ハードウェアプロセッサはさらに、
前記直方体の精緻化された画像場所および前記直方体の表現に基づいて、前記定常ボックスに関連してキャラクタ動画を生成する
ようにプログラムされる、項目１４に記載のシステム。
（項目１６）
前記直方体は、手で持てるサイズの直方体に対応し、
前記システムのユーザと相互作用するために、前記ハードウェアプロセッサはさらに、
前記直方体の表現を使用して、前記直方体の姿勢を決定することと、
前記直方体の姿勢に基づいて、前記システムのユーザと相互作用することと
を行うようにプログラムされる、項目１４に記載のシステム。
（項目１７）
前記直方体は、第３のＣＮＮによって認識不可能な稀有なオブジェクトに対応し、
前記システムのユーザと相互作用するために、前記ハードウェアプロセッサはさらに、
前記ユーザに、第３のＣＮＮによって認識不可能な稀有なオブジェクトが検出されたことの通知を提供する
ようにプログラムされる、項目１４に記載のシステム。
（項目１８）
前記直方体は、人工構造に対応し、
前記ハードウェアプロセッサはさらに、
無人飛行の間、前記精緻化された直方体画像場所における精緻化されたＲｏＩおよび前記直方体の表現に基づいて、前記システムのユーザを補助する
ようにプログラムされる、項目１に記載のシステム。
（項目１９）
前記直方体は、マーカに対応し、
前記ハードウェアプロセッサはさらに、
前記精緻化された直方体画像場所における精緻化されたＲｏＩおよび前記直方体の表現に基づいて、同時位置特定およびマッピング（ＳＬＡＭ）を実施する
ようにプログラムされる、項目１に記載のシステム。
（項目２０）
直方体検出および特徴点位置特定のための方法であって、
ハードウェアプロセッサの制御下で、
画像を受信することと、
直方体検出器の第１の畳み込みニューラルネットワーク（ＣＮＮ）の複数の畳み込み層および非畳み込み層および前記画像を使用して、畳み込み特徴マップを生成することと、
前記直方体検出器の第２のＣＮＮを備える領域提案ネットワーク（ＲＰＮ）を使用して、直方体を前記画像の直方体画像場所に備える少なくとも１つのＲｏＩを決定することと、
前記直方体検出器のプーリング層および前記直方体画像場所を使用して、前記直方体を備えるＲｏＩに対応する前記畳み込み特徴マップのサブマップを決定することと、
前記直方体検出器の少なくとも１つのリグレッサ層および前記直方体を備えるＲｏＩに対応する前記畳み込み特徴マップのサブマップを使用して、精緻化された直方体画像場所における精緻化されたＲｏＩおよび前記直方体の表現を決定することと
を含む、方法。
（項目２１）
前記精緻化された直方体画像場所を使用して、前記直方体を備える精緻化されたＲｏＩに対応する前記畳み込み特徴マップの精緻化されたサブマップを決定することと、
前記プーリング層、前記少なくとも１つのリグレッサ層、および前記直方体を備える精緻化されたＲｏＩに対応する前記畳み込み特徴マップの精緻化されたサブマップを使用して、さらなる精緻化された直方体画像場所におけるさらなる精緻化されたＲｏＩおよび前記直方体のさらなる定義された表現を決定することと
をさらに含む、項目２０に記載の方法。
（項目２２）
前記直方体画像場所は、２次元（２Ｄ）境界ボックスとして表され、前記精緻化された直方体画像場所は、２次元（２Ｄ）境界ボックスとして表される、項目２０に記載の方法。
（項目２３）
前記第１のＣＮＮの非畳み込み層は、正規化層、明度正規化層、バッチ正規化層、正規化線形層、アップサンプリング層、連結層、プーリング層、ソフトサイン層、または任意のそれらの組み合わせを備える、項目２０に記載の方法。
（項目２４）
前記少なくとも１つのリグレッサ層は、２つ以上の層を備え、前記２つ以上の層は、全結合層、非全結合層、または任意のそれらの組み合わせを備える、項目２０に記載の方法。
（項目２５）
前記直方体の表現は、前記画像内の直方体の複数の特徴点の場所を備える前記直方体のパラメータ化された表現を備える、項目２０に記載の方法。

図１Ａは、検出されたオブジェクトの周囲にオーバーレイされた境界ボックスを用いた２次元（２Ｄ）オブジェクト検出を図示する、例示的単眼画像である。

図１Ｂは、検出されたオブジェクト上にオーバーレイされる直方体の表現を用いた３次元（３Ｄ）直方体検出を図示する、例示的単眼画像である。図１Ｂは、１つの直方体が単眼画像の内側で検出され、その頂点が位置特定されたことを示す（接続される８つの黒丸として示される）。

図２は、直方体検出器の例示的アーキテクチャを描写する。

図３は、着目領域（ＲｏＩ）正規化座標を図示する、例示的画像である。

図４Ａ－４Ｇは、例示的直方体検出および特徴点位置特定を図示する、画像を示す。１つ以上の直方体が、各画像内で検出されており、位置特定された各直方体の特徴点は、白色接続円形として示される。図４Ａ－４Ｇは、例示的直方体検出および特徴点位置特定を図示する、画像を示す。１つ以上の直方体が、各画像内で検出されており、位置特定された各直方体の特徴点は、白色接続円形として示される。図４Ａ－４Ｇは、例示的直方体検出および特徴点位置特定を図示する、画像を示す。１つ以上の直方体が、各画像内で検出されており、位置特定された各直方体の特徴点は、白色接続円形として示される。図４Ａ－４Ｇは、例示的直方体検出および特徴点位置特定を図示する、画像を示す。１つ以上の直方体が、各画像内で検出されており、位置特定された各直方体の特徴点は、白色接続円形として示される。図４Ａ－４Ｇは、例示的直方体検出および特徴点位置特定を図示する、画像を示す。１つ以上の直方体が、各画像内で検出されており、位置特定された各直方体の特徴点は、白色接続円形として示される。図４Ａ－４Ｇは、例示的直方体検出および特徴点位置特定を図示する、画像を示す。１つ以上の直方体が、各画像内で検出されており、位置特定された各直方体の特徴点は、白色接続円形として示される。図４Ａ－４Ｇは、例示的直方体検出および特徴点位置特定を図示する、画像を示す。１つ以上の直方体が、各画像内で検出されており、位置特定された各直方体の特徴点は、白色接続円形として示される。

図５Ａ－５Ｃは、反復特徴プーリングを介した特徴点精緻化を伴う改良された性能を示す、例示的画像を示す。図５Ａ－５Ｃは、反復特徴プーリングを介した特徴点精緻化を伴う改良された性能を示す、例示的画像を示す。図５Ａ－５Ｃは、反復特徴プーリングを介した特徴点精緻化を伴う改良された性能を示す、例示的画像を示す。

図６は、例示的直方体消失点を示す、略図である。

図７Ａ－７Ｆは、直方体検出器の例示的性能を示す、プロットである。図７Ａ－７Ｆは、直方体検出器の例示的性能を示す、プロットである。図７Ａ－７Ｆは、直方体検出器の例示的性能を示す、プロットである。

図８は、直方体検出器を訓練する、例示的プロセスのフロー図である。

図９は、直方体検出および特徴点位置特定のための直方体検出器を使用する例示的プロセスのフロー図である。

図１０は、深層直方体検出器の実施形態を実装し得る、ウェアラブルディスプレイシステムの実施例を図式的に図示する。

図面全体を通して、参照番号は、参照される要素間の対応を示すために再使用され得る。図面は、本明細書に説明される例示的実施形態を図示するために提供され、本開示の範囲を限定することを意図されない。

概要
関数、アルゴリズム、システム、および同等物等のデータ関係およびパターンを表す、モデルは、入力を受け取り、何らかの方法において、入力に対応する出力を生産し得る。例えば、モデルは、畳み込みニューラルネットワーク（ＣＮＮ）または深層ニューラルネットワーク（ＤＮＮ）等の機械学習方法として実装されてもよい。深層学習は、タスク特有アルゴリズムとは対照的に、学習データ表現の概念に基づく、機械学習方法のより広義の系統の一部であって、拡張現実、複合現実、仮想現実、および機械知能に有用な視聴覚計算問題を解法する際、著しい有望性を示す。機械学習では、畳み込みニューラルネットワーク（ＣＮＮまたはＣｏｎｖＮｅｔ）は、深層フィードフォワード人工ニューラルネットワークのクラスを含むことができ、ＣＮＮは、視覚的画像の分析の適用に成功を収めている。機械学習方法は、眼画像セグメント化および眼追跡を含む、様々な問題に対するロバストかつ正確なソリューションを有効にし得る、方法の系統を含む。

本明細書に開示されるのは、直方体検出器の実施例であって、これは、場面の入力画像を処理し、画像内の少なくとも１つの直方体を位置特定する。例えば、直方体検出器（深層直方体検出器等）は、雑然とした場面の消費者品質赤色－緑色－青色（ＲＧＢ）画像を処理し、画像内の３次元（３Ｄ）直方体の一部または全部を位置特定することができる。直方体は、ボックスまたはボックス状オブジェクトを備えることができ、例えば、４、５、６、７、８、１０、１２、またはそれよりも多くの面を伴う、多面体を含むことができる（凸面であってもよい）。例えば、直方体は、角錐、立方体、角柱、平行六面体等を含むことができる。直方体は、幾何学形状からのそのような多角形形状に限定されず、例えば、家電（例えば、テレビセット、コンピュータモニタ、トースター、洗濯機、冷蔵庫）、家具（例えば、ソファ、椅子、ベッド、ベビーベッド、テーブル、書棚、キャビネット）、車両（例えば、自動車、バス）等のボックス状構造を含むことができる。下記にさらに説明されるように、直方体は、境界ボックス内のその面、頂点、縁、または存在の観点から識別されてもよい。

いくつかの実施形態では、直方体は、Ｎ個のパラメータのタプルとして特徴付けられる、幾何学的形状を備えることができる。パラメータは、球体の半径または直方体の長さ、幅、および高さのように、性質上、幾何学的であってもよい。任意の幾何学的プリミティブをパラメータ化するためのより一般的方法は、それをプリミティブの表面上の点の集合として表すことであり得る。プリミティブの表面上のランダム点が、選定される場合、ランダム点は、コンピュータビジョン視点から位置特定可能ではない場合がある。パラメータ化点のセットは、幾何学的に有益かつ視覚的に判別可能であることが有利であり得る。例えば、直方体の場合、パラメータ化点のセットは、直方体の頂点（時として、本明細書では、角または特徴点と称され得る）であってもよい。

いくつかの実施形態では、直方体は、８つの頂点のタプルとして表され、各頂点は、画像内のその座標（例えば、デカルトｘ，ｙ座標）によって示されることができる。そのような表現では、直方体は、１６のパラメータ、すなわち、８つの頂点のそれぞれの２つの座標によって表される。全１６のパラメータは、ある場合には、必要とされない場合があり、例えば、下記に議論されるように、代替直方体表現は、いくつかの頂点（例えば、６つのみの頂点を使用する）を含まず、消失点を使用して、他の頂点を決定してもよい。

角、縁、および消失点のような低レベルキューから、３Ｄモデルに適合させる、他のアプローチと対照的に、本明細書に開示される直方体検出器は、多くの意味論カテゴリ（例えば、オーブン、配送用ボックス、および家具）を横断して直方体を検出する、エンドツーエンド深層学習システムであることができる。いくつかの実装では、直方体検出器は、２次元（２Ｄ）境界ボックスを用いて直方体を位置特定し、同時に、直方体の特徴点（例えば、頂点または角）を位置特定し、ボックス状オブジェクトの３Ｄ解釈または表現を効果的に生産することができる。直方体検出器は、畳み込み特徴を反復的にプーリングし、検出された特徴点の正確度を改良することによって、特徴点を精緻化することができる。エンドツーエンド深層学習フレームワークに基づいて、直方体検出器のいくつかの実装の利点は、線分、消失点、合流点等に関して、カスタム低レベル検出器を設計する必要が殆どまたは全くないということである。

直方体検出器は、畳み込みニューラルネットワークの複数の畳み込み層および非畳み込み層と、領域提案ネットワーク（ＲＰＮ）と、複数のプーリングおよびリグレッサ層とを含むことができる。ＲＰＮは、画像内のオブジェクト提案を生成することができる。複数の畳み込み層および非畳み込み層は、入力画像の畳み込み特徴マップを生成することができる。ＣＮＮの畳み込み層は、カーネルのカーネルスタックを含むことができる。畳み込み層のカーネルは、その入力に適用されると、その特定の学習されたカーネルに対する応答を示す、結果として生じる出力アクティブ化マップを生産することができる。結果として生じる出力アクティブ化マップは、次いで、ＣＮＮの別の層によって処理されることができる。ＣＮＮの非畳み込み層は、例えば、正規化層、正規化線形層、またはプーリング層を含むことができる。

畳み込みニューラルネットワークまたは深層ニューラルネットワークであり得る、領域提案ネットワーク（ＲＰＮ）は、画像内の直方体の周囲の２Ｄ境界ボックスを畳み込み特徴マップから決定することができる。２Ｄ境界ボックスは、直方体を画像場所に含む、画像上の着目領域（ＲｏＩ）を表すことができる。複数のプーリングおよびリグレッサ層は、例えば、プーリング層と、２つ以上の全結合層（３、５、１０、またはそれよりも多くの層等）とを含むことができる。初期２Ｄ境界ボックスに基づいて、複数の直方体プーリングおよびリグレッサ層は、精緻化された２Ｄ境界ボックスおよび直方体の特徴点を反復的に決定することができる。

直方体検出器は、いくつかの実装では、エンドツーエンド方式において訓練されることができ、拡張現実（ＡＲ）、複合現実（ＭＲ）、またはロボットにおけるリアルタイム用途に好適であり得る。下記に説明されるように、ウェアラブル複合現実ディスプレイデバイス（例えば、図１０を参照して説明されるウェアラブルディスプレイシステム１０００）は、直方体検出をディスプレイデバイスの外向きに面したカメラによって入手された画像に実施するようにプログラムされる、プロセッサを含むことができる。直方体検出器の一部または全部のパラメータは、訓練と称されるプロセスにおいて学習されることができる。例えば、機械学習モデルは、入力データと、対応する入力データに関するモデルの正しいまたは好ましい出力とを含む、訓練データを使用して訓練されることができる。機械学習モデルは、入力データを繰り返し処理することができ、機械学習モデルのパラメータ（例えば、加重値）は、モデルが正しいまたは好ましい出力を生産する（またはそれに「収束する」）まで、試行錯誤プロセスに相当する量で修正されることができる。例えば、加重値の修正は、「誤差逆伝播法」と称されるプロセスを通して実施されてもよい。誤差逆伝播法は、予期されるモデル出力と取得されるモデル出力との間の差異を決定し、次いで、モデルの一部または全部のパラメータの値を修正する方法を決定し、予期されるモデル出力と取得されるモデル出力との間の差異を低減させることを含む。

オブジェクト検出および直方体検出の例示的比較
世界の３Ｄ表現を単一単眼画像から構築することは、コンピュータビジョンにおける重要な問題である。いくつかの用途では、明示的３Ｄモデルを有するオブジェクトが、推定されたその姿勢を用いて位置特定される。しかし、そのような３Ｄモデルがない場合、人物またはコンピュータシステム（例えば、図１０を参照して説明されるウェアラブルディスプレイシステム１０００）は、依然として、直方体、円柱、および球体のような幾何学的形状の単純組み合わせの観点から、その周囲について推測する必要があり得る。時として、ジオンとも称される、そのようなプリミティブは、ヒトが推測することが容易であり得る。ヒトは、これらの単純幾何学的プリミティブの姿勢について大まかな推定を難なく行い、さらに、異種インスタンスを横断して、長さ、半径、または面積のような幾何学的パラメータを比較することができる。多くのオブジェクトは、複数の幾何学的プリミティブから成るが、多数の実オブジェクトは、１つ程度のプリミティブによって十分に近似され得る。

例えば、一般的形状は、ボックスである。多くの日常のオブジェクトは、ボックスとして幾何学的に分類されることができる（例えば、配送用ボックス、キャビネット、洗濯機、サイコロ、電子レンジ、デスクトップコンピュータ）。ボックス（直方体の実施例）は、多様な日常のオブジェクトインスタンスのセットに及び、ヒトは、想像上の直方体をこれらのオブジェクトに容易に適合させ、その頂点および面を位置特定することができる。人々はまた、ボックス状オブジェクトの正確な寸法を認知していなくても、またはオブジェクトが完璧な直方体ではない場合でも、異なるボックス状オブジェクトの寸法を比較することができる。本明細書に開示されるのは、直方体等のクラス非依存型幾何学的エンティティを検出するための直方体検出器を実装する、システムおよび方法である。クラス非依存型とは、幾何学的エンティティの異なるクラスが区別されないことを意味する。例えば、直方体検出器は、配送用ボックス、電子レンジ、またはキャビネット等の直方体の異なるクラスを区別しなくてもよい。これらのボックス状オブジェクトは全て、同一の簡略化された概念である、直方体を用いて表されることができる。

直方体検出器の実施形態は、３Ｄオブジェクト検出が、以下のように、３Ｄ境界ボックスを画像（例えば、ＲＧＢ画像またはＲＧＢ－深度（ＲＧＢ－Ｄ）画像）内のオブジェクトに適合させる、画像内の３Ｄ特徴点を検出する、または３Ｄモデルと２Ｄ画像の整合を実施するために使用されることができる。画像は、複数の直方体および多くの雑然（例えば、非直方体オブジェクト）を含有し得るため、直方体検出器は、最初に、直方体に対応する、着目領域（ＲｏＩ）の短リストを決定することができる。各直方体を包囲する２Ｄ境界ボックスに加え、直方体検出器は、全８つの頂点の場所を決定することができる。

深層学習は、過去数年において、画像認識を革命的に変化させた。今日のオブジェクト検出における多くの最先端の方法は、画像分類のためのタスクに関して訓練された深層ネットワークの上に構築されている。直方体検出器は、１つ以上の深層学習方法を実装する、深層直方体検出器であることができる。直方体検出器は、高正確度を有し、モバイルデバイス（例えば、図１０を参照して説明されるウェアラブルディスプレイシステム１０００）のハードウェアを使用して、リアルタイムで起動されることができる。

図１Ａは、検出されたオブジェクトの周囲にオーバーレイされた境界ボックス１０４を用いた２次元（２Ｄ）オブジェクト検出を図示する、例示的単眼画像１００ａである。図１Ｂは、検出されたオブジェクト上にオーバーレイされた直方体の表現１０８を用いた３次元（３Ｄ）直方体検出を図示する、例示的単眼画像１００ｂである。図１Ｂは、１つの直方体１０８が単眼画像１００の内側で検出され、その頂点が位置特定されたことを示す。８つの頂点は、４つの縁１２０ａ－１２０ｄ（点線として表される）によって接続される４つの黒丸１１２ａ－１１２ｄと、４つの縁１２４ａ－１２４ｄ（実線として表される）によって接続される４つの付加的黒丸１１６ａ－１１６ｄとして示される。頂点１１２ａ－１１２ｄの４つは、直方体の１つの面１２８ａを表し、頂点１１６ａ－１１６ｄの他の４つは、直方体の別の面１２８ｂを表す。直方体１０８の２つの面１２８ａ、１２８ｂは、頂点１１２ａ－１１２ｄ、１１６ａ－１１６ｄを通して、４つの縁１３２ａ－１３２ｄ（破線として表される）によって接続される。直方体検出器は、場面内のボックス状オブジェクトを検出することができる。オブジェクト検出と異なり、直方体検出器は、オブジェクトの境界ボックス以外も決定することができる。加えて、直方体検出器は、直方体の頂点を位置特定することができる（例えば、図１Ａと図１Ｂを比較）。いくつかの実施形態では、直方体検出器は、クラス非依存型であることができる。例えば、直方体検出器は、検出されている直方体のクラスを考慮しない。例えば、直方体検出器は、オブジェクトの２つのクラス、すなわち、直方体および非直方体直方体を区別することができる。直方体検出器は、単眼画像の内側の全ての直方体を決定し、その頂点を位置特定することによって、３Ｄ直方体検出を実施することができる。直方体検出器は、エンドツーエンド方式で訓練されることができる。直方体検出器は、リアルタイムで起動し、消費者グレードカメラを使用して捕捉された雑然とした場面のＲＧＢ画像を入力として用いて、直方体検出を実施することができる。ウェアラブルディスプレイデバイス（例えば、図１０を参照して説明されるウェアラブルディスプレイシステム１０００）は、直方体検出器を実装し、検出された直方体についての情報を使用して、ウェアラブルディスプレイデバイスのユーザを囲繞する環境を示す、世界マップを生成または更新することができる。

直方体は、パラメータ化され得る、幾何学的オブジェクトであって、直方体検出器（例えば、深層直方体検出器）は、場面内の直方体のパラメータを決定することができる。直方体を検出するための１つのアプローチは、縁を検出し、直方体のモデルをこれらの縁に適合することを試みることである。故に、ロバストな縁選択は、システムの有用な側面であり得る。しかしながら、これは、紛らわしいテクスチャが直方体表面上に存在するとき、例えば、縁および角がオクルードされる、または場面が著しい背景雑然を含有する場合、困難となり得る。所与の線が純粋なローカル特徴を伴う所与の直方体に属するかどうかを分類することは、困難であり得る。直方体検出器は、データ駆動アプローチを使用して、画像内の直方体を検出するように学習することができる。直方体検出器は、ラベルが、家、洗濯機、投票箱、机、車、テレビセット等のような多くのカテゴリにわたっても、単一ラベル（例えば、「直方体」）を場面内のボックス状オブジェクトに割り当てることができる。直方体検出器は、それを実装するシステム（例えば、図１０を参照して説明されるウェアラブルディスプレイシステム１０００）が異なる場面内の直方体を識別することに役立つ特徴を正常に学習可能である、ＣＮＮを含むことができる。

いくつかの実施形態では、直方体検出器は、直方体検出および特徴点位置特定をともに実施する、深層学習モデルを実装することができる。例えば、直方体検出器は、直方体検出および特徴点位置特定をともに実施する、深層ニューラルネットワークを含むことができる。直方体検出器は、他の方法によって実施される検出の正確度および位置特定正確度を超えることができる。いくつかの実装では、直方体検出器は、最初に、着目オブジェクトを検出し、次いで、その頂点の場所に関する大まかなまたは初期の予測を行うことができる。直方体は、大まかなまたは初期の予測を注意機構として利用し、直方体である高確率を伴う領域のみに目を向けることによって、頂点の精緻化を実施することができる。いくつかの実施形態では、直方体検出器は、反復特徴プーリング機構を実装し、正確度を改良することができる。直方体検出器は、直方体関連損失を組み合わせ、および／または代替パラメータ化を実装し、正確度を改良することができる。

（例示的直方体ネットワークアーキテクチャおよび損失関数）
図２は、直方体検出器の例示的アーキテクチャを描写する。直方体検出器２００は、以下のコンポーネント、すなわち、畳み込み層２０４（本明細書では、ＣＮＮタワーとも称される）、領域提案ネットワーク（ＲＰＮ）２０８、少なくとも１つのプーリング層２１２、または１つ以上の全結合層２１６（例えば、領域ＣＮＮ（Ｒ－ＣＮＮ）リグレッサ（または分類子））のうちの１つ以上のものを含むことができる。プーリング層２１２および全結合層２１６は、反復特徴プーリングを実装することができ、これは、直方体特徴点場所を精緻化する。Ｒ－ＣＮＮは、高速Ｒ－ＣＮＮであることができる。

直方体検出器２００は、深層直方体検出パイプラインを実装することができる。深層直方体検出パイプラインの第１のアクションは、直方体が存在し得る、画像２０２ａ内の着目領域（ＲｏＩ）２２０ａ１、２２０ｂを決定することであり得る。領域提案ネットワーク（ＲＰＮ）２００は、画像２０２ｂに図示されるように、そのようなＲｏＩ２２０ａ１、２２０ｂを出力するように訓練されることができる。次いで、各ＲｏＩ２２０ａ１、２２０ｂに対応する特徴を伴う領域２２４ａが、１つ以上のプーリング層２１２を使用して、畳み込み特徴マップ２２８（例えば、ＯｘｆｏｒｄＵｎｉｖｅｒｓｉｔｙにおけるＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐからのＶＧＧ－Ｍにおける第５畳み込み特徴マップ（ｃｏｎｖ５））からプーリングされることができる。これらのプーリングされた特徴は、２つの全結合層２１６を通して通過されることができる。いくつかの実装では、単に、２Ｄ境界ボックスを生産する代わりに、直方体検出器２００は、頂点の正規化されたオフセットをＲｏＩ２２０ａ１、２２０ｂの中心から出力することができる。直方体検出器２００は、反復特徴プーリングを実施することによって、予測を精緻化することができる。図２における破線は、画像２０２ｂ内のＲｏＩ２２０ａ１および画像２０２ｃ内の精緻化されたＲｏＩ２２０ａ２に対応する畳み込み特徴マップ２２８の領域２２４ａ、２２４ｂを示し、そこから、特徴が、プーリングされることができる。２つの全結合層２１６は、精緻化されたＲｏＩ２２０ａ２に対応する畳み込み特徴マップ２２８の領域２２４ｂを処理し、画像２０２ｄ内の直方体２３２のさらなる精緻化されたＲｏＩおよび／または表現を決定することができる。

ＣＮＮタワー２０４は、ＶＧＧおよびＲｅｓＮｅｔｓ等のＣｏｎｖＮｅｔｓの事前に訓練された完全畳み込み部分であることができる。畳み込み特徴マップ２２８は、ＣＮＮタワー２０４の最後の層の出力を指す。例えば、畳み込み特徴マップ２２８は、サイズｍ×ｎ×５１２を伴う、ＯｘｆｏｒｄＵｎｉｖｅｒｓｉｔｙにおけるＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐからのＶＧＧ１６におけるｃｏｎｖ５等の第５畳み込み層の出力であることができる。

ＲＰＮ２０８は、Ｋマルチスケールアンカ－ボックス、境界ボックスオフセット、およびオブジェクト性スコアに関して、畳み込み特徴マップ２２８内の全てのセルを分布にマッピングする、完全畳み込みネットワークであることができる。ＲＰＮは、２つの関連付けられた損失関数、すなわち、オブジェクト性に関する対数損失関数と、境界ボックス回帰に関する平滑Ｌ１損失関数とを有することができる。ＲＰＮ２０８は、例えば、５１２
３×３フィルタ、次いで、オブジェクト性に関する１８１×１フィルタおよび境界ボックスオフセットに関する３６１×１フィルタを使用することができる。

ＲｏＩプーリング層２１２は、例えば、最大プーリングを使用して、任意の有効着目領域２２０ａ１、２２０ａ２、２２０ｂの内側の特徴を小固定サイズ特徴マップ（または畳み込み特徴マップ２２８のサブマップ）に変換することができる。例えば、サイズｍ×ｎ×５１２のｃｏｎｖ５に関して、プーリング層２１２は、入力領域縦横比およびスケールから独立して、サイズ７×７×５１２の出力を生産することができる。いくつかの実施形態では、空間角錐マッチングが、実装されることができる。

全結合層２１６（例えば、Ｒ－ＣＮＮリグレッサ）が、次いで、各固定サイズ特徴ベクトルに適用され、直方体性スコア、境界ボックスオフセット（４つの数字）、および８つの直方体特徴点場所（１６の数字）を出力することができる。境界ボックス回帰値（Δｘ、Δｙ、Δｗ、Δｈ）が、初期オブジェクト提案をオブジェクトの周囲に緊密に適合させるために使用されることができる。特徴点場所は、図３に示されるように、ＲｏＩの中心からのオフセットとしてエンコードされることができ、提案幅／高さによって正規化されることができる。図３は、画像３００内のＲｏＩ３０４の中心からのオフセットとして表され、領域の幅ｗおよび高さｈによって正規化された頂点のＲｏＩ正規化座標を図示し、（ｘ_ｖ、ｙ_ｖ）は、特徴点３０８であって、（ｘ_ｃ、ｙ_ｃ）は、ＲｏＩの中心３１２である。特徴点毎の例示的グラウンドトゥルース標的が、方程式［１］および［２］に示される。

図２を参照すると、Ｒ－ＣＮＮは、２つの全結合層２１６（例えば、それぞれ、４０９６ニューロン）を含むことができ、３つの関連付けられた損失関数、すなわち、直方体性に関する対数損失関数と、境界ボックスおよび頂点回帰の両方に関する平滑Ｌ１損失関数とを有することができる。

同時に見ると、ＲｏＩプーリング層２１２およびＲ－ＣＮＮ層は、精緻化機構として作用し、特徴マップを前提として、入力ボックスを改良されたものにマッピングする。直方体検出器２００は、ネットワークの最後の部分を複数回（例えば、２、３、４、またはそれよりも多くの回数）適用することができ、本明細書では、反復特徴プーリングと称される。

ＲＰＮ２０８において使用される損失関数は、２つのクラス（例えば、直方体対非直方体）にわたる対数損失である、Ｌ_{ａｎｃｈｏｒ－ｃｌｓ}と、アンカボックス毎の境界ボックス回帰値の平滑Ｌ１損失である、Ｌ_{ａｎｃｈｏｒ－ｒｅｇ}とを含むことができる。Ｒ－ＣＮＮに関する損失関数は、２つのクラス（例えば、直方体対非直方体）にわたる対数損失である、Ｌ_{ＲＯＩ－ｃｌｓ}と、ＲｏＩに関する境界ボックス回帰値の平滑Ｌ１損失である、Ｌ_{ＲＯＩ－ｒｅｇ}と、ＲｏＩの予測される特徴点場所にわたる平滑Ｌ１損失である、Ｌ_{ＲＯＩ－ｃｏｒｎｅｒ}とを含むことができる。最後の項は、角または頂点回帰損失と称され得る。完全損失関数は、上記に述べられた損失の加重された和であることができ、方程式［３］に示されるように書かれ得る。損失加重λ_ｉは、０．１、０．５、１、２、５、１０、またはそれよりも大きい等、異なる実装では、異なり得る。

（例示的性能）
その性能を決定するために、直方体検出器２００の実施形態が、カフェを使用して実装され、高速Ｒ－ＣＮＮの実装の上に構築された。性能を決定するために、ＩｍａｇｅＮｅｔ上の画像分類のタスクに関して事前に訓練されたＶＧＧ－ＭまたはＶＧＧ１６ネットワークが、使用された。ＶＧＧ－Ｍは、７層を伴うより小さいモデルである一方、ＶＧＧ１６は、１６層を含有する。全てのモデルは、学習レート０．００１（３０万回の反復後、１０分の１に低減された）を用いて、確率的勾配降下法（ＳＧＤ）を使用して、５０万回の反復にわたって微調整された。使用された付加的パラメータは、慣性０．９、加重減衰０．０００５、およびドロップアウト０．５を含む。段階毎訓練の代わりに、直方体検出器２００のコンポーネントは、１（例えば、方程式［３］におけるλ_ｉ＝１）としての全ての損失加重の値を用いてともに最適化された。

（データ）
ＳＵＮＰｒｉｍｉｔｉｖｅデータセット（ｔｔｐｓ：／／ｇｒｏｕｐｓ．ｃｓａｉｌ．ｍｉｔ．ｅｄｕ／ｖｉｓｉｏｎ／ＳＵＮ／から利用可能な多種多様な環境場面、場所、およびオブジェクトを網羅する注釈が付けられた画像の包括的集合）が、深層直方体検出器２００を訓練するために使用された。データセットは、３５１６枚の画像から成り、多くの雑然を伴う屋内場面、単一直方体のみを含有するインターネット画像、および同様に直方体のように見える建物の屋外画像の混合である。直方体境界ボックスおよび直方体特徴点は両方とも、グラウンドトゥルース注釈を有する。本データセットは、１２６９の注釈が付けられた直方体を７８５枚の画像内に含む。画像の残りは、負であって、例えば、それらは、任意の直方体を含有していない。データセットは、３０００枚の画像の訓練セットおよびその水平に反転されたバージョンと、５１６枚の試験画像を伴う試験セットとを作成するように分割された。

直方体検出器２００は、２つのタスク、すなわち、直方体境界ボックス検出および直方体特徴点位置特定に関して評価された。検出に関して、境界ボックスは、和集合に対する交差部（ＩｏＵ）重複が０．５．２を上回る場合、正しいものとした。検出は、平均適合率（ＡＰ）の平均値および報告される適合率－再現率曲線全体を用いて、信頼度（例えば、ネットワークの分類子軟質最大出力）によってソートされた。特徴点位置特定に関して、正しい特徴点の確率（ＰＣＫ）および特徴点の平均適合率（ＡＰＫ）メトリックが、直方体検出器の性能を決定するために使用された。ＰＣＫおよびＡＰＫは、ヒト姿勢推定文献において使用され、頭部、手首等のようなヒト身体部分の場所を予測するシステムの性能を測定するものである。ＰＣＫは、全てのグラウンドトゥルースボックスがシステムへの入力として与えられるときに正しい、注釈が付けられたインスタンスの割合を測定する。予測される特徴点は、注釈からのその正規化された距離が閾値（α）未満であった場合、正しいと見なされた。一方、ＡＰＫは、検出信頼度および特徴点位置特定の両方を考慮する。０．１の正規化された距離αが、使用され、方程式［４］に示される特徴点のグラウンドトゥルース注釈のいくつかのピクセル内にある場合、予測される特徴点が正しいと見なされることを意味した。正規化された距離αは、０．０１、０．２、０．３、０．５、０．９、またはそれよりも大きい等、異なる実装では、異なり得る。

図４Ａ－４Ｇに図示される単眼画像４００ａ－４００ｙ、４０４ａ－４０４ｅ内の直方体検出および頂点位置特定のＳＵＮＰｒｉｍｉｔｉｖｅ試験セットおよびサンプルに関して報告されたこれらのメトリックについては、図７Ａ－７Ｆを参照されたい。例えば、図４Ａは、それぞれ、８つの頂点として表される、４つの直方体の例示的表現１０８ａ－１０８ｄを伴う、単眼画像４００ａを示す。別の実施例として、図４Ａは、４つの縁（実線として示される）によって接続される直方体の１つの面を表す、４つの頂点と、別の４つの縁（点線として示される）によって接続される直方体の別の面を表す、４つの頂点とともに、直方体の例示的表現１０８ａを伴う、別の単眼画像４００ｂを示す。直方体の表現１０８ａのこれらの２つの面上の８つの頂点は、４つの縁（破線として示される）によって接続される。

図７Ａ－７Ｆは、例示的深層直方体検出器評価メトリックを図示する、グラフである。ＡＰＫ：特徴点の平均適合率、ＰＣＫ：正しい特徴点の確率：ＧＴ角からの正規化された距離、特徴点の順序：前－上－左、後－上－左、前－下－左、前－上－右、後－下－左、前－下－右、後－上－右、後－下－右、Ｂ：境界ボックス損失、Ｃ：角損失、およびＩ：反復である。図４Ａ－４Ｆは、ＶＧＧ１６をＣＮＮタワーおよび反復特徴プーリングとして使用した例示的直方体検出および特徴点場所を図示する、画像を示す。直方体検出器２００は、消費者グレードＲＧＢ画像内の直方体の頂点を位置特定可能であった。直方体検出器２００は、ボックスのようなオブジェクト（直方体によって完璧にモデル化される）およびシンクのようなオブジェクト（近似直方体にすぎない）の両方を取り扱うことが可能であった。図４Ｇは、下記にさらに説明されるように、低減または排除され得る、不適切な直方体検出および特徴点位置特定を図示する、例示的画像４０４ａ－４０４ｅを示す。

一実装では、直方体検出器２は、境界ボックス検出に関してｍＡＰ７５．４７を達成し、これは、ｍＡＰ２４．０とＨＯＧベースのシステムより有意に良好であった。

（マルチタスク学習）
それぞれ、異なる複数のタスクを実施する、複数のネットワークが、訓練された。単に、直方体の周囲の境界ボックスを出力する、ベースネットワークが、訓練された。本ベースネットワークは、実施される直方体を包囲する長方形を使用して、一般的オブジェクト検出を実施した。ベースネットワークは、ボックスのクラスおよび境界ボックス回帰値を出力した。次に、角の場所についての付加的監視を伴う異なるネットワークが、訓練された。本ネットワークは、境界ボックス回帰座標を出力しなかった。次いで、境界ボックス回帰値および頂点の座標の両方を出力する、ネットワーク（例えば、直方体検出器２００）が、訓練された。対応する項が、付加的タスク毎に、損失関数に追加された。試験から、より多くのタスク（境界ボックス検出、特徴点位置特定、または境界ボックス検出および特徴点位置特定の両方）の追加は、直方体検出器の性能に影響を及ぼした（表１参照）。

（反復特徴プーリング）
Ｒ－ＣＮＮでは、最終出力は、領域提案毎の分類スコアおよび境界ボックス回帰値である。境界ボックス回帰は、最終境界ボックスがオブジェクトのみを位置特定するように、領域提案を移動させ、それをスケーリングすることを可能にする。これは、そこから特徴がプーリングされ、本予測を行う、初期領域が、全体的に正しくなかったことを含意する。いくつかの実施形態では、直方体検出器２００は、後退し、特徴を精緻化された境界ボックスからプーリングする。これは、ネットワーク自体内に実装されることができ、直方体検出器２００が、正確に同一方法において訓練および試験しながら、反復境界ボックス回帰を実施することを意味する。リグレッサの全結合層２１６への入力は、ｃｏｎｖ５層からの異なる領域提案からプーリングされた特徴を含む、畳み込み特徴マップ２２８のサブマップである、固定サイズ特徴マップである。Ｒ－ＣＮＮ出力は、境界ボックス回帰を入力オブジェクト提案に使用し、新しい提案を生産することができる。次いで、特徴は、これらの新しい提案からプーリングされ、再び、リグレッサの全結合層２１６を通して通過されることができる。いくつかの実施形態では、直方体検出器２００は、「随時予測システム」であって、待ち時間によって境界されない用途に関して、境界ボックス回帰は、１回を上回って実施されることができる。性能結果（表２参照）は、反復特徴プーリングが境界ボックス検出および頂点位置特定の両方を大幅に改良し得ることを示す（図５Ａ－５Ｃ参照）。特徴が２回またはそれを上回って（例えば、２、３、４、５、６、またはそれよりも多くの回数）反復的にプーリングされても、有意な性能変化は、認められなかった。いくつかの実装では、２回の反復が、使用される。図５Ａ－５Ｃは、反復特徴プーリングを介した特徴点精緻化を伴う改良された性能を図示する、例示的画像５００ａ１－５００ｌ１、５００ａ２－５００ｌ２を示す（例えば、画像５００ａ１、５００ａ２内の直方体の表現１０８ｂ１、１０８ｂ２とこれらの画像５０４内の本棚５０４内の形状を比較）。直方体検出領域は、予測される境界ボックスを使用して、ｃｏｎｖ５からの特徴を再プーリングすることによって精緻化された。

（ネットワークの深度）
２つの基本モデルＶＧＧ１６およびＶＧＧ－Ｍが、試験された。ＶＧＧ１６は、１６層を伴う非常に深層のアーキテクチャを有する一方、ＶＧＧ－Ｍは、７層を伴うより小さいモデルである。表３は、試験の結果を示す。興味深いことに、本データセットおよびタスクに関して、より浅層のネットワークを通した２回の反復が、より深層のネットワークを通した１回の反復より優れていた。反復を伴うより浅層のネットワークが２倍速く起動されるという事実とあいまって、直方体検出器２００は、有利には、１０より少ない層（例えば、５、７、または９層）を伴うより浅層のＣＮＮタワーを含むことができる。いくつかの実施形態では、直方体検出器２００は、より深層のＣＮＮタワー（例えば、１２、１５、２０、またはそれよりも多くの層）を含むことができる。それぞれ試験された４つのモデルは、ＨＯＧベースのシステムのＡＰ（２４．０）より高い平均適合率（ＡＰ）を認めた。

（訓練セットサイズの影響）
訓練データのサイズの増加の影響が、測定された。可変サイズ１，０００、２，０００、および３，０００枚の画像の３つのデータセットが一般的ネットワークを訓練するために、作成および使用された（ＶＧＧ－Ｍ＋反復）。結果（表４参照）は、より大きい訓練セットサイズを使用するとき、有意に改良された性能を示す。

（メモリおよびランタイム複雑性）
直方体検出器２００は、ＴｉｔａｎＺＧＰＵ上でインタラクティブレートで起動可能であった一方、ＨＯＧベースのアプローチは、単一画像を処理するために数分かかるであろう。システムのリアルタイム性質は、高速Ｒ－ＣＮＮがリグレッサとして使用される結果であり得る。いくつかの実施形態では、直方体検出器２００は、シングルショットマルチボックス検出器（ＳＳＤ）を実装し、その速度性能をさらに改良することができる。表３は、モバイルデバイス（例えば、図１０を参照して説明されるウェアラブルディスプレイシステム１０００）上で低減され得る、モデルサイズを示す。

（実施例特徴点パラメータ化）
直方体検出器２００の実施形態は、直方体の頂点を直接出力することができる。多くの凸面直方体は、８つの頂点と、６つの面と、１２の縁とを有する（その全ては、画像内で可視ではない場合がある）。しかしながら、ある視点は、固有の曖昧性を有し得、これは、図４Ｇに示される不適切な直方体識別につながった。例えば、これは、図４Ｇでは、立方体のどの面が、正面とラベルされるべきか？直方体検出器２００検出器は、そのような構成に対処する必要があり得るため、代替直方体パラメータ化が、模索された。世界原点が、カメラ中心座標と一致すると見なされる場合、直方体のパラメータ化は、１２の数字を用いて表されることができる。以下のパラメータ化は、最小限であり得る。他のパラメータ化では、付加的または異なるパラメータが、使用されることができる。
（Ｘ，Ｙ，Ｚ）－３Ｄにおける直方体の中心の座標
（Ｌ，Ｗ，Ｈ）－直方体の次元
（θ，ψ，φ）－直方体の回転の３つの角度（例えば、オイラー角）
（ｆ，ｃ_ｘ，ｃ_ｙ）－固有のカメラパラメータ（例えば、焦点距離および光学中心の座標）

多くの現代のカメラに関して、カメラには歪みがなく、等焦点距離（直交方向）が、仮定され得る。直方体の過パラメータ化（例えば、直方体の１６のパラメータによるパラメータ化）は、直方体検出器２００が直方体を表さない出力（例えば、図４Ｇにおけるいくつかの実施例参照）を生産することを可能にし得る。直方体のいくつかの異なる再パラメータ化が、幾何学的制約をより良好に利用するために試験された。一般に、試験結果は、ネットワークが、より多くの視覚的証拠を画像内に有するタスクに関する特徴を学習し、安定最適化のために適切にスケーリングされ得る、パラメータを予測可能であったことを示す。３Ｄ幾何学形状および深層学習に対処するとき、適切なパラメータ化は、有利である。射影変換（例えば、投影された空間の同型写像）のような画像間変換でさえ、再パラメータ化（例えば、４点パラメータ化）から利点を享受し得る。そのような技法は、画像内の直方体の不適切な識別を低減または排除し得る。

（６角パラメータ化）
代替パラメータ化では、８つの直方体頂点の６つのみの座標が、検出器によって予測された。残りの２つの座標の場所は、直方体内に平行縁が存在し得るという関係を使用して推測された。例えば、３Ｄにおいて平行である縁は、画像内の消失点において出会う。２対の平行線が直方体６００の上辺に、２対の平行線が直方体の底面に存在し得る。直方体６００の上面上の対の平行線６０４ａ、６０４ｂおよび直方体の底面上の対の平行線６０６ａ、６０６ｂは、図６に示されるように、同一消失点６０８ａにおいて出会うはずである。直方体６００の上面上の対の平行線６０４ｃ、６０４ｄおよび直方体の底面上の対の平行線６０６ｃ、６０６ｄは、同一消失点６０８ｂにおいて出会うはずである。故に、残りの２つの点６１２ａ、６１２ｂの位置が、推測されることができる。これは、いくつかの実装では、直方体検出器２００が、１２の数字の出力をパラメータ化することを可能にする。図６は、例示的直方体消失点６０８ａ、６０８ｂを図式的に図示する。立方体の縁を外挿することによって生産された消失点６０８ａ、６０８ｂは、消失線６１６を形成し、パラメータの数を低減させるために使用されることができる。前－上－左（ＦＴＬ）特徴点６１２ａおよび後－下－右（ＢＢＲ）特徴点６１２ｂは、パラメータ化から除外され、推定消失点（ＶＰ）技法を使用して推測されることができる。

８角パラメータ化が、６角パラメータ化と比較された。２つの頂点に関するグラウンドトゥルースデータは、訓練の間、使用されなかった。それぞれ後面および正面からの１つの頂点が、ドロップされた（その検出率（ＰＣＫ）が最悪であったもの）。ネットワークは、残りの６つの角の場所を予測するように訓練された。２つのドロップされた頂点の場所は、これらの６つの角を使用して推測された。直方体検出器２００は、最初に、予測される６つの点に対応する消失点を決定した。本再パラメータ化は、性能の低減につながり得る（表５参照）。本劣化は、画像内に存在する２つの推測される角に対応する視覚的証拠が破棄されるという事実に起因し得る。また、オクルージョンまたは任意の他の理由に起因した１つの頂点の予測における任意の誤差は、推測される角に直接響くであろう。しかしながら、直方体検出器２００では、複数のモデルを学習し、直方体を検出した。直方体検出器２００のネットワークは、全ての視覚的証拠を自由に使用し、直方体の角を位置特定した。直方体検出器２００は、多くの場合、背面上の角が、自己オクルージョンに起因して、視覚的証拠を画像内に有していなかったため、単純幾何学的推測を行うことが可能であった。

（消失点パラメータ化）
別の再パラメータ化は、２つの消失点の場所と、直方体の縁を形成するであろう、６つの線の傾きとを使用する（図６参照）。これらの消失点は、特定の直方体に対応し、画像全体の消失点と異なり得ることに留意されたい。これらの６つの線の交点は、本実施例では、直方体の頂点を与えるであろう。しかしながら、消失点の場所の多くは、着目領域外にあり、わずかなまたは交絡する視覚的証拠を着目領域または画像自体全体内に有する。また、標的を正規化し、消失点を直接予測することは、困難となり得る。６つの線の傾きは、－∞と＋∞との間で変動し得る。傾きを直接予測する代わりに、傾きは、ｓｉｎ（ｔａｎ^－１（θ））の値に回帰されることができる。本ネットワークの実施形態が訓練され得る、ハイパーパラメータのセット（例えば、損失加重、学習率、ソルバ等）が、存在し得る。
（直方体検出器を訓練する例示的プロセス）

図８は、直方体検出器を訓練する例示的プロセス８００のフロー図である。プロセス８００は、ブロック８０４から開始し、そこで、それぞれ、少なくとも１つの直方体を備える、複数の訓練画像が、受信される。訓練画像のそれぞれのうちのいくつかは、１つ以上の直方体を含み得る。プロセス８００は、直方体特有の（例えば、直方体特有の）データ拡張方略を実施し、訓練された直方体検出器の性能を改良するステップを含むことができる。ブロック８０８では、畳み込みニューラルネットワークが、受信される。畳み込みニューラルネットワークは、オブジェクト検出のために訓練されることができる。例えば、畳み込みニューラルネットワークは、ＶＧＧ１６またはＶＧＧ－Ｍであることができる。畳み込みニューラルネットワークは、いくつかの実装では、深層ニューラルネットワークであることができる。

ブロック８１２では、直方体検出器が、生成される。直方体検出器は、ＣＮＮタワーを含むことができる。ＣＮＮタワーは、ブロック８０８において受信された畳み込みニューラルネットワークの複数の畳み込み層および非畳み込み層を含むことができる。例えば、ＣＮＮタワーは、受信された畳み込みニューラルネットワークの一部または全部の畳み込み層を含むことができる。非畳み込み層は、正規化層、明度正規化層、バッチ正規化層、正規化線形層、アップサンプリング層、連結層、プーリング層、ソフトサイン層、または任意のそれらの組み合わせを含むことができる。ＣＮＮタワーは、畳み込み特徴マップを単眼画像等の入力画像から生成することができる。

直方体検出器は、ＣＮＮまたはＤＮＮ等の領域提案ネットワーク（ＲＰＮ）を含むことができる。領域提案ネットワークは、ＣＮＮタワーの層に接続されることができる。領域提案ネットワークは、畳み込み特徴マップを使用して、直方体を画像内に備える着目領域（ＲｏＩ）を決定することができる。例えば、着目領域は、直方体画像場所における直方体を包囲する、２次元（２Ｄ）境界ボックスとして表されることができる。直方体は、直方体、円柱、球体、または任意のそれらの組み合わせを備えることができる。ＲＰＮは、訓練の間、対数損失関数および平滑Ｌ１損失関数等の少なくとも２つの損失関数と関連付けられることができる。

直方体検出器は、プーリング層と、少なくとも１つのリグレッサ層とを含むことができる。プーリング層は、ＣＮＮタワーの層に接続されることができる。プーリング層は、直方体画像場所を使用して、直方体を備える着目領域に対応する畳み込み特徴マップのサブマップを決定することができる。プーリング層および領域提案ネットワークは、ＣＮＮタワーの同一層に接続されることができる。

直方体検出器は、領域－ＣＮＮ（Ｒ－ＣＮＮ）または高速Ｒ－ＣＮＮの２つの全結合層等の２つのリグレッサ層を含むことができる。別の実施例として、リグレッサ層は、全結合されない。リグレッサ層は、訓練の間、少なくとも３つの損失関数と関連付けられることができる。例えば、少なくとも３つの損失関数は、対数損失関数および平滑Ｌ１損失関数を備える。

直方体検出器は、訓練されることができる。ブロック８１６では、直方体検出器は、直方体をブロック８０４において受信された訓練画像内に備える画像場所における着目領域を決定することができる。いくつかの実施形態では、画像内の直方体の表現が、決定されることができる。直方体画像場所におけるＲｏＩおよび直方体の表現を決定するために、直方体検出器は、ＣＮＮタワーの畳み込み層および非畳み込み層を使用して、訓練画像に関する畳み込み特徴マップを生成することができる。畳み込み特徴マップに基づいて、領域提案ネットワークは、直方体を訓練画像内の初期画像場所に備えるＲｏＩを決定することができる。訓練画像内の直方体の初期画像場所に基づいて、直方体検出器のプーリング層は、初期画像場所における直方体を備えるＲｏＩに対応する畳み込み特徴マップのサブマップを決定することができる。少なくとも１つの回帰層は、直方体画像場所におけるＲｏＩおよび直方体の表現を決定することができる。初期直方体画像場所または直方体画像場所は、２次元（２Ｄ）境界ボックスとして表されることができる。いくつかの実装では、方法８００は、プーリング層、少なくとも１つのリグレッサ層、および直方体を備えるＲｏＩに対応する畳み込み特徴マップのサブマップを使用して、直方体画像場所におけるＲｏＩおよび直方体の表現を反復的に決定するステップを含むことができる。

直方体の表現は、異なる実装では、異なり得る。表現は、直方体のパラメータ化された表現を含むことができる。例えば、直方体のパラメータ化された表現は、画像内の直方体の６つまたは８つの頂点等、画像内の直方体（例えば、直方体）の複数の特徴点の場所を含むことができる。別の実施例として、パラメータ化された表現は、画像の中心からの直方体の複数の特徴点の正規化されたオフセットを含むことができる。さらなる実施例として、パラメータ化された表現は、６つのタプル等、Ｎ個のタプルを備える。実施例として、直方体のパラメータ化された表現は、消失点パラメータ化を備える。

ブロック８２０では、基準画像場所と決定された画像場所との間の第１の差異および直方体の基準表現と直方体の決定された表現との間の第２の差異が、決定されることができる。直方体の基準表現は、上記の方程式［１］および［２］に図示されるように、特徴点毎にグラウンドトゥルース標的を含むことができる。基準画像場所は、グラウンドトゥルース標的によって表される境界ボックスを含むことができる。

ブロック８２４では、直方体検出器の加重が、第１の差異および第２の差異に基づいて更新されることができる。差異は、方程式［３］に示される損失関数（またはその成分）として表され得る。直方体検出器の加重の一部または全部は、決定された差異に基づいて更新されることができる。例えば、領域提案ネットワークの加重および少なくとも１つのリグレッサ層の加重は、差異に基づいて更新されることができる。別の実施例として、ＲＰＮの加重および少なくとも１つのリグレッサ層の加重は、差異に基づいて第１のＣＮＮの加重を更新せずに更新されることができる。さらなる実施例として、ＣＮＮタワーの加重、領域提案ネットワークの加重、および少なくとも１つのリグレッサ層の加重は、差異に基づいて更新されることができる。プロセス８００は、随意に、より大きいデータセットおよび合成データ、ネットワーク最適化、および規則化技法から直方体検出器を訓練し、一般化を改良するステップを含むことができる。

（直方体検出および特徴点位置特定のための直方体検出器を使用する例示的プロセス）
図９は、直方体検出および特徴点位置特定のための直方体検出器を使用する例示的プロセス９００のフロー図である。プロセス９００は、ブロック９０４から開始し、そこで、システム（例えば、図１０を参照して説明されるウェアラブルディスプレイシステム１０００）が、可能性として考えられる直方体を含む、入力画像を受信する。画像は、１つ以上の直方体を含むことができる。画像は、カラー画像（例えば、ＲＧＢまたはＲＧＢ－Ｄ）を備えることができ、画像は、単眼であってもよい。画像は、ビデオのフレームであってもよく、図１０を参照して説明されるウェアラブルディスプレイシステム１０００の外向きに面した結像システム１０４４を使用して取得されてもよい。

ブロック９０８では、ウェアラブルディスプレイシステム１０００は、直方体検出器（図８に図示されるプロセス８００によって訓練された直方体検出器等）にアクセスすることができる。直方体検出器は、複数の畳み込み層および非畳み込み層を備える、ＣＮＮタワーを含むことができる。直方体検出器は、ＣＮＮタワーに接続される領域提案ネットワークを含むことができる。直方体検出器は、プーリング層と、少なくとも１つのリグレッサ層とを含むことができる。プーリング層は、ＣＮＮタワーに接続されることができる。

ブロック９１２では、ウェアラブルディスプレイシステム１０００は、ＣＮＮタワーの複数の畳み込み層および非畳み込み層および画像を使用して、畳み込み特徴マップ（例えば、図２における畳み込み特徴マップ２２８）を生成することができる。ブロック９１６では、ウェアラブルディスプレイシステム１０００は、領域提案ネットワークを使用して、直方体を画像の直方体画像場所に備える少なくとも１つのＲｏＩ（例えば、図２における着目領域２２０ａ１、２２０ａ２、２２０ｂ）を決定することができる。直方体画像場所は、２次元（２Ｄ）境界ボックスとして表されることができる。ブロック９２０では、ウェアラブルディスプレイシステム１０００は、プーリング層（例えば、図２におけるプーリング層２１２）および直方体画像場所を使用して、直方体を備える着目領域に対応する畳み込み特徴マップのサブマップを決定することができる。例えば、サブマップは、そこから特徴が図２においてプーリングされ得る、畳み込み特徴マップ２２８の領域２２４ａから決定されることができる。ブロック９２４では、ウェアラブルディスプレイシステム１０００は、リグレッサ層（例えば、Ｒ－ＣＮＮリグレッサ）およびサブマップを使用して、精緻化された直方体画像場所における精緻化されたＲｏＩおよび直方体の表現を決定することができる。精緻化された直方体画像場所は、２次元（２Ｄ）境界ボックスとして表されることができる。

いくつかの実施形態では、方法９００は、反復特徴プーリングを含む。例えば、ウェアラブルディスプレイシステム１０００は、精緻化された直方体画像場所を使用して、直方体を備える精緻化された着目領域に対応する畳み込み特徴マップの精緻化されたサブマップを決定することができる。例えば、サブマップは、そこから特徴が図２においてプーリングされ得る、畳み込み特徴マップ２２８の領域２２４ｂから決定されることができる。ウェアラブルディスプレイシステム１０００は、プーリング層、少なくとも１つのリグレッサ層、および精緻化されたＲｏＩに対応する畳み込み特徴マップの精緻化されたサブマップを使用して、さらなる精緻化された直方体画像場所におけるさらなる精緻化されたＲｏＩおよび直方体のさらなる定義された表現を決定することができる。

ウェアラブルディスプレイシステム１０００は、精緻化された直方体画像場所における精緻化された着目領域および直方体の表現に基づいて、システムのユーザと相互作用することができる。例えば、直方体は、定常ボックスに対応し得、ウェアラブルディスプレイシステム１０００は、直方体の精緻化された画像場所および直方体の表現に基づいて、定常ボックスに関連してキャラクタ動画を生成することができる。別の実施例として、直方体は、手で持てるサイズの直方体に対応し得る。ウェアラブルディスプレイシステム１０００は、直方体の表現を使用して、直方体の姿勢を決定し、直方体の姿勢に基づいて、システムのユーザと相互作用することができる。さらなる実施例として、直方体は、ＣＮＮによって認識不可能な稀有なオブジェクトに対応し得る。ウェアラブルディスプレイシステム１０００は、ユーザに、ＣＮＮによって認識不可能な稀有なオブジェクト検出されたことの通知を提供することができる。実施例として、直方体は、人工構造（例えば、建物）に対応する。ウェアラブルディスプレイシステム１０００は、無人飛行の間、精緻化された直方体画像場所における精緻化されたＲｏＩおよび直方体の表現に基づいて、システムのユーザを補助することができる。別の実施例として、直方体は、マーカに対応する、直方体であることができる。ウェアラブルディスプレイシステム１０００は、直方体の姿勢に基づいて、同時位置特定およびマッピング（ＳＬＡＭ）を実施することができる。

例示的用途
画像内のボックス状オブジェクトを検出し、姿勢のような３Ｄ情報を抽出することは、全体的場面理解に役立ち得る。多くの高レベル意味論問題は、最初に、場面内のボックスを検出する（例えば、場面内のオブジェクトをボックスにまとめ、場面内の支持表面を推定し、場面レイアウトを推定することによって、部屋内の自由空間を抽出する）ことに悩まされ得る。

本明細書に開示される直方体検出器は、拡張現実（ＡＲ）、人間－コンピュータ相互作用（ＨＣＩ）、自律車両、ドローン、またはロボット全般のための１つ以上の可能性をもたらし得る。例えば、直方体検出器は、下記のように使用されることができる。

拡張現実に関して、直方体頂点位置特定後の６自由度（６－ｄｏｆ）姿勢推定は、コンテンツクリエータが、定常ボックスによって定義された直方体中心座標系を使用して、キャラクタ動画を駆動することを可能にする。定常直方体によって占有される空間の体積は、直方体頂点位置特定後の６－ｄｏｆ姿勢推定に基づいて既知であるため、動画化されたキャラクタは、ボックス上にジャンプし、その背後に隠れ、さらに、ボックスの面のうちの１つ上に絵を描き始めることができる。故に、コンテンツクリエータは、直方体検出器を使用して、動的世界を直方体の周囲に構築することができる。

人間－コンピュータ相互作用に関して、ユーザは、自らの周囲のボックスオブジェクトを使用して、場面と相互作用してもよい。コンテンツクリエータは、世界が直方体から構築される、ゲームまたはユーザ環境を作成してもよい。別の実施例として、手で持てるサイズの直方体が、軽量ゲームコントローラとして使用されることができる。図１０を参照して説明されるウェアラブルディスプレイシステム１０００等のシステムは、手で持てるサイズの立方体の画像を経時的に捕捉するカメラを含むことができる。また、システムは、捕捉された画像を使用して、立方体の姿勢を推定し、立方体を３Ｄ空間内で効果的に追跡することができる。いくつかの実施形態では、直方体は、ＡＲシステムにおける相互作用を改良するための方法としての役割を果たすことができる（例えば、直方体を使用したテーブルの表面上のＡＲデモ）。

自律車両に関して、３Ｄ直方体検出は、車両が、教師あり訓練セットにおいて欠測され得る稀有なオブジェクトの空間範囲を推測することを可能にする。クラス非依存型様式でオブジェクトの姿勢を推測することによって、自律車両は、より安全な運転手となり得る。

ドローンに関して、建物、家、または車等の人工構造は、直方体と十分に近似され、無人飛行の間、ナビゲーションを補助することができる。ロボット全般に関して、画像内のボックス状オブジェクトを検出し、姿勢のようなその３Ｄ情報を抽出することは、全体的場面理解に役立つ。例えば、少数の直方体を場面内に設置すること（Ａｒｕｃｏマーカの代わりに）は、姿勢追跡を同時位置特定およびマッピング（ＳＬＡＭ）用途のためによりロバストにし得る。

（付加的実施形態）
いくつかの実施形態では、直方体検出器は、ボトムアップ画像処理に依拠せず、実画像上でリアルタイムで満足の行くように機能する。直方体検出器は、３Ｄモデルの大量の訓練データベースおよび２Ｄ／３Ｄ整合のためのある種類の学習を使用して訓練されることができる。いくつかの実装では、直方体検出器は、幾何学形状ベースの方法、変形部品モデル、勾配方向ヒストグラム（ＨＯＧ）ベースのモデル（例えば、ＨＯＧ分類子）を実装することができる。直方体検出器は、異なるビュー内の直方体頂点を検出し、ＨＯＧ分類子、２Ｄ頂点変位、縁整合スコア、および予測される頂点の３Ｄ内の直方体との近接度を考慮する、３Ｄ形状スコアからのスコアに基づいて、最終直方体構成を決定することができる。直方体検出器は、同時に、実際の３Ｄ直方体から離れすぎている予測にペナルティを課しながら、画像内に見出される視覚的証拠（角および縁）を最適化することができる。

理論によって限定されるわけではないが、直方体検出器は、畳み込みニューラルネットワークのその性能に起因し得る。ＣＮＮは、画像分類のタスクのための既存の方法より優れている可能性がある。画像内の直方体を位置特定するために、画像は領域に細分され、これらの領域が、代わりに、例えば、リアルタイムで分類される。直方体検出器は、単一ステップにおいて検出を実施することができる。例えば、図１０を参照して説明されるウェアラブルディスプレイシステム１０００上で起動する直方体検出器は、５０～６０フレーム／秒を処理し、したがって、リアルタイム直方体検出および特徴点位置特定を実施することができる。直方体検出器によって実装される反復特徴点精緻化は、マルチ領域ＣＮＮおよび内外ネットワークの反復境界ボックス回帰内のネットワークカスケードの反復誤差フィードバックアプローチに基づくことができる。代替として、または加えて、直方体検出器によって実装される反復特徴点精緻化は、再帰ニューラルネットワークに基づくことができる。

（例示的ＮＮ層）
深層ニューラルネットワーク（ＤＮＮ）等のニューラルネットワーク（ＮＮ）の層は、線形または非線形変換をその入力に適用し、その出力を生成することができる。深層ニューラルネットワーク層は、正規化層、畳み込み層、ソフトサイン層、正規化線形層、連結層、プーリング層、再帰層、インセプション様層、または任意のそれらの組み合わせであることができる。正規化層は、その入力の明度を正規化し、例えば、Ｌ２正規化を用いて、その出力を生成することができる。正規化層は、例えば、複数の画像の明度を相互に対して一度に正規化し、複数の正規化された画像をその出力として生成することができる。明度を正規化するための方法の非限定的実施例は、ローカルコントラスト正規化（ＬＣＮ）またはローカル応答正規化（ＬＲＮ）を含む。ローカルコントラスト正規化は、ピクセルベースで画像のローカル領域を正規化し、ゼロの平均値および１の分散値（または平均値および分散値の他の値）を有することによって、画像のコントラストを非線形に正規化することができる。ローカル応答正規化は、ローカル入力領域にわたって画像を正規化し、ゼロの平均値および１の分散値（または平均値および分散値の他の値）を有することができる。正規化層は、訓練プロセスを加速させ得る。

畳み込み層は、その入力を畳み込み、その出力を生成する、カーネルのセットを適用することができる。ソフトサイン層は、ソフトサイン関数をその入力に適用することができる。ソフトサイン関数（ｓｏｆｔｓｉｇｎ（ｘ））は、例えば、（ｘ／（１＋｜ｘ｜））であることができる。ソフトサイン層は、要素毎誤対応の影響を無視してもよい。正規化線形層は、正規化線形層ユニット（ＲｅＬＵ）またはパラメータ化された正規化線形層ユニット（ＰＲｅＬＵ）であることができる。ＲｅＬＵ層は、ＲｅＬＵ関数をその入力に適用し、その出力を生成することができる。ＲｅＬＵ関数ＲｅＬＵ（ｘ）は、例えば、ｍａｘ（０、ｘ）であることができる。ＰＲｅＬＵ層は、ＰＲｅＬＵ関数をその入力に適用し、その出力を生成することができる。ＰＲｅＬＵ関数ＰＲｅＬＵ（ｘ）は、例えば、ｘ≧０である場合、ｘであって、ｘ＜０である場合、ａｘであることができ、ａは、正の数であることができる。連結層は、その入力を連結し、その出力を生成することができる。例えば、連結層は、４つの５×５画像を連結し、１つの２０×２０画像を生成することができる。プーリング層は、プーリング関数を適用することができ、これは、その入力をダウンサンプリングし、その出力を生成する。例えば、プーリング層は、２０×２０画像を１０×１０画像にダウンサンプリングすることができる。プーリング関数の非限定的実施例は、最大プーリング、平均プーリング、または最小プーリングを含む。

時間点ｔでは、再帰層は、隠蔽状態ｓ（ｔ）を計算することができ、再帰接続は、時間点ｔにおける隠蔽状態ｓ（ｔ）を再帰層に後続時間点ｔ＋１における入力として提供することができる。再帰層は、時間点ｔにおける隠蔽状態ｓ（ｔ）に基づいて、時間点ｔ＋１においてその出力を計算することができる。例えば、再帰層は、ソフトサイン関数を時間点ｔにおける隠蔽状態ｓ（ｔ）に適用し、時間点ｔ＋１におけるその出力を計算することができる。時間点ｔ＋１における再帰層の隠蔽状態は、その入力として、時間点ｔにおける再帰層の隠蔽状態ｓ（ｔ）を有する。再帰層は、例えば、ＲｅＬＵ関数をその入力に適用することによって、隠蔽状態ｓ（ｔ＋１）を計算することができる。インセプション様層は、正規化層、畳み込み層、ソフトサイン層、ＲｅＬＵ層およびＰＲｅＬＵ層等の正規化線形層、連結層、プーリング層、または任意のそれらの組み合わせのうちの１つ以上のものを含むことができる。

ＮＮ内の層の数は、異なる実装では、異なり得る。例えば、ＤＮＮ内の層の数は、５０、１００、２００、またはそれよりも多いことができる。深層ニューラルネットワーク層の入力タイプは、異なる実装では、異なり得る。例えば、層は、いくつかの層の出力をその入力として受信することができる。層の入力は、５つの層の出力を含むことができる。別の実施例として、層の入力は、ＮＮの層の１％を含むことができる。層の出力は、いくつかの層の入力であることができる。例えば、層の出力は、５つの層の入力として使用されることができる。別の実施例として、層の出力は、ＮＮの層の１％の入力として使用されることができる。

層の入力サイズまたは出力サイズは、非常に大きくなることができる。層の入力サイズまたは出力サイズは、ｎ×ｍであることができ、ｎは、入力または出力の幅を示し、ｍは、高さを示す。例えば、ｎまたはｍは、１１、２１、３１、またはそれよりも大きいことができる。層の入力または出力のチャネルサイズは、異なる実装では、異なり得る。例えば、層の入力または出力のチャネルサイズは、４、１６、３２、６４、１２８、またはそれよりも大きいことができる。層のカーネルサイズは、異なる実装では、異なり得る。例えば、カーネルサイズは、ｎ×ｍであることができ、ｎは、カーネルの幅を示し、ｍは、高さを示す。例えば、ｎまたはｍは、５、７、９、またはそれよりも大きいことができる。層のストライドサイズは、異なる実装では、異なり得る。例えば、深層ニューラルネットワーク層のストライドサイズは、３、５、７、またはそれよりも大きいことができる。

いくつかの実施形態では、ＮＮは、ＮＮの出力をともに計算する、複数のＮＮを指し得る。複数のＮＮの異なるＮＮは、異なるタスクのために訓練されることができる。プロセッサ（例えば、図１０を参照して説明されるローカルデータ処理モジュール１０２４のプロセッサ）は、複数のＮＮのＮＮの出力を計算し、ＮＮの出力を決定することができる。例えば、複数のＮＮのＮＮの出力は、尤度スコアを含むことができる。プロセッサは、複数のＮＮの異なるＮＮの出力の尤度スコアに基づいて、複数のＮＮを含む、ＮＮの出力を決定することができる。

（例示的ウェアラブルディスプレイシステム）
いくつかの実施形態では、ユーザデバイスは、ウェアラブルディスプレイデバイスであることができる、またはその中に含まれることができ、これは、有利には、より没入型の仮想現実（ＶＲ）、拡張現実（ＡＲ）、または複合現実（ＭＲ）体験を提供し得、デジタル的に再現された画像またはその一部が、それらが現実であるように見える、またはそのように知覚され得る様式で装着者に提示される。

理論によって限定されるわけではないが、ヒトの眼は、典型的には、有限数の深度平面を解釈し、深度知覚を提供し得ると考えられる。その結果、知覚された深度の高度に真実味のあるシミュレーションが、眼にこれらの限定数の深度平面のそれぞれに対応する画像の異なる提示を提供することによって達成され得る。例えば、導波管のスタックを含有するディスプレイは、ユーザまたは視認者の眼の正面に位置付けられて装着されるように構成されてもよい。導波管のスタックは、複数の導波管を使用して、画像投入デバイス（例えば、１つ以上の光ファイバを介して画像情報を送出する、離散ディスプレイまたは多重化されたディスプレイの出力端）からの光を特定の導波管と関連付けられた深度平面に対応する特定の角度（および分散量）で視認者の眼に指向することによって、３次元知覚を眼／脳に提供するために利用され得る。

いくつかの実施形態では、視認者の眼毎に１つの導波管の２つのスタックが、異なる画像を各眼に提供するために利用されてもよい。一実施例として、拡張現実場面は、ＡＲ技術の装着者に、人々、木々、背景における建物、およびコンクリートプラットフォームを特徴とする実世界公園状設定が見えるようなものであってもよい。これらのアイテムに加え、ＡＲ技術の装着者はまた、実世界プラットフォーム上に立っているロボット像と、マルハナバチの擬人化のように見える飛んでいる漫画状アバタキャラクタとを「見ている」と知覚し得るが、ロボット像およびマルハナバチは、実世界には存在しない。導波管のスタックは、入力画像に対応するライトフィールドを生成するために使用されてもよく、いくつかの実装では、ウェアラブルディスプレイは、ウェアラブルライトフィールドディスプレイを備える。ライトフィールド画像を提供するためのウェアラブルディスプレイデバイスおよび導波管スタックの実施例は、米国特許公開第２０１５／００１６７７７号（それが含有する全てに関して、参照することによってその全体として本明細書に組み込まれる）に記載されている。

図１０は、ＶＲ、ＡＲ、またはＭＲ体験をディスプレイシステム装着者または視認者１００４に提示するために使用され得る、ウェアラブルディスプレイシステム１０００の実施例を図示する。ウェアラブルディスプレイシステム１０００は、本明細書に説明される用途または実施形態のいずれかを実施するようにプログラムされてもよい（例えば、ＣＮＮの実行、入力アクティブ化マップまたはカーネルの値の並べ替え、眼画像セグメント化、または眼追跡）。ディスプレイシステム１０００は、ディスプレイ１００８と、そのディスプレイ１００８の機能をサポートするための種々の機械的および電子モジュールおよびシステムとを含む。ディスプレイ１００８は、フレーム１０１２に結合されてもよく、これは、ディスプレイシステム装着者または視認者１００４によって装着可能であって、ディスプレイ１００８を装着者１００４の眼の正面に位置するように構成される。ディスプレイ１００８は、ライトフィールドディスプレイであってもよい。いくつかの実施形態では、スピーカ１０１６は、フレーム１０１２に結合され、ユーザの外耳道に隣接して位置付けられ、いくつかの実施形態では、示されない別のスピーカが、ユーザの他の外耳道に隣接して位置付けられ、ステレオ／調節可能音制御を提供する。ディスプレイシステム１０００は、装着者１００４の周囲の環境の画像（例えば、静止画像またはビデオ）を取得し得る、外向きに面した結像システム１０４４（例えば、１つ以上のカメラ）を含むことができる。外向きに面した結像システム１０４４によって取得される画像は、深層直方体検出器の実施形態によって分析され、装着者１００４の周囲の環境内の直方体を検出および位置特定することができる。

ディスプレイ１００８は、有線導線または無線コネクティビティ等によって、ローカルデータ処理モジュール１０２４に動作可能に結合され１０２０、これは、フレーム１０１２に固定して取り付けられる、ユーザによって装着されるヘルメットまたは帽子に固定して取り付けられる、ヘッドホンに内蔵される、または別様に、ユーザ１００４に除去可能に取り付けられる（例えば、リュック式構成、ベルト結合式構成において）等、種々の構成において搭載されてもよい。

ローカル処理およびデータモジュール１０２４は、ハードウェアプロセッサと、不揮発性メモリ、例えば、フラッシュメモリ等の非一過性デジタルメモリとを備えてもよく、両方とも、データの処理、キャッシュ、および記憶を補助するために利用されてもよい。データは、（ａ）画像捕捉デバイス（カメラ等）、マイクロホン、慣性測定ユニット、加速度計、コンパス、ＧＰＳユニット、無線デバイス、および／またはジャイロスコープ等のセンサ（例えば、フレーム１０１２に動作可能に結合される、または別様に、装着者１００４に取り付けられ得る）から捕捉された、および／または（ｂ）可能性として、処理または読出後にディスプレイ１００８への通過のために、遠隔処理モジュール１０２８および／または遠隔データリポジトリ１０３２を使用して入手および／または処理されたデータを含む。ローカル処理およびデータモジュール１０２４は、これらの遠隔モジュール１０２８、１０３２が、相互に動作可能に結合され、ローカル処理およびデータモジュール１０２４へのリソースとして利用可能であるように、有線または無線通信リンク等を介して、通信リンク１０３６、１０４０によって、遠隔処理モジュール１０２８および遠隔データリポジトリ１０３２に動作可能に結合されてもよい。画像捕捉デバイスは、眼画像セグメント化または眼追跡プロシージャにおいて使用される眼画像を捕捉するために使用されることができる。

いくつかの実施形態では、遠隔処理モジュール１０２８は、データおよび／または画像捕捉デバイスによって捕捉されたビデオ情報等の画像情報を分析および処理するように構成される、１つ以上のプロセッサを備えてもよい。ビデオデータは、ローカル処理およびデータモジュール１０２４内にローカルでおよび／または遠隔データリポジトリ１０３２内に記憶されてもよい。いくつかの実施形態では、遠隔データリポジトリ１０３２は、デジタルデータ記憶設備を備えてもよく、これは、インターネットまたは「クラウド」リソース構成における他のネットワーキング構成を通して利用可能であってもよい。いくつかの実施形態では、全てのデータは、記憶され、全ての算出は、ローカル処理およびデータモジュール１０２４内で実施され、遠隔モジュールからの完全に自律的な使用を可能にする。

いくつかの実装では、ローカル処理およびデータモジュール１０２４および／または遠隔処理モジュール１０２８は、本明細書に開示される、入力アクティブ化マップまたはカーネルの値の並べ替え、眼画像セグメント化、または眼追跡の実施形態を実施するようにプログラムされる。例えば、ローカル処理およびデータモジュール１０２４および／または遠隔処理モジュール１０２８は、図９を参照して説明されるプロセス９００の実施形態を実施するようにプログラムされることができる。ローカル処理およびデータモジュール１０２４および／または遠隔処理モジュール１０２８は、本明細書に開示される直方体検出および特徴点位置特定を実施するようにプログラムされることができる。画像捕捉デバイスは、特定の用途（例えば、拡張現実（ＡＲ）、人間－コンピュータ相互作用（ＨＣＩ）、自律車両、ドローン、またはロボット全般）のためのビデオを捕捉することができる。ビデオは、処理モジュール１０２４、１０２８の一方または両方によって、ＣＮＮを使用して分析されることができる。ある場合には、入力アクティブ化マップまたはカーネルの値の並べ替え、眼画像セグメント化、または眼追跡の少なくとも一部を遠隔処理モジュール（例えば、「クラウド」に）にオフロードすることは、計算の効率または速度を改良し得る。ＣＮＮのパラメータ（例えば、加重、バイアス項、プーリング層のためのサブサンプリング係数、異なる層内のカーネルの数およびサイズ、特徴マップの数等）は、データモジュール１０２４および／または１０３２内に記憶されることができる。

直方体検出および特徴点場所の結果（例えば、直方体検出器２００の出力）は、付加的動作または処理のために、処理モジュール１０２４、１０２８の一方または両方によって使用されることができる。例えば、ウェアラブルディスプレイシステム１０００の処理モジュール１０２４、１０２８は、直方体検出器２００の出力に基づいて、本明細書に説明される付加的用途（拡張現実、人間－コンピュータ相互作用（ＨＣＩ）、自律車両、ドローン、またはロボット全般における用途等）を実施するようにプログラムされることができる。

（付加的側面）
第１の側面では、直方体検出および特徴点位置特定のためのシステムが、開示される。本システムは、実行可能命令と、直方体検出のための画像と、直方体検出器であって、該直方体検出器は、畳み込み特徴マップを画像から生成するための第１の畳み込みニューラルネットワーク（ＣＮＮ）の複数の畳み込み層および非畳み込み層と、畳み込み特徴マップを使用して、直方体を画像の直方体画像場所に備える少なくとも１つの着目領域（ＲｏＩ）を決定するための、第２のＣＮＮを備える、領域提案ネットワーク（ＲＰＮ）と、畳み込み特徴マップおよび直方体を備えるＲｏＩを使用して、精緻化された直方体画像場所における精緻化されたＲｏＩおよび直方体の表現を決定するための、プーリング層および少なくとも１つのリグレッサ層と、を備える、直方体検出器と、を記憶するように構成される、非一過性メモリと、非一過性メモリと通信する、ハードウェアプロセッサであって、実行可能命令によって、画像を受信し、第１のＣＮＮの複数の畳み込み層および非畳み込み層および画像を使用して、畳み込み特徴マップを生成し、ＲＰＮを使用して、直方体を画像の直方体画像場所に備える少なくとも１つのＲｏＩを決定し、プーリング層および直方体画像場所を使用して、直方体を備えるＲｏＩに対応する畳み込み特徴マップのサブマップを決定し、少なくとも１つのリグレッサ層および直方体を備えるＲｏＩに対応する畳み込み特徴マップのサブマップを使用して、精緻化された直方体画像場所における精緻化されたＲｏＩおよび直方体の表現を決定するようにプログラムされる、ハードウェアプロセッサとを備える。

第２の側面では、ハードウェアプロセッサはさらに、精緻化された直方体画像場所を使用して、直方体を備える精緻化されたＲｏＩに対応する畳み込み特徴マップの精緻化されたサブマップを決定し、プーリング層、少なくとも１つのリグレッサ層、および直方体を備える精緻化されたＲｏＩに対応する畳み込み特徴マップの精緻化されたサブマップを使用して、さらなる精緻化された直方体画像場所におけるさらなる精緻化されたＲｏＩおよび直方体のさらなる定義された表現を決定するようにプログラムされる、側面１に記載のシステム。

第３の側面では、直方体画像場所は、２次元（２Ｄ）境界ボックスとして表される、側面１－２のいずれか１項に記載のシステム。

第４の側面では、精緻化された直方体画像場所は、２次元（２Ｄ）境界ボックスとして表される、側面１－３のいずれか１項に記載のシステム。

第５の側面では、第１のＣＮＮの非畳み込み層は、正規化層、明度正規化層、バッチ正規化層、正規化線形層、アップサンプリング層、連結層、プーリング層、ソフトサイン層、または任意のそれらの組み合わせを備える、側面１－４のいずれか１項に記載のシステム。

第６の側面では、少なくとも１つのリグレッサ層は、２つ以上の層を備える、側面１－５のいずれか１項に記載のシステム。

第７の側面では、２つ以上の層は、全結合層、非全結合層、または任意のそれらの組み合わせを備える、側面６に記載のシステム。

第８の側面では、少なくとも１つのリグレッサ層は、訓練の間、少なくとも３つの損失関数と関連付けられる、側面１－７のいずれか１項に記載のシステム。

第９の側面では、少なくとも３つの損失関数は、対数損失関数および平滑Ｌ１損失関数を備える、側面８に記載のシステム。

第１０の側面では、ＲＰＮは、深層ニューラルネットワーク（ＤＮＮ）を備える、側面１－９のいずれか１項に記載のシステム。

第１１の側面では、ＲＰＮは、訓練の間、少なくとも２つの損失関数と関連付けられる、側面１－１０のいずれか１項に記載のシステム。

第１２の側面では、少なくとも２つの損失関数は、対数損失関数および平滑Ｌ１損失関数を備える、側面１１に記載のシステム。

第１３の側面では、直方体の表現は、直方体のパラメータ化された表現を備える、側面１－１２のいずれか１項に記載のシステム。

第１４の側面では、直方体のパラメータ化された表現は、画像内の直方体の複数の特徴点の場所を備える、側面１３に記載のシステム。

第１５の側面では、複数の特徴点は、画像内の直方体の８つの頂点を備える、側面１４に記載のシステム。

第１６の側面では、パラメータ化された表現は、画像の中心からの直方体の複数の特徴点の正規化されたオフセットを備える、側面１３に記載のシステム。

第１７の側面では、パラメータ化された表現は、Ｎ個のタプルを備える、側面１３に記載のシステム。

第１８の側面では、直方体のパラメータ化された表現は、１２のパラメータを備える、側面１３に記載のシステム。

第１９の側面では、直方体のパラメータ化された表現は、消失点パラメータ化を備える、側面１３に記載のシステム。

第２０の側面では、ハードウェアプロセッサはさらに、精緻化された直方体画像場所における精緻化されたＲｏＩおよび直方体の表現に基づいて、システムのユーザと相互作用するようにプログラムされる、側面１－１９のいずれか１項に記載のシステム。

第２１の側面では、直方体は、定常ボックスに対応し、システムのユーザと相互作用するために、ハードウェアプロセッサはさらに、直方体の精緻化された画像場所および直方体の表現に基づいて、定常ボックスに関連してキャラクタ動画を生成するようにプログラムされる、側面２０に記載のシステム。

第２２の側面では、直方体は、手で持てるサイズの直方体に対応し、システムのユーザと相互作用するために、ハードウェアプロセッサはさらに、直方体の表現を使用して、直方体の姿勢を決定し、直方体の姿勢に基づいて、システムのユーザと相互作用するようにプログラムされる、側面２０に記載のシステム。

第２３の側面では、直方体は、第３のＣＮＮによって認識不可能な稀有なオブジェクトに対応し、システムのユーザと相互作用するために、ハードウェアプロセッサはさらに、ユーザに、第３のＣＮＮによって認識不可能な稀有なオブジェクトが検出されたことの通知を提供するようにプログラムされる側面２０に記載のシステム。

第２４の側面では、直方体は、人工構造に対応し、ハードウェアプロセッサはさらに、無人飛行の間、精緻化された直方体画像場所における精緻化されたＲｏＩおよび直方体の表現に基づいて、システムのユーザを補助するようにプログラムされる、側面１－２３のいずれか１項に記載のシステム。

第２５の側面では、直方体は、マーカに対応し、ハードウェアプロセッサはさらに、精緻化された直方体画像場所における精緻化されたＲｏＩおよび直方体の表現に基づいて、同時位置特定およびマッピング（ＳＬＡＭ）を実施するようにプログラムされる、側面１－２４のいずれか１項に記載のシステム。

第２６の側面では、ウェアラブルディスプレイシステムが、開示される。ウェアラブルディスプレイは、直方体検出のための画像を取得するように構成される、外向きに面した結像システムと、側面１－２５のいずれか１項に記載の直方体検出および特徴点位置特定のためのシステムとを備える。

第２７の側面では、直方体検出器を訓練するためのシステムが、開示される。本システムは、実行可能命令を記憶するように構成される、非一過性メモリと、非一過性メモリと通信する、ハードウェアプロセッサであって、該ハードウェアプロセッサは、実行可能命令によって、それぞれ、少なくとも１つの直方体を備える、複数の訓練画像を受信し、直方体検出器を生成し、直方体検出器は、第１の畳み込みニューラルネットワーク（ＣＮＮ）の複数の畳み込み層および非畳み込み層と、複数の畳み込み層および非畳み込み層の第１の層に接続される、領域提案ネットワーク（ＲＰＮ）と、プーリング層および少なくとも１つのリグレッサ層と、複数の畳み込み層および非畳み込み層の第２の層に接続される、プーリング層および少なくとも１つのリグレッサ層とを備え、直方体検出器を訓練するようにプログラムされる、ハードウェアプロセッサとを備え、直方体検出器を訓練するために、ハードウェアプロセッサは、直方体検出器を使用して、複数の訓練画像の訓練画像内の直方体画像場所におけるＲｏＩおよび直方体の表現を決定し、基準直方体画像場所と直方体画像場所との間の第１の差異および直方体の基準表現と直方体の決定された表現との間の第２の差異を決定し、第１の差異および第２の差異に基づいて、直方体検出器の加重を更新するように構成される。

第２８の側面では、直方体は、直方体、円柱、球体、または任意のそれらの組み合わせを備える、側面２７に記載のシステム。

第２９の側面では、複数の畳み込み層および非畳み込み層の第１の層および複数の畳み込み層および非畳み込み層の第２の層は、同じである、側面２７－２８のいずれか１項に記載のシステム。

第３０の側面では、直方体画像場所におけるＲｏＩおよび直方体の表現を決定するために、ハードウェアプロセッサはさらに、複数の畳み込み層および非畳み込み層を使用して、複数の訓練画像の少なくとも１つの訓練画像に関する畳み込み特徴マップを生成し、ＲＰＮを使用して、直方体を訓練画像内の初期直方体画像場所に備える少なくとも１つのＲｏＩを決定し、初期直方体画像場所を使用して、直方体を備える少なくとも１つのＲｏＩに対応する畳み込み特徴マップのサブマップを決定し、プーリング層、少なくとも１つのリグレッサ層、および直方体を備える少なくとも１つのＲｏＩに対応する畳み込み特徴マップのサブマップを使用して、直方体画像場所におけるＲｏＩおよび直方体の表現を決定するようにプログラムされる、側面２７－２９のいずれか１項に記載のシステム。

第３１の側面では、初期直方体画像場所は、２次元（２Ｄ）境界ボックスとして表される、側面２７－３０のいずれか１項に記載のシステム。

第３２の側面では、直方体画像場所におけるＲｏＩおよび直方体の表現を決定するために、ハードウェアプロセッサはさらに、プーリング層、少なくとも１つのリグレッサ層、および直方体を備えるＲｏＩに対応する畳み込み特徴マップのサブマップを使用して、直方体画像場所におけるＲｏＩおよび直方体の表現を反復的に決定するようにプログラムされる、側面２７－３１のいずれか１項に記載のシステム。

第３３の側面では、初期直方体画像場所は、２次元（２Ｄ）境界ボックスとして表される、側面２７－３２のいずれか１項に記載のシステム。

第３４の側面では、直方体検出器の加重を更新するために、ハードウェアベースのプロセッサは、ＲＰＮの加重および少なくとも１つのリグレッサ層の加重を更新するようにプログラムされる、側面２７－３３のいずれか１項に記載のシステム。

第３５の側面では、直方体検出器の加重を更新するために、ハードウェアベースのプロセッサは、第１のＣＮＮの加重を更新せずに、ＲＰＮの加重および少なくとも１つのリグレッサ層の加重を更新するようにプログラムされる、側面２７－３３のいずれか１項に記載のシステム。

第３６の側面では、直方体検出器の加重を更新するために、ハードウェアベースのプロセッサは、第１のＣＮＮの加重、ＲＰＮの加重、および少なくとも１つのリグレッサ層の加重を更新するようにプログラムされる、側面２７－３３のいずれか１項に記載のシステム。

第３７の側面では、直方体検出器を生成するために、ハードウェアベースのプロセッサは、第１のＣＮＮを受信するようにプログラムされる、側面２７－３６のいずれか１項に記載のシステム。

第３８の側面では、少なくとも１つのリグレッサ層は、２つ以上の層を備える、側面２７－３７のいずれか１項に記載のシステム。

第３９の側面では、２つ以上の層は、全結合層、非全結合層、または任意のそれらの組み合わせを備える、側面３８に記載のシステム。

第４０の側面では、少なくとも１つのリグレッサ層は、直方体検出器の訓練の間、少なくとも３つの損失関数と関連付けられる、側面２７－３８のいずれか１項に記載のシステム。

第４１の側面では、少なくとも３つの損失関数は、対数損失関数および平滑Ｌ１損失関数を備える、側面４０に記載のシステム。

第４２の側面では、ＲＰＮは、深層ニューラルネットワーク（ＤＮＮ）を備える、側面２７－４１のいずれか１項に記載のシステム。

第４３の側面では、ＲＰＮは、直方体検出器の訓練の間、少なくとも２つの損失関数と関連付けられる、側面２７－４２のいずれか１項に記載のシステム。

第４４の側面では、少なくとも２つの損失関数は、対数損失関数および平滑Ｌ１損失関数を備える、側面４３に記載のシステム。

第４５の側面では、直方体の表現は、直方体のパラメータ化された表現を備える、側面２７－４４のいずれか１項に記載のシステム。

第４６の側面では、パラメータ化された表現は、Ｎ個のタプルを備える、側面４５に記載のシステム。

第４７の側面では、ウェアラブルディスプレイシステムが、開示される。ウェアラブルディスプレイシステムは、ウェアラブルディスプレイシステムの装着者の環境の画像を取得するように構成される、外向きに面した結像システムと、画像を記憶するように構成される、非一過性メモリと、非一過性メモリと通信する、ハードウェアプロセッサであって、該プロセッサは、環境の画像にアクセスし、画像を分析し、画像内の直方体を検出するようにプログラムされる、ハードウェアプロセッサとを備え、画像を分析するために、プロセッサは、畳み込みニューラルネットワーク（ＣＮＮ）の層を利用し、特徴を備える畳み込み特徴マップを生成し、領域提案ネットワーク（ＲＰＮ）を利用し、畳み込み特徴マップを着目領域（ＲｏＩ）の中にマッピングし、ＲｏＩ内の特徴をプーリングし、第１のプーリングされた特徴を生成し、第１のプーリングされた特徴をリグレッサを通して通過させ、第１の境界ボックス推定値および第１の直方体頂点推定値を生成し、第１の境界ボックス推定値に基づいて、第２のプーリングされた特徴を生成し、第２のプーリングされた特徴をリグレッサを通して通過させ、第２の境界ボックス推定値および第２の直方体頂点推定値を生成するようにプログラムされる。

第４８の側面では、画像は、単眼色画像を備える、側面４７に記載のウェアラブルディスプレイシステム。

第４９の側面では、ＲＰＮは、畳み込み特徴マップをＲｏＩにマッピングする、ＣＮＮを備える、側面４７または側面４８に記載のウェアラブルディスプレイシステム。

第５０の側面では、第１の境界ボックス推定値または第２の境界ボックス推定値は、境界ボックスの中心からのオフセットを備える、側面４７－４９のいずれか１項に記載のウェアラブルディスプレイシステム。

第５１の側面では、画像内の直方体を検出するためのシステムが、開示される。本システムは、領域の画像を記憶するように構成される、非一過性メモリと、非一過性メモリと通信する、ハードウェアプロセッサであって、該プロセッサは、畳み込みニューラルネットワークを評価し、特徴マップを生成し、特徴マップを分析し、着目領域（ＲｏＩ）を取得し、ＲｏＩが直方体を含有することを決定し、特徴マップのＲｏＩ内の第１のプーリングされた特徴を分析し、直方体の頂点に関する第１の推定値を生成し、少なくとも部分的に、直方体の頂点に関する第１の推定値に基づいて、改良されたＲｏＩを生成し、特徴マップの改良されたＲｏＩ内の第２のプーリングされた特徴を分析し、直方体の頂点に関する第２の推定値を生成し、直方体の頂点に関する第２の推定値を出力するようにプログラムされる、プロセッサとを備える。

第５２の側面では、特徴マップを分析し、着目領域（ＲｏＩ）を取得するために、プロセッサは、領域提案ネットワーク（ＲＰＮ）を評価するようにプログラムされる、側面５１に記載のシステム。

第５３の側面では、直方体の頂点に関する第１の推定値は、ＲｏＩの中心からのオフセットを備える、または直方体の頂点に関する第２の推定値は、改良されたＲｏＩの中心からのオフセットを備える、側面５１または５２に記載のシステム。

第５４の側面では、直方体検出および特徴点位置特定のための方法が、開示される。本方法は、ハードウェアプロセッサの制御下で、画像を受信するステップと、直方体検出器の第１の畳み込みニューラルネットワーク（ＣＮＮ）の複数の畳み込み層および非畳み込み層および画像を使用して、畳み込み特徴マップを生成するステップと、直方体検出器の第２のＣＮＮを備える領域提案ネットワーク（ＲＰＮ）を使用して、直方体を画像の直方体画像場所に備える少なくとも１つのＲｏＩを決定するステップと、直方体検出器のプーリング層および直方体画像場所を使用して、直方体を備えるＲｏＩに対応する畳み込み特徴マップのサブマップを決定するステップと、直方体検出器の少なくとも１つのリグレッサ層および直方体を備えるＲｏＩに対応する畳み込み特徴マップのサブマップを使用して、精緻化された直方体画像場所における精緻化されたＲｏＩおよび直方体の表現を決定するステップとを含む。

第５５の側面では、精緻化された直方体画像場所を使用して、直方体を備える精緻化されたＲｏＩに対応する畳み込み特徴マップの精緻化されたサブマップを決定するステップと、プーリング層、少なくとも１つのリグレッサ層、および直方体を備える精緻化されたＲｏＩに対応する畳み込み特徴マップの精緻化されたサブマップを使用して、さらなる精緻化された直方体画像場所におけるさらなる精緻化されたＲｏＩおよび直方体のさらなる定義された表現を決定するステップとをさらに含む、側面５４に記載の方法。

第５６の側面では、直方体画像場所は、２次元（２Ｄ）境界ボックスとして表される、側面５４－５５のいずれか１項に記載の方法。

第５７の側面では、精緻化された直方体画像場所は、２次元（２Ｄ）境界ボックスとして表される、側面５４－５６のいずれか１項に記載の方法。

第５８の側面では、第１のＣＮＮの非畳み込み層は、正規化層、明度正規化層、バッチ正規化層、正規化線形層、アップサンプリング層、連結層、プーリング層、ソフトサイン層、または任意のそれらの組み合わせを備える、側面５４－５７のいずれか１項に記載の方法。

第５９の側面では、少なくとも１つのリグレッサ層は、２つ以上の層を備える、側面５４－５８のいずれか１項に記載の方法。

第６０の側面では、２つ以上の層は、全結合層、非全結合層、または任意のそれらの組み合わせを備える、側面５９に記載の方法。

第６１の側面では、ＲＰＮは、深層ニューラルネットワーク（ＤＮＮ）を備える、側面５４－６０のいずれか１項に記載の方法。

第６２の側面では、直方体の表現は、直方体のパラメータ化された表現を備える、側面５４－６１のいずれか１項に記載の方法。

第６３の側面では、直方体のパラメータ化された表現は、画像内の直方体の複数の特徴点の場所を備える、側面６２に記載の方法。

第６４の側面では、複数の特徴点は、画像内の直方体の８つの頂点を備える、側面６３に記載の方法。

第６５の側面では、パラメータ化された表現は、画像の中心からの直方体の複数の特徴点の正規化されたオフセットを備える、側面６２に記載の方法。

第６６の側面では、パラメータ化された表現は、Ｎ個のタプルを備える、側面６２に記載の方法。

第６７の側面では、直方体のパラメータ化された表現は、１２のパラメータを備える、側面６２に記載の方法。

第６８の側面では、直方体のパラメータ化された表現は、消失点パラメータ化を備える、側面６２に記載の方法。

第６９の側面では、精緻化された直方体画像場所における精緻化されたＲｏＩおよび直方体の表現に基づいて、ユーザと相互作用するステップをさらに含む、側面５４－５８のいずれか１項に記載の方法。

第７０の側面では、直方体は、定常ボックスに対応し、ユーザと相互作用するステップは、直方体の精緻化された画像場所および直方体の表現に基づいて、定常ボックスに関連してキャラクタ動画を生成するステップを含む、側面６９に記載の方法。

第７１の側面では、直方体は、手で持てるサイズの直方体に対応し、ユーザと相互作用するステップは、直方体の表現を使用して、直方体の姿勢を決定し、直方体の姿勢に基づいて、ユーザと相互作用するステップを含む、側面６９に記載の方法。

第７２の側面では、直方体は、第３のＣＮＮによって認識不可能な稀有なオブジェクトに対応し、ユーザと相互作用するステップは、ユーザに、第３のＣＮＮによって認識不可能な稀有なオブジェクトが検出されたことの通知を提供するステップを含む、側面６９に記載の方法。

第７３の側面では、無人飛行の間、精緻化された直方体画像場所における精緻化されたＲｏＩおよび直方体の表現に基づいて、システムのユーザを補助するステップをさらに含み、直方体は、人工構造に対応する、側面５４－７２のいずれか１項に記載の方法。

第７４の側面では、精緻化された直方体画像場所における精緻化されたＲｏＩおよび直方体の表現に基づいて、同時位置特定およびマッピング（ＳＬＡＭ）を実施するステップをさらに含み、直方体は、マーカに対応する、側面５４－７３のいずれか１項に記載の方法。

第７５の側面では、それぞれ、少なくとも１つの訓練直方体を備える複数の訓練画像を受信するステップと、直方体検出器を生成するステップと、直方体検出器を訓練するステップであって、直方体検出器を使用して、訓練直方体画像場所における訓練ＲｏＩおよび複数の訓練画像の訓練画像内の訓練直方体の表現を決定するステップと、基準直方体画像場所と訓練直方体画像場所との間の第１の差異および訓練直方体の基準表現と訓練直方体の決定された表現との間の第２の差異を決定するステップと、第１の差異および第２の差異に基づいて、直方体検出器の加重を更新するステップとを含む、ステップとをさらに含む、側面５４－７４のいずれか１項に記載の方法。

第７６の側面では、訓練直方体画像場所における訓練ＲｏＩおよび訓練直方体の表現を決定するステップは、複数の畳み込み層および非畳み込み層を使用して、複数の訓練画像の少なくとも１つの訓練画像に関する訓練畳み込み特徴マップを生成するステップと、ＲＰＮを使用して、訓練直方体を訓練画像内の初期訓練直方体画像場所に備える少なくとも１つの訓練ＲｏＩを決定するステップと、初期訓練直方体画像場所を使用して、直方体を備える少なくとも１つのＲｏＩに対応する畳み込み特徴マップのサブマップを決定するステップと、プーリング層、少なくとも１つのリグレッサ層、および訓練直方体を備える少なくとも１つの訓練ＲｏＩに対応する訓練畳み込み特徴マップのサブマップを使用して、訓練直方体画像場所における訓練ＲｏＩおよび訓練直方体の表現を決定するステップとを含む、側面７５に記載の方法。

第７７の側面では、初期訓練直方体画像場所は、２次元（２Ｄ）境界ボックスとして表される、側面７６に記載の方法。

第７８の側面では、訓練直方体画像場所における訓練ＲｏＩおよび訓練直方体の表現を決定するステップは、プーリング層、少なくとも１つのリグレッサ層、および訓練直方体を備える訓練ＲｏＩに対応する訓練畳み込み特徴マップのサブマップを使用して、訓練直方体画像場所におけるＲｏＩおよび訓練直方体の表現を反復的に決定するステップを含む、側面７５に記載の方法。

第７９の側面では、初期訓練直方体画像場所は、２次元（２Ｄ）境界ボックスとして表される、側面７８に記載の方法。

第８０の側面では、直方体検出器の加重を更新するステップは、ＲＰＮの加重および少なくとも１つのリグレッサ層の加重を更新するステップを含む、側面７５－７９のいずれか１項に記載の方法。

第８１の側面では、直方体検出器の加重を更新するステップは、第１のＣＮＮの加重を更新せず、ＲＰＮの加重および少なくとも１つのリグレッサ層の加重を更新するステップを含む、側面７５－７９のいずれか１項に記載の方法。

第８２の側面では、直方体検出器の加重を更新するステップは、第１のＣＮＮの加重、ＲＰＮの加重、および少なくとも１つのリグレッサ層の加重を更新するステップを含む、側面７５－７９のいずれか１項に記載の方法。

第８３の側面では、直方体検出器を生成するステップは、第１のＣＮＮを受信するステップを含む、側面５４－８２のいずれか１項に記載の方法。

第８４の側面では、少なくとも１つのリグレッサ層は、直方体検出器の訓練の間、少なくとも３つの損失関数と関連付けられる、側面７５－８３のいずれか１項に記載の方法。

第８５の側面では、少なくとも３つの損失関数は、対数損失関数および平滑Ｌ１損失関数を備える、請求項８４に記載の方法。

第８６の側面では、ＲＰＮは、直方体検出器の訓練の間、少なくとも２つの損失関数と関連付けられる、側面７５－８５のいずれか１項に記載の方法。

第８７の側面では、少なくとも２つの損失関数は、対数損失関数および平滑Ｌ１損失関数を備える、請求項８６に記載の方法。

第８８の側面では、方法が、開示される。本方法は、ハードウェアプロセッサの制御下で、環境の画像にアクセスするステップと、画像を分析して、画像内の直方体を検出するステップであって、畳み込みニューラルネットワーク（ＣＮＮ）の層を利用して、特徴を備える畳み込み特徴マップを生成するステップと、領域提案ネットワーク（ＲＰＮ）を利用して、畳み込み特徴マップを着目領域（ＲｏＩ）の中にマッピングするステップと、ＲｏＩ内の特徴をプーリングし、第１のプーリングされた特徴を生成するステップと、第１のプーリングされた特徴をリグレッサを通して通過させ、第１の境界ボックス推定値および第１の直方体頂点推定値を生成するステップと、第１の境界ボックス推定値に基づいて、第２のプーリングされた特徴を生成するステップと、第２のプーリングされた特徴をリグレッサを通して通過させ、第２の境界ボックス推定値および第２の直方体頂点推定値を生成するステップとを含む、ステップとを含む。

第８９の側面では、画像は、単眼色画像を備える、側面８８に記載の方法。

第９０の側面では、ＲＰＮは、畳み込み特徴マップをＲｏＩにマッピングする、ＣＮＮを備える、側面８８または側面８９に記載の方法。

第９１の側面では、第１の境界ボックス推定値または第２の境界ボックス推定値は、境界ボックスの中心からのオフセットを備える、側面８８－８９のいずれか１項に記載の方法。

第９２の側面では、画像内の直方体を検出するための方法が、開示される。本方法は、ハードウェアプロセッサの制御下で、畳み込みニューラルネットワークを評価し、特徴マップを生成するステップと、特徴マップを分析し、着目領域（ＲｏＩ）を取得するステップと、ＲｏＩが直方体を含有することを決定するステップと、特徴マップのＲｏＩ内の第１のプーリングされた特徴を分析し、直方体の頂点に関する第１の推定値を生成するステップと、少なくとも部分的に、直方体の頂点に関する第１の推定値に基づいて、改良されたＲｏＩを生成するステップと、特徴マップの改良されたＲｏＩ内の第２のプーリングされた特徴を分析し、直方体の頂点に関する第２の推定値を生成するステップと、直方体の頂点に関する第２の推定値を出力するステップとを含む。

第９３の側面では、特徴マップを分析し、着目領域（ＲｏＩ）を取得するステップは、領域提案ネットワーク（ＲＰＮ）を評価するステップを含む、側面９２に記載の方法。

第９４の側面では、直方体の頂点に関する第１の推定値は、ＲｏＩの中心からのオフセットを備える、または直方体の頂点に関する第２の推定値は、改良されたＲｏＩの中心からのオフセットを備える、側面９２または９３に記載の方法。

（結論）
本明細書に説明される、および／または添付される図に描写されるプロセス、方法、およびアルゴリズムはそれぞれ、具体的かつ特定のコンピュータ命令を実行するように構成される、１つ以上の物理的コンピューティングシステム、ハードウェアコンピュータプロセッサ、特定用途向け回路、および／または電子ハードウェアによって実行される、コードモジュールにおいて具現化され、それによって完全または部分的に自動化され得る。例えば、コンピューティングシステムは、具体的コンピュータ命令でプログラムされた汎用コンピュータ（例えば、サーバ）または専用コンピュータ、専用回路等を含むことができる。コードモジュールは、実行可能プログラムにコンパイルおよびリンクされ得る、動的リンクライブラリ内にインストールされ得る、または解釈されるプログラミング言語において書き込まれ得る。いくつかの実装では、特定の動作および方法が、所与の機能に特有の回路によって実施され得る。

さらに、本開示の機能性のある実装は、十分に数学的、コンピュータ的、または技術的に複雑であるため、（適切な特殊化された実行可能命令を利用する）特定用途向けハードウェアまたは１つ以上の物理的コンピューティングデバイスは、例えば、関与する計算の量または複雑性に起因して、または結果を実質的にリアルタイムで提供するために、機能性を実施する必要があり得る。例えば、ビデオは、多くのフレームを含み、各フレームは、数百万のピクセルを有し得、具体的にプログラムされたコンピュータハードウェアは、商業的に妥当な時間量において所望の画像処理タスクまたは用途を提供するようにビデオデータを処理する必要がある。

コードモジュールまたは任意のタイプのデータは、ハードドライブ、ソリッドステートメモリ、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、光学ディスク、揮発性または不揮発性記憶装置、同一物の組み合わせ、および／または同等物を含む、物理的コンピュータ記憶装置等の任意のタイプの非一過性コンピュータ可読媒体上に記憶され得る。本方法およびモジュール（またはデータ）はまた、無線ベースおよび有線／ケーブルベースの媒体を含む、種々のコンピュータ可読伝送媒体上で生成されたデータ信号として（例えば、搬送波または他のアナログまたはデジタル伝搬信号の一部として）伝送され得、種々の形態（例えば、単一または多重化アナログ信号の一部として、または複数の離散デジタルパケットまたはフレームとして）をとり得る。開示されるプロセスまたはプロセスステップの結果は、任意のタイプの非一過性有形コンピュータ記憶装置内に持続的または別様に記憶され得る、またはコンピュータ可読伝送媒体を介して通信され得る。

本明細書に説明される、および／または添付される図に描写されるフロー図における任意のプロセス、ブロック、状態、ステップ、または機能性は、プロセスにおいて具体的機能（例えば、論理または算術）またはステップを実装するための１つ以上の実行可能命令を含む、コードモジュール、セグメント、またはコードの一部を潜在的に表すものとして理解されたい。種々のプロセス、ブロック、状態、ステップ、または機能性は、組み合わせられる、再配列される、追加される、削除される、修正される、または別様に本明細書に提供される例証的実施例から変更されることができる。いくつかの実施形態では、付加的または異なるコンピューティングシステムまたはコードモジュールが、本明細書に説明される機能性のいくつかまたは全てを実施し得る。本明細書に説明される方法およびプロセスはまた、任意の特定のシーケンスに限定されず、それに関連するブロック、ステップ、または状態は、適切な他のシーケンスで、例えば、連続して、並行して、またはある他の様式で実施されることができる。タスクまたはイベントが、開示される例示的実施形態に追加される、またはそれから除去され得る。さらに、本明細書に説明される実装における種々のシステムコンポーネントの分離は、例証を目的とし、全ての実装においてそのような分離を要求するものとして理解されるべきではない。説明されるプログラムコンポーネント、方法、およびシステムは、概して、単一のコンピュータ製品においてともに統合される、または複数のコンピュータ製品にパッケージ化され得ることを理解されたい。多くの実装変形例が、可能である。

本プロセス、方法、およびシステムは、ネットワーク（または分散）コンピューティング環境において実装され得る。ネットワーク環境は、企業全体コンピュータネットワーク、イントラネット、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、パーソナルエリアネットワーク（ＰＡＮ）、クラウドコンピューティングネットワーク、クラウドソースコンピューティングネットワーク、インターネット、およびワールドワイドウェブを含む。ネットワークは、有線または無線ネットワークまたは任意の他のタイプの通信ネットワークであり得る。

本開示のシステムおよび方法は、それぞれ、いくつかの革新的側面を有し、そのうちのいかなるものも、本明細書に開示される望ましい属性に単独で関与しない、またはそのために要求されない。本明細書に説明される種々の特徴およびプロセスは、相互に独立して使用され得る、または種々の方法で組み合わせられ得る。全ての可能な組み合わせおよび副次的組み合わせが、本開示の範囲内に該当することが意図される。本開示に説明される実装の種々の修正が、当業者に容易に明白であり得、本明細書に定義される一般原理は、本開示の精神または範囲から逸脱することなく、他の実装に適用され得る。したがって、請求項は、本明細書に示される実装に限定されることを意図されず、本明細書に開示される本開示、原理、および新規の特徴と一貫する最も広い範囲を与えられるべきである。

別個の実装の文脈において本明細書に説明されるある特徴はまた、単一の実装における組み合わせにおいて実装されることができる。逆に、単一の実装の文脈において説明される種々の特徴もまた、複数の実装において別個に、または任意の好適な副次的組み合わせにおいて実装されることができる。さらに、特徴がある組み合わせにおいて作用するものとして上記に説明され、さらに、そのようなものとして最初に請求され得るが、請求される組み合わせからの１つ以上の特徴は、いくつかの場合では、組み合わせから削除されることができ、請求される組み合わせは、副次的組み合わせまたは副次的組み合わせの変形例を対象とし得る。いかなる単一の特徴または特徴のグループも、あらゆる実施形態に必要または必須ではない。

とりわけ、「～できる（ｃａｎ）」、「～し得る（ｃｏｕｌｄ）」、「～し得る（ｍｉｇｈｔ）」、「～し得る（ｍａｙ）」、「例えば（ｅ．ｇ．）」、および同等物等、本明細書で使用される条件文は、別様に具体的に記載されない限り、または使用されるような文脈内で別様に理解されない限り、概して、ある実施形態がある特徴、要素、および／またはステップを含む一方、他の実施形態がそれらを含まないことを伝えることが意図される。したがって、そのような条件文は、概して、特徴、要素、および／またはステップが、１つ以上の実施形態に対していかようにも要求されること、または１つ以上の実施形態が、著者の入力または促しの有無を問わず、これらの特徴、要素、および／またはステップが任意の特定の実施形態において含まれる、または実施されるべきかどうかを決定するための論理を必然的に含むことを示唆することを意図されない。用語「～を備える」、「～を含む」、「～を有する」、および同等物は、同義語であり、非限定的方式で包括的に使用され、付加的要素、特徴、行為、動作等を除外しない。また、用語「または」は、その包括的意味において使用され（およびその排他的意味において使用されず）、したがって、例えば、要素のリストを接続するために使用されると、用語「または」は、リスト内の要素のうちの１つ、いくつか、または全てを意味する。加えて、本願および添付される請求項で使用されるような冠詞「ａ」、「ａｎ」、および「ｔｈｅ」は、別様に規定されない限り、「１つ以上の」または「少なくとも１つ」を意味するように解釈されるべきである。

本明細書で使用されるように、項目のリスト「のうちの少なくとも１つ」を指す語句は、単一の要素を含む、それらの項目の任意の組み合わせを指す。ある実施例として、「Ａ、Ｂ、またはＣのうちの少なくとも１つ」は、Ａ、Ｂ、Ｃ、ＡおよびＢ、ＡおよびＣ、ＢおよびＣ、およびＡ、Ｂ、およびＣを網羅することが意図される。語句「Ｘ、Ｙ、およびＺのうちの少なくとも１つ」等の接続文は、別様に具体的に記載されない限り、概して、項目、用語等がＸ、Ｙ、またはＺのうちの少なくとも１つであり得ることを伝えるために使用されるような文脈で別様に理解される。したがって、そのような接続文は、概して、ある実施形態が、Ｘのうちの少なくとも１つ、Ｙのうちの少なくとも１つ、およびＺのうちの少なくとも１つがそれぞれ存在するように要求することを示唆することを意図されない。

同様に、動作は、特定の順序で図面に描写され得るが、これは、望ましい結果を達成するために、そのような動作が示される特定の順序で実施されること、または連続的順序で実施されること、または全ての図示される動作が実施されることの必要はないと認識されるべきである。さらに、図面は、フローチャートの形態で１つ以上の例示的プロセスを図式的に描写し得る。しかしながら、描写されない他の動作も、図式的に図示される例示的方法およびプロセス内に組み込まれることができる。例えば、１つ以上の付加的動作が、図示される動作のいずれかの前に、その後に、それと同時に、またはその間に実施されることができる。加えて、動作は、他の実装において再配列される、または再順序付けられ得る。ある状況では、マルチタスクおよび並列処理が、有利であり得る。さらに、上記に説明される実装における種々のシステムコンポーネントの分離は、全ての実装におけるそのような分離を要求するものとして理解されるべきではなく、説明されるプログラムコンポーネントおよびシステムは、概して、単一のソフトウェア製品においてともに統合される、または複数のソフトウェア製品にパッケージ化され得ることを理解されたい。加えて、他の実装も、以下の請求項の範囲内である。いくつかの場合では、請求項に列挙されるアクションは、異なる順序で実施され、依然として、望ましい結果を達成することができる。

Claims

直方体検出器を訓練するためのシステムであって、前記システムは、
実行可能命令を記憶するように構成された非一過性メモリと、
前記非一過性メモリと通信する１つ以上のハードウェアプロセッサと
を備え、前記１つ以上のハードウェアプロセッサは、
複数の訓練画像にアクセスすることであって、前記複数の訓練画像は、第１の訓練画像を含む、ことと、
直方体検出器を生成することであって、前記直方体検出器は、
第１の畳み込みニューラルネットワーク（ＣＮＮ）の複数の畳み込み層および非畳み込み層と、
前記複数の畳み込み層および非畳み込み層の第１の層に接続された領域提案ネットワーク（ＲＰＮ）と、
プーリング層と、
少なくとも１つのリグレッサ層と
を備え、前記プーリング層および前記少なくとも１つのリグレッサ層の両方は、前記複数の畳み込み層および非畳み込み層の第２の層に接続されている、ことと、
前記直方体検出器を訓練することであって、前記直方体検出器を訓練することは、
前記直方体検出器を前記第１の訓練画像に適用することによって、直方体画像場所における着目領域（ＲｏＩ）を決定することと、
前記直方体検出器を前記第１の訓練画像に提供することによって、前記訓練画像中の直方体の表現を決定することと、
基準直方体画像場所と前記直方体画像場所との間の第１の差異を決定することと、
前記直方体の基準表現と前記直方体の前記決定された表現との間の第２の差異を決定することと、
前記第１の差異および前記第２の差異に基づいて、前記直方体検出器の加重を更新することと
を含む、ことと
を行うために前記実行可能命令によってプログラムされている、システム。
前記直方体は、直方体、円柱、球体、または任意のそれらの組み合わせを備える、請求項１に記載のシステム。
前記第１の層および前記第２の層は、同じである、請求項１に記載のシステム。
前記１つ以上のハードウェアプロセッサは、
前記複数の畳み込み層および非畳み込み層を使用して、前記第１の訓練画像に関する畳み込み特徴マップを生成することと、
前記ＲＰＮを使用して、前記直方体を前記訓練画像内の初期直方体画像場所に備える少なくとも１つのＲｏＩを決定することと、
前記初期直方体画像場所を使用して、前記直方体を備える前記少なくとも１つのＲｏＩに対応する前記畳み込み特徴マップのサブマップを決定することと、
前記プーリング層と、前記少なくとも１つのリグレッサ層と、前記直方体を備える前記少なくとも１つのＲｏＩに対応する前記畳み込み特徴マップの前記サブマップとを使用して、前記直方体画像場所における前記ＲｏＩおよび前記直方体の前記表現を決定することと
を行うようにさらにプログラムされている、請求項１に記載のシステム。
前記初期直方体画像場所は、２次元（２Ｄ）境界ボックスとして表される、請求項４に記載のシステム。
前記１つ以上のハードウェアプロセッサは、
前記プーリング層と、前記少なくとも１つのリグレッサ層と、前記直方体を備える前記ＲｏＩに対応する前記畳み込み特徴マップの前記サブマップとを使用して、前記直方体画像場所における前記ＲｏＩおよび前記直方体の前記表現を反復的に決定すること
を行うようにさらにプログラムされている、請求項４に記載のシステム。
前記初期直方体画像場所は、２次元（２Ｄ）境界ボックスとして表される、請求項６に記載のシステム。
前記１つ以上のハードウェアプロセッサは、
前記ＲＰＮの加重を更新することと、
前記少なくとも１つのリグレッサ層の加重を更新することと
を行うようにさらにプログラムされている、請求項１に記載のシステム。
前記１つ以上のハードウェアプロセッサは、
前記第１のＣＮＮの加重を更新することと、
前記ＲＰＮの加重を更新することと、
前記少なくとも１つのリグレッサ層の加重を更新することと
を行うようにさらにプログラムされている、請求項１に記載のシステム。
前記１つ以上のハードウェアプロセッサは、
前記第１のＣＮＮを受信すること
を行うようにさらにプログラムされている、請求項１に記載のシステム。
前記少なくとも１つのリグレッサ層は、２つ以上の層を備える、請求項１に記載のシステム。
前記２つ以上の層は、全結合層、非全結合層、または任意のそれらの組み合わせを備える、請求項１１に記載のシステム。
前記少なくとも１つのリグレッサ層は、前記直方体検出器の訓練中に、少なくとも３つの損失関数と関連付けられる、請求項１に記載のシステム。
ＲＰＮは、深層ニューラルネットワーク（ＤＮＮ）を備える、請求項１に記載のシステム。
前記ＲＰＮは、前記直方体検出器の訓練中に、少なくとも２つの損失関数と関連付けられる、請求項１に記載のシステム。
前記直方体の前記表現は、前記直方体のパラメータ化された表現を備える、請求項１に記載のシステム。
直方体検出器を訓練するための方法であって、前記方法は、
複数の訓練画像にアクセスすることであって、前記複数の訓練画像は、第１の訓練画像を含む、ことと、
直方体検出器を生成することであって、前記直方体検出器は、
第１の畳み込みニューラルネットワーク（ＣＮＮ）の複数の畳み込み層および非畳み込み層と、
前記複数の畳み込み層および非畳み込み層の第１の層に接続された領域提案ネットワーク（ＲＰＮ）と、
プーリング層と、
少なくとも１つのリグレッサ層と
を備え、前記プーリング層および前記少なくとも１つのリグレッサ層の両方は、前記複数の畳み込み層および非畳み込み層の第２の層に接続されている、ことと、
前記直方体検出器を訓練することであって、前記直方体検出器を訓練することは、
前記直方体検出器を前記第１の訓練画像に適用することによって、直方体画像場所における着目領域（ＲｏＩ）を決定することと、
前記直方体検出器を前記第１の訓練画像に提供することによって、前記訓練画像中の直方体の表現を決定することと、
基準直方体画像場所と前記直方体画像場所との間の第１の差異を決定することと、
前記直方体の基準表現と前記直方体の前記決定された表現との間の第２の差異を決定することと、
前記第１の差異および前記第２の差異に基づいて、前記直方体検出器の加重を更新することと
を含む、ことと
を含む、方法。
前記第１の層および前記第２の層は、同じである、請求項１７に記載の方法。
前記複数の畳み込み層および非畳み込み層を使用して、前記第１の訓練画像に関する畳み込み特徴マップを生成することと、
前記ＲＰＮを使用して、前記直方体を前記訓練画像内の初期直方体画像場所に備える少なくとも１つのＲｏＩを決定することと、
前記初期直方体画像場所を使用して、前記直方体を備える前記少なくとも１つのＲｏＩに対応する前記畳み込み特徴マップのサブマップを決定することと、
前記プーリング層と、前記少なくとも１つのリグレッサ層と、前記直方体を備える前記少なくとも１つのＲｏＩに対応する前記畳み込み特徴マップの前記サブマップとを使用して、前記直方体画像場所における前記ＲｏＩおよび前記直方体の前記表現を決定することと
をさらに含む、請求項１７に記載の方法。
前記プーリング層と、前記少なくとも１つのリグレッサ層と、前記直方体を備える前記ＲｏＩに対応する前記畳み込み特徴マップの前記サブマップとを使用して、前記直方体画像場所における前記ＲｏＩおよび前記直方体の前記表現を反復的に決定することをさらに含む、請求項１９に記載の方法。