JP2024028494A

JP2024028494A - ニューラルネットワークおよび角検出器を使用した角検出のための方法および装置

Info

Publication number: JP2024028494A
Application number: JP2024004488A
Authority: JP
Inventors: モハンアヌシュ; ローゼンタールガイ; ペリーアディ; シェベキギルボア
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2019-05-17
Filing date: 2024-01-16
Publication date: 2024-03-04
Also published as: JP2022532238A; CN113892127A; US20200364876A1; US11686941B2; EP3970114A1; JP7422785B2; US20230288703A1; EP3970114A4; WO2020236624A1

Abstract

【課題】好適なニューラルネットワークおよび角検出器を使用した角検出のための方法および装置を提供すること。【解決手段】ユーザによって頭部に装着されるように構成される装置は、ユーザのためにグラフィックを提示するように構成される画面と、ユーザが位置する環境を視認するように構成されるカメラシステムと、カメラシステムに結合される処理ユニットであって、環境の画像に関する特徴の場所を取得することであって、特徴の場所は、ニューラルネットワークによって識別される、ことと、画像内の特徴のうちの１つに関する着目領域を決定することであって、着目領域は、画像のサイズ未満のサイズを有する、ことと、角検出アルゴリズムを使用して、角検出を実施し、着目領域内の角を識別することとを行うように構成される、処理ユニットとを含む。【選択図】図２２Ａ

Description

本開示は、頭部装着型画像ディスプレイデバイスと、頭部装着型画像ディスプレイデバイスによって生成された画像内の角を検出するための方法および装置とに関する。

現代のコンピューティングおよびディスプレイ技術は、いわゆる「仮想現実」（ＶＲ）または「拡張現実」（ＡＲ）体験のための「複合現実」（ＭＲ）システムの開発を促進しており、デジタル的に再現された画像またはその一部が、現実であるように見える、またはそのように知覚され得る様式で、ユーザに提示される。ＶＲシナリオは、典型的には、実世界の視覚的入力に対する透過性を伴わずに、デジタルまたは仮想画像情報の提示を伴う。ＡＲシナリオは、典型的には、ユーザの周囲の実世界の可視化（すなわち、実世界視覚的入力に対する透過性）に対する拡張としてデジタルまたは仮想画像情報の提示を伴う。故に、ＡＲシナリオは、実世界視覚的入力に対する透過性を伴う、デジタルまたは仮想画像情報の提示を伴う。

ＭＲシステムは、カラーデータを生成および表示し得、これは、ＭＲシナリオの現実性を増加させる。これらのＭＲシステムの多くは、カラー画像に対応する異なる（例えば、原）色または「フィールド」（例えば、赤色、緑色、および青色）内のサブ画像を高速で連続して順次投影させることによって、カラーデータを表示する。カラーサブ画像を十分に高レート（例えば、６０Ｈｚ、１２０Ｈｚ等）で投影させることは、平滑なカラーＭＲシナリオをユーザの記憶にもたらし得る。

種々の光学システムは、ＭＲ（ＶＲおよびＡＲ）シナリオを表示するために、種々の深度において、カラー画像を含む、画像を生成する。ＭＲシステムは、少なくとも、ユーザの頭部に緩く結合され、したがって、ユーザの頭部が移動すると移動する、ウェアラブルディスプレイデバイス（例えば、頭部装着型ディスプレイ、ヘルメット搭載型ディスプレイ、またはスマートグラス）を採用し得る。ユーザの頭部運動が、ディスプレイデバイスによって検出される場合、表示されているデータは、頭部姿勢（すなわち、ユーザの頭部の配向および／または場所）の変化を考慮するために更新（例えば、「ワーピング」）され得る。

実施例として、頭部装着型ディスプレイデバイスを装着しているユーザが、ディスプレイ上の仮想オブジェクトの仮想表現を視認し、仮想オブジェクトが現れている面積の周囲を歩き回る場合、仮想オブジェクトは、視点毎にレンダリングされ、実空間を占有するオブジェクトの周囲を歩き回っているという知覚をユーザに与えることができる。頭部装着型ディスプレイデバイスが、複数の仮想オブジェクトを提示するために使用される場合、頭部姿勢の測定が、ユーザの動的に変化する頭部姿勢にマッチングし、没入感の増加を提供するように場面をレンダリングするために使用されることができる。

ＡＲを有効にする、頭部装着型ディスプレイデバイスは、実および仮想オブジェクトの両方の同時視認を提供する。「光学シースルー」ディスプレイを用いることで、ユーザは、ディスプレイシステム内の透明（または半透明）要素を通して見え、直接、環境内の実オブジェクトからの光を視認することができる。透明要素は、多くの場合、「コンバイナ」と称され、ディスプレイからの光を実世界のユーザのビューにわたって重畳し、ディスプレイからの光は、仮想コンテンツの画像を環境内の実オブジェクトのシースルービューにわたって投影される。カメラが、頭部装着型ディスプレイデバイス上に搭載され、ユーザによって視認されている場面の画像またはビデオを捕捉し得る。

ＭＲシステムにおけるもの等の現在の光学システムは、仮想コンテンツを光学的にレンダリングする。コンテンツは、空間内の個別の位置に位置する実際の物理的オブジェクトに対応しないという点で、「仮想」である。代わりに、仮想コンテンツは、ユーザの眼に指向される光ビームによって刺激されるとき、頭部装着型ディスプレイデバイスのユーザの脳（例えば、視覚中枢）内にのみ存在する。

ある場合には、頭部装着型画像ディスプレイデバイスは、実環境に対して仮想オブジェクトを表示し得、および／またはユーザが実環境に対して仮想オブジェクトを設置および／または操作することを可能にし得る。そのような場合、画像ディスプレイデバイスは、仮想オブジェクトが実環境に対して正しく変位され得るように、実環境に対するユーザを位置特定するように構成され得る。位置特定マップが、頭部装着型画像ディスプレイデバイスによって使用され、位置特定を実施し得る。特に、位置特定を実施するとき、画像ディスプレイデバイスは、リアルタイム入力画像を画像ディスプレイデバイスのカメラシステムから取得し、入力画像内の特徴と位置特定マップの特徴をマッチングさせ得る。

故に、特徴検出は、頭部装着型画像ディスプレイデバイスのための重要な特徴である。画像内の角等の特徴を検出するための方法および装置が、本明細書に説明される。検出された角は、位置特定マップを作成するための特徴として利用され得る。代替として、角は、ユーザの位置特定のための位置特定マップの特徴とマッチングさせるための入力画像からの特徴として検出され得る。

本開示は、概して、ニューラルネットワークと角検出器の組み合わせを使用した着目点検出に関する。

本明細書に説明される一実施形態では、ハイブリッドアプローチ（ニューラルネットワークおよび特徴検出器の両方を使用する）が、リアルタイムまたは非リアルタイムで画像を処理し、特徴（例えば、角）候補を抽出するために、ニューラルネットワーク（例えば、軽量ニューラルネットワーク）とともに、ハードウェアおよび／またはソフトウェアブロックを利用して、特徴（例えば、角）の良好な候補が存在するエリアを効率的に分類および抽出する。次いで、良好な特徴（例えば、角）が、候補から選択される。本技法は、より高い画像雑音（例えば、低光量下において）、および既存のソリューションが全てその性質上非常に局所的であるため、特徴（例えば、角）を識別することが困難であるエリアに悩まされている、既存のソリューションより優れている。ニューラルネットワークの利点は、画像のより大きいコンテキストを使用して、近隣のピクセルのみに基づいて行うことが困難である場合でも、特徴（例えば、角）を識別することである。ハイブリッドアプローチはまた、特徴（例えば、角）を抽出するように訓練される、他のニューラルネットワークより優れている。特に、これらのニューラルネットワークは、多くの算出リソースおよびメモリを費やし、リアルタイムではない、エンドツーエンドで特徴（例えば、角）を抽出するため、本明細書に説明されるハイブリッドアプローチほど高速かつ効率的では全くない。

ユーザによって頭部に装着されるように構成される、装置は、ユーザのためにグラフィックを提示するように構成される、画面と、ユーザが位置する環境を視認するように構成される、カメラシステムと、カメラシステムに結合される、処理ユニットであって、環境の画像に関する特徴の場所を取得することであって、特徴の場所は、ニューラルネットワークによって識別される、ことと、画像内の特徴のうちの１つに関する着目領域を決定することであって、着目領域は、画像のサイズ未満のサイズを有する、ことと、角検出アルゴリズムを使用して、角検出を実施し、着目領域内の角を識別することとを行うように構成される、処理ユニットとを含む。

ユーザによって頭部に装着されるように構成される、装置は、ユーザのためにグラフィックを提示するように構成される、画面と、ユーザが位置する環境を視認するように構成される、カメラシステムと、カメラシステムに結合される、処理ユニットであって、環境と関連付けられる画像データに関する特徴の場所を取得することであって、特徴の場所は、ニューラルネットワークによって識別される、ことと、画像内の特徴のうちの１つに関する着目領域を決定することであって、着目領域は、画像のサイズ未満のサイズを有する、ことと、角検出アルゴリズムを使用して、角検出を実施し、着目領域内の角を識別することとを行うように構成される、処理ユニットとを含む。

随意に、処理ユニットは、ニューラルネットワークによって識別される場所のうちの少なくとも１つに基づく位置を有するような着目領域を決定するように構成され、位置は、画像に対するものである。

随意に、画像データは、カメラシステムによって生成され、ニューラルネットワークに伝送される、少なくとも１つの画像と関連付けられる。

随意に、カメラシステムは、画像を生成し、画像をニューラルネットワークに伝送するように構成される。

随意に、ニューラルネットワークは、装置のモジュール内にある。

随意に、ニューラルネットワークは、装置から遠隔の１つ以上のコンピューティングデバイス内に実装される。

随意に、ニューラルネットワークは、機械学習能力を有する。

随意に、処理ユニットは、ニューラルネットワークによって生成されたヒートマップを取得することによって、特徴の場所を取得するように構成され、ヒートマップは、特徴の場所を示す。

随意に、着目領域は、Ｎ×Ｎ個のパッチを備え、処理ユニットは、角検出をＮ×Ｎ個のパッチ上で実施するように構成され、Ｎは、１より大きい整数である。

随意に、着目領域は、１４４個のピクセルまたはそれ未満を有する、パッチを備え、処理ユニットは、角検出をパッチ上で実施するように構成される。

随意に、着目領域は、８×８個のパッチを備え、処理ユニットは、角検出を８×８個のパッチ上で実施するように構成される。

随意に、画像データは、カメラシステムによって生成された少なくとも１つの高分解能画像からの分解能が低減された少なくとも１つの低分解能画像を含む。

随意に、画像は、第１の分解能を有し、特徴の場所は、第１の分解能未満である第２の分解能を有する、他の画像に基づいて、ニューラルネットワークによって識別される。

随意に、処理ユニットはまた、第１の分解能を伴う画像を第２の分解能を伴う他の画像に変換するように構成される。

随意に、第１の分解能は、ＶＧＡ分解能を備える。

随意に、第２の分解能は、ＱＶＧＡ分解能を備える。

随意に、本装置はさらに、ニューラルネットワークを含む。

随意に、ニューラルネットワークは、基準データセットを使用して訓練されている。

随意に、ニューラルネットワークは、畳み込みニューラルネットワークを備える。

随意に、ニューラルネットワークは、着目点場所および記述子を算出するように構成される。

随意に、ニューラルネットワークは、入力画像を空間的にダウンサンプリングするように構成される、エンコーダを備える。

随意に、ニューラルネットワークはまた、エンコーダからのエンコーダ出力に作用し、入力画像内のピクセル毎に、スコアを生産するように構成される、着目点デコーダと、エンコーダ出力に作用し、エンコーダ出力をより高い分解能にアップサンプリングし、入力画像内のピクセル毎に、ベクトルを生産するように構成される、記述子デコーダとを備える。

随意に、ニューラルネットワークは、着目点検出器の幾何学的一貫性を改良するために、ホモグラフィ適合を使用するように構成される。

随意に、ニューラルネットワークは、着目点検出器を訓練するように構成される、畳み込みニューラルネットワークを備える。

随意に、ニューラルネットワークは、画像ワーピングを実施し、ホモグラフィ適合内で１つ以上のワーピングされた画像を作成するように構成される。

随意に、処理ユニットは、少なくとも部分的に、着目領域内の角の位置に基づいて、画像内の角の位置を決定するように構成される。

随意に、本装置はさらに、画像内の第１の角の位置を記憶するように構成される、非一過性媒体を含む。

随意に、処理ユニットは、着目領域内のピクセル毎に、スコアを決定するように構成される。

随意に、ニューラルネットワークは、処理ユニットの一部である。

随意に、本装置はさらに、ニューラルネットワークを含み、ニューラルネットワークは、処理ユニットに通信可能に結合される。

頭部装着型画像ディスプレイデバイスによって実施される方法は、画像内の特徴の場所を取得するステップであって、特徴の場所は、ニューラルネットワークによって識別される、ステップと、画像内の特徴のうちの１つに関する着目領域を決定するステップであって、着目領域は、画像のサイズ未満のサイズを有する、ステップと、角検出アルゴリズムを使用して、角検出を実施し、着目領域内の角を識別するステップとを含む。

随意に、着目領域は、ニューラルネットワークによって識別される場所のうちの少なくとも１つに基づく位置を有するように決定され、位置は、画像に対するものである。

随意に、本方法はさらに、画像を生成するステップと、画像をニューラルネットワークに伝送するステップとを含む。

随意に、ニューラルネットワークは、頭部装着型画像ディスプレイデバイスのモジュール内にある。

随意に、ニューラルネットワークは、頭部装着型画像ディスプレイデバイスから遠隔の１つ以上のコンピューティングデバイス内に実装される。

随意に、特徴の場所は、ニューラルネットワークからヒートマップを受信することによって取得され、ヒートマップは、特徴の場所を示す。

随意に、着目領域は、Ｎ×Ｎ個のパッチを備え、角検出は、Ｎ×Ｎ個のパッチ上で実施され、Ｎは、１より大きい整数である。

随意に、着目領域は、１４４個のピクセルまたはそれ未満を有する、パッチを備え、角検出は、パッチ上で実施される。

随意に、着目領域は、８×８個のパッチを備え、角検出は、８×８個のパッチ上で実施される。

随意に、本方法はさらに、第１の分解能を伴う画像を第２の分解能を伴う他の画像に変換するステップを含む。

随意に、第１の分解能は、ＶＧＡ分解能を備える。

随意に、第２の分解能は、ＱＶＧＡ分解能を備える。

随意に、本方法はさらに、ニューラルネットワークを含む。

随意に、ニューラルネットワークは、畳み込みニューラルネットワークを備え、着目点検出器は、畳み込みニューラルネットワークを用いて訓練される。

随意に、本方法はさらに、少なくとも部分的に、着目領域内の角の位置に基づいて、画像内の角の位置を決定するステップを含む。

随意に、本方法はさらに、画像内の第１の角の位置を非一過性媒体内に記憶するステップを含む。

随意に、本方法はさらに、着目領域内のピクセル毎に、スコアを決定するステップを含む。

画像着目点検出のためにニューラルネットワークを訓練および使用する方法は、複数の基準セットを備える、基準データセットを生成するステップであって、複数の基準セットはそれぞれ、画像と、画像に対応する、基準着目点のセットとを含む、ステップと、複数の基準セットの基準セット毎に、ホモグラフィを画像に適用することによって、ワーピングされた画像を生成するステップと、ホモグラフィを基準着目点のセットに適用することによって、ワーピングされた基準着目点のセットを生成するステップと、ニューラルネットワークが画像を入力として受信することによって、計算された着目点および計算された記述子のセットを計算するステップと、ニューラルネットワークがワーピングされた画像を入力として受信することによって、計算されワーピングされた着目点および計算されワーピングされた記述子のセットを計算するステップと、計算された着目点のセット、計算された記述子、計算されワーピングされた着目点のセット、計算されワーピングされた記述子、基準着目点のセット、ワーピングされた基準着目点のセット、およびホモグラフィに基づいて、損失を計算するステップと、損失に基づいて、ニューラルネットワークを修正するステップとを含み、本方法はさらに、入力画像内の特徴の場所を取得するステップであって、特徴の場所は、ニューラルネットワークによって識別される、ステップと、入力画像内の特徴のうちの１つに関する着目領域を決定するステップであって、着目領域は、入力画像のサイズ未満のサイズを有する、ステップと、角検出アルゴリズムを使用して、角検出を実施し、着目領域内の角を識別するステップとを含む。

随意に、ニューラルネットワークは、着目点検出器サブネットワークおよび記述子サブネットワークを含み、着目点検出器サブネットワークは、画像を入力として受信し、画像に基づいて、計算された着目点のセットを計算するように構成され、記述子サブネットワークは、画像を入力として受信し、画像に基づいて、計算された記述子を計算するように構成される。

随意に、損失に基づいて、ニューラルネットワークを修正するステップは、損失に基づいて、着目点検出器サブネットワークおよび記述子サブネットワークの一方または両方を修正するステップを含む。

随意に、本方法はさらに、基準データセットを生成するステップに先立って、複数の合成画像と、合成着目点の複数のセットとを含む、合成データセットを使用して、着目点検出器サブネットワークを訓練するステップを含み、基準データセットを生成するステップは、着目点検出器サブネットワークを使用して、基準データセットを生成するステップを含む。

随意に、基準データセットを生成するステップは、複数の基準セットの基準セット毎に、複数の未標識画像を備える、未標識データセットから、画像を取得するステップと、複数のホモグラフィを画像に適用することによって、複数のワーピングされた画像を生成するステップと、ニューラルネットワークが複数のワーピングされた画像を入力として受信することによって、複数の計算されワーピングされた着目点のセットを計算するステップと、複数の逆ホモグラフィを複数のセットの計算されワーピングされた着目点に適用することによって、複数の計算された着目点のセットを生成するステップと、計算された着目点の複数のセットを集約し、基準着目点のセットを取得するステップとを含む。

随意に、複数の基準セットはそれぞれさらに、画像に対応する、基準記述子を含み、基準データセットを生成するステップは、複数の基準セットの基準セット毎に、複数の未標識画像を備える、未標識データセットから、画像を取得するステップと、複数のホモグラフィを画像に適用することによって、複数のワーピングされた画像を生成するステップと、ニューラルネットワークが複数のワーピングされた画像を入力として受信することによって、複数の計算されワーピングされた記述子を計算するステップと、複数の逆ホモグラフィを複数の計算されワーピングされた記述子に適用することによって、複数の計算された記述子を生成するステップと、複数の計算された記述子を集約し、基準記述子を取得するステップとを含む。

随意に、基準着目点のセットは、画像の特定のピクセルが特定のピクセルに位置する着目点を有する、確率に対応する、値を有する、２次元マップである。

方法は、第１の画像を捕捉するステップと、第２の画像を捕捉するステップと、ニューラルネットワークが第１の画像を入力として受信することによって、第１の計算された着目点のセットおよび第１の計算された記述子を計算するステップと、ニューラルネットワークが第２の画像を入力として受信することによって、第２の計算された着目点のセットおよび第２の計算された記述子を計算するステップと、第１および第２の計算された着目点のセットと、第１および第２の計算された記述子とに基づいて、第１の画像と第２の画像との間のホモグラフィを決定するステップとを含み、ニューラルネットワークは、第１の計算された着目点のセットおよび第２の計算された着目点のセットを計算するように構成される、着目点検出器サブネットワークと、第１の計算された記述子および第２の計算された記述子を計算するように構成される、記述子サブネットワークとを含み、本方法はさらに、入力画像内の特徴の場所を取得するステップであって、特徴の場所は、ニューラルネットワークによって識別される、ステップと、入力画像内の特徴のうちの１つに関する着目領域を決定するステップであって、着目領域は、入力画像のサイズ未満のサイズを有する、ステップと、角検出アルゴリズムを使用して、角検出を実施し、着目領域内の角を識別するステップとを含む。

随意に、着目点検出器サブネットワークは、記述子サブネットワークが第１の計算された記述子を計算するのと並行して、第１の計算された着目点のセットを計算するように構成され、着目点検出器サブネットワークは、記述子サブネットワークが第２の計算された記述子を計算するのと並行して、第２の計算された着目点のセットを計算するように構成される。

随意に、本方法はさらに、複数の基準セットを備える、基準データセットを生成することによって、ニューラルネットワークを訓練するステップであって、複数の基準セットはそれぞれ、画像と、画像に対応する、基準着目点のセットとを含む、ステップと、複数の基準セットの基準セット毎に、ホモグラフィを画像に適用することによって、ワーピングされた画像を生成するステップと、ホモグラフィを基準着目点のセットに適用することによって、ワーピングされた基準着目点のセットを生成するステップと、ニューラルネットワークが画像を入力として受信することによって、計算された着目点のセットおよび計算された記述子を計算するステップと、ニューラルネットワークがワーピングされた画像を入力として受信することによって、計算されワーピングされた着目点のセットおよび計算されワーピングされた記述子を計算するステップと、計算された着目点のセット、計算された記述子、計算されワーピングされた着目点のセット、計算されワーピングされた記述子、基準着目点のセット、ワーピングされた基準着目点のセット、およびホモグラフィに基づいて、損失を計算するステップと、損失に基づいて、ニューラルネットワークを修正するステップとを含む。

光学デバイスは、第１の画像および第２の画像を捕捉するように構成される、少なくとも１つのカメラと、カメラに結合され、第１の画像および第２の画像を少なくとも１つのカメラから受信するステップと、ニューラルネットワークが第１の画像を入力として使用することによって、第１の計算された着目点のセットおよび第１の計算された記述子を計算するステップと、ニューラルネットワークが第２の画像を入力として使用することによって、第２の計算された着目点のセットおよび第２の計算された記述子を計算するステップと、第１および第２の計算された着目点のセットと、第１および第２の計算された記述子とに基づいて、第１の画像と第２の画像との間のホモグラフィを決定するステップとを含む、動作を実施するように構成される、１つ以上のプロセッサとを含み、ニューラルネットワークは、第１の計算された着目点のセットおよび第２の計算された着目点のセットを計算するように構成される、着目点検出器サブネットワークと、第１の計算された記述子および第２の計算された記述子を計算するように構成される、記述子サブネットワークとを含み、１つ以上のプロセッサは、入力画像内の特徴の場所を取得することであって、特徴の場所は、ニューラルネットワークによって識別される、ことと、入力画像内の特徴のうちの１つに関する着目領域を決定することであって、着目領域は、画像のサイズ未満のサイズを有する、ことと、角検出アルゴリズムを使用して、角検出を実施し、着目領域内の角を識別することとを行うように構成される。

随意に、ニューラルネットワークは、複数の基準セットを備える、基準データセットを生成するステップであって、複数の基準セットはそれぞれ、画像と、画像に対応する、基準着目点のセットとを含む、ステップと、複数の基準セットの基準セット毎に、ホモグラフィを画像に適用することによって、ワーピングされた画像を生成するステップと、ホモグラフィを基準着目点のセットに適用することによって、ワーピングされた基準着目点のセットを生成するステップと、ニューラルネットワークが画像を入力として受信することによって、計算された着目点のセットおよび計算された記述子を計算するステップと、ニューラルネットワークがワーピングされた画像を入力として受信することによって、計算されワーピングされた着目点のセットおよび計算されワーピングされた記述子を計算するステップと、計算された着目点のセット、計算された記述子、計算されワーピングされた着目点のセット、計算されワーピングされた記述子、基準着目点のセット、ワーピングされた基準着目点のセット、およびホモグラフィに基づいて、損失を計算するステップと、損失に基づいて、ニューラルネットワークを修正するステップとによって、事前に訓練されている。

本開示の付加的および他の目的、特徴、および利点は、詳細な説明、図、および請求項に説明される。
本発明は、例えば、以下を提供する。
（項目１）
ユーザによって頭部に装着されるように構成される装置であって、
前記ユーザのためにグラフィックを提示するように構成される画面と、
前記ユーザが位置する環境を視認するように構成されるカメラシステムと、
前記カメラシステムに結合される処理ユニットであって、前記処理ユニットは、
前記環境と関連付けられる画像データに関する特徴の場所を取得することであって、前記特徴の場所は、ニューラルネットワークによって識別される、ことと、
前記画像内の特徴のうちの１つに関する着目領域を決定することであって、前記着目領域は、前記画像のサイズ未満のサイズを有する、ことと、
角検出アルゴリズムを使用して、角検出を実施し、前記着目領域内の角を識別することと
を行うように構成される、処理ユニットと
を備える、装置。
（項目２）
前記処理ユニットは、前記ニューラルネットワークによって識別される場所のうちの少なくとも１つに基づく位置を有するような着目領域を決定するように構成され、前記位置は、前記画像に対するものである、項目１に記載の装置。
（項目３）
前記画像データは、少なくとも１つの画像と関連付けられ、前記少なくとも１つの画像は、前記カメラシステムによって生成され、前記ニューラルネットワークに伝送される、項目１に記載の装置。
（項目４）
前記ニューラルネットワークは、前記装置のモジュール内にある、項目１に記載の装置。
（項目５）
前記ニューラルネットワークは、前記装置から遠隔の１つ以上のコンピューティングデバイス内に実装される、項目１に記載の装置。
（項目６）
前記ニューラルネットワークは、機械学習能力を有する、項目１に記載の装置。
（項目７）
前記処理ユニットは、前記ニューラルネットワークによって生成されたヒートマップを取得することによって、前記特徴の場所を取得するように構成され、前記ヒートマップは、前記特徴の場所を示す、項目１に記載の装置。
（項目８）
前記着目領域は、Ｎ×Ｎ個のパッチを備え、前記処理ユニットは、前記角検出を前記Ｎ×Ｎ個のパッチ上で実施するように構成され、Ｎは、１より大きい整数である、項目１に記載の装置。
（項目９）
前記着目領域は、１４４個のピクセルまたはそれ未満を有するパッチを備え、前記処理ユニットは、前記角検出を前記パッチ上で実施するように構成される、項目１に記載の装置。
（項目１０）
前記着目領域は、８×８個のパッチを備え、前記処理ユニットは、前記角検出を前記８×８個のパッチ上で実施するように構成される、項目１に記載の装置。
（項目１１）
前記画像データは、前記カメラシステムによって生成された少なくとも１つの高分解能画像からの分解能が低減された少なくとも１つの低分解能画像を含む、項目１に記載の装置。
（項目１２）
前記処理ユニットはまた、前記第１の分解能を伴う画像を前記第２の分解能を伴う他の画像に変換するように構成される、項目１１に記載の装置。
（項目１３）
前記第１の分解能は、ＶＧＡ分解能を備える、項目１１に記載の装置。
（項目１４）
前記第２の分解能は、ＱＶＧＡ分解能を備える、項目１１に記載の装置。
（項目１５）
前記ニューラルネットワークをさらに備える、項目１に記載の装置。
（項目１６）
前記ニューラルネットワークは、基準データセットを使用して訓練されている、項目１５に記載の装置。
（項目１７）
前記ニューラルネットワークは、畳み込みニューラルネットワークを備える、項目１５に記載の装置。
（項目１８）
前記ニューラルネットワークは、着目点場所および記述子を算出するように構成される、項目１５に記載の装置。
（項目１９）
前記ニューラルネットワークは、入力画像を空間的にダウンサンプリングするように構成されるエンコーダを備える、項目１５に記載の装置。
（項目２０）
前記ニューラルネットワークはまた、
着目点デコーダであって、前記着目点デコーダは、前記エンコーダからのエンコーダ出力に作用し、前記入力画像内のピクセル毎に、スコアを生産するように構成される、着目点デコーダと、
記述子デコーダであって、前記記述子デコーダは、前記エンコーダ出力に作用し、前記エンコーダ出力をより高い分解能にアップサンプリングし、前記入力画像内のピクセル毎に、ベクトルを生産するように構成される、記述子デコーダと
を備える、項目１９に記載の装置。
（項目２１）
前記ニューラルネットワークは、着目点検出器の幾何学的一貫性を改良するために、ホモグラフィ適合を使用するように構成される、項目１５に記載の装置。
（項目２２）
前記ニューラルネットワークは、前記着目点検出器を訓練するように構成される畳み込みニューラルネットワークを備える、項目２１に記載の装置。
（項目２３）
前記ニューラルネットワークは、画像ワーピングを実施し、前記ホモグラフィ適合内で１つ以上のワーピングされた画像を作成するように構成される、項目２１に記載の装置。
（項目２４）
前記処理ユニットは、少なくとも部分的に、前記着目領域内の角の位置に基づいて、前記画像内の角の位置を決定するように構成される、項目１に記載の装置。
（項目２５）
前記画像内の前記第１の角の位置を記憶するように構成される非一過性媒体をさらに備える、項目２４に記載の装置。
（項目２６）
前記処理ユニットは、前記着目領域内のピクセル毎に、スコアを決定するように構成される、項目１に記載の装置。
（項目２７）
前記ニューラルネットワークは、前記処理ユニットの一部である、項目１に記載の装置。
（項目２８）
前記ニューラルネットワークをさらに備え、前記ニューラルネットワークは、前記処理ユニットに通信可能に結合される、項目１に記載の装置。
（項目２９）
頭部装着型画像ディスプレイデバイスによって実施される方法であって、
画像内の特徴の場所を取得することであって、前記特徴の場所は、ニューラルネットワークによって識別される、ことと、
前記画像内の特徴のうちの１つに関する着目領域を決定することであって、前記着目領域は、前記画像のサイズ未満のサイズを有する、ことと、
角検出アルゴリズムを使用して、角検出を実施し、前記着目領域内の角を識別することと
を含む、方法。
（項目３０）
前記着目領域は、前記ニューラルネットワークによって識別される場所のうちの少なくとも１つに基づく位置を有するように決定され、前記位置は、前記画像に対するものである、項目２９に記載の方法。
（項目３１）
前記画像を生成することと、
前記画像を前記ニューラルネットワークに伝送することと
をさらに含む、項目２９に記載の方法。
（項目３２）
前記ニューラルネットワークは、前記頭部装着型画像ディスプレイデバイスのモジュール内にある、項目２９に記載の方法。
（項目３３）
前記ニューラルネットワークは、前記頭部装着型画像ディスプレイデバイスから遠隔の１つ以上のコンピューティングデバイス内に実装される、項目２９に記載の方法。
（項目３４）
前記ニューラルネットワークは、機械学習能力を有する、項目２９に記載の方法。
（項目３５）
前記特徴の場所は、前記ニューラルネットワークからヒートマップを受信することによって取得され、前記ヒートマップは、前記特徴の場所を示す、項目２９に記載の方法。
（項目３６）
前記着目領域は、Ｎ×Ｎ個のパッチを備え、前記角検出は、前記Ｎ×Ｎ個のパッチ上で実施され、Ｎは、１より大きい整数である、項目２９に記載の方法。
（項目３７）
前記着目領域は、１４４個のピクセルまたはそれ未満を有するパッチを備え、前記角検出は、前記パッチ上で実施される、項目２９に記載の方法。
（項目３８）
前記着目領域は、８×８個のパッチを備え、前記角検出は、前記８×８個のパッチ上で実施される、項目２９に記載の方法。
（項目３９）
前記画像は、第１の分解能を有し、前記特徴の場所は、前記第１の分解能未満である第２の分解能を有する他の画像に基づいて、前記ニューラルネットワークによって識別される、項目２９に記載の方法。
（項目４０）
前記第１の分解能を伴う画像を前記第２の分解能を伴う他の画像に変換することをさらに含む、項目３９に記載の方法。
（項目４１）
前記第１の分解能は、ＶＧＡ分解能を備える、項目３９に記載の方法。
（項目４２）
前記第２の分解能は、ＱＶＧＡ分解能を備える、項目３９に記載の方法。
（項目４３）
前記ニューラルネットワークをさらに備える、項目２９に記載の方法。
（項目４４）
前記ニューラルネットワークは、基準データセットを使用して訓練されている、項目４３に記載の方法。
（項目４５）
前記ニューラルネットワークは、畳み込みニューラルネットワークを備える、項目４３に記載の方法。
（項目４６）
前記ニューラルネットワークは、着目点場所および記述子を算出するように構成される、項目４３に記載の方法。
（項目４７）
前記ニューラルネットワークは、入力画像を空間的にダウンサンプリングするように構成されるエンコーダを備える、項目４３に記載の方法。
（項目４８）
前記ニューラルネットワークはまた、
着目点デコーダであって、前記着目点デコーダは、前記エンコーダからのエンコーダ出力に作用し、前記入力画像内のピクセル毎に、スコアを生産するように構成される、着目点デコーダと、
記述子デコーダであって、前記記述子デコーダは、前記エンコーダ出力に作用し、前記エンコーダ出力をより高い分解能にアップサンプリングし、前記入力画像内のピクセル毎に、ベクトルを生産するように構成される、記述子デコーダと
を備える、項目４７に記載の方法。
（項目４９）
前記ニューラルネットワークは、着目点検出器の幾何学的一貫性を改良するために、ホモグラフィ適合を使用するように構成される、項目４３に記載の方法。
（項目５０）
前記ニューラルネットワークは、畳み込みニューラルネットワークを備え、前記着目点検出器は、前記畳み込みニューラルネットワークを用いて訓練される、項目４９に記載の方法。
（項目５１）
前記ニューラルネットワークは、画像ワーピングを実施し、前記ホモグラフィ適合内で１つ以上のワーピングされた画像を作成するように構成される、項目４９に記載の方法。
（項目５２）
少なくとも部分的に、前記着目領域内の角の位置に基づいて、前記画像内の角の位置を決定することをさらに含む、項目２９に記載の方法。
（項目５３）
前記画像内の第１の角の位置を非一過性媒体内に記憶することをさらに含む、項目５２に記載の方法。
（項目５４）
前記着目領域内のピクセル毎に、スコアを決定することをさらに含む、項目２９に記載の方法。

図面は、本開示の種々の実施形態の設計および有用性を図示する。図は、正確な縮尺で描かれておらず、類似構造または機能の要素は、図全体を通して類似参照番号によって表されることに留意されたい。本開示の種々の実施形態の前述および他の利点および目的を得る方法をより深く理解するために、簡単に前述された本開示のより詳細な説明が、付随の図面に図示されるその具体的実施形態を参照することによって与えられるであろう。これらの図面は、本開示の典型的実施形態のみを描写し、したがって、その範囲の限定として見なされるべきではないことを理解した上で、本開示は、付随の図面の使用を通して付加的具体性および詳細とともに説明および記載されるであろう。

図１は、いくつかの実施形態による、ニューラルネットワークを使用した一対の入力画像の着目点間の点対応の決定を図示する。

図２は、いくつかの実施形態による、ニューラルネットワークの一般的アーキテクチャを図示する。

図３は、いくつかの実施形態による、着目点検出器サブネットワークが、複数の合成画像を備える、合成データセットを使用して訓練される、第１の訓練ステップを図示する。

図４は、いくつかの実施形態による、基準データセットが、ホモグラフィ適合を使用してコンパイルされる、第２の訓練ステップを図示する。

図５は、いくつかの実施形態による、ニューラルネットワークが、基準データセットを使用して訓練される、第３の訓練ステップを図示する。

図６は、いくつかの実施形態による、ニューラルネットワークを使用した２つの捕捉された画像間のホモグラフィの計算を図示する。

図７は、いくつかの実施形態による、合成データセットの実施例を図示する。

図８は、いくつかの実施形態による、未標識データセットの実施例を図示する。

図９は、いくつかの実施形態による、ニューラルネットワークの例示的アーキテクチャを図示する。

図１０は、いくつかの実施形態による、第２の訓練ステップの間に採用される、ホモグラフィ適合の種々のステップを図示する。

図１１は、いくつかの実施形態による、ランダムホモグラフィ生成のある側面を図示する。

図１２は、本明細書に説明される実施形態を利用し得る、ＡＲデバイスの概略図を図示する。

図１３は、いくつかの実施形態による、ニューラルネットワークを訓練し、ニューラルネットワークを使用して、画像着目点検出および記述を実施する方法を図示する。

図１４は、いくつかの実施形態による、画像着目点検出および記述のためにニューラルネットワークを訓練する方法を図示する。

図１５は、いくつかの実施形態による、画像ディスプレイデバイスを有する、画像ディスプレイシステムを図示する。

図１６は、いくつかの実施形態による、画像ディスプレイデバイスを有する、別の画像ディスプレイシステムを図示する。

図１７は、いくつかの実施形態による、画像ディスプレイデバイスを有する、別の画像ディスプレイシステムを図示する。

図１８は、いくつかの実施形態による、画像ディスプレイデバイスを有する、別の画像ディスプレイシステムを図示する。

図１９は、フレームを複数の深度面に表示する、画像ディスプレイデバイスを図示する。

図２０は、画像ディスプレイデバイスが、画像ディスプレイデバイスのユーザを位置特定し、および／または他の機能を実施することを可能にするための、マップを決定するための方法を図示する。

図２１は、複数のセルに分割されている環境の実施例を図示する。

図２２Ａは、画像ディスプレイデバイスの処理ユニットを図示する。

図２２Ｂは、図２２Ａの処理ユニットのための信号フローを図示する。

図２２Ｃは、図２２Ａの処理ユニットの変形例を図示する。

図２２Ｄは、図２２Ｂを参照して説明される、信号フローの実施例を図示する。

図２２Ｅは、Ｈａｒｒｉｓ検出結果の実施例を図示する。

図２２Ｆは、Ｈａｒｒｉｓ検出結果と比較したマスクの実施例を図示する。

図２２Ｇは、ハイブリッド角検出の結果の実施例を図示する。

図２３Ａ－２３Ｂは、固有値および／またはＨａｒｒｉｓスコアを使用した像点の分類を図示する。

図２４は、図２２Ａの処理ユニットによって実施される方法を図示する。

図２５は、いくつかの実施形態による、特殊処理システムを図示する。

種々の実施形態が、図を参照して以降に説明される。図は、正確な縮尺で描かれておらず、類似構造または機能の要素は、図全体を通して同様の参照番号によって表されることに留意されたい。また、図は、実施形態の説明を促進するようにのみ意図されることに留意されたい。それらは、本発明の包括的説明として、または本発明の範囲に関する限界として意図されるものではない。加えて、図示される実施形態は、示される全ての側面または利点を有する必要はない。特定の実施形態と併せて説明される側面または利点は、必ずしも、その実施形態に限定されず、そのように図示されない場合でも、またはそのように明示的に説明されない場合でも、任意の他の実施形態において実践されることができる。

続く説明は、それを用いて本明細書に説明される実施形態が実践され得る、例証的ＶＲ、ＡＲ、および／またはＭＲシステムに関する。しかしながら、実施形態はまた、他のタイプのディスプレイシステム（他のタイプのＶＲ、ＡＲ、および／またはＭＲシステムを含む）における用途にも適しており、したがって、実施形態は、本明細書に開示される例証的実施例のみに限定されないことを理解されたい。

畳み込みニューラルネットワークは、画像を入力として要求するほぼ全てのタスクにおいて、手動でエンジニアリングされた表現より優れていることが示されている。特に、２次元（２Ｄ）「特徴点」または「目印」を予測する、完全畳み込みニューラルネットワークは、ヒト姿勢推定、オブジェクト検出、および部屋レイアウト推定等の種々のタスクに関して深く研究されている。これらの技法のうちのいくつかは、ヒト注釈で標識された２Ｄグラウンドトゥルース場所の大データセットを利用する。大規模教師あり機械学習問題と同様に着目点検出を公式化し、最新畳み込みニューラルネットワークアーキテクチャを訓練し、それらを検出することは、自然であると考えられる。残念ながら、ネットワークが口角または左足首等の意味論的身体部分を検出するように訓練される、ヒト身体特徴点推定等のより意味論的タスクと比較して、着目点検出の概念は、意味論的に明確に定義されていない。本難点は、強教師あり着目点を用いて畳み込みニューラルネットワークを訓練することを簡単ではないものにする。

ヒト教師を使用して、実画像内の着目点を定義する代わりに、本明細書に説明される実施形態は、自己訓練を使用して、自己教師ありソリューションをもたらす。本明細書に説明される実施形態のアプローチでは、実画像内の擬似グラウンドトゥルース着目点場所の大データセットが、作成され、ヒト知識ではなく、着目点検出器自体によって教師あり学習される。擬似グラウンドトゥルース着目点を生成するために、完全畳み込みニューラルネットワークが、最初に、合成画像データセットからの数百万例の一意の実施例上で訓練される。特徴抽出は、画像シーケンス内の画像マッチングおよび追跡のための基本ステップであるため、明確に異なる点の検出および精密な位置特定が重要であり得ることが確認されている。これらの明確に異なる点は、角、縁（多角体の分析のための基本要素）、および穴、ディスク、またはリング等の円形特徴の中心として特徴付けられている。合流点（Ｙ、Ｘ、Ｔ、Ｌ）もまた、そのような明確に異なる点を検出するために必須と見なされている。例えば、Ｔ－合流点は、一般的に、介在、故に、深度断続性を示す。

これらの洞察を借用すると、着目点検出器の大規模訓練のための合成形状の大データセットは、着目点場所内に曖昧性が存在しない、単純幾何学形状から成るように作成され得る。本明細書に説明されるような着目点検出器は、合成形状のデータセット上での従来的着目点検出器より有意に優れていることが示されている。実画像に適用されると、着目点検出器は、ドメイン適合が合成画像上で訓練するときの公知の問題であることを考慮して、良好に性能を発揮する。しかしながら、画像テクスチャおよびパターンの多様なセット上での古典的着目点検出器と比較して、着目点検出器の性能は、それほど一貫していない。着目点検出器と古典的検出器との間の実世界画像上での性能におけるギャップを埋めるために、本明細書に説明される１つ以上の実施形態は、マルチスケールマルチ変換を可能にする、特徴（本明細書では、ホモグラフィ適合と称され得る）を含む。

ホモグラフィ適合は、着目点検出器の自己教師あり訓練を有効にする。いくつかの実施形態では、入力画像を複数回ワーピングし、着目点検出器が場面を多くの異なる視点およびスケールから見ることに役立てる。擬似グラウンドトゥルース着目点を生成し、検出器の性能を高めるために、着目点検出器と併用されると、結果として生じる検出は、より再現可能となる。ロバストかつ再現可能な着目点を検出後の１つのステップは、固定された次元記述子ベクトルを各点（または全ての画像ピクセル）に結び付けることであって、これは、画像を横断して着目点をマッチングさせるために使用され得る。したがって、いくつかの実施形態では、着目点検出器サブネットワークは、記述子サブネットワークと組み合わせられてもよい。結果として生じるネットワークは、図１に示されるように、点を一対の画像から抽出し、点対応を確立するために使用されることができる。

自己教師ありアプローチを含む、いくつかの実施形態によると、初期着目点検出器およびホモグラフィ適合プロシージャは、自動的に、標的の未標識ドメインからの画像を標識化する。生成された標識は、ひいては、点および記述子をともに画像から抽出する、完全畳み込みネットワークを訓練するために使用される。完全畳み込みネットワークは、広範囲の用途、特に、２つの画像間のホモグラフィを算出する等の画像毎幾何学形状タスクを伴うもので使用されることができる。ホモグラフィは、カメラ中心の周囲のみの回転を伴う、カメラ運動、オブジェクトまでの大距離を伴う場面、および平面場面のための正確またはほぼ正確な画像毎像変換を与える。世界の大部分は、合理的に平面であるため、ホモグラフィは、同一３次元（３Ｄ）点が異なる視点から見られるときに起こる内容に関する良好なモデルである。ホモグラフィは、３Ｄ情報を要求しないため、それらは、ランダムにサンプリングされ、双線形補間と大差なく、任意の２Ｄ画像に容易に適用されることができる。これらの理由から、ホモグラフィが、いくつかの実施形態では利用される。

図１は、いくつかの実施形態による、ニューラルネットワーク１００を使用した、一対の入力画像１０２の着目点間の点対応１０６の決定を図示する。具体的には、図１は、点対応を利用して単一順方向通過においてスケール不変量特徴量変換（ＳＩＦＴ）様２Ｄ着目点場所および記述子を算出する、完全畳み込みニューラルネットワークである、ニューラルネットワーク１００の２つのインスタンス化（すなわち、ニューラルネットワーク１００－１、１００－２）を示す。入力画像１０２－１、１０２－２を入力として受信すると、ニューラルネットワーク１００－１、１００－２は、それぞれ、入力画像１０２－１、１０２－２に基づいて、計算された着目点のセット１０８－１、１０８－２と、計算された記述子１１０－１、１１０－２とを計算する。点対応１０６が、次いで、着目点のそれぞれと関連付けられる記述子によって情報を与えられる、計算された着目点１０８－１、１０８－２間の比較によって決定される。例えば、異なる着目点と関連付けられる記述子が、マッチングされてもよい。最も類似する記述子を有する異なる画像に対応する、着目点は、いくつかの可能性として考えられる類似性スコア化プロシージャのうちの１つに従って、相互に対応すると決定されてもよい。

一実施例によると、入力画像１０２－１に対応する、第１の着目点は、第１の着目点までの５つの最近着目点（ピクセル間距離に従って）のうち、第２の着目点と関連付けられる記述子が、５つの最近着目点と関連付けられる記述子と比較して、第１の着目点と関連付けられる記述子と最も類似する（例えば、Ｌ２距離を使用することによって決定される）ことを決定することによって、入力画像１０２－２に対応する、第２の着目点に対応すると決定されてもよい。別の実施例によると、入力画像１０２－１に対応する、第１の着目点は、入力画像１０２－２に対応する、全ての着目点のうち、第２の着目点と関連付けられる記述子が、入力画像１０２－２に対応する、全ての着目点と関連付けられる記述子と比較して、第１の着目点と関連付けられる記述子に最も類似することを決定することによって、入力画像１０２－２に対応する、第２の着目点に対応すると決定されてもよい。

図２は、いくつかの実施形態による、ニューラルネットワーク１００の一般的アーキテクチャを図示する。ニューラルネットワーク１００は、着目点検出器サブネットワーク１１２と、記述子サブネットワーク１１４とを含んでもよく、２つのサブネットワークはそれぞれ、単一サブネットワーク入力１２０－１、１２０－２（それぞれ）と、単一サブネットワーク出力１２２－１、１２２－２（それぞれ）とを有する。２つのサブネットワークが、別個に図示されるが、それらは、図９を参照して説明されるように、１つ以上の畳み込み層および／またはニューロンを共有してもよい。いくつかの実施形態では、ニューラルネットワーク１００は、入力画像１０２を入力として受信するように構成される、ネットワーク入力１１６を含んでもよい。入力画像１０２は、次いで、サブネットワーク入力１２０－１、１２０－２にフィードされてもよい。サブネットワーク入力１２０－１における入力画像１０２の受信に応じて、着目点検出器サブネットワーク１１２は、計算された着目点１０８を計算し、サブネットワーク出力１２２－１において出力してもよく、これは、次いで、ネットワーク出力１１８－１の中にフィードされる。サブネットワーク入力１２０－２における入力画像１０２の受信に応じて、記述子サブネットワーク１１４は、計算された記述子１１０を計算し、サブネットワーク出力１２２－２において出力してもよく、これは、次いで、ネットワーク出力１１８－２の中にフィードされる。故に、サブネットワーク１１２、１１４は、同一入力に基づいて、異なる出力を提供し、ニューラルネットワーク１００の異なる分岐を表すことができる。

ニューラルネットワーク１００は、フルサイズ画像に作用してもよく、単一順方向通過において、固定長記述子を伴う着目点検出を生産してもよい。いくつかの実施形態では、入力画像１０２は、Ｈ×Ｗの寸法を有してもよく、式中、Ｈは、ピクセル内の入力画像１０２の高さであって、Ｗは、ピクセル内の入力画像１０２の幅である。同一実施形態では、計算された着目点１０８は、着目点ピクセル場所（例えば、座標対のリスト）のリストであってもよい、または加えて、または代替として、計算された着目点１０８は、Ｈ×Ｗの寸法を有する、２Ｄマップであってもよく、各ピクセルは、入力（すなわち、入力画像１０２）内のそのピクセルに関する確率「点」に対応する。同一実施形態では、計算された記述子１１０は、固定長記述子のセットであってもよく、そのそれぞれが、識別された着目点に対応する、または加えて、または代替として、計算された記述子１１０は、Ｈ×Ｗ×Ｄの寸法を有してもよく、式中、Ｄは、Ｈ×Ｗ画像の各ピクセルにおいて計算された記述子の長さである。故に、着目点を含有する低確率を有する、ピクセルでも、長さＤの記述子を有する。

ニューラルネットワーク１００の訓練は、ネットワーク修正器１２６および／またはサブネットワーク修正器１２４－１、１２４－２によって有効にされてもよく、これは、訓練相の間、誤差信号、損失信号、および／または補正信号を受信し、ネットワークの層および／またはニューロンを修正させてもよい。ニューラルネットワーク１００は、ネットワーク出力（計算された着目点１０８および計算された記述子１１０）とグラウンドトゥルースデータとの間の誤差が、同一入力画像１０２または異なる画像を用いた後続起動の間に低減され得るように修正されてもよい。例えば、ニューラルネットワーク１００は、出力とグラウンドトゥルースとの間の差異を示す、誤差信号／値に基づいて、最小限にされるべきある数量を示す、損失信号／値に基づいて、および／またはニューラルネットワーク１００に行われるべき具体的修正を示す、補正信号に基づいて、修正されてもよい。ニューラルネットワーク１００を修正するステップは、着目点検出器サブネットワーク１１２のみを修正するステップ、記述子サブネットワーク１１４のみを修正するステップ、および／またはサブネットワーク１１２、１１４の両方を修正するステップを含んでもよい。

図３は、いくつかの実施形態による、着目点検出器サブネットワーク１１２が、複数の合成画像を備える、合成データセット１２８を使用して訓練される、第１の訓練ステップを図示する。図３に図示される訓練ステップは、着目点検出器サブネットワーク１１２のみを含んでもよく、記述子サブネットワーク１１４を無視してもよい。着目点標識画像の既存の大データベースが存在しないため、深層着目点検出器は、四辺形、三角形、線、および楕円形の合成データレンダリングを介した簡略化された２Ｄ幾何学形状から成る、大規模合成データセットの作成から利点を享受する。これらの形状の実施例は、図７を参照して示される。本データセットでは、標識曖昧性は、単純Ｙ－合流点、Ｌ－合流点、Ｔ－合流点、および小型楕円形の中心および線分の端点を用いて、着目点をモデル化することによって除去されることができる。

いったん合成画像が、レンダリングされると、ホモグラフィワーピングが、各画像に適用され、訓練実施例の数を増大させる。データは、リアルタイムで生成されてもよく、いずれの実施例も、ネットワークによって２回認められることはあり得ない。単一訓練反復の間、合成画像１３０が、着目点検出器サブネットワーク１１２に提供され、これは、計算された着目点のセット１０８を計算する。合成画像１３０に対応する、合成着目点のセット１３２は、計算された着目点１０８と比較され、損失１３４が、比較に基づいて計算される。着目点検出器サブネットワーク１１２は、次いで、損失１３４に基づいて修正される。複数の訓練反復が、損失１３４が所定の閾値を下回り、および／または合成データセット１２８が包括的に使用される等、１つ以上の条件が満たされるまで実施される。

ＦＡＳＴ、Ｈａｒｒｉｓ角、およびＳｈｉ－Ｔｏｍａｓｉの「ＧｏｏｄＦｅａｔｕｒｅｓｔｏＴｒａｃｋ」等の他の従来的角検出アプローチと比較して、着目点検出器サブネットワーク１１２は、合成データセット１２８上でより優れた結果を生産する。着目点検出器サブネットワークのさらなる評価は、ヒトがグラウンドトゥルース角場所で容易に標識し得る、単純合成幾何学形状を使用することから成った。１つの性能評価では、着目点検出器サブネットワーク１１２の２つの異なるモデルが、使用された。両モデルは、同一エンコーダアーキテクチャを共有するが、層あたりニューロンの数において異なり、第１のモデルは、層あたり６４－６４－６４－６４－１２８－１２８－１２８－１２８－１２８個のニューロンを有し、第２のモデルは、層あたり９－９－１６－１６－３２－３２－３２－３２－３２個のニューロンを有する。各検出器は、それらが単純角を位置特定した良好度を決定するために、合成データセット１２８を伴う、評価データセットを与えられた。評価は、着目点検出器サブネットワーク１１２が、全てのカテゴリにおいて、古典的検出器より優れていることを実証し、古典的検出器は、特に、ランダム入力に関して困難であった。

図４は、いくつかの実施形態による、基準データセット１４４が、ホモグラフィ適合を使用してコンパイルされる、第２の訓練ステップを図示する。基準データセット１４４は、例えば、実世界画像を備える、未標識データセット１３６から得られた画像と、基準着目点および基準記述子とを含む、擬似グラウンドトゥルースデータセットを表す。入力画像１０２は、未標識データセット１３６から得られ、ニューラルネットワーク１００に提供され、これは、入力画像１０２に基づいて、計算された着目点のセット１０８および計算された記述子１１０を計算する。データは、基準データセット１４４内に基準セット１４２として記憶されてもよく、各基準セット１４２は、入力画像１０２と、入力画像１０２に対応する、計算された着目点１０８と、入力画像１０２に対応する、計算された記述子１１０とを含む。

単一訓練反復の間、ホモグラフィ適合が、入力画像１０２の多数のホモグラフィワーピングを横断して平均応答を使用するために採用されてもよい。ホモグラフィ生成器１３８が、画像をニューラルネットワーク１００を通して通過させることに先立って、複数のランダムまたは擬似ランダムホモグラフィを入力画像１０２に適用するために使用されてもよい。ニューラルネットワーク１００の他側では、逆ホモグラフィ生成器１４０が、複数の逆ホモグラフィを計算された着目点１０８に適用するために使用されてもよく、複数の逆ホモグラフィは、計算された着目点１０８をワーピング解除するように、複数のホモグラフィの逆数である。プロセスは、同一入力画像１０２に関して、複数のワーピング解除され計算された着目点を取得するために繰り返されてもよい。複数のワーピング解除され計算された着目点は、入力画像１０２および基準記述子とともに、基準セット１４２の一部として、基準データセット１４４内に記憶される、基準着目点のセットを取得するために、集約され／組み合わせられてもよい。

加えて、または代替として、ホモグラフィ適合は、ニューラルネットワーク１００によって出力された記述子を改良するために採用されてもよい。例えば、単一訓練反復の間、ホモグラフィ生成器１３８が、画像をニューラルネットワーク１００を通して通過させることに先立って、複数のランダムまたは擬似ランダムホモグラフィを入力画像１０２に適用するために使用されてもよい。ニューラルネットワーク１００の他側では、逆ホモグラフィ生成器１４０が、複数の逆ホモグラフィを計算された記述子１１０に適用するために使用されてもよく、複数の逆ホモグラフィは、計算された記述子１１０をワーピング解除するように、複数のホモグラフィの逆数である。プロセスは、同一入力画像１０２に関して、複数のワーピング解除され計算された記述子を取得するために繰り返されてもよい。複数のワーピング解除され計算された記述子は、入力画像１０２および基準着目点のセットとともに、基準セット１４２の一部として、基準データセット１４４内に記憶される、基準記述子を取得するために、集約され／組み合わせられてもよい。

ホモグラフィワーピングの数Ｎｈは、本アプローチのハイパーパラメータである。いくつかの実施形態では、第１のホモグラフィは、Ｎｈ＝１（無適合を意味する）であるように、単位元に等しくなるように設定される。試験では、Ｎｈの範囲は、好ましい値を試行および決定するように変動され、Ｎｈは、いくつかの実施形態では、小（Ｎｈ＝１０）から、中（Ｎｈ＝１００）、および大（Ｎｈ＝１０００）まで及ぶ。結果は、１００を上回るホモグラフィを実施するとき、収穫逓減が存在することを示唆する。ＭＳ－ＣＯＣＯからの画像のホールドアウトセット上では、任意のホモグラフィ適合を伴わずに、０．６７の再現性スコアが、満たされ、Ｎｈ＝１００変換を実施するときの２１％の再現性上昇、およびＮｈ＝１，０００のときの２２％の再現性上昇は、１００を上回るホモグラフィを使用することの最小限の利点を十分に実証した。

着目点応答マップまたは記述子マップを組み合わせるとき、スケール内集約とスケール横断集約との間で区別することが有益であり得る。実世界画像は、典型的には、高分解能画像内で着目に値すると見なされるであろう、いくつかの点が、多くの場合、より粗くより低い分解能画像では、可視でさえないため、異なるスケールにおいて特徴を含有する。しかしながら、単一スケール内では、回転および平行移動等の画像の変換は、着目点を現れさせる／消失させることはないはずである。画像の本下層マルチスケール性質は、スケール内およびスケール横断集約方略に関して、異なる含意を有する。スケール内集約は、セットの交点を算出することに類似するはずであって、スケール横断集約は、セットの和集合に類似するはずである。スケールを横断した平均応答もまた、着目点信頼度を測定する、マルチスケールとして使用されることができる。スケールを横断した平均応答は、着目点が、全てのスケールを横断して可視であって、これらが、追跡用途のための最もロバストな着目点である可能性が高いとき、最大限にされる。

スケールを横断して集約するとき、Ｎｓと見なされる、スケールの数は、アプローチのハイパーパラメータである。Ｎｓ＝１の設定は、無マルチスケール集約（または単に、大きな可能性として考えられる画像サイズのみを横断した集約）に対応する。いくつかの実施形態では、Ｎｓ＞１に関して、処理されている画像のマルチスケールセットは、「マルチスケール画像角錐」と称される。角錐のレベルに異なるように加重する、加重スキームは、より高い分解能画像により大きい加重を与え得る。これは、より低い分解能で検出された着目点が、不良位置特定能力を有し、最終集約点が、同様に位置特定されるはずであるため、重要であり得る。実験結果は、スケール内集約が、再現性に関して最大効果を有することを実証した。いくつかの実施形態では、ホモグラフィ適合技法が、実画像上でのサブネットワーク１１２、１１４およびネットワーク１００の一般化能力を改良するために、訓練時間に適用される。

ホモグラフィ適合アプローチに関する理論的裏付けが、以下の段落に説明される。いくつかの実施形態では、以下となるように、初期着目点関数が、ｆ_θ（・）、Ｉ（入力画像）、ｘ（結果として生じる点）、およびＨ（ランダムホモグラフィ）によって表される。ｘ＝ｆ_θ（Ｉ）
理想的着目点演算子は、ホモグラフィに対して共変するはずである。関数ｆ_θ（・）は、出力が入力に伴って変換する場合、Ｈに伴って共変する。換言すると、共変検出器は、全てに関して、以下を充足させるであろう。
Ｈｘ＝ｆ_θ（Ｈ（Ｉ））
明確にするために、表記Ｈｘは、結果として生じる着目点に適用されているホモグラフィ行列Ｈを示し、Ｈ（Ｉ）は、ホモグラフィ行列Ｈによってワーピングされている画像Ｉ全体を示す。ホモグラフィ関連項を右に移動させることは、以下を生産する。
ｘ＝Ｈ^－１ｆ_θ（Ｈ（Ｉ））

実践では、着目点検出器は、完璧に共変せず、前の方程式内の異なるホモグラフィは、異なる着目点ｘをもたらすであろう。いくつかの実施形態では、これは、ランダムＨの十分に大きなサンプルにわたって経験的和を実施することによって対処される。サンプルにわたる結果として生じる集約は、以下のように定義される、より優れた着目点検出器Ｆ（・）をもたらす。

いくつかの実施形態では、全ての行列が、技術的能力の欠如からではなく、あらゆる可能性として考えられるランダムホモグラフィが妥当と思われるカメラ変換を表すわけではないため、良好な結果を生産するわけではない。いくつかの実施形態では、潜在的ホモグラフィは、所定の範囲内において、切断正規分布を使用して、平行移動、スケール、面内回転、および対称投影歪みに関してサンプリングすることによって、より単純であまり表現的ではない変換クラスに分解される。これらの変換は、初期ルート中心クロップとともに、境界アーチファクトを回避することに役立つように構成される。

図５は、いくつかの実施形態による、ニューラルネットワーク１００が、基準データセット１４４を使用して訓練される、第３の訓練ステップを図示する。単一訓練反復の間、基準データセット１４４内に含有される、単一基準セット１４２が、読み出される。各基準セット１４２は、入力画像１０２と、入力画像１０２に対応する、基準着目点のセット１４８と、（随意に）入力画像１０２に対応する、基準記述子１５０とを含んでもよい。１つ以上のホモグラフィ生成器１３８を使用して、ワーピングされた入力画像１０３が、ホモグラフィを入力画像１０２に適用することによって生成され、ワーピングされた基準着目点のセット１４９が、同一ホモグラフィを基準着目点１４８に適用することによって生成される。順次または並行して、ニューラルネットワーク１００－１は、入力画像１０２を受信し、入力画像１０２に基づいて、計算された着目点のセット１０８および計算された記述子１１０を計算し、ニューラルネットワーク１００－２は、ワーピングされた入力画像１０３を受信し、ワーピングされた入力画像１０３に基づいて、計算されワーピングされた着目点のセット１０９および計算されワーピングされた記述子１１１を計算する。

損失Ｌが、下記に説明されるように、計算された着目点１０８、計算された記述子１１０、計算されワーピングされた着目点１０９、計算されワーピングされた記述子１１１、基準着目点１４８、ワーピングされた基準着目点１４９、および／またはホモグラフィＨに基づいて計算されてもよい。ニューラルネットワーク１００は、次いで、損失Ｌに基づいて修正されてもよい。損失Ｌに基づいてニューラルネットワーク１００を修正するステップは、着目点検出器サブネットワーク１１２のみを修正するステップ、記述子サブネットワーク１１４のみを修正するステップ、および／またはサブネットワーク１１２、１１４の両方を修正するステップを含んでもよい。いくつかの実施形態では、ニューラルネットワーク１００は、損失Ｌが、同一基準セット１４２を使用して、後続起動に関して低減されるように修正される。複数の訓練反復が、損失Ｌが所定の閾値を下回り、および／または基準データセット１４４が包括的に使用される等、１つ以上の条件が満たされるまで実施される。

いくつかの実施形態では、損失Ｌは、着目点検出器に関するものＬｐと、記述子に関するものＬｄとの２つの中間損失の和である。同時損失最適化が、（ａ）擬似グラウンドトゥルース着目点場所と、（ｂ）２つの画像を関連させる、ランダムに生成されたホモグラフィＨからのグラウンドトゥルース対応との両方を有する、対の合成的にワーピングされた画像の可用性に起因して有効にされる。損失Ｌは、以下によって、λに関する関数として平衡される。

式中、Ｘは、計算された着目点１０８であって（またはそれに関連し）、Ｘ’は、計算されワーピングされた着目点１０９であって（またはそれに関連し）、Ｙは、基準着目点１４８であって（またはそれに関連し）、Ｙ’は、ワーピングされた基準着目点１４９であって（またはそれに関連し）、Ｄは、計算された記述子１１０であって（またはそれに関連し）、Ｄ’は、計算されワーピングされた記述子１１１である（またはそれに関連する）。Ｓは、類似性スコア行列であって、全体的に、ランダムに生成されたホモグラフィＨに基づいて決定されてもよい。図５に図示されるように、ホモグラフィＨまたは類似性スコア行列Ｓのいずれかは、損失計算機の中にフィードされてもよい。

着目点検出器損失関数Ｌ_ｐは、セルｘ_ｈｗ∈Ｘにわたる完全畳み込みクロスエントロピ損失である。対応するグラウンドトゥルース着目点標識Ｙおよび個々のエントリは、ｙ_ｈｗである。損失は、したがって、以下となる。

式中、

記述子損失は、入力画像１０２からの記述子セルｄ_ｈｗ∈Ｄとワーピングされた入力画像１０３からのｄ’_ｈ’ｗ’∈Ｄ’の全ての対に適用される。（ｈ，ｗ）セルと（ｈ’，ｗ’）セルとの間のホモグラフィ誘発対応は、以下のように記述され得る。

式中、ｐ_ｈｗは、（ｈ，ｗ）セル内の中心ピクセルの場所を示し、

は、セル場所ｐ_ｈｗをホモグラフィＨによって乗算することを示す。一対の画像に関する対応のセット全体は、Ｓである。

いくつかの実施形態では、加重項λ_ｄは、負のものより正の対応の存在を平衡することに役立つ。記述子損失は、以下によって与えられる。

式中、

図６は、いくつかの実施形態による、ニューラルネットワーク１００を使用した２つの捕捉された画像１５４－１、１５４－２間のホモグラフィＨの計算を図示する。図示される実施形態は、光学デバイス、例えば、可能性の中でもとりわけ、ＡＲまたは複合現実（ＭＲ）デバイス、自動運転車、無人航空車両、有人車両、ロボット等のニューラルネットワーク１００を利用する、いくつかのシステムまたはデバイスに対応し得る。

本明細書に説明される技法を使用して訓練後、ニューラルネットワーク１００は、捕捉された画像１５４－１、１５４－２が、単一カメラ１５２から、または複数のカメラから受信される、ランタイムモードで動作してもよい。例えば、捕捉された画像１５４－１は、第１のカメラから受信されてもよく、捕捉された画像１５４－２は、第２のカメラから受信されてもよい。捕捉された画像１５４－１、１５４－２は、同時に異なるカメラによって、または、単一カメラによって、または異なるカメラによって、異なる時間に捕捉されてもよい。ニューラルネットワーク１００は、ネットワーク入力１１６を介して、捕捉された画像１５４－１、１５４－２を受信してもよく、捕捉された画像１５４－１に基づいて、計算された着目点のセット１０８－１および計算された記述子１１０－１と、捕捉された画像１５４－２に基づいて、計算された着目点のセット１０８－２および計算された記述子１１０－２とを計算してもよい。

いくつかの実施形態では、ホモグラフィＨを決定することに先立って、点対応１０６が、着目点のそれぞれと関連付けられる記述子によって情報を与えられる、計算された着目点１０８－１と１０８－２との間の比較によって決定される。例えば、異なる着目点と関連付けられる記述子が、マッチングされてもよい。最も類似する記述子を有する異なる画像に対応する、着目点は、いくつかの可能性として考えられる類似性スコア化プロシージャのうちの１つに従って、相互に対応すると決定されてもよい。ホモグラフィＨが、点対応１０６から計算されてもよい。例えば、捕捉された画像１５４－１、１５４－２間の相対的姿勢が、点対応１０６に基づいて計算されてもよく、ホモグラフィＨが、相対的姿勢のカメラ回転および平行移動を表す、行列として計算されてもよい。加えて、または代替として、相対的姿勢は、ホモグラフィＨに等しくてもよい。

図７は、いくつかの実施形態による、合成データセット１２８の実施例を図示する。いくつかの実施形態では、合成データセット１２８は、円形、三角形、四辺形（例えば、正方形、矩形、菱形、平行四辺形等）、五角形、六角形、星形、立方体、球体、楕円体、円柱、錐体、角柱、角錐、線等の比較的に明確に定義された着目点を有する、多数の形状タイプを表す、複数の形状を含有してもよい。

図８は、いくつかの実施形態による、未標識データセット１３６の実施例を図示する。未標識データセット１３６は、可変照明、雑音、カメラ効果等を有する、実世界の画像を含有してもよい。実画像は、合成画像よりはるかに雑然とし、かつ雑音が多く、合成世界内で容易にモデル化されることができない、多様な視覚的効果を含有する。

図９は、いくつかの実施形態による、ニューラルネットワーク１００の例示的アーキテクチャを図示する。図示される実施形態では、ニューラルネットワーク１００は、入力画像次元を処理および低減させる、単一共有エンコーダを含む。いったんエンコーダによって処理されると、いくつかの実施形態では、アーキテクチャは、２つのデコーダ「ヘッド」に分裂し、これは、タスク特有加重を学習し、一方は、着目点検出のために、他方は、着目点記述のためのものである。

いくつかの実施形態では、ニューラルネットワーク１００は、ＶＧＧ式エンコーダを使用して、画像の次元を低減させる。エンコーダは、畳み込み層と、プーリング演算を介した空間ダウンサンプリングと、非線形活性化関数とから成る。いくつかの実施形態では、エンコーダは、３つの最大プーリング層であって、寸法Ｈ×Ｗの画像Ｉに関して、Ｈ_ｃ＝Ｈ／８およびＷ_ｃ＝Ｗ／８を定義する。より低い次元出力におけるピクセルは、セルと称され、エンコーダ内の３つの２×２非重複最大プーリング演算は、８×８ピクセルセルをもたらす。エンコーダは、入力画像Ｉ∈Ｒ^{Ｈｃ×Ｗｃ×Ｆ}とより小さい空間寸法およびより大きいチャネル深度（すなわち、Ｈ_ｃ＜Ｈ、Ｗ_ｃ＜Ｗ、およびＦ＞１）をマッピングする。

いくつかのインスタンスでは、稠密予測のためのネットワーク設計は、エンコーダ－デコーダ対を伴ってもよく、空間分解能は、プーリングまたはストライド畳み込みを介して減少され、次いで、上方畳み込み演算を介して、完全分解能に戻るようにアップサンプリングされる。残念ながら、アップサンプリング層は、高算出量を追加する傾向にあり、望ましくない市松模様アーチファクトを導入し得、したがって、本明細書に開示される実施形態のうちのいくつかに関して、着目点検出ヘッドは、明示的デコーダを利用して、モデルの算出を低減させる。いくつかの実施形態では、着目点検出器ヘッドは、値Ｘ∈Ｒ^{Ｈｃ×Ｗｃ×６５}を算出し、テンソルサイズＸ∈Ｒ^Ｈ×Ｗを出力する。６５チャネルは、ピクセルの局所的非重複８×８グリッド領域＋余剰「無着目点」ダストビンに対応する。チャネル毎ソフトマックス関数後、ダストビン寸法は、除去され、Ｒ^{Ｈｃ×Ｗｃ×６４}からＲ^Ｈ×Ｗの再変換関数が、実施される。

記述子ヘッドは、Ｄ∈Ｒ^{Ｈｃ×Ｗｃ×Ｄ}を算出し、テンソルサイズＲ^{Ｈ×Ｗ×Ｄ}を出力する。Ｌ２正規化固定長記述子の稠密マップを出力するために、ＵＣＮに類似するモデルが、最初に、記述子の準稠密グリッド（例えば、８ピクセル毎に１つ）を出力するために使用されてもよい。記述子を、稠密にはなく、準稠密に学習することは、訓練メモリを低減させ、起動時間をトレース可能に保つ。デコーダが、次いで、記述子の双三次補間を実施し、次いで、アクティブ化を単位長にＬ２正規化する。図９に描写されるように、両デコーダは、入力の共有および空間的に低減された表現に作用する。モデルを高速かつ訓練が容易であるように保つために、いくつかの実施形態では、両デコーダは、非学習アップサンプリングを使用して、表現をＲ^Ｈ×Ｗに戻す。

いくつかの実施形態では、エンコーダは、８つの３×３畳み込み層サイズ６４－６４－６４－６４－１２８－１２８－１２８－１２８を伴う、ＶＧＧ様アーキテクチャである。２つの層毎に、２×２最大プール層が存在する。各デコーダヘッドは、２５６単位の単一３×３畳み込み層に続いて、それぞれ、着目点検出器および記述子に関して、６５単位および２５６単位を伴う、１×１畳み込み層を有する。ネットワーク内の全ての畳み込み層は、ＲｅＬＵ非線形アクティブ化およびバッチノルム正規化が続いてもよい。

図１０は、いくつかの実施形態による、第２の訓練ステップ（図４を参照して説明される）の間に採用される、ホモグラフィ適合の種々のステップを図示する。ステップ１００２では、未標識画像（例えば、入力画像１０２）が、未標識データセット１３６から得られる。ステップ１００４では、いくつかのランダムホモグラフィが、ホモグラフィ生成器１３８においてサンプリングされる。ステップ１００６では、ランダムホモグラフィは、未標識画像に適用され、いくつかのワーピングされた画像を生成する。ステップ１００８では、ワーピングされた画像は、着目点検出器サブネットワーク１１２を通して通過される。ステップ１０１０では、いくつかの点応答（例えば、計算された着目点のセット１０８）が、着目点検出器サブネットワーク１１２によって計算される。ステップ１０１２では、点応答（すなわち、ヒートマップ）が、いくつかの逆ホモグラフィ（逆ホモグラフィ生成器１４０によって生成される）を点応答に適用することによってワーピング解除され、いくつかのワーピング解除されたヒートマップを生成する。ステップ１０１４では、ワーピング解除されたヒートマップは、種々の利用可能な技法のうちの１つを通して、例えば、平均する、総和する、または組み合わせることによって集約される。

図１１は、いくつかの実施形態による、ランダムホモグラフィ生成のある側面を図示する。ランダムな現実的ホモグラフィ変換を生成するために、ホモグラフィは、平行移動、スケーリング、回転、および対称投影歪み等のより単純な変換に分解されることができる。サンプル領域がオリジナル画像の外側のピクセルを含有するときに起こる、境界アーチファクトを回避することに役立つために、ランダムホモグラフィは、図１１に図示されるように、中心クロップから開始する。単純変換の変換の大きさは、ランダムガウスおよび均一分布である。最終ホモグラフィ変換を生成するために、ランダムにサンプリングされた単純変換が、連続的に適用され、最終ホモグラフィを取得する。

図１２は、本明細書に説明される実施形態を利用し得る、ＡＲデバイス１２００の概略図を図示する。ＡＲデバイス１２００は、左接眼レンズ１２０２Ａと、右接眼レンズ１２０２Ｂとを含んでもよい。いくつかの実施形態では、ＡＲデバイス１２００は、可能性の中でもとりわけ、限定ではないが、左接眼レンズ１２０２Ａに直接またはその近くに取り付けられる、左正面に向いた世界カメラ１２０６Ａ、右接眼レンズ１２０２Ｂに直接またはその近くに取り付けられる、右正面に向いた世界カメラ１２０６Ｂ、左接眼レンズ１２０２Ａに直接またはその近くに取り付けられる、左側に向いた世界カメラ１２０６Ｃ、右接眼レンズ１２０２Ｂに直接またはその近くに取り付けられる、右側に向いた世界カメラ１２０６Ｄ、ユーザの左眼を観察するように位置付けられる、左眼追跡器、ユーザの右眼を観察するように位置付けられる、右眼追跡器、および周囲光センサを含む、１つ以上のセンサを含む。いくつかの実施形態では、ＡＲデバイス１２００は、左接眼レンズ１２０２Ａに光学的にリンクされる、左プロジェクタ１２１４Ａ、および右接眼レンズ１２０２Ｂに光学的にリンクされる、右プロジェクタ１２１４Ｂ等の１つ以上の画像投影デバイスを含む。

ＡＲデバイス１２００のコンポーネントのいくつかまたは全ては、投影された画像がユーザによって視認され得るように、頭部搭載型であってもよい。１つの特定の実装では、図１２に示されるＡＲデバイス１２００のコンポーネントは全て、ユーザによって装着可能な単一デバイス（例えば、単一ヘッドセット）上に搭載される。別の実装では、処理モジュール１２５０の１つ以上のコンポーネントは、ＡＲデバイス１２００の他のコンポーネントと物理的に別個であって、それに１つ以上の有線および／または無線接続によって通信可能に結合される。例えば、処理モジュール１２５０は、ＡＲデバイス１２００の頭部搭載型部分上にある、ローカルモジュール１２５２と、ローカルモジュール１２５２と物理的に別個であって、それに通信可能にリンクされる、遠隔モジュール１２５６とを含んでもよい。遠隔モジュール１２５６は、フレームに固定して取り付けられる、ユーザによって装着されるヘルメットまたは帽子に固定して取り付けられる、ヘッドホンに内蔵される、または別様に、ユーザに除去可能に取り付けられる（例えば、リュック式構成において、ベルト結合式構成において等）等、種々の構成において搭載されてもよい。

処理モジュール１２５０は、プロセッサと、不揮発性メモリ（例えば、フラッシュメモリ）等の関連付けられるデジタルメモリとを含んでもよく、その両方とも、データの処理、キャッシュ、および記憶を補助するために利用されてもよい。データは、カメラ１２０６、周囲光センサ、眼追跡器、マイクロホン、慣性測定ユニット、加速度計、コンパス、ＧＰＳユニット、無線デバイス、および／またはジャイロスコープ等のセンサ（例えば、ＡＲデバイス１２００に動作可能に結合される、または別様にユーザに取り付けられてもよい）から捕捉されたデータを含んでもよい。例えば、処理モジュール１２５０は、画像１２２０をカメラ１２０６から受信してもよい。具体的には、処理モジュール１２５０は、左正面画像１２２０Ａを左正面に向いた世界カメラ１２０６Ａから、右正面画像１２２０Ｂを右正面に向いた世界カメラ１２０６Ｂから、左側画像１２２０Ｃを左側に向いた世界カメラ１２０６Ｃから、右側画像１２２０Ｄを右側に向いた世界カメラ１２０６Ｄから受信してもよい。いくつかの実施形態では、画像１２２０は、単一画像、一対の画像、画像のストリームを備えるビデオ、対合された画像のストリームを備えるビデオ、および同等物を含んでもよい。画像１２２０は、ＡＲデバイス１２００が電源投入されている間、周期的に、生成され、処理モジュール１２５０に送信されてもよい、または処理モジュール１２５０によってカメラのうちの１つ以上のものに送信される命令に応答して、生成されてもよい。別の実施例として、処理モジュール１２５０は、周囲光情報を周囲光センサから受信してもよい。別の実施例として、処理モジュール１２５０は、視線情報を眼追跡器から受信してもよい。別の実施例として、処理モジュール１２５０は、画像情報（例えば、画像明度値）をプロジェクタ１２１４の一方または両方から受信してもよい。

接眼レンズ１２０２Ａ、１２０２Ｂは、それぞれ、プロジェクタ１２１４Ａ、１２１４Ｂからの光を指向および外部結合するように構成される、透明または半透明導波管を備えてもよい。具体的には、処理モジュール１２５０は、左プロジェクタ１２１４Ａに、左仮想画像光１２２２Ａを左接眼レンズ１２０２Ａ上に出力させてもよく、右プロジェクタ１２１４Ｂに、右仮想画像光１２２２Ｂを右接眼レンズ１２０２Ｂ上に出力させてもよい。いくつかの実施形態では、接眼レンズ１２０２はそれぞれ、異なる色および／または異なる深度面に対応する、複数の導波管を備えてもよい。カメラ１２０６Ａ、１２０６Ｂは、それぞれ、ユーザの左および右眼の視野と実質的に重複する、画像を捕捉するように位置付けられてもよい。故に、カメラ１２０６の設置は、ユーザの眼の近くであるが、ユーザの視野を不明瞭にするほど近くないものであり得る。代替として、または加えて、カメラ１２０６Ａ、１２０６Ｂは、それぞれ、仮想画像光１２２２Ａ、１２２２Ｂの内部結合場所と整合するように位置付けられてもよい。カメラ１２０６Ｃ、１２０６Ｄは、ユーザの側面に対して、例えば、ユーザの周辺視覚内またはユーザの周辺視覚の外側の画像を捕捉するように位置付けられてもよい。カメラ１２０６Ｃ、１２０６Ｄを使用して捕捉された画像１２２０Ｃ、１２２０Ｄは、必ずしも、カメラ１２０６Ａ、１２０６Ｂを使用して捕捉された画像１２２０Ａ、１２２０Ｂと重複する必要はない。

図１３は、いくつかの実施形態による、ニューラルネットワーク１００を訓練し、ニューラルネットワーク１００を使用して、画像着目点検出および記述を実施する方法１３００を図示する。方法１３００の１つ以上のステップは、図示される実施形態に示されるものと異なる順序で実施されてもよく、方法１３００の１つ以上のステップは、方法１３００の実施の際、省略されてもよい。

ステップ１３０２では、ニューラルネットワーク１００が、訓練される。ステップ１３０２－１では、ニューラルネットワーク１００の着目点検出器サブネットワーク１１２が、合成データセット１２８を使用して訓練される。合成データセット１２８は、複数の合成画像と、複数の合成画像に対応する、合成着目点の複数のセットとを含んでもよい。ステップ１３０２－１はさらに、図３を参照して説明される。

ステップ１３０２－２では、基準データセット１４４が、着目点検出器サブネットワーク１１２および／または記述子サブネットワーク１１４を使用して生成される。いくつかの実施形態では、基準データセット１４４は、複数のワーピングされた画像が、複数のホモグラフィを入力画像１０２に適用することによって生成される、ホモグラフィ適合を使用して生成され、複数の計算された着目点のセット１０８は、複数のワーピングされた画像を着目点検出器サブネットワーク１１２を通して通過させることによって計算される。複数の計算された着目点のセット１０８は、次いで、基準データセット１４４内に記憶される、基準着目点のセットを取得するために、ワーピング解除および集約される。加えて、または代替として、複数の計算された記述子１１０が、複数のワーピングされた画像を記述子サブネットワーク１１４を通して通過させることによって計算される。複数の計算された記述子１１０は、次いで、基準データセット１４４内に記憶される、基準記述子を取得するために、ワーピング解除および集約される。ステップ１３０２－２はさらに、図４を参照して説明される。

ステップ１３０２－３では、着目点検出器サブネットワーク１１２および記述子サブネットワーク１１４は、並行して、基準データセット１４４を使用して訓練される。単一訓練反復の間、入力画像１０２と、基準着目点１４８と、（随意に）基準記述子１５０とを備える、基準セット１４２が、基準データセット１４４から読み出され、損失Ｌを計算するために使用される。着目点検出器サブネットワーク１１２および記述子サブネットワーク１１４の一方または両方は、計算された損失Ｌに基づいて修正されてもよい。ステップ１３０２－３はさらに、図５を参照して説明される。

ステップ１３０４では、画像着目点検出および記述が、ニューラルネットワーク１００を使用して実施される。いくつかの実施形態では、第１の捕捉された画像１５４－１および第２の捕捉された画像１５４－２が、カメラ１５２または２つの異なるカメラを使用して捕捉される。捕捉された画像１５４－１、１５４－２は、次いで、ニューラルネットワーク１００を通して通過されてもよい。計算された着目点１０８－１、１０８－２および計算された記述子１１０－１、１１０－２が、ホモグラフィＨを計算するために使用されてもよい。いくつかの実施形態では、ＡＲデバイス１２００は、ホモグラフィＨに基づいて、仮想画像光１２２２Ａ、１２２２Ｂの一方または両方を調節してもよい。例えば、ＡＲデバイス１２００のユーザが、ユーザが、プロジェクタ１２１４Ａ、１２１４Ｂによって接眼レンズ１２０２Ａ、１２０２Ｂ上に投影された仮想画像光１２２２Ａ、１２２２Ｂを視認することによって知覚される、仮想コンテンツを視認している間、その頭部を方向転換させるとき、仮想光は、新しい視認角度と関連付けられるホモグラフィＨに基づいて調節される必要があるであろう。ステップ１３０４はさらに、図６を参照して説明される。

図１４は、いくつかの実施形態による、画像着目点検出および記述のためにニューラルネットワーク１００を訓練する方法１４００を図示する。方法１４００の１つ以上のステップは、図示される実施形態に示されるものと異なる順序で実施されてもよく、方法１４００の１つ以上のステップは、方法１４００の実施の際、省略されてもよい。

ステップ１４０２では、ワーピングされた入力画像１０３が、ホモグラフィを入力画像１０２に適用することによって生成される。ステップ１４０４では、ワーピングされた基準着目点１４９が、ホモグラフィを基準着目点１４８に適用することによって生成される。ステップ１４０６では、計算された着目点１０８および計算された記述子１１０が、ニューラルネットワーク１００が入力画像１０２を入力として受信することによって計算される。ステップ１４０８では、計算されワーピングされた着目点１０９および計算されワーピングされた記述子１１１は、ニューラルネットワーク１００がワーピングされた入力画像１０３を入力として受信することによって計算される。

ステップ１４１０では、損失Ｌが、計算された着目点１０８、計算された記述子１１０、計算されワーピングされた着目点１０９、計算されワーピングされた記述子１１１、基準着目点１４８、ワーピングされた基準着目点１４９、およびホモグラフィのうちの１つ以上のものに基づいて計算される。いくつかの実施形態では、損失Ｌはさらに、ホモグラフィに基づいて計算される。ステップ１４１２では、ニューラルネットワーク１００は、損失Ｌに基づいて修正される。

本明細書に説明される種々の実施形態において使用され得る、ニューラルネットワークは、図１－１４を参照して説明される実施例に限定されないことに留意されたい。いくつかの実施形態では、ニューラルネットワークは、他の技法を使用して、異なるように訓練されてもよい。また、いくつかの実施形態では、画像毎に良好かつ一貫した特徴（例えば、角）を含む、データベースが、訓練データとして使用されてもよい。そのような場合、訓練データは、画像と、その個別のグラウンドトゥルース検出とを含む。例えば、訓練データは、各画像内の検出された特徴（例えば、角、角の位置等）と関連付けられた画像を記憶する、データ構造を含んでもよい。そのような訓練データは、ニューラルネットワークを訓練し、領域（例えば、画像内の領域が良好な特徴候補を有するかどうか）を分類するために使用されることができる。いくつかの実施形態では、他の機構が、良好な「グラウンドトゥルース」検出を提供するために使用されてもよい。例えば、いくつかの実施形態では、任意の既知の検出器が、訓練データセット上で起動されるために使用されてもよく、ニューラルネットワークモデルは、それを用いて訓練されてもよい。いくつかの実施形態では、良好な特徴（例えば、角）の任意の他のデータベースが、ニューラルネットワークモデルを訓練するために使用されてもよい。

いくつかの実施形態では、本明細書に説明されるニューラルネットワークは、頭部装着型画像ディスプレイデバイスの一部として実装されてもよい、または頭部装着型画像ディスプレイデバイスと通信する、コンポーネントとして実装されてもよい。ある場合には、ユーザの環境に対する頭部装着型画像ディスプレイデバイスのユーザを位置特定するために、環境の位置特定マップが、取得される。次いで、画像ディスプレイデバイスのカメラシステムからのリアルタイム入力画像が、次いで、位置特定マップに対してマッチングされ、ユーザを位置特定する。例えば、入力画像の角特徴が、入力画像から検出され、位置特定マップの角特徴に対してマッチングされてもよい。いくつかの実施形態では、本明細書に説明されるニューラルネットワークは、入力画像を処理し、角の潜在的候補である、特徴のセットを識別してもよく、次いで、角検出器が、ニューラルネットワークによって識別される角の潜在的候補に基づいて、１つ以上の角を識別するために使用される。

図１５－１８は、種々の実施形態における、画像ディスプレイシステム１６００の種々のコンポーネントを図示する。画像ディスプレイシステム１６００は、画像ディスプレイデバイス１６０１と、画像ディスプレイデバイスデバイス１６０１のための入力を提供するための装置１７００とを含む。装置１７００は、下記にさらに詳細に説明されるであろう。画像ディスプレイデバイス１６０１は、ＶＲデバイス、ＡＲデバイス、ＭＲデバイス、または他のタイプのディスプレイデバイスのいずれかであってもよい。画像ディスプレイデバイス１６０１は、エンドユーザ１５５０によって装着される、フレーム構造１６０２と、ディスプレイサブシステム１６１０がエンドユーザ１５５０の眼の正面に位置付けられるように、フレーム構造１６０２によって担持される、ディスプレイサブシステム１６１０と、スピーカ１０６がエンドユーザ１５５０の外耳道に隣接して位置付けられる（随意に、別のスピーカ（図示せず）が、エンドユーザ１５５０の他方の外耳道に隣接して位置付けられ、ステレオ／調節可能音制御を提供する）ようにフレーム構造１６０２によって担持される、スピーカ１６０６とを含む。ディスプレイサブシステム１６１０は、エンドユーザ１５５０の眼に、高レベルの画質および３次元知覚を伴って、物理的現実に対する拡張として快適に知覚され得る、光パターンを提示するように設計され、かつ２次元コンテンツを提示することも可能である。ディスプレイサブシステム１６１０は、単一コヒーレント場面の知覚を提供する、フレームのシーケンスを高周波数で提示する。

図示される実施形態では、ディスプレイサブシステム１６１０は、「光学シースルー」ディスプレイを採用し、それを通してユーザは、透明（または半透明）要素を介して、直接、実オブジェクトからの光を視認することができる。透明要素は、多くの場合、「コンバイナ」と称され、ディスプレイからの光を実世界のユーザのビューにわたって重畳する。この目的を達成するために、ディスプレイサブシステム１６１０は、部分的に透明なディスプレイを備える。ディスプレイは、周囲環境からの直接光が、ディスプレイを通して、エンドユーザ１５５０の眼に伝送されるように、エンドユーザ１５５０の眼と周囲環境との間のエンドユーザ１５５０の視野内に位置付けられる。

図示される実施形態では、画像投影アセンブリは、光を部分的に透明なディスプレイに提供し、それによって、周囲環境からの直接光と組み合わせられ、ディスプレイからユーザの眼１５５０に伝送される。投影サブシステムは、光ファイバ走査ベースの投影デバイスであってもよく、ディスプレイは、その中に投影サブシステムからの走査される光が、例えば、無限遠（例えば、腕の長さ）より近い単一光学視認距離における画像、複数の離散光学視認距離または焦点面における画像、および／または立体３Ｄオブジェクトを表すために複数の視認距離または焦点面にスタックされた画像層を生産するように投入される、導波管ベースのディスプレイであってもよい。ライトフィールド内のこれらの層は、ヒト副視覚系に持続的に現れるようにともに十分に近接してスタックされてもよい（すなわち、１つの層が、隣接する層の乱信号円錐域内にある）。加えて、または代替として、ピクチャ要素が、２つ以上の層を横断して混成され、それらの層が、より疎らにスタックされる（すなわち、１つの層が隣接する層の乱信号円錐域の外側にある）場合でも、ライトフィールド内の層間の遷移の知覚される連続性を増加させてもよい。ディスプレイサブシステム１６１０は、単眼または両眼用であってもよい。

画像ディスプレイデバイス１６０１はまた、エンドユーザ１５５０の頭部１５５４の位置および移動および／またはエンドユーザ１５５０の眼位置および眼球間距離を検出するためにフレーム構造１６０２に搭載される、１つ以上のセンサ（図示せず）を含んでもよい。そのようなセンサは、画像捕捉デバイス（カメラ等）、マイクロホン、慣性測定ユニット、加速度計、コンパス、ＧＰＳユニット、無線デバイス、および／またはジャイロスコープ）、または前述の任意の組み合わせを含んでもよい。これらのセンサの多くは、その上にそれらが添着される、フレーム１６０２が、順に、ユーザの頭部、眼、および耳に実質的に固定されるという仮定に基づいて動作する。

画像ディスプレイデバイス１６０１はまた、ユーザ配向検出モジュールを含んでもよい。ユーザ配向モジュールは、エンドユーザ１５５０の頭部１５５４の瞬間位置を検出し（例えば、フレーム１６０２に結合されるセンサを介して）、センサから受信された位置データに基づいて、エンドユーザ１５５０の頭部１５５４の位置を予測してもよい。エンドユーザ１５５０の頭部１５５４の瞬間位置を検出することは、エンドユーザ１５５０が見ている、具体的実際のオブジェクトの決定を促進し、それによって、その実際のオブジェクトに関連して生成されるべき具体的仮想オブジェクトのインジケーションを提供し、さらに、仮想オブジェクトが表示される位置のインジケーションを提供する。ユーザ配向モジュールはまた、センサから受信された追跡データに基づいて、エンドユーザ１５５０の眼を追跡してもよい。

画像ディスプレイデバイス１６０１はまた、多種多様な形態のいずれかをとり得る、制御サブシステムを含んでもよい。制御サブシステムは、いくつかのコントローラ、例えば、１つ以上のマイクロコントローラ、マイクロプロセッサまたは中央処理ユニット（ＣＰＵ）、デジタル信号プロセッサ、グラフィック処理ユニット（ＧＰＵ）、特定用途向け集積回路（ＡＳＩＣ）等の他の集積回路コントローラ、プログラマブルゲートアレイ（ＰＧＡ）、例えば、フィールドＰＧＡ（ＦＰＧＡ）、および／またはプログラマブル論理コントローラ（ＰＬＵ）を含む。

画像ディスプレイデバイス１６０１の制御サブシステムは、中央処理ユニット（ＣＰＵ）と、グラフィック処理ユニット（ＧＰＵ）と、１つ以上のフレームバッファと、３次元場面データを記憶するための３次元データベースとを含んでもよい。ＣＰＵは、全体的動作を制御してもよい一方、ＧＰＵは、３次元データベース内に記憶される３次元データからフレームをレンダリングし（すなわち、３次元場面を２次元画像に変換し）、これらのフレームをフレームバッファ内に記憶してもよい。１つ以上の付加的集積回路は、フレームバッファの中へのフレームの読込およびそこからの読出およびディスプレイサブシステム１６１０の画像投影アセンブリの動作を制御してもよい。

画像ディスプレイデバイス１０１の種々の処理コンポーネントは、分散型サブシステム内に物理的に含有されてもよい。例えば、図１５－１８に図示されるように、画像ディスプレイデバイス１６０１は、有線導線または無線コネクティビティ１６３６等によって、ディスプレイサブシステム１６１０およびセンサに動作可能に結合される、ローカル処理およびデータモジュール１６３０を含んでもよい。ローカル処理およびデータモジュール１６３０は、フレーム構造１６０２（図１５）に固定して取り付けられる、ヘルメットまたは帽子１５５６（図１６）に固定して取り付けられる、エンドユーザ１５５０の胴体１５５８に除去可能に取り付けられる（図１７）、またはベルト結合式構成においてエンドユーザ１５５０の腰部１５６０に除去可能に取り付けられる（図１８）等、種々の構成において搭載されてもよい。仮想画像ディスプレイデバイス１６０１はまた、これらの遠隔モジュール１６３２、１６３４が、相互に動作可能に結合され、ローカル処理およびデータモジュール１６３０へのリソースとして利用可能であるように、有線導線または無線コネクティビティ１６３８、１６４０等によってローカル処理およびデータモジュール１６３０に動作可能に結合される、遠隔処理モジュール１６３２および遠隔データリポジトリ１６３４を含んでもよい。

ローカル処理およびデータモジュール１６３０は、電力効率的プロセッサまたはコントローラおよびフラッシュメモリ等のデジタルメモリを備えてもよく、その両方とも、可能性として、処理または読出後に、ディスプレイサブシステム１６１０への通過のために、センサから捕捉された、および／または、遠隔処理モジュール１６３２および／または遠隔データリポジトリ１６３４を使用して入手および／または処理された、データの処理、キャッシュ、および記憶を補助するために利用されてもよい。遠隔処理モジュール１６３２は、データおよび／または画像情報を分析および処理するように構成される、１つ以上の比較的に強力なプロセッサまたはコントローラを備えてもよい。遠隔データリポジトリ１６３４は、比較的に大規模なデジタルデータ記憶設備を備えてもよく、インターネットまたは「クラウド」リソース構成における他のネットワーキング構成を通して利用可能であってもよい。いくつかの実施形態では、全てのデータが、記憶され、全ての算出が、ローカル処理およびデータモジュール１６３０において実施され、任意の遠隔モジュールからの完全に自律的な使用を可能にする。

上記に説明される種々のコンポーネント間の結合１６３６、１６３８、１６４０は、ワイヤまたは光学連通を提供するための１つ以上の有線インターフェースまたはポート、または無線通信を提供するためのＲＦ、マイクロ波、およびＩＲ等を介した、１つ以上の無線インターフェースまたはポートを含んでもよい。いくつかの実装では、全ての通信は、有線であってもよい一方、他の実装では、全ての通信は、無線であってもよい。なおもさらなる実装では、有線および無線通信の選択肢は、図１５－１８に図示されるものと異なり得る。したがって、有線または無線通信の特定の選択肢は、限定と見なされるべきではない。

いくつかの実施形態では、ユーザ配向モジュールは、ローカル処理およびデータモジュール１６３０内に含有される一方、ＣＰＵおよびＧＰＵは、遠隔処理モジュール内に含有される。代替実施形態では、ＣＰＵ、ＧＰＵ、またはその一部は、ローカル処理およびデータモジュール１６３０内に含有されてもよい。３Ｄデータベースは、遠隔データリポジトリ１３４と関連付けられる、またはローカルで配置されることができる。

いくつかの画像ディスプレイシステム（例えば、ＶＲシステム、ＡＲシステム、ＭＲシステム等）は、個別の深度面から生じるように現れる画像を生成するための深度面情報を内蔵する、複数の体積位相ホログラム、表面レリーフホログラム、または光誘導光学要素を使用する。換言すると、回折パターンまたは回折光学要素（「ＤＯＥ」）が、コリメートされた光（略平面波面を伴う光ビーム）が、ＬＯＥに沿って実質的に全内部反射されるにつれて、複数の場所において回折パターンと交差し、ユーザの眼に向かって出射するように、光誘導光学要素（「ＬＯＥ」、例えば、平面導波管）内に内蔵される、またはその上にインプリント／エンボス加工されてもよい。ＤＯＥは、特定の深度面から生じるように現れるように、それを通してＬＯＥから出射する光が輻輳されるように構成される。コリメートされた光は、光学集光レンズ（「集光器」）を使用して生成されてもよい。

例えば、第１のＬＯＥは、光学無限遠深度面（０ジオプタ）から生じるように現れる、コリメートされた光を眼に送達するように構成されてもよい。別のＬＯＥは、２メートルの距離（１／２ジオプタ）から生じるように現れる、コリメートされた光を送達するように構成されてもよい。さらに別のＬＯＥは、１メートルの距離（１ジオプタ）から生じるように現れる、コリメートされた光を送達するように構成されてもよい。スタックされたＬＯＥアセンブリを使用することによって、複数の深度面が、作成され得、各ＬＯＥは、特定の深度面から生じるように現れる、画像を表示するように構成されることを理解されたい。スタックは、任意の数のＬＯＥを含んでもよいことを理解されたい。しかしながら、少なくともＮ個のスタックされたＬＯＥが、Ｎ個の深度面を生成するために要求される。さらに、Ｎ、２Ｎ、または３Ｎ個のスタックされたＬＯＥが、ＲＧＢカラー画像をＮ個の深度面に生成するために使用されてもよい。

３Ｄ仮想コンテンツをユーザに提示するために、画像ディスプレイシステム１６００（例えば、ＶＲシステム、ＡＲシステム、ＭＲシステム等）は、それらがＺ方向に（すなわち、ユーザの眼から離れるように直交して）種々の深度面から生じるように現れるように、仮想コンテンツの画像をユーザの眼の中に投影する。換言すると、仮想コンテンツは、ＸおよびＹ方向（すなわち、ユーザの眼の中心視軸に直交する、２Ｄ面）において変化し得るだけではなく、また、ユーザが、オブジェクトが、非常に近接して、または無限距離に、またはその間の任意の距離にあるように知覚し得るように、Ｚ方向においても変化するように現れ得る。いくつかの実施形態では、ユーザは、複数のオブジェクトを、同時に、異なる深度面において知覚し得る。例えば、ユーザには、仮想ドラゴンが、無限遠から現れ、ユーザに向かって走って来るように見え得る。代替として、ユーザには、同時に、ユーザから３メートル離れた距離における仮想鳥と、ユーザから腕の長さ（約１メートル）における仮想コーヒーカップとが見え得る。

多面焦点システムは、画像をユーザの眼からＺ方向における個別の固定距離に位置する複数の深度面のいくつかまたは全て上に投影することによって、可変深度の知覚を作成する。ここで図１９を参照すると、多面焦点システムは、フレームを固定された深度面１６５０（例えば、図１９に示される６つの深度面１６５０）に表示し得ることを理解されたい。ＭＲシステムは、任意の数の深度面１６５０を含むことができるが、１つの例示的多面焦点システムは、６つの固定された深度面１６５０をＺ方向に有する。仮想コンテンツを６つの深度面１６５０のうちの１つ以上のものに生成する際、３Ｄ知覚が、ユーザがユーザの眼からの可変距離における１つ以上の仮想オブジェクトを知覚するように作成される。ヒトの眼が、遠く離れてあるように現れるオブジェクトより距離が近いオブジェクトにより敏感であることを前提として、より多くの深度面１６５０が、図１９に示されるように、眼のより近くに生成される。いくつかの実施形態では、深度面１６５０は、相互から離れるように等距離に設置されてもよい。

深度面位置１６５０は、メートル単位で測定される焦点距離の逆数に等しい屈折力の単位である、ジオプタ単位で測定されてもよい。例えば、いくつかの実施形態では、深度面１は、１／３ジオプタ離れてもよく、深度面２は、０．３ジオプタ離れていてもよく、深度面３は、０．２ジオプタ離れていてもよく、深度面４は、０．１５ジオプタ離れていてもよく、深度面５は、０．１ジオプタ離れてもよく、深度面６は、無限遠（すなわち、０ジオプタ離れる）を表し得る。いくつかの実施形態は、深度面１６５０を他の距離／ジオプタに生成してもよいことを理解されたい。したがって、仮想コンテンツを方略的に設置された深度面１６５０に生成する際、ユーザは、仮想オブジェクトを３次元で知覚することが可能である。例えば、ユーザは、別の仮想オブジェクトが深度面６における無限遠に現れる間、第１の仮想オブジェクトが深度面１内に表示されるとき、それを近くにあると知覚し得る。代替として、仮想オブジェクトは、最初に、深度面６に、次いで、深度面５に、そして、仮想オブジェクトがユーザの非常に近く現れるまでそのように続くように表示されてもよい。上記の実施例は、例証目的のために有意に簡略化されていることを理解されたい。いくつかの実施形態では、全６つの深度面は、ユーザから離れるように特定の焦点距離上に集中されてもよい。例えば、表示されるべき仮想コンテンツが、ユーザから０．５メートル離れたコーヒーカップである場合、全６つの深度面は、コーヒーカップの種々の断面において生成され、ユーザに、コーヒーカップの高粒度の３Ｄビューを与え得る。

いくつかの実施形態では、画像ディスプレイシステム１００（例えば、ＶＲシステム、ＡＲシステム、ＭＲシステム等）は、多面焦点システムとして機能してもよい。換言すると、全６つのＬＯＥは、６つの固定された深度面から生じるように現れる画像が、高速で連続して生成されるように、同時に照明されてもよく、光源は、画像情報をＬＯＥ１、次いで、ＬＯＥ２、次いで、ＬＯＥ３等に急速に伝達する。例えば、光学無限遠における空の画像を含む、所望の画像の一部は、時間１において投入されてもよく、光のコリメーションを留保する、ＬＯＥ（例えば、図１９からの深度面６）が、利用されてもよい。次いで、より近い木の枝の画像が、時間２において投入されてもよく、１０メートル離れて深度面から生じるように現れる画像を作成するように構成される、ＬＯＥ（例えば、図１９からの深度面５）が、利用されてもよい。次いで、ペンの画像が、時間３において投入されてもよく、１メートル離れて深度面から生じるように現れる画像を作成するように構成される、ＬＯＥが、利用されてもよい。本タイプのパラダイムは、ユーザの眼および脳（例えば、視覚野）が入力を同一画像の全ての部分であると知覚するように、高速時間シーケンシャル（例えば、３６０Ｈｚ）方式で繰り返されることができる。

画像ディスプレイシステム１６００は、Ｚ軸（すなわち、深度面）に沿って種々の場所から生じるように現れ、３Ｄ体験／シナリオのための画像を生成する、画像を投影してもよい（すなわち、光ビームを発散または収束させることによって）。本願で使用されるように、光ビームは、限定ではないが、光源から照射される光エネルギー（可視および不可視光エネルギーを含む）の指向性投影を含む。種々の深度面から生じるように現れる、画像を生成することは、その画像のためのユーザの眼の輻輳・開散運動および遠近調節に一致し、輻輳・開散運動－遠近調節競合を最小限にまたは排除する。

位置特定マップ

図２０は、画像ディスプレイデバイス１６０１が、画像ディスプレイデバイス１６０１のユーザ１５５０を位置特定することを可能にするための、マップを決定するための方法を図示する。図に示されるように、ユーザ１５５０が、画像ディスプレイデバイス１６０１を使用しているとき、ユーザ１５５０は、異なる視認場所および／または方向を達成するために、画像ディスプレイデバイス１６０１を移動させることができる。例えば、ユーザ１５５０は、その頭部を旋回させ、その身体を旋回させ、および／または異なる場所に歩行し得る。いくつかの実施形態では、画像ディスプレイデバイス１６０１は、前方に向いたカメラを含む。いくつかの実施形態では、カメラは、可視光カメラ（例えば、ＲＧＢカメラ）であってもよい。いくつかの実施形態では、カメラは、赤外線光カメラ（例えば、ＩＲ／深度カメラ）であってもよい。いくつかの実施形態では、カメラは、フルスペクトルカメラ（例えば、一体型可視光カメラおよび深度カメラ）であってもよい。画像ディスプレイデバイス１６０１を移動させることによって、画像ディスプレイデバイス１６０１の前方に向いたカメラの視野は、適宜、変化するであろう。ユーザ１５５０が、異なる姿勢にある間、画像ディスプレイデバイス１６０１のカメラは、対応する画像を生成する。図示される実施例では、ユーザ１５５０は、その頭部を旋回させることによって、３つの異なる姿勢を達成し、画像ディスプレイデバイス１６０１の前方に向いたカメラは、３つの姿勢と対応する、３つの画像１７００ａ－１７００ｃを生成する。画像１７００ａ－１７００ｃはそれぞれ、環境内であるオブジェクト１７０２を捕捉する。例えば、画像１７００ｂは、オブジェクト１７０２ａ－１７０２ｄを捕捉し、画像１７００ｃは、オブジェクト１７０２ｂ－１７０２ｅを捕捉する。ユーザ１５５０の姿勢に応じて、環境内のあるオブジェクトが、カメラの複数の画像１７００内に捕捉され得、ある他のオブジェクトは、１つのみの画像１７００内に捕捉され得る。いくつかの実施形態では、画像ディスプレイデバイス１６０１の処理ユニット１６３０は、画像１７００を画像ディスプレイデバイス１６０１のカメラから取得し、画像処理を実施し、特徴を画像１７００から抽出し、マップを作成するように構成される。マップは、画像ディスプレイデバイス１６０１の非一過性媒体内に記憶されてもよく、処理ユニット１６３０によって使用され、ユーザ１５５０の位置特定を実施してもよい。したがって、マップは、位置特定マップとして機能する。図示される実施形態では、マップは、ユーザ１５５０の異なる姿勢によって検出された環境の３次元表現である。

いくつかの実施形態では、ユーザ１５５０を囲繞する環境は、複数のセルに分割されてもよい。そのような場合、上記のマップ作成技法が、環境の異なるセルのために採用されてもよい。図２１は、複数のセル１８００に分割されている環境の実施例を図示する。各セル１８００は、環境の一部を表す、定義された３次元空間である。各セル１８００は、所定のサイズおよび形状を有してもよい。例えば、各セル１８００は、２ｍ×２ｍの占有面積と、２ｍの高さとを有してもよい。各セル１８００は、他の実施形態では、他の占有面積寸法および／または他の高さを有してもよい。また、いくつかの実施形態では、各セル１８００は、示される矩形構成を有していなくてもよく、他の形状を有してもよい。図示される実施形態では、セル１８００は全て、同一形状および寸法を有する。いくつかの実施形態では、セル１８００のうちの少なくとも２つは、異なる個別の寸法および／または形状を有してもよい。

いくつかの実施形態では、画像ディスプレイデバイス１６０１のユーザ１５５０は、異なるセル１８００に対応する環境内の異なる場所に向かってもよく、画像ディスプレイデバイス１６０１のカメラを使用して、対応するセル内の空間を走査し、環境の個別のセルのための異なるマップを作成してもよい。マップは、画像ディスプレイデバイス１６０１の処理ユニット１６３０がユーザ１５５０の位置特定を実施することを可能にするために、画像ディスプレイデバイス１６０１の非一過性媒体内に記憶されてもよい。

ユーザ１５５０を位置特定するための位置特定マップの使用の間、画像ディスプレイデバイス１６０１のカメラは、ユーザ１５５０の現在の位置および配向において、環境の画像を捕捉する。そのようなカメラ画像は、画像ディスプレイデバイス１６０１の処理ユニット１６３０が、ユーザ１５５０の位置を追跡することを可能にするための追跡画像（追跡マップ）としての役割を果たす。特に、画像ディスプレイデバイス１６０１の処理ユニット１６３０は、カメラからの追跡画像を処理し、追跡画像内の特徴が位置特定マップ内の特徴とマッチングするかどうかを決定する。マッチングが、見出される場合、処理ユニット１６３０は、次いで、マッチングされる特徴に基づいて、ユーザ１５５０の位置および配向を決定してもよい。いくつかの実施形態では、位置特定マップは、画像ディスプレイデバイス１６０１のカメラによって捕捉された追跡画像より少ない情報（例えば、特徴）を含有してもよい。これは、処理ユニット１６３０が、追跡画像の特徴と位置特定マップ内の特徴を効率的にマッチングさせることを可能にするため、有利である。いくつかの実施形態では、位置特定マップは、「規準マップ」と呼ばれ得る。位置特定を実施するとき、処理ユニット１６３０は、特徴抽出を実施し、特徴を追跡画像から抽出し、抽出された特徴と規準マップ内の特徴をマッチングさせる。いくつかの実施形態では、処理ユニット１６３０は、追跡画像の特徴と規準マップの特徴との間の６自由度変換を見出し、ユーザ１５５０を位置特定するように構成される。いくつかの実施形態では、処理ユニット１６３０は、追跡画像自体と規準マップ自体との間の６自由度変換を見出し、ユーザ１５５０を位置特定するように構成される。いくつかの実施形態では、いったんユーザ１５５０が、位置特定マップを使用して、その環境に対して正常に位置特定され得ると、処理ユニット１６３０は、次いで、ユーザ１５５０が、位置特定マップを使用して、仮想コンテンツを環境に対して設置し、仮想コンテンツを前のセッションから読み出し、仮想コンテンツを他のユーザと共有すること等を行うことを可能にし得る。

画像ディスプレイデバイス１６０１の使用の間、処理ユニット１６３０は、特徴検出を画像ディスプレイデバイス１６０１のカメラシステムによって提供される画像上で実施する必要があり得る。例えば、いくつかの実施形態では、画像を使用して、位置特定マップを作成するとき、処理ユニット１６３０は、これらの画像内の角等の特徴を検出する必要があり得る。検出された特徴は、処理ユニット１６３０によって、位置特定マップを構築するための特徴として利用されてもよい。位置特定マップを使用して、位置特定を実施するとき、処理ユニット１６３０は、追跡画像内の特徴と位置特定マップの特徴をマッチングさせる必要があり得る。故に、処理ユニット１６３０は、追跡画像内の特徴を検出するように構成されてもよい。角等の特徴は、概して、角が、概して、異なる視認方向から検出可能であるという意味において、より安定した特徴である。故に、画像内の角の検出能力は、視点の変化によって有意に影響され得ない。したがって、角は、追跡画像と位置特定マップとの間でマッチングさせるために良好な特徴である。角はまた、異なる時間および異なる視認方向において生成された画像間のステレオマッチングにおいて使用するために良好な特徴である。いくつかの実施形態では、角以外の特徴も、使用されてもよい。

特徴検出

図２２Ａは、処理ユニット１６３０を図示し、特に、角検出を実装するためのコンポーネントを示す。図に示されるように、処理ユニット１６３０は、ハードウェア１９１０と、ソフトウェア１９２０とを含む。処理ユニット１６３０はまた、ガンマ補正器１９１２と、画像調節器１９１４と、随意のニューラルネットワーク１９１５と、角検出器１９１６と、随意の非最大値抑制器１９２２と、随意の空間ビニングモジュール１９２４と、角位置決定器１９２６とを含む。図示される実施形態では、ガンマ補正器１９１２、画像調節器１９１４、ニューラルネットワーク１９１５、および角検出器１９１６は、処理ユニット１６３０のハードウェア１９１０を使用して実装される。また、図示される実施形態では、非最大値抑制器１９２２、空間ビニングモジュール１９２４、および角位置決定器１９２６は、処理ユニット１６３０のソフトウェア１９２０を使用して実装される。いくつかの実施形態では、ガンマ補正器１９１２および画像調節器１９１４は、画像信号プロセッサ１９１１を使用して実装されてもよい。いくつかの実施形態では、処理ユニット１６３０は、ニューラルネットワーク１９１５を含まない。代わりに、処理ユニット１６３０は、ニューラルネットワーク１９１５と通信するように構成されてもよい。

いくつかの実施形態では、ガンマ補正器１９１２、画像調節器１９１４、ニューラルネットワーク１９１５、角検出器１９１６、または前述の任意の組み合わせは、処理ユニット１６３０のソフトウェア１９２０を使用して実装されてもよい。また、いくつかの実施形態では、非最大値抑制器１９２２、空間ビニングモジュール１９２４、角位置決定器１９２６、または前述の任意の組み合わせは、処理ユニット１６３０のハードウェア１９１０を使用して実装されてもよい。

いくつかの実施形態では、処理ユニット１６３０内のコンポーネント１９１２、１９１４、１９１５、１９１６、１９２２、１９２４、１９２６のいずれかは、ハードウェア、ソフトウェア、または両方の組み合わせを使用して実装されてもよい。

ガンマ補正器１９１２は、ピクセル値と輝度との間の非線形関係を調節するように構成される。例えば、いくつかの実施形態では、ガンマ補正器１９１２は、その関係が、線形である、またはオリジナル未加工画像内のものと比較してより線形であるように、ピクセル値と輝度との間の関係を調節するように構成されてもよい。

画像調節器１９１４は、画像を取得し、随意に、画像の分解能をダウンスケールし、調節された画像を提供するように構成される。いくつかの実施形態では、画像調節器１９１４は、第１の分解能を有する、第１の画像を取得し、第１の画像をダウンスケールし、第１の分解能未満である第２の分解能を伴う、第２の画像を取得するように構成される。例えば、ある場合には、第１の画像は、ＶＧＡ分解能を有してもよく、第２の画像は、ＱＶＧＡ分解能を有してもよい。そのような場合、第２の画像は、第１の画像に関するものの４分の１である、ピクセルの数を有する。他の実施例では、第２の画像は、第１の画像に関するものの他の割合である、ピクセルの数を有してもよい。

ニューラルネットワーク１９１５は、図１－１４のいずれかを参照して説明される、ニューラルネットワークまたはそのためのコンポーネントのいずれかであってもよい。ニューラルネットワーク１９１５は、画像ディスプレイデバイス１６０１からの入力画像（例えば、カメラ画像）を処理し、各入力画像内の特徴のセットを識別するように構成される。いくつかの実施形態では、各入力画像内で識別された特徴のセットは、角が検出され得る場所の「ヒント」としての役割を果たし得る。

角検出器１９１６は、１つ以上の基準に基づいて、画像内の角を検出するように構成される。図示される実施形態では、角検出器１９１６は、ニューラルネットワーク１９１５によって識別される特徴の場所を使用して、角の可能性として考えられる場所を決定し、角検出をそれらの場所上で実施し、角を検出するように構成される。いくつかの実施形態では、角検出器１９２６は、Ｈａｒｒｉｓ角検出技法を使用して、画像内の角を検出するように構成される。Ｈａｒｒｉｓ角検出は、各ピクセルの勾配を計算することによって達成される。絶対勾配値の両方が、２つの方向（例えば、直交方向）において大きい（例えば、ある閾値を上回る）場合、角検出器１９１６は、ピクセルを角として決定し得る。Ｈａｒｒｉｓ角検出技法の１つの実装では、以下のアルゴリズムが、画像内のピクセル毎にスコアを計算するために採用される。
（１）画像のｘおよびｙ導関数を算出する

式中、Ｇ^ｘおよびＧ^ｙは、一次方向微分係数である。ある場合には、Ｇ^ｘおよびＧ^ｙは、グレー値および差分演算子を方向ｘ、ｙに畳み込むことによって計算されてもよい。
（２）ピクセル毎に導関数の積を算出する

（３）各ピクセルにおける導関数の積の和を算出する

（４）各ピクセル（ｘ，ｙ）において行列を定義する

代替として、行列Ｈは、以下のように表されてもよい。

式中、（Ｉ_ｘ，Ｉ_ｙ）は、（ｘ，ｙ）における勾配である。
（５）ピクセル毎にスコア（Ｈａｒｒｉｓ応答）を算出する
Ｒ＝Ｄｅｔ（Ｈ）－ｋ（Ｔｒａｃｅ（Ｈ））＾２
式中、Ｄｅｔ（Ｈ）＝λ_１λ_２であって、Ｔｒａｃｅ（Ｈ）＝λ_１＋λ_２であって、λ_１およびλ_２は、Ｈの固有値である。

いくつかの実施形態では、Ｈａｒｒｉｓ応答Ｒおよび／または固有値λ_１，λ_２は、角検出器１９１６によって、角検出のための１つ以上の基準において使用されてもよい。図２３Ａは、Ｈａｒｒｉｓスコア化関数に従う応答Ｒおよび／または固有値を使用した像点の分類を示す。図２３Ｂは、Ｓｈｉ－Ｔｏｍａｓｉ基準に従う固有値を使用した像点の分類を示す。いくつかの実施形態では、例えば、図２３Ａ－２３Ｂに示されるように、固有値λ_１，λ_２が両方とも、小さい場合、ピクセルは、平坦領域の一部であり得る。故に、角検出器１９１６は、少なくとも部分的に、ｍｉｎ（λ_１，λ_２）＞閾値という基準に基づいて、角を検出するように構成されてもよい。いくつかの実施形態では、図２３Ａ－２３Ｂに示されるように、より大きい固有値λ_２が、より小さい固有値λ_１より閾値だけ大きい場合、ピクセルは、線形構成（例えば、線、縁等）を伴うオブジェクトの一部であり得る。故に、角検出器１９１６は、少なくとも部分的に、λ_２／λ_１＜閾値という基準に基づいて、角を検出するように構成されてもよい。いくつかの実施形態では、角検出器１９１６は、基準の両方に基づいて、角を検出するように構成されてもよい。
（１）ｍｉｎ（λ１，λ２）＞閾値Ｔ１
（２）λ２／λ１＜閾値Ｔ２
いくつかの実施形態では、閾値Ｔ１は、３００であるように設定されてもよい。いくつかの実施形態では、閾値Ｔ１は、３００と異なる他の値を有してもよい。いくつかの実施形態では、閾値Ｔ２は、５であるように設定されてもよい。いくつかの実施形態では、閾値Ｔ２は、５と異なる他の値を有してもよい。

いくつかの実施形態では、上記の２つの基準は、以下のように、Ｄｅｔ（Ｈ）およびＴｒａｃｅ（Ｈ）の観点から表されてもよい。

そのような場合、角検出器１５１６は、以下のように、異なるｋ（ｋ１、ｋ２）の２つのＨａｒｒｉｓ応答を使用して、ＤｅｔおよびＴｒａｃｅを計算するように構成されてもよい。
Ｔ２＝５であるときのｋ１＞０に基づくＨａｒｒｉｓ応答であって、式中、以下である。

いくつかの実施形態では、ｋ２は、計算を簡略化するであろうように選択されてもよい。例えば、上記の方程式（５）は、以下のように書き直されてもよい。

そのような場合、ｋ２は、右項（（４Ｔ１＾２）^＊（ｋ１－ｋ２））が１になるように選択されてもよく、評価は、左側の式が１を上回ることに基づいて、簡略化されてもよい。いくつかの実施形態では、ｋ２は、以下の式に基づいて計算されてもよい。

故に、ｋ１が、０．１３９に設定される場合、ｋ２は、上記の方程式に基づいて、０．００４７８１２５に等しい。

ｋ１およびｋ２は、上記の値を有するように限定されず、いくつかの実施形態では、他の値を有してもよいことに留意されたい。例えば、いくつかの実施形態では、ｋ１は、０．１～０．２の任意の場所の値を有してもよい。また、例えば、いくつかの実施形態では、ｋ２は、０．００１未満の値を有してもよい。

加えて、本明細書で使用されるように、用語「角」は、２つの直線間の交点に限定されず、また、２つの線（例えば、直線）を接続する曲線に沿った任意の点を指し得、曲線は、曲率半径を有してもよい（曲率半径が小さいほど、「角」が急峻になるように）ことに留意されたい。

いくつかの実施形態では、角検出器１９１６は、１回以上の回数、Ｈａｒｒｉｓ角検出を第１の画像上に適用し、１つ以上の基準に基づいて、第１の画像内の角のセットを検出するように構成されてもよい。角検出器１９１６はまた、１回以上の回数、Ｈａｒｒｉｓ角検出を第２の画像上に適用し、１つ以上の基準に基づいて、第２の画像内の角のセットを検出するように構成されてもよい。１つ以上の基準は、ある所望の特徴を伴う角のみが検出されるように選択されてもよい。

また、角検出器１９１６は、上記の式および値の実施例に基づいて角を検出するように限定されず、角検出器１９１６は、上記の式の派生形、変形例、および／または修正であり得る、他の式に基づいて角を検出するように構成されてもよいことに留意されたい。加えて、いくつかの実施形態では、角検出器１９１６は、Ｈａｒｒｉｓ角検出技法と異なる他の角検出技法に基づいて、角を検出するように構成されてもよい。いくつかの実施形態では、角以外の特徴も、検出されてもよく、当業者は、本明細書に開示される原理が適用されるであろうことを理解するであろう。

図２２Ａに戻ると、非最大値抑制器１９２２は、同一角の重複検出が防止されるように、検出された角のために非最大値抑制を実施するように構成される。ある場合には、画像の画像解像度および／または角検出が実装される様式に起因して、同一角が、複数回、検出され得る。例えば、角検出器１９１６は、同一角を相互に近い３つの場所において３回検出し得る（実際には、それらの３つの検出された角が全て、画像内の同一角に関するものであるとき）。したがって、本明細書で使用されるように、用語「角」は、複数回検出される、１つの角または角のインスタンスを指し得る。いくつかの実施形態では、非最大値抑制器１９２２は、３×３非最大値抑制を実施するように構成されてもよい。そのような場合、３×３ピクセル領域内で検出された複数の角が存在する場合、非最大値抑制器１９２２は、本領域内の複数の検出された角のうちの１つを検出された角として選択するであろう。いくつかの実装では、非最大値抑制器１９２２は、領域内の個別の複数の検出された角に関する角スコアを決定し、最高スコアを伴う角をその領域に関する検出された角として選択するように構成されてもよい。スコアは、検出された角が検出された場所にある確率または検出された角の位置の正確度を示してもよい。いくつかの実施形態では、非最大値抑制以外のアプローチが、同一角の重複検出が防止されるように、検出された角のために使用されてもよく、当業者は、本明細書に開示される原理が適用されるであろうことを理解するであろう。

空間ビニングモジュール１９２４は、画像の異なる領域が検出された角の略均一分布を有するであろうように、所与の画像に関して検出された角のあるものを選択するように構成される。特に、非最大値抑制器４２２が、重複の検出された角を除去後、所与の画像に関して、依然として、多くの検出された角が存在し得、および／または残りの検出された角は、画像の異なる領域内に異なる分布を有し得る。空間ビニングモジュール１９２４は、画像の異なる領域が、ある基準を満たす、ある最大数の検出された角を有するであろうように、検出された角のサブセットを選択するように構成される。いくつかの実施形態では、第２の画像は、２つ以上の領域に分割されてもよい。例えば、第２の画像は、4つの
領域に分割されてもよい。４つの領域は、以下のように、異なる個別の数の検出された角および個別のスコアを有し得る。
領域１：（Ｃ１、０．７）、（Ｃ２、０．８）、（Ｃ３、０．８５）、（Ｃ４、０．９）領域２：（Ｃ５、０．６）、（Ｃ６、０．６５）
領域３：（Ｃ７、０．６６）、（Ｃ８、０．８２）
領域４：（Ｃ９、０．９）、（Ｃ１０、０．８８）、（Ｃ１１、０．６３）
上記の実施例では、領域１は、３つの検出された角Ｃ１－Ｃ４を有し、領域２は、２つの検出された角Ｃ５－Ｃ６を有し、領域３は、２つの検出された角Ｃ７－Ｃ８を有し、領域４は、３つの検出された角Ｃ９－Ｃ１１を有する。領域毎に所望される最大数の角が、３であるように選択される場合、および角を選択するための基準が、角が０．７またはより高いスコアを有していなければならないことである場合、空間ビニングモジュール１９２４は、異なる個別の領域１－４に関して、以下の角を選択し得る。
領域１：Ｃ２、Ｃ３、Ｃ４（角Ｃ１は、領域１内に最低スコアを有し、したがって、領域１内に最高スコアを伴う３つの角が、選択され、空間ビニングモジュール１９２４は、最大数の角が、実施例では３であるように事前に規定されているため、４つ全ての角Ｃ１－Ｃ４を選択することができないことに留意されたい）。
領域２：角は選択されない（角Ｃ５およびＣ６が両方とも、最小スコア基準を満たさない、スコアを有するため）。
領域３：角Ｃ８のみが選択される（角Ｃ７が、最小スコア基準を満たさない、スコアを有するため）。
領域４：角Ｃ９およびＣ１０のみが選択される（角Ｃ１１が、最小スコア基準を満たさない、スコアを有するため）。

角位置決定器１９２６は、個別の検出された角の最終位置を決定するように構成される。角は、解像度が低減され得る画像に基づいて、検出器１９１６によって検出されたため、より高い解像度画像に基づいて、これらの検出された角の位置を精緻化することが望ましくあり得る。議論されるように、いくつかの実施形態では、画像調節器１９１４は、第１の解像度を伴う第１の画像を第２の解像度を伴う第２の画像に変換するように構成される。いくつかの実施形態では、角を検出するために使用される、第２の画像の第２の解像度は、第１の画像の第１の解像度の４分の１である。本実施例に従って、検出された角の位置として識別された第２の画像内のピクセル毎に、第１の画像内に、検出された角と対応する、４つの対応するピクセルが存在する。故に、角位置決定器１９２６は、第１の画像内の４つのピクセル（第２の画像内の検出された角のピクセルと対応する）のうちの１つを検出された角として選択するように構成されてもよい。

いくつかの実施形態では、角位置決定器１９２６は、第１の画像内の検出された１つ以上の角に基づいて、（第１の画像内の４つのピクセルから）１つのピクセルを選択するように構成される。例えば、角検出器１９１６は、第１の画像内に、第２の画像内の角の座標（ｘｒ，ｙｒ）に近接近する２つの角が存在することを検出し得る。第１の画像内の２つの角の座標は、角位置決定器１９２６によって、（ｘ１，ｙ１）、（ｘ２，ｙ２）として決定され得る。次に、角位置決定器１９２６は、次いで、以下のように、第１の画像内の角の個別のピクセル座標と第２の画像内の角のピクセル座標との間の距離を計算する。

角位置決定器１９２６は、次いで、最低対応距離Ｄ（すなわち、ｍｉｎ（Ｄ１，Ｄ２）を有する、第１の画像内のピクセルの座標を、検出された角の位置として選択する。

いくつかの実施形態では、角位置決定器１９２６は、他の技法を使用して、（第２の画像から検出された）検出された角の位置を精緻化してもよい。例えば、空間ビニングモジュール１９２４によって出力された角のセットの位置（非最大値抑制器１９２２および空間ビニングモジュール４２４によって第２の画像内の検出された角のサブセットとして選択される）は、角検出器１９１６に入力されてもよい。角検出器１９１６は、次いで、角検出アルゴリズムを実行し、第２の画像からの角のセットの位置と対応する離散場所における、第１の画像内の角を検出する。いくつかの実施形態では、角検出器１９１６は、Ｈａｒｒｉｓ角検出アルゴリズムを実行し、第２の画像内のそれらの検出された角に対する位置に対応する、第１の画像内の角のセットを検出してもよい。本技法は、Ｈａｒｒｉｓ角検出が、第１の画像全体上で実施されるように要求されず、第１の画像の離散部分上でのみで実施され、それによって、時間および算出リソースを節約するという点で有利である。

いくつかの実施形態では、ガンマ補正器１９１２、画像調節器１９１４、および角検出器１９１６は、これらのコンポーネントの機能を実施するように具体的に設計される、特殊ハードウェアを使用して実装されてもよい。非限定的実施例として、ハードウェアは、行列演算を実施するように具体的に設計される、１つ以上のＦＰＧＡプロセッサ、１つ以上のＡＳＩＣプロセッサ、１つ以上の信号プロセッサ、１つ以上の数学プロセッサ、１つ以上のプロセッサ、または前述の任意の組み合わせを含んでもよい。また、いくつかの実施形態では、処理ユニット１６３０は、ともに通信可能に結合される、別個のコンポーネントとして実装されてもよい。例えば、処理ユニット１６３０は、ガンマ補正器１９１２および画像調節器１９１４を搬送する、第１の基板と、角検出器１９１６を搬送する、別の基板とを有してもよい。別の実施例として、処理ユニット１６３０は、ソフトウェア１９２０を実行するためのプロセッサを有してもよく、プロセッサは、角検出器１９１６を支持する、同一基板上に、または角検出器１９１６のためのものと異なる基板上に、実装されてもよい。いくつかの実施形態では、それぞれ、ガンマ補正器１９１２、画像調節器１９１４、角検出器１９１６、およびソフトウェア１９２０を起動するプロセッサを搬送する、別個の基板が存在してもよい。いくつかの実施形態では、処理ユニット１６３０のコンポーネントのいずれか、いくつか、または全てが、頭部装着型フレーム構造１６０２に実装されてもよい。いくつかの実施形態では、処理ユニット１６３０のコンポーネントのいずれか、いくつか、または全てが、ベルトクリップモジュール、頸部装着型モジュール、携帯電話等、頭部装着型フレーム構造１６０２から離れたデバイスに実装されてもよい。

図２２Ｂは、図２２Ａの処理ユニット１６３０の種々のコンポーネントの中への信号フローの実施例を図示する。信号フローは、図２２Ｄに示されるグラフィカル実施例を参照して説明されるであろう。図２２Ｂに示されるように、処理ユニット１６３０は、画像を画像ディスプレイデバイス１６０１のカメラシステムから受信する。画像は、リアルタイム画像または時間遅れを有する画像であってもよい。いくつかの実施形態では、画像は、画像を記憶する、非一過性媒体から受信されてもよい。非一過性媒体は、画像ディスプレイデバイス１６０１、または別の画像ディスプレイデバイス、サーバ、携帯電話、メディアデバイス等の外部デバイスの一部であってもよい。画像は、最初に、処理ユニット１６３０のガンマ補正器１９１２によって処理される。特に、処理ユニット１６３０のガンマ補正器１９１２は、画像内のピクセルに関するピクセル値と輝度との間の非線形関係を調節する。例えば、ガンマ補正器１９１２は、その関係が、線形またはオリジナル未加工画像内のものと比較してより線形であるように、ピクセル値と輝度との間の関係を調節してもよい。画像が、ガンマ補正のために調節された後、ガンマ補正器は、次いで、画像２００２を画像調節器１９１４に通過させる。

画像調節器１９１４は、画像（第１の画像）２００２を第１の解像度で取得し、画像２００２を調節し、第２の画像２００３を第１の解像度より低い第２の解像度で取得するように構成される。例えば、第１の画像２００２は、ＶＧＡ解像度を有してもよく、第２の画像２００３は、ＱＶＧＡ解像度を有してもよい。そのような場合、第２の画像２００３は、第１の画像２００２内のピクセルの数の４分の１を有する。いくつかの実施形態では、第１の画像２００２は、ＶＧＡ解像度と異な解像度を有してもよく、第２の画像２００３は、ＱＶＧＡ解像度と異なる解像度を有してもよい。第２の画像２００３が取得された後、画像調節器１９１４は、次いで、第２の画像２００３をニューラルネットワーク１９１５に通過させる。図２２Ｄの実施例に示されるように、第２の画像２００３は、角を伴うオブジェクトの画像を含む。

図２２Ｂに戻ると、ニューラルネットワーク１９１５は、第２の画像２００３を処理し、第２の画像２００３内の特徴のセットと、個別の特徴の位置とを検出する。例えば、ニューラルネットワーク１９１５は、図１－１４を参照して説明される技法のいずれかを利用して、第２の画像２００３内の特徴のセットと、第２の画像２００３内のその位置とを検出してもよい。図示される実施形態では、ニューラルネットワーク１９１５は、検出された特徴に関する場所のセットを識別する、情報２００４を出力するように構成される。情報２００４は、角検出器１９１６によって、可能性として考えられる角の位置として利用されてもよい。ある場合には、情報２００４は、ヒートマップであってもよい。ヒートマップの実施例は、図２２Ｄに図示される。ヒートマップは、着目特徴を有する、画像内の場所を識別する。ニューラルネットワーク１９１５は、それが有する畳み込み層のため、グローバルコンテキストを使用して、着目特徴を識別することが可能である。故に、ニューラルネットワーク１９１５によって識別される着目特徴は、より関連がある。

本明細書で使用されるように、用語「ニューラルネットワーク」は、いくつかの相互接続された処理要素から成る、任意のコンピューティングデバイス、システム、またはモジュールを指し、これは、入力に対するその動的状態応答によって情報を処理する。いくつかの実施形態では、ニューラルネットワークは、深層学習能力および／または人工知能を有してもよい。いくつかの実施形態では、ニューラルネットワークは、単に、１つ以上のデータセットを使用して訓練され得る、任意のコンピューティング要素であってもよい。非限定的実施例として、ニューラルネットワークは、パーセプトロン、フィードフォワードニューラルネットワーク、動径基底ニューラルネットワーク、深層フィードフォワードニューラルネットワーク、再帰ニューラルネットワーク、長／短期メモリニューラルネットワーク、ゲート付き再帰ユニット、オートエンコーダニューラルネットワーク、変分オートエンコーダニューラルネットワーク、デノイズオートエンコーダニューラルネットワーク、スパースオートエンコーダニューラルネットワーク、マルコフチェーンニューラルネットワーク、ホップフィールドニューラルネットワーク、Ｂｏｌｔｚｍａｎｎ機械、制限Ｂｏｌｔｚｍａｎｎ機械、深層ビリーフネットワーク、畳み込みネットワーク、逆畳み込みネットワーク、深層畳み込み逆グラフィックネットワーク、敵対的生成ネットワーク、液体状態機械、極限学習機械、エコー状態ネットワーク、深層残差ネットワーク、Ｋｏｈｏｎｅｎネットワーク、サポートベクトル機械、ニューラルチューリング機械、モジュール式ニューラルネットワーク、シーケンス／シーケンスモデル等、または前述の任意の組み合わせであってもよい。

図２２Ｂに戻ると、角検出器１９１６は、可能性として考えられる角場所の「ヒント」としてニューラルネットワーク１９１５によって提供される情報２００４を使用して、第２の画像２００３内の角を検出する。故に、角検出器１９１６は、角検出を画像の全体上で実施する必要がない。いくつかの実施形態では、ニューラルネットワーク１９１５によって第２の画像２００３内で識別された特徴の位置毎に、角検出器１９１６は、検出された特徴を含む、第２の画像２００３内の着目領域を決定する。着目領域は、６４ピクセルを有する、８×８個のパッチであってもよい。いくつかの実施形態では、検出された特徴毎の着目領域は、他のパッチサイズを有してもよい。また、いくつかの実施形態では、低減された分解能を伴う第２の画像２００３の代わりに、角検出器１９１６は、オリジナル分解能を伴う第１の画像２００２内の着目領域を決定してもよい。図示される実施形態では、角検出器１９１６は、角検出アルゴリズムを使用して、各パッチ内の角を検出するように構成される。例えば、角検出器１９１６は、Ｈａｒｒｉｓ角検出アルゴリズムまたは他のタイプの角検出技法を使用して、角を検出してもよい。いくつかの実施形態では、パッチは、ニューラルネットワーク１９１５によって識別されてもよい（角検出器１９１６の代わりに）。

いくつかの実施形態では、ニューラルネットワーク１９１５は、スコアをパッチ内のピクセルのそれぞれに割り当てるように構成される。角検出器１９１６は、パッチ内の最大スコアを伴うピクセルを識別し、識別されたピクセルの場所を可能性として考えられる角の場所として使用するように構成されてもよい。

角検出器１９１６が、パッチのそれぞれ内の角を検出後、角検出器１９１６は、次いで、角検出結果２００６を非最大値抑制器１９２２に通過させる。角検出結果２００６は、検出された角のセットの識別子と、その個別の座標とを含んでもよい。いくつかの実施形態では、角検出結果２００６はまた、随意に、個別の検出された角に関するスコアを含んでもよい。スコアは、検出された角の品質、検出された角の信頼度レベル、検出された角の正確度等を示してもよい。

非最大値抑制器１９２２は、重複する識別された角を識別および除去するように構成される。例えば、角検出器１９１６は、相互に近い、２つの角を検出し得る（実際には、それらが、画像内の同一角に関するものであるとき）。故に、非最大値抑制器４２２が、同一角の重複検出が防止されるように、検出された角に関する非最大値抑制を実施するために採用される。いくつかの実施形態では、非最大値抑制器１９２２は、３×３ウィンドウを利用して、３×３ピクセルのグリッド内の重複の検出された角が存在しないことを確実にする。いくつかの実施形態では、非最大値抑制器１９２２は、他のウィンドウサイズを利用して、非最大値抑制を実施してもよい。非最大値抑制器１９２２が、重複の検出された角を除去後、非最大値抑制器１９２２は、次いで、結果２００８を空間ビニングモジュール１９２４に通過させる。いくつかの実施形態では、結果２００８は、角検出器１９１６によって出力された結果２００６のサブセットである。

空間ビニングモジュール１９２４は、画像の異なる領域が検出された角の略均一分布を有するであろうように、画像に関して検出された角のあるものを選択する。空間ビニングモジュール１９２４は、検出された角が画像のある部分内に集中されないことを確実にし、画像のある部分に関してあまりに多くの角が検出することを防止するため、有利である。いくつかの実施形態では、処理ユニット１６３０は、空間ビニングモジュール１９２４を含まなくてもよい。

いくつかの実施形態では、角検出器１９１６による角の検出が、低減された解像度を伴う第２の画像２００３に基づいて実施される場合、空間ビニングモジュール１９２４によって出力された結果２０１０（または処理ユニット１６３０が、非最大値抑制器１９２２および空間ビニングモジュール１９２４を含まない場合、結果２００６）内の検出された角のより正確な位置を取得するために、第１の画像２００２の解像度に基づいて、検出された角の位置を精緻化することが望ましくあり得る。図２２Ｂに示されるように、角位置決定器１９２６は、角検出器１９１６によって提供される出力２０２２に基づいて、（空間ビニングモジュール１９２４／非最大値抑制器１９２２／角検出器１９１６によって出力された）角の位置を精緻化するように構成される。特に、いくつかの実施形態では、第１の解像度を伴う第１の画像２００２もまた、角検出器１９１６によって処理され、角のセットを取得する。いくつかの実施形態では、第１の画像２００２は、Ｈａｒｒｉｓ角検出技法に基づいて、角検出器１９１６によって処理されてもよい。いくつかの実施形態では、角検出器１９１６は、異なる角検出技法を使用して、第１の画像２００２内の角を検出してもよい。角位置決定器１９２６は、出力２０３０のために検出された角の最終位置を決定するために、第１の画像２００２内の検出された角に基づいて、セット内の検出された角の位置（結果２００６／２００８／２０１０）を精緻化するように構成される。いくつかの実施形態では、角位置決定器１９２６は、空間ビニングモジュール１９２４によって出力されたセット内（すなわち、出力２０１０内）の角のそれぞれと最良空間対応を有する、第１の画像２００２に基づいて検出された（出力２０２２内の）角を決定するように構成される。例えば、検出された角の位置を改良するために、（第２の画像２００３に基づく）出力２０１０内の角が、位置（ｘ＝８３，ｙ＝９７）を有する場合、および（第１の画像２００２に基づく）出力２０２２内の角が、角の位置に最も近い、位置（ｘ＝８４，ｙ＝９５）を有する場合、角位置決定器１９２６は、位置（ｘ＝８４，ｙ＝９５）を検出された角のための最終位置として使用するであろう。いくつかの実施形態では、角位置決定器１９２６は、第１の画像２００２の離散領域内の角のみを検査し、出力２０１０内のものと対応する、角を識別するように構成されてもよい。いくつかの実施形態では、角位置決定器１９２６からの出力５３０は、空間ビニングモジュール１９２４／非最大値抑制器１９２２／角検出器１９１６からの検出された角のセットを含むが、識別された角に関する改良された位置を伴う。

いくつかの実施形態では、角検出器１９１６による角の検出、非最大値抑制器１９２２による非最大値抑制、および空間ビニングモジュール１９２４による空間ビニングは全て、低減された解像度を伴う第２の画像２００３に基づいて実施される。本技法は、これらの演算が、有意な算出リソースを伴わずに、非常に迅速に実施されることを可能にするという点で、有利である。第１の画像２００２が、ＶＧＡ解像度を有し、第２の画像２００３が、ＱＶＧＡ解像度を有する、実施例では、処理ユニット１６３０は、角検出器１９１６、非最大値抑制器１９２２、および空間ビニングモジュール１９２４による処理の全３つの段階において、第２の画像２００３内のパッチを使用して、ピクセルの４分の１のみを処理する必要がある（第１の画像２００２内のパッチが使用されるシナリオと比較して）。いくつかの実施形態では、そのような技法は、角特徴が非常に迅速に画像から抽出されることを可能にする。例えば、上記の技法を使用して、角のセット（非最大値抑制および空間ビニングを経た後）は、１０ｍｓ未満、６ｍｓ未満、４ｍｓ未満、または２ｍｓ未満等以内に画像から取得され得る。これは、入力カメラ画像のリアルタイム処理を可能にするため、有利である。

いくつかの実施形態では、角位置決定器１９２６は、他の技法を使用して、（第２の画像から検出された）検出された角の位置を精緻化してもよい。例えば、図２２Ｃに示されるように、いくつかの実施形態では、空間ビニングモジュール１９２４による出力２０１０（例えば、非最大値抑制器１９２２および空間ビニングモジュール１９２４によって第２の画像内の検出された角のサブセットとして選択された角のセットの位置）は、角検出器１９１６に入力されてもよい。角検出器１９１６は、次いで、角検出アルゴリズムを実行し、第２の画像２００３からの角のセットの位置と対応する離散場所において、第１の画像２００２内の角を検出する。いくつかの実装では、角検出器１９１６は、Ｈａｒｒｉｓ角検出アルゴリズムを実行し、第２の画像２００３内のそれらの検出された角に対する位置に対応する、第１の画像２００２内の角のセットを検出してもよい。本技法は、Ｈａｒｒｉｓ角検出が、第１の画像２００２全体上で実施されることを要求されず、第１の画像２００２の離散部分上でのみ実施され、それによって、時間および算出リソースをさらに節約するという点で、有利である。そのような場合、角検出器１９１６は、画像に関する特徴／マップ点としての使用のための精緻化された位置を伴う、角のセットを含む、出力２０３０を提供し得る。

いくつかの実施形態では、処理ユニット１６３０は、非最大値抑制器１９２２および／または空間ビニングモジュール１９２４を含まなくてもよい。そのような場合、角検出器１９１６は、その出力２００６を直接角位置決定器１９２６に提供してもよく、これは、識別された角の位置を決定する。

いくつかの実施形態では、処理ユニット１６３０は、非最大値抑制器１９２２、空間ビニングモジュール１９２４、および角位置決定器１９２６を含まなくてもよい。そのような場合、角検出器１９１６は、識別された角の位置（例えば、情報２０３０）を出力してもよい。

いくつかの実施形態では、低減された分解能を伴う第２の画像２００３の代わりに、角検出器１９１６は、ニューラルネットワーク１９１５によって可能性として考えられる角場所の「ヒント」として提供される情報２００４を使用して、第１の画像２００２（オリジナルのより高い分解能を伴う）内の角を検出するように構成されてもよい。いくつかの実施形態では、ニューラルネットワーク１９１５によって第２の画像２００３内で識別された特徴の位置毎に、角検出器１９１６は、検出された特徴を含む、第１の画像２００２内の対応する位置における着目領域を決定する。着目領域は、オリジナル分解能を伴う６４ピクセルを有する、８×８個のパッチであってもよい。他の実施形態では、検出された特徴毎の着目領域は、他のパッチサイズを有してもよい。例えば、他の実施形態では、パッチは、Ｎ×Ｎ個のパッチであってもよく、Ｎは、１より大きい任意の整数である。さらなる実施形態では、パッチは、１４４ピクセルまたはそれ未満を有してもよく、ピクセルは、正方形形状または非正方形（例えば、矩形）形状に配列される。図示される実施形態では、角検出器１９１６は、角検出アルゴリズムを使用して、第１の画像２００２内の各パッチにおける角を検出するように構成される。例えば、角検出器１９１６は、Ｈａｒｒｉｓ角検出アルゴリズムまたは他のタイプの角検出技法を使用して、角を検出してもよい。角検出器１９１６をオリジナル分解能を伴う第１の画像２００２上で動作させることは、微調節を検出された角の決定された位置に行う必要性（角検出器１９１６が低減された分解能を伴う第２の画像２００３上で動作する場合に要求され得る）を取り除くため、有利である。

いくつかの実施形態では、処理ユニット１６３０は、ガンマ補正器１９１２を含まなくてもよい。そのような場合、画像は、直接、画像調節器１９１４に入力される。

いくつかの実施形態では、処理ユニット１６３０は、画像調節器１９１４を含まなくてもよい。そのような場合、ニューラルネットワーク１９１５および角検出器１９１６は両方とも、オリジナル分解能を伴う画像を使用して、その動作を実施するように構成される。

いくつかの実施形態では、処理ユニット１６３０内のコンポーネントのうちの１つ以上のものは、組み合わせられてもよい。例えば、いくつかの実施形態では、非最大値抑制器１９２２、空間ビニングモジュール１９２４、角位置決定器１９２６、または前述の任意の組み合わせは、角検出器１９１６の一部として実装されてもよい。いくつかの実施形態では、ガンマ補正器１９１２および／または画像調節器１９１４は、ニューラルネットワーク１９１５の一部として実装されてもよい。

いくつかの実施形態では、角の検出は、処理ユニット１６３０によって実施され、画像ディスプレイデバイス１６０１のカメラシステムからのリアルタイム入力画像を処理してもよい。例えば、入力画像は、カメラシステムによって提供されてもよく、処理ユニット１６３０は、角のセットを入力画像から決定してもよい。角のセットは、画像ディスプレイデバイス１６０１のユーザを位置特定するために、対応する特徴と位置特定マップをマッチングさせるための入力画像に関する特徴のセットとして利用されてもよい。

いくつかの実施形態では、角の検出は、位置特定マップを作成するために、処理ユニット１６３０によって実施され、画像ディスプレイデバイス１６０１のカメラシステムからの画像を処理してもよい。例えば、画像のシーケンスが、カメラシステムによって提供されてもよく、処理ユニット１６３０は、角のセットをシーケンス内の画像のそれぞれから決定してもよい。画像は、画像ディスプレイデバイス１６０１のユーザが、画像がユーザの異なる視認方向と対応するような異なる頭部姿勢を有するとき、カメラシステムによって取得されてもよい。処理ユニット１６３０はまた、その角に関する３Ｄマップ点を作成するために、シーケンス内の１つの画像内の角とシーケンスシーケンス内の別の画像内の角をマッチングさせる、ステレオマッチングを実施してもよい。３Ｄマップ点は、次いで、位置特定マップの一部として含まれる。

ハイブリッド技法（すなわち、ニューラルネットワーク＋角検出器）を使用して、角を検出することは、任意のニューラルネットワークを伴わずに、角検出器のみを利用する、技法より有利であることに留意されたい。これは、ハイブリッド技法が、より少ない誤検出を伴って、角検出結果を生産し、「弱」角の抽出を有効にするためである。また、ハイブリッド技法は、弱角を抽出することが可能である（そうでなければ、Ｈａｒｒｉｓ角検出のみを使用しては、検出不可能であり得る）。いくつかの実施形態では、ニューラルネットワークは、角がパッチの内側に存在し得ることのヒントを与え、本システムは、最強応答を使用して、角を検出する。例えば、ＩｍｇＶＧＡパッチが、角を識別することが非常に困難であるが、ニューラルネットワークが、画像のより大きい部分を処理するため、角が存在することを伝え得る（例えば、図２２Ｄにおける「ＶＧＡ検出」参照）、図２２Ｄを参照されたい。ニューラルネットワークは、良好な特徴（例えば、角）であることが予期される、大まかなエリアを出力する。

図２２Ｅは、Ｈａｒｒｉｓ角検出を使用して、ニューラルネットワークの利点を伴わずに取得される、結果の実施例を図示する。図に示されるように、角検出器は、点の多くが誤検出である（すなわち、それらは、角ではない）とき、画像内の多くの点を角として識別する。図２２Ｆに示されるように、ニューラルネットワークによって提供されるヒートマップは、誤検出の多くを排除するためのマスクとして機能してもよい。結果として、ハイブリッド技法は、より正確な画像内の角のセットを識別する。図２２Ｇに示されるように、ハイブリッド技法を使用して画像内で識別された角の数は、図２２Ｅに示されるものと比較して、より少ない。

また、ニューラルネットワーク１９１５を使用して、角検出器１９１６によって「ヒント」として使用するためのヒートマップを提供することは、有利である。ヒートマップは、パッチの分類を提供する、すなわち、着目特徴がパッチ内に存在するかどうかを示す。故に、ニューラルネットワーク１９１５の出力は、角検出問題を単純分類問題（すなわち、「はい」または「いいえ」分類）に変える。分類に基づいて、角検出器１９１６は、次いで、実際、角がパッチ内の場所に存在するかどうかを確認する。

ニューラルネットワークと角検出器を組み合わせるハイブリッド技法もまた、低光量を伴う画像内で角を検出するためにも良好に機能するため、有利である。ニューラルネットワーク１９１５は、グローバルコンテキストを使用して、着目特徴を識別するため、角検出器１９１６が、低光量状況下でも、ニューラルネットワーク１９１５によって提供されるヒートマップを使用して角を識別することを可能にする。

処理ユニットおよび／または処理ユニット内のアプリケーションによって実施される方法

図２４は、いくつかの実施形態による、方法２６００を図示する。方法２６００は、ユーザによって頭部に装着されるために構成される、装置によって実施されてもよく、装置は、ユーザのためにグラフィックを提示するように構成される、画面と、ユーザが位置する環境を視認するように構成される、カメラシステムと、処理ユニットとを有する。いくつかの実施形態では、方法２６００は、図１５－１８に示される画像ディスプレイデバイス１６０１のいずれかによって実施されてもよい。例えば、方法２６００は、画像ディスプレイデバイス１６０１の処理ユニット１６３０によって実施されてもよい。方法２６００は、画像内の特徴の場所を取得するステップであって、特徴の場所は、ニューラルネットワークによって識別される、ステップ（アイテム２６０２）と、画像内の特徴のうちの１つに関する着目領域を決定するステップであって、着目領域は、画像のサイズ未満のサイズを有する、ステップ（アイテム２６０４）と、角検出アルゴリズムを使用して、角検出を実施し、着目領域内の角を識別するステップ（アイテム２６０６）とを含む。

随意に、方法２６００では、着目領域は、ニューラルネットワークによって識別される場所のうちの少なくとも１つに基づいて決定される。

随意に、方法２６００はさらに、画像を生成するステップと、画像をニューラルネットワークに伝送するステップとを含む。

随意に、方法２６００では、ニューラルネットワークは、頭部装着型画像ディスプレイデバイスのモジュール内にある。

随意に、方法２６００では、ニューラルネットワークは、頭部装着型画像ディスプレイデバイスから遠隔の１つ以上のコンピューティングデバイス内に実装される。

随意に、方法２６００では、ニューラルネットワークは、機械学習能力を有する。

随意に、方法２６００では、特徴の場所は、ニューラルネットワークからヒートマップを受信することによって取得され、ヒートマップは、特徴の場所を示す。

随意に、方法２６００では、着目領域は、Ｎ×Ｎ個のパッチを備え、角検出は、Ｎ×Ｎ個のパッチ上で実施され、Ｎは、１より大きい整数である。

随意に、方法２６００では、着目領域は、１４４個のピクセルまたはそれ未満を有する、パッチを備え、角検出は、パッチ上で実施される。

随意に、方法２６００では、着目領域は、８×８個のパッチを備え、角検出は、８×８個のパッチ上で実施される。

随意に、方法２６００では、画像は、第１の分解能を有し、特徴の場所は、第１の分解能未満である第２の分解能を有する、他の画像に基づいて、ニューラルネットワークによって識別される。

随意に、方法２６００では、本方法はさらに、第１の分解能を伴う画像を第２の分解能を伴う他の画像に変換するステップを含む。

随意に、方法２６００では、第１の分解能は、ＶＧＡ分解能を備える。

随意に、方法２６００では、第２の分解能は、ＱＶＧＡ分解能を備える。

随意に、方法２６００では、本方法はさらに、ニューラルネットワークを含む。

随意に、方法２６００では、ニューラルネットワークは、基準データセットを使用して訓練されている。

随意に、方法２６００では、ニューラルネットワークは、畳み込みニューラルネットワークを備える。

随意に、方法２６００では、ニューラルネットワークは、着目点場所および記述子を算出するように構成される。

随意に、方法２６００では、ニューラルネットワークは、入力画像を空間的にダウンサンプリングするように構成される、エンコーダを備える。

随意に、方法２６００では、ニューラルネットワークはまた、エンコーダからのエンコーダ出力に作用し、入力画像内のピクセル毎に、スコアを生産するように構成される、着目点デコーダと、エンコーダ出力に作用し、エンコーダ出力をより高い分解能にアップサンプリングし、入力画像内のピクセル毎に、ベクトルを生産するように構成される、記述子デコーダとを備える。

随意に、方法２６００では、ニューラルネットワークは、着目点検出器の幾何学的一貫性を改良するために、ホモグラフィ適合を使用するように構成される。

随意に、方法２６００では、ニューラルネットワークは、畳み込みニューラルネットワークを備え、着目点検出器は、畳み込みニューラルネットワークを用いて訓練される。

随意に、方法２６００では、ニューラルネットワークは、画像ワーピングを実施し、ホモグラフィ適合内で１つ以上のワーピングされた画像を作成するように構成される。

随意に、方法２６００はさらに、少なくとも部分的に、パッチ内の角の位置に基づいて、画像内の角の位置を決定するステップを含む。

随意に、方法２６００はさらに、画像内の第１の角の位置を非一過性媒体内に記憶するステップを含む。

随意に、方法２６００はさらに、着目領域内のピクセル毎に、スコアを決定するステップを含む。

特殊処理システム

実質的変形例が、具体的要件に従って成され得ることが当業者に明白であろう。例えば、カスタマイズされたハードウェアもまた、使用され得、および／または特定の要素が、ハードウェア、アプレット等のポータブルソフトウェアを含む、ソフトウェア、または両方内に実装され得る。さらに、ネットワーク入／出力デバイス等の他のコンピューティングデバイスへの接続が、採用されてもよい。

図２５は、本明細書に説明される種々の特徴を実装するために使用され得る、特殊処理システム３１００の実施形態を図示する、ブロック図である。例えば、いくつかの実施形態では、処理システム３１００は、画像ディスプレイデバイス３１０１を実装するために使用されてもよい。処理システム３１００は、バス３１０２または情報を通信するための他の通信機構と、情報を処理するためにバス３１０２と結合される、プロセッサ３１０４とを含む。プロセッサシステム３１００はまた、情報およびプロセッサ３１０４によって実行されるべき命令を記憶するためにバス３１０２に結合される、ランダムアクセスメモリ（ＲＡＭ）または他の動的記憶デバイス等のメインメモリ３１０６を含む。メインメモリ３１０６はまた、プロセッサ３１０４によって実行されるべき命令の実行の間、一時的変数または他の中間情報を記憶するために使用されてもよい。プロセッサシステム３１００はさらに、静的情報およびプロセッサ３１０４のための命令を記憶するためにバス３１０２に結合される、読取専用メモリ（ＲＯＭ）３１０８または他の静的記憶デバイスを含む。磁気ディスク、ソリッドステートディスク、または光ディスク等のデータ記憶デバイス３１１０が、提供され、情報および命令を記憶するためにバス３１０２に結合される。

プロセッサシステム３１００は、情報をユーザに表示するために、バス３１０２を介して、画面等のディスプレイ３１１２に結合されてもよい。ある場合には、処理システム３１００が、タッチスクリーンを含む、装置の一部である場合、ディスプレイ３１１２は、タッチスクリーンであってもよい。英数字および他のキーを含む、入力デバイス３１１４が、情報およびコマンド選択をプロセッサ３１０４に通信するために、バス３１０２に結合される。別のタイプのユーザ入力デバイスは、方向情報およびコマンド選択をプロセッサ３１０４に通信するための、かつディスプレイ３１１２上のカーソル移動を制御するための、マウス、トラックボール、またはカーソル方向キー等のカーソル制御３１１６である。本入力デバイスは、典型的には、デバイスが平面内の位置を規定することを可能にする、２つの軸、すなわち、第１の軸（例えば、ｘ）および第２の軸（例えば、ｙ）における２自由度を有する。ある場合には、処理システム３１００が、タッチスクリーンを含む、装置の一部である場合、入力デバイス３１１４およびカーソル制御は、タッチスクリーンであってもよい。別のタイプの使用される入力デバイスは、光学カメラおよび／または深度感知カメラであって、これは、手のジェスチャを検出するように構成される。そのようなユーザ入力デバイスは、ユーザが、任意のものに触れることを要求せず、ユーザによるコマンドが、手のジェスチャに基づいて、解釈されてもよい。

いくつかの実施形態では、プロセッサシステム３１００は、本明細書に説明される種々の機能を実施するために使用されることができる。いくつかの実施形態によると、そのような使用は、プロセッサ３１０４がメインメモリ３１０６内に含有される１つ以上の命令の１つ以上のシーケンスを実行することに応答して、プロセッサシステム３１００によって提供される。当業者は、本明細書に説明される機能および方法に基づいて、そのような命令を準備する方法を把握するであろう。そのような命令は、記憶デバイス３１１０等の別のプロセッサ可読媒体からメインメモリ３１０６の中に読み込まれてもよい。メインメモリ３１０６内に含有される命令のシーケンスの実行は、プロセッサ３１０４に、本明細書に説明されるプロセスステップを実施させる。マルチ処理配列における１つ以上のプロセッサもまた、メインメモリ３１０６内に含有される命令のシーケンスを実行するために採用されてもよい。代替実施形態では、有線回路構成が、ソフトウェア命令の代わりに、またはそれと組み合わせて、本明細書に説明される種々の実施形態を実装するために使用されてもよい。したがって、実施形態は、ハードウェア回路構成とソフトウェアの任意の具体的組み合わせに限定されない。

用語「プロセッサ可読媒体」は、本明細書で使用されるように、命令を実行のためにプロセッサ３１０４に提供することに関わる、任意の媒体を指す。そのような媒体は、限定ではないが、不揮発性媒体、揮発性媒体、および伝送媒体を含む、多くの形態をとってもよい。不揮発性媒体は、例えば、記憶デバイス３１１０等の光学、ソリッドステート、または磁気ディスクを含む。不揮発性媒体は、非一過性媒体の実施例と見なされ得る。揮発性媒体は、メインメモリ３１０６等の動的メモリを含む。揮発性媒体は、非一過性媒体の実施例と見なされ得る。伝送媒体は、バス３１０２を備えるワイヤを含む、同軸ケーブル、銅ワイヤ、および光ファイバを含む。伝送媒体はまた、無線波および赤外線データ通信の間に生成されるもの等の音響または光波の形態をとることができる。

一般的形態のプロセッサ可読媒体は、例えば、フレキシブルディスク、ハードディスク、磁気テープ、または任意の他の磁気媒体、ＣＤ－ＲＯＭ、任意の他の光学媒体、孔のパターンを伴う任意の他の物理的媒体、ＲＡＭ、ＰＲＯＭ、およびＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、ソリッドステートディスク、任意の他のメモリチップまたはカートリッジ、以降に説明されるような搬送波、またはそこからプロセッサが読み取り得る、任意の他の媒体を含む。

種々の形態のプロセッサ可読媒体が、実行のために、１つ以上の命令の１つ以上のシーケンスをプロセッサ３１０４に搬送する際に関わり得る。例えば、命令は、最初に、遠隔コンピュータの磁気ディスクまたはソリッドステートディスク上で搬送され得る。遠隔コンピュータは、命令をその動的メモリの中にロードし、インターネット等のネットワークを経由して、命令を送信することができる。処理システム３１００は、ネットワークラインに関するデータを受信することができる。バス３１０２は、データをメインメモリ３１０６に搬送し、そこから、プロセッサ３１０４は、命令を読み出し、実行する。メインメモリ３１０６によって受信された命令は、随意に、プロセッサ３１０４による実行の前または後のいずれかにおいて、記憶デバイス３１１０上に記憶され得る。

処理システム３１００はまた、バス３１０２に結合される、通信インターフェース３１１８を含む。通信インターフェース３１１８は、ローカルネットワーク３１２２に接続される、ネットワークリンク３１２０への双方向データ通信結合を提供する。例えば、通信インターフェース３１１８は、データ通信接続を互換性があるＬＡＮに提供するためのローカルエリアネットワーク（ＬＡＮ）カードであってもよい。無線リンクもまた、実装されてもよい。任意のそのような実装では、通信インターフェース３１１８は、種々のタイプの情報を表すデータストリームを搬送する、電気、電磁、または光学信号を送信および受信する。

ネットワークリンク３１２０は、典型的には、１つ以上のネットワークを通して、データ通信を他のデバイスに提供する。例えば、ネットワークリンク３１２０は、ローカルネットワーク３１２２を通して、接続をホストコンピュータ３１２４または機器３１２６に提供してもよい。ネットワークリンク３１２０を経由してトランスポートされるデータストリームは、電気、電磁、または光学信号を含むことができる。種々のネットワークを通した信号、およびネットワークリンク３１２０上、および処理システム３１００におよびそこからデータを搬送する、通信インターフェース３１１８を通した信号は、情報をトランスポートする搬送波の例示的形態である。処理システム３１００は、ネットワーク、ネットワークリンク３１２０、および通信インターフェース３１１８を通して、メッセージを送信し、プログラムコードを含む、データを受信することができる。

一側面では、いくつかの実施形態は、処理システム３１００を採用し、本技術の種々の実施形態に従って、方法を実施してもよい。実施形態のあるセットによると、そのような方法のプロシージャのいくつかまたは全ては、処理システム３１０が、オペレーティングシステムの中に組み込まれる、１つ以上の命令の１つ以上のシーケンス、および／または処理システム３１００のメモリ内に含有される、アプリケーションプログラム等の他のコードを実行することに応答して、処理システム３１００によって実施される。そのような命令は、記憶デバイスのうちの１つ以上のもの等の別のコンピュータ可読媒体からメモリの中に読み込まれてもよい。単に、一例として、メモリ内に含有される命令のシーケンスの実行は、処理システム３１００に本明細書に説明される方法の１つ以上のプロシージャを実施させ得る。加えて、または代替として、本明細書に説明される方法の一部は、特殊ハードウェアを通して実行されてもよい。

いくつかの実施形態では、本明細書に説明される方法２６００は、アプリケーションを実行する処理システム３１００によって、またはアプリケーションによって実施されてもよい。アプリケーションは、命令のセットを含有してもよい。また、処理システム３１００は、処理ユニット１６３０の実施例であってもよい。１つの実装では、アプリケーションのための命令のセットを記憶する非一過性媒体を有する、特殊処理システムが、提供されてもよい。画像ディスプレイデバイス１６０１の処理ユニット１６３０による命令の実行は、処理ユニット１６３０に本明細書に説明される特徴を実施させるであろう。

いくつかの実施形態では、画像ディスプレイデバイス１６０１はまた、特殊処理システムと見なされ得る。特に、画像ディスプレイデバイス１６０１は、一意の有形効果を実世界内に提供するための処理ユニット１６３０による実行のためにその非一過性媒体内に記憶される命令を含有するという点で、特殊処理システムである。画像ディスプレイデバイス１６０１によって提供される特徴（処理ユニット１６３０が命令を実行する結果として）は、角検出、位置特定マップ作成、および画像ベースの位置特定の技術分野における改良を提供する。

用語「画像」は、本明細書で使用されるように、表示される画像および／または表示形態ではない画像（例えば、媒体内に記憶されている、または処理中の画像または画像データ）を指し得ることに留意されたい。

加えて、本明細書で使用されるように、用語「装置」は、単一デバイスまたはコンポーネント、または物理的にともに接続される場合とそうではない場合があり、および／または同一地理的領域内に位置する場合とそうではない場合がある、複数のデバイスまたはコンポーネントを指し得る。例えば、相互に無線通信する、２つ以上のデバイスまたはコンポーネントは、集合的に、「装置」と見なされ得る。別の実施例として、装置は、相互に通信する、異なる地理的領域内の２つのデバイスを備えてもよい。さらに、装置は、ソフトウェア、ハードウェア、または両方の組み合わせであってもよい。いくつかの実施形態では、装置は、集積回路（例えば、プロセッサ）等の少なくともいくつかのハードウェアを含む。

さらに、本明細書で使用されるように、用語「処理ユニット」は、ハードウェア、ソフトウェア、または両方の組み合わせを指し得る。非限定的実施例として、処理ユニットは、１つ以上のソフトウェアモジュール、１つ以上のアプリケーション、集積回路（１つ以上のプロセッサ、１つ以上のハードウェアコンポーネント等）、または前述の組み合わせであってもよい。

本開示の例示的側面が、材料選択および製造に関する詳細とともに、上記に記載されている。本開示の他の詳細に関して、これらは、上記で参照された特許および刊行物に関連して理解され、概して、当業者によって公知である、または理解され得る。同じことが、一般または論理的に採用されるような付加的作用の観点から、本開示の方法ベースの側面に関しても当てはまり得る。

加えて、本開示は、随意に、種々の特徴を組み込む、いくつかの実施例を参照して説明されているが、本開示は、開示の各変形例に関して検討されるように説明または図示されるものに限定されるものではない。種々の変更が、説明される本開示に行われてもよく、均等物（本明細書に列挙されるか、またはある程度の簡潔目的のために含まれないかどうかにかかわらず）が、本開示の真の精神および範囲から逸脱することなく代用されてもよい。加えて、値の範囲が提供される場合、その範囲の上限と下限との間の全ての介在値および任意の他の述べられた値または述べられた範囲内の介在値が、本開示内に包含されるものと理解されたい。

また、説明される本発明の変形例の任意の随意の特徴は、独立して、または本明細書に説明される特徴のうちの任意の１つ以上のものと組み合わせて、記載および請求され得ることが検討される。単数形項目の言及は、存在する複数の同一項目が存在する可能性を含む。より具体的には、本明細書および本明細書に関連付けられた請求項で使用されるように、単数形「ａ」、「ａｎ」、「ｓａｉｄ」、および「ｔｈｅ」は、別様に具体的に述べられない限り、複数の言及を含む。さらに、任意の請求項は、任意の随意の要素を除外するように起草され得ることに留意されたい。したがって、本文言は、請求項の要素の列挙と関連する「単に」、「のみ」、および同等物等の排他的専門用語の使用、または「消極的」限定の使用のための先行詞としての役割を果たすことが意図される。

本開示の範疇は、提供される実施例および／または本明細書に限定されるべきではなく、むしろ、本開示と関連付けられる請求項の用語の範囲のみによって限定されるべきである。

前述の明細書では、本開示は、その具体的実施形態を参照して説明された。しかしながら、種々の修正および変更が、本開示のより広義の精神および範囲から逸脱することなく、そこに行われてもよいことが明白であろう。例えば、前述のプロセスフローは、プロセスアクションの特定の順序を参照して説明される。しかしながら、説明されるプロセスアクションの多くの順序は、本開示の範囲または動作に影響を及ぼすことなく、変更されてもよい。明細書および図面は、故に、限定的意味ではなく、例証と見なされるべきである。

Claims

画像着目点検出のためにニューラルネットワークを訓練および使用する方法であって、前記方法は、
複数の基準セットを備える基準データセットを生成することであって、前記複数の基準セットはそれぞれ、
画像と、
前記画像に対応する基準着目点のセットと
を備える、ことと、
前記複数の基準セットの基準セット毎に、
ホモグラフィを前記画像に適用することによって、ワーピングされた画像を生成すること、
前記ホモグラフィを前記基準着目点のセットに適用することによって、ワーピングされた基準着目点のセットを生成すること、
前記ニューラルネットワークが前記画像を入力として受信することによって、計算された着目点のセットおよび計算された記述子を計算すること、
前記ニューラルネットワークが前記ワーピングされた画像を入力として受信することによって、計算されたワーピングされた着目点のセットおよび計算されたワーピングされた記述子を計算すること、
前記計算された着目点のセット、前記計算された記述子、前記計算されたワーピングされた着目点のセット、前記計算されたワーピングされた記述子、前記基準着目点のセット、前記ワーピングされた基準着目点のセット、および前記ホモグラフィに基づいて、損失を計算すること、ならびに
前記損失に基づいて、前記ニューラルネットワークを修正すること
を実行することと
を含み、
前記方法はさらに、入力画像内の特徴の場所を取得することであって、前記特徴の場所は、前記ニューラルネットワークによって識別される、ことと、前記入力画像内の前記特徴のうちの１つに関する着目領域を決定することであって、前記着目領域は、前記入力画像のサイズ未満のサイズを有する、ことと、角検出アルゴリズムを使用して、角検出を実施し、前記着目領域内の角を識別することとを含む、方法。
前記ニューラルネットワークは、着目点検出器サブネットワークおよび記述子サブネットワークを含み、
前記着目点検出器サブネットワークは、前記画像を入力として受信し、前記画像に基づいて、前記計算された着目点のセットを計算するように構成され、
前記記述子サブネットワークは、前記画像を入力として受信し、前記画像に基づいて、前記計算された記述子を計算するように構成される、請求項１に記載の方法。
前記損失に基づいて、前記ニューラルネットワークを修正することは、前記損失に基づいて、前記着目点検出器サブネットワークおよび前記記述子サブネットワークの一方または両方を修正することを含む、請求項１に記載の方法。
前記基準データセットを生成することに先立って、複数の合成画像と、合成着目点の複数のセットとを含む合成データセットを使用して、前記着目点検出器サブネットワークを訓練することをさらに含み、
前記基準データセットを生成することは、前記着目点検出器サブネットワークを使用して、前記基準データセットを生成することを含む、請求項１に記載の方法。
前記基準データセットを生成することは、
前記複数の基準セットの基準セット毎に、
複数の未標識画像を備える未標識データセットから、前記画像を取得することと、
複数のホモグラフィを前記画像に適用することによって、複数のワーピングされた画像を生成することと、
前記ニューラルネットワークが前記複数のワーピングされた画像を入力として受信することによって、複数の計算されたワーピングされた着目点のセットを計算することと、
複数の逆ホモグラフィを前記複数の計算されたワーピングされた着目点のセットに適用することによって、複数の計算された着目点のセットを生成することと、
前記複数の計算された着目点のセットを集約し、前記基準着目点のセットを取得することと
を実行することを含む、請求項１に記載の方法。
前記複数の基準セットはそれぞれ、前記画像に対応する基準記述子をさらに含み、前記基準データセットを生成することは、
前記複数の基準セットの基準セット毎に、
複数の未標識画像を備える未標識データセットから、前記画像を取得することと、
複数のホモグラフィを前記画像に適用することによって、複数のワーピングされた画像を生成することと、
前記ニューラルネットワークが前記複数のワーピングされた画像を入力として受信することによって、複数の計算されたワーピングされた記述子を計算することと、
複数の逆ホモグラフィを前記複数の計算されたワーピングされた記述子に適用することによって、複数の計算された記述子を生成することと、
前記複数の計算された記述子を集約し、前記基準記述子を取得することと
を実行することを含む、請求項１に記載の方法。
前記基準着目点のセットは、前記画像の特定のピクセルが前記特定のピクセルに位置する着目点を有する確率に対応する値を有する２次元マップである、請求項１に記載の方法。
方法であって、前記方法は、
第１の画像を捕捉することと、
第２の画像を捕捉することと、
ニューラルネットワークが前記第１の画像を入力として受信することによって、第１の計算された着目点のセットおよび第１の計算された記述子を計算することと、
前記ニューラルネットワークが前記第２の画像を入力として受信することによって、第２の計算された着目点のセットおよび第２の計算された記述子を計算することと、
前記第１および第２の計算された着目点のセットと、前記第１および第２の計算された記述子とに基づいて、前記第１の画像と前記第２の画像との間のホモグラフィを決定することと
を含み、
前記ニューラルネットワークは、前記第１の計算された着目点のセットおよび前記第２の計算された着目点のセットを計算するように構成される着目点検出器サブネットワークと、前記第１の計算された記述子および前記第２の計算された記述子を計算するように構成される記述子サブネットワークとを含み、
前記方法はさらに、
入力画像内の特徴の場所を取得することであって、前記特徴の場所は、前記ニューラルネットワークによって識別される、ことと、
前記入力画像内の前記特徴のうちの１つに関する着目領域を決定することであって、前記着目領域は、前記入力画像のサイズ未満のサイズを有する、ことと、
角検出アルゴリズムを使用して、角検出を実施し、前記着目領域内の角を識別することと
を含む、方法。
前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第１の計算された記述子を計算するのと並行して、前記第１の計算された着目点のセットを計算するように構成され、
前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第２の計算された記述子を計算するのと並行して、前記第２の計算された着目点のセットを計算するように構成される、請求項８に記載の方法。
複数の基準セットを備える基準データセットを生成することによって、前記ニューラルネットワークを訓練することであって、前記複数の基準セットはそれぞれ、画像と、前記画像に対応する基準着目点のセットとを含む、ことと、
前記複数の基準セットの基準セット毎に、
ホモグラフィを前記画像に適用することによって、ワーピングされた画像を生成すること、
前記ホモグラフィを前記基準着目点のセットに適用することによって、ワーピングされた基準着目点のセットを生成すること、
前記ニューラルネットワークが前記画像を入力として受信することによって、計算された着目点のセットおよび計算された記述子を計算すること、
前記ニューラルネットワークが前記ワーピングされた画像を入力として受信することによって、計算されたワーピングされた着目点のセットおよび計算されたワーピングされた記述子を計算すること、
前記計算された着目点のセット、前記計算された記述子、前記計算されたワーピングされた着目点のセット、前記計算されたワーピングされた記述子、前記基準着目点のセット、前記ワーピングされた基準着目点のセット、および前記ホモグラフィに基づいて、損失を計算すること、ならびに、
前記損失に基づいて、前記ニューラルネットワークを修正すること
を実行することと
をさらに含む、請求項８に記載の方法。
前記損失に基づいて、前記ニューラルネットワークを修正することは、前記損失に基づいて、前記着目点検出器サブネットワークおよび前記記述子サブネットワークの一方または両方を修正することを含む、請求項１０に記載の方法。
前記基準データセットを生成することに先立って、複数の合成画像と、合成着目点の複数のセットとを含む合成データセットを使用して、前記着目点検出器サブネットワークを訓練することをさらに含み、
前記基準データセットを生成することは、前記着目点検出器サブネットワークを使用して、前記基準データセットを生成することを含む、請求項１０に記載の方法。
前記基準データセットを生成することは、
前記複数の基準セットの基準セット毎に、
複数の未標識画像を備える未標識データセットから、前記画像を取得することと、
複数のホモグラフィを前記画像に適用することによって、複数のワーピングされた画像を生成することと、
前記ニューラルネットワークが前記複数のワーピングされた画像を入力として受信することによって、複数の計算されたワーピングされた着目点のセットを計算することと、
複数の逆ホモグラフィを前記複数の計算されたワーピングされた着目点のセットに適用することによって、複数の計算された着目点のセットを生成することと、
前記複数の計算された着目点のセットを集約し、前記基準着目点のセットを取得することと
を実行することを含む、請求項１０に記載の方法。
前記複数の基準セットはそれぞれ、前記画像に対応する基準記述子をさらに含み、前記基準データセットを生成することは、
前記複数の基準セットの基準セット毎に、
複数の未標識画像を備える未標識データセットから、前記画像を取得することと、
複数のホモグラフィを前記画像に適用することによって、複数のワーピングされた画像を生成することと、
前記ニューラルネットワークが前記複数のワーピングされた画像を入力として受信することによって、複数の計算されたワーピングされた記述子を計算することと、
複数の逆ホモグラフィを前記複数の計算されたワーピングされた記述子に適用することによって、複数の計算された記述子を生成することと、
前記複数の計算された記述子を集約し、前記基準記述子を取得することと
を実行することを含む、請求項１０に記載の方法。
光学デバイスであって、前記光学デバイスは、
第１の画像および第２の画像を捕捉するように構成される少なくとも１つのカメラと、
前記カメラに結合された１つ以上のプロセッサと
を備え、
前記１つ以上のプロセッサは、
前記第１の画像および前記第２の画像を前記少なくとも１つのカメラから受信することと、
ニューラルネットワークが前記第１の画像を入力として使用することによって、第１の計算された着目点のセットおよび第１の計算された記述子を計算することと、
前記ニューラルネットワークが前記第２の画像を入力として使用することによって、第２の計算された着目点のセットおよび第２の計算された記述子を計算することと、
前記第１および第２の計算された着目点のセットと、前記第１および第２の計算された記述子とに基づいて、前記第１の画像と前記第２の画像との間のホモグラフィを決定することと
を含む動作を実施するように構成され、
前記ニューラルネットワークは、
前記第１の計算された着目点のセットおよび前記第２の計算された着目点のセットを計算するように構成される着目点検出器サブネットワークと、
前記第１の計算された記述子および前記第２の計算された記述子を計算するように構成される記述子サブネットワークと
を含み、
前記１つ以上のプロセッサは、
入力画像内の特徴の場所を取得することであって、前記特徴の場所は、前記ニューラルネットワークによって識別される、ことと、
前記入力画像内の前記特徴のうちの１つに関する着目領域を決定することであって、前記着目領域は、前記画像のサイズ未満のサイズを有する、ことと、
角検出アルゴリズムを使用して、角検出を実施し、前記着目領域内の角を識別することと
を実行するように構成される、光学デバイス。
前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第１の計算された記述子を計算するのと並行して、前記第１の計算された着目点のセットを計算するように構成され、
前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第２の計算された記述子を計算するのと並行して、前記第２の計算された着目点のセットを計算するように構成される、請求項１５に記載の光学デバイス。
前記ニューラルネットワークは、
複数の基準セットを備える基準データセットを生成することであって、前記複数の基準セットはそれぞれ、画像と、前記画像に対応する基準着目点のセットとを含む、ことと、
前記複数の基準セットの基準セット毎に、
ホモグラフィを前記画像に適用することによって、ワーピングされた画像を生成すること、
前記ホモグラフィを前記基準着目点のセットに適用することによって、ワーピングされた基準着目点のセットを生成すること、
前記ニューラルネットワークが前記画像を入力として受信することによって、計算された着目点のセットおよび計算された記述子を計算すること、
前記ニューラルネットワークが前記ワーピングされた画像を入力として受信することによって、計算されたワーピングされた着目点のセットおよび計算されたワーピングされた記述子を計算すること、
前記計算された着目点のセット、前記計算された記述子、前記計算されたワーピングされた着目点のセット、前記計算されたワーピングされた記述子、前記基準着目点のセット、前記ワーピングされた基準着目点のセット、および前記ホモグラフィに基づいて、損失を計算すること、ならびに
前記損失に基づいて、前記ニューラルネットワークを修正すること
を実行することと
によって、事前に訓練されたものである、請求項１５に記載の光学デバイス。
前記損失に基づいて、前記ニューラルネットワークを修正することは、前記損失に基づいて、前記着目点検出器サブネットワークおよび前記記述子サブネットワークの一方または両方を修正することを含む、請求項１７に記載の光学デバイス。
前記基準データセットを生成することは、
前記複数の基準セットの基準セット毎に、
複数の未標識画像を備える未標識データセットから、前記画像を取得することと、
複数のホモグラフィを前記画像に適用することによって、複数のワーピングされた画像を生成することと、
前記ニューラルネットワークが前記複数のワーピングされた画像を入力として受信することによって、複数の計算されたワーピングされた着目点のセットを計算することと、
複数の逆ホモグラフィを前記複数の計算されたワーピングされた着目点のセットに適用することによって、複数の計算された着目点のセットを生成することと、
前記複数の計算された着目点のセットを集約し、前記基準着目点のセットを取得することと
を実行することを含む、請求項１７に記載の光学デバイス。