JP7403700B2

JP7403700B2 - ホモグラフィ適合を介した完全畳み込み着目点検出および記述

Info

Publication number: JP7403700B2
Application number: JP2023071522A
Authority: JP
Inventors: ラビノビッチアンドリュー; デトンダニエル; ジャンマリシーウィッツトマシュ
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2017-11-14
Filing date: 2023-04-25
Publication date: 2023-12-22
Anticipated expiration: 2038-11-14
Also published as: US20190147341A1; AU2018369757A1; AU2018369757B2; IL274426B1; CN111344716A; JP7270623B2; IL274426B2; KR20200087757A; EP3710981A4; EP3710981A1; IL304881B1; IL304881A; JP2023083561A; IL274426A; US11537894B2; US20210241114A1; JP2021503131A; WO2019099515A1; CN111344716B; IL304881B2

Description

（関連出願の相互参照）
本願は、その全開示が、本明細書に完全に記載されるかのように、あらゆる目的のために、参照することによって本明細書に組み込まれる、２０１７年１１月１４日に出願され、「ＦＵＬＬＹＣＯＮＶＯＬＵＴＩＯＮＡＬＩＮＴＥＲＥＳＴＰＯＩＮＴＤＥＴＥＣＴＩＯＮＡＮＤＤＥＳＣＲＩＰＴＩＯＮＶＩＡＨＯＭＯＧＲＡＰＨＩＣＡＤＡＰＴＡＴＩＯＮ」と題された、米国仮特許出願第６２／５８６，１４９号、および２０１７年１２月２０日に出願され、「ＦＵＬＬＹＣＯＮＶＯＬＵＴＩＯＮＡＬＩＮＴＥＲＥＳＴＰＯＩＮＴＤＥＴＥＣＴＩＯＮＡＮＤＤＥＳＣＲＩＰＴＩＯＮＶＩＡＨＯＭＯＧＲＡＰＨＩＣＡＤＡＰＴＡＴＩＯＮ」と題された、米国仮特許出願第６２／６０８，２４８号の優先権を主張する。

着目点検出は、コンピュータビジョンにおける重要な概念である。姿勢推定、同時位置特定およびマッピング（ＳＬＡＭ）、モーションからの構造解析、疎３次元（３Ｄ）マッピング、カメラ較正、および画像マッチング等の多くの幾何学的コンピュータビジョンタスクにおける最初のステップは、着目点を画像から抽出することである。着目点は、安定し、異なる照明条件および視点から再現可能である、画像内の２次元（２Ｄ）場所である。複数視点幾何学形状として知られる、数学およびコンピュータビジョンのサブフィールド全体は、点が、画像を横断して、確実に抽出およびマッチングされ得るという仮定の上に成り立つ、定理およびアルゴリズムから成る。しかしながら、大部分の実世界コンピュータビジョンへの入力は、理想化された点場所ではなく、代わりに、未加工の未標識画像である。いくつかのアプローチが、そのような画像内の着目点を検出するために開発されているが、限定された成功のみを収めている。

これらの分野において成された進歩にもかかわらず、当該分野では、画像着目点検出に関連する、改良された方法、システム、およびデバイスの必要がある。

本開示は、概して、着目点検出およびマッチングのコンピュータビジョンタスクに関する。より具体的には、本開示の実施形態は、ニューラルネットワークを使用して、画像着目点および記述のためのシステム、デバイス、および方法を提供する。本開示の一部は、拡張現実（ＡＲ）デバイスを参照して説明されるが、本開示は、コンピュータビジョンおよび画像ディスプレイシステムにおける種々の用途に適用可能である。

本発明の第１の側面によると、画像着目点検出および記述のためのニューラルネットワークを訓練する方法が、提供される。本方法は、複数の基準セットを備える、基準データセットを生成するステップであって、複数の基準セットはそれぞれ、画像および画像に対応する、基準着目点のセットとを含む、ステップを含んでもよい。本方法はまた、複数の基準セットの基準セット毎に、ホモグラフィを画像に適用することによって、ワーピングされた画像を生成するステップと、ホモグラフィを基準着目点のセットに適用することによって、基準着目点のワーピングされたセットを生成するステップと、画像を入力として受信する、ニューラルネットワークによって、計算された着目点のセットおよび計算された記述子を計算するステップと、ワーピングされた画像を入力として受信する、ニューラルネットワークによって、計算されたワーピングされた着目点のセットおよび計算されたワーピングされた記述子を計算するステップと、計算された着目点のセット、計算された記述子、計算されたワーピングされた着目点のセット、計算されたワーピングされた記述子、基準着目点のセット、基準着目点のワーピングされたセット、およびホモグラフィに基づいて、損失を計算するステップと、損失に基づいて、ニューラルネットワークを修正するステップとを含んでもよい。

いくつかの実施形態では、ニューラルネットワークは、着目点検出器サブネットワークと、記述子サブネットワークとを含む。いくつかの実施形態では、着目点検出器サブネットワークは、画像を入力として受信し、画像に基づいて、計算された着目点のセットを計算するように構成される。いくつかの実施形態では、記述子サブネットワークは、画像を入力として受信し、画像に基づいて、計算された記述子を計算するように構成される。いくつかの実施形態では、損失に基づいて、ニューラルネットワークを修正するステップは、損失に基づいて、着目点検出器サブネットワークおよび記述子サブネットワークの一方または両方を修正するステップを含む。いくつかの実施形態では、本方法は、基準データセットを生成するステップに先立って、複数の合成画像および合成着目点の複数のセットを含む、合成データセットを使用して、着目点検出器サブネットワークを訓練するステップを含む。いくつかの実施形態では、基準データセットを生成するステップは、着目点検出器サブネットワークを使用して、基準データセットを生成するステップを含む。

いくつかの実施形態では、基準データセットを生成するステップは、複数の基準セットの基準セット毎に、画像を、複数の未標識画像を備える、未標識データセットから取得するステップと、複数のホモグラフィを画像に適用することによって、複数のワーピングされた画像を生成するステップと、複数のワーピングされた画像を入力として受信する、ニューラルネットワークによって、計算されたワーピングされた着目点の複数のセットを計算するステップと、複数の逆数ホモグラフィを計算されたワーピングされた着目点の複数のセットに適用することによって、複数の計算された着目点のセットを生成するステップと、複数の計算された着目点のセットを集約し、基準着目点のセットを取得するステップとを含む。いくつかの実施形態では、複数の基準セットはそれぞれさらに、画像に対応する、基準記述子を含む。いくつかの実施形態では、基準データセットを生成するステップは、複数の基準セットの基準セット毎に、画像を、複数の未標識画像を備える、未標識データセットから取得するステップと、複数のホモグラフィを画像に適用することによって、複数のワーピングされた画像を生成するステップと、複数のワーピングされた画像を入力として受信する、ニューラルネットワークによって、複数の計算されたワーピングされた記述子を計算するステップと、複数の逆数ホモグラフィを複数の計算されたワーピングされた記述子に適用することによって、複数の計算された記述子を生成するステップと、複数の計算された記述子を集約し、基準記述子を取得するステップとを含む。いくつかの実施形態では、基準着目点のセットは、画像の特定のピクセルが特定のピクセルに位置する着目点を有する確率に対応する、値を有する、２次元マップである。いくつかの実施形態では、

本発明の第２の側面によると、ニューラルネットワークを使用して、画像着目点検出および記述を実施する方法が、提供される。本方法は、第１の画像を捕捉するステップを含んでもよい。本方法はまた、第２の画像を捕捉するステップを含んでもよい。本方法はさらに、第１の画像を入力として受信する、ニューラルネットワークによって、第１の計算された着目点のセットおよび第１の計算された記述子を計算するステップを含んでもよい。本方法はさらに、第２の画像を入力として受信する、ニューラルネットワークによって、第２の計算された着目点のセットおよび第２の計算された記述子を計算するステップを含んでもよい。本方法はさらに、第１および第２の計算された着目点のセットと、第１および第２の計算された記述子とに基づいて、第１の画像と第２の画像との間のホモグラフィを決定するステップを含んでもよい。いくつかの実施形態では、ニューラルネットワークは、第１の計算された着目点のセットおよび第２の計算された着目点のセットを計算するように構成される、着目点検出器サブネットワークと、第１の計算された記述子および第２の計算された記述子を計算するように構成される、記述子サブネットワークとを含む。

いくつかの実施形態では、着目点検出器サブネットワークは、記述子サブネットワークが第１の計算された記述子を計算するステップと並行して、第１の計算された着目点のセットを計算するように構成される。いくつかの実施形態では、着目点検出器サブネットワークは、記述子サブネットワークが第２の計算された記述子を計算するステップと並行して、第２の計算された着目点のセットを計算するように構成される。いくつかの実施形態では、本方法はさらに、複数の基準セットを備える、基準データセットを生成することによって、ニューラルネットワークを訓練するステップを含む。いくつかの実施形態では、複数の基準セットはそれぞれ、画像と、画像に対応する、基準着目点のセットとを含む。ニューラルネットワークを訓練するステップはさらに、複数の基準セットの基準セット毎に、ホモグラフィを画像に適用することによって、ワーピングされた画像を生成するステップと、ホモグラフィを基準着目点のセットに適用することによって、基準着目点のワーピングされたセットを生成するステップと、画像を入力として受信する、ニューラルネットワークによって、計算された着目点のセットおよび計算された記述子を計算するステップと、ワーピングされた画像を入力として受信する、ニューラルネットワークによって、計算されたワーピングされた着目点のセットおよび計算されたワーピングされた記述子を計算するステップと、計算された着目点のセット、計算された記述子、計算されたワーピングされた着目点のセット、計算されたワーピングされた記述子、基準着目点のセット、基準着目点のワーピングされたセット、およびホモグラフィに基づいて、損失を計算するステップと、損失に基づいて、ニューラルネットワークを修正するステップとを含んでもよい。

いくつかの実施形態では、損失に基づいて、ニューラルネットワークを修正するステップは、損失に基づいて、着目点検出器サブネットワークおよび記述子サブネットワークの一方または両方を修正するステップを含む。いくつかの実施形態では、本方法はさらに、基準データセットを生成するステップに先立って、複数の合成画像および合成着目点の複数のセットを含む、合成データセットを使用して、着目点検出器サブネットワークを訓練するステップを含む。いくつかの実施形態では、基準データセットを生成するステップは、着目点検出器サブネットワークを使用して、基準データセットを生成するステップを含む。いくつかの実施形態では、基準データセットを生成するステップは、複数の基準セットの基準セット毎に、画像を、複数の未標識画像を備える、未標識データセットから取得するステップと、複数のホモグラフィを画像に適用することによって、複数のワーピングされた画像を生成するステップと、複数のワーピングされた画像を入力として受信する、ニューラルネットワークによって、計算されたワーピングされた着目点の複数のセットを計算するステップと、複数の逆数ホモグラフィを計算されたワーピングされた着目点の複数のセットに適用することによって、複数の計算された着目点のセットを生成するステップと、複数の計算された着目点のセットを集約し、基準着目点のセットを取得するステップとを含む。いくつかの実施形態では、複数の基準セットはそれぞれさらに、画像に対応する、基準記述子を含む。いくつかの実施形態では、基準データセットを生成するステップは、複数の基準セットの基準セット毎に、画像を、複数の未標識画像を備える、未標識データセットから取得するステップと、複数のホモグラフィを画像に適用することによって、複数のワーピングされた画像を生成するステップと、複数のワーピングされた画像を入力として受信する、ニューラルネットワークによって、複数の計算されたワーピングされた記述子を計算するステップと、複数の逆数ホモグラフィを複数の計算されたワーピングされた記述子に適用することによって、複数の計算された記述子を生成するステップと、複数の計算された記述子を集約し、基準記述子を取得するステップとを含む。

本発明の第３の側面によると、光学デバイス（すなわち、光学システム）が、提供される。光学デバイスは、第１の画像および第２の画像を捕捉するように構成される、少なくとも１つのカメラを含んでもよい。光学デバイスはまた、カメラに結合され、動作を実施するように構成される、１つ以上のプロセッサを含んでもよい。動作は、第１の画像および第２の画像を少なくとも１つのカメラから受信するステップを含んでもよい。動作はまた、ニューラルネットワークによって、第１の画像を入力として使用して、第１の計算された着目点のセットおよび第１の計算された記述子を計算するステップを含んでもよい。動作はさらに、ニューラルネットワークによって、第２の画像を入力として使用して、第２の計算された着目点のセットおよび第２の計算された記述子を計算するステップを含んでもよい。動作はさらに、第１および第２の計算された着目点のセットと、第１および第２の計算された記述子とに基づいて、第１の画像と第２の画像との間のホモグラフィを決定するステップを含んでもよい。いくつかの実施形態では、ニューラルネットワークは、第１の計算された着目点のセットおよび第２の計算された着目点のセットを計算するように構成される、着目点検出器サブネットワークと、第１の計算された記述子および第２の計算された記述子を計算するように構成される、記述子サブネットワークとを含む。

いくつかの実施形態では、着目点検出器サブネットワークは、記述子サブネットワークが第１の計算された記述子を計算するステップと並行して、第１の計算された着目点のセットを計算するように構成される。いくつかの実施形態では、着目点検出器サブネットワークは、記述子サブネットワークが第２の計算された記述子を計算するステップと並行して、第２の計算された着目点のセットを計算するように構成される。いくつかの実施形態では、ニューラルネットワークは、複数の基準セットを備える、基準データセットを生成することによって、事前に訓練されており、複数の基準セットはそれぞれ、画像と、画像に対応する、基準着目点のセットとを含む。いくつかの実施形態では、ニューラルネットワークは、複数の基準セットの基準セット毎に、ホモグラフィを画像に適用することによって、ワーピングされた画像を生成するステップと、ホモグラフィを基準着目点のセットに適用することによって、基準着目点のワーピングされたセットを生成するステップと、画像を入力として受信する、ニューラルネットワークによって、計算された着目点のセットおよび計算された記述子を計算するステップと、ワーピングされた画像を入力として受信する、ニューラルネットワークによって、計算されたワーピングされた着目点のセットおよび計算されたワーピングされた記述子を計算するステップと、計算された着目点のセット、計算された記述子、計算されたワーピングされた着目点のセット、計算されたワーピングされた記述子、基準着目点のセット、基準着目点のワーピングされたセット、およびホモグラフィに基づいて、損失を計算するステップと、損失に基づいて、ニューラルネットワークを修正するステップとによって、事前に訓練された。

いくつかの実施形態では、損失に基づいて、ニューラルネットワークを修正するステップは、損失に基づいて、着目点検出器サブネットワークおよび記述子サブネットワークの一方または両方を修正するステップを含む。いくつかの実施形態では、基準データセットを生成するステップは、複数の基準セットの基準セット毎に、画像を、複数の未標識画像を備える、未標識データセットから取得するステップと、複数のホモグラフィを画像に適用することによって、複数のワーピングされた画像を生成するステップと、複数のワーピングされた画像を入力として受信する、ニューラルネットワークによって、計算されたワーピングされた着目点の複数のセットを計算するステップと、複数の逆数ホモグラフィを計算されたワーピングされた着目点の複数のセットに適用することによって、複数の計算された着目点のセットを生成するステップと、複数の計算された着目点のセットを集約し、基準着目点のセットを取得するステップとを含む。いくつかの実施形態では、複数の基準セットはそれぞれさらに、画像に対応する、基準記述子を含む。いくつかの実施形態では、基準データセットを生成するステップは、複数の基準セットの基準セット毎に、画像を、複数の未標識画像を備える、未標識データセットから取得するステップと、複数のホモグラフィを画像に適用することによって、複数のワーピングされた画像を生成するステップと、複数のワーピングされた画像を入力として受信する、ニューラルネットワークによって、複数の計算されたワーピングされた記述子を計算するステップと、複数の逆数ホモグラフィを複数の計算されたワーピングされた記述子に適用することによって、複数の計算された記述子を生成するステップと、複数の計算された記述子を集約し、基準記述子を取得するステップとを含む。

従来の技法に優る多数の利点が、本発明を用いて達成される。例えば、本発明のいくつかの実施形態は、単一またはマルチチャネル２次元（２Ｄ）画像の任意のセット（例えば、インターネットＲＧＢ写真、小型ロボットグレースケールカメラ、水中画像、航空画像、望遠鏡画像、深度センサ画像、赤外線カメラ画像等）に作用する、着目点検出器および記述子を訓練するための自己教師ありフレームワークを提供する。そのような実施形態は、多数の複数視点幾何学形状問題のために好適である。実施形態は、ともに、１つの順方向通過において、ピクセルレベル着目点場所および関連付けられた記述子を算出する、完全サイズの画像に作用する、完全畳み込みモデルを提供する。いくつかの実施形態は、ホモグラフィ適合、すなわち、着目点検出正確度を上昇させ、クロスドメイン適合（例えば、合成から実際のものへの）を実施するためのマルチスケールマルチホモグラフィアプローチとして説明され得る。本発明の実施形態は、ＭＳ－ＣＯＣＯ汎用画像データセット上の訓練実行を用いて証明されるように、従来の角検出器または事前に適合された深層モデルより豊富な着目点を検出する。そのような実施形態は、ＨＰａｔｃｈｅｓデータセット上における着目点再現性を可能にし、点マッチング正確度およびホモグラフィ推定のタスクにおいて、ＯＲＢおよびＳＩＦＴ等の他の従来の記述子よりも優れている。さらに、本発明の実施形態は、明示的幾何学的対応情報を要求しない。本発明の他の利点は、容易に当業者に明白となるであろう。
例えば、本願は以下の項目を提供する。
（項目１）
画像着目点検出および記述のためのニューラルネットワークを訓練する方法であって、前記方法は、
複数の基準セットを備える基準データセットを生成することであって、前記複数の基準セットはそれぞれ、
画像と、
前記画像に対応する基準着目点のセットと
を含む、ことと、
前記複数の基準セットの基準セット毎に、
ホモグラフィを前記画像に適用することによって、ワーピングされた画像を生成することと、
前記ホモグラフィを前記基準着目点のセットに適用することによって、基準着目点のワーピングされたセットを生成することと、
前記画像を入力として受信する前記ニューラルネットワークによって、計算された着目点のセットおよび計算された記述子を計算することと、
前記ワーピングされた画像を入力として受信する前記ニューラルネットワークによって、計算されたワーピングされた着目点のセットおよび計算されたワーピングされた記述子を計算することと、
前記計算された着目点のセット、前記計算された記述子、前記計算されたワーピングされた着目点のセット、前記計算されたワーピングされた記述子、前記基準着目点のセット、前記基準着目点のワーピングされたセット、および前記ホモグラフィに基づいて、損失を計算することと、
前記損失に基づいて、前記ニューラルネットワークを修正することと
を含む、方法。
（項目２）
前記ニューラルネットワークは、着目点検出器サブネットワークと、記述子サブネットワークとを含み、
前記着目点検出器サブネットワークは、前記画像を入力として受信し、前記画像に基づいて、前記計算された着目点のセットを計算するように構成され、
前記記述子サブネットワークは、前記画像を入力として受信し、前記画像に基づいて、前記計算された記述子を計算するように構成される、
項目１に記載の方法。
（項目３）
前記損失に基づいて、前記ニューラルネットワークを修正することは、前記損失に基づいて、前記着目点検出器サブネットワークおよび前記記述子サブネットワークの一方または両方を修正することを含む、項目２に記載の方法。
（項目４）
前記基準データセットを生成することに先立って、複数の合成画像および合成着目点の複数のセットを含む合成データセットを使用して、前記着目点検出器サブネットワークを訓練することをさらに含み、前記基準データセットを生成することは、前記着目点検出器サブネットワークを使用して、前記基準データセットを生成することを含む、項目２に記載の方法。
（項目５）
前記基準データセットを生成することは、
前記複数の基準セットの基準セット毎に、
前記画像を、複数の未標識画像を備える未標識データセットから取得することと、
複数のホモグラフィを前記画像に適用することによって、複数のワーピングされた画像を生成することと、
前記複数のワーピングされた画像を入力として受信する前記ニューラルネットワークによって、計算されたワーピングされた着目点の複数のセットを計算することと、
複数の逆数ホモグラフィを前記計算されたワーピングされた着目点の複数のセットに適用することによって、複数の計算された着目点のセットを生成することと、
前記複数の計算された着目点のセットを集約し、前記基準着目点のセットを取得することと
を含む、項目１に記載の方法。
（項目６）
前記複数の基準セットはそれぞれさらに、前記画像に対応する基準記述子を含み、前記基準データセットを生成することは、
前記複数の基準セットの基準セット毎に、
前記画像を、複数の未標識画像を備える未標識データセットから取得することと、
複数のホモグラフィを前記画像に適用することによって、複数のワーピングされた画像を生成することと、
前記複数のワーピングされた画像を入力として受信する前記ニューラルネットワークによって、複数の計算されたワーピングされた記述子を計算することと、
複数の逆数ホモグラフィを前記複数の計算されたワーピングされた記述子に適用することによって、複数の計算された記述子を生成することと、
前記複数の計算された記述子を集約し、前記基準記述子を取得することと
を含む、項目１に記載の方法。
（項目７）
前記基準着目点のセットは、前記画像の特定のピクセルが前記特定のピクセルに位置する着目点を有する確率に対応する値を有する２次元マップである、項目１に記載の方法。（項目８）
ニューラルネットワークを使用して、画像着目点検出および記述を実施する方法であって、前記方法は、
第１の画像を捕捉することと、
第２の画像を捕捉することと、
前記第１の画像を入力として受信する前記ニューラルネットワークによって、第１の計算された着目点のセットおよび第１の計算された記述子を計算することと、
前記第２の画像を入力として受信する前記ニューラルネットワークによって、第２の計算された着目点のセットおよび第２の計算された記述子を計算することと、
前記第１および第２の計算された着目点のセットと、前記第１および第２の計算された記述子とに基づいて、前記第１の画像と前記第２の画像との間のホモグラフィを決定することと
を含み、前記ニューラルネットワークは、
前記第１の計算された着目点のセットおよび前記第２の計算された着目点のセットを計算するように構成される着目点検出器サブネットワークと、
前記第１の計算された記述子および前記第２の計算された記述子を計算するように構成される記述子サブネットワークと
を含む、方法。
（項目９）
前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第１の計算された記述子を計算することと並行して、前記第１の計算された着目点のセットを計算するように構成され、
前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第２の計算された記述子を計算することと並行して、前記第２の計算された着目点のセットを計算するように構成される、
項目８に記載の方法。
（項目１０）
前記ニューラルネットワークを訓練することをさらに含み、前記ニューラルネットワークを訓練することは、
複数の基準セットを備える基準データセットを生成することであって、前記複数の基準セットはそれぞれ、
画像と、
前記画像に対応する基準着目点のセットと
を含む、ことと、
前記複数の基準セットの基準セット毎に、
ホモグラフィを前記画像に適用することによって、ワーピングされた画像を生成することと、
前記ホモグラフィを前記基準着目点のセットに適用することによって、基準着目点のワーピングされたセットを生成することと、
前記画像を入力として受信する前記ニューラルネットワークによって、計算された着目点のセットおよび計算された記述子を計算することと、
前記ワーピングされた画像を入力として受信する前記ニューラルネットワークによって、計算されたワーピングされた着目点のセットおよび計算されたワーピングされた記述子を計算することと、
前記計算された着目点のセット、前記計算された記述子、前記計算されたワーピングされた着目点のセット、前記計算されたワーピングされた記述子、前記基準着目点のセット、前記基準着目点のワーピングされたセット、および前記ホモグラフィに基づいて、損失を計算することと、
前記損失に基づいて、前記ニューラルネットワークを修正することと
によって行われる、項目８に記載の方法。
（項目１１）
前記損失に基づいて、前記ニューラルネットワークを修正することは、前記損失に基づいて、前記着目点検出器サブネットワークおよび前記記述子サブネットワークの一方または両方を修正することを含む、項目１０に記載の方法。
（項目１２）
前記基準データセットを生成することに先立って、複数の合成画像および合成着目点の複数のセットを含む合成データセットを使用して、前記着目点検出器サブネットワークを訓練することをさらに含み、前記基準データセットを生成することは、前記着目点検出器サブネットワークを使用して、前記基準データセットを生成することを含む、項目１０に記載の方法。
（項目１３）
前記基準データセットを生成することは、
前記複数の基準セットの基準セット毎に、
前記画像を、複数の未標識画像を備える未標識データセットから取得することと、
複数のホモグラフィを前記画像に適用することによって、複数のワーピングされた画像を生成することと、
前記複数のワーピングされた画像を入力として受信する前記ニューラルネットワークによって、計算されたワーピングされた着目点の複数のセットを計算することと、
複数の逆数ホモグラフィを前記計算されたワーピングされた着目点の複数のセットに適用することによって、複数の計算された着目点のセットを生成することと、
前記複数の計算された着目点のセットを集約し、前記基準着目点のセットを取得することと
を含む、項目１０に記載の方法。
（項目１４）
前記複数の基準セットはそれぞれさらに、前記画像に対応する基準記述子を含み、前記基準データセットを生成することは、
前記複数の基準セットの基準セット毎に、
前記画像を、複数の未標識画像を備える未標識データセットから取得することと、
複数のホモグラフィを前記画像に適用することによって、複数のワーピングされた画像を生成することと、
前記複数のワーピングされた画像を入力として受信する前記ニューラルネットワークによって、複数の計算されたワーピングされた記述子を計算することと、
複数の逆数ホモグラフィを前記複数の計算されたワーピングされた記述子に適用することによって、複数の計算された記述子を生成することと、
前記複数の計算された記述子を集約し、前記基準記述子を取得することと
を含む、項目１０に記載の方法。
（項目１５）
光学デバイスであって、
第１の画像および第２の画像を捕捉するように構成される少なくとも１つのカメラと、
前記カメラに結合された１つ以上のプロセッサであって、前記１つ以上のプロセッサは、
前記第１の画像および前記第２の画像を前記少なくとも１つのカメラから受信することと、
ニューラルネットワークによって、前記第１の画像を入力として使用して、第１の計算された着目点のセットおよび第１の計算された記述子を計算することと、
前記ニューラルネットワークによって、前記第２の画像を入力として使用して、第２の計算された着目点のセットおよび第２の計算された記述子を計算することと、
前記第１および第２の計算された着目点のセットと、前記第１および第２の計算された記述子とに基づいて、前記第１の画像と前記第２の画像との間のホモグラフィを決定することと、
を含む動作を実施するように構成される、１つ以上のプロセッサと
を備え、
前記ニューラルネットワークは、
前記第１の計算された着目点のセットおよび前記第２の計算された着目点のセットを計算するように構成される着目点検出器サブネットワークと、
前記第１の計算された記述子および前記第２の計算された記述子を計算するように構成される記述子サブネットワークと
を含む、光学デバイス。
（項目１６）
前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第１の計算された記述子を計算することと並行して、前記第１の計算された着目点のセットを計算するように構成され、
前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第２の計算された記述子を計算することと並行して、前記第２の計算された着目点のセットを計算するように構成される、
項目１５に記載の光学デバイス。
（項目１７）
前記ニューラルネットワークは、事前に訓練され、前記事前の訓練は、
複数の基準セットを備える基準データセットを生成することであって、前記複数の基準セットはそれぞれ、
画像と、
前記画像に対応する基準着目点のセットと
を含む、ことと、
前記複数の基準セットの基準セット毎に、
ホモグラフィを前記画像に適用することによって、ワーピングされた画像を生成することと、
前記ホモグラフィを前記基準着目点のセットに適用することによって、基準着目点のワーピングされたセットを生成することと、
前記画像を入力として受信する前記ニューラルネットワークによって、計算された着目点のセットおよび計算された記述子を計算することと、
前記ワーピングされた画像を入力として受信する前記ニューラルネットワークによって、計算されたワーピングされた着目点のセットおよび計算されたワーピングされた記述子を計算することと、
前記計算された着目点のセット、前記計算された記述子、前記計算されたワーピングされた着目点のセット、前記計算されたワーピングされた記述子、前記基準着目点のセット、前記基準着目点のワーピングされたセット、および前記ホモグラフィに基づいて、損失を計算することと、
前記損失に基づいて、前記ニューラルネットワークを修正することと
によって行われる、項目１５に記載の光学デバイス。
（項目１８）
前記損失に基づいて、前記ニューラルネットワークを修正することは、前記損失に基づいて、前記着目点検出器サブネットワークおよび前記記述子サブネットワークの一方または両方を修正することを含む、項目１７に記載の光学デバイス。
（項目１９）
前記基準データセットを生成することは、
前記複数の基準セットの基準セット毎に、
前記画像を、複数の未標識画像を備える未標識データセットから取得することと、
複数のホモグラフィを前記画像に適用することによって、複数のワーピングされた画像を生成することと、
前記複数のワーピングされた画像を入力として受信する前記ニューラルネットワークによって、計算されたワーピングされた着目点の複数のセットを計算することと、
複数の逆数ホモグラフィを前記計算されたワーピングされた着目点の複数のセットに適用することによって、複数の計算された着目点のセットを生成することと、
前記複数の計算された着目点のセットを集約し、前記基準着目点のセットを取得することと
を含む、項目１７に記載の光学デバイス。
（項目２０）
前記複数の基準セットはそれぞれさらに、前記画像に対応する基準記述子を含み、前記基準データセットを生成することは、
前記複数の基準セットの基準セット毎に、
前記画像を、複数の未標識画像を備える未標識データセットから取得することと、
複数のホモグラフィを前記画像に適用することによって、複数のワーピングされた画像を生成することと、
前記複数のワーピングされた画像を入力として受信する前記ニューラルネットワークによって、複数の計算されたワーピングされた記述子を計算することと、
複数の逆数ホモグラフィを前記複数の計算されたワーピングされた記述子に適用することによって、複数の計算された記述子を生成することと、
前記複数の計算された記述子を集約し、前記基準記述子を取得することと
を含む、項目１７に記載の光学デバイス。

図１は、本発明のいくつかの実施形態による、ニューラルネットワークを使用した、一対の入力画像の着目点間の点対応の決定を図示する。

図２は、本発明のいくつかの実施形態による、ニューラルネットワークの一般的アーキテクチャを図示する。

図３は、着目点検出器サブネットワークが、複数の合成画像を備える、合成データセットを使用して訓練される、本発明による、第１の訓練ステップを図示する。

図４は、基準データセットが、ホモグラフィ適合を使用してコンパイルされる、本発明による、第２の訓練ステップを図示する。

図５は、ニューラルネットワークが、基準データセットを使用して訓練される、本発明による、第３の訓練ステップを図示する。

図６は、本発明のいくつかの実施形態による、ニューラルネットワークを使用した、２つの捕捉された画像間のホモグラフィの計算を図示する。

図７は、本発明のいくつかの実施形態による、合成データセットの実施例を図示する。

図８は、本発明のいくつかの実施形態による、未標識データセットの実施例を図示する。

図９は、本発明のいくつかの実施形態による、ニューラルネットワークの例示的アーキテクチャを図示する。

図１０は、本発明のいくつかの実施形態による、第２の訓練ステップの間に採用される、ホモグラフィ適合の種々のステップを図示する。

図１１は、本発明のいくつかの実施形態による、ランダムホモグラフィ生成のある側面を図示する。

図１２は、本明細書に説明される実施形態を利用し得る、ＡＲデバイスの概略図を図示する。

図１３は、本発明のいくつかの実施形態による、ニューラルネットワークを訓練し、ニューラルネットワークを使用して、画像着目点検出および記述を実施する方法を図示する。

図１４は、本発明のいくつかの実施形態による、画像着目点検出および記述のためのニューラルネットワークを訓練する方法を図示する。

図１５は、本明細書に説明されるいくつかの実施形態による、簡略化されたコンピュータシステムを図示する。

畳み込みニューラルネットワークは、画像を入力として要求するほぼ全てのタスクにおいて、手動で作り出された表現より優れていることが示されている。特に、２次元（２Ｄ）「特徴点」または「目印」を予測する、完全畳み込みニューラルネットワークは、人間の姿勢推定、オブジェクト検出、および部屋レイアウト推定等の種々のタスクに関して、広く研究されている。これらの技法のうちのいくつかは、人間の注釈を伴って標識される、２Ｄグラウンドトゥルース場所の大量データセットを利用する。着目点検出を大規模教師あり機械学習問題と同様に公式化し、それらを検出するように最新畳み込みニューラルネットワークアーキテクチャを訓練することは、自然であると考えられる。残念ながら、ネットワークが、口角または左足首等の意味論的身体部分を検出するように訓練される、人間の身体特徴点推定等のより多くの意味論タスクと比較して、着目点検出の概念は、意味論的に明確に定義されていない。本難点は、畳み込みニューラルネットワークを着目点の強教師あり学習を用いて訓練することを簡単でないものにする。

人間の教師あり学習を使用して、実画像内の着目点を定義する代わりに、本発明の実施形態は、自己訓練を使用した自己教師ありソリューションをもたらす。本明細書に説明される実施形態のアプローチでは、実画像内の擬似グラウンドトゥルース着目点場所の大量データセットが、作成され、人間の知識ではなく、着目点検出器自体によって教師あり学習される。擬似グラウンドトゥルース着目点を生成するために、完全畳み込みニューラルネットワークは、最初に、合成画像データセットからの数百万例のユニークな実施例において訓練される。特徴抽出は、画像シーケンスにおける画像マッチングおよび追跡のための基本ステップであるため、明確に異なる点の検出および精密な位置特定が重要であり得ることが、認められた。これらの明確に異なる点は、角、縁（多面体の分析のための基本要素）、および孔、ディスク、またはリング等の円形特徴の中心として特性評価された。合流点（Ｙ、Ｘ、Ｔ、Ｌ）もまた、そのような明確に異なる点を検出するために重要と見なされた。例えば、Ｔ－合流点は、一般的に、介在、故に、深度途絶を示す。

これらの洞察を取り入れると、着目点検出器の大規模訓練のための合成形状の大量データセットは、着目点場所に曖昧性が存在しない、単純幾何学的形状から成るように作成され得る。本明細書に説明されるような着目点検出器は、合成形状のデータセットにおいて、従来の着目点検出器より有意に優れていることが示された。実画像に適用されると、着目点検出器は、ドメイン適合が合成画像において訓練するときの既知の問題であることを考慮して、優れた性能を発揮する。しかしながら、古典的着目点検出器と比較して、画像テクスチャおよびパターンの多様なセットでは、着目点検出器の性能は、それほど一貫しない。着目点検出器と古典的検出器との間の実世界画像における性能における溝を埋めるために、本発明の実施形態（代替として、本明細書では、ホモグラフィ適合と称される）は、マルチスケールマルチ変換を可能にする。

ホモグラフィ適合は、着目点検出器の自己教師あり訓練を可能にする。いくつかの実施形態では、着目点検出器が、多くの異なる視点およびスケールからの場面を確認することに役立てるために、複数回、入力画像をワーピングさせる。擬似グラウンドトゥルース着目点を生成し、検出器の性能を上昇させるために、着目点検出器と併用されると、結果として生じる検出は、より再現可能である。ロバストかつ再現可能着目点を検出した後の１つのステップは、固定された次元記述子ベクトルを各点（または全ての画像ピクセル）に結び付けることであって、これは、画像を横断して着目点をマッチングさせるために使用され得る。したがって、本発明のいくつかの実施形態では、着目点検出器サブネットワークは、記述子サブネットワークと組み合わせられてもよい。結果として生じるネットワークは、図１に示されるように、点を一対の画像から抽出し、点対応を確立するために使用されることができる。

自己教師ありアプローチを含む、本発明の実施形態によると、初期着目点検出器およびホモグラフィ適合プロシージャは、標的未標識ドメインからの画像を自動的に標識する。生成された標識は、ひいては、ともに、点および記述子を画像から抽出する、完全畳み込みネットワークを訓練するために使用される。完全畳み込みネットワークは、広範囲の用途、特に、２つの画像間のホモグラフィを算出する等の画像／画像幾何学形状タスクを伴うものにおいて使用されることができる。ホモグラフィは、カメラ中心の周囲の回転のみを伴うカメラ運動、オブジェクトまでの大距離を伴う場面、および平面場面に関する正確またはほぼ正確な画像間変換を与える。世界の大部分は、合理的に平面であるため、ホモグラフィは、同一３次元（３Ｄ）点が異なる視点から見られるときに発生するものに関する良好なモデルである。ホモグラフィは、３Ｄ情報を要求しないため、それらは、ランダムにサンプリングされ、双線形補間と大差なく、任意の２Ｄ画像に容易に適用されることができる。これらの理由から、ホモグラフィは、本発明のいくつかの実施形態において利用される。

図１は、本発明のいくつかの実施形態による、ニューラルネットワーク１００を使用した、一対の入力画像１０２の着目点間の点対応１０６の決定を図示する。具体的には、図１は、点対応を利用する単一順方向通過において、スケール不変量特徴量変換（ＳＩＦＴ）様２Ｄ着目点場所および記述子を算出する、完全畳み込みニューラルネットワークである、ニューラルネットワーク１００の２つのインスタンス化（すなわち、ニューラルネットワーク１００－１、１００－２）を示す。入力画像１０２－１、１０２－２を入力として受信すると、ニューラルネットワーク１００－１、１００－２は、それぞれ、入力画像１０２－１、１０２－２に基づいて、計算された着目点のセット１０８－１、１０８－２および計算された記述子１１０－１、１１０－２を計算する。点対応１０６は、次いで、着目点のそれぞれと関連付けられた記述子によって情報を与えられる、計算された着目点１０８－１、１０８－２間の比較によって決定される。例えば、異なる着目点と関連付けられた記述子が、マッチングされてもよい。最も類似する記述子を有する異なる画像に対応する、着目点が、いくつかの可能性として考えられる類似性スコア化プロシージャのうちの１つに従って、相互に対応すると決定されてもよい。

一実施例によると、入力画像１０２－１に対応する第１の着目点は、第１の着目点に対する５つの最も近い着目点（ピクセル間ピクセル距離に従って）の中から、５つの最も近い着目点と関連付けられた記述子と比較して、第２の着目点と関連付けられた記述子が、第１の着目点と関連付けられた記述子に最も類似する（例えば、Ｌ２距離を使用することによって決定される）ことを決定することによって、入力画像１０２－２に対応する第２の着目点に対応すると決定されてもよい。別の実施例によると、入力画像１０２－１に対応する第１の着目点は、入力画像１０２－２に対応する全ての着目点の中から、第２の着目点と関連付けられた記述子が、入力画像１０２－２に対応する全ての着目点と関連付けられた記述子と比較して、第１の着目点と関連付けられた記述子に最も類似することを決定することによって、入力画像１０２－２に対応する第２の着目点に対応すると決定されてもよい。

図２は、本発明のいくつかの実施形態による、ニューラルネットワーク１００の一般的アーキテクチャを図示する。ニューラルネットワーク１００は、着目点検出器サブネットワーク１１２と、記述子サブネットワーク１１４とを含んでもよく、２つのサブネットワークはそれぞれ、単一サブネットワーク入力１２０－１、１２０－２（それぞれ）と、単一サブネットワーク出力１２２－１、１２２－２（それぞれ）とを有する。２つのサブネットワークは、別個に図示されるが、それらは、図９を参照して説明されるように、１つ以上の畳み込み層および／またはニューロンを共有してもよい。いくつかの実施形態では、ニューラルネットワーク１００は、入力画像１０２を入力として受信するように構成される、ネットワーク入力１１６を含んでもよい。入力画像１０２は、次いで、サブネットワーク入力１２０－１、１２０－２にフィードされてもよい。サブネットワーク入力１２０－１における入力画像１０２の受信に応じて、着目点検出器サブネットワーク１１２は、着目点１０８を計算し、計算された着目点１０８をサブネットワーク出力１２２－１において出力してもよく、これは、次いで、ネットワーク出力１１８－１の中にフィードされる。サブネットワーク入力１２０－２における入力画像１０２の受信に応じて、記述子サブネットワーク１１４は、記述子１１０を計算し、計算された記述子１１０をサブネットワーク出力１２２－２において出力してもよく、これは、次いで、ネットワーク出力１１８－２の中にフィードされる。故に、サブネットワーク１１２、１１４は、同一入力に基づいて、異なる出力を提供し、ニューラルネットワーク１００の異なる分岐を表すことができる。

ニューラルネットワーク１００は、完全サイズの画像に作用してもよく、単一順方向通過において、固定長記述子を伴う着目点検出を生産してもよい。いくつかの実施形態では、入力画像１０２は、Ｈ×Ｗの寸法を有してもよく、Ｈは、ピクセル単位における入力画像１０２の高さであって、Ｗは、ピクセル単位における入力画像１０２の幅である。同一実施形態では、計算された着目点１０８は、着目点ピクセル場所のリスト（例えば、座標対のリスト）であってもよい、または加えて、または代替として、計算された着目点１０８は、Ｈ×Ｗの寸法を有する、２Ｄマップであってもよく、各ピクセルは、入力（すなわち、入力画像１０２）内のそのピクセルに関する確率「点」に対応する。同一実施形態では、計算された記述子１１０は、それぞれ、識別された着目点に対応する、固定長記述子のセットであってもよい、または加えて、または代替として、計算された記述子１１０は、Ｈ×Ｗ×Ｄの寸法を有してもよく、Ｄは、Ｈ×Ｗ画像の各ピクセルにおいて計算された記述子の長さである。故に、着目点を含有する低確率を有する、ピクセルさえ、長さＤの記述子を有する。

ニューラルネットワーク１００の訓練は、ネットワークモディファイア１２６および／またはサブネットワークモディファイア１２４－１、１２４－２によって可能にされてもよく、これは、訓練フェーズの間、誤差信号、損失信号、および／または補正信号を受信し、ネットワークの層および／またはニューロンを修正させてもよい。ニューラルネットワーク１００は、ネットワーク出力（計算された着目点１０８および計算された記述子１１０）とグラウンドトゥルースデータとの間の誤差が、同一入力画像１０２または異なる画像を用いた後続実行の間、低減され得るように、修正されてもよい。例えば、ニューラルネットワーク１００は、出力とグラウンドトゥルースとの間の差異を示す、誤差信号／値に基づいて、最小限にされるべきある数量を示す、損失信号／値に基づいて、および／またはニューラルネットワーク１００に対して行われるべき具体的修正を示す、補正信号に基づいて、修正されてもよい。ニューラルネットワーク１００を修正するステップは、着目点検出器サブネットワーク１１２のみを修正するステップ、記述子サブネットワーク１１４のみを修正するステップ、および／またはサブネットワーク１１２、１１４の両方を修正するステップを含んでもよい。

図３は、着目点検出器サブネットワーク１１２が、複数の合成画像を備える、合成データセット１２８を使用して訓練される、本発明による、第１の訓練ステップを図示する。図３に図示される訓練ステップは、着目点検出器サブネットワーク１１２のみを含んでもよく、記述子サブネットワーク１１４を無視してもよい。着目点が標識された画像の既存の大量のデータベースが存在しないため、深層着目点検出器は、四辺形、三角形、線、および楕円形の合成データレンダリングを介した、簡略化された２Ｄ幾何学形状から成る、大規模合成データセットの作成から利点を享受する。これらの形状の実施例は、図７を参照して示される。本データセットでは、標識曖昧性は、単純Ｙ－合流点、Ｌ－合流点、Ｔ－合流点および小楕円形の中心および線分の終点を用いて、着目点をモデル化することによって除去されることができる。

いったん合成画像が、レンダリングされると、ホモグラフィワーピングが、各画像に適用され、訓練実施例の数を増大させる。データは、リアルタイムで生成されてもよく、実施例は、２回、ネットワークによって確認されなくてもよい。単一訓練反復の間、合成画像１３０が、着目点検出器サブネットワーク１１２に提供され、これは、計算された着目点１０８のセットを計算する。合成画像１３０に対応する合成着目点１３２のセットは、計算された着目点１０８と比較され、損失１３４が、比較に基づいて計算される。着目点検出器サブネットワーク１１２は、次いで、損失１３４に基づいて、修正される。複数の訓練反復が、損失１３４が所定の閾値を下回る、および／または合成データセット１２８が包括的に使用される等の１つ以上の条件が満たされるまで、実施される。

ＦＡＳＴ、Ｈａｒｒｉｓ角、およびＳｈｉ－Ｔｏｍａｓｉの「ＧｏｏｄＦｅａｔｕｒｅｓＴｏＴｒａｃｋ」等の他の従来の角検出アプローチと比較して、着目点検出器サブネットワーク１１２は、合成データセット１２８において、より優れた結果を生産する。着目点検出器サブネットワークのさらなる評価は、人間がグラウンドトゥルース角場所を用いて容易に標識し得る、単純合成幾何学形状の使用から構成された。１つの性能評価では、着目点検出器サブネットワーク１１２の２つの異なるモデルが、使用された。両モデルは、同一エンコーダアーキテクチャを共有するが、層あたりニューロンの数が異なり、第１のモデルは、層あたり６４－６４－６４－６４－１２８－１２８－１２８－１２８－１２８個のニューロンを有し、第２のモデルは、層あたり９－９－１６－１６－３２－３２－３２－３２－３２個のニューロンを有した。各検出器は、合成データセット１２８を伴う、評価データセットを与えられ、それらが単純角を位置特定した正確度を決定した。評価は、着目点検出器サブネットワーク１１２が、全てのカテゴリにおいて、古典的検出器より優れており、古典的検出器が、特に、ランダム入力に関して難点を有することを実証した。

図４は、基準データセット１４４が、ホモグラフィ適合を使用してコンパイルされる、本発明による、第２の訓練ステップを図示する。基準データセット１４４は、例えば、実世界画像を備える、未標識データセット１３６から得られた画像、および基準着目点および基準記述子を含む、擬似グラウンドトゥルースデータセットを表す。入力画像１０２は、未標識データセット１３６から得られ、ニューラルネットワーク１００に提供され、これは、入力画像１０２に基づいて、計算された着目点１０８のセットと、計算された記述子１１０とを計算する。データは、基準データセット１４４内に、基準セット１４２として記憶されてもよく、各基準セット１４２は、入力画像１０２と、入力画像１０２に対応する計算された着目点１０８と、入力画像１０２に対応する計算された記述子１１０とを含む。

単一訓練反復の間、ホモグラフィ適合が、入力画像１０２の多数のホモグラフィワーピングを横断して平均応答を使用するために採用されてもよい。ホモグラフィ生成器１３８は、画像をニューラルネットワーク１００を通して通過させることに先立って、複数のランダムまたは擬似ランダムホモグラフィを入力画像１０２に適用するために使用されてもよい。ニューラルネットワーク１００の他側では、逆数ホモグラフィ生成器１４０が、複数の逆数ホモグラフィを計算された着目点１０８に適用するために使用されてもよく、複数の逆数ホモグラフィは、計算された着目点１０８をワーピング解除するような複数のホモグラフィの逆数である。プロセスは、同一入力画像１０２に関して繰り返され、複数のワーピング解除された計算された着目点を取得してもよい。複数のワーピング解除された計算された着目点は、集約され／組み合わせられ、基準データセット１４４内に、入力画像１０２および基準記述子とともに、基準セット１４２の一部として記憶される、基準着目点のセットを取得してもよい。

加えて、または代替として、ホモグラフィ適合は、ニューラルネットワーク１００によって出力された記述子を改良するために採用されてもよい。例えば、単一訓練反復の間、ホモグラフィ生成器１３８は、画像をニューラルネットワーク１００を通して通過させることに先立って、複数のランダムまたは擬似ランダムホモグラフィを入力画像１０２に適用するために使用されてもよい。ニューラルネットワーク１００の他側では、逆数ホモグラフィ生成器１４０が、複数の逆数ホモグラフィを計算された記述子１１０に適用するために使用されてもよく、複数の逆数ホモグラフィは、計算された記述子１１０をワーピング解除するような複数のホモグラフィの逆数である。プロセスは、同一入力画像１０２に関して繰り返され、複数のワーピング解除された計算された記述子を取得してもよい。複数のワーピング解除された計算された記述子は、集約され／組み合わせられ、基準データセット１４４内に、入力画像１０２および基準着目点のセットとともに、基準セット１４２の一部として記憶される、基準記述子を取得してもよい。

ホモグラフィワーピングＮ_ｈの数は、本アプローチのハイパーパラメータである。いくつかの実施形態では、第１のホモグラフィは、Ｎ_ｈ＝１（無適合を意味する）であるように、恒等関数と等しくなるように設定される。試験では、Ｎ_ｈの範囲は、好ましい値を試し、決定するように変動され、Ｎ_ｈは、いくつかの実施形態では、小値（Ｎ_ｈ＝１０）から、中値（Ｎ_ｈ＝１００）、高値（Ｎ_ｈ＝１０００）まで実行された。結果は、１００を上回るホモグラフィを実施するとき、収穫逓減が存在することを示唆する。ＭＳ－ＣＯＣＯからの画像のホールドアウトされたセットにおいて、０．６７の再現性スコアが、任意のホモグラフィ適合を伴わずに、満たされ、Ｎ_ｈ＝１００の変換を実施するときの２１％の再現性上昇およびＮ_ｈ＝１，０００のときの２２％の再現性上昇は、１００を上回るホモグラフィを使用することの最小限の利点を十分に実証した。

着目点応答マップまたは記述子マップを組み合わせるとき、スケール内集約とスケール横断集約との間で区別することが有益であり得る。実世界画像は、典型的には、異なるスケールにおける特徴を含有し、高分解能画像に関係すると見なされるであろう、いくつかの点は、多くの場合、より粗くより低い分解能画像内では可視でさえない。しかしながら、単一スケール内では、回転および平行移動等の画像の変換は、着目点を出現／消失させないはずである。画像の本下層マルチスケール性質は、スケール内およびスケール横断集約方略に関する異なる含意を有する。スケール内集約は、セットの交差の算出に類似するはずであって、スケール横断集約は、セットの和に類似するはずである。スケールを横断した平均応答はまた、着目点信頼度のマルチスケール測定値として使用されることができる。スケールを横断した平均応答は、着目点が全てのスケールを横断して可視であるとき、最大限にされ、これらは、追跡用途のための最もロバストな着目点である可能性が高い。

スケールを横断して集約するとき、検討されるスケールの数Ｎ_ｓは、アプローチのハイパーパラメータである。Ｎ_ｓ＝１の設定は、無マルチスケール集約（または単に、大きな可能性として考えられる画像サイズのみを横断した集約）に対応する。いくつかの実施形態では、Ｎ_ｓ＞１に関して、処理されている画像のマルチスケールセットは、「マルチスケール画像ピラミッド」と称される。ピラミッドのレベルに異なるように加重する、加重スキームは、より高い分解能画像に、より大きい加重を与え得る。これは、より低い分解能において検出された着目点が、不良位置特定能力を有し、最終的集約された点が、同様に位置特定されるはずであるため、重要であり得る。実験結果は、スケール内集約が、再現性に最大効果を及ぼすことを実証した。いくつかの実施形態では、ホモグラフィ適合技法は、実画像上におけるサブネットワーク１１２、１１４およびネットワーク１００の一般化能力を改良するために、訓練時間に適用される。

ホモグラフィ適合アプローチのための理論的裏付けが、以下の段落に説明される。いくつかの実施形態では、初期着目点関数は、以下のように、ｆ_θ（・）によって表され、Ｉは、入力画像であって、ｘは、結果として生じる点であって、Ｈは、ランダムホモグラフィである。

理想的着目点演算子は、ホモグラフィに対して共変するはずである。関数ｆ_θ（・）は、出力が入力に伴って変換される場合、Ｈに伴って共変する。言い換えると、共変検出器は、あらゆる場合において、以下を満たすであろう。

明確にするために、表記Ｈｘは、結果として生じる着目点に適用される、ホモグラフィ行列Ｈを示し、Ｈ（Ｉ）は、ホモグラフィ行列Ｈによってワーピングされる、画像Ｉ全体を示す。ホモグラフィ関連項を右に移動させることは、以下を生産する。

実際は、着目点検出器は、完璧に共変ではなく、前の方程式における異なるホモグラフィは、異なる着目点ｘをもたらすであろう。いくつかの実施形態では、これは、ランダムＨの十分に大量のサンプルにわたる経験的総和を実施することによって、対処される。サンプルにわたる結果として生じる集約は、以下のように定義される、より優れた着目点検出器Ｆ（・）をもたらす。

いくつかの実施形態では、全ての行列が、良好な結果を生産するわけではなく、技術的能力の欠如のためではなく、全ての可能性として考えられるランダムホモグラフィが妥当と思われるカメラ変換を表すわけではないためである。いくつかの実施形態では、潜在的ホモグラフィは、切断正規分布を使用して、平行移動、スケール、面内回転、および対称射影歪みに関して、所定の範囲内でサンプリングすることによって、より単純であまり表現的ではない変換クラスに分解される。これらの変換は、初期基底中心クロッピングとともに構成され、境界アーチファクトを回避することに役立つ。

図５は、ニューラルネットワーク１００が、基準データセット１４４を使用して訓練される、本発明による、第３の訓練ステップを図示する。単一訓練反復の間、基準データセット１４４内に含有される単一基準セット１４２が、読み出される。各基準セット１４２は、入力画像１０２と、入力画像１０２に対応する基準着目点のセット１４８と、（随意に）入力画像１０２に対応する基準記述子１５０とを含んでもよい。１つ以上のホモグラフィ生成器１３８を使用して、ワーピングされた入力画像１０３が、ホモグラフィを入力画像１０２に適用することによって生成され、基準着目点のワーピングされたセット１４９が、同一ホモグラフィを基準着目点１４８に適用することによって生成される。順次または並行して、ニューラルネットワーク１００－１は、入力画像１０２を受信し、入力画像１０２に基づいて、計算された着目点のセット１０８および計算された記述子１１０を計算し、ニューラルネットワーク１００－２は、ワーピングされた入力画像１０３を受信し、ワーピングされた入力画像１０３に基づいて、計算されたワーピングされた着目点のセット１０９および計算されたワーピングされた記述子１１１を計算する。

損失Ｌが、下記に説明されるように、計算された着目点１０８、計算された記述子１１０、計算されたワーピングされた着目点１０９、計算されたワーピングされた記述子１１１、基準着目点１４８、ワーピングされた基準着目点１４９、および／またはホモグラフィＨに基づいて、計算されてもよい。ニューラルネットワーク１００は、次いで、損失Ｌに基づいて、修正されてもよい。損失Ｌに基づいて、ニューラルネットワーク１００を修正するステップは、着目点検出器サブネットワーク１１２のみを修正するステップ、記述子サブネットワーク１１４のみを修正するステップ、および／またはサブネットワーク１１２、１１４の両方を修正するステップを含んでもよい。いくつかの実施形態では、ニューラルネットワーク１００は、損失Ｌが、同一基準セット１４２を使用して、後続実行に関して低減されるように修正される。複数の訓練反復が、損失Ｌが所定の閾値を下回る、および／または基準データセット１４４が包括的に使用される等の１つ以上の条件が満たされるまで、実施される。

いくつかの実施形態では、損失Ｌは、２つの中間損失の和である、すなわち、１つは、着目点検出器に関するものＬ_ｐであって、１つは、記述子に関するものＬ_ｄである。同時損失最適化は、（ａ）擬似グラウンドトゥルース着目点場所と、（ｂ）２つの画像を関連させる、ランダムに生成されたホモグラフィＨからのグラウンドトゥルース対応の両方を有する、対の合成ワーピングされた画像の可用性に起因して、可能にされる。損失Ｌは、以下によって、λにおける関数として平衡される。

式中、Ｘは、計算された着目点１０８であって（またはそれに関連し）、Ｘ’は、計算されたワーピングされた着目点１０９であって（またはそれに関連し）、Ｙは、基準着目点１４８であって（またはそれに関連し）、Ｙ’は、ワーピングされた基準着目点１４９であって（またはそれに関連し）、Ｄは、計算された記述子１１０であって（またはそれに関連し）、Ｄ’は、計算されたワーピングされた記述子１１１である（またはそれに関連する）。Ｓは、類似性スコア行列であって、全体的に、ランダムに生成されたホモグラフィＨに基づいて決定され得る。図５に図示されるように、ホモグラフィＨまたは類似性スコア行列Ｓのいずれかが、損失計算機の中にフィードされてもよい。

着目点検出器損失関数Ｌ_ｐは、セルｘ_ｈｗ∈Ｘにわたる完全畳み込みクロスエントロピ損失である。対応するグラウンドトゥルース着目点標識Ｙおよび個々のエントリは、ｙ_ｈｗである。損失は、したがって、以下となる。

式中、

記述子損失は、入力画像１０２からのｄ_ｈｗ∈Ｄとワーピングされた入力画像１０３からのｄ’_ｈ’ｗ’∈Ｄ’の記述子セルの全ての対に適用される。（ｈ，ｗ）セルと（ｈ’，ｗ’）セルとの間のホモグラフィ誘発対応は、以下のように記述され得る。

式中、ｐ_ｈｗは、（ｈ、ｗ）セル内の中心ピクセルの場所を示し、

は、セル場所ｐ_ｈｗとホモグラフィＨの乗算を示す。一対の画像に関する対応のセット全体は、Ｓである。

いくつかの実施形態では、加重項λ_ｄは、負のものより正の対応の存在を平衡することに役立つ。記述子損失は、以下によって与えられる。

式中、

図６は、本発明のいくつかの実施形態による、ニューラルネットワーク１００を使用した、２つの捕捉された画像１５４－１、１５４－２間のホモグラフィＨの計算を図示する。図示される実施形態は、光学デバイス、例えば、他の可能性の中でもとりわけ、ＡＲまたは複合現実（ＭＲ）デバイス、自動運転車両、無人航空機、有人車両、ロボット等、ニューラルネットワーク１００を利用する、いくつかのシステムまたはデバイスに対応してもよい。

本明細書に説明される技法を使用して訓練後、ニューラルネットワーク１００は、捕捉された画像１５４－１、１５４－２が、単一カメラ１５２から、または複数のカメラから、受信される、ランタイムモードで動作してもよい。例えば、捕捉された画像１５４－１は、第１のカメラから受信されてもよく、捕捉された画像１５４－２は、第２のカメラから受信されてもよい。捕捉された画像１５４－１、１５４－２は、異なるカメラによって、同時に、または異なるカメラによって、または単一カメラによって、異なる時間に、捕捉されてもよい。ニューラルネットワーク１００は、捕捉された画像１５４－１、１５４－２を、ネットワーク入力１１６を介して受信してもよく、捕捉された画像１５４－１に基づいて、計算された着目点のセット１０８－１および計算された記述子１１０－１と、捕捉された画像１５４－２に基づいて、計算された着目点のセット１０８－２および計算された記述子１１０－２とを計算してもよい。

いくつかの実施形態では、ホモグラフィＨを決定するステップに先立って、点対応１０６が、着目点のそれぞれと関連付けられた記述子によって情報を与えられる、計算された着目点１０８－１と１０８－２との間の比較によって決定される。例えば、異なる着目点と関連付けられた記述子が、マッチングされてもよい。最も類似する記述子を有する、異なる画像に対応する着目点は、いくつかの可能性として考えられる類似性スコア化プロシージャのうちの１つに従って、相互に対応すると決定されてもよい。ホモグラフィＨは、点対応１０６から計算されてもよい。例えば、捕捉された画像１５４－１、１５４－２間の相対的姿勢は、点対応１０６に基づいて、計算されてもよく、ホモグラフィＨは、相対的姿勢のカメラ回転および平行移動を表す、行列として計算されてもよい。加えて、または代替として、相対的姿勢は、ホモグラフィＨと等しくてもよい。

図７は、本発明のいくつかの実施形態による、合成データセット１２８の実施例を図示する。いくつかの実施形態では、合成データセット１２８は、円形、三角形、四辺形（例えば、正方形、長方形、菱形、平行四辺形等）、五角形、六角形、星形、立方体、球体、楕円体、円筒形、錐体、角柱、角錐、線等の比較的に明確に定義された着目点を有する、多数の形状タイプを表す複数の形状を含有してもよい。

図８は、本発明のいくつかの実施形態による、未標識データセット１３６の実施例を図示する。未標識データセット１３６は、可変照明、雑音、カメラ効果等を有する、実世界の画像を含有してもよい。実画像は、合成画像よりはるかに雑然とし、雑音が多く、合成世界内で容易にモデル化されることができない、多様な視覚的効果を含有する。

図９は、本発明のいくつかの実施形態による、ニューラルネットワーク１００の例示的アーキテクチャを図示する。図示される実施形態では、ニューラルネットワーク１００は、入力画像寸法を処理および低減させる、単一共有エンコーダを含む。いったんエンコーダによって処理されると、いくつかの実施形態では、アーキテクチャは、２つのデコーダ「ヘッド」に分割され、これは、タスク特有加重を学習し、一方は、着目点検出のためのものであって、他方は、着目点記述のためのものである。

いくつかの実施形態では、ニューラルネットワーク１００は、ＶＧＧ式エンコーダを使用して、画像の寸法を低減させる。エンコーダは、畳み込み層、プーリング演算を介した空間ダウンサンプリング、および非線形活性化関数から成る。いくつかの実施形態では、エンコーダは、３つの最大プーリング層であって、寸法Ｈ×Ｗの画像Ｉに関するＨ_ｃ＝Ｈ／８およびＷ_ｃ＝Ｗ／８を定義する。より低い寸法の出力におけるピクセルは、セルと称され、エンコーダ内の３つの２×２非重複最大プーリング演算は、８×８ピクセルセルをもたらす。エンコーダは、入力画像Ｉ∈Ｒ^{Ｈｃ×Ｗｃ×Ｆ}とより小さい空間寸法およびより大きいチャネル深度（すなわち、Ｈ_ｃ＜Ｈ、Ｗ_ｃ＜Ｗ、およびＦ＞１）をマッピングする。

いくつかのインスタンスでは、稠密予測のためのネットワーク設計は、エンコーダ－デコーダペアを伴ってもよく、空間分解能は、プーリングまたはストライド畳み込みを介して減少され、次いで、上方畳み込み演算を介して、完全に分解能に戻るようにアップサンプリングされる。残念ながら、アップサンプリング層は、多量の算出を追加する傾向にあり、望ましくない市松模様アーチファクトを導入し得、したがって、本明細書に開示される実施形態のうちのいくつかに関して、着目点検出ヘッドは、明示的デコーダを利用して、モデルの算出を低減させる。いくつかの実施形態では、着目点検出器ヘッドは、値Ｘ∈Ｒ^{Ｈｃ×Ｗｃ×６５}を算出し、テンソルサイズＸ∈Ｒ^Ｈ×Ｗを出力する。６５チャネルは、ピクセルの局所非重複８×８グリッド領域＋余剰「無着目点」ダストビンに対応する。チャネル毎ソフトマックス関数後、ダストビン寸法は、除去され、Ｒ^{Ｈｃ×Ｗｃ×６４}からＲ^Ｈ×Ｗへの再変換関数が、実施される。

記述子ヘッドは、Ｄ∈Ｒ^{Ｈｃ×Ｗｃ×Ｄ}を算出し、テンソルサイズＲ^{Ｈ×Ｗ×Ｄ}を出力する。Ｌ２正規化固定長記述子の稠密マップを出力するために、ＵＣＮに類似するモデルが、最初に、記述子の準稠密グリッド（例えば、８ピクセル毎に１つ）を出力するために使用されてもよい。稠密的にではなく、準稠密的に記述子を学習することは、訓練メモリを低減させ、ランタイムをトレース可能に保つ。デコーダは、次いで、記述子の双三次補間を実施し、次いで、活性化を単位長にＬ２正規化する。図９に描写されるように、両デコーダは、入力の共有され、空間的に低減された表現に作用する。モデルを訓練が高速かつ容易であるように保つために、いくつかの実施形態では、両デコーダは、学習されていないアップサンプリングを使用して、表現をＲ^Ｈ×Ｗに戻す。

いくつかの実施形態では、エンコーダは、８つの３×３畳み込み層サイズの６４－６４－６４－６４－１２８－１２８－１２８－１２８を伴う、ＶＧＧ状アーキテクチャである。２つの層毎に、２×２最大プーリング層が存在する。各デコーダヘッドは、２５６単位の単一３×３畳み込み層に続いて、それぞれ、着目点検出器および記述子のための６５単位および２５６単位を伴う、１×１畳み込み層を有する。ネットワーク内の全ての畳み込み層後に、ＲｅＬＵ非線形活性化およびＢａｔｃｈＮｏｒｍ正規化が続いてもよい。

図１０は、本発明のいくつかの実施形態による、第２の訓練ステップ（図４を参照して説明される）の間に採用される、ホモグラフィ適合の種々のステップを図示する。ステップ１００２では、未標識画像（例えば、入力画像１０２）が、未標識データセット１３６から得られる。ステップ１００４では、いくつかのランダムホモグラフィが、ホモグラフィ生成器１３８においてサンプリングされる。ステップ１００６では、ランダムホモグラフィが、未標識画像に適用され、いくつかのワーピングされた画像を生成する。ステップ１００８では、ワーピングされた画像は、着目点検出器サブネットワーク１１２を通して通過される。ステップ１０１０では、いくつかの点応答（例えば、計算された着目点のセット１０８）が、着目点検出器サブネットワーク１１２によって計算される。ステップ１０１２では、点応答（すなわち、ヒートマップ）が、いくつかの逆数ホモグラフィ（逆数ホモグラフィ生成器１４０によって生成された）を点応答に適用し、いくつかのワーピング解除されたヒートマップを生成することによって、ワーピング解除される。ステップ１０１４では、ワーピング解除されたヒートマップは、例えば、種々の利用可能な技法のうちの１つを通して、平均する、総和する、または組み合わせることによって、集約される。

図１１は、本発明のいくつかの実施形態による、ランダムホモグラフィ生成のある側面を図示する。ランダムな現実的ホモグラフィ変換を生成するために、ホモグラフィは、平行移動、スケーリング、回転、および対称射影歪み等のより単純な変換に分解されることができる。サンプル領域が、オリジナル画像の外側のピクセルを含有するときに発生する、境界アーチファクトを回避することに役立てるために、ランダムホモグラフィは、図１１に図示されるように、中心クロッピングから開始する。単純変換の変換大きさは、ランダムガウスおよび一様分布である。最終ホモグラフィ変換を生成するために、ランダムにサンプリングされた単純変換が、連続的に適用され、最終ホモグラフィを取得する。

図１２は、本明細書に説明される実施形態を利用し得る、ＡＲデバイス１２００の概略図を図示する。ＡＲデバイス１２００は、左接眼レンズ１２０２Ａと、右接眼レンズ１２０２Ｂとを含んでもよい。いくつかの実施形態では、ＡＲデバイス１２００は、限定ではないが、他の可能性の中でもとりわけ、左接眼レンズ１２０２Ａまたはその近傍に直接取り付けられる、左正面に向いた世界カメラ１２０６Ａと、右接眼レンズ１２０２Ｂまたはその近傍に直接取り付けられる、右正面に向いた世界カメラ１２０６Ｂと、左接眼レンズ１２０２Ａまたはその近傍に直接取り付けられる、左側に向いた世界カメラ１２０６Ｃと、右接眼レンズ１２０２Ｂまたはその近傍に直接取り付けられる、右側に向いた世界カメラ１２０６Ｄと、ユーザの左眼を観察するように位置付けられる、左眼トラッカと、ユーザの右眼を観察するように位置付けられる、右眼トラッカと、周囲光センサとを含む、１つ以上のセンサを含む。いくつかの実施形態では、ＡＲデバイス１２００は、左接眼レンズ１２０２Ａに光学的に連結される、左プロジェクタ１２１４Ａおよび右接眼レンズ１２０２Ｂに光学的に連結される、右プロジェクタ１２１４Ｂ等の１つ以上の画像投影デバイスを含む。

ＡＲデバイス１２００のコンポーネントの一部または全部は、投影された画像がユーザによって視認され得るように、頭部搭載型であってもよい。１つの特定の実装では、図１２に示されるＡＲデバイス１２００のコンポーネントは全て、ユーザによって装着可能な単一デバイス（例えば、単一ヘッドセット）上に搭載される。別の実装では、処理モジュール１２５０の１つ以上のコンポーネントは、物理的に別個であって、１つ以上の有線および／または無線接続によって、ＡＲデバイス１２００の他のコンポーネントに通信可能に結合される。例えば、処理モジュール１２５０は、ＡＲデバイス１２００の頭部搭載部分上のローカルモジュール１２５２と、ローカルモジュール１２５２と物理的に別個であって、それに通信可能に連結される、遠隔モジュール１２５６とを含んでもよい。遠隔モジュール１２５６は、フレームに固定して取り付けられる、ユーザによって装着されるヘルメットまたは帽子に固定して取り付けられる、ヘッドホンに内蔵される、または別様に、ユーザに除去可能に取り付けられる（例えば、リュック式構成において、ベルト結合式構成において等）等、種々の構成において搭載されてもよい。

処理モジュール１２５０は、プロセッサと、不揮発性メモリ（例えば、フラッシュメモリ）等の関連付けられたデジタルメモリとを含んでもよく、両方とも、データの処理、キャッシュ、および記憶を補助するために利用されてもよい。データは、カメラ１２０６、周囲光センサ、眼トラッカ、マイクロホン、慣性測定ユニット、加速度計、コンパス、ＧＰＳユニット、無線デバイス、および／またはジャイロスコープ等、（例えば、ＡＲデバイス１２００に動作可能に結合される、または別様にユーザに取り付けられ得る）センサから捕捉されたデータを含んでもよい。例えば、処理モジュール１２５０は、画像１２２０をカメラ１２０６から受信してもよい。具体的には、処理モジュール１２５０は、左正面画像１２２０Ａを左正面に向いた世界カメラ１２０６Ａから、右正面画像１２２０Ｂを右正面に向いた世界カメラ１２０６Ｂから、左側画像１２２０Ｃを左側に向いた世界カメラ１２０６Ｃから、および右側画像１２２０Ｄを右側に向いた世界カメラ１２０６Ｄから受信してもよい。いくつかの実施形態では、画像１２２０は、単一画像、一対の画像、画像のストリームを備えるビデオ、ペアリングされた画像のストリームを備えるビデオ、および同等物を含んでもよい。画像１２２０は、ＡＲデバイス１２００が電源オンである間、周期的に、生成され、処理モジュール１２５０に送信されてもよい、または処理モジュール１２５０によってカメラのうちの１つ以上のものに送信される命令に応答して、生成されてもよい。別の実施例として、処理モジュール１２５０は、周囲光情報を周囲光センサから受信してもよい。別の実施例として、処理モジュール１２５０は、視線情報を眼トラッカから受信してもよい。別の実施例として、処理モジュール１２５０は、画像情報（例えば、画像明度値）をプロジェクタ１２１４の一方または両方から受信してもよい。

接眼レンズ１２０２Ａ、１２０２Ｂは、それぞれ、プロジェクタ１２１４Ａ、１２１４Ｂからの光を指向および外部結合するように構成される、透明または半透明導波管を備えてもよい。具体的には、処理モジュール１２５０は、左プロジェクタ１２１４Ａに、左仮想画像光１２２２Ａを左接眼レンズ１２０２Ａ上に出力させてもよく、右プロジェクタ１２１４Ｂに、右仮想画像光１２２２Ｂを右接眼レンズ１２０２Ｂ上に出力させてもよい。いくつかの実施形態では、接眼レンズ１２０２はそれぞれ、異なる色および／または異なる深度平面に対応する、複数の導波管を備えてもよい。カメラ１２０６Ａ、１２０６Ｂは、それぞれ、ユーザの左および右眼の視野と実質的に重複する、画像を捕捉するように位置付けられてもよい。故に、カメラ１２０６の設置は、ユーザの眼の近傍であるが、ユーザの視野を曖昧にしないようにあまり近傍ではなくてもよい。代替として、または加えて、カメラ１２０６Ａ、１２０６Ｂは、それぞれ、仮想画像光１２２２Ａ、１２２２Ｂの内部結合場所と整合するように位置付けられてもよい。カメラ１２０６Ｃ、１２０６Ｄは、例えば、ユーザの周辺視覚内またはユーザの周辺視覚外のユーザの側面に対する画像を捕捉するように位置付けられてもよい。カメラ１２０６Ｃ、１２０６Ｄを使用して捕捉された画像１２２０Ｃ、１２２０Ｄは、必ずしも、カメラ１２０６Ａ、１２０６Ｂを使用して捕捉された画像１２２０Ａ、１２２０Ｂと重複する必要はない。

図１３は、本発明のいくつかの実施形態による、ニューラルネットワーク１００を訓練し、ニューラルネットワーク１００を使用して、画像着目点検出および記述を実施する方法１３００を図示する。方法１３００の１つ以上のステップは、図示される実施形態に示されるものと異なる順序で実施されてもよく、方法１３００の１つ以上のステップは、方法１３００の実施の間、省略されてもよい。

ステップ１３０２では、ニューラルネットワーク１００が、訓練される。ステップ１３０２－１では、ニューラルネットワーク１００の着目点検出器サブネットワーク１１２が、合成データセット１２８を使用して訓練される。合成データセット１２８は、複数の合成画像と、複数の合成画像に対応する、合成着目点の複数のセットとを含んでもよい。ステップ１３０２－１はさらに、図３を参照して説明される。

ステップ１３０２－２では、基準データセット１４４が、着目点検出器サブネットワーク１１２および／または記述子サブネットワーク１１４を使用して生成される。いくつかの実施形態では、基準データセット１４４は、複数のワーピングされた画像が、複数のホモグラフィを入力画像１０２に適用することによって生成される、ホモグラフィ適合を使用して生成され、複数の計算された着目点のセット１０８は、複数のワーピングされた画像を着目点検出器サブネットワーク１１２を通して通過させることによって計算される。複数の計算された着目点のセット１０８は、次いで、ワーピング解除および集約され、基準データセット１４４内に記憶される、基準着目点のセットを取得する。加えて、または代替として、複数の計算された記述子１１０は、複数のワーピングされた画像を記述子サブネットワーク１１４を通して通過させることによって計算される。複数の計算された記述子１１０は、次いで、ワーピング解除および集約され、基準データセット１４４内に記憶される、基準記述子を取得する。ステップ１３０２－２はさらに、図４を参照して説明される。

ステップ１３０２－３では、着目点検出器サブネットワーク１１２および記述子サブネットワーク１１４が、基準データセット１４４を使用して、並行して訓練される。単一訓練反復の間、入力画像１０２と、基準着目点１４８と、（随意に）基準記述子１５０とを備える、基準セット１４２が、基準データセット１４４から読み出され、損失Ｌを計算するために使用される。着目点検出器サブネットワーク１１２および記述子サブネットワーク１１４の一方または両方は、計算された損失Ｌに基づいて修正されてもよい。ステップ１３０２－３はさらに、図５を参照して説明される。

ステップ１３０４では、画像着目点検出および記述が、ニューラルネットワーク１００を使用して実施される。いくつかの実施形態では、第１の捕捉された画像１５４－１および第２の捕捉された画像１５４－２は、カメラ１５２または２つの異なるカメラを使用して捕捉される。捕捉された画像１５４－１、１５４－２は、次いで、ニューラルネットワーク１００を通して通過されてもよい。計算された着目点１０８－１、１０８－２および計算された記述子１１０－１、１１０－２は、ホモグラフィＨを計算するために使用されてもよい。いくつかの実施形態では、ＡＲデバイス１２００は、ホモグラフィＨに基づいて、仮想画像光１２２２Ａ、１２２２Ｂの一方または両方を調節してもよい。例えば、ＡＲデバイス１２００のユーザが、プロジェクタ１２１４Ａ、１２１４Ｂによって接眼レンズ１２０２Ａ、１２０２Ｂ上に投影された仮想画像光１２２２Ａ、１２２２Ｂを視認する、ユーザによって知覚される仮想コンテンツを視認しながら、その頭部を方向転換させると、仮想光は、新しい視認角度と関連付けられたホモグラフィＨに基づいて、調節される必要があるであろう。ステップ１３０４はさらに、図６を参照して説明される。

図１４は、本発明のいくつかの実施形態による、画像着目点検出および記述のためのニューラルネットワーク１００を訓練する方法１４００を図示する。方法１４００の１つ以上のステップは、図示される実施形態に示されるものと異なる順序で実施されてもよく、方法１４００の１つ以上のステップは、方法１４００の実施の間、省略されてもよい。

ステップ１４０２では、ワーピングされた入力画像１０３が、ホモグラフィを入力画像１０２に適用することによって生成される。ステップ１４０４では、ワーピングされた基準着目点１４９が、ホモグラフィを基準着目点１４８に適用することによって生成される。ステップ１４０６では、計算された着目点１０８および計算された記述子１１０が、入力画像１０２を入力として受信する、ニューラルネットワーク１００によって、計算される。ステップ１４０８では、計算されたワーピングされた着目点１０９および計算されたワーピングされた記述子１１１が、ワーピングされた入力画像１０３を入力として受信する、ニューラルネットワーク１００によって、計算される。

ステップ１４１０では、損失Ｌが、計算された着目点１０８、計算された記述子１１０、計算されたワーピングされた着目点１０９、計算されたワーピングされた記述子１１１、基準着目点１４８、ワーピングされた基準着目点１４９、およびホモグラフィのうちの１つ以上のものに基づいて、計算される。いくつかの実施形態では、損失Ｌはさらに、ホモグラフィに基づいて計算される。ステップ１４１２では、ニューラルネットワーク１００は、損失Ｌに基づいて修正される。

図１５は、本明細書中に記載されたある実施形態による、簡略化されたコンピュータシステム１５００を図示する。図１５は、種々の実施形態によって提供された方法のステップのいくつかまたは全てを実行し得るコンピューティングシステム１５００の一実施例の概略図である。図１５は、種々のコンポーネントの一般化された例証を提供するためだけに意図され、そのいずれかまたは全てが、必要に応じて利用されてもよいことに留意されたい。図１５は、したがって、広義には、個々のシステム要素が比較的に分離された様式または比較的により統合された様式において実装され得る状況を図示する。

コンピュータシステム１５００は、バス１５０５を介して電気的に結合されることができる、または必要に応じて別様に通信し得る、ハードウェア要素を備えるように示される。ハードウェア要素は、限定ではないが、デジタル信号処理チップ、グラフィック加速プロセッサ、および／または同等物等の、１つ以上の汎用プロセッサおよび／または１つ以上の特殊目的プロセッサを含む、１つ以上のプロセッサ１５１０と、限定ではないが、マウス、キーボード、カメラ、および／または同等物を含むことができる、１つ以上の入力デバイス１５１５と、限定ではないが、ディスプレイデバイス、プリンタ、および／または同等物を含むことができる、１つ以上の出力デバイス１５２０とを含んでもよい。

コンピュータシステム１５００はさらに、限定ではないが、ローカルおよび／またはネットワークアクセス可能記憶装置を備えることができ、および／または、限定ではないが、プログラム可能である、フラッシュ更新可能である、および／または同等物であることができる、ディスクドライブ、ドライブアレイ、光学記憶デバイス、ランダムアクセスメモリ（「ＲＡＭ」）等のソリッドステート記憶デバイス、および／または読取専用メモリ（「ＲＯＭ」）を含むことができる、１つ以上の非一過性記憶デバイス１５２５を含む、および／またはそれと通信してもよい。そのような記憶デバイスは、限定ではないが、種々のファイルシステム、データベース構造、および／または同等物を含む、任意の適切なデータ記憶を実装するように構成されてもよい。

コンピュータシステム１５００はまた、限定ではないが、Ｂｌｕｅｔｏｏｔｈ（登録商標）デバイス、８０２．１１デバイス、ＷｉＦｉデバイス、ＷｉＭａｘデバイス、セルラー通信設備等、および／または同等物等のモデム、ネットワークカード（無線または有線）、赤外線通信デバイス、無線通信デバイス、および／またはチップセットを含むことができる、通信サブシステム１５１９を含み得る。通信サブシステム１５１９は、１つ以上の入力および／または出力通信インターフェースを含み、データが、一実施例として挙げるために以下に説明されるネットワーク、すなわち、他のコンピュータシステム、テレビ、および／または本明細書に説明される任意の他のデバイス等のネットワークと交換されることを可能にしてもよい。所望の機能性および／または他の実装懸念に応じて、ポータブル電子デバイスまたは類似デバイスは、通信サブシステム１５１９を介して、画像および／または他の情報を通信してもよい。他の実施形態では、ポータブル電子デバイス、例えば、第１の電子デバイスは、コンピュータシステム１５００、例えば、電子デバイスの中に入力デバイス１５１５として組み込まれてもよい。いくつかの実施形態では、コンピュータシステム１５００はさらに、作業メモリ１５３５を備え、これは、上記に説明されるようなＲＡＭまたはＲＯＭデバイスを含むことができる。

コンピュータシステム１５００はまた、種々の実施形態によって提供されるコンピュータプログラムを備え得る、および／または本明細書に説明されるような他の実施形態によって提供される方法を実装し、および／またはシステムを構成するように設計され得る、オペレーティングシステム１５４０、デバイスドライバ、実行可能ライブラリ、および／または他のコード、例えば１つ以上のアプリケーションプログラム１５４５等を含む、作業メモリ１５３５内に現在位置するものとして示される、ソフトウェア要素を含むことができる。単に、一例として、上記に議論される方法に関して説明される１つ以上のプロシージャは、コンピュータまたはコンピュータ内のプロセッサによって実行可能なコードおよび／または命令として実装され得、ある側面では、次いで、そのようなコードおよび／または命令は、説明される方法に従って１つ以上の動作を実施するように汎用コンピュータまたは他のデバイスを構成および／または適合するために使用されることができる。

これらの命令および／またはコードのセットは、上記に説明される記憶デバイス１５２５等の非一過性コンピュータ可読記憶媒体上に記憶されてもよい。ある場合には、記憶媒体は、コンピュータシステム１５００等のコンピュータシステム内に組み込まれ得る。他の実施形態では、記憶媒体は、コンピュータシステムと別個である、例えば、コンパクトディスク等の可撤性媒体である、および／または記憶媒体が、汎用コンピュータをその上に記憶される命令／コードを用いてプログラム、構成、および／または適合するために使用され得るように、インストールパッケージ内に提供され得る。これらの命令は、コンピュータシステム１５００によって実行可能である、実行可能コードの形態をとり得る、および／または、例えば、種々の概して利用可能なコンパイラ、インストールプログラム、圧縮／解凍ユーティリティ等のいずれかを使用したコンピュータシステム１５００上へのコンパイルおよび／またはインストールに応じて、次いで、実行可能コードの形態をとる、ソースおよび／またはインストール可能コードの形態をとり得る。

実質的な変形例が、具体的要件に従って構成されてもよいことが、当業者に明白となるであろう。例えば、カスタマイズされたハードウェアもまた、使用され得る、および／または特定の要素が、ハードウェア、アプレット等のポータブルソフトウェアを含む、ソフトウェア、または両方内に実装され得る。さらに、ネットワーク入力／出力デバイス等の他のコンピューティングデバイスへの接続も、採用されてもよい。

上記に述べられたように、一側面では、いくつかの実施形態は、コンピュータシステム１５００等のコンピュータシステムを採用し、本技術の種々の実施形態による方法を実施してもよい。一式の実施形態によると、そのような方法のプロシージャの一部または全部は、プロセッサ１５１０が、オペレーティングシステム１５４０の中に組み込まれ得る、１つ以上の命令の１つ以上のシーケンス、および／または作業メモリ１５３５内に含有される、アプリケーションプログラム１５４５等の他のコードを実行することに応答して、コンピュータシステム１５００によって実施される。そのような命令は、記憶デバイス１５２５のうちの１つ以上のもの等の別のコンピュータ可読媒体から作業メモリ１５３５の中に読み取られてもよい。単に、一例として、作業メモリ１５３５内に含有される命令のシーケンスの実行は、プロセッサ１５１０に、本明細書に説明される方法の１つ以上のプロシージャを実施させ得る。加えて、または代替として、本明細書に説明される方法の一部は、特殊ハードウェアを通して実行されてもよい。

用語「機械可読媒体」および「コンピュータ可読媒体」は、本明細書で使用されるとき、機械を具体的方式で動作させるデータを提供することに関わる、任意の媒体を指す。コンピュータシステム１５００を使用して実装される、ある実施形態では、種々のコンピュータ可読媒体は、実行のための命令／コードをプロセッサ１５１０に提供する際に関わり得る、および／またはそのような命令／コードを記憶および／または搬送するために使用され得る。多くの実装では、コンピュータ可読媒体は、物理的および／または有形記憶媒体である。そのような媒体は、不揮発性媒体または揮発性媒体の形態をとってもよい。不揮発性媒体は、例えば、記憶デバイス１５２５等の光学および／または磁気ディスクを含む。揮発性媒体は、限定ではないが、作業メモリ１５３５等の動的メモリを含む。

一般的形態の物理的および／または有形コンピュータ可読媒体は、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、または任意の他の磁気媒体、ＣＤ－ＲＯＭ、任意の他の光学媒体、パンチカード、紙テープ、孔のパターンを伴う任意の他の物理的媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ（登録商標）－ＥＰＲＯＭ、任意の他のメモリチップまたはカートリッジ、またはコンピュータが命令および／またはコードを読み取ることができる、任意の他の媒体を含む。

種々の形態のコンピュータ可読媒体が、実行のための１つ以上の命令の１つ以上のシーケンスをプロセッサ１５１０に搬送する際に関わってもよい。単に、一例として、命令は、最初に、遠隔コンピュータの磁気ディスクおよび／または光学ディスク上で搬送されてもよい。遠隔コンピュータは、命令をその動的メモリの中にロードし、コンピュータシステム１５００によって受信および／または実行される伝送媒体を経由して、命令を信号として送信し得る。

通信サブシステム１５１９および／またはそのコンポーネントは、概して、信号を受信し、バス１５０５が、次いで、信号および／または信号によって搬送されるデータ、命令等を作業メモリ１５３５に搬送し得、そこから、プロセッサ１５１０が、命令を読み出し、実行する。作業メモリ１５３５によって受信された命令は、随意に、プロセッサ１５１０による実行前または後のいずれかにおいて、非一過性記憶デバイス１５２５上に記憶されてもよい。

上記に議論される方法、システム、およびデバイスは、実施例である。種々の構成は、必要に応じて、種々のプロシージャまたはコンポーネントを省略、代用、または追加してもよい。例えば、代替構成では、本方法は、説明されるものと異なる順序で実施されてもよく、および／または種々の段階は、追加される、省略される、および／または組み合わせられてもよい。また、ある構成に関して説明される特徴は、種々の他の構成において組み合わせられてもよい。構成の異なる側面および要素は、類似様式で組み合わせられてもよい。また、技術は、進歩するものであって、したがって、要素の多くは、実施例であって、本開示の範囲または請求項を限定するものではない。

具体的詳細が、実装を含む、例示的構成の完全な理解を提供するために説明に与えられる。しかしながら、構成は、これらの具体的詳細を伴わずに実践されてもよい。例えば、周知の回路、プロセス、アルゴリズム、構造、および技法は、構成を曖昧にすることを回避するために、不必要な詳細を伴わずに示されている。本説明は、例示的構成のみを提供し、請求項の範囲、可用性、または構成を限定するものではない。むしろ、構成の前述の説明は、当業者に説明される技法を実装するための有効な説明を提供するであろう。種々の変更が、本開示の精神または範囲から逸脱することなく、要素の機能および配列に行われてもよい。

また、構成は、概略フローチャートまたはブロック図として描写される、プロセスとして説明され得る。それぞれ、シーケンシャルプロセスとして動作を説明し得るが、動作の多くは、並行して、または同時に実施されてもよい。加えて、動作の順序は、再配列されてもよい。プロセスは、図内に含まれない付加的ステップを有してもよい。さらに、本方法の実施例は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、または任意のそれらの組み合わせによって実装されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコード内に実装されるとき、必要タスクを実施するためのプログラムコードまたはコードセグメントは、記憶媒体等の非一過性コンピュータ可読媒体内に記憶されてもよい。プロセッサは、説明されるタスクを実施してもよい。

いくつかの例示的構成が説明されたが、種々の修正、代替構造、および均等物が、本開示の精神から逸脱することなく、使用されてもよい。例えば、前述の要素は、より大きいシステムのコンポーネントであってもよく、他のルールが、本技術の用途に優先する、または別様にそれを修正してもよい。また、いくつかのステップは、前述の要素が検討される前、間、または後に行われてもよい。故に、前述の説明は、請求項の範囲を束縛するものではない。

本明細書および添付の請求項で使用されるように、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、文脈によって明確に別様に示されない限り、複数参照を含む。したがって、例えば、「ユーザ」の言及は、複数のそのようなユーザを含み、「プロセッサ」の言及は、１つ以上のプロセッサおよび当業者に公知のその均等物等の言及を含む。

また、単語「ｃｏｍｐｒｉｓｅ（～を備える）」、「ｃｏｍｐｒｉｓｉｎｇ（～を備える）」、「ｃｏｎｔａｉｎｓ（～を含有する）」、「ｃｏｎｔａｉｎｉｎｇ（～を含有する）」、「ｉｎｃｌｕｄｅ（～を含む）」、「ｉｎｃｌｕｄｉｎｇ（～を含む）」、および「ｉｎｃｌｕｄｅｓ（～を含む）」は、本明細書および以下の請求項で使用されるとき、述べられた特徴、整数、コンポーネント、またはステップの存在を規定するために意図されるが、それらは、１つ以上の他の特徴、整数、コンポーネント、ステップ、行為、またはグループの存在または追加を除外するものではない。

また、本明細書に説明される実施例および実施形態は、例証目的のみのためのものであって、それに照らして、種々の修正または変更が、当業者に示唆され、本願の精神および権限および添付の請求項の範囲内に含まれることを理解されたい。

Claims

コンピュータ実装方法であって、前記コンピュータ実装方法は、
第１の画像を取得することと、
第２の画像を取得することと、
前記第１の画像を入力として受信したニューラルネットワークが、第１のセットの計算された着目点および第１の計算された記述子を計算することと、
前記第２の画像を入力として受信した前記ニューラルネットワークが、第２のセットの計算された着目点および第２の計算された記述子を計算することと、
前記第１のセットの計算された着目点および前記第２のセットの計算された着目点と、前記第１の計算された記述子および前記第２の計算された記述子とに基づいて、前記第１の画像と前記第２の画像との間のホモグラフィを決定することであって、前記ホモグラフィは、前記第１の画像と前記第２の画像との間の回転および／または平行移動を表す、ことと
を含み、
前記ニューラルネットワークは、
前記第１のセットの計算された着目点および前記第２セットの計算された着目点を計算するように構成されている着目点検出器サブネットワークと、
前記第１の計算された記述子および前記第２の計算された記述子を計算するように構成されている記述子サブネットワークであって、前記記述子サブネットワークは、１つ以上の層を前記着目点検出器サブネットワークと共有する、記述子サブネットワークと
を含む、コンピュータ実装方法。
前記コンピュータ実装方法は、前記第１のセットの計算された着目点と前記第２のセットの計算された着目点との間の点対応を決定することをさらに含み、前記ホモグラフィは、前記点対応に基づいて決定される、請求項１に記載のコンピュータ実装方法。
前記第１の画像は、Ｈ×Ｗの寸法を有し、前記第２の画像は、Ｈ×Ｗの寸法を有する、請求項１に記載のコンピュータ実装方法。
前記第１のセットの計算された着目点は、Ｈ×Ｗの寸法を有する第１の２次元（２Ｄ）マップによって表され、前記第２のセットの計算された着目点は、Ｈ×Ｗの寸法を有する第２の２Ｄマップによって表される、請求項３に記載のコンピュータ実装方法。
前記第１の計算された記述子は、Ｈ×Ｗ×Ｄの寸法を有し、前記第２の計算された記述子は、Ｈ×Ｗ×Ｄの寸法を有する、請求項４に記載のコンピュータ実装方法。
前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第１の計算された記述子を計算することに並行して、前記第１のセットの計算された着目点を計算するように構成されている、請求項１に記載のコンピュータ実装方法。
前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第２の計算された記述子を計算することに並行して、前記第２のセットの計算された着目点を計算するように構成されている、請求項６に記載のコンピュータ実装方法。
命令を含む非一過性のコンピュータ読み取り可能な媒体であって、前記命令は、１つ以上のプロセッサによって実行されると、
第１の画像を取得することと、
第２の画像を取得することと、
前記第１の画像を入力として受信したニューラルネットワークが、第１のセットの計算された着目点および第１の計算された記述子を計算することと、
前記第２の画像を入力として受信した前記ニューラルネットワークが、第２のセットの計算された着目点および第２の計算された記述子を計算することと、
前記第１のセットの計算された着目点および前記第２のセットの計算された着目点と、前記第１の計算された記述子および前記第２の計算された記述子とに基づいて、前記第１の画像と前記第２の画像との間のホモグラフィを決定することであって、前記ホモグラフィは、前記第１の画像と前記第２の画像との間の回転および／または平行移動を表す、ことと
を含む動作を実行することを前記１つ以上のプロセッサに行わせ、
前記ニューラルネットワークは、
前記第１のセットの計算された着目点および前記第２のセットの計算された着目点を計算するように構成されている着目点検出器サブネットワークと、
前記第１の計算された記述子および前記第２の計算された記述子を計算するように構成されている記述子サブネットワークであって、前記記述子サブネットワークは、１つ以上の層を前記着目点検出器サブネットワークと共有する、記述子サブネットワークと
を含む、非一過性のコンピュータ読み取り可能な媒体。
前記動作は、前記第１のセットの計算された着目点と前記第２のセットの計算された着目点との間の点対応を決定することをさらに含み、前記ホモグラフィは、前記点対応に基づいて決定される、請求項８に記載の非一過性のコンピュータ読み取り可能な媒体。
前記第１の画像は、Ｈ×Ｗの寸法を有し、前記第２の画像は、Ｈ×Ｗの寸法を有する、請求項８に記載の非一過性のコンピュータ読み取り可能な媒体。
前記第１のセットの計算された着目点は、Ｈ×Ｗの寸法を有する第１の２次元（２Ｄ）マップによって表され、前記第２のセットの計算された着目点は、Ｈ×Ｗの寸法を有する第２の２Ｄマップによって表される、請求項１０に記載の非一過性のコンピュータ読み取り可能な媒体。
前記第１の計算された記述子は、Ｈ×Ｗ×Ｄの寸法を有し、前記第２の計算された記述子は、Ｈ×Ｗ×Ｄの寸法を有する、請求項１１に記載の非一過性のコンピュータ読み取り可能な媒体。
前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第１の計算された記述子を計算することに並行して、前記第１のセットの計算された着目点を計算するように構成されている、請求項８に記載の非一過性のコンピュータ読み取り可能な媒体。
前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第２の計算された記述子を計算することに並行して、前記第２のセットの計算された着目点を計算するように構成されている、請求項１３に記載の非一過性のコンピュータ読み取り可能な媒体。
システムであって、前記システムは、
１つ以上のプロセッサと、
命令を含む非一過性のコンピュータ読み取り可能な媒体と
を備え、
前記命令は、１つ以上のプロセッサによって実行されると、
第１の画像を取得することと、
第２の画像を取得することと、
前記第１の画像を入力として受信したニューラルネットワークが、第１のセットの計算された着目点および第１の計算された記述子を計算することと、
前記第２の画像を入力として受信した前記ニューラルネットワークが、第２のセットの計算された着目点および第２の計算された記述子を計算することと、
前記第１のセットの計算された着目点および前記第２のセットの計算された着目点と、前記第１の計算された記述子および前記第２の計算された記述子とに基づいて、前記第１の画像と前記第２の画像との間のホモグラフィを決定することであって、前記ホモグラフィは、前記第１の画像と前記第２の画像との間の回転および／または平行移動を表す、ことと
を含む動作を実行することを前記１つ以上のプロセッサに行わせ、
前記ニューラルネットワークは、
前記第１のセットの計算された着目点および前記第２のセットの計算された着目点を計算するように構成されている着目点検出器サブネットワークと、
前記第１の計算された記述子および前記第２の計算された記述子を計算するように構成されている記述子サブネットワークであって、前記記述子サブネットワークは、１つ以上の層を前記着目点検出器サブネットワークと共有する、記述子サブネットワークと
を含む、システム。
前記動作は、前記第１のセットの計算された着目点と前記第２のセットの計算された着目点との間の点対応を決定することをさらに含み、前記ホモグラフィは、前記点対応に基づいて決定される、請求項１５に記載のシステム。
前記第１の画像は、Ｈ×Ｗの寸法を有し、前記第２の画像は、Ｈ×Ｗの寸法を有する、請求項１５に記載のシステム。
前記第１のセットの計算された着目点は、Ｈ×Ｗの寸法を有する第１の２次元（２Ｄ）マップによって表され、前記第２のセットの計算された着目点は、Ｈ×Ｗの寸法を有する第２の２Ｄマップによって表される、請求項１７に記載のシステム。
前記第１の計算された記述子は、Ｈ×Ｗ×Ｄの寸法を有し、前記第２の計算された記述子は、Ｈ×Ｗ×Ｄの寸法を有する、請求項１８に記載のシステム。
前記着目点検出器サブネットワークは、前記記述子サブネットワークが前記第１の計算された記述子を計算することに並行して、前記第１のセットの計算された着目点を計算するように構成されている、請求項１５に記載のシステム。