JP7430254B2

JP7430254B2 - 場所認識のための視覚的オブジェクトインスタンス記述子

Info

Publication number: JP7430254B2
Application number: JP2022520892A
Authority: JP
Inventors: ダニエラルス，; セルタチカラマン，; イゴールギリトシェンスキ，; アンドレイクラマリック，; ツェザールカデナ，; ローランドシーグワート，
Original assignee: Eidgenoessische Technische Hochschule Zurich ETHZ
Current assignee: Eidgenoessische Technische Hochschule Zurich ETHZ
Priority date: 2019-11-01
Filing date: 2019-12-27
Publication date: 2024-02-09
Anticipated expiration: 2039-12-27
Also published as: JP2023500198A; US20210133480A1; US11295162B2; CN114586075A; WO2021086422A1

Description

関連出願の相互参照
本出願は、２０１９年１１月１日出願の米国特許出願第１６／６７１，５２５号の利益を請求するものであり、その内容全体は参照することにより本明細書に組み込まれる。

本出願は、場所認識に関し、より詳細には、そのような場所にあるオブジェクトの記述子に基づく場所認識に関する。

低価格のカメラシステムの普及は、スマートフォン、バーチャルリアリティヘッドセット、または消費者向けドローンなど、多数の消費者製品に自己位置推定および地図作成の同時実行（ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎａｎｄＭａｐｐｉｎｇ、ＳＬＡＭ）アルゴリズムの搭載を可能にする。同時に、この技術は、自動運転におけるいくつかの位置決め情報源の１つとしても機能する。さらに商業的な応用範囲を広げるための主な科学的課題の１つは、依然として、動的環境下で動作したときであっても視点および外観の条件に依存しない、視覚的な場所認識システムを作り出すことである。

視覚的場所認識アプローチによっては、スケール不変特徴変換（ＳｃａｌｅＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ、ＳＩＦＴ）記述子などの多数の局所記述子を用いるか、またはＧＩＳＴなどの画像全体の記述子に依存する。局所記述子はノイズが多く、文脈情報をほとんど提供せず、照明条件が劇的に変化すると性能が低下する。しかし、局所記述子の利点は、マッチングした２つの画像間の変換行列を計算するために使用できることである。一方、グローバル記述子は同時に画像全体をコンパクトな形態で記述する。グローバル記述子は、文脈情報を含むが、より低速で視点変更により影響されやすい。

近年のディープラーニングに基づくオブジェクトの検出の進歩により、検出されたオブジェクトを高レベルのナビゲーションランドマークとして利用することに大きな関心が持たれている。オブジェクト検出器は、オブジェクトクラスに関する情報を提供し得る。しかし、オブジェクトクラスは、場所認識のための探索空間を制約するのに十分に特徴的でない場合がある。その結果、オブジェクトに基づくループ閉じ込みおよび場所認識のためのアプローチは、典型的に、既存の３次元（３Ｄ）オブジェクトモデル、またはオブジェクトセグメンテーションのための深さ情報の利用可能性に依存する。しかし、大規模な環境、特にメモリ、電力、または帯域幅が限られたモバイル機器を使用する場合、非常に詳細なオブジェクトモデルを格納し検索することは非常にコストがかかり得る。したがって、フル３Ｄオブジェクトモデルを必要とせずに、オブジェクトインスタンスのマッチングに基づいて場所を認識することは大いに興味深い。

一般的な態様では、画像（または画像のセット）から場所認識するためのアプローチは、既知の場所のセットでのオブジェクトの事前検出、ならびに未知の場所でのオブジェクトの検出を利用する。既知または未知の場所の画像内で検出されたオブジェクトの画像は、それぞれの数値記述子を得るために処理される。これらの計算された記述子を使用して、未知の場所を既知の場所と比較し、未知の場所を認識する。少なくともいくつかの実施形態は、訓練されたパラメータ化画像プロセッサを利用してオブジェクトの画像をオブジェクト記述子に変換し、プロセッサの訓練は、あるタイプのオブジェクトの異なるインスタンス間の区別、ならびにまったく異なるタイプのオブジェクト間の区別を保持することが意図されている。少なくともいくつかの実施形態は、ある場所におけるすべての既知のオブジェクトより少ないものを捉えることを可能にし、検出されたオブジェクトと既知の場所における既知のオブジェクトとの関連付けにおける曖昧性を許容する。いくつかのそのようなアプローチは、グラフマッチングアプローチを利用する。

一態様では、一般に、場所認識のための方法は、未知の場所について取得された画像を受信することを伴う。記述子のセットが、未知の場所についての画像から計算される。この計算は、画像内の事前定義されたクラスの第１のセットからオブジェクトの位置を特定することと、位置が特定された各オブジェクトに対して画像の対応する領域を決定することとを含む。各記述子は、少なくとも画像の関連付けられた領域に基づいて、それぞれ位置が特定されたオブジェクトを表す数値ベクトルを構成するように計算される。参照レコードのデータベースがアクセスされ、各参照レコードは、既知の場所に関連付けられており、その既知の場所の対応する画像内のオブジェクトに対して以前に計算された記述子のセットを含む。未知の場所についての画像からの記述子のセットは、データベースの参照レコードとマッチングされる。このマッチングは、参照レコードの少なくとも一部の各参照レコードに対して、未知の場所の画像から計算された記述子と参照レコードの記述子との間のマッチングを表すスコアを決定することを含む。データベースのベストマッチング参照レコードが決定され、未知の場所は、データベースのベストマッチングレコードに関連付けられた場所であると認識される。

別の態様では、一般に、コンピュータに実装される場所認識システムは、未知の場所の画像を受信するように構成され、画像内の事前定義されたクラスのセットからオブジェクトの位置を特定し、位置が特定された各オブジェクトに対して画像の関連付けられた領域を決定するように構成可能なオブジェクトロケータを備える。本システムは、オブジェクトロケータによって位置が特定されたオブジェクトのセットの各オブジェクトについて、少なくとも画像の関連付けられた領域に基づいて、それぞれ位置が特定されたオブジェクトを表す数値ベクトルを構成する記述子を計算するように構成可能な記述子生成器を備える。データベースは、各レコードが既知の場所と関連付けられている複数の参照レコードと、その既知の場所に関連付けられたオブジェクトの記述子についてのセットとを格納するために使用される。マッチャーは、参照レコードの少なくとも一部の各参照レコードについて、未知の場所の画像から計算された記述子と、参照レコードの記述子との間のマッチを表すスコアを決定するように構成される。場所認識システムは、ベストマッチングレコードに従って未知の場所を認識するように構成される。

態様は、以下の特徴のうちの１つまたは複数を包含していてもよい。

未知の場所についての画像から記述子のセットを計算することは、オブジェクトロケータを使用して画像を処理し、画像内のオブジェクトのセット、オブジェクトのセットの各オブジェクトに関連付けられた画像の領域、および各領域に関連付けられた画像の処理済み特徴を決定することを含む。

記述子を計算することは、記述子生成器を用い、オブジェクトのセットの各オブジェクトについて、オブジェクトロケータから処理済み特徴を入力し、対応する記述子を出力として生成することを含む。

オブジェクトロケータは、第１の人工ニューラルネットワークを構成し、記述子生成器は、第２の人工ニューラルネットワークを構成する。

オブジェクトについて画像の処理済み特徴を決定することは、画像内のオブジェクトの決定された領域について、第１の人工ニューラルネットワーク内で生成された中間値を使用することを含む。

第１の人工ニューラルネットワークは、第１の設定パラメータの値を用いて設定され、これらの値は、オブジェクトクラスの第１のセットに従ってオブジェクトとともにアノテーションが付けられた画像を含む第１の訓練コーパスから決定されている。

第２の人工ニューラルネットワークは、第２の設定パラメータの値を用いて設定され、これらの値は、オブジェクトクラスの第２のセットに従ってオブジェクトとともにアノテーションが付けられた画像と、上記クラス内のオブジェクトのインスタンスと、からなる第２の訓練コーパスから決定されている。第２の訓練コーパスは、オブジェクトの同じインスタンスを有する複数の画像と、オブジェクトクラスの第２のセットのうちのあるオブジェクトクラスの複数の異なるインスタンスを有する画像とを含む。

オブジェクトクラスの第２のセットは、オブジェクトクラスの第１のセットとは異なり、第１の訓練コーパスは、第２の訓練コーパスとは異なる。

第２の設定パラメータの値は、オブジェクトクラスの第２のセット内のオブジェクトクラスの異なるインスタンスを区別するために選択される。

第１の設定パラメータの値は、第１の訓練コーパスを用いた人工ニューラルネットワーク訓練手順を用いて決定される。

第２の設定パラメータの値は、第２の訓練コーパスを用いた人工ニューラルネットワーク訓練手順を用いて決定される。

第２の設定パラメータの値を決定するために用いられる訓練手順は、オブジェクトクラスの第２のセットの各オブジェクトクラス内のオブジェクトインスタンスの区別性を最適化する。

未知の場所についての画像からの記述子のセットを、データベースのレコードとマッチングするステップは、未知の場所についての記述子のセットをデータベースの第１のレコードの記述子の第１のセットとマッチングすることを含む。記述子の第１のセットとマッチングすることは、記述子の対の間でスコアを決定することを含み、各対は、未知の場所についての画像からの記述子のセットのうちの１つの記述子と、データベースからの記述子の第１のセットのうちの１つの記述子とを含む。未知の場所についての画像からの記述子のセットのうちの一部または全部の記述子と、記述子の第１のセットの対応する記述子とのそれぞれのベストマッチは、記述子の対の間のスコアから決定された対応する最良のスコアを有する。

未知の場所についての記述子のセットを、データベースの第１のレコードの記述子の第１のセットとマッチングすることは、エッジ重みが記述子の対の間のスコアから決定されている二部グラフにおけるグラフマッチング手順を実行することを含む。

１つまたは複数の実施形態の利点は、ターゲットドメインからの広範囲な訓練データを必要とせずに、ターゲットドメインにおける各クラス内のオブジェクトの異なるインスタンスだけでなく、オブジェクトの異なるクラスを区別するように構成される一方で、オブジェクトの大規模なデータベースに対する訓練から恩恵を受けるオブジェクト記述子の生成器の使用に関する。大規模な訓練済みデータベースを用いる１つの利点は、オブジェクト記述子生成器が、照明、視点などの画像取得条件に対してよりロバストであり得ることである。

別の利点は、既知の場所に関連付けられたオブジェクトのサブセットのうちのオブジェクトと、未知の場所の取得画像（または複数の画像）で見出されるオブジェクトのペアワイズマッチングから得られるロバストマッチングを含むことができる。さらに、オブジェクト間の幾何学的関係に依存しないことによって、このアプローチは、視点の変化、およびある場所におけるオブジェクトの位置の変化に対してロバストである。

本発明の他の特徴および利点は、以下の発明を実施するための形態および特許請求の範囲から明らかである。

動作のために認識する部屋を含む、上記動作中の例示的場所認識システムである。

動作中の場所認識システムが行うステップを詳細に示すフローチャートである。

記述子生成器のブロック図である。

１概要
図１を参照すると、場所認識システム１００の例は、その場所の画像１０６を処理して画像内のオブジェクトを識別し、それらのオブジェクトを既知の場所に関連付けられたオブジェクトと比較することによって、未知の場所１０２を識別するために使用される。例えば、それらの既知の場所で以前に発見されたオブジェクトは、既知の場所をオブジェクトと関連付けるデータベース１１６に表されている。オブジェクトの識別は、画像内の識別されたオブジェクトの各インスタンスに対して数値記述子（例えば、固定長の実数値ベクトル）を決定することを含む。以下でさらに論じられるように、これらの記述子は、オブジェクトのタイプ（クラス）（例えば、植物と比較した時計）を区別できるとともに、同じクラス内のオブジェクトの異なるインスタンス（例えば、アラビア数字の時計とローマ数字の時計）を区別できるという特性を有する（または少なくともそのような特性を有するように設計されている）。所望により、記述子は、クラス間で区別されるように設計されてもよい。

図１では、認識段階（すなわち、後述する事前訓練段階とは異なる）中のシステム１００の動作は、画像が以前に取得された既知の部屋のセットから未知の部屋１０２を認識するという例示的な問題に適用されて示されている。図１および図２の対応するフローチャートを参照すると、識別プロセスは、カメラ１０４または他の撮像デバイスを用いて部屋１０２の画像１０６（またはより一般的には画像のセット、ビデオフレームのシーケンスなど）を取得するステップ３１０で開始される。例えば、画像１０６は、ユーザ、ロボットなどが部屋に入った後に取得される。図１に示す例では、部屋１０２は、テーブル１０３ａ、ランプ１０３ｂ、時計１０３ｃ、第１の植物１０３ｄ、および第２の植物１０３ｅを含む物理的オブジェクトのセット１０３を含むものとして示されている。部屋の画像１０６は、部屋の２次元表現であり、一般に、画像１０６が必ずしもオブジェクト１０３ａ～ｅそれぞれを捉えておらず、本質的に特定の視点からの部屋のビューのレンダリングであるという意味で、３次元の部屋の部分画像である。例えば、カメラの視点に基づいて、部屋の中のオブジェクトの一部のみが捉えられる。この説明例では、画像１０６は、時計１０３ｃおよび第１の植物１０３ｄの２Ｄ表現を含むが、テーブルランプ１０３ｂおよび第２の植物１０３ｅは撮像視野の外にあり、テーブル１０３ａはビューから遮られている。さらに、画像は、必ずしも、システムを訓練するために使用されていた可能性のある部屋の以前の画像の視点または照明条件と一致している必要はない。

オブジェクトロケータ／記述子生成器１０８は、画像１０６を処理して、画像内のオブジェクトのインスタンスを位置付け、位置が特定されたオブジェクトの記述子のセット１１２を生成する（ステップ３２０）。この例では、記述子のセットは、時計１０３ｃに対応する第１の記述子１１２ａと、第１の植物１０３ｄに対応する第２の記述子１１２ｂとを含む。以下により詳細に説明されているように、本実施形態では、オブジェクトロケータ／記述子生成器１０８は、２つのステップのシーケンスを実行する。すなわち、まず画像内でどのオブジェクト（すなわち、オブジェクトのクラス）の位置を特定することができるかについての決定を行うステップ（ステップ３２２）と、次に、位置が特定された各オブジェクトと関連付けられた画像の部分を処理し、そのオブジェクトのインスタンスのための記述子を決定し（ステップ３２４）、前のステップで位置が特定された各オブジェクトに対して１つの記述子を生成するステップとが実行される。これらのステップは、それぞれ、ロケータ／記述子生成器１０８に提供される設定パラメータ１１０の値を用いて設定される機械学習モデルを利用する。これらの機械学習モデルの詳細、および設定パラメータの値を決定するプロセス（「訓練」）を以下で記述する。

記述子のセット１１２を決定した後、システムはマッチャー１１４を適用して、決定したセットをデータベース１１６内のデータと比較する（ステップ３３０）。本実施形態では、データベースは、レコード１１８のセット（「参照レコード」）を含む。各レコード１１８は、特定の既知の部屋に対応し、その既知の部屋についての画像または画像のセットにおいて以前に発見されたオブジェクトの記述子１２０を含む。一般に、マッチャーは、データベースの各レコードを調べ（第１のレコードにアクセスするステップ３３２および後続の各レコードのためのステップ３４０）、未知の部屋のオブジェクトとそのレコードに表されるオブジェクトとをマッチングし（ステップ３３６）、データベースのどのレコード１１８が画像１０６から決定された記述子のセット１１２に最もマッチングするかを記録し（ステップ３４２）、そのベストマッチングレコードを用いてどの既知の部屋が未知の部屋に最もマッチングするかを決定して未知の部屋を認識する（ステップ３５０）。

各既知の部屋についての記述子と同様に、未知の部屋についての各記述子は、記述子に関連付けられた関連オブジェクトクラス識別子を有する（図１には示されていない）。これらのオブジェクトクラス識別子は、後述するように、マッチング手順においてマッチャー１１４によって使用される。

マッチャー１１４は、未知の部屋についての画像１０６において決定された記述子のセット１１２におけるよりも多くのオブジェクトについての記述子１２０を有する既知の部屋のための参照レコード１１８を収容し、データベース内のレコード内にはないオブジェクトを含む記述子のセット１１２をさらに収容する。例えば、データベースが形成された後に、新しいオブジェクトが部屋に置かれた場合があり、上述したように、カメラの視点に基づいて特定のオブジェクトが省略される場合がある。さらに、マッチャー１１４は、例えば、２つの類似のオブジェクトが存在する場合（例えば、植物１０３ｄおよび植物１０３ｅのように２つの見た目が似ている植物）、記述子（およびそれらの対応するオブジェクトインスタンス）の最良の関連性を見つけ出すように構成される。

２オブジェクトロケータ／記述子生成器
図１を参照して上記で紹介したように、本実施形態のオブジェクトロケータ／記述子生成器１０８は、オブジェクトの位置を特定し、次いで記述子生成という２段階で動作する。これら２つの段階のそれぞれを後述する。

２．１オブジェクトロケータ
オブジェクトロケータは、画像１０６のピクセルを処理して、オブジェクトロケータの訓練で使用されるオブジェクトタイプのセットに対応するオブジェクトのバウンディングボックスを決定する畳み込みニューラルネットワークアプローチを利用する。しかしながら、オブジェクトロケータの訓練が、既知の部屋における特定のオブジェクトインスタンスの例を有していたこと、または部屋におけるオブジェクトクラスの例を有していたことさえも、要件ではないことに留意されたい。むしろ、オブジェクトロケータは、より一般的には画像内の関心区域のセットを識別すると考えることができ、その後、これらの関心区域は、後述する記述子生成器を含むさらなる処理に使用される。

オブジェクトロケータは、参照することにより本明細書に組み込まれているＲｅｄｍｏｎ，Ｊｏｓｅｐｈ，ａｎｄＡｌｉＦａｒｈａｄｉ“ＹＯＬＯ９０００：ｂｅｔｔｅｒ，ｆａｓｔｅｒ，ｓｔｒｏｎｇｅｒ，”ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎａｎｄｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ，ｐｐ．７２６３－７２７１，２０１７に記載の「ＹＯＬＯｖ２」と呼ばれるアプローチに基づく畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）アプローチを使用する。非常に一般的には、画像を処理したＹＯＬＯｖ２システムの出力は、位置が特定されたオブジェクトのセットを含み、ここで、出力中の各オブジェクトについて、バウンディングボックス（４つの値）、信頼度／オブジェクト検出スコア（１つの値）、およびオブジェクトクラス確率（クラスごとに１つの値、例えば、２０のオブジェクトクラスに対して２０の値）を含む。

オブジェクトロケータでＹＯＬＯｖ２アプローチを使用する際、位置が特定されたオブジェクトごとにさらなる出力が抽出される。特に、ニューラルネットワークの出力層の出力ユニットで信頼度／オブジェクト検出値が計算され、その出力ユニットへの入力がさらなる処理のための特徴量として使用される。ＹＯＬＯｖ２アーキテクチャでは、これらの値は、ニューラルネットワークの最後から２番目の層の出力と、「スキップ接続」アーキテクチャで前倒しされた１つまたは複数の下位層からの出力とを含むことに留意されたい。本実施形態では、このようにオブジェクトを表す値の数は１０２４の値をとる。オブジェクト全体のこれらのＮＮＮ次元表現は、オブジェクトの「特徴量」と呼ばれ、サイズＭ×Ｎのバウンディングボックスに対して、事実上、オブジェクトのインスタンスを表すＭ^＊Ｎ^＊ＮＮＮの値がある。

２．２記述子生成器
記述子生成器は、オブジェクトロケータの出力を受信する。本実施形態では、記述子生成器は、Ｍ^＊Ｎ^＊ＮＮＮの特徴量のみを使用し、クラス確率、信頼度、およびバウンディングボックスの特定の位置は無視する。

図３を参照すると、記述子生成器は、２つの畳み込み層および２つの全結合層を有する畳み込みニューラルネットワークであり、最後の層の出力が出力記述子である。オブジェクトロケータによって決定された可変サイズのバウンディングボックスから生じる可変サイズの入力を考慮するために、グローバル「最大プーリング」が畳み込み層の出力に対して実行される。記述子生成器の出力は、５１２の実数値からなるベクトルである。

３マッチャー
上記で紹介したように、マッチャーの機能は、未知の部屋の記述子のセット１１２と、データベース内の各既知の部屋の記述子１２０のセットとを比較することである。マッチャーは、２つのそのようなセット間でスコアを形成し（図２のステップ３３６）、そのスコアが大きいほど、記述子はより類似している。

記述子の２つのセット、例えば、未知の部屋についてのＮ個の記述子と既知の部屋についてのＭ個の記述子のセットとの間のスコアは、まず、同じクラスの記述子、すなわち未知の部屋からのある記述子と既知の部屋からのある記述子との間のペアワイズ距離を計算することによって求められる。この実施態様では、記述子ａと記述子ｂとの間のユークリッド距離||ｄ_ａ－ｄ_ｂ||を距離として用いる。

ユークリッド距離を直接用いるのではなく、オブジェクトクラスｑに関連付けられた（すなわち、オブジェクトロケータによって決定される）未知の部屋からの記述子ｄは、データベース１１６の任意の既知の部屋における同じクラスのすべてのＮ_ｑ個の記述子（すなわち、全レコードからプーリングされたもの）と比較される。すなわち、そのクラスの既知の記述子は、ｄ_１，ｄ_２，．．．ｄ_Ｎｑと表すことができる。記述子ｄとデータベース内の特定の記述子ｄ_ｉとの間のスコアは、距離||ｄ－ｄ_ｉ||によって順序付けられるその記述子のランクによって定義される。ベストマッチをランク１、ワーストマッチをランクＮ_ｑとするこのランクｒ_ｉ＝ランク（ｄ_ｉ，ｄ，ｑ）は、ｓ_ｉ＝ｅｘｐ（－１０ｒ_ｉＮ^－１ _ｑ）としてスコアに変換され、ここで、スケール値１０は、実験的に決定される。すなわち、同じクラスのワーストマッチング記述子は、ｓ_ｍｉｎ＝ｅｘｐ（－１０）（すなわち、ゼロに近い）スコアを有するのに対し、最もマッチングが良い記述子は、例えば、Ｎ_ｑ＝１００であれば５ｘ１０^－５～０．９までの、またはＮ_ｑ＞１０００であればおよそ１．０までの範囲のスコアｓ_ｍａｘ＝ｅｘｐ（－１０Ｎ^－１ _ｑ）を有するであろう。

少なくとも概念的には、未知の部屋の記述子と既知の部屋の記述子との間の関係は、未知の部屋についてのＮ個の記述子に対応するＮ個のノードが、最大Ｎ^＊Ｍ個のリンクを介して既知の部屋のＭ個のノードにリンクされてもよく、それぞれがそのリンクに関連付けられた記述子間のスコアによって重み付けされる２部グラフとして表すことができる。異なるクラスのノードはリンクされないことに留意されたい。次に、記述子の２つのセット間のスコアは、例えば、参照することにより本明細書に組み込まれているＧａｌｉｌ，Ｚｖｉ，“Ｅｆｆｉｃｉｅｎｔａｌｇｏｒｉｔｈｍｓｆｏｒｆｉｎｄｉｎｇｍａｘｉｍｕｍｍａｔｃｈｉｎｇｉｎｇｒａｐｈｓ．”ＡＣＭＣｏｍｐｕｔｉｎｇＳｕｒｖｅｙｓ（ＣＳＵＲ）１８，ｎｏ．１（１９８６）：２３－３８に記載されているマッチングアルゴリズムを用いて、ノードのマッチングに従って決定される。すなわち、目標は、各記述子が他のセットの０または１つの記述子とマッチングし得るという制約の下で、マッチングした記述子のスコアの合計を最大化することである（すなわち、未知の場所のセットからの記述子が既知の場所のセットからの複数の記述子とマッチングしてはならず、既知の場所のセットからの記述子が未知の場所のセットからの２つ以上の記述子とマッチングしてはならない）。このマッチングは、参照したＺｖｉの論文で説明されているように、最大フロー問題として効率的に実施できることを理解すべきである。したがって、未知の部屋についての記述子のセットと、既知の部屋のそれぞれについての記述子のセットとの間には、１つのスカラー実数値スコアが存在する。

上記で紹介したように、マッチャーはデータベース内の各レコード（すなわち各部屋）を考慮し、最大グラフマッチングスコアを有するレコードを認識された部屋として戻す。

４訓練
上記で紹介したように、オブジェクトロケータ／記述子生成器１０８（図１参照）は、設定パラメータ１１０の値を用いてパラメータ化されている。また、上述したように、オブジェクトロケータ／記述子生成器の２つのコンポーネント、すなわち、オブジェクトロケータおよび記述子生成器がある。これらのコンポーネントはそれぞれ、別個の訓練手順を用いて決定される別個の設定パラメータを有する。

４．１オブジェクトロケータの訓練
オブジェクトロケータは、画像のデータベースを用いて訓練され、各画像は、画像で見出され得る定義済みのオブジェクトクラスのセットからさまざまなオブジェクトのクラスラベルおよびバウンディングボックスアノテーションを含む。いくつかの実験では、オブジェクト検出器はＣＯＣＯデータセット（Ｔ．－Ｙ．Ｌｉｎ，Ｍ．Ｍａｉｒｅ，Ｓ．Ｂｅｌｏｎｇｉｅ，Ｊ．Ｈａｙｓ，Ｐ．Ｐｅｒｏｎａ，Ｄ．Ｒａｍａｎａｎ，Ｐ．Ｄｏｌｌａｒ，ａｎｄＣ．Ｌ．Ｚｉｔｎｉｃｋ，“ＭｉｃｒｏｓｏｆｔＣＯＣＯ：ＣｏｍｍｏｎＯｂｊｅｃｔｓｉｎＣｏｎｔｅｘｔ，” ＩｎＥＣＣＶ，２０１４）およびＡＤＥ２０Ｋデータセット（Ｂ．Ｚｈｏｕ，Ｈ．Ｚｈａｏ，Ｘ．Ｐｕｉｇ，Ｓ．Ｆｉｄｌｅｒ，Ａ．Ｂａｒｒｉｕｓｏ，ａｎｄＡ．Ｔｏｒｒａｌｂａ，“ＳｃｅｎｅＰａｒｓｉｎｇｔｈｒｏｕｇｈＡＤＥ２０ＫＤａｔａｓｅｔ，”ＩｎＣＶＰＲ，２０１７）を用いて訓練される。これらのデータセットは、さまざまなオブジェクトカテゴリに対するバウンディングボックスアノテーションを有する画像を含む。８０のオブジェクトカテゴリがアノテーションされているＣＯＣＯデータセットからは、室内環境に現れ、比較的静的な１５カテゴリのみを使用した。さらに、ＡＤＥ２０Ｋデータセットのより具体的なカテゴリのいくつかを統合することによって、１０個の異なるオブジェクトカテゴリを形成した。選択されたカテゴリは、ＣＯＣＯデータセットでは約４５ｋ画像、ＡＤＥ２０Ｋデータセットでは約１０ｋ画像で出現する。

４．２記述子生成器の訓練
記述子生成器の訓練の目標は、同じオブジェクトインスタンスを比較したときにユークリッド距離が小さく、異なるオブジェクトインスタンス由来の場合はユークリッド距離が大きくなる記述子を生成することである。上記マッチング手順では、オブジェクトロケータによって同じクラスだとみなされたオブジェクトの記述子のみが比較される。訓練手順は、図３に示す構造を有するニューラルネットワークの重みを決定する。

訓練手順は、Ｆ．Ｓｃｈｒｏｆｆ，Ｄ．Ｋａｌｅｎｉｃｈｅｎｋｏ，ａｎｄＪ．Ｐｈｉｌｂｉｎ，“ＦａｃｅＮｅｔ：ＡＵｎｉｆｉｅｄＥｍｂｅｄｄｉｎｇｆｏｒＦａｃｅＲｅｃｏｇｎｉｔｉｏｎａｎｄＣｌｕｓｔｅｒｉｎｇ，”ＩｎＣＶＰＲ，２０１５に記載されているように、「トリプレット（ｔｒｉｐｌｅｔ）」損失関数を使用する。トリプレット損失は、アンカー、ポジティブサンプルおよびネガティブサンプルから形成される画像トリプレットに基づく。本訓練アプローチでは、これらは、参照オブジェクト、異なる画像内の同じオブジェクトインスタンス、および他の任意のオブジェクトの特徴量である。ネガティブサンプルは、どのクラスの由来であってもよいため、誤分類に対するロバスト性を記述子に与えることができる。訓練が進むにつれて、適度に難しいトリプレット選択処理により、異なるクラス由来のネガティブサンプル中のオブジェクトの割合が減少する。

トリプレット損失は、ｄｅｓｃ_ａと表されるアンカー、ｄｅｓｃ_ｐと表されるポジティブサンプルおよびｄｅｓｃ_ｎと表されるネガティブサンプルから生成された記述子を用いて計算される。その後、アンカー記述子と他の２つの記述子との間のユークリッド距離が、
ｄ_ｐ＝||ｄｅｓｃ_ａ－ｄｅｓｃ_ｐ||，およびｄ_ｎ＝||ｄｅｓｃ_ａ－ｄｅｓｃ_ｎ||
に従って計算され、ｄ_ｐおよびｄ_ｎを用いて、トリプレット損失Ｌは、
Ｌ＝ｍａｘ（０，ｄ_ｐ－ｄ_ｎ＋Ｍ）
と定義され、式中、Ｍは、ポジティブサンプルとネガティブサンプルとの間の最小の望ましい分離を示すマージンパラメータである。

記述子の訓練中、オブジェクト検出器ネットワークの重みは、トリプレット損失をネットワークのオブジェクト検出部に伝搬させないことによって固定されたままである（すなわち、オブジェクトロケータネットワークによって生成される特徴量は記述子生成器の訓練中に変化しない）。収束を保証し、訓練プロセスを高速化するために、上記で引用したＳｃｈｒｏｆｆの参考文献に従い、訓練法に対して２つの条件が用いられる。１つ目の条件は、適度に難しいトリプレット、すなわち、条件ｄ_ｐ＜ｄ_ｎを満たすトリプレットのみを用いて訓練を行うことである。この条件では、ポジティブサンプルとネガティブサンプルとの間に正しい分離が既に存在し、それがマージンよりも小さければ潜在的に改善され得るトリプレットのみを使用する。最も難しいトリプレットから開始しないことにより、分類器に早い段階で負担をかける（ｏｖｅｒｗｈｅｌｍ）ことを避け、ｆ（ｘ）＝０の一定のマッピングへと収束させる。その後、訓練中にネットワークの記述力が増大すると、形成されるトリプレットの難易度も高くなる。

訓練プロセスに課された２つ目の条件は、ミニエポックの使用である。エポックとは、限られた数のオブジェクトインスタンスをランダムに選択し、選択されたオブジェクトのそれぞれを表す一定量の画像のみを撮影することによって形成される。これらの画像から、使用可能なすべてのポジティブペアリングが形成され、ネガティブサンプルはデータセット全体からランダムに選択される。同様に、この制限により、一度にデータセットのわずかな部分のみに焦点を当てることによって記述子に負担をかけることを避けることができる。

記述子生成器は、オブジェクトロケータとは異なるデータで訓練される。その理由の１つは、オブジェクトロケータに使用されるデータセットが、画像間のオブジェクトインスタンスの関連付けに関する情報を含んでいないためである。そこで、主に住宅を含むアノテーション付き３Ｄメッシュおよび画像の集合であるＭａｔｔｅｒｐｏｒｔ３Ｄデータセットが使用された（Ｃｈａｎｇ，Ａｎｇｅｌ，ＡｎｇｅｌａＤａｉ，ＴｈｏｍａｓＡｌｌｅｎＦｕｎｋｈｏｕｓｅｒ，ＭａｃｉｅｊＨａｌｂｅｒ，ＭａｔｔｈｉａｓＮｉｅｂｎｅｒ，ＭａｎｏｌｉｓＳａｖｖａ，ＳｈｕｒａｎＳｏｎｇ，ＡｎｄｙＺｅｎｇ，ａｎｄＹｉｎｄａＺｈａｎｇ．”Ｍａｔｔｅｒｐｏｒｔ３Ｄ：ＬｅａｒｎｉｎｇｆｒｏｍＲＧＢ－Ｄｄａｔａｉｎｉｎｄｏｏｒｅｎｖｉｒｏｎｍｅｎｔｓ．” Ｉｎ７ｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ３ＤＶｉｓｉｏｎ，３ＤＶ２０１７，ｐｐ．６６７－６７６．ＩｎｓｔｉｔｕｔｅｏｆＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｓＩｎｃ．，２０１８）。Ｍａｔｔｅｒｐｏｒｔ３Ｄデータは、オブジェクトロケータがバウンディングボックスのＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ（ＩｏＵ）が０．５超で類似オブジェクトを検出できたバウンディングボックスアノテーションのみを残すように制限された。この基準を用い、合計１６ｋインスタンスの合計約２０００個のオブジェクトが使用された。

Ｍａｔｔｅｒｐｏｒｔ３Ｄデータセットはポーズが異なっていてもよいが、各家は一度だけ撮影されているため、同じオブジェクトの異なるインスタンスに対する照明に変化がないことに留意すべきである。

５データベース構築
既知の場所のデータベース１１６の構築は、オブジェクトロケータおよび記述子生成器の訓練とは独立している。いくつかの例では、既知の部屋についての画像が収集され、未知の部屋について図１に示すのと同様に記述子が生成される。その既知の部屋についての記述子のセットは、その後、既知の部屋についての識別子と関連するデータベースに格納される。マッチング中、既知の部屋の１つの画像に対応する記述子のベストマッチングセットが決定された後、既知の部屋についてのその識別子は、認識結果として戻すために利用できる。

６代替案および実施態様
オブジェクトロケータ／記述子生成器の代替構造を使用してもよいと認識すべきである。例えば、オブジェクトロケータおよび記述子生成器は、１つのニューラルネットワークに組み込まれ、一緒に訓練されてもよい。さらに、（例えば、ＣＮＮｓとは対照的に）他のタイプの機械学習技術がこれらのコンポーネントに使用されてもよい。

代替的なマッチングスコアを使用してもよく、ならびに他の距離またはスコアアプローチを使用してもよく、好ましくは、単に検出されたオブジェクトのクラスに依存するのではなく、訓練されたインスタンス記述子を使用して、検出されたオブジェクトと参照されたオブジェクトとのマッチングに異なるアプローチを使用してもよい。

いくつかの代替案では、場所の以前の最良の画像をマッチングするのではなく、場所の複数の画像を組み合わせて、場所の複数の視点で見出されるすべてのオブジェクトを含む複合参照レコードを形成してもよい。また、オブジェクトの記述子は、異なる参照画像から異なる記述子を維持するのではなく、複数の画像から導出（例えば、平均化）してもよい。

他の代替的アプローチは、オブジェクト間の３Ｄの幾何学的関係を利用してもよいことに留意されたい。このような幾何学的考察は、例えば、オブジェクトが参照画像と未知の画像とで両立する幾何学的関係にある場合、より高いスコアを生成する。

このアプローチは、単に既知の場所のセットから認識するのではなく、他のタイプの問題にも適用可能である。同様のスコアアプローチは、場所によってラベル付けされていない画像の教師なしクラスタリング、および場所の画像の類似性をマッピングタスクで以前の画像と比較できる自己位置推定および地図作成の同時実行（ＳＬＡＭ）などの用途で使用してもよい。

上記技術は、ソフトウェア、ハードウェア、またはソフトウェアとハードウェアとの組み合わせで実施することができる。異なるシステムは、アプローチの異なる態様、例えば、オブジェクトロケータの訓練、記述子生成、および参照データベースの構築に使用してもよい。非一時的な機械可読媒体に格納され得るソフトウェアは、汎用プロセッサ、特定のプロセッサアーキテクチャ、例えば、グラフィックプロセッサユニット（ＧＰＵ）に見出される並列アーキテクチャ、または仮想プロセッサ上で実行するための命令を含むことができる。ハードウェアとして、特定用途向け集積回路（ＡＳＩＣ）、または設定可能な回路（例えば、フィールドプログラマブルゲートアレイ、ＦＰＧＡ）を挙げることができ、ハードウェアは、機械可読媒体に格納された設計構造で表されてもよく、設計構造は、ハードウェアを製造するプロセスに用いるための命令（例えば、Ｖｅｒｉｌｏｇ）を含む。

上記の説明は例示を意図しており、添付の特許請求の範囲で定義される本発明の範囲を制限することを意図していないことを理解されたい。他の実施形態は以下の特許請求の範囲に包含される。

Claims

場所認識のための方法であって、
未知の場所について取得された画像を受信するステップと、
前記未知の場所についての前記画像から記述子のセットを計算するステップであって、
前記画像内の事前定義されたクラスの第１のセットから複数のオブジェクトの位置を特定することであって、位置が特定された各オブジェクトに対して前記画像の対応する領域を決定することを含むことと、
少なくとも前記画像の関連付けられた領域に基づいて、それぞれ位置が特定されたオブジェクトを表す数値ベクトルを構成するように、記述子生成器を用いて各記述子を計算すること
とを含み、
ここで、前記記述子生成器は、第２の設定パラメータの値を用いて設定された第２の人工ニューラルネットワークを含み、
前記値は、オブジェクトクラスの第２のセットに従ってオブジェクトとともにアノテーションが付けられた画像と、前記クラス内のオブジェクトのインスタンスと、からなる第２の訓練コーパスから決定され、
前記第２の訓練コーパスは、オブジェクトの同じインスタンスを有する複数の画像と、前記オブジェクトクラスの第２のセットのうちのあるオブジェクトクラスの複数の異なるインスタンスを有する画像とを含む、
ステップと、
参照レコードのデータベースにアクセスするステップであって、各参照レコードは、既知の場所に関連付けられており、前記既知の場所の対応する画像内のオブジェクトに対して以前に計算された記述子のセットを含む、ステップと、
前記未知の場所についての前記画像からの前記記述子のセットを、前記データベースの前記参照レコードとマッチングするステップであって、
前記参照レコードの少なくとも一部の各参照レコードに対して、
前記未知の場所の前記画像から計算された記述子と前記参照レコードの記述子との間のマッチングを表すスコアを決定することと、
前記データベースのベストマッチング参照レコードを決定することと
を含む、ステップと、
前記未知の場所を、前記データベースの前記ベストマッチング参照レコードに関連付けられた場所として認識するステップと
を含む、
方法。
前記未知の場所についての前記画像から前記記述子のセットを計算するステップは、
オブジェクトロケータを用いて前記画像を処理して、
前記画像内の前記オブジェクトのセット、
前記オブジェクトのセットの各オブジェクトと関連付けられた前記画像の領域、および
各領域と関連付けられた前記画像の処理済み特徴
を決定し、
ここで、前記記述子生成器を用いて前記記述子を計算することは、
前記オブジェクトのセットの各オブジェクトについて、
前記処理済み特徴を入力すること、および
前記対応する記述子を出力として生成すること
を含む、請求項１に記載の方法。
前記オブジェクトロケータは、第１の人工ニューラルネットワークを構成する、請求項２に記載の方法。
オブジェクトについての前記画像の前記処理済み特徴を決定することは、前記画像内の前記オブジェクトの前記決定された領域について、前記第１の人工ニューラルネットワーク内で生成された中間値を使用することを含む、請求項３に記載の方法。
前記第１の人工ニューラルネットワークを、第１の設定パラメータの値を用いて設定することをさらに含み、前記値は、オブジェクトクラスの第１のセットに従ってオブジェクトとともにアノテーションが付けられた画像を含む第１の訓練コーパスから決定されている、請求項３に記載の方法。
前記オブジェクトクラスの第２のセットは、前記オブジェクトクラスの第１のセットとは異なり、前記第１の訓練コーパスは、前記第２の訓練コーパスとは異なる、請求項５に記載の方法。
前記第２の設定パラメータの前記値は、前記オブジェクトクラスの第２のセット内のオブジェクトクラスの異なるインスタンスを区別するために選択される、請求項５に記載の方法。
前記第１の設定パラメータの前記値を、前記第１の訓練コーパスを用いた人工ニューラルネットワーク訓練手順を用いて決定することをさらに含む、請求項５に記載の方法。
前記第２の設定パラメータの前記値を、前記第２の訓練コーパスを用いた人工ニューラルネットワーク訓練手順を用いて決定することをさらに含む、請求項５に記載の方法。
前記第２の設定パラメータの前記値を決定するために用いられる訓練手順は、前記オブジェクトクラスの第２のセットの各オブジェクトクラス内のオブジェクトインスタンスの区別性を最適化することを含む、請求項９に記載の方法。
前記未知の場所についての前記画像からの前記記述子のセットを、前記データベースの前記参照レコードとマッチングするステップは、前記未知の場所についての前記記述子のセットを前記データベースの第１のレコードの記述子の第１のセットとマッチングすることを含み、
記述子の対の間でスコアを決定することであって、各対は、前記未知の場所についての前記画像からの前記記述子のセットのうちの１つの記述子と、前記データベースからの前記記述子の第１のセットのうちの１つの記述子とを含む、ことと、
前記未知の場所についての前記画像からの前記記述子のセットのうちの一部または全部の記述子のそれぞれと、前記記述子の第１のセットの対応する記述子とのベストマッチングを決定することであって、前記ベストマッチングは、記述子の対の間の前記スコアから決定された対応する最良のスコアを有する、ことと
を含む、請求項１に記載の方法。
前記未知の場所についての前記記述子のセットを、前記データベースの第１のレコードの記述子の第１のセットとマッチングすることは、エッジ重みが記述子の対の間の前記スコアから決定された二部グラフにおけるグラフマッチング手順を実行することを含む、請求項１１に記載の方法。
コンピュータに実装される場所認識システムであって、
未知の場所の画像を受信するように構成され、前記画像内の事前定義されたクラスのセットからオブジェクトの位置を特定し、位置が特定された各オブジェクトについての前記画像の関連付けられた領域を決定するように構成されたオブジェクトロケータと、
前記オブジェクトロケータによって位置が特定された前記オブジェクトのセットの各オブジェクトについて、少なくとも前記画像の前記関連付けられた領域に基づいて、それぞれ位置が特定されたオブジェクトを表す数値ベクトルを構成するように、各記述子を計算するように構成可能な記述子生成器であって、
ここで、第２の設定パラメータの値を用いて設定された第２の人工ニューラルネットワークを含み、
前記値は、オブジェクトクラスの第２のセットに従ってオブジェクトとともにアノテーションが付けられた画像と、前記クラス内のオブジェクトのインスタンスと、からなる第２の訓練コーパスから決定され、
前記第２の訓練コーパスは、オブジェクトの同じインスタンスを有する複数の画像と、前記オブジェクトクラスの第２のセットのうちのあるオブジェクトクラスの複数の異なるインスタンスを有する画像とを含む、
前記記述子生成器と、
各レコードが既知の場所と関連付けられている複数の参照レコードと、前記既知の場所に関連付けられたオブジェクトの記述子についてのセットとを格納するデータベースと、
前記参照レコードの少なくとも一部の各参照レコードについて、前記未知の場所の前記画像から計算された記述子と、前記参照レコードの記述子との間のマッチングを表すスコアを決定するように構成されたマッチャーと
を備え、
前記場所認識システムは、ベストマッチング参照レコードに従って前記未知の場所を認識するように構成される、場所認識システム。
前記オブジェクトロケータは、第１の設定パラメータの値に従って設定可能な第１の人工ニューラルネットワークを構成し、前記記述子生成器は、第２の設定パラメータの値に従って設定可能な第２の人工ニューラルネットワークを構成する、請求項１３に記載の場所認識システム。
前記第１の設定パラメータおよび前記第２の設定パラメータの値を用いて設定され、前記第１の設定パラメータの前記値は、オブジェクトクラスの第１のセットに従ってオブジェクトとともにアノテーションが付けられた画像を含む第１の訓練コーパスから決定され、前記第２の設定パラメータの値は、オブジェクトクラスの第２のセットに従ってオブジェクトとともにアノテーションが付けられた画像からなる第２の訓練コーパスから決定される、請求項１４に記載の場所認識システム。