JP2020087440A

JP2020087440A - 位置合わせされたｃａｄモデルを使用するａｒ対応ラベル付け

Info

Publication number: JP2020087440A
Application number: JP2019192525A
Authority: JP
Inventors: マシュー・エイ・シュリーブ; A Shreve Matthew; ロバート・アール・プライス; R Price Robert
Original assignee: Palo Alto Research Center Inc
Current assignee: Palo Alto Research Center Inc
Priority date: 2018-11-15
Filing date: 2019-10-23
Publication date: 2020-06-04
Anticipated expiration: 2039-10-23
Also published as: US10854006B2; EP3678101A2; JP7488435B2; EP3678101A3; US20200160601A1

Abstract

【課題】画像検出人工知能（ＡＩ）エンジンを訓練するための訓練データの効率的な収集を容易にするシステムを提供する。【解決手段】訓練データの効率的な収集を容易にするための環境において、システムは、動作中、シーン内に配置された物理的物体の３次元（３Ｄ）モデルを取得し、３Ｄモデルに基づいて物理的物体に対応する仮想物体を生成し、拡張現実（ＡＲ）カメラの視野内で、仮想物体を物理的物体の上に実質的に重ね合わせる。システムは、ＡＲカメラを、シーン内の物理的物体を含む物理的画像及び物理的物体上に重ね合わせられた仮想物体を含む対応するＡＲ画像を捕捉し、ＡＲ画像に基づいて物理的画像のアノテーションを作成する。【選択図】図２

Description

本開示は、概して、コンピュータビジョンシステムに関する。より具体的には、本開示は、機械学習のための訓練データの効率的な収集のための、拡張現実（ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ、ＡＲ）技術及び既存のコンピュータ支援設計（ｃｏｍｐｕｔｅｒ−ａｉｄｅｄｄｅｓｉｇｎ、ＣＡＤ）モデルを使用するシステム及び方法に関する。

現在、機械学習技術は、画像内の物体（例えば、顔、車、建物など）を検出することにおいて、著しい進歩を遂げてきた。特定の用途では、識別された物体は、矩形の境界ボックスを使用して強調され得る。例えば、デジタルカメラは、画像内の顔を取り囲む矩形のボックスを配置するように構成され得る。しかしながら、そのような境界ボックスは、物体の形状に適合せず、細粒シーン分析では限定された有用性を有し得る。物体の画素レベルの輪郭を有することによって、物体をその背景からセグメント化する能力は、より高速な訓練（例えば、訓練サンプルのより効率的な収集）、及び物体のより正確な場所及び配向の検出をもたらし得る。更に、そのような能力は、拡張現実及び画像編集アプリケーションなどの、物体の境界の正確な識別に依存する新しいアプリケーションを可能にし得る。

画素レベルセグメンテーションシステムを訓練する際の重要な障壁は、サンプル画像内の物体の画素レベルの輪郭を提供する訓練データを取得することである。従来、訓練データを取得することは、収集された画像又はビデオフレーム内の対象の物体に手動でアノテーション又はラベル付けする（例えば、手動で部分又は物体の場所を示す）面倒なプロセスによって達成され得る。そのような非効率的なプロセスは、その分野の専門家によって、又はクラウドソーシングによって行われ得る。その分野の専門家は、高精度のラベルを提供することができ、これは、コスト及び時間の著しい消費を伴い得る。一方で、クラウドソーシングの作業者（例えば、ＡｍａｚｏｎＭｅｃｈａｎｉｃａｌＴｕｒｋｓ）は、低コストかつ高速なターンアラウンドでラベルを提供し得るが、ラベルの精度及び正確さは、潜在的に損なわれ得る。

プロセスを加速するために３次元（ｔｈｒｅｅ−ｄｉｍｅｎｓｉｏｎａｌ、３Ｄ）情報を活用するセマンティックセグメンテーションラベルを収集するための様々なアプローチが、昨今、提案されてきた。例えば、ＳｅｍａｎｔｉｃＰａｉｎｔは、ユーザーが、画素レベルのラベル伝搬アルゴリズムをトリガするハンドジェスチャを使用して、３Ｄ再構築された物体の表面を塗ることを可能にする、対話型仮想現実（ｖｉｒｔｕａｌｒｅａｌｉｔｙ、ＶＲ）アプローチである。このシステムは、ユーザーがラベル付けのライブフィードバックを提供する際、完全にオンラインであるように設計されている。別の対話型３Ｄラベル付けアプローチは、マルコフ確率場（ＭａｒｋｏｖＲａｎｄｏｍＦｉｅｌｄｓ、ＭＲＦ）と物体定位との組み合わせを使用したシーンの初期３Ｄセグメンテーションの実行と、それに続く、ユーザーによる精密化とを伴い得る。異なるアプローチは、深さセンサ及び最新のアルゴリズムを使用して、３Ｄ室内シーンを再構築し、次いで、クラウドソーシングの作業者を使用して、再構築された３Ｄシーン内の物体にアノテーションし得る。全てのこれらの手法は、複雑なアルゴリズム及び広範な手作業に依存する。

一実施形態は、画像検出人工知能（ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）エンジンを訓練するための訓練データの効率的な収集を容易にするシステムを提供する。動作中、システムは、シーン内に配置された物理的物体の３次元（３Ｄ）モデルを取得し、３Ｄモデルに基づいて物理的物体に対応する仮想物体を生成し、拡張現実（ＡＲ）カメラの視野内で、仮想物体を物理的物体の上に実質的に重ね合わせる。システムは、ＡＲカメラを、シーン内の物理的物体を含む物理的画像、及び物理的物体上に重ね合わせられた仮想物体を含む対応するＡＲ画像を捕捉し、ＡＲ画像に基づいて物理的画像のアノテーションを作成するように更に構成し得る。

この実施形態の変形例では、物理的画像のアノテーションを作成することは、物理的画像の画素レベルのラベルを作成することを含み得る。

更なる変形例では、物理的画像のアノテーションは、ＡＲ画像内の画素のラベルを物理的画像内の画素にリンクさせる画素マスクを含み得、ＡＲ画像内の画素のラベルが、３Ｄモデルに基づいて作成される。

この実施形態の変形例では、３Ｄモデルは、物理的物体と関連付けられたコンピュータ支援設計（ＣＡＤ）モデル、又は３Ｄスキャン技術を使用して生成された物理的物体の３Ｄモデルを含み得る。

この実施形態の変形例では、仮想物体を物理的物体上に重ね合わせることは、ＡＲカメラの視野内で、仮想物体を物理的物体に手動で位置合わせすること、又は特徴分析技術を使用して、ＡＲカメラの視野内で、仮想物体を物理的物体に自動的に位置合わせすること、を含み得る。

この実施形態の変形例では、システムは更に、撮像条件を変更して、更新されたＡＲカメラ視野を作成し、更新されたＡＲカメラ視野内で、仮想物体を物理的物体に再位置合わせし、追加の物理的画像及び追加の対応するＡＲ画像を捕捉し、ＡＲ画像に基づいて追加の物理的画像にアノテーションし得る。

更なる変形例では、仮想物体を物理的物体に再位置合わせすることは、ＡＲカメラの姿勢を追跡することと、ＡＲカメラの追跡されたポーズに基づいて、更新されたカメラ視野内の物理的物体の姿勢を計算することと、更新されたカメラ視野内の物理的物体の計算された姿勢に基づいて仮想物体の姿勢を調整することと、を含み得る。

更なる変形例では、撮像条件を変更することは、カメラと物理的物体との間の距離を変更することと、カメラの角度を変更することと、照明条件を変更することと、シーン内の背景を変更することと、物理的物体の表面的外観を変更することと、物理的物体の姿勢を変更することと、物理的物体内の２つの構成要素間の相対位置を変更することと、閉塞物体を追加又は除去することと、のうちの１つ以上を含み得る。

この実施形態の変形例では、システムは更に、訓練データ集に、物理的画像及び対応するアノテーションを記憶し、訓練データ集に基づいて、物理的物体を識別するように畳み込みニューラルネットワークを訓練し得る。

この実施形態の変形例では、ＡＲカメラは、スマートグラスの一部であり得る。

一実施形態による、訓練データの効率的な収集を容易にするための例示的な環境を示す。一実施形態による、訓練データを収集するための例示的なプロセスを示すフローチャートを提示する。一実施形態による、例示的な物理的画像及びモデルオーバーレイＡＲ画像を示す。一実施形態による、例示的な物理的画像及びモデルオーバーレイＡＲ画像を示す。一実施形態による、訓練データ収集システムを容易にする例示的なコンピュータシステムを示す。一実施形態による、訓練データ収集システムを容易にする例示的な装置を示す。

本明細書に説明される実施形態は、ホログラフィックＣＡＤモデルを現実世界の物体（例えば、プリンタ）に位置合わせするために、基準ベースの追跡機構を使用するシステムを提供することによって、画像検出訓練データの手動ラベル付けの負担を低減するという課題を解決する。より具体的には、動作中、姿勢追跡システム（例えば、拡張現実（ＡＲ）ヘッドセット）は、姿勢追跡システムと関連付けられたカメラによって捕捉された画像内の対応する物体とＣＡＤモデルを位置合わせし得る。異なる場所及び配向からの画像を捕捉するためにカメラが現実世界で移動するとき、追跡システムは、カメラの場所及び配向を連続的に追跡し得る。追跡結果に基づいて、システムは、次いで、カメラによって撮影された各画像内の物体上にＣＡＤモデルの２Ｄ輪郭を投影し得る。システムは、次いで、ピクセルレベル検出及びセグメンテーション機械学習モジュールを訓練するために、投影された２Ｄ輪郭を画素マスクとして使用し得る。

ユーザーは、追跡システムに連結された記録デバイスを使用して、３次元（３Ｄ）世界座標フレームと関連付けられている環境（例えば、「シーン」）内の物理的物体の第１の画像を捕捉し得る。追跡システムは、次いで、物理的物体の対応する３Ｄモデル（例えば、ＣＡＤモデル又は他のタイプの３Ｄモデル）を、画像内の物理的物体上に位置合わせして重ね合わせ、第２の画像を捕捉し得る。画素マスクは、第１及び第２の画像に基づいて作成され得る。画素マスクは、マスク内の画素を物体の異なる部位にリンクさせるためにアノテーションされ得る（例えば、手動で）。より具体的には、マスク内の各値は、ＣＡＤモデル内の対応する画素の場所に関連付けられたラベルを割り当てられる。ユーザーは、次いで、異なる角度又は距離から、かつ任意選択的に異なる照明条件下で、物理的世界内の物体の追加の画像（物理的画像と称される）を撮影し得る。追跡システムは、カメラの位置及び角度を連続的に追跡する能力を有し、したがって、追加の画像内の物体の姿勢を推定することができる。推定された姿勢に基づいて、システムは、画像内の物体に対応する３Ｄモデルの２Ｄ輪郭を取得し、物体上に２Ｄ輪郭を投影し、物体の画像をモデルオーバーレイと共に捕捉し得る（かかる画像は、ＡＲ画像と称され得る）。システムはまた、物理的画像及びＡＲ画像に基づいて画素マスクを作成し得る。３Ｄモデル内の画素が事前にラベル付けされているため、作成された画素マスクは、３Ｄモデルに基づいて自動的にラベル付けされ得る。物体の多くの（例えば、数十又は数百の）画像が、異なる撮像条件下で撮影され得、ラベル付きマスクが、各画像に対して自動的に作成され得る。これらの画素レベルのラベル付き画像は、次いで、物体検出ニューラルネットワークの訓練に使用され得る。

ＡＲ技術を実装することによって（例えば、様々な条件下で捕捉された画像内の物体上に物体の３Ｄモデルを投影することによって）、システムは、画像の画素レベルの自動ラベル付けを容易にする。このプロセスは、ユーザーの労力をほとんど必要とせず、物体検出タスクのために人工知能（ＡＩ）システムを訓練するために使用され得る大量のラベル付き画像を生成し得る。

したがって、本明細書に説明される実施形態は、機械学習のための訓練データを収集する効率を高めるシステムを提供する。向上した効率は、画素レベルで画像にアノテーションするために必要とされる手動ラベル付けの量の大幅な低減を含み得る。効果的な機械学習が訓練データの多様性に基づくため、かつシステムが多様な訓練データを効率的に収集するため、本明細書に説明される実施形態は、機械学習の技術分野を改善する。

多くの現実世界の物体、特に、工業的物体は、対応する既存のＣＡＤモデルを有し得る。これらのＣＡＤモデルは、現実世界の物体の完全に現実的なレンダリングを生成しない場合があるが、それらは、それらの３Ｄ形状を精密に画定し得る。例えば、工業機器（例えば、プリンタ、自動車など）を設計及び製造するとき、製造者は、典型的には、機器の３ＤＣＡＤモデルを開発し、それらのＣＡＤモデルは、機器内の異なる構成要素の正確な寸法を含み得る。更に、これらのＣＡＤモデルは、異なる姿勢又は状態を有する機器の画像をレンダリングし得る。例えば、プリンタのＣＡＤモデルは、プリンタが異なる角度から見られるときの、又はプリンタが開いた又は閉じたその紙トレイを有するときの、プリンタの画像をレンダリングし得る。そのような情報は、ＣＡＤモデルのレンダリングされた画像の各画素のラベルが事前知識になるため、画素レベルのラベル付けで非常に有用であり得る。

例示的な一実施形態では、ユーザーは、現実世界環境又はシーン内の現実世界の又は物理的物体の画像を捕捉及び表示するために、ＡＲヘッドセット（例えば、ＭｉｃｒｏｓｏｆｔＨｏｌｏＬｅｎｓ（商標）システム）を使用し得る。ＨｏｌｏＬｅｎｓは、ＲＧＢ−Ｄ（赤緑青＋深さ）カメラ、及び部屋のモデルを構築する、同時の自己位置推定及び環境地図作成（ｓｉｍｕｌｔａｎｅｏｕｓｌｏｃａｌｉｚａｔｉｏｎａｎｄｍａｐｐｉｎｇ、ＳＬＡＭ）スタイルアルゴリズムを使用し得、ユーザーが、物理的物体を含有する現実世界のシーン内に３Ｄ仮想物体（例えば、３ＤＣＡＤモデル）を配置することを可能にすることに留意されたい。

更に、ユーザーは、３ＤＣＡＤモデルが、表示された画像内の物理的物体上に重ね合わせられ得、結果として複合現実又は拡張現実画像をもたらすように、物理的物体の３ＤＣＡＤモデルを操作し得る。ＨｏｌｏＬｅｎｓに加えて、特定のヘッドマウントディスプレイシステム又はスマートグラスなどの他のＡＲヘッドセットもまた、モデルオーバーレイＡＲ画像を作成するために使用され得ることに留意されたい。ＨｏｌｏＬｅｎｓ又は他のＡＲシステムによって捕捉及び表示された画像が２次元（ｔｗｏｄｉｍｅｎｓｉｏｎａｌ、２Ｄ）である場合、システムは、３ＤＣＡＤモデルの２Ｄ輪郭又は投影を、画像内の２Ｄ物理的物体上に効果的に投影し得る。

上述のように、３ＤＣＡＤモデルのレンダリングされた画像の各画素の画素レベルのラベルは、システムにとって事前知識であり、これは、システムが各画素の構成要素のラベル付けを知っていることを意味する。一方、３Ｄモデルが物理的物体の画像上に重ね合わせられたとき、物理的物体の画像の各画素は、ＣＡＤモデルのレンダリングされた画像の対応する画素にリンクされ得る。その結果、ＣＡＤモデルのレンダリングされた画像の画素レベルのラベルは、物理的物体の画像の対応する画素に転送され得る。

３Ｄモデル及び物理的物体の初期の手動の位置合わせに続いて、ユーザーは、異なる照明条件下、異なる距離及び配向、かつ閉塞物体の存在下で、ＨｏｌｏＬｅｎｓを用いて異なる視野から物理的物体のいくつかの画像を捕捉し得る。ＨｏｌｏＬｅｎｓは、物理的物体の周囲を移動する際に、その姿勢を計算及び追跡し得る。ＨｏｌｏＬｅｎｓの姿勢に基づいて、システムは、次に、対応する画像内の物理的物体の姿勢を推定し得る。システムは、次いで、物理的物体の推定された姿勢に基づいてＣＡＤモデルから画像をレンダリングし得る。例えば、システムは、表示された仮想物体がＨｏｌｏＬｅｎｓによって見られる物理的物体の姿勢と同じ姿勢を有するような手段で、ＣＡＤモデルから画像をレンダリングし得る（例えば、仮想物体を作成する）。更に、ＨｏｌｏＬｅｎｓが、物理的物体の座標を含む環境（例えば、部屋）の３Ｄモデルを維持するため、システムは、物理的物体上に仮想物体（即ち、コンピュータレンダリング画像）を精密に重ね合わせて、モデルオーバーレイＡＲ画像を作成し得る。２Ｄ画像を作成するために、システムは、ＣＡＤモデルから２Ｄ画像をレンダリングし、２Ｄ画像を物理的物体の２Ｄ画像上に重ね合わせ得る。仮想物体を物理的物体上に位置合わせして重ね合わせることは、レンダリングされた画像の画素を物理的画像の対応する画素にリンクさせ得る。同様に、レンダリングされた画像の画素は、既知のラベルを有し、これは、次いで、物理的画像の対応する画素に転送され、それによって、新たに取得された画像に画素レベルでラベル付けする目標を達成し得る。

別の例示的な実施形態では、物理的物体の対応するＣＡＤモデルが利用可能ではない。そのような場合、システムは、３Ｄスキャン及び立体写真測量法などの、様々なモデリング技術を使用して、物体の３Ｄモデルを生成し得る。

サービス産業の拡張現実（ＡＲ）のいくつかの一般的な形態としては、テザードテレプレゼンス、情報の視覚的検索、及びオーバーレイを有する修復スクリプトが挙げられる。しかしながら、これらの結果の各々は、非効率性によって妨害される。テザードテレプレゼンスでは、遠隔技術者が、接続性及び広範な人間の専門家の時間の両方を必要とし得る、目視検査を実行する必要があり得る。情報の視覚的検索（例えば、ＤｉｇｉｔａｌＧｌｏｖｅＢｏｘアプリケーション）では、カメラは、モデル番号、マニュアルページ、又はテレメトリ統計を検索し得る。しかしながら、出力は、受動的なページであり、単一の部屋に限定され得る。オーバーレイを有する修復スクリプトでは、チェックリスト又は手続き的プロンプトが、ユーザーの視野上に重ね合わせられ得、ユーザーは、重ね合わせられた視野を介してクリックし得る。しかしながら、視野は、ユーザーの動作を理解することができないという点で、作成に費用が掛かる場合があり、依然としてほとんど受動的である。したがって、スタンドアロンＡＲコンテンツを生成することは、現在、非効率なシステムを結果としてもたらし得る、モデルを訓練するために画像及びビデオ（例えば、アニメーション）を作成する、費用が掛かる作業（例えば、アーティスト、人間の専門家、及び機械学習専門家による）を必要とする。

本明細書に説明される実施形態は、画像検出人工知能（ＡＩ）エンジン用の訓練データを収集する効率を向上させるシステムを提供する。訓練データを収集するために必要とされる手動時間及び労力の量を減少させることに加えて、システムはまた、新しい物体検出システムの開発時間を短縮し得る。より具体的には、物体とのＣＡＤモデルの１回の手動の位置合わせは、その分野の専門家が数百の画像の輪郭を手塗するよりもはるかに簡単である。特定の場合では、ＣＡＤモデルと物理的物体との間の位置合わせは、追跡システム（例えば、ＨｏｌｏＬｅｎｓシステム）によって自動的に実行され得る。

更に、システムの実施形態は、顧客によって管理されるシステムの部品の大規模なラベル付きデータセットを迅速に作成し、ラベル付きデータセットを使用してコンピュータビジョンシステムを訓練し得る。訓練されたシステムは、システムの一部の管理及び修復についてサービス技術者を支援し得、また、顧客が、システムの部品（例えば、ＤｉｇｉｔａｌＧｌｏｖｅＢｏｘ及びＳｍａｒｔＳｃａｎアプリケーション）の修復についてエンドユーザーを支援することを可能にし得る。これらの既存のツールと提案される技術との間の差別化要因は、既存のツール内に入れられたコンピュータビジョンシステム用の訓練データを収集するために必要とされる多大な時間である。この多大な時間は、訓練データを収集するためにシステムの実施形態を使用することによって、ごくわずか（例えば、１／１０未満）に短縮され得る。

顧客によって管理される他の例示的なシステムとしては、自動車又は車両（ダッシュボード又は他の自動車部品、例えば、エンジン又は自動車のキャビン内の機構が、顧客が支援を必要とし得る対象領域であり得る）、及びプリンタ又は他のデバイス（供給トレイ、出力トレイ、制御パネル、又は他の部品が対象領域であり得る）が、挙げられ得る。支援を必要とし得る顧客（又はエンドユーザー）は、システムの写真を自身の携帯電話で撮影し、写真の特定の「ラベル付き」区分に関する有用な情報を取得することができる。例えば、車両のユーザーが車両の問題を経験する場合、車両のユーザーは、車両のダッシュボードの画像を自身のモバイルデバイスで捕捉し得、そして、様々なカメラ姿勢から事前生成されたダッシュボードの多様なラベル付き画像セットに基づいて、車両ユーザーは、問題に対処する手段を理解する際にユーザーを支援するために使用され得るラベル付き画像を取得することができる。

システムの実施形態はまた、その分野の専門家が、３Ｄモデリングツールの機械学習に専門知識を必要とせずに、新しいスタンドアロンの対話型拡張現実コーチを容易に作成することを可能にする、ディープビジョン能力付きツールを作成し得る。システムは、物体及び領域を指すためのジェスチャ、ラベルを提供するための音声テキスト、及び物体部位セグメンテーションなどのオーサリングに関する機構を含み得る。システムはまた、記憶、インデックス付け、及びメタデータ、並びにクリップの基本編集などの、キュレーションを含み得る。システムは、部品認識、ラベル配置、フロー制御、及び部品条件決定などの、支援に関する機構を更に含み得る。システムは、背景の脱感作、自動照明拡張、及び影の生成を介して訓練のロバスト性及び一般化を向上させ得る。更に、システムは、対話型コーチング、並びにアプリケーション統合及びテレメトリ接続をサポートするために、音声及び活動認識を含み得る。

したがって、画像検出ＡＩエンジン用のアノテーション付き訓練データを収集するために、拡張現実（ＡＲ）ヘッドセット及び物体の既知の３Ｄモデルを使用することによって、本明細書に説明される実施形態は、ＡＲ技術の姿勢追跡能力を利用して、物体の新しい視点毎に手動の画素レベルのラベル付けを必要とせずに、複数の視点から訓練データを収集することができる。これは、効果的なコンピュータビジョンＡＩを訓練するための画素レベルのラベル付けの負担の大幅な軽減を結果としてもたらし得る。

図１は、一実施形態による、訓練データの効率的な収集を容易にするための例示的な環境を示す。環境１００は、ＡＲデバイス１０４及び関連付けられたユーザー１０６と、コンピューティングデバイス１０８と、物理的物体１２０を含み得る。ＡＲデバイス１０４は、ＡＲ対応ヘッドマウントディスプレイ（ＭｉｃｒｏｓｏｆｔＨｏｌｏｅｎｓなど）を含み得る。物理的物体１２０は、関連付けられた３Ｄ世界座標フレームを有するシーン（図示せず）の一部であり得る。コンピューティングデバイス１０８は、データを受信、送信、及び記憶し得、かつ物理的物体１２０の３Ｄモデルを維持し得る、サーバ又は他のコンピューティングデバイスを含み得る。ＡＲデバイス１０４は、ネットワーク１０２を介してコンピューティングデバイス１０８に連結される。

動作中、ユーザー１０６は、３Ｄ世界座標フレーム内の場所１３０からＡＲデバイス１０４を使用して、物理的物体１２０の物理的画像を捕捉し得る。ユーザー１０６は、ＡＲデバイス１０４を更に使用して、物理的物体１２０の上に仮想物体１２２を重ね合わせ得る。仮想物体１２２は、物理的物体１２０の３Ｄモデルからレンダリングされた画像（例えば、ホログラム）であり得る。いくつかの実施形態では、ユーザー１０６は、実質的に精密な位置合わせが仮想物体１２２と物理的物体１２０との間で達成され得るように、３Ｄ世界座標フレーム内の仮想物体１２２を操作し得る。代替的な実施形態では、ＡＲデバイス１０４は、コンピューティングデバイス１０８と一緒に、物理的画像上で特徴分析を実行して、現実世界のシーン内の物理的物体１２０の場所及び配向（例えば、３Ｄ座標）を検出し得る。検出された場所及び配向に基づいて、ＡＲデバイス１０４は、仮想物体１２２を物理的物体１２０上に自動的に重ね合わせ得る。これは、手動の位置合わせの必要性を排除し得る。ユーザー１０６は、次いで、ＡＲデバイス１０４を使用して、仮想物体１２２が物理的物体１２０に重なり合っているシーンの画像を捕捉し得る。そのような画像は、モデルオーバーレイＡＲ画像と称され得る。ＡＲデバイス１０４はまた、ＡＲデバイス１０４の位置がこれら２つの画像の間で変化しないように、モデルオーバーレイＡＲ画像を捕捉した直後に、物理的画像を捕捉するように構成され得ることに留意されたい。その結果、物理的画像内の各画素は、モデルオーバーレイＡＲ画像内の対応するピクセルに位置合わせされ得る。ＡＲデバイス１０４は、次いで、物理的画像及びモデルオーバーレイＡＲ画像の両方をコンピューティングデバイス１０８に送信し得る。

コンピューティングデバイス１０８は、物理的デバイス１２０の３Ｄモデルを維持し、したがって、モデルレイドＡＲ画像内の仮想物体１２２の各画素は、ラベルを自動的に割り当てられ得、画素を仮想物体１２２の一部として識別し、かつどの部位かを識別する。例えば、仮想物体１２２がプリンタのＣＡＤモデルからレンダリングされた場合、仮想物体１２２の画素は、フロントパネル又は紙トレイの一部であると識別され得る。受信された物理的画像及びモデルオーバーレイＡＲ画像に基づいて、コンピューティングデバイス１０８は、物理的画像用の画素マスクを生成し得る。より具体的には、画素マスクは、各画素にラベルを割り当て得、ラベルは、画像内の画素が物理的物体に属するか否か、属する場合、物理的物体のどの部位に属するかを示し得る。部屋内のプリンタの画像を一例として使用すると、その画像の画素マスクは、画像内の各画素について、画素が背景（例えば、部屋）又はプリンタの一部であるか否かを示し得る。プリンタに属する各画素について、画素マスクは、その画素が属する部位（例えば、プリンタフロントパネル、紙トレイ、トナーなど）を示し得る。画素マスクは、物理的画像に対するアノテーションを本質的に提供する。コンピューティングデバイス１０８は、物理的画像及び対応する画素マスクの両方を記憶し得る。いくつかの実施形態では、物理的画像及び対応する画素マスクは、訓練サンプルデータベース１５０内に記憶され得る。

ユーザー１０６は、シーン内で動き回ることができ、場所１４０（場所１３０とは異なる）からＡＲデバイス１０４を使用して、物理的物体１２０の追加の物理的画像及びモデルオーバーレイＡＲ画像を捕捉し得る。ＡＲデバイス１０４が、それ自体の姿勢を追跡する能力を有するため、ＡＲデバイス１０４又はコンピューティングデバイス１０８は、場所１４０でＡＲデバイス１０４によって見た物理的物体１２０の姿勢を推定するために、カウンタ追跡アルゴリズムを適用し得る。より具体的には、カウンタ追跡アルゴリズムを適用するとき、ＡＲデバイス１０４は、事前に位置合わせされたＣＡＤモデルの姿勢、及び位置１３０と１４０との間のＡＲデバイス１０４の姿勢の変化を考慮し得る。そのような姿勢情報は、物理的物体１２０の現在の姿勢に対応する仮想物体１２４を作成するために、コンピューティングデバイス１０８によって使用され得る。物理的世界の物理的物体の３Ｄ座標を知ることで、ＡＲデバイス１０４は、仮想物体１２４が、場所１４０からＡＲデバイス１０４によって見たときに、物理的物体１２０に実質的に位置合わせされるように、仮想物体１２４を物理的物体１２０上に自動的に投影し得る。いくつかの実施形態では、ＡＲデバイス１０４が移動すると、それは、その移動を連続的に追跡し、かかる情報をコンピューティングデバイス１０８に送信し得、この情報は、次いで、仮想物体１２２が物理的物体１２０に常に位置合わせされ、かつその上に重ね合わせられたままであるように、３Ｄモデルの構成を連続的に更新し得る。代替的な実施形態では、ＡＲデバイス１０４の移動は、仮想物体１２２を物理的物体１２０に不完全に位置合わせさせる場合があり、システムは、ＡＲデバイス１０４が移動を停止している（例えば、所定の時間にわたって静止したままである）決定に応答して、仮想物体１２２を再位置合わせし得る。ＡＲデバイス１０４の移動に応答して、仮想物体１２２がＡＲデバイス１０４のディスプレイ内から消えることも可能である。ＡＲデバイス１０４が移動を停止したとき、ＡＲデバイス１０４は、その現在の姿勢をコンピューティングデバイス１０８に通信し、３Ｄモデル及びＡＲデバイス１０４の現在の姿勢に基づいて、物理的物体１２０の上に重ね合わせられた仮想物体１２４を作成する。

続いて、場所１３０で起こったことと同様に、ＡＲデバイス１０４は、シーン内の物理的物体１２０の物理的画像及びモデルオーバーレイ画像の両方を捕捉し、これらの画像をコンピューティングデバイス１０８に送信し得る。コンピューティングデバイス１０８は、次いで、物理的画像及びモデルオーバーレイ画像に基づいて、画素レベルのラベル付けを物理的画像に提供する画素マスクを作成し得る。上述のように、画素マスク内の各画素は、物理的画像内の対応する画素が物理的物体に属しているか否か、また、属している場合、物理的物体のどの部位に属しているかを示すラベルにリンクされる。コンピューティングデバイス１０８は、訓練サンプルデータベース１５０内に物理的画像及びその画素マスクを更に記憶し得る。

更に、ユーザー１０６は、部屋で動き回り続け、ＡＲデバイス１０４を使用して追加の画像を捕捉し得る。ＡＲデバイス１０４の追跡能力は、システムが、常にＡＲデバイス１０４の姿勢を認識することを可能にし、したがって、物理的物体１２０のＣＡＤモデルからレンダリングされる仮想物体を、物理的物体１２０上に正確に重ね合わせて、モデルオーバーレイＡＲ画像を作成し得る。これらのモデルオーバーレイＡＲ画像は、１つの画素が１つの物理的画像に対応する、画素マスクの作成を容易にし得る。物理的画像及びそれらに付随する画素マスクは、次いで、画像内の様々な物体を検出し得る画像検出又は物体検出ＡＩの将来の訓練のために使用されるように、訓練サンプルデータベース１５０に送信され、そこに記憶され得る。従来のアプローチと比較して、訓練データを収集するためのこのＡＲ支援アプローチは、非常に効率的であり得、より少量の手作業を必要とし得る。いくつかの実施形態では、手作業の必要性を更に低減するために、３Ｄモデルと物理的物体１２０との間の初期の位置合わせの後に、シーン内で動き回ることができる自動運動システムにＡＲデバイス１０４を取り付けることも可能であり得る。初期の位置合わせが特徴分析を介して自動的に行われ得る場合、訓練データ収集プロセス全体が自動的に実行され得る。

ＡＲデバイス１０４の姿勢を変化させることに加えて、画像条件の他のタイプの変形例が、取得された訓練データの大きな多様性を達成するために導入され得る。いくつかの実施形態では、照明条件も変化させられ得る。更に、システムは、１つ以上の閉塞物体を追加してもよく、現実又は仮想物体を使用して背景を変化させてもよく、又は物理的物体１２０の外観を表面的に変更してもよい（例えば、その色の外観を変化させる）。物理的物体１２０が複数の構成要素を含む場合、システムは、構成要素の相対位置を変更してもよい。例えば、物理的物体１２０がプリンタである場合、システムは、紙トレイを開閉することによって、又はフロントカバーを開いてトナーを露出させることによって、プリンタの外観を変更してもよい。

図２は、一実施形態による、訓練データを収集するための例示的なプロセスを示すフローチャートを提示する。動作中、対象の物理的物体は、シーン、例えば、部屋内に配置され得る（動作２０２）。対象の物体は、多くの場合、物体検出ＡＩエンジンによって後で検出され得る物理的物体のタイプを表し得る。例えば、対象の物理的物体は、プリンタとすることができ、訓練後、物体検出ＡＩエンジンは、単に１つの特定のタイプのプリンタではなく、多くの異なるプリンタのブランド及びモデルを検出することができ得る。

システムは、追跡対応ＡＲデバイス（多くの場合カメラを含む）を使用して、３Ｄモデルからレンダリングされた仮想物体をカメラ視野内の物理的物体上に位置合わせして重ね合わせ得る（動作２０４）。追跡対応ＡＲデバイスは、環境（例えば、部屋）の３Ｄ世界座標フレームを画定し得ることに留意されたい。いくつかの実施形態では、ＡＲデバイスは、ヘッドマウントディスプレイ（ＭｉｃｒｏｓｏｆｔＨｏｌｏｅｎｓなど）であり得る。物体の３Ｄモデルは、より精密な寸法情報及び構成要素間の測位情報を提供し得る、ＣＡＤモデルを含み得る。ＣＡＤモデルが利用不可能であるとき、３Ｄモデルは、物理的物体に対する３Ｄスキャンを実行することによって作成され得る。一旦モデルの位置合わせが達成されると、システムは、任意選択的に、ＡＲデバイスによって提供される機能である、３Ｄマッピング及び追跡を使用して、仮想物体の現実世界の場所を環境にアンカー固定し得る。例えば、システムは、仮想物体の３Ｄ座標を記録し得る。この場合、仮想物体の３Ｄ座標は、物理的物体の３Ｄ座標と一致する。

システムは、少なくとも２つの画像である、１つの物理的画像（即ち、仮想物体を有していない現実世界のシーン）及び１つのモデルオーバーレイＡＲ画像（即ち、物理的物体上に重ね合わせられた仮想物体を有するＡＲ画像）を捕捉し得る（動作２０６）。システムは、次いで、モデルオーバーレイＡＲ画像に基づいて物理的画像のアノテーションを作成し得る（動作２０８）。いくつかの実施形態では、アノテーションは、画素マスクの形態であり得る。より具体的には、システムは、ＡＲ画像内の対応する画素に物理的画像内の各画素をリンクさせ、ＡＲ画像から物理的画像に画素レベルのラベル付け（３Ｄモデルに基づいてシステムに既知である）を転送し得る。各画素の画素レベルのラベル付けは、画素が物理的物体に属しているか否か、属している場合、どの部位に属しているかを示す。

システムは、訓練データ集に、物理的画像及びその対応するアノテーション、例えば、画素マスクを記憶する（動作２１０）。いくつかの実施形態では、システムは、アノテーション付き画像（例えば、異なるラベルを有する画素を異なる色で塗ることによって、又は物理的物体の異なる部位の輪郭を強調することによって）を代替的に作成し、アノテーション付き画像を記憶してもよい。これは、現在のシステムによって生成されたアノテーション付き画像が、既存の訓練データライブラリに追加されることを可能にする。

システムは、次いで、追加の訓練データが必要とされるか否かを決定し得る（動作２１２）。必要とされる場合、システムは、撮像条件を変更し得る（動作２１４）。撮像条件を変更することは、ＡＲデバイスの一部であり得るカメラの場所及び角度を変化させることと、照明条件を変化させることと、背景を変更することと、閉塞物体を追加又は除去することと、物理的物体の姿勢を変化させることと、物理的物体の表面的外観を変化させることと、物理的物体の物理的構成（例えば、構成要素間位置）を変化させることと、などを伴い得る。これは、カメラ視野内に更新されたシーンを作成し得る。システムは、次いで、カメラによって見た際に、更新されたシーン内の物理的物体に仮想物体を再位置合わせし得る（動作２０４）。いくつかの実施形態では、カメラが移動する際、システムは、仮想物体が物理的物体に位置合わせされたままであるように、連続的に、カメラの移動を追跡して３Ｄモデルの構成を更新し得る。代替的な実施形態では、カメラの移動は、仮想物体を物理的物体に不完全に位置合わせさせる場合があり、システムは、カメラが移動を停止している（例えば、カメラが所定の時間にわたって静止したままである）決定に応答して、仮想物体を再位置合わせし得る。動作２０４〜２１４は、多くの訓練サンプルを作成するために、複数回繰り返され得る。画像アノテーションが自動的に行われ得るため、このプロセスは、非常に効率的であり得る。

現在の物体に対して、これ以上の訓練データが必要とされない場合、システムは、記憶された訓練データ集を使用して物体検出ニューラルネットワークを訓練し得る（動作２１６）。いくつかの実施形態では、システムは、訓練データ集を、それを使用して画像又は物体検出ＡＩエンジンを訓練し得る、異なる実体に送信し得る。より具体的には、ＡＩエンジン（例えば、畳み込みニューラルネットワーク）は、画像から類似の物理的物体を識別するように訓練され得る。更に、ＣＡＤモデルベースの画素レベルのラベル付けが、同じ物理的物体内の様々な構成要素を区別し得るため、ＡＩエンジンもまた、物理的物体の異なる構成要素を認識するように訓練され得る。そのような特徴は、サービス業界、より具体的には、遠隔サービスで非常に重要であり得る。訓練データ集はまた、遠隔ユーザーが様々なタイプのＡＩを訓練するために使用され得る訓練データをダウンロードすることを可能にするために、オンライン訓練サンプルデータベースに送信され得る。

図３は、一実施形態による、例示的な物理的画像及びモデルオーバーレイＡＲ画像を示す。より具体的には、左上の図は、物理的プリンタ３０２を示し、右上の図は、物理プリンタが仮想プリンタ３０４によって重ね合わせられているものを示す。上述されたように、仮想プリンタ３０４は、物理的プリンタ３０２の対応するＣＡＤモデルからレンダリングされ得る。上述されたように、物理的プリンタ３０２内の各画素は、仮想プリンタ３０４内の対応する画素にリンクされ得、仮想プリンタ３０４内のこれらの画素のラベルは、ＣＡＤモデルに基づいて既知である。これらのラベルは、次いで、物理的プリンタ３０２内の画素にマッピングされ得、したがって、画像の画素レベルのラベル付けを達成する。

図３の左下の図は、そのフロントドアが開き、トナーなどの内部プリンタ構成要素を露出している、物理的プリンタ３０６を示す。図３から分かるように、トナーが黒色に見え、プリンタの黒色の内部からのトナーを区別することは、困難であり得、手作業のラベル付けを難しくしている。図３の右下の図は、これもまたそのフロントドアが開き、物理的プリンタ３０６上に重ね合わせられた、仮想プリンタ３０８を示す。図３で分かるように、仮想プリンタ３０８の内部構成要素は、より強い色コントラストを有するように示され得る。いくつかの実施形態では、仮想物体３０８は、物理的物体３０６の構成要素と一致するように手動で構成され得る。例えば、仮想物体３０８を重ね合わせる前に、ユーザーは、プリンタ３０６がそのフロントドアを開いていることを通知し、次いで、フロントドアが開いた状態でプリンタの画像をレンダリングするために３Ｄモデルを構成する。代替的な実施形態では、システムは、プリンタ３０６の画像の特徴分析結果に基づいて、プリンタ３０６のフロントドアが開いていることを自動的に決定し得る。システムは、次いで、仮想プリンタ３０８を生成するために、３ＤＣＡＤモデルを適宜構成し得る。

従来の手動アプローチと比較して、このＡＲ支援アプローチは、特に、物体の異なる部位にラベル付けする際に、より効率的であるのみならず、正確でもある。３Ｄモデルが、物理的物体と関連付けられた正確な寸法及び相対位置情報を有するため、３Ｄモデルと物理的物体との間の正確な位置合わせは、画素の正確なラベル付けをもたらし得る。必要性に応じて、いくつかの実施形態では、仮想物体全体を対応する物理的物体上に重ね合わせる代わりに、仮想物体の特定の構成要素を物理的物体上の対応する部位上に重ね合わせることも可能である。その結果、物理的物体の単に１つの特定の構成要素又は部位のラベルを作成することが可能である。図４は、一実施形態による、例示的な物理的画像及びモデルオーバーレイＡＲ画像を示す。より具体的には、図４の上の図は、物理的物体４０２を示し、図４の下の図は、そのバイパストレイ４０４がラベル付けされた同じ物理的物体４０２を示す。バイパストレイ４０４のラベル付けは、異なる、多くの場合明るい、色（例えば、青色）を使用して示され得る。図４から分かるように、プリンタ４０２の異なる部品（例えば、バイパストレイ４０４及び隣接する構成要素４０６）は、互いに非常に近い場合があり、これらの部品の手動のラベル付けを困難にしている。しかしながら、３Ｄモデルベースのラベル付けは、ラベル付けが物理的物体の３Ｄ座標及び精密な３Ｄモデルに基づいて自動的に行われるため、そのような問題に直面しない。

上述の実施例では、システムで使用されるＡＲデバイスは、ヘッドマウントディスプレイ（ｈｅａｄ−ｍｏｕｎｔｅｄｄｉｓｐｌａｙ、ＨＭＤ）を含み得る。実際には、ＨＭＤに加えて、任意のＡＲ対応システムが、以下の要件を満たし得る限り、訓練データの効率的な収集のために使用され得る。ＡＲ対応システムは、現実世界シーンの２Ｄ又は３Ｄ画像を捕捉することができるカメラを含み得る。ＡＲ対応システムは、物理的物体の３Ｄモデルにアクセスし、それらの３Ｄモデルに基づいて仮想物体を作成し得る。ＡＲ対応システムは、現実世界のシーン内の仮想物体の位置を追跡する能力を有し得る。これは、システムが、仮想物体を物理的物体上に位置合わせして重ね合わせることを可能にする。更に、ＡＲ対応システムは、カメラが移動した後に、システムがカメラの視野内で仮想物体を物理的物体に連続的に位置合わせするために、仮想物体を適宜移動させ得るように、カメラの姿勢を追跡し得る（運動又は位置センサを使用することによって）。ＨＭＤの場合、カメラ、ディスプレイ、及び追跡システムが、単一デバイスに統合され得る。他のシナリオでは、これらの異なる構成要素は、１つ以上のネットワーク化されたデバイスに分散され得る。例えば、カメラ及びディスプレイは、各々、スタンドアロンデバイスであってもよく、又は単一デバイスに組み合わせられてもよい。

図５は、一実施形態による、訓練データ収集システムを容易にする例示的なコンピュータシステムを示す。コンピュータシステム５００は、プロセッサ５０２、メモリ５０４、及び記憶デバイス５０６を含む。コンピュータシステム５００は、ディスプレイデバイス５１０、キーボード５１２、ポインティングデバイス５１４、カメラ５１６に連結され得、１つ以上のネットワークインタフェースを介してネットワーク５０８にも連結され得る。記憶装置５０６は、オペレーティングシステム５１８及び訓練データ収集システム５２０を記憶し得る。

訓練データ収集システム５２０は、コンピュータシステム５００によって実行されたときに、コンピュータシステム５００に、本開示で説明される方法及び／又はプロセスを実行させ得る命令を含み得る。訓練データ収集システム５２０は、物理的画像の３Ｄモデルにアクセスするか又はそれを取得するための命令（モデル取得モジュール５２２）と、３Ｄモデルによって生成された仮想物体をカメラ５１６の視野内の対応する物理的物体に位置合わせするための命令（モデル位置合わせモジュール５２４）と、カメラ５１６を制御して、物理的画像及びモデル位置合わせＡＲ画像の両方を含む画像を捕捉するための命令（カメラ制御モジュール５２６）と、物理的画像にアノテーションする（例えば、画素マスクを作成する）ための命令（アノテーション作成モジュール５２８）と、物理的画像及びその対応するアノテーションを含み得る、訓練サンプルを記憶するための命令（訓練サンプル記憶モジュール５３０）と、を含み得る。

図６は、一実施形態による、訓練データ収集システムを容易にする例示的な装置を示す。装置６００は、有線、無線、量子光、又は電気通信チャネルを介して互いに通信し得る、複数のユニット又は装置を備え得る。装置６００は、１つ以上の集積回路を使用して実現され得、図６に示されるものよりも少ない又は多い、ユニット又は装置を含み得る。更に、装置６００は、コンピュータシステムに統合されてもよく、又は他のコンピュータシステム及び／又はデバイスと通信することができる、別個のデバイスとして実現されてもよい。具体的には、装置６００は、図５のコンピュータシステム５００のモジュール５２２〜５３０と同様の機能又は動作を実行する、モデル取得ユニット６０２、モデル位置合わせユニット６０４、カメラ制御ユニット６０６、アノテーション生成ユニット６０８、及び訓練サンプル記憶ユニット６１０を含む、ユニット６０２〜６１０を備え得る。装置６００は、通信ユニット６１２を更に含み得る。

発明を実施するための形態において記載されるデータ構造及びコードは、典型的には、コンピュータ可読記憶媒体上に記憶され、コンピュータシステムによって使用されるコード及び／又はデータを記憶することができる任意のデバイス又は媒体であってもよい。コンピュータ可読記憶媒体としては、揮発性メモリ、不揮発性メモリ、ディスクドライブなどの磁気及び光学記憶デバイス、磁気テープ、ＣＤ（コンパクトディスク）、ＤＶＤ（デジタル多用途ディスク若しくはデジタルビデオディスク）、又は既知の、若しくは今後開発されるコンピュータ可読媒体を記憶することができる他の媒体が挙げられるが、これらに限定されない。

発明を実施するための形態セクションに記載される方法及び処理は、上記のようにコンピュータ可読記憶媒体に記憶され得るコード及び／又はデータとして具体化することができる。コンピュータシステムが、コンピュータ可読記憶媒体上に記憶されたコード及び／又はデータを読み取って実行すると、コンピュータシステムは、データ構造及びコードとして具体化され、コンピュータ可読記憶媒体内に記憶された方法及び処理を実行する。

更に、上述の方法及び処理は、ハードウェアモジュール又は装置に含まれてもよい。ハードウェアモジュール又は装置としては、特定用途向け集積回路（ａｐｐｌｉｃａｔｉｏｎ−ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ、ＡＳＩＣ）チップ、フィールドプログラム可能ゲートアレイ（ｆｉｅｌｄ−ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ、ＦＰＧＡ）、特定の時刻に特定のソフトウェアモジュール又はコードを実行する専用又は共有プロセッサ、及び、既知の又は後に開発される他のプログラム可能論理デバイスを含むことができるが、これらに限定されない。ハードウェアモジュール又は装置が起動されると、それらの内部に含まれる方法及び処理が実行される。

Claims

画像検出人工知能（ＡＩ）エンジンを訓練するための訓練データの効率的な収集を容易にするためのコンピュータ実装方法であって、
シーン内に配置された物理的物体の３次元（３Ｄ）モデルを取得することと、
前記３Ｄモデルに基づいて、前記物理的物体に対応する仮想物体を生成することと、
拡張現実（ＡＲ）カメラの視野内で、前記物理的物体の上に前記仮想物体を実質的に重ね合わせることと、
前記シーン内の前記物理的物体を含む物理的画像、及び前記物理的物体上に重ね合わせられた前記仮想物体を含む対応するＡＲ画像を捕捉するように前記ＡＲカメラを構成することと、
前記ＡＲ画像に基づいて前記物理的画像のアノテーションを作成することと、を含む、コンピュータ実装方法。
前記物理的画像の前記アノテーションを作成することが、前記物理的画像の画素レベルのラベルを作成することを含む、請求項１に記載のコンピュータ実装方法。
前記物理的画像の前記アノテーションが、前記ＡＲ画像内の画素のラベルを前記物理的画像内の画素にリンクさせる画素マスクを含み、前記ＡＲ画像内の前記画素の前記ラベルが、前記３Ｄモデルに基づいて作成される、請求項２に記載のコンピュータ実装方法。
前記３Ｄモデルが、
前記物理的物体と関連付けられたコンピュータ支援設計（ＣＡＤ）モデル、又は
３Ｄスキャン技術を使用して生成された前記物理的物体の３Ｄモデルを含む、請求項１に記載のコンピュータ実装方法。
前記仮想物体を前記物理的物体上に重ね合わせることが、
前記ＡＲカメラの前記視野内で、前記仮想物体を前記物理的物体に手動で位置合わせすること、又は
特徴分析技術を使用して、前記ＡＲカメラの前記視野内で、前記仮想物体を前記物理的物体に自動的に位置合わせすること、を含む、請求項１に記載のコンピュータ実装方法。
撮像条件を変更して、更新されたＡＲカメラ視野を作成することと、
前記更新されたＡＲカメラ視野内で、前記仮想物体を前記物理的物体に再位置合わせすることと、
追加の物理的画像及び追加の対応するＡＲ画像を捕捉することと、
前記ＡＲ画像に基づいて前記追加の物理的画像にアノテーションすることと、を更に含む、請求項１に記載のコンピュータ実装方法。
前記仮想物体を前記物理的物体に再位置合わせすることが、
前記ＡＲカメラの姿勢を追跡することと、
前記ＡＲカメラの前記追跡された姿勢に基づいて、前記更新されたカメラ視野内の前記物理的物体の姿勢を計算することと、
前記更新されたカメラ視野内の前記物理的物体の前記計算された姿勢に基づいて前記仮想物体の姿勢を調整することと、を含む、請求項６に記載のコンピュータ実装方法。
前記撮像条件を変更することが、
前記カメラと前記物理的物体との間の距離を変更することと、
前記カメラの角度を変更することと、
照明条件を変更することと、
前記シーン内の背景を変更することと、
前記物理的物体の表面的外観を変更することと、
前記物理的物体の姿勢を変更することと、
前記物理的物体内の２つの構成要素間の相対位置を変更することと、
閉塞物体を追加又は除去することと、のうちの１つ以上を含む、請求項６に記載のコンピュータ実装方法。
訓練データ集に、前記物理的画像及び前記対応するアノテーションを記憶することと、
前記訓練データ集に基づいて、前記物理的物体を識別するように畳み込みニューラルネットワークを訓練することと、を更に含む、請求項１に記載のコンピュータ実装方法。
前記ＡＲカメラが、スマートグラスの一部である、請求項１に記載のコンピュータ実装方法。
画像検出人工知能（ＡＩ）エンジンを訓練するための訓練データの効率的な収集を容易にするためのコンピュータシステムであって、
プロセッサと、
前記プロセッサによって実行されると、前記プロセッサに方法を実行させる命令を記憶する記憶デバイスと、を含み、前記方法が、
シーン内に配置された物理的物体の３次元（３Ｄ）モデルを取得することと、
前記３Ｄモデルに基づいて、前記物理的物体に対応する仮想物体を生成することと、
拡張現実（ＡＲ）カメラの視野内で、前記物理的物体の上に前記仮想物体を実質的に重ね合わせることと、
前記シーン内の前記物理的物体を含む物理的画像、及び前記物理的物体上に重ね合わせられた前記仮想物体を含む対応するＡＲ画像を捕捉するように前記ＡＲカメラを構成することと、
前記ＡＲ画像に基づいて前記物理的画像のアノテーションを作成することと、を含む、コンピュータシステム。
前記物理的画像の前記アノテーションを作成することが、前記物理的画像の画素レベルのラベルを作成することを含む、請求項１１に記載のコンピュータシステム。
前記物理的画像の前記アノテーションが、前記ＡＲ画像内の画素のラベルを前記物理的画像内の画素にリンクさせる画素マスクを含み、前記ＡＲ画像内の前記画素の前記ラベルが、前記３Ｄモデルに基づいて作成される、請求項１２に記載のコンピュータシステム。
前記３Ｄモデルが、
前記物理的物体と関連付けられたコンピュータ支援設計（ＣＡＤ）モデル、又は
３Ｄスキャン技術を使用して生成された前記物理的物体の３Ｄモデルを含む、請求項１に記載のコンピュータ実装方法。
前記仮想物体を前記物理的物体上に重ね合わせることが、
前記ＡＲカメラの前記視野内で、前記仮想物体を前記物理的物体に手動で位置合わせすること、又は
特徴分析技術を使用して、前記ＡＲカメラの前記視野内で、前記仮想物体を前記物理的物体に自動的に位置合わせすること、を含む、請求項１１に記載のコンピュータシステム。
前記方法が、
撮像条件を変更して、更新されたＡＲカメラ視野を作成することと、
前記更新されたＡＲカメラ視野内で、前記仮想物体を前記物理的物体に再位置合わせすることと、
追加の物理的画像及び追加の対応するＡＲ画像を捕捉することと、
前記ＡＲ画像に基づいて前記追加の物理的画像にアノテーションすることと、を更に含む、請求項１１に記載のコンピュータシステム。
前記仮想物体を前記物理的物体に再位置合わせすることが、
前記ＡＲカメラの姿勢を追跡することと、
前記ＡＲカメラの前記追跡された姿勢に基づいて、前記更新されたカメラ視野内の前記物理的物体の姿勢を計算することと、
前記更新されたカメラ視野内の前記物理的物体の前記計算された姿勢に基づいて前記仮想物体の姿勢を調整することと、を含む、請求項１６に記載のコンピュータシステム。
前記撮像条件を変更することが、
前記カメラと前記物理的物体との間の距離を変更することと、
前記カメラの角度を変更することと、
照明条件を変更することと、
前記シーン内の背景を変更することと、
前記物理的物体の表面的外観を変更することと、
前記物理的物体の姿勢を変更することと、
前記物理的物体内の２つの構成要素間の相対位置を変更することと、
閉塞物体を追加又は除去することと、のうちの１つ以上を含む、請求項１６に記載のコンピュータシステム。
前記方法が、
訓練データ集に、前記物理的画像及び前記対応するアノテーションを記憶することと、
前記訓練データ集に基づいて、前記物理的物体を識別するように畳み込みニューラルネットワークを訓練することと、を更に含む、請求項１１に記載のコンピュータシステム。
前記ＡＲカメラが、スマートグラスの一部である、請求項１１に記載のコンピュータシステム。