JP7128708B2

JP7128708B2 - 機械学習用の訓練データの効率的な収集のための拡張現実を使用したシステム及び方法

Info

Publication number: JP7128708B2
Application number: JP2018188871A
Authority: JP
Inventors: マシュー・エイ・シュリーブ; スリチャラン・カルーア・パリ・クマール; ジン・サン; ガウラン・アール・ガヴァイ; ロバート・アール・プライス; ホダ・エム・エイ・エルダーディリー
Original assignee: パロアルトリサーチセンターインコーポレイテッド
Priority date: 2017-10-30
Filing date: 2018-10-04
Publication date: 2022-08-31
Anticipated expiration: 2038-10-04
Also published as: US11200457B2; US11978243B2; US20200250484A1; US20190130219A1; US20220076072A1; JP2019083001A; US10699165B2; EP3477543A1

Description

本開示は、概して、コンピュータビジョンシステムに関する。より具体的には、本開示は、機械学習用の訓練データの効率的な収集のための拡張現実（ＡＲ：ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）を使用したシステム及び方法に関する。

現在、コンピュータビジョンシステムを訓練することは、多くの画像または映像を手作業で収集する退屈なプロセスを通して達成されている。人間である専門家は、続いて、画像または映像フレームのそれぞれにある関心オブジェクトに注釈を付けるか、またはラベルを付けることが求められる。この非効率なプロセスは、必要とされるかなりの時間量とともに、人間の疲労に基づくラベル付け時の誤り率上昇により、多額の費用をもたらすことがある。

効率的な画像のパーシング及び境界ボックスの描画を可能にするヒューマンコンピュータインターフェースの開発、ならびにスクラッチからポインタを指定する代わりに、ユーザが後で修正することができるポインタを提供するテクノロジーの使用を含む、手作業のラベル付けの負担を軽減するための様々な努力がなされてきた。例えば、その過去の軌跡に基づき、映像内のオブジェクトの場所を予想または補間するのに、カルマンフィルタが使用されることがあり、この場合、人間が、必要に応じてこれらの予想を調整する。しかしながら、これらの方法は、依然として、かなりの手作業を必要とし、訓練データを収集するのに必要なラベル付けプロセスにおける目立った軽減をもたらさない。

１つの実施形態は、訓練データの効率的な収集を促進するシステムを提供する。動作中、システムは、記録デバイスによって、３次元（３Ｄ：Ｔｈｒｅｅ－Ｄｉｍｅｎｓｉｏｎａｌ）世界座標フレームに関連している場面にある物理オブジェクトの第１の画像を取得する。システムは、第１の画像上において、物理オブジェクトに関連した複数の頂点に印を付け、この場合、頂点は、３Ｄ世界座標フレームに基づく３Ｄ座標を有する。システムは、場面の１つ以上の特性を変更しながら、場面にある物理オブジェクトの複数の第２の画像を取得する。システムは、印付きの頂点をそれぞれの第２の画像上に投射して、物理オブジェクトに関連した２次元（２Ｄ：Ｔｗｏ－Ｄｉｍｅｎｓｉｏｎａｌ）境界エリアを示す。

いくつかの実施形態において、印付きの複数の頂点は、物理オブジェクト上の１つ以上の関心領域に対応する。印付きの頂点を投射することは、物理オブジェクト上に、１つ以上の関心領域に関連した２Ｄ境界エリアを示すことをさらに含む。

いくつかの実施形態において、印付きの複数の頂点は、ポリゴンと、表平面の一部と、ボリュームと、のうちの１つ以上を示すことができる。

いくつかの実施形態において、複数の頂点に印を付けることは、それぞれの第２の画像上に、投射された印付きの頂点の２Ｄ境界エリアをどのように示すかを決定することをさらに含む。

いくつかの実施形態において、２Ｄ境界エリア及びそれぞれの第２の画像が、記録デバイスに関連したディスプレイ上に提示され、２Ｄ境界エリアが、２Ｄ形または３Ｄボリュームを示す。

いくつかの実施形態において、２Ｄ境界エリアは、それぞれの第２の画像内の投射された頂点間のコネクタのタイプ、パターン、または色と、それぞれの第２の画像内の投射された頂点を繋ぐことによって形成された形の色、濃淡、または占有と、２Ｄ境界エリアを記述するテキストと、２Ｄ境界エリアに対するラベルまたは記述の表示と、のうちの１つ以上によって示される。

いくつかの実施形態において、２Ｄ境界エリアは、場面の特性に対応する。

いくつかの実施形態において、場面の特性は、記録デバイスの構えと、場面の照明と、物理オブジェクトからの記録デバイスの距離と、物理オブジェクトに対する記録デバイスの配向と、物理オブジェクトまたは場面の背景と、物理オブジェクトの１つ以上の部分の閉塞と、のうちの１つ以上である。

いくつかの実施形態において、システムは、訓練データ集合に、印付きの複数の頂点を有する第１の画像を格納する。システムは、訓練データ集合に、投射された印付きの頂点を有する複数の第２の画像を格納する。システムは、訓練データ集合に基づき、畳み込みニューラルネットワークを訓練して、物理オブジェクトの特徴を特定する。システムは、訓練されたネットワークをモバイルコンピューティングデバイス上に展開させて、物理オブジェクトの特徴を特定する。

いくつかの実施形態において、記録デバイスは、拡張現実デバイスと、仮想現実デバイスと、３Ｄ世界座標フレーム内の頂点に対して３Ｄ座標を決定する磁気センサを備えるデバイスと、カメラ及びハンドトラッキングセンサと、赤、緑、及び青（ＲＧＢ）を記録するカメラであって、ハンドトラッキングセンサが３Ｄ世界座標フレーム内の頂点に対して３Ｄ座標を決定する、カメラと、赤、緑、及び青（ＲＧＢ）を記録するカメラ、及び深度を記録する３Ｄセンサと、画像または映像を記録し、かつビジュアルキューまたは位置感知テクノロジーに基づき、３Ｄ世界座標フレーム内の頂点に対して３Ｄ座標を決定するデバイスと、画像または映像を記録し、かつ（３Ｄ）センサを含むデバイスと、のうちの１つ以上を含む。

本特許包袋または本出願包袋は、カラーで実行された少なくとも１つの図面を含む。カラー図面を有する本特許または本特許出願公開のコピーは、請求及び必要な手数料の支払いに応じて事務局によって提供されることになる。

本発明のある実施形態による、訓練データの効率的な収集を促進するための例示的な環境を示す。本出願のある実施形態による、訓練データの効率的な収集を促進するための方法を示すフローチャートを提示する。本発明のある実施形態による、ＡＲデバイスを使用して、システム特徴の角に印を付ける人間を示す。本発明のある実施形態による、ＡＲデバイスを使用して、第１の視点からプリンタの境界ボックスを作成する例を示す。本発明のある実施形態による、ＡＲデバイスを使用して、第２の視点からプリンタの境界ボックスを作成する例を示す。本発明のある実施形態による、ＡＲデバイスを使用して、第１の視点からプリンタ部品の境界ボックスを作成する例を示す。本発明のある実施形態による、ＡＲデバイスを使用して、第２の視点からプリンタ部品の境界ボックスを作成する例を示す。本発明のある実施形態による、ＭｉｃｒｏｓｏｆｔＨｏｌｏＬｅｎｓで使用され得るラベル付けインターフェースを示す。本発明のある実施形態による、表面メッシュのない図６Ａのラベル付けインターフェースを示す。本発明のある実施形態による、ＭｉｃｒｏｓｏｆｔＨｏｌｏＬｅｎｓインターフェースを使用した、第１の視点からの自動的に生成された２次元マーカ場所及び対応する境界ボックスの例を示す。本発明のある実施形態による、ＭｉｃｒｏｓｏｆｔＨｏｌｏＬｅｎｓインターフェースを使用した、第２の視点からの自動的に生成された２次元マーカ場所及び対応する境界ボックスの例を示す。本発明のある実施形態による、ＭｉｃｒｏｓｏｆｔＨｏｌｏＬｅｎｓインターフェースを使用した、第２の視点からの自動的に生成された２次元マーカ場所及び対応する境界ボックスの例を示す。本発明のある実施形態による、訓練データの効率的な収集を促進する例示的なコンピュータ及び通信システムを示す。

図において、類似の参照番号は、同じ図の要素を指す。

以下の説明は、当業者に、実施形態を作り、使用するのを可能にさせるために提示され、特定の用途及びその要件の観点から提供されている。開示された実施形態に対する様々な修正形態が当業者にはすぐに明らかになり、本明細書に定義されている一般原則が、本開示の趣旨及び範囲を逸脱しない限り、他の実施形態及び用途に適用されてもよい。したがって、本発明は、示されている実施形態に限定されるものでなく、本明細書に開示されている原則及び特徴と合致している最も広い範囲が与えられるべきである。

本明細書に説明されている実施形態は、ユーザが訓練データを効率的に収集することを可能にするシステムを提供することによって、訓練データの手作業のラベル付けの負担を軽減する問題を解決する。システムは、人間が、記録デバイスを使用して、単一の画像において、関心オブジェクトを捕捉し、それに注釈を付けることを可能にする。システムは、続いて、同じ環境において変わる条件の下、多くの他の同様の画像にある同じ関心オブジェクト上に注釈を投射する。

具体的には、ユーザは、記録デバイスを使用して、３次元（３Ｄ）世界座標フレームに関連している環境（例えば、「場面」）にある物理オブジェクトの画像または映像を捕捉することができる。単一の画像または映像フレームに関して記録デバイスを使用して、ユーザは、物理オブジェクト上の点に印を付けることができる。点は、３Ｄ世界座標フレームに基づく３Ｄ座標を有する頂点とすることができる。頂点の３Ｄ座標を決定することは、場面における物理オブジェクト構えを画定するビジュアルキューまたは他の位置感知テクノロジーに基づいていてもよい。場面が変更されると（例えば、ユーザ及び記録デバイスが、物理オブジェクトに対して、部屋内の異なる場所に移動すると）、システムは、物理オブジェクトに関連した境界ボックスを示すように投射された、印付きの点を、ユーザに表示することができる（変更された条件の下で捕捉された画像または映像上で）。

例えば、記録デバイスは、３Ｄトラッキングセンサを備えるカメラとすることができる。場面は、事務所とすることができ、関心物理オブジェクトは、事務所内のプリンタとすることができる。システムは、場面（すなわち、３Ｄ世界座標フレーム）においてカメラ構えを画定することができる一方、ユーザは、頂点に印を付け、物理オブジェクト上の関心領域を示すことができる（例えば、プリンタ上のプリンタ排紙トレイに注釈を付けるか、またはラベルを付ける）。システムは、場面の１つ以上の特性を変更しながら（例えば、カメラの場所、配向、または構えを変更する）、印付きの頂点を追跡することができる。

システムは、次に、様々なカメラ構えにおいて、印付きの頂点をカメラフレーム中に投射することができ、この場合、各投射は、収集された（かつラベル付けされた）訓練データの一部として使用され得る自動的に注釈が付けられた画像である。すなわち、プリンタの他の画像を様々なカメラ構えから撮ると仮定すると、システムは、他の画像上に印付きの頂点を投射して、プリンタ上に、関心領域の周りの境界エリアを示すことができ、このように、単一の注釈付きの画像にのみ基づいて、他の画像に自動的に注釈を付ける。境界エリアは、場面の特性に対応する境界ボックスまたはラベルとすることができる。

３Ｄセンサ（または他の位置感知テクノロジー）を備える記録デバイスを使用することによって、システムは、ユーザが、環境内の関心オブジェクトの場所、範囲、構え、または他の性質に、一度、関単にラベルを付けてから、同じ環境内の様々な条件下で撮られた非常に多くの画像または映像フレームに、このラベル付けを投射することを可能にする。このプロセスは、ほとんどユーザの手を煩わせることなく、様々な条件下で、関心オブジェクトの多数の画像または映像フレームを生成することができ、この場合、各画像またはフレームは、元の環境から投射された性質でラベルが付けられる。

したがって、本明細書に説明されている実施形態は、機械学習用の訓練データを収集する効率を高めるシステムを提供する。高められた効率は、画像内に多様な関心領域または関心オブジェクトを含む、その画像に注釈を付けるのに必要とされる手作業のラベル付け程度におけるかなりの軽減を含むことができる。有効な機械学習が、訓練データの多様性に基づいていることから、またシステムが多様な訓練データを効率的に収集することから、本明細書に説明されている実施形態は、機械学習の技術分野を向上させる。

１つの例示的な実施形態において、ユーザは、ＲＧＢ－Ｄ（赤緑青＋深度）カメラ＋位置推定とマッピングの同時実行（ＳＬＡＭ：ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎＡｎｄＭａｐｐｉｎｇ）式アルゴリズムを使用するＭｉｃｒｏｓｏｆｔＨｏｌｏＬｅｎｓシステムを使用して、部屋のモデルをビルドすることができる。ユーザは、ＨｏｌｏＬｅｎｓを使用して、部屋の３Ｄモデルに仮想マーカを置き、部屋内の関心オブジェクトの場所及び範囲を画定することができる。ユーザは、様々な距離及び配向における、様々な照明条件下で、また閉塞したオブジェクトの存在下で、ＨｏｌｏＬｅｎｓを用いて様々な視野からオブジェクトのいくつかの写真を撮ることができる。ＨｏｌｏＬｅｎｓは、画像ごとに、部屋の３Ｄモデル内のその構えを計算することができる。

システムは、部屋の３Ｄモデルからのユーザの元のマーカを、各画像の中に投射して、関心オブジェクトに対して境界ボックスを形成することができる。これらの自動的に注釈が付けられた画像は、ディープニューラルネットワークなどのテクノロジーを採用するオブジェクト検出及び認識システムを訓練するのに使用され得る。

別の例示的な実施形態において、手の動きの位置を追跡し、記録することができるデバイスが、実世界オブジェクトに注釈を付けるのに使用され得る。例えば、ＨＴＣＶｉｖｅ（ＮＩＲ基地局を使用して、コントローラ内の多様なセンサを追跡する）の場合に含まれている追跡式ハンドコントローラが、コントローラへのトリガ入力を使用して、実世界オブジェクトの境界をたどるのに使用され得る。第２の較正済みカメラ（例えば、ＨＴＣＶｉｖｅ内の埋め込み式カメラ、または外部共較正済み「複合現実」カメラ）と協同して、オブジェクトが、適切に位置合わせされた境界注釈付きで、様々な視点から画像化され得る。

さらなる例示的な実施形態において、磁気センサを備えるデバイスが、３Ｄ座標に注釈を付け、それを追跡するのに使用され得る。例えば、Ｐｏｌｈｅｍｕｓによる３Ｄ運動トラッキングシステムは、センサ（例えば、記録デバイス上の）の位置及び配向を、センサが空間を移動するのに従って、電磁場を使用することによって追跡して、遠隔オブジェクト（例えば、実世界オブジェクト）の位置及び配向を決定することができる。

本明細書に説明されている実施形態は、機械学習用の訓練データを収集する効率を高めるシステムを提供する。訓練データを収集するのに必要とされる手作業の時間及び労力の程度を下げることに加えて、システムは、新しいオブジェクト検出システムの開発時間を短縮することもできる。境界ボックス座標以外に、グラウンドトゥルース注釈は、記録デバイスから、オブジェクトの場所、配向、及び構えについての３Ｄ情報も捕捉することができる。収集されたデータは、したがって、より広いコンピュータビジョン問題セット、例えば、構え、深度、サイズ、オブジェクトクラス、及び「粗い」対「滑らか」などの性質の評価に使用され得る。

さらに、システムの実施形態は、顧客によって管理されるシステムの部品の大きなラベル付きのデータセットを素早く作成することができ、ラベル付きのデータセットを使用して、コンピュータビジョンシステムを訓練することができる。訓練されたシステムは、システムの部品の管理及び修理の際にサービス技術者を手助けすることができ、また顧客が、システム部品（例えば、ＤｉｇｉｔａｌＧｌｏｖｅＢｏｘ及びＳｍａｒｔＳｃａｎのアプリケーション）の修理の際にエンドユーザを手助けすることを可能にすることもできる。これらの既存のツールと提案されたテクノロジーとの間の差別化要因は、既存のツール内に入れられたコンピュータビジョンシステム用の訓練データを収集するのに求められる大量の時間である。この大量の時間は、システムの実施形態を使用して、訓練データを収集することによって、ごくわずか（例えば、１／１０）に低減され得る。

顧客によって管理される他の例示的なシステムは、自動車または車両（ダッシュボードまたは他の自動車部品、例えば、エンジン、または自動車のキャビン内の特徴が、顧客が補助を必要とすることがある関心領域であってもよい）と、プリンタまたは他のデバイス（給紙トレイ、排紙トレイ、制御パネル、または他の部品が、関心領域であってもよい）と、を含むことができる。補助を必要とし得る顧客（またはエンドユーザ）は、自分の携帯電話を用いてシステムの写真を撮り、その写真のある特定の「ラベル付きの」セクションについての有益な情報を取得することができる。例えば、車両のユーザが車両に関する問題に見舞われた場合、車両ユーザは、自分のモバイルデバイスを用いて、また様々なカメラ構えからのダッシュボードの以前に生成された多様なラベル付きの画像セットに基づき、車両ダッシュボードの画像を捕捉することができ、車両ユーザは、その問題にどのように対処するかを理解する上で、ユーザを手助けするのに使用されてもよいラベル付きの画像を取得することができる。

システムの実施形態は、特定分野の専門家が、３Ｄモデル化ツールの機械学習時に専門的知識を必要とすることなく、新しい、スタンドアローンのインタラクティブな拡張現実コーチを簡単に生み出すことを可能にするディーブビジョン動力式ツールも生み出すことができる。システムは、オブジェクト及び領域を指し示すためのジェスチャ、ラベルを提供するための音声テキスト化、及びオブジェクト部分セグメント化など、オーサリングに関する特徴を含むことができる。システムは、記憶、索引付け及びメタデータ、ならびにクリップの基本編集などのキュレーションも含むことができる。システムは、部品認識、ラベル配置、フロー制御、及び部品条件決定など、補助に関する特徴をさらに含むことができる。システムは、背景不感性、自動照明増強、及び影生成を通して、訓練のロバスト性及び一般化を高めることができる。さらに、システムは、インタラクティブなコーチングをサポートするための発話及び行動認識とともに、アプリケーション統合及び遠隔測定接続を含むことができる。

したがって、外部トラッキングセンサを使用してデータに注釈を付けることによって、また拡張現実／仮想現実（ＡＲ／ＶＲ：ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ／ＶｉｒｔｕａｌＲｅａｌｉｔｙ）を使用して、機械学習用の注釈付きの訓練データを収集することによって、本明細書に説明されている実施形態は、ＡＲ／ＶＲの能力を活用して、場面の新しい視点ごとのラベル付けを必要とすることなく、多様な視点から訓練データを収集することができる。これにより、有効なコンピュータビジョンシステムを訓練する際のラベル付けの負担におけるかなりの軽減をもたらすことができる。

図１は、本発明のある実施形態による、訓練データの効率的な収集を促進するための例示的な環境１００を示す。環境１００は、デバイス１０４及び関連のユーザ１０６と、デバイス１０８と、物理オブジェクト１２０と、センサ１１０と、を含むことができる。デバイス１０４は、拡張現実デバイス（ＭｉｃｒｏｓｏｆｔＨｏｌｏＬｅｎｓなど）を含むことができる。物理オブジェクト１２０は、関連の３Ｄ世界座標フレームを有する場面１２１（図示せず）の一部とすることができる。デバイス１０８は、データを受信、送信、かつ格納することができ、また３Ｄ世界座標フレーム内の多様な視点から撮られた画像の中に頂点を投射するためのアルゴリズムを実行することができる、サーバまたは他のコンピューティングデバイスを含むことができる。センサ１１０及び他のトラッキングセンサ（図示せず）は、システム内のデバイス１０４と協働して、画像を捕捉し、画像に注釈を付け、３Ｄ座標を決定し、注釈付きの画像を格納し、画像を投射し、かつ投射された画像を表示することができる。デバイス１０４、デバイス１０８、及びセンサ１１０は、ネットワーク１０２を介して通信することができる。

操作中、ユーザ１０６は、３Ｄ世界座標フレーム内の場所１３０からのデバイス１０４を使用して、物理オブジェクト１２０の画像１３４を捕捉し、注釈を付け（機能１３２）、画像１３４（ユーザ作成の注釈付き）をデバイス１０８に送信することができる。注釈付きの画像は、３Ｄ世界座標フレーム内の３Ｄ座標に関連している多様な印付きの頂点を含むことができる。

ユーザ１０６は、場所１４０（場所１３０とは異なる）からのデバイス１０４を使用して、物理オブジェクト１２０の画像１４４を捕捉し（機能１４２）、画像１４４をデバイス１０８に送信することができる。デバイス１０８は、画像１４４からの印付きの頂点を、画像１４６上に投射し、かつ画像１４６（自動作成の注釈付き）を、デバイス１０４上に表示されるように、ユーザ１０６に送信し戻すためのアルゴリズムを実行することができる。

さらに、ユーザ１０６は、様々な場面特性変更１６０（例えば、他の場所、異なるカメラ構え、異なる照明条件など）に基づいてデバイス１０４を使用し、画像１６４を、ネットワーク１０２を介してデバイス１０８に送信することができる。デバイス１０８は、印付きの頂点（画像１４４において特定または登録されたような）を画像１６６上に投射し、かつ画像１６６（自動作成の注釈付き）を、デバイス１０４上に表示されるように、ユーザ１０６に送信し戻すためのアルゴリズムを実行することができる。

デバイス１０８は、場面１２１に対応し、かつ物理オブジェクト１２０を含む環境を描写する世界座標フレーム１５０と、画像１３４（ユーザ作成の注釈付き）と、ユーザ１０６によって捕捉されたような画像１４４と、画像１４６（自動作成の注釈付き）と、画像１６６（自動作成の注釈付き）と、などのデータを格納することができる。デバイス１０８は、画像１３４、１４４、及び１６６を含むことができる訓練データ１７０も、データ集合として格納することができる。

図２は、本発明のある実施形態による、訓練データの効率的な収集を促進するための方法を示すフローチャート２００を提示する。動作中、システムは、記録デバイスによって、３次元（３Ｄ）世界座標フレームに関連している場面にある物理オブジェクトの第１の画像を取得する（動作２０２）。システムは、第１の画像上において、物理オブジェクトに関連した複数の頂点に印を付け、この場合、頂点は、３Ｄ世界座標フレームに基づく３Ｄ座標を有する（動作２０４）。システムは、場面の１つ以上の特性を変更しながら、場面にある物理オブジェクトの複数の第２の画像を取得する（動作２０６）。システムは、印付きの頂点をそれぞれの第２の画像上に投射して、物理オブジェクトに関連した２次元（２Ｄ）境界エリアを示す（動作２０８）。システムは、印付きの複数の頂点を有する第１の画像と、投射された印付きの頂点を有する複数の第２の画像とを、訓練データ集合に格納する（動作２１０）。システムは、格納された訓練データ集合に基づき、ニューラルネットワークを訓練する（動作２１２）。

本明細書に説明されている実施形態は、単一の画像（またはフレーム）において、多様な関心領域に、一度に注釈を付けることができ（例えば、多様な複数の頂点／点に印を付けることによって）、このように、多様な印付きの複数の頂点を有する単一のユーザ注釈付きの画像は、様々なカメラ構えからの画像の生成をもたらすことができ、この場合、各画像は、注釈付きの多様な関心領域を表示する。すなわち、システムは、多様な関心領域に、同時にラベルを付けることができる。

さらに、本明細書に説明されている実施形態は、ユーザが、最初に多くの画像を捕捉し、次に１つの画像に注釈を付けることを可能にし、その時点で、システムは、ユーザ注釈付きの画像に基づき、以前に捕捉された画像に自動的に注釈を付けることができる。例えば、ユーザが３０秒間、オブジェクトの周りを歩き、記録デバイスまたはシステムを用いて１００枚の画像を捕捉すると仮定する。ある時間歩き、いくつかの画像を捕捉した後（例えば、７秒間歩き、２４枚の画像を捕捉した後）、ユーザは、ある画像（例えば、２５番目の画像）にラベルを付けるか、または印を付けることができ、システムに、以前に捕捉された２４枚の画像と、その後に捕捉された７５枚の画像との両方に自動的に注釈を付けさせることができる。

本明細書に説明されている実施形態は、境界ボックスを示すことができる形などのポリゴンに印を付けることによって、表平面の注釈も提供することができる。ポリゴンは、凸状または非凸状のいずれであってもよい。非凸状ポリゴンに印を付けることは、追加の情報を必要とすることがあり、また、例えば、点が印付けされる順序に基づくことができる。さらに、システムの実施形態は、複数の点に印を付けることなど、ボリュームの注釈を提供して、プリンタ自体全体の周りの立方体を示すことができる。システムは、注釈付きのボリュームに基づき、自動的に注釈が付けられる後続の画像または映像フレーム上に、ボリューム全体を投射することができる。

図３、図４Ａ及び４Ｂ、図５Ａ及び５Ｂ、図６Ａ及び６Ｂ、ならびに図７Ａ～７Ｃは、訓練データの効率的な収集を促進するための例示的な画像を示す。図３は、本発明のある実施形態による、ＡＲデバイスを使用して、システム特徴の角に印を付ける人間を示す。図３における環境は、プリンタを含むいくつかのオブジェクトがある部屋である。ＡＲデバイスは、環境（例えば、部屋）に対して３Ｄ世界座標フレームを画定することができるシステムである、ＭｉｃｒｏｓｏｆｔＨｏｌｏＬｅｎｓとすることができる。

図４Ａは、本発明のある実施形態による、ＡＲデバイスを使用して、第１の視点からプリンタの境界ボックスを作成する例を示す。ユーザは、部屋内のある場所に立って、画像を取得することができる。すなわち、ユーザは、ある特定の視点から、プリンタを含む部屋の画像を捕捉することができ、この場合、視点は、プリンタに対するＡＲデバイスの構え、場所、配向などに基づいている。ＡＲデバイスを使用して、ユーザは、この第１の視点から撮られた第１の画像内に緑のマーカを置くことができ、システムは、この画像上に、緑のマーカによって画定された境界エリアを表示することができる。図４Ａでは、境界エリアは、プリンタの周りに青の輪郭を有するボックスとして現れる。システムは、したがって、物理オブジェクトに関連した複数の頂点に印を付ける。

図４Ｂは、本発明のある実施形態による、ＡＲデバイスを使用して、第２の視点からプリンタの境界ボックスを作成する例を示す。図４Ｂでは、第２の視点からのＡＲデバイスを使用して、ユーザは、部屋の第２の画像を捕捉することができる。第２の視点は、図４Ａの第１の視点とは異なる（すなわち、ＡＲデバイスがプリンタに対して、異なる構え、場所、配向などにある）。システムは、印付きの頂点を緑のマーカとして、第２の画像上に投射し、また、投射された緑のマーカによって画定された境界エリアも、第２の画像上に投射することができる。

図４Ａ及び４Ｂは、場面内の単一の関心領域に印を付けることを示す。上に説明されているように、ユーザは、物理オブジェクトの多様な複数の頂点に印を付けることによって、単一のフレームにおいて、多様な関心領域に一度に注釈を付けることができる。そのように、多様な注釈付きの関心領域を有する単一のユーザ注釈付きのフレームは、様々なカメラ構えからの画像の生成をもたらすことができ、この場合、各画像は、注釈付きの多様な関心領域を表示する。すなわち、システムは、多様な関心領域に同時にラベルを付けることができる。

図５Ａは、本発明のある実施形態による、ＡＲデバイスを使用して、第１の視点からプリンタ部品の境界ボックスを作成する例を示す。ＡＲデバイスを使用して、ユーザは、この第１の視点から撮られた第１の画像にある多様な関心領域上に、緑のマーカ（図示せず）を置くことができ、システムは、この画像上に、緑のマーカによって画定された多様な境界エリア、例えば、排紙トレイに対応する青の境界ボックス、制御パネルに対応する緑の境界ボックス、及び用紙引き出しに対応する赤の境界ボックスを表示することができる。いくつかの実施形態において、図５Ａは、以前に印が付けられた頂点に基づく画像の表示を示し、このように、システムは、この第１の画像上に、以前に印が付けられた頂点に基づき、多様な境界ボックスを表示する。

図５Ｂは、本発明のある実施形態による、ＡＲデバイスを使用して、第２の視点からプリンタ部品の境界ボックスを作成する例を示す。図５Ｂでは、第２の視点からのＡＲデバイスを使用して、ユーザは、部屋の第２の画像を捕捉することができる。システムは、この第２の画像上に、印付きの複数の頂点を緑のマーカ（図示せず）として投射することができ、また、以前に印が付けられた複数の頂点によって画定されたような多様な境界エリアも、この第２の画像上に投射することができる。図５Ａと同様に、青の境界ボックスは、排紙トレイに対応し、緑の境界ボックスは、制御パネルに対応し、赤の境界ボックスは、用紙引き出しに対応する。

図６Ａは、本発明のある実施形態による、ＭｉｃｒｏｓｏｆｔＨｏｌｏＬｅｎｓで使用され得るラベル付けインターフェースを示す。ＭｉｃｒｏｓｏｆｔＨｏｌｏＬｅｎｓを使用して、ユーザは、環境の制御ボタン（例えば、緑の楕円及び青の円）、ならびに表面メッシュ（例えば、白のポリゴン）を見ることができる。ユーザは、ＭｉｃｒｏｓｏｆｔＨｏｌｏＬｅｎｓを装着しながら手の動きを使用して、いくつかの仮想マーカ（緑、赤、及び青の四角）を置くことによって、見た画像に注釈を付けることができる。マーカは、プリンタに関連した様々な関心領域に対応することができる。例えば、ユーザは、緑のマーカが用紙引き出しに対応し、赤のマーカが手作業の入力エリアに対応し、青のマーカが制御パネルに対応することに、注釈を付けることができる。

図６Ｂは、本発明のある実施形態による、表面メッシュのない図６Ａのラベル付けインターフェースを示す。

図７Ａ～７Ｃは、図６Ａ及び６Ｂにおけるユーザによって入れられた注釈に基づいた、自動的に生成されたマーカ場所及び境界ボックスを示す。図７Ａ～７Ｃにおける境界エリアの色が図６Ａにおける対応する境界エリアとは異なり、システムが、以前に注釈が付けられた多様な関心領域を表示することに留意されたい。それに加え、ユーザは、境界エリアの指標を、マーカ場所間のコネクタのいずれのタイプ、パターン、または色にも設定することができる。

図７Ａは、本発明のある実施形態による、ＭｉｃｒｏｓｏｆｔＨｏｌｏＬｅｎｓインターフェースを使用した、第１の視点からの自動的に生成された２次元マーカ場所及び対応する境界ボックスの例を示す。図７Ａでは、緑の境界ボックスは、制御パネルに対応し、青の境界ボックスは、手作業の入力エリアに対応し、赤の境界ボックスは、用紙引き出しに対応する。

図７Ｂは、本発明のある実施形態による、ＭｉｃｒｏｓｏｆｔＨｏｌｏＬｅｎｓインターフェースを使用した、第２の視点からの自動的に生成された２次元マーカ場所及び対応する境界ボックスの例を示す。図７Ｂでは、緑の境界ボックスは、制御パネルに対応し、青の境界ボックスは、手作業の入力エリアに対応し、赤の境界ボックスは、用紙引き出しに対応する。

図７Ｃは、本発明のある実施形態による、ＭｉｃｒｏｓｏｆｔＨｏｌｏＬｅｎｓインターフェースを使用した、第２の視点からの自動的に生成された２次元マーカ位置及び対応する境界ボックスの例を示す。図７Ｃでは、緑の境界ボックスは、制御パネルに対応し、青の境界ボックスは、手作業の入力エリアに対応し、赤の境界ボックスは、用紙引き出しに対応する。

図８は、本発明のある実施形態による、訓練データの効率的な収集を促進する例示的なコンピュータ及び通信システム８００を示す。システム８００は、ネットワーク（図示せず）を介して通信することができるコンピュータシステム８０２と記録デバイス８４２とを含む。コンピュータシステム８０２と記録デバイス８４２とは、それぞれ、図１のデバイス１０８とデバイス１０４とに対応することができる。

コンピュータシステム８０２は、プロセッサ８０４、メモリ８０６、及び記憶デバイス８０８を含む。メモリ８０６は、マネージドメモリとして働く揮発性メモリ（例えば、ＲＡＭ）を含むことができ、１つ以上のメモリプールを格納するのに使用され得る。さらに、コンピュータシステム８０２は、表示デバイス８１０、キーボード８１２、及びポインティングデバイス８１４に結合され得る。記憶デバイス８０８は、オペレーティングシステム８１６、コンテンツ処理システム８１８、及びデータ８２８を格納することができる。

コンテンツ処理システム８１８は、コンピュータシステム８０２によって実行されると、コンピュータシステム８０２に、本開示に説明されている方法及び／またはプロセスを行わせることができる命令を含むことができる。具体的には、コンテンツ処理システム８１８は、コンピュータネットワークにわたって、他のネットワークノードに／からデータパケットを送信する、かつ／または受信する／取得するための命令を含んでもよい（通信モジュール８２０）。データパケットは、画像と、映像と、映像フレームと、頂点の３Ｄ座標と、場面または場面にある物理オブジェクトについての情報と、を含むことができる。

コンテンツ処理システム８１８は、３Ｄ世界座標フレームに関連している場面にある物理オブジェクトの第１の画像を受信するための、また場面の１つ以上の変更された特性に基づき、場面にある物理オブジェクトの複数の第２の画像を受信するための命令を含むことができる（通信モジュール８２０）。コンテンツ処理システム８１８は、物理オブジェクトに関連した印付きの複数の頂点を登録するための命令を含むことができる（投射決定モジュール８２２）。コンテンツ処理システム８１８は、それぞれの第２の画像上への印付きの頂点の投射を決定するための命令を含むことができる（投射決定モジュール８２２）。コンテンツ処理システム８１８は、物理オブジェクトに関連した２Ｄ境界エリアを示すための命令を含むことができる（境界エリア管理モジュール８２４）。コンテンツ処理システム８１８は、第１の画像及び第２の画像を訓練データ集合に格納するための、また畳み込みニューラルネットワークを訓練して、物理オブジェクトの特徴を特定するための命令を含むことができる（ネットワーク訓練モジュール８２６）。

記録デバイス８４２は、プロセッサ８４４、メモリ８４６、及び記憶デバイス８４８を含む。メモリ８４６は、マネージドメモリとして働く揮発性メモリ（例えば、ＲＡＭ）を含むことができ、１つ以上のメモリプールを格納するのに使用され得る。記憶デバイス８４８は、コンテンツ処理システム８５８及びデータ８６８を格納することができる。

コンテンツ処理システム８５８は、記録デバイス８４２によって実行されると、記録デバイス８４２に、本開示に説明されている方法及び／またはプロセスを行わせることができる命令を含むことができる。具体的には、コンテンツ処理システム８５８は、コンピュータネットワークにわたって、他のネットワークノードに／からデータパケットを送信する、かつ／または受信する／取得するための命令を含んでもよい（通信モジュール８６０）。データパケットは、画像と、映像と、映像フレームと、頂点の３Ｄ座標と、場面または場面にある物理オブジェクトについての情報と、を含むことができる。

コンテンツ処理システム８５８は、３次元（３Ｄ）世界座標フレームに関連している場面にある物理オブジェクトの第１の画像を取得するための命令を含むことができる（画像取得モジュール８６２）。コンテンツ処理システム８５８は、第１の画像上において、物理オブジェクトに関連した複数の頂点に印を付けるための命令を含むことができ、この場合、頂点は、３Ｄ世界座標フレームに基づく３Ｄ座標を有する（頂点印付けモジュール８６４）。コンテンツ処理システム８５８は、場面の１つ以上の特性を変更しながら、場面にある物理オブジェクトの複数の第２の画像を取得するための命令を含むことができる（画像取得モジュール８６２）。コンテンツ処理システム８５８は、印付きの頂点をそれぞれの第２の画像上に投射して、物理オブジェクトに関連した２次元（２Ｄ）境界エリアを示すための命令を含むことができる（画像表示モジュール８６６）。

データ８２８及び８６８は、本開示に説明されている方法及び／またはプロセスによって、入力として必要とされるか、または出力として生成されるいずれのデータも含むことができる。具体的には、データ８２８及び８６８は、少なくとも、データと、画像と、物理オブジェクトの画像と、３Ｄ世界座標フレームと、頂点と、頂点に対する３Ｄ座標と、場面と、場面の特性と、物理オブジェクト上の関心領域の指標と、印付きの頂点と、印付きの頂点の投射と、ポリゴンと、表平面の一部と、ボリュームと、２Ｄ形と、３Ｄボリュームと、２Ｄ境界エリアと、注釈と、ラベルと、画像内の投射された頂点間のコネクタのタイプ、パターン、または色と、画像内の投射された頂点を繋ぐことによって形成された形の色、濃淡、及び占有と、２Ｄ境界エリアを描写するテキストと、２Ｄ境界エリアに対するラベルまたは描写の表示と、記録デバイスの構えと、場面の照明と、物理オブジェクトからの記録デバイスの距離と、物理オブジェクトに対する記録デバイスの配向と、物理オブジェクトまたは場面の背景と、物理オブジェクトの１つ以上の部分の閉塞と、訓練データ集合と、訓練されたネットワークと、ユーザ作成の注釈付きの画像と、システム作成または自動生成の注釈付きの画像と、を格納することができる。

この詳細な説明に説明されているデータ構造及びコードは、コンピュータシステムによる使用のためのコード及び／またはデータを格納することができるいずれのデバイスまたは媒体であってもよい、コンピュータ可読記憶媒体上に通常格納されている。コンピュータ可読記憶媒体は、揮発性メモリ、不揮発性メモリ、またディスクドライブ、磁気テープ、ＣＤ（コンパクトディスク）、ＤＶＤ（デジタルバーサタイルディスクまたはデジタルビデオディスク）などの磁気及び光記憶デバイス、または現在知られているかまたは後に開発されるコンピュータ可読媒体を格納することができる他の媒体を含むが、それらに限定されるものではない。

詳細な説明の項に説明されている方法及びプロセスは、上に説明されているようなコンピュータ可読記憶媒体に格納され得る、コード及び／またはデータとして具体化され得る。コンピュータシステムが、コンピュータ可読記憶媒体上に格納されているコード及び／またはデータを読み取り、実行すると、コンピュータシステムは、データ構造及びコードとして具体化され、かつコンピュータ可読記憶媒体内に格納されている方法及びプロセスを行う。

さらに、上に説明されている方法及びプロセスは、ハードウェアモジュールまたは装置に含まれ得る。ハードウェアモジュールまたは装置は、特定用途向け集積回路（ＡＳＩＣ：Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）チップ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、特定の時点で特定のソフトウェアモジュールまたは１つのコードを実行する専用または共有のプロセッサ、及び現在知られているかまたは後に開発される他のプログラマブルロジックデバイスを含むことができるが、それらに限定されるものではない。ハードウェアモジュールまたは装置が起動されると、それらは、それら内に含まれている方法及びプロセスを行う。

Claims

訓練データの効率的な収集を促進するためのコンピュータ実施方法であって、
記録デバイスによって、３次元（３Ｄ）世界座標フレームに関連している場面にある物理オブジェクトの第１の画像を取得することと、
前記記録デバイスのユーザによって、前記第１の画像上において、前記物理オブジェクトに関連した複数の頂点に印を付けることであって、頂点が、前記３Ｄ世界座標フレームに基づく３Ｄ座標を有する、印を付けることと、
前記記録デバイスによって、前記場面の１つ以上の特性を変更しながら、前記場面にある前記物理オブジェクトの複数の第２の画像を取得することと、
前記物理オブジェクトに関連した前記印付きの複数の頂点を前記それぞれの第２の画像上に投射し、
前記物理オブジェクトに関連し、前記印付きの頂点を含む２次元（２Ｄ）境界エリアをディスプレイに示すこと、
によって、前記場面にある前記物理オブジェクトのそれぞれの第２の画像を前記記録デバイスの前記ディスプレイに表示することと、
訓練データ集合に前記印付きの複数の頂点を有する前記第１の画像及び前記投射された印付きの頂点を有する前記複数の第２の画像を格納することと、
前記訓練データ集合に基づいて、畳み込みニューラルネットワークを訓練して前記物理オブジェクトの特徴を特定することと、
を含む、コンピュータ実施方法。
前記印付きの複数の頂点が、前記物理オブジェクト上の１つ以上の関心領域に対応し、
前記印付きの頂点を投射することが、前記物理オブジェクト上に、前記１つ以上の関心領域に関連した２Ｄ境界エリアを示すことをさらに含む、請求項１に記載の方法。
前記印付きの複数の頂点が、
ポリゴンと、
表平面の一部と、
ボリュームと、のうちの１つ以上を示すことができる、請求項１に記載の方法。
前記複数の頂点に印を付けることが、
前記それぞれの第２の画像上に、前記投射された印付きの頂点の前記２Ｄ境界エリアをどのように示すかを決定することをさらに含む、請求項１に記載の方法。
前記２Ｄ境界エリア及び前記それぞれの第２の画像が、前記記録デバイスに関連したディスプレイ上に提示され、
前記２Ｄ境界エリアが、２Ｄ形または３Ｄボリュームを示す、請求項１に記載の方法。
訓練データの効率的な収集を促進するためのコンピュータシステムであって、
プロセッサと、
前記プロセッサによって実行されると、前記プロセッサに、方法を行わせる命令を格納している記憶デバイスであって、前記方法が、
記録デバイスによって、３次元（３Ｄ）世界座標フレームに関連している場面にある物理オブジェクトの第１の画像を取得すること、
前記記録デバイスのユーザによって、前記第１の画像上において、前記物理オブジェクトに関連した複数の頂点に印を付けることであって、頂点が、前記３Ｄ世界座標フレームに基づく３Ｄ座標を有する、印を付けること、
前記記録デバイスによって、前記場面の１つ以上の特性を変更しながら、前記場面にある前記物理オブジェクトの複数の第２の画像を取得すること、及び
前記物理オブジェクトに関連した前記印付きの複数の頂点を前記それぞれの第２の画像上に投射し、
前記物理オブジェクトに関連し、前記印付きの頂点を含む２次元（２Ｄ）境界エリアをディスプレイに示すこと、
によって、前記場面にある前記物理オブジェクトのそれぞれの第２の画像を前記記録デバイスの前記ディスプレイに表示すること、
訓練データ集合に前記印付きの複数の頂点を有する前記第１の画像及び前記投射された印付きの頂点を有する前記複数の第２の画像を格納すること、及び
前記訓練データ集合に基づいて、畳み込みニューラルネットワークを訓練して前記物理オブジェクトの特徴を特定すること、
を含む、記憶デバイスと、を備える、コンピュータシステム。
前記印付きの複数の頂点が、前記物理オブジェクト上の１つ以上の関心領域に対応し、
前記印付きの頂点を投射することが、前記物理オブジェクト上に、前記１つ以上の関心領域に関連した２Ｄ境界エリアを示すことをさらに含む、請求項６に記載のコンピュータシステム。
前記印付きの複数の頂点が、
ポリゴンと、
表平面の一部と、
ボリュームと、のうちの１つ以上を示すことができる、請求項６に記載のコンピュータシステム。
前記複数の頂点に印を付けることが、
前記それぞれの第２の画像上に、前記投射された印付きの頂点の前記２Ｄ境界エリアをどのように示すかを決定することをさらに含む、請求項６に記載のコンピュータシステム。
前記２Ｄ境界エリア及び前記それぞれの第２の画像が、前記記録デバイスに関連したディスプレイ上に提示され、
前記２Ｄ境界エリアが、２Ｄ形または３Ｄボリュームを示す、請求項６に記載のコンピュータシステム。