JP2019083001A - 機械学習用の訓練データの効率的な収集のための拡張現実を使用したシステム及び方法 - Google Patents

機械学習用の訓練データの効率的な収集のための拡張現実を使用したシステム及び方法 Download PDF

Info

Publication number
JP2019083001A
JP2019083001A JP2018188871A JP2018188871A JP2019083001A JP 2019083001 A JP2019083001 A JP 2019083001A JP 2018188871 A JP2018188871 A JP 2018188871A JP 2018188871 A JP2018188871 A JP 2018188871A JP 2019083001 A JP2019083001 A JP 2019083001A
Authority
JP
Japan
Prior art keywords
image
vertices
physical object
scene
marked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018188871A
Other languages
English (en)
Other versions
JP7128708B2 (ja
JP2019083001A5 (ja
Inventor
マシュー・エイ・シュリーブ
A Shreve Matthew
スリチャラン・カルーア・パリ・クマール
Kallur Palli Kumar Sricharan
ジン・サン
Xin Sun
ガウラン・アール・ガヴァイ
R Gavai Gaurang
ロバート・アール・プライス
R Price Robert
ホダ・エム・エイ・エルダーディリー
M A Eldardiry Hoda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Palo Alto Research Center Inc
Original Assignee
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palo Alto Research Center Inc filed Critical Palo Alto Research Center Inc
Publication of JP2019083001A publication Critical patent/JP2019083001A/ja
Publication of JP2019083001A5 publication Critical patent/JP2019083001A5/ja
Application granted granted Critical
Publication of JP7128708B2 publication Critical patent/JP7128708B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/004Annotating, labelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

【課題】訓練データの効率的な収集を促進するシステムを提供する。【解決手段】システムは、動作中、記録デバイスによって、3次元(3D)世界座標フレームに関連している場面にある物理オブジェクトの第1の画像を取得する。第1の画像上において、物理オブジェクトに関連した複数の頂点に印を付け、この場合、頂点は、3D世界座標フレームに基づく3D座標を有する。場面の1つ以上の特性を変更しながら、場面にある物理オブジェクトの複数の第2の画像を取得する。印付きの頂点をそれぞれの第2の画像上に投射して、物理オブジェクトに関連した2次元(2D)境界エリアを示す。【選択図】図2

Description

本開示は、概して、コンピュータビジョンシステムに関する。より具体的には、本開示は、機械学習用の訓練データの効率的な収集のための拡張現実(AR:Augmented Reality)を使用したシステム及び方法に関する。
現在、コンピュータビジョンシステムを訓練することは、多くの画像または映像を手作業で収集する退屈なプロセスを通して達成されている。人間である専門家は、続いて、画像または映像フレームのそれぞれにある関心オブジェクトに注釈を付けるか、またはラベルを付けることが求められる。この非効率なプロセスは、必要とされるかなりの時間量とともに、人間の疲労に基づくラベル付け時の誤り率上昇により、多額の費用をもたらすことがある。
効率的な画像のパーシング及び境界ボックスの描画を可能にするヒューマンコンピュータインターフェースの開発、ならびにスクラッチからポインタを指定する代わりに、ユーザが後で修正することができるポインタを提供するテクノロジーの使用を含む、手作業のラベル付けの負担を軽減するための様々な努力がなされてきた。例えば、その過去の軌跡に基づき、映像内のオブジェクトの場所を予想または補間するのに、カルマンフィルタが使用されることがあり、この場合、人間が、必要に応じてこれらの予想を調整する。しかしながら、これらの方法は、依然として、かなりの手作業を必要とし、訓練データを収集するのに必要なラベル付けプロセスにおける目立った軽減をもたらさない。
1つの実施形態は、訓練データの効率的な収集を促進するシステムを提供する。動作中、システムは、記録デバイスによって、3次元(3D:Three−Dimensional)世界座標フレームに関連している場面にある物理オブジェクトの第1の画像を取得する。システムは、第1の画像上において、物理オブジェクトに関連した複数の頂点に印を付け、この場合、頂点は、3D世界座標フレームに基づく3D座標を有する。システムは、場面の1つ以上の特性を変更しながら、場面にある物理オブジェクトの複数の第2の画像を取得する。システムは、印付きの頂点をそれぞれの第2の画像上に投射して、物理オブジェクトに関連した2次元(2D:Two−Dimensional)境界エリアを示す。
いくつかの実施形態において、印付きの複数の頂点は、物理オブジェクト上の1つ以上の関心領域に対応する。印付きの頂点を投射することは、物理オブジェクト上に、1つ以上の関心領域に関連した2D境界エリアを示すことをさらに含む。
いくつかの実施形態において、印付きの複数の頂点は、ポリゴンと、表平面の一部と、ボリュームと、のうちの1つ以上を示すことができる。
いくつかの実施形態において、複数の頂点に印を付けることは、それぞれの第2の画像上に、投射された印付きの頂点の2D境界エリアをどのように示すかを決定することをさらに含む。
いくつかの実施形態において、2D境界エリア及びそれぞれの第2の画像が、記録デバイスに関連したディスプレイ上に提示され、2D境界エリアが、2D形または3Dボリュームを示す。
いくつかの実施形態において、2D境界エリアは、それぞれの第2の画像内の投射された頂点間のコネクタのタイプ、パターン、または色と、それぞれの第2の画像内の投射された頂点を繋ぐことによって形成された形の色、濃淡、または占有と、2D境界エリアを記述するテキストと、2D境界エリアに対するラベルまたは記述の表示と、のうちの1つ以上によって示される。
いくつかの実施形態において、2D境界エリアは、場面の特性に対応する。
いくつかの実施形態において、場面の特性は、記録デバイスの構えと、場面の照明と、物理オブジェクトからの記録デバイスの距離と、物理オブジェクトに対する記録デバイスの配向と、物理オブジェクトまたは場面の背景と、物理オブジェクトの1つ以上の部分の閉塞と、のうちの1つ以上である。
いくつかの実施形態において、システムは、訓練データ集合に、印付きの複数の頂点を有する第1の画像を格納する。システムは、訓練データ集合に、投射された印付きの頂点を有する複数の第2の画像を格納する。システムは、訓練データ集合に基づき、畳み込みニューラルネットワークを訓練して、物理オブジェクトの特徴を特定する。システムは、訓練されたネットワークをモバイルコンピューティングデバイス上に展開させて、物理オブジェクトの特徴を特定する。
いくつかの実施形態において、記録デバイスは、拡張現実デバイスと、仮想現実デバイスと、3D世界座標フレーム内の頂点に対して3D座標を決定する磁気センサを備えるデバイスと、カメラ及びハンドトラッキングセンサと、赤、緑、及び青(RGB)を記録するカメラであって、ハンドトラッキングセンサが3D世界座標フレーム内の頂点に対して3D座標を決定する、カメラと、赤、緑、及び青(RGB)を記録するカメラ、及び深度を記録する3Dセンサと、画像または映像を記録し、かつビジュアルキューまたは位置感知テクノロジーに基づき、3D世界座標フレーム内の頂点に対して3D座標を決定するデバイスと、画像または映像を記録し、かつ(3D)センサを含むデバイスと、のうちの1つ以上を含む。
本特許包袋または本出願包袋は、カラーで実行された少なくとも1つの図面を含む。カラー図面を有する本特許または本特許出願公開のコピーは、請求及び必要な手数料の支払いに応じて事務局によって提供されることになる。
本発明のある実施形態による、訓練データの効率的な収集を促進するための例示的な環境を示す。 本出願のある実施形態による、訓練データの効率的な収集を促進するための方法を示すフローチャートを提示する。 本発明のある実施形態による、ARデバイスを使用して、システム特徴の角に印を付ける人間を示す。 本発明のある実施形態による、ARデバイスを使用して、第1の視点からプリンタの境界ボックスを作成する例を示す。 本発明のある実施形態による、ARデバイスを使用して、第2の視点からプリンタの境界ボックスを作成する例を示す。 本発明のある実施形態による、ARデバイスを使用して、第1の視点からプリンタ部品の境界ボックスを作成する例を示す。 本発明のある実施形態による、ARデバイスを使用して、第2の視点からプリンタ部品の境界ボックスを作成する例を示す。 本発明のある実施形態による、Microsoft HoloLensで使用され得るラベル付けインターフェースを示す。 本発明のある実施形態による、表面メッシュのない図6Aのラベル付けインターフェースを示す。 本発明のある実施形態による、Microsoft HoloLensインターフェースを使用した、第1の視点からの自動的に生成された2次元マーカ場所及び対応する境界ボックスの例を示す。 本発明のある実施形態による、Microsoft HoloLensインターフェースを使用した、第2の視点からの自動的に生成された2次元マーカ場所及び対応する境界ボックスの例を示す。 本発明のある実施形態による、Microsoft HoloLensインターフェースを使用した、第2の視点からの自動的に生成された2次元マーカ場所及び対応する境界ボックスの例を示す。 本発明のある実施形態による、訓練データの効率的な収集を促進する例示的なコンピュータ及び通信システムを示す。
図において、類似の参照番号は、同じ図の要素を指す。
以下の説明は、当業者に、実施形態を作り、使用するのを可能にさせるために提示され、特定の用途及びその要件の観点から提供されている。開示された実施形態に対する様々な修正形態が当業者にはすぐに明らかになり、本明細書に定義されている一般原則が、本開示の趣旨及び範囲を逸脱しない限り、他の実施形態及び用途に適用されてもよい。したがって、本発明は、示されている実施形態に限定されるものでなく、本明細書に開示されている原則及び特徴と合致している最も広い範囲が与えられるべきである。
本明細書に説明されている実施形態は、ユーザが訓練データを効率的に収集することを可能にするシステムを提供することによって、訓練データの手作業のラベル付けの負担を軽減する問題を解決する。システムは、人間が、記録デバイスを使用して、単一の画像において、関心オブジェクトを捕捉し、それに注釈を付けることを可能にする。システムは、続いて、同じ環境において変わる条件の下、多くの他の同様の画像にある同じ関心オブジェクト上に注釈を投射する。
具体的には、ユーザは、記録デバイスを使用して、3次元(3D)世界座標フレームに関連している環境(例えば、「場面」)にある物理オブジェクトの画像または映像を捕捉することができる。単一の画像または映像フレームに関して記録デバイスを使用して、ユーザは、物理オブジェクト上の点に印を付けることができる。点は、3D世界座標フレームに基づく3D座標を有する頂点とすることができる。頂点の3D座標を決定することは、場面における物理オブジェクト構えを画定するビジュアルキューまたは他の位置感知テクノロジーに基づいていてもよい。場面が変更されると(例えば、ユーザ及び記録デバイスが、物理オブジェクトに対して、部屋内の異なる場所に移動すると)、システムは、物理オブジェクトに関連した境界ボックスを示すように投射された、印付きの点を、ユーザに表示することができる(変更された条件の下で捕捉された画像または映像上で)。
例えば、記録デバイスは、3Dトラッキングセンサを備えるカメラとすることができる。場面は、事務所とすることができ、関心物理オブジェクトは、事務所内のプリンタとすることができる。システムは、場面(すなわち、3D世界座標フレーム)においてカメラ構えを画定することができる一方、ユーザは、頂点に印を付け、物理オブジェクト上の関心領域を示すことができる(例えば、プリンタ上のプリンタ排紙トレイに注釈を付けるか、またはラベルを付ける)。システムは、場面の1つ以上の特性を変更しながら(例えば、カメラの場所、配向、または構えを変更する)、印付きの頂点を追跡することができる。
システムは、次に、様々なカメラ構えにおいて、印付きの頂点をカメラフレーム中に投射することができ、この場合、各投射は、収集された(かつラベル付けされた)訓練データの一部として使用され得る自動的に注釈が付けられた画像である。すなわち、プリンタの他の画像を様々なカメラ構えから撮ると仮定すると、システムは、他の画像上に印付きの頂点を投射して、プリンタ上に、関心領域の周りの境界エリアを示すことができ、このように、単一の注釈付きの画像にのみ基づいて、他の画像に自動的に注釈を付ける。境界エリアは、場面の特性に対応する境界ボックスまたはラベルとすることができる。
3Dセンサ(または他の位置感知テクノロジー)を備える記録デバイスを使用することによって、システムは、ユーザが、環境内の関心オブジェクトの場所、範囲、構え、または他の性質に、一度、関単にラベルを付けてから、同じ環境内の様々な条件下で撮られた非常に多くの画像または映像フレームに、このラベル付けを投射することを可能にする。このプロセスは、ほとんどユーザの手を煩わせることなく、様々な条件下で、関心オブジェクトの多数の画像または映像フレームを生成することができ、この場合、各画像またはフレームは、元の環境から投射された性質でラベルが付けられる。
したがって、本明細書に説明されている実施形態は、機械学習用の訓練データを収集する効率を高めるシステムを提供する。高められた効率は、画像内に多様な関心領域または関心オブジェクトを含む、その画像に注釈を付けるのに必要とされる手作業のラベル付け程度におけるかなりの軽減を含むことができる。有効な機械学習が、訓練データの多様性に基づいていることから、またシステムが多様な訓練データを効率的に収集することから、本明細書に説明されている実施形態は、機械学習の技術分野を向上させる。
1つの例示的な実施形態において、ユーザは、RGB−D(赤緑青+深度)カメラ+位置推定とマッピングの同時実行(SLAM:Simultaneous Localization And Mapping)式アルゴリズムを使用するMicrosoft HoloLensシステムを使用して、部屋のモデルをビルドすることができる。ユーザは、HoloLensを使用して、部屋の3Dモデルに仮想マーカを置き、部屋内の関心オブジェクトの場所及び範囲を画定することができる。ユーザは、様々な距離及び配向における、様々な照明条件下で、また閉塞したオブジェクトの存在下で、HoloLensを用いて様々な視野からオブジェクトのいくつかの写真を撮ることができる。HoloLensは、画像ごとに、部屋の3Dモデル内のその構えを計算することができる。
システムは、部屋の3Dモデルからのユーザの元のマーカを、各画像の中に投射して、関心オブジェクトに対して境界ボックスを形成することができる。これらの自動的に注釈が付けられた画像は、ディープニューラルネットワークなどのテクノロジーを採用するオブジェクト検出及び認識システムを訓練するのに使用され得る。
別の例示的な実施形態において、手の動きの位置を追跡し、記録することができるデバイスが、実世界オブジェクトに注釈を付けるのに使用され得る。例えば、HTC Vive(NIR基地局を使用して、コントローラ内の多様なセンサを追跡する)の場合に含まれている追跡式ハンドコントローラが、コントローラへのトリガ入力を使用して、実世界オブジェクトの境界をたどるのに使用され得る。第2の較正済みカメラ(例えば、HTC Vive内の埋め込み式カメラ、または外部共較正済み「複合現実」カメラ)と協同して、オブジェクトが、適切に位置合わせされた境界注釈付きで、様々な視点から画像化され得る。
さらなる例示的な実施形態において、磁気センサを備えるデバイスが、3D座標に注釈を付け、それを追跡するのに使用され得る。例えば、Polhemusによる3D運動トラッキングシステムは、センサ(例えば、記録デバイス上の)の位置及び配向を、センサが空間を移動するのに従って、電磁場を使用することによって追跡して、遠隔オブジェクト(例えば、実世界オブジェクト)の位置及び配向を決定することができる。
本明細書に説明されている実施形態は、機械学習用の訓練データを収集する効率を高めるシステムを提供する。訓練データを収集するのに必要とされる手作業の時間及び労力の程度を下げることに加えて、システムは、新しいオブジェクト検出システムの開発時間を短縮することもできる。境界ボックス座標以外に、グラウンドトゥルース注釈は、記録デバイスから、オブジェクトの場所、配向、及び構えについての3D情報も捕捉することができる。収集されたデータは、したがって、より広いコンピュータビジョン問題セット、例えば、構え、深度、サイズ、オブジェクトクラス、及び「粗い」対「滑らか」などの性質の評価に使用され得る。
さらに、システムの実施形態は、顧客によって管理されるシステムの部品の大きなラベル付きのデータセットを素早く作成することができ、ラベル付きのデータセットを使用して、コンピュータビジョンシステムを訓練することができる。訓練されたシステムは、システムの部品の管理及び修理の際にサービス技術者を手助けすることができ、また顧客が、システム部品(例えば、Digital GloveBox及びSmartScanのアプリケーション)の修理の際にエンドユーザを手助けすることを可能にすることもできる。これらの既存のツールと提案されたテクノロジーとの間の差別化要因は、既存のツール内に入れられたコンピュータビジョンシステム用の訓練データを収集するのに求められる大量の時間である。この大量の時間は、システムの実施形態を使用して、訓練データを収集することによって、ごくわずか(例えば、1/10)に低減され得る。
顧客によって管理される他の例示的なシステムは、自動車または車両(ダッシュボードまたは他の自動車部品、例えば、エンジン、または自動車のキャビン内の特徴が、顧客が補助を必要とすることがある関心領域であってもよい)と、プリンタまたは他のデバイス(給紙トレイ、排紙トレイ、制御パネル、または他の部品が、関心領域であってもよい)と、を含むことができる。補助を必要とし得る顧客(またはエンドユーザ)は、自分の携帯電話を用いてシステムの写真を撮り、その写真のある特定の「ラベル付きの」セクションについての有益な情報を取得することができる。例えば、車両のユーザが車両に関する問題に見舞われた場合、車両ユーザは、自分のモバイルデバイスを用いて、また様々なカメラ構えからのダッシュボードの以前に生成された多様なラベル付きの画像セットに基づき、車両ダッシュボードの画像を捕捉することができ、車両ユーザは、その問題にどのように対処するかを理解する上で、ユーザを手助けするのに使用されてもよいラベル付きの画像を取得することができる。
システムの実施形態は、特定分野の専門家が、3Dモデル化ツールの機械学習時に専門的知識を必要とすることなく、新しい、スタンドアローンのインタラクティブな拡張現実コーチを簡単に生み出すことを可能にするディーブビジョン動力式ツールも生み出すことができる。システムは、オブジェクト及び領域を指し示すためのジェスチャ、ラベルを提供するための音声テキスト化、及びオブジェクト部分セグメント化など、オーサリングに関する特徴を含むことができる。システムは、記憶、索引付け及びメタデータ、ならびにクリップの基本編集などのキュレーションも含むことができる。システムは、部品認識、ラベル配置、フロー制御、及び部品条件決定など、補助に関する特徴をさらに含むことができる。システムは、背景不感性、自動照明増強、及び影生成を通して、訓練のロバスト性及び一般化を高めることができる。さらに、システムは、インタラクティブなコーチングをサポートするための発話及び行動認識とともに、アプリケーション統合及び遠隔測定接続を含むことができる。
したがって、外部トラッキングセンサを使用してデータに注釈を付けることによって、また拡張現実/仮想現実(AR/VR:Augmented Reality/Virtual Reality)を使用して、機械学習用の注釈付きの訓練データを収集することによって、本明細書に説明されている実施形態は、AR/VRの能力を活用して、場面の新しい視点ごとのラベル付けを必要とすることなく、多様な視点から訓練データを収集することができる。これにより、有効なコンピュータビジョンシステムを訓練する際のラベル付けの負担におけるかなりの軽減をもたらすことができる。
図1は、本発明のある実施形態による、訓練データの効率的な収集を促進するための例示的な環境100を示す。環境100は、デバイス104及び関連のユーザ106と、デバイス108と、物理オブジェクト120と、センサ110と、を含むことができる。デバイス104は、拡張現実デバイス(Microsoft HoloLensなど)を含むことができる。物理オブジェクト120は、関連の3D世界座標フレームを有する場面121(図示せず)の一部とすることができる。デバイス108は、データを受信、送信、かつ格納することができ、また3D世界座標フレーム内の多様な視点から撮られた画像の中に頂点を投射するためのアルゴリズムを実行することができる、サーバまたは他のコンピューティングデバイスを含むことができる。センサ110及び他のトラッキングセンサ(図示せず)は、システム内のデバイス104と協働して、画像を捕捉し、画像に注釈を付け、3D座標を決定し、注釈付きの画像を格納し、画像を投射し、かつ投射された画像を表示することができる。デバイス104、デバイス108、及びセンサ110は、ネットワーク102を介して通信することができる。
操作中、ユーザ106は、3D世界座標フレーム内の場所130からのデバイス104を使用して、物理オブジェクト120の画像134を捕捉し、注釈を付け(機能132)、画像134(ユーザ作成の注釈付き)をデバイス108に送信することができる。注釈付きの画像は、3D世界座標フレーム内の3D座標に関連している多様な印付きの頂点を含むことができる。
ユーザ106は、場所140(場所130とは異なる)からのデバイス104を使用して、物理オブジェクト120の画像144を捕捉し(機能142)、画像144をデバイス108に送信することができる。デバイス108は、画像144からの印付きの頂点を、画像146上に投射し、かつ画像146(自動作成の注釈付き)を、デバイス104上に表示されるように、ユーザ106に送信し戻すためのアルゴリズムを実行することができる。
さらに、ユーザ106は、様々な場面特性変更160(例えば、他の場所、異なるカメラ構え、異なる照明条件など)に基づいてデバイス104を使用し、画像164を、ネットワーク102を介してデバイス108に送信することができる。デバイス108は、印付きの頂点(画像144において特定または登録されたような)を画像166上に投射し、かつ画像166(自動作成の注釈付き)を、デバイス104上に表示されるように、ユーザ106に送信し戻すためのアルゴリズムを実行することができる。
デバイス108は、場面121に対応し、かつ物理オブジェクト120を含む環境を描写する世界座標フレーム150と、画像134(ユーザ作成の注釈付き)と、ユーザ106によって捕捉されたような画像144と、画像146(自動作成の注釈付き)と、画像166(自動作成の注釈付き)と、などのデータを格納することができる。デバイス108は、画像134、144、及び166を含むことができる訓練データ170も、データ集合として格納することができる。
図2は、本発明のある実施形態による、訓練データの効率的な収集を促進するための方法を示すフローチャート200を提示する。動作中、システムは、記録デバイスによって、3次元(3D)世界座標フレームに関連している場面にある物理オブジェクトの第1の画像を取得する(動作202)。システムは、第1の画像上において、物理オブジェクトに関連した複数の頂点に印を付け、この場合、頂点は、3D世界座標フレームに基づく3D座標を有する(動作204)。システムは、場面の1つ以上の特性を変更しながら、場面にある物理オブジェクトの複数の第2の画像を取得する(動作206)。システムは、印付きの頂点をそれぞれの第2の画像上に投射して、物理オブジェクトに関連した2次元(2D)境界エリアを示す(動作208)。システムは、印付きの複数の頂点を有する第1の画像と、投射された印付きの頂点を有する複数の第2の画像とを、訓練データ集合に格納する(動作210)。システムは、格納された訓練データ集合に基づき、ニューラルネットワークを訓練する(動作212)。
本明細書に説明されている実施形態は、単一の画像(またはフレーム)において、多様な関心領域に、一度に注釈を付けることができ(例えば、多様な複数の頂点/点に印を付けることによって)、このように、多様な印付きの複数の頂点を有する単一のユーザ注釈付きの画像は、様々なカメラ構えからの画像の生成をもたらすことができ、この場合、各画像は、注釈付きの多様な関心領域を表示する。すなわち、システムは、多様な関心領域に、同時にラベルを付けることができる。
さらに、本明細書に説明されている実施形態は、ユーザが、最初に多くの画像を捕捉し、次に1つの画像に注釈を付けることを可能にし、その時点で、システムは、ユーザ注釈付きの画像に基づき、以前に捕捉された画像に自動的に注釈を付けることができる。例えば、ユーザが30秒間、オブジェクトの周りを歩き、記録デバイスまたはシステムを用いて100枚の画像を捕捉すると仮定する。ある時間歩き、いくつかの画像を捕捉した後(例えば、7秒間歩き、24枚の画像を捕捉した後)、ユーザは、ある画像(例えば、25番目の画像)にラベルを付けるか、または印を付けることができ、システムに、以前に捕捉された24枚の画像と、その後に捕捉された75枚の画像との両方に自動的に注釈を付けさせることができる。
本明細書に説明されている実施形態は、境界ボックスを示すことができる形などのポリゴンに印を付けることによって、表平面の注釈も提供することができる。ポリゴンは、凸状または非凸状のいずれであってもよい。非凸状ポリゴンに印を付けることは、追加の情報を必要とすることがあり、また、例えば、点が印付けされる順序に基づくことができる。さらに、システムの実施形態は、複数の点に印を付けることなど、ボリュームの注釈を提供して、プリンタ自体全体の周りの立方体を示すことができる。システムは、注釈付きのボリュームに基づき、自動的に注釈が付けられる後続の画像または映像フレーム上に、ボリューム全体を投射することができる。
図3、図4A及び4B、図5A及び5B、図6A及び6B、ならびに図7A〜7Cは、訓練データの効率的な収集を促進するための例示的な画像を示す。図3は、本発明のある実施形態による、ARデバイスを使用して、システム特徴の角に印を付ける人間を示す。図3における環境は、プリンタを含むいくつかのオブジェクトがある部屋である。ARデバイスは、環境(例えば、部屋)に対して3D世界座標フレームを画定することができるシステムである、Microsoft HoloLensとすることができる。
図4Aは、本発明のある実施形態による、ARデバイスを使用して、第1の視点からプリンタの境界ボックスを作成する例を示す。ユーザは、部屋内のある場所に立って、画像を取得することができる。すなわち、ユーザは、ある特定の視点から、プリンタを含む部屋の画像を捕捉することができ、この場合、視点は、プリンタに対するARデバイスの構え、場所、配向などに基づいている。ARデバイスを使用して、ユーザは、この第1の視点から撮られた第1の画像内に緑のマーカを置くことができ、システムは、この画像上に、緑のマーカによって画定された境界エリアを表示することができる。図4Aでは、境界エリアは、プリンタの周りに青の輪郭を有するボックスとして現れる。システムは、したがって、物理オブジェクトに関連した複数の頂点に印を付ける。
図4Bは、本発明のある実施形態による、ARデバイスを使用して、第2の視点からプリンタの境界ボックスを作成する例を示す。図4Bでは、第2の視点からのARデバイスを使用して、ユーザは、部屋の第2の画像を捕捉することができる。第2の視点は、図4Aの第1の視点とは異なる(すなわち、ARデバイスがプリンタに対して、異なる構え、場所、配向などにある)。システムは、印付きの頂点を緑のマーカとして、第2の画像上に投射し、また、投射された緑のマーカによって画定された境界エリアも、第2の画像上に投射することができる。
図4A及び4Bは、場面内の単一の関心領域に印を付けることを示す。上に説明されているように、ユーザは、物理オブジェクトの多様な複数の頂点に印を付けることによって、単一のフレームにおいて、多様な関心領域に一度に注釈を付けることができる。そのように、多様な注釈付きの関心領域を有する単一のユーザ注釈付きのフレームは、様々なカメラ構えからの画像の生成をもたらすことができ、この場合、各画像は、注釈付きの多様な関心領域を表示する。すなわち、システムは、多様な関心領域に同時にラベルを付けることができる。
図5Aは、本発明のある実施形態による、ARデバイスを使用して、第1の視点からプリンタ部品の境界ボックスを作成する例を示す。ARデバイスを使用して、ユーザは、この第1の視点から撮られた第1の画像にある多様な関心領域上に、緑のマーカ(図示せず)を置くことができ、システムは、この画像上に、緑のマーカによって画定された多様な境界エリア、例えば、排紙トレイに対応する青の境界ボックス、制御パネルに対応する緑の境界ボックス、及び用紙引き出しに対応する赤の境界ボックスを表示することができる。いくつかの実施形態において、図5Aは、以前に印が付けられた頂点に基づく画像の表示を示し、このように、システムは、この第1の画像上に、以前に印が付けられた頂点に基づき、多様な境界ボックスを表示する。
図5Bは、本発明のある実施形態による、ARデバイスを使用して、第2の視点からプリンタ部品の境界ボックスを作成する例を示す。図5Bでは、第2の視点からのARデバイスを使用して、ユーザは、部屋の第2の画像を捕捉することができる。システムは、この第2の画像上に、印付きの複数の頂点を緑のマーカ(図示せず)として投射することができ、また、以前に印が付けられた複数の頂点によって画定されたような多様な境界エリアも、この第2の画像上に投射することができる。図5Aと同様に、青の境界ボックスは、排紙トレイに対応し、緑の境界ボックスは、制御パネルに対応し、赤の境界ボックスは、用紙引き出しに対応する。
図6Aは、本発明のある実施形態による、Microsoft HoloLensで使用され得るラベル付けインターフェースを示す。Microsoft HoloLensを使用して、ユーザは、環境の制御ボタン(例えば、緑の楕円及び青の円)、ならびに表面メッシュ(例えば、白のポリゴン)を見ることができる。ユーザは、Microsoft HoloLensを装着しながら手の動きを使用して、いくつかの仮想マーカ(緑、赤、及び青の四角)を置くことによって、見た画像に注釈を付けることができる。マーカは、プリンタに関連した様々な関心領域に対応することができる。例えば、ユーザは、緑のマーカが用紙引き出しに対応し、赤のマーカが手作業の入力エリアに対応し、青のマーカが制御パネルに対応することに、注釈を付けることができる。
図6Bは、本発明のある実施形態による、表面メッシュのない図6Aのラベル付けインターフェースを示す。
図7A〜7Cは、図6A及び6Bにおけるユーザによって入れられた注釈に基づいた、自動的に生成されたマーカ場所及び境界ボックスを示す。図7A〜7Cにおける境界エリアの色が図6Aにおける対応する境界エリアとは異なり、システムが、以前に注釈が付けられた多様な関心領域を表示することに留意されたい。それに加え、ユーザは、境界エリアの指標を、マーカ場所間のコネクタのいずれのタイプ、パターン、または色にも設定することができる。
図7Aは、本発明のある実施形態による、Microsoft HoloLensインターフェースを使用した、第1の視点からの自動的に生成された2次元マーカ場所及び対応する境界ボックスの例を示す。図7Aでは、緑の境界ボックスは、制御パネルに対応し、青の境界ボックスは、手作業の入力エリアに対応し、赤の境界ボックスは、用紙引き出しに対応する。
図7Bは、本発明のある実施形態による、Microsoft HoloLensインターフェースを使用した、第2の視点からの自動的に生成された2次元マーカ場所及び対応する境界ボックスの例を示す。図7Bでは、緑の境界ボックスは、制御パネルに対応し、青の境界ボックスは、手作業の入力エリアに対応し、赤の境界ボックスは、用紙引き出しに対応する。
図7Cは、本発明のある実施形態による、Microsoft HoloLensインターフェースを使用した、第2の視点からの自動的に生成された2次元マーカ位置及び対応する境界ボックスの例を示す。図7Cでは、緑の境界ボックスは、制御パネルに対応し、青の境界ボックスは、手作業の入力エリアに対応し、赤の境界ボックスは、用紙引き出しに対応する。
図8は、本発明のある実施形態による、訓練データの効率的な収集を促進する例示的なコンピュータ及び通信システム800を示す。システム800は、ネットワーク(図示せず)を介して通信することができるコンピュータシステム802と記録デバイス842とを含む。コンピュータシステム802と記録デバイス842とは、それぞれ、図1のデバイス108とデバイス104とに対応することができる。
コンピュータシステム802は、プロセッサ804、メモリ806、及び記憶デバイス808を含む。メモリ806は、マネージドメモリとして働く揮発性メモリ(例えば、RAM)を含むことができ、1つ以上のメモリプールを格納するのに使用され得る。さらに、コンピュータシステム802は、表示デバイス810、キーボード812、及びポインティングデバイス814に結合され得る。記憶デバイス808は、オペレーティングシステム816、コンテンツ処理システム818、及びデータ828を格納することができる。
コンテンツ処理システム818は、コンピュータシステム802によって実行されると、コンピュータシステム802に、本開示に説明されている方法及び/またはプロセスを行わせることができる命令を含むことができる。具体的には、コンテンツ処理システム818は、コンピュータネットワークにわたって、他のネットワークノードに/からデータパケットを送信する、かつ/または受信する/取得するための命令を含んでもよい(通信モジュール820)。データパケットは、画像と、映像と、映像フレームと、頂点の3D座標と、場面または場面にある物理オブジェクトについての情報と、を含むことができる。
コンテンツ処理システム818は、3D世界座標フレームに関連している場面にある物理オブジェクトの第1の画像を受信するための、また場面の1つ以上の変更された特性に基づき、場面にある物理オブジェクトの複数の第2の画像を受信するための命令を含むことができる(通信モジュール820)。コンテンツ処理システム818は、物理オブジェクトに関連した印付きの複数の頂点を登録するための命令を含むことができる(投射決定モジュール822)。コンテンツ処理システム818は、それぞれの第2の画像上への印付きの頂点の投射を決定するための命令を含むことができる(投射決定モジュール822)。コンテンツ処理システム818は、物理オブジェクトに関連した2D境界エリアを示すための命令を含むことができる(境界エリア管理モジュール824)。コンテンツ処理システム818は、第1の画像及び第2の画像を訓練データ集合に格納するための、また畳み込みニューラルネットワークを訓練して、物理オブジェクトの特徴を特定するための命令を含むことができる(ネットワーク訓練モジュール826)。
記録デバイス842は、プロセッサ844、メモリ846、及び記憶デバイス848を含む。メモリ846は、マネージドメモリとして働く揮発性メモリ(例えば、RAM)を含むことができ、1つ以上のメモリプールを格納するのに使用され得る。記憶デバイス848は、コンテンツ処理システム858及びデータ868を格納することができる。
コンテンツ処理システム858は、記録デバイス842によって実行されると、記録デバイス842に、本開示に説明されている方法及び/またはプロセスを行わせることができる命令を含むことができる。具体的には、コンテンツ処理システム858は、コンピュータネットワークにわたって、他のネットワークノードに/からデータパケットを送信する、かつ/または受信する/取得するための命令を含んでもよい(通信モジュール860)。データパケットは、画像と、映像と、映像フレームと、頂点の3D座標と、場面または場面にある物理オブジェクトについての情報と、を含むことができる。
コンテンツ処理システム858は、3次元(3D)世界座標フレームに関連している場面にある物理オブジェクトの第1の画像を取得するための命令を含むことができる(画像取得モジュール862)。コンテンツ処理システム858は、第1の画像上において、物理オブジェクトに関連した複数の頂点に印を付けるための命令を含むことができ、この場合、頂点は、3D世界座標フレームに基づく3D座標を有する(頂点印付けモジュール864)。コンテンツ処理システム858は、場面の1つ以上の特性を変更しながら、場面にある物理オブジェクトの複数の第2の画像を取得するための命令を含むことができる(画像取得モジュール862)。コンテンツ処理システム858は、印付きの頂点をそれぞれの第2の画像上に投射して、物理オブジェクトに関連した2次元(2D)境界エリアを示すための命令を含むことができる(画像表示モジュール866)。
データ828及び868は、本開示に説明されている方法及び/またはプロセスによって、入力として必要とされるか、または出力として生成されるいずれのデータも含むことができる。具体的には、データ828及び868は、少なくとも、データと、画像と、物理オブジェクトの画像と、3D世界座標フレームと、頂点と、頂点に対する3D座標と、場面と、場面の特性と、物理オブジェクト上の関心領域の指標と、印付きの頂点と、印付きの頂点の投射と、ポリゴンと、表平面の一部と、ボリュームと、2D形と、3Dボリュームと、2D境界エリアと、注釈と、ラベルと、画像内の投射された頂点間のコネクタのタイプ、パターン、または色と、画像内の投射された頂点を繋ぐことによって形成された形の色、濃淡、及び占有と、2D境界エリアを描写するテキストと、2D境界エリアに対するラベルまたは描写の表示と、記録デバイスの構えと、場面の照明と、物理オブジェクトからの記録デバイスの距離と、物理オブジェクトに対する記録デバイスの配向と、物理オブジェクトまたは場面の背景と、物理オブジェクトの1つ以上の部分の閉塞と、訓練データ集合と、訓練されたネットワークと、ユーザ作成の注釈付きの画像と、システム作成または自動生成の注釈付きの画像と、を格納することができる。
この詳細な説明に説明されているデータ構造及びコードは、コンピュータシステムによる使用のためのコード及び/またはデータを格納することができるいずれのデバイスまたは媒体であってもよい、コンピュータ可読記憶媒体上に通常格納されている。コンピュータ可読記憶媒体は、揮発性メモリ、不揮発性メモリ、またディスクドライブ、磁気テープ、CD(コンパクトディスク)、DVD(デジタルバーサタイルディスクまたはデジタルビデオディスク)などの磁気及び光記憶デバイス、または現在知られているかまたは後に開発されるコンピュータ可読媒体を格納することができる他の媒体を含むが、それらに限定されるものではない。
詳細な説明の項に説明されている方法及びプロセスは、上に説明されているようなコンピュータ可読記憶媒体に格納され得る、コード及び/またはデータとして具体化され得る。コンピュータシステムが、コンピュータ可読記憶媒体上に格納されているコード及び/またはデータを読み取り、実行すると、コンピュータシステムは、データ構造及びコードとして具体化され、かつコンピュータ可読記憶媒体内に格納されている方法及びプロセスを行う。
さらに、上に説明されている方法及びプロセスは、ハードウェアモジュールまたは装置に含まれ得る。ハードウェアモジュールまたは装置は、特定用途向け集積回路(ASIC:Application−Specific Integrated Circuit)チップ、フィールドプログラマブルゲートアレイ(FPGA:Field−Programmable Gate Array)、特定の時点で特定のソフトウェアモジュールまたは1つのコードを実行する専用または共有のプロセッサ、及び現在知られているかまたは後に開発される他のプログラマブルロジックデバイスを含むことができるが、それらに限定されるものではない。ハードウェアモジュールまたは装置が起動されると、それらは、それら内に含まれている方法及びプロセスを行う。

Claims (10)

  1. 訓練データの効率的な収集を促進するためのコンピュータ実施方法であって、
    記録デバイスによって、3次元(3D)世界座標フレームに関連している場面にある物理オブジェクトの第1の画像を取得することと、
    前記第1の画像上において、前記物理オブジェクトに関連した複数の頂点に印を付けることであって、頂点が、前記3D世界座標フレームに基づく3D座標を有する、印を付けることと、
    前記場面の1つ以上の特性を変更しながら、前記場面にある前記物理オブジェクトの複数の第2の画像を取得することと、
    前記印付きの頂点をそれぞれの第2の画像上に投射して、前記物理オブジェクトに関連した2次元(2D)境界エリアを示すことと、を含む、コンピュータ実施方法。
  2. 前記印付きの複数の頂点が、前記物理オブジェクト上の1つ以上の関心領域に対応し、
    前記印付きの頂点を投射することが、前記物理オブジェクト上に、前記1つ以上の関心領域に関連した2D境界エリアを示すことをさらに含む、請求項1に記載の方法。
  3. 前記印付きの複数の頂点が、
    ポリゴンと、
    表平面の一部と、
    ボリュームと、のうちの1つ以上を示すことができる、請求項1に記載の方法。
  4. 前記複数の頂点に印を付けることが、
    前記それぞれの第2の画像上に、前記投射された印付きの頂点の前記2D境界エリアをどのように示すかを決定することをさらに含む、請求項1に記載の方法。
  5. 前記2D境界エリア及び前記それぞれの第2の画像が、前記記録デバイスに関連したディスプレイ上に提示され、
    前記2D境界エリアが、2D形または3Dボリュームを示す、請求項1に記載の方法。
  6. 訓練データの効率的な収集を促進するためのコンピュータシステムであって、
    プロセッサと、
    前記プロセッサによって実行されると、前記プロセッサに、方法を行わせる命令を格納している記憶デバイスであって、前記方法が、
    記録デバイスによって、3次元(3D)世界座標フレームに関連している場面にある物理オブジェクトの第1の画像を取得すること、
    前記第1の画像上において、前記物理オブジェクトに関連した複数の頂点に印を付けることであって、頂点が、前記3D世界座標フレームに基づく3D座標を有する、印を付けること、
    前記場面の1つ以上の特性を変更しながら、前記場面にある前記物理オブジェクトの複数の第2の画像を取得すること、及び
    前記印付きの頂点をそれぞれの第2の画像上に投射して、前記物理オブジェクトに関連した2次元(2D)境界エリアを示すこと、を含む、記憶デバイスと、を備える、コンピュータシステム。
  7. 前記印付きの複数の頂点が、前記物理オブジェクト上の1つ以上の関心領域に対応し、
    前記印付きの頂点を投射することが、前記物理オブジェクト上に、前記1つ以上の関心領域に関連した2D境界エリアを示すことをさらに含む、請求項6に記載のコンピュータシステム。
  8. 前記印付きの複数の頂点が、
    ポリゴンと、
    表平面の一部と、
    ボリュームと、のうちの1つ以上を示すことができる、請求項6に記載のコンピュータシステム。
  9. 前記複数の頂点に印を付けることが、
    前記それぞれの第2の画像上に、前記投射された印付きの頂点の前記2D境界エリアをどのように示すかを決定することをさらに含む、請求項6に記載のコンピュータシステム。
  10. 前記2D境界エリア及び前記それぞれの第2の画像が、前記記録デバイスに関連したディスプレイ上に提示され、
    前記2D境界エリアが、2D形または3Dボリュームを示す、請求項6に記載のコンピュータシステム。
JP2018188871A 2017-10-30 2018-10-04 機械学習用の訓練データの効率的な収集のための拡張現実を使用したシステム及び方法 Active JP7128708B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762579000P 2017-10-30 2017-10-30
US62/579,000 2017-10-30
US15/826,588 US10699165B2 (en) 2017-10-30 2017-11-29 System and method using augmented reality for efficient collection of training data for machine learning
US15/826,588 2017-11-29

Publications (3)

Publication Number Publication Date
JP2019083001A true JP2019083001A (ja) 2019-05-30
JP2019083001A5 JP2019083001A5 (ja) 2021-11-11
JP7128708B2 JP7128708B2 (ja) 2022-08-31

Family

ID=64172193

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018188871A Active JP7128708B2 (ja) 2017-10-30 2018-10-04 機械学習用の訓練データの効率的な収集のための拡張現実を使用したシステム及び方法

Country Status (3)

Country Link
US (3) US10699165B2 (ja)
EP (1) EP3477543A1 (ja)
JP (1) JP7128708B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102128399B1 (ko) * 2019-06-04 2020-06-30 (주)자이언트스텝 Ai 기반의 얼굴 애니메이션 구현을 위한 학습데이터 생성 방법, ai 기반의 얼굴 애니메이션 구현 방법 및 컴퓨터 판독 가능한 저장매체

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111386511A (zh) * 2017-10-23 2020-07-07 皇家飞利浦有限公司 基于自扩展的增强现实服务指令库
WO2019189661A1 (ja) * 2018-03-29 2019-10-03 国立大学法人奈良先端科学技術大学院大学 学習データセット作製方法及び装置
US10915793B2 (en) * 2018-11-08 2021-02-09 Huawei Technologies Co., Ltd. Method and system for converting point cloud data for use with 2D convolutional neural networks
US10818028B2 (en) * 2018-12-17 2020-10-27 Microsoft Technology Licensing, Llc Detecting objects in crowds using geometric context
JP7388751B2 (ja) * 2019-03-12 2023-11-29 日本電気株式会社 学習データ生成装置、学習データ生成方法および学習データ生成プログラム
CN112884819A (zh) * 2019-11-29 2021-06-01 杭州三坛医疗科技有限公司 一种影像配准及神经网络的训练方法、装置和设备
US11100702B2 (en) 2019-12-27 2021-08-24 Industrial Technology Research Institute 3D image labeling method based on labeling information of 2D image and 3D image labeling device
US20220358333A1 (en) * 2021-05-07 2022-11-10 Ford Global Technologies, Llc Automatic annotation using ground truth data for machine learning models
US12008081B2 (en) * 2021-05-19 2024-06-11 International Business Machines Corporation Image collection and labelling using computer system and analysis
CN113763569A (zh) * 2021-08-30 2021-12-07 之江实验室 一种在三维仿真中使用的图像标注方法及装置、电子设备
US20230131418A1 (en) * 2021-10-22 2023-04-27 Samsung Electronics Co., Ltd. Two-dimensional (2d) feature database generation
US20240046568A1 (en) * 2022-08-02 2024-02-08 Palo Alto Research Center Incorporated Method and system for mixing static scene and live annotations for efficient labeled image dataset collection

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012088787A (ja) * 2010-10-15 2012-05-10 Canon Inc 画像処理装置、画像処理方法
JP2014178957A (ja) * 2013-03-15 2014-09-25 Nec Corp 学習データ生成装置、学習データ作成システム、方法およびプログラム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101606156B (zh) 2007-02-07 2012-07-04 索尤若驱动有限及两合公司 图形的应用、用于生成设计图的方法和计算机系统、用于制造产品的方法及其应用
US8406496B2 (en) * 2008-07-29 2013-03-26 Siemens Aktiengesellschaft Method and system for left ventricle detection in 2D magnetic resonance images
US20120200601A1 (en) * 2010-02-28 2012-08-09 Osterhout Group, Inc. Ar glasses with state triggered eye control interaction with advertising facility
US8964298B2 (en) * 2010-02-28 2015-02-24 Microsoft Corporation Video display modification based on sensor input for a see-through near-to-eye display
JP6344890B2 (ja) 2013-05-22 2018-06-20 川崎重工業株式会社 部品組立作業支援システムおよび部品組立方法
US9595208B2 (en) * 2013-07-31 2017-03-14 The General Hospital Corporation Trauma training simulator with event-based gesture detection and instrument-motion tracking
JP6144364B2 (ja) 2014-01-17 2017-06-07 株式会社日立製作所 作業支援用データ作成プログラム
US10187635B2 (en) * 2014-12-31 2019-01-22 Alt Llc Method and system for displaying three-dimensional objects
WO2016144741A1 (en) 2015-03-06 2016-09-15 Illinois Tool Works Inc. Sensor assisted head mounted displays for welding
EP3281403A4 (en) 2015-04-06 2018-03-07 Scope Technologies US Inc. Methods and apparatus for augmented reality applications
US20160328887A1 (en) 2015-05-04 2016-11-10 The Trustees Of Columbia University In The City Of New York Systems and methods for providing assistance for manipulating objects using virtual proxies and virtual replicas
US20160349511A1 (en) 2015-05-31 2016-12-01 Fieldbit Ltd. See-through binocular head mounted device
JP6661980B2 (ja) 2015-11-06 2020-03-11 富士通株式会社 重畳表示方法、重畳表示装置、及び重畳表示プログラム
US20190156202A1 (en) * 2016-05-02 2019-05-23 Scopito Aps Model construction in a neural network for object detection
US20180035606A1 (en) * 2016-08-05 2018-02-08 Romello Burdoucci Smart Interactive and Autonomous Robotic Property Maintenance Apparatus, System, and Method
US10147023B1 (en) * 2016-10-20 2018-12-04 Disney Enterprises, Inc. Markerless face tracking with synthetic priors
US10782775B2 (en) * 2017-01-13 2020-09-22 Atheer, Inc. Methods and apparatus for providing procedure guidance
US10366521B1 (en) 2017-03-15 2019-07-30 Amazon Technologies, Inc. Augmented reality assembly assistance and monitoring
KR20200006064A (ko) * 2017-04-19 2020-01-17 비도니 인코포레이티드 모션 캡처된 가상의 손을 이용한 증강 현실 학습 시스템 및 방법
CA3005051A1 (en) 2017-05-16 2018-11-16 Michael J. Schuster Augmented reality task identification and assistance in construction, remodeling, and manufacturing
US11494988B2 (en) 2018-05-22 2022-11-08 Agilent Technologies, Inc. Method and system for implementing augmented reality (AR)-based assistance within work environment
US10634918B2 (en) 2018-09-06 2020-04-28 Seiko Epson Corporation Internal edge verification
JP6802547B2 (ja) 2018-10-10 2020-12-16 株式会社日立製作所 拡張現実による機械的締結部の管理方法
US11093798B2 (en) 2018-12-28 2021-08-17 Palo Alto Research Center Incorporated Agile video query using ensembles of deep neural networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012088787A (ja) * 2010-10-15 2012-05-10 Canon Inc 画像処理装置、画像処理方法
JP2014178957A (ja) * 2013-03-15 2014-09-25 Nec Corp 学習データ生成装置、学習データ作成システム、方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PAT MARISON, ET. AL.: "LabelFusion: A Pipeline for Generation Ground Truth Labels for Real RGBD Data of Cluttered Scenes", ARXIVE, JPN6022008342, 26 September 2017 (2017-09-26), ISSN: 0004720085 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102128399B1 (ko) * 2019-06-04 2020-06-30 (주)자이언트스텝 Ai 기반의 얼굴 애니메이션 구현을 위한 학습데이터 생성 방법, ai 기반의 얼굴 애니메이션 구현 방법 및 컴퓨터 판독 가능한 저장매체

Also Published As

Publication number Publication date
US20200250484A1 (en) 2020-08-06
JP7128708B2 (ja) 2022-08-31
EP3477543A1 (en) 2019-05-01
US20220076072A1 (en) 2022-03-10
US10699165B2 (en) 2020-06-30
US11200457B2 (en) 2021-12-14
US20190130219A1 (en) 2019-05-02
US11978243B2 (en) 2024-05-07

Similar Documents

Publication Publication Date Title
JP7128708B2 (ja) 機械学習用の訓練データの効率的な収集のための拡張現実を使用したシステム及び方法
US11100649B2 (en) Fiducial marker patterns, their automatic detection in images, and applications thereof
US10854006B2 (en) AR-enabled labeling using aligned CAD models
Mori et al. A survey of diminished reality: Techniques for visually concealing, eliminating, and seeing through real objects
US10977818B2 (en) Machine learning based model localization system
US20220020210A1 (en) System and methodfor virtual modeling of indoor scenes from imagery
US11308347B2 (en) Method of determining a similarity transformation between first and second coordinates of 3D features
Huitl et al. TUMindoor: An extensive image and point cloud dataset for visual indoor localization and mapping
Levin Real-time target and pose recognition for 3-d graphical overlay
CN106097435A (zh) 一种增强现实拍摄系统及方法
WO2016029939A1 (en) Method and system for determining at least one image feature in at least one image
JP2006053694A (ja) 空間シミュレータ、空間シミュレート方法、空間シミュレートプログラム、記録媒体
CN101681423A (zh) 捕获、处理、以及绘制图像的方法
WO2018075053A1 (en) Object pose based on matching 2.5d depth information to 3d information
US11443477B2 (en) Methods and systems for generating a volumetric two-dimensional representation of a three-dimensional object
JP6487545B2 (ja) 認知度算出装置、認知度算出方法及び認知度算出プログラム
McClean An Augmented Reality System for Urban Environments using a Planar Building Fa cade Model
US20190377935A1 (en) Method and apparatus for tracking features
Gauglitz Interactive remote collaboration using augmented reality
CN117369233A (zh) 一种全息显示方法、装置、设备及存储介质
Abate et al. Photorealistic virtual exploration of an archaeological site
Acharya IMAGE TAGGED INTUITIVE AUGMENTED REALITY
Gupta The Universal Media Book
Barron-Romero Human motion tracking from an uncalibrated camera

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181012

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20181017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210929

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210929

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210929

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220721

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220819

R150 Certificate of patent or registration of utility model

Ref document number: 7128708

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150