JP2020535509A - イメージ内のターゲットオブジェクトに自動的にアノテーションするための方法、装置およびシステム - Google Patents

イメージ内のターゲットオブジェクトに自動的にアノテーションするための方法、装置およびシステム Download PDF

Info

Publication number
JP2020535509A
JP2020535509A JP2020516393A JP2020516393A JP2020535509A JP 2020535509 A JP2020535509 A JP 2020535509A JP 2020516393 A JP2020516393 A JP 2020516393A JP 2020516393 A JP2020516393 A JP 2020516393A JP 2020535509 A JP2020535509 A JP 2020535509A
Authority
JP
Japan
Prior art keywords
image
target object
coordinate system
reference coordinate
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020516393A
Other languages
English (en)
Other versions
JP7231306B2 (ja
Inventor
リ、ボレン
シエ、ホンウェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2020535509A publication Critical patent/JP2020535509A/ja
Application granted granted Critical
Publication of JP7231306B2 publication Critical patent/JP7231306B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本開示の実施形態は、イメージ内のターゲットオブジェクトに自動的にアノテーションするための方法を開示する。一実施形態において、方法は、複数のイメージを含むイメージ訓練サンプルを取得する段階であって、上記複数のイメージのうちの各イメージは同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は1または複数の同一の環境の特徴点を共有する、段階と、複数のイメージのうちの1つを基準イメージとして用いて基準座標系を判定し、且つ、3次元基準座標系に基づく3次元空間モデルを作成する段階と、3次元空間モデルが基準イメージ内のターゲットオブジェクトの位置に移動されるとすぐに、3次元基準座標系におけるターゲットオブジェクトの位置情報を判定する段階と、各イメージ内の環境の特徴点に基づき判定されたそれぞれのカメラ姿勢情報に基づき、3次元空間モデルを各イメージのイメージ平面にそれぞれマッピングする段階と、を備える。

Description

[関連出願への相互参照]
本開示は、2017年9月29日出願の中国特許出願第201710912283.0号に基づく優先権を主張した2018年9月19日出願の国際特許出願第PCT/CN2018/106493号の国内移行段階にあるものであり、両出願は、本明細書に参照によりその全体が援用される。
本開示は、イメージ処理技術の分野に関し、特に、イメージ内のターゲットオブジェクトに自動的にアノテーションをするための方法、装置およびシステムに関する。
[関連技術の記載]
拡張現実/仮想現実(AR/VR)アプリケーション等では、機械学習技術がイメージ内のシーン/オブジェクトの認識に頻繁に適用されている。このような機械学習プロセスでは、大量のイメージ訓練サンプルが用いられ、イメージ訓練サンプル内のターゲットオブジェクトがアノテーションされる。一般に、アノテーションとは、機械学習のプロセスがターゲットオブジェクトのイメージから特徴点を抽出して、機械学習を実行できるようにするために、イメージ内のターゲットオブジェクトの位置を注釈付与することを指す。
現在、イメージ訓練サンプルへのアノテーションは、次の2つのタイプに分類される。1つのタイプは、2次元イメージに基づくアノテーションであり、もう一方のタイプは、オブジェクトのコンピュータ支援設計(CAD)モデルに基づく3次元イメージアノテーションである。2次元イメージアノテーションとは通常、2次元イメージにおいて、ターゲットオブジェクトが位置される長方形領域にアノテーションすることを指す。しばしば、このようなアノテーションは、手動で行われる。例えば、図1−1に示される通り、オペレータは、手動でそれぞれのターゲットオブジェクト(例えば、それぞれ上の猫および下の猫)の周囲に長方形ボックス(例えば、長方形ボックス102および長方形ボックス103)の輪郭を描き、イメージ内のターゲットオブジェクトの位置を識別する必要がある。このため、手動アノテーションは非効率的であり、費用対効果が低く、大きな労働力を要し、時間がかかり、特に、アノテーションのために大量のイメージ訓練サンプルが存在するときは、なおさらである。
オブジェクトのCADモデルに基づく、3次元イメージアノテーションの技術を用いて、事前撮像済みビデオ内のフレームがイメージ訓練サンプルとして用いられる。まず、ターゲットオブジェクトのCADモデルが取得される。例えば、図1−2に示される通り、ビデオ内のターゲットオブジェクトが車である場合、車のCADモデルが取得された後、イメージフレームのうちの1つにおいて、当該CADモデル内の複数のポイントと、ターゲットオブジェクトの対応する特徴点との間のマッピング関係が手動でアノテーションされる。この後、一括アノテーションのためのモデルベース追跡技術により、ターゲットオブジェクトは追跡可能である。例えば、このような追跡プロセスは、他のイメージ内のターゲットオブジェクトの位置を認識するために、ターゲットオブジェクトのアノテーションされた特徴点に依存する。このため、3D空間でのアノテーションは、2次元イメージアノテーションよりも自動化されており、ビデオ内の1つのフレームにアノテーションすることで、ビデオ全体に自動的にアノテーションすることを実現する。また、自動アノテーションは、アノテーションの精度の観点から、本質的に統一された定量基準を有し、自動アノテーションは手動アノテーションよりも正確である。しかしながら、このような自動アノテーションはいくつかの不利な点を有している。例えば、ターゲットオブジェクトのCADモデルは通常、ターゲットオブジェクトのメーカーまたは設計者より提供される。メーカーまたは設計者がCADモデルを提供できない場合、自動アノテーションは、上記のように行うことができない。故に、任意のターゲットオブジェクトのCADモデルを取得することは、しばしば困難である。このため、CADモデルベースのアノテーションを広く適用できない。さらに、ターゲットオブジェクトのCADモデルが取得可能な場合、ターゲットオブジェクトの追跡は、ターゲットオブジェクト上に十分な数の特徴点があることに依然として依存している。ターゲットオブジェクトが無地、高反射率または透明等である場合、モデルベース追跡は、ターゲットオブジェクトの追跡において十分な精度を保証できなくなり、その結果、それに基づく自動アノテーションに影響を及ぼす。
故に、より高い精度およびより高い効率性をもって、いかにイメージ内のオブジェクトに自動的にアノテーションするか、並びにいかに汎用性を改善するかに関する技術的課題に対する技術的解決手段へのニーズがある。
本開示は、イメージ内のオブジェクトに自動的にアノテーションするための方法、装置およびシステムを提供して、より高い精度およびより高い効率性並びに改善された汎用性を備えたイメージの自動アノテーションを可能にする。
一実施形態において、本開示は、イメージ内のターゲットオブジェクトに自動的にアノテーションするための方法を提供し、上記方法は、複数のイメージを含むイメージ訓練サンプルを取得する段階であって、複数のイメージの各イメージは同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は1または複数の同一の環境の特徴点を共有する、段階と、複数のイメージのうちの1つのイメージを基準イメージとして用いて基準座標系を判定する段階と、3次元基準座標系に基づく3次元空間モデルを生成する段階と、3次元空間モデルが基準イメージ内のターゲットオブジェクトの位置に移動されるとすぐに、3次元基準座標系におけるターゲットオブジェクトの位置情報を判定する段階と、3次元基準座標系におけるターゲットオブジェクトの位置情報と、各イメージ内の環境の特徴点に基づき判定されたそれぞれのカメラ姿勢情報とに基づき、3次元空間モデルを、各イメージのイメージ平面にそれぞれマッピングする段階と、を備える。
一実施形態において、本開示は、ターゲットオブジェクト認識モデルを生成するための方法を提供し、上記方法は、複数のイメージを含むイメージ訓練サンプルを取得する段階であって、上記複数のイメージの各イメージは、同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は1または複数の同一の環境の特徴点を共有し、上記複数のイメージの各イメージは、さらに、ターゲットオブジェクトの位置のアノテーション情報を含む、段階を備える。方法はさらに、イメージ訓練サンプル内のターゲットオブジェクトの位置のアノテーション情報に基づき、ターゲットオブジェクトの認識モデルを生成する段階を備える。一例において、アノテーション情報は、複数のイメージのうちの1つを基準イメージとして使用する、3次元基準座標系に基づく3次元空間モデルを生成する、3次元空間モデルの移動先の位置に基づき、3次元基準座標系におけるターゲットオブジェクトの位置情報を判定する、および、各イメージ内の環境の特徴点に基づき判定されたそれぞれのカメラ姿勢情報に基づき、3次元空間モデルを各イメージのイメージ平面にそれぞれマッピングする、ことにより取得される。
一実施形態において、本開示は、ARコンテンツを提供するための方法を提供し、方法は、現実世界イメージを取得する段階と、事前生成されたターゲットオブジェクト認識モデルを用いて、現実世界イメージ内のターゲットオブジェクトの位置情報を認識する段階であって、ターゲットオブジェクト認識モデルは、上記方法を用いて生成される、段階と、現実世界イメージ内のターゲットオブジェクトの位置情報に基づきターゲットオブジェクトに関連付けられた仮想イメージの表示位置を判定し、それに従って仮想イメージを表示する段階と、を備える。
一実施形態において、本開示は、イメージ内のターゲットオブジェクトに自動的にアノテーションするための装置を提供し、装置は、イメージ訓練サンプルを取得するよう構成された訓練サンプル取得ユニットであって、イメージ訓練サンプルは複数のイメージを含み、複数のイメージの各イメージは、同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は、1または複数の同一の環境の特徴点を共有する、訓練サンプル取得ユニットと、複数のイメージのうちの1つを基準イメージとして用いて基準座標系を判定し、且つ、3次元基準座標系に基づく3次元空間モデルを作成するよう構成された3次元空間モデル作成ユニットと、3次元空間モデルが基準イメージ内のターゲットオブジェクトの位置に移動されるとすぐに、3次元基準座標系におけるターゲットオブジェクトの位置情報を判定するよう構成された位置情報判定ユニットと、3次元基準座標系におけるターゲットオブジェクトの位置情報と、各イメージ内の環境の特徴点に基づき判定されたそれぞれのカメラ姿勢情報とに基づき、3次元空間モデルを各イメージのイメージ平面にそれぞれマッピングするよう構成されたマッピングユニットと、を備える。
一実施形態において、本開示は、ターゲットオブジェクト認識モデルを生成するための装置を提供し、装置は、イメージ訓練サンプルを取得するよう構成されたイメージ訓練サンプル取得ユニットであって、イメージ訓練サンプルは複数のイメージを含み、複数のイメージの各イメージは、同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は1または複数の同一の環境の特徴点を共有し、各イメージはさらにターゲットオブジェクトの位置のアノテーション情報を含む、イメージ訓練サンプル取得ユニットと、イメージ訓練サンプル内のターゲットオブジェクトの位置のアノテーション情報に基づき、ターゲットオブジェクトの認識モデルを生成するよう構成された認識モデル生成ユニットと、を備える。一例において、アノテーション情報は、複数のイメージのうちの1つを基準イメージとして使用する、3次元基準座標系に基づく3次元空間モデルを作成する、3次元空間モデルの移動先の位置に基づき、3次元基準座標系におけるターゲットオブジェクトの位置情報を判定する、および、各イメージ内の環境の特徴点に基づき判定されたそれぞれのカメラ姿勢情報に基づき、3次元空間モデルを各イメージのイメージ平面にそれぞれマッピングする、ことにより取得される。
一実施形態において、本開示は、ARコンテンツを提供するための装置を提供し、装置は、現実世界イメージを取得し、且つ、事前生成されたターゲットオブジェクト認識モデルを用いて、現実世界イメージ内のターゲットオブジェクトの位置情報を認識するよう構成された現実世界イメージ取得ユニットと、現実世界イメージ内のターゲットオブジェクトの位置情報に基づき、ターゲットオブジェクトに関連付けられた仮想イメージの表示位置を判定し、且つ、それに従って仮想イメージを表示するよう構成された仮想イメージ表示ユニットと、を備える。一例において、ターゲットオブジェクト認識モデルは、本明細書の上記の方法を用いて生成される。
一実施形態において、本開示はコンピュータシステムを提供し、コンピュータシステムは、1または複数のプロセッサと、1または複数のプロセッサに結合されたメモリと、を備え、メモリは、プログラム命令を格納するよう構成されており、プログラム命令が1または複数のプロセッサによって読み取りおよび実行されると、プログラム命令は、コンピュータシステムに対し、複数のイメージを含むイメージ訓練サンプルを取得し、複数のイメージの各イメージは同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は1または複数の同一の環境の特徴点を共有し、複数のイメージのうちの1つを基準イメージとして用いて基準座標系を判定する手順と、3次元基準座標系に基づく3次元空間モデルを生成する手順と、3次元空間モデルが、基準イメージ内のターゲットオブジェクトの位置に移動されるとすぐに、3次元基準座標系におけるターゲットオブジェクトの位置情報を判定する手順と、3次元基準座標系におけるターゲットオブジェクトの位置情報と、複数のイメージのうちの各イメージ内の環境の特徴点に基づき判定されたそれぞれのカメラ姿勢情報と、に基づき、3次元空間モデルを、各イメージのイメージ平面にそれぞれマッピングする手順と、を実行するよう命令する。
様々な実施形態により、本開示は、以下の技術的効果をもたらす。
ターゲットオブジェクトは比較的規則的な3次元空間モデルを用いてアノテーションされるので、このようなアノテーションは、ターゲットオブジェクトのCADモデルと比較して、3次元空間モデルはより容易に取得されるという利点を有する。さらに、手動でアノテーションされた基準イメージを用いて他のイメージを自動的にアノテーションする際、基準イメージに対応するカメラ姿勢に対する、他のイメージに対応するそれぞれのカメラ姿勢の変更に基づき、3次元空間モデルを、イメージに対応するイメージ平面にマッピングし直す。換言すると、撮影環境(例えば、ターゲットオブジェクトが撮影される環境)内の特徴点が十分明確である限り、カメラ姿勢は認識可能である。すなわち、ターゲットオブジェクトを追跡するためにターゲットオブジェクトの特徴点を認識する代わりに、カメラ姿勢は、撮影環境全体内の特徴点に基づき認識されて、ターゲットオブジェクトに自動的にアノテーションする。このため、ターゲットオブジェクトが無地で、高反射率で、または透明等であるにも関わらず、ターゲットオブジェクトは自動的にアノテーションされる。
本開示で提供される様々な実施形態は、上記の利点のすべてを同時に実現する必要はない。
以下に、実施形態の説明に用いられるべき図面について簡単に説明する。以下の説明中の図面は、本開示のいくつかの実施形態である。当業者は大きな努力を要せずに、これらの添付図面に基づき、他の図面をまた得ることができる。
既存のアノテーション方法の図である。 既存のアノテーション方法の図である。
本開示のいくつかの実施形態による基準座標系を生成するための方法を示す図である。
本開示のいくつかの実施形態による3次元空間モデルを示す図である。
本開示のいくつかの実施形態によるアノテーションされた基準イメージを示す図である。
本開示のいくつかの実施形態による、マッピング結果を長方形化した後に得られた表示結果を示す図である。
本開示のいくつかの実施形態による自動イメージアノテーションの方法を示すフロー図である。
本開示のいくつかの実施形態によるオブジェクト認識モデルを生成する方法を示すフロー図である。
本開示のいくつかの実施形態による、ARコンテンツを提供する方法を示すフロー図である。
本開示のいくつかの実施形態による自動イメージアノテーションのための装置を示すブロック図である。
本開示のいくつかの実施形態によるオブジェクト認識モデルを生成するための装置を示すブロック図である。
本開示のいくつかの実施形態による、ARコンテンツを提供するための装置を示すブロック図である。
本開示のいくつかの実施形態による、コンピュータシステムを示すブロック図である。
以下に、本開示の実施形態における技術的解決手段について、本開示の実施形態の図面を参照しながら明確且つ完全に説明する。明細書中の実施形態は、本開示の実施形態の全部ではなく、一部に過ぎない。本開示の実施形態に基づき当業者が得られるすべての他の実施形態は、本開示の範囲に属する。
本開示のいくつかの実施形態において、自動イメージアノテーションツールが提供される。自動イメージアノテーションツールは、イメージ内のターゲットオブジェクトを、3次元空間におけるより一般に適用可能な規則的オブジェクト(例えば、直方体または円柱)、規則的オブジェクトによって形成される複合オブジェクトおよび任意の形状等に抽出する。このように、ターゲットオブジェクトにアノテーションをするという技術的課題は、3次元空間(例えば、体積)にアノテーションをするという技術的課題に変換され、そこでは、すべてのオブジェクトがターゲットオブジェクトとしてアノテーションされる。故に、複数のイメージが自動的にアノテーションされるべき場合、複数のイメージのうちの1つが基準イメージとして選択され、基準イメージにおいて、3次元空間モデル(ターゲットオブジェクトのCADモデルではなく)が初期化される。次に、ユーザは、当該空間モデルが、イメージ内のターゲットオブジェクトを正確に囲むように、当該3次元空間モデルとやり取りする。例えば、ユーザは、空間モデルを移動させてよく、空間の長さ、高さまたは幅等を調整してよい。このため、基準イメージ内のターゲットオブジェクトの位置は、上記移動後の3次元空間モデルの位置に基づき判定される。さらに、複数のイメージのうちの各イメージは、各イメージが同一環境内で同一ターゲットオブジェクトを撮影することにより得られ、且つ、隣接するイメージ同士は、1または複数の同一の環境の特徴点を共有するという要件を満たす。いくつかの実施形態において、隣接するイメージは、同一ビデオファイル等における隣接するイメージフレームである。いくつかの実施形態において、これらのイメージは、同一ビデオファイル等におけるフレームである。このため、イメージに対応するカメラ姿勢(例えば、カメラによって撮影されるイメージに対するカメラの位置、向き等)は、スラム(Simultaneous Localization and Mapping:SLAM)等の位置追跡技術を用いて取得されてよい。このようにして、基準イメージ内のターゲットオブジェクトのアノテーションされた位置を取得した後、基準イメージに対応するカメラ姿勢に対する、他のイメージに対応するそれぞれのカメラ姿勢の変更に基づき、3次元空間モデルは、各イメージのイメージ平面にそれぞれマッピングされる。このため、イメージ内のターゲットオブジェクトは自動的にアノテーションされる。
いくつかの実施形態において、3次元空間モデルの生成および移動プロセスは、イメージに対し固定である3次元基準座標系に基づき行われる。さらに、イメージに対応するカメラ姿勢情報を判定するためにも、固定の3次元座標系が基準座標系として用いられ、この基準座標系に基づき、イメージに対応するカメラ座標系の、基準座標系へのそれぞれの3次元剛体変換(3D剛体変換)が判定される。いくつかの実施形態において、自由度6(6DoF)のカメラ姿勢情報が、ビジュアルSLAM技術、およびモバイルフォンにある慣性計測装置(IMU)モジュールの複数のセンサの融合に基づき、取得される。故に、いくつかの実施形態においては、座標系が後続の3次元空間モデルの生成および移動並びにフレーム内のカメラ姿勢の判定における基準として用いられるように、3次元空間モデルの生成前に基準座標系が判定される。
いくつかの実施形態において、3次元基準座標系を判定するために、様々な方法が用いられてよい。例えば、イメージが、同一ビデオファイル内のイメージである場合、ビデオファイル内の第1のフレームのカメラ座標系が基準座標系として用いられ、当該座標系に基づき、他のフレームに対応するカメラ姿勢の各変更が、第1のフレームに対応するカメラ姿勢を基準として用いて判定される。代替的に、他の実施形態においては、3次元基準座標系は、予め設定されたマーカを用いて判定される。この場合、イメージ訓練サンプルが特定の方式で取得される。例えば、サンプルイメージは、本開示のいくつかの実施形態による特定の方式(詳細については後述する)でターゲットオブジェクトのイメージ取得を実行して、得られたビデオ内のフレームである。このようなイメージ取得中に、平面構造を持つ予め設定されたマーカが、テーブル等に配置される。図2に示される通り、マーカ202は、予め設定されたパターン(例えば、Alibaba(登録商標)ロゴ)を持つ一枚の紙等である。ターゲットオブジェクトの撮影前に、カメラのレンズは、撮影のためにマーカの平面に照準を定めて位置付けられる。続けて、カメラのレンズは、撮影のためにターゲットオブジェクトに移動される。いくつかの実施形態において、ターゲットオブジェクトの撮影中、360度写真撮影(例えば、カメラが撮影時に全円をスパンする、360パノラマ)等がターゲットオブジェクトに向けて行われる。このように、ビデオのイメージ内のターゲットオブジェクトの後続の特定のアノテーションにおいては、3次元基準座標系が、ビデオの第1の複数のフレーム内の撮影された平面マーカ情報に基づき、作成される。その後、3次元空間モデルが、3次元基準座標系に基づき生成される。イメージ内のそれぞれのカメラ姿勢も、3次元基準座標系に基づき判定される。
いくつかの実施形態において、3次元基準座標系は、第1の複数のイメージ内の平面マーカに基づき生成される。例えば、平面マーカは、固定の表面積と、撮影するシーンに対し配置されたとき、地面に対し平行であるという特徴とを有する一枚の紙またはシートであってよい。このため、3次元基準座標系は、第1の複数のイメージ内の予め設定されたパターンを認識することで生成され、これに基づき、マーカの位置が識別される。その後、3次元基準座標系が、右手の法則により、マーカが配置された平面の中心点を、原点として、平面自体をx‐y平面として指定することで確立される。この例において、生成された3次元基準座標系は、地面に対し平行に構成されたx‐y平面、およびx‐y平面から垂直下方となる方向沿いに構成されたz軸を有する。このため、3次元基準座標系は、ワールド座標系と称される。
様々な実施形態によると、ターゲットオブジェクトに対しイメージ取得を実行すべく、ビデオを撮像している間に、マーカをビデオに導入する設定は、後続の3次元基準座標系の生成のための準備としてなされる。このようにして、3次元基準座標系は、後続の自動アノテーションにおいて、ビデオファイル内で撮像されたマーカに基づき判定される。
いくつかの実施形態において、同一ビデオファイル内のイメージが、イメージ訓練サンプルとして用いられる例を採用すると、まず3次元基準座標系が判定される。次に、イメージのうちの1つが基準イメージとして選択され、3次元空間モデルが3次元基準座標系に基づき初期化される。例えば、最終的なアノテーション結果が、ターゲットオブジェクトの境界を輪郭で描く長方形ボックスをマークすることが要求されるシナリオにおいては、3次元空間モデルは直方体である。最終的なアノテーション結果が、ターゲットオブジェクトの境界を輪郭で描く円形をマークすることであるというシナリオにおいては、これに応じて3次元空間モデルは円柱である。他のシナリオにおいては、3次元空間モデルは、複数の直方体等を組み合わせて形成される複合形状であってよい。いくつかの実施形態において、3次元空間モデルは、現在のシステムで用いられるCADモデルと比較すると、比較的規則的且つ単純な形状であり、設計に従った特定のターゲットオブジェクトのメーカによって提供される必要はない。代わりに、上記の通り、3次元空間モデルは比較的容易に生成され得る。
図3は、本開示のいくつかの実施形態による3次元空間モデルを示す図である。
ここに示される通り、ワールド座標系のx‐y平面を用いて、3次元空間モデル301を初期化する。この例において、3次元空間モデル301が、カメラの視野に現れる。さらに、ユーザは、3次元空間モデルをあちこち移動させることができる。例えば、ユーザは3次元空間モデルをx‐y平面において移動させてよく、追加的または代替的に、必要に応じて、3次元空間モデルをZ方向に移動させてもよい。いくつかの実施形態において、アノテーションツールは、ユーザが3次元空間モデルを3つの座標軸のうちの1または複数に沿って回転できるようにすることで位置合わせを提供する。いくつかの実施形態において、アノテーションツールは、ユーザが3次元空間モデルのサイズ(例えば、直方体の長さ、幅、高さ等)を調整できるようにすることで、他の操作を提供する。ここでの目的は、3次元空間モデルにターゲットオブジェクトを正確に囲ませることである。例えば、図4に示される通り、3次元空間モデル401は、その中にターゲットオブジェクトが配置されるように、位置合わせおよび調整がなされた3次元空間モデルである。その後、ターゲットオブジェクトのアノテーションの確認が、アノテーションツールのユーザインタフェース要素(例えば、ボタン)を介して提供される。このようにして、基準フレームへのアノテーションの手動処理がこの時点で完了する。
ひとたび基準フレームが手動でアノテーションされると、3次元基準座標系におけるターゲットオブジェクトの位置情報は、3次元空間モデルの移動および/または回転先の位置に基づき判定される。いくつかの実施形態において、位置情報は、3次元基準座標系の3次元におけるターゲットオブジェクトの変位自由度、3次元基準座標系の3次元におけるターゲットオブジェクトの回転自由度、および、3次元における3次元空間モデルのそれぞれのサイズ情報、のうちの1または複数によって表される。
いくつかの実施形態において、ターゲットオブジェクトのイメージ取得は、ターゲットオブジェクトが静的であり、イメージ取得デバイスがターゲットオブジェクトの周囲を円をなして回転されて、ターゲットオブジェクトのイメージ取得が行われ、これによりビデオファイルが生成されるという態様で行われる。このようにして、ターゲットオブジェクトは、3次元基準座標系に対し静的である。すなわち、3次元基準座標系におけるターゲットオブジェクトの位置が、イメージのうちの1つに基づき判定された後、位置情報は固定され、一方で他のイメージ内のそれぞれのカメラ姿勢は変わる。このようなカメラ姿勢の変更により、ターゲットオブジェクトがイメージ内に現れる位置、向きおよびサイズが変わる。一例において、イメージの各々に対応するそれぞれのカメラ姿勢は、前処理中に既に判定済みである。換言すると、カメラ座標系の3次元基準座標系に対する剛体変換情報は既に前処理中に判定済みである。このため、3次元空間モデルは、コンピュータ処理により各イメージのイメージ平面に、逆にマッピングし直されて、他の複数のイメージ内のターゲットオブジェクトに自動的にアノテーションする。
いくつかの実施形態において、3次元空間モデルが、各イメージのイメージ平面にマッピングされた後、3次元空間モデルは2次元領域として表示される。例えば、3次元空間モデルが直方体の場合、2次元領域は、平行四辺形または菱形等の四角形である。さらに、アノテーション要件で長方形ボックスを用いてアノテーションを行うと指定されている場合、図5中の長方形ボックス501で示される通り、四角形はさらに長方形へと形状を調整される。
上記の実施形態において、用いられるイメージ訓練サンプルは、同一ビデオファイル内の複数のイメージから選択される。他の実施形態において、イメージ訓練サンプルは、同一ターゲットオブジェクトを、同一環境内で異なる角度から撮影して得られた写真等であってよい。特定の順序で配置された写真が、隣接する写真間で共有する1または複数の同一の環境の特徴点を有する限り、各写真に対応するそれぞれのカメラ姿勢情報が判定可能である。後続のアノテーションは、ビデオファイルからのイメージに関する上記のこれらの実施形態と実質的に同一であり、これらの詳細はここで再度説明はしない。
様々な実施形態により、ターゲットオブジェクトが比較的規則的な3次元空間モデルを用いてアノテーションされる。現在のシステムで用いられるターゲットオブジェクトのCADモデルと比較した場合、このような比較的規則的な3次元空間モデルが有利にもより簡単に取得される。さらに、手動でアノテーションされた基準イメージを用いて他のイメージに自動的にアノテーションするプロセスでは、他のイメージに関するカメラ姿勢の、基準イメージに関するカメラ姿勢に対する変化に基づき、3次元空間モデルが、イメージの各々に対応するイメージ平面にマッピングし直される。撮影プロセスでは、環境内の特徴点が十分明確である限り、カメラ姿勢は認識可能である。換言すると、ターゲットオブジェクトを追跡するためにターゲットオブジェクトの特徴点を認識するのではなく、カメラ姿勢は、撮影環境全体内の特徴点に基づき認識されて、ターゲットオブジェクトに自動的にアノテーションする。このため、ターゲットオブジェクトが無地で、高反射率で、または透明等であるにも関わらず、ターゲットオブジェクトは自動的にアノテーションされる。
図6は、本開示のいくつかの実施形態による自動イメージアノテーションの方法を示すフロー図である。図6に示される通り、イメージ内のターゲットオブジェクトの自動アノテーションの方法は、以下の段階を含む。
段階S601:複数のイメージを含むイメージ訓練サンプルを取得する段階であって、複数のイメージの各イメージは、同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は、1または複数の同一の環境の特徴点を共有する。
いくつかの実施形態において、イメージ訓練サンプルが、1つのターゲットビデオファイルから取得される。他の実施形態において、イメージ訓練サンプルは、前もって撮影された複数の写真等のドキュメントから取得される。例えば、自動アノテーションプロセス前に、ターゲットビデオファイルが記録されてよい。一実施形態において、ターゲットオブジェクトの特徴点を学習するための機械学習技術を適用し、その後、ターゲットオブジェクトをAR等のシナリオで認識する目的のために、ターゲットオブジェクトに対するイメージ取得は前もって行われてよい。その後、このようなイメージ取得によって取得された写真が、イメージ訓練サンプルとして用いられる。イメージ訓練サンプルに基づき、ターゲットオブジェクトはアノテーションされ、機械学習が実行される。一例において、イメージ取得プロセスの中で対応するビデオファイルが取得され、ビデオファイルは複数のイメージフレームを含み、それらの各々がイメージ訓練サンプルのイメージとして用いられてよい。
いくつかの実施形態において、ターゲットオブジェクトに対しイメージ取得を実行すべく、ターゲットオブジェクトはシーンの中央に配置され、その後、イメージ撮像デバイスを用いて、ターゲットオブジェクトの周囲を1回周回させることでターゲットオブジェクトを撮影して、対応するビデオファイルを生成する。続けて、複数のイメージがビデオファイルから抽出されて、イメージ訓練サンプル内のイメージとして機能する。代替的に、任意の他の好適な技術が適用されて、ターゲットオブジェクトの複数の写真を生成してよい。例えば、ターゲットオブジェクトが複数の角度から撮影されて、複数の写真を生成してよく、これらの写真が、イメージ訓練サンプルのイメージとして用いられる。すなわち、イメージ取得結果に含まれるイメージは、同一環境内でそれぞれ異なる角度からターゲットオブジェクトを撮影することで得られた結果である。故に、撮影中の異なるカメラ姿勢のために、イメージ平面(例えば、ユーザが実際に観察するイメージ平面)に最終的に表示されるターゲットオブジェクトに関連付けられたコンテンツおよび角度は、イメージ間で変わる。しかしながら、基準座標系が判定され、撮影環境(例えば、ターゲットオブジェクトが撮影される環境)が十分な特徴点を有する場合、イメージに対応するそれぞれのカメラ姿勢が計算されてよく、それに基づき、各イメージのイメージ平面におけるターゲットオブジェクトの位置も計算されてよい。
いくつかの実施形態において、イメージ訓練サンプルは、事前記録されたビデオファイルから、イメージフレームの全部として、または、イメージフレームの一部として選択される。他の実施形態において、イメージ訓練サンプルは、前もって撮影された複数の写真である。イメージ訓練サンプルが、ビデオの全部若しくは一部のフレームを含むか、または複数のピクチャを含むかに関わらず、これらのイメージはすべて、これらが同一環境内で同一ターゲットオブジェクトを撮影して取得されたものであり、これらのイメージの隣接するイメージ同士は、1または複数の同一の環境の特徴点を共有するという条件を満たす。すなわち、隣接するイメージのイメージコンテンツは互いに重複し、イメージのカメラ姿勢の変更が認識されてよい。
いくつかの実施形態において、イメージ訓練サンプルは、さらに前処理される。例えば、前処理は、3次元基準座標系を判定すること、および判定された3次元基準座標系および環境の特徴点に基づき、イメージに対応するそれぞれのカメラ姿勢情報を判定すること、を含む。
いくつかの実施形態により、基準イメージが用いられて、他のイメージ内のターゲットオブジェクトへの自動アノテーションが達成される。一実施形態において、イメージ訓練サンプルは前処理され、その間に、イメージに対応するそれぞれのカメラ姿勢が、上記のように認識される。いくつかの実施形態において、カメラ姿勢は相対的な概念であるので、3次元基準座標系がまず判定されてよい。例えば、ビデオファイル内の第1のイメージに対応するカメラ座標系が、3次元基準座標系として用いられる。別の例では、上記のようなイメージ取得中に、特殊処理が実行される。いくつかの実施形態において、ターゲットオブジェクトおよび平面構造を有するマーカ(例えば、図2に示されるように「Alibaba(登録商標)」等の1または複数の語を示す一枚の紙)が、ターゲット環境に配置される。マーカの平面が、水平線に対し平行に配置される。撮影時に、カメラのレンズはまずマーカに向けられ、その後に、カメラのレンズは撮影のためにターゲットオブジェクトの位置に移動される。このようにして、3次元基準座標系を作成する開始において、マーカの平面は、ビデオファイルの第1の複数のフレームから認識される。次に、3次元基準座標系が、例えば、右手の法則により、マーカが配置された平面の中心点を、基準座標系の原点として、および平面をx‐y平面として指定することで確立される。マーカの平面が水平線に対し平行に配置されるので、その平面に基づきその後に確立される基準座標系は、ワールド座標系として認識されてよい。
基準座標系が判定された後、イメージに対応するそれぞれのカメラ姿勢情報が、3次元基準座標系および環境の特徴点に基づき判定される。いくつかの実施形態において、カメラ姿勢情報の判定は、SLAM等の様々な技術を用いて実行されてよい。本明細書で用いられるカメラ姿勢(例えば、姿勢情報)とは、カメラ座標系と、基準座標系との間の3D剛体変換を指す。例えば、ビジュアルSLAM技術を使用して、自由度6(6DoF)ベースのカメラ姿勢情報がデバイスにあるIMUモジュールの複数のセンサを融合させることで取得される。このため、3D物理空間におけるカメラの姿勢情報が判定され、これに基づき、後続のアノテーションプロセスにおいて、自動アノテーションが行われる。
上記の実施形態においては、3次元物理空間におけるカメラの位置を判定するために、ターゲットオブジェクトを追跡する代わりに、SLAM技術が用いられる。いくつかの実施形態において、ターゲットオブジェクト自体の特徴点の代わりに、ターゲットオブジェクトが撮影される環境の特徴点が、カメラの位置を判定するために用いられる。
段階S602:イメージのうちの1つを基準イメージとして用いて基準座標系を判定し、3次元基準座標系に基づく3次元空間モデルを生成する。
いくつかの実施形態において、アノテーションプロセスの開始において、イメージ訓練サンプルのうちの1つのイメージが基準イメージとして使用され、これは、手動でアノテーションされる必要のあるイメージである。このような手動アノテーションを行う前に、まず3次元基準座標系に基づき、3次元空間モデルが生成される。一実施形態において、基準座標系は、カメラ姿勢を判定する際に用いられる基準座標系と同一である。この例においては、3次元空間モデルは、ターゲットオブジェクトのCADモデルではなく、従って、ターゲットオブジェクトのメーカーまたは設計者によって提供される必要がない。代わりに、このような3次元空間モデルは、直方体、円柱および複数の規則的な3次元空間モデルを組み合わせて形成された複合形状等の規則的な3次元空間モデルである。このため、3次元空間モデルは、容易に取得される。3次元空間モデルを用いて、3次元基準座標系におけるターゲットオブジェクトの位置を指定する。故に、3次元空間モデルは、移動可能で且つそのサイズを調整可能である。このため、ユーザは、3次元空間モデルがターゲットオブジェクトを正確に囲むように、3次元空間モデルを移動させてよく、3次元空間モデルの長さ、幅、高さ等のうちの1または複数を調整してよい。
段階S603:3次元空間モデルが、基準イメージ内のターゲットオブジェクトの位置に移動されるとすぐに、3次元基準座標系におけるターゲットオブジェクトの位置情報を判定する。
いくつかの実施形態において、3次元空間モデルが、ターゲットオブジェクトの位置に移動されると、3次元空間モデルが、ターゲットオブジェクトを囲む状態にレンダリングされる。すなわち、ターゲットオブジェクトは3次元空間モデル内に配置されている。この時点において、基準イメージの手動アノテーションは完了しており、3次元基準座標系におけるターゲットオブジェクトの位置情報が判定される。いくつかの実施形態において、位置情報は、3次元基準座標系の3次元におけるターゲットオブジェクトの変位自由度、3次元基準座標系の3次元におけるターゲットオブジェクトの回転自由度、および、3次元における3次元空間モデルのサイズ情報等のうちの1または複数を含む。
イメージ取得中にターゲットオブジェクトの位置は変更されないので、いったん判定された位置情報は固定である。すなわち、3次元基準座標系に対するターゲットオブジェクトの位置は、イメージング訓練サンプルの様々なイメージ内で同一且つ固定である。
段階S604:3次元基準座標系におけるターゲットオブジェクトの位置情報および各イメージに対応するそれぞれのカメラ姿勢情報に基づき、3次元空間モデルを各イメージのイメージ平面にそれぞれマッピングし、それぞれのカメラ姿勢は、各イメージの環境の特徴点に基づき判定される。
様々な実施形態により、3次元基準座標系に対するターゲットオブジェクトの位置が判定された後、イメージに対応するそれぞれのカメラ姿勢情報に基づき、3次元空間モデルは、各イメージのイメージ平面にそれぞれマッピングされて、他のイメージ内のターゲットオブジェクトに自動的にアノテーションをする。いくつかの実施形態において、3次元空間モデルは、各イメージのイメージ平面にマッピングされた後、2次元形状にレンダリングされる。例えば、3次元空間モデルが直方体である場合、3次元空間モデルはイメージ平面にマッピングされた後は、菱形および平行四辺形等の四角形にレンダリングされる。一例において、アノテーション要件で、長方形を用いてアノテーションが行われるよう指定されている場合、3次元空間モデルの上記のマッピング後に得られた四角形はさらに長方形化される。このようにして、最終的に達成されるアノテーション効果は、イメージ訓練サンプルの各イメージ内のターゲットオブジェクトの輪郭を描く長方形ボックスをマークしたものである。その後、長方形ボックス内のイメージが訓練および機械学習プロセスで用いられて、ターゲットオブジェクトのための認識モデルが確立され、当該認識モデルが、ARアプリケーション等のシナリオでターゲットオブジェクトを認識するために用いられる。
様々な実施形態により、ターゲットオブジェクトは、比較的規則的な3次元空間モデルを用いてアノテーションされる。現在のシステムで用いられるターゲットオブジェクトのCADモデルと比較して、このような比較的規則的な3次元空間モデルが有利にもより容易に取得される。さらに、手動でアノテーションされた基準イメージを用いて他のイメージに自動的にアノテーションするプロセスでは、他のイメージに関するカメラ姿勢の、基準イメージに関するカメラ姿勢に対する変化に基づき、3次元空間モデルが、イメージの各々に対応するイメージ平面にマッピングし直される。撮影プロセスでは、環境内の特徴点が十分明確である限り、カメラ姿勢は認識可能である。換言すると、ターゲットオブジェクトを追跡するためにターゲットオブジェクトの特徴点を認識するのではなく、カメラ姿勢は、撮影環境全体内の特徴点に基づき認識されて、ターゲットオブジェクトに自動的にアノテーションする。このため、ターゲットオブジェクトが無地で、高反射率で、または透明等であるにも関わらず、ターゲットオブジェクトは自動的にアノテーションされる。
図7は、本開示のいくつかの実施形態によるターゲットオブジェクト認識モデルを生成する方法を示すフロー図である。この例において、方法700は、イメージ内のターゲットオブジェクトに自動的にアノテーションする上記方法の適用である。すなわち、イメージ訓練サンプル内のターゲットオブジェクトの自動アノテーションが完了した後、アノテーションされたイメージが、ターゲットオブジェクト認識モデルの生成プロセスに適用される。図7に示される通り、ターゲットオブジェクト認識モデルを生成する方法は、以下の段階を含む。
段階S701:複数のイメージを含むイメージ訓練サンプルを取得する段階であって、複数のイメージの各イメージは、同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は、1または複数の同一の環境の特徴点を共有し、各イメージはさらに、ターゲットオブジェクトの位置のアノテーション情報を含む。いくつかの実施形態において、アノテーション情報は、複数のイメージのうちの1つを基準イメージとして用いて、3次元基準座標系に基づく3次元空間モデルを生成する段階と、3次元基準座標系におけるターゲットオブジェクトの位置情報を、3次元空間モデルの移動先の位置に基づき判定する段階と、各イメージ内の環境の特徴点に基づき判定されたそれぞれのカメラ姿勢情報に基づき、3次元空間モデルを各イメージのイメージ平面にそれぞれマッピングする段階と、によって取得される。
段階S702:イメージ訓練サンプル内のターゲットオブジェクトの位置に関連付けられたアノテーション情報に基づき、ターゲットオブジェクトのための認識モデルを生成する。
いくつかの実施形態において、ターゲットオブジェクトのための認識モデルがAR相互作用プロセスに適用されて、撮影によって得られた現実世界イメージ内のターゲットオブジェクトを認識する、および、現実世界イメージ内のターゲットオブジェクトの位置情報に基づき、ターゲットオブジェクトに関連付けられた仮想イメージを表示するべく、現実世界イメージ内のターゲットオブジェクトの位置を判定する。
図8は、本開示のいくつかの実施形態による、ARコンテンツを提供する方法を示すフロー図である。この例において、方法800は、ターゲットオブジェクト認識モデルを生成するための上記方法の適用である。図8に示される通り、ARコンテンツを提供する方法は、以下の段階を含む。
段階S801:現実世界イメージを取得し、事前生成されたターゲットオブジェクト認識モデルを用いて、現実世界イメージ内のターゲットオブジェクトの位置情報を認識する。いくつかの実施形態において、ターゲットオブジェクト認識モデルは、図7を参照して上記した方法を用いて生成される。
段階S802:現実世界イメージ内のターゲットオブジェクトの位置情報に基づき、ターゲットオブジェクトに関連付けられた仮想イメージの表示位置を判定し、それに従って仮想イメージを表示する。
いくつかの実施形態において、現実世界イメージ内のターゲットオブジェクトの位置が変化する場合、仮想イメージの位置は、現実世界イメージの位置に対応して変化する。
現行技術では、仮想イメージの位置および現実世界イメージの位置における変化は、しばしば同期されない。例えば、特定の状態では、仮想イメージおよび現実世界イメージは両方とも、ピクチャ内の位置Aに位置する。この時点で、ユーザが、現実世界イメージが位置Bに移動するようにデバイスを移動すると、位置変更の直後は仮想イメージは依然として位置Aにあり、その後、数秒の間隔を置いて位置Bに移動される。ユーザがデバイスを頻繁に移動させる、または、デバイスを左右若しくは上下に繰り返し移動させる場合、仮想イメージはユーザにとって「フローティング」状態に見え、低品質な表示効果をもたらす。
様々な実施形態により、上記の技術的課題は、仮想イメージの位置が、現実世界イメージの位置に従って変化することを可能にすることで解決される。いくつかの実施形態において、仮想イメージの位置のかかる有効化は、以下の段階を含む。
段階1:第1のスレッドによって取得された現実世界イメージの情報を受信し、第1のスレッドによる現実世界イメージ取得の動作を中断する。
段階2:第2のスレッドがターゲットオブジェクト認識モデルを用いて、現実世界イメージにおけるターゲットオブジェクトの位置情報を認識するように、現実世界イメージの情報を第2のスレッドに提供する。第2のスレッドは、また、現実世界イメージ内のターゲットオブジェクトの位置情報に基づき、ターゲットオブジェクトに関連付けられた仮想イメージの表示位置を判定する。
段階3:第3のスレッドに対し、第1のスレッドによって取得された現実世界イメージと、第2のスレッドによって生成された仮想イメージとを融合してレンダリングするよう命令し、且つ、第1のスレッドに対し、次のイメージのための取得動作を実行するよう命令する。
様々な実施形態により、第1のスレッドが現実世界イメージを取得するタイミングは、第1のスレッドが次の現実世界イメージを取得する前に、第2のスレッドが、第1のスレッドによって取得された現実世界イメージの情報に基づき、仮想イメージの表示属性を判定でき且つそのレンダリングを完了できるように制約される。このように、ARピクチャ内の仮想イメージの位置およびサイズ等の表示属性(例えば、現在の位置およびサイズ)は、ターゲットの現実世界イメージの表示属性に従い厳格に判定でき、同時にレンダリングできる。このため、カメラスレッドによって取得された第1の複数の現実世界イメージに基づき、仮想イメージがレンダリングされる状況は回避され、仮想イメージおよび現実世界イメージの表示属性(例えば、ARピクチャにおける位置およびサイズ)は同期して変わる。その結果、デバイスの移動等によって生じる仮想イメージの「フローティング」現象も回避され、これによってARピクチャの品質および表示効果を高める。
図9は、本開示のいくつかの実施形態による自動イメージアノテーションのための装置を示すブロック図である。図9に示される通り、装置は訓練サンプル取得ユニット(901)、3次元空間モデル作成ユニット(902)、位置情報判定ユニット(903)およびマッピングユニット(904)を含む。
訓練サンプル取得ユニット(901)は、複数のイメージを含むイメージ訓練サンプルを取得するよう構成されており、複数のイメージの各イメージは、同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は1または複数の同一の環境の特徴点を共有する。
3次元空間モデル作成ユニット(902)は、複数のイメージのうちの1つを基準イメージとして使用する、基準座標系を判定する、および3次元基準座標系に基づく3次元空間モデルを生成する、よう構成されている。
位置情報判定ユニット(903)は、3次元空間モデルが基準イメージ内のターゲットオブジェクトの位置に移動されるとすぐに、3次元基準座標系におけるターゲットオブジェクトの位置情報を判定するよう構成されている。
マッピングユニット(904)は、3次元基準座標系におけるターゲットオブジェクトの位置情報および各イメージ内の環境の特徴点に基づき判定されたそれぞれのカメラ姿勢に基づき、3次元空間モデルを各イメージのイメージ平面にそれぞれマッピングするよう構成されている。
いくつかの実施形態において、装置はさらに、前処理ユニットを含む。前処理ユニットは、3次元基準座標系を判定すること、並びに、3次元基準座標系および環境の特徴点に基づき、イメージに対応するそれぞれのカメラ姿勢情報を判定すること、を実行することによって、イメージ訓練サンプルを、前処理するよう構成されている。
一例において、前処理ユニットは、各イメージフレームの環境の特徴点情報を、ビジョンSLAM技術を用いて解析する、および、解析結果に従いイメージに対応するそれぞれのカメラ姿勢を判定する、ように構成されている。
いくつかの実施形態において、3次元空間モデルが基準イメージ内のターゲットオブジェクトの位置に移動されるとすぐに、ターゲットオブジェクトは、3次元空間モデル内に配置される。
いくつかの実施形態において、訓練サンプル取得ユニット(901)はさらに、ターゲットビデオファイルを取得する、および、ビデオファイル内の複数のイメージをイメージ訓練サンプルとして使用する、よう構成されており、ターゲットビデオファイルは、ターゲット環境においてターゲットオブジェクトを撮影することで取得される。
いくつかの実施形態において、3次元基準座標系は、ビデオファイル内の第1のイメージに対応するカメラ座標系を、3次元基準座標系として用いることによって生成される。
他の実施形態において、3次元基準座標系は、以下のようにして撮像されたターゲットビデオファイルを用いて生成される。すなわち、ターゲットオブジェクトおよび平面構造を有するマーカを、ターゲット環境に配置する段階であって、マーカの平面が水平線に対し平行に配置される、段階と、まずカメラのレンズをマーカに向ける段階と、その後に、カメラのレンズを、撮影のためにターゲットオブジェクトの位置に移動させる段階と、である。
この例において、3次元基準座標系は、ビデオファイルの第1の複数のフレームにおいてマーカが配置される平面に基づき、3次元基準座標系を確立することで生成される。
一実施形態において、3次元基準座標系が、右手の法則により、マーカが配置された平面の中心点を、x‐y平面の原点および平面自体として指定することで生成される。
いくつかの実施形態において、平面構造を有するマーカには、予め設定されたパターンが表示された一枚の紙が含まれる。
いくつかの実施形態において、ビデオファイルは、ターゲットオブジェクトの位置を静的に維持して、且つ、ビデオ撮像デバイスを用いてターゲットオブジェクトの周囲を円で一回囲む写真撮影(例えば、360写真撮影)を実行する撮影によって取得される。
いくつかの実施形態において、位置情報判定ユニット(903)は、3次元基準座標系の3次元におけるターゲットオブジェクトの変位自由度、3次元基準座標系の3次元におけるターゲットオブジェクトの回転自由度、および、3次元における3次元空間モデルのサイズ情報を判定するよう構成されている。
いくつかの実施形態において、3次元空間モデルは直方体モデルを含む。
いくつかの実施形態において、装置は、さらに、3次元空間モデルが各イメージのイメージ平面にマッピングされた後、3次元空間モデルのマッピング時に得られた四角形を長方形化するよう構成された長方形化ユニットを含む。
いくつかの実施形態において、複雑な構造を有するターゲットオブジェクトについては、3次元空間モデルはさらに、複数の直方体モデルを組み合わせて形成される複合モデルを含む。
図10は、本開示のいくつかの実施形態によるターゲットオブジェクト認識モデルを生成する装置を示すブロック図である。図10に示される通り、装置は、イメージ訓練サンプル取得ユニット(1001)および認識モデル生成ユニット(1002)を含む。
イメージ訓練サンプル取得ユニット(1001)は、複数のイメージを含むイメージ訓練サンプルを取得するよう構成されており、複数のイメージの各イメージは、同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は、1または複数の同一の環境の特徴点を共有し、複数のイメージの各イメージは、ターゲットオブジェクトの位置のアノテーション情報を含む。一例において、アノテーション情報は、複数のイメージの1つを基準イメージとして使用する、3次元基準座標系に基づく3次元空間モデルを作成する、3次元空間モデルの移動先の位置に基づき、3次元基準座標系におけるターゲットオブジェクトの位置情報を判定する、および、各イメージ内の環境の特徴点に基づき判定されたそれぞれのカメラ姿勢に基づき、3次元空間モデルを各イメージのイメージ平面にそれぞれマッピングする、ことにより取得される。
認識モデル生成ユニット(1002)は、イメージ訓練サンプル内のターゲットオブジェクトの位置に関するアノテーション情報に基づき、ターゲットオブジェクトのための認識モデルを生成するよう構成されている。
ターゲットオブジェクトのための認識モデルがAR相互作用プロセスに適用されて、撮影によって得られた現実世界イメージからのターゲットオブジェクトを認識する、および、現実世界イメージ内のターゲットオブジェクトの位置を判定する。その結果に基づき、ターゲットオブジェクトに関連付けられた仮想イメージは、現実世界イメージ内のターゲットオブジェクトの位置情報に基づき表示される。
図11は、本開示のいくつかの実施形態によるARコンテンツを提供するための装置を示すブロック図である。図11に示される通り、装置は、リアルシーンイメージ取得ユニット(1101)および仮想イメージ表示ユニット(1102)を含む。
リアルシーンイメージ取得ユニット(1101)は、現実世界イメージを取得する、および、事前生成されたターゲットオブジェクト認識モデルを用いて、現実世界イメージ内のターゲットオブジェクトの位置情報を認識する、よう構成されている。いくつかの実施形態において、ターゲットオブジェクト認識モデルは、図8を参照して上記した方法を用いて生成される。
仮想イメージ表示ユニット(1102)は、現実世界イメージ内のターゲットオブジェクトの位置情報に基づき、ターゲットオブジェクトに関連付けられた仮想イメージの表示位置を判定する、および、それに従って、仮想イメージを表示する、よう構成されている。
いくつかの実施形態において、装置は、さらに変更同期ユニットを含む。変更同期ユニットは、現実世界イメージ内のターゲットオブジェクトの位置が変更されたとき、仮想イメージの位置を、現実世界イメージの位置に従うように変更する、よう構成されている。
一例において、仮想イメージ変更の位置は、現実世界イメージの位置に従うべく、第1のスレッドによって取得された現実世界イメージの情報を受信し、第1のスレッドによる現実世界イメージ取得の動作を中断すること、第2のスレッドがターゲットオブジェクト認識モデルを用いて、現実世界イメージ内のターゲットオブジェクトの位置情報を認識し、且つ、現実世界イメージ内のターゲットオブジェクトの位置情報に基づき、ターゲットオブジェクトに関連付けられた仮想イメージの表示位置を判定するように、現実世界イメージの情報を、第2のスレッドに提供すること、並びに、第3のスレッドに対し、第1のスレッドによって取得された現実世界イメージと、第2のスレッドによって生成された仮想イメージとを融合してレンダリングするよう命令すること、および第1のスレッドに対し、次のイメージの取得動作を実行することを命令すること、により変更される。
いくつかの実施形態において、本開示は、1または複数のプロセッサと、1または複数のプロセッサに結合されたメモリと、を含むコンピュータシステムを提供する。メモリは、プログラム命令を格納するよう構成されており、当該プログラム命令が1または複数のプロセッサにより読み取りおよび実行されると、複数のイメージを含むイメージ訓練サンプルを取得する手順であって、複数のイメージの各イメージは同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は1または複数の同一の環境の特徴点を共有する、手順と、複数のイメージのうちの1つを基準イメージとして用いて基準座標系を判定し、且つ、3次元基準座標系に基づく3次元空間モデルを作成する手順と、3次元空間モデルが基準イメージ内のターゲットオブジェクトの位置に移動されるとすぐに、3次元基準座標系におけるターゲットオブジェクトの位置情報を判定する手順と、3次元基準座標系におけるターゲットオブジェクトの位置情報および各イメージ内の環境の特徴点に基づき判定されたそれぞれのカメラ姿勢情報に基づき、3次元空間モデルを、各イメージのイメージ平面にそれぞれマッピングする手順と、を実行させる。
図12は、本開示のいくつかの実施形態による、コンピュータシステムアーキテクチャを示すブロック図である。図12に示される通り、コンピュータシステムアーキテクチャは、プロセッサ(1210)、ビデオディスプレイアダプタ(1211)、ディスクドライブ(1212)、入/出力インタフェース(1213)、ネットワークインタフェース(1214)およびメモリ(1220)を含む。プロセッサ(1210)、ビデオディスプレイアダプタ(1211)、ディスクドライブ(1212)、入/出力インタフェース(1213)、ネットワークインタフェース(1214)およびメモリ(1220)は、通信バス(1230)を介して互いに通信可能に接続されている。
プロセッサ(1210)は、汎用CPU(中央処理装置)、マイクロプロセッサ、特定用途向け集積回路(ASIC)、または1若しくは複数の集積回路を用いて実装され、且つ、本開示で提供される技術的解決手段を実装するための関連プログラムを実行するよう構成されている。
メモリ(1220)は、ROM(リードオンリメモリ)、RAM(ランダムアクセスメモリ)、静的格納デバイスまたは動的格納デバイス等の形態で実装される。メモリ(1220)は、コンピュータシステム(1200)の実行を制御するために用いられるオペレーティングシステム(1221)およびコンピュータシステム(1200)の低レベル動作を制御するために用いられる基本入出力システム(BIOS)(1222)を格納してよい。また、メモリ(1220)は、さらにウェブブラウザ(1223)、データ格納管理システム(1224)およびイメージアノテーションシステム(1225)等を格納してよい。いくつかの実施形態において、イメージアノテーションシステム(1225)は、上記の段階および方法を実装するアプリケーションである。本開示で提供される技術的解決手段がソフトウェアまたはファームウェアを用いて実装される場合、関連プログラムコードはメモリ(1220)内に格納され、プロセッサ(1210)によって呼び出しおよび実行される。
入/出力インタフェース(1213)は、情報を入力および出力するための入/出力モジュールに接続するよう構成されている。入/出力モジュールは、デバイス内のコンポーネント(図面内に示さない)として構成されてよく、または、対応する機能を提供するデバイスに外部接続されてよい。入力デバイスには、キーボード、マウス、タッチスクリーン、マイクおよび様々なセンサ等が含まれてよく、出力デバイスには、ディスプレイ、ラウドスピーカ、バイブレータおよびインジケータ等が含まれてよい。
ネットワークインタフェース(1214)は、ローカルデバイスと他のデバイスとの間の通信相互作用を実装するための通信モジュール(不図示)に接続されるよう構成されている。通信モジュールは、有線方式(例えば、USBまたはネットワークケーブルを通して)で通信を実装してよく、または、無線方式(例えば、モバイルネットワーク、Wi‐FiまたはBluetooth(登録商標)を通して)で通信を実装してよい。
バス(1230)は、様々なコンポーネント(例えば、デバイスのプロセッサ(1210)、ビデオディスプレイアダプタ(1211)、ディスクドライブ(1212)、入/出力インタフェース(1213)、ネットワークインタフェース(1214)、およびメモリ(1220))間で情報を伝送する経路を含む。
いくつかの実施形態において、コンピュータシステム(1200)は、さらに、仮想リソースオブジェクト取得条件情報データベース(1241)から、条件判定等に用いるための取得条件の情報を取得する。
ここには、プロセッサ(1210)、ビデオディスプレイアダプタ(1211)、ディスクドライブ(1212)、入/出力インタフェース(1213)、ネットワークインタフェース(1214)、メモリ(1220)およびバス(1230)のみが示されているが、いくつかの実施形態においては、コンピュータシステム(1200)は、さらに、通常の動作に必要な他のコンポーネントを含んでよいことに留意されたい。さらに、当業者は、コンピュータシステム(1200)は、また、本開示で提供する解決手段を実装するために必要なコンポーネントのみを含んでよく、ここに示されたコンポーネントをすべて含む必要はないことを理解できるだろう。
上記の実施形態の説明を通して、当業者は、本開示の実施形態は、ソフトウェアおよび必要なハードウェアプラットフォームによって実装可能であることが理解できるだろう。このため、技術的解決手段および本開示でもたらされる技術的改善は、ソフトウェア製品の形態で具現化されてよい。コンピュータソフトウェアプロダクトは、ROM/RAM、磁気ディスク、または光ディスク等の格納媒体に格納されてよく、コンピュータデバイス(パーソナルコンピュータ、サーバまたはネットワークデバイス等)に対し、実施形態で説明した方法または本開示による実施形態の一部を実行するよう命令するための複数の命令を含んでよい。
本明細書では、いくつかの実施形態について、段階的に前進する態様で説明されている。異なる実施形態の間で同一または類似である部分については、実施形態の各々が他の実施形態との差異に重点を置くように、互いに参照がなされる。システムは、方法と実質的に同様であるので、システムの説明は比較的簡易で、関連する説明については、方法の説明を参照できる。上記のシステムは例示に過ぎない。別個の部分として説明したユニットは、物理的に分離されていても、いなくてもよく、ユニットとして示されたコンポーネントは、物理ユニットであってもよいし、なくてもよい。すなわち、コンポーネントは、ある場所に配置されてよく、または、複数のネットワークユニット間で分散されてよい。実施形態の解決手段の目的は、実際の要件により、モジュールの一部または全部を選択することで達成されてよい。当業者は、大きな努力をすることなく、本開示を理解および実装できる。
本開示で提供されるイメージ内のターゲットオブジェクトに自動的にアノテーションするための方法、装置およびシステムが上で詳細に説明されている。本開示の原理および実装については、例示および実施形態を用いて説明されている。上記の実施形態は、本開示で提供される解決手段および中核的思想を理解する助けとして用いられているに過ぎない。一方、当業者は、本開示に基づく実装および適用範囲に、修正を加え得る。上記に照らし、本明細書の内容は、本開示に対する限定としてみなされるべきではない。

Claims (23)

  1. イメージ内のターゲットオブジェクトに自動的にアノテーションするための方法であって、
    複数のイメージを含むイメージ訓練サンプルを取得する段階であって、各イメージは同一ターゲットオブジェクトを撮影することで取得され、同一の環境の特徴点が隣接するイメージ間に存在する、段階と、
    前記イメージのうちの1つを基準イメージとして使用し、3次元基準座標系を判定し、前記3次元基準座標系に基づく3次元空間モデルを作成する段階と、
    前記3次元空間モデルが、前記基準イメージ内の前記ターゲットオブジェクトの位置に移動されるとき、前記3次元基準座標系における前記ターゲットオブジェクトの位置情報を判定する段階と、
    前記3次元基準座標系における前記ターゲットオブジェクトの前記位置情報と、各イメージ内の前記環境の特徴点により判定された対応するカメラ姿勢情報とに従い、前記3次元空間モデルを、各イメージのイメージ平面に個別にマッピングする段階と、を備える、方法。
  2. 前記イメージ訓練サンプルを前処理する段階をさらに備え、前記前処理する段階は、前記3次元基準座標系を判定する段階と、前記3次元基準座標系と前記環境の特徴点とに従い、前記イメージにそれぞれ対応する前記カメラ姿勢情報を判定する段階と、を含む、請求項1に記載の方法。
  3. 前記3次元基準座標系に従い、前記イメージにそれぞれ対応する前記カメラ姿勢情報を判定する段階は、
    ビジョンベースの同時マッピングおよび位置特定SLAM技術を用いて、各イメージフレームの環境の特徴点情報を解析し、解析結果に従い、前記イメージにそれぞれ対応する前記カメラ姿勢情報を判定する段階を含む、請求項2に記載の方法。
  4. 前記3次元空間モデルが前記基準イメージ内の前記ターゲットオブジェクトの前記位置に移動されたとき、前記ターゲットオブジェクトは前記3次元空間モデル内に配置される、請求項1から3のいずれか一項に記載の方法。
  5. イメージ訓練サンプルを取得する前記段階は、
    ターゲットビデオファイルを取得し、前記ターゲットビデオファイル内の複数のイメージを、前記イメージ訓練サンプルとして使用する段階であって、前記ターゲットビデオファイルは、前記ターゲットオブジェクトをターゲット環境内で撮影することで取得される、段階を含む、請求項1から4のいずれか一項に記載の方法。
  6. 3次元基準座標系を前記判定することは、前記ターゲットビデオファイル内の第1のイメージのカメラ座標系を、前記3次元基準座標系として用いることを含む、請求項5に記載の方法。
  7. 前記ターゲットビデオファイルは、前記ターゲットオブジェクトと、平面構造を有するマーカとを前記ターゲット環境に配置する段階であって、前記マーカの平面が水平線に対し平行である、段階と、まずレンズを前記マーカに向ける段階と、その後に前記レンズを撮影のために前記ターゲットオブジェクトの前記位置に移動させる段階と、により撮像され、
    3次元基準座標系を前記判定することは、前記ターゲットビデオファイルの第1の複数のフレームにおいて、前記マーカが配置される前記平面に従い、前記3次元基準座標系を確立することを含む、請求項5に記載の方法。
  8. 前記マーカが配置される前記平面に従い、前記3次元基準座標系を前記確立することは、
    右手の法則に従い、前記マーカが配置される前記平面の中心点を原点として、前記平面をx‐y平面として用いることで、前記3次元基準座標系を確立することを含む、請求項7に記載の方法。
  9. 前記平面構造を有する前記マーカは、予め設定されたパターンが表示された紙を含む、請求項7に記載の方法。
  10. 前記ターゲットビデオファイルは、前記ターゲットオブジェクトの前記位置を固定したまま維持し、ビデオ撮像デバイスを用いて、前記ターゲットオブジェクトの周囲を一回撮影する態様で撮影を実行することで取得される、請求項5に記載の方法。
  11. 前記3次元基準座標系における前記ターゲットオブジェクトの位置情報を判定する前記段階は、
    前記3次元基準座標系の3次元における前記ターゲットオブジェクトの変位自由度および回転自由度、並びに、前記3次元における前記3次元空間モデルのサイズ情報を判定する段階を含む、請求項1から10のいずれか一項に記載の方法。
  12. 前記3次元空間モデルは、直方体モデルを含む、請求項1から11のいずれか一項に記載の方法。
  13. 前記3次元空間モデルを、各イメージのイメージ平面に個別にマッピングする前記段階の後に、前記方法は、
    前記3次元空間モデルの前記マッピングの後に得られた四角形を長方形化する段階をさらに備える、請求項12に記載の方法。
  14. 前記3次元空間モデルは、複数の直方体モデルを組み合わせて形成される複合ソリッドモデルを含む、請求項1から13のいずれか一項に記載の方法。
  15. ターゲットオブジェクト認識モデルを確立するための方法であって、前記方法は、
    複数のイメージを含むイメージ訓練サンプルを取得する段階であって、各イメージは同一のターゲットオブジェクトを撮影することで取得され、同一の環境の特徴点が隣接するイメージ間に存在し、各イメージはさらに前記ターゲットオブジェクトの位置のアノテーション情報を含み、前記アノテーション情報は、前記イメージのうちの1つを基準イメージとして用いることと、3次元基準座標系に基づく3次元空間モデルを作成することと、前記3次元空間モデルの移動先の位置に従い、前記3次元基準座標系における前記ターゲットオブジェクトの位置情報を判定することと、各イメージ内の前記環境の特徴点に従い判定された対応するカメラ姿勢情報に従い、前記3次元空間モデルを各イメージのイメージ平面に個別にマッピングすることとによって取得される、段階と、
    前記イメージ訓練サンプル内の前記ターゲットオブジェクトの前記位置の前記アノテーション情報に従い、前記ターゲットオブジェクトの認識モデルを生成する段階と、を備える、方法。
  16. 前記ターゲットオブジェクトの前記認識モデルが拡張現実(AR)相互作用プロセスに適用されて、撮影によって取得されたリアルシーンイメージからの前記ターゲットオブジェクトを認識し、且つ、前記リアルシーンイメージ内の前記ターゲットオブジェクトの前記位置を判定し、その結果、前記リアルシーンイメージ内の前記ターゲットオブジェクトの位置情報に従い、前記ターゲットオブジェクトに関連付けられた仮想イメージを表示する、請求項15に記載の方法。
  17. 拡張現実(AR)情報を提供するための方法であって、
    リアルシーンイメージを取得し、且つ、事前確立されたターゲットオブジェクト認識モデルを用いて、前記リアルシーンイメージからのターゲットオブジェクトの位置情報を認識する段階であって、前記ターゲットオブジェクト認識モデルは、請求項15に記載の方法を用いて確立される、段階と、
    前記リアルシーンイメージ内の前記ターゲットオブジェクトの前記位置情報に従い、関連付けられた仮想イメージの表示位置を判定し、且つ、前記仮想イメージを表示する段階と、を備える、方法。
  18. 前記リアルシーンイメージ内の前記ターゲットオブジェクトの前記位置が変更されると、前記仮想イメージの前記位置を、前記リアルシーンイメージの前記位置と共に変更させる段階をさらに備える、請求項17に記載の方法。
  19. 第1のスレッドによって取得されたリアルシーンイメージの情報を受信し、前記第1のスレッドのリアルシーンイメージ取得動作を中断する段階と、
    第2のスレッドが前記ターゲットオブジェクト認識モデルを用いて、前記リアルシーンイメージからの前記ターゲットオブジェクトの位置情報を認識し、且つ、前記リアルシーンイメージ内の前記ターゲットオブジェクトの前記位置情報に従い、関連付けられた仮想イメージの表示位置を判定するように、前記リアルシーンイメージの前記情報を前記第2のスレッドに提供する段階と、
    第3のスレッドに対し、前記第1のスレッドによって取得された前記リアルシーンイメージと、前記第2のスレッドによって生成された前記仮想イメージとを結合して、レンダリングするよう命令し、且つ、前記第1のスレッドに対し、次のイメージの前記リアルシーンイメージ取得動作を実行するように命令する段階と、
    によって、前記仮想イメージの前記位置は、前記リアルシーンイメージの前記位置と共に変更する、請求項18に記載の方法。
  20. イメージ内のターゲットオブジェクトに自動的にアノテーションするための装置であって、
    複数のイメージを含むイメージ訓練サンプルを取得するよう構成された訓練サンプル取得ユニットであって、各イメージは同一ターゲットオブジェクトを撮影することで取得され、同一の環境の特徴点が隣接するイメージ間に存在する、訓練サンプル取得ユニットと、
    前記イメージのうちの1つを基準イメージとして用いる、3次元基準座標系を判定する、および前記3次元基準座標系に基づく3次元空間モデルを作成する、よう構成された3次元空間モデル作成ユニットと、
    前記3次元空間モデルが、前記基準イメージ内の前記ターゲットオブジェクトの位置に移動されるとき、前記3次元基準座標系における前記ターゲットオブジェクトの位置情報を判定するよう構成された位置情報判定ユニットと、
    前記3次元基準座標系における前記ターゲットオブジェクトの前記位置情報と、各イメージ内の前記環境の特徴点により判定された対応するカメラ姿勢情報とに従い、前記3次元空間モデルを、各イメージのイメージ平面に個別にマッピングするよう構成されたマッピングユニットと、を備える、装置。
  21. ターゲットオブジェクト認識モデルを確立するための装置であって、
    複数のイメージを含むイメージ訓練サンプルを取得するよう構成されたイメージ訓練サンプル取得ユニットであって、各イメージは同一のターゲットオブジェクトを撮影することで取得され、同一の環境の特徴点が隣接するイメージ間に存在し、各イメージはさらに前記ターゲットオブジェクトの位置のアノテーション情報を含み、前記アノテーション情報は、前記イメージのうちの1つを基準イメージとして用いることと、3次元基準座標系に基づく3次元空間モデルを作成することと、前記3次元空間モデルの移動先の位置に従い、前記3次元基準座標系における前記ターゲットオブジェクトの位置情報を判定することと、各イメージ内の前記環境の特徴点に従い判定された対応するカメラ姿勢情報に従い、前記3次元空間モデルを各イメージのイメージ平面に個別にマッピングすることとによって取得される、イメージ訓練サンプル取得ユニットと、
    前記イメージ訓練サンプル内の前記ターゲットオブジェクトの前記位置の前記アノテーション情報に従い、前記ターゲットオブジェクトの認識モデルを生成するよう構成された認識モデル生成ユニットと、を備える、装置。
  22. 拡張現実(AR)情報を提供するための装置であって、
    リアルシーンイメージを取得し、且つ、事前確立されたターゲットオブジェクト認識モデルを用いて、前記リアルシーンイメージからのターゲットオブジェクトの位置情報を認識するよう構成されたリアルシーンイメージ取得ユニットであって、前記ターゲットオブジェクト認識モデルは、請求項15に記載の方法を用いて確立される、リアルシーンイメージ取得ユニットと、
    前記リアルシーンイメージ内の前記ターゲットオブジェクトの前記位置情報に従い、関連付けられた仮想イメージの表示位置を判定し、且つ、前記仮想イメージを表示する、よう構成された仮想イメージ表示ユニットと、を備える、装置。
  23. 1または複数のプロセッサと、
    前記1または複数のプロセッサに関連付けられたメモリと、を備え、前記メモリは、プログラム命令を格納するよう構成されており、前記プログラム命令が前記1または複数のプロセッサによって読み取られおよび実行されると、前記プログラム命令は、
    複数のイメージを含むイメージ訓練サンプルを取得する手順であって、各イメージは同一のターゲットオブジェクトを撮影することで取得され、同一の環境の特徴点が隣接するイメージ間に存在する、手順と、
    前記イメージのうちの1つを基準イメージとして用い、3次元基準座標系を判定し、且つ、前記3次元基準座標系に基づく3次元空間モデルを作成する手順と、
    前記3次元空間モデルが、前記基準イメージ内の前記ターゲットオブジェクトの位置に移動されるとき、前記3次元基準座標系における前記ターゲットオブジェクトの位置情報を判定する手順と、
    前記3次元基準座標系における前記ターゲットオブジェクトの前記位置情報と、各イメージの前記環境の特徴点に従い判定された対応するカメラ姿勢情報と、に従い、前記3次元空間モデルを、各イメージのイメージ平面に個別にマッピングする手順と、を実行させる、コンピュータシステム。
JP2020516393A 2017-09-29 2018-09-19 イメージ内のターゲットオブジェクトに自動的にアノテーションするための方法、装置およびシステム Active JP7231306B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710912283.0 2017-09-29
CN201710912283.0A CN109584295B (zh) 2017-09-29 2017-09-29 对图像内目标物体进行自动标注的方法、装置及系统
PCT/CN2018/106493 WO2019062619A1 (zh) 2017-09-29 2018-09-19 对图像内目标物体进行自动标注的方法、装置及系统

Publications (2)

Publication Number Publication Date
JP2020535509A true JP2020535509A (ja) 2020-12-03
JP7231306B2 JP7231306B2 (ja) 2023-03-01

Family

ID=65900635

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020516393A Active JP7231306B2 (ja) 2017-09-29 2018-09-19 イメージ内のターゲットオブジェクトに自動的にアノテーションするための方法、装置およびシステム

Country Status (6)

Country Link
US (1) US11164001B2 (ja)
EP (1) EP3690815B1 (ja)
JP (1) JP7231306B2 (ja)
CN (1) CN109584295B (ja)
TW (1) TW201915943A (ja)
WO (1) WO2019062619A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020087440A (ja) * 2018-11-15 2020-06-04 パロ アルト リサーチ センター インコーポレイテッド 位置合わせされたcadモデルを使用するar対応ラベル付け
US20220277472A1 (en) * 2021-02-19 2022-09-01 Nvidia Corporation Single-stage category-level object pose estimation
WO2023068527A1 (ko) * 2021-10-18 2023-04-27 삼성전자 주식회사 콘텐트를 식별하기 위한 전자 장치 및 방법

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10628957B2 (en) * 2018-06-18 2020-04-21 Google Llc Vision-enhanced pose estimation
CN110210328B (zh) * 2019-05-13 2020-08-07 北京三快在线科技有限公司 在图像序列中标注物体的方法、装置及电子设备
CN110390258A (zh) * 2019-06-05 2019-10-29 东南大学 图像目标三维信息标注方法
US11335021B1 (en) * 2019-06-11 2022-05-17 Cognex Corporation System and method for refining dimensions of a generally cuboidal 3D object imaged by 3D vision system and controls for the same
TWI715252B (zh) 2019-10-18 2021-01-01 宏碁股份有限公司 電子裝置及其利用觸控資料的物件資訊辨識方法
CN110807431A (zh) * 2019-11-06 2020-02-18 上海眼控科技股份有限公司 对象定位方法、装置、电子设备及存储介质
CN110866979A (zh) * 2019-11-14 2020-03-06 联想(北京)有限公司 数据处理方法、装置、计算设备以及介质
CN111179271B (zh) * 2019-11-22 2021-05-11 浙江众合科技股份有限公司 一种基于检索匹配的物体角度信息标注方法及电子设备
CN111158463A (zh) * 2019-11-29 2020-05-15 淮北幻境智能科技有限公司 一种基于slam的计算机视觉大空间定位方法及系统
CN111009038B (zh) * 2019-12-03 2023-12-29 上海世长信息科技有限公司 一种基于slam的空间标注方法
CN113378606A (zh) * 2020-03-10 2021-09-10 杭州海康威视数字技术股份有限公司 一种标注信息确定方法、装置及系统
CN111401423B (zh) * 2020-03-10 2023-05-26 北京百度网讯科技有限公司 用于自动驾驶车辆的数据处理方法和装置
CN113066122B (zh) * 2020-05-15 2022-05-13 支付宝(杭州)信息技术有限公司 图像处理方法以及装置
CN111815759B (zh) * 2020-06-18 2021-04-02 广州建通测绘地理信息技术股份有限公司 一种可量测实景图片的生成方法、装置、计算机设备
CN113920189A (zh) 2020-07-08 2022-01-11 财团法人工业技术研究院 同时追踪可移动物体与可移动相机的六自由度方位的方法与系统
TWI793579B (zh) * 2020-07-08 2023-02-21 財團法人工業技術研究院 同時追蹤可移動物體與可移動相機的六自由度方位之方法與系統
CN111898489B (zh) * 2020-07-15 2023-08-08 北京百度网讯科技有限公司 用于标注手掌位姿的方法、装置、电子设备及存储介质
CN111611438B (zh) * 2020-07-24 2020-10-27 支付宝(杭州)信息技术有限公司 图片标注方法、装置、处理设备及系统
US11531829B2 (en) * 2020-07-24 2022-12-20 Accenture Global Solutions Limited Automatic image annotation
CN114092632A (zh) 2020-08-06 2022-02-25 财团法人工业技术研究院 标注方法、应用其的装置、系统、方法及计算机程序产品
CN112270242B (zh) * 2020-10-22 2024-05-17 北京字跳网络技术有限公司 轨迹的显示方法、装置、可读介质和电子设备
CN112348944B (zh) * 2020-10-29 2022-06-28 久瓴(江苏)数字智能科技有限公司 三维模型数据更新方法、装置、计算机设备和存储介质
CN112418335B (zh) * 2020-11-27 2024-04-05 北京云聚智慧科技有限公司 基于连续图像帧跟踪标注的模型训练方法及电子设备
US11869319B2 (en) * 2020-12-31 2024-01-09 Datalogic Usa, Inc. Fixed retail scanner with annotated video and related methods
EP4024005A1 (en) * 2021-01-04 2022-07-06 Aptiv Technologies Limited Method, device, and computer program for determining the change in position and/or orientation of the mobile apparatus
EP4036856A1 (en) * 2021-02-02 2022-08-03 Axis AB Updating of annotated points in a digital image
CN113033426B (zh) * 2021-03-30 2024-03-01 北京车和家信息技术有限公司 动态对象标注方法、装置、设备和存储介质
CN113191388B (zh) * 2021-03-31 2023-08-25 中国船舶重工集团公司第七一九研究所 用于目标检测模型训练的图像采集系统及样本生成方法
CN113128382A (zh) * 2021-04-06 2021-07-16 青岛以萨数据技术有限公司 交通路口车道线检测方法及系统
CN113205144B (zh) * 2021-05-13 2022-09-30 北京三快在线科技有限公司 一种模型训练的方法及装置
CN113256802A (zh) * 2021-06-17 2021-08-13 中山大学 一种建筑物的虚拟三维重建及场景创建方法
TWI773476B (zh) * 2021-08-05 2022-08-01 財團法人車輛研究測試中心 特徵點整合定位系統及特徵點整合定位方法
CN115359192B (zh) * 2022-10-14 2023-03-28 阿里巴巴(中国)有限公司 三维重建与商品信息处理方法、装置、设备及存储介质
TWI826189B (zh) * 2022-12-16 2023-12-11 仁寶電腦工業股份有限公司 具六自由度之控制器追蹤系統及方法
TWI830549B (zh) * 2022-12-22 2024-01-21 財團法人工業技術研究院 物件自動化標記方法及其系統

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013027628A1 (ja) * 2011-08-24 2013-02-28 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7098435B2 (en) 1996-10-25 2006-08-29 Frederick E. Mueller Method and apparatus for scanning three-dimensional objects
US6858826B2 (en) 1996-10-25 2005-02-22 Waveworx Inc. Method and apparatus for scanning three-dimensional objects
US8432414B2 (en) * 1997-09-05 2013-04-30 Ecole Polytechnique Federale De Lausanne Automated annotation of a view
US7386799B1 (en) 2002-11-21 2008-06-10 Forterra Systems, Inc. Cinematic techniques in avatar-centric communication during a multi-user online simulation
US7619626B2 (en) 2003-03-01 2009-11-17 The Boeing Company Mapping images from one or more sources into an image for display
CN100377168C (zh) * 2004-06-29 2008-03-26 索尼株式会社 用光学信息进行情形识别的方法及装置
US8823775B2 (en) 2009-04-30 2014-09-02 Board Of Regents, The University Of Texas System Body surface imaging
US20100302233A1 (en) 2009-05-26 2010-12-02 Holland David Ames Virtual Diving System and Method
US9888973B2 (en) 2010-03-31 2018-02-13 St. Jude Medical, Atrial Fibrillation Division, Inc. Intuitive user interface control for remote catheter navigation and 3D mapping and visualization systems
GB201016251D0 (en) 2010-09-28 2010-11-10 Omnisense Ltd Positioning system
EP2560145A3 (en) * 2011-08-18 2017-03-15 Layar B.V. Methods and systems for enabling the creation of augmented reality content
WO2013029674A1 (en) 2011-08-31 2013-03-07 Metaio Gmbh Method of matching image features with reference features
IN2014CN03498A (ja) * 2011-11-08 2015-10-09 Koninkl Philips Nv
US9928652B2 (en) * 2013-03-01 2018-03-27 Apple Inc. Registration between actual mobile device position and environmental model
CN103218854B (zh) * 2013-04-01 2016-04-20 成都理想境界科技有限公司 在增强现实过程中实现部件标注的方法及增强现实系统
WO2015086575A1 (en) 2013-12-09 2015-06-18 Vincent Laulagnet An apparatus, a system and a method for monitoring a usage of an item
WO2016029939A1 (en) 2014-08-27 2016-03-03 Metaio Gmbh Method and system for determining at least one image feature in at least one image
US10043319B2 (en) 2014-11-16 2018-08-07 Eonite Perception Inc. Optimizing head mounted displays for augmented reality
US9916002B2 (en) 2014-11-16 2018-03-13 Eonite Perception Inc. Social applications for augmented reality technologies
CN107004275B (zh) 2014-11-21 2020-09-29 苹果公司 确定实物至少一部分的3d重构件空间坐标的方法和系统
US10412373B2 (en) 2015-04-15 2019-09-10 Google Llc Image capture for virtual reality displays
EP3309751B1 (en) * 2015-06-12 2022-04-20 Sony Group Corporation Image processing device, method, and program
US9767565B2 (en) 2015-08-26 2017-09-19 Digitalglobe, Inc. Synthesizing training data for broad area geospatial object detection
DE102016211805A1 (de) 2015-10-09 2017-04-13 Volkswagen Aktiengesellschaft Fusion von Positionsdaten mittels Posen-Graph
US10143526B2 (en) 2015-11-30 2018-12-04 Auris Health, Inc. Robot-assisted driving systems and methods
CN105739704A (zh) * 2016-02-02 2016-07-06 上海尚镜信息科技有限公司 基于增强现实的远程引导方法和系统
CA2961921C (en) 2016-03-29 2020-05-12 Institut National D'optique Camera calibration method using a calibration target
US10739142B2 (en) 2016-09-02 2020-08-11 Apple Inc. System for determining position both indoor and outdoor
US11080534B2 (en) 2016-11-14 2021-08-03 Lyft, Inc. Identifying objects for display in a situational-awareness view of an autonomous-vehicle environment
CN106599051B (zh) 2016-11-15 2020-02-07 北京航空航天大学 一种基于生成图像标注库的图像自动标注的方法
US10417781B1 (en) * 2016-12-30 2019-09-17 X Development Llc Automated data capture
CN106650705B (zh) * 2017-01-17 2020-04-24 深圳地平线机器人科技有限公司 区域标注方法、装置和电子设备
US10186049B1 (en) 2017-03-06 2019-01-22 URC Ventures, Inc. Determining changes in object structure over time using mobile device images
US10467454B2 (en) 2017-04-26 2019-11-05 Mashgin Inc. Synchronization of image data from multiple three-dimensional cameras for image recognition
US10699481B2 (en) 2017-05-17 2020-06-30 DotProduct LLC Augmentation of captured 3D scenes with contextual information
US10977818B2 (en) 2017-05-19 2021-04-13 Manor Financial, Inc. Machine learning based model localization system
US20180350056A1 (en) 2017-06-01 2018-12-06 Tesla, Inc. Augmented reality application for manufacturing
US11308673B2 (en) 2018-05-03 2022-04-19 Magic Leap, Inc. Using three-dimensional scans of a physical subject to determine positions and/or orientations of skeletal joints in the rigging for a virtual character
US20200004225A1 (en) 2018-06-29 2020-01-02 Velo3D, Inc. Manipulating one or more formation variables to form three-dimensional objects
EP3830673A4 (en) 2018-07-27 2022-05-04 Magic Leap, Inc. REDUCING POSE SPACE DIMENSIONALITY FOR POSE SPACE DEFORMATION OF A VIRTUAL CHARACTER

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013027628A1 (ja) * 2011-08-24 2013-02-28 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020087440A (ja) * 2018-11-15 2020-06-04 パロ アルト リサーチ センター インコーポレイテッド 位置合わせされたcadモデルを使用するar対応ラベル付け
JP7488435B2 (ja) 2018-11-15 2024-05-22 パロ アルト リサーチ センター,エルエルシー 位置合わせされたcadモデルを使用するar対応ラベル付け
US20220277472A1 (en) * 2021-02-19 2022-09-01 Nvidia Corporation Single-stage category-level object pose estimation
WO2023068527A1 (ko) * 2021-10-18 2023-04-27 삼성전자 주식회사 콘텐트를 식별하기 위한 전자 장치 및 방법

Also Published As

Publication number Publication date
JP7231306B2 (ja) 2023-03-01
EP3690815A1 (en) 2020-08-05
EP3690815A4 (en) 2021-05-19
CN109584295B (zh) 2022-08-26
EP3690815B1 (en) 2023-10-25
TW201915943A (zh) 2019-04-16
US11164001B2 (en) 2021-11-02
WO2019062619A1 (zh) 2019-04-04
US20200265231A1 (en) 2020-08-20
CN109584295A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
JP7231306B2 (ja) イメージ内のターゲットオブジェクトに自動的にアノテーションするための方法、装置およびシステム
US11245806B2 (en) Method and apparatus for scanning and printing a 3D object
US10964108B2 (en) Augmentation of captured 3D scenes with contextual information
US7440691B2 (en) 360-° image photographing apparatus
US9495802B2 (en) Position identification method and system
US20150062123A1 (en) Augmented reality (ar) annotation computer system and computer-readable medium and method for creating an annotated 3d graphics model
JP6264972B2 (ja) 表示装置、表示制御プログラム、および表示制御方法
WO2006019970A2 (en) Method and apparatus for machine-vision
JP2015082830A (ja) ガイド方法、情報処理装置およびガイドプログラム
CN112258574A (zh) 标注位姿信息的方法、装置及计算机可读存储介质
CN105701828A (zh) 一种图像处理方法和装置
KR102000960B1 (ko) 벡터를 이용한 증강 현실 영상 구현 방법
WO2015072091A1 (ja) 画像処理装置、画像処理方法及びプログラム記憶媒体
JP6632298B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6357412B2 (ja) 情報処理装置、情報処理システム、情報処理方法、及びプログラム
WO2020067204A1 (ja) 学習用データ作成方法、機械学習モデルの生成方法、学習用データ作成装置及びプログラム
JP2021039563A (ja) 教師データとしてのデプス画像にラベルを付与するプログラム、装置及び方法
JP2015184838A (ja) 画像処理装置、方法、および、プログラム
JP2015121892A (ja) 画像処理装置、画像処理方法
JP2018037766A (ja) 映像編集装置、映像編集方法及び映像編集用コンピュータプログラム
JP2004252815A (ja) 画像表示装置、画像表示方法およびプログラム
CN114708405A (zh) 图像处理方法、装置、系统以及存储介质
CN114596363A (zh) 一种三维点云标注方法、装置及终端
Beniyama et al. 360-Image photographing apparatus
JP2015184391A (ja) 画像表示方法、装置、および、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230210

R150 Certificate of patent or registration of utility model

Ref document number: 7231306

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150