JP2020535509A

JP2020535509A - イメージ内のターゲットオブジェクトに自動的にアノテーションするための方法、装置およびシステム

Info

Publication number: JP2020535509A
Application number: JP2020516393A
Authority: JP
Inventors: リ、ボレン; シエ、ホンウェイ
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-09-29
Filing date: 2018-09-19
Publication date: 2020-12-03
Anticipated expiration: 2038-09-19
Also published as: JP7231306B2; EP3690815A1; EP3690815A4; CN109584295B; EP3690815B1; TW201915943A; US11164001B2; WO2019062619A1; US20200265231A1; CN109584295A

Abstract

本開示の実施形態は、イメージ内のターゲットオブジェクトに自動的にアノテーションするための方法を開示する。一実施形態において、方法は、複数のイメージを含むイメージ訓練サンプルを取得する段階であって、上記複数のイメージのうちの各イメージは同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は１または複数の同一の環境の特徴点を共有する、段階と、複数のイメージのうちの１つを基準イメージとして用いて基準座標系を判定し、且つ、３次元基準座標系に基づく３次元空間モデルを作成する段階と、３次元空間モデルが基準イメージ内のターゲットオブジェクトの位置に移動されるとすぐに、３次元基準座標系におけるターゲットオブジェクトの位置情報を判定する段階と、各イメージ内の環境の特徴点に基づき判定されたそれぞれのカメラ姿勢情報に基づき、３次元空間モデルを各イメージのイメージ平面にそれぞれマッピングする段階と、を備える。

Description

［関連出願への相互参照］
本開示は、２０１７年９月２９日出願の中国特許出願第２０１７１０９１２２８３．０号に基づく優先権を主張した２０１８年９月１９日出願の国際特許出願第ＰＣＴ／ＣＮ２０１８／１０６４９３号の国内移行段階にあるものであり、両出願は、本明細書に参照によりその全体が援用される。

本開示は、イメージ処理技術の分野に関し、特に、イメージ内のターゲットオブジェクトに自動的にアノテーションをするための方法、装置およびシステムに関する。
［関連技術の記載］

拡張現実／仮想現実（ＡＲ／ＶＲ）アプリケーション等では、機械学習技術がイメージ内のシーン／オブジェクトの認識に頻繁に適用されている。このような機械学習プロセスでは、大量のイメージ訓練サンプルが用いられ、イメージ訓練サンプル内のターゲットオブジェクトがアノテーションされる。一般に、アノテーションとは、機械学習のプロセスがターゲットオブジェクトのイメージから特徴点を抽出して、機械学習を実行できるようにするために、イメージ内のターゲットオブジェクトの位置を注釈付与することを指す。

現在、イメージ訓練サンプルへのアノテーションは、次の２つのタイプに分類される。１つのタイプは、２次元イメージに基づくアノテーションであり、もう一方のタイプは、オブジェクトのコンピュータ支援設計（ＣＡＤ）モデルに基づく３次元イメージアノテーションである。２次元イメージアノテーションとは通常、２次元イメージにおいて、ターゲットオブジェクトが位置される長方形領域にアノテーションすることを指す。しばしば、このようなアノテーションは、手動で行われる。例えば、図１−１に示される通り、オペレータは、手動でそれぞれのターゲットオブジェクト（例えば、それぞれ上の猫および下の猫）の周囲に長方形ボックス（例えば、長方形ボックス１０２および長方形ボックス１０３）の輪郭を描き、イメージ内のターゲットオブジェクトの位置を識別する必要がある。このため、手動アノテーションは非効率的であり、費用対効果が低く、大きな労働力を要し、時間がかかり、特に、アノテーションのために大量のイメージ訓練サンプルが存在するときは、なおさらである。

オブジェクトのＣＡＤモデルに基づく、３次元イメージアノテーションの技術を用いて、事前撮像済みビデオ内のフレームがイメージ訓練サンプルとして用いられる。まず、ターゲットオブジェクトのＣＡＤモデルが取得される。例えば、図１−２に示される通り、ビデオ内のターゲットオブジェクトが車である場合、車のＣＡＤモデルが取得された後、イメージフレームのうちの１つにおいて、当該ＣＡＤモデル内の複数のポイントと、ターゲットオブジェクトの対応する特徴点との間のマッピング関係が手動でアノテーションされる。この後、一括アノテーションのためのモデルベース追跡技術により、ターゲットオブジェクトは追跡可能である。例えば、このような追跡プロセスは、他のイメージ内のターゲットオブジェクトの位置を認識するために、ターゲットオブジェクトのアノテーションされた特徴点に依存する。このため、３Ｄ空間でのアノテーションは、２次元イメージアノテーションよりも自動化されており、ビデオ内の１つのフレームにアノテーションすることで、ビデオ全体に自動的にアノテーションすることを実現する。また、自動アノテーションは、アノテーションの精度の観点から、本質的に統一された定量基準を有し、自動アノテーションは手動アノテーションよりも正確である。しかしながら、このような自動アノテーションはいくつかの不利な点を有している。例えば、ターゲットオブジェクトのＣＡＤモデルは通常、ターゲットオブジェクトのメーカーまたは設計者より提供される。メーカーまたは設計者がＣＡＤモデルを提供できない場合、自動アノテーションは、上記のように行うことができない。故に、任意のターゲットオブジェクトのＣＡＤモデルを取得することは、しばしば困難である。このため、ＣＡＤモデルベースのアノテーションを広く適用できない。さらに、ターゲットオブジェクトのＣＡＤモデルが取得可能な場合、ターゲットオブジェクトの追跡は、ターゲットオブジェクト上に十分な数の特徴点があることに依然として依存している。ターゲットオブジェクトが無地、高反射率または透明等である場合、モデルベース追跡は、ターゲットオブジェクトの追跡において十分な精度を保証できなくなり、その結果、それに基づく自動アノテーションに影響を及ぼす。

故に、より高い精度およびより高い効率性をもって、いかにイメージ内のオブジェクトに自動的にアノテーションするか、並びにいかに汎用性を改善するかに関する技術的課題に対する技術的解決手段へのニーズがある。

本開示は、イメージ内のオブジェクトに自動的にアノテーションするための方法、装置およびシステムを提供して、より高い精度およびより高い効率性並びに改善された汎用性を備えたイメージの自動アノテーションを可能にする。

一実施形態において、本開示は、イメージ内のターゲットオブジェクトに自動的にアノテーションするための方法を提供し、上記方法は、複数のイメージを含むイメージ訓練サンプルを取得する段階であって、複数のイメージの各イメージは同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は１または複数の同一の環境の特徴点を共有する、段階と、複数のイメージのうちの１つのイメージを基準イメージとして用いて基準座標系を判定する段階と、３次元基準座標系に基づく３次元空間モデルを生成する段階と、３次元空間モデルが基準イメージ内のターゲットオブジェクトの位置に移動されるとすぐに、３次元基準座標系におけるターゲットオブジェクトの位置情報を判定する段階と、３次元基準座標系におけるターゲットオブジェクトの位置情報と、各イメージ内の環境の特徴点に基づき判定されたそれぞれのカメラ姿勢情報とに基づき、３次元空間モデルを、各イメージのイメージ平面にそれぞれマッピングする段階と、を備える。

一実施形態において、本開示は、ターゲットオブジェクト認識モデルを生成するための方法を提供し、上記方法は、複数のイメージを含むイメージ訓練サンプルを取得する段階であって、上記複数のイメージの各イメージは、同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は１または複数の同一の環境の特徴点を共有し、上記複数のイメージの各イメージは、さらに、ターゲットオブジェクトの位置のアノテーション情報を含む、段階を備える。方法はさらに、イメージ訓練サンプル内のターゲットオブジェクトの位置のアノテーション情報に基づき、ターゲットオブジェクトの認識モデルを生成する段階を備える。一例において、アノテーション情報は、複数のイメージのうちの１つを基準イメージとして使用する、３次元基準座標系に基づく３次元空間モデルを生成する、３次元空間モデルの移動先の位置に基づき、３次元基準座標系におけるターゲットオブジェクトの位置情報を判定する、および、各イメージ内の環境の特徴点に基づき判定されたそれぞれのカメラ姿勢情報に基づき、３次元空間モデルを各イメージのイメージ平面にそれぞれマッピングする、ことにより取得される。

一実施形態において、本開示は、ＡＲコンテンツを提供するための方法を提供し、方法は、現実世界イメージを取得する段階と、事前生成されたターゲットオブジェクト認識モデルを用いて、現実世界イメージ内のターゲットオブジェクトの位置情報を認識する段階であって、ターゲットオブジェクト認識モデルは、上記方法を用いて生成される、段階と、現実世界イメージ内のターゲットオブジェクトの位置情報に基づきターゲットオブジェクトに関連付けられた仮想イメージの表示位置を判定し、それに従って仮想イメージを表示する段階と、を備える。

一実施形態において、本開示は、イメージ内のターゲットオブジェクトに自動的にアノテーションするための装置を提供し、装置は、イメージ訓練サンプルを取得するよう構成された訓練サンプル取得ユニットであって、イメージ訓練サンプルは複数のイメージを含み、複数のイメージの各イメージは、同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は、１または複数の同一の環境の特徴点を共有する、訓練サンプル取得ユニットと、複数のイメージのうちの１つを基準イメージとして用いて基準座標系を判定し、且つ、３次元基準座標系に基づく３次元空間モデルを作成するよう構成された３次元空間モデル作成ユニットと、３次元空間モデルが基準イメージ内のターゲットオブジェクトの位置に移動されるとすぐに、３次元基準座標系におけるターゲットオブジェクトの位置情報を判定するよう構成された位置情報判定ユニットと、３次元基準座標系におけるターゲットオブジェクトの位置情報と、各イメージ内の環境の特徴点に基づき判定されたそれぞれのカメラ姿勢情報とに基づき、３次元空間モデルを各イメージのイメージ平面にそれぞれマッピングするよう構成されたマッピングユニットと、を備える。

一実施形態において、本開示は、ターゲットオブジェクト認識モデルを生成するための装置を提供し、装置は、イメージ訓練サンプルを取得するよう構成されたイメージ訓練サンプル取得ユニットであって、イメージ訓練サンプルは複数のイメージを含み、複数のイメージの各イメージは、同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は１または複数の同一の環境の特徴点を共有し、各イメージはさらにターゲットオブジェクトの位置のアノテーション情報を含む、イメージ訓練サンプル取得ユニットと、イメージ訓練サンプル内のターゲットオブジェクトの位置のアノテーション情報に基づき、ターゲットオブジェクトの認識モデルを生成するよう構成された認識モデル生成ユニットと、を備える。一例において、アノテーション情報は、複数のイメージのうちの１つを基準イメージとして使用する、３次元基準座標系に基づく３次元空間モデルを作成する、３次元空間モデルの移動先の位置に基づき、３次元基準座標系におけるターゲットオブジェクトの位置情報を判定する、および、各イメージ内の環境の特徴点に基づき判定されたそれぞれのカメラ姿勢情報に基づき、３次元空間モデルを各イメージのイメージ平面にそれぞれマッピングする、ことにより取得される。

一実施形態において、本開示は、ＡＲコンテンツを提供するための装置を提供し、装置は、現実世界イメージを取得し、且つ、事前生成されたターゲットオブジェクト認識モデルを用いて、現実世界イメージ内のターゲットオブジェクトの位置情報を認識するよう構成された現実世界イメージ取得ユニットと、現実世界イメージ内のターゲットオブジェクトの位置情報に基づき、ターゲットオブジェクトに関連付けられた仮想イメージの表示位置を判定し、且つ、それに従って仮想イメージを表示するよう構成された仮想イメージ表示ユニットと、を備える。一例において、ターゲットオブジェクト認識モデルは、本明細書の上記の方法を用いて生成される。

一実施形態において、本開示はコンピュータシステムを提供し、コンピュータシステムは、１または複数のプロセッサと、１または複数のプロセッサに結合されたメモリと、を備え、メモリは、プログラム命令を格納するよう構成されており、プログラム命令が１または複数のプロセッサによって読み取りおよび実行されると、プログラム命令は、コンピュータシステムに対し、複数のイメージを含むイメージ訓練サンプルを取得し、複数のイメージの各イメージは同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は１または複数の同一の環境の特徴点を共有し、複数のイメージのうちの１つを基準イメージとして用いて基準座標系を判定する手順と、３次元基準座標系に基づく３次元空間モデルを生成する手順と、３次元空間モデルが、基準イメージ内のターゲットオブジェクトの位置に移動されるとすぐに、３次元基準座標系におけるターゲットオブジェクトの位置情報を判定する手順と、３次元基準座標系におけるターゲットオブジェクトの位置情報と、複数のイメージのうちの各イメージ内の環境の特徴点に基づき判定されたそれぞれのカメラ姿勢情報と、に基づき、３次元空間モデルを、各イメージのイメージ平面にそれぞれマッピングする手順と、を実行するよう命令する。

様々な実施形態により、本開示は、以下の技術的効果をもたらす。

ターゲットオブジェクトは比較的規則的な３次元空間モデルを用いてアノテーションされるので、このようなアノテーションは、ターゲットオブジェクトのＣＡＤモデルと比較して、３次元空間モデルはより容易に取得されるという利点を有する。さらに、手動でアノテーションされた基準イメージを用いて他のイメージを自動的にアノテーションする際、基準イメージに対応するカメラ姿勢に対する、他のイメージに対応するそれぞれのカメラ姿勢の変更に基づき、３次元空間モデルを、イメージに対応するイメージ平面にマッピングし直す。換言すると、撮影環境（例えば、ターゲットオブジェクトが撮影される環境）内の特徴点が十分明確である限り、カメラ姿勢は認識可能である。すなわち、ターゲットオブジェクトを追跡するためにターゲットオブジェクトの特徴点を認識する代わりに、カメラ姿勢は、撮影環境全体内の特徴点に基づき認識されて、ターゲットオブジェクトに自動的にアノテーションする。このため、ターゲットオブジェクトが無地で、高反射率で、または透明等であるにも関わらず、ターゲットオブジェクトは自動的にアノテーションされる。

本開示で提供される様々な実施形態は、上記の利点のすべてを同時に実現する必要はない。

以下に、実施形態の説明に用いられるべき図面について簡単に説明する。以下の説明中の図面は、本開示のいくつかの実施形態である。当業者は大きな努力を要せずに、これらの添付図面に基づき、他の図面をまた得ることができる。

既存のアノテーション方法の図である。既存のアノテーション方法の図である。

本開示のいくつかの実施形態による基準座標系を生成するための方法を示す図である。

本開示のいくつかの実施形態による３次元空間モデルを示す図である。

本開示のいくつかの実施形態によるアノテーションされた基準イメージを示す図である。

本開示のいくつかの実施形態による、マッピング結果を長方形化した後に得られた表示結果を示す図である。

本開示のいくつかの実施形態による自動イメージアノテーションの方法を示すフロー図である。

本開示のいくつかの実施形態によるオブジェクト認識モデルを生成する方法を示すフロー図である。

本開示のいくつかの実施形態による、ＡＲコンテンツを提供する方法を示すフロー図である。

本開示のいくつかの実施形態による自動イメージアノテーションのための装置を示すブロック図である。

本開示のいくつかの実施形態によるオブジェクト認識モデルを生成するための装置を示すブロック図である。

本開示のいくつかの実施形態による、ＡＲコンテンツを提供するための装置を示すブロック図である。

本開示のいくつかの実施形態による、コンピュータシステムを示すブロック図である。

以下に、本開示の実施形態における技術的解決手段について、本開示の実施形態の図面を参照しながら明確且つ完全に説明する。明細書中の実施形態は、本開示の実施形態の全部ではなく、一部に過ぎない。本開示の実施形態に基づき当業者が得られるすべての他の実施形態は、本開示の範囲に属する。

本開示のいくつかの実施形態において、自動イメージアノテーションツールが提供される。自動イメージアノテーションツールは、イメージ内のターゲットオブジェクトを、３次元空間におけるより一般に適用可能な規則的オブジェクト（例えば、直方体または円柱）、規則的オブジェクトによって形成される複合オブジェクトおよび任意の形状等に抽出する。このように、ターゲットオブジェクトにアノテーションをするという技術的課題は、３次元空間（例えば、体積）にアノテーションをするという技術的課題に変換され、そこでは、すべてのオブジェクトがターゲットオブジェクトとしてアノテーションされる。故に、複数のイメージが自動的にアノテーションされるべき場合、複数のイメージのうちの１つが基準イメージとして選択され、基準イメージにおいて、３次元空間モデル（ターゲットオブジェクトのＣＡＤモデルではなく）が初期化される。次に、ユーザは、当該空間モデルが、イメージ内のターゲットオブジェクトを正確に囲むように、当該３次元空間モデルとやり取りする。例えば、ユーザは、空間モデルを移動させてよく、空間の長さ、高さまたは幅等を調整してよい。このため、基準イメージ内のターゲットオブジェクトの位置は、上記移動後の３次元空間モデルの位置に基づき判定される。さらに、複数のイメージのうちの各イメージは、各イメージが同一環境内で同一ターゲットオブジェクトを撮影することにより得られ、且つ、隣接するイメージ同士は、１または複数の同一の環境の特徴点を共有するという要件を満たす。いくつかの実施形態において、隣接するイメージは、同一ビデオファイル等における隣接するイメージフレームである。いくつかの実施形態において、これらのイメージは、同一ビデオファイル等におけるフレームである。このため、イメージに対応するカメラ姿勢（例えば、カメラによって撮影されるイメージに対するカメラの位置、向き等）は、スラム（ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎａｎｄＭａｐｐｉｎｇ：ＳＬＡＭ）等の位置追跡技術を用いて取得されてよい。このようにして、基準イメージ内のターゲットオブジェクトのアノテーションされた位置を取得した後、基準イメージに対応するカメラ姿勢に対する、他のイメージに対応するそれぞれのカメラ姿勢の変更に基づき、３次元空間モデルは、各イメージのイメージ平面にそれぞれマッピングされる。このため、イメージ内のターゲットオブジェクトは自動的にアノテーションされる。

いくつかの実施形態において、３次元空間モデルの生成および移動プロセスは、イメージに対し固定である３次元基準座標系に基づき行われる。さらに、イメージに対応するカメラ姿勢情報を判定するためにも、固定の３次元座標系が基準座標系として用いられ、この基準座標系に基づき、イメージに対応するカメラ座標系の、基準座標系へのそれぞれの３次元剛体変換（３Ｄ剛体変換）が判定される。いくつかの実施形態において、自由度６（６ＤｏＦ）のカメラ姿勢情報が、ビジュアルＳＬＡＭ技術、およびモバイルフォンにある慣性計測装置（ＩＭＵ）モジュールの複数のセンサの融合に基づき、取得される。故に、いくつかの実施形態においては、座標系が後続の３次元空間モデルの生成および移動並びにフレーム内のカメラ姿勢の判定における基準として用いられるように、３次元空間モデルの生成前に基準座標系が判定される。

いくつかの実施形態において、３次元基準座標系を判定するために、様々な方法が用いられてよい。例えば、イメージが、同一ビデオファイル内のイメージである場合、ビデオファイル内の第１のフレームのカメラ座標系が基準座標系として用いられ、当該座標系に基づき、他のフレームに対応するカメラ姿勢の各変更が、第１のフレームに対応するカメラ姿勢を基準として用いて判定される。代替的に、他の実施形態においては、３次元基準座標系は、予め設定されたマーカを用いて判定される。この場合、イメージ訓練サンプルが特定の方式で取得される。例えば、サンプルイメージは、本開示のいくつかの実施形態による特定の方式（詳細については後述する）でターゲットオブジェクトのイメージ取得を実行して、得られたビデオ内のフレームである。このようなイメージ取得中に、平面構造を持つ予め設定されたマーカが、テーブル等に配置される。図２に示される通り、マーカ２０２は、予め設定されたパターン（例えば、Ａｌｉｂａｂａ（登録商標）ロゴ）を持つ一枚の紙等である。ターゲットオブジェクトの撮影前に、カメラのレンズは、撮影のためにマーカの平面に照準を定めて位置付けられる。続けて、カメラのレンズは、撮影のためにターゲットオブジェクトに移動される。いくつかの実施形態において、ターゲットオブジェクトの撮影中、３６０度写真撮影（例えば、カメラが撮影時に全円をスパンする、３６０パノラマ）等がターゲットオブジェクトに向けて行われる。このように、ビデオのイメージ内のターゲットオブジェクトの後続の特定のアノテーションにおいては、３次元基準座標系が、ビデオの第１の複数のフレーム内の撮影された平面マーカ情報に基づき、作成される。その後、３次元空間モデルが、３次元基準座標系に基づき生成される。イメージ内のそれぞれのカメラ姿勢も、３次元基準座標系に基づき判定される。

いくつかの実施形態において、３次元基準座標系は、第１の複数のイメージ内の平面マーカに基づき生成される。例えば、平面マーカは、固定の表面積と、撮影するシーンに対し配置されたとき、地面に対し平行であるという特徴とを有する一枚の紙またはシートであってよい。このため、３次元基準座標系は、第１の複数のイメージ内の予め設定されたパターンを認識することで生成され、これに基づき、マーカの位置が識別される。その後、３次元基準座標系が、右手の法則により、マーカが配置された平面の中心点を、原点として、平面自体をｘ‐ｙ平面として指定することで確立される。この例において、生成された３次元基準座標系は、地面に対し平行に構成されたｘ‐ｙ平面、およびｘ‐ｙ平面から垂直下方となる方向沿いに構成されたｚ軸を有する。このため、３次元基準座標系は、ワールド座標系と称される。

様々な実施形態によると、ターゲットオブジェクトに対しイメージ取得を実行すべく、ビデオを撮像している間に、マーカをビデオに導入する設定は、後続の３次元基準座標系の生成のための準備としてなされる。このようにして、３次元基準座標系は、後続の自動アノテーションにおいて、ビデオファイル内で撮像されたマーカに基づき判定される。

いくつかの実施形態において、同一ビデオファイル内のイメージが、イメージ訓練サンプルとして用いられる例を採用すると、まず３次元基準座標系が判定される。次に、イメージのうちの１つが基準イメージとして選択され、３次元空間モデルが３次元基準座標系に基づき初期化される。例えば、最終的なアノテーション結果が、ターゲットオブジェクトの境界を輪郭で描く長方形ボックスをマークすることが要求されるシナリオにおいては、３次元空間モデルは直方体である。最終的なアノテーション結果が、ターゲットオブジェクトの境界を輪郭で描く円形をマークすることであるというシナリオにおいては、これに応じて３次元空間モデルは円柱である。他のシナリオにおいては、３次元空間モデルは、複数の直方体等を組み合わせて形成される複合形状であってよい。いくつかの実施形態において、３次元空間モデルは、現在のシステムで用いられるＣＡＤモデルと比較すると、比較的規則的且つ単純な形状であり、設計に従った特定のターゲットオブジェクトのメーカによって提供される必要はない。代わりに、上記の通り、３次元空間モデルは比較的容易に生成され得る。

図３は、本開示のいくつかの実施形態による３次元空間モデルを示す図である。

ここに示される通り、ワールド座標系のｘ‐ｙ平面を用いて、３次元空間モデル３０１を初期化する。この例において、３次元空間モデル３０１が、カメラの視野に現れる。さらに、ユーザは、３次元空間モデルをあちこち移動させることができる。例えば、ユーザは３次元空間モデルをｘ‐ｙ平面において移動させてよく、追加的または代替的に、必要に応じて、３次元空間モデルをＺ方向に移動させてもよい。いくつかの実施形態において、アノテーションツールは、ユーザが３次元空間モデルを３つの座標軸のうちの１または複数に沿って回転できるようにすることで位置合わせを提供する。いくつかの実施形態において、アノテーションツールは、ユーザが３次元空間モデルのサイズ（例えば、直方体の長さ、幅、高さ等）を調整できるようにすることで、他の操作を提供する。ここでの目的は、３次元空間モデルにターゲットオブジェクトを正確に囲ませることである。例えば、図４に示される通り、３次元空間モデル４０１は、その中にターゲットオブジェクトが配置されるように、位置合わせおよび調整がなされた３次元空間モデルである。その後、ターゲットオブジェクトのアノテーションの確認が、アノテーションツールのユーザインタフェース要素（例えば、ボタン）を介して提供される。このようにして、基準フレームへのアノテーションの手動処理がこの時点で完了する。

ひとたび基準フレームが手動でアノテーションされると、３次元基準座標系におけるターゲットオブジェクトの位置情報は、３次元空間モデルの移動および／または回転先の位置に基づき判定される。いくつかの実施形態において、位置情報は、３次元基準座標系の３次元におけるターゲットオブジェクトの変位自由度、３次元基準座標系の３次元におけるターゲットオブジェクトの回転自由度、および、３次元における３次元空間モデルのそれぞれのサイズ情報、のうちの１または複数によって表される。

いくつかの実施形態において、ターゲットオブジェクトのイメージ取得は、ターゲットオブジェクトが静的であり、イメージ取得デバイスがターゲットオブジェクトの周囲を円をなして回転されて、ターゲットオブジェクトのイメージ取得が行われ、これによりビデオファイルが生成されるという態様で行われる。このようにして、ターゲットオブジェクトは、３次元基準座標系に対し静的である。すなわち、３次元基準座標系におけるターゲットオブジェクトの位置が、イメージのうちの１つに基づき判定された後、位置情報は固定され、一方で他のイメージ内のそれぞれのカメラ姿勢は変わる。このようなカメラ姿勢の変更により、ターゲットオブジェクトがイメージ内に現れる位置、向きおよびサイズが変わる。一例において、イメージの各々に対応するそれぞれのカメラ姿勢は、前処理中に既に判定済みである。換言すると、カメラ座標系の３次元基準座標系に対する剛体変換情報は既に前処理中に判定済みである。このため、３次元空間モデルは、コンピュータ処理により各イメージのイメージ平面に、逆にマッピングし直されて、他の複数のイメージ内のターゲットオブジェクトに自動的にアノテーションする。

いくつかの実施形態において、３次元空間モデルが、各イメージのイメージ平面にマッピングされた後、３次元空間モデルは２次元領域として表示される。例えば、３次元空間モデルが直方体の場合、２次元領域は、平行四辺形または菱形等の四角形である。さらに、アノテーション要件で長方形ボックスを用いてアノテーションを行うと指定されている場合、図５中の長方形ボックス５０１で示される通り、四角形はさらに長方形へと形状を調整される。

上記の実施形態において、用いられるイメージ訓練サンプルは、同一ビデオファイル内の複数のイメージから選択される。他の実施形態において、イメージ訓練サンプルは、同一ターゲットオブジェクトを、同一環境内で異なる角度から撮影して得られた写真等であってよい。特定の順序で配置された写真が、隣接する写真間で共有する１または複数の同一の環境の特徴点を有する限り、各写真に対応するそれぞれのカメラ姿勢情報が判定可能である。後続のアノテーションは、ビデオファイルからのイメージに関する上記のこれらの実施形態と実質的に同一であり、これらの詳細はここで再度説明はしない。

様々な実施形態により、ターゲットオブジェクトが比較的規則的な３次元空間モデルを用いてアノテーションされる。現在のシステムで用いられるターゲットオブジェクトのＣＡＤモデルと比較した場合、このような比較的規則的な３次元空間モデルが有利にもより簡単に取得される。さらに、手動でアノテーションされた基準イメージを用いて他のイメージに自動的にアノテーションするプロセスでは、他のイメージに関するカメラ姿勢の、基準イメージに関するカメラ姿勢に対する変化に基づき、３次元空間モデルが、イメージの各々に対応するイメージ平面にマッピングし直される。撮影プロセスでは、環境内の特徴点が十分明確である限り、カメラ姿勢は認識可能である。換言すると、ターゲットオブジェクトを追跡するためにターゲットオブジェクトの特徴点を認識するのではなく、カメラ姿勢は、撮影環境全体内の特徴点に基づき認識されて、ターゲットオブジェクトに自動的にアノテーションする。このため、ターゲットオブジェクトが無地で、高反射率で、または透明等であるにも関わらず、ターゲットオブジェクトは自動的にアノテーションされる。

図６は、本開示のいくつかの実施形態による自動イメージアノテーションの方法を示すフロー図である。図６に示される通り、イメージ内のターゲットオブジェクトの自動アノテーションの方法は、以下の段階を含む。

段階Ｓ６０１：複数のイメージを含むイメージ訓練サンプルを取得する段階であって、複数のイメージの各イメージは、同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は、１または複数の同一の環境の特徴点を共有する。

いくつかの実施形態において、イメージ訓練サンプルが、１つのターゲットビデオファイルから取得される。他の実施形態において、イメージ訓練サンプルは、前もって撮影された複数の写真等のドキュメントから取得される。例えば、自動アノテーションプロセス前に、ターゲットビデオファイルが記録されてよい。一実施形態において、ターゲットオブジェクトの特徴点を学習するための機械学習技術を適用し、その後、ターゲットオブジェクトをＡＲ等のシナリオで認識する目的のために、ターゲットオブジェクトに対するイメージ取得は前もって行われてよい。その後、このようなイメージ取得によって取得された写真が、イメージ訓練サンプルとして用いられる。イメージ訓練サンプルに基づき、ターゲットオブジェクトはアノテーションされ、機械学習が実行される。一例において、イメージ取得プロセスの中で対応するビデオファイルが取得され、ビデオファイルは複数のイメージフレームを含み、それらの各々がイメージ訓練サンプルのイメージとして用いられてよい。

いくつかの実施形態において、ターゲットオブジェクトに対しイメージ取得を実行すべく、ターゲットオブジェクトはシーンの中央に配置され、その後、イメージ撮像デバイスを用いて、ターゲットオブジェクトの周囲を１回周回させることでターゲットオブジェクトを撮影して、対応するビデオファイルを生成する。続けて、複数のイメージがビデオファイルから抽出されて、イメージ訓練サンプル内のイメージとして機能する。代替的に、任意の他の好適な技術が適用されて、ターゲットオブジェクトの複数の写真を生成してよい。例えば、ターゲットオブジェクトが複数の角度から撮影されて、複数の写真を生成してよく、これらの写真が、イメージ訓練サンプルのイメージとして用いられる。すなわち、イメージ取得結果に含まれるイメージは、同一環境内でそれぞれ異なる角度からターゲットオブジェクトを撮影することで得られた結果である。故に、撮影中の異なるカメラ姿勢のために、イメージ平面（例えば、ユーザが実際に観察するイメージ平面）に最終的に表示されるターゲットオブジェクトに関連付けられたコンテンツおよび角度は、イメージ間で変わる。しかしながら、基準座標系が判定され、撮影環境（例えば、ターゲットオブジェクトが撮影される環境）が十分な特徴点を有する場合、イメージに対応するそれぞれのカメラ姿勢が計算されてよく、それに基づき、各イメージのイメージ平面におけるターゲットオブジェクトの位置も計算されてよい。

いくつかの実施形態において、イメージ訓練サンプルは、事前記録されたビデオファイルから、イメージフレームの全部として、または、イメージフレームの一部として選択される。他の実施形態において、イメージ訓練サンプルは、前もって撮影された複数の写真である。イメージ訓練サンプルが、ビデオの全部若しくは一部のフレームを含むか、または複数のピクチャを含むかに関わらず、これらのイメージはすべて、これらが同一環境内で同一ターゲットオブジェクトを撮影して取得されたものであり、これらのイメージの隣接するイメージ同士は、１または複数の同一の環境の特徴点を共有するという条件を満たす。すなわち、隣接するイメージのイメージコンテンツは互いに重複し、イメージのカメラ姿勢の変更が認識されてよい。

いくつかの実施形態において、イメージ訓練サンプルは、さらに前処理される。例えば、前処理は、３次元基準座標系を判定すること、および判定された３次元基準座標系および環境の特徴点に基づき、イメージに対応するそれぞれのカメラ姿勢情報を判定すること、を含む。

いくつかの実施形態により、基準イメージが用いられて、他のイメージ内のターゲットオブジェクトへの自動アノテーションが達成される。一実施形態において、イメージ訓練サンプルは前処理され、その間に、イメージに対応するそれぞれのカメラ姿勢が、上記のように認識される。いくつかの実施形態において、カメラ姿勢は相対的な概念であるので、３次元基準座標系がまず判定されてよい。例えば、ビデオファイル内の第１のイメージに対応するカメラ座標系が、３次元基準座標系として用いられる。別の例では、上記のようなイメージ取得中に、特殊処理が実行される。いくつかの実施形態において、ターゲットオブジェクトおよび平面構造を有するマーカ（例えば、図２に示されるように「Ａｌｉｂａｂａ（登録商標）」等の１または複数の語を示す一枚の紙）が、ターゲット環境に配置される。マーカの平面が、水平線に対し平行に配置される。撮影時に、カメラのレンズはまずマーカに向けられ、その後に、カメラのレンズは撮影のためにターゲットオブジェクトの位置に移動される。このようにして、３次元基準座標系を作成する開始において、マーカの平面は、ビデオファイルの第１の複数のフレームから認識される。次に、３次元基準座標系が、例えば、右手の法則により、マーカが配置された平面の中心点を、基準座標系の原点として、および平面をｘ‐ｙ平面として指定することで確立される。マーカの平面が水平線に対し平行に配置されるので、その平面に基づきその後に確立される基準座標系は、ワールド座標系として認識されてよい。

基準座標系が判定された後、イメージに対応するそれぞれのカメラ姿勢情報が、３次元基準座標系および環境の特徴点に基づき判定される。いくつかの実施形態において、カメラ姿勢情報の判定は、ＳＬＡＭ等の様々な技術を用いて実行されてよい。本明細書で用いられるカメラ姿勢（例えば、姿勢情報）とは、カメラ座標系と、基準座標系との間の３Ｄ剛体変換を指す。例えば、ビジュアルＳＬＡＭ技術を使用して、自由度６（６ＤｏＦ）ベースのカメラ姿勢情報がデバイスにあるＩＭＵモジュールの複数のセンサを融合させることで取得される。このため、３Ｄ物理空間におけるカメラの姿勢情報が判定され、これに基づき、後続のアノテーションプロセスにおいて、自動アノテーションが行われる。

上記の実施形態においては、３次元物理空間におけるカメラの位置を判定するために、ターゲットオブジェクトを追跡する代わりに、ＳＬＡＭ技術が用いられる。いくつかの実施形態において、ターゲットオブジェクト自体の特徴点の代わりに、ターゲットオブジェクトが撮影される環境の特徴点が、カメラの位置を判定するために用いられる。

段階Ｓ６０２：イメージのうちの１つを基準イメージとして用いて基準座標系を判定し、３次元基準座標系に基づく３次元空間モデルを生成する。

いくつかの実施形態において、アノテーションプロセスの開始において、イメージ訓練サンプルのうちの１つのイメージが基準イメージとして使用され、これは、手動でアノテーションされる必要のあるイメージである。このような手動アノテーションを行う前に、まず３次元基準座標系に基づき、３次元空間モデルが生成される。一実施形態において、基準座標系は、カメラ姿勢を判定する際に用いられる基準座標系と同一である。この例においては、３次元空間モデルは、ターゲットオブジェクトのＣＡＤモデルではなく、従って、ターゲットオブジェクトのメーカーまたは設計者によって提供される必要がない。代わりに、このような３次元空間モデルは、直方体、円柱および複数の規則的な３次元空間モデルを組み合わせて形成された複合形状等の規則的な３次元空間モデルである。このため、３次元空間モデルは、容易に取得される。３次元空間モデルを用いて、３次元基準座標系におけるターゲットオブジェクトの位置を指定する。故に、３次元空間モデルは、移動可能で且つそのサイズを調整可能である。このため、ユーザは、３次元空間モデルがターゲットオブジェクトを正確に囲むように、３次元空間モデルを移動させてよく、３次元空間モデルの長さ、幅、高さ等のうちの１または複数を調整してよい。

段階Ｓ６０３：３次元空間モデルが、基準イメージ内のターゲットオブジェクトの位置に移動されるとすぐに、３次元基準座標系におけるターゲットオブジェクトの位置情報を判定する。

いくつかの実施形態において、３次元空間モデルが、ターゲットオブジェクトの位置に移動されると、３次元空間モデルが、ターゲットオブジェクトを囲む状態にレンダリングされる。すなわち、ターゲットオブジェクトは３次元空間モデル内に配置されている。この時点において、基準イメージの手動アノテーションは完了しており、３次元基準座標系におけるターゲットオブジェクトの位置情報が判定される。いくつかの実施形態において、位置情報は、３次元基準座標系の３次元におけるターゲットオブジェクトの変位自由度、３次元基準座標系の３次元におけるターゲットオブジェクトの回転自由度、および、３次元における３次元空間モデルのサイズ情報等のうちの１または複数を含む。

イメージ取得中にターゲットオブジェクトの位置は変更されないので、いったん判定された位置情報は固定である。すなわち、３次元基準座標系に対するターゲットオブジェクトの位置は、イメージング訓練サンプルの様々なイメージ内で同一且つ固定である。

段階Ｓ６０４：３次元基準座標系におけるターゲットオブジェクトの位置情報および各イメージに対応するそれぞれのカメラ姿勢情報に基づき、３次元空間モデルを各イメージのイメージ平面にそれぞれマッピングし、それぞれのカメラ姿勢は、各イメージの環境の特徴点に基づき判定される。

様々な実施形態により、３次元基準座標系に対するターゲットオブジェクトの位置が判定された後、イメージに対応するそれぞれのカメラ姿勢情報に基づき、３次元空間モデルは、各イメージのイメージ平面にそれぞれマッピングされて、他のイメージ内のターゲットオブジェクトに自動的にアノテーションをする。いくつかの実施形態において、３次元空間モデルは、各イメージのイメージ平面にマッピングされた後、２次元形状にレンダリングされる。例えば、３次元空間モデルが直方体である場合、３次元空間モデルはイメージ平面にマッピングされた後は、菱形および平行四辺形等の四角形にレンダリングされる。一例において、アノテーション要件で、長方形を用いてアノテーションが行われるよう指定されている場合、３次元空間モデルの上記のマッピング後に得られた四角形はさらに長方形化される。このようにして、最終的に達成されるアノテーション効果は、イメージ訓練サンプルの各イメージ内のターゲットオブジェクトの輪郭を描く長方形ボックスをマークしたものである。その後、長方形ボックス内のイメージが訓練および機械学習プロセスで用いられて、ターゲットオブジェクトのための認識モデルが確立され、当該認識モデルが、ＡＲアプリケーション等のシナリオでターゲットオブジェクトを認識するために用いられる。

様々な実施形態により、ターゲットオブジェクトは、比較的規則的な３次元空間モデルを用いてアノテーションされる。現在のシステムで用いられるターゲットオブジェクトのＣＡＤモデルと比較して、このような比較的規則的な３次元空間モデルが有利にもより容易に取得される。さらに、手動でアノテーションされた基準イメージを用いて他のイメージに自動的にアノテーションするプロセスでは、他のイメージに関するカメラ姿勢の、基準イメージに関するカメラ姿勢に対する変化に基づき、３次元空間モデルが、イメージの各々に対応するイメージ平面にマッピングし直される。撮影プロセスでは、環境内の特徴点が十分明確である限り、カメラ姿勢は認識可能である。換言すると、ターゲットオブジェクトを追跡するためにターゲットオブジェクトの特徴点を認識するのではなく、カメラ姿勢は、撮影環境全体内の特徴点に基づき認識されて、ターゲットオブジェクトに自動的にアノテーションする。このため、ターゲットオブジェクトが無地で、高反射率で、または透明等であるにも関わらず、ターゲットオブジェクトは自動的にアノテーションされる。

図７は、本開示のいくつかの実施形態によるターゲットオブジェクト認識モデルを生成する方法を示すフロー図である。この例において、方法７００は、イメージ内のターゲットオブジェクトに自動的にアノテーションする上記方法の適用である。すなわち、イメージ訓練サンプル内のターゲットオブジェクトの自動アノテーションが完了した後、アノテーションされたイメージが、ターゲットオブジェクト認識モデルの生成プロセスに適用される。図７に示される通り、ターゲットオブジェクト認識モデルを生成する方法は、以下の段階を含む。

段階Ｓ７０１：複数のイメージを含むイメージ訓練サンプルを取得する段階であって、複数のイメージの各イメージは、同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は、１または複数の同一の環境の特徴点を共有し、各イメージはさらに、ターゲットオブジェクトの位置のアノテーション情報を含む。いくつかの実施形態において、アノテーション情報は、複数のイメージのうちの１つを基準イメージとして用いて、３次元基準座標系に基づく３次元空間モデルを生成する段階と、３次元基準座標系におけるターゲットオブジェクトの位置情報を、３次元空間モデルの移動先の位置に基づき判定する段階と、各イメージ内の環境の特徴点に基づき判定されたそれぞれのカメラ姿勢情報に基づき、３次元空間モデルを各イメージのイメージ平面にそれぞれマッピングする段階と、によって取得される。

段階Ｓ７０２：イメージ訓練サンプル内のターゲットオブジェクトの位置に関連付けられたアノテーション情報に基づき、ターゲットオブジェクトのための認識モデルを生成する。

いくつかの実施形態において、ターゲットオブジェクトのための認識モデルがＡＲ相互作用プロセスに適用されて、撮影によって得られた現実世界イメージ内のターゲットオブジェクトを認識する、および、現実世界イメージ内のターゲットオブジェクトの位置情報に基づき、ターゲットオブジェクトに関連付けられた仮想イメージを表示するべく、現実世界イメージ内のターゲットオブジェクトの位置を判定する。

図８は、本開示のいくつかの実施形態による、ＡＲコンテンツを提供する方法を示すフロー図である。この例において、方法８００は、ターゲットオブジェクト認識モデルを生成するための上記方法の適用である。図８に示される通り、ＡＲコンテンツを提供する方法は、以下の段階を含む。

段階Ｓ８０１：現実世界イメージを取得し、事前生成されたターゲットオブジェクト認識モデルを用いて、現実世界イメージ内のターゲットオブジェクトの位置情報を認識する。いくつかの実施形態において、ターゲットオブジェクト認識モデルは、図７を参照して上記した方法を用いて生成される。

段階Ｓ８０２：現実世界イメージ内のターゲットオブジェクトの位置情報に基づき、ターゲットオブジェクトに関連付けられた仮想イメージの表示位置を判定し、それに従って仮想イメージを表示する。

いくつかの実施形態において、現実世界イメージ内のターゲットオブジェクトの位置が変化する場合、仮想イメージの位置は、現実世界イメージの位置に対応して変化する。

現行技術では、仮想イメージの位置および現実世界イメージの位置における変化は、しばしば同期されない。例えば、特定の状態では、仮想イメージおよび現実世界イメージは両方とも、ピクチャ内の位置Ａに位置する。この時点で、ユーザが、現実世界イメージが位置Ｂに移動するようにデバイスを移動すると、位置変更の直後は仮想イメージは依然として位置Ａにあり、その後、数秒の間隔を置いて位置Ｂに移動される。ユーザがデバイスを頻繁に移動させる、または、デバイスを左右若しくは上下に繰り返し移動させる場合、仮想イメージはユーザにとって「フローティング」状態に見え、低品質な表示効果をもたらす。

様々な実施形態により、上記の技術的課題は、仮想イメージの位置が、現実世界イメージの位置に従って変化することを可能にすることで解決される。いくつかの実施形態において、仮想イメージの位置のかかる有効化は、以下の段階を含む。

段階１：第１のスレッドによって取得された現実世界イメージの情報を受信し、第１のスレッドによる現実世界イメージ取得の動作を中断する。

段階２：第２のスレッドがターゲットオブジェクト認識モデルを用いて、現実世界イメージにおけるターゲットオブジェクトの位置情報を認識するように、現実世界イメージの情報を第２のスレッドに提供する。第２のスレッドは、また、現実世界イメージ内のターゲットオブジェクトの位置情報に基づき、ターゲットオブジェクトに関連付けられた仮想イメージの表示位置を判定する。

段階３：第３のスレッドに対し、第１のスレッドによって取得された現実世界イメージと、第２のスレッドによって生成された仮想イメージとを融合してレンダリングするよう命令し、且つ、第１のスレッドに対し、次のイメージのための取得動作を実行するよう命令する。

様々な実施形態により、第１のスレッドが現実世界イメージを取得するタイミングは、第１のスレッドが次の現実世界イメージを取得する前に、第２のスレッドが、第１のスレッドによって取得された現実世界イメージの情報に基づき、仮想イメージの表示属性を判定でき且つそのレンダリングを完了できるように制約される。このように、ＡＲピクチャ内の仮想イメージの位置およびサイズ等の表示属性（例えば、現在の位置およびサイズ）は、ターゲットの現実世界イメージの表示属性に従い厳格に判定でき、同時にレンダリングできる。このため、カメラスレッドによって取得された第１の複数の現実世界イメージに基づき、仮想イメージがレンダリングされる状況は回避され、仮想イメージおよび現実世界イメージの表示属性（例えば、ＡＲピクチャにおける位置およびサイズ）は同期して変わる。その結果、デバイスの移動等によって生じる仮想イメージの「フローティング」現象も回避され、これによってＡＲピクチャの品質および表示効果を高める。

図９は、本開示のいくつかの実施形態による自動イメージアノテーションのための装置を示すブロック図である。図９に示される通り、装置は訓練サンプル取得ユニット（９０１）、３次元空間モデル作成ユニット（９０２）、位置情報判定ユニット（９０３）およびマッピングユニット（９０４）を含む。

訓練サンプル取得ユニット（９０１）は、複数のイメージを含むイメージ訓練サンプルを取得するよう構成されており、複数のイメージの各イメージは、同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は１または複数の同一の環境の特徴点を共有する。

３次元空間モデル作成ユニット（９０２）は、複数のイメージのうちの１つを基準イメージとして使用する、基準座標系を判定する、および３次元基準座標系に基づく３次元空間モデルを生成する、よう構成されている。

位置情報判定ユニット（９０３）は、３次元空間モデルが基準イメージ内のターゲットオブジェクトの位置に移動されるとすぐに、３次元基準座標系におけるターゲットオブジェクトの位置情報を判定するよう構成されている。

マッピングユニット（９０４）は、３次元基準座標系におけるターゲットオブジェクトの位置情報および各イメージ内の環境の特徴点に基づき判定されたそれぞれのカメラ姿勢に基づき、３次元空間モデルを各イメージのイメージ平面にそれぞれマッピングするよう構成されている。

いくつかの実施形態において、装置はさらに、前処理ユニットを含む。前処理ユニットは、３次元基準座標系を判定すること、並びに、３次元基準座標系および環境の特徴点に基づき、イメージに対応するそれぞれのカメラ姿勢情報を判定すること、を実行することによって、イメージ訓練サンプルを、前処理するよう構成されている。

一例において、前処理ユニットは、各イメージフレームの環境の特徴点情報を、ビジョンＳＬＡＭ技術を用いて解析する、および、解析結果に従いイメージに対応するそれぞれのカメラ姿勢を判定する、ように構成されている。

いくつかの実施形態において、３次元空間モデルが基準イメージ内のターゲットオブジェクトの位置に移動されるとすぐに、ターゲットオブジェクトは、３次元空間モデル内に配置される。

いくつかの実施形態において、訓練サンプル取得ユニット（９０１）はさらに、ターゲットビデオファイルを取得する、および、ビデオファイル内の複数のイメージをイメージ訓練サンプルとして使用する、よう構成されており、ターゲットビデオファイルは、ターゲット環境においてターゲットオブジェクトを撮影することで取得される。

いくつかの実施形態において、３次元基準座標系は、ビデオファイル内の第１のイメージに対応するカメラ座標系を、３次元基準座標系として用いることによって生成される。

他の実施形態において、３次元基準座標系は、以下のようにして撮像されたターゲットビデオファイルを用いて生成される。すなわち、ターゲットオブジェクトおよび平面構造を有するマーカを、ターゲット環境に配置する段階であって、マーカの平面が水平線に対し平行に配置される、段階と、まずカメラのレンズをマーカに向ける段階と、その後に、カメラのレンズを、撮影のためにターゲットオブジェクトの位置に移動させる段階と、である。

この例において、３次元基準座標系は、ビデオファイルの第１の複数のフレームにおいてマーカが配置される平面に基づき、３次元基準座標系を確立することで生成される。

一実施形態において、３次元基準座標系が、右手の法則により、マーカが配置された平面の中心点を、ｘ‐ｙ平面の原点および平面自体として指定することで生成される。

いくつかの実施形態において、平面構造を有するマーカには、予め設定されたパターンが表示された一枚の紙が含まれる。

いくつかの実施形態において、ビデオファイルは、ターゲットオブジェクトの位置を静的に維持して、且つ、ビデオ撮像デバイスを用いてターゲットオブジェクトの周囲を円で一回囲む写真撮影（例えば、３６０写真撮影）を実行する撮影によって取得される。

いくつかの実施形態において、位置情報判定ユニット（９０３）は、３次元基準座標系の３次元におけるターゲットオブジェクトの変位自由度、３次元基準座標系の３次元におけるターゲットオブジェクトの回転自由度、および、３次元における３次元空間モデルのサイズ情報を判定するよう構成されている。

いくつかの実施形態において、３次元空間モデルは直方体モデルを含む。

いくつかの実施形態において、装置は、さらに、３次元空間モデルが各イメージのイメージ平面にマッピングされた後、３次元空間モデルのマッピング時に得られた四角形を長方形化するよう構成された長方形化ユニットを含む。

いくつかの実施形態において、複雑な構造を有するターゲットオブジェクトについては、３次元空間モデルはさらに、複数の直方体モデルを組み合わせて形成される複合モデルを含む。

図１０は、本開示のいくつかの実施形態によるターゲットオブジェクト認識モデルを生成する装置を示すブロック図である。図１０に示される通り、装置は、イメージ訓練サンプル取得ユニット（１００１）および認識モデル生成ユニット（１００２）を含む。

イメージ訓練サンプル取得ユニット（１００１）は、複数のイメージを含むイメージ訓練サンプルを取得するよう構成されており、複数のイメージの各イメージは、同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は、１または複数の同一の環境の特徴点を共有し、複数のイメージの各イメージは、ターゲットオブジェクトの位置のアノテーション情報を含む。一例において、アノテーション情報は、複数のイメージの１つを基準イメージとして使用する、３次元基準座標系に基づく３次元空間モデルを作成する、３次元空間モデルの移動先の位置に基づき、３次元基準座標系におけるターゲットオブジェクトの位置情報を判定する、および、各イメージ内の環境の特徴点に基づき判定されたそれぞれのカメラ姿勢に基づき、３次元空間モデルを各イメージのイメージ平面にそれぞれマッピングする、ことにより取得される。

認識モデル生成ユニット（１００２）は、イメージ訓練サンプル内のターゲットオブジェクトの位置に関するアノテーション情報に基づき、ターゲットオブジェクトのための認識モデルを生成するよう構成されている。

ターゲットオブジェクトのための認識モデルがＡＲ相互作用プロセスに適用されて、撮影によって得られた現実世界イメージからのターゲットオブジェクトを認識する、および、現実世界イメージ内のターゲットオブジェクトの位置を判定する。その結果に基づき、ターゲットオブジェクトに関連付けられた仮想イメージは、現実世界イメージ内のターゲットオブジェクトの位置情報に基づき表示される。

図１１は、本開示のいくつかの実施形態によるＡＲコンテンツを提供するための装置を示すブロック図である。図１１に示される通り、装置は、リアルシーンイメージ取得ユニット（１１０１）および仮想イメージ表示ユニット（１１０２）を含む。

リアルシーンイメージ取得ユニット（１１０１）は、現実世界イメージを取得する、および、事前生成されたターゲットオブジェクト認識モデルを用いて、現実世界イメージ内のターゲットオブジェクトの位置情報を認識する、よう構成されている。いくつかの実施形態において、ターゲットオブジェクト認識モデルは、図８を参照して上記した方法を用いて生成される。

仮想イメージ表示ユニット（１１０２）は、現実世界イメージ内のターゲットオブジェクトの位置情報に基づき、ターゲットオブジェクトに関連付けられた仮想イメージの表示位置を判定する、および、それに従って、仮想イメージを表示する、よう構成されている。

いくつかの実施形態において、装置は、さらに変更同期ユニットを含む。変更同期ユニットは、現実世界イメージ内のターゲットオブジェクトの位置が変更されたとき、仮想イメージの位置を、現実世界イメージの位置に従うように変更する、よう構成されている。

一例において、仮想イメージ変更の位置は、現実世界イメージの位置に従うべく、第１のスレッドによって取得された現実世界イメージの情報を受信し、第１のスレッドによる現実世界イメージ取得の動作を中断すること、第２のスレッドがターゲットオブジェクト認識モデルを用いて、現実世界イメージ内のターゲットオブジェクトの位置情報を認識し、且つ、現実世界イメージ内のターゲットオブジェクトの位置情報に基づき、ターゲットオブジェクトに関連付けられた仮想イメージの表示位置を判定するように、現実世界イメージの情報を、第２のスレッドに提供すること、並びに、第３のスレッドに対し、第１のスレッドによって取得された現実世界イメージと、第２のスレッドによって生成された仮想イメージとを融合してレンダリングするよう命令すること、および第１のスレッドに対し、次のイメージの取得動作を実行することを命令すること、により変更される。

いくつかの実施形態において、本開示は、１または複数のプロセッサと、１または複数のプロセッサに結合されたメモリと、を含むコンピュータシステムを提供する。メモリは、プログラム命令を格納するよう構成されており、当該プログラム命令が１または複数のプロセッサにより読み取りおよび実行されると、複数のイメージを含むイメージ訓練サンプルを取得する手順であって、複数のイメージの各イメージは同一ターゲットオブジェクトを撮影することで取得され、隣接するイメージ同士は１または複数の同一の環境の特徴点を共有する、手順と、複数のイメージのうちの１つを基準イメージとして用いて基準座標系を判定し、且つ、３次元基準座標系に基づく３次元空間モデルを作成する手順と、３次元空間モデルが基準イメージ内のターゲットオブジェクトの位置に移動されるとすぐに、３次元基準座標系におけるターゲットオブジェクトの位置情報を判定する手順と、３次元基準座標系におけるターゲットオブジェクトの位置情報および各イメージ内の環境の特徴点に基づき判定されたそれぞれのカメラ姿勢情報に基づき、３次元空間モデルを、各イメージのイメージ平面にそれぞれマッピングする手順と、を実行させる。

図１２は、本開示のいくつかの実施形態による、コンピュータシステムアーキテクチャを示すブロック図である。図１２に示される通り、コンピュータシステムアーキテクチャは、プロセッサ（１２１０）、ビデオディスプレイアダプタ（１２１１）、ディスクドライブ（１２１２）、入／出力インタフェース（１２１３）、ネットワークインタフェース（１２１４）およびメモリ（１２２０）を含む。プロセッサ（１２１０）、ビデオディスプレイアダプタ（１２１１）、ディスクドライブ（１２１２）、入／出力インタフェース（１２１３）、ネットワークインタフェース（１２１４）およびメモリ（１２２０）は、通信バス（１２３０）を介して互いに通信可能に接続されている。

プロセッサ（１２１０）は、汎用ＣＰＵ（中央処理装置）、マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、または１若しくは複数の集積回路を用いて実装され、且つ、本開示で提供される技術的解決手段を実装するための関連プログラムを実行するよう構成されている。

メモリ（１２２０）は、ＲＯＭ（リードオンリメモリ）、ＲＡＭ（ランダムアクセスメモリ）、静的格納デバイスまたは動的格納デバイス等の形態で実装される。メモリ（１２２０）は、コンピュータシステム（１２００）の実行を制御するために用いられるオペレーティングシステム（１２２１）およびコンピュータシステム（１２００）の低レベル動作を制御するために用いられる基本入出力システム（ＢＩＯＳ）（１２２２）を格納してよい。また、メモリ（１２２０）は、さらにウェブブラウザ（１２２３）、データ格納管理システム（１２２４）およびイメージアノテーションシステム（１２２５）等を格納してよい。いくつかの実施形態において、イメージアノテーションシステム（１２２５）は、上記の段階および方法を実装するアプリケーションである。本開示で提供される技術的解決手段がソフトウェアまたはファームウェアを用いて実装される場合、関連プログラムコードはメモリ（１２２０）内に格納され、プロセッサ（１２１０）によって呼び出しおよび実行される。

入／出力インタフェース（１２１３）は、情報を入力および出力するための入／出力モジュールに接続するよう構成されている。入／出力モジュールは、デバイス内のコンポーネント（図面内に示さない）として構成されてよく、または、対応する機能を提供するデバイスに外部接続されてよい。入力デバイスには、キーボード、マウス、タッチスクリーン、マイクおよび様々なセンサ等が含まれてよく、出力デバイスには、ディスプレイ、ラウドスピーカ、バイブレータおよびインジケータ等が含まれてよい。

ネットワークインタフェース（１２１４）は、ローカルデバイスと他のデバイスとの間の通信相互作用を実装するための通信モジュール（不図示）に接続されるよう構成されている。通信モジュールは、有線方式（例えば、ＵＳＢまたはネットワークケーブルを通して）で通信を実装してよく、または、無線方式（例えば、モバイルネットワーク、Ｗｉ‐ＦｉまたはＢｌｕｅｔｏｏｔｈ（登録商標）を通して）で通信を実装してよい。

バス（１２３０）は、様々なコンポーネント（例えば、デバイスのプロセッサ（１２１０）、ビデオディスプレイアダプタ（１２１１）、ディスクドライブ（１２１２）、入／出力インタフェース（１２１３）、ネットワークインタフェース（１２１４）、およびメモリ（１２２０））間で情報を伝送する経路を含む。

いくつかの実施形態において、コンピュータシステム（１２００）は、さらに、仮想リソースオブジェクト取得条件情報データベース（１２４１）から、条件判定等に用いるための取得条件の情報を取得する。

ここには、プロセッサ（１２１０）、ビデオディスプレイアダプタ（１２１１）、ディスクドライブ（１２１２）、入／出力インタフェース（１２１３）、ネットワークインタフェース（１２１４）、メモリ（１２２０）およびバス（１２３０）のみが示されているが、いくつかの実施形態においては、コンピュータシステム（１２００）は、さらに、通常の動作に必要な他のコンポーネントを含んでよいことに留意されたい。さらに、当業者は、コンピュータシステム（１２００）は、また、本開示で提供する解決手段を実装するために必要なコンポーネントのみを含んでよく、ここに示されたコンポーネントをすべて含む必要はないことを理解できるだろう。

上記の実施形態の説明を通して、当業者は、本開示の実施形態は、ソフトウェアおよび必要なハードウェアプラットフォームによって実装可能であることが理解できるだろう。このため、技術的解決手段および本開示でもたらされる技術的改善は、ソフトウェア製品の形態で具現化されてよい。コンピュータソフトウェアプロダクトは、ＲＯＭ／ＲＡＭ、磁気ディスク、または光ディスク等の格納媒体に格納されてよく、コンピュータデバイス（パーソナルコンピュータ、サーバまたはネットワークデバイス等）に対し、実施形態で説明した方法または本開示による実施形態の一部を実行するよう命令するための複数の命令を含んでよい。

本明細書では、いくつかの実施形態について、段階的に前進する態様で説明されている。異なる実施形態の間で同一または類似である部分については、実施形態の各々が他の実施形態との差異に重点を置くように、互いに参照がなされる。システムは、方法と実質的に同様であるので、システムの説明は比較的簡易で、関連する説明については、方法の説明を参照できる。上記のシステムは例示に過ぎない。別個の部分として説明したユニットは、物理的に分離されていても、いなくてもよく、ユニットとして示されたコンポーネントは、物理ユニットであってもよいし、なくてもよい。すなわち、コンポーネントは、ある場所に配置されてよく、または、複数のネットワークユニット間で分散されてよい。実施形態の解決手段の目的は、実際の要件により、モジュールの一部または全部を選択することで達成されてよい。当業者は、大きな努力をすることなく、本開示を理解および実装できる。

本開示で提供されるイメージ内のターゲットオブジェクトに自動的にアノテーションするための方法、装置およびシステムが上で詳細に説明されている。本開示の原理および実装については、例示および実施形態を用いて説明されている。上記の実施形態は、本開示で提供される解決手段および中核的思想を理解する助けとして用いられているに過ぎない。一方、当業者は、本開示に基づく実装および適用範囲に、修正を加え得る。上記に照らし、本明細書の内容は、本開示に対する限定としてみなされるべきではない。

Claims

イメージ内のターゲットオブジェクトに自動的にアノテーションするための方法であって、
複数のイメージを含むイメージ訓練サンプルを取得する段階であって、各イメージは同一ターゲットオブジェクトを撮影することで取得され、同一の環境の特徴点が隣接するイメージ間に存在する、段階と、
前記イメージのうちの１つを基準イメージとして使用し、３次元基準座標系を判定し、前記３次元基準座標系に基づく３次元空間モデルを作成する段階と、
前記３次元空間モデルが、前記基準イメージ内の前記ターゲットオブジェクトの位置に移動されるとき、前記３次元基準座標系における前記ターゲットオブジェクトの位置情報を判定する段階と、
前記３次元基準座標系における前記ターゲットオブジェクトの前記位置情報と、各イメージ内の前記環境の特徴点により判定された対応するカメラ姿勢情報とに従い、前記３次元空間モデルを、各イメージのイメージ平面に個別にマッピングする段階と、を備える、方法。
前記イメージ訓練サンプルを前処理する段階をさらに備え、前記前処理する段階は、前記３次元基準座標系を判定する段階と、前記３次元基準座標系と前記環境の特徴点とに従い、前記イメージにそれぞれ対応する前記カメラ姿勢情報を判定する段階と、を含む、請求項１に記載の方法。
前記３次元基準座標系に従い、前記イメージにそれぞれ対応する前記カメラ姿勢情報を判定する段階は、
ビジョンベースの同時マッピングおよび位置特定ＳＬＡＭ技術を用いて、各イメージフレームの環境の特徴点情報を解析し、解析結果に従い、前記イメージにそれぞれ対応する前記カメラ姿勢情報を判定する段階を含む、請求項２に記載の方法。
前記３次元空間モデルが前記基準イメージ内の前記ターゲットオブジェクトの前記位置に移動されたとき、前記ターゲットオブジェクトは前記３次元空間モデル内に配置される、請求項１から３のいずれか一項に記載の方法。
イメージ訓練サンプルを取得する前記段階は、
ターゲットビデオファイルを取得し、前記ターゲットビデオファイル内の複数のイメージを、前記イメージ訓練サンプルとして使用する段階であって、前記ターゲットビデオファイルは、前記ターゲットオブジェクトをターゲット環境内で撮影することで取得される、段階を含む、請求項１から４のいずれか一項に記載の方法。
３次元基準座標系を前記判定することは、前記ターゲットビデオファイル内の第１のイメージのカメラ座標系を、前記３次元基準座標系として用いることを含む、請求項５に記載の方法。
前記ターゲットビデオファイルは、前記ターゲットオブジェクトと、平面構造を有するマーカとを前記ターゲット環境に配置する段階であって、前記マーカの平面が水平線に対し平行である、段階と、まずレンズを前記マーカに向ける段階と、その後に前記レンズを撮影のために前記ターゲットオブジェクトの前記位置に移動させる段階と、により撮像され、
３次元基準座標系を前記判定することは、前記ターゲットビデオファイルの第１の複数のフレームにおいて、前記マーカが配置される前記平面に従い、前記３次元基準座標系を確立することを含む、請求項５に記載の方法。
前記マーカが配置される前記平面に従い、前記３次元基準座標系を前記確立することは、
右手の法則に従い、前記マーカが配置される前記平面の中心点を原点として、前記平面をｘ‐ｙ平面として用いることで、前記３次元基準座標系を確立することを含む、請求項７に記載の方法。
前記平面構造を有する前記マーカは、予め設定されたパターンが表示された紙を含む、請求項７に記載の方法。
前記ターゲットビデオファイルは、前記ターゲットオブジェクトの前記位置を固定したまま維持し、ビデオ撮像デバイスを用いて、前記ターゲットオブジェクトの周囲を一回撮影する態様で撮影を実行することで取得される、請求項５に記載の方法。
前記３次元基準座標系における前記ターゲットオブジェクトの位置情報を判定する前記段階は、
前記３次元基準座標系の３次元における前記ターゲットオブジェクトの変位自由度および回転自由度、並びに、前記３次元における前記３次元空間モデルのサイズ情報を判定する段階を含む、請求項１から１０のいずれか一項に記載の方法。
前記３次元空間モデルは、直方体モデルを含む、請求項１から１１のいずれか一項に記載の方法。
前記３次元空間モデルを、各イメージのイメージ平面に個別にマッピングする前記段階の後に、前記方法は、
前記３次元空間モデルの前記マッピングの後に得られた四角形を長方形化する段階をさらに備える、請求項１２に記載の方法。
前記３次元空間モデルは、複数の直方体モデルを組み合わせて形成される複合ソリッドモデルを含む、請求項１から１３のいずれか一項に記載の方法。
ターゲットオブジェクト認識モデルを確立するための方法であって、前記方法は、
複数のイメージを含むイメージ訓練サンプルを取得する段階であって、各イメージは同一のターゲットオブジェクトを撮影することで取得され、同一の環境の特徴点が隣接するイメージ間に存在し、各イメージはさらに前記ターゲットオブジェクトの位置のアノテーション情報を含み、前記アノテーション情報は、前記イメージのうちの１つを基準イメージとして用いることと、３次元基準座標系に基づく３次元空間モデルを作成することと、前記３次元空間モデルの移動先の位置に従い、前記３次元基準座標系における前記ターゲットオブジェクトの位置情報を判定することと、各イメージ内の前記環境の特徴点に従い判定された対応するカメラ姿勢情報に従い、前記３次元空間モデルを各イメージのイメージ平面に個別にマッピングすることとによって取得される、段階と、
前記イメージ訓練サンプル内の前記ターゲットオブジェクトの前記位置の前記アノテーション情報に従い、前記ターゲットオブジェクトの認識モデルを生成する段階と、を備える、方法。
前記ターゲットオブジェクトの前記認識モデルが拡張現実（ＡＲ）相互作用プロセスに適用されて、撮影によって取得されたリアルシーンイメージからの前記ターゲットオブジェクトを認識し、且つ、前記リアルシーンイメージ内の前記ターゲットオブジェクトの前記位置を判定し、その結果、前記リアルシーンイメージ内の前記ターゲットオブジェクトの位置情報に従い、前記ターゲットオブジェクトに関連付けられた仮想イメージを表示する、請求項１５に記載の方法。
拡張現実（ＡＲ）情報を提供するための方法であって、
リアルシーンイメージを取得し、且つ、事前確立されたターゲットオブジェクト認識モデルを用いて、前記リアルシーンイメージからのターゲットオブジェクトの位置情報を認識する段階であって、前記ターゲットオブジェクト認識モデルは、請求項１５に記載の方法を用いて確立される、段階と、
前記リアルシーンイメージ内の前記ターゲットオブジェクトの前記位置情報に従い、関連付けられた仮想イメージの表示位置を判定し、且つ、前記仮想イメージを表示する段階と、を備える、方法。
前記リアルシーンイメージ内の前記ターゲットオブジェクトの前記位置が変更されると、前記仮想イメージの前記位置を、前記リアルシーンイメージの前記位置と共に変更させる段階をさらに備える、請求項１７に記載の方法。
第１のスレッドによって取得されたリアルシーンイメージの情報を受信し、前記第１のスレッドのリアルシーンイメージ取得動作を中断する段階と、
第２のスレッドが前記ターゲットオブジェクト認識モデルを用いて、前記リアルシーンイメージからの前記ターゲットオブジェクトの位置情報を認識し、且つ、前記リアルシーンイメージ内の前記ターゲットオブジェクトの前記位置情報に従い、関連付けられた仮想イメージの表示位置を判定するように、前記リアルシーンイメージの前記情報を前記第２のスレッドに提供する段階と、
第３のスレッドに対し、前記第１のスレッドによって取得された前記リアルシーンイメージと、前記第２のスレッドによって生成された前記仮想イメージとを結合して、レンダリングするよう命令し、且つ、前記第１のスレッドに対し、次のイメージの前記リアルシーンイメージ取得動作を実行するように命令する段階と、
によって、前記仮想イメージの前記位置は、前記リアルシーンイメージの前記位置と共に変更する、請求項１８に記載の方法。
イメージ内のターゲットオブジェクトに自動的にアノテーションするための装置であって、
複数のイメージを含むイメージ訓練サンプルを取得するよう構成された訓練サンプル取得ユニットであって、各イメージは同一ターゲットオブジェクトを撮影することで取得され、同一の環境の特徴点が隣接するイメージ間に存在する、訓練サンプル取得ユニットと、
前記イメージのうちの１つを基準イメージとして用いる、３次元基準座標系を判定する、および前記３次元基準座標系に基づく３次元空間モデルを作成する、よう構成された３次元空間モデル作成ユニットと、
前記３次元空間モデルが、前記基準イメージ内の前記ターゲットオブジェクトの位置に移動されるとき、前記３次元基準座標系における前記ターゲットオブジェクトの位置情報を判定するよう構成された位置情報判定ユニットと、
前記３次元基準座標系における前記ターゲットオブジェクトの前記位置情報と、各イメージ内の前記環境の特徴点により判定された対応するカメラ姿勢情報とに従い、前記３次元空間モデルを、各イメージのイメージ平面に個別にマッピングするよう構成されたマッピングユニットと、を備える、装置。
ターゲットオブジェクト認識モデルを確立するための装置であって、
複数のイメージを含むイメージ訓練サンプルを取得するよう構成されたイメージ訓練サンプル取得ユニットであって、各イメージは同一のターゲットオブジェクトを撮影することで取得され、同一の環境の特徴点が隣接するイメージ間に存在し、各イメージはさらに前記ターゲットオブジェクトの位置のアノテーション情報を含み、前記アノテーション情報は、前記イメージのうちの１つを基準イメージとして用いることと、３次元基準座標系に基づく３次元空間モデルを作成することと、前記３次元空間モデルの移動先の位置に従い、前記３次元基準座標系における前記ターゲットオブジェクトの位置情報を判定することと、各イメージ内の前記環境の特徴点に従い判定された対応するカメラ姿勢情報に従い、前記３次元空間モデルを各イメージのイメージ平面に個別にマッピングすることとによって取得される、イメージ訓練サンプル取得ユニットと、
前記イメージ訓練サンプル内の前記ターゲットオブジェクトの前記位置の前記アノテーション情報に従い、前記ターゲットオブジェクトの認識モデルを生成するよう構成された認識モデル生成ユニットと、を備える、装置。
拡張現実（ＡＲ）情報を提供するための装置であって、
リアルシーンイメージを取得し、且つ、事前確立されたターゲットオブジェクト認識モデルを用いて、前記リアルシーンイメージからのターゲットオブジェクトの位置情報を認識するよう構成されたリアルシーンイメージ取得ユニットであって、前記ターゲットオブジェクト認識モデルは、請求項１５に記載の方法を用いて確立される、リアルシーンイメージ取得ユニットと、
前記リアルシーンイメージ内の前記ターゲットオブジェクトの前記位置情報に従い、関連付けられた仮想イメージの表示位置を判定し、且つ、前記仮想イメージを表示する、よう構成された仮想イメージ表示ユニットと、を備える、装置。
１または複数のプロセッサと、
前記１または複数のプロセッサに関連付けられたメモリと、を備え、前記メモリは、プログラム命令を格納するよう構成されており、前記プログラム命令が前記１または複数のプロセッサによって読み取られおよび実行されると、前記プログラム命令は、
複数のイメージを含むイメージ訓練サンプルを取得する手順であって、各イメージは同一のターゲットオブジェクトを撮影することで取得され、同一の環境の特徴点が隣接するイメージ間に存在する、手順と、
前記イメージのうちの１つを基準イメージとして用い、３次元基準座標系を判定し、且つ、前記３次元基準座標系に基づく３次元空間モデルを作成する手順と、
前記３次元空間モデルが、前記基準イメージ内の前記ターゲットオブジェクトの位置に移動されるとき、前記３次元基準座標系における前記ターゲットオブジェクトの位置情報を判定する手順と、
前記３次元基準座標系における前記ターゲットオブジェクトの前記位置情報と、各イメージの前記環境の特徴点に従い判定された対応するカメラ姿勢情報と、に従い、前記３次元空間モデルを、各イメージのイメージ平面に個別にマッピングする手順と、を実行させる、コンピュータシステム。