JP2021531524A

JP2021531524A - ３次元仮想空間モデルを利用したユーザポーズ推定方法および装置

Info

Publication number: JP2021531524A
Application number: JP2020548924A
Authority: JP
Inventors: ナジュト; ガヒョンイム; チャンフンヒョン; ドンウキム; ブンチョルチャン; ヒョンエーチェ
Original assignee: Korea University Research and Business Foundation
Current assignee: Korea University Research and Business Foundation
Priority date: 2019-06-14
Filing date: 2020-04-07
Publication date: 2021-11-18
Anticipated expiration: 2040-04-07
Also published as: KR20200143228A; KR102387797B1; JP7138361B2

Abstract

３次元仮想空間モデルを利用したユーザポーズ推定方法および装置を提供する。３次元空間に対するユーザの位置（ｐｏｓｉｔｉｏｎ）および方向（ｏｒｉｅｎｔａｔｉｏｎ）情報を含むユーザポーズを推定する方法は、前記３次元空間で取得された映像を含むユーザ情報を受信する段階、前記３次元空間に対する深さ情報および映像情報を含む空間情報に基づいて構築された３次元仮想空間モデルを確認する段階、前記３次元仮想空間モデル内で前記ユーザ情報に対応する対応情報を生成する段階、前記対応情報と前記ユーザ情報との類似度を算出する段階、および前記類似度に基づいてユーザポーズを推定する段階を含む。【選択図】図７

Description

技術分野は、空間地図の生成および活用に関し、より詳細には、３次元仮想空間モデルを利用して現実空間内のユーザポーズを推定する方法および装置に関する。

空間地図を活用してユーザポーズ（ｐｏｓｅ）を推定する方法は、地形値（ｇｅｏｍｅｔｒｙ）を利用する方式、映像値を利用する方式、地形値と映像値との混合を利用する方式がある。
このとき、ＬｉＤＡＲ（ライダー）あるいはこれと類似の動作原理をもつ深さ測定装置を活用して点群情報を取得したり、カメラあるいはこれと類似の動作原理をもつ映像測定装置を活用して映像情報を取得したり、Ｋｉｎｅｃｔ（キネクト）あるいはこれと類似の動作原理をもつ深さ−映像測定装置を活用して色−点群情報を取得したり、またはこれらの組み合わせを利用して、現実空間を表現する空間地図を構成することができる。

現実空間に対する映像情報、深さ情報、および深さ−映像連携情報は、「空間情報」と称される。
ユーザポーズは、ユーザデバイスが現実空間で取得したユーザ情報を空間地図と比べることによって推定される。

ここで、「ユーザ情報」とは、ユーザデバイスが現実空間で取得した映像を含む情報である。また、「ポーズ」とは、位置（ｐｏｓｉｔｉｏｎ）と方向（ｏｒｉｅｎｔａｔｉｏｎ）の両方を含む概念である。したがって、「ユーザポーズ」とは、現実空間に対して映像情報を取得した位置情報と、映像情報を取得した方向情報を含む情報であると言える。
ただ、従来技術における空間地図を利用したユーザポーズの推定は、次のような問題を抱えている。

第一に、空間地図は、空間情報を取得するポーズに敏感なことがある。したがって、空間地図が空間情報を取得するポーズに敏感な場合、ユーザポーズ推定の精密度は低下するようになる。例えば、理論的に可能なすべてのポーズで空間情報を取得して空間地図を構成する場合は、精密度の高いユーザポーズが推定可能となる。

ところが、現実空間に対してすべてのポーズで空間情報を取得することは事実上不可能である。空間地図を構成するために現実空間から均等な分布で多数のポーズの空間情報を取得した場合、空間情報を取得するポーズの分布によってユーザポーズ推定の敏感度は低下する。しかし、このような場合には、空間情報の取得時間、空間情報の容量、および処理時間などのようなシステム負荷問題が発生する恐れがある。

一方、システムの負荷問題を考慮しながら少数のポーズで空間情報を取得する場合には、空間地図が現実空間を十分に表現することができない。さらに、空間地図を取得する経路が変われば空間地図の信頼性が低下し、現実空間を強靭に表現することができなくなる。現実空間が強靭に表現されていない空間地図は、ユーザポーズ推定の精密度の低下に繋がる。
第二に、不連続的な空間地図は、ユーザポーズ推定の精密度を低下させることがある。図１は、点群情報で構成された不連続的な空間地図の例を示した図である。

図１に示すように、点群情報を活用して空間地図を構成する場合、空間情報の取得範囲や経路に応じて点群情報を稠密に取得できないことがある。点群情報を稠密に取得できない場合には連続性のない空間地図が生成されるようになり、これはユーザポーズ推定の精密度を低下させることに繋がる。
第三に、空間地図を構成するための空間情報が取得された時点とユーザ情報を取得する時点との差により、ユーザポーズ推定の精密度が下がることがある。

図２および図３は、時間の流れによる空間の変化を示した例示図である。
図２は、光または照明が時間の変化によって変化する例を示している。
より具体的に、図２の（ａ）、（ｂ）、および（ｃ）は、同じ空間において、照明や外部から流入する光の量が時間の流れによって変化する例を示している。
また、図３の（ａ）および（ｂ）は、同じ空間において、時間の流れによって物体が変化した例を示している。

図３の（ａ）ではテーブル２１０の上に何も置かれていないが、図３の（ｂ）ではテーブル２２０上に物体が置かれていることを示している。
例えば、図２に示した空間に対し、空間地図を構成するための空間情報は（ａ）から取得され、ユーザ情報は（ｃ）から取得されることがある。また、図３に示した空間に対し、空間地図を構成するための空間情報は（ａ）から取得され、ユーザ情報は（ｂ）から取得されることがある。

このように、同じ空間であっても、空間情報が取得された時点とユーザ情報を取得する時点（ｔｉｍｅ）との差により映像情報が一致しないことがある。したがって、同じ空間であっても、空間情報が取得された時点とユーザ情報を取得する時点との差により、ユーザポーズ推定の精密度は低下するようになる。
現実空間は、時間の流れにより、光または照明の変化、人物などの動的な動きの変化、物体またはインテリアなどの変化が発生する。このような変化が更新されていない空間地図を使用する場合にはユーザ情報との類似性が低下するようになり、これはユーザポーズ推定の精密度を低下させることに繋がる。
したがって、空間地図に基づいてユーザポーズを推定するときに発生する従来の問題を解決する方法が必要となっている。

本発明は、上述した問題点を解決するために、現実空間で取得された空間情報に基づいて構成された３次元仮想空間モデルとユーザが取得したユーザ情報とを活用してユーザポーズを推定する方法及び装置を提供する。

一実施形態に係る３次元空間に対するユーザポーズ推定方法は、深さ測定装置および映像取得装置を利用して３次元空間に対する深さ情報および映像情報を含む空間情報を取得する段階、前記空間情報に基づいて深さ−映像連携情報を構成し、前記深さ−映像連携情報に基づいて前記３次元空間に対応する３次元仮想空間モデルを構築する段階、前記３次元空間でユーザデバイスによって取得された映像を含むユーザ情報を受信する段階、前記３次元仮想空間モデル内で前記ユーザ情報に対応する対応情報を生成する段階、前記対応情報と前記ユーザ情報との類似度を算出する段階、および前記類似度に基づいてユーザポーズを推定する段階を含む。

前記３次元仮想空間モデルを構築する段階は、前記３次元空間に対する映像情報で前記３次元空間の構造と関連する背景領域と前記３次元空間に置かれた物体に該当する非背景領域とを区分し、前記背景領域を利用して前記３次元仮想空間モデルを構築することを含んでよい。

前記対応情報を生成する段階は、前記ユーザ情報に含まれた映像で前記３次元空間の構造と関連する背景領域と前記３次元空間に置かれた物体に該当する非背景領域とを区分する段階、前記ユーザ情報に含まれた映像の背景領域を利用して前記ユーザ情報を加工する段階、および前記３次元仮想空間モデル内で加工されたユーザ情報に対応する対応情報を生成する段階を含んでよい。

前記類似度を算出する段階は、前記類似度を高める方向に前記対応情報を再生成する段階、および再生成された対応情報に基づいて類似度を再算出する段階を含んでよい。

前記類似度を算出する段階は、前記ユーザ情報と前記対応情報とを比較するための比較対象領域を抽出する段階、前記ユーザ情報から抽出された比較対象領域と前記対応情報から抽出された比較対象領域で共通領域を決定する段階、前記共通領域に基づいて前記ユーザ情報および前記対応情報をそれぞれ再生成する段階を含んでよい。

前記類似度を算出する段階は、前記ユーザデバイス周辺に対する追加のユーザ情報を取得する段階、および前記ユーザ情報および追加のユーザ情報に基づいて類似度を算出する段階を含んでよい。

前記ユーザポーズを推定する段階は、前記ユーザデバイスによって前記ユーザポーズの推定に利用される付加的な情報であるユーザ付加情報が取得される場合、前記ユーザ情報または前記追加のユーザ情報とともに、前記ユーザ付加情報を利用して前記ユーザポーズを推定することを含んでよい。

前記追加のユーザ情報を取得する段階は、前記３次元仮想空間モデルに基づいて追加のユーザ情報を取得するための案内情報を前記ユーザデバイスに送信することを含んでよい。

前記案内情報は、前記３次元仮想空間モデル内の予め設定された特徴点に対するユーザ情報取得ポーズを含み、前記追加のユーザ情報を取得する段階は、前記類似度を高める方向に繰り返し実行されてよい。
他の実施形態に係る３次元空間に対するユーザの位置（ｐｏｓｉｔｉｏｎ）および方向（ｏｒｉｅｎｔａｔｉｏｎ）情報を含むユーザポーズを推定する方法は、前記３次元空間で取得された映像を含むユーザ情報を受信する段階、前記３次元空間に対する深さ情報および映像情報を含む空間情報に基づいて構築された３次元仮想空間モデルを確認する段階、前記３次元仮想空間モデル内で前記ユーザ情報に対応する対応情報を生成する段階、前記対応情報と前記ユーザ情報との類似度を算出する段階、および前記類似度に基づいてユーザポーズを推定する段階を含む。

一実施形態に係る３次元空間に対するユーザポーズ推定装置は、３次元空間に対する深さ情報および映像情報を含む空間情報を取得する空間情報取得部、前記空間情報に基づいて深さ−映像連携情報を構成し、前記深さ−映像連携情報に基づいて前記３次元空間に対応する３次元仮想空間モデルを生成する仮想空間モデル生成部、前記３次元空間でユーザデバイスによって取得された映像を含むユーザ情報を受信するユーザ情報受信部、および前記３次元仮想空間モデル内で前記ユーザ情報に対応する対応情報を生成し、前記対応情報と前記ユーザ情報との類似度を算出し、前記類似度に基づいて前記ユーザポーズを推定するように構成された少なくとも１つのプロセッサを含む制御部を備える。

前記空間モデル生成部は、前記３次元空間に対する映像情報で前記３次元空間の構造と関連する背景領域と前記３次元空間に置かれた物体に該当する非背景領域とを区分し、前記背景領域を利用して前記３次元仮想空間モデルを構築してよい。

前記制御部は、前記ユーザ情報に含まれた映像で前記３次元空間の構造と関連する背景領域と前記３次元空間に置かれた物体に該当する非背景領域とを区分し、前記ユーザ情報に含まれた映像の背景領域を利用して前記ユーザ情報を加工し、前記３次元仮想空間モデル内で加工されたユーザ情報に対応する対応情報を生成してよい。

他の実施形態に係る３次元空間に対するユーザの位置（ｐｏｓｉｔｉｏｎ）および方向（ｏｒｉｅｎｔａｔｉｏｎ）情報を含むユーザポーズを推定する装置は、前記３次元空間に対する深さ情報および映像情報を含む空間情報に基づいて構築された３次元仮想空間モデルを提供する仮想空間モデル提供部、前記３次元空間でユーザデバイスによって取得された映像を含むユーザ情報を受信するユーザ情報受信部、前記３次元仮想空間モデル内で前記ユーザ情報に対応する対応情報を生成し、前記対応情報と前記ユーザ情報との類似度を算出し、前記類似度に基づいて前記ユーザポーズを推定するように構成された少なくとも１つのプロセッサを含む制御部を備える。

また他の実施形態に係る３次元空間に対するユーザポーズ推定装置は、３次元空間に対する映像を含むユーザ情報を生成するユーザ情報生成部、前記ユーザ情報をユーザポーズ推定サーバに送信し、３次元仮想空間モデルで推定されたユーザポーズに関する情報を前記サーバから受信する通信部、前記ユーザ情報生成部および通信部の動作を制御し、前記ユーザポーズに関する情報を現在実行中のアプリケーションまたは駆動システムに伝達するように構成された少なくとも１つのプロセッサを含む制御部を備える。

本発明の実施形態は、空間地図として３次元仮想空間モデルを使用することにより、空間情報の取得経路に強靭な３次元仮想空間モデルを構築することができ、空間情報取得ポーズによるユーザポーズ推定精密度の敏感度を減らすことができる。

また、本発明の実施形態に係る３次元仮想空間モデルは、現実空間と類似に構成可能である上に、空間情報の取得時間、空間情報の容量、データの処理時間などを減らすことができる。
また、時間の流れるによる現実空間の変化にも強靭なユーザポーズ推定方法を提供することができる。
また、本発明の実施形態は、複合現実（ＭｉｘｅｄＲｅａｌｉｔｙ）でユーザポーズを推定するときに活用することができる。
さらに、精密なユーザポーズ推定によって現実空間と仮想空間との違和感を軽減することができ、複合現実におけるユーザの没入度を高めることができる。したがって、本発明の実施形態は、複合現実の関連技術の商用化および発展に寄与することができる。

点群情報を活用して構成された不連続的な空間地図の例を示した図である。時間の流れるによる空間の変化を示した例示図である。時間に流れるによる空間の変化を示した他の例示図である。本発明の一実施形態における、３次元仮想空間モデルの例を示した図である。一実施形態における、３次元仮想空間モデルを生成する例を説明するための図である。一実施形態における、３次元仮想空間モデルを利用したユーザポーズ推定システムを説明するための図である。一実施形態における、３次元空間に対するユーザポーズ推定装置の構成を説明するための図である。一実施形態における、ユーザデバイスの構成を説明するための図である。一実施形態における、ポーズの概念を説明するための例示図である。一実施形態における、３次元空間に対するユーザポーズ推定方法を説明するためのフローチャートである。他の実施形態における、３次元空間に対するユーザポーズ推定方法を説明するためのフローチャートである。一実施形態における、追加でユーザポーズを取得する方法の例を説明するための図である。

以下、添付の図面および添付の図面に記載された内容を参照しながら本発明の実施形態について詳細に説明するが、本発明が実施形態によって制限あるいは限定されることはない。

本明細書で使用される用語は、実施形態を説明するためのものに過ぎず、本発明を制限するためのものではない。本明細書に記載する単数形は、文面で特に明記されない限り複数形も含む。明細書で使用される「含む（ｃｏｍｐｒｉｓｅｓ）」および／または「含む（ｃｏｍｐｒｉｓｉｎｇ）」は、記載された構成要素、段階、動作、および／または素子において、１つ以上の他の構成要素、段階、動作、および／または素子の存在または追加を排除しない。

本明細書で使用される「実施例」、「例」、「側面」、「例示」などは、記載された任意の態様（ａｓｐｅｃｔ）または設計が、他の態様または設計よりも好ましいまたは有利であると解釈されてはならない。
また、「または」という用語は、排他的論理合「ｅｘｃｌｕｓｉｖｅｏｒ」というよりは包含的論理合「ｉｎｃｌｕｓｉｖｅｏｒ」を意味する。つまり、別途記載されない限りまたは文脈から明らかでない限り、「ｘがａまたはｂを利用する」という表現は、自然な包含的順列（ｎａｔｕｒａｌｉｎｃｌｕｓｉｖｅｐｅｒｍｕｔａｔｉｏｎｓ）のうちのいずれか１つを意味する。

また、本明細書および特許請求の範囲で使用される第１や第２などの用語は、多様な構成要素を説明するために使用されるものであるが、前記構成要素が前記用語によって限定されてはならない。前記用語は、１つの構成要素を他の構成要素と区別する目的としてのみ使用される。

別途の定義なければ、本明細書で使用されるすべての用語（技術および科学的用語を含む）は、本発明が属する技術分野において通常の知識を有する者が共通して理解することのできる意味として使用されるであろう。また、一般的に使用される事前に定義されている用語は、明らかに特に定義されていない限り、理想的または過度に解釈されてはならない。

なお、本発明を説明するにあたり、関連する公知機能または構成についての具体的な説明が本発明の要旨を不必要に不明瞭にし得ると判断される場合には、その詳細な説明は省略する。さらに、本明細書で使用される用語（ｔｅｒｍｉｎｏｌｏｇｙ）は、本発明の実施形態を適切に表現するための用語であり、これは、ユーザ、運用者の意図、または本発明が属する分野の慣例などによって異なることもある。したがって、本明細書で使用される用語は、本明細書の全般にわたる内容に基づいて定義されなければならない。

図４は、本発明の一実施形態における、３次元仮想空間モデルの例を示した図である。
図５は、一実施形態における、３次元仮想空間モデルを生成する例を説明するための図である。
図４を参照すると、通常の３次元仮想空間モデルは、ｏｂｊ、ｘ３ｄなどのような深さ−映像連携情報を利用して構成された現実空間に対するモデルを指す。例えば、３次元仮想空間モデルは、韓国登録特許第１０−１８３５４３４号公報（発明の名称：投映イメージ生成方法およびその装置、イメージピクセルと深さ値とのマッピング方法）により、ｏｂｊ、ｘ３ｄなどが生成されたモデルまたは「ＴｅｅＶＲモデル」を含んでもよい。

このとき、一実施形態に係る３次元仮想空間モデルは、図５に示すように、３次元仮想空間モデルを構成するために背景領域と非背景領域とを区分し、背景領域だけで構成されてよい。
図５において、（ａ）は空間情報に含まれた映像情報であり、（ｂ）は非背景領域を除いた映像を、（ｃ）は背景領域を確張して映像情報を生成した例を示している。
例えば、背景領域とは、３次元空間を形成する建築物自体の構造を意味するか、またはドアや窓のように建築物に付随した構造物であってよい。したがって、映像情報において、背景領域は、３次元空間の構造と関連する領域であると定義されてよい。

図５の（ａ）において、室内空間に位置する多様な物体（机、本棚、椅子など）に対応する領域は、非背景領域に該当する。図５の（ｂ）は、室内空間に位置する多様な物体（白色で表示された領域）が取り除かれた非背景領域を示している。
３次元仮想空間モデルは、室内空間と室外空間の両方を含む概念であって、独立的な室内空間、独立的な室外空間、または室内と室外とが連結した空間であってもよい。３次元仮想空間モデルにｏｂｊ、ｘ３ｄなどのようなモデル（人物、事物など）を追加してもよく、３次元仮想空間モデルは、モデルが追加された３次元仮想空間モデルを含む概念であってもよい。一方、空間地図は、３次元の代わりとして、次元を低めて２次元仮想空間モデルの使用も可能である。

３次元空間モデルは、事前に構築されたｏｂｊ、ｘ３ｄのようなモデルを利用してもよいし、空間情報を新たに取得して構築してもよいし、事前に構築されたモデルを更新して利用してもよい。３次元空間モデルは、現実空間と類似するものと判断されてよい。

図６は、一実施形態における、３次元仮想空間モデルを利用したユーザポーズ推定システムを説明するための図である。
図６を参照すると、３次元仮想空間モデルを利用したユーザポーズ推定システムは、ユーザデバイス６１０およびユーザポーズ推定装置６２０を備える。一実施形態に係るユーザポーズ推定装置６２０は、サーバ（図示せず）に備えられてもよいし、ユーザデバイス６１０に備えられてもよい。

ユーザデバイス６１０は、現実空間６０１でユーザ情報６１１を取得し、ユーザデバイス６１０にユーザ情報６１１を送信してよい。
ユーザポーズ推定装置６２０は、装置内部または外部のストレージシステム６０２に記録された３次元仮想空間モデル６３０およびユーザ情報６１１を利用してユーザポーズを推定してよい。

ユーザポーズ推定装置６２０は、３次元仮想空間モデル６３０でユーザポーズに該当する確率が高い対応情報６２１をユーザ情報６１１と比較することで、正確なユーザポーズを推定することが可能となる。

図７は、一実施形態における、３次元空間に対するユーザポーズ推定装置の構成を説明するための図である。
図７を参照すると、一実施形態に係る３次元空間に対するユーザポーズ推定装置６２０は、仮想空間モデル提供部７３０、制御部７４０、およびユーザ情報受信部７５０を備える。また、ユーザポーズ推定装置６２０は、空間情報取得部７１０および仮想空間モデル生成部７２０をさらに備えてよい。さらに、ユーザポーズ推定装置６２０は、ユーザ情報要請部７６０をさらに備えてよい。
空間情報取得部７１０は、３次元空間に関する深さ情報および映像情報を含む空間情報を取得する。例えば、空間情報は、深さ測定装置および映像測定装置を利用して取得されてよい。

３次元仮想空間モデルを構成するための空間情報を取得する深さ測定装置または映像測定装置などで構成された測定装置の視野角（ＦｏＶ：ＦｉｅｌｄｏｆＶｉｅｗ）が現実空間を確保することのできる経路で空間情報を取得すれば、３次元仮想空間モデルは現実空間と類似するように構成されるようになる上に、空間情報の取得時間、空間情報の容量、データの処理時間などを減らすことができて効率的である。

映像情報は、３次元空間に対する２次元イメージとして、２自由度の基底ベクトル（ｂａｓｉｓｖｅｃｔｏｒ）で表現可能な形態であってよく、カメラのように３次元を２次元で表現する形態、またはカメラに赤外線フィルタを装着して３次元列情報を２次元で表現した形態であってよい。

深さ情報は、３自由度の基底ベクトルで表現可能な点形態であり、深さ測定装置を利用して取得されてもよく、互いに異なる場所で撮影された２つ以上のイメージを活用して推定されてもよい。前者の例としては、ＬｉＤＡＲ（ライダー）、ＳＯＮＡＲ（ソナー）、赤外線（ＩｎｆｒａＲｅｄ）、ＴＯＦ（ＴｉｍｅＯｆＦｌｉｇｈｔ）距離探知機を利用して取得された深さ情報があり、後者の例としては、ステレオカメラ、マルチカメラ、全方向ステレオカメラなどを利用して取得された深さ情報がある。一方、Ｋｉｎｅｃｔ、ＪＵＭＰ、ＰｒｉｍｅＳｅｎｓｅ、ＰｒｏｊｅｃｔＢｅｙｏｎｄなどのデバイスを利用すれば、深さ情報および映像情報を同時に取得することも可能である。

例えば、本発明の一実施形態では、深さ測定装置を利用して取得した深さ情報だけでなく、内挿法（ｉｎｔｅｒｐｏｌａｔｉｏｎ）によって深さ情報を新たに推定して使用してもよい。より具体的には、取得した複数の深さ情報のうちから３つ以上の深さ情報を選別して多角形（三角形を含む）メッシュ（Ｍｅｓｈ）を構成した後、多角形メッシュの内部に内挿法によって新たな深さ情報を推定して追加するのである。

一方、本発明の一実施形態に係る取得深さ情報および映像情報は、統合センサシステムを利用して同時に取得されてもよい。複数の測定装置を使用する場合、センサ間の座標関係を求めるキャリブレーション過程が必要となることがある。

空間情報を取得する過程で慣性測定装置（ＩＭＵ）などを追加で使用してもよく、タイヤ型移動ロボットにセンサを装着して測定する場合には距離情報（ｏｄｏｍｅｔｒｙ）を活用してもよい。現実空間が測定装置の視野角よりも広い場合、センサの回転、移動、またはこれを組み合わせて空間情報を取得してよい。このとき、個別空間情報が取得された３次元ポーズ（ｐｏｓｅ）がそれぞれ異なる場合があり、個別空間情報が取得されたポーズを予測するために、スラム（ＳＬＡＭ：ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎＡｎｄＭａｐｐｉｎｇ）、視覚慣性オドメトリ（ＶＩＯ：ＶｉｓｕａｌＩｎｅｒｔｉａｌＯｄｏｍｅｔｒｙ）、視覚オドメトリ（ＶＯ：ＶｉｓｕａｌＯｄｏｍｅｔｒｙ）などの手法が活用されてよい。

一方、空間情報の構成は、測定装置の種類に応じて異なってよい。一例として、測定装置が単一カメラだけで構成された場合、事前測定情報はカメラ映像情報で構成され、該当の映像情報を活用して単一カメラである場合にはピクセル間の相対的距離を、複数のカメラの場合にはピクセル間の絶対距離の予測が可能である。特に、特徴点を抽出せずに単一カメラの場合は、累積した映像情報を活用してピクセルの深さを予測することができ、複数のカメラの場合は、複数のカメラ映像やこの累積した映像情報を活用してピクセルの深さを予測することもできる。

さらに、追加の深さ情報、慣性情報などの情報がともに活用された場合、各測定装置の固有の特性に合うように空間情報処理が可能となる。一例として、慣性測定装置によって慣性情報が取得可能な場合は、これを活用してスラムの性能を向上させたり、映像情報処理時の映像取得ポーズに対する推定（ｐｒｅｄｉｃｔｉｏｎ）情報として使用して映像取得ポーズに対する補正（ｃｏｒｒｅｃｔｉｏｎ）がより容易に行われるようにできる。また、慣性情報の加速度値あるいは角速度値を活用して実際の移動距離を予想することもでき、これを単一カメラあるいは複数のカメラから抽出された深さ情報の大きさ（ｓｃａｌｅ）を補正するのに活用することもできる。

仮想空間モデル生成部７２０は、空間情報に基づいて深さ−映像連携情報を構成し、前記深さ−映像連携情報に基づいて前記３次元空間に対応する３次元仮想空間モデルを生成する。

例えば、室内空間の３次元仮想空間モデルを生成する場合、空間情報取得部７１０は、室内空間に対する空間情報である室内空間イメージを取得してよい。このとき、室内空間イメージは、室内空間内部の多様な位置で撮影されたイメージであってよい。

このとき、仮想空間モデル生成部７２０は、室内空間の構造に対応する領域である背景領域と、室内空間に位置する物体または移動中の人物に対応する領域である非背景領域とを区分してよい。
仮想空間モデル生成部７２０は、室内空間イメージを構成するイメージのピクセル値に基づいて背景領域と非背景領域とを区分してよい。

背景領域とは、他の要素によって一部が隠れているため完全なデータではないが、隠れていない部分と類似性があるものと推論され、隠れていない部分をホールフィリング（ｈｏｌｅｆｉｌｌｉｎｇ）やインペイティング（ｉｎｐａｉｎｔｉｎｇ）手法によって再構成することのできる部分に該当してよい。さらに、背景領域とは、建物内部の大きな看板や案内デスクなどのような他の物体を隠すことがあるが、該当の物体のエッジ部分で映像と地形との整合度がすべてのデータ内で一致するか、別の整合過程によって一致させることのできる部分であってよい。

仮想空間モデル生成部７２０は、室内空間イメージで背景領域を非背景領域に確張して少なくとも１つの拡張室内空間イメージを生成してよい。例えば、図５の（ｂ）において、非背景領域が取り除かれた白色で表現された部分を背景領域として確張してよい。

仮想空間モデル生成部７２０は、背景領域に含まれたエッジが非背景領域との境界線で断絶した場合にエッジの延長線が背景領域と非背景領域との境界線を越えて非背景領域に繋がるという推論に基づき、拡張されたイメージを生成してよい。

このとき、特定の室内空間イメージの他に１つ以上の室内空間イメージを背景の補完イメージとして指定し、特定の室内空間イメージの非背景領域に該当する領域を、背景の補完イメージの情報を利用して減らしてよい。

仮想空間モデル生成部７２０は、少なくとも１つの拡張された室内空間イメージと室内空間に関する深さ値の情報を含む地形情報に基づいて深さ−映像連携情報を生成してよい。深さ−映像連携情報は、少なくとも１つの拡張された室内空間イメージのピクセルに対応する室内空間の深さ値がマッチングされた情報であってよい。

仮想空間モデル生成部７２０は、少なくとも１つの拡張された室内空間イメージと地形情報の他にも、少なくとも１つの拡張された室内空間イメージと地形情報それぞれの取得位置、および取得角度に関する情報を含むイメージ取得ポーズと深さ取得ポーズをさらに利用して深さ−イメージ連携情報を生成してよい。

仮想空間モデル生成部７２０は、少なくとも１つの拡張された室内空間イメージ、地形情報、および深さ−映像連携情報を利用して現実の３次元空間に対する３次元仮想空間モデルを生成する。
仮想空間モデル提供部７３０は、ユーザポーズの推定が必要な場合、３次元空間に関する深さ情報および映像情報を含む空間情報に基づいて構築された３次元仮想空間モデルを提供する。

このとき、ユーザポーズ推定は、ユーザデバイス６１０またはユーザポーズ推定装置６２０にインストールされたアプリケーションの実行後に行われてよい。仮想空間モデル提供部７３０は、ユーザデバイス６１０またはユーザポーズ推定装置６２０で実行中のアプリケーションまたは該当の装置の駆動システムに３次元仮想空間モデルを提供してよい。

制御部７４０は、少なくとも１つのプロセッサを含んでよい。このとき、制御部７４０は、命令語（ｉｎｓｔｒｕｃｔｉｏｎｓ）またはプログラムが記録された少なくとも１つのコンピュータ読み取り可能なストレージ（ｏｎｅｏｒｍｏｒｅｃｏｍｐｕｔｅｒ−ｒｅａｄａｂｌｅｓｔｏｒａｇｅｍｅｄｉａ）と連結してよい。

したがって、制御部７４０は、３次元仮想空間モデル内でユーザ情報に対応する対応情報を生成し、対応情報とユーザ情報との類似度を算出し、類似度に基づいてユーザポーズを推定するように構成された少なくとも１つのプロセッサを含む。

一実施形態に係るユーザポーズ推定は、ディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）またはニューラルネットワークを活用して３次元仮想空間モデルを学習することによって実行されてよい。

学習問題の形態に応じて強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）、教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）に分けられてよい。学習段階では膨大な量の訓練データ（ｔｒａｉｎｉｎｇｔｅｓｔ）が必要となることがあり、訓練データは、映像情報が含まれたデータとそのデータが取得されたポーズが含まれたデータなどで構成されてよく、学習データの量を増加させるために前記２つの種類のデータにノイズ（ｎｏｉｓｅ）を追加して変形させて使用してもよい。畳み込みニューラルネットワーク（ＣＮＮ）または多様なニューラルネットワークの全体または一部を使用してもよい。ディープラーニングの性能または速度向上のために、１つ以上のＧＰＵを使用してもよく、並列演算を実行してもよい。ディープラーニングの結果はスカラー、ベクトル、確率などで表現されてよく、この結果を利用することにより、ユーザ情報が取得されたポーズとして予想されるユーザポーズを推定してよい。入力によってユーザ情報の映像情報を使用してよく、ユーザ付加情報をともに使用してよい。ユーザ付加情報をともに使用する場合、ニューラルネットワークにレイヤ（ｌａｙｅｒ）を追加したり、関数を変化させたり、パラメータ数を調節したり、その値を変更したりしてよい。ニューラルネットワークを構成するために、パイソン、Ｃ言語、ＭＡＴＬＡＢ（マトラボ）などや、これらの組み合わせからなるコンピュータ言語を使用してもよい。

ユーザ情報が順に取得される場合、３次元仮想空間モデルを基盤として粒子フィルタ（ＰａｒｔｉｃｌｅＦｉｌｔｅｒ）、ＥＫＦ．ＥＩＦ、ＵＫＦなどの手法を活用してユーザポーズを推定してよい。ユーザ付加情報として慣性情報または距離情報が取得される場合、推定されたユーザポーズを補正してよい。順に取得されたユーザ情報によって粒子フィルタの値が特定のポーズとして収斂されてよく、このとき収斂された地点をユーザポーズとして推定してよい。ユーザポーズの推定時に加重値（Ｗｅｉｇｈｔ）を付加してよく、多数の収斂ポーズのうちからユーザポーズを決定してもよい。

ディープラーニングによって推定したポーズと粒子フィルタなどで推定されたポーズとを融合してユーザポーズを推定してよい。例えば、ディープラーニングで推定したポーズの周りで粒子フィルタを実行してユーザポーズを推定してよく、反対の方法として、粒子フィルタによって収斂されたポーズの周りでディープラーニングを利用してユーザポーズを推定してよい。ユーザポーズの推定時に加重値（Ｗｅｉｇｈｔ）を付加してよく、多数の収斂ポーズのうちからユーザポーズを決定してもよい。

類似度とは、３次元仮想空間モデルで生成した対応情報とユーザ情報との類似の程度を意味し、類似度が高いほど前記対応情報と前記ユーザ情報が類似すると見なしてよく、類似度が高い対応情報が生成された３次元仮想空間モデルのポーズをユーザ情報が取得されたユーザポーズとして推定してよい。類似度は、スカラー（ｓｃａｌａｒ）、ベクトル（ｖｅｃｔｏｒ）、共分散行列（ｃｏｖａｒｉａｎｃｅｍａｔｒｉｘ）などで表現されてよく、ユークリッド距離（ｅｕｃｌｉｄｅａｎｄｉｓｔａｎｃｅ）、マンハッタン距離（ｍａｎｈａｔｔａｎｄｉｓｔａｎｃｅ）、マハラノビス距離（ｍａｈａｌａｎｏｂｉｓｄｉｓｔａｎｃｅ）、構造的類似性（ＳＳＩＭ：ｓｔｒｕｃｔｕｒａｌｓｉｍｉｌａｒｉｔｙ）、正規化情報距離（ＮＩＤ：ｎｏｒｍａｌｉｚｅｄｉｎｆｏｒｍａｔｉｏｎｄｉｓｔａｎｃｅ）、最小平均２乗誤差推定（ＭＭＳＥ：ＭｉｎｉｍｕｎＭｅａｎＳｑｕａｒｅＥｒｒｏｒ）、エントロピ（Ｅｎｔｒｏｐｙ）などによって算出されてもよい。

類似度算出およびユーザポーズ推定について、図１０を参照しながらより詳しく説明する。

このとき、３次元仮想空間モデルは、３次元空間に対する映像情報で３次元空間の構造と関連する背景領域と３次元空間に置かれた物体に該当する非背景領域とを区分し、背景領域で構築されたものであってよい。

ユーザ情報受信部７５０は、３次元空間でユーザデバイスによって取得された映像を含むユーザ情報を受信する。
ユーザ情報は、映像情報が含まれた情報であって、１つ以上の映像測定装置を含み、深さ測定装置または付加装置などを利用して取得してよい。測定装置の視野角が狭くて十分なユーザ情報が取得されない場合、測定装置の回転、移動、またはこれを組み合わせてユーザ情報を取得してよい。ユーザ情報は、単一または複数の映像センサ（カメラ）によって取得してよく、ピンホール（ｐｉｎ−ｈｏｌｅ）モデルや魚眼レンズ、またはパノラマ形式で取得されてもよい。単一の映像情報、複数の映像情報、または順列の映像情報が取得されてよい。取得したユーザ情報を利用して映像情報、深さ情報、または深さ−映像連携情報などを構成してよい。

例えば、単一映像測定装置を使用すれば映像情報を取得することができ、順に取得された映像情報を使用すれば深さ情報を計算することができ、これにより深さ−映像連携情報を構成することができる。
例えば、複数の映像測定装置を使用すれば、各映像測定装置で取得された映像情報と映像測定装置との関係を活用して深さ情報を計算することができ、これにより深さ−映像連携情報を構成することができる。映像測定装置との関係は、映像測定装置間のキャリブレーション（Ｃａｌｉｂｒａｔｉｏｎ）情報、または各映像測定装置で取得された映像情報間の変換情報（Ｈｏｍｏｇｒａｐｈｙｍａｔｒｉｘ）であってよい。

例えば、少なくとも１つ以上の映像測定装置と少なくとも１つ以上の深さ測定装置を使用する場合、２つの装置間のキャリブレーション情報を利用して深さ−映像連携情報を構成してよい。ディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）を活用して映像情報から深さ情報を抽出してもよい。ニューラルネットワークが構成されてよく、畳み込みニューラルネットワークが使用されてよい。学習および試験のために多数のデータが必要となることがあり、ニューラルネットワークは、線形関数、非線形関数、多数のレイヤなどで構成されてよく、ディープラーニングの結果は、確率、スカラー、ベクトルなどで表現されてよい。繰り返し学習が実行されてもよく、パラメータチューニングが必要となることもある。ディープラーニングによって抽出された深さ情報を活用して深さ−映像連携情報を構成してよい。映像情報を加工した、加工された映像情報を使用してもよく、例えば、イメージの明暗や彩度などを変化させたり、パノラマイメージを校正イメージ（ＲｅｃｔｉｆｉｅｄＩｍａｇｅ）に変換させたりする作業が実行されてよい。

ユーザ情報要請部７６０は、追加のユーザ情報の取得が必要な場合、ユーザデバイス６１０に案内情報を送信してよい。案内情報については、図１２を参照しながら詳しく説明する。

図８は、一実施形態における、ユーザデバイスの構成を説明するための図である。
図８を参照すると、ユーザデバイス６１０は、ユーザ情報生成部８１０、通信部８２０、および制御部８３０を備える。ユーザデバイス６１０は、ユーザとインタフェースするためのディスプレイ、入力手段、および出力手段を含むユーザインタフェース部８４０をさらに備えてよい。

ユーザ情報生成部８１０は、３次元空間に対する映像を含むユーザ情報を生成する。したがって、ユーザ情報生成部８１０は、映像測定装置および深さ測定装置のうちの少なくとも１つを含んでよい。

通信部８２０は、ユーザ情報をユーザポーズ推定サーバに送信し、３次元仮想空間モデルで推定されたユーザポーズに関する情報を前記サーバから受信する。
このとき、ユーザポーズ推定サーバは、図７に示したユーザポーズ推定装置６２０であってよく、ユーザポーズ推定サービスを提供する別のサーバであってもよい。

制御部８３０は、ユーザ情報生成部８１０および通信部８２０の動作を制御し、ユーザポーズに関する情報を現在実行中のアプリケーションまたは駆動システムに伝達するように構成された少なくとも１つのプロセッサを含む。
図９は、一実施形態における、ポーズの概念を説明するための例示図である。
３次元仮想空間モデルを構築するために使用される空間情報は、現実空間の一部ポーズで取得された不連続情報として考慮されてよい。ここで、ポーズ（ｐｏｓｅ）とは、位置（ｐｏｓｉｔｉｏｎ）と方向（ｏｒｉｅｎｔａｔｉｏｎ）の両方を含む概念である。一例として、２次元において、ポーズは、測定装置の位置であるｘ、ｙと、測定装置の角度ａとで表現されてよい。

図９に示した例は、横と縦が１ｍである正方形の平面で、測定装置がｘ軸、ｙ軸に対して０〜１ｍの範囲で１０ｃｍ間隔に移動し、回転角度は０〜３６０度の範囲で１０度ずつ回転する例を示している。
このとき、可能な全体ポーズの場合の数は、１１×１１×３７、すなわち４，４７７種類となる。同じように、３次元において、ポーズは、センサの位置であるｘ、ｙ、ｚと、測定装置の角度ロール（ｒｏｌｌ）、ピッチ（ｐｉｔｃｈ）、ヨー（ｙａｗ）で表現されてよい。

横、縦、高さが各１ｍである正六面体の空間で、センサがｘ軸、ｙ軸、ｚ軸に対して０〜１ｍの範囲で１０ｃｍ間隔に動き、回転角度は０〜３６０度の範囲でそれぞれ１０度ずつ回転すると仮定するとき、可能な全体ポーズの場合の数は１１×１１×１１×３７×３７×１９、すなわち、約３４００万種類の場合の数が存在することになる。

測定装置の移動間隔と回転角度の間隔を減少させれば不連続情報を連続情報のように見せることはできるが、可能なポーズの数は幾何級数的に増加するはずであり、現実空間の体積は１ｍ^３よりも極めて大きくなるため、可能なすべてのポーズで空間情報を取得することは現実的に不可能である。

このような理由により、空間情報を取得する段階では、現実空間を十分に含むことのできる一部のポーズでデータを取得し、前記取得された空間情報に基づいて深さ−映像連携情報を構成して３次元仮想空間モデルを構築することにより、一部のポーズで取得した空間情報を拡張させることができる。

３次元仮想空間モデルは、一部のポーズで取得された空間情報に基づいて構成されてよいが、空間情報から構成された深さ−映像連携情報を活用するため、３次元仮想空間モデル内のいかなるポーズでも、同一の現実空間内のポーズで取得された空間情報または構成された深さ−映像連携情報と類似する対応情報を生成することができる。

すなわち、空間情報が取得されないポーズであっても、３次元仮想空間モデルを使用すれば、該当のポーズでの深さ−映像連携情報または空間情報と類似の対応情報を生成することができ、前記生成された対応情報は、現実空間の同じポーズで取得した空間情報から構成された深さ−映像連携情報と類似すると考慮されてよい。３次元仮想空間モデルは、不連続情報である空間情報を連続情報である対応情報に変換させることができる。

図１０は、一実施形態における、３次元空間に対するユーザポーズ推定方法を説明するためのフローチャートである。
図１０に示した方法は、図７に示したユーザポーズ推定装置６２０によって実行されてよい。
段階Ｓ１０１０で、装置は、深さ測定装置および映像取得装置を利用して３次元空間に対する深さ情報および映像情報を含む空間情報を取得する。
段階Ｓ１０２０で、装置は、空間情報に基づいて深さ−映像連携情報を構成し、深さ−映像連携情報に基づいて３次元空間に対応する３次元仮想空間モデルを構築する。
段階Ｓ１０３０で、装置は、３次元空間でユーザデバイスによって取得された映像を含むユーザ情報を受信する。このとき、ユーザ情報は、取得された映像に対応する空間の深さ情報をさらに含んでよい。
段階Ｓ１０４０で、装置は、３次元仮想空間モデル内でユーザ情報に対応する対応情報を生成する。

３次元仮想空間モデルを利用すれば、空間情報が取得されないポーズであっても、該当のポーズで取得された空間情報または深さ−映像連携情報と類似する対応情報を生成することができる。

対応情報は、深さ情報、映像情報、または深さ−映像連携情報で表現されてよい。３次元仮想空間モデル内で３自由度の基底ベクトルとして表現されるポーズで対応情報を生成してよい。

例えば、ユーザ情報取得ポーズの高さが変わらないのであれば、３次元仮想空間モデル内で２自由度の基底ベクトルによって表現されるポーズで対応情報を生成してよい。対応情報は、視野角、映像情報変換、深さ情報変換などの過程を経て生成されてもよい。

このとき、対応情報を生成する段階Ｓ１０４０は、ユーザ情報に含まれた映像で前記３次元空間の構造と関連する背景領域と前記３次元空間に置かれた物体に該当する非背景領域とを区分する段階、ユーザ情報に含まれた映像の背景領域を利用して前記ユーザ情報を加工する段階、および３次元仮想空間モデル内で加工されたユーザ情報に対応する対応情報を生成する段階を含んでよい。

ユーザが３次元仮想空間モデルの背景となった現実空間でユーザ情報を取得するときの現実空間は、３次元仮想空間モデルを構成するために空間情報を取得した時点と等しくないことがあり、人物、事物、インテリアなどのような空間の様子が変わることがある。

したがって、ユーザ情報で背景部分と非背景部分とを区分してユーザ情報から非背景部分を取り除いてもよく、背景部分を使用してユーザ情報を変換させてよい。照明や光などによる効果を取り除くためにユーザ情報を加工して使用してよい。ユーザ情報を３次元空間モデルで生成した対応情報と比較する過程において、ユーザ情報または対応情報の形態を変換して比較してよい。

段階Ｓ１０５０で、装置は、対応情報とユーザ情報との類似度を算出する。
このとき、類似度を算出する段階は、類似度を高める方向に対応情報を再生成し、再生成された対応情報に基づいて類似度を再算出する段階を含んでよい。このとき、類似度を高める方向は、ユーザ情報を再取得したり、ユーザ情報に対応する対応情報を再生成したり、ユーザ情報の他に付加的な情報を使用したりすることを含む。

類似度を高めるために、類似度を算出する段階Ｓ１０５０は、ユーザ情報および対応情報を比較するための比較対象領域を抽出する段階、ユーザ情報から抽出された比較対象領域と対応情報から抽出された比較対象領域で共通領域を決定する段階、および共通領域に基づいてユーザ情報および対応情報をそれぞれ再生成する段階を含んでよい。

例えば、対応情報から構造の単純化によって歪曲した領域などのような所定の基準による一定の領域を取り除き、ユーザ情報の非背景部分に対応する領域を取り除くことにより、比較過程に使用される対応情報を再生成してよい。また、ユーザ情報で、非背景部分とともに、対応情報の歪曲した領域などに該当する領域を取り除くことにより、比較過程に使用されるユーザ情報を再生成してよい。
３次元仮想空間モデルで生成された対応情報とユーザが取得したユーザ情報との類似性を計算する方法は、対応情報の映像情報とユーザ情報の映像情報とを比較する方法、対応情報の深さ情報とユーザ情報の深さ情報とを比較する方法、または深さ−映像連携情報を比較する方法などであってよい。

このとき、対応情報とユーザ情報の大きさ（ｓｃａｌｅ）が異なることがあるため、正規化（Ｎｏｒｍａｌｉｚａｔｉｏｎ）が要求されたり、相対的な比較が必要となることもある。
一方、映像情報の比較は、各映像情報の形式に類似するようにするための映像情報の変換が必要となることがある。例えば、パノラマイメージ（ＰａｎｏｒａｍａＩｍａｇｅ）と補正イメージ（Ｒｅｃｔｉｆｉｅｄｉｍａｇｅ）との変換があってよく、映像情報の大きさを正規化してよく、視野角の変換があってよい。

これとは反対に、停留するイメージをパノラマ形式に変形させて使用することも可能である。２つの映像情報から、ＲＡＮＳＡＣ、ＳＩＦＴ、ＦＡＳＴ、ＳＵＲＦなどの手法、あるいはこれらの組み合わせを利用して映像情報の特徴点（Ｆｅａｔｕｒｅ）を見つけ出し、類似する特徴点のペアを連結してよい。特徴点は、エッジ（Ｅｄｇｅ）、直線、線分、コーナー（Ｃｏｒｎｅｒ）、円、楕円など、またはこれらの組み合わせであってよく、大きさ（ｓｃａｌｅ）、回転（ｒｏｔａｔｉｏｎ）などが異なってよい。特徴点マッチング（ＦｅａｔｕｒｅＭａｔｃｈｉｎｇ）、ＳＳＩＭ（ＳｔｒｕｃｔｕｒａｌＳｉｍｉｌａｒｉｔｙ）、ＮＩＤ（ＮｏｒｍａｌｉｚｅｄＩｎｆｏｒｍａｔｉｏｎＤｉｓｔａｎｃｅ）、ホモグラフィ行列（ＨｏｍｏｇｒａｐｈｙＭａｔｒｉｘ）などの手法によって映像情報の類似度を計算してよい。

特徴点マッチングによって結ばれた多数のピクセル座標を使用してホモグラフィ行列を計算してよく、これを利用して２つのイメージ情報の差（誤差、ｅｒｒｏｒ）を計算してよい。ＳＳＩＭは２つのイメージの類似度を計算する方法であり、ＮＩＤは確率的な計算法である。

ユーザ情報から深さ情報を抽出することができる場合、対応情報の深さ情報との類似度を比較してよい。深さ情報は、３次元点群情報（ＰＣＤ：ＰｏｉｎｔＣｌｏｕｄＤａｔａ）、深さ地図（ＤｅｐｔｈＭａｐ）、メッシュ（Ｍｅｓｈ）などで表現されてよく、２つの深さ情報の形式を統一する過程を必要としてもよい。深さ情報は、ピクセル間（ポイントあたり）が比較されてよく、周辺領域を考慮して比較してもよい。内挿法（ｉｎｔｅｒｐｏｌａｔｉｏｎ）によって深さ情報を新たに推定し比較してもよく、加重値を付加して算出してもよい。

ユーザ情報で深さ−映像連携情報が構成可能な場合、対応情報の深さ−映像連携情報と比較してよい。深さ情報と映像情報をそれぞれ比較して各類似度を算出し、全体類似度を算出してよく、各類似度に加重値を与えて算出してよい。また、深さ−映像連携情報を複合的に比較してよく、深さ情報と映像情報の類似度を算出する方法を組み合わせて実行されてよい。

３次元仮想空間モデルを構築するための空間情報が取得された時点とユーザ情報が取得された時点とが異なることがあるため、同一のポーズであっても、対応情報とユーザ情報が異なることがある。したがって、対応情報とユーザ情報で強靭な特徴点を比較してよい。例えば、対応情報とユーザ情報で背景部分と非背景部分とを区分し、背景部分を使用して類似度を算出してよく、背景部分を利用して構築された３次元仮想空間モデルで対応情報を生成してユーザ情報の背景部分との類似度を算出してよい。対応情報とユーザ情報から照明または光に対する光源効果を取り除いて類似度を算出してよく、光源効果に強靭な特徴を比較して類似度を算出してよい。

このとき、類似度を算出する段階Ｓ１０５０は、ユーザデバイス周辺に対する追加のユーザ情報を取得する段階、およびユーザ情報および追加のユーザ情報に基づいて類似度を算出する段階を含んでよい。追加のユーザ情報を取得するために、図１２に示すように案内情報を利用してよい。

段階Ｓ１０６０で、装置は、類似度が予め設定された値以上である候補対応情報を確認し、前記候補対応情報にマッチングされるポーズをユーザポーズとして推定する。

類似度が高いほど、対応情報が生成された３次元仮想空間モデルのポーズとユーザ情報が取得されたポーズが同じであると考慮されてよい。または、類似度が基準値（ｔｈｒｅｓｈｏｌｄ）よりも高ければ、２つのデータが取得されて再構成されたポーズはほぼ同じであると見なしてよく、基準値は現実空間の環境によって異なってよい。または、多数の候補ポーズで生成された対応情報のうち、ユーザポーズと類似度が最も高いかいずれかの判断方式によって選択されたポーズが、ユーザポーズとして考慮されてもよい。

対応情報生成、類似度計算段階を１度だけ実行してユーザポーズを推定してもよく、繰り返し実行してもよい。繰り返し実行は、選ばれたポーズの周りで精密に再推定してもよく、全体領域に対して無作為（ｒａｎｄｏｍ）に再推定してもよく、加重値を付加して再推定する新たなポーズを選択してもよい。このような段階は、定められた回数だけが繰り返されてもよく、類似度が基準値以上であるか、繰り返されて推定されたポーズが収斂されるまで繰り返してもよい。類似度が高まるように最適化技法（Ｏｐｔｉｍｉｚａｔｉｏｎ）が利用されてもよい。

類似度が高まるように対応情報を再生成してもよく、再生成された対応情報は、既存の対応情報が生成されたポーズと類似度との関係によってユーザポーズとして予想されるポーズで再生成されてよい。対応情報の再生成後に類似度を算出し、必要な場合には対応情報再生成および類似度算出過程を繰り返してよい。

慣性情報および距離情報などのユーザ付加情報を使用することで類似度が高まるようになるため、期待されるポーズで対応情報を生成および再生成してよい。以後、対応情報とユーザ情報との類似度を算出し、必要な場合にはユーザ付加情報を活用して対応情報を再生成して類似度算出過程を繰り返してよい。

このとき、ユーザ付加情報は、ユーザが取得した映像情報の他に、ユーザポーズの推定をサポートする情報であって、慣性情報（ＩＭＵ）、距離情報（ｏｄｏｍｅｔｒｙ）などで構成されてよい。一例として、慣性測定装置によって慣性情報の取得が可能な場合に、映像情報の処理時に映像取得ポーズに対する推定（ｐｒｅｄｉｃｔｉｏｎ）情報として使用することにより、映像取得ポーズに対する補正（ｃｏｒｒｅｃｔｉｏｎ）をより容易に行うことができる。

したがって、類似度を算出する段階Ｓ１０５０またはユーザポーズを推定する段階Ｓ１０６０は、ユーザデバイスによって前記ユーザポーズの推定に利用される付加的な情報であるユーザ付加情報が取得される場合、前記ユーザ情報または前記追加のユーザ情報とともに、前記ユーザ付加情報を利用して前記ユーザポーズを推定することを含んでよい。

このとき、慣性情報の加速度値あるいは角速度値を活用して実際の移動距離を予想してよく、これを単一あるいは複数の映像測定装置から抽出された深さ情報の大きさ（ｓｃａｌｅ）を補正するのに活用してもよい。

距離情報は、ユーザが取得した映像情報に基づいて構成されたＶＯ（ＶｉｓｕａｌＯｄｏｍｅｔｒｙ）、ＶＩＯ（ＶｉｓｕａｌＩｎｅｒｔｉａｌＯｄｏｍｅｔｒｙ）を活用して予測した距離情報であってよく、タイヤ型移動ロボットに測定装置を装着してユーザ情報を取得する場合、距離情報は、移動ロボットの距離情報となってよい。これにより、慣性情報を活用すれば、前記方法によって抽出された距離情報を補正するのに活用することが可能となる。

ユーザの代わりにタイヤ型移動ロボットにセンサを装着してユーザ情報を取得する場合、ユーザが移動ロボットを操縦してもよく、移動ロボットが自律走行してもよく、この２つの組み合わせによってユーザ情報を取得してよい。移動ロボットポーズをユーザポーズとして考慮してよく、移動ロボットとユーザ視野との座標変換関係が認知されていたり、座標変換が可能であれば、移動ロボットポーズをユーザポーズに変換させることが可能となる。

移動ロボットは、映像が含まれたユーザ情報だけでなく、モバイルロボットの距離情報（ｏｄｏｍｅｔｒｙ）をユーザ付加情報として取得してよい。距離情報を活用してユーザポーズを補正してよい。順に取得した距離情報を活用して移動ロボットの相対予想ポーズを予測してよく、ＥＫＦ、ＥＩＦ、ＵＫＦなどの手法または類似の方法を活用して共分散行列（Ｃｏｖａｒｉａｎｃｅｍａｔｒｉｘ）などの情報を計算してよく、この情報を更新してユーザポーズを補正してよい。
移動ロボットを利用する場合、移動ロボットの動作、運転、操縦、移動、データ取得、記録、および処理など関連アルゴリズムは、ロボットオペレーティングシステム（ＲＯＳ：ｒｏｂｏｔｏｐｅｒａｔｉｎｇｓｙｓｔｅｍ）上で実行されてよい。

空間情報、深さ−映像連携情報、３次元仮想空間モデル、ユーザ情報、ユーザ付加情報などは、外部のサーバ（Ｓｅｒｖｅｒ）に記録されて処理されてよい。
空間情報の取得と同時に深さ−映像連携情報が構成されて３次元仮想空間モデルが構築されてよく、ユーザ情報の取得と同時にユーザポーズをリアルタイムで推定してもよく、遅延（Ｌａｔｅｎｃｙ）を発生させてもよく、ユーザポーズの取得が完了した後に処理されてもよい。

３次元仮想空間モデルが構築されていれば、追加空間情報を取得しなくてもよく、一部の空間に対して追加空間情報が取得されてよい。追加空間情報が取得されなかった場合には構築された３次元仮想空間モデルを使用してよく、追加空間情報が取得された場合には、構築された３次元仮想空間モデルの部分または全体を更新して再構築して使用してよい。

ユーザ情報を先に取得した後に空間情報を取得して３次元仮想空間モデルを構築してユーザポーズを推定してもよく、３次元仮想空間モデルを構築するための空間情報を先に取得した後にユーザ情報を取得してユーザポーズを推定してよい。
本発明は、センサシステムとコンピュータとが融合されたシステムで実行されてもよいし、独立的なセンサシステムとコンピュータで実行されてもよい。

ユーザ情報の取得時に、各測定装置のポーズとユーザセンサシステム全体のポーズとが異なることがあるが、各測定装置およびセンサシステムの座標変換関係を利用して変換が可能である。例えば、ユーザセンサシステムの中心または適切な位置をユーザポーズとして仮定したり、ユーザセンサシステムを基準にユーザポーズとして仮定したりしてよい。この場合、必要なキャリブレーション情報またはユーザセンサシステムからユーザポーズまでの相対ポーズを認知しているか、いずれかの値で仮定してよい。

図１１は、他の実施形態における、３次元空間に対するユーザポーズ推定方法を説明するためのフローチャートである。
図１１に示した方法は、図７に示したユーザポーズ推定装置６２０によって実行されてよい。
段階１１１０で、装置は、３次元空間で取得された映像を含むユーザ情報を受信する。
段階１１２０で、装置は、３次元空間に対する深さ情報および映像情報を含む空間情報に基づいて構築された３次元仮想空間モデルを確認する。このとき、３次元仮想空間モデルは、図７の仮想空間モデル提供部７３０によって提供されてよい。

段階１１３０で、装置は、３次元仮想空間モデル内で前記ユーザ情報に対応する対応情報を生成する。
段階Ｓ１１４０で、装置は、対応情報と前記ユーザ情報との類似度を算出する。
段階Ｓ１１５０で、装置は、類似度に基づいてユーザポーズを推定する。このとき、ユーザポーズは、例えば、ユーザ情報との類似度が最も高い対応情報のポーズであってよい。

図１２は、一実施形態における、追加のユーザポーズ取得方法の例を説明するための図である。
類似度を向上させるために追加のユーザ情報を取得してよく、３次元仮想空間モデルを活用して追加のユーザ情報取得ポーズをユーザに案内してよく、ユーザは、案内されたポーズで追加のユーザ情報を取得してよい。

したがって、図１０の説明において、追加のユーザ情報を取得する段階は、３次元仮想空間モデルに基づいて追加のユーザ情報取得のための案内情報をユーザデバイス６１０に送信することを含んでよい。
このとき、案内情報は、３次元仮想空間モデル内の予め設定された特徴点に対するユーザ情報取得ポーズを含み、追加のユーザ情報を取得する段階は、類似度を高める方向に繰り返し実行されてよい。

例えば、図１２に示すように、類似の環境が多い長い廊下の場合、３次元仮想空間モデルで特徴点を考慮して追加のユーザ情報取得ポーズを案内してよい。
図１２で、追加のユーザ情報取得ポーズは、特徴点１、２、３に対して順に映像を取得するポーズであるか、特徴点１、２、３のうちのいずれか１つに対するポーズであってよい。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）および前記ＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでもよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ格納媒体または装置、または伝送される信号波に永久的または一時的に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に格納されてもよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。前記コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。前記媒体に記録されるプログラム命令は、実施形態のために特別に設計されて構成されたものであっても、コンピュータソフトウェアの当業者に公知な使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピーディスク、および磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を格納して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例は、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。上述したハードウェア装置は、実施形態の動作を実行するために１つ以上のソフトウェアモジュールとして動作するように構成されてもよく、その逆も同じである。

以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

Claims

深さ測定装置および映像取得装置を利用して３次元空間に対する深さ情報および映像情報を含む空間情報を取得する段階、
前記空間情報に基づいて深さ−映像連携情報を構成し、前記深さ−映像連携情報に基づいて前記３次元空間に対応する３次元仮想空間モデルを構築する段階、
前記３次元空間でユーザデバイスによって取得された映像を含むユーザ情報を受信する段階、
前記３次元仮想空間モデル内で前記ユーザ情報に対応する対応情報を生成する段階、
前記対応情報と前記ユーザ情報との類似度を算出する段階、および
前記類似度に基づいてユーザポーズを推定する段階
を含む、３次元空間に対するユーザポーズ推定方法。
前記３次元仮想空間モデルを構築する段階は、
前記３次元空間に対する映像情報で前記３次元空間の構造と関連する背景領域と前記３次元空間に置かれた物体に該当する非背景領域とを区分し、前記背景領域を利用して前記３次元仮想空間モデルを構築することを特徴とする、
請求項１に記載の３次元空間に対するユーザポーズ推定方法。
前記対応情報を生成する段階は、
前記ユーザ情報に含まれた映像で前記３次元空間の構造と関連する背景領域と前記３次元空間に置かれた物体に該当する非背景領域とを区分する段階、
前記ユーザ情報に含まれた映像の背景領域を利用して前記ユーザ情報を加工する段階、および
前記３次元仮想空間モデル内で加工されたユーザ情報に対応する対応情報を生成する段階
を含む、請求項１に記載の３次元空間に対するユーザポーズ推定方法。
前記類似度を算出する段階は、
前記類似度を高める方向に前記対応情報を再生成する段階、および
再生成された対応情報に基づいて類似度を再算出する段階
を含む、請求項１に記載の３次元空間に対するユーザポーズ推定方法。
前記類似度を算出する段階は、
前記ユーザ情報および前記対応情報を比較するための比較対象領域を抽出する段階、
前記ユーザ情報から抽出された比較対象領域と前記対応情報から抽出された比較対象領域で共通領域を決定する段階、および
前記共通領域に基づいて前記ユーザ情報および前記対応情報をそれぞれ再生成する段階
を含む、請求項１に記載の３次元空間に対するユーザポーズ推定方法。
前記類似度を算出する段階は、
前記ユーザデバイス周辺に対する追加のユーザ情報を取得する段階、および
前記ユーザ情報および追加のユーザ情報に基づいて類似度を算出する段階
を含む、請求項１に記載の３次元空間に対するユーザポーズ推定方法。
前記ユーザポーズを推定する段階は、
前記ユーザデバイスによって前記ユーザポーズの推定に利用される付加的な情報であるユーザ付加情報が取得される場合、前記ユーザ情報または前記追加のユーザ情報とともに、前記ユーザ付加情報を利用して前記ユーザポーズを推定することを含む、
請求項６に記載の３次元空間に対するユーザポーズ推定方法。
前記追加のユーザ情報を取得する段階は、
前記３次元仮想空間モデルに基づいて追加のユーザ情報取得のための案内情報を前記ユーザデバイスに送信することを含む、
請求項６に記載の３次元空間に対するユーザポーズ推定方法。
前記案内情報は、前記３次元仮想空間モデル内の予め設定された特徴点に対するユーザ情報取得ポーズを含み、
前記追加のユーザ情報を取得する段階は、前記類似度を高める方向に繰り返し実行されることを特徴とする、
請求項８に記載の３次元空間に対するユーザポーズ推定方法。
３次元空間に対するユーザの位置（ｐｏｓｉｔｉｏｎ）および方向（ｏｒｉｅｎｔａｔｉｏｎ）情報を含むユーザポーズを推定する方法であって、
前記３次元空間で取得された映像を含むユーザ情報を受信する段階、
前記３次元空間に対する深さ情報および映像情報を含む空間情報に基づいて構築された３次元仮想空間モデルを確認する段階、
前記３次元仮想空間モデル内で前記ユーザ情報に対応する対応情報を生成する段階、
前記対応情報と前記ユーザ情報との類似度を算出する段階、および
前記類似度に基づいてユーザポーズを推定する段階
を含む、３次元空間に対するユーザポーズ推定方法。
前記３次元仮想空間モデルは、前記３次元空間に対する映像情報で前記３次元空間の構造と関連する背景領域と前記３次元空間に置かれた物体に該当する非背景領域とを区分し、前記背景領域を利用して構築されたものであることを特徴とする、
請求項１０に記載の３次元空間に対するユーザポーズ推定方法。
前記対応情報を生成する段階は、
前記ユーザ情報に含まれた映像で前記３次元空間の構造と関連する背景領域と前記３次元空間に置かれた物体に該当する非背景領域とを区分する段階、
前記ユーザ情報に含まれた映像の背景領域を利用して前記ユーザ情報を加工する段階、および
前記３次元仮想空間モデル内で加工されたユーザ情報に対応する対応情報を生成する段階
を含む、請求項１０に記載の３次元空間に対するユーザポーズ推定方法。
前記類似度を算出する段階は、
前記類似度を高める方向に前記対応情報を再生成する段階、および
再生成された対応情報に基づいて類似度を再算出する段階
を含む、請求項１０に記載の３次元空間に対するユーザポーズ推定方法。
前記類似度を算出する段階は、
前記ユーザ情報および前記対応情報を比較するための比較対象領域を抽出する段階、
前記ユーザ情報から抽出された比較対象領域と前記対応情報から抽出された比較対象領域で共通領域を決定する段階、および
前記共通領域に基づいて前記ユーザ情報および前記対応情報をそれぞれ再生成する段階
を含む、請求項１０に記載の３次元空間に対するユーザポーズ推定方法。
前記類似度を算出する段階は、
ユーザデバイス周辺に対する追加のユーザ情報を取得する段階、および
前記ユーザ情報および追加のユーザ情報に基づいて類似度を算出する段階
を含む、請求項１０に記載の３次元空間に対するユーザポーズ推定方法。
前記ユーザポーズを推定する段階は、
前記ユーザデバイスによって前記ユーザポーズの推定に利用される付加的な情報であるユーザ付加情報が取得される場合、前記ユーザ情報または前記追加のユーザ情報とともに、前記ユーザ付加情報を利用して前記ユーザポーズを推定することを含む、
請求項１５に記載の３次元空間に対するユーザポーズ推定方法。
前記追加のユーザ情報を取得する段階は、
前記３次元仮想空間モデルに基づいて追加のユーザ情報取得のための案内情報を前記ユーザデバイスに送信することを含む、
請求項１５に記載の３次元空間に対するユーザポーズ推定方法。
前記案内情報は、前記３次元仮想空間モデル内の予め設定された特徴点に対するユーザ情報取得ポーズを含み、
前記追加のユーザ情報を取得する段階は、前記類似度を高める方向に繰り返し実行されることを特徴とする、
請求項１７に記載の３次元空間に対するユーザポーズ推定方法。
３次元空間に対する深さ情報および映像情報を含む空間情報を取得する空間情報取得部、
前記空間情報に基づいて深さ−映像連携情報を構成し、前記深さ−映像連携情報に基づいて前記３次元空間に対応する３次元仮想空間モデルを生成する仮想空間モデル生成部、
前記３次元空間でユーザデバイスによって取得された映像を含むユーザ情報を受信するユーザ情報受信部、および
前記３次元仮想空間モデル内で前記ユーザ情報に対応する対応情報を生成し、前記対応情報と前記ユーザ情報との類似度を算出し、前記類似度に基づいて前記ユーザポーズを推定するように構成された少なくとも１つのプロセッサを含む制御部
を備える、３次元空間に対するユーザポーズ推定装置。
前記仮想空間モデル生成部は、
前記３次元空間に対する映像情報で前記３次元空間の構造と関連する背景領域と前記３次元空間に置かれた物体に該当する非背景領域とを区分し、前記背景領域を利用して前記３次元仮想空間モデルを構築することを特徴とする、
請求項１９に記載の３次元空間に対するユーザポーズ推定装置。
前記制御部は、
前記ユーザ情報に含まれた映像で前記３次元空間の構造と関連する背景領域と前記３次元空間に置かれた物体に該当する非背景領域とを区分し、前記ユーザ情報に含まれた映像の背景領域を利用して前記ユーザ情報を加工し、前記３次元仮想空間モデル内で加工されたユーザ情報に対応する対応情報を生成する、
請求項１９に記載の３次元空間に対するユーザポーズ推定装置。
３次元空間に対するユーザの位置（ｐｏｓｉｔｉｏｎ）および方向（ｏｒｉｅｎｔａｔｉｏｎ）情報を含むユーザポーズを推定する装置であって、
前記３次元空間に対する深さ情報および映像情報を含む空間情報に基づいて構築された３次元仮想空間モデルを提供する仮想空間モデル提供部、
前記３次元空間でユーザデバイスによって取得された映像を含むユーザ情報を受信するユーザ情報受信部、および
前記３次元仮想空間モデル内で前記ユーザ情報に対応する対応情報を生成し、前記対応情報と前記ユーザ情報との類似度を算出し、前記類似度に基づいて前記ユーザポーズを推定するように構成された少なくとも１つのプロセッサを含む制御部
を備える、３次元空間に対するユーザポーズ推定装置。
前記３次元仮想空間モデルは、前記３次元空間に対する映像情報で前記３次元空間の構造と関連する背景領域と前記３次元空間に置かれた物体に該当する非背景領域とを区分し、前記背景領域を利用して構築されたものであることを特徴とする、
請求項２２に記載の３次元空間に対するユーザポーズ推定装置。
３次元空間に対する映像を含むユーザ情報を生成するユーザ情報生成部、
前記ユーザ情報をユーザポーズ推定サーバに送信し、３次元仮想空間モデルで推定されたユーザポーズに関する情報を前記サーバから受信する通信部、および
前記ユーザ情報生成部および通信部の動作を制御し、前記ユーザポーズに関する情報を現在実行中のアプリケーションまたは駆動システムに伝達するように構成された少なくとも１つのプロセッサを含む制御部
を備える、３次元空間に対するユーザポーズ推定装置。
前記３次元仮想空間モデルは、前記３次元空間に対する深さ情報および映像情報を含む空間情報に基づいて生成され、前記３次元空間に対する映像情報で前記３次元空間の構造と関連する背景領域と前記３次元空間に置かれた物体に該当する非背景領域とを区分し、前記背景領域を利用して構築されたものであることを特徴とする、
請求項２４に記載の３次元空間に対するユーザポーズ推定装置。