JP2023020877A

JP2023020877A - ポーズを推定する方法及び装置

Info

Publication number: JP2023020877A
Application number: JP2022076437A
Authority: JP
Inventors: 浩進朱; Hojin Ju; 允泰金; Youn-Tai Kim; 棟▲ふん▼ 司空; Donghoon Sagong; 在桓皮; Jaehwan Pi
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2021-07-29
Filing date: 2022-05-06
Publication date: 2023-02-09
Also published as: EP4125039B1; CN115690201A; KR20230018214A; EP4125039A1; US20230035458A1

Abstract

【課題】ポーズを推定する方法及び装置を提供する。【解決手段】一実施形態によれば、プロセッサによって実現されるポーズを推定する方法は、イメージセンサから受信した、複数の映像フレームを含む映像情報から抽出した特徴点の位置を追跡し、動きセンサから受信した動き情報に基づいて電子装置のポーズを決定する推定モデルの現在状態変数を予測し、映像フレームから抽出した特徴点の第１位置と現在状態変数に基づいて予測された特徴点の第２位置との間の残差に基づいて、推定モデルの不確実性によるノイズを決定し、現在状態変数、追跡した特徴点の位置、及びノイズに基づいて現在状態変数を更新し、更新された現在状態変数に基づいて電子装置のポーズを決定する。【選択図】図４

Description

以下の開示は、ポーズを推定する方法及び装置に関する。

仮想現実（ｖｉｒｔｕａｌｒｅａｌｉｔｙ；ＶＲ）、拡張現実（ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ；ＡＲ）又は混合現実（ｍｉｘｅｄｒｅａｌｉｔｙ；ＭＲ）を実現できる電子機器が提供される。そのうち、拡張現実は、現実世界の環境上に仮想のオブジェクトや情報を結合して示すディスプレイ技術である。拡張現実は、例えば、ユビキタス（ｕｂｉｑｕｉｔｏｕｓ）環境や事物インターネット（ｉｎｔｅｒｎｅｔｏｆｔｈｉｎｇｓ；ＩｏＴ）環境で様々に活用され得る。拡張現実は、外部前景と仮想映像の結合によって様々な情報をユーザにより実感できるよう伝達することができる。

実施形態によれば、フィルタ基盤のＶＩＯ（ＶｉｓｕａｌＩｎｅｒｔｉａｌＯｄｏｍｅｔｒｙ）において、モデルの不確実性を算出し、測定値アップデート時に算出結果を反映することによって、様々な環境でフィルタ基盤のＶＩＯを使用する場合にアルゴリズムの強靭性を確保し、動的な振れが少ない安定的な位置推定結果を提供することにある。

一実施形態に係るプロセッサによって実現されるポーズを推定する方法は、イメージセンサから受信した、複数の映像フレームを含む映像情報から抽出した特徴点の位置を追跡する動作と、動きセンサから受信した動き情報に基づいて、前記電子装置のポーズを決定する推定モデルの現在状態変数を予測する動作と、前記映像フレームから抽出した特徴点の第１位置と前記現在状態変数に基づいて予測された前記特徴点の第２位置との間の残差に基づいて、前記推定モデルの不確実性によるノイズを決定する動作と、前記現在状態変数、前記追跡した特徴点の位置、及び前記ノイズに基づいて、前記現在状態変数を更新する動作と、前記更新された現在状態変数に基づいて、前記電子装置のポーズを決定する動作とを含む。

前記ノイズを決定する動作は、前記映像フレームのうち、現在映像フレームから抽出した前記特徴点の第１位置と前記現在状態変数に基づいて予測された前記特徴点の第２位置との間の残差を決定する動作と、前記残差に基づいて前記推定モデルの不確実性によるノイズを決定する動作とを含むことができる。

前記ノイズを決定する動作は、前記現在映像フレームから抽出した前記特徴点の第１位置と前記現在状態変数に基づいて予測された前記特徴点の第２位置との間の前記残差を正解（Ｇｒｏｕｎｄ－Ｔｒｕｔｈ）と誤差の和として表現することによって前記ノイズを決定する動作を含むことができる。

前記ノイズを決定する動作は、前記残差を正解と誤差の和として表現した結果を前記推定モデルのチューニングパラメータによって近似化することで前記ノイズを決定する動作を含むことができる。

前記推定モデルの不確実性は、拡張されたカルマンフィルター（ＥｘｔｅｎｄｅｄＫａｌｍａｎｆｉｌｔｅｒ）方式のＳＬＡＭ（ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎａｎｄＭａｐｐｉｎｇ）方式による推定共分散に基づいて決定されることができる。

前記現在状態変数を予測する動作は、前記動き情報及び前記映像フレームのうち以前映像フレームに対応する以前状態変数に基づいて、前記映像フレームのうち現在映像フレームに対応する現在状態変数及び前記以前状態変数の誤差共分散を予測する動作を含むことができる。

前記現在状態変数を更新する動作は、前記現在状態変数、前記以前状態変数の誤差共分散、前記追跡した特徴点の位置及び前記ノイズに基づいて、前記現在状態変数を更新する動作を含むことができる。

前記特徴点の位置を追跡する動作は、前記映像フレームのうち現在映像フレームに含まれた第２特徴点を抽出する動作と、前記映像フレームのうち、前記現在映像フレームに先行する以前映像フレームから抽出された第１特徴点と前記第２特徴点との間のマッチングを介して前記第２特徴点の位置を追跡する動作とを含むことができる。

前記推定モデルは、フィルタ基盤の視覚的慣性距離計（ＶｉｓｕａｌＩｎｅｒｔｉａｌＯｄｏｍｅｔｒｙ：ＶＩＯ）を用いた推定モデルを含むことができる。

前記電子装置は、スマートグラスを含むウェアラブルデバイスと、ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）機器、ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）機器、及びＭＲ（ＭｉｘｅｄＲｅａｌｉｔｙ）機器を含むヘッドマウントデバイス（ＨｅａｄＭｏｕｎｔｅｄＤｅｖｉｃｅ：ＨＭＤ）のいずれか１つ又は２以上を含むことができる。

一実施形態に係るポーズを推定する装置は、複数の映像フレームを含む映像情報を検出するイメージセンサと、前記電子装置の動き情報を検出する動きセンサと、前記映像情報から特徴点を抽出して追跡し、前記動き情報に基づいて前記電子装置のポーズを決定する推定モデルの現在状態変数を予測し、前記映像フレームから抽出した特徴点の第１位置と前記現在状態変数に基づいて予測された前記特徴点の第２位置との間の残差に基づいて、前記推定モデルの不確実性によるノイズを決定し、前記現在状態変数、前記追跡した特徴点の位置、及び前記ノイズに基づいて前記現在状態変数を更新し、前記更新された現在状態変数に基づいて前記電子装置のポーズを決定する１つ以上のプロセッサとを含む。

前記ノイズを決定するために、前記１つ以上のプロセッサは、前記映像フレームのうち現在映像フレームから抽出した前記特徴点の第１位置と前記現在状態変数に基づいて予測された前記特徴点の第２位置との間の前記残差を決定し、前記残差に基づいて、前記推定モデルの不確実性によるノイズを決定することができる。

前記ノイズを決定するために前記１つ以上のプロセッサは、前記現在映像フレームから抽出した前記特徴点の第１位置と前記現在状態変数に基づいて予測された前記特徴点の第２位置との間の前記残差を正解と誤差の和として表現することによって前記ノイズを決定することができる。

前記ノイズを決定するために前記１つ以上のプロセッサは、前記残差を正解と誤差の和として表現した結果を、前記推定モデルのチューニングパラメータによって近似化することで前記ノイズを決定することができる。

前記推定モデルの不確実性は、拡張されたカルマンフィルター方式のＳＬＡＭ（ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎａｎｄＭａｐｐｉｎｇ）方式による推定共分散に基づいて決定されることができる。

前記現在状態変数を予測するために、前記１つ以上のプロセッサは、前記動き情報及び前記映像フレームのうち以前映像フレームに対応する以前状態変数に基づいて、前記映像フレームのうち現在映像フレームに対応する現在状態変数及び前記以前状態変数の誤差共分散を予測することができる。

前記現在状態変数を更新するために、前記１つ以上のプロセッサは、前記現在状態変数、前記以前状態変数の誤差共分散、前記追跡した特徴点の位置、及び前記ノイズに基づいて前記現在状態変数を更新することができる。

前記特徴点の位置を追跡するために、前記１つ以上のプロセッサは、前記映像フレームのうち現在映像フレームに含まれた第２特徴点を抽出し、前記映像フレームのうち前記現在映像フレームに先行する以前映像フレームから抽出された第１特徴点と前記第２特徴点との間のマッチングを介して前記第２特徴点の位置を追跡することができる。

前記電子装置は、スマートグラスを含むウェアラブルデバイスと、ＡＲ機器、ＶＲ機器、及びＭＲ機器のいずれか１つ又は２以上を含むヘッドマウントデバイスのいずれか１つ又は２以上を含むことができる。

一実施形態に係るウェアラブル電子装置は、複数の映像フレームを含む映像情報を検出するイメージセンサと、前記ウェアラブル電子装置の動き情報を検出する動きセンサと、前記映像情報から特徴点を抽出して追跡し、前記動き情報に基づいて前記ウェアラブル電子装置のポーズを決定する推定モデルの現在状態変数を予測し、前記映像フレームから抽出した特徴点の第１位置と前記現在状態変数に基づいて予測された前記特徴点の第２位置との間の残差に基づいて、前記推定モデルの不確実性によるノイズを決定し、前記現在状態変数、前記追跡した特徴点の位置、及び前記ノイズに基づいて前記現在状態変数を更新し、前記更新された現在状態変数に基づいて前記ウェアラブル電子装置のポーズを決定し、前記決定されたポーズに基づいて仮想のコンテンツを生成する１つ以上のプロセッサと、前記仮想のコンテンツを表示するディスプレイとを含む。

一実施形態に係るプロセッサによって実現されるポーズを推定する方法は、電子装置のポーズを決定するための推定モデルの現在状態変数を予測する動作と、映像フレームから抽出された特徴点の第１位置と前記現在状態変数に基づいて予測された特徴点の第２位置との間の残差に基づいて、前記推定モデルの不確実性によるノイズを決定する動作と、前記ノイズに基づいて前記現在状態変数を更新する動作と、前記更新された現在状態変数に基づいて前記電子装置のポーズを決定する動作と含む。

前記現在状態変数は、動きセンサに対応する状態変数とイメージセンサに対応する状態変数を含むことができる。

前記動きセンサに対応する状態変数は、前記映像フレームのいずれか１つの映像フレームの方向誤差、前記動きセンサのバイアス誤差、速度誤差、加速度誤差、及び位置誤差のいずれか１つ又は２以上の任意の組み合わせを含むことができる。

前記イメージセンサに対応する状態変数は、前記映像フレームのいずれか１つの映像フレームで見える特徴点の位置の誤差を含むことができる。

一態様によれば、フィルタ基盤のＶＩＯ（ＶｉｓｕａｌＩｎｅｒｔｉａｌＯｄｏｍｅｔｒｙ）において、モデル不確実性を算出して測定値をアップデートするとき算出結果を反映することで、様々な環境でフィルタ基盤のＶＩＯを使用する場合にアルゴリズムの強靭性を確保し、動的な揺れが少ない安定的な位置推定結果を提供することができる。

一実施形態に係る拡張現実を提供する電子装置の概要を説明するための図である。他の実施形態に係る拡張現実を提供する電子装置の概要を説明するための図である。一実施形態によりポーズを推定する方法を概念的に示す図である。一実施形態に係るポーズ推定装置の動作を説明するための図である。一実施形態によりポーズを推定する方法を示したフローチャートである。一実施形態によりノイズを決定する方法を示したフローチャートである。他の実施形態によりポーズを推定する方法を示したフローチャートである。一実施形態に係るポーズ推定装置のブロック図である。

実施形態に対する特定な構造的又は機能的な説明は単なる例示のための目的として開示されたものであって、様々な形態に変更されることができる。したがって、実施形態は特定な開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物ないし代替物を含む。

第１又は第２などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に、第２構成要素は第１構成要素にも命名することができる。

いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。

単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は、明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なるように定義さがれない限り、技術的又は科学的な用語を含んで、ここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈されなければならず、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

以下、添付する図面を参照しながら実施形態を詳細に説明する。図面を参照して説明する際に、図面符号に拘わらず同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略する。

図１及び図２は、一実施形態に係る拡張現実を提供する電子装置の概要（ｏｖｅｒｖｉｅｗ）を説明するための図である。

図１を参照すると、電子装置１１０は、ユーザ１００に拡張現実サービスを提供する装置である。拡張現実サービスは、ユーザ１００が見る現実世界のイメージに仮想のイメージ、又は仮想のコンテンツを重なって示すサービスである。電子装置１１０は、ディスプレイ１１５を介して現実世界の実際のオブジェクト１２０と共に、現実世界の実際のオブジェクト１２０に関するコンテンツを含む仮想のイメージ（例えば、図２に示す仮想オブジェクト２２０）をユーザ１００に提供することができる。ユーザ１００に見られる仮想のイメージは２Ｄイメージであってもよく、又は３Ｄイメージであってもよい。また、仮想のイメージは、動きのない静的イメージであってもよく、又は、アニメーションのように動きを有する動的なイメージであってもよい。電子装置１１０は、ユーザ１００に着用され得るウェアラブル装置であってもよい。電子装置１１０は、例えば、スマートグラス、ＶＲヘッドセット、又はＡＲヘッドセットを含むＨＭＤ（ｈｅａｄｍｏｕｎｔｅｄｄｉｓｐｌａｙ）、及びＦＭＤ（ｆａｃｅｍｏｕｎｔｅｄｄｉｓｐｌａｙ）のようなウェアラブル電子装置であってもよいが、必ずこれに限定されることはない。

図２を参照すると、電子装置１１０のディスプレイ１１５を介して提供される拡張現実コンテンツ２１０の一例が図示されている。以下、説明の便宜のために電子装置１１０によって提供される仮想コンテンツが拡張現実コンテンツ２１０である場合について一例に挙げて説明するが、これは、仮想現実コンテンツ及び／又は混合現実コンテンツの提供を排除することはない。

電子装置１１０、はユーザ１００が見る現実世界の実際のオブジェクト１２０に仮想情報を含む仮想オブジェクト２２０を整合して拡張現実コンテンツ２１０を形成（例えば、生成）することができる。拡張現実コンテンツ２１０は、例えば、現実世界の実際のオブジェクト１２０からリアルな仮想オブジェクトを複製するものであってもよく、又は、現実世界の実際のオブジェクト１２０上に仮想のコンピュータグラフィック効果を具現したものであってもよい。仮想のコンピュータグラフィックの効果は、例えば、実際の機械装置上にユーザ説明書のような付加情報又はユーザ説明書を説明する仮想のキャラクターのような付加コンテンツを仮想のイメージで具現化したものであってもよいが、必ずこれに限らない。

例えば、ユーザ１００が頭又は視線を動かす場合、ユーザ１００が実際のオブジェクト１２０を見ている視線方向が変わり得る。電子装置１１０は、視線方向の変化により仮想オブジェクト２２０を細かく調整することで、ユーザ１００に高精密の拡張現実コンテンツ２１０を提供することができる。電子装置１１０は、視線方向の変化を精密に測定することで、実際のオブジェクト１２０と仮想オブジェクト２２０をナチュラルに整合できる。電子装置１１０は、ユーザ１００が実際のオブジェクト１２０を見ている場面で仮想オブジェクト２２０を実際のオブジェクト１２０に対比される正確な位置に表現することで、実感できる拡張現実コンテンツ２１０を実現することができる。

電子装置１１０は、後述するポーズ推定方法を自体に実行（例えば、電子装置は、図８に示すポーズ推定装置８００であるか、又は、ポーズ推定装置８００を含む）してもよく、又は、別途のポーズを推定（例えば、決定）する装置（以下、「ポーズ推定装置」）（例えば、図８に示すポーズ推定装置８００）を介して推定されたポーズが伝達されてもよい。この場合、ポーズ推定装置は、電子装置１１０の位置測定を行ってもよい。電子装置１１０の位置測定結果は、ユーザ１００の頭の動きやユーザ１００が見ている方向を推定するために使用される。ポーズ推定装置により決定される電子装置１１０のポーズは、電子装置１１０の位置及び姿勢に関する情報を含んでもよい。電子装置１１０のポーズは、例えば、６自由度（ｄｅｇｒｅｅｓｏｆｆｒｅｅｄｏｍ；ＤｏＦ）に表現され、必ずこれに限定されることはない。電子装置１１０のポーズは、電子装置１１０を着用したユーザ１００のポーズ又は電子装置１１０に含まれたイメージセンサ（例えば、カメラ）のポーズに対応する。

ポーズ推定装置は、イメージセンサによって取得された映像情報（例えば、図３に示す映像フレーム３０１）と動きセンサによって取得された動き情報（例えば、ＩＭＵセンサデータ）を用いて、電子装置１１０のポーズを決定することができる。ポーズ推定装置は、電子装置１１０のポーズを決定するために映像情報と動き情報を共に利用することで、映像情報と動き情報のいずれか１つを用いてポーズを推定する一般的なポーズ推定装置に比べて、電子装置１１０のポーズを正確かつ効果的に決定することができる。イメージセンサと動きセンサは、電子装置１１０に含まれてもよい。イメージセンサは、電子装置１１０の周辺領域のうち少なくとも一部領域（例、ユーザ１００の前方領域）を撮影して映像情報を取得することができる。動きセンサは、電子装置１１０又はユーザ１００の動きを測定する。動きセンサは、例えば、加速度センサとジャイロ（ｇｙｒｏ）センサを含む慣性センサ（ｉｎｅｒｔｉａｌｍｅａｓｕｒｅｍｅｎｔｕｎｉｔ；ＩＭＵ）を含んでもよく、必ずこれに限定されることはない。

ポーズ推定装置は、実際のオブジェクト１２０を撮影した映像情報から実際のオブジェクト１２０の特徴点２３２，２３３，２３４，２３５，２３６，２３７，２３８を抽出し、抽出された特徴点２３２，２３３，２３４，２３５，２３６，２３７，２３８と事前情報として予め定義又は決定された実際のオブジェクト１２０の基準特徴点間のマッピングを介して特徴点の位置を追跡することができる。事前情報は、実際のオブジェクト１２０が基準ポーズにある時の実際のオブジェクト１２０の表面上に位置する基準特徴点の３次元座標情報を含んでもよい。「特徴点」は、ランドマークに称されてもよい。

ポーズ推定装置は、電子装置１１０の以前時間の位置に以前時間から現在時間までの動きを反映して特徴点の位置を推定する推定モデルの状態変数を予測することができる。

図３は、一実施形態に基づいてポーズを推定する方法を概念的に示した図である。図３を参照すると、一実施形態に係るポーズ推定装置が視覚的慣性距離計（ＶｉｓｕａｌＩｎｅｒｔｉａｌＯｄｏｍｅｔｒｙ；ＶＩＯ）に基づいたＳＬＡＭ（ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎＡｎｄＭａｐｐｉｎｇ）手法によりポーズを推定するための構成が示されている。

視覚的慣性距離計（ＶＩＯ）は、カメラのようなイメージセンサを介して取得した映像情報（例えば、映像フレーム３０１）及び慣性センサによって取得した動き情報（例えば、ＩＭＵセンサデータ３０３）とを融合して該当装置の位置、速度、及び姿勢値を推定する技術である。「映像情報」は、カメラのようなイメージセンサから得られる映像である。カメラは、ＩＭＵセンサと反対に低速の動きで比較的に正確なモーションを検出することができる。「動き情報」は、ＩＭＵセンサに加えられる動きを測定した情報である。より具体的に、動き情報は、ＩＭＵ（ＩｎｅｒｔｉａｌＭｅａｓｕｒｅｍｅｎｔＵｎｉｔ）にある加速度系（ａｃｃｅｌｅｒｏｍｅｔｅｒ）とジャイロスコープ（ｇｙｒｏｓｃｏｐｅ）から該当装置が受けている力、加速、回転などを含んでもよい。

ＳＬＡＭは、ローカライゼーション（ｌｏｃａｌｉｚａｔｉｏｎ）とマッピングを同時に行いながら位置を推定していく技術である。ＳＬＡＭは、映像情報と動き情報を共に使用する視覚的慣性距離計（ＶＩＯ）を要素技術として使用することができる。

ＳＬＡＭにおいて、リアルタイムに位置を推定するローカライゼーション（ｌｏｃａｌｉｚａｔｉｏｎ）を実行する際に視覚的慣性距離計（ＶＩＯ）が用いられてもよい。

ポーズ推定装置で使用する視覚的慣性距離計（ＶＩＯ）に基づいたＳＬＡＭは、大きくフロントエンド（ｆｒｏｎｔ－ｅｎｄ）３１０とバックエンド（ｂａｃｋ－ｅｎｄ）３３０の２種類に構成される。

フロントエンド３１０において、ポーズ推定装置は、映像情報（例えば、映像フレーム３０１）から特徴点を抽出する（３１２）。「特徴点」は、映像フレーム３０１で色や明るさの変化が明確で全体的なイメージの特徴を表現できる地点を意味する。フロントエンド３１０において、ポーズ推定装置は、連続的にキャプチャーされた映像フレーム３０１で特徴点間のマッチングを介して同じ特徴点を追跡する（３１４）。このように互いにマッチングされる特徴点を追跡した情報は、バックエンド３３０でポーズ推定装置（例えば、電子装置１１０）のポーズを推定するために使用される。

バックエンド３３０において、ポーズ推定装置は、フロントエンド３１０から伝達されたマッチングされた特徴点及び慣性センサによって取得した動き情報（例えば、ＩＭＵセンサデータ３０３）に基づいて特徴点の現在位置を推定し（３３２）、推定した特徴点の現在位置に基づいてポーズ推定装置のポーズを推定する（３３４）。ポーズ推定装置は、リアルタイムに推定したポーズを出力する（３５０）。

バックエンド３３０において、ポーズ推定装置は、回帰的（ｒｅｃｕｒｓｉｖｅ）なフィルタ方式に基づいて、映像フレームごとに現在映像フレームと以前映像フレームから見つかった特徴点及び動き情報を用いて、推定モデルに基づいてポーズを推定することができる。推定モデルとして、例えば、ＥＫＦ（ＥｘｔｅｎｄｅｄＫａｌｍａｎＦｉｌｔｅｒ）、ＵＫＦ（ＵｎｓｃｅｎｔｅｄＫａｌｍａｎＦｉｌｔｅｒ）、及びＥＩＦ（ＥｘｔｅｎｄｅｄＩｎｆｏｒｍａｔｉｏｎＦｉｌｔｅｒ）などのようにカルマンフィルターに基づいた様々な推定モデルが使用される。以下、説明の便宜のために、ＥＫＦ（ＥｘｔｅｎｄｅｄＫａｌｍａｎＦｉｌｔｅｒ）に基づいた推定モデルの動作を中心に説明するが、必ずこれに限定されることはない。カルマンフィルター（Ｋａｌｍａｎｆｉｌｔｅｒ）は、状態予測と測定値アップデートを繰り返し行ってポーズを推定することができる。拡張されたカルマンフィルター（ＥＫＦ）は、カルマンフィルターを非線型（ｎｏｎｌｉｎｅａｒ）のモデルに拡張して使用する方式である。

一実施形態に係るポーズ推定装置は、フレームごとに繰り返しポーズを推定するフィルタ基盤の視覚的慣性距離計（ＶＩＯ）によって演算効率性を向上させることで、少ない演算量を求めるＡＲ、ＶＲ機器においてもより正確に位置を推定することができる。

図４は、一実施形態に係るポーズ推定装置の動作を説明するための図である。図４を参照すると、一実施形態に係るポーズを推定する装置（「ポーズ推定装置」）４００は、イメージセンサ４０１、動きセンサ４０３、特徴点抽出及び追跡部４１０、動き情報取得部４２０、状態予測部４３０、測定値更新部４４０、及びモデル不確実性算出部４５０を含む。

特徴点抽出及び追跡部４１０及び動き情報取得部４２０は、前述したフロントエンド３１０に対応する。動き情報取得部４２０、状態予測部４３０、測定値更新部４４０、及びモデル不確実性算出部４５０は、前述したバックエンド３３０に対応する。

ポーズ推定装置４００は、例えば、フィルタ基盤の視覚的慣性距離計（ＶｉｓｕａｌＩｎｅｒｔｉａｌＯｄｏｍｅｔｒｙ；ＶＩＯ）を用いた推定モデルによって実行される状態予測と測定値更新を介してポーズを推定することができる。したがって、推定モデルが不正確であるほど、ポーズの推定正確度は低下する。

一実施形態に係るポーズ推定装置４００は、推定モデルの不確実性を考慮してポーズの推定正確度が低下することを防止できる。

ポーズ推定装置４００は、イメージセンサ４０１でキャプチャーされた映像情報（例えば、映像フレーム）及び動きセンサ４０３から検出された慣性センサ情報を受信する。

特徴点抽出及び追跡部４１０は、映像情報（例えば、現在映像フレーム）から１つの以上の特徴点を抽出し、以前映像フレームから抽出された特徴点と現在映像フレームから抽出した特徴点とをマッチングすることで、現在映像フレームの特徴点を追跡することができる。

動き情報取得部４２０は、動きセンサ４０３から検出された慣性センサ情報を動かす情報として取得することができる。

ここで、動き情報取得部４２０で取得した動き情報は、状態予測部４３０で使用され、特徴点抽出及び追跡部４１０で追跡した特定点情報は、測定値更新部４４０で使用される。

フィルタ基盤の慣性距離計（ＶＩＯ）による推定モデルは、大きく状態予測部４３０と測定値更新部４４０を含む。

測定値更新部４４０は、推定モデルと特徴点抽出及び追跡部４１０で追跡した特定点情報を用いて測定値（例えば、特徴点の位置（現在位置））を更新することができる。このとき、推定モデルは、推定する特徴点の３次元位置に関っているため誤差を含み得る。一実施形態に係るポーズ推定装置４００は、測定値更新時に推定モデルの不確実性を算出して反映することで、推定モデル及びポーズ推定装置４００の性能を向上させることができる。

ポーズ推定装置４００は、電子装置のポーズを推定するために使用される複数の要素を推定モデルの状態変数として設定し、リアルタイムに推定することができる。

例えば、動きセンサ４０３に関する状態変数

は下記の数式（１）のように示す。

ここで、

は基準映像フレームに対比される該当映像フレームの姿勢誤差を示し、

は、ジャイロセンサのバイアス誤差を示す。また、

は速度誤差を、

は加速度バイアス誤差を、

は位置誤差を示す。

実施形態により、動きセンサ４０３に関する状態変数

は、イメージセンサ４０１と動きセンサ４０３との間の外部媒介変数（ｅｘｔｒｉｎｓｉｃｐａｒａｍｅｔｅｒ）、加速度、ジャイロスケール因子などをさらに含んでもよい。その他にも、特徴点の３Ｄ位置誤差も動きセンサ４０３に関する状態変数

に含まれてもよい。

一実施形態において、イメージセンサ４０１によって取得された映像フレームから見た特徴点の位置誤差を、下記の数式（２）のようにイメージセンサ４０１又は映像フレームに関する状態変数

に推定することができる。

ここで、

は、カメラによってキャプチャーされた映像フレームから見たＮ番目の特徴点の位置の誤差に該当する。

ここで、

はカメラによってキャプチャーされた映像フレームから見たｊ番目の特徴点の位置に該当し、

及び

は、映像フレームから見たｊ番目の特徴点の３Ｄ位置座標（ｘ、ｙ、ｚ）に該当する。

推定モデルの全体状態変数

は、下記の数式（４）のように示すことができ、フィルタの設計に応じて状態変数により推定する値は変更され得る。

ポーズ推定装置４００は確率的なモデル、言い換えれば、フィルタ基盤の推定モデルを基盤にポーズを推定し、フィルタ基盤の推定モデルの動作は、大きく状態予測と測定値アップデートとに区分する。

より具体的に、状態予測部４３０は、推定している値と動きセンサ４０３の入力（例えば、位置、速度、姿勢など）を介して現在状態変数と確率分布（例えば、以前状態変数の推定共分散）を予測することができる。

状態予測部４３０は、以前映像フレームで推定した以前状態変数を基盤に予測した現在状態変数を更新する。推定モデルは測定値（例えば、特徴点の位置）をアップデートするとき、フィードバック構造で誤差を除去することができる。したがって、状態予測部４３０は、誤差値に対する更新を実行せず、確率分布に対する予測を行うことができる。

状態予測部４３０は、例えば、下記の数（５）を介して現在状態変数を予測るすることができる。

ここで、

は、ｋ時点における状態変数の誤差共分散を意味し、

は、システムモデル（推定モデル）を意味し、

は、システムノイズに該当する。システムノイズ

は、動きセンサ（例えば、ＩＭＵセンサ）の誤差特性に応じて決定され得る。

測定値更新部４４０は、状態予測部４３０が予測した以前状態情報の誤差共分散と現在映像フレームから抽出した特徴点情報を用いて現在状態変数を推定することができる。

測定値更新部４４０は、実際の測定値（特徴点の位置）と以前映像フレームに基づいて推定した以前状態変数に基づいて予測した測定値（特徴点の位置）間の差ｒを反映し、現在状態変数を更新することができる。ここで、実際の測定値と予測した測定値との間の差に該当する残差（ｒｅｓｉｄｕａｌ）

は、下記の数式（６）のように示すことができる。

ここで、

は推定モデルを示し、

は測定値ノイズ（又は、エラー）を示す。

一実施形態において、推定モデルの不確実性による誤差を測定値ノイズ、言い換えれば、測定値に対するノイズとして考慮することができる。

予測した測定値と実際の測定値との間の差に該当する残差

は、下記の数式（７）のように表現することができる。例えば、ｊ番目の特徴点に対する測定値を使用するとき、イメージセンサを介して測定したｊ番目の特徴点の実際の位置

とｊ番目の特徴点の予測した位置

を差分すれば、下記の数式（７）のように整理することができる。下記の数式において、

記号は、実際の測定された値を意味し、

記号は、推定した値を意味する。また、

記号の含まれているものは誤差を意味し、いずれの記号も含まれていないものは正解値（ｇｒｏｕｎｄｔｒｕｔｈ）を意味する。

ここで、実際の測定値

は、例えば、ピンホールカメラモデル（ｐｉｎｈｏｌｅｃａｍｅｒａｍｏｄｅｌ）で焦点距離が１である平面上で測定された特徴点の深さ方向の位置に該当する。また、予測した測定値

は、カメラによってキャプチャーされた映像フレームから見たｊ番目の特徴点の位置

を用いて求めることができる。

また、ｊ番目の特徴点をイメージセンサなどによって測定した深さ方向の実際の位置

は下記の数式（８）のように示し、ｊ番目の特徴点の予測した深さ方向の位置

は下記の数式（９）のように示すことができる。

ここで、

は、映像のＵ軸上のｊ番目の特徴点の実際の位置に該当し、

は、映像のＶ軸上のｊ番目の特徴点の実際の位置に該当する。Ｕ軸は、例えば、Ｘ軸に対応し、Ｖ軸は、例えば、Ｙ軸に対応する。

ここで、

は、カメラのようなイメージセンサによってキャプチャーされた映像フレームから見たｊ番目の特徴点の推定された３Ｄ位置座標（ｘ、ｙ、ｚ）に該当する。

まず、数式（８）に記載されたＵ軸上のｊ番目の特徴点の実際の測定位置

は、下記の数式（１０）のようにＵ軸上のｊ番目の特徴点の正解値（正解）

と誤差

の和に表すことができる。

下記の数式（１１）を用いて推定された３次元上の特徴点の位置座標

からｕ軸上の特徴点の位置座標を算出することができる。

ここで、数式（１１）は、推定された３次元上のｊ番目の特徴点の位置座標からｕ軸上のｊ番目の特徴点の位置座標を算出したことを意味し、推定された値は、正解値と誤差の和に示すことができる。

特徴点の位置を実際に測定した値と特徴点の位置を予測した値を数式（１０）のように正解値と誤差の和として表現した後、数式（１１）のように差分すれば下記の数式（１２）のように示すことができる。

ここで、

と

は正解値であるため、２つの値を差分した結果は０になる。

数式（１３）を用いて数式（１２）を再び整理すると、下記の数式（１４）のように示すことができる。

ここで、

は、キャプチャーされた映像フレームから見たｊ番目の特徴点の３Ｄ位置座標（ｘ、ｙ、ｚ）の誤差に該当する。

は、Ｕ軸で測定した正解値（正解）

に対する誤差に該当する。

数式（１４）に示すような線型化された拡張されたカルマンフィルター（ＥＫＦ）で最後の項

は、線型での近似化を行い、残った残りに該当する。

最後の項

を除いた誤差について、下記の数式（１５）～数式（１７）のように数式（６）で言及した測定値モデルに表現することができる。

ここで、

はＵ軸に対する推定モデル

の状態を示す状態誤差に該当する。

は、Ｕ軸上のｊ番目の特徴点の測定された実際の位置

に対する誤差に該当する。

は、Ｕ軸上の測定値ノイズ(測定値エラー)に該当する。

は、Ｕ軸上のj番目の特徴点の位置に対する誤差の分散に該当する。

一般に拡張カルマンフィルター（ＥＫＦ）は高次項を無視するが、誤差が小さくない場合は高次項による影響により追加的な推定誤差が発生し得る。

一実施形態では、線型化された拡張されたカルマンフィルター（ＥＫＦ）の高次項を近似して測定値（例えば、特徴点の位置）に対するノイズ（「測定値ノイズ」）形態に考慮することで、様々な動作状況に剛健なＶＩＯを設計し、安定的にポーズを推定することができる。それだけでなく、推定モデルの不確実性を考慮することで、迅速な動作状況で発生し得る追加的なノイズを減らすことができるため、拡張されたカルマンフィルター（ＥＫＦ）に比べて動的ジッター（ｊｉｔｔｅｒ）の減少効果も有することができる。

数式（１４）において、高次項の部分

は、下記の数式（１８）のように整理することができる。

例えば、測定値ノイズをガウス分布（Ｇａｕｓｓｉａｎｄｉｓｔｒｉｂｕｔｉｏｎ）に仮定すれば、フロントエンド３１０から伝達されたｊ番目の特徴点の実際の位置

値はガウス分布に従わず、実際には誤差が大きく発生する可能性がある。したがって、一実施形態において、数式（１８）の誤差は、相関関係（ｃｏｒｒｅｌａｔｉｏｎ）を無視して測定値ノイズの形態に考慮される。測定値ノイズは、例えば、特徴点の深さ方向の位置が間違って推定されることにより発生する推定モデルの誤差である。

ここで、推定モデルの誤差を測定値ノイズ形態に考慮した方法は様々に存在する。モデル不確実性算出部４５０は、例えば、推定モデルのチューニングパラメータを

又は

に定義した後、状態変数を更新する数式（１５）を下記の数式（１９）のように示すことができる。

測定値ノイズ

は、下記の数式（２０）のようにＵ軸上のｊ番目の特徴点の位置に対する誤差の分散である。

ここで、

は推定モデル

の不確実性である。

下記の数式（２１）において、推定モデルに対する不確実性を推定モデルのチューニングパラメータ

と共に示し、数式（１８）で言及した誤差は、相関関係を無視してチューニングパラメータに比例したノイズとして考慮した。

モデル不確実性算出部４５０は、

と同様にＶ軸上のｊ番目の特徴点の実際の位置

についても下記の数式（２２）のように推定モデルの不確実性

を測定値のイズ形態に考慮することができる。

ここで、

は、Ｖ軸に対する推定モデル

の状態を示す状態誤差である。

は、Ｖ軸上のｊ番目の特徴点の実際の位置

に対する誤差である。

は、Ｖ軸上の測定値ノイズ（測定値エラー）である。

は、推定モデル

の不確実性を示す。

測定値ノイズ

は、下記の数式（２３）のようにＶ軸上のｊ番目の特徴点の位置に対する誤差の分散である。

推定モデル

の不確実性

は、下記の数式（２４）のように測定値イズ形態に考慮することができる。

図５は、一実施形態によりポーズを推定する方法を示したフローチャートである。以下、実施形態で各動作は順次実行されてもよいが、必ず順次実行されなくてもよい。例えば、各動作の順序が変更されてもよく、少なくとも２つの動作が並列的に実行されてもよい。

図５を参照すると、一実施形態に係るポーズ推定装置は、動作Ｓ５１０ないし動作Ｓ５５０を介して電子装置のポーズを推定することができる。

動作Ｓ５１０において、ポーズ推定装置は、イメージセンサから受信した、複数の映像フレームを含む映像情報から抽出した特徴点の位置を追跡する。ポーズ推定装置は、例えば、映像フレームのうち現在映像フレームに含まれている第２特徴点を抽出してもよい。ポーズ推定装置は、映像フレームのうち現在映像フレームに先行する以前映像フレームから抽出された第１特徴点と第２特徴点との間のマッチングを介して第２特徴点の位置を追跡することができる。

動作Ｓ５２０において、ポーズ推定装置は、動きセンサから受信した動き情報に基づいて、電子装置のポーズを推定する推定モデルの現在状態変数を予測する。ポーズ推定装置は、動き情報に基づいて電子装置の位置、速度、及び姿勢を含むポーズを推定する推定モデルの現在状態変数を予測する。推定モデルは、例えば、フィルタ基盤の視覚的慣性距離計（ＶｉｓｕａｌＩｎｅｒｔｉａｌＯｄｏｍｅｔｒｙ；ＶＩＯ）を用いた推定モデルであってもよいが、必ずこれに限定されることはない。ここで、フィルタは、例えば、ＥＫＦ（ＥｘｔｅｎｄｅｄＫａｌｍａｎＦｉｌｔｅｒ）、ＵＫＦ（ＵｎｓｃｅｎｔｅｄＫａｌｍａｎＦｉｌｔｅｒ）、及びＥＩＦ（ＥｘｔｅｎｄｅｄＩｎｆｏｒｍａｔｉｏｎＦｉｌｔｅｒ）などのようにカルマンフィルターに基づいたフィルタであってもよい。現在状態変数は、特徴点の現在位置に対応する確率分布を含んでもよい。

動作Ｓ５２０において、ポーズ推定装置は、例えば、動き情報及び映像フレームのうち以前映像フレームに対応する以前状態変数に基づいて、映像フレームのうち現在映像フレームに対応する現在状態変数及び以前状態変数の誤差共分散を予測する。

動作Ｓ５３０において、ポーズ推定装置は、映像フレームから抽出した特徴点の第１位置と、動作Ｓ５２０で予測した現在状態変数に基づいて予測された特徴点の第２位置との間の残差に基づいて、推定モデルの不確実性によるノイズを決定する。ポーズ推定装置が推定モデルの不確実性によるノイズを決定する方法については、以下の図６を参照してより具体的に説明する。

動作Ｓ５４０において、ポーズ推定装置は、動作Ｓ５２０で予測した現在状態変数、動作Ｓ５１０で追跡した特徴点の位置、及び動作Ｓ５３０で決定したノイズに基づいて、現在状態変数を更新する。ポーズ推定装置は、例えば、現在状態変数、以前状態変数の誤差共分散、追跡した特徴点の位置及びノイズに基づいて、現在状態変数を更新することができる。

動作Ｓ５５０において、ポーズ推定装置は、更新された現在状態変数に基づいて電子装置のポーズを推定する。電子装置は、例えば、スマートグラス（ｓｍａｒｔｇｌａｓｓ）を含むウェアラブルデバイス（ｗｅａｒａｂｌｅｄｅｖｉｃｅ）及びＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）機器、ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）機器、及びＭＲ（ＭｉｘｅｄＲｅａｌｉｔｙ）機器を含むヘッドマウントデバイス（ＨｅａｄＭｏｕｎｔｅｄＤｅｖｉｃｅ；ＨＭＤ）のうち少なくとも１つを含んでもよい。

図６は、一実施形態によりノイズを決定する方法を示したフローチャートである。以下、実施形態における各動作は順次実行されてもよいが、必ず順次実行されなくてもよい。例えば、各動作の順序が変更されてもよく、少なくとも２つの動作が並列的に実行されてもよい。

図６を参照すると、一実施形態に係るポーズ推定装置は、動作Ｓ６１０ないし動作Ｓ６２０を介して推定モデルの不確実性によるノイズを決定することができる。

動作Ｓ６１０において、ポーズ推定装置は、映像フレームのうち現在映像フレームから抽出した特徴点の第１位置と現在状態変数に基づいて予測された特徴点の第２位置との間の残差を算出する。ポーズ推定装置は、例えば、前述した数式（６）に残差を算出することができる。

動作Ｓ６２０において、ポーズ推定装置は、動作Ｓ６１０で算出した残差に基づいて、推定モデルの不確実性によるノイズを決定する。ここで、推定モデルの不確実性は、例えば、カルマンフィルター（Ｋａｌｍａｎｆｉｌｔｅｒ）方式のＳＬＡＭ（ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎａｎｄＭａｐｐｉｎｇ）方式による推定共分散（ｅｓｔｉｍａｔｉｏｎｃｏｖａｒｉａｎｃｅ）に基づいて決定されたものであるが、必ずこれに限定されることはない。推定モデルの不確実性によるノイズは、例えば、特徴点の深さ方向の位置が間違って推定されることで生じる推定モデルの誤差に該当する。

ポーズ推定装置は、例えば、現在映像フレームから抽出した特徴点の第１位置と現在状態変数に基づいて予測された特徴点の第２位置との間の残差を、前述した数式（１０）のように正解（Ｇｒｏｕｎｄ－Ｔｒｕｔｈ）と誤差の和に表現することによってノイズを決定することができる。

又は、ポーズ推定装置は、残差を正解と誤差の和として表現した結果を推定モデルのチューニングパラメータによって近似化することでノイズを決定してもよい。

図７は、他の実施形態によってポーズを推定する方法を示したフローチャートである。以下の実施形態において、各動作は順次行ってもよいが、必ず順次行うわなくてもよい。例えば、それぞれの動作の順序が変更されてもよく、少なくとも２つの動作が並列的に行われてもよい。

図７を参照すると、一実施形態に係るポーズ推定装置は動作Ｓ７１０ないし動作Ｓ７９０を介して電子装置のポーズを推定することができる。電子装置は、イメージセンサ及び動きセンサを含んでもよい。

動作Ｓ７１０において、ポーズ推定装置は、イメージセンサから複数の映像フレームを含む映像情報を受信する。

動作Ｓ７２０において、ポーズ推定装置は、映像フレームのうち現在映像フレームに含まれた第２特徴点を抽出する。

動作Ｓ７３０において、ポーズ推定装置は、映像フレームのうち現在映像フレームに先行する以前映像フレームから抽出された第１特徴点と第２特徴点との間のマッチングを介して特徴点の位置を追跡する。

動作Ｓ７４０において、ポーズ推定装置は、動きセンサから電子装置の動き情報を受信する。ここで、電子装置は、ポーズ推定装置であってもよく、ポーズ推定装置とは区別される別個の装置であってもよい。

動作Ｓ７５０において、ポーズ推定装置は、動き情報及び映像フレームのうち以前映像フレームに対応する以前状態変数に基づいて、映像フレームのうち現在映像フレームに対応する現在状態変数及び以前状態変数の誤差共分散を予測する。

動作Ｓ７６０において、ポーズ推定装置は、現在映像フレームから抽出した第１特徴点の第１位置と現在状態変数に基づいて予測された第２特徴点の第２位置との間の残差を算出する。

動作Ｓ７７０において、ポーズ推定装置は、残差に基づいて推定モデルの不確実性によるノイズを決定する。

動作Ｓ７８０において、ポーズ推定装置は、現在状態変数、以前状態変数の誤差共分散、追跡した特徴点の位置、及びノイズに基づいて、現在状態変数を更新する。

動作Ｓ７９０において、ポーズ推定装置は、更新された現在状態変数に基づいて、電子装置のポーズを推定する。

図８は、一実施形態に係るポーズ推定装置のブロック図である。図８を参照すると、一実施形態に係るポーズ推定装置８００は、少なくとも１つのセンサ（例えば、１つ以上のセンサ）８１０、プロセッサ（例えば、１つ以上のプロセッサ）８３０、メモリ（例えば、１つ以上のメモリ）８５０、通信インターフェース８７０、及びディスプレイ８９０を含む。少なくとも１つのセンサ８１０、プロセッサ８３０、メモリ８５０、通信インターフェース８７０、及びディスプレイ８９０は、通信バス８０５を介して接続される。

少なくとも１つのセンサ８１０は、複数の映像フレームを含む映像情報を検出するイメージセンサ及び電子装置の動き情報を検出する動きセンサを含む。

プロセッサ８３０は、ここで説明された動作及び方法のうち任意の１つ以上又は全てを行ってもよい。

プロセッサ８３０は、映像情報から特徴点を抽出して追跡する。プロセッサ８３０は、動き情報に基づいて電子装置のポーズを推定する推定モデルの現在状態変数を予測する。プロセッサ８３０は、映像フレームから抽出した特徴点の第１位置と現在状態変数に基づいて予測された特徴点の第２位置との間の残差に基づいて、推定モデルの不確実性によるノイズを決定することができる。プロセッサ８３０は、現在状態変数、追跡した特徴点の位置、及びノイズに基づいて現在状態変数を更新する。プロセッサ８３０は、更新された現在状態変数に基づいて、電子装置のポーズを推定する。

例えば、ポーズ推定装置８００がウェアラブル電子装置である場合、プロセッサ８３０は、推定されたポーズに基づいて仮想のコンテンツを生成してもよい。仮想のコンテンツは、例えば、前述した拡張現実コンテンツ２１０であってもよく、その他の様々な混合現実コンテンツであってもよい。

この場合、ディスプレイ８９０は、プロセッサ８３０が生成した仮想のコンテンツを表示する。

プロセッサ８３０はプログラムを実行し、ポーズ推定装置８００を制御することができる。プロセッサ８３０によって実行されるプログラムコードは、メモリ８５０に格納される。

メモリ８５０は、少なくとも１つのセンサ８１０によって検出された映像情報及び／又は動き情報を格納する。メモリ８５０は、プロセッサ８３０が予測した推定モデルの現在状態変数、残差、及びノイズのうち少なくとも１つを格納する。また、メモリ８５０は、プロセッサ８３０によって更新された現在状態変数、推定されたポーズ、及び／又はプロセッサ８３０によって生成された仮想のコンテンツを格納する。

このように、メモリ８５０は、上述したプロセッサ８３０の処理過程で生成される様々な情報を格納することができる。その他にも、メモリ８５０は、各種のデータとプログラムなどを格納してもよい。メモリ８５０は、揮発性メモリ又は不揮発性メモリを含んでもよい。メモリ８５０は、ハードディスクなどのような大容量の格納媒体を備えて各種データを格納することができる。

通信インターフェース８７０は、少なくとも１つのセンサ８１０が検出した情報を受信する。通信インターフェース８７０は、プロセッサ８３０が予測した電子装置のポーズを外部に送信する。

ポーズ推定装置８００は、ディスプレイ８９０を選択的に含んでもよい。例えば、ポーズ推定装置８００がウェアラブル電子装置である場合、ポーズ推定装置８００は、前述した過程を介してプロセッサ８３０が推定したウェアラブル電子装置のポーズに基づいて、仮想コンテンツオブジェクトと実際のオブジェクトを整合してもよい。この場合、ディスプレイ８９０は、プロセッサ８３０によって整合な仮想コンテンツオブジェクトと実際のオブジェクトを可視化する。ディスプレイ８９０は、例えば、ディスプレイ、及び／又はフレキシブルディスプレイであってもよく、必ずこれに限定されることはない。この場合、整合結果をディスプレイ９８０を介して表示することができる。

一実施形態に係るポーズ推定装置８００は、例えば、先端運転者補助システム（ＡｄｖａｎｃｅｄＤｒｉｖｅｒｓＡｓｓｉｓｔａｎｃｅＳｙｓｔｅｍ；ＡＤＡＳ）、ＨＵＤ（ＨｅａｄＵｐＤｉｓｐｌａｙ）装置、３Ｄデジタル情報ディスプレイ（ＤｉｇｉｔａｌＩｎｆｏｒｍａｔｉｏｎＤｉｓｐｌａｙ、ＤＩＤ）、ナビゲーション装置、ニューロモルフィック装置（ｎｅｕｒｏｍｏｒｐｈｉｃｄｅｖｉｃｅ）、３Ｄモバイル機器、スマートフォン、スマートＴＶ、スマート車両、ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）デバイス、医療デバイス、及び計測デバイスなどのように様々な分野の装置に該当する。ここで、３Ｄモバイル機器は、例えば、拡張現実（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ；ＡＲ）、仮想現実（ＶｉｒｔｕａｌＲｅａｌｉｔｙ；ＶＲ）、及び／又は混合現実（ＭｉｘｅｄＲｅａｌｉｔｙ；ＭＲ）を表示するためのディスプレイ装置、頭着用ディスプレイ（ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ；ＨＭＤ）、顔着用ディスプレイ（ＦａｃｅＭｏｕｎｔｅｄＤｉｓｐｌａｙ；ＦＭＤ）、及び拡張現実メガネ（ＡＲｇｌａｓｓｅｓ）などを全て含む意味として理解される。

また、プロセッサ８３０は、図１～図７を参照して前述した少なくとも１つの方法又は少なくとも１つの方法に対応する方式を行ってもよい。プロセッサ８３０は、目的とする動作を実行させるための物理的な構造を有する回路を有するハードウェアで具現されたポーズ推定装置であってもよい。例えば、目的する動作は、プログラムに含まれたコード（ｃｏｄｅ）又は命令（ｉｎｓｔｒｕｃｔｉｏｎｓ）を含んでもよい。例えば、ハードウェアで具現されたポーズ推定装置は、マイクロプロセッサー（ｍｉｃｒｏｐｒｏｃｅｓｓｏｒ）、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ；ＣＰＵ）、グラフィック処理装置（ＧｒａｐｈｉｃＰｒｏｃｅｓｓｉｎｇＵｎｉｔ；ＧＰＵ）、プロセッサコア（ｐｒｏｃｅｓｓｏｒｃｏｒｅ）、マルチコアプロセッサ（ｍｕｌｔｉ－ｃｏｒｅｐｒｏｃｅｓｓｏｒ）、マルチプロセッサ（ｍｕｌｔｉｐｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＮＰＵ（ＮｅｕｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などを含んでもよい。

以上で説明された実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び／又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気－光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。

上記で説明したハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。

したがって、他の具現、他の実施形態および特許請求の範囲と均等なものも後述する特許請求範囲の範囲に属する。

８００：ポーズ推定装置
８０５：通信バス
８１０：少なくとも１つのセンサ
８３０：プロセッサ
８５０：メモリ
８７０：通信インターフェース
８９０：ディスプレイ

Claims

プロセッサによって実現されるポーズを推定する方法であって、
イメージセンサから受信した、複数の映像フレームを含む映像情報から抽出した特徴点の位置を追跡する動作と、
動きセンサから受信した動き情報に基づいて、前記電子装置のポーズを決定する推定モデルの現在状態変数を予測する動作と、
前記映像フレームから抽出した特徴点の第１位置と前記現在状態変数に基づいて予測された前記特徴点の第２位置との間の残差に基づいて、前記推定モデルの不確実性によるノイズを決定する動作と、
前記現在状態変数、前記追跡した特徴点の位置、及び前記ノイズに基づいて、前記現在状態変数を更新する動作と、
前記更新された現在状態変数に基づいて、前記電子装置のポーズを決定する動作と、
を含む、ポーズを推定する方法。
前記ノイズを決定する動作は、
前記映像フレームのうち、現在映像フレームから抽出した前記特徴点の第１位置と前記現在状態変数に基づいて予測された前記特徴点の第２位置との間の残差を決定する動作と、
前記残差に基づいて前記推定モデルの不確実性によるノイズを決定する動作と、
を含む、請求項１に記載のポーズを推定する方法。
前記ノイズを決定する動作は、前記現在映像フレームから抽出した前記特徴点の第１位置と前記現在状態変数に基づいて予測された前記特徴点の第２位置との間の前記残差を正解（Ｇｒｏｕｎｄ－Ｔｒｕｔｈ）と誤差の和として表現することによって前記ノイズを決定する動作を含む、請求項２に記載のポーズを推定する方法。
前記ノイズを決定する動作は、前記残差を正解と誤差の和として表現した結果を前記推定モデルのチューニングパラメータによって近似化することで前記ノイズを決定する動作を含む、請求項３に記載のポーズを推定する方法。
前記推定モデルの不確実性は、拡張されたカルマンフィルター（ＥｘｔｅｎｄｅｄＫａｌｍａｎｆｉｌｔｅｒ）方式のＳＬＡＭ（ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎａｎｄＭａｐｐｉｎｇ）方式による推定共分散に基づいて決定される、請求項１に記載のポーズを推定する方法。
前記現在状態変数を予測する動作は、前記動き情報及び前記映像フレームのうち以前映像フレームに対応する以前状態変数に基づいて、前記映像フレームのうち現在映像フレームに対応する現在状態変数及び前記以前状態変数の誤差共分散を予測する動作を含む、請求項１に記載のポーズを推定する方法。
前記現在状態変数を更新する動作は、前記現在状態変数、前記以前状態変数の誤差共分散、前記追跡した特徴点の位置及び前記ノイズに基づいて、前記現在状態変数を更新する動作を含む、請求項６に記載のポーズを推定する方法。
前記特徴点の位置を追跡する動作は、
前記映像フレームのうち現在映像フレームに含まれた第２特徴点を抽出する動作と、
前記映像フレームのうち、前記現在映像フレームに先行する以前映像フレームから抽出された第１特徴点と前記第２特徴点との間のマッチングを介して前記第２特徴点の位置を追跡する動作と、
を含む、請求項１に記載のポーズを推定する方法。
前記推定モデルは、フィルタ基盤の視覚的慣性距離計（ＶｉｓｕａｌＩｎｅｒｔｉａｌＯｄｏｍｅｔｒｙ：ＶＩＯ）を用いた推定モデルを含む、請求項１に記載のポーズを推定する方法。
前記電子装置は、
スマートグラスを含むウェアラブルデバイスと、
ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）機器、ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）機器、及びＭＲ（ＭｉｘｅｄＲｅａｌｉｔｙ）機器を含むヘッドマウントデバイス（ＨｅａｄＭｏｕｎｔｅｄＤｅｖｉｃｅ：ＨＭＤ）と、
のいずれか１つ又は２以上を含む、請求項１に記載のポーズを推定する方法。
１つ以上のハードウェアと結合して請求項１に記載の方法を実行させるためにコンピュータで読み出し可能な記録媒体に格納されたコンピュータプログラム。
ポーズを推定する装置であって、
複数の映像フレームを含む映像情報を検出するイメージセンサと、
前記電子装置の動き情報を検出する動きセンサと、
前記映像情報から特徴点を抽出して追跡し、前記動き情報に基づいて前記電子装置のポーズを決定する推定モデルの現在状態変数を予測し、前記映像フレームから抽出した特徴点の第１位置と前記現在状態変数に基づいて予測された前記特徴点の第２位置との間の残差に基づいて、前記推定モデルの不確実性によるノイズを決定し、前記現在状態変数、前記追跡した特徴点の位置、及び前記ノイズに基づいて前記現在状態変数を更新し、前記更新された現在状態変数に基づいて前記電子装置のポーズを決定する１つ以上のプロセッサと、
を含む、ポーズを推定する装置。
前記ノイズを決定するために、前記１つ以上のプロセッサは、前記映像フレームのうち現在映像フレームから抽出した前記特徴点の第１位置と前記現在状態変数に基づいて予測された前記特徴点の第２位置との間の前記残差を決定し、前記残差に基づいて、前記推定モデルの不確実性によるノイズを決定する、請求項１２に記載のポーズを推定する装置。
前記ノイズを決定するために前記１つ以上のプロセッサは、
前記現在映像フレームから抽出した前記特徴点の第１位置と前記現在状態変数に基づいて予測された前記特徴点の第２位置との間の前記残差を正解と誤差の和として表現することによって前記ノイズを決定する、請求項１３に記載のポーズを推定する装置。
前記ノイズを決定するために前記１つ以上のプロセッサは、前記残差を正解と誤差の和として表現した結果を、前記推定モデルのチューニングパラメータによって近似化することで前記ノイズを決定する、請求項１４に記載のポーズを推定する装置。
前記推定モデルの不確実性は、拡張されたカルマンフィルター方式のＳＬＡＭ（ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎａｎｄＭａｐｐｉｎｇ）方式による推定共分散に基づいて決定される、請求項１２に記載のポーズを推定する装置。
前記現在状態変数を予測するために、前記１つ以上のプロセッサは、前記動き情報及び前記映像フレームのうち以前映像フレームに対応する以前状態変数に基づいて、前記映像フレームのうち現在映像フレームに対応する現在状態変数及び前記以前状態変数の誤差共分散を予測する、請求項１２に記載のポーズを推定する装置。
前記現在状態変数を更新するために、前記１つ以上のプロセッサは、前記現在状態変数、前記以前状態変数の誤差共分散、前記追跡した特徴点の位置、及び前記ノイズに基づいて前記現在状態変数を更新する、請求項１７に記載のポーズを推定する装置。
前記特徴点の位置を追跡するために、前記１つ以上のプロセッサは、前記映像フレームのうち現在映像フレームに含まれた第２特徴点を抽出し、前記映像フレームのうち前記現在映像フレームに先行する以前映像フレームから抽出された第１特徴点と前記第２特徴点との間のマッチングを介して前記第２特徴点の位置を追跡する、請求項１２に記載のポーズを推定する装置。
前記推定モデルは、フィルタ基盤の視覚的慣性距離計（ＶｉｓｕａｌＩｎｅｒｔｉａｌＯｄｏｍｅｔｒｙ：ＶＩＯ）を用いた推定モデルを含む、請求項１２に記載のポーズを推定する装置。
前記電子装置は、
スマートグラスを含むウェアラブルデバイスと、
ＡＲ機器、ＶＲ機器、及びＭＲ機器のいずれか１つ又は２以上を含むヘッドマウントデバイスと、
のいずれか１つ又は２以上を含む、請求項１２に記載のポーズを推定する方法。
ウェアラブル電子装置であって、
複数の映像フレームを含む映像情報を検出するイメージセンサと、
前記ウェアラブル電子装置の動き情報を検出する動きセンサと、
前記映像情報から特徴点を抽出して追跡し、前記動き情報に基づいて前記ウェアラブル電子装置のポーズを決定する推定モデルの現在状態変数を予測し、前記映像フレームから抽出した特徴点の第１位置と前記現在状態変数に基づいて予測された前記特徴点の第２位置との間の残差に基づいて、前記推定モデルの不確実性によるノイズを決定し、前記現在状態変数、前記追跡した特徴点の位置、及び前記ノイズに基づいて前記現在状態変数を更新し、前記更新された現在状態変数に基づいて前記ウェアラブル電子装置のポーズを決定し、前記決定されたポーズに基づいて仮想のコンテンツを生成する１つ以上のプロセッサと、
前記仮想のコンテンツを表示するディスプレイと、
を含む、ウェアラブル電子装置。
プロセッサによって実現されるポーズを推定する方法であって、
電子装置のポーズを決定するための推定モデルの現在状態変数を予測する動作と、
映像フレームから抽出された特徴点の第１位置と前記現在状態変数に基づいて予測された特徴点の第２位置との間の残差に基づいて、前記推定モデルの不確実性によるノイズを決定する動作と、
前記ノイズに基づいて前記現在状態変数を更新する動作と、
前記更新された現在状態変数に基づいて前記電子装置のポーズを決定する動作と、
を含む、ポーズを推定する方法。
前記現在状態変数は、動きセンサに対応する状態変数とイメージセンサに対応する状態変数を含む、請求項２３に記載のポーズを推定する方法。
前記動きセンサに対応する状態変数は、前記映像フレームのいずれか１つの映像フレームの方向誤差、前記動きセンサのバイアス誤差、速度誤差、加速度誤差、及び位置誤差のいずれか１つ又は２以上の任意の組み合わせを含む、請求項２４に記載のポーズを推定する方法。
前記イメージセンサに対応する状態変数は、前記映像フレームのいずれか１つの映像フレームで見える特徴点の位置の誤差を含む、請求項２４に記載のポーズを推定する方法。