JP2018500645A

JP2018500645A - オブジェクトをトラッキングするためのシステムおよび方法

Info

Publication number: JP2018500645A
Application number: JP2017525350A
Authority: JP
Inventors: サーキス、ミシェル・アディブ; チ、インヨン; モハメド、マグディ・アブエルガシム
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2014-11-12
Filing date: 2015-10-13
Publication date: 2018-01-11
Also published as: US20160133022A1; US9665804B2; CN107077738B; WO2016077000A1; EP3218873A1; CN107077738A

Abstract

電子デバイスによってオブジェクトをトラッキングするための方法が説明されている。方法は、検出されたオブジェクトポジションを作り出すために、初期フレームにおけるオブジェクトポジションを検出することを含む。方法はまた、その検出されたオブジェクトポジションまたは予測されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定することを含む。方法はさらに、その１つ以上の目印ポジションに基づいて、後続のフレームにおけるオブジェクトポジションを予測することを含む。方法は加えて、オブジェクトトラッキングが見失われているかどうかを決定することを含む。方法はまた、オブジェクトトラッキングが維持されているケースでは、後続のフレームに関してオブジェクト検出を実行するのを回避することを含む。【選択図】図２

Description

[0001]本開示は概して、電子デバイスに関する。より具体的には、本開示は、オブジェクトをトラッキングするためのシステムおよび方法に関する。

[0002]過去数十年で、電子デバイスの使用は一般的になってきた。特に電子技術の進歩は、ますます複雑な、かつ有用な電子デバイスのコストを削減してきた。コスト削減および消費者の需要は、電子デバイスの使用を、それらが現代社会において事実上ユビキタス（ubiquitous）になるように急増させてきた。電子デバイスの使用が拡大するにつれ、電子デバイスの新しく、かつ改善された特徴を求める需要も拡大してきた。より具体的には、新たな機能を実行する、および／またはより迅速に、より効率的に、もしくはより信頼性高く機能を実行する電子デバイスが度々追求される。

[0003]いくつかの電子デバイスは画像を利用する。例えば、スマートフォンは、デジタル画像をキャプチャおよび処理することができる。しかしながら、画像を処理することは、多大なリソース（例えば、時間および電力）を要求する複雑な動作を伴いうる。この議論から観測されうるように、画像処理を改善するシステムおよび方法が有益でありうる。

[0004]電子デバイスによってオブジェクトをトラッキングするための方法が説明される。方法は、検出されたオブジェクトポジションを作り出すために、初期フレームにおけるオブジェクトポジションを検出することを含む。方法はまた、その検出されたオブジェクトポジションまたは予測されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定することを含む。方法はさらに、その１つ以上の目印ポジション（landmark positions）に基づいて、後続のフレームにおけるオブジェクトポジションを予測することを含む。方法は加えて、オブジェクトトラッキングが見失われている（lost）かどうかを決定することを含む。方法はまた、オブジェクトトラッキングが維持されているケースでは、後続のフレームに関してオブジェクト検出を実行するのを回避することを含む。オブジェクトトラッキングが見失われているかどうかを決定することは、１つ以上の目印ポジションおよびオブジェクトポジション予測のうちの少なくとも１つに基づきうる。方法は、単一の画像シーケンスのある時間での１つのフレームに対して動作しうる。

[0005]オブジェクトポジション検出およびオブジェクトポジション予測は独立していることがある。オブジェクトポジションを予測することは、前のフレームからの１つ以上の目印ポジションに基づきうる。目印ポジションの構造は予め定義されうる。目印ポジションは、オブジェクトの構造内にありうる。

[0006]速度モデルが予測中に利用され得、変位モデルが測定中に利用されうる。速度モデルおよび変位モデルの各々は、オブジェクトの構造に対応しうる。速度モデルおよび変位モデルは、いずれの厳しい制約も含まないことがある。

[0007]方法は、前のフレームの目印からのオブジェクトポジション予測のために速度モデルをトレーニングすることを含むことができる。方法は、現在のフレームにおける予測された境界ボックスポジションからの、または現在のフレームにおける検出された境界ボックスポジションからの目印測定のために変位モデルをトレーニングすることを含むことができる。

[0008]オブジェクトをトラッキングするための電子デバイスもまた説明される。電子デバイスは、プロセッサ、およびプロセッサと電子通信状態にあるメモリを含む。電子デバイスはまた、メモリに記憶された命令を含む。命令は、検出されたオブジェクトポジションを作り出すために、初期フレームにおけるオブジェクトポジションを検出するようにプロセッサによって実行可能である。命令はまた、その検出されたオブジェクトポジションまたは予測されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定するようにプロセッサによって実行可能である。命令はさらに、その１つ以上の目印ポジションに基づいて、後続のフレームにおけるオブジェクトポジションを予測するようにプロセッサによって実行可能である。命令は加えて、オブジェクトトラッキングが見失われているかどうかを決定するようにプロセッサによって実行可能である。命令はまた、オブジェクトトラッキングが維持されているケースでは、後続のフレームに関してオブジェクト検出を実行するのを回避するようにプロセッサによって実行可能である。

[0009]オブジェクトをトラッキングするためのコンピュータプログラム製品もまた説明される。コンピュータプログラム製品は、命令を持つ非一時的な有形のコンピュータ可読媒体を含む。命令は、検出されたオブジェクトポジションを作り出すために、初期フレームにおけるオブジェクトポジションを検出することを電子デバイスに行わせるためのコードを含む。命令はまた、その検出されたオブジェクトポジションまたは予測されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定することを電子デバイスに行わせるためのコードを含む。命令はさらに、その１つ以上の目印ポジションに基づいて、後続のフレームにおけるオブジェクトポジションを予測することを電子デバイスに行わせるためのコードを含む。命令は加えて、オブジェクトトラッキングが見失われているかどうかを決定することを電子デバイスに行わせるためのコードを含む。命令はまた、オブジェクトトラッキングが維持されているケースでは、後続のフレームに関してオブジェクト検出を実行するのを回避することを電子デバイスに行わせるためのコードを含む。

[0010]オブジェクトをトラッキングするための装置もまた説明される。装置は、検出されたオブジェクトポジションを作り出すために、初期フレームにおけるオブジェクトポジションを検出するための手段を含む。装置はまた、その検出されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定するための手段を含む。装置はさらに、その１つ以上の目印ポジションに基づいて、後続のフレームにおけるオブジェクトポジションを予測するための手段を含む。装置は加えて、オブジェクトトラッキングが見失われているかどうかを決定するための手段を含む。装置はまた、オブジェクトトラッキングが維持されているケースでは、後続のフレームに関してオブジェクト検出を実行するのを回避するための手段を含む。

オブジェクトをトラッキングするためのシステムおよび方法がインプリメントされうる電子デバイスの一構成を例示するブロック図である。オブジェクトをトラッキングするための方法の一構成を例示するフロー図である。オブジェクトをトラッキングするための方法のより具体的な構成を例示するフロー図である。オブジェクトをトラッキングするための方法の別のより具体的な構成を例示するフロー図である。オブジェクトポジションを予測するためにトレーニングするための方法の一構成を例示するフロー図である。目印のセットの分布を例示するグラフを含む。目印運動を例示する３つの例を含む。目印図を含む。オブジェクト検出器から取得された境界ボックスまたは予測されたオブジェクトポジションに基づく目印測定の一例を例示する図である。本明細書で開示されているシステムおよび方法の検証に関する結果の一例を例示するグラフである。本明細書で開示されているシステムおよび方法のブラインドテストに関する結果の一例を例示するグラフである。顔をトラッキングするための既知の手法を例示する２つのフロー図を含む。オブジェクトをトラッキングするためのシステムおよび方法がインプリメントされうるワイヤレス通信デバイスの一構成を例示するブロック図である。電子デバイス内に含まれうるある特定のコンポーネントを例示する例示している。目印測定のために変位モデルをトレーニングするための方法の一構成を例示するフロー図である。

発明の詳細な説明

[0026]オブジェクトをトラッキングするためのシステムおよび方法が本明細書で説明される。例えば、本明細書で開示されるシステムおよび方法は、一連の画像（例えば、ビデオ、単眼ビデオ等）における１つ以上のオブジェクトをトラッキングするためにインプリメントされ（implemented）うる。いくつかの構成では、トラッキングすることは、シーケンシャルなサンプリングフィルタの制御されたカスケードを介して実行されうる。

[0027]既知の手法では、オブジェクトトラッキングメカニズムは、時間的な滑らかさ（smoothness）を維持し、精度を改善するために、カルマンフィルタ、粒子フィルタ、またはミーンシフト（mean-shift）フィルタのようなトラッキングフィルタとオブジェクト検出器を組み合わせることを要求する。これらの手法は、多重解像度および様々なポーズにおけるオブジェクト検出が非常に費用のかかるタスクであるので、高い計算需要（high computational demand）を要求しうる。

[0028]いくつかの構成では、シーケンシャルなサンプリングフィルタの制御されたキャスケードがこの問題を克服するために利用されうる。本明細書で開示されるシステムおよび方法は、常にまたは定期的にオブジェクト検出器を使用することを要求しない。いくつかの構成では、本明細書で開示されるシステムおよび方法は、オブジェクト検出器を使用することによってスタートし得、そして（例えば、トラッキングが見失われていない限りは）以後、トラッキングメカニズムにだけ依存しうる。加えて、本明細書で開示されるシステムおよび方法は、考慮中のオブジェクトが見失われてしまったかどうかをインテリジェントに、かつ自動的に検出することができる。このケースでは、トラッキングすることは、オブジェクト検出器を使用することを自動的に再初期化し、トラッキングを継続することができる。本明細書で開示されるシステムおよび方法のいくつかの構成は自動的であり得、いずれの手動の介在も要求しない。コンセプトのいくつかは、例となるオブジェクトとして人間の顔を使用して本明細書で説明されうる。しかしながら、本明細書で開示されるシステムおよび方法が他のオブジェクトに適用されうることは、留意されるべきである。例えば、本明細書で開示されるシステムおよび方法は、認識可能な目印の構造またはパターンを有するいずれのオブジェクトにも適用されうる。分析、比較、およびテストもまた、本明細書で提示される。

[0029]本明細書で開示されるシステムおよび方法は、目印トラッキングを可能にしうる。目印は、オブジェクトまたは形状の上の位置またはポイントである。いくつかの構成では、目印のセットが特定のオブジェクトに対して定義されうる。例えば、１つ以上の顔に対する目印のセットは、目の縁、虹彩、唇の縁、鼻の縁、耳の縁、顔の輪郭のポイント等を含むことができる。本明細書で開示されるシステムおよび方法が他のコンテキストで適用されうることは、留意されるべきである。例えば、目印のセットは、変形可能または変形不可能な形状またはオブジェクト（例えば、人の顔、人間の全身、箱、三角形、文字、車等）上の交点（vertices）のセットを含むことができる。

[0030]いくつかの構成では、本明細書で開示されるシステムおよび方法は、顔トラッキングに適用されうる。顔が検出されることを想定すると、対応する高密度の顔の目印を位置付けることが多くのアプリケーションに対して利用されうる。アプリケーションの例は、オートフォーカス、ホワイトバランス、顔認識、美化（beautification）のような顔変換および／またはモーフィング（morphing）、自動関連付け（auto-related）アプリケーションのための顔方向推定、モデルベースのビデオコーディングおよびアバターベースのビデオ電話通信（telephony）等を含む。本明細書で開示されるシステムおよび方法は、既知の手法に好ましく匹敵する。

[0031]顔トラッキングに関する問題の定義付けは以下の通り説明される。顔が画像（例えば、ビデオ）中で動くため、それは様々な変換を強いられる。変換は、大域トランスレーション（global translation）、大域スケーリング（global scaling）、およびアフィン変換（例えば、大域ローテーションおよび局所運動または変形）を含むことができる。標準のトラッキング手法（例えば、粒子フィルタ、カルマンフィルタ等）のいくつかを使用して顔をトラッキングする際、顔検出器は常に用いられる必要がある。このことは、算出を非常に費用の高いものにしうる。加えて、既知の手法での顔検出器の出力は、時間的に滑らかでないことがある。顔をトラッキングするための別の既知の手法（例えば、オプティカルフロー）は、顔検出器を定期的に用いなければならないことがある。

[0032]本明細書で開示されるシステムおよび方法のいくつかの構成は、シーケンシャルなサンプリングフィルタの制御されたカスケードを通じてこれらの問題を扱いうる。制御されたシーケンシャルなサンプリングフィルタを利用する手法は、予測、測定、および制御のうちの１つ以上の態様を含むことができる。

[0033]様々な構成が図を参照して次に説明され、ここで同様の参照番号は、機能的に類似した要素を示すことができる。本明細書で概して説明および図に例示されるシステムおよび方法は、幅広い異なる構成で配列および設計されることができるだろう。したがって、図で表されるような、いくつかの構成の以下に続くより詳細な説明は、請求されるような範囲を限定するように意図されておらず、単にシステムおよび方法を代表するものにすぎない。

[0034]図１は、オブジェクトをトラッキングするためのシステムおよび方法がインプリメントされうる電子デバイス１０２の一構成を例示するブロック図である。電子デバイス１０２の例は、スマートフォン、カメラ（例えば、静止カメラ、ビデオカメラ等）、コンピュータ（例えば、デスクトップコンピュータ、ラップトップコンピュータ等）、タブレットデバイス、セルラ電話、テレビ、ゲームシステム、電気器具等を含む。電子デバイス１０２は、画像取得モジュール１０４、オブジェクト検出モジュール１０６、目印測定モジュール１０８、トラッキングロス決定モジュール１１０、および／またはオブジェクト予測モジュール１１２を含むことができる。「モジュール」は、ハードウェア（例えば、回路）、またはハードウェアとソフトウェアとの組合せ（例えば、命令を用いるプロセッサ）でインプリメントされうる。モジュール１０４、１０６、１０８、１１０、１１２のうちの１つ以上は、トラッカ（tracker）でインプリメントされうる。

[0035]画像取得モジュール１０４は、画像（例えば、デジタル画像）を取得することができる。例えば、画像取得モジュール１０４は、１つ以上の画像センサおよび／またはカメラを使用して、１つ以上の画像（例えば、ビデオ）をキャプチャすることができる。画像センサ（複数を含む）および／またはカメラ（複数を含む）は、電子デバイス１０２に含まれうる、および／または電子デバイス１０２に結合されうる。加えて、または代わりとして、画像取得モジュール１０４は、別のデバイス（例えば、メモリカード、外部記憶デバイス、ウェブカメラ、デジタルカメラ、スマートフォン、コンピュータ、ビデオカメラ等）から１つ以上の画像（例えば、ビデオ）を受け取ることができる。１つ以上の画像は、ビデオフレームでありうる。例えば、画像取得モジュール１０４によって取得される１つ以上の画像における各画像は、画像（例えば、ビデオ）のシーケンスにおけるフレームでありうる。

[0036]電子デバイス１０２は、初期フレームに対して１つ以上の演算を実行しうる。「初期フレーム」は、フレームまたは画像（例えば、ビデオ）のシーケンスにおける初期フレームまたは画像でありうる。オブジェクト検出モジュール１０６は、検出されたオブジェクトポジションを作り出すために、初期フレームにおけるオブジェクトポジションを検出することができる。例えば、オブジェクト検出モジュール１０６は、オブジェクトのサイズおよびポジションを示す境界ボックスのサイズおよび位置（例えば、中央ポイント）を決定することができる。いくつかのオブジェクト検出器は、当該技術分野において既知である。顔では、例が、Viola-Jones検出器、オムロン顔検出器、およびその他のものを含む。一般的なオブジェクト検出器では、例が、様々なオブジェクト（例えば、人、バイク、車等）に採用されうる変形パーツモデル（deformable parts model）のような手法を含む。これらのスキームは、様々な画像位置で、特徴記述子（例えば、勾配のサインのヒストグラム（ＨＳＧ：histogram of signs of gradients）、勾配方向のヒストグラム（ＨＯＧ：histogram of oriented gradients）、スケール不変特徴変換（ＳＩＦＴ：scale-invariant feature transform）、スピードアップロバスト特徴（ＳＵＲＦ：speeded up robust features）、勾配位置および方向ヒストグラム（ＧＬＯＨ：gradient location and orientation histogram）、Bag of Words（ＢｏＷ）等）を算出することができる。これらのスキームは、機械学習方法（例えば、サポートベクターマシン（Support Vector Machines）、ブースティング（Boosting）、動的計画法（Dynamic Programming）等）を使用する研究下で、オブジェクトに最も高い可能性で対応する位置を発見することができる。

[0037]初期フレームに関して、目印測定モジュール１０８は、検出されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定することができる。例えば、目印測定モジュール１０８は、画像におけるオブジェクトに対応する目印のセットのポジションを決定することができる。いくつかの構成では、１つ以上の目印ポジションを測定することは、オブジェクト検出モジュール１０６によって決定された境界ボックスに基づきうる。例えば、初期フレームでは、またはトラッキングが見失われているフレームでは、オブジェクト検出モジュール１０６は、境界ボックスを決定しうる。境界ボックスは、１つ以上の目印ポジションを測定するために利用されうる。いくつかの構成では、トラッキングが維持されているフレームでは（例えば、初期フレームの後の１つ以上のフレームでは）、オブジェクト検出モジュール１０６は、オブジェクト検出を実行しないことがある。このケースでは、目印は、例えば、オブジェクト予測モジュール１１２によって決定された境界ボックスに基づいて測定されうる。

[0038]いくつかの構成では、トラッキングロス決定モジュール１１０は、オブジェクトトラッキングが初期フレームに関して見失われているかどうかを決定しないことがある。初期フレームでは、例えば、オブジェクト検出がオブジェクト検出モジュール１０６（例えば、オブジェクト検出器）によって実行されているので、トラッキングは見失われていないことがある。

[0039]電子デバイス１０２は、１つ以上の後続のフレーム（例えば、初期フレームの後の１つ以上のフレーム）に関して１つ以上の演算を実行することができる。オブジェクト予測モジュール１１２は、その１つ以上の目印ポジションに基づいて、後続のフレームにおけるオブジェクトポジションを予測することができる。例えば、オブジェクト予測モジュール１１２は、時間ｋでのフレームにおける顔ポジションを、（例えば、フレームｋ−１における）それの前の目印ポジションを前提とすると、決定することができる。いくつかの構成では、オブジェクトポジション予測は、数式（１）にしたがって実行されうる。

ここで使用される場合、ｐはオブジェクトポジションベクトル（例えば、顔ポジションベクトル、顔境界ボックスの中央等）であり、ｌは目印ポジションベクトルであり、ｆおよびｇは非線形関数であり、εはプロセスノイズであり、ｗは重みベクトルであり、Ｔは転置演算子（transpose operator）を意味し、ｋはフレーム番号である。

[0040]いくつかの構成では、オブジェクト予測モジュール１１２は、以下にしたがって、オブジェクトポジション（例えば、顔境界ボックス）を予測することができる。目的は、新たなオブジェクトポジション（例えば、顔ポジション）を、前のフレームにおけるそれの目印の推定値を前提として推定することである。以下の非線形速度モデルは、数式（２）で提供されるように想定されうる。

ここで使用される場合、εはプロセスノイズを表し、ｋは時間またはフレーム番号であり、Δｋはフレームの数または時間ステップである（それは、いくつかの構成では１でありうる）。各目印の変位Δｌ_ｋは、時間ｋ−１から時間ｋまでの目印の速度モデルを表す、Ｍ（１_ｋ−１）によって乗算された目印における特徴記述子

の関数である。特徴記述子の例は、勾配のサインのヒストグラム（ＨＳＧ、勾配方向のヒストグラム（ＨＯＧ）、スケール不変特徴変換（ＳＩＦＴ）、ハフ変換、スピードアップロバスト特徴（ＳＵＲＦ）、勾配ロケーションおよび方向ヒストグラム（ＧＬＯＨ）等を含むことができる。量

は、ピクセルで変位Δｌ_ｋを表すことができ、量

は、（ピクセル／時間ステップΔｋで）速度を表すことができる。

[0041]この式に関する１つの問題は、ｌ_ｋとＭ（１_ｋ−１）との両方が既知でなくありうることである。この問題に対する１つの解決策は、ｌ_ｋが注釈付きデータ（annotated data）を通じて既知であることが想定される場合に、Ｍ（１_ｋ−１）がオフラインで学習されうることである。例えば、Ｍ（１_ｋ−１）は、例えば、式（３）を解くことによってトレーニング中に取得されうる。

ここで使用される場合、Ｙはあら予め割り当てられた重み付け因数（factor）であり、

は

を意味する。最小値を持つ他のコスト関数が（例えば、二乗の

の代わりに

または絶対値を使用して等で）代わりに利用されうる。トレーニングに関する追加の詳細は、図５−８に関連して以下で与えられる。

[0042]ＨＳＧ特徴記述子に関するより多くの詳細は以下の通り与えられる。上で説明されたように、ＨＳＧは、本明細書で開示されているシステムおよび方法にしたがって利用されうる特徴記述子の一例である。ＨＳＧの基本的な意図は、直交ベースでエッジ成分のサインを使用することである。例えば、画像（例えば、画像フレーム）の勾配は、（例えば、Sobel演算子、Sharr演算子、または別の手法を使用して）算出されうる。エッジサイン成分の各々は、ポジティブまたはネガティブのどちらかでありうる。したがって、２つの方向エッジ（例えば、次元）に関してピクセルごとに４つの可能性が存在する。特に各次元における各ピクセルの勾配は、サイン（ポジティブ「＋」またはネガティブ「−」）を有することができる。これらは、４つの異なる値でコーディングされうる（例えば、−−は０としてコーディングされ、＋−は１としてコーディングされ、＋＋は２としてコーディングされ、−＋は３としてコーディングされる）。いくつかの構成では、追加の次元（例えば、４５度）がコーディングされうる。

[0043]目印測定モジュールは、（例えば、予測された顔ポジションに基づいて後続のフレームにおける）１つ以上の目印ポジションを測定することができる。いくつかの構成では、目印測定モジュール１０８は、式（４）にしたがって予測されたオブジェクトポジションを前提とすると、目印の新しいポジションを測定することができる。

ここで使用される場合、ｈは非線形関数であり、σはプロセスノイズである。

[0044]いくつかの構成では、１つ以上の目印は、以下にしたがって測定されうる。予測されたオブジェクトポジション（例えば、境界ボックス）を用いて、１つ以上の目印（例えば、顔の目印）が、平均形状（ｍｓ：mean shape）から始めて測定されうる。非線形変位モデルは、数式（５）で提供されるように想定されうる。

ここで使用される場合、σはプロセスノイズを表し、ｌ_ｋ，ｍｓはフレームｋにおける平均形状（ｍｓ）での目印ポジションであり、Ｕ（ｌ_ｋ，ｍｓ）は予測された境界ボックスでの平均形状ポジションからの目印の変位モデルである。オンライン測定およびトレーニングのための予測におけるものと同様の派生するもの（derivation）が行われうることは留意されるべきである。例えば、変位モデルは、図１５に関連して説明されるようにトレーニングされうる。

[0045]いくつかの構成では、変位モデルは、目印測定のためにトレーニングされうる。例えば、変位モデルは、現在のフレーム（例えば、画像）での予測されたオブジェクトポジション（例えば、予測された境界ボックスポジション）に基づいて、または現在のフレーム（例えば、画像）での測定もしくは検出されたオブジェクトポジション（例えば、検出された境界ボックスポジション）に基づいて、目印測定のためにトレーニングされうる。測定または検出された境界ボックスポジションは、オブジェクト検出モジュール１０６（例えば、オブジェクト検出器）によって提供されうる。予測された境界ボックスポジションは、オブジェクト予測モジュール１１２によって提供されうる。したがって、目印は、（例えば、式（２）からの）トレーニングされた速度モデルを使用することによって、検出されたオブジェクトポジションまたは予測されたオブジェクトポジションから測定されうる。

[0046]変位および／または速度モデルのうちのいずれのトレーニングも、いくつかの構成では、電子デバイス１０２によって実行されうる。例えば、電子デバイス１０２は、図１に関連して説明されたモジュールのうちの１つ以上とは別個でありうるか、またはモジュールのうちの１つ以上内に含まれうる変位モデルトレーニングモジュールを含むことができる。いくつかの構成では、目印測定のための変位モデルは、図９および１５のうちの１つ以上に関連して説明されたようにトレーニングされうる。加えて、または代わりとして、電子デバイス１０２は、図１に関連して説明されたモジュールのうちの１つ以上とは別個でありうるか、またはモジュールのうちの１つ以上内に含まれうる速度モデルトレーニングモジュールを含むことができる。いくつかの構成では、オブジェクトポジション予測のための速度モデルは、図５に関連して説明されたようにトレーニングされうる。

[0047]トラッキングロス決定モジュール１１０は、オブジェクトトラッキングが見失われているかどうかを決定することができる。このことは、トラッキングが見失われているかどうかを推定することによる制御の態様を提供することができる。例えば、トラッキングロス決定モジュール１１０は、１つ以上の目印ポジションが、オブジェクトに高い可能性で対応するか否かを決定することができる。いくつかの構成では、トラッキングロス決定モジュール１１０は、１つ以上の目印ポジションのうちの１つ以上が、オブジェクトの構造に対応する統計モデルに一致する度合いを決定することができる。１つ以上の目印ポジションが、そのモデルへの一致に関して低確率を反映する場合、トラッキングロス決定モジュール１１０は、トラッキングが見失われてしまったことを決定することができる。例えば、トラッキングロス決定モジュール１１０は、一致の確率が確率しきい値よりも下回るかどうかを決定することができる。

[0048]いくつかの構成では、統計モデルは、１つ以上の目印属性（例えば、目印の局所運動、形状動力学（shape dynamics）の統計等）に対応する１つ以上の統計分布に基づきうる。例えば、モデルは、大域トランスレーションのための分布、大域スケールのための分布、および／または大域ローテーションのための分布に基づきうる。例えば、モデルは、大域トランスレーションに関して１５％の標準偏差（deviation）を想定するガウス分布、および大域スケールに関して５％の標準偏差を想定するガウス分布に基づきうる。いくつかのインプリメンテーションでは、現在のフレームにおける目印が、１５％よりも大きい大域トランスレーションおよび／または５％よりも大きい大域スケーリングを示す場合、トラッキングロス決定モジュール１１０は、トラッキングが見失われてしまったと決定することができる。

[0049]オブジェクトトラッキングが維持されている（例えば、見失われていない）ケースでは、電子デバイス１０２は、後続のフレームに関してオブジェクト検出を実行するのを回避することができる。例えば、電子デバイス１０２（例えば、オブジェクト検出モジュール１０６）は、オブジェクトトラッキングが維持されている場合、後続のフレームに関してオブジェクト検出を実行しないことがある。このように、例えば、オブジェクトポジション予測は、トラッキングが維持されているときにオブジェクトポジション検出の代わりに利用されうる。この手法は、良好な効率性の改善した精度を提供することができる。

[0050]トラッキングが見失われているケースでは、オブジェクト検出モジュール１０６は、オブジェクトポジション（例えば、顔ポジション）を検出（例えば、再検出）することができる。例えば、オブジェクトトラッキングが見失われているケースでは（例えば、トラッキングロス決定モジュール１１０が、オブジェクトトラッキングが見失われていることを示す場合）、オブジェクト検出モジュール１０６は、後続のフレームにおけるオブジェクトポジションを検出することができる。

[0051]既知の手法と比較して、本明細書で開示されているシステムおよび方法は、１つ以上の特異な（distinct）特徴を提供することができ、それらは以下の通り説明される。いくつかの構成では、オブジェクト検出およびオブジェクト予測は独立している。例えば、オブジェクトポジション検出は、オブジェクト予測がオブジェクトトラッキングを維持してきたフレームに関して実行されないことがある。したがって、オブジェクト検出は、オブジェクトトラッキングが維持されている限り、初期フレームの後、実行されないことがある。さらに、オブジェクト検出は、オブジェクトトラッキングが見失われているフレームに関してオブジェクト予測を再び置きうる（replace）。例えば、オブジェクト予測またはオブジェクト検出のうちの１つのみが、各フレームにおける目印測定のために使用されるオブジェクトポジション（例えば、ｐ_ｋ）を最終的に提供することになる。したがって、オブジェクト検出モジュール１０６（例えば、顔検出器）は、必要とされるときにのみ呼び出されうる。別の特異な特徴は、電子デバイス１０２（例えば、トラッキングロス決定モジュール１１０）が、オブジェクトトラッキングが見失われているかどうかを検出することができることでありうる。別の特異な特徴は、目印がオブジェクト位置予測（例えば、顔ポーズ予測）のために使用されうることでありうる。

[0052]図２は、オブジェクトをトラッキングするための方法２００の一構成を例示するフロー図である。方法２００は、電子デバイス１０２によって実行されうる。電子デバイス１０２は、検出されたオブジェクトポジションを作り出すために、初期フレームにおけるオブジェクトポジションを検出することができる２０２。このことは、図１に関連して上で説明されたように達成されうる。

[0053]電子デバイス１０２は、１つ以上の目印ポジションを測定することができる２０４。このことは、図１に関連して上で説明されたように達成されうる。初期フレームでは、例えば、電子デバイス１０２は、検出されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定することができる２０４。オブジェクトトラッキングが維持されている後続のフレームでは、例えば、電子デバイス１０２は、予測されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定することができる２０４。オブジェクトトラッキングが見失われている後続のフレームでは、例えば、電子デバイス１０２は、検出（例えば、再検出）されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定することができる２０４。

[0054]いくつかの構成では、目印ポジションは、オブジェクトの構造内にありうる。例えば、各目印ポジションは、構造（例えば、顔の構造、形状等）上の特定のポイントに関連付けられうる。目印ポジションの構造は予め定義されうる。例えば、特定の構造（例えば、顔の構造、形状等）が、オブジェクトトラッキングを開始する前に予め定義されうる。具体的には、ある特定の構造（例えば、顔の構造、虹彩、手、箱、三角形、パターン等）が、ランタイムの前にトラッキングのために予め定義されうる。

[0055]電子デバイス１０２は、その１つ以上の目印ポジションに基づいて、後続のフレームにおけるオブジェクトポジションを予測することができる２０６。このことは、図１に関連して上で説明されたように達成されうる。例えば、電子デバイス１０２は、重みベクトルおよび目印ポジションの非線形関数に基づいて、オブジェクトポジション（例えば、顔ポジションベクトル、境界ボックス等）を予測することができる２０６。オブジェクトポジションを予測すること２０６は、前のフレーム（例えば、ｋ−１）からの１つ以上の目印ポジションに基づきうる。

[0056]電子デバイス１０２は、オブジェクトトラッキングが見失われているかどうかを決定することができる２０８。このことは、図１に関連して上で説明されたように達成されうる。オブジェクトトラッキングが見失われているかどうかを決定すること２０８は、１つ以上の目印ポジションおよび／またはオブジェクトポジション予測に基づきうる。例えば、電子デバイス１０２は、１つ以上の目印属性（例えば、大域トランスレーション、大域スケール、大域ローテーション等）が１つ以上のしきい値を超える（例えば、１５％よりも大きい大域トランスレーションおよび／または５％よりも大きい大域スケーリング）ことを決定することができる。加えて、または代わりとして、電子デバイス１０２（例えば、トラッキングロス決定モジュール１１０）は、予測されたオブジェクトポジションがオブジェクトに対応する複合確率（combined probability）を（例えば、大域トランスレーション、大域スケール、および／または大域ローテーション等に基づいて）決定することができる。代わりとして、複合確率は、例えば、予測されたオブジェクト予測に基づいて測定された目印から決定されうる。複合確率が確率しきい値を上回る（例えば、以上である）場合、電子デバイス１０２（例えば、トラッキングロス決定モジュール１１０）は、トラッキングが維持されていることを決定することができる。複合確率が確率しきい値を下回る（例えば、より少ない）場合、電子デバイス１０２（例えば、トラッキングロス決定モジュール１１０）は、トラッキングが見失われていることを決定することができる。

[0057]電子デバイス１０２は、オブジェクトトラッキングが維持されているケースでは、後続のフレームに関してオブジェクト検出を実行するのを回避することができる２１０。このことは、図１に関連して上で説明されたように達成されうる。例えば、電子デバイス１０２は、オブジェクトトラッキングが維持されているケースでは、後続のフレームに関してオブジェクト検出を実行しないことがある。オブジェクトトラッキングが見失われているケースでは、電子デバイス１０２は、後続のフレームに関してオブジェクトポジションを検出（例えば、再検出）することができる。したがって、電子デバイス１０２は、トラッキングが維持されている限り、オブジェクトポジションを検出するように戻らないことがある。言い換えると、電子デバイス１０２は、オブジェクトトラッキングが見失われない限り、いずれの後続のフレームに関してもオブジェクトポジションを検出しないことがある。

[0058]方法２００のステップのうちの１つ以上が異なる順序で実行され得ることは留意されるべきである。一構成では、例えば、電子デバイス１０２は、オブジェクトポジション予測の後であるがフレームに関する目印測定の前に、オブジェクトトラッキングが見失われているかどうかを決定することができる２０８。別の構成では、電子デバイス１０２は、フレームに関する目印測定の後に、オブジェクトトラッキングが見失われているかどうかを決定することができる２０８。また別の構成では、電子デバイス１０２は、オブジェクトポジション予測の後と目印測定の後との両方に、オブジェクトトラッキングが見失われているかどうかを決定することができる２０８。

[0059]モデルがトラッキング中に利用されうることもまた留意されるべきである。モデルは、オブジェクトの構造に対応しうる。例えば、オブジェクトは、モデル化されうる特定の構造（例えば、顔構造、形状等）を有することができる。具体的には、オブジェクト構造は、互いの間の位置関係を確立した目印のセットでモデル化されうる。いくつかの構成では、位置関係は、１つ以上の確率分布（例えば、ある目印のポジションの、別の目印のポジションに対する条件付き確率）の観点から定義されうる。いくつかの構成では、モデルは、いずれの厳しい制約（例えば、アクティブな形状および／または外観モデル）も含まないことがある。モデルは、ソフト統計（例えば、確率分布）の観点から定義されうる。

[0060]いくつかの構成では、方法２００は、単一の画像シーケンス（例えば、１つのビデオ）に対して動作しうる。いくつかの例では、方法２００は、単一の画像シーケンスのある時間での１つのフレームに対して動作しうる。例えば、オブジェクトポジションが検出され得２０２、目印ポジションが測定され得２０４、オブジェクトポジションが予測され得２０６、および／またはオブジェクトトラッキングがある時間での１つのフレーム上でのみ見失われているかどうかが決定されうる２０８。

[0061]いくつかの構成では、方法２００は、前のフレームの目印からのオブジェクトポジション予測のために、および／またはトラッキングのために速度モデルをトレーニングすることを含むことができる。トレーニングは、いくつかの手法ではオフラインで（例えば、ランタイムの前に）実行されうる。

[0062]いくつかの構成では、方法２００は、現在のフレームにおける予測された境界ボックスポジションに基づく、または現在のフレームにおける検出された境界ボックスポジションからの目印測定のために変位モデルをトレーニングすることを含むことができる。このことは、例えば、図１に関連して説明されたように達成されうる。

[0063]図３は、オブジェクトをトラッキングするための方法３００のより具体的な構成を例示するフロー図である。図３に関連して説明されている方法３００は、図２に関連して説明された方法２００の一例でありうる。方法３００は、電子デバイス１０２によって実行されうる。電子デバイス１０２は、検出されたオブジェクトポジションを作り出すために、オブジェクトポジションを検出することができる３０２。このことは、図１−２のうちの１つ以上に関連して上で説明されたように達成されうる。いくつかの構成では、電子デバイス１０２は、フレームｋに関するオブジェクトポジションｐ_ｋを検出することができる。

[0064]電子デバイス１０２は、１つ以上の目印ポジションを測定することができる３０４。このことは、図１−２のうちの１つ以上に関連して上で説明されたように達成されうる。初期フレームでは、例えば、デバイス１０２は、初期フレームに関する検出されたオブジェクトポジション（例えば、境界ボックス）に基づいて、１つ以上の目印ポジションを測定することができる３０４。オブジェクトトラッキングが維持されている後続のフレーム（例えば、初期フレームの後のあらゆるフレーム）では、例えば、電子デバイス１０２は、予測されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定することができる３０４。オブジェクトトラッキングが見失われている後続のフレームでは、例えば、電子デバイス１０２は、検出（例えば、再検出）されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定することができる３０４。

[0065]電子デバイス１０２は、オブジェクトトラッキングが見失われているかどうかを決定することができる３０６。このことは、図１に関連して上で説明されたように達成されうる。例えば、電子デバイス１０２は、１つ以上の目印ポジションに基づいて、オブジェクトトラッキングが見失われているかどうかを決定することができる３０６。例えば、電子デバイス１０２は、図１−２のうちの１つ以上に関連して上で説明されたように、１つ以上の目印属性（例えば、大域トランスレーション、大域スケール、大域ローテーション等）に基づいて、オブジェクトトラッキングが見失われているかどうかを決定することができる３０６。いくつかの構成では、オブジェクトトラッキングが見失われているかどうかを決定すること３０６は、初期フレームまたはオブジェクト検出が実行されてしまっているフレームに関して、スキップされうる（例えば、実行されうる）。

[0066]オブジェクトトラッキングが維持されている（例えば、オブジェクトトラッキングが見失われていない）ケースでは、電子デバイス１０２は、後続のフレームに関してオブジェクト検出を実行するのを回避することができる。図３における構成で例示されているように、電子デバイス１０２は、１つ以上の目印ポジションに基づいて、後続のフレームにおけるオブジェクトポジションを予測することができる３０８。このことは、図１−２のうちの１つ以上に関連して上で説明されたように達成されうる。例えば、電子デバイス１０２は、重みベクトルおよび目印ポジションの非線形関数に基づいて、オブジェクトポジション（例えば、顔ポジションベクトル、境界ボックス等）を予測することができる３０８。電子デバイス１０２は、オブジェクトポジションを検出する３０２ように戻ることなく、（後続のフレームに関して）１つ以上の目印ポジションを測定する３０４ように戻ることができる。したがって、電子デバイス１０２は、トラッキングが維持されている限り、オブジェクトポジションを検出する３０２ように戻らないことがある。言い換えると、電子デバイス１０２は、オブジェクトトラッキングが見失われない限り、いずれの後続のフレームに関してもオブジェクトポジションを検出しないことがある。いくつかの構成では、フレームは、オブジェクトトラッキングが維持されていると決定する際にインクリメントしうる（例えば、ｋ＝ｋ＋１）。したがって、後続のフレームにおけるオブジェクトポジション（例えば、後続のフレームｋに関するオブジェクトポジションｐ_ｋ）を予測すること３０８は、１つ以上の目印ポジションｌ_ｋ−１に基づきうる。オブジェクトトラッキングが見失われているケースでは、電子デバイス１０２は、後続のフレームに関してオブジェクトポジションを検出（例えば、再検出）する３０２ように戻ることができる。

[0067]図４は、オブジェクトをトラッキングするための方法４００の別のより具体的な構成を例示するフロー図である。図４に関連して説明されている方法４００は、図２に関連して説明された方法２００の一例でありうる。方法４００は、電子デバイス１０２によって実行されうる。電子デバイス１０２は、検出されたオブジェクトポジションを作り出すために、オブジェクトポジションを検出することができる４０２。このことは、図１−２のうちの１つ以上に関連して上で説明されたように達成されうる。

[0068]電子デバイス１０２は、１つ以上の目印ポジションを測定することができる４０４。このことは、図１−２のうちの１つ以上に関連して上で説明されたように達成されうる。初期フレームでは、例えば、デバイス１０２は、初期フレームに関する検出されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定することができる４０４。オブジェクトトラッキングが維持されている後続のフレーム（例えば、初期フレームの後のあらゆるフレーム）では、例えば、電子デバイス１０２は、予測されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定することができる４０４。オブジェクトトラッキングが見失われている後続のフレームでは、例えば、電子デバイス１０２は、検出（例えば、再検出）されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定することができる４０４。いくつかの構成では、方法４００は、１つ以上の目印ポジションを測定した４０４後（および例えば、オブジェクトポジションを予測する４０６前）に次のフレーム（例えば、ｋ＝ｋ＋１）に進むことができる。

[0069]図４における構成で例示されているように、電子デバイス１０２は、１つ以上の目印ポジションに基づいて、後続のフレームにおけるオブジェクトポジションを予測することができる４０６。このことは、図１−２のうちの１つ以上に関連して上で説明されたように達成されうる。例えば、電子デバイス１０２は、重みベクトルおよび目印ポジションの非線形関数に基づいて、オブジェクトポジション（例えば、顔ポジションベクトル、境界ボックス等）を予測することができる４０６。

[0070]電子デバイス１０２は、オブジェクトトラッキングが見失われているかどうかを決定することができる４０８。このことは、図１−２のうちの１つ以上に関連して上で説明されたように達成されうる。例えば、電子デバイス１０２は、１つ以上の目印ポジションに基づいて、および／または（例えば、１つ以上の目印ポジションに基づく）予測されたオブジェクトポジションに基づいて、オブジェクトトラッキングが見失われているかどうかを決定することができる４０８。例えば、電子デバイス１０２は、図１−２のうちの１つ以上に関連して上で説明されたように、１つ以上の目印属性（例えば、大域トランスレーション、大域スケール、大域ローテーション等）に基づいて、オブジェクトトラッキングが見失われているかどうかを決定することができる４０８。加えて、または代わりとして、電子デバイス１０２は、予測されたオブジェクトポジション（例えば、境界ボックス）に基づいて、オブジェクトトラッキングが見失われているかどうかを決定することができる４０８。

[0071]オブジェクトトラッキングが維持されている（例えば、オブジェクトトラッキングが見失われていない）ケースでは、電子デバイス１０２は、後続のフレームに関してオブジェクト検出を実行するのを回避することができる。電子デバイス１０２は、オブジェクトポジションを検出する４０２ように戻ることなく、（後続のフレームに関して）１つ以上の目印ポジションを測定する４０４ように戻ることができる。したがって、電子デバイス１０２は、トラッキングが維持されている限り、オブジェクトポジションを検出する４０２ように戻らないことがある。言い換えると、電子デバイス１０２は、オブジェクトトラッキングが見失われない限り、いずれの後続のフレームに関してもオブジェクトポジションを検出しないことがある。オブジェクトトラッキングが見失われているケースでは、電子デバイス１０２は、後続のフレームに関してオブジェクトポジションを検出（例えば、再検出）する４０２ように戻ることができる。

[0072]いくつかの構成では、オブジェクトトラッキングが見失われている場合、電子デバイス１０２は、同じフレームに関してオブジェクトポジションを検出することができる４０２。他の構成では、オブジェクトトラッキングが見失われている場合、電子デバイス１０２は、次のフレームに移動する（および、例えば、次のフレームに関してオブジェクトポジションを検出する４０２）ことができる。いくつかのインプリメンテーションでは、両方のオプションが提供されうる。例えば、電子デバイス１０２が、トラッキングが見失われてしまった同じフレームにおけるオブジェクトポジションを検出する４０２かどうか、または電子デバイス１０２が次のフレームに移動する（および、例えば、次のフレームに関してオブジェクトポジションを検出する４０２）かどうかは、（例えば、ユーザによって、および／またはユーザ入力に基づいて）調整可能または選択可能でありうる。オブジェクトがフレームを離れた場合、トラッキングは見失われうることは留意されるべきである。このシナリオでは、電子デバイス１０２は、オブジェクト検出器（例えば、オブジェクト検出モジュール１０６）を使用して、オブジェクト（例えば、新しいオブジェクト）を検出するように試みうる。このことは、１つ以上の後続のフレームにおいて生じうる。一度オブジェクトが検出されると、トラッキングは再初期化されうる（例えば、オブジェクトポジション予測は、１つ以上の後続のフレームに関して試みられうる）。

[0073]いくつかの構成では、図３−４に関連して説明された手法が組み合されうることは留意されるべきである。例えば、電子デバイス１０２は、オブジェクトポジション予測に続いて、および目印測定に続いての両方に、トラッキングが見失われたかどうかを決定することができるだろう。

[0074]図５は、オブジェクトポジションを予測するためにトレーニングするための方法５００の一構成を例示するフロー図である。方法５００は、電子デバイス（例えば、図１に関連して説明された電子デバイス１０２）によって実行されうる。方法５００は、前のフレームの目印からのオブジェクトポジション予測のために、および／またはトラッキングのために速度モデルをトレーニングすることを含むことができる。例えば、方法５００は、オブジェクトポジション予測（例えば、顔境界ボックス予測）のために利用されうる重み（例えば、ｗ）および／または速度モデル（例えば、Ｍ（ｌ_ｋ−１））を取得するためのトレーニング手法でありうる。いくつかの構成では、方法５００および／またはその１つ以上のステップは、図２に関連して説明された方法２００に含まれうる。

[0075]電子デバイス１０２は、初期形状ポジションを生成することができる５０２。例えば、電子デバイス１０２は、初期目印（例えば、

）を生成することができる５０２。いくつかの構成では、電子デバイス１０２は、目印ポジションの１つ以上の確率分布に基づいて、初期目印を生成することができる５０２。例えば、電子デバイス１０２は、１つ以上の確率分布（例えば、大域トランスレーション分布、大域スケール分布、および／または局所運動分布）に基づいて、変形された目印ポジションをランダムに生成する関数を利用することができる。いくつかの構成では、このことは、図６−７に関連して上で説明されたように達成されうる。

[0076]電子デバイス１０２は、オブジェクト記述子を算出することができる５０４。オブジェクト記述子は、形状ポジション（例えば、目印）に基づいて算出されうる５０４。例えば、電子デバイス１０２は、オブジェクト記述子

を、それが収束するまで反復ｊの度に（at every iteration j）算出することができる５０４。オブジェクト記述子の一例はＨＳＧである。オブジェクト記述子の他の例は、ＨＯＧ、ＳＩＦＴ、ハフ変換、ＳＵＲＦ、およびＧＬＯＨを含む。

[0077]電子デバイス１０２は、速度モデルを解くことができる５０６。例えば、電子デバイス１０２は、

を解くことができる５０６。いくつかの構成では、速度モデルは、収束まで反復方式で式（３）に関連して上で説明されたように、

として解かれうる５０６。このケースでは、各反復ｊに対して、速度モデル

が算出されうる。

[0078]電子デバイス１０２は、各反復において目印を更新することができる５０８。例えば、電子デバイス１０２は、式（６）にしたがって各反復において目印ポジションを更新することができる５０８。

ここで使用される場合、

は、

によって取得される目印の変位ベクトルである。いくつかの構成では、変位ベクトルは、オブジェクト予測モジュール１１２に関する上記の式（２）にしたがって取得されうる。変位ベクトルは、オブジェクト測定モジュール（例えば、目印測定モジュール１０８）に関する上記の式（５）にしたがって取得されうる。例えば、トレーニングの２つの形式が、本明細書で説明されているシステムおよび方法にしたがって実行および／または利用されうる：１つはオブジェクトポジション予測に関し、１つは目印測定に関する。

[0079]電子デバイス１０２は、関数（例えば、オブジェクト記述子

）が収束してしまっているかどうかを決定することができる５１０。例えば、電子デバイス１０２は、変位ベクトル

が予め定義されたしきい値よりも低い（例えば、５％よりも小さい変化）場合に関数が収束したかどうかを決定することができる５１０。

[0080]関数が収束していなかったケースでは、電子デバイス１０２は、次の反復に関するオブジェクト記述子（例えば、

）を算出する５０４ように戻ることができる。例えば、オブジェクト記述子は、（ｊがインクリメントされる、例えばｊ＝ｊ＋１、ｊ＋＋等の場合）更新された目印で算出されうる５０４。図５で例示されているように、オブジェクト記述子を算出すること５０４、速度モデルを解くこと５０６、および目印を更新すること５０８は、関数が収束するまで反復されうる。

[0081]関数が収束してしまっているケースでは、電子デバイス１０２は、重み（例えば、モデル重み値）を算出することができる５１２。例えば、電子デバイス１０２は、式（７）にしたがって重みを算出することができる。

式（７）では、

は、トレーニングプロセスにおいて使用される注釈付き値

からの推定された目印ｌ_ｋの標準偏差関数を意味する。速度モデルのセット（例えば、

）および／または重み（例えば、ｗ）は、図１−４のうちの１つ以上に関連して説明されたように、オブジェクトポジション予測において適用されうる。いくつかの構成では、図１に関連して説明された電子デバイス１０２が、方法５００を実行することができる。他の構成では、別個の電子デバイス（例えば、コンピュータ）が、方法５００を実行することができる、および／または電子デバイス１０２にトレーニング結果（例えば、速度モデルのセット

および／または重みｗ）を提供することができる。いくつかの構成では、方法５００は、「オフライン」で（例えば、図２−４に関連して説明された方法２００、３００、４００のうちの１つ以上を実行する前、ランタイム前、等に）実行されうる。

[0082]図６は、目印のセットの分布を例示するグラフを含む。目印のセットの分布はまた、形状動力学のソフト統計とも称されうる。グラフは、（ピクセル、インチ、ミリメータ等のような単位に関連しうる）幅６１６および高さ６１４で例示されている。グラフは、トレーニングの際の各目印に関するオブジェクト局所運動初期化（例えば、各目印の、オブジェクトの他の目印に対する動き確率）の例を提供している。例えば、オブジェクト（例えば、顔）運動初期化は、図６によって指定された各目印の、大域トランスレーション、大域スケール、および／または条件付き局所運動を含むことができる。具体的には、グラフで例示されているポイントの各グループは、画像（例えば、ビデオ）のシーケンスにおいて生じうる（顔の構造に対応する）目印の局所運動（例えば、統計的変動）を例示している。例えば、（三角形として例示されている）グラフの左上部分上に例示されているポイント６１８のグループは、耳および顔の最上部の交差点に対応する目印の局所運動を例示している。他のグループのシンボル（例えば、丸、アスタリスク、三角形、逆三角形、ひし形、星、および正方形）は、他の目印の分布を表す。

[0083]いくつかの構成では、目印の大域トランスレーションは、（例えば、１５％の標準偏差を持つ）ガウス分布としてモデル化されうる。目印の大域スケールは、（例えば、５％の標準偏差を持つ）ガウス分布としてモデル化されうる。目印の局所運動は、図６で例示されているような形状の動力学の統計で特徴付けられうる。特にソフト統計に基づくモデルは、本明細書で開示されているシステムおよび方法にしたがって利用されうる。モデルは、構造（例えば、顔の構造、形状等）の変形に対応する目印に関する局所運動の統計分布を反映することができる。例えば、図６で例示されているポイントのグループの各々は、互いに対する条件付の確率分布を提供している。このことは、アクティブな形状および／または外観モデルのような厳しい制約を想定する既知の手法とは区別できる。目印の各々の確率分布（例えば、標準偏差および／または条件付き分布）は、（例えば、モンテカルロ解析を使用して）形状変形を生成するために使用されうる。例えば、確率分布に基づく関数は、目印をランダムに変形するために利用されうる。

[0084]図７は、目印運動を例示する３つの例７２０ａ−ｃを含む。特に図７は、トレーニングのためのオブジェクト（例えば、顔）運動初期化に関する１つの手法を例示している。例７２０ａ−ｃの各々において、丸ポイントは、目印のセット（例えば、

）に関する注釈付きグラウンドトゥルース（ground truth）を例示している。例７２０ａ−ｃの各々において、ひし形ポイントは、（例えば、図６に関連して説明されたような）目印の確率分布に基づいて生成される目印のセットに関する異なる形状ポジションを例示している。例Ａ７２０ａでは、目印ポジションが対応するグラウンドトゥルース目印より下かつ左側にあることが観測されうる。例Ｂ７２０ｂでは、目印ポジションが対応するグラウンドトゥルース目印より上かつ右側にあることが観測されうる。例Ｃ７２０ｃでは、目印ポジションが対応するグラウンドトゥルース目印の左側にあることが観測されうる。これらの目印ポジションは、上で説明された目印の確率分布に基づいて、目印をランダムに変形させる関数によって生成されうる。加えて、例７２０ａ−ｃのいずれでも、図６で図示されているソフト統計にしたがって、形状が取り替えられているだけでなく変形もされていることが観測されうる。

[0085]図８は、目印図８２４を含む。特に図８は、顔構造上の目印８２５ａ−ｈ、８２７ａ−ｊ、８２９ａ−ｉ、８３１ａ−ｆ、８３３ａ−ｇの例を提供している。いくつかの構成では、顔境界ボックスの予測は、以下の通り達成されうる。オンライン目印予測子では、およびｎトレーニング反復を想定すると、各フレームでの目印予測は、式（８）で例示されているように表現されうる。

[0086]顔境界ボックスポジションｐ_ｋおよび長さｓｋは、式（９）−（１０）にしたがって決定されうる。

ここで使用される場合、ｘ_ｐは第１の次元における（例えば、水平次元における）ピクセルポジションであり得、ｙ_ｐは第２の次元における（例えば、垂直次元における）ピクセルポジションでありうる。（例えば、上で説明されたように）ｗが、各目印のトレーニング誤差の分布から推定されうることは留意されるべきである。

[0087]目印図８２４は、顔構造に対応する目印のセット８２５ａ−ｈ、８２７ａ−ｊ、８２９ａ−ｉ、８３１ａ−ｆ、８３３ａ−ｇを例示している。例えば、目印のセットは、眉毛に対応する１つ以上の目印８２５ａ−ｈ、目に対応する１つ以上の目印８２７ａ−ｊ、鼻に対応する１つ以上の目印８２９ａ−ｉ、唇／口に対応する１つ以上の目印８３１ａ−ｆ、および／または顔の輪郭（例えば、頬、顎、耳等）に対応する１つ以上の目印８３３ａ−ｇを含むことができる。例えば、１つの目印８３３ａは、目印図８２４の左側の耳と顔の間の上部の交差点に対応する。各目印が関連付けられた重み（例えば、正規化された重み）を有することができることは留意されるべきである。いくつかの構成では、輪郭の目印８３３ａ−ｇ（例えば、顔の構造の外縁上の目印８３３ａ−ｇ）は、最も信頼性が低くあり得、それにより、最も小さい重みに関連付けられうる。図８が目印の一例を例示しているけれども、より少ない、より多い、および／または異なる目印が、本明細書で開示されているシステムおよび方法にしたがって利用されうることが留意されるべきである。

[0088]図９は、オブジェクト検出器から取得された境界ボックスまたは予測されたオブジェクトポジションに基づく目印測定の一例を例示する図である。特に図９は、予測された境界ボックスに基づいて、顔上の目印を測定することの一例を例示している。図１（例えば、式（５））に関連して上で説明されたように、顔の目印は、平均形状９３２から始めて測定されうる。具体的には、目印のセットに関する平均形状９３２は、画像Ａ９３０ａにおける境界ボックス９３４ａで例示されている。式（５）に関連して上で説明された非線形変位モデルは、目印測定のために利用されうる。画像Ｂ９３０ｂで例示されているように、目印９３６は、顔上の正しい位置に対応して測定される。境界ボックス９３４ｂもまた、画像Ｂ９３０ｂで例示されている。

[0089]図１０は、本明細書で開示されているシステムおよび方法の検証に関する結果の一例を例示するグラフである。具体的には、グラフは、本明細書で開示されているシステムおよび方法にしたがって、トラッカ１０４２の累積した誤差分布を例示している。グラフの縦軸は、データ比率１０３８を表し、横軸は、（例えばピクセルにおける）２５６×２５６の顔スケールで算出されたピクセルにおける二乗平均平方根誤差（ＲＭＳＥ）１０４０を表す。

[0090]トラッカ１０４２の精度は、他の手法のそれをしのぎうる。この例では、結果は、注釈付きトレーニング画像上で２分割交差確認（2-Fold cross validation）を使用して取得された。スピードに関して、本明細書で開示されているシステムおよび方法の一例は、例えば、（ランダムアクセスメモリ（ＲＡＭ）の８ギガバイト（ＧＢ）および２．６ギガヘルツ（ＧＨｚ）プロセッサを持つ）Ｃインプリメンテーションにおいてアベレージで顔ごとにおおよそ２０ミリ秒（ｍｓ）かかった（took）。この例では、６反復が予測のために使用され、４反復が測定のために使用された。

[0091]図１１は、本明細書で開示されているシステムおよび方法のブラインドテストに関する結果の一例を例示するグラフである。具体的には、グラフは、オンラインビデオのブラインドテストの累積した分布誤差を例示している。グラフは、本明細書で開示されているシステムおよび方法にしたがって、トラッカ１１４２のパフォーマンスを例示している。グラフの縦軸は、データ比率１１３８を表し、横軸は、（例えばピクセルにおける）２５６×２５６の顔スケールで算出されたピクセル（１２つの目印ポイントのピクセル）におけるＲＭＳＥ１１４０を表す。

[0092]トラッカ１１４２の精度は、他の手法のそれをしのぎうる。言い換えると、トラッカ１１４２は、他の手法と比較して、より良好な精度を見せる。この例では、テストするためのプラットフォームは、ＲＡＭの８ＧＢを持つ２．６ＧＨｚのプロセッサであった。表（１）は、損なわれた（missed）フレームの数および時間の観点でのトラッカパフォーマンスの例を提供している。

[0093]既知の手法と比較される本明細書で開示されているシステムおよび方法の１つ以上の特徴的な（例えば、新規の）特徴は、以下の通り与えられる。本明細書で開示されているシステムおよび方法は、オブジェクト（例えば、オブジェクトモデル、顔）に対して厳しい制約を利用しないことがある。本明細書で開示されているシステムおよび方法は、目印運動に対して厳しい制約を利用しないことがある。例えば、いくつかの既知の手法は、アクティブな形状および／または外観モデルのような厳しい制約を想定する。

[0094]本明細書で開示されているシステムおよび方法は、いつトラッキングが見失われているかを検出するために適用されうる。本明細書で開示されているシステムおよび方法にしたがって、オブジェクト検出器が、必要とされるとき（例えば、トラッキングが見失われているときにのみ）利用される（例えば、呼び出される）だけでありうる。

[0095]本明細書で開示されているシステムおよび方法にしたがって、オブジェクトポジション予測（例えば、顔ポーズ予測）がオブジェクトポジション検出（例えば、顔検出）から独立していることがある。本明細書で開示されているシステムおよび方法のいくつかの構成は、組み込まれたシステム上でインプリメントまたは実現するのに安価であり得る。いくつかの構成では、本明細書で開示されているシステムおよび方法は、ＳＩＦＴの２分の１であり得るＨＳＧ記述子を利用しうる。スピードに関して、本明細書で開示されているシステムおよび方法の１つのインプリメンテーションは、Ｃプログラミング言語でインプリメントされるとき、顔ごとに２０ｍｓ（20 ms/face）がかかる。このことは、例えば、ラップトップ上で１秒に５０つよりも多い顔（more than 50 faces/second）のトラッキングを可能にしうる。

[0096]精度に関して、本明細書で開示されるシステムおよび方法は、既知の手法よりも性能が優れうる（outperform）。例えば、本明細書で開示されているシステムおよび方法の一例では、データの６０％は、

を有する。既知の手法では、データの４０％のみが

を有する。

[0097]図１２は、顔をトラッキングするための既知の手法１２００ａ−ｂを例示する２つのフロー図を含む。比較すると、本明細書で開示されているシステムおよび方法は、これらの既知の手法１２００ａ−ｂとは区別できる。第１の既知の手法１２００ａでは、顔ポジションが検出される１２０２ａ。その後、トラッキングフィルタ（例えば、粒子フィルタ、カルマンフィルタ、ミーンシフトフィルタ等）が適用される１２０４ａ。その後、目印が測定される１２０６ａ。第１の既知の手法１２００ａで例示されているように、顔ポジションは、トラッキングフィルタの適用のためにすべてのフレームで検出されなければならない。このことは、オブジェクトポジションが、トラッキングが維持されているフレームで検出されない本明細書で開示されているシステムおよび方法とは区別できる。

[0098]第２の既知の手法１２００ｂでは、顔ポジションが検出される１２０２ｂ。その後、顔ポーズが光学フローを介してトラッキングされる１２０４ｂ。その後、目印が測定される１２０６ｂ。第２の既知の手法１２００ｂで例示されるように、顔ポジションは、設定された数のフレームに関して定期的に検出されなければならない。このことは、オブジェクトポジションが、トラッキングが維持されている限り（初期フレーム後に）検出されないことがある本明細書で開示されているシステムおよび方法とは区別できる。

[0099]図１３は、オブジェクトをトラッキングするためのシステムおよび方法がインプリメントされうるワイヤレス通信デバイス１３０２の一構成を例示するブロック図である。図１３で例示されているワイヤレス通信デバイス１３０２は、本明細書で説明されている電子デバイスのうちの１つ以上の例でありうる。ワイヤレス通信デバイス１３０２は、アプリケーションプロセッサ１３２１を含むことができる。アプリケーションプロセッサ１３２１は概して、ワイヤレス通信デバイス１３０２上で関数を実行するために命令を処理する（例えば、プログラムを動かす）。いくつかの例では、アプリケーションプロセッサ１３２１は、オブジェクトトラッキングモジュール１３９２を含むことができる。オブジェクトトラッキングモジュール１３９２は、図１に関連して説明されたモジュールのうちの１つ以上を含むことができる、および／または図１−９に関連して説明された関数、プロシージャ、またはステップのうちの１つ以上を実行することができる。例えば、オブジェクトトラッキングモジュール１３９２は、図２−５および１５のうちの１つ以上に関連して説明された方法２００、３００、４００、５００、１５００のうちの１つ以上をインプリメントすることができる。いくつかの構成では、オブジェクトトラッキングモジュール１３９２は、アプリケーションプロセッサ１３２１とは別個にインプリメントされうる。アプリケーションプロセッサ１３２１は、音声コーダ／デコーダ（コデック）１３１９に結合されうる。

[00100]オーディオコデック１３１９は、オーディオ信号をコーディングおよび／または復号するために使用されうる。オーディオコデック１３１９は、少なくとも１つのスピーカ１３１１、イヤピース１３１３、出力ジャック１３１５、および／または少なくとも１つのマイクロフォン１３１７に結合されうる。スピーカ１３１１は、電気または電子信号を音響信号にコンバートする１つ以上の電子音響トランスデューサを含むことができる。例えば、スピーカ１３１１は、音楽を再生するか、またはスピーカフォン会話を出力する、等のために使用されうる。イヤピース１３１３は、ユーザに音響信号（例えば、音声信号）を出力するために使用されうる別のスピーカまたは電子音響トランスデューサでありうる。例えば、イヤピース１３１３は、１ユーザのみが音響信号を信頼性高く聞くことができるように使用されうる。出力ジャック１３１５は、オーディオを出力するために、ワイヤレス通信デバイス１３０２に、ヘッドフォンのような他のデバイスを結合するために使用されうる。スピーカ１３１１、イヤピース１３１３、および／または出力ジャック１３１５は概して、オーディオコデック１３１９からオーディオ信号を出力するために使用されうる。少なくとも１つのマイクロフォン１３１７は、オーディオコデック１３１９に提供される電気または電子信号に（ユーザのボイスのような）音響信号をコンバートする音響電気トランスデューサでありうる。

[00101]アプリケーションプロセッサ１３２１はまた、電力管理回路１３９４に結合されうる。電力管理回路１３９４の一例は、ワイヤレス通信デバイス１３０２の電力（electrical power）消費を管理するために使用されうる電力管理集積回路（ＰＭＩＣ）である。電力管理回路１３９４は、バッテリ１３９６に結合されうる。バッテリ１３９６は概して、ワイヤレス通信デバイス１３０２に電力を供給することができる。例えば、バッテリ１３９６および／または電力管理回路１３９４は、ワイヤレス通信デバイス１３０２に含まれる要素のうちの少なくとも１つに結合されうる。

[00102]アプリケーションプロセッサ１３２１は、入力を受信するために少なくとも１つの入力デバイス１３９８に結合されうる。入力デバイス１３９８の例は、赤外線センサ、画像センサ、加速度計センサ、タッチセンサ、キーパッド等を含む。入力デバイス１３９８は、ワイヤレス通信デバイス１３０２とのユーザ相互動作を可能にしうる。アプリケーションプロセッサ１３２１はまた、１つ以上の出力デバイス１３０１に結合されうる。出力デバイス１３０１の例は、プリンタ、プロジェクタ、スクリーン、触覚デバイス等を含む。出力デバイス１３０１は、ワイヤレス通信デバイス１３０２が、ユーザによって経験されうる出力を作り出すことを可能にしうる。

[00103]アプリケーションシステム１３２１は、アプリケーションメモリ１３０３に結合されうる。アプリケーションメモリ１３０３は、電子情報を記憶する能力を有するいずれの電子デバイスでもありうる。アプリケーションメモリ１３０３の例は、ダブルデータレートシンクロナス動的ランダムアクセスメモリ（ＤＤＲＡＭ）、シンクロナス動的ランダムアクセスメモリ（ＳＤＲＡＭ）、フラッシュメモリ等を含む。アプリケーションメモリ１３０３は、アプリケーションプロセッサ１３２１にストレージを提供することができる。例えば、アプリケーションメモリ１３０３は、アプリケーションプロセッサ１３２１上で動かされるプログラムを機能させることのためのデータおよび／または命令を記憶することができる。

[00104]アプリケーションプロセッサ１３２１は、ディスプレイコントローラ１３０５に結合され得、ディスプレイコントローラ１３０５は、今度はディスプレイ１３０７に結合されうる。ディスプレイコントローラ１３０５は、ディスプレイ１３０７上に画像を生成するために使用されるハードウェアブロックでありうる。例えば、ディスプレイコントローラ１３０５は、命令および／またはデータを、アプリケーションプロセッサ１３２１から、ディスプレイ１３０７上に提示されうる画像にトランスレートすることができる。ディスプレイ１３０７の例は、液晶ディスプレイ（ＬＣＤ）パネル、発光ダイオード（ＬＥＤ）パネル、ブラウン管（ＣＲＴ）ディスプレイ、プラズマディスプレイ等を含む。

[00105]アプリケーションシステム１３２１は、ベースバンドプロセッサ１３２３に結合されうる。ベースバンドプロセッサ１３２３は概して、通信信号を処理する。例えば、ベースバンドプロセッサ１３２３は、受信された信号を復調および／または復号することができる。加えて、または代わりとして、ベースバンドプロセッサ１３２３は、送信に向けて準備している信号を符号化および／または変調することができる。

[00106]ベースバンドプロセッサ１３２３は、ベースバンドメモリ１３０９に結合されうる。ベースバンドメモリ１３０９は、ＳＤＲＡＭ、ＤＤＲＡＭ、フラッシュメモリ等のような、電子情報を記憶する能力を有するいずれの電子デバイスでもありうる。ベースバンドプロセッサ１３２３は、ベースバンドメモリ１３０９から情報（例えば、命令および／もしくはデータ）を読み取る、ならびに／またはベースバンドメモリ１３０９に情報を書き込むことができる。加えて、または代わりとして、ベースバンドプロセッサ１３２３は、通信動作を実行するためにベースバンドメモリ１３０９に記憶された命令および／またはデータを使用することができる。

[00107]ベースバンドプロセッサ１３２３は、無線周波数（ＲＦ）トランシーバ１３２５に結合されうる。ＲＦトランシーバ１３２５は、電力増幅器１３２７および１つ以上のアンテナ１３２９に結合されうる。ＲＦトランシーバ１３２５は、無線周波数信号を送信および／または受信することができる。例えば、ＲＦトランシーバ１３２５は、電力増幅器１３２７および少なくとも１つのアンテナ１３２９を使用してＲＦ信号を送信することができる。ＲＦトランシーバ１３２５はまた、１つ以上のアンテナ１３２９を使用してＲＦ信号を受信することができる。

[00108]図１４は、電子デバイス１４０２内に含まれうるある特定のコンポーネントを例示する。図１４に関連して説明されている電子デバイス１４０２は、本明細書で説明されている電子デバイスのうちの１つ以上の例でありうる、および／または本明細書で説明されている電子デバイスのうちの１つ以上にしたがってインプリメントされうる。

[00109]電子デバイス１４０２はプロセッサ１４４７を含む。プロセッサ１４４７は、汎用のシングルまたはマルチチップマイクロプロセッサ（例えば、ＡＲＭ）、専用マイクロプロセッサ（例えば、デジタルシグナルプロセッサ（ＤＳＰ））、マイクロコントローラ、プログラマブルゲートアレイ等でありうる。プロセッサ１４４７は、中央処理ユニット（ＣＰＵ）と称されうる。図１４の電子デバイス１４０２には単一のプロセッサ１４４７だけが図示されているけれども、代わりの構成では、プロセッサの組合せ（例えば、ＡＲＭとＤＳＰ）が使用されうるだろう。

[00110]電子デバイス１４０２はまた、プロセッサ１４４７と電子通信状態にあるメモリ１４３１を含む（すなわち、プロセッサ１４４７は、メモリ１４３１から情報を読み取ることおよび／またはメモリ１４３１に情報を書き込むことができる）。メモリ１４３１は、電子情報を記憶する能力を有するいずれの電子コンポーネントでもありうる。メモリ１４３１は、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、磁気ディスク記憶媒体、光学記憶媒体、ＲＡＭにおけるフラッシュメモリデバイス、プロセッサとともに含まれるオンボードメモリ、プログラマブル読取専用メモリ（ＰＲＯＭ）、消去可能プログラマブル読取専用メモリ（ＥＰＲＯＭ）、電気的消去可能ＰＲＯＭ（ＥＥＰＲＯＭ（登録商標））、レジスタ、およびその他であり得、それらの組み合わせも含みうる。

[00111]データ１４３３および命令１４３５は、メモリ１４３１に記憶されうる。命令１４３５は、１つ以上のプログラム、ルーチン、サブルーチン、関数、プロシージャ、コード等を含むことができる。命令１４３５は、単一のコンピュータ可読ステートメントまたは多数のコンピュータ可読ステートメントを含むことができる。命令１４３５は、本明細書で説明されている方法のうちの１つ以上をインプリメントするようにプロセッサ１４４７によって実行可能でありうる。命令１４３５を実行することは、メモリ１４３１に記憶されているデータ１４３３の使用を伴うことができる。図１４は、いくつかの命令１４３５ａおよびデータ１４３３ａがプロセッサ１４４７にロードされることを図示している。

[00112]電子デバイス１４０２はまた、電子デバイス１４０２と遠隔ロケーション（例えば、ワイヤレス通信デバイス、基地局等）との間の信号の送信および受信を可能にするための送信機１４４３および受信機１４４５を含むことができる。送信機１４４３および受信機１４４５は、集合的にトランシーバ１４４１と称されうる。アンテナ１４３９は、トランシーバ１４４１に電気的に結合されうる。電子デバイス１４０２はまた、複数の送信機、複数の受信機、複数のトランシーバ、および／または複数のアンテナ（図示せず）を含むことができる。

[00113]電子デバイス１４０２の様々なコンポーネントは、電力バス、制御信号バス、ステータス信号バス、データバス等を含むことができる、１つ以上のバスによって互いに結合されうる。簡略化のために、様々なバスが、バスシステム１４３７として図１４で例示されている。

[00114]図１５は、目印測定のために変位モデルをトレーニングするための方法１５００の一構成を例示するフロー図である。方法１５００は、電子デバイス（例えば、図１に関連して説明された電子デバイス１０２）によって実行されうる。方法１５００は、目印測定のために変位モデルをトレーニングすることを含むことができる。例えば、方法１５００は、目印測定のために利用されうる重み（例えば、ω）および／または変位モデル（例えば、Ｕ（ｌ_ｋ））を取得するためのトレーニング手法でありうる。いくつかの構成では、方法１５００および／またはその１つ以上のステップは、図２に関連して説明された方法２００に含まれうる。

[00115]電子デバイス１０２は、初期平均形状ポジションを生成することができる１５０２。例えば、電子デバイス１０２は、オブジェクトポジション（例えば、境界ボックス）に基づいて、平均形状（例えば、ｌ_ｋ，ｍｓ）を生成することができる１５０２。目印は、同じフレーム内の平均形状から始まりうる。いくつかの構成では、電子デバイス１０２は、目印ポジションの１つ以上の確率分布に基づいて、平均形状を生成することができる１５０２。例えば、平均形状（例えば、ｌ_ｋ，ｍｓ）の初期目印の各々は、その目印に対応する確率分布の平均（例えば、アベレージ）でありうる。平均形状の一例は、図９の画像Ａ９３０ａで与えられる。

[00116]電子デバイス１０２は、オブジェクト記述子（例えば、

）を算出することができる１５０４。オブジェクト記述子は、目印ポジションに基づいて算出されうる１５０４。例えば、電子デバイス１０２は、オブジェクト記述子

を、それが収束するまで算出することができる１５０４。オブジェクト記述子の一例はＨＳＧである。オブジェクト記述子の他の例は、ＨＯＧ、ＳＩＦＴ、ハフ変換、ＳＵＲＦ、およびＧＬＯＨを含む。

[00117]電子デバイス１０２は、変位モデルを解くことができる１５０６。例えば、電子デバイス１０２は、Ｕ（ｌ_ｋ，ｍｓ）を解くことができる１５０６。いくつかの構成では、変位モデルは、収束まで反復方式で式（３）に関連して速度モデルに関して与えられたものと同様の手法で解かれうる１５０６。このケースでは、反復（例えば、ｉ）ごとに、速度モデルＵ（ｌ_ｋ，ｍｓ）が算出されうる。

[00118]電子デバイス１０２は、各反復ｉにおいて目印を更新することができる１５０８。例えば、電子デバイス１０２は、式（１１）にしたがって各反復において目印ポジションを更新することができる１５０８。

ここで使用される場合、

は、

によって取得される目印の変位ベクトルである。いくつかの構成では、変位ベクトルは、オブジェクト測定モジュール（例えば、目印測定モジュール１０８）に関する上記の式（５）にしたがって取得されうる。

[00119]電子デバイス１０２は、関数（例えば、オブジェクト記述子

）が収束してしまっているかどうかを決定することができる１５１０。例えば、電子デバイス１０２は、変位ベクトル

が予め定義されたしきい値よりも低い（例えば、５％よりも小さい変化）場合に関数が収束したかどうかを決定することができる１５１０。

[00120]関数が収束していなかったケースでは、電子デバイス１０２は、次の反復に関するオブジェクト記述子（例えば、

）を算出する１５０４ように戻ることができる。例えば、オブジェクト記述子は、（ｉがインクリメントされる、例えばｉ＝ｉ＋１、ｉ＋＋等の場合）更新された目印で算出されうる１５０４。図１５で例示されているように、オブジェクト記述子を算出すること１５０４、変位モデルを解くこと１５０６、および目印を更新すること１５０８は、関数が収束するまで反復されうる。

[00121]関数が収束してしまっているケースでは、電子デバイス１０２は、重み（例えば、モデル重み値）を算出することができる１５１２。例えば、電子デバイス１０２は、式（１２）にしたがって重みを算出することができる。

式（１２）では、

は、トレーニングプロセスにおいて使用される注釈付き値

からの推定された目印ｌ_ｋの標準偏差関数を意味する。変位モデルのセット（例えば、

）および／または重み（例えば、ω）は、図１−４のうちの１つ以上に関連して説明されたように、目印測定において適用されうる。いくつかの構成では、図１に関連して説明された電子デバイス１０２が、方法１５００を実行することができる。他の構成では、別個の電子デバイス（例えば、コンピュータ）が、方法１５００を実行することができる、および／または電子デバイス１０２にトレーニング結果（例えば、変位モデルのセット

および／または重みω）を提供することができる。いくつかの構成では、方法１５００は、「オフライン」で（例えば、図２−４に関連して説明された方法２００、３００、４００のうちの１つ以上を実行する前、ランタイム前、等に）実行されうる。

[00122]上記の説明では、参照番号は、時に、様々な用語に関連して使用されている。用語が参照番号に関連して使用されている場合、これは、図のうちの１つ以上で図示されている特定の要素を指すように意味されうる。用語が参照番号なしに使用されている場合、これは、いずれの特定の図にも限定することなく用語を一般的に指すように意味されうる。

[00123]「決定すること」という用語は、幅広い種類のアクションを含み、それにより、「決定すること」は、計算すること、算出すること、処理すること、導出すること、調査すること、ルックアップすること（looking up）（例えば、表、データベース、または別のデータ構造においてルックアップすること）、確定すること、および同様のことを含むことができる。また「決定すること」は、受信すること（例えば、情報を受信すること）、アクセスすること（例えば、メモリ中のデータにアクセスすること）、および同様のことを含むことができる。また、「決定すること」は、解決すること（resolving）、選択すること（selecting）、選ぶこと（choosing）、確立すること（establishing）、および同様のことを含むことができる。

[00124]「に基づいて」というフレーズは、別の形で明示的に指定されない限り、「にのみ基づいて」を意味しない。言い換えれば、「に基づいて」というフレーズは、「にのみ基づいて」および「に少なくとも基づいて」の両方を説明する。

[00125]本明細書で説明されている構成のうちの任意の１つに関連して説明されている特徴、機能、プロシージャ、コンポーネント、要素、構造等のうちの１つ以上は、互換性がある場合、本明細書で説明されている他の構成のうちの任意のものに関連して説明されている機能、プロシージャ、コンポーネント、要素、構造等のうちの１つ以上と組み合わせられうることは留意されるべきである。言い換えると、本明細書で説明されている機能、プロシージャ、コンポーネント、要素等のあらゆる互換性のある組み合わせが、本明細書で開示されているシステムおよび方法にしたがってインプリメントされうる。

[00126]本明細書で説明されている機能は、プロセッサ可読またはコンピュータ可読媒体上に、１つ以上の命令として記憶されうる。「コンピュータ可読媒体」という用語は、コンピュータまたはプロセッサによってアクセスされうるあらゆる利用可能な媒体を指す。限定ではなく例として、そのような媒体は、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、電気的消去可能プログラマブル読取専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、コンパクトディスク読取専用メモリ（ＣＤ−ＲＯＭ）または他の光学ディスクストレージ、磁気ディスクストレージまたは他の磁気記憶デバイス、あるいはデータ構造または命令の形式で所望のプログラムコードを記憶するために使用されることができ、かつコンピュータによってアクセスされることができる、あらゆる他の媒体を備えることができる。本明細書で使用される場合、ディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光学ディスク（disc）、デジタル多目的ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）、およびブルーレイ（登録商標）ディスク（disc）を含み、ここでディスク（disk）が大抵磁気的にデータを再生する一方で、ディスク（disc）は、レーザーを用いて光学的にデータを再生する。コンピュータ可読媒体が有形および非一時的でありうることは留意されるべきである。「コンピュータプログラム製品」という用語は、コンピューティングデバイスまたはプロセッサによって実行、処理、または算出されうるコードまたは命令（例えば、「プログラム」）と組み合わされたコンピューティングデバイスまたはプロセッサを指す。本明細書で使用される場合、「コード」という用語は、コンピューティングデバイスまたはプロセッサによって実行可能であるソフトウェア、命令、コード、またはデータを指しうる。

[00127]ソフトウェアまたは命令はまた、送信媒体によって送信されうる。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波のようなワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波のようなワイヤレス技術は、送信媒体の定義に含まれる。

[00128]本明細書で開示されている方法は、説明されている方法を遂げるための１つ以上のステップまたはアクションを備える。方法のステップおよび／またはアクションは、請求項の範囲から逸脱することなく互いに置き換えられうる。言い換えると、ステップまたはアクションの特定の順序が、説明されている方法の適切な動作のために要求されない限り、特定のステップおよび／またはアクションの順序および／または使用は、請求項の範囲から逸脱することなく修正されうる。

[00129]請求項が、上で例示された精密な構成およびコンポーネントに限定されないことは理解されるものとする。様々な修正、変更、および、変形が、本明細書で説明されているシステム、方法、および装置の、配置、動作、および詳細において、請求項の範囲から逸脱することなく行われうる。

[00129]請求項が、上で例示された精密な構成およびコンポーネントに限定されないことは理解されるものとする。様々な修正、変更、および、変形が、本明細書で説明されているシステム、方法、および装置の、配置、動作、および詳細において、請求項の範囲から逸脱することなく行われうる。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
電子デバイスによってオブジェクトをトラッキングするための方法であって、
検出されたオブジェクトポジションを作り出すために、初期フレームにおけるオブジェクトポジションを検出することと、
前記検出されたオブジェクトポジションまたは予測されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定することと、
前記１つ以上の目印ポジションに基づいて、後続のフレームにおける前記オブジェクトポジションを予測することと、
オブジェクトトラッキングが見失われているかどうかを決定することと、
オブジェクトトラッキングが維持されているケースでは、前記後続のフレームに関してオブジェクト検出を実行するのを回避することと、を含む、方法。
［Ｃ２］
前記目印ポジションが前記オブジェクトの構造内にある、Ｃ１に記載の方法。
［Ｃ３］
オブジェクトポジション検出およびオブジェクトポジション予測は独立している、Ｃ１に記載の方法。
［Ｃ４］
前記オブジェクトポジションを予測することは、前のフレームからの１つ以上の目印ポジションに基づく、Ｃ１に記載の方法。
［Ｃ５］
前記目印ポジションの構造は予め定義される、Ｃ１に記載の方法。
［Ｃ６］
オブジェクトトラッキングが見失われているかどうかを決定することは、１つ以上の目印ポジションおよびオブジェクトポジション予測のうちの少なくとも１つに基づく、Ｃ１に記載の方法。
［Ｃ７］
速度モデルは予測中に利用され、変位モデルは測定中に利用され、ここにおいて、前記速度モデルおよび変位モデルの各々は、前記オブジェクトの構造に対応する、Ｃ１に記載の方法。
［Ｃ８］
前記速度モデルおよび前記変位モデルは、いずれの厳しい制約も含まない、Ｃ７に記載の方法。
［Ｃ９］
前記方法は、単一の画像シーケンスのある時間での１つのフレームに対して動作する、Ｃ１に記載の方法。
［Ｃ１０］
前のフレームの目印からのオブジェクトポジション予測のために速度モデルをトレーニングすることをさらに備える、Ｃ１に記載の方法。
［Ｃ１１］
現在のフレームにおける予測された境界ボックスポジションからの、または前記現在のフレームにおける検出された境界ボックスポジションからの目印測定のために変位モデルをトレーニングすることをさらに備える、Ｃ１に記載の方法。
［Ｃ１２］
オブジェクトをトラッキングするための電子デバイスであって、
プロセッサと、
前記プロセッサと電子通信状態にあるメモリと、
前記メモリに記憶された命令と
を備え、前記命令は、
検出されたオブジェクトポジションを作り出すために、初期フレームにおけるオブジェクトポジションを検出することと、
前記検出されたオブジェクトポジションまたは予測されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定することと、
前記１つ以上の目印ポジションに基づいて、後続のフレームにおける前記オブジェクトポジションを予測することと、
オブジェクトトラッキングが見失われているかどうかを決定することと、
オブジェクトトラッキングが維持されているケースでは、前記後続のフレームに関してオブジェクト検出を実行するのを回避することと、を行うように前記プロセッサによって実行可能である、電子デバイス。
［Ｃ１３］
前記目印ポジションが前記オブジェクトの構造内にある、Ｃ１２に記載の電子デバイス。
［Ｃ１４］
オブジェクトポジション検出およびオブジェクトポジション予測は独立している、Ｃ１２に記載の電子デバイス。
［Ｃ１５］
前記オブジェクトポジションを予測することは、前のフレームからの１つ以上の目印ポジションに基づく、Ｃ１２に記載の電子デバイス。
［Ｃ１６］
前記目印ポジションの構造は予め定義される、Ｃ１２に記載の電子デバイス。
［Ｃ１７］
オブジェクトトラッキングが見失われているかどうかを決定することは、１つ以上の目印ポジションおよびオブジェクトポジション予測のうちの少なくとも１つに基づく、Ｃ１２に記載の電子デバイス。
［Ｃ１８］
速度モデルは予測中に利用され、変位モデルは測定中に利用され、ここにおいて、前記速度モデルおよび変位モデルの各々は、前記オブジェクトの構造に対応する、Ｃ１２に記載の電子デバイス。
［Ｃ１９］
前記速度モデルおよび前記変位モデルは、いずれの厳しい制約も含まない、Ｃ１８に記載の電子デバイス。
［Ｃ２０］
前記電子デバイスは、単一の画像シーケンスのある時間での１つのフレームに対して動作する、Ｃ１２に記載の電子デバイス。
［Ｃ２１］
前記命令は、前のフレームの目印からのオブジェクトポジション予測のために速度モデルをトレーニングするように前記プロセッサによってさらに実行可能である、Ｃ１２に記載の電子デバイス。
［Ｃ２２］
前記命令は、現在のフレームにおける予測された境界ボックスポジションからの、または前記現在のフレームにおける検出された境界ボックスポジションからの目印測定のために変位モデルをトレーニングするように前記プロセッサによってさらに実行可能である、Ｃ１２に記載の電子デバイス。
［Ｃ２３］
命令を記憶した非一時的な有形のコンピュータ可読媒体を備える、オブジェクトをトラッキングするためのコンピュータプログラム製品であって、
検出されたオブジェクトポジションを作り出すために、初期フレームにおけるオブジェクトポジションを検出することを電子デバイスに行わせるためのコードと、
前記検出されたオブジェクトポジションまたは予測されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定することを前記電子デバイスに行わせるためのコードと、
前記１つ以上の目印ポジションに基づいて、後続のフレームにおける前記オブジェクトポジションを予測することを前記電子デバイスに行わせるためのコードと、
オブジェクトトラッキングが見失われているかどうかを決定することを前記電子デバイスに行わせるためのコードと、
オブジェクトトラッキングが維持されているケースでは、前記後続のフレームに関してオブジェクト検出を実行するのを回避することを前記電子デバイスに行わせるためのコードと、
を備える、コンピュータプログラム製品。
［Ｃ２４］
前記目印ポジションが前記オブジェクトの構造内にある、Ｃ２３に記載のコンピュータプログラム製品。
［Ｃ２５］
オブジェクトポジション検出およびオブジェクトポジション予測は独立している、Ｃ２３に記載のコンピュータプログラム製品。
［Ｃ２６］
前記オブジェクトポジションを予測することを前記電子デバイスに行わせるためのコードは、前のフレームからの１つ以上の目印ポジションに基づく、Ｃ２３に記載のコンピュータプログラム製品。
［Ｃ２７］
オブジェクトをトラッキングするための装置であって、
検出されたオブジェクトポジションを作り出すために、初期フレームにおけるオブジェクトポジションを検出するための手段と、
前記検出されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定するための手段と、
前記１つ以上の目印ポジションに基づいて、後続のフレームにおける前記オブジェクトポジションを予測するための手段と、
オブジェクトトラッキングが見失われているかどうかを決定するための手段と、
オブジェクトトラッキングが維持されているケースでは前記後続のフレームに関してオブジェクト検出を実行するのを回避するための手段と、
を備える、装置。
［Ｃ２８］
前記目印ポジションが前記オブジェクトの構造内にある、Ｃ２７に記載の装置。
［Ｃ２９］
オブジェクトポジション検出およびオブジェクトポジション予測は独立している、Ｃ２７に記載の装置。
［Ｃ３０］
前記オブジェクトポジションを予測するための手段は、前のフレームからの１つ以上の目印ポジションに基づく、Ｃ２７に記載の装置。

Claims

電子デバイスによってオブジェクトをトラッキングするための方法であって、
検出されたオブジェクトポジションを作り出すために、初期フレームにおけるオブジェクトポジションを検出することと、
前記検出されたオブジェクトポジションまたは予測されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定することと、
前記１つ以上の目印ポジションに基づいて、後続のフレームにおける前記オブジェクトポジションを予測することと、
オブジェクトトラッキングが見失われているかどうかを決定することと、
オブジェクトトラッキングが維持されているケースでは、前記後続のフレームに関してオブジェクト検出を実行するのを回避することと、
を含む、方法。
前記目印ポジションが前記オブジェクトの構造内にある、請求項１に記載の方法。
オブジェクトポジション検出およびオブジェクトポジション予測は独立している、請求項１に記載の方法。
前記オブジェクトポジションを予測することは、前のフレームからの１つ以上の目印ポジションに基づく、請求項１に記載の方法。
前記目印ポジションの構造は予め定義される、請求項１に記載の方法。
オブジェクトトラッキングが見失われているかどうかを決定することは、１つ以上の目印ポジションおよびオブジェクトポジション予測のうちの少なくとも１つに基づく、請求項１に記載の方法。
速度モデルは予測中に利用され、変位モデルは測定中に利用され、ここにおいて、前記速度モデルおよび変位モデルの各々は、前記オブジェクトの構造に対応する、請求項１に記載の方法。
前記速度モデルおよび前記変位モデルは、いずれの厳しい制約も含まない、請求項７に記載の方法。
前記方法は、単一の画像シーケンスのある時間での１つのフレームに対して動作する、請求項１に記載の方法。
前のフレームの目印からのオブジェクトポジション予測のために速度モデルをトレーニングすることをさらに備える、請求項１に記載の方法。
現在のフレームにおける予測された境界ボックスポジションからの、または前記現在のフレームにおける検出された境界ボックスポジションからの目印測定のために変位モデルをトレーニングすることをさらに備える、請求項１に記載の方法。
オブジェクトをトラッキングするための電子デバイスであって、
プロセッサと、
前記プロセッサと電子通信状態にあるメモリと、
前記メモリに記憶された命令と
を備え、前記命令は、
検出されたオブジェクトポジションを作り出すために、初期フレームにおけるオブジェクトポジションを検出することと、
前記検出されたオブジェクトポジションまたは予測されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定することと、
前記１つ以上の目印ポジションに基づいて、後続のフレームにおける前記オブジェクトポジションを予測することと、
オブジェクトトラッキングが見失われているかどうかを決定することと、
オブジェクトトラッキングが維持されているケースでは、前記後続のフレームに関してオブジェクト検出を実行するのを回避することと、
を行うように前記プロセッサによって実行可能である、電子デバイス。
前記目印ポジションが前記オブジェクトの構造内にある、請求項１２に記載の電子デバイス。
オブジェクトポジション検出およびオブジェクトポジション予測は独立している、請求項１２に記載の電子デバイス。
前記オブジェクトポジションを予測することは、前のフレームからの１つ以上の目印ポジションに基づく、請求項１２に記載の電子デバイス。
前記目印ポジションの構造は予め定義される、請求項１２に記載の電子デバイス。
オブジェクトトラッキングが見失われているかどうかを決定することは、１つ以上の目印ポジションおよびオブジェクトポジション予測のうちの少なくとも１つに基づく、請求項１２に記載の電子デバイス。
速度モデルは予測中に利用され、変位モデルは測定中に利用され、ここにおいて、前記速度モデルおよび変位モデルの各々は、前記オブジェクトの構造に対応する、請求項１２に記載の電子デバイス。
前記速度モデルおよび前記変位モデルは、いずれの厳しい制約も含まない、請求項１８に記載の電子デバイス。
前記電子デバイスは、単一の画像シーケンスのある時間での１つのフレームに対して動作する、請求項１２に記載の電子デバイス。
前記命令は、前のフレームの目印からのオブジェクトポジション予測のために速度モデルをトレーニングするように前記プロセッサによってさらに実行可能である、請求項１２に記載の電子デバイス。
前記命令は、現在のフレームにおける予測された境界ボックスポジションからの、または前記現在のフレームにおける検出された境界ボックスポジションからの目印測定のために変位モデルをトレーニングするように前記プロセッサによってさらに実行可能である、請求項１２に記載の電子デバイス。
命令を記憶した非一時的な有形のコンピュータ可読媒体を備える、オブジェクトをトラッキングするためのコンピュータプログラム製品であって、
検出されたオブジェクトポジションを作り出すために、初期フレームにおけるオブジェクトポジションを検出することを電子デバイスに行わせるためのコードと、
前記検出されたオブジェクトポジションまたは予測されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定することを前記電子デバイスに行わせるためのコードと、
前記１つ以上の目印ポジションに基づいて、後続のフレームにおける前記オブジェクトポジションを予測することを前記電子デバイスに行わせるためのコードと、
オブジェクトトラッキングが見失われているかどうかを決定することを前記電子デバイスに行わせるためのコードと、
オブジェクトトラッキングが維持されているケースでは、前記後続のフレームに関してオブジェクト検出を実行するのを回避することを前記電子デバイスに行わせるためのコードと、
を備える、コンピュータプログラム製品。
前記目印ポジションが前記オブジェクトの構造内にある、請求項２３に記載のコンピュータプログラム製品。
オブジェクトポジション検出およびオブジェクトポジション予測は独立している、請求項２３に記載のコンピュータプログラム製品。
前記オブジェクトポジションを予測することを前記電子デバイスに行わせるためのコードは、前のフレームからの１つ以上の目印ポジションに基づく、請求項２３に記載のコンピュータプログラム製品。
オブジェクトをトラッキングするための装置であって、
検出されたオブジェクトポジションを作り出すために、初期フレームにおけるオブジェクトポジションを検出するための手段と、
前記検出されたオブジェクトポジションに基づいて、１つ以上の目印ポジションを測定するための手段と、
前記１つ以上の目印ポジションに基づいて、後続のフレームにおける前記オブジェクトポジションを予測するための手段と、
オブジェクトトラッキングが見失われているかどうかを決定するための手段と、
オブジェクトトラッキングが維持されているケースでは前記後続のフレームに関してオブジェクト検出を実行するのを回避するための手段と、
を備える、装置。
前記目印ポジションが前記オブジェクトの構造内にある、請求項２７に記載の装置。
オブジェクトポジション検出およびオブジェクトポジション予測は独立している、請求項２７に記載の装置。
前記オブジェクトポジションを予測するための手段は、前のフレームからの１つ以上の目印ポジションに基づく、請求項２７に記載の装置。