JP2022546643A

JP2022546643A - 不確実性を有するランドマーク位置推定のための画像処理システムおよび方法

Info

Publication number: JP2022546643A
Application number: JP2022538569A
Authority: JP
Inventors: マークス，ティム; クマール，アビナブ; モウ，ウェンシュエン; フェン，チェン; リウ，シャオミン
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-10-04
Filing date: 2020-09-30
Publication date: 2022-11-04
Anticipated expiration: 2040-09-30
Also published as: US11127164B2; EP3891705A1; CN114503162A; WO2021066204A1; US20210104068A1; JP7345664B2

Abstract

確率的な画像ベースのランドマーク位置推定に基づいてタスクを実行するためのコントローラは、ランドマークの構造化セットを有する種類のオブジェクトの画像を処理して、処理された各画像における各ランドマークの位置について、パラメータの値によって定義されるパラメトリック確率分布を生成するように訓練されたニューラルネットワークを用いる。コントローラは、入力画像のセットをニューラルネットワークにサブミットして、各入力画像のランドマークの構造化セットにおける各ランドマークの位置にわたってパラメトリック確率分布を定義するパラメータの値を生成する。コントローラはさらに、入力画像ごとに、入力画像におけるランドマークのパラメトリック確率分布に基づいて画像についてのグローバルランドマーク不確実性を求め、各入力画像におけるランドマークのパラメトリック確率分布と各入力画像のグローバルマーク不確実性とに基づいて、タスクを実行する。

Description

本発明は、一般に画像および動画処理に関し、特に、オブジェクト上のランドマークの位置の推定に関する。

ランドマーク位置推定とは、画像内のオブジェクトの複数の所定のランドマークの位置を推定することを指す。ランドマーク位置推定は、人間の顔および人間の体といった、ランドマークの構造化セットを有する異なる種類のオブジェクトの画像に対して行われる。ランドマーク位置推定が人間の顔の画像に対して行われる場合、ランドマーク位置推定は顔位置合わせとして知られ、目および口角などの既定の顔のランドマーク点を含むランドマークの構造化セットの画像における位置を推定することを含む。ランドマーク位置推定が人間の体の画像に対して行われる場合、ランドマーク位置推定は、人間の姿勢推定として知られ、肘関節および膝関節などの既定の解剖学上のランドマーク点を含む、体のランドマークの構造化セットの画像における位置を推定することを含む。

たとえば、顔画像に対するランドマーク位置推定、すなわち顔位置合わせは、表情認識、頭部姿勢推定、３Ｄ顔モデリング、人間－ロボット相互作用、および遠隔光電式容積脈波記録法を含む、多くのコンピュータ・ビジョン・アプリケーションの顔に関連するタスクのための基本的なステップである。すべてのこれらのタスクの達成は、顔のランドマークの位置推定の精度によって大きく左右される。しかしながら、顔の形、表情および向き、照明、ならびに画質などの要素によって異なる顔画像が変化するため、顔位置合わせには必然的に、ランドマーク位置推定の不確実性に起因するエラーという問題がある。

顔位置合わせと姿勢推定との両方への多くのアプローチは、深層学習モデルに基づく。これらのタスクについての現在の深層学習モデルでは、人間の姿勢推定のために開発されたネットワークアーキテクチャである深層ネットワークのカスケードが用いられることが典型的である。

深層学習モデルによって、ランドマーク位置推定の精度が改善される。しかしながら、このアプローチには複数の欠点がある。たとえば、ヒートマップの最大点集合は最も近い画素に対してしか求めることができないため、量子化誤差がランドマーク位置を求める間に導入される。

ランドマーク位置推定のためのほとんどの深層学習方法では、ランドマークごとに１つの位置が出力され、ネットワークには、各位置推定の不確実性レベルを出力する手段がない。顔位置合わせのためのある深層学習方法では、ノンパラメトリック確率密度関数を用いて各ランドマークの位置が推定される。ノンパラメトリックアプローチでは、ヒートマップを固定等方性ガウス核で畳込むことによって、カーネル密度ネットワークが得られる。ノンパラメトリックカーネル密度ネットワークモデルは、単純なパラメトリックモデルのきわめて大きな離散集合の和集合として、大きな連続分布を近似する方法である。しかしながら、ノンパラメトリックアプローチでは、正確な結果を得るために大量の訓練データが必要になることがある。さらに、ノンパラメトリックアプローチは、ノンパラメトリックにモデリングされている分布が単純なパラメトリック分布の形状に近い場合、準最適である。また、このノンパラメトリックアプローチは、ヒートマップの画素の基本的な格子の分解能および固定カーネルのサイズによって制約を受ける。たとえば、カーネルのサイズよりも狭い分布は、ノンパラメトリックアプローチを用いて正確にモデリングできない。そのため、ランドマーク位置の推定の精度を確認および改善するためのシステムならびに方法を開発する必要がある。

いくつかの実施形態の目的は、画像におけるオブジェクトの複数の所定のランドマークのランドマーク位置推定の精度を改善することである。さらにまたは代替的に、いくつかの実施形態の目的は、ランドマーク位置推定の精度に依存するタスクの実行の精度を改善することである。さらにまたは代替的に、いくつかの実施形態の目的は、ランドマーク位置推定においてエラーが存在する場合であっても、これらのタスクを実行する精度を改善することである。

いくつかの実施形態は、ランドマーク位置推定においてエラーが起こり得るが、ランドマーク位置に依存したタスクを次に実行する目的で、これらのエラーを回復可能であるという認識に基づく。たとえば、運転手の顔の画像のシーケンスにおいて顔位置合わせを行う車両運転手監視システムの場合、ある画像にとって顔位置合わせが不確実である場合、監視タスク用の当該画像の使用を減らすことが可能である、たとえば、集団的な実行における画像の重みを減らすことができる、または、画像をすべてスキップすることができる。

その目的で、いくつかの実施形態は、ランドマーク位置推定に加えて、そのような推定の不確実性を推定すること、およびこれらの不確実性を用いてタスクの次の実行に導くことは有益であるという認識に基づく。さらに、いくつかの実施形態は、ランドマーク位置推定の不確実性の推定は別のプロセスであるべきではなく、ランドマーク位置推定そのものにおいて統合されるべきであるという認識に基づく。具体的に、ランドマーク位置推定を行うようにニューラルネットワークを訓練する場合、そのようなニューラルネットワークは、ランドマーク位置だけでなく、推定位置の不確実性も出力する必要がある。このように、ニューラルネットワークは、両方の目的を達成するためにエンド・ツー・エンドで訓練可能である。

しかしながら、そのような二重目的のニューラルネットワークの構成および訓練によって、ノンパラメトリックデータの複雑さ、およびランドマークごとのランドマーク位置推定の不確実性と画像全体の不確実性との間の差に関連するさらに他の難題が生じる。いくつかの実施形態では、これらの問題に２つのステップで取組んでいる。第一に、いくつかの実施形態で用いられるニューラルネットワークは、ランドマークの位置を出力しないが、画像内の各ランドマークの位置にわたるパラメトリック確率分布を出力する。パラメトリック確率推定には、画像内の各ランドマークの位置にわたる確率分布を表すために、パラメトリックモデルの少数のパラメータを求めることが含まれる。それゆえ、各ランドマークの位置にわたる確率分布は、大きなノンパラメトリックモデルを用いるのではなく、小さなパラメトリックモデルを用いることによって表現される。いくつかの実施形態では、ランドマークごとのパラメトリック確率分布の異なるパラメータによって、ランドマークの位置の点推定値およびランドマークごとの位置推定の不確実性が定義される。このように、ニューラルネットワークの１つの出力は、ランドマークの位置およびその推定の不確実性の両方を表し得る。このように、いくつかの実施形態のニューラルネットワークは、計算量および出力データ量を大幅に増加させることなく、二重目的のために訓練される。

各処理画像における各ランドマークの位置についてのパラメータ値によって定義されるパラメトリック確率分布の例はガウス分布であり、これらのパラメータによって、ガウス分布の平均および共分散行列が決まる。この例では、平均はランドマークの位置の点を定義し、共分散行列は不確実性を定義する。なお、共分散行列は、ランドマークの位置にわたるガウス確率分布の多次元（たとえば２次元）形状および構造を定義する。

さらに、いくつかの実施形態では、入力画像内のランドマークごとにパラメトリック分布が求められる。このように、不確実性推定を個々のランドマークに合わせることができる。しかしながら、いくつかの実施形態では、入力画像の個別のランドマークについて求められるパラメトリック確率分布のパラメータの組合わせに基づいて、入力画像のグローバル不確実性が求められる。たとえば、いくつかの実現例では、グローバル不確実性は、画像内の個別のランドマーク位置のすべての不確実性を集約する１つのスカラー測定値である。タスク実行は、入力画像を取扱う態様を求めるための簡潔な測定として、当該入力画像についてこの１つのスカラー測定値を用いてもよい。このように、タスク実行の精度が向上される。

いくつかの実施形態は、ランドマークの位置およびランドマークごとの位置推定の不確実性がパラメトリック確率分布のパラメータから導出されるように、ランドマークごとのパラメトリック確率分布はランドマークの位置の推定値を含むという認識に基づく。この目的で、パラメトリック確率分布のいくつかのパラメータは、ランドマークの位置の点推定値を定義し、パラメトリック確率分布の他のパラメータは、確率分布の形状および広がりといった、ランドマーク位置の推定不確実性を定義する。しかしながら、ヒートマップベースの表現は、これらのパラメータの一部の推定について準最適の場合がある。実際は、異なるパラメータが異なるメカニズムを用いて最適に推定され得る。

たとえば、ランドマークごとにガウス確率分布が推定されるいくつかの実施形態では、ガウス確率分布（ランドマークの位置の点推定値である）の平均は１つ以上のヒートマップから得られる一方で、共分散行列を求めるパラメータは、直接回帰によって得られる。いくつかの実施形態では、実験によって、たとえばニューラルネットワークのボトルネック層における低次元の特徴値から直接回帰によって（分布の不確実性、すなわちその形状および広がりを求める）ガウス共分散行列の共分散行列を得ることによって、ヒートマップから共分散行列を得るよりも正確な結果が提供されると判断される。これは、分布のサイズおよび形状の良好な推定値を与えるのに十分な分解能をヒートマップが有していないからだと思われる。さらに、いくつかの実施形態では、直接回帰によって点推定値を取得するよりも、ランドマーク位置（ガウス平均）の点推定値をヒートマップから取得する方が有効であるということも、実験によって分かっている。その目的で、いくつかの実施形態では、直接回帰によってランドマーク位置の不確実性（たとえば、確率分布の形状および広がり）を算出しつつ、ランドマーク位置の点推定値（たとえば、ガウス平均）がヒートマップから算出される。

さらにまたは代替的に、いくつかの実施形態は、確率的な出力を有するそのようなニューラルネットワークを訓練するための損失関数が、その確率的性質を取込む必要があるという認識に基づく。その目的で、いくつかの実施形態では、入力画像から確率分布に、グランドトゥルース・ランドマーク位置の尤度を最大化するマッピングを提供するように、ニューラルネットワークが訓練される。たとえば、ニューラルネットワークは、損失関数として負の対数尤度を用いて訓練可能である。

このように、ランドマーク位置ごとのパラメトリック分布、たとえばガウス分布を出力することによって、出力分布に一致する損失関数を用いてニューラルネットワークを訓練することが可能になる。たとえばガウス対数尤度損失関数によって、ランドマーク位置およびその不確実性を同時に推定することが可能になる。この合同推定によって、不確実性の良好な予測が生じるが、最先端の顔位置合わせ結果も生じる。このように、確率的な出力を有する二重目的のニューラルネットワークによって、ランドマーク位置およびそれらの不確実性を同時に推定することに加えて、ランドマーク位置推定の精度を改善することも可能になる。

さらにまたは代替的に、いくつかの実施形態の目的は、運転手の監視などのセーフティクリティカルな応用のためのランドマーク検出システムを提供することである。ランドマーク位置検出と共に、不確実性の推定によって、セーフティクリティカルな応用（たとえば、運転手の監視）に関連するタスクを実行するための付加的なサポートが提供される。いくつかの実施形態では、ニューラルネットワークは、ランドマークの構造化セットを有する種類のオブジェクトの画像を処理して、画像内の各ランドマークの位置にわたるパラメトリック確率分布を生成するように訓練される。

いくつかの実施形態では、ニューラルネットワークは、１つ以上のＵネット（砂時計型ネットワーク（hourglass network）または砂時計とも呼ばれる）から２つの付加的な分岐コンポーネントが追加される、密に接続されたＵ－ネット（ＤＵ－ネット）アーキテクチャである。いくつかの実施形態では、すべての砂時計から新しいコンポーネントが追加されるが、他の実施形態では、最終的な砂時計からしか新しいコンポーネントが追加されない。第１の追加的なコンポーネントは平均推定器であり、これは、区別可能な態様で推定ランドマーク位置を算出し、各ランドマークの推定位置は、対応するヒートマップの正の要素の加重空間平均として算出される。第２のコンポーネントはコレスキー推定量ネットワーク（Cholesky Estimator Network：ＣＥＮ）であり、これは、ランドマーク位置ごとに２Ｄガウス確率分布の共分散行列のコレスキー係数を推定する。推定ランドマーク位置がガウス分布の平均として用いられ、かつ、推定共分散行列がガウス分布の共分散として用いられるガウス対数尤度損失（Gaussian Log-likelihood Loss：ＧＬＬ）の推定によって、ランドマーク位置およびランドマーク位置と関連付けられた不確実性の推定が可能になる。そのような推定は、ガウス対数尤度を有する不確実性（Uncertainty with Gaussian Log-Likelihood：ＵＧＬＬＩ）と呼ばれ、不確実推定とランドマーク位置推定との両方を生じる。

たとえば、平均および共分散行列を算出するための方法の選択は、要素の区別であり得る。いくつかの実施形態は、ヒートマップからランドマーク位置の点推定値を取得することによって、ランドマーク位置のより正確な推定が生じるという認識に基づく。しかしながら、いくつかの実施形態は、確率分布の他のパラメータは、ヒートマップからよりも直接回帰によって取得される場合により正確であるという認識に基づく。そのため、ある実施形態では、ランドマークの確率分布（たとえば平均）の位置がヒートマップから取得される一方で、ランドマークの確率分布（たとえば共分散行列）の形状および広がりは直接回帰によって取得される。

さらにまたは代替的に、いくつかの実施形態は、二重目的ニューラルネットワークは確率分布のパラメータを出力するため、確率ランドマーク位置推定を他の確率フィルタと組合わせて、ランドマーク位置推定の精度をさらに改善可能であるという認識に基づく。たとえば、いくつかの実施形態では、現在の入力画像についてのランドマークのパラメトリック確率分布はガウス確率分布であり、ガウス確率分布は、以前の入力画像について求められたガウス確率分布を用いて現在の入力画像について求められたガウス確率分布を更新するカルマンフィルタを用いて求められる。カルマンフィルタリングは、関係のある確率分布がガウス分布であるため、動画の後続のフレームにわたるランドマーク位置および不確実性の逐次推定に十分適合し得るという想定に基づく。

いくつかの実施形態では、タスクは推定グローバル不確実性に基づいて実行される。さらにまたは代替的に、いくつかの実施形態例では、推定ランドマーク位置と推定グローバル不確実性との両方に基づいて、タスクが実行される。いくつかの実施形態例では、画像内の複数のランドマークの位置についての推定グローバル不確実性が閾値より大きい場合、コントローラは、セーフティクリティカルな応用について画像から推定されたランドマークを拒否し、その後タスクは実行されない。いくつかの実施形態では、画像の推定グローバル不確実性が閾値より小さい場合、タスクが実行される。

したがって、ある実施形態では、確率的な画像ベースのランドマーク位置推定に基づいてタスクを実行するためのコントローラが開示される。コントローラは、ランドマークの構造化セットを有するオブジェクトの種類の入力画像のセットを受付けるように構成された入力インターフェイスと、ランドマークの構造化セットを有する種類のオブジェクトの画像を処理して、処理された各画像における各ランドマークの位置について、パラメータの値によって定義されたパラメトリック確率分布を生成するように訓練されたニューラルネットワークを格納するように構成されたメモリと、プロセッサとを備える。プロセッサは、入力画像のセットをニューラルネットワークにサブミットして、各入力画像のランドマークの構造化セットにおける各ランドマークの位置にわたってパラメトリック確率分布を定義するパラメータの値を生成し、入力画像ごとに、入力画像におけるランドマークのパラメトリック確率分布に基づいて、画像についてグローバルランドマーク不確実性を求め、さらに、各入力画像におけるランドマークのパラメトリック確率分布と、各入力画像のグローバルランドマーク不確実性とに基づいて、タスクを実行するように構成される。

本開示の実施形態はさらに、添付の図面を参照して説明される。図示される図面は必ずしも一定の縮尺ではなく、概して、本開示の実施形態の原則を説明する際に強調される。

いくつかの実施形態に係る、確率的な画像ベースのランドマーク位置推定に基づいてタスクを実行するためのコントローラを示すブロック図である。いくつかの実施形態に係る、人間の顔の入力画像のセットを示す図である。いくつかの実施形態に係る、人間の体の入力画像のセットを示す図である。いくつかの実施形態に係る、確率的な画像ベースのランドマーク位置推定に基づいてタスクを実行するためのコントローラの原則の模式的な概要を示す図である。いくつかの実施形態で用いられる確率的なニューラルネットワークの原則を示す模式図である。いくつかの実施形態に係る、ランドマーク位置および位置推定の不確実性の推定のためのニューラルネットワークの訓練を示す模式図である。いくつかの実施形態に係る、入力画像ごとに、各ランドマークの位置にわたってパラメトリック確率分布を取得するためのガウス対数尤度損失を有する不確実性（ＵＧＬＬＩ）法を模式的に示す図である。試験画像上のランドマーク位置推定および位置推定の不確実性の例示的な結果を示す図である。いくつかの実施形態に係る、３００Ｗの共通データセット、チャレンジデータセット、および完全データセット（スプリット１）に対する異なる方法間の正規化平均誤差（Normalized Mean Error：ＮＭＥ）比較を示す表である。３００Ｗ試験（スプリット２）およびＭｅｎｐｏデータセットに対する異なる方法間のＮＭＥおよび曲線下の面積（Area Under the Curve：ＡＵＣ）の比較を示す表である。すべての３００Ｗ試験画像（スプリット２）についての、ランドマーク位置の点推定値の正規化誤差に対する位置推定の正規化不確実性のプロットを示す図である。３００Ｗスプリット２で訓練されたＵＧＬＬＩ法を用いた、３００Ｗ試験およびＭｅｎｐｏデータセットに関するアブレーション研究を示す表である。いくつかの実施形態に係る、不確実性フィードバックを用いてランドマーク位置推定を改善するための模式図である。不確実性フィードバックを用いない場合、および不確実性フィードバックを用いた場合の、ランドマーク位置推定ならびにランドマーク位置推定の不確実性の例示的な結果を示す図である。いくつかの実施形態に係る、車両運転手監視環境において確率的な画像ベースのランドマーク位置推定に基づいてタスクを実行するための模式図である。動画ランドマーク追跡について、確率的な画像ベースのランドマーク位置推定をカルマンフィルタなどのベイズフィルタに組込むための模式図である。

以下の記載では、説明を目的として、本開示の十分な理解が得られるように多数の具体的な詳細について述べる。しかしながら、これらの具体的な詳細がなくても本開示が実施され得ることが当業者には明らかであろう。他の場合では、本開示が曖昧になるのを避けるためだけに、装置および方法をブロック図の形式で示す。

本明細書および請求項で使用されるように、「たとえば」、「例として」および「などの」という用語ならびに「備える」、「有する」、「含む」およびこれらのその他の動詞の形態は各々、１つ以上のコンポーネントまたはその他のアイテムの列挙とともに使用される場合、オープンエンドであると解釈されるべきである。これは、そのような列挙がさらに他のコンポーネントまたはアイテムを除外するとみなされるべきではないことを意味する。「～に基づく」という用語は、少なくとも部分的に基づくことを意味する。さらに、本明細書で使用される文体および専門用語は、説明を目的としたものであって限定するものとみなされるべきではないことが理解されるべきである。本明細書で使用されるいかなる見出しも、便宜的なものにすぎず、法的または限定効果を有するものではない。
システムの概要

図１Ａは、いくつかの実施形態に係る、確率的な画像ベースのランドマーク位置推定に基づいてタスクを実行するためのコントローラ１００を示すブロック図である。たとえば、いくつかの実施形態では、このタスクは車両運転手監視システムの一部であり、たとえば、車両運転手の顔位置合わせの判断を含み得る。これらの実施形態では、タスクの実行には、一連のアクションの実行または開始、たとえば、車両の減速および／または車両のステアリングの変更が含まれる。しかしながら、異なる実施形態では、画像におけるランドマーク位置推定に基づいて異なるシステムを実行することが可能である。

コントローラ１００は、ランドマークの構造化セットを有するオブジェクトの種類の入力画像１２２のセットを受付けるように構成された入力インターフェイス１０２を備える。コントローラ１００はさらに、コントローラ１００をバス１１６を介してネットワーク１２０に接続するように適合されたネットワークインターフェイスコントローラ（Network Interface Controller：ＮＩＣ）１１８を備える。ネットワーク１２０を介して無線または有線で、コントローラ１００は入力画像１２２を受信してもよい。本明細書で用いるように、ランドマークの構造化セットとは、人間の顔または人間の体の画像などの入力画像が同じ種類であることを表す。

図１Ｂは、いくつかの実施形態に係る、人間の顔の入力画像のセットを示す。図示するように、入力画像は、異なる表情および向きを有する異なる顔を有し得る。しかしながら、これらの顔のランドマークは、口１３８、鼻１４０、眉毛１４２、目１４４などの位置、形状、および構成を判断するために同じ構造を有する。この場合、ランドマークの構造化セットは、典型的な顔に存在する特定の顔のランドマークを定義する。１つ以上の入力画像を含むセットは異なる人の顔を含み得るが、一人の人間の顔の画像（たとえば、映像フレーム）の時間的なシーケンスでもよい。

図１Ｃは、いくつかの実施形態に係る、人間の体の入力画像のセットを示す。この場合、ランドマークの構造化セットは、人間の体の特定の関節１４６，１４８を定義する。ある実施形態では、画像は互いに独立している。異なる実施形態では、入力画像のセットは、人間の体の画像の時間的なシーケンスである。他の実施形態では、セットは１枚の画像を含む。

コントローラ１００は、プロセッサ１０４によって実行可能な命令を格納するメモリ１０６を備える。プロセッサ１０４は、格納された命令を実行するように構成されてもよい。プロセッサ１０４は、シングルコアプロセッサ、マルチコアプロセッサ、グラフィックス・プロセッシング・ユニット（Graphics Processing Unit：ＧＰＵ）、コンピューティングクラスタ、または任意の数の他の構成でもよい。メモリ１０６は、ランダムアクセスメモリ（Random Access Memory：ＲＡＭ）、読取り専用メモリ（Read Only Memory：ＲＯＭ）、フラッシュメモリ、または任意の他の好適なメモリシステムを含み得る。プロセッサ１０４は、バス１１６を介して１つ以上の入出力デバイスに接続される。さらに、コントローラ１００は、ニューラルネットワーク１１２、ならびに、確率的ランドマーク推定器１１４およびタスク実行器１３６などの他のコンポーネントを格納するように構成された記憶装置１１０を備える。記憶装置１１０は、ハードドライブ、光学ドライブ、サムドライブ、複数のドライブのアレイ、またはこれらの任意の組合せを用いて実現され得る。いくつかの実施形態では、ニューラルネットワーク１１２は、ランドマークの構造化セットを有する種類のオブジェクトの画像を処理して、処理された各画像における各ランドマークの位置についてパラメータの値によって定義されるパラメトリック確率分布を生成するように訓練されている。オブジェクトの種類が人間の顔である場合、ニューラルネットワーク１１２は、図１Ｂに示すような人間の顔の画像などの、異なる顔の画像を処理するように訓練される。オブジェクトが人間の体である場合、ニューラルネットワークは、図１Ｃに示す人間の体の画像などの、異なる人間の体の画像を処理するように訓練される。

プロセッサ１０４は、入力画像のセットをニューラルネットワーク１１２にサブミットして、各入力画像のランドマークの構造化セット内の各ランドマークの位置にわたるパラメトリック確率分布を定義するパラメータの値を生成するように構成される。ランドマークごとのパラメトリック確率分布は、ランドマークの位置およびランドマークについての位置推定の不確実性がパラメトリック確率分布のパラメータから導出されるように、ランドマークの位置の推定値を含む。いくつかの実施形態では、ランドマークのパラメトリック確率分布はガウス確率分布であり、ランドマークの推定位置は、ガウス確率分布の平均である。位置推定の不確実性は、ガウス確率分布の共分散行列から求められる。ガウス確率分布の平均は、１つ以上のヒートマップから取得され、共分散行列を求めるパラメータは、直接回帰によって取得される。この目的のために、いくつかの実施形態は、ニューラルネットワーク１１２がさらに、入力画像からガウス確率分布に、グランドトゥルース・ランドマーク位置の尤度を最大化するマッピングを提供するように訓練される。いくつかの実施形態では、グランドトゥルース・ランドマーク位置とは、ランドマークの実際の位置または正確な位置のことを指す。いくつかの実施形態では、グランドトゥルース・ランドマーク位置とは、人間のラベラーによって示されたランドマークの位置を指す。

プロセッサ１０４は、ニューラルネットワーク１１２を用いて、各ランドマークの位置にわたるパラメトリック確率分布を求め、かつ、入力画像ごとに、入力画像内のランドマークのパラメトリック確率分布に基づいて、画像についてのグローバルランドマーク不確実性を求めるように、確率的ランドマーク推定器１１４を実行する。たとえば、いくつかの実現例では、入力画像におけるランドマークの推定の求められた不確実性が組合わされて、入力画像についてのグローバルランドマーク不確実性を生成する。さらに、プロセッサ１０４は、タスク実行器１３６を実行して、各入力画像のグローバルランドマーク不確実性に基づいてタスクを実行するように構成される。

いくつかの実施形態では、プロセッサ１０４によるタスクの実行は、各画像内のランドマークの位置と各入力画像のグローバルランドマーク不確実性との推定に基づく。いくつかの実施形態では、タスク実行器の閾値は事前に定義されてもよい。いくつかの実施形態では、閾値はタスクに対して排他的であり、これは閾値がタスクによって変化し得ることを暗に示す。タスク実行は、入力画像についてのグローバルランドマーク不確実性が閾値より小さい場合に第１の一連のアクションを取ることと、入力画像についてのグローバルランドマーク不確実性が閾値より大きい場合に第２の一連のアクションを取ることとを含む。

いくつかの実現例では、コントローラ１００は、コントローラ１００を表示デバイス１２６に接続するように適合された表示インターフェイス１２４を備える。表示デバイス１２６は、特に、コンピュータモニタ、テレビ、プロジェクタ、またはモバイル表示デバイスを含み得る。

さらにまたは代替的に、コントローラ１００は、コントローラ１００を撮像デバイス１３０に接続するように適合された撮像インターフェイス１２８を備え得る。撮像デバイス１３０は、ビデオカメラ、コンピュータ、モバイルデバイス、ウェブカメラ、またはこれらの任意の組合せを含み得る。

さらにまたは代替的に、いくつかの実施形態では、コントローラ１００は、コントローラ１００の結果に基づいて動作可能なアプリケーションデバイス１３４にコントローラ１００を接続するように適合されたバス１１６を介して、アプリケーション１３２に接続される。たとえば、ある実施形態では、アプリケーションデバイス１３４はカーナビゲーションシステムであり、カーナビゲーションシステムは、推定ランドマーク位置を用いて、運転手のバイタルサインおよびグローバルランドマーク不確実性を取得して、推定ランドマーク位置、および取得されたバイタルサインが信頼できるかどうかを確認し、たとえば車のステアリングなどの制御方法を決定することを含むタスクを実行する。たとえば、ある実施形態では、アプリケーションデバイス１３４は、不確実性を有するランドマーク位置推定を用いて運転手のバイタルサインを判断および確認して、運転手が安全に運転可能なとき、たとえば、運転手が眠いかどうか、または運転手が運転不能かどうかを判断する。

図２は、いくつかの実施形態に係る、確率的な画像ベースのランドマーク位置推定に基づいてタスクを実行するための、コントローラの原則の模式的な概要を示す。ランドマークの構造化セットを有する入力画像２００が、ニューラルネットワーク２０２に入力される。入力画像２００は、人間の顔および／または人間の体などのオブジェクトを含み得る。いくつかの実施形態では、動画フレームのシーケンスなどの入力画像のセットが、ニューラルネットワーク２０２に入力されてもよい。ニューラルネットワーク２０２は、確率分布の形状およびスケールといった、各ランドマーク位置２０４の推定値および各ランドマーク位置２０６の推定不確実性を出力する。出力されたパラメータ、すなわち各ランドマーク位置２０４および各ランドマーク位置２０６の不確実性の推定は、各ランドマーク２０８の位置にわたるパラメトリック確率分布を定義する。

さらにまたは代替的に、いくつかの実施形態では、各ランドマークの位置にわたる推定確率分布は、ランドマークの位置の点推定値が１つもないようにパラメータ化されてもよい。たとえば、各ランドマークの位置にわたる確率分布は、２つの平均および２つの共分散行列によってパラメータ化されるであろう２つのガウス分布の混合でもよい。

入力画像２００の場合、入力画像２００内のランドマークごとの位置にわたるパラメトリック確率分布２０８に基づいて、グローバルランドマーク不確実性２１０が求められる。グローバルランドマーク不確実性２１０は、入力画像２００における個々のランドマークの推定位置のすべての不確実性を集約する１つのスカラー測定値でもよい。グローバルランドマーク不確実性２１０に基づいて、タスク実行２１２が行われる。いくつかの実施形態では、タスク実行は、各ランドマークの位置にわたるパラメトリック確率分布２０８とグローバルランドマーク不確実性２１０との両方に基づく。さらにまたは代替的に、いくつかの実施形態では、タスク実行は、各ランドマークの推定位置２０４とグローバルランドマーク不確実性とに基づく。

いくつかの実施形態では、入力画像ごとに、コントローラ１００は、求められたグローバルランドマーク不確実性を閾値と比較してもよい。閾値は事前に定義されてもよい。入力画像のグローバルランドマーク不確実性が閾値未満の場合、コントローラ１００は第１の一連のアクションを実行する。しかしながら、入力画像のグローバルランドマーク不確実性が閾値より大きい場合、コントローラ１００は、第１の一連のアクションと異なり得る第２の一連のアクションを実行する。

さらにまたは代替的に、いくつかの実施形態では、グローバルランドマーク不確実性は、ランドマークのサブセットについて算出されてもよい。たとえば、オブジェクトが顔の場合、グローバルランドマーク不確実性は、目の位置を判断するランドマークの位置の不確実性に基づいて算出されてもよい。これはたとえば、後続の注視方向を推定するために、目の正確な位置を知ることに依拠する応用の場合に有利なことがある。

図３は、いくつかの実施形態によって用いられる確率的ニューラルネットワークの原則を示す模式図である。ニューラルネットワーク３０２は、入力画像３００を処理して、処理された各画像の各ランドマークの位置について、パラメータの値によって定義されるパラメトリック確率分布３０４を出力する。確率分布３０４がガウス分布の場合、そのような分布のパラメータは、平均μ３０６と、共分散行列Σ３０８とを含む。画像は多次元（たとえば２次元）であるため、パラメトリック確率分布３０４のパラメータも多次元である。

ランドマークごとのパラメトリック確率分布３０４の異なるパラメータは、ランドマークの位置の点推定値と、ランドマークごとの位置推定の不確実性とを定義する（３１０）。たとえば、図３に示すように、楕円３１２の中心はランドマークの推定位置を示す一方で、楕円３１２のサイズおよび形状は、各方向における不確実性の度合いを示す。たとえば、楕円が大きいほど、不確実性は大きい。ガウス確率分布の場合、楕円は、パラメトリック確率分布の等確率の等高線を表し得る。

ニューラルネットワーク３０２は、連鎖法則を利用する勾配ベースの最適化アルゴリズムに従うバックプロパゲーションを用いて訓練可能である。バックプロパゲーションの主な特徴は、訓練されているタスクを行うことができるようになるまでネットワークを改善するために、重みの更新を計算するための繰返しの、再帰的な、かつ効率的な方法である。しかしながら、異なる実施形態は、ランドマーク位置推定の精度を改善するために、ニューラルネットワークの層の構造、損失関数、および最適化技術の間で異なる。

図６Ａは、３００Ｗ共通データセット、チャレンジデータセット、および完全データセット（スプリット１）に対する異なる方法間の正規化平均誤差（ＮＭＥ）比較を示す表である。３００Ｗスプリット１と呼ばれる訓練／試験セットペアについての顔位置合わせ結果またはランドマーク位置推定が図６Ａの表に要約され、３００Ｗ共通サブセット、チャレンジサブセット、および完全データセットに対する、試験セット内の画像にわたって平均化されたＮＭＥとして報告される。図６Ａの表における結果から、本明細書で開示されるＵＧＬＬＩ法が顔位置合わせについての複数の他の最近の方法より優れていることが観察される。ランドマーク位置の最も正確な点推定値（ＵＧＬＬＩ法によって出力されるガウスパラメトリック確率分布出力の平均）を生じることに加えて、ＵＧＬＬＩ法は、ガウスパラメトリック確率分布の共分散行列の形式で、各推定ランドマーク位置の不確実性の推定値を提供する。図６Ａにおける他の方法はいずれも、ランドマーク位置推定の不確実性の推定値を提供しない。

図６Ｂは、３００Ｗ試験（スプリット２）およびＭｅｎｐｏデータセットに対する異なる方法間の正規化平均誤差（ＮＭＥ）および曲線下面積ＡＵＣの比較を示す表である。３００Ｗスプリット２と呼ばれる訓練／試験セットペアについての顔位置合わせ結果またはランドマーク位置推定を、図６Ｂの表に要約する。さらに、図６Ｂの表は、Ｍｅｎｐｏデータセット（６８個のランドマークを有する６６７９枚の正面訓練画像）に対する（スプリット２で訓練された）モデルの結果を示す。図６Ｂの結果から、ＵＧＬＬＩ法が他の方法よりも非常に優れていることが明らかである。

画像内のランドマークごとに、位置推定の不確実性を計測するスカラー量が求められる。さらに、画像内のすべてのランドマークについての位置推定のこの不確実性の値は組合わされて、画像全体について１つのスカラーグローバルランドマーク不確実性値が得られる。いくつかの実施形態では、ランドマークごとの位置推定の不確実性は、ランドマークの位置にわたるガウス確率分布の共分散行列から得られる。

図７は、すべての３００Ｗ試験画像（スプリット２）上のランドマーク位置の点推定値の正規化エラーに対する位置推定の正規化不確実性のプロットを示す。プロット７００において、各点は１枚の画像における１つのランドマークを表し、各点のｙ座標は、位置推定のこのランドマーク不確実性の正規化バージョンを表す。プロット７０２において、各点は１枚の画像におけるすべてのランドマークにまたがる平均を表し、各点のｙ座標は、画像についてのグローバルランドマーク不確実性を表す。ここで、画像についてのグローバルランドマーク不確実性は、位置推定の正規化された不確実性の画像におけるすべてのランドマークにまたがる平均として算出される。各プロットの上部に書かれたプロットごとのピアソン相関係数は、我々の予測した不確実性が実際のエラーと高い相関関係にあることを示している。

プロット７０２における相関係数がプロット７００の相関係数より大きいことが観察される。言い換えると、画像における各ランドマークのランドマーク位置の不確実性はランドマークの推定位置のエラーの良好な予測子であるが、画像についてのグローバルランドマーク不確実性は、（画像についての平均ランドマーク位置推定エラーの）よりよい予測子である。さらに、画像についてのグローバルランドマーク不確実性は、きわめて大きな相関係数を有する。それゆえ、いくつかの実施形態では、画像についてのグローバルランドマーク不確実性は、個別のランドマークについてのランドマーク位置の不確実性を用いるのではなく、タスク実行についてのコントローラへの入力として適用される。

図９Ａは、いくつかの実施形態に係る、不確実性フィードバックを用いてランドマーク位置推定を改善するための模式図である。ＵＧＬＬＩモデルを画像のセットに適用する（９００）。ＵＧＬＬＩモデルの出力から、画像のセットの各画像のグローバルランドマーク不確実性が推定される（９０２）。画像のセットの各画像の推定グローバルランドマーク不確実性から、閾値より大きいグローバルランドマーク不確実性を有する画像が選択される（９０４）。いくつかの実施形態では、閾値は事前に定義される。選択された画像（すなわち、閾値より大きいグローバルランドマーク不確実性を有する画像）は、推定ランドマーク位置が最も不確実であると推定される画像であるため、これらは、ランドマーク位置推定の改善を最も必要とする画像である。選択された画像についてのランドマーク推定を改善するために、毎回異なるランダム摂動を用いて、選択された各画像にＵＧＬＬＩモデルを複数回適用する（９０６）。たとえば、いくつかの実施形態では、ランダム摂動９０６が、アルゴリズムを初期化するために使用されるフェイスボックスに適用される。いくつかの実施形態ではViola-Jones顔検出アルゴリズムなどの自動顔検出器によって判断されるフェイスボックスは、ニューラルネットワークへの入力について、オブジェクトの画像を最初にスケール変更し、変換し、回転し、または他の態様では（たとえば２Ｄアフィン変換によって）変形するために用いられる。ランダム摂動をフェイスボックスの位置、スケール、回転角度、およびアスペクト比のうちの１つ以上に適用することによって、方法の初期化がわずかに異なり、方法の出力もわずかに異なる。特に、いくつかの初期化のなかには、より正確な推定ランドマーク位置を生じるものがある。

選択された画像ごとに、画像の複数の摂動バージョンがＵＧＬＬＩモデルによって与えられ、画像の各摂動バージョンのグローバルランドマーク不確実性が算出される。画像の摂動バージョンすべてのグローバルランドマーク不確実性が比較され（９０８）、最小のグローバルランドマーク不確実性を生じる摂動から結果が選択される（９１０）。これらの最終結果のランドマーク位置推定値は方法の本来のランドマーク位置推定値と比較してより小さな正規化平均誤差（ＮＭＥ）を有することが観察される。そのため、言い換えると、不確実性フィードバックによって、ランドマーク位置推定の平均誤差が減少する。さらにまたは代替的に、異なる種類のランダム摂動を適用してもよい。たとえば、ニューラルネットワークの特定の層における特徴値に、ランダムに摂動を与えることができる。

図９Ｂは、不確実性フィードバックを用いない場合、および不確実性フィードバックを用いた場合の、ランドマーク位置推定ならびにランドマーク位置推定の不確実性の例示的な結果を示す。図９Ｂでは、画像９１２は、不確実性フィードバックを用いない場合のランドマーク位置推定およびランドマーク位置推定の不確実性の結果である。画像９１４は、不確実性フィードバックを用いた場合の、ランドマーク位置推定およびランドマーク位置推定の不確実性の結果である。ＮＭＥ（％）の値に加えて、画像９１２および９１４の各々においてランドマークにわたって平均化される予測不確実性（ＵＣＡ）の値が、画像の上部にそれぞれ示される。図９Ｂの結果から、初期の結果、すなわち、不確実性フィードバックを用いない場合の結果９１２と比較して、不確実性フィードバックを用いた場合の結果９１４がより小さいエラーを有することが明らかである。

図１０は、いくつかの実施形態に係る、車両運転手監視環境における確率的な画像ベースのランドマーク位置推定に基づいてタスクを実行するための模式図である。車両運転手監視環境１０００では、車両運転手１００２は車両１００４を運転しており、車両運転手１００２のバイタルサイン（顔位置合わせおよび姿勢位置合わせのうちの１つまたは複数）を監視する必要がある。いくつかの実施形態例では、動画追跡方法が顔追跡または人間の姿勢追跡に適用される。そのような場合、動画ベースのランドマーク追跡は最終タスクでもよい、または、その結果が次の下流タスクにおいて用いられる中間タスクでもよい。ここで、動画顔位置合わせ（すなわち、顔追跡）は、実施形態の説明を容易にするために考慮される。しかしながら、いくつかの実施形態では、動画人間姿勢推定（すなわち、人間の姿勢追跡）を含む他の動画追跡の適用も考慮される。

カメラ１００６は、動画を取込み、取込んだ動画をフレーム（すなわち、画像）の時間的なシーケンスに変換するように構成される。コントローラ１００８が、画像の時間的なシーケンスにおける画像に対して確率的な画像ベースのランドマーク位置推定（たとえば、ＵＧＬＬＩ法）を実行するように構成される。画像ベースのランドマーク位置推定は、Viola-Jones顔検出アルゴリズムなどの自動顔検出器によって与えられるフェイスボックス１０１０によって初期化される。フェイスボックス１０１０は、車両運転手１００２の顔全体を覆う。いくつかの実施形態では、フェイスボックスは、車両運転手１００２の顔全体の重要な部分、たとえば、ランドマークを含む顔の一部を覆う。

シーケンスにおける第１の画像（動画の第１のフレーム）について、自動顔検出器によって与えられる第１のフェイスボックスを用いて、画像ベースのランドマーク位置推定が初期化される。画像ベースのランドマーク位置推定によって、第１の画像についてランドマーク推定およびグローバル不確実性推定が出力される。

出力に基づいて、コントローラ１００８は、ランドマーク位置推定およびタスク実行の質を判断する。いくつかの実施形態では、コントローラ１００８は、第１の画像の推定されたグローバルランドマーク不確実性が閾値より小さい場合、第１の画像におけるランドマーク位置推定の質が良いと判断し、第１の一連のアクションを実行する。いくつかの実施形態では、第１の一連のアクションは、第１のフレームから推定ランドマーク位置によって求められた第２のフェイスボックスを用いて、シーケンスの第２の画像について画像ベースのランドマーク位置推定を初期化することを含む。

いくつかの実施形態では、コントローラ１００８は、第１の画像の推定グローバルランドマーク不確実性が閾値より小さい場合、第１の画像におけるランドマーク位置推定の質が悪いと判断し、第２の一連のアクションを実行する。いくつかの実施形態では、第２の一連のアクションは、自動顔検出器によって与えられる第２のフェイスボックスを用いて、第２の画像について画像ベースのランドマーク位置推定を初期化することを含む。

いくつかの実施形態では、画像ベースのランドマーク推定量は、カルマンフィルタなどのベイズフィルタを用いた顔ランドマーク追跡について用いられる。

いくつかの実施形態では、コントローラはさらに、カルマンフィルタに基づいて画像シーケンス内の第１の画像について求められたガウス確率分布を用いて、画像シーケンスにおける第２の画像について求められたガウス確率分布を更新するように構成される。入力画像（時間ステップ）ごとのカルマンフィルタによる出力推定値１１１０はその後、状態の予備知識１１１０（すなわち、予備確率分布）として次の画像（次の時間ステップ）について使用され、各時間ステップからの出力平均１１０８および共分散行列１１０６は、事前分布１１００の平均１１０４および共分散行列１１０２として、次の時間ステップで用いられる。カルマンフィルタリングなどの経時的なフィルタリングの使用は、いくつかの理由で利点を有する。第１に、ランドマーク位置および不確実性の推定の精度を改善し得る。第２に、出力ランドマーク推定値１１１０に対する不確実性が大きい推定値１１１２の影響がより小さくなる一方で、出力ランドマーク推定値１１１０に対する不確実性が小さい推定値１１１２の影響がより大きくなるように、各画像の推定不確実性を好適に使用し得る。

上記の説明は、例示的な実施形態のみを提供し、本開示の範囲、適用可能性、または、構成を限定することを意図していない。そうではなく、例示的な実施形態の上述の説明は、１つ以上の例示的な実施形態を実現するための実施可能な記載を当業者に提供する。以下で説明する特許請求の範囲に記載されるように開示される主題の精神および範囲から逸脱することなしに、要素の機能および構成においてなされ得るさまざまな変更が考えられる。

具体的な詳細は、実施形態の完全な理解を提供するために以下の記載において与えられる。しかしながら、当業者によって理解されるのであれば、実施形態はこれらの具体的な詳細なしでも実施され得る。たとえば、開示される主題におけるシステム、プロセス、および他の要素は、実施形態を不必要に詳細に不明瞭にしないために、ブロック図の形態でコンポーネントとして示され得る。他の場合では、実施形態を不明瞭にすることを避けるために、周知のプロセス、構造および技術は、不必要な詳細なしで示され得る。さらに、さまざまな図面における同様の参照番号および名称は同様の要素を示す。

さらに、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図またはブロック図として示されるプロセスとして説明され得る。フローチャートは、動作を連続したプロセスとして記載し得るが、動作の多くは並行してまたは同時に実行され得る。加えて、動作の順序は並替えられてもよい。プロセスは、その動作が完了すると終了され得るが、図に記載されていないまたは含まれていない付加的なステップを有する可能性もある。さらに、特定的に記載される任意のプロセスにおけるすべての動作がすべての実施形態において行われ得るわけではない。プロセスは方法、関数、手順、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応する場合、関数の終了は、呼び出し関数またはメイン関数への関数の復帰に対応し得る。

さらに、開示される主題の実施形態は、少なくとも部分的に、手動または自動のいずれかで実現され得る。手動または自動の実現は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、または、それらの任意の組み合せの使用により実行され得るかまたは少なくとも支援され得る。ソフトウェア、ファームウェア、ミドルウェアまたはマイクロコードで実現される場合、必要なタスクを実行するべきプログラムコードまたはコードセグメントはマシン可読媒体に格納され得る。プロセッサが必要なタスクを実行し得る。

本明細書において概説されるさまざまな方法またはプロセスは、さまざまなオペレーティングシステムまたはプラットフォームのいずれか１つを採用する１つ以上のプロセッサ上で実行可能なソフトウェアとしてコード化され得る。加えて、そのようなソフトウェアは、いくつかの好適なプログラミング言語および／またはプログラミングもしくはスクリプトツールのいずれかを用いて記述され得るとともに、フレームワークまたは仮想マシン上で実行される実行可能なマシン言語コードまたは中間コードとしてコンパイルされ得る。典型的には、プログラムモジュールの機能は、さまざまな実施形態において所望されるように組合わされてもよい、または分散されてもよい。

本開示の実施形態は、その例を先に示した方法として実施することができる。この方法の一部として実行される動作は、任意の適切な方法で決定することができる。したがって、実施形態を、動作が例示された順序と異なる順序で実行されるように構成してもよく、これは、いくつかの動作は例示した実施形態では一連の動作として示されているが、これらの動作を同時に実行することを含み得る。

本開示について特定の好ましい実施形態を参照して説明してきたが、さまざまな他の適応例および変形例が本開示の精神および範囲内で可能であることが理解されるべきである。したがって、以下の請求項の態様は、本開示の真の精神および範囲に含まれるすべてのそのような変形例および修正例をカバーする。

Claims

確率的な画像ベースのランドマーク位置推定に基づいてタスクを実行するためのコントローラであって、
ランドマークの構造化セットを有するオブジェクトの種類の入力画像のセットを受付けるように構成された入力インターフェイスと、
前記ランドマークの構造化セットを有する前記種類のオブジェクトの画像を処理して、処理された各画像における各ランドマークの位置にわたってパラメータの値によって定義されたパラメトリック確率分布を生成するように訓練されたニューラルネットワークを格納するように構成されたメモリと、
プロセッサとを備え、
前記プロセッサは、（１）前記入力画像のセットを前記ニューラルネットワークにサブミットして、各入力画像の前記ランドマークの構造化セットにおける各ランドマークの前記位置にわたって前記パラメトリック確率分布を定義する前記パラメータの前記値を生成し、（２）入力画像ごとに、前記入力画像における前記ランドマークのパラメトリック確率分布に基づいて、前記画像についてグローバルランドマーク不確実性を求め、かつ、（３）各入力画像におけるランドマークの前記パラメトリック確率分布と、各入力画像の前記グローバルランドマーク不確実性とに基づいて、前記タスクを実行するように構成される、コントローラ。
ランドマークごとの前記パラメトリック確率分布の異なるパラメータは、前記ランドマークの前記位置の点推定値と、前記ランドマークについての前記位置推定の不確実性とを定義する、請求項１に記載のコントローラ。
前記プロセッサは、各画像における前記ランドマークの前記位置の前記点推定値と、各入力画像の前記グローバルランドマーク不確実性とに基づいて、前記タスクを実行する、請求項２に記載のコントローラ。
入力画像ごとの前記ランドマーク位置推定の精度を求めるために、前記プロセッサは、
前記ランドマークについて生成される前記パラメトリック確率分布の不確実性の測定値に基づいて、前記入力画像におけるランドマークごとに位置推定の不確実性を求め、かつ、
入力画像ごとに、前記画像における前記ランドマークの推定の求められた不確実性を組合わせて、前記入力画像についての前記グローバルランドマーク不確実性を生成するように構成される、請求項１に記載のコントローラ。
前記オブジェクトの種類は人間の顔であり、
前記ニューラルネットワークは異なる顔の画像を処理するように訓練され、
前記ランドマークの構造化セットは、典型的な顔に存在する特定の顔のランドマークを定義する、請求項１に記載のコントローラ。
前記入力画像のセットは、前記人間の顔の画像の時間的なシーケンスである、請求項５に記載のコントローラ。
前記オブジェクトは人間の体であり、
前記ニューラルネットワークは、異なる人間の体の画像を処理するように訓練され、
前記ランドマークの構造化セットは前記人間の体の特定の関節を定義する、請求項１に記載のコントローラ。
前記入力画像のセットは、前記人間の体の画像の時間的なシーケンスである、請求項７に記載のコントローラ。
前記ランドマークの前記パラメトリック確率分布はガウス確率分布であり、
前記ランドマークの前記位置の前記点推定値は、前記ガウス確率分布の前記平均によって求められ、
前記ランドマークの前記位置推定の不確実性は、前記ガウス確率分布の共分散行列から求められる、請求項２に記載のコントローラ。
前記ガウス確率分布の平均は１つ以上のヒートマップから取得され、前記共分散行列を求める前記パラメータは直接回帰によって取得される、請求項９に記載のコントローラ。
前記ランドマークについての位置推定の不確実性は、前記ガウス確率分布の前記共分散行列の決定要素のｎ乗根である、請求項９に記載のコントローラ。
前記ランドマークについての前記位置推定の不確実性は、前記ガウス確率分布の前記共分散行列の固有値の平均である、請求項９に記載のコントローラ。
前記ニューラルネットワークは砂時計型サブネットワークのスタックを含み、
各砂時計は、前記砂時計の最後の最大の特徴マップ層からランドマークごとにヒートマップを出力し、
ヒートマップは、前記ランドマークの前記位置を示す強度画像であり、前記パラメトリック確率分布の平均は、前記ヒートマップの正の値の位置の加重平均であり、
各砂時計はボトルネック層から特徴を出力し、
前記ボトルネック層の特徴値は、コレスキー推定量ネットワークによって処理されて、各ランドマークの前記共分散行列が導出される値を生成する、請求項９に記載のコントローラ。
前記ニューラルネットワークは、前記入力画像から前記ガウス確率分布に、グランドトゥルース・ランドマーク位置の尤度を最大化するマッピングを提供するように訓練される、請求項９に記載のコントローラ。
前記ニューラルネットワークは、損失関数として負の対数尤度を用いて訓練される、請求項１４に記載のコントローラ。
現在の入力画像についてのランドマークの前記パラメトリック確率分布はガウス確率分布であり、
前記プロセッサは、以前の入力画像について求められたガウス確率分布を用いて前記現在の入力画像について前記カルマンフィルタによって出力される前記ガウス確率分布を更新するカルマンフィルタを用いて、前記画像内の前記ランドマークの前記位置にわたって最終的なガウス確率分布を取得するように構成される、請求項１に記載のコントローラ。
タスク実行は、前記入力画像についての前記グローバルランドマーク不確実性が閾値より小さい場合、第１の一連のアクションを取ることと、前記入力画像についての前記グローバルランドマーク不確実性が閾値より大きい場合、第２の一連のアクションを取ることとを含む、請求項１に記載のコントローラ。
入力画像の前記グローバルランドマーク不確実性は、前記画像についての前記ランドマーク位置推定を提供するために用いられる不確実性フィードバックを提供する、請求項１に記載のコントローラ。
前記入力画像の前記グローバルランドマーク不確実性が閾値より大きい場合、前記プロセッサは、
毎回異なるランダム摂動を使用し、かつ、グローバルランドマーク不確実性を算出して、前記入力画像に対して前記ランドマーク位置推定を複数回実行し、
前記グローバルランドマーク不確実性を比較し、かつ、
最小のグローバルランドマーク不確実性を生じる前記ランドマーク位置推定の実行の結果を選択するように構成される、請求項１８に記載のコントローラ。
前記タスクは車両運転手監視システムの一部である、請求項１に記載のコントローラ。