JP2022546643A - 不確実性を有するランドマーク位置推定のための画像処理システムおよび方法 - Google Patents

不確実性を有するランドマーク位置推定のための画像処理システムおよび方法 Download PDF

Info

Publication number
JP2022546643A
JP2022546643A JP2022538569A JP2022538569A JP2022546643A JP 2022546643 A JP2022546643 A JP 2022546643A JP 2022538569 A JP2022538569 A JP 2022538569A JP 2022538569 A JP2022538569 A JP 2022538569A JP 2022546643 A JP2022546643 A JP 2022546643A
Authority
JP
Japan
Prior art keywords
landmark
uncertainty
probability distribution
image
controller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022538569A
Other languages
English (en)
Other versions
JP7345664B2 (ja
Inventor
マークス,ティム
クマール,アビナブ
モウ,ウェンシュエン
フェン,チェン
リウ,シャオミン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2022546643A publication Critical patent/JP2022546643A/ja
Application granted granted Critical
Publication of JP7345664B2 publication Critical patent/JP7345664B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/77Determining position or orientation of objects or cameras using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

確率的な画像ベースのランドマーク位置推定に基づいてタスクを実行するためのコントローラは、ランドマークの構造化セットを有する種類のオブジェクトの画像を処理して、処理された各画像における各ランドマークの位置について、パラメータの値によって定義されるパラメトリック確率分布を生成するように訓練されたニューラルネットワークを用いる。コントローラは、入力画像のセットをニューラルネットワークにサブミットして、各入力画像のランドマークの構造化セットにおける各ランドマークの位置にわたってパラメトリック確率分布を定義するパラメータの値を生成する。コントローラはさらに、入力画像ごとに、入力画像におけるランドマークのパラメトリック確率分布に基づいて画像についてのグローバルランドマーク不確実性を求め、各入力画像におけるランドマークのパラメトリック確率分布と各入力画像のグローバルマーク不確実性とに基づいて、タスクを実行する。

Description

本発明は、一般に画像および動画処理に関し、特に、オブジェクト上のランドマークの位置の推定に関する。
ランドマーク位置推定とは、画像内のオブジェクトの複数の所定のランドマークの位置を推定することを指す。ランドマーク位置推定は、人間の顔および人間の体といった、ランドマークの構造化セットを有する異なる種類のオブジェクトの画像に対して行われる。ランドマーク位置推定が人間の顔の画像に対して行われる場合、ランドマーク位置推定は顔位置合わせとして知られ、目および口角などの既定の顔のランドマーク点を含むランドマークの構造化セットの画像における位置を推定することを含む。ランドマーク位置推定が人間の体の画像に対して行われる場合、ランドマーク位置推定は、人間の姿勢推定として知られ、肘関節および膝関節などの既定の解剖学上のランドマーク点を含む、体のランドマークの構造化セットの画像における位置を推定することを含む。
たとえば、顔画像に対するランドマーク位置推定、すなわち顔位置合わせは、表情認識、頭部姿勢推定、3D顔モデリング、人間-ロボット相互作用、および遠隔光電式容積脈波記録法を含む、多くのコンピュータ・ビジョン・アプリケーションの顔に関連するタスクのための基本的なステップである。すべてのこれらのタスクの達成は、顔のランドマークの位置推定の精度によって大きく左右される。しかしながら、顔の形、表情および向き、照明、ならびに画質などの要素によって異なる顔画像が変化するため、顔位置合わせには必然的に、ランドマーク位置推定の不確実性に起因するエラーという問題がある。
顔位置合わせと姿勢推定との両方への多くのアプローチは、深層学習モデルに基づく。これらのタスクについての現在の深層学習モデルでは、人間の姿勢推定のために開発されたネットワークアーキテクチャである深層ネットワークのカスケードが用いられることが典型的である。
Figure 2022546643000002
深層学習モデルによって、ランドマーク位置推定の精度が改善される。しかしながら、このアプローチには複数の欠点がある。たとえば、ヒートマップの最大点集合は最も近い画素に対してしか求めることができないため、量子化誤差がランドマーク位置を求める間に導入される。
ランドマーク位置推定のためのほとんどの深層学習方法では、ランドマークごとに1つの位置が出力され、ネットワークには、各位置推定の不確実性レベルを出力する手段がない。顔位置合わせのためのある深層学習方法では、ノンパラメトリック確率密度関数を用いて各ランドマークの位置が推定される。ノンパラメトリックアプローチでは、ヒートマップを固定等方性ガウス核で畳込むことによって、カーネル密度ネットワークが得られる。ノンパラメトリックカーネル密度ネットワークモデルは、単純なパラメトリックモデルのきわめて大きな離散集合の和集合として、大きな連続分布を近似する方法である。しかしながら、ノンパラメトリックアプローチでは、正確な結果を得るために大量の訓練データが必要になることがある。さらに、ノンパラメトリックアプローチは、ノンパラメトリックにモデリングされている分布が単純なパラメトリック分布の形状に近い場合、準最適である。また、このノンパラメトリックアプローチは、ヒートマップの画素の基本的な格子の分解能および固定カーネルのサイズによって制約を受ける。たとえば、カーネルのサイズよりも狭い分布は、ノンパラメトリックアプローチを用いて正確にモデリングできない。そのため、ランドマーク位置の推定の精度を確認および改善するためのシステムならびに方法を開発する必要がある。
いくつかの実施形態の目的は、画像におけるオブジェクトの複数の所定のランドマークのランドマーク位置推定の精度を改善することである。さらにまたは代替的に、いくつかの実施形態の目的は、ランドマーク位置推定の精度に依存するタスクの実行の精度を改善することである。さらにまたは代替的に、いくつかの実施形態の目的は、ランドマーク位置推定においてエラーが存在する場合であっても、これらのタスクを実行する精度を改善することである。
いくつかの実施形態は、ランドマーク位置推定においてエラーが起こり得るが、ランドマーク位置に依存したタスクを次に実行する目的で、これらのエラーを回復可能であるという認識に基づく。たとえば、運転手の顔の画像のシーケンスにおいて顔位置合わせを行う車両運転手監視システムの場合、ある画像にとって顔位置合わせが不確実である場合、監視タスク用の当該画像の使用を減らすことが可能である、たとえば、集団的な実行における画像の重みを減らすことができる、または、画像をすべてスキップすることができる。
その目的で、いくつかの実施形態は、ランドマーク位置推定に加えて、そのような推定の不確実性を推定すること、およびこれらの不確実性を用いてタスクの次の実行に導くことは有益であるという認識に基づく。さらに、いくつかの実施形態は、ランドマーク位置推定の不確実性の推定は別のプロセスであるべきではなく、ランドマーク位置推定そのものにおいて統合されるべきであるという認識に基づく。具体的に、ランドマーク位置推定を行うようにニューラルネットワークを訓練する場合、そのようなニューラルネットワークは、ランドマーク位置だけでなく、推定位置の不確実性も出力する必要がある。このように、ニューラルネットワークは、両方の目的を達成するためにエンド・ツー・エンドで訓練可能である。
しかしながら、そのような二重目的のニューラルネットワークの構成および訓練によって、ノンパラメトリックデータの複雑さ、およびランドマークごとのランドマーク位置推定の不確実性と画像全体の不確実性との間の差に関連するさらに他の難題が生じる。いくつかの実施形態では、これらの問題に2つのステップで取組んでいる。第一に、いくつかの実施形態で用いられるニューラルネットワークは、ランドマークの位置を出力しないが、画像内の各ランドマークの位置にわたるパラメトリック確率分布を出力する。パラメトリック確率推定には、画像内の各ランドマークの位置にわたる確率分布を表すために、パラメトリックモデルの少数のパラメータを求めることが含まれる。それゆえ、各ランドマークの位置にわたる確率分布は、大きなノンパラメトリックモデルを用いるのではなく、小さなパラメトリックモデルを用いることによって表現される。いくつかの実施形態では、ランドマークごとのパラメトリック確率分布の異なるパラメータによって、ランドマークの位置の点推定値およびランドマークごとの位置推定の不確実性が定義される。このように、ニューラルネットワークの1つの出力は、ランドマークの位置およびその推定の不確実性の両方を表し得る。このように、いくつかの実施形態のニューラルネットワークは、計算量および出力データ量を大幅に増加させることなく、二重目的のために訓練される。
各処理画像における各ランドマークの位置についてのパラメータ値によって定義されるパラメトリック確率分布の例はガウス分布であり、これらのパラメータによって、ガウス分布の平均および共分散行列が決まる。この例では、平均はランドマークの位置の点を定義し、共分散行列は不確実性を定義する。なお、共分散行列は、ランドマークの位置にわたるガウス確率分布の多次元(たとえば2次元)形状および構造を定義する。
さらに、いくつかの実施形態では、入力画像内のランドマークごとにパラメトリック分布が求められる。このように、不確実性推定を個々のランドマークに合わせることができる。しかしながら、いくつかの実施形態では、入力画像の個別のランドマークについて求められるパラメトリック確率分布のパラメータの組合わせに基づいて、入力画像のグローバル不確実性が求められる。たとえば、いくつかの実現例では、グローバル不確実性は、画像内の個別のランドマーク位置のすべての不確実性を集約する1つのスカラー測定値である。タスク実行は、入力画像を取扱う態様を求めるための簡潔な測定として、当該入力画像についてこの1つのスカラー測定値を用いてもよい。このように、タスク実行の精度が向上される。
いくつかの実施形態は、ランドマークの位置およびランドマークごとの位置推定の不確実性がパラメトリック確率分布のパラメータから導出されるように、ランドマークごとのパラメトリック確率分布はランドマークの位置の推定値を含むという認識に基づく。この目的で、パラメトリック確率分布のいくつかのパラメータは、ランドマークの位置の点推定値を定義し、パラメトリック確率分布の他のパラメータは、確率分布の形状および広がりといった、ランドマーク位置の推定不確実性を定義する。しかしながら、ヒートマップベースの表現は、これらのパラメータの一部の推定について準最適の場合がある。実際は、異なるパラメータが異なるメカニズムを用いて最適に推定され得る。
たとえば、ランドマークごとにガウス確率分布が推定されるいくつかの実施形態では、ガウス確率分布(ランドマークの位置の点推定値である)の平均は1つ以上のヒートマップから得られる一方で、共分散行列を求めるパラメータは、直接回帰によって得られる。いくつかの実施形態では、実験によって、たとえばニューラルネットワークのボトルネック層における低次元の特徴値から直接回帰によって(分布の不確実性、すなわちその形状および広がりを求める)ガウス共分散行列の共分散行列を得ることによって、ヒートマップから共分散行列を得るよりも正確な結果が提供されると判断される。これは、分布のサイズおよび形状の良好な推定値を与えるのに十分な分解能をヒートマップが有していないからだと思われる。さらに、いくつかの実施形態では、直接回帰によって点推定値を取得するよりも、ランドマーク位置(ガウス平均)の点推定値をヒートマップから取得する方が有効であるということも、実験によって分かっている。その目的で、いくつかの実施形態では、直接回帰によってランドマーク位置の不確実性(たとえば、確率分布の形状および広がり)を算出しつつ、ランドマーク位置の点推定値(たとえば、ガウス平均)がヒートマップから算出される。
さらにまたは代替的に、いくつかの実施形態は、確率的な出力を有するそのようなニューラルネットワークを訓練するための損失関数が、その確率的性質を取込む必要があるという認識に基づく。その目的で、いくつかの実施形態では、入力画像から確率分布に、グランドトゥルース・ランドマーク位置の尤度を最大化するマッピングを提供するように、ニューラルネットワークが訓練される。たとえば、ニューラルネットワークは、損失関数として負の対数尤度を用いて訓練可能である。
このように、ランドマーク位置ごとのパラメトリック分布、たとえばガウス分布を出力することによって、出力分布に一致する損失関数を用いてニューラルネットワークを訓練することが可能になる。たとえばガウス対数尤度損失関数によって、ランドマーク位置およびその不確実性を同時に推定することが可能になる。この合同推定によって、不確実性の良好な予測が生じるが、最先端の顔位置合わせ結果も生じる。このように、確率的な出力を有する二重目的のニューラルネットワークによって、ランドマーク位置およびそれらの不確実性を同時に推定することに加えて、ランドマーク位置推定の精度を改善することも可能になる。
さらにまたは代替的に、いくつかの実施形態の目的は、運転手の監視などのセーフティクリティカルな応用のためのランドマーク検出システムを提供することである。ランドマーク位置検出と共に、不確実性の推定によって、セーフティクリティカルな応用(たとえば、運転手の監視)に関連するタスクを実行するための付加的なサポートが提供される。いくつかの実施形態では、ニューラルネットワークは、ランドマークの構造化セットを有する種類のオブジェクトの画像を処理して、画像内の各ランドマークの位置にわたるパラメトリック確率分布を生成するように訓練される。
いくつかの実施形態では、ニューラルネットワークは、1つ以上のUネット(砂時計型ネットワーク(hourglass network)または砂時計とも呼ばれる)から2つの付加的な分岐コンポーネントが追加される、密に接続されたU-ネット(DU-ネット)アーキテクチャである。いくつかの実施形態では、すべての砂時計から新しいコンポーネントが追加されるが、他の実施形態では、最終的な砂時計からしか新しいコンポーネントが追加されない。第1の追加的なコンポーネントは平均推定器であり、これは、区別可能な態様で推定ランドマーク位置を算出し、各ランドマークの推定位置は、対応するヒートマップの正の要素の加重空間平均として算出される。第2のコンポーネントはコレスキー推定量ネットワーク(Cholesky Estimator Network:CEN)であり、これは、ランドマーク位置ごとに2Dガウス確率分布の共分散行列のコレスキー係数を推定する。推定ランドマーク位置がガウス分布の平均として用いられ、かつ、推定共分散行列がガウス分布の共分散として用いられるガウス対数尤度損失(Gaussian Log-likelihood Loss:GLL)の推定によって、ランドマーク位置およびランドマーク位置と関連付けられた不確実性の推定が可能になる。そのような推定は、ガウス対数尤度を有する不確実性(Uncertainty with Gaussian Log-Likelihood:UGLLI)と呼ばれ、不確実推定とランドマーク位置推定との両方を生じる。
たとえば、平均および共分散行列を算出するための方法の選択は、要素の区別であり得る。いくつかの実施形態は、ヒートマップからランドマーク位置の点推定値を取得することによって、ランドマーク位置のより正確な推定が生じるという認識に基づく。しかしながら、いくつかの実施形態は、確率分布の他のパラメータは、ヒートマップからよりも直接回帰によって取得される場合により正確であるという認識に基づく。そのため、ある実施形態では、ランドマークの確率分布(たとえば平均)の位置がヒートマップから取得される一方で、ランドマークの確率分布(たとえば共分散行列)の形状および広がりは直接回帰によって取得される。
さらにまたは代替的に、いくつかの実施形態は、二重目的ニューラルネットワークは確率分布のパラメータを出力するため、確率ランドマーク位置推定を他の確率フィルタと組合わせて、ランドマーク位置推定の精度をさらに改善可能であるという認識に基づく。たとえば、いくつかの実施形態では、現在の入力画像についてのランドマークのパラメトリック確率分布はガウス確率分布であり、ガウス確率分布は、以前の入力画像について求められたガウス確率分布を用いて現在の入力画像について求められたガウス確率分布を更新するカルマンフィルタを用いて求められる。カルマンフィルタリングは、関係のある確率分布がガウス分布であるため、動画の後続のフレームにわたるランドマーク位置および不確実性の逐次推定に十分適合し得るという想定に基づく。
いくつかの実施形態では、タスクは推定グローバル不確実性に基づいて実行される。さらにまたは代替的に、いくつかの実施形態例では、推定ランドマーク位置と推定グローバル不確実性との両方に基づいて、タスクが実行される。いくつかの実施形態例では、画像内の複数のランドマークの位置についての推定グローバル不確実性が閾値より大きい場合、コントローラは、セーフティクリティカルな応用について画像から推定されたランドマークを拒否し、その後タスクは実行されない。いくつかの実施形態では、画像の推定グローバル不確実性が閾値より小さい場合、タスクが実行される。
したがって、ある実施形態では、確率的な画像ベースのランドマーク位置推定に基づいてタスクを実行するためのコントローラが開示される。コントローラは、ランドマークの構造化セットを有するオブジェクトの種類の入力画像のセットを受付けるように構成された入力インターフェイスと、ランドマークの構造化セットを有する種類のオブジェクトの画像を処理して、処理された各画像における各ランドマークの位置について、パラメータの値によって定義されたパラメトリック確率分布を生成するように訓練されたニューラルネットワークを格納するように構成されたメモリと、プロセッサとを備える。プロセッサは、入力画像のセットをニューラルネットワークにサブミットして、各入力画像のランドマークの構造化セットにおける各ランドマークの位置にわたってパラメトリック確率分布を定義するパラメータの値を生成し、入力画像ごとに、入力画像におけるランドマークのパラメトリック確率分布に基づいて、画像についてグローバルランドマーク不確実性を求め、さらに、各入力画像におけるランドマークのパラメトリック確率分布と、各入力画像のグローバルランドマーク不確実性とに基づいて、タスクを実行するように構成される。
本開示の実施形態はさらに、添付の図面を参照して説明される。図示される図面は必ずしも一定の縮尺ではなく、概して、本開示の実施形態の原則を説明する際に強調される。
いくつかの実施形態に係る、確率的な画像ベースのランドマーク位置推定に基づいてタスクを実行するためのコントローラを示すブロック図である。 いくつかの実施形態に係る、人間の顔の入力画像のセットを示す図である。 いくつかの実施形態に係る、人間の体の入力画像のセットを示す図である。 いくつかの実施形態に係る、確率的な画像ベースのランドマーク位置推定に基づいてタスクを実行するためのコントローラの原則の模式的な概要を示す図である。 いくつかの実施形態で用いられる確率的なニューラルネットワークの原則を示す模式図である。 いくつかの実施形態に係る、ランドマーク位置および位置推定の不確実性の推定のためのニューラルネットワークの訓練を示す模式図である。 いくつかの実施形態に係る、入力画像ごとに、各ランドマークの位置にわたってパラメトリック確率分布を取得するためのガウス対数尤度損失を有する不確実性(UGLLI)法を模式的に示す図である。 試験画像上のランドマーク位置推定および位置推定の不確実性の例示的な結果を示す図である。 いくつかの実施形態に係る、300Wの共通データセット、チャレンジデータセット、および完全データセット(スプリット1)に対する異なる方法間の正規化平均誤差(Normalized Mean Error:NME)比較を示す表である。 300W試験(スプリット2)およびMenpoデータセットに対する異なる方法間のNMEおよび曲線下の面積(Area Under the Curve:AUC)の比較を示す表である。 すべての300W試験画像(スプリット2)についての、ランドマーク位置の点推定値の正規化誤差に対する位置推定の正規化不確実性のプロットを示す図である。 300Wスプリット2で訓練されたUGLLI法を用いた、300W試験およびMenpoデータセットに関するアブレーション研究を示す表である。 いくつかの実施形態に係る、不確実性フィードバックを用いてランドマーク位置推定を改善するための模式図である。 不確実性フィードバックを用いない場合、および不確実性フィードバックを用いた場合の、ランドマーク位置推定ならびにランドマーク位置推定の不確実性の例示的な結果を示す図である。 いくつかの実施形態に係る、車両運転手監視環境において確率的な画像ベースのランドマーク位置推定に基づいてタスクを実行するための模式図である。 動画ランドマーク追跡について、確率的な画像ベースのランドマーク位置推定をカルマンフィルタなどのベイズフィルタに組込むための模式図である。
以下の記載では、説明を目的として、本開示の十分な理解が得られるように多数の具体的な詳細について述べる。しかしながら、これらの具体的な詳細がなくても本開示が実施され得ることが当業者には明らかであろう。他の場合では、本開示が曖昧になるのを避けるためだけに、装置および方法をブロック図の形式で示す。
本明細書および請求項で使用されるように、「たとえば」、「例として」および「などの」という用語ならびに「備える」、「有する」、「含む」およびこれらのその他の動詞の形態は各々、1つ以上のコンポーネントまたはその他のアイテムの列挙とともに使用される場合、オープンエンドであると解釈されるべきである。これは、そのような列挙がさらに他のコンポーネントまたはアイテムを除外するとみなされるべきではないことを意味する。「~に基づく」という用語は、少なくとも部分的に基づくことを意味する。さらに、本明細書で使用される文体および専門用語は、説明を目的としたものであって限定するものとみなされるべきではないことが理解されるべきである。本明細書で使用されるいかなる見出しも、便宜的なものにすぎず、法的または限定効果を有するものではない。
システムの概要
図1Aは、いくつかの実施形態に係る、確率的な画像ベースのランドマーク位置推定に基づいてタスクを実行するためのコントローラ100を示すブロック図である。たとえば、いくつかの実施形態では、このタスクは車両運転手監視システムの一部であり、たとえば、車両運転手の顔位置合わせの判断を含み得る。これらの実施形態では、タスクの実行には、一連のアクションの実行または開始、たとえば、車両の減速および/または車両のステアリングの変更が含まれる。しかしながら、異なる実施形態では、画像におけるランドマーク位置推定に基づいて異なるシステムを実行することが可能である。
コントローラ100は、ランドマークの構造化セットを有するオブジェクトの種類の入力画像122のセットを受付けるように構成された入力インターフェイス102を備える。コントローラ100はさらに、コントローラ100をバス116を介してネットワーク120に接続するように適合されたネットワークインターフェイスコントローラ(Network Interface Controller:NIC)118を備える。ネットワーク120を介して無線または有線で、コントローラ100は入力画像122を受信してもよい。本明細書で用いるように、ランドマークの構造化セットとは、人間の顔または人間の体の画像などの入力画像が同じ種類であることを表す。
図1Bは、いくつかの実施形態に係る、人間の顔の入力画像のセットを示す。図示するように、入力画像は、異なる表情および向きを有する異なる顔を有し得る。しかしながら、これらの顔のランドマークは、口138、鼻140、眉毛142、目144などの位置、形状、および構成を判断するために同じ構造を有する。この場合、ランドマークの構造化セットは、典型的な顔に存在する特定の顔のランドマークを定義する。1つ以上の入力画像を含むセットは異なる人の顔を含み得るが、一人の人間の顔の画像(たとえば、映像フレーム)の時間的なシーケンスでもよい。
図1Cは、いくつかの実施形態に係る、人間の体の入力画像のセットを示す。この場合、ランドマークの構造化セットは、人間の体の特定の関節146,148を定義する。ある実施形態では、画像は互いに独立している。異なる実施形態では、入力画像のセットは、人間の体の画像の時間的なシーケンスである。他の実施形態では、セットは1枚の画像を含む。
コントローラ100は、プロセッサ104によって実行可能な命令を格納するメモリ106を備える。プロセッサ104は、格納された命令を実行するように構成されてもよい。プロセッサ104は、シングルコアプロセッサ、マルチコアプロセッサ、グラフィックス・プロセッシング・ユニット(Graphics Processing Unit:GPU)、コンピューティングクラスタ、または任意の数の他の構成でもよい。メモリ106は、ランダムアクセスメモリ(Random Access Memory:RAM)、読取り専用メモリ(Read Only Memory:ROM)、フラッシュメモリ、または任意の他の好適なメモリシステムを含み得る。プロセッサ104は、バス116を介して1つ以上の入出力デバイスに接続される。さらに、コントローラ100は、ニューラルネットワーク112、ならびに、確率的ランドマーク推定器114およびタスク実行器136などの他のコンポーネントを格納するように構成された記憶装置110を備える。記憶装置110は、ハードドライブ、光学ドライブ、サムドライブ、複数のドライブのアレイ、またはこれらの任意の組合せを用いて実現され得る。いくつかの実施形態では、ニューラルネットワーク112は、ランドマークの構造化セットを有する種類のオブジェクトの画像を処理して、処理された各画像における各ランドマークの位置についてパラメータの値によって定義されるパラメトリック確率分布を生成するように訓練されている。オブジェクトの種類が人間の顔である場合、ニューラルネットワーク112は、図1Bに示すような人間の顔の画像などの、異なる顔の画像を処理するように訓練される。オブジェクトが人間の体である場合、ニューラルネットワークは、図1Cに示す人間の体の画像などの、異なる人間の体の画像を処理するように訓練される。
プロセッサ104は、入力画像のセットをニューラルネットワーク112にサブミットして、各入力画像のランドマークの構造化セット内の各ランドマークの位置にわたるパラメトリック確率分布を定義するパラメータの値を生成するように構成される。ランドマークごとのパラメトリック確率分布は、ランドマークの位置およびランドマークについての位置推定の不確実性がパラメトリック確率分布のパラメータから導出されるように、ランドマークの位置の推定値を含む。いくつかの実施形態では、ランドマークのパラメトリック確率分布はガウス確率分布であり、ランドマークの推定位置は、ガウス確率分布の平均である。位置推定の不確実性は、ガウス確率分布の共分散行列から求められる。ガウス確率分布の平均は、1つ以上のヒートマップから取得され、共分散行列を求めるパラメータは、直接回帰によって取得される。この目的のために、いくつかの実施形態は、ニューラルネットワーク112がさらに、入力画像からガウス確率分布に、グランドトゥルース・ランドマーク位置の尤度を最大化するマッピングを提供するように訓練される。いくつかの実施形態では、グランドトゥルース・ランドマーク位置とは、ランドマークの実際の位置または正確な位置のことを指す。いくつかの実施形態では、グランドトゥルース・ランドマーク位置とは、人間のラベラーによって示されたランドマークの位置を指す。
プロセッサ104は、ニューラルネットワーク112を用いて、各ランドマークの位置にわたるパラメトリック確率分布を求め、かつ、入力画像ごとに、入力画像内のランドマークのパラメトリック確率分布に基づいて、画像についてのグローバルランドマーク不確実性を求めるように、確率的ランドマーク推定器114を実行する。たとえば、いくつかの実現例では、入力画像におけるランドマークの推定の求められた不確実性が組合わされて、入力画像についてのグローバルランドマーク不確実性を生成する。さらに、プロセッサ104は、タスク実行器136を実行して、各入力画像のグローバルランドマーク不確実性に基づいてタスクを実行するように構成される。
いくつかの実施形態では、プロセッサ104によるタスクの実行は、各画像内のランドマークの位置と各入力画像のグローバルランドマーク不確実性との推定に基づく。いくつかの実施形態では、タスク実行器の閾値は事前に定義されてもよい。いくつかの実施形態では、閾値はタスクに対して排他的であり、これは閾値がタスクによって変化し得ることを暗に示す。タスク実行は、入力画像についてのグローバルランドマーク不確実性が閾値より小さい場合に第1の一連のアクションを取ることと、入力画像についてのグローバルランドマーク不確実性が閾値より大きい場合に第2の一連のアクションを取ることとを含む。
いくつかの実現例では、コントローラ100は、コントローラ100を表示デバイス126に接続するように適合された表示インターフェイス124を備える。表示デバイス126は、特に、コンピュータモニタ、テレビ、プロジェクタ、またはモバイル表示デバイスを含み得る。
さらにまたは代替的に、コントローラ100は、コントローラ100を撮像デバイス130に接続するように適合された撮像インターフェイス128を備え得る。撮像デバイス130は、ビデオカメラ、コンピュータ、モバイルデバイス、ウェブカメラ、またはこれらの任意の組合せを含み得る。
さらにまたは代替的に、いくつかの実施形態では、コントローラ100は、コントローラ100の結果に基づいて動作可能なアプリケーションデバイス134にコントローラ100を接続するように適合されたバス116を介して、アプリケーション132に接続される。たとえば、ある実施形態では、アプリケーションデバイス134はカーナビゲーションシステムであり、カーナビゲーションシステムは、推定ランドマーク位置を用いて、運転手のバイタルサインおよびグローバルランドマーク不確実性を取得して、推定ランドマーク位置、および取得されたバイタルサインが信頼できるかどうかを確認し、たとえば車のステアリングなどの制御方法を決定することを含むタスクを実行する。たとえば、ある実施形態では、アプリケーションデバイス134は、不確実性を有するランドマーク位置推定を用いて運転手のバイタルサインを判断および確認して、運転手が安全に運転可能なとき、たとえば、運転手が眠いかどうか、または運転手が運転不能かどうかを判断する。
図2は、いくつかの実施形態に係る、確率的な画像ベースのランドマーク位置推定に基づいてタスクを実行するための、コントローラの原則の模式的な概要を示す。ランドマークの構造化セットを有する入力画像200が、ニューラルネットワーク202に入力される。入力画像200は、人間の顔および/または人間の体などのオブジェクトを含み得る。いくつかの実施形態では、動画フレームのシーケンスなどの入力画像のセットが、ニューラルネットワーク202に入力されてもよい。ニューラルネットワーク202は、確率分布の形状およびスケールといった、各ランドマーク位置204の推定値および各ランドマーク位置206の推定不確実性を出力する。出力されたパラメータ、すなわち各ランドマーク位置204および各ランドマーク位置206の不確実性の推定は、各ランドマーク208の位置にわたるパラメトリック確率分布を定義する。
Figure 2022546643000003
さらにまたは代替的に、いくつかの実施形態では、各ランドマークの位置にわたる推定確率分布は、ランドマークの位置の点推定値が1つもないようにパラメータ化されてもよい。たとえば、各ランドマークの位置にわたる確率分布は、2つの平均および2つの共分散行列によってパラメータ化されるであろう2つのガウス分布の混合でもよい。
入力画像200の場合、入力画像200内のランドマークごとの位置にわたるパラメトリック確率分布208に基づいて、グローバルランドマーク不確実性210が求められる。グローバルランドマーク不確実性210は、入力画像200における個々のランドマークの推定位置のすべての不確実性を集約する1つのスカラー測定値でもよい。グローバルランドマーク不確実性210に基づいて、タスク実行212が行われる。いくつかの実施形態では、タスク実行は、各ランドマークの位置にわたるパラメトリック確率分布208とグローバルランドマーク不確実性210との両方に基づく。さらにまたは代替的に、いくつかの実施形態では、タスク実行は、各ランドマークの推定位置204とグローバルランドマーク不確実性とに基づく。
いくつかの実施形態では、入力画像ごとに、コントローラ100は、求められたグローバルランドマーク不確実性を閾値と比較してもよい。閾値は事前に定義されてもよい。入力画像のグローバルランドマーク不確実性が閾値未満の場合、コントローラ100は第1の一連のアクションを実行する。しかしながら、入力画像のグローバルランドマーク不確実性が閾値より大きい場合、コントローラ100は、第1の一連のアクションと異なり得る第2の一連のアクションを実行する。
さらにまたは代替的に、いくつかの実施形態では、グローバルランドマーク不確実性は、ランドマークのサブセットについて算出されてもよい。たとえば、オブジェクトが顔の場合、グローバルランドマーク不確実性は、目の位置を判断するランドマークの位置の不確実性に基づいて算出されてもよい。これはたとえば、後続の注視方向を推定するために、目の正確な位置を知ることに依拠する応用の場合に有利なことがある。
図3は、いくつかの実施形態によって用いられる確率的ニューラルネットワークの原則を示す模式図である。ニューラルネットワーク302は、入力画像300を処理して、処理された各画像の各ランドマークの位置について、パラメータの値によって定義されるパラメトリック確率分布304を出力する。確率分布304がガウス分布の場合、そのような分布のパラメータは、平均μ306と、共分散行列Σ308とを含む。画像は多次元(たとえば2次元)であるため、パラメトリック確率分布304のパラメータも多次元である。
ランドマークごとのパラメトリック確率分布304の異なるパラメータは、ランドマークの位置の点推定値と、ランドマークごとの位置推定の不確実性とを定義する(310)。たとえば、図3に示すように、楕円312の中心はランドマークの推定位置を示す一方で、楕円312のサイズおよび形状は、各方向における不確実性の度合いを示す。たとえば、楕円が大きいほど、不確実性は大きい。ガウス確率分布の場合、楕円は、パラメトリック確率分布の等確率の等高線を表し得る。
ニューラルネットワーク302は、連鎖法則を利用する勾配ベースの最適化アルゴリズムに従うバックプロパゲーションを用いて訓練可能である。バックプロパゲーションの主な特徴は、訓練されているタスクを行うことができるようになるまでネットワークを改善するために、重みの更新を計算するための繰返しの、再帰的な、かつ効率的な方法である。しかしながら、異なる実施形態は、ランドマーク位置推定の精度を改善するために、ニューラルネットワークの層の構造、損失関数、および最適化技術の間で異なる。
Figure 2022546643000004
Figure 2022546643000005
Figure 2022546643000006
Figure 2022546643000007
Figure 2022546643000008
Figure 2022546643000009
Figure 2022546643000010
Figure 2022546643000011
Figure 2022546643000012
Figure 2022546643000013
Figure 2022546643000014
Figure 2022546643000015
Figure 2022546643000016
Figure 2022546643000017
図6Aは、300W共通データセット、チャレンジデータセット、および完全データセット(スプリット1)に対する異なる方法間の正規化平均誤差(NME)比較を示す表である。300Wスプリット1と呼ばれる訓練/試験セットペアについての顔位置合わせ結果またはランドマーク位置推定が図6Aの表に要約され、300W共通サブセット、チャレンジサブセット、および完全データセットに対する、試験セット内の画像にわたって平均化されたNMEとして報告される。図6Aの表における結果から、本明細書で開示されるUGLLI法が顔位置合わせについての複数の他の最近の方法より優れていることが観察される。ランドマーク位置の最も正確な点推定値(UGLLI法によって出力されるガウスパラメトリック確率分布出力の平均)を生じることに加えて、UGLLI法は、ガウスパラメトリック確率分布の共分散行列の形式で、各推定ランドマーク位置の不確実性の推定値を提供する。図6Aにおける他の方法はいずれも、ランドマーク位置推定の不確実性の推定値を提供しない。
図6Bは、300W試験(スプリット2)およびMenpoデータセットに対する異なる方法間の正規化平均誤差(NME)および曲線下面積AUCの比較を示す表である。300Wスプリット2と呼ばれる訓練/試験セットペアについての顔位置合わせ結果またはランドマーク位置推定を、図6Bの表に要約する。さらに、図6Bの表は、Menpoデータセット(68個のランドマークを有する6679枚の正面訓練画像)に対する(スプリット2で訓練された)モデルの結果を示す。図6Bの結果から、UGLLI法が他の方法よりも非常に優れていることが明らかである。
画像内のランドマークごとに、位置推定の不確実性を計測するスカラー量が求められる。さらに、画像内のすべてのランドマークについての位置推定のこの不確実性の値は組合わされて、画像全体について1つのスカラーグローバルランドマーク不確実性値が得られる。いくつかの実施形態では、ランドマークごとの位置推定の不確実性は、ランドマークの位置にわたるガウス確率分布の共分散行列から得られる。
Figure 2022546643000018
図7は、すべての300W試験画像(スプリット2)上のランドマーク位置の点推定値の正規化エラーに対する位置推定の正規化不確実性のプロットを示す。プロット700において、各点は1枚の画像における1つのランドマークを表し、各点のy座標は、位置推定のこのランドマーク不確実性の正規化バージョンを表す。プロット702において、各点は1枚の画像におけるすべてのランドマークにまたがる平均を表し、各点のy座標は、画像についてのグローバルランドマーク不確実性を表す。ここで、画像についてのグローバルランドマーク不確実性は、位置推定の正規化された不確実性の画像におけるすべてのランドマークにまたがる平均として算出される。各プロットの上部に書かれたプロットごとのピアソン相関係数は、我々の予測した不確実性が実際のエラーと高い相関関係にあることを示している。
プロット702における相関係数がプロット700の相関係数より大きいことが観察される。言い換えると、画像における各ランドマークのランドマーク位置の不確実性はランドマークの推定位置のエラーの良好な予測子であるが、画像についてのグローバルランドマーク不確実性は、(画像についての平均ランドマーク位置推定エラーの)よりよい予測子である。さらに、画像についてのグローバルランドマーク不確実性は、きわめて大きな相関係数を有する。それゆえ、いくつかの実施形態では、画像についてのグローバルランドマーク不確実性は、個別のランドマークについてのランドマーク位置の不確実性を用いるのではなく、タスク実行についてのコントローラへの入力として適用される。
Figure 2022546643000019
図9Aは、いくつかの実施形態に係る、不確実性フィードバックを用いてランドマーク位置推定を改善するための模式図である。UGLLIモデルを画像のセットに適用する(900)。UGLLIモデルの出力から、画像のセットの各画像のグローバルランドマーク不確実性が推定される(902)。画像のセットの各画像の推定グローバルランドマーク不確実性から、閾値より大きいグローバルランドマーク不確実性を有する画像が選択される(904)。いくつかの実施形態では、閾値は事前に定義される。選択された画像(すなわち、閾値より大きいグローバルランドマーク不確実性を有する画像)は、推定ランドマーク位置が最も不確実であると推定される画像であるため、これらは、ランドマーク位置推定の改善を最も必要とする画像である。選択された画像についてのランドマーク推定を改善するために、毎回異なるランダム摂動を用いて、選択された各画像にUGLLIモデルを複数回適用する(906)。たとえば、いくつかの実施形態では、ランダム摂動906が、アルゴリズムを初期化するために使用されるフェイスボックスに適用される。いくつかの実施形態ではViola-Jones顔検出アルゴリズムなどの自動顔検出器によって判断されるフェイスボックスは、ニューラルネットワークへの入力について、オブジェクトの画像を最初にスケール変更し、変換し、回転し、または他の態様では(たとえば2Dアフィン変換によって)変形するために用いられる。ランダム摂動をフェイスボックスの位置、スケール、回転角度、およびアスペクト比のうちの1つ以上に適用することによって、方法の初期化がわずかに異なり、方法の出力もわずかに異なる。特に、いくつかの初期化のなかには、より正確な推定ランドマーク位置を生じるものがある。
選択された画像ごとに、画像の複数の摂動バージョンがUGLLIモデルによって与えられ、画像の各摂動バージョンのグローバルランドマーク不確実性が算出される。画像の摂動バージョンすべてのグローバルランドマーク不確実性が比較され(908)、最小のグローバルランドマーク不確実性を生じる摂動から結果が選択される(910)。これらの最終結果のランドマーク位置推定値は方法の本来のランドマーク位置推定値と比較してより小さな正規化平均誤差(NME)を有することが観察される。そのため、言い換えると、不確実性フィードバックによって、ランドマーク位置推定の平均誤差が減少する。さらにまたは代替的に、異なる種類のランダム摂動を適用してもよい。たとえば、ニューラルネットワークの特定の層における特徴値に、ランダムに摂動を与えることができる。
図9Bは、不確実性フィードバックを用いない場合、および不確実性フィードバックを用いた場合の、ランドマーク位置推定ならびにランドマーク位置推定の不確実性の例示的な結果を示す。図9Bでは、画像912は、不確実性フィードバックを用いない場合のランドマーク位置推定およびランドマーク位置推定の不確実性の結果である。画像914は、不確実性フィードバックを用いた場合の、ランドマーク位置推定およびランドマーク位置推定の不確実性の結果である。NME(%)の値に加えて、画像912および914の各々においてランドマークにわたって平均化される予測不確実性(UCA)の値が、画像の上部にそれぞれ示される。図9Bの結果から、初期の結果、すなわち、不確実性フィードバックを用いない場合の結果912と比較して、不確実性フィードバックを用いた場合の結果914がより小さいエラーを有することが明らかである。
図10は、いくつかの実施形態に係る、車両運転手監視環境における確率的な画像ベースのランドマーク位置推定に基づいてタスクを実行するための模式図である。車両運転手監視環境1000では、車両運転手1002は車両1004を運転しており、車両運転手1002のバイタルサイン(顔位置合わせおよび姿勢位置合わせのうちの1つまたは複数)を監視する必要がある。いくつかの実施形態例では、動画追跡方法が顔追跡または人間の姿勢追跡に適用される。そのような場合、動画ベースのランドマーク追跡は最終タスクでもよい、または、その結果が次の下流タスクにおいて用いられる中間タスクでもよい。ここで、動画顔位置合わせ(すなわち、顔追跡)は、実施形態の説明を容易にするために考慮される。しかしながら、いくつかの実施形態では、動画人間姿勢推定(すなわち、人間の姿勢追跡)を含む他の動画追跡の適用も考慮される。
カメラ1006は、動画を取込み、取込んだ動画をフレーム(すなわち、画像)の時間的なシーケンスに変換するように構成される。コントローラ1008が、画像の時間的なシーケンスにおける画像に対して確率的な画像ベースのランドマーク位置推定(たとえば、UGLLI法)を実行するように構成される。画像ベースのランドマーク位置推定は、Viola-Jones顔検出アルゴリズムなどの自動顔検出器によって与えられるフェイスボックス1010によって初期化される。フェイスボックス1010は、車両運転手1002の顔全体を覆う。いくつかの実施形態では、フェイスボックスは、車両運転手1002の顔全体の重要な部分、たとえば、ランドマークを含む顔の一部を覆う。
シーケンスにおける第1の画像(動画の第1のフレーム)について、自動顔検出器によって与えられる第1のフェイスボックスを用いて、画像ベースのランドマーク位置推定が初期化される。画像ベースのランドマーク位置推定によって、第1の画像についてランドマーク推定およびグローバル不確実性推定が出力される。
出力に基づいて、コントローラ1008は、ランドマーク位置推定およびタスク実行の質を判断する。いくつかの実施形態では、コントローラ1008は、第1の画像の推定されたグローバルランドマーク不確実性が閾値より小さい場合、第1の画像におけるランドマーク位置推定の質が良いと判断し、第1の一連のアクションを実行する。いくつかの実施形態では、第1の一連のアクションは、第1のフレームから推定ランドマーク位置によって求められた第2のフェイスボックスを用いて、シーケンスの第2の画像について画像ベースのランドマーク位置推定を初期化することを含む。
いくつかの実施形態では、コントローラ1008は、第1の画像の推定グローバルランドマーク不確実性が閾値より小さい場合、第1の画像におけるランドマーク位置推定の質が悪いと判断し、第2の一連のアクションを実行する。いくつかの実施形態では、第2の一連のアクションは、自動顔検出器によって与えられる第2のフェイスボックスを用いて、第2の画像について画像ベースのランドマーク位置推定を初期化することを含む。
いくつかの実施形態では、画像ベースのランドマーク推定量は、カルマンフィルタなどのベイズフィルタを用いた顔ランドマーク追跡について用いられる。
Figure 2022546643000020
いくつかの実施形態では、コントローラはさらに、カルマンフィルタに基づいて画像シーケンス内の第1の画像について求められたガウス確率分布を用いて、画像シーケンスにおける第2の画像について求められたガウス確率分布を更新するように構成される。入力画像(時間ステップ)ごとのカルマンフィルタによる出力推定値1110はその後、状態の予備知識1110(すなわち、予備確率分布)として次の画像(次の時間ステップ)について使用され、各時間ステップからの出力平均1108および共分散行列1106は、事前分布1100の平均1104および共分散行列1102として、次の時間ステップで用いられる。カルマンフィルタリングなどの経時的なフィルタリングの使用は、いくつかの理由で利点を有する。第1に、ランドマーク位置および不確実性の推定の精度を改善し得る。第2に、出力ランドマーク推定値1110に対する不確実性が大きい推定値1112の影響がより小さくなる一方で、出力ランドマーク推定値1110に対する不確実性が小さい推定値1112の影響がより大きくなるように、各画像の推定不確実性を好適に使用し得る。
上記の説明は、例示的な実施形態のみを提供し、本開示の範囲、適用可能性、または、構成を限定することを意図していない。そうではなく、例示的な実施形態の上述の説明は、1つ以上の例示的な実施形態を実現するための実施可能な記載を当業者に提供する。以下で説明する特許請求の範囲に記載されるように開示される主題の精神および範囲から逸脱することなしに、要素の機能および構成においてなされ得るさまざまな変更が考えられる。
具体的な詳細は、実施形態の完全な理解を提供するために以下の記載において与えられる。しかしながら、当業者によって理解されるのであれば、実施形態はこれらの具体的な詳細なしでも実施され得る。たとえば、開示される主題におけるシステム、プロセス、および他の要素は、実施形態を不必要に詳細に不明瞭にしないために、ブロック図の形態でコンポーネントとして示され得る。他の場合では、実施形態を不明瞭にすることを避けるために、周知のプロセス、構造および技術は、不必要な詳細なしで示され得る。さらに、さまざまな図面における同様の参照番号および名称は同様の要素を示す。
さらに、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図またはブロック図として示されるプロセスとして説明され得る。フローチャートは、動作を連続したプロセスとして記載し得るが、動作の多くは並行してまたは同時に実行され得る。加えて、動作の順序は並替えられてもよい。プロセスは、その動作が完了すると終了され得るが、図に記載されていないまたは含まれていない付加的なステップを有する可能性もある。さらに、特定的に記載される任意のプロセスにおけるすべての動作がすべての実施形態において行われ得るわけではない。プロセスは方法、関数、手順、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応する場合、関数の終了は、呼び出し関数またはメイン関数への関数の復帰に対応し得る。
さらに、開示される主題の実施形態は、少なくとも部分的に、手動または自動のいずれかで実現され得る。手動または自動の実現は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、または、それらの任意の組み合せの使用により実行され得るかまたは少なくとも支援され得る。ソフトウェア、ファームウェア、ミドルウェアまたはマイクロコードで実現される場合、必要なタスクを実行するべきプログラムコードまたはコードセグメントはマシン可読媒体に格納され得る。プロセッサが必要なタスクを実行し得る。
本明細書において概説されるさまざまな方法またはプロセスは、さまざまなオペレーティングシステムまたはプラットフォームのいずれか1つを採用する1つ以上のプロセッサ上で実行可能なソフトウェアとしてコード化され得る。加えて、そのようなソフトウェアは、いくつかの好適なプログラミング言語および/またはプログラミングもしくはスクリプトツールのいずれかを用いて記述され得るとともに、フレームワークまたは仮想マシン上で実行される実行可能なマシン言語コードまたは中間コードとしてコンパイルされ得る。典型的には、プログラムモジュールの機能は、さまざまな実施形態において所望されるように組合わされてもよい、または分散されてもよい。
本開示の実施形態は、その例を先に示した方法として実施することができる。この方法の一部として実行される動作は、任意の適切な方法で決定することができる。したがって、実施形態を、動作が例示された順序と異なる順序で実行されるように構成してもよく、これは、いくつかの動作は例示した実施形態では一連の動作として示されているが、これらの動作を同時に実行することを含み得る。
本開示について特定の好ましい実施形態を参照して説明してきたが、さまざまな他の適応例および変形例が本開示の精神および範囲内で可能であることが理解されるべきである。したがって、以下の請求項の態様は、本開示の真の精神および範囲に含まれるすべてのそのような変形例および修正例をカバーする。

Claims (20)

  1. 確率的な画像ベースのランドマーク位置推定に基づいてタスクを実行するためのコントローラであって、
    ランドマークの構造化セットを有するオブジェクトの種類の入力画像のセットを受付けるように構成された入力インターフェイスと、
    前記ランドマークの構造化セットを有する前記種類のオブジェクトの画像を処理して、処理された各画像における各ランドマークの位置にわたってパラメータの値によって定義されたパラメトリック確率分布を生成するように訓練されたニューラルネットワークを格納するように構成されたメモリと、
    プロセッサとを備え、
    前記プロセッサは、(1)前記入力画像のセットを前記ニューラルネットワークにサブミットして、各入力画像の前記ランドマークの構造化セットにおける各ランドマークの前記位置にわたって前記パラメトリック確率分布を定義する前記パラメータの前記値を生成し、(2)入力画像ごとに、前記入力画像における前記ランドマークのパラメトリック確率分布に基づいて、前記画像についてグローバルランドマーク不確実性を求め、かつ、(3)各入力画像におけるランドマークの前記パラメトリック確率分布と、各入力画像の前記グローバルランドマーク不確実性とに基づいて、前記タスクを実行するように構成される、コントローラ。
  2. ランドマークごとの前記パラメトリック確率分布の異なるパラメータは、前記ランドマークの前記位置の点推定値と、前記ランドマークについての前記位置推定の不確実性とを定義する、請求項1に記載のコントローラ。
  3. 前記プロセッサは、各画像における前記ランドマークの前記位置の前記点推定値と、各入力画像の前記グローバルランドマーク不確実性とに基づいて、前記タスクを実行する、請求項2に記載のコントローラ。
  4. 入力画像ごとの前記ランドマーク位置推定の精度を求めるために、前記プロセッサは、
    前記ランドマークについて生成される前記パラメトリック確率分布の不確実性の測定値に基づいて、前記入力画像におけるランドマークごとに位置推定の不確実性を求め、かつ、
    入力画像ごとに、前記画像における前記ランドマークの推定の求められた不確実性を組合わせて、前記入力画像についての前記グローバルランドマーク不確実性を生成するように構成される、請求項1に記載のコントローラ。
  5. 前記オブジェクトの種類は人間の顔であり、
    前記ニューラルネットワークは異なる顔の画像を処理するように訓練され、
    前記ランドマークの構造化セットは、典型的な顔に存在する特定の顔のランドマークを定義する、請求項1に記載のコントローラ。
  6. 前記入力画像のセットは、前記人間の顔の画像の時間的なシーケンスである、請求項5に記載のコントローラ。
  7. 前記オブジェクトは人間の体であり、
    前記ニューラルネットワークは、異なる人間の体の画像を処理するように訓練され、
    前記ランドマークの構造化セットは前記人間の体の特定の関節を定義する、請求項1に記載のコントローラ。
  8. 前記入力画像のセットは、前記人間の体の画像の時間的なシーケンスである、請求項7に記載のコントローラ。
  9. 前記ランドマークの前記パラメトリック確率分布はガウス確率分布であり、
    前記ランドマークの前記位置の前記点推定値は、前記ガウス確率分布の前記平均によって求められ、
    前記ランドマークの前記位置推定の不確実性は、前記ガウス確率分布の共分散行列から求められる、請求項2に記載のコントローラ。
  10. 前記ガウス確率分布の平均は1つ以上のヒートマップから取得され、前記共分散行列を求める前記パラメータは直接回帰によって取得される、請求項9に記載のコントローラ。
  11. 前記ランドマークについての位置推定の不確実性は、前記ガウス確率分布の前記共分散行列の決定要素のn乗根である、請求項9に記載のコントローラ。
  12. 前記ランドマークについての前記位置推定の不確実性は、前記ガウス確率分布の前記共分散行列の固有値の平均である、請求項9に記載のコントローラ。
  13. 前記ニューラルネットワークは砂時計型サブネットワークのスタックを含み、
    各砂時計は、前記砂時計の最後の最大の特徴マップ層からランドマークごとにヒートマップを出力し、
    ヒートマップは、前記ランドマークの前記位置を示す強度画像であり、前記パラメトリック確率分布の平均は、前記ヒートマップの正の値の位置の加重平均であり、
    各砂時計はボトルネック層から特徴を出力し、
    前記ボトルネック層の特徴値は、コレスキー推定量ネットワークによって処理されて、各ランドマークの前記共分散行列が導出される値を生成する、請求項9に記載のコントローラ。
  14. 前記ニューラルネットワークは、前記入力画像から前記ガウス確率分布に、グランドトゥルース・ランドマーク位置の尤度を最大化するマッピングを提供するように訓練される、請求項9に記載のコントローラ。
  15. 前記ニューラルネットワークは、損失関数として負の対数尤度を用いて訓練される、請求項14に記載のコントローラ。
  16. 現在の入力画像についてのランドマークの前記パラメトリック確率分布はガウス確率分布であり、
    前記プロセッサは、以前の入力画像について求められたガウス確率分布を用いて前記現在の入力画像について前記カルマンフィルタによって出力される前記ガウス確率分布を更新するカルマンフィルタを用いて、前記画像内の前記ランドマークの前記位置にわたって最終的なガウス確率分布を取得するように構成される、請求項1に記載のコントローラ。
  17. タスク実行は、前記入力画像についての前記グローバルランドマーク不確実性が閾値より小さい場合、第1の一連のアクションを取ることと、前記入力画像についての前記グローバルランドマーク不確実性が閾値より大きい場合、第2の一連のアクションを取ることとを含む、請求項1に記載のコントローラ。
  18. 入力画像の前記グローバルランドマーク不確実性は、前記画像についての前記ランドマーク位置推定を提供するために用いられる不確実性フィードバックを提供する、請求項1に記載のコントローラ。
  19. 前記入力画像の前記グローバルランドマーク不確実性が閾値より大きい場合、前記プロセッサは、
    毎回異なるランダム摂動を使用し、かつ、グローバルランドマーク不確実性を算出して、前記入力画像に対して前記ランドマーク位置推定を複数回実行し、
    前記グローバルランドマーク不確実性を比較し、かつ、
    最小のグローバルランドマーク不確実性を生じる前記ランドマーク位置推定の実行の結果を選択するように構成される、請求項18に記載のコントローラ。
  20. 前記タスクは車両運転手監視システムの一部である、請求項1に記載のコントローラ。
JP2022538569A 2019-10-04 2020-09-30 不確実性を有するランドマーク位置推定のための画像処理システムおよび方法 Active JP7345664B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/592,822 US11127164B2 (en) 2019-10-04 2019-10-04 Image processing system and method for landmark location estimation with uncertainty
US16/592,822 2019-10-04
PCT/JP2020/038687 WO2021066204A1 (en) 2019-10-04 2020-09-30 Image processing system and method for landmark location estimation with uncertainty

Publications (2)

Publication Number Publication Date
JP2022546643A true JP2022546643A (ja) 2022-11-04
JP7345664B2 JP7345664B2 (ja) 2023-09-15

Family

ID=73598164

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022538569A Active JP7345664B2 (ja) 2019-10-04 2020-09-30 不確実性を有するランドマーク位置推定のための画像処理システムおよび方法

Country Status (5)

Country Link
US (1) US11127164B2 (ja)
EP (1) EP3891705A1 (ja)
JP (1) JP7345664B2 (ja)
CN (1) CN114503162A (ja)
WO (1) WO2021066204A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11487968B2 (en) * 2019-12-16 2022-11-01 Nvidia Corporation Neural network based facial analysis using facial landmarks and associated confidence values
US11574500B2 (en) * 2020-09-08 2023-02-07 Samsung Electronics Co., Ltd. Real-time facial landmark detection
US11978266B2 (en) 2020-10-21 2024-05-07 Nvidia Corporation Occupant attentiveness and cognitive load monitoring for autonomous and semi-autonomous driving applications
CN112580612B (zh) * 2021-02-22 2021-06-08 中国科学院自动化研究所 一种生理信号预测方法
CN112990097B (zh) * 2021-04-13 2022-11-04 电子科技大学 一种基于对抗消除的人脸表情识别方法
CN113946953A (zh) * 2021-10-14 2022-01-18 厦门大学 一种求解概率盒框架下全局灵敏度的计算方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019125112A (ja) * 2018-01-15 2019-07-25 キヤノン株式会社 情報処理装置及びその制御方法及びプログラム、並びに、運転制御システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9286810B2 (en) * 2010-09-24 2016-03-15 Irobot Corporation Systems and methods for VSLAM optimization
GB201215944D0 (en) * 2012-09-06 2012-10-24 Univ Manchester Image processing apparatus and method for fittng a deformable shape model to an image using random forests
US10515259B2 (en) * 2015-02-26 2019-12-24 Mitsubishi Electric Research Laboratories, Inc. Method and system for determining 3D object poses and landmark points using surface patches

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019125112A (ja) * 2018-01-15 2019-07-25 キヤノン株式会社 情報処理装置及びその制御方法及びプログラム、並びに、運転制御システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NITESH B.GUNDAVARAPU,ET AL.: "Structured Aleatoric Uncertainty in Human Pose Estimation", CVPR WORKSHOP ON UNCERTAINTY AND ROBUSTNESS IN DEEP VISUAL LEARNING, JPN7023001614, 16 June 2019 (2019-06-16), US, pages 50 - 53, XP055770929, ISSN: 0005046127 *

Also Published As

Publication number Publication date
US11127164B2 (en) 2021-09-21
EP3891705A1 (en) 2021-10-13
CN114503162A (zh) 2022-05-13
WO2021066204A1 (en) 2021-04-08
US20210104068A1 (en) 2021-04-08
JP7345664B2 (ja) 2023-09-15

Similar Documents

Publication Publication Date Title
JP7345664B2 (ja) 不確実性を有するランドマーク位置推定のための画像処理システムおよび方法
US11557085B2 (en) Neural network processing for multi-object 3D modeling
US9262671B2 (en) Systems, methods, and software for detecting an object in an image
JP6798183B2 (ja) 画像解析装置、画像解析方法およびプログラム
JP4625074B2 (ja) サインに基づく人間−機械相互作用
US20200311855A1 (en) Object-to-robot pose estimation from a single rgb image
JP4951700B2 (ja) 視覚追跡のための適応型判別生成モデル及び逐次的フィッシャー判別分析並びにアプリケーション
EP3751517A1 (en) Fast articulated motion tracking
US11651608B2 (en) Distillation of part experts for whole-body pose estimation
JP2012518857A (ja) 内側距離形状関係を使用する身体特徴検出及び人間姿勢推定
US20190080462A1 (en) Method and apparatus for calculating depth map based on reliability
KR102320999B1 (ko) 폴트 톨러런스 및 플럭츄에이션 로버스트를 위한 복수의 뉴럴 네트워크를 사용하여 흔들리는 카메라로 인해 생성된 비디오에서 지터링을 제거하기 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
JP2013156680A (ja) フェーストラッキング方法、フェーストラッカおよび車両
CN110738650A (zh) 一种传染病感染识别方法、终端设备及存储介质
JP4921847B2 (ja) 対象物の三次元位置推定装置
JP2010231350A (ja) 人物識別装置、そのプログラム、及び、その方法
CN111709269B (zh) 一种深度图像中基于二维关节信息的人手分割方法和装置
KR102333768B1 (ko) 딥러닝 기반 손 인식 증강현실 상호 작용 장치 및 방법
US20240013357A1 (en) Recognition system, recognition method, program, learning method, trained model, distillation model and training data set generation method
JP2023525287A (ja) ラベルなしの動き学習
EP4150577A1 (en) Learning articulated shape reconstruction from imagery
JP5048381B2 (ja) 三次元形状復元装置
JP2007047949A (ja) 口トラッキング装置及びコンピュータプログラム
CN112766063B (zh) 基于位移补偿的微表情拟合方法和系统
KR102420924B1 (ko) 딥러닝 기반 3d 시선 예측 방법 및 그 장치

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230905

R150 Certificate of patent or registration of utility model

Ref document number: 7345664

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150