JP2022536790A - 人物の単眼深度推定のための方法およびシステム - Google Patents

人物の単眼深度推定のための方法およびシステム Download PDF

Info

Publication number
JP2022536790A
JP2022536790A JP2021574764A JP2021574764A JP2022536790A JP 2022536790 A JP2022536790 A JP 2022536790A JP 2021574764 A JP2021574764 A JP 2021574764A JP 2021574764 A JP2021574764 A JP 2021574764A JP 2022536790 A JP2022536790 A JP 2022536790A
Authority
JP
Japan
Prior art keywords
joint
depth
heatmap
layer
convolutional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021574764A
Other languages
English (en)
Other versions
JPWO2020250046A5 (ja
JP7499280B2 (ja
Inventor
コリン ブラウン,
ルイス ハーバー,
Original Assignee
ヒンジ ヘルス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヒンジ ヘルス, インコーポレイテッド filed Critical ヒンジ ヘルス, インコーポレイテッド
Publication of JP2022536790A publication Critical patent/JP2022536790A/ja
Publication of JPWO2020250046A5 publication Critical patent/JPWO2020250046A5/ja
Application granted granted Critical
Publication of JP7499280B2 publication Critical patent/JP7499280B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

オブジェクトの画像セグメントから骨格関節の3D関節場所と画像セグメント上の骨格関節の2D場所から成る2D関節ヒートマップとを推定するためのシステムおよび方法が、提供される。これは、画像セグメントおよび2D関節ヒートマップを、少なくとも1つの3D畳み込み層ブロックを含有する畳み込みニューラルネットワークに適用することを含み、2D分解能は、各3D畳み込み層において低減され、深度分解能は、関節毎に推定される深度を生産するように拡張される。各種類の関節の2D場所と種類の関節の推定される深度を組み合わせることは、骨格関節の推定される3D関節位置を生成する。

Description

(分野)
本開示は、単眼カメラからの画像またはビデオデータ内の人物の関節の相対的3D位置の推定のための方法およびシステムに関する。特に、カメラから1つ以上の人物の関節の相対的深度値を推定する、機械学習ベースのアプローチに関する。
(背景)
人間の関節または肘、眼、爪先等の任意の解剖学的目印の相対的3D位置または深度値、すなわち、カメラからの距離の単眼推定は、運動捕捉、仮想および拡張現実、スポーツ分析、パーソナル訓練、ならびにアクティビティ認識を含む、広範囲の用途を有する。
特に、付加的深度感知ハードウェアを伴わない、標準的RGB画像データからの3D関節推定は、最広セットのユースケースを促進する。深度感知ハードウェアは、多くの場合、高価であって、限定された範囲を有する等、その使用を限定し、屋内でのみ使用され得る。しかしながら、付加的ハードウェアを伴わずに3D位置を導出することは、単一RGB画像からの入力データの使用が三角測量の可能性を除外するため、困難である。
数学的に、人間の関節の深度を単一画像内の2D位置から判定することは、不良設定問題であるが、以前のおよびコンテキスト情報を使用して、本問題点に取り組む、方法が、提案されている。現代の方法は、典型的には、機械学習ベースのモデルを使用し、主として、2つのカテゴリに分類される。1つ目は、人物の以前に検出された2D関節位置(または骨格)を受け取り、典型的には、全結合ニューラルネットワークモデルを使用して、可能性が最も高い姿勢に対応する3D位置を生成する、リフティング法である。2つ目は、学習された2D畳み込みを使用して、3D位置または深度に関する回帰モデルの中にフィードされる、特徴を人物を含有する入力画像から抽出する、畳み込みニューラルネットワーク(CNN)ベースの方法である。
リフティングアプローチは、2D骨格データが、関節の相対的深度を正しく判定するために不可欠であり得る、陰影、オクルージョン、照明、およびボリューム(例えば、異なる関節の見掛けスケール)等の視覚的キューが欠けているという事実によって限定される。CNNベースのアプローチは、そのようなキューへのアクセスを有するが、抽出された画像特徴は、出力の3D性質と対照的に、本質的に2Dである(2D畳み込みが、2Dマップ上で動作するため)。さらに、CNNアプローチは、典型的には、2D関節位置の先験的知識を有しておらず、代わりに、関連付けられる深度を推測しながら、これらの位置を推測しなければならない。
部分的に、これらの限界に起因して、既存のアプローチは、多くの場合、特に、困難な姿勢、環境、および条件において、限定された正確度およびロバスト性を呈する。したがって、人間の関節深度の単眼RGB推定のより良好なアプローチの必要性が存在する。
(要約)
オブジェクトの画像セグメントから骨格関節の3D関節場所と画像セグメント上の骨格関節の2D場所から成る2D関節ヒートマップとを推定するためのシステムおよび方法が、提供される。これは、画像セグメントおよび2D関節ヒートマップを、少なくとも1つの3D畳み込み層ブロックを含有する畳み込みニューラルネットワークに適用することを含み、2D分解能は、各3D畳み込み層において低減され、深度分解能は、関節毎に推定される深度を生産するように拡張される。各種類の関節の2D場所と種類の関節の推定される深度を組み合わせることは、骨格関節の推定される3D関節位置を生成する。
図面は、一例としてのみ、本開示の好ましい実施形態を図示する。
図1は、3D姿勢推定システムの実施形態の高レベルアーキテクチャの表現である。
図2は、3D CNNブロックを介した、空間寸法サイズの低減および深度寸法サイズの増加の実施例の表現である。
図3は、1つの2D CNNブロックと、4つの3D CNNブロックとを示す、深度ヒートマップ推定器の実施形態の略図である。
図4は、4つの3D CNNブロックと、ゼロ2D CNNブロックとを示す、深度ヒートマップ推定器の実施形態の略図である。
図5は、2つの残差ユニットの2D CNNブロックと、5つの3D CNNブロックとを伴う、深度ヒートマップ推定器の実施形態の略図である。
図6は、1つの2D CNNブロックと、それぞれが1つの畳み込み層を含有する、3つの3D CNNブロックとを伴う、深度ヒートマップ推定器の実施形態の略図である。
図7は、例示的入力画像の表現、対応する入力ヒートマップの着色表現、および骨格として描かれる対応する3D関節位置の実施例である。
図8は、位置特定されるべき複数の種類の関節に対応する、複数の出力深度ヒートマップ(深度範囲が水平である)の実施例である。
(詳細な説明)
図1を参照すると、人間の関節の3D推定システム110は、デジタル画像を捕捉するための捕捉デバイス120と、画像内の人間を検出およびクロッピングし、画像内の人間の関節位置を位置特定し得る、2D骨格検出器130と、位置特定されるべき種類の関節毎に、位置ヒートマップを生成し得る、2D関節ヒートマップ生成器140と、位置特定された関節の種類毎に、1D深度ヒートマップを生成し得る、深度ヒートマップ推定器150と、深度ヒートマップから関節の種類毎に深度値を選択し、本情報と2D関節位置を組み合わせ、3D関節位置を生産し得る、3D関節構築器160とを備えてもよい。
捕捉デバイス120は、デジタルカメラ、ウェブカメラ、モバイルデバイス、ビデオカメラ、ストリーミングソース(例えば、ウェブからストリーミングされるビデオまたは画像)、または画像もしくはビデオデータベース等の記憶された画像コンテンツ等のデジタル画像またはビデオフレームを入手するための任意のデバイスまたは方法を表し得る。画像フォーマットは、3-チャネルRGBである、またはある他の色空間(sRGB、CMYK等)においてエンコーディングされてもよい。画像は、深度センサまたは赤外線センサ等からの付加的画像チャネルを含む場合とそうではない場合がある。
2D骨格検出器130は、画像内の1人以上の人物を検出してもよい。検出された人物毎に、2D骨格検出器は、その人物の周囲に心合される、クロッピングされた画像を出力してもよい。各出力されクロッピングされた画像は、具体的分解能(例えば、256×256ピクセル)にサイズ変更されてもよく、これは、検出された人物の入力分解能またはサイズから独立してもよい。
検出された人物毎に、2D骨格検出器はまた、事前に定義された複数の種類の人間の関節の2D座標等の検出された位置を出力してもよい。関節は、解剖学的目印であり得る。例えば、2D関節検出器は、重要となる関節の全ての可視インスタンスの位置を位置特定してもよい。これは、左手首、右手首、左膝、頸部の付け根を含む、22種類の関節を含んでもよい。2D関節検出器は、これらの検出された関節を、検出された人物によって群化される、複数の座標として提供してもよい。検出された人物毎に、関節の座標は、1つの配列番号において提供されてもよい。
2D骨格検出器は、OpenPoseまたはwrnchAI等からの既存のソフトウェアモジュール、もしくは入力画像内の人物を検出し、人間の関節を位置特定し得る、ある他のソフトウェアまたはハードウェアモジュールによって、具現化されてもよい。
2D関節ヒートマップ生成器140は、1人の人物に関する複数の検出された関節位置を受け取り、関節の種類毎に、ヒートマップ画像を生産してもよい。1つの種類の関節に関するヒートマップ画像は、その種類の複数の検出された関節の場所をそれらの2D関節位置において位置特定された画像内の対応する複数のマーカとして伝達し得る。マーカは、ガウスカーネルであってもよい。例えば、場所は、8ピクセルまたはある他のサイズの標準偏差を含んでもよい。場所は、平円板または任意の他の位置特定されたカーネル画像の形態にあってもよい。
2D関節ヒートマップ生成器140は、代わりに、そのモジュールの利用可能な出力に応じて、直接、2D骨格検出器130によって生成された2D関節ヒートマップを出力してもよい。例えば、いくつかの2D骨格検出器は、直接、2D関節ヒートマップを出力してもよい。この場合、2D関節ヒートマップ生成器は、2D骨格検出器の一部またはサブモジュールであり得る。
1つの種類の関節に対応する、2D関節ヒートマップ生成器によって出力された各ヒートマップ画像は、単一チャネルにおいてエンコーディングされてもよい。そのチャネルの各ピクセルの値は、そのピクセルにおいて検出されている所与の種類の関節の尤度に近似し得る。ヒートマップ画像の分解能は、256×256ピクセル等、2D骨格検出器によって検出された単一人物のクロッピングされた画像と同一分解能であってもよい。
深度ヒートマップ推定器150は、入力として、1人の人物の肖像上に心合される画像を、その人物の所定の複数の種類の関節の場所を表す、2Dヒートマップ画像とともに受け取り、複数の1D深度ヒートマップを出力してもよい。深度ヒートマップの数は、入力2Dヒートマップの数に対応し得る。これはまた、2D骨格検出器によって検出された関節の種類の数に対応し得る。各深度ヒートマップは、ある固定点に対する1つの種類の関節の深度値の範囲を表し得る。本固定点は、人物の腰部の中心、カメラから最も遠い関節、またはある他の基準点であってもよい。図8を参照すると、深度ヒートマップは、ピクセルの1Dアレイ(例えば、256ピクセル)として記憶されてもよく、各ピクセルは、相対的深度値に対応する。各深度ヒートマップの各ピクセルの値は、対応する関節がその相対的深度にある尤度を表し得る。
深度ヒートマップ推定器は、訓練された機械学習モデルによって具現化されてもよい。本モデルは、畳み込みニューラルネットワーク(CNN)、または代替として、RNN、ランダムフォレスト、もしく深層ニューラルネットワークであってもよい。CNNモデルのアーキテクチャは、3D特徴(オブジェクト境界、オクルージョン、空間順序、テクスチャおよび色パターン、照明特徴等)を入力データから抽出し得る、3D畳み込み層を含有してもよい。CNNモデルはまた、2D畳み込み層、残差ユニット、制限付き線形アクティブ化ユニット(ReLUまたはシグモイドユニット等の他のアクティブ化)、バッチ正規化層、最大プーリング層、および再形成層を含有してもよい。これらの層は、エンドツーエンドで連鎖された2D CNNブロックおよび3D CNNブロック等の論理ブロックに編成されてもよい。
CNNは、2D分解能が、各ブロックにおいて低減され、深度分解能が、対応して拡張され、メモリの効率的かつ境界された使用を維持しながら、増加する忠実性を伴って、3D特徴を抽出するように、ピラミッド方式において編成されてもよい。
2D CNNブロックは、空間分解能(すなわち、プーリング)における初期低減を実施することによって、低レベル画像特徴を抽出し、受信フィールドを拡張させてもよい。2D CNNブロックは、2D畳み込み層と、残差ユニットと、最大プーリング層(例えば、2×2×1カーネルサイズを伴う)と、最終2D畳み込み層とを備えてもよい。バッチ正規化層が、各畳み込み層後に挿入され、バッチ正規化を課してもよい。畳み込み層は、例えば、7×7カーネルサイズと、ストライド2とを有してもよい。残差ユニットは、スキップ接続を伴う、3つの畳み込み層を有してもよい。
2D CNNブロックの含有の重要性は、本ブロックによって実施される空間分解能における低減が、比較的に算出上高価であり得る、後続層、例えば、3D畳み込み層のメモリおよび算出コストを低減させ得るため、メモリおよび算出考慮点に依存し得る。
3D CNNブロックは、3D畳み込みと、ReLUと、その後、別の3D畳み込みおよびReLUと、その後、最大プーリング層および再形成層とを備えてもよい。バッチ正規化層が、各畳み込み層後に挿入され、バッチ正規化を課してもよい。各3D畳み込みは、3×3×3のカーネルサイズを有し、後続層毎に要求される学習可能パラメータの算出コストおよび数を低減させてもよい。
3D CNNブロックの各最大プーリング層は、入力空間寸法HおよびWのサイズを、例えば、それぞれ、2分の1に低減させるが、深度寸法Dを維持し得る。各再形成層は、プーリング層によって生産されたチャネルの数を低減させ、深度寸法のサイズを、故に、例えば、4倍に増加させ得る。したがって、図2を参照すると、各3D CNNブロックは、HおよびW寸法を事実上低減させながら、D寸法を比例するように拡張させ得る。
図3を参照すると、深度ヒートマップ推定器は、2D CNNブロックと、1つ以上の3D CNNブロック、例えば、4つのブロックと、その後、1つの(またはそれを上回る)最終3D畳み込み層および最終最大プーリング層とを備えてもよい。最終3D畳み込み層は、推定されるべき関節の種類の数に等しいチャネルの数、例えば、22を出力してもよい。最終最大プーリング層は、オリジナル空間寸法WおよびHをそれぞれ1まで低減させ、関節チャネル毎に、拡張された深度寸法のみを残し得る。
深度ヒートマップ推定器のアーキテクチャは、メモリ制約、ランタイム制約、訓練データベースサイズ、および他の類似要因を含む、タスクの具体的要件に基づいて、変動し得る。例えば、図4を参照すると、深度ヒートマップ推定器は、2Dブロックを含有しなくてもよい。図5を参照すると、2D CNNブロックは、1つを上回る残差ユニットを備えてもよく、深度ヒートマップ推定器は、4つを上回る3Dブロックを含有してもよい。図6を参照すると、深度ヒートマップ推定器は、4つより少ない3Dブロックを含有してもよく、各3Dブロックは、異なる数のスタックされた3D畳み込み層を含有してもよい。
各ブロック内のより多くの3D畳み込み層は、より複雑な3D特徴の抽出を可能にするが、訓練の間、より多くの要求される算出およびより大きいメモリ占有面積を犠牲にし得る。したがって、所与の実施形態におけるブロックあたりの畳み込み層の具体的数は、用途の要件に依存し得る。
参照を容易にするために、図3、図4、図5、および図6では、ReLUおよびバッチ正規化層は、示されないが、存在してもよい。
深度ヒートマップ推定器の学習可能パラメータは、適切な訓練セットを用いて訓練されてもよい。訓練は、逆伝搬または別の適切な学習アルゴリズムを使用してもよい。ソルバ方法、例えば、RMSProp、または勾配降下法、ADAM、もしくは類似物が、使用されてもよい。訓練フレームワーク、例えば、TensorFlow、Caffe、またはPyTorch、もしくは類似フレームワークが、使用されてもよい。訓練セットは、それぞれ、標識された3D関節位置と関連付けられる、異なる姿勢、設定、および照明条件における人物の数千枚の画像等のセットを備えてもよい。実施例としてCOCOデータセットが、使用されてもよい。
3D関節構築器160は、例えば、2D骨格検出器130からの1人の検出された人物に関する2D関節位置と、深度ヒートマップ推定器150によって生産された対応する関節深度ヒートマップと受け取り、3D関節位置を出力してもよい。3D関節位置の深度成分は、argmax関数を介して、深度ヒートマップから算出されてもよい。代替として、加重和関数またはピーク検出技法が、使用されてもよい。入力2D関節位置および算出された深度値は、組み合わせられ、3D関節位置を生産してもよい。
人間の関節3D推定システムの一実施形態から生成された複数の3D関節位置の実施例が、図7に描かれる。人影710を表す、入力画像が、2D関節ヒートマップ生成器140等によって生成された2D関節ヒートマップ720とともに提供される。ヒートマップ720内に表されないが、左手首等の各種類の関節は、別個のヒートマップを有するであろう。全ての検出された関節に関するヒートマップは、着色表現720内にオーバーレイされ、右関節は、赤色で着色され、左関節は、青色で着色される。
深度ヒートマップ推定器によって生産された深度ヒートマップの実施例が、図8に描かれる。深度推定器は、関節の種類毎に、別個の深度ヒートマップを生成する。関節毎の深度範囲が、水平軸に示される。所与のヒートマップに沿った各点の値(すなわち、暗度)は、対応する関節がその深度にある信頼度を表し得る。全ての深度の信頼度値は、所与の関節に関してゼロであり得、これは、不可視である、関節に対応し得る。推定される深度値は、異なる深度における信頼度値を集約することによって導出されてもよい。
関節の種類毎に、2D関節ヒートマップと深度推定を組み合わせることによって、関節毎の3D場所は、推定されることができる。これらの3D場所に基づいて、骨格のレンダリング740が、示される。
これらの説明されるシステムモジュールは、別個のソフトウェアモジュール、別個のハードウェアユニット、または1つ以上のソフトウェアもしくはハードウェアコンポーネントの一部であってもよい。例えば、ソフトウェアモジュールは、CPU、GPU等のコンピュータハードウェア上で起動される、またはFPGA上に実装される、Caffe、TensorFLow、またはTorchからのソフトウェアを使用して作成されるような、好適なモジュールを用いて、Pythonプログラミング言語、C++、またはC#等のコンピュータ言語で記述された、命令から成ってもよい。本システムは、デスクトップ、携帯電話、またはソフトウェアおよびアクティビティデータを保持するための好適なメモリを含む、内蔵システムの一部等の他のプラットフォーム上で起動されてもよい。本システムは、捕捉デバイスと統合される、またはそれに接続してもよい。
本開示の種々の実施形態が、これまで、一例として詳細に説明されたが、変形例および修正が、本開示から逸脱することなく成され得ることが当業者に明白であろう。本開示は、添付の請求項の範囲内に該当するような全てのそのような変形例および修正を含む。

Claims (16)

  1. オブジェクトの画像セグメントから骨格関節の3D関節場所と前記画像セグメント上の骨格関節の2D場所から成る2D関節ヒートマップとを推定するための方法であって、
    前記画像セグメントおよび2D関節ヒートマップを、少なくとも1つの3D畳み込み層ブロックを含有する畳み込みニューラルネットワークに適用することであって、前記2D分解能は、各3D畳み込み層において低減され、深度分解能は、関節毎に推定される深度を生産するように拡張される、ことと、
    各種類の関節の前記2D場所と前記種類の関節の推定される深度を組み合わせ、前記骨格関節の推定される3D関節位置を生成することと
    を含む、方法。
  2. 前記少なくとも1つの3D畳み込み層に先立って、前記画像セグメントおよび2D関節ヒートマップを少なくとも1つの2D畳み込み中立ネットワークブロックに適用することをさらに含む、請求項1に記載の方法。
  3. 前記深度を前記少なくとも1つの3D畳み込み層から受信する、最大プーリング層をさらに備え、前記最大プーリング層は、各種類の関節の前記2D場所と前記種類の関節の推定される深度を組み合わせることに先立って、前記2D分解能を1まで低減させ、関節毎に、拡張された深度寸法のみを残す、請求項1または2に記載の方法。
  4. 前記3D畳み込み層ブロックのそれぞれは、第1の3D畳み込みと、第1のReLUと、第2の3D畳み込みと、第2のReLUと、最大プーリング層と、再形成層とを備える、請求項1-3のいずれか1項に記載の方法。
  5. 各3D畳み込みは、3×3×3以下のカーネルを使用する、請求項4に記載の方法。
  6. 前記3D畳み込み層ブロックの前記最大プーリング層は、入力空間寸法のサイズをある分率だけ低減させるが、前記深度寸法を維持し、前記再形成層は、前記深度寸法のサイズを前記分率だけ増加させる、請求項4または5に記載の方法。
  7. 前記畳み込みニューラルネットワークは、オブジェクトの画像セグメントおよび3D関節位置を使用した逆伝搬を使用して訓練される、請求項1-6のいずれか1項に記載の方法。
  8. 前記オブジェクトは、人間である、請求項1-7のいずれか1項に記載の方法。
  9. 骨格上の関節の3D位置を2D画像から判定するためのシステムであって、
    a.前記2D画像からの1つ以上の2D関節骨格および前記2D関節骨格に関する画像セグメントを識別する、2D骨格検出器と、
    b.前記1つ以上の2D関節骨格の関節毎に2D関節ヒートマップを生産する、2D関節ヒートマップ生成器と、
    c.各関節の深度を推定するように構成されている少なくとも1つの3D畳み込み層ブロックを備える、前記2D関節ヒートマップおよび前記画像セグメントを受信する、深度ヒートマップ推定器と、
    d.各関節の深度と前記2D関節骨格を組み合わせ、3D関節骨格を構築する、3D関節構築器と
    を備える、システム。
  10. 前記2D関節ヒートマップ生成器は、前記2D骨格検出器からの2D関節ヒートマップを使用する、請求項9に記載のシステム。
  11. 前記深度ヒートマップ推定器はさらに、前記少なくとも1つの3D畳み込み層ブロックに先立って少なくとも1つの2D畳み込み中立ネットワークブロックを備えることを備える、請求項9または10に記載のシステム。
  12. 前記深度ヒートマップ推定器はさらに、前記深度を前記少なくとも1つの3D畳み込み層から受信する、最大プーリング層を備え、前記最大プーリング層は、各種類の関節の2D場所と前記種類の関節の推定される深度を組み合わせることに先立って、前記2D分解能を1まで低減させ、関節毎に、拡張された深度寸法のみを残す、請求項9または11に記載のシステム。
  13. 前記3D畳み込み層ブロックのそれぞれは、第1の3D畳み込みと、第1のReLUと、第2の3D畳み込みと、第2のReLUと、最大プーリング層と、再形成層とを備える、請求項9-12のいずれか1項に記載のシステム。
  14. 各3D畳み込みは、3×3×3以下のカーネルを使用する、請求項13に記載のシステム。
  15. 前記3D畳み込み層ブロックの前記最大プーリング層は、入力空間寸法のサイズをある分率だけ低減させるが、前記深度寸法を維持し、前記再形成層は、前記深度寸法のサイズを前記分率だけ増加させる、請求項13または14に記載のシステム。
  16. 前記畳み込みニューラルネットワークは、オブジェクトの画像セグメントおよび3D関節位置を使用した逆伝搬を使用して訓練される、請求項9-15のいずれか1項に記載のシステム。
JP2021574764A 2019-06-14 2020-03-27 人物の単眼深度推定のための方法およびシステム Active JP7499280B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CA3,046,612 2019-06-14
CA3046612A CA3046612A1 (en) 2019-06-14 2019-06-14 Method and system for monocular depth estimation of persons
PCT/IB2020/052936 WO2020250046A1 (en) 2019-06-14 2020-03-27 Method and system for monocular depth estimation of persons

Publications (3)

Publication Number Publication Date
JP2022536790A true JP2022536790A (ja) 2022-08-18
JPWO2020250046A5 JPWO2020250046A5 (ja) 2023-03-24
JP7499280B2 JP7499280B2 (ja) 2024-06-13

Family

ID=73781888

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021574764A Active JP7499280B2 (ja) 2019-06-14 2020-03-27 人物の単眼深度推定のための方法およびシステム

Country Status (6)

Country Link
US (3) US11354817B2 (ja)
EP (1) EP3983997A4 (ja)
JP (1) JP7499280B2 (ja)
KR (1) KR20220024494A (ja)
CA (1) CA3046612A1 (ja)
WO (1) WO2020250046A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024128124A1 (ja) * 2022-12-15 2024-06-20 日本電気株式会社 学習装置、推定装置、学習方法、推定方法ならびに記録媒体

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4121939A4 (en) * 2020-03-20 2024-03-20 Hinge Health, Inc. MARKERLESS MOTION CAPTURE OF HANDS USING MULTIPLE POSE ESTIMATION MOTORS
US12033352B2 (en) * 2020-12-03 2024-07-09 Tata Consultancy Limited Services Methods and systems for generating end-to-end model to estimate 3-dimensional(3-D) pose of object
CN114036969B (zh) * 2021-03-16 2023-07-25 上海大学 一种多视角情况下的3d人体动作识别算法
US12100156B2 (en) 2021-04-12 2024-09-24 Snap Inc. Garment segmentation
KR102636549B1 (ko) * 2021-08-31 2024-02-14 광주과학기술원 노이즈 개선 네트워크 기반 보행 인식 장치 및 방법
US11670059B2 (en) 2021-09-01 2023-06-06 Snap Inc. Controlling interactive fashion based on body gestures

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787439B (zh) * 2016-02-04 2019-04-05 广州新节奏智能科技股份有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
WO2018087933A1 (ja) 2016-11-14 2018-05-17 富士通株式会社 情報処理装置、情報処理方法、およびプログラム
US10679046B1 (en) * 2016-11-29 2020-06-09 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Machine learning systems and methods of estimating body shape from images
EP3462373A1 (en) * 2017-10-02 2019-04-03 Promaton Holding B.V. Automated classification and taxonomy of 3d teeth data using deep learning methods
US10929654B2 (en) * 2018-03-12 2021-02-23 Nvidia Corporation Three-dimensional (3D) pose estimation from a monocular camera
CN108549876A (zh) * 2018-04-20 2018-09-18 重庆邮电大学 基于目标检测和人体姿态估计的坐姿检测方法
US10937173B2 (en) * 2018-11-15 2021-03-02 Qualcomm Incorporated Predicting subject body poses and subject movement intent using probabilistic generative models
US11004230B2 (en) * 2019-03-22 2021-05-11 Microsoft Technology Licensing, Llc Predicting three-dimensional articulated and target object pose

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024128124A1 (ja) * 2022-12-15 2024-06-20 日本電気株式会社 学習装置、推定装置、学習方法、推定方法ならびに記録媒体

Also Published As

Publication number Publication date
EP3983997A4 (en) 2023-06-28
US20240087161A1 (en) 2024-03-14
US20220292714A1 (en) 2022-09-15
KR20220024494A (ko) 2022-03-03
EP3983997A1 (en) 2022-04-20
CA3046612A1 (en) 2020-12-14
US11354817B2 (en) 2022-06-07
US11875529B2 (en) 2024-01-16
WO2020250046A1 (en) 2020-12-17
JP7499280B2 (ja) 2024-06-13
US20220108470A1 (en) 2022-04-07

Similar Documents

Publication Publication Date Title
JP7499280B2 (ja) 人物の単眼深度推定のための方法およびシステム
US10217195B1 (en) Generation of semantic depth of field effect
WO2020192483A1 (zh) 图像显示方法和设备
CN107993216B (zh) 一种图像融合方法及其设备、存储介质、终端
JP7178396B2 (ja) 入力映像に含まれた客体の3次元ポーズの推定のためのデータを生成する方法およびコンピュータシステム
WO2019035155A1 (ja) 画像処理システム、画像処理方法、及びプログラム
KR20210015695A (ko) 포즈 추정 방법, 포즈 추정 장치, 및 포즈 추정을 위한 트레이닝 방법
CN109815843A (zh) 目标检测方法及相关产品
GB2584400A (en) Processing captured images
WO2018082308A1 (zh) 一种图像处理方法及终端
US11159717B2 (en) Systems and methods for real time screen display coordinate and shape detection
JP2023545190A (ja) 画像の視線補正方法、装置、電子機器、及びコンピュータプログラム
CN113807361B (zh) 神经网络、目标检测方法、神经网络训练方法及相关产品
US11900552B2 (en) System and method for generating virtual pseudo 3D outputs from images
WO2023146241A1 (en) System and method for generating a three-dimensional photographic image
KR20220098895A (ko) 인체 포즈 추정 장치 및 방법
CN113538704A (zh) 一种基于光源位置绘制虚拟对象光影的方法及设备
US11954905B2 (en) Landmark temporal smoothing
US20220157016A1 (en) System and method for automatically reconstructing 3d model of an object using machine learning model
CN117529758A (zh) 用于使用神经网络识别图像和视频中的人类协同活动的方法、系统和介质
CN113361360B (zh) 基于深度学习的多人跟踪方法及系统
KR20150094108A (ko) 배경 영상의 위치를 이용한 관심맵 생성 방법 및 이를 기록한 기록 매체
Ciou et al. Indoor positioning using convolution neural network to regress camera pose
KR102625656B1 (ko) 비대면 소통 플랫폼 맞춤형 영상 합성 방법
TWI696981B (zh) 使用紅外線攝影機的互動影像處理系統

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230315

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230315

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240603

R150 Certificate of patent or registration of utility model

Ref document number: 7499280

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150