JP2021026265A - 画像処理装置、画像処理プログラム、及び画像処理方法 - Google Patents

画像処理装置、画像処理プログラム、及び画像処理方法 Download PDF

Info

Publication number
JP2021026265A
JP2021026265A JP2019140866A JP2019140866A JP2021026265A JP 2021026265 A JP2021026265 A JP 2021026265A JP 2019140866 A JP2019140866 A JP 2019140866A JP 2019140866 A JP2019140866 A JP 2019140866A JP 2021026265 A JP2021026265 A JP 2021026265A
Authority
JP
Japan
Prior art keywords
image
person
image processing
width
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019140866A
Other languages
English (en)
Inventor
峻平 小山
Shumpei Koyama
峻平 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019140866A priority Critical patent/JP2021026265A/ja
Publication of JP2021026265A publication Critical patent/JP2021026265A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

【課題】人物が写っている画像から身体部位の3次元位置を推定する。【解決手段】記憶部は、人物が写っている画像を記憶する。検出部は、画像から人物の頭部の幅を検出し、推定部は、頭部の幅に基づいて、人物の第1部位及び第2部位の間の長さを推定する。計算部は、第1部位及び第2部位の間の長さと、画像内における第1部位の位置及び第2部位の位置とに基づいて、第1部位の3次元位置及び第2部位の3次元位置を求める。【選択図】図11

Description

本発明は、画像処理装置、画像処理プログラム、及び画像処理方法に関する。
動画投稿サイト等において、動画の撮影者が、バーチャルキャラクターと呼ばれる仮想空間内の3次元モデルを使用することがある。バーチャルキャラクターを使用した動画では、ユーザの顔の表情及び身体の姿勢に対するトラッキングが行われ、取得された表情及び姿勢がバーチャルキャラクターの動きに反映される。これにより、ユーザ自身がバーチャルキャラクターとして登場する動画の撮影及び配信が可能になる。
カメラによって撮像された人物の画像に関して、骨格モデルを用いることにより、人物の多種多様な3次元姿勢を推定する姿勢推定装置が知られている(例えば、特許文献1を参照)。2次元姿勢推定の技術も知られている(例えば、非特許文献1〜非特許文献3を参照)。
国際公開第2012/046392号パンフレット
Z. Cao et al.,"OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", Cornell University, arXiv:1812.08008v2 [cs.CV], May 2019 "OpenPose"、GitHub, Inc.、[online]、[令和1年7月5日検索]、インターネット<URL:https://github.com/CMU-Perceptual-Computing-Lab/openpose> "Pose Detection in the Browser: PoseNet Model"、GitHub, Inc.、[online]、[令和1年7月5日検索]、インターネット<URL:https://github.com/tensorflow/tfjs-models/tree/master/posenet>
ユーザを撮影した動画から身体の動きをトラッキングする場合、ユーザの身体部位の2次元座標から3次元座標を計算することが望ましい。しかし、画像の奥行方向における情報が分からない場合、身体部位の3次元座標を計算することは困難である。
なお、かかる問題は、仮想空間内の3次元モデルを生成する場合に限らず、人物の身体部位の3次元座標を用いて他の処理を行う場合においても生ずるものである。
1つの側面において、本発明は、人物が写っている画像から身体部位の3次元位置を推定することを目的とする。
1つの案では、画像処理装置は、記憶部、検出部、推定部、及び計算部を含む。記憶部は、人物が写っている画像を記憶する。
検出部は、画像から人物の頭部の幅を検出し、推定部は、頭部の幅に基づいて、人物の第1部位及び第2部位の間の長さを推定する。計算部は、第1部位及び第2部位の間の長さと、画像内における第1部位の位置及び第2部位の位置とに基づいて、第1部位の3次元位置及び第2部位の3次元位置を求める。
1つの側面において、人物が写っている画像から身体部位の3次元位置を推定することができる。
画像処理装置の機能的構成図である。 画像処理のフローチャートである。 画像処理装置の具体例を示す機能的構成図である。 人物の身体部位を示す図である。 画像から検出された特徴点を示す図である。 人物の頭部を示す図である。 人物の上半身を示す図である。 各ボーンに対応する係数を示す図である。 3次元座標の計算方法を示す図である。 画像及び3次元モデルを示す図である。 画像処理の具体例を示すフローチャートである。 Tポーズの人物を撮影した画像を示す図である。 画像から決定された係数を示す図である。 キャリブレーション処理を行う画像処理のフローチャートである。 情報処理装置のハードウェア構成図である。
以下、図面を参照しながら、実施形態を詳細に説明する。
バーチャルキャラクターを使用した動画を作成するために、ユーザの全身の身体部位をトラッキングする方法として、全身に装着する専用機材を用いる方法が知られている。しかし、この方法では、機材のハードウェアコストが大きくなるとともに、ユーザが装着した機材の操作方法を習得するための作業負荷が発生する。
そこで、単眼カメラにより撮影された画像から人物の身体部位の3次元座標を推定する学習モデルを、機械学習アルゴリズムを用いて生成する技術が開発されている。この技術では、2次元座標推定モデル及び3次元座標推定モデルが生成される。
2次元座標推定モデルは、画像から身体部位の2次元座標を推定する学習モデルであり、例えば、非特許文献1〜非特許文献3の技術を用いて生成することができる。3次元座標推定モデルは、身体部位の2次元座標から3次元座標を推定する学習モデルである。これらの学習モデルを用いたトラッキングは、以下の手順で行われる。
(1)2次元座標推定モデルは、ユーザを撮影した画像から、ユーザの身体部位の2次元座標を推定する。
(2)3次元座標推定モデルは、ユーザの身体部位の2次元座標から、その身体部位の3次元座標を推定する。
この場合、2次元座標推定モデルを生成する学習処理と、3次元座標推定モデルを生成する学習処理とでは、別々の教師データが用いられるため、それらの教師データを用意する作業負荷が大きくなる。また、2次元座標の推定処理と3次元座標の推定処理とが2段階で逐次的に行われるため、リアルタイム性が大きく損なわれる。
一方、リアルタイム性を重視して3次元座標推定モデルを使用しない場合、画像の奥行方向における情報を用いて、ユーザの身体部位の2次元座標から3次元座標を計算することが望ましい。しかし、奥行方向の情報が分からない場合、身体部位の3次元座標を計算することは困難である。
図1は、実施形態の画像処理装置の機能的構成例を示している。図1の画像処理装置101は、記憶部111、検出部112、推定部113、及び計算部114を含む。記憶部111は、人物が写っている画像121を記憶する。検出部112、推定部113、及び計算部114は、画像121を用いて画像処理を行う。
図2は、図1の画像処理装置101が行う画像処理の例を示すフローチャートである。まず、検出部112は、画像121から人物の頭部の幅を検出し(ステップ201)、推定部113は、頭部の幅に基づいて、人物の第1部位及び第2部位の間の長さを推定する(ステップ202)。そして、計算部114は、第1部位及び第2部位の間の長さと、画像121内における第1部位の位置及び第2部位の位置とに基づいて、第1部位の3次元位置及び第2部位の3次元位置を求める(ステップ203)。
図1の画像処理装置101によれば、人物が写っている画像から身体部位の3次元位置を推定することができる。
図3は、図1の画像処理装置101の具体例を示している。図3の画像処理装置301は、記憶部311、画像取得部312、検出部313、推定部314、計算部315、生成部316、及び出力部317を含み、人物を撮影した映像からその人物の3次元モデルを生成する。
記憶部311、検出部313、推定部314、及び計算部315は、図1の記憶部111、検出部112、推定部113、及び計算部114にそれぞれ対応する。画像処理装置301は、タブレット、ノート型PC(Personal Computer)、スマートデバイス等の携帯端末装置であってもよく、クラウド上のサーバであってもよい。
撮像装置302は、例えば、CCD(Charged-Coupled Device)、CMOS(Complementary Metal-Oxide-Semiconductor)等の撮像素子を有するカメラである。撮像装置302は、単眼カメラであってもよい。
撮像装置302は、人物を撮影した映像を出力する。映像には、時系列のフレームが含まれている。画像取得部312は、複数の時刻それぞれにおけるフレームを取得し、各時刻のフレームを画像321として記憶部311に格納する。画像321は、図1の画像121に対応する。
検出部313は、画像321から人物の複数の身体部位それぞれの位置を示す2次元座標322を検出して、記憶部311に格納する。例えば、検出部313は、非特許文献1〜非特許文献3の技術を用いて、画像321から各身体部位に対応する特徴点を検出することができる。
図4は、人物の身体部位の例を示している。図4の身体部位は、左目401−1、右目401−2、左耳402−1、右耳402−2、鼻403、左肩404−1、右肩404−2、左肘405−1、右肘405−2、左手首406−1、及び右手首406−2を含む。図4の身体部位は、さらに、左股関節407−1、右股関節407−2、左膝408−1、右膝408−2、左足首409−1、及び右足首409−2を含む。
図5は、画像321から検出された特徴点の例を示している。特徴点501−1は左目401−1に対応し、特徴点501−2は右目401−2に対応し、特徴点502−1は左耳402−1に対応し、特徴点502−2は右耳402−2に対応し、特徴点503は鼻403に対応する。特徴点504−1は左肩404−1に対応し、特徴点504−2は右肩404−2に対応し、特徴点505−1は左肘405−1に対応し、特徴点505−2は右肘405−2に対応する。
特徴点506−1は左手首406−1に対応し、特徴点506−2は右手首406−2に対応し、特徴点507−1は左股関節407−1に対応し、特徴点507−2は右股関節407−2に対応する。特徴点508−1は左膝408−1に対応し、特徴点508−2は右膝408−2に対応し、特徴点509−1は左足首409−1に対応し、特徴点509−2は右足首409−2に対応する。
検出部313は、画像321から人物の頭部の幅を検出し、検出された頭部の幅を基準長323として記憶部311に格納する。例えば、検出部313は、左耳402−1及び右耳402−2の2次元座標322を用いて、左耳の位置及び前記右耳の位置の間の距離を求め、その距離を頭部の幅として用いる。この場合、頭部の幅は、人物の顔幅を表している。両耳の2次元座標322を用いることで、画像321から容易に頭部の幅を検出することができる。
なお、検出部313は、顔検出、エッジ検出等の処理を用いて、画像321から頭部の幅を検出してもよい。
推定部314は、基準長323を用いて、人物の複数のボーンそれぞれの長さを推定し、推定された長さをボーン長324として記憶部311に格納する。
各ボーンは、人物の2つの身体部位の間に存在する身体部分を表し、2つの身体部位は、第1部位及び第2部位にそれぞれ対応する。例えば、左耳と右耳の間に存在する身体部分は頭部であり、左肩と左肘の間に存在する身体部分は左上腕であり、左肘と左手首の間に存在する身体部分は左前腕である。例えば、推定部314は、各ボーンに対応する所定の係数を基準長323に乗算することで、各ボーンのボーン長324を求める。
図6は、画像321に写っている人物の頭部の例を示している。図6(a)は、撮像装置302の光軸方向を向いている人物の頭部の例を示しており、図6(b)は、撮像装置302の光軸と垂直に近い横方向を向いている人物の頭部の例を示している。
図6(a)及び図6(b)から分かるように、人物と撮像装置302の距離が等しい場合、その人物の顔が正面又は横方向のいずれを向いていても、画像321に写る頭部の幅はほとんど変わらない。顔周りの頭部の断面形状が極端な楕円形になる人間は存在しないため、頭部の幅は、どの角度から見てもほぼ一定であることが期待できる。
一方、図7は、画像321に写っている人物の上半身の例を示している。図7(a)は、左手が右手よりも低い位置にある人物の例を示しており、図7(b)は、左手が右手よりも高い位置にある人物の例を示している。
図7(a)及び図7(b)から分かるように、人物と撮像装置302との距離が等しい場合であっても、左手の位置に応じて、画像321に写る左前腕の長さが変化する。同様に、頭部以外の他のボーンについても、撮像装置302に対する人物の姿勢に応じて、画像321に写るボーンの長さが変化する。
したがって、画像321に写る頭部の幅を基準長323として用いることで、他のボーンの長さを基準長323として用いた場合よりも、各ボーンのボーン長324の推定精度が向上する。画像321に写る頭部の幅から、人物と撮像装置302との距離と、その距離における各ボーンのボーン長324とを推定することが可能になる。
図8は、各ボーンに対応する係数の例を示している。ボーン名は、ボーンの長さを表す名称であり、係数は、ボーン長324を求めるために基準長323に乗算される係数である。顔幅は、頭部の幅を表し、図4の左耳402−1及び右耳402−2を両端点とする線分411の長さに対応する。顔幅は基準長323として用いられるため、顔幅の係数は1である。
肩幅は、左肩404−1及び右肩404−2を両端点とする線分412の長さに対応し、首は、鼻403から線分412上に降ろした垂線413の長さに対応する。左上腕は、左肩404−1及び左肘405−1を両端点とする線分414−1の長さに対応し、右上腕は、右肩404−2及び右肘405−2を両端点とする線分414−2の長さに対応する。
左前腕は、左肘405−1及び左手首406−1を両端点とする線分415−1の長さに対応し、右前腕は、右肘405−2及び右手首406−2を両端点とする線分415−2の長さに対応する。骨盤は、左股関節407−1及び右股関節407−2を両端点とする線分416の長さに対応する。
左上腿は、左股関節407−1及び左膝408−1を両端点とする線分417−1の長さに対応し、右上腿は、右股関節407−2及び右膝408−2を両端点とする線分417−2の長さに対応する。左下腿は、左膝408−1及び左足首409−1を両端点とする線分418−1の長さに対応し、右下腿は、右膝408−2及び右足首409−2を両端点とする線分418−2の長さに対応する。
顔幅と各ボーンの長さとの間の関係は、個人差があるとしても、撮像装置302に対するボーンの角度によって変化するわけではない。したがって、あらかじめ適切な係数を設定しておくことで、顔幅から各ボーンの長さを容易に計算することができる。
計算部315は、各ボーンのボーン長324と、各ボーンの両端の身体部位の2次元座標322とを用いて、それらの身体部位の3次元位置を示す3次元座標325を求め、記憶部311に格納する。
図9は、3次元座標325の計算方法の例を示している。x軸及びy軸は、画像321上の2次元座標系を表し、z軸は、画像321の奥行方向の座標軸を表す。x軸は、水平方向の座標軸であり、y軸は、垂直方向の座標軸である。xy平面は、撮像装置302の光軸方向に垂直な平面であり、z軸は、撮像装置302の光軸方向と平行な座標軸である。
線分901は、画像321に写っているボーンを表し、点B及び点Gは、画像321内におけるボーンの両端の身体部位を表す。一方、3次元空間内のボーンは、点B及び点Hを両端点とする線分902によって表される。線分902は、点A〜点Hを頂点とする直方体の対角線であり、ボーン長324は、線分902の長さを表す。
この場合、点Bのz座標は0であり、点Bのx座標及びy座標として、点Bの2次元座標322を用いることができる。同様に、点Gのz座標は0であり、点Gのx座標及びy座標として、点Gの2次元座標322を用いることができる。点C及び点Fの3次元座標は、点B及び点Gの3次元座標から決定される。
ここで、点B、点G、及び点Hを頂点とする三角形が直角三角形であることに着目すると、三平方の定理によって、線分901及び線分902の長さから、点Gと点Hとの距離を求めることができる。求められた距離が点Hのz座標を表し、点Hのx座標及びy座標は、点Gのx座標及びy座標に一致する。
なお、点Hのz座標には、正負の符号の不確定性が存在するが、適切な拘束条件を課すことでz座標を一意に決定することができる。例えば、拘束条件としては、身体の前面にボーンの端点が伸びていることを示す条件を用いてもよい。
点B、点F、及び点Gの3次元座標から、点Fと点Gを結ぶ線分と、線分901との間の角度αを求めることができる。また、点C、点G、及び点Hの3次元座標から、点Gと点Hを結ぶ線分と、点Cと点Hを結ぶ線分との間の角度βを求めることができる。これにより、3次元空間における線分902の姿勢が決定される。
生成部316は、複数の身体部位それぞれの3次元座標325を用いて、画像321に写っている人物に対応する、仮想空間内の3次元モデル326を生成し、出力部317は、各フレームから生成された3次元モデル326を含む動画を出力する。人物の3次元モデル326は、バーチャルキャラクターであってもよい。
図10は、画像321及び3次元モデル326の例を示している。図10(a)は、画像321の例を示しており、図10(b)は、図10(a)の画像321から生成された3次元モデル326の例を示している。このように、各身体部位の3次元座標325を用いることで、人物の姿勢を3次元モデル326に反映することができる。
図3の画像処理装置301によれば、身体部位の2次元座標から3次元座標を推定する学習モデルを使用しなくても、人物を撮影した映像から3次元空間における人物の姿勢を推定し、リアルタイムで身体の動きをトラッキングすることができる。これにより、推定された姿勢を反映した3次元モデルを生成することが可能になる。
図11は、図3の画像処理装置301が行う画像処理の具体例を示すフローチャートである。まず、画像取得部312は、撮像装置302から出力される映像に含まれるフレームの画像321を取得する(ステップ1101)。そして、検出部313は、画像321から人物の各身体部位の2次元座標322を検出し、身体部位毎に2次元座標322の信頼度を記録する(ステップ1102)。信頼度は、2次元座標322の推定精度を表す。
次に、検出部313は、画像321が映像の最初のフレームの画像であるか否かをチェックする(ステップ1103)。画像321が最初のフレームの画像である場合(ステップ1103,YES)、検出部313は、左耳及び右耳の2次元座標322を用いて頭部の幅を計算し、計算された頭部の幅を基準長323として記録する(ステップ1110)。
次に、推定部314は、基準長323から各ボーンのボーン長324を推定し(ステップ1106)、計算部315は、身体部位の2次元座標322とボーン長324とを用いて、各身体部位の3次元座標325を計算する(ステップ1107)。そして、生成部316は、各身体部位の3次元座標325を用いて3次元モデル326を生成し、出力部317は、3次元モデル326の画像を出力する(ステップ1108)。
次に、画像取得部312は、映像が終了したか否かをチェックし(ステップ1109)、映像が終了していない場合(ステップ1109,NO)、画像処理装置301は、次のフレームについてステップ1101以降の処理を繰り返す。
画像321が2番目以降のフレームの画像である場合(ステップ1103,NO)、検出部313は、左耳及び右耳の2次元座標322の信頼度を閾値Tと比較する(ステップ1104)。左耳及び右耳の信頼度がともにT以上である場合(ステップ1104,YES)、検出部313は、左耳及び右耳の2次元座標322を用いて頭部の幅を計算し、計算された頭部の幅により基準長323を更新する(ステップ1105)。そして、画像処理装置301は、ステップ1106以降の処理を行う。
一方、左耳又は右耳の信頼度がT未満である場合(ステップ1104,NO)、画像処理装置301は、基準長323を更新することなく、ステップ1106以降の処理を行う。そして、映像が終了した場合(ステップ1109,YES)、画像処理装置301は、処理を終了する。
図11の画像処理によれば、両耳の2次元座標322が十分に信頼できる場合に、それらの2次元座標322から頭部の幅が計算され、その値を基準長323として用いて各ボーンのボーン長324が計算される。一方、片耳又は両耳の2次元座標322の信頼度が低い場合は、最初のフレームから計算された基準長323又は最後に更新された基準長323を用いて、各ボーンのボーン長324が計算される。
例えば、図5の画像321からは、各身体部位の2次元座標322として、次のようなデータが得られる。
身体部位 x座標 y座標 信頼度
左目 309.1 79.0 0.85
右目 294.8 80.0 0.87
左耳 323.3 85.5 0.48
右耳 274.7 84.9 0.63
鼻 304.1 88.0 0.94
左肩 325.2 140.8 0.98
右肩 272.0 140.3 0.97
左肘 348.9 222.5 1.00
右肘 240.1 223.0 0.98
左手首 362.8 295.3 0.98
右手首 213.7 293.7 0.98
左股関節 335.4 304.1 0.99
右股関節 261.0 300.4 0.99
左膝 326.0 428.0 0.98
右膝 272.7 437.2 0.97
左足首 308.2 562.0 0.90
右足首 275.0 563.0 0.89
x座標及びy座標は、画像321のサイズに対応する値である。この例では、画像321の左上の点が原点(0,0)であり、画像321の水平方向のサイズ及び垂直方向のサイズは、640画素である。信頼度としては、0.0〜1.0の範囲の値が用いられている。
ここで、T=0.9である場合、左耳及び右耳の信頼度がともにT未満であるため、基準長323は更新されない。以下のデータは、左耳及び右耳の信頼度が高い場合の2次元座標322を表している。
身体部位 x座標 y座標 信頼度
左耳 381.7 141.5 0.95
右耳 285.7 152.7 0.90
この場合、左耳及び右耳の信頼度がともにT以上であるため、次式により顔幅Wが計算され、顔幅Wが新たな基準長323として記録される。
W={(左耳のx座標−右耳のx座標)
+(左耳のy座標−右耳のy座標)1/2
=96.6 (1)
式(1)の顔幅Wと図8の係数とを用いて各ボーンのボーン長324を計算すると、次のようになる。
ボーン名 係数 ボーン長
顔幅 1 96.6
肩幅 2 193.2
首 1 96.6
上腕(左右) 5/3 161.0
前腕(左右) 4/3 128.8
骨盤 2 193.2
上腿(左右) 2 193.2
下腿(左右) 2 193.2
図11の画像処理によれば、人物を撮影した映像からリアルタイムで身体の動きをトラッキングして、3次元モデルを画面上に描画することができる。例えば、毎秒60フレーム程度の映像であっても、リアルタイムでトラッキングすることが可能である。
しかし、図11のステップ1106において、複数の人物に対して図8の係数を一律に適用した場合、推定されたボーン長324に人物毎の体格の個人差が反映されない。そこで、事前にキャリブレーション処理を行って人物毎に係数を調整することで、個人差を吸収する方法が考えられる。
キャリブレーション処理において、検出部313は、人物が所定の姿勢で写っている所定の画像から各身体部位の2次元座標を検出し、画像内における各ボーンの両端の身体部位の間の距離を求める。求められた2つの身体部位の間の距離には、頭部の幅も含まれている。そして、推定部314は、頭部の幅と、各ボーンの両端の身体部位の間の距離とを用いて、各ボーンに対応する係数を決定する。所定の姿勢としては、Tポーズ、Aポーズ等を用いることができる。
図12は、Tポーズの人物を撮影した画像の例を示しており、図13は、図12の画像から決定された係数の例を示している。Tポーズの場合、画像に写っている各ボーンの長さが、3次元空間における実際のボーンの長さに比例する。このため、画像から求められた各ボーンの両端の身体部位の間の距離を、画像から求められた頭部の幅で除算することで、各ボーンに対応する係数を求めることができる。
図14は、キャリブレーション処理を行う画像処理の例を示すフローチャートである。まず、画像処理装置301は、キャリブレーション処理を行って、各ボーンに対応する係数を決定する(ステップ1401)。
キャリブレーション処理において、推定部314は、被写体の人物に対して所定の姿勢を指示するメッセージを出力し、画像取得部312は、撮像装置302から出力される画像を取得する。次に、検出部313は、取得された画像から各身体部位の2次元座標を検出し、画像内における各ボーンの両端の身体部位の間の距離を求める。そして、推定部314は、各ボーンの両端の身体部位の間の距離を頭部の幅で除算することで、各ボーンに対応する係数を求める。
ステップ1402〜ステップ1411の処理は、図11のステップ1101〜ステップ1110の処理と同様である。ステップ1407において、推定部314は、キャリブレーション処理により決定された係数を用いて、基準長323から各ボーンのボーン長324を計算する。
図14の画像処理によれば、各ボーンに対応する係数を調整することで、人物毎の体格の個人差をボーン長324に反映することができる。したがって、3次元空間における人物の姿勢の推定精度が向上する。
図1の画像処理装置101及び図3の画像処理装置301の構成は一例に過ぎず、画像処理装置の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、図3の画像処理装置301において、事前に画像321が記憶部311に格納されている場合は、画像取得部312を省略することができる。仮想空間内の3次元モデル326を生成しない場合は、生成部316及び出力部317を省略することができる。
図2、図11、及び図14のフローチャートは一例に過ぎず、画像処理装置の構成又は条件に応じて一部の処理を省略又は変更してもよい。例えば、事前に画像321が記憶部311に格納されている場合は、図11のステップ1101及び図14のステップ1402の処理を省略することができる。2次元座標322の信頼度を用いない場合は、図11のステップ1104及び図14のステップ1405の処理を省略することができる。仮想空間内の3次元モデル326を生成しない場合は、図11のステップ1108及び図14のステップ1409の処理を省略することができる。
図4の身体部位は一例に過ぎず、一部の身体部位を省略してもよく、別の身体部位を用いてもよい。図5〜図7、図10(a)、及び図12の画像は一例に過ぎず、画像は被写体に応じて変化する。図8及び図13の係数は一例に過ぎず、画像処理装置の構成又は条件に応じて別の係数を用いてもよい。
図9の3次元座標325の計算方法は一例に過ぎず、画像処理装置の構成又は条件に応じて別の計算方法を用いてもよい。図10(b)の3次元モデル326は一例に過ぎず、3次元モデル326は、画像321に応じて変化する。式(1)は一例に過ぎず、別の計算式を用いて顔幅Wを計算してもよい。
図15は、図1の画像処理装置101及び図3の画像処理装置301として用いられる情報処理装置(コンピュータ)のハードウェア構成例を示している。図15の情報処理装置は、CPU(Central Processing Unit)1501、メモリ1502、入力装置1503、出力装置1504、補助記憶装置1505、媒体駆動装置1506、及びネットワーク接続装置1507を含む。これらの構成要素はハードウェアであり、バス1508により互いに接続されている。図3の撮像装置302は、バス1508に接続されていてもよい。
メモリ1502は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリであり、処理に用いられるプログラム及びデータを格納する。メモリ1502は、図1の記憶部111又は図3の記憶部311として用いることができる。
CPU1501(プロセッサ)は、例えば、メモリ1502を利用してプログラムを実行することにより、図1の検出部112、推定部113、及び計算部114として動作する。CPU1501は、メモリ1502を利用してプログラムを実行することにより、図3の画像取得部312、検出部313、推定部314、計算部315、及び生成部316としても動作する。
入力装置1503は、例えば、キーボード、ポインティングデバイス等であり、オペレータ又はユーザからの指示又は情報の入力に用いられる。出力装置1504は、例えば、表示装置、プリンタ、スピーカ等であり、オペレータ又はユーザへの問い合わせ又は指示、及び処理結果の出力に用いられる。処理結果は、3次元モデル326を含む動画であってもよい。出力装置1504は、図3の出力部317として用いることができる。
補助記憶装置1505は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置1505は、ハードディスクドライブ又はフラッシュメモリであってもよい。情報処理装置は、補助記憶装置1505にプログラム及びデータを格納しておき、それらをメモリ1502にロードして使用することができる。補助記憶装置1505は、図1の記憶部111又は図3の記憶部311として用いることができる。
媒体駆動装置1506は、可搬型記録媒体1509を駆動し、その記録内容にアクセスする。可搬型記録媒体1509は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体1509は、CD−ROM(Compact Disk Read Only Memory)、DVD(Digital Versatile Disk)、USB(Universal Serial Bus)メモリ等であってもよい。オペレータ又はユーザは、この可搬型記録媒体1509にプログラム及びデータを格納しておき、それらをメモリ1502にロードして使用することができる。
このように、処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ1502、補助記憶装置1505、又は可搬型記録媒体1509のような、物理的な(非一時的な)記録媒体である。
ネットワーク接続装置1507は、LAN(Local Area Network)、WAN(Wide Area Network)等の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インタフェース回路である。情報処理装置は、プログラム及びデータを外部の装置からネットワーク接続装置1507を介して受信し、それらをメモリ1502にロードして使用することができる。ネットワーク接続装置1507は、図3の出力部317として用いることができる。
なお、情報処理装置が図15のすべての構成要素を含む必要はなく、用途又は条件に応じて一部の構成要素を省略することも可能である。例えば、可搬型記録媒体1509又は通信ネットワークを使用しない場合は、媒体駆動装置1506又はネットワーク接続装置1507を省略してもよい。
開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。
図1乃至図15を参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
(付記1)
人物が写っている画像を記憶する記憶部と、
前記画像から前記人物の頭部の幅を検出する検出部と、
前記頭部の幅に基づいて、前記人物の第1部位及び第2部位の間の長さを推定する推定部と、
前記第1部位及び前記第2部位の間の長さと、前記画像内における前記第1部位の位置及び前記第2部位の位置とに基づいて、前記第1部位の3次元位置及び前記第2部位の3次元位置を求める計算部と、
を備えることを特徴とする画像処理装置。
(付記2)
前記検出部は、前記画像から前記人物の左耳の位置及び右耳の位置を検出し、前記左耳の位置及び前記右耳の位置の間の距離を、前記頭部の幅として求めることを特徴とする付記1記載の画像処理装置。
(付記3)
前記推定部は、前記頭部の幅に所定の係数を乗算することで、前記第1部位及び前記第2部位の間の長さを求めることを特徴とする付記1又は2記載の画像処理装置。
(付記4)
前記検出部は、前記人物が所定の姿勢で写っている所定の画像から、前記人物の頭部の幅を検出するとともに、前記第1部位の位置及び前記第2部位の位置を検出し、前記所定の画像内における前記第1部位の位置及び前記第2部位の位置の間の距離を求め、前記推定部は、前記所定の画像から検出された頭部の幅と、前記所定の画像内における前記第1部位の位置及び前記第2部位の位置の間の距離とを用いて、前記所定の係数を決定することを特徴とする付記3記載の画像処理装置。
(付記5)
前記第1部位の3次元位置及び前記第2部位の3次元位置を用いて、前記人物に対応する3次元モデルを生成する生成部をさらに備えることを特徴とする付記1乃至4のいずれか1項に記載の画像処理装置。
(付記6)
人物が写っている画像から、前記人物の頭部の幅を検出し、
前記頭部の幅に基づいて、前記人物の第1部位及び第2部位の間の長さを推定し、
前記第1部位及び前記第2部位の間の長さと、前記画像内における前記第1部位の位置及び前記第2部位の位置とに基づいて、前記第1部位の3次元位置及び前記第2部位の3次元位置を求める、
処理をコンピュータに実行させるための画像処理プログラム。
(付記7)
前記コンピュータは、前記画像から前記人物の左耳の位置及び右耳の位置を検出し、前記左耳の位置及び前記右耳の位置の間の距離を、前記頭部の幅として求めることを特徴とする付記6記載の画像処理プログラム。
(付記8)
前記コンピュータは、前記頭部の幅に所定の係数を乗算することで、前記第1部位及び前記第2部位の間の長さを求めることを特徴とする付記6又は7記載の画像処理プログラム。
(付記9)
前記画像処理プログラムは、
前記人物が所定の姿勢で写っている所定の画像から、前記人物の頭部の幅を検出するとともに、前記第1部位の位置及び前記第2部位の位置を検出し、
前記所定の画像内における前記第1部位の位置及び前記第2部位の位置の間の距離を求め、
前記所定の画像から検出された頭部の幅と、前記所定の画像内における前記第1部位の位置及び前記第2部位の位置の間の距離とを用いて、前記所定の係数を決定する、
処理を前記コンピュータにさらに実行させることを特徴とする付記8記載の画像処理プログラム。
(付記10)
前記画像処理プログラムは、前記第1部位の3次元位置及び前記第2部位の3次元位置を用いて、前記人物に対応する3次元モデルを生成する処理を、前記コンピュータにさらに実行させることを特徴とする付記6乃至9のいずれか1項に記載の画像処理プログラム。
(付記11)
コンピュータによって実行される画像処理方法であって、
前記コンピュータが、
人物が写っている画像から、前記人物の頭部の幅を検出し、
前記頭部の幅に基づいて、前記人物の第1部位及び第2部位の間の長さを推定し、
前記第1部位及び前記第2部位の間の長さと、前記画像内における前記第1部位の位置及び前記第2部位の位置とに基づいて、前記第1部位の3次元位置及び前記第2部位の3次元位置を求める、
ことを特徴とする画像処理方法。
(付記12)
前記コンピュータは、前記画像から前記人物の左耳の位置及び右耳の位置を検出し、前記左耳の位置及び前記右耳の位置の間の距離を、前記頭部の幅として求めることを特徴とする付記11記載の画像処理方法。
(付記13)
前記コンピュータは、前記頭部の幅に所定の係数を乗算することで、前記第1部位及び前記第2部位の間の長さを求めることを特徴とする付記11又は12記載の画像処理方法。
(付記14)
さらに、前記コンピュータは、
前記人物が所定の姿勢で写っている所定の画像から、前記人物の頭部の幅を検出するとともに、前記第1部位の位置及び前記第2部位の位置を検出し、
前記所定の画像内における前記第1部位の位置及び前記第2部位の位置の間の距離を求め、
前記所定の画像から検出された頭部の幅と、前記所定の画像内における前記第1部位の位置及び前記第2部位の位置の間の距離とを用いて、前記所定の係数を決定する、
ことを特徴とする付記13記載の画像処理方法。
(付記15)
さらに、前記コンピュータは、前記第1部位の3次元位置及び前記第2部位の3次元位置を用いて、前記人物に対応する3次元モデルを生成することを特徴とする付記11乃至14のいずれか1項に記載の画像処理方法。
101、301 画像処理装置
111、311 記憶部
112、313 検出部
113、314 推定部
114、315 計算部
121、321 画像
302 撮像装置
312 画像取得部
316 生成部
317 出力部
322 2次元座標
323 基準長
324 ボーン長
325 3次元座標
326 3次元モデル
401−1 左目
401−2 右目
402−1 左耳
402−2 右耳
403 鼻
404−1 左肩
404−2 右肩
405−1 左肘
405−2 右肘
406−1 左手首
406−2 右手首
407−1 左股関節
407−2 右股関節
408−1 左膝
408−2 右膝
409−1 左足首
409−2 右足首
411、412、414−1〜418−2、901、902 線分
413 垂線
501−1〜509−2 特徴点
1501 CPU
1502 メモリ
1503 入力装置
1504 出力装置
1505 補助記憶装置
1506 媒体駆動装置
1507 ネットワーク接続装置
1508 バス
1509 可搬型記録媒体

Claims (7)

  1. 人物が写っている画像を記憶する記憶部と、
    前記画像から前記人物の頭部の幅を検出する検出部と、
    前記頭部の幅に基づいて、前記人物の第1部位及び第2部位の間の長さを推定する推定部と、
    前記第1部位及び前記第2部位の間の長さと、前記画像内における前記第1部位の位置及び前記第2部位の位置とに基づいて、前記第1部位の3次元位置及び前記第2部位の3次元位置を求める計算部と、
    を備えることを特徴とする画像処理装置。
  2. 前記検出部は、前記画像から前記人物の左耳の位置及び右耳の位置を検出し、前記左耳の位置及び前記右耳の位置の間の距離を、前記頭部の幅として求めることを特徴とする請求項1記載の画像処理装置。
  3. 前記推定部は、前記頭部の幅に所定の係数を乗算することで、前記第1部位及び前記第2部位の間の長さを求めることを特徴とする請求項1又は2記載の画像処理装置。
  4. 前記検出部は、前記人物が所定の姿勢で写っている所定の画像から、前記人物の頭部の幅を検出するとともに、前記第1部位の位置及び前記第2部位の位置を検出し、前記所定の画像内における前記第1部位の位置及び前記第2部位の位置の間の距離を求め、前記推定部は、前記所定の画像から検出された頭部の幅と、前記所定の画像内における前記第1部位の位置及び前記第2部位の位置の間の距離とを用いて、前記所定の係数を決定することを特徴とする請求項3記載の画像処理装置。
  5. 前記第1部位の3次元位置及び前記第2部位の3次元位置を用いて、前記人物に対応する3次元モデルを生成する生成部をさらに備えることを特徴とする請求項1乃至4のいずれか1項に記載の画像処理装置。
  6. 人物が写っている画像から、前記人物の頭部の幅を検出し、
    前記頭部の幅に基づいて、前記人物の第1部位及び第2部位の間の長さを推定し、
    前記第1部位及び前記第2部位の間の長さと、前記画像内における前記第1部位の位置及び前記第2部位の位置とに基づいて、前記第1部位の3次元位置及び前記第2部位の3次元位置を求める、
    処理をコンピュータに実行させるための画像処理プログラム。
  7. コンピュータによって実行される画像処理方法であって、
    前記コンピュータが、
    人物が写っている画像から、前記人物の頭部の幅を検出し、
    前記頭部の幅に基づいて、前記人物の第1部位及び第2部位の間の長さを推定し、
    前記第1部位及び前記第2部位の間の長さと、前記画像内における前記第1部位の位置及び前記第2部位の位置とに基づいて、前記第1部位の3次元位置及び前記第2部位の3次元位置を求める、
    ことを特徴とする画像処理方法。
JP2019140866A 2019-07-31 2019-07-31 画像処理装置、画像処理プログラム、及び画像処理方法 Pending JP2021026265A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019140866A JP2021026265A (ja) 2019-07-31 2019-07-31 画像処理装置、画像処理プログラム、及び画像処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019140866A JP2021026265A (ja) 2019-07-31 2019-07-31 画像処理装置、画像処理プログラム、及び画像処理方法

Publications (1)

Publication Number Publication Date
JP2021026265A true JP2021026265A (ja) 2021-02-22

Family

ID=74664696

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019140866A Pending JP2021026265A (ja) 2019-07-31 2019-07-31 画像処理装置、画像処理プログラム、及び画像処理方法

Country Status (1)

Country Link
JP (1) JP2021026265A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023062762A1 (ja) 2021-10-13 2023-04-20 富士通株式会社 推定プログラム、推定方法および情報処理装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011065149A1 (ja) * 2009-11-25 2011-06-03 本田技研工業株式会社 対象物距離測定装置及び当該装置が搭載された車両
JP2015018485A (ja) * 2013-07-12 2015-01-29 株式会社ニコン 電子制御装置、制御方法、及び制御プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011065149A1 (ja) * 2009-11-25 2011-06-03 本田技研工業株式会社 対象物距離測定装置及び当該装置が搭載された車両
JP2015018485A (ja) * 2013-07-12 2015-01-29 株式会社ニコン 電子制御装置、制御方法、及び制御プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
澤井 清明、村上 伸一: "単眼視による3次元人物動作の認識に関する一検討", 映像情報メディア学会技術報告 2003年2月開催分(上巻), vol. 第27巻、第9号, JPN6023013588, 2003, JP, pages 59 - 64, ISSN: 0005149225 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023062762A1 (ja) 2021-10-13 2023-04-20 富士通株式会社 推定プログラム、推定方法および情報処理装置

Similar Documents

Publication Publication Date Title
US20230386174A1 (en) Method for generating customized/personalized head related transfer function
JP7015152B2 (ja) キーポイントデータに関する加工装置、方法及びプログラム
Herda et al. Using skeleton-based tracking to increase the reliability of optical motion capture
JP4950787B2 (ja) 画像処理装置及びその方法
JP4951498B2 (ja) 顔画像認識装置、顔画像認識方法、顔画像認識プログラムおよびそのプログラムを記録した記録媒体
CN111402290A (zh) 一种基于骨骼关键点的动作还原方法以及装置
JP5555207B2 (ja) 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
US20120194513A1 (en) Image processing apparatus and method with three-dimensional model creation capability, and recording medium
CN109242950A (zh) 多人紧密交互场景下的多视角人体动态三维重建方法
JP5795250B2 (ja) 被写体姿勢推定装置および映像描画装置
JP2014085933A (ja) 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
JP2018147313A (ja) オブジェクト姿勢推定方法、プログラムおよび装置
JP2010113530A (ja) 画像認識装置及びプログラム
Jatesiktat et al. Personalized markerless upper-body tracking with a depth camera and wrist-worn inertial measurement units
JP5731462B2 (ja) 映像コミュニケーションシステム及び映像コミュニケーション方法
JP7498404B2 (ja) 被写体の3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
JP2021026265A (ja) 画像処理装置、画像処理プログラム、及び画像処理方法
US20230154091A1 (en) Joint rotation inferences based on inverse kinematics
JP5767078B2 (ja) 姿勢推定装置、姿勢推定方法及び姿勢推定プログラム
JP6839116B2 (ja) 学習装置、推定装置、学習方法、推定方法及びコンピュータプログラム
JP3401512B2 (ja) 移動物体追跡装置
CN113822174B (zh) 视线估计的方法、电子设备及存储介质
JP5759439B2 (ja) 映像コミュニケーションシステム及び映像コミュニケーション方法
JP2022092528A (ja) 三次元人物姿勢推定装置、方法およびプログラム
JP5833525B2 (ja) 映像コミュニケーションシステム及び映像コミュニケーション方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220407

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230411

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230912