JP2021026265A

JP2021026265A - 画像処理装置、画像処理プログラム、及び画像処理方法

Info

Publication number: JP2021026265A
Application number: JP2019140866A
Authority: JP
Inventors: 峻平小山; Shumpei Koyama
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2021-02-22

Abstract

【課題】人物が写っている画像から身体部位の３次元位置を推定する。【解決手段】記憶部は、人物が写っている画像を記憶する。検出部は、画像から人物の頭部の幅を検出し、推定部は、頭部の幅に基づいて、人物の第１部位及び第２部位の間の長さを推定する。計算部は、第１部位及び第２部位の間の長さと、画像内における第１部位の位置及び第２部位の位置とに基づいて、第１部位の３次元位置及び第２部位の３次元位置を求める。【選択図】図１１

Description

本発明は、画像処理装置、画像処理プログラム、及び画像処理方法に関する。

動画投稿サイト等において、動画の撮影者が、バーチャルキャラクターと呼ばれる仮想空間内の３次元モデルを使用することがある。バーチャルキャラクターを使用した動画では、ユーザの顔の表情及び身体の姿勢に対するトラッキングが行われ、取得された表情及び姿勢がバーチャルキャラクターの動きに反映される。これにより、ユーザ自身がバーチャルキャラクターとして登場する動画の撮影及び配信が可能になる。

カメラによって撮像された人物の画像に関して、骨格モデルを用いることにより、人物の多種多様な３次元姿勢を推定する姿勢推定装置が知られている（例えば、特許文献１を参照）。２次元姿勢推定の技術も知られている（例えば、非特許文献１〜非特許文献３を参照）。

国際公開第２０１２／０４６３９２号パンフレット

Z. Cao et al.,"OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", Cornell University, arXiv:1812.08008v2 [cs.CV], May 2019 "OpenPose"、GitHub, Inc.、［online］、［令和１年７月５日検索］、インターネット＜ＵＲＬ：https://github.com/CMU-Perceptual-Computing-Lab/openpose＞ "Pose Detection in the Browser: PoseNet Model"、GitHub, Inc.、［online］、［令和１年７月５日検索］、インターネット＜ＵＲＬ：https://github.com/tensorflow/tfjs-models/tree/master/posenet＞

ユーザを撮影した動画から身体の動きをトラッキングする場合、ユーザの身体部位の２次元座標から３次元座標を計算することが望ましい。しかし、画像の奥行方向における情報が分からない場合、身体部位の３次元座標を計算することは困難である。

なお、かかる問題は、仮想空間内の３次元モデルを生成する場合に限らず、人物の身体部位の３次元座標を用いて他の処理を行う場合においても生ずるものである。

１つの側面において、本発明は、人物が写っている画像から身体部位の３次元位置を推定することを目的とする。

１つの案では、画像処理装置は、記憶部、検出部、推定部、及び計算部を含む。記憶部は、人物が写っている画像を記憶する。

検出部は、画像から人物の頭部の幅を検出し、推定部は、頭部の幅に基づいて、人物の第１部位及び第２部位の間の長さを推定する。計算部は、第１部位及び第２部位の間の長さと、画像内における第１部位の位置及び第２部位の位置とに基づいて、第１部位の３次元位置及び第２部位の３次元位置を求める。

１つの側面において、人物が写っている画像から身体部位の３次元位置を推定することができる。

画像処理装置の機能的構成図である。画像処理のフローチャートである。画像処理装置の具体例を示す機能的構成図である。人物の身体部位を示す図である。画像から検出された特徴点を示す図である。人物の頭部を示す図である。人物の上半身を示す図である。各ボーンに対応する係数を示す図である。３次元座標の計算方法を示す図である。画像及び３次元モデルを示す図である。画像処理の具体例を示すフローチャートである。Ｔポーズの人物を撮影した画像を示す図である。画像から決定された係数を示す図である。キャリブレーション処理を行う画像処理のフローチャートである。情報処理装置のハードウェア構成図である。

以下、図面を参照しながら、実施形態を詳細に説明する。
バーチャルキャラクターを使用した動画を作成するために、ユーザの全身の身体部位をトラッキングする方法として、全身に装着する専用機材を用いる方法が知られている。しかし、この方法では、機材のハードウェアコストが大きくなるとともに、ユーザが装着した機材の操作方法を習得するための作業負荷が発生する。

そこで、単眼カメラにより撮影された画像から人物の身体部位の３次元座標を推定する学習モデルを、機械学習アルゴリズムを用いて生成する技術が開発されている。この技術では、２次元座標推定モデル及び３次元座標推定モデルが生成される。

２次元座標推定モデルは、画像から身体部位の２次元座標を推定する学習モデルであり、例えば、非特許文献１〜非特許文献３の技術を用いて生成することができる。３次元座標推定モデルは、身体部位の２次元座標から３次元座標を推定する学習モデルである。これらの学習モデルを用いたトラッキングは、以下の手順で行われる。
（１）２次元座標推定モデルは、ユーザを撮影した画像から、ユーザの身体部位の２次元座標を推定する。
（２）３次元座標推定モデルは、ユーザの身体部位の２次元座標から、その身体部位の３次元座標を推定する。

この場合、２次元座標推定モデルを生成する学習処理と、３次元座標推定モデルを生成する学習処理とでは、別々の教師データが用いられるため、それらの教師データを用意する作業負荷が大きくなる。また、２次元座標の推定処理と３次元座標の推定処理とが２段階で逐次的に行われるため、リアルタイム性が大きく損なわれる。

一方、リアルタイム性を重視して３次元座標推定モデルを使用しない場合、画像の奥行方向における情報を用いて、ユーザの身体部位の２次元座標から３次元座標を計算することが望ましい。しかし、奥行方向の情報が分からない場合、身体部位の３次元座標を計算することは困難である。

図１は、実施形態の画像処理装置の機能的構成例を示している。図１の画像処理装置１０１は、記憶部１１１、検出部１１２、推定部１１３、及び計算部１１４を含む。記憶部１１１は、人物が写っている画像１２１を記憶する。検出部１１２、推定部１１３、及び計算部１１４は、画像１２１を用いて画像処理を行う。

図２は、図１の画像処理装置１０１が行う画像処理の例を示すフローチャートである。まず、検出部１１２は、画像１２１から人物の頭部の幅を検出し（ステップ２０１）、推定部１１３は、頭部の幅に基づいて、人物の第１部位及び第２部位の間の長さを推定する（ステップ２０２）。そして、計算部１１４は、第１部位及び第２部位の間の長さと、画像１２１内における第１部位の位置及び第２部位の位置とに基づいて、第１部位の３次元位置及び第２部位の３次元位置を求める（ステップ２０３）。

図１の画像処理装置１０１によれば、人物が写っている画像から身体部位の３次元位置を推定することができる。

図３は、図１の画像処理装置１０１の具体例を示している。図３の画像処理装置３０１は、記憶部３１１、画像取得部３１２、検出部３１３、推定部３１４、計算部３１５、生成部３１６、及び出力部３１７を含み、人物を撮影した映像からその人物の３次元モデルを生成する。

記憶部３１１、検出部３１３、推定部３１４、及び計算部３１５は、図１の記憶部１１１、検出部１１２、推定部１１３、及び計算部１１４にそれぞれ対応する。画像処理装置３０１は、タブレット、ノート型ＰＣ（Personal Computer）、スマートデバイス等の携帯端末装置であってもよく、クラウド上のサーバであってもよい。

撮像装置３０２は、例えば、ＣＣＤ（Charged-Coupled Device）、ＣＭＯＳ（Complementary Metal-Oxide-Semiconductor）等の撮像素子を有するカメラである。撮像装置３０２は、単眼カメラであってもよい。

撮像装置３０２は、人物を撮影した映像を出力する。映像には、時系列のフレームが含まれている。画像取得部３１２は、複数の時刻それぞれにおけるフレームを取得し、各時刻のフレームを画像３２１として記憶部３１１に格納する。画像３２１は、図１の画像１２１に対応する。

検出部３１３は、画像３２１から人物の複数の身体部位それぞれの位置を示す２次元座標３２２を検出して、記憶部３１１に格納する。例えば、検出部３１３は、非特許文献１〜非特許文献３の技術を用いて、画像３２１から各身体部位に対応する特徴点を検出することができる。

図４は、人物の身体部位の例を示している。図４の身体部位は、左目４０１−１、右目４０１−２、左耳４０２−１、右耳４０２−２、鼻４０３、左肩４０４−１、右肩４０４−２、左肘４０５−１、右肘４０５−２、左手首４０６−１、及び右手首４０６−２を含む。図４の身体部位は、さらに、左股関節４０７−１、右股関節４０７−２、左膝４０８−１、右膝４０８−２、左足首４０９−１、及び右足首４０９−２を含む。

図５は、画像３２１から検出された特徴点の例を示している。特徴点５０１−１は左目４０１−１に対応し、特徴点５０１−２は右目４０１−２に対応し、特徴点５０２−１は左耳４０２−１に対応し、特徴点５０２−２は右耳４０２−２に対応し、特徴点５０３は鼻４０３に対応する。特徴点５０４−１は左肩４０４−１に対応し、特徴点５０４−２は右肩４０４−２に対応し、特徴点５０５−１は左肘４０５−１に対応し、特徴点５０５−２は右肘４０５−２に対応する。

特徴点５０６−１は左手首４０６−１に対応し、特徴点５０６−２は右手首４０６−２に対応し、特徴点５０７−１は左股関節４０７−１に対応し、特徴点５０７−２は右股関節４０７−２に対応する。特徴点５０８−１は左膝４０８−１に対応し、特徴点５０８−２は右膝４０８−２に対応し、特徴点５０９−１は左足首４０９−１に対応し、特徴点５０９−２は右足首４０９−２に対応する。

検出部３１３は、画像３２１から人物の頭部の幅を検出し、検出された頭部の幅を基準長３２３として記憶部３１１に格納する。例えば、検出部３１３は、左耳４０２−１及び右耳４０２−２の２次元座標３２２を用いて、左耳の位置及び前記右耳の位置の間の距離を求め、その距離を頭部の幅として用いる。この場合、頭部の幅は、人物の顔幅を表している。両耳の２次元座標３２２を用いることで、画像３２１から容易に頭部の幅を検出することができる。

なお、検出部３１３は、顔検出、エッジ検出等の処理を用いて、画像３２１から頭部の幅を検出してもよい。

推定部３１４は、基準長３２３を用いて、人物の複数のボーンそれぞれの長さを推定し、推定された長さをボーン長３２４として記憶部３１１に格納する。

各ボーンは、人物の２つの身体部位の間に存在する身体部分を表し、２つの身体部位は、第１部位及び第２部位にそれぞれ対応する。例えば、左耳と右耳の間に存在する身体部分は頭部であり、左肩と左肘の間に存在する身体部分は左上腕であり、左肘と左手首の間に存在する身体部分は左前腕である。例えば、推定部３１４は、各ボーンに対応する所定の係数を基準長３２３に乗算することで、各ボーンのボーン長３２４を求める。

図６は、画像３２１に写っている人物の頭部の例を示している。図６（ａ）は、撮像装置３０２の光軸方向を向いている人物の頭部の例を示しており、図６（ｂ）は、撮像装置３０２の光軸と垂直に近い横方向を向いている人物の頭部の例を示している。

図６（ａ）及び図６（ｂ）から分かるように、人物と撮像装置３０２の距離が等しい場合、その人物の顔が正面又は横方向のいずれを向いていても、画像３２１に写る頭部の幅はほとんど変わらない。顔周りの頭部の断面形状が極端な楕円形になる人間は存在しないため、頭部の幅は、どの角度から見てもほぼ一定であることが期待できる。

一方、図７は、画像３２１に写っている人物の上半身の例を示している。図７（ａ）は、左手が右手よりも低い位置にある人物の例を示しており、図７（ｂ）は、左手が右手よりも高い位置にある人物の例を示している。

図７（ａ）及び図７（ｂ）から分かるように、人物と撮像装置３０２との距離が等しい場合であっても、左手の位置に応じて、画像３２１に写る左前腕の長さが変化する。同様に、頭部以外の他のボーンについても、撮像装置３０２に対する人物の姿勢に応じて、画像３２１に写るボーンの長さが変化する。

したがって、画像３２１に写る頭部の幅を基準長３２３として用いることで、他のボーンの長さを基準長３２３として用いた場合よりも、各ボーンのボーン長３２４の推定精度が向上する。画像３２１に写る頭部の幅から、人物と撮像装置３０２との距離と、その距離における各ボーンのボーン長３２４とを推定することが可能になる。

図８は、各ボーンに対応する係数の例を示している。ボーン名は、ボーンの長さを表す名称であり、係数は、ボーン長３２４を求めるために基準長３２３に乗算される係数である。顔幅は、頭部の幅を表し、図４の左耳４０２−１及び右耳４０２−２を両端点とする線分４１１の長さに対応する。顔幅は基準長３２３として用いられるため、顔幅の係数は１である。

肩幅は、左肩４０４−１及び右肩４０４−２を両端点とする線分４１２の長さに対応し、首は、鼻４０３から線分４１２上に降ろした垂線４１３の長さに対応する。左上腕は、左肩４０４−１及び左肘４０５−１を両端点とする線分４１４−１の長さに対応し、右上腕は、右肩４０４−２及び右肘４０５−２を両端点とする線分４１４−２の長さに対応する。

左前腕は、左肘４０５−１及び左手首４０６−１を両端点とする線分４１５−１の長さに対応し、右前腕は、右肘４０５−２及び右手首４０６−２を両端点とする線分４１５−２の長さに対応する。骨盤は、左股関節４０７−１及び右股関節４０７−２を両端点とする線分４１６の長さに対応する。

左上腿は、左股関節４０７−１及び左膝４０８−１を両端点とする線分４１７−１の長さに対応し、右上腿は、右股関節４０７−２及び右膝４０８−２を両端点とする線分４１７−２の長さに対応する。左下腿は、左膝４０８−１及び左足首４０９−１を両端点とする線分４１８−１の長さに対応し、右下腿は、右膝４０８−２及び右足首４０９−２を両端点とする線分４１８−２の長さに対応する。

顔幅と各ボーンの長さとの間の関係は、個人差があるとしても、撮像装置３０２に対するボーンの角度によって変化するわけではない。したがって、あらかじめ適切な係数を設定しておくことで、顔幅から各ボーンの長さを容易に計算することができる。

計算部３１５は、各ボーンのボーン長３２４と、各ボーンの両端の身体部位の２次元座標３２２とを用いて、それらの身体部位の３次元位置を示す３次元座標３２５を求め、記憶部３１１に格納する。

図９は、３次元座標３２５の計算方法の例を示している。ｘ軸及びｙ軸は、画像３２１上の２次元座標系を表し、ｚ軸は、画像３２１の奥行方向の座標軸を表す。ｘ軸は、水平方向の座標軸であり、ｙ軸は、垂直方向の座標軸である。ｘｙ平面は、撮像装置３０２の光軸方向に垂直な平面であり、ｚ軸は、撮像装置３０２の光軸方向と平行な座標軸である。

線分９０１は、画像３２１に写っているボーンを表し、点Ｂ及び点Ｇは、画像３２１内におけるボーンの両端の身体部位を表す。一方、３次元空間内のボーンは、点Ｂ及び点Ｈを両端点とする線分９０２によって表される。線分９０２は、点Ａ〜点Ｈを頂点とする直方体の対角線であり、ボーン長３２４は、線分９０２の長さを表す。

この場合、点Ｂのｚ座標は０であり、点Ｂのｘ座標及びｙ座標として、点Ｂの２次元座標３２２を用いることができる。同様に、点Ｇのｚ座標は０であり、点Ｇのｘ座標及びｙ座標として、点Ｇの２次元座標３２２を用いることができる。点Ｃ及び点Ｆの３次元座標は、点Ｂ及び点Ｇの３次元座標から決定される。

ここで、点Ｂ、点Ｇ、及び点Ｈを頂点とする三角形が直角三角形であることに着目すると、三平方の定理によって、線分９０１及び線分９０２の長さから、点Ｇと点Ｈとの距離を求めることができる。求められた距離が点Ｈのｚ座標を表し、点Ｈのｘ座標及びｙ座標は、点Ｇのｘ座標及びｙ座標に一致する。

なお、点Ｈのｚ座標には、正負の符号の不確定性が存在するが、適切な拘束条件を課すことでｚ座標を一意に決定することができる。例えば、拘束条件としては、身体の前面にボーンの端点が伸びていることを示す条件を用いてもよい。

点Ｂ、点Ｆ、及び点Ｇの３次元座標から、点Ｆと点Ｇを結ぶ線分と、線分９０１との間の角度αを求めることができる。また、点Ｃ、点Ｇ、及び点Ｈの３次元座標から、点Ｇと点Ｈを結ぶ線分と、点Ｃと点Ｈを結ぶ線分との間の角度βを求めることができる。これにより、３次元空間における線分９０２の姿勢が決定される。

生成部３１６は、複数の身体部位それぞれの３次元座標３２５を用いて、画像３２１に写っている人物に対応する、仮想空間内の３次元モデル３２６を生成し、出力部３１７は、各フレームから生成された３次元モデル３２６を含む動画を出力する。人物の３次元モデル３２６は、バーチャルキャラクターであってもよい。

図１０は、画像３２１及び３次元モデル３２６の例を示している。図１０（ａ）は、画像３２１の例を示しており、図１０（ｂ）は、図１０（ａ）の画像３２１から生成された３次元モデル３２６の例を示している。このように、各身体部位の３次元座標３２５を用いることで、人物の姿勢を３次元モデル３２６に反映することができる。

図３の画像処理装置３０１によれば、身体部位の２次元座標から３次元座標を推定する学習モデルを使用しなくても、人物を撮影した映像から３次元空間における人物の姿勢を推定し、リアルタイムで身体の動きをトラッキングすることができる。これにより、推定された姿勢を反映した３次元モデルを生成することが可能になる。

図１１は、図３の画像処理装置３０１が行う画像処理の具体例を示すフローチャートである。まず、画像取得部３１２は、撮像装置３０２から出力される映像に含まれるフレームの画像３２１を取得する（ステップ１１０１）。そして、検出部３１３は、画像３２１から人物の各身体部位の２次元座標３２２を検出し、身体部位毎に２次元座標３２２の信頼度を記録する（ステップ１１０２）。信頼度は、２次元座標３２２の推定精度を表す。

次に、検出部３１３は、画像３２１が映像の最初のフレームの画像であるか否かをチェックする（ステップ１１０３）。画像３２１が最初のフレームの画像である場合（ステップ１１０３，ＹＥＳ）、検出部３１３は、左耳及び右耳の２次元座標３２２を用いて頭部の幅を計算し、計算された頭部の幅を基準長３２３として記録する（ステップ１１１０）。

次に、推定部３１４は、基準長３２３から各ボーンのボーン長３２４を推定し（ステップ１１０６）、計算部３１５は、身体部位の２次元座標３２２とボーン長３２４とを用いて、各身体部位の３次元座標３２５を計算する（ステップ１１０７）。そして、生成部３１６は、各身体部位の３次元座標３２５を用いて３次元モデル３２６を生成し、出力部３１７は、３次元モデル３２６の画像を出力する（ステップ１１０８）。

次に、画像取得部３１２は、映像が終了したか否かをチェックし（ステップ１１０９）、映像が終了していない場合（ステップ１１０９，ＮＯ）、画像処理装置３０１は、次のフレームについてステップ１１０１以降の処理を繰り返す。

画像３２１が２番目以降のフレームの画像である場合（ステップ１１０３，ＮＯ）、検出部３１３は、左耳及び右耳の２次元座標３２２の信頼度を閾値Ｔと比較する（ステップ１１０４）。左耳及び右耳の信頼度がともにＴ以上である場合（ステップ１１０４，ＹＥＳ）、検出部３１３は、左耳及び右耳の２次元座標３２２を用いて頭部の幅を計算し、計算された頭部の幅により基準長３２３を更新する（ステップ１１０５）。そして、画像処理装置３０１は、ステップ１１０６以降の処理を行う。

一方、左耳又は右耳の信頼度がＴ未満である場合（ステップ１１０４，ＮＯ）、画像処理装置３０１は、基準長３２３を更新することなく、ステップ１１０６以降の処理を行う。そして、映像が終了した場合（ステップ１１０９，ＹＥＳ）、画像処理装置３０１は、処理を終了する。

図１１の画像処理によれば、両耳の２次元座標３２２が十分に信頼できる場合に、それらの２次元座標３２２から頭部の幅が計算され、その値を基準長３２３として用いて各ボーンのボーン長３２４が計算される。一方、片耳又は両耳の２次元座標３２２の信頼度が低い場合は、最初のフレームから計算された基準長３２３又は最後に更新された基準長３２３を用いて、各ボーンのボーン長３２４が計算される。

例えば、図５の画像３２１からは、各身体部位の２次元座標３２２として、次のようなデータが得られる。

身体部位ｘ座標ｙ座標信頼度
左目３０９．１７９．００．８５
右目２９４．８８０．００．８７
左耳３２３．３８５．５０．４８
右耳２７４．７８４．９０．６３
鼻３０４．１８８．００．９４
左肩３２５．２１４０．８０．９８
右肩２７２．０１４０．３０．９７
左肘３４８．９２２２．５１．００
右肘２４０．１２２３．００．９８
左手首３６２．８２９５．３０．９８
右手首２１３．７２９３．７０．９８
左股関節３３５．４３０４．１０．９９
右股関節２６１．０３００．４０．９９
左膝３２６．０４２８．００．９８
右膝２７２．７４３７．２０．９７
左足首３０８．２５６２．００．９０
右足首２７５．０５６３．００．８９

ｘ座標及びｙ座標は、画像３２１のサイズに対応する値である。この例では、画像３２１の左上の点が原点（０，０）であり、画像３２１の水平方向のサイズ及び垂直方向のサイズは、６４０画素である。信頼度としては、０．０〜１．０の範囲の値が用いられている。

ここで、Ｔ＝０．９である場合、左耳及び右耳の信頼度がともにＴ未満であるため、基準長３２３は更新されない。以下のデータは、左耳及び右耳の信頼度が高い場合の２次元座標３２２を表している。

身体部位ｘ座標ｙ座標信頼度
左耳３８１．７１４１．５０．９５
右耳２８５．７１５２．７０．９０

この場合、左耳及び右耳の信頼度がともにＴ以上であるため、次式により顔幅Ｗが計算され、顔幅Ｗが新たな基準長３２３として記録される。

Ｗ＝｛（左耳のｘ座標−右耳のｘ座標）^２
＋（左耳のｙ座標−右耳のｙ座標）^２｝^１／２
＝９６．６（１）

式（１）の顔幅Ｗと図８の係数とを用いて各ボーンのボーン長３２４を計算すると、次のようになる。

ボーン名係数ボーン長
顔幅１９６．６
肩幅２１９３．２
首１９６．６
上腕（左右）５／３１６１．０
前腕（左右）４／３１２８．８
骨盤２１９３．２
上腿（左右）２１９３．２
下腿（左右）２１９３．２

図１１の画像処理によれば、人物を撮影した映像からリアルタイムで身体の動きをトラッキングして、３次元モデルを画面上に描画することができる。例えば、毎秒６０フレーム程度の映像であっても、リアルタイムでトラッキングすることが可能である。

しかし、図１１のステップ１１０６において、複数の人物に対して図８の係数を一律に適用した場合、推定されたボーン長３２４に人物毎の体格の個人差が反映されない。そこで、事前にキャリブレーション処理を行って人物毎に係数を調整することで、個人差を吸収する方法が考えられる。

キャリブレーション処理において、検出部３１３は、人物が所定の姿勢で写っている所定の画像から各身体部位の２次元座標を検出し、画像内における各ボーンの両端の身体部位の間の距離を求める。求められた２つの身体部位の間の距離には、頭部の幅も含まれている。そして、推定部３１４は、頭部の幅と、各ボーンの両端の身体部位の間の距離とを用いて、各ボーンに対応する係数を決定する。所定の姿勢としては、Ｔポーズ、Ａポーズ等を用いることができる。

図１２は、Ｔポーズの人物を撮影した画像の例を示しており、図１３は、図１２の画像から決定された係数の例を示している。Ｔポーズの場合、画像に写っている各ボーンの長さが、３次元空間における実際のボーンの長さに比例する。このため、画像から求められた各ボーンの両端の身体部位の間の距離を、画像から求められた頭部の幅で除算することで、各ボーンに対応する係数を求めることができる。

図１４は、キャリブレーション処理を行う画像処理の例を示すフローチャートである。まず、画像処理装置３０１は、キャリブレーション処理を行って、各ボーンに対応する係数を決定する（ステップ１４０１）。

キャリブレーション処理において、推定部３１４は、被写体の人物に対して所定の姿勢を指示するメッセージを出力し、画像取得部３１２は、撮像装置３０２から出力される画像を取得する。次に、検出部３１３は、取得された画像から各身体部位の２次元座標を検出し、画像内における各ボーンの両端の身体部位の間の距離を求める。そして、推定部３１４は、各ボーンの両端の身体部位の間の距離を頭部の幅で除算することで、各ボーンに対応する係数を求める。

ステップ１４０２〜ステップ１４１１の処理は、図１１のステップ１１０１〜ステップ１１１０の処理と同様である。ステップ１４０７において、推定部３１４は、キャリブレーション処理により決定された係数を用いて、基準長３２３から各ボーンのボーン長３２４を計算する。

図１４の画像処理によれば、各ボーンに対応する係数を調整することで、人物毎の体格の個人差をボーン長３２４に反映することができる。したがって、３次元空間における人物の姿勢の推定精度が向上する。

図１の画像処理装置１０１及び図３の画像処理装置３０１の構成は一例に過ぎず、画像処理装置の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、図３の画像処理装置３０１において、事前に画像３２１が記憶部３１１に格納されている場合は、画像取得部３１２を省略することができる。仮想空間内の３次元モデル３２６を生成しない場合は、生成部３１６及び出力部３１７を省略することができる。

図２、図１１、及び図１４のフローチャートは一例に過ぎず、画像処理装置の構成又は条件に応じて一部の処理を省略又は変更してもよい。例えば、事前に画像３２１が記憶部３１１に格納されている場合は、図１１のステップ１１０１及び図１４のステップ１４０２の処理を省略することができる。２次元座標３２２の信頼度を用いない場合は、図１１のステップ１１０４及び図１４のステップ１４０５の処理を省略することができる。仮想空間内の３次元モデル３２６を生成しない場合は、図１１のステップ１１０８及び図１４のステップ１４０９の処理を省略することができる。

図４の身体部位は一例に過ぎず、一部の身体部位を省略してもよく、別の身体部位を用いてもよい。図５〜図７、図１０（ａ）、及び図１２の画像は一例に過ぎず、画像は被写体に応じて変化する。図８及び図１３の係数は一例に過ぎず、画像処理装置の構成又は条件に応じて別の係数を用いてもよい。

図９の３次元座標３２５の計算方法は一例に過ぎず、画像処理装置の構成又は条件に応じて別の計算方法を用いてもよい。図１０（ｂ）の３次元モデル３２６は一例に過ぎず、３次元モデル３２６は、画像３２１に応じて変化する。式（１）は一例に過ぎず、別の計算式を用いて顔幅Ｗを計算してもよい。

図１５は、図１の画像処理装置１０１及び図３の画像処理装置３０１として用いられる情報処理装置（コンピュータ）のハードウェア構成例を示している。図１５の情報処理装置は、ＣＰＵ（Central Processing Unit）１５０１、メモリ１５０２、入力装置１５０３、出力装置１５０４、補助記憶装置１５０５、媒体駆動装置１５０６、及びネットワーク接続装置１５０７を含む。これらの構成要素はハードウェアであり、バス１５０８により互いに接続されている。図３の撮像装置３０２は、バス１５０８に接続されていてもよい。

メモリ１５０２は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、フラッシュメモリ等の半導体メモリであり、処理に用いられるプログラム及びデータを格納する。メモリ１５０２は、図１の記憶部１１１又は図３の記憶部３１１として用いることができる。

ＣＰＵ１５０１（プロセッサ）は、例えば、メモリ１５０２を利用してプログラムを実行することにより、図１の検出部１１２、推定部１１３、及び計算部１１４として動作する。ＣＰＵ１５０１は、メモリ１５０２を利用してプログラムを実行することにより、図３の画像取得部３１２、検出部３１３、推定部３１４、計算部３１５、及び生成部３１６としても動作する。

入力装置１５０３は、例えば、キーボード、ポインティングデバイス等であり、オペレータ又はユーザからの指示又は情報の入力に用いられる。出力装置１５０４は、例えば、表示装置、プリンタ、スピーカ等であり、オペレータ又はユーザへの問い合わせ又は指示、及び処理結果の出力に用いられる。処理結果は、３次元モデル３２６を含む動画であってもよい。出力装置１５０４は、図３の出力部３１７として用いることができる。

補助記憶装置１５０５は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置１５０５は、ハードディスクドライブ又はフラッシュメモリであってもよい。情報処理装置は、補助記憶装置１５０５にプログラム及びデータを格納しておき、それらをメモリ１５０２にロードして使用することができる。補助記憶装置１５０５は、図１の記憶部１１１又は図３の記憶部３１１として用いることができる。

媒体駆動装置１５０６は、可搬型記録媒体１５０９を駆動し、その記録内容にアクセスする。可搬型記録媒体１５０９は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体１５０９は、ＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ（Digital Versatile Disk）、ＵＳＢ（Universal Serial Bus）メモリ等であってもよい。オペレータ又はユーザは、この可搬型記録媒体１５０９にプログラム及びデータを格納しておき、それらをメモリ１５０２にロードして使用することができる。

このように、処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ１５０２、補助記憶装置１５０５、又は可搬型記録媒体１５０９のような、物理的な（非一時的な）記録媒体である。

ネットワーク接続装置１５０７は、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インタフェース回路である。情報処理装置は、プログラム及びデータを外部の装置からネットワーク接続装置１５０７を介して受信し、それらをメモリ１５０２にロードして使用することができる。ネットワーク接続装置１５０７は、図３の出力部３１７として用いることができる。

なお、情報処理装置が図１５のすべての構成要素を含む必要はなく、用途又は条件に応じて一部の構成要素を省略することも可能である。例えば、可搬型記録媒体１５０９又は通信ネットワークを使用しない場合は、媒体駆動装置１５０６又はネットワーク接続装置１５０７を省略してもよい。

開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。

図１乃至図１５を参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
（付記１）
人物が写っている画像を記憶する記憶部と、
前記画像から前記人物の頭部の幅を検出する検出部と、
前記頭部の幅に基づいて、前記人物の第１部位及び第２部位の間の長さを推定する推定部と、
前記第１部位及び前記第２部位の間の長さと、前記画像内における前記第１部位の位置及び前記第２部位の位置とに基づいて、前記第１部位の３次元位置及び前記第２部位の３次元位置を求める計算部と、
を備えることを特徴とする画像処理装置。
（付記２）
前記検出部は、前記画像から前記人物の左耳の位置及び右耳の位置を検出し、前記左耳の位置及び前記右耳の位置の間の距離を、前記頭部の幅として求めることを特徴とする付記１記載の画像処理装置。
（付記３）
前記推定部は、前記頭部の幅に所定の係数を乗算することで、前記第１部位及び前記第２部位の間の長さを求めることを特徴とする付記１又は２記載の画像処理装置。
（付記４）
前記検出部は、前記人物が所定の姿勢で写っている所定の画像から、前記人物の頭部の幅を検出するとともに、前記第１部位の位置及び前記第２部位の位置を検出し、前記所定の画像内における前記第１部位の位置及び前記第２部位の位置の間の距離を求め、前記推定部は、前記所定の画像から検出された頭部の幅と、前記所定の画像内における前記第１部位の位置及び前記第２部位の位置の間の距離とを用いて、前記所定の係数を決定することを特徴とする付記３記載の画像処理装置。
（付記５）
前記第１部位の３次元位置及び前記第２部位の３次元位置を用いて、前記人物に対応する３次元モデルを生成する生成部をさらに備えることを特徴とする付記１乃至４のいずれか１項に記載の画像処理装置。
（付記６）
人物が写っている画像から、前記人物の頭部の幅を検出し、
前記頭部の幅に基づいて、前記人物の第１部位及び第２部位の間の長さを推定し、
前記第１部位及び前記第２部位の間の長さと、前記画像内における前記第１部位の位置及び前記第２部位の位置とに基づいて、前記第１部位の３次元位置及び前記第２部位の３次元位置を求める、
処理をコンピュータに実行させるための画像処理プログラム。
（付記７）
前記コンピュータは、前記画像から前記人物の左耳の位置及び右耳の位置を検出し、前記左耳の位置及び前記右耳の位置の間の距離を、前記頭部の幅として求めることを特徴とする付記６記載の画像処理プログラム。
（付記８）
前記コンピュータは、前記頭部の幅に所定の係数を乗算することで、前記第１部位及び前記第２部位の間の長さを求めることを特徴とする付記６又は７記載の画像処理プログラム。
（付記９）
前記画像処理プログラムは、
前記人物が所定の姿勢で写っている所定の画像から、前記人物の頭部の幅を検出するとともに、前記第１部位の位置及び前記第２部位の位置を検出し、
前記所定の画像内における前記第１部位の位置及び前記第２部位の位置の間の距離を求め、
前記所定の画像から検出された頭部の幅と、前記所定の画像内における前記第１部位の位置及び前記第２部位の位置の間の距離とを用いて、前記所定の係数を決定する、
処理を前記コンピュータにさらに実行させることを特徴とする付記８記載の画像処理プログラム。
（付記１０）
前記画像処理プログラムは、前記第１部位の３次元位置及び前記第２部位の３次元位置を用いて、前記人物に対応する３次元モデルを生成する処理を、前記コンピュータにさらに実行させることを特徴とする付記６乃至９のいずれか１項に記載の画像処理プログラム。
（付記１１）
コンピュータによって実行される画像処理方法であって、
前記コンピュータが、
人物が写っている画像から、前記人物の頭部の幅を検出し、
前記頭部の幅に基づいて、前記人物の第１部位及び第２部位の間の長さを推定し、
前記第１部位及び前記第２部位の間の長さと、前記画像内における前記第１部位の位置及び前記第２部位の位置とに基づいて、前記第１部位の３次元位置及び前記第２部位の３次元位置を求める、
ことを特徴とする画像処理方法。
（付記１２）
前記コンピュータは、前記画像から前記人物の左耳の位置及び右耳の位置を検出し、前記左耳の位置及び前記右耳の位置の間の距離を、前記頭部の幅として求めることを特徴とする付記１１記載の画像処理方法。
（付記１３）
前記コンピュータは、前記頭部の幅に所定の係数を乗算することで、前記第１部位及び前記第２部位の間の長さを求めることを特徴とする付記１１又は１２記載の画像処理方法。
（付記１４）
さらに、前記コンピュータは、
前記人物が所定の姿勢で写っている所定の画像から、前記人物の頭部の幅を検出するとともに、前記第１部位の位置及び前記第２部位の位置を検出し、
前記所定の画像内における前記第１部位の位置及び前記第２部位の位置の間の距離を求め、
前記所定の画像から検出された頭部の幅と、前記所定の画像内における前記第１部位の位置及び前記第２部位の位置の間の距離とを用いて、前記所定の係数を決定する、
ことを特徴とする付記１３記載の画像処理方法。
（付記１５）
さらに、前記コンピュータは、前記第１部位の３次元位置及び前記第２部位の３次元位置を用いて、前記人物に対応する３次元モデルを生成することを特徴とする付記１１乃至１４のいずれか１項に記載の画像処理方法。

１０１、３０１画像処理装置
１１１、３１１記憶部
１１２、３１３検出部
１１３、３１４推定部
１１４、３１５計算部
１２１、３２１画像
３０２撮像装置
３１２画像取得部
３１６生成部
３１７出力部
３２２２次元座標
３２３基準長
３２４ボーン長
３２５３次元座標
３２６３次元モデル
４０１−１左目
４０１−２右目
４０２−１左耳
４０２−２右耳
４０３鼻
４０４−１左肩
４０４−２右肩
４０５−１左肘
４０５−２右肘
４０６−１左手首
４０６−２右手首
４０７−１左股関節
４０７−２右股関節
４０８−１左膝
４０８−２右膝
４０９−１左足首
４０９−２右足首
４１１、４１２、４１４−１〜４１８−２、９０１、９０２線分
４１３垂線
５０１−１〜５０９−２特徴点
１５０１ＣＰＵ
１５０２メモリ
１５０３入力装置
１５０４出力装置
１５０５補助記憶装置
１５０６媒体駆動装置
１５０７ネットワーク接続装置
１５０８バス
１５０９可搬型記録媒体

Claims

人物が写っている画像を記憶する記憶部と、
前記画像から前記人物の頭部の幅を検出する検出部と、
前記頭部の幅に基づいて、前記人物の第１部位及び第２部位の間の長さを推定する推定部と、
前記第１部位及び前記第２部位の間の長さと、前記画像内における前記第１部位の位置及び前記第２部位の位置とに基づいて、前記第１部位の３次元位置及び前記第２部位の３次元位置を求める計算部と、
を備えることを特徴とする画像処理装置。
前記検出部は、前記画像から前記人物の左耳の位置及び右耳の位置を検出し、前記左耳の位置及び前記右耳の位置の間の距離を、前記頭部の幅として求めることを特徴とする請求項１記載の画像処理装置。
前記推定部は、前記頭部の幅に所定の係数を乗算することで、前記第１部位及び前記第２部位の間の長さを求めることを特徴とする請求項１又は２記載の画像処理装置。
前記検出部は、前記人物が所定の姿勢で写っている所定の画像から、前記人物の頭部の幅を検出するとともに、前記第１部位の位置及び前記第２部位の位置を検出し、前記所定の画像内における前記第１部位の位置及び前記第２部位の位置の間の距離を求め、前記推定部は、前記所定の画像から検出された頭部の幅と、前記所定の画像内における前記第１部位の位置及び前記第２部位の位置の間の距離とを用いて、前記所定の係数を決定することを特徴とする請求項３記載の画像処理装置。
前記第１部位の３次元位置及び前記第２部位の３次元位置を用いて、前記人物に対応する３次元モデルを生成する生成部をさらに備えることを特徴とする請求項１乃至４のいずれか１項に記載の画像処理装置。
人物が写っている画像から、前記人物の頭部の幅を検出し、
前記頭部の幅に基づいて、前記人物の第１部位及び第２部位の間の長さを推定し、
前記第１部位及び前記第２部位の間の長さと、前記画像内における前記第１部位の位置及び前記第２部位の位置とに基づいて、前記第１部位の３次元位置及び前記第２部位の３次元位置を求める、
処理をコンピュータに実行させるための画像処理プログラム。
コンピュータによって実行される画像処理方法であって、
前記コンピュータが、
人物が写っている画像から、前記人物の頭部の幅を検出し、
前記頭部の幅に基づいて、前記人物の第１部位及び第２部位の間の長さを推定し、
前記第１部位及び前記第２部位の間の長さと、前記画像内における前記第１部位の位置及び前記第２部位の位置とに基づいて、前記第１部位の３次元位置及び前記第２部位の３次元位置を求める、
ことを特徴とする画像処理方法。