JP6613876B2

JP6613876B2 - 姿勢推定装置、姿勢推定方法、およびプログラム

Info

Publication number: JP6613876B2
Application number: JP2015251996A
Authority: JP
Inventors: 正雄山中; 敏文西島
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2015-12-24
Filing date: 2015-12-24
Publication date: 2019-12-04
Anticipated expiration: 2035-12-24
Also published as: JP2017116403A

Description

本発明は、車両運転者の姿勢推定装置に関し、特に、車両運転者の状態を推定するうえで好適な車両運転者の姿勢推定装置に関する。

車両運転者の姿勢を推定する方法として、たとえば、特許文献１および非特許文献1の
ような方法が提案されている。特許文献１および非特許文献１では、あらかじめ距離センサーを用いて距離画像を抽出し、得られた距離画像中における着目点が人体の複数の部位（頭、肩、肘、手首など）のうち、どの部位に属するかをRandom Decision Forestsを用
いて高速に推定している。

また、車両運転者の姿勢を推定する方法として、たとえば、非特許文献2のような方法
が提案されている。非特許文献2では、体全体のアピアランス特徴だけでなく、頭部や肩
などの部位毎にアピアランス特徴を抽出し、各部位の位置関係を学習することで、姿勢変動に対する頑健性を獲得し、高精度な人体検出を実現している。

また、車両運転者の姿勢を推定する方法として、たとえば、特許文献2のような方法が
提案されている。特許文献2では、運転席およびその周辺を繰り返し撮影し、得られた画
像データに含まれる車両運転者の人体特徴点を検出する。また、得られた人体特徴点の位置の変化に基づいて、人体特徴点の位置（人体特徴点予測位置）を予測する。さらに、人体特徴点予測位置に基づいて、車両運転者の行動を予測し、得られた車両運転者の行動に基づいて、自己遮蔽が発生するか否かを判断する。ここで、自己遮蔽が発生すると判断された場合には、自己遮蔽用人体特徴点検出アルゴリズムを適用する。一方、自己遮蔽が発生しないと判断された場合には、自己遮蔽を考慮しない通常用人体特徴点検出アルゴリズムを適用する。このような適応的処理により、自己遮蔽に対する頑健性を獲得し、高精度な人体検出を実現している。

また、車両運転者の姿勢を推定する方法として、たとえば、非特許文献3のような方法
が提案されている。非特許文献3では、あらかじめ、画像中における人体の各部位（頭、
肩、肘、手首など）の位置とその部位の名称とが付与された大量の学習用画像を用意する。また、用意した大量の学習用画像を用いて、画像中における人物の各部位を検出するための識別器を構成する。ここで、識別器は、深層学習を用いて構成する。さらに、得られた識別器を用いて、画像中における人体の各部位を検出し、得られた複数の部位のうち、ある部位とまた別のある部位とを、人体の骨格モデルと照らし合わせ、適切に線分で結ぶことにより、画像中における人物の姿勢を推定している。

米国特許公開第2010-278384号明細書特開2011-123733号公報

J. Shotton et al., Real-time Human Pose Recognition in Parts from Single Depth Images, CVPR2011 P. F. Felzenszwalb et al., Object detection with discriminatively trained part based models, PAMI2010. Toshev et al., DeepPose: Human Pose Estimation via Deep Neural Networks, CVPR2014 M. Schwarz et al., RGB-D Object Recognition and Pose Estimation based on Pre-trained Convolutional Neural Network Features, ICRA2015 R. Achanta et al., SLIC superpixels, Technical report, EPFL2010. Y. Boykov et al., Interactive Graph Cuts for Optimal Boundary & Region Segmentation of Objects in N-D Images. ICCV2001 C. Rother et al., "Grab-Cut": Interactive Foreground Extraction Using Iterated Graph Cuts. SIGGRAPH2004

特許文献１および非特許文献１は、人体のそれぞれの領域がどの部位に属するかを判定している。したがって、人体の各領域がどの部位に属するかを示す学習データを用意しなければならないが、このような学習データを用意することが煩雑である。３Ｄモデルを使って学習データを作成することも行われているが、車両運転者の人体を３Ｄモデルで表すことは容易ではない。

また、非特許文献2のように、体全体のアピアランス特徴だけでなく、頭部や肩などの
部位毎にアピアランス特徴を抽出し、各部位の位置関係を学習する場合には、検出時における処理量が膨大となり、GPGPUなどの特殊なハードウェアを用いなければ、実時間処理
が困難であるという問題がある。

また、特許文献2のように、あらかじめ、自己遮蔽が発生するか否かを判断し、適応的
に処理を行う場合には、自己遮蔽の発生の有無を正確に判断することができなければ、推定精度が低下する問題がある。

また、非特許文献3のように、深層学習を用いて画像中における人物の各部位を検出す
るための識別器を構成する場合には、学習データの作成が比較的容易である。人物の各部位を指定するだけでよいからである。しかしながら、非特許文献3の手法では、人体の部
位の位置が直接推定されるので、画像中の人物の輪郭情報を抽出することができないという問題がある。

上記の実情を考慮して、本発明は、高速かつ精度良く車両運転者の姿勢情報を推定可能な技術を提供することを目的とする。

上記課題を解決するために、本発明の一態様に係る姿勢推定装置は、
車両内を撮影した車内画像と当該車内画像に対応する距離画像とに基づいて、前記車内画像における車両内の人物の人体の部位の位置を検出する人体部位検出手段と、
前記車内画像を複数の局所領域に分割する局所領域抽出手段と、
前記局所領域のうち少なくとも一つを前景候補領域として設定する前景候補領域設定手段と、
前記局所領域のうち少なくとも一つを背景候補領域として設定する背景候補領域設定手段と、
前記前景候補領域と前記背景候補領域とに基づいて、前記車内画像を前景領域と背景領域とに分割する前景背景分離手段と、
を備える、ことを特徴とする。

本発明の一態様に係る姿勢推定方法は、
コンピュータが実行する姿勢推定方法であって、
車両内を撮影した車内画像と当該車内画像に対応する距離画像とに基づいて、前記車内画像における車両内の人物の人体の部位の位置を検出する人体部位検出ステップと、
前記車内画像を複数の局所領域に分割する局所領域抽出ステップと、
前記局所領域のうち少なくとも一つを前景候補領域として設定する前景候補領域設定ステップと、
前記局所領域のうち少なくとも一つを背景候補領域として設定する背景候補領域設定ステップと、
前記前景候補領域と前記背景候補領域とに基づいて、前記車内画像を前景領域と背景領域とに分割する前景背景分離ステップと、
を含むことを特徴とする。

本発明によれば、車両運転者の姿勢を高速かつ精度良く推定することができる。

第1の実施形態に係る姿勢推定装置の機能構成図。車両運転者を撮影した車両内画像の例を示す図。人体部位検出部による人体部位の検出結果の例を示す図。人体部位連結部による人体部位の連結結果の例を示す図。局所領域抽出部による局所領域への分割結果の例を示す図。前景候補領域設定部による前景候補領域の設定結果の例を示す図。前景候補領域設定部が行う前景候補領域設定処理を説明する図。背景候補領域設定部による背景候補領域の設定結果の例を示す図。背景候補領域設定部が行う背景候補領域設定処理を説明する図。前景背景分離部による処理結果の例を示す図。部位輪郭重畳部による人体部位と輪郭情報を重畳した姿勢推定結果の例を示す図。第2の実施形態に係る姿勢推定装置の機能構成図粒度の異なる複数の局所領域への分割結果を示す図。各粒度の局所領域分割結果に対する、前景および背景の候補領域の設定結果の例を示す図。各粒度の局所領域分割結果に対する、前景と背景の分離結果の例を示す図。

（第1の実施形態）
本発明の第1の実施形態について、図1〜図12を参照して説明する。

図1(A)は、本発明の第1の実施形態に係る姿勢推定装置1の概略構成を示すブロック図である。本実施形態に係る姿勢推定装置は、半導体集積回路(LSI)を用いて実現できる。こ
こで、姿勢推定装置1は、図1(A)に示すように、画像情報抽出部11と、奥行情報抽出部12
と、人体部位検出部13と、人体部位連結部14と、姿勢情報抽出部15と、を有する。これらの構成要素は姿勢推定装置1が果たす機能にそれぞれ対応している。

画像情報抽出部11は、図2のように、姿勢推定装置1の外部から入力される車両内の画像（以下、車両内画像）を取得し、得られた時刻tにおける車両内画像I(t)を人体部位検出
部13および人体部位連結部14に出力する。車両内画像は、車内カメラから取得されても良いし、通信あるいは記憶媒体を介して取得されても良い。

奥行情報抽出部12は、車両内の奥行情報（以下、車両内奥行情報）を取得し、得られた時刻tにおける車両内奥行情報D(t)を人体部位検出部13および人体部位連結部14に出力す
る。車両内奥行き情報は、車内の距離センサーから取得されても良いし、通信あるいは記憶媒体を介して取得されても良い。なお、車両内画像と車両内奥行情報は、同じ画素（位置）が被写体の同一個所の色情報および奥行き情報を示すように調整されているものとする。

人体部位検出部13は、図3のように、画像情報抽出部11で得られた車両内画像I(t)と、
奥行情報抽出部12で得られた車両内奥行情報D(t)とに基づいて、車両内の人物のM個の部
位の座標(x_m(t),y_m(t),z_m(t)) (m=1,2,…,M)を検出する。ここで、x_m(t)は、時刻tでのm
番目の部位（以下、部位mと称する）の車両内画像I(t)における水平方向座標を表す。ま
た、y_m(t)は、時刻tでの部位mの車両内画像I(t)における垂直方向座標を表す。同様に、z_m(t)は、時刻tでの部位mの車両内画像I(t)における奥行方向座標を表し、車両内奥行情報D(t)の座標(x_m(t),y_m(t))における値で与えられる。

具体的には、車両内の人物のM個の部位の座標(x_m(t),y_m(t),z_m(t)) (m=1,2,…,M)は、
たとえば、非特許文献3のように、あらかじめ、車両内の人物のM個の部位の座標(x_m(t),y_m(t),z_m(t)) (m=1,2,…,M)と、その部位の名称とが付与された学習用の画像を用いて、深層学習により車両内における人物のM個の部位の座標(x_m(t),y_m(t),z_m(t)) (m=1,2,…,M)
を検出するための識別器C₁を構成し、得られた識別器C₁を用いて、車両内における人物のM個の部位の座標(x_m(t),y_m(t),z_m(t)) (m=1,2,…,M)を検出すればよい。

あるいは、車両内の人物のM個の部位の座標(x_m(t),y_m(t),z_m(t)) (m=1,2,…,M)は、た
とえば、非特許文献4のように、あらかじめ、車両内の人物のM個の部位の座標(x_m(t),y_m(t),z_m(t)) (m=1,2,…,M)と、その部位の名称とが付与された学習用の画像とその奥行情報とを用いて、深層学習により車両内における人物のM個の部位の座標(x_m(t),y_m(t),z_m(t))
(m=1,2,…,M)を検出するための識別器C₂を構成し、得られた識別器C₂を用いて、車両内
における人物のM個の部位の座標(x_m(t),y_m(t),z_m(t)) (m=1,2,…,M)を検出してもよい。

このような識別器を生成するために必要な学習データは、車両内画像と車両内奥行情報と、人体の各部位の位置の正解のみである。すなわち、学習データには、人体の各領域がどの部位に属するかの指定が不要である。このような学習データを用意することは比較的容易である。

人体部位連結部14は、図4のように、画像情報抽出部11で得られた車両内画像I(t)と、
奥行情報抽出部12で得られた車両内奥行情報D(t)と、人体部位検出部13で得られた車両内の人物のM個の部位の座標(x_m(t),y_m(t),z_m(t)) (m=1,2,…,M)とに基づいて、人体の部位
間を適切に線分で連結し、人体の骨格モデルB(t)を生成する。

図4の例では、M=10であり、図中の数字は部位番号mを表す。具体的には、部位1は頭、
部位2は右肩、部位3は肩中央、部位4は左肩、部位5は右肘、部位6は右尻、部位7は左尻、部位8は左肘、部位9は右手、部位10は左手である。

また、これらの部位間を線分で連結する際は、ある部位に着目し、その部位から見て測地線距離（実空間での距離）が1番目に近い部位と、2番目に近い部位とを線分で結べばよい。たとえば、図4において、部位5に着目した場合、ユークリッド距離（画像内での距離）で1番目に近いのは部位6であるが、測地線距離で1番目に近いのは部位2であり、2番目
に近いのは、部位9である。よって、部位5は、部位2および部位9と線分で結ばれる。同様に、部位7に着目した場合、ユークリッド距離で1番目に近いのは部位8であるが、測地線
距離で1番目に近いのは部位6であり、2番目に近いのは部位4である。よって、部位7は、
部位6および部位4と線分で結ばれる。その他の部位に対しても同様である。ただし、端にある部位1、部位9、部位10はその例外であり、それぞれ測地線距離で最も近い1つの部位
と連結される。

姿勢情報抽出部15は、図1(B)のように、局所領域抽出部151と、前景候補領域設定部152と、背景候補領域設定部153と、前景背景分離部154と、部位輪郭重畳部155とから構成さ
れる。ここで、姿勢情報抽出部15は、画像情報抽出部11で得られた車両内画像I(t)と、奥行情報抽出部12で得られた車両内奥行情報D(t)と、人体部位連結部14で得られた人体の骨格モデルB(t)とに基づいて、時刻tにおける車両内の人物の姿勢情報P(t)を抽出する。以
下にその詳細を述べる。

局所領域抽出部151は、車両内画像I(t)を、その中での各点での特徴量が類似する連続
した局所領域に分割する。特徴量として、色または輝度および奥行き情報を用いることができる。図5は、局所領域抽出部151による局所領域への分割結果を示す。局所領域抽出部151は、車両内画像I(t)をN個の局所領域R_n(n=1,2,…,N)に分割し、前景候補領域設定部152および背景候補領域設定部153に出力する。各局所領域に含まれる各点の奥行き情報はほぼ同一であり、したがって、各局所領域は車両内画像I(t)の前景と背景との境界を跨がない。ここで、N個の局所領域R_n(n=1,2,…,N)は、たとえば、非特許文献5を用いて設定す
ることができる。

前景候補領域設定部152は、図6のように、人体部位連結部14で得られた人体の骨格モデルB(t)と、局所領域抽出部151で得られたN個の局所領域R_n(n=1,2,…,N)とに基づいて、車両内画像I(t)および車両内奥行情報D(t)におけるK個の前景領域F_k(k=1,2,…,K)を設定し
、背景候補領域設定部153と前景背景分離部154とに出力する。

具体的には、図7のように、N個の局所領域R_n(n=1,2,…,N)のうち、人体部位連結部14で得られた人体の部位間を結ぶ線分が通る（当該線分と交わる）局所領域と、これらの線分に囲まれた（包含された）局所領域とを前景領域として設定すればよい。たとえば、図7
の例では、線分1-3（部位1と部位3を結ぶ線分。以下同様）が通る局所領域としてF₁ とF₂、線分2-3が通る局所領域としてF₃、線分3-4が通る局所領域としてF₄、線分2-5が通る局
所領域としてF₆、線分5-9が通る局所領域としてF₁₀とF₁₂、線分4-8が通る局所領域としてF₉、線分8-10が通る局所領域としてF₁₁とF₁₃、さらに、線分2-3と線分3-4と線分4-7と線
分7-6と線分6-2の5辺の線分に囲まれる局所領域としてF₅、このように合計13個（K=13）
の局所領域が前景領域として設定される。このように、前景と背景との境界を跨がない複数の局所領域に分割し、前景領域に対する複数の候補領域を指定することで、前景領域に対するより多くの情報を正確に抽出することができる。

背景候補領域設定部153は、図8のように、前景候補領域設定部152で得られたK個の前景領域F_k(k=1,2,…,K)に基づいて、車両内画像I(t)および車両内奥行情報D(t)におけるL個
の背景領域B_l(l=1,2,…,L)を設定する。

具体的には、図9のように、背景領域B_l(l=1,2,…,L)は、前景領域F_k(k=1,2,…,K)をそ
の内部に含む連続した局所領域群のうちで、それらの局所領域の各々の重心位置を通る経路が最短となる局所領域群を背景領域として設定すればよい。たとえば、図8の例では、19個（L=19）の局所領域群が背景領域として設定される。この処理は、前景領域F_kに隣接
する局所領域を暫定的に背景領域群に設定し、重心位置を通る経路が最短となるように背景領域群を修正していくことによって行える。このように、前景と背景との境界を跨がない複数の局所領域に分割し、背景領域に対する複数の候補領域を指定することで、背景領域に対するより多くの情報を正確に抽出することができる。

前景背景分離部154は、図10のように、画像情報抽出部11で得られた車両内画像I(t)と
、奥行情報抽出部12で得られた車両内奥行情報D(t)と、前景候補領域設定部152で得られ
たK個の前景領域F_k(k=1,2,…,K)と、背景候補領域設定部153で得られたL個の背景領域B_l(l=1,2,…,L)とに基づいて、車両内の人物の輪郭情報S(t)を抽出する。輪郭情報S(t)は、
車両内画像I(t)の各画素が人物領域（S(t)=1）であるか背景領域（S(t)=0）であるかを表す情報である。図10において、点線領域は、車両内の人物領域S(t)=1を表し、点線領域以外の領域は、車両内の背景領域S(t)=0を表す。

ここで、車両内の人物の輪郭情報S(t)は、たとえば、非特許文献6,7などの既存の前景
抽出技術を用いて抽出することができる。

一般に、非特許文献6および非特許文献7の前景抽出処理では、あらかじめ、ユーザーが画像中の前景と背景の候補領域を手作業で入力し、得られた前景および背景の候補領域の各々に基づいて、画像全体を前景領域と背景領域の2つの領域に分離する。一方、本実施
形態によれば、あらかじめユーザーが前景および背景の候補領域を手作業で入力することなく、自動で画像全体を前景領域（すなわち、車両内の人物領域）とその背景領域に分離することが可能となる。

また、非特許文献6および非特許文献7では、ユーザーによる前景および背景の候補領域の指定は、線分として入力される。そのため、前景および背景領域における特徴をうまく抽出できない場合がある。一方、本実施形態によれば、前景と背景との境界を跨がない複数の局所領域に分割し、前景および背景領域に対する複数の候補領域を指定することで、前景および背景領域に対するより多くの情報を正確に抽出することができ、非特許文献6
および非特許文献7を用いて精度よく画像全体を前景（すなわち、車両内の人物領域）と
その背景領域に分離することが可能となる。

部位輪郭重畳部155は、図11のように、人体部位連結部14で得られた車両内の人物の骨
格モデルB(t)と、前景背景分離部154で得られた車両内の人物の輪郭情報S(t)とを重畳し
、車両内の人物の姿勢推定結果P(t)を生成する。

このようにして得られた車両内の人物の姿勢推定結果P(t)は、姿勢推定装置1を活用す
るより上位の装置に伝達され、車両内の人物の姿勢情報を入力とする様々なアプリケーションに適用される。たとえば、車両運転者の体格（大柄なのか小柄なのか）に応じたエアバッグの制御などに適用される。

本実施形態によれば、人体の各部位の位置と輪郭情報とを含む姿勢推定結果を得ることができる。人体の各部位の検出に部位位置を直接推定する識別器を利用しており、これにより、学習データの準備が容易になるという利点と、各部位位置の推定が容易であるという利点が得られる。ただし、この場合、人体の各部位の位置が検出され、人体の輪郭が検出されない。本実施形態では、検出された部位位置から、前景（人体領域）と背景の候補を推定し、これを入力として前景抽出処理により前景（人体領域）を抽出している。候補領域をユーザーが自ら行う必要がないという利点と、線分ではなく局所領域単位で候補領域を指定しているため精度の良い前景抽出が行えるという利点がある。

本実施形態は例示に過ぎず、種々の変形が可能である。例えば、上記の説明では、局所領域の中から前景候補を設定する際に、できるだけ多くの前景候補を設定するようにしている。こうすることで精度の良い輪郭情報の抽出が行えるが、必ずしも上記のようにして前景候補を設定する必要はない。例えば、上記の実施形態で説明した条件を満たす局所領域のうちの一部のみを前景候補としても良い。背景候補も、上記の方法以外によって設定しても良い。例えば、重心を結ぶ経路が最短になるようにするという条件を除外して背景
候補を設定しても良い。また、奥行き情報から背景であると推定できる領域を背景候補に設定しても良い。

（第2の実施形態）
本発明の第2の実施形態について、図12〜図15を参照して説明する。

図12(A)は、本発明の第2の実施形態に係る姿勢推定装置2の概略構成を示すブロック図
である。本実施形態に係る姿勢推定装置は、半導体集積回路(LSI)を用いて実現できる。
ここで、姿勢推定装置2は、図12(A)に示すように、画像情報抽出部21と、奥行情報抽出部22と、人体部位検出部23と、人体部位連結部24と、姿勢情報抽出部25と、を有する。これらの構成要素は姿勢推定装置2が果たす機能にそれぞれ対応している。なお、本実施形態
においては、第1の実施形態との相違箇所のみ言及する。

第1の実施形態では、姿勢情報抽出部15において、車両内画像I(t)をN個の局所領域R_n(n=1,2,…,N)に分割し、得られたN個の局所領域R_n(n=1,2,…,N)のみに基づいて、車両内の
人物の輪郭情報S(t)を抽出している。すなわち、第1の実施形態では、1つの局所領域群に基づいて人物の輪郭情報S(t)を抽出している。これに対して、本実施形態では、粒度が異なる複数の局所領域群を作成し、これら複数の局所領域群を用いて人物の輪郭情報S(t)を抽出する。

より具体的には、本実施形態では、車両内画像I(t)をN₁個の局所領域R_1n(n=1,2,…,N₁)に分割し、得られたN₁個の局所領域R_1n(n=1,2,…,N₁)に基づいて、車両内の人物の輪郭情報S₁(t)を抽出する。また、車両内画像I(t)をN₂個（N₂>N₁）の局所領域R_2n(n=1,2,…,N₂)に分割し、得られたN₂個の局所領域R_2n(n=1,2,…,N₂)に基づいて、車両内の人物の輪郭情報S₂(t)を抽出する。さらに、車両内画像I(t)をN₃個（N₃>N₂）の局所領域R_3n(n=1,2,…,N₃)に分割し、得られたN₃個の局所領域R_3n(n=1,2,…,N₃)に基づいて、車両内の人物の輪郭情報S₃(t)を抽出する。このようにして得られた車両内の人物に対する複数の輪郭情報S₁(t)と、S₂(t)と、S₃(t)とを適切に統合することで、最終的な車両内の人物の輪郭情報S(t)を抽出する点に特徴がある。なお、ここでは、粒度の異なる3つの局所領域R_1n(n=1,2,…,N₁)、R_2n(n=1,2,…,N₂)、R_3n(n=1,2,…,N₃)、を設定したが、それ3つ以上あるいは3つ以
下の局所領域群を設定しても構わない。

姿勢情報抽出部25は、図12(B)のように、局所領域抽出部251と、前景候補領域設定部252と、背景候補領域設定部253と、前景背景分離部254と、輪郭情報統合部255と、部位輪郭重畳部256とから構成される。ここで、姿勢情報抽出部25は、画像情報抽出部21で得られ
た車両内画像I(t)と、奥行情報抽出部22で得られた車両内奥行情報D(t)と、人体部位連結部24で得られた人体の骨格モデルB(t)とに基づいて、時刻tにおける車両内の人物の姿勢
情報P(t)を抽出する。以下にその詳細を述べる。

局所領域抽出部251は、図13(A)-13(C)のように、車両内画像I(t)を前景と背景との境界を跨がないN₁個の局所領域R_1n(n=1,2,…,N₁)と、N₂個（N₂> N₁）の局所領域R_2n(n=1,2,…,N₂)と、N₃個（N₃> N₂）の局所領域R_3n(n=1,2,…,N₃)とに各々分割し、前景候補領域設定部252および背景候補領域設定部253とに出力する。

前景候補領域設定部252は、図14(A)-14(C)のように、人体部位連結部24で得られた人体の骨格モデルB(t)と、局所領域抽出部251で得られたN₁個の局所領域R_1n(n=1,2,…,N₁)と
、N₂個の局所領域R_2n(n=1,2,…,N₂)と、N₃個の局所領域R_3n(n=1,2,…,N₃)とに基づいて、車両内画像I(t)および車両内奥行情報D(t)におけるK₁個の前景領域F_1k(k=1,2,…,K₁)と、K₂個の前景領域F_2k(k=1,2,…,K₂)と、K₃個の前景領域F_3k(k=1,2,…,K₃)とを各々設定し、背景候補領域設定部253と前景背景分離部254とに出力する。

輪郭情報統合部255は、図15(A)-15(C)のように、前景背景分離部254で得られた、局所
領域R_1n(n=1,2,…,N₁)による車両内の人物の輪郭情報S₁(t)と、局所領域R_2n(n=1,2,…,N₁)による車両内の人物の輪郭情報S₂(t)と、局所領域R_3n(n=1,2,…,N₁)による車両内の人物の輪郭情報S₃(t)とを投票により統合し、車両内の人物の輪郭情報S(t)を生成する。

具体的には、車両内画像I(t)における着目点(x,y)において、S₁(t)=1で、かつS₂(t)=1
で、かつS₃(t)=1が成立するとき、投票数は3/3となり、着目点(x,y)においてS(t)=1とす
ればよい。また、車両内画像I(t)における着目点(x,y)において、S₁(t)=1で、かつS₂(t)=1で、かつS₃(t)=0が成立するとき、投票数は2/3となり、着目点(x,y)においてS(t)=1とすればよい。また、車両内画像I(t)における着目点(x,y)において、S₁(t)=1で、かつS₂(t)=0で、かつS₃(t)=1が成立するとき、投票数は2/3となり、着目点(x,y)においてS(t)=1とすればよい。また、車両内画像I(t)における着目点(x,y)において、S₁(t)=0で、かつS₂(t)=1で、かつS₃(t)=1が成立するとき、投票数は2/3となり、着目点(x,y)においてS(t)=1とすればよい。また、それ以外の場合は、投票数は2/3以下となり、着目点(x,y)においてS(t)=0とすればよい。

ここでは、単純な多数決に基づいて人物領域か否かを判定しているが、重み付き多数決によって人物領域か否かを判定してもよい。それぞれの輪郭情報S_n(t)に対する重みは適
宜決めれば良く、例えば、複数の輪郭情報S_n(t)と人物領域か否かを表す情報からなる学
習データをもとに学習処理によって決定することが考えられる。

（変形例）
上記の実施形態の説明は本発明の一例に過ぎず、本発明は上記実施形態に限定されず、種々の変形が可能である。

本発明は、半導体集積回路(LSI)による実装に限定されず、ＣＰＵなどのプロセッサー
を有するコンピュータがプログラムを実行することにより実装されても良い。

1…姿勢推定装置
11…画像情報抽出部
12…奥行情報抽出部
13…人体部位検出部
14…人体部位連結部
15…姿勢情報抽出部

Claims

車両内を撮影した車内画像と当該車内画像に対応する距離画像とに基づいて、前記車内画像における車両内の人物の人体の部位の位置を検出する人体部位検出手段と、
前記車内画像を複数の局所領域に分割する局所領域抽出手段と、
前記局所領域のうち少なくとも一つを、前記人物に対応する領域の候補である前景候補領域として設定する前景候補領域設定手段と、
前記局所領域のうち少なくとも一つを、前記人物に対応しない領域の候補である背景候補領域として設定する背景候補領域設定手段と、
前記前景候補領域と前記背景候補領域とに基づいて、前記車内画像を、前記人物に対応する領域である前景領域と、前記人物に対応しない領域である背景領域とに分割する前景背景分離手段と、
を備える姿勢推定装置。
前記人体部位検出手段によって検出された人体の部位と、前記前景背景分離手段によって取得された前記前景領域とを、重畳して出力する重畳手段を、さらに備える、
請求項１に記載の姿勢推定装置。
前記前景候補領域設定手段は、人体の部位間を結ぶ線分が通る局所領域、および人体の部位間を結ぶ線分によって囲まれる局所領域を、前記前景候補領域として設定する、
請求項１または２に記載の姿勢推定装置。
前記人体部位検出手段によって検出された人体の部位を連結する人体部位連結手段であって、人体の部位の３次元位置に基づいて人体の部位を連結する人体部位連結手段をさらに備える、
請求項３に記載の姿勢推定装置。
前記背景候補領域設定手段は、前記前景候補領域をその内部に含む局所領域群を前記背景候補領域として設定する、
請求項１から４のいずれか１項に記載の姿勢推定装置。
前記背景候補領域設定手段は、前記前景候補領域をその内部に含む領域であって、各局所領域の重心を結ぶ経路が最小となる領域を、前記背景候補領域として設定する、
請求項５に記載の姿勢推定装置。
前記人体部位検出手段は、人体が撮影された画像と当該画像に対応する距離画像と、前記画像における人体の部位の正解位置とからなる学習データを用いて学習された識別器を用いて、人体の部位の位置を検出する、
請求項１から６のいずれか１項に記載の姿勢推定装置。
前記局所領域抽出手段は、各局所領域内で、前記車内画像の色情報または輝度情報が類似し、かつ、前記距離画像における奥行情報が類似するように、前記車内画像を複数の局所領域に分割する、
請求項１から７のいずれか１項に記載の姿勢推定装置。
前記局所領域抽出手段は、前記車内画像を、粒度が異なる複数の局所領域群に分割し、
前記複数の局所領域群のそれぞれに基づいて、前記前景候補領域設定手段、前記背景候補領域設定手段、および前記前景背景分離手段によって、前記車内画像を前景領域と背景領域に分割し、
前記複数の局所領域群からそれぞれ求められる前景領域と背景領域の分割結果を統合して、最終的な前景領域と背景領域の分割結果を取得する、
請求項１から８のいずれか１項に記載の姿勢推定装置。
コンピュータが実行する姿勢推定方法であって、
車両内を撮影した車内画像と当該車内画像に対応する距離画像とに基づいて、前記車内画像における車両内の人物の人体の部位の位置を検出する人体部位検出ステップと、
前記車内画像を複数の局所領域に分割する局所領域抽出ステップと、
前記局所領域のうち少なくとも一つを、前記人物に対応する領域の候補である前景候補領域として設定する前景候補領域設定ステップと、
前記局所領域のうち少なくとも一つを、前記人物に対応しない領域の候補である背景候補領域として設定する背景候補領域設定ステップと、
前記前景候補領域と前記背景候補領域とに基づいて、前記車内画像を、前記人物に対応する領域である前景領域と、前記人物に対応しない領域である背景領域とに分割する前景背景分離ステップと、
を含む姿勢推定方法。
請求項１０に記載の方法の各ステップをコンピュータに実行させるためのプログラム。