JP6452324B2

JP6452324B2 - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP6452324B2
Application number: JP2014114401A
Authority: JP
Inventors: 裕美塩崎; 敦史野上; 優和真継
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-06-02
Filing date: 2014-06-02
Publication date: 2019-01-16
Anticipated expiration: 2034-06-02
Also published as: JP2015228188A; US20150350579A1; US9531969B2

Description

本発明は、画像の処理を行う画像処理装置及び画像処理方法、並びに、当該画像処理方法をコンピュータに実行させるためのプログラムに関するものである。

従来から、画像からの物体認識、物体検出、姿勢推定等の技術は広く使用されており、様々な提案がなされている。これらの技術は、一般的に画像中からの特徴量を抽出して識別を行うことで実現されている。様々な特徴量算出及び識別方法がある中で、精度と速度の両面を考えた場合の有力な方法の１つとして、下記の特許文献１の技術がある。この特許文献１では、画像から所定の特徴点対の組み合わせを抽出し、その各画素値を取得し、各特徴点対で画素値の比較を行うことで、特徴量を生成する。そして、特許文献１では、この特徴量に対して、カスケード構造やツリー型構造の識別器を使って、物体検出を行う。

特表２０１１−５０８３２５号公報

各特徴点間の比較で識別を行う特許文献１の技術では、特徴点間の変化量のみを使用するため、ノイズの大きい画像においては、各特徴点にノイズが含まれ、画像処理の精度劣化の原因となり得る。

本発明は、このような問題点に鑑みてなされたものであり、ノイズのある画像においても、画像処理の精度劣化を抑制する仕組みを提供することを目的とする。

本発明の画像処理装置は、画像から対象領域を抽出する抽出手段と、前記対象領域に含まれる画素の画素値に基づいて複数の基準値を算出する算出手段と、前記複数の基準値の中からいずれか１つを選択し、当該選択した１つの基準値と前記画像における複数の画素の画素値とを比較する比較手段と、前記比較手段の比較結果に基づいて、前記対象領域の画素の中から設定された注目画素の情報を決定する決定手段と、を有する。
また、本発明の画像処理装置における他の態様は、画像から対象領域を抽出する抽出手段と、前記対象領域に含まれる画素の画素値に基づいて複数の基準値を算出する算出手段と、前記画像における複数の画素のそれぞれの画素値と前記複数の基準値のそれぞれとを比較する比較手段と、前記比較手段による比較結果に基づいて、前記複数の基準値から１つの基準値を選択する選択手段と、を有する。
また、本発明は、上述した画像処理装置による画像処理方法、及び、当該画像処理方法をコンピュータに実行させるためのプログラムを含む。

本発明によれば、ノイズのある画像においても、画像処理の精度劣化を抑制することができる。

本発明の第１の実施形態に係る画像処理装置の概略構成の一例を示す図である。本発明の第１の実施形態に係る画像処理装置による画像処理方法の処理手順の一例を示すフローチャートである。本発明の第１の実施形態を示し、図１の注目画素設定部、比較対象画素選択部、比較部の処理を説明するための図である。本発明の第２の実施形態及び第３の実施形態を示し、使用する基準値の算出方法を説明するための図である。本発明の第１の実施形態を示し、最終部位推定位置の出力形態の一例を示す図である。本発明の第３の実施形態に係る画像処理装置による画像処理方法の処理手順の一例を示すフローチャートである。本発明の第４の実施形態に係る画像処理装置による画像処理方法の処理手順の一例を示すフローチャートである。本発明の第４の実施形態に係る画像処理装置による画像処理方法の処理手順であって学習時の処理手順の一例を示すフローチャートである。

以下に、図面を参照しながら、本発明を実施するための形態（実施形態）について説明する。なお、以下に説明する本発明の実施形態では、本発明における画像処理の対象領域として、人体領域を適用した例について説明を行うが、本発明においてはこれに限定されるものではない。

（第１の実施形態）
まず、本発明の第１の実施形態について説明する。

本実施形態では、人物を撮影したデプスカメラから深度画像を得て、当該深度画像を画像処理することにより当該人物の姿勢を推定する例について説明する。この際、深度画像の人体領域の各点（各注目画素）ごとに、事前に学習した配置にある画素（比較対象画素）の画素値と人体領域に含まれる画素値に基づき算出した基準値とを比較することにより、予め学習して作成したテーブルを参照して対応する部位との相対関係を取得して、人体の各部位の位置を推定する。

以後の実施形態の説明において、人物の姿勢を推定するとは、人体の各部位の位置を推定することである。各部位は、人体を構成するパーツであっても、パーツの一部分であっても、関節であってもよい。その際、求める部位の位置は、２次元だけでなく、３次元も含む。

＜構成＞
図１は、本発明の第１の実施形態に係る画像処理装置の概略構成の一例を示す図である。画像処理装置１０００は、図１に示すように、学習部１００１、画像入力部１０１０、対象領域抽出部１０２０、注目画素設定部１０３０、比較対象画素選択部１０４０、基準値算出部１０５０、比較部１０６０、変換テーブル１０７０、変換部１０８０、及び、出力部１０９０を有して構成されている。また、学習部１００１は、学習画像入力部１０１１、対象領域抽出部１０２１、注目画素設定部１０３１、比較対象画素選択部１０４１、基準値算出部１０５１、比較部１０６１、評価値算出部１０６２、基準値決定部１０６３、及び、部位相対位置集計部１０６４を有して構成されている。なお、画像処理装置１０００は、学習部１００１を含まない構成であってもよく、この場合、例えば、学習部１００１は、他の画像処理装置に構成されることになる。

この図１に示す画像処理装置１０００の各構成部における具体的な処理については、図２等に示すフローチャートとともに説明を行う。

本発明の実施形態に係る画像処理装置１０００は、ネットワークまたは各種記録媒体を介して取得したソフトウェア（プログラム）を、ＣＰＵ、メモリ、ストレージデバイス、入出力装置、バス、表示装置等により構成される計算機にて実行することで実現できる。また、不図示の計算機については、汎用の計算機を用いてもよいし、ソフトウェアに最適に設計されたハードウェアを用いてもよい。

＜処理の詳細＞
図２は、本発明の第１の実施形態に係る画像処理装置による画像処理方法の処理手順の一例を示すフローチャートである。図１及び図２を用いて、本実施形態に係る画像処理装置１０００の処理を説明する。ここで、図２には、人物の姿勢を推定する場合の処理が示されている。

図２のステップＳ２０１において、図１の画像入力部１０１０は、深度画像の入力を行う。ここで、深度画像は、画像中の各画素に奥行き方向の距離情報が所定のスケーリングで画素値として記録された画像である。この深度画像は、上述したデプスカメラから取得して入力してもよいし、予め撮影して保存しておいた深度画像ファイル２２１を読み込んで入力してもよい。具体的に、図１の画像入力部１０１０は、取得した深度画像を対象領域抽出部１０２０に入力する。また、図１の学習部１００１の学習画像入力部１０１１は、画像入力部１０１０と同様の処理を行うが、入力する画像は学習用に予め用意された学習画像を使用する。

続いて、図２のステップＳ２０２において、図１の対象領域抽出部１０２０は、ステップＳ２０１で入力された深度画像の中から画像処理の対象領域を抽出する。本実施形態では、対象領域が人体領域の場合について説明する。

人体領域の抽出処理では、まず、図１の対象領域抽出部１０２０は、深度画像に対して背景差分処理を行うことにより、前景候補画素、即ちここでは人体を抽出する。
このままでも使用できるが、より精度よく抽出する場合、次いで、図１の対象領域抽出部１０２０は、前景候補画素の深度値をカメラ座標系（３次元座標系）の点群へと変換する。そして、図１の対象領域抽出部１０２０は、３次元の点群の固まりの重心位置を求め、重心位置周辺の点群のうち、人体サイズに収まる範囲に存在する点を人体領域とする。このとき、人体サイズは、予め学習しておいた人体の平均サイズや最大サイズ等を使用して決めることができる。また、床との接地部分については、平面推定を行う等することにより、床と人体との境界を決定し、人体領域を決定することができる。そして、図１の対象領域抽出部１０２０は、人体領域とラベル付けされた点群のみを再び画像平面に投影することにより、人体領域が抽出された深度画像を取得することができる。
なお、人体領域の抽出方法は、この態様に限らず公知の方法を用いてもよい。そして、図１の対象領域抽出部１０２０は、抽出した人体領域部分の深度画像を基準値算出部１０５０と注目画素設定部１０３０に送る。図１の学習部１００１の対象領域抽出部１０２１は、処理対象の画像は異なるが、その処理内容は対象領域抽出部１０２０と同様である。

続いて、図２のステップＳ２０３において、図１の基準値算出部１０５０は、ステップＳ２０２で抽出された対象領域である人体領域部分の深度画像に含まれる画素の画素値に基づいて基準値２３１を算出する。例えば、図１の基準値算出部１０５０は、基準値２３１として、人体領域部分の深度画像に含まれる全ての画素の画素値（深度値）から平均値を算出する。ここでは、基準値２３１として当該平均値を用いた説明を行うが、基準値２３１は、人体領域部分の深度画像に含まれる画素の画素値から算出した基準となる値であればよく、平均値の他にも、例えば、中央値や代表値等を用いることも可能である。さらには、人体領域部分の深度画像に含まれる画素の画素値（深度値）のヒストグラムを生成して、頻度の高い画素値からランダムに基準値２３１を決定する等してもよい。

また、基準値２３１の算出において、必ずしも、ステップＳ２０２で抽出された人体領域部分の深度画像に含まれる全ての画素の画素値（深度値）を使用する必要はない。例えば、ステップＳ２０２で抽出された人体領域部分の深度画像において、数画素に１画素だけの画素値を用いて基準値２３１を算出してもよく、また、全体の何割かをサンプリングして当該サンプリングした画素の画素値を用いて基準値２３１を算出してもよい。なお、基準値２３１の算出方法は、ここに挙げたものに限定されるものではない。

また、基準値２３１は、１枚の画像中では共通であるが、画像間では異なり、画像間での補正の役割を果たす。さらに、ノイズを多く含む画像でも、基準値２３１を人体領域全体から生成することにより、ノイズの影響を低減することができる。そして、図１の基準値算出部１０５０は、算出した基準値２３１を比較部１０６０に送る。図１の学習部１００１の基準値算出部１０５１は、処理対象の画像は異なるが、その処理内容は基準値算出部１０５０と同様である。

以降の図２のステップＳ２０４〜Ｓ２１１は、図２のステップＳ２０５で設定される各注目画素ごとに繰り返し処理を行うものである。

図２のステップＳ２０５において、図１の注目画素設定部１０３０は、ステップＳ２０２で抽出された対象領域である人体領域部分の深度画像の中から或る画素を注目画素として設定する。この設定処理は、人体領域部分の深度画像の中から或る画素を順次選択し、注目画素として順次設定するものである。ここで、人体領域部分の深度画像の中から或る画素を順次選択すると述べたが、必ずしも人体領域部分の全ての画素を選択する必要はなく、数画素に１画素の間隔で選択してもよいし、ある部分を集中して選択してもよい。また、選択する単位として画素としているが、１画素というだけでなく、数画素のまとまり等であってもよい。図３を用いて説明する。

図３は、本発明の第１の実施形態を示し、図１の注目画素設定部１０３０、比較対象画素選択部１０４０、比較部１０６０の処理を説明するための図である。

図３（ａ）には、人体領域部分が示されており、また、部分３００は、当該人体領域部分の或る部分である。
また、図３（ｂ）の部分３１０は、図３（ａ）に示す部分３００を拡大表示したものであり、或る画素を注目画素３１２として設定した様子が示されている。ここで、設定した注目画素３１２の情報は、比較対象画素選択部１０４０に送られる。また、図３（ｂ）には、基準値算出部１０５０で算出された基準値２３１に相当する基準値３１１に係る情報が示されている。

また、図１の学習部１００１の注目画素設定部１０３１は、処理対象の画像は異なるが、注目画素を設定する処理内容は注目画素設定部１０３０と同様である。なお、学習時は、多くのバリエーションのある姿勢や微小な動きの変化を含む姿勢等、大量の画像を使用することが多い。そのため、十分なメモリ容量が確保できないような場合には、必ずしも人体領域部分の全ての画素を注目画素として設定する必要はない。

以降の図２のステップＳ２０６〜Ｓ２０９は、図２のステップＳ２０７で選択される各比較対象画素ごとに繰り返し処理を行うものである。

図２のステップＳ２０７において、図１の比較対象画素選択部１０４０は、ステップＳ２０５で設定された注目画素から学習した配置にある画素を比較対象画素として選択する。具体的に、比較対象画素選択部１０４０は、ステップＳ２０５で設定された注目画素をもとに比較パラメータ２２２を使用して比較対象画素を選択する。この比較パラメータ２２２には、学習時に使用した注目画素と比較対象画素との配置関係が保存されている。本実施形態では、この比較パラメータ２２２を利用して、図３（ｂ）に示すように、現在設定している注目画素３１２と対応する比較対象画素３１３を選択して決定する。そして、図１の比較対象画素選択部１０４０は、選択した比較対象画素３１３の画素値である比較対象画素値２３２を取得する。

また、図３（ｂ）では、比較対象画素３１３の数を１つとして説明した。しかしながら、比較対象画素の数に限定はなく、例えば、図３（ｃ）に示すように、設定された注目画素３２２と対応する比較対象画素として、比較対象画素３２３及び３２４のように複数を選択する形態であってもよい。なお、図３（ｃ）において、部分３２０は、図３（ａ）に示す部分３００を拡大表示したものであり、或る画素を注目画素３２２として設定した様子が示されている。また、図３（ｃ）には、基準値算出部１０５０で算出された基準値２３１に相当する基準値３２１に係る情報が示されている。

この処理は、比較繰り返しステップＳ２０６〜Ｓ２０９の間で所定回数繰り返し行われ、ある固定の注目画素に対して何度も比較が行われる。ステップＳ２０７の処理の結果得られた比較対象画素値２３２は、比較部１０６０に送られる。なお、学習部１００１の比較対象画素選択部１０４１における比較パラメータの決め方については、比較部の説明の後に述べる。

続いて、図２のステップＳ２０８において、図１の比較部１０６０は、注目画素から学習した配置にある画素である比較対象画素の画素値（比較対象画素値２３２）と、基準値算出部１０５０で算出された基準値（基準値２３１）とを比較する処理を行う。図３（ｂ）で説明すると、比較対象画素３１３の画素値と基準値３１１と比較する。また、比較対象画素を複数とした場合は、図１の比較部１０６０は、図３（ｃ）のように、比較対象画素３２３及び３２４のそれぞれの画素値と基準値３２１と比較する。

具体的に、例えば、図３（ｂ）のように、比較対象画素が１つの場合、比較対象画素値２３２をｄ₁とし、基準値２３１をｄ_u、閾値をｔｈ₁とすると、比較部１０６０は、以下の（１）式の真偽判定を行うことにより、比較を行う。

仮に、（１）式において、閾値ｔｈ₁が０ならば、単純に基準値との大小関係を意味する。比較部１０６０は、例えば、（１）式が真のとき比較値２３３を１とし、（１）式が偽のとき比較値２３３を０とする。なお、ここでは、比較値２３３が２値になるようにしたが、必ずしも２値である必要はない。例えば、以下の（２）式の条件式Ｈ₂₁、以下の（３）式の条件式Ｈ₂₂、以下の（４）式の条件式Ｈ₂₃を使用して、範囲を分けることも可能である。この際、ｔｈ₁₁、ｔｈ₁₂は閾値を示す。

例えば、（２）式の条件式Ｈ₂₁を満たすとき比較値２３３を０とし、（３）式の条件式Ｈ₂₂を満たすとき比較値２３３を１とし、（４）式の条件式Ｈ₂₃を満たすとき比較値２３３を２とするようにしてもよい。

また、上述した（１）式等では、単純に引き算をして比較を行っているが、予め人体領域部分の画素値（深度値）の標準偏差σを算出しておき、以下の（５）式に示すように標準偏差で正規化してもよい。

もちろん、本実施形態においては、（５）式に示した標準偏差に限定されるものではない。例えば、最小値と最大値等の値の取り得る範囲の大きさで正規化してもよい。さらに、例えば、人体領域部分の画素値（深度値）でヒストグラムを作成して、全体のｘ％が存在する範囲で正規化する方法等も考えられる。

次に、図３（ｃ）に示すような比較対象画素が複数ある場合について説明する。
図３（ｃ）において、比較対象画素３２３の画素値をｄ₁、比較対象画素３２４の画素値をｄ₂とし、基準値３２１をｄ_u、閾値をｔｈ₁、ｔｈ₂とすると、比較部１０６０は、以下の（６）式の条件式Ｈ₃₁と以下の（７）式の条件式Ｈ₃₂の真偽判定を行うことにより、比較を行う。

比較部１０６０は、例えば、（６）式の条件式Ｈ₃₁と（７）式の条件式Ｈ₃₂とが共に真もしくは共に偽のとき比較値２３３を１とし、片方が真で他方が偽のとき比較値２３３を０とする。なお、ここでは、比較値２３３が２値になるようにしたが、必ずしも２値である必要はない。比較対象画素が複数になり、また条件式も増え、より複雑な比較、即ち情報量をもつ比較ができるようになるため、比較対象画素が１つの場合や条件式が少ない場合と比べて画像処理の精度向上が期待できる。
なお、ここで使用する閾値ｔｈ₁、ｔｈ₂は、学習時と同じものを使用する。また、上述した（６）式及び（７）式では、単純に引き算をして比較を行っているが、予め人体領域部分の画素値（深度値）の標準偏差σを算出しておき、上述した（５）式と同様に、以下の（８）式及び（９）式に示すように標準偏差で正規化してもよい。

もちろん、本実施形態においては、比較対象画素が１つの場合と同様に、（８）式及び（９）式に示した標準偏差に限定されるものではない。

このようにして、比較部１０６０は、比較対象画素値２３２と基準値２３１との比較の結果と、当該比較の結果と学習した対応する閾値との比較の結果を組み合わせることにより、変換部１０８０において注目画素の情報を決定する際に用いる比較値を算出する。そして、比較部１０６０は、このようにして算出した比較値２３３を変換部１０８０に送る。

ここで、図１の学習部１００１の比較対象画素選択部１０４１の比較パラメータの決め方と、比較部１０６１の閾値の決め方について説明する。
まず、単純な方法として、どちらもランダムに決める方法が考えられる。例えば、比較パラメータの決め方は、注目画素を基準に方向と距離をランダムに決める。これにより、配置が決定する。比較部１０６１の閾値についても、ある範囲内でランダムに決定する。もちろん、選択し得る範囲において、選ばれる確率を設定して、その確率に応じて、重点的に選びたい配置や値の範囲から高い確率で選ばれるようにすることもできる。さらに、第４の実施形態で後述する評価指標を用いる方法も考えられる。

次いで、図２のステップＳ２０６〜Ｓ２０９の比較繰り返しステップについて、さらに説明する。比較部１０６０及び１０６１で離散的な比較値を算出した場合、ｔｒｅｅやＦｅｒｎなどの識別方法が使用できる。

ここでは、ｔｒｅｅを使用して説明する。
この場合、ｔｒｅｅの各ノードの処理がステップＳ２０７及びＳ２０８に相当する。即ち、この場合、あるノードにおいて学習時に使用した注目画素と比較対象画素との配置関係を比較パラメータ２２２に記憶しておく。例えば、ある注目画素から方向θ、距離ｘの位置に比較対象画素がある場合、比較パラメータ２２２として方向θと距離ｘを記憶しておく。そして、識別時に設定した注目画素に対して、記憶した比較パラメータ２２２を使用して比較対象画素の位置を算出してその画素値を取得する。
続いて、比較部は、この画素値と基準値を比較し、比較値を算出する。そして、例えば、比較値が１のとき右の子ノードを辿り、比較値が０のとき左の子ノードを辿る。子ノードに移動したら、同じ処理を行い、ｔｒｅｅのリーフに辿りつくまで処理を繰り返す。ここでは、２分岐にて説明したが、分岐数はもっと多くてもよい。
このように、ある注目画素に対して、注目画素周辺の画素（比較対象画素）と基準値との比較を繰り返し行うことにより、注目画素周辺の変化量を間接的に比較することができるため、局所的な形状比較を実現することができる。さらに、人体領域全体で共通の基準値との大小関係を比較することができ、人体領域全体に対しての関係も知ることができる。

図２のステップＳ２０６〜Ｓ２０９の比較繰り返しステップの処理が終了すると、図２のステップＳ２１０に進む。
図２のステップＳ２１０に進むと、図１の変換部１０８０は、比較部１０６０において異なる学習した配置にある画素（比較対象画素）に対して比較を繰り返し行った結果に基づいて、変換テーブル１０７０（２２３）の予め学習した対応する値を参照してステップＳ２０５で設定した注目画素の情報を決定する処理を行う。この注目画素の情報を決定する処理を行う変換部１０８０は、情報決定手段を構成する。

具体的に、本実施形態では、変換部１０８０は、まず、変換テーブル１０７０（２２３）を参照して、比較値２３３、即ち辿りついたｔｒｅｅのリーフ、に対応する相対部位座標値を取得する。本実施形態のように人物の姿勢推定を行う場合、変換部１０８０では部位座標の推定を行うことになる。そして、変換部１０８０は、注目画素の画素値（深度値）と取得した相対部位座標値から、当該注目画素の部位推定位置２３４を決定し、部位の推定を行う。例えば、具体的には、変換部１０８０は、注目画素の画素値（深度値）とカメラパラメータ（焦点距離等）から座標値を求めて相対部位座標値と合わせることにより、当該注目画素の部位推定位置２３４を決定する。

次いで、変換テーブル１０７０（２２３）について説明する。
変換テーブル１０７０（２２３）は、事前に、学習部１００１において学習画像である学習深度画像を利用して作成される。学習部１００１においても、上述した手順に従い処理を行う。即ち、注目画素設定部１０３１は、人体領域部分の学習深度画像の中から或る画素を選択して注目画素とする。そして、この注目画素と人体の部位との位置関係を計算しておく。

そして、推定時の説明と同様の識別器、ここではｔｒｅｅを使用して分類を行う。具体的に、比較対象画素選択部１０４１は、各ノードにおいて、比較対象画素を選択する。この時に選んだ比較対象画素と注目画素との位置関係を比較パラメータ２２２として記憶しておく。その後、比較部１０６１は、比較対象画素選択部１０４１により得られた比較対象画素値と基準値算出部１０５１で算出された基準値とを比較して、さらに閾値と比較して比較値を算出する。そして、比較部１０６１は、この比較値により、各ノードで分岐を行い、子ノードにおいて同じ処理を繰り返す。そして、辿りついたリーフ、即ち比較値に、最初に計算した注目画素と人体部位との位置関係を相対部位座標値として記憶しておく。この処理を学習深度画像中の任意の画像領域の任意の画素で行う。これにより作成されたリーフの情報、即ち、比較値とそのときの人体部位との相対部位座標値を変換テーブル１０７０（２２３）とする。

なお、この例では、リーフに辿りついた際に、ノードと同じ個数の比較値の組ができているため、変換テーブル１０７０（２２３）には、比較値の組を用いる。また、ここでは、リーフに人体部位との位置関係を記憶した。しかしながら、記憶する情報はこれに限定されるものではなく、例えば、どの部位の近傍の画素かという情報等を記憶してもよい。さらに、変換テーブル１０７０（２２３）と表現したが、実際には比較値と必要としている情報、ここでは人体部位と相対部位座標値との関連付けができていればよく、必ずしもテーブルである必要はない。

これまで説明した図２のステップＳ２０１〜Ｓ２１１の処理を行うと、注目画素を設定する度に、部位推定位置２３４が算出されて人体の部位の推定が行われる。そのため、図２のステップＳ２０４〜２１１の各画素繰り返し処理ステップの終了後に、図２のステップＳ２１２において、図１の出力部１０９０（或いは図１の変換部１０８０）は、注目画素ごとに算出した部位推定位置２３４を集計して、対象領域である人体領域の全体としての最終部位推定位置２３５を算出する。これは、例えば、推定された各部位ごとに単純に平均値で算出してもよいし、各推定に重みをつけて、重み付き平均を算出してもよい。さらにｍｅａｎｓｈｉｆｔなどの手法を用いて算出してもよい。

その後、図１の出力部１０９０において、最終部位推定位置２３５を出力する。出力の仕方は、ファイルに部位の座標を出力してもよいし、図５に示すように表示してもよい。
ここで、図５は、本発明の第１の実施形態を示し、最終部位推定位置の出力形態の一例を示す図である。具体的に、図５には、深度画像５００に、各最終部位推定位置２３５に係る各部位位置５０１が重ねて表示されている。

本実施形態では、深度画像を使用した例を説明したが、例えばＲＧＢ画像を用いてもよい。ＲＧＢのステレオ画像を使用すれば、入力画像が違うだけで上述した処理と同じ処理が可能である。ここで、ＲＧＢ画像１枚から人体領域を抽出し、２値画像とした場合を考える。この場合、比較の際に、人体領域内か外かのみを比較することになるため、深度画像の使用時に比べて精度は低下するものの、推定は可能である。

さらに、本実施形態では、人物の姿勢を推定する例について説明したが、物体認識、物体検出等の画像を識別、変換するための方法としても使用することができる。この場合、変換テーブル１０７０において保持する情報を変えることにより、姿勢推定以外の用途に使用することができる。さらに、変換部１０８０は、変換テーブル１０７０で参照した情報に対応して変換することになり、変換部１０８０で算出して決定した情報を出力部１０９０で出力することになる。

例えば、物体認識に適用する場合には、変換テーブル１０７０に、どの物体かの情報、さらにどの物体のどの部位かの情報を保持すればよい。その結果、どの物体か、さらにその物体のどこの部位かを算出して出力することができる。
また、例えば、物体検出に適用する場合には、変換テーブル１０７０に、物体か否かの情報や、物体の中心位置情報等を保持することが考えられる。その結果、物体が検出されたかどうか、さらに検出された場合にはその位置を算出して出力することができる。
なお、本発明は、ここで述べた用途に限らず、色々な用途に適用することができる。

本実施形態によれば、対象領域に含まれる画素の画素値に基づいて基準値を算出し、注目画素から学習した配置にある画素の画素値と当該基準値とを比較するようにしたので、比較の際にノイズが含まれる要因を減らすことができる。これにより、ノイズのある画像においても、画像処理の精度劣化を抑制することができる。
また、この比較を繰り返し行うことにより、注目画素周辺の変化量を間接的に比較することができるため、例えば局所的な形状比較を実現することができる。

（第２の実施形態）
次に、本発明の第２の実施形態について説明する。

本実施形態では、使用する基準値が同画像中で複数ある場合について説明する。即ち、第１の実施形態と同様に人物の姿勢を推定する例において、使用する基準値を人体領域全体で同一のものを使用するのではなく、例えば、人体領域を複数の部分領域（例えば、上部、中央部、下部）に分割して部分領域ごとに異なる基準値を使用する。

第２の実施形態に係る画像処理装置の概略構成は、図１に示す第１の実施形態に係る画像処理装置１０００の概略構成と同様である。また、第２の実施形態に係る画像処理装置１０００による画像処理方法の処理手順は、図２に示す第１の実施形態に係る画像処理装置１０００による画像処理方法の処理手順を示すフローチャートと同様である。以下、図２に示すフローチャートの処理において、第１の実施形態における処理内容と異なる部分についてのみ説明を行う。

＜処理の詳細＞
図２のステップＳ２０３において、図１の基準値算出部１０５０は、ステップＳ２０２で抽出された対象領域である人体領域部分の深度画像に含まれる画素の画素値に基づいて基準値２３１を算出する。第１の実施形態と異なり、本実施形態では基準値が複数存在する。この例を図４を用いて説明する。

図４は、本発明の第２の実施形態及び第３の実施形態を示し、使用する基準値の算出方法を説明するための図である。

本ステップでは、例えば、ステップＳ２０２で抽出された人体領域を図４（ａ）に示すように上から３等分し、分割したそれぞれの部分領域を、人体領域上部４０２、人体領域中央部４０３、人体領域下部４０４とする。そして、図１の基準値算出部１０５０は、それぞれの部分領域の基準値２３１として、各部分領域に含まれる人体領域部分の画素の画素値（深度値）から平均値を算出する。本例の場合、基準値２３１は、同一画像中では、分割した部分領域の数に係る３種類で固定であるが、画像間では異なり、画像間での補正の役割を果たす。基準値２３１が１画像で１つだった場合に比べて、複数になることで、部分的な位置補正が実現でき、部分領域における精度向上が期待できる。

ここでは、基準値２３１として当該平均値を用いる場合を説明したが、基準値２３１は、各部分領域に含まれる人体領域部分の画素の画素値から算出した基準となる値であればよく、平均値の他にも、例えば、中央値や代表値等を用いることも可能である。さらには、各部分領域に含まれる人体領域部分の画素の画素値（深度値）のヒストグラムを生成して、頻度の高い画素値からランダムに基準値２３１を決定する等してもよい。また、基準値２３１の算出において、必ずしも、各部分領域に含まれる人体領域部分の全ての画素の画素値（深度値）を使用する必要はない。例えば、各部分領域に含まれる人体領域部分において、数画素に１画素だけの画素値を用いて基準値２３１を算出してもよく、また、各部分領域に含まれる人体領域部分の何割かをサンプリングして当該サンプリングした画素の画素値を用いて基準値２３１を算出してもよい。

また、ここでは、人体領域を上から３等分としたが、分割方法はこれに限定されるものではなく、上から分割する必要もないし、等分である必要もない。また、２分割や４分割でもよい。さらに、きちんと分割するのではなく、図４（ｂ）に示すように部分領域に重なりがでるように部分領域を作成してもよい。領域に重なりをもたせることで、境界部分で推定結果が変わる傾向がでることを抑制でき、精度が低下するのを防ぐ効果が期待できる。図１の学習部１００１の基準値算出部１０５１も、上述した基準値算出部１０５０と同様の処理を行う。基準値算出部１０５０及び１０５１は、それぞれ、算出した基準値を比較部１０６０及び１０６１に送る。

図２のステップＳ２０８において、図１の比較部１０６０は、注目画素から学習した配置にある画素である比較対象画素の画素値（比較対象画素値２３２）と、基準値算出部１０５０で算出された基準値（基準値２３１）とを比較する処理を行う。この際、使用する基準値２３１をどのように決定するかについて、図４を用いて説明する。

図２のステップＳ２０５において、図１の注目画素設定部１０３０は、図４（ａ）に示す注目画素４０１を設定したとする。このとき、注目画素４０１は、人体領域中央部４０３に属する。よって、この場合、図１の比較部１０６０は、比較に用いる基準値として、人体領域中央部から算出した基準値２３１を使用する。この場合の比較部１０６０による比較方法は、上述した第１の実施形態と同様である。学習部１００１の比較部１０６１も同様に、注目画素の属する部分領域の基準値を使用する。

次いで、学習時に図４（ｂ）に示すように部分領域に重なりをもたせて設定し、人物の姿勢推定時に、どれか１つの部分領域に属する基準値を使用する方法について説明する。

即ち、この場合、学習部１００１の注目画素設定部１０３１は、図４（ｂ）に示す注目画素４１１を設定したとする。このとき、注目画素４１１は、人体領域上部４１２と人体領域中央部４１３の両方に属する。よって、人体領域上部４１２から算出した基準値と人体領域中央部４１３から算出した基準値をそれぞれ使用して比較を行う。即ち、このような注目画素４１１は、人体領域上部４１２に属する画素と、人体領域中央部４１３に属する画素という別の２つのサンプルとして学習する。比較方法については、上述した第１の実施形態と同様である。

人物の姿勢推定時には、注目画素４１１は、どちらか１つの部分領域に割り振られるようにする。例えば、各部分領域の中心位置との距離を算出して、最も近い部分領域に属するものとして、例えば図４（ｂ）に示す場合には人体領域中央部４１３が選択される。よって、この場合、図１の比較部１０６０は、人体領域中央部４１３の基準値を使用して比較を行う。さらに、学習時だけでなく人物の姿勢推定時も、図４（ｂ）に示すように部分領域に重なりをもたせて設定することもできる。この場合、上述した例と同じく、注目画素４１１は、人体領域上部４１２と人体領域中央部４１３の両方に属することとなる。そこで、図１の比較部１０６０は、例えば、人体領域上部４１２から算出した基準値と人体領域中央部４１３から算出した基準値の平均値を算出し、これを基準値２３１として使用する。この場合の比較部１０６０による比較方法は、上述した第１の実施形態と同様である。

なお、部分領域の取り方とその基準値の使用方法は様々な態様が考えられ、ここで説明したものに限定されるものではない。

（第３の実施形態）
次に、本発明の第３の実施形態について説明する。

本実施形態は、上述した第１及び第２の実施形態と異なり、注目画素ごとに基準値が異なる場合について説明する。即ち、第１の実施形態と同様に人物の姿勢を推定する例において、使用する基準値を人体領域全体で同一のものを使用するのではなく、注目画素を設定する度に異なる基準値を算出して使用する。

第３の実施形態に係る画像処理装置の概略構成は、図１に示す第１の実施形態に係る画像処理装置１０００の概略構成と同様である。

＜処理の詳細＞
図６は、本発明の第３の実施形態に係る画像処理装置による画像処理方法の処理手順の一例を示すフローチャートである。ここで、図６には、人物の姿勢を推定する場合の処理が示されている。この図６において、図２に示す第１の実施形態に係る画像処理装置による画像処理方法と同様の処理ステップ及び情報については同じ符号を付しており、その説明は省略し、図２と異なる部分についてのみ説明を行う。

図６のステップＳ２０５において、図１の注目画素設定部１０３０は、第１の実施形態と同様に、人体領域部分の深度画像の中から或る画素を順次選択し、注目画素として順次設定する。そして、図１の注目画素設定部１０３０は、設定した注目画素の位置を示す注目画素位置６３１を、ステップＳ２０７の処理で用いる比較対象画素選択部１０４０のみならず、ステップＳ６０１の処理で用いる基準値算出部１０５０に送る。学習部１００１の注目画素設定部１０３１も、上述した注目画素設定部１０３０と同様の処理を行う。

続いて、図６のステップＳ６０１において、図１の基準値算出部１０５０は、人体領域部分の深度画像から基準値６３２を算出する。上述した第１及び第２の実施形態と異なり、本実施形態では、図１の基準値算出部１０５０は、注目画素位置６３１ごとに異なる基準値６３２を算出する。そのため、基準値の算出は、上述した第１及び第２の実施形態の場合と違い、注目画素を設定した後に毎回行われる。

例えば、図１の基準値算出部１０５０は、図４（ｃ）に示すように、注目画素４２１が設定されると、半径ｒの円領域４２２を構築する。そして、図１の基準値算出部１０５０は、この円領域４２２内に含まれる人体領域部分の画素値（深度値）から算出した平均値を基準値６３２として使用する。図４（ｃ）に示す例の場合、基準値６３２は、人体領域に含まれる領域であって注目画素ごとに構築された部分領域に含まれる全ての画素の画素値または当該部分領域に含まれる複数の画素の画素値に基づいて算出された値を用いることができる。ここで、半径ｒには任意の値を用いてよい。例えば、或る範囲内でランダムに設定してもよい。ただし、半径ｒが人体領域全域を含む大きさである場合、上述した第１の実施形態と同様になる。さらに、第４の実施形態で後述する評価指標を用いて半径ｒを決定する方法も考えられる。

上述した第１及び第２の実施形態と同様に、基準値６３２は、人体領域部分の画素の画素値から算出した基準となる値であればよく、また、平均値に限定されるものではない。また、図４（ｃ）には、円領域を構築する例を挙げたが、構築する領域の形は円に限定されるものではない。また、基準値６３２は、画像間で異なり、画像間での補正の役割がある。さらに、本実施形態では、基準値６３２は、注目画素ごとに異なる。基準値が１画像で数種類だった場合に比べて、注目画素の個数分になることで、各画素での画素値（深度値）の補正が実現でき、これにより、局所での精度向上が期待できる。
そして、図１の基準値算出部１０５０は、算出した基準値６３２を比較部１０６０に送る。図１の学習部１００１の基準値算出部１０５１も、上述した基準値算出部１０５０と同様の処理を行う。

その後の図６のステップＳ２０６以降の処理は、図２に示す処理と同様である。

（第４の実施形態）
次に、本発明の第４の実施形態について説明する。

本実施形態では、上述した第１〜第３の実施形態と異なり、複数の基準値を算出し、当該複数の基準値の中からいずれか１つを選択して使用する場合について説明する。具体的に、第１の実施形態１と同様に人物の姿勢を推定する例において、比較ステップの度に基準値を選択して使用する。

第４の実施形態に係る画像処理装置の概略構成は、図１に示す第１の実施形態に係る画像処理装置１０００の概略構成と同様である。

また、人物の姿勢推定時の処理については図７を用いて、学習時の処理については図８を用いて、上述した第１〜第３の実施形態との差異を中心に以下に説明する。

＜処理の詳細＞
まず、人物の姿勢推定時の処理について説明する。
図７は、本発明の第４の実施形態に係る画像処理装置による画像処理方法の処理手順の一例を示すフローチャートである。ここで、図７には、人物の姿勢を推定する場合の処理が示されている。この図７において、図２及び図６に示す第１及び第３の実施形態に係る画像処理装置による画像処理方法と同様の処理ステップ及び情報については同じ符号を付しており、その説明は省略し、図２及び図６と異なる部分についてのみ説明を行う。

図７のステップＳ７０１における共通基準値算出ステップは、第１の実施形態で説明した人体領域全体の平均値や第２の実施形態で説明した人体領域の部分領域の平均値を基準値として算出したステップに相当するものである。

図７のステップＳ７０２における個別基準値算出ステップは、第３の実施形態で説明した注目画素ごとに設定した人体領域の部分領域の平均値を基準値として算出したステップに相当するものである。
このように、本実施形態では、図１の基準値算出部１０５０は、１つ以上の複数の基準値を算出するものである。

図７のステップＳ２０８において、図１の比較部１０６０は、複数の基準値の中からいずれか１つを選択し、当該選択した１つの基準値７３１を用いて比較対象画素値２３２との比較を行う。本実施形態の場合、比較繰り返しステップＳ２０６〜Ｓ２０９で処理を繰り返す度に、どの基準値を使用するかを再度選択する。この際、複数の基準値の中からどの基準値を選択するのかについては、学習時に決定した基準値を用いる。この学習時に決定した基準値は、基準値パラメータ７２１を参照することで取得することができる。

その後の図７のステップＳ２１０以降の処理は、図２に示す処理と同様である。

次に、学習時の処理について説明する。
図８は、本発明の第４の実施形態に係る画像処理装置による画像処理方法の処理手順であって学習時の処理手順の一例を示すフローチャートである。この図８において、図２、図６及び図７に示すフローチャートと同様の処理ステップ及び情報については同じ符号を付しており、その説明は省略し、図２、図６及び図７と異なる部分についてのみ説明を行う。

図８のステップＳ８０１において、学習部１００１の学習画像入力部１０１１は、学習深度画像を学習画像として入力を行う。ここでは、学習画像は、学習深度画像ファイル８２１を読み込むことで入力される。上述した第１〜第３の実施形態の学習時においては、学習画像入力部１０１１から比較部１０６１まで１画像ずつ処理しても、全画像を読み込んでからまとめて処理しても、どちらでも可能であった。これに対して、本実施形態においては、後者のように、学習深度画像ファイル８２１をまとめて読み込んでおく必要がある。

基準値の決め方については、評価値を用いて評価を行うことで値を決定する方法が考えられる。なお、図１の比較対象画素選択部１０４１の比較パラメータの決め方や比較部１０６１の閾値の決め方も同様の方法で決めることができる。

人物の姿勢推定を行うのにあたり、各部位や位置等の違いがよりよく確認できるパラメータ、即ち基準値や配置や閾値があるのであれば、そのようなパラメータを選ぶのが望ましい。例えば、学習時に複数種類の基準値・配置・閾値の組み合わせで比較処理を行う。この処理が、図８の基準値候補繰り返しステップＳ８０２〜Ｓ８０６に相当する。

続いて、図８のステップＳ８０５において、図１の評価値算出部１０６２は、各組み合わせに対して、使用した全ての画素の比較結果である比較値２３３ごとに、当該比較値に含まれる画素（当該比較値となる画素）の分離性がよいかについて評価を行って、基準値候補の評価値８３１を算出する。即ち、図１の評価値算出部１０６２は、注目画素設定部１０３１において注目画素を設定するごとに比較部１０６１による比較の結果得られた比較値２３３ごとで、画素の分離性がよいかについての評価の指標となる基準値候補の評価値８３１を算出する。つまり、各組み合わせに対して、この基準値候補の評価値８３１が１つずつ算出される。ここで説明した注目画素の繰り返し処理は、注目画素繰り返しステップＳ８０３〜Ｓ８０４の処理に相当する。

続いて、図８のステップＳ８０７において、図１の基準値決定部１０６３は、ステップＳ８０５により算出された基準値候補の評価値８３１に基づいて、全ての組み合わせの中で最も分離性のよかった基準値（更には、配置及び閾値）を決定する。そして、図１の基準値決定部１０６３は、決定した基準値（更には、配置及び閾値）を基準値パラメータ７２１として保存する。なお、ここで述べた分離性とは、部位ごとのまとまりのよさ、部位間の差異の大きさ等が考えられる。例えば、エントロピーを用いて評価することができる。各部位である確率をｐ（ｉ）とし、部位の数をｎとすると、以下の（１０）式で求めることができる。

どこかの部位がｐ（ｉ）＝１で一意に決まるとき、エントロピーは最小で０となる。複数種類の基準値・配置・閾値の組み合わせのうち、（１０）式が最も小さくなるようなものを選択することで、分離性のよい組み合わせを選ぶことができる。

また、位置の分離性を評価したい場合には、分散を用いて評価することもできる。複数種類の基準値・配置・閾値の組み合わせの中で、各クラスタ内の分散が小さくなるものを選ぶことにより、クラスタのまとまりがよいものを選ぶことができる。さらに、各クラスタ間の分散を考慮して、各クラスタ内の分散が小さいことに加えて、各クラスタ間の分散が大きいものを選ぶ等してもよい。

なお、分離性の評価は、ここで説明した方法に限定されるものではない。また、パラメータについてもここで説明したものに限定されるものではない。他にも、第２の実施形態で説明した部分領域に種類を設けてパラメータ化してもよいし、第３の実施形態で説明した基準値算出領域の大きさや形をパラメータ化してもよい。

他にも、基準値の単純な選択方法として、第１の実施形態で説明したランダムに選択する方法、順序を固定で決める方法等も採用可能である。選び方については、特に限定しない。ここでは、基準値として平均値を用いた場合の例を挙げたが、上述した第１〜第３の実施形態でも説明したように、特に平均値に限定されるものではない。

また、第１の実施形態でも説明したように、変換テーブル１０７０の作成については、図８のステップＳ８０８において、図１の部位相対位置集計部１０６４による部位相対位置集計処理で行われる。この際、図１の部位相対位置集計部１０６４は、ここまでの処理で決定した基準値パラメータ７２１を使用した際の、比較値２３３ごとに属する画素の情報を取得して、変換テーブル１０７０を作成する。

ステップＳ８０８の処理が終了すると、図８のフローチャートの処理が終了する。

（その他の実施形態）
また、本発明は、以下の処理を実行することによっても実現される。
即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。
このプログラム及び当該プログラムを記憶したコンピュータ読み取り可能な記憶媒体は、本発明に含まれる。

なお、上述した本発明の実施形態は、いずれも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

本発明は、画像から特徴量を抽出して識別する際に利用でき、例えば、人物の姿勢推定、物体検出や物体認識等の用途に利用可能である。

１０００：画像処理装置、１００１：学習部、１０１０：画像入力部、１０１１：学習画像入力部、１０２０，１０２１：対象領域抽出部、１０３０，１０３１：注目画素設定部、１０４０，１０４１：比較対象画素選択部、１０５０，１０５１：基準値算出部、１０６０，１０６１：比較部、１０６２：評価値算出部、１０６３：基準値決定部、１０６４：部位相対位置集計部、１０７０：変換テーブル、１０８０：変換部、１０９０：出力部

Claims

画像から対象領域を抽出する抽出手段と、
前記対象領域に含まれる画素の画素値に基づいて複数の基準値を算出する算出手段と、
前記複数の基準値の中からいずれか１つを選択し、当該選択した１つの基準値と前記画像における複数の画素の画素値とを比較する比較手段と、
前記比較手段の比較結果に基づいて、前記対象領域の画素の中から設定された注目画素の情報を決定する決定手段と、
を有することを特徴とする画像処理装置。
前記複数の画素は、前記注目画素に対して予め学習された位置関係にある複数の画素であることを特徴とする請求項１に記載の画像処理装置。
前記比較手段は、前記複数の画素のそれぞれの画素値と前記選択した１つの基準値との大小関係を比較することを特徴とする請求項１または２に記載の画像処理装置。
前記比較手段は、前記複数の画素のそれぞれの画素値と前記選択した１つの基準値との差と、所定の閾値とを比較することを特徴とする請求項１から３のいずれか１項に記載の画像処理装置。
前記複数の基準値のそれぞれは、前記対象領域を複数の部分領域に分割したうちのいずれか１つの部分領域に含まれる全ての画素の画素値または当該１つの部分領域に含まれる複数の画素の画素値に基づいて算出された値であることを特徴とする請求項１から４のいずれか１項に記載の画像処理装置。
前記部分領域は、前記対象領域の画素の中から設定された注目画素に基づいて設定されることを特徴とする請求項５に記載の画像処理装置。
画像から対象領域を抽出する抽出手段と、
前記対象領域に含まれる画素の画素値に基づいて複数の基準値を算出する算出手段と、
前記画像における複数の画素のそれぞれの画素値と前記複数の基準値のそれぞれとを比較する比較手段と、
前記比較手段による比較結果に基づいて、前記複数の基準値から１つの基準値を選択する選択手段と、
を有することを特徴とする画像処理装置。
画像から対象領域を抽出する抽出ステップと、
前記対象領域に含まれる画素の画素値に基づいて複数の基準値を算出する算出ステップと、
前記複数の基準値の中からいずれか１つを選択し、当該選択した１つの基準値と前記画像における複数の画素の画素値とを比較する比較ステップと、
前記比較ステップの比較結果に基づいて、前記対象領域の画素の中から設定された注目画素の情報を決定する決定ステップと、
を有することを特徴とする画像処理方法。
画像から対象領域を抽出する抽出ステップと、
前記対象領域に含まれる画素の画素値に基づいて複数の基準値を算出する算出ステップと、
前記画像における複数の画素のそれぞれの画素値と前記複数の基準値のそれぞれとを比較する比較ステップと、
前記比較ステップによる比較結果に基づいて、前記複数の基準値から１つの基準値を選択する選択ステップと、
を有することを特徴とする画像処理方法。
請求項８または９に記載の画像処理方法の各ステップをコンピュータに実行させるためのプログラム。