JP2014021602A

JP2014021602A - 画像処理装置及び画像処理方法

Info

Publication number: JP2014021602A
Application number: JP2012157668A
Authority: JP
Inventors: Atsushi Nogami; 敦史野上
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2012-07-13
Filing date: 2012-07-13
Publication date: 2014-02-03

Abstract

【課題】複数の異なる検出器の結果を統合したときに、検出対象物の位置を精度良く求めることができるようにする。
【解決手段】画像中の対象物の異なる状態をそれぞれ検出し、検出結果として検出位置と検出スコアを出力する複数の検出処理手段と、前記複数の検出処理手段によりそれぞれ検出された検出位置から、前記対象物の共通部位の位置を推定する共通部位推定手段と、前記複数の検出処理手段の前記共通部位に対する位置推定性能に基づいて、前記検出スコアを補正スコアに変換するスコア補正手段と、前記共通部位の位置と前記補正スコアとに基づいて、代表検出結果を選択する代表結果選択手段とを設け、複数の異なる検出処理手段の結果を統合する場合に、各検出処理手段の共通部位推定性能に基づいて検出処理手段のスコアを補正し、補正スコアから代表結果を求める。
【選択図】図１

Description

本発明は、画像中の所定の対象物を検出する画像処理装置に関する。

画像中の対象物を検出する画像処理装置では、対象物の姿勢が変化する場合や、対象物が部分的に遮蔽されている場合にでも、対象物を検出できることが望ましい。姿勢変化や遮蔽などの多様な対象物の状態に対応するためには、複数の異なる検出器を用いて対象物を検出することが有効である。

複数の異なる検出器を用いて対象物を検出する従来技術として非特許文献１がある。非特許文献１では、顔検出器と上半身検出器を組み合わせることで、人物の向きの変化や人物の部分的な遮蔽に対応した人物検出を行っている。顔検出器と上半身検出器とを組み合わせる利点を具体的に説明すると以下のようになる。

顔検出器は様々な手法が開発されており、高い性能で顔を検出することができる。従って、顔が見えている場合には、高い確率で人物を検出することができる。しかし、顔検出器を用いて人物検出を行うと、人物の向きによっては顔が見えなくなるため、人物が検出できなくなるという問題や、画像中の人物サイズが小さくなると顔テクスチャの情報も少なくなり、検出が困難になるという問題がある。

一方、非特許文献１で利用されている上半身検出器は、人物の向きに関わらず直立姿勢の人物上半身を検出することができる。しかし、人物の上半身は顔よりも特徴が少ないため、一般的に上半身検出器の検出精度は顔検出器と比べると劣る。また、上半身の一部が遮蔽されているような場合には、上半身検出器の検出性能が劣化する。そこで、非特許文献１では、顔検出器と上半身検出器とを組み合わせて、相互の欠点を補うことで精度良く人物を検出している。

異なる複数の検出器を用いて対象物を検出する場合には、異なる検出結果を統合して１人の人物に対して１つの検出結果を出力する必要がある。この時、異なる検出結果をどのように統合するかが課題となる。特に、人物が近傍に複数人存在し、重なり合うような場合の統合方法が課題となる。

例えば、図１３に示すように、上半身検出器１３０１と顔検出器１３０２の結果を統合する場合に、単純に大きく重複した検出結果を統合し同一人物の結果として出力すると、複数人が重なり合った時に、図１３のように背後の人物の顔検出結果が前面の人物の上半身検出結果１３０３に統合されてしまう場合がある。この結果、顔検出器１３０２で背後の人物が検出されていたにも関わらず、最終結果では、前面の人物のみが検出された結果が出力されてしまう。

非特許文献１では、この問題を解決するため、上半身検出器の結果から顔位置を推定し、顔検出器の結果位置と合わせてmean shiftにより検出結果のピーク位置を求めている。この処理により、異なる部位を検出する複数の検出器の結果を統合している。

山下隆義, 池村翔, 藤吉弘亘, 岩堀祐之,"距離情報を考慮したパーツ統合による人物検出の高精度化",電気学会論文誌 D, Vol.131, No.4, pp. 475-481, 2011. P. Viola and M. Jones, "Rapid Object Detection using a Boosted Cascade of Simple Features" , IEEE CVPR (2001) Dalal, N., & Triggs, B. "Histograms of oriented gradients for human detection." , IEEE CVPR 2005 P. Felzenszwalb, D. McAllester, D. Ramanan, "A Discriminatively Trained, Multiscale, Deformable Part Model", IEEE Conference on Computer Vision and Pattern Recognition 2008

非特許文献１では、上半身検出器の検出結果から顔位置を推定している。しかし、この顔位置は上半身の検出結果からの推定であるため、顔検出結果が示す顔位置よりも、顔位置の信頼性が低くなる傾向にある。この信頼性が低い推定顔位置と、比較的信頼性の高い顔検出結果の顔位置を統合しているため、最終的に出力される顔位置が誤った位置に出力される可能性がある。

本発明は前述の問題点に鑑み、複数の異なる検出器の結果を統合したときに、検出対象物の位置を精度良く求めることができるようにすることを目的とする。

本発明の画像処理装置は、画像中の対象物の異なる状態をそれぞれ検出し、検出結果として検出位置と検出スコアを出力する複数の検出処理手段と、前記複数の検出処理手段によりそれぞれ検出された検出位置から、前記対象物の共通部位の位置を推定する共通部位推定手段と、前記複数の検出処理手段の前記共通部位に対する位置推定性能に基づいて、前記検出スコアを補正スコアに変換するスコア補正手段と、前記共通部位の位置と前記補正スコアとに基づいて、代表検出結果を選択する代表結果選択手段とを備えることを特徴とする。

本発明によれば、複数の異なる検出器を用いて、対象物を検出する場合に、対象物の位置を精度よく求めることができるようになる。

本発明の実施形態を示し、画像処理装置の構成例を示すブロック図である。本発明で用いる複数の異なる検出器を説明する図である。検出処理部の処理手順を説明するフローチャートである。各検出器の結果からの頭部位置推定を説明する図である。全身検出器の結果と頭部位置の位置関係の定義例を示す図である。頭部正解規準を用いて頭部位置推定結果を評価する処理を説明する図である。スコア変換辞書の例を示す図である。代表結果選択部の処理手順を説明するフローチャートである。代表結果選択部の処理を説明する図である。画像処理装置の全体処理を説明するフローチャートである。パーツベースの検出手法を用いた全身検出器を説明する図である。画像処理装置を構成可能なコンピュータシステムの一例を示す図である。異なる検出器の結果を統合する場合の課題を説明する図である。

以下、図面を利用して、本発明の実施形態について説明を行う。
（第１の実施形態）
本実施形態では、複数の異なる検出器を用いて、画像中の対象物を検出する。複数の異なる検出器は、それぞれ対象物の異なる部位や姿勢を検出対象にした検出器である。本発明の検出対象物は、特に限定されるものではないが、以下の実施形態では検出対象物を人物とした場合について説明を行う。

図１は、本発明の実施形態の画像処理装置の構成を説明する図である。本実施形態の画像処理装置は、ネットワークまたは各種記録媒体を介して取得したソフトウェア（プログラム）を、ＣＰＵ、メモリ、ストレージデバイス、入出力装置、バス、表示装置などにより構成される計算機にて実行することで実現できる。また、不図示の計算機については、汎用の計算機を用いてもよいし、本実施形態のソフトウェアに最適に設計されたハードウェアを用いてもよい。

図１に示すように、本発明の実施形態の画像処理装置は、画像入力部１０１、複数の検出処理部１１１〜１１ｎ、各検出処理部に対応した共通部位推定部１２１〜１２ｎ、スコア補正辞書１３１〜１３ｎ、スコア補正部１４１〜１４ｎ、そして代表結果選択部１５１により構成される。以下、各構成要素についての説明を行う。

画像入力部１０１は、処理対象となる画像を画像処理装置に入力する部分である。画像入力部１０１により入力する画像は、カメラなどから取得した動画像の１フレームの画像でもよいし、ハードディスクなどのストレージデバイスに保存された画像でもよい。以下では、画像入力部１０１に入力された１枚の画像に対する処理について説明を行う。

複数の検出処理部１１１〜１１ｎには、対象物の異なる部位や状態を検出する検出器が、予め格納されている。検出対象物を人物とした場合、各検出処理部の異なる検出器には、顔検出器、頭部検出器、上半身検出器、全身検出器などの人物の異なる部位を対象とした検出器を用いることができる。

人物の異なる部位を検出する検出器を用いることで、人物の一部が他の物体から遮蔽されている場合や、画像中から人物の一部がはみ出している場合にも人物を検出できるようになる。また、人物を対象物とした場合、人物の向きや姿勢が対象物の異なる状態の例として挙げられる。そこで、人物の異なる向きや姿勢をそれぞれ検出する検出器を用いることにより、様々な人物の状態を検出できるようになる。

図２には、複数の検出器の例を示しており、顔検出器２０１、頭部検出器２０２、全身検出器（正面・立位姿勢）２０３、全身検出器（横向き・前傾姿勢）２０４などを本実施形態の検出器として利用することができる。本実施形態に用いる検出器はこれに限定することなく、他の人物部位や人物姿勢の検出器を用いてもよい。

図２に示した以外の検出器として、例えば、人物の上半身部分のみを対象とした上半身検出器や、前傾姿勢の角度が異なる上半身あるいは全身検出器などを検出器として用いてもよい。本実施形態の複数の検出器は、それぞれ相互に補間し合うような検出器を準備することが望ましい。検出器の相互補完の例として、例えば頭部検出器と全身検出器の組み合わせなどが考えられる。

まず、頭部検出器は、胴体以下が他の物体から遮蔽されていても人物を検出可能であり、また、身体部分の姿勢変動に影響を受けずに人物を検出できるという利点がある。しかし、頭部は特徴的な形状が少ないため、検出性能は全身検出器に比べて劣る傾向にあることが欠点である。

一方、全身検出器は、対象としている部位が大きいため、人物の特徴を捉えやすく検出性能が比較的高いという利点があるが、遮蔽や姿勢変動に弱いという欠点がある。そこで、頭部検出器と全身検出器を同時に利用することで、相互の欠点を補うことができるようになり、人物検出の精度向上が期待できる。

複数の検出器にどのような部位や状態を対象とした検出器を利用し、どのような組み合わせにするべきかについては、検出対象物の種類や検出対象物が取り得る向きや姿勢、カメラ設置条件などの画像の条件によって異なる。対象物を精度良く検出するためには、検出対象物や画像条件における対象物の状態（対象物の遮蔽状態や姿勢）を広くカバーできるように、適切な数の検出器を構成することが望ましい。

次に、検出器の作成方法について説明を行う。
検出器は所定サイズの画像について、検出対象物であるかを判別する処理を行う。検出器は人物らしさ（対象物らしさ）を示すスコアを出力すれば、どのようなものを用いてもよいが、精度よく人物を検出するためには、統計的に学習した検出器を用いることが望ましい。検出器の学習では、予め検出対象とする人物部位や人物姿勢の学習画像群から、統計的に人物特徴を学習する。

例えば、顔検出器では、非特許文献２のように、学習画像の顔範囲のHaar-Like特徴量を収集し、AdaBoostにより統計的に顔らしい特徴を識別できるようにして顔検出器を学習する。
また、頭部や上半身、全身などその他の人物部位を学習する場合、画像特徴としては非特許文献３に記載されているHOG特徴量が有効である。頭部検出器や上半身検出器、全身検出器を準備する場合には、各部位の学習画像を準備し、それぞれのHOG特徴量を取得して、SVMやAdaBoost等の識別器により各部位の検出器を学習する。

また、各向きや姿勢の検出器を学習する場合には、各向きや姿勢の学習画像を準備して、画像特徴を取得し統計的に学習を行う。例えば、全身が対象部位で、横向き前傾姿勢の検出器を作成する場合には、検出対象条件に合う人物画像郡を準備し、上記と同様に学習を行えばよい。学習の結果（例えば、AdaBoostの弱識別器など）は、検出器辞書として保存し、検出時に利用する。

各検出器は、人物検出の確からしさを検出器スコアとして算出する。例えば、AdaBoostでは、各弱識別器の出力の重み付き和を検出器スコアとして出力する。またSVMでは、識別超平面との距離を検出器スコアとして算出する。上記以外の判別処理でも、尤度など対象物らしさを表すスコアを出力する方法であれば、どのような方法を用いてもよい。検出スコアは、対象物を示す確率値などに変換するなどして、各検出器の検出スコアを比較可能な値にしておくことが好ましい。なお、以下では、検出器スコアが高いほど、各検出器が対象としている人物部位、または人物状態らしさが高い出力が得られているものとする。

以下、第１の実施形態では、複数の検出器として、図２の顔検出器２０１、頭部検出器２０２、全身検出器２０３の３つを用いる場合について説明するが、本実施形態に用いる検出器の構成はこの限りではない。

次に、複数の検出処理部１１１〜１１ｎでの処理について説明する。
図３に、一つの検出処理部内（例えば、検出処理部１１１）での処理を説明するフローチャートを示す。ここで、説明のため、検出処理部１１１は全身検出器２０３の検出処理を行うとする。

まず、Ｓ３０１では、入力画像の画像特徴量を算出する。検出処理部１１１の検出器は全身検出器であるため、入力画像からHOG特徴量を算出する。
次に、Ｓ３０２では、検出処理を行う画像の特定位置の画像特徴量を取得する。
Ｓ３０３では、検出器辞書を用いて、処理対象の画像特徴量の対象物らしさを判別し、検出スコアを算出する。
Ｓ３０４では、画像全体に対して処理が完了したか否かを判定する。完了していない場合は画像全体を探索するため、Ｓ３０２に戻り、各画像中の位置で検出スコアを算出する処理Ｓ３０３を、判別位置を変えながら画像全体に対して行う（Ｓ３０２〜Ｓ３０４）。完了した場合はＳ３０５に進む。なお、判別位置を変えるループで、画像サイズも変更することにより、画像中で異なるサイズで写っている人物も検出できるようになる。

以上、Ｓ３０４までの処理で、画像中の各位置での検出スコアが得られる。この結果を全て次の共通部位推定部に送るようにしてもよいが、明らかに人物ではないと判断できる低い検出スコアの検出結果については、これ以降の処理を省略することで全体の処理負荷を低減することができるようになる。

従って、図３では、Ｓ３０５で、所定のスコア以上の結果を残す閾値処理を行い、無駄な検出結果を削除している。Ｓ３０５の処理の結果、画像中で検出スコアが高い位置の位置情報とそのスコアが検出処理部１１１から出力される。
以上、１つの検出処理部の処理結果を説明したが、画像処理装置全体としては、この検出処理部の処理を検出処理部の数だけ繰り返す。

次に、共通部位推定部１２１〜１２ｎについての説明を行う。
共通部位推定部１２１〜１２ｎでは、対象物の共通部位の位置を各検出器の結果から推定する。本実施形態では、異なる部位や姿勢を検出する検出器の結果を統合するために、各検出器から対象物の共通な部位の位置または範囲を推定し、推定した部位の位置関係を元に検出結果を統合する。

以下、第１の実施形態では、人物の頭部を共通部位として、各検出器の検出結果から頭部位置を推定する手順について説明を行う。推定する共通部位は、各検出器で共通に推定可能な部位であれば、特に限定するものではないが、その対象物に特徴的な部位（検出が行いやすい部位）や、周囲物体からの遮蔽、対象物の姿勢変化の影響を受けにくい部位を選択することが望ましい。検出対象物が人物である場合、人物の頭部は比較的遮蔽されにくい部位であるため共通部位として適している。

図４は、各検出器の結果からの頭部位置推定を説明するための図である。検出処理の結果、検出対象の位置・範囲の情報が得られる。本実施形態では、検出結果の位置・範囲は、検出対象を囲む矩形枠で得られるとする。図４では、検出結果を矩形枠で示しており、それぞれ顔検出結果枠４０１、頭部検出結果枠４０２、全身検出結果枠４０３である。矩形枠は画像座標の２点で、以下のように表される。

ここで、ｘ₁、ｙ₁は矩形の左上点の画像座標、ｘ₂、ｙ₂は矩形の右下点の画像座標である。共通部位推定部では、この矩形枠から頭部位置・範囲を推定する。例えば、図４には、顔検出結果枠４０１から推定した頭部位置・範囲を矩形枠４１１で、全身検出結果枠４０３から推定した頭部位置・範囲を矩形枠４１３で表している。
検出結果枠からの頭部推定は、予め検出結果枠と頭部の位置関係を定義しておき、検出結果枠から頭部位置に変換することで推定を行う。

例えば、図５には、全身検出器の結果と頭部位置の位置関係の定義例を示している。図５の全身検出器に対する頭部位置の定義は、全身検出器の高さｈ_Bの１５％を頭部高さｈ_Hとし、全身検出器の幅ｗ_Bの５０％を頭部幅ｗ_Hとしている。また、ｘ軸方向には０．２５ｗ_Bのオフセットが定義されている。全身検出器からの頭部位置推定は、全身結果の座標Ｘから、図５の定義に従って頭部座標Ｘ_hとして求める。頭部座標Ｘ_hは以下のように表される。

ここで、ｘ_h1、ｙ_h1は推定した頭部範囲の左上点の座標で、ｘ_h2、ｙ_h2は推定した頭部範囲の右下点の座標である。共通部位推定部１２１では、検出処理部１１１の結果得られた各検出結果について、検出結果座標Ｘから頭部推定座標Ｘ_hを算出する。

図５に示した頭部範囲の定義は、各数値を予め人が入力・設計してもよいし、実際の全身検出結果から得られる頭部位置の平均から設計するようにしてもよい。頭部位置の平均を取得する場合には、複数のサンプル画像に全身検出器による検出処理を行い、検出結果内の頭部位置の平均値を算出することで求めることができる。

以上では、全身検出器から頭部位置を推定する方法を例にして共通部位推定部の動作について説明した。他の検出器の検出結果からの頭部位置推定についても、全身検出器の場合と同様に、各検出結果と頭部位置との位置関係を定義しておき、検出結果からの相対位置に基づいて頭部位置を推定する。全身検出器では、検出結果の内部の頭部位置を推定したが、推定位置は検出結果の内部である必要はない。例えば、図４の顔検出結果枠４０１から推定した頭部位置は、顔検出結果枠４０１の外側にある。また、頭部そのものを検出する頭部検出結果では、共通部位推定部の処理を省略して、頭部検出結果そのものを共通部位推定の結果として出力するようにしてもよい。

次に、スコア補正辞書１３１〜１３ｎとスコア補正部１４１〜１４ｎについての説明を行う。本実施形態では、各検出結果から推定した共通部位の位置と、各検出結果スコアを用いて複数の異なる検出結果を統合する。ここで、共通部位の位置は検出結果から推定した結果であり、その推定精度は検出器によって異なる。本実施形態では、頭部位置を共通部位として推定しているが、頭部位置の推定性能は、頭部位置に近い、あるいは頭部と関係が深い検出器の方が良くなると考えられる。

例えば、第１の実施形態で用いている検出器の頭部位置推定性能は、頭部検出器＞顔検出器＞全身検出器の順になる。スコア補正辞書１３１〜１３ｎとスコア補正部１４１〜１４ｎでは、共通部位の推定性能の差を考慮した統合を行うために、共通部位の推定性能差に基づいてスコア補正を行う。補正したスコアを用いて、周囲の検出結果を統合することで、対象物の検出結果の位置精度が向上することが期待できる。

スコア補正部１４１〜１４ｎでは、それぞれの検出器の検出スコアをスコア補正辞書１３１〜１３ｎに記録された情報を用いて変換する。スコア補正辞書１３１〜１３ｎには、各検出器の共通部位推定の信頼度に基づいて検出スコアを補正するための情報を格納する。

スコア補正では、検出器ごとに補正係数をスコア補正辞書に保存し、スコア補正時には係数を検出器スコアに乗じて補正スコアを算出すればよい。補正係数の例としては、頭部検出器の補正係数を１とし、顔検出器の補正係数を０．８、全身検出器の補正係数を０．５などとする。そして、頭部に近い検出器（頭部位置の推定性能が高い検出器）では、係数を大きくし、頭部から遠い検出器（頭部位置の推定性能が低い検出器）では、低い係数を設定する。

この係数を検出スコアに乗じて補正スコアを得ることにより、検出器の検出結果と共通部位推定の性能を考慮した補正スコアを得ることができる。補正スコアは、対象物らしさを示す検出スコアに、共通部位の位置推定の確からしさによって重み付けしたスコアとなっており、対象物らしさと位置の確からしさを合わせて示すことになる。

以上では、補正係数を人が入力・設定したが、補正係数は各検出器で推定する頭部位置の正解確率によって設定することが好適である。各検出器の頭部位置推定の正解確率については事前に求めておく必要がある。以下では、図６を用いて頭部位置推定の正解確率の求め方とスコア補正辞書に保存する補正係数について説明する。

まず、頭部位置が既知な画像サンプル群を準備する。図６（Ａ）は、画像６００の人物の頭部位置が既知である画像の例で、頭部範囲の座標が頭部正解６０１として記録されている。ここで画像６００は、人物が一人しか写っていない、または、一人の人物範囲に切り出された画像であることが望ましい。このように、頭部位置が既知である画像を大量に準備する。

次に、図６（Ｂ）は、図６（Ａ）の画像に、顔検出を実施した結果である。顔検出の結果、検出処理で説明した処理と同様に、画像６００全体に顔検出器の検出処理が逐次行われる。ここでは、画像６００の中での顔検出の検出スコアが最も高い検出結果６１１に着目する。画像６００には人物が一人しか写っていないため、最も高いスコアを示す検出結果６１１が顔であると考えられる。

次に、この顔検出結果から頭部位置を推定した結果を算出する。この頭部位置推定結果６１２と頭部正解６０１を比較して、頭部推定結果が正しく行われたかを評価する。頭部正解６０１と頭部位置推定結果６１２の評価では、例えば、各位置の中心間距離が所定範囲内であれば、推定結果が正解であるとする。また、他の基準としては、矩形形状の頭部正解６０１と頭部位置推定結果６１２の重複率を算出し、所定の重複率以上を示す結果を頭部推定の正解としてもよい。矩形の重複率αの算出方法としては、例えば、以下の式によって算出できる。

ここで、Ｓ_bは頭部正解の面積、Ｓ_eは推定した頭部範囲の面積、Ｓ_beは頭部正解と推定した頭部範囲の重複した領域の面積である。以上の正解判定を、準備した全ての画像サンプル群に対し実行し、頭部推定が正解となった確率を求めることができる。なお、画像サンプルに対して検出結果自体が得られない場合には、頭部推定は不正解として判定する。
他の検出器についても同様に、頭部推定の正解確率を各検出器について求め、それぞれの正解確率を各検出器の補正係数として利用すればよい。

例えば、図６（Ｄ）では、全身検出器の検出結果から推定した推定頭部位置６３１と頭部正解６０１の位置関係を評価する。図６（Ｄ）では、頭部正解６０１から推定頭部位置６３１が大きくずれているため、全身検出器の頭部推定は不正解となる。図６（Ｄ）のように、全身検出器６３２では、人物全身範囲については概ね正しい位置に結果が得られても、頭部推定位置は正解から外れている場合も多くなる。従って、全身検出器の頭部位置の正解確率は比較的低くなり、補正係数も低くなる。

また、図６（Ｃ）には頭部検出器の検出結果の正解判定を図示している。頭部検出器の結果６２１についても、他と同様に頭部正解との評価を行い、頭部位置を示す性能を評価して補正係数を算出してもよい。頭部検出器では、頭部位置推定を行っていないので、検出結果の位置と頭部正解の評価を行う。

上記の重複率αを用いた補正係数算出では、各画像サンプルで正解・不正解の２値判定により正解確率を算出したが、各画像サンプルでの重複率αの平均値を各検出器の補正係数としてもよい。スコア補正部では、以上のようにして求めた補正係数を検出スコアに乗算することで、各検出結果の補正スコアを算出する。

以上では、同じ検出器の検出スコアについては、常に同じ補正係数によりスコア補正を行う例について説明したが、他のスコア補正方法として、検出スコアに応じてスコアの補正を変化させるようにしてもよい。検出スコアが高い場合には、対象物となる検出部位や検出姿勢などを的確に検出できていることが期待できる。また、その場合の共通部位の推定性能も、低検出スコアの場合に比べて正確であることが期待できる。この影響を考慮すると、検出スコアに応じたスコア補正を行うことが望ましい。

検出スコアに応じてスコア補正を行う場合も、頭部位置が既知な画像サンプル群から、統計的にスコア補正辞書を求めるとよい。前述した頭部位置の正解確率を求める手順では、検出スコアによらず頭部位置推定の正解確率を求めていたが、検出スコアに応じてスコア補正を行う実施形態では、検出スコアごとに頭部位置推定の正解確率を求める。この場合、スコア補正辞書には、検出スコアごとの頭部位置推定の正解確率をルックアップテーブルとして保存する。

図７には、ある検出器についてのルックアップテーブルの例を示している。ここで、説明のため、検出器スコアは−１．０から＋１．０の範囲の出力を行うものとする。図７のルックアップテーブルでは、検出スコアを０．２刻みに分割し、それぞれの範囲の検出スコアでの頭部位置正解確率を求め、正解確率を補正係数としたものを示している。スコア補正部では、スコア補正を行う検出スコアに応じて、ルックアップテーブルから補正係数を選択し、検出スコアに乗じて補正スコアを算出する。

検出スコアに応じたスコア補正では、ルックアップテーブルを利用する方法の他にも、スコア補正辞書に、検出スコアから補正スコアに変換する変換式を保存しておく方法を用いてもよい。例えば、図７のルックアップテーブルの検出スコアと補正係数の関係を、線形式や区分線形式により近似した式をスコア補正辞書に保存してもよい。また、検出スコアと数３によって得られる重複率αの関係をシグモイド型の関数等で近似して変換式としてもよい。スコア補正部では、補正する検出スコアとスコア補正辞書に保存された変換式を用いて補正スコアを算出する。

以上の処理で、各検出器の結果は、推定した頭部位置と補正スコアを持つ。代表結果選択部１５１では、検出結果から代表結果を選択し、人物周辺で重複して出力された検出結果や、異なる検出器の結果から一人の人物を示す結果を出力する。補正スコアは、各検出器が頭部を推定する性能に応じて重み付けられた検出スコアであるため、画像中での極大補正スコアを選択することにより、頭部位置の検出結果を精度良く取得することができる。以下では、画像中で極大となる補正スコアを示す検出結果を代表結果として選択する処理について説明する。

図８は、代表結果選択部１５１の処理手順を説明するフローチャートを示す。
まず、Ｓ８０１では、閾値処理により、低い値を示す補正スコアを除去する。この閾値処理により残った検出結果が、人物と推定される領域であるが、この時点では１人の人物周辺に複数の検出結果が残る。以下のステップでは、複数の検出結果から代表結果を求める処理で、１人の人物に適切に１つの結果を出力することを目的としている。

次に、Ｓ８０２では、Ｓ８０１の閾値処理の結果、検出結果が残っているか否かを判定する。検出結果が残っている場合には、Ｓ８０３に処理を続行し、検出結果が残っていない場合には、入力画像に対象物なしとして処理を終了する。
Ｓ８０３では、画像中の全ての検出結果から、最大の補正スコアを示す検出結果を代表結果として選択する。

複数の検出器の検出結果について、ここまではそれぞれ独立して検出処理や共通部位推定処理、スコア補正処理を行ってきたが、Ｓ８０３では、検出器の種類を問わずに最大の補正スコアを示す検出結果が選択される。選択された検出結果は、最も共通部位を示している可能性が高い最終的な検出結果となる。ここで、代表結果として選択された検出結果は、検出結果の一覧から削除される。

次にＳ８０４では、Ｓ８０３で決定した代表結果と重複している結果を、同一の人物を示す結果として消去する。ここで、重複の判定は、推定した共通部位の位置または範囲に基づいて実施する。重複判定の方法は、数３の式で示したような方法で、２つの共通部位範囲の重複率を算出し、重複率が所定値以上の場合は２つの共通部位が重複していると判定すればよい。
Ｓ８０５では、全ての検出結果の処理が終了したか否かを判定する。終了した場合にはエンドとなるが、Ｓ８０４で、全ての検出結果が消去されなかった場合には、再びＳ８０３に戻り、残りの検出結果から新たな代表結果を選択する。この結果、入力画像中に複数の対象物が存在する場合に、複数の代表結果を出力することができるようになる。

図９は、代表結果選択部１５１の処理を説明する図である。
図９（Ａ）は、代表結果選択部１５１に入力された時点での検出結果で、人物周辺に複数の検出結果が得られている状態である。ここでは図示の都合上、顔検出器の結果については省略しており、頭部検出器の検出結果と全身検出器の検出結果のみを図示している。波線の矩形９０１は全身検出器の結果で、波線の矩形９０２は全身検出器から推定された頭部位置である。

図９（Ａ）では、２つの全身検出器の検出結果と、その頭部推定結果が示されている。これらは、検出処理部で画像中の探索位置を変えながら検出処理を行った結果、人物周辺に複数の検出結果が得られた結果である。また、実線９０３は頭部検出器の検出結果であり、頭部検出器の結果も１人の人物周辺に２つの検出結果が得られているとする。代表結果選択部１５１では、共通部位である頭部位置と補正スコアを用いて、これらの検出結果から代表結果を選択する。

図９（Ｂ）は、図９（Ａ）の検出結果を代表結果選択部１５１で処理した結果で、代表結果の位置として頭部検出結果９０４が得られている。本実施形態では、スコア補正部で、検出スコアを頭部推定性能に基づいた重み付け処理を行っているため、元の検出スコアにも依存するが、頭部検出結果が代表結果として選択されやすい。この結果、複数の検出器を用いて人物を検出する場合に、頭部位置に正しく最終的な検出結果が得られる可能性が高くなる。

例えば、スコア補正を行わずに、検出結果スコアと頭部推定位置を元に代表結果選択を行うと、全身検出器の検出スコアと頭部検出器の検出スコアが同程度の場合、図９（Ｃ）のように、全身検出器の結果９０５が得られる可能性がある。全身検出器の頭部推定位置は比較的信頼性が低いため、最終結果の頭部位置の位置精度は図９（Ｃ）のように、真の頭部位置からずれる傾向にある。

本実施形態では、頭部位置推定の信頼性を考慮したスコア補正を行うことで、検出スコアが同程度の場合にでも、頭部位置を比較的正しく推定している検出結果を代表結果として選択できるようになる。
なお、代表結果選択部では、共通部位である頭部範囲の重複を判定して周辺の結果を統合しているため、図１３のように、周辺の人物の検出結果を統合してしまうことを防ぐことができる。

最後に、図１０のフローチャートを用いて、第１の実施形態の画像処理装置の全体処理を説明する。
まずＳ１００１は画像入力部で、１枚の画像を読み込む処理である。
Ｓ１００２からＳ１００４までは、検出器ごとに独立な処理で、まずＳ１００２では複数の検出処理部で画像に対して検出処理を行う。Ｓ１００２の検出処理の結果、各検出器の検出結果（所定値以上の検出スコアと検出結果位置及び領域）が得られる。

Ｓ１００３では、共通部位推定部で各検出結果について共通部位の位置・範囲を推定する。
Ｓ１００４では、スコア補正辞書とスコア補正部を用いて、各検出結果の検出スコアを補正スコアに変換する。スコア補正により、検出スコアに対して共通部位位置の推定精度に応じた重み付けを行う。

次に、Ｓ１００５では、代表結果選択部において、検出結果の共通部位の位置関係と、補正スコアに基づいて、検出結果から最終的に出力する代表結果を選択する。補正スコアに基づいた代表検出結果の選択を行っているので、最終出力の代表検出結果が示す共通部位位置は、従来よりも検出結果の位置が正しく出力される可能性が高い。
以上のように、本実施形態では、従来の手法に比べ、検出対象物の代表的な部位（共通部位）の検出を、位置精度を向上させて求めることができるようになる。

（第２の実施形態）
第１の実施形態では、検出スコアの値によってスコア補正係数を変更する例を示した。第２の実施形態では、検出結果の検出状態によってスコア補正を変化させる実施形態を示す。なお、本実施形態でも、検出対象物は人物とし、共通部位は人物の頭部とする。また、第１の実施形態で説明した内容と同じ処理については説明を省略する。

検出状態の具体例としては、検出結果が得られた画像中の位置や、検出結果の画像中でのサイズがある。画像中の位置やサイズにより、共通部位推定の性能が変化する可能性があるため、検出結果の検出状態に応じてスコア補正方法を変化させることで、より細かく共通部位の位置推定精度を補正スコアに反映させることができる。

例えば、画像中で大きく写った人物の頭部位置推定は、画像中で小さく写った人物の頭部位置推定に比べて、推定位置が実際の頭部よりもずれやすい。また、監視カメラなどの広い画角のカメラ画像では、画像周辺に歪みが発生するが、画像に歪みが生じている部分では、全身検出器から推定する頭部位置がさらにずれやすくなる。そのため、画像中の検出位置によって、頭部位置の推定性能に差が生じる。

第２の実施形態では、画像中の位置・サイズに応じた補正係数をスコア補正辞書に記録しておく。画像中の位置・サイズに応じた補正係数は、第１の実施形態での検出スコアごとにルックアップテーブルを準備した方法と同様の方法で実施可能である。図７のルックアップテーブルでは、検出スコアを複数の範囲に分割し、それぞれの検出スコアでの頭部正解確率を算出して、それぞれの検出スコアでの補正係数とした。

これと同様に、検出結果の位置に応じてスコア補正を行う場合も、画像中の位置を適当なグリッドに分割して、それぞれのグリッド内での頭部正解確率を求め、補正係数とすればよい。また、検出結果サイズに応じてスコア補正を行う場合も、検出結果のサイズを適当な範囲に分割して、それぞれの検出結果サイズ範囲で頭部正解確率を求め、それぞれの検出結果サイズ範囲での補正係数とすればよい。

検出位置と検出サイズは、検出結果の座標または検出結果から推定した頭部の座標から求めることができる。例えば、検出位置は推定した頭部位置の中心座標とし、検出サイズは推定した頭部範囲の高さと幅の平均ピクセルとして求めることができる。

スコア補正辞書の補正係数（正解確率）を求める手順は、以下のように行う。
まず、頭部位置が既知で頭部正解を持つ画像サンプル群に対し、各検出器で検出処理と頭部位置推定を行う。そして、画像サンプル中での最大検出スコアを示す検出結果の頭部推定位置と頭部正解を比較し、頭部推定位置が正解であるかを評価する。

最大検出スコアを示す検出結果の検出状態（画像サンプル中での検出位置または検出サイズ）ごとに、頭部正解確率を求めることで、各検出状態での正解確率を求めることができ、正解確率を補正係数として利用することができる。スコア補正辞書には、補正係数を検出状態と紐づけてルックアップテーブルとして保存する。なお、検出位置と検出サイズはそれぞれ独立してルックアップテーブルを作成してもよいし、検出位置と検出サイズの２次元のルックアップテーブルを作成してもよい。

スコア補正部では、入力画像に対する検出結果（または頭部推定結果）から、検出状態を算出し、該当する検出条件の補正係数をスコア補正辞書のルックアップテーブルから参照する。そして、補正係数と検出スコアを乗算することで補正スコアを算出する。検出位置と検出サイズを独立したルックアップテーブルで持つ場合、各条件での補正係数を参照し、検出スコアに対して２つの補正係数を乗算することで補正スコアを算出する。

以上、第２の実施形態では、検出状態に応じた頭部位置推定性能によりスコアを補正する方法について説明した。上記の説明では、ルックアップテーブルを用いたスコア補正辞書について説明したが、第１の実施形態と同様に区分線形で表される変換式などで記述してもよい。

（第３の実施形態）
第３の実施形態では、対象物を複数の移動可能なパーツに分割して検出する分割処理部を用いる実施形態について説明する。本実施形態でも、検出対象物は人物とし、共通部位は人物の頭部とする。また、第１の実施形態で説明した内容と同じ処理については説明を省略する。
対象物の微少な姿勢変化などに対応した検出を行うために、パーツベースの検出手法が知られている。パーツベースの検出手法の例として、非特許文献４のような手法がある。
図１１は、パーツベースの検出手法を用いた全身検出器を説明する図である。図１１の点線１１０２は、全身検出器の一つのパーツで、図１１の全身検出器は８個のパーツで構成されている。実線１１０１は、パーツベースの検出の結果得られる全身検出結果である。

図１１の（Ａ）と（Ｂ）では、人物の姿勢が異なるため、検出の結果得られる各パーツ位置も図１１（Ａ）と（Ｂ）では異なる位置に配置している。パーツベースの検出結果では、各パーツの検出スコアと位置関係に基づいて算出される全体としての検出スコアが得られるとともに、図１１の実線や波線で表される対象物や各パーツの位置・範囲の情報が得られる。

以下では、このようなパーツベースの検出器を分割処理部で用いた場合について、検出結果から頭部位置推定（共通部位推定）と頭部位置の信頼度に応じた検出スコア補正を行う実施形態について説明する。

まず、パーツベースの検出器の結果から共通部位推定部で頭部位置を推定する処理について説明する。簡単な場合として、頭部を検出対象とするパーツが含まれる場合には、その頭部パーツ位置を頭部位置推定結果とすればよい。頭部パーツが推定する頭部範囲と一致しない場合（例えば、頭部から肩までを検出対象としたパーツがある場合）、第１の実施形態で説明したように、その頭部パーツ位置と共通部位である頭部位置との関係を定義する。そして、検出結果の頭部パーツから頭部位置を推定すればよい。

一方、図１１のように、頭部を明確に示さないパーツ群で検出器が構成されている場合には、複数のパーツの位置情報を用いて頭部位置１１１１を推定する。複数のパーツの位置情報から頭部位置１１１１を推定する場合には、各パーツの座標情報を並べたベクトルから、推定する頭部位置を線形変換で求めるようにすればよい。８個のパーツから頭部位置の左上ｘ座標ｘ_h1を推定する線形変換式の例は以下の式のようになる。

ここで、Ｘ_pはパーツ座標のベクトル、Ｂ_h1は変換係数ベクトル、ｘ_pn、ｙ_pnはそれぞれｎ番目のパーツの中心座標で、ｂはｘ_h1座標を求めるためのそれぞれの項の変換係数である。頭部推定位置Ｘ_hを求めるためには、異なる変換係数を用いて同様にｙ_h1、ｘ_h2、ｙ_h2を求めればよい。

なお、上記の例では、頭部推定位置のｘ座標であるｘ_h1を求めるために、各パーツのｙ座標も用いているが、ｘ_h1の推定へのｙ座標情報の影響は軽微であるので、これを除いてもよい。また、上記では、各パーツの中心座標のみから頭部位置を推定しているが、検出の結果得られる対象物領域（図１１の実線１１０１）の座標情報や、対象物領域の幅・高さの情報をパーツ座標ベクトルに加えてもよい。

係数ベクトルＢは、頭部の正解基準を与えた画像サンプル群と、その画像サンプル群へのパーツベース検出器の検出結果から最小二乗法により求めることができる。頭部位置を推定する方法は、最小二乗法に限定することなく、頭部位置を目的変数、複数のパーツ位置を説明変数として回帰分析で求めることができる。

なお、パーツベースの検出器において、回帰分析により頭部位置を推定する方法について説明したが、第１の実施形態で示したようなパーツを持たない検出器においても回帰分析により頭部位置を推定してもよい。パーツを持たない検出器の検出結果から回帰式により頭部位置を推定する場合には、検出結果の座標や検出結果の幅、高さの数値を説明変数として回帰式を学習すればよい。
以上の共通部位推定部の処理により、パーツベース検出器の検出結果から頭部位置を推定することができる。

複数のパーツの位置情報を用いて頭部位置を推定する手法では、パーツの位置関係が明らかに頭部位置推定性能に影響を与える。例えば、ある一つのパーツが標準的な検出位置から大きく外れた場合、頭部推定位置にも大きな影響を与えることが考えられる。また、頭部を検出対象とするパーツが含まれる場合に、その頭部パーツ位置を頭部位置推定結果とする頭部位置推定方法でも、頭部パーツ以外のパーツの位置関係や他のパーツの検出スコアによって、頭部推定位置の信頼度を推定できる。例えば、頭部パーツの検出スコアが、他のパーツの検出スコアに比べて著しく低いスコアを示す場合には、頭部パーツの結果の信頼度も低いと推定できる。

以上を考慮して、パーツベースの検出器の検出結果では、各パーツの位置またはスコアに基づいて頭部推定位置の信頼度を求め、補正スコア算出に活用する。以下では、各パーツの位置に基づいて頭部推定位置の信頼度を求める実施形態について、より具体的に説明する。

本実施形態では、パーツ位置が標準的な位置から大きくずれるほど、検出スコアを低下させるスコア補正を行う。そのために、まず、各パーツの標準的な位置を求め、スコア補正辞書に格納することについて説明する。各パーツの標準的な位置は、所定の基準位置からの相対的なパーツ位置の平均位置を求めればよい。

具体的には、頭部パーツに相当するパーツが存在する場合には、頭部パーツの左上座標を基準位置とし、頭部パーツに相当するパーツが存在しない場合には、検出結果範囲の左上座標を基準位置として、基準位置を原点としたときの各パーツ座標の平均位置を求める。ここで、検出サイズの影響を除去するため、各パーツの座標は、頭部パーツの幅と高さの平均や、検出結果範囲の幅と高さの平均により正規化する。

図１１（Ｂ）には、検出結果範囲の左上座標を基準位置１１２１としたときの各パーツの相対座標を矢印１１２２で表している。なお、基準位置は左上座標に限定することなく、頭部パーツや検出結果範囲の中心座標としてもよい。各パーツの平均位置は、予め多くの人物サンプル画像にパーツベース検出器による検出処理を実行し、各パーツの平均位置を求めておき、スコア補正辞書に格納しておく。

スコア補正部では、パーツベース検出器の各パーツ位置と、スコア補正辞書に格納した平均位置を比較し、検出結果のパーツ位置と平均位置との乖離度合いの総計から検出スコアに乗じる補正係数を求める。例えば、各パーツの平均位置と検出結果のパーツ位置との距離をガウス分布で変換し、全パーツの結果を平均したものをスコア補正係数ｃとする。

ここで、ｎはパーツの数、μ_nはｎ番目のパーツの平均位置、Ｘ_pnはｎ番目のパーツの検出結果における正規化座標で、対数の肩の分子は検出結果のパーツ位置とそのパーツのパーツ平均位置の距離を示す。σは、パーツ平均位置を求めるときに分散も求めるようにして、パーツごとに設定しても求めてもよいし、補正係数を作成するのに適した値を設定してもよい。

数５の式により、平均位置から離れたパーツがあるほど、補正係数ｃは小さくなる。スコア補正部では、検出スコアに補正係数ｃを乗じて補正スコアを算出するため、パーツ位置が標準外で、頭部位置推定の結果が信頼できない検出結果については、出力する補正スコアが低い値となる。逆に、検出結果の各パーツ位置が標準的な範囲に存在する場合には、頭部推定の位置も信頼できるとする。

なお、頭部位置の信頼度と関係が深いパーツと、関係が浅いパーツとが存在する場合があるため、上記のガウス関数の出力を重み付き平均することによって、各パーツの影響を制御するようにしてもよい。

最後に、本発明の画像処理装置を構成可能なコンピュータシステムの一例を図１２に示す。
図１２において、１２０１はコンピュータ装置全体を制御するＣＰＵである。１２０２は変更を必要としないプログラムやパラメータを格納するＲＯＭである。１２０３は外部装置などから供給されるプログラムやデータを一時記憶するＲＡＭである。１２０４はコンピュータ装置に固定して設置されたハードディスクやメモリカードなどを含む外部記憶装置である。１２０５はユーザの操作を受け、データを入力するポインティングデバイスやキーボードなどの入力機器とのＩ／Ｆである。１２０６はコンピュータ装置の保持するデータや供給されたデータを表示するための出力装置とのＩ／Ｆである。１２０７はインターネットなどのネットワーク回線に接続するためのネットワークＩ／Ｆである。１２０８は表示画面、１２０９はキーボード、マウスなどよりなる入力装置である。１２００は２０１〜１２０８の各ユニットを通信可能に接続するシステムバスである。
前述した図３、図８、図１０のフローチャートの各処理は、ＲＯＭ１２０２に格納されたプログラムをＲＡＭ１２０３に展開し、ＣＰＵ１２０１が実行することにより実現している。

（その他の実施形態）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（コンピュータプログラム）を、ネットワーク又は各種のコンピュータ読み取り可能な記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

１０１画像入力部
１１１〜１１ｎ検出処理部
１２１〜１２ｎ共通部位推定部
１３１〜１３ｎスコア補正辞書
１４１〜１４ｎスコア補正部
１５１代表結果選択部

Claims

画像中の対象物の異なる状態をそれぞれ検出し、検出結果として検出位置と検出スコアを出力する複数の検出処理手段と、
前記複数の検出処理手段によりそれぞれ検出された検出位置から、前記対象物の共通部位の位置を推定する共通部位推定手段と、
前記複数の検出処理手段の前記共通部位に対する位置推定性能に基づいて、前記検出スコアを補正スコアに変換するスコア補正手段と、
前記共通部位の位置と前記補正スコアとに基づいて、代表検出結果を選択する代表結果選択手段とを
備えることを特徴とする画像処理装置。
前記スコア補正手段は、前記検出処理手段による前記共通部位の推定位置の検出スコアに応じて、前記検出スコアを前記補正スコアに変換することを特徴とする請求項１に記載の画像処理装置。
前記スコア補正手段は、前記検出処理手段による検出状態に基づいて、前記検出スコアを前記補正スコアに変換することを特徴とする請求項１に記載の画像処理装置。
前記検出状態は、前記検出位置または前記共通部位の画像中での位置またはサイズであることを特徴とする請求項３に記載の画像処理装置。
前記共通部位推定手段は、前記検出位置と事前に定義された検出位置からの相対位置に基づいて、共通部位の位置を推定することを特徴とする請求項１乃至４の何れか１項に記載の画像処理装置。
前記共通部位推定手段は、前記検出位置と前記共通部位の位置の関係を予め学習し、学習した結果に基づいて、前記検出位置から前記共通部位の位置を推定することを特徴とする請求項１乃至４の何れか１項に記載の画像処理装置。
前記代表結果選択手段は、前記画像中で極大となる補正スコアを持つ検出結果を前記代表検出結果として選択し、前記代表検出結果の周辺に存在する検出結果を、前記代表検出結果と前記検出結果の共通部位の位置関係とに基づいて消去することを特徴とする請求項１乃至６の何れか１項に記載の画像処理装置。
前記対象物は人物であり、前記共通部位は人物の頭部であることを特徴とする請求項１乃至７の何れか１項に記載の画像処理装置。
前記複数の検出処理手段には、前記対象物の異なる部位を検出対象にした検出処理手段および／または前記対象物の異なる姿勢を検出対象にした検出処理手段を含むことを特徴とする請求項１乃至８の何れか１項に記載の画像処理装置。
対象物を複数のパーツに分割して検出する分割処理手段と、
前記パーツの検出結果から共通部位を推定する共通部位推定手段と、
前記パーツの検出結果に応じた共通部位の位置推定性能に基づいて、検出スコアを補正スコアに変換するスコア補正手段とを
備えることを特徴とする画像処理装置。
前記スコア補正手段は、前記パーツの検出結果と前記パーツの標準的な位置との関係に基づいて、前記検出スコアを前記補正スコアに変換することを特徴とする請求項１０に記載の画像処理装置。
画像中の対象物の異なる状態をそれぞれ検出し、検出結果として検出位置と検出スコアを出力する複数の検出処理工程と、
前記複数の検出処理工程においてそれぞれ検出された検出位置から、前記対象物の共通部位の位置を推定する共通部位推定工程と、
前記検出処理工程における前記共通部位に対する位置推定性能に基づいて、前記検出スコアを補正スコアに変換するスコア補正工程と、
前記共通部位の位置と前記補正スコアとに基づいて、代表検出結果を選択する代表結果選択工程とを
備えることを特徴とする画像処理方法。
画像中の対象物の異なる状態をそれぞれ検出し、検出結果として検出位置と検出スコアを出力する複数の検出処理工程と、
前記複数の検出処理工程においてそれぞれ検出された検出位置から、前記対象物の共通部位の位置を推定する共通部位推定工程と、
前記検出処理工程における前記共通部位に対する位置推定性能に基づいて、前記検出スコアを補正スコアに変換するスコア補正工程と、
前記共通部位の位置と前記補正スコアとに基づいて、代表検出結果を選択する代表結果選択工程とをコンピュータに実行させることを特徴とするプログラム。
請求項１３に記載のプログラムを記憶したことを特徴とするコンピュータ読み取り可能な記憶媒体。