JP2012053756A

JP2012053756A - 画像処理装置及び画像処理方法

Info

Publication number: JP2012053756A
Application number: JP2010196872A
Authority: JP
Inventors: Yasuo Katano; 康生片野
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2010-09-02
Filing date: 2010-09-02
Publication date: 2012-03-15
Anticipated expiration: 2030-09-02
Also published as: US20120057748A1; US8837773B2; JP5675229B2

Abstract

【課題】静止した検出対象の検出精度が低下する問題を避けながら、動き情報を対象物の検出に汎用的に活用できる技術を提供することを目的とする。
【解決手段】時系列に連続する複数の静止画像を入力する入力手段と、入力手段で入力された複数の静止画像のうち、一の静止画像から検出対象物の存在確率を表わす検出対象尤度を求める識別手段と、一の静止画像と時系列に連続する他の静止画像とから検出対象物の動き情報が得られる場合には、動き情報が示す動きの検出対象物の動きとしての妥当性を表す重み係数を算出する算出手段と、算出手段で算出された重み係数に基づき、識別手段で求められた検出対象尤度を評価する評価手段と、を有することによって課題を解決する。
【選択図】図１

Description

本発明は、画像処理装置及び画像処理方法に関する。

時系列に連続した画像から人物や車両のような動物体を検出する場合に、予め画像中から動きのある領域を抽出し、検出処理をかける方法は処理速度、精度の観点からも有効な手段である。
ＨＯＧ（ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）＋ＡｄａＢｏｏｓｔによる人体検出手法等、静止画ベースの人体検出技術には多くの手法が提案されている。これらの方法では、形状やテクスチャの特徴のみを用いて検出を行うことになるため、見た目に検出対象と類似している物体や、ある時間に偶然類似した特徴が発生する場合等、ノイズ・偶発的なテクスチャ・物体の配置等で誤認識が発生することは避けられない。しかし、これらの誤検出は動き情報によって回避することができる場合が多い。
動き領域の抽出方法としては、予め準備した背景情報と現フレームとの画像間差分情報から対象領域を抽出する背景差分法、連続フレームからフレーム間の変動成分を抽出するフレーム間差分法等が知られている。また、Ｌｕｃａｓ−Ｋａｎａｄｅ法やＢｌｏｃｋＭａｔｃｈｉｎｇ法等を用いたオプティカルフロー法等もよく知られている。
しかし、動き情報の抽出のみでの対象物検出法では、影や照明変動等のノイズ成分や、風に揺れる木立のような背景が変動する場合、カメラ自体の移動によって背景情報が変動する場合等、精度のよい検出が困難な状況がある。
したがって、動き情報により事前に興味領域（ＲＯＩ）を限定し、ＲＯＩに対してテンプレートマッチング等の処理を行うことで対象物を検出する手法が開示されている。
例えば、特許文献１では背景差分により抽出した画像領域に対して楕円を当てはめることで人物頭部を検出している。このような従来技術では、動き領域の抽出とテンプレートマッチングとを実行することで対象物の検出精度を向上させている。
また、動きの特徴量化によって人物を検出する例としては、特許文献２及び特許文献３がある。

特開２００７−１６４７２０号公報特開２００６−７９２７２号公報特開２００８−２２５７３４号公報

特許文献１に開示される技術では、対象物が動いていることを前提とするため、検出対象が静止した場合に検出不可能となる問題がある。
背景差分法を用いることで静止している検出対象を抽出することも可能だが、精度のよい検出を行うためには背景情報を逐次的に更新する仕組みが必要となり、検出対象が一定時間静止した場合に検出対象が背景情報に取り込まれて検出不可能となる問題がある。
更に、特許文献２では歩行中の転倒、特許文献３ではエレベータ内での異常行動等、特定の行動のみを選出することを目的としており、特定行動以外の動きを検出することが不可能である。
また、屋外で背後に自動車が走行する状況下等検出対象以外の動きが存在する場合等、動き情報から人物を検出することは困難を極める。
以上のように、従来技術では検出対象が動いたり、静止したりする可能性がある環境下において、動き情報を有効に活用する検出手法が無かった。
例えば、一般生活環境下における人物検出では人物が動かない状況が多く、動き情報から検出する手法のみでは人物を検出できない、若しくは動き情報によって検出精度が低下する状況が頻発する。
しかし、画像中の人体を検出するシステムにおいては、静止画ベースの形状情報のみでなく、動き情報を用いることで検出精度が向上することは明らかである。
静止画ベースでの検出のみでは、誤検出若しくは未検出の問題が発生することは避けられず、動き情報を用いることで除去する検出手法の要望がある。

本発明はこのような問題点に鑑みなされたもので、静止した検出対象の検出精度が低下する問題を避けながら、動き情報を対象物の検出に汎用的に活用できる技術を提供することを目的とする。

そこで、本発明は、時系列に連続する複数の静止画像を入力する入力手段と、前記入力手段で入力された複数の静止画像のうち、一の静止画像から検出対象物の存在確率を表わす検出対象尤度を求める識別手段と、前記一の静止画像と時系列に連続する他の静止画像とから検出対象物の動き情報が得られる場合には、前記動き情報が示す動きの前記検出対象物の動きとしての妥当性を表す重み係数を算出する算出手段と、前記算出手段で算出された重み係数に基づき、前記識別手段で求められた前記検出対象尤度を評価する評価手段と、を有する。

本発明によれば、静止した検出対象の検出精度が低下する問題を避けながら、動き情報を対象物の検出に汎用的に活用できる技術を提供することができる。

画像処理装置の一例を示す図である。実施形態１の画像処理装置の機能構成等の一例を示す図である。時系列に連続する複数の静止画像の入力の一例を示す図である。ＬａｔｅｎｔＳＶＭによって学習されたルートフィルタと６つのパーツの一例を示す図である。候補領域設定部によって、出力された候補領域、及び検出対象尤度の一例を示す図である。候補領域設定部が人物の候補領域を設定するために使用した部分領域情報の一例を示す図である。動き情報算出部によって作成されたフレーム間差分処理による時刻ｔ−１、時刻ｔ間の動き情報と、テンプレート作成部によって作成されたテンプレートと、の一例を示す図である。検出対象尤度を再評価する処理について説明するための図である。実施形態２の画像処理装置の機能構成等の一例を示す図である。

以下、本発明の実施形態について図面に基づいて説明する。

≪実施形態１≫
（構成概要）
以下、人物を検出対象物として実施形態を説明する。人物は動物体であるため、検出に動き情報を利用することは有効である。しかし、人物は常に動いているとは限らない。
以下の実施形態で示す技術は、動き情報が存在しない場合には、画像特徴を用いた検出の成果を尊重し、動き情報が存在する場合には検出対象の動きとして妥当な動き情報かを評価する。このことで誤検出・未検出を防ぎ、動き情報を検出に利用する構成を提供するものである。

図１は、画像処理装置１００の一例を示す図である。図１に示されるように、画像処理装置１００は、ＣＰＵ１と、ＲＡＭ２と、ＲＯＭ３と、ＨＤ４と、を含む。ＣＰＵ１は、ＲＯＭ３又はＨＤ４等に記憶されているプログラムに基づき処理を実行することによって、後述する画像処理装置１００の機能及び後述するフローチャートに係る処理を実行する。ＲＡＭ２は、ＣＰＵ１がプログラムを実行する際に利用されるデータ等を記憶する。ＲＯＭ３は、画像処理装置１００が起動された際に読み込まれるブートプログラム等を記憶する。ＨＤ４は、本実施形態にかかるプログラム等を記憶する。なお、後述するフレームバッファは、ＲＡＭ２に構成されるものとする。なお、説明の簡略化のため省略してあるが、画像処理装置１００は、後述する撮像装置や表示装置との通信等を司るインターフェースに関するハードウェアを有するものとする。

図２は、実施形態１の画像処理装置１００の機能構成等の一例を示す図である。図３は、時系列に連続する複数の静止画像の入力の一例を示す図である。
撮像装置１０１は、時系列に沿った連続画像を取得する撮影装置で、カメラやビデオカメラ等連続で画像を取得可能な装置で構成されている。
撮像装置１０１は固定配置されたカメラを想定しているが、例えばオプティカルフロー等から人物の動き情報を分離可能な部であれば固定配置に限定したものは無く、移動するカメラでも使用することができる。
画像入力部１０２は、撮像装置１０１で取得した連続画像２００から時刻ｔにおいて移動している人物が撮影されている静止画像２１０を取得（又は入力）する。
また、画像入力部１０２は、フレームバッファ１０３に、撮像装置１０１から取得した時刻ｔ−１の静止画像２２０を予め取得しておく。
時刻ｔにおける静止画像２１０には、男性２１１及び２１３と女性２１２とが写っており、本実施形態ではこの３名を検出対象物とする。
フレームバッファ１０３に格納された時刻ｔ−１における静止画像２２０には、時刻ｔにおける静止画像２１０に近接した一定時間前の画像が格納されている。静止画像２２０には、時刻ｔの静止画像２１０と比較して移動していない男性２１３及び移動している男性２２１と女性２２２が写っている。
ここで、図を分かりやすくするために、時刻ｔにおける静止画像２１０に時刻ｔ−１における男性２１１の位置を２２１'として、女性２１２の位置を２２２'として示すが、実際の静止画像２１０には２２１'及び２２２'の映像は写っていない。
これによって男性２１１は、近接した一定時間の間に２２１から２１１へ、女性２１２は、２２２から２２１へ画像中を移動し、男性２１３は移動していないことがわかる。

候補領域設定部１０４は、出力として時刻ｔにおける静止画像２１０における人物の存在確率が高い位置とその形状とを示す候補領域１４１と、候補領域１４１を算出するために作成した人物の存在確率となる検出対象尤度１４２とを出力する。候補領域設定部１０４は、識別手段の一例である。
候補領域設定部１０４は、時刻ｔにおける静止画像２１０から検出対象となる人物３人を検出するための特徴量を抽出する。
特徴量を抽出する方法として、候補領域設定部１０４は、輝度勾配ベースの特徴を算出し、予め準備したテンプレート（学習辞書）により認識処理を行う方法を採用する。
本実施形態では、ＨＯＧ特徴量を用いて候補領域設定部１０４が時刻ｔにおける静止画像２１０中から候補領域１４１を算出する手法として、ＬａｔｅｎｔＳＶＭ（参考文献）による検出手法を例として説明する。
＜参考文献＞
Ｆｅｌｚｅｎｓｚｗａｌｂ、Ｐ．ＭｃＡｌｌｅｓｔｅｒ、Ｄ．Ｒａｍａｎａｎ、Ｄ． "ＡＤｉｓｃｒｉｍｉｎａｔｉｖｅｌｙＴｒａｉｎｅｄ、Ｍｕｌｔｉｓｃａｌｅ、ＤｅｆｏｒｍａｂｌｅＰａｒｔＭｏｄｅｌ"、ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、２００８．ＣＶＰＲ２００８．ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＰｕｂｌｉｃａｔｉｏｎＤａｔｅ：２３−２８Ｊｕｎｅ２００８
ＬａｔｅｎｔＳＶＭでは、学習時に人物全体領域である候補領域１４１に相当する領域を教師データとして、領域中から６個のパーツを抽出するよう設定して学習を行う。
本実施形態では、その結果として図４に示す６個のパーツ３１０〜３１５を抽出することができたものとする。
学習時には各パーツがルートフィルタ３００に対して移動（変形）することを許可することで、変形や個体差を考慮した学習を行うことができる。

候補領域設定部１０４は、この学習結果を基に、ルートフィルタ３００を候補領域１４１として静止画像２１０上に仮定し、各パーツ３１０〜３１５を個別に探索することで静止画像２１０上のパーツごとの尤度マップ（本実施形態では６枚）を作成する。
候補領域設定部１０４は、この尤度マップから仮定したルートフィルタ３００に対して次式（１）のエネルギー関数Ｅから、静止画像２１０中で最も各パーツ尤度が大きく、変形コストの少ないパーツ位置の組み合わせを選択する。

候補領域設定部１０４は、この演算をルートフィルタ３００が存在する可能性のある領域全てに適用し、算出されたエネルギーＥが所定の閾値を越えるものを検出対象候補領域とする。
候補領域設定部１０４は、結果として算出されたエネルギーＥをルートフィルタ３００の検出対象尤度１４２、ルートフィルタ３００の位置及び形状を候補領域１４１とする。
また、候補領域設定部１０４は、検出対象尤度１４２を決定するために使用した各パーツ３１０〜３１５の位置、形状、及び部分領域尤度を部分領域情報１４３として設定することで、検出対象候補領域を設定する。
本実施形態では、候補領域を設定する手法として、ｌａｔｅｎｔＳＶＭを用いたが、これに限定するものではなく、候補領域を設定する手法として部分領域を用いて検出するものであれば他の手法を用いてもよい。
例えば、ＢｏＷ（ＢａｇｏｆＷｏｒｄｓ）でも、ＨＯＧ＋ＡｄａＢｏｏｓｔによる検出手法でも、画像中から候補領域の部分領域を設定し、部分領域ごとに比較を行う手法であれば、どのような手法を用いてもよい。

続いて、動き情報算出部１０５は、フレームバッファ１０３からの時刻ｔ−１の静止画像２２０と、画像入力部１０２からの時刻ｔにおける静止画像２１０と、から、動き情報を算出する。
本実施形態では、動き情報算出部１０５は、静止画像２１０及び２２０の差分を取ることで、画像間で変化している領域を抽出するフレーム間差分法を用いる。このことで、動き情報算出部１０５は、検出対象が移動している物体のエッジ領域での動きを示す動き情報を算出する。
当然、動き情報はこれに限定するものではなく、背景差分法やオプティカルフロー等時間軸方向で変化する情報を記述する方法であれば、他の手法を用いてもよい。
テンプレート作成部１０６は、動き情報算出部１０５において、フレーム間差分を用いる場合にその値がエッジの動きを示すことから、テンプレートとしてＡｖｅｒａｇｅＧｒａｄｉｅｎｔを採用する。
候補領域設定部１０４が大量の学習用データを用いて学習する際に使用された静止画像群に対して正規化したルートフィルタ３００内の画像情報に対してａｖｅｒａｇｅＧｒａｄｉｅｎｔを算出することで、検出対象のエッジ存在確率分布を取得する。
ここで、本実施形態ではテンプレートをＡｖｅｒａｇｅＧｒａｄｉｅｎｔから作成した。しかし、これに限定するものではなく、動き情報を適切に表現する方法であれば、他の方法を用いてもよい。
テンプレート取得部１０７は、候補領域設定部１０４で算出された候補領域１４１、及び部分領域情報１４３を用いて、テンプレート作成部１０６で作成されたテンプレート６３０を変形する。
候補領域設定部１０４の出力する候補領域１４１は、画像中の検出対象の大きさに依存して変形する。そこでテンプレート取得部１０７は、候補領域１４１の形状変化に従い、テンプレートを変形する。

部分領域動き情報取得部１０８は、候補領域設定部１０４からの部分領域情報１４３を基に、部分領域内の動き情報として部分動き情報を出力する。
重み係数算出部１１１は、部分領域動き情報取得部１０８からの部分動き情報と、部分テンプレート取得部１０９からの部分テンプレートと、を基にテンプレートマッチングを行う。
重み係数算出部１１１は、部分領域情報１４３内でのフレーム間差分によるエッジ成分の動き情報と、テンプレート内のエッジの存在確率情報とから、部分領域内の部分動き情報がテンプレートに含まれる検出対象のエッジに由来するものかどうかを比較する。そして、重み係数算出部１１１は、部分領域尤度を更新することで、重み付き部分領域尤度を算出する。重み付き部分領域尤度は、動き情報が示す動きが検出対象物の動きとして妥当性があるか否かを表す重み係数の一例である。
こうすることで、画像中で動いている領域が検出対象の動きに由来する場合には高い重みを持ち、動いていたとしても検出対象の動きに由来する成分が少ない場合に重みが低くなる。
検出対象尤度再評価部１１２は、重み付き部分領域尤度から候補領域設定部１０４にて算出された検出対象尤度１４２を再評価し、動きによって再評価された候補領域を出力する。検出対象尤度再評価部１１２は、評価手段の一例である。
表示装置１１３では、この結果（再評価された候補領域）を表示することで使用者に検出結果を提示する。

（模式図による効果説明）
以下では図５、６、７を参照し、本実施形態における動作概要と効果とについて、図３の時刻ｔにおける静止画像２１０及び時刻ｔ−１における静止画像２２０から、検出対象である人物２１１〜２１３を検出する例を用いて説明する。
図５は、候補領域設定部１０４によって、出力された候補領域１４１、及び検出対象尤度１４２の一例を示す図である。
候補領域設定部１０４によって静止画像２１０中の人物の候補領域４１１〜４１７が検出されたものとする。
また、それぞれの人物の候補領域４１１〜４１７に対応する検出対象尤度４１１Ｌ〜４１７Ｌが出力されたものとする。
候補領域設定部１０４では、閾値４５０を用いて人物の候補領域４１１〜４１７から以下の４領域を設定したものとする。
検出対象尤度４１１Ｌ、４１４Ｌから、人物２１１の候補領域４１１、４１４が検出されている。
検出対象尤度４１２Ｌは、人物２１２の候補領域ではあるが、閾値未満のため未検出となっている。
検出対象尤度４１３Ｌから、人物２１３の候補領域４１３が検出されている。
また誤検出として、検出対象尤度４１５Ｌから候補領域４１５が検出され、検出対象尤度４１６Ｌ、４１７Ｌは、閾値４５０未満のため誤検出を除去できているものとする。
以上より、静止画像ベースの人物検出では人物２１１の結果から２名分、人物２１２は未検出で、人物２１３として一人分検出されている状態となっている。画像処理装置１００は、この結果を踏まえて、動き情報を用いて再評価を行う。

図６は、候補領域設定部１０４が人物２１１の候補領域４１１、４１４を設定するために使用した部分領域情報の一例を示す図である。
候補領域設定部１０４は、候補領域４１１の部分領域５１０〜５１５の情報、候補領域４１４の部分領域５２０〜５２５の情報、をそれぞれ出力する。
図７は、動き情報算出部１０５によって作成されたフレーム間差分処理による時刻ｔ−１、時刻ｔ間の動き情報６１０と、テンプレート作成部１０６によって作成されたテンプレート６３０と、の一例を示す図である。
ここで領域６１１、６１２、６１３は、それぞれ人物２１１、２１２、２１３に対応した動き情報を示す。図７より人物２１３は、このフレーム間でほとんど動いていないため、動き情報はほとんど存在しないことが分かる。
動き情報算出部１０５において取得するフレーム間差分法による動き情報は、エッジ領域の動き情報を表現している。
そこで、テンプレート作成部１０６では、ルートフィルタ内における検出対象のエッジ領域の存在確率を示すために、複数の検出対象画像からＡｖｅｒａｇｅＧｒａｄｉｅｎｔ（以下、ＡＧという）を算出し、テンプレートとする。

テンプレート作成部１０６は、候補領域設定部１０４において候補領域を学習するために収集し正規化された人物画像データ群から、各画像にＳｏｂｅｌＦｉｌｔｅｒ等のエッジ抽出フィルタをかけて抽出したエッジ画像を加算平均する。テンプレート作成部１０６は、このような処理を行うことでＡＧを取得し、この画像をテンプレート６３０として設定する。
テンプレート作成部１０６は、テンプレートの作成においては、学習時に算出した各パーツ３１０〜３１５に対して、各パーツの重心点が基準点となるよう各画像データ群を位置合わせして加算平均することによって、部分領域ごとに異なるＡＧを算出する。
これは、頭部のパーツ３１０の重心点を原点として加算平均を行う場合、足先付近の３１５部分ではばらつきが大きくなり、ＡＧの存在確率が拡散するためである。したがって、テンプレート作成部１０６は、パーツごとにパーツに着目したテンプレートを作成する。図７の（ｂ）で示される６４０は、頭部部分領域に対応したテンプレート（頭部部分領域テンプレート）である。
本実施形態では、テンプレート６３０を学習に使用した画像データ群から生成したが、これに限定するものではなく、テンプレート内の動き情報の特徴を示す情報であれば、画像中のＨＯＧ特徴量の統計情報を用いてもよい。又は、動き情報に領域の動きを反映したオプティカルフローと、実画像の平均値をＧｒａｐｈ−Ｃｕｔ法等のセグメンテーション手法とを用いて領域抽出したテンプレートを用いるようにしてもよい。また、背景差分法を用いたテンプレートを組み合わせて、領域ベースの動き情報テンプレート等、エッジに限らず再評価に有効なテンプレートを使用してもよい。

（人物２１１の検出）
以上の結果から、候補領域設定部１０４において算出された検出対象尤度１４２を、候補領域４１１の動き情報に基づいて再評価を行う処理の一例を示す。
部分領域選出部１１０では、部分領域尤度を用いて候補領域検出時に貢献度の高い部分領域と、頭部部分領域等予め信頼性が高いと思われる領域と、を優先的に設定する。
これは、貢献度の高いパーツで比較することで、隠蔽等の影響を除去するためである。ここでは、高貢献度領域として頭部部分領域５１０が選出されたものとする。
なお、本実施形態では、部分領域選出部１１０にて単一の部分領域を選出したが、これに限定するものではなく、複数の部分領域を選出（又は抽出）してもよい。
また、部分領域選出部１１０で高尤度の部分領域を抽出したが、これに限定するものではなく、閾値付近等、誤検出を除去するに適した尤度領域を設定してもよい。また、部分領域選出部１１０は、部分領域の位置情報のみから部分領域を選出する等してもよい。
部分領域動き情報取得部１０８は、候補領域４１１中の頭部部分領域５１０の情報を基に、動き情報算出部１０５の出力する動き情報６１０から頭部部分領域の動き情報６２１を抽出する。
部分テンプレート取得部１０９は、部分領域選出部１１０から選出された頭部部分領域５１０に対して、テンプレート６３０から頭部部分領域テンプレート６４０を抽出する。

以上の結果を基に、重み係数算出部１１１は、頭部部分領域テンプレート６４０に対して頭部部分領域の動き情報６２１を用いてマスキングする。

式２のＡＥＲＥＡ_tempは頭部部分領域テンプレート６４０におけるエッジ存在確率を示す。
式３のＡＥＲＥＡ_headは、テンプレート６４０上の各位置におけるエッジの存在確率に、頭部部分領域の動き情報６２１を０．０〜１．０に正規化した係数をかけることで、テンプレート６４０の頭部由来のエッジがどの程度実際に動いているかを表す。
重み係数算出部１１１は、式４を用いて動きによる重み係数：ｗ_headを算出する。
ここで、重み係数：Ｗ_headは、頭部部分領域５１０内の動き情報６２１が頭部部分領域テンプレート６４０のエッジ存在確率と一致するほど大きな値となり、ほとんど一致しない場合、若しくは動き成分が存在しない場合、ほぼ１．０となる。
図８は、検出対象尤度を再評価する処理について説明するための図である。
検出対象尤度再評価部１１２は、重み係数ｗ_headを基に検出対象尤度４１１Ｌを７１１Ｌに変更する。この操作によって候補領域４１１の尤度は上昇し、再評価時に閾値７５０によって、再評価した場合にもその閾値を超える尤度を持つため、人物２１１の検出結果として出力する。

（人物２１２の検出）
画像処理装置１００は、候補領域４１１の場合と同様の処理によって、候補領域４１２についての再評価を行う。その結果、検出対象尤度４１２が７１２Ｌに上昇し、閾値７５０を超える尤度を得ることによって、候補領域設定部１０４では検出不可能であった人物２１２を検出することができる。
（人物２１３の検出）
動いていない人物２１３の場合、候補領域４１３に対応する動き領域６１３はほぼゼロとなり、動き情報による再評価の成果が期待できない。しかし、検出対象尤度４１３Ｌが大きく、検出対象としての尤度が高ければ、再評価後検出尤度７１３Ｌはほぼ同値となるが閾値７５０を超えるため、検出される可能性が高い。

（候補領域４１４の再評価）
図７の頭部部分領域６３１に示すように、部分領域選出部１１０から選出された頭部部分領域５２０は、候補領域４１４の大きさの影響を受けて、大きい領域が確保される。
重み係数算出部１１１は、頭部部分領域６３１と頭部部分領域テンプレート６４０とから、重み係数ｗ_headを算出すると、候補領域４１１と比較して、小さい重み係数ｗ_headとなる。したがって、再評価後の検出対象尤度７１４Ｌは、閾値７５０を超えない可能性が増え、誤検出として除去される可能性が高まる。
（候補領域４１５の再評価）
重み係数算出部１１１は、部分領域選出部１１０から選出された頭部部分領域５２０から、候補領域４１５の頭部部分領域６２２に対して重み係数ｗ_headを算出する。すると、頭部部分領域テンプレート６４０と一致する領域が少ないため、ほぼ１．０となり、動きによる尤度向上はほとんど見られない。
閾値付近でぎりぎり検出された候補領域４１５は、設定した閾値７５０が閾値４５０より高い場合、相対的に動いていない物体の検出対象尤度が低下し、除去される可能性が高まる。
以上説明したように、画像処理装置１００によれば、動体である対象物が静止する可能性がある場合や、検出対象尤度が閾値未満でも、動き情報を用いて再評価することで、検出対象尤度を向上したり、誤検出した検出対象を除去したりすることができるようになる。

≪実施形態２≫
実施形態１では、候補領域設定部１０４によって検出された静止画での候補領域の検出結果を基に、検出対象尤度再評価部１１２において動き情報を用いた静止画ベースの検出対象尤度１４２を再評価する実施形態について説明した。
実施形態２では、候補領域設定部１０４内（識別手段内）に検出対象尤度再評価部１１２を内包する構成として、ＨＯＧ＋ＡｄａＢｏｏｓｔによる人物検出手法を用いて説明する。

（構成概要）
図９は、実施形態２の画像処理装置１００の機能構成等の一例を示す図である。
ＨＯＧ＋ＡｄａＢｏｏｓｔによる検出器８０４では、画像入力部１０２で取得した静止画像中にスライディングウィンドウ等、適切な方法を用いて候補領域１４１を仮定する。
ＨＯＧ特徴量算出部８１１〜８１３は、候補領域１４１をセル、ブロック単位に分割し、各ブロックにおけるＨＯＧ特徴量を算出する。
各ＨＯＧ特徴量算出部８１１〜８１３からのＨＯＧ特徴量を弱識別器８２１〜８２３にかけることによって、静止画像ベースでの各ＨＯＧ特徴量の検出対象尤度１４２を算出する。
ここで、部分領域選出部１１０は、上記のＨＯＧ特徴量を部分領域とし、部分領域動き情報取得部１０８へ部分領域情報１４３として、部分領域を選出する。
ここで、部分領域選出部１１０は、予め学習用画像を８６１〜８６９のように領域分割し、剛体と近似できる領域をそれぞれ分割しておき、その結果を基に同一剛体とみなすことのできる部分領域のセットを作成する。

部分領域動き情報取得部１０８は、動き情報算出部１０５で取得された動き情報に対して、部分領域における動き情報としてオプティカルフローを算出する。
重み係数算出部１１１は、部分領域選出部１１０によって選出された部分領域情報セット内の各部分領域動き情報から、動きベクトルの方向・大きさのコヒーレンシーから各部分領域が同一剛体の動きであるかを評価することで、重み係数を算出する。
以上から算出した重み係数を尤度再評価部８３１〜８３３に加えることで、カスケード識別部８０１でのＡｄａＢｏｏｓｔによる評価を動き情報によって再評価された尤度で行い、検出部８０２へ出力する。
上記の操作によって、弱識別器によるカスケード識別部に動き情報による再評価を加えた物体認識装置（画像形成装置）を形成することができる。

＜その他の実施形態＞
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

以上、上述した各実施形態によれば、静止した検出対象の検出精度が低下する問題を避けながら、動き情報を対象物の検出に汎用的に活用できる技術を提供することができる。

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１００画像処理装置

Claims

時系列に連続する複数の静止画像を入力する入力手段と、
前記入力手段で入力された複数の静止画像のうち、一の静止画像から検出対象物の存在確率を表わす検出対象尤度を求める識別手段と、
前記一の静止画像と時系列に連続する他の静止画像とから検出対象物の動き情報が得られる場合には、前記動き情報が示す動きの前記検出対象物の動きとしての妥当性を表す重み係数を算出する算出手段と、
前記算出手段で算出された重み係数に基づき、前記識別手段で求められた前記検出対象尤度を評価する評価手段と、
を有する画像処理装置。
前記識別手段内に前記評価手段を内包する構成とする請求項１記載の画像処理装置。
画像処理装置が実行する画像処理方法であって、
時系列に連続する複数の静止画像を入力する入力ステップと、
前記入力ステップで入力された複数の静止画像のうち、一の静止画像から検出対象物の存在確率を表わす検出対象尤度を求める識別ステップと、
前記一の静止画像と時系列に連続する他の静止画像とから検出対象物の動き情報が得られる場合には、前記動き情報が示す動きの前記検出対象物の動きとしての妥当性を表す重み係数を算出する算出ステップと、
前記算出ステップで算出された重み係数に基づき、前記識別ステップで求められた前記検出対象尤度を評価する評価ステップと、
を有する画像処理方法。