JP2014203133A

JP2014203133A - 画像処理装置、画像処理方法

Info

Publication number: JP2014203133A
Application number: JP2013076450A
Authority: JP
Inventors: 八代　哲; Satoru Yashiro; 哲八代; 直嗣佐川; Naotada Sagawa; 睦凌郭; Bokuryo Kaku
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-04-01
Filing date: 2013-04-01
Publication date: 2014-10-27

Abstract

【課題】物体の検出精度を向上させるための技術を提供する。
【解決手段】画像処理装置は、複数の学習画像を用いて、入力画像が検出対象とする物体か否かの判別を行う判別器を学習する画像処理装置であって、前記複数の学習画像の各々の位置に対応した重要度を示す重要情報マップを生成する重要情報マップ生成手段と、前記重要情報マップに基づいて前記判別器の精度を評価する評価手段とを備える。
【選択図】図１

Description

本発明は、被写体検出技術に関するものである。

画像から顔や人などの被写体を検出する技術の例としては、特許文献１がある。この技術では、入力されたパターンが検出対象か否かを判定する強判別器をカスケード接続する事で高速かつ高精度な検出を実現している。強判別器は、複数の弱判別器により構成される。各弱判別器はＡｄａＢｏｏｓｔ学習によって信頼度が設定されており、強判別器は弱判別器の判別結果を信頼度に基づいて統合して判別結果を得る。弱判別器は、勾配方向ヒストグラム特徴量（ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）に基づいて検出対象か否かを判別する。

勾配方向ヒストグラム特徴量は、人体のように姿勢変動があり、かつ服装などによる見えの変化がある様な検出対象に対して頑健といわれる特徴量である。勾配方向ヒストグラム特徴量は、ブロックと呼ばれる矩形領域と、ブロックを格子状に分割したセルを単位として特徴抽出を行うことで得られる。勾配方向ヒストグラム特徴量は、各画素について勾配強度と勾配方向を求め、セル内の各画素の勾配強度の和を勾配方向別に求めたものを、ブロック内の勾配強度の総和で割ることで得られる。ＡｄａＢｏｏｓｔ学習によって各弱判別器において、入力パターン上の様々な位置、サイズの中から判別に有効なブロック領域が１つずつ選ばれる。

また、特許文献２は、画像から物体を検出するもので、画像のエッジを参照し、焦点が合っているかを評価して前景と背景を分離し、前景から認識すべき物体を検出するようにしている。そして、背景から分離した前景画像を用いてＡｄａＢｏｏｓｔによる学習を行って判別器を生成している。

米国特許出願公開第２００７／０２３７３８７号明細書特開２００９−６９９９６号公報

Ａ．Ｙｉｌｍａｚ，Ｏ．Ｊａｖｅｄ，ａｎｄＭ．Ｓｈａｈ．Ｏｂｊｅｃｔｔｒａｃｋｉｎｇ：Ａｓｕｒｖｅｙ．ＡＣＭＣｏｍｐｕｔ．Ｓｕｒｖ．，３８（４），２００６．

しかしながら、上記の従来技術には下記に述べるような課題がある。

特許文献１では、手を広げる等の人体の様々な姿勢に対応するために、入力するパターンは標準的な人体サイズよりも広く定義する。そのため、パターン内には検出対象とは無関係な背景を含んでいるが、検出したい対象なのか背景なのかを区別していない。従って、特定の背景領域を被写体の一部であるとして誤って学習してしまうため、検出精度が背景の影響を受けやすいという問題があった。

特許文献２では、焦点が合っているか否かによって前景と背景を分離するようにしているが、被写体を認識する精度は、前景と背景を分離する精度に依存してしまう。例えば、２人の人物がほぼ同じ距離に重なって見えるような場合は夫々の人物画像が分離できない。そのため、被写体を正しく検出できなくなってしまうという問題がある。

本発明はこのような問題に鑑みてなされたものであり、物体の検出精度を向上させるための技術を提供することを目的とする。

本発明の目的を達成するために、例えば、本発明の画像処理装置は、複数の学習画像を用いて、入力画像が検出対象とする物体か否かの判別を行う判別器を学習する画像処理装置であって、前記複数の学習画像の各々の位置に対応した重要度を示す重要情報マップを生成する重要情報マップ生成手段と、前記重要情報マップに基づいて前記判別器の精度を評価する評価手段とを備えることを特徴とする。

本発明の構成によれば、物体の検出精度を向上させることができる。

画像処理装置の機能構成例を示すブロック図。画像処理装置のハードウェア構成例を示す図。検出フェーズのフローチャート。被写体検出の原理を説明する図。辞書の構成例を示す図。機械学習フェーズのフローチャート。辞書生成処理の詳細を示すフローチャート。学習画像及び重要情報マップの一例を示す図。画像処理装置のハードウェア構成例を示す図。

以下、添付図面を参照し、本発明の好適な実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載の構成の具体的な実施例の１つである。

［第１の実施形態］
先ず、本実施形態に係る画像処理装置の機能構成例について、図１のブロック図を用いて説明する。もちろん、この機能構成はあくまでも一例であり、例えば、１つの機能部を複数の機能部で実現させても良いし、複数の機能部を１つの機能部で実現させても良い。即ち、図１に示した構成がなし得る機能と同等の機能を示現する構成であれば、如何なる構成を採用しても良い。

画像入力部１０１は、外部から本装置に入力された若しくは本装置内の不図示のメモリから読み出した各フレームの画像を受けると、これを順次、被写体検出部１０２に対して送出する。

被写体検出部１０２は、上記の強判別器を用いて、画像入力部１０１から送出された画像から被写体を検出する。この検出では、画像内における被写体の位置及び被写体のサイズを特定する。なお、被写体検出部１０２は、フレームレートの関係や処理負荷の関係で、現フレームに割り当てられた処理時間内で被写体検出ができなかった場合には、現フレームの前後の検出結果を用いて被写体の検出位置及び検出サイズを推定するようにしても良い。また、現フレーム及びそれ以前のフレームにおける被写体検出位置から次のフレームにおける被写体検出位置を推定し、次のフレームではその推定された被写体検出位置近傍で被写体検出を行うようにしても良い。非特許文献１で紹介されているような各種の追尾方法が適用可能である。

学習部１０４は、被写体検出部１０２が被写体検出で用いる強判別器を構成する弱判別器が参照可能な判別パラメータ（以下、判別パラメータを、それを用いる弱判別器と同一視して説明する場合がある。）を、機械学習によって獲得する。学習部１０４は、正規化画像生成部１０５、重要情報マップ生成部１０６、評価部１０７、選択部１０８、辞書生成部１０９、を含む。

正規化画像生成部１０５は、被写体検出部１０２が被写体検出を行うために画像上で移動させる枠（後述する検出ウィンドウ）と同サイズの画像であって、被写体を含む画像（第１の画像）、被写体を含まない画像（第２の画像）、を学習画像として取得する。

重要情報マップ生成部１０６は、学習画像内で被写体検出を行う際に、該学習画像内で重要な箇所（重要領域）、非重要な箇所のそれぞれを異なる値で管理するマップである重要情報マップを生成する。例えば、被写体の輪郭や被写体の存在する領域はその他の領域に比べて被写体検出（被写体が写っているか否かの判別）に有効な為に「重要な箇所」となり、その他の領域は「非重要な箇所」となる。この場合、重要な箇所は、非重要な箇所よりも重要度が高く設定される。この重要度が、重要情報マップで管理されている。

評価部１０７は、上記強判別器が有する弱判別器が参照可能な複数種の判別パラメータのそれぞれを仮説として作成し、それぞれの仮説に基づく判別精度を、上記の重要情報マップに基づいて評価する。

選択部１０８は、評価部１０７による評価の結果、複数種の判別パラメータのうち判別精度が最も高い判別パラメータを新弱判別器として選択する。辞書生成部１０９は、選択部１０８により選択された判別パラメータを新弱判別器として上記の強判別器に含めることで、強判別器が判別で用いる辞書を生成する。

次に、画像処理装置が行う処理について説明する。なお、本実施形態では、画像から検出可能な被写体であれば、被写体の種類は特定の種類に限るものではない。然るに、被写体は、歩行者などの人体であっても良いし、車椅子やベビーカー、自転車などに乗車した人物やショッピングカートなどを押す人物、動物、車両、物体などであっても良い。

また、画像処理装置の動作は、画像から被写体を検出する検出フェーズと、該検出のための被写体の機械学習フェーズと、に大別される。以下では、この２つのフェーズのそれぞれについて説明する。

先ず、検出フェーズについて、図３のフローチャートを用いて説明する。ステップＳ３０１では、画像入力部１０１は、本装置に入力された若しくは本装置内から読み出した画像を受け、これを被写体検出部１０２に送出する。本実施形態では、画像入力部１０１には、３０フレーム／秒のフレームレートで各フレームの画像が順次入力されるものとし、該各フレームの画像は、縦４８０画素、横６４０画素のサイズを有するものとする。もちろん、各フレームの画像のサイズやフレームレートはこの例に限るものではない。また、各フレームの画像は２値画像であっても良いし、カラー画像であっても良い。

ステップＳ３０２では、被写体検出部１０２は、上記の強判別器を用いて、画像入力部１０１から送出された入力画像から被写体を検出する。画像中に写っている被写体を検出するための技術には様々な技術があるが、ここでは一例として上記の特許文献１に開示されている技術を適用する。即ち、図４に示すように、入力画像を段階的に縮小した縮小画像４０１上で検出ウィンドウ４０２を走査し、検出ウィンドウ４０２内の画像（パターン画像）に被写体が存在するか否かを、上記の強判別器を用いて（辞書に基づいて）判別する。本実施形態では、この検出ウィンドウ４０２のサイズは、縦１２８画素、横６４画素であるものとし、その中央に立位状態で高さ９６画素の人物（被写体）が写っているか否かを判断するものとする。なお、検出ウィンドウ４０２のサイズは、この例に限るものではない。

ここで、被写体検出部１０２が画像から被写体検出を行うために用いる辞書について説明する。この辞書の構成例を図５に示す。辞書には、強判別器を構成する弱判別器の数５０１が登録されている。また、この辞書には、数５０１の分だけ弱判別器（第１弱判別器５０２、第２弱判別器５０３、…第ｎ弱判別器５０４）が登録されている。

第１弱判別器５０２、第２弱判別器５０３、…第ｎ弱判別器５０４のそれぞれは同じ構成を有しているが、それぞれの弱判別器のパラメータ値は異なる。ここで、第１弱判別器５０２を例にとって、各弱判別器の構成を説明する。

５０５は勾配方向ヒストグラム特徴量のブロック領域であり、検出ウィンドウ内における１つ分の矩形の位置とサイズが格納される。５０６は勾配方向ヒストグラム特徴量のセル領域であり、検出ウィンドウ内における１つ分の矩形の位置とサイズが格納される。５０７は勾配方向番号であり、勾配方向ヒストグラム特徴量の勾配方向の番号である。勾配方向番号は、０度から１８０度までの区間を８分割し、そのうちの１つを識別する番号である。５０８は特徴量符号、５０９は特徴量閾値、５１０は信頼度であり、何れも判定式で用いられる値である。

検出ウィンドウ内に被写体が写っているか否かの判断は、各弱判別器の出力結果から総合的に判断する以下の式に従って行い、Ｈ（ｘ）≧０であれば、検出ウィンドウ内の画像（正規化画像）ｘには被写体が写っていると判断する。一方、Ｈ（ｘ）＜０であれば、検出ウィンドウ内の画像ｘには被写体が写っていないと判断する。

ここで、ｓｉｇｎ（ｐ）は、数ｐの符号を返す関数であり、ｐ＞０であれば＋１を返し、ｐ＝０であれば０を返し、ｐ＜０であれば−１を返す。また、Ｔは弱判別器の数を示す変数であり、辞書に登録されている数５０１に一致する。αｔ（１≦ｔ≦Ｔ）は、強判別器を構成する弱判別器のうちｔ番目の弱判別器に対する信頼度で、辞書に登録されているｔ番目の弱判別器の信頼度５１０に一致する。ｈｔ（ｘ）は、強判別器を構成する弱判別器のうちｔ番目の弱判別器の出力関数であり、以下の性質を有する。

ここで、ｆｔ（ｘ）は、画像ｘの関数であり、本実施形態では、勾配方向ヒストグラム特徴量である。ｐｔは特徴量符号であり、−１または＋１の何れかである。βｔは特徴量閾値５０９である。勾配方向ヒストグラム特徴量は、セル領域５０６内の所定の方向番号５０７の勾配強度をブロック領域５０５内の全方向の勾配強度で割ったスカラー値である。

特許文献１と本実施形態とで勾配方向ヒストグラム特徴量は２つの相違点がある。第１に、特許文献１はブロック領域を格子状に分割し、その１つをセル領域としていた。本実施形態では、セル領域はブロック領域と同様に検出ウィンドウ内の任意の位置、サイズをとる。第２に、特許文献１はブロック内の全てのセルの全ての方向の特徴量を用い、これを判別空間に射影してスカラー値を得ていた。本実施形態では、１つのセルの１つの方向の特徴量を選択してスカラー値を得ている。

なお、本実施形態では勾配方向ヒストグラム特徴量について説明したが、これに限ったものではない。正規化画像の一部の領域を参照して特徴量を算出するものであれば、特許文献１で提案されている特徴量でもよいし、どの様な手法も利用する事が出来る。

このようにしてステップＳ３０２では、画像から被写体の位置及びサイズを検出する。そしてこの検出した位置及びサイズは、検出元の画像と関連付けて本装置内の不図示のメモリに格納する。

なお、上記の式１（Ｈ（ｘ）を求めるための式）ではｔ＝１，２，…，Ｔについて総和を求めている。ここで、その途中ｔ＝ｔｎの時点までの総和に対して、被写体が存在しないと判定する閾値ｔｈｎを予め設定しておき、ｔ＝１〜ｔｎの総和が閾値ｔｈｎを下回った場合は、ｔ＝ｔｎ＋１〜Ｔの総和計算を打ち切るようにしてもよい。このような途中段階での判定を行うことで判定処理を少ない演算量で行うことができる。

そして、全てのフレームについてステップＳ３０１，Ｓ３０２の処理を行った場合には、図３のフローチャートに従った処理は終了する。一方、まだステップＳ３０１，Ｓ３０２の処理を行っていないフレームが残っている場合には、処理はステップＳ３０４を介してステップＳ３０１に戻り、次のフレームについてステップＳ３０１，Ｓ３０２の処理を行う。

次に、機械学習フェーズについて、図６のフローチャートを用いて説明する。本実施形態では、本装置を設置した環境における画像を用いて機械学習を行って辞書を生成（更新）するケースについて説明するが、如何なる環境における機械学習にも、以下に説明する処理は適用可能である。

ステップＳ６０１では、図３のフローチャートに従った処理を一定時間実行する。これにより、昼夜等の照明条件や天候、季節など様々な環境下における各フレームの画像を取得することができると共に、該画像から被写体の位置及びサイズを検出することができる。画像から検出した被写体の位置やサイズは、該画像と関連付けて、本装置内の不図示のメモリに格納する。なお、特に最適化したい環境がある場合には、その環境下における各フレームの画像を被写体の検出対象とすべきである。

なお、様々な環境下における各フレームの画像と、該画像から検出した被写体の位置及びサイズと、が予め本装置内の不図示のメモリに格納されている場合には、ステップＳ６０１は必要ない。

ステップＳ６０２では正規化画像生成部１０５は、ステップＳ６０１で取得した若しくは本装置内の不図示のメモリに予め格納されている「様々な環境下における画像群」から、被写体を含む正規化画像、被写体を含まない正規化画像、を生成する。図８に示した画像８０１は、被写体を含む正規化画像の一例である。何れの正規化画像も、検出ウィンドウと同サイズの輝度画像であるが、正規化画像はカラー画像であっても良い。正規化画像中の被写体の位置やサイズは検出ウィンドウ内でのそれと同じである。判定精度を向上させるためには大量の正規化画像が必要であるが、その分処理時間がかかるので、両者の兼ね合いによって生成枚数を決定すればよい。

なお、「様々な環境下における画像群」から、被写体を含む正規化画像、被写体を含まない正規化画像を生成する方法については特定の方法に限るものではなく、如何なる方法を採用しても良い。例えば、正規化画像生成部１０５が「様々な環境下における画像群」のうちいくつかを選択し、選択したそれぞれの画像に対して、複数個の検出ウィンドウを配置し、該配置した検出ウィンドウ内の画像を正規化画像として取得する。このような正規化画像には、被写体を含む正規化画像もあれば、被写体を含まない正規化画像もある。もちろん、正規化画像生成部１０５がステップＳ６０１で検出した被写体の位置やサイズを考慮し、意図的に被写体を含むような正規化画像と含まないような正規化画像を生成しても良い。このような正規化画像の生成は、ユーザ指示（画像選択指示など）に応じて正規化画像生成部１０５が行うようにしても良い。

次に、ステップＳ６０３では、学習部１０４は、ステップＳ６０２で生成したそれぞれの正規化画像に対し、被写体を含む正規化画像であるか否かを示すラベルを付与する。例えば、正規化画像中の被写体の位置と該正規化画像の中心位置との間の距離がｄ１以内であれば、該正規化画像に対してラベル「１」を付与する。また、正規化画像中の被写体の位置と該正規化画像の中心位置との間の距離がｄ２よりも大きい場合や、そもそも該正規化画像から被写体が検出されなかった場合には、該正規化画像に対してラベル「−１」を付与する。

ここで、ｄ１≠ｄ２であることに注意されたい。即ち、正規化画像の中心位置から距離ｄ１〜ｄ２の間に被写体が位置するような正規化画像に対してはラベルを付さず、以降の処理では用いないものとする（学習画像としては用いない）。

各正規化画像中の被写体の位置については、各正規化画像に対して被写体検出部１０２と同様の処理を行うことで、該正規化画像内に被写体が位置するか否か、位置していれば、その位置とサイズを検出することができる。また、正規化画像の生成の時点で、どの正規化画像に被写体が含まれているのか、が分かっていれば、その位置に応じてこの時点でラベルを付与するようにしても良い。

何れにせよ、検出ウィンドウと同サイズを有する正規化画像群（被写体を含む正規化画像と被写体を含まない正規化画像から成る）を得ると共に、それぞれの正規化画像に対するラベルを得ることができれば、その処理内容は上記の例に限らない。

次に、ステップＳ６０４では、重要情報マップ生成部１０６は、ラベル「１」が付与された正規化画像に対し、該正規化画像内で重要な箇所、非重要な箇所のそれぞれを異なる値で管理するマップを示す重要情報マップを生成する。

図８に示した画像８０１に対して生成した重要情報マップの一例を、画像８０２，８０３として示す。画像８０２，８０３の何れも、被写体判定に対する重要度を画素値として表した画像であり、図８では、重要度がより大きい箇所の画素ほど、より暗い輝度の輝度値を有する。

重要度は、被写体検出部１０２が参照する特徴量のタイプによって異なる。例えば、特許文献１のような勾配方向ヒストグラム特徴量の場合には、被写体の輪郭が重要な情報であるため、画像８０２のように被写体の輪郭に近い画素の重要度を高く設定する。また、被写体の明るさや服の色を反映した特徴量であれば、画像８０３のように、被写体の内部に相当する画素の重要度を高く設定する。これらは特徴量に合わせて複数利用してもよいし、片方だけでもよい。また、各々の画素の階調度はメモリなど実装上の制約に合わせて設計すればよい。

重要情報マップ情報は、背景差分法や特許文献２などに開示されている公知技術により生成する。例えば、画像８０３のような重要情報マップであれば、前景背景を分離して前景領域を得る。また、画像８０２のような重要情報マップであれば、画像８０３に対して輪郭抽出を行う。これらの画像に対して縮退膨張小処理やガウシアン等を組み合わせてもよい。

前景背景を分離したときに、モーションブラーやボケ、背景画像と前景画像との境界が不明確である場合や前景の尤度が確実でない場合は階調度の許容範囲内で多値化すればよい。また、被写体が人体であれば頭部と肩の輪郭線が判別に重要であるため、被写体上部の重要度を加算して多値化してもよい。

また、重要情報マップは画素の配列でなくてもよい。例えば混合ガウス分布、すなわち重要度のピークの中心点とピークの重要度、分散に関する情報の複数の組み合わせによって表現してもよい。また、解像度を正規化画像と等しくする必要はない。たとえば、正規化画像の領域を複数の領域に分割し、各領域に重要度を設定してもよい。また、重要度を一部の領域や画素に設定し、未設定の画素は周囲の設定済みの画素から補間してもよい。これらは画像に変換できるので画像と等価である。

次に、ステップＳ６０５では、評価部１０７、選択部１０８、辞書生成部１０９により、辞書の生成を行う。生成した辞書は、図５に例示する構成を有する。本ステップにおける処理の詳細については、図７を用いて後述する。そしてステップＳ６０６では、辞書生成部１０９は、すでに本装置内に保持している辞書を、ステップＳ６０５で生成した辞書に更新する。

次に、上記のステップＳ６０５における処理の詳細について、同処理のフローチャートを示す図７を用いて説明する。本実施形態では、上記の式２で説明したように、弱判別器の出力は２値であるため、このような辞書を学習する方法はＤｉｓｃｒｅｔｅＡｄａｂｏｏｓｔに分類される。

以下では、ステップＳ６０２で生成した正規化画像のうち、ラベル「１」若しくは「−１」が付与された正規化画像を学習画像として用いるものとし、学習画像の総数をＮとする。また、学習画像ｉ（ｉ＝１〜Ｎ）に対するラベルをｙｉ∈｛１、−１｝とする。

ステップＳ７０１では、辞書生成部１０９は、以下の式により、ｉ＝１〜Ｎについてサンプル重みＤ１（ｉ）を１／Ｎに初期化する。

ステップＳ７０２では、辞書生成部１０９は、弱判別器に対するインデックスである弱判別器番号ｔを１に初期化する。ステップＳ７０３では、評価部１０７は、弱判別器番号がｔの弱判別器（以下では弱判別器ｔと呼称する）が参照する勾配方向ヒストグラム特徴と上記の式２の判別式のパラメータ値を仮説として設定する。勾配方向ヒストグラム特徴を求めるパラメータには、検出ウィンドウ内のブロック領域５０５、セル領域５０６、方向番号５０７がある。式２の判別式のパラメータには、特徴量符号５０８、特徴量閾値５０９がある。これらのパラメータの値を単純に組み合わせると膨大になる為、各種の限定をしてもよい。たとえばブロックの頂点の座標値を４の倍数にする、縦横サイズの比を限定する、ブロックとセルを相似にする、セルをブロック内にするなどがある。仮説は、複数の種類の特徴量を組み合わせて構成しても、また別の学習方法で生成した判別器を用いてもよい。

ステップＳ７０４では、評価部１０７は、ステップＳ７０３で設定した各仮説の精度評価を行う。仮説の精度評価は、学習画像１〜学習画像Ｎのうち、該仮説を設定した弱判別器ｔが誤判定した学習画像のサンプル重み及び重み補正係数を用いて誤り率（誤判別率）ε’ｔを求めることにより行われる。ここで、学習画像ｉに対する「誤判定」とは、学習画像ｉに対する弱判別器ｔの出力と学習画像ｉのラベルｙｉとが一致していないことを意味する。この誤り率ε’ｔは、以下の式に従って求める。

ここで、Ｍｔ，ｉは、学習画像ｉの重要情報マップに基づいて生成される重み補正係数であり、弱判別器ｔにおけるものである。Ｍｔ，ｉの求め方については後述する。また、ｋは全ての学習画像の重みの和が１になるようにするための正規化用係数である。

このように、ステップＳ７０３で設定した各仮説に対して誤り率ε’ｔを求めることができるので、ステップＳ７０５では、選択部１０８は、誤り率ε’ｔが最小となった仮説を選択する。

そしてステップＳ７０６では、辞書生成部１０９は、ステップＳ７０５で選択された仮説を参照する弱判別器を、新弱判別器として辞書に追加登録する。更に、ステップＳ７０６では、辞書生成部１０９は、以下の式６，７に従って、弱判別器ｔに対する信頼度αｔ（信頼度５１０）を求める。

ステップＳ７０７では、辞書生成部１０９は、機械学習を終了するか否かを判断する。この判断の基準は特定の基準に限るものではなく、Ｈ（ｘ）が目標とする判別性能に達している、弱判別器の数が予め設定した上限に達した、などの場合には機械学習を終了するようにしても良い。この判断の結果、機械学習を終了する場合には、図７のフローチャートに従った処理は終了し、機械学習を終了せずに継続する場合には、処理はステップＳ７０８に進む。ステップＳ７０８では、辞書生成部１０９は、ｉ＝１〜Ｎについて、サンプル重みＤｔ（ｉ）を、以下の式８に従って更新する。

即ち、式６〜式８による処理により、弱判別器ｔが誤判定した学習画像のサンプル重みの合計値を用いて、弱判別器ｔに対する信頼度αｔを求める。そして、信頼度αｔが高いほど小さい値を取る関数値を、弱判別器ｔが誤判定しなかった学習画像のサンプル重みに乗じ、信頼度αｔが高いほど大きい値を取る関数値を、弱判別器ｔが誤判定した学習画像のサンプル重みに乗じる。これにより、それぞれの学習画像のサンプル重みを更新することができる。

次に、ステップＳ７０９では、辞書生成部１０９は、弱判別器番号ｔの値を１つインクリメントする。そして処理はステップＳ７０３に戻り、弱判別器（ｔ＋１）について以降の処理を行う。

次に、重み補正係数Ｍｔ，ｉについて説明する。重み補正係数Ｍｔ，ｉは、ラベル「１」の学習画像に対してのみ生成されるもので、該学習画像の重要情報マップから、以下の式９に従って生成されるものである。

ただし、Ｒｔは、弱判別器ｔの局所領域で、本実施形態では矩形のセル領域である。ブロック領域も正規化の為に参照はするが、特徴量として意味がある領域はセル領域である為である。図８における局所領域８０４は局所領域の一例を示したものである。ｋは画素番号を表す。ｍｉ，ｋは、学習画像ｉの重要情報マップのｋ番目の画素値を表す。Ａｒｏｕｎｄ（Ｒ）は矩形Ｒの辺の長さの合計値を表す。ｔｈは予め設定されている閾値である。

局所領域は、正規化画像中の一部の領域であれば、どのような領域であっても良く、どのような形状であってもよいし、複数の領域から構成されていてもよい。また、たとえば被写体の明るさや服の色を反映した特徴量であれば、画像８０３のように被写体内部が重要な重要情報マップを用い、局所領域Ｒの中の重要画素の割合に基づけばよいので、例えば以下の式１０に表される補正方法を適用してもよい。

ただし、Ａｒｅａ（Ｒ）はＲの面積を示す。このように、重要情報マップと局所領域に基づいてサンプルの重みを補正するのであれば、どのような補正方法を適用してもかまわない。

本実施形態の特徴は、重要情報マップを用いて誤り率を算出する方法にある。したがって、前述したＤｉｓｃｒｅｔｅＡｄａｂｏｏｓｔ学習以外にも、その他のブースティング学習を用いることができる。例えば、ＲｅａｌＡｄａＢｏｏｓｔ、ＧｅｎｔｌｅＡｄａＢｏｏｓｔ等、また、その他の機械学習方法、例えば、ＲａｎｄｏｍＦｏｒｅｓｔ等も用いることができる。

なお、本実施形態では、図１に示した各部は何れも１つの装置内に収まっているものとして説明した。しかし例えば、画像入力部１０１及び被写体検出部１０２を１つの装置内に納め、正規化画像生成部１０５、重要情報マップ生成部１０６、評価部１０７、選択部１０８、辞書生成部１０９を別個の装置内に納めるようにしても良い。その場合、それぞれの装置間は互いにデータ通信可能に接続される必要がある。

また、第１の実施形態に係る画像処理装置の機能の一部を、画像を入力する装置である画像入力装置（カメラなど）に設け、その残りの機能を画像処理装置内に設けるようにしても良い。また、本実施形態で用いた幾つかの式はその性質が変わらない限りは適宜変更可能である。

このように、本実施形態によれば、特定の背景領域を被写体の一部であると過まって学習せず、被写体の輪郭を重視した判別を行えるような判別器を生成でき、背景の影響を受けにくく被写体判定の精度を向上させることができる。このような被写体検出は、監視カメラによる防犯や人流を計測してスタッフ配置やマーケティングシステム等に応用が可能である。

なお、本実施形態で説明した様々な構成は何れも、下記の構成の一例に過ぎない。即ち、本実施形態に係る画像処理装置は、入力画像上で既定サイズの枠を移動させながら、該枠内に被写体が写っているか否かを、強判別器を用いて判別する画像処理装置である。この画像処理装置では、被写体を含み且つ枠と同サイズの画像、被写体を含まず且つ枠と同サイズの画像、のそれぞれを学習画像として取得する。そして、強判別器が有する弱判別器が参照可能な複数種の判別パラメータのうち誤判別率が最も低い判別パラメータを特定し、特定した判別パラメータを参照する新弱判別器を強判別器に追加登録する。

誤判別率が最も低い判別パラメータの特定処理では、被写体を含む学習画像内で上記判別用に重要な箇所と非重要な箇所とを、それぞれ異なる値で管理しているマップを取得する。そして、複数種の判別パラメータのそれぞれについて、被写体を含む学習画像のうち弱判別器が該判別パラメータを参照して誤判別した学習画像のマップを用いて誤判別率を求める。そして、複数種の判別パラメータのうち最小の誤判別率を求めた判別パラメータを特定する。

なお、上記マップは、被写体を含む学習画像内における該被写体の領域を重要な箇所、該領域以外を非重要な箇所、とし、それぞれの箇所を異なる値で管理している。また、他の例では、このマップは、被写体を含む学習画像内における該被写体の輪郭を重要な箇所、該輪郭以外を非重要な箇所、とし、それぞれの箇所を異なる値で管理している。

［第２の実施形態］
図１に示した各部はハードウェアで構成しても良いが、コンピュータプログラムで構成しても良い。その場合、これら各部の機能は、対応するコンピュータプログラムを実行することで実現される。図１に示した各部をコンピュータプログラムで実装した場合における画像処理装置のハードウェア構成例について、図２のブロック図を用いて説明する。

なお、図２に示したハードウェア構成例はあくまでも一例であり、処理を実行可能な実行部とプログラムやデータなどを記憶可能なメモリとを有するのであれば、その構成は適宜変更しても良い。

ＣＰＵ２０１は、ＲＯＭ２０２やＲＡＭ２０３に格納されているコンピュータプログラムやデータを用いて本装置全体の動作制御を行うと共に、画像処理装置が行うものとして上述した各処理を実行する。

ＲＯＭ２０２には、ブートプログラムや画像処理装置の設定データなどが格納されている。ＲＡＭ２０３は、２次記憶装置２０４からロードされたコンピュータプログラムやデータや、画像入力装置２０５によって入力された画像のデータを一時的に記憶する為のエリアを有する。更にＲＡＭ２０３は、ネットワークＩ／Ｆ２０８を介して外部から入力されたコンピュータプログラムやデータを一時的に記憶する為のエリアを有する。即ち、ＲＡＭ２０３は、各種のエリアを適宜提供することができる。

２次記憶装置２０４は、ハードディスクドライブ装置に代表される大容量情報記憶装置である。２次記憶装置２０４には、ＯＳ（オペレーティングシステム）や、画像処理装置が行うものとして上述した各処理をＣＰＵ２０１に実行させるためのコンピュータプログラムやデータが保存されている。

このコンピュータプログラムには、図１に示した各部の機能をＣＰＵ２０１に実現させるためのコンピュータプログラムが含まれている。また、このデータには、辞書のデータや、上記の説明において既知の情報として説明したものや、処理対象となる画像のデータが含まれている。

２次記憶装置２０４に保存されているコンピュータプログラムやデータは、ＣＰＵ２０１による制御に従って適宜ＲＡＭ２０３にロードされ、ＣＰＵ２０１による処理対象となる。

２次記憶装置２０４は、フラッシュメモリなどの書き換え可能な記憶装置であっても良い。なお、２次記憶装置２０４の他にも、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ等の記憶媒体に記録されているコンピュータプログラムやデータを読み出す装置を設けるようにしても良い。

画像入力装置２０５は、外部から画像を取得するための装置であっても良いし、自身で画像を撮像可能な装置であっても良い。後者の場合、デジタルビデオカメラやネットワークカメラ、赤外線カメラなどの撮像装置に該当する。

なお、この画像入力装置２０５をネットワークカメラとすることも可能で、その場合はこの画像入力装置２０５はバス２０９ではなく、ネットワークＩ／Ｆ２０８に接続するようにしても良い。

入力装置２０６は、キーボードやマウスなどにより構成されており、本装置のユーザが操作することで、各種の指示をＣＰＵ２０１に対して入力することができる。表示装置２０７は、ＣＲＴや液晶画面などにより構成されており、ＣＰＵ２０１による処理結果を画像や文字などでもって表示することができる。

ネットワークＩ／Ｆ２０８は、本装置をＬＡＮやインターネットなどのネットワークに接続するためのもので、本装置はこのネットワークＩ／Ｆ２０８を介して外部装置とのデータ通信を行う。例えば、ネットワークカメラにより撮影された各フレームの画像をこのネットワークＩ／Ｆ２０８を介してＲＡＭ２０３や２次記憶装置２０４に格納するようにしても良い。上記の各部は何れも、バス２０９に接続されている。

［第３の実施形態］
第２の実施形態でも説明したように、画像処理装置のハードウェア構成には様々な構成が考え得る。例えば、図９に示した構成も、第１の実施形態に適用可能である。図９において図２に示した構成要件と同じ構成要件には同じ参照番号を付しており、その説明は省略する。

外部記憶入出力装置２１０は、光ディスク２１１などの可搬型外部メモリに記録されているコンピュータプログラムやデータを読み取ってＲＡＭ２０３や２次記憶装置２０４に出力する。然るに、２次記憶装置２０４に保存しているものとして説明したコンピュータプログラムやデータ（一部でも良い）、画像入力装置２０５によって入力するものとして説明した画像（一部でも良い）を、この光ディスク２１１に記録しておいても良い。

（その他の実施例）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

複数の学習画像を用いて、入力画像が検出対象とする物体か否かの判別を行う判別器を学習する画像処理装置であって、
前記複数の学習画像の各々の位置に対応した重要度を示す重要情報マップを生成する重要情報マップ生成手段と、
前記重要情報マップに基づいて前記判別器の精度を評価する評価手段と
を備えることを特徴とする画像処理装置。
前記重要情報マップは、前記物体の前景を重要領域として管理することを特徴とする請求項１に記載の画像処理装置。
前記重要情報マップは、前記物体の輪郭を重要領域として管理することを特徴とする請求項１に記載の画像処理装置。
前記評価手段は、前記判別器が参照可能な複数種の判別パラメータのそれぞれを仮説として作成し、それぞれの仮説に基づく判別の精度を、前記重要情報マップに基づいて評価することを特徴とする請求項１乃至３の何れか１項に記載の画像処理装置。
前記評価手段により評価された判別の精度に基づいて、前記複数種の判別パラメータから１つの判別パラメータを選択して前記判別器を更新する選択手段を更に有することを特徴とする請求項４に記載の画像処理装置。
入力画像上で既定サイズの枠を移動させながら、該枠内に被写体が写っているか否かを、強判別器を用いて判別する画像処理装置であって、
前記被写体を含み且つ前記枠と同サイズの画像、前記被写体を含まず且つ前記枠と同サイズの画像、のそれぞれを学習画像として取得する取得手段と、
前記強判別器が有する弱判別器が参照可能な複数種の判別パラメータのうち誤判別率が最も低い判別パラメータを特定する特定手段と、
前記特定手段が特定した判別パラメータを参照する新弱判別器を前記強判別器に追加登録する手段と
を備え、
前記特定手段は、
前記被写体を含む学習画像内で前記判別用に重要な箇所と非重要な箇所とを、それぞれ異なる値で管理しているマップを取得する手段と、
前記複数種の判別パラメータのそれぞれについて、前記被写体を含む学習画像のうち前記弱判別器が該判別パラメータを参照して誤判別した学習画像のマップを用いて誤判別率を求める演算手段と、
前記複数種の判別パラメータのうち最小の誤判別率を求めた判別パラメータを特定する手段と
を備えることを特徴とする画像処理装置。
前記マップは、前記被写体を含む学習画像内における該被写体の領域を重要な箇所、該領域以外を非重要な箇所、とし、それぞれの箇所を異なる値で管理していることを特徴とする請求項６に記載の画像処理装置。
前記マップは、前記被写体を含む学習画像内における該被写体の輪郭を重要な箇所、該輪郭以外を非重要な箇所、とし、それぞれの箇所を異なる値で管理していることを特徴とする請求項６に記載の画像処理装置。
前記演算手段は、前記複数種の判別パラメータのそれぞれについて、
前記弱判別器が該判別パラメータを参照して誤判別したそれぞれの学習画像のうち、前記被写体を含む学習画像を第１の画像、前記被写体を含まない学習画像を第２の画像とし、前記第１の画像に対して設定されている重み値に該第１の画像のマップに基づく値を乗じた値、前記第２の画像に対して設定されている重み値、の合計値を前記誤判別率として求める
ことを特徴とする請求項６乃至８の何れか１項に記載の画像処理装置。
更に、
前記第１の画像、前記第２の画像のそれぞれに設定されている重み値の合計値を用いて前記弱判別器に対する信頼度を求める手段と、
前記信頼度が高いほど小さい値を取る関数値を、前記弱判別器が誤判別しなかった学習画像の重み値に乗じ、前記信頼度が高いほど大きい値を取る関数値を、前記弱判別器が誤判別した学習画像の重み値に乗じることで、該それぞれの重み値を更新する手段と
を備えることを特徴とする請求項９に記載の画像処理装置。
前記第２の画像は、該画像の中心位置から既定の距離より離れている位置に被写体が写っている画像を含むことを特徴とする請求項９又は１０に記載の画像処理装置。
複数の学習画像を用いて、入力画像が検出対象とする物体か否かの判別を行う判別器を学習する画像処理装置が行う画像処理方法であって、
前記画像処理装置の重要情報マップ生成手段が、前記複数の学習画像の各々の位置に対応した重要度を示す重要情報マップを生成する重要情報マップ生成工程と、
前記画像処理装置の評価手段が、前記重要情報マップに基づいて前記判別器の精度を評価する評価工程と
を備えることを特徴とする画像処理方法。
入力画像上で既定サイズの枠を移動させながら、該枠内に被写体が写っているか否かを、強判別器を用いて判別する画像処理装置が行う画像処理方法であって、
前記画像処理装置の取得手段が、前記被写体を含み且つ前記枠と同サイズの画像、前記被写体を含まず且つ前記枠と同サイズの画像、のそれぞれを学習画像として取得する取得工程と、
前記画像処理装置の特定手段が、前記強判別器が有する弱判別器が参照可能な複数種の判別パラメータのうち誤判別率が最も低い判別パラメータを特定する特定工程と、
前記画像処理装置の追加登録手段が、前記特定工程で特定した判別パラメータを参照する新弱判別器を前記強判別器に追加登録する工程と
を備え、
前記特定工程は、
前記被写体を含む学習画像内で前記判別用に重要な箇所と非重要な箇所とを、それぞれ異なる値で管理しているマップを取得する工程と、
前記複数種の判別パラメータのそれぞれについて、前記被写体を含む学習画像のうち前記弱判別器が該判別パラメータを参照して誤判別した学習画像のマップを用いて誤判別率を求める演算工程と、
前記複数種の判別パラメータのうち最小の誤判別率を求めた判別パラメータを特定する工程と
を備えることを特徴とする画像処理方法。
コンピュータを、請求項１乃至１１の何れか１項に記載の画像処理装置の各手段として機能させるためのコンピュータプログラム。