JP2014203133A - 画像処理装置、画像処理方法 - Google Patents

画像処理装置、画像処理方法 Download PDF

Info

Publication number
JP2014203133A
JP2014203133A JP2013076450A JP2013076450A JP2014203133A JP 2014203133 A JP2014203133 A JP 2014203133A JP 2013076450 A JP2013076450 A JP 2013076450A JP 2013076450 A JP2013076450 A JP 2013076450A JP 2014203133 A JP2014203133 A JP 2014203133A
Authority
JP
Japan
Prior art keywords
image
subject
image processing
processing apparatus
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013076450A
Other languages
English (en)
Inventor
八代 哲
Satoru Yashiro
哲 八代
直嗣 佐川
Naotada Sagawa
直嗣 佐川
睦凌 郭
Bokuryo Kaku
睦凌 郭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2013076450A priority Critical patent/JP2014203133A/ja
Publication of JP2014203133A publication Critical patent/JP2014203133A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】物体の検出精度を向上させるための技術を提供する。
【解決手段】画像処理装置は、複数の学習画像を用いて、入力画像が検出対象とする物体か否かの判別を行う判別器を学習する画像処理装置であって、前記複数の学習画像の各々の位置に対応した重要度を示す重要情報マップを生成する重要情報マップ生成手段と、前記重要情報マップに基づいて前記判別器の精度を評価する評価手段とを備える。
【選択図】図1

Description

本発明は、被写体検出技術に関するものである。
画像から顔や人などの被写体を検出する技術の例としては、特許文献1がある。この技術では、入力されたパターンが検出対象か否かを判定する強判別器をカスケード接続する事で高速かつ高精度な検出を実現している。強判別器は、複数の弱判別器により構成される。各弱判別器はAdaBoost学習によって信頼度が設定されており、強判別器は弱判別器の判別結果を信頼度に基づいて統合して判別結果を得る。弱判別器は、勾配方向ヒストグラム特徴量(Histograms of Oriented Gradients)に基づいて検出対象か否かを判別する。
勾配方向ヒストグラム特徴量は、人体のように姿勢変動があり、かつ服装などによる見えの変化がある様な検出対象に対して頑健といわれる特徴量である。勾配方向ヒストグラム特徴量は、ブロックと呼ばれる矩形領域と、ブロックを格子状に分割したセルを単位として特徴抽出を行うことで得られる。勾配方向ヒストグラム特徴量は、各画素について勾配強度と勾配方向を求め、セル内の各画素の勾配強度の和を勾配方向別に求めたものを、ブロック内の勾配強度の総和で割ることで得られる。AdaBoost学習によって各弱判別器において、入力パターン上の様々な位置、サイズの中から判別に有効なブロック領域が1つずつ選ばれる。
また、特許文献2は、画像から物体を検出するもので、画像のエッジを参照し、焦点が合っているかを評価して前景と背景を分離し、前景から認識すべき物体を検出するようにしている。そして、背景から分離した前景画像を用いてAdaBoostによる学習を行って判別器を生成している。
米国特許出願公開第2007/0237387号明細書 特開2009−69996号公報
A. Yilmaz, O. Javed, and M. Shah. Object tracking: A survey. ACMComput. Surv., 38(4), 2006.
しかしながら、上記の従来技術には下記に述べるような課題がある。
特許文献1では、手を広げる等の人体の様々な姿勢に対応するために、入力するパターンは標準的な人体サイズよりも広く定義する。そのため、パターン内には検出対象とは無関係な背景を含んでいるが、検出したい対象なのか背景なのかを区別していない。従って、特定の背景領域を被写体の一部であるとして誤って学習してしまうため、検出精度が背景の影響を受けやすいという問題があった。
特許文献2では、焦点が合っているか否かによって前景と背景を分離するようにしているが、被写体を認識する精度は、前景と背景を分離する精度に依存してしまう。例えば、2人の人物がほぼ同じ距離に重なって見えるような場合は夫々の人物画像が分離できない。そのため、被写体を正しく検出できなくなってしまうという問題がある。
本発明はこのような問題に鑑みてなされたものであり、物体の検出精度を向上させるための技術を提供することを目的とする。
本発明の目的を達成するために、例えば、本発明の画像処理装置は、複数の学習画像を用いて、入力画像が検出対象とする物体か否かの判別を行う判別器を学習する画像処理装置であって、前記複数の学習画像の各々の位置に対応した重要度を示す重要情報マップを生成する重要情報マップ生成手段と、前記重要情報マップに基づいて前記判別器の精度を評価する評価手段とを備えることを特徴とする。
本発明の構成によれば、物体の検出精度を向上させることができる。
画像処理装置の機能構成例を示すブロック図。 画像処理装置のハードウェア構成例を示す図。 検出フェーズのフローチャート。 被写体検出の原理を説明する図。 辞書の構成例を示す図。 機械学習フェーズのフローチャート。 辞書生成処理の詳細を示すフローチャート。 学習画像及び重要情報マップの一例を示す図。 画像処理装置のハードウェア構成例を示す図。
以下、添付図面を参照し、本発明の好適な実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載の構成の具体的な実施例の1つである。
[第1の実施形態]
先ず、本実施形態に係る画像処理装置の機能構成例について、図1のブロック図を用いて説明する。もちろん、この機能構成はあくまでも一例であり、例えば、1つの機能部を複数の機能部で実現させても良いし、複数の機能部を1つの機能部で実現させても良い。即ち、図1に示した構成がなし得る機能と同等の機能を示現する構成であれば、如何なる構成を採用しても良い。
画像入力部101は、外部から本装置に入力された若しくは本装置内の不図示のメモリから読み出した各フレームの画像を受けると、これを順次、被写体検出部102に対して送出する。
被写体検出部102は、上記の強判別器を用いて、画像入力部101から送出された画像から被写体を検出する。この検出では、画像内における被写体の位置及び被写体のサイズを特定する。なお、被写体検出部102は、フレームレートの関係や処理負荷の関係で、現フレームに割り当てられた処理時間内で被写体検出ができなかった場合には、現フレームの前後の検出結果を用いて被写体の検出位置及び検出サイズを推定するようにしても良い。また、現フレーム及びそれ以前のフレームにおける被写体検出位置から次のフレームにおける被写体検出位置を推定し、次のフレームではその推定された被写体検出位置近傍で被写体検出を行うようにしても良い。非特許文献1で紹介されているような各種の追尾方法が適用可能である。
学習部104は、被写体検出部102が被写体検出で用いる強判別器を構成する弱判別器が参照可能な判別パラメータ(以下、判別パラメータを、それを用いる弱判別器と同一視して説明する場合がある。)を、機械学習によって獲得する。学習部104は、正規化画像生成部105、重要情報マップ生成部106、評価部107、選択部108、辞書生成部109、を含む。
正規化画像生成部105は、被写体検出部102が被写体検出を行うために画像上で移動させる枠(後述する検出ウィンドウ)と同サイズの画像であって、被写体を含む画像(第1の画像)、被写体を含まない画像(第2の画像)、を学習画像として取得する。
重要情報マップ生成部106は、学習画像内で被写体検出を行う際に、該学習画像内で重要な箇所(重要領域)、非重要な箇所のそれぞれを異なる値で管理するマップである重要情報マップを生成する。例えば、被写体の輪郭や被写体の存在する領域はその他の領域に比べて被写体検出(被写体が写っているか否かの判別)に有効な為に「重要な箇所」となり、その他の領域は「非重要な箇所」となる。この場合、重要な箇所は、非重要な箇所よりも重要度が高く設定される。この重要度が、重要情報マップで管理されている。
評価部107は、上記強判別器が有する弱判別器が参照可能な複数種の判別パラメータのそれぞれを仮説として作成し、それぞれの仮説に基づく判別精度を、上記の重要情報マップに基づいて評価する。
選択部108は、評価部107による評価の結果、複数種の判別パラメータのうち判別精度が最も高い判別パラメータを新弱判別器として選択する。辞書生成部109は、選択部108により選択された判別パラメータを新弱判別器として上記の強判別器に含めることで、強判別器が判別で用いる辞書を生成する。
次に、画像処理装置が行う処理について説明する。なお、本実施形態では、画像から検出可能な被写体であれば、被写体の種類は特定の種類に限るものではない。然るに、被写体は、歩行者などの人体であっても良いし、車椅子やベビーカー、自転車などに乗車した人物やショッピングカートなどを押す人物、動物、車両、物体などであっても良い。
また、画像処理装置の動作は、画像から被写体を検出する検出フェーズと、該検出のための被写体の機械学習フェーズと、に大別される。以下では、この2つのフェーズのそれぞれについて説明する。
先ず、検出フェーズについて、図3のフローチャートを用いて説明する。ステップS301では、画像入力部101は、本装置に入力された若しくは本装置内から読み出した画像を受け、これを被写体検出部102に送出する。本実施形態では、画像入力部101には、30フレーム/秒のフレームレートで各フレームの画像が順次入力されるものとし、該各フレームの画像は、縦480画素、横640画素のサイズを有するものとする。もちろん、各フレームの画像のサイズやフレームレートはこの例に限るものではない。また、各フレームの画像は2値画像であっても良いし、カラー画像であっても良い。
ステップS302では、被写体検出部102は、上記の強判別器を用いて、画像入力部101から送出された入力画像から被写体を検出する。画像中に写っている被写体を検出するための技術には様々な技術があるが、ここでは一例として上記の特許文献1に開示されている技術を適用する。即ち、図4に示すように、入力画像を段階的に縮小した縮小画像401上で検出ウィンドウ402を走査し、検出ウィンドウ402内の画像(パターン画像)に被写体が存在するか否かを、上記の強判別器を用いて(辞書に基づいて)判別する。本実施形態では、この検出ウィンドウ402のサイズは、縦128画素、横64画素であるものとし、その中央に立位状態で高さ96画素の人物(被写体)が写っているか否かを判断するものとする。なお、検出ウィンドウ402のサイズは、この例に限るものではない。
ここで、被写体検出部102が画像から被写体検出を行うために用いる辞書について説明する。この辞書の構成例を図5に示す。辞書には、強判別器を構成する弱判別器の数501が登録されている。また、この辞書には、数501の分だけ弱判別器(第1弱判別器502、第2弱判別器503、…第n弱判別器504)が登録されている。
第1弱判別器502、第2弱判別器503、…第n弱判別器504のそれぞれは同じ構成を有しているが、それぞれの弱判別器のパラメータ値は異なる。ここで、第1弱判別器502を例にとって、各弱判別器の構成を説明する。
505は勾配方向ヒストグラム特徴量のブロック領域であり、検出ウィンドウ内における1つ分の矩形の位置とサイズが格納される。506は勾配方向ヒストグラム特徴量のセル領域であり、検出ウィンドウ内における1つ分の矩形の位置とサイズが格納される。507は勾配方向番号であり、勾配方向ヒストグラム特徴量の勾配方向の番号である。勾配方向番号は、0度から180度までの区間を8分割し、そのうちの1つを識別する番号である。508は特徴量符号、509は特徴量閾値、510は信頼度であり、何れも判定式で用いられる値である。
検出ウィンドウ内に被写体が写っているか否かの判断は、各弱判別器の出力結果から総合的に判断する以下の式に従って行い、H(x)≧0であれば、検出ウィンドウ内の画像(正規化画像)xには被写体が写っていると判断する。一方、H(x)<0であれば、検出ウィンドウ内の画像xには被写体が写っていないと判断する。
Figure 2014203133
ここで、sign(p)は、数pの符号を返す関数であり、p>0であれば+1を返し、p=0であれば0を返し、p<0であれば−1を返す。また、Tは弱判別器の数を示す変数であり、辞書に登録されている数501に一致する。αt(1≦t≦T)は、強判別器を構成する弱判別器のうちt番目の弱判別器に対する信頼度で、辞書に登録されているt番目の弱判別器の信頼度510に一致する。ht(x)は、強判別器を構成する弱判別器のうちt番目の弱判別器の出力関数であり、以下の性質を有する。
Figure 2014203133
ここで、ft(x)は、画像xの関数であり、本実施形態では、勾配方向ヒストグラム特徴量である。ptは特徴量符号であり、−1または+1の何れかである。βtは特徴量閾値509である。勾配方向ヒストグラム特徴量は、セル領域506内の所定の方向番号507の勾配強度をブロック領域505内の全方向の勾配強度で割ったスカラー値である。
特許文献1と本実施形態とで勾配方向ヒストグラム特徴量は2つの相違点がある。第1に、特許文献1はブロック領域を格子状に分割し、その1つをセル領域としていた。本実施形態では、セル領域はブロック領域と同様に検出ウィンドウ内の任意の位置、サイズをとる。第2に、特許文献1はブロック内の全てのセルの全ての方向の特徴量を用い、これを判別空間に射影してスカラー値を得ていた。本実施形態では、1つのセルの1つの方向の特徴量を選択してスカラー値を得ている。
なお、本実施形態では勾配方向ヒストグラム特徴量について説明したが、これに限ったものではない。正規化画像の一部の領域を参照して特徴量を算出するものであれば、特許文献1で提案されている特徴量でもよいし、どの様な手法も利用する事が出来る。
このようにしてステップS302では、画像から被写体の位置及びサイズを検出する。そしてこの検出した位置及びサイズは、検出元の画像と関連付けて本装置内の不図示のメモリに格納する。
なお、上記の式1(H(x)を求めるための式)ではt=1,2,…,Tについて総和を求めている。ここで、その途中t=tnの時点までの総和に対して、被写体が存在しないと判定する閾値thnを予め設定しておき、t=1〜tnの総和が閾値thnを下回った場合は、t=tn+1〜Tの総和計算を打ち切るようにしてもよい。このような途中段階での判定を行うことで判定処理を少ない演算量で行うことができる。
そして、全てのフレームについてステップS301,S302の処理を行った場合には、図3のフローチャートに従った処理は終了する。一方、まだステップS301,S302の処理を行っていないフレームが残っている場合には、処理はステップS304を介してステップS301に戻り、次のフレームについてステップS301,S302の処理を行う。
次に、機械学習フェーズについて、図6のフローチャートを用いて説明する。本実施形態では、本装置を設置した環境における画像を用いて機械学習を行って辞書を生成(更新)するケースについて説明するが、如何なる環境における機械学習にも、以下に説明する処理は適用可能である。
ステップS601では、図3のフローチャートに従った処理を一定時間実行する。これにより、昼夜等の照明条件や天候、季節など様々な環境下における各フレームの画像を取得することができると共に、該画像から被写体の位置及びサイズを検出することができる。画像から検出した被写体の位置やサイズは、該画像と関連付けて、本装置内の不図示のメモリに格納する。なお、特に最適化したい環境がある場合には、その環境下における各フレームの画像を被写体の検出対象とすべきである。
なお、様々な環境下における各フレームの画像と、該画像から検出した被写体の位置及びサイズと、が予め本装置内の不図示のメモリに格納されている場合には、ステップS601は必要ない。
ステップS602では正規化画像生成部105は、ステップS601で取得した若しくは本装置内の不図示のメモリに予め格納されている「様々な環境下における画像群」から、被写体を含む正規化画像、被写体を含まない正規化画像、を生成する。図8に示した画像801は、被写体を含む正規化画像の一例である。何れの正規化画像も、検出ウィンドウと同サイズの輝度画像であるが、正規化画像はカラー画像であっても良い。正規化画像中の被写体の位置やサイズは検出ウィンドウ内でのそれと同じである。判定精度を向上させるためには大量の正規化画像が必要であるが、その分処理時間がかかるので、両者の兼ね合いによって生成枚数を決定すればよい。
なお、「様々な環境下における画像群」から、被写体を含む正規化画像、被写体を含まない正規化画像を生成する方法については特定の方法に限るものではなく、如何なる方法を採用しても良い。例えば、正規化画像生成部105が「様々な環境下における画像群」のうちいくつかを選択し、選択したそれぞれの画像に対して、複数個の検出ウィンドウを配置し、該配置した検出ウィンドウ内の画像を正規化画像として取得する。このような正規化画像には、被写体を含む正規化画像もあれば、被写体を含まない正規化画像もある。もちろん、正規化画像生成部105がステップS601で検出した被写体の位置やサイズを考慮し、意図的に被写体を含むような正規化画像と含まないような正規化画像を生成しても良い。このような正規化画像の生成は、ユーザ指示(画像選択指示など)に応じて正規化画像生成部105が行うようにしても良い。
次に、ステップS603では、学習部104は、ステップS602で生成したそれぞれの正規化画像に対し、被写体を含む正規化画像であるか否かを示すラベルを付与する。例えば、正規化画像中の被写体の位置と該正規化画像の中心位置との間の距離がd1以内であれば、該正規化画像に対してラベル「1」を付与する。また、正規化画像中の被写体の位置と該正規化画像の中心位置との間の距離がd2よりも大きい場合や、そもそも該正規化画像から被写体が検出されなかった場合には、該正規化画像に対してラベル「−1」を付与する。
ここで、d1≠d2であることに注意されたい。即ち、正規化画像の中心位置から距離d1〜d2の間に被写体が位置するような正規化画像に対してはラベルを付さず、以降の処理では用いないものとする(学習画像としては用いない)。
各正規化画像中の被写体の位置については、各正規化画像に対して被写体検出部102と同様の処理を行うことで、該正規化画像内に被写体が位置するか否か、位置していれば、その位置とサイズを検出することができる。また、正規化画像の生成の時点で、どの正規化画像に被写体が含まれているのか、が分かっていれば、その位置に応じてこの時点でラベルを付与するようにしても良い。
何れにせよ、検出ウィンドウと同サイズを有する正規化画像群(被写体を含む正規化画像と被写体を含まない正規化画像から成る)を得ると共に、それぞれの正規化画像に対するラベルを得ることができれば、その処理内容は上記の例に限らない。
次に、ステップS604では、重要情報マップ生成部106は、ラベル「1」が付与された正規化画像に対し、該正規化画像内で重要な箇所、非重要な箇所のそれぞれを異なる値で管理するマップを示す重要情報マップを生成する。
図8に示した画像801に対して生成した重要情報マップの一例を、画像802,803として示す。画像802,803の何れも、被写体判定に対する重要度を画素値として表した画像であり、図8では、重要度がより大きい箇所の画素ほど、より暗い輝度の輝度値を有する。
重要度は、被写体検出部102が参照する特徴量のタイプによって異なる。例えば、特許文献1のような勾配方向ヒストグラム特徴量の場合には、被写体の輪郭が重要な情報であるため、画像802のように被写体の輪郭に近い画素の重要度を高く設定する。また、被写体の明るさや服の色を反映した特徴量であれば、画像803のように、被写体の内部に相当する画素の重要度を高く設定する。これらは特徴量に合わせて複数利用してもよいし、片方だけでもよい。また、各々の画素の階調度はメモリなど実装上の制約に合わせて設計すればよい。
重要情報マップ情報は、背景差分法や特許文献2などに開示されている公知技術により生成する。例えば、画像803のような重要情報マップであれば、前景背景を分離して前景領域を得る。また、画像802のような重要情報マップであれば、画像803に対して輪郭抽出を行う。これらの画像に対して縮退膨張小処理やガウシアン等を組み合わせてもよい。
前景背景を分離したときに、モーションブラーやボケ、背景画像と前景画像との境界が不明確である場合や前景の尤度が確実でない場合は階調度の許容範囲内で多値化すればよい。また、被写体が人体であれば頭部と肩の輪郭線が判別に重要であるため、被写体上部の重要度を加算して多値化してもよい。
また、重要情報マップは画素の配列でなくてもよい。例えば混合ガウス分布、すなわち重要度のピークの中心点とピークの重要度、分散に関する情報の複数の組み合わせによって表現してもよい。また、解像度を正規化画像と等しくする必要はない。たとえば、正規化画像の領域を複数の領域に分割し、各領域に重要度を設定してもよい。また、重要度を一部の領域や画素に設定し、未設定の画素は周囲の設定済みの画素から補間してもよい。これらは画像に変換できるので画像と等価である。
次に、ステップS605では、評価部107、選択部108、辞書生成部109により、辞書の生成を行う。生成した辞書は、図5に例示する構成を有する。本ステップにおける処理の詳細については、図7を用いて後述する。そしてステップS606では、辞書生成部109は、すでに本装置内に保持している辞書を、ステップS605で生成した辞書に更新する。
次に、上記のステップS605における処理の詳細について、同処理のフローチャートを示す図7を用いて説明する。本実施形態では、上記の式2で説明したように、弱判別器の出力は2値であるため、このような辞書を学習する方法はDiscrete Adaboostに分類される。
以下では、ステップS602で生成した正規化画像のうち、ラベル「1」若しくは「−1」が付与された正規化画像を学習画像として用いるものとし、学習画像の総数をNとする。また、学習画像i(i=1〜N)に対するラベルをyi∈{1、−1}とする。
ステップS701では、辞書生成部109は、以下の式により、i=1〜Nについてサンプル重みD1(i)を1/Nに初期化する。
Figure 2014203133
ステップS702では、辞書生成部109は、弱判別器に対するインデックスである弱判別器番号tを1に初期化する。ステップS703では、評価部107は、弱判別器番号がtの弱判別器(以下では弱判別器tと呼称する)が参照する勾配方向ヒストグラム特徴と上記の式2の判別式のパラメータ値を仮説として設定する。勾配方向ヒストグラム特徴を求めるパラメータには、検出ウィンドウ内のブロック領域505、セル領域506、方向番号507がある。式2の判別式のパラメータには、特徴量符号508、特徴量閾値509がある。これらのパラメータの値を単純に組み合わせると膨大になる為、各種の限定をしてもよい。たとえばブロックの頂点の座標値を4の倍数にする、縦横サイズの比を限定する、ブロックとセルを相似にする、セルをブロック内にするなどがある。仮説は、複数の種類の特徴量を組み合わせて構成しても、また別の学習方法で生成した判別器を用いてもよい。
ステップS704では、評価部107は、ステップS703で設定した各仮説の精度評価を行う。仮説の精度評価は、学習画像1〜学習画像Nのうち、該仮説を設定した弱判別器tが誤判定した学習画像のサンプル重み及び重み補正係数を用いて誤り率(誤判別率)ε’tを求めることにより行われる。ここで、学習画像iに対する「誤判定」とは、学習画像iに対する弱判別器tの出力と学習画像iのラベルyiとが一致していないことを意味する。この誤り率ε’tは、以下の式に従って求める。
Figure 2014203133
Figure 2014203133
ここで、Mt,iは、学習画像iの重要情報マップに基づいて生成される重み補正係数であり、弱判別器tにおけるものである。Mt,iの求め方については後述する。また、kは全ての学習画像の重みの和が1になるようにするための正規化用係数である。
このように、ステップS703で設定した各仮説に対して誤り率ε’tを求めることができるので、ステップS705では、選択部108は、誤り率ε’tが最小となった仮説を選択する。
そしてステップS706では、辞書生成部109は、ステップS705で選択された仮説を参照する弱判別器を、新弱判別器として辞書に追加登録する。更に、ステップS706では、辞書生成部109は、以下の式6,7に従って、弱判別器tに対する信頼度αt(信頼度510)を求める。
Figure 2014203133
Figure 2014203133
ステップS707では、辞書生成部109は、機械学習を終了するか否かを判断する。この判断の基準は特定の基準に限るものではなく、H(x)が目標とする判別性能に達している、弱判別器の数が予め設定した上限に達した、などの場合には機械学習を終了するようにしても良い。この判断の結果、機械学習を終了する場合には、図7のフローチャートに従った処理は終了し、機械学習を終了せずに継続する場合には、処理はステップS708に進む。ステップS708では、辞書生成部109は、i=1〜Nについて、サンプル重みDt(i)を、以下の式8に従って更新する。
Figure 2014203133
即ち、式6〜式8による処理により、弱判別器tが誤判定した学習画像のサンプル重みの合計値を用いて、弱判別器tに対する信頼度αtを求める。そして、信頼度αtが高いほど小さい値を取る関数値を、弱判別器tが誤判定しなかった学習画像のサンプル重みに乗じ、信頼度αtが高いほど大きい値を取る関数値を、弱判別器tが誤判定した学習画像のサンプル重みに乗じる。これにより、それぞれの学習画像のサンプル重みを更新することができる。
次に、ステップS709では、辞書生成部109は、弱判別器番号tの値を1つインクリメントする。そして処理はステップS703に戻り、弱判別器(t+1)について以降の処理を行う。
次に、重み補正係数Mt,iについて説明する。重み補正係数Mt,iは、ラベル「1」の学習画像に対してのみ生成されるもので、該学習画像の重要情報マップから、以下の式9に従って生成されるものである。
Figure 2014203133
ただし、Rtは、弱判別器tの局所領域で、本実施形態では矩形のセル領域である。ブロック領域も正規化の為に参照はするが、特徴量として意味がある領域はセル領域である為である。図8における局所領域804は局所領域の一例を示したものである。kは画素番号を表す。mi,kは、学習画像iの重要情報マップのk番目の画素値を表す。Around(R)は矩形Rの辺の長さの合計値を表す。thは予め設定されている閾値である。
局所領域は、正規化画像中の一部の領域であれば、どのような領域であっても良く、どのような形状であってもよいし、複数の領域から構成されていてもよい。また、たとえば被写体の明るさや服の色を反映した特徴量であれば、画像803のように被写体内部が重要な重要情報マップを用い、局所領域Rの中の重要画素の割合に基づけばよいので、例えば以下の式10に表される補正方法を適用してもよい。
Figure 2014203133
ただし、Area(R)はRの面積を示す。このように、重要情報マップと局所領域に基づいてサンプルの重みを補正するのであれば、どのような補正方法を適用してもかまわない。
本実施形態の特徴は、重要情報マップを用いて誤り率を算出する方法にある。したがって、前述したDiscrete Adaboost学習以外にも、その他のブースティング学習を用いることができる。例えば、RealAdaBoost、GentleAdaBoost等、また、その他の機械学習方法、例えば、RandomForest等も用いることができる。
なお、本実施形態では、図1に示した各部は何れも1つの装置内に収まっているものとして説明した。しかし例えば、画像入力部101及び被写体検出部102を1つの装置内に納め、正規化画像生成部105、重要情報マップ生成部106、評価部107、選択部108、辞書生成部109を別個の装置内に納めるようにしても良い。その場合、それぞれの装置間は互いにデータ通信可能に接続される必要がある。
また、第1の実施形態に係る画像処理装置の機能の一部を、画像を入力する装置である画像入力装置(カメラなど)に設け、その残りの機能を画像処理装置内に設けるようにしても良い。また、本実施形態で用いた幾つかの式はその性質が変わらない限りは適宜変更可能である。
このように、本実施形態によれば、特定の背景領域を被写体の一部であると過まって学習せず、被写体の輪郭を重視した判別を行えるような判別器を生成でき、背景の影響を受けにくく被写体判定の精度を向上させることができる。このような被写体検出は、監視カメラによる防犯や人流を計測してスタッフ配置やマーケティングシステム等に応用が可能である。
なお、本実施形態で説明した様々な構成は何れも、下記の構成の一例に過ぎない。即ち、本実施形態に係る画像処理装置は、入力画像上で既定サイズの枠を移動させながら、該枠内に被写体が写っているか否かを、強判別器を用いて判別する画像処理装置である。この画像処理装置では、被写体を含み且つ枠と同サイズの画像、被写体を含まず且つ枠と同サイズの画像、のそれぞれを学習画像として取得する。そして、強判別器が有する弱判別器が参照可能な複数種の判別パラメータのうち誤判別率が最も低い判別パラメータを特定し、特定した判別パラメータを参照する新弱判別器を強判別器に追加登録する。
誤判別率が最も低い判別パラメータの特定処理では、被写体を含む学習画像内で上記判別用に重要な箇所と非重要な箇所とを、それぞれ異なる値で管理しているマップを取得する。そして、複数種の判別パラメータのそれぞれについて、被写体を含む学習画像のうち弱判別器が該判別パラメータを参照して誤判別した学習画像のマップを用いて誤判別率を求める。そして、複数種の判別パラメータのうち最小の誤判別率を求めた判別パラメータを特定する。
なお、上記マップは、被写体を含む学習画像内における該被写体の領域を重要な箇所、該領域以外を非重要な箇所、とし、それぞれの箇所を異なる値で管理している。また、他の例では、このマップは、被写体を含む学習画像内における該被写体の輪郭を重要な箇所、該輪郭以外を非重要な箇所、とし、それぞれの箇所を異なる値で管理している。
[第2の実施形態]
図1に示した各部はハードウェアで構成しても良いが、コンピュータプログラムで構成しても良い。その場合、これら各部の機能は、対応するコンピュータプログラムを実行することで実現される。図1に示した各部をコンピュータプログラムで実装した場合における画像処理装置のハードウェア構成例について、図2のブロック図を用いて説明する。
なお、図2に示したハードウェア構成例はあくまでも一例であり、処理を実行可能な実行部とプログラムやデータなどを記憶可能なメモリとを有するのであれば、その構成は適宜変更しても良い。
CPU201は、ROM202やRAM203に格納されているコンピュータプログラムやデータを用いて本装置全体の動作制御を行うと共に、画像処理装置が行うものとして上述した各処理を実行する。
ROM202には、ブートプログラムや画像処理装置の設定データなどが格納されている。RAM203は、2次記憶装置204からロードされたコンピュータプログラムやデータや、画像入力装置205によって入力された画像のデータを一時的に記憶する為のエリアを有する。更にRAM203は、ネットワークI/F208を介して外部から入力されたコンピュータプログラムやデータを一時的に記憶する為のエリアを有する。即ち、RAM203は、各種のエリアを適宜提供することができる。
2次記憶装置204は、ハードディスクドライブ装置に代表される大容量情報記憶装置である。2次記憶装置204には、OS(オペレーティングシステム)や、画像処理装置が行うものとして上述した各処理をCPU201に実行させるためのコンピュータプログラムやデータが保存されている。
このコンピュータプログラムには、図1に示した各部の機能をCPU201に実現させるためのコンピュータプログラムが含まれている。また、このデータには、辞書のデータや、上記の説明において既知の情報として説明したものや、処理対象となる画像のデータが含まれている。
2次記憶装置204に保存されているコンピュータプログラムやデータは、CPU201による制御に従って適宜RAM203にロードされ、CPU201による処理対象となる。
2次記憶装置204は、フラッシュメモリなどの書き換え可能な記憶装置であっても良い。なお、2次記憶装置204の他にも、CD−ROMやDVD−ROM等の記憶媒体に記録されているコンピュータプログラムやデータを読み出す装置を設けるようにしても良い。
画像入力装置205は、外部から画像を取得するための装置であっても良いし、自身で画像を撮像可能な装置であっても良い。後者の場合、デジタルビデオカメラやネットワークカメラ、赤外線カメラなどの撮像装置に該当する。
なお、この画像入力装置205をネットワークカメラとすることも可能で、その場合はこの画像入力装置205はバス209ではなく、ネットワークI/F208に接続するようにしても良い。
入力装置206は、キーボードやマウスなどにより構成されており、本装置のユーザが操作することで、各種の指示をCPU201に対して入力することができる。表示装置207は、CRTや液晶画面などにより構成されており、CPU201による処理結果を画像や文字などでもって表示することができる。
ネットワークI/F208は、本装置をLANやインターネットなどのネットワークに接続するためのもので、本装置はこのネットワークI/F208を介して外部装置とのデータ通信を行う。例えば、ネットワークカメラにより撮影された各フレームの画像をこのネットワークI/F208を介してRAM203や2次記憶装置204に格納するようにしても良い。上記の各部は何れも、バス209に接続されている。
[第3の実施形態]
第2の実施形態でも説明したように、画像処理装置のハードウェア構成には様々な構成が考え得る。例えば、図9に示した構成も、第1の実施形態に適用可能である。図9において図2に示した構成要件と同じ構成要件には同じ参照番号を付しており、その説明は省略する。
外部記憶入出力装置210は、光ディスク211などの可搬型外部メモリに記録されているコンピュータプログラムやデータを読み取ってRAM203や2次記憶装置204に出力する。然るに、2次記憶装置204に保存しているものとして説明したコンピュータプログラムやデータ(一部でも良い)、画像入力装置205によって入力するものとして説明した画像(一部でも良い)を、この光ディスク211に記録しておいても良い。
(その他の実施例)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (14)

  1. 複数の学習画像を用いて、入力画像が検出対象とする物体か否かの判別を行う判別器を学習する画像処理装置であって、
    前記複数の学習画像の各々の位置に対応した重要度を示す重要情報マップを生成する重要情報マップ生成手段と、
    前記重要情報マップに基づいて前記判別器の精度を評価する評価手段と
    を備えることを特徴とする画像処理装置。
  2. 前記重要情報マップは、前記物体の前景を重要領域として管理することを特徴とする請求項1に記載の画像処理装置。
  3. 前記重要情報マップは、前記物体の輪郭を重要領域として管理することを特徴とする請求項1に記載の画像処理装置。
  4. 前記評価手段は、前記判別器が参照可能な複数種の判別パラメータのそれぞれを仮説として作成し、それぞれの仮説に基づく判別の精度を、前記重要情報マップに基づいて評価することを特徴とする請求項1乃至3の何れか1項に記載の画像処理装置。
  5. 前記評価手段により評価された判別の精度に基づいて、前記複数種の判別パラメータから1つの判別パラメータを選択して前記判別器を更新する選択手段を更に有することを特徴とする請求項4に記載の画像処理装置。
  6. 入力画像上で既定サイズの枠を移動させながら、該枠内に被写体が写っているか否かを、強判別器を用いて判別する画像処理装置であって、
    前記被写体を含み且つ前記枠と同サイズの画像、前記被写体を含まず且つ前記枠と同サイズの画像、のそれぞれを学習画像として取得する取得手段と、
    前記強判別器が有する弱判別器が参照可能な複数種の判別パラメータのうち誤判別率が最も低い判別パラメータを特定する特定手段と、
    前記特定手段が特定した判別パラメータを参照する新弱判別器を前記強判別器に追加登録する手段と
    を備え、
    前記特定手段は、
    前記被写体を含む学習画像内で前記判別用に重要な箇所と非重要な箇所とを、それぞれ異なる値で管理しているマップを取得する手段と、
    前記複数種の判別パラメータのそれぞれについて、前記被写体を含む学習画像のうち前記弱判別器が該判別パラメータを参照して誤判別した学習画像のマップを用いて誤判別率を求める演算手段と、
    前記複数種の判別パラメータのうち最小の誤判別率を求めた判別パラメータを特定する手段と
    を備えることを特徴とする画像処理装置。
  7. 前記マップは、前記被写体を含む学習画像内における該被写体の領域を重要な箇所、該領域以外を非重要な箇所、とし、それぞれの箇所を異なる値で管理していることを特徴とする請求項6に記載の画像処理装置。
  8. 前記マップは、前記被写体を含む学習画像内における該被写体の輪郭を重要な箇所、該輪郭以外を非重要な箇所、とし、それぞれの箇所を異なる値で管理していることを特徴とする請求項6に記載の画像処理装置。
  9. 前記演算手段は、前記複数種の判別パラメータのそれぞれについて、
    前記弱判別器が該判別パラメータを参照して誤判別したそれぞれの学習画像のうち、前記被写体を含む学習画像を第1の画像、前記被写体を含まない学習画像を第2の画像とし、前記第1の画像に対して設定されている重み値に該第1の画像のマップに基づく値を乗じた値、前記第2の画像に対して設定されている重み値、の合計値を前記誤判別率として求める
    ことを特徴とする請求項6乃至8の何れか1項に記載の画像処理装置。
  10. 更に、
    前記第1の画像、前記第2の画像のそれぞれに設定されている重み値の合計値を用いて前記弱判別器に対する信頼度を求める手段と、
    前記信頼度が高いほど小さい値を取る関数値を、前記弱判別器が誤判別しなかった学習画像の重み値に乗じ、前記信頼度が高いほど大きい値を取る関数値を、前記弱判別器が誤判別した学習画像の重み値に乗じることで、該それぞれの重み値を更新する手段と
    を備えることを特徴とする請求項9に記載の画像処理装置。
  11. 前記第2の画像は、該画像の中心位置から既定の距離より離れている位置に被写体が写っている画像を含むことを特徴とする請求項9又は10に記載の画像処理装置。
  12. 複数の学習画像を用いて、入力画像が検出対象とする物体か否かの判別を行う判別器を学習する画像処理装置が行う画像処理方法であって、
    前記画像処理装置の重要情報マップ生成手段が、前記複数の学習画像の各々の位置に対応した重要度を示す重要情報マップを生成する重要情報マップ生成工程と、
    前記画像処理装置の評価手段が、前記重要情報マップに基づいて前記判別器の精度を評価する評価工程と
    を備えることを特徴とする画像処理方法。
  13. 入力画像上で既定サイズの枠を移動させながら、該枠内に被写体が写っているか否かを、強判別器を用いて判別する画像処理装置が行う画像処理方法であって、
    前記画像処理装置の取得手段が、前記被写体を含み且つ前記枠と同サイズの画像、前記被写体を含まず且つ前記枠と同サイズの画像、のそれぞれを学習画像として取得する取得工程と、
    前記画像処理装置の特定手段が、前記強判別器が有する弱判別器が参照可能な複数種の判別パラメータのうち誤判別率が最も低い判別パラメータを特定する特定工程と、
    前記画像処理装置の追加登録手段が、前記特定工程で特定した判別パラメータを参照する新弱判別器を前記強判別器に追加登録する工程と
    を備え、
    前記特定工程は、
    前記被写体を含む学習画像内で前記判別用に重要な箇所と非重要な箇所とを、それぞれ異なる値で管理しているマップを取得する工程と、
    前記複数種の判別パラメータのそれぞれについて、前記被写体を含む学習画像のうち前記弱判別器が該判別パラメータを参照して誤判別した学習画像のマップを用いて誤判別率を求める演算工程と、
    前記複数種の判別パラメータのうち最小の誤判別率を求めた判別パラメータを特定する工程と
    を備えることを特徴とする画像処理方法。
  14. コンピュータを、請求項1乃至11の何れか1項に記載の画像処理装置の各手段として機能させるためのコンピュータプログラム。
JP2013076450A 2013-04-01 2013-04-01 画像処理装置、画像処理方法 Pending JP2014203133A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013076450A JP2014203133A (ja) 2013-04-01 2013-04-01 画像処理装置、画像処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013076450A JP2014203133A (ja) 2013-04-01 2013-04-01 画像処理装置、画像処理方法

Publications (1)

Publication Number Publication Date
JP2014203133A true JP2014203133A (ja) 2014-10-27

Family

ID=52353554

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013076450A Pending JP2014203133A (ja) 2013-04-01 2013-04-01 画像処理装置、画像処理方法

Country Status (1)

Country Link
JP (1) JP2014203133A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016162099A (ja) * 2015-02-27 2016-09-05 富士通株式会社 画像判定装置、画像判定方法、及びプログラム
WO2021019645A1 (ja) * 2019-07-29 2021-02-04 日本電気株式会社 学習データ生成装置、学習装置、識別装置、生成方法及び記憶媒体
JP7304235B2 (ja) 2019-08-16 2023-07-06 セコム株式会社 学習済みモデル、学習装置、学習方法、及び学習プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016162099A (ja) * 2015-02-27 2016-09-05 富士通株式会社 画像判定装置、画像判定方法、及びプログラム
WO2021019645A1 (ja) * 2019-07-29 2021-02-04 日本電気株式会社 学習データ生成装置、学習装置、識別装置、生成方法及び記憶媒体
JPWO2021019645A1 (ja) * 2019-07-29 2021-02-04
JP7268739B2 (ja) 2019-07-29 2023-05-08 日本電気株式会社 学習データ生成装置、学習装置、識別装置、生成方法及びプログラム
JP7304235B2 (ja) 2019-08-16 2023-07-06 セコム株式会社 学習済みモデル、学習装置、学習方法、及び学習プログラム

Similar Documents

Publication Publication Date Title
US20220138490A1 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
JP7447932B2 (ja) 画像処理システム、画像処理方法及びプログラム
KR101964397B1 (ko) 정보처리장치 및 정보처리방법
JP6482195B2 (ja) 画像認識装置、画像認識方法及びプログラム
JP5558412B2 (ja) 識別器を特定のシーン内のオブジェクトを検出するように適応させるためのシステム及び方法
US10216979B2 (en) Image processing apparatus, image processing method, and storage medium to detect parts of an object
JP6428266B2 (ja) 色補正装置、色補正方法および色補正用プログラム
CN105404884B (zh) 图像分析方法
JP2012238175A (ja) 情報処理装置、情報処理方法、及びプログラム
JP6565600B2 (ja) アテンション検出装置及びアテンション検出方法
WO2009152509A1 (en) Method and system for crowd segmentation
JP2016099734A (ja) 画像処理装置、情報処理方法及びプログラム
US20190042869A1 (en) Image processing apparatus and control method therefor
WO2012046426A1 (ja) 物体検出装置、物体検出方法および物体検出プログラム
JP2015106197A (ja) 画像処理装置、画像処理方法
JP2013206458A (ja) 画像における外観及びコンテキストに基づく物体分類
JP2014203133A (ja) 画像処理装置、画像処理方法
CN107665495B (zh) 对象跟踪方法及对象跟踪装置
CN108985216B (zh) 一种基于多元logistic回归特征融合的行人头部检测方法
JP2017033175A (ja) 画像処理装置、画像処理方法及びプログラム
JP2019046278A (ja) 情報処理装置、制御方法、コンピュータプログラム、記憶媒体、及びモデル作成装置
CN113706580A (zh) 一种基于相关滤波跟踪器的目标跟踪方法、系统、设备及介质
JP6539720B1 (ja) 画像処理装置
Vijayarani et al. An efficient algorithm for facial image classification
US20190251703A1 (en) Method of angle detection