以下、本発明の実施の形態(以下実施形態という)について図面に基づいて説明する。
[第一の実施形態]
本発明の第一実施形態として、監視空間を撮影した監視画像を処理して監視空間に存在する人を検知する人検知装置1を説明する。人検知装置1は本発明に係る対象識別装置を含んで構成され、当該対象識別装置は、監視画像の各位置から切り出された被識別画像に識別対象である人の像が含まれているか否かを識別し、人検知装置1は対象識別装置による識別結果を基にして人の検知を行う。
図1は、実施形態に係る人検知装置1の概略のブロック構成図である。人検知装置1は、監視カメラ10、記憶部11、画像処理部12及び出力部13を含んで構成される。監視カメラ10、記憶部11及び出力部13は画像処理部12と接続される。
監視カメラ10は監視空間を所定時間おきに撮影し、撮影した監視画像を順次、画像処理部12に入力する。
記憶部11は、ROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスク等の記憶装置であり、画像処理部12で使用されるプログラム及び、学習データや各手段が生成したデータなどの各種データを記憶する。記憶部11はこれらプログラム、データを画像処理部12との間で入出力する。
画像処理部12はCPU(Central Processing Unit)、DSP(Digital Signal Processor)、MCU(Micro Control Unit)等のプロセッサ及びその周辺回路で構成される。画像処理部12は後述する各手段として動作し、監視画像を処理して監視空間に存在する人を検知する。そして、人を検知した場合は出力部13に検知信号を出力する。
出力部13は検知信号を入力されると外部出力を行うインターフェース回路である。例えば、出力部13はネットワークに接続されて警備センターに通報を行う。
図2は人検知装置1の概略の機能ブロック図である。記憶部11は、標本記憶手段110、識別関数記憶手段111及び候補領域記憶手段112として機能する。また、画像処理部12は、切り出し手段100、特徴量算出手段101、特徴量混合手段102、識別手段103及び対象領域判定手段104として動作する。これらのうち対象識別装置は基本的に、標本記憶手段110、特徴量算出手段101、特徴量混合手段102、識別関数記憶手段111及び識別手段103を含む。
切り出し手段100は監視画像から一部の領域を切り出す。切り出された画像は被識別画像として対象識別装置に入力される。具体的には、被識別画像は特徴量算出手段101に入力される。切り出し手段100は、監視画像中で検知したい人サイズの範囲に応じて予め定めた複数通りの倍率で監視画像を拡大及び縮小し、当該拡大・縮小した監視画像の全域にて所定サイズの窓領域を移動させて被識別画像を切り出す。被識別画像のサイズすなわち幅及び高さは、後述する識別関数の学習に用いた学習画像のサイズと同一である。
標本記憶手段110は、人が写った学習画像を分割した複数の小領域のうちの特定領域から予め抽出した標本(対象標本)を特定領域の座標と共に記憶している。特定領域は複数の小領域のうち識別手段103が他の小領域よりも対象の特徴が強く表れている個所として高く重み付けて評価する小領域であり、識別手段103の学習の結果、画像内にそのような個所が特定される。なお、標本を抽出する画像は、識別手段103の学習に用いた学習画像以外でも、対象を含む画像(対象サンプル画像)とすることができ、少なくとも識別手段103によって対象を含むと識別される画像を用いることができる。本実施形態では標本記憶手段110は対象サンプル画像の特定領域から切り出した画像を標本として記憶している。
特徴量算出手段101は被識別画像を分割した複数の小領域のうち少なくとも特定領域とその周辺領域とについて、予め定めた種類の特徴量を取得する。その際、特定領域については標本記憶手段110に記憶された標本を合成し当該特徴量を求める。本実施形態では、特徴量算出手段101は被識別画像の各小領域における画像から特徴量を抽出する。また特定領域については、特定領域の画像に標本の画像を合成し、合成した画像から特徴量を抽出する。抽出された特徴量は特徴量混合手段102へ出力される。
特徴量として、ヒストグラム・オブ・オリエンティッド・グラディエント(Histograms of Oriented Gradients:HOG)特徴量、ハールライク(Haar-like)特徴量、局所二値パターン(Local Binary Pattern:LBP)特徴量、スパースコーディング(Sparse Coding)係数、画像そのもの、エッジ画像などの従来知られた特徴量のうち対象の識別に適したものを単独で、又は複数を組み合わせて用いることができる。いずれの特徴量も複数の要素からなる特徴ベクトルで表現することができる。
本実施形態では特徴量としてHOGを用いる。HOGは例えば、9方向の輝度勾配のヒストグラムを意味する9次元の特徴ベクトルで表現される。
なお、特定領域とその周辺領域とは連続性を有する。例えば、被識別画像を格子状に分割して小領域を設定した場合、周辺領域は特定領域の8近傍の小領域とすることができる。本実施形態では自然画像内の各位置に小領域を設定しており、特定領域とその周辺領域とは空間的連続性を有する。
標本の合成処理は、単純な画像の置換または対応する画素同士の平均化とすることができる。また、Patrick Perez, Michel Gangnet, Andrew Blake著の論文“Poisson Image Editing”,(ACM Transactions on Graphic 2003)に記されたポアソン・イメージ・エディティング(Poisson Image Editing)法などを用いることもできる。この方法を用いる場合、特徴量算出手段101は、被識別画像における特定領域の画像と標本の画像とを平均化し、または被識別画像における特定領域の画像を標本の画像に置換し、平均化後または置換後の被識別画像において特定領域の画像にその周辺領域の画像を互いの勾配情報を考慮しながら混合して(平均化して)混合後の被識別画像から特徴量を抽出する。つまり、特定領域については少なくとも標本の画像に被識別画像における周辺領域の画像を混合して特徴量を求める。そのため、特定領域と周辺領域との境界で偽エッジが発生することを極力抑えた自然な画像合成を行うことができる。
特徴量混合手段102は少なくとも特定領域についてその特徴量に周辺領域の特徴量を混合する処理を行い、当該処理後の特徴量を識別手段103に入力する。
本実施形態では特徴量混合手段102は、各小領域の特徴量にその周囲領域の特徴量をデータ連結し、データ連結した特徴量を正規化する。具体的には、各小領域から抽出した9次元の特徴ベクトルにその8近傍の周辺領域それぞれから抽出した9次元の特徴ベクトルを連結して81次元の特徴ベクトルを生成し、生成した特徴ベクトルのノルム(ベクトルの要素の和、或いはベクトルの要素の二乗和の平方根)が1となるように正規化する。このデータ連結と正規化によって、少なくとも、人の標本を合成した特定領域の特徴量に合成を行っていない周辺領域の特徴量が混合される。
被識別画像が人の写っている画像であれば、周辺領域も人の特徴量が抽出されている可能性が高く、特徴量を混合しても特定領域における特徴量の人らしさは十分に高く維持される可能性が高い。特に合成前の特徴領域における人らしさが低かった場合は、その人らしさが高められる可能性が高くなる。その結果、従来技術では人ではないと誤識別されたものが人であると識別され易くなる。一方、被識別画像が人の写っていない画像であれば、周辺領域は背景の特徴量が抽出されているのであるから、特徴量を混合すると特定領域における特徴量の人らしさは十分に低くなる可能性が高い。
識別関数記憶手段111は、予め人が写っている多数の学習画像それぞれから抽出した特徴量、及び人が写っていない多数の学習画像それぞれから抽出した特徴量をリアル・アダブースト(Real AdaBoost)法により機械学習した識別関数を記憶している。なお、学習画像のサイズは全て一定サイズである。
特徴量は、学習画像それぞれを被識別画像の場合と同様に複数の小領域に分割して各小領域から9次元の特徴ベクトルである特徴量を抽出し、さらに各小領域及びその周辺領域の特徴量を被識別画像の場合と同様に混合した81次元の特徴ベクトルである。なお、学習画像からの特徴量の抽出は、上述した被識別画像からの特徴量の抽出と異なり、標本の合成をせずに行う。
リアル・アダブースト法により機械学習した識別関数は、弱識別器と呼ばれる関数が複数連結した構成であり、各弱識別器は1つの小領域のベクトル成分を選択的に用いて識別を行う。特定領域は識別関数において各弱識別器が識別に用いる小領域に当たる。
アダブースト法に代えてサポートベクターマシーン(Support Vector Machine:SVM)法により機械学習することもできる。サポートベクターマシーン法による機械学習では各小領域に対する重みを要素とする重みベクトルが求められ、識別関数は被識別画像の特徴量と重みベクトルとの内積で表される。この場合は、重みベクトルにおいてその重みの絶対値が予め定めた閾値より高く設定された小領域を特定領域とする、或いは、小領域を重みの絶対値の降順に並べたときに予め定めた順位までの小領域を特定領域とすることができる。
このように、識別関数記憶手段111は、複数の小領域の特徴量が対象の特徴量であるか否かを、特定領域の特徴量に周辺領域の特徴量よりも高く重み付けて識別するための識別関数を記憶している。当該識別関数は少なくともそれぞれが対象を含む複数の学習画像を用いて予め学習される。
識別手段103は、識別関数記憶手段111から識別関数を読み出して、特徴量混合手段102による混合が行われた複数の小領域の特徴量を識別関数に入力し、識別関数が出力する尤度を予め定めた識別閾値と比較することによって、当該複数の小領域の特徴量が人の特徴量であるか否かを識別する。
識別手段103は尤度が識別閾値より高ければ人の特徴量であると識別し、尤度が識別閾値未満であれば人の特徴量でないと識別する。そして、人の特徴量と識別された場合、被識別画像の切り出し位置、幅、高さ及び尤度からなる人候補領域の情報を候補領域記憶手段112に書き込む。なお、人候補領域の情報は縮尺(縮小率または拡大率)を用いて原サイズの情報に換算してから書き込む。
候補領域記憶手段112は識別手段103が出力する人候補領域の情報を記憶する。なお、1枚の監視画像から複数の人候補領域が識別され得るため、候補領域記憶手段112は各監視画像を処理し始めてから処理し終わるまでの間、当該監視画像にて識別された人候補領域の情報を保持する。
対象領域判定手段104は、候補領域記憶手段112に人候補領域が記憶されていれば、検知信号を出力部13へ出力する。なお、検知信号に、監視画像及び人領域の情報を含めてもよい。
図3は人検知装置1の概略の動作を示したフローチャートである。
人検知装置1の起動後、監視カメラ10は、所定の撮影周期にて監視空間の画像を撮影し、当該周期で監視画像を画像処理部12に入力する。
画像処理部12は、監視画像が入力されるたびに図3のステップS100〜S109の処理を繰り返す。
画像処理部12は監視カメラ10から監視画像を取得すると(ステップS100)、記憶部11の候補領域記憶手段112に記憶されている人候補領域(すなわち過去の監視画像に対する識別結果)を消去する。
画像処理部12は切り出し手段100として動作し、予め定められた切り出しの位置及びサイズの複数の組み合わせを順次設定し、監視画像から当該切り出し位置及びサイズで被識別画像を切り出す(ステップS101)。
画像処理部12は特徴量算出手段101として動作し、記憶部11の標本記憶手段110から各特定領域の標本を読み出し、被識別画像の特定領域に当該特定領域と対応する標本を合成する(ステップS102)。そして、特徴量算出手段101は、標本を合成した被識別画像における各小領域から特徴量を抽出する(ステップS103)。
画像処理部12は特徴量混合手段102として動作し、ステップS102にて各小領域から抽出した特徴量に当該小領域の周辺領域(すなわち8近傍の小領域)の特徴量を混合する(ステップS104)。
画像処理部12は識別手段103として動作し、記憶部11の識別関数記憶手段111から識別関数を読み出して、読み出した識別関数にステップS104にて混合した特徴量を入力し、識別関数が出力する尤度を識別閾値と比較する。尤度が識別閾値より高ければ、被識別画像に人が写っていると識別して、被識別画像の切り出し位置、切り出しサイズ及び尤度からなる人候補領域の情報を候補領域記憶手段112に追加記憶させる(ステップS105)。一方、尤度が識別閾値以下であれば、被識別画像に人が写っていないと識別して、人候補領域の追加記憶は行わない。
画像処理部12は、予め定められた切り出しの位置及びサイズの組み合わせごとにステップS101〜S105の処理を繰り返す(ステップS106にて「NO」の場合)。全ての組み合わせについて処理が終了した場合は(ステップS106にて「YES」の場合)、画像処理部12は対象領域判定手段104としての動作(ステップS107〜S109)に処理を進める。
対象領域判定手段104は候補領域記憶手段112を参照して人候補領域の情報が記憶されているか否かを確認する(ステップS107)。記憶されている場合は(ステップS107にて「YES」の場合)、監視空間に人が存在するとして、人領域の判定処理(ステップS108)及び検知信号の出力処理(ステップS109)を行う。
具体的には、ステップS108では、候補領域記憶手段112から人候補領域の情報を読み出して、例えば、50%以上の面積が互いに重複している人候補領域をグループ化し、各グループにおいて最高尤度の人候補領域を人領域と判定する。またステップS109では、監視空間に人が存在する旨を示す所定の検知信号に、判定した人領域の情報と監視画像とを含めて出力部13へ出力する。出力部13は入力された検知信号を監視センターに送出する。
検知信号を出力した対象領域判定手段104は処理をステップS100に戻し、次の監視画像の取得を待つ。また、ステップS107にて、候補領域記憶手段112に人候補領域の情報が記憶されていない場合は監視空間に人は存在しないとして、この場合も対象領域判定手段104は処理をステップS100に戻し、次の監視画像の取得を待つ(ステップS107にて「NO」の場合)。
図4は特徴量算出手段101の処理を説明する模式図であり、被識別画像150に標本画像180を合成する処理が示されている。図4に示す例では被識別画像150には人152が写っている。また標本画像180にも人182が写っている。特徴量算出手段101は被識別画像150上に小領域を設定する。画像160は被識別画像150上に小領域が設定された様子を示しており、小領域として水平方向(x方向)に8個、垂直方向(y方向)に16個並ぶブロック162が設定されている。
標本画像180も画像160と同様に小領域としてブロック184に分割されている。標本画像180における網掛けを施したブロックは、標本記憶手段110が記憶している特定領域186の標本を模式的に表したものである。具体的には、(x,y)でブロックのx方向の位置とy方向との位置と組を表すと、10個のブロック(4,2),(6,3),(3,5),(6,5),(7,7),(3,8),(6,10),(3,14),(4,15),(6,15)が特定領域186であり、これらの部分に対応する人の標本画像が標本記憶手段110に記憶されている。
画像170は特徴量算出手段101によって被識別画像150に標本画像180が合成された画像を表している。標本画像180の各特定領域186と同じ位置に当該特定領域の画像が合成される。
特徴量算出手段101は合成画像170の各小領域について特徴量として例えば、9次元のHOGを算出する。
図5は合成画像170に対する特徴量混合手段102の処理を説明する模式図である。例えば、(4,2)に位置する特定領域190に対し、それに隣接する8個のブロック(3,1),(4,1),(5,1),(3,2),(5,2),(3,3),(4,3),(5,3)が周辺領域192である。特徴量混合手段102は特定領域190の特徴量にその周辺領域192の特徴量を混合する。混合により81次元の特徴ベクトルが生成される。なお、各小領域に対して特徴量の混合が行われる。
識別手段103は、こうして算出された特徴量のうち、特定領域の特徴量に他の小領域よりも高く重み付けて識別を行う。
図6〜図8は合成処理の例を示す模式図であり、それぞれ左側の画像が被識別画像、右側の画像が標本画像180、中央が合成画像である。合成画像の例として被識別画像において特定領域を標本画像180の画像で置き換えたものを示している。これらの例を用いて、本発明の効果を説明する。
図6における被識別画像300には姿勢や体型が学習画像と大きく異なる人物302が写っている。被識別画像300は、腕や左足が大きく変位していること、及び体型が太めであることから、腕や左足や胴に設定された特定領域において人が写った学習画像のような輪郭エッジが出にくく、従来技術では人が写っていると識別されないものを想定している。図7における被識別画像320には一部隠蔽が発生している人物322が写っている。被識別画像320は、テーブル324に隠された部分に設定された特定領域において人が写った学習画像のような輪郭エッジが出にくく、従来技術では人が写っていると識別されないものを想定している。図8における被識別画像340には人が写っていない。
特徴量算出手段101は特定領域に人らしい輪郭情報を合成して特徴量を抽出することができる。被識別画像300,320のように人が写っている画像であれば特定領域の周辺領域には人らしい輪郭情報の存在が期待できる。この被識別画像から生成した合成画像310,330に対し特徴量混合手段102により混合処理を行うと、特定領域に合成した人らしい輪郭情報と周辺領域に存在する人らしい輪郭情報が混ざり合うため、特定領域の特徴量が有する人らしさは元の特徴量よりも大きく上昇することが期待できる。そのため、姿勢や体型が学習画像と大きく異なる人物が写った被識別画像であっても識別手段103によって人が写っていると正しく識別できる確率を高めることができる。
一方、被識別画像340のように人が写っていない画像の場合、当該画像から生成される合成画像350では特定領域に人らしい輪郭情報を合成されるので人らしさは上昇するが、特定領域の周辺領域には人らしい輪郭情報が無いことが期待できる。この合成画像350に対して特徴量混合手段102により混合処理を行うと、特定領域に合成した人らしい輪郭情報に周辺領域の人らしさのない輪郭情報が混ざり合うため、特定領域の特徴量が有する人らしさの上昇は人が写った被識別画像の場合と比べて十分に抑制できることが期待できる。また、そのため、識別手段103が人が写っていない被識別画像を人が写っていないと正しく識別できる確率を高めることができる。
また、この効果は次のように解釈することもできる。すなわち、識別器は学習画像の各個所とその周辺との連続性を考慮して学習されており、標本画像180の特定領域の特徴量はその連続性に適った性質・情報を備えている。合成画像310,330では周辺領域に人らしい特徴量が存在することが期待でき、特定領域と周辺領域との連続性が比較的高く、混合後の特定領域の特徴量は当該連続性に適う性質・情報を好適に保つことが期待できる。これに対して、合成画像350では特定領域と周辺領域との連続性が低く、特定領域の特徴量が当初有する連続性に適う性質・情報は混合で損なわれる。そのため、混合による識別器の出力(尤度)の上昇は、合成画像350のように人が写っていない場合では、合成画像310,330のように人が写っている場合よりも小さい。
標本記憶手段110に記憶される標本は対象検出の処理に先立って生成され、標本生成を人検知装置1で行うように構成することができる。図9はその場合の人検知装置1の概略の機能ブロック図である。標本生成の際、記憶部11は、標本記憶手段110、識別関数記憶手段111、対象データ記憶手段150及び非対象データ記憶手段151として機能する。また、画像処理部12は、特徴量算出手段152、特徴量混合手段153、識別手段154及び標本選定手段155として動作する。
既に述べたように標本記憶手段110は標本を記憶する手段であり、識別関数記憶手段111は識別関数を予め記憶する手段である。
対象データ記憶手段150はそれぞれに人が写っている多数の画像(対象サンプル画像)を予め記憶している。当該画像は予め用意でき人が写っていることが分かっている画像であればよく、識別関数の学習に用いた学習画像でもよいし、学習画像以外の画像でもよいし、両者を含んでもよい。
非対象データ記憶手段151は人が写っていない多数の画像(非対象サンプル画像)を予め記憶している。当該画像は予め用意でき人が写っていないことが分かっている画像であればよく、識別関数の学習に用いた学習画像でもよいし、学習画像以外の画像でもよいし、両者を含んでもよい。
特徴量算出手段152は、対象データ記憶手段150から順次任意の画像を読み出してその特定領域の画像を標本候補とし、対象データ記憶手段150に記憶された画像それぞれの特定領域に標本候補を合成して各小領域の特徴量を抽出すると共に、非対象データ記憶手段151に記憶された画像それぞれの特定領域に標本候補を合成して各小領域の特徴量を抽出する。
また特徴量算出手段152は対比のために、合成を行わない場合の特徴量も抽出する。具体的には、対象データ記憶手段150に記憶された画像から各小領域の特徴量を抽出し、また非対象データ記憶手段151に記憶された画像から各小領域の特徴量を抽出する。
すなわち、特徴量算出手段152は、対象サンプル画像及び非対象サンプル画像のそれぞれに特定領域及び当該特定領域の周辺領域を含む複数の小領域を設定し、対象サンプル画像及び非対象サンプル画像それぞれから複数の小領域の特徴量を抽出すると共に、任意の対象サンプル画像における特定領域の画像を標本候補とし、標本候補ごとに、対象サンプル画像及び非対象サンプル画像それぞれの特定領域に標本候補を合成して複数の小領域の特徴量を抽出する。
なお、小領域及び特定領域の設定、特徴量の種類は上述した特徴量算出手段101と同じである。
特徴量混合手段153は、特徴量算出手段152が各画像から抽出した特徴量に対し、画像ごとに、各小領域の特徴量にその周辺領域の特徴量を混合して識別手段154へ出力する。混合の方法は特徴量混合手段102と同じである。
識別手段154は識別関数記憶手段111から識別関数を読み出して、特徴量混合手段153によって混合が行われた複数の小領域の特徴量を識別関数に入力し、識別関数が出力する尤度を標本選定手段155へ出力する。
標本選定手段155は、識別手段154が算出した尤度に基づいて標本候補の中から1つの標本を選定し、選定した標本を標本記憶手段110に記憶させる。
選定処理では、まず対象データ記憶手段150に記憶された画像に関し、次式により、標本候補ごとに尤度の平均上昇度を算出する。平均上昇度は、標本候補の合成を行った場合の尤度(右辺括弧内第1項)と標本候補の合成を行わなかった場合の尤度(右辺括弧内第2項)との差の平均である。なお、添字lは標本候補に対応したインデックスであり、添字jは画像に対応したインデックスである。
また、非対象データ記憶手段151に記憶された画像に関し、次式により、標本候補ごとに尤度の平均上昇度を算出する。なお、(1)式と同様、右辺括弧内第1項が標本候補の合成を行った場合の尤度であり、右辺括弧内第2項が標本候補の合成を行わなかった場合の尤度である。また、なお、添字lは標本候補に対応したインデックスであり、添字kは画像に対応したインデックスである。
次に、標本候補ごとに、対象データ記憶手段150に記憶された画像に関する平均上昇度と非対象データ記憶手段151に記憶された画像に関する平均上昇度の差を求める。具体的には次式に示すように、(1)式で求めた平均上昇度と(2)式で求めた平均上昇度との差diffを計算する。
最後に、次式に示すように、平均上昇度の差diffが最も大きい標本候補を選定し、標本記憶手段110に記憶させる。
標本は対象サンプル画像から選択しているため、これを合成して抽出した特徴量に対する尤度は元の画像が対象サンプル画像であっても非対象サンプル画像であっても上昇する傾向がある。従って、対象サンプル画像に関する平均上昇度と非対象サンプル画像に関する平均上昇度の差が最大になる標本候補を選定することで、対象を含んだ被識別画像に対して識別手段103が出力する尤度を上昇させ、かつ、対象を含まない被識別画像に対して識別手段103が出力する尤度を上昇させにくい標本を選定することができる。
なお、ここでは、複数の特定領域における標本を1つの対象サンプル画像から抽出する例を示したが、特定領域ごとに標本抽出元の対象サンプル画像を異ならせて標本を抽出してもよい。また、ここでは、平均上昇度を選定の尺度としたが、対象サンプル画像に標本候補を合成して抽出した特徴量に対して識別関数が出力する尤度そのものを尺度としてもよい。すなわち、最大の尤度が得られる標本候補を標本として選定してもよい。
[第一の実施形態の第一変形例]
上記実施形態においては、標本として画像形式のデータを用いたが、標本として特徴量形式のデータを用いることもできる。この構成では、標本記憶手段110は、対象を含む対象画像の特定領域から予め抽出した特徴量を標本として記憶している。また、特徴量算出手段101は、被識別画像における複数の小領域それぞれから特徴量を抽出し、抽出した特定領域の特徴量に標本記憶手段110に記憶している特定領域の特徴量を合成する。
図10はこの構成での人検知装置1の概略の動作を示したフローチャートである。図10におけるステップS150,S151,S154〜S159はそれぞれ図3におけるステップS100,S101,S104〜S109と同様である。以下、相違点を説明する。図3を用いて説明した上記実施形態では、特徴量算出手段101が、ステップS102にて被識別画像の特定領域に標本記憶手段110に記憶している画像を合成してから、ステップS103にて合成後の被識別画像の各小領域において特徴量を抽出した。これに対し、本変形例では、特徴量算出手段101はステップS152にて被識別画像に複数の小領域を設定して各小領域から特徴量を抽出してから、ステップS153にて特定領域の特徴量に標本記憶手段110に記憶している特定領域の特徴量を合成する。
また、標本記憶手段110に記憶する標本が特徴量である本変形例では、被識別画像の代わりに、被識別画像から抽出した特徴量を対象識別装置に入力する構成とすることもできる。この構成では、特徴量算出手段101とは別に特徴量抽出手段が設けられ、当該特徴量抽出手段は切り出し手段100から出力された被識別画像に複数の小領域を設定して各小領域から特徴量を抽出する。そして、抽出された特徴量が対象識別装置に入力される。すなわち、特徴量算出手段101は当該特徴量を入力され、標本である特徴量との合成を行う。
[第一の実施形態の第二変形例]
非対象サンプル画像を分割した複数の小領域のうちの特定領域から予め抽出した標本(非対象標本)を標本記憶手段110に記憶しておき、対象標本に代えて非対象標本を特徴量算出手段101にて合成する構成とすることもできる。
[第二の実施形態]
人検知装置1が備える対象識別装置においては、対象標本を特徴量算出手段101が被識別画像又は被識別画像から抽出した特徴量に合成して特徴量を算出し、この特徴量に特徴量混合手段102が混合処理を施して識別手段103が合成及び混合を行った特徴量を用いて被識別画像の識別を行った。これは、被識別画像が対象を含むと予め仮定した仮説の下で、被識別画像が対象を含む場合に対象であると識別されやすくなり、被識別画像が対象を含まない場合に対象であると誤識別されにくい合成及び混合を行ったものと解釈できる。そして、仮説に応じて行った合成及び混合が仮説を支持する特徴量を生成したか否かを識別によって検証したと解釈できる。
このような予めの仮定に基づいて仮説を立てておくのではなく、実際に被識別画像を識別して、その識別結果を仮説とすることもできる。このように被識別画像ごとに仮説を立てる構成としたのが、以下に説明する第二の実施形態である。本実施形態に係る人検知装置2の概略のブロック構成図は第一の実施形態と同じである。人検知装置2は本発明の第二実施形態の対象識別装置を含み、監視画像から切り出した被識別画像を対象識別装置に入力する。対象識別装置は識別対象である人の像が被識別画像に含まれているか否かを識別し、人検知装置2は対象識別装置による識別結果を基にして人の検知を行う。
図11は人検知装置2の概略の機能ブロック図である。記憶部11は、原データ識別関数記憶手段210、対象標本記憶手段211、非対象標本記憶手段212、対象合成データ識別関数記憶手段213、非対象合成データ識別関数記憶手段214及び候補領域記憶手段215として機能する。また、画像処理部12は、切り出し手段200、第一識別手段201、特徴量算出手段202、特徴量混合手段203、第二識別手段204及び対象領域判定手段205として動作する。これらのうち対象識別装置は、基本的に原データ識別関数記憶手段210、第一識別手段201、対象標本記憶手段211、特徴量算出手段202、特徴量混合手段203、対象合成データ識別関数記憶手段213及び第二識別手段204を含み、好適にはさらに非対象標本記憶手段212及び非対象合成データ識別関数記憶手段214を含む。
切り出し手段200は監視画像から一部の領域を切り出す。切り出された画像は被識別画像として対象識別装置へ入力される。切り出し方は第一の実施形態の切り出し手段100と同様である。
原データ識別関数記憶手段210は、予め人が写っている多数の学習画像それぞれから抽出した特徴量、及び人が写っていない多数の学習画像それぞれから抽出した特徴量をリアル・アダブースト法により機械学習した識別関数を記憶している。識別関数は他の方法により機械学習したものでもよい。
このように、原データ識別関数記憶手段210は、被識別画像が対象を含むか否かを、被識別画像に設定した複数の小領域から抽出された特徴量を用いて識別するための識別関数であって、小領域のうち予め定めた特定領域の特徴量に特定領域以外の特徴量よりも高く重み付けて識別する識別関数を記憶している。当該識別関数は少なくともそれぞれが対象を含む複数の学習画像を用いて予め学習される。
第一識別手段201は、被識別画像を複数の小領域に分割して各小領域の画像から特徴量を算出し、各小領域の特徴量にその周辺の小領域(周辺領域)の特徴量を混合し、原データ識別関数記憶手段210から識別関数を読み出して当該混合後の特徴量を識別関数に入力し、識別関数が出力する尤度を予め定めた識別閾値と比較することによって、被識別画像に人が写っているか否かを識別する。すなわち、なお、第一識別手段201は被識別画像に複数の小領域を設定して各小領域の特徴量を抽出し、上述した識別関数の性質から、特徴量のうち特定領域のものをそれ以外の小領域のものよりも高く重み付けて、被識別画像における所定の対象の有無を識別する。
第一識別手段201は尤度が識別閾値より高ければ人の特徴量であると識別し、尤度が識別閾値未満であれば人の特徴量でないと識別する。識別結果は特徴量算出手段202及び第二識別手段204へ出力され、出力先のそれぞれにて標本の選択及び識別関数の選択に用いられる。
対象標本記憶手段211は、人が写った画像を分割した複数の小領域のうち、第一識別手段201が他の小領域よりも高く重み付けて評価する小領域である特定領域の画像を対象標本として予め記憶している。すなわち対象を含む対象サンプル画像の特定領域から予め抽出した対象標本を記憶している。
非対象標本記憶手段212は、人が写っていない画像を分割した複数の小領域のうち、特定領域の画像を非対象標本として予め記憶している。すなわち対象を含まない非対象サンプル画像の特定領域から予め抽出した非対象標本を記憶している。
特徴量算出手段202は、被識別画像を分割した複数の小領域のうち上述した特定領域に当該特定領域の標本の画像を合成する。そして、合成後の被識別画像における各小領域のそれぞれから予め定めた種類の特徴量を抽出し、抽出した特徴量を特徴量混合手段203へ出力する。
このとき、特徴量算出手段202は第一識別手段201から入力された識別結果を参照し、被識別画像に人が写っていると識別された場合は対象標本記憶手段211から対象標本の画像を読み出して合成し、被識別画像に人が写っていないと識別された場合は非対象標本記憶手段212から非対象標本の画像を読み出して合成する。つまり、第一識別手段201の識別結果を仮説とみなし、当該仮説を支持する合成を行う。
このように特徴量算出手段202は、第一識別手段201が対象を含むと識別した場合、被識別画像の特定領域に対象標本を合成して各小領域の特徴量を算出する。また、第一識別手段201が対象を含まないと識別した場合、被識別画像の特定領域に非対象標本を合成して各小領域の特徴量を算出する。
特徴量混合手段203は、特徴量算出手段202による合成後の画像から抽出された各小領域の特徴量にその周囲領域の特徴量を混合し、第二識別手段204へ出力する。具体的には、特徴量混合手段203は混合処理にて、第一の実施形態で述べたように、各小領域の9次元の特徴ベクトルをデータ連結し、データ連結後の81次元のベクトルで表される特徴量を正規化する。この処理によって特徴量混合手段203は少なくとも特定領域の特徴量に周辺領域の特徴量を混合する。
対象合成データ識別関数記憶手段213は、少なくともそれぞれが対象を含む複数の画像の特定領域に対象標本を合成した学習画像を用いて予め学習した識別関数を記憶している。本実施形態では、対象合成データ識別関数記憶手段213は予め人が写っている多数の学習画像それぞれの特定領域に対象標本を合成して各小領域から抽出した特徴量、及び人が写っていない多数の学習画像それぞれの特定領域に対象標本を合成して各小領域から抽出した特徴量を用いてリアル・アダブースト法により機械学習した識別関数を記憶している。なお、識別関数は他の方法により機械学習したものでもよい。
対象合成データ識別関数記憶手段213に用意される識別関数は、共通した特定領域に共通した対象標本を合成したデータセットで学習した識別関数である。そのため、この識別関数における各小領域に対する重み付けは、原データ識別関数記憶手段210が記憶している識別関数における重み付けと異なる。これにより第一識別手段201とは異なる観点で被識別画像の識別ができる。
さらに対象標本を合成したデータセットで学習した識別関数であるため、被識別画像に対して行った対象標本の合成によって特定領域とその周辺領域の間に連続性があるか否かについて高い精度で識別できる。そのため、当該識別関数を用いる第二識別手段204では被識別画像に対して第一識別手段201よりも精度の高い識別が可能となる。
非対象合成データ識別関数記憶手段214は、少なくともそれぞれが対象を含む複数の画像の特定領域に非対象標本を合成した学習画像を用いて予め学習した識別関数を記憶している。本実施形態では、予め人が写っている多数の学習画像それぞれの特定領域に非対象標本を合成して各小領域から抽出した特徴量、及び人が写っていない多数の学習画像それぞれの特定領域に非対象標本を合成して各小領域から抽出した特徴量を用いてリアル・アダブースト法により機械学習した識別関数を記憶している。なお、識別関数は他の方法により機械学習したものでもよい。
非対象合成データ識別関数記憶手段214に用意される識別関数は、共通した特定領域に共通した非対象標本を合成したデータセットで学習した識別関数である。そのため、この識別関数における各小領域に対する重み付けは、原データ識別関数記憶手段210が記憶している識別関数における重み付けと異なる。これにより第一識別手段201とは異なる観点で被識別画像の識別ができる。
さらに非対象標本を合成したデータセットで学習した識別関数であるため、被識別画像に対して行った非対象標本の合成によって特定領域とその周辺領域の間に連続性があるか否かについて高い精度で識別できる。そのため、当該識別関数を用いる第二識別手段204では被識別画像に対して第一識別手段201よりも精度の高い識別が可能となる。
第二識別手段204は、第一識別手段201が被識別画像に人が写っていると識別した場合は対象合成データ識別関数記憶手段213から識別関数を読み出し、第一識別手段201が被識別画像に人が写っていないと識別した場合は非対象合成データ識別関数記憶手段214から識別関数を読み出す。そして、読み出した識別関数に特徴量混合手段203による混合が行われた複数の小領域の特徴量を入力し、識別関数が出力する尤度を予め定めた識別閾値と比較することによって、被識別画像に人が写っているか否かを再識別する。つまり第二識別手段204は、第一識別手段201とは異なる観点で、第一識別手段201の識別結果に応じて標本を合成した被識別画像に対する識別精度を高めた再識別を行う。
第二識別手段204は尤度が識別閾値より高ければ人の特徴量であると識別し、尤度が識別閾値未満であれば人の特徴量でないと識別する。そして、人が写っていると識別した場合、被識別画像の切り出し位置、幅、高さ及び尤度からなる人候補領域の情報を候補領域記憶手段215に書き込む。
このようにして第二識別手段204が行う再識別は、第一識別手段201の識別結果を仮説とみなして当該仮説を支持する合成に矛盾が無いか検証する処理と位置付けられる。このように、第二識別手段204は、被識別画像が対象を含むか否かを特徴量混合手段203が混合した特徴量を用いて識別関数により再識別するが、当該再識別は、第一識別手段201が対象を含むと識別した場合には、それぞれが対象を含む複数の画像の特定領域に対象標本を合成した学習画像を用いて予め学習した識別関数によって行われ、また、第一識別手段201が対象を含まないと識別した場合には、それぞれが対象を含む複数の画像の特定領域に非対象標本を合成した学習画像を用いて予め学習した識別関数によって行われる。
候補領域記憶手段215は第二識別手段204が出力する人候補領域の情報を記憶する。
対象領域判定手段205は候補領域記憶手段215に人候補領域が記憶されていれば、検知信号を出力部13へ出力する。
図12は人検知装置2の概略の動作を示したフローチャートである。
人検知装置2の起動後、監視カメラ10は所定の撮像周期にて監視空間を撮影して監視画像を画像処理部12に入力する。画像処理部12は監視カメラ10から監視画像を取得すると(ステップS200)、記憶部11の候補領域記憶手段215に記憶されている過去の人候補領域を消去する。
画像処理部12は切り出し手段200として動作し、予め定められた切り出しの位置及びサイズの複数の組み合わせを順次設定し、監視画像から当該切り出し位置及びサイズで被識別画像を切り出す(ステップS201)。
画像処理部12は被識別画像に対して第一識別手段201として動作する。第一識別手段201は被識別画像に対する標本の合成を行わずに原データレベルで識別を行う。すなわち第一識別手段201は、被識別画像をブロック分割することで複数の小領域を設定し、各小領域の画像から特徴量を抽出し、さらに各小領域の特徴量にその周辺領域の特徴量を混合する。続いて第一識別手段201は、記憶部11の原データ識別関数記憶手段210から識別関数を読み出し、この識別関数に被識別画像から抽出した特徴量を入力して、識別関数が出力する尤度を識別閾値と比較する(ステップS202)。
第一識別手段201は、尤度が識別閾値よりも大きければ被識別画像が人を含むと識別し、処理をステップS204に進める(ステップS203にて「YES」の場合)。
この場合、画像処理部12は特徴量算出手段202として動作し、記憶部11の対象標本記憶手段211から各特定領域の対象標本を読み出し、被識別画像の各特定領域に当該特定領域と対応する対象標本を合成する(ステップS204)。そして、特徴量算出手段202は、対象標本を合成した被識別画像の各小領域から特徴量を抽出する(ステップS205)。
画像処理部12は特徴量混合手段203として動作し、各小領域から抽出した特徴量に当該小領域の周辺領域の特徴量を混合する(ステップS206)。
次に、画像処理部12は第二識別手段204として動作し、記憶部11の対象合成データ識別関数記憶手段213から識別関数を読み出して、読み出した識別関数にステップS206にて混合した特徴量を入力し、識別関数が出力する尤度を識別閾値と比較する。尤度が識別閾値より高ければ、被識別画像に人が写っていると識別して、被識別画像の切り出し位置、切り出しサイズ及び尤度からなる人候補領域の情報を候補領域記憶手段215に追加記憶させる(ステップS207)。なお、尤度が識別閾値以下であれば人候補領域の追加記憶は行わない。
一方、ステップS203にて第一識別手段201が被識別画像に人が含まれないと識別した場合(ステップS203にて「NO」の場合)、特徴量算出手段202は、記憶部11の非対象標本記憶手段212から各特定領域の非対象標本を読み出し、被識別画像の各特定領域に当該特定領域と対応する非対象標本を合成する(ステップS208)。そして、特徴量算出手段202は、非対象標本を合成した被識別画像の各小領域から特徴量を抽出する(ステップS209)。
特徴量混合手段203は、各小領域から抽出した特徴量に当該小領域の周辺領域の特徴量を混合する(ステップS210)。
第二識別手段204は、非対象合成データ識別関数記憶手段214から識別関数を読み出して、読み出した識別関数にステップS210にて混合した特徴量を入力し、識別関数が出力する尤度を識別閾値と比較する。尤度が識別閾値より高ければ、被識別画像に人が写っていると識別して、被識別画像の切り出し位置、切り出しサイズ及び尤度からなる人候補領域の情報を候補領域記憶手段215に追加記憶させる(ステップS211)。なお、尤度が識別閾値以下であれば人候補領域の追加記憶は行わない。
画像処理部12は、予め定められた切り出しの位置及びサイズの組み合わせごとにステップS201〜S211の処理を繰り返す(ステップS212にて「NO」の場合)。全ての組み合わせについて処理が終了した場合は(ステップS212にて「YES」の場合)、画像処理部12は対象領域判定手段205としての動作(ステップS213〜S215)に処理を進める。
対象領域判定手段205は候補領域記憶手段215を参照して人候補領域の情報が記憶されているか否かを確認する(ステップS213)。記憶されている場合は(ステップS213にて「YES」の場合)、監視空間に人が存在するとして、人領域の判定処理(ステップS214)及び検知信号の出力処理(ステップS215)を行う。これらの処理S214,S215は第一の実施形態の図3を用いて説明した処理S108,S109と同様である。
検知信号を出力した対象領域判定手段205は、処理をステップS200に戻し、次の監視画像の取得を待つ。また、ステップS213にて、候補領域記憶手段215に人候補領域の情報が記憶されていない場合は監視空間に人は存在しないとして、この場合も対象領域判定手段205は処理をステップS200に戻し、次の監視画像の取得を待つ(ステップS213にて「NO」の場合)。
[第二の実施形態の第一変形例]
上記実施形態においては、標本として画像形式のデータを用いたが、標本として特徴量形式のデータを用いることもできる。この構成では、対象標本記憶手段211は、対象を含む対象画像の特定領域から予め抽出した特徴量を対象標本として記憶し、非対象標本記憶手段212は対象を含まない非対象画像の特定領域から予め抽出した特徴量を非対象標本として記憶している。また、特徴量算出手段202は、被識別画像における複数の小領域それぞれから特徴量を抽出し、抽出した特定領域の特徴量に対象標本記憶手段211または非対象標本記憶手段212に記憶している特定領域の特徴量を合成する。
図13はこの構成での人検知装置2の概略の動作を示したフローチャートである。図13におけるステップS250〜S253,S256,S257,S260〜S265はそれぞれ図12におけるステップS200〜S203,S206,S207,S210〜S215と同様である。以下、相違点を説明する。
図12を用いて説明した上記実施形態では、特徴量算出手段202が、ステップS204にて被識別画像の特定領域に対象標本記憶手段211に記憶している特定領域の標本画像を合成してから、ステップS205にて合成後の被識別画像において各小領域の特徴量を抽出した。これに対し、本変形例では、特徴量算出手段202はステップS254にて被識別画像に複数の小領域を設定して各小領域の特徴量を抽出してから、ステップS255にて特定領域の特徴量に対象標本記憶手段211に記憶している特定領域の標本特徴量を合成する。
また図12を用いて説明した上記実施形態では、特徴量算出手段202が、ステップS208にて被識別画像の特定領域に非対象標本記憶手段212に記憶している特定領域の標本画像を合成してから、ステップS209にて合成後の被識別画像において各小領域の特徴量を抽出した。これに対し、本変形例では、特徴量算出手段202はステップS258にて被識別画像に複数の小領域を設定して各小領域の特徴量を抽出してから、ステップS259にて特定領域の特徴量に非対象標本記憶手段212に記憶している特定領域の標本特徴量を合成する。
また、対象標本記憶手段211及び非対象標本記憶手段212に記憶する標本が特徴量である本変形例では、被識別画像の代わりに、被識別画像から抽出した特徴量を対象識別装置へ入力する構成とすることもできる。この構成では、特徴量算出手段202とは別に特徴量抽出手段が設けられ、当該特徴量抽出手段は切り出し手段200から出力された被識別画像に複数の小領域を設定して各小領域から特徴量を抽出する。そして、抽出された特徴量が対象識別装置に入力される。すなわち、特徴量算出手段202は当該特徴量を入力され、標本である特徴量との合成を行う。
[第二の実施形態の第二変形例]
上記実施形態において、第一識別手段201が被識別画像に対象が含まれないと識別した場合に行う再識別を省略してもよい。この第二変形例では、図12を用いて説明した第二実施形態における処理のうちステップS208〜S211が省略され、第一識別手段201が被識別画像に対象が含まれないと識別した場合(ステップS203にてNO)、処理はステップS212へと進められる。また、この第二変形例では図13を用いて説明した第一変形例においてステップS258〜S261が省略され、第一識別手段201が被識別画像に対象が含まれないと識別した場合(ステップS253にてNO)、処理はステップS262へと進められる。
上記各実施形態において特徴量混合手段はデータ連結と正規化によって混合を行ったが、特徴量混合手段が各小領域の特徴量を当該小領域の特徴量とその周辺領域の特徴量との平均値とすることで混合してもよい。なお、この変形例の場合、学習画像の特徴量も同様の混合を行って求め、各識別手段の学習に用いる。
上記各実施形態においては特徴量算出手段が抽出した特徴量を用い特徴量混合手段が特定領域の特徴量に周辺領域の特徴量を混合した。特徴量算出手段がポアソン・イメージ・エディティング法などを用い、少なくとも特定領域の標本の画像に被識別画像における周辺領域の画像を混合して特徴量を抽出する場合、特徴量混合手段による混合処理を省略しても本発明による効果を得ることができる。
上記各実施形態において各識別手段は機械学習により生成した識別関数を用いて識別を行ったが、識別関数は対象を含む多数の学習画像から抽出した各小領域の特徴量の平均パターンと被識別画像から抽出した対応する各小領域の特徴量との距離の和の逆数であるパターン一致度を算出する関数とすることもできる。当該識別関数は少なくともそれぞれが対象を含む複数の学習画像を用いて予め学習される。また、この変形例において特定領域は、例えば肩から頭部にかけての輪郭のΩ形状の領域など人の特徴が強く現れる個所として、予めマニュアル設定しておくことができる。また、この変形例において識別関数は各小領域に対して同じ重み付けで距離を算出してもよい。