JP2012088787A

JP2012088787A - 画像処理装置、画像処理方法

Info

Publication number: JP2012088787A
Application number: JP2010232779A
Authority: JP
Inventors: Kotaro Yano; 光太郎矢野
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2010-10-15
Filing date: 2010-10-15
Publication date: 2012-05-10

Abstract

【課題】認識対象および認識対象を含まない画像パターンを、人手を掛けずに収集する為の技術を提供すること。更に、このようにして収集した画像パターンを識別器の学習に用いることにより、高精度の画像認識を行うこと。
【解決手段】物体追跡部３１は、動画像を構成する各フレームの画像から、認識対象が映っている領域を抽出する。画像変換部３２は、この領域内の画像に対して幾何変換を行った画像に基づいて認識対象サンプルを生成する。領域切出部３４は、動画像を構成するフレームの画像に対して領域を設定する。画像合成部３５は、設定したそれぞれの領域内の画像中の複数の領域を合成した画像に基づいて非認識対象サンプル画像を生成する。学習部４０は、認識対象サンプルと非認識対象サンプルとを用いて認識対象を学習する。
【選択図】図１

Description

本発明は、入力画像から所定の物体を認識する画像認識技術に関するものである。

近年、デジタルスチルカメラやカムコーダにおいて、撮影中の画像から人の顔を検出して、物体を追跡する機能が急速に普及している。このような顔検出・追跡機能は、撮影対象の物体に自動的にピントや露出を合せるために非常に有用である。このような画像から顔を検出する技術は、非特許文献１で提案されているような技術を用いて、実用化が進んでいる。

一方、監視カメラでは、顔の見えない状況での人物、車、動物などに認識対象を拡張したいという要望がある。すなわち、ユーザ毎に認識したい対象は様々である。このような様々な物体の認識を実現するためには、認識したい物体に応じて辞書を用意する必要がある。例えば非特許文献１では、様々な顔および顔を含まない画像パターンを事前に収集して、アダブースト学習により識別器を構成するようにしている。このとき、認識精度の高い識別器を得るためには、より多くのパターンを用いて学習する必要がある。

認識対象が多岐に及ぶ場合には、認識対象および認識対象を含まない画像パターンを人手で収集することは事実上不可能である。そのような点に鑑み、少数の画像パターンから画像補間および画像変形によって多数の画像を生成して学習を行う方法が特許文献１に開示されている。また、非特許文献２では、動画像から物体を追跡し、追跡中の物体位置から認識対象の画像パターンを、物体位置の周辺から非認識対象の画像パターンを切出して、オンライン学習により識別器の更新を行うようにしている。

特許文献１では、認識対象の画像パターンのみから学習を行って認識処理を行う方法を前提としており、認識対象を含まない画像パターンを収集する方法については開示されていなかった。一般に、認識対象パターンのみの学習による認識処理は、認識対象パターンおよび非認識対象パターンの両方を用いた学習による認識処理に比べ認識精度が低い。

一方、非特許文献２では、物体を見失ったり、物体の追跡を中断した後に追跡を再開しようとすると、学習に用いていない背景画像から物体の認識を行うことになるので、誤認識が多くなる。

特開平9‐237340号公報

Viola and Jones, "Rapid Object Detection using Boosted Cascade of Simple Features", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR2001) Grabner and Bischof, "On-line Boosting and Vision", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR2006) Dalal and Triggs, "Histograms of oriented gradients for human detection", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR2005)

本発明は、以上の問題に鑑みてなされたものであり、認識対象および認識対象を含まない画像パターンを、人手を掛けずに収集する為の技術を提供することを目的とする。そして更に、本発明の別の目的は、このようにして収集した画像パターンを識別器の学習に用いることにより、高精度の画像認識を行うことにある。

本発明の目的を達成するために、例えば、本発明の画像処理装置は以下の構成を備える。即ち、動画像を取得する手段と、前記動画像を構成する各フレームの画像から、認識対象が映っている領域を抽出する手段と、抽出された前記領域内の画像に対して幾何変換を行った画像に基づいて認識対象サンプルを生成する第１の生成手段と、前記動画像を構成するフレームの画像中の複数の領域内の画像を合成した合成画像に基づいて非認識対象サンプル画像を生成する第２の生成手段と、前記認識対象サンプルと非認識対象サンプルとを用いて認識対象を学習する学習手段とを備えることを特徴とする。

本発明の構成によれば、認識対象および認識対象を含まない画像パターンを、人手を掛けずに収集することができる。更に、本発明の構成によれば、このようにして収集した画像パターンを識別器の学習に用いることにより、高精度の画像認識を行うことができる。

画像処理装置の機能構成例を示すブロック図。フレーム画像の一例を示す図。学習サンプル収集部７０の構成例を示すブロック図。学習サンプル収集部８０の構成例を示すブロック図。

以下、添付図面を参照し、本発明の好適な実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載の構成の具体的な実施例の１つである。

［第１の実施形態］
先ず、本実施形態に係る画像処理装置の機能構成例について、図１のブロック図を用いて説明する。画像取得部１０は、カメラなどの撮像装置を用いて撮像した動画像を取得する為のものである。

認識対象指定部２０は、画像取得部１０が取得した動画像中のあるフレーム（例えば先頭フレーム）の画像（フレーム画像）を表示する。ユーザは、この表示されたフレーム画像を閲覧し、このフレーム画像において認識対象とする物体が映っている領域（物体領域）をユーザインターフェースを用いて指定するので、認識対象指定部２０は、この指定を受け付ける。

学習サンプル収集部３０は、画像取得部１０が取得した動画像を構成する各フレーム画像から、認識対象の画像パターン、非認識対象の画像パターン、を学習サンプルとして収集する。

学習部４０は、学習サンプル収集部３０が収集した学習サンプルを用いて上記認識対象に対する機械学習を行い、上記認識対象を認識するための最適な認識パラメータとしての認識辞書を作成する。そして学習部４０は、この作成した認識辞書を物体辞書記憶部５０に格納する。

物体認識部６０は、画像取得部１０が動画像若しくは１枚の入力画像を取得した場合に、この動画像を構成する各フレーム画像若しくはこの入力画像から上記の認識対象である物体の領域を検出する処理を、上記の認識辞書を用いて行う。

図１に示した構成による動作の概要については上記の通りであるが、以下では、次のようなケースに本実施形態に係る画像処理装置を適用した場合について説明する。もちろん、以下のケースでなくても、以下に説明する処理の本質は同様に適用することができる。

先ず、その位置姿勢が固定されている監視カメラを用いて車を含むシーンの動画像を撮像し、撮像した動画像から、この車を認識するための最適な認識パラメータとしての認識辞書を作成する。そして、この監視カメラが新たに撮像した動画像に対して、フレーム画像中に車が登場するか否かを判断し、登場すればそれはフレーム画像中のどの位置かを特定する、という認識処理を、この作成した認識辞書を用いて行う。

上記のケースの場合、画像取得部１０は、監視カメラと、この監視カメラが撮像した動画像の記録・保持を行うサーバシステムと、から構成されていることになる。監視カメラは車を含むシーンの動画像を撮像し、撮像された各フレーム画像は順次、サーバシステムに送出され、サーバシステムによってメモリ内に記録・保持される。サーバシステムのメモリに記録するフレーム画像の一例を図２に示す。図２では、車を含むシーンのフレーム画像となっている。もちろん、撮像するフレーム画像によっては車が存在しないものもある。

認識対象指定部２０は、サーバシステムに記録された各フレーム画像のうち適当なフレーム画像Ｆ（ここでは一例として先頭フレームの画像とする）をＣＲＴや液晶画面などの表示装置に表示する。ユーザは、この表示されたフレーム画像Ｆを閲覧し、このフレーム画像Ｆにおいて認識対象とする物体が映っている領域（物体領域）を、マウスなどのユーザインターフェースを用いて指定するので、認識対象指定部２０は、この指定を受け付ける。図２では、表示装置にこのようなフレーム画像が表示された場合に、車を囲む点線で示された領域Ｒが物体領域として指定されている。

なお、物体領域の抽出は、このようなユーザによる指定によらず、顔検出や動体検出などの技術によって抽出してもよい。あるいは、そのように抽出された１または複数の領域を表示して、ユーザから選択もしくは確認を受け付けるようにしてもよい。

学習サンプル収集部３０内の物体追跡部３１は、フレーム画像Ｆ以降の各フレーム画像から上記物体領域Ｒに対応する領域を検索することで、フレーム画像Ｆ以降の各フレーム画像における物体領域を追跡する。この追跡は、例えば、テンプレートマッチングにより実現することができる。テンプレートマッチングを行う場合、先ず、フレーム画像Ｆ内で指定された物体領域内の画像をテンプレート画像として保持しておく。次に、フレーム画像Ｆよりも１フレーム後のフレーム画像Ｇ内の各位置にこのテンプレート画像を配置し、フレーム画像Ｇにおいてテンプレート画像と重なった領域内の画像と、テンプレート画像とで、位置的に対応する画素同士で画素値の差分の自乗を求める。そして、テンプレート画像内の各画素位置について求めた全ての自乗値の合計値を求め、この合計値が最も小さかったテンプレート画像の配置位置を特定する。そして、フレーム画像Ｇ上のこの特定した配置位置にテンプレート画像を配置した場合に、フレーム画像Ｇにおいてこのテンプレート画像と重なる領域を、フレーム画像Ｇ内における物体領域として特定する。そしてこの処理を、フレーム画像Ｇ以降の各フレーム画像について行えば、フレーム画像Ｆ以降の各フレーム画像に対して物体領域を求めることができる。もちろん、他の方法を用いて各フレーム画像における物体領域を特定しても良く、例えば、色ヒストグラムに基づく方法や動きベクトルに基づく方法など様々な方法を適用することができる。物体が出現しているフレーム画像において追跡するので、上記の非特許文献２に開示されている方法を用いても良い。

学習サンプル収集部３０内の画像変換部３２は、各フレーム画像について特定した物体領域内の画像内の所定の領域に対して、水平、垂直方向のシフト、回転、変倍等のアフィン変換に代表される幾何変換を施す（第１の生成）。どの幾何変換を施すのかについては、例えばランダムで決めても良い。そして画像変換部３２は、幾何変換が施されたそれぞれの画像を、認識対象サンプル画像（認識対象の画像パターン）として、学習サンプル収集部３０内の認識対象サンプル記憶部３３に格納する。

一方、学習サンプル収集部３０内の領域切出部３４は、サーバシステムに記録された各フレーム画像に対して、上記の物体領域と同サイズの領域を設定する。そして学習サンプル収集部３０内の画像合成部３５は、それぞれの設定領域内の画像を合成することで合成画像を生成する。この合成画像は、以下の３つの方法のそれぞれに従って生成（第２の生成）する。

（方法１）
各フレーム画像に対して同じ座標位置に１つの領域（上記の物体領域と同サイズ）を設定し、設定した領域内の画像を合成することで合成画像を生成する。即ち、各フレーム画像から１つの合成画像を生成する。なお、フレーム画像内における設定領域の位置は全てのフレーム画像について同じである。

（方法２）
１つのフレーム画像内で複数箇所に領域（上記の物体領域と同サイズ）を設定し、設定した領域内の画像を合成することで合成画像を生成する処理を、各フレーム画像について行う。即ち、フレーム画像毎に合成画像を生成する。

（方法３）
各フレーム画像に対してそれぞれ異なる座標位置に１つの領域（上記の物体領域と同サイズ）を設定し、設定した領域内の画像を合成することで合成画像を生成する。即ち、各フレーム画像から１つの合成画像を生成する。なお、フレーム画像内における設定領域の位置はフレーム画像毎に異なる。

なお、合成画像とは、Ｎ（Ｎ＞１）枚の画像中の画素位置Ｐにおける画素の画素値の平均値を、合成画像中の画素位置Ｐにおける画素値として設定することで生成されるものであり、各画像の平均画像でもある。

このように、（方法１）に従って生成した合成画像、（方法２）に従って生成した合成画像、（方法３）に従って生成した合成画像、は、次の４つに分類される。

（分類１）
同じ背景部分の合成画像
（分類２）
異なる背景部分の合成画像
（分類３）
異なる物体部分の合成画像
（分類４）
物体部分および背景部分の合成画像
画像合成部３５は、（方法１）に従って生成した合成画像、（方法２）に従って生成した合成画像、（方法３）に従って生成した合成画像、を、非認識対象サンプル画像（非認識対象の画像パターン）として非認識対象サンプル記憶部３６に格納する。ここで、（分類１）〜（分類４）のそれぞれに分類された合成画像を機械学習に用いる利点について説明する。

＜同じ背景部分の合成画像を機械学習に用いる利点について＞
監視カメラでシーンを固定して撮影した場合のそれぞれのフレーム画像における同一領域内の画像パターンは、静止した背景部分においては同じ画像になる。したがって、「同じ背景部分の合成画像」は、そのまま認識対象と区別するための背景部分の非認識対象サンプルとして利用できる。

＜異なる背景部分の合成画像を機械学習に用いる利点について＞
異なる背景部分の合成画像は、自然界には存在しない画像となり、この合成画像は、監視カメラで登録時と異なったシーンを撮影する場合に認識対象と区別するための一般的な非認識対象サンプルとして利用できる。

＜異なる物体部分の合成画像を機械学習に用いる利点について＞
監視カメラでシーンを固定して撮影した映像において動く物体を認識対象として登録する場合には、異なるフレーム画像における同一領域内の画像パターンは物体部分においては物体が動いた分だけずれた画像パターンになる。したがって、この合成画像は物体の一部が重なった認識対象の物体とは似て非なる画像となるため、認識対象に類似した識別困難な非認識対象を区別するための非認識対象サンプルとして利用できる。

＜物体部分および背景部分の合成画像＞
＜異なる物体部分の合成画像＞と同様、認識対象に類似した識別困難な非認識対象を区別するための非認識対象サンプルとして利用できる。

なお、画像合成部３５は、あらゆるシーンを想定した場合にも、非認識対象の画像パターンに物体画像を含めないようにする必要がある。背景が無地である場合に、物体部分と背景部分の画像を合成すると、合成した非認識対象の画像パターンが物体画像になってしまう。したがって、より好ましくは、画像合成部３５は、領域切出部３４で設定した領域内の画像を合成する前に、このそれぞれの画像が無地かどうかを判定するようにすべきである。

以上説明したように、学習サンプル収集部３０は、画像取得部１０が取得した動画像に対して認識対象指定部２０が指定した領域に基づいて学習サンプルの収集を行った。しかし、より高精度の認識を実現するためには、複数の動画像に対して認識対象指定部２０が指定した領域に基づいて学習サンプルの収集を行う方が好ましい。

学習部４０は、認識対象サンプル記憶部３３に格納されている認識対象の画像パターン、非認識対象サンプル記憶部３６に格納されている非認識対象の画像パターン、を学習サンプルとして読み出す。そして学習部４０は、読み出したそれぞれの学習サンプルから、非特許文献３で提案されているHOG（Histograms of oriented gradients）特徴量等の特徴量を収集する。HOG特徴量は、局所領域の方向別エッジ勾配のヒストグラムである。そして学習部４０は、収集したHOG特徴量を用いて、サポートベクターマシーン等の学習モデルにより機械学習を行う。より詳しくは、サポートベクターマシーンによってHOG特徴量の各要素の重みパラメータを求める。そして学習部４０は、その学習結果を認識辞書として生成する。そして学習部４０は、この生成した認識辞書を、物体辞書記憶部５０に格納する。

上記の通り、機械学習に用いる特徴量については、これ以外にも考えられ、色や動きに基づく特徴量を用いてもよいし、複数種類の特徴量を組合せて用いても良い。また、機械学習の方法においても上記の方法に限定するものではない。即ち、非特許文献１で用いられているアダブースト学習や、非特許文献２で用いられているオンラインブースティングなど、認識対象の学習サンプルと非認識対象の学習サンプルとを利用して学習を行う識別モデルに基づく様々な学習方法を用いてもよい。

次に、物体辞書記憶部５０に認識辞書を格納した後、画像取得部１０が新たに動画像若しくは１枚の入力画像を取得した場合に、この動画像を構成する各フレーム画像若しくはこの入力画像から上記の認識対象である物体の領域を検出する処理について説明する。

物体認識部６０内の領域切出部６１は、画像取得部１０から取得した１枚の画像（動画像中の各フレームの画像若しくは１枚の入力画像）上の各位置に、上記の物体領域と同サイズの領域を配置し、配置した領域内の画像を抽出する。これは所謂スライディングウィンドウ方式による画像の抽出である。画像中の認識対象の大きさが変動しても検出できるように、好ましくは、次のようにしても良い。即ち、画像取得部１０から取得した１枚の画像を順次、所定の倍率で縮小することで、縮小率の異なる複数枚の縮小画像を事前に作成し、それぞれの縮小画像に対してスライディングウィンドウ方式により各位置における画像を抽出しても良い。

物体認識部６０内の特徴抽出部６２は、領域切出部６１が抽出したそれぞれの画像から、学習部４０と同様の方法により、HOG（Histograms of oriented gradients）特徴量を収集する。もちろん、学習部４０が他の種類の特徴量を収集したのであれば、特徴抽出部６２もそれにあわせて同じ種類の特徴量を抽出する。

物体認識部６０内のパターン照合部６３は、領域切出部６１が抽出したそれぞれの画像Ｄについて次のように動作する。即ち、画像Ｄについて特徴抽出部６２が収集した特徴量の各要素に対応する、物体辞書記憶部５０内に格納されている認識辞書のHOG特徴量の各要素に対応した重みパラメータから、画像Ｄが認識対象を含むか否かを判断する。

物体認識部６０内の認識結果出力部６４は、領域切出部６１が抽出したそれぞれの画像に対するパターン照合部６３による判断結果を統合して、認識対象を含む画像を特定し、特定した画像により構成される領域を、認識対象の位置として出力する。その出力先については特に限定するものではない。

なお、本実施形態では、物体辞書記憶部５０に登録された認識辞書を用いた認識処理は、画像取得部１０が取得した画像を対象として行った。しかし、他の形態で取得した画像に対して同様の認識処理を行っても良い。

［第２の実施形態］
本実施形態では、領域切出部３４が設定したそれぞれの領域内の画像内に認識対象の物体部分が映っているか否かを判断することで、非認識対象の画像パターンを収集する精度を高めるようにした。然るに、本実施形態に係る画像処理装置は、図１に示した構成において、学習サンプル収集部３０を図３に示した学習サンプル収集部７０に置換した構成を有する。然るに以下では、学習サンプル収集部７０について説明する。なお、図３において、図１に示した構成用件と同じ構成用件については同じ参照番号を付しており、その説明は第１の実施形態で既に述べているため、省略する。

共通特徴抽出部７１は、認識対象サンプル記憶部３３に格納されたそれぞれの画像パターンから、認識対象に共通の特徴量を抽出する。共通の特徴量の抽出方法としては、例えば、特許文献１に示されている固有ベクトルを計算する。なお、共通の特徴量としては固有ベクトルに限らず、それぞれの認識対象の画像パターンから色ヒストグラムを算出し、全画像パターンで頻度の高い色の範囲を共通の特徴量としてもよい。

認識対象判定部７２は、領域切出部３４が設定したそれぞれの領域内の画像内に認識対象の物体部分が映っているか否かを、共通特徴抽出部７１が抽出した特徴量を用いて判断する。

ここでは、領域切出部３４が設定したそれぞれの領域内の画像を固有ベクトルを用いて固有空間上に投影し、固有空間上の投影点の位置が所定の領域内のものであるか否かを判断する。この「所定の領域」に関するパラメータは、共通特徴抽出部７１で共通の特徴量を算出する際に予め求めておく。そして、認識対象判定部７２は、固有空間上に投影した画像の投影点が所定の領域内であれば、この画像は認識対象を含むものと判断する。一方、認識対象判定部７２は、固有空間上に投影した画像の投影点が所定の領域外であれば、この画像は認識対象を含まないものと判断する。

画像合成部７３は、領域切出部３４が設定したそれぞれの領域内の画像のうち、認識対象を含んでいないと判断された画像が１以上ある場合には、画像合成部３５と同様にして、合成画像を生成する。

一方、画像合成部７３は、領域切出部３４が設定したそれぞれの領域内の画像の全てに認識対象が含まれている場合には、合成する画像同士の類似度を求める。そして合成する画像同士の類似度が閾値以下であれば画像合成部３５と同様にして合成画像を生成し、閾値よりも大きい場合には、合成は行わない。

これにより、認識対象を含み且つ互いに類似した画像の合成画像を非認識対象の画像パターンとして学習に用いることを回避することができる。例えば、認識対象が静止している場合に、この認識対象を含む複数の画像を合成すると、その合成結果は、この認識対象の画像となる。本実施形態ではこのような合成そのものを行わないので、このような合成結果については非認識対象の画像パターンに含めないようにすることができる。

なお、認識対象判定部７２で認識対象を含むと判断された画像同士の合成は行わないようにしても良い。但し、この場合には、認識対象において異なる部分同士の画像パターンを合成した非認識対象の画像パターンは得ることはできない。なお、本実施形態によれば、認識対象を含まない画像パターンを、他の画像パターンと合成せずにそのまま非認識対象の画像パターンとして学習に用いることも可能である。

［第３の実施形態］
本実施形態では、領域切出部３４が設定したそれぞれの領域内の画像内に移動物体としての認識対象が映っているか否かを判断することで、非認識対象の画像パターンを収集する精度を高めるようにした。然るに、本実施形態に係る画像処理装置は、図１に示した構成において、学習サンプル収集部３０を図４に示した学習サンプル収集部８０に置換した構成を有する。然るに以下では、学習サンプル収集部８０について説明する。なお、図４において、図１に示した構成用件と同じ構成用件については同じ参照番号を付しており、その説明は第１の実施形態で既に述べているため、省略する。

動物体判定部８１は、領域切出部３４が設定したそれぞれの領域内の画像内に移動物体としての認識対象が映っているか否かを判断する。例えば、固定されたカメラから背景画像を取得して保持しておき、画像取得部１０から取得した画像Ｄとこの背景画像とで差分が大きい領域を特定する。そして、この特定した領域が、画像Ｄについて領域切出部３４が切り出した領域と（略）一致する場合には、画像Ｄについて領域切出部３４が切り出した領域は移動物体としての認識対象を含んでいると判断する。

画像合成部８２は、領域切出部３４が設定したそれぞれの領域内の画像のうち、移動物体としての認識対象を含んでいないと判断された画像が１以上ある場合には、画像合成部３５と同様にして、合成画像を生成する。

一方、画像合成部８２は、領域切出部３４が設定したそれぞれの領域内の画像の全てに移動物体としての認識対象が含まれている場合には、合成する画像同士の類似度を求める。そして合成する画像同士の類似度が閾値以下であれば画像合成部３５と同様にして合成画像を生成し、閾値よりも大きい場合には、合成は行わない。このように、本実施形態によれば、移動物体を含まない画像を他の画像と合成せずにそのまま非認識対象サンプルとして学習に用いることも可能である。

なお、以上の各実施形態によれば、次のような効果を奏することができる。先ず、任意の複数画像を合成した画像から非認識対象サンプル画像を収集し、認識対象サンプル画像と共に学習で用いるようにしたので、膨大な手間を掛けずに高精度の画像認識を行うことができる。すなわち、複数の任意の画像を合成することにより、自然界には存在しない画像を多数生成し、画像認識における識別能力を高めるようにした。

また、複数の画像に認識対象が含まれる場合にも、別の画像と合成することにより、非認識対象の画像パターンとして用いることができる。さらに、この場合には、非認識対象の画像パターンは認識対象の画像パターンの特徴を一部共有する効果があるので、認識対象に類似した識別困難な非認識対象との識別能力を高めることができる。

また、認識対象サンプルから認識対象に共通の特徴量を抽出し、それに基づいて任意の画像から非認識対象サンプルを収集して学習を行うようにしたので、膨大な手間を掛けずに高精度の画像認識を行うことができる。すなわち、認識対象に共通の特徴量によって非認識対象サンプルかどうかを自動的に判断し、任意の画像から適切な非認識対象サンプル画像を得ることができる。

なお、上記の各実施形態に説明した技術事項は適宜組み合わせて用いても良い。また、上記の各実施形態では特に触れなかったが、図１，３，４に示したような画像取得部１０、認識対象指定部２０、学習サンプル収集部３０（７０，８０）、学習部４０、物体辞書記憶部５０、物体認識部６０は何れも、ハードウェアとして実装しても良い。一方、図１，３，４において記憶部として説明したものについてはＲＡＭやハードディスクドライブ装置等のメモリとして実装し、それ以外の機能部についてはコンピュータプログラムとして実装してこのメモリに格納しても良い。この場合、このメモリに対してアクセス可能なコンピュータのＣＰＵがこのコンピュータプログラムを実行することで、このコンピュータは、第１乃至３の実施形態で画像処理装置が行うものとして上述した各処理を実行することができる。もちろん、図１，３，４に示したような機能構成を実現するために用いる装置については、単数／複数は問わないし、その装置の構成についても問わない。

（その他の実施例）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

動画像を取得する手段と、
前記動画像を構成する各フレームの画像から、認識対象が映っている領域を抽出する手段と、
抽出された前記領域内の画像に対して幾何変換を行った画像に基づいて認識対象サンプルを生成する第１の生成手段と、
前記動画像を構成するフレームの画像中の複数の領域内の画像を合成した合成画像に基づいて非認識対象サンプル画像を生成する第２の生成手段と、
前記認識対象サンプルと非認識対象サンプルとを用いて認識対象を学習する学習手段と
を備えることを特徴とする画像処理装置。
前記学習手段が、
前記認識対象サンプルおよび前記非認識対象サンプルから特徴量を収集する手段と、
前記特徴量を用いて学習モデルに前記認識対象を機械学習させることで、前記認識対象を認識するための認識辞書を作成する作成手段と、
作成した前記認識辞書をメモリに記録する手段と
を備えることを特徴とする請求項１に記載の画像処理装置。
更に、
入力画像を受け付ける手段と、
前記入力画像ないに設定したそれぞれの領域について、該領域内の画像から特徴量を抽出し、該抽出した特徴量と、前記認識辞書と、を用いて、該領域内に前記認識対象が映っているか否かを判断する手段と
を備えることを特徴とする請求項２に記載の画像処理装置。
前記第２の生成手段は、
前記動画像を構成するフレームの画像に対して複数の領域を設定し、
該設定したそれぞれの領域内の画像が前記認識対象を含んでいるか否かを判断し、
該設定した複数の領域内の画像のいずれかが前記認識対象を含んでいない場合、若しくは該設定した複数の領域内の画像の全てが前記認識対象を含んでいて且つ該複数の領域内の画像の類似度が閾値以下である場合には、該設定した複数の領域内の画像を合成し、該合成した画像を前記非認識対象サンプルとする
ことを特徴とする請求項１乃至３の何れか１項に記載の画像処理装置。
前記第２の生成手段は、
前記動画像を構成するフレームの画像に対して複数の領域を設定し、
該設定した複数の領域内の画像が移動物体としての前記認識対象を含んでいるか否かを判断し、
該設定したそれぞれの領域内の画像のいずれかが移動物体としての前記認識対象を含んでいない場合、若しくは該設定した複数の領域内の画像の全てが移動物体としての前記認識対象を含んでいて且つ該複数の領域内の画像の類似度が閾値以下である場合には、該設定した複数の領域内の画像を合成し、該合成した画像を前記非認識対象サンプルとする
ことを特徴とする請求項１乃至３の何れか１項に記載の画像処理装置。
画像処理装置が行う画像処理方法であって、
前記画像処理装置の取得手段が、動画像を取得する工程と、
前記画像処理装置の抽出手段が、前記動画像を構成する各フレームの画像から、認識対象が映っている領域を抽出する工程と、
前記画像処理装置の第１の生成手段が、抽出された前記領域内の画像に対して幾何変換を行った画像に基づいて認識対象サンプルを生成する第１の生成工程と、
前記画像処理装置の第２の生成手段が、前記動画像を構成するフレームの画像中の複数の領域内の画像を合成した合成画像に基づいて非認識対象サンプル画像を生成する第２の生成工程と、
前記画像処理装置の学習手段が、前記認識対象サンプルと非認識対象サンプルとを用いて認識対象を学習する学習工程と
を備えることを特徴とする画像処理方法。
コンピュータを、請求項１乃至５の何れか１項に記載の画像処理装置が有する各手段として機能させるためのコンピュータプログラム。
請求項７に記載のコンピュータプログラムを格納した、コンピュータが読み取り可能な記憶媒体。