JP2012088787A - 画像処理装置、画像処理方法 - Google Patents

画像処理装置、画像処理方法 Download PDF

Info

Publication number
JP2012088787A
JP2012088787A JP2010232779A JP2010232779A JP2012088787A JP 2012088787 A JP2012088787 A JP 2012088787A JP 2010232779 A JP2010232779 A JP 2010232779A JP 2010232779 A JP2010232779 A JP 2010232779A JP 2012088787 A JP2012088787 A JP 2012088787A
Authority
JP
Japan
Prior art keywords
image
recognition target
images
recognition
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010232779A
Other languages
English (en)
Inventor
Kotaro Yano
光太郎 矢野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2010232779A priority Critical patent/JP2012088787A/ja
Publication of JP2012088787A publication Critical patent/JP2012088787A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】 認識対象および認識対象を含まない画像パターンを、人手を掛けずに収集する為の技術を提供すること。更に、このようにして収集した画像パターンを識別器の学習に用いることにより、高精度の画像認識を行うこと。
【解決手段】 物体追跡部31は、動画像を構成する各フレームの画像から、認識対象が映っている領域を抽出する。画像変換部32は、この領域内の画像に対して幾何変換を行った画像に基づいて認識対象サンプルを生成する。領域切出部34は、動画像を構成するフレームの画像に対して領域を設定する。画像合成部35は、設定したそれぞれの領域内の画像中の複数の領域を合成した画像に基づいて非認識対象サンプル画像を生成する。学習部40は、認識対象サンプルと非認識対象サンプルとを用いて認識対象を学習する。
【選択図】 図1

Description

本発明は、入力画像から所定の物体を認識する画像認識技術に関するものである。
近年、デジタルスチルカメラやカムコーダにおいて、撮影中の画像から人の顔を検出して、物体を追跡する機能が急速に普及している。このような顔検出・追跡機能は、撮影対象の物体に自動的にピントや露出を合せるために非常に有用である。このような画像から顔を検出する技術は、非特許文献1で提案されているような技術を用いて、実用化が進んでいる。
一方、監視カメラでは、顔の見えない状況での人物、車、動物などに認識対象を拡張したいという要望がある。すなわち、ユーザ毎に認識したい対象は様々である。このような様々な物体の認識を実現するためには、認識したい物体に応じて辞書を用意する必要がある。例えば非特許文献1では、様々な顔および顔を含まない画像パターンを事前に収集して、アダブースト学習により識別器を構成するようにしている。このとき、認識精度の高い識別器を得るためには、より多くのパターンを用いて学習する必要がある。
認識対象が多岐に及ぶ場合には、認識対象および認識対象を含まない画像パターンを人手で収集することは事実上不可能である。そのような点に鑑み、少数の画像パターンから画像補間および画像変形によって多数の画像を生成して学習を行う方法が特許文献1に開示されている。また、非特許文献2では、動画像から物体を追跡し、追跡中の物体位置から認識対象の画像パターンを、物体位置の周辺から非認識対象の画像パターンを切出して、オンライン学習により識別器の更新を行うようにしている。
特許文献1では、認識対象の画像パターンのみから学習を行って認識処理を行う方法を前提としており、認識対象を含まない画像パターンを収集する方法については開示されていなかった。一般に、認識対象パターンのみの学習による認識処理は、認識対象パターンおよび非認識対象パターンの両方を用いた学習による認識処理に比べ認識精度が低い。
一方、非特許文献2では、物体を見失ったり、物体の追跡を中断した後に追跡を再開しようとすると、学習に用いていない背景画像から物体の認識を行うことになるので、誤認識が多くなる。
特開平9‐237340号公報
Viola and Jones, "Rapid Object Detection using Boosted Cascade of Simple Features", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR2001) Grabner and Bischof, "On-line Boosting and Vision", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR2006) Dalal and Triggs, "Histograms of oriented gradients for human detection", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR2005)
本発明は、以上の問題に鑑みてなされたものであり、認識対象および認識対象を含まない画像パターンを、人手を掛けずに収集する為の技術を提供することを目的とする。そして更に、本発明の別の目的は、このようにして収集した画像パターンを識別器の学習に用いることにより、高精度の画像認識を行うことにある。
本発明の目的を達成するために、例えば、本発明の画像処理装置は以下の構成を備える。即ち、動画像を取得する手段と、前記動画像を構成する各フレームの画像から、認識対象が映っている領域を抽出する手段と、抽出された前記領域内の画像に対して幾何変換を行った画像に基づいて認識対象サンプルを生成する第1の生成手段と、前記動画像を構成するフレームの画像中の複数の領域内の画像を合成した合成画像に基づいて非認識対象サンプル画像を生成する第2の生成手段と、前記認識対象サンプルと非認識対象サンプルとを用いて認識対象を学習する学習手段とを備えることを特徴とする。
本発明の構成によれば、認識対象および認識対象を含まない画像パターンを、人手を掛けずに収集することができる。更に、本発明の構成によれば、このようにして収集した画像パターンを識別器の学習に用いることにより、高精度の画像認識を行うことができる。
画像処理装置の機能構成例を示すブロック図。 フレーム画像の一例を示す図。 学習サンプル収集部70の構成例を示すブロック図。 学習サンプル収集部80の構成例を示すブロック図。
以下、添付図面を参照し、本発明の好適な実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載の構成の具体的な実施例の1つである。
[第1の実施形態]
先ず、本実施形態に係る画像処理装置の機能構成例について、図1のブロック図を用いて説明する。画像取得部10は、カメラなどの撮像装置を用いて撮像した動画像を取得する為のものである。
認識対象指定部20は、画像取得部10が取得した動画像中のあるフレーム(例えば先頭フレーム)の画像(フレーム画像)を表示する。ユーザは、この表示されたフレーム画像を閲覧し、このフレーム画像において認識対象とする物体が映っている領域(物体領域)をユーザインターフェースを用いて指定するので、認識対象指定部20は、この指定を受け付ける。
学習サンプル収集部30は、画像取得部10が取得した動画像を構成する各フレーム画像から、認識対象の画像パターン、非認識対象の画像パターン、を学習サンプルとして収集する。
学習部40は、学習サンプル収集部30が収集した学習サンプルを用いて上記認識対象に対する機械学習を行い、上記認識対象を認識するための最適な認識パラメータとしての認識辞書を作成する。そして学習部40は、この作成した認識辞書を物体辞書記憶部50に格納する。
物体認識部60は、画像取得部10が動画像若しくは1枚の入力画像を取得した場合に、この動画像を構成する各フレーム画像若しくはこの入力画像から上記の認識対象である物体の領域を検出する処理を、上記の認識辞書を用いて行う。
図1に示した構成による動作の概要については上記の通りであるが、以下では、次のようなケースに本実施形態に係る画像処理装置を適用した場合について説明する。もちろん、以下のケースでなくても、以下に説明する処理の本質は同様に適用することができる。
先ず、その位置姿勢が固定されている監視カメラを用いて車を含むシーンの動画像を撮像し、撮像した動画像から、この車を認識するための最適な認識パラメータとしての認識辞書を作成する。そして、この監視カメラが新たに撮像した動画像に対して、フレーム画像中に車が登場するか否かを判断し、登場すればそれはフレーム画像中のどの位置かを特定する、という認識処理を、この作成した認識辞書を用いて行う。
上記のケースの場合、画像取得部10は、監視カメラと、この監視カメラが撮像した動画像の記録・保持を行うサーバシステムと、から構成されていることになる。監視カメラは車を含むシーンの動画像を撮像し、撮像された各フレーム画像は順次、サーバシステムに送出され、サーバシステムによってメモリ内に記録・保持される。サーバシステムのメモリに記録するフレーム画像の一例を図2に示す。図2では、車を含むシーンのフレーム画像となっている。もちろん、撮像するフレーム画像によっては車が存在しないものもある。
認識対象指定部20は、サーバシステムに記録された各フレーム画像のうち適当なフレーム画像F(ここでは一例として先頭フレームの画像とする)をCRTや液晶画面などの表示装置に表示する。ユーザは、この表示されたフレーム画像Fを閲覧し、このフレーム画像Fにおいて認識対象とする物体が映っている領域(物体領域)を、マウスなどのユーザインターフェースを用いて指定するので、認識対象指定部20は、この指定を受け付ける。図2では、表示装置にこのようなフレーム画像が表示された場合に、車を囲む点線で示された領域Rが物体領域として指定されている。
なお、物体領域の抽出は、このようなユーザによる指定によらず、顔検出や動体検出などの技術によって抽出してもよい。あるいは、そのように抽出された1または複数の領域を表示して、ユーザから選択もしくは確認を受け付けるようにしてもよい。
学習サンプル収集部30内の物体追跡部31は、フレーム画像F以降の各フレーム画像から上記物体領域Rに対応する領域を検索することで、フレーム画像F以降の各フレーム画像における物体領域を追跡する。この追跡は、例えば、テンプレートマッチングにより実現することができる。テンプレートマッチングを行う場合、先ず、フレーム画像F内で指定された物体領域内の画像をテンプレート画像として保持しておく。次に、フレーム画像Fよりも1フレーム後のフレーム画像G内の各位置にこのテンプレート画像を配置し、フレーム画像Gにおいてテンプレート画像と重なった領域内の画像と、テンプレート画像とで、位置的に対応する画素同士で画素値の差分の自乗を求める。そして、テンプレート画像内の各画素位置について求めた全ての自乗値の合計値を求め、この合計値が最も小さかったテンプレート画像の配置位置を特定する。そして、フレーム画像G上のこの特定した配置位置にテンプレート画像を配置した場合に、フレーム画像Gにおいてこのテンプレート画像と重なる領域を、フレーム画像G内における物体領域として特定する。そしてこの処理を、フレーム画像G以降の各フレーム画像について行えば、フレーム画像F以降の各フレーム画像に対して物体領域を求めることができる。もちろん、他の方法を用いて各フレーム画像における物体領域を特定しても良く、例えば、色ヒストグラムに基づく方法や動きベクトルに基づく方法など様々な方法を適用することができる。物体が出現しているフレーム画像において追跡するので、上記の非特許文献2に開示されている方法を用いても良い。
学習サンプル収集部30内の画像変換部32は、各フレーム画像について特定した物体領域内の画像内の所定の領域に対して、水平、垂直方向のシフト、回転、変倍等のアフィン変換に代表される幾何変換を施す(第1の生成)。どの幾何変換を施すのかについては、例えばランダムで決めても良い。そして画像変換部32は、幾何変換が施されたそれぞれの画像を、認識対象サンプル画像(認識対象の画像パターン)として、学習サンプル収集部30内の認識対象サンプル記憶部33に格納する。
一方、学習サンプル収集部30内の領域切出部34は、サーバシステムに記録された各フレーム画像に対して、上記の物体領域と同サイズの領域を設定する。そして学習サンプル収集部30内の画像合成部35は、それぞれの設定領域内の画像を合成することで合成画像を生成する。この合成画像は、以下の3つの方法のそれぞれに従って生成(第2の生成)する。
(方法1)
各フレーム画像に対して同じ座標位置に1つの領域(上記の物体領域と同サイズ)を設定し、設定した領域内の画像を合成することで合成画像を生成する。即ち、各フレーム画像から1つの合成画像を生成する。なお、フレーム画像内における設定領域の位置は全てのフレーム画像について同じである。
(方法2)
1つのフレーム画像内で複数箇所に領域(上記の物体領域と同サイズ)を設定し、設定した領域内の画像を合成することで合成画像を生成する処理を、各フレーム画像について行う。即ち、フレーム画像毎に合成画像を生成する。
(方法3)
各フレーム画像に対してそれぞれ異なる座標位置に1つの領域(上記の物体領域と同サイズ)を設定し、設定した領域内の画像を合成することで合成画像を生成する。即ち、各フレーム画像から1つの合成画像を生成する。なお、フレーム画像内における設定領域の位置はフレーム画像毎に異なる。
なお、合成画像とは、N(N>1)枚の画像中の画素位置Pにおける画素の画素値の平均値を、合成画像中の画素位置Pにおける画素値として設定することで生成されるものであり、各画像の平均画像でもある。
このように、(方法1)に従って生成した合成画像、(方法2)に従って生成した合成画像、(方法3)に従って生成した合成画像、は、次の4つに分類される。
(分類1)
同じ背景部分の合成画像
(分類2)
異なる背景部分の合成画像
(分類3)
異なる物体部分の合成画像
(分類4)
物体部分および背景部分の合成画像
画像合成部35は、(方法1)に従って生成した合成画像、(方法2)に従って生成した合成画像、(方法3)に従って生成した合成画像、を、非認識対象サンプル画像(非認識対象の画像パターン)として非認識対象サンプル記憶部36に格納する。ここで、(分類1)〜(分類4)のそれぞれに分類された合成画像を機械学習に用いる利点について説明する。
<同じ背景部分の合成画像を機械学習に用いる利点について>
監視カメラでシーンを固定して撮影した場合のそれぞれのフレーム画像における同一領域内の画像パターンは、静止した背景部分においては同じ画像になる。したがって、「同じ背景部分の合成画像」は、そのまま認識対象と区別するための背景部分の非認識対象サンプルとして利用できる。
<異なる背景部分の合成画像を機械学習に用いる利点について>
異なる背景部分の合成画像は、自然界には存在しない画像となり、この合成画像は、監視カメラで登録時と異なったシーンを撮影する場合に認識対象と区別するための一般的な非認識対象サンプルとして利用できる。
<異なる物体部分の合成画像を機械学習に用いる利点について>
監視カメラでシーンを固定して撮影した映像において動く物体を認識対象として登録する場合には、異なるフレーム画像における同一領域内の画像パターンは物体部分においては物体が動いた分だけずれた画像パターンになる。したがって、この合成画像は物体の一部が重なった認識対象の物体とは似て非なる画像となるため、認識対象に類似した識別困難な非認識対象を区別するための非認識対象サンプルとして利用できる。
<物体部分および背景部分の合成画像>
<異なる物体部分の合成画像>と同様、認識対象に類似した識別困難な非認識対象を区別するための非認識対象サンプルとして利用できる。
なお、画像合成部35は、あらゆるシーンを想定した場合にも、非認識対象の画像パターンに物体画像を含めないようにする必要がある。背景が無地である場合に、物体部分と背景部分の画像を合成すると、合成した非認識対象の画像パターンが物体画像になってしまう。したがって、より好ましくは、画像合成部35は、領域切出部34で設定した領域内の画像を合成する前に、このそれぞれの画像が無地かどうかを判定するようにすべきである。
以上説明したように、学習サンプル収集部30は、画像取得部10が取得した動画像に対して認識対象指定部20が指定した領域に基づいて学習サンプルの収集を行った。しかし、より高精度の認識を実現するためには、複数の動画像に対して認識対象指定部20が指定した領域に基づいて学習サンプルの収集を行う方が好ましい。
学習部40は、認識対象サンプル記憶部33に格納されている認識対象の画像パターン、非認識対象サンプル記憶部36に格納されている非認識対象の画像パターン、を学習サンプルとして読み出す。そして学習部40は、読み出したそれぞれの学習サンプルから、非特許文献3で提案されているHOG(Histograms of oriented gradients)特徴量等の特徴量を収集する。HOG特徴量は、局所領域の方向別エッジ勾配のヒストグラムである。そして学習部40は、収集したHOG特徴量を用いて、サポートベクターマシーン等の学習モデルにより機械学習を行う。より詳しくは、サポートベクターマシーンによってHOG特徴量の各要素の重みパラメータを求める。そして学習部40は、その学習結果を認識辞書として生成する。そして学習部40は、この生成した認識辞書を、物体辞書記憶部50に格納する。
上記の通り、機械学習に用いる特徴量については、これ以外にも考えられ、色や動きに基づく特徴量を用いてもよいし、複数種類の特徴量を組合せて用いても良い。また、機械学習の方法においても上記の方法に限定するものではない。即ち、非特許文献1で用いられているアダブースト学習や、非特許文献2で用いられているオンラインブースティングなど、認識対象の学習サンプルと非認識対象の学習サンプルとを利用して学習を行う識別モデルに基づく様々な学習方法を用いてもよい。
次に、物体辞書記憶部50に認識辞書を格納した後、画像取得部10が新たに動画像若しくは1枚の入力画像を取得した場合に、この動画像を構成する各フレーム画像若しくはこの入力画像から上記の認識対象である物体の領域を検出する処理について説明する。
物体認識部60内の領域切出部61は、画像取得部10から取得した1枚の画像(動画像中の各フレームの画像若しくは1枚の入力画像)上の各位置に、上記の物体領域と同サイズの領域を配置し、配置した領域内の画像を抽出する。これは所謂スライディングウィンドウ方式による画像の抽出である。画像中の認識対象の大きさが変動しても検出できるように、好ましくは、次のようにしても良い。即ち、画像取得部10から取得した1枚の画像を順次、所定の倍率で縮小することで、縮小率の異なる複数枚の縮小画像を事前に作成し、それぞれの縮小画像に対してスライディングウィンドウ方式により各位置における画像を抽出しても良い。
物体認識部60内の特徴抽出部62は、領域切出部61が抽出したそれぞれの画像から、学習部40と同様の方法により、HOG(Histograms of oriented gradients)特徴量を収集する。もちろん、学習部40が他の種類の特徴量を収集したのであれば、特徴抽出部62もそれにあわせて同じ種類の特徴量を抽出する。
物体認識部60内のパターン照合部63は、領域切出部61が抽出したそれぞれの画像Dについて次のように動作する。即ち、画像Dについて特徴抽出部62が収集した特徴量の各要素に対応する、物体辞書記憶部50内に格納されている認識辞書のHOG特徴量の各要素に対応した重みパラメータから、画像Dが認識対象を含むか否かを判断する。
物体認識部60内の認識結果出力部64は、領域切出部61が抽出したそれぞれの画像に対するパターン照合部63による判断結果を統合して、認識対象を含む画像を特定し、特定した画像により構成される領域を、認識対象の位置として出力する。その出力先については特に限定するものではない。
なお、本実施形態では、物体辞書記憶部50に登録された認識辞書を用いた認識処理は、画像取得部10が取得した画像を対象として行った。しかし、他の形態で取得した画像に対して同様の認識処理を行っても良い。
[第2の実施形態]
本実施形態では、領域切出部34が設定したそれぞれの領域内の画像内に認識対象の物体部分が映っているか否かを判断することで、非認識対象の画像パターンを収集する精度を高めるようにした。然るに、本実施形態に係る画像処理装置は、図1に示した構成において、学習サンプル収集部30を図3に示した学習サンプル収集部70に置換した構成を有する。然るに以下では、学習サンプル収集部70について説明する。なお、図3において、図1に示した構成用件と同じ構成用件については同じ参照番号を付しており、その説明は第1の実施形態で既に述べているため、省略する。
共通特徴抽出部71は、認識対象サンプル記憶部33に格納されたそれぞれの画像パターンから、認識対象に共通の特徴量を抽出する。共通の特徴量の抽出方法としては、例えば、特許文献1に示されている固有ベクトルを計算する。なお、共通の特徴量としては固有ベクトルに限らず、それぞれの認識対象の画像パターンから色ヒストグラムを算出し、全画像パターンで頻度の高い色の範囲を共通の特徴量としてもよい。
認識対象判定部72は、領域切出部34が設定したそれぞれの領域内の画像内に認識対象の物体部分が映っているか否かを、共通特徴抽出部71が抽出した特徴量を用いて判断する。
ここでは、領域切出部34が設定したそれぞれの領域内の画像を固有ベクトルを用いて固有空間上に投影し、固有空間上の投影点の位置が所定の領域内のものであるか否かを判断する。この「所定の領域」に関するパラメータは、共通特徴抽出部71で共通の特徴量を算出する際に予め求めておく。そして、認識対象判定部72は、固有空間上に投影した画像の投影点が所定の領域内であれば、この画像は認識対象を含むものと判断する。一方、認識対象判定部72は、固有空間上に投影した画像の投影点が所定の領域外であれば、この画像は認識対象を含まないものと判断する。
画像合成部73は、領域切出部34が設定したそれぞれの領域内の画像のうち、認識対象を含んでいないと判断された画像が1以上ある場合には、画像合成部35と同様にして、合成画像を生成する。
一方、画像合成部73は、領域切出部34が設定したそれぞれの領域内の画像の全てに認識対象が含まれている場合には、合成する画像同士の類似度を求める。そして合成する画像同士の類似度が閾値以下であれば画像合成部35と同様にして合成画像を生成し、閾値よりも大きい場合には、合成は行わない。
これにより、認識対象を含み且つ互いに類似した画像の合成画像を非認識対象の画像パターンとして学習に用いることを回避することができる。例えば、認識対象が静止している場合に、この認識対象を含む複数の画像を合成すると、その合成結果は、この認識対象の画像となる。本実施形態ではこのような合成そのものを行わないので、このような合成結果については非認識対象の画像パターンに含めないようにすることができる。
なお、認識対象判定部72で認識対象を含むと判断された画像同士の合成は行わないようにしても良い。但し、この場合には、認識対象において異なる部分同士の画像パターンを合成した非認識対象の画像パターンは得ることはできない。なお、本実施形態によれば、認識対象を含まない画像パターンを、他の画像パターンと合成せずにそのまま非認識対象の画像パターンとして学習に用いることも可能である。
[第3の実施形態]
本実施形態では、領域切出部34が設定したそれぞれの領域内の画像内に移動物体としての認識対象が映っているか否かを判断することで、非認識対象の画像パターンを収集する精度を高めるようにした。然るに、本実施形態に係る画像処理装置は、図1に示した構成において、学習サンプル収集部30を図4に示した学習サンプル収集部80に置換した構成を有する。然るに以下では、学習サンプル収集部80について説明する。なお、図4において、図1に示した構成用件と同じ構成用件については同じ参照番号を付しており、その説明は第1の実施形態で既に述べているため、省略する。
動物体判定部81は、領域切出部34が設定したそれぞれの領域内の画像内に移動物体としての認識対象が映っているか否かを判断する。例えば、固定されたカメラから背景画像を取得して保持しておき、画像取得部10から取得した画像Dとこの背景画像とで差分が大きい領域を特定する。そして、この特定した領域が、画像Dについて領域切出部34が切り出した領域と(略)一致する場合には、画像Dについて領域切出部34が切り出した領域は移動物体としての認識対象を含んでいると判断する。
画像合成部82は、領域切出部34が設定したそれぞれの領域内の画像のうち、移動物体としての認識対象を含んでいないと判断された画像が1以上ある場合には、画像合成部35と同様にして、合成画像を生成する。
一方、画像合成部82は、領域切出部34が設定したそれぞれの領域内の画像の全てに移動物体としての認識対象が含まれている場合には、合成する画像同士の類似度を求める。そして合成する画像同士の類似度が閾値以下であれば画像合成部35と同様にして合成画像を生成し、閾値よりも大きい場合には、合成は行わない。このように、本実施形態によれば、移動物体を含まない画像を他の画像と合成せずにそのまま非認識対象サンプルとして学習に用いることも可能である。
なお、以上の各実施形態によれば、次のような効果を奏することができる。先ず、任意の複数画像を合成した画像から非認識対象サンプル画像を収集し、認識対象サンプル画像と共に学習で用いるようにしたので、膨大な手間を掛けずに高精度の画像認識を行うことができる。すなわち、複数の任意の画像を合成することにより、自然界には存在しない画像を多数生成し、画像認識における識別能力を高めるようにした。
また、複数の画像に認識対象が含まれる場合にも、別の画像と合成することにより、非認識対象の画像パターンとして用いることができる。さらに、この場合には、非認識対象の画像パターンは認識対象の画像パターンの特徴を一部共有する効果があるので、認識対象に類似した識別困難な非認識対象との識別能力を高めることができる。
また、認識対象サンプルから認識対象に共通の特徴量を抽出し、それに基づいて任意の画像から非認識対象サンプルを収集して学習を行うようにしたので、膨大な手間を掛けずに高精度の画像認識を行うことができる。すなわち、認識対象に共通の特徴量によって非認識対象サンプルかどうかを自動的に判断し、任意の画像から適切な非認識対象サンプル画像を得ることができる。
なお、上記の各実施形態に説明した技術事項は適宜組み合わせて用いても良い。また、上記の各実施形態では特に触れなかったが、図1,3,4に示したような画像取得部10、認識対象指定部20、学習サンプル収集部30(70,80)、学習部40、物体辞書記憶部50、物体認識部60は何れも、ハードウェアとして実装しても良い。一方、図1,3,4において記憶部として説明したものについてはRAMやハードディスクドライブ装置等のメモリとして実装し、それ以外の機能部についてはコンピュータプログラムとして実装してこのメモリに格納しても良い。この場合、このメモリに対してアクセス可能なコンピュータのCPUがこのコンピュータプログラムを実行することで、このコンピュータは、第1乃至3の実施形態で画像処理装置が行うものとして上述した各処理を実行することができる。もちろん、図1,3,4に示したような機能構成を実現するために用いる装置については、単数/複数は問わないし、その装置の構成についても問わない。
(その他の実施例)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (8)

  1. 動画像を取得する手段と、
    前記動画像を構成する各フレームの画像から、認識対象が映っている領域を抽出する手段と、
    抽出された前記領域内の画像に対して幾何変換を行った画像に基づいて認識対象サンプルを生成する第1の生成手段と、
    前記動画像を構成するフレームの画像中の複数の領域内の画像を合成した合成画像に基づいて非認識対象サンプル画像を生成する第2の生成手段と、
    前記認識対象サンプルと非認識対象サンプルとを用いて認識対象を学習する学習手段と
    を備えることを特徴とする画像処理装置。
  2. 前記学習手段が、
    前記認識対象サンプルおよび前記非認識対象サンプルから特徴量を収集する手段と、
    前記特徴量を用いて学習モデルに前記認識対象を機械学習させることで、前記認識対象を認識するための認識辞書を作成する作成手段と、
    作成した前記認識辞書をメモリに記録する手段と
    を備えることを特徴とする請求項1に記載の画像処理装置。
  3. 更に、
    入力画像を受け付ける手段と、
    前記入力画像ないに設定したそれぞれの領域について、該領域内の画像から特徴量を抽出し、該抽出した特徴量と、前記認識辞書と、を用いて、該領域内に前記認識対象が映っているか否かを判断する手段と
    を備えることを特徴とする請求項2に記載の画像処理装置。
  4. 前記第2の生成手段は、
    前記動画像を構成するフレームの画像に対して複数の領域を設定し、
    該設定したそれぞれの領域内の画像が前記認識対象を含んでいるか否かを判断し、
    該設定した複数の領域内の画像のいずれかが前記認識対象を含んでいない場合、若しくは該設定した複数の領域内の画像の全てが前記認識対象を含んでいて且つ該複数の領域内の画像の類似度が閾値以下である場合には、該設定した複数の領域内の画像を合成し、該合成した画像を前記非認識対象サンプルとする
    ことを特徴とする請求項1乃至3の何れか1項に記載の画像処理装置。
  5. 前記第2の生成手段は、
    前記動画像を構成するフレームの画像に対して複数の領域を設定し、
    該設定した複数の領域内の画像が移動物体としての前記認識対象を含んでいるか否かを判断し、
    該設定したそれぞれの領域内の画像のいずれかが移動物体としての前記認識対象を含んでいない場合、若しくは該設定した複数の領域内の画像の全てが移動物体としての前記認識対象を含んでいて且つ該複数の領域内の画像の類似度が閾値以下である場合には、該設定した複数の領域内の画像を合成し、該合成した画像を前記非認識対象サンプルとする
    ことを特徴とする請求項1乃至3の何れか1項に記載の画像処理装置。
  6. 画像処理装置が行う画像処理方法であって、
    前記画像処理装置の取得手段が、動画像を取得する工程と、
    前記画像処理装置の抽出手段が、前記動画像を構成する各フレームの画像から、認識対象が映っている領域を抽出する工程と、
    前記画像処理装置の第1の生成手段が、抽出された前記領域内の画像に対して幾何変換を行った画像に基づいて認識対象サンプルを生成する第1の生成工程と、
    前記画像処理装置の第2の生成手段が、前記動画像を構成するフレームの画像中の複数の領域内の画像を合成した合成画像に基づいて非認識対象サンプル画像を生成する第2の生成工程と、
    前記画像処理装置の学習手段が、前記認識対象サンプルと非認識対象サンプルとを用いて認識対象を学習する学習工程と
    を備えることを特徴とする画像処理方法。
  7. コンピュータを、請求項1乃至5の何れか1項に記載の画像処理装置が有する各手段として機能させるためのコンピュータプログラム。
  8. 請求項7に記載のコンピュータプログラムを格納した、コンピュータが読み取り可能な記憶媒体。
JP2010232779A 2010-10-15 2010-10-15 画像処理装置、画像処理方法 Withdrawn JP2012088787A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010232779A JP2012088787A (ja) 2010-10-15 2010-10-15 画像処理装置、画像処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010232779A JP2012088787A (ja) 2010-10-15 2010-10-15 画像処理装置、画像処理方法

Publications (1)

Publication Number Publication Date
JP2012088787A true JP2012088787A (ja) 2012-05-10

Family

ID=46260377

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010232779A Withdrawn JP2012088787A (ja) 2010-10-15 2010-10-15 画像処理装置、画像処理方法

Country Status (1)

Country Link
JP (1) JP2012088787A (ja)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014002734A (ja) * 2012-06-15 2014-01-09 Fujitsu Ltd オブジェクト認識設備及び方法
JP2014072826A (ja) * 2012-10-01 2014-04-21 Nippon Telegr & Teleph Corp <Ntt> 視聴領域推定装置、視聴領域推定方法、及びプログラム
JP2015187759A (ja) * 2014-03-26 2015-10-29 キヤノン株式会社 画像検索装置、画像検索方法
JP2018120277A (ja) * 2017-01-23 2018-08-02 コニカミノルタ株式会社 画像処理装置、物体検出方法および物体検出プログラム
US10061989B2 (en) 2015-03-30 2018-08-28 Nec Corporation Information transfer apparatus and method for image recognition
CN108875730A (zh) * 2017-05-16 2018-11-23 中兴通讯股份有限公司 一种深度学习样本收集方法、装置、设备及存储介质
JP2019083001A (ja) * 2017-10-30 2019-05-30 パロ アルト リサーチ センター インコーポレイテッド 機械学習用の訓練データの効率的な収集のための拡張現実を使用したシステム及び方法
JP2020010217A (ja) * 2018-07-10 2020-01-16 Kddi株式会社 識別要求元のアクセス制御が可能なデータ識別装置、システム、プログラム及び方法
JP2020020997A (ja) * 2018-08-02 2020-02-06 古河電気工業株式会社 融着接続システム、融着接続機及び光ファイバ種判別方法
JP2020030752A (ja) * 2018-08-24 2020-02-27 株式会社東芝 情報処理装置、情報処理方法およびプログラム
WO2020148810A1 (ja) * 2019-01-15 2020-07-23 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
CN111742342A (zh) * 2018-03-12 2020-10-02 日立产业控制解决方案有限公司 图像生成方法、图像生成装置以及图像生成系统
WO2020202636A1 (ja) 2019-04-04 2020-10-08 パナソニックIpマネジメント株式会社 情報処理方法、及び、情報処理システム
US10839261B2 (en) 2017-03-24 2020-11-17 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium
JP2021051791A (ja) * 2015-03-19 2021-04-01 日本電気株式会社 情報処理装置、情報処理方法およびプログラム
US10997465B2 (en) 2017-01-20 2021-05-04 Canon Kabushiki Kaisha Information processing device, information processing method, and storage medium
JP2021105962A (ja) * 2019-12-27 2021-07-26 株式会社安藤・間 教師データ生成装置、及び教師データ生成方法
US11361547B2 (en) 2017-12-08 2022-06-14 Nec Communication Systems, Ltd. Object detection apparatus, prediction model generation apparatus, object detection method, and program

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014002734A (ja) * 2012-06-15 2014-01-09 Fujitsu Ltd オブジェクト認識設備及び方法
JP2014072826A (ja) * 2012-10-01 2014-04-21 Nippon Telegr & Teleph Corp <Ntt> 視聴領域推定装置、視聴領域推定方法、及びプログラム
JP2015187759A (ja) * 2014-03-26 2015-10-29 キヤノン株式会社 画像検索装置、画像検索方法
JP7248177B2 (ja) 2015-03-19 2023-03-29 日本電気株式会社 情報処理システム、情報処理方法、およびプログラム
JP7107354B2 (ja) 2015-03-19 2022-07-27 日本電気株式会社 情報処理装置、情報処理方法およびプログラム
JP2022153453A (ja) * 2015-03-19 2022-10-12 日本電気株式会社 情報処理システム、情報処理方法、およびプログラム
JP7460001B2 (ja) 2015-03-19 2024-04-02 日本電気株式会社 情報処理システム、情報処理方法、およびプログラム
US11734920B2 (en) 2015-03-19 2023-08-22 Nec Corporation Object detection device, object detection method, and recording medium
JP2021051791A (ja) * 2015-03-19 2021-04-01 日本電気株式会社 情報処理装置、情報処理方法およびプログラム
US10061989B2 (en) 2015-03-30 2018-08-28 Nec Corporation Information transfer apparatus and method for image recognition
US10997465B2 (en) 2017-01-20 2021-05-04 Canon Kabushiki Kaisha Information processing device, information processing method, and storage medium
JP2018120277A (ja) * 2017-01-23 2018-08-02 コニカミノルタ株式会社 画像処理装置、物体検出方法および物体検出プログラム
US10839261B2 (en) 2017-03-24 2020-11-17 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium
CN108875730B (zh) * 2017-05-16 2023-08-08 中兴通讯股份有限公司 一种深度学习样本收集方法、装置、设备及存储介质
CN108875730A (zh) * 2017-05-16 2018-11-23 中兴通讯股份有限公司 一种深度学习样本收集方法、装置、设备及存储介质
JP2019083001A (ja) * 2017-10-30 2019-05-30 パロ アルト リサーチ センター インコーポレイテッド 機械学習用の訓練データの効率的な収集のための拡張現実を使用したシステム及び方法
JP7128708B2 (ja) 2017-10-30 2022-08-31 パロ アルト リサーチ センター インコーポレイテッド 機械学習用の訓練データの効率的な収集のための拡張現実を使用したシステム及び方法
US11361547B2 (en) 2017-12-08 2022-06-14 Nec Communication Systems, Ltd. Object detection apparatus, prediction model generation apparatus, object detection method, and program
CN111742342A (zh) * 2018-03-12 2020-10-02 日立产业控制解决方案有限公司 图像生成方法、图像生成装置以及图像生成系统
JP2020010217A (ja) * 2018-07-10 2020-01-16 Kddi株式会社 識別要求元のアクセス制御が可能なデータ識別装置、システム、プログラム及び方法
JP2020020997A (ja) * 2018-08-02 2020-02-06 古河電気工業株式会社 融着接続システム、融着接続機及び光ファイバ種判別方法
JP2020030752A (ja) * 2018-08-24 2020-02-27 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JPWO2020148810A1 (ja) * 2019-01-15 2021-11-18 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
JP7134260B2 (ja) 2019-01-15 2022-09-09 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
WO2020148810A1 (ja) * 2019-01-15 2020-07-23 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
WO2020202636A1 (ja) 2019-04-04 2020-10-08 パナソニックIpマネジメント株式会社 情報処理方法、及び、情報処理システム
JP2021105962A (ja) * 2019-12-27 2021-07-26 株式会社安藤・間 教師データ生成装置、及び教師データ生成方法
JP7412171B2 (ja) 2019-12-27 2024-01-12 株式会社安藤・間 教師データ生成装置、及び教師データ生成方法

Similar Documents

Publication Publication Date Title
JP2012088787A (ja) 画像処理装置、画像処理方法
US20230421886A1 (en) Detecting Facial Expressions in Digital Images
US10417773B2 (en) Method and apparatus for detecting object in moving image and storage medium storing program thereof
JP4616702B2 (ja) 画像処理
US9202126B2 (en) Object detection apparatus and control method thereof, and storage medium
JP6555906B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US8526742B2 (en) Image processing apparatus, method, and program that classifies data of images
KR101781358B1 (ko) 디지털 영상 내의 얼굴 인식을 통한 개인 식별 시스템 및 방법
JP2009211311A (ja) 画像処理装置及び方法
JP2008501172A (ja) 画像比較方法
CN103391424A (zh) 分析监控摄像机捕获的图像中的对象的方法和对象分析器
JPWO2006025272A1 (ja) 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム
JP2010103980A (ja) 画像処理方法、画像処理装置及びシステム
CN109190456B (zh) 基于聚合通道特征和灰度共生矩阵的多特征融合俯视行人检测方法
Miller et al. Person tracking in UAV video
JP2009239871A (ja) 物体検知方法及びその装置
Dammalapati et al. An efficient criminal segregation technique using computer vision
Song et al. Object tracking with dual field-of-view switching in aerial videos
EP2528019A1 (en) Apparatus and method for detecting objects in moving images
KR101636481B1 (ko) 컴파운드뷰 이미지 생성 방법 및 장치
Singha et al. Object recognition based on representative score features
Kumar et al. Automated panning of video devices
Royce et al. Smile recognition system based on lip corners identification
JP2004046565A (ja) 動物体のエッジ画像取得方法
Araújo Human detection solution for a retail store environment

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140107