JP5385752B2

JP5385752B2 - 画像認識装置、その処理方法及びプログラム

Info

Publication number: JP5385752B2
Application number: JP2009241887A
Authority: JP
Inventors: 直嗣佐川
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2009-10-20
Filing date: 2009-10-20
Publication date: 2014-01-08
Anticipated expiration: 2029-10-20
Also published as: JP2011090413A; US8643739B2; US20110090359A1

Description

本発明は、所定パターンを認識する画像認識装置、その処理方法及びプログラムに関する。

画像データ内の所定パターン（例えば、物体）を認識する技術（画像認識技術）が知られている。例えば、デジタルカメラにおいては、当該技術により認識した物体領域に露出やフォーカスを合わせる。また、例えば、パソコン機器においては、画像認識処理を実施し、自動的に画像を分類したり、画像を効果的に編集・補正したりする（非特許文献１及び２）。

このような技術では、正解パターンである正事例画像と不正解パターンである負事例画像とを学習用画像として複数用意し、これらのパターン判別に有用な画像特徴に基づいて機械学習し、正解パターンを認識するための辞書を生成する。

認識精度に影響を与える要因としては、パターン判別に用いる画像特徴と、機械学習に用いる学習用画像とが挙げられる。画像特徴については、認識対象に応じて有用な画像特徴が研究されている。例えば、認識対象が顔であれば、Ｈａａｒ−ｌｉｋｅ特徴、認識対象が人体であれば、ＨＯＧ（HistgramsOfOrientedGradients）特徴がそれぞれ有用な画像特徴であることが知られている。

学習用画像については、正事例画像及び負事例画像の数や種類を多くし、これにより、精度の向上を図っている。また、検出し難いパターンや間違って検出してしまうパターンが予め分かっている場合には、これらの画像を重点的に学習させることで、特定のパターンに対する精度を向上させている。

一方、これらの認識技術の応用として、非特許文献３では、機器内で機械学習用の画像（学習用画像）を自動的に収集し、その学習用画像を追加学習させる技術が開示されている。これにより、元の辞書を機器内で更新させ、辞書の精度の向上を実現している。

Viola and Jones, "Rapid Object Detection using Boosted Cascade of Simple Features", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition （CVPR'01） Navneet Dalal and Bill Triggs, "Histograms of Oriented Gradients for Human Detection", IEEE Computer Vision and Pattern Recognition. Vol.1, pp.886-893, 2005. Grabner and Bischof, "On-line Boosting and Vision", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition （CVPR'06） Nikunj C.Oza. and Stuart Russell. "Online Bagging and Boosting", Eighth International Workshop on Artificial Intelligence and Statistics, pp. 105-112, Morgan Kaufmann, Key West, Florida. USA, January 2001.

このような追加学習においては、学習用画像を機器内で自動収集させる。正事例画像については、非特許文献３に記載されるように、連続画像フレームに対して所望の物体を追尾させ、自動収集する方法が知られている。この方法では、所望の物体の向き・大きさ等の変動を含む学習用画像を効果的に収集させられるため、追加学習を行なう度にそれまで検出できなかった画像パターンが徐々に検出できるようになる。

これに対し、負事例画像については、単に、正事例画像以外の画像を収集するという方法が考えられる。しかし、この方法で収集できる負事例画像は、正事例ではないパターンということしかいえず、特に、類似するパターンだけを集中的に収集することはできない。このため、追加学習を行なったとしても、所望の物体と類似してはいるが、実際は正解でないパターンを誤って検出してしまうことがある。

そこで、本発明は、上記課題に鑑みてなされたものであり、学習用画像を収集する技術、特に、所定パターンとして誤認識し易い類似パターンを含む負事例画像を効率的に収集できるようにした技術を提供することを目的とする。

上記課題を解決するため、本発明の一態様による画像認識装置は、所定パターンの認識に用いる辞書を記憶する記憶手段と、画像を撮像する撮像手段と、前記辞書を用いて認識処理を実施し、前記撮像手段を介して入力される画像データ内から前記所定パターンを含む尤度が所定の閾値以上の部分領域を認識結果として複数検出する認識手段と、前記画像データを表示するとともに、前記認識手段により検出された前記部分領域のうち尤度が最大の部分領域を示す情報を表示する表示手段と、前記情報の表示中に、ユーザによる撮影指示が検出されると、前記最も尤度の高い領域以外の前記部分領域を負事例領域と判定し、前記ユーザによる撮影キャンセル指示が検出されると、前記最も尤度の高い部分領域を前記負事例領域と判定する判定手段と、前記判定手段により判定された前記負事例領域に基づいて学習用画像を生成する生成手段と、前記生成手段により生成された学習用画像に基づいて前記辞書を更新する更新手段とを具備することを特徴とする。

本発明によれば、特に、所定パターンとして誤認識し易い類似パターンを含む負事例画像を効率的に収集できる。

本実施形態に係わるデジタルカメラの構成の一例を示す図。図１に示すデジタルカメラ１０の動作の一例を示すフローチャート。図１に示す表示操作部１３における表示の一例を示す図。図１に示す記憶部１８に記憶される辞書の一例を示す図。図２のＳ１０２に示す認識処理の流れの一例を示すフローチャート。図５に示す認識処理時に行なわれる処理の概要の一例を示す図。図２のＳ１０８に示す追加学習処理の流れの一例を示すフローチャート。実施形態２に係わるデジタルカメラ１０の動作の一例を示すフローチャート。図１に示す表示操作部１３における表示の一例を示す図。実施形態３に係わるデジタルカメラ１０の動作の一例を示すフローチャート。

以下、本発明の一実施の形態について添付図面を参照して詳細に説明する。なお、本実施形態においては、本発明の一実施の形態に係わる画像認識装置をデジタルカメラに適用した場合を例に挙げて説明する。

（実施形態１）
図１は、本実施形態に係わるデジタルカメラの構成の一例を示す図である。

デジタルカメラ１０は、コンピュータを内蔵して構成される。コンピュータには、例えば、ＣＰＵ等の主制御手段、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等の記憶手段が具備される。また、コンピュータには、ネットワークカードや赤外線等の通信手段、ディスプレイ又はタッチパネル等の入出力手段、等が具備されていてもよい。なお、これら各構成手段は、バス等により接続され、主制御手段が記憶手段に記憶されたプログラムを実行することで制御される。

ここで、デジタルカメラ１０は、機能的な構成として、画像撮像部１１と、認識部１２と、表示操作部１３と、表示制御部１４と、判定部１５と、学習用画像生成部１６と、辞書更新部１７と、記憶部１８とを具備して構成される。

ここで、画像撮像部１１は、例えば、ＣＣＤ（Charge-Coupled Devices）やＣＭＯＳ（Complimentary Metal Oxide Semiconductor）等で実現され、画像を撮影する。認識部１２は、画像撮像部１１により撮影された画像データから所定パターン（本実施形態においては犬の顔とする）を認識する。なお、本実施形態においては、複数の局所領域における特徴量に基づいて所定パターンを認識する方式を採る場合を例に挙げて説明する。

表示操作部１３は、ユーザからの指示を装置内に入力する機能を果たす入力手段と、ユーザに各種情報を表示する機能を果たす表示手段とを具備して構成される。本実施形態においては、表示操作部１３がタッチパネルにより実現される場合を例に挙げて説明する。なお、表示操作部１３は、必ずしもタッチパネルにより実現される必要はなく、例えば、ディスプレイや各種ボタン（十字キー、決定ボタン等）により実現されてもよい。

表示制御部１４は、表示操作部（表示手段）１３に各種画面を表示制御する。表示制御部１４では、例えば、画像データを含む画面を表示するとともに、認識部１２による認識結果に基づいて当該画像データ内で所定パターンとしての尤度の高い１又は複数の領域（部分領域）を矩形枠等で囲って表示する（後述する図３）。

判定部１５は、表示操作部（入力手段）１３を介したユーザによる指示入力に基づいて１又は複数の部分領域の中から負事例領域（不正解パターン）を判定する。学習用画像生成部１６は、判定部１５により負事例領域である旨判定された領域の画像に基づいて学習用画像を生成する。

記憶部１８は、認識部１２による認識処理時に使用される辞書や、正事例画像（正解パターン）を記憶する。辞書は、所定パターンを認識するために用いられる。辞書更新部１７は、学習用画像生成部１６により生成された学習用画像に基づいて辞書データを更新する。

次に、図２を用いて、図１に示すデジタルカメラ１０の動作の一例について説明する。ここでは、トレーニングモード設定時の動作について説明する。トレーニングモードとは、辞書を更新するためのモードである。

デジタルカメラ１０は、まず、画像撮像部１１において、画像を撮影し、画像データを装置内に入力する（Ｓ１０１）。なお、画像データは、必ずしも撮影により入力される必要はなく、例えば、装置内に予め格納された画像データであってもよい。

画像データが入力されると、デジタルカメラ１０は、認識部１２において、認識処理を実施し、当該画像データ内から犬の顔を認識する（Ｓ１０２）。この認識は、記憶部１８に記憶された犬認識用の辞書を用いて行なわれる。なお、認識処理の詳細については後述する。

認識処理が済むと、デジタルカメラ１０は、表示制御部１４において、画像撮像部１１により撮影された画像データを表示操作部１３（表示手段）上に表示する。このとき、Ｓ１０２における認識結果として、例えば、犬の顔を含む可能性のある領域（部分領域）を矩形枠で囲って表示操作部１３（表示手段）上に表示する（Ｓ１０３）。また、表示制御部１４は、認識結果の正否を示す指示入力をユーザに促すため、例えば、その旨を示すメッセージを表示する。なお、音声メッセージを用いて、指示入力をユーザに促してもよい（Ｓ１０４）。

ここで、表示操作部１３（表示手段）には、例えば、図３に示す画面が表示される。図３の場合、認識結果として５つの矩形枠２２〜２６が表示されており、更に、認識結果の正否を示す指示入力をユーザに促す情報（メッセージ：認識物を正しく検出している枠をタッチして下さい）２１が表示されている。なお、認識結果の正否を示す指示入力をユーザに促す情報は、メッセージではなく、例えば、アイコンやアニメーション等で表現されてもよい。

ここで、ユーザは、認識結果の正否を示す指示入力を行なう。本実施形態においては、正しく認識が行なわれた部分領域（矩形枠）をユーザが指示するものとする。ここで、ユーザは、正確に認識が行なわれている矩形枠（正事例領域）をタッチする。なお、表示操作部１３がタッチパネルではなく、例えば、ディスプレイと、各種ボタン（十字キー、決定ボタン等）とで構成されている場合、ユーザは、十字キーでいずれかの部分領域を選択し、決定ボタンで正確に認識が行なわれている領域を選ぶ。このとき、操作性を向上させるため、例えば、選択中の矩形枠を他の矩形枠と色を変えて表示する等してもよい。

ユーザによる指示入力が行なわれると（Ｓ１０５でＹＥＳ）、デジタルカメラ１０は、判定部１５において、当該指示入力に基づいて不正解パターンである部分領域（矩形枠）を負事例領域として判定する。すなわち、Ｓ１０５で指示されなかった矩形枠（部分領域２２〜２５）を負事例領域である旨判定する（Ｓ１０６）。ここで、図３に示す５つの部分領域２２〜２６は、Ｓ１０２の認識処理において、犬としての尤度が高いと判定された領域である。そのため、これら領域の中でユーザに正解である旨の入力指示を受けなかった４つの部分領域２２〜２５は、犬の顔としての尤度が高いが犬の顔ではない領域となる。これら４つの部分領域２２〜２５は、犬に形状や輪郭が類似するパターンであり、誤認識し易いパターンであるといえる。

負事例領域の判定が済むと、デジタルカメラ１０は、学習用画像生成部１６において、当該負事例領域の画像に基づいて学習用画像を生成する（Ｓ１０７）。例えば、図３の場合であれば、部分領域２２〜２５の画像に基づいて学習用画像を生成する。本実施形態においては、このように誤認識し易いパターンを負事例領域として判定し、その領域に基づいて学習用画像を生成する。なお、学習用画像は、サイズが決まっているため、学習用画像生成部１６においては、画像データから負事例領域を抽出し、当該抽出した画像のサイズを正規化して学習用画像用のサイズに調整する。大量の学習用画像を効率的に生成するために、１つの学習用画像から角度、位置、サイズなどを微変動させた複数の変動画像を生成してもよい。この場合、学習用画像生成部１６においては、負事例領域を抽出とともに、回転、拡大・縮小、アフィン変換等の画像処理を実施し、様々な画像変動を含む学習用画像を生成する。

学習用画像の生成が済むと、デジタルカメラ１０は、辞書更新部１７において、当該生成された学習用画像を用いて追加学習する。これにより、記憶部１８に記憶された辞書データを更新する（Ｓ１０８）。なお、追加学習の詳細については後述する。

次に、図２のＳ１０２に示す認識処理の詳細について説明する。ここでは、認識処理の説明に先立ってまず、記憶部１８に記憶される辞書について説明する。

辞書は、図４に示すように、その辞書データとして、「処理領域サイズ」と、「尤度閾値」と、「局所領域数」と、「局所領域位置」と、「尤度テーブル」とを有する。「処理領域サイズ」は、パターン認識を行なうために画像から抽出する部分領域（矩形状）の縦及び横の画素数を示す。「尤度閾値」は、部分領域の尤度を評価するのに用いられる閾値である。「局所領域数」は、部分領域内における局所領域の数を示す。局所領域各々は、「局所領域位置（局所領域の左上、右下の縦横座標）」、「尤度テーブル」、等の処理パラメータを持つ。「局所領域位置」は、部分領域内における局所領域の位置を示す。「尤度テーブル」は、所定の特徴量に対応する認識対象及び非認識対象の確率分布を保持する。なお、「尤度テーブル」に保持された値は、機械学習によって予め求められたものであり、追加学習により更新される。

ここで、図５を用いて、図２のＳ１０２に示す認識処理の流れの一例について説明する。なお、この処理は、主に、認識部１２において実施される。

認識処理が開始すると、認識部１２は、まず、記憶部１８に記憶される犬認識用の辞書の辞書データを取得する（Ｓ２０１）。そして、図２のＳ１０１で入力された画像データ（入力画像データ）を所定の割合に縮小する（Ｓ２０２）。すなわち、入力画像データ内における所定パターンの大きさが種々想定されるため、画像データを所定の割合で縮小した縮小画像を複数生成する。これにより、抽出対象となる部分領域のサイズが、辞書データに規定される「処理領域サイズ（図４参照）」になるべく縮小する。

ここで、例えば、入力画像データのサイズが６４０×６８０画素であれば、その画像データに対して０．８倍の縮小を繰り返し行なう。６４０×４８０画素の画像データを５１２×３８４画素の画像データに縮小した後、当該縮小した５１２×３８４画素の画像データを更に４１０×３０７画素の画像データに縮小する。これを繰り返し、異なる大きさの画像データを複数生成する。例えば、図６に示すように、入力画像データ３１を縮小した結果が画像データ３２であり、更に、画像データ３２を縮小した結果が画像データ３３である。そして、部分領域３４〜３６は、画像データ各々における切り出し矩形を示している。部分領域は、図中３７の矢印に示すように、例えば、画像データ内の左上から右下に向けて順番に走査して探索される。このように認識部１２においては、各縮小画像データ内を走査してパターン認識を行なう。これにより、所定パターン（犬の顔）がどのような大きさであっても認識が行なえる。

縮小した複数の画像データが生成されると、認識部１２は、当該複数の画像データから部分領域を抽出する（Ｓ２０３）。このとき、認識部１２は、所定パターンを認識するため、抽出した部分領域の特徴量を求める（Ｓ２０４）。この処理では、まず、Ｓ２０１で取得した辞書データ内の「局所領域の位置」に基づき各局所領域内の特徴量を算出する。特徴量は、公知のＨａａｒ−ｌｉｋｅ特徴や方向ヒストグラムなどを用いればよい。

特徴量の算出が済むと、認識部１２は、Ｓ２０１で取得した辞書データ内の「尤度テーブル」を参照し、Ｓ２０４で算出した特徴量の値に対応する尤度を算出する（Ｓ２０５）。ここで、ある局所領域内の特徴量の値がｆ_ｋであれば、その局所領域が認識物体（所定パターン）の一部である確率をＰｒ（ｆ_ｋ｜Ｉ_＋）、非認識物体の一部である確率をＰｒ（ｆ_ｋ｜Ｉ₋）とする。これらの確率Ｐｒ（ｆ_ｋ｜Ｉ_＋）及びＰｒ（ｆ_ｋ｜Ｉ₋）は、大量の学習用画像を機械学習することにより予め求めておく。局所領域内の尤度Ｃ_ｋは、式（１）のように定義される。すなわち、確率Ｐｒ（ｆ_ｋ｜Ｉ_＋）と確率Ｐｒ（ｆ_ｋ｜Ｉ₋）との比率を算出し、その対数を尤度Ｃ_ｋとする。

局所領域内の尤度を算出するため、「尤度テーブル」は、上記（式１）のＣ_ｋ＋（ｆ_ｋ）の値とＣ_ｋ−（ｆ_ｋ）の値とを参照できる構成としておく。つまり、事前の機械学習により、Ｐｒ（ｆ_ｋ｜Ｉ_＋）、Ｐｒ（ｆ_ｋ｜Ｉ₋）を求めておき、これらの対数を求めた値が「尤度テーブル」に保持されていればよい。

部分領域の尤度は、当該領域内における局所領域の尤度の総和となる。すなわち、最終的な認識物体としての尤度Ｃは、以下の式（２）で求められる。

次に、認識部１２は、部分領域の尤度に基づいて、以下に示す条件を満たす部分領域を認識結果として複数検出する。一般的な認識処理では、所定の閾値に対してその閾値以上の尤度を持つ部分領域を認識結果として検出する。そのため、仮に、所定の閾値を超える尤度を持つ部分領域がなかった場合には、認識結果は０個となる。これに対して、本実施形態においては、必ず１個以上の部分領域を検出できるようにする。そこで、認識部１２では、まず、Ｓ２０５で算出した尤度に基づき各部分領域を尤度の大きい順番に並べ変え、尤度が最大となる部分領域から所定個数分の部分領域を認識結果として検出する。これにより、１又は複数の部分領域が必ず検出されることになる（Ｓ２０６）。なお、図６に示す縮小画像データ３２及び３３から取得された部分領域は、位置座標が縮小画像の座標系となっているため、縮小率の逆数をその座標値にかけ、オリジナル画像における座標値に変換する。

次に、図７を用いて、図２のＳ１０８に示す追加学習処理の流れの一例について説明する。追加学習には、例えば、非特許文献３及び非特許文献４に提案されている方法を用いればよい。なお、この処理は、主に、辞書更新部１７において実施される。

追加学習処理が開始すると、辞書更新部１７には、学習用画像生成部１６により生成された負事例画像を学習用画像として取得する（Ｓ３０１）。すなわち、図２のＳ１０７の処理で生成された画像を取得する。そして、当該取得した負事例画像と、記憶部１８に記憶された正事例画像とから特徴量を算出する（Ｓ３０２）。この処理では、図４に示す辞書データ内の局所領域全てについて特徴量を算出する。

次に、辞書更新部１７は、当該算出した特徴量に基づき、図５のＳ２０４の処理で説明した確率分布（Ｐｒ（ｆ_ｋ｜Ｉ_＋）、Ｐｒ（ｆ_ｋ｜Ｉ₋））を更新する（Ｓ３０３）。この更新により、各局所領域の判別性能が変化する。そのため、辞書更新部１７は、各局所領域の判別性能を評価し直し、最適な性能になるよう再度、学習処理を行なう。これにより、辞書を更新する（Ｓ３０４）。この学習処理は、公知の手法を用いればよい。例えば、非特許文献４には、更新された確率分布と学習用画像とに基づき局所領域に対する重みも含めた性能評価を行なう技術について言及されている。

なお、辞書の更新とは、例えば、図４に示す辞書データのうち、局所領域情報（局所領域位置、尤度テーブル）の並びを判別性能が良い順番に並び替え、更に、Ｓ３０３の確率分布の更新に従って尤度テーブルを更新することである。

以上説明したように実施形態１によれば、複数の認識結果（部分領域）を検出し、当該認識結果に対するユーザの入力指示に基づいて不正解パターンである認識結果（負事例領域）を判定する。そして、当該負事例領域に基づいて生成した学習用画像を用いて追加学習を行なう。すなわち、認識対象となる所定パターンによく似た形状や輪郭を含む画像を負事例画像として効果的に収集し、当該収集した負事例画像に基づいて追加学習を行なう。これにより、認識精度を向上させることができる。

（実施形態２）
次に、実施形態２について説明する。実施形態１においては、トレーニングモードを設定し、そのモード時に上述した処理を行なう場合について説明したが、実施形態２においては、通常の撮影モード時に上述した処理を行なう場合について説明する。なお、実施形態２に係わるデジタルカメラ１０の構成は、実施形態１を説明した図１と同一であるため、ここでは、その説明については省略する。

図８は、実施形態２に係わるデジタルカメラ１０における動作の一例を示すフローチャートである。

デジタルカメラ１０は、まず、画像撮像部１１を介して画像データを装置内に入力する（Ｓ４０１）。画像データが入力されると、デジタルカメラ１０は、認識部１２において、当該画像データ内から犬の顔を認識する（Ｓ４０２）。なお、この認識では、実施形態１同様の処理が行なわれる。

認識処理が済むと、デジタルカメラ１０は、表示制御部１４において、画像撮像部１１を介して入力された画像データを表示操作部１３（表示手段）上に表示する。このとき、Ｓ４０２における認識結果として、例えば、犬の顔を含む可能性のある領域（部分領域）を矩形枠で囲って表示操作部１３（表示手段）上に表示する（Ｓ４０３）。このとき、実施形態１とは異なり、図９に示すように、Ｓ４０２の認識処理により検出された部分領域の内、尤度が最大の領域２７を１つ矩形枠で囲って表示する。このとき、デジタルカメラ１０内部では、認識処理により検出された複数の部分領域の位置情報を保持しておく。例えば、Ｓ４０２の認識処理の結果、図３の部分領域２２〜２６が検出され、その中で部分領域２６の尤度が最大であれば、当該領域に対してのみ矩形枠を表示し、残りの領域については位置情報を保持する。

ここで、デジタルカメラ１０は、ユーザがシャッターボタンを押下したか否か（又はキャンセルボタンの押下）を検出する。シャッターボタンの押下を検出した場合（Ｓ４０４でＹＥＳ）、デジタルカメラ１０は、判定部１５において、表示中の矩形枠に対応する部分領域を正事例領域と判定する。また、それ以外の部分領域（矩形枠非表示）を負事例領域と判定する（Ｓ４０５）。ここで、ユーザが、シャッターボタンを押下する場合とは、表示中の矩形枠に対応する部分領域が正解パターン（正事例領域）であることを意味する場合が多い。そのため、その領域以外の部分領域が不正解パターンであることが分かり、これらの領域を負事例領域として判定する。

また、ユーザによるシャッターボタンの押下が検出されない場合又はキャンセルボタンの押下が検出された場合（Ｓ４０４でＮＯ）、デジタルカメラ１０は、判定部１５において、表示中の矩形枠に対応する部分領域を不正解領域として判定する（Ｓ４０６）。

その後、デジタルカメラ１０は、実施形態１同様に、学習用画像生成部１６において、当該負事例領域の画像に基づいて学習用画像を生成し（Ｓ４０７）、辞書更新部１７において、当該生成された学習用画像を用いて追加学習を行なう。これにより、記憶部１８に記憶された辞書を更新する（Ｓ４０８）。

以上説明したように実施形態２においては、通常の撮影モード時におけるユーザの指示入力に応じて負事例領域を判定する。このため、追加学習するためにモードを切り替えずに、学習用画像（正事例画像、負事例画像）を収集できる。

（実施形態３）
次に、実施形態３について説明する。実施形態３においては、動画像データに応用した場合について説明する。なお、実施形態３に係わるデジタルカメラ１０の構成は、実施形態１を説明した図１と同一であるため、ここでは、その説明については省略する。

図１０は、実施形態３に係わるデジタルカメラ１０における動作の一例を示すフローチャートである。ここでは、トレーニングモード設定時の動作について説明する。トレーニングモードとは、辞書を更新するためのモードである。

デジタルカメラ１０は、まず、画像撮像部１１において、動画像データを装置内に入力する（Ｓ５０１）。動画像データ（時間的に連続する複数の画像データ）が入力されると、デジタルカメラ１０は、認識部１２において、動画像データの先頭フレームに対して、実施形態１同様の認識処理を実行する（Ｓ５０２）。そして、実施形態１を説明した図２におけるＳ１０３〜Ｓ１０７の処理を、当該先頭フレームに対して実施し、学習用画像を生成する（Ｓ５０３〜Ｓ５０７）。ここで、生成した学習用画像は、以降の処理で使用するため、例えば、ＲＡＭ等に保持する。

ここで、デジタルカメラ１０は、次フレームに処理を進める。具体的には、デジタルカメラ１０は、次フレーム（以下、現フレーム）を取得し（Ｓ５０８）、前フレームで検出された負事例領域の追尾処理を行なう（Ｓ５０９）。これにより、現フレームにおいて、前フレームの負事例領域に対応する領域の位置を取得する。追尾処理については、公知の技術を用いればよいため、ここでは、詳細な説明については省略する。例えば、特開平５−２９８５９１号公報に記載されるパターンマッチング手法や、また、特開２００３−４４８６０号公報に記載される特徴点の動きベクトルを検出する手法等を用いればよい。

次に、デジタルカメラ１０は、追尾した負事例領域に基づいて、実施形態１同様の方法で学習用画像を生成する（Ｓ５１０）。ここで、生成した学習用画像は、以降の処理で使用するため、例えば、ＲＡＭ等に保持する。

その後、デジタルカメラ１０は、現フレームが最終フレームであるか否か判定する。最終フレームでなければ（Ｓ５１１でＮＯ）、再度、Ｓ５０８の処理に戻り、最終フレームになるまで上述した処理を繰り返す。最終フレームであれば（Ｓ５１１でＹＥＳ）、デジタルカメラ１０は、Ｓ５０７及びＳ５１０の処理でＲＡＭ等に保持した学習用画像を用いて、実施形態１同様の方法で追加学習を行なう（Ｓ５１２）。

以上説明したように実施形態３によれば、ユーザに指示された負事例領域を、時間的に連続するフレームで追尾する。これにより、動画像データにおける各フレームの負事例領域を取得できる。そのため、負事例領域に基づく大量の学習用画像を効率的に収集できる。

なお、実施形態３においては、負事例領域を追尾処理し、それにより、負事例領域に基づく学習用画像を収集する場合を例に挙げて説明したが、これに限られない。例えば、正事例領域に対しても同様に処理できる。

また、図１０のＳ５０２の処理においては、動画像データの先頭フレームに対して認識処理を行なっているが、これに限られない。例えば、動画像データの任意のフレームに対して認識処理を行なうようにしてもよい。この場合、Ｓ５０８の処理において、時間的に後方に連続するフレームを取得してもよいし、時間的に前に連続するフレームを取得してもよい。

以上が本発明の代表的な実施形態の一例であるが、本発明は、上記及び図面に示す実施形態に限定することなく、その要旨を変更しない範囲内で適宜変形して実施できるものである。

例えば、実施形態１〜３においては、記憶部１８に記憶されている辞書の数については言及していないが、辞書は、１つであっても複数であってもよい。例えば、別のパターンを認識するための複数の辞書が記憶されていてもよい。その場合、複数の辞書の内の１つをユーザに選択させる手段等を設け、動作中の辞書をユーザに認識させる必要がある。

また、実施形態１〜３においては、正事例画像に基づく追加学習は、記憶部１８に予め記憶された正事例画像を用いていたが、これに限られない。正事例画像の場合にも、負事例画像同様に、ユーザの指示に基づいて正事例領域を検出し、当該検出した正事例領域に基づいて追加学習を行なうようにしてもよい。

また、実施形態１〜３においては、正事例領域をユーザに指示させる場合を例に挙げて説明したが、これに限られず、負事例領域をユーザに指示させるようにしてもよい。この場合、当該指示された負事例領域に基づいて学習用画像を生成し、当該画像に基づいて辞書を更新すればよい。

また、実施形態１〜３においては、認識処理による認識結果（部分領域）を示す情報として、当該領域を矩形枠で囲う場合を例に挙げて説明したが、これに限られない。例えば、矢印や丸枠等で部分領域を指し示してもよい。

また、上述した実施形態２及び３を組み合わせて実施してもよい。すなわち、動画撮影モード時に、上述した実施形態３で説明した処理を実施するようにしてもよい。この場合、シャッターボタンの押下を検出する代わりに、動画撮影開始ボタンの押下を検出するように構成すればよい。

なお、本発明は、例えば、システム、装置、方法、プログラム若しくは記憶媒体等としての実施態様を採ることもできる。具体的には、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。

（その他の実施形態）
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

所定パターンの認識に用いる辞書を記憶する記憶手段と、
画像を撮像する撮像手段と、
前記辞書を用いて認識処理を実施し、前記撮像手段を介して入力される画像データ内から前記所定パターンを含む尤度が所定の閾値以上の部分領域を認識結果として複数検出する認識手段と、
前記画像データを表示するとともに、前記認識手段により検出された前記部分領域のうち尤度が最大の部分領域を示す情報を表示する表示手段と、
前記情報の表示中に、ユーザによる撮影指示が検出されると、前記最も尤度の高い領域以外の前記部分領域を負事例領域と判定し、前記ユーザによる撮影キャンセル指示が検出されると、前記最も尤度の高い部分領域を前記負事例領域と判定する判定手段と、
前記判定手段により判定された前記負事例領域に基づいて学習用画像を生成する生成手段と、
前記生成手段により生成された学習用画像に基づいて前記辞書を更新する更新手段と
を具備することを特徴とする画像認識装置。
所定パターンの認識に用いる辞書を記憶する記憶手段と、
時間的に連続する複数の画像データの内の少なくとも１つに対して前記辞書を用いて認識処理を実施し、前記所定パターンを含む尤度が所定の閾値以上の部分領域を認識結果として複数検出する認識手段と、
前記画像データを表示するとともに、前記認識手段により検出された前記部分領域を示す情報を表示する表示手段と、
前記情報の表示中に、ユーザによる入力により指示された領域以外の前記部分領域を前記負事例領域として判定するとともに、前記時間的に連続する複数の画像データの内、前記認識処理された画像データと時間的に連続する画像データ内の前記負事例領域を追尾して該画像データ内における前記負事例領域を判定する判定手段と、
前記判定手段により前記時間的に連続する複数の画像データから判定された前記負事例領域に基づいて前記学習用画像を生成する生成手段と、
前記生成手段により生成された学習用画像に基づいて前記辞書を更新する更新手段と
を具備することを特徴とする画像認識装置。
画像認識装置における処理方法であって、
撮像手段が、画像を撮像する工程と、
認識手段が、所定パターンの認識に用いる辞書を用いて認識処理を実施し、前記撮像手段を介して入力される画像データ内から前記所定パターンを含む尤度が所定の閾値以上の部分領域を認識結果として複数検出する工程と、
表示手段が、前記画像データを表示するとともに、前記認識手段により検出された前記部分領域のうち尤度が最大の部分領域を示す情報を表示する工程と、
判定手段が、前記情報の表示中に、ユーザによる撮影指示が検出されると、前記最も尤度の高い領域以外の前記部分領域を負事例領域と判定し、前記ユーザによる撮影キャンセル指示が検出されると、前記最も尤度の高い部分領域を前記負事例領域と判定する工程と、
生成手段が、前記判定手段により判定された前記負事例領域に基づいて学習用画像を生成する工程と、
更新手段が、前記生成手段により生成された学習用画像に基づいて前記辞書を更新する工程と
を含むことを特徴とする処理方法。
コンピュータを、
所定パターンの認識に用いる辞書を記憶する記憶手段、
画像を撮像する撮像手段、
前記辞書を用いて認識処理を実施し、前記撮像手段を介して入力される画像データ内から前記所定パターンを含む尤度が所定の閾値以上の部分領域を認識結果として複数検出する認識手段、
前記画像データを表示するとともに、前記認識手段により検出された前記部分領域のうち尤度が最大の部分領域を示す情報を表示する表示手段、
前記情報の表示中に、ユーザによる撮影指示が検出されると、前記最も尤度の高い領域以外の前記部分領域を負事例領域と判定し、前記ユーザによる撮影キャンセル指示が検出されると、前記最も尤度の高い部分領域を前記負事例領域と判定する判定手段、
前記判定手段により判定された前記負事例領域に基づいて学習用画像を生成する生成手段、
前記生成手段により生成された学習用画像に基づいて前記辞書を更新する更新手段
として機能させるためのプログラム。
画像認識装置における処理方法であって、
認識手段が、時間的に連続する複数の画像データの内の少なくとも１つに対して所定パターンの認識に用いる辞書を用いて認識処理を実施し、前記所定パターンを含む尤度が所定の閾値以上の部分領域を認識結果として複数検出する工程と、
表示手段が、前記画像データを表示するとともに、前記認識手段により検出された前記部分領域を示す情報を表示する工程と、
判定手段が、前記情報の表示中に、ユーザによる入力により指示された領域以外の前記部分領域を前記負事例領域として判定するとともに、前記時間的に連続する複数の画像データの内、前記認識処理された画像データと時間的に連続する画像データ内の前記負事例領域を追尾して該画像データ内における前記負事例領域を判定する工程と、
生成手段が、前記判定手段により前記時間的に連続する複数の画像データから判定された前記負事例領域に基づいて前記学習用画像を生成する工程と、
更新手段が、前記生成手段により生成された学習用画像に基づいて前記辞書を更新する工程と
を含むことを特徴とする処理方法。
コンピュータを、
所定パターンの認識に用いる辞書を記憶する記憶手段、
時間的に連続する複数の画像データの内の少なくとも１つに対して前記辞書を用いて認識処理を実施し、前記所定パターンを含む尤度が所定の閾値以上の部分領域を認識結果として複数検出する認識手段、
前記画像データを表示するとともに、前記認識手段により検出された前記部分領域を示す情報を表示する表示手段、
前記情報の表示中に、ユーザによる入力により指示された領域以外の前記部分領域を前記負事例領域として判定するとともに、前記時間的に連続する複数の画像データの内、前記認識処理された画像データと時間的に連続する画像データ内の前記負事例領域を追尾して該画像データ内における前記負事例領域を判定する判定手段、
前記判定手段により前記時間的に連続する複数の画像データから判定された前記負事例領域に基づいて前記学習用画像を生成する生成手段、
前記生成手段により生成された学習用画像に基づいて前記辞書を更新する更新手段、
として機能させるためのプログラム。