JP5366756B2

JP5366756B2 - 情報処理装置及び情報処理方法

Info

Publication number: JP5366756B2
Application number: JP2009240820A
Authority: JP
Inventors: 光太郎矢野
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2009-10-19
Filing date: 2009-10-19
Publication date: 2013-12-11
Anticipated expiration: 2029-10-19
Also published as: US8634656B2; US20110091116A1; JP2011086261A

Description

本発明は、情報処理装置及び情報処理方法に関する。

従来、デジタルスチルカメラ、カムコーダ等において、撮影中の画像から人の顔を検出して、被写体（物体）を追尾する機能が知られている。このような顔検出機能及び顔追尾機能は、撮影対象の物体に自動的にピントや露出を合せるために非常に有用である。

近年、撮影中の物体に係る画像を用いて、認識処理に用いる辞書を認識対象に適合させるオンライン学習により、物体を追尾する方法が提案されている（例えば、非特許文献１参照）。この方法によれば、追尾する対象が人の顔に限られることなく、ペット等も追尾する対象に設定することができる。言い換えるならば、この方法によれば、追尾可能な対象を拡張することができる。
ここで、例えば、人の全身を認識したい場合には、認識する処理領域は、縦長の長方形であると都合がよく、車を認識したい場合には、認識する処理領域は、横長の長方形であると都合がよい。したがって、非特許文献１で提案されている方法では、追尾対象の領域をユーザが予め指定することを前提としている。
また、例えば、物体の認識を高精度に行うには、認識対象の物体を特徴付ける特徴量を予め用意しておく必要があるが、元々識別性能が低い特徴量で学習を行っても認識精度は向上しない。したがって、非特許文献１で提案されている方法では、物体の認識に用いる特徴量としてHaar-like特徴、方向ヒストグラム、LBP（ローカルバイナリパターン）を併用し、その中からランダムに250個の特徴量を学習に使用している。

Grabner and Bischof, "On-line Boosting and Vision", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'06)

しかしながら、非特許文献１で提案されている方法で様々な物体の認識を高精度に行うには、物体を認識する処理領域中の局所領域の位置やサイズを様々に組合せた膨大な数の特徴量を学習に用いる必要がある。しがって、非特許文献１で提案されている方法では、物体の認識に係る精度と処理時間との両立が困難である。

本発明はこのような問題点に鑑みなされたもので、物体の認識をより容易にかつ高精度に行うことを目的とする。

そこで、本発明は、物体に係る画像データを取得する取得手段と、前記取得手段で取得された物体に係る第一の画像データと、記憶装置に記憶されている複数の物体辞書データの各々との照合を行い、照合の結果に基づいて、前記複数の物体辞書データから前記第一の画像データに係る物体に関する物体辞書データを選択する選択手段と、前記取得手段で取得された物体に係る第二の画像データと、前記選択手段で選択された物体辞書データとの照合を行い、照合の結果に基づいて、前記第二の画像データに係る物体を判別する判別手段と、前記判別手段での前記判別の結果に応じて、前記選択手段で選択された物体辞書データを更新する更新手段と、を有することを特徴とする。

本発明によれば、物体の認識をより容易にかつ高精度に行うことができる。

情報処理装置の構成を示す図である。認識対象を登録する処理に係るフローチャートの一例を示す図である。物体辞書の処理パラメータの内容の一例を示す図である。認識処理及び追加学習処理に係るフローチャートの一例を示す図である。

＜第１の実施形態＞
以下、本発明に係る実施形態について図面に基づいて説明する。図１に本実施形態に係る情報処理装置の構成を示す。図１（ａ）は、情報処理装置のハードウェア構成を示す図である。情報処理装置は、ＣＰＵ（Central Processing Unit）１、記憶装置２、入力装置３、及び出力装置４を含んで構成される。なお、各装置は、互いに通信可能に構成され、バス等により接続されている。
ＣＰＵ１は、情報処理装置の動作をコントロールし、記憶装置２に格納されたプログラムの実行等を行う。記憶装置２は、磁気記憶装置、半導体メモリ等のストレージデバイスであり、ＣＰＵ１の動作に基づき読み込まれたプログラム、長時間記憶しなくてはならないデータ等を記憶する。本実施形態では、ＣＰＵ１が、記憶装置２に格納されたプログラムの手順に従って処理を行うことによって、情報処理装置における機能及び後述するフローチャートに係る処理が実現される。
入力装置３は、マウス、キーボード、タッチパネルデバイス、ボタン等であり、各種の指示を入力する。出力装置４は、液晶パネル、外部モニタ等であり、各種の情報を出力する。
なお、情報処理装置のハードウェア構成は、上述した構成に限られるものではない。例えば、情報処理装置は、各種の装置間で通信を行うためのＩ／Ｏ装置を備えてもよい。例えば、Ｉ／Ｏ装置は、メモリーカード、ＵＳＢケーブル等の入出力部、有線、無線等による送受信部である。また、例えば、情報処理装置は、CCD（Charge Coupled Devices）、CMOS（Complementary Metal Oxide Semiconductor）等の撮像素子を有するカムコーダ等の撮像装置を備えてもよい。

図１（ｂ）は、本実施形態に係る情報処理装置の機能構成を示す図である。情報処理装置の処理及び機能は、図１（ｂ）に示す各部により実現される。
画像入力部１０は、カメラ等の撮像装置で撮像された画像データを取得する。
縮小部１５は、画像入力部１０で取得された画像データを縮小する。
パターン抽出部２０は、画像入力部１０で取得された画像データ、及び縮小部１５で縮小処理が施された画像データからパターン認識を行う部分画像を切り出す。
特徴量算出部３０は、パターン抽出部２０で切り出された部分画像から、画像入力部１０で取得された画像データに係る物体を認識するための特徴量を算出する。
尤度算出部４０は、特徴量算出部３０で算出された特徴量から認識対象である物体の尤度を求める。
物体判別部５０は、尤度算出部４０で求められた物体の尤度からパターン抽出部２０で切り出された部分画像が認識対象である物体を表す画像であるか否かを判別する。
認識結果出力部６０は、物体判別部５０で認識された結果を出力する。例えば、物体判別部５０で認識対象の物体であると判別された部分画像の領域を他の画像領域と区別できるように出力装置４に表示する。
認識結果記憶部６５は、記憶装置２に設けられる記憶領域であり、尤度算出部４０で求められた物体の尤度及び関連データを記憶する。
第１辞書記憶部１００は、記憶装置２に設けられる記憶領域であり、認識対象に対応し得る物体辞書（物体辞書データ）を記憶したメモリである。物体辞書は、特徴量に係る情報、尤度に係る情報等を含み、数多くの物体についての画像パターンから機械学習により予め求められる。ここで、特徴量に係る情報には、物体の特徴量を算出するための情報（例えば、後述の特徴量種別を示す情報、後述の積分画像の情報）が含まれる。また、尤度に係る情報には、物体の尤度を算出するための情報（例えば、後述の尤度テーブルを示す情報）が含まれる。また、第１辞書記憶部１００は、複数の物体の夫々に対応する複数の物体辞書を記憶している。
辞書切替部７０は、第１辞書記憶部１００に記憶された複数の物体辞書から選択的に物体辞書を切替えて物体認識を行う各処理部に処理パラメータを供給する。
辞書選択部８０は、認識結果記憶部６５に記憶されている複数の物体に対応する物体の尤度から認識対象に最も関連する物体辞書を選択する。
第２辞書記憶部１１０は、記憶装置２に設けられる記憶領域であり、追加学習及び認識処理で用いられる辞書選択部８０で選択された物体辞書を記憶するメモリである。
追加学習部９０は、第２辞書記憶部１１０に記憶されている物体辞書から認識結果記憶部６５に記憶されている物体の尤度及び関連データを用いて追加学習を行い、物体辞書の内部データを更新する。

次に、図２から図４までを参照して、本情報処理装置の動作を説明する。なお、本実施形態では、デジタルスチルカメラ等の撮像装置で人物以外の物体（被写体）である犬の画像を認識対象として登録し、オンライン学習によって追尾を行う場面を想定している。また、第１辞書記憶部１００には、人の顔、犬を含むＮ種類の物体辞書が予め記憶されているものとする。
まず、図２を参照して、認識対象を登録する際の情報処理装置による処理の流れを説明する。
まず、辞書切替部７０は、第１辞書記憶部１００に記憶された複数の物体辞書から最初の物体辞書を設定し、物体認識を行う各処理部に処理パラメータを供給する（ステップＳ１０１）。
ここで、処理パラメータの詳細を図３に示す。辞書カテゴリ名は、物体辞書の名称を表し、認識対象と物体辞書とを対応付けるものである。処理領域サイズは、画像パターンの照合を行うために画像から抽出する処理領域のサイズ（例えば、矩形領域の縦横の画素数）である。尤度閾値は、処理領域における画像パターンが認識対象であるか否かを判定するときに用いられる閾値である。局所領域数は、画像パターンの照合を行う処理領域中に設けられる領域（いわゆる局所領域）の数である。なお、本実施形態では、複数の局所領域における特徴量をもとに物体の識別を行う処理方式を前提としている。
また、処理パラメータには、局所領域の夫々に対して、局所領域位置、特徴量種別、尤度テーブルの情報が含まれる。局所領域位置は、画像パターンの照合を行う処理領域中の局所領域の位置を表す情報である。なお、本実施形態では、局所領域は、矩形を前提としていることから、局所領域位置は、処理領域における局所領域の左上の縦横座標及び右下の縦横座標として表現できる。特徴量種別は、特徴量の種別であり、本実施形態ではHaar-like特徴、及び方向ヒストグラムの何れかとし、識別子によって特徴量の種別を識別する。尤度テーブルは、局所領域における認識対象の画像パターンについての特徴量の確率分布及び非認識対象の画像パターンについての特徴量の確率分布をテーブルとして記憶したものであり、予め機械学習によって求められたものである。
本ステップでは、辞書切替部７０は、処理領域サイズを縮小部１５及びパターン抽出部２０に供給する。なお、本実施形態では、「人の顔」に係る物体辞書が最初の物体辞書として選択されるものとする。

次に、取得手段の一例である画像入力部１０は、登録画像（第一の画像データ）を取得する（ステップＳ１０２）。ここでは、ユーザは、撮像装置（図示せず。）を用いて認識対象の物体の撮影を行うが、撮像装置に設けられる表示装置（図示せず。）に表示される画面を見ながら認識対象の物体が画面いっぱいに写るように撮影を行うものとする。例えば、画像入力部１０は、認識対象である「犬」の画像を登録画像として取得する。
ここで撮影された画像データは、例えば８ビットの画素により構成される２次元配列のデータであり、Ｒ、Ｇ、Ｂ、３つの面により構成されるＲＧＢデータである。そこで、画像入力部１０は、ＲＧＢデータを輝度データに変換し、記憶装置２に設けられる画像メモリ（図示せず。）に格納する。なお、本実施形態では、輝度データが以後の処理に適用されるものとする。なお、画像データとしてＹＵＶのデータを採用する場合は、画像入力部１０は、Ｙ成分をそのまま輝度データとして用いてもよい。
次に、縮小部１５は、画像入力部１０で取得された画像データを縮小する（ステップＳ１０３）。このとき、縮小部１５は、画像入力部１０で取得された画像データのサイズと第１辞書記憶部１００に記憶されている処理領域サイズとをもとに、所定の範囲の縮小倍率を決定する。例えば、画像データのサイズが640×480画素であり、物体辞書の処理領域サイズが20×20画素である場合には、縮小部１５は、縮小後の画像サイズが処理領域サイズに等しくなるように、0.06倍、0.05倍、0.04倍に縮小するようにする。これは、登録画像を取得するステップＳ１０２で認識対象の物体を画面いっぱいに写るように撮影することを想定した場合に適切なサイズに認識する処理領域を切り出すためである。縮小部１５は、縮小した画像データを、記憶装置２に設けられる画像メモリに記憶する。

次に、パターン抽出部２０は、物体認識を行う処理領域である部分画像をステップＳ１０３で縮小処理を行った画像データ中から切り出す（ステップＳ１０４）。このとき、パターン抽出部２０は、第１辞書記憶部１００に記憶されている処理領域サイズに従って部分画像を切り出す。
次に、特徴量算出部３０は、パターン抽出部２０で切り出した部分画像から画像入力部１０で取得された画像データに係る物体を認識するための特徴量を算出する（ステップＳ１０５）。
まず、特徴量算出部３０は、第１辞書記憶部１００に記憶されている処理領域中の局所領域位置及び特徴量種別を、辞書切替部７０を介して取得する。
続いて、特徴量算出部３０は、パターン抽出部２０で切り出された部分画像から、取得した局所領域位置（局所領域の左上及び右下の縦横座標）に対応した局所領域における特徴量を、前記取得した特徴量種別に従って算出する。例えば、特徴量種別がHaar-like特徴であり、かつ、上半分が明、下半分が暗である特徴量を算出する場合は、特徴量算出部３０は、局所領域の上半分が明、下半分が暗のHaar-like特徴を計算する。
なお、本実施形態では、Haar-like特徴、方向ヒストグラムといった特徴量を画像データから直接算出する構成を採用しているが、これに限られるものではない。例えば、事前に積分画像を計算し、積分画像から特徴量を算出する構成であってもよい（参考文献１等を参照のこと。）。
参考文献１：Viola and Jones, "Rapid Object Detection using Boosted Cascade of Simple Features", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'01)

次に、尤度算出部４０は、特徴量算出部３０で算出した特徴量から第１辞書記憶部１００に予め記憶されている物体辞書を用いて認識対象である物体の尤度を求める（ステップＳ１０６）。
まず、尤度算出部４０は、特徴量算出部３０で算出された特徴量に対応する第１辞書記憶部１００に記憶されている尤度テーブルを、辞書切替部７０を介して取得する。
続いて、尤度算出部４０は、特徴量算出部３０で算出された特徴量をもとに、認識対象の画像パターンについての特徴量の確率分布を尤度として表すテーブルから認識対象の尤度を求める。また、尤度算出部４０は、特徴量算出部３０で算出された特徴量をもとに、非認識対象の尤度を非認識対象の画像パターンについての特徴量の確率分布を尤度として表すテーブルから、非認識対象の尤度を求める。
そして、尤度算出部４０は、部分画像に対する物体の尤度を認識対象の尤度及び非認識対象の尤度から求める。

以下、ここで尤度について説明する。予め機械学習で行う物体辞書を作成する際に、まず、認識対象の物体のサンプル画像パターンとそれ以外のサンプル画像パターン（例えば、人の顔と人の顔以外と）を複数用意する。望ましくは夫々１０,０００パターン以上用意する。
まず、特徴量ｆｋが、夫々の画像パターンから特徴量算出部３０で行う処理と同様の処理により算出される。そして、認識対象の物体の全画像パターンの特徴量ｆｋの確率分布Ｐｒ（ｆｋ｜Ｉ＋）、及び非認識対象の全画像パターンの特徴量ｆｋの確率分布Ｐｒ（ｆｋ｜Ｉ−）が求められる。このとき、特徴量ｆｋの値をとる画像パターンが認識対象の物体である尤度Ｃｋは、以下の（式１）により求められる。

したがって、本実施形態では、認識対象の画像パターンに係る確率分布を尤度として表すテーブルとして上記（式１）のＣｋ＋（ｆｋ）の値を参照できるように尤度テーブルを構成する。更に、非認識対象の画像パターンに係る確率分布を尤度として表すテーブルとして上記（式１）のＣｋ−（ｆｋ）の値を参照できるように尤度テーブルを構成する。このように尤度テーブルを構成することで、尤度算出部４０は、上記（式１）に従い部分画像に対する物体の尤度を求めることができる。

続いて、尤度算出部４０は、全ての局所領域について尤度を求める処理をしたか否かを判別する（ステップＳ１０７）。このとき、全ての局所領域について尤度を求める処理をしたと判断した場合には、尤度算出部４０は、ステップＳ１０８に処理を移す。他方、全ての局所領域について尤度を求める処理をしていないと判断した場合には、尤度算出部４０は、ステップＳ１０５に処理を移す。
したがって、第１辞書記憶部１００に記憶されている局所領域数に従ってステップＳ１０５及びステップＳ１０６の処理が繰り返される。このとき、特徴量算出部３０は、第１辞書記憶部１００に記憶されている局所領域位置及び特徴量種別の処理パラメータを辞書切替部７０を介して取得し、処理を行う。また、尤度算出部４０は、尤度テーブルを辞書切替部７０を介して取得し、処理を行う。そして、尤度算出部４０は、複数の局所領域の特徴量の夫々に対して尤度を求め、その尤度の総和を最終的な認識対象の物体の尤度とする。故に、最終的な認識対象の物体の尤度Ｃは、以下の（式２）で求めることができる。
このように、情報処理装置は、複数の特徴量を組合せることで、より精度良く物体の認識を行うことができる。

次に、認識結果記憶部６５は、切り出された部分画像に対して局所領域数分、尤度の算出を終了した後、辞書カテゴリ名と共に尤度Ｃを認識結果として保存する（ステップＳ１０８）。
続いて、認識結果記憶部６５は、縮小画像の全域、及び全ての縮小画像について処理が行われているか否かを判別する（ステップＳ１０９）
ここで、縮小画像の全域、及び全ての縮小画像について処理が行われている場合には、認識結果記憶部６５は、ステップＳ１１０に処理を移す。他方、縮小画像の全域、及び全ての縮小画像について処理が行われていない場合には、認識結果記憶部６５は、ステップＳ１０４に処理を移す。
すなわち、情報処理装置は、以上説明したステップＳ１０４からステップＳ１０８までの処理を、画像中から照合する画像パターンの切り出し位置を、縮小画像の全域から縦横順次に走査していくことにより、繰返し行う。また、情報処理装置は、以上説明したステップＳ１０４からステップＳ１０８までの処理を、ステップＳ１０３で縮小された各縮小画像について順次、繰返し行う。なお、本実施形態では、情報処理装置は、前記処理を認識対象の物体が画面いっぱいに写るように撮影を行っていることを想定した縮小画像について行っているので、前記繰返しの回数を、比較的少ない回数にすることができる。

次に、辞書切替部７０は、第１辞書記憶部１００に記憶された複数の物体辞書から次の物体辞書（例えば、「犬」に係る物体辞書）を選択し、物体認識を行う各処理部に処理パラメータを供給する（ステップＳ１１０）。
続いて、辞書切替部７０は、第１辞書記憶部１００に記憶されている全ての物体辞書についてステップＳ１０３からステップＳ１１０までの処理が行われているか否かを判別する（ステップＳ１１１）。このとき、第１辞書記憶部１００に記憶されている全ての物体辞書について処理が行われていると判別した場合には、辞書切替部７０は、ステップＳ１１２に処理を移す。他方、第１辞書記憶部１００に記憶されている全ての物体辞書について処理が行われていないと判別した場合には、辞書切替部７０は、ステップＳ１０３に処理を移す。すなわち、情報処理装置は、ステップＳ１０３からステップＳ１１０までの処理を選択した物体辞書について行う。なお、辞書切替部７０は、縮小部１５及びパターン抽出部２０に処理領域サイズの処理パラメータを、特徴量算出部３０に局所領域位置及び特徴量種別の処理パラメータを、尤度算出部４０に尤度テーブルを処理フローに従って供給する。
すなわち、ステップＳ１０３からステップＳ１１０までの処理は、物体辞書ごとに繰返し行われる。換言するならば、認識対象である物体に応じて、処理領域サイズ、局所領域数、及び特徴量種別が異なる認識処理が行われる。

次に、第１辞書記憶部１００に記憶された全ての物体辞書について処理が終了すると、辞書選択部８０は、認識結果記憶部６５に記憶された物体に対する登録画像の認識結果から最適な物体辞書を選択する（ステップＳ１１２）。例えば、辞書選択部８０は、認識結果記憶部６５に記憶された認識結果である尤度のうち最も高い尤度を抽出し、最も高い尤度に対応する辞書カテゴリ名を抽出する。そして、辞書選択部８０は、抽出した辞書カテゴリ名に対応した物体辞書を選択して、処理パラメータを第２辞書記憶部１１０に記憶する。なお、本実施形態で想定するケースでは、登録時に「犬」の画像を撮影部により取得しているので、複数の物体辞書のうち結果的に「犬」の辞書が選択される。
このように、選択手段の一例である特徴量算出部３０、尤度算出部４０、辞書選択部８０等は、登録画像と、複数の物体辞書の各々との照合を行い、照合の結果に基づいて、登録画像に係る物体に関わりが深い物体辞書を選択する。

次に、図４を参照して、物体を認識する際の情報処理装置による処理の流れを説明する。本処理は、上述した登録処理に引き続いて行われる。すなわち、最初にステップＳ１０２で取得された登録画像に対して認識処理及び物体辞書の追加学習処理が行われる。以下では、登録に継続して行う認識処理を前提に説明するが、一旦登録を行った後は、別の撮影シーンにおいても同様に、認識処理及び物体辞書の追加学習処理が行われてもよい。
まず、取得手段の一例である画像入力部１０は、入力画像（第二の画像データ）を取得する（ステップＳ２０１）。なお、本実施形態では、上述したように、画像入力部１０は、はじめに登録画像を入力画像として取得する。すなわち、第一の画像データと第二の画像データとは、同じ画像データであってもよいし、異なる画像データであってもよい。
次に、縮小部１５は、画像入力部１０で取得した入力画像に係る画像データを縮小する（ステップＳ２０２）。この処理では、登録処理時と異なり、認識対象の物体を画面いっぱいに写るように撮影することを前提にはしていないので、縮小部１５は、様々な大きさの物体の検出に対応するため、入力画像を所定の割合で順次縮小する。
例えば、縮小部１５は、画像データのサイズが640×480画素を最大として、0.8倍に順次縮小するようにする。すなわち、縮小部１５は、640×480画素の画像データを入力として縮小した512×384画素の画像データを作成し、作成した512×384画素の画像データを入力として縮小した410×307画素の画像データを順次作成するように縮小処理を繰り返す。
ここで、最小の画像サイズと、認識対象の物体を画面いっぱいに写るように撮影することを想定した場合の適切なサイズとは、ほぼ等しいサイズである。よって、縮小部１５は、最小の画像サイズを、辞書切替部７０を介して取得した第２辞書記憶部１１０に記憶された処理領域サイズにもとづいて設定する。縮小部１５は、縮小した画像データを、記憶装置２に設けられる画像メモリに記憶する。

次に、パターン抽出部２０は、物体認識を行う処理領域である部分画像を、ステップＳ２０２で縮小処理が行われた画像データ中から、登録処理時のステップＳ１０４の処理と同様に切り出す（ステップＳ２０３）。このときに切り出す処理領域サイズは、登録処理時に選択し、第２辞書記憶部１１０に記憶されたものであり、認識対象に適切なものになっている。なお、ここで切り出した部分画像に対して、後述の認識処理で部分画像の画像パターンが認識対象の物体であるか否かが物体判別部５０により判別される。
次に、特徴量算出部３０は、パターン抽出部２０で切り出された部分画像から画像入力部１０で取得された画像データに係る物体を認識するための特徴量を算出する（ステップＳ２０４）。ここで、特徴量の計算は、登録処理時のステップＳ１０５の処理と同様にして行う。付言するならば、特徴量算出部３０は、処理領域中の局所領域位置及び特徴量種別については、第２辞書記憶部１１０に記憶されている処理パラメータを参照する。このときに算出される局所領域の特徴量は、登録処理時に選択し、第２辞書記憶部１１０に記憶された物体辞書の局所領域位置及び特徴量種別にもとづくものであり、認識対象に適切なものになっている。
次に、尤度算出部４０は、登録処理時のステップＳ１０６の処理と同様にして特徴量算出部３０で算出された特徴量から第２辞書記憶部１１０に予め記憶されている物体辞書を用いて認識対象である物体の尤度を求める（ステップＳ２０５）。
続いて、尤度算出部４０は、全ての局所領域について尤度を求める処理をしたか否かを判別する（ステップＳ２０６）。このとき、全ての局所領域について尤度を求める処理をしたと判断した場合には、尤度算出部４０は、ステップＳ２０７に処理を移す。他方、全ての局所領域について尤度を求める処理をしていないと判断した場合には、尤度算出部４０は、ステップＳ２０４に処理を移す。なお、尤度算出部４０は、最終的な認識対象の物体の尤度Ｃを上述の（式２）で求める。
このように、情報処理装置は、第２辞書記憶部１１０に記憶されている局所領域数に従ってステップＳ２０４及びステップＳ２０５の処理を繰り返し、複数の特徴量を組合せることで、より精度良く物体の認識を行うことができる。

次に、物体判別部５０は、尤度算出部４０で求められた物体の尤度からパターン抽出部２０で切り出された部分画像が認識対象である物体であるか否かを判別するために、ステップＳ２０５で算出された尤度Ｃを取得する（ステップＳ２０７）。
続いて、物体判別部５０は、照合対象の部分画像の画像パターンを認識対象の物体であるか否かを判別する（ステップＳ２０８）。ここで、物体判別部５０は、ステップＳ２０７で取得した尤度Ｃが所定の閾値Ｔよりも大きい場合は、照合対象の部分画像の画像パターンを認識対象の物体であると判別し、ステップＳ２０９に処理を移す。他方、所定の閾値Ｔ以下の場合は、物体判別部５０は、照合対象の部分画像の画像パターンを認識対象の物体でないと判別し、ステップＳ２０３に処理を移す。閾値Ｔは、第２辞書記憶部１１０に予め記憶されている尤度閾値であり、辞書切替部７０を介して参照される。
このように、判別手段の一例である特徴量算出部３０、尤度算出部４０、物体判別部５０等は、入力画像と、既に選択されている登録画像に係る物体に関わりが深い物体辞書との照合を行う。そして、判別手段は、照合の結果に基づいて、入力画像に係る物体が登録画像に係る物体であるか否かを判別する。

ステップＳ２０８で処理領域における画像パターンが認識対象である物体と判別された場合には、認識結果記憶部６５は、認識結果を保存する（ステップＳ２０９）。ここで、保存される結果は、後述の追加学習処理で尤度テーブルを更新するときに用いられる局所領域ごとの特徴量、及び後述の認識結果出力を行うときに用いられる処理領域の位置座標である。
なお、認識結果記憶部６５に保存される後述の追加学習で用いられる認識結果としては、尤度テーブルを更新可能なデータであれば特徴量そのものでなくてもよい。例えば、特徴量から尤度テーブルを参照する際のインデックスであってもよい。
他方、ステップＳ２０８で処理領域における画像パターンが認識対象である物体でないと判別された場合には、ステップＳ２０９の処理は、スキップされる。
続いて、認識結果記憶部６５は、縮小画像の全域、及び全ての縮小画像について処理が行われているか否かを判別する（ステップＳ２１０）
ここで、縮小画像の全域、及び全ての縮小画像について処理が行われている場合には、認識結果記憶部６５は、ステップＳ２１１に処理を移す。他方、縮小画像の全域、及び全ての縮小画像について処理が行われていない場合には、認識結果記憶部６５は、ステップＳ２０３に処理を移す。
すなわち、情報処理装置は、以上説明したステップＳ２０３からステップＳ２０９までの処理を、画像中から照合する画像パターンの切り出し位置を、縮小画像の全域から縦横順次に走査していくことにより、繰返し行う。また、情報処理装置は、ステップＳ２０３からステップＳ２０９までの処理を、ステップＳ２０２で作成された各縮小画像について順次、繰返し行う。
次に、更新手段の一例である追加学習部９０は、ステップＳ２０９で認識結果記憶部６５に認識結果が保存された場合に、第２辞書記憶部１１０に記憶されている物体辞書を更新するために追加学習処理を行う（ステップＳ２１１）。
例えば、登録時に「犬」の画像をもとに選択された「犬」の物体辞書に対して、ステップＳ２０９で保存された「犬」の認識結果を用いて追加学習が行われる。ここで、追加学習処理は、公知の方法が用いられる（非特許文献１等、参照のこと。）。

以下、追加学習処理の一例を説明する。
最初に、追加学習部９０は、弱判別器の更新を行う。ここで、弱判別器とは、処理領域内の局所領域の特徴量ごとに認識対象の物体であるか否かを判別するものである。弱判別器の更新とは、追加学習部９０が認識対象の物体である処理領域の局所領域の特徴量を用いて認識対象の物体の特徴量ｆｋの確率分布Ｐｒ（ｆｋ｜Ｉ＋）の更新を行うことを意味する。また、追加学習部９０は、認識対象の物体でない処理領域の局所領域の特徴量を用いて非認識対象の物体の特徴量ｆｋの確率分布Ｐｒ（ｆｋ｜Ｉ−）の更新も行う。追加学習部９０は、認識対象の物体である処理領域の局所領域の特徴量として、ステップＳ２０９において保存した物体と判定された処理領域の局所領域の特徴量を用いる。また、追加学習部９０は、認識対象の物体でない処理領域の局所領域の特徴量として、物体と判定された処理領域の周辺領域の物体でないと判定された処理領域の局所領域の特徴量を用いる。
次に、追加学習部９０は、更新した弱判別器をもとに最も判別性能のよい弱判別器を抽出する。更に、追加学習部９０は、特徴量を用いた処理領域ごとの重みを更新して所定回数分、弱判別器の更新と抽出とを繰り返す。そして、追加学習部９０は、抽出した弱判別器を判別性能に応じて組合せるようにして物体辞書として更新する。
なお、非特許文献１では、追加したサンプルごとに追加学習をするようにしているが、追加学習部９０は、複数の処理領域を同時に学習サンプルとして追加し、学習を行うようにしてもよい。
本処理での追加学習の結果は、第２辞書記憶部１１０における処理パラメータに反映される。すなわち、追加学習部９０は、抽出した弱判別器の数を局所領域数として、夫々の弱判別器を局所領域位置、特徴量種別、及び尤度テーブルとして反映する。また、追加学習部９０は、尤度閾値を適切な値に更新する。

そして、出力手段の一例である認識結果出力部６０は、ステップＳ２０９で認識結果記憶部６５に認識結果が保存された場合に、認識結果記憶部６５に保存された認識結果を出力する（ステップＳ２１２）。例えば、入力画像と共に、認識結果記憶部６５に保存された処理領域の位置座標に対応する入力画像中の物体を表す領域が出力装置４に出力される。
また、認識結果出力部６０は、認識処理の対象があるか否か、すなわち処理を終了するか否かを判別する（ステップＳ２１３）。このとき、認識処理の対象がある場合には、認識結果出力部６０は、ステップＳ２０１に処理を移す。他方、認識処理の対象がない場合には、認識結果出力部６０は、処理を終了する。
すなわち、以上説明したステップＳ２０１からステップＳ２１２までの処理が、認識処理の終了時まで画像入力部１０で順次画像が取得されて繰り返される。ここで、継続して認識及び追加学習を行う場合には、ステップＳ２１１で追加学習し、第２辞書記憶部１１０に反映された処理パラメータを用いて、ステップＳ２０２からステップＳ２１２までの処理が行われる。そして、追加学習の繰返しと共に、物体辞書は、高精度な認識が可能な物体辞書にカスタマイズされていく。

以上説明したように、本実施形態では、認識対象を登録する際に複数の物体辞書データから最適な物体辞書データを選択し、選択した物体辞書データをもとに認識対象の追加学習を行うようにした。
したがって、画像中の処理領域や特徴量を予め指定することなく高精度の認識を行うことができる。例えば、「犬」の認識及び学習を行う際に認識結果として最も尤度の高い物体辞書を選択することにより、複数の物体辞書から元々「犬」の認識を行うための識別性能の高い「犬」の物体辞書を選択でき、追加学習を行える。そして、追加学習によって登録に用いた特定の「犬」に対する認識精度を向上させることができる。
なお、本実施形態では、「犬」の追加学習を行う際に、予め用意する物体辞書として「犬」の辞書を備えることを前提として説明したが、必ずしも「犬」の物体辞書を備える必要はない。例えば、「ペット（犬・猫）」といった犬・猫を中心としたペットとなり得る四足歩行の哺乳類を認識するような物体辞書を代わりに用意しておいてもよい。その場合、尤度の高い物体辞書として「ペット（犬・猫）」が選択され、「ペット（犬・猫）」の物体辞書を追加学習で「犬」の物体辞書にカスタマイズできる。
また、認識対象を登録する際に認識対象に対応する物体辞書が選択できなかった場合（例えば「犬」の登録時に「犬」でなく「猫」の物体辞書を選択した場合）であっても、登録した認識対象に対して尤度の高い物体辞書が選択されている。よって、この構成によれば、追加学習で高精度の認識が可能な「犬」の物体辞書にカスタマイズできる。

なお、画像から顔を検出する技術は、公知の技術を用いて実用化が進んでいるが（例えば、参考文献２を参照のこと。）、撮影する対象が人の顔に限定されることなく、ペット等に追尾可能な対象を拡張したいという要望がある。このような様々な物体の認識を実現するためには、物体毎に個別の認識処理を行う必要があり、認識する物体のカテゴリ分だけ処理回路やメモリといったシステムリソースが膨大になるといった問題を解決する必要がある。
そこで、この問題を解決するために、様々な物体の認識において処理を共通化する認識の処理方式が提案されている（例えば、参考文献３を参照のこと。）。このような認識の方式を利用することにより、認識したい物体に応じて辞書を切替えれば様々な物体の認識が可能になる。
しかしながら、この技術においても、撮影を行うユーザ毎に認識したい対象は様々であり、全ての物体に対応する辞書を予め用意することは困難であるといった問題がある。
このような問題を解決するために、本実施形態では、オンライン学習を採用している。
参考文献２：Rowley et al, "Neural network-based face detection", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.20 , NO.1, JANUARY 1998
参考文献３：柳井、「一般物体認識の現状と今後」、情報処理学会論文誌、Vol.48, No.SIG_16(CVIM_19), 2007.11.15

＜その他の実施形態＞
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

上述した実施形態の構成によれば、複数の物体辞書から物体を認識するのに最適な物体辞書を選択してオンライン学習を行うので、オンライン学習により認識処理に用いる物体辞書を認識対象に適合させ、様々な物体の認識を高精度に行うことができる。

また、上述した実施形態の構成によれば、物体の認識をより容易にかつ高精度に行うことができる。

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０画像入力部、１５画像縮小部、２０パターン抽出部、３０特徴量算出部、４０尤度算出部、５０物体判別部、６０認識結果出力部、７０辞書切替部、８０辞書選択部、９０追加学習部

Claims

物体に係る画像データを取得する取得手段と、
前記取得手段で取得された物体に係る第一の画像データと、記憶装置に記憶されている複数の物体辞書データの各々との照合を行い、照合の結果に基づいて、前記複数の物体辞書データから前記第一の画像データに係る物体に関する物体辞書データを選択する選択手段と、
前記取得手段で取得された物体に係る第二の画像データと、前記選択手段で選択された物体辞書データとの照合を行い、照合の結果に基づいて、前記第二の画像データに係る物体を判別する判別手段と、
前記判別手段での前記判別の結果に応じて、前記選択手段で選択された物体辞書データを更新する更新手段と、
を有する、情報処理装置。
前記選択手段は、前記記憶装置に記憶されている各物体辞書データに含まれる尤度に係る情報に基づいて、前記第一の画像データに係る物体に関する尤度を照合の結果として物体辞書データごとに算出し、算出した尤度のうち、最も高い尤度に対応する物体辞書データを、前記第一の画像データに係る物体に関する物体辞書データとして選択する、請求項１記載の情報処理装置。
前記判別手段は、前記選択手段で選択された物体辞書データに含まれる尤度に係る情報に基づいて、前記第二の画像データに係る物体に関する尤度を照合の結果として算出し、算出した尤度に基づいて、前記第二の画像データに係る物体を判別する、請求項１又は２記載の情報処理装置。
前記記憶装置に記憶されている各物体辞書データに含まれる尤度に係る情報は、予め機械学習によって求められた特徴量の確率分布を表す情報を含み、
前記判別手段は、前記選択手段で選択された物体辞書データに含まれる特徴量に係る情報に基づいて、前記第二の画像データに係る物体に関する特徴量を算出し、算出した特徴量と、前記選択手段で選択された物体辞書データに含まれる尤度に係る情報とに基づいて、前記第二の画像データに係る物体に関する尤度を照合の結果として算出し、算出した尤度に基づいて、前記第二の画像データに係る物体が前記第一の画像データに係る物体であるか否かを判別し、
前記更新手段は、前記判別手段で前記第二の画像データに係る物体が前記第一の画像データに係る物体であると前記判別手段で判別された場合には、前記算出された特徴量に基づいて、前記選択手段で選択された物体辞書データに含まれる特徴量の確率分布を表す情報を更新する、請求項１乃至３の何れか１項記載の情報処理装置。
前記判別手段で前記第二の画像データに係る物体が前記第一の画像データに係る物体であると前記判別手段で判別された場合には、前記第二の画像データに係る画像と共に、前記第二の画像データに係る物体を表す領域を出力装置に出力する出力手段を更に有する、請求項１乃至４の何れか１項記載の情報処理装置。
物体に係る画像データを取得する取得ステップと、
前記取得ステップで取得された物体に係る第一の画像データと、記憶装置に記憶されている複数の物体辞書データの各々との照合を行い、照合の結果に基づいて、前記複数の物体辞書データから前記第一の画像データに係る物体に関する物体辞書データを選択する選択ステップと、
前記取得ステップで取得された物体に係る第二の画像データと、前記選択ステップで選択された物体辞書データとの照合を行い、照合の結果に基づいて、前記第二の画像データに係る物体を判別する判別ステップと、
前記判別ステップでの前記判別の結果に応じて、前記選択ステップで選択された物体辞書データを更新する更新ステップと、
を有する、情報処理方法。
コンピュータを、
物体に係る画像データを取得する取得手段と、
前記取得手段で取得された物体に係る第一の画像データと、記憶装置に記憶されている複数の物体辞書データの各々との照合を行い、照合の結果に基づいて、前記複数の物体辞書データから前記第一の画像データに係る物体に関する物体辞書データを選択する選択手段と、
前記取得手段で取得された物体に係る第二の画像データと、前記選択手段で選択された物体辞書データとの照合を行い、照合の結果に基づいて、前記第二の画像データに係る物体を判別する判別手段と、
前記判別手段での前記判別の結果に応じて、前記選択手段で選択された物体辞書データを更新する更新手段と、
して機能させるプログラム。