JP5366756B2 - 情報処理装置及び情報処理方法 - Google Patents
情報処理装置及び情報処理方法 Download PDFInfo
- Publication number
- JP5366756B2 JP5366756B2 JP2009240820A JP2009240820A JP5366756B2 JP 5366756 B2 JP5366756 B2 JP 5366756B2 JP 2009240820 A JP2009240820 A JP 2009240820A JP 2009240820 A JP2009240820 A JP 2009240820A JP 5366756 B2 JP5366756 B2 JP 5366756B2
- Authority
- JP
- Japan
- Prior art keywords
- image data
- likelihood
- unit
- image
- dictionary data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/772—Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/467—Encoded features or binary features, e.g. local binary patterns [LBP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Description
ここで、例えば、人の全身を認識したい場合には、認識する処理領域は、縦長の長方形であると都合がよく、車を認識したい場合には、認識する処理領域は、横長の長方形であると都合がよい。したがって、非特許文献1で提案されている方法では、追尾対象の領域をユーザが予め指定することを前提としている。
また、例えば、物体の認識を高精度に行うには、認識対象の物体を特徴付ける特徴量を予め用意しておく必要があるが、元々識別性能が低い特徴量で学習を行っても認識精度は向上しない。したがって、非特許文献1で提案されている方法では、物体の認識に用いる特徴量としてHaar-like特徴、方向ヒストグラム、LBP(ローカルバイナリパターン)を併用し、その中からランダムに250個の特徴量を学習に使用している。
以下、本発明に係る実施形態について図面に基づいて説明する。図1に本実施形態に係る情報処理装置の構成を示す。図1(a)は、情報処理装置のハードウェア構成を示す図である。情報処理装置は、CPU(Central Processing Unit)1、記憶装置2、入力装置3、及び出力装置4を含んで構成される。なお、各装置は、互いに通信可能に構成され、バス等により接続されている。
CPU1は、情報処理装置の動作をコントロールし、記憶装置2に格納されたプログラムの実行等を行う。記憶装置2は、磁気記憶装置、半導体メモリ等のストレージデバイスであり、CPU1の動作に基づき読み込まれたプログラム、長時間記憶しなくてはならないデータ等を記憶する。本実施形態では、CPU1が、記憶装置2に格納されたプログラムの手順に従って処理を行うことによって、情報処理装置における機能及び後述するフローチャートに係る処理が実現される。
入力装置3は、マウス、キーボード、タッチパネルデバイス、ボタン等であり、各種の指示を入力する。出力装置4は、液晶パネル、外部モニタ等であり、各種の情報を出力する。
なお、情報処理装置のハードウェア構成は、上述した構成に限られるものではない。例えば、情報処理装置は、各種の装置間で通信を行うためのI/O装置を備えてもよい。例えば、I/O装置は、メモリーカード、USBケーブル等の入出力部、有線、無線等による送受信部である。また、例えば、情報処理装置は、CCD(Charge Coupled Devices)、CMOS(Complementary Metal Oxide Semiconductor)等の撮像素子を有するカムコーダ等の撮像装置を備えてもよい。
画像入力部10は、カメラ等の撮像装置で撮像された画像データを取得する。
縮小部15は、画像入力部10で取得された画像データを縮小する。
パターン抽出部20は、画像入力部10で取得された画像データ、及び縮小部15で縮小処理が施された画像データからパターン認識を行う部分画像を切り出す。
特徴量算出部30は、パターン抽出部20で切り出された部分画像から、画像入力部10で取得された画像データに係る物体を認識するための特徴量を算出する。
尤度算出部40は、特徴量算出部30で算出された特徴量から認識対象である物体の尤度を求める。
物体判別部50は、尤度算出部40で求められた物体の尤度からパターン抽出部20で切り出された部分画像が認識対象である物体を表す画像であるか否かを判別する。
認識結果出力部60は、物体判別部50で認識された結果を出力する。例えば、物体判別部50で認識対象の物体であると判別された部分画像の領域を他の画像領域と区別できるように出力装置4に表示する。
認識結果記憶部65は、記憶装置2に設けられる記憶領域であり、尤度算出部40で求められた物体の尤度及び関連データを記憶する。
第1辞書記憶部100は、記憶装置2に設けられる記憶領域であり、認識対象に対応し得る物体辞書(物体辞書データ)を記憶したメモリである。物体辞書は、特徴量に係る情報、尤度に係る情報等を含み、数多くの物体についての画像パターンから機械学習により予め求められる。ここで、特徴量に係る情報には、物体の特徴量を算出するための情報(例えば、後述の特徴量種別を示す情報、後述の積分画像の情報)が含まれる。また、尤度に係る情報には、物体の尤度を算出するための情報(例えば、後述の尤度テーブルを示す情報)が含まれる。また、第1辞書記憶部100は、複数の物体の夫々に対応する複数の物体辞書を記憶している。
辞書切替部70は、第1辞書記憶部100に記憶された複数の物体辞書から選択的に物体辞書を切替えて物体認識を行う各処理部に処理パラメータを供給する。
辞書選択部80は、認識結果記憶部65に記憶されている複数の物体に対応する物体の尤度から認識対象に最も関連する物体辞書を選択する。
第2辞書記憶部110は、記憶装置2に設けられる記憶領域であり、追加学習及び認識処理で用いられる辞書選択部80で選択された物体辞書を記憶するメモリである。
追加学習部90は、第2辞書記憶部110に記憶されている物体辞書から認識結果記憶部65に記憶されている物体の尤度及び関連データを用いて追加学習を行い、物体辞書の内部データを更新する。
まず、図2を参照して、認識対象を登録する際の情報処理装置による処理の流れを説明する。
まず、辞書切替部70は、第1辞書記憶部100に記憶された複数の物体辞書から最初の物体辞書を設定し、物体認識を行う各処理部に処理パラメータを供給する(ステップS101)。
ここで、処理パラメータの詳細を図3に示す。辞書カテゴリ名は、物体辞書の名称を表し、認識対象と物体辞書とを対応付けるものである。処理領域サイズは、画像パターンの照合を行うために画像から抽出する処理領域のサイズ(例えば、矩形領域の縦横の画素数)である。尤度閾値は、処理領域における画像パターンが認識対象であるか否かを判定するときに用いられる閾値である。局所領域数は、画像パターンの照合を行う処理領域中に設けられる領域(いわゆる局所領域)の数である。なお、本実施形態では、複数の局所領域における特徴量をもとに物体の識別を行う処理方式を前提としている。
また、処理パラメータには、局所領域の夫々に対して、局所領域位置、特徴量種別、尤度テーブルの情報が含まれる。局所領域位置は、画像パターンの照合を行う処理領域中の局所領域の位置を表す情報である。なお、本実施形態では、局所領域は、矩形を前提としていることから、局所領域位置は、処理領域における局所領域の左上の縦横座標及び右下の縦横座標として表現できる。特徴量種別は、特徴量の種別であり、本実施形態ではHaar-like特徴、及び方向ヒストグラムの何れかとし、識別子によって特徴量の種別を識別する。尤度テーブルは、局所領域における認識対象の画像パターンについての特徴量の確率分布及び非認識対象の画像パターンについての特徴量の確率分布をテーブルとして記憶したものであり、予め機械学習によって求められたものである。
本ステップでは、辞書切替部70は、処理領域サイズを縮小部15及びパターン抽出部20に供給する。なお、本実施形態では、「人の顔」に係る物体辞書が最初の物体辞書として選択されるものとする。
ここで撮影された画像データは、例えば8ビットの画素により構成される2次元配列のデータであり、R、G、B、3つの面により構成されるRGBデータである。そこで、画像入力部10は、RGBデータを輝度データに変換し、記憶装置2に設けられる画像メモリ(図示せず。)に格納する。なお、本実施形態では、輝度データが以後の処理に適用されるものとする。なお、画像データとしてYUVのデータを採用する場合は、画像入力部10は、Y成分をそのまま輝度データとして用いてもよい。
次に、縮小部15は、画像入力部10で取得された画像データを縮小する(ステップS103)。このとき、縮小部15は、画像入力部10で取得された画像データのサイズと第1辞書記憶部100に記憶されている処理領域サイズとをもとに、所定の範囲の縮小倍率を決定する。例えば、画像データのサイズが640×480画素であり、物体辞書の処理領域サイズが20×20画素である場合には、縮小部15は、縮小後の画像サイズが処理領域サイズに等しくなるように、0.06倍、0.05倍、0.04倍に縮小するようにする。これは、登録画像を取得するステップS102で認識対象の物体を画面いっぱいに写るように撮影することを想定した場合に適切なサイズに認識する処理領域を切り出すためである。縮小部15は、縮小した画像データを、記憶装置2に設けられる画像メモリに記憶する。
次に、特徴量算出部30は、パターン抽出部20で切り出した部分画像から画像入力部10で取得された画像データに係る物体を認識するための特徴量を算出する(ステップS105)。
まず、特徴量算出部30は、第1辞書記憶部100に記憶されている処理領域中の局所領域位置及び特徴量種別を、辞書切替部70を介して取得する。
続いて、特徴量算出部30は、パターン抽出部20で切り出された部分画像から、取得した局所領域位置(局所領域の左上及び右下の縦横座標)に対応した局所領域における特徴量を、前記取得した特徴量種別に従って算出する。例えば、特徴量種別がHaar-like特徴であり、かつ、上半分が明、下半分が暗である特徴量を算出する場合は、特徴量算出部30は、局所領域の上半分が明、下半分が暗のHaar-like特徴を計算する。
なお、本実施形態では、Haar-like特徴、方向ヒストグラムといった特徴量を画像データから直接算出する構成を採用しているが、これに限られるものではない。例えば、事前に積分画像を計算し、積分画像から特徴量を算出する構成であってもよい(参考文献1等を参照のこと。)。
参考文献1:Viola and Jones, "Rapid Object Detection using Boosted Cascade of Simple Features", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'01)
まず、尤度算出部40は、特徴量算出部30で算出された特徴量に対応する第1辞書記憶部100に記憶されている尤度テーブルを、辞書切替部70を介して取得する。
続いて、尤度算出部40は、特徴量算出部30で算出された特徴量をもとに、認識対象の画像パターンについての特徴量の確率分布を尤度として表すテーブルから認識対象の尤度を求める。また、尤度算出部40は、特徴量算出部30で算出された特徴量をもとに、非認識対象の尤度を非認識対象の画像パターンについての特徴量の確率分布を尤度として表すテーブルから、非認識対象の尤度を求める。
そして、尤度算出部40は、部分画像に対する物体の尤度を認識対象の尤度及び非認識対象の尤度から求める。
まず、特徴量fkが、夫々の画像パターンから特徴量算出部30で行う処理と同様の処理により算出される。そして、認識対象の物体の全画像パターンの特徴量fkの確率分布Pr(fk|I+)、及び非認識対象の全画像パターンの特徴量fkの確率分布Pr(fk|I−)が求められる。このとき、特徴量fkの値をとる画像パターンが認識対象の物体である尤度Ckは、以下の(式1)により求められる。
したがって、第1辞書記憶部100に記憶されている局所領域数に従ってステップS105及びステップS106の処理が繰り返される。このとき、特徴量算出部30は、第1辞書記憶部100に記憶されている局所領域位置及び特徴量種別の処理パラメータを辞書切替部70を介して取得し、処理を行う。また、尤度算出部40は、尤度テーブルを辞書切替部70を介して取得し、処理を行う。そして、尤度算出部40は、複数の局所領域の特徴量の夫々に対して尤度を求め、その尤度の総和を最終的な認識対象の物体の尤度とする。故に、最終的な認識対象の物体の尤度Cは、以下の(式2)で求めることができる。
このように、情報処理装置は、複数の特徴量を組合せることで、より精度良く物体の認識を行うことができる。
続いて、認識結果記憶部65は、縮小画像の全域、及び全ての縮小画像について処理が行われているか否かを判別する(ステップS109)
ここで、縮小画像の全域、及び全ての縮小画像について処理が行われている場合には、認識結果記憶部65は、ステップS110に処理を移す。他方、縮小画像の全域、及び全ての縮小画像について処理が行われていない場合には、認識結果記憶部65は、ステップS104に処理を移す。
すなわち、情報処理装置は、以上説明したステップS104からステップS108までの処理を、画像中から照合する画像パターンの切り出し位置を、縮小画像の全域から縦横順次に走査していくことにより、繰返し行う。また、情報処理装置は、以上説明したステップS104からステップS108までの処理を、ステップS103で縮小された各縮小画像について順次、繰返し行う。なお、本実施形態では、情報処理装置は、前記処理を認識対象の物体が画面いっぱいに写るように撮影を行っていることを想定した縮小画像について行っているので、前記繰返しの回数を、比較的少ない回数にすることができる。
続いて、辞書切替部70は、第1辞書記憶部100に記憶されている全ての物体辞書についてステップS103からステップS110までの処理が行われているか否かを判別する(ステップS111)。このとき、第1辞書記憶部100に記憶されている全ての物体辞書について処理が行われていると判別した場合には、辞書切替部70は、ステップS112に処理を移す。他方、第1辞書記憶部100に記憶されている全ての物体辞書について処理が行われていないと判別した場合には、辞書切替部70は、ステップS103に処理を移す。すなわち、情報処理装置は、ステップS103からステップS110までの処理を選択した物体辞書について行う。なお、辞書切替部70は、縮小部15及びパターン抽出部20に処理領域サイズの処理パラメータを、特徴量算出部30に局所領域位置及び特徴量種別の処理パラメータを、尤度算出部40に尤度テーブルを処理フローに従って供給する。
すなわち、ステップS103からステップS110までの処理は、物体辞書ごとに繰返し行われる。換言するならば、認識対象である物体に応じて、処理領域サイズ、局所領域数、及び特徴量種別が異なる認識処理が行われる。
このように、選択手段の一例である特徴量算出部30、尤度算出部40、辞書選択部80等は、登録画像と、複数の物体辞書の各々との照合を行い、照合の結果に基づいて、登録画像に係る物体に関わりが深い物体辞書を選択する。
まず、取得手段の一例である画像入力部10は、入力画像(第二の画像データ)を取得する(ステップS201)。なお、本実施形態では、上述したように、画像入力部10は、はじめに登録画像を入力画像として取得する。すなわち、第一の画像データと第二の画像データとは、同じ画像データであってもよいし、異なる画像データであってもよい。
次に、縮小部15は、画像入力部10で取得した入力画像に係る画像データを縮小する(ステップS202)。この処理では、登録処理時と異なり、認識対象の物体を画面いっぱいに写るように撮影することを前提にはしていないので、縮小部15は、様々な大きさの物体の検出に対応するため、入力画像を所定の割合で順次縮小する。
例えば、縮小部15は、画像データのサイズが640×480画素を最大として、0.8倍に順次縮小するようにする。すなわち、縮小部15は、640×480画素の画像データを入力として縮小した512×384画素の画像データを作成し、作成した512×384画素の画像データを入力として縮小した410×307画素の画像データを順次作成するように縮小処理を繰り返す。
ここで、最小の画像サイズと、認識対象の物体を画面いっぱいに写るように撮影することを想定した場合の適切なサイズとは、ほぼ等しいサイズである。よって、縮小部15は、最小の画像サイズを、辞書切替部70を介して取得した第2辞書記憶部110に記憶された処理領域サイズにもとづいて設定する。縮小部15は、縮小した画像データを、記憶装置2に設けられる画像メモリに記憶する。
次に、特徴量算出部30は、パターン抽出部20で切り出された部分画像から画像入力部10で取得された画像データに係る物体を認識するための特徴量を算出する(ステップS204)。ここで、特徴量の計算は、登録処理時のステップS105の処理と同様にして行う。付言するならば、特徴量算出部30は、処理領域中の局所領域位置及び特徴量種別については、第2辞書記憶部110に記憶されている処理パラメータを参照する。このときに算出される局所領域の特徴量は、登録処理時に選択し、第2辞書記憶部110に記憶された物体辞書の局所領域位置及び特徴量種別にもとづくものであり、認識対象に適切なものになっている。
次に、尤度算出部40は、登録処理時のステップS106の処理と同様にして特徴量算出部30で算出された特徴量から第2辞書記憶部110に予め記憶されている物体辞書を用いて認識対象である物体の尤度を求める(ステップS205)。
続いて、尤度算出部40は、全ての局所領域について尤度を求める処理をしたか否かを判別する(ステップS206)。このとき、全ての局所領域について尤度を求める処理をしたと判断した場合には、尤度算出部40は、ステップS207に処理を移す。他方、全ての局所領域について尤度を求める処理をしていないと判断した場合には、尤度算出部40は、ステップS204に処理を移す。なお、尤度算出部40は、最終的な認識対象の物体の尤度Cを上述の(式2)で求める。
このように、情報処理装置は、第2辞書記憶部110に記憶されている局所領域数に従ってステップS204及びステップS205の処理を繰り返し、複数の特徴量を組合せることで、より精度良く物体の認識を行うことができる。
続いて、物体判別部50は、照合対象の部分画像の画像パターンを認識対象の物体であるか否かを判別する(ステップS208)。ここで、物体判別部50は、ステップS207で取得した尤度Cが所定の閾値Tよりも大きい場合は、照合対象の部分画像の画像パターンを認識対象の物体であると判別し、ステップS209に処理を移す。他方、所定の閾値T以下の場合は、物体判別部50は、照合対象の部分画像の画像パターンを認識対象の物体でないと判別し、ステップS203に処理を移す。閾値Tは、第2辞書記憶部110に予め記憶されている尤度閾値であり、辞書切替部70を介して参照される。
このように、判別手段の一例である特徴量算出部30、尤度算出部40、物体判別部50等は、入力画像と、既に選択されている登録画像に係る物体に関わりが深い物体辞書との照合を行う。そして、判別手段は、照合の結果に基づいて、入力画像に係る物体が登録画像に係る物体であるか否かを判別する。
なお、認識結果記憶部65に保存される後述の追加学習で用いられる認識結果としては、尤度テーブルを更新可能なデータであれば特徴量そのものでなくてもよい。例えば、特徴量から尤度テーブルを参照する際のインデックスであってもよい。
他方、ステップS208で処理領域における画像パターンが認識対象である物体でないと判別された場合には、ステップS209の処理は、スキップされる。
続いて、認識結果記憶部65は、縮小画像の全域、及び全ての縮小画像について処理が行われているか否かを判別する(ステップS210)
ここで、縮小画像の全域、及び全ての縮小画像について処理が行われている場合には、認識結果記憶部65は、ステップS211に処理を移す。他方、縮小画像の全域、及び全ての縮小画像について処理が行われていない場合には、認識結果記憶部65は、ステップS203に処理を移す。
すなわち、情報処理装置は、以上説明したステップS203からステップS209までの処理を、画像中から照合する画像パターンの切り出し位置を、縮小画像の全域から縦横順次に走査していくことにより、繰返し行う。また、情報処理装置は、ステップS203からステップS209までの処理を、ステップS202で作成された各縮小画像について順次、繰返し行う。
次に、更新手段の一例である追加学習部90は、ステップS209で認識結果記憶部65に認識結果が保存された場合に、第2辞書記憶部110に記憶されている物体辞書を更新するために追加学習処理を行う(ステップS211)。
例えば、登録時に「犬」の画像をもとに選択された「犬」の物体辞書に対して、ステップS209で保存された「犬」の認識結果を用いて追加学習が行われる。ここで、追加学習処理は、公知の方法が用いられる(非特許文献1等、参照のこと。)。
最初に、追加学習部90は、弱判別器の更新を行う。ここで、弱判別器とは、処理領域内の局所領域の特徴量ごとに認識対象の物体であるか否かを判別するものである。弱判別器の更新とは、追加学習部90が認識対象の物体である処理領域の局所領域の特徴量を用いて認識対象の物体の特徴量fkの確率分布Pr(fk|I+)の更新を行うことを意味する。また、追加学習部90は、認識対象の物体でない処理領域の局所領域の特徴量を用いて非認識対象の物体の特徴量fkの確率分布Pr(fk|I−)の更新も行う。追加学習部90は、認識対象の物体である処理領域の局所領域の特徴量として、ステップS209において保存した物体と判定された処理領域の局所領域の特徴量を用いる。また、追加学習部90は、認識対象の物体でない処理領域の局所領域の特徴量として、物体と判定された処理領域の周辺領域の物体でないと判定された処理領域の局所領域の特徴量を用いる。
次に、追加学習部90は、更新した弱判別器をもとに最も判別性能のよい弱判別器を抽出する。更に、追加学習部90は、特徴量を用いた処理領域ごとの重みを更新して所定回数分、弱判別器の更新と抽出とを繰り返す。そして、追加学習部90は、抽出した弱判別器を判別性能に応じて組合せるようにして物体辞書として更新する。
なお、非特許文献1では、追加したサンプルごとに追加学習をするようにしているが、追加学習部90は、複数の処理領域を同時に学習サンプルとして追加し、学習を行うようにしてもよい。
本処理での追加学習の結果は、第2辞書記憶部110における処理パラメータに反映される。すなわち、追加学習部90は、抽出した弱判別器の数を局所領域数として、夫々の弱判別器を局所領域位置、特徴量種別、及び尤度テーブルとして反映する。また、追加学習部90は、尤度閾値を適切な値に更新する。
また、認識結果出力部60は、認識処理の対象があるか否か、すなわち処理を終了するか否かを判別する(ステップS213)。このとき、認識処理の対象がある場合には、認識結果出力部60は、ステップS201に処理を移す。他方、認識処理の対象がない場合には、認識結果出力部60は、処理を終了する。
すなわち、以上説明したステップS201からステップS212までの処理が、認識処理の終了時まで画像入力部10で順次画像が取得されて繰り返される。ここで、継続して認識及び追加学習を行う場合には、ステップS211で追加学習し、第2辞書記憶部110に反映された処理パラメータを用いて、ステップS202からステップS212までの処理が行われる。そして、追加学習の繰返しと共に、物体辞書は、高精度な認識が可能な物体辞書にカスタマイズされていく。
したがって、画像中の処理領域や特徴量を予め指定することなく高精度の認識を行うことができる。例えば、「犬」の認識及び学習を行う際に認識結果として最も尤度の高い物体辞書を選択することにより、複数の物体辞書から元々「犬」の認識を行うための識別性能の高い「犬」の物体辞書を選択でき、追加学習を行える。そして、追加学習によって登録に用いた特定の「犬」に対する認識精度を向上させることができる。
なお、本実施形態では、「犬」の追加学習を行う際に、予め用意する物体辞書として「犬」の辞書を備えることを前提として説明したが、必ずしも「犬」の物体辞書を備える必要はない。例えば、「ペット(犬・猫)」といった犬・猫を中心としたペットとなり得る四足歩行の哺乳類を認識するような物体辞書を代わりに用意しておいてもよい。その場合、尤度の高い物体辞書として「ペット(犬・猫)」が選択され、「ペット(犬・猫)」の物体辞書を追加学習で「犬」の物体辞書にカスタマイズできる。
また、認識対象を登録する際に認識対象に対応する物体辞書が選択できなかった場合(例えば「犬」の登録時に「犬」でなく「猫」の物体辞書を選択した場合)であっても、登録した認識対象に対して尤度の高い物体辞書が選択されている。よって、この構成によれば、追加学習で高精度の認識が可能な「犬」の物体辞書にカスタマイズできる。
そこで、この問題を解決するために、様々な物体の認識において処理を共通化する認識の処理方式が提案されている(例えば、参考文献3を参照のこと。)。このような認識の方式を利用することにより、認識したい物体に応じて辞書を切替えれば様々な物体の認識が可能になる。
しかしながら、この技術においても、撮影を行うユーザ毎に認識したい対象は様々であり、全ての物体に対応する辞書を予め用意することは困難であるといった問題がある。
このような問題を解決するために、本実施形態では、オンライン学習を採用している。
参考文献2:Rowley et al, "Neural network-based face detection", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.20 , NO.1, JANUARY 1998
参考文献3:柳井、「一般物体認識の現状と今後」、情報処理学会論文誌、Vol.48, No.SIG_16(CVIM_19), 2007.11.15
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
Claims (7)
- 物体に係る画像データを取得する取得手段と、
前記取得手段で取得された物体に係る第一の画像データと、記憶装置に記憶されている複数の物体辞書データの各々との照合を行い、照合の結果に基づいて、前記複数の物体辞書データから前記第一の画像データに係る物体に関する物体辞書データを選択する選択手段と、
前記取得手段で取得された物体に係る第二の画像データと、前記選択手段で選択された物体辞書データとの照合を行い、照合の結果に基づいて、前記第二の画像データに係る物体を判別する判別手段と、
前記判別手段での前記判別の結果に応じて、前記選択手段で選択された物体辞書データを更新する更新手段と、
を有する、情報処理装置。 - 前記選択手段は、前記記憶装置に記憶されている各物体辞書データに含まれる尤度に係る情報に基づいて、前記第一の画像データに係る物体に関する尤度を照合の結果として物体辞書データごとに算出し、算出した尤度のうち、最も高い尤度に対応する物体辞書データを、前記第一の画像データに係る物体に関する物体辞書データとして選択する、請求項1記載の情報処理装置。
- 前記判別手段は、前記選択手段で選択された物体辞書データに含まれる尤度に係る情報に基づいて、前記第二の画像データに係る物体に関する尤度を照合の結果として算出し、算出した尤度に基づいて、前記第二の画像データに係る物体を判別する、請求項1又は2記載の情報処理装置。
- 前記記憶装置に記憶されている各物体辞書データに含まれる尤度に係る情報は、予め機械学習によって求められた特徴量の確率分布を表す情報を含み、
前記判別手段は、前記選択手段で選択された物体辞書データに含まれる特徴量に係る情報に基づいて、前記第二の画像データに係る物体に関する特徴量を算出し、算出した特徴量と、前記選択手段で選択された物体辞書データに含まれる尤度に係る情報とに基づいて、前記第二の画像データに係る物体に関する尤度を照合の結果として算出し、算出した尤度に基づいて、前記第二の画像データに係る物体が前記第一の画像データに係る物体であるか否かを判別し、
前記更新手段は、前記判別手段で前記第二の画像データに係る物体が前記第一の画像データに係る物体であると前記判別手段で判別された場合には、前記算出された特徴量に基づいて、前記選択手段で選択された物体辞書データに含まれる特徴量の確率分布を表す情報を更新する、請求項1乃至3の何れか1項記載の情報処理装置。 - 前記判別手段で前記第二の画像データに係る物体が前記第一の画像データに係る物体であると前記判別手段で判別された場合には、前記第二の画像データに係る画像と共に、前記第二の画像データに係る物体を表す領域を出力装置に出力する出力手段を更に有する、請求項1乃至4の何れか1項記載の情報処理装置。
- 物体に係る画像データを取得する取得ステップと、
前記取得ステップで取得された物体に係る第一の画像データと、記憶装置に記憶されている複数の物体辞書データの各々との照合を行い、照合の結果に基づいて、前記複数の物体辞書データから前記第一の画像データに係る物体に関する物体辞書データを選択する選択ステップと、
前記取得ステップで取得された物体に係る第二の画像データと、前記選択ステップで選択された物体辞書データとの照合を行い、照合の結果に基づいて、前記第二の画像データに係る物体を判別する判別ステップと、
前記判別ステップでの前記判別の結果に応じて、前記選択ステップで選択された物体辞書データを更新する更新ステップと、
を有する、情報処理方法。 - コンピュータを、
物体に係る画像データを取得する取得手段と、
前記取得手段で取得された物体に係る第一の画像データと、記憶装置に記憶されている複数の物体辞書データの各々との照合を行い、照合の結果に基づいて、前記複数の物体辞書データから前記第一の画像データに係る物体に関する物体辞書データを選択する選択手段と、
前記取得手段で取得された物体に係る第二の画像データと、前記選択手段で選択された物体辞書データとの照合を行い、照合の結果に基づいて、前記第二の画像データに係る物体を判別する判別手段と、
前記判別手段での前記判別の結果に応じて、前記選択手段で選択された物体辞書データを更新する更新手段と、
して機能させるプログラム。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009240820A JP5366756B2 (ja) | 2009-10-19 | 2009-10-19 | 情報処理装置及び情報処理方法 |
| US12/903,584 US8634656B2 (en) | 2009-10-19 | 2010-10-13 | Recognizing objects by utilizing dictionary data and probability data determined by machine learning |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009240820A JP5366756B2 (ja) | 2009-10-19 | 2009-10-19 | 情報処理装置及び情報処理方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2011086261A JP2011086261A (ja) | 2011-04-28 |
| JP5366756B2 true JP5366756B2 (ja) | 2013-12-11 |
Family
ID=43879333
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2009240820A Active JP5366756B2 (ja) | 2009-10-19 | 2009-10-19 | 情報処理装置及び情報処理方法 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US8634656B2 (ja) |
| JP (1) | JP5366756B2 (ja) |
Families Citing this family (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102592147A (zh) * | 2011-12-30 | 2012-07-18 | 深圳市万兴软件有限公司 | 一种人脸检测的方法和装置 |
| JP5612645B2 (ja) * | 2012-09-06 | 2014-10-22 | 東芝テック株式会社 | 情報処理装置及びプログラム |
| JP5764592B2 (ja) * | 2013-02-22 | 2015-08-19 | 東京エレクトロン株式会社 | 基板処理装置、基板処理装置の監視装置及び基板処理装置の監視方法 |
| DE102013217827A1 (de) * | 2013-09-06 | 2015-03-12 | Robert Bosch Gmbh | Verfahren und Steuergerät zum Erkennen eines Objekts in einer Bildinformation |
| JP6351240B2 (ja) | 2013-11-20 | 2018-07-04 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
| JP6482195B2 (ja) * | 2014-07-02 | 2019-03-13 | キヤノン株式会社 | 画像認識装置、画像認識方法及びプログラム |
| US9864750B2 (en) | 2014-12-31 | 2018-01-09 | Konica Minolta Laboratory U.S.A., Inc. | Objectification with deep searchability |
| US9798724B2 (en) | 2014-12-31 | 2017-10-24 | Konica Minolta Laboratory U.S.A., Inc. | Document discovery strategy to find original electronic file from hardcopy version |
| US10339422B2 (en) | 2015-03-19 | 2019-07-02 | Nec Corporation | Object detection device, object detection method, and recording medium |
| JP6664163B2 (ja) | 2015-08-05 | 2020-03-13 | キヤノン株式会社 | 画像識別方法、画像識別装置及びプログラム |
| KR101825459B1 (ko) * | 2016-08-05 | 2018-03-22 | 재단법인대구경북과학기술원 | 다중 클래스 객체 검출 장치 및 그 방법 |
| JP6942488B2 (ja) * | 2017-03-03 | 2021-09-29 | キヤノン株式会社 | 画像処理装置、画像処理システム、画像処理方法、及びプログラム |
| US11823428B2 (en) * | 2020-02-19 | 2023-11-21 | Canon Kabushiki Kaisha | Image processing apparatus and control method therefor, image capturing apparatus, and storage medium |
| JP7536464B2 (ja) * | 2020-02-19 | 2024-08-20 | キヤノン株式会社 | 画像処理装置、撮像装置、画像処理方法およびプログラム |
| CN111898413A (zh) * | 2020-06-16 | 2020-11-06 | 深圳市雄帝科技股份有限公司 | 人脸识别方法、装置、电子设备和介质 |
| JP7604268B2 (ja) * | 2021-02-26 | 2024-12-23 | キヤノン株式会社 | 画像処理装置、撮像装置、画像処理方法およびプログラム |
Family Cites Families (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10336705A (ja) * | 1997-06-02 | 1998-12-18 | Canon Inc | 複眼カメラ |
| AU1365699A (en) * | 1997-10-27 | 1999-05-17 | Imagen Incorporated | Image search and retrieval system |
| JP3720747B2 (ja) * | 2001-09-28 | 2005-11-30 | キヤノン株式会社 | 画像形成システム及び画像形成装置、及び画像形成方法 |
| CN1241106C (zh) * | 2001-10-09 | 2006-02-08 | 佳能株式会社 | 打印装置及其控制方法 |
| JP4323748B2 (ja) * | 2002-02-21 | 2009-09-02 | キヤノン株式会社 | デジタルカメラ及びその制御方法、画像処理装置、画像処理方法、画像処理システム |
| US7561288B2 (en) * | 2002-07-05 | 2009-07-14 | Canon Kabushiki Kaisha | Recording system and controlling method therefor |
| JP4250408B2 (ja) * | 2002-11-29 | 2009-04-08 | キヤノン株式会社 | 画像供給デバイス、記録装置及び記録システムとその制御方法 |
| JP4343714B2 (ja) * | 2003-01-31 | 2009-10-14 | キヤノン株式会社 | 通信装置及びその通信制御方法 |
| JP4497941B2 (ja) * | 2003-01-31 | 2010-07-07 | キヤノン株式会社 | 画像供給デバイス及び記録システム及びその制御方法 |
| US7289141B2 (en) * | 2003-01-31 | 2007-10-30 | Canon Kabushiki Kaisha | Image supply device, recording apparatus, recording system, and control method therefor |
| JP4227464B2 (ja) * | 2003-06-04 | 2009-02-18 | キヤノン株式会社 | 画像供給デバイスと記録システム及びその記録制御方法 |
| JP4639037B2 (ja) * | 2003-07-18 | 2011-02-23 | キヤノン株式会社 | 画像処理方法および装置 |
| US7409083B2 (en) * | 2003-07-18 | 2008-08-05 | Canon Kabushiki Kaisha | Image processing method and apparatus |
| US7469072B2 (en) * | 2003-07-18 | 2008-12-23 | Canon Kabushiki Kaisha | Image processing apparatus and method |
| JP4208767B2 (ja) * | 2004-06-03 | 2009-01-14 | キヤノン株式会社 | 画像処理装置及び画像処理方法 |
| JP4367941B2 (ja) * | 2005-01-25 | 2009-11-18 | キヤノン株式会社 | 中継装置、画像供給装置及び印刷システムとその制御方法 |
| JP2007179224A (ja) * | 2005-12-27 | 2007-07-12 | Omron Corp | 情報処理装置および方法、並びにプログラム |
-
2009
- 2009-10-19 JP JP2009240820A patent/JP5366756B2/ja active Active
-
2010
- 2010-10-13 US US12/903,584 patent/US8634656B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| US8634656B2 (en) | 2014-01-21 |
| US20110091116A1 (en) | 2011-04-21 |
| JP2011086261A (ja) | 2011-04-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5366756B2 (ja) | 情報処理装置及び情報処理方法 | |
| US10534957B2 (en) | Eyeball movement analysis method and device, and storage medium | |
| KR100996066B1 (ko) | 얼굴화상 등록 장치, 얼굴화상 등록 방법, 및 기록 매체 | |
| CN109508694B (zh) | 一种人脸识别方法及识别装置 | |
| US8958647B2 (en) | Registration determination device, control method and control program therefor, and electronic apparatus | |
| JP5174045B2 (ja) | 分類器チェーンを用いた照明検出 | |
| JP6351240B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
| JP5361524B2 (ja) | パターン認識システム及びパターン認識方法 | |
| CN107633205B (zh) | 嘴唇动作分析方法、装置及存储介质 | |
| CN111476709A (zh) | 人脸图像处理方法、装置及电子设备 | |
| JP5662670B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
| JP2011511977A (ja) | デジタル画像における顔の表情の検出 | |
| JP2005056387A (ja) | 画像処理装置、撮像装置、画像処理方法 | |
| JP2021503139A (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
| JP2021009493A (ja) | 画像処理装置、画像処理装置の制御方法及びプログラム | |
| Vazquez-Fernandez et al. | Built-in face recognition for smart photo sharing in mobile devices | |
| JP2010146395A (ja) | 画像処理装置、画像処理方法、画像処理プログラム、及び、電子機器 | |
| JP2007025902A (ja) | 画像処理装置、画像処理方法 | |
| JP2006323779A (ja) | 画像処理方法、画像処理装置 | |
| JP4789526B2 (ja) | 画像処理装置、画像処理方法 | |
| JP2016207106A (ja) | 物体検出における誤検出低減方法および装置 | |
| CN112329606B (zh) | 一种活体检测方法、装置、电子设备及可读存储介质 | |
| CN113516089B (zh) | 人脸图像识别方法、装置、设备及可读存储介质 | |
| JP2024056578A (ja) | 画像処理装置、撮影装置、画像処理装置の制御方法及びプログラム | |
| HK1246925A1 (en) | Lip motion analysis method, device and storage medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121019 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130729 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130813 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130910 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 5366756 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
