JP2005092465A - データ認識装置 - Google Patents

データ認識装置 Download PDF

Info

Publication number
JP2005092465A
JP2005092465A JP2003323759A JP2003323759A JP2005092465A JP 2005092465 A JP2005092465 A JP 2005092465A JP 2003323759 A JP2003323759 A JP 2003323759A JP 2003323759 A JP2003323759 A JP 2003323759A JP 2005092465 A JP2005092465 A JP 2005092465A
Authority
JP
Japan
Prior art keywords
recognition
target data
processing
data
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003323759A
Other languages
English (en)
Other versions
JP4543644B2 (ja
Inventor
Sukeji Kato
典司 加藤
Hirotsugu Kashimura
洋次 鹿志村
Hitoshi Ikeda
仁 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2003323759A priority Critical patent/JP4543644B2/ja
Priority to US10/940,983 priority patent/US7593566B2/en
Publication of JP2005092465A publication Critical patent/JP2005092465A/ja
Application granted granted Critical
Publication of JP4543644B2 publication Critical patent/JP4543644B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • G06V10/7515Shifting the patterns to accommodate for positional errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 例えば時系列に連続性をもって変化する動画像等のデータから、所定の部分の認識を短時間で認識できるようにし、実時間の処理を可能とする。
【解決手段】 時系列に変化する処理対象データから、予め定められた認識対象データ部分を第1番目から第n番目まで順次特定するデータ認識装置であって、処理対象データから、所定の処理パラメータを用いて認識対象データ部分を探索処理し、少なくとも、第i番目(1≦i<n)の認識対象データ部分を特定したときの処理パラメータを、認識関係情報として記憶部2に記憶しておき、制御部1が、この記憶されている認識関係情報を、第i+1番目の認識対象データ部分の探索処理における処理パラメータの決定に利用する。
【選択図】 図1

Description

本発明は、画像や音声などの処理対象データから、予め設定された参照データに対応する認識対象データ部分を認識するデータ認識装置に関する。
物体や人物の顔など、認識の対象となった画像を、当該画像を参照データとして用いて認識する処理は、原理的には処理対象となった画像データと、予め保存された上記参照データとの類似度を演算する処理によって実現できる。
しかし、現実の認識対象である画像は、その向き、距離、証明等の環境条件によって大きく変化する。このため、これらの画像の自由度に応じた膨大な数の参照データを保持しておく必要があり、これらとの演算量もまた、膨大なものとなって、実現は困難なものである。
そこで、処理対象となった画像データに含まれる、認証対象の画像の候補を、予め定められた位置、傾き、大きさ等に幾何学的に変換する「正規化」処理を行っておくことで、比較の対象である参照データの数を少なくするとともに、それに係る演算量も低減できる。
ここで正規化の処理方法としては、処理対象の画像データから所定特徴点を抽出し、予め用意された正規化画像の形状モデルに当該特徴点を当てはめる方法が知られている。ここで特徴点は、エッジオペレータを用いる方法が一般的であるが、人物の顔のように表面形状が滑らかなものでは、明瞭なエッジが得られるとは限らなくなり、また、エッジ自体、証明条件の影響を大きく受けやすいので、妥当でないことが多い。
これに対して、非特許文献1には、処理対象となった画像データの濃淡パターンに基づいて直接的に、正規化後の画像からのずれを検出し、その検出結果を用いて正規化の処理を行う技術が開示されている。
Rotation Invariant NeuralNetwork-Based Face Detection, H.A. Rowley, S. Baluja, and T. Kanade,Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,1998, pp.38-44 特開2002−269546号公報
しかしながら、上記非特許文献1に開示の技術を利用するには、例えば傾きを表す角を、すべての角度方向に対して正確に推定する必要がある。すなわち、この非特許文献1に記載の技術を利用するには、多数の学習サンプルを用意する必要があって、学習にかかる処理負荷が大きくなる。
さらに、非特許文献1には、処理対象の画像の変形自由度として画像面内の回転のみが開示されているが、現実の画像の変形自由度にはさらに、深さ方向の回転、大きさ、位置、照明などの多数の自由度が存在するので、上記学習の負荷は、さらに大きいものとなって、現実的な時間内に学習処理を完了することが困難になる。
この事情は、動画像など、時間変化を伴うデータを処理の対象とする場合に、さらに問題となる。例えば動画像から顔部分を実時間に検出する処理としてフレーム間の情報を用いる技術が、特許文献1に開示されている。この特許文献1に記載の技術は、動画を構成する静止画フレームの一つから顔が一旦検出されると、引き続くフレームに対しては、当該検出された顔の位置から平行移動及び回転を施した2次元顔画像を生成して、その画像を参照データとしてマッチングを行うことにしている。
しかしながらこの方法では、顔の移動、回転、大きさといった全自由度に対して参照データを生成しなければ、マッチングによって顔を認識し続けることができない。そこで、この顔認識のために、上記非特許文献1に開示されているような、従来の顔認識処理を行うとすれば、仮に学習が完了できるとしても、すべての自由度について変形した後の画像と、当該学習の結果として得られた参照データとを比較しなければならず、処理負荷が過大なものとなり、動画像から実時間で顔を認識するといった処理は、事実上、実現不能なものであった。
本発明は上記実情に鑑みて為されたもので、認識の対象について変形の自由度が大きい場合にも、正規化のためのデータを、合理的な時間内に学習獲得できる認識装置を提供することを、その目的の一つとする。
また、本発明の別の目的は、動画像など、時系列に連続性をもって変化するデータから、所定の部分を、実時間で認識できる認識装置を提供することである。
上記従来例の問題点を解決するための本発明は、時系列に変化する処理対象データから、予め定められた認識対象データ部分を第1番目から第n番目まで順次特定するデータ認識装置であって、前記処理対象データから、所定の処理パラメータを用いて認識対象データ部分を探索処理する手段と、少なくとも、第i番目(1≦i<n)の認識対象データ部分を特定したときの、前記処理パラメータを、認識関係情報として記憶する手段と、を含み、前記記憶されている認識関係情報が、第i+1番目の認識対象データ部分の前記探索処理における前記処理パラメータの決定に利用されることを特徴としている。
また、上記従来例の問題点を解決するための本発明は、時系列に変化する処理対象データから、予め定められた認識対象データ部分を断続的に特定するデータ認識装置であって、前記処理対象データの少なくとも一部を注目部分として特定する手段と、予め設定された参照データを用いて定義される所定の演算ルールによって、前記注目部分と、前記参照データとの間の類似度を演算する演算手段と、当該類似度に基づいて、前記注目部分が認識対象データ部分であるか否かを判断する認識手段と、前記認識手段により、認識対象データ部分が特定されたときに、前記演算ルールに関する情報と、前記注目部分を特定する情報と、のうち少なくとも一方の情報を記憶する記憶手段と、を含み、前記記憶手段に記憶される情報が、次の前記類似度の演算又は、注目部分の特定の少なくとも一方の処理に供されることを特徴としている。
ここで前記演算手段は、前記注目部分と前記参照データとの類似度を演算する際に、(1)前記注目部分と前記参照データとの類似度を仮演算し、(2)前記仮演算の結果に基づき、前記注目部分を、予め定められた少なくとも一つの変形自由度で変形処理して、当該変形処理後の注目部分を新たな注目部分として設定する、(1),(2)の処理を、前記仮演算された類似度が、予め定められた条件を満足するか、繰り返し回数が所定回数を越えるまで繰り返して行い、前記仮演算された類似度が予め定められた条件を満足した場合に、前記認識手段が、当該仮演算された類似度に基づき、前記注目部分が認識対象データ部分であるか否かを判断し、前記記憶手段が記憶する情報には、前記演算ルールに関する情報として、前記変形処理の内容を特定する情報が含まれることとしてもよい。
さらに前記演算手段は、前記(2)の処理における変形処理を行う際に、前記注目部分を、互いに異なる少なくとも一つの変形自由度で変形処理して、複数の変形処理結果を得ておき、前記複数の変形処理結果のうち、所定の選択ルールに基づいて、一つの変形処理結果を選択し、当該選択した変形処理結果としての、変形処理後の注目部分を新たな注目部分として設定する、こととしてもよい。
また、上記従来例の問題点を解決するための本発明は、時系列に変化する一連の処理対象データについて、少なくとも一部の処理対象データ内において予め定められた認識対象データ部分を特定するデータ認識装置であって、前記一連の処理対象データのうち、一つの処理対象データを選択する手段と、前記選択された処理対象データの少なくとも一部を注目部分として特定する手段と、予め設定された参照データを用いて定義される所定の演算ルールによって、前記注目部分と、前記参照データとの間の類似度を演算する演算手段と、当該類似度に基づいて、前記注目部分が認識対象データ部分であるか否かを判断する認識手段と、前記認識手段により、認識対象データ部分が特定されたときに、前記演算ルールに関する情報と、前記注目部分を特定する情報と、のうち少なくとも一方の情報を記憶する記憶手段と、を含み、前記記憶手段に記憶される情報が、次に選択される処理対象データ内の注目部分に対する前記類似度の演算又は、次に選択される処理対象データ内の注目部分の特定の少なくとも一方の処理に供されることを特徴としている。
さらに、上記従来例の問題点を解決するための本発明は、時系列に変化する処理対象データから、予め定められた認識対象データ部分を第1番目から第n番目まで順次特定するデータ認識方法であって、記憶手段を備えたコンピュータを用い、前記処理対象データから、所定の処理パラメータを用いて認識対象データ部分を探索処理する工程と、少なくとも、第i番目(1≦i<n)の認識対象データ部分を特定したときの、前記処理パラメータを、認識関係情報として、前記記憶手段に記憶する工程と、を実行させ、前記記憶されている認識関係情報が、第i+1番目の認識対象データ部分の前記探索処理における前記処理パラメータの決定に利用されることを特徴とする。
さらに、上記従来例の問題点を解決するための本発明は、時系列に変化する処理対象データから、予め定められた認識対象データ部分を断続的に特定するデータ認識方法であって、前記処理対象データの少なくとも一部を注目部分として特定する工程と、予め設定された参照データを用いて定義される所定の演算ルールによって、前記注目部分と、前記参照データとの間の類似度を演算する工程と、当該類似度に基づいて、前記注目部分が認識対象データ部分であるか否かを判断する工程と、前記認識対象データ部分が特定されたときに、前記演算ルールに関する情報と、前記注目部分を特定する情報と、のうち少なくとも一方の情報を、記憶手段に記憶する工程と、を含み、前記記憶手段に記憶される情報が、次の前記類似度の演算又は、注目部分の特定の少なくとも一方の処理に供されることを特徴としている。
さらに、上記従来例の問題点を解決するための本発明は、時系列に変化する処理対象データから、予め定められた認識対象データ部分を第1番目から第n番目まで順次特定するデータ認識プログラムであって、コンピュータに、前記処理対象データから、所定の処理パラメータを用いて認識対象データ部分を探索処理する手順と、少なくとも、第i番目(1≦i<n)の認識対象データ部分を特定したときの、前記処理パラメータを、認識関係情報として、前記記憶手段に記憶する手順と、前記記憶されている認識関係情報に基づき、第i+1番目の認識対象データ部分の前記探索処理における前記処理パラメータを決定する手順と、を実行させることを特徴としている。
さらに、上記従来例の問題点を解決するための本発明は、時系列に変化する処理対象データから、予め定められた認識対象データ部分を断続的に特定するデータ認識プログラムであって、コンピュータに、前記処理対象データの少なくとも一部を注目部分として特定する手順と、予め設定された参照データを用いて定義される所定の演算ルールによって、前記注目部分と、前記参照データとの間の類似度を演算する手順と、当該類似度に基づいて、前記注目部分が認識対象データ部分であるか否かを判断する手順と、前記認識対象データ部分が特定されたときに、前記演算ルールに関する情報と、前記注目部分を特定する情報と、のうち少なくとも一方の情報を、記憶する手順と、を実行させ、前記記憶される情報を、次の前記類似度の演算又は、注目部分の特定の少なくとも一方の処理に供されるよう、前記コンピュータを制御することを特徴としている。
以下、本発明の実施の形態に係る認識装置について、図面を参照ながら詳細に説明する。本実施の形態のデータ認識装置は、図1に示すように、制御部1と、記憶部2と、入出力部3とを含んで構成されている。制御部1は、記憶部2に格納されているプログラムに従って動作し、時系列に変化する処理対象データから、予め定められた認識対象データ部分を断続的に特定する処理を行っている。この処理の具体的内容については、後に述べる。
記憶部2は、制御部1によって実行されるプログラムを格納したコンピュータ可読な記録媒体である。また、この記憶部2は、制御部1における処理の過程で生成される種々の情報を格納する、ワークメモリとしても動作する。
入出力部3は、外部の装置から入力されるデータ(時系列に変化する処理対象データ)を制御部1に出力する。また、この入出力部3は、制御部1から入力される指示に従って、種々の情報を外部の装置に出力する。
次に、制御部1によって行われる処理の内容について説明する。ここでは動画像データの中から人間の顔を認識対象として特定する処理を例として説明する。この処理は、機能的には、図2に示すように、認識条件設定部11と、認識処理部12と、記憶処理部13とを含んで構成される。
認識条件設定部11は、記憶部2に格納された以前の認識処理に関する情報(認識処理関係情報)に基づいて、処理パラメータを生成し、この生成した処理パラメータを認識処理部12に対して出力する。認識処理部12は、認識条件設定部11から入力された処理パラメータを用い、処理対象となった画像データ中から認識の対象となった顔部分(認識対象部分)を特定する。記憶処理部13は、認識処理部12において顔部分が認識されたときに、当該顔の位置、大きさ、角度などの処理パラメータに相当する情報を、認識処理関係情報として記憶部2に格納する。
[認識処理部の例]
ここで認識処理部12の具体的構成の例について説明する。この認識処理部12は、本実施の形態の装置に用いるだけでなく、他の処理においても利用可能な汎用のものであり、具体的には、次に例示するような構成を有している。
図3は、認識処理部12の機能ブロック図である。同図に示すように、認識処理部12は、画像入力部21と、画像保持部22と、類似度計算部23と、判定部24と、複数の画像変形度推定部25(25−1〜25−n)と、複数の画像変形部26(26−1〜26−n)と、画像変形調停部27とを具備して構成される。この認識処理部12は、汎用のものであり、本実施の形態の装置に用いる際の設定等については、後から説明する。
画像入力部21は、処理の対象となる画像データを受け入れるもので、例えば、CCDカメラ等の外部装置から入出力部13を介して入力される画像データを画像保持部22に出力する。画像保持部22は、画像入力部21から入力された処理対象の画像データを記憶部2に格納して保持する。この画像データは、例えば画像データを構成する各画素の輝度を成分とし、画素数の次元を持つベクトルパターンとして保持される。保持された画像データは画像変形部26により適宜変形され、変形された画像データは再び画像保持部22に保持される。
類似度計算部23は、画像保持部22に保持された画像データと、参照データとしてのテンプレート画像との類似度を計算する。類似度は、画像保持部22に保持された画像データとテンプレート画像の間のユークリッド距離、すなわち対応する画素の輝度の差の2乗和の平方根や、複数のテンプレート画像の分布を近似した部分空間と、画像保持部22に保持された画像データとの距離などを用いて表すことができる。例えば、これらの距離の逆数を類似度とすれば、これらの距離が小さいほど類似度が大きいことになる。また、類似度計算部23は、後述する推定誤差評価部34と兼ねることもできる。
判定部24は、類似度計算部23によって計算された類似度を予め定められた閾値と比較し、類似度が閾値より大きい場合に対象物が参照物と同一であると判定する。
画像変形度推定部25(25−1〜25−n)のそれぞれは、互いに異なる画像変形の自由度に対応して設けられており、その各々は、対応する自由度に関して、画像保持部22に保持された画像が、テンプレート画像からどれくらい変形しているかを推定する。ここで画像変形の自由度としては、例えば、位置の移動、回転、拡大縮小などが挙げられる。またこの画像変形度推定部25は、推定した画像変形の精度も評価して出力する。この画像変形度推定部25の動作については、後に詳しく述べる。
画像変形部26(26−1〜26−n)のそれぞれは、画像変形度推定部25(25−1〜25−n)と1対1に対応して設けられ、画像保持部22に保持された画像を変形してテンプレート画像に近づける処理を行う。この画像変形部26の画像変形操作の自由度は、それぞれ対応した画像変形度推定部25の画像変形自由度と同じであり、変形操作量は対応した画像変形度推定部25からの画像変形度推定値とその精度に応じて決められる。変形操作量は画像変形度推定値に減速因子を乗じた値とする。減速因子は推定値誤差が「0」のとき「1」で、推定値誤差が大きくなるにつれ「0」に近づくようにする。画像変形操作の方向は画像保持部22に保持された画像がテンプレートに近づく方向とする。すなわち推定誤差が小さいほど少ない画像操作で画像保持部22に保持された画像がテンプレート画像に近づくことになる。
具体的に、この画像変形部26は、処理対象となった画像データのうちから一部矩形内の画像部分を注目部分として画定し、当該画定した注目部分の画像を上記自由度で変形する。この際、画像変形部26は、例えば上記注目部分を画定する矩形を、上記自由度で変形することで、当該矩形によって画定される注目部分に対応する画像を変形してもよい。すなわち、処理対象となった画像データを原画像として、そこからの画像の取り出し方を上記自由度で変更してもよい。また、注目部分として原画像から抽出された画像部分に対して、上記自由度に対応する画像処理を行い、注目部分に対応する画像を変形してもよい。さらに、これらを組み合せて、画定のための矩形と、それによって抽出される画像との双方を変形することとしてもよい。
画像変形調停部27は、画像変形部26のそれぞれによる画像操作を調停する。調停は各画像変形度推定部25が出力する画像変形度推定値の推定値誤差によってなされ、この値が小さい順に(すなわち推定値誤差の小さい順に)、N(Nは「1」以上の整数)個の画像変形度推定部25に対応する画像変形部26だけを動作させる。また、画像変形調停部27は、上記N個の画像変形度推定部25のうち、出力する画像変形推定値が一定値以下であるものについては、それに対応する画像変形部26は動作させないこととしてもよい。ここで上記整数Nは、予め定めておいてもよいし、予め定めたしきい値より小さい推定値誤差を出力している画像変形度推定部25の数としておいてもよい。
次に、画像変形度推定部25の構成について詳しく説明する。図4は、画像変形度推定部25の具体的な構成を示した図である。同図に示すように、画像変形度推定部25は、それぞれ、特徴パターン生成部31と部分空間射影計算部32と変形度推定部33と推定誤差評価部34とを具備して構成される。
特徴パターン生成部31は、画像保持部22から画像データを表すベクトルパターンを読出して、これから予め定められた変換により特徴パターンを生成する。この変換の方法は、例えば、ベクトルパターンに対してフーリエ変換やウェーブレット変換を行う方法や、有限個の基底ベクトルにベクトルパターンを射影する方法などがある。ここで射影先となる基底ベクトルは、多数の任意の画像データを主成分解析して得た、固有値の大きいベクトルの組として求め得る。
部分空間射影計算部32は、予め学習して獲得された、参照データの特徴パターンの分布を近似する部分空間を特定する情報を保持しており、特徴パターン生成部31から特徴パターンが入力されたとき、この特徴パターンを上記部分空間に射影し、その射影の部分空間上の座標系における座標値を出力する。ここで特徴パターンの部分空間への射影ベクトルとは、特徴パターンともっとも距離が近くなる部分空間上の点と定義する。実世界での特徴パターンの変動は非常に複雑なため、その変動を近似するためには、部分空間は、非線形空間であることが好ましい。
このような非線形の部分空間は、例えば、図5に示すような、オートエンコーダと呼ばれるニューラルネットによって表現することが可能である。オートエンコーダは多層パーセプトロンの一種であり、図5のように入力層41のニューロン数nと出力層42のニューロン数nとは同じであり、中間層43のニューロン数は入力層41のニューロン数nより少なくなっている。そして入力層41に入力された値に対し、それと同じ値を教師信号として出力層42のニューロンに与え、恒等写像を実現するように各シナプス結合の重みを学習させる。学習は通常のバックプロパゲーション法で行うことができる。
こうして学習されたオートエンコーダの出力層42の出力は、図6に示すように、入力を表すn次元空間内で学習サンプル51の分布を近似する非線形部分空間52を構成し、オートエンコーダの中間層43のニューロンの出力は、非線形部分空間52上の座標系54での座標成分に対応する。従って、特徴パターン53を学習後のオートエンコーダに入力した時の出力層42の出力は、特徴パターン53の非線形部分空間52への射影55となり、中間層43のニューロンの出力54がその射影ベクトルを非線形部分空間52上の座標系で表したものとなる。
変形度推定部33は、この部分空間射影計算部32が出力する特徴パターンの部分空間への射影と、画像変形度との間の関係を予め学習している。変形度推定部33は、この学習結果を用いて、部分空間への射影値から画像変形度を求めて出力する。部分空間への射影と画像変形度の関係は、例えば、部分空間が中間層43のニューロン数が「2」のオートエンコーダで表され、自由度が回転の場合、図7に示すような関係となる。
図7は、中間層43の2つのニューロンの出力を2次元にプロットしたものであり、その軌跡は画像の回転角に応じて閉曲線を描いている。この閉曲線上の点と画像の回転角は1対1に対応しているため、中間層43の2つのニューロンの出力から画像の回転角を推定することができる。このような中間層43のニューロンの出力と画像変形度の関係は、変形度推定部33中に近似関数として保存してもよいし、ルックアップテーブルとしてメモリ(不図示)に保存してもよい。この場合、変形度推定部33は、この保存された関係に基づいて画像変形度を求める。
推定誤差評価部34は、特徴パターン53と非線形部分空間52との距離d(図6を参照)を計算し、この距離dを変形度推定部33において推定された画像変形度の精度として出力する。ここで特徴パターン53と非線形部分空間52との距離とは特徴パターン53とその非線形部分空間52上への射影ベクトル55のユークリッド距離であり、例えば、非線形部分空間52がオートエンコーダで表現されている場合、オートエンコーダの入力と出力の間のユークリッド距離で表すことができる。なお、特徴ベクトル53と非線形部分空間52との距離が小さいほど、特徴ベクトル53が非線形部分空間52によって良く近似できているとみなせるため、画像変形度の精度としてdを用いることは妥当である。もちろん、距離dの代わりに、この距離dに関する任意の単調増加関数を用いても構わない。
次に、図3に示した認識処理部12を学習させるための学習サンプルについて説明する。以下では簡単のため、認識の対象となる画像は、その傾きと観測者の視野内での位置は変化するが、観測者からの距離は変化しないとする。すなわち、認識の対象となる画像の変形の自由度は例えば画像面内の回転と画像面内の移動のみが許されるとする。なお、この簡単化は説明のためであって、実際にはこの他の自由度を許すことも可能である。
この認識処理部12の例では、各変形自由度に対して一つの画像変形度推定部25を設ける。従ってここでは上記簡単化された画像の変形の自由度に対応して、2つの画像変形度推定部25を用意し、そのうち第1の画像変形度推定部25−1には画像面内の回転を、第2の画像変形度推定部25−2には画像面内の移動を担当させる。
第1の画像変形度推定部25−1のための学習サンプルは、観測者の視野の中央に位置し、正立した状態となっている対象についての複数の画像を用意し、これらに対してそれぞれ回転およびシフトを施した複数の画像であり、回転角は図8(a)のように例えば−180度から180度までの一様乱数で変化させ、シフト量は図8(a)のように縦方向および横方向に例えば幅6ピクセルのガウス分布の乱数で変化させることとすればよい。サンプル数は例えば1000画像用意する。
同様に、第2の画像変形度推定部25−2のための学習サンプルは、観測者の視野の中央に位置し、正立した状態となっている対象についての複数の画像を用意し、これらに対し回転およびシフトを施した複数の画像であり、その回転角は図8(b)のように例えば幅10度のガウス分布の乱数で変化させ、シフト量は図8(b)のように縦方向および横方向に例えば−6ピクセルから6ピクセルまでの一様乱数で変化させることとすればよい。サンプル数は、例えば1000画像用意する。
このように、ここで示した認識処理部12によれば、認識したい画像変形の自由度につき、ほぼ同数の学習サンプルを用意すればよく、図9に示すように、学習サンプル数は画像変形の自由度と比例関係にある。なお、この図9に併せて示すように、従来技術によると、認識したい画像変形の自由度すべての組み合わせに対して学習サンプルを用意する必要があるため、学習サンプル数は画像変形の自由度に対して級数的に増大する。つまり、この認識処理部12によれば、特に画像変形の自由度が多くなった場合に、学習サンプルが従来技術のものに比べて少なくすみ、学習時間も短時間となる。また、学習サンプルが多いほど学習サンプルの分布を近似する部分空間を表現するリソース(例えば、オートエンコーダの場合では、中間層のニューロン数やシナプスの数)も増大し、それにつれて認識時の演算時間も増大するので、この認識処理部12はリソースの削減や認識時間の短縮の効果もある。
[学習時動作]
次に、図3に示した認識処理部12の学習時の動作を説明する。図10は、認識処理部12の学習時の動作の流れを示すフローチャートである。
学習処理は、第1の画像変形度推定部25−1と第2の画像変形度推定部25−2に対して独立に行うことができ、学習の処理の内容は略同様であるため、ここでは第1の画像変形度推定部25−1の学習について説明する。
まず制御部1が、第1の画像変形度推定部25−1のオートエンコーダを初期設定する(ステップ101)。初期設定は、入力層および出力層のニューロン数を特徴パターンの次元数に設定し、第3層のニューロン数を画像回転の自由度である「2」に設定する。第2層および第4層のニューロン数は、特徴パターンの次元数以上に設定する。さらに各シナプスの重みを乱数によって初期化する。
次に、例えば、27×27画素の学習サンプル(サンプル画像データ)を画像入力部21に入力し、これを各画素の輝度値を成分とする729次元のベクトルの形で画像保持部22に保持する(ステップ102)。続いて、画像保持部22に保持されたサンプル画像データを制御部1が読出して、特徴パターン生成部21−1の処理を行い、予め定められた次元数、例えば50次元の線形部分空間に、サンプル画像データを射影し、50次元の特徴パターンに変換する(ステップ103)。ここで、予め定められた線形部分空間は、例えば、多数の任意の27×27画素のサンプル画像データを主成分解析して得られた上位50個の固有ベクトルを基底とする部分空間とすればよい。この部分空間への射影は、ベクトルの大きさをほぼ保ったまま情報量を圧縮する効果がある。
次に、制御部1は、特徴パターンをオートエンコーダに入力し、同時にオートエンコーダの教師信号として与える。そして広く知られたバックプロパゲーション法によってオートエンコーダの出力と教師信号の2乗誤差が少なくなるように各シナプスの重みを更新することで、部分空間の学習を行う(ステップ104)。そして、オートエンコーダの出力と教師信号の2乗誤差を全学習サンプルにわたって平均し、この値が規定値より小さくなったかを判断し(ステップ105)、小さくなっていない場合は(NOの場合は)ステップ102に戻って処理を続ける。また、ステップ105で小さくなっていれば(YESならば)、ステップ106に進む。これにより、オートエンコーダの出力と教師信号の2乗誤差を全学習サンプルにわたって平均した値が規定値より小さくなるまで学習が継続される。部分空間の学習が収束し、2乗誤差が規定値より小さくなった場合、つまりステップ105でYESとなった場合は、ステップ106に進んで画像変形度推定部25−1の学習を行う。
画像変形度推定部25−1の学習では、再び学習サンプルを入力し(ステップ106)、学習サンプルを特徴パターンに変換し(ステップ107)、特徴パターンをオートエンコーダに入力して射影値の計算を行う(ステップ108)。そして、オートエンコーダの中間層の2つのニューロンの出力を画像変形度推定部25−1に入力するとともに、学習サンプルを生成する際に施した回転の角度も同時に入力し(ステップ109)、画像変形度推定部25−1の学習結果として中間層の2つのニューロンの出力に対する回転の角度のルックアップテーブルを作成する(ステップ110)。以上の処理を全学習サンプルに対して行い(ステップ111でNO)、全学習サンプルに対して処理が終了すると(ステップ111でYES)、学習を完了する。
なお、ここでは、画像変形度推定部25をそれぞれ独立に学習させる場合について説明したが、各画像変形度推定部25を互いに関連させて学習を行わせることができる。この学習方法としては、例えば、学習サンプルを全ての画像変形度推定部25に入力し、最良の結果(距離が最小)を得た画像変形度推定部25にのみ学習を行わせ、これを繰り返すようにする。
[認識処理時の動作]
次に、図3に示した認識処理部12の認識時の動作を説明する。図11および図12は、認識処理部12の認識時の動作の流れを示すフローチャートである。
認識処理では、まず、処理対象となる画像データ(例えばm×n画素)が画像入力部21に入力され、画像保持部22が、各画素の輝度値を成分とするm×n次元のベクトルの形でこの画像データを記憶部2に保持させる(ステップ201)。また、制御部1は、画像操作数を数えるカウンタjの値を「0」に初期化するとともに、画像データのうち注目領域とする部分(例えば参照データと同じ27×27画素の矩形領域)を画定する情報を初期化し(初期化処理;ステップ202)、次にカウンタjの値をインクリメントする(ステップ203)。
制御部1は、次に、画像保持部22によって記憶部2に保持された画像データを読み出し、第1の特徴パターン生成部31−1の処理として、当該読出した画像データを、予め定められた例えば50次元の線形部分空間に射影して、50次元の特徴パターンを得る(ステップ204A)。そして、この特徴パターンに基づいて第1の部分空間射影計算部32−1の処理を行って、特徴パターンの部分空間への射影値および特徴パターンと部分空間との距離の計算が行われ(ステップ205A)、第1の変形度推定部33−1において特徴パターンの部分空間への射影値から画像の回転角が推定され(ステップ206A)。また、第1の推定誤差評価部34−1において特徴パターンと部分空間との距離から回転角の推定誤差が計算される(ステップ207A)。
一方、このステップ204A乃至207Aの処理とは別に、記憶部2に保持された画像データが、制御部1によって読出され、第2の特徴パターン生成部31−2の処理として、予め定められた例えば50次元の線形部分空間に射影され、50次元の特徴パターンに変換される(ステップ204B)。そして、この特徴パターンに基づいて、第2の部分空間射影計算部32−2の処理により、特徴パターンの部分空間への射影値および特徴パターンと部分空間との距離の計算が行われ(ステップ205B)、第2の変形度推定部33−2において特徴パターンの部分空間への射影値から画像のシフト量が推定される(ステップ206B)。また、第2の推定誤差評価部34−2において特徴パターンと部分空間との距離からシフト量の推定誤差が計算される(ステップ207B)。
ここでステップ204Aから207Aの処理と、ステップ204Bから207Bの処理とは、並列して処理されてもよいし、順次処理されてもよい。
次に、画像変形調停部27が、第1の推定誤差評価部34−1において計算された回転角の推定誤差と第2の推定誤差評価部34−2において計算されたシフト量の推定誤差とを比較する。比較の結果、回転角の推定誤差の方が小さかった場合には(ステップ208でNO)、画像変形調停部27の処理により、第1の画像変形部26−1が記憶部2に格納された画像データを当該画像が正立する方向に回転させる(ステップ209)。一方、シフト量の推定誤差の方が小さかった場合には(ステップ208でYES)、画像変形調停部27の処理により、第2の画像変形部26−2が記憶部2に格納された画像データを当該画像が中央に位置する方向にシフトさせる(ステップ210)。すなわち、処理対象となった画像データのうち注目領域とする部分を画定する座標情報を、回転又はシフトすることにより、当該注目領域内の画像データに対して変形を行うのである。なお、この時、回転角またはシフト量の推定値が既定値以下の場合(正規化画像に近い場合)には、その自由度に関する変形は行わず、他方の変形を優先させてもよい。
次に、類似度計算部23が記憶部2に格納された画像データと参照データである画像との類似度を計算する(ステップ211)。そして、この類似度が予め設定した閾値を越えた場合(ステップ212でYES)、処理対象の画像データが参照データに一致すると判定し(ステップ213)、認識処理を終了する。
一方、類似度が閾値以下の場合には(ステップ212でNO)、画像操作回数が規定回数以下、つまり、カウンタの値jが規定回数以下であれば(ステップ214でNO)、ステップ203に移行して記憶部2の画像データ(回転若しくはシフト済みのもの)に対して再び同様の処理を行う。画像操作回数が規定回数を超えた場合には(ステップ214でYES)、処理対象となっている画像データが参照データと異なるものであると判定し(ステップ215)、認識処理を終了する。
図13は、図11および図12を参照して説明した処理を角度−180度、縦横にそれぞれ6ビットシフトした、人間の「目」の画像2種類に対して行った場合に、記憶部2に保持された画像の変形の様子を示したものである。また、図14は、同様の認識処理を8サンプルに対して行ったときの画像の角度および中央からのずれの推移をグラフ化したものである。いずれの図からも入力に対し、画像の回転およびシフトを繰り返し、数回の操作で正立して中央に位置する画像が得られていることがわかる。
以上の説明では、画像変形部26が2つの場合について説明したが、3つ以上でも同様の手順で認識処理を行うことができる。画像データにおける対象の変形の自由度としては、深さ方向の回転、照明の変化による変形の他、顔の表情、個人差を表すような任意の変形が可能である。
また、変形度の累積値を用いて対象の正規化後の状態からのずれを表現でき、対象の置かれた状態の認識も可能である。
以上に説明した例により、対象の置かれた環境が大きく変化しても対象を認識可能な画像認識装置を現実的なリソースで実現でき、かつ少ない学習サンプルで容易に学習可能となる。
[本実施の形態における認識処理]
ここで説明した、第1の例に係る認識処理部12を利用する場合、制御部1は、記憶処理部13の処理として、次のような処理を行うこととなる。すなわち、処理対象の画像データが参照データに一致すると判定したとき(ステップ213)に、記憶処理部13は、処理対象となった画像データに対して行った変形操作の内容を表す情報として、回転角とシフト量との累算値(ここでの例では、回転とシフトだけであるので、注目領域として原画像中で画定している矩形形状を特定する座標情報としている)を認識関係情報として記憶部2に格納する。
なお、注目領域を画定する情報以外の情報を、認識関係情報とする場合には次のようにする。すなわち、すでに述べたように画像変形調停部27は、回転とシフトとの各自由度に対応して為された画像変形のうち一つを選択的に適用することになっている。そこで画像変形調停部27は、ここで選択的に適用した回転又はシフト(少なくとも1つの自由度に係る、互いに異なる変形処理のいずれか)に対応する変形量(ここでは回転角又はシフト量)の累算値を生成しておき、これを認識関係情報とすればよい。
本実施の形態において制御部1は、処理対象となった動画像を構成する各静止画(フレーム)について時系列の順序(時間順、あるいはその逆順)に、認識処理部12の処理を繰返し行う。その際、各フレーム内の注目部分に対して行われた変形操作の内容が、認識関係情報として記憶処理部13によって記憶部2に格納されるのである。
そして、認識条件設定部11が、それまでに処理されたフレームに関して当該記憶部2に格納された認識関係情報に基づき、処理パラメータを生成し、認識処理部12に対して出力する。ここでは、認識関係情報は、以前のフレームで顔部分が認識された注目領域を特定する情報である。認識条件設定部11は、例えば直前のフレームにおける当該情報を、認識処理部12に対してそのまま出力する。この場合、認識処理部12は、ステップ201によって保持した画像データに対し、ステップ202の初期化処理において、注目領域を画定する情報を初期化する際、認識条件設定部11から入力される情報をそのまま、今回のフレームにおける注目領域を画定する情報の初期値として設定する。
このように、本実施の形態では、次のフレームの処理に対する処理パラメータの初期値が提供される。例えば、あるフレームで、顔が認識されると、次のフレームでは、その認識の状態(顔の位置(シフトに対応)や顔の平面内の傾き(回転に対応))を利用して、認識を開始するのである。
なお、認識条件設定部11は、直前のフレームにおける認識関係情報(0次近似)だけでなく、現在処理しようとしているフレームより前の複数のフレームにおける認識関係情報に基づく外挿処理(n次近似)を行って次のフレームの処理に関する処理パラメータを定めてもよい。
また、ここでは認識関係情報として、処理対象の画像データのうち、注目領域を画定する情報を用いているので、当該情報に基づいて次のフレームにおける注目領域の初期化を行っているが、例えば、画像データの少なくとも一部についての画像処理のパラメータの累算値が認識関係情報となっている場合、次のフレームにおける当該一部について、当該パラメータの累算値に相当する画像処理を行うことで初期化を行ってもよい。
[認識処理部の例2]
なお、部分空間への射影、変形度推定、推定誤差評価の処理は、ここまでで説明したものに限られるものではない。そこで以下、これらの処理の変形例について述べる。すなわち認識装置の別の構成は、図3に示した第1の例に係るものと同様であり、また、制御部1によって行われる処理も、図4に示したものと略同様であるが、部分空間射影計算部32、変形度推定部33、および推定誤差評価部34における処理などが異なる。ここでは、これら部分空間射影計算部32、変形度推定部33、および推定誤差評価部34での処理を中心として説明し、他の部分についての詳細な説明は省略する。
ここでの部分空間射影計算部32は、参照データの特徴パターンの分布を近似する部分空間を特定する情報を予め学習獲得している。実世界での特徴ベクトルの変動は非常に複雑なため、その変動を近似するためには、部分空間が非線形空間であることが好ましい。しかしながらここでは、特徴パターンの表される空間における非線形の部分空間を学習する代わりに、特徴パターンを予め定められた非線形写像によって、特徴パターン空間より高次元の空間に写像し、写像された高次元の空間における部分空間(線形空間)によって特徴パターン空間における非線形部分空間を近似的に表現している。
この場合、部分空間射影計算部32は、入力された対象の画像の特徴パターンについて、その特徴パターンを非線形写像によって高次元空間に写像し、高次元空間での上記線形部分空間へ射影し、その射影の線形部分空間上の座標系における座標値を出力する。ここで射影ベクトルとは、特徴パターンの非線形写像と最も距離が近くなる線形部分空間上の点と定義する。また、部分空間射影計算部32は、特徴パターンの非線形写像と線形部分空間との距離を計算して出力する。
次に、上述の射影値および部分空間との距離を求める方法について詳しく説明する。特徴パターンをd次元のベクトルxとし、このベクトルxをdΦ次元の高次元空間Fに写像する非線形写像をΦとすると、次の(1)式が成り立つ。
Figure 2005092465
高次元空間のm次元の線形部分空間は予め学習によって求められており、その基底ベクトルをΦ1,...,Φmとすると、特徴パターンの非線形写像の線形部分空間への射影値α1,...,αmは、(2)式に示すように特徴パターンの非線形写像と線形部分空間上の点との距離Lを最小にするα1,...,αmとして求められる。また、その時のLの値の平方根が特徴パターンの非線形写像と線形部分空間との距離となる。
Figure 2005092465
しかしながら、一般的に特徴パターン空間における強い非線形性を表現するためには、高次元空間の次元数は非常に高いものとなり、(2)式の計算を現実的な時間内に完了することは困難である。そこでこの認識処理部12の第2の例では、いわゆるカーネル法を用いることができるような非線形写像Φとしての写像を選択的に採用する。これにより現実的な計算量で(2)式を計算できるようになる。具体的には、非線形写像Φを予め定められたカーネル関数と関連するように選択する。ここでカーネル関数とは、次の(3)式で表される特徴パターン空間で定義された関数である。ここで、φ1(x),...,φdΦ(x)をカーネル関数の固有関数、λ1,...,λdΦをその固有値と呼ぶ。
Figure 2005092465
なお、カーネル関数としては、(4)式に示すガウシアンカーネルや(5)式に示す多項式カーネルなどがある。
Figure 2005092465
Figure 2005092465
こうして選択される非線形写像Φは、固有関数と固有値を用いて、例えば次の(6)式で表されるものになる。さらに、高次元空間の線形部分空間のm個の基底ベクトルがd次元の特徴パターン空間の任意のm個のベクトルx1,...,xm(以下、「プレイメージ」と呼ぶ)の非線形写像Φ(x1),...,Φ(xn)のベクトルとなるように線形部分空間に制約を与える。
Figure 2005092465
(3)式の関係を用いると(2)式は、(7)式のように表すことができる。(7)式は、高次元空間のベクトル演算を陽に含まないため、計算が容易になっている。(7)式を最小とするα1,...,αmは、Lの微分を0とするα1,...,αmとして求められ、(8)式に示すようになる。ここで行列Kは、K(xi,xj)をi行j列成分とする行列である。またLの最小値は、このα1,...,αmを(7)式に代入することにって求められる。
Figure 2005092465
Figure 2005092465
次に、線形部分空間の基底ベクトルの学習則について説明する。線形部分空間の基底ベクトルは必ずプレイメージを持つと仮定しているため、学習則は基底ベクトル自体でなくプレイメージの学習則となる。プレイメージの学習則は射影値α1,...,αmを求めた後、(7)式を最も減少させる方向Δxiにプレイメージxiを動かすことになる。Δxiは、いわゆる最急降下法で得られ、(9)式に示すようになる。
Figure 2005092465
ここで、ηは学習係数であり、正の定数である。
Figure 2005092465
は、非線形写像によって高次元空間に埋め込まれる多様体の計量テンソルであり、(9)式中の計量テンソルは、高次元空間での最急勾配の方向を特徴パターン空間での最急勾配の方向へと修正する意味を持っている。
Figure 2005092465
もカーネル関数を用いて(10)式のように表すことができる。(10)式は、基本的には高次元空間での線形最適化問題なので、非線形の最適化と異なり収束性が良く、短時間で学習することができる。
Figure 2005092465
次に、変形度推定部33について説明する。変形度推定部33は、部分空間射影計算部32から出力された特徴ベクトルの部分空間への射影と画像変形度の関係が予め学習されており、これを用いて部分空間への射影値から画像変形度を求めて出力する。部分空間への射影と画像変形度の関係は、例えば、自由度が回転の場合、図15に示すような関係となる。図15では、任意の射影成分を対象物の角度に対してプロットしたものであるが、各成分は、特定の角度にもっとも強く反応し、角度が変化するにつれて反応が弱くなっている。基底の番号iとその基底への射影成分が最大となる画像変形度θ(i)の組はルックアップテーブルとして変形度推定部33に保存される。そして画像変形度はθ(i)の値を部分空間射影計算部32からの入力α1,...,αmを用いて、例えば、加重平均することにより、(11)式のように求められる。
Figure 2005092465
推定誤差評価部34は(7)式によって特徴パターンの非線形写像と線形部分空間との距離の2乗であるLを計算し、変形度推定部33において推定された画像変形度の精度として出力する。Lが小さいほど特徴パターンが良く近似できているとみなせるため、画像変形度の精度としてLを用いることは妥当である。もちろんLに関する任意の単調増加関数を用いても構わない。
なお、この第2の例において学習に要するサンプル、認識処理部12の学習手順および認識手順、並びに本実施の形態における利用例は第1の例に係るものと同様であるため、説明は省略する。
[認識処理部の第3の例]
さらに、ここでの認識処理部12は、画像データだけでなく、音声データについて、例えば、「あ」に対応する音声など、特定の音声を認識する装置として実現することもできる。そこで次に、音声データについての認識を行う場合を例として、認識処理部12の第3の例について説明する。この例における認識処理部12の構成は、図3に示した第1の例の認識処理部12の構成における「画像」を「音声」と読み替えたものとなる。
したがって、第1の例と異なるのは実際には、入力パターンの表現方法と入力パターンの変形方法だけであるので、これを図16を用いて説明する。入力された音声は、一定の時間間隔でサンプリングされ、時間に関して離散化された表現と、フーリエ窓で指定された時間領域でフーリエ変換された二つの周波数表現として保持される。保持された入力に対して、ここでは二つのパターン変形部とそれらに対応したパターン変形度推定部を有する。
第1のパターン変形部は周波数表現に対して変形を行い、周波数をシフトさせる。一方、第2のパターン変形部は時間表現に対して変形を行い、パターンを時間軸方向に伸長させる。以上の二つのパターン変形部を有することにより、発生時の声の高さの変動と発生のスピードの変動に対応することができる。なお、学習や認識手順については第1の例と同じであるのでここでの詳細な説明を省略する。
以上の各例では、画像および音声に係る認識について説明したが、認識の対象となるデータとしてはこれらに限らず、味覚、嗅覚、触覚など、特徴パターンとして表現できるあらゆる情報に関して適用可能である。また、画像に対しても色の判定を行う場合に適用したり、音声に対しても単語を対象としたり、楽器等から発せられる音を対象としたりする場合に適用することができる。
この音声のようなデータでは、動画像データと異なって予めフレームに区切られていないが、探索用のウインドウを設定すれば、本実施の形態の処理を行い得る。すなわち、探索用ウインドウのサイズ、(時間的)位置等を上記画像データの場合の認識関係情報に含めることで、同様の処理を実現できる。
[動作]
次に、本実施の形態に係るデータ認識装置の動作について説明する。以下の例では、動画像データから顔部分を認識する場合を例として説明する。本実施の形態のデータ認識装置の制御部1がまず、フレームをカウントする変数Fを「0」にリセットする(ステップ301)。そして、入出力部3を介して入力される動画像データのF番目のフレームの画像データの全域を対象として所定の方法で顔部分を検出する処理を行う(ステップ302)。この処理は、エントロピー等の量を利用した簡便な方法で顔候補部分を特定し、当該特定した顔候補部分を対象として、学習により獲得したデータベースを利用した顔検出を行うこととするなど、さまざまな処理を利用できる。
制御部1は、このステップ302において顔部分が検出されたか否かを調べ(ステップ303)、顔が検出されなければ(Noならば)、Fをインクリメントし(ステップ304)、ステップ302に戻って処理を続ける。つまり、顔部分が特定されるまで、フレームを順次探索する。
また、ステップ303において顔部分が検出されたと判断されたときには、Fをインクリメントし(ステップ305)、ステップ302又は後に説明するステップ307の認識処理において、前回認識されたときの顔部分の位置、サイズ、傾き等を特定する情報を取得し、当該取得した情報を認識関係情報として、認識処理の条件を設定する(ステップ306)。
そして制御部1は、当該前回の顔部分の位置、サイズ、傾き等によって画定される領域(注目領域)から、認識の処理を開始し、ここから例えばシフト(位置に関する自由度に相当する)や回転など、各自由度に対応する変形を行いながら、変形後の注目領域内に顔部分があるか否かを判断して、顔の検出処理を遂行する(ステップ307)。
そして制御部1は、ステップ307にて顔が認識され、検出されたか否かを調べ(ステップ308)、検出されたならば(Yesならば)、ステップ305に戻って処理を続ける。
すなわち各フレームから顔部分が連続的に認識されている限り、制御部1は、前回の認識の際の条件を始点として次のフレーム内で顔部分を認識する処理を行う。
一方、ステップ308において、顔が検出されなかったと判断されたならば(Noならば)、認識条件の更新回数を調べ、予め定めた回数(既定回数)だけ後に説明するステップ310の処理を行ったか否かを調べる(ステップ309)。ここで、既定回数繰返していなければ(Noならば)、認識条件を所定の方法で更新して(ステップ310)、ステップ307に戻って処理を続ける。
なお、このステップ310の処理としては、例えば、ステップ307における認識処理での顔部分の探索範囲を拡大するよう、処理パラメータを設定する処理などがある。
一方、ステップ309において、所定回数繰返した後であれば(Yesならば)、ステップ302へと移行して、再度、全領域を対象とした顔検出処理を行うようにする。
[実施形態の効果等]
本実施の形態のように構成することで、例えば動画像データから顔部分を連続的に認識する場合に、探索の開始時の条件を、それより前の探索処理の結果(いわば処理の履歴)に基づいて決定することで、実際に探索を行う範囲を狭め、かつ個々の探索は、通常と同様の処理によって行われるため、従来のようにマッチング度の局所的な変化を利用する場合に比べ、顔でない領域を誤って顔部分と判断してしまうことが防止される。つまり、本実施の形態では、動画像データを構成する各静止画に含まれる顔部分の位置等、正規化に利用される情報を、処理中のフレーム以前のフレームでの正規化の結果に基づいて決定するのである。これによって、正規化の処理負荷を軽減し、時系列に連続性をもって変化する動画像等のデータから、所定の部分の認識を短時間で認識できるようにし、実時間の処理を可能とする。
なお、ここでは認識処理部12に対して学習を行わせる際のサンプルについて、図8に示すように、回転角について−180度から180度まで、シフト量について、6ピクセルの幅で、等というように設定しているが、例えば動画の各フレーム間の経過時間が比較的短い場合など、人間の顔の動きは、回転やシフトなどの自由度のいずれか一つについて、極めて微小に変化するだけであると仮定してもよい場合がある。かかる場合は、学習サンプルの分布をより狭めてもよい。このような分布は、例えば処理対象となるデータ内での、認識対象部分の時間間隔に応じて決定できる。例えば動画像を処理対象とする場合、そのフレーム間時間(コマ数)に基づいて決定することとしてもよい。すなわち、これにより認識の対象について変形の自由度が大きい場合にも、正規化のためのデータを、合理的な時間内に学習獲得できるようになる。
本発明の実施の形態に係るデータ認識装置の構成例を表すブロック図である。 本発明の実施の形態に係るデータ認識装置の処理例を表す機能ブロック図である。 認識処理部の機能的な構成を示すブロック図である。 画像変形度推定部の構成例を示した図である。 オートエンコーダの概要を説明するための図である。 非線形部分空間を説明するための図である。 部分空間への射影値と画像の回転角の関係を示した図である。 学習サンプルの分布を示した図である。 第一の例における学習サンプル数を従来例と比較した図である。 認識処理部の学習時の動作の流れを示すフローチャートである。 認識処理部の認識時の動作の流れを示すフローチャート(1)である。 認識処理部の認識時の動作の流れを示すフローチャート(2)である。 記憶部に保持された画像の変形の様子を示した図である。 認識処理を8サンプルに対して行ったときの画像の角度および中央からのずれの推移をグラフ化した図である。 認識処理の第二の例における特定の射影値と画像の回転角の関係を示した図である。 認識処理の第三の例における入力音声の変形方法を示した図である。 本発明の実施の形態に係るデータ認識装置の動作例を表すフローチャート図である。
符号の説明
1 制御部、2 記憶部、3 入出力部、11 認識条件設定部、12 認識処理部、13 記憶処理部、21 画像入力部、22 画像保持部、23 類似度計算部、24 判定部、25 画像変形度推定部、26 画像変形部、27 画像変形調停部、31 特徴パターン生成部、32 部分空間射影計算部、33 変形度推定部、34 推定誤差評価部、41 入力層、42 出力層、43 中間層、51 学習サンプル、52 非線形部分空間、53 特徴パターン、54 非線形部分空間上の座標系、55 射影ベクトル。

Claims (9)

  1. 時系列に変化する処理対象データから、予め定められた認識対象データ部分を第1番目から第n番目まで順次特定するデータ認識装置であって、
    前記処理対象データから、所定の処理パラメータを用いて認識対象データ部分を探索処理する手段と、
    少なくとも、第i番目(1≦i<n)の認識対象データ部分を特定したときの、前記処理パラメータを、認識関係情報として記憶する手段と、
    を含み、
    前記記憶されている認識関係情報が、第i+1番目の認識対象データ部分の前記探索処理における前記処理パラメータの決定に利用される
    ことを特徴とするデータ認識装置。
  2. 時系列に変化する処理対象データから、予め定められた認識対象データ部分を断続的に特定するデータ認識装置であって、
    前記処理対象データの少なくとも一部を注目部分として特定する手段と、
    予め設定された参照データを用いて定義される所定の演算ルールによって、前記注目部分と、前記参照データとの間の類似度を演算する演算手段と、
    当該類似度に基づいて、前記注目部分が認識対象データ部分であるか否かを判断する認識手段と、
    前記認識手段により、認識対象データ部分が特定されたときに、前記演算ルールに関する情報と、前記注目部分を特定する情報と、のうち少なくとも一方の情報を記憶する記憶手段と、
    を含み、
    前記記憶手段に記憶される情報が、次の前記類似度の演算又は、注目部分の特定の少なくとも一方の処理に供されることを特徴とするデータ認識装置。
  3. 請求項2に記載のデータ認識装置において、
    前記演算手段は、前記注目部分と前記参照データとの類似度を演算する際に、
    (1)前記注目部分と前記参照データとの類似度を仮演算し、
    (2)前記仮演算の結果に基づき、前記注目部分を、予め定められた少なくとも一つの変形自由度で変形処理して、当該変形処理後の注目部分を新たな注目部分として設定する、
    (1),(2)の処理を、前記仮演算された類似度が、予め定められた条件を満足するか、繰り返し回数が所定回数を越えるまで繰り返して行い、
    前記仮演算された類似度が予め定められた条件を満足した場合に、前記認識手段が、当該仮演算された類似度に基づき、前記注目部分が認識対象データ部分であるか否かを判断し、
    前記記憶手段が記憶する情報には、前記演算ルールに関する情報として、前記変形処理の内容を特定する情報が含まれることを特徴とするデータ認識装置。
  4. 請求項3に記載のデータ認識装置において、
    前記演算手段は、
    前記(2)の処理における変形処理を行う際に、
    前記注目部分を、互いに異なる少なくとも一つの変形自由度で変形処理して、複数の変形処理結果を得ておき、
    前記複数の変形処理結果のうち、所定の選択ルールに基づいて、一つの変形処理結果を選択し、
    当該選択した変形処理結果としての、変形処理後の注目部分を新たな注目部分として設定する、
    ことを特徴とするデータ認識装置。
  5. 時系列に変化する一連の処理対象データについて、少なくとも一部の処理対象データ内において予め定められた認識対象データ部分を特定するデータ認識装置であって、
    前記一連の処理対象データのうち、一つの処理対象データを選択する手段と、
    前記選択された処理対象データの少なくとも一部を注目部分として特定する手段と、
    予め設定された参照データを用いて定義される所定の演算ルールによって、前記注目部分と、前記参照データとの間の類似度を演算する演算手段と、
    当該類似度に基づいて、前記注目部分が認識対象データ部分であるか否かを判断する認識手段と、
    前記認識手段により、認識対象データ部分が特定されたときに、前記演算ルールに関する情報と、前記注目部分を特定する情報と、のうち少なくとも一方の情報を記憶する記憶手段と、
    を含み、
    前記記憶手段に記憶される情報が、次に選択される処理対象データ内の注目部分に対する前記類似度の演算又は、次に選択される処理対象データ内の注目部分の特定の少なくとも一方の処理に供されることを特徴とするデータ認識装置。
  6. 記憶手段を備えたコンピュータを用い、時系列に変化する処理対象データから、予め定められた認識対象データ部分を第1番目から第n番目まで順次特定するデータ認識方法であって、
    前記処理対象データから、所定の処理パラメータを用いて認識対象データ部分を探索処理する工程と、
    少なくとも、第i番目(1≦i<n)の認識対象データ部分を特定したときの、前記処理パラメータを、認識関係情報として、前記記憶手段に記憶する工程と、
    を含み、
    前記記憶されている認識関係情報が、第i+1番目の認識対象データ部分の前記探索処理における前記処理パラメータの決定に利用される
    ことを特徴とするデータ認識方法。
  7. 時系列に変化する処理対象データから、予め定められた認識対象データ部分を断続的に特定するデータ認識方法であって、
    前記処理対象データの少なくとも一部を注目部分として特定する工程と、
    予め設定された参照データを用いて定義される所定の演算ルールによって、前記注目部分と、前記参照データとの間の類似度を演算する工程と、
    当該類似度に基づいて、前記注目部分が認識対象データ部分であるか否かを判断する工程と、
    前記認識対象データ部分が特定されたときに、前記演算ルールに関する情報と、前記注目部分を特定する情報と、のうち少なくとも一方の情報を、記憶手段に記憶する工程と、
    を含み、
    前記記憶手段に記憶される情報が、次の前記類似度の演算又は、注目部分の特定の少なくとも一方の処理に供されることを特徴とするデータ認識方法。
  8. 時系列に変化する処理対象データから、予め定められた認識対象データ部分を第1番目から第n番目まで順次特定するデータ認識プログラムであって、コンピュータに、
    前記処理対象データから、所定の処理パラメータを用いて認識対象データ部分を探索処理する手順と、
    少なくとも、第i番目(1≦i<n)の認識対象データ部分を特定したときの、前記処理パラメータを、認識関係情報として、前記記憶手段に記憶する手順と、
    前記記憶されている認識関係情報に基づき、第i+1番目の認識対象データ部分の前記探索処理における前記処理パラメータを決定する手順と、
    を実行させることを特徴とするデータ認識プログラム。
  9. 時系列に変化する処理対象データから、予め定められた認識対象データ部分を断続的に特定するデータ認識プログラムであって、コンピュータに、
    前記処理対象データの少なくとも一部を注目部分として特定する手順と、
    予め設定された参照データを用いて定義される所定の演算ルールによって、前記注目部分と、前記参照データとの間の類似度を演算する手順と、
    当該類似度に基づいて、前記注目部分が認識対象データ部分であるか否かを判断する手順と、
    前記認識対象データ部分が特定されたときに、前記演算ルールに関する情報と、前記注目部分を特定する情報と、のうち少なくとも一方の情報を、記憶する手順と、
    を実行させ、前記記憶される情報を、次の前記類似度の演算又は、注目部分の特定の少なくとも一方の処理に供されるよう、前記コンピュータを制御することを特徴とするデータ認識プログラム。
JP2003323759A 2003-09-16 2003-09-16 データ認識装置 Expired - Fee Related JP4543644B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003323759A JP4543644B2 (ja) 2003-09-16 2003-09-16 データ認識装置
US10/940,983 US7593566B2 (en) 2003-09-16 2004-09-15 Data recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003323759A JP4543644B2 (ja) 2003-09-16 2003-09-16 データ認識装置

Publications (2)

Publication Number Publication Date
JP2005092465A true JP2005092465A (ja) 2005-04-07
JP4543644B2 JP4543644B2 (ja) 2010-09-15

Family

ID=34270038

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003323759A Expired - Fee Related JP4543644B2 (ja) 2003-09-16 2003-09-16 データ認識装置

Country Status (2)

Country Link
US (1) US7593566B2 (ja)
JP (1) JP4543644B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6320649B1 (ja) * 2017-03-31 2018-05-09 三菱電機株式会社 機械学習装置及び画像認識装置
JP2018524711A (ja) * 2015-06-19 2018-08-30 株式会社Preferred Networks クロスドメイン時系列データ変換装置、方法、およびシステム
JP2019514046A (ja) * 2016-03-22 2019-05-30 エスアールアイ インターナショナルSRI International 雑音の多い未知のチャネル条件における音声認識のためのシステムおよび方法
WO2021251005A1 (ja) * 2020-06-09 2021-12-16 ソニーセミコンダクタソリューションズ株式会社 信号処理装置、信号処理方法
JP7400719B2 (ja) 2018-12-17 2023-12-19 ソニーグループ株式会社 学習装置、識別装置およびプログラム

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL168035A (en) * 2005-04-14 2011-09-27 Rafael Advanced Defense Sys Normalization of face for identification and registration
JP4431532B2 (ja) * 2005-09-16 2010-03-17 富士フイルム株式会社 対象画像の位置検出装置および方法ならびに対象画像の位置検出装置を制御するプログラム
CN100587701C (zh) * 2005-10-18 2010-02-03 松下电器产业株式会社 信息处理装置及其方法
NO323257B1 (no) * 2005-10-28 2007-02-19 Telenor Asa Fremgangsmater for a analysere strukturen av et nettverk
KR100886557B1 (ko) * 2007-05-03 2009-03-02 삼성전자주식회사 적응형 학습에 기반한 얼굴 인식 시스템 및 방법
JP2009129337A (ja) * 2007-11-27 2009-06-11 Hitachi Ltd 三次元類似形状検索装置
JP4697289B2 (ja) 2008-11-05 2011-06-08 ソニー株式会社 撮像装置、撮像装置の表示制御方法
JP5178662B2 (ja) * 2009-07-31 2013-04-10 富士フイルム株式会社 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
JP5506272B2 (ja) 2009-07-31 2014-05-28 富士フイルム株式会社 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
US8447119B2 (en) * 2010-03-16 2013-05-21 Nec Laboratories America, Inc. Method and system for image classification
US9177226B2 (en) * 2013-03-15 2015-11-03 Google Inc. Object detection in images based on affinity determinations
US10424052B2 (en) * 2015-09-15 2019-09-24 Peking University Shenzhen Graduate School Image representation method and processing device based on local PCA whitening
US10249289B2 (en) 2017-03-14 2019-04-02 Google Llc Text-to-speech synthesis using an autoencoder
US10311556B1 (en) * 2018-07-02 2019-06-04 Capital One Services, Llc Systems and methods for image data processing to remove deformations contained in documents
US11892857B2 (en) * 2020-06-05 2024-02-06 Ghost Autonomy Inc. Distributed data sampling

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11266450A (ja) * 1998-03-17 1999-09-28 Toshiba Corp 物体領域追跡装置および物体領域追跡方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5550928A (en) * 1992-12-15 1996-08-27 A.C. Nielsen Company Audience measurement system and method
US5844573A (en) * 1995-06-07 1998-12-01 Massachusetts Institute Of Technology Image compression by pointwise prototype correspondence using shape and texture information
US5852672A (en) * 1995-07-10 1998-12-22 The Regents Of The University Of California Image system for three dimensional, 360 DEGREE, time sequence surface mapping of moving objects
US5842194A (en) * 1995-07-28 1998-11-24 Mitsubishi Denki Kabushiki Kaisha Method of recognizing images of faces or general images using fuzzy combination of multiple resolutions
US6345109B1 (en) * 1996-12-05 2002-02-05 Matsushita Electric Industrial Co., Ltd. Face recognition-matching system effective to images obtained in different imaging conditions
GB2324428A (en) * 1997-04-17 1998-10-21 Sharp Kk Image tracking; observer tracking stereoscopic display
GB2341231A (en) * 1998-09-05 2000-03-08 Sharp Kk Face detection in an image
JP3639476B2 (ja) * 1999-10-06 2005-04-20 シャープ株式会社 画像処理装置および画像処理方法ならびに画像処理プログラムを記録した記録媒体
JP3979007B2 (ja) * 2000-12-22 2007-09-19 富士ゼロックス株式会社 パターン識別方法および装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11266450A (ja) * 1998-03-17 1999-09-28 Toshiba Corp 物体領域追跡装置および物体領域追跡方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018524711A (ja) * 2015-06-19 2018-08-30 株式会社Preferred Networks クロスドメイン時系列データ変換装置、方法、およびシステム
JP2019514046A (ja) * 2016-03-22 2019-05-30 エスアールアイ インターナショナルSRI International 雑音の多い未知のチャネル条件における音声認識のためのシステムおよび方法
JP6320649B1 (ja) * 2017-03-31 2018-05-09 三菱電機株式会社 機械学習装置及び画像認識装置
WO2018179338A1 (ja) * 2017-03-31 2018-10-04 三菱電機株式会社 機械学習装置及び画像認識装置
JP7400719B2 (ja) 2018-12-17 2023-12-19 ソニーグループ株式会社 学習装置、識別装置およびプログラム
WO2021251005A1 (ja) * 2020-06-09 2021-12-16 ソニーセミコンダクタソリューションズ株式会社 信号処理装置、信号処理方法
US11974042B2 (en) 2020-06-09 2024-04-30 Sony Semiconductor Solutions Corporation Signal processing device and signal processing method

Also Published As

Publication number Publication date
US20050058339A1 (en) 2005-03-17
US7593566B2 (en) 2009-09-22
JP4543644B2 (ja) 2010-09-15

Similar Documents

Publication Publication Date Title
JP4543644B2 (ja) データ認識装置
EP3971772B1 (en) Model training method and apparatus, and terminal and storage medium
CN108647583B (zh) 一种基于多目标学习的人脸识别算法训练方法
JP3979136B2 (ja) 認識装置および方法
CN109977757B (zh) 一种基于混合深度回归网络的多模态的头部姿态估计方法
Matthews et al. Extraction of visual features for lipreading
JP4595750B2 (ja) 画像処理装置および方法、並びにプログラム
JP4928601B2 (ja) オブジェクトの特徴を位置特定する方法
JP4514687B2 (ja) パターン認識装置
CN112085055B (zh) 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法
CN109544603B (zh) 基于深度迁移学习的目标跟踪方法
CN112232241A (zh) 一种行人重识别方法、装置、电子设备和可读存储介质
EP3745309A1 (en) Training a generative adversarial network
US11301723B2 (en) Data generation device, data generation method, and computer program product
CN114842343A (zh) 一种基于ViT的航空图像识别方法
JP2005309765A (ja) 画像認識装置、画像抽出装置、画像抽出方法及びプログラム
KR20140024206A (ko) 입술 검출 및 추적을 위한 방법 및 장치
JP6955233B2 (ja) 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム
KR102211762B1 (ko) 딥러닝 기반 컬러링 방법, 시스템 및 프로그램
JPH10171988A (ja) パターン認識・照合装置
Paterson et al. 3D head tracking using non-linear optimization.
WO2011018823A1 (ja) パターン認識装置、その方法、及びそのプログラム
JP4238537B2 (ja) 画像処理装置
WO2019116497A1 (ja) 識別装置、識別方法、および記憶媒体
KR100621883B1 (ko) 학습에 기반을 둔 적응형 실시간 얼굴검출방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060824

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071112

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100608

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100621

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4543644

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140709

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees