JP2019106111A

JP2019106111A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2019106111A
Application number: JP2017239566A
Authority: JP
Inventors: 友貴藤森; Tomoki Fujimori; 裕輔御手洗; Hirosuke Mitarai
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-12-14
Filing date: 2017-12-14
Publication date: 2019-06-27

Abstract

【課題】精度の高い認識処理を可能にすることを課題とする。【解決手段】情報処理装置（１０１）は、第１の特徴セットと第２の特徴セットとを取得するセット取得手段（３０１）と、第１の特徴セットを元の特徴セットに復元可能に変換する変換規則を取得する規則取得手段（３０２）と、変換規則を基に、第２の特徴セットから第３の特徴セットを生成する生成手段（３０３）と、第１の特徴セットと第３の特徴セットとを用いて、入力データに対する所定の認識処理を行う認識手段（３０４）と、を有する。【選択図】図３

Description

本発明は、画像認識、音声認識等に用いられる技術に関する。

画像認識や音声認識等の技術では、画像、音声から特徴量を抽出し、その特徴量を用いた認識処理が行われている。一例として、顔画像による個人認識技術では、例えば目や口元などの画像領域の特徴量を抽出し、それらの特徴量を用いた認識処理が行われる。また、特徴量を抽出する際に、異なるタイプの特徴量を抽出して、それら異なるタイプの特徴量を用いることで、認識精度を高めるような技術も提案されている。例えば、特許文献１には、異なる二つのタイプの特徴量に対し、それぞれ特徴量の属性情報に基づく重みを付け、それら重みに応じて合成した特徴量を用いることにより、高い精度の認識を可能にする技術が開示されている。

特開２０１４−１９９５１９号公報

しかしながら、前述したように異なるタイプの特徴量を抽出してそれらを認識処理に用いる場合であっても、精度の高い認識が行えなくなることがある。例えば、特徴量の抽出の際に、精度の高い認識に寄与する特徴量が十分に得られていないような場合には、認識の精度を高めることが難しくなることがある。したがって、画像認識技術、音声認識技術等では、精度の高い認識に寄与する特徴量が十分に得られない場合であっても、高い精度の認識を可能にすることが望まれる。

そこで、本発明は、精度の高い認識処理を可能にすることを目的とする。

本発明の情報処理装置は、第１の特徴セットと第２の特徴セットとを取得するセット取得手段と、前記第１の特徴セットを元の特徴セットに復元可能に変換する変換規則を取得する規則取得手段と、前記変換規則を基に、前記第２の特徴セットから第３の特徴セットを生成する生成手段と、前記第１の特徴セットと前記第３の特徴セットとを用いて、入力データに対する所定の認識処理を行う認識手段と、を有することを特徴とする。

本発明によれば、精度の高い認識処理が可能となる。

第１実施形態の情報処理システムの構成例を示す図である。第１実施形態の情報処理装置のハードウェア構成例を示す図である。第１実施形態の情報処理装置の機能構成を示す図である。第１実施形態の情報処理に関するフローチャートである。第１実施形態の特徴抽出処理に関するフローチャートである。非重要特徴量の変換の概念図である。第２実施形態の特徴変換処理に関するフローチャートである。非重要特徴量の多重変換の概念図である。第３実施形態の特徴抽出処理に関するフローチャートである。第４実施形態の特徴抽出処理に関するフローチャートである。第５実施形態の情報処理システムの構成例を示す図である。第５実施形態の情報処理に関するフローチャートである。

以下、添付図面を参照して本発明の実施形態について説明する。
本実施形態では、情報処理システムにおいて、検査ライン上で検査対象物が運ばれており、その検査ライン上の検査対象物の画像を撮影して検査し、その検査結果を表示するタスクを例として説明を行う。
＜第１実施形態＞
図１は、第１実施形態の情報処理システムの一構成例を示す図である。検査対象物１０４は、本実施形態における検査対象であり、不図示の検査ラインにより運ばれているとする。画像撮影装置１０２は、検査対象物１０４を可視化するために、光源１０５から検査対象物１０４に照射された光を受光して、当該検査対象物１０４の画像を撮影する。画像撮影装置１０２が撮影した検査対象物１０４の撮影画像は、情報処理装置１０１に送られる。情報処理装置１０１は、画像撮影装置１０２からの撮影画像を用いて、検査ライン上の検査対象物１０４を検査し、その検査結果を表示装置１０３に出力する。表示装置１０３は、モニタ等から構成され、情報処理装置１０１から送られた検査結果を示す画像や情報等を表示する。

図２は、第１実施形態の情報処理装置１０１のハードウェア構成の一例を示す図である。情報処理装置１０１は、ＣＰＵ２０１、主記憶装置２０２、補助記憶装置２０３、入力Ｉ／Ｆ２０４、出力Ｉ／Ｆ２０５を含む。ＣＰＵ２０１、主記憶装置２０２、補助記憶装置２０３、入力Ｉ／Ｆ２０４、出力Ｉ／Ｆ２０５は、システムバス２０６を介して、相互に接続されている。

ＣＰＵ２０１は、情報処理装置１０１の制御及び後述する各種処理を行う中央演算装置である。補助記憶装置２０３は、後述する学習用の正常データ、各種設定値、各種閾値等のデータ、本実施形態のプログラムを含む各種のプログラム等を記憶する記憶装置である。主記憶装置２０２は、ＣＰＵ２０１のワークエリア、補助記憶装置２０３から読み出されたプログラムの展開等に用いられる記憶装置である。なお、本実施形態に係るプログラムは、補助記憶装置２０３に予め用意されている場合だけでなく、着脱可能な半導体メモリ等から読み出されたり、不図示のインターネット等のネットワークからダウンロードされたりしてもよい。

入力Ｉ／Ｆ２０４は、情報処理装置１０１がユーザなどから入力を受け付ける際に利用されるユーザインターフェースと、外部装置からの入力データ等を受け付ける際のインターフェースとを含む。ＣＰＵ２０１は、入力Ｉ／Ｆ２０４を介して、ユーザなどからの入力や画像撮影装置１０２からの撮影画像等を取得できる。また、ＣＰＵ２０１は、主記憶装置２０２に展開されたプログラムを実行することで、後述する図３に示す本実施形態の情報処理装置１０１の機能や図４、図５、図７、図９、図１０、図１２の各フローチャートの処理を実現する。出力Ｉ／Ｆ２０５は、情報処理装置１０１が、表示装置１０３等の外部装置へデータを出力する際などに利用されるインターフェースである。本実施形態の場合、ＣＰＵ２０１は、この出力Ｉ／Ｆ２０５を介して、検査結果の情報等を、表示装置１０３へ出力する。

図３は、情報処理装置１０１の機能構成の一例を示す図である。図３に示す各機能部は、ソフトウェア構成又はハードウェア構成により実行されてもよいし、一部がソフトウェア構成で残りがハードウェア構成により実現されてもよい。本実施形態では、例えば本実施形態のプログラムをＣＰＵ２０１が実行することにより、図３の各機能部の処理が実現される例を挙げる。図３に示すように、情報処理装置１０１の各機能部には、特徴量抽出部３０１、変換規則算出部３０２、特徴量生成部３０３、識別器判定部３０４が含まれる。

特徴量抽出部３０１は、補助記憶装置２０３等から複数の学習用の画像データ（以下、学習用の正常データとする。）を入力データとして取得する。また、特徴量抽出部３０１は、画像撮影装置１０２にて検査対象物１０４を撮影した画像データ（以下、判定対象の画像データとする。）を入力データとして取得する。そして、特徴量抽出部３０１は、取得した画像データから特徴量を算出（抽出）する。さらに、特徴量抽出部３０１は、それら抽出した特徴量を第１の特徴量と第２の特徴量とに分け、第１の特徴量よりなる第１の特徴セットと第２の特徴量よりなる第２の特徴セットにするセット取得処理を行う。本実施形態において、第１の特徴量は後述する重要特徴量であり、第２の特徴量は後述する非重要特徴量であり、以下、第１の特徴量を重要特徴量、第２の特徴量を非重要特徴量と表記する。特徴量抽出部３０１が抽出する特徴量の詳細、それら抽出された特徴量から分けられる重要特徴量（第１の特徴量）及び非重要特徴量（第２の特徴量）の詳細は後述する。特徴量抽出部３０１は、取得した重要特徴量と非重要特徴量のセット（第１の特徴セットと第２の特徴セット）を、変換規則算出部３０２に送る。また、特徴量抽出部３０１は、判定対象の画像データ（検査対象物１０４を撮影した画像データ）をテストデータとして識別器判定部３０４にも送る。

変換規則算出部３０２は、重要特徴量（第１の特徴セット）から特徴量変換規則を算出する規則取得処理を行う。特徴量変換規則は、重要特徴量に所定の変換処理を行った後の情報を、元の重要特徴量に略復元可能にするような変換規則である。変換規則算出部３０２における特徴量変換規則の詳細については後述する。変換規則算出部３０２にて算出された特徴量変換規則の情報は、重要特徴量と非重要特徴量のセットと共に特徴量生成部３０３に送られる。

特徴量生成部３０３は、変換規則算出部３０２にて算出された特徴量変換規則を基に、非重要特徴量（第２の特徴量）から第３の特徴量を抽出又は生成し、第３の特徴セットとする。本実施形態の場合、特徴量生成部３０３は、第３の特徴量として、非重要特徴量から重要特徴量と類似する認識に寄与する重要成分を抽出又は生成する。以下、第３の特徴量を重要成分と表記する。非重要特徴量から抽出又は生成される重要成分の詳細については後述する。特徴量生成部３０３にて生成された重要成分（第３の特徴セット）は、重要特徴量と共に識別器判定部３０４に送られる。

識別器判定部３０４は、重要特徴量と重要成分を用いて識別モデルを生成し、その識別モデルと、検査対象物１０４の画像データ（判定対象の画像データ）から取得された特徴量とを用いて、判定対象の画像データの正常度又は異常度を算出する。さらに、識別器判定部３０４は、その正常度又は異常度を閾値処理することにより、検査対象物１０４内の異常部分の有無を判定する。識別器判定部３０４における正常度又は異常度の算出、当該算出した正常度又は異常度に基づく検査対象物１０４の判定の詳細については後述する。この識別器判定部３０４による判定結果が、情報処理装置１０１の検査結果として、表示装置１０３へ出力されることになる。

図４は、図３に示した情報処理装置１０１の機能構成により行われる情報処理の一例を示すフローチャートである。本実施形態では、検査対象物１０４の検査処理を例に挙げて、ステップＳ４０１〜ステップＳ４０８の処理を説明する。なお、以下の説明では、図４のフローチャートの各ステップＳ４０１〜ステップＳ４０８をＳ４０１〜Ｓ４０８と略記する。このことは、後述する他のフローチャートにおいても同様とする。

Ｓ４０１において、情報処理装置１０１の特徴量抽出部３０１は、補助記憶装置２０３等から複数の学習用の正常データを取得する。また、特徴量抽出部３０１は、画像撮影装置１０２にて検査対象物１０４を撮影した判定対象の画像データを取得する。なお、画像撮影装置１０２が動画を撮影している場合、画像撮影装置１０２は検査対象物１０４が所定の位置に到達した時点の静止画（フレーム）を取得する。したがって、この場合の特徴量抽出部３０１は、当該静止画の画像データを判定対象として取得する。なお、画像撮影装置１０２にて撮影された静止画の一部の領域のみに検査対象物１０４が写っている場合、特徴量抽出部３０１は、当該静止画内で検査対象物１０４に対応した検査対象領域のみを判定対象とする。

次にＳ４０２において、特徴量抽出部３０１は、Ｓ４０１で取得した学習用の正常データ又は判定対象の画像データから特徴量を抽出する。
以下、特徴量を抽出する例について説明する。
複数の特徴量を抽出する場合には、例えば特徴量抽出の対象画像の注目領域に対してハール・ウェーブレット（ＨａａｒＷａｖｅｌｅｔ）変換をかけて、階層的に画像を生成する。ハール・ウェーブレット変換処理とは、入力された画像データについて位置情報を保持したまま周波数変換する処理である。本実施形態では、特徴量抽出部３０１は、Ｓ４０１で取得した画像データの特徴量を算出する処理として、ハール・ウェーブレット変換処理を用いる。

特徴量抽出部３０１は、一つの入力画像からハール・ウェーブレット変換処理を用いて階層的に生成した合計Ｎ種類の画像に対して、それぞれ画素値の最大値を用いて、特徴量を算出する。つまり、特徴量抽出部３０１は、一つの入力画像から、一つずつ特徴量を抽出するので、合計Ｎ種類の画像それぞれについて統計特徴量を１種類ずつ抽出する。結果的に、特徴量抽出部３０１は、一つの入力画像から合計でＮ個の特徴量を抽出する。

本実施形態では、特徴量抽出部３０１は、ハール・ウェーブレット変換を用いることとしたが、その他の、例えばウェーブレット変換、エッジ抽出、フーリエ変換、ガボール変換等の変換手法を用いてもよい。また、局所領域（Ｋ×Ｌの領域）の画素値そのものを特徴量として用いてもよい。ここでは、領域の画素数が特徴量となるので、入力層にＫ×Ｌ次元の二次元のユニットが用いられる。

このように、Ｓ４０２において、特徴量抽出部３０１は、学習用の正常データと判定対象（検査対象領域）の画像データから、それぞれ複数の特徴量を抽出することができる。なお、学習用の正常データの特徴量については、予め算出して例えば補助記憶装置２０３に記憶しておいてもよい。この場合、Ｓ４０１では検査対象物１０４を撮影した判定対象の画像データのみ取得され、Ｓ４０２では判定対象の画像データのみから特徴量が抽出されることになる。

次にＳ４０３において、特徴量抽出部３０１は、Ｓ４０２で算出した特徴量を重要特徴量と非重要特徴量とに分け、それら重要特徴量のセット（第１の特徴セット）、非重要特徴のセット（第２の特徴セット）とする。
ここで、画像認識処理等において算出される特徴量には、一般的に、認識に対する寄与度が高い特徴量と、認識に対する寄与度が低い特徴量とがある。一例として、顔画像による個人認識等の場合、認識に寄与すると考えられる特徴量としては、例えば目や口元の領域から抽出した特徴量が挙げられる。一方、頬や額の領域から抽出した特徴量は、顔画像による個人認識等において、それほど認識に寄与しないと考えられる。本実施形態では、認識に対する寄与度が高いと考えられる第１の領域を重要領域と呼び、その重要領域から抽出された特徴量を重要特徴量としている。また本実施形態において、重要領域ほど認識に対する寄与度が高くない（寄与度が低い）と考えられる第２の領域を非重要領域と呼び、その非重要領域から抽出された特徴量を非重要特徴量としている。

また、本実施形態では、認識処理の例として検査対象物１０４の検査を例に挙げているため、例えばユーザにより異常部分ありと教示された領域を重要領域とし、それ以外の領域（重要領域を除いた領域）を非重要領域とする。なお、ユーザにより異常なしと教示された領域を非重要領域とし、それ以外の領域（非重要領域を除いた領域）を重要領域としてもよい。したがって、特徴量抽出部３０１は、Ｓ４０３で算出した特徴量の算出位置が重要領域に含まれる場合の当該特徴量を重要特徴量に分類し、特徴量の算出位置が非重要領域に含まれる場合の当該特徴量を非重要特徴量に分類する。そして、本実施形態では、重要特徴量が第１の特徴セット、非重要特徴量が第２の特徴セットとなされる。

なお、ここでは重要領域から重要特徴量を、非重要領域から非重要特徴量を抽出するとしたが、例えば特徴量を重要な特徴とそれ以外とに分離する特徴選択を行い、その特徴選択時の分離度を基に重要特徴量と非重要特徴量のセットとしても良い。例えば、特徴選択において、分離度が所定の閾値以上と判定した特徴量を重要特徴量としてセットし、分離度が所定の閾値未満と判定した特徴量を非重要特徴量としてセットしてもよい。

ところで、例えば重要領域から抽出された重要特徴量のセットのみを用いて認識処理を行うようにすると、例えば重要特徴量が少ない場合には、精度の高い識別ができなくなることがある。例えば、本実施形態のように、ユーザにより教示された重要領域から抽出された重要特徴量の中には認識に寄与しない特徴量が含まれることがあり、認識に寄与する特徴量が少ない場合には精度の高い識別ができなくなることがある。

その一方で、非重要領域から抽出される非重要特徴量の中には認識に寄与する特徴量が含まれる場合がある。このような場合、例えば重要特徴量に加えて非重要特徴量をも有効利用することができれば、認識性能を更に向上させることが可能になると考えられる。そして、認識処理において、非重要特徴量を利用する場合には、当該非重要特徴量の中から、認識に寄与する有効な情報を抽出することが必要となる。そこで、本実施形態では、重要特徴量に加え、非重要特徴量から重要特徴量と類似した識別に有効な重要成分を抽出して利用することにより、認識性能を向上させることを可能にしている。

本実施形態の場合、Ｓ４０４において、変換規則算出部３０２は、Ｓ４０３でセットした重要特徴量（第１の特徴セット）から、後述する特徴量変換規則を算出する。なお、特徴量変換規則については、例えば特許第３９７９１３６号公報に記載の技術を用いることで算出可能である。特許第３９７９１３６号公報には、オートエンコーダを用いて、重要特徴量の情報が保持されるように変換規則を求める技術が開示されている。

オートエンコーダの評価関数は、式（１）を用いて説明することができる。なお式（１）において、Ｗは特徴変換行列、Ｗ'は逆変換を行うための特徴変換行列、ｆは非線形処理である活性化関数、ｆ'は活性化関数の逆変換、ｂは特徴変換を行うためのバイアス、ｂ'は逆変換を行うためのバイアスである。

変換規則算出部３０２は、この式（１）により、特徴ベクトルｘ_iに対し、特徴変換行列Ｗに基づく変換式ｆ'（Ｗ'ｆ（Ｗｘ_i＋ｂ）＋ｂ'）との差の二乗和が最小になるように、特徴変換行列Ｗを算出する。

またＳ４０４において、特徴量生成部３０３は、変換規則算出部３０２にて算出された特徴量変換規則Ｗを基に、非重要特徴量（第２の特徴量）を式（２）のように変換する。なお、式（２）中のｘ_nlは変換前の非重要特徴量を示し、ｘ_nl'は変換後の非重要特徴量を示す。

さらに特徴量生成部３０３は、変換前の非重要特徴量ｘ_nlと式（２）による変換後の非重要特徴量ｘ_nl'とを比較し、特徴量間の差分に基づく評価値を特徴量ごとに算出する。そして、特徴量生成部３０３は、差分に基づく評価値が小さい特徴量を、第３の特徴量つまり重要成分として選択する。すなわち重要成分は、非重要特徴量の中で、重要特徴量に類似した識別に有効な特徴量（評価値が良い特徴量）であり、例えば重要特徴量のみでは認識精度が低くなる場合に、重要特徴量と共に用いることで認識性能を向上可能とするものである。

次にＳ４０５において、識別器判定部３０４は、Ｓ４０３でセットした重要特徴量とＳ４０４で算出された非重要特徴量の重要成分とを用いて、識別モデルの生成を行う。なお、図５にはＳ４０５における識別モデルの生成処理の詳細なフローチャートを示す。図５のフローチャートの詳細は後述する。

本実施形態では、部分空間法の一つである投影距離法を識別モデルの生成に用いる。投影距離とは、簡単に述べると、それぞれの特徴量を軸とする特徴空間における特徴ベクトルと、パターンの分布の分散が最大となる向きを持つ超平面（主平面）との最短距離である。以下、数式を用いて具体的に説明する。

正常データの平均ベクトルｍと共分散行列Σは、正常データの数ｎと特徴ベクトルｘ_iを用いて示すことができる。正常データの平均ベクトルｍを式（３）に、共分散行列Σを式（４）に示す。

ここで、共分散行列Σの第ｉ番目の固有値をλ_i、固有ベクトルをφ_iとする。このとき固有値は降順で並んでいるものとする。このように、識別器判定部３０４は、学習用の正常データを用いて、正常データの平均ベクトルｍと共分散行列Σから、識別モデルを生成する。

次にＳ４０６において、識別器判定部３０４は、交差確認法を用いて、Ｓ４０５で生成した識別モデルのパラメータを決定する。ここでは、Ｓ４０５おける部分空間の射影次元を決定する。以下、ｋ−Ｆｏｌｄ交差確認法を用いてパラメータを決定する例について説明する。識別器判定部３０４は、学習用の正常データをランダムにｋ分割し、そのｋ分割したデータセットのうち、（ｋ−１）個のデータセットで識別モデルの生成を行い、一つのデータセットで検証する。そして、識別器判定部３０４は、決定すべきパラメータ（部分空間の次元数）を順次変えながら、認識率の性能評価を行い、ＡＵＣ（エリアアンダーカーブ：認識性能曲線の下部面積）が最も良いパラメータを選択する。なお、ｋはｋ＝５程度に設定するのが適当である。

次にＳ４０７において、識別器判定部３０４は、判定対象の画像データであるテストデータに対する正常異常判定処理を行う。この時の識別器判定部３０４は、Ｓ４０３でセットした重要特徴量と、Ｓ４０４で算出された非重要特徴量の重要成分とを用いて、テストデータに対する特徴量抽出を行う。さらに、識別器判定部３０４は、Ｓ４０３で生成した識別モデルを用いてテストデータの正常異常判定を行う。ここで、式（３）で算出された平均ベクトルｍと、式（４）で算出された主平面とを用いて、射影次元数ｌの場合のテストデータの特徴ベクトルｘ_tに対する投影距離ｄ（ｘ）は式（５）で算出することができる。識別器判定部３０４は、式（５）で表される投影距離ｄ（ｘ）を算出し、その投影距離ｄ（ｘ）に対する閾値処理を行うことにより正常異常判定を行う。

なお、ここでは、部分空間法を用いて識別モデルを生成する例を挙げたが、例えばＳＶＭ等の他の識別器を用いて識別モデルを生成してもよい。

以下、図５のフローチャートを用いて、図４のＳ４０４における特徴量変換規則の算出、及び、その特徴量変換規則を用いて非重要特徴量から重要成分を抽出する処理の流れについて詳細に説明する。
先ずＳ５０１において、変換規則算出部３０２は、図４のＳ４０３でセットされた重要特徴量から、特徴変換行列Ｗとバイアスｂを算出する。ここでは変換規則を算出するために、オートエンコーダを利用する。なお、以下の説明では、特徴変換行列Ｗとバイアスｂとを纏めて特徴量変換規則Ｗ，ｂと表記する。

オートエンコーダは、いわゆる教師無しのニューラルネットワークの一種であり、入力と出力の誤差を最小化するような、変換規則を算出する手法である。
図６は、重要特徴量から変換規則を算出し、その算出した変換規則に基づいて非重要特徴量を変換する概念図である。図６において、入力層と出力層は、同一数のニューロンをもっており、入力ベクトルと出力ベクトルの次元は同一次元となる。一般に、隠れ層のニューロンは、入力層と出力層と比べて少なくなっており、隠れ層のニューロンにより、次元圧縮がなされる。

変換処理６０１は、入力層のユニットに対応する特徴量の値ａ₁ ⁽¹⁾，ａ₂ ⁽¹⁾，ａ₃ ⁽¹⁾に対し、出力層のユニットに対応する特徴量の値ａ₁ ⁽³⁾，ａ₂ ⁽³⁾，ａ₃ ⁽³⁾を得ている様子を示している。変換規則算出部３０２は、入力層と出力層のユニットに対応する特徴量の関係から、特徴量変換規則Ｗ，ｂを算出する。

変換処理６０２は、活性化関数ｆと特徴量変換規則Ｗ，ｂを用いて、入力層（第１層）の非重要特徴量ｃ₁ ⁽¹⁾，ｃ₂ ⁽¹⁾，ｃ₃ ⁽¹⁾を変換し、出力層（第３層）の非重要特徴量ｃ₁ ⁽³⁾，ｃ₂ ⁽³⁾，ｃ₃ ⁽³⁾を得る様子を示している。

以降は、変換処理６０１で用いた入力層に対応するｉ番目データのｊ番目の次元のユニットに対応する重要特徴量をｘ_(i),j、出力層に対応するｉ番目データのｊ番目の次元のユニットに対応する重要特徴量をｘ_o(i),jで示す。また、変換処理６０２で用いた入力層に対応するｉ番目データのｊ番目の次元のユニットに対応する非重要特徴量をy_(i),j、出力層に対応するｉ番目データのｊ番目の次元のユニットに対応する非重要特徴量をｙ_o(i),jで示す。なお、ａとｃはオートエンコーダの層のインデックスに対応する特徴量を示すのに用いており、ｘとｙはデータのインデックスに対応する特徴量を示すのに用いている。

次に、特徴量変換規則Ｗ，ｂの算出方法について以下に説明する。先ず、ｌ番目の層のｉ番目のユニットに対応する特徴量ａは、式（６）で算出できる。

式（６）において、ｆは活性化関数、ｎはｌ−１番目の層のユニット数、ａ_j ^(l-1)はｌ−１番目の層のｊ番目のユニットに対応する重要特徴量を示している。また、Ｗ_ij ^(l-1)はｌ−１番目の層に対応する結合荷重行列の（ｉ，ｊ）の要素、ｂ_j ^(l)はｌ番目の層のｉ番目のユニットに対応するバイアスを示している。活性化関数ｆに関しては、具体的にはシグモイド関数ｆ＝１／（１＋ｅ^-x）を用いる。

次に特徴量変換規則Ｗ，ｂを求めるための目的関数を式（７）に示す。

変換規則算出部３０２は、式（７）で示された勾配法などの反復法によって、目的関数を最小化する特徴量変換規則Ｗ，ｂを算出し、そして、入力ベクトルと特徴量変換規則Ｗ，ｂを用いて、式（６）により出力ベクトルを算出する。

また、オートエンコーダを利用する際、一般に、異常の判定には再構成誤差が用いられる。再構成誤差とは、データごとの入力層のベクトルと出力層のベクトルの差のノルムをとったものである。入力ベクトルと出力ベクトルの関係から、再構成誤差は、式（８）により算出することができる。なお、式（８）において、Ｄは特徴ベクトルの次元数、ｘ_(i),jは入力層のｉ番目データのｊ番目の次元のユニットに対応する重要特徴量、ｘ_o(i),jは出力層のｉ番目データのｊ番目の次元のユニットに対応する重要特徴量を示す。

また一般に、オートエンコーダの学習に用いたデータと類似したデータに対しては、正しく再構成が行われるため、再構成誤差は小さくなるが、類似していないデータに対しては、学習がなされていないため、再構成誤差は大きくなる。したがって、この性質を用いることにより、入力層の特徴量と出力層の特徴量の差が表れない特徴量を、オートエンコーダの学習に用いたデータと類似したデータであると判定することができる。

次に、Ｓ５０２において、特徴量生成部３０３は、Ｓ５０１で算出された特徴量変換規則Ｗ，ｂを用いて、非重要特徴量を変換する。すなわち、特徴量生成部３０３は、活性化関数ｆ、特徴量変換規則Ｗ，ｂを用いて、非重要特徴量ｃを式（９）に示すように変換する。なお、式（９）において、ｃ_j ^(l-1)はｌ−１番目の層のｊ番目の次元のユニットに対応する非重要特徴量を示す。

次に、Ｓ５０３において、特徴量生成部３０３は、Ｓ５０２での変換後の非重要特徴量から重要成分を抽出する。特徴量生成部３０３は、非重要特徴量から重要成分を抽出するために、式（１０）を用いてj番目の特徴量の評価値ｄｉｆｆ_jを算出する。なお、式（１０）において、Ｎはデータ数、ｙ_(i),jはｉ番目データの入力層のｊ番目の次元のユニットに対応する非重要特徴量、ｙ_o(i),jはｉ番目のデータの出力層のｊ番目の次元のユニットに対応する非重要特徴量を示す。

このように、特徴量生成部３０３は、変換後の非重要特徴量に対し、評価値ｄｉｆｆ_jを算出し、その値が小さくなるような特徴量を重要成分として選択する。したがって、その後、この重要成分の特徴量が認識に用いられることにより、非重要特徴量が有効活用されることになる。なお、選択される非重要特徴量は、Ｓ５０２の変換前の非重要特徴量を用いても良いし、Ｓ５０２の変換後の非重要特徴量を用いても良い。

以上、第１実施形態では、重要特徴量から変換規則を算出し、その変換規則を基に非重要特徴量から、重要特徴量と類似した認識に寄与する重要成分を抽出して、認識に利用可能としている。これにより、第１実施形態においては、より精度の高い認識処理を行うことができる。

＜第２実施形態＞
第１実施形態の情報処理システムでは、重要特徴量から変換規則を算出し、非重要特徴量から認識に必要な情報を抽出したうえで、認識処理を行っている。
第２実施形態では、非重要特徴量の多重変換を行うことで、変換規則を基に非重要特徴量から重要特徴量と類似した認識に寄与する情報を、より精度高く抽出する方法について説明する。第２実施形態における情報処理システムの構成、情報処理装置１０１のハードウェア構成及び機能構成は、第１実施形態と同様であるためそれらの図示と説明は省略する。

図７は、第２実施形態の場合の図４のフローチャートのＳ４０４における特徴量変換規則の算出処理、及び、特徴量変換規則を用いて非重要特徴量から重要成分を抽出する処理の流れを示すフローチャートである。なお、図７のＳ７０１、Ｓ７０３の処理は、それぞれ図５のＳ５０１、Ｓ５０３と同じ処理であるため、以下、図５とは異なるＳ７０２の処理を主に説明する。

Ｓ７０２において、特徴量生成部３０３は、Ｓ７０１で算出された特徴量変換規則Ｗ，ｂを用いら変換を複数回行うことで、非重要特徴量を多重変換する。
図８は非重要特徴量を多重変換する概念図を示している。

変換処理８０１は、入力層のユニットに対応する特徴量の値ａ₁ ⁽¹⁾，ａ₂ ⁽¹⁾，ａ₃ ⁽¹⁾に対し、出力層のユニットに対応する特徴量の値ａ₁ ⁽³⁾，ａ₂ ⁽³⁾，ａ₃ ⁽³⁾を得ている様子を示している。変換規則算出部３０２は、入力層と出力層のユニットに対応する特徴量の関係から、前述同様に特徴量変換規則Ｗ，ｂを算出する。

変換処理８０２は、変換処理８０１で求めた非線形処理である活性化関数ｆ及び特徴量変換規則Ｗ，ｂを例えば２度利用した変換処理の様子を示している。変換処理８０２では、非重要特徴量ｃ₁ ⁽¹⁾，ｃ₂ ⁽¹⁾，ｃ₃ ⁽¹⁾から、第１段階の変換後の非重要特徴量ｃ₁ ⁽³⁾，ｃ₂ ⁽³⁾，ｃ₃ ⁽³⁾と、第二段階の変換後の非重要特徴量ｃ₁ ⁽⁵⁾，ｃ₂ ⁽⁵⁾，ｃ₃ ⁽⁵⁾とが得られる。なお、ここでは２度の変換処理を挙げたが、さらに多くの変換処理が行われても良い。

このように、第２実施形態では、一つのオートエンコーダによるエンコード・デコード処理を繰り返す多重変換を行った上で評価値ｄｉｆｆ_jを算出するので、認識に寄与する特徴量と寄与しない特徴量とで評価値ｄｉｆｆ_jの差が大きくなる。これにより、第２実施形態によれば、非重要特徴量の重要成分を、より正確に選択（抽出）することができる。

第２実施形態においては、重要特徴量の変換規則を用いて、非重要特徴量を多重変換することにより、非重要特徴量から重要特徴量と類似する重要成分を、より正確に抽出できる。すなわち、第２実施形態によれば、重要特徴量及び認識に寄与する非重要特徴量を用いて認識処理を行うことにより、結果的に、より精度の高い認識処理を行うことができる。

＜第３実施形態＞
第３実施形態では、予め重要特徴量と類似する非重要特徴量を選択し、類似する順番に非重要特徴量を入力層にセットし、非重要特徴量に対する評価値を用いて非重要特徴量から重要成分を抽出する例について説明する。第３実施形態における情報処理システムの構成、情報処理装置１０１のハードウェア構成及び機能構成は、第１実施形態と同様であるためそれらの図示と説明は省略する。

図９は、第３実施形態の場合の、図４のフローチャートのＳ４０４における特徴量変換規則の算出処理、及び、特徴量変換規則を用いて非重要特徴量から重要成分を抽出する処理の流れを示すフローチャートである。なお、図９のＳ９０１、Ｓ９０３、Ｓ９０４の処理は、それぞれ図５のＳ５０１、図７のＳ７０２（又は図５のＳ５０２）、図５のＳ５０３（又は図７のＳ７０３）の処理と同じであるため、それらとは異なるＳ９０２の処理を主に説明する。

Ｓ９０２において、特徴量生成部３０３は、予め重要特徴量と類似する非重要特徴量を選択し、特徴量変換器にセットした上で、非重要特徴量を変換する。すなわち、特徴量生成部３０３は、Ｓ９０１で算出した特徴量変換規則Ｗ，ｂを用い、非重要特徴量ｃを変換する。そして、特徴量生成部３０３は、重要特徴量ａ_i（ｉ＝１，２，・・・，ｍ）と類似する特徴量を非重要特徴量ｃから選択する。ここで、特徴量生成部３０３は、類似するかどうかの基準として、例えば相関係数ｒを用い、特徴量ａ_iと類似する特徴量を非重要特徴量ｃ_j（ｊ＝１，２，・・・，ｎ）から選択する。相関係数ｒは、式（１１）により算出する。

式（１１）において、特徴量生成部３０３は、重要特徴量ａ_iと非重要特徴量ｃ_jとを比較して、相関係数ｒを算出している。
ここで、もし重要特徴量ａ₁と相関が高い非重要特徴量がｃ₃であった場合、特徴量生成部３０３は、入力層の１番目のユニットには非重要特徴量ｃ₃をセットする。また例えば、重要特徴量ａ₂と相関が高い非重要特徴量がｃ₅であった場合、特徴量生成部３０３は、入力層の２番目のユニットには非重要特徴量ｃ₅をセットする。このように、特徴量生成部３０３は、ｉ＝１，２，・・・，ｎで繰り返すことにより、最も類似する非重要特徴量を選択し、順番に入力層のユニットにセットしていく。

また、特徴量生成部３０３は、ある重要特徴量ａ_kと最も相関の高い非重要特徴量が、既に他の重要特徴量ａ_lに対応するとしてセットされてしまっている場合、重要特徴量ａ_kに対応するユニットには、元のａ_kをセットする。
特徴量生成部３０３は、これらの処理を行い、オートエンコーダの入力層のユニットに非重要特徴量を入力し、入力層のユニットに対応する非重要特徴量から出力層のユニットに対応する非重要特徴量を算出する。そして、特徴量生成部３０３は、それら入力層と出力層を比較することにより、非重要特徴量を評価する。

以上、第３実施形態では、非重要特徴量から重要特徴量に類似する特徴量を入力層に割り当てることで、重要特徴量に類似した非重要特徴量を選択している。これにより、非重要特徴量の出力層に対応する変換ベクトルをより高い精度で算出することができるようになる。そして、第３実施形態においては、重要特徴量と変換ベクトルで表された非重要特徴量を用いて、認識処理を行うことにより、結果的に、より精度の高い認識処理を行うことができる。

＜第４実施形態＞
第１実施形態の情報処理システムは、重要特徴量からオートエンコーダを用いて変換規則を算出し、非重要特徴量から認識に必要な情報を抽出した上で、認識処理を行っている。
これに対し、第４実施形態の情報処理システムは、スパースコーディングを用いて変換規則を算出し、非重要領域をより精度良く評価する例を挙げる。第４実施形態における情報処理システムの構成、情報処理装置１０１のハードウェア構成及び機能構成は、第１実施形態と同様であるためそれらの図示と説明は省略する。

図１０は、第４実施形態の場合の図４のフローチャートのＳ４０４における特徴量変換規則の算出処理、及び、非重要特徴量から重要成分を抽出する処理の流れを示すフローチャートである。
図１０のＳ１００１において、変換規則算出部３０２は、図４のＳ４０４でセットした重要特徴量から特徴量変換規則を算出する。第４実施形態の場合、変換規則を算出するために、例えば特開２０１０−７５６１６号公報等に開示されているスパースコーディングを利用する。

スパースコーディングとは、入力信号に対し、辞書の中からその入力信号の特徴となる少数の基底を選び線形和で表現し復元する手法である。ここでは特徴量変換規則を算出するために、ユーザが指定した重要領域の画像に対し、スパースコーディングにおいて用いる辞書である基底ベクトルからなる基底行列を生成し、その基底行列を用いて画像に対するスパースコーディングを行う。

また、第４実施形態において、変換規則算出部３０２は、重要領域をＭ×Ｍ画素の部分画像に分割する。そして、変換規則算出部３０２は、Ｍ×Ｍ画素の部分画像の各画素の画素値を特徴量ベクトルの要素として、特徴量ベクトルを算出する。ここでは、スパースコーディングを用いて、できるだけ少ない基底の線形和で信号を復元する。
スパースコーディングを用いて、係数ベクトルｘ^*を算出する方法を式（１２）に示す。

式（１２）において、ｙは入力信号、Ａは基底の集合（辞書）であり、最小化の解として、スパースな係数ベクトルｘ^*が得られる。また、式（１２）において、ａｒｇｍｉｎ内の第一項が入力信号ｙと復元信号Ａｘとのユークリッドノルムの二乗誤差を表し、第二項が特徴ベクトルｘのノルムを表している。変換規則算出部３０２は、ここで算出された係数ベクトルｘ^*を用いて、復元信号Ａｘ^*を算出する。

次に、Ｓ１００２において、特徴量生成部３０３は、非重要領域にある部分画像に対し、Ｓ１００１と同様に画素値に基づいて特徴ベクトルを算出する。そして、特徴量生成部３０３は、Ｓ１００１で算出された基底の集合Ａを特徴量変換規則として用いて、非重要領域の部分領域から算出した特徴ベクトルの変換を行う。

また、特徴量生成部３０３は、非重要領域の部分画像に対し、画素値に基づく特徴ベクトルと、特徴量変換規則Ａにより変換した後のベクトルの差分値を用いることにより、非重要領域の部分画像が重要であるかどうかを判定する。さらに特徴量生成部３０３は、式（１３）により、非重要領域ｉの入力部分画像の画素値に基づく入力特徴ベクトルと、出力部分画像の画素値に基づく出力特徴ベクトルとを比較して、評価値ｄｉｆｆ_iを求める。そして、特徴量生成部３０３は、その評価値ｄｉｆｆ_iを用い、分割された非重要特徴量に重要成分が含まれるかどうかを判断する。なお、式（１３）において、Ｄは部分画像の画素数、ｙ_(i),jは非重要領域の入力画像のｊ番目の画素値、Ａｘ_(i),jは非重要領域の変換後画像のｊ番目の画素値を示す。

以上、第４実施形態では、認識する上で重要となる部分画像（局所領域）を重要領域として設定し、その特徴量を重要特徴量として抽出し、重要領域以外の局所領域を非重要領域として設定して、その特徴量を非重要特徴量として抽出する。そして、第４実施形態では、スパースコーディングを用いて、重要特徴量から変換規則を算出し、非重要領域を評価している。第４実施形態によれば、非重要領域を評価することにより、認識に適合する非重要領域を選択することができる。

＜第５実施形態＞
第１実施形態から第４実施形態までの情報処理システムは、検査対象物１０４の外観検査を対象として、特徴量の変換処理を行っている。
これに対し、第５実施形態では、話者認識のタスクを行う。以下、図１１と図１２を用いて第５実施形態について詳細に述べる。
図１１は、第５実施形態における情報処理システムの構成例を示す図である。

第５実施形態の情報処理装置１１０１は、話者認識を行う装置である。情報処理装置１１０１は、音声録音装置１１０２と音声録音装置１１０３によりそれぞれ録音された音声データを、入力データとして取得する。音声録音装置１１０２は、発話者１１０５の音声を聞き取り易い所に置かれた、話者の認識に比較的寄与すると考えられる音声の録音を行うための装置である。音声録音装置１１０３は、音声録音装置１１０２と比べて、発話者１１０５の音声を聞き取り難い所に置かれた、話者の認識に比較的寄与しないと考えられる音声の録音を行うための装置である。ユーザ表示装置１１０４は、発話者１１０５の音声録音結果を表示するための装置である。ユーザ表示装置１１０４は、モニタ等から構成され、情報処理装置１１０１から送信される情報処理結果を表示する。発話者１１０５は音声を発して会話を行い、したがってその会話の音声が音声録音装置１１０２及び音声録音装置１１０３により録音される。本実施形態の情報処理システムにおいて、情報処理装置１１０１のハードウェア構成は、図２に示した第１実施形態の情報処理装置１０１と同様であるため、その図示は省略する。また、第５実施形態の情報処理装置１１０１の機能構成は、図３に示した第１実施形態の情報処理装置１０１の機能構成と基本的には同じであるが、各機能部において扱うデータが音声データとなされていることが前述とは異なる。

第５実施形態の情報処理装置１１０１において、図３の特徴量抽出部３０１は、音声録音装置１１０２と音声録音装置１１０３とから音声データを入力データとして取得する。そして、特徴量抽出部３０１は、取得した音声データから音韻特徴量を算出（抽出）する。さらに、特徴量抽出部３０１は、それら抽出した音韻特徴量を第１の特徴量と第２の特徴量とに分け、第１の特徴セットと第２の特徴セットにする。本実施形態において、第１の特徴量は重要音韻特徴量であり、第２の特徴量は非重要音韻特徴量である。すなわち第５実施形態の場合、音声録音装置１１０２で録音された、発話者１１０５の音声の認識に寄与すると考えられる音声データから抽出された音韻特徴量が、重要音韻特徴量となされる。一方、音声録音装置１１０３で録音された、発話者１１０５の音声の認識に比較的寄与しないと考えられる音声データから抽出された音韻特徴量は、非重要音韻特徴量となされる。第５実施形態で利用される音韻特徴量の詳細は、後述する図１２のフローチャートで説明する。そして、特徴量抽出部３０１は、取得した重要音韻特徴量と非重要音韻特徴量を変換規則算出部３０２に送る。また、特徴量抽出部３０１は、判定対象の音声データをテストデータとして識別器判定部３０４に送る。

第５実施形態の変換規則算出部３０２は、重要音韻特徴量から特徴量変換規則を算出する。第５実施形態の変換規則算出部３０２における特徴量変換規則の詳細については後述する。変換規則算出部３０２にて算出された特徴量変換規則の情報は、重要音韻特徴量及び非重要音韻特徴量と共に特徴量生成部３０３に送られる。

第５実施形態の特徴量生成部３０３は、変換規則算出部３０２にて算出された特徴量変換規則を基に、非重要音韻特徴量のセットから、重要音韻特徴量と類似する認識に寄与する重要成分を抽出又は生成する。第５実施形態において非重要音韻特徴量から抽出又は生成される重要成分の詳細については後述する。特徴量生成部３０３にて生成された重要成分は、重要音韻特徴量と共に識別器判定部３０４に送られる。

識別器判定部３０４は、重要音韻特徴量と重要成分のセットを用いて識別モデルを生成し、その識別モデルと、特徴量抽出部３０１から得られた音韻特徴量とを用いて、話者認識を行う。そして、この識別器判定部３０４による認識結果が、情報処理装置１０１の話者認識結果として、表示装置１０３へ出力されることになる。

以下、第５実施形態の情報処理装置１１０１において、話者認識のタスクを行う際の詳細な処理を、図１２のフローチャートを用いて説明する。この図１２のフローチャートにおいて、前述の実施形態と概ね同じ処理は省略しており、異なる処理を中心に説明する。
図１２のフローチャートのＳ１２０１において、特徴量抽出部３０１は、先ず、音声データから音声の認識に寄与する重要音韻特徴量を抽出する。ここで、認識に寄与する重要音韻特徴量とは、音声録音装置１１０２で録音された、発話者１１０５の音声の認識に寄与すると考えられる音声データから抽出された音韻特徴量である。すなわち、Ｓ１２０１において、特徴量抽出部３０１は、音声認識に寄与すると考えられる音声録音装置１１０２の音声データから重要音韻特徴量を抽出する。

本実施形態では、音韻特徴量の例として、ＭＦＣＣ特徴量とΔＭＦＣＣ特徴量を用いる。以下、ＭＦＣＣ特徴量とΔＭＦＣＣ特徴量の算出方法について説明する。
ＭＦＣＣとはメル周波数ケプストラム係数の略であり、ＭＦＣＣ特徴量とはケプストラム特徴量の一つである。ＭＦＣＣ特徴量の算出では、音声信号における周波数の偏りを修正するため、高周波成分を強調させる処理を行う。そして、本実施形態では、このＭＦＣＣ特徴量に加えて、ΔＭＦＣＣ特徴量を用いる。ΔＭＦＣＣ特徴量とは、ＭＦＣＣ特徴量に対し、時間変化を考慮した特徴量である。したがって、本実施形態において音声の認識処理が行われる際には、静的なＭＦＣＣ特徴量に加え、ΔＭＦＣＣ特徴量を用いた認識処理が行われる。

次に、Ｓ１２０２において、特徴量抽出部３０１は、音声録音装置１１０３からの音声データ、つまり音声録音装置１１０２の音声データほどは認識に重要でないと考えられる音声データから、重要音韻特徴量を抽出する。すなわち、Ｓ１２０１では、話者認識において重要と考えられる音声データから重要音韻特徴量を抽出したが、Ｓ１２０２では、重要でないと考えられる音声データから非重要音韻特徴量の抽出を行う。Ｓ１２０２においても、音韻特徴量として、Ｓ１２０１で用いたＭＦＣＣ特徴量とΔＭＦＣＣ特徴量を算出する。

次に、Ｓ１２０３において、変換規則算出部３０２は、重要音韻特徴量から特徴量変換規則を算出し、非重要音韻特徴量から重要成分を抽出する。ここでは、話者認識に重要な音韻特徴量の情報が保持されるように、オートエンコーダなどの手法により重要音韻特徴量から変換規則を求める。第５実施形態においても、特徴ベクトルｘ_iに対し、特徴変換行列Ｗに基づく変換式のｆ'（Ｗ'ｆ（Ｗｘ_i））との差の二乗和が、最小になるように特徴変換行列Ｗを算出する。

そして、特徴量生成部３０３は、変換規則算出部３０２にて算出された特徴変換行列Ｗを用いて、非重要音韻特徴量を変換する。このときの変換規則算出部３０２は、変換前の非重要音韻特徴量ｘ_niと変換後の非重要音韻特徴量ｘ_ni'とを比較し、差分に基づく評価値を算出し、評価値が良い特徴量を重要成分として取得する。このＳ１２０３における非重要音韻特徴量から重要音韻特徴量を抽出する処理は、前述した図５と同様の処理である。

次に、Ｓ１２０４において、識別器判定部３０４は、Ｓ１２０１及びＳ１２０３で算出した二つの異なる種類の特徴量（重要音韻特徴量、非重要音韻特徴量）を結合して、不確定な時系列データをモデル化する。不確定な時系列データのモデル化には、例えば、隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いたモデル化を挙げることができる。隠れマルコフモデルの手法については、特許第６００４３５８号公報に具体的に記述されているので、ここでは説明を省略する。そして、識別器判定部３０４は、そのモデルを基に、学習を行う。これにより、識別器判定部３０４では、判定対象の音声データであるテストデータに対する話者認識が可能となる。

以上説明したように、第５実施形態の情報処理システムは、人の会話の音声を用いた話者認識が可能となる。第５実施形態では、重要音韻特徴量と非重要音韻特徴量を取得し、重要音韻特徴量からオートエンコーダなどを用いて特徴量変換規則を算出し、非重要音韻特徴量から認識に必要な情報を抽出することで非重要音韻特徴量を有効利用した認識を行う。このような音韻特徴量を用いた認識処理は、音声以外の異常行動の検出、インターネットのトラフィックの異常点検出等にも適用可能である。第５実施形態の情報処理システムにおいても前述の実施形態同様に、精度の高い認識処理を実現可能である。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

上述の実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

１０１：情報処理装置、１０２：画像撮影装置、１０３：表示装置、１０４：検査対象物、１０５：光源、３０１：特徴量抽出部、３０２：変換規則算出部、３０３：特徴量生成部、３０４：識別器判定部

Claims

第１の特徴セットと第２の特徴セットとを取得するセット取得手段と、
前記第１の特徴セットを元の特徴セットに復元可能に変換する変換規則を取得する規則取得手段と、
前記変換規則を基に、前記第２の特徴セットから第３の特徴セットを生成する生成手段と、
前記第１の特徴セットと前記第３の特徴セットとを用いて、入力データに対する所定の認識処理を行う認識手段と、
を有することを特徴とする情報処理装置。
前記セット取得手段は、前記入力データに含まれる第１の領域から抽出した第１の特徴量を含む前記第１の特徴セットを取得し、前記入力データに含まれる第２の領域から抽出した第２の特徴量を含む前記第２の特徴セットを取得することを特徴とする請求項１に記載の情報処理装置。
前記セット取得手段は、前記認識処理に対する寄与度が高い前記第１の領域から前記第１の特徴セットを取得し、前記認識処理に対する寄与度が前記第１の領域より低い前記第２の領域から前記第２の特徴セットを取得することを特徴とする請求項２に記載の情報処理装置。
前記セット取得手段は、複数の特徴量を特徴選択により分離した際の分離度が、所定の閾値以上となった特徴量を前記第１の特徴セットとし、前記所定の閾値未満となった特徴量を前記第２の特徴セットとして取得することを特徴とする請求項１に記載の情報処理装置。
前記規則取得手段は、前記第２の特徴セットに対して前記変換規則に基づく変換を行い、前記変換した後の前記第２の特徴セットから、前記第１の特徴セットに類似する成分を取得して前記第３の特徴セットとすることを特徴とする請求項１から４のいずれか１項に記載の情報処理装置。
前記規則取得手段は、前記第２の特徴セットに対して前記変換規則に基づく変換を複数回行い、前記変換した後の前記第２の特徴セットから、前記前記第１の特徴セットに類似する前記成分を取得して前記第３の特徴セットとすることを特徴とする請求項５に記載の情報処理装置。
前記生成手段は、前記第２の特徴セットの複数の特徴量をそれぞれ前記変換規則により変換した結果に対する評価値に基づき選択された特徴量により構成された前記第３の特徴セットを生成することを特徴とする請求項１から６のいずれか１項に記載の情報処理装置。
前記生成手段は、前記変換がなされた後の特徴量から元の特徴量を復元した際の、元の特徴量との誤差を基に、前記評価値を算出することを特徴とする請求項７に記載の情報処理装置。
前記規則取得手段は、オートエンコーダを含むことを特徴とする請求項１から８のいずれか１項に記載の情報処理装置。
前記規則取得手段は、複数の前記第１の特徴セットを用いて算出した前記オートエンコーダの変換行列を含む前記変換規則を取得することを特徴とする請求項９に記載の情報処理装置。
前記オートエンコーダの変換行列は、オートエンコーダの結合荷重及びバイアスを含むことを特徴とする請求項１０に記載の情報処理装置。
前記入力データは画像のデータであり、
前記規則取得手段は、画像の画素値の変換を行う前記変換規則を取得することを特徴とする請求項１から１１のいずれか１項に記載の情報処理装置。
前記変換規則は、スパースコーディングにより、前記画像の画素値の変換を行う規則であることを特徴とする請求項１２に記載の情報処理装置。
前記入力データは音声のデータであり、
前記規則取得手段は、音声の音韻を表す値の変換を行う前記変換規則を取得することを特徴とする請求項１から１１のいずれか１項に記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
第１の特徴セットと第２の特徴セットとを取得するセット取得工程と、
前記第１の特徴セットを元の特徴セットに復元可能に変換する変換規則を取得する規則取得工程と、
前記変換規則を基に、前記第２の特徴セットから第３の特徴セットを生成する生成工程と、
前記第１の特徴セットと前記第３の特徴セットとを用いて、入力データに対する所定の認識処理を行う認識工程と、
を有することを特徴とする情報処理方法。
コンピュータを、請求項１から１４のいずれか１項に記載の情報処理装置の各手段として機能させるためのプログラム。