JP2019106111A - 情報処理装置、情報処理方法、及びプログラム - Google Patents
情報処理装置、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- JP2019106111A JP2019106111A JP2017239566A JP2017239566A JP2019106111A JP 2019106111 A JP2019106111 A JP 2019106111A JP 2017239566 A JP2017239566 A JP 2017239566A JP 2017239566 A JP2017239566 A JP 2017239566A JP 2019106111 A JP2019106111 A JP 2019106111A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- feature set
- information processing
- important
- conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】精度の高い認識処理を可能にすることを課題とする。【解決手段】情報処理装置(101)は、第1の特徴セットと第2の特徴セットとを取得するセット取得手段(301)と、第1の特徴セットを元の特徴セットに復元可能に変換する変換規則を取得する規則取得手段(302)と、変換規則を基に、第2の特徴セットから第3の特徴セットを生成する生成手段(303)と、第1の特徴セットと第3の特徴セットとを用いて、入力データに対する所定の認識処理を行う認識手段(304)と、を有する。【選択図】図3
Description
本発明は、画像認識、音声認識等に用いられる技術に関する。
画像認識や音声認識等の技術では、画像、音声から特徴量を抽出し、その特徴量を用いた認識処理が行われている。一例として、顔画像による個人認識技術では、例えば目や口元などの画像領域の特徴量を抽出し、それらの特徴量を用いた認識処理が行われる。また、特徴量を抽出する際に、異なるタイプの特徴量を抽出して、それら異なるタイプの特徴量を用いることで、認識精度を高めるような技術も提案されている。例えば、特許文献1には、異なる二つのタイプの特徴量に対し、それぞれ特徴量の属性情報に基づく重みを付け、それら重みに応じて合成した特徴量を用いることにより、高い精度の認識を可能にする技術が開示されている。
しかしながら、前述したように異なるタイプの特徴量を抽出してそれらを認識処理に用いる場合であっても、精度の高い認識が行えなくなることがある。例えば、特徴量の抽出の際に、精度の高い認識に寄与する特徴量が十分に得られていないような場合には、認識の精度を高めることが難しくなることがある。したがって、画像認識技術、音声認識技術等では、精度の高い認識に寄与する特徴量が十分に得られない場合であっても、高い精度の認識を可能にすることが望まれる。
そこで、本発明は、精度の高い認識処理を可能にすることを目的とする。
本発明の情報処理装置は、第1の特徴セットと第2の特徴セットとを取得するセット取得手段と、前記第1の特徴セットを元の特徴セットに復元可能に変換する変換規則を取得する規則取得手段と、前記変換規則を基に、前記第2の特徴セットから第3の特徴セットを生成する生成手段と、前記第1の特徴セットと前記第3の特徴セットとを用いて、入力データに対する所定の認識処理を行う認識手段と、を有することを特徴とする。
本発明によれば、精度の高い認識処理が可能となる。
以下、添付図面を参照して本発明の実施形態について説明する。
本実施形態では、情報処理システムにおいて、検査ライン上で検査対象物が運ばれており、その検査ライン上の検査対象物の画像を撮影して検査し、その検査結果を表示するタスクを例として説明を行う。
<第1実施形態>
図1は、第1実施形態の情報処理システムの一構成例を示す図である。検査対象物104は、本実施形態における検査対象であり、不図示の検査ラインにより運ばれているとする。画像撮影装置102は、検査対象物104を可視化するために、光源105から検査対象物104に照射された光を受光して、当該検査対象物104の画像を撮影する。画像撮影装置102が撮影した検査対象物104の撮影画像は、情報処理装置101に送られる。情報処理装置101は、画像撮影装置102からの撮影画像を用いて、検査ライン上の検査対象物104を検査し、その検査結果を表示装置103に出力する。表示装置103は、モニタ等から構成され、情報処理装置101から送られた検査結果を示す画像や情報等を表示する。
本実施形態では、情報処理システムにおいて、検査ライン上で検査対象物が運ばれており、その検査ライン上の検査対象物の画像を撮影して検査し、その検査結果を表示するタスクを例として説明を行う。
<第1実施形態>
図1は、第1実施形態の情報処理システムの一構成例を示す図である。検査対象物104は、本実施形態における検査対象であり、不図示の検査ラインにより運ばれているとする。画像撮影装置102は、検査対象物104を可視化するために、光源105から検査対象物104に照射された光を受光して、当該検査対象物104の画像を撮影する。画像撮影装置102が撮影した検査対象物104の撮影画像は、情報処理装置101に送られる。情報処理装置101は、画像撮影装置102からの撮影画像を用いて、検査ライン上の検査対象物104を検査し、その検査結果を表示装置103に出力する。表示装置103は、モニタ等から構成され、情報処理装置101から送られた検査結果を示す画像や情報等を表示する。
図2は、第1実施形態の情報処理装置101のハードウェア構成の一例を示す図である。情報処理装置101は、CPU201、主記憶装置202、補助記憶装置203、入力I/F204、出力I/F205を含む。CPU201、主記憶装置202、補助記憶装置203、入力I/F204、出力I/F205は、システムバス206を介して、相互に接続されている。
CPU201は、情報処理装置101の制御及び後述する各種処理を行う中央演算装置である。補助記憶装置203は、後述する学習用の正常データ、各種設定値、各種閾値等のデータ、本実施形態のプログラムを含む各種のプログラム等を記憶する記憶装置である。主記憶装置202は、CPU201のワークエリア、補助記憶装置203から読み出されたプログラムの展開等に用いられる記憶装置である。なお、本実施形態に係るプログラムは、補助記憶装置203に予め用意されている場合だけでなく、着脱可能な半導体メモリ等から読み出されたり、不図示のインターネット等のネットワークからダウンロードされたりしてもよい。
入力I/F204は、情報処理装置101がユーザなどから入力を受け付ける際に利用されるユーザインターフェースと、外部装置からの入力データ等を受け付ける際のインターフェースとを含む。CPU201は、入力I/F204を介して、ユーザなどからの入力や画像撮影装置102からの撮影画像等を取得できる。また、CPU201は、主記憶装置202に展開されたプログラムを実行することで、後述する図3に示す本実施形態の情報処理装置101の機能や図4、図5、図7、図9、図10、図12の各フローチャートの処理を実現する。出力I/F205は、情報処理装置101が、表示装置103等の外部装置へデータを出力する際などに利用されるインターフェースである。本実施形態の場合、CPU201は、この出力I/F205を介して、検査結果の情報等を、表示装置103へ出力する。
図3は、情報処理装置101の機能構成の一例を示す図である。図3に示す各機能部は、ソフトウェア構成又はハードウェア構成により実行されてもよいし、一部がソフトウェア構成で残りがハードウェア構成により実現されてもよい。本実施形態では、例えば本実施形態のプログラムをCPU201が実行することにより、図3の各機能部の処理が実現される例を挙げる。図3に示すように、情報処理装置101の各機能部には、特徴量抽出部301、変換規則算出部302、特徴量生成部303、識別器判定部304が含まれる。
特徴量抽出部301は、補助記憶装置203等から複数の学習用の画像データ(以下、学習用の正常データとする。)を入力データとして取得する。また、特徴量抽出部301は、画像撮影装置102にて検査対象物104を撮影した画像データ(以下、判定対象の画像データとする。)を入力データとして取得する。そして、特徴量抽出部301は、取得した画像データから特徴量を算出(抽出)する。さらに、特徴量抽出部301は、それら抽出した特徴量を第1の特徴量と第2の特徴量とに分け、第1の特徴量よりなる第1の特徴セットと第2の特徴量よりなる第2の特徴セットにするセット取得処理を行う。本実施形態において、第1の特徴量は後述する重要特徴量であり、第2の特徴量は後述する非重要特徴量であり、以下、第1の特徴量を重要特徴量、第2の特徴量を非重要特徴量と表記する。特徴量抽出部301が抽出する特徴量の詳細、それら抽出された特徴量から分けられる重要特徴量(第1の特徴量)及び非重要特徴量(第2の特徴量)の詳細は後述する。特徴量抽出部301は、取得した重要特徴量と非重要特徴量のセット(第1の特徴セットと第2の特徴セット)を、変換規則算出部302に送る。また、特徴量抽出部301は、判定対象の画像データ(検査対象物104を撮影した画像データ)をテストデータとして識別器判定部304にも送る。
変換規則算出部302は、重要特徴量(第1の特徴セット)から特徴量変換規則を算出する規則取得処理を行う。特徴量変換規則は、重要特徴量に所定の変換処理を行った後の情報を、元の重要特徴量に略復元可能にするような変換規則である。変換規則算出部302における特徴量変換規則の詳細については後述する。変換規則算出部302にて算出された特徴量変換規則の情報は、重要特徴量と非重要特徴量のセットと共に特徴量生成部303に送られる。
特徴量生成部303は、変換規則算出部302にて算出された特徴量変換規則を基に、非重要特徴量(第2の特徴量)から第3の特徴量を抽出又は生成し、第3の特徴セットとする。本実施形態の場合、特徴量生成部303は、第3の特徴量として、非重要特徴量から重要特徴量と類似する認識に寄与する重要成分を抽出又は生成する。以下、第3の特徴量を重要成分と表記する。非重要特徴量から抽出又は生成される重要成分の詳細については後述する。特徴量生成部303にて生成された重要成分(第3の特徴セット)は、重要特徴量と共に識別器判定部304に送られる。
識別器判定部304は、重要特徴量と重要成分を用いて識別モデルを生成し、その識別モデルと、検査対象物104の画像データ(判定対象の画像データ)から取得された特徴量とを用いて、判定対象の画像データの正常度又は異常度を算出する。さらに、識別器判定部304は、その正常度又は異常度を閾値処理することにより、検査対象物104内の異常部分の有無を判定する。識別器判定部304における正常度又は異常度の算出、当該算出した正常度又は異常度に基づく検査対象物104の判定の詳細については後述する。この識別器判定部304による判定結果が、情報処理装置101の検査結果として、表示装置103へ出力されることになる。
図4は、図3に示した情報処理装置101の機能構成により行われる情報処理の一例を示すフローチャートである。本実施形態では、検査対象物104の検査処理を例に挙げて、ステップS401〜ステップS408の処理を説明する。なお、以下の説明では、図4のフローチャートの各ステップS401〜ステップS408をS401〜S408と略記する。このことは、後述する他のフローチャートにおいても同様とする。
S401において、情報処理装置101の特徴量抽出部301は、補助記憶装置203等から複数の学習用の正常データを取得する。また、特徴量抽出部301は、画像撮影装置102にて検査対象物104を撮影した判定対象の画像データを取得する。なお、画像撮影装置102が動画を撮影している場合、画像撮影装置102は検査対象物104が所定の位置に到達した時点の静止画(フレーム)を取得する。したがって、この場合の特徴量抽出部301は、当該静止画の画像データを判定対象として取得する。なお、画像撮影装置102にて撮影された静止画の一部の領域のみに検査対象物104が写っている場合、特徴量抽出部301は、当該静止画内で検査対象物104に対応した検査対象領域のみを判定対象とする。
次にS402において、特徴量抽出部301は、S401で取得した学習用の正常データ又は判定対象の画像データから特徴量を抽出する。
以下、特徴量を抽出する例について説明する。
複数の特徴量を抽出する場合には、例えば特徴量抽出の対象画像の注目領域に対してハール・ウェーブレット(Haar Wavelet)変換をかけて、階層的に画像を生成する。ハール・ウェーブレット変換処理とは、入力された画像データについて位置情報を保持したまま周波数変換する処理である。本実施形態では、特徴量抽出部301は、S401で取得した画像データの特徴量を算出する処理として、ハール・ウェーブレット変換処理を用いる。
以下、特徴量を抽出する例について説明する。
複数の特徴量を抽出する場合には、例えば特徴量抽出の対象画像の注目領域に対してハール・ウェーブレット(Haar Wavelet)変換をかけて、階層的に画像を生成する。ハール・ウェーブレット変換処理とは、入力された画像データについて位置情報を保持したまま周波数変換する処理である。本実施形態では、特徴量抽出部301は、S401で取得した画像データの特徴量を算出する処理として、ハール・ウェーブレット変換処理を用いる。
特徴量抽出部301は、一つの入力画像からハール・ウェーブレット変換処理を用いて階層的に生成した合計N種類の画像に対して、それぞれ画素値の最大値を用いて、特徴量を算出する。つまり、特徴量抽出部301は、一つの入力画像から、一つずつ特徴量を抽出するので、合計N種類の画像それぞれについて統計特徴量を1種類ずつ抽出する。結果的に、特徴量抽出部301は、一つの入力画像から合計でN個の特徴量を抽出する。
本実施形態では、特徴量抽出部301は、ハール・ウェーブレット変換を用いることとしたが、その他の、例えばウェーブレット変換、エッジ抽出、フーリエ変換、ガボール変換等の変換手法を用いてもよい。また、局所領域(K×Lの領域)の画素値そのものを特徴量として用いてもよい。ここでは、領域の画素数が特徴量となるので、入力層にK×L次元の二次元のユニットが用いられる。
このように、S402において、特徴量抽出部301は、学習用の正常データと判定対象(検査対象領域)の画像データから、それぞれ複数の特徴量を抽出することができる。なお、学習用の正常データの特徴量については、予め算出して例えば補助記憶装置203に記憶しておいてもよい。この場合、S401では検査対象物104を撮影した判定対象の画像データのみ取得され、S402では判定対象の画像データのみから特徴量が抽出されることになる。
次にS403において、特徴量抽出部301は、S402で算出した特徴量を重要特徴量と非重要特徴量とに分け、それら重要特徴量のセット(第1の特徴セット)、非重要特徴のセット(第2の特徴セット)とする。
ここで、画像認識処理等において算出される特徴量には、一般的に、認識に対する寄与度が高い特徴量と、認識に対する寄与度が低い特徴量とがある。一例として、顔画像による個人認識等の場合、認識に寄与すると考えられる特徴量としては、例えば目や口元の領域から抽出した特徴量が挙げられる。一方、頬や額の領域から抽出した特徴量は、顔画像による個人認識等において、それほど認識に寄与しないと考えられる。本実施形態では、認識に対する寄与度が高いと考えられる第1の領域を重要領域と呼び、その重要領域から抽出された特徴量を重要特徴量としている。また本実施形態において、重要領域ほど認識に対する寄与度が高くない(寄与度が低い)と考えられる第2の領域を非重要領域と呼び、その非重要領域から抽出された特徴量を非重要特徴量としている。
ここで、画像認識処理等において算出される特徴量には、一般的に、認識に対する寄与度が高い特徴量と、認識に対する寄与度が低い特徴量とがある。一例として、顔画像による個人認識等の場合、認識に寄与すると考えられる特徴量としては、例えば目や口元の領域から抽出した特徴量が挙げられる。一方、頬や額の領域から抽出した特徴量は、顔画像による個人認識等において、それほど認識に寄与しないと考えられる。本実施形態では、認識に対する寄与度が高いと考えられる第1の領域を重要領域と呼び、その重要領域から抽出された特徴量を重要特徴量としている。また本実施形態において、重要領域ほど認識に対する寄与度が高くない(寄与度が低い)と考えられる第2の領域を非重要領域と呼び、その非重要領域から抽出された特徴量を非重要特徴量としている。
また、本実施形態では、認識処理の例として検査対象物104の検査を例に挙げているため、例えばユーザにより異常部分ありと教示された領域を重要領域とし、それ以外の領域(重要領域を除いた領域)を非重要領域とする。なお、ユーザにより異常なしと教示された領域を非重要領域とし、それ以外の領域(非重要領域を除いた領域)を重要領域としてもよい。したがって、特徴量抽出部301は、S403で算出した特徴量の算出位置が重要領域に含まれる場合の当該特徴量を重要特徴量に分類し、特徴量の算出位置が非重要領域に含まれる場合の当該特徴量を非重要特徴量に分類する。そして、本実施形態では、重要特徴量が第1の特徴セット、非重要特徴量が第2の特徴セットとなされる。
なお、ここでは重要領域から重要特徴量を、非重要領域から非重要特徴量を抽出するとしたが、例えば特徴量を重要な特徴とそれ以外とに分離する特徴選択を行い、その特徴選択時の分離度を基に重要特徴量と非重要特徴量のセットとしても良い。例えば、特徴選択において、分離度が所定の閾値以上と判定した特徴量を重要特徴量としてセットし、分離度が所定の閾値未満と判定した特徴量を非重要特徴量としてセットしてもよい。
ところで、例えば重要領域から抽出された重要特徴量のセットのみを用いて認識処理を行うようにすると、例えば重要特徴量が少ない場合には、精度の高い識別ができなくなることがある。例えば、本実施形態のように、ユーザにより教示された重要領域から抽出された重要特徴量の中には認識に寄与しない特徴量が含まれることがあり、認識に寄与する特徴量が少ない場合には精度の高い識別ができなくなることがある。
その一方で、非重要領域から抽出される非重要特徴量の中には認識に寄与する特徴量が含まれる場合がある。このような場合、例えば重要特徴量に加えて非重要特徴量をも有効利用することができれば、認識性能を更に向上させることが可能になると考えられる。そして、認識処理において、非重要特徴量を利用する場合には、当該非重要特徴量の中から、認識に寄与する有効な情報を抽出することが必要となる。そこで、本実施形態では、重要特徴量に加え、非重要特徴量から重要特徴量と類似した識別に有効な重要成分を抽出して利用することにより、認識性能を向上させることを可能にしている。
本実施形態の場合、S404において、変換規則算出部302は、S403でセットした重要特徴量(第1の特徴セット)から、後述する特徴量変換規則を算出する。なお、特徴量変換規則については、例えば特許第3979136号公報に記載の技術を用いることで算出可能である。特許第3979136号公報には、オートエンコーダを用いて、重要特徴量の情報が保持されるように変換規則を求める技術が開示されている。
オートエンコーダの評価関数は、式(1)を用いて説明することができる。なお式(1)において、Wは特徴変換行列、W'は逆変換を行うための特徴変換行列、fは非線形処理である活性化関数、f'は活性化関数の逆変換、bは特徴変換を行うためのバイアス、b'は逆変換を行うためのバイアスである。
変換規則算出部302は、この式(1)により、特徴ベクトルxiに対し、特徴変換行列Wに基づく変換式f'(W'f(Wxi+b)+b')との差の二乗和が最小になるように、特徴変換行列Wを算出する。
またS404において、特徴量生成部303は、変換規則算出部302にて算出された特徴量変換規則Wを基に、非重要特徴量(第2の特徴量)を式(2)のように変換する。なお、式(2)中のxnlは変換前の非重要特徴量を示し、xnl'は変換後の非重要特徴量を示す。
さらに特徴量生成部303は、変換前の非重要特徴量xnlと式(2)による変換後の非重要特徴量xnl'とを比較し、特徴量間の差分に基づく評価値を特徴量ごとに算出する。そして、特徴量生成部303は、差分に基づく評価値が小さい特徴量を、第3の特徴量つまり重要成分として選択する。すなわち重要成分は、非重要特徴量の中で、重要特徴量に類似した識別に有効な特徴量(評価値が良い特徴量)であり、例えば重要特徴量のみでは認識精度が低くなる場合に、重要特徴量と共に用いることで認識性能を向上可能とするものである。
次にS405において、識別器判定部304は、S403でセットした重要特徴量とS404で算出された非重要特徴量の重要成分とを用いて、識別モデルの生成を行う。なお、図5にはS405における識別モデルの生成処理の詳細なフローチャートを示す。図5のフローチャートの詳細は後述する。
本実施形態では、部分空間法の一つである投影距離法を識別モデルの生成に用いる。投影距離とは、簡単に述べると、それぞれの特徴量を軸とする特徴空間における特徴ベクトルと、パターンの分布の分散が最大となる向きを持つ超平面(主平面)との最短距離である。以下、数式を用いて具体的に説明する。
ここで、共分散行列Σの第i番目の固有値をλi、固有ベクトルをφiとする。このとき固有値は降順で並んでいるものとする。このように、識別器判定部304は、学習用の正常データを用いて、正常データの平均ベクトルmと共分散行列Σから、識別モデルを生成する。
次にS406において、識別器判定部304は、交差確認法を用いて、S405で生成した識別モデルのパラメータを決定する。ここでは、S405おける部分空間の射影次元を決定する。以下、k−Fold交差確認法を用いてパラメータを決定する例について説明する。識別器判定部304は、学習用の正常データをランダムにk分割し、そのk分割したデータセットのうち、(k−1)個のデータセットで識別モデルの生成を行い、一つのデータセットで検証する。そして、識別器判定部304は、決定すべきパラメータ(部分空間の次元数)を順次変えながら、認識率の性能評価を行い、AUC(エリアアンダーカーブ:認識性能曲線の下部面積)が最も良いパラメータを選択する。なお、kはk=5程度に設定するのが適当である。
次にS407において、識別器判定部304は、判定対象の画像データであるテストデータに対する正常異常判定処理を行う。この時の識別器判定部304は、S403でセットした重要特徴量と、S404で算出された非重要特徴量の重要成分とを用いて、テストデータに対する特徴量抽出を行う。さらに、識別器判定部304は、S403で生成した識別モデルを用いてテストデータの正常異常判定を行う。ここで、式(3)で算出された平均ベクトルmと、式(4)で算出された主平面とを用いて、射影次元数lの場合のテストデータの特徴ベクトルxtに対する投影距離d(x)は式(5)で算出することができる。識別器判定部304は、式(5)で表される投影距離d(x)を算出し、その投影距離d(x)に対する閾値処理を行うことにより正常異常判定を行う。
なお、ここでは、部分空間法を用いて識別モデルを生成する例を挙げたが、例えばSVM等の他の識別器を用いて識別モデルを生成してもよい。
以下、図5のフローチャートを用いて、図4のS404における特徴量変換規則の算出、及び、その特徴量変換規則を用いて非重要特徴量から重要成分を抽出する処理の流れについて詳細に説明する。
先ずS501において、変換規則算出部302は、図4のS403でセットされた重要特徴量から、特徴変換行列Wとバイアスbを算出する。ここでは変換規則を算出するために、オートエンコーダを利用する。なお、以下の説明では、特徴変換行列Wとバイアスbとを纏めて特徴量変換規則W,bと表記する。
先ずS501において、変換規則算出部302は、図4のS403でセットされた重要特徴量から、特徴変換行列Wとバイアスbを算出する。ここでは変換規則を算出するために、オートエンコーダを利用する。なお、以下の説明では、特徴変換行列Wとバイアスbとを纏めて特徴量変換規則W,bと表記する。
オートエンコーダは、いわゆる教師無しのニューラルネットワークの一種であり、入力と出力の誤差を最小化するような、変換規則を算出する手法である。
図6は、重要特徴量から変換規則を算出し、その算出した変換規則に基づいて非重要特徴量を変換する概念図である。図6において、入力層と出力層は、同一数のニューロンをもっており、入力ベクトルと出力ベクトルの次元は同一次元となる。一般に、隠れ層のニューロンは、入力層と出力層と比べて少なくなっており、隠れ層のニューロンにより、次元圧縮がなされる。
図6は、重要特徴量から変換規則を算出し、その算出した変換規則に基づいて非重要特徴量を変換する概念図である。図6において、入力層と出力層は、同一数のニューロンをもっており、入力ベクトルと出力ベクトルの次元は同一次元となる。一般に、隠れ層のニューロンは、入力層と出力層と比べて少なくなっており、隠れ層のニューロンにより、次元圧縮がなされる。
変換処理601は、入力層のユニットに対応する特徴量の値a1 (1),a2 (1),a3 (1)に対し、出力層のユニットに対応する特徴量の値a1 (3),a2 (3),a3 (3)を得ている様子を示している。変換規則算出部302は、入力層と出力層のユニットに対応する特徴量の関係から、特徴量変換規則W,bを算出する。
変換処理602は、活性化関数fと特徴量変換規則W,bを用いて、入力層(第1層)の非重要特徴量c1 (1),c2 (1),c3 (1)を変換し、出力層(第3層)の非重要特徴量c1 (3),c2 (3),c3 (3)を得る様子を示している。
以降は、変換処理601で用いた入力層に対応するi番目データのj番目の次元のユニットに対応する重要特徴量をx(i),j、出力層に対応するi番目データのj番目の次元のユニットに対応する重要特徴量をxo(i),jで示す。また、変換処理602で用いた入力層に対応するi番目データのj番目の次元のユニットに対応する非重要特徴量をy(i),j、出力層に対応するi番目データのj番目の次元のユニットに対応する非重要特徴量をyo(i),jで示す。なお、aとcはオートエンコーダの層のインデックスに対応する特徴量を示すのに用いており、xとyはデータのインデックスに対応する特徴量を示すのに用いている。
式(6)において、fは活性化関数、nはl−1番目の層のユニット数、aj (l-1)はl−1番目の層のj番目のユニットに対応する重要特徴量を示している。また、Wij (l-1)はl−1番目の層に対応する結合荷重行列の(i,j)の要素、bj (l)はl番目の層のi番目のユニットに対応するバイアスを示している。活性化関数fに関しては、具体的にはシグモイド関数f=1/(1+e-x)を用いる。
変換規則算出部302は、式(7)で示された勾配法などの反復法によって、目的関数を最小化する特徴量変換規則W,bを算出し、そして、入力ベクトルと特徴量変換規則W,bを用いて、式(6)により出力ベクトルを算出する。
また、オートエンコーダを利用する際、一般に、異常の判定には再構成誤差が用いられる。再構成誤差とは、データごとの入力層のベクトルと出力層のベクトルの差のノルムをとったものである。入力ベクトルと出力ベクトルの関係から、再構成誤差は、式(8)により算出することができる。なお、式(8)において、Dは特徴ベクトルの次元数、x(i),jは入力層のi番目データのj番目の次元のユニットに対応する重要特徴量、xo(i),jは出力層のi番目データのj番目の次元のユニットに対応する重要特徴量を示す。
また一般に、オートエンコーダの学習に用いたデータと類似したデータに対しては、正しく再構成が行われるため、再構成誤差は小さくなるが、類似していないデータに対しては、学習がなされていないため、再構成誤差は大きくなる。したがって、この性質を用いることにより、入力層の特徴量と出力層の特徴量の差が表れない特徴量を、オートエンコーダの学習に用いたデータと類似したデータであると判定することができる。
次に、S502において、特徴量生成部303は、S501で算出された特徴量変換規則W,bを用いて、非重要特徴量を変換する。すなわち、特徴量生成部303は、活性化関数f、特徴量変換規則W,bを用いて、非重要特徴量cを式(9)に示すように変換する。なお、式(9)において、cj (l-1)はl−1番目の層のj番目の次元のユニットに対応する非重要特徴量を示す。
次に、S503において、特徴量生成部303は、S502での変換後の非重要特徴量から重要成分を抽出する。特徴量生成部303は、非重要特徴量から重要成分を抽出するために、式(10)を用いてj番目の特徴量の評価値diffjを算出する。なお、式(10)において、Nはデータ数、y(i),jはi番目データの入力層のj番目の次元のユニットに対応する非重要特徴量、yo(i),jはi番目のデータの出力層のj番目の次元のユニットに対応する非重要特徴量を示す。
このように、特徴量生成部303は、変換後の非重要特徴量に対し、評価値diffjを算出し、その値が小さくなるような特徴量を重要成分として選択する。したがって、その後、この重要成分の特徴量が認識に用いられることにより、非重要特徴量が有効活用されることになる。なお、選択される非重要特徴量は、S502の変換前の非重要特徴量を用いても良いし、S502の変換後の非重要特徴量を用いても良い。
以上、第1実施形態では、重要特徴量から変換規則を算出し、その変換規則を基に非重要特徴量から、重要特徴量と類似した認識に寄与する重要成分を抽出して、認識に利用可能としている。これにより、第1実施形態においては、より精度の高い認識処理を行うことができる。
<第2実施形態>
第1実施形態の情報処理システムでは、重要特徴量から変換規則を算出し、非重要特徴量から認識に必要な情報を抽出したうえで、認識処理を行っている。
第2実施形態では、非重要特徴量の多重変換を行うことで、変換規則を基に非重要特徴量から重要特徴量と類似した認識に寄与する情報を、より精度高く抽出する方法について説明する。第2実施形態における情報処理システムの構成、情報処理装置101のハードウェア構成及び機能構成は、第1実施形態と同様であるためそれらの図示と説明は省略する。
第1実施形態の情報処理システムでは、重要特徴量から変換規則を算出し、非重要特徴量から認識に必要な情報を抽出したうえで、認識処理を行っている。
第2実施形態では、非重要特徴量の多重変換を行うことで、変換規則を基に非重要特徴量から重要特徴量と類似した認識に寄与する情報を、より精度高く抽出する方法について説明する。第2実施形態における情報処理システムの構成、情報処理装置101のハードウェア構成及び機能構成は、第1実施形態と同様であるためそれらの図示と説明は省略する。
図7は、第2実施形態の場合の図4のフローチャートのS404における特徴量変換規則の算出処理、及び、特徴量変換規則を用いて非重要特徴量から重要成分を抽出する処理の流れを示すフローチャートである。なお、図7のS701、S703の処理は、それぞれ図5のS501、S503と同じ処理であるため、以下、図5とは異なるS702の処理を主に説明する。
S702において、特徴量生成部303は、S701で算出された特徴量変換規則W,bを用いら変換を複数回行うことで、非重要特徴量を多重変換する。
図8は非重要特徴量を多重変換する概念図を示している。
図8は非重要特徴量を多重変換する概念図を示している。
変換処理801は、入力層のユニットに対応する特徴量の値a1 (1),a2 (1),a3 (1)に対し、出力層のユニットに対応する特徴量の値a1 (3),a2 (3),a3 (3)を得ている様子を示している。変換規則算出部302は、入力層と出力層のユニットに対応する特徴量の関係から、前述同様に特徴量変換規則W,bを算出する。
変換処理802は、変換処理801で求めた非線形処理である活性化関数f及び特徴量変換規則W,bを例えば2度利用した変換処理の様子を示している。変換処理802では、非重要特徴量c1 (1),c2 (1),c3 (1)から、第1段階の変換後の非重要特徴量c1 (3),c2 (3),c3 (3)と、第二段階の変換後の非重要特徴量c1 (5),c2 (5),c3 (5)とが得られる。なお、ここでは2度の変換処理を挙げたが、さらに多くの変換処理が行われても良い。
このように、第2実施形態では、一つのオートエンコーダによるエンコード・デコード処理を繰り返す多重変換を行った上で評価値diffjを算出するので、認識に寄与する特徴量と寄与しない特徴量とで評価値diffjの差が大きくなる。これにより、第2実施形態によれば、非重要特徴量の重要成分を、より正確に選択(抽出)することができる。
第2実施形態においては、重要特徴量の変換規則を用いて、非重要特徴量を多重変換することにより、非重要特徴量から重要特徴量と類似する重要成分を、より正確に抽出できる。すなわち、第2実施形態によれば、重要特徴量及び認識に寄与する非重要特徴量を用いて認識処理を行うことにより、結果的に、より精度の高い認識処理を行うことができる。
<第3実施形態>
第3実施形態では、予め重要特徴量と類似する非重要特徴量を選択し、類似する順番に非重要特徴量を入力層にセットし、非重要特徴量に対する評価値を用いて非重要特徴量から重要成分を抽出する例について説明する。第3実施形態における情報処理システムの構成、情報処理装置101のハードウェア構成及び機能構成は、第1実施形態と同様であるためそれらの図示と説明は省略する。
第3実施形態では、予め重要特徴量と類似する非重要特徴量を選択し、類似する順番に非重要特徴量を入力層にセットし、非重要特徴量に対する評価値を用いて非重要特徴量から重要成分を抽出する例について説明する。第3実施形態における情報処理システムの構成、情報処理装置101のハードウェア構成及び機能構成は、第1実施形態と同様であるためそれらの図示と説明は省略する。
図9は、第3実施形態の場合の、図4のフローチャートのS404における特徴量変換規則の算出処理、及び、特徴量変換規則を用いて非重要特徴量から重要成分を抽出する処理の流れを示すフローチャートである。なお、図9のS901、S903、S904の処理は、それぞれ図5のS501、図7のS702(又は図5のS502)、図5のS503(又は図7のS703)の処理と同じであるため、それらとは異なるS902の処理を主に説明する。
S902において、特徴量生成部303は、予め重要特徴量と類似する非重要特徴量を選択し、特徴量変換器にセットした上で、非重要特徴量を変換する。すなわち、特徴量生成部303は、S901で算出した特徴量変換規則W,bを用い、非重要特徴量cを変換する。そして、特徴量生成部303は、重要特徴量ai(i=1,2,・・・,m)と類似する特徴量を非重要特徴量cから選択する。ここで、特徴量生成部303は、類似するかどうかの基準として、例えば相関係数rを用い、特徴量aiと類似する特徴量を非重要特徴量cj(j=1,2,・・・,n)から選択する。相関係数rは、式(11)により算出する。
式(11)において、特徴量生成部303は、重要特徴量aiと非重要特徴量cjとを比較して、相関係数rを算出している。
ここで、もし重要特徴量a1と相関が高い非重要特徴量がc3であった場合、特徴量生成部303は、入力層の1番目のユニットには非重要特徴量c3をセットする。また例えば、重要特徴量a2と相関が高い非重要特徴量がc5であった場合、特徴量生成部303は、入力層の2番目のユニットには非重要特徴量c5をセットする。このように、特徴量生成部303は、i=1,2,・・・,nで繰り返すことにより、最も類似する非重要特徴量を選択し、順番に入力層のユニットにセットしていく。
ここで、もし重要特徴量a1と相関が高い非重要特徴量がc3であった場合、特徴量生成部303は、入力層の1番目のユニットには非重要特徴量c3をセットする。また例えば、重要特徴量a2と相関が高い非重要特徴量がc5であった場合、特徴量生成部303は、入力層の2番目のユニットには非重要特徴量c5をセットする。このように、特徴量生成部303は、i=1,2,・・・,nで繰り返すことにより、最も類似する非重要特徴量を選択し、順番に入力層のユニットにセットしていく。
また、特徴量生成部303は、ある重要特徴量akと最も相関の高い非重要特徴量が、既に他の重要特徴量alに対応するとしてセットされてしまっている場合、重要特徴量akに対応するユニットには、元のakをセットする。
特徴量生成部303は、これらの処理を行い、オートエンコーダの入力層のユニットに非重要特徴量を入力し、入力層のユニットに対応する非重要特徴量から出力層のユニットに対応する非重要特徴量を算出する。そして、特徴量生成部303は、それら入力層と出力層を比較することにより、非重要特徴量を評価する。
特徴量生成部303は、これらの処理を行い、オートエンコーダの入力層のユニットに非重要特徴量を入力し、入力層のユニットに対応する非重要特徴量から出力層のユニットに対応する非重要特徴量を算出する。そして、特徴量生成部303は、それら入力層と出力層を比較することにより、非重要特徴量を評価する。
以上、第3実施形態では、非重要特徴量から重要特徴量に類似する特徴量を入力層に割り当てることで、重要特徴量に類似した非重要特徴量を選択している。これにより、非重要特徴量の出力層に対応する変換ベクトルをより高い精度で算出することができるようになる。そして、第3実施形態においては、重要特徴量と変換ベクトルで表された非重要特徴量を用いて、認識処理を行うことにより、結果的に、より精度の高い認識処理を行うことができる。
<第4実施形態>
第1実施形態の情報処理システムは、重要特徴量からオートエンコーダを用いて変換規則を算出し、非重要特徴量から認識に必要な情報を抽出した上で、認識処理を行っている。
これに対し、第4実施形態の情報処理システムは、スパースコーディングを用いて変換規則を算出し、非重要領域をより精度良く評価する例を挙げる。第4実施形態における情報処理システムの構成、情報処理装置101のハードウェア構成及び機能構成は、第1実施形態と同様であるためそれらの図示と説明は省略する。
第1実施形態の情報処理システムは、重要特徴量からオートエンコーダを用いて変換規則を算出し、非重要特徴量から認識に必要な情報を抽出した上で、認識処理を行っている。
これに対し、第4実施形態の情報処理システムは、スパースコーディングを用いて変換規則を算出し、非重要領域をより精度良く評価する例を挙げる。第4実施形態における情報処理システムの構成、情報処理装置101のハードウェア構成及び機能構成は、第1実施形態と同様であるためそれらの図示と説明は省略する。
図10は、第4実施形態の場合の図4のフローチャートのS404における特徴量変換規則の算出処理、及び、非重要特徴量から重要成分を抽出する処理の流れを示すフローチャートである。
図10のS1001において、変換規則算出部302は、図4のS404でセットした重要特徴量から特徴量変換規則を算出する。第4実施形態の場合、変換規則を算出するために、例えば特開2010−75616号公報等に開示されているスパースコーディングを利用する。
図10のS1001において、変換規則算出部302は、図4のS404でセットした重要特徴量から特徴量変換規則を算出する。第4実施形態の場合、変換規則を算出するために、例えば特開2010−75616号公報等に開示されているスパースコーディングを利用する。
スパースコーディングとは、入力信号に対し、辞書の中からその入力信号の特徴となる少数の基底を選び線形和で表現し復元する手法である。ここでは特徴量変換規則を算出するために、ユーザが指定した重要領域の画像に対し、スパースコーディングにおいて用いる辞書である基底ベクトルからなる基底行列を生成し、その基底行列を用いて画像に対するスパースコーディングを行う。
また、第4実施形態において、変換規則算出部302は、重要領域をM×M画素の部分画像に分割する。そして、変換規則算出部302は、M×M画素の部分画像の各画素の画素値を特徴量ベクトルの要素として、特徴量ベクトルを算出する。ここでは、スパースコーディングを用いて、できるだけ少ない基底の線形和で信号を復元する。
スパースコーディングを用いて、係数ベクトルx*を算出する方法を式(12)に示す。
スパースコーディングを用いて、係数ベクトルx*を算出する方法を式(12)に示す。
式(12)において、yは入力信号、Aは基底の集合(辞書)であり、最小化の解として、スパースな係数ベクトルx*が得られる。また、式(12)において、argmin内の第一項が入力信号yと復元信号Axとのユークリッドノルムの二乗誤差を表し、第二項が特徴ベクトルxのノルムを表している。変換規則算出部302は、ここで算出された係数ベクトルx*を用いて、復元信号Ax*を算出する。
次に、S1002において、特徴量生成部303は、非重要領域にある部分画像に対し、S1001と同様に画素値に基づいて特徴ベクトルを算出する。そして、特徴量生成部303は、S1001で算出された基底の集合Aを特徴量変換規則として用いて、非重要領域の部分領域から算出した特徴ベクトルの変換を行う。
また、特徴量生成部303は、非重要領域の部分画像に対し、画素値に基づく特徴ベクトルと、特徴量変換規則Aにより変換した後のベクトルの差分値を用いることにより、非重要領域の部分画像が重要であるかどうかを判定する。さらに特徴量生成部303は、式(13)により、非重要領域iの入力部分画像の画素値に基づく入力特徴ベクトルと、出力部分画像の画素値に基づく出力特徴ベクトルとを比較して、評価値diffiを求める。そして、特徴量生成部303は、その評価値diffiを用い、分割された非重要特徴量に重要成分が含まれるかどうかを判断する。なお、式(13)において、Dは部分画像の画素数、y(i),jは非重要領域の入力画像のj番目の画素値、Ax(i),jは非重要領域の変換後画像のj番目の画素値を示す。
以上、第4実施形態では、認識する上で重要となる部分画像(局所領域)を重要領域として設定し、その特徴量を重要特徴量として抽出し、重要領域以外の局所領域を非重要領域として設定して、その特徴量を非重要特徴量として抽出する。そして、第4実施形態では、スパースコーディングを用いて、重要特徴量から変換規則を算出し、非重要領域を評価している。第4実施形態によれば、非重要領域を評価することにより、認識に適合する非重要領域を選択することができる。
<第5実施形態>
第1実施形態から第4実施形態までの情報処理システムは、検査対象物104の外観検査を対象として、特徴量の変換処理を行っている。
これに対し、第5実施形態では、話者認識のタスクを行う。以下、図11と図12を用いて第5実施形態について詳細に述べる。
図11は、第5実施形態における情報処理システムの構成例を示す図である。
第1実施形態から第4実施形態までの情報処理システムは、検査対象物104の外観検査を対象として、特徴量の変換処理を行っている。
これに対し、第5実施形態では、話者認識のタスクを行う。以下、図11と図12を用いて第5実施形態について詳細に述べる。
図11は、第5実施形態における情報処理システムの構成例を示す図である。
第5実施形態の情報処理装置1101は、話者認識を行う装置である。情報処理装置1101は、音声録音装置1102と音声録音装置1103によりそれぞれ録音された音声データを、入力データとして取得する。音声録音装置1102は、発話者1105の音声を聞き取り易い所に置かれた、話者の認識に比較的寄与すると考えられる音声の録音を行うための装置である。音声録音装置1103は、音声録音装置1102と比べて、発話者1105の音声を聞き取り難い所に置かれた、話者の認識に比較的寄与しないと考えられる音声の録音を行うための装置である。ユーザ表示装置1104は、発話者1105の音声録音結果を表示するための装置である。ユーザ表示装置1104は、モニタ等から構成され、情報処理装置1101から送信される情報処理結果を表示する。発話者1105は音声を発して会話を行い、したがってその会話の音声が音声録音装置1102及び音声録音装置1103により録音される。本実施形態の情報処理システムにおいて、情報処理装置1101のハードウェア構成は、図2に示した第1実施形態の情報処理装置101と同様であるため、その図示は省略する。また、第5実施形態の情報処理装置1101の機能構成は、図3に示した第1実施形態の情報処理装置101の機能構成と基本的には同じであるが、各機能部において扱うデータが音声データとなされていることが前述とは異なる。
第5実施形態の情報処理装置1101において、図3の特徴量抽出部301は、音声録音装置1102と音声録音装置1103とから音声データを入力データとして取得する。そして、特徴量抽出部301は、取得した音声データから音韻特徴量を算出(抽出)する。さらに、特徴量抽出部301は、それら抽出した音韻特徴量を第1の特徴量と第2の特徴量とに分け、第1の特徴セットと第2の特徴セットにする。本実施形態において、第1の特徴量は重要音韻特徴量であり、第2の特徴量は非重要音韻特徴量である。すなわち第5実施形態の場合、音声録音装置1102で録音された、発話者1105の音声の認識に寄与すると考えられる音声データから抽出された音韻特徴量が、重要音韻特徴量となされる。一方、音声録音装置1103で録音された、発話者1105の音声の認識に比較的寄与しないと考えられる音声データから抽出された音韻特徴量は、非重要音韻特徴量となされる。第5実施形態で利用される音韻特徴量の詳細は、後述する図12のフローチャートで説明する。そして、特徴量抽出部301は、取得した重要音韻特徴量と非重要音韻特徴量を変換規則算出部302に送る。また、特徴量抽出部301は、判定対象の音声データをテストデータとして識別器判定部304に送る。
第5実施形態の変換規則算出部302は、重要音韻特徴量から特徴量変換規則を算出する。第5実施形態の変換規則算出部302における特徴量変換規則の詳細については後述する。変換規則算出部302にて算出された特徴量変換規則の情報は、重要音韻特徴量及び非重要音韻特徴量と共に特徴量生成部303に送られる。
第5実施形態の特徴量生成部303は、変換規則算出部302にて算出された特徴量変換規則を基に、非重要音韻特徴量のセットから、重要音韻特徴量と類似する認識に寄与する重要成分を抽出又は生成する。第5実施形態において非重要音韻特徴量から抽出又は生成される重要成分の詳細については後述する。特徴量生成部303にて生成された重要成分は、重要音韻特徴量と共に識別器判定部304に送られる。
識別器判定部304は、重要音韻特徴量と重要成分のセットを用いて識別モデルを生成し、その識別モデルと、特徴量抽出部301から得られた音韻特徴量とを用いて、話者認識を行う。そして、この識別器判定部304による認識結果が、情報処理装置101の話者認識結果として、表示装置103へ出力されることになる。
以下、第5実施形態の情報処理装置1101において、話者認識のタスクを行う際の詳細な処理を、図12のフローチャートを用いて説明する。この図12のフローチャートにおいて、前述の実施形態と概ね同じ処理は省略しており、異なる処理を中心に説明する。
図12のフローチャートのS1201において、特徴量抽出部301は、先ず、音声データから音声の認識に寄与する重要音韻特徴量を抽出する。ここで、認識に寄与する重要音韻特徴量とは、音声録音装置1102で録音された、発話者1105の音声の認識に寄与すると考えられる音声データから抽出された音韻特徴量である。すなわち、S1201において、特徴量抽出部301は、音声認識に寄与すると考えられる音声録音装置1102の音声データから重要音韻特徴量を抽出する。
図12のフローチャートのS1201において、特徴量抽出部301は、先ず、音声データから音声の認識に寄与する重要音韻特徴量を抽出する。ここで、認識に寄与する重要音韻特徴量とは、音声録音装置1102で録音された、発話者1105の音声の認識に寄与すると考えられる音声データから抽出された音韻特徴量である。すなわち、S1201において、特徴量抽出部301は、音声認識に寄与すると考えられる音声録音装置1102の音声データから重要音韻特徴量を抽出する。
本実施形態では、音韻特徴量の例として、MFCC特徴量とΔMFCC特徴量を用いる。以下、MFCC特徴量とΔMFCC特徴量の算出方法について説明する。
MFCCとはメル周波数ケプストラム係数の略であり、MFCC特徴量とはケプストラム特徴量の一つである。MFCC特徴量の算出では、音声信号における周波数の偏りを修正するため、高周波成分を強調させる処理を行う。そして、本実施形態では、このMFCC特徴量に加えて、ΔMFCC特徴量を用いる。ΔMFCC特徴量とは、MFCC特徴量に対し、時間変化を考慮した特徴量である。したがって、本実施形態において音声の認識処理が行われる際には、静的なMFCC特徴量に加え、ΔMFCC特徴量を用いた認識処理が行われる。
MFCCとはメル周波数ケプストラム係数の略であり、MFCC特徴量とはケプストラム特徴量の一つである。MFCC特徴量の算出では、音声信号における周波数の偏りを修正するため、高周波成分を強調させる処理を行う。そして、本実施形態では、このMFCC特徴量に加えて、ΔMFCC特徴量を用いる。ΔMFCC特徴量とは、MFCC特徴量に対し、時間変化を考慮した特徴量である。したがって、本実施形態において音声の認識処理が行われる際には、静的なMFCC特徴量に加え、ΔMFCC特徴量を用いた認識処理が行われる。
次に、S1202において、特徴量抽出部301は、音声録音装置1103からの音声データ、つまり音声録音装置1102の音声データほどは認識に重要でないと考えられる音声データから、重要音韻特徴量を抽出する。すなわち、S1201では、話者認識において重要と考えられる音声データから重要音韻特徴量を抽出したが、S1202では、重要でないと考えられる音声データから非重要音韻特徴量の抽出を行う。S1202においても、音韻特徴量として、S1201で用いたMFCC特徴量とΔMFCC特徴量を算出する。
次に、S1203において、変換規則算出部302は、重要音韻特徴量から特徴量変換規則を算出し、非重要音韻特徴量から重要成分を抽出する。ここでは、話者認識に重要な音韻特徴量の情報が保持されるように、オートエンコーダなどの手法により重要音韻特徴量から変換規則を求める。第5実施形態においても、特徴ベクトルxiに対し、特徴変換行列Wに基づく変換式のf'(W'f(Wxi))との差の二乗和が、最小になるように特徴変換行列Wを算出する。
そして、特徴量生成部303は、変換規則算出部302にて算出された特徴変換行列Wを用いて、非重要音韻特徴量を変換する。このときの変換規則算出部302は、変換前の非重要音韻特徴量xniと変換後の非重要音韻特徴量xni'とを比較し、差分に基づく評価値を算出し、評価値が良い特徴量を重要成分として取得する。このS1203における非重要音韻特徴量から重要音韻特徴量を抽出する処理は、前述した図5と同様の処理である。
次に、S1204において、識別器判定部304は、S1201及びS1203で算出した二つの異なる種類の特徴量(重要音韻特徴量、非重要音韻特徴量)を結合して、不確定な時系列データをモデル化する。不確定な時系列データのモデル化には、例えば、隠れマルコフモデル(HMM:Hidden Markov Model)を用いたモデル化を挙げることができる。隠れマルコフモデルの手法については、特許第6004358号公報に具体的に記述されているので、ここでは説明を省略する。そして、識別器判定部304は、そのモデルを基に、学習を行う。これにより、識別器判定部304では、判定対象の音声データであるテストデータに対する話者認識が可能となる。
以上説明したように、第5実施形態の情報処理システムは、人の会話の音声を用いた話者認識が可能となる。第5実施形態では、重要音韻特徴量と非重要音韻特徴量を取得し、重要音韻特徴量からオートエンコーダなどを用いて特徴量変換規則を算出し、非重要音韻特徴量から認識に必要な情報を抽出することで非重要音韻特徴量を有効利用した認識を行う。このような音韻特徴量を用いた認識処理は、音声以外の異常行動の検出、インターネットのトラフィックの異常点検出等にも適用可能である。第5実施形態の情報処理システムにおいても前述の実施形態同様に、精度の高い認識処理を実現可能である。
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
上述の実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
101:情報処理装置、102:画像撮影装置、103:表示装置、104:検査対象物、105:光源、301:特徴量抽出部、302:変換規則算出部、303:特徴量生成部、304:識別器判定部
Claims (16)
- 第1の特徴セットと第2の特徴セットとを取得するセット取得手段と、
前記第1の特徴セットを元の特徴セットに復元可能に変換する変換規則を取得する規則取得手段と、
前記変換規則を基に、前記第2の特徴セットから第3の特徴セットを生成する生成手段と、
前記第1の特徴セットと前記第3の特徴セットとを用いて、入力データに対する所定の認識処理を行う認識手段と、
を有することを特徴とする情報処理装置。 - 前記セット取得手段は、前記入力データに含まれる第1の領域から抽出した第1の特徴量を含む前記第1の特徴セットを取得し、前記入力データに含まれる第2の領域から抽出した第2の特徴量を含む前記第2の特徴セットを取得することを特徴とする請求項1に記載の情報処理装置。
- 前記セット取得手段は、前記認識処理に対する寄与度が高い前記第1の領域から前記第1の特徴セットを取得し、前記認識処理に対する寄与度が前記第1の領域より低い前記第2の領域から前記第2の特徴セットを取得することを特徴とする請求項2に記載の情報処理装置。
- 前記セット取得手段は、複数の特徴量を特徴選択により分離した際の分離度が、所定の閾値以上となった特徴量を前記第1の特徴セットとし、前記所定の閾値未満となった特徴量を前記第2の特徴セットとして取得することを特徴とする請求項1に記載の情報処理装置。
- 前記規則取得手段は、前記第2の特徴セットに対して前記変換規則に基づく変換を行い、前記変換した後の前記第2の特徴セットから、前記第1の特徴セットに類似する成分を取得して前記第3の特徴セットとすることを特徴とする請求項1から4のいずれか1項に記載の情報処理装置。
- 前記規則取得手段は、前記第2の特徴セットに対して前記変換規則に基づく変換を複数回行い、前記変換した後の前記第2の特徴セットから、前記前記第1の特徴セットに類似する前記成分を取得して前記第3の特徴セットとすることを特徴とする請求項5に記載の情報処理装置。
- 前記生成手段は、前記第2の特徴セットの複数の特徴量をそれぞれ前記変換規則により変換した結果に対する評価値に基づき選択された特徴量により構成された前記第3の特徴セットを生成することを特徴とする請求項1から6のいずれか1項に記載の情報処理装置。
- 前記生成手段は、前記変換がなされた後の特徴量から元の特徴量を復元した際の、元の特徴量との誤差を基に、前記評価値を算出することを特徴とする請求項7に記載の情報処理装置。
- 前記規則取得手段は、オートエンコーダを含むことを特徴とする請求項1から8のいずれか1項に記載の情報処理装置。
- 前記規則取得手段は、複数の前記第1の特徴セットを用いて算出した前記オートエンコーダの変換行列を含む前記変換規則を取得することを特徴とする請求項9に記載の情報処理装置。
- 前記オートエンコーダの変換行列は、オートエンコーダの結合荷重及びバイアスを含むことを特徴とする請求項10に記載の情報処理装置。
- 前記入力データは画像のデータであり、
前記規則取得手段は、画像の画素値の変換を行う前記変換規則を取得することを特徴とする請求項1から11のいずれか1項に記載の情報処理装置。 - 前記変換規則は、スパースコーディングにより、前記画像の画素値の変換を行う規則であることを特徴とする請求項12に記載の情報処理装置。
- 前記入力データは音声のデータであり、
前記規則取得手段は、音声の音韻を表す値の変換を行う前記変換規則を取得することを特徴とする請求項1から11のいずれか1項に記載の情報処理装置。 - 情報処理装置が実行する情報処理方法であって、
第1の特徴セットと第2の特徴セットとを取得するセット取得工程と、
前記第1の特徴セットを元の特徴セットに復元可能に変換する変換規則を取得する規則取得工程と、
前記変換規則を基に、前記第2の特徴セットから第3の特徴セットを生成する生成工程と、
前記第1の特徴セットと前記第3の特徴セットとを用いて、入力データに対する所定の認識処理を行う認識工程と、
を有することを特徴とする情報処理方法。 - コンピュータを、請求項1から14のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017239566A JP2019106111A (ja) | 2017-12-14 | 2017-12-14 | 情報処理装置、情報処理方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017239566A JP2019106111A (ja) | 2017-12-14 | 2017-12-14 | 情報処理装置、情報処理方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019106111A true JP2019106111A (ja) | 2019-06-27 |
Family
ID=67061369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017239566A Pending JP2019106111A (ja) | 2017-12-14 | 2017-12-14 | 情報処理装置、情報処理方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019106111A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021161823A1 (ja) * | 2020-02-14 | 2021-08-19 | 住友電気工業株式会社 | 判定装置、復元モデル生成方法、及びコンピュータプログラム |
-
2017
- 2017-12-14 JP JP2017239566A patent/JP2019106111A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021161823A1 (ja) * | 2020-02-14 | 2021-08-19 | 住友電気工業株式会社 | 判定装置、復元モデル生成方法、及びコンピュータプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11645835B2 (en) | Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications | |
JP5424819B2 (ja) | 画像処理装置、画像処理方法 | |
US8605995B2 (en) | Image processing device and method, data processing device and method, program, and recording medium | |
EP1433118B1 (en) | System and method of face recognition using portions of learned model | |
US8548230B2 (en) | Image processing device and method, data processing device and method, program, and recording medium | |
US8565518B2 (en) | Image processing device and method, data processing device and method, program, and recording medium | |
JP4618098B2 (ja) | 画像処理システム | |
JP7166784B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US10936868B2 (en) | Method and system for classifying an input data set within a data category using multiple data recognition tools | |
JP2017097718A (ja) | 識別処理装置、識別システム、識別処理方法、およびプログラム | |
Egas López et al. | Assessing Parkinson’s disease from speech using fisher vectors | |
US7454062B2 (en) | Apparatus and method of pattern recognition | |
CN115221941A (zh) | 认知障碍检测方法及相关装置、电子设备和存储介质 | |
JP6166981B2 (ja) | 表情解析装置及び表情解析プログラム | |
JP2019106111A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US20030198366A1 (en) | Apparatus for generating a pattern recognition dictionary, a method thereof, a pattern recognition apparatus and a method thereof | |
Casas et al. | Few-shot meta-denoising | |
Kadakia et al. | Comparative Analysis of Micro Expression Recognition using Deep Learning and Transfer Learning | |
JP6397439B2 (ja) | 属性推定装置 | |
JP2019133447A (ja) | 感情推定装置、コンピュータプログラム及び感情推定方法 | |
Carrasco et al. | Bimodal biometric person identification system under perturbations | |
Egas-López | They are wearing a mask! Identification of Subjects Wearing a Surgical Mask from their Speech by means of x-vectors and Fisher Vectors | |
Agarwal et al. | Learning to synthesize faces using voice clips for Cross-Modal biometric matching | |
Rathika et al. | LS-GSNO and CWSNO Enhancement Processes Using PCA Algorithm with LOOCV of R-SM Technique for Effective Face Recognition Approach | |
WO2023152832A1 (ja) | 識別装置、識別方法、及び非一時的なコンピュータ可読媒体 |