JP7021507B2 - 特徴抽出装置、特徴抽出プログラム、および特徴抽出方法 - Google Patents

特徴抽出装置、特徴抽出プログラム、および特徴抽出方法 Download PDF

Info

Publication number
JP7021507B2
JP7021507B2 JP2017219396A JP2017219396A JP7021507B2 JP 7021507 B2 JP7021507 B2 JP 7021507B2 JP 2017219396 A JP2017219396 A JP 2017219396A JP 2017219396 A JP2017219396 A JP 2017219396A JP 7021507 B2 JP7021507 B2 JP 7021507B2
Authority
JP
Japan
Prior art keywords
data
autoencoder
stage
feature
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017219396A
Other languages
English (en)
Other versions
JP2019091236A (ja
Inventor
克守 萩原
義照 土永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017219396A priority Critical patent/JP7021507B2/ja
Publication of JP2019091236A publication Critical patent/JP2019091236A/ja
Application granted granted Critical
Publication of JP7021507B2 publication Critical patent/JP7021507B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、特徴抽出装置、特徴抽出プログラム、および特徴抽出方法に関する。
従来、音声や環境音等の音の認識と識別の技術分野において、マイク等に入力された音のA/D変換後のデジタル信号ではなく、このデジタル信号から、音の認識と識別を行う上で冗長となる情報を削減して生成された特徴量が用いられている。なお、A/D変換とは、Analog/Digital Conversionを意味する。
特徴量は、例えば、オートエンコーダにより抽出される。オートエンコーダとは、ニューラルネットワークを使用した次元圧縮のアルゴリズムであり、入力値と出力値が互いに等しくなるように中間層を決定するものである。中間層とは、入力値に対し重み係数を乗算し、これにバイアスを加算するなどして得られる値の集合体である。この中間層における各値に対し重み係数を乗算し、これにバイアスを加算するなどして出力値が算出される。特徴量は、この中間層における値に対応し得る。オートエンコーダにより抽出された特徴量は、これまでに機械学習で蓄積されたモデルにおける特徴量と比較され識別される。これにより音の認識等がなされる。
特開平8―249298号公報 特開2007―157000号公報 特開2016―85704号公報
オートエンコーダによって、入力信号における振幅の大きな成分は出力されるが、振幅の小さな成分は、変動としてみなされるなどし、除去される。すなわち抽出対象の信号の主成分が、入力信号において振幅の小さな成分であれば、主成分は、オートエンコーダによりノイズとして扱われる可能性が高い。この場合、抽出対象の信号がノイズに埋もれることがある
本発明の一つの側面に係る目的は、ノイズに埋もれた、取り出したい信号の特徴量を抽出することである。
特徴抽出装置は、オートエンコーダが複数段に接続されたオートエンコーダ部と、選択部とを含む。オートエンコーダ部の各段のオートエンコーダは、前段のオートエンコーダからの出力データと前段のオートエンコーダへの入力データとの差分を入力して、特徴量を抽出する。選択部は、認識対象のデータを用いて各段のオートエンコーダが抽出した複数の特徴量に基づいて算出される、抽出された複数の特徴量の類似度が閾値以上である特徴量を選択する。
上述の態様によれば、ノイズに埋もれた、取り出したい信号の特徴量を抽出することができる。
第1の実施形態に係る特徴抽出装置の機能ブロックを例示する図である。 第1、2の実施形態に係るパラメータ用AE部(多段AE部)の動作を説明するための図である。 多段に接続されたオートエンコーダにおける入力データと出力データを例示する図である。 類似度について説明するための図である。 パラメータ用オートエンコーダ部が各段のパラメータを導出するまでの処理のフローを例示する図である。 認識モデル学習部が認識モデルを生成するまでの処理のフローを例示する図(その1)である。 認識モデル学習部が認識モデルを生成するまでの処理のフローを例示する図(その2)である。 認識モデル学習部が認識モデルを生成するまでの処理のフローを例示する図(その3)である。 認識処理部が認識対象のデータを識別するまでの処理のフローを例示する図である。 第2の実施形態に係る特徴抽出装置の機能ブロックを例示する図である。 特徴抽出装置のハードウェア構成を例示する図である。
<第1の実施形態>
図1は、本実施形態に係る特徴抽出装置1の機能ブロックを例示する。特徴抽出装置1は、パラメータ用データベース10、パラメータ用オートエンコーダ部11、学習用認識対象データベース12、学習用認識対象外データベース13、および多段オートエンコーダ部14等を備える。また特徴抽出装置1は、更に、類似度判定部15、認識モデル学習部16、および認識処理部17等を備える。特徴抽出装置1は、また更に、評価対象データベース18等を備える。なお、オートエンコーダをAE、データベースをDBと略記することもあるものとする。特徴抽出装置1は、評価対象データベース18に代わり、あるいはこれと共に、マイク等の外部情報を取得するためのセンサを含む評価データ入力部を備えてもよい。
なお、多段オートエンコーダ部14は、オードエンコーダ部の一例であり、類似度判定部15は、選択部の一例である。
パラメータ用データベース10には、例えば、日常生活音を低周波マイクにより取得して得られたデータなどが多数記憶されている。本実施形態では、パラメータ学習用データベース10に記憶されるデータは、例えば音のデータである。ただし、これに限定されず、例えば物体の振動に係るデータであってもよい。なお、ここでの音のデータは、例えば、0.5秒間に取得された、200Hzの、100個のサンプリングデータである。
パラメータ用オートエンコーダ部11および多段オートエンコーダ部14は、複数段(多段)に接続されたオードエンコーダにより、各段における特徴量を抽出する。本実施形態において、特徴量は中間層における値を指すものとする。
図2は、本実施形態におけるパラメータ用オートエンコーダ部11および多段オートエンコーダ部14の動作を説明するための図である。ここではパラメータ用オートエンコーダ部11(および多段オートエンコーダ部)におけるオードエンコーダは、N段に接続されているとする。ここでNは、2以上の自然数であって、例えば8である。パラメータ用オートエンコーダ部11(および多段オートエンコーダ部14)では、n段目のオードエンコーダへの入力データから、n段目のオードエンコーダによる出力データを引いたデータが、n+1段目のオードエンコーダへの入力データとなる。ここでnは、1以上であってNより小さい自然数である。
なお、以下では、後段のオートエンコーダに入力される、オートエンコーダの入力データと出力データとの差を、残差と記載する場合もあるとする。また、入力データにおける入力値の集合を入力層、出力データにおける出力値の集合を出力層と記載する場合もあるとする。
各段のオートエンコーダにおいて出力データとなるのは、入力データにおける振幅が最大の信号である。パラメータオートエンコーダ部11では、各段のオートエンコーダにより、入力データと出力データが等しくなるように、重み係数やバイアス等が導出される。以下では、この重み係数やバイアス等をパラメータと記載する場合もあるとし、またこれらの値をパラメータ値と記載する場合もあるとする。なお、重み係数やバイアスとは、オートエンコーダにより、入力データの数値を中間のデータの数値に変換するための係数等を指すと共に、中間のデータの数値を出力データの数値に変換するための係数等を指す。
図3は、多段に接続されたオートエンコーダにおける入力データと出力データを例示する。図3において、左側には、パラメータ用オートエンコーダ部11又は多段オートエンコーダ部14の、1段目から4段目までの各オードエンコーダに対する入力データが例示される。また、右側には、パラメータ用オートエンコーダ部11又は多段オートエンコーダ部14の、各段のオートエンコーダによる出力であって、左側の各入力データに対応する出力データが例示される。1段目のオートエンコーダを例に説明すると、このオートエンコーダにより、入力データの波形において、最も振幅の変化の大きい部分が出力データとして抽出され、これ以外の振幅の微小な変化は抽出されていないことがわかる。2段目以降のオートエンコーダによる入出力も同様である。
なお、図3で示されるデータは一例である。パラメータ用オートエンコーダ部11は、取り出したいデータである認識対象のデータを含むデータを入力データとする。多段オートエンコーダ部14は、後述するように、認識対象のデータの学習のために用いられるデータであって、認識対象のデータを含むデータと認識対象外のデータを含むデータを入力データとする。
図2を参照すると、入力層における入力値の個数と、出力層における出力値の個数は、互いに等しい。一方、中間層における値の個数は、入力層における入力値の個数よりも少ない。本実施形態では、入力層における入力値の個数、中間層における値の個数、出力層における出力値の個数は、それぞれ例えば、100、10、100である。
パラメータ学習用オートエンコーダ部11により、後述する多段オートエンコーダ14で用いられるための各段のパラメータ値が算出される。
図1において学習用認識対象データベース12には、認識対象となる音等のデータが記憶されている。学習用認識対象データベース12に記憶されるデータは、認識対象のデータのみであってもよいし、認識対象のデータが含まれるデータであって認識対象のデータ以外のデータも含まれるデータであってもよい。本実施形態において、学習用認識対象データベース12が記憶するデータは、評価データが取得される環境において取得されたデータを含む。なお、評価データとは、マイク等のセンサから取得され、評価対象データベース18に記憶されるデータを指す。
同様に、学習用認識対象外データベース13には、認識対象外となる音等のデータが記憶されている。例えば、歩行音を認識対象とする場合、学習用認識対象データベース12は、十分な数の歩行音のデータを含むデータを記憶する。一方、学習用認識対象外データベース13は、十分な数の歩行音以外の音のデータを記憶する。
認識対象のデータは、他に、例えばドアの開閉音、固体振動音等であってもよい。
本実施形態における認識対象となる音のデータは、例えば、低周波マイクで取得した200Hzのサンプリングデータである。
多段オートエンコーダ部14は、学習用認識対象データベース12および学習用認識対象外データベース13から各データを読み込み、N段に接続されたオートエンコーダのうちの1段目のオートエンコーダへの入力データとする。このとき、学習用認識対象データベース12と学習用認識対象外データベース13から読み込まれる各データの数は、互いに等しいことが望ましい。
多段オートエンコーダ部14は、パラメータ用オートエンコーダ部11と同様に、多段に接続されたオートエンコーダを用いて処理を行う。多段オートエンコーダ部14は、パラメータ用オートエンコーダ部11が導出した各段のパラメータ値を取得し、これらを対応する段のパラメータの値とする。多段オートエンコーダ部14においては、パラメータ用オートエンコーダ部11と同様、n段目におけるオードエンコーダへの入力データと、n段目のオードエンコーダによる出力データの残差が、n+1段目のオードエンコーダへの入力データとなる。多段オートエンコーダ部14は、学習用認識対象データベース12からのデータに基づいて、各段の特徴量を抽出する。また多段オートエンコーダ部14は、学習用認識対象外データベース13からのデータに基づいて、各段の特徴量を抽出する。
類似度判定部15は、段毎に類似度を算出する。図4は、類似度について説明するための図である。ここでは、多段オートエンコーダ部14が、歩行音のデータとドアの開閉音のデータのそれぞれから特徴量を抽出した場合を例に挙げて説明する。図4の上部には、多段オートエンコーダ部14の各段のオートエンコーダによる抽出結果であって、横軸を中間層のデータのインデックス、縦軸を歩行音のデータから多段オートエンコーダ部14が抽出した特徴量とするグラフが示される。なお、中間層のデータのインデックスを、以下では単にインデックスとも記載する。各グラフのすぐ下には、多段オートエンコーダ部14の各段のオートエンコーダが導出した特徴量に基づいて、類似度判定部15が算出した類似度が示される。
本実施形態において、類似度は、例えば、各段における分散の平均の逆数である。中間層において、各インデックスにおける特徴量は、一意的に決まらず、その値に幅がある場合がある。本実施形態では、各段のインデックス毎に複数の特徴量が抽出されるが、その複数の特徴量の分散が大きければ大きいほど、これらの特徴量は互いに類似しないデータに基づくものであると推測できる。このため、本実施形態では、各段のインデックス毎に、複数の特徴量の分散を算出する。なお、以下では分散と記載する場合には、各段におけるインデックス毎の、複数の特徴量の分散を指すものとする。本実施形態においては、各段の全てのインデックスにおける、この分散を平均して得られる値から類似度を算出する。類似度は、複数の特徴量の各々が、互いに類似又は共通するデータに基づくものであるか否かを示す量である。このため、類似度は、分散が小さいほど大きい。本実施形態では、類似度を、分散の平均値の逆数とする。
類似度判定部15は、各段の類似度を算出し、算出した類似度が閾値以上か否かを判定する。この閾値を以下では第1閾値とも記載する。なお図4には、理解容易のため、類似度に代わり、各段の分散の平均値が示されている。類似度判定部15は、この分散の平均値が閾値以下か否かを判定する。なお、この分散の平均値の閾値を第2閾値とも以下では記載する。ここでは第1閾値の逆数が第2閾値である。なお、第2閾値(第1閾値)は、データの種類毎、例えば音の種類毎に定められ、図4における歩行音のデータの場合には、この第2閾値は例えば0.02である。
図4の上部に示される場合においては、類似度判定部15は、2~5段目のそれぞれにおける分散の平均値が第2閾値以下であると判定する。また、この場合に、類似度判定部15は、1段目、および6~8段目のそれぞれにおける分散の平均値が第2閾値より大きいと判定する。
本実施形態では、例えば、複数種類の歩行音のデータにおいても歩行音のデータとしての共通かつ固有のパターンがあるとし、この共通の度合いを示す指標として類似度を用いる。そして類似度が第1閾値以上となる段の特徴量を、抽出された、固有のデータ(例えば歩行音のデータ)の特徴量とみなす。後述する認識モデル学習部16は、互いに共通のパターンを持つ認識対象のデータの特徴量、例えば、複数種類の歩行音のデータの特徴量と、認識対象外のデータの特徴量、例えば、歩行音以外のデータの特徴量とを互いに分類するための認識モデルを生成する。このとき認識モデル学習部16は、認識対象のデータの特徴量である、類似度が第1閾値以上の段の特徴量を、認識対象のデータについての認識モデルの生成のために用いる。
類似度判定部15は、類似度が第1閾値以上、すなわち分散の平均値が第2閾値以下の段を選出する。図4の上部に示される、歩行音のデータが用いられた場合には、類似度判定部15は、2~5段目を選出していることがわかる。
同様に、図4の下部に示されるように、ドアの開閉音のデータが用いられた場合において、類似度判定部15は、分散の平均値が第2閾値(0.02)以下である1~5段目と7段目と8段目を選出していることがわかる。
なお、類似度判定部15は、選択した段の特徴量を抽出しているが、段の選択のみを行ってもよい。この場合、後述する認識モデル学習部16が、類似度判定部15により選択された段の特徴量を抽出し、これを用いるものとしてもよい。
図1に示される認識モデル学習部16は、多段オートエンコーダ部14が抽出した特徴量を適宜分類するための認識モデルを生成する。認識モデルを用いることで、後述する認識処理部17は、例えば、歩行音の場合を正解として分類するなどし、歩行音のデータを識別することができる。認識モデル学習部16は、例えば、SVM(Support Vector Machine)やNN(Neural Network)等の機械学習により、認識モデルを生成する。
認識モデル学習部16は、認識対象のデータについての認識モデルを生成する。図4を参照し、認識モデル学習部16が、歩行音のデータを識別するための認識モデルを生成する場合について説明する。図4において各段の中間層のデータのインデックスの数は10個であり、類似度判定部15により、歩行音のデータの特徴を抽出した段として選択されているのは2~5段目の4段である。このため、認識モデル学習部16は、入力次元数を40(10×4)として認識モデルを生成する。
認識モデル学習部16は、認識対象外のデータについても認識モデルを生成する。例えば認識対象のデータを歩行音のデータとして、これ以外を認識対象外とする場合、認識モデル学習部16は、学習用認識対象外データベース13から読み取られたデータに基づいて抽出された特徴量を用いて、認識対象外のデータについての認識モデルを生成する。またこの際に、本実施形態における認識モデル学習部16は、学習用認識対象外データベース13から読み取られたデータに基づく特徴量であって、類似度判定部15が選択した段における特徴量を用いる。すなわち認識モデル学習部16は、認識対象のデータを含むデータに基づく特徴量のうち、認識モデル生成において用いる特徴量の段と等しい段の、認識対象外のデータに基づく特徴量を用いて、認識対象外のデータに関する認識モデルを生成する。 認識処理部17は、多段オートエンコーダ部14が評価対象データベース18やマイク等のセンサから取得されたデータに基づき抽出した特徴量を用いて、これらのデータから認識対象のデータの特徴量を抽出する。以下、歩行音のデータを認識対象とする場合を説明する。評価対象データベース18には、マイク等により収集されたデータが保存されているとし、これらのデータを評価する場合を考える。多段オートエンコーダ部14は、評価対象データベース18に記憶されているデータを読み取り、各段の特徴量を抽出する。
認識処理部17は、評価データに基づいて多段オートエンコーダ部14が抽出した特徴量のうち、類似度判定部15が選択した段の特徴量を抽出する。認識処理部17は、この抽出した特徴量と認識モデル学習部16が生成した認識モデルとを用いて、評価データに含まれる認識対象のデータの特徴量を認識対象外のデータの特徴量から分類するなどし、認識対象のデータの特徴量を抽出する。評価データに含まれるデータの分類等の処理には、例えば、上述したSVMやNNが用いられる。
以下、上述した特徴抽出装置1の処理の流れについて、図5~9を参照して説明する。図5は、パラメータ用オートエンコーダ部11が各段の重み係数とバイアスを導出するまでの処理のフローを例示する。図6~8は、認識モデル学習部16が認識モデルを生成するまでの処理のフローを例示する。図9は、認識処理部17が、評価データに含まれるデータを分類等して、評価データから認識対象のデータを識別するまでの処理のフローを例示する。
図5において、パラメータ用オートエンコーダ部11は、パラメータ用データベース10に記憶されているデータを入力データとして読み込む(ステップS100)。パラメータ用オートエンコーダ部11は、接続されるオートエンコーダの段数Nを設定する(ステップS101)。Nは、ステップS100で読み込まれたデータの大きさ等によって決められてもよいし、予めユーザにより設定されていてもよい。なお、Nは2以上の自然数である。
パラメータ用オートエンコーダ部11は、変数nに1を格納する(ステップS102)。このnは、パラメータ学習用オートエンコーダ部11による処理の対象となる段が何段目であるかを示すための1以上の自然数である。
n>Nではない場合(ステップS103:No)、パラメータ学習用オートエンコーダ部11は、n段目のパラメータの値(重み係数とバイアス)を導出する(ステップS104)。重み係数とバイアスは、上述したように、オートエンコーダによる出力データが、入力データと等しくなるよう導出される。パラメータ用オートエンコーダ部11は、ステップS104で導出した、n段目の重み係数とバイアスを記憶する(ステップS105)。なお、この重み係数とバイアスは、段毎に得られ、段毎に記憶される。
パラメータ用オートエンコーダ部11は、ステップS105において導出した重み係数とバイアスを用いて、入力データから出力データを生成する(ステップS106)。パラメータ用オートエンコーダ部11は、入力データと、ステップS106で生成された出力データとの差、すなわち残差を算出する(ステップS107)。パラメータ用オートエンコーダ部11は、ステップS107で算出した残差を入力データとして設定する(ステップS108)。
パラメータ用オートエンコーダ部11は、nに1を加算した値を新たなnとし(ステップS109)、処理をステップS103へと戻す。ステップS103において更にnがN以下である場合には(ステップS103:No)、この後のステップS104~S107において用いられる入力データは、上述したステップS108で設定された入力データとなる。
ステップS103においてnがNより大きい場合、パラメータ学習用オートエンコーダ部11は、処理を終了する。
図6に例示される、特徴抽出装置1による処理について説明する。多段オートエンコーダ部14は、学習用認識対象データベース12と学習用認識対象外データベース13から、それぞれ認識対象のデータを含むデータと認識対象外のデータを、入力データとして読み込む(ステップS200)。多段オートエンコーダ部14は、ステップS200で読み込んだ各データの、各段の特徴量を抽出する(ステップS201)。この処理については、図7を参照して後述する。
ステップS201において抽出された特徴量が、認識対象のデータを含むデータを用いて抽出されたものである場合(ステップS202:Yes)、類似度判定部15は、これらの特徴量を用いて、各段における類似度を算出する。類似度判定部15は、算出した各段の類似度が第1閾値以上か否かを判定する(ステップS203)。また類似度判定部15は、類似度が第1閾値以上の段を選出する。この類似度判定部15によるステップS203の処理のついての詳細は図8を参照して後述する。
認識モデル学習部16は、類似度判定部15により選択された段の、認識対象のデータの特徴量を用いて、機械学習により、認識対象のデータに関する認識モデルを生成する(ステップS204)。
ステップS201において抽出された特徴量が、認識対象外のデータに基づく場合(ステップS202:No)、認識モデル学習部16は、これらの特徴量を用いて、機械学習により、認識対象外のデータに関する認識モデルを生成する(ステップS204)。
図7を参照して、多段オートエンコーダ部14によるステップS201の処理について詳細に述べる。ここでは、多段オートエンコーダ部14は、認識対象のデータを含むデータと認識対象外のデータの各々に対して、ステップS300からステップS308の処理を実行する。
多段オートエンコーダ部14は、接続されるオートエンコーダの段数Nを設定する(ステップS300)。このNは、パラメータ用オートエンコーダ部11によりステップS101において設定されるNと等しく、ユーザにより設定されたものでも、パラメータ用オートエンコーダ部11から読み込まれたものでもよい。またこのNは、多段オートエンコーダ部14が学習用認識対象データベース12等から読み込むデータの大きさ等から、多段オートエンコーダ部14により決められてもよい。この場合、Nの値はパラメータ用オートエンコーダ部11に通知されてもよく、この通知に基づいて、パラメータ用オートエンコーダ部11はステップS101の処理を行ってもよい。なお、Nは2以上の自然数である。
多段オートエンコーダ部14は、変数nに1を格納する(ステップS301)。このnは、多段オートエンコーダ部14による処理の対象となる段が何段目であるかを示すためのものであり、1以上の自然数である。
n>Nではない場合(ステップS302:No)、多段オートエンコーダ部14は、パラメータ学習用オートエンコーダ部11が導出した、n段目の重み係数とバイアスを読み込む(ステップS303)。多段オートエンコーダ部14は、ステップS303において読み込んだ重み係数とバイアスを用いて、入力データから出力データを生成する(ステップS304)。多段オートエンコーダ部14は、入力データから出力データを生成する際に、n段目の特徴量を抽出する。n=1の場合の入力データは、多段オートエンコーダ部14が学習用認識対象データベース12又は学習用認識対象外データベース13から読み込むデータとなる。
多段オートエンコーダ部14は、入力データと、ステップS304で生成された出力データとの差である残差を算出する(ステップS305)。
多段オートエンコーダ部14は、ステップS304において抽出された、n段目の特徴量を記憶する(ステップS306)。このステップS306の処理は、ステップS305の処理に先立ち、又はステップS305の処理と並行して実行されてもよい。なお、特徴量の抽出処理は、ステップS304においてではなく、ステップS306において行われてもよい。この場合において、多段オートエンコーダ部14は、入力データに対し、ステップS303で読み込んだ重み係数とバイアスを用いることにより、n段目の特徴量を抽出してもよい。
ステップS306において、特徴量は段毎に記憶される。
多段オートエンコーダ部14は、ステップS305で算出した残差を入力データとして設定する(ステップS307)。
多段オートエンコーダ部14は、nに1を加算した値を新たなnとし(ステップS308)、処理をステップS302へと戻す。ステップS302において更にnがN以下である場合には(ステップS302:No)、この後のステップS303~S306において用いられる入力データは、上述したステップS307で設定された入力データとなる。
ステップS302においてn>Nの場合、多段オートエンコーダ部14は、処理を終了する。
図8を参照して、類似度判定部15によるステップS203の処理について詳細に説明する。類似度判定部15は、多段オートエンコーダ部14において多段に接続されたオートエンコーダの段数Nを取得する(ステップS400)。
類似度判定部15は、変数nに1を格納する(ステップS401)。このnは、類似度判定部15による処理の対象となる段が何段目であるかを示すためのものである。
n>Nではない場合(ステップS402:No)、類似度判定部15は、多段オートエンコーダ部14が抽出した、認識対象のデータを含むデータのn段目の特徴量を読み込む(ステップS403)。類似度判定部15は、ステップS403において読み込んだ特徴量から類似度を算出する(ステップS404)。この類似度は、上述したように、例えばn段目における特徴量の分散の平均値の逆数等であり、この分散の平均値が小さいほど大きい値になる。
類似度判定部15は、ステップS404において算出した類似度が第1閾値以上か否かを判定する(ステップS405)。類似度が第1閾値以上であれば(ステップS405:Yes)、類似度判定部15は、n段目を選択し、このn段目の特徴量を抽出する(ステップS406)。類似度が第1閾値より小さければ(ステップS405:No)、類似度判定部15は、n段目を選択することなく、またこのn段目の特徴量を抽出せずにステップS407の処理を実行する。
ステップS406の処理の後、又は、ステップS405において類似度が第1閾値より小さいという判定後、類似度判定部15は、nに1を加算した値を新たなnとし(ステップS407)、処理をステップS402へと戻す。
ステップS402においてn>Nの場合、類似度判定部15は、処理を終了する。
図9を参照して、特徴抽出装置1が、ステップS204で生成された認識モデルやステップS406において選択された段についての情報などを用いて、評価対象のデータから認識対象のデータを識別する処理の詳細について説明する。
多段オートエンコーダ部14は、評価対象データベース18やセンサ等から評価データを読み込む(ステップS500)。
多段オートエンコーダ部14は、評価データの各段の特徴量を抽出する(ステップS501)。この抽出処理は、図7に示すフローにおいて、n=1の場合に入力データを評価データとする、ステップS300~S308に示す処理と等しい。そのため、このステップS501における処理については説明を省略する。
認識処理部17は、類似度判定部15が選択した段についての情報を取得し、認識モデル学習部16が生成した認識モデルを取得する(ステップS502)。
認識処理部17は、ステップS502で取得した段における、評価データからの特徴量を抽出する。認識処理部17は、この抽出した特徴量が認識モデルにおいて認識対象のデータの特徴量として分類されるか否かを判定するなどし、認識対象のデータの特徴量を抽出する(ステップS503)。認識処理部17は、認識結果を出力する。認識結果には、例えば、認識対象のデータが評価データに含まれるか否かの情報、又は、評価データに含まれる認識対象のデータなどが含まれる。本実施形態における認識結果には、認識対象のデータが評価データに含まれるか否かの情報が含まれるとする。
本実施形態に係る特徴抽出装置1は、多段に接続したオートエンコーダのうちの1つへの入力データを、その前段のオートエンコーダの入力データと出力データの差とする。これにより、特徴抽出装置1は、振幅がより小さい信号の特徴量を段階的に抽出していくことができる。従って、入力信号に含まれる各段の特徴量が、互いに分解され取り出される。よって、特徴抽出装置1は、ノイズに埋もれていた、取り出したい信号の特徴量を漏れなく抽出できる。また特徴抽出装置1は、認識対象のデータを含むデータを用いて抽出した特徴量のうち、類似度が高い段の特徴量を用いて認識モデルを生成し、当該段における、評価データから抽出した特徴量と、認識モデルとを用いて認識処理を行う。これにより、特徴抽出装置1は、全ての段の特徴量を用いるよりも、少ない計算量で所要の結果を得ることができる。
<第2の実施形態>
第1の実施形態に係る特徴抽出装置1が認識できるデータは、例えば歩行音のデータなど一種類のデータであった。しかし、評価データにおいて、複数のデータを各々認識したい場合も存在する。本実施形態に係る特徴抽出装置1’は、評価データに含まれるデータの特徴量を、認識対象のデータと認識対象外のデータの各特徴量のいずれかに分類するのみならず、複数の認識対象のデータの各特徴量のうち、どの特徴量として分類するか決定することができる。本実施形態に係る特徴抽出装置1’は、複数の認識対象のデータの各々が評価データに含まれるか否かを認識することができる。
図10は、第2の実施形態に係る特徴抽出装置1’の機能ブロックを例示する図である。特徴抽出装置1’は、特徴抽出装置1の機能ブロックにおける、1つの学習用認識対象データベース12に代えて、1以上の学習用認識対象データベースを備える。ここでは、理解容易のために、特徴抽出装置1’は、2つの学習用認識対象データベースを備えるとする。また、ここでは、第1の実施形態における学習用認識対象データベース12を、第1学習用認識対象データベース12と記載する。また、もう一方の学習用認識対象データベースを第2学習用認識対象データベース12’と記載する。
第2学習用認識対象データベース12’以外の機能ブロックについては、特に断りが無い限り、第1の実施形態の場合と同様であるため、第1の実施形態の場合と同様の部分については説明を省略する。
第2学習用認識対象データベース12’には、第1学習用認識データベース12が記憶する認識対象のデータとは異なる、認識対象のデータを含むデータを記憶する。例えば、第1、2学習用認識対象データベース12、12’のそれぞれには、認識対象のデータとして、歩行音のデータ、ドアの開閉音のデータが記憶される。これらのデータは、それぞれ、例えば、低周波マイク等で取得した200Hzのサンプリングデータであり、十分な数のものであるとする。
以下では、第1学習用認識対象データベース12と第2学習用認識対象データベース12’と学習用認識対象外データベース13にそれぞれ記憶されるデータを、第1データ、第2データ、第3データとも記載する。
第1~3データの、それぞれの数は、互いに等しいか近しいことが望ましい。
本実施形態においても、第1の実施形態と同様、第1データと第3データに基づいて多段オートエンコーダ部14と類似度判定部15が抽出する各特徴量は、認識モデルにおいて、互いに異なるグループに分類される。本実施形態においては、更に、第2データに基づいて多段オートエンコーダ部14と類似度判定部15が抽出する特徴量は、認識モデルにおいて、第1、3データに基づく各特徴量とは異なるグループに分類される。
多段オートエンコーダ部14は、第1の実施形態における処理に加え、第2データを用いて、各段における特徴量を抽出する。なお、この多段オートエンコーダ部14による処理は、第1~3データのそれぞれに対し別個に行われる。多段オートエンコーダ部14による処理のフローは、図7を参照して説明したものと同様であるため、説明を省略する。
類似度判定部15は、多段オートエンコーダ部14により抽出された、第1、2データに基づく各類似度を算出する。類似度は、第1の実施形態と同様、例えば、各段における分散の平均値の逆数である。
ここで第1、2データにおいて認識対象のデータとして含まれるデータが、それぞれ歩行音のデータとドアの開閉音のデータであるとし、これらに基づいて多段オートエンコーダ部14から図4に示されるような特徴量が抽出された場合について説明する。なお、第1データに基づく特徴量については、上記第1の実施形態と同様であるため説明を省略する。
ここで、第2データに基づき抽出される特徴量の、各段における分散の平均値に対する第2閾値は、例えば0.02である。この第2閾値は、予めユーザによって設定されている。
図4の下部に示されるように、第2データに基づき抽出される特徴量の、1~5段目と7、8段目のそれぞれの分散の平均値は、第2閾値以下である。一方、6段目の分散の平均値は、第2閾値より大きい。
このため類似度判定部15は、1~5段目と7、8段目を選択し、これらの段の特徴量を更に抽出する。
本実施形態における類似度判定部15による処理のフローは、図8を参照して説明したものと同様であるため、説明を省略する。
認識モデル学習部16は、第1の実施形態と同様、第1、3データに基づく特徴量を互いに異なるグループへ分類等すると共に、類似度判定部15により抽出された、第2データに基づく特徴量を上記グループとは別のグループへ分類する。
認識モデル学習部16は、類似度判定部15が抽出した特徴量を用いて、上記第1の実施形態と同様、機械学習により認識モデルを生成する。認識モデル学習部16は、図4に示されるような第2データに基づく特徴量の場合に、類似度判定部15が抽出した1~5段目と7、8段目(合計7段)における各特徴量を、認識モデル生成のために用いる。これらの各段の中間層のインデックスの数は10であることから、認識モデル学習部16への入力次元数は、70(7×10)となる。これらの特徴量を用いて、認識モデル学習部16は、SVMやNN等の機械学習により、認識モデルを生成する。
認識モデル学習部16により認識モデルが生成されるまでの処理のフローは、図6を参照して説明したものと同様であるため、説明を省略する。
認識処理部17は、認識モデル学習部16が生成した認識モデルを用いて、類似度判定部15が選択した段における、多段オートエンコーダ部14が抽出した、評価データに基づく特徴量を、第1~3データに基づく特徴量のグループのいずれかに分類する。本実施形態における認識処理部17は、まず認識モデル学習部16が生成した、第1データに基づく特徴量から生成された認識モデルに、評価データに基づく特徴量を当てはめる。これにより、認識処理部17は、評価データに基づく特徴量が、第1データにおける認識対象のデータに基づく特徴量に該当するか否かを判定する。続いて認識処理部17は、認識モデル学習部16が生成した、第2データに基づく特徴量から生成された認識モデルに、評価データに基づく特徴量を当てはめる。これにより認識処理部17は、評価データに基づく特徴量が、第2データにおける認識対象のデータに基づく特徴量に該当するかを判定する。
認識処理部17は、上述のようにして、評価データに基づく特徴量が、第1、2データにおける各認識対象のデータに基づく特徴量のどちらに該当するかを判定し、評価データからそれぞれの認識対象のデータを識別する。なお、本実施形態においては、評価対象のデータに基づく特徴量が、第1、2データの各認識対象のデータに基づく特徴量のいずれにも該当しない場合に、これを第3データに基づく特徴量に該当するとする。ただし、認識処理部17は、第3データに関する認識モデルに、評価データに基づく特徴量を当てはめて、当該特徴量を評価してもよい。
認識処理部17は、評価データに基づく特徴量が、第1、2データの各認識対象のデータに基づく特徴量のいずれにも該当すると判定する場合に、評価データに基づく特徴量が、第1、2データの各認識対象のデータに基づく特徴量に該当する度合いを導出する。そして認識処理部17は、導出したこれら度合いに基づき、評価データに基づく特徴量を、第1、2データの各認識対象のデータに基づく特徴量のうちのいずれかへ分類する。この度合いは、SVM等において最尤法等を用いることにより算出される。
本実施形態の特徴抽出装置1’によれば、複数の学習用認識対象データベースを用いることにより、一種類のみではなく、複数種類のデータを認識対象として、それぞれを識別するための認識モデルが生成される。特徴抽出装置1’は、このような認識モデルを用いることにより、評価対象のデータから、複数のデータを別個に識別することができる。
図11は、第1、2の実施形態に係る特徴抽出装置1、1’のハードウェア構成を例示する。ここでは、特徴抽出装置1、1’は、一般的なコンピュータとしてハードウェアを有し、特徴抽出装置1、1’による処理は、以下に示すハードウェア2を具体的に利用することにより実行される。
ハードウェア2は、互いにバス24によって接続されたプロセッサ20、メモリ21、記憶装置22、および出力インターフェース回路23等を備える。ハードウェア2は、マイク等の外界からの情報を収集するセンサとの接続を可能にする入力インターフェース回路25を備えていてもよい。
プロセッサ20は、例えばシングルコア、デュアルコア、またはマルチコアのプロセッサである。
メモリ21は、例えばROM(Read Only Memory)、RAM(Random Access Memory)、若しくは半導体メモリ等、又はこれらの組み合わせである。
プロセッサ20が、メモリ21に記憶された各種プログラム等の情報を用いることにより、上記のパラメータ用オートエンコーダ部11、多段オートエンコーダ部14、類似度判定部15、および認識モデル学習部16の各機能が実現され得る。またプロセッサ20が、メモリ21に記憶された情報を用いることにより、認識処理部17による上述した分類や識別等の機能が実現され得る。
記憶装置22は、例えばハードディスクドライブ、光ディスク装置、可搬型記憶媒体等、又はこれらの組み合わせである。記憶装置22により、上述したパラメータ用データベース10、学習用認識対象データベース12(第1、2学習用認識対象データベース12、12’)、学習用認識対象外データベース13、および評価対象データベース18の各機能が実現され得る。
出力インターフェース回路23は、液晶やCRT(Cathode Ray Tube)等を用いる表示装置や、スピーカ等を用いる音出力装置などの出力装置を、特徴抽出装置1、1’に接続するための回路である。プロセッサ20が、メモリ21に記憶された情報を用い、出力インターフェース回路23を介して上記出力装置に情報を出力させることにより、上記認識処理部17による認識結果等の出力のための機能が実現され得る。
なお、上述した場合以外にも、図1、10に示す特徴抽出装置1、1’の機能ブロックの全て、又はその一部の機能は、適宜、専用のハードウェアにより実現されてもよい。
1、1’ 特徴抽出装置
2 ハードウェア
10 パラメータ用データベース
11 パラメータ用オートエンコーダ部
12 学習用認識対象データベース、第1学習用認識対象データベース
12’ 第2学習用認識対象データベース
13 学習用認識対象外データベース
14 多段オードエンコーダ部
15 類似度判定部
16 認識モデル学習部
17 認識処理部
18 評価対象データベース
20 プロセッサ
21 メモリ
22 記憶装置
23 出力インターフェース回路
24 バス
25 入力インターフェース回路

Claims (10)

  1. オートエンコーダが複数段に接続されたオートエンコーダ部であって、前記オートエンコーダ部の各段のオートエンコーダは、前段のオートエンコーダからの出力データと前記前段のオートエンコーダへの入力データとの差分を入力して、特徴量を抽出する、前記オートエンコーダ部、及び、
    認識対象のデータを用いて前記各段のオートエンコーダが抽出した複数の特徴量に基づいて算出される、抽出された前記複数の特徴量の類似度閾値以上である特徴量を選択する選択部、
    を備えることを特徴とする特徴抽出装置
  2. 前記特徴抽出装置は、更に、
    前記選択された特徴量と、認識対象外のデータを用いて抽出された特徴量とに基づいて、評価対象のデータから前記認識対象のデータを分類するための認識モデルを生成する認識モデル学習部と、
    前記認識モデルを用いて、前記評価対象のデータから前記認識対象のデータを識別する認識処理部と、
    を備えることを特徴とする請求項に記載の特徴抽出装置。
  3. オートエンコーダが複数段に接続されたオートエンコーダ部であって、前記オートエンコーダ部の各段のオートエンコーダは、前段のオートエンコーダからの出力データと前記前段のオートエンコーダへの入力データとの差分を入力して、特徴量を抽出する、前記オートエンコーダ部、及び、
    複数種類の認識対象のデータを用いて前記各段のオートエンコーダが抽出した複数の特徴量に基づいて算出される、抽出された前記複数の特徴量の類似度閾値以上である特徴量を選択する選択部、
    を備えることを特徴とする特徴抽出装置
  4. 前記特徴抽出装置は、更に、
    前記選択された特徴量と、認識対象外のデータを用いて抽出された特徴量とに基づいて、評価対象のデータから、前記複数種類の認識対象のデータを、該複数種類の認識対象のデータの各々へ分類するための認識モデルを生成する認識モデル学習部と、
    前記認識モデルを用いて、前記評価対象のデータから、前記複数種類の認識対象のデータのうちの1種類以上の認識対象のデータを識別する認識処理部と、
    を備えることを特徴とする請求項に記載の特徴抽出装置。
  5. 前記認識処理部は、
    前記評価対象のデータから前記複数種類の認識対象のデータのいずれかへ分類されるデータのうち、2種類以上の前記認識対象のデータへ分類されるデータを、該2種類以上の認識対象のデータへ分類されるデータが、前記2種類以上の認識対象のデータの各々に該当する度合いを算出し、該算出した度合いのうち、最も高い度合いの前記認識対象のデータへ分類する
    ことを特徴とする請求項に記載の特徴抽出装置。
  6. 前記類似度は、前記複数の特徴量の分散の平均値から算出され、該平均値が大きくなるに応じて、前記類似度が小さくなる
    ことを特徴とする請求項からのいずれか1項に記載の特徴抽出装置。
  7. 複数段に接続されたオートエンコーダにおける各段のオートエンコーダに、前段のオートエンコーダからの出力データと前記前段のオートエンコーダへの入力データとの差分を入力して、特徴量を抽出し、
    認識対象のデータを用いて前記各段のオートエンコーダが抽出した複数の特徴量に基づいて算出される、抽出された前記複数の特徴量の類似度が閾値以上である特徴量を選択する、
    処理を特徴抽出装置に実行させることを特徴とする特徴抽出プログラム。
  8. 複数段に接続されたオートエンコーダにおける各段のオートエンコーダに、前段のオートエンコーダからの出力データと前記前段のオートエンコーダへの入力データとの差分を入力して、特徴量を抽出し、
    複数種類の認識対象のデータを用いて前記各段のオートエンコーダが抽出した複数の特徴量に基づいて算出される、抽出された前記複数の特徴量の類似度が閾値以上である特徴量を選択する、
    処理を特徴抽出装置に実行させることを特徴とする特徴抽出プログラム。
  9. 複数段に接続されたオートエンコーダを有する特徴抽出装置における各段のオートエンコーダに、前段のオートエンコーダからの出力データと前記前段のオートエンコーダへの入力データとの差分を入力して、特徴量を抽出し、
    認識対象のデータを用いて前記各段のオートエンコーダが抽出した複数の特徴量に基づいて算出される、抽出された前記複数の特徴量の類似度が閾値以上である特徴量を選択する、
    ことを特徴とする特徴抽出方法。
  10. 複数段に接続されたオートエンコーダを有する特徴抽出装置における各段のオートエンコーダに、前段のオートエンコーダからの出力データと前記前段のオートエンコーダへの入力データとの差分を入力して、特徴量を抽出し、
    複数種類の認識対象のデータを用いて前記各段のオートエンコーダが抽出した複数の特徴量に基づいて算出される、抽出された前記複数の特徴量の類似度が閾値以上である特徴量を選択する、
    ことを特徴とする特徴抽出方法。
JP2017219396A 2017-11-14 2017-11-14 特徴抽出装置、特徴抽出プログラム、および特徴抽出方法 Active JP7021507B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017219396A JP7021507B2 (ja) 2017-11-14 2017-11-14 特徴抽出装置、特徴抽出プログラム、および特徴抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017219396A JP7021507B2 (ja) 2017-11-14 2017-11-14 特徴抽出装置、特徴抽出プログラム、および特徴抽出方法

Publications (2)

Publication Number Publication Date
JP2019091236A JP2019091236A (ja) 2019-06-13
JP7021507B2 true JP7021507B2 (ja) 2022-02-17

Family

ID=66836412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017219396A Active JP7021507B2 (ja) 2017-11-14 2017-11-14 特徴抽出装置、特徴抽出プログラム、および特徴抽出方法

Country Status (1)

Country Link
JP (1) JP7021507B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7276449B2 (ja) * 2019-06-18 2023-05-18 日本電信電話株式会社 一般化データ生成装置、推定装置、一般化データ生成方法、推定方法、一般化データ生成プログラム、及び推定プログラム
JP7068246B2 (ja) * 2019-08-26 2022-05-16 株式会社東芝 異常判定装置、および、異常判定方法
US11314614B2 (en) * 2020-01-02 2022-04-26 Sri International Security for container networks
JP7485332B2 (ja) 2020-01-16 2024-05-16 国立大学法人九州工業大学 ソフトウェアプログラム、回路基板及びニューラルネットワークの生成方法
DE112020006796T5 (de) * 2020-02-26 2022-12-29 Mitsubishi Electric Corporation Inferenzvorrichtung, fahrassistenzvorrichtung, inferenzverfahren und server
JP2022074890A (ja) * 2020-11-05 2022-05-18 株式会社東芝 異常判定装置、学習装置及び異常判定方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009043122A (ja) 2007-08-10 2009-02-26 Sony Corp データ処理装置、データ処理方法、及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3070643B2 (ja) * 1992-10-23 2000-07-31 株式会社デンソー ニューラルネット型追加学習装置
WO2016132468A1 (ja) * 2015-02-18 2016-08-25 株式会社日立製作所 データ評価方法および装置、故障診断方法および装置
JP6567478B2 (ja) * 2016-08-25 2019-08-28 日本電信電話株式会社 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム、信号処理学習装置
JP6798614B2 (ja) * 2017-05-12 2020-12-09 日本電気株式会社 画像認識装置、画像認識方法および画像認識プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009043122A (ja) 2007-08-10 2009-02-26 Sony Corp データ処理装置、データ処理方法、及びプログラム

Also Published As

Publication number Publication date
JP2019091236A (ja) 2019-06-13

Similar Documents

Publication Publication Date Title
JP7021507B2 (ja) 特徴抽出装置、特徴抽出プログラム、および特徴抽出方法
JP6798619B2 (ja) 情報処理装置、情報処理プログラム及び情報処理方法
KR101075824B1 (ko) 신호 식별 장치용 학습 데이터 세트 최적화 방법 및 학습 데이터 세트를 최적화할 수 있는 신호 식별 장치
US20120101822A1 (en) Biometric speaker identification
JP2019061577A (ja) 異常判定方法及びプログラム
JPWO2006073081A1 (ja) 識別用データ学習システム、学習装置、識別装置及び学習方法
JP6226701B2 (ja) データ処理方法及び装置、データ識別方法及び装置、プログラム
CN110288085B (zh) 一种数据处理方法、装置、系统及存储介质
WO2019167784A1 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
CN111797078A (zh) 数据清洗方法、模型训练方法、装置、存储介质及设备
JP2020052520A (ja) 判定装置、判定方法、およびプログラム
CN111626346A (zh) 数据分类方法、设备、存储介质及装置
CN113205403A (zh) 一种企业信用等级的计算方法、装置、存储介质及终端
JP6950504B2 (ja) 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置
JP4848492B2 (ja) 信号識別方法及び信号識別装置
JP7095414B2 (ja) 音声処理プログラム、音声処理方法および音声処理装置
CN112926663A (zh) 分类模型的训练方法、装置、计算机设备及存储介质
JP2008040684A (ja) 信号識別装置の学習方法
JP2013257677A (ja) イベント検出装置、イベント検出方法およびイベント検出プログラム
JP6453618B2 (ja) 算出装置、方法及びプログラム
Kocyan et al. Searching Time Series Based On Pattern Extraction Using Dynamic Time Warping.
Liu et al. A selective quantization approach for optimizing quantized inference engine
CN113435309B (zh) 一种基于行向量网格分类的水稻秧苗行识别方法
CN117975994B (zh) 嗓音数据的质量分类方法、装置以及计算机设备
JP2009105725A (ja) フィルタ演算方法及び装置、パターン識別方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210629

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210823

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210823

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20210823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220118

R150 Certificate of patent or registration of utility model

Ref document number: 7021507

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150