JP7021507B2

JP7021507B2 - 特徴抽出装置、特徴抽出プログラム、および特徴抽出方法

Info

Publication number: JP7021507B2
Application number: JP2017219396A
Authority: JP
Inventors: 克守萩原; 義照土永
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2022-02-17
Anticipated expiration: 2037-11-14
Also published as: JP2019091236A

Description

本発明は、特徴抽出装置、特徴抽出プログラム、および特徴抽出方法に関する。

従来、音声や環境音等の音の認識と識別の技術分野において、マイク等に入力された音のＡ／Ｄ変換後のデジタル信号ではなく、このデジタル信号から、音の認識と識別を行う上で冗長となる情報を削減して生成された特徴量が用いられている。なお、Ａ／Ｄ変換とは、Ａｎａｌｏｇ／ＤｉｇｉｔａｌＣｏｎｖｅｒｓｉｏｎを意味する。

特徴量は、例えば、オートエンコーダにより抽出される。オートエンコーダとは、ニューラルネットワークを使用した次元圧縮のアルゴリズムであり、入力値と出力値が互いに等しくなるように中間層を決定するものである。中間層とは、入力値に対し重み係数を乗算し、これにバイアスを加算するなどして得られる値の集合体である。この中間層における各値に対し重み係数を乗算し、これにバイアスを加算するなどして出力値が算出される。特徴量は、この中間層における値に対応し得る。オートエンコーダにより抽出された特徴量は、これまでに機械学習で蓄積されたモデルにおける特徴量と比較され識別される。これにより音の認識等がなされる。

特開平８―２４９２９８号公報特開２００７―１５７０００号公報特開２０１６―８５７０４号公報

オートエンコーダによって、入力信号における振幅の大きな成分は出力されるが、振幅の小さな成分は、変動としてみなされるなどし、除去される。すなわち抽出対象の信号の主成分が、入力信号において振幅の小さな成分であれば、主成分は、オートエンコーダによりノイズとして扱われる可能性が高い。この場合、抽出対象の信号がノイズに埋もれることがある
本発明の一つの側面に係る目的は、ノイズに埋もれた、取り出したい信号の特徴量を抽出することである。

特徴抽出装置は、オートエンコーダが複数段に接続されたオートエンコーダ部と、選択部とを含む。オートエンコーダ部の各段のオートエンコーダは、前段のオートエンコーダからの出力データと前段のオートエンコーダへの入力データとの差分を入力して、特徴量を抽出する。選択部は、認識対象のデータを用いて各段のオートエンコーダが抽出した複数の特徴量に基づいて算出される、抽出された複数の特徴量の類似度が閾値以上である特徴量を選択する。

上述の態様によれば、ノイズに埋もれた、取り出したい信号の特徴量を抽出することができる。

第１の実施形態に係る特徴抽出装置の機能ブロックを例示する図である。第１、２の実施形態に係るパラメータ用ＡＥ部（多段ＡＥ部）の動作を説明するための図である。多段に接続されたオートエンコーダにおける入力データと出力データを例示する図である。類似度について説明するための図である。パラメータ用オートエンコーダ部が各段のパラメータを導出するまでの処理のフローを例示する図である。認識モデル学習部が認識モデルを生成するまでの処理のフローを例示する図（その１）である。認識モデル学習部が認識モデルを生成するまでの処理のフローを例示する図（その２）である。認識モデル学習部が認識モデルを生成するまでの処理のフローを例示する図（その３）である。認識処理部が認識対象のデータを識別するまでの処理のフローを例示する図である。第２の実施形態に係る特徴抽出装置の機能ブロックを例示する図である。特徴抽出装置のハードウェア構成を例示する図である。

＜第１の実施形態＞
図１は、本実施形態に係る特徴抽出装置１の機能ブロックを例示する。特徴抽出装置１は、パラメータ用データベース１０、パラメータ用オートエンコーダ部１１、学習用認識対象データベース１２、学習用認識対象外データベース１３、および多段オートエンコーダ部１４等を備える。また特徴抽出装置１は、更に、類似度判定部１５、認識モデル学習部１６、および認識処理部１７等を備える。特徴抽出装置１は、また更に、評価対象データベース１８等を備える。なお、オートエンコーダをＡＥ、データベースをＤＢと略記することもあるものとする。特徴抽出装置１は、評価対象データベース１８に代わり、あるいはこれと共に、マイク等の外部情報を取得するためのセンサを含む評価データ入力部を備えてもよい。

なお、多段オートエンコーダ部１４は、オードエンコーダ部の一例であり、類似度判定部１５は、選択部の一例である。

パラメータ用データベース１０には、例えば、日常生活音を低周波マイクにより取得して得られたデータなどが多数記憶されている。本実施形態では、パラメータ学習用データベース１０に記憶されるデータは、例えば音のデータである。ただし、これに限定されず、例えば物体の振動に係るデータであってもよい。なお、ここでの音のデータは、例えば、０．５秒間に取得された、２００Ｈｚの、１００個のサンプリングデータである。

パラメータ用オートエンコーダ部１１および多段オートエンコーダ部１４は、複数段（多段）に接続されたオードエンコーダにより、各段における特徴量を抽出する。本実施形態において、特徴量は中間層における値を指すものとする。

図２は、本実施形態におけるパラメータ用オートエンコーダ部１１および多段オートエンコーダ部１４の動作を説明するための図である。ここではパラメータ用オートエンコーダ部１１（および多段オートエンコーダ部）におけるオードエンコーダは、Ｎ段に接続されているとする。ここでＮは、２以上の自然数であって、例えば８である。パラメータ用オートエンコーダ部１１（および多段オートエンコーダ部１４）では、ｎ段目のオードエンコーダへの入力データから、ｎ段目のオードエンコーダによる出力データを引いたデータが、ｎ＋１段目のオードエンコーダへの入力データとなる。ここでｎは、１以上であってＮより小さい自然数である。

なお、以下では、後段のオートエンコーダに入力される、オートエンコーダの入力データと出力データとの差を、残差と記載する場合もあるとする。また、入力データにおける入力値の集合を入力層、出力データにおける出力値の集合を出力層と記載する場合もあるとする。

各段のオートエンコーダにおいて出力データとなるのは、入力データにおける振幅が最大の信号である。パラメータオートエンコーダ部１１では、各段のオートエンコーダにより、入力データと出力データが等しくなるように、重み係数やバイアス等が導出される。以下では、この重み係数やバイアス等をパラメータと記載する場合もあるとし、またこれらの値をパラメータ値と記載する場合もあるとする。なお、重み係数やバイアスとは、オートエンコーダにより、入力データの数値を中間のデータの数値に変換するための係数等を指すと共に、中間のデータの数値を出力データの数値に変換するための係数等を指す。

図３は、多段に接続されたオートエンコーダにおける入力データと出力データを例示する。図３において、左側には、パラメータ用オートエンコーダ部１１又は多段オートエンコーダ部１４の、１段目から４段目までの各オードエンコーダに対する入力データが例示される。また、右側には、パラメータ用オートエンコーダ部１１又は多段オートエンコーダ部１４の、各段のオートエンコーダによる出力であって、左側の各入力データに対応する出力データが例示される。１段目のオートエンコーダを例に説明すると、このオートエンコーダにより、入力データの波形において、最も振幅の変化の大きい部分が出力データとして抽出され、これ以外の振幅の微小な変化は抽出されていないことがわかる。２段目以降のオートエンコーダによる入出力も同様である。

なお、図３で示されるデータは一例である。パラメータ用オートエンコーダ部１１は、取り出したいデータである認識対象のデータを含むデータを入力データとする。多段オートエンコーダ部１４は、後述するように、認識対象のデータの学習のために用いられるデータであって、認識対象のデータを含むデータと認識対象外のデータを含むデータを入力データとする。

図２を参照すると、入力層における入力値の個数と、出力層における出力値の個数は、互いに等しい。一方、中間層における値の個数は、入力層における入力値の個数よりも少ない。本実施形態では、入力層における入力値の個数、中間層における値の個数、出力層における出力値の個数は、それぞれ例えば、１００、１０、１００である。

パラメータ学習用オートエンコーダ部１１により、後述する多段オートエンコーダ１４で用いられるための各段のパラメータ値が算出される。

図１において学習用認識対象データベース１２には、認識対象となる音等のデータが記憶されている。学習用認識対象データベース１２に記憶されるデータは、認識対象のデータのみであってもよいし、認識対象のデータが含まれるデータであって認識対象のデータ以外のデータも含まれるデータであってもよい。本実施形態において、学習用認識対象データベース１２が記憶するデータは、評価データが取得される環境において取得されたデータを含む。なお、評価データとは、マイク等のセンサから取得され、評価対象データベース１８に記憶されるデータを指す。

同様に、学習用認識対象外データベース１３には、認識対象外となる音等のデータが記憶されている。例えば、歩行音を認識対象とする場合、学習用認識対象データベース１２は、十分な数の歩行音のデータを含むデータを記憶する。一方、学習用認識対象外データベース１３は、十分な数の歩行音以外の音のデータを記憶する。

認識対象のデータは、他に、例えばドアの開閉音、固体振動音等であってもよい。
本実施形態における認識対象となる音のデータは、例えば、低周波マイクで取得した２００Ｈｚのサンプリングデータである。

多段オートエンコーダ部１４は、学習用認識対象データベース１２および学習用認識対象外データベース１３から各データを読み込み、Ｎ段に接続されたオートエンコーダのうちの１段目のオートエンコーダへの入力データとする。このとき、学習用認識対象データベース１２と学習用認識対象外データベース１３から読み込まれる各データの数は、互いに等しいことが望ましい。

多段オートエンコーダ部１４は、パラメータ用オートエンコーダ部１１と同様に、多段に接続されたオートエンコーダを用いて処理を行う。多段オートエンコーダ部１４は、パラメータ用オートエンコーダ部１１が導出した各段のパラメータ値を取得し、これらを対応する段のパラメータの値とする。多段オートエンコーダ部１４においては、パラメータ用オートエンコーダ部１１と同様、ｎ段目におけるオードエンコーダへの入力データと、ｎ段目のオードエンコーダによる出力データの残差が、ｎ＋１段目のオードエンコーダへの入力データとなる。多段オートエンコーダ部１４は、学習用認識対象データベース１２からのデータに基づいて、各段の特徴量を抽出する。また多段オートエンコーダ部１４は、学習用認識対象外データベース１３からのデータに基づいて、各段の特徴量を抽出する。

類似度判定部１５は、段毎に類似度を算出する。図４は、類似度について説明するための図である。ここでは、多段オートエンコーダ部１４が、歩行音のデータとドアの開閉音のデータのそれぞれから特徴量を抽出した場合を例に挙げて説明する。図４の上部には、多段オートエンコーダ部１４の各段のオートエンコーダによる抽出結果であって、横軸を中間層のデータのインデックス、縦軸を歩行音のデータから多段オートエンコーダ部１４が抽出した特徴量とするグラフが示される。なお、中間層のデータのインデックスを、以下では単にインデックスとも記載する。各グラフのすぐ下には、多段オートエンコーダ部１４の各段のオートエンコーダが導出した特徴量に基づいて、類似度判定部１５が算出した類似度が示される。

本実施形態において、類似度は、例えば、各段における分散の平均の逆数である。中間層において、各インデックスにおける特徴量は、一意的に決まらず、その値に幅がある場合がある。本実施形態では、各段のインデックス毎に複数の特徴量が抽出されるが、その複数の特徴量の分散が大きければ大きいほど、これらの特徴量は互いに類似しないデータに基づくものであると推測できる。このため、本実施形態では、各段のインデックス毎に、複数の特徴量の分散を算出する。なお、以下では分散と記載する場合には、各段におけるインデックス毎の、複数の特徴量の分散を指すものとする。本実施形態においては、各段の全てのインデックスにおける、この分散を平均して得られる値から類似度を算出する。類似度は、複数の特徴量の各々が、互いに類似又は共通するデータに基づくものであるか否かを示す量である。このため、類似度は、分散が小さいほど大きい。本実施形態では、類似度を、分散の平均値の逆数とする。

類似度判定部１５は、各段の類似度を算出し、算出した類似度が閾値以上か否かを判定する。この閾値を以下では第１閾値とも記載する。なお図４には、理解容易のため、類似度に代わり、各段の分散の平均値が示されている。類似度判定部１５は、この分散の平均値が閾値以下か否かを判定する。なお、この分散の平均値の閾値を第２閾値とも以下では記載する。ここでは第１閾値の逆数が第２閾値である。なお、第２閾値（第１閾値）は、データの種類毎、例えば音の種類毎に定められ、図４における歩行音のデータの場合には、この第２閾値は例えば０．０２である。

図４の上部に示される場合においては、類似度判定部１５は、２～５段目のそれぞれにおける分散の平均値が第２閾値以下であると判定する。また、この場合に、類似度判定部１５は、１段目、および６～８段目のそれぞれにおける分散の平均値が第２閾値より大きいと判定する。

本実施形態では、例えば、複数種類の歩行音のデータにおいても歩行音のデータとしての共通かつ固有のパターンがあるとし、この共通の度合いを示す指標として類似度を用いる。そして類似度が第１閾値以上となる段の特徴量を、抽出された、固有のデータ（例えば歩行音のデータ）の特徴量とみなす。後述する認識モデル学習部１６は、互いに共通のパターンを持つ認識対象のデータの特徴量、例えば、複数種類の歩行音のデータの特徴量と、認識対象外のデータの特徴量、例えば、歩行音以外のデータの特徴量とを互いに分類するための認識モデルを生成する。このとき認識モデル学習部１６は、認識対象のデータの特徴量である、類似度が第１閾値以上の段の特徴量を、認識対象のデータについての認識モデルの生成のために用いる。

類似度判定部１５は、類似度が第１閾値以上、すなわち分散の平均値が第２閾値以下の段を選出する。図４の上部に示される、歩行音のデータが用いられた場合には、類似度判定部１５は、２～５段目を選出していることがわかる。

同様に、図４の下部に示されるように、ドアの開閉音のデータが用いられた場合において、類似度判定部１５は、分散の平均値が第２閾値（０．０２）以下である１～５段目と７段目と８段目を選出していることがわかる。

なお、類似度判定部１５は、選択した段の特徴量を抽出しているが、段の選択のみを行ってもよい。この場合、後述する認識モデル学習部１６が、類似度判定部１５により選択された段の特徴量を抽出し、これを用いるものとしてもよい。

図１に示される認識モデル学習部１６は、多段オートエンコーダ部１４が抽出した特徴量を適宜分類するための認識モデルを生成する。認識モデルを用いることで、後述する認識処理部１７は、例えば、歩行音の場合を正解として分類するなどし、歩行音のデータを識別することができる。認識モデル学習部１６は、例えば、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）やＮＮ（ＮｅｕｒａｌＮｅｔｗｏｒｋ）等の機械学習により、認識モデルを生成する。

認識モデル学習部１６は、認識対象のデータについての認識モデルを生成する。図４を参照し、認識モデル学習部１６が、歩行音のデータを識別するための認識モデルを生成する場合について説明する。図４において各段の中間層のデータのインデックスの数は１０個であり、類似度判定部１５により、歩行音のデータの特徴を抽出した段として選択されているのは２～５段目の４段である。このため、認識モデル学習部１６は、入力次元数を４０（１０×４）として認識モデルを生成する。

認識モデル学習部１６は、認識対象外のデータについても認識モデルを生成する。例えば認識対象のデータを歩行音のデータとして、これ以外を認識対象外とする場合、認識モデル学習部１６は、学習用認識対象外データベース１３から読み取られたデータに基づいて抽出された特徴量を用いて、認識対象外のデータについての認識モデルを生成する。またこの際に、本実施形態における認識モデル学習部１６は、学習用認識対象外データベース１３から読み取られたデータに基づく特徴量であって、類似度判定部１５が選択した段における特徴量を用いる。すなわち認識モデル学習部１６は、認識対象のデータを含むデータに基づく特徴量のうち、認識モデル生成において用いる特徴量の段と等しい段の、認識対象外のデータに基づく特徴量を用いて、認識対象外のデータに関する認識モデルを生成する。認識処理部１７は、多段オートエンコーダ部１４が評価対象データベース１８やマイク等のセンサから取得されたデータに基づき抽出した特徴量を用いて、これらのデータから認識対象のデータの特徴量を抽出する。以下、歩行音のデータを認識対象とする場合を説明する。評価対象データベース１８には、マイク等により収集されたデータが保存されているとし、これらのデータを評価する場合を考える。多段オートエンコーダ部１４は、評価対象データベース１８に記憶されているデータを読み取り、各段の特徴量を抽出する。

認識処理部１７は、評価データに基づいて多段オートエンコーダ部１４が抽出した特徴量のうち、類似度判定部１５が選択した段の特徴量を抽出する。認識処理部１７は、この抽出した特徴量と認識モデル学習部１６が生成した認識モデルとを用いて、評価データに含まれる認識対象のデータの特徴量を認識対象外のデータの特徴量から分類するなどし、認識対象のデータの特徴量を抽出する。評価データに含まれるデータの分類等の処理には、例えば、上述したＳＶＭやＮＮが用いられる。

以下、上述した特徴抽出装置１の処理の流れについて、図５～９を参照して説明する。図５は、パラメータ用オートエンコーダ部１１が各段の重み係数とバイアスを導出するまでの処理のフローを例示する。図６～８は、認識モデル学習部１６が認識モデルを生成するまでの処理のフローを例示する。図９は、認識処理部１７が、評価データに含まれるデータを分類等して、評価データから認識対象のデータを識別するまでの処理のフローを例示する。

図５において、パラメータ用オートエンコーダ部１１は、パラメータ用データベース１０に記憶されているデータを入力データとして読み込む（ステップＳ１００）。パラメータ用オートエンコーダ部１１は、接続されるオートエンコーダの段数Ｎを設定する（ステップＳ１０１）。Ｎは、ステップＳ１００で読み込まれたデータの大きさ等によって決められてもよいし、予めユーザにより設定されていてもよい。なお、Ｎは２以上の自然数である。

パラメータ用オートエンコーダ部１１は、変数ｎに１を格納する（ステップＳ１０２）。このｎは、パラメータ学習用オートエンコーダ部１１による処理の対象となる段が何段目であるかを示すための１以上の自然数である。

ｎ＞Ｎではない場合（ステップＳ１０３：Ｎｏ）、パラメータ学習用オートエンコーダ部１１は、ｎ段目のパラメータの値（重み係数とバイアス）を導出する（ステップＳ１０４）。重み係数とバイアスは、上述したように、オートエンコーダによる出力データが、入力データと等しくなるよう導出される。パラメータ用オートエンコーダ部１１は、ステップＳ１０４で導出した、ｎ段目の重み係数とバイアスを記憶する（ステップＳ１０５）。なお、この重み係数とバイアスは、段毎に得られ、段毎に記憶される。

パラメータ用オートエンコーダ部１１は、ステップＳ１０５において導出した重み係数とバイアスを用いて、入力データから出力データを生成する（ステップＳ１０６）。パラメータ用オートエンコーダ部１１は、入力データと、ステップＳ１０６で生成された出力データとの差、すなわち残差を算出する（ステップＳ１０７）。パラメータ用オートエンコーダ部１１は、ステップＳ１０７で算出した残差を入力データとして設定する（ステップＳ１０８）。

パラメータ用オートエンコーダ部１１は、ｎに１を加算した値を新たなｎとし（ステップＳ１０９）、処理をステップＳ１０３へと戻す。ステップＳ１０３において更にｎがＮ以下である場合には（ステップＳ１０３：Ｎｏ）、この後のステップＳ１０４～Ｓ１０７において用いられる入力データは、上述したステップＳ１０８で設定された入力データとなる。

ステップＳ１０３においてｎがＮより大きい場合、パラメータ学習用オートエンコーダ部１１は、処理を終了する。

図６に例示される、特徴抽出装置１による処理について説明する。多段オートエンコーダ部１４は、学習用認識対象データベース１２と学習用認識対象外データベース１３から、それぞれ認識対象のデータを含むデータと認識対象外のデータを、入力データとして読み込む（ステップＳ２００）。多段オートエンコーダ部１４は、ステップＳ２００で読み込んだ各データの、各段の特徴量を抽出する（ステップＳ２０１）。この処理については、図７を参照して後述する。

ステップＳ２０１において抽出された特徴量が、認識対象のデータを含むデータを用いて抽出されたものである場合（ステップＳ２０２：Ｙｅｓ）、類似度判定部１５は、これらの特徴量を用いて、各段における類似度を算出する。類似度判定部１５は、算出した各段の類似度が第１閾値以上か否かを判定する（ステップＳ２０３）。また類似度判定部１５は、類似度が第１閾値以上の段を選出する。この類似度判定部１５によるステップＳ２０３の処理のついての詳細は図８を参照して後述する。

認識モデル学習部１６は、類似度判定部１５により選択された段の、認識対象のデータの特徴量を用いて、機械学習により、認識対象のデータに関する認識モデルを生成する（ステップＳ２０４）。

ステップＳ２０１において抽出された特徴量が、認識対象外のデータに基づく場合（ステップＳ２０２：Ｎｏ）、認識モデル学習部１６は、これらの特徴量を用いて、機械学習により、認識対象外のデータに関する認識モデルを生成する（ステップＳ２０４）。

図７を参照して、多段オートエンコーダ部１４によるステップＳ２０１の処理について詳細に述べる。ここでは、多段オートエンコーダ部１４は、認識対象のデータを含むデータと認識対象外のデータの各々に対して、ステップＳ３００からステップＳ３０８の処理を実行する。

多段オートエンコーダ部１４は、接続されるオートエンコーダの段数Ｎを設定する（ステップＳ３００）。このＮは、パラメータ用オートエンコーダ部１１によりステップＳ１０１において設定されるＮと等しく、ユーザにより設定されたものでも、パラメータ用オートエンコーダ部１１から読み込まれたものでもよい。またこのＮは、多段オートエンコーダ部１４が学習用認識対象データベース１２等から読み込むデータの大きさ等から、多段オートエンコーダ部１４により決められてもよい。この場合、Ｎの値はパラメータ用オートエンコーダ部１１に通知されてもよく、この通知に基づいて、パラメータ用オートエンコーダ部１１はステップＳ１０１の処理を行ってもよい。なお、Ｎは２以上の自然数である。

多段オートエンコーダ部１４は、変数ｎに１を格納する（ステップＳ３０１）。このｎは、多段オートエンコーダ部１４による処理の対象となる段が何段目であるかを示すためのものであり、１以上の自然数である。

ｎ＞Ｎではない場合（ステップＳ３０２：Ｎｏ）、多段オートエンコーダ部１４は、パラメータ学習用オートエンコーダ部１１が導出した、ｎ段目の重み係数とバイアスを読み込む（ステップＳ３０３）。多段オートエンコーダ部１４は、ステップＳ３０３において読み込んだ重み係数とバイアスを用いて、入力データから出力データを生成する（ステップＳ３０４）。多段オートエンコーダ部１４は、入力データから出力データを生成する際に、ｎ段目の特徴量を抽出する。ｎ＝１の場合の入力データは、多段オートエンコーダ部１４が学習用認識対象データベース１２又は学習用認識対象外データベース１３から読み込むデータとなる。

多段オートエンコーダ部１４は、入力データと、ステップＳ３０４で生成された出力データとの差である残差を算出する（ステップＳ３０５）。

多段オートエンコーダ部１４は、ステップＳ３０４において抽出された、ｎ段目の特徴量を記憶する（ステップＳ３０６）。このステップＳ３０６の処理は、ステップＳ３０５の処理に先立ち、又はステップＳ３０５の処理と並行して実行されてもよい。なお、特徴量の抽出処理は、ステップＳ３０４においてではなく、ステップＳ３０６において行われてもよい。この場合において、多段オートエンコーダ部１４は、入力データに対し、ステップＳ３０３で読み込んだ重み係数とバイアスを用いることにより、ｎ段目の特徴量を抽出してもよい。

ステップＳ３０６において、特徴量は段毎に記憶される。
多段オートエンコーダ部１４は、ステップＳ３０５で算出した残差を入力データとして設定する（ステップＳ３０７）。

多段オートエンコーダ部１４は、ｎに１を加算した値を新たなｎとし（ステップＳ３０８）、処理をステップＳ３０２へと戻す。ステップＳ３０２において更にｎがＮ以下である場合には（ステップＳ３０２：Ｎｏ）、この後のステップＳ３０３～Ｓ３０６において用いられる入力データは、上述したステップＳ３０７で設定された入力データとなる。

ステップＳ３０２においてｎ＞Ｎの場合、多段オートエンコーダ部１４は、処理を終了する。

図８を参照して、類似度判定部１５によるステップＳ２０３の処理について詳細に説明する。類似度判定部１５は、多段オートエンコーダ部１４において多段に接続されたオートエンコーダの段数Ｎを取得する（ステップＳ４００）。

類似度判定部１５は、変数ｎに１を格納する（ステップＳ４０１）。このｎは、類似度判定部１５による処理の対象となる段が何段目であるかを示すためのものである。

ｎ＞Ｎではない場合（ステップＳ４０２：Ｎｏ）、類似度判定部１５は、多段オートエンコーダ部１４が抽出した、認識対象のデータを含むデータのｎ段目の特徴量を読み込む（ステップＳ４０３）。類似度判定部１５は、ステップＳ４０３において読み込んだ特徴量から類似度を算出する（ステップＳ４０４）。この類似度は、上述したように、例えばｎ段目における特徴量の分散の平均値の逆数等であり、この分散の平均値が小さいほど大きい値になる。

類似度判定部１５は、ステップＳ４０４において算出した類似度が第１閾値以上か否かを判定する（ステップＳ４０５）。類似度が第１閾値以上であれば（ステップＳ４０５：Ｙｅｓ）、類似度判定部１５は、ｎ段目を選択し、このｎ段目の特徴量を抽出する（ステップＳ４０６）。類似度が第１閾値より小さければ（ステップＳ４０５：Ｎｏ）、類似度判定部１５は、ｎ段目を選択することなく、またこのｎ段目の特徴量を抽出せずにステップＳ４０７の処理を実行する。

ステップＳ４０６の処理の後、又は、ステップＳ４０５において類似度が第１閾値より小さいという判定後、類似度判定部１５は、ｎに１を加算した値を新たなｎとし（ステップＳ４０７）、処理をステップＳ４０２へと戻す。

ステップＳ４０２においてｎ＞Ｎの場合、類似度判定部１５は、処理を終了する。
図９を参照して、特徴抽出装置１が、ステップＳ２０４で生成された認識モデルやステップＳ４０６において選択された段についての情報などを用いて、評価対象のデータから認識対象のデータを識別する処理の詳細について説明する。

多段オートエンコーダ部１４は、評価対象データベース１８やセンサ等から評価データを読み込む（ステップＳ５００）。

多段オートエンコーダ部１４は、評価データの各段の特徴量を抽出する（ステップＳ５０１）。この抽出処理は、図７に示すフローにおいて、ｎ＝１の場合に入力データを評価データとする、ステップＳ３００～Ｓ３０８に示す処理と等しい。そのため、このステップＳ５０１における処理については説明を省略する。

認識処理部１７は、類似度判定部１５が選択した段についての情報を取得し、認識モデル学習部１６が生成した認識モデルを取得する（ステップＳ５０２）。

認識処理部１７は、ステップＳ５０２で取得した段における、評価データからの特徴量を抽出する。認識処理部１７は、この抽出した特徴量が認識モデルにおいて認識対象のデータの特徴量として分類されるか否かを判定するなどし、認識対象のデータの特徴量を抽出する（ステップＳ５０３）。認識処理部１７は、認識結果を出力する。認識結果には、例えば、認識対象のデータが評価データに含まれるか否かの情報、又は、評価データに含まれる認識対象のデータなどが含まれる。本実施形態における認識結果には、認識対象のデータが評価データに含まれるか否かの情報が含まれるとする。

本実施形態に係る特徴抽出装置１は、多段に接続したオートエンコーダのうちの１つへの入力データを、その前段のオートエンコーダの入力データと出力データの差とする。これにより、特徴抽出装置１は、振幅がより小さい信号の特徴量を段階的に抽出していくことができる。従って、入力信号に含まれる各段の特徴量が、互いに分解され取り出される。よって、特徴抽出装置１は、ノイズに埋もれていた、取り出したい信号の特徴量を漏れなく抽出できる。また特徴抽出装置１は、認識対象のデータを含むデータを用いて抽出した特徴量のうち、類似度が高い段の特徴量を用いて認識モデルを生成し、当該段における、評価データから抽出した特徴量と、認識モデルとを用いて認識処理を行う。これにより、特徴抽出装置１は、全ての段の特徴量を用いるよりも、少ない計算量で所要の結果を得ることができる。

＜第２の実施形態＞
第１の実施形態に係る特徴抽出装置１が認識できるデータは、例えば歩行音のデータなど一種類のデータであった。しかし、評価データにおいて、複数のデータを各々認識したい場合も存在する。本実施形態に係る特徴抽出装置１’は、評価データに含まれるデータの特徴量を、認識対象のデータと認識対象外のデータの各特徴量のいずれかに分類するのみならず、複数の認識対象のデータの各特徴量のうち、どの特徴量として分類するか決定することができる。本実施形態に係る特徴抽出装置１’は、複数の認識対象のデータの各々が評価データに含まれるか否かを認識することができる。

図１０は、第２の実施形態に係る特徴抽出装置１’の機能ブロックを例示する図である。特徴抽出装置１’は、特徴抽出装置１の機能ブロックにおける、１つの学習用認識対象データベース１２に代えて、１以上の学習用認識対象データベースを備える。ここでは、理解容易のために、特徴抽出装置１’は、２つの学習用認識対象データベースを備えるとする。また、ここでは、第１の実施形態における学習用認識対象データベース１２を、第１学習用認識対象データベース１２と記載する。また、もう一方の学習用認識対象データベースを第２学習用認識対象データベース１２’と記載する。

第２学習用認識対象データベース１２’以外の機能ブロックについては、特に断りが無い限り、第１の実施形態の場合と同様であるため、第１の実施形態の場合と同様の部分については説明を省略する。

第２学習用認識対象データベース１２’には、第１学習用認識データベース１２が記憶する認識対象のデータとは異なる、認識対象のデータを含むデータを記憶する。例えば、第１、２学習用認識対象データベース１２、１２’のそれぞれには、認識対象のデータとして、歩行音のデータ、ドアの開閉音のデータが記憶される。これらのデータは、それぞれ、例えば、低周波マイク等で取得した２００Ｈｚのサンプリングデータであり、十分な数のものであるとする。

以下では、第１学習用認識対象データベース１２と第２学習用認識対象データベース１２’と学習用認識対象外データベース１３にそれぞれ記憶されるデータを、第１データ、第２データ、第３データとも記載する。
第１～３データの、それぞれの数は、互いに等しいか近しいことが望ましい。

本実施形態においても、第１の実施形態と同様、第１データと第３データに基づいて多段オートエンコーダ部１４と類似度判定部１５が抽出する各特徴量は、認識モデルにおいて、互いに異なるグループに分類される。本実施形態においては、更に、第２データに基づいて多段オートエンコーダ部１４と類似度判定部１５が抽出する特徴量は、認識モデルにおいて、第１、３データに基づく各特徴量とは異なるグループに分類される。

多段オートエンコーダ部１４は、第１の実施形態における処理に加え、第２データを用いて、各段における特徴量を抽出する。なお、この多段オートエンコーダ部１４による処理は、第１～３データのそれぞれに対し別個に行われる。多段オートエンコーダ部１４による処理のフローは、図７を参照して説明したものと同様であるため、説明を省略する。

類似度判定部１５は、多段オートエンコーダ部１４により抽出された、第１、２データに基づく各類似度を算出する。類似度は、第１の実施形態と同様、例えば、各段における分散の平均値の逆数である。

ここで第１、２データにおいて認識対象のデータとして含まれるデータが、それぞれ歩行音のデータとドアの開閉音のデータであるとし、これらに基づいて多段オートエンコーダ部１４から図４に示されるような特徴量が抽出された場合について説明する。なお、第１データに基づく特徴量については、上記第１の実施形態と同様であるため説明を省略する。

ここで、第２データに基づき抽出される特徴量の、各段における分散の平均値に対する第２閾値は、例えば０．０２である。この第２閾値は、予めユーザによって設定されている。

図４の下部に示されるように、第２データに基づき抽出される特徴量の、１～５段目と７、８段目のそれぞれの分散の平均値は、第２閾値以下である。一方、６段目の分散の平均値は、第２閾値より大きい。

このため類似度判定部１５は、１～５段目と７、８段目を選択し、これらの段の特徴量を更に抽出する。

本実施形態における類似度判定部１５による処理のフローは、図８を参照して説明したものと同様であるため、説明を省略する。

認識モデル学習部１６は、第１の実施形態と同様、第１、３データに基づく特徴量を互いに異なるグループへ分類等すると共に、類似度判定部１５により抽出された、第２データに基づく特徴量を上記グループとは別のグループへ分類する。

認識モデル学習部１６は、類似度判定部１５が抽出した特徴量を用いて、上記第１の実施形態と同様、機械学習により認識モデルを生成する。認識モデル学習部１６は、図４に示されるような第２データに基づく特徴量の場合に、類似度判定部１５が抽出した１～５段目と７、８段目（合計７段）における各特徴量を、認識モデル生成のために用いる。これらの各段の中間層のインデックスの数は１０であることから、認識モデル学習部１６への入力次元数は、７０（７×１０）となる。これらの特徴量を用いて、認識モデル学習部１６は、ＳＶＭやＮＮ等の機械学習により、認識モデルを生成する。

認識モデル学習部１６により認識モデルが生成されるまでの処理のフローは、図６を参照して説明したものと同様であるため、説明を省略する。

認識処理部１７は、認識モデル学習部１６が生成した認識モデルを用いて、類似度判定部１５が選択した段における、多段オートエンコーダ部１４が抽出した、評価データに基づく特徴量を、第１～３データに基づく特徴量のグループのいずれかに分類する。本実施形態における認識処理部１７は、まず認識モデル学習部１６が生成した、第１データに基づく特徴量から生成された認識モデルに、評価データに基づく特徴量を当てはめる。これにより、認識処理部１７は、評価データに基づく特徴量が、第１データにおける認識対象のデータに基づく特徴量に該当するか否かを判定する。続いて認識処理部１７は、認識モデル学習部１６が生成した、第２データに基づく特徴量から生成された認識モデルに、評価データに基づく特徴量を当てはめる。これにより認識処理部１７は、評価データに基づく特徴量が、第２データにおける認識対象のデータに基づく特徴量に該当するかを判定する。

認識処理部１７は、上述のようにして、評価データに基づく特徴量が、第１、２データにおける各認識対象のデータに基づく特徴量のどちらに該当するかを判定し、評価データからそれぞれの認識対象のデータを識別する。なお、本実施形態においては、評価対象のデータに基づく特徴量が、第１、２データの各認識対象のデータに基づく特徴量のいずれにも該当しない場合に、これを第３データに基づく特徴量に該当するとする。ただし、認識処理部１７は、第３データに関する認識モデルに、評価データに基づく特徴量を当てはめて、当該特徴量を評価してもよい。

認識処理部１７は、評価データに基づく特徴量が、第１、２データの各認識対象のデータに基づく特徴量のいずれにも該当すると判定する場合に、評価データに基づく特徴量が、第１、２データの各認識対象のデータに基づく特徴量に該当する度合いを導出する。そして認識処理部１７は、導出したこれら度合いに基づき、評価データに基づく特徴量を、第１、２データの各認識対象のデータに基づく特徴量のうちのいずれかへ分類する。この度合いは、ＳＶＭ等において最尤法等を用いることにより算出される。

本実施形態の特徴抽出装置１’によれば、複数の学習用認識対象データベースを用いることにより、一種類のみではなく、複数種類のデータを認識対象として、それぞれを識別するための認識モデルが生成される。特徴抽出装置１’は、このような認識モデルを用いることにより、評価対象のデータから、複数のデータを別個に識別することができる。

図１１は、第１、２の実施形態に係る特徴抽出装置１、１’のハードウェア構成を例示する。ここでは、特徴抽出装置１、１’は、一般的なコンピュータとしてハードウェアを有し、特徴抽出装置１、１’による処理は、以下に示すハードウェア２を具体的に利用することにより実行される。

ハードウェア２は、互いにバス２４によって接続されたプロセッサ２０、メモリ２１、記憶装置２２、および出力インターフェース回路２３等を備える。ハードウェア２は、マイク等の外界からの情報を収集するセンサとの接続を可能にする入力インターフェース回路２５を備えていてもよい。

プロセッサ２０は、例えばシングルコア、デュアルコア、またはマルチコアのプロセッサである。

メモリ２１は、例えばＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、若しくは半導体メモリ等、又はこれらの組み合わせである。

プロセッサ２０が、メモリ２１に記憶された各種プログラム等の情報を用いることにより、上記のパラメータ用オートエンコーダ部１１、多段オートエンコーダ部１４、類似度判定部１５、および認識モデル学習部１６の各機能が実現され得る。またプロセッサ２０が、メモリ２１に記憶された情報を用いることにより、認識処理部１７による上述した分類や識別等の機能が実現され得る。

記憶装置２２は、例えばハードディスクドライブ、光ディスク装置、可搬型記憶媒体等、又はこれらの組み合わせである。記憶装置２２により、上述したパラメータ用データベース１０、学習用認識対象データベース１２（第１、２学習用認識対象データベース１２、１２’）、学習用認識対象外データベース１３、および評価対象データベース１８の各機能が実現され得る。

出力インターフェース回路２３は、液晶やＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）等を用いる表示装置や、スピーカ等を用いる音出力装置などの出力装置を、特徴抽出装置１、１’に接続するための回路である。プロセッサ２０が、メモリ２１に記憶された情報を用い、出力インターフェース回路２３を介して上記出力装置に情報を出力させることにより、上記認識処理部１７による認識結果等の出力のための機能が実現され得る。

なお、上述した場合以外にも、図１、１０に示す特徴抽出装置１、１’の機能ブロックの全て、又はその一部の機能は、適宜、専用のハードウェアにより実現されてもよい。

１、１’ 特徴抽出装置
２ハードウェア
１０パラメータ用データベース
１１パラメータ用オートエンコーダ部
１２学習用認識対象データベース、第１学習用認識対象データベース
１２’ 第２学習用認識対象データベース
１３学習用認識対象外データベース
１４多段オードエンコーダ部
１５類似度判定部
１６認識モデル学習部
１７認識処理部
１８評価対象データベース
２０プロセッサ
２１メモリ
２２記憶装置
２３出力インターフェース回路
２４バス
２５入力インターフェース回路

Claims

オートエンコーダが複数段に接続されたオートエンコーダ部であって、前記オートエンコーダ部の各段のオートエンコーダは、前段のオートエンコーダからの出力データと前記前段のオートエンコーダへの入力データとの差分を入力して、特徴量を抽出する、前記オートエンコーダ部、及び、
認識対象のデータを用いて前記各段のオートエンコーダが抽出した複数の特徴量に基づいて算出される、抽出された前記複数の特徴量の類似度が閾値以上である特徴量を選択する選択部、
を備えることを特徴とする特徴抽出装置。
前記特徴抽出装置は、更に、
前記選択された特徴量と、認識対象外のデータを用いて抽出された特徴量とに基づいて、評価対象のデータから前記認識対象のデータを分類するための認識モデルを生成する認識モデル学習部と、
前記認識モデルを用いて、前記評価対象のデータから前記認識対象のデータを識別する認識処理部と、
を備えることを特徴とする請求項１に記載の特徴抽出装置。
オートエンコーダが複数段に接続されたオートエンコーダ部であって、前記オートエンコーダ部の各段のオートエンコーダは、前段のオートエンコーダからの出力データと前記前段のオートエンコーダへの入力データとの差分を入力して、特徴量を抽出する、前記オートエンコーダ部、及び、
複数種類の認識対象のデータを用いて前記各段のオートエンコーダが抽出した複数の特徴量に基づいて算出される、抽出された前記複数の特徴量の類似度が閾値以上である特徴量を選択する選択部、
を備えることを特徴とする特徴抽出装置。
前記特徴抽出装置は、更に、
前記選択された特徴量と、認識対象外のデータを用いて抽出された特徴量とに基づいて、評価対象のデータから、前記複数種類の認識対象のデータを、該複数種類の認識対象のデータの各々へ分類するための認識モデルを生成する認識モデル学習部と、
前記認識モデルを用いて、前記評価対象のデータから、前記複数種類の認識対象のデータのうちの１種類以上の認識対象のデータを識別する認識処理部と、
を備えることを特徴とする請求項３に記載の特徴抽出装置。
前記認識処理部は、
前記評価対象のデータから前記複数種類の認識対象のデータのいずれかへ分類されるデータのうち、２種類以上の前記認識対象のデータへ分類されるデータを、該２種類以上の認識対象のデータへ分類されるデータが、前記２種類以上の認識対象のデータの各々に該当する度合いを算出し、該算出した度合いのうち、最も高い度合いの前記認識対象のデータへ分類する
ことを特徴とする請求項４に記載の特徴抽出装置。
前記類似度は、前記複数の特徴量の分散の平均値から算出され、該平均値が大きくなるに応じて、前記類似度が小さくなる
ことを特徴とする請求項１から５のいずれか１項に記載の特徴抽出装置。
複数段に接続されたオートエンコーダにおける各段のオートエンコーダに、前段のオートエンコーダからの出力データと前記前段のオートエンコーダへの入力データとの差分を入力して、特徴量を抽出し、
認識対象のデータを用いて前記各段のオートエンコーダが抽出した複数の特徴量に基づいて算出される、抽出された前記複数の特徴量の類似度が閾値以上である特徴量を選択する、
処理を特徴抽出装置に実行させることを特徴とする特徴抽出プログラム。
複数段に接続されたオートエンコーダにおける各段のオートエンコーダに、前段のオートエンコーダからの出力データと前記前段のオートエンコーダへの入力データとの差分を入力して、特徴量を抽出し、
複数種類の認識対象のデータを用いて前記各段のオートエンコーダが抽出した複数の特徴量に基づいて算出される、抽出された前記複数の特徴量の類似度が閾値以上である特徴量を選択する、
処理を特徴抽出装置に実行させることを特徴とする特徴抽出プログラム。
複数段に接続されたオートエンコーダを有する特徴抽出装置における各段のオートエンコーダに、前段のオートエンコーダからの出力データと前記前段のオートエンコーダへの入力データとの差分を入力して、特徴量を抽出し、
認識対象のデータを用いて前記各段のオートエンコーダが抽出した複数の特徴量に基づいて算出される、抽出された前記複数の特徴量の類似度が閾値以上である特徴量を選択する、
ことを特徴とする特徴抽出方法。
複数段に接続されたオートエンコーダを有する特徴抽出装置における各段のオートエンコーダに、前段のオートエンコーダからの出力データと前記前段のオートエンコーダへの入力データとの差分を入力して、特徴量を抽出し、
複数種類の認識対象のデータを用いて前記各段のオートエンコーダが抽出した複数の特徴量に基づいて算出される、抽出された前記複数の特徴量の類似度が閾値以上である特徴量を選択する、
ことを特徴とする特徴抽出方法。