JP2018022014A

JP2018022014A - 特徴量抽出装置、特徴量抽出関数情報生成装置、これらの方法及びプログラム

Info

Publication number: JP2018022014A
Application number: JP2016152571A
Authority: JP
Inventors: 悠馬小泉; Yuma Koizumi; 翔一郎齊藤; Shoichiro Saito; 尚植松; Hisashi Uematsu
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-08-03
Filing date: 2016-08-03
Publication date: 2018-02-08
Anticipated expiration: 2036-08-03
Also published as: JP6472417B2

Abstract

【課題】適切な特徴量を計算するように最適化された特徴量抽出関数を用いて特徴量を計算する技術を提供する。
【解決手段】特徴量抽出装置は、観測データを特徴量抽出関数に入力することにより観測データの特徴量を計算する特徴量抽出部１１を含み、特徴量抽出関数は、ネイマン・ピアソンの基準に基づく最適化指標を用いて勾配法により最適化されている。
【選択図】図１

Description

この発明は、特徴量を抽出する技術及び特徴量を抽出するための特徴量抽出関数を生成する技術に関する。

大型の製造機やデータセンタのサーバなどの機器は、故障により稼働がストップすると業務に支障をもたらす。そこで、何らかのセンサーを用いて機器の稼働状況を日常的に監視し、異常の兆候を検知したい。ここでは音響センサーに焦点を当て、機器の動作音を用いて異常判定を行う異常音検知を実現することを考える。つまり、機器が正常に動作している時に発する音を「正常音」と判定し、機器が異常動作しているときに発する音（例えばパーツ同士がぶつかる「ゴツン」という音や、モーターの異常回転音など）を「異常音」として判定することを考える。

異常音の自動判定法として、統計的学習に基づく教師なし異常音検知がある（例えば、非特許文献１，２）。この方法の特徴は、異常音の学習データを一切使わずに、異常音検知ができる点にある。実環境で異常音が発生することはまれであり、異常音データを大量に集めることが困難なため、実用的な方法である。この方法では、正常音の学習データから、正常音らしさ（正常音の確率モデル）を学習する。そして、その正常音の確率モデルを用いて観測音の正常音の確率モデルの当てはまりの悪さ（異常度）を計算し、その異常度が閾値以上ならば異常と判定する。

この方法は、実現が容易な一方で、異常音データを使わないため100%の検知率を達成することは難しい。そこで、後処理を加えることで精度を向上させたい。具体的には、見逃してしまった異常音及び誤検知してしまった正常音を登録し、新しく観測した音とマッチングを取ることで、次回以降の見逃しや誤検知を抑制したい。つまり、ある登録した音と、同じ要因で生じた音（同じ個所や同じ原因で鳴る音。観測信号は環境雑音や温度変化などで若干の揺らぎがあるため、厳密には一致しない。）を検知したい。このように、登録した音と観測音のマッチングを行い、同一音を検知することを登録音検知と呼ぶ。

登録音検知を実現する方法として、特徴量マッチングの方法がある。これは、指紋認証をイメージすると理解しやすい。一般的な指紋認証では、まず「マニューシャ」と呼ばれる分岐点や切れ目を表す特徴量を抽出する。この特徴量を、登録した指紋と入力された指紋で比較し、一致する箇所が一定以上なら、同一の指紋として判定する。これを登録音検知に置き換えると、登録音と観測音から音響特徴量を抽出し、これらの類似度を計算し、この類似度が一定値以上なら同一音と判定する。

つまり、特徴量マッチングでは、類似度を正確に計算できる特徴量が重要となる。指紋認証では、長年の研究によりマニューシャが有効であると判明してきた。

井出剛,杉山将,"異常検知と変化検知," 講談社, pp.6-7, 2015. D. Chakrabarty and M. Elhilali, "Abnormal Sound Event Detection using Temporal Trajectories," In Proc. ICASSP, 2016.

しかしながら、登録音検知には有効な特徴量の統一的な知見はない。そこで、例えばパーツ同士のぶつかり音などの音の時間変化が特徴的な突発音にはスペクトルの時間変化の特徴量（デルタ特徴量）、人間の声など音色が特徴的な音にはスペクトルの概形の特徴量（スペクトル包絡）、などと、技術者の直感や経験によって特徴量は決定されてきた。この特徴量の設計をすべての登録音について人手で行うのは労力がかかり、また現実的ではない。

そこで、本発明は、適切な特徴量を計算するように最適化された特徴量抽出関数を用いて特徴量を計算する特徴量抽出装置、適切な特徴量を計算するように特徴量抽出関数を最適化する特徴量抽出関数情報生成装置、これらの方法及びプログラムを提供することを目的とする。

この発明の一態様による特徴量抽出装置は、観測データを特徴量抽出関数に入力することにより観測データの特徴量を計算する特徴量抽出部を含み、特徴量抽出関数は、ネイマン・ピアソンの基準に基づく最適化指標を用いて勾配法により最適化されている。

適切な特徴量を計算するように最適化された特徴量抽出関数を用いて特徴量を計算することができる。適切な特徴量を計算するように特徴量抽出関数を最適化することができる。

登録音検知装置の例を説明するためのブロック図。特徴量抽出関数情報生成装置の例を説明するためのブロック図。登録音検知方法の例を説明するための流れ図。特徴量抽出関数情報生成方法の例を説明するための流れ図。

以下、図面を参照して、この発明の一実施形態について説明する。

[特徴量マッチングによる登録音検知]
特徴量マッチングによる登録音検知を行う登録音検知装置のブロック図を図１に示す。
登録音検知装置は、図１に示すように、特徴量抽出装置１、類似度計算部２、閾値判定部３、登録音記憶部５１を例えば備えている。登録音検知方法は、特徴量抽出、類似度計算、閾値判定の３つの処理、言い換えれば、図３及び以下に説明するステップＳ１からステップＳ３の処理で実現される。

以下、図１に沿って、この処理を説明する。入力が音データである場合を例に挙げて説明するが、入力は音以外のデータであってもよい。

登録した音をベクトルs∈R^Qとする。ここで、sは時間波形でもいいし、ある登録音を短時間フーリエ変換して得られたスペクトルでもいいし、得られたスペクトルを数フレーム連結したものでもよい。次に、sと同様の手順で切り出した時刻τにおける観測音をx_τとする。つまり、sを時間波形とすればx_τは時刻τを中心としてsと同じ長さを切り出した時間波形であるし、sをスペクトルを数フレーム連結したものとすればx_τは時刻τを中心としてsと同じフレーム数のスペクトルを連結したものとなる。

まず、最初に、特徴量抽出関数１の特徴量抽出部１１は、sとx_τに、特徴量抽出関数F()を作用させ、特徴量を抽出する（ステップＳ１）。抽出された特徴量は、類似度計算部２に出力される。言い換えれば、特徴量抽出関数１の特徴量抽出部１１は、観測データx_τを特徴量抽出関数に入力することにより観測データの特徴量x_τを計算する。また、特徴量抽出部１１は、登録音sを特徴量抽出関数に入力することにより登録音の特徴量sを計算する。

ここで、f_sとf_τはそれぞれ、sとx_τから抽出された音響特徴量である。特徴量抽出関数F()の例は、対数メルフィルタバンク出力（log-MFBO）などである。例えば、特徴量抽出関数として、特徴量抽出関数情報生成装置４により生成された特徴量抽出関数情報によって特定される特徴量抽出関数を用いる。

次に、類似度計算部２は、f_sとf_τの類似度L_s,τを以下のように計算する（ステップＳ２）。

ここで、K(i,j)は類似度計算関数である。この実現例は、相関係数やコサイン距離などである。

最後に、閾値判定部３は、類似度L_s,τと閾値φを用いて、sとx_τが同一音か否かを判定する（ステップＳ３）。

ここで、z_τは、sとx_τが同一音なら1、違う音なら0となるインジケータである。このように、g(L_τ,φ)は、観測データと登録データの類似度L_τが所定の閾値φ以上の値を取る場合にはそうでない場合によりも大きな値を出力する関数である。

[登録音検知の目的関数]
この登録音検知の性能指標を示す。登録音検知の目標は、以下の２つの条件
(i) 観測音が登録音と同じ種類なら、同一と判定する。
(ii) 観測音が登録音と違う種類なら、同一でないと判定する。
を同時に満たすような検出器の設計である。ここで、(i) 確率をζ₀、(ii)の確率をζ₁としたとき、登録音検知の目的は、ζ₀,ζ₁を同時最大化することである。ここで、ζ₀,ζ₁は、g(L_τ,φ)の期待値として、以下のように表現できる。

ここで、p(x|z=1)はxがsと同一の種類の音のときに観測音xが従う分布、p(x|z=0)はxがsと異なる種類の音のときに観測音xが従う分布である。ζ₀,ζ₁の定義から明らかなように、(i)を誤判定することが多ければζ₀は0に近づき、(ii)を誤判定することが多ければζ₁は0に近づく。登録音検知の目標は、(i)と(ii)を同時に満たすような検出器の設計であるため、登録音検知の性能は以下のように定義できる。

ここで、E[]_x|z=1はxがsと同一の種類の音のときの期待値演算、E[]_x|z=0はxがsと異なる種類の音のときの期待値演算である。また、0≦γ≦1は、(i)と(ii)の判定率を比べたときに、(i)を重要視する比率であり、Γ=(1-γ)／γである。つまり、Γの値が小さいほど、同一音を異なる音と判定する率が小さくなる。つまり、登録音検知は、式(8)を最大化するようにパラメータを調整することで、最適な状態になる。

式(8)に、より具体的かつ定量的な解釈を与える。式(8)は、

という変形を行うこともできる。これを最大化するには、p(x|z=1)-Γp(x|z=0)が正となる領域でg(L,φ)=1となるような調整をすればいい。p(x|z=1)-Γp(x|z=0)が正となる領域は、

とも記述できる。さらにベイズの定理p(x|z)∝p(z|x)p(x)を利用すると式(10)は

と書き換えることができる。式(9)及び式(11)を用いて式(8)を変形すれば、

となるため、式(8)を最大化するならば、

が成り立つ。ところで式(11)は、尤度比検定として知られている。式(11)による検定は、ネイマン・ピアソンの補題によると、
「帰無仮説(H₀): xはsと異なる音である。」
「対立仮説(H₁): xはsと同じ音である。」
をしたときに、第1種過誤（xとsは同じ音なのに、異なる音と判定する）率をΓと固定したときに、第2種過誤（xとs は異なる音なのに、同じ音と判定する）率を最小化することが知られている。つまり、式(8)の最大化による登録音検知の最適化は、第1種過誤率をΓと固定したときに、第2種過誤率を最小化するための最適化であり、「ネイマン・ピアソンの基準」に基づく最適化である。

しかしながら、これまで、登録音検知においてネイマン・ピアソン基準による最適化は
行われてなかった。

[特徴量抽出関数を時間周波数成分に重みづけとした場合の、勾配法による音響特徴量抽出関数の最適化]
登録音検知装置の性能はJで測ることができる。ゆえに、ネイマン・ピアソンの基準に従って音響特徴量抽出関数F()を最適化すれば、特徴量抽出は最適化できる。ここでは、ネイマン・ピアソンの基準に基づく特徴量抽出の最適化を以下の式で表現し、これを最適化する。

式(14)で表される最適化の実装例を説明する。この実装例では、特徴量抽出関数は、振幅スペクトルの時間周波数成分に対する、重要度の重みづけとする。また、式(14)は勾配法によって最適化する。つまり、式(14)の勾配を計算することで、特徴量抽出関数を最適化する。式(14)を計算するために、特徴量抽出関数、類似度計算関数、閾値判定関数に具体的な計算式を与える。その後、式(14)の勾配を容易に計算するために、式(14)の期待値を算術平均で近似した更新式を与える。

まず、特徴量抽出関数を具現化する。観測信号を短時間フーリエ変換して得られる振幅スペクトルをX_ω,τとおく。なお、振幅スペクトルではなく、パワースペクトルをX_ω,τとしてもよい。ここで、ω∈{1,...,Ω}とτ∈{1,...,T}はそれぞれ時間と周波数のインデックスである。そして、音響特徴量抽出への入力x_τを、判別対象フレームτの過去P₁フレームから未来P₂フレームまでの振幅スペクトルを縦に連結したものとして、以下のように定義する。

特徴量抽出関数は、x_τの要素に時間周波数情報の重要度重みλ_qを乗算する以下の関数として定義する。

つまり、λ_qは、式(15)によってqと対応図けられる時間周波数ビンの振幅スペクトルの情報が、登録音検知に重要ならば大きな値を持ち、不要ならば0となる重要度重みである。このように、特徴量抽出関数は、入力されたデータに基づいて得られる複数の仮特徴量を重み付けする関数であってもよい。

次に、類似度計算関数を定義する。この実装例では、類似度計算関数は、ガウシアンRBFとして以下のように定義する。

特徴量抽出関数が式(16)で表される場合、式(17)は以下のように変形できる。

つまり、式(15)によってq対応図けられる、登録音と観測音の時間周波数ビンの振幅スペクトルの差が、重要度λ_qによって重みづけされたものの和である。

最後に閾値判定関数を定義する。式(5)で定義される閾値判定関数は、ステップ関数として知られている。この関数は、L_τ=φにおいて微分が定義できない。ゆえにこの実施例では、閾値判定関数をシグモイド関数で近似する。

すると、式(14)は、非負の時間周波数情報の重要度重みλ_qを最適化する問題として、以下のように記述できる。

式(21)の計算には、確率分布p(x|z=0)とp(x|z=1)が既知でなくてはならない。一般にこの分布は未知なため、式(21)の期待値演算を、学習データの算術平均に置き換える。

ここで、r∈{1,...,R}は、sとは別に用意した登録音と同じ種類の音の学習データのインデックス、h∈{1,...,H}は登録音以外の学習データのインデックスである。

勾配法の一種である最急降下法による更新は、式(22)の勾配を用いて、以下のように計算できる。

ここで、εは更新の速度を調整するパラメータである。式(23)の更新は当然、慣性項を付与してもよいし、確率的最急降下法やAdaGrad などの特殊な勾配法に置き換えてもよい。また、式(22)において、登録音の出現頻度が極めて低い場合、sとは別に登録音と同じ種類の音の学習データを集められないこともある。この場合、式(22)の第1項を無視して、以下のように更新を行ってもよい。

なお、勾配項

は、微分の連鎖則を用いて以下のように計算できる。

ここで、

であることから、具体的な計算結果は以下である。

このように、特徴量抽出関数、類似度計算関数、閾値判定関数の3 つで構成される登録音検知装置において、特徴量抽出関数が重要度重み関数、類似度計算関数がガウシアンRBF で表される場合、ネイマン・ピアソンの基準に基づく最適化指標を用いることにより、特徴量抽出関数を勾配法で最適化を行うことができる。

[式(15)(16) の時間周波数重みの最適化のための工夫]
ここでは、(16)のような時間周波数重みの特徴量抽出関数を、勾配法や期待値最大化（EM）アルゴリズムなどで統計的に最適化する際に、効率的かつ安定的に最適化するための工夫を述べる。

ここで、効率的とは、学習の収束を早めることを示し、安定的とは学習データへの過適合を防ぐことである。この工夫とは、１つは重要度重みλ_qの時間周波数平滑化であり、もう１つはノルム制約付きのL₁正則化である。

登録音検知の際に、ここで示す少なくとも１つの工夫を行うことで、最適化を安定させる。

まず、重要度重みλ_qの時間周波数方向平滑化を説明する。実世界の音の時間周波数構造はなめらかに変化する。ところが、重要度重みの更新が、すべてのqに独立に行われる場合、重要度重みは時間周波数方向になめらかに変化しない。この不連続な変化により、偶発的なノイズに過敏に反応する、いわゆるオーバーフィッテングが生じてしまう。そこで、重要度重みλ_qを時間周波数方向に平滑化することで、これを抑制する。この実装の一例には、2次元ガウシアンフィルタを用いたλ_qの平滑化がある。最初に、式(15)の、qと時間周波数ビンの対応関係を利用して、λ_qを行列化する。つまり、

とみなして、

となる行列化を施す。Λに対して、サイズがO×Pの2次元ガウシアンフィルタG_O,Pを畳み込むことで、Λを平滑化する。最後に、式(29)の対応関係を利用して、平滑化したΛを、ベクトルに戻す。

次に、ノルム制約付きのL₁正則化を説明する。式(23)で更新を続けると、λ_qに大きな値を取ることがある。極端に大きな値は、偶発的なノイズに過敏に反応する原因となる。これを避けるために、勾配法の更新毎に以下の正規化処理を行う。

つまり、重要度重みλ_qにノルムの制約を付けることで、λ_qが大きな値を取ることを抑制する。また、λ_qの小さな値が大量に存在すると、これも偶発的なノイズに過敏に反応する原因となる。これを防ぐためには、λ_qが極端に小さな値となるときは、0に丸めてしまえばよい。これはL₁正則化と呼ばれ、重要度重みをスパースにする制約である。これを実現するために、上記の正規化の後に、以下のソフトスレッショルディングを行う。

なお、ノルム制約とL₁正則化は、どちらか片方でも効力を発揮する。しかし、発明１の形態では、λ_qが大きな値を模通場合と、小さな値が大量に存在する場合の、どちらの場合でも検知率が低下することを確認しているため、両方を同時に使用することを推奨する。

このように、重要度重みの時間周波数平滑化、ノルム制約、L₁正則化の少なくとも１つを実施することで、過適合を防ぐことができる。

なお、重要度重みの時間周波数平滑化は登録音検知に限られる技術ではない。この技術は、入力がス振幅スペクトルやメルフィルタバンク出力をフレーム連結した時間周波数情報かつ、特徴抽出に入力に対して重み演算や内積演算などの処理が含まれる場合、このこの重みの学習を安定化させる（過学習を抑制する）ための処理である。

例えば、ディープラーニングにおいて、入力が式(15) のようなスペクトルの時間周波数情報である場合、第1層の重み係数に対してこの平滑化を行ってもよい。

また、勾配法以外の方法、例えばEM アルゴリズムで時間周波数重みを最適化する場合は、各Mステップでの重みの更新毎に、この時間周波数平滑化を行えばよい。

このように、ディープラーニング等で入力がスペクトルの時間周波数情報の際のように、特徴量抽出関数が重要度重み関数で表される場合、重要度重みの時間周波数平滑化を実施することで、過適合を防ぐことができる。

[特徴量抽出関数情報生成装置４]
特徴量抽出関数情報生成装置４は、図２に示すように、特徴量抽出部４１、更新部４２、正則化部４３、時間周波数平滑化部４４及び収束判定部４５を例えば備えている。特徴量抽出関数情報生成方法は、特徴量抽出関数情報生成装置４の各部が、図４及び以下に説明するステップＳ４１からステップ４５の処理を行うことにより実現される。

まず、パラメータが初期化される。初期値は任意だがパラメータは例えば、λ_q=0.01、ε=5.0×10^-3、Γ=0.05、P₁=25、P₂=25、φ=0.5、β=10^-5、O=3、P=3などに設定すればいい。勾配法に最急降下法以外のものを用いる場合は、適宜そのパラメータも入力する。

次に学習データを用意する。登録音、登録音と異なる種類の音、登録音と同一種類の音を用意する。登録音は、登録音記憶部５１に記憶されるとする。登録音と異なる種類の音は、非登録音学習データ記憶部５２に記憶されるとする。登録音と同一種類の音は、登録音学習データ記憶部５３に記憶されるとする。

ここで「登録音と同一種類の音」はなくてもよい。これらを、短時間フーリエ変換（STFT）などの手法で時間周波数分析する。ここで、STFTのパラメータは、サンプリングレートが16.0kHzの場合で、STFT長を512点、シフト幅を256点程度に例えば設定すればいい。このSTFTの結果と、初期パラメータP₁,P₂を用いてフレーム連結し、登録音s、登録音と異なる種類の音の学習データx_1,...,H、登録音と同一種類の音の学習データx_1,...,Rを用意する。なお、s,x_1,...,H,x_1,...,Rの要素は、STFTした振幅スペクトルでなくともよい。例えば、振幅スペクトルの代わりにメル周波数ケプストラム係数（MFCC）など、他の特徴量にしてもよい。

特徴量抽出部４１は、s,x_1,...,H,x_1,...,Rとλ_qを用いて、例えば式(16)で特徴量を抽出する（ステップＳ４１）。抽出された特徴量は、更新部４２に出力される。

更新部４２は、例えば式(23)で重要度重みλ_qを更新する（ステップＳ４２）。すなわち、更新部４２は、登録音検知のために用いられる特徴量抽出関数を、ネイマン・ピアソンの基準に基づく最適化指標を用いて勾配法により更新を行う。なお、x_1,...,Rがない場合は、式(24)で重要度重みλ_qを更新する。更新された重要度重みλ_qは、正則化部４３に出力される。

正則化部４３は、例えば式(31)及び式(32)で重要度重みλ_qを更新する（ステップＳ４３）。更新された重要度重みλ_qは、時間周波数平滑化部４４に出力される。

時間周波数平滑化部４４は、2次元ガウシアンフィルタを用いて重要度重みλ_qを平滑化する（ステップＳ４４）。当然、フィルタバンク圧縮したものでもよい。

収束判定部４５は、アルゴリズムの収束を判定し、収束すれば繰り返しを終了してλ_qを出力する（ステップＳ４４）。収束していなければ、ステップＳ４１の特徴抽出から繰り返す。出力される重要度重みλ_qが、特徴量抽出関数についての情報である特徴量抽出関数情報の一例である。

収束判定の方法は、「更新を一定回数繰り返した場合か？」や、「λ_qの更新量が一定値以下になったか？」などに設定できる。例えば、更新を一定回数繰り返した場合及びλ_qの更新量が一定値以下になった場合に、収束したと判断する。

[プログラム及び記録媒体]
特徴量抽出装置１又は特徴量抽出関数情報生成装置４における各処理をコンピュータによって実現する場合、特徴量抽出装置１又は特徴量抽出関数情報生成装置４が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

[変形例]
特徴量抽出関数の学習アルゴリズムの用途は、異常音検知のための登録音検知に限られない。例えば、聴覚障がい者向けのアプリケーションとして、玄関のベルや電話のアラーム音を検知するための技術としても用いることができる。このように、特徴量抽出装置１の入力は、音データ以外の任意のデータであってもよい。

また、用途は音に限られず、指紋認証などの特徴量抽出に用いてもいい。その場合、xの要素を指紋画像の画素値などに置き換えれば、同様のアルゴリズムを実行することができる。

特徴量抽出装置１又は特徴量抽出関数情報生成装置４において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

Claims

観測データを特徴量抽出関数に入力することにより上記観測データの特徴量を計算する特徴量抽出部を含み、
上記特徴量抽出関数は、ネイマン・ピアソンの基準に基づく最適化指標を用いて勾配法により最適化されている、
特徴量抽出装置。
請求項１の特徴量抽出装置であって、
Γを所定の値とし、g(L_τ,φ)を観測データと登録データの類似度L_τが所定の閾値φ以上の値を取る場合にはそうでない場合によりも大きな値を出力する関数とし、E[ ]_x|z=1を観測データと登録データが同一である場合の期待値演算とし、E[ ]_x|z=0を観測データと登録データが同一でない場合の期待値演算とし、
上記特徴量抽出関数は、以下の式により定義されるF(x)である、

特徴量抽出装置。
請求項２の特徴量抽出装置であって、
上記特徴量抽出関数は、入力されたデータに基づいて得られる複数の仮特徴量を重み付けする関数である、
特徴量抽出装置。
請求項１の特徴量抽出装置であって、
上記特徴量抽出関数は入力されたデータに基づいて得られる複数の仮特徴量を重み付けする関数であるとし、
g(L_i,φ)を観測データと登録データの類似度L_iが所定の閾値φ以上の値を取る場合にはそうでない場合によりも大きな値を出力する関数とし、s_hを上記登録データの仮特徴量とし、x_i,hを上記観測データの仮特徴量とし、λ_hを仮特徴量に付けられた重みとし、
上記特徴量抽出関数は、以下の式により定義される勾配項を用いた勾配法で最適化されている、

特徴量抽出装置。
請求項４の特徴量抽出装置であって、
上記仮特徴量に付けられた重みは、時間周波数方向に平滑化されている、
特徴量抽出装置。
登録音検知のために用いられる特徴量抽出関数を、ネイマン・ピアソンの基準に基づく最適化指標を用いて勾配法により更新を行う更新部を含む、
特徴量抽出関数情報生成装置。
特徴量抽出部が、観測データを特徴量抽出関数に入力することにより上記観測データの特徴量を計算する特徴量抽出計算ステップを含み、
上記特徴量抽出関数は、ネイマン・ピアソンの基準に基づく最適化指標を用いて勾配法により最適化されている、
特徴量抽出方法。
更新部が、登録音検知のために用いられる特徴量抽出関数を、ネイマン・ピアソンの基準に基づく最適化指標を用いて勾配法により更新を行う更新ステップを含む、
特徴量抽出関数情報生成方法。
請求項１から５の何れかの特徴量抽出装置の各部又は請求項６の特徴量抽出関数情報生成装置の各部としてコンピュータを機能させるためのプログラム。