JP3987927B2 - Waveform recognition method and apparatus, and program - Google Patents

Waveform recognition method and apparatus, and program Download PDF

Info

Publication number
JP3987927B2
JP3987927B2 JP2003077946A JP2003077946A JP3987927B2 JP 3987927 B2 JP3987927 B2 JP 3987927B2 JP 2003077946 A JP2003077946 A JP 2003077946A JP 2003077946 A JP2003077946 A JP 2003077946A JP 3987927 B2 JP3987927 B2 JP 3987927B2
Authority
JP
Japan
Prior art keywords
model
waveform
hmm
template
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003077946A
Other languages
Japanese (ja)
Other versions
JP2004287010A (en
Inventor
晃 佐宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2003077946A priority Critical patent/JP3987927B2/en
Publication of JP2004287010A publication Critical patent/JP2004287010A/en
Application granted granted Critical
Publication of JP3987927B2 publication Critical patent/JP3987927B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、テンプレートモデルを用いることによって、観測信号波形を特定して認識を行う波形認識方法及び装置、並びにプログラムに関する。
本発明の波形認識技術により多様な信号波形を認識することが可能となる。例えば、信号として、実環境下にある環境音に着目すると、波形認識装置は得られた環境音の音源を認識する機能を有する装置といえる。例えば、ガラス窓が壊される音やガスの漏れる音などを認識することで、▲1▼ホームセキュリティー装置としての応用を考えることができ、また、▲2▼音による産業機器の異常検出装置などの産業分野、▲3▼聴覚障害者の聴覚補助装置のように福祉分野など様々な分野に応用を見込める技術である。
【0002】
【従来の技術】
従来、テンプレート(見本)波形と入力波形の照合により波形の同定を行う手法が提案されている。このタイプの手法で、例えば、周期信号の波形を認識する場合、テンプレート波形の基本周波数を入力信号波形のそれに時々刻々と合わせ込む必要があり、また、入力波形の振幅レベルに一致するように、テンプレート波形の振幅をスケーリングする必要がある。生の信号波形をテンプレート波形として用いる手法では、このような位相合わせと利得合わせによるテンプレート波形の適応処理が、パルス的、周期的、または雑音的などの信号波形の特徴に特化し、恣意的で煩雑になる傾向がある。このためより広範囲な信号波形の認識を実現するには向いていない。
【0003】
一方、特許文献1や本出願人の先の出願である特願2001−292436号では、線形フィルタと隠れマルコフモデル(HMM)の組み合わせにより信号波形の確率的生成モデルを構成し、この信号波形生成モデルをテンプレートモデルとして用いた混合信号分離手法が提案されている。この手法では、信号波形生成モデルにおけるHMMのネットワークトポロジーを適切に設計することで、パルス的、周期的、または雑音的など様々な信号波形を処理することが可能になっている。また、テンプレートとして生の信号波形を用いるのではなく、信号波形生成モデルをテンプレートモデルとして用いることで、波形の特徴に特化せず、同一の枠組みで様々な信号波形の分離を実現している。
【0004】
従来のモデル学習手段は、フィルタ係数の推定手段とHMMパラメータの推定手段を、それぞれ独立した手段として分けて、これらを繰り返す構成となっている。AR-HMMモデルの学習手段を構築する際に問題となるのが、HMMのパラメータの一部(時間と共にどの状態のどの分布から観測値が出力されたかを示す状態遷移系列s_n(t)と混合正規分布の系列m_n(t))が観測できないということである。この為に、観測できないパラメータを含むモデル学習の汎用アルゴリズムであるEMアルゴリズムを適用することになる。
従来法のモデル学習手段では、HMMのパラメータ推定だけにEMアルゴリズムを適用している。これはBaum-Welchアルゴリズムと呼ばれるHMMパラメータ推定の一般的なアルゴリズムである。これに対して、発明法のモデル学習手段では、HMMだけでなくフィルタ係数(AR係数)も含めたモデル全体に対してEMアルゴリズムを適用している。
フィルタ係数(AR係数)を推定する際にも、状態遷移系列と混合正規分布の系列が必要になるが、従来の学習手段では、フィルタ係数の推定にEMアルゴリズムを適用していないので、これらの系列を明示的に与える必要がある。この為に、従来の学習手段では、Baum-WelchアルゴリズムによりHMMパラメータを推定した後で、その新たに推定されたHMMパラメータを用いたViterbiアルゴリズムを適用することで、HMMの学習に用いた駆動源信号に対する状態遷移系列を推定している。(従来法では、正規分布の混合数は1であるので、混合正規分布の系列は推定する必要が無い。)この推定された1つの状態遷移系列から、1つのフィルタ係数が確定する。
このように従来の学習手段では、フィルタ係数を推定する際に、本来、観測出来ない状態遷移系列を推定し、それを明示的に与える必要がある。また、この状態遷移系列は、1つの駆動源信号(処理をさかのぼれば、1つの学習用信号と言える)から1つ確定する。従って、複数の学習用信号がある場合、複数の状態遷移系列が得られてしまい、従って、複数のフィルタ係数が求まってしまうことになる。確率モデル(AR-HMM)は1つのフィルタ係数(AR係数)しか持たない構造になっている。
以上のように、従来のモデル学習手段は、フィルタ係数推定手段とHMMパラメータ推定手段を、それぞれ分けて独立した手段としており、そのフィルタ係数推定手段において、本来観測できない状態遷移系列を明示的に与えるために、複数の学習用信号波形を用いることができない。
【特許文献1】
特開2003−005785号公報
【0005】
【発明が解決しようとする課題】
波形認識では、複数の学習用信号波形からテンプレートの波形生成モデルを学習する必要があるが、特許文献1に述べられている方法では、複数の学習用信号波形から生成モデルを学習することができない。
本発明は、係る問題点を解決して、異なる信号発生源から発生した複数信号の混合波形の認識を、同一の枠組みでパルス的、周期的、雑音的など広範囲な信号波形に対して実現することを目的としている。
【0006】
【課題を解決するための手段】
本発明は、第1に、従来のモデル学習手段と比べて、このEMアルゴリズムをどの範囲で適用するかという点に特徴がある。本発明は、フィルタ係数推定とHMMパラメータ推定の両方にEMアルゴリズムを適用しているので、その学習手段において観測できないパラメータを明示的に与える必要が無い。このため、複数の学習用信号波形を用いることができるようになる。
本発明は、第2に、信号波形の認識のために、線形フィルタとHMMで構成される確率モデルを用いることに特徴がある。本発明は、確率モデルに基づいた学習手段および認識手段の構成に特徴がある。
本発明の波形認識方法及び装置、並びにプログラムは、テンプレートモデルを用いることによって、観測信号波形を特定して認識を行う。テンプレートモデルとして隠れマルコフモデル(HMM)と線形フィルタの組み合わせにより信号発生源が本来持っている変動要因を確率的な要素としてモデリングする波形の確率モデルを用いる。この変動要因の振る舞いを学習するためにそれぞれ1つの信号発生源から得られた複数の学習用信号を用いて、フィルタ係数推定とHMMパラメータ推定の両方にEMアルゴリズムを適用して異なる信号発生源に対応する異なる前記テンプレートモデルの複数個をそれぞれ学習し、それぞれのテンプレートモデルパラメータを求めて、これをデータベースに記憶する。データベースに蓄積されたテンプレートモデルパラメータを読み込み、観測信号波形に対する各テンプレートモデルの尤度を計算する。その計算した尤度のなかで最大尤度を求め、この最大尤度を与えるテンプレートモデルを選択することで観測信号波形の認識をする。
【0007】
隠れマルコフモデル(HMM)と線形フィルタの組み合わせによる信号波形生成モデルを、複数の学習用信号波形から学習することを可能にするため、平均尤度最大化基準に則った学習アルゴリズムであるExpectation Maximization(EM)アルゴリズムを用いる。
隠れマルコフモデル(HMM)と線形フィルタの組み合わせによる信号波形生成モデルを、認識のテンプレートモデルとして採用することで、パルス的、周期的、雑音的など様々な信号波形の認識を可能にする。また、このモデルは一種の確率モデルであるので、観測信号波形とモデルの類似度は尤度を計算することで求められる。信号波形の認識は最大尤度を与えるモデルを選択することにより実現される。
観測信号波形とテンプレートモデルの尤度計算に、特許文献1や特願2001−292436号に述べられている利得適応型AR-HMM分解法を用いることで、複数信号の混合波形の認識が実現される。
【0008】
【発明の実施の形態】
以下に、本発明の実施の形態について、詳細に説明する。
信号波形を認識する際には、その信号のテンプレート(見本)モデルが必要になる。本発明で用いているテンプレートモデルの構成について、環境音を例に挙げながら説明する。環境音の認識を考える場合、例えば、「金属を叩く音」を認識するには、「金属」という音源材質の同定だけでなく、「叩く」という動作に関連する特徴の分類も含まれる。これを実現するための手掛かりとして、次のような観測信号波形との対応関係を考える。「金属」という材質やその形状が主な要因となって減衰振動波形が決まり、「叩く」という動作がパルス波形となって現れると考える。また別の例として、「目覚し時計のベル音」は、ベルが金属であれば、「金属を繰り返し叩く音」であるので、ベルの材質や形状が個々の減衰振動に現れ、その動作が周期的波形となって現れると考える。このように、環境音の認識においては、音源の材質や形状という意味での「何の音か?」に加え、波形がパルス的、反復的(周期的)または雑音的であるなどのように「どういうパターンで発生したか?」も重要な情報であると言える。
【0009】
ある材質の音源が他の物(駆動源)と接触して生じる環境音に対して、1)音源材質に関する特徴が主にスペクトル包絡に反映され、2)音源の駆動過程が波形概観の変化パターン(位相的情報)に反映されるという対応関係を考える。そして、環境音の認識を実現するには、これらスペクトル包絡と位相的情報の両方を音響的特徴として扱う必要がある。これより、音響モデルは波形レベルで構築するのが妥当であると考える。しかし、ここで問題となるのは、例えば、コインを床に落した場合、その衝突の生起するタイミングがコインを落すたびに異なるということである。つまり、多くの環境音の駆動過程は非定常であるため、パルス的、反復的、雑音的など波形の概観(変化パターン)での識別は可能であるが、その波形は様々に変化し得る。
【0010】
このような非定常波形をモデリングするために、本発明は、音源材質に関する部分と非定常な駆動過程を分離し、それぞれに線形フィルタとHidden Markov Model(HMM)を用いる。更に、線形フィルタは時不変とし、自己回帰(Auto-Regressive)過程で表されると仮定する。以後、この波形モデルをAR-HMMと呼ぶ。図1から図3にAR-HMMの例を示す。図1はHMMがleft-to-rightモデルになっているため、パルス的波形のモデルとして用いることができる。また、図2はHMMの状態がリング状に接続され、更に遷移方向を一方向に限定しているので、反復的(周期的)波形のモデルとして用いられる。このモデルにおいて、反復的と周期的を区別する場合は、観測信号波形に対するHMMの状態遷移系列を利用すればよい。図3は、Ergodic HMMを用いているため、雑音的な波形のモデルとして用いる。以上のように、AR-HMMは波形の変化パターンをHMMのネットワークトポロジーとして表現する。これらの例では駆動源の状態数を3としているが、駆動源HMMの状態数や線形フィルタの次数などは、信号波形に適したものを選ぶ必要がある。一方、より複雑な音源として複数音源を混合して生成された環境音を扱う場合、特許文献1や特願2001−292436号にあるように、個々の音源に対応するAR-HMMの出力を加えあわせた混合音源モデルを用いる方法などが考えられる。
【0011】
本発明者らは、AR-HMMのパラメータ推定法について、特許文献1などで既に提案している。しかし、これは信号波形分析を目的としており、1つの学習用信号波形からモデルパラメータを推定する手法であった。従って、認識で用いる音響モデルのように、複数の学習用信号波形からモデルパラメータを学習する用途には向いていない。以下では、Expectation Maximization(EM)アルゴリズムに基づいて、複数の学習用信号波形(勿論、単一の学習用信号波形からの学習も可能であるが)を用いたAR-HMMの学習アルゴリズムを以下に述べる。EMアルゴリズムは、観測できないパラメータがある状態で、モデルの学習を可能とする汎用的なアルゴリズムであり、本発明は、このアルゴリズムをAR-HMMの学習問題へ適用するものである。以下にあるAR-HMM学習の説明の中で、EステップがExpectationつまり尤度の平均を取る操作、MステップがMaximizationつまり最大化操作である。つまり、平均尤度の最大化をしている。
【0012】
(AR-HMMの学習アルゴリズム)
ある信号(環境音の例では、1つの音源)について用意したN個の学習用信号波形を、
【数1】

Figure 0003987927
で表す。AR係数を
【数2】
Figure 0003987927
とすると、HMMの出力である駆動源信号波形e_n(t)は次式で表される。
【数3】
Figure 0003987927
HMMの状態sの出力分布o_s(e)は、次式のように混合数Mの混合正規分布とする。
【数4】
Figure 0003987927
ここで、N は正規分布、μは正規分布の期待値、σ は正規分布の分散、そしてλは第4式の2番目の式で定義されているように総和が1の各正規分布の重みを表している。また、HMMの初期確率をπ_s、状態遷移確率を q_s1,s2、そしてAR-HMMの全パラメータを
【数5】
Figure 0003987927
で表す。学習用信号波形x_n(t)、状態遷移系列s_n(t)そして混合正規分布の系列m_n(t)が与えられたときのモデルパラメータθの尤度L(θ)は次式で表される。
【数6】
Figure 0003987927
ここで、 s_n, m_nは隠れ変数であるので、不完全データx_nからモデルパラメータを求めることになるが、これはEMアルゴリズムを用いて以下の手順で推定することができる。
【0013】
(Eステップ)
現在のモデルパラメータθを用いて隠れ変数s_n, m_nの確率を表し、更新モデルパラメータqの対数尤度log(L(q))の隠れ変数に関する期待値Q(q|θ)を求める。これは等価的に次式により求められる。
【数7】
Figure 0003987927
但し、γ_n(t,i,j,m)は状態iの混合正規分布mがe_n(t)を出力して、状態jに遷移する確率を表す。これはe_n(t)に対してForward-Backwardアルゴリズムを適用して得られるα、βを用いて、次式により求められる。
【数8】
Figure 0003987927
【0014】
(Mステップ)
Q(q|θ)をqに関して最大化する。 HMMパラメータの更新式については、 HMMの出力がx_n(t)ではなくe_n(t)であることに注意する以外は Baum-Welchのアルゴリズムと同じなので、ここでは省略する。一方、更新AR係数A(k)は、
【数9】
Figure 0003987927
の解として与えられ、具体的には次式のように表される。
【数10】
Figure 0003987927
【数11】
Figure 0003987927
【数12】
Figure 0003987927
ここで、
【数13】
Figure 0003987927
【数14】
Figure 0003987927
である。
更新パラメータqをθと見直して、以上のステップを尤度が収束するまで繰り返す。
【0015】
以上が、図4の10に記しているEMアルゴリズムに基づいたモデル学習手段である。アルゴリズムの流れをまとめると図7に例示した通り次のようになる。
1.初期パラメータθを用意する。
2.AR係数の現推定値を用いて(3)式によりHMMの出力(駆動源信号波形)e_n(t)を求める。
3.Forward-BackwardアルゴリズムによりForward係数αとBackward係数βを求める。
4.(8)式により状態間の遷移確率γを求める。
5.Baum-WelchアルゴリズムによりHMMパラメータを更新する。
6.(10)式から(14)式を用いてAR係数を更新する。
7.新たに推定したパラメータqの学習サンプルに対する尤度が収束していれば終了、そうでなければ2から繰り返す。
上記手続きにより学習したパラメータθを、テンプレートモデルデータベース11に記憶する。この学習したパラメータは信号毎(環境音の例では音源毎)に学習し、そのパラメータをデータベース11に記憶しておく。認識時には、図6に示すように、データベースから読み込まれる。
【0016】
(信号波形の認識)
図4〜図6は本発明の波形学習装置および認識装置を例示する図であり、図4に例示の波形学習装置によりテンプレートモデルのデータベースを作成し、このデータベースを参照して、図6に例示の認識装置が観測信号の波形を認識する。図5は、図6に例示のモデルの尤度計算手段の詳細を示す図である。
複数の学習用信号波形からテンプレートモデルを学習するには、図4に示したように、EMアルゴリズムを用いた平均尤度最大化基準に基づくモデルパラメータの繰り返し学習をするモデル学習手段10、そして学習パラメータを記憶しておくテンプレートモデルデータベース11からなる波形学習装置を用いる。
【0017】
このモデル学習手段10には、モデル構造と共に複数の学習用信号波形が入力される。このモデル構造としては、図1から図3に例示したモデル構造を用いることができるが、それ以外のものも用いることができる。一般的には、状態数が3つだけではなく、多い場合もあるし、HMMのネットワーク構造もこの3種類だけとは限らない。要は、モデル化しようとしている信号発生源に一番適した構造を、設計するということである。モデル学習の最初に、このモデル構造を選択する必要がある。
【0018】
続いて、同じ発生源から得られた複数の信号波形を用いて、設計した構造のモデルパラメータを推定することになる。
図1から図3は、駆動源HMMの出力が線形フィルタを通ることにより、信号が生成されるという信号生成過程のモデルを例示している。モデルの学習とは、1つの信号発生源から得られた複数の信号をもとに、その信号を生成する尤もらしいモデルパラメータを推定するということに相当する。図1から図3にある矢印の向きを逆に進んで、複数の学習用信号波形から、モデルパラメータを推定することができる。モデルパラメータを推定するのに、たった1つの学習用信号波形では、推定精度があまりにも悪すぎるので、出来るだけ多くの学習用信号波形を収集することが、モデルの精度を上げるために必要となる。モデル精度が上がれば、必然的に認識精度も上がることになる。
【0019】
このように、1つの信号発生源のモデルを学習するために、その発生源から得られた複数の学習用信号波形を用いる。モデルの学習は信号発生源毎に行うことになる。例えば、環境音として、ある木片を叩く音を仮定すると、その木片を何度も叩いてその都度得られる音を録音して、同じ音源(木片)から複数の学習用の音を収集する。続いて、この木片を叩く音をモデリングするのに、図1から図3に例示したようなモデルの中のどのタイプのモデルを使うかを考える。木片を叩く場合、その音の波形はパルス的になるので、図1に示すLefto-to-Right型のモデルを選択するのが適切である。そして、先ほど述べた複数の学習用の音と選択したモデルを使って、モデル学習手段によりパラメータ(フィルタ係数およびHMMパラメータ)を推定する。これで、木片を叩く音のモデルが出来あがり、得られたパラメータはデータベースに記憶してく。
【0020】
もし、木片を叩く音とは別に、金属を叩く音のモデルを作る場合は、その金属を何回か叩いて複数の学習用の音を収録し、モデルタイプを選択し、学習手段でパラメータを推定し、そのパラメータをデータベースに記憶する、という同じ作業を繰り返すことになる。この様に、テンプレートモデルは、信号発生源毎に、それぞれで行うことになる。
一般的に、信号発生源は幾つかの変動要因を含んでいる。従って、同じ発生源から得られた信号でも、観測するたびに、波形は異なることになる。認識を行おうとした場合、この点が問題となるので、本発明は、信号波形の確率モデルを用いることで、発生源が本来持っている変動要因を確率的な要素としてモデリングする。モデルの学習では、この変動要因の振る舞いを学習するために、1つの発生源から得られた複数の学習用信号を用いる。
【0021】
次に、信号波形の認識手段について説明する。観測信号波形の認識を行うには図6に示してあるように、図4に例示の波形学習装置によりデータベースに蓄積されたテンプレートモデルを読み込み、観測信号波形に対する各テンプレートモデルの尤度を計算する処理手段14と、その計算した尤度のなかで最大尤度を求める比較器15からなる。観測信号波形に対するテンプレートモデルの尤度計算手段をより詳しく記したのが図5である。観測信号波形は、逆フィルタリング手段12によって、テンプレートモデルのAR係数を用いて逆フィルタリングされる。この逆フィルタリング処理により、観測信号波形はHMMの出力である駆動源信号波形に変換されるので、この駆動源信号波形から駆動源HMMの尤度を尤度計算手段13において計算することができる。ここで算出された尤度が観測信号波形に対するテンプレートモデルの尤度となる。観測信号波形が1つの信号発生源(環境音の例では1つの音源)から生じ、かつ振幅レベルの変動がない場合は、尤度計算に通常のViterbiアルゴリズムを用いることができる。一方、振幅レベルの変動がある場合や、同時に、異なる信号発生源(環境音の例では異なる複数音源)から発生した複数の信号が観測信号波形に混合している場合は、特許文献1や特願2001−292436号に述べられている利得適応型AR-HMM分解法を用いることで、利得変動混合テンプレートモデルの尤度を計算することができる。
【0022】
このように、信号波形の認識は観測信号波形x(t)に対するテンプレートモデルの尤度を計算し、最大尤度を与えるモデルを選択することで実現する(図6)。
テンプレートモデルの尤度計算は次のように行う。はじめに、(2)式のAR係数を用いて観測信号波形x(t)を逆フィルタリングする((15)式)。これにより観測信号波形はHMMの駆動源信号波形e(t)に変換される。
【数15】
Figure 0003987927
【0023】
次に、求められた駆動信号波形e(t)に対する駆動源HMMの尤度をViterbiアルゴリズムにより求める。観測信号波形の利得変動に対するテンプレートモデルの利得適応処理を含める場合、または複数混合信号を認識する場合は、特願2001−292436号に述べられている手法を用いる。このとき得られる尤度が、モデルθ_iの観測信号に対する尤度L(θ_i|x)となる。
最終的な認識結果は、データベースに登録されている全てのテンプレートモデルを用いて上記手順に従い尤度を求め、その中で最大尤度を与えるテンプレートモデルを認識結果として出力する((16)式)。
【数16】
Figure 0003987927
【0024】
【実施例】
【表1】
Figure 0003987927
【表2】
Figure 0003987927
実験に用いた環境音は、技術研究組合 新情報処理開発機構(RWCP)により作成された実環境音響データベースに収録されているドライソースの音源データを用いた。このデータベースは、音源の位置や発生方法などに変化を持たせながら、一種類の音源について100サンプルを基準として収録している。ラベリングは、パワーによる自動的な切り出し処理の後、目視による修正を加えることで行った。
音響モデルを作成するにあたって、図1に示した3種類のAR-HMMの中から、各音源の特徴に適合したタイプのモデルを選択した。実験に用いた59種類の音源を、 AR-HMMのタイプ毎に分類した結果を表1に示す。表中、(1)はleft-to-rightモデル、(2)はリング状モデル、(3)はErgodicモデルを示す。この実験では、複数音源を含む音源、材質が同じであるが形状が大きく異なる音源、電子音源系音源は除いた。全てのAR-HMMで、予測次数(24)、状態数(6)、混合数(2)とした。(但し、このモデル構成は十分な検討を行った上での選択ではない。)学習データは、各音源サンプルの中から偶数番のデータを用いた。
【0025】
認識実験で用いるテストデータは、全音源サンプルの奇数番のデータ(2787サンプル)を用いた。認識は以下の手順で行う。各モデルにおいて、テストデータを(15)式によりHMMの出力系列に変換し、それに対してViterbiアルゴリズムを適用して最大尤度を求める。全モデルの中で、最も大きな尤度を与えるモデルを最終的な認識結果とする。またこの実験では、 AR-HMMの各タイプに属するサンプルとモデルだけを用いる認識実験と、全サンプルに対して全モデルを用いる認識実験の両方を行った。
【0026】
認識結果を表2に示す。 AR-HMMのタイプ別に認識した実験の合計の認識率は85.0[%]であった。これに対して、タイプの区別なく全モデルを用いた条件での認識率は80.9[%]となり、その劣化が約4[%]に留まる結果となった。各カテゴリ間の認識結果にバラツキが目立つものの、波形の変化パターンをHMMのネットワークトポロジーとして表現する AR-HMMを環境音モデルとして用いることで、波形変化パターンの分類がある程度正しく行われることがわかる。
【0027】
【発明の効果】
線形フィルタと隠れマルコフモデルの組み合わせで構成される確率的な信号波形生成モデルを、波形認識のテンプレートモデルとして採用することで、パルス的、周期的、雑音的など多様な波形を示す信号波形の認識を同一の枠組みで実現できる。
テンプレートモデルの学習手段として、EMアルゴリズムを用いたモデルパラメータの学習手法を構築したことにより、認識のテンプレートモデルの構築に必要な複数の学習用信号波形からモデルの作成が可能になる。
線形フィルタと隠れマルコフモデルで構成されるか確率モデルをテンプレートモデルとして採用することで、認識手続きは、観測信号波形と各テンプレートモデルの尤度計算および最大尤度モデルの選択で構成されるなど、認識アルゴリズムが簡単になる。また、尤度計算に特許文献1や特願2001−292436号に述べられている利得適応型AR-HMM分解法を用いることで、利得変動信号波形や複数信号の混合波形などの認識も可能となる。
【図面の簡単な説明】
【図1】本発明で用いるパルス的信号波形のテンプレートモデルの例である。
【図2】本発明で用いる周期(反復)的信号波形のテンプレートモデルの例である。
【図3】本発明で用いる雑音的信号波形のテンプレートモデルの例である。
【図4】本発明の波形学習装置である。
【図5】モデル尤度計算の手続きを詳細に示した図である。
【図6】本発明の認識装置である。
【図7】図4に例示したモデル学習手段のアルゴリズムの流れをまとめた図である。
【符号の説明】
10 テンプレートモデルの学習手段
11 テンプレートモデルのデータベース
12 テンプレートモデルのAR係数による逆フィルタリング手段
13 駆動源信号と駆動源HMMの尤度計算処理手段
14 観測信号波形とデータベースに登録されているテンプレートモデルの尤度計算手段
15 最大尤度モデルの選択を行う比較器[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a waveform recognition method, apparatus, and program for identifying and recognizing an observation signal waveform by using a template model.
Various signal waveforms can be recognized by the waveform recognition technique of the present invention. For example, when attention is paid to environmental sound in a real environment as a signal, the waveform recognition apparatus can be said to be an apparatus having a function of recognizing a sound source of the obtained environmental sound. For example, by recognizing the sound of glass window breaking or gas leaking, it can be considered as (1) application as a home security device, and (2) industrial equipment anomaly detection device by sound. This is a technology that can be applied in various fields such as the welfare field, such as hearing aids for hearing impaired persons.
[0002]
[Prior art]
Conventionally, a method for identifying a waveform by collating a template (sample) waveform with an input waveform has been proposed. In this type of method, for example, when recognizing the waveform of a periodic signal, it is necessary to adjust the basic frequency of the template waveform to that of the input signal waveform from time to time, and to match the amplitude level of the input waveform, It is necessary to scale the amplitude of the template waveform. In the method of using a raw signal waveform as a template waveform, the adaptive processing of the template waveform by such phase alignment and gain alignment is specific to the characteristics of the signal waveform, such as pulsed, periodic, or noisy. There is a tendency to become complicated. For this reason, it is not suitable for realizing recognition of a wider range of signal waveforms.
[0003]
On the other hand, in Japanese Patent Application No. 2001-292436, which is a prior application of Patent Document 1 and the present applicant, a probabilistic generation model of a signal waveform is configured by a combination of a linear filter and a hidden Markov model (HMM). A mixed signal separation method using a model as a template model has been proposed. In this method, by appropriately designing the network topology of the HMM in the signal waveform generation model, it is possible to process various signal waveforms such as pulsed, periodic, or noisy. Also, instead of using a raw signal waveform as a template, a signal waveform generation model is used as a template model, so that various signal waveforms can be separated in the same framework without specializing in waveform characteristics. .
[0004]
The conventional model learning means has a configuration in which the filter coefficient estimating means and the HMM parameter estimating means are divided into independent means, and these are repeated. When building learning tools for the AR-HMM model, the problem is that some of the parameters of the HMM (mixed with the state transition sequence s_n (t) that indicates which distribution of which state is output over time) The normal distribution series m_n (t)) cannot be observed. For this purpose, the EM algorithm, which is a general-purpose algorithm for model learning including parameters that cannot be observed, is applied.
In the conventional model learning means, the EM algorithm is applied only to the HMM parameter estimation. This is a general algorithm of HMM parameter estimation called Baum-Welch algorithm. On the other hand, in the model learning means of the invention method, the EM algorithm is applied to the entire model including not only the HMM but also the filter coefficient (AR coefficient).
When estimating the filter coefficient (AR coefficient), a state transition series and a mixed normal distribution series are required. However, the conventional learning means does not apply the EM algorithm to the filter coefficient estimation. The series must be given explicitly. For this reason, in the conventional learning means, after the HMM parameter is estimated by the Baum-Welch algorithm, the Viterbi algorithm using the newly estimated HMM parameter is applied, so that the driving source used for the learning of the HMM is used. The state transition sequence for the signal is estimated. (In the conventional method, since the number of normal distributions is 1, there is no need to estimate the mixed normal distribution series.) One filter coefficient is determined from this estimated one state transition series.
As described above, in the conventional learning means, when estimating the filter coefficient, it is necessary to estimate a state transition sequence that cannot be observed originally and to explicitly give it. Further, one state transition series is determined from one drive source signal (which can be said to be one learning signal if the process is traced back). Therefore, when there are a plurality of learning signals, a plurality of state transition sequences are obtained, and thus a plurality of filter coefficients are obtained. The probability model (AR-HMM) has a structure having only one filter coefficient (AR coefficient).
As described above, in the conventional model learning means, the filter coefficient estimation means and the HMM parameter estimation means are divided into independent means, and the filter coefficient estimation means explicitly gives a state transition sequence that cannot be originally observed. Therefore, a plurality of learning signal waveforms cannot be used.
[Patent Document 1]
JP 2003-005785 A
[0005]
[Problems to be solved by the invention]
In waveform recognition, it is necessary to learn a waveform generation model of a template from a plurality of learning signal waveforms. However, the method described in Patent Document 1 cannot learn a generation model from a plurality of learning signal waveforms. .
The present invention solves such problems and realizes recognition of a mixed waveform of a plurality of signals generated from different signal generation sources over a wide range of signal waveforms such as pulsed, periodic, and noise in the same framework. The purpose is that.
[0006]
[Means for Solving the Problems]
First, the present invention is characterized in the range to which the EM algorithm is applied as compared with the conventional model learning means. In the present invention, since the EM algorithm is applied to both filter coefficient estimation and HMM parameter estimation, it is not necessary to explicitly give parameters that cannot be observed by the learning means. Therefore, a plurality of learning signal waveforms can be used.
Secondly, the present invention is characterized in that a probability model composed of a linear filter and an HMM is used to recognize a signal waveform. The present invention is characterized by the configuration of learning means and recognition means based on a probability model.
The waveform recognition method, apparatus, and program of the present invention identify and recognize an observation signal waveform by using a template model. As a template model, a stochastic model of a waveform is used in which a variation factor inherent in a signal source is modeled as a stochastic element by a combination of a hidden Markov model (HMM) and a linear filter. In order to learn the behavior of this variation factor, using multiple learning signals obtained from one signal source each, applying the EM algorithm to both filter coefficient estimation and HMM parameter estimation to different signal sources A plurality of corresponding different template models are respectively learned, and each template model parameter is obtained and stored in a database. The template model parameters stored in the database are read, and the likelihood of each template model for the observed signal waveform is calculated. The maximum likelihood is calculated from the calculated likelihoods, and the observed signal waveform is recognized by selecting a template model that gives the maximum likelihood.
[0007]
Expectation Maximization (Learning algorithm based on mean likelihood maximization criterion) to enable learning from multiple learning signal waveforms for a signal waveform generation model that combines a hidden Markov model (HMM) and a linear filter. EM) algorithm is used.
A signal waveform generation model based on a combination of a Hidden Markov Model (HMM) and a linear filter is adopted as a template model for recognition, thereby making it possible to recognize various signal waveforms such as pulsed, periodic, and noisy. Since this model is a kind of probabilistic model, the similarity between the observed signal waveform and the model can be obtained by calculating the likelihood. Recognition of the signal waveform is realized by selecting a model that gives the maximum likelihood.
By using the gain adaptive AR-HMM decomposition method described in Patent Document 1 and Japanese Patent Application No. 2001-292436 for calculating the likelihood of the observed signal waveform and the template model, recognition of a mixed waveform of a plurality of signals is realized. The
[0008]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail.
When recognizing a signal waveform, a template model of the signal is required. The configuration of the template model used in the present invention will be described with an environmental sound as an example. Considering the recognition of environmental sound, for example, to recognize “sounding metal” includes not only the identification of the sound source material “metal” but also the classification of features related to the action of “striking”. As a clue to achieve this, consider the following relationship with the observed signal waveform. It is considered that the material of “metal” and its shape are the main factors, and the damped vibration waveform is determined, and the operation of “hitting” appears as a pulse waveform. As another example, the “bell sound of an alarm clock” is a “sound of repeatedly hitting a metal” if the bell is a metal, so the material and shape of the bell appear in each damped vibration, and its operation is periodic. I think that it appears as a typical waveform. In this way, in the recognition of environmental sound, in addition to “what sound” in the sense of the material and shape of the sound source, the waveform is pulsed, repetitive (periodic) or noisy, etc. It can be said that “what pattern did it occur?” Is also important information.
[0009]
For environmental sound generated when a sound source of a certain material comes into contact with another object (driving source), 1) the characteristics related to the sound source material are mainly reflected in the spectrum envelope, and 2) the change pattern of the waveform overview of the driving process of the sound source Consider the correspondence that is reflected in (topological information). In order to realize the recognition of the environmental sound, it is necessary to treat both the spectral envelope and the topological information as acoustic features. From this, it is considered appropriate to construct the acoustic model at the waveform level. However, the problem here is that, for example, when a coin is dropped on the floor, the timing at which the collision occurs differs each time the coin is dropped. That is, since many environmental sound driving processes are non-stationary, it is possible to discriminate them in terms of the appearance (change pattern) of the waveform such as pulse, repetitive, and noise, but the waveform can change variously.
[0010]
In order to model such an unsteady waveform, the present invention separates the part related to the sound source material and the unsteady driving process, and uses a linear filter and a Hidden Markov Model (HMM) for each. Furthermore, it is assumed that the linear filter is time-invariant and is represented by an auto-regressive process. Hereinafter, this waveform model is referred to as AR-HMM. An example of AR-HMM is shown in FIGS. Since the HMM is a left-to-right model in FIG. 1, it can be used as a model of a pulse waveform. FIG. 2 is used as a model of a repetitive (periodic) waveform because the state of the HMM is connected in a ring shape and the transition direction is further limited to one direction. In this model, when distinguishing between repetitive and periodic, an HMM state transition sequence for the observed signal waveform may be used. Since FIG. 3 uses an Ergodic HMM, it is used as a noisy waveform model. As described above, the AR-HMM expresses the waveform change pattern as the network topology of the HMM. In these examples, the number of states of the driving source is 3, but it is necessary to select the number of states of the driving source HMM, the order of the linear filter, and the like that are suitable for the signal waveform. On the other hand, when handling environmental sounds generated by mixing multiple sound sources as more complex sound sources, as described in Patent Document 1 and Japanese Patent Application No. 2001-292436, the output of AR-HMM corresponding to each sound source is added. A method using a combined mixed sound source model can be considered.
[0011]
The present inventors have already proposed an AR-HMM parameter estimation method in Patent Document 1 and the like. However, this is aimed at signal waveform analysis, and is a method for estimating model parameters from one learning signal waveform. Therefore, it is not suitable for the purpose of learning model parameters from a plurality of learning signal waveforms, such as an acoustic model used for recognition. In the following, based on the Expectation Maximization (EM) algorithm, the learning algorithm of AR-HMM using multiple learning signal waveforms (of course, learning from a single learning signal waveform is possible) is as follows: State. The EM algorithm is a general-purpose algorithm that enables learning of a model in a state where there are parameters that cannot be observed, and the present invention applies this algorithm to the learning problem of AR-HMM. In the following explanation of AR-HMM learning, E step is Expectation, that is, an operation that takes an average of likelihood, and M step is Maximization, that is, maximization operation. That is, the average likelihood is maximized.
[0012]
(AR-HMM learning algorithm)
  N learning signal waveforms prepared for a certain signal (one sound source in the case of environmental sound)
[Expression 1]
Figure 0003987927
Represented by AR coefficient
[Expression 2]
Figure 0003987927
Then, the drive source signal waveform e_n (t) that is the output of the HMM is expressed by the following equation.
[Equation 3]
Figure 0003987927
The output distribution o_s (e) of the HMM state s is a mixed normal distribution with a mixture number M as shown in the following equation.
[Expression 4]
Figure 0003987927
here,N Is the normal distribution, μ is the expected value of the normal distribution, σ 2 Represents the variance of the normal distribution, and λ represents the weight of each normal distribution whose sum is 1, as defined by the second expression of the fourth expression. Also,The initial probability of HMM is π_s, the state transition probability is q_s1, s2, and all parameters of AR-HMM are
[Equation 5]
Figure 0003987927
Represented by The likelihood L (θ) of the model parameter θ when the learning signal waveform x_n (t), the state transition sequence s_n (t), and the mixed normal distribution sequence m_n (t) are given is expressed by the following equation.
[Formula 6]
Figure 0003987927
Here, since s_n and m_n are hidden variables, model parameters are obtained from incomplete data x_n, which can be estimated by the following procedure using the EM algorithm.
[0013]
(E step)
The current model parameter θ is used to represent the probability of the hidden variables s_n and m_n, and the expected value Q (q | θ) related to the hidden variable of the log likelihood log (L (q)) of the updated model parameter q is obtained. This is equivalently calculated by the following equation.
[Expression 7]
Figure 0003987927
However, γ_n (t, i, j, m) represents the probability that the mixed normal distribution m of state i outputs e_n (t) and transitions to state j. This is obtained by the following equation using α and β obtained by applying the Forward-Backward algorithm to e_n (t).
[Equation 8]
Figure 0003987927
[0014]
(M step)
Maximize Q (q | θ) with respect to q. The HMM parameter update formula is the same as the Baum-Welch algorithm except that the output of the HMM is e_n (t), not x_n (t), and is therefore omitted here. On the other hand, the updated AR coefficient A (k) is
[Equation 9]
Figure 0003987927
Specifically, it is expressed as the following equation.
[Expression 10]
Figure 0003987927
## EQU11 ##
Figure 0003987927
[Expression 12]
Figure 0003987927
here,
[Formula 13]
Figure 0003987927
[Expression 14]
Figure 0003987927
It is.
The update parameter q is revised to θ, and the above steps are repeated until the likelihood converges.
[0015]
The above is the model learning means based on the EM algorithm described at 10 in FIG. The flow of the algorithm is summarized as follows, as illustrated in FIG.
1. Prepare the initial parameter θ.
2. Using the current estimated value of the AR coefficient, the HMM output (drive source signal waveform) e_n (t) is obtained by equation (3).
3. The Forward coefficient α and the Backward coefficient β are obtained by the Forward-Backward algorithm.
4). The transition probability γ between the states is obtained from equation (8).
5. Update HMM parameters using Baum-Welch algorithm.
6). The AR coefficient is updated using equations (10) to (14).
7. If the likelihood of the newly estimated parameter q for the learning sample has converged, the process ends.
The parameter θ learned by the above procedure is stored in the template model database 11. The learned parameters are learned for each signal (for each sound source in the case of environmental sound), and the parameters are stored in the database 11. At the time of recognition, it is read from the database as shown in FIG.
[0016]
(Signal waveform recognition)
4 to 6 are diagrams illustrating the waveform learning apparatus and the recognition apparatus according to the present invention. A template model database is created by the waveform learning apparatus illustrated in FIG. 4, and the database is illustrated in FIG. Recognizes the waveform of the observation signal. FIG. 5 is a diagram showing details of the likelihood calculation means of the model illustrated in FIG.
In order to learn a template model from a plurality of learning signal waveforms, as shown in FIG. 4, model learning means 10 that repeatedly learns model parameters based on an average likelihood maximization criterion using an EM algorithm, and learning A waveform learning device including a template model database 11 that stores parameters is used.
[0017]
The model learning means 10 receives a plurality of learning signal waveforms together with the model structure. As this model structure, the model structure illustrated in FIGS. 1 to 3 can be used, but other models can also be used. In general, the number of states is not limited to three but may be large, and the network structure of the HMM is not limited to these three types. The point is to design the most suitable structure for the signal source you are trying to model. At the beginning of model learning, this model structure must be selected.
[0018]
Subsequently, model parameters of the designed structure are estimated using a plurality of signal waveforms obtained from the same source.
1 to 3 exemplify a signal generation process model in which a signal is generated by the output of the drive source HMM passing through a linear filter. Model learning is equivalent to estimating a likely model parameter for generating a signal based on a plurality of signals obtained from one signal generation source. The model parameters can be estimated from a plurality of learning signal waveforms by reversing the direction of the arrows in FIGS. In order to estimate the model parameters, the accuracy of estimation is too poor with only one learning signal waveform, so it is necessary to collect as many learning signal waveforms as possible in order to improve the accuracy of the model. . If the model accuracy increases, the recognition accuracy will inevitably increase.
[0019]
Thus, in order to learn a model of one signal generation source, a plurality of learning signal waveforms obtained from the generation source are used. Model learning is performed for each signal source. For example, assuming that a sound of hitting a piece of wood is assumed as an environmental sound, a sound obtained by hitting the piece of wood many times is recorded, and a plurality of learning sounds are collected from the same sound source (wood piece). Next, what type of model among the models illustrated in FIGS. 1 to 3 is used to model the sound of hitting a piece of wood. When hitting a piece of wood, the sound waveform is pulse-like, so it is appropriate to select the Left-to-Right type model shown in FIG. Then, the parameters (filter coefficients and HMM parameters) are estimated by the model learning means using the plurality of learning sounds described above and the selected model. Now you have a model of the sound of hitting a piece of wood, and store the parameters obtained in the database.
[0020]
If you want to make a model of the sound of hitting a metal separately from the sound of hitting a piece of wood, record the multiple learning sounds by hitting the metal several times, select the model type, and set the parameters with the learning means. The same operation of estimating and storing the parameters in the database is repeated. Thus, the template model is performed for each signal generation source.
In general, the signal source includes several variables. Therefore, even if signals are obtained from the same source, the waveform will be different each time they are observed. Since this point becomes a problem when recognition is performed, the present invention uses the signal waveform probability model to model the variation factor inherent in the source as a stochastic element. In model learning, a plurality of learning signals obtained from one source are used in order to learn the behavior of this variation factor.
[0021]
Next, signal waveform recognition means will be described. To recognize the observed signal waveform, as shown in FIG. 6, the template model stored in the database is read by the waveform learning apparatus illustrated in FIG. 4, and the likelihood of each template model for the observed signal waveform is calculated. The processing means 14 and a comparator 15 for obtaining the maximum likelihood among the calculated likelihoods. FIG. 5 shows in more detail the likelihood calculation means of the template model for the observed signal waveform. The observed signal waveform is inversely filtered by the inverse filtering means 12 using the AR coefficient of the template model. By this inverse filtering process, the observed signal waveform is converted into a drive source signal waveform that is an output of the HMM, and the likelihood of the drive source HMM can be calculated from the drive source signal waveform by the likelihood calculating means 13. The likelihood calculated here becomes the likelihood of the template model for the observed signal waveform. When the observed signal waveform is generated from one signal generation source (one sound source in the case of the environmental sound) and there is no fluctuation of the amplitude level, the normal Viterbi algorithm can be used for the likelihood calculation. On the other hand, when there is a fluctuation in amplitude level, or when a plurality of signals generated from different signal sources (different sound sources in the example of environmental sound) are mixed in the observed signal waveform, Patent Document 1 or Special By using the gain adaptive AR-HMM decomposition method described in Japanese Patent Application No. 2001-292436, the likelihood of the gain variation mixed template model can be calculated.
[0022]
Thus, the recognition of the signal waveform is realized by calculating the likelihood of the template model for the observed signal waveform x (t) and selecting the model that gives the maximum likelihood (FIG. 6).
The likelihood calculation of the template model is performed as follows. First, the observed signal waveform x (t) is inverse-filtered using the AR coefficient of equation (2) (equation (15)). As a result, the observed signal waveform is converted into an HMM drive source signal waveform e (t).
[Expression 15]
Figure 0003987927
[0023]
Next, the likelihood of the drive source HMM for the obtained drive signal waveform e (t) is obtained by the Viterbi algorithm. The method described in Japanese Patent Application No. 2001-292436 is used when including the gain adaptation processing of the template model with respect to the gain fluctuation of the observed signal waveform, or when recognizing a plurality of mixed signals. The likelihood obtained at this time is the likelihood L (θ_i | x) for the observation signal of the model θ_i.
As the final recognition result, the likelihood is obtained according to the above procedure using all the template models registered in the database, and the template model giving the maximum likelihood is output as the recognition result (Equation (16)). .
[Expression 16]
Figure 0003987927
[0024]
【Example】
[Table 1]
Figure 0003987927
[Table 2]
Figure 0003987927
The environmental sound used in the experiment was the sound source data of the dry source recorded in the real environmental acoustic database created by the New Information Processing Development Organization (RWCP). This database records 100 types of sound sources with reference to 100 samples while changing the position and generation method of the sound sources. Labeling was performed by applying visual correction after automatic cut-out processing by power.
In creating the acoustic model, a model of the type that fits the characteristics of each sound source was selected from the three types of AR-HMMs shown in FIG. Table 1 shows the results of classifying 59 types of sound sources used in the experiment for each AR-HMM type. In the table, (1) is a left-to-right model, (2) is a ring model, and (3) is an Ergodic model. In this experiment, a sound source including a plurality of sound sources, a sound source having the same material but different in shape, and an electronic sound source sound source were excluded. In all AR-HMMs, the predicted order (24), the number of states (6), and the number of mixtures (2) were used. (However, this model configuration is not a selection after a thorough examination.) As the learning data, even-numbered data was used from each sound source sample.
[0025]
As test data used in the recognition experiment, odd-numbered data (2787 samples) of all sound source samples was used. Recognition is performed according to the following procedure. In each model, test data is converted into an HMM output sequence by equation (15), and the maximum likelihood is obtained by applying the Viterbi algorithm to the test data. The model that gives the greatest likelihood among all models is the final recognition result. In this experiment, both recognition experiments using only samples and models belonging to each type of AR-HMM and recognition experiments using all models for all samples were performed.
[0026]
The recognition results are shown in Table 2. The total recognition rate of experiments recognized by AR-HMM type was 85.0 [%]. On the other hand, the recognition rate under the condition using all models regardless of type was 80.9 [%], and the degradation was only about 4 [%]. Although the recognition results between the categories are conspicuous, it can be seen that the AR-HMM, which expresses the waveform change pattern as an HMM network topology, is used as an environmental sound model, so that the waveform change pattern is classified to some extent.
[0027]
【The invention's effect】
Recognize signal waveforms that show various waveforms such as pulse, periodic, and noise by adopting a probabilistic signal waveform generation model composed of a combination of a linear filter and a hidden Markov model as a template model for waveform recognition. Can be realized in the same framework.
By constructing a model parameter learning method using an EM algorithm as a template model learning means, a model can be created from a plurality of learning signal waveforms necessary for constructing a recognition template model.
By adopting a probabilistic model as a template model or comprising a linear filter and a hidden Markov model, the recognition procedure consists of observation signal waveform and likelihood calculation of each template model and selection of maximum likelihood model, etc. The recognition algorithm is simplified. Further, by using the gain adaptive AR-HMM decomposition method described in Patent Document 1 and Japanese Patent Application No. 2001-292436 for likelihood calculation, it is possible to recognize a gain fluctuation signal waveform, a mixed waveform of a plurality of signals, and the like. Become.
[Brief description of the drawings]
FIG. 1 is an example of a template model of a pulse signal waveform used in the present invention.
FIG. 2 is an example of a template model of a periodic (repetitive) signal waveform used in the present invention.
FIG. 3 is an example of a template model of a noisy signal waveform used in the present invention.
FIG. 4 is a waveform learning apparatus according to the present invention.
FIG. 5 is a diagram showing in detail a model likelihood calculation procedure;
FIG. 6 is a recognition apparatus according to the present invention.
7 is a diagram summarizing the algorithm flow of the model learning means exemplified in FIG. 4;
[Explanation of symbols]
10 Template model learning means
11 Template model database
12 Inverse filtering means by AR coefficient of template model
13 Drive Source Signal and Drive Source HMM Likelihood Calculation Processing Means
14 Observed signal waveform and likelihood calculation means of template model registered in database
15 Comparator for selecting maximum likelihood model

Claims (5)

複数個のテンプレートモデルを用いることによって、観測信号波形を特定して認識を行う波形認識方法において、
1つのテンプレートモデルとして、1つの隠れマルコフモデル(HMM)と1つの線形フィルタの組み合わせにより、隠れマルコフモデル( HMM )の出力である駆動源信号の1つの振幅値が従う確率分布を、隠れマルコフモデル( HMM )の各状態で定義される混合正規分布として、信号発生源が本来持っている変動要因を確率的な要素としてモデリングする波形の確率モデルを用い、
この変動要因の振る舞いを学習するためにそれぞれ1つの信号発生源から得られた複数の学習用信号を用いて、フィルタ係数推定とHMMパラメータ推定の両方にEMアルゴリズムを適用して異なる信号発生源に対応する異なる前記テンプレートモデルの複数個をそれぞれ学習し、それぞれのテンプレートモデルパラメータを求めて、これをデータベースに記憶し、
前記データベースに蓄積されたテンプレートモデルパラメータを読み込み、観測信号波形に対する各テンプレートモデルの尤度を計算し、
その計算した尤度のなかで最大尤度を求め、
この最大尤度を与えるテンプレートモデルを選択することで観測信号波形の認識をする波形認識方法。
In the waveform recognition method for identifying and recognizing the observed signal waveform by using a plurality of template models,
As a template model , a hidden Markov model is obtained by combining one hidden Markov model (HMM) and one linear filter, and the probability distribution that one amplitude value of the driving source signal that is the output of the hidden Markov model ( HMM ) follows. ( HMM ) As a mixed normal distribution defined in each state, using a waveform probability model that models the fluctuation factors inherent in the signal source as a stochastic element,
In order to learn the behavior of this variation factor, using multiple learning signals obtained from one signal source each, applying the EM algorithm to both filter coefficient estimation and HMM parameter estimation to different signal sources Learning each of a plurality of corresponding different template models, determining each template model parameter, storing it in the database,
Read the template model parameters stored in the database, calculate the likelihood of each template model for the observed signal waveform,
Find the maximum likelihood among the calculated likelihoods,
A waveform recognition method for recognizing an observed signal waveform by selecting a template model that gives this maximum likelihood.
複数個のテンプレートモデルを用いることによって、信号発生源からの観測信号波形を特定して認識を行う波形認識装置において、
1つのテンプレートモデルとして、1つの隠れマルコフモデル(HMM)と1つの線形フィルタの組み合わせにより、隠れマルコフモデル( HMM )の出力である駆動源信号の1つの振幅値が従う確率分布を、隠れマルコフモデル( HMM )の各状態で定義される混合正規分布として、信号発生源が本来持っている変動要因を確率的な要素としてモデリングする波形の確率モデルを用い、
この変動要因の振る舞いを学習するためにそれぞれ1つの信号発生源から得られた複数の学習用信号を用いて、フィルタ係数推定とHMMパラメータ推定の両方にEMアルゴリズムを適用して異なる信号発生源に対応する異なる前記テンプレートモデルの複数個をそれぞれ学習し、それぞれのテンプレートモデルパラメータを求めるモデル学習手段と、
前記複数のテンプレートモデルパラメータを記憶するデータベースと、
前記データベースに蓄積されたテンプレートモデルパラメータを読み込み、観測信号波形に対する各テンプレートモデルの尤度を計算する処理手段と、
その計算した尤度のなかで最大尤度を求める比較器と、
最大尤度を与えるテンプレートモデルを選択することで観測信号波形の認識をする波形認識装置。
In the waveform recognition device that identifies and recognizes the observation signal waveform from the signal generation source by using a plurality of template models,
As a template model , a hidden Markov model is obtained by combining one hidden Markov model (HMM) and one linear filter, and the probability distribution that one amplitude value of the driving source signal that is the output of the hidden Markov model ( HMM ) follows. ( HMM ) As a mixed normal distribution defined in each state, using a waveform probability model that models the fluctuation factors inherent in the signal source as a stochastic element,
In order to learn the behavior of this variation factor, using multiple learning signals obtained from one signal source each, applying the EM algorithm to both filter coefficient estimation and HMM parameter estimation to different signal sources A model learning means for learning a plurality of corresponding different template models, respectively, and obtaining respective template model parameters;
A database for storing the plurality of template model parameters;
Processing means for reading the template model parameters stored in the database and calculating the likelihood of each template model for the observed signal waveform;
A comparator for obtaining a maximum likelihood among the calculated likelihoods;
A waveform recognition device that recognizes the observed signal waveform by selecting the template model that gives the maximum likelihood.
前記尤度を計算する処理手段は、観測信号波形をHMMの出力である駆動源信号波形に変換する逆フィルタリング手段と、この駆動源信号波形から駆動源HMMの尤度を計算する尤度計算手段とから成り、この計算された尤度が観測信号波形に対するテンプレートモデルの尤度となる請求項2に記載の波形認識装置。  The processing means for calculating the likelihood includes an inverse filtering means for converting the observation signal waveform into a driving source signal waveform that is an output of the HMM, and a likelihood calculating means for calculating the likelihood of the driving source HMM from the driving source signal waveform. The waveform recognition device according to claim 2, wherein the calculated likelihood is the likelihood of the template model for the observed signal waveform. 前記モデル学習手段は、複数の学習用信号波形から平均尤度最大化基準に従って確率モデルのパラメータを推定する請求項2に記載の波形認識装置。  The waveform recognition apparatus according to claim 2, wherein the model learning unit estimates a parameter of a probability model from a plurality of learning signal waveforms according to an average likelihood maximization criterion. 複数個のテンプレートモデルを用いることによって、観測信号波形を特定して認識を行う波形認識プログラムにおいて、
1つのテンプレートモデルとして、1つの隠れマルコフモデル(HMM)と1つの線形フィルタの組み合わせにより、隠れマルコフモデル( HMM )の出力である駆動源信号の1つの振幅値が従う確率分布を、隠れマルコフモデル( HMM )の各状態で定義される混合正規分布として、信号発生源が本来持っている変動要因を確率的な要素としてモデリングする波形の確率モデルを用い、
この変動要因の振る舞いを学習するためにそれぞれ1つの信号発生源から得られた複数の学習用信号を用いて、フィルタ係数推定とHMMパラメータ推定の両方にEMアルゴリズムを適用して異なる信号発生源に対応する異なる前記テンプレートモデルの複数個をそれぞれ学習し、それぞれのテンプレートモデルパラメータを求めて、これをデータベースに記憶し、
前記データベースに蓄積されたテンプレートモデルパラメータを読み込み、観測信号波形に対する各テンプレートモデルの尤度を計算し、
その計算した尤度のなかで最大尤度を求め、
この最大尤度を与えるテンプレートモデルを選択することで観測信号波形の認識をする、
各手順をコンピュータに実行させる波形認識プログラム。
In a waveform recognition program that identifies and recognizes observed signal waveforms by using multiple template models,
As a template model , a hidden Markov model is obtained by combining one hidden Markov model (HMM) and one linear filter, and the probability distribution that one amplitude value of the driving source signal that is the output of the hidden Markov model ( HMM ) follows. ( HMM ) As a mixed normal distribution defined in each state, using a waveform probability model that models the fluctuation factors inherent in the signal source as a stochastic element,
In order to learn the behavior of this variation factor, using multiple learning signals obtained from one signal source each, applying the EM algorithm to both filter coefficient estimation and HMM parameter estimation to different signal sources Learning each of a plurality of corresponding different template models, determining each template model parameter, storing it in the database,
Read the template model parameters stored in the database, calculate the likelihood of each template model for the observed signal waveform,
Find the maximum likelihood among the calculated likelihoods,
Recognize the observed signal waveform by selecting the template model that gives this maximum likelihood.
A waveform recognition program that causes a computer to execute each procedure.
JP2003077946A 2003-03-20 2003-03-20 Waveform recognition method and apparatus, and program Expired - Lifetime JP3987927B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003077946A JP3987927B2 (en) 2003-03-20 2003-03-20 Waveform recognition method and apparatus, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003077946A JP3987927B2 (en) 2003-03-20 2003-03-20 Waveform recognition method and apparatus, and program

Publications (2)

Publication Number Publication Date
JP2004287010A JP2004287010A (en) 2004-10-14
JP3987927B2 true JP3987927B2 (en) 2007-10-10

Family

ID=33292574

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003077946A Expired - Lifetime JP3987927B2 (en) 2003-03-20 2003-03-20 Waveform recognition method and apparatus, and program

Country Status (1)

Country Link
JP (1) JP3987927B2 (en)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7643989B2 (en) * 2003-08-29 2010-01-05 Microsoft Corporation Method and apparatus for vocal tract resonance tracking using nonlinear predictor and target-guided temporal restraint
JP2008546012A (en) * 2005-05-27 2008-12-18 オーディエンス,インコーポレイテッド System and method for decomposition and modification of audio signals
JP4576612B2 (en) * 2005-09-13 2010-11-10 独立行政法人産業技術総合研究所 Speech recognition method and speech recognition apparatus
US8712740B2 (en) 2008-05-14 2014-04-29 Nittobo Acoustic Engineering Co., Ltd. Signal judgment method, signal judgment apparatus, program, and signal judgment system
JP2010044031A (en) * 2008-07-15 2010-02-25 Nittobo Acoustic Engineering Co Ltd Method for identifying aircraft, method for measuring aircraft noise and method for determining signals using the same
JP2010265885A (en) * 2008-08-01 2010-11-25 Honda Motor Co Ltd Compression ratio switching determining device in variable compression ratio internal combustion engine
JP6078872B2 (en) * 2012-10-01 2017-02-15 国立研究開発法人産業技術総合研究所 Automatic topology generation of AR-HMM
KR102016638B1 (en) * 2017-06-12 2019-09-02 에스케이오앤에스 주식회사 Method and apparatus for detecting spurious
WO2019026231A1 (en) * 2017-08-03 2019-02-07 Nec Corporation Model structure selection apparatus, method, disaggregation system and program
JP7040628B2 (en) * 2018-09-20 2022-03-23 日本電気株式会社 Learning device and pattern recognition device

Also Published As

Publication number Publication date
JP2004287010A (en) 2004-10-14

Similar Documents

Publication Publication Date Title
US6954745B2 (en) Signal processing system
CN101416237B (en) Method and apparatus for removing voice reverberation based on probability model of source and room acoustics
KR100745976B1 (en) Method and apparatus for classifying voice and non-voice using sound model
US7035790B2 (en) Speech processing system
EP1515305A1 (en) Noise adaption for speech recognition
US20020038211A1 (en) Speech processing system
US7010483B2 (en) Speech processing system
EP1457968B1 (en) Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
Degara et al. Onset event decoding exploiting the rhythmic structure of polyphonic music
JP3987927B2 (en) Waveform recognition method and apparatus, and program
Ntalampiras A novel holistic modeling approach for generalized sound recognition
Ntalampiras Generalized sound recognition in reverberant environments
KR102406512B1 (en) Method and apparatus for voice recognition
Smolenski et al. Usable speech processing: A filterless approach in the presence of interference
JP2017520016A (en) Excitation signal generation method of glottal pulse model based on parametric speech synthesis system
Thakur et al. Rényi entropy based mutual information for semi-supervised bird vocalization segmentation
Kipnis et al. Graph-based clustering of dolphin whistles
Lim et al. Sound event detection in domestic environments using ensemble of convolutional recurrent neural networks
KR20080035965A (en) Information processing apparatus and method, program, and record medium
CN111354352B (en) Automatic template cleaning method and system for audio retrieval
Cipli et al. Multi-class acoustic event classification of hydrophone data
Chan et al. Equalization of speech and audio signals using a nonlinear dynamical approach
Baggenstoss A multi-resolution hidden markov model using class-specific features
Chiu et al. A micro-control device of soundscape collection for mixed frog call recognition
Kim et al. Study of mpeg-7 sound classification and retrieval

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070619

R150 Certificate of patent or registration of utility model

Ref document number: 3987927

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term