JP2004287010A - 波形認識方法及び装置、並びにプログラム - Google Patents

波形認識方法及び装置、並びにプログラム Download PDF

Info

Publication number
JP2004287010A
JP2004287010A JP2003077946A JP2003077946A JP2004287010A JP 2004287010 A JP2004287010 A JP 2004287010A JP 2003077946 A JP2003077946 A JP 2003077946A JP 2003077946 A JP2003077946 A JP 2003077946A JP 2004287010 A JP2004287010 A JP 2004287010A
Authority
JP
Japan
Prior art keywords
model
waveform
template
likelihood
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003077946A
Other languages
English (en)
Other versions
JP3987927B2 (ja
Inventor
Akira Saso
晃 佐宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2003077946A priority Critical patent/JP3987927B2/ja
Publication of JP2004287010A publication Critical patent/JP2004287010A/ja
Application granted granted Critical
Publication of JP3987927B2 publication Critical patent/JP3987927B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Abstract

【課題】異なる信号発生源から発生した複数信号の混合波形の認識を、同一の枠組みでパルス的、周期的、雑音的など広範囲な信号波形に対して実現する。
【解決手段】本発明は、テンプレートモデルを用いることによって、観測信号波形を特定して認識を行う。このテンプレートモデルとして隠れマルコフモデル(HMM)と線形フィルタの組み合わせによる波形の確率モデルを用いる。それぞれ1つの信号発生源から得られた複数の学習用信号を用いて、異なる信号発生源に対応する異なるテンプレートモデルの複数個をそれぞれ学習し、それぞれのテンプレートモデルパラメータを求めて、これをデータベースに記憶する。蓄積されたテンプレートモデルパラメータを読み込み、観測信号波形に対する各テンプレートモデルの尤度を計算する。その計算した尤度のなかで最大尤度を求め、この最大尤度を与えるテンプレートモデルを選択することで観測信号波形の認識をする。
【選択図】 図6

Description

【0001】
【発明の属する技術分野】
本発明は、テンプレートモデルを用いることによって、観測信号波形を特定して認識を行う波形認識方法及び装置、並びにプログラムに関する。
本発明の波形認識技術により多様な信号波形を認識することが可能となる。例えば、信号として、実環境下にある環境音に着目すると、波形認識装置は得られた環境音の音源を認識する機能を有する装置といえる。例えば、ガラス窓が壊される音やガスの漏れる音などを認識することで、▲1▼ホームセキュリティー装置としての応用を考えることができ、また、▲2▼音による産業機器の異常検出装置などの産業分野、▲3▼聴覚障害者の聴覚補助装置のように福祉分野など様々な分野に応用を見込める技術である。
【0002】
【従来の技術】
従来、テンプレート(見本)波形と入力波形の照合により波形の同定を行う手法が提案されている。このタイプの手法で、例えば、周期信号の波形を認識する場合、テンプレート波形の基本周波数を入力信号波形のそれに時々刻々と合わせ込む必要があり、また、入力波形の振幅レベルに一致するように、テンプレート波形の振幅をスケーリングする必要がある。生の信号波形をテンプレート波形として用いる手法では、このような位相合わせと利得合わせによるテンプレート波形の適応処理が、パルス的、周期的、または雑音的などの信号波形の特徴に特化し、恣意的で煩雑になる傾向がある。このためより広範囲な信号波形の認識を実現するには向いていない。
【0003】
一方、特許文献1や本出願人の先の出願である特願2001−292436号では、線形フィルタと隠れマルコフモデル(HMM)の組み合わせにより信号波形の確率的生成モデルを構成し、この信号波形生成モデルをテンプレートモデルとして用いた混合信号分離手法が提案されている。この手法では、信号波形生成モデルにおけるHMMのネットワークトポロジーを適切に設計することで、パルス的、周期的、または雑音的など様々な信号波形を処理することが可能になっている。また、テンプレートとして生の信号波形を用いるのではなく、信号波形生成モデルをテンプレートモデルとして用いることで、波形の特徴に特化せず、同一の枠組みで様々な信号波形の分離を実現している。
【0004】
従来のモデル学習手段は、フィルタ係数の推定手段とHMMパラメータの推定手段を、それぞれ独立した手段として分けて、これらを繰り返す構成となっている。AR−HMMモデルの学習手段を構築する際に問題となるのが、HMMのパラメータの一部(時間と共にどの状態のどの分布から観測値が出力されたかを示す状態遷移系列s_n(t)と混合正規分布の系列m_n(t))が観測できないということである。この為に、観測できないパラメータを含むモデル学習の汎用アルゴリズムであるEMアルゴリズムを適用することになる。
従来法のモデル学習手段では、HMMのパラメータ推定だけにEMアルゴリズムを適用している。これはBaum−Welchアルゴリズムと呼ばれるHMMパラメータ推定の一般的なアルゴリズムである。これに対して、発明法のモデル学習手段では、HMMだけでなくフィルタ係数(AR係数)も含めたモデル全体に対してEMアルゴリズムを適用している。
フィルタ係数(AR係数)を推定する際にも、状態遷移系列と混合正規分布の系列が必要になるが、従来の学習手段では、フィルタ係数の推定にEMアルゴリズムを適用していないので、これらの系列を明示的に与える必要がある。この為に、従来の学習手段では、Baum−WelchアルゴリズムによりHMMパラメータを推定した後で、その新たに推定されたHMMパラメータを用いたViterbiアルゴリズムを適用することで、HMMの学習に用いた駆動源信号に対する状態遷移系列を推定している。(従来法では、正規分布の混合数は1であるので、混合正規分布の系列は推定する必要が無い。)この推定された1つの状態遷移系列から、1つのフィルタ係数が確定する。
このように従来の学習手段では、フィルタ係数を推定する際に、本来、観測出来ない状態遷移系列を推定し、それを明示的に与える必要がある。また、この状態遷移系列は、1つの駆動源信号(処理をさかのぼれば、1つの学習用信号と言える)から1つ確定する。従って、複数の学習用信号がある場合、複数の状態遷移系列が得られてしまい、従って、複数のフィルタ係数が求まってしまうことになる。確率モデル(AR−HMM)は1つのフィルタ係数(AR係数)しか持たない構造になっている。
以上のように、従来のモデル学習手段は、フィルタ係数推定手段とHMMパラメータ推定手段を、それぞれ分けて独立した手段としており、そのフィルタ係数推定手段において、本来観測できない状態遷移系列を明示的に与えるために、複数の学習用信号波形を用いることができない。
【特許文献1】
特開2003−005785号公報
【0005】
【発明が解決しようとする課題】
波形認識では、複数の学習用信号波形からテンプレートの波形生成モデルを学習する必要があるが、特許文献1に述べられている方法では、複数の学習用信号波形から生成モデルを学習することができない。
本発明は、係る問題点を解決して、異なる信号発生源から発生した複数信号の混合波形の認識を、同一の枠組みでパルス的、周期的、雑音的など広範囲な信号波形に対して実現することを目的としている。
【0006】
【課題を解決するための手段】
本発明は、第1に、従来のモデル学習手段と比べて、このEMアルゴリズムをどの範囲で適用するかという点に特徴がある。本発明は、フィルタ係数推定とHMMパラメータ推定の両方にEMアルゴリズムを適用しているので、その学習手段において観測できないパラメータを明示的に与える必要が無い。このため、複数の学習用信号波形を用いることができるようになる。
本発明は、第2に、信号波形の認識のために、線形フィルタとHMMで構成される確率モデルを用いることに特徴がある。本発明は、確率モデルに基づいた学習手段および認識手段の構成に特徴がある。
本発明の波形認識方法及び装置、並びにプログラムは、テンプレートモデルを用いることによって、観測信号波形を特定して認識を行う。テンプレートモデルとして隠れマルコフモデル(HMM)と線形フィルタの組み合わせにより信号発生源が本来持っている変動要因を確率的な要素としてモデリングする波形の確率モデルを用いる。この変動要因の振る舞いを学習するためにそれぞれ1つの信号発生源から得られた複数の学習用信号を用いて、フィルタ係数推定とHMMパラメータ推定の両方にEMアルゴリズムを適用して異なる信号発生源に対応する異なる前記テンプレートモデルの複数個をそれぞれ学習し、それぞれのテンプレートモデルパラメータを求めて、これをデータベースに記憶する。データベースに蓄積されたテンプレートモデルパラメータを読み込み、観測信号波形に対する各テンプレートモデルの尤度を計算する。その計算した尤度のなかで最大尤度を求め、この最大尤度を与えるテンプレートモデルを選択することで観測信号波形の認識をする。
【0007】
隠れマルコフモデル(HMM)と線形フィルタの組み合わせによる信号波形生成モデルを、複数の学習用信号波形から学習することを可能にするため、平均尤度最大化基準に則った学習アルゴリズムであるExpectation Maximization(EM)アルゴリズムを用いる。
隠れマルコフモデル(HMM)と線形フィルタの組み合わせによる信号波形生成モデルを、認識のテンプレートモデルとして採用することで、パルス的、周期的、雑音的など様々な信号波形の認識を可能にする。また、このモデルは一種の確率モデルであるので、観測信号波形とモデルの類似度は尤度を計算することで求められる。信号波形の認識は最大尤度を与えるモデルを選択することにより実現される。
観測信号波形とテンプレートモデルの尤度計算に、特許文献1や特願2001−292436号に述べられている利得適応型AR−HMM分解法を用いることで、複数信号の混合波形の認識が実現される。
【0008】
【発明の実施の形態】
以下に、本発明の実施の形態について、詳細に説明する。
信号波形を認識する際には、その信号のテンプレート(見本)モデルが必要になる。本発明で用いているテンプレートモデルの構成について、環境音を例に挙げながら説明する。環境音の認識を考える場合、例えば、「金属を叩く音」を認識するには、「金属」という音源材質の同定だけでなく、「叩く」という動作に関連する特徴の分類も含まれる。これを実現するための手掛かりとして、次のような観測信号波形との対応関係を考える。「金属」という材質やその形状が主な要因となって減衰振動波形が決まり、「叩く」という動作がパルス波形となって現れると考える。また別の例として、「目覚し時計のベル音」は、ベルが金属であれば、「金属を繰り返し叩く音」であるので、ベルの材質や形状が個々の減衰振動に現れ、その動作が周期的波形となって現れると考える。このように、環境音の認識においては、音源の材質や形状という意味での「何の音か?」に加え、波形がパルス的、反復的(周期的)または雑音的であるなどのように「どういうパターンで発生したか?」も重要な情報であると言える。
【0009】
ある材質の音源が他の物(駆動源)と接触して生じる環境音に対して、1)音源材質に関する特徴が主にスペクトル包絡に反映され、2)音源の駆動過程が波形概観の変化パターン(位相的情報)に反映されるという対応関係を考える。そして、環境音の認識を実現するには、これらスペクトル包絡と位相的情報の両方を音響的特徴として扱う必要がある。これより、音響モデルは波形レベルで構築するのが妥当であると考える。しかし、ここで問題となるのは、例えば、コインを床に落した場合、その衝突の生起するタイミングがコインを落すたびに異なるということである。つまり、多くの環境音の駆動過程は非定常であるため、パルス的、反復的、雑音的など波形の概観(変化パターン)での識別は可能であるが、その波形は様々に変化し得る。
【0010】
このような非定常波形をモデリングするために、本発明は、音源材質に関する部分と非定常な駆動過程を分離し、それぞれに線形フィルタとHidden Markov Model(HMM)を用いる。更に、線形フィルタは時不変とし、自己回帰(Auto−Regressive)過程で表されると仮定する。以後、この波形モデルをAR−HMMと呼ぶ。図1から図3にAR−HMMの例を示す。図1はHMMがleft−to−rightモデルになっているため、パルス的波形のモデルとして用いることができる。また、図2はHMMの状態がリング状に接続され、更に遷移方向を一方向に限定しているので、反復的(周期的)波形のモデルとして用いられる。このモデルにおいて、反復的と周期的を区別する場合は、観測信号波形に対するHMMの状態遷移系列を利用すればよい。図3は、Ergodic HMMを用いているため、雑音的な波形のモデルとして用いる。以上のように、AR−HMMは波形の変化パターンをHMMのネットワークトポロジーとして表現する。これらの例では駆動源の状態数を3としているが、駆動源HMMの状態数や線形フィルタの次数などは、信号波形に適したものを選ぶ必要がある。一方、より複雑な音源として複数音源を混合して生成された環境音を扱う場合、特許文献1や特願2001−292436号にあるように、個々の音源に対応するAR−HMMの出力を加えあわせた混合音源モデルを用いる方法などが考えられる。
【0011】
本発明者らは、AR−HMMのパラメータ推定法について、特許文献1などで既に提案している。しかし、これは信号波形分析を目的としており、1つの学習用信号波形からモデルパラメータを推定する手法であった。従って、認識で用いる音響モデルのように、複数の学習用信号波形からモデルパラメータを学習する用途には向いていない。以下では、Expectation Maximization(EM)アルゴリズムに基づいて、複数の学習用信号波形(勿論、単一の学習用信号波形からの学習も可能であるが)を用いたAR−HMMの学習アルゴリズムを以下に述べる。EMアルゴリズムは、観測できないパラメータがある状態で、モデルの学習を可能とする汎用的なアルゴリズムであり、本発明は、このアルゴリズムをAR−HMMの学習問題へ適用するものである。以下にあるAR−HMM学習の説明の中で、EステップがExpectationつまり尤度の平均を取る操作、MステップがMaximizationつまり最大化操作である。つまり、平均尤度の最大化をしている。
【0012】
(AR−HMMの学習アルゴリズム)
ある信号(環境音の例では、1つの音源)について用意したN個の学習用信号波形を、
【数1】
Figure 2004287010
で表す。 AR係数を
【数2】
Figure 2004287010
とすると、HMMの出力である駆動源信号波形e_n(t)は次式で表される。
【数3】
Figure 2004287010
HMMの状態sの出力分布o_s(e)は、次式のように混合数Mの混合正規分布とする。
【数4】
Figure 2004287010
ここで、HMMの初期確率をπ_s、状態遷移確率を q_s1,s2、そしてAR−HMMの全パラメータを
【数5】
Figure 2004287010
で表す。学習用信号波形x_n(t)、状態遷移系列s_n(t)そして混合正規分布の系列m_n(t)が与えられたときのモデルパラメータθの尤度L(θ)は次式で表される。
【数6】
Figure 2004287010
ここで、 s_n, m_nは隠れ変数であるので、不完全データx_nからモデルパラメータを求めることになるが、これはEMアルゴリズムを用いて以下の手順で推定することができる。
【0013】
(Eステップ)
現在のモデルパラメータθを用いて隠れ変数s_n, m_nの確率を表し、更新モデルパラメータqの対数尤度log(L(q))の隠れ変数に関する期待値Q(q|θ)を求める。これは等価的に次式により求められる。
【数7】
Figure 2004287010
但し、γ_n(t,i,j,m)は状態iの混合正規分布mがe_n(t)を出力して、状態jに遷移する確率を表す。これはe_n(t)に対してForward−Backwardアルゴリズムを適用して得られるα、βを用いて、次式により求められる。
【数8】
Figure 2004287010
【0014】
(Mステップ)
Q(q|θ)をqに関して最大化する。 HMMパラメータの更新式については、 HMMの出力がx_n(t)ではなくe_n(t)であることに注意する以外は Baum−Welchのアルゴリズムと同じなので、ここでは省略する。一方、更新AR係数A(k)は、
【数9】
Figure 2004287010
の解として与えられ、具体的には次式のように表される。
【数10】
Figure 2004287010
【数11】
Figure 2004287010
【数12】
Figure 2004287010
ここで、
【数13】
Figure 2004287010
【数14】
Figure 2004287010
である。
更新パラメータqをθと見直して、以上のステップを尤度が収束するまで繰り返す。
【0015】
以上が、図4の10に記しているEMアルゴリズムに基づいたモデル学習手段である。アルゴリズムの流れをまとめると図7に例示した通り次のようになる。
1.初期パラメータθを用意する。
2.AR係数の現推定値を用いて(3)式によりHMMの出力(駆動源信号波形)e_n(t)を求める。
3.Forward−BackwardアルゴリズムによりForward係数αとBackward係数βを求める。
4.(8)式により状態間の遷移確率γを求める。
5.Baum−WelchアルゴリズムによりHMMパラメータを更新する。
6.(10)式から(14)式を用いてAR係数を更新する。
7.新たに推定したパラメータqの学習サンプルに対する尤度が収束していれば終了、そうでなければ2から繰り返す。
上記手続きにより学習したパラメータθを、テンプレートモデルデータベース11に記憶する。この学習したパラメータは信号毎(環境音の例では音源毎)に学習し、そのパラメータをデータベース11に記憶しておく。認識時には、図6に示すように、データベースから読み込まれる。
【0016】
(信号波形の認識)
図4〜図6は本発明の波形学習装置および認識装置を例示する図であり、図4に例示の波形学習装置によりテンプレートモデルのデータベースを作成し、このデータベースを参照して、図6に例示の認識装置が観測信号の波形を認識する。図5は、図6に例示のモデルの尤度計算手段の詳細を示す図である。
複数の学習用信号波形からテンプレートモデルを学習するには、図4に示したように、EMアルゴリズムを用いた平均尤度最大化基準に基づくモデルパラメータの繰り返し学習をするモデル学習手段10、そして学習パラメータを記憶しておくテンプレートモデルデータベース11からなる波形学習装置を用いる。
【0017】
このモデル学習手段10には、モデル構造と共に複数の学習用信号波形が入力される。このモデル構造としては、図1から図3に例示したモデル構造を用いることができるが、それ以外のものも用いることができる。一般的には、状態数が3つだけではなく、多い場合もあるし、HMMのネットワーク構造もこの3種類だけとは限らない。要は、モデル化しようとしている信号発生源に一番適した構造を、設計するということである。モデル学習の最初に、このモデル構造を選択する必要がある。
【0018】
続いて、同じ発生源から得られた複数の信号波形を用いて、設計した構造のモデルパラメータを推定することになる。
図1から図3は、駆動源HMMの出力が線形フィルタを通ることにより、信号が生成されるという信号生成過程のモデルを例示している。モデルの学習とは、1つの信号発生源から得られた複数の信号をもとに、その信号を生成する尤もらしいモデルパラメータを推定するということに相当する。図1から図3にある矢印の向きを逆に進んで、複数の学習用信号波形から、モデルパラメータを推定することができる。モデルパラメータを推定するのに、たった1つの学習用信号波形では、推定精度があまりにも悪すぎるので、出来るだけ多くの学習用信号波形を収集することが、モデルの精度を上げるために必要となる。モデル精度が上がれば、必然的に認識精度も上がることになる。
【0019】
このように、1つの信号発生源のモデルを学習するために、その発生源から得られた複数の学習用信号波形を用いる。モデルの学習は信号発生源毎に行うことになる。例えば、環境音として、ある木片を叩く音を仮定すると、その木片を何度も叩いてその都度得られる音を録音して、同じ音源(木片)から複数の学習用の音を収集する。続いて、この木片を叩く音をモデリングするのに、図1から図3に例示したようなモデルの中のどのタイプのモデルを使うかを考える。木片を叩く場合、その音の波形はパルス的になるので、図1に示すLefto−to−Right型のモデルを選択するのが適切である。そして、先ほど述べた複数の学習用の音と選択したモデルを使って、モデル学習手段によりパラメータ(フィルタ係数およびHMMパラメータ)を推定する。これで、木片を叩く音のモデルが出来あがり、得られたパラメータはデータベースに記憶してく。
【0020】
もし、木片を叩く音とは別に、金属を叩く音のモデルを作る場合は、その金属を何回か叩いて複数の学習用の音を収録し、モデルタイプを選択し、学習手段でパラメータを推定し、そのパラメータをデータベースに記憶する、という同じ作業を繰り返すことになる。この様に、テンプレートモデルは、信号発生源毎に、それぞれで行うことになる。
一般的に、信号発生源は幾つかの変動要因を含んでいる。従って、同じ発生源から得られた信号でも、観測するたびに、波形は異なることになる。認識を行おうとした場合、この点が問題となるので、本発明は、信号波形の確率モデルを用いることで、発生源が本来持っている変動要因を確率的な要素としてモデリングする。モデルの学習では、この変動要因の振る舞いを学習するために、1つの発生源から得られた複数の学習用信号を用いる。
【0021】
次に、信号波形の認識手段について説明する。観測信号波形の認識を行うには図6に示してあるように、図4に例示の波形学習装置によりデータベースに蓄積されたテンプレートモデルを読み込み、観測信号波形に対する各テンプレートモデルの尤度を計算する処理手段14と、その計算した尤度のなかで最大尤度を求める比較器15からなる。観測信号波形に対するテンプレートモデルの尤度計算手段をより詳しく記したのが図5である。観測信号波形は、逆フィルタリング手段12によって、テンプレートモデルのAR係数を用いて逆フィルタリングされる。この逆フィルタリング処理により、観測信号波形はHMMの出力である駆動源信号波形に変換されるので、この駆動源信号波形から駆動源HMMの尤度を尤度計算手段13において計算することができる。ここで算出された尤度が観測信号波形に対するテンプレートモデルの尤度となる。観測信号波形が1つの信号発生源(環境音の例では1つの音源)から生じ、かつ振幅レベルの変動がない場合は、尤度計算に通常のViterbiアルゴリズムを用いることができる。一方、振幅レベルの変動がある場合や、同時に、異なる信号発生源(環境音の例では異なる複数音源)から発生した複数の信号が観測信号波形に混合している場合は、特許文献1や特願2001−292436号に述べられている利得適応型AR−HMM分解法を用いることで、利得変動混合テンプレートモデルの尤度を計算することができる。
【0022】
このように、信号波形の認識は観測信号波形x(t)に対するテンプレートモデルの尤度を計算し、最大尤度を与えるモデルを選択することで実現する(図6)。テンプレートモデルの尤度計算は次のように行う。はじめに、(2)式のAR係数を用いて観測信号波形x(t)を逆フィルタリングする((15)式)。これにより観測信号波形はHMMの駆動源信号波形e(t)に変換される。
【数15】
Figure 2004287010
【0023】
次に、求められた駆動信号波形e(t)に対する駆動源HMMの尤度をViterbiアルゴリズムにより求める。観測信号波形の利得変動に対するテンプレートモデルの利得適応処理を含める場合、または複数混合信号を認識する場合は、特願2001−292436号に述べられている手法を用いる。このとき得られる尤度が、モデルθ_iの観測信号に対する尤度L(θ_i|x)となる。
最終的な認識結果は、データベースに登録されている全てのテンプレートモデルを用いて上記手順に従い尤度を求め、その中で最大尤度を与えるテンプレートモデルを認識結果として出力する((16)式)。
【数16】
Figure 2004287010
【0024】
【実施例】
【表1】
Figure 2004287010
【表2】
Figure 2004287010
実験に用いた環境音は、技術研究組合 新情報処理開発機構(RWCP)により作成された実環境音響データベースに収録されているドライソースの音源データを用いた。このデータベースは、音源の位置や発生方法などに変化を持たせながら、一種類の音源について100サンプルを基準として収録している。ラベリングは、パワーによる自動的な切り出し処理の後、目視による修正を加えることで行った。
音響モデルを作成するにあたって、図1に示した3種類のAR−HMMの中から、各音源の特徴に適合したタイプのモデルを選択した。実験に用いた59種類の音源を、 AR−HMMのタイプ毎に分類した結果を表1に示す。表中、(1)はleft−to−rightモデル、(2)はリング状モデル、(3)はErgodicモデルを示す。この実験では、複数音源を含む音源、材質が同じであるが形状が大きく異なる音源、電子音源系音源は除いた。全てのAR−HMMで、予測次数(24)、状態数(6)、混合数(2)とした。(但し、このモデル構成は十分な検討を行った上での選択ではない。)学習データは、各音源サンプルの中から偶数番のデータを用いた。
【0025】
認識実験で用いるテストデータは、全音源サンプルの奇数番のデータ(2787サンプル)を用いた。認識は以下の手順で行う。各モデルにおいて、テストデータを(15)式によりHMMの出力系列に変換し、それに対してViterbiアルゴリズムを適用して最大尤度を求める。全モデルの中で、最も大きな尤度を与えるモデルを最終的な認識結果とする。またこの実験では、 AR−HMMの各タイプに属するサンプルとモデルだけを用いる認識実験と、全サンプルに対して全モデルを用いる認識実験の両方を行った。
【0026】
認識結果を表2に示す。 AR−HMMのタイプ別に認識した実験の合計の認識率は85.0[%]であった。これに対して、タイプの区別なく全モデルを用いた条件での認識率は80.9[%]となり、その劣化が約4[%]に留まる結果となった。各カテゴリ間の認識結果にバラツキが目立つものの、波形の変化パターンをHMMのネットワークトポロジーとして表現する AR−HMMを環境音モデルとして用いることで、波形変化パターンの分類がある程度正しく行われることがわかる。
【0027】
【発明の効果】
線形フィルタと隠れマルコフモデルの組み合わせで構成される確率的な信号波形生成モデルを、波形認識のテンプレートモデルとして採用することで、パルス的、周期的、雑音的など多様な波形を示す信号波形の認識を同一の枠組みで実現できる。
テンプレートモデルの学習手段として、EMアルゴリズムを用いたモデルパラメータの学習手法を構築したことにより、認識のテンプレートモデルの構築に必要な複数の学習用信号波形からモデルの作成が可能になる。
線形フィルタと隠れマルコフモデルで構成されるか確率モデルをテンプレートモデルとして採用することで、認識手続きは、観測信号波形と各テンプレートモデルの尤度計算および最大尤度モデルの選択で構成されるなど、認識アルゴリズムが簡単になる。また、尤度計算に特許文献1や特願2001−292436号に述べられている利得適応型AR−HMM分解法を用いることで、利得変動信号波形や複数信号の混合波形などの認識も可能となる。
【図面の簡単な説明】
【図1】本発明で用いるパルス的信号波形のテンプレートモデルの例である。
【図2】本発明で用いる周期(反復)的信号波形のテンプレートモデルの例である。
【図3】本発明で用いる雑音的信号波形のテンプレートモデルの例である。
【図4】本発明の波形学習装置である。
【図5】モデル尤度計算の手続きを詳細に示した図である。
【図6】本発明の認識装置である。
【図7】図4に例示したモデル学習手段のアルゴリズムの流れをまとめた図である。
【符号の説明】
10 テンプレートモデルの学習手段
11 テンプレートモデルのデータベース
12 テンプレートモデルのAR係数による逆フィルタリング手段
13 駆動源信号と駆動源HMMの尤度計算処理手段
14 観測信号波形とデータベースに登録されているテンプレートモデルの尤度計算手段
15 最大尤度モデルの選択を行う比較器

Claims (5)

  1. テンプレートモデルを用いることによって、観測信号波形を特定して認識を行う波形認識方法において、
    前記テンプレートモデルとして隠れマルコフモデル(HMM)と線形フィルタの組み合わせにより信号発生源が本来持っている変動要因を確率的な要素としてモデリングする波形の確率モデルを用い、
    この変動要因の振る舞いを学習するためにそれぞれ1つの信号発生源から得られた複数の学習用信号を用いて、フィルタ係数推定とHMMパラメータ推定の両方にEMアルゴリズムを適用して異なる信号発生源に対応する異なる前記テンプレートモデルの複数個をそれぞれ学習し、それぞれのテンプレートモデルパラメータを求めて、これをデータベースに記憶し、
    前記データベースに蓄積されたテンプレートモデルパラメータを読み込み、観測信号波形に対する各テンプレートモデルの尤度を計算し、
    その計算した尤度のなかで最大尤度を求め、
    この最大尤度を与えるテンプレートモデルを選択することで観測信号波形の認識をする波形認識方法。
  2. テンプレートモデルを用いることによって、信号発生源からの観測信号波形を特定して認識を行う波形認識装置において、
    前記テンプレートモデルとして隠れマルコフモデル(HMM)と線形フィルタの組み合わせにより信号発生源が本来持っている変動要因を確率的な要素としてモデリングする波形の確率モデルを用い、
    この変動要因の振る舞いを学習するためにそれぞれ1つの信号発生源から得られた複数の学習用信号を用いて、フィルタ係数推定とHMMパラメータ推定の両方にEMアルゴリズムを適用して異なる信号発生源に対応する異なる前記テンプレートモデルの複数個をそれぞれ学習し、それぞれのテンプレートモデルパラメータを求めるモデル学習手段と、
    前記複数のテンプレートモデルパラメータを記憶するデータベースと、
    前記データベースに蓄積されたテンプレートモデルパラメータを読み込み、観測信号波形に対する各テンプレートモデルの尤度を計算する処理手段と、
    その計算した尤度のなかで最大尤度を求める比較器と、
    最大尤度を与えるテンプレートモデルを選択することで観測信号波形の認識をする波形認識装置。
  3. 前記尤度を計算する処理手段は、観測信号波形をHMMの出力である駆動源信号波形に変換する逆フィルタリング手段と、この駆動源信号波形から駆動源HMMの尤度を計算する尤度計算手段とから成り、この計算された尤度が観測信号波形に対するテンプレートモデルの尤度となる請求項2に記載の波形認識装置。
  4. 前記モデル学習手段は、複数の学習用信号波形から平均尤度最大化基準に従って確率モデルのパラメータを推定する請求項2に記載の波形認識装置。
  5. テンプレートモデルを用いることによって、観測信号波形を特定して認識を行う波形認識プログラムにおいて、
    前記テンプレートモデルとして隠れマルコフモデル(HMM)と線形フィルタの組み合わせにより信号発生源が本来持っている変動要因を確率的な要素としてモデリングする波形の確率モデルを用い、
    この変動要因の振る舞いを学習するためにそれぞれ1つの信号発生源から得られた複数の学習用信号を用いて、フィルタ係数推定とHMMパラメータ推定の両方にEMアルゴリズムを適用して異なる信号発生源に対応する異なる前記テンプレートモデルの複数個をそれぞれ学習し、それぞれのテンプレートモデルパラメータを求めて、これをデータベースに記憶し、
    前記データベースに蓄積されたテンプレートモデルパラメータを読み込み、観測信号波形に対する各テンプレートモデルの尤度を計算し、
    その計算した尤度のなかで最大尤度を求め、
    この最大尤度を与えるテンプレートモデルを選択することで観測信号波形の認識をする、
    各手順をコンピュータに実行させる波形認識プログラム。
JP2003077946A 2003-03-20 2003-03-20 波形認識方法及び装置、並びにプログラム Expired - Lifetime JP3987927B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003077946A JP3987927B2 (ja) 2003-03-20 2003-03-20 波形認識方法及び装置、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003077946A JP3987927B2 (ja) 2003-03-20 2003-03-20 波形認識方法及び装置、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2004287010A true JP2004287010A (ja) 2004-10-14
JP3987927B2 JP3987927B2 (ja) 2007-10-10

Family

ID=33292574

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003077946A Expired - Lifetime JP3987927B2 (ja) 2003-03-20 2003-03-20 波形認識方法及び装置、並びにプログラム

Country Status (1)

Country Link
JP (1) JP3987927B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005078077A (ja) * 2003-08-29 2005-03-24 Microsoft Corp 非線形予測子およびターゲットによって案内される時間的制約を使用して声道共鳴を追跡する方法および装置
JP2007079072A (ja) * 2005-09-13 2007-03-29 National Institute Of Advanced Industrial & Technology 音声認識方法および音声認識装置
JP2008546012A (ja) * 2005-05-27 2008-12-18 オーディエンス,インコーポレイテッド オーディオ信号の分解および修正のためのシステムおよび方法
WO2009139052A1 (ja) * 2008-05-14 2009-11-19 日東紡音響エンジニアリング株式会社 信号判定方法、信号判定装置、プログラム、信号判定システム
WO2010013663A1 (ja) * 2008-08-01 2010-02-04 本田技研工業株式会社 内燃機関の運転状態判定装置
JP2010044031A (ja) * 2008-07-15 2010-02-25 Nittobo Acoustic Engineering Co Ltd 航空機の識別方法、並びにそれを用いた航空機騒音の測定方法及び信号判定方法
JP2014071417A (ja) * 2012-10-01 2014-04-21 National Institute Of Advanced Industrial & Technology Ar−hmmのトポロジ自動生成
KR20180135520A (ko) * 2017-06-12 2018-12-21 네트웍오앤에스 주식회사 불요파 검출 방법 및 장치
WO2019026231A1 (en) * 2017-08-03 2019-02-07 Nec Corporation APPARATUS, METHOD, DISAGGREGATION SYSTEM, AND MODEL STRUCTURE SELECTION PROGRAM
WO2020059084A1 (ja) * 2018-09-20 2020-03-26 日本電気株式会社 学習装置およびパターン認識装置

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005078077A (ja) * 2003-08-29 2005-03-24 Microsoft Corp 非線形予測子およびターゲットによって案内される時間的制約を使用して声道共鳴を追跡する方法および装置
JP2008546012A (ja) * 2005-05-27 2008-12-18 オーディエンス,インコーポレイテッド オーディオ信号の分解および修正のためのシステムおよび方法
US8315857B2 (en) 2005-05-27 2012-11-20 Audience, Inc. Systems and methods for audio signal analysis and modification
JP2007079072A (ja) * 2005-09-13 2007-03-29 National Institute Of Advanced Industrial & Technology 音声認識方法および音声認識装置
JP4576612B2 (ja) * 2005-09-13 2010-11-10 独立行政法人産業技術総合研究所 音声認識方法および音声認識装置
KR101493552B1 (ko) * 2008-05-14 2015-02-13 닛토보 온쿄 엔지니어링 가부시키가이샤 신호판정방법, 신호판정장치, 프로그램, 신호판정시스템
WO2009139052A1 (ja) * 2008-05-14 2009-11-19 日東紡音響エンジニアリング株式会社 信号判定方法、信号判定装置、プログラム、信号判定システム
JP5145417B2 (ja) * 2008-05-14 2013-02-20 日東紡音響エンジニアリング株式会社 信号判定方法、信号判定装置、プログラム、信号判定システム
US8712740B2 (en) 2008-05-14 2014-04-29 Nittobo Acoustic Engineering Co., Ltd. Signal judgment method, signal judgment apparatus, program, and signal judgment system
JP2010044031A (ja) * 2008-07-15 2010-02-25 Nittobo Acoustic Engineering Co Ltd 航空機の識別方法、並びにそれを用いた航空機騒音の測定方法及び信号判定方法
WO2010013663A1 (ja) * 2008-08-01 2010-02-04 本田技研工業株式会社 内燃機関の運転状態判定装置
JP2010265885A (ja) * 2008-08-01 2010-11-25 Honda Motor Co Ltd 可変圧縮比内燃機関における圧縮比切換判定装置
JP2014071417A (ja) * 2012-10-01 2014-04-21 National Institute Of Advanced Industrial & Technology Ar−hmmのトポロジ自動生成
KR20180135520A (ko) * 2017-06-12 2018-12-21 네트웍오앤에스 주식회사 불요파 검출 방법 및 장치
KR102016638B1 (ko) * 2017-06-12 2019-09-02 에스케이오앤에스 주식회사 불요파 검출 방법 및 장치
WO2019026231A1 (en) * 2017-08-03 2019-02-07 Nec Corporation APPARATUS, METHOD, DISAGGREGATION SYSTEM, AND MODEL STRUCTURE SELECTION PROGRAM
JP2020529675A (ja) * 2017-08-03 2020-10-08 日本電気株式会社 モデル構造選択装置、方法、ディスアグリゲーションシステムおよびプログラム
US11635454B2 (en) 2017-08-03 2023-04-25 Nec Corporation Model structure selection apparatus, method, disaggregation system and program
WO2020059084A1 (ja) * 2018-09-20 2020-03-26 日本電気株式会社 学習装置およびパターン認識装置
JPWO2020059084A1 (ja) * 2018-09-20 2021-08-30 日本電気株式会社 学習装置およびパターン認識装置
JP7040628B2 (ja) 2018-09-20 2022-03-23 日本電気株式会社 学習装置およびパターン認識装置
US11948554B2 (en) 2018-09-20 2024-04-02 Nec Corporation Learning device and pattern recognition device

Also Published As

Publication number Publication date
JP3987927B2 (ja) 2007-10-10

Similar Documents

Publication Publication Date Title
US6954745B2 (en) Signal processing system
EP1515305B1 (en) Noise adaption for speech recognition
CN101416237B (zh) 基于源和室内声学的概率模型的语音去混响方法和设备
US7035790B2 (en) Speech processing system
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
US7010483B2 (en) Speech processing system
Brandes Feature vector selection and use with hidden Markov models to identify frequency-modulated bioacoustic signals amidst noise
Degara et al. Onset event decoding exploiting the rhythmic structure of polyphonic music
CN107871499A (zh) 语音识别方法、系统、计算机设备及计算机可读存储介质
JP3987927B2 (ja) 波形認識方法及び装置、並びにプログラム
Ntalampiras Generalized sound recognition in reverberant environments
KR102406512B1 (ko) 음성인식 방법 및 그 장치
Smolenski et al. Usable speech processing: A filterless approach in the presence of interference
JP6216809B2 (ja) パラメータ調整システム、パラメータ調整方法、プログラム
JP2017520016A (ja) パラメトリック音声合成システムに基づく声門パルスモデルの励磁信号形成方法
CN102237082B (zh) 语音识别系统的自适应方法
Kipnis et al. Graph-based clustering of dolphin whistles
Lim et al. Sound event detection in domestic environments using ensemble of convolutional recurrent neural networks
CN111354352B (zh) 一种用于音频检索的模板自动清洗方法及系统
Cipli et al. Multi-class acoustic event classification of hydrophone data
JP6078441B2 (ja) モデル処理装置、分析装置、それらの方法およびプログラム
JP6142401B2 (ja) 音声合成モデル学習装置、方法、及びプログラム
Li et al. Graphical model approach to pitch tracking.
JPH06266386A (ja) ワードスポッティング方法
Messaoud et al. Formant tracking linear prediction model using HMMs for noisy speech processing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070619

R150 Certificate of patent or registration of utility model

Ref document number: 3987927

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term