JP2004287010A

JP2004287010A - 波形認識方法及び装置、並びにプログラム

Info

Publication number: JP2004287010A
Application number: JP2003077946A
Authority: JP
Inventors: Akira Saso; 晃佐宗
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2003-03-20
Filing date: 2003-03-20
Publication date: 2004-10-14
Anticipated expiration: 2023-03-20
Also published as: JP3987927B2

Abstract

【課題】異なる信号発生源から発生した複数信号の混合波形の認識を、同一の枠組みでパルス的、周期的、雑音的など広範囲な信号波形に対して実現する。
【解決手段】本発明は、テンプレートモデルを用いることによって、観測信号波形を特定して認識を行う。このテンプレートモデルとして隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせによる波形の確率モデルを用いる。それぞれ１つの信号発生源から得られた複数の学習用信号を用いて、異なる信号発生源に対応する異なるテンプレートモデルの複数個をそれぞれ学習し、それぞれのテンプレートモデルパラメータを求めて、これをデータベースに記憶する。蓄積されたテンプレートモデルパラメータを読み込み、観測信号波形に対する各テンプレートモデルの尤度を計算する。その計算した尤度のなかで最大尤度を求め、この最大尤度を与えるテンプレートモデルを選択することで観測信号波形の認識をする。
【選択図】図６

Description

【０００１】
【発明の属する技術分野】
本発明は、テンプレートモデルを用いることによって、観測信号波形を特定して認識を行う波形認識方法及び装置、並びにプログラムに関する。
本発明の波形認識技術により多様な信号波形を認識することが可能となる。例えば、信号として、実環境下にある環境音に着目すると、波形認識装置は得られた環境音の音源を認識する機能を有する装置といえる。例えば、ガラス窓が壊される音やガスの漏れる音などを認識することで、▲１▼ホームセキュリティー装置としての応用を考えることができ、また、▲２▼音による産業機器の異常検出装置などの産業分野、▲３▼聴覚障害者の聴覚補助装置のように福祉分野など様々な分野に応用を見込める技術である。
【０００２】
【従来の技術】
従来、テンプレート（見本）波形と入力波形の照合により波形の同定を行う手法が提案されている。このタイプの手法で、例えば、周期信号の波形を認識する場合、テンプレート波形の基本周波数を入力信号波形のそれに時々刻々と合わせ込む必要があり、また、入力波形の振幅レベルに一致するように、テンプレート波形の振幅をスケーリングする必要がある。生の信号波形をテンプレート波形として用いる手法では、このような位相合わせと利得合わせによるテンプレート波形の適応処理が、パルス的、周期的、または雑音的などの信号波形の特徴に特化し、恣意的で煩雑になる傾向がある。このためより広範囲な信号波形の認識を実現するには向いていない。
【０００３】
一方、特許文献１や本出願人の先の出願である特願２００１−２９２４３６号では、線形フィルタと隠れマルコフモデル（ＨＭＭ）の組み合わせにより信号波形の確率的生成モデルを構成し、この信号波形生成モデルをテンプレートモデルとして用いた混合信号分離手法が提案されている。この手法では、信号波形生成モデルにおけるＨＭＭのネットワークトポロジーを適切に設計することで、パルス的、周期的、または雑音的など様々な信号波形を処理することが可能になっている。また、テンプレートとして生の信号波形を用いるのではなく、信号波形生成モデルをテンプレートモデルとして用いることで、波形の特徴に特化せず、同一の枠組みで様々な信号波形の分離を実現している。
【０００４】
従来のモデル学習手段は、フィルタ係数の推定手段とＨＭＭパラメータの推定手段を、それぞれ独立した手段として分けて、これらを繰り返す構成となっている。ＡＲ−ＨＭＭモデルの学習手段を構築する際に問題となるのが、ＨＭＭのパラメータの一部（時間と共にどの状態のどの分布から観測値が出力されたかを示す状態遷移系列ｓ＿ｎ（ｔ）と混合正規分布の系列ｍ＿ｎ（ｔ））が観測できないということである。この為に、観測できないパラメータを含むモデル学習の汎用アルゴリズムであるＥＭアルゴリズムを適用することになる。
従来法のモデル学習手段では、ＨＭＭのパラメータ推定だけにＥＭアルゴリズムを適用している。これはＢａｕｍ−Ｗｅｌｃｈアルゴリズムと呼ばれるＨＭＭパラメータ推定の一般的なアルゴリズムである。これに対して、発明法のモデル学習手段では、ＨＭＭだけでなくフィルタ係数（ＡＲ係数）も含めたモデル全体に対してＥＭアルゴリズムを適用している。
フィルタ係数（ＡＲ係数）を推定する際にも、状態遷移系列と混合正規分布の系列が必要になるが、従来の学習手段では、フィルタ係数の推定にＥＭアルゴリズムを適用していないので、これらの系列を明示的に与える必要がある。この為に、従来の学習手段では、Ｂａｕｍ−ＷｅｌｃｈアルゴリズムによりＨＭＭパラメータを推定した後で、その新たに推定されたＨＭＭパラメータを用いたＶｉｔｅｒｂｉアルゴリズムを適用することで、ＨＭＭの学習に用いた駆動源信号に対する状態遷移系列を推定している。（従来法では、正規分布の混合数は１であるので、混合正規分布の系列は推定する必要が無い。）この推定された１つの状態遷移系列から、１つのフィルタ係数が確定する。
このように従来の学習手段では、フィルタ係数を推定する際に、本来、観測出来ない状態遷移系列を推定し、それを明示的に与える必要がある。また、この状態遷移系列は、１つの駆動源信号（処理をさかのぼれば、１つの学習用信号と言える）から１つ確定する。従って、複数の学習用信号がある場合、複数の状態遷移系列が得られてしまい、従って、複数のフィルタ係数が求まってしまうことになる。確率モデル（ＡＲ−ＨＭＭ）は１つのフィルタ係数（ＡＲ係数）しか持たない構造になっている。
以上のように、従来のモデル学習手段は、フィルタ係数推定手段とＨＭＭパラメータ推定手段を、それぞれ分けて独立した手段としており、そのフィルタ係数推定手段において、本来観測できない状態遷移系列を明示的に与えるために、複数の学習用信号波形を用いることができない。
【特許文献１】
特開２００３−００５７８５号公報
【０００５】
【発明が解決しようとする課題】
波形認識では、複数の学習用信号波形からテンプレートの波形生成モデルを学習する必要があるが、特許文献１に述べられている方法では、複数の学習用信号波形から生成モデルを学習することができない。
本発明は、係る問題点を解決して、異なる信号発生源から発生した複数信号の混合波形の認識を、同一の枠組みでパルス的、周期的、雑音的など広範囲な信号波形に対して実現することを目的としている。
【０００６】
【課題を解決するための手段】
本発明は、第１に、従来のモデル学習手段と比べて、このＥＭアルゴリズムをどの範囲で適用するかという点に特徴がある。本発明は、フィルタ係数推定とＨＭＭパラメータ推定の両方にＥＭアルゴリズムを適用しているので、その学習手段において観測できないパラメータを明示的に与える必要が無い。このため、複数の学習用信号波形を用いることができるようになる。
本発明は、第２に、信号波形の認識のために、線形フィルタとＨＭＭで構成される確率モデルを用いることに特徴がある。本発明は、確率モデルに基づいた学習手段および認識手段の構成に特徴がある。
本発明の波形認識方法及び装置、並びにプログラムは、テンプレートモデルを用いることによって、観測信号波形を特定して認識を行う。テンプレートモデルとして隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせにより信号発生源が本来持っている変動要因を確率的な要素としてモデリングする波形の確率モデルを用いる。この変動要因の振る舞いを学習するためにそれぞれ１つの信号発生源から得られた複数の学習用信号を用いて、フィルタ係数推定とＨＭＭパラメータ推定の両方にＥＭアルゴリズムを適用して異なる信号発生源に対応する異なる前記テンプレートモデルの複数個をそれぞれ学習し、それぞれのテンプレートモデルパラメータを求めて、これをデータベースに記憶する。データベースに蓄積されたテンプレートモデルパラメータを読み込み、観測信号波形に対する各テンプレートモデルの尤度を計算する。その計算した尤度のなかで最大尤度を求め、この最大尤度を与えるテンプレートモデルを選択することで観測信号波形の認識をする。
【０００７】
隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせによる信号波形生成モデルを、複数の学習用信号波形から学習することを可能にするため、平均尤度最大化基準に則った学習アルゴリズムであるＥｘｐｅｃｔａｔｉｏｎＭａｘｉｍｉｚａｔｉｏｎ（ＥＭ）アルゴリズムを用いる。
隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせによる信号波形生成モデルを、認識のテンプレートモデルとして採用することで、パルス的、周期的、雑音的など様々な信号波形の認識を可能にする。また、このモデルは一種の確率モデルであるので、観測信号波形とモデルの類似度は尤度を計算することで求められる。信号波形の認識は最大尤度を与えるモデルを選択することにより実現される。
観測信号波形とテンプレートモデルの尤度計算に、特許文献１や特願２００１−２９２４３６号に述べられている利得適応型ＡＲ−ＨＭＭ分解法を用いることで、複数信号の混合波形の認識が実現される。
【０００８】
【発明の実施の形態】
以下に、本発明の実施の形態について、詳細に説明する。
信号波形を認識する際には、その信号のテンプレート（見本）モデルが必要になる。本発明で用いているテンプレートモデルの構成について、環境音を例に挙げながら説明する。環境音の認識を考える場合、例えば、「金属を叩く音」を認識するには、「金属」という音源材質の同定だけでなく、「叩く」という動作に関連する特徴の分類も含まれる。これを実現するための手掛かりとして、次のような観測信号波形との対応関係を考える。「金属」という材質やその形状が主な要因となって減衰振動波形が決まり、「叩く」という動作がパルス波形となって現れると考える。また別の例として、「目覚し時計のベル音」は、ベルが金属であれば、「金属を繰り返し叩く音」であるので、ベルの材質や形状が個々の減衰振動に現れ、その動作が周期的波形となって現れると考える。このように、環境音の認識においては、音源の材質や形状という意味での「何の音か？」に加え、波形がパルス的、反復的（周期的）または雑音的であるなどのように「どういうパターンで発生したか？」も重要な情報であると言える。
【０００９】
ある材質の音源が他の物（駆動源）と接触して生じる環境音に対して、１）音源材質に関する特徴が主にスペクトル包絡に反映され、２）音源の駆動過程が波形概観の変化パターン（位相的情報）に反映されるという対応関係を考える。そして、環境音の認識を実現するには、これらスペクトル包絡と位相的情報の両方を音響的特徴として扱う必要がある。これより、音響モデルは波形レベルで構築するのが妥当であると考える。しかし、ここで問題となるのは、例えば、コインを床に落した場合、その衝突の生起するタイミングがコインを落すたびに異なるということである。つまり、多くの環境音の駆動過程は非定常であるため、パルス的、反復的、雑音的など波形の概観（変化パターン）での識別は可能であるが、その波形は様々に変化し得る。
【００１０】
このような非定常波形をモデリングするために、本発明は、音源材質に関する部分と非定常な駆動過程を分離し、それぞれに線形フィルタとＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ（ＨＭＭ）を用いる。更に、線形フィルタは時不変とし、自己回帰（Ａｕｔｏ−Ｒｅｇｒｅｓｓｉｖｅ）過程で表されると仮定する。以後、この波形モデルをＡＲ−ＨＭＭと呼ぶ。図１から図３にＡＲ−ＨＭＭの例を示す。図１はＨＭＭがｌｅｆｔ−ｔｏ−ｒｉｇｈｔモデルになっているため、パルス的波形のモデルとして用いることができる。また、図２はＨＭＭの状態がリング状に接続され、更に遷移方向を一方向に限定しているので、反復的（周期的）波形のモデルとして用いられる。このモデルにおいて、反復的と周期的を区別する場合は、観測信号波形に対するＨＭＭの状態遷移系列を利用すればよい。図３は、ＥｒｇｏｄｉｃＨＭＭを用いているため、雑音的な波形のモデルとして用いる。以上のように、ＡＲ−ＨＭＭは波形の変化パターンをＨＭＭのネットワークトポロジーとして表現する。これらの例では駆動源の状態数を３としているが、駆動源ＨＭＭの状態数や線形フィルタの次数などは、信号波形に適したものを選ぶ必要がある。一方、より複雑な音源として複数音源を混合して生成された環境音を扱う場合、特許文献１や特願２００１−２９２４３６号にあるように、個々の音源に対応するＡＲ−ＨＭＭの出力を加えあわせた混合音源モデルを用いる方法などが考えられる。
【００１１】
本発明者らは、ＡＲ−ＨＭＭのパラメータ推定法について、特許文献１などで既に提案している。しかし、これは信号波形分析を目的としており、１つの学習用信号波形からモデルパラメータを推定する手法であった。従って、認識で用いる音響モデルのように、複数の学習用信号波形からモデルパラメータを学習する用途には向いていない。以下では、ＥｘｐｅｃｔａｔｉｏｎＭａｘｉｍｉｚａｔｉｏｎ（ＥＭ）アルゴリズムに基づいて、複数の学習用信号波形（勿論、単一の学習用信号波形からの学習も可能であるが）を用いたＡＲ−ＨＭＭの学習アルゴリズムを以下に述べる。ＥＭアルゴリズムは、観測できないパラメータがある状態で、モデルの学習を可能とする汎用的なアルゴリズムであり、本発明は、このアルゴリズムをＡＲ−ＨＭＭの学習問題へ適用するものである。以下にあるＡＲ−ＨＭＭ学習の説明の中で、ＥステップがＥｘｐｅｃｔａｔｉｏｎつまり尤度の平均を取る操作、ＭステップがＭａｘｉｍｉｚａｔｉｏｎつまり最大化操作である。つまり、平均尤度の最大化をしている。
【００１２】
（ＡＲ−ＨＭＭの学習アルゴリズム）
ある信号（環境音の例では、１つの音源）について用意したＮ個の学習用信号波形を、
【数１】

で表す。ＡＲ係数を
【数２】

とすると、ＨＭＭの出力である駆動源信号波形ｅ＿ｎ（ｔ）は次式で表される。
【数３】

ＨＭＭの状態ｓの出力分布ｏ＿ｓ（ｅ）は、次式のように混合数Ｍの混合正規分布とする。
【数４】

ここで、ＨＭＭの初期確率をπ＿ｓ、状態遷移確率をｑ＿ｓ１，ｓ２、そしてＡＲ−ＨＭＭの全パラメータを
【数５】

で表す。学習用信号波形ｘ＿ｎ（ｔ）、状態遷移系列ｓ＿ｎ（ｔ）そして混合正規分布の系列ｍ＿ｎ（ｔ）が与えられたときのモデルパラメータθの尤度Ｌ（θ）は次式で表される。
【数６】

ここで、ｓ＿ｎ，ｍ＿ｎは隠れ変数であるので、不完全データｘ＿ｎからモデルパラメータを求めることになるが、これはＥＭアルゴリズムを用いて以下の手順で推定することができる。
【００１３】
（Ｅステップ）
現在のモデルパラメータθを用いて隠れ変数ｓ＿ｎ，ｍ＿ｎの確率を表し、更新モデルパラメータｑの対数尤度ｌｏｇ（Ｌ（ｑ））の隠れ変数に関する期待値Ｑ（ｑ｜θ）を求める。これは等価的に次式により求められる。
【数７】

但し、γ＿ｎ（ｔ，ｉ，ｊ，ｍ）は状態ｉの混合正規分布ｍがｅ＿ｎ（ｔ）を出力して、状態ｊに遷移する確率を表す。これはｅ＿ｎ（ｔ）に対してＦｏｒｗａｒｄ−Ｂａｃｋｗａｒｄアルゴリズムを適用して得られるα、βを用いて、次式により求められる。
【数８】

【００１４】
（Ｍステップ）
Ｑ（ｑ｜θ）をｑに関して最大化する。ＨＭＭパラメータの更新式については、ＨＭＭの出力がｘ＿ｎ（ｔ）ではなくｅ＿ｎ（ｔ）であることに注意する以外はＢａｕｍ−Ｗｅｌｃｈのアルゴリズムと同じなので、ここでは省略する。一方、更新ＡＲ係数Ａ（ｋ）は、
【数９】

の解として与えられ、具体的には次式のように表される。
【数１０】

【数１１】

【数１２】

ここで、
【数１３】

【数１４】

である。
更新パラメータｑをθと見直して、以上のステップを尤度が収束するまで繰り返す。
【００１５】
以上が、図４の１０に記しているＥＭアルゴリズムに基づいたモデル学習手段である。アルゴリズムの流れをまとめると図７に例示した通り次のようになる。
１．初期パラメータθを用意する。
２．ＡＲ係数の現推定値を用いて（３）式によりＨＭＭの出力（駆動源信号波形）ｅ＿ｎ（ｔ）を求める。
３．Ｆｏｒｗａｒｄ−ＢａｃｋｗａｒｄアルゴリズムによりＦｏｒｗａｒｄ係数αとＢａｃｋｗａｒｄ係数βを求める。
４．（８）式により状態間の遷移確率γを求める。
５．Ｂａｕｍ−ＷｅｌｃｈアルゴリズムによりＨＭＭパラメータを更新する。
６．（１０）式から（１４）式を用いてＡＲ係数を更新する。
７．新たに推定したパラメータｑの学習サンプルに対する尤度が収束していれば終了、そうでなければ２から繰り返す。
上記手続きにより学習したパラメータθを、テンプレートモデルデータベース１１に記憶する。この学習したパラメータは信号毎（環境音の例では音源毎）に学習し、そのパラメータをデータベース１１に記憶しておく。認識時には、図６に示すように、データベースから読み込まれる。
【００１６】
（信号波形の認識）
図４〜図６は本発明の波形学習装置および認識装置を例示する図であり、図４に例示の波形学習装置によりテンプレートモデルのデータベースを作成し、このデータベースを参照して、図６に例示の認識装置が観測信号の波形を認識する。図５は、図６に例示のモデルの尤度計算手段の詳細を示す図である。
複数の学習用信号波形からテンプレートモデルを学習するには、図４に示したように、ＥＭアルゴリズムを用いた平均尤度最大化基準に基づくモデルパラメータの繰り返し学習をするモデル学習手段１０、そして学習パラメータを記憶しておくテンプレートモデルデータベース１１からなる波形学習装置を用いる。
【００１７】
このモデル学習手段１０には、モデル構造と共に複数の学習用信号波形が入力される。このモデル構造としては、図１から図３に例示したモデル構造を用いることができるが、それ以外のものも用いることができる。一般的には、状態数が３つだけではなく、多い場合もあるし、ＨＭＭのネットワーク構造もこの３種類だけとは限らない。要は、モデル化しようとしている信号発生源に一番適した構造を、設計するということである。モデル学習の最初に、このモデル構造を選択する必要がある。
【００１８】
続いて、同じ発生源から得られた複数の信号波形を用いて、設計した構造のモデルパラメータを推定することになる。
図１から図３は、駆動源ＨＭＭの出力が線形フィルタを通ることにより、信号が生成されるという信号生成過程のモデルを例示している。モデルの学習とは、１つの信号発生源から得られた複数の信号をもとに、その信号を生成する尤もらしいモデルパラメータを推定するということに相当する。図１から図３にある矢印の向きを逆に進んで、複数の学習用信号波形から、モデルパラメータを推定することができる。モデルパラメータを推定するのに、たった１つの学習用信号波形では、推定精度があまりにも悪すぎるので、出来るだけ多くの学習用信号波形を収集することが、モデルの精度を上げるために必要となる。モデル精度が上がれば、必然的に認識精度も上がることになる。
【００１９】
このように、１つの信号発生源のモデルを学習するために、その発生源から得られた複数の学習用信号波形を用いる。モデルの学習は信号発生源毎に行うことになる。例えば、環境音として、ある木片を叩く音を仮定すると、その木片を何度も叩いてその都度得られる音を録音して、同じ音源（木片）から複数の学習用の音を収集する。続いて、この木片を叩く音をモデリングするのに、図１から図３に例示したようなモデルの中のどのタイプのモデルを使うかを考える。木片を叩く場合、その音の波形はパルス的になるので、図１に示すＬｅｆｔｏ−ｔｏ−Ｒｉｇｈｔ型のモデルを選択するのが適切である。そして、先ほど述べた複数の学習用の音と選択したモデルを使って、モデル学習手段によりパラメータ（フィルタ係数およびＨＭＭパラメータ）を推定する。これで、木片を叩く音のモデルが出来あがり、得られたパラメータはデータベースに記憶してく。
【００２０】
もし、木片を叩く音とは別に、金属を叩く音のモデルを作る場合は、その金属を何回か叩いて複数の学習用の音を収録し、モデルタイプを選択し、学習手段でパラメータを推定し、そのパラメータをデータベースに記憶する、という同じ作業を繰り返すことになる。この様に、テンプレートモデルは、信号発生源毎に、それぞれで行うことになる。
一般的に、信号発生源は幾つかの変動要因を含んでいる。従って、同じ発生源から得られた信号でも、観測するたびに、波形は異なることになる。認識を行おうとした場合、この点が問題となるので、本発明は、信号波形の確率モデルを用いることで、発生源が本来持っている変動要因を確率的な要素としてモデリングする。モデルの学習では、この変動要因の振る舞いを学習するために、１つの発生源から得られた複数の学習用信号を用いる。
【００２１】
次に、信号波形の認識手段について説明する。観測信号波形の認識を行うには図６に示してあるように、図４に例示の波形学習装置によりデータベースに蓄積されたテンプレートモデルを読み込み、観測信号波形に対する各テンプレートモデルの尤度を計算する処理手段１４と、その計算した尤度のなかで最大尤度を求める比較器１５からなる。観測信号波形に対するテンプレートモデルの尤度計算手段をより詳しく記したのが図５である。観測信号波形は、逆フィルタリング手段１２によって、テンプレートモデルのＡＲ係数を用いて逆フィルタリングされる。この逆フィルタリング処理により、観測信号波形はＨＭＭの出力である駆動源信号波形に変換されるので、この駆動源信号波形から駆動源ＨＭＭの尤度を尤度計算手段１３において計算することができる。ここで算出された尤度が観測信号波形に対するテンプレートモデルの尤度となる。観測信号波形が１つの信号発生源（環境音の例では１つの音源）から生じ、かつ振幅レベルの変動がない場合は、尤度計算に通常のＶｉｔｅｒｂｉアルゴリズムを用いることができる。一方、振幅レベルの変動がある場合や、同時に、異なる信号発生源（環境音の例では異なる複数音源）から発生した複数の信号が観測信号波形に混合している場合は、特許文献１や特願２００１−２９２４３６号に述べられている利得適応型ＡＲ−ＨＭＭ分解法を用いることで、利得変動混合テンプレートモデルの尤度を計算することができる。
【００２２】
このように、信号波形の認識は観測信号波形ｘ（ｔ）に対するテンプレートモデルの尤度を計算し、最大尤度を与えるモデルを選択することで実現する（図６）。テンプレートモデルの尤度計算は次のように行う。はじめに、（２）式のＡＲ係数を用いて観測信号波形ｘ（ｔ）を逆フィルタリングする（（１５）式）。これにより観測信号波形はＨＭＭの駆動源信号波形ｅ（ｔ）に変換される。
【数１５】

【００２３】
次に、求められた駆動信号波形ｅ（ｔ）に対する駆動源ＨＭＭの尤度をＶｉｔｅｒｂｉアルゴリズムにより求める。観測信号波形の利得変動に対するテンプレートモデルの利得適応処理を含める場合、または複数混合信号を認識する場合は、特願２００１−２９２４３６号に述べられている手法を用いる。このとき得られる尤度が、モデルθ＿ｉの観測信号に対する尤度Ｌ（θ＿ｉ｜ｘ）となる。
最終的な認識結果は、データベースに登録されている全てのテンプレートモデルを用いて上記手順に従い尤度を求め、その中で最大尤度を与えるテンプレートモデルを認識結果として出力する（（１６）式）。
【数１６】

【００２４】
【実施例】
【表１】

【表２】

実験に用いた環境音は、技術研究組合新情報処理開発機構（ＲＷＣＰ）により作成された実環境音響データベースに収録されているドライソースの音源データを用いた。このデータベースは、音源の位置や発生方法などに変化を持たせながら、一種類の音源について１００サンプルを基準として収録している。ラベリングは、パワーによる自動的な切り出し処理の後、目視による修正を加えることで行った。
音響モデルを作成するにあたって、図１に示した３種類のＡＲ−ＨＭＭの中から、各音源の特徴に適合したタイプのモデルを選択した。実験に用いた５９種類の音源を、ＡＲ−ＨＭＭのタイプ毎に分類した結果を表１に示す。表中、（１）はｌｅｆｔ−ｔｏ−ｒｉｇｈｔモデル、（２）はリング状モデル、（３）はＥｒｇｏｄｉｃモデルを示す。この実験では、複数音源を含む音源、材質が同じであるが形状が大きく異なる音源、電子音源系音源は除いた。全てのＡＲ−ＨＭＭで、予測次数（２４）、状態数（６）、混合数（２）とした。（但し、このモデル構成は十分な検討を行った上での選択ではない。）学習データは、各音源サンプルの中から偶数番のデータを用いた。
【００２５】
認識実験で用いるテストデータは、全音源サンプルの奇数番のデータ（２７８７サンプル）を用いた。認識は以下の手順で行う。各モデルにおいて、テストデータを（１５）式によりＨＭＭの出力系列に変換し、それに対してＶｉｔｅｒｂｉアルゴリズムを適用して最大尤度を求める。全モデルの中で、最も大きな尤度を与えるモデルを最終的な認識結果とする。またこの実験では、ＡＲ−ＨＭＭの各タイプに属するサンプルとモデルだけを用いる認識実験と、全サンプルに対して全モデルを用いる認識実験の両方を行った。
【００２６】
認識結果を表２に示す。ＡＲ−ＨＭＭのタイプ別に認識した実験の合計の認識率は８５．０［％］であった。これに対して、タイプの区別なく全モデルを用いた条件での認識率は８０．９［％］となり、その劣化が約４［％］に留まる結果となった。各カテゴリ間の認識結果にバラツキが目立つものの、波形の変化パターンをＨＭＭのネットワークトポロジーとして表現するＡＲ−ＨＭＭを環境音モデルとして用いることで、波形変化パターンの分類がある程度正しく行われることがわかる。
【００２７】
【発明の効果】
線形フィルタと隠れマルコフモデルの組み合わせで構成される確率的な信号波形生成モデルを、波形認識のテンプレートモデルとして採用することで、パルス的、周期的、雑音的など多様な波形を示す信号波形の認識を同一の枠組みで実現できる。
テンプレートモデルの学習手段として、ＥＭアルゴリズムを用いたモデルパラメータの学習手法を構築したことにより、認識のテンプレートモデルの構築に必要な複数の学習用信号波形からモデルの作成が可能になる。
線形フィルタと隠れマルコフモデルで構成されるか確率モデルをテンプレートモデルとして採用することで、認識手続きは、観測信号波形と各テンプレートモデルの尤度計算および最大尤度モデルの選択で構成されるなど、認識アルゴリズムが簡単になる。また、尤度計算に特許文献１や特願２００１−２９２４３６号に述べられている利得適応型ＡＲ−ＨＭＭ分解法を用いることで、利得変動信号波形や複数信号の混合波形などの認識も可能となる。
【図面の簡単な説明】
【図１】本発明で用いるパルス的信号波形のテンプレートモデルの例である。
【図２】本発明で用いる周期（反復）的信号波形のテンプレートモデルの例である。
【図３】本発明で用いる雑音的信号波形のテンプレートモデルの例である。
【図４】本発明の波形学習装置である。
【図５】モデル尤度計算の手続きを詳細に示した図である。
【図６】本発明の認識装置である。
【図７】図４に例示したモデル学習手段のアルゴリズムの流れをまとめた図である。
【符号の説明】
１０テンプレートモデルの学習手段
１１テンプレートモデルのデータベース
１２テンプレートモデルのＡＲ係数による逆フィルタリング手段
１３駆動源信号と駆動源ＨＭＭの尤度計算処理手段
１４観測信号波形とデータベースに登録されているテンプレートモデルの尤度計算手段
１５最大尤度モデルの選択を行う比較器

Claims

テンプレートモデルを用いることによって、観測信号波形を特定して認識を行う波形認識方法において、
前記テンプレートモデルとして隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせにより信号発生源が本来持っている変動要因を確率的な要素としてモデリングする波形の確率モデルを用い、
この変動要因の振る舞いを学習するためにそれぞれ１つの信号発生源から得られた複数の学習用信号を用いて、フィルタ係数推定とＨＭＭパラメータ推定の両方にＥＭアルゴリズムを適用して異なる信号発生源に対応する異なる前記テンプレートモデルの複数個をそれぞれ学習し、それぞれのテンプレートモデルパラメータを求めて、これをデータベースに記憶し、
前記データベースに蓄積されたテンプレートモデルパラメータを読み込み、観測信号波形に対する各テンプレートモデルの尤度を計算し、
その計算した尤度のなかで最大尤度を求め、
この最大尤度を与えるテンプレートモデルを選択することで観測信号波形の認識をする波形認識方法。
テンプレートモデルを用いることによって、信号発生源からの観測信号波形を特定して認識を行う波形認識装置において、
前記テンプレートモデルとして隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせにより信号発生源が本来持っている変動要因を確率的な要素としてモデリングする波形の確率モデルを用い、
この変動要因の振る舞いを学習するためにそれぞれ１つの信号発生源から得られた複数の学習用信号を用いて、フィルタ係数推定とＨＭＭパラメータ推定の両方にＥＭアルゴリズムを適用して異なる信号発生源に対応する異なる前記テンプレートモデルの複数個をそれぞれ学習し、それぞれのテンプレートモデルパラメータを求めるモデル学習手段と、
前記複数のテンプレートモデルパラメータを記憶するデータベースと、
前記データベースに蓄積されたテンプレートモデルパラメータを読み込み、観測信号波形に対する各テンプレートモデルの尤度を計算する処理手段と、
その計算した尤度のなかで最大尤度を求める比較器と、
最大尤度を与えるテンプレートモデルを選択することで観測信号波形の認識をする波形認識装置。
前記尤度を計算する処理手段は、観測信号波形をＨＭＭの出力である駆動源信号波形に変換する逆フィルタリング手段と、この駆動源信号波形から駆動源ＨＭＭの尤度を計算する尤度計算手段とから成り、この計算された尤度が観測信号波形に対するテンプレートモデルの尤度となる請求項２に記載の波形認識装置。
前記モデル学習手段は、複数の学習用信号波形から平均尤度最大化基準に従って確率モデルのパラメータを推定する請求項２に記載の波形認識装置。
テンプレートモデルを用いることによって、観測信号波形を特定して認識を行う波形認識プログラムにおいて、
前記テンプレートモデルとして隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせにより信号発生源が本来持っている変動要因を確率的な要素としてモデリングする波形の確率モデルを用い、
この変動要因の振る舞いを学習するためにそれぞれ１つの信号発生源から得られた複数の学習用信号を用いて、フィルタ係数推定とＨＭＭパラメータ推定の両方にＥＭアルゴリズムを適用して異なる信号発生源に対応する異なる前記テンプレートモデルの複数個をそれぞれ学習し、それぞれのテンプレートモデルパラメータを求めて、これをデータベースに記憶し、
前記データベースに蓄積されたテンプレートモデルパラメータを読み込み、観測信号波形に対する各テンプレートモデルの尤度を計算し、
その計算した尤度のなかで最大尤度を求め、
この最大尤度を与えるテンプレートモデルを選択することで観測信号波形の認識をする、
各手順をコンピュータに実行させる波形認識プログラム。