JP3541224B2

JP3541224B2 - 音源の分離方法および分離装置

Info

Publication number: JP3541224B2
Application number: JP2001193648A
Authority: JP
Inventors: 晃佐宗
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2001-06-26
Filing date: 2001-06-26
Publication date: 2004-07-07
Anticipated expiration: 2021-06-26
Also published as: JP2003005785A

Description

【０００１】
【発明の属する技術分野】
本発明は、さまざまな環境音や複数音声が同時に発生している音響環境において、予めその環境音や音声のサンプル音響波形からテンプレートモデルデータベースを作成しておき、得られた混合音源音響波形（以後、混合波形）から、そのテンプレートモデルに基づき所望の音源の音響波形を分離・同定するシステムである。
【０００２】
【従来技術】
実環境下でのロバストな音声処理技術の開発においては、さまざまな環境音や複数音声から所望の音声を分離する技術が必要不可欠である。例えば、カーナビゲーションシステムのような車内での音声認識率の向上や、携帯電話などで一般的に用いられている音声の生成過程に則った圧縮方式による圧縮音声の品質向上、また、最近普及しつつある家庭内ロボットのための音環境理解（例えば、ロボットに呼びかけている複数話者の分離同定、また環境音の分離同定による周囲の状況把握など）に応用が見込まれる技術である。また、音楽音響信号処理への応用も考えられる。例えば、各楽器の音響信号の分離同定、基本周波数の分離抽出による自動採譜などである。
【０００３】
従来、テンプレート（見本）波形と入力混合波形の照合により分離同を行う手法が提案されている。このようなアプローチの問題点の１つに、テンプレート波形の基本周波数および位相と、入力混合波形のそれが通常一致しないということである。このため、分離同定を実現するためには、テンプレート波形の基本周波数および位相を入力混合波形のそれに時々刻々と合わせこむ必要がある。従来の位相合わせ処理としては、例えば、特開平１０−２２９３３６号公報に示されている技術がる。この技術は以下のような特徴を有する。
【０００４】
▲１▼入力混合波形に対して周波数解析を行い、混合されている全ての基本周波数成分を抽出する。
▲２▼テンプレート波形も狭帯域バンドパスフィルタに通して基本周波数成分を抽出する。
▲３▼両者の位相を比較して、位相差に対応する時間だけテンプレート波形を遅延させる
などのアルゴリズムが提案されている。
【０００５】
しかし、このような手法では▲１▼の処理で混合波形から基本周波数成分が正確に抽出されることが必要であるが、一般的に十分な精度で混合されている基本周波数成分の分離抽出を実現する手法はまだ確立されていない。さらに、この手法をもとにした位相合わせ処理の精度も十分ではなく、最終的な音源の分離同定精度に悪影響を及ぼすことになる。また▲３▼のテンプレート波形遅延処理において、テンプレート波形から１周期分の波形の切り出しや、その切り出し波形を入力混合波形の位相に合わせて並べる際に、切り出し誤差や周期長が異なることによる波形誤差が発生する。これが、分離音源音響波形（以後、分離波形という）の品質を劣化させる要因となっていた。
【０００６】
【発明が解決しようとする課題】
本発明の目的は、上記従来技術の欠点に鑑み、テンプレートモデルをその変形操作によっても入力混合波形と比べて誤差の少ない照合波形を生成できるようにすると共に、事前に音源の特徴の抽出を必要としない位相合わせ処理および波形分離処理を行うことができるようにする音源の分離方法および分離装置を提供することである。
【０００７】
【課題を解決するための手段】
本発明は上記目的を達成するために以下の手段を採用する。
（１）音源の分離方法において、入力された混合音源音響波形に対し隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせによる音源波形の確率モデルを求め、この確率モデルを基に前記入力波形に対し尤度最大化基準に基づきテンプレートモデルを作成し、このテンプレートモデルを照合モデルとして入力された混合音源音響波形を分離する手順からなることを特徴とする。
【０００８】
（２）音源の分離装置において、入力された混合音源音響波形に対し隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせによる音源波形の確率モデルを求め、この確率モデルを基に前記入力波形に対し尤度最大化基準に基づきテンプレートモデルを作成し、このテンプレートモデルを照合モデルとして入力された混合音源音響波形を分離する手段を備えたことを特徴とする。
（３）音源の分離方法において、入力された混合音源音響波形に対し隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせによる音源波形の確率モデルを求め、この確率モデルを基に前記入力波形に対し尤度最大化基準に基づきテンプレートモデルを作成し、前記混合波形に対するテンプレートモデルの位相合わせを混合ＨＭＭの状態遷移を尤度最大化基準に従って決定することによって求め、分離波形を得る手順からなることを特徴とする。
【０００９】
（４）音源の分離装置において、入力された混合音源音響波形に対し隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせによる音源波形の確率モデルを求め、この確率モデルを基に前記入力波形に対し尤度最大化基準に基づきテンプレートモデルを作成し、前記混合波形に対するテンプレートモデルの位相合わせを混合ＨＭＭの状態遷移を尤度最大化基準に従って決定することによって求め、分離波形を得る手段を備えたことを特徴とする。
（５）音源の分離方法において、隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせによる音源波形の確率モデルをテンプレートとして、混合音源音響波形をそれぞれの音響波形に分離する手順からなることを特徴とする。
【００１０】
（６）音源の分離装置において、隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせによる音源波形の確率モデルをテンプレートとして、混合音源音響波形をそれぞれの音響波形に分離する手段を備えたことを特徴とする。
（７）音源の分離方法において、隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせによる音源波形の確率モデルをテンプレートとし、このテンプレートモデルを混合したモデルを基準として、尤度最大化基準に従って混合ＨＭＭの状態遷移を決定し、その遷移において得られる残差を尤度最大化基準に従って各ＨＭＭ出力値に分解し、混合テンプレートモデルの入力混合波形に対する位相合わせを行う手順からなることを特徴とする。
【００１１】
（８）音源の分離装置において、隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせによる音源波形の確率モデルをテンプレートとし、このテンプレートモデルを混合したモデルを基準として、尤度最大化基準に従って混合ＨＭＭの状態遷移を決定し、その遷移において得られる残差を尤度最大化基準に従って各ＨＭＭ出力値に分解し、混合テンプレートモデルの入力混合波形に対する位相合わせを行う手段を備えたことを特徴とする。
【発明の実施の形態】
【００１２】
以下、本発明の実施の形態について詳細に説明する。
観測された音響的現象から、それが何というカテゴリの音なのかを当てるためには、各々の音を発話したとき、その音響的現象がどの程度生起しやすいかを、確率的にモデル化しておく必要がある。
【００１３】
一般的には、この目的には、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）が用いられるが、ＨＭＭは、区分定常過程しか表現することができず、音の過渡部分の表現に難がある。また、音の性質は、その音の先行音や後続音に大きく影響を受けるが、ＨＭＭではこのような環境依存的な音の性質を表現することが難しく、環境毎に異なるモデルを複数持つ必要があるなどの問題もある。
このような問題を解決するために、本発明はモデルの振る舞いを過去の出力に依存して決めるあらたなモデルを提案する。過去の出力に依存して、モデルの遷移確率と出力確率が決まるため、過渡部の表現に優れている。
【００１４】
以下、本発明について、図を参照しながら詳細に説明する。
まず、上記「テンプレートモデルをその変形操作によっても入力混合波形と比べて誤差の少ない照合波形を生成できるようにする」目的は図１に示すテンプレートモデルを用いることで解決される。
【００１５】
このテンプレートモデルは、駆動源モデルと調音モデルが分離されており、駆動源モデルとして隠れマルコフモデルを、調音モデルには線形フィルタを用いる。駆動源モデルとは、例えば、音声の場合は声帯振動による駆動源に相当し、管楽器などではマウスピースによる駆動源に相当する。周期的に特定の波形が繰り返される駆動源は、その周期性を表すために各状態がリング状につながれたＨＭＭを用いる。各状態からの遷移パスは自分自身への遷移パスと隣接する状態への遷移パスの２つをもつ。このＨＭＭの状態を１周遷移することが駆動源の１周期に相当する。また、各状態の出力分布は単一の正規分布とする。周期性を仮定できない駆動源の場合は、エルゴディックＨＭＭを用いるなど、その駆動源の特徴を反映したトポロジィーのＨＭＭを用いる。調音モデルとは駆動源に音色を与える部分で、例えば、音声の場合は調音器官に相当し、管楽器では管に相当する。調音モデルとしては一般的にＡＲＭＡ（Ａｕｔｏ−ＲｅｇｒｅｓｓｉｖｅＭｏｖｉｎｇＡｖｅｒａｇｅ）モデルを用いるが、以下ではＡＲ（Ａｕｔｏ−Ｒｅｇｒｅｓｓｉｖｅ）モデルを用いる。
【００１６】
図１は本発明によるテンプレートモデルを表す図である。
テンプレートモデルの作成について以下に説明する。
テンプレートモデル作成に用いる音響波形のＮ個のサンプルを
【式１】

で表す。
調音モデルのＡＲ過程の次数をｐ、ＡＲ係数ベクトルを
【式２】

で表す。
【００１７】
駆動源モデルのＨＭＭはＭ個の状態を持ち、各状態に固有の番号（１，…，Ｍ）を識別子として割り振る。状態ｍの出力分布を期待値μ（ｍ）と分散σ^２（ｍ）で表す。また、状態ｎから状態ｍへの遷移確率をｂ（ｎ，ｍ）で表す。
時刻ｔにおけるＨＭＭの状態をｓ（ｔ）、駆動源をｅ（ｔ）で表す。このテンプレートモデルにおいて、駆動源ベクトル
【式３】

は、
期待値ベクトル
【式４】

、
【００１８】
共分散行列
【式５】

の多次元正規分布に従う確率変数ベクトルである。
以上のように、テンプレートモデルは、ＡＲ係数、ＨＭＭの状態数、出力分布、遷移確率をパラメータとして表現される。テンプレートモデルの作成は、図５に示すように、与えられた音源の音響波形サンプルに対して、尤度を最大化するようにテンプレートモデルのパラメータを推定することで行われる。
以下にテンプレートモデル作成の具体的な手順について説明する。
【００１９】
ａ１−１）駆動源の初期母数を
【式６】

のように設定し、ｉ＝０として以下の処理を実行する。
ａ１−２）ＡＲ係数ベクトルを
【式７】

により求める。ここで
【式８】

とする。
ａ１−３）予測残差ベクトルを
【式９】

により求める。
【００２０】
ａ１−４）予測残差の時系列
【式１０】

に対してＢａｕｍ−Ｗｅｌｃｈのアルゴリズムを用い、ＨＭＭの出力分布
【式１１】

および遷移確率
【式１２】

を求める。
ａ１−５）予測残差の時系列に対してＶｉｔｅｒｂｉのアルゴリズムを用い、求めたＨＭＭの尤度を最大にする状態遷移系列
【式１３】

を求める。
【００２１】
ａ１−６）ＨＭＭの出力分布と状態遷移系列を用いて、駆動源の期待値ベクトルおよび共分散行列を、
【式１４】

【式１５】

のように更新する。
ａ１−７）評価値
【式１６】

を求め、収束していれば終了し、収束していなければｉ←ｉ＋１として（ａ１−２）から繰り返す。
【００２２】
上記のテンプレートモデル作成アルゴリズム（ａ１）の補足
ＨＭＭの状態数とＡＲ過程の予測次数は、次式で定義されるＡＩＣなどを用いて決定することができる。
【式１７】

ここで、ＭはＨＭＭの状態数を表し、ｐはＡＲ過程の予測次数である。このＡＩＣが最小となるＭとｐをモデルとして採用する。
しかし、１６ｋＨｚでサンプリングされた音声を分離対象とする場合は、経験的に予測次数は１６〜２０、ＨＭＭの状態数は１０〜１６の間で適当に決定しても問題ない。
【００２３】
（ａ１−１）において、分散の初期値σ_０ ^２は実質的には任意係数である。例えばσ_０ ^２＝１としておく。
（ａ１−４）において、Ｂａｕｍ−Ｗｅｌｃｈのアルゴリズムを用いて予測残差の時系列に対するＨＭＭの学習を行う場合、以下の手順でＨＭＭの初期設定を行う。
ａ１−４−１）はじめてＨＭＭの学習を行う場合（ｉ＝０）は（ａ１−４−２）〜（ａ１−４−５）の処理を行い、そうでない場合（ｉ＞０）は前回に学習したＨＭＭを初期値として採用する。
ａ１−４−２）予測残差の時系列の自己相関より基本周期を求める。
ａ１−４−３）予測残差の時系列の１周期を更にＨＭＭの状態数分（Ｍ）の領域に等分割し、各周期の先頭の領域から順番にＨＭＭの１…Ｍの状態に対応付ける。
ａ１−４−４）ＨＭＭの各状態に対応する全ての領域の予測残差から、平均と分散を求め、これを初期出力分布とする。
ａ１−４−５）遷移確率は全て乱数で初期設定する。
【００２４】
（ａ１−５），（ａ１−６）の駆動源の母数の更新処理において、Ｖｉｔｅｒｂｉアルゴリズムにより得られた状態遷移系列に従って得られる期待値ベクトルと共分散行列の各要素は、状態が切り替わる位置で不連続に変化する。これがテンプレートモデルの精度を劣化する場合は、以下の代替手法を用いることで精度劣化を回避する。
ａ１−５−ａ）状態間の遷移確率γ（ｍ，ｎ，ｔ）を求める。γ（ｍ，ｎ，ｔ）はＨＭＭが

を出力して状態ｍから状態ｎへ遷移する確率を表す。γ（ｍ，ｎ，ｔ）の計算は公知のフォワードバックワードアルゴリズムを用いて計算する。
ａ１−６−ａ）時刻ｔにおける駆動源

の母数を改めて期待値ｍ（ｔ）と分散ν（ｔ）で表す。そして、次式のようにその母数を遷移確率γ（ｍ，ｎ，ｔ）で重み付けて求める。
【式１８】

これらを用いて、駆動源の期待値ベクトルおよび共分散行列を、
【式１９】

，

のように更新する。
【００２５】
前記「事前に音源の特徴の抽出を必要としない位相合わせ処理および波形分離処理を行う」目的については以下のように解決される。
隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）は、マルコフ連鎖の各状態に波形の出力確率を与えたもので、配列のパターン認識に非常に有効である。特定のモデルは多数の配列パターンを生成する。生成された個々の配列パターンには状態遷移確率と波形出力確率から計算される確率が付随している。一般に同じ配列が複数の経路から生成され得るので、それらを足し合わせたものが１つの配列に対する確率である。いま、隠れマルコフモデルを音声認識予測に適用することを考えると、音声認識に対してだけ高い確率を与えるようなモデルをみつけることが問題となる。これはトレーニングデータセットに学習アルゴリズムを適用し、隠れマルコフモデルのパラメータである状態遷移確率と波形出力確率を最適化することにより、また場合によってはモデルの長さも最適化することにより解くことができる。
【００２６】
いま、トレーニングの配列データが与えられたときに、これがモデルにどの程度適合するかは、それぞれの配列が同時に起る確率であるので最尤（ＭＬ：ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄ）法で評価する。
隠れマルコフモデルの学習アルゴリズムは次のような逐次的方法である。まず、適当な初期モデルを選ぶ。トレーニングデータセットの可能な経路を全て調べ、実際に起る状態遷移の頻度と波形出力の頻度をもとに、ＭＬの意味で遷移確率を更新して次のモデルとする。この手続きを更新がわずかになるまで繰り返す。隠れマルコフモデルは確率的な意味で作られたプロファイルと非常に近い関係にある。
一般的にＮ個の異なる音源が混合されている場合を想定すると、その混合波形はＮ個のテンプレートモデルを用いて図２に示すようにモデリングされる。この混合波形モデルにおいて、位相合わせ処理は、入力混合波形に最も似かよった照合波形を生成するように、駆動源ＨＭＭの状態遷移系列を決定することで行われる。
【００２７】
この問題はＨＭＭ分解法と類似しているが、ＨＭＭ分解法はＨＭＭの出力が直接加算（または相同の演算処理）された混合波形から各ＨＭＭの状態遷移系列を決定するのに対して、本手法は、ＨＭＭの出力が自己回帰（ＡＲ）過程を通った後加算された混合波形から各ＨＭＭの状態遷移系列を決定するという点が決定的に異なる。
【００２８】
図２は図１のテンプレートモデルを用いた混合波形のモデリング図である。図２において、Ｎ個のテンプレートモデルをΘ_ｌ（ｌ＝１，…，Ｎ）で表す。テンプレートモデルΘ_ｌの自己回帰（ＡＲ）過程の次数をＰｌ、自己回帰（ＡＲ）係数を
【式２０】

で表す。テンプレートモデルΘ_ｌのＨＭＭ駆動源モデルの状態数をＭｌ、状態ｍから状態ｎへの遷移確率をｂｌ（ｍ，ｎ）、状態ｍの出力分布を
【式２１】

で表す。また、ＨＭＭのＭｌ個の状態を集合Ｓｌで表す。入力混合波形のＴ個のサンプルを
【式２２】

で表す。
入力混合波形のＴ個のサンプルに対して、Ｎ個のテンプレートモデルの状態遷移系列を決定するには、縦軸に
【式２３】

の混合状態を並べ、初期混合状態からＴ回の遷移が起ることから、その混合状態を横軸方向に合計（Ｔ＋１）個並べたトレリスを考えることになる。
【００２９】
時刻ｔにおいて、テンプレートモデルΘ_ｌのＨＭＭの状態をＳｌ（ｔ）で表すと、混合状態はベクトル
【式２４】

で表される。位相合わせ処理は、先に述べたトレリス上で最大尤度を与える（Ｔ＋１）個のベクトル列
【式２５】

を求めることに他ならない。
しかし、通常のＨＭＭ分解法と異なる点は、各ＨＭＭの出力が自己回帰（ＡＲ）過程を通って加えられているので、時刻ｔの混合波形サンプルｙ（ｔ）は、各ＨＭＭの出力値だけでなく、各テンプレートモデルの出力サンプルの自己回帰成分が加えられている。従って、通常のＨＭＭ分解法と同様に状態遷移系列を決定するためには、混合波形サンプルｙ（ｔ）から各テンプレートモデルの自己回帰成分を取り除く必要がある。
【００３０】
混合波形サンプルｙ（ｔ）から各テンプレートモデルの自己回帰成分を取り除くには、時刻ｔの混合状態毎に、その状態に至る経路で得られた全テンプレートモデルの照合波形を記憶しておく必要がある。この照合波形を
【式２６】

で表す。これは、時刻ｔにおいて混合状態Ｓ_ｔに至る経路で得られたテンプレートモデルΘ_ｌの照合波形を表す。
【００３１】
混合状態Ｓ_ｔにおけるテンプレートモデルΘ_ｌの、時刻ｔにおける自己回帰成分は
【式２７】

で求められる。従って、時刻ｔの混合波形サンプルｙ（ｔ）から全テンプレートの自己回帰成分を引いた残差は、
【式２８】

で求められ、時刻ｔにおける各テンプレートモデルのＨＭＭ出力をｅ_ｌ（ｔ）で表すと、その残差は、
【式２９】

のように、全ＨＭＭ出力の総和に相当すると考えられる。
【００３２】
従って、この残差Ｅ（ｔ）に着目すれば、ＨＭＭ分解法と同様な手法で、テンプレートモデルの状態遷移系列を決定できるというのが、本手法の基本アイディアである。
以下に具体的な位相合わせおよび音源分離の手順について説明する。
時刻ｔにおいて混合状態Ｓ_ｔにいる確率をＰ_ｔ（Ｓ_ｔ）で表す。
混合状態の集合を
【式３０】

で表す。
ａ−２−１）初期確率は全ての組み合わせの混合状態
【式３１】

についてＰ_０（Ｓ_０）＝１とする。ｔ＝０として以下の処理を実行する。
【００３３】
ａ−２−２）混合状態
【式３２】

毎に次の処理を実行する。
ａ−２−２−１）混合状態Ｓ_ｔ＋１へ遷移する最大確率Ｐ_ｔ＋１（Ｓ_ｔ＋１）を、
【式３３】

により求める。
残差Ｅ（ｔ）は、式２７および式２８より求める。
【式３４】

は、混合状態Ｓ_ｔにおけるＥ（ｔ）の出力分布を表し、
【式３５】

の正規分布で与えられる。
【００３４】
【式３６】

は、混合状態Ｓ_ｔから混合状態Ｓ_ｔ＋１へ遷移する確率を表し、
【式３７】

で与えられる。
ａ−２−２−２）混合状態Ｓ_ｔ＋１における、各テンプレートモデルの照合波形を更新する。
時刻ｔにおける、各テンプレートモデルの照合波形のサンプル値
【式３８】

を求めるには、残差Ｅ（ｔ）をＨＭＭの出力値
【式３９】

に分解しなければならない。一方、混合状態Ｓ_ｔ＋１に対して混合状態Ｓ_ｔが最大確率Ｐ_ｔ＋１（Ｓ_ｔ＋１）を与えることは（ａ−２−２−１）の処理により求められている。従って、残差Ｅ（ｔ）を生成した時の各ＨＭＭの出力分布は
【式４０】

であるとわかる。
【００３５】
【式４１】
残差

と各ＨＭＭの出力分布が
【式４２】

である条件の下で、ＨＭＭの出力値
【式４３】

の生起する尤度
【式４４】

が最大になるように、残差Ｅ（ｔ）を分解することを考える。
【００３６】
ここで
【式４５】

は各ＨＭＭの出力値と出力分布の尤度を表す。またこの尤度の積を求めているのは、各ＨＭＭからの出力が互いに独立であることを意味する。この解
【式４６】

は、等価的に次の方程式を解くことで得られる。
【００３７】
【式４７】

（※ 式３１において、母数（μ，σ^２）からはＨＭＭの状態インデックス

を、そして残差（Ｅ）およびＨＭＭの出力値（ｅ）からはタイムインデックス

を省略した。）
式１１により求められる自己回帰成分
【式４８】

とＨＭＭの出力値ｅ_ｌ（ｔ）を用いて、各テンプレートモデルの照合波形のサンプル値
【式４９】

を、
【式５０】

より求める。
【００３８】
以上より、混合状態Ｓ_ｔ＋１における、各テンプレートモデルの照合波形は、
【式５１】

で与えられる。
ａ−２−３）ｔ＜Ｔ−１の場合は、ｔ←ｔ＋１として（ａ２−２）の処理を繰り返す。
ｔ＝Ｔ−１の場合は、次の処理を行う。
ａ−２−４）最終混合状態の中で最大尤度を与える最終混合状態を選択する。
【式５２】

ａ−２−５）最終混合状態

における各テンプレートモデルの照合波形を分離波形とする。
【００３９】
【実施例】
図７は本発明の分離装置の構成図である。
本発明の実施例の分離装置は、テンプレートモデルのデータベース作成手段と混合波形分離手段から成る。
テンプレートモデルのデータベース作成の実施例について図を用い詳細に説明する。
図７において、テンプレートモデルのデータベース作成手段は、調音モデル（線形フィルタ）による逆フィルタリング１０、ＨＭＭ駆動源モデルの作成手段１１、尤度最大化基準に基づいた調音モデルの作成手段１２、駆動源母数の作成手段１３、テンプレートモデルデータベース１４からなる。
【００４０】
テンプレートモデルのデータベースは、分離装置が使用される音環境における環境音のサンプルを用意し、それぞれの音響波形から生成したテンプレートモデルを蓄積することで構築する。
テンプレートモデルは、音源の駆動源と調音部を切り離し、それぞれＨＭＭと線形フィルタを用いたモデル構成とする。これにより、データベース中のテンプレートモデルを任意の基本周波数および位相の照合モデルに容易に再合成できる。テンプレートモデルの作成は、音源音響波形のサンプルに対して、尤度最大化基準に基づきパラメータを決定する。この尤度は、図５に示すように音響波形を線形フィルタで逆フィルタリングし得られた駆動源波形とＨＭＭの尤度として定義する。サンプル音響波形に対するＨＭＭと線形フィルタの尤度関数は非線形となるため、両者を同時に求めることはできない。
【００４１】
そこで、調音モデルによる逆フィルタリング１０により音響波形から駆動源波形を抽出し、ＨＭＭ駆動源モデルの作成手段１１によりＨＭＭのパラメータを推定および更新をする。そして、駆動源波形とＨＭＭパラメータを基に駆動源母数の作成手段１３により駆動源母数を生成し、その駆動源母数と音響波形を基に線形フィルタの作成手段１２により線形フィルタの再推定および更新をする。以上の処理を、ＨＭＭと線形フィルタの尤度が収束するまで繰り返し、テンプレートモデルを生成し、データベースに格納する。
【００４２】
図６は、音声波形のサンプルから抽出した駆動源波形（図中、上段）と４状態のＨＭＭから求められた状態遷移系列の例を示している。図中、同じ模様で網掛けされている部分が、ＨＭＭの１つの状態に対応する。ＨＭＭの状態がリング状に接続されていることから、駆動源波形の周期に同期して、４つあるＨＭＭの状態も順に周期的に遷移している。図中、中段と下段のグラフは、各状態の出力分布における期待値と分散を表している。このように、ＨＭＭ音源モデルは、状態遷移系列が定まると、駆動源波形を正規分布の時系列として表現する。本発明による音源分離処理は、混合波形に対して混合ＨＭＭの状態遷移を尤度最大化基準に従って求め、過去の分離波形による回帰成分を混合波形から取り除くことで得られる予測残差を、各ＨＭＭの出力分布（正規分布）に対し尤度最大化基準に従って分解することにより実現する。
【００４３】
次に、混合波形分離手段について説明する。
図７において、混合波形分離手段は、テンプレートモデルのデータベース１４、最大尤度で遷移する混合状態の決定手段１５、混合波形と尤度の記憶装置１６，１９、予測残差の各ＨＭＭ出力への分解手段１７、分離波形の算出手段１８より構成する。
音源分離処理は、混合波形の瞬時値ｙ（ｔ）の入力毎に再帰的に行われる。つまり、ある時刻（ｔ）までの各混合状態に至る過程で得られた分離波形およびその尤度が全て記憶装置１６に記憶されている。そして、瞬時値ｙ（ｔ）を出力して最大尤度で時刻（ｔ＋１）の混合状態に遷移してくる遷移元、つまり時刻（ｔ）における混合状態を手段１５により選択する。得られた予測残差を手段１７により、各ＨＭＭの出力値に分解し、手段１８により過去の回帰成分と加算することで、混合波形瞬時値ｙ（ｔ）を各音源の出力瞬時値に分解する。そして、その分離音源瞬時値と選択された時刻（ｔ）の混合状態に付随している過去の分離波形と共に尤度を記憶装置１９に記憶する。
【００４４】
この処理が時刻（ｔ＋１）における全ての混合状態について終了すると、記憶装置１９には、時刻（ｔ＋１）までの各混合状態に至る過程で得られた分離波形およびその尤度が全て記憶装置１９に記憶される。そして、新たに混合波形の瞬時値ｙ（ｔ＋１）が入力されると、記憶装置１９の内容を記憶装置１６に複写した後、最終時刻における混合波形の処理が終了するまで前記の処理を再帰的に繰り返す。最終時刻における処理の終了後、記憶装置１９に格納されている混合状態の中で最大尤度を与える混合状態を選択し、それに付随している分離波形を最終的な結果として出力し、全処理が完了する。
このように本発明は、尤度最大化基準だけを基に処理が進むので、事前に混合波形の各基本周波数成分や位相情報を抽出しておく必要がない。また、得られた状態遷移系列から、各音源に基本周波数および位相が得られる。
【００４５】
次に、単母音音声を用いた音源分離実験を紹介する。
１．使用音声データ
二人の男性話者（Ａ，Ｂ）が、話者Ａは単母音／ａ／を、そして話者Ｂは／ｉ／を、同レベルで２回発声した音声を用意する。音声はサンプリング周波数１６ｋＨｚ、１６ビットの線形量子化によりディジタル信号に変換した。
２．テンプレートモデルの作成
テンプレートモデルは共に、ＡＲ過程の次数は１６、ＨＭＭの状態数は１０とした。
それぞれの話者が２回発声した音声のうちの一方から、定常状態にある１５０ｍｓの波形を切り出し、プレエンファシス（係数０．９９）を施したあと、アルゴリズム（ａ−１）によりテンプレートモデルを作成した。
【００４６】
３．分離実験および結果
話者Ａ，Ｂがそれぞれ発声したもう一方の音声を加え合わせ、プレエンファシス（係数０．９９）を施し、混合音声を生成した。この混合波形と作成した２つのテンプレートモデルに対して、アルゴリズム（ａ−２）を施し、音源分離実験を行う。
【００４７】
図３は本発明の音源分離方法の実験結果例（分離波形）を示す図である。
図３には分離結果の波形を示し、同図（ａ）が混合波形、（ｂ）（ｄ）が混合前の音声波形／ａ／，／ｉ／、（ｃ）（ｅ）が混合波形から分離された音声波形／ａ／，／ｉ／である。（ｂ）に対する（ｃ）のＳＮＲは１１．９［ｄＢ］、（ｄ）に対する（ｅ）のＳＮＲは１１．７［ｄＢ］であった。
図３（ｂ）（ｄ）に対してアルゴリズム（ａ−１）を施して得られた期待値の時系列を、それぞれ図４（ａ）（ｃ）に示す。図４は本発明の音源分離方法の実験結果例（期待値の状態遷移）を示す図である。また図３（ａ）の混合波形に対してアルゴリズム（ａ−２）を施して得られた期待値の時系列を、それぞれ図４（ｂ）（ｄ）に示す。これよりアルゴリズム（ａ−２）は混合されている波形の位相を正しく抽出できていることがわかる。
【００４８】
【発明の効果】
本発明のテンプレートモデル作成の手順およびその手順を実行する装置によれば、ＨＭＭと線形フィルタを組み合わせたテンプレートモデルは、音響波形の基本周波数や位相に大きく影響を及ぼす駆動源モデルと、音色を決定する調音モデルが分離されていることから、照合モデルを生成する際に、従来法に見られるようなテンプレート波形の切り張り等の処理を施す必要がなく、任意の基本周波数または位相の照合モデルを生成することができる。
【００４９】
本発明の混合波形に対する各テンプレートモデルの照合モデルに基づき波形分離して抽出する手順は、尤度最大化基準に従って混合ＨＭＭの状態遷移を決定することで、テンプレートモデルの入力混合波形に対する位相合わせを実現している。このため従来法に見られるような入力混合波形から複数の基本周波数成分を分離抽出する必要がない。また、ＨＭＭの状態遷移系列より、各分離波形の基本周波数または位相情報が得られる。従って、この手順は、混合波形から複数の基本周波数の抽出も実現する。この機能は、例えば、音楽音響信号に対する自動採譜などへの応用が見込まれるものである。
【００５０】
本発明のテンプレートモデル作成の手順により各音源のテンプレートモデルを作成し、基本周波数が未知な複数の音源が混合された混合波形から、上記混合波形に対する手順により各音源の波形を分離することができる。
【図面の簡単な説明】
【図１】本発明によるテンプレートモデルを表す図である。
【図２】図１のテンプレートモデルを用いた混合波形のモデリング図である。
【図３】本発明の音源分離方法の実験結果例（分離波形）を示す図である。
【図４】本発明の音源分離方法の実験結果例（期待値の状態遷移）を示す図である。
【図５】図１のテンプレートモデルを作成する説明図である。
【図６】本発明の駆動源ＨＭＭの状態遷移系列説明図である。
【図７】本発明の分離装置の構成図である。
【符号の説明】
１０調音モデル（線形フィルタ）による逆フィルタリング
１１ＨＭＭ駆動源モデルの作成手段
１２尤度最大化基準に基づいた調音モデル（線形フィルタ）の作成手段
１３駆動源母数の作成手段
１４テンプレートモデル（ＡＲ−ＨＭＭ）データベース
１５混合波形ｙ（ｔ）を出力して時刻（ｔ＋１）の各混合状態に最大尤度で遷移する時刻（ｔ）の混合状態を決定する手段
１６時刻（ｔ）の各混合状態に至る過程で得られた分離音源波形および尤度を記憶しておく記憶装置
１７予測残差の各ＨＭＭ出力への分解手段
１８回帰成分と加算し、各音源の時刻（ｔ）における分離波形瞬時値の算出手段１９時刻（ｔ＋１）の各混合状態に至る過程で得られた分離音源波形および尤度を記憶しておく装置

Claims

入力された混合音源音響波形に対し隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせによる音源波形の確率モデルを求め、この確率モデルを基に前記入力波形に対し尤度最大化基準に基づきテンプレートモデルを作成し、このテンプレートモデルを照合モデルとして入力された混合音源音響波形を分離する手順からなることを特徴とする音源の分離方法。
入力された混合音源音響波形に対し隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせによる音源波形の確率モデルを求め、この確率モデルを基に前記入力波形に対し尤度最大化基準に基づきテンプレートモデルを作成し、このテンプレートモデルを照合モデルとして入力された混合音源音響波形を分離する手段を備えたことを特徴とする音源の分離装置。
入力された混合音源音響波形に対し隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせによる音源波形の確率モデルを求め、この確率モデルを基に前記入力波形に対し尤度最大化基準に基づきテンプレートモデルを作成し、前記混合波形に対するテンプレートモデルの位相合わせを混合ＨＭＭの状態遷移を尤度最大化基準に従って決定することによって求め、分離波形を得る手順からなることを特徴とする音源の分離方法。
入力された混合音源音響波形に対し隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせによる音源波形の確率モデルを求め、この確率モデルを基に前記入力波形に対し尤度最大化基準に基づきテンプレートモデルを作成し、前記混合波形に対するテンプレートモデルの位相合わせを混合ＨＭＭの状態遷移を尤度最大化基準に従って決定することによって求め、分離波形を得る手段を備えたことを特徴とする音源の分離装置。
隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせによる音源波形の確率モデルをテンプレートとして、混合音源音響波形をそれぞれの音響波形に分離する手順からなることを特徴とする音源の分離方法。
隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせによる音源波形の確率モデルをテンプレートとして、混合音源音響波形をそれぞれの音響波形に分離する手段を備えたことを特徴とする音源の分離装置。
隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせによる音源波形の確率モデルをテンプレートとし、このテンプレートモデルを混合したモデルを基準として、尤度最大化基準に従って混合ＨＭＭの状態遷移を決定し、その遷移において得られる残差を尤度最大化基準に従って各ＨＭＭ出力値に分解し、混合テンプレートモデルの入力混合波形に対する位相合わせを行う手順からなることを特徴とする音源の分離方法。
隠れマルコフモデル（ＨＭＭ）と線形フィルタの組み合わせによる音源波形の確率モデルをテンプレートとし、このテンプレートモデルを混合したモデルを基準として、尤度最大化基準に従って混合ＨＭＭの状態遷移を決定し、その遷移において得られる残差を尤度最大化基準に従って各ＨＭＭ出力値に分解し、混合テンプレートモデルの入力混合波形に対する位相合わせを行う手段を備えたことを特徴とする音源の分離装置。