JP2003005785A

JP2003005785A - 音源の分離方法および分離装置

Info

Publication number: JP2003005785A
Application number: JP2001193648A
Authority: JP
Inventors: Akira Saso; 晃佐宗
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2001-06-26
Filing date: 2001-06-26
Publication date: 2003-01-08
Anticipated expiration: 2021-06-26
Also published as: JP3541224B2

Abstract

(57)【要約】【課題】テンプレートモデルをその変形操作によっても
入力混合波形と比べ誤差の少ない照合波形を生成できる
ようにすると共に、事前に音源の特徴の抽出を必要とし
ない位相合わせ処理および波形分離処理を行うことがで
きるようにする音源の分離方法および分離装置を提供す
る。【解決手段】音源の分離方法において、入力された混合
音源波形に対し隠れマルコフモデル（ＨＭＭ）と線形フ
ィルタの組み合わせによる音源波形の確率モデルを求
め、この確率モデルを基に前記入力波形に対し尤度最大
化基準に基づきテンプレートモデルを作成し、このテン
プレートモデルを照合モデルとして入力された混合音源
音響波形を分離する手順を備えた。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、さまざまな環境音
や複数音声が同時に発生している音響環境において、予
めその環境音や音声のサンプル音響波形からテンプレー
トモデルデータベースを作成しておき、得られた混合音
源音響波形（以後、混合波形）から、そのテンプレート
モデルに基づき所望の音源の音響波形を分離・同定する
システムである。

【０００２】

【従来技術】実環境下でのロバストな音声処理技術の開
発においては、さまざまな環境音や複数音声から所望の
音声を分離する技術が必要不可欠である。例えば、カー
ナビゲーションシステムのような車内での音声認識率の
向上や、携帯電話などで一般的に用いられている音声の
生成過程に則った圧縮方式による圧縮音声の品質向上、
また、最近普及しつつある家庭内ロボットのための音環
境理解（例えば、ロボットに呼びかけている複数話者の
分離同定、また環境音の分離同定による周囲の状況把握
など）に応用が見込まれる技術である。また、音楽音響
信号処理への応用も考えられる。例えば、各楽器の音響
信号の分離同定、基本周波数の分離抽出による自動採譜
などである。

【０００３】従来、テンプレート（見本）波形と入力混
合波形の照合により分離同を行う手法が提案されてい
る。このようなアプローチの問題点の１つに、テンプレ
ート波形の基本周波数および位相と、入力混合波形のそ
れが通常一致しないということである。このため、分離
同定を実現するためには、テンプレート波形の基本周波
数および位相を入力混合波形のそれに時々刻々と合わせ
こむ必要がある。従来の位相合わせ処理としては、例え
ば、特開平１０−２２９３３６号公報に示されている技
術がる。この技術は以下のような特徴を有する。

【０００４】入力混合波形に対して周波数解析を行
い、混合されている全ての基本周波数成分を抽出する。テンプレート波形も狭帯域バンドパスフィルタに通し
て基本周波数成分を抽出する。両者の位相を比較して、位相差に対応する時間だけテ
ンプレート波形を遅延させるなどのアルゴリズムが提案されている。

【０００５】しかし、このような手法ではの処理で混
合波形から基本周波数成分が正確に抽出されることが必
要であるが、一般的に十分な精度で混合されている基本
周波数成分の分離抽出を実現する手法はまだ確立されて
いない。さらに、この手法をもとにした位相合わせ処理
の精度も十分ではなく、最終的な音源の分離同定精度に
悪影響を及ぼすことになる。またのテンプレート波形
遅延処理において、テンプレート波形から１周期分の波
形の切り出しや、その切り出し波形を入力混合波形の位
相に合わせて並べる際に、切り出し誤差や周期長が異な
ることによる波形誤差が発生する。これが、分離音源音
響波形（以後、分離波形という）の品質を劣化させる要
因となっていた。

【０００６】

【発明が解決しようとする課題】本発明の目的は、上記
従来技術の欠点に鑑み、テンプレートモデルをその変形
操作によっても入力混合波形と比べて誤差の少ない照合
波形を生成できるようにすると共に、事前に音源の特徴
の抽出を必要としない位相合わせ処理および波形分離処
理を行うことができるようにする音源の分離方法および
分離装置を提供することである。

【０００７】

【課題を解決するための手段】本発明は上記目的を達成
するために以下の手段を採用する。（１）音源の分離方法において、入力された混合音源音
響波形に対し隠れマルコフモデル（ＨＭＭ）と線形フィ
ルタの組み合わせによる音源波形の確率モデルを求め、
この確率モデルを基に前記入力波形に対し尤度最大化基
準に基づきテンプレートモデルを作成し、このテンプレ
ートモデルを照合モデルとして入力された混合音源音響
波形を分離する手順からなることを特徴とする。

【０００８】（２）音源の分離装置において、入力され
た混合音源音響波形に対し隠れマルコフモデル（ＨＭ
Ｍ）と線形フィルタの組み合わせによる音源波形の確率
モデルを求め、この確率モデルを基に前記入力波形に対
し尤度最大化基準に基づきテンプレートモデルを作成
し、このテンプレートモデルを照合モデルとして入力さ
れた混合音源音響波形を分離する手段を備えたことを特
徴とする。（３）音源の分離方法において、入力された混合音源音
響波形に対し隠れマルコフモデル（ＨＭＭ）と線形フィ
ルタの組み合わせによる音源波形の確率モデルを求め、
この確率モデルを基に前記入力波形に対し尤度最大化基
準に基づきテンプレートモデルを作成し、前記混合波形
に対するテンプレートモデルの位相合わせを混合ＨＭＭ
の状態遷移を尤度最大化基準に従って決定することによ
って求め、分離波形を得る手順からなることを特徴とす
る。

【０００９】（４）音源の分離装置において、入力され
た混合音源音響波形に対し隠れマルコフモデル（ＨＭ
Ｍ）と線形フィルタの組み合わせによる音源波形の確率
モデルを求め、この確率モデルを基に前記入力波形に対
し尤度最大化基準に基づきテンプレートモデルを作成
し、前記混合波形に対するテンプレートモデルの位相合
わせを混合ＨＭＭの状態遷移を尤度最大化基準に従って
決定することによって求め、分離波形を得る手段を備え
たことを特徴とする。（５）音源の分離方法において、隠れマルコフモデル
（ＨＭＭ）と線形フィルタの組み合わせによる音源波形
の確率モデルをテンプレートとして、混合音源音響波形
をそれぞれの音響波形に分離する手順からなることを特
徴とする。

【００１０】（６）音源の分離装置において、隠れマル
コフモデル（ＨＭＭ）と線形フィルタの組み合わせによ
る音源波形の確率モデルをテンプレートとして、混合音
源音響波形をそれぞれの音響波形に分離する手段を備え
たことを特徴とする。（７）音源の分離方法において、隠れマルコフモデル
（ＨＭＭ）と線形フィルタの組み合わせによる音源波形
の確率モデルをテンプレートとし、このテンプレートモ
デルを混合したモデルを基準として、尤度最大化基準に
従って混合ＨＭＭの状態遷移を決定し、その遷移におい
て得られる残差を尤度最大化基準に従って各ＨＭＭ出力
値に分解し、混合テンプレートモデルの入力混合波形に
対する位相合わせを行う手順からなることを特徴とす
る。

【００１１】（８）音源の分離装置において、隠れマル
コフモデル（ＨＭＭ）と線形フィルタの組み合わせによ
る音源波形の確率モデルをテンプレートとし、このテン
プレートモデルを混合したモデルを基準として、尤度最
大化基準に従って混合ＨＭＭの状態遷移を決定し、その
遷移において得られる残差を尤度最大化基準に従って各
ＨＭＭ出力値に分解し、混合テンプレートモデルの入力
混合波形に対する位相合わせを行う手段を備えたことを
特徴とする。

【発明の実施の形態】

【００１２】以下、本発明の実施の形態について詳細に
説明する。観測された音響的現象から、それが何という
カテゴリの音なのかを当てるためには、各々の音を発話
したとき、その音響的現象がどの程度生起しやすいか
を、確率的にモデル化しておく必要がある。

【００１３】一般的には、この目的には、ＨＭＭ（Ｈｉ
ｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）が用いられる
が、ＨＭＭは、区分定常過程しか表現することができ
ず、音の過渡部分の表現に難がある。また、音の性質
は、その音の先行音や後続音に大きく影響を受けるが、
ＨＭＭではこのような環境依存的な音の性質を表現する
ことが難しく、環境毎に異なるモデルを複数持つ必要が
あるなどの問題もある。このような問題を解決するため
に、本発明はモデルの振る舞いを過去の出力に依存して
決めるあらたなモデルを提案する。過去の出力に依存し
て、モデルの遷移確率と出力確率が決まるため、過渡部
の表現に優れている。

【００１４】以下、本発明について、図を参照しながら
詳細に説明する。まず、上記「テンプレートモデルをそ
の変形操作によっても入力混合波形と比べて誤差の少な
い照合波形を生成できるようにする」目的は図１に示す
テンプレートモデルを用いることで解決される。

【００１５】このテンプレートモデルは、駆動源モデル
と調音モデルが分離されており、駆動源モデルとして隠
れマルコフモデルを、調音モデルには線形フィルタを用
いる。駆動源モデルとは、例えば、音声の場合は声帯振
動による駆動源に相当し、管楽器などではマウスピース
による駆動源に相当する。周期的に特定の波形が繰り返
される駆動源は、その周期性を表すために各状態がリン
グ状につながれたＨＭＭを用いる。各状態からの遷移パ
スは自分自身への遷移パスと隣接する状態への遷移パス
の２つをもつ。このＨＭＭの状態を１周遷移することが
駆動源の１周期に相当する。また、各状態の出力分布は
単一の正規分布とする。周期性を仮定できない駆動源の
場合は、エルゴディックＨＭＭを用いるなど、その駆動
源の特徴を反映したトポロジィーのＨＭＭを用いる。調
音モデルとは駆動源に音色を与える部分で、例えば、音
声の場合は調音器官に相当し、管楽器では管に相当す
る。調音モデルとしては一般的にＡＲＭＡ（Ａｕｔｏ−
ＲｅｇｒｅｓｓｉｖｅＭｏｖｉｎｇＡｖｅｒａｇ
ｅ）モデルを用いるが、以下ではＡＲ（Ａｕｔｏ−Ｒｅ
ｇｒｅｓｓｉｖｅ）モデルを用いる。

【００１６】図１は本発明によるテンプレートモデルを
表す図である。テンプレートモデルの作成について以下
に説明する。テンプレートモデル作成に用いる音響波形
のＮ個のサンプルを

【式１】で表す。調音モデルのＡＲ過程の次数をｐ、ＡＲ係数ベ
クトルを

【式２】で表す。

【００１７】駆動源モデルのＨＭＭはＭ個の状態を持
ち、各状態に固有の番号（１，…，Ｍ）を識別子として
割り振る。状態ｍの出力分布を期待値μ（ｍ）と分散σ
^２（ｍ）で表す。また、状態ｎから状態ｍへの遷移確率
をｂ（ｎ，ｍ）で表す。時刻ｔにおけるＨＭＭの状態を
ｓ（ｔ）、駆動源をｅ（ｔ）で表す。このテンプレート
モデルにおいて、駆動源ベクトル

【式３】は、期待値ベクトル

【式４】、

【００１８】共分散行列

【式５】の多次元正規分布に従う確率変数ベクトルである。以上
のように、テンプレートモデルは、ＡＲ係数、ＨＭＭの
状態数、出力分布、遷移確率をパラメータとして表現さ
れる。テンプレートモデルの作成は、図５に示すよう
に、与えられた音源の音響波形サンプルに対して、尤度
を最大化するようにテンプレートモデルのパラメータを
推定することで行われる。以下にテンプレートモデル作
成の具体的な手順について説明する。

【００１９】ａ１−１）駆動源の初期母数を

【式６】のように設定し、ｉ＝０として以下の処理を実行する。ａ１−２）ＡＲ係数ベクトルを

【式７】により求める。ここで

【式８】とする。ａ１−３）予測残差ベクトルを

【式９】により求める。

【００２０】ａ１−４）予測残差の時系列

【式１０】に対してＢａｕｍ−Ｗｅｌｃｈのアルゴリズムを用い、
ＨＭＭの出力分布

【式１１】および遷移確率

【式１２】を求める。ａ１−５）予測残差の時系列に対してＶｉｔｅｒｂｉの
アルゴリズムを用い、求めたＨＭＭの尤度を最大にする
状態遷移系列

【式１３】を求める。

【００２１】ａ１−６）ＨＭＭの出力分布と状態遷移系
列を用いて、駆動源の期待値ベクトルおよび共分散行列
を、

【式１４】

【式１５】のように更新する。ａ１−７）評価値

【式１６】を求め、収束していれば終了し、収束していなければｉ
←ｉ＋１として（ａ１−２）から繰り返す。

【００２２】上記のテンプレートモデル作成アルゴリズ
ム（ａ１）の補足ＨＭＭの状態数とＡＲ過程の予測次数は、次式で定義さ
れるＡＩＣなどを用いて決定することができる。

【式１７】ここで、ＭはＨＭＭの状態数を表し、ｐはＡＲ過程の予
測次数である。このＡＩＣが最小となるＭとｐをモデル
として採用する。しかし、１６ｋＨｚでサンプリングさ
れた音声を分離対象とする場合は、経験的に予測次数は
１６〜２０、ＨＭＭの状態数は１０〜１６の間で適当に
決定しても問題ない。

【００２３】（ａ１−１）において、分散の初期値σ_０
^２は実質的には任意係数である。例えばσ_０ ^２＝１とし
ておく。（ａ１−４）において、Ｂａｕｍ−Ｗｅｌｃｈ
のアルゴリズムを用いて予測残差の時系列に対するＨＭ
Ｍの学習を行う場合、以下の手順でＨＭＭの初期設定を
行う。ａ１−４−１）はじめてＨＭＭの学習を行う場合（ｉ＝
０）は（ａ１−４−２）〜（ａ１−４−５）の処理を行
い、そうでない場合（ｉ＞０）は前回に学習したＨＭＭ
を初期値として採用する。ａ１−４−２）予測残差の時系列の自己相関より基本周
期を求める。ａ１−４−３）予測残差の時系列の１周期を更にＨＭＭ
の状態数分（Ｍ）の領域に等分割し、各周期の先頭の領
域から順番にＨＭＭの１…Ｍの状態に対応付ける。ａ１−４−４）ＨＭＭの各状態に対応する全ての領域の
予測残差から、平均と分散を求め、これを初期出力分布
とする。ａ１−４−５）遷移確率は全て乱数で初期設定する。

【００２４】（ａ１−５），（ａ１−６）の駆動源の母
数の更新処理において、Ｖｉｔｅｒｂｉアルゴリズムに
より得られた状態遷移系列に従って得られる期待値ベク
トルと共分散行列の各要素は、状態が切り替わる位置で
不連続に変化する。これがテンプレートモデルの精度を
劣化する場合は、以下の代替手法を用いることで精度劣
化を回避する。ａ１−５−ａ）状態間の遷移確率γ（ｍ，ｎ，ｔ）を求
める。γ（ｍ，ｎ，ｔ）はＨＭＭがを出力して状態ｍから状態ｎへ遷移する確率を表す。γ
（ｍ，ｎ，ｔ）の計算は公知のフォワードバックワード
アルゴリズムを用いて計算する。ａ１−６−ａ）時刻ｔにおける駆動源の母数を改めて期待値ｍ（ｔ）と分散ν（ｔ）で表す。
そして、次式のようにその母数を遷移確率γ（ｍ，ｎ，
ｔ）で重み付けて求める。

【式１８】これらを用いて、駆動源の期待値ベクトルおよび共分散
行列を、

【式１９】，のように更新する。

【００２５】前記「事前に音源の特徴の抽出を必要とし
ない位相合わせ処理および波形分離処理を行う」目的に
ついては以下のように解決される。隠れマルコフモデル
（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅ
ｌ）は、マルコフ連鎖の各状態に波形の出力確率を与え
たもので、配列のパターン認識に非常に有効である。特
定のモデルは多数の配列パターンを生成する。生成され
た個々の配列パターンには状態遷移確率と波形出力確率
から計算される確率が付随している。一般に同じ配列が
複数の経路から生成され得るので、それらを足し合わせ
たものが１つの配列に対する確率である。いま、隠れマ
ルコフモデルを音声認識予測に適用することを考える
と、音声認識に対してだけ高い確率を与えるようなモデ
ルをみつけることが問題となる。これはトレーニングデ
ータセットに学習アルゴリズムを適用し、隠れマルコフ
モデルのパラメータである状態遷移確率と波形出力確率
を最適化することにより、また場合によってはモデルの
長さも最適化することにより解くことができる。

【００２６】いま、トレーニングの配列データが与えら
れたときに、これがモデルにどの程度適合するかは、そ
れぞれの配列が同時に起る確率であるので最尤（ＭＬ：
ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄ）法で評価す
る。隠れマルコフモデルの学習アルゴリズムは次のよう
な逐次的方法である。まず、適当な初期モデルを選ぶ。
トレーニングデータセットの可能な経路を全て調べ、実
際に起る状態遷移の頻度と波形出力の頻度をもとに、Ｍ
Ｌの意味で遷移確率を更新して次のモデルとする。この
手続きを更新がわずかになるまで繰り返す。隠れマルコ
フモデルは確率的な意味で作られたプロファイルと非常
に近い関係にある。一般的にＮ個の異なる音源が混合さ
れている場合を想定すると、その混合波形はＮ個のテン
プレートモデルを用いて図２に示すようにモデリングさ
れる。この混合波形モデルにおいて、位相合わせ処理
は、入力混合波形に最も似かよった照合波形を生成する
ように、駆動源ＨＭＭの状態遷移系列を決定することで
行われる。

【００２７】この問題はＨＭＭ分解法と類似している
が、ＨＭＭ分解法はＨＭＭの出力が直接加算（または相
同の演算処理）された混合波形から各ＨＭＭの状態遷移
系列を決定するのに対して、本手法は、ＨＭＭの出力が
自己回帰（ＡＲ）過程を通った後加算された混合波形か
ら各ＨＭＭの状態遷移系列を決定するという点が決定的
に異なる。

【００２８】図２は図１のテンプレートモデルを用いた
混合波形のモデリング図である。図２において、Ｎ個の
テンプレートモデルをΘ_ｌ（ｌ＝１，…，Ｎ）で表す。
テンプレートモデルΘ_ｌの自己回帰（ＡＲ）過程の次数
をＰｌ、自己回帰（ＡＲ）係数を

【式２０】で表す。テンプレートモデルΘ_ｌのＨＭＭ駆動源モデル
の状態数をＭｌ、状態ｍから状態ｎへの遷移確率をｂｌ
（ｍ，ｎ）、状態ｍの出力分布を

【式２１】で表す。また、ＨＭＭのＭｌ個の状態を集合Ｓｌで表
す。入力混合波形のＴ個のサンプルを

【式２２】で表す。入力混合波形のＴ個のサンプルに対して、Ｎ個
のテンプレートモデルの状態遷移系列を決定するには、
縦軸に

【式２３】の混合状態を並べ、初期混合状態からＴ回の遷移が起る
ことから、その混合状態を横軸方向に合計（Ｔ＋１）個
並べたトレリスを考えることになる。

【００２９】時刻ｔにおいて、テンプレートモデルΘ_ｌ
のＨＭＭの状態をＳｌ（ｔ）で表すと、混合状態はベク
トル

【式２４】で表される。位相合わせ処理は、先に述べたトレリス上
で最大尤度を与える（Ｔ＋１）個のベクトル列

【式２５】を求めることに他ならない。しかし、通常のＨＭＭ分解
法と異なる点は、各ＨＭＭの出力が自己回帰（ＡＲ）過
程を通って加えられているので、時刻ｔの混合波形サン
プルｙ（ｔ）は、各ＨＭＭの出力値だけでなく、各テン
プレートモデルの出力サンプルの自己回帰成分が加えら
れている。従って、通常のＨＭＭ分解法と同様に状態遷
移系列を決定するためには、混合波形サンプルｙ（ｔ）
から各テンプレートモデルの自己回帰成分を取り除く必
要がある。

【００３０】混合波形サンプルｙ（ｔ）から各テンプレ
ートモデルの自己回帰成分を取り除くには、時刻ｔの混
合状態毎に、その状態に至る経路で得られた全テンプレ
ートモデルの照合波形を記憶しておく必要がある。この
照合波形を

【式２６】で表す。これは、時刻ｔにおいて混合状態Ｓ_ｔに至る経
路で得られたテンプレートモデルΘ_ｌの照合波形を表
す。

【００３１】混合状態Ｓ_ｔにおけるテンプレートモデル
Θ_ｌの、時刻ｔにおける自己回帰成分は

【式２７】で求められる。従って、時刻ｔの混合波形サンプルｙ
（ｔ）から全テンプレートの自己回帰成分を引いた残差
は、

【式２８】で求められ、時刻ｔにおける各テンプレートモデルのＨ
ＭＭ出力をｅ_ｌ（ｔ）で表すと、その残差は、

【式２９】のように、全ＨＭＭ出力の総和に相当すると考えられ
る。

【００３２】従って、この残差Ｅ（ｔ）に着目すれば、
ＨＭＭ分解法と同様な手法で、テンプレートモデルの状
態遷移系列を決定できるというのが、本手法の基本アイ
ディアである。以下に具体的な位相合わせおよび音源分
離の手順について説明する。時刻ｔにおいて混合状態Ｓ
_ｔにいる確率をＰ_ｔ（Ｓ_ｔ）で表す。混合状態の集合を

【式３０】で表す。ａ−２−１）初期確率は全ての組み合わせの混合状態

【式３１】についてＰ_０（Ｓ_０）＝１とする。ｔ＝０として以下の
処理を実行する。

【００３３】ａ−２−２）混合状態

【式３２】毎に次の処理を実行する。ａ−２−２−１）混合状態Ｓ_ｔ＋１へ遷移する最大確率
Ｐ_ｔ＋１（Ｓ_ｔ＋１）を、

【式３３】により求める。残差Ｅ（ｔ）は、式２７および式２８よ
り求める。

【式３４】は、混合状態Ｓ_ｔにおけるＥ（ｔ）の出力分布を表し、

【式３５】の正規分布で与えられる。

【００３４】

【式３６】は、混合状態Ｓ_ｔから混合状態Ｓ_ｔ＋１へ遷移する確率
を表し、

【式３７】で与えられる。ａ−２−２−２）混合状態Ｓ_ｔ＋１における、各テンプ
レートモデルの照合波形を更新する。時刻ｔにおける、
各テンプレートモデルの照合波形のサンプル値

【式３８】を求めるには、残差Ｅ（ｔ）をＨＭＭの出力値

【式３９】に分解しなければならない。一方、混合状態Ｓ_ｔ＋１に
対して混合状態Ｓ_ｔが最大確率Ｐ_ｔ＋１（Ｓ_ｔ＋１）を
与えることは（ａ−２−２−１）の処理により求められ
ている。従って、残差Ｅ（ｔ）を生成した時の各ＨＭＭ
の出力分布は

【式４０】であるとわかる。

【００３５】

【式４１】残差と各ＨＭＭの出力分布が

【式４２】である条件の下で、ＨＭＭの出力値

【式４３】の生起する尤度

【式４４】が最大になるように、残差Ｅ（ｔ）を分解することを考
える。

【００３６】ここで

【式４５】は各ＨＭＭの出力値と出力分布の尤度を表す。またこの
尤度の積を求めているのは、各ＨＭＭからの出力が互い
に独立であることを意味する。この解

【式４６】は、等価的に次の方程式を解くことで得られる。

【００３７】

【式４７】（※ 式３１において、母数（μ，σ^２）からはＨＭＭ
の状態インデックスを、そして残差（Ｅ）およびＨＭＭの出力値（ｅ）から
はタイムインデックスを省略した。）式１１により求められる自己回帰成分

【式４８】とＨＭＭの出力値ｅ_ｌ（ｔ）を用いて、各テンプレート
モデルの照合波形のサンプル値

【式４９】を、

【式５０】より求める。

【００３８】以上より、混合状態Ｓ_ｔ＋１における、各
テンプレートモデルの照合波形は、

【式５１】で与えられる。ａ−２−３）ｔ＜Ｔ−１の場合は、ｔ←ｔ＋１として
（ａ２−２）の処理を繰り返す。ｔ＝Ｔ−１の場合は、次の処理を行う。ａ−２−４）最終混合状態の中で最大尤度を与える最終
混合状態を選択する。

【式５２】ａ−２−５）最終混合状態における各テンプレートモデルの照合波形を分離波形と
する。

【００３９】

【実施例】図７は本発明の分離装置の構成図である。本
発明の実施例の分離装置は、テンプレートモデルのデー
タベース作成手段と混合波形分離手段から成る。テンプ
レートモデルのデータベース作成の実施例について図を
用い詳細に説明する。図７において、テンプレートモデ
ルのデータベース作成手段は、調音モデル（線形フィル
タ）による逆フィルタリング１０、ＨＭＭ駆動源モデル
の作成手段１１、尤度最大化基準に基づいた調音モデル
の作成手段１２、駆動源母数の作成手段１３、テンプレ
ートモデルデータベース１４からなる。

【００４０】テンプレートモデルのデータベースは、分
離装置が使用される音環境における環境音のサンプルを
用意し、それぞれの音響波形から生成したテンプレート
モデルを蓄積することで構築する。テンプレートモデル
は、音源の駆動源と調音部を切り離し、それぞれＨＭＭ
と線形フィルタを用いたモデル構成とする。これによ
り、データベース中のテンプレートモデルを任意の基本
周波数および位相の照合モデルに容易に再合成できる。
テンプレートモデルの作成は、音源音響波形のサンプル
に対して、尤度最大化基準に基づきパラメータを決定す
る。この尤度は、図５に示すように音響波形を線形フィ
ルタで逆フィルタリングし得られた駆動源波形とＨＭＭ
の尤度として定義する。サンプル音響波形に対するＨＭ
Ｍと線形フィルタの尤度関数は非線形となるため、両者
を同時に求めることはできない。

【００４１】そこで、調音モデルによる逆フィルタリン
グ１０により音響波形から駆動源波形を抽出し、ＨＭＭ
駆動源モデルの作成手段１１によりＨＭＭのパラメータ
を推定および更新をする。そして、駆動源波形とＨＭＭ
パラメータを基に駆動源母数の作成手段１３により駆動
源母数を生成し、その駆動源母数と音響波形を基に線形
フィルタの作成手段１２により線形フィルタの再推定お
よび更新をする。以上の処理を、ＨＭＭと線形フィルタ
の尤度が収束するまで繰り返し、テンプレートモデルを
生成し、データベースに格納する。

【００４２】図６は、音声波形のサンプルから抽出した
駆動源波形（図中、上段）と４状態のＨＭＭから求めら
れた状態遷移系列の例を示している。図中、同じ模様で
網掛けされている部分が、ＨＭＭの１つの状態に対応す
る。ＨＭＭの状態がリング状に接続されていることか
ら、駆動源波形の周期に同期して、４つあるＨＭＭの状
態も順に周期的に遷移している。図中、中段と下段のグ
ラフは、各状態の出力分布における期待値と分散を表し
ている。このように、ＨＭＭ音源モデルは、状態遷移系
列が定まると、駆動源波形を正規分布の時系列として表
現する。本発明による音源分離処理は、混合波形に対し
て混合ＨＭＭの状態遷移を尤度最大化基準に従って求
め、過去の分離波形による回帰成分を混合波形から取り
除くことで得られる予測残差を、各ＨＭＭの出力分布
（正規分布）に対し尤度最大化基準に従って分解するこ
とにより実現する。

【００４３】次に、混合波形分離手段について説明す
る。図７において、混合波形分離手段は、テンプレート
モデルのデータベース１４、最大尤度で遷移する混合状
態の決定手段１５、混合波形と尤度の記憶装置１６，１
９、予測残差の各ＨＭＭ出力への分解手段１７、分離波
形の算出手段１８より構成する。音源分離処理は、混合
波形の瞬時値ｙ（ｔ）の入力毎に再帰的に行われる。つ
まり、ある時刻（ｔ）までの各混合状態に至る過程で得
られた分離波形およびその尤度が全て記憶装置１６に記
憶されている。そして、瞬時値ｙ（ｔ）を出力して最大
尤度で時刻（ｔ＋１）の混合状態に遷移してくる遷移
元、つまり時刻（ｔ）における混合状態を手段１５によ
り選択する。得られた予測残差を手段１７により、各Ｈ
ＭＭの出力値に分解し、手段１８により過去の回帰成分
と加算することで、混合波形瞬時値ｙ（ｔ）を各音源の
出力瞬時値に分解する。そして、その分離音源瞬時値と
選択された時刻（ｔ）の混合状態に付随している過去の
分離波形と共に尤度を記憶装置１９に記憶する。

【００４４】この処理が時刻（ｔ＋１）における全ての
混合状態について終了すると、記憶装置１９には、時刻
（ｔ＋１）までの各混合状態に至る過程で得られた分離
波形およびその尤度が全て記憶装置１９に記憶される。
そして、新たに混合波形の瞬時値ｙ（ｔ＋１）が入力さ
れると、記憶装置１９の内容を記憶装置１６に複写した
後、最終時刻における混合波形の処理が終了するまで前
記の処理を再帰的に繰り返す。最終時刻における処理の
終了後、記憶装置１９に格納されている混合状態の中で
最大尤度を与える混合状態を選択し、それに付随してい
る分離波形を最終的な結果として出力し、全処理が完了
する。このように本発明は、尤度最大化基準だけを基に
処理が進むので、事前に混合波形の各基本周波数成分や
位相情報を抽出しておく必要がない。また、得られた状
態遷移系列から、各音源に基本周波数および位相が得ら
れる。

【００４５】次に、単母音音声を用いた音源分離実験を
紹介する。１．使用音声データ二人の男性話者（Ａ，Ｂ）が、話者Ａは単母音／ａ／
を、そして話者Ｂは／ｉ／を、同レベルで２回発声した
音声を用意する。音声はサンプリング周波数１６ｋＨ
ｚ、１６ビットの線形量子化によりディジタル信号に変
換した。２．テンプレートモデルの作成テンプレートモデルは共に、ＡＲ過程の次数は１６、Ｈ
ＭＭの状態数は１０とした。それぞれの話者が２回発声
した音声のうちの一方から、定常状態にある１５０ｍｓ
の波形を切り出し、プレエンファシス（係数０．９９）
を施したあと、アルゴリズム（ａ−１）によりテンプレ
ートモデルを作成した。

【００４６】３．分離実験および結果話者Ａ，Ｂがそれぞれ発声したもう一方の音声を加え合
わせ、プレエンファシス（係数０．９９）を施し、混合
音声を生成した。この混合波形と作成した２つのテンプ
レートモデルに対して、アルゴリズム（ａ−２）を施
し、音源分離実験を行う。

【００４７】図３は本発明の音源分離方法の実験結果例
（分離波形）を示す図である。図３には分離結果の波形
を示し、同図（ａ）が混合波形、（ｂ）（ｄ）が混合前
の音声波形／ａ／，／ｉ／、（ｃ）（ｅ）が混合波形か
ら分離された音声波形／ａ／，／ｉ／である。（ｂ）に
対する（ｃ）のＳＮＲは１１．９［ｄＢ］、（ｄ）に対
する（ｅ）のＳＮＲは１１．７［ｄＢ］であった。図３
（ｂ）（ｄ）に対してアルゴリズム（ａ−１）を施して
得られた期待値の時系列を、それぞれ図４（ａ）（ｃ）
に示す。図４は本発明の音源分離方法の実験結果例（期
待値の状態遷移）を示す図である。また図３（ａ）の混
合波形に対してアルゴリズム（ａ−２）を施して得られ
た期待値の時系列を、それぞれ図４（ｂ）（ｄ）に示
す。これよりアルゴリズム（ａ−２）は混合されている
波形の位相を正しく抽出できていることがわかる。

【００４８】

【発明の効果】本発明のテンプレートモデル作成の手順
およびその手順を実行する装置によれば、ＨＭＭと線形
フィルタを組み合わせたテンプレートモデルは、音響波
形の基本周波数や位相に大きく影響を及ぼす駆動源モデ
ルと、音色を決定する調音モデルが分離されていること
から、照合モデルを生成する際に、従来法に見られるよ
うなテンプレート波形の切り張り等の処理を施す必要が
なく、任意の基本周波数または位相の照合モデルを生成
することができる。

【００４９】本発明の混合波形に対する各テンプレート
モデルの照合モデルに基づき波形分離して抽出する手順
は、尤度最大化基準に従って混合ＨＭＭの状態遷移を決
定することで、テンプレートモデルの入力混合波形に対
する位相合わせを実現している。このため従来法に見ら
れるような入力混合波形から複数の基本周波数成分を分
離抽出する必要がない。また、ＨＭＭの状態遷移系列よ
り、各分離波形の基本周波数または位相情報が得られ
る。従って、この手順は、混合波形から複数の基本周波
数の抽出も実現する。この機能は、例えば、音楽音響信
号に対する自動採譜などへの応用が見込まれるものであ
る。

【００５０】本発明のテンプレートモデル作成の手順に
より各音源のテンプレートモデルを作成し、基本周波数
が未知な複数の音源が混合された混合波形から、上記混
合波形に対する手順により各音源の波形を分離すること
ができる。

【図面の簡単な説明】

【図１】本発明によるテンプレートモデルを表す図であ
る。

【図２】図１のテンプレートモデルを用いた混合波形の
モデリング図である。

【図３】本発明の音源分離方法の実験結果例（分離波
形）を示す図である。

【図４】本発明の音源分離方法の実験結果例（期待値の
状態遷移）を示す図である。

【図５】図１のテンプレートモデルを作成する説明図で
ある。

【図６】本発明の駆動源ＨＭＭの状態遷移系列説明図で
ある。

【図７】本発明の分離装置の構成図である。

【符号の説明】

１０調音モデル（線形フィルタ）による逆フィルタリン
グ１１ＨＭＭ駆動源モデルの作成手段１２尤度最大化基準に基づいた調音モデル（線形フィル
タ）の作成手段１３駆動源母数の作成手段１４テンプレートモデル（ＡＲ−ＨＭＭ）データベース１５混合波形ｙ（ｔ）を出力して時刻（ｔ＋１）の各混
合状態に最大尤度で遷移する時刻（ｔ）の混合状態を決
定する手段１６時刻（ｔ）の各混合状態に至る過程で得られた分離
音源波形および尤度を記憶しておく記憶装置１７予測残差の各ＨＭＭ出力への分解手段１８回帰成分と加算し、各音源の時刻（ｔ）における分
離波形瞬時値の算出手段１９時刻（ｔ＋１）の各混合状態に至る過程で得られた
分離音源波形および尤度を記憶しておく装置

Claims

【特許請求の範囲】

【請求項１】入力された混合音源音響波形に対し隠れマ
ルコフモデル（ＨＭＭ）と線形フィルタの組み合わせに
よる音源波形の確率モデルを求め、この確率モデルを基
に前記入力波形に対し尤度最大化基準に基づきテンプレ
ートモデルを作成し、このテンプレートモデルを照合モ
デルとして入力された混合音源音響波形を分離する手順
からなることを特徴とする音源の分離方法。
【請求項２】入力された混合音源音響波形に対し隠れマ
ルコフモデル（ＨＭＭ）と線形フィルタの組み合わせに
よる音源波形の確率モデルを求め、この確率モデルを基
に前記入力波形に対し尤度最大化基準に基づきテンプレ
ートモデルを作成し、このテンプレートモデルを照合モ
デルとして入力された混合音源音響波形を分離する手段
を備えたことを特徴とする音源の分離装置。
【請求項３】入力された混合音源音響波形に対し隠れマ
ルコフモデル（ＨＭＭ）と線形フィルタの組み合わせに
よる音源波形の確率モデルを求め、この確率モデルを基
に前記入力波形に対し尤度最大化基準に基づきテンプレ
ートモデルを作成し、前記混合波形に対するテンプレー
トモデルの位相合わせを混合ＨＭＭの状態遷移を尤度最
大化基準に従って決定することによって求め、分離波形
を得る手順からなることを特徴とする音源の分離方法。
【請求項４】入力された混合音源音響波形に対し隠れマ
ルコフモデル（ＨＭＭ）と線形フィルタの組み合わせに
よる音源波形の確率モデルを求め、この確率モデルを基
に前記入力波形に対し尤度最大化基準に基づきテンプレ
ートモデルを作成し、前記混合波形に対するテンプレー
トモデルの位相合わせを混合ＨＭＭの状態遷移を尤度最
大化基準に従って決定することによって求め、分離波形
を得る手段を備えたことを特徴とする音源の分離装置。
【請求項５】隠れマルコフモデル（ＨＭＭ）と線形フィ
ルタの組み合わせによる音源波形の確率モデルをテンプ
レートとして、混合音源音響波形をそれぞれの音響波形
に分離する手順からなることを特徴とする音源の分離方
法。
【請求項６】隠れマルコフモデル（ＨＭＭ）と線形フィ
ルタの組み合わせによる音源波形の確率モデルをテンプ
レートとして、混合音源音響波形をそれぞれの音響波形
に分離する手段を備えたことを特徴とする音源の分離装
置。
【請求項７】隠れマルコフモデル（ＨＭＭ）と線形フィ
ルタの組み合わせによる音源波形の確率モデルをテンプ
レートとし、このテンプレートモデルを混合したモデル
を基準として、尤度最大化基準に従って混合ＨＭＭの状
態遷移を決定し、その遷移において得られる残差を尤度
最大化基準に従って各ＨＭＭ出力値に分解し、混合テン
プレートモデルの入力混合波形に対する位相合わせを行
う手順からなることを特徴とする音源の分離方法。
【請求項８】隠れマルコフモデル（ＨＭＭ）と線形フィ
ルタの組み合わせによる音源波形の確率モデルをテンプ
レートとし、このテンプレートモデルを混合したモデル
を基準として、尤度最大化基準に従って混合ＨＭＭの状
態遷移を決定し、その遷移において得られる残差を尤度
最大化基準に従って各ＨＭＭ出力値に分解し、混合テン
プレートモデルの入力混合波形に対する位相合わせを行
う手段を備えたことを特徴とする音源の分離装置。