JP2003005785A - 音源の分離方法および分離装置 - Google Patents

音源の分離方法および分離装置

Info

Publication number
JP2003005785A
JP2003005785A JP2001193648A JP2001193648A JP2003005785A JP 2003005785 A JP2003005785 A JP 2003005785A JP 2001193648 A JP2001193648 A JP 2001193648A JP 2001193648 A JP2001193648 A JP 2001193648A JP 2003005785 A JP2003005785 A JP 2003005785A
Authority
JP
Japan
Prior art keywords
model
waveform
sound source
mixed
hmm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001193648A
Other languages
English (en)
Other versions
JP3541224B2 (ja
Inventor
Akira Saso
晃 佐宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2001193648A priority Critical patent/JP3541224B2/ja
Publication of JP2003005785A publication Critical patent/JP2003005785A/ja
Application granted granted Critical
Publication of JP3541224B2 publication Critical patent/JP3541224B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】 【課題】テンプレートモデルをその変形操作によっても
入力混合波形と比べ誤差の少ない照合波形を生成できる
ようにすると共に、事前に音源の特徴の抽出を必要とし
ない位相合わせ処理および波形分離処理を行うことがで
きるようにする音源の分離方法および分離装置を提供す
る。 【解決手段】音源の分離方法において、入力された混合
音源波形に対し隠れマルコフモデル(HMM)と線形フ
ィルタの組み合わせによる音源波形の確率モデルを求
め、この確率モデルを基に前記入力波形に対し尤度最大
化基準に基づきテンプレートモデルを作成し、このテン
プレートモデルを照合モデルとして入力された混合音源
音響波形を分離する手順を備えた。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、さまざまな環境音
や複数音声が同時に発生している音響環境において、予
めその環境音や音声のサンプル音響波形からテンプレー
トモデルデータベースを作成しておき、得られた混合音
源音響波形(以後、混合波形)から、そのテンプレート
モデルに基づき所望の音源の音響波形を分離・同定する
システムである。
【0002】
【従来技術】実環境下でのロバストな音声処理技術の開
発においては、さまざまな環境音や複数音声から所望の
音声を分離する技術が必要不可欠である。例えば、カー
ナビゲーションシステムのような車内での音声認識率の
向上や、携帯電話などで一般的に用いられている音声の
生成過程に則った圧縮方式による圧縮音声の品質向上、
また、最近普及しつつある家庭内ロボットのための音環
境理解(例えば、ロボットに呼びかけている複数話者の
分離同定、また環境音の分離同定による周囲の状況把握
など)に応用が見込まれる技術である。また、音楽音響
信号処理への応用も考えられる。例えば、各楽器の音響
信号の分離同定、基本周波数の分離抽出による自動採譜
などである。
【0003】従来、テンプレート(見本)波形と入力混
合波形の照合により分離同を行う手法が提案されてい
る。このようなアプローチの問題点の1つに、テンプレ
ート波形の基本周波数および位相と、入力混合波形のそ
れが通常一致しないということである。このため、分離
同定を実現するためには、テンプレート波形の基本周波
数および位相を入力混合波形のそれに時々刻々と合わせ
こむ必要がある。従来の位相合わせ処理としては、例え
ば、特開平10−229336号公報に示されている技
術がる。この技術は以下のような特徴を有する。
【0004】入力混合波形に対して周波数解析を行
い、混合されている全ての基本周波数成分を抽出する。 テンプレート波形も狭帯域バンドパスフィルタに通し
て基本周波数成分を抽出する。 両者の位相を比較して、位相差に対応する時間だけテ
ンプレート波形を遅延させる などのアルゴリズムが提案されている。
【0005】しかし、このような手法ではの処理で混
合波形から基本周波数成分が正確に抽出されることが必
要であるが、一般的に十分な精度で混合されている基本
周波数成分の分離抽出を実現する手法はまだ確立されて
いない。さらに、この手法をもとにした位相合わせ処理
の精度も十分ではなく、最終的な音源の分離同定精度に
悪影響を及ぼすことになる。またのテンプレート波形
遅延処理において、テンプレート波形から1周期分の波
形の切り出しや、その切り出し波形を入力混合波形の位
相に合わせて並べる際に、切り出し誤差や周期長が異な
ることによる波形誤差が発生する。これが、分離音源音
響波形(以後、分離波形という)の品質を劣化させる要
因となっていた。
【0006】
【発明が解決しようとする課題】本発明の目的は、上記
従来技術の欠点に鑑み、テンプレートモデルをその変形
操作によっても入力混合波形と比べて誤差の少ない照合
波形を生成できるようにすると共に、事前に音源の特徴
の抽出を必要としない位相合わせ処理および波形分離処
理を行うことができるようにする音源の分離方法および
分離装置を提供することである。
【0007】
【課題を解決するための手段】本発明は上記目的を達成
するために以下の手段を採用する。 (1)音源の分離方法において、入力された混合音源音
響波形に対し隠れマルコフモデル(HMM)と線形フィ
ルタの組み合わせによる音源波形の確率モデルを求め、
この確率モデルを基に前記入力波形に対し尤度最大化基
準に基づきテンプレートモデルを作成し、このテンプレ
ートモデルを照合モデルとして入力された混合音源音響
波形を分離する手順からなることを特徴とする。
【0008】(2)音源の分離装置において、入力され
た混合音源音響波形に対し隠れマルコフモデル(HM
M)と線形フィルタの組み合わせによる音源波形の確率
モデルを求め、この確率モデルを基に前記入力波形に対
し尤度最大化基準に基づきテンプレートモデルを作成
し、このテンプレートモデルを照合モデルとして入力さ
れた混合音源音響波形を分離する手段を備えたことを特
徴とする。 (3)音源の分離方法において、入力された混合音源音
響波形に対し隠れマルコフモデル(HMM)と線形フィ
ルタの組み合わせによる音源波形の確率モデルを求め、
この確率モデルを基に前記入力波形に対し尤度最大化基
準に基づきテンプレートモデルを作成し、前記混合波形
に対するテンプレートモデルの位相合わせを混合HMM
の状態遷移を尤度最大化基準に従って決定することによ
って求め、分離波形を得る手順からなることを特徴とす
る。
【0009】(4)音源の分離装置において、入力され
た混合音源音響波形に対し隠れマルコフモデル(HM
M)と線形フィルタの組み合わせによる音源波形の確率
モデルを求め、この確率モデルを基に前記入力波形に対
し尤度最大化基準に基づきテンプレートモデルを作成
し、前記混合波形に対するテンプレートモデルの位相合
わせを混合HMMの状態遷移を尤度最大化基準に従って
決定することによって求め、分離波形を得る手段を備え
たことを特徴とする。 (5)音源の分離方法において、隠れマルコフモデル
(HMM)と線形フィルタの組み合わせによる音源波形
の確率モデルをテンプレートとして、混合音源音響波形
をそれぞれの音響波形に分離する手順からなることを特
徴とする。
【0010】(6)音源の分離装置において、隠れマル
コフモデル(HMM)と線形フィルタの組み合わせによ
る音源波形の確率モデルをテンプレートとして、混合音
源音響波形をそれぞれの音響波形に分離する手段を備え
たことを特徴とする。 (7)音源の分離方法において、隠れマルコフモデル
(HMM)と線形フィルタの組み合わせによる音源波形
の確率モデルをテンプレートとし、このテンプレートモ
デルを混合したモデルを基準として、尤度最大化基準に
従って混合HMMの状態遷移を決定し、その遷移におい
て得られる残差を尤度最大化基準に従って各HMM出力
値に分解し、混合テンプレートモデルの入力混合波形に
対する位相合わせを行う手順からなることを特徴とす
る。
【0011】(8)音源の分離装置において、隠れマル
コフモデル(HMM)と線形フィルタの組み合わせによ
る音源波形の確率モデルをテンプレートとし、このテン
プレートモデルを混合したモデルを基準として、尤度最
大化基準に従って混合HMMの状態遷移を決定し、その
遷移において得られる残差を尤度最大化基準に従って各
HMM出力値に分解し、混合テンプレートモデルの入力
混合波形に対する位相合わせを行う手段を備えたことを
特徴とする。
【発明の実施の形態】
【0012】以下、本発明の実施の形態について詳細に
説明する。観測された音響的現象から、それが何という
カテゴリの音なのかを当てるためには、各々の音を発話
したとき、その音響的現象がどの程度生起しやすいか
を、確率的にモデル化しておく必要がある。
【0013】一般的には、この目的には、HMM(Hi
dden Markov Model)が用いられる
が、HMMは、区分定常過程しか表現することができ
ず、音の過渡部分の表現に難がある。また、音の性質
は、その音の先行音や後続音に大きく影響を受けるが、
HMMではこのような環境依存的な音の性質を表現する
ことが難しく、環境毎に異なるモデルを複数持つ必要が
あるなどの問題もある。このような問題を解決するため
に、本発明はモデルの振る舞いを過去の出力に依存して
決めるあらたなモデルを提案する。過去の出力に依存し
て、モデルの遷移確率と出力確率が決まるため、過渡部
の表現に優れている。
【0014】以下、本発明について、図を参照しながら
詳細に説明する。まず、上記「テンプレートモデルをそ
の変形操作によっても入力混合波形と比べて誤差の少な
い照合波形を生成できるようにする」目的は図1に示す
テンプレートモデルを用いることで解決される。
【0015】このテンプレートモデルは、駆動源モデル
と調音モデルが分離されており、駆動源モデルとして隠
れマルコフモデルを、調音モデルには線形フィルタを用
いる。駆動源モデルとは、例えば、音声の場合は声帯振
動による駆動源に相当し、管楽器などではマウスピース
による駆動源に相当する。周期的に特定の波形が繰り返
される駆動源は、その周期性を表すために各状態がリン
グ状につながれたHMMを用いる。各状態からの遷移パ
スは自分自身への遷移パスと隣接する状態への遷移パス
の2つをもつ。このHMMの状態を1周遷移することが
駆動源の1周期に相当する。また、各状態の出力分布は
単一の正規分布とする。周期性を仮定できない駆動源の
場合は、エルゴディックHMMを用いるなど、その駆動
源の特徴を反映したトポロジィーのHMMを用いる。調
音モデルとは駆動源に音色を与える部分で、例えば、音
声の場合は調音器官に相当し、管楽器では管に相当す
る。調音モデルとしては一般的にARMA(Auto−
Regressive Moving Averag
e)モデルを用いるが、以下ではAR(Auto−Re
gressive )モデルを用いる。
【0016】図1は本発明によるテンプレートモデルを
表す図である。テンプレートモデルの作成について以下
に説明する。テンプレートモデル作成に用いる音響波形
のN個のサンプルを
【式1】 で表す。調音モデルのAR過程の次数をp、AR係数ベ
クトルを
【式2】 で表す。
【0017】駆動源モデルのHMMはM個の状態を持
ち、各状態に固有の番号(1,…,M)を識別子として
割り振る。状態mの出力分布を期待値μ(m)と分散σ
(m)で表す。また、状態nから状態mへの遷移確率
をb(n,m)で表す。時刻tにおけるHMMの状態を
s(t)、駆動源をe(t)で表す。このテンプレート
モデルにおいて、駆動源ベクトル
【式3】 は、期待値ベクトル
【式4】
【0018】共分散行列
【式5】 の多次元正規分布に従う確率変数ベクトルである。以上
のように、テンプレートモデルは、AR係数、HMMの
状態数、出力分布、遷移確率をパラメータとして表現さ
れる。テンプレートモデルの作成は、図5に示すよう
に、与えられた音源の音響波形サンプルに対して、尤度
を最大化するようにテンプレートモデルのパラメータを
推定することで行われる。以下にテンプレートモデル作
成の具体的な手順について説明する。
【0019】a1−1)駆動源の初期母数を
【式6】 のように設定し、i=0として以下の処理を実行する。 a1−2)AR係数ベクトルを
【式7】 により求める。ここで
【式8】 とする。 a1−3)予測残差ベクトルを
【式9】 により求める。
【0020】a1−4)予測残差の時系列
【式10】 に対してBaum−Welchのアルゴリズムを用い、
HMMの出力分布
【式11】 および遷移確率
【式12】 を求める。 a1−5)予測残差の時系列に対してViterbiの
アルゴリズムを用い、求めたHMMの尤度を最大にする
状態遷移系列
【式13】 を求める。
【0021】a1−6)HMMの出力分布と状態遷移系
列を用いて、駆動源の期待値ベクトルおよび共分散行列
を、
【式14】
【式15】 のように更新する。 a1−7)評価値
【式16】 を求め、収束していれば終了し、収束していなければi
←i+1として(a1−2)から繰り返す。
【0022】上記のテンプレートモデル作成アルゴリズ
ム(a1)の補足 HMMの状態数とAR過程の予測次数は、次式で定義さ
れるAICなどを用いて決定することができる。
【式17】 ここで、MはHMMの状態数を表し、pはAR過程の予
測次数である。このAICが最小となるMとpをモデル
として採用する。しかし、16kHzでサンプリングさ
れた音声を分離対象とする場合は、経験的に予測次数は
16〜20、HMMの状態数は10〜16の間で適当に
決定しても問題ない。
【0023】(a1−1)において、分散の初期値σ
は実質的には任意係数である。例えばσ =1とし
ておく。(a1−4)において、Baum−Welch
のアルゴリズムを用いて予測残差の時系列に対するHM
Mの学習を行う場合、以下の手順でHMMの初期設定を
行う。 a1−4−1)はじめてHMMの学習を行う場合(i=
0)は(a1−4−2)〜(a1−4−5)の処理を行
い、そうでない場合(i>0)は前回に学習したHMM
を初期値として採用する。 a1−4−2)予測残差の時系列の自己相関より基本周
期を求める。 a1−4−3)予測残差の時系列の1周期を更にHMM
の状態数分(M)の領域に等分割し、各周期の先頭の領
域から順番にHMMの1…Mの状態に対応付ける。 a1−4−4)HMMの各状態に対応する全ての領域の
予測残差から、平均と分散を求め、これを初期出力分布
とする。 a1−4−5)遷移確率は全て乱数で初期設定する。
【0024】(a1−5),(a1−6)の駆動源の母
数の更新処理において、Viterbiアルゴリズムに
より得られた状態遷移系列に従って得られる期待値ベク
トルと共分散行列の各要素は、状態が切り替わる位置で
不連続に変化する。これがテンプレートモデルの精度を
劣化する場合は、以下の代替手法を用いることで精度劣
化を回避する。 a1−5−a)状態間の遷移確率γ(m,n,t)を求
める。γ(m,n,t)はHMMが を出力して状態mから状態nへ遷移する確率を表す。γ
(m,n,t)の計算は公知のフォワードバックワード
アルゴリズムを用いて計算する。 a1−6−a)時刻tにおける駆動源 の母数を改めて期待値m(t)と分散ν(t)で表す。
そして、次式のようにその母数を遷移確率γ(m,n,
t)で重み付けて求める。
【式18】 これらを用いて、駆動源の期待値ベクトルおよび共分散
行列を、
【式19】 のように更新する。
【0025】前記「事前に音源の特徴の抽出を必要とし
ない位相合わせ処理および波形分離処理を行う」目的に
ついては以下のように解決される。隠れマルコフモデル
(HMM: Hidden Markov Mode
l)は、マルコフ連鎖の各状態に波形の出力確率を与え
たもので、配列のパターン認識に非常に有効である。特
定のモデルは多数の配列パターンを生成する。生成され
た個々の配列パターンには状態遷移確率と波形出力確率
から計算される確率が付随している。一般に同じ配列が
複数の経路から生成され得るので、それらを足し合わせ
たものが1つの配列に対する確率である。いま、隠れマ
ルコフモデルを音声認識予測に適用することを考える
と、音声認識に対してだけ高い確率を与えるようなモデ
ルをみつけることが問題となる。これはトレーニングデ
ータセットに学習アルゴリズムを適用し、隠れマルコフ
モデルのパラメータである状態遷移確率と波形出力確率
を最適化することにより、また場合によってはモデルの
長さも最適化することにより解くことができる。
【0026】いま、トレーニングの配列データが与えら
れたときに、これがモデルにどの程度適合するかは、そ
れぞれの配列が同時に起る確率であるので最尤(ML:
Maximum Likelihood)法で評価す
る。隠れマルコフモデルの学習アルゴリズムは次のよう
な逐次的方法である。まず、適当な初期モデルを選ぶ。
トレーニングデータセットの可能な経路を全て調べ、実
際に起る状態遷移の頻度と波形出力の頻度をもとに、M
Lの意味で遷移確率を更新して次のモデルとする。この
手続きを更新がわずかになるまで繰り返す。隠れマルコ
フモデルは確率的な意味で作られたプロファイルと非常
に近い関係にある。一般的にN個の異なる音源が混合さ
れている場合を想定すると、その混合波形はN個のテン
プレートモデルを用いて図2に示すようにモデリングさ
れる。この混合波形モデルにおいて、位相合わせ処理
は、入力混合波形に最も似かよった照合波形を生成する
ように、駆動源HMMの状態遷移系列を決定することで
行われる。
【0027】この問題はHMM分解法と類似している
が、HMM分解法はHMMの出力が直接加算(または相
同の演算処理)された混合波形から各HMMの状態遷移
系列を決定するのに対して、本手法は、HMMの出力が
自己回帰(AR)過程を通った後加算された混合波形か
ら各HMMの状態遷移系列を決定するという点が決定的
に異なる。
【0028】図2は図1のテンプレートモデルを用いた
混合波形のモデリング図である。図2において、N個の
テンプレートモデルをΘ(l=1,…,N)で表す。
テンプレートモデルΘの自己回帰(AR)過程の次数
をPl、自己回帰(AR)係数を
【式20】 で表す。テンプレートモデルΘのHMM駆動源モデル
の状態数をMl、状態mから状態nへの遷移確率をbl
(m,n)、状態mの出力分布を
【式21】 で表す。また、HMMのMl個の状態を集合Slで表
す。入力混合波形のT個のサンプルを
【式22】 で表す。入力混合波形のT個のサンプルに対して、N個
のテンプレートモデルの状態遷移系列を決定するには、
縦軸に
【式23】 の混合状態を並べ、初期混合状態からT回の遷移が起る
ことから、その混合状態を横軸方向に合計(T+1)個
並べたトレリスを考えることになる。
【0029】時刻tにおいて、テンプレートモデルΘ
のHMMの状態をSl(t)で表すと、混合状態はベク
トル
【式24】 で表される。位相合わせ処理は、先に述べたトレリス上
で最大尤度を与える(T+1)個のベクトル列
【式25】 を求めることに他ならない。しかし、通常のHMM分解
法と異なる点は、各HMMの出力が自己回帰(AR)過
程を通って加えられているので、時刻tの混合波形サン
プルy(t)は、各HMMの出力値だけでなく、各テン
プレートモデルの出力サンプルの自己回帰成分が加えら
れている。従って、通常のHMM分解法と同様に状態遷
移系列を決定するためには、混合波形サンプルy(t)
から各テンプレートモデルの自己回帰成分を取り除く必
要がある。
【0030】混合波形サンプルy(t)から各テンプレ
ートモデルの自己回帰成分を取り除くには、時刻tの混
合状態毎に、その状態に至る経路で得られた全テンプレ
ートモデルの照合波形を記憶しておく必要がある。この
照合波形を
【式26】 で表す。これは、時刻tにおいて混合状態Sに至る経
路で得られたテンプレートモデルΘの照合波形を表
す。
【0031】混合状態Sにおけるテンプレートモデル
Θの、時刻tにおける自己回帰成分は
【式27】 で求められる。従って、時刻tの混合波形サンプルy
(t)から全テンプレートの自己回帰成分を引いた残差
は、
【式28】 で求められ、時刻tにおける各テンプレートモデルのH
MM出力をe(t)で表すと、その残差は、
【式29】 のように、全HMM出力の総和に相当すると考えられ
る。
【0032】従って、この残差E(t)に着目すれば、
HMM分解法と同様な手法で、テンプレートモデルの状
態遷移系列を決定できるというのが、本手法の基本アイ
ディアである。以下に具体的な位相合わせおよび音源分
離の手順について説明する。時刻tにおいて混合状態S
にいる確率をP(S)で表す。混合状態の集合を
【式30】 で表す。 a−2−1)初期確率は全ての組み合わせの混合状態
【式31】 についてP(S)=1とする。t=0として以下の
処理を実行する。
【0033】a−2−2)混合状態
【式32】 毎に次の処理を実行する。 a−2−2−1)混合状態St+1へ遷移する最大確率
t+1(St+1)を、
【式33】 により求める。残差E(t)は、式27および式28よ
り求める。
【式34】 は、混合状態SにおけるE(t)の出力分布を表し、
【式35】 の正規分布で与えられる。
【0034】
【式36】 は、混合状態Sから混合状態St+1へ遷移する確率
を表し、
【式37】 で与えられる。 a−2−2−2)混合状態St+1における、各テンプ
レートモデルの照合波形を更新する。時刻tにおける、
各テンプレートモデルの照合波形のサンプル値
【式38】 を求めるには、残差E(t)をHMMの出力値
【式39】 に分解しなければならない。一方、混合状態St+1
対して混合状態Sが最大確率Pt+1(St+1)を
与えることは(a−2−2−1)の処理により求められ
ている。従って、残差E(t)を生成した時の各HMM
の出力分布は
【式40】 であるとわかる。
【0035】
【式41】残差 と各HMMの出力分布が
【式42】 である条件の下で、HMMの出力値
【式43】 の生起する尤度
【式44】 が最大になるように、残差E(t)を分解することを考
える。
【0036】ここで
【式45】 は各HMMの出力値と出力分布の尤度を表す。またこの
尤度の積を求めているのは、各HMMからの出力が互い
に独立であることを意味する。この解
【式46】 は、等価的に次の方程式を解くことで得られる。
【0037】
【式47】 (※ 式31において、母数(μ,σ)からはHMM
の状態インデックス を、そして残差(E)およびHMMの出力値(e)から
はタイムインデックス を省略した。) 式11により求められる自己回帰成分
【式48】 とHMMの出力値e(t)を用いて、各テンプレート
モデルの照合波形のサンプル値
【式49】 を、
【式50】 より求める。
【0038】以上より、混合状態St+1における、各
テンプレートモデルの照合波形は、
【式51】 で与えられる。 a−2−3)t<T−1の場合は、t←t+1として
(a2−2)の処理を繰り返す。 t=T−1の場合は、次の処理を行う。 a−2−4)最終混合状態の中で最大尤度を与える最終
混合状態を選択する。
【式52】 a−2−5)最終混合状態 における各テンプレートモデルの照合波形を分離波形と
する。
【0039】
【実施例】図7は本発明の分離装置の構成図である。本
発明の実施例の分離装置は、テンプレートモデルのデー
タベース作成手段と混合波形分離手段から成る。テンプ
レートモデルのデータベース作成の実施例について図を
用い詳細に説明する。図7において、テンプレートモデ
ルのデータベース作成手段は、調音モデル(線形フィル
タ)による逆フィルタリング10、HMM駆動源モデル
の作成手段11、尤度最大化基準に基づいた調音モデル
の作成手段12、駆動源母数の作成手段13、テンプレ
ートモデルデータベース14からなる。
【0040】テンプレートモデルのデータベースは、分
離装置が使用される音環境における環境音のサンプルを
用意し、それぞれの音響波形から生成したテンプレート
モデルを蓄積することで構築する。テンプレートモデル
は、音源の駆動源と調音部を切り離し、それぞれHMM
と線形フィルタを用いたモデル構成とする。これによ
り、データベース中のテンプレートモデルを任意の基本
周波数および位相の照合モデルに容易に再合成できる。
テンプレートモデルの作成は、音源音響波形のサンプル
に対して、尤度最大化基準に基づきパラメータを決定す
る。この尤度は、図5に示すように音響波形を線形フィ
ルタで逆フィルタリングし得られた駆動源波形とHMM
の尤度として定義する。サンプル音響波形に対するHM
Mと線形フィルタの尤度関数は非線形となるため、両者
を同時に求めることはできない。
【0041】そこで、調音モデルによる逆フィルタリン
グ10により音響波形から駆動源波形を抽出し、HMM
駆動源モデルの作成手段11によりHMMのパラメータ
を推定および更新をする。そして、駆動源波形とHMM
パラメータを基に駆動源母数の作成手段13により駆動
源母数を生成し、その駆動源母数と音響波形を基に線形
フィルタの作成手段12により線形フィルタの再推定お
よび更新をする。以上の処理を、HMMと線形フィルタ
の尤度が収束するまで繰り返し、テンプレートモデルを
生成し、データベースに格納する。
【0042】図6は、音声波形のサンプルから抽出した
駆動源波形(図中、上段)と4状態のHMMから求めら
れた状態遷移系列の例を示している。図中、同じ模様で
網掛けされている部分が、HMMの1つの状態に対応す
る。HMMの状態がリング状に接続されていることか
ら、駆動源波形の周期に同期して、4つあるHMMの状
態も順に周期的に遷移している。図中、中段と下段のグ
ラフは、各状態の出力分布における期待値と分散を表し
ている。このように、HMM音源モデルは、状態遷移系
列が定まると、駆動源波形を正規分布の時系列として表
現する。本発明による音源分離処理は、混合波形に対し
て混合HMMの状態遷移を尤度最大化基準に従って求
め、過去の分離波形による回帰成分を混合波形から取り
除くことで得られる予測残差を、各HMMの出力分布
(正規分布)に対し尤度最大化基準に従って分解するこ
とにより実現する。
【0043】次に、混合波形分離手段について説明す
る。図7において、混合波形分離手段は、テンプレート
モデルのデータベース14、最大尤度で遷移する混合状
態の決定手段15、混合波形と尤度の記憶装置16,1
9、予測残差の各HMM出力への分解手段17、分離波
形の算出手段18より構成する。音源分離処理は、混合
波形の瞬時値y(t)の入力毎に再帰的に行われる。つ
まり、ある時刻(t)までの各混合状態に至る過程で得
られた分離波形およびその尤度が全て記憶装置16に記
憶されている。そして、瞬時値y(t)を出力して最大
尤度で時刻(t+1)の混合状態に遷移してくる遷移
元、つまり時刻(t)における混合状態を手段15によ
り選択する。得られた予測残差を手段17により、各H
MMの出力値に分解し、手段18により過去の回帰成分
と加算することで、混合波形瞬時値y(t)を各音源の
出力瞬時値に分解する。そして、その分離音源瞬時値と
選択された時刻(t)の混合状態に付随している過去の
分離波形と共に尤度を記憶装置19に記憶する。
【0044】この処理が時刻(t+1)における全ての
混合状態について終了すると、記憶装置19には、時刻
(t+1)までの各混合状態に至る過程で得られた分離
波形およびその尤度が全て記憶装置19に記憶される。
そして、新たに混合波形の瞬時値y(t+1)が入力さ
れると、記憶装置19の内容を記憶装置16に複写した
後、最終時刻における混合波形の処理が終了するまで前
記の処理を再帰的に繰り返す。最終時刻における処理の
終了後、記憶装置19に格納されている混合状態の中で
最大尤度を与える混合状態を選択し、それに付随してい
る分離波形を最終的な結果として出力し、全処理が完了
する。このように本発明は、尤度最大化基準だけを基に
処理が進むので、事前に混合波形の各基本周波数成分や
位相情報を抽出しておく必要がない。また、得られた状
態遷移系列から、各音源に基本周波数および位相が得ら
れる。
【0045】次に、単母音音声を用いた音源分離実験を
紹介する。 1.使用音声データ 二人の男性話者(A,B)が、話者Aは単母音/a/
を、そして話者Bは/i/を、同レベルで2回発声した
音声を用意する。音声はサンプリング周波数16kH
z、16ビットの線形量子化によりディジタル信号に変
換した。 2.テンプレートモデルの作成 テンプレートモデルは共に、AR過程の次数は16、H
MMの状態数は10とした。それぞれの話者が2回発声
した音声のうちの一方から、定常状態にある150ms
の波形を切り出し、プレエンファシス(係数0.99)
を施したあと、アルゴリズム(a−1)によりテンプレ
ートモデルを作成した。
【0046】3.分離実験および結果 話者A,Bがそれぞれ発声したもう一方の音声を加え合
わせ、プレエンファシス(係数0.99)を施し、混合
音声を生成した。この混合波形と作成した2つのテンプ
レートモデルに対して、アルゴリズム(a−2)を施
し、音源分離実験を行う。
【0047】図3は本発明の音源分離方法の実験結果例
(分離波形)を示す図である。図3には分離結果の波形
を示し、同図(a)が混合波形、(b)(d)が混合前
の音声波形/a/,/i/、(c)(e)が混合波形か
ら分離された音声波形/a/,/i/である。(b)に
対する(c)のSNRは11.9[dB]、(d)に対
する(e)のSNRは11.7[dB]であった。図3
(b)(d)に対してアルゴリズム(a−1)を施して
得られた期待値の時系列を、それぞれ図4(a)(c)
に示す。図4は本発明の音源分離方法の実験結果例(期
待値の状態遷移)を示す図である。また図3(a)の混
合波形に対してアルゴリズム(a−2)を施して得られ
た期待値の時系列を、それぞれ図4(b)(d)に示
す。これよりアルゴリズム(a−2)は混合されている
波形の位相を正しく抽出できていることがわかる。
【0048】
【発明の効果】本発明のテンプレートモデル作成の手順
およびその手順を実行する装置によれば、HMMと線形
フィルタを組み合わせたテンプレートモデルは、音響波
形の基本周波数や位相に大きく影響を及ぼす駆動源モデ
ルと、音色を決定する調音モデルが分離されていること
から、照合モデルを生成する際に、従来法に見られるよ
うなテンプレート波形の切り張り等の処理を施す必要が
なく、任意の基本周波数または位相の照合モデルを生成
することができる。
【0049】本発明の混合波形に対する各テンプレート
モデルの照合モデルに基づき波形分離して抽出する手順
は、尤度最大化基準に従って混合HMMの状態遷移を決
定することで、テンプレートモデルの入力混合波形に対
する位相合わせを実現している。このため従来法に見ら
れるような入力混合波形から複数の基本周波数成分を分
離抽出する必要がない。また、HMMの状態遷移系列よ
り、各分離波形の基本周波数または位相情報が得られ
る。従って、この手順は、混合波形から複数の基本周波
数の抽出も実現する。この機能は、例えば、音楽音響信
号に対する自動採譜などへの応用が見込まれるものであ
る。
【0050】本発明のテンプレートモデル作成の手順に
より各音源のテンプレートモデルを作成し、基本周波数
が未知な複数の音源が混合された混合波形から、上記混
合波形に対する手順により各音源の波形を分離すること
ができる。
【図面の簡単な説明】
【図1】本発明によるテンプレートモデルを表す図であ
る。
【図2】図1のテンプレートモデルを用いた混合波形の
モデリング図である。
【図3】本発明の音源分離方法の実験結果例(分離波
形)を示す図である。
【図4】本発明の音源分離方法の実験結果例(期待値の
状態遷移)を示す図である。
【図5】図1のテンプレートモデルを作成する説明図で
ある。
【図6】本発明の駆動源HMMの状態遷移系列説明図で
ある。
【図7】本発明の分離装置の構成図である。
【符号の説明】
10調音モデル(線形フィルタ)による逆フィルタリン
グ 11HMM駆動源モデルの作成手段 12尤度最大化基準に基づいた調音モデル(線形フィル
タ)の作成手段 13駆動源母数の作成手段 14テンプレートモデル(AR−HMM)データベース 15混合波形y(t)を出力して時刻(t+1)の各混
合状態に最大尤度で遷移する時刻(t)の混合状態を決
定する手段 16時刻(t)の各混合状態に至る過程で得られた分離
音源波形および尤度を記憶しておく記憶装置 17予測残差の各HMM出力への分解手段 18回帰成分と加算し、各音源の時刻(t)における分
離波形瞬時値の算出手段 19時刻(t+1)の各混合状態に至る過程で得られた
分離音源波形および尤度を記憶しておく装置

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】入力された混合音源音響波形に対し隠れマ
    ルコフモデル(HMM)と線形フィルタの組み合わせに
    よる音源波形の確率モデルを求め、この確率モデルを基
    に前記入力波形に対し尤度最大化基準に基づきテンプレ
    ートモデルを作成し、このテンプレートモデルを照合モ
    デルとして入力された混合音源音響波形を分離する手順
    からなることを特徴とする音源の分離方法。
  2. 【請求項2】入力された混合音源音響波形に対し隠れマ
    ルコフモデル(HMM)と線形フィルタの組み合わせに
    よる音源波形の確率モデルを求め、この確率モデルを基
    に前記入力波形に対し尤度最大化基準に基づきテンプレ
    ートモデルを作成し、このテンプレートモデルを照合モ
    デルとして入力された混合音源音響波形を分離する手段
    を備えたことを特徴とする音源の分離装置。
  3. 【請求項3】入力された混合音源音響波形に対し隠れマ
    ルコフモデル(HMM)と線形フィルタの組み合わせに
    よる音源波形の確率モデルを求め、この確率モデルを基
    に前記入力波形に対し尤度最大化基準に基づきテンプレ
    ートモデルを作成し、前記混合波形に対するテンプレー
    トモデルの位相合わせを混合HMMの状態遷移を尤度最
    大化基準に従って決定することによって求め、分離波形
    を得る手順からなることを特徴とする音源の分離方法。
  4. 【請求項4】入力された混合音源音響波形に対し隠れマ
    ルコフモデル(HMM)と線形フィルタの組み合わせに
    よる音源波形の確率モデルを求め、この確率モデルを基
    に前記入力波形に対し尤度最大化基準に基づきテンプレ
    ートモデルを作成し、前記混合波形に対するテンプレー
    トモデルの位相合わせを混合HMMの状態遷移を尤度最
    大化基準に従って決定することによって求め、分離波形
    を得る手段を備えたことを特徴とする音源の分離装置。
  5. 【請求項5】隠れマルコフモデル(HMM)と線形フィ
    ルタの組み合わせによる音源波形の確率モデルをテンプ
    レートとして、混合音源音響波形をそれぞれの音響波形
    に分離する手順からなることを特徴とする音源の分離方
    法。
  6. 【請求項6】隠れマルコフモデル(HMM)と線形フィ
    ルタの組み合わせによる音源波形の確率モデルをテンプ
    レートとして、混合音源音響波形をそれぞれの音響波形
    に分離する手段を備えたことを特徴とする音源の分離装
    置。
  7. 【請求項7】隠れマルコフモデル(HMM)と線形フィ
    ルタの組み合わせによる音源波形の確率モデルをテンプ
    レートとし、このテンプレートモデルを混合したモデル
    を基準として、尤度最大化基準に従って混合HMMの状
    態遷移を決定し、その遷移において得られる残差を尤度
    最大化基準に従って各HMM出力値に分解し、混合テン
    プレートモデルの入力混合波形に対する位相合わせを行
    う手順からなることを特徴とする音源の分離方法。
  8. 【請求項8】隠れマルコフモデル(HMM)と線形フィ
    ルタの組み合わせによる音源波形の確率モデルをテンプ
    レートとし、このテンプレートモデルを混合したモデル
    を基準として、尤度最大化基準に従って混合HMMの状
    態遷移を決定し、その遷移において得られる残差を尤度
    最大化基準に従って各HMM出力値に分解し、混合テン
    プレートモデルの入力混合波形に対する位相合わせを行
    う手段を備えたことを特徴とする音源の分離装置。
JP2001193648A 2001-06-26 2001-06-26 音源の分離方法および分離装置 Expired - Lifetime JP3541224B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001193648A JP3541224B2 (ja) 2001-06-26 2001-06-26 音源の分離方法および分離装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001193648A JP3541224B2 (ja) 2001-06-26 2001-06-26 音源の分離方法および分離装置

Publications (2)

Publication Number Publication Date
JP2003005785A true JP2003005785A (ja) 2003-01-08
JP3541224B2 JP3541224B2 (ja) 2004-07-07

Family

ID=19031894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001193648A Expired - Lifetime JP3541224B2 (ja) 2001-06-26 2001-06-26 音源の分離方法および分離装置

Country Status (1)

Country Link
JP (1) JP3541224B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006090904A (ja) * 2004-09-24 2006-04-06 Toenec Corp 電気設備の診断システム
JP2007033445A (ja) * 2005-07-25 2007-02-08 Mitsubishi Electric Research Laboratories Inc 信号源の軌跡をモデル化する方法及びシステム
JP2007079072A (ja) * 2005-09-13 2007-03-29 National Institute Of Advanced Industrial & Technology 音声認識方法および音声認識装置
JP2008165125A (ja) * 2007-01-05 2008-07-17 Kenwood Corp 音声信号処理装置、音声信号処理方法、および、音声信号処理プログラム
WO2008117359A1 (ja) * 2007-03-22 2008-10-02 Pioneer Corporation 楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム
WO2013145578A1 (ja) * 2012-03-30 2013-10-03 日本電気株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP2014071417A (ja) * 2012-10-01 2014-04-21 National Institute Of Advanced Industrial & Technology Ar−hmmのトポロジ自動生成
JP2014157261A (ja) * 2013-02-15 2014-08-28 Nippon Telegr & Teleph Corp <Ntt> 音源分離装置、音源分離方法、およびプログラム
JPWO2019123883A1 (ja) * 2017-12-22 2021-01-28 住友電気工業株式会社 判定装置、太陽光発電システム、判定方法および判定プログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006090904A (ja) * 2004-09-24 2006-04-06 Toenec Corp 電気設備の診断システム
JP2007033445A (ja) * 2005-07-25 2007-02-08 Mitsubishi Electric Research Laboratories Inc 信号源の軌跡をモデル化する方法及びシステム
JP2007079072A (ja) * 2005-09-13 2007-03-29 National Institute Of Advanced Industrial & Technology 音声認識方法および音声認識装置
JP4576612B2 (ja) * 2005-09-13 2010-11-10 独立行政法人産業技術総合研究所 音声認識方法および音声認識装置
JP2008165125A (ja) * 2007-01-05 2008-07-17 Kenwood Corp 音声信号処理装置、音声信号処理方法、および、音声信号処理プログラム
WO2008117359A1 (ja) * 2007-03-22 2008-10-02 Pioneer Corporation 楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム
JP4843711B2 (ja) * 2007-03-22 2011-12-21 パイオニア株式会社 楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム
WO2013145578A1 (ja) * 2012-03-30 2013-10-03 日本電気株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP2014071417A (ja) * 2012-10-01 2014-04-21 National Institute Of Advanced Industrial & Technology Ar−hmmのトポロジ自動生成
JP2014157261A (ja) * 2013-02-15 2014-08-28 Nippon Telegr & Teleph Corp <Ntt> 音源分離装置、音源分離方法、およびプログラム
JPWO2019123883A1 (ja) * 2017-12-22 2021-01-28 住友電気工業株式会社 判定装置、太陽光発電システム、判定方法および判定プログラム
JP7157393B2 (ja) 2017-12-22 2022-10-20 住友電気工業株式会社 判定装置、太陽光発電システム、判定方法および判定プログラム

Also Published As

Publication number Publication date
JP3541224B2 (ja) 2004-07-07

Similar Documents

Publication Publication Date Title
US5793891A (en) Adaptive training method for pattern recognition
US9099082B2 (en) Apparatus for correcting error in speech recognition
CN107924678B (zh) 语音合成装置、语音合成方法及存储介质
US7587321B2 (en) Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system
JP2003022087A (ja) 音声認識方法
JPH11327592A (ja) 話者正規化処理装置及び音声認識装置
JPH0431600B2 (ja)
JPH0554959B2 (ja)
JPH01102599A (ja) 音声認識方法
CN102436807A (zh) 自动生成重读音节语音的方法和系统
JP2004226982A (ja) 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
JPH05204392A (ja) 自動音声認識用の音響プロトタイプを生成する方法及び装置
JP3541224B2 (ja) 音源の分離方法および分離装置
Eichner et al. A unified approach for speech synthesis and speech recognition using stochastic Markov graphs.
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JP2004117624A (ja) 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
WO2010109725A1 (ja) 音声処理装置、音声処理方法、及び、音声処理プログラム
JPH08110792A (ja) 話者適応化装置及び音声認識装置
JPH1097278A (ja) 音声認識方法および装置
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JPH0981178A (ja) 不特定話者モデル作成装置及び音声認識装置
JP2888781B2 (ja) 話者適応化装置及び音声認識装置
Orphanidou et al. Voice morphing using the generative topographic mapping
JPH0822296A (ja) パターン認識方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040302

R150 Certificate of patent or registration of utility model

Ref document number: 3541224

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term