JP3541224B2 - 音源の分離方法および分離装置 - Google Patents

音源の分離方法および分離装置 Download PDF

Info

Publication number
JP3541224B2
JP3541224B2 JP2001193648A JP2001193648A JP3541224B2 JP 3541224 B2 JP3541224 B2 JP 3541224B2 JP 2001193648 A JP2001193648 A JP 2001193648A JP 2001193648 A JP2001193648 A JP 2001193648A JP 3541224 B2 JP3541224 B2 JP 3541224B2
Authority
JP
Japan
Prior art keywords
waveform
model
sound source
mixed
hmm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001193648A
Other languages
English (en)
Other versions
JP2003005785A (ja
Inventor
晃 佐宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2001193648A priority Critical patent/JP3541224B2/ja
Publication of JP2003005785A publication Critical patent/JP2003005785A/ja
Application granted granted Critical
Publication of JP3541224B2 publication Critical patent/JP3541224B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、さまざまな環境音や複数音声が同時に発生している音響環境において、予めその環境音や音声のサンプル音響波形からテンプレートモデルデータベースを作成しておき、得られた混合音源音響波形(以後、混合波形)から、そのテンプレートモデルに基づき所望の音源の音響波形を分離・同定するシステムである。
【0002】
【従来技術】
実環境下でのロバストな音声処理技術の開発においては、さまざまな環境音や複数音声から所望の音声を分離する技術が必要不可欠である。例えば、カーナビゲーションシステムのような車内での音声認識率の向上や、携帯電話などで一般的に用いられている音声の生成過程に則った圧縮方式による圧縮音声の品質向上、また、最近普及しつつある家庭内ロボットのための音環境理解(例えば、ロボットに呼びかけている複数話者の分離同定、また環境音の分離同定による周囲の状況把握など)に応用が見込まれる技術である。また、音楽音響信号処理への応用も考えられる。例えば、各楽器の音響信号の分離同定、基本周波数の分離抽出による自動採譜などである。
【0003】
従来、テンプレート(見本)波形と入力混合波形の照合により分離同を行う手法が提案されている。このようなアプローチの問題点の1つに、テンプレート波形の基本周波数および位相と、入力混合波形のそれが通常一致しないということである。このため、分離同定を実現するためには、テンプレート波形の基本周波数および位相を入力混合波形のそれに時々刻々と合わせこむ必要がある。従来の位相合わせ処理としては、例えば、特開平10−229336号公報に示されている技術がる。この技術は以下のような特徴を有する。
【0004】
▲1▼入力混合波形に対して周波数解析を行い、混合されている全ての基本周波数成分を抽出する。
▲2▼テンプレート波形も狭帯域バンドパスフィルタに通して基本周波数成分を抽出する。
▲3▼両者の位相を比較して、位相差に対応する時間だけテンプレート波形を遅延させる
などのアルゴリズムが提案されている。
【0005】
しかし、このような手法では▲1▼の処理で混合波形から基本周波数成分が正確に抽出されることが必要であるが、一般的に十分な精度で混合されている基本周波数成分の分離抽出を実現する手法はまだ確立されていない。さらに、この手法をもとにした位相合わせ処理の精度も十分ではなく、最終的な音源の分離同定精度に悪影響を及ぼすことになる。また▲3▼のテンプレート波形遅延処理において、テンプレート波形から1周期分の波形の切り出しや、その切り出し波形を入力混合波形の位相に合わせて並べる際に、切り出し誤差や周期長が異なることによる波形誤差が発生する。これが、分離音源音響波形(以後、分離波形という)の品質を劣化させる要因となっていた。
【0006】
【発明が解決しようとする課題】
本発明の目的は、上記従来技術の欠点に鑑み、テンプレートモデルをその変形操作によっても入力混合波形と比べて誤差の少ない照合波形を生成できるようにすると共に、事前に音源の特徴の抽出を必要としない位相合わせ処理および波形分離処理を行うことができるようにする音源の分離方法および分離装置を提供することである。
【0007】
【課題を解決するための手段】
本発明は上記目的を達成するために以下の手段を採用する。
(1)音源の分離方法において、入力された混合音源音響波形に対し隠れマルコフモデル(HMM)と線形フィルタの組み合わせによる音源波形の確率モデルを求め、この確率モデルを基に前記入力波形に対し尤度最大化基準に基づきテンプレートモデルを作成し、このテンプレートモデルを照合モデルとして入力された混合音源音響波形を分離する手順からなることを特徴とする。
【0008】
(2)音源の分離装置において、入力された混合音源音響波形に対し隠れマルコフモデル(HMM)と線形フィルタの組み合わせによる音源波形の確率モデルを求め、この確率モデルを基に前記入力波形に対し尤度最大化基準に基づきテンプレートモデルを作成し、このテンプレートモデルを照合モデルとして入力された混合音源音響波形を分離する手段を備えたことを特徴とする。
(3)音源の分離方法において、入力された混合音源音響波形に対し隠れマルコフモデル(HMM)と線形フィルタの組み合わせによる音源波形の確率モデルを求め、この確率モデルを基に前記入力波形に対し尤度最大化基準に基づきテンプレートモデルを作成し、前記混合波形に対するテンプレートモデルの位相合わせを混合HMMの状態遷移を尤度最大化基準に従って決定することによって求め、分離波形を得る手順からなることを特徴とする。
【0009】
(4)音源の分離装置において、入力された混合音源音響波形に対し隠れマルコフモデル(HMM)と線形フィルタの組み合わせによる音源波形の確率モデルを求め、この確率モデルを基に前記入力波形に対し尤度最大化基準に基づきテンプレートモデルを作成し、前記混合波形に対するテンプレートモデルの位相合わせを混合HMMの状態遷移を尤度最大化基準に従って決定することによって求め、分離波形を得る手段を備えたことを特徴とする。
(5)音源の分離方法において、隠れマルコフモデル(HMM)と線形フィルタの組み合わせによる音源波形の確率モデルをテンプレートとして、混合音源音響波形をそれぞれの音響波形に分離する手順からなることを特徴とする。
【0010】
(6)音源の分離装置において、隠れマルコフモデル(HMM)と線形フィルタの組み合わせによる音源波形の確率モデルをテンプレートとして、混合音源音響波形をそれぞれの音響波形に分離する手段を備えたことを特徴とする。
(7)音源の分離方法において、隠れマルコフモデル(HMM)と線形フィルタの組み合わせによる音源波形の確率モデルをテンプレートとし、このテンプレートモデルを混合したモデルを基準として、尤度最大化基準に従って混合HMMの状態遷移を決定し、その遷移において得られる残差を尤度最大化基準に従って各HMM出力値に分解し、混合テンプレートモデルの入力混合波形に対する位相合わせを行う手順からなることを特徴とする。
【0011】
(8)音源の分離装置において、隠れマルコフモデル(HMM)と線形フィルタの組み合わせによる音源波形の確率モデルをテンプレートとし、このテンプレートモデルを混合したモデルを基準として、尤度最大化基準に従って混合HMMの状態遷移を決定し、その遷移において得られる残差を尤度最大化基準に従って各HMM出力値に分解し、混合テンプレートモデルの入力混合波形に対する位相合わせを行う手段を備えたことを特徴とする。
【発明の実施の形態】
【0012】
以下、本発明の実施の形態について詳細に説明する。
観測された音響的現象から、それが何というカテゴリの音なのかを当てるためには、各々の音を発話したとき、その音響的現象がどの程度生起しやすいかを、確率的にモデル化しておく必要がある。
【0013】
一般的には、この目的には、HMM(Hidden Markov Model)が用いられるが、HMMは、区分定常過程しか表現することができず、音の過渡部分の表現に難がある。また、音の性質は、その音の先行音や後続音に大きく影響を受けるが、HMMではこのような環境依存的な音の性質を表現することが難しく、環境毎に異なるモデルを複数持つ必要があるなどの問題もある。
このような問題を解決するために、本発明はモデルの振る舞いを過去の出力に依存して決めるあらたなモデルを提案する。過去の出力に依存して、モデルの遷移確率と出力確率が決まるため、過渡部の表現に優れている。
【0014】
以下、本発明について、図を参照しながら詳細に説明する。
まず、上記「テンプレートモデルをその変形操作によっても入力混合波形と比べて誤差の少ない照合波形を生成できるようにする」目的は図1に示すテンプレートモデルを用いることで解決される。
【0015】
このテンプレートモデルは、駆動源モデルと調音モデルが分離されており、駆動源モデルとして隠れマルコフモデルを、調音モデルには線形フィルタを用いる。駆動源モデルとは、例えば、音声の場合は声帯振動による駆動源に相当し、管楽器などではマウスピースによる駆動源に相当する。周期的に特定の波形が繰り返される駆動源は、その周期性を表すために各状態がリング状につながれたHMMを用いる。各状態からの遷移パスは自分自身への遷移パスと隣接する状態への遷移パスの2つをもつ。このHMMの状態を1周遷移することが駆動源の1周期に相当する。また、各状態の出力分布は単一の正規分布とする。周期性を仮定できない駆動源の場合は、エルゴディックHMMを用いるなど、その駆動源の特徴を反映したトポロジィーのHMMを用いる。調音モデルとは駆動源に音色を与える部分で、例えば、音声の場合は調音器官に相当し、管楽器では管に相当する。調音モデルとしては一般的にARMA(Auto−Regressive Moving Average)モデルを用いるが、以下ではAR(Auto−Regressive )モデルを用いる。
【0016】
図1は本発明によるテンプレートモデルを表す図である。
テンプレートモデルの作成について以下に説明する。
テンプレートモデル作成に用いる音響波形のN個のサンプルを
【式1】
Figure 0003541224
で表す。
調音モデルのAR過程の次数をp、AR係数ベクトルを
【式2】
Figure 0003541224
で表す。
【0017】
駆動源モデルのHMMはM個の状態を持ち、各状態に固有の番号(1,…,M)を識別子として割り振る。状態mの出力分布を期待値μ(m)と分散σ(m)で表す。また、状態nから状態mへの遷移確率をb(n,m)で表す。
時刻tにおけるHMMの状態をs(t)、駆動源をe(t)で表す。このテンプレートモデルにおいて、駆動源ベクトル
【式3】
Figure 0003541224
は、
期待値ベクトル
【式4】
Figure 0003541224

【0018】
共分散行列
【式5】
Figure 0003541224
の多次元正規分布に従う確率変数ベクトルである。
以上のように、テンプレートモデルは、AR係数、HMMの状態数、出力分布、遷移確率をパラメータとして表現される。テンプレートモデルの作成は、図5に示すように、与えられた音源の音響波形サンプルに対して、尤度を最大化するようにテンプレートモデルのパラメータを推定することで行われる。
以下にテンプレートモデル作成の具体的な手順について説明する。
【0019】
a1−1)駆動源の初期母数を
【式6】
Figure 0003541224
のように設定し、i=0として以下の処理を実行する。
a1−2)AR係数ベクトルを
【式7】
Figure 0003541224
により求める。ここで
【式8】
Figure 0003541224
とする。
a1−3)予測残差ベクトルを
【式9】
Figure 0003541224
により求める。
【0020】
a1−4)予測残差の時系列
【式10】
Figure 0003541224
に対してBaum−Welchのアルゴリズムを用い、HMMの出力分布
【式11】
Figure 0003541224
および遷移確率
【式12】
Figure 0003541224
を求める。
a1−5)予測残差の時系列に対してViterbiのアルゴリズムを用い、求めたHMMの尤度を最大にする状態遷移系列
【式13】
Figure 0003541224
を求める。
【0021】
a1−6)HMMの出力分布と状態遷移系列を用いて、駆動源の期待値ベクトルおよび共分散行列を、
【式14】
Figure 0003541224
【式15】
Figure 0003541224
のように更新する。
a1−7)評価値
【式16】
Figure 0003541224
を求め、収束していれば終了し、収束していなければi←i+1として(a1−2)から繰り返す。
【0022】
上記のテンプレートモデル作成アルゴリズム(a1)の補足
HMMの状態数とAR過程の予測次数は、次式で定義されるAICなどを用いて決定することができる。
【式17】
Figure 0003541224
ここで、MはHMMの状態数を表し、pはAR過程の予測次数である。このAICが最小となるMとpをモデルとして採用する。
しかし、16kHzでサンプリングされた音声を分離対象とする場合は、経験的に予測次数は16〜20、HMMの状態数は10〜16の間で適当に決定しても問題ない。
【0023】
(a1−1)において、分散の初期値σ は実質的には任意係数である。例えばσ =1としておく。
(a1−4)において、Baum−Welchのアルゴリズムを用いて予測残差の時系列に対するHMMの学習を行う場合、以下の手順でHMMの初期設定を行う。
a1−4−1)はじめてHMMの学習を行う場合(i=0)は(a1−4−2)〜(a1−4−5)の処理を行い、そうでない場合(i>0)は前回に学習したHMMを初期値として採用する。
a1−4−2)予測残差の時系列の自己相関より基本周期を求める。
a1−4−3)予測残差の時系列の1周期を更にHMMの状態数分(M)の領域に等分割し、各周期の先頭の領域から順番にHMMの1…Mの状態に対応付ける。
a1−4−4)HMMの各状態に対応する全ての領域の予測残差から、平均と分散を求め、これを初期出力分布とする。
a1−4−5)遷移確率は全て乱数で初期設定する。
【0024】
(a1−5),(a1−6)の駆動源の母数の更新処理において、Viterbiアルゴリズムにより得られた状態遷移系列に従って得られる期待値ベクトルと共分散行列の各要素は、状態が切り替わる位置で不連続に変化する。これがテンプレートモデルの精度を劣化する場合は、以下の代替手法を用いることで精度劣化を回避する。
a1−5−a)状態間の遷移確率γ(m,n,t)を求める。γ(m,n,t)はHMMが
Figure 0003541224
を出力して状態mから状態nへ遷移する確率を表す。γ(m,n,t)の計算は公知のフォワードバックワードアルゴリズムを用いて計算する。
a1−6−a)時刻tにおける駆動源
Figure 0003541224
の母数を改めて期待値m(t)と分散ν(t)で表す。そして、次式のようにその母数を遷移確率γ(m,n,t)で重み付けて求める。
【式18】
Figure 0003541224
Figure 0003541224
これらを用いて、駆動源の期待値ベクトルおよび共分散行列を、
【式19】
Figure 0003541224

Figure 0003541224
のように更新する。
【0025】
前記「事前に音源の特徴の抽出を必要としない位相合わせ処理および波形分離処理を行う」目的については以下のように解決される。
隠れマルコフモデル(HMM: Hidden Markov Model)は、マルコフ連鎖の各状態に波形の出力確率を与えたもので、配列のパターン認識に非常に有効である。特定のモデルは多数の配列パターンを生成する。生成された個々の配列パターンには状態遷移確率と波形出力確率から計算される確率が付随している。一般に同じ配列が複数の経路から生成され得るので、それらを足し合わせたものが1つの配列に対する確率である。いま、隠れマルコフモデルを音声認識予測に適用することを考えると、音声認識に対してだけ高い確率を与えるようなモデルをみつけることが問題となる。これはトレーニングデータセットに学習アルゴリズムを適用し、隠れマルコフモデルのパラメータである状態遷移確率と波形出力確率を最適化することにより、また場合によってはモデルの長さも最適化することにより解くことができる。
【0026】
いま、トレーニングの配列データが与えられたときに、これがモデルにどの程度適合するかは、それぞれの配列が同時に起る確率であるので最尤(ML:Maximum Likelihood)法で評価する。
隠れマルコフモデルの学習アルゴリズムは次のような逐次的方法である。まず、適当な初期モデルを選ぶ。トレーニングデータセットの可能な経路を全て調べ、実際に起る状態遷移の頻度と波形出力の頻度をもとに、MLの意味で遷移確率を更新して次のモデルとする。この手続きを更新がわずかになるまで繰り返す。隠れマルコフモデルは確率的な意味で作られたプロファイルと非常に近い関係にある。
一般的にN個の異なる音源が混合されている場合を想定すると、その混合波形はN個のテンプレートモデルを用いて図2に示すようにモデリングされる。この混合波形モデルにおいて、位相合わせ処理は、入力混合波形に最も似かよった照合波形を生成するように、駆動源HMMの状態遷移系列を決定することで行われる。
【0027】
この問題はHMM分解法と類似しているが、HMM分解法はHMMの出力が直接加算(または相同の演算処理)された混合波形から各HMMの状態遷移系列を決定するのに対して、本手法は、HMMの出力が自己回帰(AR)過程を通った後加算された混合波形から各HMMの状態遷移系列を決定するという点が決定的に異なる。
【0028】
図2は図1のテンプレートモデルを用いた混合波形のモデリング図である。図2において、N個のテンプレートモデルをΘ(l=1,…,N)で表す。テンプレートモデルΘの自己回帰(AR)過程の次数をPl、自己回帰(AR)係数を
【式20】
Figure 0003541224
で表す。テンプレートモデルΘのHMM駆動源モデルの状態数をMl、状態mから状態nへの遷移確率をbl(m,n)、状態mの出力分布を
【式21】
Figure 0003541224
で表す。また、HMMのMl個の状態を集合Slで表す。入力混合波形のT個のサンプルを
【式22】
Figure 0003541224
で表す。
入力混合波形のT個のサンプルに対して、N個のテンプレートモデルの状態遷移系列を決定するには、縦軸に
【式23】
Figure 0003541224
の混合状態を並べ、初期混合状態からT回の遷移が起ることから、その混合状態を横軸方向に合計(T+1)個並べたトレリスを考えることになる。
【0029】
時刻tにおいて、テンプレートモデルΘのHMMの状態をSl(t)で表すと、混合状態はベクトル
【式24】
Figure 0003541224
で表される。位相合わせ処理は、先に述べたトレリス上で最大尤度を与える(T+1)個のベクトル列
【式25】
Figure 0003541224
を求めることに他ならない。
しかし、通常のHMM分解法と異なる点は、各HMMの出力が自己回帰(AR)過程を通って加えられているので、時刻tの混合波形サンプルy(t)は、各HMMの出力値だけでなく、各テンプレートモデルの出力サンプルの自己回帰成分が加えられている。従って、通常のHMM分解法と同様に状態遷移系列を決定するためには、混合波形サンプルy(t)から各テンプレートモデルの自己回帰成分を取り除く必要がある。
【0030】
混合波形サンプルy(t)から各テンプレートモデルの自己回帰成分を取り除くには、時刻tの混合状態毎に、その状態に至る経路で得られた全テンプレートモデルの照合波形を記憶しておく必要がある。この照合波形を
【式26】
Figure 0003541224
で表す。これは、時刻tにおいて混合状態Sに至る経路で得られたテンプレートモデルΘの照合波形を表す。
【0031】
混合状態SにおけるテンプレートモデルΘの、時刻tにおける自己回帰成分は
【式27】
Figure 0003541224
で求められる。従って、時刻tの混合波形サンプルy(t)から全テンプレートの自己回帰成分を引いた残差は、
【式28】
Figure 0003541224
で求められ、時刻tにおける各テンプレートモデルのHMM出力をe(t)で表すと、その残差は、
【式29】
Figure 0003541224
のように、全HMM出力の総和に相当すると考えられる。
【0032】
従って、この残差E(t)に着目すれば、HMM分解法と同様な手法で、テンプレートモデルの状態遷移系列を決定できるというのが、本手法の基本アイディアである。
以下に具体的な位相合わせおよび音源分離の手順について説明する。
時刻tにおいて混合状態Sにいる確率をP(S)で表す。
混合状態の集合を
【式30】
Figure 0003541224
で表す。
a−2−1)初期確率は全ての組み合わせの混合状態
【式31】
Figure 0003541224
についてP(S)=1とする。t=0として以下の処理を実行する。
【0033】
a−2−2)混合状態
【式32】
Figure 0003541224
毎に次の処理を実行する。
a−2−2−1)混合状態St+1へ遷移する最大確率Pt+1(St+1)を、
【式33】
Figure 0003541224
により求める。
残差E(t)は、式27および式28より求める。
【式34】
Figure 0003541224
は、混合状態SにおけるE(t)の出力分布を表し、
【式35】
Figure 0003541224
の正規分布で与えられる。
【0034】
【式36】
Figure 0003541224
は、混合状態Sから混合状態St+1へ遷移する確率を表し、
【式37】
Figure 0003541224
で与えられる。
a−2−2−2)混合状態St+1における、各テンプレートモデルの照合波形を更新する。
時刻tにおける、各テンプレートモデルの照合波形のサンプル値
【式38】
Figure 0003541224
を求めるには、残差E(t)をHMMの出力値
【式39】
Figure 0003541224
に分解しなければならない。一方、混合状態St+1に対して混合状態Sが最大確率Pt+1(St+1)を与えることは(a−2−2−1)の処理により求められている。従って、残差E(t)を生成した時の各HMMの出力分布は
【式40】
Figure 0003541224
であるとわかる。
【0035】
【式41】
残差
Figure 0003541224
と各HMMの出力分布が
【式42】
Figure 0003541224
である条件の下で、HMMの出力値
【式43】
Figure 0003541224
の生起する尤度
【式44】
Figure 0003541224
が最大になるように、残差E(t)を分解することを考える。
【0036】
ここで
【式45】
Figure 0003541224
は各HMMの出力値と出力分布の尤度を表す。またこの尤度の積を求めているのは、各HMMからの出力が互いに独立であることを意味する。この解
【式46】
Figure 0003541224
は、等価的に次の方程式を解くことで得られる。
【0037】
【式47】
Figure 0003541224
(※ 式31において、母数(μ,σ)からはHMMの状態インデックス
Figure 0003541224
を、そして残差(E)およびHMMの出力値(e)からはタイムインデックス
Figure 0003541224
を省略した。)
式11により求められる自己回帰成分
【式48】
Figure 0003541224
とHMMの出力値e(t)を用いて、各テンプレートモデルの照合波形のサンプル値
【式49】
Figure 0003541224
を、
【式50】
Figure 0003541224
より求める。
【0038】
以上より、混合状態St+1における、各テンプレートモデルの照合波形は、
【式51】
Figure 0003541224
で与えられる。
a−2−3)t<T−1の場合は、t←t+1として(a2−2)の処理を繰り返す。
t=T−1の場合は、次の処理を行う。
a−2−4)最終混合状態の中で最大尤度を与える最終混合状態を選択する。
【式52】
Figure 0003541224
a−2−5)最終混合状態
Figure 0003541224
における各テンプレートモデルの照合波形を分離波形とする。
【0039】
【実施例】
図7は本発明の分離装置の構成図である。
本発明の実施例の分離装置は、テンプレートモデルのデータベース作成手段と混合波形分離手段から成る。
テンプレートモデルのデータベース作成の実施例について図を用い詳細に説明する。
図7において、テンプレートモデルのデータベース作成手段は、調音モデル(線形フィルタ)による逆フィルタリング10、HMM駆動源モデルの作成手段11、尤度最大化基準に基づいた調音モデルの作成手段12、駆動源母数の作成手段13、テンプレートモデルデータベース14からなる。
【0040】
テンプレートモデルのデータベースは、分離装置が使用される音環境における環境音のサンプルを用意し、それぞれの音響波形から生成したテンプレートモデルを蓄積することで構築する。
テンプレートモデルは、音源の駆動源と調音部を切り離し、それぞれHMMと線形フィルタを用いたモデル構成とする。これにより、データベース中のテンプレートモデルを任意の基本周波数および位相の照合モデルに容易に再合成できる。テンプレートモデルの作成は、音源音響波形のサンプルに対して、尤度最大化基準に基づきパラメータを決定する。この尤度は、図5に示すように音響波形を線形フィルタで逆フィルタリングし得られた駆動源波形とHMMの尤度として定義する。サンプル音響波形に対するHMMと線形フィルタの尤度関数は非線形となるため、両者を同時に求めることはできない。
【0041】
そこで、調音モデルによる逆フィルタリング10により音響波形から駆動源波形を抽出し、HMM駆動源モデルの作成手段11によりHMMのパラメータを推定および更新をする。そして、駆動源波形とHMMパラメータを基に駆動源母数の作成手段13により駆動源母数を生成し、その駆動源母数と音響波形を基に線形フィルタの作成手段12により線形フィルタの再推定および更新をする。以上の処理を、HMMと線形フィルタの尤度が収束するまで繰り返し、テンプレートモデルを生成し、データベースに格納する。
【0042】
図6は、音声波形のサンプルから抽出した駆動源波形(図中、上段)と4状態のHMMから求められた状態遷移系列の例を示している。図中、同じ模様で網掛けされている部分が、HMMの1つの状態に対応する。HMMの状態がリング状に接続されていることから、駆動源波形の周期に同期して、4つあるHMMの状態も順に周期的に遷移している。図中、中段と下段のグラフは、各状態の出力分布における期待値と分散を表している。このように、HMM音源モデルは、状態遷移系列が定まると、駆動源波形を正規分布の時系列として表現する。本発明による音源分離処理は、混合波形に対して混合HMMの状態遷移を尤度最大化基準に従って求め、過去の分離波形による回帰成分を混合波形から取り除くことで得られる予測残差を、各HMMの出力分布(正規分布)に対し尤度最大化基準に従って分解することにより実現する。
【0043】
次に、混合波形分離手段について説明する。
図7において、混合波形分離手段は、テンプレートモデルのデータベース14、最大尤度で遷移する混合状態の決定手段15、混合波形と尤度の記憶装置16,19、予測残差の各HMM出力への分解手段17、分離波形の算出手段18より構成する。
音源分離処理は、混合波形の瞬時値y(t)の入力毎に再帰的に行われる。つまり、ある時刻(t)までの各混合状態に至る過程で得られた分離波形およびその尤度が全て記憶装置16に記憶されている。そして、瞬時値y(t)を出力して最大尤度で時刻(t+1)の混合状態に遷移してくる遷移元、つまり時刻(t)における混合状態を手段15により選択する。得られた予測残差を手段17により、各HMMの出力値に分解し、手段18により過去の回帰成分と加算することで、混合波形瞬時値y(t)を各音源の出力瞬時値に分解する。そして、その分離音源瞬時値と選択された時刻(t)の混合状態に付随している過去の分離波形と共に尤度を記憶装置19に記憶する。
【0044】
この処理が時刻(t+1)における全ての混合状態について終了すると、記憶装置19には、時刻(t+1)までの各混合状態に至る過程で得られた分離波形およびその尤度が全て記憶装置19に記憶される。そして、新たに混合波形の瞬時値y(t+1)が入力されると、記憶装置19の内容を記憶装置16に複写した後、最終時刻における混合波形の処理が終了するまで前記の処理を再帰的に繰り返す。最終時刻における処理の終了後、記憶装置19に格納されている混合状態の中で最大尤度を与える混合状態を選択し、それに付随している分離波形を最終的な結果として出力し、全処理が完了する。
このように本発明は、尤度最大化基準だけを基に処理が進むので、事前に混合波形の各基本周波数成分や位相情報を抽出しておく必要がない。また、得られた状態遷移系列から、各音源に基本周波数および位相が得られる。
【0045】
次に、単母音音声を用いた音源分離実験を紹介する。
1.使用音声データ
二人の男性話者(A,B)が、話者Aは単母音/a/を、そして話者Bは/i/を、同レベルで2回発声した音声を用意する。音声はサンプリング周波数16kHz、16ビットの線形量子化によりディジタル信号に変換した。
2.テンプレートモデルの作成
テンプレートモデルは共に、AR過程の次数は16、HMMの状態数は10とした。
それぞれの話者が2回発声した音声のうちの一方から、定常状態にある150msの波形を切り出し、プレエンファシス(係数0.99)を施したあと、アルゴリズム(a−1)によりテンプレートモデルを作成した。
【0046】
3.分離実験および結果
話者A,Bがそれぞれ発声したもう一方の音声を加え合わせ、プレエンファシス(係数0.99)を施し、混合音声を生成した。この混合波形と作成した2つのテンプレートモデルに対して、アルゴリズム(a−2)を施し、音源分離実験を行う。
【0047】
図3は本発明の音源分離方法の実験結果例(分離波形)を示す図である。
図3には分離結果の波形を示し、同図(a)が混合波形、(b)(d)が混合前の音声波形/a/,/i/、(c)(e)が混合波形から分離された音声波形/a/,/i/である。(b)に対する(c)のSNRは11.9[dB]、(d)に対する(e)のSNRは11.7[dB]であった。
図3(b)(d)に対してアルゴリズム(a−1)を施して得られた期待値の時系列を、それぞれ図4(a)(c)に示す。図4は本発明の音源分離方法の実験結果例(期待値の状態遷移)を示す図である。また図3(a)の混合波形に対してアルゴリズム(a−2)を施して得られた期待値の時系列を、それぞれ図4(b)(d)に示す。これよりアルゴリズム(a−2)は混合されている波形の位相を正しく抽出できていることがわかる。
【0048】
【発明の効果】
本発明のテンプレートモデル作成の手順およびその手順を実行する装置によれば、HMMと線形フィルタを組み合わせたテンプレートモデルは、音響波形の基本周波数や位相に大きく影響を及ぼす駆動源モデルと、音色を決定する調音モデルが分離されていることから、照合モデルを生成する際に、従来法に見られるようなテンプレート波形の切り張り等の処理を施す必要がなく、任意の基本周波数または位相の照合モデルを生成することができる。
【0049】
本発明の混合波形に対する各テンプレートモデルの照合モデルに基づき波形分離して抽出する手順は、尤度最大化基準に従って混合HMMの状態遷移を決定することで、テンプレートモデルの入力混合波形に対する位相合わせを実現している。このため従来法に見られるような入力混合波形から複数の基本周波数成分を分離抽出する必要がない。また、HMMの状態遷移系列より、各分離波形の基本周波数または位相情報が得られる。従って、この手順は、混合波形から複数の基本周波数の抽出も実現する。この機能は、例えば、音楽音響信号に対する自動採譜などへの応用が見込まれるものである。
【0050】
本発明のテンプレートモデル作成の手順により各音源のテンプレートモデルを作成し、基本周波数が未知な複数の音源が混合された混合波形から、上記混合波形に対する手順により各音源の波形を分離することができる。
【図面の簡単な説明】
【図1】本発明によるテンプレートモデルを表す図である。
【図2】図1のテンプレートモデルを用いた混合波形のモデリング図である。
【図3】本発明の音源分離方法の実験結果例(分離波形)を示す図である。
【図4】本発明の音源分離方法の実験結果例(期待値の状態遷移)を示す図である。
【図5】図1のテンプレートモデルを作成する説明図である。
【図6】本発明の駆動源HMMの状態遷移系列説明図である。
【図7】本発明の分離装置の構成図である。
【符号の説明】
10調音モデル(線形フィルタ)による逆フィルタリング
11HMM駆動源モデルの作成手段
12尤度最大化基準に基づいた調音モデル(線形フィルタ)の作成手段
13駆動源母数の作成手段
14テンプレートモデル(AR−HMM)データベース
15混合波形y(t)を出力して時刻(t+1)の各混合状態に最大尤度で遷移する時刻(t)の混合状態を決定する手段
16時刻(t)の各混合状態に至る過程で得られた分離音源波形および尤度を記憶しておく記憶装置
17予測残差の各HMM出力への分解手段
18回帰成分と加算し、各音源の時刻(t)における分離波形瞬時値の算出手段19時刻(t+1)の各混合状態に至る過程で得られた分離音源波形および尤度を記憶しておく装置

Claims (8)

  1. 入力された混合音源音響波形に対し隠れマルコフモデル(HMM)と線形フィルタの組み合わせによる音源波形の確率モデルを求め、この確率モデルを基に前記入力波形に対し尤度最大化基準に基づきテンプレートモデルを作成し、このテンプレートモデルを照合モデルとして入力された混合音源音響波形を分離する手順からなることを特徴とする音源の分離方法。
  2. 入力された混合音源音響波形に対し隠れマルコフモデル(HMM)と線形フィルタの組み合わせによる音源波形の確率モデルを求め、この確率モデルを基に前記入力波形に対し尤度最大化基準に基づきテンプレートモデルを作成し、このテンプレートモデルを照合モデルとして入力された混合音源音響波形を分離する手段を備えたことを特徴とする音源の分離装置。
  3. 入力された混合音源音響波形に対し隠れマルコフモデル(HMM)と線形フィルタの組み合わせによる音源波形の確率モデルを求め、この確率モデルを基に前記入力波形に対し尤度最大化基準に基づきテンプレートモデルを作成し、前記混合波形に対するテンプレートモデルの位相合わせを混合HMMの状態遷移を尤度最大化基準に従って決定することによって求め、分離波形を得る手順からなることを特徴とする音源の分離方法。
  4. 入力された混合音源音響波形に対し隠れマルコフモデル(HMM)と線形フィルタの組み合わせによる音源波形の確率モデルを求め、この確率モデルを基に前記入力波形に対し尤度最大化基準に基づきテンプレートモデルを作成し、前記混合波形に対するテンプレートモデルの位相合わせを混合HMMの状態遷移を尤度最大化基準に従って決定することによって求め、分離波形を得る手段を備えたことを特徴とする音源の分離装置。
  5. 隠れマルコフモデル(HMM)と線形フィルタの組み合わせによる音源波形の確率モデルをテンプレートとして、混合音源音響波形をそれぞれの音響波形に分離する手順からなることを特徴とする音源の分離方法。
  6. 隠れマルコフモデル(HMM)と線形フィルタの組み合わせによる音源波形の確率モデルをテンプレートとして、混合音源音響波形をそれぞれの音響波形に分離する手段を備えたことを特徴とする音源の分離装置。
  7. 隠れマルコフモデル(HMM)と線形フィルタの組み合わせによる音源波形の確率モデルをテンプレートとし、このテンプレートモデルを混合したモデルを基準として、尤度最大化基準に従って混合HMMの状態遷移を決定し、その遷移において得られる残差を尤度最大化基準に従って各HMM出力値に分解し、混合テンプレートモデルの入力混合波形に対する位相合わせを行う手順からなることを特徴とする音源の分離方法。
  8. 隠れマルコフモデル(HMM)と線形フィルタの組み合わせによる音源波形の確率モデルをテンプレートとし、このテンプレートモデルを混合したモデルを基準として、尤度最大化基準に従って混合HMMの状態遷移を決定し、その遷移において得られる残差を尤度最大化基準に従って各HMM出力値に分解し、混合テンプレートモデルの入力混合波形に対する位相合わせを行う手段を備えたことを特徴とする音源の分離装置。
JP2001193648A 2001-06-26 2001-06-26 音源の分離方法および分離装置 Expired - Lifetime JP3541224B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001193648A JP3541224B2 (ja) 2001-06-26 2001-06-26 音源の分離方法および分離装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001193648A JP3541224B2 (ja) 2001-06-26 2001-06-26 音源の分離方法および分離装置

Publications (2)

Publication Number Publication Date
JP2003005785A JP2003005785A (ja) 2003-01-08
JP3541224B2 true JP3541224B2 (ja) 2004-07-07

Family

ID=19031894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001193648A Expired - Lifetime JP3541224B2 (ja) 2001-06-26 2001-06-26 音源の分離方法および分離装置

Country Status (1)

Country Link
JP (1) JP3541224B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006090904A (ja) * 2004-09-24 2006-04-06 Toenec Corp 電気設備の診断システム
US7475014B2 (en) * 2005-07-25 2009-01-06 Mitsubishi Electric Research Laboratories, Inc. Method and system for tracking signal sources with wrapped-phase hidden markov models
JP4576612B2 (ja) * 2005-09-13 2010-11-10 独立行政法人産業技術総合研究所 音声認識方法および音声認識装置
JP5040313B2 (ja) * 2007-01-05 2012-10-03 株式会社Jvcケンウッド 音声信号処理装置、音声信号処理方法、および、音声信号処理プログラム
WO2008117359A1 (ja) * 2007-03-22 2008-10-02 Pioneer Corporation 楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム
WO2013145578A1 (ja) * 2012-03-30 2013-10-03 日本電気株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP6078872B2 (ja) * 2012-10-01 2017-02-15 国立研究開発法人産業技術総合研究所 Ar−hmmのトポロジ自動生成
JP6114053B2 (ja) * 2013-02-15 2017-04-12 日本電信電話株式会社 音源分離装置、音源分離方法、およびプログラム
WO2019123883A1 (ja) * 2017-12-22 2019-06-27 住友電気工業株式会社 判定装置、太陽光発電システム、判定方法および判定プログラム

Also Published As

Publication number Publication date
JP2003005785A (ja) 2003-01-08

Similar Documents

Publication Publication Date Title
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
CN106683677B (zh) 语音识别方法及装置
JP2986792B2 (ja) 話者正規化処理装置及び音声認識装置
US7587321B2 (en) Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system
JPS62231995A (ja) 音声認識方法
JPH0431600B2 (ja)
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
US7617104B2 (en) Method of speech recognition using hidden trajectory Hidden Markov Models
JP3541224B2 (ja) 音源の分離方法および分離装置
JPH07104677B2 (ja) 自動音声認識用の音響プロトタイプを生成する方法及び装置
JP2015041081A (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
JP6142401B2 (ja) 音声合成モデル学習装置、方法、及びプログラム
JP2004117624A (ja) 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
JP2004509364A (ja) 音声認識システム
JP4230254B2 (ja) 音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JPH1097278A (ja) 音声認識方法および装置
JP2005091504A (ja) 音声認識装置
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
Selouani et al. Robustness of speech recognition using genetic algorithms and a mel-cepstral subspace approach
RU2297676C2 (ru) Способ распознавания слов в слитной речи
Orphanidou et al. Voice morphing using the generative topographic mapping
Kato et al. Tree‐based clustering for gaussian mixture HMMs

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040302

R150 Certificate of patent or registration of utility model

Ref document number: 3541224

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term