JP2003005785A - 音源の分離方法および分離装置 - Google Patents
音源の分離方法および分離装置Info
- Publication number
- JP2003005785A JP2003005785A JP2001193648A JP2001193648A JP2003005785A JP 2003005785 A JP2003005785 A JP 2003005785A JP 2001193648 A JP2001193648 A JP 2001193648A JP 2001193648 A JP2001193648 A JP 2001193648A JP 2003005785 A JP2003005785 A JP 2003005785A
- Authority
- JP
- Japan
- Prior art keywords
- model
- waveform
- sound source
- mixed
- hmm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
入力混合波形と比べ誤差の少ない照合波形を生成できる
ようにすると共に、事前に音源の特徴の抽出を必要とし
ない位相合わせ処理および波形分離処理を行うことがで
きるようにする音源の分離方法および分離装置を提供す
る。 【解決手段】音源の分離方法において、入力された混合
音源波形に対し隠れマルコフモデル(HMM)と線形フ
ィルタの組み合わせによる音源波形の確率モデルを求
め、この確率モデルを基に前記入力波形に対し尤度最大
化基準に基づきテンプレートモデルを作成し、このテン
プレートモデルを照合モデルとして入力された混合音源
音響波形を分離する手順を備えた。
Description
や複数音声が同時に発生している音響環境において、予
めその環境音や音声のサンプル音響波形からテンプレー
トモデルデータベースを作成しておき、得られた混合音
源音響波形(以後、混合波形)から、そのテンプレート
モデルに基づき所望の音源の音響波形を分離・同定する
システムである。
発においては、さまざまな環境音や複数音声から所望の
音声を分離する技術が必要不可欠である。例えば、カー
ナビゲーションシステムのような車内での音声認識率の
向上や、携帯電話などで一般的に用いられている音声の
生成過程に則った圧縮方式による圧縮音声の品質向上、
また、最近普及しつつある家庭内ロボットのための音環
境理解(例えば、ロボットに呼びかけている複数話者の
分離同定、また環境音の分離同定による周囲の状況把握
など)に応用が見込まれる技術である。また、音楽音響
信号処理への応用も考えられる。例えば、各楽器の音響
信号の分離同定、基本周波数の分離抽出による自動採譜
などである。
合波形の照合により分離同を行う手法が提案されてい
る。このようなアプローチの問題点の1つに、テンプレ
ート波形の基本周波数および位相と、入力混合波形のそ
れが通常一致しないということである。このため、分離
同定を実現するためには、テンプレート波形の基本周波
数および位相を入力混合波形のそれに時々刻々と合わせ
こむ必要がある。従来の位相合わせ処理としては、例え
ば、特開平10−229336号公報に示されている技
術がる。この技術は以下のような特徴を有する。
い、混合されている全ての基本周波数成分を抽出する。 テンプレート波形も狭帯域バンドパスフィルタに通し
て基本周波数成分を抽出する。 両者の位相を比較して、位相差に対応する時間だけテ
ンプレート波形を遅延させる などのアルゴリズムが提案されている。
合波形から基本周波数成分が正確に抽出されることが必
要であるが、一般的に十分な精度で混合されている基本
周波数成分の分離抽出を実現する手法はまだ確立されて
いない。さらに、この手法をもとにした位相合わせ処理
の精度も十分ではなく、最終的な音源の分離同定精度に
悪影響を及ぼすことになる。またのテンプレート波形
遅延処理において、テンプレート波形から1周期分の波
形の切り出しや、その切り出し波形を入力混合波形の位
相に合わせて並べる際に、切り出し誤差や周期長が異な
ることによる波形誤差が発生する。これが、分離音源音
響波形(以後、分離波形という)の品質を劣化させる要
因となっていた。
従来技術の欠点に鑑み、テンプレートモデルをその変形
操作によっても入力混合波形と比べて誤差の少ない照合
波形を生成できるようにすると共に、事前に音源の特徴
の抽出を必要としない位相合わせ処理および波形分離処
理を行うことができるようにする音源の分離方法および
分離装置を提供することである。
するために以下の手段を採用する。 (1)音源の分離方法において、入力された混合音源音
響波形に対し隠れマルコフモデル(HMM)と線形フィ
ルタの組み合わせによる音源波形の確率モデルを求め、
この確率モデルを基に前記入力波形に対し尤度最大化基
準に基づきテンプレートモデルを作成し、このテンプレ
ートモデルを照合モデルとして入力された混合音源音響
波形を分離する手順からなることを特徴とする。
た混合音源音響波形に対し隠れマルコフモデル(HM
M)と線形フィルタの組み合わせによる音源波形の確率
モデルを求め、この確率モデルを基に前記入力波形に対
し尤度最大化基準に基づきテンプレートモデルを作成
し、このテンプレートモデルを照合モデルとして入力さ
れた混合音源音響波形を分離する手段を備えたことを特
徴とする。 (3)音源の分離方法において、入力された混合音源音
響波形に対し隠れマルコフモデル(HMM)と線形フィ
ルタの組み合わせによる音源波形の確率モデルを求め、
この確率モデルを基に前記入力波形に対し尤度最大化基
準に基づきテンプレートモデルを作成し、前記混合波形
に対するテンプレートモデルの位相合わせを混合HMM
の状態遷移を尤度最大化基準に従って決定することによ
って求め、分離波形を得る手順からなることを特徴とす
る。
た混合音源音響波形に対し隠れマルコフモデル(HM
M)と線形フィルタの組み合わせによる音源波形の確率
モデルを求め、この確率モデルを基に前記入力波形に対
し尤度最大化基準に基づきテンプレートモデルを作成
し、前記混合波形に対するテンプレートモデルの位相合
わせを混合HMMの状態遷移を尤度最大化基準に従って
決定することによって求め、分離波形を得る手段を備え
たことを特徴とする。 (5)音源の分離方法において、隠れマルコフモデル
(HMM)と線形フィルタの組み合わせによる音源波形
の確率モデルをテンプレートとして、混合音源音響波形
をそれぞれの音響波形に分離する手順からなることを特
徴とする。
コフモデル(HMM)と線形フィルタの組み合わせによ
る音源波形の確率モデルをテンプレートとして、混合音
源音響波形をそれぞれの音響波形に分離する手段を備え
たことを特徴とする。 (7)音源の分離方法において、隠れマルコフモデル
(HMM)と線形フィルタの組み合わせによる音源波形
の確率モデルをテンプレートとし、このテンプレートモ
デルを混合したモデルを基準として、尤度最大化基準に
従って混合HMMの状態遷移を決定し、その遷移におい
て得られる残差を尤度最大化基準に従って各HMM出力
値に分解し、混合テンプレートモデルの入力混合波形に
対する位相合わせを行う手順からなることを特徴とす
る。
コフモデル(HMM)と線形フィルタの組み合わせによ
る音源波形の確率モデルをテンプレートとし、このテン
プレートモデルを混合したモデルを基準として、尤度最
大化基準に従って混合HMMの状態遷移を決定し、その
遷移において得られる残差を尤度最大化基準に従って各
HMM出力値に分解し、混合テンプレートモデルの入力
混合波形に対する位相合わせを行う手段を備えたことを
特徴とする。
説明する。観測された音響的現象から、それが何という
カテゴリの音なのかを当てるためには、各々の音を発話
したとき、その音響的現象がどの程度生起しやすいか
を、確率的にモデル化しておく必要がある。
dden Markov Model)が用いられる
が、HMMは、区分定常過程しか表現することができ
ず、音の過渡部分の表現に難がある。また、音の性質
は、その音の先行音や後続音に大きく影響を受けるが、
HMMではこのような環境依存的な音の性質を表現する
ことが難しく、環境毎に異なるモデルを複数持つ必要が
あるなどの問題もある。このような問題を解決するため
に、本発明はモデルの振る舞いを過去の出力に依存して
決めるあらたなモデルを提案する。過去の出力に依存し
て、モデルの遷移確率と出力確率が決まるため、過渡部
の表現に優れている。
詳細に説明する。まず、上記「テンプレートモデルをそ
の変形操作によっても入力混合波形と比べて誤差の少な
い照合波形を生成できるようにする」目的は図1に示す
テンプレートモデルを用いることで解決される。
と調音モデルが分離されており、駆動源モデルとして隠
れマルコフモデルを、調音モデルには線形フィルタを用
いる。駆動源モデルとは、例えば、音声の場合は声帯振
動による駆動源に相当し、管楽器などではマウスピース
による駆動源に相当する。周期的に特定の波形が繰り返
される駆動源は、その周期性を表すために各状態がリン
グ状につながれたHMMを用いる。各状態からの遷移パ
スは自分自身への遷移パスと隣接する状態への遷移パス
の2つをもつ。このHMMの状態を1周遷移することが
駆動源の1周期に相当する。また、各状態の出力分布は
単一の正規分布とする。周期性を仮定できない駆動源の
場合は、エルゴディックHMMを用いるなど、その駆動
源の特徴を反映したトポロジィーのHMMを用いる。調
音モデルとは駆動源に音色を与える部分で、例えば、音
声の場合は調音器官に相当し、管楽器では管に相当す
る。調音モデルとしては一般的にARMA(Auto−
Regressive Moving Averag
e)モデルを用いるが、以下ではAR(Auto−Re
gressive )モデルを用いる。
表す図である。テンプレートモデルの作成について以下
に説明する。テンプレートモデル作成に用いる音響波形
のN個のサンプルを
クトルを
ち、各状態に固有の番号(1,…,M)を識別子として
割り振る。状態mの出力分布を期待値μ(m)と分散σ
2(m)で表す。また、状態nから状態mへの遷移確率
をb(n,m)で表す。時刻tにおけるHMMの状態を
s(t)、駆動源をe(t)で表す。このテンプレート
モデルにおいて、駆動源ベクトル
のように、テンプレートモデルは、AR係数、HMMの
状態数、出力分布、遷移確率をパラメータとして表現さ
れる。テンプレートモデルの作成は、図5に示すよう
に、与えられた音源の音響波形サンプルに対して、尤度
を最大化するようにテンプレートモデルのパラメータを
推定することで行われる。以下にテンプレートモデル作
成の具体的な手順について説明する。
HMMの出力分布
アルゴリズムを用い、求めたHMMの尤度を最大にする
状態遷移系列
列を用いて、駆動源の期待値ベクトルおよび共分散行列
を、
←i+1として(a1−2)から繰り返す。
ム(a1)の補足 HMMの状態数とAR過程の予測次数は、次式で定義さ
れるAICなどを用いて決定することができる。
測次数である。このAICが最小となるMとpをモデル
として採用する。しかし、16kHzでサンプリングさ
れた音声を分離対象とする場合は、経験的に予測次数は
16〜20、HMMの状態数は10〜16の間で適当に
決定しても問題ない。
2は実質的には任意係数である。例えばσ0 2=1とし
ておく。(a1−4)において、Baum−Welch
のアルゴリズムを用いて予測残差の時系列に対するHM
Mの学習を行う場合、以下の手順でHMMの初期設定を
行う。 a1−4−1)はじめてHMMの学習を行う場合(i=
0)は(a1−4−2)〜(a1−4−5)の処理を行
い、そうでない場合(i>0)は前回に学習したHMM
を初期値として採用する。 a1−4−2)予測残差の時系列の自己相関より基本周
期を求める。 a1−4−3)予測残差の時系列の1周期を更にHMM
の状態数分(M)の領域に等分割し、各周期の先頭の領
域から順番にHMMの1…Mの状態に対応付ける。 a1−4−4)HMMの各状態に対応する全ての領域の
予測残差から、平均と分散を求め、これを初期出力分布
とする。 a1−4−5)遷移確率は全て乱数で初期設定する。
数の更新処理において、Viterbiアルゴリズムに
より得られた状態遷移系列に従って得られる期待値ベク
トルと共分散行列の各要素は、状態が切り替わる位置で
不連続に変化する。これがテンプレートモデルの精度を
劣化する場合は、以下の代替手法を用いることで精度劣
化を回避する。 a1−5−a)状態間の遷移確率γ(m,n,t)を求
める。γ(m,n,t)はHMMが を出力して状態mから状態nへ遷移する確率を表す。γ
(m,n,t)の計算は公知のフォワードバックワード
アルゴリズムを用いて計算する。 a1−6−a)時刻tにおける駆動源 の母数を改めて期待値m(t)と分散ν(t)で表す。
そして、次式のようにその母数を遷移確率γ(m,n,
t)で重み付けて求める。
行列を、
ない位相合わせ処理および波形分離処理を行う」目的に
ついては以下のように解決される。隠れマルコフモデル
(HMM: Hidden Markov Mode
l)は、マルコフ連鎖の各状態に波形の出力確率を与え
たもので、配列のパターン認識に非常に有効である。特
定のモデルは多数の配列パターンを生成する。生成され
た個々の配列パターンには状態遷移確率と波形出力確率
から計算される確率が付随している。一般に同じ配列が
複数の経路から生成され得るので、それらを足し合わせ
たものが1つの配列に対する確率である。いま、隠れマ
ルコフモデルを音声認識予測に適用することを考える
と、音声認識に対してだけ高い確率を与えるようなモデ
ルをみつけることが問題となる。これはトレーニングデ
ータセットに学習アルゴリズムを適用し、隠れマルコフ
モデルのパラメータである状態遷移確率と波形出力確率
を最適化することにより、また場合によってはモデルの
長さも最適化することにより解くことができる。
れたときに、これがモデルにどの程度適合するかは、そ
れぞれの配列が同時に起る確率であるので最尤(ML:
Maximum Likelihood)法で評価す
る。隠れマルコフモデルの学習アルゴリズムは次のよう
な逐次的方法である。まず、適当な初期モデルを選ぶ。
トレーニングデータセットの可能な経路を全て調べ、実
際に起る状態遷移の頻度と波形出力の頻度をもとに、M
Lの意味で遷移確率を更新して次のモデルとする。この
手続きを更新がわずかになるまで繰り返す。隠れマルコ
フモデルは確率的な意味で作られたプロファイルと非常
に近い関係にある。一般的にN個の異なる音源が混合さ
れている場合を想定すると、その混合波形はN個のテン
プレートモデルを用いて図2に示すようにモデリングさ
れる。この混合波形モデルにおいて、位相合わせ処理
は、入力混合波形に最も似かよった照合波形を生成する
ように、駆動源HMMの状態遷移系列を決定することで
行われる。
が、HMM分解法はHMMの出力が直接加算(または相
同の演算処理)された混合波形から各HMMの状態遷移
系列を決定するのに対して、本手法は、HMMの出力が
自己回帰(AR)過程を通った後加算された混合波形か
ら各HMMの状態遷移系列を決定するという点が決定的
に異なる。
混合波形のモデリング図である。図2において、N個の
テンプレートモデルをΘl(l=1,…,N)で表す。
テンプレートモデルΘlの自己回帰(AR)過程の次数
をPl、自己回帰(AR)係数を
の状態数をMl、状態mから状態nへの遷移確率をbl
(m,n)、状態mの出力分布を
す。入力混合波形のT個のサンプルを
のテンプレートモデルの状態遷移系列を決定するには、
縦軸に
ことから、その混合状態を横軸方向に合計(T+1)個
並べたトレリスを考えることになる。
のHMMの状態をSl(t)で表すと、混合状態はベク
トル
で最大尤度を与える(T+1)個のベクトル列
法と異なる点は、各HMMの出力が自己回帰(AR)過
程を通って加えられているので、時刻tの混合波形サン
プルy(t)は、各HMMの出力値だけでなく、各テン
プレートモデルの出力サンプルの自己回帰成分が加えら
れている。従って、通常のHMM分解法と同様に状態遷
移系列を決定するためには、混合波形サンプルy(t)
から各テンプレートモデルの自己回帰成分を取り除く必
要がある。
ートモデルの自己回帰成分を取り除くには、時刻tの混
合状態毎に、その状態に至る経路で得られた全テンプレ
ートモデルの照合波形を記憶しておく必要がある。この
照合波形を
路で得られたテンプレートモデルΘlの照合波形を表
す。
Θlの、時刻tにおける自己回帰成分は
(t)から全テンプレートの自己回帰成分を引いた残差
は、
MM出力をel(t)で表すと、その残差は、
る。
HMM分解法と同様な手法で、テンプレートモデルの状
態遷移系列を決定できるというのが、本手法の基本アイ
ディアである。以下に具体的な位相合わせおよび音源分
離の手順について説明する。時刻tにおいて混合状態S
tにいる確率をPt(St)で表す。混合状態の集合を
処理を実行する。
Pt+1(St+1)を、
り求める。
を表し、
レートモデルの照合波形を更新する。時刻tにおける、
各テンプレートモデルの照合波形のサンプル値
対して混合状態Stが最大確率Pt+1(St+1)を
与えることは(a−2−2−1)の処理により求められ
ている。従って、残差E(t)を生成した時の各HMM
の出力分布は
える。
尤度の積を求めているのは、各HMMからの出力が互い
に独立であることを意味する。この解
の状態インデックス を、そして残差(E)およびHMMの出力値(e)から
はタイムインデックス を省略した。) 式11により求められる自己回帰成分
モデルの照合波形のサンプル値
テンプレートモデルの照合波形は、
(a2−2)の処理を繰り返す。 t=T−1の場合は、次の処理を行う。 a−2−4)最終混合状態の中で最大尤度を与える最終
混合状態を選択する。
する。
発明の実施例の分離装置は、テンプレートモデルのデー
タベース作成手段と混合波形分離手段から成る。テンプ
レートモデルのデータベース作成の実施例について図を
用い詳細に説明する。図7において、テンプレートモデ
ルのデータベース作成手段は、調音モデル(線形フィル
タ)による逆フィルタリング10、HMM駆動源モデル
の作成手段11、尤度最大化基準に基づいた調音モデル
の作成手段12、駆動源母数の作成手段13、テンプレ
ートモデルデータベース14からなる。
離装置が使用される音環境における環境音のサンプルを
用意し、それぞれの音響波形から生成したテンプレート
モデルを蓄積することで構築する。テンプレートモデル
は、音源の駆動源と調音部を切り離し、それぞれHMM
と線形フィルタを用いたモデル構成とする。これによ
り、データベース中のテンプレートモデルを任意の基本
周波数および位相の照合モデルに容易に再合成できる。
テンプレートモデルの作成は、音源音響波形のサンプル
に対して、尤度最大化基準に基づきパラメータを決定す
る。この尤度は、図5に示すように音響波形を線形フィ
ルタで逆フィルタリングし得られた駆動源波形とHMM
の尤度として定義する。サンプル音響波形に対するHM
Mと線形フィルタの尤度関数は非線形となるため、両者
を同時に求めることはできない。
グ10により音響波形から駆動源波形を抽出し、HMM
駆動源モデルの作成手段11によりHMMのパラメータ
を推定および更新をする。そして、駆動源波形とHMM
パラメータを基に駆動源母数の作成手段13により駆動
源母数を生成し、その駆動源母数と音響波形を基に線形
フィルタの作成手段12により線形フィルタの再推定お
よび更新をする。以上の処理を、HMMと線形フィルタ
の尤度が収束するまで繰り返し、テンプレートモデルを
生成し、データベースに格納する。
駆動源波形(図中、上段)と4状態のHMMから求めら
れた状態遷移系列の例を示している。図中、同じ模様で
網掛けされている部分が、HMMの1つの状態に対応す
る。HMMの状態がリング状に接続されていることか
ら、駆動源波形の周期に同期して、4つあるHMMの状
態も順に周期的に遷移している。図中、中段と下段のグ
ラフは、各状態の出力分布における期待値と分散を表し
ている。このように、HMM音源モデルは、状態遷移系
列が定まると、駆動源波形を正規分布の時系列として表
現する。本発明による音源分離処理は、混合波形に対し
て混合HMMの状態遷移を尤度最大化基準に従って求
め、過去の分離波形による回帰成分を混合波形から取り
除くことで得られる予測残差を、各HMMの出力分布
(正規分布)に対し尤度最大化基準に従って分解するこ
とにより実現する。
る。図7において、混合波形分離手段は、テンプレート
モデルのデータベース14、最大尤度で遷移する混合状
態の決定手段15、混合波形と尤度の記憶装置16,1
9、予測残差の各HMM出力への分解手段17、分離波
形の算出手段18より構成する。音源分離処理は、混合
波形の瞬時値y(t)の入力毎に再帰的に行われる。つ
まり、ある時刻(t)までの各混合状態に至る過程で得
られた分離波形およびその尤度が全て記憶装置16に記
憶されている。そして、瞬時値y(t)を出力して最大
尤度で時刻(t+1)の混合状態に遷移してくる遷移
元、つまり時刻(t)における混合状態を手段15によ
り選択する。得られた予測残差を手段17により、各H
MMの出力値に分解し、手段18により過去の回帰成分
と加算することで、混合波形瞬時値y(t)を各音源の
出力瞬時値に分解する。そして、その分離音源瞬時値と
選択された時刻(t)の混合状態に付随している過去の
分離波形と共に尤度を記憶装置19に記憶する。
混合状態について終了すると、記憶装置19には、時刻
(t+1)までの各混合状態に至る過程で得られた分離
波形およびその尤度が全て記憶装置19に記憶される。
そして、新たに混合波形の瞬時値y(t+1)が入力さ
れると、記憶装置19の内容を記憶装置16に複写した
後、最終時刻における混合波形の処理が終了するまで前
記の処理を再帰的に繰り返す。最終時刻における処理の
終了後、記憶装置19に格納されている混合状態の中で
最大尤度を与える混合状態を選択し、それに付随してい
る分離波形を最終的な結果として出力し、全処理が完了
する。このように本発明は、尤度最大化基準だけを基に
処理が進むので、事前に混合波形の各基本周波数成分や
位相情報を抽出しておく必要がない。また、得られた状
態遷移系列から、各音源に基本周波数および位相が得ら
れる。
紹介する。 1.使用音声データ 二人の男性話者(A,B)が、話者Aは単母音/a/
を、そして話者Bは/i/を、同レベルで2回発声した
音声を用意する。音声はサンプリング周波数16kH
z、16ビットの線形量子化によりディジタル信号に変
換した。 2.テンプレートモデルの作成 テンプレートモデルは共に、AR過程の次数は16、H
MMの状態数は10とした。それぞれの話者が2回発声
した音声のうちの一方から、定常状態にある150ms
の波形を切り出し、プレエンファシス(係数0.99)
を施したあと、アルゴリズム(a−1)によりテンプレ
ートモデルを作成した。
わせ、プレエンファシス(係数0.99)を施し、混合
音声を生成した。この混合波形と作成した2つのテンプ
レートモデルに対して、アルゴリズム(a−2)を施
し、音源分離実験を行う。
(分離波形)を示す図である。図3には分離結果の波形
を示し、同図(a)が混合波形、(b)(d)が混合前
の音声波形/a/,/i/、(c)(e)が混合波形か
ら分離された音声波形/a/,/i/である。(b)に
対する(c)のSNRは11.9[dB]、(d)に対
する(e)のSNRは11.7[dB]であった。図3
(b)(d)に対してアルゴリズム(a−1)を施して
得られた期待値の時系列を、それぞれ図4(a)(c)
に示す。図4は本発明の音源分離方法の実験結果例(期
待値の状態遷移)を示す図である。また図3(a)の混
合波形に対してアルゴリズム(a−2)を施して得られ
た期待値の時系列を、それぞれ図4(b)(d)に示
す。これよりアルゴリズム(a−2)は混合されている
波形の位相を正しく抽出できていることがわかる。
およびその手順を実行する装置によれば、HMMと線形
フィルタを組み合わせたテンプレートモデルは、音響波
形の基本周波数や位相に大きく影響を及ぼす駆動源モデ
ルと、音色を決定する調音モデルが分離されていること
から、照合モデルを生成する際に、従来法に見られるよ
うなテンプレート波形の切り張り等の処理を施す必要が
なく、任意の基本周波数または位相の照合モデルを生成
することができる。
モデルの照合モデルに基づき波形分離して抽出する手順
は、尤度最大化基準に従って混合HMMの状態遷移を決
定することで、テンプレートモデルの入力混合波形に対
する位相合わせを実現している。このため従来法に見ら
れるような入力混合波形から複数の基本周波数成分を分
離抽出する必要がない。また、HMMの状態遷移系列よ
り、各分離波形の基本周波数または位相情報が得られ
る。従って、この手順は、混合波形から複数の基本周波
数の抽出も実現する。この機能は、例えば、音楽音響信
号に対する自動採譜などへの応用が見込まれるものであ
る。
より各音源のテンプレートモデルを作成し、基本周波数
が未知な複数の音源が混合された混合波形から、上記混
合波形に対する手順により各音源の波形を分離すること
ができる。
る。
モデリング図である。
形)を示す図である。
状態遷移)を示す図である。
ある。
ある。
グ 11HMM駆動源モデルの作成手段 12尤度最大化基準に基づいた調音モデル(線形フィル
タ)の作成手段 13駆動源母数の作成手段 14テンプレートモデル(AR−HMM)データベース 15混合波形y(t)を出力して時刻(t+1)の各混
合状態に最大尤度で遷移する時刻(t)の混合状態を決
定する手段 16時刻(t)の各混合状態に至る過程で得られた分離
音源波形および尤度を記憶しておく記憶装置 17予測残差の各HMM出力への分解手段 18回帰成分と加算し、各音源の時刻(t)における分
離波形瞬時値の算出手段 19時刻(t+1)の各混合状態に至る過程で得られた
分離音源波形および尤度を記憶しておく装置
Claims (8)
- 【請求項1】入力された混合音源音響波形に対し隠れマ
ルコフモデル(HMM)と線形フィルタの組み合わせに
よる音源波形の確率モデルを求め、この確率モデルを基
に前記入力波形に対し尤度最大化基準に基づきテンプレ
ートモデルを作成し、このテンプレートモデルを照合モ
デルとして入力された混合音源音響波形を分離する手順
からなることを特徴とする音源の分離方法。 - 【請求項2】入力された混合音源音響波形に対し隠れマ
ルコフモデル(HMM)と線形フィルタの組み合わせに
よる音源波形の確率モデルを求め、この確率モデルを基
に前記入力波形に対し尤度最大化基準に基づきテンプレ
ートモデルを作成し、このテンプレートモデルを照合モ
デルとして入力された混合音源音響波形を分離する手段
を備えたことを特徴とする音源の分離装置。 - 【請求項3】入力された混合音源音響波形に対し隠れマ
ルコフモデル(HMM)と線形フィルタの組み合わせに
よる音源波形の確率モデルを求め、この確率モデルを基
に前記入力波形に対し尤度最大化基準に基づきテンプレ
ートモデルを作成し、前記混合波形に対するテンプレー
トモデルの位相合わせを混合HMMの状態遷移を尤度最
大化基準に従って決定することによって求め、分離波形
を得る手順からなることを特徴とする音源の分離方法。 - 【請求項4】入力された混合音源音響波形に対し隠れマ
ルコフモデル(HMM)と線形フィルタの組み合わせに
よる音源波形の確率モデルを求め、この確率モデルを基
に前記入力波形に対し尤度最大化基準に基づきテンプレ
ートモデルを作成し、前記混合波形に対するテンプレー
トモデルの位相合わせを混合HMMの状態遷移を尤度最
大化基準に従って決定することによって求め、分離波形
を得る手段を備えたことを特徴とする音源の分離装置。 - 【請求項5】隠れマルコフモデル(HMM)と線形フィ
ルタの組み合わせによる音源波形の確率モデルをテンプ
レートとして、混合音源音響波形をそれぞれの音響波形
に分離する手順からなることを特徴とする音源の分離方
法。 - 【請求項6】隠れマルコフモデル(HMM)と線形フィ
ルタの組み合わせによる音源波形の確率モデルをテンプ
レートとして、混合音源音響波形をそれぞれの音響波形
に分離する手段を備えたことを特徴とする音源の分離装
置。 - 【請求項7】隠れマルコフモデル(HMM)と線形フィ
ルタの組み合わせによる音源波形の確率モデルをテンプ
レートとし、このテンプレートモデルを混合したモデル
を基準として、尤度最大化基準に従って混合HMMの状
態遷移を決定し、その遷移において得られる残差を尤度
最大化基準に従って各HMM出力値に分解し、混合テン
プレートモデルの入力混合波形に対する位相合わせを行
う手順からなることを特徴とする音源の分離方法。 - 【請求項8】隠れマルコフモデル(HMM)と線形フィ
ルタの組み合わせによる音源波形の確率モデルをテンプ
レートとし、このテンプレートモデルを混合したモデル
を基準として、尤度最大化基準に従って混合HMMの状
態遷移を決定し、その遷移において得られる残差を尤度
最大化基準に従って各HMM出力値に分解し、混合テン
プレートモデルの入力混合波形に対する位相合わせを行
う手段を備えたことを特徴とする音源の分離装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001193648A JP3541224B2 (ja) | 2001-06-26 | 2001-06-26 | 音源の分離方法および分離装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001193648A JP3541224B2 (ja) | 2001-06-26 | 2001-06-26 | 音源の分離方法および分離装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003005785A true JP2003005785A (ja) | 2003-01-08 |
JP3541224B2 JP3541224B2 (ja) | 2004-07-07 |
Family
ID=19031894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001193648A Expired - Lifetime JP3541224B2 (ja) | 2001-06-26 | 2001-06-26 | 音源の分離方法および分離装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3541224B2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006090904A (ja) * | 2004-09-24 | 2006-04-06 | Toenec Corp | 電気設備の診断システム |
JP2007033445A (ja) * | 2005-07-25 | 2007-02-08 | Mitsubishi Electric Research Laboratories Inc | 信号源の軌跡をモデル化する方法及びシステム |
JP2007079072A (ja) * | 2005-09-13 | 2007-03-29 | National Institute Of Advanced Industrial & Technology | 音声認識方法および音声認識装置 |
JP2008165125A (ja) * | 2007-01-05 | 2008-07-17 | Kenwood Corp | 音声信号処理装置、音声信号処理方法、および、音声信号処理プログラム |
WO2008117359A1 (ja) * | 2007-03-22 | 2008-10-02 | Pioneer Corporation | 楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム |
WO2013145578A1 (ja) * | 2012-03-30 | 2013-10-03 | 日本電気株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
JP2014071417A (ja) * | 2012-10-01 | 2014-04-21 | National Institute Of Advanced Industrial & Technology | Ar−hmmのトポロジ自動生成 |
JP2014157261A (ja) * | 2013-02-15 | 2014-08-28 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離装置、音源分離方法、およびプログラム |
JPWO2019123883A1 (ja) * | 2017-12-22 | 2021-01-28 | 住友電気工業株式会社 | 判定装置、太陽光発電システム、判定方法および判定プログラム |
-
2001
- 2001-06-26 JP JP2001193648A patent/JP3541224B2/ja not_active Expired - Lifetime
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006090904A (ja) * | 2004-09-24 | 2006-04-06 | Toenec Corp | 電気設備の診断システム |
JP2007033445A (ja) * | 2005-07-25 | 2007-02-08 | Mitsubishi Electric Research Laboratories Inc | 信号源の軌跡をモデル化する方法及びシステム |
JP2007079072A (ja) * | 2005-09-13 | 2007-03-29 | National Institute Of Advanced Industrial & Technology | 音声認識方法および音声認識装置 |
JP4576612B2 (ja) * | 2005-09-13 | 2010-11-10 | 独立行政法人産業技術総合研究所 | 音声認識方法および音声認識装置 |
JP2008165125A (ja) * | 2007-01-05 | 2008-07-17 | Kenwood Corp | 音声信号処理装置、音声信号処理方法、および、音声信号処理プログラム |
WO2008117359A1 (ja) * | 2007-03-22 | 2008-10-02 | Pioneer Corporation | 楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム |
JP4843711B2 (ja) * | 2007-03-22 | 2011-12-21 | パイオニア株式会社 | 楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム |
WO2013145578A1 (ja) * | 2012-03-30 | 2013-10-03 | 日本電気株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
JP2014071417A (ja) * | 2012-10-01 | 2014-04-21 | National Institute Of Advanced Industrial & Technology | Ar−hmmのトポロジ自動生成 |
JP2014157261A (ja) * | 2013-02-15 | 2014-08-28 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離装置、音源分離方法、およびプログラム |
JPWO2019123883A1 (ja) * | 2017-12-22 | 2021-01-28 | 住友電気工業株式会社 | 判定装置、太陽光発電システム、判定方法および判定プログラム |
JP7157393B2 (ja) | 2017-12-22 | 2022-10-20 | 住友電気工業株式会社 | 判定装置、太陽光発電システム、判定方法および判定プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3541224B2 (ja) | 2004-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5793891A (en) | Adaptive training method for pattern recognition | |
US9099082B2 (en) | Apparatus for correcting error in speech recognition | |
CN107924678B (zh) | 语音合成装置、语音合成方法及存储介质 | |
US7587321B2 (en) | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system | |
JP2003022087A (ja) | 音声認識方法 | |
JPH11327592A (ja) | 話者正規化処理装置及び音声認識装置 | |
JPH0431600B2 (ja) | ||
JPH0554959B2 (ja) | ||
JPH01102599A (ja) | 音声認識方法 | |
CN102436807A (zh) | 自动生成重读音节语音的方法和系统 | |
JP2004226982A (ja) | 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法 | |
JPH05204392A (ja) | 自動音声認識用の音響プロトタイプを生成する方法及び装置 | |
JP3541224B2 (ja) | 音源の分離方法および分離装置 | |
Eichner et al. | A unified approach for speech synthesis and speech recognition using stochastic Markov graphs. | |
JP2000194392A (ja) | 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体 | |
JP2004117624A (ja) | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム | |
WO2010109725A1 (ja) | 音声処理装置、音声処理方法、及び、音声処理プログラム | |
JPH08110792A (ja) | 話者適応化装置及び音声認識装置 | |
JPH1097278A (ja) | 音声認識方法および装置 | |
JP3029803B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
JP3532248B2 (ja) | 学習音声パタンモデル使用音声認識装置 | |
JPH0981178A (ja) | 不特定話者モデル作成装置及び音声認識装置 | |
JP2888781B2 (ja) | 話者適応化装置及び音声認識装置 | |
Orphanidou et al. | Voice morphing using the generative topographic mapping | |
JPH0822296A (ja) | パターン認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040302 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3541224 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |