JP2003099085A - 音源の分離方法および音源の分離装置 - Google Patents

音源の分離方法および音源の分離装置

Info

Publication number
JP2003099085A
JP2003099085A JP2001292436A JP2001292436A JP2003099085A JP 2003099085 A JP2003099085 A JP 2003099085A JP 2001292436 A JP2001292436 A JP 2001292436A JP 2001292436 A JP2001292436 A JP 2001292436A JP 2003099085 A JP2003099085 A JP 2003099085A
Authority
JP
Japan
Prior art keywords
model
sound source
waveform
mixed
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001292436A
Other languages
English (en)
Inventor
Akira Saso
晃 佐宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2001292436A priority Critical patent/JP2003099085A/ja
Publication of JP2003099085A publication Critical patent/JP2003099085A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

(57)【要約】 【課題】混合されている音響波形の振幅レベルにテンプ
レートモデルの学習に用いた音響波形の振幅レベルを近
づけると共に、事前に音源の特徴の抽出を必要としない
音源の周期変動と利得変動を考慮したモノラル混合音分
離方法および分離装置を提供することである。 【解決手段】音源の分離方法において、隠れマルコフモ
デルと線形フィルタの組み合わせによる音源波形の確率
モデルをテンプレートモデルとして用いる音源の分離方
法において、各音源の任意の利得変化に対して、尤度最
大化基準に基づいたテンプレートモデルの利得適応化処
理を行うこと。

Description

【発明の詳細な説明】
【発明の属する技術分野】本発明は、上記さまざまな環
境音や複数音声が同時に発生している音響関係におい
て、あらかじめその環境音や音声のサンプル音響波形か
らテンプレートモデルデータベースを作成しておき、得
られた混合音源音響波形から、そのテンプレートモデル
に基づき所望の音源の音響波形を分離・同定するシステ
ムに関する。
【従来の技術】実環境下でのロバストな音声処理技術の
開発においては、さまざまな環境音や複数音声から所望
の音声を分離する技術が必要不可欠である。この分離す
る技術は、例えば、カーナビゲーションシステムにおけ
る車内での音声認識率の向上や、携帯電話などで一般的
に用いられている音声の生成過程に則った圧縮方式によ
る圧縮音声の品質向上、また、最近普及しつつある家庭
内ロボットのための音環境理解(例えば、ロボットに呼
びかけている複数話者の分離同定、また環境音の分離同
定による周囲の状況把握など)に応用が見込まれる技術
である。また、音楽音響信号処理への応用も考えられ
る。例えば、各楽器の音響信号の分離同定、基本周波数
の分離抽出による自動採譜などである。この所望の音声
を分離する技術として、従来、例えば、特開平10−2
29336号公報にテンプレート(見本)波形と入力混
合波形の照合により分離同定を行う手法が提案されてい
る。この方法は、テンプレート波形の基本周波数および
位相を入力混合波形のそれに時々刻々と合わせこむ必要
がある。また、混合されている基本周波数成分の分離抽
出を十分な精度で実現する手法はまだ確立されてはいな
い。さらに、テンプレート波形遅延処理において、テン
プレート周期波形の切り出し誤差や周期長が異なること
による波形誤差が発生する。これが、分離音源音響波形
(以後、分離波形という)の品質を劣化させる要因とな
っていた。これらを改善するためにテンプレートとして
生の波形を用いるのではなく、任意の基本周波数や位相
の入力音響波形に適応可能なように、駆動源と調音部に
分離した波形確率モデルをテンプレートモデルとして音
源分離を実現する手法を既に特願2001−19364
8号として出願している。図13は前記特願2001−
193648号(先願)に記載の分離装置構成図であ
る。上記先願発明の実施例の分離装置は、テンプレート
モデルのデータベース作成手段と混合波形分離手段から
成る。テンプレートモデルのデータベース作成の実施例
について図13を用い詳細に説明する。図13におい
て、テンプレートモデルのデータベース作成手段は、調
音モデル(線形フィルタ)による逆フィルタリング1
0、HMM駆動源モデルの作成手段11、尤度最大化基
準に基づいた調音モデルの作成手段12、駆動源母数の
作成手段13、テンプレートモデルデータベース14か
らなる。テンプレートモデルのデータベースは、分離装
置が使用される音環境における環境音のサンプルを用意
し、それぞれの音響波形から生成したテンプレートモデ
ルを蓄積することで構築する。テンプレートモデルは、
音源の駆動源と調音部を切り離し、それぞれHMMと線
形フィルタを用いたモデル構成とする。これにより、デ
ータベース中のテンプレートモデルを任意の基本周波数
および位相の照合モデルに容易に再合成できる。テンプ
レートモデルの作成は、音源音響波形のサンプルに対し
て、尤度最大化基準に基づきパラメータを決定する。こ
の尤度は音響波形を線形フィルタで逆フィルタリングし
得られた駆動源波形とHMMの尤度として定義する。サ
ンプル音響波形に対するHMMと線形フィルタの尤度関
数は非線形となるため、両者を同時に求めることはでき
ない。そこで、調音モデルによる逆フィルタリング10
により音響波形から駆動源波形を抽出し、HMM駆動源
モデルの作成手段11によりHMMのパラメータを推定
および更新をする。そして、駆動源波形とHMMパラメ
ータを基に駆動源母数の作成手段13により駆動源母数
を生成し、その駆動源母数と音響波形を基に線形フィル
タの作成手段12により線形フィルタの再推定および更
新をする。以上の処理を、HMMと線形フィルタの尤度
が収束するまで繰り返し、テンプレートモデルを生成
し、データベースに格納する。HMM音源モデルは、状
態遷移系列が定まると、駆動源波形を正規分布の時系列
として表現する。先願発明による音源分離処理は、混合
波形に対して混合HMMの状態遷移を尤度最大化基準に
従って求め、過去の分離波形による回帰成分を混合波形
から取り除くことで得られる予測残差を、各HMMの出
力分布(正規分布)に対し尤度最大化基準に従って分解
することにより実現する。次に、混合波形分離手段につ
いて説明する。図13において、混合波形分離手段は、
テンプレートモデルのデータベース14、最大尤度で遷
移する混合状態の決定手段15、混合波形と尤度の記憶
装置16,19、予測残差の各HMM出力への分解手段
17、分離波形の算出手段18より構成する。音源分離
処理は、混合波形の瞬時値y(t)の入力毎に再帰的に
行われる。つまり、ある時刻(t)までの各混合状態に
至る過程で得られた分離波形およびその尤度が全て記憶
装置16に記憶されている。そして、瞬時値y(t)を
出力して最大尤度で時刻(t+1)の混合状態に遷移し
てくる遷移元、つまり時刻(t)における混合状態を手
段15により選択する。得られた予測残差を手段17に
より、各HMMの出力値に分解し、手段18により過去
の回帰成分と加算することで、混合波形瞬時値y(t)
を各音源の出力瞬時値に分解する。そして、その分離音
源瞬時値と時刻(t)において選択された混合状態に付
随している過去の分離波形と共に尤度を記憶装置19に
記憶する。この処理が時刻(t+1)における全ての混
合状態について終了すると、記憶装置19には、時刻
(t+1)までの各混合状態に至る過程で得られた分離
波形およびその尤度が全て記憶装置19に記憶される。
そして、新たに混合波形の瞬時値y(t+1)が入力さ
れると、記憶装置19の内容を記憶装置16に複写した
後、最終時刻における混合波形の処理が終了するまで前
記の処理を再帰的に繰り返す。最終時刻における処理の
終了後、記憶装置19に格納されている混合状態の中で
最大尤度を与える混合状態を選択し、それに付随してい
る分離波形を最終的な結果として出力し、全処理が完了
する。
【発明が解決しようとする課題】前記特願2001−1
93648号の手法では、テンプレートモデルの利得適
応化処理が含まれていないため、混合されている音響波
形の振幅レベルがテンプレートモデルの学習に用いた音
響波形の振幅レベルと著しく異なる場合に分離精度が劣
化するという問題点が残されていた。本発明の目的は、
上記従来の欠点に鑑み、混合されている音響波形の振幅
レベルにテンプレートモデルの振幅レベルを近づけると
共に、事前に駆動源の特徴の抽出を必要としない駆動源
の周期変動と利得変動を考慮したモノラル混合音分離方
法および分離装置を提供することである。
【課題を解決するための手段】本発明は上記課題を解決
するために以下の解決手段を採用する。 (1)隠れマルコフモデルと線形フィルタの組み合わせ
による音源波形の確率モデルをテンプレートモデルとし
て用いる音源の分離方法において、各音源の任意の利得
変化に対して、尤度最大化基準に基づいたテンプレート
モデルの利得適応化処理を行うことを特徴とする。 (2)隠れマルコフモデルと線形フィルタの組み合わせ
による音源波形の確率モデルをテンプレートモデルとし
て用いる音源の分離装置において、各音源の任意の利得
変化に対して、尤度最大化基準に基づいたテンプレート
モデルの利得適応化処理を行う手段を備えたことを特徴
とする。 (3)上記(1)記載の音源の分離方法において、入力
された混合音源音響波形に対して、隠れマルコフモデル
と線形フィルタの組み合わせによる音源波形テンプレー
トモデルの利得と状態遷移を尤度最大化基準に基づき推
定することで、各音源波形に対応するテンプレートモデ
ルの振幅レベルの調整と位相合わせを実現し、この適応
化テンプレートモデルを照合モデルとして入力混合音源
音響波形を分離する手順からなることを特徴とする。 (4)上記(2)記載の音源の分離装置において、入力
された混合音源音響波形に対して、隠れマルコフモデル
と線形フィルタの組み合わせによる音源波形テンプレー
トモデルの利得と状態遷移を尤度最大化基準に基づき推
定することで、各音源波形に対応するテンプレートモデ
ルの振幅レベル調整と位相合わせを実現し、この適応化
テンプレートモデルを照合モデルとして入力混合音源音
響波形を分離する手順からなることを特徴とする。 (5)上記(1)記載の音源の分離方法において、入力
された混合音源音響波形に対して、隠れマルコフモデル
と線形フィルタの組み合わせによる音源波形テンプレー
トモデルの状態遷移を尤度最大化基準に従って推定する
ことで、位相合わせを実現し、分離波形を得る手順から
なることを特徴とする。 (6)上記(2)記載の音源の分離装置において、入力
された混合音源音響波形に対して、隠れマルコフモデル
と線形フィルタの組み合わせによる音源波形テンプレー
トモデルの状態遷移を尤度最大化基準に従って推定する
ことで、位相合わせを実現し、分離波形を得る手順から
なることを特徴とする。 (7)上記(1)記載の音源の分離方法において、隠れ
マルコフモデルと線形フィルタの組み合わせによる音源
波形の確率モデルをテンプレートモデルとして、混合音
源音響波形をそれぞれの音響波形に分離する手順からな
ることを特徴とする。 (8)上記(2)記載の音源の分離装置において、隠れ
マルコフモデルと線形フィルタの組み合わせによる音源
波形の確率モデルをテンプレートモデルとして、混合音
源音響波形をそれぞれの音響波形に分離する手段を備え
たことを特徴とする。 (9)上記(1)記載の音源の分離方法において、隠れ
マルコフモデルと線形フィルタの組み合わせによる音源
波形の確率モデルをテンプレートモデルとし、このテン
プレートモデルを混合したモデルを基準として、尤度最
大化基準に従って混合隠れマルコフモデルの状態遷移を
決定し、その遷移において得られる残差を尤度最大化基
準に従って各隠れマルコフモデル出力値に分解し、混合
テンプレートモデルの入力混合波形に対する位相合わせ
を行う手順からなることを特徴とする。 (10)上記(2)記載の音源の分離装置において、隠
れマルコフモデルと線形フィルタの組み合わせによる音
源波形の確率モデルをテンプレートモデルとし、このテ
ンプレートモデルを混合したモデルを基準として、尤度
最大化基準に従って混合隠れマルコフモデルの状態遷移
を決定し、その遷移において得られる残差を尤度最大化
基準に従って各隠れマルコフモデル出力値に分解し、混
合テンプレートモデルの入力混合波形に対する位相合わ
せを行う手段を備えたことを特徴とする。
【発明の実施の形態】以下に、上記課題を解決するため
の本発明の実施形態について図面を参照して詳細に説明
する。本発明は、隠れマルコフモデル(HMM)と線形フ
ィルタの組み合わせによる音源波形の確率モデルをテン
プレートモデルとして用いるモノラル混合音源の分離方
法において、各音源の任意の利得変化に対する、尤度最
大化基準に基づいたテンプレートモデルの利得適応化処
理を含むことを特徴とする。本発明は、時間領域におい
て駆動源パルスに着目したモノラル混合音源分離を実現
するものである。駆動源の特徴を明確にするために、音
響信号をソースフィルタモデルに基づき調音フィルタと
駆動源に分解してモデリングする。具体的には、調音フ
ィルタとして線形フィルタ(Auto-Regressive (AR) 過
程を採用)、そして駆動源としてHidden Markov Model
(HMM) を用いる。更に、駆動源の利得変化を表現するた
めに、HMMの出力を時変利得の乗算器に通すモデルとす
る。このような構成によるソースフィルタモデルを、以
後、利得可変型AR-HMMまたは単にAR-HMMと呼ぶ。音源分
離は、あらかじめ音響信号のサンプルよりAR-HMMのAR係
数およびHMMのパラメータを学習することでテンプレー
トモデルを作成しておき、混合音源信号に対する混合テ
ンプレートモデルの尤度最大化基準に従う適応化処理
と、それに基づいた波形分離処理よりなる。駆動源モデ
ルとしてHMMを採用することで、混合テンプレートモデ
ルの適応化処理は主に各HMMの状態遷移と時変利得の推
定問題となる。複数のHMM出力が直接混合された観測系
列から各HMMの状態遷移を推定する手法としてHMM分解法
が既に提案されている。本発明では、混合駆動源信号に
対する複数HMMの状態遷移推定に、このHMM分解法の考え
を利用する。しかし、HMM分解法が想定している状況と
本発明が扱う状況の決定的な違いは、任意の利得倍した
HMM出力がAR過程を通った後混合した観測系列から、各
駆動源の利得変化に適応しつつHMMの状態遷移の推定を
考えなければならないとい点である。以後、本発明手法
を利得適応型(Gain-Adapted) AR-HMM(又は、GA-ARHMM)
分解法という。図1に周期性を持つ駆動源を4状態のHMM
でモデリングしたAR-HMMを示す。このモデルにおいて駆
動源信号は、時間と共にHMMの状態間を確率的に遷移
し、各状態の正規分布で表された出力分布に従って出力
値が確率的に決定する非定常確率信号としてモデリング
される。また、駆動源の周期性により、HMMの各状態を
リング状に接続し、遷移方向を一方向としている。一
方、周期性を持たない音源に対しては、例えば、分散が
時変なガウス性白色雑音などはAR-HMMのAR過程を取り除
き、1状態の駆動源を用いてモデリングする。もし共振
特性を持つ雑音であればAR過程を組み込んでモデリング
する。また周期性はないが異なる特徴が非定常に入れ替
わるような駆動源を持つ音源であれば、その特徴に見合
った複数状態のHMMを設計する。このように、AR-HMMは
その構造を適切に設計することで多様な音源をモデリン
グすることができる。駆動源の周期性や周期変化などの
特徴は全てHMMの状態遷移系列により記述される。つま
り、このHMMによる駆動源モデルは、状態遷移系列を操
作することで、任意の基本周期および周期変化を示す駆
動源に適応できる。図2は、プレエンファシスを施した
音声から抽出した駆動源波形(最上段)を4状態HMMで
モデリングした例を示している。同じ模様で網かけして
ある領域がそれぞれHMMの1つの状態に対応している。H
MMの状態がリング状に接続されていることから、駆動源
波形の周期に同期して、4つあるHMMの状態も周期的に
順に遷移している。図中、中段と下段のグラフは、出力
分布の期待値と分散を示している。HMMから出力される
駆動源を時変利得の乗算器に通すことで、駆動源の利得
変化を表現する。そして最後にAR過程の調音フィルタに
よるスペクトル包絡の整形過程を経ることで、AR-HMMは
音響波形の確率モデルとなる。このモデルはあくまでも
確率モデルであるので、出力の1つのサンプルが音響波
形に対応するということであり、実際のモデルは音響波
形を正規分布の時系列として表現する。以下では、状態
数が 個のHMMで駆動源をモデリングする場合を考える。ま
た、各状態には固有の番号を割り振り、状態の集合を で表す。そして、状態 の初期確率をπs、正規分布の期待値と分散をそれぞれ 、また、状態sから状態pへの遷移確率をb(s,p)で表
す。このとき、時刻nにおけるHMMの状態をs(n)で表す
と、駆動源e(n)が従う母数は で表される。また、駆動源の時変利得をg(n)、次数Pの
AR係数を で表すと、このAR-HMMの出力x(n)は次式で与えられる。 (1) テンプレートモデルは、用意した音響信号のサンプルに
対し、尤度最大化基準に従ってAR-HMMのAR係数とHMMの
パラメータ を求めることで作成する[文献[SAS1]:佐宗 晃, 田中
和世, ``HMMによる音源のモデリングと高基本周波数に
頑健な声道特性抽出,'' 信学論(D-II), vol.J84-D-II,
no.9, pp.1960-1969, Sep. 2001 参照]。但し、文献[S
AS1]に述べられている方法では駆動源の時変利得が考慮
されていないので、振幅がほぼ一定になっているセグメ
ントを切り出し、モデルの学習を行なう。また、駆動源
信号に対してHMMのパラメータ推定をする際に、ごく一
部の状態だけが他の状態と比べて著しく分散が小さくな
り、AR係数の推定精度が劣化することがある。このよう
な場合は、HMMの全状態の分散がある一定の範囲内に入
るように制限しながら、HMMのパラメータを収束させる
ようにする。具体的には、繰返し推定の各ステップにお
いて得られた全状態の分散の中で最大値 を求める。そして、分散の範囲を決定する係数 を導入し、分散の最小閾値を より求め、閾値以下の分散は全て閾値に置き換える。本
発明では、Nm個の音源が混合している混合音源信号y(n)
を、AR-HMMテンプレートモデルを用いて図3のようにモ
デル化する。この図では、駆動源としてリング状HMMが
用いられているので周期的に変化する音源の混合音分離
を想定しているが、先に述べたようにAR-HMMの構造を適
切に設計すれば、非定常な雑音と周期的音源の混合音分
離など、より一般的な音源の分離問題へ適用可能である
と考えられる。各テンプレートモデルのAR係数およびHM
Mのパラメータはテンプレートモデル作成手段により既
に求められているので、提案法が行なうべき処理は、観
測された混合音源信号に対するテンプレートAR-HMMの適
応化処理と、その適応化AR-HMMに基づく音源分離処理の
2つである。適応化処理は、各AR-HMMの状態遷移と利得
を混合音源信号から推定することにより実現される。複
数HMMの状態遷移を全HMM出力の混合信号から推定する手
法としてHMM分解法が既に提案されているが、提案法で
あるGA-ARHMM分解法は、図3に示すように、HMM出力が
時変利得の乗算器とAR過程を通った後、加算された混合
信号からの分解を考えなければならない。混合モデル数
がNm個の場合、HMM分解法と同じくGA-ARHMM分解法で
も、HMMの直積空間 と時間方向を合わせた(Nm+1)次元トレリス上で、尤度が
最大となるパスを探索することになる。例えば、HMMの
状態数が4のテンプレートモデルを用いて2音源の分離
を考える場合は、図4に示すような3次元トレリスを用
いる。以下では、混合音源信号y(n)を出力し、時刻(n+
1)で混合状態 に最大尤度で遷移する遷移元混合状態 とその尤度の求め方を説明する。混合音源信号y(n)は、
式(1)を用いると、次のように表される。 (2) ここで添字 はモデル番号を表し、xm(n),gm(n),em(n)はそれぞれモ
デルmの音響信号、時変利得そして駆動源の真値を表
す。このように、右辺第1項には全AR-HMMの自己回帰成
分が含まれているので、HMM分解法のように直接y(n)を
用いて混合HMMの分解を考えることができない。そこ
で、y(n)から全自己回帰成分を差し引いた量に着目す
る。但し、各モデルの自己回帰成分はその過去の分離信
号を用いて計算する。また、分離信号は各混合状態に至
るパスに依存するため、全モデルの過去の分離信号を混
合状態毎に記憶しておく必要がある。以後、混合状態 に記憶されているモデルmの過去の分離信号を で表す。そして、混合状態 における全音源の分離信号より求めた自己回帰成分を混
合音源信号y(n)から差し引いた残差 を、 (3) より求める。一方、残差 は、過去の分離信号が適切に推定されていれば、式(2)
より、 (4) のように、利得で重み付けしたHMM駆動源出力の混合量
に相当すると考えられる。もし利得が全て1で固定され
ていれば、 はHMM出力の和になるので、この量に着目すればHMM分解
法と同様な手順でAR-HMMの分解を考えることができる。
しかし、式(4)の残差には時変利得が含まれており、分
解するにあたってこれらを推定しなければならない。こ
こで、利得に対する条件を以下のように整理しておく。
利得によって駆動源の位相が変化することはない。利得
は時変であるが、駆動源に比べれば緩やかに変化する。
利得に対する1番目の条件は、利得の負号が変わらない
ようにすることで満たされる。以下では、全ての利得が
全ての時刻で正の値をとるように制限する。 (5) 2番目の条件については、以下のように考える。混合状
に含まれているモデルmの状態をsm(n)で表し、その状
態における出力分布の期待値と分散をそれぞれ で表す。そして、駆動源em(n)を、母数 に従う確率変数であると考える。また、式(4)より、残
は駆動源を利得で重み付した線形和で表されるので、そ
の生起確率分布は混合状態 と利得gm(n)の条件付きで次のように表される。 (6) ここで、式(6)を改めて、利得 を変数とした残差に対 する尤度関数とみて、この尤度を最大化するように利得
を推定することを考える。図5に、2音源混合の場合の
利得に対する尤度変化の例を示す。また、図は式(5)の
条件より第1象限のみ表示してある。このように尤度関
数は利得に関して上に凸な関数となり、尤度を最大化す
る利得は一組定まる。しかし、この尤度関数に基づいた
利得の最適化を各時刻の混合状態毎に行なうと、推定さ
れた利得が短時間に急激に変化することがあり、利得に
対する2番目の条件が満たされない。そこで、各時刻の
適応化処理は、尤度関数の微係数に基づいた若干の修正
にとどめることで、利得の時間的な変化に制限を加え
る。駆動源の状態遷移を適切に推定しているパスに沿っ
て推定された利得は、この適応化処理を繰り返すことで
最尤推定値に近づく。以後、混合状態 に記憶されているモデルmの推定利得を で表す。式(6)の対数尤度をgM(n)で偏微分し、 における微係数を求めると、 (7) となる。基本的にはこの微係数に比例する量を一つの状
態遷移で利得に加える修正量とするが、利得と分散の値
が小さい場合に尤度の傾きが急峻になり、微係数が著し
く大きな値をとることがある。このとき利得に対する2
番目の条件が満たされなくなるために、利得の修正量に
対する最大閾値を設けることにする。ここでステップサ
イズをα、最大修正閾値をβで表し、利得の修正量 を次のように定義する。 (8) そして混合状態 からの状態遷移において、モデルMの更新利得 を、 (9) により求める。但し、更新利得が零以下の場合は正の微
小値に置き換える。混合状態 から残差 が出力される確率は、式(9)の更新利得と式(6)を用いて で求める。また、混合状態 から への遷移確率 は、 (10) で与えられる。ここで、混合状態 の尤度を で表し、その状態から遷移した混合状態 における尤度 を求めると、 (11) となる。そして、混合状態 に最大尤度で遷移する遷移元混合状態 を次のように選択し、 (12) これを用いて混合状態 に記憶される推定利得を 、また混合状態 の尤度を、 (13) と設定する。前述したように、過去の分離信号が適切に
推定されていれば、残差 は式(4)のように利得で重み付けした混合駆動源に相当
すると考えられる。その残差を各利得付駆動源 に分解するために、次のように考える。以後、モデルm
の利得付駆動源を で表す。確率変数として見た場合、利得付駆動源 の従う確率分布は、期待値と分散が、 , の正規分布である。 (14) そして、各モデルの駆動源は互いに独立な事象なので、
その同時確率分布は、 (15) で与えられ、この同時生起確率が最大になるように残差
を分離する。 (16) この分離値 は、次の方程式の解として与えられる。 (17) そして、混合音源 を各音源への分離した値 は、式(3)より、混合状態 に記憶されている分離信号から求めた自己回帰成分と利
得付駆動源の和として求められる。 (18) また、時刻nより前の分離信号 は、混合状態 に記憶されている分離信号 をそのまま引き継ぐ。以下に、サンプル数が の混合音源信号に対するGA-ARHMM分解法のアルゴリズム
を示す。
【実施例】図13は本発明の分離装置の構成図である。
本発明の実施例の分離装置は、テンプレートモデルのデ
ータベース作成手段と混合波形分離手段から成る。テン
プレートモデルのデータベース作成の実施例について図
を用いて説明する。図13において、テンプレートモデ
ルのデータベース作成手段は、調音モデル(線形フィル
タ)による逆フィルタリング10、HMM駆動源モデルの
作成手段11、尤度最大化基準に基づいた調音モデルの
作成手段12、駆動源母数の作成手段13、テンプレー
トモデルデータベース14からなる。テンプレートモデ
ルのデータベースは、分離装置が使用される音環境の環
境音サンプルを用意し、それぞれの音響波形から作成し
たテンプレートモデルを蓄積する。テンプレートモデル
は、音源の駆動源と調音部を切り離し、それぞれHMMと
線形フィルタを用いたモデル構成とする。これにより、
データベース中のテンプレートモデルを任意の基本周波
数および位相の照合モデルに容易に再合成できる。テン
プレートモデルの作成は、音源音響波形のサンプルに対
して、尤度最大化基準に基づきパラメータを決定する。
サンプル音響波形に対するHMMと線形フィルタの尤度関
数は非線形となるため、両者を同時に求めることはでき
ない。そこで、調音モデルによる逆フィルタリング10
により音響波形から駆動源波形を抽出し、HMM駆動源モ
デルの作成手段11によりHMMのパラメータ推定および
更新をする。そして、駆動源波形とHMMパラメータを基
に駆動源母数の作成手段13により駆動源母数を生成
し、その駆動源母数と音響波形を基に線形フィルタの作
成手段12により線形フィルタの再推定および更新をす
る。以上の処理を、HMMと線形フィルタの尤度が収束す
るまで繰り返し、テンプレートモデルを作成する。次
に、混合波形分離手段について説明する。図13におい
て、混合波形分離手段は、テンプレートモデルのデータ
ベース14、最大尤度で遷移する混合状態の決定手段1
5、混合波形と尤度の記憶装置16,19、利得適応化
処理20、予測残差の各HMM出力への分解手段17、分
離波形の算出手段18より構成する。音源分離処理は、
混合波形の瞬時値y(t)の入力毎に再帰的に行われ
る。つまり、ある時刻(t)までの各混合状態に至る過
程で得られた分離波形およびその尤度が全て記憶装置1
6に記憶されている。そして、瞬時値y(t)を出力し
て最大尤度で時刻(t+1)の混合状態に遷移してくる
遷移元、つまり時刻(t)における混合状態を、手段2
0の利得適応処理を施しながら手段15により選択す
る。そして推定利得を用いて手段17により、得られた
予測残差を各HMMの出力値に分離し、手段18により過
去の回帰成分と加算することで、各音源の出力瞬時値に
分解する。そして、その分離音源瞬時値と選択された時
刻(t)の混合状態に付随している過去の分離波形と共
に尤度を記憶装置19に記憶する。この処理が時刻(t
+1)における全ての混合状態について終了すると、時
刻(t+1)までの各混合状態に至る過程で得られた分
離波形およびその尤度が全て記憶装置19に記憶され
る。そして、新たに混合波形の瞬時値y(t+1)が入
力されると、記憶装置19の内容を記憶装置16に複写
した後、前記の処理を再帰的に繰り返す。最終時刻にお
ける処理の終了後、記憶装置19に格納されている混合
状態の中で最大尤度を与える混合状態を選択し、それに
付随している分離波形を最終的な結果として出力し、全
処理が完了する。このように本発明は、尤度最大化基準
だけを基に処理が進むので、事前に混合波形の各基本周
波数成分や位相情報また利得を抽出しておく必要がな
い。また、得られた状態遷移系列から、各音源の基本周
波数および位相が得られる。本来、AR-HMMテンプレート
モデルは音響波形の確率モデルであり、各時刻の音響信
号サンプルは分散を持った分布で表現されているため、
利得適応化処理を施さなくても若干の利得変動であれば
その変化を吸収できると予想される。そこで本実験で
は、利得適応化処理の有効性を調べるために、振幅変調
度を変えながら異なる周波数の正弦波で振幅変調した2
音源の混合音分離を、利得適応化処理を含まない(利得
を常に1で固定した)AR-HMM分解法(特願2001-19364
8)と、本発明の利得適応型(GA)AR-HMM分解法による分
離実験を行ない、両者の分離精度を比較する。表1にAR-
HMMテンプレートモデルの作成条件を示す。また前述の
ように分散の範囲を で制限しながらAR-HMMテンプレートモデルの学習を行な
った。 表 1:テンプレートモデル作成条件 実験は図6に示す手順に従って行なう。まず3名の話者
が発声した5母音から異なる2話者の母音を選ぶ。これ
らの音声は全てパワーが同じになるように予め振幅をス
ケーリングしてある。そして、プレエンファシス後、 で表される振幅変調をそれぞれの音声に施し、両者を加
え合わせることで混合音声を生成する。ここで、f1,f2
は変調周波数、γは共通の振幅変調度そしてfsはサンプ
リング周波数を表す。また、変調周波数は選ばれた2話
者間で入れ換えは行なわず、一方の話者の変調周波数を
f1としたらもう一方の話者はf2で固定とする。従って、
得られる混合音声は75組となる。変調周波数の値は全
ての実験を通してf1=10[Hz], f2=15[Hz]の固定値とし、
振幅変調度γを0から0.9まで0.1きざみで変化させ、そ
れぞれの値で生成した混合音声に対して分離実験を行な
う。混合音声のセグメント長は562.5[ms]とした。利得
適応化処理における最大ステップサイズαと最大修正閾
値βは、振幅変調の最大変化に十分追従可能で、更に利
得に対する2番目の条件を満たすように設定しなければ
ならない。式(17)より1サンプル当りの最大変化量を求
めると であり、最大修正閾値は を満たさなければならない。ここで、最大変調度γ=0.9
と最大周波数f2=15[Hz]の値を用いて最大変化量を求め
るとΔA≒0.0053となり、これから余裕をもってβ=0.1
とした。その上でステップサイズは経験的に求めた値と
してα=0.01を用いた。以上に述べた混合音声と分離実
験の条件を表2に示す。表 2:混合音声生成および分離
実験の条件 分離精度の比較は、1)駆動源抽出率と2)分離波形の
SNRの2項目で行なう。駆動源抽出率とは、混合する以前
の音声波形から駆動源HMMの状態遷移を求め、出力分布
の期待値の絶対値が最大となる状態が主たる駆動源を表
していると仮定し、状態遷移系列の中から連続してその
状態にある区間の中心時刻をオリジナル駆動源位置とし
て求める。そして混合音声から求めた状態遷移系列から
同様にして駆動源位置を求め、オリジナル駆動源位置の
±1[ms]以内で最もオリジナル駆動源位置に近い時刻に
ある駆動源を抽出成功駆動源として数え、その他は全て
誤りとする。ここでオリジナル駆動源の数をNorg、混合
音声から抽出された駆動源の総数をNall、その中で抽出
成功駆動源の数をNsucとして、駆動源抽出率Extを と定義する。この駆動源抽出率は、混合音声からオリジ
ナル駆動源位置を±1[ms]の精度内で過不足なく抽出で
きたときのみ100[%]となる。図7に、利得適応型AR-HMM
分解法を用いた混合音声分離結果の例を示す。この実験
例で用いられた音声は、男性話者の/e/と女性話者の/i/
で、それぞれの基本周波数は約120[Hz]と210[Hz]であ
る。図(b)が振幅変調度0.5、周波数10[Hz]で振幅変調し
た母音/e/、図(e)が周波数15[Hz]で振幅変調した母音/i
/である。また図(a)が振幅変調を施した音声の混合波形
である。そして、図(c),(f)が混合音声から分離した音
声波形で、それぞれ10.6[dB]と12.1[dB]であった。図
(d),(g)は混合波形から推定された利得を示しており、
点線はオリジナルの振幅変調曲線を表している。一方、
混合以前の音声と混合音声から駆動源HMMの状態遷移系
列を抽出し、これに基づき出力分布の期待値を並べた時
系列の一部を示したのが図8である。男性話者母音/e/
と女性話者母音/i/のオリジナルの期待値遷移がそれぞ
れ図(a),(c)で、混合音声から抽出した期待値遷移が図
(b),(d)である。いずれも、全区間で駆動源抽出率を求
めると100[%]であった。次に全ての混合音声に対する分
離実験の結果を示す。まず各振幅変調度の混合音声75組
から得られる150個の分離音声について駆動源抽出率を
求め、もしそれが50[%]以下であればGross Errorとす
る。そしてGross Errorとなった分離音声の駆動源抽出
率を除いて残りの平均を算出し、これを振幅変調度に対
する駆動源抽出率とする。表3にGross Errorを示し、
表4に駆動源抽出率を示す。また2つの分離音声の少な
くとも一方の駆動源抽出率がGross Errorとなった組を
除いて求めた分離音声の平均SNRを表5に示す。これら
の表より、変調度が0の場合はAR-HMM分解法およびGA-AR
HMM分解法で差はあまり見られない。また変調度が増加
するに従い両手法共に駆動源抽出率は減少するが、GA-A
RHMM分解法の方が成功率は高く、更に変調度が増加する
につれてその差は大きくなる傾向が見られた。一方、変
調度が増加するとAR-HMM分解法により得られた分離音声
のSNRは減少するが、GA-ARHMM分解法の場合は変調度に
よらず約9[dB]の精度を保つことがわかる。 表 3:Gross Error[%] 表 4:駆動源抽出率[%] 表 5:分離信号のSNR[dB] 利得適応型AR-HMM分解法は、周期性を持つ音源の分離だ
けに適用されるものではない。前述のようにテンプレー
トモデルの構造を適切に設計することで、多様な音源を
モデル化でき、更にそれらの混合音分離を実現できると
考えられる。ここでは分散が時変なガウス性白色雑音と
音声の混合音分離問題へ利得適応型AR-HMM分解法を適用
した例を示す。使用した音声は男性話者の長母音/a/
で、AR-HMMの学習条件は前述の実験と同じである。時変
分散のガウス性白色雑音モデルは、期待値が0で分散が
任意定数の正規分布を出力分布として持つ単一状態の駆
動源と、時変利得の乗算器の組み合わせで表現される。
この実験では雑音駆動源の分散を雑音生成時に用いた分
散と等しく設定したが、利得適応型AR-HMM分解法では利
得を自動的に調整するため、一般的には雑音駆動源の分
散を予めそのサンプルより学習しておく必要はない。混
合音は、プレエンファシス後の長母音/a/と、振幅変調
(変調度0.5、変調周波数5[Hz])を施したガウス性白色
雑音を加え合わせることで生成した。混合前の長母音と
混合音の全区間から求めたSNRは3.60[dB]であった。実
験結果を図9に示す。同図(a)が雑音混入音声波形、(b)
(e)は混合前の音声および雑音の波形、(c)(f)が分離波
形である。混合前音声と分離音声のSNRを求めると、9.2
0[dB]であった。また、同図(d)(g)が混合音から推定さ
れた利得曲線である。図(g)で点線は雑音駆動源に対し
て施した振幅変調のオリジナル曲線を示している。これ
より利得の推定も良好に行われたことがわかる。最後に
音声の駆動源抽出結果を図10に示す。これから駆動源
抽出率を求めると、98.1[%]であった。次の実験では、
利得適応型AR-HMM分解法の周期変動音源への適応性を見
るために、周期変動音源と利得変動音源の混合音分離へ
適用した例を示す。実験に用いた混合音は、男性話者の
長母音/a/を、プレエンファシス後、振幅変調(変調度
0.5、変調周波数10[Hz])した音声と、女性話者が基本周
波数を段階的に変えながら発声した長母音/i/のプレエ
ンファシス音声を加え合わせて生成した。また混合前音
声および混合音声の波形およびスペクトログラムを図1
1に示す。スペクトログラムはハニング窓(フレーム幅
60[ms], フレーム周期10[ms])で切り出したフレームを
FFTして求めた。同図(中)のスペクトログラムに示され
ている調波構造の変化から、女性話者が基本周波数を3
段階で上昇させている様子が見られる。テンプレートモ
デルの学習条件は前述の実験と同じとした。実験結果を
図12に示す。混合前と分離音声のSNRを求めると、/a/
が9.61[dB]、/i/が13.3[dB]であった。また駆動源抽出
率を求めると、/a/が94.3[%]、/i/が97.3[%]と高い値が
得られた。また、図11と図12のスペクトログラムを
比較すると、混合前音声の調波構造が分離音声によく保
たれていることから、提案法は各音声の周期変動を適切
に抽出できていることがわかる。
【発明の効果】特願2001-193648に記載されているAR-HM
M分解法では、音源の周期変動にテンプレートモデルを
適応させることはできたが、利得変動は考慮されていな
かった。そのためテンプレートモデルの学習に用いた音
源のサンプル音響波形と混合された音響波形の振幅レベ
ルが著しく異なると、混合音からの分離が困難になると
いう問題点があった。本発明では、尤度最大化基準に従
って、混合音から各音源の周期変動だけでなく利得変動
も逐次推定が行なえるように拡張することで、任意の利
得変化を示す音源を混合音から分離することが可能とな
る。
【図面の簡単な説明】
【図1】4状態HMMの利得可変型AR-HMMを示す図である。
【図2】駆動源波形を4状態HMMで表現した例を示す図で
ある。
【図3】図1のテンプレートモデルを用いた混合音源の
モデリング図である。
【図4】2音源混合時の3次元トレリスを示す図であ
る。
【図5】利得に対する尤度変化の例を示す図である。
【図6】実験手順を示す図である。
【図7】GA-ARHMM分解法による音源分離結果の例を示す
図である。 (a)混合音声波形, (b)(d)オリジナルの振幅
変調音声波形/e/,/i/, (c)(f)分離音声波形/e/,/i/,
(d)(g)推定利得曲線(点線はオリジナル曲線)
【図8】GA-ARHMM分解法による駆動源抽出結果の例を示
す図である。(a)(c)オリジナル, (b)(d)混合音声からの
抽出結果
【図9】GA-ARHMM分解法による音声と雑音の混合音源分
離結果を示す図である。(a)混合音声波形, (b)混合前音
声波形, (c)分離音声波形, (d)音声の推定利得曲線,
(e)混合前雑音波形, (f)分離雑音波形, (g)雑音の推定
利得曲線(点線はオリジナル曲線)
【図10】雑音混入音声からの駆動源抽出結果を示す図
である。 (a)オリジナル, (b)抽出結果
【図11】混合前波形と混合波形のスペクトログラムを
示す図である。(上)男性話者長母音/a/, (中)女性話者
長母音/i/, (下)混合音声
【図12】分離波形のスペクトログラムを示す図であ
る。(上)男性話者の分離音声, (下)女性話者の分離音声
【図13】本発明の分離装置の構成図である。
【図14】前記特願2001−193648号(先願)
に記載の分離装置構成図である。
【符合の説明】
10調音モデル(線形フィルタ)による逆フィルタリン
グ 11HMM駆動源モデルの作成手段 12尤度最大化基準に基づいた調音モデル(線形フィル
タ)の作成手段 13駆動源母数の作成手段 14テンプレートモデル(AR-HMM)データベース 15混合波形y(t)を出力して時刻(t+1)の各混
合状態に最大尤度で遷移する時刻(t)の混合状態を決
定する手段 16時刻(t)の各混合状態に至る過程で得られた分離
音源波形および尤度を記憶しておく記憶装置 17予測残差の各HMM出力への分解手段 18回帰成分と加算し、各音源の時刻(t)における分
離波形瞬時値の算出手段 19時刻(t+1)の各混合状態に至る過程で得られた
分離音源波形および尤度を記憶しておく装置 20尤度最大化基準に基づいた利得適応化処理
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/02 301F

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】隠れマルコフモデルと線形フィルタの組み
    合わせによる音源波形の確率モデルをテンプレートモデ
    ルとして用いる音源の分離方法において、各音源の任意
    の利得変化に対して、尤度最大化基準に基づいたテンプ
    レートモデルの利得適応化処理を行うことを特徴とする
    音源の分離方法。
  2. 【請求項2】隠れマルコフモデルと線形フィルタの組み
    合わせによる音源波形の確率モデルをテンプレートモデ
    ルとして用いる音源の分離装置において、各音源の任意
    の利得変化に対して、尤度最大化基準に基づいたテンプ
    レートモデルの利得適応化処理を行う手段を備えたこと
    を特徴とする音源の分離装置。
  3. 【請求項3】入力された混合音源音響波形に対して、隠
    れマルコフモデルと線形フィルタの組み合わせによる音
    源波形テンプレートモデルの利得と状態遷移を尤度最大
    化基準に基づき推定することで、各音源波形に対応する
    テンプレートモデルの振幅レベル調整と位相合わせを実
    現し、この適応化テンプレートモデルを照合モデルとし
    て入力混合音源音響波形を分離する手順からなることを
    特徴とする請求項1記載の音源の分離方法。
  4. 【請求項4】入力された混合音源音響波形に対して、隠
    れマルコフモデルと線形フィルタの組み合わせによる音
    源波形テンプレートモデルの利得と状態遷移を尤度最大
    化基準に基づき推定することで、各音源波形に対応する
    テンプレートモデルの振幅レベル調整と位相合わせを実
    現し、この適応化テンプレートモデルを照合モデルとし
    て入力混合音源音響波形を分離する手順からなることを
    特徴とする請求項2記載の音源の分離装置。
  5. 【請求項5】入力された混合音源音響波形に対して、隠
    れマルコフモデルと線形フィルタの組み合わせによる音
    源波形テンプレートモデルの状態遷移を尤度最大化基準
    に従って推定することで、位相合わせを実現し、分離波
    形を得る手順からなることを特徴とする請求項1記載の
    音源の分離方法。
  6. 【請求項6】入力された混合音源音響波形に対して、隠
    れマルコフモデルと線形フィルタの組み合わせによる音
    源波形テンプレートモデルの状態遷移を尤度最大化基準
    に従って推定することで、位相合わせを実現し、分離波
    形を得る手順からなることを特徴とする請求項2記載の
    音源の分離装置。
  7. 【請求項7】隠れマルコフモデルと線形フィルタの組み
    合わせによる音源波形の確率モデルをテンプレートモデ
    ルとして、混合音源音響波形をそれぞれの音響波形に分
    離する手順からなることを特徴とする請求項1記載の音
    源の分離方法。
  8. 【請求項8】隠れマルコフモデルと線形フィルタの組み
    合わせによる音源波形の確率モデルをテンプレートモデ
    ルとして、混合音源音響波形をそれぞれの音響波形に分
    離する手段を備えたことを特徴とする請求項2記載の音
    源の分離装置。
  9. 【請求項9】隠れマルコフモデルと線形フィルタの組み
    合わせによる音源波形の確率モデルをテンプレートモデ
    ルとし、このテンプレートモデルを混合したモデルを基
    準として、尤度最大化基準に従って混合隠れマルコフモ
    デルの状態遷移を決定し、その遷移において得られる残
    差を尤度最大化基準に従って各隠れマルコフモデル出力
    値に分解し、混合テンプレートモデルの入力混合波形に
    対する位相合わせを行う手順からなることを特徴とする
    請求項1記載の音源の分離方法。
  10. 【請求項10】隠れマルコフモデルと線形フィルタの組
    み合わせによる音源波形の確率モデルをテンプレートモ
    デルとし、このテンプレートモデルを混合したモデルを
    基準として、尤度最大化基準に従って混合隠れマルコフ
    モデルの状態遷移を決定し、その遷移において得られる
    残差を尤度最大化基準に従って各隠れマルコフモデル出
    力値に分解し、混合テンプレートモデルの入力混合波形
    に対する位相合わせを行う手段を備えたことを特徴とす
    る請求項2記載の音源の分離装置。
JP2001292436A 2001-09-25 2001-09-25 音源の分離方法および音源の分離装置 Pending JP2003099085A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001292436A JP2003099085A (ja) 2001-09-25 2001-09-25 音源の分離方法および音源の分離装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001292436A JP2003099085A (ja) 2001-09-25 2001-09-25 音源の分離方法および音源の分離装置

Publications (1)

Publication Number Publication Date
JP2003099085A true JP2003099085A (ja) 2003-04-04

Family

ID=19114398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001292436A Pending JP2003099085A (ja) 2001-09-25 2001-09-25 音源の分離方法および音源の分離装置

Country Status (1)

Country Link
JP (1) JP2003099085A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004107319A1 (ja) * 2003-05-30 2004-12-09 National Institute Of Advanced Industrial Science And Technology 既知音響信号除去方法及び装置
JP2005241717A (ja) * 2004-02-24 2005-09-08 Kawai Musical Instr Mfg Co Ltd 自然楽器の楽音判定装置におけるモデル作成装置およびモデル作成用プログラム
KR100745689B1 (ko) 2004-07-09 2007-08-03 한국전자통신연구원 혼합된 오디오 스트림으로부터 오디오 객체를 분리하기위한 단말 장치 및 그 방법
JP2008546012A (ja) * 2005-05-27 2008-12-18 オーディエンス,インコーポレイテッド オーディオ信号の分解および修正のためのシステムおよび方法
JP2013106502A (ja) * 2011-11-17 2013-05-30 Mitsubishi Electric Corp パターン分離装置及びパターン分離方法及びプログラム
JP2013210230A (ja) * 2012-03-30 2013-10-10 Sony Corp データ処理装置、データ処理方法、及び、プログラム
JP2014071417A (ja) * 2012-10-01 2014-04-21 National Institute Of Advanced Industrial & Technology Ar−hmmのトポロジ自動生成
US10452986B2 (en) 2012-03-30 2019-10-22 Sony Corporation Data processing apparatus, data processing method, and program

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2418577A (en) * 2003-05-30 2006-03-29 Nat Inst Of Advanced Ind Scien Method and device for removing known acoustic signal
WO2004107319A1 (ja) * 2003-05-30 2004-12-09 National Institute Of Advanced Industrial Science And Technology 既知音響信号除去方法及び装置
GB2418577B (en) * 2003-05-30 2007-10-17 Nat Inst Of Advanced Ind Scien Method and device for removing known acoustic signal
JP4530199B2 (ja) * 2004-02-24 2010-08-25 株式会社河合楽器製作所 自然楽器の楽音判定装置におけるモデル作成装置およびモデル作成用プログラム
JP2005241717A (ja) * 2004-02-24 2005-09-08 Kawai Musical Instr Mfg Co Ltd 自然楽器の楽音判定装置におけるモデル作成装置およびモデル作成用プログラム
KR100745689B1 (ko) 2004-07-09 2007-08-03 한국전자통신연구원 혼합된 오디오 스트림으로부터 오디오 객체를 분리하기위한 단말 장치 및 그 방법
JP2008546012A (ja) * 2005-05-27 2008-12-18 オーディエンス,インコーポレイテッド オーディオ信号の分解および修正のためのシステムおよび方法
US8315857B2 (en) 2005-05-27 2012-11-20 Audience, Inc. Systems and methods for audio signal analysis and modification
KR101244232B1 (ko) 2005-05-27 2013-03-18 오디언스 인코포레이티드 오디오 신호 분석 및 변경을 위한 시스템 및 방법
JP2013106502A (ja) * 2011-11-17 2013-05-30 Mitsubishi Electric Corp パターン分離装置及びパターン分離方法及びプログラム
JP2013210230A (ja) * 2012-03-30 2013-10-10 Sony Corp データ処理装置、データ処理方法、及び、プログラム
US10452986B2 (en) 2012-03-30 2019-10-22 Sony Corporation Data processing apparatus, data processing method, and program
JP2014071417A (ja) * 2012-10-01 2014-04-21 National Institute Of Advanced Industrial & Technology Ar−hmmのトポロジ自動生成

Similar Documents

Publication Publication Date Title
Weintraub A theory and computational model of auditory monaural sound separation
Ozerov et al. Factorial scaled hidden Markov model for polyphonic audio representation and source separation
US7065488B2 (en) Speech recognition system with an adaptive acoustic model
EP1891624B1 (en) Multi-sensory speech enhancement using a speech-state model
JPH11126090A (ja) 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体
CN100365704C (zh) 声音合成方法以及声音合成装置
JP2004522186A (ja) 音声合成器の音声固有化
CN102436807A (zh) 自动生成重读音节语音的方法和系统
WO2020039571A1 (ja) 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム
Hwang et al. LP-WaveNet: Linear prediction-based WaveNet speech synthesis
Lemercier et al. Analysing diffusion-based generative approaches versus discriminative approaches for speech restoration
JP3632529B2 (ja) 音声認識装置及び方法ならびに記録媒体
JP2003099085A (ja) 音源の分離方法および音源の分離装置
CN114267372A (zh) 语音降噪方法、系统、电子设备和存储介质
Close et al. MetricGAN+/-: Increasing robustness of noise reduction on unseen data
Petkov et al. Spectral dynamics recovery for enhanced speech intelligibility in noise
JP2007251354A (ja) マイクロホン、音声生成方法
JP3541224B2 (ja) 音源の分離方法および分離装置
Saeki et al. SelfRemaster: Self-supervised speech restoration with analysis-by-synthesis approach using channel modeling
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JP2012173592A (ja) 音源パラメータ推定装置と音源分離装置とそれらの方法とプログラム
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP2007033804A (ja) 音源分離装置,音源分離プログラム及び音源分離方法
JPH1097278A (ja) 音声認識方法および装置
WO2021260868A1 (ja) 音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050920

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060926