JP5568530B2 - 音源分離装置とその方法とプログラム - Google Patents
音源分離装置とその方法とプログラム Download PDFInfo
- Publication number
- JP5568530B2 JP5568530B2 JP2011193517A JP2011193517A JP5568530B2 JP 5568530 B2 JP5568530 B2 JP 5568530B2 JP 2011193517 A JP2011193517 A JP 2011193517A JP 2011193517 A JP2011193517 A JP 2011193517A JP 5568530 B2 JP5568530 B2 JP 5568530B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- target
- observation signal
- covariance matrix
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
観測信号には、N(N≧1)個の点音源に起因する目的信号と、加法性雑音とが、共に存在する状況を仮定する。この場合、M個のマイクロホンを用いて観測された多チャネル観測信号y(k,t)は、短時間窓での切り出し処理と短時間フーリエ変換を経て、複素スペクトル領域で式(1)に示すように表される。
ここで、tは時間フレームのインデックス、kは周波数インデックスを表す。観測信号y(k,t)は、M個の混合信号であるy(k,t)=[Y1(k,t)…YM(k,t)]Tであり、xn(k,t)はn番目のチャネル応答を伴った信号成分xn(k,t)=hn(k)Sn(k,t)である。Sn(k,t)はn番目の目的信号である。
また、観測信号には、ある時間周波数ビンでは多くとも一つの点音源に起因する音のみが存在し、それ以外の点音源に起因する音は存在しないとするスパース性の仮定を導入し、式(2)に示すように観測信号をモデル化する。
〔特徴ベクトル計算部〕
M個のマイクロホンで観測された多チャネル観測信号y(t)のそれぞれは、短時間フーリエ変換処理によって複素スペクトル領域の信号に変換される。1番目のマイクロホンの複素スペクトルY1(k,t)〜M番目のマイクロホンの複素スペクトルYM(k,t)のベクトルが、y(t)=[Y1(k,t)…YM(k,t)]Tである。
この複素領域の多チャネル観測信号y(t)を、そのノルムで正規化して特徴ベクトルψ(t)を式(4)で計算する。
図3に、より具体的な音声・雑音存在確率計算部20の機能構成例を示す。その動作フローを図4に示す。音声・雑音存在確率計算部20は、クラスタ分類手段201と、初期化手段202と、期待値計算手段203と、最大化手段204と、収束判定手段205と、を備える。音声・雑音存在確率計算部20は、特徴ベクトルψ(t)を入力として、特徴ベクトルψ(t)を、N個の「目的信号+加法性雑音」と、「加法性雑音」のそれぞれの成分に起因するクラスタに自動分類し、各クラスタに関する事後確率p[Cn|ψ(t),θ]を、期待値最大化法(EMアルゴリズム)を用いて推定して音声存在確率として出力する。
ここで、混合分布のパラメータθはθ={a1,σ1,…,aN+1,σN+1}であり、n番目の分布の重みパラメータαnは、Σnαn=1,0≦αn≦1の制約を満たす。
期待値計算手段203は式(7)を用いて期待値(Eステップ)を計算する(ステップS203)。
ここで(q)は、EMアルゴリズムの繰り返し回数を表す。
図5に、より具体的な音声・雑音特徴計算部30の機能構成例を示す。その動作フローを図6に示す。音声・雑音特徴計算部30は、観測信号共分散行列計算手段301と、加法性雑音共分散行列計算手段302と、目的信号共分散行列計算手段303と、を備える。
観測信号共分散行列計算手段301は、多チャネル観測信号y(t)の共分散行列Ryyを計算する。多チャネル観測信号y(t)の共分散行列Ryyは、式(12)で与えられる。
音声推定用フィルタ計算部40は、多チャネル観測信号y(t)の共分散行列Ryyと、目的信号に関する共分散行列^Rxnxnを入力として、n番目の目的信号に起因する信号成分を最小二乗誤差推定する。
多チャネルフィルタリング部50は、多チャネル観測信号y(t)と、一般化多チャネルウィナーフィルタwn (β)と、各目的信号に関する事後確率p[Cn|ψ(t),θ]と、を入力として、n番目の目的信号の推定値を式(26)でフィルタリングして出力する。
この発明の音源分離装置100の性能を評価する目的で評価実験を行った。実験条件は次の通りとした。
目的信号を2つ(N=2)とし、TIMITデータベースからランダムに抽出した男女各12名の話者のデータを用いた。混合の条件としては、女声2話者の混合、男性2話者の混合、女性話者1名と男声話者1名の混合、の3条件を模擬した。話者二人の位置は、マイクロホンアレーから2m離れ、互いに160度離れた位置とし、同程度の音量で混合した(SIR : Signal-to-Interference Ratio=0dB)。
Claims (5)
- 多チャネル観測信号の各時間周波数ビンを特徴付ける特徴ベクトルを、複素領域の観測信号をそのノルムで正規化して計算する特徴ベクトル計算部と、
上記特徴ベクトルを入力として、上記時間周波数ビンごとの観測信号が、それぞれ加法性雑音のみを含む、または、加法性雑音とN個の音源のうちのいずれか一つの音源に起因する目的信号とを含むと仮定したモデルに基づいて、当該特徴ベクトルをN個の目的音源と上記加法性雑音とに各々起因するN+1個の成分に分類し、各目的音源と加法性雑音に関する事後確率を最尤推定する音声・雑音存在確率計算部と、
上記各目的音源の目的信号についての事後確率と加法性雑音についての事後確率と、上記多チャネル観測信号とを入力として、n番目の目的信号の共分散行列と観測信号に含まれる上記多チャネル観測信号の共分散行列を計算する音声・雑音特徴計算部と、
上記n番目の目的信号の共分散行列と、上記多チャネル観測信号の共分散行列を入力として、上記多チャネル観測信号に含まれるn番目の目的信号以外の不要成分を求め、上記目的信号を回復する一般化多チャネルウィナーフィルタを計算する音声推定用フィルタ計算部と、
上記多チャネル観測信号と上記一般化多チャネルウィナーフィルタと上記各目的音源に関する事後確率とを入力として、n番目の目的信号の推定値を出力する多チャネルフィルタリング部と、
を具備する音源分離装置。 - 多チャネル観測信号の各時間周波数ビンを特徴付ける特徴ベクトルを、複素領域の観測信号をそのノルムで正規化して計算する特徴ベクトル計算部と、
上記特徴ベクトルを入力として、当該特徴ベクトルをN個の目的音源と加法性雑音とに各々起因するN+1個の成分に分類し、各目的音源と加法性雑音に関する事後確率を最尤推定する音声・雑音存在確率計算部と、
上記各目的音源の目的信号についての事後確率と加法性雑音についての事後確率と、上記多チャネル観測信号とを入力として、n番目の目的信号の共分散行列と観測信号に含まれる多チャネル観測信号の共分散行列を計算する音声・雑音特徴計算部と、
上記n番目の目的信号の共分散行列と、上記多チャネル観測信号の共分散行列を入力として、観測信号に含まれるn番目の目的信号以外の不要成分を求め、上記目的信号を回復する一般化多チャネルウィナーフィルタを計算する音声推定用フィルタ計算部と、
上記多チャネル観測信号と上記一般化多チャネルウィナーフィルタと上記各目的音源に関する事後確率とを入力として、n番目の目的信号の推定値を出力する多チャネルフィルタリング部と、
を具備し、
上記音声・雑音特徴計算部は、
上記多チャネル観測信号y(t)のベクトルとそのエルミート転置yH(t)を乗じた値を、総観測フレーム数Tで平均して多チャネル観測信号y(t)の共分散行列Ryyを計算する観測信号共分散行列計算手段と、
多チャネル観測信号y(t)と目的音源の事後確率p[Cn|ψ(t),θ]を入力とし
て、多チャネル観測信号y(t)のベクトルとそのエルミート転置yH(t)と加法性雑音に関する事後確率p[CN+1|y(t)]とを乗じた値を総観測フレーム数Tで平均し
て、加法性雑音の共分散行列^Rvvを計算する加法性雑音共分散行列計算手段と、
多チャネル観測信号y(t)と目的音源の事後確率p[Cn|ψ(t),θ]と上記加法
性雑音の共分散行列^Rvvを入力として、多チャネル観測信号y(t)のベクトルとそのエルミート転置yH(t)と各目的音源に関する事後確率p[Cn|y(t)]とを乗じ
た値を観測信号Tで平均した値から、上記加法性雑音の共分散行列^Rvvを減じて各々の目的信号に関する共分散行列^Rxnxnを計算する目的信号共分散行列計算手段と、
を備えることを特徴とする音源分離装置。 - 多チャネル観測信号の各時間周波数ビンを特徴付ける特徴ベクトルを、複素領域の観測信号をそのノルムで正規化して計算する特徴ベクトル計算過程と、
上記特徴ベクトルを入力として、上記時間周波数ビンごとの観測信号が、それぞれ加法性雑音のみを含む、または、加法性雑音とN個の音源のうちのいずれか一つの音源に起因する目的信号とを含むと仮定したモデルに基づいて、当該特徴ベクトルをN個の目的音源と上記加法性雑音とに各々起因するN+1個の成分に分類し、各目的音源と加法性雑音に関する事後確率を最尤推定する音声・雑音存在確率計算過程と、
上記各目的音源の目的信号についての事後確率と加法性雑音についての事後確率と、上記多チャネル観測信号とを入力として、n番目の目的信号の共分散行列と観測信号に含まれる上記多チャネル観測信号の共分散行列を計算する音声・雑音特徴計算過程と、
上記n番目の目的信号の共分散行列と、上記多チャネル観測信号の共分散行列を入力として、上記多チャネル観測信号に含まれるn番目の目的信号以外の不要成分を求め、上記目的信号を回復する一般化多チャネルウィナーフィルタを計算する音声推定用フィルタ計算過程と、
上記多チャネル観測信号と上記一般化多チャネルウィナーフィルタと上記各目的音源に関する事後確率とを入力として、n番目の目的信号の推定値を出力する多チャネルフィルタリング過程と、
を備える音源分離方法。 - 多チャネル観測信号の各時間周波数ビンを特徴付ける特徴ベクトルを、複素領域の観測信号をそのノルムで正規化して計算する特徴ベクトル計算過程と、
上記特徴ベクトルを入力として、当該特徴ベクトルをN個の目的音源と加法性雑音とに各々起因するN+1個の成分に分類し、各目的音源と加法性雑音に関する事後確率を最尤推定する音声・雑音存在確率計算過程と、
上記各目的音源の目的信号についての事後確率と加法性雑音についての事後確率と、上記多チャネル観測信号とを入力として、n番目の目的信号の共分散行列と観測信号に含まれる多チャネル観測信号の共分散行列を計算する音声・雑音特徴計算過程と、
上記n番目の目的信号の共分散行列と、上記多チャネル観測信号の共分散行列を入力として、観測信号に含まれるn番目の目的信号以外の不要成分を求め、上記目的信号を回復する一般化多チャネルウィナーフィルタを計算する音声推定用フィルタ計算過程と、
上記多チャネル観測信号と上記一般化多チャネルウィナーフィルタと上記各目的音源に関する事後確率とを入力として、n番目の目的信号の推定値を出力する多チャネルフィルタリング過程と、
を備え、
上記音声・雑音特徴計算過程は、
上記多チャネル観測信号y(t)のベクトルとそのエルミート転置yH(t)を乗じた値を、総観測フレーム数Tで平均して多チャネル観測信号y(t)の共分散行列Ryyを計算する観測信号共分散行列計算ステップと、
多チャネル観測信号y(t)と目的音源の事後確率p[Cn|ψ(t),θ]を入力とし
て、多チャネル観測信号y(t)のベクトルとそのエルミート転置yH(t)と加法性雑音に関する事後確率p[CN+1|y(t)]とを乗じた値を総観測フレーム数Tで平均し
て、加法性雑音の共分散行列^Rvvを計算する加法性雑音共分散行列計算ステップと、
多チャネル観測信号y(t)と目的音源の事後確率p[Cn|ψ(t),θ]と上記加法
性雑音の共分散行列^Rvvを入力として、多チャネル観測信号y(t)のベクトルとそのエルミート転置yH(t)と各目的音源に関する事後確率p[Cn|y(t)]とを乗じ
た値を総観測フレーム数Tで平均した値から、上記加法性雑音の共分散行列^Rvvを減じて各々の目的信号に関する共分散行列^Rxnxnを計算する目的信号共分散行列計算ステップと、
を含むことを特徴とする音源分離方法。 - 請求項1又は2に記載した音源分離装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011193517A JP5568530B2 (ja) | 2011-09-06 | 2011-09-06 | 音源分離装置とその方法とプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011193517A JP5568530B2 (ja) | 2011-09-06 | 2011-09-06 | 音源分離装置とその方法とプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013054258A JP2013054258A (ja) | 2013-03-21 |
JP5568530B2 true JP5568530B2 (ja) | 2014-08-06 |
Family
ID=48131281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011193517A Active JP5568530B2 (ja) | 2011-09-06 | 2011-09-06 | 音源分離装置とその方法とプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5568530B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6114053B2 (ja) * | 2013-02-15 | 2017-04-12 | 日本電信電話株式会社 | 音源分離装置、音源分離方法、およびプログラム |
JP6059112B2 (ja) * | 2013-08-21 | 2017-01-11 | 日本電信電話株式会社 | 音源分離装置とその方法とプログラム |
JP6339520B2 (ja) * | 2015-04-01 | 2018-06-06 | 日本電信電話株式会社 | 音源分離装置、音源分離方法および音源分離プログラム |
JP6584930B2 (ja) * | 2015-11-17 | 2019-10-02 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
JP6652519B2 (ja) * | 2017-02-28 | 2020-02-26 | 日本電信電話株式会社 | ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム |
JP6636973B2 (ja) * | 2017-03-01 | 2020-01-29 | 日本電信電話株式会社 | マスク推定装置、マスク推定方法およびマスク推定プログラム |
CN110914899B (zh) * | 2017-07-19 | 2023-10-24 | 日本电信电话株式会社 | 掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法 |
CN111009256B (zh) | 2019-12-17 | 2022-12-27 | 北京小米智能科技有限公司 | 一种音频信号处理方法、装置、终端及存储介质 |
CN111028857B (zh) * | 2019-12-27 | 2024-01-19 | 宁波蛙声科技有限公司 | 基于深度学习的多通道音视频会议降噪的方法及系统 |
CN111262590B (zh) * | 2020-01-21 | 2020-11-06 | 中国科学院声学研究所 | 一种水声通信信源信道联合译码方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004053839A1 (en) * | 2002-12-11 | 2004-06-24 | Softmax, Inc. | System and method for speech processing using independent component analysis under stability constraints |
-
2011
- 2011-09-06 JP JP2011193517A patent/JP5568530B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013054258A (ja) | 2013-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5568530B2 (ja) | 音源分離装置とその方法とプログラム | |
JP6243858B2 (ja) | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム | |
US9478232B2 (en) | Signal processing apparatus, signal processing method and computer program product for separating acoustic signals | |
KR102152197B1 (ko) | 음성 검출기를 구비한 보청기 및 그 방법 | |
KR102206546B1 (ko) | 잡음 환경 분류 및 제거 기능을 갖는 보청기 및 그 방법 | |
US20220059114A1 (en) | Method and apparatus for determining a deep filter | |
JP6348427B2 (ja) | 雑音除去装置及び雑音除去プログラム | |
JP4960933B2 (ja) | 音響信号強調装置とその方法と、プログラムと記録媒体 | |
JP5351856B2 (ja) | 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体 | |
Saleem et al. | Low rank sparse decomposition model based speech enhancement using gammatone filterbank and Kullback–Leibler divergence | |
JP5726790B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
Al-Ali et al. | Enhanced forensic speaker verification using multi-run ICA in the presence of environmental noise and reverberation conditions | |
Subba Ramaiah et al. | A novel approach for speaker diarization system using TMFCC parameterization and Lion optimization | |
Chowdhury | Implementation and performance evaluation of acoustic denoising algorithms for UAV | |
KR101610708B1 (ko) | 음성 인식 장치 및 방법 | |
JP6114053B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP6285855B2 (ja) | フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム | |
KR101096091B1 (ko) | 음성 분리 장치 및 이를 이용한 단일 채널 음성 분리 방법 | |
Chehresa et al. | MMSE speech enhancement based on GMM and solving an over-determined system of equations | |
JP6059112B2 (ja) | 音源分離装置とその方法とプログラム | |
Hasan et al. | Acoustic factor analysis based universal background model for robust speaker verification in noise. | |
JP6339520B2 (ja) | 音源分離装置、音源分離方法および音源分離プログラム | |
WO2016092837A1 (ja) | 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体 | |
JP5731929B2 (ja) | 音声強調装置とその方法とプログラム | |
Kammi et al. | Single Channel speech separation using an efficient model-based method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Effective date: 20130829 Free format text: JAPANESE INTERMEDIATE CODE: A621 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140311 |
|
A521 | Written amendment |
Effective date: 20140422 Free format text: JAPANESE INTERMEDIATE CODE: A523 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140513 |
|
A521 | Written amendment |
Effective date: 20140527 Free format text: JAPANESE INTERMEDIATE CODE: A523 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140617 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140623 |
|
R150 | Certificate of patent (=grant) or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5568530 Country of ref document: JP |