JP5731929B2 - 音声強調装置とその方法とプログラム - Google Patents
音声強調装置とその方法とプログラム Download PDFInfo
- Publication number
- JP5731929B2 JP5731929B2 JP2011172939A JP2011172939A JP5731929B2 JP 5731929 B2 JP5731929 B2 JP 5731929B2 JP 2011172939 A JP2011172939 A JP 2011172939A JP 2011172939 A JP2011172939 A JP 2011172939A JP 5731929 B2 JP5731929 B2 JP 5731929B2
- Authority
- JP
- Japan
- Prior art keywords
- channel
- feature
- speech
- clean speech
- clean
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
観測信号の特徴量を、つまり観測信号を、対数メルスペクトル領域で式(1)に示すようにモデル化する。
特徴量抽出部10は、クリーン音声に雑音とチャネル歪みが重畳した観測信号を、複数(N個)のマイクロホンで収音した多チャネルの音響信号を入力として、それぞれの音響信号から対数スペクトルを抽出するものであり、マイクロホンの数に対応した複数の特徴量抽出部101〜10Nで構成される。その動作フローを図3に示す。
音響歪みパラメータ推定部30は、チャネル応答成分qと、加法性雑音成分vnの平均μvと、その共分散Σvvを、期待値最大化法を用いて最尤推定する。加法性雑音成分の共分散Σvvには、複数チャネル間の相互関係を表す空間情報が含まれている。空間情報とは、式(7)の行列中のσn,m(n≠m)を指す。
図6に、クリーン音声特徴量推定部40の機能構成例を示す。その動作フローを図7に示す。クリーン音声特徴量推定部40は、音声強調フィルタ算出手段41と音声強調フィルタ処理手段42を備える。
この発明の音声強調装置100の性能を評価する目的で評価実験を行った。実験条件は次の通りとした。
上記した音声強調装置100における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
Claims (7)
- 多チャネル音響信号を観測信号とし、チャネルごとの観測信号の特徴量を抽出する特徴量抽出部と、
クリーン音声ガウス混合モデルを記憶するクリーン音声ガウス混合分布記憶部と、
上記チャネルごとの観測信号の特徴量と、上記クリーン音声ガウス混合モデルとを入力として、上記チャネルごとの観測信号の特徴量に含まれる当該チャネルの加法性雑音成分を特定するパラメータと上記チャネルごとのチャネル応答歪みを特定するパラメータとを含む音響歪みパラメータを最尤推定する音響歪みパラメータ推定部と、
上記チャネルごとの観測信号の特徴量と、上記音響歪みパラメータ推定部で推定した音響歪みパラメータと、上記クリーン音声ガウス混合モデルを入力として、上記観測信号に含まれるクリーン音声を最小二乗誤差推定してクリーン音声信号の特徴量を推定するクリーン音声特徴量推定部と、
を具備し、
上記加法性雑音成分を特定するパラメータは、当該パラメータに含まれる雑音の事後分布の平均および分散を表す項に複数の上記チャネル間の相互関係を表す上記チャネルごとの加法性雑音成分の共分散を含み、
上記雑音の事後分布の平均および分散は、上記チャネルごとの観測信号と上記チャネルごとの加法性雑音成分との結合分布の平均と分散に基づいて算出されるガウス分布の平均および分散であり、
上記最尤推定は、上記加法性雑音成分を特定するパラメータを、上記雑音の事後分布の平均および分散に基づいて推定する処理を含む
ことを特徴とする音声強調装置。 - 請求項1に記載した音声強調装置において、
上記音響歪みパラメータ推定部は、
更新された加法性雑音成分の平均ベクトル ̄μvを、マイクロホン毎の特徴量領域のスカラー量τvn(p)に分解する雑音成分分解手段と、
更新されたチャネル応答成分ベクトル ̄qを、n番目のマイクロホンと話者間の室内伝達関数に対応するチャネル応答成分Qn(p)に分解するチャネル応答成分分解手段と、
クリーン音声ガウス混合分布記憶部に記憶されたクリーン音声ガウス混合分布の平均ベクトルμs,kを、特徴量領域のスカラー量τs,k(p)に分解するクリーン音声成分分解手段と、
雑音信号とチャネル応答成分とクリーン音声ガウス混合分布の上記特徴量領域のスカラー量と上記観測信号の特徴量を入力として、クリーン音声の特徴量と加法性雑音の特徴量とチャネル応答成分の特徴量とでモデル化した観測信号を、テーラー展開したそれぞれの特徴量に関するテーラー展開係数と上記観測信号に関する事後確率の期待値を計算する期待値計算手段と、
上記期待値計算手段で計算した上記テーラー展開係数と上記事後確率を入力として、上記更新された加法性雑音成分の平均ベクトル ̄μvと共分散 ̄Σvvと上記更新されたチャネル応答成分ベクトル ̄qとをさらに更新させ、上記加法性雑音成分の平均ベクトル ̄μvを上記雑音成分分解手段に、上記チャネル応答成分ベクトル ̄qを上記チャネル応答成分分解手段に、上記共分散 ̄Σvvを上記期待値計算手段に、それぞれ帰還する処理を、それらの値が最大化するまで繰り返す最大化手段と、
を備えたことを特徴とする音声強調装置。 - 請求項1又は2に記載した音声強調装置において、
上記クリーン音声特徴量推定部は、
上記特徴量抽出部が出力する観測信号の特徴量Y1,t(p)〜YN,t(p)と、上記音響歪みパラメータ推定部が出力する音響歪みパラメータμv,Σvv,qと上記テーラー展開係数Dk (s),Dk (q),Dk (v)と、上記クリーン音声ガウス混合分布記憶部に記憶されたクリーン音声の統計量μs,k,Σss,kを入力として、特徴量領域の多チャネルウィナーフィルタHkを算出する音声強調フィルタ算出手段と、
上記多チャネルウィナーフィルタHkと、上記観測信号の特徴量Y1,t(p)〜YN,t(p)と、上記テーラー展開係数Dk (s),Dk (q),Dk (v)と、上記クリーン音声ガウス混合分布記憶部に記憶されたクリーン音声の統計量μs,kとを入力として、クリーン音声特徴量の最小二乗誤差推定値^stを音声強調済み特徴量として計算する音声強調フィルタ処理手段と、
を備えたことを特徴とする音声強調装置。 - 多チャネル音響信号を観測信号とし、チャネルごとの観測信号の特徴量を抽出する特徴量抽出過程と、
上記チャネルごとの観測信号の特徴量と、クリーン音声ガウス混合分布記憶部に記憶されたクリーン音声ガウス混合モデルとを入力として、上記チャネルごとの観測信号の特徴量に含まれる当該チャネルの加法性雑音成分を特定するパラメータと上記チャネルごとのチャネル応答歪みを特定するパラメータとを含む音響歪みパラメータを最尤推定する音響歪みパラメータ推定過程と、
上記チャネルごとの観測信号の特徴量と、上記音響歪みパラメータ推定部で推定した音響歪みパラメータと、上記クリーン音声ガウス混合モデルを入力として、上記観測信号に含まれるクリーン音声を最小二乗誤差推定してクリーン音声信号の特徴量を推定するクリーン音声特徴量推定過程と、
を含み、
上記加法性雑音成分を特定するパラメータは、当該パラメータに含まれる雑音の事後分布の平均および分散を表す項に複数の上記チャネル間の相互関係を表す上記チャネルごとの加法性雑音成分の共分散を含み、
上記雑音の事後分布の平均および分散は、上記チャネルごとの観測信号と上記チャネルごとの加法性雑音成分との結合分布の平均と分散に基づいて算出されるガウス分布の平均および分散であり、
上記最尤推定は、上記加法性雑音成分を特定するパラメータを、上記雑音の事後分布の平均および分散に基づいて推定する処理を含む
ことを特徴とする音声強調方法。 - 請求項4に記載した音声強調方法において、
上記音響歪みパラメータ推定過程は、
更新された加法性雑音成分の平均ベクトル ̄μvを、マイクロホン毎の特徴量領域のスカラー量τvn(p)に分解する雑音成分分解ステップと、
更新されたチャネル応答成分ベクトル ̄qを、n番目のマイクロホンと話者間の室内伝達関数に対応するチャネル応答成分Qn(p)に分解するチャネル応答成分分解ステップと、
クリーン音声ガウス混合分布記憶部に記憶されたクリーン音声ガウス混合分布の平均ベクトルμs,kを、特徴量領域のスカラー量τs,k(p)に分解するクリーン音声成分分解ステップと、
雑音信号とチャネル応答成分とクリーン音声ガウス混合分布の上記特徴量領域のスカラー量と上記観測信号の特徴量を入力として、クリーン音声の特徴量と加法性雑音の特徴量とチャネル応答成分の特徴量とでモデル化した観測信号を、テーラー展開したそれぞれの特徴量に関するテーラー展開係数と上記観測信号に関する事後確率の期待値を計算する期待値計算ステップと、
上記期待値計算ステップで計算した上記テーラー展開係数と上記事後確率を入力として、上記更新された加法性雑音成分の平均ベクトル ̄μvと共分散 ̄Σvvと上記更新されたチャネル応答成分ベクトル ̄qとをさらに更新させ、上記加法性雑音成分の平均ベクトル ̄μvを上記雑音成分分解ステップに、上記チャネル応答成分ベクトル ̄qを上記チャネル応答成分分解ステップに、上記共分散 ̄Σvvを上記期待値計算ステップに、それぞれ帰還する処理を、それらの値が最大化するまで繰り返す最大化ステップと、
を含むことを特徴とする音声強調方法。 - 請求項4又は5に記載した音声強調方法において、
上記クリーン音声特徴量推定過程は、
上記特徴量抽出過程が出力する観測信号の特徴量Y1,t(p)〜YN,t(p)と、上記音響歪みパラメータ推定過程が出力する音響歪みパラメータμv,Σvv,qと上記テーラー展開係数Dk (s),Dk (q),Dk (v)と、上記クリーン音声ガウス混合分布記憶部に記憶されたクリーン音声の統計量μs,k,Σss,kを入力として、特徴量領域の多チャネルウィナーフィルタHkを算出する音声強調フィルタ算出ステップと、
上記多チャネルウィナーフィルタHkと、上記観測信号の特徴量Y1,t(p)〜YN,t(p)と、上記テーラー展開係数Dk (s),Dk (q),Dk (v)と、上記クリーン音声ガウス混合分布記憶部に記憶されたクリーン音声の統計量μs,kとを入力として、クリーン音声特徴量の最小二乗誤差推定値^stを音声強調済み特徴量として計算する音声強調フィルタ処理ステップと、
を含むことを特徴とする音声強調方法。 - 請求項1乃至3の何れかに記載した音声強調装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011172939A JP5731929B2 (ja) | 2011-08-08 | 2011-08-08 | 音声強調装置とその方法とプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011172939A JP5731929B2 (ja) | 2011-08-08 | 2011-08-08 | 音声強調装置とその方法とプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013037177A JP2013037177A (ja) | 2013-02-21 |
JP5731929B2 true JP5731929B2 (ja) | 2015-06-10 |
Family
ID=47886832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011172939A Active JP5731929B2 (ja) | 2011-08-08 | 2011-08-08 | 音声強調装置とその方法とプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5731929B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112151052B (zh) * | 2020-10-26 | 2024-06-25 | 平安科技(深圳)有限公司 | 语音增强方法、装置、计算机设备及存储介质 |
CN113689870A (zh) * | 2021-07-26 | 2021-11-23 | 浙江大华技术股份有限公司 | 一种多通道语音增强方法及其装置、终端、可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011004503A1 (ja) * | 2009-07-08 | 2011-01-13 | 株式会社日立製作所 | 雑音除去装置及び雑音除去方法 |
-
2011
- 2011-08-08 JP JP2011172939A patent/JP5731929B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013037177A (ja) | 2013-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hasan et al. | CRSS systems for 2012 NIST speaker recognition evaluation | |
JP4774100B2 (ja) | 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体 | |
JP5842056B2 (ja) | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 | |
JP5634959B2 (ja) | 雑音/残響除去装置とその方法とプログラム | |
KR20200145219A (ko) | 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치 | |
JP4977062B2 (ja) | 残響除去装置とその方法と、そのプログラムと記録媒体 | |
CN110998723B (zh) | 使用神经网络的信号处理装置及信号处理方法、记录介质 | |
JP2004279466A (ja) | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム | |
Nakamura et al. | A mel-cepstral analysis technique restoring high frequency components from low-sampling-rate speech. | |
JP5351856B2 (ja) | 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体 | |
JP4960933B2 (ja) | 音響信号強調装置とその方法と、プログラムと記録媒体 | |
JP5731929B2 (ja) | 音声強調装置とその方法とプログラム | |
JP5438704B2 (ja) | 音源パラメータ推定装置と音源分離装置とそれらの方法とプログラム | |
Sose et al. | Sound Source Separation Using Neural Network | |
JP4977100B2 (ja) | 残響除去装置、残響除去方法、そのプログラムおよび記録媒体 | |
JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
Sehr et al. | Model-based dereverberation in the Logmelspec domain for robust distant-talking speech recognition | |
JP6827908B2 (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
JP4242320B2 (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
Dimitriadis et al. | An Investigation on the Use of i-Vectors for Robust ASR. | |
Reyes-Gomez et al. | Multi-channel source separation by beamforming trained with factorial hmms | |
Das et al. | Robust speaker verification using GFCC and joint factor analysis | |
Vannicola et al. | Mitigation of reverberation on speaker identification via homomorphic filtering of the linear prediction residual | |
JP6553561B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP5885686B2 (ja) | 音響モデル適応化装置、音響モデル適応化方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130829 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140311 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140402 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20141014 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150108 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20150119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150203 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150305 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150407 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150410 |
|
R150 | Certificate of patent (=grant) or registration of utility model |
Ref document number: 5731929 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |