JP6243858B2 - 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム - Google Patents
音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム Download PDFInfo
- Publication number
- JP6243858B2 JP6243858B2 JP2015021453A JP2015021453A JP6243858B2 JP 6243858 B2 JP6243858 B2 JP 6243858B2 JP 2015021453 A JP2015021453 A JP 2015021453A JP 2015021453 A JP2015021453 A JP 2015021453A JP 6243858 B2 JP6243858 B2 JP 6243858B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- speech
- noise
- learning
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
以下、本願が開示する音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラムの実施形態を説明する。なお、以下の実施形態は、一例を示すに過ぎず、本願が開示する技術を限定するものではない。また、以下に示す実施形態及びその他の実施形態は、矛盾しない範囲で適宜組合せてもよい。
図1は、音声モデル学習装置の構成の一例を示す図である。音声モデル学習装置100は、音声GMM記憶装置300、音声DNN記憶装置400が接続される。音声GMM記憶装置300は、音声GMM300aを記憶する。音声DNN記憶装置400は、後述する音声DNN学習部140により学習されたパラメータである重み行列Wjと、バイアスベクトルvjとを含む音声DNN400aを記憶する。音声モデル学習装置100は、学習用音声信号Oclean τ及び学習用音声信号Oclean τと学習用雑音信号とが混合した学習用混合信号Onoisy τを入力とし、DNNのパラメータである重み行列Wjと、バイアスベクトルvjとを出力する。音声モデル学習装置100は、第1音響特徴抽出部110、第2音響特徴抽出部120、最尤分布推定部130、音声DNN学習部140を有する。
図4は、雑音抑圧装置の構成の一例を示す図である。雑音抑圧装置200は、音声GMM記憶装置300、音声DNN記憶装置400が接続される。雑音抑圧装置200は、音声信号及び雑音信号が混合された入力混合信号Oτを入力とし、入力混合信号Oτにおいて雑音信号が抑圧されたと推定される雑音抑圧信号^Sτを出力する。雑音抑圧装置200は、第1音響特徴抽出部210、第2音響特徴抽出部220、パラメータ推定部230、雑音抑圧部240を有する。
実施形態の効果を示すため、音声信号と雑音信号が混在する音響信号を実施形態の雑音抑圧装置200へ入力し、雑音抑圧を実施した例を示す。以下、実験方法及び結果について説明する。
その他の実施形態では、図2のステップS110a及び図3のステップS120aのフレーム切り出し処理において、窓関数wnとして、ハミング窓以外に、方形窓、ハニング窓、ブラックマン窓などの窓関数を利用してもよい。また、その他の実施形態では、音声GMM300aに代えて、音声信号の確率モデルとして、隠れマルコフモデル(Hidden Markov Model:HMM)等の他の確率モデルを用いてもよい。また、その他の実施形態では、雑音GMMに代えて、雑音信号の確率モデルとして、HMM等の他の確率モデルを用いてもよい。
図1に示す音声モデル学習装置100及び図4に示す雑音抑圧装置200の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要さない。すなわち、音声モデル学習装置100及び雑音抑圧装置200の機能の分散及び統合の具体的形態は図示のものに限られず、全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。例えば、音声モデル学習装置100及び雑音抑圧装置200は、一体の装置であってもよい。
図12は、プログラムが実行されることにより、音声モデル学習装置及び雑音抑圧装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。コンピュータ1000において、これらの各部はバス1080によって接続される。
110 第1音響特徴抽出部
120 第2音響特徴抽出部
130 最尤分布推定部
140 音声DNN学習部
200 雑音抑圧装置
210 第1音響特徴抽出部
220 第2音響特徴抽出部
230 パラメータ推定部
231 初期化部
232 確率及び信号推定部
233 信頼データ選択部
234 話者適応パラメータ推定部
235 雑音GMM推定部
236 収束判定部
240 雑音抑圧部
241 雑音抑圧フィルタ推定部
242 雑音抑圧フィルタ適用部
300 音声GMM記憶装置
300a 音声GMM
400 音声DNN記憶装置
400a 音声DNN
1000 コンピュータ
1010 メモリ
1020 CPU
Claims (12)
- 音声モデル学習装置が実行する音声モデル学習方法であって、
学習用の音声信号から音響特徴量を抽出する学習用特徴量抽出工程と、
前記学習用特徴量抽出工程により抽出された音響特徴量と、音声信号の混合正規分布とを対応付けるラベル情報を生成する音声ラベル生成工程と、
前記学習用の音声信号及び学習用の雑音信号を含む学習用の音響信号から正規化された音響特徴量を抽出する学習用正規化特徴量抽出工程と、
前記音声ラベル生成工程により生成されたラベル情報と、前記学習用正規化特徴量抽出工程により抽出された正規化された音響特徴量とを用いて、音声モデルを学習する音声モデル学習工程と
を含んだことを特徴とする音声モデル学習方法。 - 前記音声モデル学習工程は、前記音声信号の混合正規分布と、前記学習用正規化特徴量抽出工程により抽出された正規化された音響特徴量に対応するディープニューラルネットワークの出力層の各ノードとを対応付けることにより前記音声モデルを学習する
ことを特徴とする請求項1に記載の音声モデル学習方法。 - 雑音抑圧装置が実行する雑音抑圧方法であって、
請求項1又は2に記載の音声モデル学習方法により学習された前記音声モデルを音声モデル記憶部に保存する音声モデル記憶工程と、
音声信号及び雑音信号を含む混合音響信号から音響特徴量を抽出する特徴抽出工程と、
前記混合音響信号から正規化された音響特徴量を抽出する正規化特徴量抽出工程と、
前記音声モデルと、前記正規化特徴量抽出工程により抽出された正規化された音響特徴量とを用いて、音声事後確率を計算する音声事後確率計算工程と、
前記音声事後確率計算工程により計算された音声事後確率と、音声信号の混合正規分布とを用いて、前記混合音響信号における前記雑音信号を抑圧する雑音抑圧工程と
を含んだことを特徴とする雑音抑圧方法。 - 前記混合音響信号に含まれる前記音声信号及び前記雑音信号を推定する信号推定工程と、
前記信号推定工程により推定された前記音声信号及び前記雑音信号から、前記音声信号の混合正規分布を前記音声信号に該当する音声の話者に適応させるための話者適応パラメータを推定する話者適応パラメータ推定工程と、
前記信号推定工程により推定された前記雑音信号から、雑音信号の混合正規分布を生成する雑音混合正規分布生成工程と、
前記話者適応パラメータ及び前記音声信号の混合正規分布と、前記雑音信号の混合正規分布とから、前記混合音響信号の混合正規分布を生成する混合正規分布生成工程と、
前記音声事後確率と前記混合音響信号の混合正規分布とから、前記混合音響信号に含まれる前記音声信号の期待値及び前記雑音信号の期待値を計算する期待値計算工程と
をさらに含み、
前記信号推定工程、前記話者適応パラメータ推定工程、前記雑音混合正規分布生成工程、前記混合正規分布生成工程及び前記期待値計算工程は、前記期待値計算工程により計算された前記音声信号の期待値及び前記雑音信号の期待値が所定条件を満たすまで、前記音声信号の期待値及び前記雑音信号の期待値について再帰的に処理を繰り返す
ことを特徴とする請求項3に記載の雑音抑圧方法。 - 前記信号推定工程により推定された前記音声信号及び前記雑音信号から所定条件を満たす信号を選択する選択工程
をさらに備え、
前記話者適応パラメータ推定工程は、前記選択工程により選択された前記音声信号及び前記雑音信号から前記話者適応パラメータを推定し、
前記雑音混合正規分布生成工程は、前記選択工程により選択された前記雑音信号から前記雑音信号の混合正規分布を生成する
ことを特徴とする請求項4に記載の雑音抑圧方法。 - 学習用の音声信号から音響特徴量を抽出する学習用特徴量抽出部と、
前記学習用特徴量抽出部により抽出された音響特徴量と、音声信号の混合正規分布とを対応付けるラベル情報を生成する音声ラベル生成部と、
前記学習用の音声信号及び学習用の雑音信号を含む学習用の音響信号から正規化された音響特徴量を抽出する学習用正規化特徴量抽出部と、
前記音声ラベル生成部により生成されたラベル情報と、前記学習用正規化特徴量抽出部により抽出された正規化された音響特徴量とを用いて、音声モデルを学習する音声モデル学習部と
を備えることを特徴とする音声モデル学習装置。 - 前記音声モデル学習部は、前記音声信号の混合正規分布と、前記学習用正規化特徴量抽出部により抽出された正規化された音響特徴量に対応するディープニューラルネットワークの出力層の各ノードとを対応付けることにより前記音声モデルを学習する
ことを特徴とする請求項6に記載の音声モデル学習装置。 - 請求項6又は7に記載の音声モデル学習装置により学習された前記音声モデルを記憶する音声モデル記憶部と、
音声信号及び雑音信号を含む混合音響信号から音響特徴量を抽出する特徴抽出部と、
前記混合音響信号から正規化された音響特徴量を抽出する正規化特徴量抽出部と、
前記音声モデルと、前記正規化特徴量抽出部により抽出された正規化された音響特徴量とを用いて、音声事後確率を計算する音声事後確率計算部と、
前記音声事後確率計算部により計算された音声事後確率と、音声信号の混合正規分布とを用いて、前記混合音響信号における前記雑音信号を抑圧する雑音抑圧部と
を備えることを特徴とする雑音抑圧装置。 - 前記混合音響信号に含まれる前記音声信号及び前記雑音信号を推定する信号推定部と、
前記信号推定部により推定された前記音声信号及び前記雑音信号から、前記音声信号の混合正規分布を前記音声信号に該当する音声の話者に適応させるための話者適応パラメータを推定する話者適応パラメータ推定部と、
前記信号推定部により推定された前記雑音信号から、雑音信号の混合正規分布を生成する雑音混合正規分布生成部と、
前記話者適応パラメータ及び前記音声信号の混合正規分布と、前記雑音信号の混合正規分布とから、前記混合音響信号の混合正規分布を生成する混合正規分布生成部と、
前記音声事後確率と前記混合音響信号の混合正規分布とから、前記混合音響信号に含まれる前記音声信号の期待値及び前記雑音信号の期待値を計算する期待値計算部と
をさらに備え、
前記信号推定部、前記話者適応パラメータ推定部、前記雑音混合正規分布生成部、前記混合正規分布生成部及び前記期待値計算部は、前記期待値計算部により計算された前記音声信号の期待値及び前記雑音信号の期待値が所定条件を満たすまで、前記音声信号の期待値及び前記雑音信号の期待値について再帰的に処理を繰り返す
ことを特徴とする請求項8に記載の雑音抑圧装置。 - 前記信号推定部により推定された前記音声信号及び前記雑音信号から所定条件を満たす信号を選択する選択部
をさらに備え、
前記話者適応パラメータ推定部は、前記選択部により選択された前記音声信号及び前記雑音信号から前記話者適応パラメータを推定し、
前記雑音混合正規分布生成部は、前記選択部により選択された前記雑音信号から前記雑音信号の混合正規分布を生成する
ことを特徴とする請求項9に記載の雑音抑圧装置。 - 請求項6又は7に記載の音声モデル学習装置としてコンピュータを機能させる音声モデル学習プログラム。
- 請求項8、9又は10に記載の雑音抑圧装置としてコンピュータを機能させる雑音抑圧プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015021453A JP6243858B2 (ja) | 2015-02-05 | 2015-02-05 | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015021453A JP6243858B2 (ja) | 2015-02-05 | 2015-02-05 | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016143043A JP2016143043A (ja) | 2016-08-08 |
JP6243858B2 true JP6243858B2 (ja) | 2017-12-06 |
Family
ID=56570438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015021453A Active JP6243858B2 (ja) | 2015-02-05 | 2015-02-05 | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6243858B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108417207A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 一种深度混合生成网络自适应方法及系统 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7019138B2 (ja) * | 2017-02-28 | 2022-02-15 | 国立大学法人電気通信大学 | 符号化装置、符号化方法およびプログラム |
JP6588936B2 (ja) * | 2017-03-22 | 2019-10-09 | 日本電信電話株式会社 | 雑音抑圧装置、その方法、及びプログラム |
CN106991999B (zh) * | 2017-03-29 | 2020-06-02 | 北京小米移动软件有限公司 | 语音识别方法及装置 |
CN107452389B (zh) * | 2017-07-20 | 2020-09-01 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
CN109754821B (zh) * | 2017-11-07 | 2023-05-02 | 北京京东尚科信息技术有限公司 | 信息处理方法及其系统、计算机系统和计算机可读介质 |
WO2019162990A1 (ja) * | 2018-02-20 | 2019-08-29 | 三菱電機株式会社 | 学習装置、音声区間検出装置および音声区間検出方法 |
CN108922560B (zh) * | 2018-05-02 | 2022-12-02 | 杭州电子科技大学 | 一种基于混合深度神经网络模型的城市噪声识别方法 |
CN108777146A (zh) * | 2018-05-31 | 2018-11-09 | 平安科技(深圳)有限公司 | 语音模型训练方法、说话人识别方法、装置、设备及介质 |
JP7231181B2 (ja) * | 2018-07-17 | 2023-03-01 | 国立研究開発法人情報通信研究機構 | 耐雑音音声認識装置及び方法、並びにコンピュータプログラム |
CN111028852A (zh) * | 2019-11-06 | 2020-04-17 | 杭州哲信信息技术有限公司 | 一种基于cnn的智能呼叫系统中的噪声去除方法 |
JP7504601B2 (ja) * | 2020-01-28 | 2024-06-24 | 株式会社東芝 | 信号処理装置、信号処理方法およびプログラム |
CN111402922B (zh) * | 2020-03-06 | 2023-06-30 | 武汉轻工大学 | 基于小样本的音频信号分类方法、装置、设备及存储介质 |
CN111489763B (zh) * | 2020-04-13 | 2023-06-20 | 武汉大学 | 一种基于gmm模型的复杂环境下说话人识别自适应方法 |
CN113223505B (zh) * | 2021-04-30 | 2023-12-08 | 珠海格力电器股份有限公司 | 模型训练、数据处理方法、装置、电子设备及存储介质 |
CN113593591B (zh) * | 2021-07-27 | 2024-06-11 | 北京小米移动软件有限公司 | 语料降噪方法及装置、电子设备和存储介质 |
KR20240056314A (ko) * | 2022-10-21 | 2024-04-30 | 주식회사 히어디엘 | 대역통과필터와 딥러닝을 이용한 음성파형의 주변잡음 제거 장치 및 방법 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5670298B2 (ja) * | 2011-11-30 | 2015-02-18 | 日本電信電話株式会社 | 雑音抑圧装置、方法及びプログラム |
JP5740362B2 (ja) * | 2012-07-31 | 2015-06-24 | 日本電信電話株式会社 | 雑音抑圧装置、方法、及びプログラム |
-
2015
- 2015-02-05 JP JP2015021453A patent/JP6243858B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108417207A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 一种深度混合生成网络自适应方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP2016143043A (ja) | 2016-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6243858B2 (ja) | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム | |
Li et al. | An overview of noise-robust automatic speech recognition | |
EP1515305B1 (en) | Noise adaption for speech recognition | |
EP2189976B1 (en) | Method for adapting a codebook for speech recognition | |
KR100745976B1 (ko) | 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치 | |
US7689419B2 (en) | Updating hidden conditional random field model parameters after processing individual training samples | |
JPH0850499A (ja) | 信号識別方法 | |
JP4586577B2 (ja) | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム | |
WO2010019831A1 (en) | Hidden markov model for speech processing with training method | |
JPWO2009133719A1 (ja) | 音響モデル学習装置および音声認識装置 | |
EP1465154B1 (en) | Method of speech recognition using variational inference with switching state space models | |
KR102406512B1 (ko) | 음성인식 방법 및 그 장치 | |
JP6748304B2 (ja) | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム | |
JP4512848B2 (ja) | 雑音抑圧装置及び音声認識システム | |
JP5713818B2 (ja) | 雑音抑圧装置、方法及びプログラム | |
JP5670298B2 (ja) | 雑音抑圧装置、方法及びプログラム | |
JP5997114B2 (ja) | 雑音抑圧装置、雑音抑圧方法、およびプログラム | |
JP5740362B2 (ja) | 雑音抑圧装置、方法、及びプログラム | |
JP4960845B2 (ja) | 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体 | |
Ming et al. | An iterative longest matching segment approach to speech enhancement with additive noise and channel distortion | |
JP2004509364A (ja) | 音声認識システム | |
JP5457999B2 (ja) | 雑音抑圧装置とその方法とプログラム | |
JP6673861B2 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム | |
JP5498452B2 (ja) | 背景音抑圧装置、背景音抑圧方法、およびプログラム | |
JP5885686B2 (ja) | 音響モデル適応化装置、音響モデル適応化方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171006 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6243858 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |