JP4512848B2 - 雑音抑圧装置及び音声認識システム - Google Patents
雑音抑圧装置及び音声認識システム Download PDFInfo
- Publication number
- JP4512848B2 JP4512848B2 JP2005010639A JP2005010639A JP4512848B2 JP 4512848 B2 JP4512848 B2 JP 4512848B2 JP 2005010639 A JP2005010639 A JP 2005010639A JP 2005010639 A JP2005010639 A JP 2005010639A JP 4512848 B2 JP4512848 B2 JP 4512848B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- speech
- parameter
- frame
- estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
図1に、本実施の形態に係る音声認識システム100全体の構成を示す。図1を参照して、この音声認識システム100は、音源102が発生する音を収集し、収集した音から認識に用いる特徴量を抽出するための前処理部104と、音声と音素との関係を表す確率モデル(音響モデル)を準備するための音響モデル部106と、認識対象の言語における単語の連接確率等を表す確率モデル(言語モデル)を準備するための言語モデル部108と、前処理部104から出力された特徴量に対応する単語等を、音響モデル部106の音響モデルと言語モデル部108の言語モデルとを用いて探索するための探索部110とを含む。
以下の説明からも明らかなように、図1に示す音声認識システム100の前処理部104、音響モデル部106、及び探索部110は、いずれもコンピュータハードウェアとその上で実行されるプログラムにより実現可能である。図7に、本実施の形態に係る前処理部104に含まれる雑音抑圧部114が行なう雑音抑圧処理を実現するコンピュータプログラムの制御構造をフローチャートで示す。
本実施の形態に係る音声認識システム100は以下のように動作する。まず、図5に示す雑音確率分布推定部200による雑音の初期分布の推定動作を説明する。図1に示す計測部112が、音源102から雑音重畳音声(120及び122)を受け、特徴量Xt(124)を抽出する。抽出された特徴量Xt(124)は、雑音抑圧部114の図4に示す雑音確率分布推定部200に与えられる。図5を参照して、雑音確率分布推定部200のフレーム選択部220は、特徴量Xt(124)のうち最初の10フレーム分を、雑音初期分布推定部222に与える。雑音初期分布推定部222は、上記の式(9)〜式(11)に示す処理により雑音の初期分布p(N0)を推定する。さらに、雑音の初期分布p(N0)から、上記の式(12)及び式(13)に示すサンプリングをJ回行なう。このサンプリングによって、各パーティクルにおける雑音の初期的なパラメータベクトルN0 (j)及び共分散行列ΣN0 (j)が決定される。雑音確率分布推定部200は、これらのパラメータを、時刻t=0における推定雑音分布206のパラメータとして出力する。
本実施の形態に係る音声認識システム100による効果を確認するために、雑音重畳音声からの雑音の推定実験と、雑音重畳音声の認識実験とを行なった。以下、実験方法及び結果について説明する。
なお、本実施の形態においては、パーティクルフィルタによる処理を雑音抑圧に用いている。そのため、雑音抑圧後の推定クリーン音声のパラメータを用いて探索を行なう前に、さらに音響モデル適応を行なうこともできる。音響モデル適応により、推定クリーン音声に適合した音響モデルを探索に用いることができるようになる。したがって、認識精度が向上することが期待される。
102 音源
104 前処理部
106 音響モデル部
108 言語モデル部
110 探索部
112 計測部
114 雑音抑圧部
116 話者
118 雑音源
120 クリーン音声
122 雑音
124 特徴量
130 クリーン音声HMM
132 学習データ記憶部
134 モデル学習部
136 クリーン音声HMM記憶部
160 状態空間モデル
200 雑音確率分布推定部
202 パラメータ生成部
204 クリーン音声推定部
220 フレーム選択部
222 雑音初期分布推定部
224 逐次計算部
226 クリーン音声HMMサンプリング部
230 更新部
232 重み算出部
234 再サンプリング部
236 推定雑音分布生成部
262 再更新部
264 重み再計算部
266 許容確率算出部
268 乱数発生部
270 パラメータ選択部
Claims (6)
- 目的音声と雑音とが重畳した雑音重畳音声について所定周期ごとにフレーム化された所定時間長のフレームよりそれぞれ抽出される特徴量を受けて、前記雑音重畳音声に関する所定の状態空間モデルと、前記目的音声に関する所定の音響モデルとを基に、複数のパーティクルを有するパーティクルフィルタを用いて、前記雑音の推定パラメータを前記フレームごとに逐次生成するための雑音推定手段と、
前記雑音重畳音声の特徴量と、前記雑音の推定パラメータと、前記音響モデルとを用いて、前記フレームごとに前記目的音声の推定特徴量を算出するための目的音声推定手段とを含む、雑音抑圧装置であって、
前記雑音推定手段は、
前記雑音重畳音声の特徴量を基に前記雑音の初期分布を推定し、当該初期分布にしたがった確率で、前記複数のパーティクルの各々における雑音の初期パラメータをそれぞれサンプリングするための初期パラメータ推定手段と、
前記音響モデルと前記雑音重畳音声の特徴量とを基に、各パーティクルにおいて、前記音響モデルからの出力パラメータのサンプリング結果に対して拡張カルマンフィルタを適用して、各パーティクルにおける先行する第1のフレームの雑音の推定パラメータをそれぞれ前記第1のフレームに後続する第2のフレームに対応するものに更新するための更新手段と、
前記第2のフレームにおける前記複数のパーティクルの各々の重みを算出するための重み算出手段と、
前記更新手段により更新された雑音の推定パラメータと前記重み算出手段により算出された重みとにより前記複数のパーティクルの各々について表現される雑音パラメータの確率分布に基づき、前記複数のパーティクルにおける前記第2のフレームの雑音の推定パラメータをそれぞれ再サンプリングするための再サンプリング手段とを含む、雑音抑圧装置。 - 前記雑音推定手段はさらに、
前記再サンプリング手段により再サンプリングされたパラメータを基に、前記複数のパーティクルの各々において、前記第1のフレームに対応する前記雑音の推定パラメータをそれぞれ、前記第2のフレームに対応するものに再更新するための再更新手段と、
前記複数のパーティクルの各々において、前記再更新手段により再更新された前記雑音の推定パラメータと、前記再サンプリング手段により再サンプリングされた前記雑音の推定パラメータとの一方を、所定の判定基準にしたがい前記第2のフレームの雑音の推定パラメータとして選択するための選択手段とを含む、請求項1に記載の雑音抑圧装置。 - 前記目的音声推定手段は、
前記雑音重畳音声の特徴量と、前記雑音の推定パラメータと、前記音響モデルとを基に、前記フレームに対応する前記雑音重畳音声の確率モデルを合成するための雑音重畳音声モデル合成手段と、
前記雑音重畳音声の特徴量、前記雑音の推定パラメータ、前記音響モデル、及び前記雑音重畳音声の確率モデルを基に、前記フレームごとに、前記目的音声の推定特徴量を算出するための推定特徴量算出手段とを含む、請求項1に記載の雑音抑圧装置。 - 前記雑音重畳音声モデル合成手段は、前記複数のパーティクルの各々に対して、前記雑音の推定パラメータと、前記音響モデルとを基に、当該パーティクルにおける雑音重畳音声の確率モデルのパラメータを推定するためのパラメータ推定手段を含む、請求項3に記載の雑音抑圧装置。
- 前記推定特徴量算出手段は、
前記フレームごとに、前記複数のパーティクルの各々の前記目的音声の推定パラメータを、前記雑音重畳音声の特徴量、前記音響モデル、前記雑音の推定パラメータ、及び前記雑音重畳音声の確率モデルを基に算出するための手段と、
前記複数のパーティクルの各々における前記目的音声の推定パラメータを基に、当該フレームにおける目的音声の推定特徴量を算出するための手段とを含む、請求項3又は請求項4に記載の雑音抑圧装置。 - 請求項1〜請求項5のいずれかに記載の雑音抑圧装置と、
前記雑音抑圧装置により算出される前記目的音声の推定特徴量を受けて、前記目的音声に関する前記所定の音響モデルと、認識対象言語に関する所定の言語モデルとを用いて、前記目的音声に関する音声認識を行なうための音声認識手段とを含む、音声認識システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005010639A JP4512848B2 (ja) | 2005-01-18 | 2005-01-18 | 雑音抑圧装置及び音声認識システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005010639A JP4512848B2 (ja) | 2005-01-18 | 2005-01-18 | 雑音抑圧装置及び音声認識システム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006201287A JP2006201287A (ja) | 2006-08-03 |
JP2006201287A5 JP2006201287A5 (ja) | 2006-11-09 |
JP4512848B2 true JP4512848B2 (ja) | 2010-07-28 |
Family
ID=36959373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005010639A Active JP4512848B2 (ja) | 2005-01-18 | 2005-01-18 | 雑音抑圧装置及び音声認識システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4512848B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4617497B2 (ja) * | 2005-07-01 | 2011-01-26 | 株式会社国際電気通信基礎技術研究所 | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム |
JP4755555B2 (ja) * | 2006-09-04 | 2011-08-24 | 日本電信電話株式会社 | 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体 |
JP4673828B2 (ja) * | 2006-12-13 | 2011-04-20 | 日本電信電話株式会社 | 音声信号区間推定装置、その方法、そのプログラム及び記録媒体 |
KR100853171B1 (ko) | 2007-02-28 | 2008-08-20 | 포항공과대학교 산학협력단 | 구속 순차 em 알고리즘을 이용한 깨끗한 음성 복원을위한 음성 강조 방법 |
JP5070591B2 (ja) * | 2007-05-25 | 2012-11-14 | 株式会社国際電気通信基礎技術研究所 | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム |
JP4989379B2 (ja) * | 2007-09-05 | 2012-08-01 | 日本電信電話株式会社 | 雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラム、および記録媒体 |
WO2009038013A1 (ja) * | 2007-09-21 | 2009-03-26 | Nec Corporation | 雑音除去システム、雑音除去方法および雑音除去プログラム |
JP2010078650A (ja) * | 2008-09-24 | 2010-04-08 | Toshiba Corp | 音声認識装置及びその方法 |
CN112017676A (zh) * | 2019-05-31 | 2020-12-01 | 京东数字科技控股有限公司 | 音频处理方法、装置和计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002251198A (ja) * | 2000-12-19 | 2002-09-06 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声認識システム |
JP2003216180A (ja) * | 2002-01-25 | 2003-07-30 | Matsushita Electric Ind Co Ltd | 音声認識装置およびその方法 |
JP2004347761A (ja) * | 2003-05-21 | 2004-12-09 | Internatl Business Mach Corp <Ibm> | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 |
JP2005084653A (ja) * | 2003-09-11 | 2005-03-31 | National Institute Of Advanced Industrial & Technology | 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム |
-
2005
- 2005-01-18 JP JP2005010639A patent/JP4512848B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002251198A (ja) * | 2000-12-19 | 2002-09-06 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声認識システム |
JP2003216180A (ja) * | 2002-01-25 | 2003-07-30 | Matsushita Electric Ind Co Ltd | 音声認識装置およびその方法 |
JP2004347761A (ja) * | 2003-05-21 | 2004-12-09 | Internatl Business Mach Corp <Ibm> | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 |
JP2005084653A (ja) * | 2003-09-11 | 2005-03-31 | National Institute Of Advanced Industrial & Technology | 背景雑音歪みの補正処理方法及びそれを用いた音声認識システム |
Also Published As
Publication number | Publication date |
---|---|
JP2006201287A (ja) | 2006-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4586577B2 (ja) | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム | |
Tu et al. | Speech enhancement based on teacher–student deep learning using improved speech presence probability for noise-robust speech recognition | |
JP4512848B2 (ja) | 雑音抑圧装置及び音声認識システム | |
EP1515305B1 (en) | Noise adaption for speech recognition | |
JP6243858B2 (ja) | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム | |
Arrowood et al. | Using observation uncertainty in HMM decoding. | |
JP2004264816A (ja) | 再帰的構成における反復ノイズ推定法 | |
JP2019144402A (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
JP4617497B2 (ja) | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム | |
EP1457968B1 (en) | Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition | |
US20020059065A1 (en) | Speech processing system | |
JP2009139894A (ja) | 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム | |
US20020026309A1 (en) | Speech processing system | |
JP2010078650A (ja) | 音声認識装置及びその方法 | |
EP1443495A1 (en) | Method of speech recognition using hidden trajectory hidden markov models | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
JP5070591B2 (ja) | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム | |
JP4964194B2 (ja) | 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 | |
JP2008298844A (ja) | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム | |
Stouten et al. | Joint removal of additive and convolutional noise with model-based feature enhancement | |
JP2008064849A (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
WO2010109725A1 (ja) | 音声処理装置、音声処理方法、及び、音声処理プログラム | |
JP6564744B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP2009063773A (ja) | 音声特徴学習装置、音声認識装置、それらの方法、それらのプログラム、それらの記録媒体 | |
Adiga et al. | An alternating ℓ p—ℓ 2 projections algorithm (ALPA) for speech modeling using sparsity constraints |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060926 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060926 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100330 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100419 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4512848 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130521 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130521 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |