JP2006243290A - 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム - Google Patents
外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム Download PDFInfo
- Publication number
- JP2006243290A JP2006243290A JP2005057993A JP2005057993A JP2006243290A JP 2006243290 A JP2006243290 A JP 2006243290A JP 2005057993 A JP2005057993 A JP 2005057993A JP 2005057993 A JP2005057993 A JP 2005057993A JP 2006243290 A JP2006243290 A JP 2006243290A
- Authority
- JP
- Japan
- Prior art keywords
- disturbance
- parameter
- frame
- speech
- particle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】外乱成分抑圧部114は、加法性雑音及び乗法性歪みが生じる環境下で目的音声を観測することにより得られる観測信号について、所定周期ごとにフレーム化された所定時間長のフレームよりそれぞれ抽出される特徴量124を受け、複数のパーティクルを有するパーティクルフィルタを用いて、外乱を表すパラメータ206をフレームごとに逐次生成するための外乱確率分布推定部200と、観測信号の特徴量124と、外乱の推定パラメータ206と、GMM130とを用いて、フレームごとに目的音声の推定特徴量126を算出するためのパラメータ生成部202及びクリーン音声推定部204とを含む。
【選択図】 図5
Description
また、この技術では、行列HLinの要素すなわち乗法性歪みの線形メルスペクトルと、行列ALinの要素すなわち残響の線形予測係数を、それぞれ時間固定のパラメータとみなし、EMアルゴリズムによりこれらのパラメータを推定する。上記の再帰式により、分析窓長よりも長いインパルス応答長の歪みも表現されるため、反射音の影響等をモデル化することができる。
図1に、本実施の形態に係る音声認識システム100全体の構成を示す。図1を参照して、この音声認識システム100は、音源102が発生する音122を収集し、収集した音から認識に用いる特徴量を抽出するための前処理部104と、前処理部104に接続され、音声と音素との関係を表す確率モデル(音響モデル)を準備するための前処理用音響モデル部106と、認識対象の言語における単語の連接確率等を表す確率モデル(言語モデル)を準備するための言語モデル部108と、前処理部104から出力された特徴量に対応する単語等を、言語モデル部108の言語モデルを用いて探索するための探索部110と、探索部110に接続され、探索部110による探索に用いられる音響モデルを準備するための認識用音響モデル部109とを含む。
XS,t Lin(D)=Ht LinSt Lin
XS,t Lin=XS,t Lin(D)+XS,t Lin(R)
XS,t Lin(R)=At LinXS,t-1 Lin
XS+N,t Lin=XS,t Lin+Nt Lin=Ht LinSt Lin+Nt Lin+ALinXS,t-1 Lin
反射音は観測できないため、この式において反射音のベクトルXS,t-1 Linを次のように近似する。すなわち、
XS,t-1 Lin=XS+N,t-1 Lin−Nt-1 Lin
以下の説明からも明らかなように、図1に示す音声認識システム100の前処理部104、前処理用音響モデル部106、及び探索部110は、いずれもコンピュータハードウェアとその上で実行されるプログラムにより実現可能である。図8に、本実施の形態に係る前処理部104に含まれる外乱成分抑圧部114が行なう外乱成分の抑圧処理を実現するコンピュータプログラムの制御構造をフローチャートで示す。
本実施の形態に係る音声認識システム100は以下のように動作する。まず、図6に示す外乱確率分布推定部200による初期状態における外乱の確率分布の推定動作を説明する。図1に示す計測部112が、音源102から観測音122を受け、観測信号の特徴量Xt(124)を抽出する。抽出された特徴量Xt(124)は、外乱成分抑圧部114の図5に示す外乱確率分布推定部200に与えられる。図6を参照して、外乱確率分布推定部200のフレーム選択部220は、特徴量Xt(124)のうち最初の10フレーム分を、外乱初期分布推定部222に与える。外乱初期分布推定部222は、上記の式(9)〜式(11)に示す処理により加法性雑音の初期分布p(N0)を推定する。さらに、雑音の初期分布p(N0)から、上記の式(12)及び式(13)に示すサンプリングをJ回行なう。このサンプリングによって、各パーティクルにおける雑音の初期的なパラメータベクトルN0 (j)及び共分散行列ΣN0 (j)が決定される。乗法性歪みの初期パラメータ行列H0 (j)及びその共分散行列ΣH0 (j)をともに0に設定し、残響の初期パラメータ行列A0 (j)及びその共分散行列ΣA0 (j)をともに0に設定する。外乱確率分布推定部200は、これらのパラメータを、時刻t=0のフレームにおける推定外乱分布206のパラメータとして出力する。
本実施の形態に係る音声認識システム100による効果を確認するために、観測信号からの雑音の推定実験と、観測信号の認識実験とを行なった。以下、実験方法及び結果について説明する。
なお、本実施の形態においては、パーティクルフィルタによる処理を外乱成分の抑圧に用いている。そのため、雑音抑圧後の推定クリーン音声のパラメータを用いて探索を行なう前に、さらに音響モデル適応を行なうこともできる。音響モデル適応により、推定クリーン音声に適合した音響モデルを探索に用いることができるようになる。したがって、認識精度が向上することが期待される。
102 音源
104 前処理部
106 前処理用音響モデル部
108 言語モデル部
109 認識用音響モデル部
110 探索部
112 計測部
114 外乱分布抑圧部
116 話者
118 外乱要因
120 クリーン音声
122 観測音
124 観測信号の特徴量
126 推定クリーン音声の特徴量
130 GMM
132 学習データ記憶部
134 モデル学習部
136 GMM記憶部
160 状態空間モデル
200 外乱確率分布推定部
202 パラメータ生成部
204 クリーン音声推定部
220 フレーム選択部
222 外乱初期分布推定部
224 逐次計算部
226 GMMサンプリング部
230 更新部
232 重み算出部
234 再サンプリング部
236 推定外乱分布生成部
262 再更新部
264 重み再計算部
266 許容確率算出部
268 乱数発生部
270 パラメータ選択部
Claims (4)
- 外乱により加法性雑音及び乗法性歪みが生じる環境下で目的音声を観測することにより得られる観測信号の外乱成分を抑圧する外乱成分抑圧装置であって、
前記観測信号について所定周期ごとにフレーム化された所定時間長のフレームよりそれぞれ抽出される特徴量を受けて、複数のパーティクルを有するパーティクルフィルタを用いて、前記外乱を表す確率分布の推定パラメータを前記フレームごとに逐次生成するための外乱パラメータ推定手段と、
前記観測信号の特徴量と、前記推定パラメータと、前記目的音声に関する所定の音響モデルとを用いて、前記フレームごとに前記目的音声の推定特徴量を算出するための目的音声推定手段とを含む、外乱成分抑圧装置。 - 前記外乱パラメータ推定手段は、
前記外乱の初期分布を設定し、当該初期分布にしたがった確率で、前記複数のパーティクルの各々における外乱を表す確率分布の初期パラメータをそれぞれ設定するための初期パラメータ設定手段と、
前記音響モデルと前記観測信号の特徴量とを基に、拡張カルマンフィルタを用いて、各パーティクルにおける先行する第1のフレームの前記推定パラメータをそれぞれ前記第1のフレームに後続する第2のフレームに対応するものに更新するための更新手段と、
前記第2のフレームにおける前記複数のパーティクルの各々の重みを算出するための重み算出手段とを含む、請求項1に記載の外乱成分抑圧装置。 - コンピュータにより実行されると、当該コンピュータを請求項1又は請求項2に記載の外乱成分抑圧装置として動作させる、コンピュータプログラム。
- 請求項1又は請求項2に記載の外乱成分抑圧装置と、
前記外乱成分抑圧装置により算出される前記目的音声の推定特徴量を受けて、前記目的音声に関する所定の音響モデルと、認識対象言語に関する所定の言語モデルとを用いて、前記目的音声に関する音声認識を行なうための音声認識手段とを含む、音声認識システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005057993A JP4586577B2 (ja) | 2005-03-02 | 2005-03-02 | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005057993A JP4586577B2 (ja) | 2005-03-02 | 2005-03-02 | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006243290A true JP2006243290A (ja) | 2006-09-14 |
JP2006243290A5 JP2006243290A5 (ja) | 2007-02-08 |
JP4586577B2 JP4586577B2 (ja) | 2010-11-24 |
Family
ID=37049773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005057993A Active JP4586577B2 (ja) | 2005-03-02 | 2005-03-02 | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4586577B2 (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007041499A (ja) * | 2005-07-01 | 2007-02-15 | Advanced Telecommunication Research Institute International | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム |
JP2008085613A (ja) * | 2006-09-27 | 2008-04-10 | Toyota Motor Corp | 音声認識装置、音声認識方法、移動体、及びロボット |
JP2008292858A (ja) * | 2007-05-25 | 2008-12-04 | Advanced Telecommunication Research Institute International | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム |
JP2008298844A (ja) * | 2007-05-29 | 2008-12-11 | Advanced Telecommunication Research Institute International | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム |
JP2009111973A (ja) * | 2007-08-31 | 2009-05-21 | Mitsubishi Electric R & D Centre Europe Bv | 干渉プラス雑音のレベルを推定するための方法および装置、ならびにコンピュータプログラム |
WO2009110574A1 (ja) * | 2008-03-06 | 2009-09-11 | 日本電信電話株式会社 | 信号強調装置、その方法、プログラム及び記録媒体 |
JP2009212599A (ja) * | 2008-02-29 | 2009-09-17 | Nippon Telegr & Teleph Corp <Ntt> | 残響除去装置とその方法と、そのプログラムと記録媒体 |
JP2011039265A (ja) * | 2009-08-11 | 2011-02-24 | Nippon Telegr & Teleph Corp <Ntt> | 目的信号強調装置とその方法と、プログラム |
JP2013120379A (ja) * | 2011-12-09 | 2013-06-17 | Nippon Telegr & Teleph Corp <Ntt> | スペクトル歪みパラメータ推定値補正装置とその方法とプログラム |
CN103258533A (zh) * | 2013-05-27 | 2013-08-21 | 重庆邮电大学 | 远距离语音识别中的模型域补偿新方法 |
CN108986832A (zh) * | 2018-07-12 | 2018-12-11 | 北京大学深圳研究生院 | 基于语音出现概率和一致性的双耳语音去混响方法和装置 |
CN113904659A (zh) * | 2021-10-11 | 2022-01-07 | 山东万里红信息技术有限公司 | 一种基于空间向量的多目标自适应抗干扰方法 |
CN118553237A (zh) * | 2024-07-26 | 2024-08-27 | 广东技术师范大学 | 基于电磁波干扰抑制的智能家电语音识别方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002251198A (ja) * | 2000-12-19 | 2002-09-06 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声認識システム |
JP2004347761A (ja) * | 2003-05-21 | 2004-12-09 | Internatl Business Mach Corp <Ibm> | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 |
-
2005
- 2005-03-02 JP JP2005057993A patent/JP4586577B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002251198A (ja) * | 2000-12-19 | 2002-09-06 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声認識システム |
JP2004347761A (ja) * | 2003-05-21 | 2004-12-09 | Internatl Business Mach Corp <Ibm> | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4617497B2 (ja) * | 2005-07-01 | 2011-01-26 | 株式会社国際電気通信基礎技術研究所 | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム |
JP2007041499A (ja) * | 2005-07-01 | 2007-02-15 | Advanced Telecommunication Research Institute International | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム |
JP2008085613A (ja) * | 2006-09-27 | 2008-04-10 | Toyota Motor Corp | 音声認識装置、音声認識方法、移動体、及びロボット |
JP2008292858A (ja) * | 2007-05-25 | 2008-12-04 | Advanced Telecommunication Research Institute International | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム |
JP2008298844A (ja) * | 2007-05-29 | 2008-12-11 | Advanced Telecommunication Research Institute International | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム |
JP2009111973A (ja) * | 2007-08-31 | 2009-05-21 | Mitsubishi Electric R & D Centre Europe Bv | 干渉プラス雑音のレベルを推定するための方法および装置、ならびにコンピュータプログラム |
JP2009212599A (ja) * | 2008-02-29 | 2009-09-17 | Nippon Telegr & Teleph Corp <Ntt> | 残響除去装置とその方法と、そのプログラムと記録媒体 |
US8848933B2 (en) | 2008-03-06 | 2014-09-30 | Nippon Telegraph And Telephone Corporation | Signal enhancement device, method thereof, program, and recording medium |
WO2009110574A1 (ja) * | 2008-03-06 | 2009-09-11 | 日本電信電話株式会社 | 信号強調装置、その方法、プログラム及び記録媒体 |
US20110044462A1 (en) * | 2008-03-06 | 2011-02-24 | Nippon Telegraph And Telephone Corp. | Signal enhancement device, method thereof, program, and recording medium |
JP5124014B2 (ja) * | 2008-03-06 | 2013-01-23 | 日本電信電話株式会社 | 信号強調装置、その方法、プログラム及び記録媒体 |
JP2011039265A (ja) * | 2009-08-11 | 2011-02-24 | Nippon Telegr & Teleph Corp <Ntt> | 目的信号強調装置とその方法と、プログラム |
JP2013120379A (ja) * | 2011-12-09 | 2013-06-17 | Nippon Telegr & Teleph Corp <Ntt> | スペクトル歪みパラメータ推定値補正装置とその方法とプログラム |
CN103258533A (zh) * | 2013-05-27 | 2013-08-21 | 重庆邮电大学 | 远距离语音识别中的模型域补偿新方法 |
CN108986832A (zh) * | 2018-07-12 | 2018-12-11 | 北京大学深圳研究生院 | 基于语音出现概率和一致性的双耳语音去混响方法和装置 |
CN108986832B (zh) * | 2018-07-12 | 2020-12-15 | 北京大学深圳研究生院 | 基于语音出现概率和一致性的双耳语音去混响方法和装置 |
CN113904659A (zh) * | 2021-10-11 | 2022-01-07 | 山东万里红信息技术有限公司 | 一种基于空间向量的多目标自适应抗干扰方法 |
CN118553237A (zh) * | 2024-07-26 | 2024-08-27 | 广东技术师范大学 | 基于电磁波干扰抑制的智能家电语音识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP4586577B2 (ja) | 2010-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4586577B2 (ja) | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム | |
Tu et al. | Speech enhancement based on teacher–student deep learning using improved speech presence probability for noise-robust speech recognition | |
EP1515305B1 (en) | Noise adaption for speech recognition | |
Gannot et al. | Iterative and sequential Kalman filter-based speech enhancement algorithms | |
JP4512848B2 (ja) | 雑音抑圧装置及び音声認識システム | |
US7571095B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
US7552049B2 (en) | Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition | |
JP5242782B2 (ja) | 音声認識方法 | |
GB2546981B (en) | Noise compensation in speaker-adaptive systems | |
EP1160768A2 (en) | Robust features extraction for speech processing | |
JP4617497B2 (ja) | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム | |
JP2009139894A (ja) | 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム | |
Stouten et al. | Model-based feature enhancement with uncertainty decoding for noise robust ASR | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
JP6748304B2 (ja) | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム | |
CN115223583A (zh) | 一种语音增强方法、装置、设备及介质 | |
JPWO2007094463A1 (ja) | 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体 | |
JP2008298844A (ja) | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム | |
JP5070591B2 (ja) | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム | |
JP2014029407A (ja) | 雑音抑圧装置、方法、及びプログラム | |
Stouten et al. | Joint removal of additive and convolutional noise with model-based feature enhancement | |
KR101647059B1 (ko) | 독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법 | |
JP6000094B2 (ja) | 話者適応化装置、話者適応化方法、プログラム | |
Mammone et al. | Robust speech processing as an inverse problem | |
Krueger et al. | Bayesian Feature Enhancement for ASR of Noisy Reverberant Real-World Data. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061220 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091117 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100330 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100630 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20100709 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100803 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100823 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4586577 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130917 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |