JP5339426B2 - ケプストラムノイズ減算を用いた音声認識システム及び方法 - Google Patents
ケプストラムノイズ減算を用いた音声認識システム及び方法 Download PDFInfo
- Publication number
- JP5339426B2 JP5339426B2 JP2008317530A JP2008317530A JP5339426B2 JP 5339426 B2 JP5339426 B2 JP 5339426B2 JP 2008317530 A JP2008317530 A JP 2008317530A JP 2008317530 A JP2008317530 A JP 2008317530A JP 5339426 B2 JP5339426 B2 JP 5339426B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- vector
- feature vector
- speech
- cepstrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 169
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000005236 sound signal Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 108090000461 Aurora Kinase A Proteins 0.000 description 5
- 102100032311 Aurora kinase A Human genes 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 239000000654 additive Substances 0.000 description 3
- 230000000996 additive effect Effects 0.000 description 3
- 230000004069 differentiation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000036039 immunity Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 101000666896 Homo sapiens V-type immunoglobulin domain-containing suppressor of T-cell activation Proteins 0.000 description 2
- 102100038282 V-type immunoglobulin domain-containing suppressor of T-cell activation Human genes 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- IJJVMEJXYNJXOJ-UHFFFAOYSA-N fluquinconazole Chemical compound C=1C=C(Cl)C=C(Cl)C=1N1C(=O)C2=CC(F)=CC=C2N=C1N1C=NC=N1 IJJVMEJXYNJXOJ-UHFFFAOYSA-N 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011410 subtraction method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
- Machine Translation (AREA)
Description
1)複数の第1特徴ベクトルが、音声信号に基づき取得されるステップ
2)プリセット音声フレームの第1特徴ベクトル、及び、プリセット音声フレーム以前の複数の音声フレームの第1特徴ベクトルが、取得されて、特徴平均ベクトルを計算するステップ
3)プリセット音声フレームの第2特徴ベクトルが、プリセット音声フレームの第1特徴ベクトル、特徴平均ベクトル、第1スカラ係数、及び、第2スカラ係数に基づき、計算されるステップ
4)プリセット音声フレームの第2特徴ベクトルが、ケプストラム特徴ベクトルに変換されるステップ
5)モデルパラメータが、ケプストラム特徴ベクトルに基づき計算されるステップ
6)認識された音声信号が、ケプストラム特徴ベクトル及びモデルパラメータに基づき計算されるステップ
21 フィルタバンクエネルギ抽出器
22 ケプストラムノイズ減算デバイス
23 ケプストラム変換器
24 微分演算子
25 モデルトレーナ
26 音声モデルパラメータデータベース
27 音声認識装置
41 特徴平均ベクトル計算デバイス
42 第1乗算器
43 第1加算器
44 第2乗算器
45 比較器
46 マルチプレクサ
411 第1遅延装置
412 第2遅延装置
415 N個目の遅延装置
416 第2加算器
417 第3乗算器
Claims (12)
- ケプストラムノイズ減算を用いた音声認識システムであって、
音声信号に基づき、複数の第1特徴ベクトルを取得するためのフィルタバンクエネルギ抽出器と、
特徴平均ベクトルを計算し、かつ、所定の音声フレームの第1特徴ベクトル、特徴平均ベクトル、第1スカラ係数、及び、第2スカラ係数に基づき、前記所定の音声フレームの第2特徴ベクトルを計算するために、
前記所定の音声フレームの前記第1特徴ベクトルと、前記所定の音声フレーム以前の複数の音声フレームの前記第1特徴ベクトルとを取得するためのケプストラムノイズ減算デバイスと、
前記所定の音声フレームの前記第2特徴ベクトルを、ケプストラム特徴ベクトルに変換するためのケプストラム変換器と、
前記ケプストラム特徴ベクトルに基づき、モデルパラメータを計算するためのモデルトレーナと、
前記ケプストラム特徴ベクトル、及び、前記モデルパラメータに基づき、認識された音声信号を計算するための音声認識装置と
を具備し、
前記ケプストラムノイズ減算デバイスは、
前記特徴平均ベクトルを計算するために、前記所定の音声フレームの前記第1特徴ベクトルと、前記所定の音声フレーム以前の前記複数の音声フレームの前記第1特徴ベクトルとを取得するための特徴平均ベクトル計算デバイスと、
第1乗算結果を計算するために、前記特徴平均ベクトルを、前記第1スカラ係数の負値によって乗算するための第1乗算器と、
加算結果を計算するために、前記所定の音声フレームの前記第1特徴ベクトルと、前記第1乗算結果とを加算するための第1加算器と、
第2乗算結果を計算するために、前記所定の音声フレームの前記第1特徴ベクトルを、前記第2スカラ係数によって乗算するための第2乗算器と、
前記加算結果が前記第2乗算結果以上であるか否かを比較し、かつ、制御信号を出力するための比較器と、
前記制御信号に基づき、前記所定の音声フレームの前記第2特徴ベクトルを、前記加算結果又は前記第2乗算結果にスイッチするためのマルチプレクサと
を具備し、
前記制御信号は、前記加算結果が前記第2乗算結果以上であるとき、前記所定の音声フレームの前記特徴ベクトルが加算結果であることを示し、かつ、
前記制御信号は、前記加算結果が前記第2乗算結果以下であるとき、前記所定の音声フレームの前記第2特徴ベクトルが前記第2乗算結果であることを示し、
前記第1スカラ係数は、0.01〜0.99であり、かつ、
前記第2スカラ係数は、0.01〜0.99であり、
前記第1特徴ベクトルは、対数メルフィルタバンクエネルギ特徴ベクトルであることを特徴とするシステム。 - 前記特徴平均ベクトル計算デバイスは、
各時間単位を遅延して、前記所定の音声フレーム以前の前記複数の音声フレームの前記第1特徴ベクトルを取得する複数の遅延器と、
前記第1特徴ベクトルの合計を計算するように、前記第1特徴ベクトルを合計するための第2加算器と、
前記特徴平均ベクトルを計算するように、前記音声フレーム数の逆数によって、前記第1特徴ベクトルの前記合計を乗算するための第3乗算器と
を具備することを特徴とする請求項1に記載の音声認識システム。 - 前記特徴平均ベクトル計算デバイスは、幾何学的な平均値、中央値、最頻値、又は、ノルムを含む平均値計算方法を介して、前記特徴平均ベクトルを計算することを特徴とする請求項1に記載の音声認識システム。
- 前記所定の音声フレーム以前の前記複数の音声フレーム数は、2からセンテンスの音声フレームの合計数であることを特徴とする請求項1に記載の音声認識システム。
- 前記ケプストラム特徴ベクトルの1次微分、又は、1次微分及び2次微分、又は、1次微分から高次微分を計算するための微分演算子をさらに具備することを特徴とする請求項1に記載の音声認識システム。
- 前記フィルタバンクエネルギ抽出器は、対数メルフィルタバンクエネルギ抽出器であることを特徴とする請求項1に記載の音声認識システム。
- 前記ケプストラム変換器は、離散的なコサイン変圧器であることを特徴とする請求項6に記載の音声認識システム。
- ケプストラムノイズ減算を用いた音声認識方法であって、
音声信号に基づき、複数の第1特徴ベクトルを取得するステップと、
特徴平均ベクトルを計算するために、所定の音声フレームの第1特徴ベクトルと、前記所定の音声フレーム以前の複数の音声フレームの第1特徴ベクトルとを取得するステップと、
前記所定の音声フレームの前記第1特徴ベクトル、前記特徴平均ベクトル、第1スカラ係数、及び、第2スカラ係数に基づき、前記所定の音声フレームの第2特徴ベクトルを計算するステップと、
前記所定の音声フレームの前記第2特徴ベクトルを、ケプストラム特徴ベクトルに変換するステップと、
前記ケプストラム特徴ベクトルに基づき、モデルパラメータを計算するステップと、
前記ケプストラム特徴ベクトル、及び、前記モデルパラメータに基づき、認識された音声信号を計算するステップと
を具備し、
前記所定の音声フレームの第2特徴ベクトルを計算する前記ステップは、
前記特徴平均ベクトルを計算するために、前記所定の音声フレームの前記第1特徴ベクトルと、前記所定の音声フレーム以前の前記複数の音声フレームの第1特徴ベクトルとを取得するステップと、
第1乗算結果を計算するために、前記特徴平均ベクトルを、前記第1スカラ係数の負値によって乗算するステップと、
加算結果を計算するために、前記所定の音声フレームの前記第1特徴ベクトルと、前記第1乗算結果とを加算するステップと、
第2乗算結果を計算するために、前記所定の音声フレームの前記第1特徴ベクトルと、前記第2スカラ係数とを乗算するステップと、
前記加算結果が前記第2乗算結果以上であるか否かを比較し、かつ、制御信号を出力するステップと、
前記制御信号に基づき、前記音声フレームの前記第2特徴ベクトルを、前記加算結果、又は、前記第2乗算結果にスイッチするステップと
をさらに具備し、
前記制御信号は、前記加算結果が前記第2乗算結果以上であるとき、前記所定の音声フレームの前記特徴ベクトルが加算結果であることを示し、かつ、
前記制御信号は、前記加算結果が前記第2乗算結果以下であるとき、前記所定の音声フレームの前記第2特徴ベクトルが前記第2乗算結果であることを示し、
前記第1スカラ係数は、0.01〜0.99であり、かつ、
前記第2スカラ係数は、0.01〜0.99であり、
前記第1特徴ベクトルは、対数メルフィルタバンクエネルギ特徴ベクトルであることを特徴とする方法。 - 特徴平均ベクトルを計算する前記ステップは、
各時間単位を遅延して、前記所定の音声フレーム以前の前記複数の音声フレームの前記第1特徴ベクトルを取得する複数の遅延器を使用するステップと、
前記第1特徴ベクトルの合計を計算するために、前記第1特徴ベクトルを合計するステップと、
前記特徴平均ベクトルを計算するために、前記音声フレーム数の逆数によって、前記第1特徴ベクトルの前記合計を乗算するステップと
をさらに具備することを特徴とする請求項8に記載の音声認識方法。 - 前記特徴平均ベクトルは、幾何学的な平均値、中央値、最頻値、又は、ノルムを含む平均値計算方法を介して計算されることを特徴とする請求項8に記載の音声認識方法。
- 前記ケプストラム特徴ベクトルの1次微分、又は、1次微分及び2次微分、又は、1次微分から高次微分を計算するための微分演算ステップをさらに具備することを特徴とする請求項8に記載の音声認識方法。
- 前記ケプストラム特徴ベクトルは、メルケプストラム特徴ベクトルであることを特徴とする請求項8に記載の音声認識方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW096148135 | 2007-12-14 | ||
TW096148135A TWI356399B (en) | 2007-12-14 | 2007-12-14 | Speech recognition system and method with cepstral |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009145895A JP2009145895A (ja) | 2009-07-02 |
JP5339426B2 true JP5339426B2 (ja) | 2013-11-13 |
Family
ID=40754410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008317530A Active JP5339426B2 (ja) | 2007-12-14 | 2008-12-12 | ケプストラムノイズ減算を用いた音声認識システム及び方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8150690B2 (ja) |
JP (1) | JP5339426B2 (ja) |
TW (1) | TWI356399B (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100094622A1 (en) * | 2008-10-10 | 2010-04-15 | Nexidia Inc. | Feature normalization for speech and audio processing |
WO2012175094A1 (en) * | 2011-06-20 | 2012-12-27 | Agnitio, S.L. | Identification of a local speaker |
KR101892733B1 (ko) * | 2011-11-24 | 2018-08-29 | 한국전자통신연구원 | 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법 |
JP5881454B2 (ja) * | 2012-02-14 | 2016-03-09 | 日本電信電話株式会社 | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム |
CN112908299B (zh) * | 2020-12-29 | 2023-08-29 | 平安银行股份有限公司 | 客户需求信息识别方法、装置、电子设备及存储介质 |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5583961A (en) * | 1993-03-25 | 1996-12-10 | British Telecommunications Public Limited Company | Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands |
US5778342A (en) * | 1996-02-01 | 1998-07-07 | Dspc Israel Ltd. | Pattern recognition system and method |
US5895447A (en) * | 1996-02-02 | 1999-04-20 | International Business Machines Corporation | Speech recognition using thresholded speaker class model selection or model adaptation |
US6006175A (en) * | 1996-02-06 | 1999-12-21 | The Regents Of The University Of California | Methods and apparatus for non-acoustic speech characterization and recognition |
US6278970B1 (en) * | 1996-03-29 | 2001-08-21 | British Telecommunications Plc | Speech transformation using log energy and orthogonal matrix |
US6044343A (en) * | 1997-06-27 | 2000-03-28 | Advanced Micro Devices, Inc. | Adaptive speech recognition with selective input data to a speech classifier |
US6032116A (en) * | 1997-06-27 | 2000-02-29 | Advanced Micro Devices, Inc. | Distance measure in a speech recognition system for speech recognition using frequency shifting factors to compensate for input signal frequency shifts |
US6633842B1 (en) * | 1999-10-22 | 2003-10-14 | Texas Instruments Incorporated | Speech recognition front-end feature extraction for noisy speech |
US6253173B1 (en) * | 1997-10-20 | 2001-06-26 | Nortel Networks Corporation | Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors |
US6202047B1 (en) * | 1998-03-30 | 2001-03-13 | At&T Corp. | Method and apparatus for speech recognition using second order statistics and linear estimation of cepstral coefficients |
US6347297B1 (en) * | 1998-10-05 | 2002-02-12 | Legerity, Inc. | Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition |
US6219642B1 (en) * | 1998-10-05 | 2001-04-17 | Legerity, Inc. | Quantization using frequency and mean compensated frequency input data for robust speech recognition |
GB2357231B (en) * | 1999-10-01 | 2004-06-09 | Ibm | Method and system for encoding and decoding speech signals |
FI19992351A (fi) | 1999-10-29 | 2001-04-30 | Nokia Mobile Phones Ltd | Puheentunnistus |
GB2355834A (en) * | 1999-10-29 | 2001-05-02 | Nokia Mobile Phones Ltd | Speech recognition |
TW466471B (en) | 2000-04-07 | 2001-12-01 | Ind Tech Res Inst | Method for performing noise adaptation in voice recognition unit |
FR2808917B1 (fr) * | 2000-05-09 | 2003-12-12 | Thomson Csf | Procede et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant |
JP4244514B2 (ja) | 2000-10-23 | 2009-03-25 | セイコーエプソン株式会社 | 音声認識方法および音声認識装置 |
US7277853B1 (en) * | 2001-03-02 | 2007-10-02 | Mindspeed Technologies, Inc. | System and method for a endpoint detection of speech for improved speech recognition in noisy environments |
US20030078777A1 (en) * | 2001-08-22 | 2003-04-24 | Shyue-Chin Shiau | Speech recognition system for mobile Internet/Intranet communication |
US7035797B2 (en) * | 2001-12-14 | 2006-04-25 | Nokia Corporation | Data-driven filtering of cepstral time trajectories for robust speech recognition |
JP2003271190A (ja) | 2002-03-15 | 2003-09-25 | Matsushita Electric Ind Co Ltd | 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置 |
TW582024B (en) | 2002-12-23 | 2004-04-01 | Ind Tech Res Inst | Method and system for determining reliable speech recognition coefficients in noisy environment |
US7389230B1 (en) * | 2003-04-22 | 2008-06-17 | International Business Machines Corporation | System and method for classification of voice signals |
US7418383B2 (en) * | 2004-09-03 | 2008-08-26 | Microsoft Corporation | Noise robust speech recognition with a switching linear dynamic model |
JP4464797B2 (ja) | 2004-11-17 | 2010-05-19 | 日本電信電話株式会社 | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 |
JP5129117B2 (ja) | 2005-04-01 | 2013-01-23 | クゥアルコム・インコーポレイテッド | 音声信号の高帯域部分を符号化及び復号する方法及び装置 |
US20070083365A1 (en) | 2005-10-06 | 2007-04-12 | Dts, Inc. | Neural network classifier for separating audio sources from a monophonic audio signal |
JP2007156354A (ja) | 2005-12-08 | 2007-06-21 | Vision Megane:Kk | 眼鏡セット |
JP4728791B2 (ja) * | 2005-12-08 | 2011-07-20 | 日本電信電話株式会社 | 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体 |
US7877255B2 (en) * | 2006-03-31 | 2011-01-25 | Voice Signal Technologies, Inc. | Speech recognition using channel verification |
US20080300875A1 (en) * | 2007-06-04 | 2008-12-04 | Texas Instruments Incorporated | Efficient Speech Recognition with Cluster Methods |
-
2007
- 2007-12-14 TW TW096148135A patent/TWI356399B/zh active
-
2008
- 2008-10-01 US US12/243,303 patent/US8150690B2/en not_active Expired - Fee Related
- 2008-12-12 JP JP2008317530A patent/JP5339426B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
TWI356399B (en) | 2012-01-11 |
TW200926141A (en) | 2009-06-16 |
US8150690B2 (en) | 2012-04-03 |
US20090157400A1 (en) | 2009-06-18 |
JP2009145895A (ja) | 2009-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7590526B2 (en) | Method for processing speech signal data and finding a filter coefficient | |
JP5411936B2 (ja) | 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体 | |
Nakamura et al. | AURORA-2J: An evaluation framework for Japanese noisy speech recognition | |
JP4532576B2 (ja) | 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム | |
US7856353B2 (en) | Method for processing speech signal data with reverberation filtering | |
US20060253285A1 (en) | Method and apparatus using spectral addition for speaker recognition | |
JP2004347761A (ja) | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 | |
JP2006215564A (ja) | 自動音声認識システムにおける単語精度予測方法、及び装置 | |
US20060195317A1 (en) | Method and apparatus for recognizing speech in a noisy environment | |
JP5339426B2 (ja) | ケプストラムノイズ減算を用いた音声認識システム及び方法 | |
JP4856662B2 (ja) | 雑音除去装置、その方法、そのプログラム及び記録媒体 | |
US7120580B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
JP2007279517A (ja) | 音源分離装置、音源分離装置用のプログラム及び音源分離方法 | |
Gamper et al. | Predicting word error rate for reverberant speech | |
JP2012168296A (ja) | 音声による抑圧状態検出装置およびプログラム | |
KR100784456B1 (ko) | Gmm을 이용한 음질향상 시스템 | |
JP2013114151A (ja) | 雑音抑圧装置、方法及びプログラム | |
JP2009276365A (ja) | 処理装置、音声認識装置、音声認識システム、音声認識方法 | |
Kaur et al. | Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition | |
JP2008145923A (ja) | 音声信号区間推定装置、その方法、そのプログラム及び記録媒体 | |
JP2007093630A (ja) | 音声強調装置 | |
JP4571871B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
JPH10133688A (ja) | 音声認識装置 | |
JP2003177781A (ja) | 音響モデル生成装置及び音声認識装置 | |
Hirsch et al. | A new HMM adaptation approach for the case of a hands-free speech input in reverberant rooms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110830 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20111125 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20111130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120125 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130801 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5339426 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |