JP4682154B2 - 自動音声認識チャンネルの正規化 - Google Patents
自動音声認識チャンネルの正規化 Download PDFInfo
- Publication number
- JP4682154B2 JP4682154B2 JP2006549503A JP2006549503A JP4682154B2 JP 4682154 B2 JP4682154 B2 JP 4682154B2 JP 2006549503 A JP2006549503 A JP 2006549503A JP 2006549503 A JP2006549503 A JP 2006549503A JP 4682154 B2 JP4682154 B2 JP 4682154B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- speech
- voice
- utterances
- statistical value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000010606 normalization Methods 0.000 title claims description 27
- 238000012545 processing Methods 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 24
- 238000013507 mapping Methods 0.000 claims description 19
- 238000012417 linear regression Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Machine Translation (AREA)
- Stereophonic System (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Time-Division Multiplex Systems (AREA)
Description
feature[i]=(cep[i]−μ[i])/σ[i] (0≦i<3K)であり、ここで、
cep[i]=cepstrum[i]
cep[i+K]=Δcepstrum[i]
cep[i+K]=ΔΔcepstrum[i]
(0≦i<K)である。
ここで、μ[i]は時間tにおけるcep[i]の平均値、そしてσ2[i]は時間tにおけるcep[i]の分散値である。
μ[i,t]=αμ[i,t−τ]+(1+α)cep[i,t]
σ2[i,t]=ασ2[i,t]+(1−α)(cep[i,t]−μ[i,t])2
μ[i,t]=a0(S[t]−N[t])+b0+N[t] (i=0)
μ[i,t]=CEP[i,t] (0<i<K)
μ[i,t]=0 (K≦i<3K)
σ[i,t]=ai+1(S[t]−N[t])+bi+1 (0≦i<3K)
S[t]=max{cep[0,τ]} (0≦τ≦tの範囲)
N[t]=min{cep[0,τ]} (0≦τ≦tの範囲)
CEP[i,t]=Σcep[i,τ]/(t+1) (0≦τ≦t)
μ[i]=Σcep[i,τ]/(t+1) (0≦τ≦t)
σ2[i]=Σ(cep[i,τ]−μ[i])2/(t+1) (0≦τ≦t)
ここで、セッションは、通信チャンネル12が不変であるとみなす全ての発声を含む。このステップで使用される発話と沈黙の識別は、線形重み付け係数がデータのグローバル傾向をモデル化するだけなので重要とならない。
14 初期処理モジュール
16 発話データベース
18 線形回帰モジュール
20 マッピングモジュール
Claims (18)
- 自動音声認識チャンネルを正規化する方法であって、
音声発話の開始部の統計値を取得するステップであって、前記開始部が前記発話にて発声される最初の母音の発生に基づいて決定される複数のスピーチフレームを含むステップと、
前記統計値に基づいた特性正規化パラメータ、及び、前記統計値と該正規化パラメータに関連して統計的に導かれる複数のマッピング情報の中から選択して使用するようマッピング情報を推定するステップと、を含む方法。 - 前記統計値を取得するステップは、前記音声発話の開始部のエネルギー値を測定するステップを含む請求項1記載の方法。
- 前記エネルギー値を測定するステップは、エネルギー極値を測定するステップを含む請求項2記載の方法。
- 対応する前記各特性正規化パラメータに関連する複数の前記音声発話を受け付けるステップと、
複数の前記音声発話の統計値を取得するステップと、
前記統計値及び複数の前記音声発話に対応する前記特性正規化パラメータに基づいて前記統計的に導かれるマッピング情報を形成するステップと、をさらに含む請求項1記載の方法。 - 複数の前記各音声発話は、前記各音声発話の開始部を含む請求項4記載の方法。
- 複数の前記各音声発話は、前記各音声発話の全体部を含む請求項4記載の方法。
- 前記統計的に導かれるマッピングを形成するステップは、線形回帰を使用して形成するステップを含む請求項4記載の方法。
- 複数の前記音声発話に対応する前記特性正規化パラメータは、複数の前記音声発話時間における平均値と分散値を含む請求項4記載の方法。
- 自動音声認識チャンネルを正規化する処理システムであって、
初期処理モジュール、及びマッピングモジュールを備え、
前記初期処理モジュールにより、音声発話の開始部の統計値を取得し、前記開始部が前記発話にて発声される最初の母音の発生に基づいて決定される複数のスピーチフレームを含み、
前記マッピングモジュールにより、前記統計値に基づいた特性正規化パラメータ、及び前記統計値と該特性正規化パラメータに関連して統計的に導かれる複数のマッピング情報の中から選択して使用するようマッピング情報を推定することで、自動音声認識チャンネルを正規化する処理システム。 - 前記初期処理モジュールにより、前記音声発話の開始部のエネルギー値を測定する請求項9記載の処理システム。
- 線形回帰モジュールをさらに備え、
前記線形回帰モジュールにより、対応する前記各特性正規化パラメータに関連する複数の音声発話を受け付け、
複数の前記各音声発話の統計値を取得し、
前記統計値及び複数の前記音声発話に対応する前記特性正規化パラメータに基づいて前記統計的に導かれるマッピング情報を形成する請求項9記載の処理システム。 - 複数の前記各音声発話は、前記各音声発話の開始部を含む請求項11記載の処理システム。
- 複数の前記各音声発話は、各音声発話の全体部を含む請求項11記載の処理システム。
- コンピュータに、
音声発話の開始部の統計値を取得するステップであって、前記開始部が前記発話にて発声される最初の母音の発生に基づいて決定される複数のスピーチフレームを含むステップと、
前記統計値に基づいた特性正規化パラメータ、及び前記統計値と該特性正規化パラメータに関連して統計的に導かれる複数のマッピング情報の中から選択して使用するようマッピング情報を推定するステップと、
を実行させるためのプログラム。 - 前記統計値を取得するステップは、音声発話の開始部のエネルギー値を測定するステップを含む請求項14記載のプログラム。
- 対応する前記各特性正規化パラメータに関連する複数の音声発話を受け付けるステップと、
複数の前記音声発話の統計値を取得するステップと、
前記統計値及び複数の前記音声発話に対応する前記特性正規化パラメータに基づいて前記統計的に導かれるマッピングを形成するステップと、をさらに含む請求項14記載のプログラム。 - 複数の前記各音声発話は、前記各音声発話の開始部を含む請求項16記載のプログラム。
- 複数の前記各音声発話は、前記各音声発話の全体部を含む請求項16記載のプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US53586304P | 2004-01-12 | 2004-01-12 | |
PCT/US2005/000757 WO2005070130A2 (en) | 2004-01-12 | 2005-01-10 | Speech recognition channel normalization utilizing measured energy values from speech utterance |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007536562A JP2007536562A (ja) | 2007-12-13 |
JP4682154B2 true JP4682154B2 (ja) | 2011-05-11 |
Family
ID=34806967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006549503A Expired - Fee Related JP4682154B2 (ja) | 2004-01-12 | 2005-01-10 | 自動音声認識チャンネルの正規化 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7797157B2 (ja) |
EP (1) | EP1774516B1 (ja) |
JP (1) | JP4682154B2 (ja) |
CN (1) | CN101228577B (ja) |
DE (1) | DE602005026949D1 (ja) |
WO (1) | WO2005070130A2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7702505B2 (en) * | 2004-12-14 | 2010-04-20 | Electronics And Telecommunications Research Institute | Channel normalization apparatus and method for robust speech recognition |
US20070263848A1 (en) * | 2006-04-19 | 2007-11-15 | Tellabs Operations, Inc. | Echo detection and delay estimation using a pattern recognition approach and cepstral correlation |
EP2100294A4 (en) * | 2006-12-27 | 2011-09-28 | Intel Corp | METHOD AND DEVICE FOR LANGUAGE SEGMENTATION |
JP4864783B2 (ja) * | 2007-03-23 | 2012-02-01 | Kddi株式会社 | パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 |
US8930179B2 (en) * | 2009-06-04 | 2015-01-06 | Microsoft Corporation | Recognition using re-recognition and statistical classification |
US8768695B2 (en) * | 2012-06-13 | 2014-07-01 | Nuance Communications, Inc. | Channel normalization using recognition feedback |
US9984676B2 (en) * | 2012-07-24 | 2018-05-29 | Nuance Communications, Inc. | Feature normalization inputs to front end processing for automatic speech recognition |
WO2015175218A1 (en) | 2014-05-13 | 2015-11-19 | Covidien Lp | Surgical robotic arm support systems and methods of use |
US9953661B2 (en) * | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
WO2016105216A1 (en) * | 2014-12-22 | 2016-06-30 | Intel Corporation | Cepstral variance normalization for audio feature extraction |
US10540990B2 (en) * | 2017-11-01 | 2020-01-21 | International Business Machines Corporation | Processing of speech signals |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2797949B2 (ja) * | 1994-01-31 | 1998-09-17 | 日本電気株式会社 | 音声認識装置 |
US5604839A (en) * | 1994-07-29 | 1997-02-18 | Microsoft Corporation | Method and system for improving speech recognition through front-end normalization of feature vectors |
GB9419388D0 (en) * | 1994-09-26 | 1994-11-09 | Canon Kk | Speech analysis |
US5677990A (en) * | 1995-05-05 | 1997-10-14 | Panasonic Technologies, Inc. | System and method using N-best strategy for real time recognition of continuously spelled names |
US6633842B1 (en) * | 1999-10-22 | 2003-10-14 | Texas Instruments Incorporated | Speech recognition front-end feature extraction for noisy speech |
US6202047B1 (en) * | 1998-03-30 | 2001-03-13 | At&T Corp. | Method and apparatus for speech recognition using second order statistics and linear estimation of cepstral coefficients |
JPH11311994A (ja) * | 1998-04-30 | 1999-11-09 | Sony Corp | 情報処理装置および方法、並びに提供媒体 |
CN1144172C (zh) * | 1998-04-30 | 2004-03-31 | 松下电器产业株式会社 | 包括最大似然方法的基于本征音的发言者适应方法 |
US6173258B1 (en) * | 1998-09-09 | 2001-01-09 | Sony Corporation | Method for reducing noise distortions in a speech recognition system |
US6253175B1 (en) * | 1998-11-30 | 2001-06-26 | International Business Machines Corporation | Wavelet-based energy binning cepstal features for automatic speech recognition |
US6658385B1 (en) * | 1999-03-12 | 2003-12-02 | Texas Instruments Incorporated | Method for transforming HMMs for speaker-independent recognition in a noisy environment |
GB2349259B (en) * | 1999-04-23 | 2003-11-12 | Canon Kk | Speech processing apparatus and method |
JP2001134295A (ja) * | 1999-08-23 | 2001-05-18 | Sony Corp | 符号化装置および符号化方法、記録装置および記録方法、送信装置および送信方法、復号化装置および符号化方法、再生装置および再生方法、並びに記録媒体 |
US6502070B1 (en) * | 2000-04-28 | 2002-12-31 | Nortel Networks Limited | Method and apparatus for normalizing channel specific speech feature elements |
DE60110541T2 (de) * | 2001-02-06 | 2006-02-23 | Sony International (Europe) Gmbh | Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz |
US7062433B2 (en) * | 2001-03-14 | 2006-06-13 | Texas Instruments Incorporated | Method of speech recognition with compensation for both channel distortion and background noise |
US7035797B2 (en) * | 2001-12-14 | 2006-04-25 | Nokia Corporation | Data-driven filtering of cepstral time trajectories for robust speech recognition |
IL148592A0 (en) * | 2002-03-10 | 2002-09-12 | Ycd Multimedia Ltd | Dynamic normalizing |
US7117148B2 (en) * | 2002-04-05 | 2006-10-03 | Microsoft Corporation | Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization |
US7197456B2 (en) * | 2002-04-30 | 2007-03-27 | Nokia Corporation | On-line parametric histogram normalization for noise robust speech recognition |
JP4239479B2 (ja) * | 2002-05-23 | 2009-03-18 | 日本電気株式会社 | 音声認識装置、音声認識方法、および、音声認識プログラム |
-
2005
- 2005-01-10 EP EP05705425A patent/EP1774516B1/en not_active Not-in-force
- 2005-01-10 CN CN2005800022461A patent/CN101228577B/zh not_active Expired - Fee Related
- 2005-01-10 JP JP2006549503A patent/JP4682154B2/ja not_active Expired - Fee Related
- 2005-01-10 DE DE602005026949T patent/DE602005026949D1/de active Active
- 2005-01-10 WO PCT/US2005/000757 patent/WO2005070130A2/en active Application Filing
- 2005-01-10 US US11/032,415 patent/US7797157B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP1774516B1 (en) | 2011-03-16 |
WO2005070130A3 (en) | 2009-04-09 |
EP1774516A2 (en) | 2007-04-18 |
JP2007536562A (ja) | 2007-12-13 |
CN101228577B (zh) | 2011-11-23 |
CN101228577A (zh) | 2008-07-23 |
DE602005026949D1 (de) | 2011-04-28 |
EP1774516A4 (en) | 2009-11-11 |
WO2005070130A2 (en) | 2005-08-04 |
US20050182621A1 (en) | 2005-08-18 |
US7797157B2 (en) | 2010-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4682154B2 (ja) | 自動音声認識チャンネルの正規化 | |
US9666183B2 (en) | Deep neural net based filter prediction for audio event classification and extraction | |
Ma et al. | Efficient voice activity detection algorithm using long-term spectral flatness measure | |
JP4943335B2 (ja) | 話者に依存しない堅牢な音声認識システム | |
US7359856B2 (en) | Speech detection system in an audio signal in noisy surrounding | |
US8655656B2 (en) | Method and system for assessing intelligibility of speech represented by a speech signal | |
US8666737B2 (en) | Noise power estimation system, noise power estimating method, speech recognition system and speech recognizing method | |
JP3105465B2 (ja) | 音声区間検出方法 | |
JP6748304B2 (ja) | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム | |
Lee et al. | Dynamic noise embedding: Noise aware training and adaptation for speech enhancement | |
US8423360B2 (en) | Speech recognition apparatus, method and computer program product | |
Jaiswal et al. | Implicit wiener filtering for speech enhancement in non-stationary noise | |
Löllmann et al. | Comparative study of single-channel algorithms for blind reverberation time estimation | |
KR100784456B1 (ko) | Gmm을 이용한 음질향상 시스템 | |
US9875755B2 (en) | Voice enhancement device and voice enhancement method | |
Rehr et al. | Cepstral noise subtraction for robust automatic speech recognition | |
Kasap et al. | A unified approach to speech enhancement and voice activity detection | |
EP1635331A1 (en) | Method for estimating a signal to noise ratio | |
Martin et al. | Robust speech/non-speech detection based on LDA-derived parameter and voicing parameter for speech recognition in noisy environments | |
Hirsch et al. | A new HMM adaptation approach for the case of a hands-free speech input in reverberant rooms | |
KR19990054490A (ko) | 신호대 잡음비의 정규화에 의한 특징벡터 추출방법 | |
KR20200038292A (ko) | 음성 스피치 및 피치 추정의 낮은 복잡성 검출 | |
Subramanya et al. | Speech Modelingwith Magnitude-Normalized Complex Spectra and Its Application to Multisensory Speech Enhancement | |
Sehr et al. | Adapting HMMs of distant-talking ASR systems using feature-domain reverberation models | |
Pujol et al. | Speech recognition experiments with the SPEECON database using several robust front-ends. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110125 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110207 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140210 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |