TWI356399B

TWI356399B - Speech recognition system and method with cepstral

Info

Publication number: TWI356399B
Application number: TW096148135A
Authority: TW
Inventors: Shih Ming Huang
Original assignee: Ind Tech Res Inst
Priority date: 2007-12-14
Filing date: 2007-12-14
Publication date: 2012-01-11
Also published as: JP5339426B2; US20090157400A1; JP2009145895A; US8150690B2; TW200926141A

Description

1356399 « 九、發明說明：【發明所屬之技術領域】本發明係關於一種語音辨識系統及方法，詳言之，係關於一種具倒頻譜雜訊消去之語音辨識系統及方法。【先前技術】語音是人類最直接的溝通方式，而且我們每天使用的電腦也有語音辨識的功能。像是Microsoft的Windows XP作業系統有語音辨識的功能，到最新版的Windows Vista作業系統也持續有語音辨識的功能。而且另一家公司Apple的最新作業系統Mac OSX也有提供語音辨識功能。無論是使用麥克風在有安裝Microsoft Windows XP/Vista 或Apple Mac OS X的電腦上進行語音辨識的功能，或打電話使用Google和Microsoft提供的服務，語音都會經過電子設備的處理，像是麥克風或是電話，這些處理對語音訊號就是一種干擾，而且還有其他背景雜訊也會在使用者說話時同時干擾語音，如空調的聲音、人走路的聲音，這些雜訊干擾都會讓語音辨識率嚴重降低。所以，一種好的抗噪語音辨識技術是現今語音辨識技術中最重要且最熱門的需求之一。習知用於語音辨識之倒頻譜平均值消去法（CMS)(參考先前技術論文[1] S. Furui, "Cepstral analysis technique for automatic speaker verification," IEEE Transaction on Acoustics, Speech and Signal Processing, 29, pp. 254-272, 1981.)已經是一種廣泛使用的特徵參數處理法，且可增 125794.doc 1356399 加語音辨識的部分抗噪能力。美國專利第6,804,643 #旃亡法，如圖I所示，參考步驟參=處理方的第一倒頻譜均值向量异至别—音框為止值，亦即使用現考步驟si2’然後接收—取樣 S13,將現在立忙的：^的倒頻譜特徵向量。參考步驟將見在θ框的倒頻譜特徵向量直接加向置，該預估均值向量預估均值譜均值向量。參考步驟Sl4整因子乘上前一音框的倒頻譜特徵參數向量則可計算得一新預估的倒頻作==知特徵參數處理法，皆是直接無條件的 =1特徵向量的加減運算，並未增加語音辨識的抗噪统因:解:：?提供一種具倒頻譜雜訊消去之語音辨識系統，以解決上述問題。【發明内容】括本種具倒頻譜雜訊消去之語音辨識系統，包倒頻譜轉換器、一模=器:倒頻譜雜訊消去裝置、- 庫能量抽取器用以依音辨識器。該遽波器據一§"訊旎’取得複數個第一特徵參數向里。該倒頻譜雜訊消去裂置用以取得—設定音框之第-特徵參數向量及該設定音框之前複數個音框之第一特徵參：向：：以計算一特徵參數均值向量，並依據設定音框之第寺徵參數向量、該特徵參數均值向量、一第一純量係數及一第二純量係數，計算-設定音框之第二特徵參 125794.doc 6 ·

數向量。該倒頻譜轉換器用以將該設定音框之第二特徵參數向量轉換至倒頻譜特徵參數向量。該模型訓練器用以依據該倒頻譜特徵參數向量，計算得模型參數。該語音辨識器用以依據該倒頻譜特徵參數向量及該模型參數，^得經辨識之語音訊號。 D 本發明提供-種具倒頻譜雜訊消去之語音辨識方法，包括以下步驟：依據-語音訊號，取得複數個第一特徵失數向量；取得m框之第-特徵參數向量及該設定音框之則複數個音框之第-特徵參數向量，以計算—特徵參數均值向ϊ;依據設定音框之第—特徵參數向量、該特徵參數均值向量、一第一純量係數及一第二純量係數，計算一設定音框之第二特徵參數向量；將該設定音框之第二特徵參數向量轉換至倒頻譜特徵參數向量；依據該倒頻譜特徵，數向量’ It算得模型參數；及依據該倒頻譜特徵參數向 Ϊ及該模型參數，計算得經辨識之語音訊號。利用本發統及法，有條件地拘束㈣譜特徵參數向量之處理’避免過度增強或過度消去，以完成適當的倒頻譜特㈣量運算’並達到提高語音辨識的抗噪能力。另外’本發音辨識系統及方法係為能在任何環境下使用的抗噪系統及方法，並且上下整合容易，及低複雜度，以提供使用者更可靠且更穩定的語音辨識結果。【實施方式】參考圖2’其顯示本發明具倒頻譜雜訊消去之語音辨識系統之方塊示意圖。本發明具倒頻譜雜m之語音辨識 125794.doc 1356399 系統20包括：一渡波器庫能量抽取㈣、一倒頻譜雜訊消裝置22、一倒頻譜轉換器23、一模型訓練器25及一語音辨識器27。該濾波器庫能量抽取器。用以依據一語音訊號，取得複數個第-特徵參數向量。在本實施例中，該遽波器庫能量抽取器21為對數梅爾渡波器庫能量抽取器，利 =該對數梅®滤波器庫能量抽取器，該等第—特徵參數向里為對數梅爾濾波器庫能量特徵參數向量。該倒頻譜雜訊消去裝置22用以取得一設定音框之第一特徵參數向量及該設定音框之前複數個音框之第一特徵參數向量’以計算-特徵參數均值向量，並依據設定音框之第一特徵參數向量、該特徵參數均值向量、—第—純量係數及一第二純量隸，計算-設定音框之第二特徵參量。徵參數均值向量計算裝置41、一第—乘法器42 法器43、-第二乘法器44、—比較器似―多工器46。該特徵參數均值向量計算梦署 T异裝置41用以取得該設定音框之第一特徵參數向量及該設定音框 1 曰汇之則複數個音框之第一特徵參數向量，以計算該特徵參數均值向量。在本實施例令，該設定音框义心3框之别複數個音框之個數為2 至一句子之總音框數之間，这句子之總音框數設為Ν，故該特徵參數均值向量計算奘 τ异裒置41用以取得前Ν個語音音框之第一特徵參數向量，並朴曾分奸冲算該特徵參數均值向量。如下參考圖4，其顯示本發明之該倒頻譜雜訊消去裝置之方塊示意圖。本發明之該倒頻譜雜訊消去裝置22包括：-特第一加 125794.doc -8 . 式（l)所示： — 1 〜W...〜一 ⑴ 其中’不為該設定音框之第_特徵參數向量為該設定音樞之前複數個音框之第—特徵參數向量，： "。曰音框數，j為該特徵參數均值向量。

參考圖6,錢示本發明之特徵參數均值向量計算裝置之方塊示意圖。本發明之該特徵參數均值向量計算裝置41 包括：複數個延遲器411、412、415…第二加法器化及一第三乘法器417 °每—個延遲器用以延遲-單位時間，以取得該設定音框之前複數個音框之第—特徵參數向量。第二加法器416用以加總該等第一特徵參數向量以叶算得第一特徵參數向量加總結果(W····^八叫。該第三乘法器417用以將該第一特徵參數向量加總結果 (心㈣+·.· +心)乘以該等音框個數之倒數⑴Μ，以計其該特徵參數均值向量尤。

參考圖5 ’其顯示本發明之特徵參數均值向量計算流程示意圖。首先參考步驟S52,令一參數㈣等於零向量。 2步驟S53’再令—參數P等於零’其中P表示前第P個語曰曰框。參考步驟S54，係加總該等設定音框之第一特徵參數向I ’以計算得第一特徵參數向量加總結果。參考步驟S55及S56,係判斷是否前“個語音音框已達到，若未達到則再累加p。累加p之步驟即上述利用延遲器用以延遲單位時間，以取得該設定音框之前複數個音框之第一特徵參數向量。參考步驟S57，若p已經累加至n i，則將 125794.doc 1356.399 第一特徵參數向量加總結果（Temp)乘以該等音框個數之倒數（1/Λ0 參考步驟S58，以計算得該特徵參數均值向量在上述實施例中，係以算數平均數計算得該特徵參數均值向量。然而，本發明之該特徵參數均值向量計算裝置及方法可利用幾何平均、中位數、眾數或範數等均值計算方法計算該特徵參數均值向量。

再參考圖4，利用該特徵參數均值向量計算裝置Μ計算該特徵參數均值向量後。該第—乘法器烟以將該特徵參數均值向量（J)乘以該第一純量係數之負數（α)，計算得一第一乘法結果（-aj)。第一加法器43用以將該設定音框之第一特徵參數向量（不)加該第一乘法結果（_aJ?)，計算得一加法結果。第二乘法器则以將該設定音框之第一特徵參數向量（不）乘以該第二純量係數（β)，計算得—第二乘法結果（β不卜該比較器45用以比較該加法結果 (不·“)是否大於該第二乘法結果(队)，並輸出_控：訊號至該多工器46。該多工器46依據該控制訊號，切換控制該設定音框之第二特徵參數向量（尤）為該加法結果（不二幻或該第二乘法結果（β^)。因此，本發明之系統及方法係利用該倒頻譜雜訊消去裝置22計算特徵參數均值向量後，將設定音框的特徵參數^ 里與特徵參數均值向量作有條件拘束的運算，如下 ° 述： 125794.doc 10 - (2) 1356399 “无 if Xt>m β.χ 1 ^-β 〜 otherwise 中加法結果（χ<_α义）大於該第二乘法結果（队) 該°又弋音框之第二特徵參數向量（之）為該加法結果 ;該加法結果⑷_aJ)小於該第二乘法結果（陶時，該設定音框之第二特徵參數向量（尤）為該第二乘法結果（^)。另外，該第一純量係數（°〇係介於0.01至0.99之間’該第二純量係數（β)係介於0.G1至G.99之間。立 > 考圖3，其顯示本發明倒頻譜雜訊消去方法之流程示思圖首先參考步驟S3卜令一參數η等於1 ,其中η表示第 :固5吾音音框’在本實施例+，假設輸入語音共有L個音王。參寺步驟S32,計算特徵參數均值向量，該步驟可參立ϋ®从，之說明’在此不再敛述。故在取得該設定 = (η)之第—特徵參數向量及該設^音框之前複數個音框一特徵參數向量’可計算得該特徵參數均值向量將該特徵參數均值向量⑺乘以該第一純量係數之負數一《)’叶异得—第—乘法結果（叫。再將該設定音框之第數向Μ""加該第—乘法結果⑽，計算得一加乘以㈣’外再將該設定音框之第一特徵參數向量⑹ ^第—純量係數⑻’計算得__第二乘法結果（㈣。 t步驟S33，判斷條件八是否成立，該條件轉為上述二法έ士之條件亦即該加法結果（々aJ)是否大於該第二、、。，购。參考步驟S34，當該加法結果（不a取於第二乘法結果（陶時，則進行第-運算，該第-運算係 125794.doc / 二:二曰框之第二特徵參數向量(名)為該加法結果乘法結果^考㈣奶’當該加法結果(不_〇^)小於該第二定立框之/)時則進行第二運算，該第二運算係使該設二第-特徵參數向量⑷為該第二乘法結參考步驟S36，經由上铑.番时〜第二特徵參數向量(名)。h ’可汁异得該設定音框之參考步驟S37及S38，因在本實施例中，假設輸入語音丘有L個音框，故需計算w，故判斷是否該設定音框⑷已達到L ’力未達到L則再累加n。f考步驟㈣可計算得所有α框之第一特徵參數向量（名）。再參考圖2’該倒頻譜轉換器23用以將該設定音框之第二特徵參數向量轉換至倒頻譜特徵參數向量。在本實施例令’該倒頻譜轉換器23為離散餘弦轉換器，該倒頻譜特徵參數向量為㈣倒頻譜特徵參數向量。該模型訓練器㈣以依據該倒頻譜特徵參數向量，計算得模型參數。該語音辨，器27用以依據該倒頻譜特徵參數向量及該模型參數，計算得經辨識之語音訊號。本發明具倒頻譜雜訊消去之語音辨識系統2 〇另包括一差分運算器24,用以計算倒頻譜特徵參數向量之一階差分、階差分及二階差分、或一階差分至高階差分。參考圖 2，語音經濾波器庫能量抽取器21、倒頻譜雜訊消去裝置 22、倒頻譜轉換器23、差分運算器24及語音辨識器27，以計算得經辨識之語音訊號，在虛線之右半邊，稱為辨識階攸。在虛線之左半邊，經由模型訓練器25及一語音模型參 125794.doc 12 - 1356399 數資料庫26，稱為訓練階段。該差分運算器24可設置於辨識階段或訓練階段，作差分運算。本發明之系統及方法以國際標準的Aurora-2語音資料庫環境做為實驗以評估抗嗓能力，實驗所使用的語音資料庫 Aurora-2 是由歐洲電信標準協會（European Telecommunications Standards Institute, ESTI)所發行，其本身為一套含有雜訊的連續英文數字語料，其中雜訊包含八種來源不同的加成性噪音和二種不同特性的通道效應。語料庫中的.加成性噪音包括機場（Airport)、人聲（Babble)、汽車（Car)、展覽會館（Exhibition)、餐廳（Restaurant)、地下鐵（Subway)、街道 (Street)及火車站（Train Station)，且依照不同訊噪比 (Signal-to-Noise Ratio, SNR)各自加入乾淨的語音中，訊嗓比包括 20 dB、15 dB、10 dB、5 dB、0 dB和-5 dB ;通道效應包含由國際電信聯合會（International Telecommunication Union, ITU)所訂立的二個標準-G.712 和MIRS。根據測試語料中加入之通道雜訊以及加成性雜訊之種類不同，Aurora-2分為三組測試群組Set A、 Set B 和 Set C，Set A 所呈現的雜訊是屬於穩定性 (Stationary)雜訊，Set B 貝ij 是非穩定性（Nonstationary)雜訊，Set C除了穩定性與非穩定性雜訊外，還使用與訓練語料不同的通道效應-G.712和MIRS。其中各種雜訊下的平均辨識率是計算20 dB〜0 dB的平均值》語音辨識實驗則搭配HTK (Hidden Markov Model Toolkit)開發工具，HTK是由劍橋大學電機系所發展出來 < S ) 125794.doc 1356399 的隱藏式馬可夫模型（HMM)開發工具，藉由HTK可以方便且快速地發展出一套以ΗΜΜ為架構的語音辨識系統。在聲學模型（Acoustic Models)的設定如下：每一個數字模型（1〜9及zero和oh)皆由一個由左到右（left-to-right)形式的連續密度隱藏式馬可夫模型（Continuous Density Hidden Markov Model, CDHMM)來表示模型，其中包含16個狀態 (State)，並且每一個狀態是利用3個高斯混合分佈 (Gaussian Mixture Distribution)來表示。另外靜音模型的部份有二種模型，一個為靜音（Silence)模型，包含三個狀態，用來表示語句開始跟結束時的靜音；另一個為間歇 (Pause)模型，包含六個狀態，表示語句内字與字之間的短暫停止，上述所有聲學模型的訓練與本文所有的實驗都是使用Aurora-2語音資料庫環境搭配HTK工具套件來完成。特徵參數抽取器方面（Feature Extractor)，本發明之系統及方法評估實驗是採用梅爾倒頻譜係數（Mel-Frequency Cepstral Coefficients, MFCCs)作為語音特徵參數向量。本發明之系統及方法在對數梅爾濾波器庫能量（log Mel Filterbank Energy)上做運算，不包括對數能量（Log Energy)，其中對數梅爾濾波器庫能量和梅爾倒頻譜係數是線性轉換的關係，所以是等效關係。取樣音框長度 (Frame Length)為 25 毫秒，音框間距（Frame Shift)為 10 毫秒，每個音框的資訊是以39維表示，其中包含12維的梅爾倒頻譜係數以及一維的對數能量（Log Energy)，同時會對 13維特徵參數取其相對的一階差分係數（Delta Coefficient) 125794.doc 階差分係數（Acceleration Coefficient)。辨識結果如表1顯示，本發明之系統及方法和倒頻譜平均值消去法（CMS)與前案美國專利（US 6,804,643 B1)兩個比’字正確（Word accuracies)率有明顯的改善，其中粗體字表示字正確率最高者。在Set a、Set b、和Set c 的整體表現上’本發明之系統及方法可有效提高抗噪語音辨識率，也證明本發明之系統及方法的可靠性以及有效性。矛J用本發明之系統及方法，有條件地拘束倒頻譜特徵參數向量之處理，避免過度增強或過度消去，以完成適當的倒頻谱特徵向量運算，並達到提高語音辨識的抗噪能力。另外’本發明之語音辨識系統及方法係為能在任何環境下使用的抗噪系統及方法，並且上下整合容易，及低複雜度’以提供使用者更可靠且更穩定的語音辨識結果。惟上述實施例僅為說明本發明之原理及其功效，而非用以限制本發明。因此，習於此技術之人士對上述實施例進行修改及變化仍不脫本發明之精神。本發明之權利範圍應如後述之申請專利範圍所列。表二，比較MFCC及三種補償方法在Aurora-2上的字辨識率

Subway Babble Car Exhibition Average Restaurant Street Airport Train-etatid Average Subway(M Street(MIR Average Clean 98.93 99 «.96 992 99.0225 98.93 99 98.96 992 99.0225 99.14 98.97 99.055 20 dB 97.05 90.15 97.41 9639 9525 89.99 95.74 90.64 94.72 92.7725 93.46 95.13 94295 15 dB 93.49 73.76 90.04 92.04 873325 7624 88.45 77.01 83.65 81J375 86.77 88.91 8754 10 dB 78.72 49.43 67.01 75^6 67.705 54.77 67.11 53.86 6029 59.0075 [73.9 74.43 74.165 5dB 52.16 34.09 4453 39.4725 31.01 38.45 3033 27.92 31.9275 5127 4921 5024 OdB 26.01 928 14.46 18.05 16.95 10.96 1754 14.41 ili7 13.695 25.42 22.91 24.165 -5dB 11.18 1*57 939 9.6 7.935 3.47 10.46 823 8.45 7.6525 1152 11.15 11.485 Average 69.486 49撇 60J602 65394 61342 52J94 61518 5325 55^3 55.748 66.164 66.118 66.141 15 125794.doc 1356399

⑻ MFCC

Subway Babble Cai Exhibition Average Restaurant Street Airport Tiain-stati< Average Subffay(M|stieet(MIR Average Clean 98.93 99.09 99.02 99.04 99.02 98.93 99.09 99.02 99.04 99^ 99.08 ： 99.06 99.07 20dB 犠 94.11 96.72 94.48 95245 92.91 95^5 94^3 96.14 945325 95521 96.1 95*81 15 dB 8932 81.41 89i6 85^4 865325 80i6 8839 8536 872 853775 89.13 903 89.715 10 dB 68.96 57.07 67.94 64.05 64505 6122 66.17 6633 6621 64.9825 7132 73.13 72225 5dB 38i? 28.48 34.95 31.04 332575 35^8 3833 11S1 34.46 36.4975 38.47 44.95 41.71 OdB 16.79 10.7 14.08 9^3 12.775 13.42 16^1 1822 14.13 15*645 15.08 1856 16.97 -5dB 1139 4.78 8.92 737 8.115 5·65 1031 7.99 8J3 8.07 1154 1122 1138 Avaaae 61说 54354 60^5 56.988 58.463 56.758 61.07 60.412 59*628 59.467 61.904 64朋 63286

(b) CMS

Subway Babble Cai Exhibition Average Restauiant Street Airport Train-staticAverage Subffay(M Street(MIR Average Clean 97.73 9734 97.7 98.49 97515 97.73 9734 97.7 98.49 97別5 97.05 97.1 97.075 20 dB 92.4i 9353 90.96 923975 91.74 9226 91.83 9352 923375 8634 8951 87.925 15 dB 83.79 80.99 84^2 80.41 825025 80.78 83^2 81.15 8232 81.9675 7528 79.9 7759 10 dB 66.99 60.4 mi 62.02 63.07 6039 6339 6039 60.04 61.0525 57.94 63.45 60.695 5dB 42.77 31.47 32.03 35.98 355625 34.45 37.7 33.1 30^2 34.0175 35.62 41.17 38295 OdB 22.04 1424 122 15.06 15.885 1432 16^7 18.88 12.03 15*575 19.1 1926 19.18 -5dB 13.94 9.46 9.07 9.07 10385 7.95 10.43 10.77 8.05 93 13.94 10^2 1223 Average 61^56 55.902 57.09 56.886 ⑽35 56276 58.768 57.07 55.746 56.99 54^56 58^58 56.7 刃

(c)前案(US6,804,643B1)

Subway Babble Cai Exhibition Average Restaurant Street Airport Tiain-static Average Subway(M Stieel(MIR Average Clean 98.74 99 9857 99.11 98.93 98.74 99 98.87 99.11 98.93 98,89 99.03 98.96 20 dB 96^7 9522 972 95.19 96.12 94.47 96.7 96.15 96.7 96.005 96.1 %S1 96385 15 dB 9321 84.98 93.il 90.19 903725 84,89 90.99 89^3 8951 88,805 9226 93.17 92.715 10 dB 77.74 62.03 73M 71^ 713025 64M 7234 70.18 71.18 69*56 79.46 80.47 79.965 5dB 46.91 31j62 37.16 38^6 38*5875 im 41j66 39.9 37.15 39.15 5229 51.03 51j66 OdB 20.97 13.03 1229 13.48 14.9425 16.12 172 18.76 11.94 16.005 2152 21说 21^8 -5dB 1127 632 8.92 8.42 8.7325 7.03 10^1 9.13 725 ^505 1225 1(X52 11385 Average 67.14 57376 62^8 61^64 62265 59582 63.778 62.964 61296 61.905 68326 68J96 68.461 (d)本案【圖式簡單說明】圖1顯示習知倒頻譜特徵參數處理方法之流程示意圖；圖2顯示本發明具倒頻譜雜訊消去之語音辨識系統之方塊不意圖，圖3顯示本發明倒頻譜雜訊消去方法之流程示意圖；圖4顯示本發明該倒頻譜雜訊消去裝置之方塊示意圖；圖5顯示本發明特徵參數均值向量計算流程示意圖；及圖6顯示本發明之特徵參數均值向量計算裝置之方塊示 125794.doc 16 - < S ) 1356.399 意圖。【主要元件符號說明】

20 本發明之語音辨識系統 21 濾波器庫能量抽取器 22 倒頻譜雜訊消去裝置 23 倒頻譜轉換器 24 差分運算器 25 模型訓練器 26 語音模型參數資料庫 27 語音辨識器 41 特徵參數均值向量計算裝置 42 第一乘法器 43 第一加法器 44 第二乘法器 45 比較器 46 多工器 411、412、415 延遲器 416 第二加法器 417 第三乘法器 125794.doc

Claims

1356.399 第096148135號專利申請案中文申請專利範圍替換本(1〇〇年8月）十、申請專利範圍：一種具倒頻譜雜訊消去之扭音 < °。a辨識系統，包括：一慮波器庫能量抽取器，用态用u依據一語音訊號，取複數個第一特徵參數向量，盆 /、中该等第一特徵參數向I 為對數梅爾渡波器庫能量特徵參數向量；一倒頻譜雜訊消去裝置，用 1用以取得一設定音框之第一特徵參數向量及該設定音裤疋曰框之前複數個音框之第—特徵參數向量，以計算—特徵參數均值向量，並依據該設定音框之第一特徵參數向量、該特徵參數均值向量、一第 -純量係數及一第二純量係數，計算一設定音框之第二特徵參數向量，其中兮笛七曰丹甲。亥第純£係數係介於0.01至〇 99 之間，該第二純量係數係介於0.01至〇·99之間； -倒頻譜轉換器’用以將該設定音框之第二特徵參數向量轉換至倒頻譜特徵參數向量；模型訓練器，用以依據該倒頻譜特徵參數向量，計算得模型參數；及一 5吾音辨識器，用以依據該倒頻譜特徵參數向量及該模型參數’計算得蟑辨識之語音訊號。 2.如請求項1之語音辨識系統，其令該倒頻譜雜訊消去裝置包括：一特徵參數均值向量計算裝置，用以取得該設定音框之第一特徵參數向量及該設定音框之前複數個音框之第一特徵參數向量，以計算該特徵參數均值向量；一第一乘法器，用以將該特徵參數均值向量乘以該第 125794-1000819 1356399 第096148135號專利申請案中文申請專利範圍替換本(1〇〇年8月） • 一純量係數之負數，計算得一第一乘法結果；一第一加法器，用以將該設定音框之第一特徵參數向量加該第一乘法結果，計算得一加法結果，其中該加法結果大於該第二乘法結果時，該設定音框之第二特徵參 • 數向量為該加法結果；該加法結果小於該第二乘法結果時，該設定音框之第二特徵參數向量為該第二乘法結果；一第二乘法器’用以將該設定音框之第一特徵參數向量乘以該第二純量係數，計算得一第二乘法結果；一比較器’用以比較該加法結果是否大於該第二乘法結果，並輸出一控制訊號；及一多工器，依據該控制訊號，切換控制該設定音框之第二特徵參數向量為該加法結果或該第二乘法結果。 3 ·如請求項2之語音辨識系統’其中該特徵參數均值向量計算裝置包括：複數個延遲器，每一個延遲器用以延遲一單位時間，以取得該設定音框之前複數個音框之第一特徵參數向量；一第二加法器，用以加總該等第一特徵參數向量，以計算得第一特徵參數向量加總結果；及一第三乘法器’用以將該第一特徵參數向量加總結果乘以該等音框個數之倒數，以計算該特徵參數均值向量 ° 4，如請求項2之語音辨識系統，其中該特徵參數均值向量 125794-1000819 1356399 .· 第096148135號專利申令文旁請專利範園替換本(ϊ〇〇年S月） • 計算裝置係利用幾何平均、中 - 舛笪方km 眾數或範數等均值 ° 法计异該特徵參數均值向量。 5.如請求们之語音辨識系統，其令該設定立框之… 個音框之個數；％2复疋《框之則複數 ▲ 歎為2至一句子之總音框數之間。 6·如請求们之語音辨識系統，另包以計算倒頻譜特徵參數向量之刀運“，用階差分、或一階差八分、—階差分及二凡1皆差分至尚階差分。月长項1之5吾音辨識系統，其中該器為對數梅爾遽波器庫能量抽取器。“庫月匕量抽取 8.如凊求項7之語音辨識系統，其散餘弦轉換器。、^倒頻譜轉換器為離 9_ -種具倒頻譜雜訊消去驟：辦識方法’包括以下步依據-語音訊號，取得複數個第—特徵中該等第一特徵參數 ' 向里，其參數向量；里為對數梅爾遽波器庫能量特徵取仔-设疋音框之第一特徵參數前複數個音框《第1徵疋音桓之均值向量；肖徵參數向量’以計算—特徵參數依據該設定音框之第一牲 ,, 特徵參數向量、該特徵參數均值向里、一弟一純量係數及—第二纯量係數：定音框之第二特徵參數向量，汁异一权於〇_(U至"9之間，呼第1 玄第一純量係數係介間；这第-純量係數係介於〇.〇1至〇.99之 125794-1000819 1356.399 . 第096148135號專利申請案中文申請專利範圍替換本(1〇〇年8月）量轉換至倒頻譜特徵 • 將該設定音框之第二特徵參數向參數向量；依據該倒頻譜特徵參數向量，計算得模型參數；及依據該倒頻譜特徵參數向量及該模型參數，計算得經辨識之語音訊號。 10.如請求項9之語音辨識方法，^ ^ ^ ^ ^ ^ 丹&t异邊設定音框之第二特徵參數向量之步驟中，另4 y ^ r 另包括以下步驟：取付s亥设定音框之第一驻外4 • 之第特徵參數向量及該設定音框之前複數個音框之第一特徵春I 行儍翏數向1，以計算該特徵參數均值向量； I 純量係數之負數將該特徵參數均值向量乘以該第計算得一第一乘法結果；將该设定音框之笛^^ ΑΙ,Λ A ^ 果，… 第肖徵參數向量加該第-乘法結十具仔一加法結果’其中該加法結果大於該第二乘 :結果時，該設定音框之第二特徵參數向量為該加法处該加法結果小於該第二乘法結果時，該設定音框: 第一特徵參數向量為該第=乘法結果；二純量係並輸出— 將該設定音框之第一特徵參數向量乘以該第數，計算得一第二乘法結果；比較該加法結果是否大於該第二乘法結果，控制訊號；及之苐一特徵參特徵參數均值 11. 依據該控制訊號，切換控制該設定音框數向量為該加法結果或該第二乘法結果。如請求項9之語音辨識方法，其中計算該 125794-1000819 1356399 ；第096148135號專利申請案中文申請專利範圍替換本(100年8月） . 向量之步驟’另包括以下步驟：利用複數個延遲器，每一個延遲器用以延遲—單位時間，以取得該設定音框之前複數個音框之第一特徵參數向量；加總該等第一特徵參數向量，以計算得第一特徵參數向量加總結果；及將5玄第-特徵參數向量加總結果乘以該等音框個數之倒數，以計算該特徵參數均值向量。 12·如請求項9之語音辨識方法，m系利用幾何平均、中 =、眾數或範數等均值計算方法計算該特徵參數均值 13. :請求項9之語音辨識方法，另包括一差分運算步驟用以计算倒頻譜特徵參數向量之—階差分、— 一階差分、或-階差分至高階差分。 0刀及其中該倒頻譜特徵參數向 14.如請求項9之語音辨識方法，量為梅爾倒頻譜特徵參數向量 125794-1000819