TWI356399B - Speech recognition system and method with cepstral - Google Patents

Speech recognition system and method with cepstral Download PDF

Info

Publication number
TWI356399B
TWI356399B TW096148135A TW96148135A TWI356399B TW I356399 B TWI356399 B TW I356399B TW 096148135 A TW096148135 A TW 096148135A TW 96148135 A TW96148135 A TW 96148135A TW I356399 B TWI356399 B TW I356399B
Authority
TW
Taiwan
Prior art keywords
vector
feature parameter
feature
parameter vector
sound box
Prior art date
Application number
TW096148135A
Other languages
English (en)
Other versions
TW200926141A (en
Inventor
Shih Ming Huang
Original Assignee
Ind Tech Res Inst
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ind Tech Res Inst filed Critical Ind Tech Res Inst
Priority to TW096148135A priority Critical patent/TWI356399B/zh
Priority to US12/243,303 priority patent/US8150690B2/en
Priority to JP2008317530A priority patent/JP5339426B2/ja
Publication of TW200926141A publication Critical patent/TW200926141A/zh
Application granted granted Critical
Publication of TWI356399B publication Critical patent/TWI356399B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Machine Translation (AREA)

Description

1356399 « 九、發明說明: 【發明所屬之技術領域】 本發明係關於一種語音辨識系統及方法,詳言之,係關 於一種具倒頻譜雜訊消去之語音辨識系統及方法。 【先前技術】 語音是人類最直接的溝通方式,而且我們每天使用的電 腦也有語音辨識的功能。像是Microsoft的Windows XP作 業系統有語音辨識的功能,到最新版的Windows Vista作業 系統也持續有語音辨識的功能。而且另一家公司Apple的 最新作業系統Mac OSX也有提供語音辨識功能。 無論是使用麥克風在有安裝Microsoft Windows XP/Vista 或Apple Mac OS X的電腦上進行語音辨識的功能,或打電 話使用Google和Microsoft提供的服務,語音都會經過電子 設備的處理,像是麥克風或是電話,這些處理對語音訊號 就是一種干擾,而且還有其他背景雜訊也會在使用者說話 時同時干擾語音,如空調的聲音、人走路的聲音,這些雜 訊干擾都會讓語音辨識率嚴重降低。所以,一種好的抗噪 語音辨識技術是現今語音辨識技術中最重要且最熱門的需 求之一。 習知用於語音辨識之倒頻譜平均值消去法(CMS)(參考 先前技術論文[1] S. Furui, "Cepstral analysis technique for automatic speaker verification," IEEE Transaction on Acoustics, Speech and Signal Processing, 29, pp. 254-272, 1981.)已經是一種廣泛使用的特徵參數處理法,且可增 125794.doc 1356399 加語音辨識的部分抗噪能力。 美國專利第6,804,643 #旃亡 法,如圖I所示,參考步驟參=處理方 的第一倒頻譜均值向量异至别—音框為止 值,亦即使用現考步驟si2’然後接收—取樣 S13,將現在立忙的:^的倒頻譜特徵向量。參考步驟 將見在θ框的倒頻譜特徵向量直接加 向置,該預估均值向量 預估均值 譜均值向量。參考步驟Sl4整因子乘上前一音框的倒頻 譜特徵參數向量 則可計算得一新預估的倒頻 作==知特徵參數處理法,皆是直接無條件的 =1特徵向量的加減運算,並未增加語音辨識的抗噪 统因:解::?提供一種具倒頻譜雜訊消去之語音辨識系 統,以解決上述問題。 【發明内容】 括本種具倒頻譜雜訊消去之語音辨識系統,包 倒頻譜轉換器、一模=器:倒頻譜雜訊消去裝置、- 庫能量抽取器用以依音辨識器。該遽波器 據一§"訊旎’取得複數個第一特徵 參數向里。該倒頻譜雜訊消去裂置用以取得—設定音框之 第-特徵參數向量及該設定音框之前複數個音框之第一特 徵參:向::以計算一特徵參數均值向量,並依據設定音 框之第寺徵參數向量、該特徵參數均值向量、一第一純 量係數及一第二純量係數,計算-設定音框之第二特徵參 125794.doc 6 ·
數向量。該倒頻譜轉換器用以將該設定音框之第二特徵參 數向量轉換至倒頻譜特徵參數向量。該模型訓練器用以依 據該倒頻譜特徵參數向量,計算得模型參數。該語音辨識 器用以依據該倒頻譜特徵參數向量及該模型參數,^得 經辨識之語音訊號。 D 本發明提供-種具倒頻譜雜訊消去之語音辨識方法,包 括以下步驟:依據-語音訊號,取得複數個第一特徵失數 向量;取得m框之第-特徵參數向量及該設定音框 之則複數個音框之第-特徵參數向量,以計算—特徵參數 均值向ϊ;依據設定音框之第—特徵參數向量、該特徵參 數均值向量、一第一純量係數及一第二純量係數,計算一 設定音框之第二特徵參數向量;將該設定音框之第二特徵 參數向量轉換至倒頻譜特徵參數向量;依據該倒頻譜特徵 ,數向量’ It算得模型參數;及依據該倒頻譜特徵參數向 Ϊ及該模型參數,計算得經辨識之語音訊號。 利用本發統及法,有條件地拘束㈣譜特徵參 數向量之處理’避免過度增強或過度消去,以完成適當的 倒頻譜特㈣量運算’並達到提高語音辨識的抗噪能力。 另外’本發音辨識系統及方法係為能在任何環境下 使用的抗噪系統及方法,並且上下整合容易,及低複雜 度,以提供使用者更可靠且更穩定的語音辨識結果。 【實施方式】 參考圖2’其顯示本發明具倒頻譜雜訊消去之語音辨識 系統之方塊示意圖。本發明具倒頻譜雜m之語音辨識 125794.doc 1356399 系統20包括:一渡波器庫能量抽取㈣、一倒頻譜雜訊消 裝置22、一倒頻譜轉換器23、一模型訓練器25及一語音 辨識器27。該濾波器庫能量抽取器。用以依據一語音訊 號,取得複數個第-特徵參數向量。在本實施例中,該遽 波器庫能量抽取器21為對數梅爾渡波器庫能量抽取器,利 =該對數梅®滤波器庫能量抽取器,該等第—特徵參數向 里為對數梅爾濾波器庫能量特徵參數向量。 該倒頻譜雜訊消去裝置22用以取得一設定音框之第一特 徵參數向量及該設定音框之前複數個音框之第一特徵參數 向量’以計算-特徵參數均值向量,並依據設定音框之第 一特徵參數向量、該特徵參數均值向量、—第—純量係數 及一第二純量隸,計算-設定音框之第二特徵參 量。 徵參數均值向量計算裝置41、一第—乘法器42 法器43、-第二乘法器44、—比較器似―多工器46。該 特徵參數均值向量計算梦署 T异裝置41用以取得該設定音框之第一 特徵參數向量及該設定音框 1 曰汇之則複數個音框之第一特徵參 數向量,以計算該特徵參數均值向量。 在本實施例令,該設定音框义 心3框之别複數個音框之個數為2 至一句子之總音框數之間, 这句子之總音框數設為Ν,故 該特徵參數均值向量計算奘 τ异裒置41用以取得前Ν個語音音框 之第一特徵參數向量,並朴曾分奸 冲算該特徵參數均值向量。如下 參考圖4,其顯示本發明之該倒頻譜雜訊消去裝置之方 塊示意圖。本發明之該倒頻譜雜訊消去裝置22包括:-特 第一加 125794.doc -8 . 式(l)所示: — 1 〜W...〜一 ⑴ 其中’不為該設定音框之第_特徵參數向量 為該設定音樞之前複數個音框之第—特徵參數向量,: "。曰音框數,j為該特徵參數均值向量。
參考圖6,錢示本發明之特徵參數均值向量計算裝置 之方塊示意圖。本發明之該特徵參數均值向量計算裝置41 包括:複數個延遲器411、412、415…第二加法器化及 一第三乘法器417 °每—個延遲器用以延遲-單位時間, 以取得該設定音框之前複數個音框之第—特徵參數向量。 第二加法器416用以加總該等第一特徵參數向量以叶算 得第一特徵參數向量加總結果(W····^八叫。該第 三乘法器417用以將該第一特徵參數向量加總結果 (心㈣+·.· +心)乘以該等音框個數之倒數⑴Μ,以 計其該特徵參數均值向量尤。
參考圖5 ’其顯示本發明之特徵參數均值向量計算流程 示意圖。首先參考步驟S52,令一參數㈣等於零向量。 2步驟S53’再令—參數P等於零’其中P表示前第P個語 曰曰框。參考步驟S54,係加總該等設定音框之第一特徵 參數向I ’以計算得第一特徵參數向量加總結果。參考步 驟S55及S56,係判斷是否前“個語音音框已達到,若 未達到則再累加p。累加p之步驟即上述利用延遲器用以延 遲單位時間,以取得該設定音框之前複數個音框之第一 特徵參數向量。參考步驟S57,若p已經累加至n i,則將 125794.doc 1356.399 第一特徵參數向量加總結果(Temp)乘以該等音框個數之倒 數(1/Λ0 參考步驟S58,以計算得該特徵參數均值向量 在上述實施例中,係以算數平均數計算得該特徵參數均 值向量。然而,本發明之該特徵參數均值向量計算裝置及 方法可利用幾何平均、中位數、眾數或範數等均值計算方 法計算該特徵參數均值向量。
再參考圖4,利用該特徵參數均值向量計算裝置Μ計算 該特徵參數均值向量後。該第—乘法器烟以將該特徵參 數均值向量(J)乘以該第一純量係數之負數(α),計算得一 第一乘法結果(-aj)。第一加法器43用以將該設定音框之 第一特徵參數向量(不)加該第一乘法結果(_aJ?),計算得一 加法結果。第二乘法器则以將該設定音框之第 一特徵參數向量(不)乘以該第二純量係數(β),計算得—第 二乘法結果(β不卜該比較器45用以比較該加法結果 (不·“)是否大於該第二乘法結果(队),並輸出_控:訊 號至該多工器46。該多工器46依據該控制訊號,切換控制 該設定音框之第二特徵參數向量(尤)為該加法結果(不二幻 或該第二乘法結果(β^)。 因此,本發明之系統及方法係利用該倒頻譜雜訊消去裝 置22計算特徵參數均值向量後,將設定音框的特徵參數^ 里與特徵參數均值向量作有條件拘束的運算,如下 ° 述: 125794.doc 10 - (2) 1356399 “无 if Xt>m β.χ 1 ^-β 〜 otherwise 中加法結果(χ<_α义)大於該第二乘法結果(队) 該°又弋音框之第二特徵參數向量(之)為該加法結果 ;該加法結果⑷_aJ)小於該第二乘法結果(陶 時,該設定音框之第二特徵參數向量(尤)為該第二乘法結 果(^)。另外,該第一純量係數(°〇係介於0.01至0.99之 間’該第二純量係數(β)係介於0.G1至G.99之間。 立 > 考圖3,其顯示本發明倒頻譜雜訊消去方法之流程示 思圖首先參考步驟S3卜令一參數η等於1 ,其中η表示第 :固5吾音音框’在本實施例+,假設輸入語音共有L個音 王。參寺步驟S32,計算特徵參數均值向量,該步驟可參 立ϋ®从,之說明’在此不再敛述。故在取得該設定 = (η)之第—特徵參數向量及該設^音框之前複數個音框 一特徵參數向量’可計算得該特徵參數均值向量 將該特徵參數均值向量⑺乘以該第一純量係數之負數 一《)’叶异得—第—乘法結果(叫。再將該設定音框之第 數向Μ""加該第—乘法結果⑽,計算得一加 乘以㈣’外再將該設定音框之第一特徵參數向量⑹ ^第—純量係數⑻’計算得__第二乘法結果(㈣。 t步驟S33,判斷條件八是否成立,該條件轉為上述 二法έ士之條件亦即該加法結果(々aJ)是否大於該第二 、、。,购。參考步驟S34,當該加法結果(不a取於 第二乘法結果(陶時,則進行第-運算,該第-運算係 125794.doc / 二:二曰框之第二特徵參數向量(名)為該加法結果 乘法結果^考㈣奶’當該加法結果(不_〇^)小於該第二 定立框之/)時則進行第二運算,該第二運算係使該設 二第-特徵參數向量⑷為該第二乘法結 參考步驟S36,經由上铑.番时〜 第二特徵參數向量(名)。h ’可汁异得該設定音框之 參考步驟S37及S38,因在本實施例中,假設輸入語音丘 有L個音框,故需計算w,故判斷是否該設定音框⑷已 達到L ’力未達到L則再累加n。f考步驟㈣可計算得所 有α框之第一特徵參數向量(名)。 再參考圖2’該倒頻譜轉換器23用以將該設定音框之第 二特徵參數向量轉換至倒頻譜特徵參數向量。在本實施例 令’該倒頻譜轉換器23為離散餘弦轉換器,該倒頻譜特徵 參數向量為㈣倒頻譜特徵參數向量。該模型訓練器㈣ 以依據該倒頻譜特徵參數向量,計算得模型參數。該語音 辨,器27用以依據該倒頻譜特徵參數向量及該模型參數, 計算得經辨識之語音訊號。 本發明具倒頻譜雜訊消去之語音辨識系統2 〇另包括一差 分運算器24,用以計算倒頻譜特徵參數向量之一階差分、 階差分及二階差分、或一階差分至高階差分。參考圖 2,語音經濾波器庫能量抽取器21、倒頻譜雜訊消去裝置 22、倒頻譜轉換器23、差分運算器24及語音辨識器27,以 計算得經辨識之語音訊號,在虛線之右半邊,稱為辨識階 攸。在虛線之左半邊,經由模型訓練器25及一語音模型參 125794.doc 12 - 1356399 數資料庫26,稱為訓練階段。該差分運算器24可設置於辨 識階段或訓練階段,作差分運算。 本發明之系統及方法以國際標準的Aurora-2語音資料庫 環境做為實驗以評估抗嗓能力,實驗所使用的語音資料庫 Aurora-2 是由歐洲電信標準協會(European Telecommunications Standards Institute, ESTI)所發行,其本身為一套含有雜訊 的連續英文數字語料,其中雜訊包含八種來源不同的加成 性噪音和二種不同特性的通道效應。語料庫中的.加成性噪 音包括機場(Airport)、人聲(Babble)、汽車(Car)、展覽會 館(Exhibition)、餐廳(Restaurant)、地下鐵(Subway)、街道 (Street)及火車站(Train Station),且依照不同訊噪比 (Signal-to-Noise Ratio, SNR)各自加入乾淨的語音中,訊 嗓比包括 20 dB、15 dB、10 dB、5 dB、0 dB和-5 dB ;通 道效應包含由國際電信聯合會(International Telecommunication Union, ITU)所訂立的二個標準-G.712 和MIRS。根據測試語料中加入之通道雜訊以及加成性雜 訊之種類不同,Aurora-2分為三組測試群組Set A、 Set B 和 Set C,Set A 所呈現的雜訊是屬於穩定性 (Stationary)雜訊,Set B 貝ij 是非穩定性(Nonstationary)雜 訊,Set C除了穩定性與非穩定性雜訊外,還使用與訓練 語料不同的通道效應-G.712和MIRS。其中各種雜訊下的平 均辨識率是計算20 dB〜0 dB的平均值》 語音辨識實驗則搭配HTK (Hidden Markov Model Toolkit)開發工具,HTK是由劍橋大學電機系所發展出來 < S ) 125794.doc 1356399 的隱藏式馬可夫模型(HMM)開發工具,藉由HTK可以方便 且快速地發展出一套以ΗΜΜ為架構的語音辨識系統。 在聲學模型(Acoustic Models)的設定如下:每一個數字 模型(1〜9及zero和oh)皆由一個由左到右(left-to-right)形式 的連續密度隱藏式馬可夫模型(Continuous Density Hidden Markov Model, CDHMM)來表示模型,其中包含16個狀態 (State),並且每一個狀態是利用3個高斯混合分佈 (Gaussian Mixture Distribution)來表示。另外靜音模型的 部份有二種模型,一個為靜音(Silence)模型,包含三個狀 態,用來表示語句開始跟結束時的靜音;另一個為間歇 (Pause)模型,包含六個狀態,表示語句内字與字之間的短 暫停止,上述所有聲學模型的訓練與本文所有的實驗都是 使用Aurora-2語音資料庫環境搭配HTK工具套件來完成。 特徵參數抽取器方面(Feature Extractor),本發明之系統 及方法評估實驗是採用梅爾倒頻譜係數(Mel-Frequency Cepstral Coefficients, MFCCs)作為語音特徵參數向量。本 發明之系統及方法在對數梅爾濾波器庫能量(log Mel Filterbank Energy)上做運算,不包括對數能量(Log Energy),其中對數梅爾濾波器庫能量和梅爾倒頻譜係數 是線性轉換的關係,所以是等效關係。取樣音框長度 (Frame Length)為 25 毫秒,音框間距(Frame Shift)為 10 毫 秒,每個音框的資訊是以39維表示,其中包含12維的梅爾 倒頻譜係數以及一維的對數能量(Log Energy),同時會對 13維特徵參數取其相對的一階差分係數(Delta Coefficient) 125794.doc 階差分係數(Acceleration Coefficient)。 辨識結果如表1顯示,本發明之系統及方法和倒頻譜平 均值消去法(CMS)與前案美國專利(US 6,804,643 B1)兩個 比’字正確(Word accuracies)率有明顯的改善,其 中粗體字表示字正確率最高者。在Set a、Set b、和Set c 的整體表現上’本發明之系統及方法可有效提高抗噪語音 辨識率,也證明本發明之系統及方法的可靠性以及有效 性。 矛J用本發明之系統及方法,有條件地拘束倒頻譜特徵參 數向量之處理,避免過度增強或過度消去,以完成適當的 倒頻谱特徵向量運算,並達到提高語音辨識的抗噪能力。 另外’本發明之語音辨識系統及方法係為能在任何環境下 使用的抗噪系統及方法,並且上下整合容易,及低複雜 度’以提供使用者更可靠且更穩定的語音辨識結果。 惟上述實施例僅為說明本發明之原理及其功效,而非用 以限制本發明。因此,習於此技術之人士對上述實施例進 行修改及變化仍不脫本發明之精神。本發明之權利範圍應 如後述之申請專利範圍所列。 表二,比較MFCC及三種補償方法在Aurora-2上的字辨識率
Subway Babble Car Exhibition Average Restaurant Street Airport Train-etatid Average Subway(M Street(MIR Average Clean 98.93 99 «.96 992 99.0225 98.93 99 98.96 992 99.0225 99.14 98.97 99.055 20 dB 97.05 90.15 97.41 9639 9525 89.99 95.74 90.64 94.72 92.7725 93.46 95.13 94295 15 dB 93.49 73.76 90.04 92.04 873325 7624 88.45 77.01 83.65 81J375 86.77 88.91 8754 10 dB 78.72 49.43 67.01 75^6 67.705 54.77 67.11 53.86 6029 59.0075 [73.9 74.43 74.165 5dB 52.16 34.09 4453 39.4725 31.01 38.45 3033 27.92 31.9275 5127 4921 5024 OdB 26.01 928 14.46 18.05 16.95 10.96 1754 14.41 ili7 13.695 25.42 22.91 24.165 -5dB 11.18 1*57 939 9.6 7.935 3.47 10.46 823 8.45 7.6525 1152 11.15 11.485 Average 69.486 49撇 60J602 65394 61342 52J94 61518 5325 55^3 55.748 66.164 66.118 66.141 15 125794.doc 1356399
⑻ MFCC
Subway Babble Cai Exhibition Average Restaurant Street Airport Tiain-stati< Average Subffay(M|stieet(MIR Average Clean 98.93 99.09 99.02 99.04 99.02 98.93 99.09 99.02 99.04 99^ 99.08 : 99.06 99.07 20dB 犠 94.11 96.72 94.48 95245 92.91 95^5 94^3 96.14 945325 95521 96.1 95*81 15 dB 8932 81.41 89i6 85^4 865325 80i6 8839 8536 872 853775 89.13 903 89.715 10 dB 68.96 57.07 67.94 64.05 64505 6122 66.17 6633 6621 64.9825 7132 73.13 72225 5dB 38i? 28.48 34.95 31.04 332575 35^8 3833 11S1 34.46 36.4975 38.47 44.95 41.71 OdB 16.79 10.7 14.08 9^3 12.775 13.42 16^1 1822 14.13 15*645 15.08 1856 16.97 -5dB 1139 4.78 8.92 737 8.115 5·65 1031 7.99 8J3 8.07 1154 1122 1138 Avaaae 61说 54354 60^5 56.988 58.463 56.758 61.07 60.412 59*628 59.467 61.904 64朋 63286
(b) CMS
Subway Babble Cai Exhibition Average Restauiant Street Airport Train-staticAverage Subffay(M Street(MIR Average Clean 97.73 9734 97.7 98.49 97515 97.73 9734 97.7 98.49 97別5 97.05 97.1 97.075 20 dB 92.4i 9353 90.96 923975 91.74 9226 91.83 9352 923375 8634 8951 87.925 15 dB 83.79 80.99 84^2 80.41 825025 80.78 83^2 81.15 8232 81.9675 7528 79.9 7759 10 dB 66.99 60.4 mi 62.02 63.07 6039 6339 6039 60.04 61.0525 57.94 63.45 60.695 5dB 42.77 31.47 32.03 35.98 355625 34.45 37.7 33.1 30^2 34.0175 35.62 41.17 38295 OdB 22.04 1424 122 15.06 15.885 1432 16^7 18.88 12.03 15*575 19.1 1926 19.18 -5dB 13.94 9.46 9.07 9.07 10385 7.95 10.43 10.77 8.05 93 13.94 10^2 1223 Average 61^56 55.902 57.09 56.886 ⑽35 56276 58.768 57.07 55.746 56.99 54^56 58^58 56.7 刃
(c)前案(US6,804,643B1)
Subway Babble Cai Exhibition Average Restaurant Street Airport Tiain-static Average Subway(M Stieel(MIR Average Clean 98.74 99 9857 99.11 98.93 98.74 99 98.87 99.11 98.93 98,89 99.03 98.96 20 dB 96^7 9522 972 95.19 96.12 94.47 96.7 96.15 96.7 96.005 96.1 %S1 96385 15 dB 9321 84.98 93.il 90.19 903725 84,89 90.99 89^3 8951 88,805 9226 93.17 92.715 10 dB 77.74 62.03 73M 71^ 713025 64M 7234 70.18 71.18 69*56 79.46 80.47 79.965 5dB 46.91 31j62 37.16 38^6 38*5875 im 41j66 39.9 37.15 39.15 5229 51.03 51j66 OdB 20.97 13.03 1229 13.48 14.9425 16.12 172 18.76 11.94 16.005 2152 21说 21^8 -5dB 1127 632 8.92 8.42 8.7325 7.03 10^1 9.13 725 ^505 1225 1(X52 11385 Average 67.14 57376 62^8 61^64 62265 59582 63.778 62.964 61296 61.905 68326 68J96 68.461 (d)本案 【圖式簡單說明】 圖1顯示習知倒頻譜特徵參數處理方法之流程示意圖; 圖2顯示本發明具倒頻譜雜訊消去之語音辨識系統之方 塊不意圖, 圖3顯示本發明倒頻譜雜訊消去方法之流程示意圖; 圖4顯示本發明該倒頻譜雜訊消去裝置之方塊示意圖; 圖5顯示本發明特徵參數均值向量計算流程示意圖;及 圖6顯示本發明之特徵參數均值向量計算裝置之方塊示 125794.doc 16 - < S ) 1356.399 意圖。 【主要元件符號說明】
20 本發明之語音辨識系統 21 濾波器庫能量抽取器 22 倒頻譜雜訊消去裝置 23 倒頻譜轉換器 24 差分運算器 25 模型訓練器 26 語音模型參數資料庫 27 語音辨識器 41 特徵參數均值向量計算裝置 42 第一乘法器 43 第一加法器 44 第二乘法器 45 比較器 46 多工器 411、412、415 延遲器 416 第二加法器 417 第三乘法器 125794.doc

Claims (1)

1356.399 第096148135號專利申請案 中文申請專利範圍替換本(1〇〇年8月) 十、申請專利範圍: 一種具倒頻譜雜訊消去之扭音 < °。a辨識系統,包括: 一慮波器庫能量抽取器,用 态用u依據一語音訊號,取 複數個第一特徵參數向量,盆 /、中该等第一特徵參數向I 為對數梅爾渡波器庫能量特徵參數向量; 一倒頻譜雜訊消去裝置,用 1用以取得一設定音框之第一 特徵參數向量及該設定音裤 疋曰框之前複數個音框之第—特徵 參數向量,以計算—特徵參數均值向量,並依據該設定 音框之第一特徵參數向量、該特徵參數均值向量、一第 -純量係數及一第二純量係數,計算一設定音框之第二 特徵參數向量,其中兮笛 七曰 丹甲。亥第純£係數係介於0.01至〇 99 之間,該第二純量係數係介於0.01至〇·99之間; -倒頻譜轉換器’用以將該設定音框之第二特徵參數 向量轉換至倒頻譜特徵參數向量; 模型訓練器,用以依據該倒頻譜特徵參數向量,計 算得模型參數;及 一 5吾音辨識器,用以依據該倒頻譜特徵參數向量及該 模型參數’計算得蟑辨識之語音訊號。 2.如請求項1之語音辨識系統,其令該倒頻譜雜訊消去裝 置包括: 一特徵參數均值向量計算裝置,用以取得該設定音框 之第一特徵參數向量及該設定音框之前複數個音框之第 一特徵參數向量,以計算該特徵參數均值向量; 一第一乘法器,用以將該特徵參數均值向量乘以該第 125794-1000819 1356399 第096148135號專利申請案 中文申請專利範圍替換本(1〇〇年8月) • 一純量係數之負數,計算得一第一乘法結果; 一第一加法器,用以將該設定音框之第一特徵參數向 量加該第一乘法結果,計算得一加法結果,其中該加法 結果大於該第二乘法結果時,該設定音框之第二特徵參 • 數向量為該加法結果;該加法結果小於該第二乘法結果 時,該設定音框之第二特徵參數向量為該第二乘法結 果; 一第二乘法器’用以將該設定音框之第一特徵參數向 量乘以該第二純量係數,計算得一第二乘法結果; 一比較器’用以比較該加法結果是否大於該第二乘法 結果,並輸出一控制訊號;及 一多工器,依據該控制訊號,切換控制該設定音框之 第二特徵參數向量為該加法結果或該第二乘法結果。 3 ·如請求項2之語音辨識系統’其中該特徵參數均值向量 計算裝置包括: 複數個延遲器,每一個延遲器用以延遲一單位時間, 以取得該設定音框之前複數個音框之第一特徵參數向 量; 一第二加法器,用以加總該等第一特徵參數向量,以 計算得第一特徵參數向量加總結果;及 一第三乘法器’用以將該第一特徵參數向量加總結果 乘以該等音框個數之倒數,以計算該特徵參數均值向 量 ° 4,如請求項2之語音辨識系統,其中該特徵參數均值向量 125794-1000819 1356399 .· 第096148135號專利申 令文旁請專利範園替換本(ϊ〇〇年S月) • 計算裝置係利用幾何平均、中 - 舛笪方km 眾數或範數等均值 ° 法计异該特徵參數均值向量。 5.如請求们之語音辨識系統,其令該設定立框之… 個音框之個數;%2复疋《框之則複數 ▲ 歎為2至一句子之總音框數之間。 6·如請求们之語音辨識系統,另包 以計算倒頻譜特徵參數向量之 刀運“,用 階差分、或一階差八分、—階差分及二 凡1皆差分至尚階差分。 月长項1之5吾音辨識系統,其中該 器為對數梅爾遽波器庫能量抽取器。“庫月匕量抽取 8.如凊求項7之語音辨識系統,其 散餘弦轉換器。 、^倒頻譜轉換器為離 9_ -種具倒頻譜雜訊消去 驟: 辦識方法’包括以下步 依據-語音訊號,取得複數個第—特徵 中該等第一特徵參數 ' 向里,其 參數向量; 里為對數梅爾遽波器庫能量特徵 取仔-设疋音框之第一特徵參數 前複數個音框《第1徵疋音桓之 均值向量; 肖徵參數向量’以計算—特徵參數 依據該設定音框之第一牲 ,, 特徵參數向量、該特徵參數均 值向里、一弟一純量係數及—第二纯量係數: 定音框之第二特徵參數向量, 汁异一权 於〇_(U至"9之間,呼第1 玄第一純量係數係介 間; 这第-純量係數係介於〇.〇1至〇.99之 125794-1000819 1356.399 . 第096148135號專利申請案 中文申請專利範圍替換本(1〇〇年8月) 量轉換至倒頻譜特徵 • 將該設定音框之第二特徵參數向 參數向量; 依據該倒頻譜特徵參數向量,計算得模型參數;及 依據該倒頻譜特徵參數向量及該模型參數,計算得經 辨識之語音訊號。 10.如請求項9之語音辨識方法,^ ^ ^ ^ ^ ^ 丹&t异邊設定音框之第 二特徵參數向量之步驟中,另4 y ^ r 另包括以下步驟: 取付s亥设定音框之第一驻外4 • 之第特徵參數向量及該設定音框之 前複數個音框之第一特徵春I 行儍翏數向1,以計算該特徵參數 均值向量; I 純量係數之負數 將該特徵參數均值向量乘以該第 計算得一第一乘法結果; 將该设定音框之笛^^ ΑΙ,Λ A ^ 果,… 第肖徵參數向量加該第-乘法結 十具仔一加法結果’其中該加法結果大於該第二乘 :結果時,該設定音框之第二特徵參數向量為該加法处 該加法結果小於該第二乘法結果時,該設定音框: 第一特徵參數向量為該第=乘法結果; 二純量係 並輸出— 將該設定音框之第一特徵參數向量乘以該第 數,計算得一第二乘法結果; 比較該加法結果是否大於該第二乘法結果, 控制訊號;及 之苐一特徵參 特徵參數均值 11. 依據該控制訊號,切換控制該設定音框 數向量為該加法結果或該第二乘法結果。 如請求項9之語音辨識方法,其中計算該 125794-1000819 1356399 ; 第096148135號專利申請案 中文申請專利範圍替換本(100年8月) . 向量之步驟’另包括以下步驟: 利用複數個延遲器,每一個延遲器用以延遲—單位時 間,以取得該設定音框之前複數個音框之第一特徵參數 向量; 加總該等第一特徵參數向量,以計算得第一特徵參數 向量加總結果;及 將5玄第-特徵參數向量加總結果乘以該等音框個數之 倒數,以計算該特徵參數均值向量。 12·如請求項9之語音辨識方法,m系利用幾何平均、中 =、眾數或範數等均值計算方法計算該特徵參數均值 13. :請求項9之語音辨識方法,另包括一差分運算步驟 用以计算倒頻譜特徵參數向量之—階差分、— 一階差分、或-階差分至高階差分。 0刀及 其中該倒頻譜特徵參數向 14.如請求項9之語音辨識方法, 量為梅爾倒頻譜特徵參數向量 125794-1000819
TW096148135A 2007-12-14 2007-12-14 Speech recognition system and method with cepstral TWI356399B (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW096148135A TWI356399B (en) 2007-12-14 2007-12-14 Speech recognition system and method with cepstral
US12/243,303 US8150690B2 (en) 2007-12-14 2008-10-01 Speech recognition system and method with cepstral noise subtraction
JP2008317530A JP5339426B2 (ja) 2007-12-14 2008-12-12 ケプストラムノイズ減算を用いた音声認識システム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW096148135A TWI356399B (en) 2007-12-14 2007-12-14 Speech recognition system and method with cepstral

Publications (2)

Publication Number Publication Date
TW200926141A TW200926141A (en) 2009-06-16
TWI356399B true TWI356399B (en) 2012-01-11

Family

ID=40754410

Family Applications (1)

Application Number Title Priority Date Filing Date
TW096148135A TWI356399B (en) 2007-12-14 2007-12-14 Speech recognition system and method with cepstral

Country Status (3)

Country Link
US (1) US8150690B2 (zh)
JP (1) JP5339426B2 (zh)
TW (1) TWI356399B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100094622A1 (en) * 2008-10-10 2010-04-15 Nexidia Inc. Feature normalization for speech and audio processing
US9336780B2 (en) * 2011-06-20 2016-05-10 Agnitio, S.L. Identification of a local speaker
KR101892733B1 (ko) * 2011-11-24 2018-08-29 한국전자통신연구원 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법
JP5881454B2 (ja) * 2012-02-14 2016-03-09 日本電信電話株式会社 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
CN112908299B (zh) * 2020-12-29 2023-08-29 平安银行股份有限公司 客户需求信息识别方法、装置、电子设备及存储介质

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5583961A (en) * 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
US5778342A (en) * 1996-02-01 1998-07-07 Dspc Israel Ltd. Pattern recognition system and method
US5895447A (en) * 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
KR20000004972A (ko) * 1996-03-29 2000-01-25 내쉬 로저 윌리엄 음성 반응 장치에서 사용하기 위한 특징 발생 방법과 장치 및음성 인식 방법과 장치
US6044343A (en) * 1997-06-27 2000-03-28 Advanced Micro Devices, Inc. Adaptive speech recognition with selective input data to a speech classifier
US6032116A (en) * 1997-06-27 2000-02-29 Advanced Micro Devices, Inc. Distance measure in a speech recognition system for speech recognition using frequency shifting factors to compensate for input signal frequency shifts
US6633842B1 (en) * 1999-10-22 2003-10-14 Texas Instruments Incorporated Speech recognition front-end feature extraction for noisy speech
US6253173B1 (en) * 1997-10-20 2001-06-26 Nortel Networks Corporation Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors
US6202047B1 (en) * 1998-03-30 2001-03-13 At&T Corp. Method and apparatus for speech recognition using second order statistics and linear estimation of cepstral coefficients
US6347297B1 (en) * 1998-10-05 2002-02-12 Legerity, Inc. Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition
US6219642B1 (en) * 1998-10-05 2001-04-17 Legerity, Inc. Quantization using frequency and mean compensated frequency input data for robust speech recognition
GB2357231B (en) * 1999-10-01 2004-06-09 Ibm Method and system for encoding and decoding speech signals
GB2355834A (en) * 1999-10-29 2001-05-02 Nokia Mobile Phones Ltd Speech recognition
FI19992351A (fi) * 1999-10-29 2001-04-30 Nokia Mobile Phones Ltd Puheentunnistus
TW466471B (en) 2000-04-07 2001-12-01 Ind Tech Res Inst Method for performing noise adaptation in voice recognition unit
FR2808917B1 (fr) * 2000-05-09 2003-12-12 Thomson Csf Procede et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant
JP4244514B2 (ja) * 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
US7277853B1 (en) * 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
US20030078777A1 (en) * 2001-08-22 2003-04-24 Shyue-Chin Shiau Speech recognition system for mobile Internet/Intranet communication
US7035797B2 (en) * 2001-12-14 2006-04-25 Nokia Corporation Data-driven filtering of cepstral time trajectories for robust speech recognition
JP2003271190A (ja) 2002-03-15 2003-09-25 Matsushita Electric Ind Co Ltd 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置
TW582024B (en) 2002-12-23 2004-04-01 Ind Tech Res Inst Method and system for determining reliable speech recognition coefficients in noisy environment
US7389230B1 (en) * 2003-04-22 2008-06-17 International Business Machines Corporation System and method for classification of voice signals
US7418383B2 (en) * 2004-09-03 2008-08-26 Microsoft Corporation Noise robust speech recognition with a switching linear dynamic model
JP4464797B2 (ja) 2004-11-17 2010-05-19 日本電信電話株式会社 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
EP1864283B1 (en) * 2005-04-01 2013-02-13 Qualcomm Incorporated Systems, methods, and apparatus for highband time warping
US20070083365A1 (en) * 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
JP4728791B2 (ja) * 2005-12-08 2011-07-20 日本電信電話株式会社 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
JP2007156354A (ja) 2005-12-08 2007-06-21 Vision Megane:Kk 眼鏡セット
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
US20080300875A1 (en) * 2007-06-04 2008-12-04 Texas Instruments Incorporated Efficient Speech Recognition with Cluster Methods

Also Published As

Publication number Publication date
JP5339426B2 (ja) 2013-11-13
US20090157400A1 (en) 2009-06-18
JP2009145895A (ja) 2009-07-02
US8150690B2 (en) 2012-04-03
TW200926141A (en) 2009-06-16

Similar Documents

Publication Publication Date Title
CN111223493B (zh) 语音信号降噪处理方法、传声器和电子设备
JP5505896B2 (ja) 発話区間検出システム、方法及びプログラム
US8775173B2 (en) Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
JP3836815B2 (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
JP4532576B2 (ja) 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム
JP6077957B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP2007500367A (ja) 音声認識方法およびコミュニケーション機器
Rajan et al. Using group delay functions from all-pole models for speaker recognition
JP2015018015A (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP2015064554A (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
TWI356399B (en) Speech recognition system and method with cepstral
Kumar Real-time performance evaluation of modified cascaded median-based noise estimation for speech enhancement system
US20060178875A1 (en) Training wideband acoustic models in the cepstral domain using mixed-bandwidth training data and extended vectors for speech recognition
US8423360B2 (en) Speech recognition apparatus, method and computer program product
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
Wolfel et al. Minimum variance distortionless response spectral estimation
Yadav et al. Spectral smoothing by variationalmode decomposition and its effect on noise and pitch robustness of ASR system
Kumar Spectral subtraction using modified cascaded median based noise estimation for speech enhancement
Guo et al. Robust speaker identification via fusion of subglottal resonances and cepstral features
Yuan et al. Speech recognition on DSP: issues on computational efficiency and performance analysis
JP2007093630A (ja) 音声強調装置
Kaur et al. Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition
JP2009276365A (ja) 処理装置、音声認識装置、音声認識システム、音声認識方法
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP2003177781A (ja) 音響モデル生成装置及び音声認識装置