TWI314271B

TWI314271B - Vocabulary generating apparatus and method thereof and speech recognition system with the vocabulary generating apparatus

Info

Publication number: TWI314271B
Application number: TW094102410A
Authority: TW
Inventors: Ching Ho Tsai; Liang Sheng Huang
Original assignee: Delta Electronics Inc
Priority date: 2005-01-27
Filing date: 2005-01-27
Publication date: 2009-09-01
Also published as: US20060167679A1; TW200627196A; US8417510B2

Description

13142¾ 4-DRC/TW 14885twfl.doc/006 96-8-28 九、發明說明：【發明所屬之技術領域】本發明是關於一種語音辨識系統及其詞彙產生的方法與裝置。特別是關於一種詞彙產生方法、裝置及運用上述詞彙產生裝置之語音辨識系統，此詞彙產生方法可增加語音辨識系統的彈性，使得使用者在不能準確的說出系統命令時，仍可以使用“未知的代稱” 來代替命令中不能確定的部分。【先前技術】語音辨識系統可隨著技術之精進，而讓使用者非常方便地使用相關之設備，例如操作電視、音響等等電子設備器材。使用者只要根據系統所設定可辨識之語音指令，就可以非常方便地操作這些設備。除了運用在電氣設備外，語音辨識之技術亦已廣泛地運用在相關的領域中，例如身份辨識、語音輸入等等之運用。然而，現行的語音辨識系統最常見的一個問題，在於使用者面對語音辨識系統時，往往不知道或是忘記如何對語音辨識系統下命令。然而，語音辨識系統所能辨識的範圍，僅限於系統設計時所預定下的詞彙以及語法。因此，使用者如無法確定系統所能接受的詞彙，便無法享受語音系統的便利。【發明内容】本發明提出一個詞彙產生方法、裝置及運用上述詞彙產生裝置之語音辨識系統。此詞彙產生方法可增 5 DRC/TW 14885hvfl.doc/006 tl 96-8-28 加m 3辨識系統的彈性，使得使用者在不能準確的說出系統命令時，可以使用本發明特別定義的一種“未 σ的代稱’’(Unknown Code word)來代替命令中不能確定的部分。置，V本發明提出一種詞彙產生裝一匕括斷詞早兀、未知的代稱資料庫與詞彙產生單元用以接收多數個原始系統詞彙，並進生對ϋ Γ數n=操音作義之並.㈣每個原始系統詞囊產二固未知的代稱。此詞囊產生單元連接到 :二 ==的代稱資料庫’用以接收上述含有意合：的代％而合成多數個新系統詞彙。不始系單元根據每個原或詞。 ^ 3有思義之單位為多數個字上述之詞囊產生梦罢 —語音辨識系統所原原H統詞彙是來自個系統詞彙。 ’、的糸統岡彙資料庫内之多數含有上意其中詞棄產生單元將接收 :，以產生新系之進以^^^ 而以部分之未知的代稱所代t。 3有思義之早位 6 13142¾ -DRC/TW 14885twfl.doc/006 13142¾ -DRC/TW 14885twfl.doc/006 >6-8-28 ..r年；及曰修正替换頁上述之詞彙產生裝置，i中叫畚含有咅義之單位以及產生早元將接收併操 j果疋將含有思義之單位之部分捨棄，並加入未知的代稱所代替。含有t "γλ棄m Γ ’其令詞囊產生單元將接收 3有心義之早位以及未知的代稱進行詞作’以產生新系統詞彙是將含有意義之單位直接加又一個或多個未知的代稱。含有3之二彙/生裳置’其中詞彙產生單元將接收有心義之早位以及未知的代稱進作，以產生新系統詞彙是將含後直接加入未知的代稱而義之早位先灯重組囊產生裝置，在新糸統詞彙。上述之詞單位後再進行重组二例:入部分有意義之系統詞囊。代稱以產生新的法，㈣囊產生方音義之Μ 彙產生對應之多數含有以二并:後:含有意義之單位以及未知的代稱之二:::：以便將斷詞單元所產生含有意義接：：：二的代稱而合成多數個新系統詞彙，以 &供语音辨識系統用以進行語音辨識。1菜 7 -DRC/TW 14885twfl .doc/006 96-8-28 *產詞彙產生方法，其中根據每個原始系統詞莱對應之含有意義之單位為多數個字或詞。人有音例中、，上述的詞囊產生方法’其中根據作，以^ 早位以及未知的代稱進行詞彙合併操而以去4沾斤Λ統詞囊是掩棄部分之含有意義之單位八格Iσ的代稱所代替。或是將含有意義之單位之部 :蔣人m知的代稱所代替。在-實施例中，疋、3思義之單位直接加入該未知的代稱。數個ί:!施例中，是將含有意義之單位直接加入多義之：：ΐ知的代稱。在另一實施例中，是將含有意早行重組後直接加入一個或多個未知的代稱而產生新系統詞彙。 =士述之目的’本發明提出—種具有詞囊產生裝置之曰辨識系統，包括原始系統詞彙資料庫、耒知的代稱資料庫、斷詞單元與詞囊產生；=原：糸統列菜資料庫用以儲存多數個原始系統詞彙。此未 ^的代稱資料庫用以儲存錄個未知的代稱。此斷詞二，·用以接收上述之原始系統詞彙，並進行斷詞二enize)操作，並根據每個原始系統詞彙產生對應 =多數含有意義之單位。而詞彙產生單元連接到斷詞早π與未知的代稱資料庫，用以接收含有意義之單位 j及未知的代稱，並進行詞彙合併操作，以便將斷詞 =所產生含有意義之單位結合未知的代稱而合成夕數個新系統詞彙。 8 13142¾

F4-DRC/TW 14885twfl .doc/006

96-8-28 上述之語音辨識系統，在一實施例中，其詞彙產生單元將接收含有意義之單位以及未知的代稱進行詞彙合併操作，以產生新系統詞彙是捨棄部分之含有意義之單位而以未知的代稱所代替。上述之語音辨識系統，在一實施例中，其詞彙產生單元將接收含有意義之單位以及未知的代稱進行詞彙合併操作，以產生新系統詞彙是將含有意義之單位之部分捨棄，並加入未知的代稱所代替。上述之語音辨識系統，在一實施例中，其詞彙產生單元將接收含有意義之單位以及未知的代稱進行詞彙合併操作，以產生新系統詞彙是將含有意義之單位直接加入一個或多個未知的代稱。上述之語音辨識系統，在一實施例中，其詞彙產生單元將接收含有意義之單位以及未知的代稱進行詞彙合併操作，以產生新系統詞彙是將含有意義之單位先行重組後直接加入未知的代稱而產生新系統詞彙。【實施方式】本發明提出一個詞彙產生方法、裝置及運用上述詞彙產生裝置之語音辨識系統。此詞彙產生方法可增加語音辨識系統的彈性，使得使用者在不能準確的說出系統命令時，可以使用本發明特別定義的一種“未知的代稱"（Unknown Code Word)來代替命令中不能確定的部分。

I3142JX DRC/TW 14885twfl.doc/006 hi”".,96·8·28

語音辨識系統的主要流程如圖彳所示，在語者輸 I,一段語音訊號後，語音辨識系統1〇〇經由一語音知·徵值擷取單元110擷取出此語音訊號的特徵值 _ ures)而後，然後根據此語音辨識系統1 〇〇的，彙特徵模型比對單元12◦對此語音訊號所榻取出來，特徵值進行詞彙模型的比對，而此比對是根據一詞彙資料庫130取得系統詞彙及其特徵模型後，由詞彙特徵模型比對單元12G根據詞彙取得相近的模並輸出至辨識決定單元⑽，依照既定的規則 ule)彳于到對應於此語音訊號的辨識詞句 (Recognized Text)之辨識結果。所謂系統的『詞彙特徵模型』，乃是由系統預定辨識的每一個『詞彙〈Vocabulary〉』的『特徵模型所組成。因此，當語者輸人的語音訊號片段的特徵值

和某一個『詞彙特徵值』相同或相似時，便可將該語音訊號片段辨識為該『詞彙模型』所 Λ二反之，如絲料⑽肢y詞彙』不能確因 =說出和系統職不同的詞彙時，其『特徵值』便不此對應任一個模型，自然無法辨識出任何結果。 /以美國專利5,218,668為例，其方法是°在型Λ對(Pattem CGmpa「is。啦將語音訊號的特政值’和糸統5司彙〈System Vocabulary〉』以及『非系，詞彙〈Filler〉』作比較’來決定辨識的結果。其問題在於’當語者無法正確的說出系統詞彙時，便^ 10 1314m DRC/TW 14885twfl.doc/006 I 96-8-28

I 被辨識成非系統詞彙或是被誤判為某個系統詞彙，即便語者知道該系統詞彙的大部分。而根據本發明之利用“未知的代稱"（Unknown Code Word)，來增加語音辨識系統的彈性，使得語者在不確定系統『詞彙』的時候，可以採用模糊的語法來進行查詢。而此“未知的代稱"（Unknown Code Word，底下簡稱UCW)，為一個或多個固定的片語，其功用在於取代一個『詞彙』中不確定的部分。例如，在使用中文時，經常利用『什麼』來代替不確定的字、詞；如使用『什麼』這個詞當作系統的 UCW時，當某個使用者打算查詢有關於元朝晝家『趙孟頫』的資料時，卻突然忘記了『頫』這個字個念法，或是不能確定第三個字是什麼。根據本發明之實施例，語者便可以用『趙孟什麼』這樣配合UCW來進行查詢。而辨識系統在得到辨識的結果後，便可利用『趙』以及『孟』這兩個資訊來進行查詢。請參照圖2，是說明本發明一較佳實施例之詞彙產生裝置及其方法之電路方塊圖。此詞彙產生裝置 200包括一斷詞單元（Tokenize Unit)220、一詞彙產生單元（Vocabulary Generation Unit)230 與一 “未知的代稱"(Unknown Code Word，UCW)資料庫 240。本發明較佳實施例之詞彙產生裝置及其方法，首先，斷詞單元（丁〇1<611丨26 1^4)220用以連接到一原始系統 11 I3142721.drc/tw _,doc/006 96-8-28 ” J料庫210,並用以接收系統詞彙。此原始系統料庫210 &语音辨識系統所原有的系統詞彙 _庫。而未知的代稱（UCW)資料庫24〇之統ΐ先定義的詞彙，以及使用者所自行定義之多數個詞菜。此斷詞單元220根據所接收的系統詞囊進行斷詞⑽—句操作。主要是將個別之系統詞彙分割為料的單位之含有意義之單位（Meaningfu丨_，底 *這裡所謂的含有意義之單位可以是子或疋岡，依照整個辨識系統的需要而定。，詞彙產生單元（Vocabu|a「y Generat丨〇n 接收斷詞單7所產生的含有意義 =早位_’並根據“未知的代稱”（unkn〇wn c〇de 資料庫240之内容，將詞囊合併

La/:::广咖丨0⑴’以便將斷詞的結果配合料庫_賴彙，並輸ώ至㈣、統詞彙資邱八的μΓι也例中’產生新的系統詞自時，可以捨棄產:？=、ucw代替，例如，『亡羊補牢』可以是本㈣其ί麵』以及『什麼補牢』等詞彙。此就的時候，採用模統『詞彙』在另外實知例中，產生新的詞彙時可以捨棄部 12 I3l4m DRC/TW 14885twfl .doc/006 I3l4m DRC/TW 14885twfl .doc/006 Λ 96-8-28 二=MU、例如’『中華民國專利公報』可以產生『專太·以及『中華專利公報』等詞彙。也就是說， ^月除了利用“未知的代稱，，(u c w)，來增加語音辨 =糸=的彈性使得語者在不確定线『詞彙』原妒的“…1 進仃查詢。也可重組整個原始的系統㈣菜，產生重組後新的系統詞彙。接插之—實施财，產生新㈣彙時可以直 = UCW，例如『專利公報』可以產生『專利什麼A報』以及『什麼專利公報』等詞囊。 &二t發明之另一實施例中，亦可在產生新的詞以吝在『击二例中華民國專利公報』可乂產生專利什麼中華民國公報』。本發明之利用“未知的代稱，，(ucw)，使得扭者在 :確2統;詞棄』的時候，可以採用模糊的；法來、盯—D旬’在—實施例中，可以在產生新的詞彙時可的ucw’例如『中華民國專利公報』 w 申華民國什麼專利什麼公報』。此可更有 2增加語音辨識系統的彈性。也可同時採取以上的 /例如’『中華民國專利公報』可以產生『專利什麼公報』以及『中華專利什麼公報』等詞彙。本發明所提出的詞彙產生裝置及其方法，主 =生新的系統詞彙資料庫。而底下將說 ς 本發明用以產生新系統詞彙資料後實際的語音辨識⑽中。以—個電視節目的 13142¾ r4-DRC/TW 14885twfl.d〇c/〇〇6 { 年 Li§-8. 曰修 96-8-28 半=的新『!相關節目—共包括了:『早安您好〜占丰新聞』、早安您好七點新聞』、『二視“新，觀====;的=節"於能使用語音的功能實在是太二::本二這六個”名稱進行麼新門、;二如.『早安什麼新聞』，『早安您好什 t視什麼新聞』’『台視新聞』，『台視午間 ==ΐ,什麼台語新聞』等等數個系統詞彙。而使用者便可使用這些新辦& _ 如『早安什麼新聞』—便;對應到聞』’『早安您好七點新聞』兩個節個二目，再由使用者來進行選擇。而、『什麼聞』則可以對應到『台視台語新聞』，這個節會擴==本專利的處理後，系統詞彙的數量將右：料處、—的糸統词菜有的對應到單-個節目，也户々於I到複數的節目’而使用這—類系統詞彙的好二；!1者不需要記憶完整的系統詞彙，僅需記憶 ::田/重要的部分，便可使用系統的功能。因立㈣本發明所提出的詞彙產生裝置及其方法之語、統’可增加語音辨識系統的彈性，使得使用你不能準確的說出系統可辨識的語音命令時，可以用特別定義的一種“未知的代稱，,（Unkn〇wn c〇de 14 13142¾ 4-DRC/TW 14885twfl .doc/006 U8日修正替换頁96-8-28

Word)來代替命令中不能確定的部分以提升使用者之使用方便性。雖然本發明已以較佳實施例揭露如上，然其並非用以限定本發明，任何熟習此技藝者，在不脫離本發明之精神和範圍内，當可作些許之更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。【圖式簡單說明】圖1是說明語音辨識的主要流程。圖2是說明本發明一較佳實施例之詞彙產生裝置及其方法之電路方塊圖。【主要元件符號說明】 100 語音辨識系統 110 語音特徵值擷取單元 120 詞彙特徵模型比對單元 130 詞彙資料庫 140 辨識決定單元 200 詞彙產生裝置 210 原始系統詞彙資料庫 220 斷詞單元（Tokenize Unit) 230 Unit) β司菜產生单元（Vocabu丨ary Generation 240 UCW資料庫 250 新系統詞彙資料庫 15

Claims

1314271 年月日修正本 98-4-15 十、申請專利範圍： 1、一種詞彙產生裝置，包括、—一斷詞早兀，用以接收多數個原始系統詞彙，並，仃斷g (Tokemze)操#，並分割每個該原始系統詞 = 多數含有意義之單位’其㈣些原始系统 -司菜疋來自一 S吾音辨識系統；了未知的代稱資料庫’用以儲存多數個未知的代稱，以及持產生單元’連接到該斷詞單元與該未知的用以接收該些含有意義之單位以及該ΐ 元所產2此作’以便將該斷詞單而合成多數個新系統詞彙早G 口遠些未知的代稱货晋2 2申請專利範圍第1項所述之-種詞彙產生裝置，其中該斷詞單元根據每轉，對應之該些含有意義之單位為多數^產生專利範圍第1項所述之一種詞彙產生單元根據每個該原始系統詞彙產生對應之該些含有意義之單位為多數個詞。產生梦晉4盆t申請專利範圍第1項所述之一種詞彙產生裝置，其中該些原始系統詞 =產生所原5有的系統:_料庫内之多數個二=識系統 σ申口月專利範圍第1項所述一裝置，其中該虺未知的 k之種同莱產生一的代無祠彙是根據使用者所自行 16 1314271 98-4-15 I I月輯〗激 JLL„—一定義之多數個詞彙。 6、如申請專利範圍第1項所述之一種詞彙產生裝置，其中該詞彙產生單元將接收該些含有意義之單位以及該些未知的代稱進行詞彙合併操作，以產生該些新系統詞彙是捨棄部分之含有意義之單位而以未知的代稱所代替。 7、如申請專利範圍第1項所述之一種詞彙產生裝置，其中該詞彙產生單元將接收該些含有意義之單位以及該些未知的代稱進行詞彙合併操作，以產生該些新系統詞彙是將含有意義之單位之部分捨棄，並加入該未知的代稱所代替。 8、如申請專利範圍第1項所述之一種詞彙產生裝置，其中該詞彙產生單元將接收該些含有意義之單位以及該些未知的代稱進行詞彙合併操作，以產生該些新系統詞彙是將含有意義之單位直接加入該未知的代稱。 9、如申請專利範圍第1項所述之一種詞彙產生裝置，其中該詞彙產生單元將接收該些含有意義之單位以及該些未知的代稱進行詞彙合併操作，以產生該些新系統詞彙是將含有意義之單位直接加入多數個該些未知的代稱。 1 0、如申請專利範圍第1項所述之一種詞彙產生裝置，其中該詞彙產生單元將接收該些含有意義之單位以及該些未知的代稱進行詞橐合併操作，以產生該 17 1314271 Jk 秀 4-15 些新系統詞彙是將含有意義之單位先行重組後直接加入该些未知的代稱而產生該些新系統詞彙。 11、如申請專利範圍第1項所述之一種詞彙產裝置，其中該詞彙產生單元將接收該些含 =些未知的代稱進行詞囊合軸，=略：刀有1義之單位後再進行重組以產生新的系統詞囊。 I置盆請專利範圍第1項所述之—種詞彙產生裝翠二中該祠彙產生單元將接收該些含有意義之單位以及該夫知的此餘、隹A 早土 1 的代稱進仃词彙合併操作，是將該此未知的代稱加入以產生新的系統詞彙。 — 13、一種詞彙產生方法，適用於一語音統，該語音辨識系統具有一 °糸方法包括： /、另原始糸統闷菜貧料庫，該 r Si 彙㈣庫内的多數個原始系統 -司莱進订辦同（丁〇kenjZe)择作、、統詞囊為對叙錄含個該原始系行二 =意1之單位"及該些未知的代稱進统詞囊，《提:該二辨;的二稱而合成多數個新系 =音其義中之根。?:，原始系統詞彙產生二3肩w義之早位為多數個字。 15、如申請專利範圍第13項所述之-種詞彙產 18 1314271

Ί 98-4-15 ί =汉中根據每個該原始系統詞彙產生對應之兮 -3有忍義之單位為多數個詞。 ^ 生方1:、Λ申請專利範圍第13項所述之-種詞彙產其中根據該些含有意義之單位以及該= 囊合併操作，以產生該些新系統以：2:ί意義之單位而以未知的代稱所代替。生方法料·圍第13項所叙—種詞彙產生方法，其中根據該些含座的代稱進行气*入舒：義之早位以及該些未知將含有音義之m以產生該些新系統詞彙是所代ir、義之早位之部分捨棄，並加入該未知的代稱生方1 法8、；^/請專利範圍第13項所述之—種詞彙產的據人該些含有意義之^ J代辑進仃同彙合併操作，將含有意義之置古& 二新系統詞彙是 “ 直接加入該未知的代稱。生方法專H圍第13項所述之一種詞彙產 =爯;行詞囊合併操作，以產生該 2。意;:單位直接加入多數個該:二知= 生方法丄申請專利範圍第13項所述之一種詞囊產代稱進行;f義之單心域些未知的輪而產生該些新系統詞彙。该二未知的代 19 1314271 98, 5 正替換頁丨 >8-4-15 生方法申4專利範圍第13項所述之一種詞彙產的^淮據該些含有意義之單位以及該些未知位後莱合併操作，是省略部分含有意義之單 Υ後再進仃重組以產生新的系統詞彙。 =、如申請專利範圍帛13項所述之—種詞囊產 =進其Ml據該些含有意義之單位以及該些未知 S t囊合併操作，是加入該些未知的代稱以座生新的糸統詞彙。括：23、-種具有詞彙產生裝置之語音辨識系統，包統詞彙原始系統詞彙資料庫’用以儲存多數個原始系稱；一未知的代稱資料庫，用以儲存多數個未知的代行斷；=單元，用以接收該些原始系統詞彙，並進為對應之多數含有意義之單位；以及果代稱；產ί單元，連接到該斷詞單元與該未知的 =冉貝科庫，用以接收該些含有意義之單位以及該些 ’並進行詞囊合併操作，以便將該斷詞單以些合有意義之單位結合該些未知的代稱而合成多數個新系統詞彙。 24、如申請專利範圍第&項所述之語音辨識、、以中該4彙產生單元將接收該些含有意義之單位 20 1314271 曰修.正替_ 98-4-15 以及該些未知的代稱進行詞彙合併操作，以產生該些新系統.詞彙是捨棄部分之含有意義之單位而以未知的代稱所代替。 25、如申請專利範圍第23項所述之語音辨識系統，其中該詞彙產生單元將接收該些含有意義之單位以及該些未知的代稱進行詞彙合併操作，以產生該些新系統詞橐是將含有意義之單位之部分捨棄，並加入該未知的代稱所代替。

26、如申請專利範圍第23項所述之語音辨識系統，其中該詞彙產生單元將接收該些含有意義之單位以及該些未知的代稱進行詞囊合併操作，以產生該些新系統詞彙是將含有意義之單位直接加入該未知的代稱。 27、如申請專利範圍第23項所述之語音辨識系統，其中該詞彙產生單元將接收該些含有意義之單位以及該些未知的代稱進行詞彙合併操作，以產生該些新系統詞彙是將含有意義之單位直接加入多數個該些未知的代稱。 28、如申請專利範圍第23項所述之語音辨識系統，其中該詞彙產生單元將接收該些含有意義之單位以及該些未知的代稱進行詞彙合併操作，以產生該些新系統詞彙是將含有意義之單位先行重組後直接加入該些未知的代稱而產生該些新系統詞彙。 2 9、如申請專利範圍第2 3項所述之語音辨識系 21 1314271 厂------------ 曰修正替換頁98-4-15 • 統，其中該詞彙產生單元將接故該些含有意義之單位以及該些未知的代稱進行詞彙合併操作，是將部分之 ( 含有意義之單位省略後再進行重組以產生新的系統詞彙。 30、如申請專利範圍第23項所述之語音辨識系統，其中該詞彙產生單元將接收該些含有意義之單位以及該些未知的代稱進行詞彙合併操作，是將該些未知的代稱加入以產生新的系統詞彙。 22 13142¾ 4-DRC/TW 14885twfl .doc/006 96-8-28 七、指定代表圖： (一）本案指定代表圖為：第（2 )圖。 (二）本代表圖之元件符號簡單說明： 200 詞彙產生裝置 210 原始系統詞彙資料庫 220 斷詞單元（Tokenize Unit) 230 詞彙產生單元（Vocabulary Generation Unit) 240 UCW資料庫 250 新系統詞彙資料庫八、本案若有化學式時，請揭示最能顯示發明特徵的化學式：無0

4