TWI314271B - Vocabulary generating apparatus and method thereof and speech recognition system with the vocabulary generating apparatus - Google Patents

Vocabulary generating apparatus and method thereof and speech recognition system with the vocabulary generating apparatus Download PDF

Info

Publication number
TWI314271B
TWI314271B TW094102410A TW94102410A TWI314271B TW I314271 B TWI314271 B TW I314271B TW 094102410 A TW094102410 A TW 094102410A TW 94102410 A TW94102410 A TW 94102410A TW I314271 B TWI314271 B TW I314271B
Authority
TW
Taiwan
Prior art keywords
vocabulary
unknown
unit
meaning
new
Prior art date
Application number
TW094102410A
Other languages
English (en)
Other versions
TW200627196A (en
Inventor
Ching Ho Tsai
Liang Sheng Huang
Original Assignee
Delta Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Delta Electronics Inc filed Critical Delta Electronics Inc
Priority to TW094102410A priority Critical patent/TWI314271B/zh
Priority to US11/288,728 priority patent/US8417510B2/en
Publication of TW200627196A publication Critical patent/TW200627196A/zh
Application granted granted Critical
Publication of TWI314271B publication Critical patent/TWI314271B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

13142¾ 4-DRC/TW 14885twfl.doc/006 96-8-28 九、發明說明: 【發明所屬之技術領域】 本發明是關於一種語音辨識系統及其詞彙產生 的方法與裝置。特別是關於一種詞彙產生方法、裝置 及運用上述詞彙產生裝置之語音辨識系統,此詞彙產 生方法可增加語音辨識系統的彈性,使得使用者在不 能準確的說出系統命令時,仍可以使用“未知的代稱” 來代替命令中不能確定的部分。 【先前技術】 語音辨識系統可隨著技術之精進,而讓使用者非 常方便地使用相關之設備,例如操作電視、音響等等 電子設備器材。使用者只要根據系統所設定可辨識之 語音指令,就可以非常方便地操作這些設備。除了運 用在電氣設備外,語音辨識之技術亦已廣泛地運用在 相關的領域中,例如身份辨識、語音輸入等等之運用。 然而,現行的語音辨識系統最常見的一個問題, 在於使用者面對語音辨識系統時,往往不知道或是忘 記如何對語音辨識系統下命令。然而,語音辨識系統 所能辨識的範圍,僅限於系統設計時所預定下的詞彙 以及語法。因此,使用者如無法確定系統所能接受的 詞彙,便無法享受語音系統的便利。 【發明内容】 本發明提出一個詞彙產生方法、裝置及運用上述 詞彙產生裝置之語音辨識系統。此詞彙產生方法可增 5 DRC/TW 14885hvfl.doc/006 tl 96-8-28 加m 3辨識系統的彈性,使得使用者在不能準確的說 出系統命令時,可以使用本發明特別定義的一種“未 σ的代稱’’(Unknown Code word)來代替命令中不能 確定的部分。 置,V本發明提出一種詞彙產生裝 一匕括斷詞早兀、未知的代稱資料庫與詞彙產生 單元用以接收多數個原始系統詞彙,並進 生對ϋ Γ數n=操音作義之並.㈣每個原始系統詞囊產 二固未知的代稱。此詞囊產生單元連接到 :二 ==的代稱資料庫’用以接收上述含有意 合: 的代%而合成多數個新系統詞彙。 不 始系單元根據每個原 或詞。 ^ 3有思義之單位為多數個字 上述之詞囊產生梦罢 —語音辨識系統所原原H統詞彙是來自 個系統詞彙。 ’、的糸統岡彙資料庫内之多數 含有上意其中詞棄產生單元將接收 :,以產生新系之進以^^^ 而以部分之未知的代稱所代t。 3有思義之早位 6 13142¾ -DRC/TW 14885twfl.doc/006 13142¾ -DRC/TW 14885twfl.doc/006 >6-8-28 ..r年;及曰修正替换頁 上述之詞彙產生裝置,i中叫畚 含有咅義之單位以及產生早元將接收 併操 j果疋將含有思義之單位之部分捨 棄,並加入未知的代稱所代替。 含有t "γλ棄m Γ ’其令詞囊產生單元將接收 3有心義之早位以及未知的代稱進行詞 作’以產生新系統詞彙是將含有意義之單位直接加又 一個或多個未知的代稱。 含有3之二彙/生裳置’其中詞彙產生單元將接收 有心義之早位以及未知的代稱進 作,以產生新系統詞彙是將含 後直接加入未知的代稱而義之早位先灯重組 囊產生裝置,在新糸統詞彙。上述之詞 單位後再進行重组二例:入部分有意義之 系統詞囊。 代稱以產生新的 法,㈣囊產生方 音義之Μ 彙產生對應之多數含有 以二并:後:含有意義之單位以及未知的代稱 之二::::以便將斷詞單元所產生含有意義 接:::二的代稱而合成多數個新系統詞彙,以 &供语音辨識系統用以進行語音辨識。1菜 7 -DRC/TW 14885twfl .doc/006 96-8-28 *產詞彙產生方法,其中根據每個原始系統詞 莱對應之含有意義之單位為多數個字或詞。 人有音例中、,上述的詞囊產生方法’其中根據 作,以^ 早位以及未知的代稱進行詞彙合併操 而以去4沾斤Λ統詞囊是掩棄部分之含有意義之單位 八格Iσ的代稱所代替。或是將含有意義之單位之部 :蔣人m知的代稱所代替。在-實施例中, 疋、3思義之單位直接加入該未知的代稱。 數個ί:!施例中,是將含有意義之單位直接加入多 義之::ΐ知的代稱。在另一實施例中,是將含有意 早行重組後直接加入一個或多個未知的代 稱而產生新系統詞彙。 =士述之目的’本發明提出—種具有詞囊產生 裝置之曰辨識系統,包括原始系統詞彙資料庫、耒 知的代稱資料庫、斷詞單元與詞囊產生;=原: 糸統列菜資料庫用以儲存多數個原始系統詞彙。此未 ^的代稱資料庫用以儲存錄個未知的代稱。此斷詞 二,·用以接收上述之原始系統詞彙,並進行斷詞 二enize)操作,並根據每個原始系統詞彙產生對應 =多數含有意義之單位。而詞彙產生單元連接到斷詞 早π與未知的代稱資料庫,用以接收含有意義之單位 j及未知的代稱,並進行詞彙合併操作,以便將斷詞 =所產生含有意義之單位結合未知的代稱而合成 夕數個新系統詞彙。 8 13142¾
F4-DRC/TW 14885twfl .doc/006
96-8-28 上述之語音辨識系統,在一實施例中,其詞彙產 生單元將接收含有意義之單位以及未知的代稱進行 詞彙合併操作,以產生新系統詞彙是捨棄部分之含有 意義之單位而以未知的代稱所代替。 上述之語音辨識系統,在一實施例中,其詞彙產 生單元將接收含有意義之單位以及未知的代稱進行 詞彙合併操作,以產生新系統詞彙是將含有意義之單 位之部分捨棄,並加入未知的代稱所代替。 上述之語音辨識系統,在一實施例中,其詞彙產 生單元將接收含有意義之單位以及未知的代稱進行 詞彙合併操作,以產生新系統詞彙是將含有意義之單 位直接加入一個或多個未知的代稱。 上述之語音辨識系統,在一實施例中,其詞彙產 生單元將接收含有意義之單位以及未知的代稱進行 詞彙合併操作,以產生新系統詞彙是將含有意義之單 位先行重組後直接加入未知的代稱而產生新系統詞 彙。 【實施方式】 本發明提出一個詞彙產生方法、裝置及運用上述 詞彙產生裝置之語音辨識系統。此詞彙產生方法可增 加語音辨識系統的彈性,使得使用者在不能準確的說 出系統命令時,可以使用本發明特別定義的一種“未 知的代稱"(Unknown Code Word)來代替命令中不能 確定的部分。
I3142JX DRC/TW 14885twfl.doc/006 hi”".,96·8·28
語音辨識系統的主要流程如圖彳所示,在語者輸 I,一段語音訊號後,語音辨識系統1〇〇經由一語音 知·徵值擷取單元110擷取出此語音訊號的特徵值 _ ures)而後,然後根據此語音辨識系統1 〇〇的 ,彙特徵模型比對單元12◦對此語音訊號所榻取出 來,特徵值進行詞彙模型的比對,而此比對是根據一 詞彙資料庫130取得系統詞彙及其特徵模型後,由 詞彙特徵模型比對單元12G根據詞彙取得相近的模 並輸出至辨識決定單元⑽,依照既定的規則 ule)彳于到對應於此語音訊號的辨識詞句 (Recognized Text)之辨識結果。 所謂系統的『詞彙特徵模型』,乃是由系統預定 辨識的每一個『詞彙〈Vocabulary〉』的『特徵模型 所組成。因此,當語者輸人的語音訊號片段的特徵值
和某一個『詞彙特徵值』相同或相似時,便可將該語 音訊號片段辨識為該『詞彙模型』所 Λ二 反之,如絲料⑽肢y詞彙』不能確因 =說出和系統職不同的詞彙時,其『特徵值』便不 此對應任一個模型,自然無法辨識出任何結果。 /以美國專利5,218,668為例,其方法是°在 型Λ對(Pattem CGmpa「is。啦將語音訊號的特 政值’和糸統5司彙〈System Vocabulary〉』以及『非 系,詞彙〈Filler〉』作比較’來決定辨識的結果。其 問題在於’當語者無法正確的說出系統詞彙時,便^ 10 1314m DRC/TW 14885twfl.doc/006 I 96-8-28
I 被辨識成非系統詞彙或是被誤判為某個系統詞彙,即 便語者知道該系統詞彙的大部分。 而根據本發明之利用“未知的代稱"(Unknown Code Word),來增加語音辨識系統的彈性,使得語 者在不確定系統『詞彙』的時候,可以採用模糊的語 法來進行查詢。而此“未知的代稱"(Unknown Code Word,底下簡稱UCW),為一個或多個固定的片語, 其功用在於取代一個『詞彙』中不確定的部分。 例如,在使用中文時,經常利用『什麼』來代替 不確定的字、詞;如使用『什麼』這個詞當作系統的 UCW時,當某個使用者打算查詢有關於元朝晝家『趙 孟頫』的資料時,卻突然忘記了『頫』這個字個念法, 或是不能確定第三個字是什麼。 根據本發明之實施例,語者便可以用『趙孟什麼』 這樣配合UCW來進行查詢。而辨識系統在得到辨識 的結果後,便可利用『趙』以及『孟』這兩個資訊來 進行查詢。 請參照圖2,是說明本發明一較佳實施例之詞彙 產生裝置及其方法之電路方塊圖。此詞彙產生裝置 200包括一斷詞單元(Tokenize Unit)220、一詞彙產 生單元(Vocabulary Generation Unit)230 與一 “未知 的代稱"(Unknown Code Word,UCW)資料庫 240。 本發明較佳實施例之詞彙產生裝置及其方法,首先, 斷詞單元(丁〇1<611丨26 1^4)220用以連接到一原始系統 11 I3142721.drc/tw _,doc/006 96-8-28 ” J料庫210,並用以接收系統詞彙。此原始系統 料庫210 &语音辨識系統所原有的系統詞彙 _庫。而未知的代稱(UCW)資料庫24〇之 統ΐ先定義的詞彙,以及使用者所自行定義之多數個 詞菜。 此斷詞單元220根據所接收的系統詞囊進行斷 詞⑽—句操作。主要是將個別之系統詞彙分割為 料的單位之含有意義之單位(Meaningfu丨_,底 *這裡所謂的含有意義之單位可以是 子或疋岡,依照整個辨識系統的需要而定。 ,詞彙產生單元(Vocabu|a「y Generat丨〇n 接收斷詞單7所產生的含有意義 =早位_’並根據“未知的代稱”(unkn〇wn c〇de 資料庫240之内容,將詞囊合併
La/:::广咖丨0⑴’以便將斷詞的結果配合 料庫_賴彙,並輸ώ至㈣、統詞彙資 邱八的μΓι也例中’產生新的系統詞自時,可以捨棄 產:?=、ucw代替,例如,『亡羊補牢』可以 是本㈣其ί麵』以及『什麼補牢』等詞彙。此就 的時候,採用模統『詞彙』 在另外實知例中,產生新的詞彙時可以捨棄部 12 I3l4m DRC/TW 14885twfl .doc/006 I3l4m DRC/TW 14885twfl .doc/006 Λ 96-8-28 二=MU、例如’『中華民國專利公報』可以產生『專 太·以及『中華專利公報』等詞彙。也就是說, ^月除了利用“未知的代稱,,(u c w),來增加語音辨 =糸=的彈性使得語者在不確定线『詞彙』 原妒的“…1 進仃查詢。也可重組整個 原始的系統㈣菜,產生重組後新的系統詞彙。 接插之—實施财,產生新㈣彙時可以直 = UCW,例如『專利公報』可以產生『專利什 麼A報』以及『什麼專利公報』等詞囊。 &二t發明之另一實施例中,亦可在產生新的詞 以吝在『击二 例中華民國專利公報』可 乂產生專利什麼中華民國公報』。 本發明之利用“未知的代稱,,(ucw),使得扭者在 :確2統;詞棄』的時候,可以採用模糊的;法來 、盯—D旬’在—實施例中,可以在產生新的詞彙時可 的ucw’例如『中華民國專利公報』 w 申華民國什麼專利什麼公報』。此可更有 2增加語音辨識系統的彈性。也可同時採取以上的 /例如’『中華民國專利公報』可以產生『專利 什麼公報』以及『中華專利什麼公報』等詞彙。 本發明所提出的詞彙產生裝置及其方法,主 =生新的系統詞彙資料庫。而底下將說 ς 本發明用以產生新系統詞彙資料後 實際的語音辨識⑽中。以—個電視節目的 13142¾ r4-DRC/TW 14885twfl.d〇c/〇〇6 { 年 Li§-8. 曰修 96-8-28 半=的新『!相關節目—共包括了:『早安您好 〜占丰新聞』、早安您好七點新聞』、『二視“新 ,觀====;的=節"於 能使用語音的功能實在是太二::本二 這六個”名稱進行 麼新門、;二如.『早安什麼新聞』,『早安您好什 t視什麼新聞』’『台視新聞』,『台視午間 ==ΐ,什麼台語新聞』等等數個系統詞彙。而 使用者便可使用這些新辦& _ 如『早安什麼新聞』—便;對應到 聞』’『早安您好七點新聞』兩個節 個二目,再由使用者來進行選擇。而、『什麼 聞』則可以對應到『台視台語新聞』,這個節 會擴==本專利的處理後,系統詞彙的數量將 右:料處、—的糸統词菜有的對應到單-個節目,也 户々於I到複數的節目’而使用這—類系統詞彙的好 二;!1者不需要記憶完整的系統詞彙,僅需記憶 ::田/重要的部分,便可使用系統的功能。因 立㈣本發明所提出的詞彙產生裝置及其方法之語 、統’可增加語音辨識系統的彈性,使得使用 你不能準確的說出系統可辨識的語音命令時,可以 用特別定義的一種“未知的代稱,,(Unkn〇wn c〇de 14 13142¾ 4-DRC/TW 14885twfl .doc/006 U8日修正替换頁96-8-28
Word)來代替命令中不能確定的部分以提升使用者 之使用方便性。 雖然本發明已以較佳實施例揭露如上,然其並非 用以限定本發明,任何熟習此技藝者,在不脫離本發 明之精神和範圍内,當可作些許之更動與潤飾,因此 本發明之保護範圍當視後附之申請專利範圍所界定 者為準。 【圖式簡單說明】 圖1是說明語音辨識的主要流程。 圖2是說明本發明一較佳實施例之詞彙產生裝置 及其方法之電路方塊圖。 【主要元件符號說明】 100 語音辨識系統 110 語音特徵值擷取單元 120 詞彙特徵模型比對單元 130 詞彙資料庫 140 辨識決定單元 200 詞彙產生裝置 210 原始系統詞彙資料庫 220 斷詞單元(Tokenize Unit) 230 Unit) β司菜產生单元(Vocabu丨ary Generation 240 UCW資料庫 250 新系統詞彙資料庫 15

Claims (1)

1314271 年月 日修 正本 98-4-15 十、申請專利範圍: 1、一種詞彙產生裝置,包括 、—一斷詞早兀,用以接收多數個原始系統詞彙,並 ,仃斷g (Tokemze)操#,並分割每個該原始系統詞 = 多數含有意義之單位’其㈣些原始系统 -司菜疋來自一 S吾音辨識系統; 了未知的代稱資料庫’用以儲存多數個未知的代 稱,以及 持產生單元’連接到該斷詞單元與該未知的 用以接收該些含有意義之單位以及該ΐ 元所產2此 作’以便將該斷詞單 而合成多數個新系統詞彙早G 口遠些未知的代稱 货晋2 2申請專利範圍第1項所述之-種詞彙產生 裝置,其中該斷詞單元根據每轉, 對應之該些含有意義之單位為多數^產生 專利範圍第1項所述之一種詞彙產生 單元根據每個該原始系統詞彙產生 對應之該些含有意義之單位為多數個詞。產生 梦晉4盆t申請專利範圍第1項所述之一種詞彙產生 裝置,其中該些原始系統詞 =產生 所原5有的系統:_料庫内之多數個二=識系統 σ申口月專利範圍第1項所述一 裝置,其中該虺未知的 k之種同莱產生 一的代無祠彙是根據使用者所自行 16 1314271 98-4-15 I I月輯 〗激 JLL„—一 定義之多數個詞彙。 6、 如申請專利範圍第1項所述之一種詞彙產生 裝置,其中該詞彙產生單元將接收該些含有意義之單 位以及該些未知的代稱進行詞彙合併操作,以產生該 些新系統詞彙是捨棄部分之含有意義之單位而以未 知的代稱所代替。 7、 如申請專利範圍第1項所述之一種詞彙產生 裝置,其中該詞彙產生單元將接收該些含有意義之單 位以及該些未知的代稱進行詞彙合併操作,以產生該 些新系統詞彙是將含有意義之單位之部分捨棄,並加 入該未知的代稱所代替。 8、 如申請專利範圍第1項所述之一種詞彙產生 裝置,其中該詞彙產生單元將接收該些含有意義之單 位以及該些未知的代稱進行詞彙合併操作,以產生該 些新系統詞彙是將含有意義之單位直接加入該未知 的代稱。 9、 如申請專利範圍第1項所述之一種詞彙產生 裝置,其中該詞彙產生單元將接收該些含有意義之單 位以及該些未知的代稱進行詞彙合併操作,以產生該 些新系統詞彙是將含有意義之單位直接加入多數個 該些未知的代稱。 1 0、如申請專利範圍第1項所述之一種詞彙產生 裝置,其中該詞彙產生單元將接收該些含有意義之單 位以及該些未知的代稱進行詞橐合併操作,以產生該 17 1314271 Jk 秀 4-15 些新系統詞彙是將含有意義之單位先行重組後直接 加入该些未知的代稱而產生該些新系統詞彙。 11、如申請專利範圍第1項所述之一種詞彙產 裝置,其中該詞彙產生單元將接收該些含 =些未知的代稱進行詞囊合軸,=略: 刀有1義之單位後再進行重組以產生新的系統詞囊。 I置盆請專利範圍第1項所述之—種詞彙產生 裝翠二中該祠彙產生單元將接收該些含有意義之單 位以及該夫知的此餘、隹A 早 土 1 的代稱進仃词彙合併操作,是將該此 未知的代稱加入以產生新的系統詞彙。 — 13、一種詞彙產生方法,適用於一語音 統,該語音辨識系統具有一 °糸 方法包括: /、另原始糸統闷菜貧料庫,該 r Si 彙㈣庫内的多數個原始系統 -司莱進订辦同(丁〇kenjZe)择作 、、 統詞囊為對叙錄含個該原始系 行二 =意1之單位"及該些未知的代稱進 统詞囊,《提:該二辨;的二稱而合成多數個新系 =音其義中之根。?:,原始系統詞彙產生 二3肩w義之早位為多數個字。 15、如申請專利範圍第13項所述之-種詞彙產 18 1314271
Ί 98-4-15 ί =汉中根據每個該原始系統詞彙產生對應之兮 -3有忍義之單位為多數個詞。 ^ 生方1:、Λ申請專利範圍第13項所述之-種詞彙產 其中根據該些含有意義之單位以及該= 囊合併操作,以產生該些新系統以 :2:ί意義之單位而以未知的代稱所代替。 生方法料·圍第13項所叙—種詞彙產 生方法,其中根據該些含 座 的代稱進行气*入舒:義之早位以及該些未知 將含有音義之m以產生該些新系統詞彙是 所代ir、義之早位之部分捨棄,並加入該未知的代稱 生方1 法8、;^/請專利範圍第13項所述之—種詞彙產 的據人該些含有意義之^ J代辑進仃同彙合併操作, 將含有意義之置古& 二新系統詞彙是 “ 直接加入該未知的代稱。 生方法專H圍第13項所述之一種詞彙產 =爯;行詞囊合併操作,以產生該 2。意;:單位直接加入多數個該:二知= 生方法丄申請專利範圍第13項所述之一種詞囊產 代稱進行;f義之單心域些未知的 輪而產生該些新系統詞彙。 该二未知的代 19 1314271 98, 5 正替換頁丨 >8-4-15 生方法申4專利範圍第13項所述之一種詞彙產 的^淮 據該些含有意義之單位以及該些未知 位後莱合併操作,是省略部分含有意義之單 Υ後再進仃重組以產生新的系統詞彙。 =、如申請專利範圍帛13項所述之—種詞囊產 =進其Ml據該些含有意義之單位以及該些未知 S t囊合併操作,是加入該些未知的代稱以 座生新的糸統詞彙。 括:23、-種具有詞彙產生裝置之語音辨識系統,包 統詞彙原始系統詞彙資料庫’用以儲存多數個原始系 稱;一未知的代稱資料庫,用以儲存多數個未知的代 行斷;=單元,用以接收該些原始系統詞彙,並進 為對應之多數含有意義之單位;以及 果 代稱;產ί單元,連接到該斷詞單元與該未知的 =冉貝科庫,用以接收該些含有意義之單位以及該些 ’並進行詞囊合併操作,以便將該斷詞單 以些合有意義之單位結合該些未知的代稱 而合成多數個新系統詞彙。 24、如申請專利範圍第&項所述之語音辨識 、、以中該4彙產生單元將接收該些含有意義之單位 20 1314271 曰修.正替_ 98-4-15 以及該些未知的代稱進行詞彙合併操作,以產生該些 新系統.詞彙是捨棄部分之含有意義之單位而以未知 的代稱所代替。 25、 如申請專利範圍第23項所述之語音辨識系 統,其中該詞彙產生單元將接收該些含有意義之單位 以及該些未知的代稱進行詞彙合併操作,以產生該些 新系統詞橐是將含有意義之單位之部分捨棄,並加入 該未知的代稱所代替。
26、 如申請專利範圍第23項所述之語音辨識系 統,其中該詞彙產生單元將接收該些含有意義之單位 以及該些未知的代稱進行詞囊合併操作,以產生該些 新系統詞彙是將含有意義之單位直接加入該未知的 代稱。 27、 如申請專利範圍第23項所述之語音辨識系 統,其中該詞彙產生單元將接收該些含有意義之單位 以及該些未知的代稱進行詞彙合併操作,以產生該些 新系統詞彙是將含有意義之單位直接加入多數個該 些未知的代稱。 28、 如申請專利範圍第23項所述之語音辨識系 統,其中該詞彙產生單元將接收該些含有意義之單位 以及該些未知的代稱進行詞彙合併操作,以產生該些 新系統詞彙是將含有意義之單位先行重組後直接加 入該些未知的代稱而產生該些新系統詞彙。 2 9、如申請專利範圍第2 3項所述之語音辨識系 21 1314271 厂------------ 曰修正替換頁98-4-15 • 統,其中該詞彙產生單元將接故該些含有意義之單位 以及該些未知的代稱進行詞彙合併操作,是將部分之 ( 含有意義之單位省略後再進行重組以產生新的系統 詞彙。 30、如申請專利範圍第23項所述之語音辨識系 統,其中該詞彙產生單元將接收該些含有意義之單位 以及該些未知的代稱進行詞彙合併操作,是將該些未 知的代稱加入以產生新的系統詞彙。 22 13142¾ 4-DRC/TW 14885twfl .doc/006 96-8-28 七、指定代表圖: (一) 本案指定代表圖為:第(2 )圖。 (二) 本代表圖之元件符號簡單說明: 200 詞彙產生裝置 210 原始系統詞彙資料庫 220 斷詞單元(Tokenize Unit) 230 詞彙產生單元(Vocabulary Generation Unit) 240 UCW資料庫 250 新系統詞彙資料庫 八、本案若有化學式時,請揭示最能顯示發明特徵 的化學式: 無0
4
TW094102410A 2005-01-27 2005-01-27 Vocabulary generating apparatus and method thereof and speech recognition system with the vocabulary generating apparatus TWI314271B (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW094102410A TWI314271B (en) 2005-01-27 2005-01-27 Vocabulary generating apparatus and method thereof and speech recognition system with the vocabulary generating apparatus
US11/288,728 US8417510B2 (en) 2005-01-27 2005-11-28 Vocabulary generating apparatus and method, speech recognition system using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW094102410A TWI314271B (en) 2005-01-27 2005-01-27 Vocabulary generating apparatus and method thereof and speech recognition system with the vocabulary generating apparatus

Publications (2)

Publication Number Publication Date
TW200627196A TW200627196A (en) 2006-08-01
TWI314271B true TWI314271B (en) 2009-09-01

Family

ID=36698021

Family Applications (1)

Application Number Title Priority Date Filing Date
TW094102410A TWI314271B (en) 2005-01-27 2005-01-27 Vocabulary generating apparatus and method thereof and speech recognition system with the vocabulary generating apparatus

Country Status (2)

Country Link
US (1) US8417510B2 (zh)
TW (1) TWI314271B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8655655B2 (en) 2010-12-03 2014-02-18 Industrial Technology Research Institute Sound event detecting module for a sound event recognition system and method thereof

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8943024B1 (en) 2003-01-17 2015-01-27 Daniel John Gardner System and method for data de-duplication
US8375008B1 (en) 2003-01-17 2013-02-12 Robert Gomes Method and system for enterprise-wide retention of digital or electronic data
US8527468B1 (en) 2005-02-08 2013-09-03 Renew Data Corp. System and method for management of retention periods for content in a computing system
US20080189273A1 (en) * 2006-06-07 2008-08-07 Digital Mandate, Llc System and method for utilizing advanced search and highlighting techniques for isolating subsets of relevant content data
US20100198802A1 (en) * 2006-06-07 2010-08-05 Renew Data Corp. System and method for optimizing search objects submitted to a data resource
US8615490B1 (en) 2008-01-31 2013-12-24 Renew Data Corp. Method and system for restoring information from backup storage media
US20110145269A1 (en) * 2009-12-09 2011-06-16 Renew Data Corp. System and method for quickly determining a subset of irrelevant data from large data content
US8738668B2 (en) 2009-12-16 2014-05-27 Renew Data Corp. System and method for creating a de-duplicated data set
CN106326307A (zh) * 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种语言交互方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5218668A (en) 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
US6088669A (en) * 1997-01-28 2000-07-11 International Business Machines, Corporation Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling
US7120582B1 (en) * 1999-09-07 2006-10-10 Dragon Systems, Inc. Expanding an effective vocabulary of a speech recognition system
US7302381B2 (en) * 2000-12-30 2007-11-27 Intel Corporation Specifying arbitrary words in rule-based grammars
US7925506B2 (en) * 2004-10-05 2011-04-12 Inago Corporation Speech recognition accuracy via concept to keyword mapping

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8655655B2 (en) 2010-12-03 2014-02-18 Industrial Technology Research Institute Sound event detecting module for a sound event recognition system and method thereof

Also Published As

Publication number Publication date
US20060167679A1 (en) 2006-07-27
TW200627196A (en) 2006-08-01
US8417510B2 (en) 2013-04-09

Similar Documents

Publication Publication Date Title
TWI314271B (en) Vocabulary generating apparatus and method thereof and speech recognition system with the vocabulary generating apparatus
CN107220343B (zh) 基于局部敏感哈希的中文多关键词模糊排序密文搜索方法
US7552469B2 (en) Method for generating mnemonic random passcodes
CN103885949B (zh) 一种基于歌词的歌曲检索系统及其检索方法
CN105531758B (zh) 使用外国单词语法的语音识别
US10887292B2 (en) Obfuscated haptic interfaces with natural interaction steganography
WO2012095696A2 (en) Text segmentation with multiple granularity levels
KR101965887B1 (ko) 대량 데이터 기반 의미 오류 교정 규칙 생성 및 의미 오류 교정 방법, 이를 구현한 오류 교정 시스템
JP2003196280A (ja) テキスト生成方法及びテキスト生成装置
CN111552777B (zh) 一种音频识别方法、装置、电子设备及存储介质
CN111178076A (zh) 命名实体识别与链接方法、装置、设备及可读存储介质
CN104199811B (zh) 短句解析模型建立方法及系统
TWI235962B (en) Method for converting high level motion scripts to computer animations
Chien et al. Internet Chinese information retrieval using unconstrained mandarin speech queries based on a client-server architecture and a PAT-tree-based language model
Engonopoulos et al. Generating effective referring expressions using charts
JP4845523B2 (ja) 文字処理装置、方法、プログラムおよび記録媒体
CN115831117A (zh) 实体识别方法、装置、计算机设备和存储介质
Zheng A syllable-synchronous network search algorithm for word decoding in Chinese speech recognition
Saule et al. Counting RNA pseudoknotted structures
Cook Lexical coinages in Mandarin Chinese and the problem of classification.
Che et al. Improving mandarin prosodic boundary prediction with rich syntactic features
TW201117054A (en) Computer input system and input method thereof
Weng et al. Latent semantic rational kernels for topic spotting on conversational speech
Sproat Lexical analysis
JP2005190185A (ja) 類似文選択方法、類似文選択装置、および、類似文選択プログラムの記録媒体

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees