TW202011384A

TW202011384A - 語音校正系統及語音校正方法

Info

Publication number: TW202011384A
Application number: TW107132155A
Authority: TW
Inventors: 陳怡玲; 宋志偉; 簡佑丞; 陳冠中
Original assignee: 廣達電腦股份有限公司
Priority date: 2018-09-13
Filing date: 2018-09-13
Publication date: 2020-03-16
Also published as: CN110895938A; CN110895938B; US20200090639A1; US11069341B2

Abstract

一種語音校正系統，包含：一儲存裝置、一音訊接收器以及一處理裝置。處理裝置包含一語音辨識引擎以及一判斷模組。儲存裝置儲存一資料庫。音訊接收器接收一指令語音。語音辨識引擎辨識指令語音中的一關鍵語音，並產生對應關鍵語音的一候選字彙列表及一音轉碼。候選字彙列表包含關鍵語音對應到的一候選字彙及候選字彙對應到的一字彙分數。判斷模組判斷字彙分數是否大於一分數門檻值，若字彙分數大於分數門檻值，則將字彙分數所對應的候選字彙儲存至資料庫，若候選字彙列表中的所有字彙分數皆不大於分數門檻值，則將音轉碼儲存至資料庫。

Description

語音校正系統及語音校正方法

本發明是關於一種接收語音的系統，特別是關於一種語音校正系統及語音校正方法。

近年來，隨著電子裝置的發展，電子裝置例如為手機、平板、車用導航系統等等電子產品，使用者將資訊輸入至電子裝置的方式越來越多元，例如，使用者以語音方式，將資訊輸入至電子裝置。目前的語音軟體(例如Google、微軟所開發的語音軟體)大部分是在接收語音後，經過雲端伺服器或語言分析引擎或模型進行運算，以找出媒合此語音的一或多個字彙，並利用使用者介面詢問此一或多個字彙是否為使用者所述的內容，藉此讓使用者確認是否正確，若使用者確認正確，則直接輸出正確的字彙，若使用者確認所有媒合字彙皆錯誤，則輸入正確的字彙於語言分析引擎內，重新訓練語音分析機制。

然而，此種語音系統之缺點為需要一直詢問使用者，才能使系統修改語言分析模型並進行校正，造成使用者的不便。

由此可見，上述現有的方式，顯然仍存在不便與缺陷，而有待加以進一步改進。

為了解決上述的問題，本揭露內容之一態樣提供了一種語音校正系統，包含：一儲存裝置、一音訊接收器以及一處理裝置。處理裝置包含一語音辨識引擎以及一判斷模組。儲存裝置儲存一資料庫。音訊接收器接收一指令語音。語音辨識引擎辨識指令語音中的一關鍵語音，並產生對應關鍵語音的一候選字彙列表及一音轉碼；其中候選字彙列表包含關鍵語音對應到的一候選字彙及候選字彙對應到的一字彙分數。判斷模組判斷字彙分數是否大於一分數門檻值，若字彙分數大於分數門檻值，則將字彙分數所對應的候選字彙儲存至資料庫，若候選字彙列表中的所有字彙分數皆不大於分數門檻值，則將音轉碼儲存至資料庫。

本發明之另一態樣係於提供一種語音校正方法包含：接收一指令語音，辨識該指令語音中的一關鍵語音，並產生對應關鍵語音的一候選字彙列表及一音轉碼；其中候選字彙列表包含關鍵語音對應到的一候選字彙及該候選字彙對應到的一字彙分數；以及判斷字彙分數是否大於一分數門檻值，若字彙分數大於分數門檻值，則將字彙分數所對應的候選字彙儲存至一資料庫，若該候選字彙列表中的所有字彙分數皆不大於分數門檻值，則將音轉碼儲存至資料庫。

本發明所示之語音校正系統及語音校正方法，能在輸入語音指令時，隨著使用者口音不同或是輸入的是新種類的字彙，進行關鍵語音的辨識，當語音校正系統辨識不出來字彙時，可藉由音轉碼作記錄，使得語音校正系統的回應能讓使用者也聽得懂，由於所有字彙都可以儲存在使用者自身的電子裝置上，即應用程式的本地端，無需將語音上傳雲端進行比對，因此可以提供不同使用者客製化的語音字彙辨識效果，由於無需將關鍵語音上傳雲端進行比對，只需在應用程式的本地端與資料庫的內容作比對，故提升了關鍵語音與字彙比對的效率。

以下說明係為完成發明的較佳實現方式，其目的在於描述本發明的基本精神，但並不用以限定本發明。實際的發明內容必須參考之後的權利要求範圍。

必須了解的是，使用於本說明書中的”包含”、”包括”等詞，係用以表示存在特定的技術特徵、數值、方法步驟、作業處理、元件以及/或組件，但並不排除可加上更多的技術特徵、數值、方法步驟、作業處理、元件、組件，或以上的任意組合。

於權利要求中使用如”第一”、"第二"、"第三"等詞係用來修飾權利要求中的元件，並非用來表示之間具有優先權順序，先行關係，或者是一個元件先於另一個元件，或者是執行方法步驟時的時間先後順序，僅用來區別具有相同名字的元件。

請參照第1~3圖，第1圖係依照本發明一實施例繪示語音校正系統100之方塊圖。第2圖係根據本發明之一實施例繪示一種語音校正方法200之示意圖。第3圖係根據本發明之一實施例繪示一種語音校正方法300之示意圖。

如第1圖所示，語音校正系統100包含一儲存裝置10、一音訊接收器20及一處理裝置30。其中，處理裝置30包含一語音辨識引擎31及一判斷模組35。於一實施例中，處理裝置30更包含一分析模組37及一比對模組39。

於一實施例中，儲存裝置10可被實作為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之儲存媒體。於一實施例中，儲存裝置10用以儲存資料庫DB(如第2圖所示)。

於一實施例中，音訊接收器20用以接收一語音指令。於一實施例中，音訊接收器20可以是一麥克風或其他具有收音功能的裝置。

於一實施例中，處理裝置30可以是任何具有運算功能的電子裝置。於一實施例中，語音辨識引擎31、判斷模組35、分析模組37及比對模組39可以各別或合併由體積電路如微控制單元(micro controller)、微處理器(microprocessor)、數位訊號處理器(digital signal processor)、特殊應用積體電路(application specific integrated circuit，ASIC)或一邏輯電路來實施。

於一實施例中，請參第2圖，音訊接收器20用以接收一音訊指令，分析模組37用以接收來自音訊接收器20的指令語音SIG1。

於此例中，指令語音SIG1為“Put an Apple”，當音訊接收器20接收到此指令語音SIG1後，會將此指令語音SIG1傳送到分析模組37，接著，分析模組37對指令語音SIG1進行前處理，以取得一關鍵語音。於一實施例中，指令語音可包含指令以及關鍵語音。指令是指使用者欲進行的操作，其係已先定義於語音校正系統100中，例如系統開發者將指令定義並儲存於儲存裝置10，例如為“Put”、“Get”、“Open”…等。關鍵語音則非系統所預先定義，關鍵語音是指使用者想要進行操作的對象，例如為“Apple”、“Orange”、“frige” ，換句話說，關鍵語音可以是指令語音中除指令“Put”以外的字彙。

於一實施例中，當指令語音SIG1為“open frige”，其代表的涵義為致能(enable)一應用程式，此應用程式例如為冰箱管理應用程式。於一實施例中，使用者可以透過對冰箱管理應用程式(例如安裝於手機、平板、電腦…等)以輸入指令語音SIG1。於一實施例中，指令語音SIG1可以是一連串的語音，例如為“Put an Apple”、“Put an Orange”、“finish”(代表關閉此應用程式)，藉此，使用者可以在自身的電子裝置上(本地端，例如為手機)紀錄冰箱中的食物類別、行為(即指令)及/或數量。然而，本發明並不限於應用於冰箱管理系統，亦可以應用在其他管理系統。

於一實施例中，分析模組37對指令語音SIG1進行的前處理是運用去雜訊、分析音節、擷取斷句等已知的技術，以萃取指令及/或關鍵語音，故此處不贅述之。

接著，關鍵語音被傳送至語音辨識引擎31，語音辨識引擎31用以辨識指令語音中的關鍵語音，並產生對應關鍵語音的一候選字彙列表LST1及一音轉碼(例如第2圖所示的：“Aipo”)；其中候選字彙列表LST1包含關鍵語音對應到的候選字彙(例如第2圖所示的：“Apple”、“Applet”、“Apply”及 “Pineapple”)及候選字彙對應到的字彙分數(例如：“Apple”對應到的字彙分數為0.987、“Applet” 對應到的字彙分數為0.941、“Apply”對應到的字彙分數為0.903及“Pineapple”對應到的字彙分數為0.862)；字彙分數越高代表字彙與關鍵語音的符合程度越高。

於另一實施例中，如第3圖所示，分析模組37由音訊接收器20接收一指令語音SIG2，於此例中，指令語音SIG2為“Put Toufu”(使用者可能是想輸入中式食材的一種食物”豆腐”，其發音為“Toufu”)，分析模組37對指令語音SIG2進行前處理，以取得指令及/或關鍵語音。接著，關鍵語音被傳送至語音辨識引擎31，語音辨識引擎31用以辨識指令語音中的關鍵語音，並產生對應關鍵語音的一候選字彙列表LST3及一音轉碼(例如第3圖所示的：“Toufu”)；其中候選字彙列表LST3包含關鍵語音對應到的候選字彙(例如第3圖所示的：“Tofu”及 “Kungfu”)及候選字彙對應到的字彙分數(例如：“Tofu”對應到的字彙分數為0.932、“Kungfu” 對應到的字彙分數為0.895)。

於一實施例中，語音辨識引擎31可以選用已知的語音辨識程式(例如為Google speech API、微軟的Azure )以實現之，音轉碼亦可以選用已知的語音辨識程式以產生。

於一實施例中，語音辨識引擎31包含至少一語音辨識程式。於一實施例中，音轉碼與候選字彙列表LST1可以由相同或不同的語音辨識程式以產生。

於一實施例中，音轉碼為一羅馬拼音或其他自然語言拼音法，語音辨識引擎31產生對應音轉碼之一語音代碼(例如於第2圖中，音轉碼“Apio”的對應語音代碼為 “0x13c”，又例如於第3圖中，音轉碼“Toufu”的對應語音代碼為 “0x254”)，語音代碼的產生有利於其他部分的程式撰寫。

於一實施例中，第2圖所示的音轉碼與對應其之語音代碼可以儲存於一音轉表LST2中。於一實施例中，第3圖所示的音轉碼與對應其之語音代碼可以儲存於音轉表LST4中。

於一實施例中，判斷模組35用以判斷字彙分數是否大於一分數門檻值(例如為0.95)，若字彙分數大於分數門檻值，則將字彙分數所對應的候選字彙儲存至資料庫DB，若候選字彙列表LST1中的所有字彙分數皆不大於分數門檻值，則將音轉碼儲存至資料庫DB。

於一例子中，如第2圖所示，當語音校正系統100設定分數門檻值為0.95時，判斷模組35判斷候選字彙列表LST1中每個字彙分數是否大於分數門檻值，候選字彙列表LST1中 “Apple”對應到的字彙分數為0.987大於分數門檻值，因此，判斷模組35將“Apple”寫入資料庫DB中。

於另一例子中，如第3圖所示，當語音校正系統100設定分數門檻值為0.95時，判斷模組35判斷候選字彙列表LST3中每個字彙分數是否大於分數門檻值，當判斷模組35判斷候選字彙列表LST3中所有字彙分數皆不大於分數門檻值，則判斷模組35將音轉碼“Toufu”寫入資料庫DB中。

於一實施例中，字彙候選名單LST1包含關鍵語音對應到的多個候選字彙，且此些候選字彙各自對應到一字彙分數，判斷模組35判斷此些字彙分數中是否存在至少一大於分數門檻值者，若判斷模組35判斷此些字彙分數之中存在該至少一大於分數門檻值者，則將至少一大於分數門檻值者中最大值所對應的候選字彙儲存至資料庫DB。

舉例而言，如第2圖所示，當語音校正系統100設定分數門檻值為0.90時，候選字彙列表LST1中“Apple”對應到的字彙分數為0.987、“Applet” 對應到的字彙分數為0.941、“Apply”對應到的字彙分數為0.903皆大於分數門檻值(0.90)，則判斷模組35將此些大於分數門檻值的字彙分數之最大值者(0.987)所對應的候選字彙“Apple”寫入資料庫DB中。

於一實施例中，當音訊接收器20接收到多次不同的指令語音，可以將最後判斷模組35所判斷出的候選字彙都存入資料庫DB中，例如先執行第2圖所示的流程得到“Apple”的輸出結果，再接著執行第3圖所示的流程得到“Toufu”的輸出結果，最終在資料庫DB中會儲存“Apple”及“Toufu”兩筆資料。

於一實施例中，分數門檻值可以依實際系統環境調整。

接著，請參閱第4圖，第4圖係根據本發明之一實施例繪示一種語音校正方法400之示意圖。於第4圖中，當音訊接收器20接收到指令語音SIG3，例如為“Get Toufu”時，音訊接收器20將指令語音SIG3傳送到分析模組37，以進行前處理，當分析模組37完成前處理後，分析模組37將關鍵語音傳送到比對模組39，比對模組39接收此關鍵語音，將此關鍵語音與資料庫DB中的候選字彙及音轉碼，即資料庫DB中的所有字彙及音轉碼，例如第4圖所示之“Apple”、“Orange”、“Cherry”…“Toufu”)作比對，以產生一比對結果列表LST5，比對結果列表LST5包含候選字彙及音轉碼各自對應的一比對分數(例如 “Apple”對應的比對分數為0.553、“Orange” 對應的比對分數為0.436、“Cherry” 對應的比對分數為0.287…“Toufu” 對應的比對分數為0.989)，接著，判斷模組35判斷各比對分數是否大於一比對門檻值(例如為0.95)，並輸出此些比對分數中大於比對門檻值之最大者所對應的候選字彙或音轉碼。於此例中，“Toufu” 對應的比對分數(例如為0.989)大於比對門檻值(例如為0.95)，故輸出結果OBJ為“Toufu”。

於另一實施例中，若資料庫DB中有多個字彙的比對分數(例如分別為，0.97、0.98、0.99)大於比對門檻值(例如為0.95)，則判斷模組35選取比對分數之值最大者(即0.99)所對應的字彙作為輸出結果。

於一實施例中，比對門檻值可以依實際系統環境調整。

藉此，當使用者重複講述到相同的關鍵語音時，若資料庫DB中已儲存此關鍵語音所對應的字彙，則語音校正系統100可以快速地對應到正確的輸出結果OBJ，若資料庫DB中尚未儲存此關鍵語音所對應的字彙，則可應用第2圖所述的語音校正方法200，將新的關鍵語音定義至資料庫DB中。

在一實施例中，此語音校正方法200、300可應用於手機或其他電子產品的應用程式中，例如，應用於一冰箱管理應用程式時，當使用者對著手機說“Put an Apple”，則資料庫DB中可寫入已知的水果“Apple” 。即便使用者對手機說的是無法被辨識的字彙(例如使用者有特殊口音或是欲輸入的字彙較為冷門)，資料庫DB仍可存入音轉碼，例如“Toufu”；藉此，無論語音校正系統100透過語音辨識引擎31可辨識或不可辨識的字彙，都可以被記錄至資料庫DB中，且無需使用者多次確認。此外，當使用者重複講述到相同的關鍵語音時，若資料庫DB中已儲存此關鍵語音所對應的字彙，則語音校正系統100可以快速地對應到正確的輸出結果。

本發明所示之語音校正系統及語音校正方法，能在輸入語音指令時，隨著使用者口音不同或是輸入的是新種類的字彙，進行關鍵語音的辨識，當語音校正系統辨識不出來字彙時，可藉由音轉碼作記錄，使得語音校正系統的回應能讓使用者也聽得懂，由於所有字彙都可以儲存在使用者自身的電子裝置上，即應用程式的本地端，無需將語音上傳雲端伺服器進行比對，因此可以提供不同使用者客製化的語音字彙辨識效果，此外，由於無需將關鍵語音上傳雲端進行比對，只需在應用程式的本地端與資料庫的內容作比對，故提升了關鍵語音與字彙比對的效率。

100:語音校正系統10:儲存裝置20:音訊接收器30:處理裝置31:語音辨識引擎35:判斷模組37:分析模組39:比對模組200、300、400:語音校正方法SIG1、SIG2、SIG3:指令語音LST1、LST3:候選字彙列表LST2、LST4:音轉表LST5:比對結果列表DB:資料庫OBJ:輸出結果

第1圖係依照本發明一實施例繪示語音校正系統之方塊圖。第2圖係根據本發明之一實施例繪示一種語音校正方法之示意圖。第3圖係根據本發明之一實施例繪示一種語音校正方法之示意圖。第4圖係根據本發明之一實施例繪示一種語音校正方法之示意圖。

100:語音校正系統

10:儲存裝置

20:音訊接收器

30:處理裝置

31:語音辨識引擎

35:判斷模組

37:分析模組

39:比對模組

Claims

一種語音校正系統，包含：一儲存裝置，用以儲存一資料庫；以及一音訊接收器，用以接收一指令語音；一處理裝置，包含：一語音辨識引擎，用以辨識該指令語音中的一關鍵語音，並產生對應該關鍵語音的一候選字彙列表及一音轉碼；其中該候選字彙列表包含該關鍵語音對應到的一候選字彙及該候選字彙對應到的一字彙分數；以及一判斷模組，用以判斷該字彙分數是否大於一分數門檻值，若該字彙分數大於該分數門檻值，則將該字彙分數所對應的該候選字彙儲存至該資料庫，若該候選字彙列表中的所有該字彙分數皆不大於該分數門檻值，則將該音轉碼儲存至該資料庫。
如申請專利範圍第1項所述之語音校正系統，其中該字彙候選名單包含該關鍵語音對應到的複數個候選字彙，且該些候選字彙各自對應到一字彙分數，該判斷模組判斷該些字彙分數中是否存在至少一大於該分數門檻值者，若該判斷模組判斷該些字彙分數之中存在該至少一大於該分數門檻值者，則將該至少一大於該分數門檻值者中的最大值所對應的該候選字彙儲存至該資料庫。
如申請專利範圍第1項所述之語音校正系統，其中該音轉碼為一羅馬拼音或一自然語言拼音。
如申請專利範圍第1項所述之語音校正系統，其中該處理裝置更包含：一比對模組，用以接收另一關鍵語音，並將該另一關鍵語音與該資料庫中的該候選字彙及該音轉碼作比對，以產生一比對結果列表，該比對結果列表包含該候選字彙及該音轉碼各自對應的一比對分數。
如申請專利範圍第4項所述之語音校正系統，其中該判斷模組判斷各該些比對分數是否大於一比對門檻值，並輸出該些比對分數中大於該比對門檻值之最大者所對應的該候選字彙或該音轉碼。
一種語音校正方法，包含：接收一指令語音，辨識該指令語音中的一關鍵語音，並產生對應該關鍵語音的一候選字彙列表及一音轉碼；其中該候選字彙列表包含該關鍵語音對應到的一候選字彙及該候選字彙對應到的一字彙分數；以及判斷該字彙分數是否大於一分數門檻值，若該字彙分數大於該分數門檻值，則將該字彙分數所對應的該候選字彙儲存至一資料庫，若該候選字彙列表中的所有該字彙分數皆不大於該分數門檻值，則將該音轉碼儲存至該資料庫。
如申請專利範圍第6項所述之語音校正方法，其中該字彙候選名單包含該關鍵語音對應到的複數個候選字彙，且該些候選字彙各自對應到一字彙分數，該語音校正方法更包含：判斷該些字彙分數中是否存在至少一大於該分數門檻值者，若該判斷模組判斷該些字彙分數之中存在該至少一大於該分數門檻值者，則將該至少一大於該分數門檻值者中的最大值所對應的該候選字彙儲存至該資料庫。
如申請專利範圍第6項所述之語音校正方法，其中該音轉碼為一羅馬拼音或一自然語言拼音。
如申請專利範圍第6項所述之語音校正方法，更包含：接收另一關鍵語音，並將該另一關鍵語音與該資料庫中的該候選字彙及該音轉碼作比對，以產生一比對結果列表，該比對結果列表包含該候選字彙及該音轉碼各自對應的一比對分數。
如申請專利範圍第9項所述之語音校正方法，更包含：判斷各該些比對分數是否大於一比對門檻值，並輸出該些比對分數中大於該比對門檻值之最大者所對應的該候選字彙或該音轉碼。