TWI601032B

TWI601032B - 應用於聲控裝置的控制器與相關方法

Info

Publication number: TWI601032B
Application number: TW102127843A
Authority: TW
Inventors: 黃宏吉
Original assignee: 晨星半導體股份有限公司
Priority date: 2013-08-02
Filing date: 2013-08-02
Publication date: 2017-10-01
Also published as: US9330664B2; US20150039305A1; TW201506679A

Description

應用於聲控裝置的控制器與相關方法

本發明是有關於一種應用於聲控裝置的控制器與相關方法，且特別是關於一種可依據聲控裝置的環境動態地調整語音辨識門檻值以進行聲控的控制器與相關方法。

聲控裝置可受控於使用者以語音下達的控制命令，為使用者提供友善直覺的人機介面，因此，有越來越多的電子裝置已經加入聲控功能，成為聲控裝置，例如說是手機、導航器、數位相機/攝影機、穿戴式/手持式/可攜式智慧電子裝置(如電腦)、車載電子系統乃至於家用電器，如電視等等。

為實現聲控的功能，聲控裝置會以麥克風接收使用者語音，並進行語音辨識，例如說是將接收的語音與資料庫中複數個預設字詞相互比對。在這些預設字詞中，若某段語音與某一預設字詞的相符程度最高，且由相符程度衍生的信心值(confidence score)超越一門檻值(threshold)，聲控裝置就會將該段語音辨識為該最相符之預設字詞；若該最相符預設字詞符合某一個命令，聲控裝置便可進而執行該命令。反之，若信心值未及該門檻值，則聲控裝置會認為該段語音係無效(無法辨識)的。

本發明認知到聲控裝置的運作環境會影響語音辨識，故在進行語音辨識時，需一併考慮環境因素。本發明的目的之一係提供一種控制器(如控制晶片)，可應用於一聲控裝置，包括一設定模組與一辨識模組。設定模組依據一環境參數產生一門檻值；其中，環境參數係相關於該聲控裝置所處的環境。辨識模組則耦接於該設定模組，可接收一語音，針對該語音進行辨識並產生一語音辨識的信心值，並且，比較該語音辨識的信心值與該門檻值並據以產生一控制訊號，從而進行聲控。

舉例而言，聲控裝置可以是具有揚聲器的電視或是音響系統，環境參數則可以是揚聲器的音量值。例如，當音量值較高時，設定模組可將門檻值設定為一較高的數值；當音量值較低時，設定模組可連帶地將門檻值設定為一較低的數值。當語音辨識的信心值門檻值較高時，使用者進行聲控的語音需較響亮、較清楚才能被有效辨識為聲控命令。門檻值較低時，即使使用者進行聲控的語音較低，也容易被辨識為聲控命令。

以及/或者，環境參數也可以包括一時間值，例如說是由聲控裝置本身提供的實時時鐘(Real Time Clock)值。舉例而言，設定模組可在一天中的上午八點至下午七點將門檻值設定為一第一數值，在另一時段則將門檻值維持為一相異的第二數值。

以及/或者，控制器可以包括(或外接至)一環境偵測器；此環境偵測器用以偵測聲控裝置的環境以得到環境參數。亦即，環境參數也可以包括環境偵測器提供的定量環境偵測結果。舉例而言，環境偵測器可以是一偵測背景音量的麥克風，用以偵測環境音量。以及/或者，環境偵測器可以是一偵測環境(背景)亮度的光感測器。在某些應用情境下，背景音量及/或亮度較高代表聲控裝置係運作於一較吵雜的環境，故設定模組可將門檻值提高，避免將背景雜音錯誤地辨識為聲控命令；另一方面，背景音量及/或亮度較低代表聲控裝置係運作於一較安靜的環境，故設定模組可將門檻值降低，讓使用者可用較低聲的語音進行聲控。本發明控制器更可包括一儲存單元，用以儲存一對照表；設定模組可依據環境參數查詢該對照表以產生門檻值。

本發明的目的之一係提供一種運用於一聲控裝置的方法，包含：依據一環境參數產生一門檻值；接收一語音，針對該語音進行辨識並產生一語音辨識的信心值；以及，將語音辨識的信心值與門檻值相互比較，並據以產生一控制訊號，進行聲控。

為了對本發明之上述及其他方面有更佳的瞭解，下文特舉較佳實施例，並配合所附圖式，作詳細說明如下：

10‧‧‧聲控裝置

12‧‧‧控制器

14‧‧‧設定模組

16‧‧‧辨識模組

18‧‧‧環境偵測器

19‧‧‧儲存單元

20‧‧‧受控電路

100‧‧‧流程

102-116‧‧‧步驟

S_voice、S_context、S_command‧‧‧訊號

S_ref‧‧‧參考來源

Td‧‧‧門檻值

第1圖示意的是依據本發明一實施例的聲控裝置。

第2圖與第3圖舉例說明本發明依據環境參數來為語音辨識設定門檻值的實施例。

第4圖示意的是依據本發明一實施例的流程。

請參考第1圖，其所示意的是依據本發明一實施例的聲控裝置10，其可包括一控制器12與一受控電路20。控制器12可以是一控制晶片，耦接於受控電路20，用以控制受控電路20。舉例而言，聲控裝置10可以是一電視，控制器12為電視控制晶片，受控電路20則可以包括揚聲器、顯示面板、頻道調諧器(tuner)與相關驅動電路/晶片等等。控制器12中可包括一設定模組14與一辨識模組16，以實現聲控功能。

聲控裝置10可將使用者的語音接收轉換為電子訊號S_voice，並傳輸至控制器12中的辨識模組16。控制器12中的設定模組14可依據一環境參數的訊號S_context自動地、動態地、適應性地調整一語音辨識的信心門檻值Td。辨識模組16則耦接於設定模組14，其可接收語音訊號S_voice，對訊號S_voice進行語音辨識以產生語音辨識的信心值(Confidence score，未圖示)，並將信心值與門檻值Td相互比較，據以提供訊號S_command(例如一控制訊號)，以進行聲控。語音辨識的信心值越高，代表對於辨識結果有越高的準確機率，一般來說，音量越大或發音越標準，語音辨識的信心值就會越高。舉例而言，若辨識模組16比對得知訊號S_voice的語音與某一字詞最為相符，且由相符程度衍生的語音辨識信心值高於門檻值Td，則辨識模組16便可進一步比對該最相符字詞是否符合某一預設的控制命令；若是，便可於訊號S_command中反映該相符命令，而控制器12可執行訊號S_command中的命令，據以操控受控電路20。舉例而言，若聲控系統10為電視，則語音的控制命令可以包括：將訊源切換至某指定頻道、至前一頻道、至後一頻道與調整音量等等。

另一方面，當辨識模組16對訊號S_voice進行語音辨識時，若語音辨識的信心值低於門檻值Td，辨識模組16可於訊號S_command中來反映「無辨識結果」，使控制器12得以進行例外處理，例如說是：繼續接收後續語音、提示使用者重新發出語音命令等等。

如前所述，設定模組14可依據訊號S_context所反映的環境參數自動調整門檻值Td。換言之，本發明聲控技術可在辨識語音命令時將聲控裝置10的運作環境一併列入考量，進而改善語音辨識的適應性。

舉例而言，聲控裝置10可以是具有揚聲器的電視或是音響系統，環境參數則可以是該揚聲器的音量值。例如，當音量值較高時(例如說是使用者調高揚聲器音量時)，設定模組14可將門檻值Td設定為一較高的數值；當音量值較低時，設定模組14可將門檻值Td設定為一相對較低的數值。請參考第2圖，其係舉例示意本發明依據音量值設定門檻值Td的情形。在第2圖的例子中，當音量值落在80db至100db的範圍時，設定模組14(第1圖)會將門檻值Td設定為80；當音量值在60db至79db之間，門檻值Td被設定為60；當音量值在40db至59db之間，門檻值Td則設定為40，等等。當語音辨識的信心值門檻值Td較高時，使用者進行聲控的語音需較響亮、較清楚才能被有效辨識為聲控命令。門檻值Td較低時，即使使用者以較低聲的語音進行聲控，也容易被辨識為聲控命令。

以及/或者，環境參數也可以包括一時間值，例如說是由聲控裝置10本身提供的實時時鐘值。舉例而言，如第3圖的例子所示，設定模組14可在一天中的上午八點至下午五點將門檻值Td設定為一第一數值(如80db)，在下午五點至九點將門檻值Td維持為一相異的第二數值(如60db)，其餘時段則將門檻值Td維持為一第三數值(如40db)。

以及/或者，如第1圖所示，聲控裝置10更可以耦接一(或多個)環境偵測器18，其係用以偵測環境的某一(或某些)特性，並提供定量的環境偵測結果。環境偵測器18可以內建於聲控裝置10中，也可以是另一獨立的外接裝置，耦接至聲控裝置10的控制器12。環境偵測器18的環境偵測結果可被包括於訊號S_context中，使設定模組14也可以依據環境偵測結果來設定門檻值Td。

舉例而言，環境偵測器18可以是一偵測背景音量的麥克風。以及/或者，環境偵測器18可以是一偵測背景亮度的光感測器。在某些應用情境下，背景音量及/或亮度較高代表聲控裝置係運作於一較吵雜的環境，故設定模組14可將門檻值Td提高，避免將背景雜音錯誤地辨識為聲控命令；另一方面，背景音量及/或亮度較低代表聲控裝置10係運作於一較安靜的環境，故設定模組14可將門檻值Td降低，讓使用者可用較低的語音進行聲控。

再者，環境偵測器18也可以是偵測位置的定位裝置，例如衛星定位裝置或無線定位裝置，用以偵測聲控裝置10所在的位置，並使設定模組14能依據定位結果來設定門檻值Td。環境偵測器18也可以是影像攝取與辨識的裝置，其可辨識聲控裝置10的使用者身份，讓設定模組14可為不同使用者個別設定對應的門檻值Td；以及/或者，環境偵測器18可以辨識使用者的人數，以依據使用者人數設定門檻值Td，例如說是在人數較多時提高門檻值Td。

又及，環境偵測器18也可以是測距裝置，來以測定使用者至聲控裝置10的距離，將使用者距離作為一環境參數，使設定模組14能依據使用者距離來調整門檻值Td，例如說是當使用者距離較遠時調低門檻值Td。環境偵測器18也可以是溫度感應器，將感應到的溫度作為一環境參數。

設定模組14可依據一或多個環境參數來設定門檻值Td。這一或多個環境參數可以包括聲控裝置10本身的運作參數(例如揚聲器音量或時間值等)，以及/或者一或多個環境偵測器的環境偵測結果。例如，設定模組14可依據預設的演算法(例如說是邏輯的及運算、或運算等等)來整合多個環境參數，並依據整合結果設定門檻值Td。舉例來說，當一第一環境參數落於一第一數值範圍中且一第二環境參數落於一第二數值範圍時，設定模組14將門檻值Td設定為一第一數值；當該第一環境參數逾越該第一數值範圍或該第二環境參數逾越該第二數值範圍時，設定模組14則改將門檻值Td設定為一相異的第二數值。又一例中，當第一環境參數落於一第一數值範圍中時，設定模組14使門檻值Td隨第二環境參數變化；當第一環境參數逾越第一數值範圍時，設定模組14則使門檻值Td維持不變。

延續第1圖實施例，請參考第4圖，其所示意的是依據本發明一實施例的流程100；第1圖中的控制器12可依據流程100來實現聲控。流程100包括下列步驟。

步驟102：開始流程100。在接收一段語音後，控制器12可啟始流程100。

步驟104：取得(一或多個)環境參數。這一或多個環境參數可以包括聲控裝置10本身的運作參數，以及/或者，一或多個環境偵測器的環境偵測結果。

步驟106：依據(一或多個)環境參數調整/設定語音辨識的信心門檻值Td。

步驟108：針對步驟102之語音找出最相符的字詞後，依據相符程度計算信心值，並比較信心值是否大於門檻值 Td，若是，則進行至步驟110，反之則進行至步驟116。

步驟110：進行至此步驟，代表語音的內容可有效地由最相符字詞代表；如此，就可進行至步驟112，以取得聲控的命令。

步驟112：在複數個預設命令中，比對最相符字詞是否符合其中之一，若是，則進行至步驟114，反之則進行至步驟104。

步驟114：控制器12執行步驟112中找出的相符命令，實現聲控的目的。

步驟116：結束流程100。

等效而言，本發明也可依據環境參數來調整信心值，例如說是將原始的信心值乘以一權重及/或加上一偏移值而得到一調整後信心值，並依據此調整後信心值是否大於門檻值Td來進行聲控；其中，權重及/或偏移值是依據環境參數調整的。舉例而言，在一實施例中，當某一環境參數落在一預設範圍時，假設設定模組14應使門檻值Td由一較小數值Td0增加為一較大數值Td1。等效地，在另一個效果相同的實施例中，當該環境參數落在該預設範圍時，設定模組14則是使門檻值Td維持於數值Td0，改將原始信心值乘以一個小於1的權重以得到一調整後信心值，例如，此權重可以等於Td0/Td1；如此，當在比較調整後信心值與原始門檻值Td(數值Td0)間的關係時，等效上也就是在比較原始信心值與調整後門檻值Td(數值Td1)。換言之，本發明可推廣為：依據環境參數來調整信心值與門檻值兩者的至少其中之一，以調整兩者間的相互關係。舉例而言，某一數值的信心值原本係小於門檻值，但當環境參數改變時，同一數值的信心值會變得大於門檻值；兩者間的關係由「小於」改變至「大於」的手段可以是：在環境參數改變時降低門檻值，以及/或者，在環境參數改變時增加信心值。

在第1圖實施例中，設定模組14與辨識模組16可用硬體實現，或是由硬體處理器執行軟體及/或韌體之程式碼來實現。針對信心值的計算，本發明可採用任何能將自動語音辨識結果的可靠度(reliability)予以量化的演算法。舉例而言，當將一段語音辨識為一字詞後，信心值可以代表該辨識的正確機率。信心值可以依據後驗機率(posterior probability)估算，依據聲學語言等預估特徵(predictor feature)估算，以及/或者，依據發音確認(utterance verification)估算。

此外，在第1圖實施例中，當設定模組14依據訊號 S_context所反映的環境參數自動調整門檻值Td時，可以參考一參考來源S_ref。舉例而言，參考來源S_ref可以是一組預先儲存於控制器12的對照表，其可將不同的環境參數範圍對應至不同的門檻值Td，例如第2圖及/或第3圖所示的對照表；當設定模組14要依據環境參數產生門檻值Td時，便可依據環境參數查詢對照表以產生門檻值Td。以及/或者，控制器12也可以接受使用者輸入來設定參考來源S_ref的對照表；舉例而言，在第3圖的例子中，使用者可自行設定左列(column)的時間範圍。以及/或者，參考來源S_ref可以包括一映射函數或一演算法，可由環境參數計算出對應的門檻值Td。在流程100的步驟106(第4圖)中，當要依據環境參數設定門檻值Td時，也可以依據參考來源S_ref來由環境參數對照出門檻值Td。如第1圖所示，控制器12可以包括(或外接至)一儲存單元19；儲存單元19可以是揮發性及/或非揮發性記憶體，用以儲存參考來源S_ref。

總結來說，相較於習知技術，本發明可依據環境參數來動態地調整語音辨識的信心門檻值，使語音辨識能適應聲控裝置的運作環境，改善聲控的性能與適應性。

綜上所述，雖然本發明已以較佳實施例揭露如上，然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾。因此，本發明之保護範圍當視後附之申請專利範圍所界定者為準。