TWI601032B - 應用於聲控裝置的控制器與相關方法 - Google Patents

應用於聲控裝置的控制器與相關方法 Download PDF

Info

Publication number
TWI601032B
TWI601032B TW102127843A TW102127843A TWI601032B TW I601032 B TWI601032 B TW I601032B TW 102127843 A TW102127843 A TW 102127843A TW 102127843 A TW102127843 A TW 102127843A TW I601032 B TWI601032 B TW I601032B
Authority
TW
Taiwan
Prior art keywords
threshold
value
voice
setting module
environmental parameter
Prior art date
Application number
TW102127843A
Other languages
English (en)
Other versions
TW201506679A (zh
Inventor
黃宏吉
Original Assignee
晨星半導體股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 晨星半導體股份有限公司 filed Critical 晨星半導體股份有限公司
Priority to TW102127843A priority Critical patent/TWI601032B/zh
Priority to US14/450,366 priority patent/US9330664B2/en
Publication of TW201506679A publication Critical patent/TW201506679A/zh
Application granted granted Critical
Publication of TWI601032B publication Critical patent/TWI601032B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Selective Calling Equipment (AREA)
  • User Interface Of Digital Computer (AREA)

Description

應用於聲控裝置的控制器與相關方法
本發明是有關於一種應用於聲控裝置的控制器與相關方法,且特別是關於一種可依據聲控裝置的環境動態地調整語音辨識門檻值以進行聲控的控制器與相關方法。
聲控裝置可受控於使用者以語音下達的控制命令,為使用者提供友善直覺的人機介面,因此,有越來越多的電子裝置已經加入聲控功能,成為聲控裝置,例如說是手機、導航器、數位相機/攝影機、穿戴式/手持式/可攜式智慧電子裝置(如電腦)、車載電子系統乃至於家用電器,如電視等等。
為實現聲控的功能,聲控裝置會以麥克風接收使用者語音,並進行語音辨識,例如說是將接收的語音與資料庫中複數個預設字詞相互比對。在這些預設字詞中,若某段語音與某一預設字詞的相符程度最高,且由相符程度衍生的信心值(confidence score)超越一門檻值(threshold),聲控裝置就會將該段語音辨識為該最相符之預設字詞;若該最相符預設字詞符合某一個命令,聲控裝置便可進而執行該命令。反之,若信心值未及該門檻值,則聲控裝置會認為該段語音係無效(無法辨識)的。
本發明認知到聲控裝置的運作環境會影響語音辨識,故在進行語音辨識時,需一併考慮環境因素。本發明的目的之一係提供一種控制器(如控制晶片),可應用於一聲控裝置,包括一設定模組與一辨識模組。設定模組依據一環境參數產生一門檻值;其中,環境參數係相關於該聲控裝置所處的環境。辨識 模組則耦接於該設定模組,可接收一語音,針對該語音進行辨識並產生一語音辨識的信心值,並且,比較該語音辨識的信心值與該門檻值並據以產生一控制訊號,從而進行聲控。
舉例而言,聲控裝置可以是具有揚聲器的電視或是 音響系統,環境參數則可以是揚聲器的音量值。例如,當音量值較高時,設定模組可將門檻值設定為一較高的數值;當音量值較低時,設定模組可連帶地將門檻值設定為一較低的數值。當語音辨識的信心值門檻值較高時,使用者進行聲控的語音需較響亮、較清楚才能被有效辨識為聲控命令。門檻值較低時,即使使用者進行聲控的語音較低,也容易被辨識為聲控命令。
以及/或者,環境參數也可以包括一時間值,例如說 是由聲控裝置本身提供的實時時鐘(Real Time Clock)值。舉例而言,設定模組可在一天中的上午八點至下午七點將門檻值設定為一第一數值,在另一時段則將門檻值維持為一相異的第二數值。
以及/或者,控制器可以包括(或外接至)一環境偵 測器;此環境偵測器用以偵測聲控裝置的環境以得到環境參數。 亦即,環境參數也可以包括環境偵測器提供的定量環境偵測結果。舉例而言,環境偵測器可以是一偵測背景音量的麥克風,用以偵測環境音量。以及/或者,環境偵測器可以是一偵測環境(背景)亮度的光感測器。在某些應用情境下,背景音量及/或亮度較高代表聲控裝置係運作於一較吵雜的環境,故設定模組可將門檻值提高,避免將背景雜音錯誤地辨識為聲控命令;另一方面,背景音量及/或亮度較低代表聲控裝置係運作於一較安靜的環境,故設定模組可將門檻值降低,讓使用者可用較低聲的語音進行聲控。本發明控制器更可包括一儲存單元,用以儲存一對照表;設定模組可依據環境參數查詢該對照表以產生門檻值。
本發明的目的之一係提供一種運用於一聲控裝置的 方法,包含:依據一環境參數產生一門檻值;接收一語音,針對 該語音進行辨識並產生一語音辨識的信心值;以及,將語音辨識的信心值與門檻值相互比較,並據以產生一控制訊號,進行聲控。
為了對本發明之上述及其他方面有更佳的瞭解,下文特舉較佳實施例,並配合所附圖式,作詳細說明如下:
10‧‧‧聲控裝置
12‧‧‧控制器
14‧‧‧設定模組
16‧‧‧辨識模組
18‧‧‧環境偵測器
19‧‧‧儲存單元
20‧‧‧受控電路
100‧‧‧流程
102-116‧‧‧步驟
S_voice、S_context、S_command‧‧‧訊號
S_ref‧‧‧參考來源
Td‧‧‧門檻值
第1圖示意的是依據本發明一實施例的聲控裝置。
第2圖與第3圖舉例說明本發明依據環境參數來為語音辨識設定門檻值的實施例。
第4圖示意的是依據本發明一實施例的流程。
請參考第1圖,其所示意的是依據本發明一實施例的聲控裝置10,其可包括一控制器12與一受控電路20。控制器12可以是一控制晶片,耦接於受控電路20,用以控制受控電路20。舉例而言,聲控裝置10可以是一電視,控制器12為電視控制晶片,受控電路20則可以包括揚聲器、顯示面板、頻道調諧器(tuner)與相關驅動電路/晶片等等。控制器12中可包括一設定模組14與一辨識模組16,以實現聲控功能。
聲控裝置10可將使用者的語音接收轉換為電子訊號S_voice,並傳輸至控制器12中的辨識模組16。控制器12中的設定模組14可依據一環境參數的訊號S_context自動地、動態地、適應性地調整一語音辨識的信心門檻值Td。辨識模組16則耦接於設定模組14,其可接收語音訊號S_voice,對訊號S_voice進行語音辨識以產生語音辨識的信心值(Confidence score,未圖示),並將信心值與門檻值Td相互比較,據以提供訊號S_command(例如一控制訊號),以進行聲控。語音辨識的信心值越高,代表對於辨識結果有越高的準確機率,一般來說,音量越大或發音越標準,語音辨識的信心值就會越高。舉例而言,若辨識模組16比對得知訊號S_voice的語音與某一字詞最為相符,且由相符程 度衍生的語音辨識信心值高於門檻值Td,則辨識模組16便可進一步比對該最相符字詞是否符合某一預設的控制命令;若是,便可於訊號S_command中反映該相符命令,而控制器12可執行訊號S_command中的命令,據以操控受控電路20。舉例而言,若聲控系統10為電視,則語音的控制命令可以包括:將訊源切換至某指定頻道、至前一頻道、至後一頻道與調整音量等等。
另一方面,當辨識模組16對訊號S_voice進行語音 辨識時,若語音辨識的信心值低於門檻值Td,辨識模組16可於訊號S_command中來反映「無辨識結果」,使控制器12得以進行例外處理,例如說是:繼續接收後續語音、提示使用者重新發出語音命令等等。
如前所述,設定模組14可依據訊號S_context所反 映的環境參數自動調整門檻值Td。換言之,本發明聲控技術可在辨識語音命令時將聲控裝置10的運作環境一併列入考量,進而改善語音辨識的適應性。
舉例而言,聲控裝置10可以是具有揚聲器的電視或 是音響系統,環境參數則可以是該揚聲器的音量值。例如,當音量值較高時(例如說是使用者調高揚聲器音量時),設定模組14可將門檻值Td設定為一較高的數值;當音量值較低時,設定模組14可將門檻值Td設定為一相對較低的數值。請參考第2圖,其係舉例示意本發明依據音量值設定門檻值Td的情形。在第2圖的例子中,當音量值落在80db至100db的範圍時,設定模組14(第1圖)會將門檻值Td設定為80;當音量值在60db至79db之間,門檻值Td被設定為60;當音量值在40db至59db之間,門檻值Td則設定為40,等等。當語音辨識的信心值門檻值Td較高時,使用者進行聲控的語音需較響亮、較清楚才能被有效辨識為聲控命令。門檻值Td較低時,即使使用者以較低聲的語音進行聲控,也容易被辨識為聲控命令。
以及/或者,環境參數也可以包括一時間值,例如說 是由聲控裝置10本身提供的實時時鐘值。舉例而言,如第3圖的例子所示,設定模組14可在一天中的上午八點至下午五點將門檻值Td設定為一第一數值(如80db),在下午五點至九點將門檻值Td維持為一相異的第二數值(如60db),其餘時段則將門檻值Td維持為一第三數值(如40db)。
以及/或者,如第1圖所示,聲控裝置10更可以耦 接一(或多個)環境偵測器18,其係用以偵測環境的某一(或某些)特性,並提供定量的環境偵測結果。環境偵測器18可以內建於聲控裝置10中,也可以是另一獨立的外接裝置,耦接至聲控裝置10的控制器12。環境偵測器18的環境偵測結果可被包括於訊號S_context中,使設定模組14也可以依據環境偵測結果來設定門檻值Td。
舉例而言,環境偵測器18可以是一偵測背景音量的 麥克風。以及/或者,環境偵測器18可以是一偵測背景亮度的光感測器。在某些應用情境下,背景音量及/或亮度較高代表聲控裝置係運作於一較吵雜的環境,故設定模組14可將門檻值Td提高,避免將背景雜音錯誤地辨識為聲控命令;另一方面,背景音量及/或亮度較低代表聲控裝置10係運作於一較安靜的環境,故設定模組14可將門檻值Td降低,讓使用者可用較低的語音進行聲控。
再者,環境偵測器18也可以是偵測位置的定位裝 置,例如衛星定位裝置或無線定位裝置,用以偵測聲控裝置10所在的位置,並使設定模組14能依據定位結果來設定門檻值Td。 環境偵測器18也可以是影像攝取與辨識的裝置,其可辨識聲控裝置10的使用者身份,讓設定模組14可為不同使用者個別設定對應的門檻值Td;以及/或者,環境偵測器18可以辨識使用者的人數,以依據使用者人數設定門檻值Td,例如說是在人數較多時提高門檻值Td。
又及,環境偵測器18也可以是測距裝置,來以測定 使用者至聲控裝置10的距離,將使用者距離作為一環境參數,使設定模組14能依據使用者距離來調整門檻值Td,例如說是當使用者距離較遠時調低門檻值Td。環境偵測器18也可以是溫度感應器,將感應到的溫度作為一環境參數。
設定模組14可依據一或多個環境參數來設定門檻 值Td。這一或多個環境參數可以包括聲控裝置10本身的運作參數(例如揚聲器音量或時間值等),以及/或者一或多個環境偵測器的環境偵測結果。例如,設定模組14可依據預設的演算法(例如說是邏輯的及運算、或運算等等)來整合多個環境參數,並依據整合結果設定門檻值Td。舉例來說,當一第一環境參數落於一第一數值範圍中且一第二環境參數落於一第二數值範圍時,設定模組14將門檻值Td設定為一第一數值;當該第一環境參數逾越該第一數值範圍或該第二環境參數逾越該第二數值範圍時,設定模組14則改將門檻值Td設定為一相異的第二數值。又一例中,當第一環境參數落於一第一數值範圍中時,設定模組14使門檻值Td隨第二環境參數變化;當第一環境參數逾越第一數值範圍時,設定模組14則使門檻值Td維持不變。
延續第1圖實施例,請參考第4圖,其所示意的是 依據本發明一實施例的流程100;第1圖中的控制器12可依據流程100來實現聲控。流程100包括下列步驟。
步驟102:開始流程100。在接收一段語音後,控制 器12可啟始流程100。
步驟104:取得(一或多個)環境參數。這一或多 個環境參數可以包括聲控裝置10本身的運作參數,以及/或者,一或多個環境偵測器的環境偵測結果。
步驟106:依據(一或多個)環境參數調整/設定語 音辨識的信心門檻值Td。
步驟108:針對步驟102之語音找出最相符的字詞 後,依據相符程度計算信心值,並比較信心值是否大於門檻值 Td,若是,則進行至步驟110,反之則進行至步驟116。
步驟110:進行至此步驟,代表語音的內容可有效 地由最相符字詞代表;如此,就可進行至步驟112,以取得聲控的命令。
步驟112:在複數個預設命令中,比對最相符字詞 是否符合其中之一,若是,則進行至步驟114,反之則進行至步驟104。
步驟114:控制器12執行步驟112中找出的相符命 令,實現聲控的目的。
步驟116:結束流程100。
等效而言,本發明也可依據環境參數來調整信心 值,例如說是將原始的信心值乘以一權重及/或加上一偏移值而得到一調整後信心值,並依據此調整後信心值是否大於門檻值Td來進行聲控;其中,權重及/或偏移值是依據環境參數調整的。舉例而言,在一實施例中,當某一環境參數落在一預設範圍時,假設設定模組14應使門檻值Td由一較小數值Td0增加為一較大數值Td1。等效地,在另一個效果相同的實施例中,當該環境參數落在該預設範圍時,設定模組14則是使門檻值Td維持於數值Td0,改將原始信心值乘以一個小於1的權重以得到一調整後信心值,例如,此權重可以等於Td0/Td1;如此,當在比較調整後信心值與原始門檻值Td(數值Td0)間的關係時,等效上也就是在比較原始信心值與調整後門檻值Td(數值Td1)。換言之,本發明可推廣為:依據環境參數來調整信心值與門檻值兩者的至少其中之一,以調整兩者間的相互關係。舉例而言,某一數值的信心值原本係小於門檻值,但當環境參數改變時,同一數值的信心值會變得大於門檻值;兩者間的關係由「小於」改變至「大於」的手段可以是:在環境參數改變時降低門檻值,以及/或者,在環境參數改變時增加信心值。
在第1圖實施例中,設定模組14與辨識模組16可 用硬體實現,或是由硬體處理器執行軟體及/或韌體之程式碼來實現。針對信心值的計算,本發明可採用任何能將自動語音辨識結果的可靠度(reliability)予以量化的演算法。舉例而言,當將一段語音辨識為一字詞後,信心值可以代表該辨識的正確機率。信心值可以依據後驗機率(posterior probability)估算,依據聲學語言等預估特徵(predictor feature)估算,以及/或者,依據發音確認(utterance verification)估算。
此外,在第1圖實施例中,當設定模組14依據訊號 S_context所反映的環境參數自動調整門檻值Td時,可以參考一參考來源S_ref。舉例而言,參考來源S_ref可以是一組預先儲存於控制器12的對照表,其可將不同的環境參數範圍對應至不同的門檻值Td,例如第2圖及/或第3圖所示的對照表;當設定模組14要依據環境參數產生門檻值Td時,便可依據環境參數查詢對照表以產生門檻值Td。以及/或者,控制器12也可以接受使用者輸入來設定參考來源S_ref的對照表;舉例而言,在第3圖的例子中,使用者可自行設定左列(column)的時間範圍。以及/或者,參考來源S_ref可以包括一映射函數或一演算法,可由環境參數計算出對應的門檻值Td。在流程100的步驟106(第4圖)中,當要依據環境參數設定門檻值Td時,也可以依據參考來源S_ref來由環境參數對照出門檻值Td。如第1圖所示,控制器12可以包括(或外接至)一儲存單元19;儲存單元19可以是揮發性及/或非揮發性記憶體,用以儲存參考來源S_ref。
總結來說,相較於習知技術,本發明可依據環境參 數來動態地調整語音辨識的信心門檻值,使語音辨識能適應聲控裝置的運作環境,改善聲控的性能與適應性。
綜上所述,雖然本發明已以較佳實施例揭露如上, 然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可作各種之更動與潤 飾。因此,本發明之保護範圍當視後附之申請專利範圍所界定者 為準。
10‧‧‧聲控裝置
12‧‧‧控制器
14‧‧‧設定模組
16‧‧‧辨識模組
18‧‧‧環境偵測器
19‧‧‧儲存單元
20‧‧‧受控電路
S_voice、S_context、S_command‧‧‧訊號
S_ref‧‧‧參考來源
Td‧‧‧門檻值

Claims (11)

  1. 一種控制器,應用於一聲控裝置,包含:一設定模組,依據一環境參數產生一門檻值,其中該環境參數係相關於該聲控裝置的揚聲器受使用者調控之一音量值;其中,當該音量值為一大音量值時,該設定模組設定該門檻值為一高門檻,以及,當該音量值為一小音量值時,該設定模組設定該門檻值為一低門檻;以及一辨識模組,接收一語音,針對該語音進行辨識並產生一語音辨識的信心值,以及比較該語音辨識的信心值與該門檻值並據以產生一控制訊號;其中,該信心值係與該語音辨識的一準確機率有關。
  2. 如申請專利範圍第1項的控制器,更包含一環境偵測器,用以偵測該聲控裝置的環境以得到一第二環境參數,而該設定模組更可依據該第二環境參數產生該門檻值。
  3. 如申請專利範圍第2項的控制器,其中該環境偵測器係用以偵測該環境的背景音量;其中,當該背景音量較高時,該設定模組調高該門檻值,以及,當該背景音量較低時,該設定模組調低該門檻值。
  4. 如申請專利範圍第2項的控制器,其中該環境偵測器係用以偵測該環境的亮度;其中,當該亮度較亮時,該設定模組調高該門檻值,以及,當該亮度較暗時,該設定模組調低該門檻值。
  5. 如申請專利範圍第1項的控制器,其中該設定模組更可依據一第二環境參數產生該門檻值,而該第二環境參數係為一實時時鐘值;其中,若該第二環境參數落在一第一時間範圍內,該設定模組調高該門檻值;以及,若該第二環境參數落在一第二時間範圍內,該設定模組調低該門檻值。
  6. 如申請專利範圍第1項的控制器,其中該控制器包含一儲存單元,該儲存單元用以儲存一對照表,該設定模組係依據該環境參數查詢該對照表以產生該門檻值。
  7. 一種運用於一聲控裝置的方法,包含:依據一環境參數產生一門檻值,其中該環境參數係相關於該聲控裝置的揚聲器受使用者調控之一音量值;當該音量值為一大音量值時,將該門檻值設定為一高門檻,以及,當該音量值為一小音量值時,將該門檻值設定為一低門檻;接收一語音,針對該語音進行辨識並產生一語音辨識的信心值;以及比較該誥音辨識的信心值與該門檻值並據以產生一控制訊號;其中,該信心值係與該語音辨識的一準確機率有關。
  8. 如申請專利範圍第7項的方法,更包含:偵測該聲控裝置所在環境的背景音量;當該背景音量較高時,調高該門檻值,以及,當該背景音量較低時,調低該門檻值。
  9. 如申請專利範圍第7項的方法,更包含:偵測該聲控裝置所在環境的亮度;當該亮度較亮時,調高該門檻值,以及,當該亮度較暗時,調低該門檻值。
  10. 如申請專利範圍第7項的方法,更包含:以一實時時鐘值作為一第二環境參數;若該第二環境參數落在一第一時間範圍內,調高該門檻值;以及,若該第二環境參數落在一第二時間範圍內,調低該門 檻值。
  11. 如申請專利範圍第7項的方法,其中依據該環境參數產生該門檻值的步驟包含:依據該環境參數查詢一對照表以產生該門檻值。
TW102127843A 2013-08-02 2013-08-02 應用於聲控裝置的控制器與相關方法 TWI601032B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW102127843A TWI601032B (zh) 2013-08-02 2013-08-02 應用於聲控裝置的控制器與相關方法
US14/450,366 US9330664B2 (en) 2013-08-02 2014-08-04 Controller for voice-controlled device and associated method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW102127843A TWI601032B (zh) 2013-08-02 2013-08-02 應用於聲控裝置的控制器與相關方法

Publications (2)

Publication Number Publication Date
TW201506679A TW201506679A (zh) 2015-02-16
TWI601032B true TWI601032B (zh) 2017-10-01

Family

ID=52428438

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102127843A TWI601032B (zh) 2013-08-02 2013-08-02 應用於聲控裝置的控制器與相關方法

Country Status (2)

Country Link
US (1) US9330664B2 (zh)
TW (1) TWI601032B (zh)

Families Citing this family (155)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9384738B2 (en) 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) * 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10347273B2 (en) * 2014-12-10 2019-07-09 Nec Corporation Speech processing apparatus, speech processing method, and recording medium
EP3239975A4 (en) * 2014-12-26 2018-08-08 Sony Corporation Information processing device, information processing method, and program
WO2016136044A1 (ja) * 2015-02-23 2016-09-01 ソニー株式会社 情報処理システムおよび情報処理方法
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US20160284349A1 (en) * 2015-03-26 2016-09-29 Binuraj Ravindran Method and system of environment sensitive automatic speech recognition
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
KR102420450B1 (ko) * 2015-09-23 2022-07-14 삼성전자주식회사 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
JP6553111B2 (ja) * 2017-03-21 2019-07-31 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
KR102426717B1 (ko) * 2017-06-27 2022-07-29 삼성전자주식회사 발화 인식 모델을 선택하는 시스템 및 전자 장치
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
TWI673673B (zh) * 2018-01-05 2019-10-01 華南商業銀行股份有限公司 智能語音交易系統
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
TWI675305B (zh) * 2018-07-26 2019-10-21 英業達股份有限公司 智能語音控制管理系統及其方法
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
KR20200084727A (ko) 2019-01-03 2020-07-13 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US20210065691A1 (en) * 2019-08-29 2021-03-04 Microsoft Technology Licensing, Llc Automatic speech sensitivity adjustment feature
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN110880318B (zh) * 2019-11-27 2023-04-18 云知声智能科技股份有限公司 语音识别方法及装置
TWI712944B (zh) * 2019-11-28 2020-12-11 睿捷國際股份有限公司 利用聲音監控設備之方法
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5991718A (en) * 1998-02-27 1999-11-23 At&T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
US6272460B1 (en) * 1998-09-10 2001-08-07 Sony Corporation Method for implementing a speech verification system for use in a noisy environment
TW200715146A (en) * 2005-10-04 2007-04-16 Ind Tech Res Inst System and method for detecting the recognizability of inputted speech signals
CN102137085A (zh) * 2010-01-22 2011-07-27 谷歌公司 语音命令的多维消歧
US20120209609A1 (en) * 2011-02-14 2012-08-16 General Motors Llc User-specific confidence thresholds for speech recognition

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1933303B1 (en) * 2006-12-14 2008-08-06 Harman/Becker Automotive Systems GmbH Speech dialog control based on signal pre-processing
US8138930B1 (en) * 2008-01-22 2012-03-20 Google Inc. Advertising based on environmental conditions

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5991718A (en) * 1998-02-27 1999-11-23 At&T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
US6272460B1 (en) * 1998-09-10 2001-08-07 Sony Corporation Method for implementing a speech verification system for use in a noisy environment
TW200715146A (en) * 2005-10-04 2007-04-16 Ind Tech Res Inst System and method for detecting the recognizability of inputted speech signals
CN102137085A (zh) * 2010-01-22 2011-07-27 谷歌公司 语音命令的多维消歧
US20120209609A1 (en) * 2011-02-14 2012-08-16 General Motors Llc User-specific confidence thresholds for speech recognition

Also Published As

Publication number Publication date
US9330664B2 (en) 2016-05-03
US20150039305A1 (en) 2015-02-05
TW201506679A (zh) 2015-02-16

Similar Documents

Publication Publication Date Title
TWI601032B (zh) 應用於聲控裝置的控制器與相關方法
US20200302929A1 (en) Method of providing voice command and electronic device supporting the same
US10504511B2 (en) Customizable wake-up voice commands
KR101981878B1 (ko) 스피치의 방향에 기초한 전자 디바이스의 제어
KR102623272B1 (ko) 전자 장치 및 이의 제어 방법
US10147444B2 (en) Electronic apparatus and voice trigger method therefor
US10777193B2 (en) System and device for selecting speech recognition model
CN105118257B (zh) 智能控制系统及方法
KR102339657B1 (ko) 전자 장치 및 이의 제어 방법
US20140191949A1 (en) Display apparatus and method of controlling a display apparatus in a voice recognition system
WO2015160519A1 (en) Method and apparatus for performing function by speech input
TWI790236B (zh) 音量調節方法、裝置、電子設備及存儲介質
WO2020048431A1 (zh) 一种语音处理方法、电子设备和显示设备
TWI639153B (zh) 電子裝置及其透過語音辨識喚醒的方法
TW201519172A (zh) 具有丟失提醒功能的可攜式電子裝置及其使用方法
US11437022B2 (en) Performing speaker change detection and speaker recognition on a trigger phrase
US20220270601A1 (en) Multi-modal smart audio device system attentiveness expression
KR102093851B1 (ko) 인공지능에 기반하여 음성 인식의 민감도를 환경에 적응적으로 변화시키는 방법 및 이를 구현하는 장치
KR102308022B1 (ko) 호출음 인식장치 및 호출음 인식방법
CN104345649B (zh) 应用于声控装置的控制器与相关方法
KR102052634B1 (ko) 호출음 인식장치 및 호출음 인식방법
US11600275B2 (en) Electronic device and control method thereof
CN111091026B (zh) 指纹信号的校准方法及装置
WO2021051991A1 (zh) 一种智能调整音量的方法、系统及存储介质
JP2022542113A (ja) 複数装置の起動ワード検出

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees