TWI601032B - 應用於聲控裝置的控制器與相關方法 - Google Patents
應用於聲控裝置的控制器與相關方法 Download PDFInfo
- Publication number
- TWI601032B TWI601032B TW102127843A TW102127843A TWI601032B TW I601032 B TWI601032 B TW I601032B TW 102127843 A TW102127843 A TW 102127843A TW 102127843 A TW102127843 A TW 102127843A TW I601032 B TWI601032 B TW I601032B
- Authority
- TW
- Taiwan
- Prior art keywords
- threshold
- value
- voice
- setting module
- environmental parameter
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 18
- 230000007613 environmental effect Effects 0.000 claims description 73
- 230000001105 regulatory effect Effects 0.000 claims 2
- 238000001514 detection method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Selective Calling Equipment (AREA)
- User Interface Of Digital Computer (AREA)
Description
本發明是有關於一種應用於聲控裝置的控制器與相關方法,且特別是關於一種可依據聲控裝置的環境動態地調整語音辨識門檻值以進行聲控的控制器與相關方法。
聲控裝置可受控於使用者以語音下達的控制命令,為使用者提供友善直覺的人機介面,因此,有越來越多的電子裝置已經加入聲控功能,成為聲控裝置,例如說是手機、導航器、數位相機/攝影機、穿戴式/手持式/可攜式智慧電子裝置(如電腦)、車載電子系統乃至於家用電器,如電視等等。
為實現聲控的功能,聲控裝置會以麥克風接收使用者語音,並進行語音辨識,例如說是將接收的語音與資料庫中複數個預設字詞相互比對。在這些預設字詞中,若某段語音與某一預設字詞的相符程度最高,且由相符程度衍生的信心值(confidence score)超越一門檻值(threshold),聲控裝置就會將該段語音辨識為該最相符之預設字詞;若該最相符預設字詞符合某一個命令,聲控裝置便可進而執行該命令。反之,若信心值未及該門檻值,則聲控裝置會認為該段語音係無效(無法辨識)的。
本發明認知到聲控裝置的運作環境會影響語音辨識,故在進行語音辨識時,需一併考慮環境因素。本發明的目的之一係提供一種控制器(如控制晶片),可應用於一聲控裝置,包括一設定模組與一辨識模組。設定模組依據一環境參數產生一門檻值;其中,環境參數係相關於該聲控裝置所處的環境。辨識
模組則耦接於該設定模組,可接收一語音,針對該語音進行辨識並產生一語音辨識的信心值,並且,比較該語音辨識的信心值與該門檻值並據以產生一控制訊號,從而進行聲控。
舉例而言,聲控裝置可以是具有揚聲器的電視或是
音響系統,環境參數則可以是揚聲器的音量值。例如,當音量值較高時,設定模組可將門檻值設定為一較高的數值;當音量值較低時,設定模組可連帶地將門檻值設定為一較低的數值。當語音辨識的信心值門檻值較高時,使用者進行聲控的語音需較響亮、較清楚才能被有效辨識為聲控命令。門檻值較低時,即使使用者進行聲控的語音較低,也容易被辨識為聲控命令。
以及/或者,環境參數也可以包括一時間值,例如說
是由聲控裝置本身提供的實時時鐘(Real Time Clock)值。舉例而言,設定模組可在一天中的上午八點至下午七點將門檻值設定為一第一數值,在另一時段則將門檻值維持為一相異的第二數值。
以及/或者,控制器可以包括(或外接至)一環境偵
測器;此環境偵測器用以偵測聲控裝置的環境以得到環境參數。
亦即,環境參數也可以包括環境偵測器提供的定量環境偵測結果。舉例而言,環境偵測器可以是一偵測背景音量的麥克風,用以偵測環境音量。以及/或者,環境偵測器可以是一偵測環境(背景)亮度的光感測器。在某些應用情境下,背景音量及/或亮度較高代表聲控裝置係運作於一較吵雜的環境,故設定模組可將門檻值提高,避免將背景雜音錯誤地辨識為聲控命令;另一方面,背景音量及/或亮度較低代表聲控裝置係運作於一較安靜的環境,故設定模組可將門檻值降低,讓使用者可用較低聲的語音進行聲控。本發明控制器更可包括一儲存單元,用以儲存一對照表;設定模組可依據環境參數查詢該對照表以產生門檻值。
本發明的目的之一係提供一種運用於一聲控裝置的
方法,包含:依據一環境參數產生一門檻值;接收一語音,針對
該語音進行辨識並產生一語音辨識的信心值;以及,將語音辨識的信心值與門檻值相互比較,並據以產生一控制訊號,進行聲控。
為了對本發明之上述及其他方面有更佳的瞭解,下文特舉較佳實施例,並配合所附圖式,作詳細說明如下:
10‧‧‧聲控裝置
12‧‧‧控制器
14‧‧‧設定模組
16‧‧‧辨識模組
18‧‧‧環境偵測器
19‧‧‧儲存單元
20‧‧‧受控電路
100‧‧‧流程
102-116‧‧‧步驟
S_voice、S_context、S_command‧‧‧訊號
S_ref‧‧‧參考來源
Td‧‧‧門檻值
第1圖示意的是依據本發明一實施例的聲控裝置。
第2圖與第3圖舉例說明本發明依據環境參數來為語音辨識設定門檻值的實施例。
第4圖示意的是依據本發明一實施例的流程。
請參考第1圖,其所示意的是依據本發明一實施例的聲控裝置10,其可包括一控制器12與一受控電路20。控制器12可以是一控制晶片,耦接於受控電路20,用以控制受控電路20。舉例而言,聲控裝置10可以是一電視,控制器12為電視控制晶片,受控電路20則可以包括揚聲器、顯示面板、頻道調諧器(tuner)與相關驅動電路/晶片等等。控制器12中可包括一設定模組14與一辨識模組16,以實現聲控功能。
聲控裝置10可將使用者的語音接收轉換為電子訊號S_voice,並傳輸至控制器12中的辨識模組16。控制器12中的設定模組14可依據一環境參數的訊號S_context自動地、動態地、適應性地調整一語音辨識的信心門檻值Td。辨識模組16則耦接於設定模組14,其可接收語音訊號S_voice,對訊號S_voice進行語音辨識以產生語音辨識的信心值(Confidence score,未圖示),並將信心值與門檻值Td相互比較,據以提供訊號S_command(例如一控制訊號),以進行聲控。語音辨識的信心值越高,代表對於辨識結果有越高的準確機率,一般來說,音量越大或發音越標準,語音辨識的信心值就會越高。舉例而言,若辨識模組16比對得知訊號S_voice的語音與某一字詞最為相符,且由相符程
度衍生的語音辨識信心值高於門檻值Td,則辨識模組16便可進一步比對該最相符字詞是否符合某一預設的控制命令;若是,便可於訊號S_command中反映該相符命令,而控制器12可執行訊號S_command中的命令,據以操控受控電路20。舉例而言,若聲控系統10為電視,則語音的控制命令可以包括:將訊源切換至某指定頻道、至前一頻道、至後一頻道與調整音量等等。
另一方面,當辨識模組16對訊號S_voice進行語音
辨識時,若語音辨識的信心值低於門檻值Td,辨識模組16可於訊號S_command中來反映「無辨識結果」,使控制器12得以進行例外處理,例如說是:繼續接收後續語音、提示使用者重新發出語音命令等等。
如前所述,設定模組14可依據訊號S_context所反
映的環境參數自動調整門檻值Td。換言之,本發明聲控技術可在辨識語音命令時將聲控裝置10的運作環境一併列入考量,進而改善語音辨識的適應性。
舉例而言,聲控裝置10可以是具有揚聲器的電視或
是音響系統,環境參數則可以是該揚聲器的音量值。例如,當音量值較高時(例如說是使用者調高揚聲器音量時),設定模組14可將門檻值Td設定為一較高的數值;當音量值較低時,設定模組14可將門檻值Td設定為一相對較低的數值。請參考第2圖,其係舉例示意本發明依據音量值設定門檻值Td的情形。在第2圖的例子中,當音量值落在80db至100db的範圍時,設定模組14(第1圖)會將門檻值Td設定為80;當音量值在60db至79db之間,門檻值Td被設定為60;當音量值在40db至59db之間,門檻值Td則設定為40,等等。當語音辨識的信心值門檻值Td較高時,使用者進行聲控的語音需較響亮、較清楚才能被有效辨識為聲控命令。門檻值Td較低時,即使使用者以較低聲的語音進行聲控,也容易被辨識為聲控命令。
以及/或者,環境參數也可以包括一時間值,例如說
是由聲控裝置10本身提供的實時時鐘值。舉例而言,如第3圖的例子所示,設定模組14可在一天中的上午八點至下午五點將門檻值Td設定為一第一數值(如80db),在下午五點至九點將門檻值Td維持為一相異的第二數值(如60db),其餘時段則將門檻值Td維持為一第三數值(如40db)。
以及/或者,如第1圖所示,聲控裝置10更可以耦
接一(或多個)環境偵測器18,其係用以偵測環境的某一(或某些)特性,並提供定量的環境偵測結果。環境偵測器18可以內建於聲控裝置10中,也可以是另一獨立的外接裝置,耦接至聲控裝置10的控制器12。環境偵測器18的環境偵測結果可被包括於訊號S_context中,使設定模組14也可以依據環境偵測結果來設定門檻值Td。
舉例而言,環境偵測器18可以是一偵測背景音量的
麥克風。以及/或者,環境偵測器18可以是一偵測背景亮度的光感測器。在某些應用情境下,背景音量及/或亮度較高代表聲控裝置係運作於一較吵雜的環境,故設定模組14可將門檻值Td提高,避免將背景雜音錯誤地辨識為聲控命令;另一方面,背景音量及/或亮度較低代表聲控裝置10係運作於一較安靜的環境,故設定模組14可將門檻值Td降低,讓使用者可用較低的語音進行聲控。
再者,環境偵測器18也可以是偵測位置的定位裝
置,例如衛星定位裝置或無線定位裝置,用以偵測聲控裝置10所在的位置,並使設定模組14能依據定位結果來設定門檻值Td。
環境偵測器18也可以是影像攝取與辨識的裝置,其可辨識聲控裝置10的使用者身份,讓設定模組14可為不同使用者個別設定對應的門檻值Td;以及/或者,環境偵測器18可以辨識使用者的人數,以依據使用者人數設定門檻值Td,例如說是在人數較多時提高門檻值Td。
又及,環境偵測器18也可以是測距裝置,來以測定
使用者至聲控裝置10的距離,將使用者距離作為一環境參數,使設定模組14能依據使用者距離來調整門檻值Td,例如說是當使用者距離較遠時調低門檻值Td。環境偵測器18也可以是溫度感應器,將感應到的溫度作為一環境參數。
設定模組14可依據一或多個環境參數來設定門檻
值Td。這一或多個環境參數可以包括聲控裝置10本身的運作參數(例如揚聲器音量或時間值等),以及/或者一或多個環境偵測器的環境偵測結果。例如,設定模組14可依據預設的演算法(例如說是邏輯的及運算、或運算等等)來整合多個環境參數,並依據整合結果設定門檻值Td。舉例來說,當一第一環境參數落於一第一數值範圍中且一第二環境參數落於一第二數值範圍時,設定模組14將門檻值Td設定為一第一數值;當該第一環境參數逾越該第一數值範圍或該第二環境參數逾越該第二數值範圍時,設定模組14則改將門檻值Td設定為一相異的第二數值。又一例中,當第一環境參數落於一第一數值範圍中時,設定模組14使門檻值Td隨第二環境參數變化;當第一環境參數逾越第一數值範圍時,設定模組14則使門檻值Td維持不變。
延續第1圖實施例,請參考第4圖,其所示意的是
依據本發明一實施例的流程100;第1圖中的控制器12可依據流程100來實現聲控。流程100包括下列步驟。
步驟102:開始流程100。在接收一段語音後,控制
器12可啟始流程100。
步驟104:取得(一或多個)環境參數。這一或多
個環境參數可以包括聲控裝置10本身的運作參數,以及/或者,一或多個環境偵測器的環境偵測結果。
步驟106:依據(一或多個)環境參數調整/設定語
音辨識的信心門檻值Td。
步驟108:針對步驟102之語音找出最相符的字詞
後,依據相符程度計算信心值,並比較信心值是否大於門檻值
Td,若是,則進行至步驟110,反之則進行至步驟116。
步驟110:進行至此步驟,代表語音的內容可有效
地由最相符字詞代表;如此,就可進行至步驟112,以取得聲控的命令。
步驟112:在複數個預設命令中,比對最相符字詞
是否符合其中之一,若是,則進行至步驟114,反之則進行至步驟104。
步驟114:控制器12執行步驟112中找出的相符命
令,實現聲控的目的。
步驟116:結束流程100。
等效而言,本發明也可依據環境參數來調整信心
值,例如說是將原始的信心值乘以一權重及/或加上一偏移值而得到一調整後信心值,並依據此調整後信心值是否大於門檻值Td來進行聲控;其中,權重及/或偏移值是依據環境參數調整的。舉例而言,在一實施例中,當某一環境參數落在一預設範圍時,假設設定模組14應使門檻值Td由一較小數值Td0增加為一較大數值Td1。等效地,在另一個效果相同的實施例中,當該環境參數落在該預設範圍時,設定模組14則是使門檻值Td維持於數值Td0,改將原始信心值乘以一個小於1的權重以得到一調整後信心值,例如,此權重可以等於Td0/Td1;如此,當在比較調整後信心值與原始門檻值Td(數值Td0)間的關係時,等效上也就是在比較原始信心值與調整後門檻值Td(數值Td1)。換言之,本發明可推廣為:依據環境參數來調整信心值與門檻值兩者的至少其中之一,以調整兩者間的相互關係。舉例而言,某一數值的信心值原本係小於門檻值,但當環境參數改變時,同一數值的信心值會變得大於門檻值;兩者間的關係由「小於」改變至「大於」的手段可以是:在環境參數改變時降低門檻值,以及/或者,在環境參數改變時增加信心值。
在第1圖實施例中,設定模組14與辨識模組16可
用硬體實現,或是由硬體處理器執行軟體及/或韌體之程式碼來實現。針對信心值的計算,本發明可採用任何能將自動語音辨識結果的可靠度(reliability)予以量化的演算法。舉例而言,當將一段語音辨識為一字詞後,信心值可以代表該辨識的正確機率。信心值可以依據後驗機率(posterior probability)估算,依據聲學語言等預估特徵(predictor feature)估算,以及/或者,依據發音確認(utterance verification)估算。
此外,在第1圖實施例中,當設定模組14依據訊號
S_context所反映的環境參數自動調整門檻值Td時,可以參考一參考來源S_ref。舉例而言,參考來源S_ref可以是一組預先儲存於控制器12的對照表,其可將不同的環境參數範圍對應至不同的門檻值Td,例如第2圖及/或第3圖所示的對照表;當設定模組14要依據環境參數產生門檻值Td時,便可依據環境參數查詢對照表以產生門檻值Td。以及/或者,控制器12也可以接受使用者輸入來設定參考來源S_ref的對照表;舉例而言,在第3圖的例子中,使用者可自行設定左列(column)的時間範圍。以及/或者,參考來源S_ref可以包括一映射函數或一演算法,可由環境參數計算出對應的門檻值Td。在流程100的步驟106(第4圖)中,當要依據環境參數設定門檻值Td時,也可以依據參考來源S_ref來由環境參數對照出門檻值Td。如第1圖所示,控制器12可以包括(或外接至)一儲存單元19;儲存單元19可以是揮發性及/或非揮發性記憶體,用以儲存參考來源S_ref。
總結來說,相較於習知技術,本發明可依據環境參
數來動態地調整語音辨識的信心門檻值,使語音辨識能適應聲控裝置的運作環境,改善聲控的性能與適應性。
綜上所述,雖然本發明已以較佳實施例揭露如上,
然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可作各種之更動與潤
飾。因此,本發明之保護範圍當視後附之申請專利範圍所界定者
為準。
10‧‧‧聲控裝置
12‧‧‧控制器
14‧‧‧設定模組
16‧‧‧辨識模組
18‧‧‧環境偵測器
19‧‧‧儲存單元
20‧‧‧受控電路
S_voice、S_context、S_command‧‧‧訊號
S_ref‧‧‧參考來源
Td‧‧‧門檻值
Claims (11)
- 一種控制器,應用於一聲控裝置,包含:一設定模組,依據一環境參數產生一門檻值,其中該環境參數係相關於該聲控裝置的揚聲器受使用者調控之一音量值;其中,當該音量值為一大音量值時,該設定模組設定該門檻值為一高門檻,以及,當該音量值為一小音量值時,該設定模組設定該門檻值為一低門檻;以及一辨識模組,接收一語音,針對該語音進行辨識並產生一語音辨識的信心值,以及比較該語音辨識的信心值與該門檻值並據以產生一控制訊號;其中,該信心值係與該語音辨識的一準確機率有關。
- 如申請專利範圍第1項的控制器,更包含一環境偵測器,用以偵測該聲控裝置的環境以得到一第二環境參數,而該設定模組更可依據該第二環境參數產生該門檻值。
- 如申請專利範圍第2項的控制器,其中該環境偵測器係用以偵測該環境的背景音量;其中,當該背景音量較高時,該設定模組調高該門檻值,以及,當該背景音量較低時,該設定模組調低該門檻值。
- 如申請專利範圍第2項的控制器,其中該環境偵測器係用以偵測該環境的亮度;其中,當該亮度較亮時,該設定模組調高該門檻值,以及,當該亮度較暗時,該設定模組調低該門檻值。
- 如申請專利範圍第1項的控制器,其中該設定模組更可依據一第二環境參數產生該門檻值,而該第二環境參數係為一實時時鐘值;其中,若該第二環境參數落在一第一時間範圍內,該設定模組調高該門檻值;以及,若該第二環境參數落在一第二時間範圍內,該設定模組調低該門檻值。
- 如申請專利範圍第1項的控制器,其中該控制器包含一儲存單元,該儲存單元用以儲存一對照表,該設定模組係依據該環境參數查詢該對照表以產生該門檻值。
- 一種運用於一聲控裝置的方法,包含:依據一環境參數產生一門檻值,其中該環境參數係相關於該聲控裝置的揚聲器受使用者調控之一音量值;當該音量值為一大音量值時,將該門檻值設定為一高門檻,以及,當該音量值為一小音量值時,將該門檻值設定為一低門檻;接收一語音,針對該語音進行辨識並產生一語音辨識的信心值;以及比較該誥音辨識的信心值與該門檻值並據以產生一控制訊號;其中,該信心值係與該語音辨識的一準確機率有關。
- 如申請專利範圍第7項的方法,更包含:偵測該聲控裝置所在環境的背景音量;當該背景音量較高時,調高該門檻值,以及,當該背景音量較低時,調低該門檻值。
- 如申請專利範圍第7項的方法,更包含:偵測該聲控裝置所在環境的亮度;當該亮度較亮時,調高該門檻值,以及,當該亮度較暗時,調低該門檻值。
- 如申請專利範圍第7項的方法,更包含:以一實時時鐘值作為一第二環境參數;若該第二環境參數落在一第一時間範圍內,調高該門檻值;以及,若該第二環境參數落在一第二時間範圍內,調低該門 檻值。
- 如申請專利範圍第7項的方法,其中依據該環境參數產生該門檻值的步驟包含:依據該環境參數查詢一對照表以產生該門檻值。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW102127843A TWI601032B (zh) | 2013-08-02 | 2013-08-02 | 應用於聲控裝置的控制器與相關方法 |
US14/450,366 US9330664B2 (en) | 2013-08-02 | 2014-08-04 | Controller for voice-controlled device and associated method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW102127843A TWI601032B (zh) | 2013-08-02 | 2013-08-02 | 應用於聲控裝置的控制器與相關方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201506679A TW201506679A (zh) | 2015-02-16 |
TWI601032B true TWI601032B (zh) | 2017-10-01 |
Family
ID=52428438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW102127843A TWI601032B (zh) | 2013-08-02 | 2013-08-02 | 應用於聲控裝置的控制器與相關方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9330664B2 (zh) |
TW (1) | TWI601032B (zh) |
Families Citing this family (155)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
EP3809407A1 (en) | 2013-02-07 | 2021-04-21 | Apple Inc. | Voice trigger for a digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9384738B2 (en) | 2014-06-24 | 2016-07-05 | Google Inc. | Dynamic threshold for speaker verification |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) * | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10347273B2 (en) * | 2014-12-10 | 2019-07-09 | Nec Corporation | Speech processing apparatus, speech processing method, and recording medium |
EP3239975A4 (en) * | 2014-12-26 | 2018-08-08 | Sony Corporation | Information processing device, information processing method, and program |
WO2016136044A1 (ja) * | 2015-02-23 | 2016-09-01 | ソニー株式会社 | 情報処理システムおよび情報処理方法 |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US20160284349A1 (en) * | 2015-03-26 | 2016-09-29 | Binuraj Ravindran | Method and system of environment sensitive automatic speech recognition |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
KR102420450B1 (ko) * | 2015-09-23 | 2022-07-14 | 삼성전자주식회사 | 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체 |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
JP6553111B2 (ja) * | 2017-03-21 | 2019-07-31 | 株式会社東芝 | 音声認識装置、音声認識方法及び音声認識プログラム |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
KR102426717B1 (ko) * | 2017-06-27 | 2022-07-29 | 삼성전자주식회사 | 발화 인식 모델을 선택하는 시스템 및 전자 장치 |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
TWI673673B (zh) * | 2018-01-05 | 2019-10-01 | 華南商業銀行股份有限公司 | 智能語音交易系統 |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
TWI675305B (zh) * | 2018-07-26 | 2019-10-21 | 英業達股份有限公司 | 智能語音控制管理系統及其方法 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
KR20200084727A (ko) | 2019-01-03 | 2020-07-13 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US20210065691A1 (en) * | 2019-08-29 | 2021-03-04 | Microsoft Technology Licensing, Llc | Automatic speech sensitivity adjustment feature |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
CN110880318B (zh) * | 2019-11-27 | 2023-04-18 | 云知声智能科技股份有限公司 | 语音识别方法及装置 |
TWI712944B (zh) * | 2019-11-28 | 2020-12-11 | 睿捷國際股份有限公司 | 利用聲音監控設備之方法 |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5991718A (en) * | 1998-02-27 | 1999-11-23 | At&T Corp. | System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments |
US6272460B1 (en) * | 1998-09-10 | 2001-08-07 | Sony Corporation | Method for implementing a speech verification system for use in a noisy environment |
TW200715146A (en) * | 2005-10-04 | 2007-04-16 | Ind Tech Res Inst | System and method for detecting the recognizability of inputted speech signals |
CN102137085A (zh) * | 2010-01-22 | 2011-07-27 | 谷歌公司 | 语音命令的多维消歧 |
US20120209609A1 (en) * | 2011-02-14 | 2012-08-16 | General Motors Llc | User-specific confidence thresholds for speech recognition |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1933303B1 (en) * | 2006-12-14 | 2008-08-06 | Harman/Becker Automotive Systems GmbH | Speech dialog control based on signal pre-processing |
US8138930B1 (en) * | 2008-01-22 | 2012-03-20 | Google Inc. | Advertising based on environmental conditions |
-
2013
- 2013-08-02 TW TW102127843A patent/TWI601032B/zh not_active IP Right Cessation
-
2014
- 2014-08-04 US US14/450,366 patent/US9330664B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5991718A (en) * | 1998-02-27 | 1999-11-23 | At&T Corp. | System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments |
US6272460B1 (en) * | 1998-09-10 | 2001-08-07 | Sony Corporation | Method for implementing a speech verification system for use in a noisy environment |
TW200715146A (en) * | 2005-10-04 | 2007-04-16 | Ind Tech Res Inst | System and method for detecting the recognizability of inputted speech signals |
CN102137085A (zh) * | 2010-01-22 | 2011-07-27 | 谷歌公司 | 语音命令的多维消歧 |
US20120209609A1 (en) * | 2011-02-14 | 2012-08-16 | General Motors Llc | User-specific confidence thresholds for speech recognition |
Also Published As
Publication number | Publication date |
---|---|
US9330664B2 (en) | 2016-05-03 |
US20150039305A1 (en) | 2015-02-05 |
TW201506679A (zh) | 2015-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI601032B (zh) | 應用於聲控裝置的控制器與相關方法 | |
US20200302929A1 (en) | Method of providing voice command and electronic device supporting the same | |
US10504511B2 (en) | Customizable wake-up voice commands | |
KR101981878B1 (ko) | 스피치의 방향에 기초한 전자 디바이스의 제어 | |
KR102623272B1 (ko) | 전자 장치 및 이의 제어 방법 | |
US10147444B2 (en) | Electronic apparatus and voice trigger method therefor | |
US10777193B2 (en) | System and device for selecting speech recognition model | |
CN105118257B (zh) | 智能控制系统及方法 | |
KR102339657B1 (ko) | 전자 장치 및 이의 제어 방법 | |
US20140191949A1 (en) | Display apparatus and method of controlling a display apparatus in a voice recognition system | |
WO2015160519A1 (en) | Method and apparatus for performing function by speech input | |
TWI790236B (zh) | 音量調節方法、裝置、電子設備及存儲介質 | |
WO2020048431A1 (zh) | 一种语音处理方法、电子设备和显示设备 | |
TWI639153B (zh) | 電子裝置及其透過語音辨識喚醒的方法 | |
TW201519172A (zh) | 具有丟失提醒功能的可攜式電子裝置及其使用方法 | |
US11437022B2 (en) | Performing speaker change detection and speaker recognition on a trigger phrase | |
US20220270601A1 (en) | Multi-modal smart audio device system attentiveness expression | |
KR102093851B1 (ko) | 인공지능에 기반하여 음성 인식의 민감도를 환경에 적응적으로 변화시키는 방법 및 이를 구현하는 장치 | |
KR102308022B1 (ko) | 호출음 인식장치 및 호출음 인식방법 | |
CN104345649B (zh) | 应用于声控装置的控制器与相关方法 | |
KR102052634B1 (ko) | 호출음 인식장치 및 호출음 인식방법 | |
US11600275B2 (en) | Electronic device and control method thereof | |
CN111091026B (zh) | 指纹信号的校准方法及装置 | |
WO2021051991A1 (zh) | 一种智能调整音量的方法、系统及存储介质 | |
JP2022542113A (ja) | 複数装置の起動ワード検出 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |