JP2023080116A - ホットワード認識および受動的支援 - Google Patents
ホットワード認識および受動的支援 Download PDFInfo
- Publication number
- JP2023080116A JP2023080116A JP2023044908A JP2023044908A JP2023080116A JP 2023080116 A JP2023080116 A JP 2023080116A JP 2023044908 A JP2023044908 A JP 2023044908A JP 2023044908 A JP2023044908 A JP 2023044908A JP 2023080116 A JP2023080116 A JP 2023080116A
- Authority
- JP
- Japan
- Prior art keywords
- hotword
- power mode
- audio data
- user
- display
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000013518 transcription Methods 0.000 claims abstract description 35
- 230000035897 transcription Effects 0.000 claims abstract description 35
- 230000004044 response Effects 0.000 claims abstract description 25
- 230000009471 action Effects 0.000 claims description 51
- 230000015654 memory Effects 0.000 claims description 39
- 238000004891 communication Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 description 9
- 239000008267 milk Substances 0.000 description 6
- 210000004080 milk Anatomy 0.000 description 6
- 235000013336 milk Nutrition 0.000 description 6
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000002730 additional effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 235000013550 pizza Nutrition 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 235000013351 cheese Nutrition 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72448—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
- H04M1/72451—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to schedules, e.g. using calendar applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/68—Details of telephonic subscriber devices with means for recording information, e.g. telephone number during a conversation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- User Interface Of Digital Computer (AREA)
- Power Sources (AREA)
- Telephone Function (AREA)
Abstract
【課題】ホットワード認識および受動的支援を実施するための、コンピュータ記憶媒体にエンコードされたコンピュータプログラムを備える方法、システム、および装置が開示される。【解決手段】方法はコンピューティングデバイスによって、発話に対応するオーディオデータを受け取る工程を備える。コンピューティングデバイスが低電力モードにある間、ディスプレイはグラフィカルインタフェースを表示する。コンピューティングデバイスは第1ホットワードを検出することに応答して、低電力モードを終了する。方法は、オーディオデータが第2の異なるホットワードを含むことを判定する。オーディオデータに対して音声認識を実行することで、発話のトランスクリプションを得る。追加のユーザインタフェースを生成する。ディスプレイ上に出力するために、追加のグラフィカルインタフェースを提供する。【選択図】図1
Description
本明細書は、一般に自動音声認識に関する。
音声対応の家庭(speech-enabled home)やその他の環境、すなわちユーザが問い合わせやコマンドを大声で話すだけで、コンピュータベースのシステムが問い合わせに対応し、回答し、および/またはコマンドを実行させることができるような環境が、現実のものとなってきている。音声対応環境(speech-enabled environment。例えば、家庭、職場、学校など)は、環境の様々な部屋やエリアに配置された接続されたマイクロフォンデバイスのネットワークを使用して実装することができる。このようなマイクロフォンのネットワークを介して、ユーザは、コンピュータまたは他のデバイスを彼や彼女の目の前にまたは近くに置くことなく、環境内の本質的にどこからでもシステムに口頭で問い合わせを行うことができる。例えば、キッチンで料理をしているときに、ユーザが直接システムに「3つのカップに何ミリリットル入っていますか」と尋ね、それに応じてシステムから例えば合成音声出力(synthesized voice output)の形で答えを受け取ることができる。あるいは、ユーザはシステムに「私の最寄りのガソリンスタンドが閉まるのはいつですか」のような質問をしたり、家を出る準備をしているときに「今日、私はコートを着るべきですか?」などの質問をしたりするかもしれない。
さらに、ユーザは、ユーザの個人情報に関連して、システムに問い合わせをしたり、コマンドを発出したりすることができる。例えば、ユーザはシステムに「私がジョンに会うのはいつですか?」と尋ねるかもしれないし、システムに「私が帰宅したときにジョンに電話するようにリマインドしてね」と命令するかもしれない。
音声対応システムでは、システムとのユーザの相互作用(interacting)の方法は、排他的ではないにしても、主に音声入力(voice input.)によって行われるように設計されている。その結果、システムは、システムに向けられていないものも含めて周囲の環境で行われたすべての発話(utterances)を拾う可能性があるので、例えば環境に存在する個人に向けられている場合とは対照的に、任意の発話がシステムに向けられているのはいつかを識別する何らかの方法を持たなければならない。これを達成する一つの方法は、ホットワード(HOTWORD)を使用することである。ホットワードは、環境内のユーザ間の合意によって、システムの注意を喚起するために話される所定の単語として予約されている。例示的な環境では、システムの注意を喚起するために使用されるホットワードは、「OK、コンピュータ」という言葉である。その結果、「OK、コンピュータ」という言葉が話されるたびにマイクで拾われ、システムに伝えられる。システムは、音声認識(speech recognition)技術を実行したり、オーディオ特徴量とニューラルネットワークを使用したりして、ホットワードが話されたかどうかを判定し、話された場合には、続くコマンドまたはクエリを待つ。したがって、システムに向けられた発話は、[ホットワード]、[クエリ](QUERY)という一般的な形式をとり、この例では「ホットワード」は「OK、コンピュータ」である。「クエリ」は、システムが単独で、またはネットワークを介してサーバと連携して、音声認識(speech recognized)、解析、処理することができる任意の質問、コマンド、宣言、またはその他の要求であり得る。
音声対応システムは、1つ以上のホットワードに応答するように構成されてもよい。アンビエント表示(always-on display)を備えるいくつかの音声対応システムでは、システムは、いくつかの追加のホットワードの検出に応答して、ユーザに受動的な支援を提供してもよい。システムは、検出されたホットワードに関連する情報、およびアンビエント表示に続く任意の発話を、目立たない方法で表示してもよい。例えば、ユーザが友人とランチプランについて会話をしている場合がある。ユーザの電話機(phone)はテーブルの上に置かれていてもよく、マイクは会話を検出することができるかもしれない。会話中に、友人はユーザに「明日のランチは空いていますか?」と尋ねるかもしれない。ユーザの電話機は、その質問を検出して、その質問がホットワードを含むかどうかを判定してもよい。電話機は、「OK、コンピュータ」に加えて、「あなたは空いていますか」や「忘れないでね」などのホットワードを検出するように構成されてもよい。電話機は、「明日のお昼は空いていますか」のオーディオデータを受け取ると、ホットワード「あなたは空いていますか」を識別し、残りのオーディオデータに対して音声認識を行う。電話機は、ホットワード「あなたは空いていますか」を識別し、「明日のランチについて」というトランスクリプションを生成したことに基づいて、ユーザのカレンダー情報に自動的にアクセスし、翌日のランチタイムについての関連するカレンダー情報をアンビエント表示に表示する。ユーザは、任意のボタンやディスプレイを介して電話機と相互作用したり、「OK、コンピュータ」を使用して電話機に対処(address)したりすることなく、電話機を見てユーザ自身の空き状況を判定してユーザが空いているかどうかを迅速に回答することができる。
本出願に記載された主題の革新的な側面によれば、ホットワード認識および受動的支援を実施するための方法は、コンピューティングデバイスによって発話に対応するオーディオデータを受け取る工程であって、(i)コンピューティングデバイスは低電力モードで動作し、コンピューティングデバイスが低電力モードにある間にはグラフィカルインタフェースを表示するディスプレイをコンピューティングデバイスは備え、(ii)コンピューティングデバイスは第1ホットワードを検出することに応答して低電力モードを終了するように構成される、オーディオデータを受け取る工程と、オーディオデータが第2の異なるホットワードを含むことをコンピューティングデバイスによって判定する工程と、オーディオデータが第2の異なるホットワードを含むことを判定することに応答して、コンピューティングデバイスによって、オーディオデータに対する音声認識(speech recognition)を実行することで、発話(utterance)のトランスクリプション(transcription。音声転写)を取得する工程と、第2の異なるホットワードと発話のトランスクリプションとに基づいて、コンピューティングデバイスによって、追加のユーザインタフェースを生成する工程と;および、コンピューティングデバイスが低電力モードのままである間、ディスプレイ上の出力のために、追加のグラフィカルインタフェースを提供する工程とを備える。
これらの実施形態および他の実施形態は、それぞれ、オプションとして、以下の特徴のうちの1つまたは複数を備えることができる。行動(actions)は、ディスプレイ上の出力のために、追加のグラフィカルインタフェースを提供した後、コンピューティングデバイスによって、キーを押すことからなる入力を受け取る工程と、および、キーを押すことからなる入力を受け取った後、コンピューティングデバイスを、低電力モードよりも多くの電力を消費する高電力モードに切り替える工程とを備える。行動には、低電力モードよりも電力の大きい高電力モードにコンピューティングデバイスを切り替えた後、ディスプレイがアクティブなままの間、コンピューティングデバイスを低電力モードに戻す工程と、および、コンピューティングデバイスを低電力モードに戻した後、ディスプレイに出力するために、ユーザインタフェースを提供する工程とが含まれる。高電力モードでは、コンピューティングデバイスは、ネットワークから第1周波数でデータをフェッチ(fetches)する。低電力モードでは、コンピューティングデバイスは、第2の低い周波数でネットワークからデータを取得する。ディスプレイは、タッチ式(touch sensitive)ディスプレイである。コンピューティングデバイスが低電力モードにある間には、ディスプレイはタッチ入力を受け取ることができない。
コンピューティングデバイスが低電力モードよりも多くの電力を消費する高電力モードにある間、ディスプレイはタッチ入力を受け取ることができる。行動は、第2の異なるホットワードに基づいて、コンピューティングデバイスによってアクセス可能なアプリケーション(アプリ)を識別する工程と、および、アプリケーションに発話のトランスクリプションを提供する工程とを備える。追加のユーザインタフェースは、アプリケーションに発話のトランスクリプションを提供する工程に基づいて生成される。行動は、コンピューティングデバイスによって、第1ホットワードの第1ホットワードモデルと、第2の異なるホットワードの第2の異なるホットワードモデルとを受け取る工程を備える。オーディオデータが第2の異なるホットワードを含むと判定する行動は、オーディオデータを第2の異なるホットワードモデルに適用する工程を備える。追加のグラフィカルインタフェースは、ユーザによる選択に応じて、アプリケーションを更新する選択可能なオプションを備える。行動は、オーディオデータが第2の異なるホットワードを含むとの判定に応答して、コンピューティングデバイスを低電力モードに維持する工程を備える。行動は、コンピューティングデバイスによって、発話の話者がコンピューティングデバイスのプライマリユーザ(primary user)ではないと判定する工程を備える。
オーディオデータ上で音声認識を実行することで発話のトランスクリプションを取得する行動は、オーディオデータの話者がコンピューティングデバイスのプライマリユーザではないと判定する工程に応答している。行動は、コンピューティングデバイスによって、追加の発話に対応する追加のオーディオデータを受け取る工程と、コンピューティングデバイスによって、追加のオーディオデータが第1ホットワードを含むことを判定する工程と、および、オーディオデータが第2の異なるホットワードを含むことを判定したことに応答して、コンピューティングデバイスを低電力モードから、低電力モードよりも多くの電力を消費する高電力モードに切り替える工程とを備える。行動は、コンピューティングデバイスによって、追加の話者がコンピューティングデバイスのプライマリユーザであることを判定する工程を備える。コンピューティングデバイスを低電力モードから、低電力モードよりも多くの電力を消費する高電力モードに切り替える行動は、追加の話者がコンピューティングデバイスのプライマリユーザであることを判定する工程に応答して行われる。
本側面の他の実施形態は、対応するシステム、装置、およびコンピュータ記憶装置に記録されたコンピュータプログラムを含み、それぞれが方法の動作を実行するように構成されている。
本明細書に記載された主題の特定の実施形態は、以下の利点のうちの1つ以上を実現するように実施することができる。コンピューティングデバイスは、ホットワードを検出することに応答して、アンビエント表示(always-on display)上に情報を自動的に提供するように構成されてもよい。コンピューティングデバイスを低電力状態から高電力状態に切り替えるように構成された第1ホットワードと、コンピューティングデバイスがバックグラウンド処理を実行して低電力状態で情報を出力することを可能にするように構成された第2の異なるホットワードとを区別することで、本明細書に記載された技術は、コンピューティングデバイスの異なる状況および異なる用途において、ユーザの入力を適切に処理することを可能にするメカニズムを提供する。第1ホットワードおよび第2ホットワードを区別することと組み合わせたアンビエント表示は、ユーザが情報を取得する間、電話機がより多くの電力を消費するモードに切り替わる原因となるユーザが積極的に情報を取得することなく、ユーザに情報を伝えるための低電力の方法を提供する。
本明細書に記載された主題の1つ以上の実施形態の詳細は、添付の図面および以下の説明に記載されている。主題の他の特徴、側面、および利点は、説明、図面、および特許請求の範囲から明らかになるであろう。
様々な図面中の同様の参照番号および呼称は、同様の要素を示す。
図1は、ホットワード認識を実行し、アンビエント表示を介して受動的な支援を提供するための例示的なシステム100を示している。簡単に説明すると、以下でより詳細に説明するように、第1ユーザ105と第2ユーザ110は会話をしている。第1ユーザ105は、第2ユーザ110に「明日のランチは空いていますか?」と尋ねることで、発話115を話す。会話の間、第2ユーザ110のコンピューティングデバイス120は、テーブルの上に置かれており、かつ、発話115を検出するのに十分に近い位置にあるかもしれない。第2ユーザ110がコンピューティングデバイス120にコマンドを指示することなく、コンピューティングデバイス120は、発話115を処理し、第2ユーザ110の翌日のカレンダー情報を表示する。コンピューティングデバイス120の表示は、コンピューティングデバイスがスリープモードまたは低電力モードにある場合でも、常にオンでることができる。
図1は、ホットワード認識を実行し、アンビエント表示を介して受動的な支援を提供するための例示的なシステム100を示している。簡単に説明すると、以下でより詳細に説明するように、第1ユーザ105と第2ユーザ110は会話をしている。第1ユーザ105は、第2ユーザ110に「明日のランチは空いていますか?」と尋ねることで、発話115を話す。会話の間、第2ユーザ110のコンピューティングデバイス120は、テーブルの上に置かれており、かつ、発話115を検出するのに十分に近い位置にあるかもしれない。第2ユーザ110がコンピューティングデバイス120にコマンドを指示することなく、コンピューティングデバイス120は、発話115を処理し、第2ユーザ110の翌日のカレンダー情報を表示する。コンピューティングデバイス120の表示は、コンピューティングデバイスがスリープモードまたは低電力モードにある場合でも、常にオンでることができる。
図1に示す例では、第1ユーザ105と第2ユーザ110は、翌日のランチの計画を話し合っている。第1ユーザ105は、コンピューティングデバイス120にコマンドを指示していないかもしれない。第2ユーザ110は、コンピューティングデバイス120をユーザの手に持っていてもよいし、コンピューティングデバイス120は、近くのテーブルの上に置かれていてもよいし、ユーザのシャツのポケットに入っていてもよい。コンピューティングデバイス120は、スマートフォン、ラップトップコンピュータ、デスクトップコンピュータ、スマートスピーカ、テレビ、スマートウォッチ、または他の類似のデバイスなど、オーディオデータを受け取るように構成された任意のタイプのデバイスであってもよい。
コンピューティングデバイス120は、常にアクティブであってもよいディスプレイ125を含む。電話機がスリープモードにあるとき、ロックされているとき、または第2ユーザ110が一定期間電話機と相互作用していないかまたは電話機へのコマンドを指示していないとき、ディスプレイ125は低電力状態であってもよい。低電力状態にある間、ディスプレイ125は、現在の日付および時刻を表示してもよいが、大部分が空白または「オフ」であってもよい。低電力状態にある間、ディスプレイ125は、情報を灰色などの単一色でのみ表示してもよい。低電力状態の間、ディスプレイ125は、高電力状態よりも低いピクセル解像度で情報を表示してもよい。低電力状態の間、ディスプレイ125は、低減された輝度で動作したり、または所定の輝度で動作したり、またはデバイスが高電力状態で動作するときのディスプレイ125の最大輝度よりも低い最大輝度まで動作したりしてもよい。コンピューティングデバイス120が追加のメッセージまたは通知を受け取ると、コンピューティングデバイス120はディスプレイ125を更新してもよい。例えば、コンピューティングデバイス120が新しい電子メールを受け取ると、コンピューティングデバイス120は、封筒(エンベロープ)アイコンを含むように、低電力状態でディスプレイ125を更新してもよい。
コンピューティングデバイス120のディスプレイ125の低電力状態は、コンピューティングデバイス120のディスプレイ125の高電力状態とは対照的な状態であってもよい。ディスプレイ125の高電力状態は、第2ユーザ110がディスプレイ125と相互作用する典型的な状態であってもよい。例えば、第2ユーザ110は、ディスプレイ125が高電力状態にある間、インターネットを閲覧したり、電子メールをチェックしたり、テキストメッセージを書いたりしてもよい。第2ユーザ110は、ディスプレイ125が高電力状態にある間、ディスプレイ125の明るさを調整してもよい。いくつかの実施形態では、ディスプレイ125は、高電力状態にある間にはディスプレイの全体にわたってタッチ入力を受け取ることができるが、低電力状態にある間には受け取らないようにしてもよい。例えば、ディスプレイ125は、低電力状態の間にはタッチ入力を受け取ることができないか、または限定された所定の領域のみでタッチ入力を受け取ることができるようにしてもよい。
ディスプレイ125を低電力状態から高電力状態に切り替えるために、第2ユーザ110は、パスコード、生体認証識別子を提供してもよいし、特定のホットワード(例えばOK、コンピュータ)を話してもよいし、スリープ/ウェイクボタンを押してもよいし、または他の類似した行動をしてもよい。いくつかの実施形態では、ホットワードは、単一の単語(例えば、「アシスタント」)または複数の単語(例えば、「OK、コンピュータ」、「あなたは空いていますか」など)であってもよい。ディスプレイ125を高電力状態から低電力状態に切り替えるべく、第2ユーザ110は、特定期間(例えば、30秒)の間、コンピューティングデバイス120と相互作用したり、スリープ/ウェイクボタンを押したり、または他の類似の行動を行ったりすることができないであろう。
いくつかの実施形態では、コンピューティングデバイス120は、バッテリ電力、ネットワーク帯域幅、処理能力、および/または任意の類似のコンピューティングリソースを節約するために、高電力モードの間にはいくつかの行動を実行するとともに、低電力モードの間にはそれらの行動を実行しないようにしてもよい。例えば、高電力モードの間、コンピューティングデバイス120は、ネットワークから新しいメッセージを自動的にフェッチしてもよい。低電力モードの間、コンピューティングデバイスは、ネットワークから新しいメッセージを自動的にフェッチしないかもしれない。高電力モードの間、コンピューティングデバイス120は、バックグラウンドで実行されている任意のアプリケーションを自動的に更新または再読込(リフレッシュ)してもよい。低電力モードの間、コンピューティングデバイス120は、バックグラウンドで実行されている、またはバックグラウンドで実行されていないアプリケーション(アプリ)を更新または再読込しない場合がある。高電力モードの間、コンピューティングデバイス120は、位置情報サービスアプリまたは他のアプリのためにGPSセンサをアクティブにしてもよい。低電力モードの間、コンピューティングデバイス120は、GPSセンサを非アクティブにしてもよい。高電力モードの間、コンピューティングデバイス120は、コンピューティングデバイス120に格納されたデータを、クラウドに格納されたデータと同期させてもよいし、その逆も同様である。低電力モードの間、コンピューティングデバイス120は、コンピューティングデバイス120に格納されたデータを、クラウドに格納されたデータと同期させないか、またはその逆で同期させなくてもよい。高電力モードの間、コンピューティングデバイス120は、アプリケーションストア(アプリストア)からアプリの更新を自動的にダウンロードしてもよい。低電力モードの間、コンピューティングデバイス120は、アプリストアからアプリの更新をダウンロードしないかもしれない。いくつかの実施形態では、低電力モードである間、コンピューティングデバイス120は、高電力モードである間よりも低い周波数で、上述したプロセスのいずれかを実行してもよい。例えば、高電力モードの間、コンピューティングデバイス120は、ネットワークから新しいメッセージを毎秒自動的にフェッチしてもよい。低電力モードの間、コンピューティングデバイスは、1分毎にネットワークから新しいメッセージを自動的にフェッチしてもよい。
図1のステージAでは、コンピューティングデバイス120のディスプレイ125は、低電力状態にある。ディスプレイ125は、現在の日付および時刻と、コンピューティングデバイス120のロックを解除するためのパスワードを入力するための表示とを含むグラフィカルインタフェース(130)を表示する。第2ユーザ110は、コンピューティングデバイス120と相互作用しておらず、コンピューティングデバイス120はスリープ状態であってもよい。コンピューティングデバイス120は、第1ユーザ105および第2ユーザ110の近くのテーブルの上に置かれていてもよい。
ステージBでは、第1ユーザ105は発話115を話す。例えば、第1ユーザ105は「明日のランチは空いていますか?」と話してもよい。ステージCでは、コンピューティングデバイス120は、マイクを介して発話115を検出する。コンピューティングデバイス120が発話を受け取ると、コンピューティングデバイス120は、発話115に対応するオーディオデータ130を処理する。
ステージDでは、コンピューティングデバイス120は、オーディオデータ130を1つ以上のホットワードモデルと比較する。コンピューティングデバイス120は、音声認識を実行することなく、オーディオデータがホットワードのうちの1つを含むかどうかを判定するためにホットワードモデルを使用してもよい。例えば、コンピューティングデバイス120は、「あなたは空いていますか」のためのホットワードモデルと、「OK、コンピュータ」のためのホットワードモデルとを有してもよい。コンピューティングデバイス120は、ホットワードモデルをオーディオデータ130に適用して、オーディオデータ130が「あなたは空いていますか」というホットワードを含むと判定してもよい。いくつかの実施形態では、コンピューティングデバイス120は、複数のフレーズを検出するように訓練された1つのホットワードモデルを使用してもよい。いくつかの実施形態では、コンピューティングデバイス120は、それぞれが異なるフレーズについて訓練されている複数のホットワードモデルを使用してもよい。
ステージEでは、コンピューティングデバイス120は、オーディオデータ130のうちホットワードを含まなかった部分について音声認識を実行する。例えば、コンピューティングデバイス120は、「あなたは空いていますか」を含まなかったオーディオデータ130に対して音声認識を実行することで、「明日のランチについて」というトランスクリプションを生成してもよい。
識別されたホットワード、またはトランスクリプション、または両方に基づいて、コンピューティングデバイス120は、実行すべき特定の行動を判定したり、またはデータにアクセスするための特定のアプリを判定したりしてもよい。例えば、ホットワード「あなたは空いていますか」は、カレンダーアプリにアクセスするためにコンピューティングデバイス120をトリガしてもよい。ホットワード「することを忘れないでね」は、リマインダアプリにアクセスするためにコンピューティングデバイスをトリガしてもよい。ホットワード「一緒に行きましょう(レッツゴー)」は、ライドシェアアプリまたは自転車シェアアプリにアクセスしてもよい。ステージFでは、コンピューティングデバイス120は、ホットワード「あなたは空いていますか」を検出したことに応答して、カレンダーアプリにアクセスする。
ステージGでは、コンピューティングデバイス120は、ステージFでアクセスされたアプリを使用して、実行すべき行動を判定してもよい。コンピューティングデバイス120は、オーディオデータ130のトランスクリプションに基づいて行動を特定してもよい。例えば、トランスクリプションは「明日のランチについて」であってもよい。トランスクリプションと、識別されたホットワードとに基づいて、コンピューティングデバイス120は、典型的なランチ時間帯の翌日のカレンダーにアクセスし、該時間帯の第2ユーザ110のスケジュールを識別してもよい。別の例として、コンピューティングデバイス120は、「来週」というトランスクリプションに基づいて行動を識別してもよい。このトランスクリプションと、「あなたは空いていますか」という識別されたホットワードとに基づいて、コンピューティングデバイス120は、翌週のカレンダーにアクセスしてもよい。別の例として、コンピューティングデバイス120は、「一緒に行きましょう」のホットワードを特定してもよい。コンピューティングデバイス120は、ホットワードの後に話された他の単語を識別することができないであろう。この例では、ホットワード「一緒に行きましょう」に基づいて、コンピューティングデバイスは、ライドシェアアプリまたは自転車シェアアプリにアクセスしてもよい。
ステージHでは、コンピューティングデバイス120は、ステージGでアクセスされたアプリからの詳細を含むグラフィカルインタフェース135を生成する。ディスプレイ125がステージIで低電力状態のままである間、コンピューティングデバイス120は、グラフィカルインタフェース135をディスプレイ125上に表示する。例えば、コンピューティングデバイス120はカレンダーにアクセスすることで、第2ユーザ110の明日のランチタイムのスケジュールを識別した。グラフィカルインタフェース135は、午前11時から午後2時までの間、第2ユーザ110が翌日に空いているという情報を含んでいてもよい。別の例として、コンピューティングデバイス120は、ホットワード「あなたは空いていますか」と、トランスクリプション「来週」とを識別した。この例では、コンピューティングデバイス120は、カレンダーアプリにアクセスすることで、第2ユーザ110が空いている翌週の複数の異なる時間帯を特定してもよい。コンピューティングデバイス120は、いくつかの空き時間帯と、追加の空き時間帯があることを示す情報とを有するグラフィカルインタフェース135を生成した。グラフィカルインタフェース135は、「7月23日の午前10時~午後2時は空いています」、「7月24日の午後1時~午後3時は空いています」、「追加の空いている時間帯があります」ということを示す情報を表示してもよい。グラフィカルインタフェース135は、コンピューティングデバイス120のロックを解除するためのパスワードを入力することを示してもよい。パスワードの代わりに、コンピューティングデバイス120は、適切な生体情報識別子を受け取った後にロックを解除してもよい。グラフィカルインタフェース135は、忙しい期間がブロックアウトされた日/週/月のカレンダーのレンダリングを表示してもよい。プライベート情報がグラフィカルインタフェース135上に表示されないように、各期間のイベント情報はブロックアウトされてもよい。
いくつかの実施形態では、コンピューティングデバイス120は、受動的にプライマリユーザを認証し、コンピューティングデバイス120がアンビエント表示上に表示する詳細の量を調整してもよい。例えば、コンピューティングデバイス120は、カメラの視野内のユーザの顔を認識することで、ユーザがコンピューティングデバイス120の近くにいることを確認してもよい。この例では、コンピューティングデバイス120は、アンビエント表示に表示されている期間中の各カレンダー予定(appointment)のイベント情報など、アンビエント表示上でより詳細な情報を提供してもよい。別の例として、コンピューティングデバイス120は、カメラの視野内のユーザの顔を認識することで、ユーザがコンピューティングデバイス120の近くにいることを確認できなくてもよい。この例では、コンピューティングデバイス120は、アンビエント表示上に表示されている期間中の各カレンダー予定の空き/忙しいの識別子のみを提供するような、より少ない詳細をアンビエント表示上に提供してもよい。顔認識の代わりに、またはそれに加えて、コンピューティングデバイス120は、話者検証(speaker verification)または認証を使用して、プライマリユーザの音声(speech)を識別することで、プライマリユーザが近くにいることを判定してもよい。コンピューティングデバイス120は、プライマリユーザに属するものとして識別された音声オーディオ(speech audio)の受取音量を測定することで、コンピューティングデバイス120とプライマリユーザとの間の距離を推定してもよい。
いくつかの実施形態では、ディスプレイ125は、低電力状態にある間にタッチ入力を受け取ることができるかもしれない。この例では、コンピューティングデバイス120は、コンピューティングデバイス120による追加の行動を開始するためにユーザが選択できるボタンを含むグラフィカルインタフェース135を生成してもよい。例えば、コンピューティングデバイスは、ホットワード「一緒に行きましょう」を識別し、ライドシェアアプリにアクセスしてもよい。グラフィカルインタフェース135は、ライドシェアドライバが3分の距離にいることを示してもよく、第2ユーザ110がライドシェア要求を開始するために選択できるボタンを含んでもよい。第2ユーザ110がボタンを選択してもよく、ディスプレイ125は、第2ユーザ110がライドシェア要求を完了することができる高出力状態に遷移してもよい。いくつかの実施形態では、第2ユーザ110は、ボタンを選択した後で、第2ユーザ110がライドシェア要求を完了することができる前に、パスコードを入力するか、または他の識別情報を提供しなければならない場合がある。
コンピューティングデバイス120がステージC~Iを実行し、グラフィカルインタフェース135を表示する間、第2ユーザ110は、タッチすることでまたは音声コマンド(voice commands)を介してコンピューティングデバイス120と相互作用していない場合がある。ステージJでは、第2ユーザ110は、コンピューティングデバイス120のディスプレイ125を見て、コンピューティングデバイス120が、翌日の昼休みにユーザの空き状況を含むようにディスプレイ125を自動的に更新したことに気づく。
図2は、ホットワード認識を実行し、受動的な支援を提供する例示的なシステム200を示す。システム200は、音声オーディオを受け取って処理するように構成された任意のタイプのコンピューティングデバイスであってもよい。例えば、システム200は、図1のコンピューティングデバイス120に類似していてもよい。システム200の構成要素は、単一のコンピューティングデバイスに実装されてもよいし、複数のコンピューティングデバイスに分散して実装されてもよい。システム200が単一のコンピューティングデバイスに実装されることは、プライバシー上の理由から有益であるかもしれない。
システム200は、オーディオサブシステム202を含む。オーディオサブシステム202は、マイク204、アナログデジタル変換器206、バッファ208、および他の様々なオーディオフィルタを含んでもよい。マイク204は、音声(speech)などの周囲の音を検出するように構成されてもよい。アナログデジタル変換器206は、マイク204によって検出されたオーディオデータをサンプリングするように構成されてもよい。バッファ208は、システム200による処理のために、サンプリングされたオーディオデータを格納してもよい。いくつかの実施形態では、オーディオサブシステム202は、連続的にアクティブであってもよい。この場合、マイク204は、常に音を検出していてもよい。アナログデジタル変換器206は、検出されたオーディオデータを常時サンプリングしていてもよい。バッファ208は、音の最後の10秒などの最新のサンプリングされたオーディオデータを格納してもよい。システム200の他の構成要素がバッファ208内のオーディオデータを処理しない場合、バッファ208は以前のオーディオデータを上書きしてもよい。
図2に示された例では、マイク204は、「牛乳を買うことを忘れないでね」に対応する発話を検出してもよい。アナログデジタル変換器206は、受け取られたオーディオデータをサンプリングしてもよく、バッファ208は、サンプリングされたオーディオデータ212を格納してもよい。
オーディオサブシステム202は、オーディオデータ212をホットワーダ210に提供する。ホットワーダ210は、マイク204を介して受け取られたオーディオ中のホットワードを識別するように構成されるか、および/またはバッファ208に格納されたオーディオ中のホットワードを識別するように構成される。ホットワーダ210は、ホットワード検出器、キーワードスポッタ、またはキーワード検出器と呼ばれてもよい。いくつかの実施形態では、ホットワーダ210は、システム200が電源オンされている場合いつでもアクティブであってもよい。ホットワーダ210は、バッファ208に格納されたオーディオデータを連続的に分析する。ホットワーダ210は、バッファ208内の現在のオーディオデータがホットワードを含む可能性を反映するホットワード信頼度スコアを計算する。ホットワード信頼度スコアを計算するために、ホットワーダ210は、ホットワードモデル214を使用してもよい。ホットワーダ210は、フィルタバンクエネルギまたはメル周波数セプストラル係数などのオーディオ特徴を、オーディオデータ212から抽出してもよい。ホットワーダ210は、サポートベクターマシンまたはニューラルネットワークを使用するなど、これらのオーディオ特徴を処理するために分類窓を使用してもよい。いくつかの実施形態では、ホットワーダ210は、ホットワード信頼度スコアを判定するための音声認識を実行しない。ホットワーダ210は、ホットワード確信度スコアがホットワード確信度スコア閾値を満たす場合、オーディオがホットワードを含むと判定する。例えば、ホットワーダ210は、ホットワード確信度スコアが0.8であり、ホットワード確信度スコア閾値が0.7である場合、オーディオデータ212がホットワードを含むと判定する。
いくつかの実施形態では、ホットワードモデル214は、複数のホットワードに対するホットワードモデルを含む。例えば、ホットワードモデル214は、「あなたは空いていますか」、「忘れないでね」、「一緒に行きましょう」、「OK、コンピュータ」、および他の用語のホットワードモデルを含んでもよい。いくつかの実施形態では、ユーザ、またはサーバなどの別のシステムは、追加のホットワードモデルを追加してもよい。例えば、ユーザは、「一緒に行きましょう」のホットワードモデルを追加するようにシステム200に指示してもよい。システム200は、ユーザが「一緒に行きましょう」の複数のオーディオサンプルを話すように要求してもよい。システム200は、異なるオーディオサンプルに基づいてホットワードモデルを生成してもよい。いくつかの実施形態では、システムはアクセスできる。
図2に示す例では、ホットワーダ210は、オーディオデータ212が「忘れないでね」というホットワード216を含むと判定する。ホットワーダ210は、オーディオデータ212のうち、ホットワード216を含む部分を特定してもよい。例えば、ホットワーダ210は、ホットワード「忘れないでね」を含むオーディオデータ「牛乳を買うのを忘れないでね」の部分を音声認識器(speech recognizer)218に対して識別してもよい。ホットワーダ210は、0.0秒から0.5秒の間のオーディオデータにホットワードが含まれていることを示すタイミングデータを音声認識器218に提供してもよい。代替的または追加的に、ホットワーダ210は、メモリアドレス0x98b89d24と0x98b8e35aの間に格納されたオーディオデータがホットワードを含むことを示すメモリ位置情報を、音声認識器218に提供してもよい。
いくつかの実施形態では、ホットワーダ210は、話者識別機能を備えてもよい。この例では、ホットワーダ210は、ホットワードを話した特定の人物を、または特定の人物以外の人物がホットワードを話したことを識別してもよい。例えば、ホットワーダ210は、第1ユーザ105がホットワードを話した可能性が高いと判定してもよい。ホットワーダ210は、第1ユーザ105がホットワードを話した可能性が高いことを示すデータを、音声認識器218および/または行動識別子222に提供してもよい。別の例として、ホットワーダ210は、第2ユーザ110以外のユーザがホットワードを話した可能性が高いと判定してもよい。ホットワーダ210は、第2ユーザ110以外のユーザがホットワードを話した可能性が高いことを示すデータを音声認識器218および/または行動識別子222に提供してもよい。話者識別を実行するために、ホットワーダ210は、ユーザが様々なフレーズを繰り返すことを要求することで、ユーザのオーディオデータを以前に収集していたかもしれない。ホットワーダ210は、話者識別モデルを訓練するために、収集された音声サンプル(speech samples)を使用してもよい。例えば、ホットワーダ210は、第2ユーザ110によって話された音声サンプルを、話者識別モデルを訓練するために使用してもよい。
音声認識器218は、オーディオデータ212に対して、またはオーディオデータ212のうちホットワードを含まない部分に対して音声認識を実行する。音声認識器218は、言語モデルと音響モデルとを用いて、オーディオデータ212のトランスクリプションを、またはオーディオデータ212のうちホットワードを含まない部分のトランスクリプションを生成してもよい。例えば、音声認識器218は、オーディオデータ212のうちの「忘れないでね」を含まない部分について音声認識を実行して、「牛乳を買うのを」のトランスクリプション220を生成してもよい。
いくつかの実施形態では、システム200がオンの場合、ホットワーダ210はアクティブである。この例では、ホットワーダ210は、システム200のメインプロセッサよりも少ない電力を使用するハードウェアで実装されてもよい。例えば、ホットワーダ210は、デジタル信号プロセッサ(DSP)で実装されてもよい。いくつかの実施形態では、音声認識器218は、システム200のプロセッサが実行するソフトウェアに実装されてもよい。音声認識器218とおよび/またはシステム200のプロセッサとは、ホットワーダ210がホットワード216を検出したことに応答して起動してもよい。
音声認識器218は、ホットワード216およびトランスクリプション220を行動識別子222に提供する。行動識別子222は、ホットワード216およびトランスクリプション220に応答して、システム200が実行する行動224の中から行動を識別するように構成されている。いくつかの実施形態では、行動は、ホットワード216に関連していてもよい。例えば、ホットワード216は「忘れないでね」であってもよい。この例では、ホットワード216の「忘れないでね」は、リマインダリストまたはカレンダーアプリにリマインダを追加するという行動を識別するように行動識別子222をトリガしてもよい。別の例として、ホットワード216は、「あなたは空いていますか」であってもよく、「あなたは空いていますか」は空き時間および忙しい時間を識別する行動を識別するように行動識別子222をトリガしてもよい。
いくつかの実施形態では、行動識別子222はユーザから、ホットワードにリンクされた行動を受け取る。例えば、ユーザは、ホットワード216の「一緒に行きましょう」に応答して、近くの自転車シェアオプションをチェックするように指定してもよい。いくつかの実施形態では、サーバは、ホットワード216「一緒に行きましょう」に応答して、近くの自転車シェアオプションとカーシェアオプションとの両方をチェックするように指定してもよい。
いくつかの実施形態では、行動識別子222は、ユーザからの入力および/またはサーバからの入力のために非アクティブであるホットワードを判定してもよい。例えば、ユーザは、「あなたは空いていますか」というホットワードに応答しないように行動識別子222に指定してもよい。ユーザは、異なるホットワードに対する選択を入力してもよいし、システム200がディスプレイを介して提供するメニューまたは類似のグラフィカルインタフェースを介して追加のホットワードを入力してもよい。
行動識別子222は、行動を識別するデータをアプリケーション識別子(アプリ識別子)226に提供してもよい。アプリケーション識別子226は、行動識別子222によって識別された行動を実行するための候補アプリとして、アプリケーション228の中からアプリを識別してもよい。アプリケーション識別子226は、ユーザに提供するために追加のアプリケーションデータ230にアクセスするべくアプリを識別してもよい。例えば、アプリケーション識別子226は、リマインダをリマインダリストに追加するという行動を実行するための候補アプリとして、リマインダアプリを識別してもよい。行動232は、リマインダアプリに「牛乳を買うこと」というリマインダを追加することであってもよい。
いくつかの実施形態では、アプリケーション228は、システム200にインストールされたアプリと、および/またはシステム200によって例えばネットワーク接続を介してアクセス可能であるアクセス可能なアプリとを含む。例えば、システム200にインストールされたアプリは、リマインダアプリまたはカレンダーアプリであってもよい。ネットワーク接続を介してアクセス可能なアプリは、ウェブアプリであってもよい。いくつかの実施形態では、システム200にインストールされたアプリのアプリケーションデータ230は、ネットワーク接続を介してアクセス可能であってもよい。
いくつかの実施形態では、アプリケーション識別子226は、ホットワード216以外のオーディオデータ212の部分のトランスクリプション220に基づいて、候補アプリを識別する。例えば、ホットワード216は「一緒に行きましょう」であってもよく、トランスクリプション220は「アリスの家へ」であってもよい。この場合、行動識別子222は、ドックレス自転車シェアの利用可能性を判定する行動を識別してもよい。行動識別子222は、アリスの家の位置を判定するために連絡先アプリにアクセスしてもよい。アリスの家がシステム200から閾値距離内にある状態で、行動識別子222は、近くの自転車の利用可能性を判定するために自転車シェアアプリにアクセスする。「一緒に行きましょう」のホットワードに続く場所が閾値距離の外にある場合、行動識別子222は、近くのライドシェア車両の利用可能性を判定するためにライドシェアアプリにアクセスしてもよい。
いくつかの実施形態では、ホットワード216の話者は、行動識別子222によって選択された行動および/またはアプリケーション識別子226によって選択されたアプリに影響を与えてもよい。例えば、ホットワード216の話者がシステム200のユーザ以外の人である場合、ホットワード216の「あなたは空いていますか」は、行動を識別するために行動識別子222をトリガしてもよい。システム200は、ホットワード216の話者が第2ユーザ110である場合、ホットワード216「あなたは空いていますか」に応答する行動のトリガを抑制してもよい。図1に戻ると、第2ユーザ110がホットワード「あなたは空いていますか」を話していなかったとコンピューティングデバイス120は判定するので、コンピューティングデバイス120は行動およびアプリを識別する。
いくつかのホットワードは、話者がシステム200のプライマリユーザ(例えば、所有者)である場合、またはシステム200のプライマリユーザ以外の人である場合に応じて、異なる行動を有することがある。例えば、システム200は、「ママに電話することを忘れないでね」を検出してもよい。話者がプライマリユーザ以外の誰かである場合、行動識別子222は、「ママに電話すること」をリマインダリストに追加するという行動を識別してもよい。話者がプライマリユーザである場合、行動識別子222は、自動的に「ママに電話すること」をリマインダリストに追加するか、または自動的に「ママに電話すること」のためにカレンダーの予定をスケジューリングする行動を識別してもよい。
行動識別子222は、識別された行動232をユーザインタフェース生成器234に提供する。ユーザインタフェース生成器234は、システム200のディスプレイ上に表示するためのグラフィカルインタフェース236を生成する。システム200は、システム200のディスプレイが低電力状態にある間、グラフィカルインタフェース236を表示してもよい。例えば、ユーザインタフェース生成器234は、リマインダリストに「牛乳を買うこと」を追加するという行動232を実行するためにユーザが選択できるボタン242を含むグラフィカルインタフェース236を表示してもよい。
グラフィカルインタフェース236は、日時部分238を含んでもよい。システム200は、ディスプレイが低電力状態にある間、いつでも日時部分238に現在の日時を表示してもよい。ユーザインタフェース生成器234は、識別された行動232を含む追加のグラフィカル部分240を追加してもよい。いくつかの実施形態では、追加のグラフィカル部分240は、ボタン242を含む。ユーザは、行動232を実行するべくシステム200を開始させるためにボタン242を選択してもよい。例えば、ユーザは、リマインダリストに「牛乳を買うこと」を追加するためにボタン242を選択してもよい。ユーザは、ボタン242を選択することなく、ディスプレイを高電力状態に遷移させてもよい。追加のグラフィカル部分240および/またはボタン242は、ディスプレイが低電力状態に遷移したときに再表示されてもよいし、再表示されなくてもよい。
いくつかの実施形態では、グラフィカルインタフェース236はボタン242を含まない。追加のグラフィカル部分240の目的が、システム200によってアクセス可能であるかもしれないいくつかのデータをユーザに知らせることである場合、ユーザインタフェース生成器234はボタン242を含まないかもしれない。例えば、追加のグラフィカル部分240は、ランチタイムについての翌日のユーザのスケジュールを示してもよい。追加のグラフィカル部分240に収まらないかもしれない追加情報がある場合、ユーザインタフェース生成器234は、ユーザが追加情報を見るためのボタン242を含んでもよい。
いくつかの実施形態では、システム200は、ユーザが追加のグラフィカル部分240に表示される詳細のレベルを構成することを可能にするプライバシー設定を含んでもよい。ディスプレイが低電力状態であってもディスプレイが常にオンである場合があるので、ユーザは、ユーザのカレンダー情報がシステム200のディスプレイに表示されないように詳細レベルを調整したい場合がある。一例として、ユーザは、追加のグラフィカル部分240に各カレンダーの予定の詳細を表示するようにカレンダーを構成してもよい。また、ユーザは、表示された時間枠の間、ユーザが忙しいか空いているかのみを表示するようにカレンダーを構成してもよい。
上述した例に加えて、システム200は、ホットワード「私の電話機はどこですか」または「私は私の電話機を見つけることができません」に応答するように構成されてもよい。この例では、システム200は、システム200のプライマリユーザが話者検証または認証を使用してホットワードを話していることをシステム200が検証できる場合にのみ応答してもよい。ホットワードに応答して、システム200は、アンビエント表示を点滅および/または明るくし、スピーカから音を再生し、および/または位置モジュールを作動させてシステム200の位置を別のデバイス(例えば、プライマリユーザによって指定された電子メールアドレスおよび/または電話番号)に送信するように構成されてもよい。システム200はまた、「今日の天気は何ですか?」または「今日は晴れますか?」というホットワードに応答するように構成されていてもよい。この例では、システム200は、ユーザインタフェース生成器234が天気予報を含むインタフェースを生成することで応答してもよい。システム200は、天気予報インタフェースを、アンビエント表示上でのプレゼンテーションのためにシステム200のディスプレイに提供してもよい。いくつかの実施形態では、システム200は、話者検証または認証を使用してシステム200のプライマリユーザがホットワードを話していることをシステム200が確認できる場合にのみ、「今日の天気はどうですか?」または「今日は晴れですか?」というホットワードに応答してもよい。
いくつかの実施形態では、システム200は、ホットワード「OK、私がしましょう」または「それをしてくれますか(will do it)」を検出するように構成されてもよい。システム200は、プライマリユーザ以外の話者がリマインダに関連する何かを言った後に、これらのホットワードを検出してもよい。システム200は、ホットワードに続く任意の詳細、例えば時間帯(time period)などでユーザインタフェース(236)に更新してもよい。例えば、プライマリユーザ以外の話者が「ママに電話するのを忘れないでね」と言ってもよい。プライマリユーザは、「OK、明日それをするよ」と応答する。システム200は、ホットワード「忘れないでね」を認識し、「ママに電話するのを」の音声を認識し、ママに電話するという行動を識別する。システム200は、ホットワード「OK、私がするよ」を認識し、「明日」の音声を認識し、明日の時間帯を識別する。システム200は、アンビエント表示に表示するために、明日ママに電話するのを忘れないことを示すユーザインタフェース(236)を生成してもよい。また、ユーザインタフェース(236)は、上述したように、選択可能なオプション(242)を含んでもよい。
図3は、ホットワード認識を実行し、受動的な支援を提供するための例示的なプロセス300を示す。一般に、プロセス300は、予め定義されたホットワードを含むオーディオに対して音声認識を実行する。プロセス300は、ディスプレイが低電力モードのままである間、ディスプレイ上にオーディオのトランスクリプションに関連する結果を出力する。プロセス300は、1つ以上のコンピュータ、例えば、図1のコンピューティングデバイス120または図2のシステム200を備えるコンピュータシステムによって実行されるものとして説明される。
システムは、低電力モードで動作し、システムが低電力モードにある間、グラフィカルインタフェースを表示するディスプレイを含み、(ii)第1ホットワードを検出することに応答して低電力モードを終了するように構成され、発話に対応するオーディオデータを受け取る(310)。例えば、システムは、ホットワード「OK、コンピュータ」に応答して低電力モードを終了するように構成されてもよい。この場合、システムは、システムが話者からの更なる入力を聞いていることを示すためにディスプレイを明るくしてもよい。いくつかの実施形態では、システムは、ユーザが閾値期間の間話すのを止めるまで、ディスプレイを明るくしないようにしてもよい。例えば、話者は「OK、コンピュータ」と言って、2秒間にわたって一旦休止してもよい。この場合、ディスプレイは明るくなり、システムがどのように支援できるかを話者に尋ねるプロンプトを含んでもよい。別の例として、話者は「OK、コンピュータ、ママに電話して」と言って、2秒間一旦休止してもよい。この場合、ディスプレイが明るくなり、システムは電話アプリを開き、ママへの通話を開始することができる。
いくつかの実施形態では、システムのディスプレイはタッチ式ディスプレイである。システムが低電力モードにある間には、ディスプレイはタッチ入力を受け取ることができない場合がある。システムが高電力モードである間、ディスプレイは、タッチ入力を受け取ることができてもよい。低電力モードでは、システムはロックされ、ディスプレイに日付と時刻を表示してもよい。高電力モードでは、システムは、ロックを解除して、ホーム画面またはアプリをディスプレイに表示してもよい。
システムは、オーディオデータが第2の異なるホットワードを含むと判定する(320)。例えば、システムは「あなたは空いていますか」のオーディオデータを受け取ってもよい。いくつかの実施形態では、システムは、システムが識別するように構成された様々なホットワードのホットワードモデルを受け取る。システムは、「OK、コンピュータ」、「あなたは空いていますか」、「忘れないでね」、および他の用語およびフレーズのホットワードモデルを受け取ってもよい。システムは、音声認識を使用せずにホットワードを識別するように構成されてもよい。システムは、検出されたオーディオに対して連続的に動作するホットワード識別子を使用してもよい。ホットワード識別子は、検出されたオーディオにホットワードモデルを適用して、システムが「あなたは空いていますか」を受け取ったことを判定してもよい。
いくつかの実施形態では、システムは、「OK、コンピュータ」以外のホットワードの検出に応答して、低電力モードのままである。例えば、システムは、ホットワード「あなたは空いていますか」の検出に応答して低電力モードのままである。ホットワード「OK、コンピュータ」は、ユーザがシステムに直接に対処するための方法であってもよい。「OK、コンピュータ」を受け取ることに応答して、システムは、「アリスに、私はもうすぐ帰宅するよとメールしてね」、「大きなチーズピザを注文してね」、または「私の次の予定(アポイントメント)は何ですか」などのコマンドを含む追加のオーディオデータを識別することを試みようとしてもよい。システムは、識別されたコマンドを実行し、コマンドを積極的に開始する。システムは、テキストをメール送信してもよいし、ピザを注文してもよいし、次の予定を表示してもよい。他のホットワード、例えば「あなたは空いていますか」や「忘れないでね」は、人同士の会話中に生じる可能性が高い。これらのホットワードは、システムがホットワードに続く追加の音声を聞くことをトリガしてもよい。システムは、他のホットワードとそれに続く音声とに応答して、受動的に情報を提供したり、追加の行動の許可を要求したりしてもよい。
システムは、オーディオデータが第2のホットワードを含むと判定したことに応答して、オーディオデータに対して音声認識を実行することで、発話のトランスクリプションを取得する(330)。例えば、システムは、ホットワード「あなたは空いていますか」に続くオーディオデータに対して音声認識を実行し、「明日のランチについて」というトランスクリプションを生成する。いくつかの実施形態では、システムは、第2ホットワードの話者がシステムのプライマリユーザではないと判定する。システムのプライマリユーザは、システムの所有者(例えば、スマートフォンの所有者)であってもよいし、システムを最も頻繁に使用する人であってもよい。話者がプライマリユーザ以外の者である場合、システムは音声認識器を起動し、オーディオデータに対して音声認識を行うことで発話のトランスクリプションを取得する。なお、話者がプライマリユーザ以外の人物であることは、プライマリユーザが他の人と話していることを示してもよい。話者がプライマリユーザである場合、システムは、発話のトランスクリプションを取得せず、ディスプレイに追加情報を出力しない場合がある。
システムは、第2ホットワードと発話のトランスクリプションとに基づいて、追加のユーザインタフェースを生成する(340)。例えば、システムは、翌日のランチタイムについてシステムのユーザのスケジュールを示す追加のユーザインタフェースを生成してもよい。いくつかの実施形態では、システムは、第2ホットワードとトランスクリプションとに基づいて、アプリケーション(アプリ)を識別する。システムは、追加のユーザインタフェースを生成するための情報のために、アプリにアクセスしてもよい。例えば、システムは「明日のランチは空いていますか?」に応答して、カレンダーアプリにアクセスしてもよい。別の例として、システムは、「ママに電話するのを忘れないでね」に応答して、リマインダアプリにアクセスしてもよい。各ホットワードはアプリにリンクされていてもよい。ホットワード「あなたは空いていますか」は、システムがカレンダーアプリにアクセスするトリガになる。ホットワード「忘れないでね」は、システムがリマインダアプリにアクセスするトリガになる。
システムは、低電力モードのままで、ディスプレイ上の出力のために、追加のグラフィカルインタフェースを提供する(350)。例えば、システムは、日付、時刻、および午前11時から午後2時までの間の翌日のユーザの空き時間/忙しい時間のスケジュールを含むグラフィカルインタフェースをディスプレイに表示する。いくつかの実施形態では、追加のグラフィカルインタフェースは、システムが行動を開始するためにユーザが選択できるボタンを含む。例えば、追加のグラフィカルインタフェースは、リマインダリストに「ママに電話する」を追加するボタンを含んでもよい。この例では、ユーザは、「ママに電話する」をリマインダリストに追加するためのボタンを選択することができる。また、ボタンの選択は、ユーザがシステムのロックを解除することをトリガしてもよい。ユーザがボタンを押し、システムのロックを解除し、システムがリマインダリストを更新する。ユーザがボタンを押してもロック解除に失敗した場合、ボタンはグラフィカルインタフェースの一部として残っていてもよい。
いくつかの実施形態では、ユーザは、システム上のボタンまたはキーを押してもよい。ボタンまたはキーの押下に応答して、システムは高電力モードに切り替わってもよい。ボタンは、スリープ/ウェイクボタンなどの物理的なボタンであってもよい。いくつかの実施形態では、ボタンまたはキーの押下は、ディスプレイ上で実行される特定のタッチジェスチャ、例えば、斜めスワイプまたはユーザが選択したジェスチャであってもよい。ユーザは、ボタンを押してもよいし、ジェスチャを再度実行してもよいし、システムが低電力モードに戻るまでの期間(例えば、10秒)を待ってもよい。いくつかの実施形態では、システムが低電力モードに戻るとき、ディスプレイは、追加のグラフィカルインタフェースを表示し続けてもよい。例えば、システムは、翌日のランチについてのユーザの忙しい/空き時間を表示し続けてもよい。いくつかの実施形態では、システムが低電力モードに戻ると、システムは元のグラフィカルインタフェースを表示する。いくつかの実施形態では、システムは、高電力モードへの切り替わり時に、追加のユーザインタフェースを生成するためにシステムがアクセスしたアプリを開いてもよい。例えば、システムが高電力モードに切り替わり、ユーザがシステムのロックを解除したときに、システムはカレンダーアプリを開いてもよい。
いくつかの実施形態では、システムは、ユーザが第1ホットワード、例えば「OK、コンピュータ」を話していることを検出してもよい。この場合、システムは高電力モードに切り替わって、話者からのコマンドを待つことができる。話者が閾値時間内に何も言わない場合、システムは低電力モードに戻ってもよい。いくつかの実施形態では、システムは、システムのプライマリユーザが第1ホットワードを話す場合にのみ、第1ホットワードに応答してもよい。プライマリユーザ以外の話者が第1ホットワードを話した場合、システムは高電力モードに切り替わらず、第1ホットワードの後にユーザによって話されたコマンドを無視してもよい。いくつかの実施形態では、システムは、システムが低電力モードにある間、「OK、コンピュータ」以外のホットワード(例えば、「あなたは空いていますか」および「忘れないでね」)にのみ応答してもよい。システムは、システムが高電力モードにある間には、「OK、コンピュータ」以外のホットワードには応答しないかもしれない。
図4は、ここに記載された技術を実施するために使用され得るコンピューティングデバイス400およびモバイルコンピューティングデバイス450の例を示す。コンピューティングデバイス400は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図されている。モバイルコンピューティングデバイス450は、パーソナルデジタルアシスタント、携帯電話、スマートフォン、および他の類似のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことが意図されている。ここに示された構成要素、それらの接続および関係、ならびにそれらの機能は、例示に過ぎないことを意図しており、限定的であることを意図していない。
コンピューティングデバイス400は、プロセッサ402と、メモリ404と、記憶装置406と、メモリ404と複数の高速拡張ポート410とに接続された高速インタフェース408と、低速拡張ポート414と記憶装置406とに接続された低速インタフェース412とを含む。プロセッサ402、メモリ404、記憶装置406、高速インタフェース408、複数の高速拡張ポート410、低速インタフェース412のそれぞれは、各種バスを用いて相互に接続されており、共通のマザーボード上に実装されていてもよいし、適宜他の方法で実装されていてもよい。プロセッサ402は、高速インタフェース408に結合されたディスプレイ416などの外部入出力デバイス上にGUI用のグラフィカル情報を表示するために、メモリ404または記憶装置406に記憶された命令を含む、コンピューティングデバイス400内で実行するための命令を処理することができる。他の実施形態では、複数のメモリおよびメモリの種類とともに、複数のプロセッサおよび/または複数のバスが、適宜使用されてもよい。また、複数のコンピューティングデバイスは、必要な動作の一部を提供する各デバイスに接続されてもよい(例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)。
メモリ404は、コンピューティングデバイス400内に情報を格納する。いくつかの実施形態では、メモリ404は、揮発性メモリユニットまたはユニットである。いくつかの実施形態では、メモリ404は、不揮発性メモリユニットまたは複数のユニットである。また、メモリ404は、磁気ディスクまたは光ディスクなどの別の形態のコンピュータ可読媒体であってもよい。
記憶装置406は、コンピューティングデバイス400のための大容量記憶装置を提供することができる。いくつかの実施形態では、記憶装置406は、フロッピーディスク(登録商標)装置、ハードディスク装置、光ディスク装置、またはテープ装置、フラッシュメモリまたは他の同様のソリッドステートメモリ装置、またはストレージエリアネットワークまたは他の構成の装置を含む装置のアレイなどのコンピュータ可読媒体であってもよいし、それを含んでいてもよい。命令は、情報キャリアに記憶されていてもよい。命令は、1つ以上の処理装置(例えば、プロセッサ402)によって実行されると、上述したような1つ以上の方法を実行する。命令はまた、コンピュータまたは機械可読媒体などの1つ以上の記憶装置(例えば、メモリ404、記憶装置406、またはプロセッサ402上のメモリ)によって記憶され得る。
高速インタフェース408は、コンピューティングデバイス400の帯域幅集約的な動作を管理し、低速インタフェース412は、より低い帯域幅集約的な動作を管理する。このような機能の割り当ては、例示に過ぎない。いくつかの実施形態では、高速インタフェース408は、メモリ404に、ディスプレイ416(例えば、グラフィックプロセッサまたはアクセラレータを介して)に、および様々な拡張カード(図示せず)を受け入れることができる高速拡張ポート410に結合されている。実施形態では、低速インタフェース412は、記憶装置406および低速拡張ポート414に結合されている。様々な通信ポート(例えば、USB、Bluetooth(登録商標)、イーサネット(登録商標)、ワイヤレスイーサネット(登録商標))を含んでもよい低速拡張ポート414は、キーボード、ポインティングデバイス、スキャナなどの1つ以上の入出力デバイスに、または例えばネットワークアダプタを介してスイッチやルータなどのネットワークデバイスに結合されてもよい。
コンピューティングデバイス400は、図示されているように、多数の異なる形態で実装されてもよい。例えば、標準サーバ420として実装されてもよいし、そのような複数のサーバのグループ内で複数回実装されてもよい。さらに、ラップトップコンピュータ422のようなパーソナルコンピュータに実装されてもよい。また、ラックサーバシステム424の一部として実装されてもよい。あるいは、コンピューティングデバイス400からのコンポーネントは、モバイルコンピューティングデバイス450などのモバイルデバイス内の他の構成要素(図示せず)と組み合わせてもよい。このようなデバイスの各々は、コンピューティングデバイス400およびモバイルコンピューティングデバイス450のうちの1つまたは複数を含んでもよく、システム全体が、互いに通信する複数のコンピューティングデバイスから構成されてもよい。
モバイルコンピューティングデバイス450は、プロセッサ452、メモリ464、ディスプレイ454などの入出力デバイス、通信インタフェース466、およびトランシーバ468などを含む。また、モバイルコンピューティングデバイス450は、追加のストレージを提供するために、マイクロドライブなどの記憶装置を備えていてもよい。プロセッサ452、メモリ464、ディスプレイ454、通信インタフェース466、及びトランシーバ468の各々は、種々のバスを用いて相互に接続されており、複数の構成要素は、共通のマザーボード上に実装されてもよいし、適宜他の方法で実装されてもよい。
プロセッサ452は、メモリ464に格納された命令を含む命令をモバイルコンピューティングデバイス450内で実行することができる。プロセッサ452は、分離された複数のアナログおよびデジタルプロセッサを含む複数チップのチップセットとして実装されてもよい。プロセッサ452は、例えば、ユーザインタフェースの制御、モバイルコンピューティングデバイス450によって実行されるアプリ、およびモバイルコンピューティングデバイス450による無線通信など、モバイルコンピューティングデバイス450の他の構成要素の調整を提供してもよい。
プロセッサ452は、制御インタフェース458と、ディスプレイ454に結合されたディスプレイインタフェース456とを介してユーザと通信してもよい。ディスプレイ454は、例えば、TFTディスプレイ(薄膜トランジスタ液晶ディスプレイ)またはOLED(有機発光ダイオード)ディスプレイ、または他の適切なディスプレイ技術であってよい。ディスプレイインタフェース456は、グラフィカルおよび他の情報をユーザに提示するために、ディスプレイ454を駆動するための適切な回路を構成してもよい。制御インタフェース458は、ユーザからのコマンドを受け取り、プロセッサ452に提出するために変換してもよい。さらに、外部インタフェース462は、他のデバイスとのモバイルコンピューティングデバイス450の近エリア通信を可能にするように、プロセッサ452との通信を提供してもよい。外部インタフェース462は、例えば、いくつかの実施形態では有線通信を提供してもよく、他の実施形態では無線通信を提供してもよく、複数のインタフェースが使用されてもよい。
メモリ464は、モバイルコンピューティングデバイス450内の情報を記憶する。メモリ464は、コンピュータ可読媒体または媒体、揮発性メモリユニットまたは複数のユニット、または不揮発性メモリユニットまたは複数のユニットのうちの1つ以上として実装されてもよい。拡張メモリ474はまた、例えばSIMM(シングルインラインメモリモジュール)カードインタフェースを含むことができる拡張インタフェース472を介してモバイルコンピューティングデバイス450に提供され、接続されてもよい。拡張メモリ474は、モバイルコンピューティングデバイス450に余分な記憶領域を提供してもよいし、モバイルコンピューティングデバイス450のためのアプリまたは他の情報を記憶してもよい。具体的には、拡張メモリ474は、上述したプロセスを実行または補完するための命令を含んでもよく、また、安全な情報を含んでもよい。したがって、例えば、拡張メモリ474は、モバイルコンピューティングデバイス450のセキュリティモジュールとして提供されてもよく、モバイルコンピューティングデバイス450の安全な使用を可能にする命令でプログラムされてもよい。さらに、セキュアなアプリは、SIMMカードを介して、SIMMカード上に識別情報を非ハッキング可能な方法で配置するなどの追加情報とともに提供されてもよい。
メモリは、例えば、後述するように、フラッシュメモリおよび/またはNVRAMメモリ(不揮発性ランダムアクセスメモリ)を含むことができる。いくつかの実施形態では、命令は、情報キャリアに格納されている。命令は、1つ以上の処理デバイス(例えば、プロセッサ452)によって実行されると、上述したような1つ以上の方法を実行する。命令はまた、1つ以上のコンピュータまたは機械可読媒体(例えば、メモリ464、拡張メモリ474、またはプロセッサ452上のメモリ)などの1つ以上の記憶装置によって記憶され得る。いくつかの実施形態では、命令は、例えば、トランシーバ468または外部インタフェース462を介して、伝搬信号で受け取ることができる。
モバイルコンピューティングデバイス450は、必要に応じてデジタル信号処理回路を含んでもよい通信インタフェース466を介して無線で通信してもよい。通信インタフェース466は、例えば、GSM(登録商標)音声通話(移動体通信用グローバルシステム)、SMS(ショートメッセージサービス)、EMS(拡張メッセージングサービス)、またはMMSメッセージング(マルチメディアメッセージングサービス)、CDMA(符号分割多重アクセス)、TDMA(時分割多重アクセス)、PDC(パーソナルデジタルセルラ)、WCDMA(登録商標)(広帯域符号分割多重アクセス)、CDMA2000、またはGPRS(一般パケット無線サービス)などの様々なモードまたはプロトコルの下での通信を提供してもよい。このような通信は、例えば、無線周波数を用いてトランシーバ468を介して行われてもよい。さらに、近距離通信は、例えば、Bluetooth、WiFi、または他のそのようなトランシーバ(図示せず)を使用して行われてもよい。さらに、GPS(全地球測位システム)受取モジュール470は、追加のナビゲーションおよび位置関連の無線データをモバイルコンピューティングデバイス450に提供してもよく、これは、モバイルコンピューティングデバイス450上で実行されているアプリによって適宜使用されてもよい。
モバイルコンピューティングデバイス450はまた、オーディオコーデック460を使用して可聴的に通信してもよく、このオーディオコーデック460は、ユーザからの音声情報(spoken information)を受け取り、使用可能なデジタル情報に変換してもよい。オーディオコーデック460は、同様に、モバイルコンピューティングデバイス450のハンドセット内の例えばスピーカを介して、ユーザのための可聴音を生成してもよい。そのような音は、音声電話(voice telephone calls)からの音を含んでもよく、録音された音(例えば、音声メッセージ(voice messages)、音楽ファイルなど)を含んでもよく、また、モバイルコンピューティングデバイス450上で動作するアプリによって生成された音を含んでもよい。
モバイルコンピューティングデバイス450は、図示されているように、多くの異なる形態で実装されてもよい。例えば、携帯電話480として実装されてもよい。また、スマートフォン482、パーソナルデジタルアシスタント、または他の類似のモバイルデバイスの一部として実装されてもよい。
ここに記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現することができる。これらの様々な実施形態は、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび指示を受け取り、データおよび指示を送信するために結合された、特殊目的または汎用目的であってもよい少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムにおける実施を含むことができる。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとも呼ばれる)は、プログラマブルプロセッサのための機械命令を含み、高レベルの手続き型および/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械言語で実装することができる。本明細書で使用されるように、機械可読媒体およびコンピュータ可読媒体という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、装置および/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械命令を機械可読信号として受け取る機械可読媒体を含む。機械可読信号という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
ユーザとの相互作用を提供するために、ここで説明したシステムおよび技術は、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザがコンピュータに入力を提供するためのキーボードおよびポインティング装置(例えば、マウスまたはトラックボール)とを有するコンピュータ上で実施することができる。他の種類の装置も同様に、ユーザとの相互作用を提供するために使用することができ、例えば、ユーザに提供されるフィードバックは、感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)の任意の形態であることができ、ユーザからの入力は、音響(acoustic)入力、音声(speech)入力、または触覚入力を含む任意の形態で受け取ることができる。
ここに記載されたシステムおよび技法は、バックエンドコンポーネント(例えば、データサーバとして)を含むコンピューティングシステム、またはミドルウェアコンポーネント(例えば、アプリケーションサーバ)を含むコンピューティングシステム、またはフロントエンドコンポーネント(例えば、グラフィカルユーザインタフェース、またはユーザがここに記載されたシステムおよび技法の実装と相互作用できるウェブブラウザを有するクライアントコンピュータ)、またはそのようなバックエンド、ミドルウェア、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実装することができる。システムの構成要素は、デジタルデータ通信(例えば、通信ネットワーク)の任意の形態または媒体によって相互接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、およびインターネットが挙げられる。
コンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントとサーバは、一般的に互いに離れており、典型的には通信ネットワークを介して相互作用する。クライアントとサーバの関係は、それぞれのコンピュータ上で実行されて互いにクライアントとサーバの関係を持つコンピュータプログラムのおかげで生じる。
いくつかの実施形態が上記で詳細に説明されてきたが、他の修正が可能である。例えば、クライアントアプリがデリゲート(複数可)にアクセスするように記述されているが、他の実施形態では、デリゲート(複数可)は、1つ以上のプロセッサ、例えば1つ以上のサーバ上で実行されるアプリなどによって実装される他のアプリによって採用されてもよい。さらに、図示された論理フローは、望ましい結果を達成するために、示された特定の順序、または逐次的な順序を必要としない。さらに、他の行動が、記載されたフローから提供されてもよく、または行動が除去されてもよく、他の構成要素が、記載されたシステムに追加されてもよく、または記載されたシステムから除去されてもよい。従って、他の実施形態は、以下の請求の範囲内である。
Claims (20)
- ユーザ装置のデータ処理ハードウェア上で実行されることで前記データ処理ハードウェアに動作を実行させるコンピュータ実装方法としての方法であって、
前記方法は、
前記ユーザ装置を高電力モードでの動作から低電力モードでの動作に切り替える工程であって、前記ユーザ装置は、前記高電力モードにある間、前記ユーザ装置のディスプレイを第1輝度で動作させるとともに、前記低電力モードにある間、前記ディスプレイを第2輝度で動作させるように構成されており、前記第2輝度は前記第1輝度よりも低い輝度である、前記低電力モードでの動作に切り替える工程と、
前記低電力モードで前記ユーザ装置を動作している間、
第1ホットワードと、第1ホットワードに続く1つまたは複数の用語と、を備えている発話に対応するオーディオデータを受け取る工程であって、前記第1ホットワードは、前記ユーザ装置上の特定アプリケーションにリンクされているとともに、前記特定アプリケーションが実行する特定行動を特定する、前記オーディオデータを受け取る工程と、
前記オーディオデータにおいて前記第1ホットワードを検出する工程と、
前記オーディオデータにおいて前記第1ホットワードを検出することに応答して、
前記第1ホットワードに続く前記発話の1つまたは複数の前記用語のトランスクリプションを取得する工程と、
前記第1ホットワードにリンクされている前記特定アプリケーションにアクセスする工程と、および
前記特定アプリケーションと、前記第1ホットワードに続く前記発話の1つまたは複数の前記用語の前記トランスクリプションと、を使用することで前記特定アプリケーションを実行する工程と、
前記第1ホットワードとは異なる第2ホットワードを備えている別の発話に対応する追加オーディオデータを受け取る工程と、
前記追加オーディオデータにおいて前記第2ホットワードを検出する工程と、および
前記追加オーディオデータにおいて前記第2ホットワードを検出することに基づき、前記ユーザ装置に、前記低電力モードでの動作から前記高電力モードでの動作への切り替えを行なわせる工程と、
を備えている、方法。 - 前記高電力モードにある間、前記ユーザ装置は第1周波数でネットワークからデータをフェッチし、
前記低電力モードにある間、前記ユーザ装置は第2の低い周波数で前記ネットワークからデータをフェッチする、
請求項1に記載の方法。 - 前記ディスプレイは、タッチ式ディスプレイを備えている、
請求項1に記載の方法。 - 前記ユーザ装置が前記低電力モードで動作しているとき、前記ディスプレイはタッチ入力を受け取ることができず、
前記ユーザ装置が前記高電力モードで動作しているとき、前記ディスプレイは前記タッチ入力を受け取ることができる、
請求項3に記載の方法。 - 前記ユーザ装置は、前記高電力モードで動作するとき、前記低電力モードで動作するときよりも電力を消費する、
請求項1に記載の方法。 - 前記動作はさらに、前記第1ホットワードの第1ホットワードモデルを受け取る工程を備えており、
前記オーディオデータにおいて前記第1ホットワードを検出する工程は、前記オーディオデータに対して音声認識を行なうことなく、前記第1ホットワードモデルを用いて前記オーディオデータにおいて前記第1ホットワードを検出する工程を備えている、
請求項1に記載の方法。 - 前記動作はさらに、前記第2ホットワードの第2ホットワードモデルを受け取る工程を備えており、
前記追加オーディオデータにおいて前記第2ホットワードを検出する工程は、前記オーディオデータに対して音声認識を行なうことなく、前記第2ホットワードモデルを用いて前記追加オーディオデータにおいて前記第2ホットワードを検出する工程を備えている、
請求項6に記載の方法。 - 前記動作はさらに、前記発話の話者が前記ユーザ装置のプライマリユーザであることを判定する工程を備えており、
前記発話の前記トランスクリプションを取得する工程は、前記発話の前記話者が前記ユーザ装置の前記プライマリユーザではないと判定することに基づく、
請求項1に記載の方法。 - 前記動作はさらに、追加発話の話者が前記ユーザ装置のプライマリユーザであることを判定する工程を備えており、
前記ユーザ装置が前記低電力モードでの動作から前記高電力モードでの動作に切り替わるようにする工程はさらに、前記追加発話の前記話者が前記ユーザ装置の前記プライマリユーザであると判定することに基づく、
請求項1に記載の方法。 - 前記ユーザ装置はスマートフォンを備えている、
請求項1に記載の方法。 - データ処理ハードウェアと、
前記データ処理ハードウェアに通信しているメモリハードウェアであって、前記データ処理ハードウェア上で実行されると前記データ処理ハードウェアに動作を実行させる命令を記憶している前記メモリハードウェアと、
を備えているシステムであって、
前記動作は、ユーザ装置を高電力モードでの動作から低電力モードでの動作に切り替える工程を備えており、前記ユーザ装置は、前記高電力モードにある間、前記ユーザ装置のディスプレイを第1輝度で動作させるとともに、前記低電力モードにある間、前記ディスプレイを第2輝度で動作させるように構成されており、前記第2輝度は前記第1輝度よりも低い輝度である、前記低電力モードでの動作に切り替える工程と、
前記低電力モードで前記ユーザ装置を動作している間、
第1ホットワードと、前記第1ホットワードに続く1つまたは複数の用語と、を備えている発話に対応するオーディオデータを受け取る工程であって、前記第1ホットワードは、前記ユーザ装置上の特定アプリケーションにリンクされているとともに、前記特定アプリケーションが実行する特定行動を特定する、前記オーディオデータを受け取る工程と、
前記オーディオデータにおいて前記第1ホットワードを検出する工程と、
前記オーディオデータにおいて前記第1ホットワードを検出することに応答して、
前記第1ホットワードに続く前記発話の1つまたは複数の前記用語のトランスクリプションを取得する工程と、
前記第1ホットワードにリンクされている前記特定アプリケーションにアクセスする工程と、および
前記特定アプリケーションと、前記第1ホットワードに続く前記発話の1つまたは複数の前記用語の前記トランスクリプションと、を使用することで前記特定アプリケーションを実行する工程と、
前記第1ホットワードとは異なる第2ホットワードを備えている別の発話に対応する追加オーディオデータを受け取る工程と、
前記追加オーディオデータにおいて前記第2ホットワードを検出する工程と、および
前記追加オーディオデータにおいて前記第2ホットワードを検出することに基づき、前記ユーザ装置に、前記低電力モードでの動作から前記高電力モードでの動作への切り替えを行なわせる工程と、
を備えている、システム。 - 前記高電力モードにある間、前記ユーザ装置は第1周波数でネットワークからデータをフェッチし、
前記低電力モードにある間、前記ユーザ装置は第2の低い周波数で前記ネットワークからデータをフェッチする、
請求項11に記載のシステム。 - 前記ディスプレイは、タッチ式ディスプレイを備えている、
請求項11に記載のシステム。 - 前記ユーザ装置が前記低電力モードで動作しているとき、前記ディスプレイはタッチ入力を受け取ることができず、
前記ユーザ装置が前記高電力モードで動作しているとき、前記ディスプレイは前記タッチ入力を受けることができる、
請求項13に記載のシステム。 - 前記ユーザ装置は、前記高電力モードで動作するとき、前記低電力モードで動作するときよりも電力を消費する、
請求項13に記載のシステム。 - 前記動作はさらに、前記第1ホットワードの第1ホットワードモデルを受け取る工程を備えており、
前記オーディオデータにおいて前記第1ホットワードを検出する工程は、前記オーディオデータに対して音声認識を行なうことなく、前記第1ホットワードモデルを用いて前記オーディオデータにおいて前記第1ホットワードを検出する工程を備えている、
請求項11に記載のシステム。 - 前記動作はさらに、前記第2ホットワードの第2ホットワードモデルを受け取る工程を備えており、
前記追加オーディオデータにおいて前記第2ホットワードを検出する工程は、前記オーディオデータに対して音声認識を行なうことなく、前記第2ホットワードモデルを用いて前記追加オーディオデータにおいて前記第2ホットワードを検出する工程を備えている、
請求項16に記載のシステム。 - 前記動作はさらに、前記発話の話者が前記ユーザ装置のプライマリユーザであることを判定する工程を備えており、
前記発話の前記トランスクリプションを取得する工程は、前記発話の前記話者が前記ユーザ装置の前記プライマリユーザではないと判定することに基づく、
請求項11に記載のシステム。 - 前記動作はさらに、追加発話の話者が前記ユーザ装置のプライマリユーザであることを判定する工程を備えており、
前記ユーザ装置が前記低電力モードでの動作から前記高電力モードでの動作に切り替わるようにする工程はさらに、前記追加発話の前記話者が前記ユーザ装置の前記プライマリユーザであると判定することに基づく、
請求項11に記載のシステム。 - 前記ユーザ装置はスマートフォンを備えている、
請求項11に記載のシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023044908A JP7453443B2 (ja) | 2018-08-09 | 2023-03-22 | ホットワード認識および受動的支援 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021504806A JP7250900B2 (ja) | 2018-08-09 | 2018-08-09 | ホットワード認識および受動的支援 |
PCT/US2018/045924 WO2020032948A1 (en) | 2018-08-09 | 2018-08-09 | Hotword recognition and passive assistance |
JP2023044908A JP7453443B2 (ja) | 2018-08-09 | 2023-03-22 | ホットワード認識および受動的支援 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021504806A Division JP7250900B2 (ja) | 2018-08-09 | 2018-08-09 | ホットワード認識および受動的支援 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023080116A true JP2023080116A (ja) | 2023-06-08 |
JP7453443B2 JP7453443B2 (ja) | 2024-03-19 |
Family
ID=63371798
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021504806A Active JP7250900B2 (ja) | 2018-08-09 | 2018-08-09 | ホットワード認識および受動的支援 |
JP2023044908A Active JP7453443B2 (ja) | 2018-08-09 | 2023-03-22 | ホットワード認識および受動的支援 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021504806A Active JP7250900B2 (ja) | 2018-08-09 | 2018-08-09 | ホットワード認識および受動的支援 |
Country Status (6)
Country | Link |
---|---|
US (2) | US20200050427A1 (ja) |
EP (2) | EP3807875B1 (ja) |
JP (2) | JP7250900B2 (ja) |
KR (2) | KR20230107386A (ja) |
CN (1) | CN112513978A (ja) |
WO (1) | WO2020032948A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102697371B1 (ko) * | 2018-10-31 | 2024-08-22 | 삼성전자주식회사 | 음성 명령에 응답하여 컨텐츠를 표시하기 위한 방법 및 그 전자 장치 |
US11062192B1 (en) * | 2020-01-10 | 2021-07-13 | Bank Of America Corporation | Voice-activated interactive card device |
US12014727B2 (en) * | 2021-07-14 | 2024-06-18 | Google Llc | Hotwording by degree |
US20240061644A1 (en) * | 2022-08-17 | 2024-02-22 | Jpmorgan Chase Bank, N.A. | Method and system for facilitating workflows via voice communication |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7529669B2 (en) * | 2006-06-14 | 2009-05-05 | Nec Laboratories America, Inc. | Voice-based multimodal speaker authentication using adaptive training and applications thereof |
ATE538616T1 (de) * | 2007-02-01 | 2012-01-15 | Nxp Bv | Steuerung der wachzeit einer mobilvorrichtung |
JP2012049586A (ja) | 2010-08-24 | 2012-03-08 | Panasonic Corp | 表示端末装置 |
JP5888130B2 (ja) | 2012-06-06 | 2016-03-16 | 富士通株式会社 | 通信端末装置および通信制御方法 |
US9182903B2 (en) * | 2012-10-30 | 2015-11-10 | Google Technology Holdings LLC | Method and apparatus for keyword graphic selection |
JP2014147028A (ja) | 2013-01-30 | 2014-08-14 | Canon Inc | 撮像装置、撮像装置の制御方法 |
CN105009203A (zh) * | 2013-03-12 | 2015-10-28 | 纽昂斯通讯公司 | 用于检测语音命令的方法和装置 |
CN110096253B (zh) * | 2013-07-11 | 2022-08-30 | 英特尔公司 | 利用相同的音频输入的设备唤醒和说话者验证 |
KR101412448B1 (ko) | 2014-01-14 | 2014-06-26 | (주)세미센스 | 디스플레이가 꺼져 있는 저전력 모드에서의 터치입력을 통한 디바이스 구동시스템 |
US9318107B1 (en) * | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US9424841B2 (en) * | 2014-10-09 | 2016-08-23 | Google Inc. | Hotword detection on multiple devices |
US11327711B2 (en) * | 2014-12-05 | 2022-05-10 | Microsoft Technology Licensing, Llc | External visual interactions for speech-based devices |
JP6370718B2 (ja) | 2015-01-20 | 2018-08-08 | シャープ株式会社 | 操作支援装置及び画像形成装置 |
US20160246396A1 (en) | 2015-02-20 | 2016-08-25 | Qualcomm Incorporated | Interactive touchscreen and sensor array |
US10217453B2 (en) * | 2016-10-14 | 2019-02-26 | Soundhound, Inc. | Virtual assistant configured by selection of wake-up phrase |
US10276161B2 (en) | 2016-12-27 | 2019-04-30 | Google Llc | Contextual hotwords |
US11164570B2 (en) * | 2017-01-17 | 2021-11-02 | Ford Global Technologies, Llc | Voice assistant tracking and activation |
JP2018129664A (ja) | 2017-02-08 | 2018-08-16 | 京セラ株式会社 | 電子機器、制御方法、およびプログラム |
-
2018
- 2018-08-09 JP JP2021504806A patent/JP7250900B2/ja active Active
- 2018-08-09 KR KR1020237022136A patent/KR20230107386A/ko not_active Application Discontinuation
- 2018-08-09 KR KR1020217003733A patent/KR102551276B1/ko active IP Right Grant
- 2018-08-09 WO PCT/US2018/045924 patent/WO2020032948A1/en unknown
- 2018-08-09 EP EP18759811.5A patent/EP3807875B1/en active Active
- 2018-08-09 EP EP23200954.8A patent/EP4280579A3/en active Pending
- 2018-08-09 CN CN201880096300.0A patent/CN112513978A/zh active Pending
-
2019
- 2019-08-09 US US16/536,831 patent/US20200050427A1/en not_active Abandoned
-
2023
- 2023-03-22 JP JP2023044908A patent/JP7453443B2/ja active Active
- 2023-03-23 US US18/189,181 patent/US20230229390A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JP7453443B2 (ja) | 2024-03-19 |
KR20230107386A (ko) | 2023-07-14 |
WO2020032948A1 (en) | 2020-02-13 |
JP2021532486A (ja) | 2021-11-25 |
US20230229390A1 (en) | 2023-07-20 |
CN112513978A (zh) | 2021-03-16 |
KR20210028688A (ko) | 2021-03-12 |
JP7250900B2 (ja) | 2023-04-03 |
KR102551276B1 (ko) | 2023-07-04 |
EP4280579A2 (en) | 2023-11-22 |
EP3807875A1 (en) | 2021-04-21 |
EP4280579A3 (en) | 2024-02-28 |
US20200050427A1 (en) | 2020-02-13 |
EP3807875B1 (en) | 2023-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11355117B2 (en) | Dialog system with automatic reactivation of speech acquiring mode | |
US11955124B2 (en) | Electronic device for processing user speech and operating method therefor | |
CN111357048B (zh) | 用于控制家庭助手装置的方法和系统 | |
CN110199350B (zh) | 用于感测语音结束的方法和实现该方法的电子设备 | |
JP6581174B2 (ja) | デジタルアシスタントのためのボイストリガ | |
US11145302B2 (en) | System for processing user utterance and controlling method thereof | |
JP7453443B2 (ja) | ホットワード認識および受動的支援 | |
US10706847B2 (en) | Method for operating speech recognition service and electronic device supporting the same | |
CN108337380B (zh) | 自动调整用户界面以用于免提交互 | |
US10811008B2 (en) | Electronic apparatus for processing user utterance and server | |
KR102343084B1 (ko) | 전자 장치 및 전자 장치의 기능 실행 방법 | |
KR20190009488A (ko) | 컨텍스트 정보에 기반하여 음성 입력을 수신하는 지속 기간을 결정하는 전자 장치 및 시스템 | |
USRE47974E1 (en) | Dialog system with automatic reactivation of speech acquiring mode | |
US20220277745A1 (en) | Dialog system with automatic reactivation of speech acquiring mode |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230322 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240307 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7453443 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |