JP7453443B2

JP7453443B2 - ホットワード認識および受動的支援

Info

Publication number: JP7453443B2
Application number: JP2023044908A
Authority: JP
Inventors: アルトハウス、ヤン; シャリフィ、マシュー
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-08-09
Filing date: 2023-03-22
Publication date: 2024-03-19
Anticipated expiration: 2038-08-09
Also published as: JP2023080116A; KR20230107386A; WO2020032948A1; JP2021532486A; US20230229390A1; CN112513978A; KR20210028688A; JP7250900B2; KR102551276B1; EP4280579A2; EP3807875A1; EP4280579A3; US20200050427A1; EP3807875B1

Description

本明細書は、一般に自動音声認識に関する。

音声対応の家庭（ｓｐｅｅｃｈ-ｅｎａｂｌｅｄｈｏｍｅ）やその他の環境、すなわちユーザが問い合わせやコマンドを大声で話すだけで、コンピュータベースのシステムが問い合わせに対応し、回答し、および／またはコマンドを実行させることができるような環境が、現実のものとなってきている。音声対応環境（ｓｐｅｅｃｈ－ｅｎａｂｌｅｄｅｎｖｉｒｏｎｍｅｎｔ。例えば、家庭、職場、学校など）は、環境の様々な部屋やエリアに配置された接続されたマイクロフォンデバイスのネットワークを使用して実装することができる。このようなマイクロフォンのネットワークを介して、ユーザは、コンピュータまたは他のデバイスを彼や彼女の目の前にまたは近くに置くことなく、環境内の本質的にどこからでもシステムに口頭で問い合わせを行うことができる。例えば、キッチンで料理をしているときに、ユーザが直接システムに「３つのカップに何ミリリットル入っていますか」と尋ね、それに応じてシステムから例えば合成音声出力（ｓｙｎｔｈｅｓｉｚｅｄｖｏｉｃｅｏｕｔｐｕｔ）の形で答えを受け取ることができる。あるいは、ユーザはシステムに「私の最寄りのガソリンスタンドが閉まるのはいつですか」のような質問をしたり、家を出る準備をしているときに「今日、私はコートを着るべきですか？」などの質問をしたりするかもしれない。

さらに、ユーザは、ユーザの個人情報に関連して、システムに問い合わせをしたり、コマンドを発出したりすることができる。例えば、ユーザはシステムに「私がジョンに会うのはいつですか？」と尋ねるかもしれないし、システムに「私が帰宅したときにジョンに電話するようにリマインドしてね」と命令するかもしれない。

国際公開第２０１４／１５９５８１号

音声対応システムでは、システムとのユーザの相互作用（ｉｎｔｅｒａｃｔｉｎｇ）の方法は、排他的ではないにしても、主に音声入力（ｖｏｉｃｅｉｎｐｕｔ.）によって行われるように設計されている。その結果、システムは、システムに向けられていないものも含めて周囲の環境で行われたすべての発話（ｕｔｔｅｒａｎｃｅｓ）を拾う可能性があるので、例えば環境に存在する個人に向けられている場合とは対照的に、任意の発話がシステムに向けられているのはいつかを識別する何らかの方法を持たなければならない。これを達成する一つの方法は、ホットワード（ＨＯＴＷＯＲＤ）を使用することである。ホットワードは、環境内のユーザ間の合意によって、システムの注意を喚起するために話される所定の単語として予約されている。例示的な環境では、システムの注意を喚起するために使用されるホットワードは、「ＯＫ、コンピュータ」という言葉である。その結果、「ＯＫ、コンピュータ」という言葉が話されるたびにマイクで拾われ、システムに伝えられる。システムは、音声認識（ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）技術を実行したり、オーディオ特徴量とニューラルネットワークを使用したりして、ホットワードが話されたかどうかを判定し、話された場合には、続くコマンドまたはクエリを待つ。したがって、システムに向けられた発話は、［ホットワード］、［クエリ］（ＱＵＥＲＹ）という一般的な形式をとり、この例では「ホットワード」は「ＯＫ、コンピュータ」である。「クエリ」は、システムが単独で、またはネットワークを介してサーバと連携して、音声認識（ｓｐｅｅｃｈｒｅｃｏｇｎｉｚｅｄ）、解析、処理することができる任意の質問、コマンド、宣言、またはその他の要求であり得る。

音声対応システムは、１つ以上のホットワードに応答するように構成されてもよい。アンビエント表示（ａｌｗａｙｓ－ｏｎｄｉｓｐｌａｙ）を備えるいくつかの音声対応システムでは、システムは、いくつかの追加のホットワードの検出に応答して、ユーザに受動的な支援を提供してもよい。システムは、検出されたホットワードに関連する情報、およびアンビエント表示に続く任意の発話を、目立たない方法で表示してもよい。例えば、ユーザが友人とランチプランについて会話をしている場合がある。ユーザの電話機（ｐｈｏｎｅ）はテーブルの上に置かれていてもよく、マイクは会話を検出することができるかもしれない。会話中に、友人はユーザに「明日のランチは空いていますか？」と尋ねるかもしれない。ユーザの電話機は、その質問を検出して、その質問がホットワードを含むかどうかを判定してもよい。電話機は、「ＯＫ、コンピュータ」に加えて、「あなたは空いていますか」や「忘れないでね」などのホットワードを検出するように構成されてもよい。電話機は、「明日のお昼は空いていますか」のオーディオデータを受け取ると、ホットワード「あなたは空いていますか」を識別し、残りのオーディオデータに対して音声認識を行う。電話機は、ホットワード「あなたは空いていますか」を識別し、「明日のランチについて」というトランスクリプションを生成したことに基づいて、ユーザのカレンダー情報に自動的にアクセスし、翌日のランチタイムについての関連するカレンダー情報をアンビエント表示に表示する。ユーザは、任意のボタンやディスプレイを介して電話機と相互作用したり、「ＯＫ、コンピュータ」を使用して電話機に対処（ａｄｄｒｅｓｓ）したりすることなく、電話機を見てユーザ自身の空き状況を判定してユーザが空いているかどうかを迅速に回答することができる。

本出願に記載された主題の革新的な側面によれば、ホットワード認識および受動的支援を実施するための方法は、コンピューティングデバイスによって発話に対応するオーディオデータを受け取る工程であって、（ｉ）コンピューティングデバイスは低電力モードで動作し、コンピューティングデバイスが低電力モードにある間にはグラフィカルインタフェースを表示するディスプレイをコンピューティングデバイスは備え、（ｉｉ）コンピューティングデバイスは第１ホットワードを検出することに応答して低電力モードを終了するように構成される、オーディオデータを受け取る工程と、オーディオデータが第２の異なるホットワードを含むことをコンピューティングデバイスによって判定する工程と、オーディオデータが第２の異なるホットワードを含むことを判定することに応答して、コンピューティングデバイスによって、オーディオデータに対する音声認識（ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）を実行することで、発話（ｕｔｔｅｒａｎｃｅ）のトランスクリプション（ｔｒａｎｓｃｒｉｐｔｉｏｎ。音声転写）を取得する工程と、第２の異なるホットワードと発話のトランスクリプションとに基づいて、コンピューティングデバイスによって、追加のユーザインタフェースを生成する工程と；および、コンピューティングデバイスが低電力モードのままである間、ディスプレイ上の出力のために、追加のグラフィカルインタフェースを提供する工程とを備える。

これらの実施形態および他の実施形態は、それぞれ、オプションとして、以下の特徴のうちの１つまたは複数を備えることができる。行動（ａｃｔｉｏｎｓ）は、ディスプレイ上の出力のために、追加のグラフィカルインタフェースを提供した後、コンピューティングデバイスによって、キーを押すことからなる入力を受け取る工程と、および、キーを押すことからなる入力を受け取った後、コンピューティングデバイスを、低電力モードよりも多くの電力を消費する高電力モードに切り替える工程とを備える。行動には、低電力モードよりも電力の大きい高電力モードにコンピューティングデバイスを切り替えた後、ディスプレイがアクティブなままの間、コンピューティングデバイスを低電力モードに戻す工程と、および、コンピューティングデバイスを低電力モードに戻した後、ディスプレイに出力するために、ユーザインタフェースを提供する工程とが含まれる。高電力モードでは、コンピューティングデバイスは、ネットワークから第１周波数でデータをフェッチ（ｆｅｔｃｈｅｓ）する。低電力モードでは、コンピューティングデバイスは、第２の低い周波数でネットワークからデータを取得する。ディスプレイは、タッチ式（ｔｏｕｃｈｓｅｎｓｉｔｉｖｅ）ディスプレイである。コンピューティングデバイスが低電力モードにある間には、ディスプレイはタッチ入力を受け取ることができない。

コンピューティングデバイスが低電力モードよりも多くの電力を消費する高電力モードにある間、ディスプレイはタッチ入力を受け取ることができる。行動は、第２の異なるホットワードに基づいて、コンピューティングデバイスによってアクセス可能なアプリケーション（アプリ）を識別する工程と、および、アプリケーションに発話のトランスクリプションを提供する工程とを備える。追加のユーザインタフェースは、アプリケーションに発話のトランスクリプションを提供する工程に基づいて生成される。行動は、コンピューティングデバイスによって、第１ホットワードの第１ホットワードモデルと、第２の異なるホットワードの第２の異なるホットワードモデルとを受け取る工程を備える。オーディオデータが第２の異なるホットワードを含むと判定する行動は、オーディオデータを第２の異なるホットワードモデルに適用する工程を備える。追加のグラフィカルインタフェースは、ユーザによる選択に応じて、アプリケーションを更新する選択可能なオプションを備える。行動は、オーディオデータが第２の異なるホットワードを含むとの判定に応答して、コンピューティングデバイスを低電力モードに維持する工程を備える。行動は、コンピューティングデバイスによって、発話の話者がコンピューティングデバイスのプライマリユーザ（ｐｒｉｍａｒｙｕｓｅｒ）ではないと判定する工程を備える。

オーディオデータ上で音声認識を実行することで発話のトランスクリプションを取得する行動は、オーディオデータの話者がコンピューティングデバイスのプライマリユーザではないと判定する工程に応答している。行動は、コンピューティングデバイスによって、追加の発話に対応する追加のオーディオデータを受け取る工程と、コンピューティングデバイスによって、追加のオーディオデータが第１ホットワードを含むことを判定する工程と、および、オーディオデータが第２の異なるホットワードを含むことを判定したことに応答して、コンピューティングデバイスを低電力モードから、低電力モードよりも多くの電力を消費する高電力モードに切り替える工程とを備える。行動は、コンピューティングデバイスによって、追加の話者がコンピューティングデバイスのプライマリユーザであることを判定する工程を備える。コンピューティングデバイスを低電力モードから、低電力モードよりも多くの電力を消費する高電力モードに切り替える行動は、追加の話者がコンピューティングデバイスのプライマリユーザであることを判定する工程に応答して行われる。

本側面の他の実施形態は、対応するシステム、装置、およびコンピュータ記憶装置に記録されたコンピュータプログラムを含み、それぞれが方法の動作を実行するように構成されている。

本明細書に記載された主題の特定の実施形態は、以下の利点のうちの１つ以上を実現するように実施することができる。コンピューティングデバイスは、ホットワードを検出することに応答して、アンビエント表示（ａｌｗａｙｓ－ｏｎｄｉｓｐｌａｙ）上に情報を自動的に提供するように構成されてもよい。コンピューティングデバイスを低電力状態から高電力状態に切り替えるように構成された第１ホットワードと、コンピューティングデバイスがバックグラウンド処理を実行して低電力状態で情報を出力することを可能にするように構成された第２の異なるホットワードとを区別することで、本明細書に記載された技術は、コンピューティングデバイスの異なる状況および異なる用途において、ユーザの入力を適切に処理することを可能にするメカニズムを提供する。第１ホットワードおよび第２ホットワードを区別することと組み合わせたアンビエント表示は、ユーザが情報を取得する間、電話機がより多くの電力を消費するモードに切り替わる原因となるユーザが積極的に情報を取得することなく、ユーザに情報を伝えるための低電力の方法を提供する。

本明細書に記載された主題の１つ以上の実施形態の詳細は、添付の図面および以下の説明に記載されている。主題の他の特徴、側面、および利点は、説明、図面、および特許請求の範囲から明らかになるであろう。

ホットワード認識を実行し、アンビエント表示を介して受動的な支援（アシスタンス）を提供するシステムの例を示している図。ホットワード認識を実行し、受動的な支援を提供するシステムの例を示している図。ホットワード認識を実行し、受動的な支援を提供するための例示的なプロセスのフローチャート。コンピューティングデバイスおよびモバイルコンピューティングデバイスの例である図。

様々な図面中の同様の参照番号および呼称は、同様の要素を示す。
図１は、ホットワード認識を実行し、アンビエント表示を介して受動的な支援を提供するための例示的なシステム１００を示している。簡単に説明すると、以下でより詳細に説明するように、第１ユーザ１０５と第２ユーザ１１０は会話をしている。第１ユーザ１０５は、第２ユーザ１１０に「明日のランチは空いていますか？」と尋ねることで、発話１１５を話す。会話の間、第２ユーザ１１０のコンピューティングデバイス１２０は、テーブルの上に置かれており、かつ、発話１１５を検出するのに十分に近い位置にあるかもしれない。第２ユーザ１１０がコンピューティングデバイス１２０にコマンドを指示することなく、コンピューティングデバイス１２０は、発話１１５を処理し、第２ユーザ１１０の翌日のカレンダー情報を表示する。コンピューティングデバイス１２０の表示は、コンピューティングデバイスがスリープモードまたは低電力モードにある場合でも、常にオンでることができる。

図１に示す例では、第１ユーザ１０５と第２ユーザ１１０は、翌日のランチの計画を話し合っている。第１ユーザ１０５は、コンピューティングデバイス１２０にコマンドを指示していないかもしれない。第２ユーザ１１０は、コンピューティングデバイス１２０をユーザの手に持っていてもよいし、コンピューティングデバイス１２０は、近くのテーブルの上に置かれていてもよいし、ユーザのシャツのポケットに入っていてもよい。コンピューティングデバイス１２０は、スマートフォン、ラップトップコンピュータ、デスクトップコンピュータ、スマートスピーカ、テレビ、スマートウォッチ、または他の類似のデバイスなど、オーディオデータを受け取るように構成された任意のタイプのデバイスであってもよい。

コンピューティングデバイス１２０は、常にアクティブであってもよいディスプレイ１２５を含む。電話機がスリープモードにあるとき、ロックされているとき、または第２ユーザ１１０が一定期間電話機と相互作用していないかまたは電話機へのコマンドを指示していないとき、ディスプレイ１２５は低電力状態であってもよい。低電力状態にある間、ディスプレイ１２５は、現在の日付および時刻を表示してもよいが、大部分が空白または「オフ」であってもよい。低電力状態にある間、ディスプレイ１２５は、情報を灰色などの単一色でのみ表示してもよい。低電力状態の間、ディスプレイ１２５は、高電力状態よりも低いピクセル解像度で情報を表示してもよい。低電力状態の間、ディスプレイ１２５は、低減された輝度で動作したり、または所定の輝度で動作したり、またはデバイスが高電力状態で動作するときのディスプレイ１２５の最大輝度よりも低い最大輝度まで動作したりしてもよい。コンピューティングデバイス１２０が追加のメッセージまたは通知を受け取ると、コンピューティングデバイス１２０はディスプレイ１２５を更新してもよい。例えば、コンピューティングデバイス１２０が新しい電子メールを受け取ると、コンピューティングデバイス１２０は、封筒（エンベロープ）アイコンを含むように、低電力状態でディスプレイ１２５を更新してもよい。

コンピューティングデバイス１２０のディスプレイ１２５の低電力状態は、コンピューティングデバイス１２０のディスプレイ１２５の高電力状態とは対照的な状態であってもよい。ディスプレイ１２５の高電力状態は、第２ユーザ１１０がディスプレイ１２５と相互作用する典型的な状態であってもよい。例えば、第２ユーザ１１０は、ディスプレイ１２５が高電力状態にある間、インターネットを閲覧したり、電子メールをチェックしたり、テキストメッセージを書いたりしてもよい。第２ユーザ１１０は、ディスプレイ１２５が高電力状態にある間、ディスプレイ１２５の明るさを調整してもよい。いくつかの実施形態では、ディスプレイ１２５は、高電力状態にある間にはディスプレイの全体にわたってタッチ入力を受け取ることができるが、低電力状態にある間には受け取らないようにしてもよい。例えば、ディスプレイ１２５は、低電力状態の間にはタッチ入力を受け取ることができないか、または限定された所定の領域のみでタッチ入力を受け取ることができるようにしてもよい。

ディスプレイ１２５を低電力状態から高電力状態に切り替えるために、第２ユーザ１１０は、パスコード、生体認証識別子を提供してもよいし、特定のホットワード（例えばＯＫ、コンピュータ）を話してもよいし、スリープ／ウェイクボタンを押してもよいし、または他の類似した行動をしてもよい。いくつかの実施形態では、ホットワードは、単一の単語（例えば、「アシスタント」）または複数の単語（例えば、「ＯＫ、コンピュータ」、「あなたは空いていますか」など）であってもよい。ディスプレイ１２５を高電力状態から低電力状態に切り替えるべく、第２ユーザ１１０は、特定期間（例えば、３０秒）の間、コンピューティングデバイス１２０と相互作用したり、スリープ／ウェイクボタンを押したり、または他の類似の行動を行ったりすることができないであろう。

いくつかの実施形態では、コンピューティングデバイス１２０は、バッテリ電力、ネットワーク帯域幅、処理能力、および／または任意の類似のコンピューティングリソースを節約するために、高電力モードの間にはいくつかの行動を実行するとともに、低電力モードの間にはそれらの行動を実行しないようにしてもよい。例えば、高電力モードの間、コンピューティングデバイス１２０は、ネットワークから新しいメッセージを自動的にフェッチしてもよい。低電力モードの間、コンピューティングデバイスは、ネットワークから新しいメッセージを自動的にフェッチしないかもしれない。高電力モードの間、コンピューティングデバイス１２０は、バックグラウンドで実行されている任意のアプリケーションを自動的に更新または再読込（リフレッシュ）してもよい。低電力モードの間、コンピューティングデバイス１２０は、バックグラウンドで実行されている、またはバックグラウンドで実行されていないアプリケーション（アプリ）を更新または再読込しない場合がある。高電力モードの間、コンピューティングデバイス１２０は、位置情報サービスアプリまたは他のアプリのためにＧＰＳセンサをアクティブにしてもよい。低電力モードの間、コンピューティングデバイス１２０は、ＧＰＳセンサを非アクティブにしてもよい。高電力モードの間、コンピューティングデバイス１２０は、コンピューティングデバイス１２０に格納されたデータを、クラウドに格納されたデータと同期させてもよいし、その逆も同様である。低電力モードの間、コンピューティングデバイス１２０は、コンピューティングデバイス１２０に格納されたデータを、クラウドに格納されたデータと同期させないか、またはその逆で同期させなくてもよい。高電力モードの間、コンピューティングデバイス１２０は、アプリケーションストア（アプリストア）からアプリの更新を自動的にダウンロードしてもよい。低電力モードの間、コンピューティングデバイス１２０は、アプリストアからアプリの更新をダウンロードしないかもしれない。いくつかの実施形態では、低電力モードである間、コンピューティングデバイス１２０は、高電力モードである間よりも低い周波数で、上述したプロセスのいずれかを実行してもよい。例えば、高電力モードの間、コンピューティングデバイス１２０は、ネットワークから新しいメッセージを毎秒自動的にフェッチしてもよい。低電力モードの間、コンピューティングデバイスは、１分毎にネットワークから新しいメッセージを自動的にフェッチしてもよい。

図１のステージＡでは、コンピューティングデバイス１２０のディスプレイ１２５は、低電力状態にある。ディスプレイ１２５は、現在の日付および時刻と、コンピューティングデバイス１２０のロックを解除するためのパスワードを入力するための表示とを含むグラフィカルインタフェース（１３０）を表示する。第２ユーザ１１０は、コンピューティングデバイス１２０と相互作用しておらず、コンピューティングデバイス１２０はスリープ状態であってもよい。コンピューティングデバイス１２０は、第１ユーザ１０５および第２ユーザ１１０の近くのテーブルの上に置かれていてもよい。

ステージＢでは、第１ユーザ１０５は発話１１５を話す。例えば、第１ユーザ１０５は「明日のランチは空いていますか？」と話してもよい。ステージＣでは、コンピューティングデバイス１２０は、マイクを介して発話１１５を検出する。コンピューティングデバイス１２０が発話を受け取ると、コンピューティングデバイス１２０は、発話１１５に対応するオーディオデータ１３０を処理する。

ステージＤでは、コンピューティングデバイス１２０は、オーディオデータ１３０を１つ以上のホットワードモデルと比較する。コンピューティングデバイス１２０は、音声認識を実行することなく、オーディオデータがホットワードのうちの１つを含むかどうかを判定するためにホットワードモデルを使用してもよい。例えば、コンピューティングデバイス１２０は、「あなたは空いていますか」のためのホットワードモデルと、「ＯＫ、コンピュータ」のためのホットワードモデルとを有してもよい。コンピューティングデバイス１２０は、ホットワードモデルをオーディオデータ１３０に適用して、オーディオデータ１３０が「あなたは空いていますか」というホットワードを含むと判定してもよい。いくつかの実施形態では、コンピューティングデバイス１２０は、複数のフレーズを検出するように訓練された１つのホットワードモデルを使用してもよい。いくつかの実施形態では、コンピューティングデバイス１２０は、それぞれが異なるフレーズについて訓練されている複数のホットワードモデルを使用してもよい。

ステージＥでは、コンピューティングデバイス１２０は、オーディオデータ１３０のうちホットワードを含まなかった部分について音声認識を実行する。例えば、コンピューティングデバイス１２０は、「あなたは空いていますか」を含まなかったオーディオデータ１３０に対して音声認識を実行することで、「明日のランチについて」というトランスクリプションを生成してもよい。

識別されたホットワード、またはトランスクリプション、または両方に基づいて、コンピューティングデバイス１２０は、実行すべき特定の行動を判定したり、またはデータにアクセスするための特定のアプリを判定したりしてもよい。例えば、ホットワード「あなたは空いていますか」は、カレンダーアプリにアクセスするためにコンピューティングデバイス１２０をトリガしてもよい。ホットワード「することを忘れないでね」は、リマインダアプリにアクセスするためにコンピューティングデバイスをトリガしてもよい。ホットワード「一緒に行きましょう（レッツゴー）」は、ライドシェアアプリまたは自転車シェアアプリにアクセスしてもよい。ステージＦでは、コンピューティングデバイス１２０は、ホットワード「あなたは空いていますか」を検出したことに応答して、カレンダーアプリにアクセスする。

ステージＧでは、コンピューティングデバイス１２０は、ステージＦでアクセスされたアプリを使用して、実行すべき行動を判定してもよい。コンピューティングデバイス１２０は、オーディオデータ１３０のトランスクリプションに基づいて行動を特定してもよい。例えば、トランスクリプションは「明日のランチについて」であってもよい。トランスクリプションと、識別されたホットワードとに基づいて、コンピューティングデバイス１２０は、典型的なランチ時間帯の翌日のカレンダーにアクセスし、該時間帯の第２ユーザ１１０のスケジュールを識別してもよい。別の例として、コンピューティングデバイス１２０は、「来週」というトランスクリプションに基づいて行動を識別してもよい。このトランスクリプションと、「あなたは空いていますか」という識別されたホットワードとに基づいて、コンピューティングデバイス１２０は、翌週のカレンダーにアクセスしてもよい。別の例として、コンピューティングデバイス１２０は、「一緒に行きましょう」のホットワードを特定してもよい。コンピューティングデバイス１２０は、ホットワードの後に話された他の単語を識別することができないであろう。この例では、ホットワード「一緒に行きましょう」に基づいて、コンピューティングデバイスは、ライドシェアアプリまたは自転車シェアアプリにアクセスしてもよい。

ステージＨでは、コンピューティングデバイス１２０は、ステージＧでアクセスされたアプリからの詳細を含むグラフィカルインタフェース１３５を生成する。ディスプレイ１２５がステージＩで低電力状態のままである間、コンピューティングデバイス１２０は、グラフィカルインタフェース１３５をディスプレイ１２５上に表示する。例えば、コンピューティングデバイス１２０はカレンダーにアクセスすることで、第２ユーザ１１０の明日のランチタイムのスケジュールを識別した。グラフィカルインタフェース１３５は、午前１１時から午後２時までの間、第２ユーザ１１０が翌日に空いているという情報を含んでいてもよい。別の例として、コンピューティングデバイス１２０は、ホットワード「あなたは空いていますか」と、トランスクリプション「来週」とを識別した。この例では、コンピューティングデバイス１２０は、カレンダーアプリにアクセスすることで、第２ユーザ１１０が空いている翌週の複数の異なる時間帯を特定してもよい。コンピューティングデバイス１２０は、いくつかの空き時間帯と、追加の空き時間帯があることを示す情報とを有するグラフィカルインタフェース１３５を生成した。グラフィカルインタフェース１３５は、「７月２３日の午前１０時～午後２時は空いています」、「７月２４日の午後１時～午後３時は空いています」、「追加の空いている時間帯があります」ということを示す情報を表示してもよい。グラフィカルインタフェース１３５は、コンピューティングデバイス１２０のロックを解除するためのパスワードを入力することを示してもよい。パスワードの代わりに、コンピューティングデバイス１２０は、適切な生体情報識別子を受け取った後にロックを解除してもよい。グラフィカルインタフェース１３５は、忙しい期間がブロックアウトされた日／週／月のカレンダーのレンダリングを表示してもよい。プライベート情報がグラフィカルインタフェース１３５上に表示されないように、各期間のイベント情報はブロックアウトされてもよい。

いくつかの実施形態では、コンピューティングデバイス１２０は、受動的にプライマリユーザを認証し、コンピューティングデバイス１２０がアンビエント表示上に表示する詳細の量を調整してもよい。例えば、コンピューティングデバイス１２０は、カメラの視野内のユーザの顔を認識することで、ユーザがコンピューティングデバイス１２０の近くにいることを確認してもよい。この例では、コンピューティングデバイス１２０は、アンビエント表示に表示されている期間中の各カレンダー予定（ａｐｐｏｉｎｔｍｅｎｔ）のイベント情報など、アンビエント表示上でより詳細な情報を提供してもよい。別の例として、コンピューティングデバイス１２０は、カメラの視野内のユーザの顔を認識することで、ユーザがコンピューティングデバイス１２０の近くにいることを確認できなくてもよい。この例では、コンピューティングデバイス１２０は、アンビエント表示上に表示されている期間中の各カレンダー予定の空き／忙しいの識別子のみを提供するような、より少ない詳細をアンビエント表示上に提供してもよい。顔認識の代わりに、またはそれに加えて、コンピューティングデバイス１２０は、話者検証（ｓｐｅａｋｅｒｖｅｒｉｆｉｃａｔｉｏｎ）または認証を使用して、プライマリユーザの音声（ｓｐｅｅｃｈ）を識別することで、プライマリユーザが近くにいることを判定してもよい。コンピューティングデバイス１２０は、プライマリユーザに属するものとして識別された音声オーディオ（ｓｐｅｅｃｈａｕｄｉｏ）の受取音量を測定することで、コンピューティングデバイス１２０とプライマリユーザとの間の距離を推定してもよい。

いくつかの実施形態では、ディスプレイ１２５は、低電力状態にある間にタッチ入力を受け取ることができるかもしれない。この例では、コンピューティングデバイス１２０は、コンピューティングデバイス１２０による追加の行動を開始するためにユーザが選択できるボタンを含むグラフィカルインタフェース１３５を生成してもよい。例えば、コンピューティングデバイスは、ホットワード「一緒に行きましょう」を識別し、ライドシェアアプリにアクセスしてもよい。グラフィカルインタフェース１３５は、ライドシェアドライバが３分の距離にいることを示してもよく、第２ユーザ１１０がライドシェア要求を開始するために選択できるボタンを含んでもよい。第２ユーザ１１０がボタンを選択してもよく、ディスプレイ１２５は、第２ユーザ１１０がライドシェア要求を完了することができる高出力状態に遷移してもよい。いくつかの実施形態では、第２ユーザ１１０は、ボタンを選択した後で、第２ユーザ１１０がライドシェア要求を完了することができる前に、パスコードを入力するか、または他の識別情報を提供しなければならない場合がある。

コンピューティングデバイス１２０がステージＣ～Ｉを実行し、グラフィカルインタフェース１３５を表示する間、第２ユーザ１１０は、タッチすることでまたは音声コマンド（ｖｏｉｃｅｃｏｍｍａｎｄｓ）を介してコンピューティングデバイス１２０と相互作用していない場合がある。ステージＪでは、第２ユーザ１１０は、コンピューティングデバイス１２０のディスプレイ１２５を見て、コンピューティングデバイス１２０が、翌日の昼休みにユーザの空き状況を含むようにディスプレイ１２５を自動的に更新したことに気づく。

図２は、ホットワード認識を実行し、受動的な支援を提供する例示的なシステム２００を示す。システム２００は、音声オーディオを受け取って処理するように構成された任意のタイプのコンピューティングデバイスであってもよい。例えば、システム２００は、図１のコンピューティングデバイス１２０に類似していてもよい。システム２００の構成要素は、単一のコンピューティングデバイスに実装されてもよいし、複数のコンピューティングデバイスに分散して実装されてもよい。システム２００が単一のコンピューティングデバイスに実装されることは、プライバシー上の理由から有益であるかもしれない。

システム２００は、オーディオサブシステム２０２を含む。オーディオサブシステム２０２は、マイク２０４、アナログデジタル変換器２０６、バッファ２０８、および他の様々なオーディオフィルタを含んでもよい。マイク２０４は、音声（ｓｐｅｅｃｈ）などの周囲の音を検出するように構成されてもよい。アナログデジタル変換器２０６は、マイク２０４によって検出されたオーディオデータをサンプリングするように構成されてもよい。バッファ２０８は、システム２００による処理のために、サンプリングされたオーディオデータを格納してもよい。いくつかの実施形態では、オーディオサブシステム２０２は、連続的にアクティブであってもよい。この場合、マイク２０４は、常に音を検出していてもよい。アナログデジタル変換器２０６は、検出されたオーディオデータを常時サンプリングしていてもよい。バッファ２０８は、音の最後の１０秒などの最新のサンプリングされたオーディオデータを格納してもよい。システム２００の他の構成要素がバッファ２０８内のオーディオデータを処理しない場合、バッファ２０８は以前のオーディオデータを上書きしてもよい。

図２に示された例では、マイク２０４は、「牛乳を買うことを忘れないでね」に対応する発話を検出してもよい。アナログデジタル変換器２０６は、受け取られたオーディオデータをサンプリングしてもよく、バッファ２０８は、サンプリングされたオーディオデータ２１２を格納してもよい。

オーディオサブシステム２０２は、オーディオデータ２１２をホットワーダ２１０に提供する。ホットワーダ２１０は、マイク２０４を介して受け取られたオーディオ中のホットワードを識別するように構成されるか、および／またはバッファ２０８に格納されたオーディオ中のホットワードを識別するように構成される。ホットワーダ２１０は、ホットワード検出器、キーワードスポッタ、またはキーワード検出器と呼ばれてもよい。いくつかの実施形態では、ホットワーダ２１０は、システム２００が電源オンされている場合いつでもアクティブであってもよい。ホットワーダ２１０は、バッファ２０８に格納されたオーディオデータを連続的に分析する。ホットワーダ２１０は、バッファ２０８内の現在のオーディオデータがホットワードを含む可能性を反映するホットワード信頼度スコアを計算する。ホットワード信頼度スコアを計算するために、ホットワーダ２１０は、ホットワードモデル２１４を使用してもよい。ホットワーダ２１０は、フィルタバンクエネルギまたはメル周波数セプストラル係数などのオーディオ特徴を、オーディオデータ２１２から抽出してもよい。ホットワーダ２１０は、サポートベクターマシンまたはニューラルネットワークを使用するなど、これらのオーディオ特徴を処理するために分類窓を使用してもよい。いくつかの実施形態では、ホットワーダ２１０は、ホットワード信頼度スコアを判定するための音声認識を実行しない。ホットワーダ２１０は、ホットワード確信度スコアがホットワード確信度スコア閾値を満たす場合、オーディオがホットワードを含むと判定する。例えば、ホットワーダ２１０は、ホットワード確信度スコアが０．８であり、ホットワード確信度スコア閾値が０．７である場合、オーディオデータ２１２がホットワードを含むと判定する。

いくつかの実施形態では、ホットワードモデル２１４は、複数のホットワードに対するホットワードモデルを含む。例えば、ホットワードモデル２１４は、「あなたは空いていますか」、「忘れないでね」、「一緒に行きましょう」、「ＯＫ、コンピュータ」、および他の用語のホットワードモデルを含んでもよい。いくつかの実施形態では、ユーザ、またはサーバなどの別のシステムは、追加のホットワードモデルを追加してもよい。例えば、ユーザは、「一緒に行きましょう」のホットワードモデルを追加するようにシステム２００に指示してもよい。システム２００は、ユーザが「一緒に行きましょう」の複数のオーディオサンプルを話すように要求してもよい。システム２００は、異なるオーディオサンプルに基づいてホットワードモデルを生成してもよい。いくつかの実施形態では、システムはアクセスできる。

図２に示す例では、ホットワーダ２１０は、オーディオデータ２１２が「忘れないでね」というホットワード２１６を含むと判定する。ホットワーダ２１０は、オーディオデータ２１２のうち、ホットワード２１６を含む部分を特定してもよい。例えば、ホットワーダ２１０は、ホットワード「忘れないでね」を含むオーディオデータ「牛乳を買うのを忘れないでね」の部分を音声認識器（ｓｐｅｅｃｈｒｅｃｏｇｎｉｚｅｒ）２１８に対して識別してもよい。ホットワーダ２１０は、０．０秒から０．５秒の間のオーディオデータにホットワードが含まれていることを示すタイミングデータを音声認識器２１８に提供してもよい。代替的または追加的に、ホットワーダ２１０は、メモリアドレス０ｘ９８ｂ８９ｄ２４と０ｘ９８ｂ８ｅ３５ａの間に格納されたオーディオデータがホットワードを含むことを示すメモリ位置情報を、音声認識器２１８に提供してもよい。

いくつかの実施形態では、ホットワーダ２１０は、話者識別機能を備えてもよい。この例では、ホットワーダ２１０は、ホットワードを話した特定の人物を、または特定の人物以外の人物がホットワードを話したことを識別してもよい。例えば、ホットワーダ２１０は、第１ユーザ１０５がホットワードを話した可能性が高いと判定してもよい。ホットワーダ２１０は、第１ユーザ１０５がホットワードを話した可能性が高いことを示すデータを、音声認識器２１８および／または行動識別子２２２に提供してもよい。別の例として、ホットワーダ２１０は、第２ユーザ１１０以外のユーザがホットワードを話した可能性が高いと判定してもよい。ホットワーダ２１０は、第２ユーザ１１０以外のユーザがホットワードを話した可能性が高いことを示すデータを音声認識器２１８および／または行動識別子２２２に提供してもよい。話者識別を実行するために、ホットワーダ２１０は、ユーザが様々なフレーズを繰り返すことを要求することで、ユーザのオーディオデータを以前に収集していたかもしれない。ホットワーダ２１０は、話者識別モデルを訓練するために、収集された音声サンプル（ｓｐｅｅｃｈｓａｍｐｌｅｓ）を使用してもよい。例えば、ホットワーダ２１０は、第２ユーザ１１０によって話された音声サンプルを、話者識別モデルを訓練するために使用してもよい。

音声認識器２１８は、オーディオデータ２１２に対して、またはオーディオデータ２１２のうちホットワードを含まない部分に対して音声認識を実行する。音声認識器２１８は、言語モデルと音響モデルとを用いて、オーディオデータ２１２のトランスクリプションを、またはオーディオデータ２１２のうちホットワードを含まない部分のトランスクリプションを生成してもよい。例えば、音声認識器２１８は、オーディオデータ２１２のうちの「忘れないでね」を含まない部分について音声認識を実行して、「牛乳を買うのを」のトランスクリプション２２０を生成してもよい。

いくつかの実施形態では、システム２００がオンの場合、ホットワーダ２１０はアクティブである。この例では、ホットワーダ２１０は、システム２００のメインプロセッサよりも少ない電力を使用するハードウェアで実装されてもよい。例えば、ホットワーダ２１０は、デジタル信号プロセッサ（ＤＳＰ）で実装されてもよい。いくつかの実施形態では、音声認識器２１８は、システム２００のプロセッサが実行するソフトウェアに実装されてもよい。音声認識器２１８とおよび／またはシステム２００のプロセッサとは、ホットワーダ２１０がホットワード２１６を検出したことに応答して起動してもよい。

音声認識器２１８は、ホットワード２１６およびトランスクリプション２２０を行動識別子２２２に提供する。行動識別子２２２は、ホットワード２１６およびトランスクリプション２２０に応答して、システム２００が実行する行動２２４の中から行動を識別するように構成されている。いくつかの実施形態では、行動は、ホットワード２１６に関連していてもよい。例えば、ホットワード２１６は「忘れないでね」であってもよい。この例では、ホットワード２１６の「忘れないでね」は、リマインダリストまたはカレンダーアプリにリマインダを追加するという行動を識別するように行動識別子２２２をトリガしてもよい。別の例として、ホットワード２１６は、「あなたは空いていますか」であってもよく、「あなたは空いていますか」は空き時間および忙しい時間を識別する行動を識別するように行動識別子２２２をトリガしてもよい。

いくつかの実施形態では、行動識別子２２２はユーザから、ホットワードにリンクされた行動を受け取る。例えば、ユーザは、ホットワード２１６の「一緒に行きましょう」に応答して、近くの自転車シェアオプションをチェックするように指定してもよい。いくつかの実施形態では、サーバは、ホットワード２１６「一緒に行きましょう」に応答して、近くの自転車シェアオプションとカーシェアオプションとの両方をチェックするように指定してもよい。

いくつかの実施形態では、行動識別子２２２は、ユーザからの入力および／またはサーバからの入力のために非アクティブであるホットワードを判定してもよい。例えば、ユーザは、「あなたは空いていますか」というホットワードに応答しないように行動識別子２２２に指定してもよい。ユーザは、異なるホットワードに対する選択を入力してもよいし、システム２００がディスプレイを介して提供するメニューまたは類似のグラフィカルインタフェースを介して追加のホットワードを入力してもよい。

行動識別子２２２は、行動を識別するデータをアプリケーション識別子（アプリ識別子）２２６に提供してもよい。アプリケーション識別子２２６は、行動識別子２２２によって識別された行動を実行するための候補アプリとして、アプリケーション２２８の中からアプリを識別してもよい。アプリケーション識別子２２６は、ユーザに提供するために追加のアプリケーションデータ２３０にアクセスするべくアプリを識別してもよい。例えば、アプリケーション識別子２２６は、リマインダをリマインダリストに追加するという行動を実行するための候補アプリとして、リマインダアプリを識別してもよい。行動２３２は、リマインダアプリに「牛乳を買うこと」というリマインダを追加することであってもよい。

いくつかの実施形態では、アプリケーション２２８は、システム２００にインストールされたアプリと、および／またはシステム２００によって例えばネットワーク接続を介してアクセス可能であるアクセス可能なアプリとを含む。例えば、システム２００にインストールされたアプリは、リマインダアプリまたはカレンダーアプリであってもよい。ネットワーク接続を介してアクセス可能なアプリは、ウェブアプリであってもよい。いくつかの実施形態では、システム２００にインストールされたアプリのアプリケーションデータ２３０は、ネットワーク接続を介してアクセス可能であってもよい。

いくつかの実施形態では、アプリケーション識別子２２６は、ホットワード２１６以外のオーディオデータ２１２の部分のトランスクリプション２２０に基づいて、候補アプリを識別する。例えば、ホットワード２１６は「一緒に行きましょう」であってもよく、トランスクリプション２２０は「アリスの家へ」であってもよい。この場合、行動識別子２２２は、ドックレス自転車シェアの利用可能性を判定する行動を識別してもよい。行動識別子２２２は、アリスの家の位置を判定するために連絡先アプリにアクセスしてもよい。アリスの家がシステム２００から閾値距離内にある状態で、行動識別子２２２は、近くの自転車の利用可能性を判定するために自転車シェアアプリにアクセスする。「一緒に行きましょう」のホットワードに続く場所が閾値距離の外にある場合、行動識別子２２２は、近くのライドシェア車両の利用可能性を判定するためにライドシェアアプリにアクセスしてもよい。

いくつかの実施形態では、ホットワード２１６の話者は、行動識別子２２２によって選択された行動および／またはアプリケーション識別子２２６によって選択されたアプリに影響を与えてもよい。例えば、ホットワード２１６の話者がシステム２００のユーザ以外の人である場合、ホットワード２１６の「あなたは空いていますか」は、行動を識別するために行動識別子２２２をトリガしてもよい。システム２００は、ホットワード２１６の話者が第２ユーザ１１０である場合、ホットワード２１６「あなたは空いていますか」に応答する行動のトリガを抑制してもよい。図１に戻ると、第２ユーザ１１０がホットワード「あなたは空いていますか」を話していなかったとコンピューティングデバイス１２０は判定するので、コンピューティングデバイス１２０は行動およびアプリを識別する。

いくつかのホットワードは、話者がシステム２００のプライマリユーザ（例えば、所有者）である場合、またはシステム２００のプライマリユーザ以外の人である場合に応じて、異なる行動を有することがある。例えば、システム２００は、「ママに電話することを忘れないでね」を検出してもよい。話者がプライマリユーザ以外の誰かである場合、行動識別子２２２は、「ママに電話すること」をリマインダリストに追加するという行動を識別してもよい。話者がプライマリユーザである場合、行動識別子２２２は、自動的に「ママに電話すること」をリマインダリストに追加するか、または自動的に「ママに電話すること」のためにカレンダーの予定をスケジューリングする行動を識別してもよい。

行動識別子２２２は、識別された行動２３２をユーザインタフェース生成器２３４に提供する。ユーザインタフェース生成器２３４は、システム２００のディスプレイ上に表示するためのグラフィカルインタフェース２３６を生成する。システム２００は、システム２００のディスプレイが低電力状態にある間、グラフィカルインタフェース２３６を表示してもよい。例えば、ユーザインタフェース生成器２３４は、リマインダリストに「牛乳を買うこと」を追加するという行動２３２を実行するためにユーザが選択できるボタン２４２を含むグラフィカルインタフェース２３６を表示してもよい。

グラフィカルインタフェース２３６は、日時部分２３８を含んでもよい。システム２００は、ディスプレイが低電力状態にある間、いつでも日時部分２３８に現在の日時を表示してもよい。ユーザインタフェース生成器２３４は、識別された行動２３２を含む追加のグラフィカル部分２４０を追加してもよい。いくつかの実施形態では、追加のグラフィカル部分２４０は、ボタン２４２を含む。ユーザは、行動２３２を実行するべくシステム２００を開始させるためにボタン２４２を選択してもよい。例えば、ユーザは、リマインダリストに「牛乳を買うこと」を追加するためにボタン２４２を選択してもよい。ユーザは、ボタン２４２を選択することなく、ディスプレイを高電力状態に遷移させてもよい。追加のグラフィカル部分２４０および／またはボタン２４２は、ディスプレイが低電力状態に遷移したときに再表示されてもよいし、再表示されなくてもよい。

いくつかの実施形態では、グラフィカルインタフェース２３６はボタン２４２を含まない。追加のグラフィカル部分２４０の目的が、システム２００によってアクセス可能であるかもしれないいくつかのデータをユーザに知らせることである場合、ユーザインタフェース生成器２３４はボタン２４２を含まないかもしれない。例えば、追加のグラフィカル部分２４０は、ランチタイムについての翌日のユーザのスケジュールを示してもよい。追加のグラフィカル部分２４０に収まらないかもしれない追加情報がある場合、ユーザインタフェース生成器２３４は、ユーザが追加情報を見るためのボタン２４２を含んでもよい。

いくつかの実施形態では、システム２００は、ユーザが追加のグラフィカル部分２４０に表示される詳細のレベルを構成することを可能にするプライバシー設定を含んでもよい。ディスプレイが低電力状態であってもディスプレイが常にオンである場合があるので、ユーザは、ユーザのカレンダー情報がシステム２００のディスプレイに表示されないように詳細レベルを調整したい場合がある。一例として、ユーザは、追加のグラフィカル部分２４０に各カレンダーの予定の詳細を表示するようにカレンダーを構成してもよい。また、ユーザは、表示された時間枠の間、ユーザが忙しいか空いているかのみを表示するようにカレンダーを構成してもよい。

上述した例に加えて、システム２００は、ホットワード「私の電話機はどこですか」または「私は私の電話機を見つけることができません」に応答するように構成されてもよい。この例では、システム２００は、システム２００のプライマリユーザが話者検証または認証を使用してホットワードを話していることをシステム２００が検証できる場合にのみ応答してもよい。ホットワードに応答して、システム２００は、アンビエント表示を点滅および／または明るくし、スピーカから音を再生し、および／または位置モジュールを作動させてシステム２００の位置を別のデバイス（例えば、プライマリユーザによって指定された電子メールアドレスおよび／または電話番号）に送信するように構成されてもよい。システム２００はまた、「今日の天気は何ですか？」または「今日は晴れますか？」というホットワードに応答するように構成されていてもよい。この例では、システム２００は、ユーザインタフェース生成器２３４が天気予報を含むインタフェースを生成することで応答してもよい。システム２００は、天気予報インタフェースを、アンビエント表示上でのプレゼンテーションのためにシステム２００のディスプレイに提供してもよい。いくつかの実施形態では、システム２００は、話者検証または認証を使用してシステム２００のプライマリユーザがホットワードを話していることをシステム２００が確認できる場合にのみ、「今日の天気はどうですか？」または「今日は晴れですか？」というホットワードに応答してもよい。

いくつかの実施形態では、システム２００は、ホットワード「ＯＫ、私がしましょう」または「それをしてくれますか（ｗｉｌｌｄｏｉｔ）」を検出するように構成されてもよい。システム２００は、プライマリユーザ以外の話者がリマインダに関連する何かを言った後に、これらのホットワードを検出してもよい。システム２００は、ホットワードに続く任意の詳細、例えば時間帯（ｔｉｍｅｐｅｒｉｏｄ）などでユーザインタフェース（２３６）に更新してもよい。例えば、プライマリユーザ以外の話者が「ママに電話するのを忘れないでね」と言ってもよい。プライマリユーザは、「ＯＫ、明日それをするよ」と応答する。システム２００は、ホットワード「忘れないでね」を認識し、「ママに電話するのを」の音声を認識し、ママに電話するという行動を識別する。システム２００は、ホットワード「ＯＫ、私がするよ」を認識し、「明日」の音声を認識し、明日の時間帯を識別する。システム２００は、アンビエント表示に表示するために、明日ママに電話するのを忘れないことを示すユーザインタフェース（２３６）を生成してもよい。また、ユーザインタフェース（２３６）は、上述したように、選択可能なオプション（２４２）を含んでもよい。

図３は、ホットワード認識を実行し、受動的な支援を提供するための例示的なプロセス３００を示す。一般に、プロセス３００は、予め定義されたホットワードを含むオーディオに対して音声認識を実行する。プロセス３００は、ディスプレイが低電力モードのままである間、ディスプレイ上にオーディオのトランスクリプションに関連する結果を出力する。プロセス３００は、１つ以上のコンピュータ、例えば、図１のコンピューティングデバイス１２０または図２のシステム２００を備えるコンピュータシステムによって実行されるものとして説明される。

システムは、低電力モードで動作し、システムが低電力モードにある間、グラフィカルインタフェースを表示するディスプレイを含み、（ｉｉ）第１ホットワードを検出することに応答して低電力モードを終了するように構成され、発話に対応するオーディオデータを受け取る（３１０）。例えば、システムは、ホットワード「ＯＫ、コンピュータ」に応答して低電力モードを終了するように構成されてもよい。この場合、システムは、システムが話者からの更なる入力を聞いていることを示すためにディスプレイを明るくしてもよい。いくつかの実施形態では、システムは、ユーザが閾値期間の間話すのを止めるまで、ディスプレイを明るくしないようにしてもよい。例えば、話者は「ＯＫ、コンピュータ」と言って、２秒間にわたって一旦休止してもよい。この場合、ディスプレイは明るくなり、システムがどのように支援できるかを話者に尋ねるプロンプトを含んでもよい。別の例として、話者は「ＯＫ、コンピュータ、ママに電話して」と言って、２秒間一旦休止してもよい。この場合、ディスプレイが明るくなり、システムは電話アプリを開き、ママへの通話を開始することができる。

いくつかの実施形態では、システムのディスプレイはタッチ式ディスプレイである。システムが低電力モードにある間には、ディスプレイはタッチ入力を受け取ることができない場合がある。システムが高電力モードである間、ディスプレイは、タッチ入力を受け取ることができてもよい。低電力モードでは、システムはロックされ、ディスプレイに日付と時刻を表示してもよい。高電力モードでは、システムは、ロックを解除して、ホーム画面またはアプリをディスプレイに表示してもよい。

システムは、オーディオデータが第２の異なるホットワードを含むと判定する（３２０）。例えば、システムは「あなたは空いていますか」のオーディオデータを受け取ってもよい。いくつかの実施形態では、システムは、システムが識別するように構成された様々なホットワードのホットワードモデルを受け取る。システムは、「ＯＫ、コンピュータ」、「あなたは空いていますか」、「忘れないでね」、および他の用語およびフレーズのホットワードモデルを受け取ってもよい。システムは、音声認識を使用せずにホットワードを識別するように構成されてもよい。システムは、検出されたオーディオに対して連続的に動作するホットワード識別子を使用してもよい。ホットワード識別子は、検出されたオーディオにホットワードモデルを適用して、システムが「あなたは空いていますか」を受け取ったことを判定してもよい。

いくつかの実施形態では、システムは、「ＯＫ、コンピュータ」以外のホットワードの検出に応答して、低電力モードのままである。例えば、システムは、ホットワード「あなたは空いていますか」の検出に応答して低電力モードのままである。ホットワード「ＯＫ、コンピュータ」は、ユーザがシステムに直接に対処するための方法であってもよい。「ＯＫ、コンピュータ」を受け取ることに応答して、システムは、「アリスに、私はもうすぐ帰宅するよとメールしてね」、「大きなチーズピザを注文してね」、または「私の次の予定（アポイントメント）は何ですか」などのコマンドを含む追加のオーディオデータを識別することを試みようとしてもよい。システムは、識別されたコマンドを実行し、コマンドを積極的に開始する。システムは、テキストをメール送信してもよいし、ピザを注文してもよいし、次の予定を表示してもよい。他のホットワード、例えば「あなたは空いていますか」や「忘れないでね」は、人同士の会話中に生じる可能性が高い。これらのホットワードは、システムがホットワードに続く追加の音声を聞くことをトリガしてもよい。システムは、他のホットワードとそれに続く音声とに応答して、受動的に情報を提供したり、追加の行動の許可を要求したりしてもよい。

システムは、オーディオデータが第２のホットワードを含むと判定したことに応答して、オーディオデータに対して音声認識を実行することで、発話のトランスクリプションを取得する（３３０）。例えば、システムは、ホットワード「あなたは空いていますか」に続くオーディオデータに対して音声認識を実行し、「明日のランチについて」というトランスクリプションを生成する。いくつかの実施形態では、システムは、第２ホットワードの話者がシステムのプライマリユーザではないと判定する。システムのプライマリユーザは、システムの所有者（例えば、スマートフォンの所有者）であってもよいし、システムを最も頻繁に使用する人であってもよい。話者がプライマリユーザ以外の者である場合、システムは音声認識器を起動し、オーディオデータに対して音声認識を行うことで発話のトランスクリプションを取得する。なお、話者がプライマリユーザ以外の人物であることは、プライマリユーザが他の人と話していることを示してもよい。話者がプライマリユーザである場合、システムは、発話のトランスクリプションを取得せず、ディスプレイに追加情報を出力しない場合がある。

システムは、第２ホットワードと発話のトランスクリプションとに基づいて、追加のユーザインタフェースを生成する（３４０）。例えば、システムは、翌日のランチタイムについてシステムのユーザのスケジュールを示す追加のユーザインタフェースを生成してもよい。いくつかの実施形態では、システムは、第２ホットワードとトランスクリプションとに基づいて、アプリケーション（アプリ）を識別する。システムは、追加のユーザインタフェースを生成するための情報のために、アプリにアクセスしてもよい。例えば、システムは「明日のランチは空いていますか？」に応答して、カレンダーアプリにアクセスしてもよい。別の例として、システムは、「ママに電話するのを忘れないでね」に応答して、リマインダアプリにアクセスしてもよい。各ホットワードはアプリにリンクされていてもよい。ホットワード「あなたは空いていますか」は、システムがカレンダーアプリにアクセスするトリガになる。ホットワード「忘れないでね」は、システムがリマインダアプリにアクセスするトリガになる。

システムは、低電力モードのままで、ディスプレイ上の出力のために、追加のグラフィカルインタフェースを提供する（３５０）。例えば、システムは、日付、時刻、および午前１１時から午後２時までの間の翌日のユーザの空き時間／忙しい時間のスケジュールを含むグラフィカルインタフェースをディスプレイに表示する。いくつかの実施形態では、追加のグラフィカルインタフェースは、システムが行動を開始するためにユーザが選択できるボタンを含む。例えば、追加のグラフィカルインタフェースは、リマインダリストに「ママに電話する」を追加するボタンを含んでもよい。この例では、ユーザは、「ママに電話する」をリマインダリストに追加するためのボタンを選択することができる。また、ボタンの選択は、ユーザがシステムのロックを解除することをトリガしてもよい。ユーザがボタンを押し、システムのロックを解除し、システムがリマインダリストを更新する。ユーザがボタンを押してもロック解除に失敗した場合、ボタンはグラフィカルインタフェースの一部として残っていてもよい。

いくつかの実施形態では、ユーザは、システム上のボタンまたはキーを押してもよい。ボタンまたはキーの押下に応答して、システムは高電力モードに切り替わってもよい。ボタンは、スリープ／ウェイクボタンなどの物理的なボタンであってもよい。いくつかの実施形態では、ボタンまたはキーの押下は、ディスプレイ上で実行される特定のタッチジェスチャ、例えば、斜めスワイプまたはユーザが選択したジェスチャであってもよい。ユーザは、ボタンを押してもよいし、ジェスチャを再度実行してもよいし、システムが低電力モードに戻るまでの期間（例えば、１０秒）を待ってもよい。いくつかの実施形態では、システムが低電力モードに戻るとき、ディスプレイは、追加のグラフィカルインタフェースを表示し続けてもよい。例えば、システムは、翌日のランチについてのユーザの忙しい／空き時間を表示し続けてもよい。いくつかの実施形態では、システムが低電力モードに戻ると、システムは元のグラフィカルインタフェースを表示する。いくつかの実施形態では、システムは、高電力モードへの切り替わり時に、追加のユーザインタフェースを生成するためにシステムがアクセスしたアプリを開いてもよい。例えば、システムが高電力モードに切り替わり、ユーザがシステムのロックを解除したときに、システムはカレンダーアプリを開いてもよい。

いくつかの実施形態では、システムは、ユーザが第１ホットワード、例えば「ＯＫ、コンピュータ」を話していることを検出してもよい。この場合、システムは高電力モードに切り替わって、話者からのコマンドを待つことができる。話者が閾値時間内に何も言わない場合、システムは低電力モードに戻ってもよい。いくつかの実施形態では、システムは、システムのプライマリユーザが第１ホットワードを話す場合にのみ、第１ホットワードに応答してもよい。プライマリユーザ以外の話者が第１ホットワードを話した場合、システムは高電力モードに切り替わらず、第１ホットワードの後にユーザによって話されたコマンドを無視してもよい。いくつかの実施形態では、システムは、システムが低電力モードにある間、「ＯＫ、コンピュータ」以外のホットワード（例えば、「あなたは空いていますか」および「忘れないでね」）にのみ応答してもよい。システムは、システムが高電力モードにある間には、「ＯＫ、コンピュータ」以外のホットワードには応答しないかもしれない。

図４は、ここに記載された技術を実施するために使用され得るコンピューティングデバイス４００およびモバイルコンピューティングデバイス４５０の例を示す。コンピューティングデバイス４００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図されている。モバイルコンピューティングデバイス４５０は、パーソナルデジタルアシスタント、携帯電話、スマートフォン、および他の類似のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことが意図されている。ここに示された構成要素、それらの接続および関係、ならびにそれらの機能は、例示に過ぎないことを意図しており、限定的であることを意図していない。

コンピューティングデバイス４００は、プロセッサ４０２と、メモリ４０４と、記憶装置４０６と、メモリ４０４と複数の高速拡張ポート４１０とに接続された高速インタフェース４０８と、低速拡張ポート４１４と記憶装置４０６とに接続された低速インタフェース４１２とを含む。プロセッサ４０２、メモリ４０４、記憶装置４０６、高速インタフェース４０８、複数の高速拡張ポート４１０、低速インタフェース４１２のそれぞれは、各種バスを用いて相互に接続されており、共通のマザーボード上に実装されていてもよいし、適宜他の方法で実装されていてもよい。プロセッサ４０２は、高速インタフェース４０８に結合されたディスプレイ４１６などの外部入出力デバイス上にＧＵＩ用のグラフィカル情報を表示するために、メモリ４０４または記憶装置４０６に記憶された命令を含む、コンピューティングデバイス４００内で実行するための命令を処理することができる。他の実施形態では、複数のメモリおよびメモリの種類とともに、複数のプロセッサおよび／または複数のバスが、適宜使用されてもよい。また、複数のコンピューティングデバイスは、必要な動作の一部を提供する各デバイスに接続されてもよい（例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）。

メモリ４０４は、コンピューティングデバイス４００内に情報を格納する。いくつかの実施形態では、メモリ４０４は、揮発性メモリユニットまたはユニットである。いくつかの実施形態では、メモリ４０４は、不揮発性メモリユニットまたは複数のユニットである。また、メモリ４０４は、磁気ディスクまたは光ディスクなどの別の形態のコンピュータ可読媒体であってもよい。

記憶装置４０６は、コンピューティングデバイス４００のための大容量記憶装置を提供することができる。いくつかの実施形態では、記憶装置４０６は、フロッピーディスク（登録商標）装置、ハードディスク装置、光ディスク装置、またはテープ装置、フラッシュメモリまたは他の同様のソリッドステートメモリ装置、またはストレージエリアネットワークまたは他の構成の装置を含む装置のアレイなどのコンピュータ可読媒体であってもよいし、それを含んでいてもよい。命令は、情報キャリアに記憶されていてもよい。命令は、１つ以上の処理装置（例えば、プロセッサ４０２）によって実行されると、上述したような１つ以上の方法を実行する。命令はまた、コンピュータまたは機械可読媒体などの１つ以上の記憶装置（例えば、メモリ４０４、記憶装置４０６、またはプロセッサ４０２上のメモリ）によって記憶され得る。

高速インタフェース４０８は、コンピューティングデバイス４００の帯域幅集約的な動作を管理し、低速インタフェース４１２は、より低い帯域幅集約的な動作を管理する。このような機能の割り当ては、例示に過ぎない。いくつかの実施形態では、高速インタフェース４０８は、メモリ４０４に、ディスプレイ４１６（例えば、グラフィックプロセッサまたはアクセラレータを介して）に、および様々な拡張カード（図示せず）を受け入れることができる高速拡張ポート４１０に結合されている。実施形態では、低速インタフェース４１２は、記憶装置４０６および低速拡張ポート４１４に結合されている。様々な通信ポート（例えば、ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、イーサネット（登録商標）、ワイヤレスイーサネット（登録商標））を含んでもよい低速拡張ポート４１４は、キーボード、ポインティングデバイス、スキャナなどの１つ以上の入出力デバイスに、または例えばネットワークアダプタを介してスイッチやルータなどのネットワークデバイスに結合されてもよい。

コンピューティングデバイス４００は、図示されているように、多数の異なる形態で実装されてもよい。例えば、標準サーバ４２０として実装されてもよいし、そのような複数のサーバのグループ内で複数回実装されてもよい。さらに、ラップトップコンピュータ４２２のようなパーソナルコンピュータに実装されてもよい。また、ラックサーバシステム４２４の一部として実装されてもよい。あるいは、コンピューティングデバイス４００からのコンポーネントは、モバイルコンピューティングデバイス４５０などのモバイルデバイス内の他の構成要素（図示せず）と組み合わせてもよい。このようなデバイスの各々は、コンピューティングデバイス４００およびモバイルコンピューティングデバイス４５０のうちの１つまたは複数を含んでもよく、システム全体が、互いに通信する複数のコンピューティングデバイスから構成されてもよい。

モバイルコンピューティングデバイス４５０は、プロセッサ４５２、メモリ４６４、ディスプレイ４５４などの入出力デバイス、通信インタフェース４６６、およびトランシーバ４６８などを含む。また、モバイルコンピューティングデバイス４５０は、追加のストレージを提供するために、マイクロドライブなどの記憶装置を備えていてもよい。プロセッサ４５２、メモリ４６４、ディスプレイ４５４、通信インタフェース４６６、及びトランシーバ４６８の各々は、種々のバスを用いて相互に接続されており、複数の構成要素は、共通のマザーボード上に実装されてもよいし、適宜他の方法で実装されてもよい。

プロセッサ４５２は、メモリ４６４に格納された命令を含む命令をモバイルコンピューティングデバイス４５０内で実行することができる。プロセッサ４５２は、分離された複数のアナログおよびデジタルプロセッサを含む複数チップのチップセットとして実装されてもよい。プロセッサ４５２は、例えば、ユーザインタフェースの制御、モバイルコンピューティングデバイス４５０によって実行されるアプリ、およびモバイルコンピューティングデバイス４５０による無線通信など、モバイルコンピューティングデバイス４５０の他の構成要素の調整を提供してもよい。

プロセッサ４５２は、制御インタフェース４５８と、ディスプレイ４５４に結合されたディスプレイインタフェース４５６とを介してユーザと通信してもよい。ディスプレイ４５４は、例えば、ＴＦＴディスプレイ（薄膜トランジスタ液晶ディスプレイ）またはＯＬＥＤ（有機発光ダイオード）ディスプレイ、または他の適切なディスプレイ技術であってよい。ディスプレイインタフェース４５６は、グラフィカルおよび他の情報をユーザに提示するために、ディスプレイ４５４を駆動するための適切な回路を構成してもよい。制御インタフェース４５８は、ユーザからのコマンドを受け取り、プロセッサ４５２に提出するために変換してもよい。さらに、外部インタフェース４６２は、他のデバイスとのモバイルコンピューティングデバイス４５０の近エリア通信を可能にするように、プロセッサ４５２との通信を提供してもよい。外部インタフェース４６２は、例えば、いくつかの実施形態では有線通信を提供してもよく、他の実施形態では無線通信を提供してもよく、複数のインタフェースが使用されてもよい。

メモリ４６４は、モバイルコンピューティングデバイス４５０内の情報を記憶する。メモリ４６４は、コンピュータ可読媒体または媒体、揮発性メモリユニットまたは複数のユニット、または不揮発性メモリユニットまたは複数のユニットのうちの１つ以上として実装されてもよい。拡張メモリ４７４はまた、例えばＳＩＭＭ（シングルインラインメモリモジュール）カードインタフェースを含むことができる拡張インタフェース４７２を介してモバイルコンピューティングデバイス４５０に提供され、接続されてもよい。拡張メモリ４７４は、モバイルコンピューティングデバイス４５０に余分な記憶領域を提供してもよいし、モバイルコンピューティングデバイス４５０のためのアプリまたは他の情報を記憶してもよい。具体的には、拡張メモリ４７４は、上述したプロセスを実行または補完するための命令を含んでもよく、また、安全な情報を含んでもよい。したがって、例えば、拡張メモリ４７４は、モバイルコンピューティングデバイス４５０のセキュリティモジュールとして提供されてもよく、モバイルコンピューティングデバイス４５０の安全な使用を可能にする命令でプログラムされてもよい。さらに、セキュアなアプリは、ＳＩＭＭカードを介して、ＳＩＭＭカード上に識別情報を非ハッキング可能な方法で配置するなどの追加情報とともに提供されてもよい。

メモリは、例えば、後述するように、フラッシュメモリおよび／またはＮＶＲＡＭメモリ（不揮発性ランダムアクセスメモリ）を含むことができる。いくつかの実施形態では、命令は、情報キャリアに格納されている。命令は、１つ以上の処理デバイス（例えば、プロセッサ４５２）によって実行されると、上述したような１つ以上の方法を実行する。命令はまた、１つ以上のコンピュータまたは機械可読媒体（例えば、メモリ４６４、拡張メモリ４７４、またはプロセッサ４５２上のメモリ）などの１つ以上の記憶装置によって記憶され得る。いくつかの実施形態では、命令は、例えば、トランシーバ４６８または外部インタフェース４６２を介して、伝搬信号で受け取ることができる。

モバイルコンピューティングデバイス４５０は、必要に応じてデジタル信号処理回路を含んでもよい通信インタフェース４６６を介して無線で通信してもよい。通信インタフェース４６６は、例えば、ＧＳＭ（登録商標）音声通話（移動体通信用グローバルシステム）、ＳＭＳ（ショートメッセージサービス）、ＥＭＳ（拡張メッセージングサービス）、またはＭＭＳメッセージング（マルチメディアメッセージングサービス）、ＣＤＭＡ（符号分割多重アクセス）、ＴＤＭＡ（時分割多重アクセス）、ＰＤＣ（パーソナルデジタルセルラ）、ＷＣＤＭＡ（登録商標）（広帯域符号分割多重アクセス）、ＣＤＭＡ２０００、またはＧＰＲＳ（一般パケット無線サービス）などの様々なモードまたはプロトコルの下での通信を提供してもよい。このような通信は、例えば、無線周波数を用いてトランシーバ４６８を介して行われてもよい。さらに、近距離通信は、例えば、Ｂｌｕｅｔｏｏｔｈ、ＷｉＦｉ、または他のそのようなトランシーバ（図示せず）を使用して行われてもよい。さらに、ＧＰＳ（全地球測位システム）受取モジュール４７０は、追加のナビゲーションおよび位置関連の無線データをモバイルコンピューティングデバイス４５０に提供してもよく、これは、モバイルコンピューティングデバイス４５０上で実行されているアプリによって適宜使用されてもよい。

モバイルコンピューティングデバイス４５０はまた、オーディオコーデック４６０を使用して可聴的に通信してもよく、このオーディオコーデック４６０は、ユーザからの音声情報（ｓｐｏｋｅｎｉｎｆｏｒｍａｔｉｏｎ）を受け取り、使用可能なデジタル情報に変換してもよい。オーディオコーデック４６０は、同様に、モバイルコンピューティングデバイス４５０のハンドセット内の例えばスピーカを介して、ユーザのための可聴音を生成してもよい。そのような音は、音声電話（ｖｏｉｃｅｔｅｌｅｐｈｏｎｅｃａｌｌｓ）からの音を含んでもよく、録音された音（例えば、音声メッセージ（ｖｏｉｃｅｍｅｓｓａｇｅｓ）、音楽ファイルなど）を含んでもよく、また、モバイルコンピューティングデバイス４５０上で動作するアプリによって生成された音を含んでもよい。

モバイルコンピューティングデバイス４５０は、図示されているように、多くの異なる形態で実装されてもよい。例えば、携帯電話４８０として実装されてもよい。また、スマートフォン４８２、パーソナルデジタルアシスタント、または他の類似のモバイルデバイスの一部として実装されてもよい。

ここに記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現することができる。これらの様々な実施形態は、記憶システム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスからデータおよび指示を受け取り、データおよび指示を送信するために結合された、特殊目的または汎用目的であってもよい少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および／または解釈可能な１つまたは複数のコンピュータプログラムにおける実施を含むことができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとも呼ばれる）は、プログラマブルプロセッサのための機械命令を含み、高レベルの手続き型および／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／機械言語で実装することができる。本明細書で使用されるように、機械可読媒体およびコンピュータ可読媒体という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、装置および／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械命令を機械可読信号として受け取る機械可読媒体を含む。機械可読信号という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

ユーザとの相互作用を提供するために、ここで説明したシステムおよび技術は、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザがコンピュータに入力を提供するためのキーボードおよびポインティング装置（例えば、マウスまたはトラックボール）とを有するコンピュータ上で実施することができる。他の種類の装置も同様に、ユーザとの相互作用を提供するために使用することができ、例えば、ユーザに提供されるフィードバックは、感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）の任意の形態であることができ、ユーザからの入力は、音響（ａｃｏｕｓｔｉｃ）入力、音声（ｓｐｅｅｃｈ）入力、または触覚入力を含む任意の形態で受け取ることができる。

ここに記載されたシステムおよび技法は、バックエンドコンポーネント（例えば、データサーバとして）を含むコンピューティングシステム、またはミドルウェアコンポーネント（例えば、アプリケーションサーバ）を含むコンピューティングシステム、またはフロントエンドコンポーネント（例えば、グラフィカルユーザインタフェース、またはユーザがここに記載されたシステムおよび技法の実装と相互作用できるウェブブラウザを有するクライアントコンピュータ）、またはそのようなバックエンド、ミドルウェア、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実装することができる。システムの構成要素は、デジタルデータ通信（例えば、通信ネットワーク）の任意の形態または媒体によって相互接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、およびインターネットが挙げられる。

コンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントとサーバは、一般的に互いに離れており、典型的には通信ネットワークを介して相互作用する。クライアントとサーバの関係は、それぞれのコンピュータ上で実行されて互いにクライアントとサーバの関係を持つコンピュータプログラムのおかげで生じる。

いくつかの実施形態が上記で詳細に説明されてきたが、他の修正が可能である。例えば、クライアントアプリがデリゲート（複数可）にアクセスするように記述されているが、他の実施形態では、デリゲート（複数可）は、１つ以上のプロセッサ、例えば１つ以上のサーバ上で実行されるアプリなどによって実装される他のアプリによって採用されてもよい。さらに、図示された論理フローは、望ましい結果を達成するために、示された特定の順序、または逐次的な順序を必要としない。さらに、他の行動が、記載されたフローから提供されてもよく、または行動が除去されてもよく、他の構成要素が、記載されたシステムに追加されてもよく、または記載されたシステムから除去されてもよい。従って、他の実施形態は、以下の請求の範囲内である。

Claims

ユーザ装置のデータ処理ハードウェア上で実行されることで前記データ処理ハードウェアに動作を実行させるコンピュータ実装方法としての方法であって、
前記方法は、
前記ユーザ装置を高電力モードでの動作から低電力モードでの動作に切り替える工程であって、前記ユーザ装置は、前記高電力モードにある間、前記ユーザ装置のディスプレイを第１輝度で動作させるとともに、前記低電力モードにある間、前記ディスプレイを第２輝度で動作させるように構成されており、前記第２輝度は前記第１輝度よりも低い輝度である、前記低電力モードでの動作に切り替える工程と、
前記低電力モードで前記ユーザ装置を動作している間、
第１ホットワードと、第１ホットワードに続く１つまたは複数の用語と、を備えている発話に対応するオーディオデータを受け取る工程であって、前記第１ホットワードは、前記ユーザ装置上の特定アプリケーションにリンクされているとともに、前記特定アプリケーションが実行する特定行動を特定する、前記オーディオデータを受け取る工程と、
前記オーディオデータにおいて前記第１ホットワードを検出する工程と、
前記オーディオデータにおいて前記第１ホットワードを検出することに応答して、
前記第１ホットワードに続く前記発話の１つまたは複数の前記用語のトランスクリプションを取得する工程と、
前記第１ホットワードにリンクされている前記特定アプリケーションにアクセスする工程と、および
前記特定アプリケーションと、前記第１ホットワードに続く前記発話の１つまたは複数の前記用語の前記トランスクリプションと、を使用することで前記特定アプリケーションを実行する工程と、
前記第１ホットワードとは異なる第２ホットワードを備えている別の発話に対応する追加オーディオデータを受け取る工程と、
前記追加オーディオデータにおいて前記第２ホットワードを検出する工程と、および
前記追加オーディオデータにおいて前記第２ホットワードを検出することに基づき、前記ユーザ装置に、前記低電力モードでの動作から前記高電力モードでの動作への切り替えを行なわせる工程と、
を備えている、方法。
前記高電力モードにある間、前記ユーザ装置は第１周波数でネットワークからデータをフェッチし、
前記低電力モードにある間、前記ユーザ装置は第２の低い周波数で前記ネットワークからデータをフェッチする、
請求項１に記載の方法。
前記ディスプレイは、タッチ式ディスプレイを備えている、
請求項１に記載の方法。
前記ユーザ装置が前記低電力モードで動作しているとき、前記ディスプレイはタッチ入力を受け取ることができず、
前記ユーザ装置が前記高電力モードで動作しているとき、前記ディスプレイは前記タッチ入力を受け取ることができる、
請求項３に記載の方法。
前記ユーザ装置は、前記高電力モードで動作するとき、前記低電力モードで動作するときよりも電力を消費する、
請求項１に記載の方法。
前記動作はさらに、前記第１ホットワードの第１ホットワードモデルを受け取る工程を備えており、
前記オーディオデータにおいて前記第１ホットワードを検出する工程は、前記オーディオデータに対して音声認識を行なうことなく、前記第１ホットワードモデルを用いて前記オーディオデータにおいて前記第１ホットワードを検出する工程を備えている、
請求項１に記載の方法。
前記動作はさらに、前記第２ホットワードの第２ホットワードモデルを受け取る工程を備えており、
前記追加オーディオデータにおいて前記第２ホットワードを検出する工程は、前記オーディオデータに対して音声認識を行なうことなく、前記第２ホットワードモデルを用いて前記追加オーディオデータにおいて前記第２ホットワードを検出する工程を備えている、
請求項６に記載の方法。
前記動作はさらに、前記発話の話者が前記ユーザ装置のプライマリユーザであることを判定する工程を備えており、
前記発話の前記トランスクリプションを取得する工程は、前記発話の前記話者が前記ユーザ装置の前記プライマリユーザではないと判定することに基づく、
請求項１に記載の方法。
前記動作はさらに、追加発話の話者が前記ユーザ装置のプライマリユーザであることを判定する工程を備えており、
前記ユーザ装置が前記低電力モードでの動作から前記高電力モードでの動作に切り替わるようにする工程はさらに、前記追加発話の前記話者が前記ユーザ装置の前記プライマリユーザであると判定することに基づく、
請求項１に記載の方法。
前記ユーザ装置はスマートフォンを備えている、
請求項１に記載の方法。
データ処理ハードウェアと、
前記データ処理ハードウェアに通信しているメモリハードウェアであって、前記データ処理ハードウェア上で実行されると前記データ処理ハードウェアに動作を実行させる命令を記憶している前記メモリハードウェアと、
を備えているシステムであって、
前記動作は、ユーザ装置を高電力モードでの動作から低電力モードでの動作に切り替える工程を備えており、前記ユーザ装置は、前記高電力モードにある間、前記ユーザ装置のディスプレイを第１輝度で動作させるとともに、前記低電力モードにある間、前記ディスプレイを第２輝度で動作させるように構成されており、前記第２輝度は前記第１輝度よりも低い輝度である、前記低電力モードでの動作に切り替える工程と、
前記低電力モードで前記ユーザ装置を動作している間、
第１ホットワードと、前記第１ホットワードに続く１つまたは複数の用語と、を備えている発話に対応するオーディオデータを受け取る工程であって、前記第１ホットワードは、前記ユーザ装置上の特定アプリケーションにリンクされているとともに、前記特定アプリケーションが実行する特定行動を特定する、前記オーディオデータを受け取る工程と、
前記オーディオデータにおいて前記第１ホットワードを検出する工程と、
前記オーディオデータにおいて前記第１ホットワードを検出することに応答して、
前記第１ホットワードに続く前記発話の１つまたは複数の前記用語のトランスクリプションを取得する工程と、
前記第１ホットワードにリンクされている前記特定アプリケーションにアクセスする工程と、および
前記特定アプリケーションと、前記第１ホットワードに続く前記発話の１つまたは複数の前記用語の前記トランスクリプションと、を使用することで前記特定アプリケーションを実行する工程と、
前記第１ホットワードとは異なる第２ホットワードを備えている別の発話に対応する追加オーディオデータを受け取る工程と、
前記追加オーディオデータにおいて前記第２ホットワードを検出する工程と、および
前記追加オーディオデータにおいて前記第２ホットワードを検出することに基づき、前記ユーザ装置に、前記低電力モードでの動作から前記高電力モードでの動作への切り替えを行なわせる工程と、
を備えている、システム。
前記高電力モードにある間、前記ユーザ装置は第１周波数でネットワークからデータをフェッチし、
前記低電力モードにある間、前記ユーザ装置は第２の低い周波数で前記ネットワークからデータをフェッチする、
請求項１１に記載のシステム。
前記ディスプレイは、タッチ式ディスプレイを備えている、
請求項１１に記載のシステム。
前記ユーザ装置が前記低電力モードで動作しているとき、前記ディスプレイはタッチ入力を受け取ることができず、
前記ユーザ装置が前記高電力モードで動作しているとき、前記ディスプレイは前記タッチ入力を受けることができる、
請求項１３に記載のシステム。
前記ユーザ装置は、前記高電力モードで動作するとき、前記低電力モードで動作するときよりも電力を消費する、
請求項１３に記載のシステム。
前記動作はさらに、前記第１ホットワードの第１ホットワードモデルを受け取る工程を備えており、
前記オーディオデータにおいて前記第１ホットワードを検出する工程は、前記オーディオデータに対して音声認識を行なうことなく、前記第１ホットワードモデルを用いて前記オーディオデータにおいて前記第１ホットワードを検出する工程を備えている、
請求項１１に記載のシステム。
前記動作はさらに、前記第２ホットワードの第２ホットワードモデルを受け取る工程を備えており、
前記追加オーディオデータにおいて前記第２ホットワードを検出する工程は、前記オーディオデータに対して音声認識を行なうことなく、前記第２ホットワードモデルを用いて前記追加オーディオデータにおいて前記第２ホットワードを検出する工程を備えている、
請求項１６に記載のシステム。
前記動作はさらに、前記発話の話者が前記ユーザ装置のプライマリユーザであることを判定する工程を備えており、
前記発話の前記トランスクリプションを取得する工程は、前記発話の前記話者が前記ユーザ装置の前記プライマリユーザではないと判定することに基づく、
請求項１１に記載のシステム。
前記動作はさらに、追加発話の話者が前記ユーザ装置のプライマリユーザであることを判定する工程を備えており、
前記ユーザ装置が前記低電力モードでの動作から前記高電力モードでの動作に切り替わるようにする工程はさらに、前記追加発話の前記話者が前記ユーザ装置の前記プライマリユーザであると判定することに基づく、
請求項１１に記載のシステム。
前記ユーザ装置はスマートフォンを備えている、
請求項１１に記載のシステム。