JP2022519648A

JP2022519648A - クライアントが計算したコンテンツメタデータに基づく音声問合せサービス品質ＱｏＳ

Info

Publication number: JP2022519648A
Application number: JP2021545818A
Authority: JP
Inventors: シャリフィ、マシュー; クラカン、アレクサンダー
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-02-06
Filing date: 2019-02-06
Publication date: 2022-03-24
Anticipated expiration: 2039-02-06
Also published as: CN113412516B; US20240029740A1; KR102585673B1; KR102638177B1; EP4407958A2; WO2020162930A1; US20220093104A1; EP3906549A1; JP7241190B2; EP4407958A3; KR20210112403A; KR20230141950A; US20220262367A1; JP2023075215A; JP2024075794A; KR102393876B1; EP4187534A1; EP4187534B1; CN113412516A; CN118447852A

Abstract

方法はユーザ装置によってキャプチャされた音声入力と、音声入力に関連付けられたコンテンツメタデータとを備える自動音声認識ＡＳＲ要求をユーザ装置から受け取る。コンテンツメタデータはユーザ装置によって生成される。方法は音声入力に関連付けられたコンテンツメタデータに基づきＡＳＲ要求の優先度スコアを判定する。それぞれが対応する優先度スコアを有する保留中自動音声認識ＡＳＲ要求の前処理バックログに、ＡＳＲ要求をキャッシュする。前処理バックログ内の保留中ＡＳＲ要求は優先度スコアの順にランク付けされる。前処理バックログから、保留中ＡＳＲ要求の１つまたは複数をバックエンド側自動音声認識ＡＳＲモジュールに提供する。より高い優先度スコアに関連付けられた保留中自動音声認識ＡＳＲ要求は、より低い優先度スコアに関連付けられた保留中自動音声認識ＡＳＲ要求よりも先に処理される。

Description

本開示は、クライアントが計算したコンテンツメタデータに基づく音声問合せのサービス品質（ＱｏＳ）に関する。

音声対応環境（家庭、職場、学校、自動車など）では、ユーザが問合せ（クエリ）やコマンドをコンピュータベースのシステムに向かって大声で話すことができ、そのシステムが問合せをフィールドにして回答したり、コマンドに基づき機能を実行したりする。音声対応（ｖｏｉｃｅｅｎａｂｌｅｄ）環境は、環境の様々な部屋やエリアに配置された、接続されたマイクデバイスのネットワークを使用して実現することができる。これらのデバイスは、ホットワードを使用して、或る発話がシステムに向けられたものであるか、環境内の他の個人に向けられたものであるかを識別（ｄｉｓｃｅｒｎ）することができる。したがって、デバイスは、スリープ状態またはハイバネーション状態で動作し、検出された発話にホットワードが含まれている場合にのみウェイクアップするようにしてもよい。バックエンドサーバで行われる問合せ処理はコストが高く、サーバが一度に処理できる数を超える問合せによって過負荷になる可能性がある。例えば、大規模なイベントの際にテレビ番組やコマーシャルにホットワードが含まれていると、サーバが過負荷状態に陥り、障害が発生する可能性がある。

米国特許出願公開第２０１７／０８３２８５号明細書

クライアントが計算したコンテンツメタデータに基づく音声問合せサービス品質ＱｏＳを改善する余地がある。

音声対応装置（例えば、音声アシスタントを実行するユーザ装置）では、ユーザが問合せやコマンドを大声で話すと、その問合せを裁いて（ｆｉｅｌｄ）答えたり、コマンドに基づき機能を実行したりすることができるようになっている。音声対応装置に対する注意を喚起するために発話される所定の用語／フレーズが合意によって予約されている「ホットワード」（「キーワード」、「アテンションワード」、「ウェイクアップフレーズ／ワード」、「トリガフレーズ」、または「音声アクション開始コマンド」とも呼ばれる）の使用を通じて、音声対応装置は、システムに向けられた発話（すなわち、発話中のホットワードに続く１つまたは複数の用語を処理するべくウェイクアップ処理を開始するため）と、環境内の個人に向けられた発話とを識別することができる。通常、音声認識装置は、バッテリ電力を節約するためにスリープ状態つまり低電力状態で動作し、入力されたオーディオデータ（音声データ）を処理して発話されたホットワードを検出する。例えば、低消費電力状態では、音声対応装置は、マイクを介して入力音声を取り込み、入力音声に含まれるホットワードの存在を検出するように訓練されたホットワード検出器を使用する。ホットワードが入力音声内で検出されると、音声対応装置は、ホットワードと、および／またはホットワードに続く入力音声内の他の用語とを処理するためのウェイクアップ処理を開始する。

典型的には、音声対応装置が音声（例えば、入力音声）の発話におけるホットワードの存在を検出してウェイクアップした後、音声対応装置は、ホットワードとおよびホットワードに続く１つまたは複数の他の用語とを、ホットワードとおよび／またはホットワードに続く任意の他の用語とを処理するように構成された少なくとも自動音声認識装置（ＡＳＲ）を備えているサーバベースの処理スタック（問合せ処理バックエンドとも呼ばれる）に、ネットワークを介して送信する。ここで、自動音声認識ＡＳＲは、受け取った音声を自動音声認識ＡＳＲ要求として処理し、ホットワードおよび／またはホットワードに続く他の用語を対応するテキストに転写（ｔｒａｎｓｃｒｉｂｅ）してもよい。このテキストをインタプリタ層（解釈層）に提供して、入力音声によって指定された音声問合せを判定し、問合せに関連付けられたアクションを実行するために適切な構成要素に問合せを提供してもよい。したがって、音声対応装置のユーザが「ヘイ、グーグル。どのレストランが今まだ開いているかな」（ＨｅｙＧｏｏｇｌｅ, ｗｈａｔｒｅｓｔａｕｒａｎｔｓａｒｅｓｔｉｌｌｏｐｅｎｒｉｇｈｔｎｏｗ）のような音声を発すると、音声対応装置は、ホットワード「ヘイ、グーグル」（ＨｅｙＧｏｏｇｌｅ）の検出に応答してウェイクアップし、音声問合せに対応してホットワードに続く用語「どの近いレストランが今まだ開いているかな」（Ｗｈａｔｎｅａｒｒｅｓｔａｕｒａｎｔｓａｒｅｓｔｉｌｌｏｐｅｎｒｉｇｈｔｎｏｗ）を、処理のためにサーバベースの処理スタックに提供してもよい。この例では、サーバベースの処理スタックの自動音声認識ＡＳＲが、音声問合せを対応するテキストに変換（トランスクライブ）し、解釈層が近くのレストランの営業時間の検索が必要であると判定し、検索エンジンは、現在営業している近くのレストランを含む検索結果のリストを取得することになる。検索結果は、表示または音声出力のために、音声対応装置に提供される。いくつかのシナリオでは、サーバベースの処理スタックは、検索結果のリストを合成音声に変換するように構成されたテキスト音声合成ＴＴＳ（Ｔｅｘｔ－ｔｏ－Ｓｐｅｅｃｈ）コンバータも備えており、合成音声は音声出力のために音声対応装置に提供されて戻ってくる。

サーバベースの処理スタックは、ユーザ集団全体に関連付けられた複数の音声対応装置から受け取った音声問合せを処理するように構成される。これは、サーバベースの処理スタックによる処理のために音声問合せを送信する数百万の音声対応装置を備え得る。音声問合せの処理は高価な作業であり、状況によっては、サーバベースの処理スタックは、所定時間に処理できるよりも多くの音声問合せによって過負荷になる。例えば、ホットワードまたはホットワードに類似した響きの他の用語が、大規模なテレビ番組イベント（例えば、スーパーボール（Ｓｕｐｅｒｂｏｗｌ）中のコマーシャル）に存在する場合、近くの音声対応装置（例えば、家庭内のテレビに近接している）がホットワードを検出し、意図しない音声問合せをサーバベースの処理スタックに発行する可能性があり、それによって、サーバベースの処理スタックにおけるトラフィックが非常に大きく急増（スパイク）する。サーバベースの処理スタックが、実際のユーザによって開始されていない、および／またはタイムクリティカルではない音声問合せを単純にドロップすることは考えられるが、高価な処理を開始することなくそのような問合せを識別することは困難である。

本明細書の実装は、音声対応装置（例えば、ユーザ装置）から自動音声認識ＡＳＲ要求を受け取る問合せ処理バックエンド（例えば、サーバベースの処理スタック）に向けられている。処理のための音声問合せを備えてユーザ装置によってキャプチャ（捕捉）された対応する音声入力を各自動音声認識ＡＳＲ要求が備えていることに加えて、各自動音声認識ＡＳＲ要求は、音声対応装置によって生成されて音声入力に関連付けられたコンテンツメタデータも備えている。音声入力に関連付けられたコンテンツメタデータに基づき、問合せ処理バックエンドは、各自動音声認識ＡＳＲ要求の優先度スコアを判定することができるとともに、それぞれが対応する優先度スコアを有して優先度スコアの順にランク付けされた保留中自動音声認識ＡＳＲ要求の前処理バックログに自動音声認識ＡＳＲ要求をキャッシュすることができる。その後、問合せ処理バックエンドは、バックエンド側自動音声認識ＡＳＲモジュールの処理利用可能性（処理可用性、ｐｒｏｃｅｓｓｉｎｇａｖａｉｌａｂｉｌｉｔｙ）に基づき、１つまたは複数の保留中自動音声認識ＡＳＲ要求を前処理バックログからバックエンド側自動音声認識ＡＳＲモジュール（または問合せ処理バックエンドの他の構成要素）に提供してもよい。ここでは、バックエンド側自動音声認識ＡＳＲモジュールが、各保留中自動音声認識ＡＳＲ要求を先着順に処理しようとしてトラフィックの急増時に過負荷になるのではなく、バックエンド側自動音声認識ＡＳＲモジュールが、より高い優先度スコアに関連付けられた保留中自動音声認識ＡＳＲ要求を処理してから、より低い優先度スコアに関連付けられた保留中自動音声認識ＡＳＲ要求を処理するように、自動音声認識ＡＳＲ要求に優先順位が付けられる。新規自動音声認識ＡＳＲ要求が入ってくると、前処理バックログ内の保留中自動音声認識ＡＳＲ要求は、優先度スコアに基づき並び替えられる。理想的には、実際のユーザによって開始される可能性が低く、および／またはタイムクリティカルではない意図しない音声問合せに関連付けられた自動音声認識ＡＳＲ要求には、低い優先度スコアが割り当てられる。このように、低い優先度スコアに関連付けられた自動音声認識ＡＳＲ要求は、トラフィックスパイク中、前処理バックログに残り、バックエンド自動音声認識ＡＳＲモジュールが、より高い優先度スコアに関連付けられた自動音声認識ＡＳＲ要求を最初に処理するようにする。

いくつかの例では、或る閾値を下回る優先度スコアによれば、対応する自動音声認識ＡＳＲ要求が単にドロップされることになるかもしれない。また、コンテンツメタデータから判定された低い優先度スコアは、対応する自動音声認識ＡＳＲ要求の処理が成功しないことを示す強力な指標となる場合がある。例えば、コンテンツメタデータは、音声入力に関連付けられた音声の品質が非常に低いことを示す場合があり、したがって、音声品質が低いと、バックエンド自動音声認識ＡＳＲモジュールがオーディオデータを対応するテキストにうまく転写することが困難であることを示すことができる。同時に、音声対応装置によってキャプチャされた音声に関連付けられた音質の悪さは、ホットワード（または類似の音がする単語）を話したユーザが音声対応装置に近接しておらず、したがって、音声対応装置に音声入力を提供する意図がなかった可能性が高いことを示すこともある。また、コンテンツメタデータは、音声入力が音声対応装置に関連付けられたユーザによって話された可能性が高いかどうかを示すこともできる。例えば、音声対応装置のホットワード検出器は、音声入力をそのユーザの音声プロファイルと比較して、音声入力がそのユーザによって話された可能性が高いかどうかを判定することができる。ユーザが音声入力を話した可能性が高いことをコンテンツメタデータが示している場合、対応する自動音声認識ＡＳＲ要求は、別のユーザが音声入力を話した場合よりも高い優先度スコアを割り当てられてもよい。一方、別のユーザまたは音声放送デバイス（例えば、テレビ、音楽スピーカ、または音響音を出力できる他の非人間ソース）からの放送音声が音声入力を開始したことをコンテンツメタデータが示している場合、対応する自動音声認識ＡＳＲ要求には低い優先度スコアが割り当てられることがある。コンテンツメタデータは、音声対応装置によって計算／生成され、問合せ処理バックエンドに提供された自動音声認識ＡＳＲ要求に含まれる任意のタイプのデータを備えていることができ、これによって、問合せ処理バックエンドは、自動音声認識ＡＳＲ要求に対していかなる処理を行うことなく（または、少なくとも非常に限られた量の処理で）、自動音声認識ＡＳＲ要求の重要性に優先順位を付けることができる。前述の観点から、音声入力に関連付けられたコンテンツメタデータは、対応する自動音声認識ＡＳＲ要求がバックエンド側自動音声認識ＡＳＲモジュールによって正常に処理される可能性を、および／または、対応する自動音声認識ＡＳＲ要求の処理が、音声対応装置に関連付けられたユーザに影響を与える可能性を表す。

家庭用装置における音声処理は、しばしばサーバで行われるとともに、音声処理に対する要求の大きなバックログを作成する可能性のあるピーク時に行われる。これらの要求の一部は真の要求であるかもしれないが、一方で一部は放送音声（例えば、テレビ、ラジオ、または合成音声などの非人間ソースからの音声出力）の結果であるかもしれない。本発明の目的は、大量の音声認識要求の処理を改善する方法を提供することである。要求に優先順位をつけることで、音声認識モジュールは、より重要または緊急な要求を処理するとともに、他の要求の優先順位を低くすることができる。よって、音声認識モジュールが過負荷になっている時に、音声認識モジュールの使用を最適化することができる。

本開示の一態様は、音声問合せのサービス品質を提供するための方法を提供する。本方法は、問合せ処理バックエンドのデータ処理ハードウェアにおいて、ユーザ装置から自動音声認識（ＡＳＲ）要求を受け取ることを備えている。自動音声認識ＡＳＲ要求は、ユーザ装置によってキャプチャされた音声入力と、音声入力に関連付けられたコンテンツメタデータとを備えている。音声入力は音声問合せを備えており、コンテンツメタデータは、ユーザ装置によって生成される。本方法はまた、データ処理ハードウェアによって、音声入力に関連付けられたコンテンツメタデータに基づき、自動音声認識ＡＳＲ要求の優先度スコアを判定することを備えている。本方法はさらに、データ処理ハードウェアによって、自動音声認識ＡＳＲ要求を、それぞれが対応する優先度スコアを有する保留中自動音声認識ＡＳＲ要求の前処理バックログにキャッシュすることも備えている。前処理バックログ内の保留中自動音声認識ＡＳＲ要求は、優先度スコアの順にランク付けされる。本方法はさらに、データ処理ハードウェアによって、前処理バックログから、保留中自動音声認識ＡＳＲ要求のうちの１つまたは複数を、バックエンド側自動音声認識ＡＳＲモジュールの処理可用性に基づき、バックエンド側自動音声認識ＡＳＲモジュールに提供することを備えている。より高い優先度スコアに関連付けられた保留中自動音声認識ＡＳＲ要求は、より低い優先度スコアに関連付けられた保留中自動音声認識ＡＳＲ要求よりも先に、バックエンド側自動音声認識ＡＳＲモジュールによって処理される。

本開示の実装は、以下のオプション機能の１つまたは複数を備えていることができる。いくつかの実装では、バックエンド側自動音声認識ＡＳＲモジュールは、保留中自動音声認識ＡＳＲ要求の前処理バックログから各保留中自動音声認識ＡＳＲ要求を受け取ることに応答して、保留中自動音声認識ＡＳＲ要求を処理して、保留中自動音声認識ＡＳＲ要求に関連付けられた対応する音声入力に対する自動音声認識ＡＳＲ結果を生成するように構成される。いくつかの例では、本方法はさらに、保留中自動音声認識ＡＳＲ要求の前処理バックログに１つまたは複数の新規自動音声認識ＡＳＲ要求をキャッシュすることに応答して、データ処理ハードウェアによって、前処理バックログ内の保留中自動音声認識ＡＳＲ要求を、優先度スコアの順に再ランク付け（再順位付け）することを備えている。さらにまたは代わりに、本方法は、データ処理ハードウェアによって、タイムアウト閾値を満たす期間、前処理バックログに存在する任意の保留中自動音声認識ＡＳＲ要求が、バックエンド側自動音声認識ＡＳＲモジュールによって処理されることを拒否することを備えてもよい。いくつかの実装形態では、本方法はさらに、優先度スコア閾値よりも小さいそれぞれの優先度スコアを有する新規自動音声認識ＡＳＲ要求を受け取ることに応答して、データ処理ハードウェアによって、新規自動音声認識ＡＳＲ要求がバックエンド側自動音声認識ＡＳＲモジュールによって処理されることを拒否することを備えている。

音声入力に関連付けられたコンテンツメタデータは、対応する自動音声認識ＡＳＲがバックエンド側自動音声認識ＡＳＲモジュールによって正常に処理される可能性を表してもよい。いくつかの実装では、音声入力に関連付けられたコンテンツメタデータは、対応する自動音声認識ＡＳＲ要求の処理が、ユーザ装置に関連付けられたユーザに影響を与える可能性を表している。音声入力に関連付けられ、ユーザ装置によって生成されたコンテンツメタデータは、以下の少なくとも１つを備えてもよい。ユーザ装置に関連付けられたユーザが、ユーザ装置にログインしているかどうかを示すログイン指標。ユーザ装置に関連付けられた話者プロファイルに音声入力が一致する可能性を示す、音声入力の話者識別スコア。音声入力が人間以外のソースからの放送音声または合成音声の出力に対応する可能性を示す、音声入力の放送音声スコア。音声入力の音声問合せに先行する１つまたは複数の用語が、事前に定義されたホットワードに対応する可能性を示すホットワード確信スコア。ユーザ装置と問合せ処理バックエンドとの間でマルチターン相互作用が進行中であるか否かを示す活動指標。音声入力の音声信号スコア。ユーザ装置に対するユーザの距離および位置を示す空間ローカライズスコア（空間－定位スコア）。ユーザ装置上に常駐するオンデバイス自動音声認識ＡＳＲモジュールによって生成された音声入力の転写（トランスクリプション）。ユーザ装置の現在の行動（ｂｅｈａｖｉｏｒ）を示すユーザ装置行動信号。またはユーザ装置に関連する現在の環境条件を示す環境条件信号。

いくつかの実装形態では、ユーザ装置は、音声発話において音声問合せに先行するホットワードを検出することに応答して、音声問合せを備えている音声入力をキャプチャし、音声入力に関連付けられたコンテンツメタデータを生成し、対応する自動音声認識ＡＳＲ要求をデータ処理ハードウェアに送信するように構成される。音声入力はさらに、ホットワードを備えていてもよい。いくつかの例では、本方法はさらに、データ処理ハードウェアから、オンデバイス処理命令をユーザ装置に送信することを備えている。オンデバイス処理命令は、問合せ処理バックエンドが過負荷であるとユーザ装置が判定した場合に、オンデバイスでユーザ装置によってキャプチャされた任意の新規音声入力の少なくとも一部をローカルに処理するための１つまたは複数の基準を提供する。これらの例では、ユーザ装置は、ユーザ装置によってデータ処理ハードウェアに通信された以前の自動音声認識ＡＳＲ要求に関連付けられた履歴データを取得することと、データ処理ハードウェアから、問合せ処理バックエンドにおける過去および／または予測された過負荷状態のスケジュールを受け取ることと、または、処理バックエンドにおける現在の過負荷状態を示す過負荷状態ステータス通知をオンザフライでデータ処理ハードウェアから受け取ることとのうちの少なくとも１つによって、問合せ処理バックエンドが過負荷であると判定するように構成されてもよい。さらに、任意の新規音声入力の少なくとも一部をローカルに処理するための１つまたは複数の基準は、オンザデバイス上に常駐するローカル自動音声認識ＡＳＲモジュールを使用して新規音声入力を転写することと、新規音声入力の転写を解釈して新規音声入力に対応する音声問合せを判定することと、新規音声入力に対応する音声問合せに関連付けられたアクションをユーザ装置が実行できるかどうかを判定することと、または音声問合せに関連付けられたアクションをユーザ装置が実行できない場合に音声入力の転写を問合せ処理システムに送信することとのうち、少なくとも１つをユーザ装置に指示することを備えてもよい。いくつかの実装では、１つまたは複数の基準を提供するオンデバイス処理命令は、ユーザ装置が自動音声認識ＡＳＲ要求を問合せ処理バックエンドに送信するために、コンテンツメタデータの対応する部分が満たさなければならない１つまたは複数の閾値を備えている。いくつかの例では、オンデバイス処理命令はさらに、閾値のうちの少なくとも１つが不満足である場合に、自動音声認識ＡＳＲ要求をドロップするようにユーザ装置に指示する。

本開示の別の態様は、音声問合せのサービス品質を提供するシステムを提供する。システムは、問合せ処理バックエンドのデータ処理ハードウェアと、データ処理ハードウェアに通信するメモリハードウェアとを備えている。メモリハードウェアは、データ処理ハードウェア上で実行されるとデータ処理ハードウェアに動作を実行させる命令を格納する。動作には、ユーザ装置から自動音声認識（ＡＳＲ）要求を受け取ることが含まれる。自動音声認識ＡＳＲ要求は、ユーザ装置によってキャプチャされた音声入力と、音声入力に関連付けられたコンテンツメタデータとを備えている。音声入力は音声問合せを備えており、コンテンツメタデータは、ユーザ装置によって生成される。動作はまた、音声入力に関連付けられたコンテンツメタデータに基づき自動音声認識ＡＳＲ要求の優先度スコアを判定することと、自動音声認識ＡＳＲ要求を、それぞれが対応する優先度スコアを有する保留中自動音声認識ＡＳＲ要求の前処理バックログにキャッシュすることとを備えている。前処理バックログ内の保留中自動音声認識ＡＳＲ要求は、優先度スコアの順にランク付けされる。動作はさらに、前処理バックログから、バックエンド側自動音声認識ＡＳＲモジュールの処理利用可能性に基づき、保留中自動音声認識ＡＳＲ要求の１つまたは複数をバックエンド側自動音声認識ＡＳＲモジュールに提供することを備えている。より高い優先度スコアに関連付けられた保留中自動音声認識ＡＳＲ要求は、より低い優先度スコアに関連付けられた保留中自動音声認識ＡＳＲ要求の前に、バックエンド側自動音声認識ＡＳＲモジュールによって処理される。

この態様は、以下のオプション機能の１つまたは複数を備えていることができる。いくつかの実装では、バックエンド側自動音声認識ＡＳＲモジュールは、保留中自動音声認識ＡＳＲ要求の前処理バックログから各保留中自動音声認識ＡＳＲ要求を受け取ることに応答して、保留中自動音声認識ＡＳＲ要求を処理して、保留中自動音声認識ＡＳＲ要求に関連付けられた対応する音声入力に対する自動音声認識ＡＳＲ結果を生成するように構成される。いくつかの例では、動作はさらに、保留中自動音声認識ＡＳＲ要求の前処理バックログに１つまたは複数の新規自動音声認識ＡＳＲ要求をキャッシュすることに応答して、前処理バックログ内の保留中自動音声認識ＡＳＲ要求を、優先度スコアの順に再ランク付け（再順位付け）することを備えている。さらにまたは代わりに、動作はさらに、タイムアウト閾値を満たす期間、前処理バックログに存在する任意の保留中自動音声認識ＡＳＲ要求が、バックエンド側自動音声認識ＡＳＲモジュールによって処理されることを拒否することを備えてもよい。いくつかの実装形態では、動作はさらに、優先度スコア閾値よりも小さいそれぞれの優先度スコアを有する新規自動音声認識ＡＳＲ要求を受け取ることに応答して、新規自動音声認識ＡＳＲ要求がバックエンド側自動音声認識ＡＳＲモジュールによって処理されることを拒否することを備えている。

音声入力に関連付けられたコンテンツメタデータは、対応する自動音声認識ＡＳＲ要求がバックエンド側自動音声認識ＡＳＲモジュールによって正常に処理される可能性を表してもよい。いくつかの例では、音声入力に関連付けられたコンテンツメタデータは、対応する自動音声認識ＡＳＲ要求の処理が、ユーザ装置に関連付けられたユーザに影響を与える可能性を表している。音声入力に関連付けられ、ユーザ装置によって生成されたコンテンツメタデータは、ユーザ装置に関連付けられたユーザがユーザ装置にログインしているかどうかを示すログイン指標と、ユーザ装置に関連付けられた話者プロファイルに音声入力が一致する可能性を示す音声入力の話者識別スコアと、音声入力が非人間ソースからの放送音声出力または合成音声出力に対応する可能性を示す音声入力の放送音声スコアと、音声入力の音声問合せに先行する１つまたは複数の用語が、事前に定義されたホットワードに対応する可能性を示すホットワード信頼スコアと、ユーザ装置と問合せ処理バックエンドとの間でマルチターン相互作用が進行中であるか否かを示す活動指標と、音声入力の音声信号スコアと、ユーザ装置に対するユーザの相対的距離および相対的位置を示す空間ローカライズ（空間－定位）スコアと、ユーザ装置上に常駐するオンデバイス自動音声認識ＡＳＲモジュールによって生成された音声入力の転写と、ユーザ装置の現在の行動を示すユーザ装置行動信号と、またはユーザ装置に関連する現在の環境条件を示す環境条件信号と、のうちの少なくとも１つを備えてもよい。

いくつかの実装形態では、ユーザ装置は、音声発話において音声問合せに先行するホットワードを検出することに応答して、音声問合せを備えている音声入力をキャプチャし、音声入力に関連付けられたコンテンツメタデータを生成し、対応する自動音声認識ＡＳＲ要求をデータ処理ハードウェアに送信するように構成される。音声入力はさらに、ホットワードを備えていてもよい。いくつかの例では、動作はさらに、オンデバイス処理命令をユーザ装置に送信することを備えている。オンデバイス処理命令は、問合せ処理バックエンドが過負荷であるとユーザ装置が判定した場合に、オンデバイスでユーザ装置によってキャプチャされた任意の新規音声入力の少なくとも一部をローカルに処理するための１つまたは複数の基準を提供する。これらの例では、ユーザ装置は、ユーザ装置によってデータ処理ハードウェアに通信された以前の自動音声認識ＡＳＲ要求に関連付けられた履歴データを取得することと、データ処理ハードウェアから、問合せ処理バックエンドにおける過去および／または予測された過負荷状態のスケジュールを受け取ることと、または、処理バックエンドにおける現在の過負荷状態を示す過負荷状態ステータス通知をオンザフライでデータ処理ハードウェアから受け取ることと、の少なくとも１つによって、問合せ処理バックエンドが過負荷であると判定するように構成されてもよい。さらなる例では、任意の新規音声入力の少なくとも一部をローカルに処理するための１つまたは複数の基準は、デバイス上に常駐するローカル自動音声認識ＡＳＲモジュールを使用して新規音声入力を転写することと、新規音声入力の転写を解釈して、新規音声入力に対応する音声問合せを判定することと、新規音声入力に対応する音声問合せに関連付けられたアクションをユーザ装置が実行できるかどうかを判定することと、またはユーザ装置が音声問合せに関連付けられたアクションを実行できない場合に、音声入力の転写を問合せ処理システムに送信することとのうち、少なくとも１つをユーザ装置に指示することを備えている。いくつかの実装では、１つまたは複数の基準を提供するオンデバイス処理命令は、ユーザ装置が自動音声認識ＡＳＲ要求を問合せ処理バックエンドに送信するために、コンテンツメタデータの対応する部分が満たさなければならない１つまたは複数の閾値を備えている。いくつかの例では、オンデバイス処理命令はさらに、閾値のうちの少なくとも１つが不満足である場合に、自動音声認識ＡＳＲ要求をドロップするようにユーザ装置に指示する。

本開示の１つまたは複数の実装の詳細は、添付の図面および以下の説明に記載されている。他の態様、特徴、および利点は、説明および図面、ならびに特許請求の範囲から明らかになるであろう。

ユーザ装置から受け取った保留中の自動音声認識（ＡＳＲ）要求に優先順位を付けるためのシステムの例を概略的に示す。ユーザ装置によってキャプチャされた音声入力に関連付けられたコンテンツメタデータを生成するユーザ装置の例を概略的に示す。保留中自動音声認識ＡＳＲ要求を継続的に再ランク付けするように構成された、例示的な音声問合せサービス品質（ＱｏＳ）マネージャを概略的に示す図。保留中自動音声認識ＡＳＲ要求を継続的に再ランク付けするように構成された、例示的な音声問合せサービス品質（ＱｏＳ）マネージャを概略的に示す図。保留中自動音声認識ＡＳＲ要求を継続的に再ランク付けするように構成された、例示的な音声問合せサービス品質（ＱｏＳ）マネージャを概略的に示す図。ユーザ装置にオンデバイス処理命令を提供する図１のサービス品質ＱｏＳマネージャを模式的に示す図。問合せ処理スタックでの処理の可用性に基づき、問合せ処理スタックで保留中自動音声認識ＡＳＲ要求を処理する方法の動作の配置例を示すフローチャート。サーバベースの問合せ処理スタックが過負荷である場合に、オンデバイス処理命令を実行する方法のための動作の配置例のフローチャート。本明細書に記載されたシステムおよび方法を実施するために使用することができる、例示的な計算装置の概略図。

様々な図面における同様の参照記号は、同様の要素を示す。
図１を参照すると、いくつかの実装では、システム１００は、ネットワーク１３０を介してリモートシステム１４０に通信し得るユーザ１０、１０ａ～１０ｎにそれぞれ関連付けられたユーザ装置２００、２００ａ～２００ｎを備えている。いくつかのユーザ１０は、複数のユーザ装置２００に関連付けられてもよく、および／または、いくつかのユーザ装置２００は、複数のユーザ１０（例えば、家庭の家族）に関連付けられてもよい。リモートシステム１４０は、スケーラブル／エラスティックなリソース１４２を有する分散システム（例えば、クラウド計算環境）であってもよい。リソース１４２は、計算リソース１４４（例えば、データ処理ハードウェア）および／または記憶リソース１４６（例えば、メモリハードウェア）を備えている。いくつかの実装では、リモートシステム１４０は、音声問合せ（ｖｏｉｃｅｑｕｅｒｙ）サービス品質（ＱｏＳ）マネージャ３００と、問合せ処理スタック７００、７００ａとを備えている。問合せ処理スタック７００ａは、問合せ処理バックエンド、サーバベースまたはバックエンド側の問合せ処理スタック７００ａと呼ばれてもよい。サービス品質ＱｏＳマネージャ３００は、音声入力１０４に関連付けられたオーディオデータ１０３およびコンテンツメタデータ１１０を備えている自動音声認識（ＡＳＲ）要求１０２を、ユーザ装置２００から受け取るように構成される。そして、サービス品質ＱｏＳマネージャ３００は、少なくともコンテンツメタデータ１１０に基づき、自動音声認識ＡＳＲ要求１０２に優先度スコア３１１を割り当ててもよい。受け取った各自動音声認識ＡＳＲ要求１０２に割り当てられた優先度スコア３１１を用いて、また、問合せ処理スタック７００の処理可用性に基づき、サービス品質ＱｏＳマネージャ３００は、各自動音声認識ＡＳＲ要求１０２に対応するランキング３１２を割り当て、最高から最低へのランキング３１２の順に、問合せ処理スタック７００に自動音声認識ＡＳＲ要求１０２を提供する。すなわち、より高い優先度スコア３１１に関連付けられたランキング３１２を有する自動音声認識ＡＳＲ要求は、より低い優先度スコア３１１に関連付けられたランキング３１２を有する自動音声認識ＡＳＲ要求１０２よりも先に、問合せ処理スタック７００によって処理される。

ユーザ装置２００は、データ処理ハードウェア２０４およびメモリハードウェア２０６を備えている。ユーザ装置２００は、ユーザ１０からの音声入力１０４をキャプチャしてオーディオデータ１０３（例えば、電気信号）に変換するための音声キャプチャ装置（例えば、マイクロフォン）を備えてもよい。いくつかの実装では、データ処理ハードウェア２０４は、リモートシステム１４０上で実行される問合せ処理スタック７００ａの代わりに、またはそれに代えて、問合せ処理スタック７００、７００ｂを実行するように構成される。例えば、問合せ処理スタック７００ｂは、限定されないが、オンデバイス自動音声認識ＡＳＲモジュール２２０ｎ（図２）、インタプリタモジュール７２０、またはテキスト音声合成（ＴＴＳ）モジュール７３０のうちの少なくとも１つなど、リモートシステム１４０上で実行される問合せ処理スタック７００ａと同じまたは異なる構成要素の一部を備えてもよい。いくつかの例では、ユーザ装置２００は、ネットワーク接続を必要とせずに、低忠実度転写（ｌｏｗ－ｆｉｄｅｌｉｔｙｔｒａｎｓｃｒｉｐｔｉｏｎｓ）を迅速に生成するためのオンデバイス自動音声認識ＡＳＲモジュール２２０ｎ（図２）を実行する。一方、リモートシステム１４０は、オンデバイス低忠実度転写と比較して高いレイテンシを犠牲にして、高忠実度転写を生成することができるサーバベースの自動音声認識ＡＳＲモジュール７１０を実行する。ユーザ装置２００は、ネットワーク１３０を介してリモートシステム１４０に通信可能な任意の計算装置であり得る。ユーザ装置２００は、デスクトップ計算装置と、ラップトップ、スマートスピーカ、スマートディスプレイ、タブレット、スマートフォン、およびウェアラブル計算装置（例えば、ヘッドセットおよび／または時計）などのモバイル計算装置とを備えているが、これらに限定されない。

図示の例では、ユーザ１０は、話すことでユーザ装置２００に音声入力１０４を提供してもよく、ユーザ装置２００は、音声入力１０４をキャプチャしてオーディオデータ１０３に変換してもよい。次いで、ユーザ装置２００は、音声入力１０４に関連付けられたオーディオデータ１０３とコンテンツメタデータ１１０とを備えている自動音声認識ＡＳＲ要求１０２を、リモートシステム１４０上で実行するサービス品質ＱｏＳマネージャ３００ａに送信してもよい。ここで、サービス品質ＱｏＳマネージャ３００は、少なくともコンテンツメタデータ１１０に基づき自動音声認識ＡＳＲ要求１０２にランキング３１２を割り当て、最も高いランキング３１２から最も低いランキング３１２の順に、自動音声認識ＡＳＲ要求１０２を問合せ処理スタック７００に送信する。ユーザ装置２００は、オプションとして、問合せ処理スタック７００ｂをオンデバイスで実行して、自動音声認識ＡＳＲ要求１０２を、または自動音声認識ＡＳＲ要求１０２の一部を処理してもよい。例えば、ネットワーク通信がダウンしているか、利用できない場合、ユーザ装置２００は、問合せ処理スタック７００ｂをローカルに実行して、自動音声認識ＡＳＲ要求１０２を処理してもよい。いくつかの例では、ユーザ装置２００は、自動音声認識ＡＳＲ要求１０２が時間に敏感であると判定された場合、例えば、１分間タイマーを設定する自動音声認識ＡＳＲ要求１０２である場合、自動音声認識ＡＳＲ要求１０２を処理するために、問合せ処理スタック７００ｂをローカルに実行してもよい。本明細書の実装はさらに、サーバベースの問合せ処理スタック７００が過負荷であること、および／または、処理すべき自動音声認識ＡＳＲ要求１０２の大きなスパイクを現在経験していることを、リモートシステム１４０上で実行されるサービス品質ＱｏＳマネージャ３００ａが判定／検出するときのシナリオにおいて、ユーザ装置２００が問合せ処理スタック７００ｂをローカルに実行することを備えている。

サービス品質ＱｏＳマネージャ３００によって取得されたコンテンツメタデータ１１０は、音声入力１０４に関連付けられた音声認識カテゴリ、ユーザ１０に関連付けられたユーザ装置２００上で実行されているアプリケーション、音声入力１０４が受け取られた時点でのユーザ１０の位置、ユーザ１０を識別するユーザ識別子、ユーザ１０に関連付けられた人口統計学的（ｄｅｍｏｇｒａｐｈｉｃ）情報、ユーザ１０がユーザ装置２００にサインインしているかどうか、ユーザ１０がシステム１００とのマルチターン相互作用の現在の一部であるかどうか、ユーザ装置２００に対するユーザ１０の距離および位置を判定する空間－定位（ｌｏｃａｌｉｚａｔｉｏｎ）情報、または、複数のソース２２０、２２０ａ～２００ｎからのデータ／情報を活用（ｌｅｖｅｒａｇｅ）するユーザ装置２００上で追加の分類（アドクラシファイア、ａｄｄｃｌａｓｓｉｆｉｅｒ）を実行することで得られる追加の可能性（アドライクネス、ａｄ－ｌｉｋｅｌｉｎｅｓｓ）情報（図２）、のうちの少なくとも１つを備えてもよい。具体的には、図２を参照して以下でより詳細に説明するが、ユーザ装置２００は、各音声入力１０４に関連付けられたコンテンツメタデータ１１０を生成し、コンテンツメタデータ１１０および音声入力１０４（例えば、オーディオデータ１０３）を備えている関連付けられた自動音声認識ＡＳＲ要求１０２を、リモートシステム１４０上で実行するサービス品質ＱｏＳマネージャ３００ａに提供するように構成される。

サービス品質ＱｏＳマネージャ３００は、ランカー３１０と、前処理バックログ３２０とを備えている。ランカー３１０は、自動音声認識ＡＳＲ要求１０２に含まれるコンテンツメタデータ１１０を分析して、自動音声認識ＡＳＲ要求１０２が真正（ｇｅｎｕｉｎｅ）である可能性（ｌｉｋｅｌｉｈｏｏｄ）を判定し、自動音声認識ＡＳＲ要求１０２が真正である可能性に基づき、対応するランキング３１２を自動音声認識ＡＳＲ要求１０２に割り当てるように構成される。本明細書で使用する場合、「真正」な自動音声認識ＡＳＲ要求１０２とは、実際のユーザ１０によって話され、問合せ処理スタック７００による処理のための音声問合せとしてユーザ装置２００に指示された音声入力１０４を備えている自動音声認識ＡＳＲ要求１０２を指す。いくつかの例では、サービス品質ＱｏＳマネージャ３００は、自動音声認識ＡＳＲ要求１０２に含まれるコンテンツメタデータ１１０に基づき、受け取った各自動音声認識ＡＳＲ要求１０２に対応する優先度スコア３１１を判定する。ここで、サービス品質ＱｏＳマネージャ３００は、対応する優先度スコア３１１に基づき、各自動音声認識ＡＳＲ要求１０２にランキング３１２を割り当ててもよい。このように、受け取った各自動音声認識ＡＳＲ要求１０２のコンテンツメタデータ１１０に基づく優先度スコア３１１は、その自動音声認識ＡＳＲ要求が真正である可能性を示していてもよい。例えば、コンテンツメタデータ１１０は、自動音声認識ＡＳＲ要求１０２が、テレビ／ラジオのコマーシャル、アナウンス、または他の番組（プログラム）中に、非人間ソース（例えば、テレビまたはラジオ）１２からなど、ユーザ１０、１０ａ～１０ｎのいずれか以外からのソースから来たことを示してもよい。したがって、ランカー３１０は、自動音声認識ＡＳＲ要求１０２が真正ではない可能性が高いことをコンテンツメタデータ１１０が示しているので、自動音声認識ＡＳＲ要求１０２に対して低優先度スコア３１１を判定し、それによって、ランカー３１０は、自動音声認識ＡＳＲ要求１０２が真正である可能性が低いことに基づき、自動音声認識ＡＳＲ要求１０２に低いランキング３１２を割り当てる。他の例では、コンテンツメタデータ１１０は、自動音声認識ＡＳＲ要求１０２がユーザ１０、１０ａ～１０ｎのうちの１つから来たことを示しており、したがって、ランカー３１０は、自動音声認識ＡＳＲ要求１０２に対して高い優先度スコア３１１を判定し、自動音声認識ＡＳＲ要求１０２が真正である可能性が高いことに基づき、自動音声認識ＡＳＲ要求１０２に高いランキング３１２を割り当ててもよい。加えてまたは代替的に、ランカー３１０は、自動音声認識ＡＳＲ要求１０２が真正である可能性を判定するために、コンテンツメタデータ１１０に加えてまたは代わりに、オーディオデータ１０３、および／または任意の他の適切な情報を分析してもよい。

優先度スコア３１１を判定し、各自動音声認識ＡＳＲ要求１０２にランキング３１２を割り当てた後、ランカー３１０は、（ランカー３１０によって以前に判定された）対応する優先度スコア３１１をそれぞれ有する保留中自動音声認識ＡＳＲ要求１０２の前処理バックログ３２０に、自動音声認識ＡＳＲ要求１０２をキャッシュ（ｃａｃｈｅ）する。ここで、問合せ処理スタック７００が、より低いランキング３１２に関連付けられた保留中自動音声認識ＡＳＲ要求１０２を処理する前に、より高いランキング３１２に関連付けられた保留中自動音声認識ＡＳＲ要求１０２を処理するように、前処理バックログ３２０内の保留中自動音声認識ＡＳＲ要求１０２は、優先度スコア３１１の順にランク付けされる。

ランカー３１０は、継続的（ｃｏｎｔｉｎｕｏｕｓｌｙ）に、または半継続的（ｓｅｍｉ－ｃｏｎｔｉｎｕｏｕｓｌｙ）に、前処理バックログ３２０内の保留中自動音声認識ＡＳＲ要求１０２のリスト３２２を受け取り、新規自動音声認識ＡＳＲ要求１０２がサービス品質ＱｏＳマネージャ３００によってネットワーク１３０を介して受け取られると、保留中自動音声認識ＡＳＲ要求１０２を再ランク付けする。例えば、ランカー３１０は、新規自動音声認識ＡＳＲ要求１０２が、問合せ処理スタック７００によって処理されるのを待っている間に、前処理バックログ３２０に現在キャッシュされている保留中自動音声認識ＡＳＲ要求１０２のリスト３２２内の任意の優先度スコア３１１よりも高い対応する優先度スコア３１１を有すると判定してもよい。バックログ３２０は、保留中自動音声認識ＡＳＲ要求１０２のリスト３２２をフィードバックとしてランカー３１０に提供してもよく、ランカー３１０は、新規自動音声認識ＡＳＲ要求１０２が、問合せ処理スタック７００による処理のためにバックログ３２０内の他の保留中自動音声認識ＡＳＲ要求１０２よりも優先されるように、保留中自動音声認識ＡＳＲ要求１０２のリスト３２２内のランキング３１２よりも高いランキング３１２を新規自動音声認識ＡＳＲ要求１０２に割り当ててもよい。いくつかの実装では、ランカー３１０は、リスト３２２内の保留中自動音声認識ＡＳＲ要求１０２のうちの少なくとも１つをドロップする。例えば、ランカー３１０は、バックログ３２０内の保留中自動音声認識ＡＳＲ要求１０２の量が所定閾値を超えたと判定してもよい。より高いランキング３１２を有する新規自動音声認識ＡＳＲ要求１０２のために、バックログ３２０内のスペースを空けるおよび／または帯域幅を増やすために、ランカー３１０は、より低いランキング３１２に関連付けられた保留中自動音声認識ＡＳＲ要求１０２のうちの少なくとも１つをドロップしてもよい。さらにまたは代替として、ランカー３１０は、保留中自動音声認識ＡＳＲ要求１０２のリスト３２２において、タイムアウトした、すなわち所定閾値を超える時間継続してバックログ３２０に保留されている、保留中自動音声認識ＡＳＲ要求１０２の少なくとも１つをドロップしてもよい。

前処理バックログ３２０内の各保留中自動音声認識ＡＳＲ要求１０２は、保留中自動音声認識ＡＳＲ要求１０２に割り当てられたランキング３１２に基づき、問合せ処理スタック７００によって処理されるのを待っている。例えば、最高ランクの自動音声認識ＡＳＲ要求１０２（例えば、最も高い優先度スコア３１１に関連付けられた自動音声認識ＡＳＲ要求１０２）は、２番目に高いランクの自動音声認識ＡＳＲ要求１０２（例えば、次順位の高い優先度スコア３１１に関連付けられた自動音声認識ＡＳＲ要求１０２）の前に処理され、２番目に高いランクの自動音声認識ＡＳＲ要求１０２は、３番目に高いランクの自動音声認識ＡＳＲ要求１０２の前に処理される等である。バックログ３２０は、保留中自動音声認識ＡＳＲ要求１０２の再順位付けを容易にするために、リスト３２２をランカー３１０に継続的に、または半継続的に通信する。

リモートシステム１４０上の問合せ処理スタック７００、７００ａは、音声入力１０４に関連付けられたオーディオデータ１０３およびコンテンツメタデータ１１０を備えていてドロップもまたはタイムアウトもされていない各自動音声認識ＡＳＲ要求１０２を、サービス品質ＱｏＳマネージャ３００からランキング３１２の降順で受け取る。問合せ処理スタック７００は、少なくとも自動音声認識ＡＳＲモジュール７１０、インタプリタモジュール７２０、またはテキスト音声合成ＴＴＳモジュール７３０を備えている。自動音声認識ＡＳＲモジュール７１０は、自動音声認識ＡＳＲ要求１０２に対して、例えば、処理、ノイズモデリング、音響モデリング、言語モデル、アノテーション等の様々な操作を行い、音声入力１０４に対する音声認識結果（例えば、転写（トランスクリプション））を生成してもよい。自動音声認識ＡＳＲモジュール７１０は、この音声認識結果をインタプリタ７２０に送信して、自動音声認識ＡＳＲ要求１０２の意図（ｉｎｔｅｎｔ）を判定し、応答を生成する。例えば、現在の時刻を要求する自動音声認識ＡＳＲ要求１０２は、問合せ処理スタック７００が、ユーザ１０のタイムゾーンにおける現在の時刻を判定して応答を生成することで満たされるであろう。テキスト音声合成ＴＴＳモジュール７３０は、この応答をテキストから音声に変換し、応答を音声形式でユーザ装置２００に出力してもよく、この音声は、例えば、ユーザ装置２００のスピーカを介してユーザ１０に合成音声として出力される。さらにまたは代替として、応答をテキスト形式でユーザ装置２００に出力し、それを、例えば、ユーザ装置２００の画面を介してユーザ１０に送信してもよい。他の実装では、ユーザ装置２００は、問合せ処理スタック７００ａからテキストまたは他のデータの形態で応答を受け取り、オンデバイステキスト音声合成ＴＴＳモジュールを使用して応答を音声に変換してもよい。

図２は、音声入力１０４をキャプチャし、複数のソース２２０、２２０ａ～２２０ｎのうちの１つまたは複数から情報／データを収集し、そしてサービス品質ＱｏＳマネージャ３００に送信される自動音声認識ＡＳＲ要求１０２に含めるために音声入力１０４に関連付けられたコンテンツメタデータ１１０を生成するユーザ装置２００の例を示す。ユーザ装置２００は、画面２１２を備えており、画面２１２に表示するためのグラフィカルユーザインタフェース２１４を実行する。図２に示すように、音声入力１０４は、所定の日（１２月８日）のイベント（ＳｋｉｐＦｉｋａｎｙ（スキップフィカニー）の誕生日）をカレンダーアプリケーション２００ｅに追加するために、ユーザ装置２００に向けられた、例えばユーザ装置２００上で実行されるカレンダーアプリケーション２２０ｅに向けられたホットワード（「ＨｅｙＧｏｏｇｌｅ」（ヘイ、グーグル））およびそれに続く音声問合せに対応する。いくつかの実装では、ユーザ装置２００は、グラフィカルユーザインタフェース２１４に表示された音声検索／コマンドウィンドウ２１６において、音声入力１０４の転記（トランスクリプション）を提示する。

ユーザ装置２００が音声入力１０４を受け取った後、ユーザ装置２００は、複数のソース２２０からの音声入力１０４に関連付けられた情報／データを活用し、（データ処理ハードウェア２０４上で）信号生成器２１８を実行して、リモートシステム１４０上で実行されるサービス品質ＱｏＳマネージャ３００または問合せ処理スタック７００が自動音声認識ＡＳＲ要求１０２の処理を開始することを要求することなく、サービス品質ＱｏＳマネージャ３００による使用のために音声入力１０４に関するコンテキストまたはヒントを提供するために使用され得るコンテンツメタデータ１１０を生成する。音声入力１０４に関連付けられ、信号生成器２１８によって生成されたコンテンツメタデータ１１０は、ユーザ装置２００に関連付けられたユーザ１０がユーザ装置２００にログインしているか否かを示すログイン指標と、ユーザ装置２００に関連付けられた話者プロファイルに音声入力が一致する可能性を示す音声入力１０４の話者識別スコアと、非人間ソース（例えば、テレビ）からの放送または合成された音声出力に音声入力１０４が対応する可能性を示す音声入力１０４の放送音声スコアと、音声問合せに先行して音声入力１０４で検出された１つまたは複数の用語がホットワードに対応する可能性を示すホットワード信頼度スコアと、ユーザ装置２００と問合せ処理スタック７００（すなわち、問合せ処理バックエンド）との間でマルチターン相互作用が進行中であるか否かを示す活動指標（ａｃｔｉｖｉｔｙｉｎｄｉｃａｔｏｒ）と、音声入力１０４の音声信号品質メトリックと、ユーザ装置２００に対するユーザ１０の距離および位置を示す空間－定位（ローカライゼーション）ズスコアと、オンデバイス自動音声認識ＡＳＲモジュール２２０ｎによって生成された音声入力１０４のトランスクリプト（例えば、低忠実度トランスクリプト）と、ユーザ装置２００の現在の行動（ｂｅｈａｖｉｏｒ）を示すユーザ装置行動信号と、またはユーザ装置２００に対する現在の環境条件を示す環境条件信号と、のうちの少なくとも１つを備えている。複数のソース２２０は、限定されるものではないが、話者分類器２２０，２２０ａと、放送音声分類器２２０，２００ｂと、ホットワード検出器２２０，２２０ｃと、セッション活動ログ２２０，２２０ｄと、ユーザ装置２００上で実行される１つまたは複数のアプリケーション２２０，２２０ｅと、音声品質スコアラー２２０，２２０ｆと、ユーザ装置２００の１つまたは複数のセンサ２２０，２２０ｇと、およびオンデバイス自動音声認識ＡＳＲ２２０，２２０ｎと、のうちの少なくとも１つを備えている。明らかになるように、信号生成器２１８は、音声入力１０４に関連付けられたコンテンツメタデータ１１０を生成するために、ソース２２０のいずれかからおよび他の関連付けられたソースからのデータ／情報を活用するように構成される。さらに、２つ以上のソース２２０から得られたデータ／情報は、より重複し、信号生成器２１８がよりロバストなコンテンツメタデータ１１０を生成することを可能にする。

話者分類器２２０ａは、音声入力１０４のオーディオデータ１０３（例えば、発音、タイミングなどに関連付けられた音響特徴）を、ユーザ装置２００の１人または複数のユーザ１０に関連付けられた話者プロファイルの音響特徴と比較してもよい。例えば、話者プロファイルは、スマートスピーカなどのユーザ装置２００の使用を許可された家庭の１人または複数のユーザ１０による話者登録（ｅｎｒｏｌｌｍｅｎｔ）処理中に、学習および／または生成されてもよい。音声入力１０４のオーディオデータ１０３が、ユーザ装置２００に関連付けられた１人または複数のユーザ１０の話者プロファイルの音響特徴に一致する場合、話者分類器２２０ａは、ユーザ装置２００に関連付けられたユーザ１０によって音声入力１０４が話された可能性が高いことを示す高い話者識別スコアを出力してもよい。この例では、信号生成器２１８は、高い話者識別スコアを使用して、対応する自動音声認識ＡＳＲ要求１０２が真正である可能性が高いことを示すコンテンツメタデータ１１０を提供し得る。一方、音声入力１０４のオーディオデータ１０３が、ユーザ装置２００に関連付けられたユーザ１０の話者プロファイルの音響特徴に一致しない場合に、話者分類器２２０ａは、低い話者識別スコアを提供することができる。したがって、話者識別スコアは、オーディオデータ１０３が既知の話者プロファイルに一致することの信頼値または確率に対応してもよい。

放送音声分類器２２０ｂは、音声入力１０４のオーディオデータ１０３を分析して、音声入力１０４が、例えば、テレビ、ラジオ、コンピュータであるか、または放送音声および／または合成音声を出力することができるその他の音声出力装置などの、非人間ソース１２から出力された放送音声または合成音声に対応する可能性を示す、音声入力の放送音声スコアを提供してもよい。本明細書で使用する場合、放送音声（放送された音声）とは、人間（例えば、ニュースキャスター、俳優、ラジオパーソナリティなど）によって話されるが、コマーシャル、ラジオ番組、テレビ番組、および／または映画などのメディアイベント中に非人間ソース１２から発せられた／放送された音声コンテンツに対応する音声を指す。一方、合成音声（合成された音声）とは、例えば、テキスト音声合成ＴＴＳ（テキストツースピーチ）システムによって生成された非人間の音声を指す。放送音声分類器２２０ｂは、非人間ソース１２から発せられる／放送される音声コンテンツに付加される可能性のあるウォーターマークまたは他の特徴を検出することが可能であってもよく、および／または、ユーザ装置２００に近接している実際の人間からの音声出力と、合成音声またはメディアイベント中に放送されている非人間ソース１２からの音声出力とを区別するために自己学習することが可能であってもよい。

いくつかの例では、放送音声分類器２２０ｂはまた、放送音声スコアを判定するための基礎として、話者分類器２２０ａによって提供された話者識別スコアを分析する。例えば、話者分類器から出力された高い話者識別スコアは、音声入力１０４が非人間ソース１２から出力されていないことを強く示すものであり、一方、話者分類器２２０ａから出力された低い話者識別スコアは、音声入力１０４が非人間ソース１２から発せられた可能性を開く。

ホットワード検出器２２０ｃは、音声入力１０４のホットワード信頼度スコアを計算し、ホットワード信頼度スコアをホットワード信頼度スコア閾値と比較する。ホットワード信頼度スコア閾値は、ホットワード検出器２２０ｃによって検出されると、ユーザ装置２００をスリープ状態からウェイクアップさせて、音声問合せに対応する音声入力１０４の残りの部分をキャプチャし、問合せ処理スタック７００に送信される自動音声認識ＡＳＲ要求１０２を生成するトリガとなるホットワード信頼度スコアを表す。ユーザ１０が指定されたホットワード「ＯｋＧｏｏｇｌｅ」（オッケー、グーグル）をはっきりと話し、ユーザ装置２００の近くにいる場合の例では、ホットワード信頼度スコアは高くてもよい（例えば、０．９よりも大きい）。いくつかの例では、ユーザ装置２００の近くにいるユーザ１０が、指定されたホットワード「ＯｋＧｏｏｇｌｅ」（オッケー、グーグル）に似た響きの「Ｏｋｐｏｏｄｌｅ」（オッケー、プードル）などのフレーズを話すことがあり、それによって信頼度スコアが低くなる（例えば、０．７）が、ホットワード信頼度スコアの閾値（例えば、０．６８）を満たしている。さらに、ホットワード信頼度スコアは、話し手がユーザ装置２００から遠く離れていたり、話し方が明瞭でなかったりすると、低下する可能性がある。したがって、音声入力１０４（すなわち、音声入力１０４の初期部分）のホットワード信頼度スコアを備えているコンテンツメタデータ１１０を提供することは、ホットワード信頼度スコア閾値が満たされてユーザ装置２００をウェイクアップさせるトリガとなったものの、ホットワード信頼度スコアは、話者が遠くにいたこと、および／またはホットワードに似た音の他のフレーズを話したこと、したがってユーザ装置２００を呼び出す意図がなかったことを示すように十分低い可能性がある。したがって、ホットワード信頼度スコアは、自動音声認識ＡＳＲ要求が真正である可能性が高いか否かを示すコンテンツメタデータ１１０に寄与することができる。

セッション活動ログ２２０ｄは、ユーザ装置２００と問合せ処理スタック７００との間の相互作用のログを提供してもよい。例えば、ログ２２０ｄは、問合せ処理スタック７００に送信された最近の自動音声認識ＡＳＲ要求１０２のタイムスタンプと、問合せ処理スタック７００から返された対応するテキスト音声合成ＴＴＳ応答のタイムスタンプとを備えてもよい。信号生成器２１８は、セッション活動ログ２２０ｄにアクセスして、ユーザ装置２００と問合せ処理スタック７００との間でマルチターン相互作用が進行中であるか否かを示すコンテンツメタデータ１１０を判定してもよい。例えば、自動音声認識ＡＳＲ要求１０２が「傘を持ってきた方がいいですか」と尋ねる音声問合せの場合、セッション活動ログ２２０ｄは、ユーザ装置２００が「明日の朝のデトロイトの気温は」と尋ねる以前音声問合せを提供したばかりであり、問合せ処理スタック７００から「明日のデトロイトの気温は、午前７時の時点で華氏６２度であり、午前１１時には華氏７３度に達する見込みです」と記載されたテキスト音声合成ＴＴＳ応答を受け取ったことを示してもよい。したがって、信号生成器２１８は、ユーザ１０が現在、ユーザ装置２００との継続的な議論に関与しているので、自動音声認識ＡＳＲ要求１０２が真正である可能性が高いことを示す、自動音声認識ＡＳＲ要求１０２に含めるためのコンテンツメタデータ１１０を生成してもよい。別の例では、ユーザ１０は、最近、ユーザ装置２００にローカルレストランの検索を依頼する自動音声認識ＡＳＲ要求１０２を提出したかもしれない。後続の自動音声認識ＡＳＲ要求１０２が、ローカルレストランの１つで予約をするようにユーザ装置２００に要求して提出された場合、セッション活動ログ２２０ｄは、ユーザ装置２００と問合せ処理スタック７００との間でマルチターン相互作用が進行中であることを示し得る。さらに、信号生成器２１８は、ユーザ装置２００と問合せ処理スタックとの間で進行中マルチターン相互作用が進行中であることを示す活動指標を提供するために、デジタルボイスアシスタントなどの特定のアプリケーション２２０ｅがユーザ装置２００上で現在実行されていることをさらに判定し得る。いくつかの例では、デジタル音声アシスタントアプリケーション２２０ｅは、信号生成器２１８による使用のために、セッション活動ログ２２０ｄにセッション活動を記録（ｌｏｇ）する。

音声品質スコアラー２２０ｆは、音声入力の音声品質スコアを判定するように構成されてもよい。いくつかの例では、音声品質スコアラー２２０ｆは、音声入力１０４に関連付けられたオーディオデータ１０３のラウドネス（例えば、デシベル）を測定する。測定されたラウドネスは、ホットワード検出器２２０ｃによって検出されたホットワードに対応するオーディオデータ１０３の部分に対応するか、ホットワードに続く音声問合せに対応するオーディオデータ１０３の部分に対応するか、またはユーザ装置２００によってキャプチャされたオーディオデータ１０３全体に対応してもよい。音声入力１０４の音声品質スコアは、さらに、オーディオデータ１０３に存在する背景ノイズのレベルを示してもよい。したがって、音声品質スコアは、単に、音声入力１０４の音声品質の信頼度スコア、すなわち、音声入力１０４がユーザ装置２００のマイクロフォンによってどの程度キャプチャ（捕捉）されたかを示すものであってもよい。

信号生成器２１８は、例えば、ユーザ装置２００に対するユーザ１０の相対的な距離および位置を示すために、複数のソース２２０からのデータ／情報を活用して、音声入力１０４のための空間－定位スコアを備えているコンテンツメタデータ１１０を判定してもよい。いくつかの例では、ホットワード検出器２２０ｃからのホットワード信頼度スコアおよび／または音声品質スコアラー２２０ｆからの音声品質スコアは、空間－定位スコアに寄与することがある。例えば、低いホットワード信頼度スコアおよび／または低い音声品質スコアは、音声入力１０４を話したソース（例えば、ユーザ１０）がユーザ装置２００の近くにいないことを示すために使用されてもよい。さらに、または代替的に、空間－定位スコアは、ユーザ装置２００の１つまたは複数のセンサ２２０、２００ｇによって収集されたデータ／情報に基づいてもよい。センサ２２０ｇは、限定されないが、光検出センサ、加速度計、マイク、ジャイロスコープ、磁力計、近接センサ、タッチ画面センサ、気圧計、または全地球測位システム（ＧＰＳ）センサのうちの少なくとも１つを備えてもよい。例えば、ユーザ装置２００が一対のスマートヘッドフォンを備えている場合、センサ２２０ｇのうちの１つまたは複数を使用して、ユーザ１０が現在ヘッドフォンを装着しているか、またはヘッドフォンが装着されておらずしたがって使用されていないかを判定してもよい。ユーザ１０がスマートヘッドフォンを装着しているか否かは、センサ２２０ｇの１つ、例えば、近接センサ、加速度計などによって判定されてもよい。この例では、信号生成器２１８は、ユーザ１０がスマートヘッドフォンを装着している場合には高い空間－定位スコア（例えば、１のバイナリ値）を生成し、ユーザ１０がスマートヘッドフォンを装着していない場合には低い空間－定位スコア（例えば、０のバイナリ値）を生成してもよい。別の例として、センサ２２０ｇの１つは、家の部屋に位置するユーザ装置２００の環境における光エネルギーを検出して、部屋が暗いかどうかを示すことができるかもしれない。例えば、所定閾値を下回る光エネルギーのレベルは、ユーザ装置２００が暗い部屋に位置することを示してもよい。このように、信号生成器２１８は、ユーザ装置２００が夕方に暗い部屋に位置しているときに（例えば、現在の時刻にさらにアクセスすることで）、ユーザ装置２００と同じ部屋にユーザ１０が存在しない可能性が高いことを示すために、低い空間－定位スコアを判定してもよい。逆に、空間－定位スコアを判定する際の信号生成器２１８は、ユーザ装置２００に部屋の照明を消すように要求する最近の自動音声認識ＡＳＲ要求１０２があったことを示すセッション活動ログ２２０ｄからの情報を活用し、したがって、空間－定位スコアは、暗い部屋にユーザ１０がいることを代わりに反映してもよい。さらに別の例として、車両のインフォテインメントシステムの一部であるユーザ装置２００は、センサ２２０ｇを使用して、ユーザ１０が車両のキャビンにいるかどうか、車両が走行しているかどうかなどを判定してもよい。この例では、ユーザ装置２００が音声入力１０４をキャプチャしたにもかかわらず、誰も車両のキャビンにおらず、車両が動作していないという事実は、音声入力１０４が他のユーザ装置２００に向けられたものであるか、インフォテインメントシステムによって偶然キャプチャされた背景ノイズであることを示している可能性がある。

ログイン指標を備えているコンテンツメタデータ１１０は、ユーザ１０がユーザ装置２００にログインしているかどうか、例えば、ユーザ１０がユーザ装置２００にアクセス／アンロックするために適切な認証情報を入力したかどうかを判定してもよい。ユーザ装置２００にログインしたユーザ１０の存在は、自動音声認識ＡＳＲ要求１０２が真正である可能性を高めてもよい。さらに、ログイン指標は、ユーザ装置２００上で実行している特定のアプリケーション２２０ｅにユーザ１０がログインしているかどうかを示してもよい。例えば、信号生成器２１８は、ログインしたユーザ１０のユーザ装置２００上で実行されるカレンダーアプリケーション２２０ｅにアクセスし、ログインしたユーザ１０が５分後に会議があることを判定することで、ログイン指標を生成してもよい。この例では、ログイン指標は、ログインしたユーザ１０が会議のための情報（例えば、方向、メモなど）を必要とする可能性があるので、音声入力１０４のための自動音声認識ＡＳＲ要求１０２を迅速に処理することが重要であることを示すコンテンツメタデータ１１０を提供してもよい。別の例として、ログインしたユーザ１０は家の所有者であってもよく、信号生成器２１８は、カレンダーアプリケーション２２０ｅにアクセスして、ログインしたユーザ１０の家以外の場所にログインしたユーザ１０の予定があることを判定して、ログイン指標を生成してもよい。ユーザ装置２００が、例えば、ログインしたユーザ１０の自宅に配置されたスマートスピーカであり、ユーザ装置２００が、カレンダーアプリケーション２２０ｅにおいて、アポイントメントの同時刻に話されたホットワードを検出した際にトリガされた場合、ログイン指標は、ログインしたユーザ１０が音声入力１０４を提供しなかった可能性が高いことを示すコンテンツメタデータ１１０を提供し、それによって、対応する自動音声認識ＡＳＲ要求１０２が真正である可能性が低いものとしてレンダリングしてもよい。ユーザ１０は、ログイン情報、アプリケーションの使用、および位置情報を提供することに明示的に同意することを要求されてもよい。

信号生成器２１８は、例えば、音声入力１０４がキャプチャ（捕捉）された時点でユーザ１０がユーザ装置２００と対話している可能性がどれだけ高いかを示すために、複数のソース２２０からのデータ／情報を活用して、ユーザ装置行動信号を備えているコンテンツメタデータ１１０を判定してもよい。例えば、１つまたは複数のセンサ２２０ｇからの情報は、ユーザ装置が上下逆さまになっているか、表向き（ｆａｃｅｄｏｗｎ）になっているか（例えば、ユーザ装置がスマートフォンやタブレットの場合）、ユーザ装置２００が引き出し／財布の中にあるか、などを示すことができる。これらのシナリオでは、ユーザ装置２００が誤ってトリガされた可能性が高い場合、それによって、対応する自動音声認識ＡＳＲ要求１０２が真正である可能性が低いと判定される。センサ２２０ｇからの情報は、さらに、ユーザ装置の位置（例えば、ＧＰＳセンサ２２０ｇから得られる）および／またはユーザ装置の２００のネットワーク接続の信号強度を備えてもよい。例えば、ユーザ装置２００の現在の信号強度が低く、（例えば、過去の知識に基づき）スポット的なセルカバレッジ（セル範囲）を有することで悪名高い場所にいることを示すユーザ装置行動信号は、自動音声認識ＡＳＲ要求１０２が真正であっても、ユーザ装置２００が問合せ処理スタックによって処理された対応する応答（例えば、自動音声認識ＡＳＲ出力および／またはテキスト音声合成ＴＴＳ応答）を受け取ることができない可能性が高いので、対応する自動音声認識ＡＳＲ要求１０２の優先順位付けにおいて、サービス品質ＱｏＳマネージャ３００にとって有用である。この状況では、問合せ処理スタック７００が高いトラフィックスパイクを経験しているとき、それぞれのユーザ装置２００に正常に返される可能性がより強い対応する応答を生成する他の保留中自動音声認識ＡＳＲ要求１０２を最初に処理することが有益であり得る。

信号生成器２１８は、例えば、ユーザ装置２００を取り巻く状況を評価および分析するために、複数のソース２２０からのデータ／情報を活用して、環境条件信号を備えているコンテンツメタデータ１１０を判定してもよい。具体的には、環境条件信号は、ユーザ装置２００を取り巻く環境条件を判定するために、１つまたは複数のセンサ２２０ｇを活用してもよい。例えば、環境条件信号は、ユーザ装置２００の近傍に複数のユーザ装置２００が存在することや、ユーザ装置２００が接続されているネットワークの条件（例えば、ネットワークが過負荷であること）、ユーザ装置２００のＧＰＳ座標、ユーザ装置２００が屋外に存在するかどうか、現在移動中であるかどうか、セルラーまたはデータの受信状態が悪いエリアに近づいているかどうか、などを示してもよい。

上述の備考で述べたように、ユーザ装置２００は、ネットワーク接続を必要とせずに低忠実度転写を迅速に生成するためのオンデバイス自動音声認識ＡＳＲモジュール２２０ｎ（例えば、ローカル問合せ処理スタック７００ｂ）を実行する能力を有してもよい。有利には、信号生成器２１８によって生成されたコンテンツメタデータ１１０は、自動音声認識ＡＳＲ要求１０２に関する潜在的に関連付けられた情報または詳細をサービス品質ＱｏＳマネージャ３００に提供するために、オンデバイス自動音声認識ＡＳＲモジュール２２０ｎによって生成された音声入力１０４の低忠実度転写を備えてもよい。ここで、低忠実度転写は、自動音声認識ＡＳＲ要求１０２が時間に敏感な音声問合せ（例えば、タイマーを１分間設定するコマンド）を備えていることを明らかにし、それによって、自動音声認識ＡＳＲ要求１０２が直ちに処理されるように、自動音声認識ＡＳＲ要求１０２に高い優先度スコア３１１を割り当てるようにサービス品質ＱｏＳマネージャ３００に通知することができる。この同じシナリオにおいて、自動音声認識ＡＳＲ要求１０２がバックログ３２０にキャッシュされた時点で、問合せ処理スタック７００ａが過負荷であり、完全な処理能力を有している場合、問合せ処理スタック７００ａは、自動音声認識ＡＳＲ要求１０２を直ちに処理（例えば、１分間のタイマーをセットする命令を送信）することができず、単に自動音声認識ＡＳＲ要求１０２をドロップし、オプションとして、要求を現時点で完了することができないことをユーザ１０に通知してもよい。自動音声認識ＡＳＲ要求１０２を提供してから時間が経過した後は、タイマーを短い時間に設定してもほとんど意味がないので、ユーザ１０にとってはこの方が好ましい。しかし、コマンドが１０分などのより長い持続時間のためにタイマーを設定した場合、問合せ処理スタック７００ａが自動音声認識ＡＳＲ要求１０２を処理できるようになるまで、自動音声認識ＡＳＲ要求１０２が保留されたままで前処理バックログ３２０にキャッシュされることが許容される可能性がある。それによって、タイマーを設定するための命令は、自動音声認識ＡＳＲ要求１０２が前処理バックログ３２０に保留されている間のトラフィックの増加によって引き起こされる待ち時間（レイテンシ）を、補償することができる。

示された例では、音声入力１０４に関連付けられたコンテンツメタデータ１１０を信号生成器２１８がコンパイルして生成した後、ユーザ装置２００は、自動音声認識ＡＳＲ要求１０２に含めるためのコンテンツメタデータ１１０を、対応する音声入力１０４およびオーディオデータ１０３とともに埋め込む。そして、ユーザ装置２００は、自動音声認識ＡＳＲ要求１０２をサービス品質ＱｏＳマネージャ３００に送信する。

図３Ａ～図３Ｃは、音声問合せサービス品質ＱｏＳマネージャ３００が、ユーザ装置２００から受け取った自動音声認識ＡＳＲ要求１０２にランキング３１２を割り当て、問合せ処理スタック７００の処理利用可能性に基づき、ランキング３１２の高い順から低い順に、自動音声認識ＡＳＲ要求１０２を問合せ処理スタック７００に提供する様子を示す概略図である。問合せ処理スタック７００は、限定されないが、自動音声認識ＡＳＲモジュール７１０（図１）、インタプリタモジュール７２０（図１）、またはテキスト音声合成ＴＴＳモジュール７３０（図１）の少なくとも１つを備えてもよい。図示の例では、問合せ処理スタック７００は、現在、問合せ処理スタック７００の過負荷の原因となる自動音声認識ＡＳＲ要求１０２の大きなトラフィックスパイクを経験している可能性がある。例えば、大規模なメディアイベント（例えば、スーパーボール）中に放映されるテレビコマーシャルは、ユーザ世帯のテレビ（例えば、非人間ソース１２）から出力されると、それらの世帯の音声対応ユーザ装置２００に、テレビから出力されたホットワードの検出後にキャプチャされたオーディオデータ１０３を備えている偽の自動音声認識ＡＳＲ要求１０２をトリガして生成させる、話されたホットワードを備えていることがある。

図３Ａを参照すると、前処理バックログ３２０は、音声問合せサービス品質ＱｏＳマネージャ３００のランカー３１０がユーザ装置２００から新規自動音声認識ＡＳＲ要求Ｄ１０２ｄを受け取ったときに、問合せ処理スタック７００によって処理されるのを待っている保留中自動音声認識ＡＳＲ要求Ａ１０２ａ、Ｂ１０２ｂ、Ｃ１０２ｃを備えている。ランカー３１０は、新規自動音声認識ＡＳＲ要求Ｄ１０２ｄに関連付けられたコンテンツメタデータ１１０に基づき、新規自動音声認識ＡＳＲ要求Ｄ１０２ｄに対応する優先度スコア３１１を判定してもよい。新規自動音声認識ＡＳＲ要求Ｄ１０２ｄが受け取られた時点で、前処理バックログ３２０内の保留中自動音声認識ＡＳＲ要求１０２ａ、１０２ｂ、１０２ｃは、自動音声認識ＡＳＲ要求Ａ１０２ａが最も高いランキング３１２に関連付けられ、自動音声認識ＡＳＲ要求Ｃ１０２ｂが次に高いランキング３１２に関連付けられ、自動音声認識ＡＳＲ要求Ｂ１０２ｂが最も低いランキング３１２に関連付けられるように、優先度スコア３１１の順にランク付けされる。したがって、サービス品質ＱｏＳマネージャ３００が自動音声認識ＡＳＲ要求Ｂ１０２ｂを受け取った後に、自動音声認識ＡＳＲ要求Ｃ１０２ｃは対応するユーザ装置２００からサービス品質ＱｏＳマネージャ３００に受け取られた可能性があるが、ランカー３１０は、自動音声認識ＡＳＲ要求Ｂ１０２ｂに割り当てられたランク３１２よりも高いランク３１２を、自動音声認識ＡＳＲ要求Ｃ１０２ｃに割り当てる。前処理バックログ３２０は、問合せ処理スタック７００によって処理されるのを待っている、優先度スコア３１１の順にランク付けされた数千から数百万の保留中自動音声認識ＡＳＲ要求１０２を備えていることができる。引き続き図３Ａを参照すると、前処理バックログ３２０は、保留中自動音声認識ＡＳＲ要求Ａ１０２ａ、Ｃ１０２ｃ、Ｂ１０２ｂのリスト３２２をランカー３１０に提供し、ランカー３１０は、保留中自動音声認識ＡＳＲ要求Ａ１０２ａ、Ｃ１０２ｃ、Ｂ１０２ｂを、優先度スコアに基づき、新規自動音声認識ＡＳＲ要求Ｄ１０２ｄとともに再ランク付けする。

いくつかの実装では、ランカー３１０は、タイムアウト閾値を満たす期間、前処理バックログ３２０に存在する保留中自動音声認識ＡＳＲ要求１０２を、問合せ処理スタック７００（例えば、バックエンド側自動音声認識ＡＳＲモジュール７１０）によって処理されることを拒否する。図３Ｂは、保留中自動音声認識ＡＳＲ要求Ｂ１０２ｂがタイムアウト閾値を満たしているので、保留中自動音声認識ＡＳＲ要求Ｂ１０２ｂが問合せ処理スタック７００によって処理されることを、ランカー３１０が拒否する様子を示している。例えば、保留中自動音声認識ＡＳＲ要求Ｂ１０２ｂは、自動音声認識ＡＳＲ要求Ｂ１０２ｂがリスト３２２の最下部に留まる結果となるような低い優先度スコア３１１を備えていたので、時間的に後から新規自動音声認識ＡＳＲ要求１０２が受け取られても、自動音声認識ＡＳＲ要求Ｂ１０２ｂが処理されることはなかったのかもしれない。したがって、自動音声認識ＡＳＲ要求Ｂ１０２ｂは、前処理バックログ３２０から脱落する。図３Ｂはさらに、ランカー３１０が、新規自動音声認識ＡＳＲ要求Ｄ１０２ｄが、保留中自動音声認識ＡＳＲ要求Ｃ１０２ｃの優先度スコア３１１よりも高く、保留中自動音声認識ＡＳＲ要求Ａ１０２ａの優先度スコアよりも低い優先度スコア３１１を備えていると判定する様子を示す。このように、ランカー３１０は、自動音声認識ＡＳＲ要求Ａ１０２ａが依然として最高のランキング３１２に関連付けられ、自動音声認識ＡＳＲ要求Ｄ１０２ｄが次に高いランキング３１２に関連付けられ、自動音声認識ＡＳＲ要求Ｃ１０２ｃが最も低いランキング３１２に関連付けられるような、保留中自動音声認識ＡＳＲ要求Ａ１０２ａ、Ｄ１０２ｄ、Ｃ１０２ｃの再ランク付けされたリスト３２２を前処理バックログ３２０に提供する。したがって、保留中自動音声認識ＡＳＲ要求１０２のリスト３２２において自動音声認識ＡＳＲ要求Ｃ１０２ｃよりも上位にランクされた新規自動音声認識ＡＳＲ要求Ｄ１０２ｄは、問合せ処理スタック７００による処理のために、バックログ３２０において自動音声認識ＡＳＲ要求Ｃ１０２ｃよりも優先される結果となる。しかしながら、自動音声認識ＡＳＲ要求Ａ１０２ａは、問合せ処理スタック７００による処理のために、新規自動音声認識ＡＳＲ要求Ｄ１０２ｄよりも優先される。

図３Ｃを参照すると、問合せ処理スタック７００は、前処理バックログ３２０にキャッシュされた次の保留中自動音声認識ＡＳＲ要求１０２を処理するために利用可能である。自動音声認識ＡＳＲ要求Ａ１０２ａは、前処理バックログ３２０において処理を待っている保留中自動音声認識ＡＳＲ要求１０２のリスト３２２における最高位３１２に関連付けられているので、前処理バックログ３２０は、自動音声認識ＡＳＲ要求Ａ１０２ａを処理のために問合せ処理スタック７００に提供する。したがって、自動音声認識ＡＳＲ要求Ａ１０２ａは、バックログ３２０および保留中自動音声認識ＡＳＲ要求１０２のリスト３２２から削除される。

自動音声認識ＡＳＲ要求Ａ１０２ａが処理のために問合せ処理スタック７００に提供されるのと同時に、音声問合せサービス品質ＱｏＳマネージャ３００のランカー３１０は、対応するユーザ装置２００から新規自動音声認識ＡＳＲ要求Ｅ１０２ｅを受け取り、フィードバックとして、前処理バックログ３２０から保留中自動音声認識ＡＳＲ要求Ｄ１０２ｄ，Ｃ１０２ｃのリスト３２２を受け取る。ここで、ランカー３１０は、新規自動音声認識ＡＳＲ要求Ｅ１０２ｅに関連付けられたコンテンツメタデータ１１０に基づき、新規自動音声認識ＡＳＲ要求Ｅ１０２ｅに対応する優先度スコア３１１を判定し、優先度スコアに基づき、新規自動音声認識ＡＳＲ要求Ｅ１０２ｅとともに保留中自動音声認識ＡＳＲ要求Ｄ１０２ｄ、Ｃ１０２ｃを再ランク付けしてもよい。新規自動音声認識ＡＳＲ要求１０２が受け取られると、前処理バックログ３２０内の保留中自動音声認識ＡＳＲ要求１０２の連続的な再順位付けは、反復処理であり、問合せ処理スタック７００の処理利用可能性に依存する。

図４は、サービス品質ＱｏＳマネージャ３００がユーザ装置２００にオンデバイス処理命令４２０を通信している概略図（４００）を示しており、これによって、ユーザ装置２００は、高負荷条件が問合せ処理スタックに存在する場合に、処理のために自動音声認識ＡＳＲ要求１０２を問合せ処理スタック７００（例えば、問合せ処理バックエンド）に送信するか否かを判定することができる。高負荷状態は、処理のために問合せ処理スタック７００に送信された自動音声認識ＡＳＲ要求１０２の数が大きくトラフィックスパイクしたことで、問合せ処理スタック７００ａが過負荷状態にあることを示してもよい。サービス品質ＱｏＳマネージャ３００は、問合せ処理スタック７００ａが処理を担当する音声対応ユーザ装置２００の集団のすべて、または選択されたサブセットに、オンデバイス処理命令４２０を提供してもよい。或るデバイスタイプ（例えば、スマートスピーカ）に関連付けられたユーザ装置２００は、別のデバイスタイプ（例えば、スマートフォン）に関連付けられたユーザ装置２００とは異なる自動音声認識ＡＳＲ要求命令４２０を受け取ってもよい。オンデバイス処理命令４２０は、問合せ処理スタック７００ａが過負荷であるとユーザ装置２００が判定した場合に、オンデバイスでユーザ装置２００によってキャプチャされた任意の新規音声入力１０４の少なくとも一部をローカルに（例えば、オンデバイスの問合せ処理スタック７００ｂで）処理するための１つまたは複数の基準を提供してもよい。

オンデバイス処理命令４２０は、自動音声認識ＡＳＲ要求１０２に関連付けられたコンテンツメタデータ１１０に基づき、問合せ処理スタック７００ａが過負荷であるときに、自動音声認識ＡＳＲ要求１０２を問合せ処理スタック７００ａに送信するための基準を提供してもよい。いくつかの実装では、オンデバイス処理命令４２０は、高負荷状態中にユーザ装置２００が問合せ処理スタック７００ａに自動音声認識ＡＳＲ要求１０２を送信するために、コンテンツメタデータ１１０の対応する部分が満たさなければならない１つまたは複数の閾値を提供する。例えば、オンデバイス処理命令４２０は、ホットワード信頼度スコアが満たさなければならないホットワード信頼度スコア閾値、および／または、音声入力１０４の音声品質スコアが満たさなければならない音声品質スコア閾値を提供してもよい。ユーザ装置２００は通常、デフォルトの閾値を適用するが、オンデバイス処理命令４２０で提供される閾値は、真正（ｇｅｎｕｉｎｅ）である（またはユーザに高い影響を与える）信頼度が高い自動音声認識ＡＳＲ要求１０２のみが処理のために問合せ処理スタック７００ａに送られるように、より保守的であってもよい。一例では、ユーザ装置２００は、通常、０．６８よりも大きいホットワード信頼度スコアに関連付けられた自動音声認識ＡＳＲ要求１０２を、処理のために問合せ処理スタック７００ａに送ってもよい。しかし、問合せ処理スタック７００ａが過負荷である場合、オンデバイス処理命令４２０は、処理のために問合せ処理スタック７００ａに送られるためには、自動音声認識ＡＳＲ要求１０２が少なくとも０．８のホットワード信頼度スコアに関連付けられなければならないことを示してもよい。オンデバイス処理命令４２０はさらに、閾値の少なくとも１つが不満足である場合に、自動音声認識ＡＳＲ要求１０２をドロップするようにユーザ装置２００に指示してもよい。サービス品質ＱｏＳマネージャ３００は、高負荷条件が存在するときにはいつでもオンザフライでオンデバイス処理命令４２０を送信してもよいし、サービス品質ＱｏＳマネージャ３００は、後の時点で高負荷条件が発生したときにユーザ装置２００がオンデバイス処理命令４２０を適用／実行できるように、いつでもユーザ装置２００にオンデバイス処理命令４２０を送信してもよい。音声品質閾値も同様に、問合せ処理スタック７００ａが過負荷であるときに、オンデバイス処理命令４２０によって定義された閾値を満たさない音声品質を有する自動音声認識ＡＳＲ要求１０２をフィルタリングする際に、ユーザ装置２００が使用するために提供されることができる。

示されている例では、ユーザ装置２００は、音声入力１０４をキャプチャし、音声入力１０４に関連付けられたコンテンツメタデータ１１０を生成する。例えば、ユーザ装置２００は、ソース２２０の１つまたは複数から得られた情報／データに基づきコンテンツメタデータ１１０を生成するように構成された信号生成器２１８を実行する。ユーザ装置２００によって生成されるコンテンツメタデータ１１０は、図２を参照して上述したとおりである。音声入力１０４および関連付けられたコンテンツメタデータ１１０を備えている対応する自動音声認識ＡＳＲ要求１０２を送信する（またはローカルに処理する）前に、ユーザ装置２００は、問合せ処理スタック７００ａに高負荷状態が存在するかどうかを判定してもよい。いくつかの例では、ユーザ装置２００は、問合せ処理スタック７００ａにおける過負荷状態の存在を示す通知４１０（例えば、過負荷状態ステータス通知）を、サービス品質ＱｏＳマネージャ３００からオンザフライで受け取る。さらにまたは代替として、ユーザ装置２００は、問合せ処理スタック７００ａにおける過去および／または予測された過負荷状態のスケジュールを備えている通知４１０を受け取ってもよい。ユーザ装置２００は、このスケジュールをメモリハードウェア２０６に格納してもよい。

他の例では、ユーザ装置２００は、ユーザ装置２００によって問合せ処理スタック７００ａに通信された以前の自動音声認識ＡＳＲ要求１０２に関連付けられた履歴データ２５０（例えば、自動音声認識ＡＳＲ要求履歴）を取得することで、問合せ処理スタック７００ａに過負荷状態が存在することを判定する。履歴データ２５０は、ユーザ装置２００のメモリハードウェア２０６に記憶されてもよい（または、リモートで記憶されてもよい）。履歴データ２５０は、問合せ処理スタック７００ａが過負荷になったシナリオをユーザ装置２００および／または他のユーザ装置２００が経験した特定の日付、曜日、時間などを示してもよい。例えば、過去２週間にわたって、毎週平日の夜７時３６分頃に、ユーザ装置２００は、問合せ処理スタックで過負荷状態を経験している。この例では、番組ショー「Ｊｅｏｐａｒｄｙ」（ジョパーディ）中のテレビコマーシャルが、指定されたホットワード（「ＨｅｙＧｏｏｇｌｅ」（ヘイ、グーグル））に実質的に類似して聞こえる訛りのある俳優によって話されるフレーズ（「Ｈｅｙｐｏｏｄｌｅ」（ヘイ、プードル））を含んでいる可能性があり、その結果、多数（数千）の家庭で音声対応装置が誤ってトリガされた。

さらに、オンデバイス処理命令４２０は、問合せ処理スタック７００ａが過負荷であるとユーザ装置２００が判定した場合に、ユーザ装置２００によってキャプチャされた任意の新規音声入力１０４の少なくとも一部をオンデバイスでローカルに処理するための１つまたは複数の基準（クライテリア）を提供してもよい。例えば、任意の新規音声入力１０４の少なくとも一部をローカルに処理するための１つまたは複数の基準は、ユーザ装置２００に常駐するローカル自動音声認識ＡＳＲモジュール２００ｎ（例えば、利用可能な場合）を使用して新規音声入力１０４を転写することと、新規音声入力１０４に対応する音声問合せを判定するために新規音声入力１０４の転写（トランスクリプション）を解釈（インタプリト）することと、新規音声入力１０４に対応する音声問合せに関連付けられたアクションをユーザ装置２００が実行できるかどうかを判定することと、または音声問合せに関連付けられたアクションをユーザ装置２００が実行できない場合に、音声入力１０４の転写を問合せ処理スタック７００ａに送信することと、のうちの少なくとも１つをユーザ装置２００に指示することを備えてもよい。いくつかの実装では、オンデバイス処理命令４２０によって提供される１つまたは複数の基準は、問合せ処理スタック７００ａが他の部分を処理している間に、ユーザ装置２００によるローカル処理のために自動音声認識ＡＳＲ要求１０２の一部の部分を委ねる（ｄｅｌｅｇａｔｅ）。例えば、問合せ処理スタック７００ａが自動音声認識ＡＳＲ応答をテキストでユーザ装置２００に提供できるように、ユーザ装置２００がクライアント側テキスト音声合成ＴＴＳモジュールを備えており、ユーザ装置２００は、クライアント側テキスト音声合成ＴＴＳモジュールを使用して対応する合成音声を生成してもよい。このシナリオは、サーバ側の問合せ処理スタック７００ａが、過負荷状態中にテキスト音声合成ＴＴＳ応答を生成する必要性を軽減（ａｌｌｅｖｉａｔｅ）するであろう。

図５は、問合せ処理スタック７００ａでの処理の可用性に基づき、問合せ処理スタック７００ａ（例えば、問合せ処理スタック７００ａのバックエンド側自動音声認識ＡＳＲモジュール７１０ａ）で保留中自動音声認識ＡＳＲ要求１０２を処理する方法５００の動作の例示的な配置のフローチャートである。動作５０２において、方法５００は、問合せ処理スタック７００ａ（例えば、問合せ処理バックエンド）のデータ処理ハードウェア１４４において、ユーザ装置２００から自動音声認識ＡＳＲ要求１０２を受け取ることを備えている。自動音声認識ＡＳＲ要求１０２は、音声問合せを備えてユーザ装置２００によってキャプチャされた音声入力１０４と、音声入力１０４に関連付けられたコンテンツメタデータ１１０とを備えている。コンテンツメタデータ１１０は、図２を参照して上述したように、ユーザ装置２００によって生成される。動作５０４において、方法５００は、データ処理ハードウェア１４４によって、音声入力に関連付けられたコンテンツメタデータ１１０に基づき、自動音声認識ＡＳＲ要求１０２の優先度スコア３１１を判定する工程を備えている。

動作５０６において、方法５００は、データ処理ハードウェア１４４によって、自動音声認識ＡＳＲ要求１０２を、それぞれが対応する優先度スコア３１１を有する保留中自動音声認識ＡＳＲ要求１０２の前処理バックログ３２０にキャッシュする工程を備えている。前処理バックログ３２０内の保留中自動音声認識ＡＳＲ要求１０２は、図３Ａ～図３Ｃを参照して上述したように、優先度スコア３１１の順にランク付けされる。前処理バックログ３２０は、リモートシステム１４０の記憶リソース（例えば、メモリハードウェア）１４６上に存在してもよい。動作５０８において、方法５００は、データ処理ハードウェア１４４によって、バックエンド側自動音声認識ＡＳＲモジュール７１０の処理可用性に基づき、前処理バックログ３２０からバックエンド側自動音声認識ＡＳＲモジュール７１０（または、問合せ処理スタック７００ａにおける他のモジュール）に、保留中自動音声認識ＡＳＲ要求１０２のうちの１つまたは複数を提供することを備えている。図３Ａ～図３Ｃを参照して上述したように、より高い優先度スコア３１１に関連付けられたバックログ３２０内の保留中自動音声認識ＡＳＲ要求１０２は、より低い優先度スコア３１１に関連付けられた保留中自動音声認識ＡＳＲ要求１０２の前に、バックエンド側自動音声認識ＡＳＲモジュール７１０によって処理される。

図６は、サーバベースの問合せ処理スタック７００ａが過負荷である（例えば、スタック７００ａに過負荷状態が存在する）場合に、オンデバイス処理命令を実行する方法６００の動作の例示的な配置のフローチャートである。方法６００は、ユーザ装置２００のデータ処理ハードウェア２０４上で実行されてもよい。動作６０２において、方法６００は、ユーザ装置２００で自動音声認識ＡＳＲ要求１０２を生成することを備えている。ここで、自動音声認識ＡＳＲ要求１０２は、音声問合せを備えてユーザ装置２００によってキャプチャされた音声入力１０４と、ユーザ装置２００によって生成されて音声入力１０４に関連付けられたコンテンツメタデータ１１０とを備えている。音声入力１０４に関連付けられたコンテンツメタデータ１１０を生成することは、図２を参照して上述したとおりである。動作６０４において、本方法は、ユーザ装置２００において、サーバ側問合せ処理スタック７００ａからオンデバイス処理命令４２０を受け取ることを備えている。例えば、図４は、ユーザ装置２００がオンデバイス処理命令４２０を受け取る様子を示している。オンデバイス処理命令４２０は、自動音声認識ＡＳＲ要求１０２に関連付けられたコンテンツメタデータ１１０に基づき、問合せ処理スタック７００ａが過負荷である場合に、自動音声認識ＡＳＲ要求１０２を問合せ処理スタック７００ａに送信するための基準を提供してもよい。いくつかの実装では、オンデバイス処理命令４２０は、過負荷状態中にユーザ装置２００が自動音声認識ＡＳＲ要求１０２を問合せ処理スタック７００ａに送信するために、コンテンツメタデータ１１０の対応する部分が満たさなければならない１つまたは複数の閾値を提供する。

動作６０６において、方法６００は、ユーザ装置２００によって、サーバ側問合せ処理スタック７００ａが過負荷であるかどうかを判定することも備えている。図４を参照してより詳細に上述したように、ユーザ装置２００は、ユーザ装置２００（および／または他のユーザ装置）によって問合せ処理スタック７００ａに通信された以前の自動音声認識ＡＳＲ要求に関連付けられた履歴データ２５０（例えば、予測ベース）の少なくとも１つに基づき、または問合せ処理スタック７００ａから通知４１０を受け取ったときに、過負荷状態を判定してもよい。通知４１０ａは、問合せ処理スタック７００ａにおける過去および／または予測された過負荷状態のスケジュール、および／または、現在の過負荷状態を示すために問合せ処理スタック７００ａによってオンザフライで送信される過負荷状態のステータス通知を備えてもよい。動作６０８において、問合せ処理スタック７００ａが過負荷であるとユーザ装置２００が判定した場合、方法６００は、ユーザ装置２００によって、オンデバイス処理命令４２０を実行することを備えている。ユーザ装置２００によるオンデバイス処理命令４２０の実行は、図４を参照して上述したとおりである。

ソフトウェアアプリケーション（すなわち、ソフトウェアリソース）は、計算装置にタスクを実行させるコンピュータソフトウェアを指すことがある。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれることがある。アプリケーションの例としては、システム診断アプリケーション、システム管理アプリケーション、システムメンテナンスアプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、ゲームアプリケーションなどがあるが、これらに限定されない。

非一時的メモリは、計算装置で使用するためのプログラム（例えば、一連の命令）またはデータ（例えば、プログラム状態情報）を一時的または永久的に保存するために使用される物理デバイスであってもよい。非一時的メモリは、揮発性および／または不揮発性のアドレス可能な半導体メモリであってよい。不揮発性メモリの例としては、フラッシュメモリ、リードオンリーメモリ（ＲＯＭ）／プログラマブルリードオンリーメモリ（ＰＲＯＭ）／消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ）／電子的消去可能プログラマブルリードオンリーメモリ（ＥＥＰＲＯＭ）（例えば、ブートプログラムなどのファームウェアに典型的に使用される）などがあるが、これらに限定されない。揮発性メモリの例としては、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、フェイズチェンジメモリ（ＰＣＭ）のほか、ディスクやテープなどが挙げられるが、これらに限定されるものではない。

図７は、本書で説明したシステムおよび方法を実施するために使用することができる例示的な計算装置７００の概略図である。計算装置７００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図している。ここに示されている構成要素、それらの接続および関係、ならびにそれらの機能は、例示的なものであることを意図しており、本書に記載および／または請求されている発明の実施を制限することを意図していない。

計算装置７００は、プロセッサ７１１（例えば、データ処理ハードウェア１４４）と、メモリ７２１（例えば、メモリハードウェア１４６）と、記憶装置７３１と、メモリ７２１および高速拡張ポート７５０に接続する高速インタフェース／コントローラ７４０と、低速バス７７０および記憶装置７３１に接続する低速インタフェース／コントローラ７６０とを備えている。構成要素７１１、７２１、７３１、７４０、７５０、７６０のそれぞれは、各種バスを用いて相互に接続されており、共通のマザーボードに搭載されていてもよいし、適宜他の態様で搭載されていてもよい。プロセッサ７１１は、高速インタフェース７４０に結合されたディスプレイ７８０などの外部入出力デバイスにグラフィカルユーザインタフェース（ＧＵＩ）のためのグラフィカル情報を表示するために、メモリ７２１または記憶装置７３１に記憶された命令を備えている、計算装置７００内で実行するための命令を処理することができる。他の実装では、複数のプロセッサおよび／または複数のバスが、複数のメモリおよびメモリの種類とともに、適宜使用されてもよい。また、複数の計算装置７００が接続され、各デバイスは、必要な動作の一部を提供してもよい（例えば、サーババンク、ブレードサーバ群、またはマルチプロセッサシステムとして）。

メモリ７２１は、計算装置７００内の情報を非一時的に格納する。メモリ７２１は、コンピュータ可読媒体、揮発性メモリユニット（複数可）、または不揮発性メモリユニット（複数可）であってもよい。非一時的メモリ７２１は、計算装置７００による使用のために、プログラム（例えば、命令のシーケンス）またはデータ（例えば、プログラムの状態情報）を一時的または永久的に格納するために使用される物理デバイスであってもよい。不揮発性メモリの例としては、フラッシュメモリおよびリードオンリーメモリ（ＲＯＭ）／プログラマブルリードオンリーメモリ（ＰＲＯＭ）／消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ）／電子的消去可能プログラマブルリードオンリーメモリ（ＥＥＰＲＯＭ）（例えば、ブートプログラムなどのファームウェアに典型的に使用される）などが挙げられるが、これらに限定されない。揮発性メモリの例としては、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＰＣＭ（ＰｈａｓｅＣｈａｎｇｅＭｅｍｏｒｙ）のほか、ディスクやテープなどが挙げられるが、これらに限定されるものではない。

記憶装置７３１は、計算装置７００に大容量の記憶を提供することができる。いくつかの実施態様において、記憶装置７３１は、コンピュータ可読媒体である。様々な異なる実装において、記憶装置７３１は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリまたは他の同様のソリッドステートメモリデバイス、または、ストレージエリアネットワークまたは他の構成のデバイスを備えているデバイスのアレイであってもよい。追加の実装では、コンピュータプログラム製品が、情報キャリアに有形的に具現化される。コンピュータプログラム製品は、実行されると上述したような１つまたは複数の方法を実行する命令を備えている。情報担体は、メモリ７２１、記憶装置７３１、またはプロセッサ７１１上のメモリのような、コンピュータ可読媒体または機械可読媒体である。

高速コントローラ７４０は、計算装置７００のための帯域幅集中型の動作を管理し、低速コントローラ７６０は、より低い帯域幅集中型の動作を管理する。このような職務の割り当ては、例示的なものに過ぎない。いくつかの実装では、高速コントローラ７４０は、メモリ７２１に、ディスプレイ７８０（例えば、グラフィックプロセッサまたはアクセラレータを介して）に、および、様々な拡張カード（図示せず）を受け入れ得る高速拡張ポート７５０に結合される。いくつかの実装では、低速コントローラ７６０は、記憶装置７３１および低速拡張ポート７９０に結合される。様々な通信ポート（例えば、ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ、イーサネット、ワイヤレスイーサネット）を備えてもよい低速拡張ポート７９０は、キーボード、ポインティングデバイス、スキャナ、またはスイッチやルータなどのネットワークデバイスなどの１つまたは複数の入出力デバイスに、例えばネットワークアダプタを介して結合されてもよい。

計算装置７００は、図に示すように、いくつかの異なる形態で実装されてもよい。例えば、標準的なサーバ７００ａまたはそのようなサーバ７０１のグループにおける複数倍として、ラップトップコンピュータ７０３として、またはラックサーバシステム７０５の一部として、実装されてもよい。

本明細書に記載のシステムおよび技術の様々な実装は、デジタル電子および／または光学回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現することができる。これらの様々な実装は、データおよび命令を記憶システムから受け取り、データおよび命令を記憶システムに送信するように結合された、特殊目的または汎用の少なくとも１つのプログラマブルプロセッサ、少なくとも１つの入力装置、および少なくとも１つの出力装置を備えているプログラマブルシステム上で実行可能および／または解釈可能な１つまたは複数のコンピュータプログラムでの実装を備えていることができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる）は、プログラマブルプロセッサのための機械命令を備えており、高レベルの手続き型および／またはオブジェクト指向のプログラミング言語、および／またはアセンブリ／機械言語で実装することができる。本明細書において、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号として機械命令を受け取る機械可読媒体を備えている、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、非一時的なコンピュータ可読媒体、装置および／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を意味する。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

本明細書に記載されている処理および論理フローは、データ処理ハードウェアとも呼ばれる１つまたは複数のプログラマブルプロセッサが、１つまたは複数のコンピュータプログラムを実行して、入力データを操作して出力を生成することで機能を実行することができる。また、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）やＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などの特殊な論理回路によっても処理や論理フローを実行することができる。コンピュータプログラムの実行に適したプロセッサには、一例として、汎用および特殊目的のマイクロプロセッサ、および任意の種類のデジタルコンピュータの任意の１つまたは複数のプロセッサが含まれる。一般に、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリ、あるいはその両方から命令とデータを受け取る。コンピュータの本質的な要素は、命令を実行するためのプロセッサと、命令やデータを格納するための１つまたは複数のメモリデバイスである。一般に、コンピュータは、データを格納するための１つまたは複数の大容量記憶装置、例えば、磁気ディスク、光磁気ディスク、または光ディスクを備えているか、またはデータを受け取ったり転送したりするように動作可能にそれら大容量記憶装置に結合されるか、またはその両方である。しかし、コンピュータはそのようなデバイスを持っている必要はない。コンピュータプログラムの命令やデータを格納するのに適したコンピュータ可読媒体には、あらゆる形態の不揮発性メモリ、メディア、およびメモリデバイスが含まれ、例として、半導体メモリデバイス、例えばＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス、磁気ディスク、例えば内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、およびＣＤ－ＲＯＭおよびＤＶＤ－ＲＯＭディスクが挙げられる。プロセッサとメモリは、特別な目的の論理回路によって補完されるか、またはそれに組み込まれることができる。

ユーザとの対話を提供するために、本開示の１つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、例えばＣＲＴ（陰極管）、ＬＣＤ（液晶ディスプレイ）モニタ、またはタッチ画面と、任意でユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、例えばマウスまたはトラックボールとを有するコンピュータ上で実装することができる。ユーザとの対話を同様に提供するために他の種類の装置も使用されることができ、例えば、ユーザに提供されるフィードバックは、視覚的なフィードバック、聴覚的なフィードバック、触覚的なフィードバックなど、あらゆる形態の感覚的なフィードバックであり、ユーザからの入力は、音響的な入力、音声的な入力、触覚的な入力など、あらゆる形態で受け取ることができる。さらに、コンピュータは、ユーザが使用するデバイスにドキュメントを送信したり、デバイスからドキュメントを受け取ったりすることで、ユーザと対話することができる。例えば、ウェブブラウザから受け取った要求に応答して、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することで、ユーザと対話することができる。

多数の実施例を説明してきた。それにもかかわらず、本開示の精神および範囲から逸脱することなく、様々な変更を行うことができることが理解されるであろう。したがって、他の実装は、以下の請求項の範囲内である。

Claims

問合せ処理バックエンドのデータ処理ハードウェアにおいて、ユーザ装置から自動音声認識ＡＳＲ要求を受け取る工程であって、前記自動音声認識ＡＳＲ要求は、音声問合せを備えて前記ユーザ装置によってキャプチャされた音声入力と、前記音声入力に関連付けられて前記ユーザ装置によって生成されたコンテンツメタデータとを備えている、前記受け取る工程と、
前記データ処理ハードウェアによって、前記音声入力に関連付けられたコンテンツメタデータに基づき、前記自動音声認識ＡＳＲ要求の優先度スコアを判定する工程と、
前記データ処理ハードウェアによって、それぞれが対応する前記優先度スコアを有する保留中自動音声認識ＡＳＲ要求の前処理バックログに、前記自動音声認識ＡＳＲ要求をキャッシュする工程であって、前記前処理バックログにおける前記保留中自動音声認識ＡＳＲ要求は前記優先度スコアの順にランク付けされる、前記自動音声認識ＡＳＲ要求をキャッシュする工程と、
前記データ処理ハードウェアによって、前記前処理バックログから、バックエンド側自動音声認識ＡＳＲモジュールの処理可能性に基づき、前記保留中自動音声認識ＡＳＲ要求のうちの１つまたは複数を前記バックエンド側自動音声認識ＡＳＲモジュールに提供する工程であって、より高い前記優先度スコアに関連付けられた前記保留中自動音声認識ＡＳＲ要求は、より低い前記優先度スコアに関連付けられた前記保留中自動音声認識ＡＳＲ要求よりも先に、前記バックエンド側自動音声認識ＡＳＲモジュールによって処理される、前記保留中自動音声認識ＡＳＲ要求のうちの１つまたは複数を前記バックエンド側自動音声認識ＡＳＲモジュールに提供する工程と、
を備えている、方法。
前記バックエンド側自動音声認識ＡＳＲモジュールは、前記保留中自動音声認識ＡＳＲ要求の前記前処理バックログから各前記保留中自動音声認識ＡＳＲ要求を受け取る工程に応答して、前記保留中自動音声認識ＡＳＲ要求を処理して、前記保留中自動音声認識ＡＳＲ要求に関連付けられた対応する前記音声入力に対する自動音声認識ＡＳＲ結果を生成するように構成される、
請求項１に記載の方法。
前記方法はさらに、前記保留中自動音声認識ＡＳＲ要求の前記前処理バックログに１つまたは複数の新規自動音声認識ＡＳＲ要求をキャッシュする工程に応答して、前記データ処理ハードウェアによって、前記前処理バックログの前記保留中自動音声認識ＡＳＲ要求を前記優先度スコアの順に再ランク付けする工程を備えている、
請求項１または２に記載の方法。
前記方法はさらに、タイムアウト閾値を満たす期間、前記データ処理ハードウェアによって、前記前処理バックログに存在する前記保留中自動音声認識ＡＳＲ要求が前記バックエンド側自動音声認識ＡＳＲモジュールによって処理されることを拒否する工程を備えている、
請求項１～３のいずれか一項に記載の方法。
前記方法はさらに、優先度スコア閾値よりも小さいそれぞれの前記優先度スコアを有する新規自動音声認識ＡＳＲ要求を受け取る工程に応答して、前記データ処理ハードウェアによって、前記新規自動音声認識ＡＳＲ要求が前記バックエンド側自動音声認識ＡＳＲモジュールによって処理されることを拒否する工程を備えている、
請求項１～４のいずれか一項に記載の方法。
前記音声入力に関連付けられた前記コンテンツメタデータは、対応する前記自動音声認識ＡＳＲ要求が前記バックエンド側自動音声認識ＡＳＲモジュールによって正常に処理される可能性を表している、
請求項１～５のいずれか一項に記載の方法。
前記音声入力に関連付けられたコンテンツメタデータは、対応する前記自動音声認識ＡＳＲ要求の処理が、前記ユーザ装置に関連付けられたユーザに影響を与える可能性を表す、
請求項１～６のいずれか一項に記載の方法。
前記音声入力に関連付けられて前記ユーザ装置によって生成された前記コンテンツメタデータは、
前記ユーザ装置に関連付けられたユーザが、前記ユーザ装置にログインしているかどうかを示すログイン指標と、
前記ユーザ装置に関連付けられた話者プロファイルに前記音声入力が一致する可能性を示す、前記音声入力に対する話者識別スコアと、
前記音声入力が、非人間ソースから出力された放送音声または合成音声に対応する可能性を示す、前記音声入力に対する放送音声スコアと、
前記音声入力に含まれて前記音声問合せに先行する１つまたは複数の用語が、事前に定義されたホットワードに対応する可能性を示すホットワード信頼度スコアと、
前記ユーザ装置と前記問合せ処理バックエンドとの間でマルチターン相互作用が進行しているかどうかを示す活動指標と、
前記音声入力の音声信号スコアと、
前記ユーザ装置に対するユーザの相対的距離および相対的位置を示す空間－定位スコアと、
前記ユーザ装置に常駐するオンデバイスの自動音声認識ＡＳＲモジュールによって生成された前記音声入力のトランスクリプションと、
前記ユーザ装置の現在の行動を示すユーザ装置行動信号と、または
前記ユーザ装置に関連する現在の環境条件を示す環境条件信号と、
のうちの少なくとも１つを備えている、
請求項１～７のいずれか一項に記載の方法。
前記ユーザ装置は、音声発話中で前記音声問合せに先行する存在するホットワードを検出することに応答して、
前記音声問合せを備えている前記音声入力をキャプチャする工程と、
前記音声入力に関連付けられた前記コンテンツメタデータを生成する工程と、
対応する前記自動音声認識ＡＳＲ要求を前記データ処理ハードウェアに送信する工程と、
を行うように構成されている、
請求項１～８のいずれか一項に記載の方法。
前記音声入力はさらに、前記ホットワードを備えている、
請求項９に記載の方法。
前記方法はさらに、前記データ処理ハードウェアから、前記ユーザ装置にオンデバイス処理命令を送信する工程を備えており、
前記オンデバイス処理命令は、前記問合せ処理バックエンドが過負荷であると前記ユーザ装置が判定した場合に、オンデバイスで前記ユーザ装置によってキャプチャされた任意の新規音声入力の少なくとも一部をローカルに処理するための１つまたは複数の基準を提供する、
請求項１～１０のいずれか一項に記載の方法。
前記ユーザ装置は、
前記ユーザ装置によって前記データ処理ハードウェアに通信された、以前の自動音声認識ＡＳＲ要求に関連付けられた履歴データを取得する工程と、
前記データ処理ハードウェアから、前記問合せ処理バックエンドにおける過去および／または予測された過負荷状態スケジュールを受け取る工程と、または
オンザフライで前記データ処理ハードウェアから、前記問合せ処理バックエンドにおける現在の過負荷状態を示す過負荷状態ステータス通知を受け取る工程と、
のうちの少なくとも１つによって、前記問合せ処理バックエンドが過負荷であると判定するように構成されている、
請求項１１に記載の方法。
任意の前記新規音声入力の少なくとも一部をローカルに処理するための前記１つまたは複数の基準は、
オンザデバイスに常駐するローカル自動音声認識ＡＳＲモジュールを使用して、新規音声入力を転写する工程と、
前記新規音声入力に対応する音声問合せを判定するべく、前記新規音声入力のトランスクリプションを解釈する工程と、
前記新規音声入力に対応する前記音声問合せに関連付けられたアクションを、前記ユーザ装置が実行できるかどうかを判定する工程と、または
前記ユーザ装置が前記音声問合せに関連付けられた前記アクションを実行できない場合に、前記音声入力の前記トランスクリプションを前記問合せ処理バックエンドに送信する工程と、
のうちの少なくとも１つを前記ユーザ装置に指示する工程を備えている、
請求項１１または１２に記載の方法。
前記１つまたは複数の基準を提供する前記オンデバイス処理命令は、前記ユーザ装置が前記自動音声認識ＡＳＲ要求を前記問合せ処理バックエンドに送信するために、前記コンテンツメタデータの対応する部分が満たさなければならない１つまたは複数の閾値を備えている、
請求項１１～１３のいずれか一項に記載の方法。
前記オンデバイス処理命令はさらに、前記閾値のうちの少なくとも１つが満たされない場合に、前記自動音声認識ＡＳＲ要求をドロップするように前記ユーザ装置に指示する、
請求項１４に記載の方法。
問合せ処理バックエンドのデータ処理ハードウェアと、および
前記データ処理ハードウェアに通信し、前記データ処理ハードウェア上で実行されると、前記データ処理ハードウェアに以下の動作を行わせる命令を記憶するメモリハードウェアと
を備えているシステムであって、前記動作は、
ユーザ装置から自動音声認識ＡＳＲ要求を受け取る工程であって、前記自動音声認識ＡＳＲ要求は、音声問合せを備えて前記ユーザ装置によってキャプチャされた音声入力と、前記音声入力に関連付けられて前記ユーザ装置によって生成されたコンテンツメタデータとを備えている、前記受け取る工程と、
前記音声入力に関連付けられた前記コンテンツメタデータに基づき、前記自動音声認識ＡＳＲ要求の優先度スコアを判定する工程と、
それぞれが対応する前記優先度スコアを有する保留中自動音声認識ＡＳＲ要求の前処理バックログに、前記自動音声認識ＡＳＲ要求をキャッシュする工程であって、前記前処理バックログの前記保留中自動音声認識ＡＳＲ要求は前記優先度スコアの順にランク付けされる、前記キャッシュする工程と、
前記前処理バックログから、バックエンド側自動音声認識ＡＳＲモジュールの処理可能性に基づき、前記保留中自動音声認識ＡＳＲ要求のうちの１つまたは複数を前記バックエンド側自動音声認識ＡＳＲモジュールに提供する工程であって、より高い前記優先度スコアに関連付けられた前記保留中自動音声認識ＡＳＲ要求は、より低い前記優先度スコアに関連付けられた前記保留中自動音声認識ＡＳＲ要求よりも先に前記バックエンド側自動音声認識ＡＳＲモジュールによって処理される、前記提供する工程と、
を備えている、システム。
前記バックエンド側自動音声認識ＡＳＲモジュールは、保留中自動音声認識ＡＳＲ要求の前記前処理バックログから各保留中自動音声認識ＡＳＲ要求を受け取る工程に応答して、前記保留中自動音声認識ＡＳＲ要求を処理して、前記保留中自動音声認識ＡＳＲ要求に関連付けられた対応する前記音声入力に対する自動音声認識ＡＳＲ結果を生成するように構成されている、
請求項１６に記載のシステム。
前記動作はさらに、前記保留中自動音声認識ＡＳＲ要求の前記前処理バックログに１つまたは複数の新規自動音声認識ＡＳＲ要求をキャッシュする工程に応答して、前記前処理バックログの前記保留中自動音声認識ＡＳＲ要求を前記優先度スコアの順に再ランク付けする工程を備えている、
請求項１６または１７に記載のシステム。
前記動作はさらに、タイムアウト閾値を満たす期間、前記前処理バックログに存在する任意の前記保留中自動音声認識ＡＳＲ要求が、前記バックエンド側自動音声認識ＡＳＲモジュールによって処理されることを拒否する工程を備えている、
請求項１６～１８のいずれか一項に記載のシステム。
前記動作はさらに、優先度スコア閾値よりも小さいそれぞれの前記優先度スコアを有する新規自動音声認識ＡＳＲ要求を受け取る工程に応答して、前記新規自動音声認識ＡＳＲ要求が前記バックエンド側自動音声認識ＡＳＲモジュールによって処理されることを拒否する工程を備えている、
請求項１６～１９のいずれか一項に記載のシステム。
前記音声入力に関連付けられた前記コンテンツメタデータは、対応する前記自動音声認識ＡＳＲ要求が前記バックエンド側自動音声認識ＡＳＲモジュールによって正常に処理される可能性を表している、
請求項１６～２０のいずれか一項に記載のシステム。
前記音声入力に関連付けられた前記コンテンツメタデータは、対応する前記自動音声認識ＡＳＲ要求の処理が、前記ユーザ装置に関連付けられたユーザに影響を与える可能性を表す、
請求項１６～２１のいずれか一項に記載のシステム。
前記音声入力に関連付けられて前記ユーザ装置によって生成された前記コンテンツメタデータは、
前記ユーザ装置に関連付けられたユーザが、前記ユーザ装置にログインしているかどうかを示すログイン指標と、
前記ユーザ装置に関連付けられた話者プロファイルに前記音声入力が一致する可能性を示す、前記音声入力に対する話者識別スコアと、
前記音声入力が、非人間ソースから出力された放送音声または合成音声に対応する可能性を示す、前記音声入力に対する放送音声スコアと、
前記音声入力に含まれて前記音声問合せに先行する１つまたは複数の用語が、事前に定義されたホットワードに対応する可能性を示すホットワード信頼度スコアと、
前記ユーザ装置と前記問合せ処理バックエンドとの間でマルチターン相互作用が進行しているかどうかを示す活動指標と、
前記音声入力の音声信号スコアと、
前記ユーザ装置に対するユーザの相対的距離および相対的位置を示す空間－定位スコアと、
前記ユーザ装置に常駐するオンデバイスの自動音声認識ＡＳＲモジュールによって生成された前記音声入力のトランスクリプションと、
前記ユーザ装置の現在の行動を示すユーザ装置行動信号と、または
前記ユーザ装置に関連する現在の環境条件を示す環境条件信号と、
のうちの少なくとも１つを備えている、
請求項１６～２２のいずれか一項に記載のシステム。
前記ユーザ装置は、音声発話中で前記音声問合せに先行するホットワードを検出することに応答して、
前記音声問合せを備えている前記音声入力をキャプチャする工程と、
前記音声入力に関連付けられた前記コンテンツメタデータを生成する工程と、
対応する前記自動音声認識ＡＳＲ要求を前記データ処理ハードウェアに送信する工程と、
を行うように構成される、
請求項１６～２３のいずれか一項に記載のシステム。
前記音声入力はさらに、前記ホットワードを備えている、
請求項２４に記載のシステム。
前記動作はさらに、オンデバイス処理命令を前記ユーザ装置に送信する工程を備えており、
前記オンデバイス処理命令は、前記問合せ処理バックエンドが過負荷であると前記ユーザ装置が判定した場合に、オンデバイスで前記ユーザ装置によってキャプチャされた任意の新規音声入力の少なくとも一部をローカルに処理するための１つまたは複数の基準を提供する、
請求項１６～２５のいずれか一項に記載のシステム。
前記ユーザ装置は、
前記ユーザ装置によって前記データ処理ハードウェアに通信された、以前の前記自動音声認識ＡＳＲ要求に関連付けられた履歴データを取得する工程と、
前記データ処理ハードウェアから、前記問合せ処理バックエンドにおける過去および／または予測された過負荷状態スケジュールを受け取る工程と、または
オンザフライそ前記データ処理ハードウェアから、前記問合せ処理バックエンドにおける現在の過負荷状態を示す過負荷状態ステータス通知を受け取る工程と、
のうちの少なくとも１つによって、前記問合せ処理バックエンドが過負荷であると判定するように構成される、
請求項２６に記載のシステム。
任意の前記新規音声入力の少なくとも一部をローカルに処理するための前記１つまたは複数の基準は、
オンザデバイスに常駐するローカル自動音声認識ＡＳＲモジュールを使用して、新規音声入力を転写する工程と、
前記新規音声入力に対応する音声問合せを判定するべく、前記新規音声入力のトランスクリプションを解釈する工程と、
前記新規音声入力に対応する前記音声問合せに関連付けられたアクションを、前記ユーザ装置が実行できるかどうかを判定する工程と、または
前記ユーザ装置が前記音声問合せに関連付けられた前記アクションを実行できない場合に、前記音声入力の前記トランスクリプションを前記問合せ処理バックエンドに送信する工程と、
のうちの少なくとも１つを前記ユーザ装置に指示する工程を備えている、
請求項２６または２７に記載のシステム。
前記１つまたは複数の基準を提供する前記オンデバイス処理命令は、前記ユーザ装置が前記自動音声認識ＡＳＲ要求を前記問合せ処理バックエンドに送信するために、前記コンテンツメタデータの対応する部分が満たさなければならない１つまたは複数の閾値を備えている、
請求項２６～２８のいずれか一項に記載のシステム。
前記オンデバイス処理命令はさらに、前記閾値のうちの少なくとも１つが満たされない場合に、前記自動音声認識ＡＳＲ要求をドロップするように前記ユーザ装置に指示する、
請求項２９に記載のシステム。