JP2022040183A

JP2022040183A - コンピュータによるエージェントのための合成音声の選択

Info

Publication number: JP2022040183A
Application number: JP2021214388A
Authority: JP
Inventors: ヴァレリー・ニガールド; Nygaard Valerie; ボグダン・カプリタ; Caprita Bogdan; ロバート・ステッツ; Stets Robert; サーイシュレッシュ・クリシュナクマラン; Krishnakumaran Saisuresh; ジェイソン・ブラント・ダグラス; Brant Douglas Jason
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-10-03
Filing date: 2021-12-28
Publication date: 2022-03-10
Anticipated expiration: 2037-09-29
Also published as: JP7108122B2; EP4109375A1; CN109844855B; JP6882463B2; JP2020173462A; US20230274205A1; CN109804428A; JP2019535037A; WO2018067402A1; CN109804428B; EP3504705B1; KR20190054174A; WO2018067404A1; WO2018067403A1; JP7005694B2; EP3504705A1; CN109844855A; CN112071302A

Abstract

【課題】コンピュータによるエージェントのための合成音声の選択のための方法が提供される。
【解決手段】例示的な方法が、1つまたは複数のプロセッサにおいて実行されるコンピュータによるアシスタントによって、コンピューティングデバイスにおいて話された発話の表現を受け取るステップと、発話に基づいて複数のエージェントからエージェントを選択するステップであって、複数のエージェントが、1つまたは複数のファーストパーティエージェントおよび複数のサードパーティエージェントを含む、ステップと、選択されたエージェントがファーストパーティエージェントを含むとの判定に応じて、複数の音声から予約された音声を選択するステップと、発話を満足させるために選択された音声を使用して合成されたオーディオデータを出力するステップとを含む。
【選択図】図1

Description

関連出願
本出願は、2016年10月3日に出願した米国特許仮出願第62/403,665号の利益を主張するものであり、この仮出願の内容全体は、参照により本明細書に組み込まれる。

一部のコンピューティングプラットフォームは、アシスタントに有用な情報を出力させるか、ユーザのニーズに応えさせるか、またはそうでなければユーザがさまざまな現実のもしくは仮想的なタスクを完了するのを助けるための特定の動作を実行させるためにユーザが仮想的なコンピュータによるアシスタント(たとえば、「インテリジェントパーソナルアシスタント」または単に「アシスタント」とも呼ばれる)とチャットするか、話すか、またはその他の方法でコミュニケーションすることができるユーザインターフェースを提供する可能性がある。たとえば、コンピューティングデバイスが、ユーザの発話に対応する音声入力(たとえば、オーディオデータ)をマイクロフォンによって受け取る可能性がある。コンピューティングデバイスにおいて少なくとも部分的に実行されるアシスタントが、音声入力を分析し、発話によって示されたユーザのニーズに応えて、発話に基づいて有用な情報を出力することによって発話を満足させようと試みるか、またはそうでなければ発話に基づいてユーザがさまざまな現実のもしくは仮想的なタスクを完了するのを助けるための特定の動作を実行する可能性がある。

概して、本開示の技術は、ユーザが複数の仮想的なコンピュータによるエージェント/アシスタントとコミュニケーションすることを可能にし得る。たとえば、発話(たとえば、要求、質問、問い合わせ、注文など)に少なくともいくらか応えることができる可能性がある、コンピューティングデバイスを介してユーザが利用可能ないくつかのエージェントが存在する可能性がある。エージェントは、少なくともコンピューティングデバイスに合成されたオーディオデータを出力させることによって発話に応えるかまたはそうでなければユーザと会話する可能性がある。たとえば、エージェントは、コンピューティングデバイスが合成されたオーディオデータを生成するためにテキスト音声変換(TTS)を実行するテキストを提供する可能性がある。しかし、すべてのエージェントに関して同じ音声を使用して合成されたオーディオデータを生成させるのとは対照的に、異なるエージェントが異なる音声を使用することが望ましい可能性がある。このようにして、データの出力がデータ自体に基づいて適合される適応的なインターフェースが提供される。

本開示の1つまたは複数の技術によれば、エージェントは、コンピューティングデバイスに異なる音声を使用して合成されたオーディオデータを出力させる可能性がある。たとえば、第1のエージェントが、コンピューティングデバイスに第1の音声を使用して合成されたオーディオデータを出力させる可能性があり、第2のエージェントが、コンピューティングデバイスに第1の音声とは異なる第2の音声を使用して合成されたオーディオデータを出力させる可能性がある。異なるエージェントが特定のコンピューティングデバイスを介してユーザとコミュニケーションするときに異なる音声を使用することを可能にすることによって、ユーザは、ユーザがどのエージェントとコミュニケーションしているかをよりしっかりと把握する可能性がある。したがって、ユーザは、その処理が電力およびその他のシステムリソースを消費する発話の繰り返しの必要を避ける可能性がある。このようにして、本開示の技術は、エージェントのインタラクションの電力消費および/またはシステムリソースの要件を下げる可能性がある。

一例においては、方法が、1つまたは複数のプロセッサにおいて実行されるコンピュータによるアシスタントによって、コンピューティングデバイスにおいて話された発話の表現を受け取るステップと、発話に基づいて複数のエージェントからエージェントを選択するステップであって、複数のエージェントが、1つまたは複数のファーストパーティ(first party)エージェントおよび複数のサードパーティエージェントを含む、ステップと、選択されたエージェントがファーストパーティエージェントを含むとの判定に応じて、複数の音声から予約された音声を選択するステップと、発話を満足させるために、選択された音声を使用して、コンピューティングデバイスの1つまたは複数のスピーカによる再生のために、合成されたオーディオデータを出力するステップとを含む。

別の例においては、デバイスが、少なくとも1つのプロセッサと、実行されるときに、少なくとも1つのプロセッサに、コンピューティングデバイスに動作可能なように接続された1つまたは複数のマイクロフォンから、コンピューティングデバイスにおいて話された発話の表現を受け取ること、発話に基づいて複数のエージェントからエージェントを選択することであって、複数のエージェントが、1つまたは複数のファーストパーティエージェントおよび複数のサードパーティエージェントを含む、選択することを行うように構成されたアシスタントを実行させる命令を含む少なくとも1つのメモリとを含み、メモリは、実行されるときに、少なくとも1つのプロセッサに、選択されたエージェントがファーストパーティエージェントを含むとの判定に応じて、複数の音声から予約された音声を選択させ、発話を満足させるために、選択された音声を使用して、コンピューティングデバイスに動作可能なように接続された1つまたは複数のスピーカによる再生のために、合成されたオーディオデータを出力させる命令をさらに含む。

別の例においては、システムが、1つまたは複数の通信ユニットと、少なくとも1つのプロセッサと、実行されるときに、少なくとも1つのプロセッサに、コンピューティングデバイスに動作可能なように接続された1つまたは複数のマイクロフォンから、コンピューティングデバイスにおいて話された発話の表現を受け取ること、発話に基づいて複数のエージェントからエージェントを選択することであって、複数のエージェントが、1つまたは複数のファーストパーティエージェントおよび複数のサードパーティエージェントを含む、選択することを行うように構成されたアシスタントを実行させる命令を含む少なくとも1つのメモリとを含み、メモリは、実行されるときに、少なくとも1つのプロセッサに、選択されたエージェントがファーストパーティエージェントを含むとの判定に応じて、複数の音声から予約された音声を選択させ、発話を満足させるために、選択された音声を使用して、コンピューティングデバイスに動作可能なように接続された1つまたは複数のスピーカによる再生のために、合成されたオーディオデータを出力させる命令をさらに含む。

別の例においては、システムが、1つまたは複数のプロセッサにおいて実行されるコンピュータによるアシスタントによって、コンピューティングデバイスにおいて話された発話の表現を受け取るための手段と、発話に基づいて複数のエージェントからエージェントを選択するための手段であって、複数のエージェントが、1つまたは複数のファーストパーティエージェントおよび複数のサードパーティエージェントを含む、手段と、選択されたエージェントがファーストパーティエージェントを含むとの判定に応じて、複数の音声から予約された音声を選択するための手段と、発話を満足させるために、選択された音声を使用して、コンピューティングデバイスの1つまたは複数のスピーカによる再生のために、合成されたオーディオデータを出力するための手段とを含む。

別の例においては、コンピュータ可読ストレージ媒体が、実行されるときに、1つまたは複数のプロセッサに、コンピューティングデバイスにおいて話された発話の表現を受け取ること、発話に基づいて複数のエージェントからエージェントを選択することであって、複数のエージェントが、1つまたは複数のファーストパーティエージェントおよび複数のサードパーティエージェントを含む、選択することを行うように構成されたアシスタントを実行させる命令を記憶し、ストレージ媒体は、実行されるとき、1つまたは複数のプロセッサに、選択されたエージェントがファーストパーティエージェントを含むとの判定に応じて、複数の音声から予約された音声を選択させ、発話を満足させるために、選択された音声を使用して、再生するために、合成されたオーディオデータを出力させる命令をさらに含む。

1つまたは複数の例の詳細が、添付の図面および以下の説明に記載されている。本開示のその他の特徴、目的、および利点は、説明および図面ならびに請求項から明らかになるであろう。

本開示の1つまたは複数の態様による例示的なバーチャルアシスタントを実行する例示的なシステムを示す概念図である。本開示の1つまたは複数の態様による例示的なバーチャルアシスタントを実行するように構成される例示的なコンピューティングデバイスを示すブロック図である。本開示の1つまたは複数の態様による例示的なバーチャルアシスタントを実行するように構成される例示的なコンピューティングシステムを示すブロック図である。本開示の1つまたは複数の態様による例示的なサードパーティエージェントを実行するように構成される例示的なコンピューティングシステムを示すブロック図である。本開示の1つまたは複数の態様による例示的なバーチャルアシスタントを実行する1つまたは複数のプロセッサによって実行される例示的な動作を示す流れ図である。本開示の1つまたは複数の態様による、タスクを実行するためのバーチャルエージェントを選択するために1つまたは複数のプロセッサによって実行される例示的な動作を示す流れ図である。本開示の1つまたは複数の態様による、タスクを実行するためのバーチャルエージェントを選択するために1つまたは複数のプロセッサによって実行される例示的な動作を示す流れ図である。本開示の1つまたは複数の態様による、タスクを実行するためのバーチャルエージェントを選択するために1つまたは複数のプロセッサによって実行される例示的な動作を示す流れ図である。本開示の1つまたは複数の態様による、複数のバーチャルエージェントによるタスクの実行を容易にするために1つまたは複数のプロセッサによって実行される例示的な動作を示す流れ図である。本開示の1つまたは複数の態様による、バーチャルエージェントによって生成されたテキストの合成されたオーディオデータを出力するときに使用するための音声を選択するために1つまたは複数のプロセッサによって実行される例示的な動作を示す流れ図である。

概して、本開示の技術は、仮想的なコンピュータによるアシスタント(たとえば、「インテリジェントパーソナルアシスタント」または単に「アシスタント」とも呼ばれる)がユーザ入力に応えるために(たとえば、ユーザの発話またはテキスト入力を満足させるために)複数のエージェントを管理することを可能にする可能性がある。たとえば、コンピューティングデバイスが、ユーザの発話に対応する音声入力(たとえば、オーディオデータ)をマイクロフォンによって受け取る可能性がある。エージェント選択モジュールが、音声入力を分析し、発話を満足するために複数のエージェントからエージェントを選択する可能性がある。複数のエージェントは、1つまたは複数のファーストパーティ(1P)エージェントおよび1つまたは複数のサードパーティ(3P)エージェントを含む可能性がある。1Pエージェントは、アシスタントに含まれる可能性があり、ならびに/またはアシスタント、エージェント選択モジュール、および/もしくは音声入力を受け取ったコンピューティングデバイスのオペレーティングシステムと共通の発行元を共有する可能性がある。

選択を実行するために、エージェント選択モジュールは、発話を1Pエージェントを使用して満たすべきか、3Pエージェントを使用して満たすべきか、または1Pエージェントおよび3Pエージェントの何らかの組合せを使用して満たすべきかを判定する可能性がある。エージェント選択モジュールが3Pエージェントを使用して少なくとも部分的に発話を満足させると決定する場合、エージェント選択モジュールは、発話に基づいて1つまたは複数の3Pエージェントをランク付けする可能性がある。

選択された言語エージェント(language agent)(1P言語エージェント、3P言語エージェント、または1P言語エージェントおよび3P言語エージェントの何らかの組合せ)は、発話を満足させようと試みる可能性がある。たとえば、選択されたエージェントは、発話を満足させるために1つまたは複数のアクションを実行する(たとえば、発話に基づいて情報を出力するか、発話によって示されたユーザのニーズに応えるか、またはそうでなければ発話に基づいてユーザがさまざまな現実のもしくは仮想的なタスクを完了するのを助けるための特定の動作を実行する)可能性がある。

一部の例においては、アクションを実行するエージェントの種類の指示が存在する可能性がある。たとえば、1つまたは複数のアクションがユーザと「話すこと」を含む場合、1Pエージェントおよび3Pエージェントは、異なる音声を利用する可能性がある。一例として、1Pエージェントは、すべて、複数の音声のうちの予約された音声を利用する可能性があり、3Pエージェントは、複数の音声のうちのその他の音声を利用する可能性があるが、予約された音声を使用することを禁止される可能性がある。1つまたは複数のアクションがユーザとのテキストによるインタラクションを含む場合、エージェントは、異なる識別子(たとえば、「エージェント1: ディナーの予約をしました」および「エージェント2: 当座預金口座(checking account)から普通預金口座(savings account)に$100を移しました」)、各エージェントに関して異なるフォントなどを使用する可能性がある。

本開示の全体を通じて、コンピューティングデバイスが情報を分析するためにコンピューティングデバイスのユーザから許可を受け取る場合にのみ、コンピューティングデバイスおよび/またはコンピューティングシステムがコンピューティングデバイスおよびコンピューティングデバイスのユーザに関連する情報(たとえば、コンテキスト、位置、通信(communication)、連絡先(contact)、チャットの会話、音声会話など)を分析する例が説明される。たとえば、下で検討される状況において、コンピューティングデバイスまたはコンピューティングシステムにおいて実行されるアシスタントがユーザに関連する情報を収集することができるかまたは利用する可能性があるよりも前に、ユーザは、アシスタント(またはコンピューティングデバイスおよび/もしくはコンピューティングシステムのその他のプログラムもしくは特徴)がユーザ情報を収集し、利用することができるかどうかを制御するための、あるいはコンピューティングデバイスおよび/もしくはコンピューティングシステムがユーザに関連する可能性がある内容を受け取る可能性があるかどうかならびに/またはどのようにして受け取るべきかを命じるための入力を与える機会を提供される可能性がある。さらに、特定のデータが、個人を特定し得る情報が削除されるように、アシスタントまたは基礎をなすコンピューティングデバイスおよび/もしくはコンピューティングシステムによって記憶されるかまたは使用される前に1つまたは複数の方法で暗号化されるおよび/または処理される可能性がある。たとえば、ユーザのアイデンティティが、個人を特定し得る情報がユーザについて決定され得ないように、または位置情報が取得される場合にユーザの地理的位置が(座標位置もしくは実際の住所とは対照的に都市、郵便番号、もしくは州になど)一般化される可能性があり、したがって、ユーザの特定の位置が決定され得ないように処理される可能性がある。したがって、ユーザは、どのようにして情報がユーザについて収集され、アシスタントならびにアシスタントを実行する基礎をなすコンピューティングデバイスおよびコンピューティングシステムによって使用されるのかを制御する可能性がある。

図1は、本開示の1つまたは複数の態様による例示的なバーチャルアシスタントを実行する例示的なシステムを示す概念図である。図1のシステム100は、検索サーバシステム180、サードパーティ(3P)エージェントサーバシステム170A～170N(集合的に「3Pエージェントサーバシステム170」)、およびコンピューティングデバイス110とネットワーク130を介して通信するアシスタントサーバシステム160を含む。システム100がアシスタントサーバシステム160、3Pエージェントサーバシステム170、検索サーバシステム180、およびコンピューティングデバイス110に分散されるように示されるが、その他の例において、システム100に帰せられる特徴および技術は、コンピューティングデバイス110のローカルの構成要素によって内部で実行される可能性がある。同様に、アシスタントサーバシステム160および/または3Pエージェントサーバシステム170は、特定の構成要素を含み、下の説明においてはそうではなく検索サーバシステム180および/またはコンピューティングデバイス110に帰せられるさまざまな技術を実行する可能性がある。

ネットワーク130は、コンピューティングシステムと、サーバと、コンピューティングデバイスとの間でデータを送信するための任意の公共または私設通信ネットワーク、たとえば、セルラー、Wi-Fi、および/またはその他の種類のネットワークを表す。アシスタントサーバシステム160は、コンピューティングデバイス110がネットワーク130に接続されるときにコンピューティングデバイス110にアクセスし得るバーチャルアシスタントサービスを提供するためにコンピューティングデバイス110とネットワーク130を介してデータをやりとりする可能性がある。同様に、3Pエージェントサーバシステム170は、コンピューティングデバイス110がネットワーク130に接続されるときにコンピューティングデバイス110がアクセスし得るバーチャルエージェントサービスを提供するためにコンピューティングデバイス110とネットワーク130を介してデータをやりとりする可能性がある。アシスタントサーバシステム160は、検索サーバシステム180によって提供される検索サービスにアクセスするために検索サーバシステム180とネットワーク130を介してデータをやりとりする可能性がある。コンピューティングデバイス110は、検索サーバシステム180によって提供される検索サービスにアクセスするために検索サーバシステム180とネットワーク130を介してデータをやりとりする可能性がある。3Pエージェントサーバシステム170は、検索サーバシステム180によって提供される検索サービスにアクセスするために検索サーバシステム180とネットワーク130を介してデータをやりとりする可能性がある。

ネットワーク130は、相互に動作可能なように結合され、それによって、サーバシステム160、170、および180とコンピューティングデバイス110との間の情報のやりとりを提供する1つまたは複数のネットワークハブ、ネットワークスイッチ、ネットワークルータ、または任意のその他のネットワーク機器を含む可能性がある。コンピューティングデバイス110、アシスタントサーバシステム160、3Pエージェントサーバシステム170、および検索サーバシステム180は、任意の好適な通信技術を使用してネットワーク130を介してデータを送信および受信する可能性がある。コンピューティングデバイス110、アシスタントサーバシステム160、3Pエージェントサーバシステム170、および検索サーバシステム180は、それぞれが、それぞれのネットワークリンクを使用してネットワーク130に動作可能なように結合される可能性がある。コンピューティングデバイス110、アシスタントサーバシステム160、3Pエージェントサーバシステム170、および検索サーバシステム180をネットワーク130に結合するリンクは、イーサネット(登録商標)またはその他の種類のネットワーク接続である可能性があり、そのような接続は、ワイヤレス接続および/または有線接続である可能性がある。

アシスタントサーバシステム160、3Pエージェントサーバシステム170、および検索サーバシステム180は、ネットワーク130などのネットワークに情報を送信することとネットワークから情報を受信することとの両方が可能な1つまたは複数のデスクトップコンピュータ、ラップトップコンピュータ、メインフレーム、サーバ、クラウドコンピューティングシステムなどの任意の好適なリモートコンピューティングシステムを表す。アシスタントサーバシステム160は、バーチャルアシスタントサービスをホストする(または少なくともバーチャルアシスタントサービスへのアクセスを提供する)。3Pエージェントサーバシステム170は、バーチャル言語エージェントをホストする(または少なくともバーチャル言語エージェントへのアクセスを提供する)。検索サーバシステム180は、検索サービスをホストする(または少なくとも検索サービスへのアクセスを提供する)。一部の例において、アシスタントサーバシステム160、3Pエージェントサーバシステム170、および検索サーバシステム180は、クラウドを介してそれらのシステムのそれぞれのサービスへのアクセスを提供するクラウドコンピューティングシステムを表す。

コンピューティングデバイス110は、個々のモバイルまたは非モバイルコンピューティングデバイスを表す。コンピューティングデバイス110の例は、モバイル電話、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、カウンタートップデバイス、セットトップボックス、テレビ、ウェアラブルデバイス(たとえば、コンピュータ化された腕時計、コンピュータ化されたアイウェア、コンピュータ化された手袋など)、ホームオートメーションデバイスもしくはシステム(たとえば、インテリジェントサーモスタットもしくはホームアシスタントデバイス)、携帯情報端末(PDA)、ゲームシステム、メディアプレイヤー、電子ブックリーダ、モバイルテレビプラットフォーム、自動車ナビゲーションもしくはインフォテインメントシステム、またはバーチャルアシスタントを実行するかもしくはバーチャルアシスタントにアクセスし、ネットワーク130などのネットワークを介して情報を受け取るように構成された任意のその他の種類のモバイル、非モバイル、ウェアラブル、および非ウェアラブルコンピューティングデバイスを含む。

コンピューティングデバイス110は、ユーザインターフェースデバイス(UID)112、ユーザインターフェース(UI)モジュール120、およびローカルアシスタントモジュール122Aを含む。モジュール120および122Aは、それぞれのコンピューティングデバイス110に存在するおよび/またはそれぞれのコンピューティングデバイス110において実行されるソフトウェア、ハードウェア、ファームウェア、またはハードウェア、ソフトウェア、およびファームウェアの混合を使用して説明される動作を実行する可能性がある。コンピューティングデバイス110は、複数のプロセッサまたは複数のデバイスによってモジュール120および122Aを実行する可能性がある。コンピューティングデバイス110は、基礎をなすハードウェア上で実行される仮想マシンとしてモジュール120および122Aを実行する可能性がある。モジュール120および122Aは、オペレーティングシステムまたはコンピューティングプラットフォームの1つまたは複数のサービスとして実行される可能性がある。モジュール120および122Aは、コンピューティングプラットフォームのアプリケーションレイヤにおいて1つまたは複数の実行可能なプログラムを実行する可能性がある。

コンピューティングデバイス110は、アシスタントサーバシステム160によって提供されるバーチャルアシスタントサービス、3Pエージェントサーバシステム170によって提供されるバーチャル言語エージェント、および/または検索サーバシステム180によって提供される検索サービスにアクセスするためにネットワーク130を介してアシスタントサーバシステム160、3Pエージェントサーバシステム170、および/または検索サーバシステム180と通信する可能性がある。バーチャルアシスタントサービスを提供する過程で、アシスタントサーバシステム160は、タスクを完了するための情報をバーチャルアシスタントサービスのユーザに提供するための検索結果を取得するためにネットワーク130を介して検索サーバシステム180と通信する可能性がある。バーチャルアシスタントサービスを提供する過程で、アシスタントサーバシステム160は、バーチャルアシスタントサービスのユーザに追加的な支援を提供するために3Pエージェントサーバシステム170によって提供されるバーチャル言語エージェントのうちの1つまたは複数を従事させるためにネットワーク130を介して3Pエージェントサーバシステム170と通信する可能性がある。追加的な支援を提供する過程で、3Pエージェントサーバシステム170は、タスクを完了するための情報を言語エージェントのユーザに提供するための検索結果を取得するためにネットワーク130を介して検索サーバシステム180と通信する可能性がある。

図1の例において、アシスタントサーバシステム160は、リモートアシスタントモジュール122Bおよびエージェントインデックス124Bを含む。リモートアシスタントモジュール122Bは、アシスタントサーバシステム160がネットワーク130を介して(たとえば、コンピューティングデバイス110に)提供するバーチャルアシスタントサービスの一部としてリモートエージェントインデックス124Bを維持する可能性がある。コンピューティングデバイス110は、ユーザインターフェースデバイス(UID)112、ユーザインターフェース(UI)モジュール120、ローカルアシスタントモジュール122A、およびエージェントインデックス124Aを含む。ローカルアシスタントモジュール122Aは、コンピューティングデバイス110のローカルで実行されるバーチャルアシスタントサービスの一部としてエージェントインデックス124Aを維持する可能性がある。リモートアシスタントモジュール122Bおよびローカルアシスタントモジュール122Aは、集合的にアシスタントモジュール122と呼ばれる可能性がある。ローカルエージェントインデックス124Aおよびリモートエージェントインデックス124Bは、集合的にエージェントインデックス124と呼ばれる可能性がある。

モジュール122B、128Ab～128Nb(集合的に「3Pエージェントモジュール128b」)、および182は、それぞれ、アシスタントサーバシステム160、3Pエージェントサーバシステム170、および検索サーバシステム180に存在するならびに/またはアシスタントサーバシステム160、3Pエージェントサーバシステム170、および検索サーバシステム180において実行されるソフトウェア、ハードウェア、ファームウェア、またはハードウェア、ソフトウェア、およびファームウェアの混合を使用して説明される動作を実行する可能性がある。アシスタントサーバシステム160、3Pエージェントサーバシステム170、および検索サーバシステム180は、モジュール122B、128b、および182を複数のプロセッサ、複数のデバイスによって、基礎をなすハードウェア上で実行される仮想マシンとして、またはオペレーティングシステムもしくはコンピューティングプラットフォームの1つもしくは複数のサービスとしてそれぞれ実行する可能性がある。一部の例において、モジュール122B、128b、および182は、それぞれアシスタントサーバシステム160、3Pエージェントサーバシステム170、および検索サーバシステム180のコンピューティングプラットフォームのアプリケーションレイヤにおいて1つまたは複数の実行可能なプログラムとして実行される可能性がある。

コンピューティングデバイス110のUID 112は、コンピューティングデバイス110のための入力および/または出力デバイスとして機能する可能性がある。UID 112は、さまざまなテクノロジーを使用して実装される可能性がある。たとえば、UID 112は、抵抗式タッチスクリーン、表面弾性波式タッチスクリーン、静電容量式タッチスクリーン、投影型静電容量式タッチスクリーン、感圧スクリーン、音響波照合(acoustic pulse recognition)タッチスクリーン、または別の存在感知(presence-sensitive)ディスプレイテクノロジーなどの存在感知入力スクリーンを使用する入力デバイスとして機能する可能性がある。加えて、UID 112は、マイクロフォンテクノロジー、赤外線センサテクノロジー、またはユーザ入力を受け取る際に使用するためのその他の入力デバイステクノロジーを含む可能性がある。

UID 112は、液晶ディスプレイ(LCD)、ドットマトリクスディスプレイ、発光ダイオード(LED)ディスプレイ、有機発光ダイオード(OLED)ディスプレイ、電子インク、またはコンピューティングデバイス110のユーザに可視情報を出力することができる同様のモノクロもしくはカラーディスプレイなどの任意の1つまたは複数のディスプレイデバイスを使用する出力(たとえば、ディスプレイ)デバイスとして機能する可能性がある。加えて、UID 112は、スピーカテクノロジー、触覚フィードバックテクノロジー、またはユーザに情報を出力する際に使用するためのその他の出力デバイステクノロジーを含む可能性がある。

UID 112は、コンピューティングデバイス110のユーザから触覚入力を受け取り得る存在感知ディスプレイを含む可能性がある。UID 112は、ユーザから1つまたは複数のジェスチャ(たとえば、ユーザが指またはスタイラスペンによってUID 112の1つまたは複数の位置にタッチするかまたはそれらの位置を指すこと)を検出することによって触覚入力の指示を受け取る可能性がある。UID 112は、たとえば、存在感知ディスプレイにおいてユーザに出力を提示する可能性がある。UID 112は、コンピューティングデバイス110によって提供される機能および/またはコンピューティングデバイス110によってアクセスされているサービスに関連付けられ得るグラフィカルユーザインターフェース(たとえば、ユーザインターフェース114)として出力を提示する可能性がある。

たとえば、UID 112は、UIモジュール120がコンピューティングデバイス110のためにアクセスするローカルアシスタントモジュール122Aおよび/またはリモートアシスタントモジュール122Bによって提供されるバーチャルアシスタントに関連するユーザインターフェース(たとえば、ユーザインターフェース114)を提示する可能性がある。UID 112は、コンピューティングデバイス110において実行されるおよび/またはコンピューティングデバイス110からアクセスされ得るコンピューティングプラットフォーム、オペレーティングシステム、アプリケーション、および/またはサービス(たとえば、電子メール、チャット、またはその他の電子メッセージアプリケーション、インターネットブラウザアプリケーション、電話アプリケーション、モバイルまたはデスクトップオペレーティングシステムなど)のその他の特徴に関連するユーザインターフェースを提示する可能性がある。

UIモジュール120は、UID 112において自律的な検索の結果を提供するためにアシスタントサーバシステム160とインタラクションすることを含む、コンピューティングデバイス110のUID 112およびその他の構成要素とのユーザインタラクションを管理する可能性がある。UIモジュール120は、コンピューティングデバイス110のユーザがUID 112において出力を見るおよび/または入力を与えるときに、ユーザインターフェース114(またはその他の例示的なユーザインターフェース)などのユーザインターフェースを表示するためにUID 112に出力させる可能性がある。UIモジュール120およびUID 112は、ユーザがユーザインターフェースとインタラクションするときに、異なる時間に、ならびにユーザおよびコンピューティングデバイス110が異なる位置にあるときに、ユーザから入力の1つまたは複数の指示を受け取る可能性がある。UIモジュール120およびUID 112は、UID 112において検出された入力を解釈する可能性があり、たとえば、コンピューティングデバイス110に機能を実行させるために、コンピューティングデバイス110において実行される1つもしくは複数の関連するプラットフォーム、オペレーティングシステム、アプリケーション、および/もしくはサービスに、UID 112において検出された入力についての情報を中継する可能性がある。

UIモジュール120は、コンピューティングデバイス110ならびに/またはサーバシステム160および180などの1つもしくは複数のリモートコンピューティングシステムにおいて実行される1つまたは複数の関連するプラットフォーム、オペレーティングシステム、アプリケーション、および/またはサービスから情報および命令を受け取る可能性がある。加えて、UIモジュール120は、コンピューティングデバイス110において実行される1つまたは複数の関連するプラットフォーム、オペレーティングシステム、アプリケーション、および/またはサービスと、コンピューティングデバイス110によって出力(たとえば、グラフィック、光のひらめき、サウンド、触覚による応答など)を生成するためのコンピューティングデバイス110のさまざまな出力デバイス(たとえば、スピーカ、LEDインジケータ、オーディオまたは触覚出力デバイスなど)との間の仲介者として働く可能性がある。一部の例において、UIモジュール120は、テキスト音声変換(TTS: text to speech)を実行する可能性がある。たとえば、テキストを(たとえば、別のモジュールによって)与えられるとき、UIモジュール120は、テキストを話す(たとえば、テキストを声に出して読む)ためのオーディオデータを合成する可能性がある。

コンピューティングデバイス110のローカルアシスタントモジュール122Aおよびアシスタントサーバシステム160のリモートアシスタントモジュール122Bは、コンピューティングデバイスのユーザから受け取られたユーザ入力(たとえば、口頭の発話、テキスト入力など)を満足させるためにエージェントを選択するように構成されるアシスタントを自動的に実行するために、本明細書において説明される同様の機能をそれぞれが実行する可能性がある。リモートアシスタントモジュール122Bおよびエージェントインデックス124Bは、例示的なバーチャルアシスタントのサーバサイドのまたはクラウドの実装を表し、一方、ローカルアシスタントモジュール122Aおよびエージェントインデックス124Aは、例示的なバーチャルアシスタントのクライアントサイドのまたはローカルの実装を表す。

モジュール122Aおよび122Bは、コンピューティングデバイス110のユーザなどの個人のためにタスクまたはサービスを実行することができるインテリジェントなパーソナルアシスタントとして実行されるように構成されたそれぞれのソフトウェアエージェントをそれぞれが含む可能性がある。モジュール122Aおよび122Bは、(たとえば、UID 112において検出された)ユーザ入力、(たとえば、コンテキストに基づく)位置認識、および/または(たとえば、コンピューティングデバイス110、アシスタントサーバシステム160のローカルに記憶されるか、もしくは検索サーバシステム180によって提供される検索サービスを介して取得されるかのどちらかの)さまざまな情報ソースからのその他の情報(たとえば、天気もしくは交通の状況、ニュース、株価、スポーツのスコア、ユーザのスケジュール、交通機関のスケジュール、小売価格など)にアクセスする能力に基づいてこれらのタスクまたはサービスを実行する可能性がある。モジュール122Aおよび122Bは、1つまたは複数のタスクを自動的に特定し、ユーザの代わりに完了するために人工知能および/または機械学習技術を実行する可能性がある。

一部の例において、モジュール122によって提供されるアシスタントは、ファーストパーティ(1P)アシスタントおよび/または1Pエージェントと呼ばれる可能性がある。たとえば、モジュール122によって表されるエージェントは、コンピューティングデバイス110のオペレーティングシステムおよび/またはアシスタントサーバシステム160の所有者と共通の発行元および/または共通の開発元を共有する可能性がある。したがって、一部の例において、モジュール122によって表されるエージェントは、サードパーティ(3P)エージェントなどのその他のエージェントが利用不可能な能力を有する可能性がある。一部の例において、モジュール122によって表されるエージェントは、両方が1Pエージェントであるわけではない可能性がある。たとえば、ローカルアシスタントモジュール122Aによって表されるエージェントは、1Pエージェントである可能性があり、一方、リモートアシスタントモジュール122Bによって表されるエージェントは、3Pエージェントである可能性がある。一部の例において、モジュール122によって提供されるアシスタントは、1Pアシスタント(たとえば、1Pのコンピュータによるアシスタント)と呼ばれる可能性があり、モジュール122は、(たとえば、1Pのコンピュータによるアシスタントと共通の発行元および/または共通の開発元を共有する)1つまたは複数の1Pエージェントをさらに提供する可能性がある。

上で検討されたように、ローカルアシスタントモジュール122Aは、コンピューティングデバイス110のユーザなどの個人のためにタスクまたはサービスを実行することができるインテリジェントなパーソナルアシスタントとして実行されるように構成されたソフトウェアエージェントを表す可能性がある。しかし、一部の例において、アシスタントは、個人のためにタスクまたはサービスを実行するためにその他のエージェントを利用することが望ましい可能性がある。たとえば、特定の筋書きにおいては、アシスタントが、コンピューティングデバイス110のユーザのためにタスクまたはサービスを実行するために1つまたは複数の3Pエージェントを使用することが望ましい可能性がある。一例として、3Pエージェントは、特定のタスクをアシスタントよりも効率的に(たとえば、より少ない計算能力、システムリソースなどを使用して)実行することができる可能性がある。

図1の例において、3Pエージェントサーバシステム170は、リモート3Pエージェントモジュール128bを含む。リモート3Pエージェントモジュール128bは、コンピューティングデバイス110などのコンピューティングデバイスのユーザから受け取られた発話を満足させるように構成されるエージェントを自動的に実行するために、ローカル3Pエージェントモジュール128aに関連して下で説明される同様の機能を実行する可能性がある。言い換えると、リモート3Pエージェントモジュール128bは、例示的な3Pエージェントのサーバサイドのまたはクラウドの実装を表し、一方、ローカル3Pエージェントモジュール128aは、例示的な3Pエージェントのクライアントサイドのまたはローカルの実装を表す。

一部の例において、モジュール128aおよび128b(集合的に「モジュール128」)の各々は、コンピューティングデバイス110のユーザなどの個人のためにタスクまたはサービスを実行することができるインテリジェントなパーソナルアシスタントとして実行されるように構成されたソフトウェアエージェントを表す可能性がある。一部の例において、モジュール128の各々は、モジュール122によって提供されるアシスタントによって利用され得るソフトウェアエージェントを表す可能性がある。一部の例において、モジュール128によって提供されるアシスタントおよび/またはエージェントは、サードパーティ(3P)アシスタントおよび/または3Pエージェントと呼ばれる可能性がある。たとえば、モジュール128によって表されるアシスタントおよび/またはエージェントは、コンピューティングデバイス110のオペレーティングシステムおよび/またはアシスタントサーバシステム160の所有者と共通の発行元を共有しない可能性がある。したがって、一部の例において、モジュール128によって表されるアシスタントおよび/またはエージェントは、ファーストパーティ(1P)アシスタントおよび/またはエージェントなどのその他のアシスタントおよび/またはエージェントが利用可能である能力を持たない可能性がある。

一部の例において、3Pエージェントは、ユーザの関与なしに使用するために構成される可能性がある。一部の例において、一部3Pエージェントは、使用される前に構成を必要とする可能性がある。たとえば、ユーザの家にスマート照明調光器(smart lighting dimmer)を設置するときに、ユーザは、スマート照明調光器の製造業者によって提供された3Pエージェントを使用するために構成する可能性がある。構成プロセスは、3Pエージェントを1Pアシスタントに関連付けること(たとえば、ユーザが3Pエージェントに関するアカウント情報を1Pアシスタントに提供する可能性がある)と、1Pアシスタントがユーザの代わりに3Pエージェントと通信することを(たとえば、ユーザによって)認可することとを含む可能性がある。

検索モジュール182は、検索モジュール182が(たとえば、コンピューティングデバイス110に関連するコンテキスト情報に基づいて)自動的に生成するかまたは検索モジュール182がアシスタントサーバシステム160、3Pエージェントサーバシステム170、もしくはコンピューティングデバイス110から(たとえば、コンピューティングデバイス110のユーザの代わりにバーチャルアシスタントが完了しているタスクの一部として)受け取る検索クエリに関連すると判定された情報の検索を実行する可能性がある。検索モジュール182は、検索クエリに関連する情報を特定するために検索クエリに基づいてインターネット検索またはローカルデバイス検索を行う可能性がある。検索を実行した後、検索モジュール182は、検索から返された情報(たとえば、検索結果)をアシスタントサーバシステム160、3Pエージェントサーバシステム170のうちの1つまたは複数、またはコンピューティングデバイス110に出力する可能性がある。

ローカルアシスタントモジュール122Aおよび/またはリモートアシスタントモジュール122Bなどのシステム100の1つまたは複数の構成要素は、コンピューティングデバイス110のユーザなどの個人が利用可能であるエージェントに関連する情報を記憶するためにエージェントインデックス124Aおよび/またはエージェントインデックス124B(集合的に、「エージェントインデックス124」)を維持する可能性がある。一部の例において、エージェントインデックス124は、各エージェントに関して、エージェント情報の半構造化インデックス(semi-structured index)にエージェントの説明および能力のリストを記憶する可能性がある。たとえば、エージェントインデックス124は、それぞれの利用可能なエージェントに関する情報を有する単一のドキュメントを含む可能性がある。特定のエージェントに関するエージェントインデックス124に含まれるドキュメントは、特定のエージェントの開発元によって提供された情報から構築される可能性がある。ドキュメントに含まれる可能性があるかまたはドキュメントを構築するために使用される可能性がある一部の例示的な情報フィールドは、エージェントの説明、エージェントの1つもしくは複数のエントリポイント(entry point)、エージェントのカテゴリ、エージェントの1つもしくは複数のトリガフレーズ、エージェントに関連するウェブサイト、エージェントによって生成されたテキストに基づいてオーディオデータを合成するときに使用するための音声の指示、および/またはエージェントの能力のリスト(たとえば、エージェントが実行することができるタスクもしくはタスクの種類のリスト)を含むがこれらに限定されない。一部の例において、情報フィールドのうちの1つまたは複数は、自由形式の自然言語で書かれる可能性がある。一部の例において、情報フィールドのうちの1つまたは複数は、予め定義されたリストから選択される可能性がある。たとえば、カテゴリフィールドは、カテゴリの予め定義された組(たとえば、ゲーム、生産性、通信)から選択される可能性がある。一部の例において、エージェントのエントリポイントは、エージェントとインターフェースをとるために使用されるデバイスの種類である可能性がある(たとえば、携帯電話)。一部の例におい
て、エージェントのエントリポイントは、エージェントのリソースアドレスまたはその他の引数(argument)である可能性がある。

一部の例において、エージェントインデックス124は、利用可能なエージェントの使用および/または性能に関連する情報を記憶する可能性がある。たとえば、エージェントインデックス124は、それぞれの利用可能なエージェントに関するエージェント品質スコアを含む可能性がある。一部の例において、エージェント品質スコアは、特定のエージェントが競合するエージェントよりも頻繁に選択されるかどうか、エージェントの開発元がその他の高品質のエージェントを生産したかどうか、エージェントの開発元がその他のユーザのプロパティに関して良い(または悪い)スパムスコア(spam score)を有するかどうか、およびユーザが概して実行中にエージェントを途中でやめるかどうかのうちの1つまたは複数に基づいて決定される可能性がある。一部の例において、エージェント品質スコアは、0以上1以下の値として表される可能性がある。

エージェントインデックス124は、トリガフレーズとエージェントとの間のマッピングを提供する可能性がある。上で検討されたように、特定のエージェントの開発元は、特定のエージェントに関連付けられる1つまたは複数のトリガフレーズを提供する可能性がある。一部の例においては、エージェント選択の質を高めるために、ローカルアシスタントモジュール122Aは、与えられるトリガフレーズを増補する可能性がある。たとえば、ローカルアシスタントモジュール122Aは、トリガフレーズの構造およびトリガフレーズの重要な概念の同義語を広げることによってトリガフレーズを拡大する可能性がある。構造の拡大に関して、ローカルアシスタントモジュール122Aは、トリガフレーズの複合語の中に「お願いします(please)」、「～していただけますか(could you)」などのようなユーザの自然言語の発話によく使用される語を挿入し、それから、フレーズの複合語を並べ替える可能性がある。

場合によっては、トリガフレーズの能力の概念は、動詞および名詞として表され得る。したがって、一部の例において、ローカルアシスタントモジュール122Aは、ウェブ検索のクエリのログを調べ、(たとえば、自然言語のフレームワークを使用して)各クエリに関して動詞および名詞をタグ付けし、タグ付けされた動詞および名詞に基づいて動詞のクラスタを構築する可能性がある。各クラスタ内で、すべての動詞は、同じ名詞の文脈で同様の意味を有すると考えられる可能性がある。したがって、動詞クラスタモデルを使用して、ローカルアシスタントモジュール122Aは、エージェントに関連するトリガフレーズ内の動詞の同義語を広げ、エージェントインデックス124に結果を(つまり、エージェントに関する代替的なトリガフレーズとして)記憶する可能性がある。

一部の例において、一部のトリガフレーズは、データの関連する組を表す変数を含む可能性もある。これらのデータの組は、schema.orgの型によってまたは開発元のカスタム仕様として定義される可能性がある。これらのトリガおよびパラメータ値の組は、テキストマッチングシステムのための訓練システムに供給される。訓練システムは、指定されたパターンを、オンラインクエリマッチングのために効率的に表現された規則の組に変換する可能性がある。ローカルアシスタントモジュール122Aは、適用可能なエージェントへのテキストマッチングシステムの規則のマッピングを維持する可能性もある。

検索モジュール182などのシステム100の1つまたは複数の構成要素は、ウェブ検索インデックス内で任意の関連するウェブサイトにエージェントについてのメタデータを添付する可能性がある。このメタデータは、エージェントのIDおよび関連するエージェントのエントリポイントを含む可能性がある。

ユーザがエージェントとインタラクションするとき、システム100の1つまたは複数の構成要素は、ユーザの個人的履歴にインタラクションの詳細のログを記録する可能性がある。上で検討されたように、ログに記録することは、ユーザがエージェントのインタラクションのログの記録を無効にし得るように1つまたは複数のユーザの制御に従う可能性がある。特に、システム100の1つまたは複数の構成要素は、ユーザから明示的な認可を受け取った後にのみ詳細をログに記録する可能性がある。

動作中、ローカルアシスタントモジュール122Aは、コンピューティングデバイス110のユーザによって与えられたユーザ入力の指示をUIモジュール120から受け取る可能性がある。一例として、ローカルアシスタントモジュール122Aは、コンピューティングデバイス110のユーザによって与えられた発話に対応する音声入力の指示を受け取る可能性がある。別の例として、ローカルアシスタントモジュール122Aは、(たとえば、物理的なおよび/または仮想的なキーボードにおいて)コンピューティングデバイス110のユーザによって与えられたテキスト入力の指示を受け取る可能性がある。本開示の1つまたは複数の技術によれば、ローカルアシスタントモジュール122は、発話を満足させるために複数のエージェントからエージェントを選択する可能性がある。たとえば、ローカルアシスタントモジュール122Aは、ユーザの発話を1Pエージェント(つまり、ローカルアシスタントモジュール122Aによって提供される1Pエージェント)を使用して満足させるべきか、3Pエージェント(つまり、3Pエージェントモジュール128のうちの1つによって提供される3Pエージェント)を使用して満足させるべきか、または1Pエージェントおよび3Pエージェントの何らかの組合せを使用して満足させるべきかを判定する可能性がある。

ローカルアシスタントモジュール122Aは、エージェント選択の基礎を発話の分析に置く可能性がある。一例として、3P言語エージェントを単独で使用して発話を満足させることができない場合、ローカルアシスタントモジュール122Aは、少なくとも初めに、1P言語エージェントを選択する可能性がある。別の例として、ローカルアシスタントモジュール122Aは、発話に基づいてタスクを特定し、タスクを実行するためにエージェントのランク付けおよび/または利用可能なエージェントの能力に基づいて利用可能なエージェント(たとえば、1Pエージェントおよび3Pエージェント)からエージェントを選択する可能性がある。別の例として、ローカルアシスタントモジュール122Aは、音声入力が1Pエージェントに関連付けられる1つもしくは複数の予め決められたトリガフレーズまたは3Pエージェントに関連付けられる1つもしくは複数の予め決められたトリガフレーズを含むかどうかを(たとえば、エージェントインデックス124Aに含まれるデータに基づいて)判定する可能性がある。

上で検討されたように、ローカルアシスタントモジュール122Aは、エージェント選択の基礎を、音声入力が1つまたは複数の予め決められたトリガフレーズを含むかどうかに置く可能性がある。たとえば、音声入力が1Pエージェントに関連付けられる1つまたは複数の予め決められたトリガフレーズを含む場合、ローカルアシスタントモジュール122Aは、発話を満足させるために1Pエージェントのうちの1つまたは複数を選択する可能性がある。一部の例においては、1Pエージェントのうちの1つまたは複数が選択され、結果として生じる関わり合いは1P体験(experience)と呼ばれる可能性がある。

しかし、音声入力が3Pエージェントに関連付けられる1つまたは複数の予め決められたトリガフレーズを含む場合、ローカルアシスタントモジュール122Aは、発話を満足させるために3Pエージェントのうちの1つまたは複数を選択する可能性がある。たとえば、ローカルアシスタントモジュール122Aは、音声入力に含まれるトリガフレーズに関連付けられる3Pエージェントのうちの3Pエージェントを選択する可能性がある。3Pエージェントの選択を実行するために、ローカルアシスタントモジュール122Aは、発話に基づいて1つまたは複数の3Pエージェントをランク付けする可能性がある。一部の例において、ローカルアシスタントモジュール122Aは、すべての知られている3Pエージェントをランク付けする可能性がある。一部の例において、ローカルアシスタントモジュール122Aは、すべての知られている3Pエージェントのサブセットをランク付けする可能性がある。たとえば、ローカルアシスタントモジュール122Aは、コンピューティングデバイス110のユーザによる使用のために予め構成される3Pエージェントをランク付けする可能性がある。

上で検討されたように、ローカルアシスタントモジュール122Aは、ランク付けに基づいて3Pエージェントを選択する可能性がある。たとえば、ローカルアシスタントモジュール122Aは、発話を満足させるために最も高いランク付けを有する3Pエージェントを選択する可能性がある。ランク付けの中に同一ランクの3Pエージェントがある場合および/または最も高いランク付けを有する3Pエージェントのランク付けがランク付けのしきい値未満である場合などの一部の例において、ローカルアシスタントモジュール122Aは、発話を満足させるために3P言語エージェントを選択するためにユーザ入力を求める可能性がある。たとえば、ローカルアシスタントモジュール122Aは、UIモジュール120に、ユーザが発話を満足させるために上位N(たとえば、2、3、4、5など)位にランク付けされた3Pエージェントから3Pエージェントを選択することを要求するユーザインターフェースを出力させる可能性がある。

選択されたエージェント(1Pエージェント、3Pエージェント、または1P言語エージェントおよび3Pエージェントの何らかの組合せ)は、発話を満足させようと試みる可能性がある。たとえば、選択されたエージェントは、発話を満足させるために1つまたは複数のアクションを実行する(たとえば、発話に基づいて有用な情報を出力するか、発話によって示されたユーザのニーズに応えるか、またはそうでなければ発話に基づいてユーザがさまざまな現実のもしくは仮想的なタスクを完了するのを助けるための特定の動作を実行する)可能性がある。

上で検討されたように、一部の例において、モジュール122によって表されるエージェントは、両方が1Pエージェントであるわけではない可能性がある。たとえば、ローカルアシスタントモジュール122Aによって表されるエージェントは、1Pエージェントである可能性があり、一方、リモートアシスタントモジュール122Bによって表されるエージェントは、3Pエージェントである可能性がある。そのような例の一部において、ローカルアシスタントモジュール122Aは、3Pエージェントの選択、特定、ランク付け、および/またはその他の3Pエージェントの呼び出しの一部(またはすべて)を実行するために3Pリモートアシスタントモジュール122Bを利用する可能性がある。そのような例の一部において、ローカルアシスタントモジュール122Aは、3Pエージェントの選択、特定、ランク付け、および/またはその他の3Pエージェントの呼び出しの一部(またはすべて)を実行するために3Pリモートアシスタントモジュール122Bを利用することができない可能性があり、そのようなタスクをローカルで実行する可能性がある。

コンピューティングデバイス110、アシスタントサーバシステム160、および3Pエージェントサーバシステム170のうちの1つまたは複数の改善された動作が、上の説明によって得られることは理解されるであろう。一例として、ユーザによって与えられたタスクを実行するための好ましいエージェントを特定することによって、一般化された検索および複雑なクエリの書き換えが削減され得る。ひいては、これは、帯域幅およびデータ送信の使用を減らしたり、一時的な揮発性メモリの使用を減らしたり、バッテリの消費を減らしたりする。さらに、特定の実施形態においては、デバイスの性能を最適化することおよび/またはセルラーデータの使用を最小化することが、これらの基準に基づくエージェントの選択がデバイスの性能の所望の直接的な改善および/または削減されたデータ使用をもたらすように、エージェントをランク付けするための非常に重視される特徴である可能性がある。別の例として、発話を最初に処理する(たとえば、タスクを特定し、タスクを実行するためのエージェントを選択する)ための単一のアシスタント/エージェント(たとえば、1Pアシスタント)を提供することによって、計算負荷が削減される可能性がある。たとえば、著しい量のシステムリソース(たとえば、CPUサイクル、電力消費など)を消費する、入ってくる発話をいくつかのエージェントに監視させ、処理させ、満足させることとは対照的に、本開示の技術は、単一のアシスタントが最初に発話を処理し、必要に応じて3Pエージェントを呼び出すことを可能にする。したがって、本開示の技術は、発話の処理のあらゆるステップに含まれる複数のエージェントを持つことの技術的な欠点なしに発話を満足させるために利用可能な複数のエージェントを持つことの恩恵をもたらす。

図2は、本開示の1つまたは複数の態様による例示的なバーチャルアシスタントを実行するように構成される例示的なコンピューティングデバイスを示すブロック図である。図2のコンピューティングデバイス210が、図1のコンピューティングデバイス110の例として下で説明される。図2は、コンピューティングデバイス210のただ1つの特定の例を示し、コンピューティングデバイス210の多くのその他の例が、その他の場合に使用される可能性があり、例示的なコンピューティングデバイス210に含まれる構成要素のサブセットを含む可能性があり、または図2に示されていないさらなる構成要素を含む可能性がある。

図2の例に示されるように、コンピューティングデバイス210は、ユーザインターフェースデバイス(UID)212、1つまたは複数のプロセッサ240、1つまたは複数の通信ユニット242、1つまたは複数の入力構成要素244、1つまたは複数の出力構成要素246、および1つまたは複数のストレージ構成要素248を含む。UID 212は、ディスプレイ構成要素202、存在感知入力構成要素204、マイクロフォン構成要素206、およびスピーカ構成要素208を含む。コンピューティングデバイス210のストレージ構成要素248は、UIモジュール220、アシスタントモジュール222、検索モジュール282、1つまたは複数のアプリケーションモジュール226、コンテキストモジュール230、およびエージェントインデックス224を含む。

通信チャネル250は、構成要素間通信のために(物理的に、通信可能なように、および/または動作可能なように)構成要素212、240、242、244、246、および248の各々を相互に接続する可能性がある。一部の例において、通信チャネル250は、システムバス、ネットワーク接続、プロセス間通信データ構造、またはデータを伝達するための任意のその他の方法を含む可能性がある。

コンピューティングデバイス210の1つまたは複数の通信ユニット242は、1つまたは複数のネットワーク(たとえば、図1のシステム100のネットワーク130)上でネットワーク信号を送信および/または受信することによって1つまたは複数の有線および/またはワイヤレスネットワークを介して外部デバイス(たとえば、図1のシステム100のアシスタントサーバシステム160および/または検索サーバシステム180)と通信する可能性がある。通信ユニット242の例は、(たとえば、イーサネット(登録商標)カードなどの)ネットワークインターフェースカード、光トランシーバ、無線周波数トランシーバ、GPS受信機、または情報を送信および/もしくは受信することができる任意のその他の種類のデバイスを含む。通信ユニット242のその他の例は、短波無線、セルラーデータ無線、ワイヤレスネットワーク無線、およびユニバーサルシリアルバス(USB)コントローラを含む可能性がある。

コンピューティングデバイス210の1つまたは複数の入力構成要素244は、入力を受け取る可能性がある。入力の例は、触覚、テキスト、オーディオ、画像、およびビデオ入力である。コンピューティングデバイス210の入力構成要素242は、一例において、存在感知入力デバイス(たとえば、タッチ感知スクリーン、PSD)、マウス、キーボード、音声応答システム、カメラ、マイクロフォン、または人もしくは機械からの入力を検出するための任意のその他の種類のデバイスを含む。一部の例において、入力構成要素242は、1つまたは複数のセンサ構成要素、1つまたは複数の測位センサ(GPS構成要素、Wi-Fi構成要素、セルラー構成要素)、1つまたは複数の温度センサ、1つまたは複数の運動センサ(たとえば、加速度計、ジャイロ)、1つまたは複数の圧力センサ(たとえば、気圧計)、1つまたは複数の環境光センサ、および1つまたは複数のその他のセンサ(たとえば、赤外線近接センサ、湿度計センサなど)を含む可能性がある。いくつかその他の非限定的な例を挙げるとすれば、その他のセンサは、心拍数センサ、磁気計、グルコースセンサ、嗅覚センサ、コンパスセンサ、ステップカウンターセンサ(step counter sensor)を含む可能性がある。

コンピューティングデバイス110の1つまたは複数の出力構成要素246は、出力を生成する可能性がある。出力の例は、触覚、オーディオ、およびビデオ出力である。コンピューティングデバイス210の出力構成要素246は、一例において、存在感知ディスプレイ、サウンドカード、ビデオグラフィックスアダプタカード、スピーカ、ブラウン管(CRT)モニタ、液晶ディスプレイ(LCD)、または人もしくは機械への出力を生成するための任意のその他の種類のデバイスを含む。

コンピューティングデバイス210のUID 212は、コンピューティングデバイス110のUID 112と同様である可能性があり、ディスプレイ構成要素202、存在感知入力構成要素204、マイクロフォン構成要素206、およびスピーカ構成要素208を含む。ディスプレイ構成要素202は、情報がUID 212によって表示されるスクリーンである可能性があり、一方、存在感知入力構成要素204は、ディスプレイ構成要素202にあるおよび/またはディスプレイ構成要素202の近くにある物体を検出する可能性がある。スピーカ構成要素208は、可聴情報がUID 212によって再生されるスピーカである可能性があり、一方、マイクロフォン構成要素206は、ディスプレイ構成要素202および/もしくはスピーカ構成要素208においてならびに/またはディスプレイ構成要素202および/もしくはスピーカ構成要素208の近くで与えられた可聴入力を検出する可能性がある。

コンピューティングデバイス210の内部構成要素として示されているが、UID 212は、入力および出力を送信および/または受信するためにコンピューティングデバイス210とデータ経路を共有する外部構成要素を表す可能性もある。たとえば、一例において、UID 212は、コンピューティングデバイス210の外装内に置かれ、コンピューティングデバイス210の外装に物理的に接続されたコンピューティングデバイス210の組み込み構成要素(たとえば、モバイル電話のスクリーン)を表す。別の例において、UID 212は、コンピューティングデバイス210のパッケージまたはハウジングの外に置かれ、コンピューティングデバイス210のパッケージまたはハウジングから物理的に分離されたコンピューティングデバイス210の外部構成要素(たとえば、コンピューティングデバイス210と有線および/またはワイヤレスデータ経路を共有するモニタ、プロジェクタなど)を表す。

1つの例示的な範囲として、存在感知入力構成要素204は、ディスプレイ構成要素202の2インチ以内にある指またはスタイラスなどの物体を検出する可能性がある。存在感知入力構成要素204は、物体が検出されたディスプレイ構成要素202の位置(たとえば、[x, y]座標)を判定する可能性がある。別の例示的な範囲において、存在感知入力構成要素204は、ディスプレイ構成要素202から6インチ以内の物体を検出する可能性があり、その他の範囲も、可能である。存在感知入力構成要素204は、静電容量式、誘導式、および/または光学式認識技術を使用してユーザの指によって選択されたディスプレイ構成要素202の位置を判定する可能性がある。一部の例において、存在感知入力構成要素204は、さらに、ディスプレイ構成要素202に関連して説明されたように触覚、オーディオ、またはビデオの刺激を使用してユーザに出力を提供する。図2の例において、UID 212は、(図1のグラフィカルユーザインターフェース114などの)ユーザインターフェースを提示する可能性がある。

スピーカ構成要素208は、コンピューティングデバイス210のハウジングに組み込まれたスピーカを含む可能性があり、一部の例において、コンピューティングデバイス210に動作可能なように結合される有線またはワイヤレスヘッドフォンのセットに組み込まれたスピーカである可能性がある。マイクロフォン構成要素206は、UID 212においてまたはUID 212の近くで発生する可聴入力を検出する可能性がある。マイクロフォン構成要素206は、背景雑音を削除するためにさまざまな雑音除去技術を実行し、検出されたオーディオ信号からユーザの発話を分離する可能性がある。

コンピューティングデバイス210のUID 212は、2次元および/または3次元ジェスチャをコンピューティングデバイス210のユーザからの入力として検出する可能性がある。たとえばUID 212のセンサは、UID 212のセンサの距離しきい値以内のユーザの運動(たとえば、手、腕、ペン、スタイラスなどを動かすこと)を検出する可能性がある。UID 212は、運動の2または3次元ベクトル表現を決定し、ベクトル表現を複数次元を有するジェスチャ入力(たとえば、手を振ること、つまむこと、手を叩くこと、ペンの運びなど)と相互に関連付ける可能性がある。言い換えると、UID 212は、UID 212が表示するために情報を出力するスクリーンもしくは面においてまたはそのスクリーンもしくは面の近くでユーザがジェスチャをすることを要求することなく多次元ジェスチャを検出することができる。その代わりに、UID 212は、UID 212が表示するために情報を出力するスクリーンまたは面の近くに置かれる可能性がありまたは近くに置かれない可能性があるセンサにおいてまたはそのセンサの近くで実行される多次元ジェスチャを検出することができる。

1つまたは複数のプロセッサ240は、コンピューティングデバイス210に関連する機能を実施する可能性があるおよび/または命令を実行する可能性がある。プロセッサ240の例は、アプリケーションプロセッサ、ディスプレイコントローラ、補助プロセッサ、1つまたは複数のセンサハブ、およびプロセッサ、処理ユニット、または処理デバイスとして機能するように構成された任意のその他のハードウェアを含む。モジュール220、222、226、230、および282は、コンピューティングデバイス210のさまざまなアクション、動作、または機能を実行するためにプロセッサ240によって操作され得る可能性がある。たとえば、コンピューティングデバイス210のプロセッサ240は、動作モジュール220、222、226、230、および282をプロセッサ240に実行させる、ストレージ構成要素248によって記憶された命令を取り出し、実行する可能性がある。命令は、プロセッサ240によって実行されるとき、コンピューティングデバイス210にストレージ構成要素248内に情報を記憶させる可能性がある。

コンピューティングデバイス210内の1つまたは複数のストレージ構成要素248は、コンピューティングデバイス210の動作中に処理するために情報を記憶する可能性がある(たとえば、コンピューティングデバイス210は、コンピューティングデバイス210における実行中にモジュール220、222、226、230、および282によってアクセスされるデータを記憶する可能性がある)。一部の例において、ストレージ構成要素248は一時的メモリであり、つまり、ストレージ構成要素248の主目的は長期的な記憶ではない。コンピューティングデバイス210のストレージ構成要素248は、揮発性メモリとしての情報の短期記憶のために構成され、したがって、電源がオフにされた場合、記憶された内容を保持しない可能性がある。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、および当技術分野で知られているその他の形態の揮発性メモリを含む。

一部の例において、さらに、ストレージ構成要素248は、1つまたは複数のコンピュータ可読ストレージ媒体を含む。一部の例において、ストレージ構成要素248は、1つまたは複数の非一時的コンピュータ可読ストレージ媒体を含む。ストレージ構成要素248は、揮発性メモリに通常記憶されるよりも多くの量の情報を記憶するように構成される可能性がある。さらに、ストレージ構成要素248は、不揮発性メモリ空間としての情報の長期記憶のために構成され、電源のオン/オフのサイクルの後に情報を保持する可能性がある。不揮発性メモリの例は、磁気ハードディスク、光ディスク、フロッピーディスク、フラッシュメモリ、または電気的にプログラミング可能なメモリ(EPROM)もしくは電気的に消去可能でありプログラミング可能である(EEPROM)メモリの形態を含む。ストレージ構成要素248は、モジュール220、222、226、230、および282ならびにデータストア224に関連するプログラム命令および/または情報(たとえば、データ)を記憶する可能性がある。ストレージ構成要素248は、モジュール220、222、226、230、および282ならびにデータストア224に関連するデータまたはその他の情報を記憶するように構成されたメモリを含む可能性がある。

UIモジュール220は、図1のコンピューティングデバイス110のUIモジュール120のすべての機能を含む可能性があり、たとえば、コンピューティングデバイス110のユーザとアシスタントモジュール222との間のインタラクションを容易にするためにUID 212においてコンピューティングデバイス210が提供するユーザインターフェース(たとえば、ユーザインターフェース114)を管理するためにUIモジュール120と同様の動作を実行する可能性がある。たとえば、コンピューティングデバイス210のUIモジュール220は、アシスタントユーザインターフェース(たとえば、ユーザインターフェース114)を出力する(たとえば、表示するかまたはオーディオを再生する)ための命令を含むアシスタントモジュール222からの情報を受け取る可能性がある。UIモジュール220は、通信チャネル250を介してアシスタントモジュール222から情報を受け取り、データを使用してユーザインターフェースを生成する可能性がある。UIモジュール220は、UID 212にUID 212においてユーザインターフェースを提示させるために表示または可聴出力コマンドおよび関連するデータを通信チャネル250を介して送信する可能性がある。

一部の例において、UIモジュール220は、UID 212において検出された1つまたは複数のユーザ入力の指示を受け取る可能性があり、ユーザ入力についての情報をアシスタントモジュール222に出力する可能性がある。たとえば、UID 212は、ユーザからの音声入力を検出し、音声入力についてのデータをUIモジュール220に送信する可能性がある。

UIモジュール220は、音声入力の指示をさらに解釈するためにアシスタントモジュール222に送信する可能性がある。アシスタントモジュール222は、音声入力に基づいて、検出された音声入力がアシスタントモジュール222が1つまたは複数のタスクを実行することのユーザの要求を表すと判定する可能性がある。

UIモジュール220は、テキスト音声変換(TTS)を実行することができる可能性がある。たとえば、テキストを(たとえば、アシスタントまたはエージェントによって)与えられるとき、UIモジュール220は、テキストを話す(たとえば、テキストを声に出して読む)ためのオーディオデータを合成する可能性がある。UIモジュール220は、複数の異なる音声を使用してTTSを実行することができる可能性がある。

アプリケーションモジュール226は、情報をユーザに提供するおよび/またはタスクを実行するためにアシスタントモジュール222などのアシスタントによってアクセスされる可能性がある、コンピューティングデバイス210において実行され、コンピューティングデバイス210からアクセスされ得るすべてのさまざまな個々のアプリケーションおよびサービスを表す。コンピューティングデバイス210のユーザは、コンピューティングデバイス210に機能を実行させるために1つまたは複数のアプリケーションモジュール226に関連するユーザインターフェースとインタラクションする可能性がある。アプリケーションモジュール226の多くの例が存在し、フィットネスアプリケーション、カレンダーアプリケーション、検索アプリケーション、地図もしくはナビゲーションアプリケーション、輸送サービスアプリケーション(たとえば、バスもしくは電車追跡アプリケーション)、ソーシャルメディアアプリケーション、ゲームアプリケーション、電子メールアプリケーション、チャットもしくはメッセージングアプリケーション、インターネットブラウザアプリケーション、またはコンピューティングデバイス210において実行され得る任意のおよびすべてのその他のアプリケーションを含む可能性がある。

コンピューティングデバイス210の検索モジュール282は、コンピューティングデバイス210のために統合された検索機能を実行する可能性がある。検索モジュール282は、UIモジュール220、アプリケーションモジュール226のうちの1つもしくは複数、および/またはアシスタントモジュール222によって、それらのモジュールの代わりに検索動作を実行するために呼び出される可能性がある。呼び出されたとき、検索モジュール282は、検索クエリを生成することならびに生成された検索クエリに基づく検索をさまざまなローカルおよびリモート情報ソースにまたがって実行する実行することなどの検索機能を実行する可能性がある。検索モジュール282は、実行された検索の結果を呼び出し元の構成要素またはモジュールに提供する可能性がある。つまり、検索モジュール282は、呼び出しコマンドに応答して検索結果をUIモジュール220、アシスタントモジュール222、および/またはアプリケーションモジュール226に出力する可能性がある。

コンテキストモジュール230は、コンピューティングデバイス210のコンテキストを定義するためにコンピューティングデバイス210に関連するコンテキスト情報を収集する可能性がある。特に、コンテキストモジュール230は、主に、特定の時間のコンピューティングデバイス210の物理的および/または仮想的環境ならびにコンピューティングデバイス210のユーザの特徴を明記するコンピューティングデバイス210のコンテキストを定義するためにアシスタントモジュール222によって使用される。

開示全体を通じて使用されるとき、用語「コンテキスト情報」は、コンピューティングデバイスおよびコンピューティングデバイスのユーザが特定の時間に経験する可能性がある仮想的なおよび/または物理的な環境の特徴を定義するためにコンテキストモジュール230によって使用され得る任意の情報を説明するために使用される。コンテキスト情報の例は多数あり、コンピューティングデバイス210のセンサ(たとえば、位置センサ、加速度計、ジャイロ、気圧計、環境光センサ、近接センサ、マイクロフォン、および任意のその他のセンサ)によって取得されたセンサ情報、コンピューティングデバイス210の通信モジュールによって送信および受信される通信情報(たとえば、テキストに基づく通信、可聴通信、ビデオ通信など)、ならびにコンピューティングデバイス210において実行されるアプリケーションに関連するアプリケーション使用情報(たとえば、アプリケーションに関連するアプリケーションデータ、インターネット検索履歴、テキスト通信、音声およびビデオ通信、カレンダー情報、ソーシャルメディアの投稿および関連する情報など)を含む可能性がある。コンテキスト情報のさらなる例は、コンピューティングデバイス210の外部にある送信デバイスから取得された信号および情報を含む。たとえば、コンテキストモジュール230は、小売商の物理的場所にまたは小売商の物理的場所の近くに置かれた外部ビーコンから送信されたビーコン情報をコンピューティングデバイス210の無線または通信ユニットを介して受信する可能性がある。

アシスタントモジュール222は、図1のコンピューティングデバイス110のローカルアシスタントモジュール122Aのすべての機能を含む可能性があり、アシスタントを提供するためのローカルアシスタントモジュール122Aと同様の動作を実行する可能性がある。一部の例において、アシスタントモジュール222は、アシスタント機能を提供するためにローカルで(たとえば、プロセッサ240において)実行される可能性がある。一部の例において、アシスタントモジュール222は、コンピューティングデバイス210にアクセスし得るリモートアシスタントサービスへのインターフェースとして働く可能性がある。たとえば、アシスタントモジュール222は、図1のアシスタントサーバシステム160のリモートアシスタントモジュール122Bへのインターフェースまたはアプリケーションプログラミングインターフェース(API)である可能性がある。

エージェント選択モジュール227は、所与の発話を満足させるために1つまたは複数のエージェントを選択するための機能を含む可能性がある。一部の例において、エージェント選択モジュール227は、スタンドアロンのモジュールである可能性がある。一部の例において、エージェント選択モジュール227は、アシスタントモジュール222に含まれる可能性がある。

図1のシステム100のエージェントインデックス124Aおよび124Bと同様に、エージェントインデックス224は、3Pエージェントなどのエージェントに関連する情報を記憶する可能性がある。アシスタントモジュール222および/またはエージェント選択モジュール227は、アシスタントのタスクを実行するおよび/または発話を満足させるためにエージェントを選択するために、コンテキストモジュール230および/または検索モジュール282によって提供される任意の情報に加えて、エージェントインデックス224に記憶された情報に依拠する可能性がある。

エージェント選択モジュール227は、ユーザの発話を満足させるために1つまたは複数のエージェントを選択する可能性がある。上で検討されたように、特別な支援(たとえば、アシスタントモジュール222の発行元からの支援)を必要とする発話などの一部の発話(つまり、ユーザの要求)は、3Pエージェントに直接受け渡され得ない。発話を満足させるために特別な支援が必要とされる状況は、アシスタントモジュール222の発行元が発話を満足させるために必要な論理(の少なくとも一部であるが必ずしもすべてであるとは限らない)を実装する可能性があるので1P体験と呼ばれる可能性がある。特別な支援を必要とする可能性がある発話の2つの例は、ホームオートメーションおよび過度に広いクエリである。

ホームオートメーションの発話の例は、「下の階のサーモスタットを71に設定して」である。アシスタントモジュール222の発行元は、ユーザがユーザのホームオートメーション機器をアシスタントモジュール222などに登録することを可能にし得る。上の発話を満足させるために、アシスタントモジュール222は、ユーザのホームオートメーション機器の構成情報を探し、それから、詳細に基づいてオートメーションシステム(たとえば、下の階のサーモスタット)に適切な要求を送信する可能性がある。ユーザのホームオートメーション機器の知識および/またはユーザのホームオートメーション機器へのアクセスの特別な支援が発話を満足させるために必要とされるので、エージェント選択モジュール227が、発話を満足させるために1Pエージェントを選択する可能性がある。言い換えると、このプロセスは、1P体験として実施される可能性がある。

過度に広い発話の例は、「退屈だ」である。その発話を満足させるための多くの潜在的な方法が存在するが、十分な満足はそのときのユーザの好みに依存する。したがって、エージェント選択モジュール227は、1P体験を選択する可能性がある。そのような1P体験において、アシスタントモジュール222は、ユーザが何をしたいかを判定するための一連の質問をユーザに尋ねる可能性がある。たとえば、アシスタントモジュール222は、「映画が見たいですか、それともゲームがしたいですか?」と言う可能性がある。ユーザがゲームがしたいと言うことによって答える場合、アシスタントモジュール222は、「分かりました。戦略ゲームがしたいですか、それともファンタジーゲームがしたいですか?」と言う可能性がある。

これらのおよびその他の同様の状況に関して、アシスタントモジュール222の発行元は、内部に組み込まれた1組の1Pソリューションを提供する可能性がある。一部の例において、1Pソリューションは、1Pエージェントと呼ばれる可能性がある。1Pエージェントは、アシスタントモジュール222の発行元によって特定された1組の1Pトリガフレーズに関連付けられる(つまり、それらによって特定される)可能性がある。

概して、1P体験は、2つの基本モデルに従う可能性がある。第1のモデルにおいて、アシスタントモジュール222の発行元は、完全な体験を扱う可能性がある。1つのそのような例は、発話「OKアシスタント、君はどこで作られた?」である。内部で作られた体験は、アシスタントがどのようにしておよびどこで作られたかについての面白い答えによって応答する可能性がある。

第2のモデルは、アシスタントモジュール222の発行元がタスクのための正確なパラメータを決定するための何らかの対話を実施し、それから、制御を3PエージェントまたはAPIに移す場合である。上の「退屈だ」の例を続けると、対話がユーザが戦略ゲームをしたいことを見つけ出す場合、エージェント選択モジュール227は、そのようなゲームを実施するエージェントを呼び出す可能性がある。別の例として、発話が「タクシーを予約して」である場合、エージェント選択モジュール227は、乗車場所および降車場所、時間、ならびにタクシーのクラスなどの必要な情報をユーザに尋ねるためのアシスタントモジュール222を最初に選択する(つまり、1P体験を最初にトリガする)可能性がある。一部の例において、エージェント選択モジュール227は、タクシーを予約することができる3Pエージェントを選択する可能性があり、アシスタントモジュール222は、集められた情報を選択された3Pエージェントに渡す可能性がある。一部の例において、アシスタントモジュール222は、タクシーを予約することができるエンティティの外部APIに集められた情報を直接渡す可能性がある。これらの方法のどちらかで、エージェント選択モジュール227は、3Pエージェントへの紹介を仲介する可能性がある。

動作中、コンピューティングデバイス210のユーザは、UID 212において発話を与える可能性があり、UID 212は、発話に基づいてオーディオデータを生成する可能性がある。一部の例示的な発話は、「空港まで乗せてもらわなくちゃいけない」、「ジョークを言って」、「ビーフウェリントンのレシピを見せて」を含むがこれらに限定されない。場合によっては、発話は、「GoPizzaアプリを使ってスモールチーズピザを注文して」など、ユーザがアクションを実行したい3Pアシスタントの特定を含む。多くのその他の場合、3Pエージェントへの明示的な言及がユーザによってなされず、その場合、候補3Pエージェントを特定し、それらの候補から好ましい3Pエージェントを選択する必要がある。

エージェント選択モジュール227は、発話を満足させるために1つまたは複数のエージェントを選択する可能性がある。たとえば、エージェント選択モジュール227は、発話が1Pエージェントまたは3Pエージェントに関連するいずれかのトリガフレーズを含むかどうかを判定する可能性がある。発話が1Pトリガフレーズと一致する場合、エージェント選択モジュール227は、1P体験を実行する可能性がある。たとえば、エージェント選択モジュール227は、アシスタントモジュール222に発話を満足させる可能性がある。フレーズが3P体験に一致する場合、エージェント選択モジュール227は、エージェント検索要求をサービスエンジンに送信する可能性がある。エージェント検索要求は、ユーザの発話(つまり、発話に対応するオーディオデータ)、任意の一致するトリガフレーズ、およびコンテキストモジュール230によって決定されたユーザコンテキスト(たとえば、ユーザの一意識別子、ユーザの位置など)を含む可能性がある。簡単にするために、サービスエンジンは、エージェント選択モジュール227の構成要素である可能性があり、エージェント選択モジュール227によって実行されるアクションは、一部の例において、別個のサービスエンジンによって実行される可能性がある。

エージェント選択モジュール227は、発話および任意の一致するトリガフレーズに基づいてエージェントインデックス224を調べる可能性がある。エージェント選択モジュール227は、発話かまたはトリガフレーズかのどちらかに一致するエージェントインデックス224内のエージェントのドキュメントを特定する可能性がある。エージェント選択モジュール227は、特定されたエージェントのドキュメントを(たとえば、発話を満足させるための能力レベルに基づいて)ランク付けする可能性がある。たとえば、エージェント選択モジュール227は、テキスト一致スコアにエージェント品質スコアを掛ける可能性がある。上で検討されたように、エージェント品質スコアは、エージェントインデックス224に記憶される可能性がある。テキスト一致スコアは、発話の中のテキストとエージェントのドキュメントの中のテキストとの間の一致の加重和である可能性がある。一部の例において、エージェント選択モジュール227は、タイトルフィールド、トリガフレーズ、またはカテゴリ内で重い重みを与える可能性がある。一部の例において、エージェント選択モジュール227は、説明の中の一致により低い重みを与える可能性がある。

一部の例において、エージェント選択モジュール227は、普通のウェブ検索によって発話を送る(つまり、検索モジュール282に発話に基づいてウェブを検索させる)可能性もある。一部の例において、エージェント選択モジュール227は、エージェントインデックス224を調べることと並行して普通のウェブ検索によって発話を送る可能性もある。

エージェント選択モジュール227は、発話を満足させるためにエージェントを選択するためにウェブ検索からのランク付けおよび/または結果を分析する可能性がある。たとえば、エージェント選択モジュール227は、ウェブの結果を調べて、エージェントに関連するウェブページの結果が存在するかどうかを判定する可能性がある。エージェントに関連するウェブページの結果が存在する場合、エージェント選択モジュール227は、ウェブページの結果に関連するエージェントをランク付けされた結果に挿入する可能性がある(前記エージェントがランク付けされた結果にまだ含まれていない場合)。エージェント選択モジュール227は、ウェブのスコアの強さに従ってエージェントのランク付けを引き上げる可能性がある。一部の例において、そのとき、エージェント選択モジュール227は、ユーザが結果の集合内のエージェントのいずれかとインタラクションしたかどうかを判定するために個人履歴ストアに問い合わせる可能性がある。インタラクションした場合、エージェント選択モジュール227は、それらのエージェントとのユーザの履歴の強さ応じてそれらのエージェントに引き上げ(つまり、高められたランク付け)を与える可能性がある。

エージェント選択モジュール227は、エージェントの結果のこの最終的なランク付けされた組に基づいて発話を満足させるために3Pエージェントを選択する可能性がある。たとえば、エージェント選択モジュール227は、発話を満足させるために最も高いランク付けを有する3Pエージェントを選択する可能性がある。ランク付けの中に同一ランクの3Pエージェントがある場合および/または最も高いランク付けを有する3Pエージェントのランク付けがランク付けのしきい値未満である場合などの一部の例において、エージェント選択モジュール227は、発話を満足させるために3P言語エージェントを選択するためにユーザ入力を求める可能性がある。たとえば、エージェント選択モジュール227は、UIモジュール220に、ユーザが発話を満足させるためにN個(たとえば、2個、3個、4個、5個など)の適度にランク付けされた3Pエージェントから3Pエージェントを選択することを要求するユーザインターフェース(つまり、選択UI)を出力させる可能性がある。一部の例において、N個の適度にランク付けされた3Pエージェントは、上位N位までのエージェントを含む可能性がある。一部の例において、N個の適度にランク付けされた3Pエージェントは、上位N位までのエージェント以外のエージェントを含む可能性がある。

エージェント選択モジュール227は、エージェントの属性を調べ、および/またはさまざまな3Pエージェントから結果を取得し、それらの結果をランク付けし、それから最も高くランク付けされた結果を与える3Pエージェントを呼び出す(つまり、選択する)ことができる。たとえば、発話が「ピザを注文する」ことである場合、エージェント選択モジュール227は、ユーザの現在位置を判定し、ピザのどの供給元がユーザの現在位置に最も近いかを判定し、現在位置に関連するエージェントを最も高くランク付けする可能性がある。同様に、エージェント選択モジュール227は、品物の価格について複数の3Pエージェントを調査し、それから、最も低い価格に基づいて購入を完了することをユーザに許すためのエージェントを提供することができる。最後に、エージェント選択モジュール227は、1Pエージェントがタスクを満たすことができないと初めに判定し、複数の3Pエージェントがタスクを満たすことができるかどうかを知るためにそれらの3Pエージェントを試し、それらの3Pエージェントのうちの1つまたは数個のみがタスクを満たすことができると仮定して、それらのエージェントのみをタスクを実施するためにユーザにオプションとして与えることができる。

選択されたエージェント(1Pエージェント、3Pエージェント、または1P言語エージェントおよび3Pエージェントの何らかの組合せ)は、発話を満足させようと試みる可能性がある。たとえば、エージェント選択モジュール227は、エージェントインデックス224を調べることによって決定され得る選択されたエージェントのエントリポイントに要求を出力する可能性がある。発話を満足させることを試みるために、選択されたエージェントは、1つまたは複数のアクションを実行する(たとえば、発話に基づいて有用な情報を出力するか、発話によって示されたユーザのニーズに応えるか、またはそうでなければ発話に基づいてユーザがさまざまな現実のもしくは仮想的なタスクを完了するのを助けるための特定の動作を実行する)可能性がある。

一部の例においては、アクションを実行するエージェントの種類(1P対3P)の指示が存在する可能性がある。たとえば、1つまたは複数のアクションがユーザと「話すこと」を含む場合、1Pエージェントおよび3Pエージェントは、異なる音声を利用する可能性がある。一例として、1Pエージェントは、すべて、複数の音声のうちの予約された音声を利用する可能性があり、3Pエージェントは、複数の音声のうちのその他の音声を利用する可能性があるが、予約された音声を使用することを禁止される可能性がある。

一部の例において、エージェント選択モジュール227は、アシスタントモジュール222に、エージェントがユーザの要求をどれだけ丁度よく満たしたかに関するユーザのフィードバックを要求させる可能性がある。たとえば、アシスタントモジュール222は、「あなたは、今、City Transit Scheduleエージェントとインタラクションしました。一言二言で言って、インタラクションはどのくらい良かったですか?」と言う可能性がある。アシスタントモジュール222は、ユーザの答えに基づいて、インタラクションが良い体験であったのかまたは悪い体験であったのかを(たとえば、気持ちの分析を使用して)判定する可能性がある。アシスタントモジュール222は、体験のスコアを決定し、決定されたスコアをランク付けにフィードバックする可能性がある。たとえば、アシスタントモジュール222は、充足についてのユーザのフィードバックに基づいて要求を満たしたエージェントのエージェント品質スコアを修正する可能性がある。このようにして、本開示の技術は、エージェントが過去にどれだけ上手く機能したかに基づいてエージェント選択モジュール227がエージェントを選択することを可能にする。

上で検討されたように、場合によっては、発話は、「GoPizzaアプリを使ってスモールチーズピザを注文して」など、ユーザがアクションを実行したい3Pアシスタントの特定を含む。多くのその他の場合、3Pエージェントへの明示的な言及がユーザによってなされず、その場合、候補3Pエージェントを特定し、それらの候補から好ましい3Pエージェントを選択する必要がある。そのような状況による複雑さは、ユーザのためにピザを注文することができる可能性がある複数のエージェントが存在し得ることである。したがって、複数の一致するエージェントが存在する場合、ユーザは、発話を満足させるために一致するエージェントのうちの1つを選択するように求められる可能性がある。たとえば、エージェント選択モジュール227は、Pizza HouseエージェントとPizza4Uエージェントとの間で選択を行うようにユーザに求める選択UIを出力する可能性がある。

図3は、本開示の1つまたは複数の態様による例示的なバーチャルアシスタントを実行するように構成される例示的なコンピューティングシステムを示すブロック図である。図3のアシスタントサーバシステム360が、図1のアシスタントサーバシステム160の例として下で説明される。図3は、アシスタントサーバシステム360の1つの特定の例を示すだけであり、アシスタントサーバシステム360の多くのその他の例が、その他の場合に使用される可能性があり、例示的なアシスタントサーバシステム360に含まれる構成要素のサブセットを含む可能性があり、または図3に示されない追加の構成要素を含む可能性がある。

図3の例に示されるように、アシスタントサーバシステム360は、1つまたは複数のプロセッサ340、1つまたは複数の通信ユニット342、および1つまたは複数のストレージ構成要素348を含む。ストレージ構成要素348は、アシスタントモジュール322、検索モジュール382、コンテキストモジュール330、およびエージェントインデックス324を含む。

プロセッサ340は、図2のコンピューティングシステム210のプロセッサ240に類似している。通信ユニット342は、図2のコンピューティングシステム210の通信ユニット242に類似している。ストレージデバイス348は、図2のコンピューティングシステム210のストレージデバイス248に類似している。通信チャネル350は、図2のコンピューティングシステム210の通信チャネル250に類似しており、したがって、構成要素間通信のために構成要素340、342、および348の各々を相互に接続する可能性がある。一部の例において、通信チャネル350は、システムバス、ネットワーク接続、プロセス間通信データ構造、またはデータを伝達するための任意のその他の方法を含む可能性がある。

アシスタントサーバシステム360の検索モジュール382は、コンピューティングデバイス210の検索モジュール282に類似しており、アシスタントサーバシステム360のために統合された検索機能を実行する可能性がある。つまり、検索モジュール382は、アシスタントモジュール322のために検索動作を実行する可能性がある。一部の例において、検索モジュール382は、アシスタントモジュール322のために検索動作を実行するための検索サーバシステム180などの外部検索システムとインターフェースをとる可能性がある。呼び出されたとき、検索モジュール382は、検索クエリを生成することならびに生成された検索クエリに基づく検索をさまざまなローカルおよびリモート情報ソースにまたがって実行することなどの検索機能を実行する可能性がある。検索モジュール382は、実行された検索の結果を呼び出し元の構成要素またはモジュールに提供する可能性がある。つまり、検索モジュール382は、検索結果をアシスタントモジュール322に出力する可能性がある。

アシスタントサーバシステム360のコンテキストモジュール330は、コンピューティングデバイス210のコンテキストモジュール230に類似している。コンテキストモジュール330は、コンピューティングデバイスのコンテキストを定義するために図1のコンピューティングデバイス110および図2のコンピューティングデバイス210などのコンピューティングデバイスに関連するコンテキスト情報を収集する可能性がある。コンテキストモジュール330は、主に、アシスタントサーバシステム360によって提供されるサービスとインターフェースをとり、アシスタントサーバシステム360によって提供されるサービスにアクセスするコンピューティングデバイスのコンテキストを定義するためにアシスタントモジュール322および/または検索モジュール382によって使用される可能性がある。コンテキストは、特定の時間のコンピューティングデバイスの物理的および/または仮想的環境ならびにコンピューティングデバイスのユーザの特徴を明記する可能性がある。

アシスタントモジュール322は、図1のローカルアシスタントモジュール122Aおよびリモートアシスタントモジュール122Bならびに図2のコンピューティングデバイス210のアシスタントモジュール222のすべての機能を含む可能性がある。アシスタントモジュール322は、アシスタントサーバシステム360を介してアクセス可能であるアシスタントサービスを提供するためにリモートアシスタントモジュール122Bと同様の動作を実行する可能性がある。つまり、アシスタントモジュール322は、アシスタントサーバシステム360とネットワークを介して通信しているコンピューティングデバイスがアクセスし得るリモートアシスタントサービスとのインターフェースとして働く可能性がある。たとえば、アシスタントモジュール322は、図1のアシスタントサーバシステム160のリモートアシスタントモジュール122BへのインターフェースまたはAPIである可能性がある。

図2のエージェントインデックス224と同様に、エージェントインデックス324は、3Pエージェントなどのエージェントに関連する情報を記憶する可能性がある。アシスタントモジュール322および/またはエージェント選択モジュール327は、アシスタントのタスクを実行するおよび/または発話を満足させるためにエージェントを選択するために、コンテキストモジュール330および/または検索モジュール382によって提供される任意の情報に加えて、エージェントインデックス324に記憶された情報に依拠する可能性がある。

概して、エージェントの説明およびトリガフレーズは、エージェントについての比較的少ない量の情報を与えるだけである可能性がある。エージェントについて利用可能な情報が多ければ多いほど、エージェント選択モジュール(たとえば、エージェント選択モジュール224および/またはエージェント選択モジュール324)は、ユーザの発話に適用可能なエージェントをますます上手く選択することができる。本開示の1つまたは複数の技術によれば、エージェント精度モジュール331が、エージェントについての追加的な情報を集める可能性がある。一部の例において、エージェント精度モジュール331は、自動化されたエージェントクローラであると考えられる可能性がある。たとえば、エージェント精度モジュール331は、各エージェントに問い合わせ、エージェント精度モジュール331が受け取る情報を記憶する記憶する可能性がある。一例として、エージェント精度モジュール331は、デフォルトのエージェントのエントリポイントに要求を送信する可能性があり、エージェントの能力についてエージェントから返ってきた説明を受け取る。エージェント精度モジュール331は、この受け取られた情報をエージェントインデックス324に(つまり、ターゲット設定を改善するために)記憶する可能性がある。

一部の例においては、アシスタントサーバシステム360が、適切な場合、エージェントのための在庫情報を受け取る可能性がある。一例として、オンライン食料雑貨店に関するエージェントは、説明、価格、量などを含むそれらの食料雑貨店の製品のデータフィード(たとえば、構造化されたデータフィード)をアシスタントサーバシステム360に提供する可能性がある。エージェント選択モジュール(たとえば、エージェント選択モジュール224および/またはエージェント選択モジュール324)は、ユーザの発話を満足させるためにエージェントを選択することの一部としてこのデータにアクセスする可能性がある。これらの技術は、システムが「プロセッコのボトルを注文して」などのクエリにより上手く応えることを可能にし得る。そのような状況で、エージェント選択モジュールは、エージェントがそれらのエージェントのリアルタイムの在庫を提供し、エージェントがプロセッコを販売し、プロセッコを在庫していることを示した場合、この発話をエージェントにより確信を持ってマッチングすることができる。

一部の例において、アシスタントサーバシステム360は、ユーザが使用したい可能性があるエージェントを発見する/見つけるためにユーザが閲覧し得るエージェントのディレクトリを提供する可能性がある。ディレクトリは、各エージェントの説明、能力のリスト(自然言語で、たとえば、「あなたはこのエージェントをタクシーを呼ぶために使用することができます」、「あなたはこのエージェントを食べ物のレシピを見つけるために使用することができます」)を有する可能性がある。ユーザがそれらのユーザが使用したいエージェントをディレクトリ内で見つける場合、ユーザは、エージェントを選択する可能性があり、エージェントが、ユーザによって利用され得るようにされる可能性がある。たとえば、アシスタントモジュール322は、エージェントインデックス224および/またはエージェントインデックス324にエージェントを追加する可能性がある。したがって、エージェント選択モジュール227および/またはエージェント選択モジュール327は、将来の発話を満足させるために追加されたエージェントを選択する可能性がある。一部の例においては、1つまたは複数のエージェントが、ユーザの選択なしにエージェントインデックス224またはエージェントインデックス324に追加される可能性がある。そのような例の一部において、エージェント選択モジュール227および/またはエージェント選択モジュール327は、ユーザの発話を満足させるためにユーザによって選択されなかったエージェントを選択するおよび/または提案することができる可能性がある。一部の例において、エージェント選択モジュール227および/またはエージェント選択モジュール327は、さらに、エージェントがユーザによって選択されたかどうかに基づいてそれらのエージェントをランク付けする可能性がある。

一部の例において、エージェントのディレクトリにおいて挙げられたエージェントのうちの1つまたは複数は、無料である(つまり、コストなしで提供される)可能性がある。一部の例において、エージェントのディレクトリにおいて挙げられたエージェントのうちの1つまたは複数は、無料ではない可能性がある(つまり、ユーザは、エージェントを使用するためにお金または何らかのその他の対価を払わなければならない可能性がある)。

一部の例において、エージェントのディレクトリは、ユーザのレビューおよび格付けを収集する可能性がある。収集されたユーザのレビューおよび格付けは、エージェント品質スコアを修正するために使用される可能性がある。一例として、エージェントが肯定的なレビューおよび/または格付けを受け取るとき、エージェント精度モジュール331は、エージェントインデックス224またはエージェントインデックス324内のエージェントのエージェント品質スコアを上げる可能性がある。別の例として、エージェントが否定的なレビューおよび/または格付けを受け取るとき、エージェント精度モジュール331は、エージェントインデックス224またはエージェントインデックス324内のエージェントのエージェント品質スコアを下げる可能性がある。

図4は、本開示の1つまたは複数の態様による例示的なサードパーティエージェントを実行するように構成される例示的なコンピューティングシステムを示すブロック図である。図4の3Pエージェントサーバシステム470が、図1の3Pエージェントサーバシステム170のうちの3Pエージェントサーバシステムの例として下で説明される。図4は、3Pエージェントサーバシステム470の1つの特定の例を示すだけであり、3Pエージェントサーバシステム470の多くのその他の例が、その他の場合に使用される可能性があり、例示的な3Pサーバシステム470に含まれる構成要素のサブセットを含む可能性があり、または図4に示されない追加の構成要素を含む可能性がある。

図4の例に示されるように、3Pエージェントサーバシステム470は、1つまたは複数のプロセッサ440、1つまたは複数の通信ユニット442、および1つまたは複数のストレージ構成要素448を含む。ストレージ構成要素448は、3Pエージェントモジュール428を含む。

プロセッサ440は、図3のアシスタントサーバシステム360のプロセッサ340に類似している。通信ユニット442は、図3のアシスタントサーバシステム360の通信ユニット342に類似している。ストレージデバイス448は、図3のアシスタントサーバシステム360のストレージデバイス348に類似している。通信チャネル450は、図3のアシスタントサーバシステム360の通信チャネル350に類似しており、したがって、構成要素間通信のために構成要素440、442、および448の各々を相互に接続する可能性がある。一部の例において、通信チャネル450は、システムバス、ネットワーク接続、プロセス間通信データ構造、またはデータを伝達するための任意のその他の方法を含み得る。

3Pエージェントモジュール428は、図1のローカル3Pエージェントモジュール128のうちのローカル3Pエージェントモジュールおよびリモート3Pエージェントモジュール128のうちの対応するリモート3Pエージェントモジュールのすべての機能を含む可能性がある。3Pエージェントモジュール428は、3Pエージェントサーバシステム470を介してアクセス可能であるサードパーティエージェントを提供するためのリモート3Pエージェントモジュール128のうちのリモート3Pエージェントモジュールと同様の動作を実行する可能性がある。つまり、3Pエージェントモジュール428は、3Pエージェントサーバシステム470とネットワークを介して通信しているコンピューティングデバイスがアクセスし得るリモートエージェントサービスとのインターフェースとして働く可能性がある。たとえば、3Pエージェントモジュール428は、図1の3Pエージェントサーバシステム170のうちの3Pエージェントサーバシステムのリモート3Pエージェントモジュール128のうちのリモート3PエージェントモジュールへのインターフェースまたはAPIである可能性がある。

動作中、3Pエージェントモジュール428は、ユーザのコンピュータによるアシスタントによって呼び出される可能性がある。たとえば、3Pエージェントモジュール428は、コンピューティングデバイス110において受け取られたユーザの発話を満足させるために1つまたは複数のアクションを実行するために図1のアシスタントモジュール122によって提供されるアシスタントによって呼び出される可能性がある。アクションの少なくとも一部を実行した(たとえば、多要素タスクの1つまたは複数の要素を実行した)後、3Pエージェントモジュール428は、実行されたアクションの指示を呼び出し元のアシスタントに送る可能性がある。たとえば、注文を処理するために呼び出される場合、3Pエージェントモジュール428は、注文の1つまたは複数の詳細をアシスタントに出力する可能性がある。

図5は、本開示の1つまたは複数の態様による例示的なバーチャルアシスタントを実行する1つまたは複数のプロセッサによって実行される例示的な動作を示す流れ図である。図5が、図1のシステム100の文脈で下で説明される。たとえば、ローカルアシスタントモジュール122Aは、コンピューティングデバイス110の1つまたは複数のプロセッサにおいて実行される間に、本開示の1つまたは複数の態様に従って動作502～506を実行する可能性がある。また、一部の例において、リモートアシスタントモジュール122Bは、アシスタントサーバシステム160の1つまたは複数のプロセッサにおいて実行される間に、本開示の1つまたは複数の態様に従って動作500～506を実行する可能性がある。例示のみを目的として、図5が、図1のコンピューティングデバイス110の文脈で下で説明される。

動作中に、コンピューティングデバイス110は、コンピューティングデバイスのユーザとアシスタントとの間の会話を示すユーザ入力の指示を受け取る可能性がある(502)。たとえば、コンピューティングデバイス110のユーザは、ローカルアシスタントモジュール122Aによって音声データとして受け取られる発話「空港まで乗せてもらわなくちゃいけない」をUID 112において与える可能性がある。

コンピューティングデバイス110が、ユーザ入力に基づいて複数のエージェントからエージェントを選択する可能性がある(504)。たとえば、ローカルアシスタントモジュール122Aは、発話が複数のエージェントのうちのエージェントに関連する1つまたは複数のトリガワードを含むかどうかを判定する可能性がある。コンピューティングデバイス110が発話に含まれるトリガワードに関連付けられる1つまたは複数のエージェントを特定することができる場合、コンピューティングデバイス110は、特定されたエージェントに関連する情報と発話から決定されたテキストとの間の比較に少なくとも部分的に基づいて特定されたエージェントをランク付けする可能性がある。コンピューティングデバイス110は、ランク付けに少なくとも部分的に基づいて、発話を満足させるために特定されたエージェントのうちのエージェントを選択する可能性がある。

一部の例において、複数のエージェントは、1つまたは複数のファーストパーティエージェントおよび複数のサードパーティエージェントを含む可能性がある。そのような例の一部において、コンピューティングデバイス110は、ユーザ入力がファーストパーティエージェントに関連するいかなるトリガワードも含まないとき、サードパーティエージェントを選択すると決定する(つまり、サードパーティエージェントを参加させると決定する)可能性がある。

選択されたエージェントは、ユーザ入力に応えるための1つまたは複数のアクションを決定する可能性がある。一部の例において、コンピューティングデバイス110は、選択されたエージェントによって決定された1つまたは複数のアクションを少なくとも部分的に実行する可能性がある(506)。たとえば、発話が「アーティストAの歌を再生する」ことである場合、選択されたエージェントは、コンピューティングデバイス110にアーティストAの歌を再生させる可能性がある。一部の例において、選択されたエージェントによって決定された1つまたは複数のアクションは、少なくとも部分的にコンピューティングデバイス110以外のコンピューティングデバイスによって実行される可能性がある。たとえば、発話が「空港まで乗せてもらわなくちゃいけない」である場合、選択されたエージェントは、輸送会社のコンピューティングデバイスに要求を出力する可能性があり、輸送会社のコンピューティングデバイスは、コンピューティングデバイス110のユーザを空港まで輸送するための車両の経路を指定する可能性がある。

一部の例において、エージェントは、ユーザとインタラクションする過程で別のエージェントに問い合わせる可能性がある。たとえば、製品検索エージェントは、(たとえば、製品検索エージェントがそれ自体で支払いを扱うことができないときなどに)ユーザからの支払いを手配するために支払いエージェントに問い合わせる可能性がある。これは、(たとえば、ユーザがよくある支払いインターフェースを使用することができるようにおよび/もしくはセキュリティを高めるために)ユーザの便宜のために行われる可能性があり、または委託される者に対して当事者によって支払われる料金もしくはその他の対価に関して行われる可能性がある(たとえば、支払いエージェントの発行元は、支払いを処理することに関して何らかの対価を受け取る可能性がある)。

図6A～図6Bは、本開示の1つまたは複数の態様による、タスクを実行するためのバーチャルエージェントを選択するために1つまたは複数のプロセッサによって実行される例示的な動作を示す流れ図である。図6A～図6Cは、図1のシステム100の文脈で下で説明される。たとえば、ローカルアシスタントモジュール122Aは、コンピューティングデバイス110の1つまたは複数のプロセッサにおいて実行される間に、本開示の1つまたは複数の態様に従って動作602～628のうちの1つまたは複数を実行する可能性がある。また、一部の例において、リモートアシスタントモジュール122Bは、アシスタントサーバシステム160の1つまたは複数のプロセッサにおいて実行される間に、本開示の1つまたは複数の態様に従って動作602～628のうちの1つまたは複数を実行する可能性がある。例示のみを目的として、図6A～図6Cが、図1のコンピューティングデバイス110の文脈で下で説明される。

動作中、コンピューティングデバイス110は、コンピューティングデバイス110において話された発話の表現を受け取る可能性がある(602)。たとえば、コンピューティングデバイス110のUID 112の1つまたは複数のマイクロフォンが、コンピューティングデバイス110のユーザが「地下室の電気を点けて」と言うことを表すオーディオデータを生成する可能性がある。UID 112は、ローカルアシスタントモジュール122Aおよび/またはアシスタントサーバシステム160のリモートアシスタントモジュール122Bによって提供されるアシスタントにオーディオデータを提供する可能性がある。

アシスタントは、発話に基づいて、実行されるタスクを特定する可能性がある(604)。一例として、発話が「地下室の電気を点けて」である場合、アシスタントは、オーディオデータを解析して、タスクが地下室と呼ばれる部屋の電気を作動させることであると判定する可能性がある。別の例として、発話が「Pizza Jointの宅配でピザを注文して」である場合、アシスタントは、オーディオデータを解析して、タスクがPizza Jointと呼ばれる場所からユーザの家の住所まで宅配のピザを注文することであると判定する可能性がある。別の例として、発話が、「カラスの平均飛行速度をSearch Companyに聞いて」である場合、アシスタントは、オーディオデータを解析して、タスクがカラスの平均飛行速度に関するウェブ検索を実行することであると判定する可能性がある。

アシスタントは、発話が複数のエージェントのうちのファーストパーティエージェントに関連するいずれかのトリガワード(たとえば、単語または語句)を含むかどうかを判定する可能性がある(606)。たとえば、アシスタントは、発話の中の単語をエージェントインデックス124Aに含まれるファーストパーティのトリガフレーズと比較する可能性がある。発話がファーストパーティエージェントに関連するいずれかのトリガワードを含む場合(606の「Yes」の分岐)、アシスタントは、タスクを実行するためにファーストパーティエージェントを選択し(608)、選択されたファーストパーティエージェントにタスクを実行させる(610)可能性がある。たとえば、発話が「カラスの平均飛行速度をSearch Companyに聞いて」であり、エージェントインデックス124Aが「Search Company」がファーストパーティ検索エージェントに関連するトリガワードであることを示す場合、アシスタントは、ファーストパーティ検索エージェントを選択し、ファーストパーティ検索エージェントにカラスの平均飛行速度に関するウェブ検索を実行させる可能性がある。

発話がファーストパーティエージェントに関連するいかなるトリガワードも含まない場合(606の「No」の分岐)、アシスタントは、発話が複数のエージェントのうちのサードパーティエージェントに関連するいずれかのトリガワードを含むかどうかを判定する可能性がある(612)。たとえば、アシスタントは、発話の中の単語をエージェントインデックス124Aに含まれるサードパーティのトリガフレーズと比較する可能性がある。発話が特定のサードパーティエージェントに関連するいずれかのトリガワードを含む場合(612の「Yes」の分岐)、アシスタントは、タスクを実行するために特定のサードパーティエージェントを選択し(608)、特定のサードパーティエージェントにタスクを実行させる(610)可能性がある。たとえば、発話が「Pizza Jointの宅配でピザを注文して」であり、エージェントインデックス124Aが「注文する」および「Pizza Joint」が特定のサードパーティ注文エージェントに関連するトリガワードであることを示す場合、アシスタントは、特定のサードパーティ注文エージェントを選択し、特定のサードパーティ注文エージェントにピザがユーザの住居に配達される注文を作成させる可能性がある。

アシスタントは、(たとえば、タスクを実行するエージェントの能力に基づいて)エージェントをランク付けする可能性がある。たとえば、発話がサードパーティエージェントに関連するいかなるトリガワードも含まない場合(612の「No」の分岐)、アシスタントは、特定されたタスクを実行するファーストパーティエージェントの能力レベルを判定し(616)、特定されたタスクを実行するサードパーティエージェントの能力レベルを判定する(618)可能性がある。一例として、ファーストパーティエージェントの能力レベルを計算するために、アシスタントは、アシスタントが特定されたタスクを実行する能力がどれだけあるかを示す測定基準を計算する可能性がある。別の例として、アシスタントは、それぞれのサードパーティエージェントが特定されたタスクを実行する能力がどれだけあるかを示すそれぞれのサードパーティエージェントに関するそれぞれの測定基準を計算する可能性がある。たとえば、アシスタントは、第1の3Pエージェントが特定されたタスクを実行する能力がどれだけあるかを示す第1の3Pエージェントに関する測定基準および第2の3Pエージェントが特定されたタスクを実行する能力がどれだけあるかを示す第2の3Pエージェントに関する測定基準を計算する可能性がある。一部の例において、測定基準は、より大きい値ほどより高い性能を示すような能力との正の相関を有する可能性がある。一部の例において、測定基準は、より小さい値ほどより高い性能を示すような能力との負の相関を有する可能性がある。測定基準は、さまざまな方法で計算される可能性がある。一例として、測定基準は、上で検討されたようにエージェントインデックス124に記憶された(ウェブ検索に基づいて修正されるかもしくは修正されないかのどちらかである)エージェント品質スコアまたはその他の情報に基づいて計算される可能性がある。

アシスタントは、ランク付けに基づいてエージェントを選択する可能性がある。たとえば、アシスタントは、ファーストパーティエージェントの能力レベルが能力レベルしきい値を満たすかどうかを判定する可能性がある(620)。たとえば、測定基準が能力と正の相関がある場合、アシスタントは、ファーストパーティエージェントの能力レベルが能力レベルしきい値以上であるかどうかを判定する可能性がある。ファーストパーティエージェントの能力レベルが能力レベルしきい値を満たす場合(620の「Yes」の分岐)、アシスタントは、タスクを実行するためにファーストパーティエージェントを選択し(608)、選択されたファーストパーティエージェントにタスクを実行させる(610)可能性がある。

ファーストパーティエージェントの能力レベルが能力レベルしきい値を満たさない場合(620の「No」の分岐)、アシスタントは、最も高い能力レベルを有するサードパーティエージェント(以降、「特定のサードパーティエージェント」)が能力レベルしきい値を満たすかどうかを判定する可能性がある(622)。特定のサードパーティエージェントの能力レベルが能力レベルしきい値を満たす場合(622の「Yes」の分岐)、アシスタントは、タスクを実行するために特定のサードパーティエージェントを選択し(608)、特定のサードパーティエージェントにタスクを実行させる(610)可能性がある。

上で示されたように、一部の例において、アシスタントは、ファーストパーティエージェントを重視してエージェントを選択する可能性がある。たとえば、サードパーティエージェントを評価する前にファーストパーティエージェントを評価することによって、アシスタントは、ファーストパーティエージェントの能力レベルが能力レベルしきい値を満たす限り(たとえサードパーティエージェントがファーストパーティエージェントよりも高い能力レベルを有するとしても)タスクを実行するためにファーストパーティエージェントを選択する可能性がある。その他の例において、アシスタントは、ファーストパーティエージェントを重視することなくエージェントを選択する可能性がある。たとえば、最も高い能力レベルを有するエージェントが能力レベルしきい値を満たす場合、アシスタントは、エージェントがファーストパーティであるのかまたはサードパーティであるのかに関係なくタスクを実行するためにエージェントを選択する可能性がある。

特定のサードパーティエージェントの能力レベルが能力レベルしきい値を満たさない場合(622の「No」の分岐)、アシスタントは、構成されていないサードパーティエージェントの能力レベルを判定し(624)、最も高い能力レベルを有する構成されていないサードパーティエージェント(以降、「特定の構成されていないサードパーティエージェント」)が能力レベルしきい値を満たすかどうかを判定する(626)可能性がある。特定の構成されていないサードパーティエージェントの能力レベルが能力レベルしきい値を満たす場合(626の「Yes」の分岐)、アシスタントは、特定の構成されていないサードパーティエージェントを構成しようとする可能性がある。たとえば、アシスタントは、ユーザが特定の構成されていないサードパーティエージェントを構成したいかどうかをユーザに尋ねるために合成音声データを出力する可能性がある。ユーザが特定の構成されていないサードパーティエージェントを構成したい(特定の構成されていないサードパーティエージェントを特定のサードパーティエージェントにする)ことをユーザが示す場合、アシスタントは、タスクを実行するために特定のサードパーティエージェントを選択し(608)、特定のサードパーティエージェントにタスクを実行させる(610)可能性がある。

上で検討されたように、一部の3Pエージェントは、アシスタントによって使用される前に構成(たとえば、有効化されるかまたは作動させられること)を必要とする可能性がある。概して、アシスタントが、タスクを実行するために予め構成されたエージェントを選択することが望ましい可能性がある。しかし、アシスタントは、その他のエージェントが能力がない場合、タスクを実行するために構成されていないエージェントを評価することが望ましい可能性がある。たとえば、ファーストパーティエージェントおよびいずれの構成されたサードパーティエージェントも特定されたタスクを実行する能力がない場合、アシスタントは、特定されたタスクを実行するために構成されていないエージェントを評価する可能性がある。

特定の構成されていないサードパーティエージェントの能力レベルが能力レベルしきい値を満たさない場合(626の「No」の分岐)、アシスタントは、発話が満たされ得ないという指示を出力する可能性がある(628)。たとえば、アシスタントは、アシスタントが「それをどうすべきか分からない」と言うための合成音声データを出力する可能性がある。

図7は、本開示の1つまたは複数の態様による、複数のバーチャルエージェントによるタスクの実行を容易にするために1つまたは複数のプロセッサによって実行される例示的な動作を示す流れ図である。図7が、図1のシステム100の文脈で以下で説明される。たとえば、ローカルアシスタントモジュール122Aは、コンピューティングデバイス110の1つまたは複数のプロセッサにおいて実行される間に、本開示の1つまたは複数の態様に従って動作702～710のうちの1つまたは複数を実行する可能性がある。また、一部の例において、リモートアシスタントモジュール122Bは、アシスタントサーバシステム160の1つまたは複数のプロセッサにおいて実行される間に、本開示の1つまたは複数の態様に従って動作702～710のうちの1つまたは複数を実行する可能性がある。例示のみを目的として、図7が、図1のコンピューティングデバイス110の文脈で下で説明される。

アシスタントおよび/またはエージェントによって実行され得る一部のタスクは、多要素タスクと考えられる可能性がある。多要素タスクは、タスク全体を達成するために異なるエージェントによって実行され得る要素を有するタスクである可能性がある。多要素タスクの要素は複数のエージェントによって実行される可能性がある(たとえば、第1のエージェントが2要素タスクの第1の要素を実行する可能性があり、第2のエージェントが第2の要素を実行する可能性がある)が、単一のエージェントが要素のすべてをやはり実行することができる可能性がある。一部の例において、多要素タスクの要素のサブセットを実行するための別のエージェントの選択は、多要素タスクの要素であると考えられる可能性がある。

動作中、コンピューティングデバイス110は、コンピューティングデバイス110において話された発話の表現を受け取る可能性がある(702)。たとえば、コンピューティングデバイス110のUID 112の1つまたは複数のマイクロフォンが、コンピューティングデバイス110のユーザが「宅配でラージチーズピザを取って」と言うことを表すオーディオデータを生成する可能性がある。UID 112は、ローカルアシスタントモジュール122Aおよび/またはアシスタントサーバシステム160のリモートアシスタントモジュール122Bによって提供されるアシスタントにオーディオデータを提供する可能性がある。

複数のコンピュータによるエージェントからの第1のコンピュータによるエージェントが、発話に基づいて、実行される多要素タスクを特定する可能性がある(704)。たとえば、発話が「配達のラージチーズピザを取って」である場合、第1のコンピュータによるエージェント(たとえば、アシスタントまたは図1のローカル3Pエージェントモジュール128Aのうちの1つによって提供されるエージェント)は、以下の要素、1)配達の場所を決定すること、2)ピザを注文するためにエージェントを選択すること、および3)ラージチーズピザの注文を処理することを有するものとして多要素タスクを特定する可能性がある。

第1のコンピュータによるエージェントは、多要素タスクの第2のサブセットを実行するために第2のコンピュータによるエージェントを選択する(708)ことを含む多要素タスクの要素の第1のサブセットを実行する(706)可能性がある。たとえば、第1のコンピュータによるエージェントは、配達の場所を決定し、ピザを注文するためにエージェントを選択する可能性がある。配達の場所を決定するために、第1のコンピュータによるエージェントは、ユーザがピザをどこに届けてもらいたいかをユーザに尋ねる可能性がある。たとえば、第1のコンピュータによるエージェントは、コンピューティングデバイス110に、「どこに届けてもらいたいですか」と尋ねる合成されたオーディオデータを出力させる可能性がある。第1のコンピュータによるエージェントは、コンピューティングデバイス110の1つまたは複数のマイクロフォンを介してユーザの返答を受け取る可能性がある。第1のコンピュータによるエージェントは、与えられた住所へのピザを注文するために第2のコンピュータによるエージェントを選択する可能性がある。たとえば、第1のコンピュータによるエージェントは、図6A～図6Cの技術を利用して、ピザを注文するために第2のコンピュータによるエージェントを選択する可能性がある。この例において、発話がエージェントに関するいかなるトリガワードも含まないと仮定すると、第1のコンピュータによるエージェントは、住所へのピザの配達を手配するエージェントの能力レベルに基づいて、ピザを注文するために第2のコンピュータによるエージェントを選択する可能性がある。第1のコンピュータによるエージェントは、選択された第2のコンピュータによるエージェントと通信して、第2のコンピュータによるエージェントにラージチーズピザの注文を処理させる可能性がある。

第1のコンピュータによるエージェントは、第2のコンピュータによるエージェントによって実行されたアクションの指示を受け取る可能性がある(710)。たとえば、第1のコンピュータによるエージェントは、ラージチーズピザが注文され、指定された時間までに与えられた住所に配達されると予測されるという確認を第2のコンピュータによるエージェントから受け取る可能性がある。第1のコンピュータによるエージェントがファーストパーティエージェントである場合、第1のコンピュータによるエージェントは、(たとえば、第2のコンピュータによるエージェントのエージェント品質スコアを修正するために)第2のコンピュータによるエージェントの実行を監視するために第2のコンピュータによるエージェントによって実行されるアクションの指示を利用する可能性がある。タスクがマルチタスクであると判定し、タスクの各要素を異なるエージェントの間に分けることは、最も適切なエージェントがタスクの任意の所与のステップを実行することを可能にする。それは、さらに、マルチタスクのタスクが並列に進められることを可能にし得る。加えて、コンピューティングデバイス110とのユーザインタラクションが改善される。たとえば、ユーザは、上述のように、ピザを注文するプロセスを手引きされる可能性がある。

図8は、本開示の1つまたは複数の態様による、バーチャルエージェントによって生成されたテキストの合成されたオーディオデータを出力するときに使用するための音声を選択するために1つまたは複数のプロセッサによって実行される例示的な動作を示す流れ図である。図8が、図1のシステム100の文脈で以下で説明される。たとえば、ローカルアシスタントモジュール122Aは、コンピューティングデバイス110の1つまたは複数のプロセッサにおいて実行される間に、本開示の1つまたは複数の態様に従って動作802～812のうちの1つまたは複数を実行する可能性がある。また、一部の例において、リモートアシスタントモジュール122Bは、アシスタントサーバシステム160の1つまたは複数のプロセッサにおいて実行される間に、本開示の1つまたは複数の態様に従って動作802～812のうちの1つまたは複数を実行する可能性がある。例示のみを目的として、図8が、図1のコンピューティングデバイス110の文脈で下で説明される。

動作中、コンピューティングデバイス110は、コンピューティングデバイス110において話された発話の表現を受け取る可能性がある(802)。たとえば、コンピューティングデバイス110のUID 112の1つまたは複数のマイクロフォンが、コンピューティングデバイス110のユーザが「ベーキングパウダーの代わりに何が使えるかFood Agentに聞いて」と言うことを表すオーディオデータを生成する可能性がある。UID 112は、ローカルアシスタントモジュール122Aおよび/またはアシスタントサーバシステム160のリモートアシスタントモジュール122Bによって提供されるアシスタントにオーディオデータを提供する可能性がある。

アシスタントは、発話に基づいて複数のエージェントからエージェントを選択する可能性がある(804)。たとえば、アシスタントは、図6A～図6Cの技術を利用して、発話を満たすためにエージェントを選択する可能性がある。発話が「ベーキングパウダーの代わりに何が使えるかFood Agentに聞いて」であり、「Food Agent」がサードパーティエージェントである例において、アシスタントは、発話を満足させるためにFood Agentを選択する可能性がある。

選択されたエージェントは、コンピューティングデバイス110に合成されたオーディオデータを出力させることによって発話に応える可能性がある。たとえば、選択されたエージェントが、コンピューティングデバイス110が合成されたオーディオデータを生成するためにテキスト音声変換(TTS)を実行し得るテキストを提供する可能性がある。しかし、すべてのエージェントに関して同じ音声を使用して合成されたオーディオデータを生成させるのとは対照的に、異なるエージェントが異なる音声を使用することが望ましい可能性がある。加えて、ユーザがファーストパーティエージェントとインタラクションしているのかまたはサードパーティエージェントとインタラクションしているのかをユーザが見分けることができることが、望ましい可能性がある。

本開示の1つまたは複数の技術によれば、ファーストパーティエージェントは、複数の音声のうちの予約された音声を使用して合成されたオーディオデータを出力する可能性があり、一方、サードパーティエージェントは、予約された音声以外の複数の音声のうちの音声を使用して合成されたオーディオデータを出力する可能性がある。したがって、本開示の技術は、ユーザがいつ1Pエージェントとインタラクションしているかの指示(つまり、予約された音声を使用する合成されたオーディオデータ)をユーザにやはり提供しながら、第1の3Pエージェントが第2の3Pエージェントと異なる音声を使用して合成されたオーディオデータを出力することを可能にする。したがって、さらなる情報が、ユーザに出力されるときにオーディオデータに符号化される可能性がある。さらなる情報は、ユーザがインタラクションしているエージェントに関する可能性があり、出力のために使用される音声によって符号化される可能性がある。これらの音声選択技術の例が、図8に示され、下で説明される。

アシスタントは、選択されたエージェントがファーストパーティエージェントであるかどうかを判定する可能性がある(806)。発話が「ベーキングパウダーの代わりに何が使えるかFood Agentに聞いて」であり、Food Agentが発話を満足させるために選択される例において、アシスタントは、選択されたエージェントがファーストパーティエージェントではないと判定する可能性がある。

選択されたエージェントがファーストパーティエージェントである場合(806の「Yes」の分岐)、選択されたエージェント(たとえば、アシスタントまたは別の1Pエージェント)は、複数の音声から予約された音声を選択し(808)、選択された音声を使用して合成されたオーディオデータを出力する(812)可能性がある。たとえば、発話が「下の階のサーモスタットを71に設定して」であり、選択されたエージェントが1Pエージェントである場合、1Pエージェントは、コンピューティングデバイス110に、予約された音声を使用して、「下の階のサーモスタットを71度に設定します」と言う合成されたオーディオデータを出力させる可能性がある。

選択されたエージェントがファーストパーティエージェントではない場合(806の「No」の分岐)、選択されたエージェントは、複数の音声から予約されていない音声を選択し(810)、選択された音声を使用して合成されたオーディオデータを出力する可能性がある(812)。たとえば、発話が「ベーキングパウダーの代わりに何が使えるかFood Agentに聞いて」であり、選択されたエージェントがFood Agent 3Pエージェントである場合、Food Agentは、コンピューティングデバイス110に、予約された音声以外の複数の音声からの音声を使用して、「ティースプーン1杯の代わりに重曹ティースプーン4分の1に酒石英(cream of tartar)ティースプーン8分の5を加えたものを使用することができます」と言う合成されたオーディオデータを出力させる可能性がある。

一部の例において、発話は、リストを読むための合成されたオーディオデータを出力することによって満たされる可能性がある。たとえば、発話に基づいて特定されたタスクが検索である場合、発話の満足は、検索結果のリストを読むための合成されたオーディオデータを出力することを含む可能性がある。一部の例においては、単一のエージェントが、単一の音声を使用してリストの要素のすべてを読む可能性がある。たとえば、ファーストパーティエージェントが、予約された音声を使用して検索結果の完全なリストを読む可能性がある。一部の例においては、単一のエージェントが、リストの要素の異なるサブセットを読むときに異なる音声を使用する。たとえば、ファーストパーティエージェントは、検索結果の第1のサブセットを表す合成されたオーディオデータを出力するときに予約されていない音声を使用し、検索結果の第2のサブセットを表す合成されたオーディオデータを出力するときに予約された音声を使用する可能性がある。一部の例においては、複数のエージェントが、異なる音声を使用してリストの異なる部分を読む可能性がある。たとえば、第1のエージェントが、検索結果の第1のサブセットを表す合成されたオーディオデータを出力するときに第1の音声を使用する可能性があり、第2のエージェントが、検索結果の第2のサブセットを表す合成されたオーディオデータを出力するときに第2の音声を使用する可能性がある。したがって、データの出力がデータ自体に基づいて適合される適応的なインターフェースが提供される。

上で検討されたように、アシスタントは、エージェントにタスク(またはタスクの少なくとも一部の要素)を実行させる可能性がある。一部の例において、アシスタントは、選択されたエージェントを呼び出すことによって選択されたエージェントにタスクを実行させる可能性がある。たとえば、アシスタントは、選択されたエージェントに(たとえば、エージェントインデックスから特定され得る選択されたエージェントのエントリポイントにおいて)タスクを実行する要求を送信する可能性がある。一部の例においては、選択されたエージェントがタスクを実行させられるとき、選択されたエージェントは、タスクをローカルで実行する可能性がある。たとえば、図2のローカル3Pエージェントモジュール228のうちのローカル3Pエージェントモジュールによって提供される3Pエージェントがタスクを実行するために呼び出されるとき、ローカル3Pエージェントモジュール228のうちのローカル3Pエージェントモジュールは、タスクを実行するためにプロセッサ240において実行される可能性がある。一部の例においては、選択されたエージェントがタスクを実行させられるとき、選択されたエージェントは、タスクをローカルで実行する可能性がある。たとえば、図4の3Pエージェントモジュール428によって提供される3Pエージェントがタスクを実行するために呼び出されるとき、3Pエージェントモジュール428は、タスクを実行するためにプロセッサ440において実行される可能性がある。一部の例においては、選択されたエージェントがタスクを実行させられるとき、選択されたエージェントは、ローカル環境とリモート環境との間で混合されたタスクを実行する可能性がある。たとえば、図2のローカル3Pエージェントモジュール228のうちのローカル3Pエージェントモジュールおよび/またはリモート3Pエージェントモジュール128のうちの対応するリモート3Pエージェントモジュールによって提供される3Pエージェントが、タスクを実行するために呼び出され、エージェントは、コンピューティングデバイス110のプロセッサとリモート3Pエージェントモジュール128のうちの対応するリモート3Pエージェントモジュールを含む3Pエージェントサーバシステムのプロセッサとのうちの一方または両方において実行される可能性がある。

以下の番号を振られた例は、本開示の1つまたは複数の態様を示す可能性がある。

例1. 1つまたは複数のプロセッサにおいて実行されるコンピュータによるアシスタントによって、コンピューティングデバイスにおいて話された発話の表現を受け取るステップと、発話に基づいて複数のエージェントからエージェントを選択するステップであって、複数のエージェントが、1つまたは複数のファーストパーティエージェントおよび複数のサードパーティエージェントを含む、ステップと、選択されたエージェントがファーストパーティエージェントを含むとの判定に応じて、複数の音声から予約された音声を選択するステップと、発話を満足させるために、選択された音声を使用して、コンピューティングデバイスの1つまたは複数のスピーカによる再生のために、合成されたオーディオデータを出力するステップとを含む方法。

例2. 発話が、第1の発話を含み、方法が、コンピューティングデバイスにおいて話された第2の発話の表現を受け取るステップと、第2の発話に基づいて複数のエージェントから第2のエージェントを選択するステップと、選択された第2のエージェントがサードパーティエージェントを含むとの判定に応じて、予約された音声以外の複数の音声からの音声を選択するステップと、第2の発話を満足させるために選択された音声を使用して合成されたオーディオデータを出力するステップとをさらに含む例1の方法。

例3. 発話に基づいて複数の検索結果を取得するステップと、予約された音声以外の複数の音声からの音声を使用して、検索結果の第1のサブセットを表す合成されたオーディオデータを出力するステップとをさらに含み、発話を満足させるために、選択された音声を使用して、合成されたオーディオデータを出力するステップが、予約された音声を使用して、検索結果の第2のサブセットを表す合成されたオーディオデータを出力することを含む例1～2の任意の組合せの方法。

例4. 1つまたは複数のプロセッサが、コンピューティングデバイスに含まれる例1～3の任意の組合せの方法。

例5. 1つまたは複数のプロセッサが、コンピューティングシステムに含まれる例1～3の任意の組合せの方法。

例6. 少なくとも1つのプロセッサと、実行されるときに、少なくとも1つのプロセッサに、例1～3の任意の組合せの方法を実行するように構成されたアシスタントを実行させる命令を含む少なくとも1つのメモリとを含むコンピューティングデバイス。コンピューティングデバイスは、1つもしくは複数のマイクロフォンを含むかまたは1つもしくは複数のマイクロフォンに動作可能なように接続される可能性がある。1つまたは複数のマイクロフォンは、発話の表現を受け取るために使用される可能性がある。

例7. 少なくとも1つのプロセッサと、実行されるときに、少なくとも1つのプロセッサに、例1～3の任意の組合せの方法を実行するように構成されたアシスタントを実行させる命令を含む少なくとも1つのメモリとを含むコンピューティングシステム。コンピューティングシステムは、1つまたは複数の通信ユニットも含む可能性がある。コンピューティングシステムは、コンピューティングデバイスから、1つまたは複数の通信ユニットを介して発話の表現を受け取る可能性がある。

例8. 例1～3の任意の組合せの方法を実行するための手段を含むコンピューティングシステム。

例9. 実行されるときに、1つまたは複数のプロセッサに、例1～3の任意の組合せの方法を実行するように構成されたアシスタントを実行させる命令を記憶するコンピュータ可読ストレージ媒体。

1つまたは複数の例において、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組合せで実装される可能性がある。ソフトウェアに実装される場合、機能は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体上に記憶されるかまたはコンピュータ可読媒体上で送信され、ハードウェアに基づく処理ユニットによって実行される可能性がある。コンピュータ可読媒体は、データストレージ媒体などの有形の媒体に対応するコンピュータ可読ストレージ媒体、またはたとえば通信プロトコルによるある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体を含む可能性がある。このようにして、概して、コンピュータ可読媒体は、(1)非一時的である有形のコンピュータ可読ストレージ媒体または(2)信号もしくは搬送波などの通信媒体に対応する可能性がある。データストレージ媒体は、本開示において説明された技術の実装のための命令、コード、および/またはデータ構造を取り出すために1つもしくは複数のコンピュータまたは1つもしくは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体である可能性がある。コンピュータプログラム製品は、コンピュータ可読媒体を含む可能性がある。

限定ではなく例として、そのようなコンピュータ可読ストレージ媒体は、RAM、ROM、EEPROM、CD-ROMもしくはその他の光ディスクストレージ、磁気ディスクストレージもしくはその他の磁気ストレージデバイス、フラッシュメモリ、または命令もしくはデータ構造の形態で所望のプログラムコードを記憶するために使用可能であり、コンピュータによってアクセス可能である任意のその他の媒体を含み得る。また、当然、任意の接続がコンピュータ可読媒体と呼ばれる。たとえば、命令が、同軸ケーブル、光ファイバケーブル、ツイストペアケーブル、デジタル加入者線(DSL)、または赤外線、ラジオ波、およびマイクロ波などのワイヤレステクノロジーを用いてウェブサイト、サーバ、またはその他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペアケーブル、DSL、または赤外線、ラジオ波、およびマイクロ波などのワイヤレステクノロジーは、媒体の定義に含まれる。しかし、コンピュータ可読ストレージ媒体ならびにデータストレージ媒体は、接続、搬送波、信号、またはその他の一時的媒体を含まず、その代わりに、非一時的な有形のストレージ媒体を対象とすることを理解されたい。本明細書において使用されるとき、ディスク(disk)およびディスク(disc)は、コンパクトディスク(CD: compact disc)、レーザディスク(laser disc)、光ディスク(optical disc)、デジタルバーサタイルディスク(DVD: digital versatile disc)、フロッピーディスク(floppy disk)、およびブルーレイディスク(Blu-ray(登録商標) disc)を含み、ディスク(disk)が、通常、磁気的にデータを再生する一方、ディスク(disc)は、レーザを用いて光学的にデータを再生する。上記のものの組合せも、コンピュータ可読媒体の範囲内に含まれるべきである。

命令は、1つまたは複数のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルロジックアレイ(FPGA)、またはその他の等価な集積もしくはディスクリート論理回路などの1つまたは複数のプロセッサによって実行される可能性がある。したがって、用語「プロセッサ」は、本明細書において使用されるとき、上述の構造または本明細書において説明された技術の実装に好適な任意のその他の構造のいずれかを指す可能性がある。加えて、一部の態様において、本明細書において説明された機能は、専用のハードウェアおよび/またはソフトウェアモジュール内に設けられる可能性がある。また、技術は、1つまたは複数の回路または論理要素にすべて実装される可能性がある。

本開示の技術は、ワイヤレスハンドセット、集積回路(IC)、または1組のIC(たとえば、チップセット)を含む多種多様なデバイスまたは装置に実装される可能性がある。さまざまな構成要素、モジュール、またはユニットが、開示された技術を実行するように構成されたデバイスの機能の態様を強調するために本開示において説明されているが、異なるハードウェアユニットによる実現を必ずしも必要としない。むしろ、上述のように、さまざまなユニットが、ハードウェアユニットにおいて組み合わされるか、または好適なソフトウェアおよび/もしくはファームウェアと連携した、上述の1つもしくは複数のプロセッサを含む相互運用性のあるハードウェアユニットの集合によって提供される可能性がある。

さまざまな例が、説明された。これらのおよびその他の例は、添付の請求項の範囲内にある。

100 システム
110 コンピューティングデバイス
112 ユーザインターフェースデバイス(UID)
114 ユーザインターフェース
120 ユーザインターフェース(UI)モジュール
122 アシスタントモジュール
122A ローカルアシスタントモジュール
122B リモートアシスタントモジュール
124 エージェントインデックス
124A エージェントインデックス
124B エージェントインデックス
128 モジュール
128a ローカル3Pエージェントモジュール
128b 3Pエージェントモジュール、リモート3Pエージェントモジュール
128Ab～128Nb モジュール
130 ネットワーク
170 3Pエージェントサーバシステム
180 検索サーバシステム
182 検索モジュール
210 コンピューティングデバイス
212 ユーザインターフェースデバイス(UID)
220 UIモジュール
222 アシスタントモジュール
224 エージェントインデックス
227 エージェント選択モジュール
228 ローカル3Pエージェントモジュール
230 コンテキストモジュール
240 プロセッサ
282 検索モジュール
322 アシスタントモジュール
324 エージェントインデックス
327 エージェント選択モジュール
330 コンテキストモジュール
331 エージェント精度モジュール
340 プロセッサ
342 通信ユニット
348 ストレージデバイス
350 通信チャネル
360 アシスタントサーバシステム
382 検索モジュール
428 3Pエージェントモジュール
440 プロセッサ
442 通信ユニット
448 ストレージ構成要素、ストレージデバイス
450 通信チャネル
470 3Pエージェントサーバシステム

Claims

1つまたは複数のプロセッサにおいて実行されるコンピュータによるアシスタントによって、コンピューティングデバイスにおいて話された発話の表現を受け取るステップと、
前記発話に基づいて複数のエージェントからエージェントを選択するステップであって、前記複数のエージェントが、1つまたは複数のファーストパーティエージェントおよび複数のサードパーティエージェントを含む、ステップと、
前記選択されたエージェントがファーストパーティエージェントを含むとの判定に応じて、複数の音声から予約された音声を選択するステップと、
前記発話を満足させるために、前記選択された音声を使用して、前記コンピューティングデバイスの1つまたは複数のスピーカによる再生のために、合成されたオーディオデータを出力するステップと
を含む方法。

前記発話が、第1の発話を含み、前記方法が、
前記コンピューティングデバイスにおいて話された第2の発話の表現を受け取るステップと、
前記第2の発話に基づいて前記複数のエージェントから第2のエージェントを選択するステップと、
前記選択された第2のエージェントがサードパーティエージェントを含むとの判定に応じて、前記予約された音声以外の前記複数の音声からの音声を選択するステップと、
前記第2の発話を満足させるために前記選択された音声を使用して合成されたオーディオデータを出力するステップと
をさらに含む請求項1に記載の方法。

前記発話に基づいて複数の検索結果を取得するステップと、
前記予約された音声以外の前記複数の音声からの音声を使用して、前記検索結果の第1のサブセットを表す合成されたオーディオデータを出力するステップと
をさらに含み、前記発話を満足させるために、前記選択された音声を使用して、前記合成されたオーディオデータを出力するステップが、
前記予約された音声を使用して、前記検索結果の第2のサブセットを表す合成されたオーディオデータを出力することを含む請求項1または請求項2に記載の方法。

前記1つまたは複数のプロセッサが、前記コンピューティングデバイスに含まれる請求項1から3のいずれか一項に記載の方法。

前記1つまたは複数のプロセッサが、コンピューティングシステムに含まれる請求項1から3のいずれか一項に記載の方法。

少なくとも1つのプロセッサと、
実行されるときに、前記少なくとも1つのプロセッサに、請求項1から3のいずれか一項に記載の方法を実行させる命令を含む少なくとも1つのメモリと
を含むコンピューティングデバイス。

1つまたは複数の通信ユニットと、
少なくとも1つのプロセッサと、
実行されるときに、前記少なくとも1つのプロセッサに、請求項1から3のいずれか一項に記載の方法を実行させる命令を含む少なくとも1つのメモリと
を含むコンピューティングシステム。

実行されるときに、1つまたは複数のプロセッサに、請求項1から3のいずれか一項に記載の方法を実行させる命令を記憶するコンピュータ可読ストレージ媒体。