JP7152196B2

JP7152196B2 - 音声エージェントの進行

Info

Publication number: JP7152196B2
Application number: JP2018111596A
Authority: JP
Inventors: ガンサークレイグ
Original assignee: ハーマンインターナショナルインダストリーズインコーポレイテッド
Priority date: 2017-06-13
Filing date: 2018-06-12
Publication date: 2022-10-12
Anticipated expiration: 2038-06-12
Also published as: KR20180135817A; JP2019003190A; EP3800635B1; CN109087637A; EP3800635A1; US20180359364A1; CN109087637B; US10069976B1; EP3416164B1; EP3416164A1; US10298768B2

Description

本開示は、ネットワーク化された、音声制御式デバイスのおける音声データの扱いの制御に関する。

音声制御式デバイスは、センサデータに応じて、及び／または、検出された条件に対するプログラムされた応答に応じて、様々な機能を実施し得る。たとえば、音声制御式デバイスは、音声の質問に答え、接続されたデバイスを制御し、カレンダ、ノート、通信などを管理し、及び／または、ユーザからの音声入力に別様に応答することで、１人または複数のユーザを補助するために、パーソナルアシスタントとしての役割を果たし、１人または複数のユーザに関するデータを貯蔵する場合がある。

いくつかの実施例では、音声制御式デバイスは、ユーザの家、職場、または他の環境に置かれる。音声制御式デバイスの作動レンジ（たとえば、音声データが、音声制御式デバイスによって検出され得るエリア）は、その音声制御式デバイスのための、組み込まれているか、別様に関連付けられたマイクの特徴に基づく場合がある。音声制御式デバイスは、デバイスの有効レンジをさらに低減する、部屋を分ける壁などの障害物を考慮する場合に特に、家、建物、または他の環境の全体をカバーするのに十分に大であるレンジを有していない場合がある。

音声制御式デバイスのレンジを効果的に拡大させるために、複数のデバイスが、ターゲットとなる環境内に配置され得る。たとえば、部屋がある家または他の建物内で、音声制御式デバイスは、音声入力が環境を通して検出されることを可能にするために、各部屋内に置かれ、及び／または、環境の周りに配置され得る。そのような実施例では、各音声制御式デバイスは、音声エージェントネットワークの個別の音声エージェントとしての役割を果たす場合がある。音声エージェントネットワーク内の各音声エージェントは、少なくとも１つの他の音声エージェント、及び／または、関連するネットワークデバイスに直接（たとえば、仲介デバイス無しで）接続される場合があり、それにより、音声エージェントネットワークの各音声エージェントが、直接的または間接的に（たとえば、１つまたは複数の他の音声エージェント及び／またはネットワークデバイスを介して）、音声エージェントネットワークの他の音声エージェントの各々に接続されるようになっている。

上述のように、音声エージェントネットワークの各音声エージェントは、（たとえば、その音声エージェントのマイクによって）音声データが検出され得る、関連するレンジを有し得る。選択された音声エージェントに関する音声エージェントのゾーンは、このため、選択された音声エージェントのレンジによって規定され、及び／または境界が定められる場合がある。所与の環境をシームレスにカバーするために、音声エージェントネットワークに関する音声エージェントのゾーンは、少なくとも部分的にオーバーラップする場合がある。音声エージェントネットワークが配置されている環境を通してユーザが移動すると、ユーザは、異なる音声エージェントのゾーンを通る場合がある。したがって、ユーザが、音声入力（たとえば、音声による質問、音声コマンドなど）を提供しながら、第１の音声エージェントの第１のゾーンから第２の音声エージェントの第２のゾーンに移行する場合、音声入力は、第１の音声エージェントによって部分的に検出され、また、第２の音声エージェントによって部分的に検出される場合がある。通常の音声エージェントが個別に作動することから、２つ以上の音声エージェントによって検出される音声入力の分析に困難性が生じる場合がある。本開示は、ユーザが音声エージェントのゾーン間で移動する際の損失を避けるために、音声データの進行と、音声エージェント間での音声データの扱いとを制御するためのシステム及び方法を提供する。

実施形態は、複数の音声エージェントを含む音声エージェントネットワークにおける音声入力の検出の制御のために開示される。例示的音声エージェントは、オーディオセンサと、通信インターフェースと、プロセッサと、プロセッサによって実行可能な指示を貯蔵するメモリデバイスであって、オーディオセンサを介して、音声入力に対応する第１のオーディオデータを検出すること、ならびに、音声エージェントネットワークの少なくとも１つの他の音声エージェントが、音声入力に対応する第２の音声データを検出していることを判定することに応じて、第１の音声データが検出される信号強度を判定すること、信号強度を、少なくとも１つの他の音声エージェントから受信された第２の音声データの報告された信号強度と比較すること、及び、第１の音声データの信号強度を、少なくとも１つの他の音声エージェントから受信された第２の音声データの報告された信号強度と比較することに基づき、第１の音声データと検出された音声データとの信号強度の、１つまたは複数の通知を、選択的に送信すること、を行うように、実行可能な指示を貯蔵するメモリデバイスと、を含んでいる。

音声エージェントネットワークにおける音声入力の検出のための例示的制御方法は、第１の音声エージェントにおいて、第１の信号強度における音声入力に対応する第１の音声データを検出することと、第１の信号強度が、音声エージェントネットワーク内の他の音声エージェントの各々から報告された、受信した信号強度より高いことの判定に応じて、第１の音声エージェントをマスター音声エージェントとしてアサインすることと、第１の音声エージェントから、第１の音声データと、第１の音声エージェントがマスター音声エージェントとしてアサインされている間に第１の音声データが検出される、継続的にアップデートされる信号強度の報告とを含むストリームを送信することと、ネットワーク内の第２の音声エージェントが、第１の音声エージェントから現在報告されている信号強度よりも高い信号強度において、音声入力に対応する第２の音声データを検出することの通知を受信するのに応じて、第２の音声エージェントをマスター音声エージェントとしてアサインし、第１の音声エージェントにおけるストリームの送信を停止することとを含んでいる。

音声入力の検出を制御するための例示的音声エージェントネットワークは、複数の音声エージェントと、複数の音声エージェント、及び、質問応答サーバに通信するように結合されたネットワークデバイスと、第１の複数の音声エージェントの第１の音声エージェントであって、第１の音声エージェントのプロセッサにより、第１の信号強度での音声入力に対応する第１の音声データを検出することと、第１の信号強度が、音声エージェントネットワーク内の他の音声エージェントの各々から報告された、受信した信号強度より高いことの判定に応じて、マスター音声エージェントとしてのアサインを受信することと、第１の音声データと、第１の音声エージェントがマスター音声エージェントとしてアサインされている間に第１の音声データが検出される、継続的にアップデートされる信号強度の報告とを含むストリームを送信することと、複数の音声エージェントの第２の音声エージェントが、第１の音声エージェントから現在報告されている信号強度よりも高い信号強度における音声入力に対応する第２の音声データを検出することの通知を受信するのに応じて、第２の音声エージェントをマスター音声エージェントとしてアサインし、第１の音声エージェントにおけるストリームの送信を停止することと、をするように実行可能である指示を貯蔵するメモリデバイスを含む、第１の音声エージェントとを含んでいる。
例えば、本願は以下の項目を提供する。
（項目１）
音声エージェントであって、
オーディオセンサと、
通信インターフェースと、
プロセッサと、
上記プロセッサによって実行可能な指示を貯蔵するメモリデバイスであって、
上記オーディオセンサを介して、音声入力に対応する第１のオーディオデータを検出すること、ならびに、
音声エージェントネットワークの少なくとも１つの他の音声エージェントが、上記音声入力に対応する第２の音声データを検出していることを判定することに応じて、
上記第１の音声データが検出される信号強度を判定すること、
上記信号強度を、上記少なくとも１つの他の音声エージェントから受信された上記第２の音声データの報告された信号強度と比較すること、及び、
上記第１の音声データの上記信号強度を、上記少なくとも１つの他の音声エージェントから受信された上記第２の音声データの上記報告された信号強度と比較することに基づき、上記第１の音声データと上記検出された音声データとの上記信号強度の、１つまたは複数の通知を、選択的に送信すること、を行うように、実行可能な指示を貯蔵する上記メモリデバイスと、を備えた、上記音声エージェント。
（項目２）
上記指示が、少なくとも１つの他の音声エージェントが、別の音声エージェントからの上記音声入力と関連づけられた第１の声紋を受信することにより、上記音声入力に対応する音声データを検出していることを判定するように、さらに実行可能であり、上記音声データの第２の声紋を判定し、上記第２の声紋を上記第１の声紋と比較して、上記第２の声紋が上記第１の声紋にマッチすることを判定する、上記項目に記載の音声エージェント。
（項目３）
上記指示が、上記音声データが検出される現在の信号強度よりも高い、上記少なくとも１つの他の音声エージェントの選択された音声エージェントからの第３の音声データの、報告された信号強度を受信するのに応じて、上記検出された音声データの送信を停止するように、さらに実行可能である、上記項目のいずれか一項に記載の音声エージェント。
（項目４）
上記指示が、上記音声入力の終了の通知を検出することと、上記音声入力の上記終了の上記通知の検出に応じて、少なくとも上記音声エージェントネットワークのネットワークデバイスに、上記音声入力の上記終了を示すメッセージを選択的に送信すること、をさらに実行可能である、上記項目のいずれか一項に記載の音声エージェント。
（項目５）
上記メッセージを選択的に送信することが、上記音声入力の上記終了の上記通知を検出した際に、上記音声エージェントが検出された音声データを送信している場合、上記メッセージを送信することと、上記音声入力の上記終了の上記通知を検出した際に、上記音声エージェントが検出された音声データを送信していない場合、上記メッセージを送信しないことと、を含んでいる、上記項目のいずれか一項に記載の音声エージェント。
（項目６）
出力デバイスをさらに備え、上記指示が、上記音声入力の上記終了の上記通知を検出した際に、上記音声エージェントが検出された音声データを送信しているかに基づき、上記出力デバイスを介して、上記音声入力に対する応答を、選択的に受信及び出力するようにさらに実行可能である、上記項目のいずれか一項に記載の音声エージェント。
（項目７）
上記指示が、上記音声入力に対応する上記音声データの検出を開始することと、上記音声エージェントネットワークの他の音声エージェントの各々に対し、予め規定された起動ワードの検出に応じて上記音声データが検出される信号強度を報告することと、をするようにさらに実行可能である、上記項目のいずれか一項に記載の音声エージェント。
（項目８）
上記指示が、上記音声エージェントネットワークに結合した上記音声エージェントに応じて、アナウンスメッセージを送信するようにさらに実行可能である、上記項目のいずれか一項に記載の音声エージェント。
（項目９）
上記信号強度の通知と、上記検出された音声データとの１つまたは複数を選択的に送信することが、マスター音声エージェントとしてアサインされるのに応じて、少なくとも上記音声エージェントネットワークのネットワークデバイスに、上記検出された音声データ、及び、上記信号強度の上記通知を送信することと、上記信号強度が、上記少なくとも１つの他の音声エージェントの上記報告された信号強度より高いことと、上記音声エージェントが現在、上記マスター音声エージェントとしてアサインされていないこととの判定に応じて、少なくとも上記音声エージェントネットワークのネットワークデバイスに、上記信号強度の上記通知のみを送信することと、を含んでいる、上記項目のいずれか一項に記載の音声エージェント。
（項目１０）
複数の音声エージェントを含む音声エージェントネットワークにおける音声入力の検出の制御方法であって、
上記複数の音声エージェントの第１の音声エージェントにおいて、第１の信号強度における音声入力に対応する第１の音声データを検出することと、
上記第１の信号強度が、上記音声エージェントネットワーク内の他の音声エージェントの各々から報告された、受信した信号強度より高いことの判定に応じて、上記第１の音声エージェントをマスター音声エージェントとしてアサインすることと、
上記第１の音声エージェントから、上記第１の音声データと、上記第１の音声エージェントが上記マスター音声エージェントとしてアサインされている間に上記第１の音声データが検出される、継続的にアップデートされる信号強度の報告とを含むストリームを送信することと、
上記複数の音声エージェントの第２の音声エージェントが、上記第１の音声エージェントから現在報告されている信号強度よりも高い信号強度において、上記音声入力に対応する第２の音声データを検出することの通知を受信するのに応じて、上記第２の音声エージェントを上記マスター音声エージェントとしてアサインし、上記第１の音声エージェントにおける上記ストリームの上記送信を停止することと、を含む、上記制御方法。
（項目１１）
上記第１の音声エージェントから、上記音声入力を識別する声紋を送信することをさらに含む、上記項目に記載の方法。
（項目１２）
上記現在の信号強度が、上記第２の音声エージェントから受信した、最後に報告された信号強度より高いことの判定にのみ応じて、上記第２の音声エージェントが上記マスター音声エージェントとしてアサインされている間に、上記第１の音声エージェントから、上記音声入力に対応する検出された音声データの上記現在の信号強度の報告を送信することをさらに含む、上記項目のいずれか一項に記載の方法。
（項目１３）
上記第１の音声エージェントが上記マスター音声エージェントとしてアサインされている間に、上記音声入力の終了の通知を検出することと、上記音声入力の上記終了の上記通知の検出に応じて、上記音声入力の上記終了を示すメッセージを遠位のデバイスに送信することと、をさらに含む、上記項目のいずれか一項に記載の方法。
（項目１４）
上記音声入力が音声による質問を含み、上記遠位のデバイスが質問応答サーバを含み、上記方法がさらに、上記第１の音声エージェントにおいて、上記音声による質問に対する応答を受信することと、上記第１の音声エージェントの出力デバイスを介して、上記音声による質問に対する上記応答を出力することと、をさらに含む、上記項目のいずれか一項に記載の方法。
（項目１５）
音声エージェントネットワークであって、
複数の音声エージェントと、
上記複数の音声エージェント、及び、質問応答サーバに通信するように結合されたネットワークデバイスと、
上記第１の上記複数の音声エージェントの第１の音声エージェントであって、上記第１の音声エージェントのプロセッサにより、
第１の信号強度及び第１の信号の品質で、音声による質問に対応する第１の音声データを検出することと、
上記第１の信号強度と上記第１の信号の品質との一方または両方が、上記音声エージェントネットワーク内の他の音声エージェントの各々から報告された、受信した信号強度と信号の品質とのそれぞれより高いことの判定に応じて、マスター音声エージェントとしてのアサインを受信することと、
上記第１の音声データと、上記第１の音声エージェントが上記マスター音声エージェントとしてアサインされている間に上記第１の音声データが検出される、継続的にアップデートされる信号強度、及び／または、継続的にアップデートされる信号の品質の報告とを含むストリームを送信することと、
上記複数の音声エージェントの第２の音声エージェントが、上記第１の音声エージェントから現在報告されている信号強度と信号の品質とのそれぞれよりも高い第２の信号強度と第２の信号の品質との一方または両方において、上記音声による質問に対応する第２の音声データを検出することの通知を受信するのに応じて、上記第２の音声エージェントを上記マスター音声エージェントとしてアサインし、上記第１の音声エージェントにおける上記ストリームの上記送信を停止することと、
をするように実行可能である指示を貯蔵するメモリデバイスを含む、第１の音声エージェントと、を備えた、上記音声エージェントネットワーク。
（項目１６）
上記指示が、上記第１の音声エージェントから、上記音声による質問を識別する声紋を送信するようにさらに実行可能である、上記項目に記載の音声エージェントネットワーク。
（項目１７）
上記指示が、上記現在の信号強度が、上記第２の音声エージェントから受信した、最後に報告された信号強度より高いことの判定にのみ応じて、上記第２の音声エージェントが上記マスター音声エージェントとしてアサインされている間に、上記第１の音声エージェントから、上記音声による質問に対応する検出された音声データの上記現在の信号強度の報告を送信するように、さらに実行可能である、上記項目のいずれか一項に記載の音声エージェントネットワーク。
（項目１８）
上記指示が、上記第１の音声エージェントが上記マスター音声エージェントとしてアサインされている間に、上記音声入力の終了の通知を検出することと、上記音声による質問の上記終了の上記通知の検出に応じて、上記質問応答サーバに進行させるために、上記音声による質問の上記終了を示すメッセージを上記ネットワークデバイスに送信することと、をするようにさらに実行可能である、上記項目のいずれか一項に記載の音声エージェントネットワーク。
（項目１９）
上記指示が、上記第１の音声エージェントにおいて、上記音声による質問に対する応答を受信することと、上記第１の音声エージェントの出力デバイスを介して、上記音声による質問に対する上記応答を出力することと、をするようにさらに実行可能である、上記項目のいずれか一項に記載の音声エージェントネットワーク。
（項目２０）
上記指示が、上記音声エージェントネットワークに結合した上記第１の音声エージェントに応じて、アナウンスメッセージを送信するようにさらに実行可能である、上記項目のいずれか一項に記載の音声エージェントネットワーク。
（摘要）
実施例は、複数の音声エージェントを含む音声エージェントネットワークにおける音声入力検出の制御のために開示される。例示的音声エージェントは、オーディオセンサと、通信インターフェースと、プロセッサと、プロセッサによって実行可能な指示を貯蔵するメモリデバイスであって、オーディオセンサを介して、音声入力に対応するオーディオデータを検出すること、ならびに、音声エージェントネットワークの少なくとも１つの他の音声エージェントが、音声入力に対応する音声データを検出していることを判定することに応じて、音声データが検出される信号強度を判定すること、信号強度を、少なくとも１つの他の音声エージェントから報告された信号強度と比較すること、及び、信号強度を、少なくとも１つの他の音声エージェントから報告された信号強度と比較することに基づき、信号強度と検出された音声データとの、１つまたは複数の通知を、選択的に送信すること、を行うように、実行可能な指示を貯蔵するメモリデバイスと、を含んでいる。

本開示は、添付の図面を参照して、非限定的な実施形態の以下の詳細な説明を読むことで、よりよく理解され得る。

本開示の１つまたは複数の実施形態に係る、音声エージェントを配置する例示的環境を示す。本開示の１つまたは複数の実施形態に係る、音声エージェントネットワークにおける、例示的な、音声データの通信ダイアグラム及び制御メッセージの進行を示す。本開示の１つまたは複数の実施形態に係る、音声エージェントネットワークにおける、例示的な、音声データの通信ダイアグラム及び制御メッセージの進行を示す。本開示の１つまたは複数の実施形態に係る、音声による質問の再構築、及び、音声による質問に対する応答の生成のための、例示的通信ダイアグラムを示す。本開示の１つまたは複数の実施形態に係る、例示的音声エージェントネットワークのブロック図を示す。本開示の１つまたは複数の実施形態に係る、音声エージェントネットワーク内の音声データの扱いの例示的方法のフローチャートである。本開示の１つまたは複数の実施形態に係る、音声エージェントネットワーク内の音声エージェント制御の受渡しの例示的方法のフローチャートである。本開示の１つまたは複数の実施形態に係る、音声エージェントネットワーク内の音声エージェント制御の受渡しを受信する例示的方法のフローチャートである。

音声エージェントは、音声入力を検出し、この音声入力に応じた作業を実施する、任意の音声制御式及び／または音声応答式デバイスを含み得る。たとえば、音声エージェントは、（たとえば、組み込まれているか、別様に関連付けられたマイクを介して）音声入力を検出し得る。音声入力には、音声による質問（たとえば、「Ｗｈａｔｉｓｔｈｅｗｅａｔｈｅｒｔｏｄａｙ」）、音声メモ（たとえば、「Ｒｅｍｅｍｂｅｒｔｏｂｕｙｍｉｌｋ」）、音声の命令（たとえば、「Ｔｕｒｎｏｎｌｉｇｈｔｓ」）、及び／または他の音声データが含まれる場合がある。複数の音声エージェントが環境にわたって配置されている実施例では、ユーザは、第１の音声エージェントによって検出される音声入力の提供を開始（たとえば、音声入力ストリングを開始）し得る。しかし、ユーザが環境を通って移動すると、異なる音声エージェントが音声入力の異なる部分（たとえば、音声入力ストリングの後半部分）を検出する場合がある。さらに複雑化することで、環境内のいくつかの音声エージェントのレンジがオーバーラップする場合があり、それにより、音声入力のある部分が、複数の音声エージェントによって検出されることになる。音声入力が完了（たとえば、音声による質問が完了）すると、複数の音声エージェントによって収集された音声データは、音声データをパースし、関連する応答を提供するか、関連する動作を行うために、収集及び分析がされる場合がある。多くの実施例では、上述の処理は、オフボード（たとえば、遠位のサーバ（複数可））で実施され得るか、少なくとも、音声エージェントの１つのみで実施され得る。したがって、いくつかのシステムでは、各音声エージェントは、検出された音声データすべてを処理デバイス（たとえば、遠位のサーバ（複数可）及び／または専用の音声エージェント）に送る場合がある。

処理の負荷と、音声データの処理の間に利用されるバンド幅のリソースとを低減するために、本開示は、単一の音声エージェント（たとえば、マスター音声エージェント）のみが、所与の時点でネットワーク及び／または音声処理デバイスに音声データを進行させることを担うようになっている、音声エージェントネットワーク内の音声エージェントを制御するためのシステム及び方法を提供する。具体的には、本開示は、検出された音声データの信号強度に基づき、音声エージェントがマスター音声エージェントであるように選択され、マスター音声エージェントが、他の音声エージェントが現在のマスター音声エージェントより高い信号強度で音声データを検出していることの判定に応じて、制御を進行させる（たとえば、別の音声エージェントをマスター音声エージェントであるようにアサインする）、音声エージェントネットワークを提供する。この方法で、マスター音声エージェントのみが、音声データを音声データ処理デバイスに進行させ、他の音声エージェントは、検出された音声データの信号強度のインジケータを送信し、検出された音声データは送信しない（または、マスター音声エージェントよりも少ない、検出された音声データを送信する）。

さらに、音声エージェントは、起動ワード（たとえば、ワード、フレーズ、トーン、または他の予め規定されたサウンドなどである場合がある、特定の音声データストリング）が検出された際にのみ、音声データのリスニングを開始するように構成されている場合がある。したがって、起動ワードを検出する音声エージェントは、関連する検出された音声データに関して声紋を識別し、この声紋を他の音声エージェントと共有し得る。この方法で、各エージェントによって検出される音声データは、マスター音声エージェントの受渡しの間、所与のユーザとの音声データの相関関係を維持するために、声紋に対応する識別されたユーザと関連づけられ得る。上述の特徴及び他のものは、以下により詳細に記載される。

図１は、音声エージェントネットワークを含む例示的環境１００を概略的に示している。具体的には、図示の実施例の音声エージェントネットワークは、音声エージェント１０２ａ、１０２ｂ、及び１０２ｃを含んでいる。他の実施例では、音声エージェントネットワークは、任意の数の音声エージェントを含む場合がある。音声エージェントの各々は、直接、及び／または、ネットワークデバイス１０４を介して、互いに（たとえば、無線または有線通信を介して）通信し得る。ネットワークデバイス１０４は、ルータまたは他の仲介ネットワークデバイスを含み得る。ルータまたは他の仲介ネットワークデバイスは、やはり、（たとえば、図４の質問応答サーバに関して以下に記載するような）追加の処理を実施するために、音声エージェントを遠位のコンピュータデバイスに接続し得る。いくつかの実施例では、追加の処理を実施する遠位のコンピュータデバイスは、音声エージェントネットワークの環境の外（たとえば、リモートサーバ、または、サーバが分布しているものなど、音声エージェントが位置する建物の外）であるか、音声エージェントネットワークの環境内（たとえば、モバイルデバイスまたはデスクトップ・コンピュータ・デバイスなどの、音声エージェントが位置する建物内）にある場合がある。

各音声エージェントは、音声エージェントのマイクまたは他のオーディオセンサの特性、及び、環境１００内の障害物に基づくサイズ及び形状である、関連する作動レンジを有する場合がある。たとえば、音声エージェント１０２ａは、関連する作動レンジ１０６ａを有し、音声エージェント１０２ｂは、関連する作動レンジ１０６ｂを有し、また、音声エージェント１０６ｃは、関連する作動レンジ１０６ｃを有している。図示の実施例では、作動レンジ１０６ｂは、音声エージェント１０２ｂが位置する、より開いた領域に起因して、作動レンジ１０６ａ及び作動レンジ１０６ｃより大である。他の実施例では、音声エージェントネットワークの各音声エージェントに関する作動レンジは、互いに等しい場合がある。

ユーザ１０８が環境１００を通して移動すると、ユーザ１０８は、１つの作動レンジから別の作動レンジに移行する場合がある。ユーザ１０８によって提供される任意の音声入力は、ユーザが位置する作動レンジ（複数可）に関連付けられた音声エージェント（複数可）によって検出される。図１に示すように、作動レンジのいくつかは、互いにオーバーラップしている。したがって、ユーザは、いくつかの時点において、２つの異なる音声エージェントに関する作動レンジ内に位置している場合がある。たとえば、位置Ａでは、ユーザ１０８は、音声エージェント１０２ａに関する作動レンジ１０６ａにのみ位置している。しかし、位置Ｂでは、ユーザは、作動レンジ１０６ａから（音声エージェント１０２ｂに関する）作動レンジ１０６ｂに移行する。最後に、位置Ｃでは、ユーザは、作動レンジ１０６ｂから（音声エージェント１０２ｃに関する）作動レンジ１０６ｃに移行する。

したがって、図１に示す実施例では、ユーザが位置Ａにいる間に開始し、次いで、ユーザが位置Ｂ、次いで位置Ｃに移動するにつれて続く音声入力ストリングをユーザ１０８が提供する場合、音声入力の各部分が、音声入力ストリング全体を提供するコースにわたって、異なる音声エージェントによって検出され得る。そのような移行の間の例示的な音声エージェントの制御の受渡しが、図２Ａ及び図２Ｂにおいて、以下に記載される。

図２Ａ及び図２Ｂは、音声エージェントネットワーク内における音声エージェントとネットワークデバイスとの間のデータの伝達のための通信ダイアグラム２００を示している。図２Ａ及び図２Ｂの実施例では、３つの音声エージェントＶＡ１（図１の音声エージェント１０２ａの実施例である場合がある）、ＶＡ２（図１の音声エージェント１０２ｂの実施例である場合がある）、及びＶＡ３（（図１の音声エージェント１０２ｃの実施例である場合がある）が提供されている。しかし、より多いかより少ない音声エージェントが、音声エージェントネットワークに含まれる場合があり、また、図２Ａ及び図２Ｂに関して論じたメッセージに類似のメッセージをやりとりする場合があることを理解されたい。音声エージェントは、図１のネットワークデバイス１０４及び／またはリモートサーバもしくはクラウド・コンピュータ・デバイスの実施例である場合があるネットワークデバイス２０２と通信するものとして示されている。

音声エージェントネットワーク内のデバイスのマップを構築し、維持するための、各音声エージェントは、音声エージェントネットワークに入ると、音声エージェントを識別するＡＮＮＯＵＮＣＥメッセージを送信し得る。２０４で示すように、ＡＮＮＯＵＮＣＥメッセージは、ＶＡ１がネットワークに結合している場合、ＶＡ１からネットワークデバイス２０２に送信される。他の実施例では、ＡＮＮＯＵＮＣＥメッセージは、音声エージェントから定期的に（たとえば、一定の規定のインターバルで、及び／または、ネットワークの構成もしくは他のパラメータの変化などの異なるトリガに応じて）送信され得る。いくつかの実施例では、１つの音声エージェントからのＡＮＮＯＵＮＣＥメッセージの送信は、音声エージェントネットワークの他の音声エージェントの各々からのＡＮＮＯＵＮＣＥメッセージの送信のトリガになり得る。２０６と２０８とにおいて、ＶＡ１からのＡＮＮＯＵＮＣＥメッセージは、ネットワークデバイス２０２から、ＶＡ２とＶＡ３とにそれぞれ進行する。２１０と２１２とにおいて、ＶＡ２とＶＡ３とがそれぞれのＡＮＮＯＵＮＣＥメッセージをネットワークデバイス２０２に送信する。明確化の目的のために示されていないが、ネットワークデバイス２０２は、それぞれのＡＮＮＯＵＮＣＥメッセージの受信に応じて、ＡＮＮＯＵＮＣＥメッセージをＶＡ２からＶＡ１及びＶＡ３にも進行させ得、また、ＡＮＮＯＵＮＣＥメッセージをＶＡ３からＶＡ１及びＶＡ２に進行させ得ることを理解されたい。

２１４では、ユーザ（たとえば、図１のユーザ１０８）は、音声による質問を開始する。簡潔に開示する目的のために、音声による質問に関する本明細書に記載の実施例は、任意の他の音声入力（たとえば、音声メモ、音声コマンドなど）に相応的に適用可能である。上述のように、音声エージェントは、予め規定された起動ワードの検出に応じて、音声入力に関するリスニングを開始するように構成され得る。たとえば、音声エージェントは、起動ワードの識別が可能であるだけ（または、起動ワードを含む少数のコマンドの用語の識別が可能であるだけ）の、簡略化されたスピーチ検出アルゴリズムを採用する場合がある。起動ワードを検出する前に、音声エージェントは、起動ワードが検出されるまで、受動的及び／または流動的方式（たとえば、音声データが起動ワードを含むかを判定する以外の音声データのいずれの処理も実施しない、音声データを貯蔵しない、音声データを送信しない、など）で音声データを検出し得る。起動ワードを検出したポイントでは、音声エージェントは、能動的に聞き、検出された音声データを処理及び／または伝達する。この方法で、起動ワードは、音声エージェントを受動的（たとえば、スリープまたは低電力）状態から起動し、音声エージェントを能動的なリスニング状態に移行する、割込信号として作用し得る。

したがって、２１４で開始された音声による質問は、音声エージェントネットワークに関連付けられた起動ワードを含み得、音声による質問の１つまたは複数の部分（たとえば、音声エージェントネットワークによって答えられることになる質問を含む音声ストリング）が続く。説明の目的のために、この実施例における起動ワードは、音声ストリング「Ｈｅｙａｇｅｎｔ」であり、この実施例における音声による質問は、「Ｗｈａｔｉｓｔｈｅｆｏｒｅｃａｓｔｆｏｒｔｏｄａｙ？」である。したがって、２１４では、ユーザは、「Ｈｅｙａｇｅｎｔ，ｗｈａｔ…」または、音声による質問のいくつかの他の部分を述べることにより、音声による質問を開始し得る。

２１６において、ＶＡ１は、起動ワードを確認し、音声データから声紋を抽出する。図１の環境１００を説明的実施例として使用すると、音声による質問を提供するユーザは、起動ワード及び、音声による質問の第１の部分を声に出す間、音声エージェント１０２ａのレンジ内の、位置Ａに位置し得る。声紋は、音声による質問を提供するユーザに関連付けられた識別子またはサウンドマーカを含み得る。これにより、他の音声エージェントを、ＶＡ１において検出された音声入力と同じ声紋を有する音声入力に関連付けることを可能にする場合がある。したがって、２１８において、ＶＡ１は、音声エージェントネットワークを通しての分配のために、声紋をネットワークデバイス２０２に送信する。たとえば、明確化の目的のために記載されていないが、２１８において送信された声紋、及び／または、ネットワークデバイス２０２に送信された任意の他のデータは、ネットワークデバイス２０２からＶＡ２及び／またはＶＡ３に（たとえば、ＶＡ２及びＶＡ３における貯蔵のために）進行させられ得る。２２０では、ＶＡ１は、少なくともネットワークデバイス２０２への第１の質問の部分に関し、その質問の部分が検出された信号強度の通知（たとえば、この実施例では１００）とともに音声（たとえば、ＶＡ１のオーディオセンサによって検出された、加工されていない及び／またはデジタル化された音声データを含む場合がある音声データ）をストリーミングする。いくつかの実施例では、ネットワークデバイス２０２は、音声と、信号強度の通知との、一方または両方を、音声エージェントネットワーク内の他の音声エージェントの各々（または、同じ音声入力に関し、音声データを現在検出している他の音声エージェントの各々）に進行させる場合がある。追加的または代替的実施例では、ネットワークデバイス２０２は、音声を、質問応答サーバなどの遠位のコンピュータデバイスに進行させる場合がある。１つまたは複数の音声エージェントがマスター音声エージェントに直接接続されている（たとえば、中間のネットワークデバイスが無い）、さらなる追加的または代替的実施例では、音声と信号強度の通知との一方または両方が、１つまたは複数の音声エージェントに直接送信され得る（音声エージェント間のケーブル布線または他の接続性が、物理的ネットワークデバイスの代用として使用される場合がある）。この方法で、音声及び／または信号強度のデータは、音声エージェントネットワーク内の音声エージェント間で共有され得、ここでは、単一の音声エージェントのみが、所与の時点において、音声入力／音声による質問に関する音声データを伝達している。

信号強度は、（たとえば、平均を示すデシベル値、または、音声データが検出された、他の計算されたデシベルレベル）絶対値であるか、関数値（たとえば、見積もられた信号の質の様々なレベルを示すパーセンテージまたはレンジ）である場合がある。いくつかの実施例では、信号対ノイズ比（ＳＮＲ）の測定値は、音声データが検出された信号強度を示し得、及び／または、信号強度を判定するために使用され得る。いずれのケースにおいても、各音声エージェント（たとえば、同じ声紋を有する音声データを検出している各音声エージェント）によって検出された音声データの相対的信号強度は、どの音声エージェントがマスター音声エージェントに選定されることになるか（たとえば、どの音声エージェントが、検出された音声データを含むネットワークに音声をストリーミングするか）を判定するために、互いに比較され得る。追加的または代替的実施例では、信号の品質の測定値は、どの音声エージェントがマスター音声エージェントに選定されることになるか（たとえば、もっとも高い品質の音声データを受信した音声エージェントの場所が、マスター音声エージェントに選定される）を判定するために、信号強度の測定値の代わりに、または信号強度の測定値と組み合わせて使用され得る。信号の品質の測定値は、ＳＮＲ（たとえば、ＳＮＲの増大とともに品質が増大する場合）、エコー及び／または反射の量（たとえば、エコー及び／または反射の増大とともに品質が低下する場合）、歪曲の量（たとえば、歪曲の増大とともに品質が低下する場合）、音声データの下がった量または比率（たとえば、下がったデータ量または比の増大とともに品質が低下する場合）などの１つまたは複数の測定値から得られる場合がある。信号強度に関する、本明細書に記載の実施例は、本開示の範囲から逸脱することなく、信号強度に加えて、または、信号強度の代用として、信号の品質を利用するように調整され得ることを理解されたい。

２２２では、ユーザは、移動しつつ、音声による質問を提供し続ける。たとえば、ユーザは、質問の次のワード（たとえば、「ｉｓ」）を続けながら、図１における位置Ａと位置Ｂとの間を移動している場合がある。ユーザが依然としてＶＡ１に関する作動レンジ内にいるが、レンジの縁部に向かって移動している場合があることから、信号強度は、音声による質問を提供する間、低下する場合がある。たとえば、ＶＡ１は、音声による質問の第１の部分を、音声による質問の第２の部分より高いデシベルレベルで検出する場合がある。この理由は、ユーザがＶＡ１のマイクから離れるように移動しているためである。説明の目的のために、「部分」に関して記載したが、マスター音声エージェントは、音声データが検出されるにつれて、及び／または、マスター音声エージェントに利用可能であるネットワークリソースに基づいて言葉で描写される塊で、音声データ及び関連する信号強度を連続してストリーミングする場合があることを理解されたい。したがって、２２４では、ＶＡ１は、第２の質問が検出された信号強度がより低い（たとえば、この実施例では９０）ことを報告し得る。しかし、他の音声エージェントが、音声による質問の検出を報告していないことから、ＶＡ１は、２２４においても、（たとえば、音声による質問の第２の部分、たとえば「ｉｓ」を含む）音声のストリーミングを継続する。

２２６では、ＶＡ２は、音声による質問に対応する音声データを検出する（たとえば、ＶＡ２は、音声による質問の「ｉｓ」の部分を検出する場合がある）。ＶＡ２は、音声データが、ＶＡ１によってストリーミングされている音声による質問の一部であることを判定または確認する（たとえば、抽出された声紋が、少なくともオーバーラップ量の閾値内で、ＶＡ１によって報告された声紋にマッチすることを判定する）ために、検出された音声データから声紋を抽出する場合がある。たとえば、２２６において、ユーザは、ＶＡ２の作動レンジにちょうど入ったところである場合がある（たとえば、部分的に、図１の位置Ａと位置Ｂとの間にある）。しかし、ユーザが依然としてＶＡ２よりもＶＡ１により近いことから、ＶＡ２において検出された音声データの信号強度は、ＶＡ１において検出された音声データの信号強度より低い場合がある。ＶＡ２は、検出された音声データの信号強度を、ＶＡ１によって報告された信号強度と比較し、ＶＡ１が、より高い信号強度で音声データを検出していることを判定する場合がある。したがって、ＶＡ２は、検出された音声データの信号強度を伝達しない場合がある。他の実施例では、ＶＡ２は、検出された音声データの信号強度を伝達する場合があるが、ＶＡ２における信号強度がＶＡ１における信号強度より低いことから、受渡しがまだ生じない場合がある。

２２８では、ＶＡ１は、音声による質問の第３の部分（たとえば、「ｔｈｅ」）に対応する音声のストリーミングを継続し、信号強度が低下していること（たとえば、信号強度が８０であること）を示す。２３０では、ＶＡ２は、ＶＡ２が音声による質問を検出する信号強度が、ＶＡ１から報告された信号強度よりも高い（たとえば、８０よりも高い）ことを判定する。したがって、２３２において、ＶＡ２は、ＶＡ２が音声による質問を検出している信号強度（たとえば、８５）の通知を伝達する。ＶＡ２の報告された信号強度がＶＡ１の報告された信号強度より高いことから、ＶＡ１は、２３４において、検出される音声データのソースをＶＡ２にアサインすることにより、音声による質問の検出の制御をＶＡ２に受け渡す。この方法で、マスター音声エージェントは、ＶＡ１からＶＡ２に切り替わるか受け渡される。

いくつかの実施例では、受渡しは、マスターではない音声エージェントの信号強度が、マスター音声エージェントの信号強度より、ある閾値だけ大であることに応じて生じ得ることを理解されたい。非限定的な実施例として、受渡しは、マスターではない音声エージェントが、マスター音声エージェントによって報告された信号強度よりも５ポイントまたは５デシベルレベル高い信号強度を検出するまで生じない場合があり、それにより、マスターではない音声エージェントが、５より小であるポイントまたはデシベルレベルだけ、マスター音声エージェントによって報告された信号強度より高い信号強度を検出した際に、受渡しが生じないようになっている。この閾値は、ネットワーク内の音声エージェントの数、ネットワーク内の音声エージェントの配置、ネットワーク内の音声エージェントの作動レンジのサイズ、及び／または、任意の他の適切なパラメータもしくはパラメータの組合せに基づく場合がある。追加的または代替的実施例では、スムーズな移行を行うために、受渡しは、マスターではない音声エージェントが、少なくとも所定の時間の間にマスター音声エージェントによって報告された信号強度よりも大（及び／または、ある閾値だけ大）である信号強度を検出することが判定されると生じ得る。さらに他の追加的または代替的実施例では、受渡しは、マスターではない音声エージェントが、マスター音声エージェントによって報告された信号強度より高く、かつ、所定の最小信号強度より高い信号強度を検出する場合にのみ生じ得る。

２３６では、ＶＡ２は、第４の質問の部分（たとえば、「ｆｏｒｅ」）に関する音声のストリーミングを開始し、ＶＡ２において音声データが検出された信号強度（たとえば、８５）を伝達する。ＶＡ１が、この時間の前に音声の検出の制御を受け渡したことから、ＶＡ１は、音声のストリーミングを停止する場合があり、また、第４の質問の部分を伝達しない場合がある。しかし、他の実施例では、ＶＡ１は、音声による質問が完了した際に、複数のソースからの音声データの縫合に関するオーバーラップを提供するために、データの閾値の量、または制御の受渡しの後の時間の閾値量に関し（たとえば、ＶＡ２が音声のストリーミングを開始した後）、伝達する場合がある。

通信ダイアグラム２００は、図２Ｂで継続し、ここでは、ＶＡ２が、第５の質問の部分（たとえば、「ｃａｓｔ」）に関する音声のストリーミングを継続し、２３８において、関連する信号強度を示す。しかし、ユーザは、音声による質問を提供しながら、ＶＡ２の作動レンジの縁部に向かって移動している（たとえば、図１の位置Ｂから位置Ｃに移動している）場合があり、このため、報告される信号強度は（たとえば、７８に）低下する場合がある。２４０では、ＶＡ３は、ＶＡ３が音声による質問（たとえば、声紋によって識別される）を、最後に報告されたＶＡ２の信号強度よりも高い信号強度で検出している（たとえば、ユーザは、図１の実施例の位置Ｃに移動した場合がある）と判定する場合がある。したがって、ＶＡ３は、２４２において、ＶＡ３が音声による質問を検出する信号強度（たとえば、８２）を示す場合がある。２４４では、ＶＡ３によって報告された信号強度が、ＶＡ２が音声による質問を検出している信号強度よりも大であることの判定に応じて、ＶＡ２が、音声データのソースをＶＡ３にアサインすることにより、音声による質問の検出の制御を受け渡し、それにより、ＶＡ３を新たなマスター音声エージェントとして選定する。したがって、次の質問の部分（第６の部分及び第７の部分、たとえば、「ｆｏｒ」及び「ｔｏｄａｙ」）、ならびに、関連する信号強度（たとえば、８２及び８８）が、それぞれ２４６及び２４８において、ストリーミングされるとともに報告される。

２５０では、ＶＡ３は、質問の終了（たとえば、質問を示す声の抑揚、閾値よりも高い音声データのパース、キーワードなど）を確認する。質問の終了の検出に応じて、ＶＡ３は、２５２において、質問の終了の通知を、質問に対する応答の要求とともに、ネットワークデバイス２０２に送信する。いくつかの実施例では、ネットワークデバイスは、質問の終了の通知を他の音声エージェントに進行させ、それにより、他の音声エージェントが音声データに関するリスニングを停止し、及び／または、現在の音声による質問に対する音声による質問の声紋の関連性を処分するようになっている（たとえば、それにより、それに次いで検出された任意の音声データが、異なる音声による質問に関連づけられる）。ネットワークデバイスは、他の音声エージェントに、応答に関する要求を進行させない場合があるが、質問応答サーバ、または、音声による質問をパースし、及び／もしくは、パースされた音声による質問に対する応答を提供するように構成された、他の遠位であるかローカルのデバイスに、応答に関する要求を進行させる場合がある。

２５４では、ネットワークデバイス２０２は、ＶＡ３に質問の応答を送信する。質問の応答は、いくつかの実施例では、音声による質問に対する応答を提供するために、ネットワークデバイス２０２において、質問応答サーバまたは他のデバイスから受信され得る。他の実施例では、ネットワークデバイスは、音声による質問をパースし、及び／または、音声による質問の応答を生成するための、処理要素を含んでいる場合がある。この場合、質問の応答は、局所的に生成される。２５６では、最後のマスター音声エージェント（たとえば、ＶＡ３、質問の終了を確認した音声エージェント）が、（たとえば、ＶＡ３に組み込まれ、及び／または、ＶＡ３に関連付けられた、スピーカ、ディスプレイ、及び／または他の出力デバイスを介して）質問の応答を出力する。

図３は、音声による質問に対する応答を生成するための、音声エージェントネットワークと質問応答サーバとの間の例示的通信を示す通信ダイアグラム３００である。音声エージェントネットワークは、上述の音声エージェントネットワークの簡略化バージョンであり、ＶＡ４、ＶＡ５、及びネットワークデバイス３０２を含んでいる。ＶＡ４及びＶＡ５は、上述の音声エージェントのいずれかの実施例である場合があり、また、ネットワークデバイス３０２は、図１のネットワークデバイス１０４、ならびに／または、図２Ａ及び図２Ｂのネットワークデバイス２０２の実施例である場合がある。質問応答サーバ３０４は、ネットワークデバイス３０２を通して、ＶＡ４及びＶＡ５に通信するように接続され得る。質問応答サーバ３０４は、複数のソース（たとえば、複数の音声エージェント）から受信した音声データからの音声による質問を再構築及びパースするための処理要素を含む場合がある。質問応答サーバ３０４は、パースされた音声による質問に対する応答を形成するための情報に関する要求を生成するため、及び、受信した情報に基づいて質問の応答を生成するための処理要素も含む場合がある。質問の応答を生成するために使用される情報は、１つまたは複数の情報ソース３０６から受信される場合がある。たとえば、図２Ａ及び図２Ｂに関して上述した例示的な音声による質問を満たすために使用される情報ソースは、気象情報のソースである場合がある。他の実施例では、情報ソースには、ユーザのプロフィール／ソーシャル・ネットワーキング・サービス、メディア・ストレージ・デバイス、インターネットの検索エンジンなどが含まれ得る。

３０８では、ＶＡ４は、音声による質問の最初に検出された部分、及び、関連する信号強度に関する音声をネットワークデバイス３０２にストリーミングする。明確化の目的のために、図２Ａ及び図２Ｂで上述した通信の詳細のいくつかは、通信ダイアグラム３００からは省略されている場合がある。しかし、そのような通信は依然として生じ得ることを理解されたい。たとえば、ＶＡ４は、第１のマスター音声エージェントであるように予め取り決められている場合があり、また、上述の音声による質問が検出されると、声紋を送信し得る。３１０では継続して、ネットワークデバイス３０２が、音声による質問の第１の部分に関する、受信した音声データを質問応答サーバ３０４に進行させる。他の実施例では、ネットワークデバイスは、追加的または代替的に、音声データを収集する場合があり、また、質問の終了が音声エージェントによって示されるまで、質問応答サーバに音声データを伝達しない場合がある。しかし、図示の実施例では、ネットワークは、データがマスター音声エージェントから受信されると、ほぼリアルタイムで、現在のマスター音声エージェントからの音声データを質問応答サーバに継続的に進行させる。

３１２では、ＶＡ５が、音声による質問を検出し、ＶＡ４によって最後に報告された信号強度よりも高い信号強度を報告する。したがって、３１４では、ＶＡ４が、音声データのソースをＶＡ５にアサインし、それにより、マスターステータスをＶＡ５に受け渡す。３１６では、ＶＡ５は、音声による質問の第２の部分を、信号強度の通知とともにネットワークデバイス３０２にストリーミングする。３１８では、ネットワークデバイスは、ＶＡ５からの音声データ（たとえば、音声による質問の第２の部分）を質問応答サーバ３０４に進行させる。

３２０では、ＶＡ５は、（たとえば、図２Ｂの２５０で上述した）質問の終了を確認する。したがって、３２２において、ＶＡ５は、質問の終了の通知と、質問の応答に関する要求を、ネットワークデバイス３０２に送信する。ネットワークデバイス３０２は、質問の応答に関する要求を、３２４において質問応答サーバ３０４に進行させる。３２６では、質問応答サーバ３０４は、ＶＡ４及びＶＡ５から受信したデータを使用して、音声による質問を構築及び／またはパースする。いくつかの実施例では、質問応答サーバ３０４は、データをネットワークデバイス３０２から受信するのに応じて、継続して質問を構築し得る。他の実施例では、質問応答サーバは、受信したデータすべてを一度に処理し、そこから質問を構築するために、質問の終了が検出されるまで待機する場合がある。質問の構築には、複数の音声エージェントからの音声データの縫合と、質問の内容を判定するため（たとえば、何の情報が質問によって要求されているかを判定するため）に、スピーチの確認の実施とが含まれる場合がある。音声による質問に関する、音声データのストリーミングにわたる、開示の制御は、音声データが実質的に、ある時点で１つの音声エージェントのみから受信されていることから、音声エージェントネットワーク上でのバンド幅の負荷の低減と、他のシステムに比べての、質問応答サーバ上の処理の負荷の低減との、技術的効果を有している。対照的に、他のシステムでは、音声による質問を検出する音声エージェントの各々は、検出された音声データを連続して送信する場合があり、それにより、質問応答サーバを、音声による質問を再構築するために分析されることになる音声データで満たす。

３２８では、質問応答サーバは、１つまたは複数の情報ソース３０６に情報に関する要求を送信して、音声による質問を履行する場合がある（たとえば、図２Ａ及び図２Ｂに関して記載した例示的な音声による質問に関する、気象情報の要求）。３３０では、要求された情報が、情報ソース（複数可）３０６から受信され得る。いくつかの実施例では、音声による質問を履行する（たとえば、音声による質問によって提起された質問に応答する）ための情報は、質問応答サーバに局所的に貯蔵されている場合があり、この場合、情報に関する要求と、それに次ぐ、情報ソースからの情報の受信は、実施されない場合があることを理解されたい。３３２では、質問応答サーバは、要求された情報（及び／または、質問に応答するための局所的情報）を含む質問の応答を生成する。いくつかの実施例では、質問応答サーバは、情報に関するプレースホルダを含む質問の応答を構築する場合がある（たとえば、「ｔｈｅｃｕｒｒｅｎｔｆｏｒｅｃａｓｔｆｏｒｔｏｄａｙｉｓ［ｆｏｒｅｃａｓｔ］」であり、この場合では、［ｆｏｒｅｃａｓｔ］が、情報ソースからの受信された際に、応答に挿入される情報のタイプを識別するプレースホルダタグである）。プレースホルダは、局所的データが及び／または情報ソース３０６の１つもしくは複数からのデータを使用して満たされる。

３３４では、生成された質問の応答がネットワークデバイス３０２に送信され、このネットワークデバイス３０２が、３３６において質問の応答を最後のマスター音声エージェント（たとえば、ＶＡ５）に進行させる。３３８では、最後のマスター音声エージェント（たとえば、ＶＡ５）が、（たとえば、スピーカ、ディスプレイ、または他の出力デバイスを介して）質問の応答を出力する。

図４は、例示的音声エージェントネットワーク４００及び関連するデバイスのブロック図である。音声エージェントネットワーク４００は、１つまたは複数の音声エージェント４０２と、ネットワークデバイス４０４とを含んでおり、これらの各々またはいずれかが、質問応答サーバ４０６または他の遠位のデバイスと通信するように構成されている場合がある。音声エージェント４０２は、声紋の分析、起動ワードの検出、信号強度の分析、及び／または本明細書に記載の操作または方法のいずれかの操作を実施するように、プロセッサ４１０によって実行可能である指示を貯蔵する、メモリデバイス４０８（たとえば、ランダム・アクセス・メモリ［ＲＡＭ］、リード・オンリ・メモリ［ＲＯＭ］、フラッシュメモリ、ハード・ディスク・ドライブ、及び／または他のハードウェア・ストレージ・デバイス）を含む場合がある。いくつかの実施例では、メモリ４０８は、音声エージェント上のオペレーティングシステムもしくは他のアプリケーションを実行するための指示、及び／または、音声エージェントの他の要素を制御するための指示を含む場合がある。

指示は、単一のデバイスに貯蔵されている、及び／または、複数のデバイスにわたって分配されている場合があり、所与の作業のための指示は、その作業を実施するためのモジュールとして構成される場合がある。たとえば、声紋分析モジュールは、受信した音声データを分析し、音声データを特定のユーザ及び／または質問に関連付けるための音声データの識別構成要素を抽出するように、プロセッサによって実行可能な指示を含む場合がある。起動ワード検出モジュールは、音声データを、予め規定された起動ワード（たとえば、「ｈｅｙｖｏｉｃｅａｇｅｎｔ」）に対応する既知の音声サンプルと比較することにより、検出された音声データを分析するために、プロセッサによって実行可能である指示を含む場合がある。上述のように、「ｗｏｒｄ」として言及したが、起動ワードは、音声入力（たとえば、音声による質問）の開始を示し、検出及び、検出された音声データの報告を開始するように音声エージェントを制御するために使用される、スピーチの任意のストリング及び／または音声のトーン（複数可）を含む場合がある。いくつかの実施例では、起動ワードは、追加的または代替的に、ユーザの声以外のソースによって形成される入力（たとえば、ボタンの作動、ジェスチャなど）を含む場合がある。そのような実施例では、声紋分析及び、それに続く処理／伝達は、代替的な起動ワードの入力の後に、次に話される入力上で実施される場合がある。信号強度分析モジュールは、音声データが検出された強度（たとえば、デシベルレベルまたは他のインジケータ）を判定するように、検出された音声データを分析するように、プロセッサによって実行可能である指示を含む場合がある。

メモリ４０８内の指示は、ヒューマン・マシン・インターフェース４１２及び／またはアンテナ／通信インターフェース４１４の要素などの、音声エージェントの他のハードウェア要素の動作と連携して実行され得る。ヒューマン・マシン・インターフェース４１２は、ユーザが音声エージェントと相互作用することを可能にする、マイク、スピーカ、オプションのディスプレイ、及び／または他の入力デバイス（複数可）（たとえば、ボタン、タッチセンサ、ダイアル、ノブ、ジェスチャの検出のためのカメラまたは他のセンサなど）を含む場合がある。アンテナ／通信インターフェース４１４は、音声エージェントへの情報の送信及び／または音声エージェントからの情報の受信のための、ハードウェアインターフェース要素を含む場合がある。たとえば、アンテナ／通信インターフェース４１４は、ネットワークデバイス４０４及び／または質問応答サーバ４０６と、音声データ及び他の情報を通信するために使用され得る。各音声エージェントが互いに直接接続されている実施例では、情報は、それぞれのアンテナ／通信インターフェースを介して音声エージェント間で伝達され得る。アンテナ／通信インターフェース４１４は、デバイス間の関連する有線または無線通信を可能にするように、有線（たとえば、Ｅｔｈｅｒｎｅｔ（登録商標））及び／または無線（たとえば、ＷＩＦＩ、ＢＬＵＥＴＯＯＴＨ（登録商標）、Ｎｅａｒ－ＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎなど）インターフェース要素を含む場合がある。

ネットワークデバイス４０４は、メモリ４１６、プロセッサ（複数可）４１８、及びアンテナ／通信インターフェース４２０を含む場合がある。これらは、メモリ４０８、プロセッサ（複数可）４１０、及びアンテナ／通信インターフェース４１４に関して上述した特徴に類似の特徴を含む場合がある。いくつかの実施例では、ネットワークデバイス４０４は、音声エージェントネットワークのデバイス間でデータを伝えるように、及び／または、音声エージェントネットワークのデバイスから遠位のデバイス（たとえば、質問応答サーバ４０６）にデータを伝えるように、デバイスを進行させる仲介データとして役割を果たすのみである場合がある。そのような実施例では、メモリ４１６は、データの送受信を扱うための指示のみを含む場合がある（たとえば、データが適切に送信され得、封止、エンコード、デコードなどを実施し、データ送信のスケジューリングなどを行うようにデータを処理する）。そのような実施例では、受渡し制御モジュールなどのモジュール、及び／または、音声エージェントマップは、音声エージェント４０２で貯蔵される場合がある。他の実施例では、受渡し制御モジュール及び／または音声エージェントマップは、ネットワークデバイスで貯蔵される場合がある。受渡し制御モジュールは、（たとえば、図２Ａ及び図２Ｂに関して上述したように）どの時点で制御を新たなマスター音声エージェントに受け渡すかを判定するために、マスターではない音声エージェントにおいて音声データが受信された信号強度を、マスター音声エージェントから報告された信号強度と比較するように実行可能な指示を含む場合がある。音声エージェントマップは、（たとえば、図２Ａに関して上述した）ＡＮＮＯＵＮＣＥデータを使用して構築され、また、音声エージェントネットワークに結合及び音声エージェントネットワークから離れる際に音声エージェントとして維持され得る。音声エージェントマップは、各音声エージェントに関する関連する識別子、及び／または、他の情報（たとえば、各音声エージェントから最後に受信した通信など）を含む、音声エージェントネットワーク内でアクティブであるすべての音声エージェントのリストを含み得る。

質問応答サーバ４０６は、メモリ４２２、プロセッサ（複数可）４２４、及びアンテナ／通信インターフェース４２６を含む場合がある。これらは、メモリ４０８、プロセッサ（複数可）４１０、及びアンテナ／通信インターフェース４１４に関して上述した特徴に類似の特徴を含む場合がある。質問応答サーバ４０６は、音声による質問に対応する音声データを受信し、音声による質問の応答を送信するために、ネットワークデバイス４０４及び／または音声エージェント４０２に直接（または、仲介デバイスを介して）接続されている場合がある。メモリ４２２は、音声による質問を構築し、音声による質問の応答を生成するように、音声データを処理するための１つまたは複数のモジュールを含む場合がある。たとえば、メモリ４２２は、スピーチ確認モジュールを含む場合がある。このモジュールは、音声エージェントから受信した、加工されていない音声データ内のスピーチを確認するために、プロセッサ（複数可）４２４によって実行可能である指示を含んでいる。いくつかの実施例では、音声エージェント４０２は、いくつかの根本のスピーチ処理能力を含んでいる場合がある。この場合、スピーチ確認モジュールは、音声エージェントによってスピーチの処理が実施されると、ユーザによって与えられた質問を判定するように、構築され得る。メモリ４２２は、質問処理モジュールも含む場合がある。この質問処理モジュールは、音声による質問を構築するように音声データを縫合し、何の情報が質問によって要求されているかを判定するように音声による質問をパースし、要求された情報を含む質問の応答を生成するために、プロセッサ（複数可）４２４によって実行可能である指示を含んでいる。質問処理モジュールは、加工していない音声データを理知的に処理し、質問のストリングを再構築するために、スピーチ確認モジュールとともに作用する場合がある。

図５は、複数の音声エージェントの環境において音声による質問の扱いを制御するための、例示的方法５００のフローチャートである。たとえば、方法５００は、図４の音声エージェントネットワーク４００の１つまたは複数のデバイス、及び／または、関連するデバイスによって実施され得る。より具体的には、方法５００は、図１のネットワークデバイス１０４、図２Ａ、図２Ｂ、及び図３のネットワークデバイス２０２または３０２、ならびに／または、図４のネットワークデバイス４０４などのネットワークデバイスによって実施され得る。５０２では、本方法は、ネットワークに結合した各音声エージェントからの１つまたは複数のアナウンスメッセージを受信することを含んでいる。５０４では、本方法は、受信したアナウンスメッセージに基づき、音声エージェントマップを構築することを含んでいる。たとえば、音声エージェントがネットワークに結合し、アナウンスメッセージを送信する毎に、音声エージェントに関する識別情報（たとえば、アナウンスメッセージに含まれる）は、新たに結合した音声エージェントに対応するエントリを付加するように音声エージェントマップに加えられる場合がある。いくつかの実施例では、音声エージェントは、音声エージェントがネットワークを離れたことの通知（たとえば、時間の閾値の間、音声エージェントから通信が受信されない、通信に関する要求に対する応答が無い、など）に応じて、マップから除去される場合がある。

５０６では、本方法は、音声による質問の開始のインジケータを受信することを含んでいる。たとえば、インジケータは、５０８において示されているような、少なくとも１つの音声エージェントによって確認された起動ワード、及び／または、５１０において示されているような、音声による質問を提供するユーザを識別する声紋を含む場合がある。本明細書で使用される場合、起動ワードは、音声入力に対応する音声データに加えて受信され得る（たとえば、起動ワードは、音声による質問などの音声入力とは分かれた入力である場合がある）。５１２では、本方法は、検出された音声データの信号強度に基づき、マスター音声エージェントを取り決めることを含んでいる。たとえば、音声データを検出する第１の音声エージェントは、（たとえば、検出された音声データの声紋が、５１０で示された声紋にマッチするのに基づいて判定される際に）他の音声エージェントが同じ音声による質問の検出を報告するまで、自動的にマスター音声エージェントとして選定され得る。他の音声エージェントが同じ音声による質問の検出を報告すると、もっとも高い信号強度で音声による質問を検出する音声エージェントが、マスター音声エージェントとして選定され得る。

５１４では、本方法は、マスター音声エージェントから、音声データのストリームと、（音声データが検出された）関連する信号強度とを受信することを含んでいる。５１６では、本方法は、マスター音声エージェントが依然として、（たとえば、ネットワークの他の音声エージェントに比べて）もっとも高い信号強度で音声データを受信しているかを判定することを含んでいる。マスター音声エージェントが、もっとも高い信号強度で音声データを受信していない場合（たとえば、別の音声エージェントが、マスター音声エージェントによって報告された信号強度よりも高い、その音声による質問に関する信号強度を報告した場合、５１６における「ＮＯ」）、本方法は、５１２に戻って、信号強度に基づき、マスター音声エージェントを再び取り決め（たとえば、マスター音声エージェントを、他の音声エージェントに比べてもっとも高い信号強度で音声データを検出している音声エージェントに切り替える）、次いで、（たとえば、５１４において）新たなマスター音声エージェントから音声データを受信する。マスター音声エージェントが依然として、もっとも高い信号強度で音声データを受信している場合（たとえば、他のどの音声エージェントも、マスター音声エージェントによって報告された信号強度よりも高い、その音声による質問に関する信号強度を報告しない場合、５１６における「ＹＥＳ」）、本方法は、５１８に進行して、質問の終了が検出されたかを判定する。

質問の終了が検出されない場合（たとえば、５１８における「ＮＯ」）、本方法は５１４に戻って、マスター音声エージェントから、音声による質問に関する音声データのストリームの受信を継続する。質問の終了が検出された場合（たとえば、５１８における「ＹＥＳ」）、本方法は５２０に進行して、質問を質問応答サーバに送信する。たとえば、質問を送信することには、方法５００を実施するコースにわたって収集された、統合音声データを送信することを含み得るか、音声データがマスター音声エージェントから受信されるにつれて、音声データの部分が継続して質問応答サーバに進行される場合、音声データの最後の部分を送信することが含まれ得る。いずれのケースでも、質問を送信することは、質問の終了が検出されたこと（たとえば、質問が完了したこと）の通知を送信することをも含んでいる場合がある。５２２では、本方法は、最後のマスター音声エージェントにおいて出力に関する質問の応答を受信することを含んでいる。

図６は、音声による質問の検出の制御を受け渡すための、例示的方法６００のフローチャートである。たとえば、方法６００は、上述の音声エージェントのいずれか（たとえば、図４の音声エージェント４０２）などのマスター音声エージェントとして選定された音声エージェントによって実施され得る。６０２では、本方法は、起動ワードを確認することを含んでいる。上述のように、起動ワードは、音声入力に関するリスニングを開始するように、音声エージェントを制御するために使用される、任意の適切なサウンド、または一連のサウンドを含む場合がある。この方法で、音声エージェントは、起動ワードが検出されるまで、起動ワードではないすべての音声入力を無視する場合がある。６０４では、本方法は、関連する信号強度で音声による質問を受信することを含んでいる。６０６で示されているように、音声による質問及び／または起動ワードは、音声による質問を提供するユーザを識別する、及び／または、別様に独自に、音声による質問のソースを識別する、声紋を判定するために、分析され得る。

６０８では、本方法は、その部分が受信された関連する信号強度の通知を伴う、受信された音声による質問の第１の部分を送信することを含んでいる。上述のように、説明の目的のために、「部分」に関して記載したが、マスター音声エージェントは、音声データが検出されるにつれて、音声データ及び関連する信号強度を連続してストリーミングする場合があることを理解されたい。６０８では、音声データをストリーミングする音声エージェントは、マスター音声エージェントとして選定され得、それにより、他のどの音声エージェントも、その音声による質問に関連する、検出された音声データをストリーミングしないようになっている。受信された音声による質問の第１の部分を送信する前、または送信と同時に、音声エージェントは、ネットワーク内の他の音声エージェントが、検出された音声による質問がマスター音声エージェントによって検出されている音声による質問と同じであるかを識別することを可能にするために、声紋の通知を送信する場合がある。

６１０では、本方法は、（たとえば、音声による質問を検出する他の音声エージェントによって受信された信号強度の報告に基づき）より高い信号強度で音声による質問を検出している第２の（異なる）音声エージェントの通知が受信されたかを判定することを含んでいる。より高い信号強度の第２の音声エージェントの通知が受信されなかった場合（たとえば、６１０における「ＮＯ」）、本方法は、６１２に進行して、受信された音声による質問の次の部分を、関連する信号強度の通知とともに送信し、また、６１０に戻って、別の音声エージェントがより高い信号強度を報告しているかを監視する。

より高い信号強度の第２の音声エージェントの通知が受信された場合（たとえば、６１０における「ＹＥＳ」）、本方法は、６１４に進行して、音声による質問の検出を第２の音声エージェントに受け渡す。６１６において示されているように、受渡しには、受信された音声による質問の送信を停止すること、及び／または、６１８で示されるように、受信された音声による質問の信号強度の通知の送信を継続することが含まれ得る。６１０において、複数の音声エージェントが、マスター音声エージェントよりも高い信号強度を報告した場合、マスター音声エージェントは、もっとも高い信号強度を報告した音声エージェントに音声による質問の検出を受け渡す場合があることを理解されたい。

６２０では、本方法は、（たとえば、マスター音声エージェントからの質問の終了の報告に基づき）質問の終了が検出されたかを判定することを含んでいる。質問の終了が検出されない場合（たとえば、６２０における「ＮＯ」）、本方法は、音声による質問に関する監視を継続することと、受信された音声による質問の信号強度の通知を選択的に送信することとを含んでいる（たとえば、信号強度は、音声による質問が検出されている限り、報告される場合があるか、マスター音声エージェントによって報告された信号強度よりも高い場合にのみ、報告される場合がある）。本方法は次いで、６２０に戻って、質問の終了に関する監視を継続する。６２２及び６２０における監視の実行の間の任意のポイント（たとえば、質問の終了が検出される前の任意のポイント）において、音声エージェントの信号強度が、マスター音声エージェントによって報告された信号強度よりも高い場合、音声エージェントがマスター音声エージェントに戻るように切り替わる場合があることから、本方法は、６１２に戻る場合があることを理解されたい。質問の終了が検出された場合（たとえば、６２０における「ＹＥＳ」）、本方法は音声による質問の監視を停止することを含む場合がある。たとえば、音声エージェントは、起動ワードに関する監視のみに戻る場合がある。

図７は、音声による質問の検出にわたって、制御の受渡しを受信するための方法７００のフローチャートである。たとえば、方法７００は、上述の音声エージェントのいずれか（たとえば、図４の音声エージェント４０２）などのマスター音声エージェントとして選定されていない音声エージェントによって実施され得る。７０２では、本方法は任意選択的に、起動ワードを確認することを含んでいる。マスターではない音声エージェントは、音声による質問の入力の開示時において、音声による質問を検出しない場合があり、このため、いくつかの実施例では、起動ワードを確認しない場合がある。他の実施例では、マスターではない音声エージェントは、起動ワードを検出する場合があるが、別の音声エージェントに比べて低い信号強度で起動ワードを検出する場合がある（また、このため、音声による質問の開始時において、マスター音声エージェントとして選定されていない場合がある）。

７０４では、本方法は、関連する信号強度で音声による質問を受信することを含んでいる。マスターではない音声エージェントが起動ワードを検出しない実施例では、マスター音声エージェントからの声紋の受信（たとえば、図２Ａの２１８で記載したように、起動ワード及びそれに次ぐ音声による質問を検出する第１の音声エージェントは、音声による質問の声紋を抽出するとともに、後の比較のために、ネットワーク内の他の音声エージェントに送信する）は、マスターではない音声エージェントが、起動ワード以外の音声データのリスニングを開始することのトリガになる場合がある（たとえば、マスターではない音声エージェントが起動ワードを検出した場合のように、マスターではない音声エージェントが「ｗａｋｅ（起動）」するトリガとなる場合がある）。７０６において示したように、音声による質問を提供するユーザを識別する声紋は、音声による質問を受信している間に判定され、また、マッチを判定するために、音声による質問に関して第１のマスター音声エージェントによって送信された声紋と比較される場合がある。７０８では、本方法は、関連する信号強度の通知を送信することを含んでいる。７１０では、本方法は、音声による質問が、マスター音声エージェントによって報告された信号強度よりも高い信号強度で受信されているかを判定することを含んでいる。音声エージェントが音声による質問を検出している信号強度が、マスターデバイスによって最後に報告された信号強度よりも高くない場合（たとえば、７１０における「ＮＯ」）、本方法は７０４に戻って、音声による質問の受信、及び、関連する信号強度の通知の送信を継続する。いくつかの実施例では、関連する信号強度の通知が、マスター音声エージェントから最後に報告された信号強度よりも高い場合にのみ送信される場合があることを理解されたい。

音声による質問が、マスター音声エージェントの、最後に報告された信号強度よりも高い信号強度で受信されている場合（たとえば、７１０における「ＹＥＳ」）、本方法は、７１２に進んで、現在のマスター音声エージェントからの音声による質問の検出の制御の受渡しを受信する。７１４では、本方法は、その部分が検出された関連する信号強度の通知を伴う、受信された音声による質問の次の部分を送信することを含んでいる。音声による質問の伝達は、前のマスター音声エージェントからの受渡しを受信するのに応じて、（公称の処理の遅延以外に）遅延することなく、新たなマスター音声エージェントによって速やかに実施され得ることを理解されたい。

７１６では、本方法は、質問の終了が検出されるかの判定を含んでいる。質問の終了が検出されない場合（たとえば、７１６における「ＮＯ」）、本方法は、７１８に進行して、より高い信号強度を伴う別の音声エージェントの通知が受信されたかを判定する。そのような通知が受信されない場合（たとえば、７１８における「ＮＯ」）、本方法は７１４に戻り、検出された音声による質問の送信と、質問の終了に関する監視とを継続する。より高い信号強度の別の音声エージェントの通知が受信された場合（たとえば、７１８における「ＹＥＳ」）、本方法は、７２０に進行して、音声による質問の検出をその他の音声エージェントに受け渡す。本方法は、７２２において、音声エージェントでの信号強度の通知を送信（または、信号強度が、新たなマスター音声エージェントによって報告された信号強度より高くなったら、信号強度の通知を送信）し、質問の終了に関する監視を継続するために、７１６に戻ることを継続することをさらに含んでいる場合がある。質問の終了が検出された場合（たとえば、７１６における「ＹＥＳ」）、本方法は７２４に進行して、音声による質問に関する監視を停止する。本方法は、７２６で示されているように、質問を質問応答サーバに送信することと、７２８における質問の応答を受信及び出力することとを含んでいる。

別の実施例には、音声エージェントであって、オーディオセンサと、通信インターフェースと、プロセッサと、プロセッサによって実行可能な指示を貯蔵するメモリデバイスであって、オーディオセンサを介して、音声入力に対応する第１のオーディオデータを検出すること、ならびに、音声エージェントネットワークの少なくとも１つの他の音声エージェントが、音声入力に対応する第２の音声データを検出していることを判定することに応じて、第１の音声データが検出される信号強度を判定すること、信号強度を、少なくとも１つの他の音声エージェントから受信された第２の音声データの報告された信号強度と比較すること、及び、第１の音声データの信号強度を、少なくとも１つの他の音声エージェントから受信された第２の音声データの報告された信号強度と比較することに基づき、第１の音声データと検出された音声データとの信号強度の、１つまたは複数の通知を、選択的に送信すること、を行うように、実行可能な指示を貯蔵するメモリデバイスと、を含む、音声エージェントが含まれる。音声エージェントの第１の実施例では、指示が、追加的または代替的に、少なくとも１つの他の音声エージェントが、別の音声エージェントからの音声入力と関連づけられた第１の声紋を受信することにより、音声入力に対応する音声データを検出していることを判定するように、さらに実行可能であり、音声データの第２の声紋を判定し、第２の声紋を第１の声紋と比較して、第２の声紋が第１の声紋にマッチすることを判定する場合がある。音声エージェントの第２の実施例は、第１の実施例を任意選択的に含み、さらに、指示が、音声データが検出される現在の信号強度よりも高い、少なくとも１つの他の音声エージェントの選択された音声エージェントからの第３の音声データの、報告された信号強度を受信するのに応じて、検出された音声データの送信を停止するように、さらに実行可能である、音声エージェントを含んでいる。音声エージェントの第３の実施例は、第１の実施例と第２の実施例との一方または両方を任意選択的に含み、さらに、指示が、音声入力の終了の通知を検出することと、音声入力の終了の通知の検出に応じて、少なくとも音声エージェントネットワークのネットワークデバイスに、音声入力の終了を示すメッセージを選択的に送信すること、をさらに実行可能である、音声エージェントを含んでいる。音声エージェントの第４の実施例は、第１の実施例から第３の実施例の１つまたは複数を任意選択的に含み、さらに、メッセージを選択的に送信することが、音声入力の終了の通知を検出した際に、音声エージェントが検出された音声データを送信している場合、メッセージを送信することと、音声入力の終了の通知を検出した際に、音声エージェントが検出された音声データを送信していない場合、メッセージを送信しないことと、を含んでいる、音声エージェントを含んでいる。第５の実施例は、第１の実施例から第４の実施例の１つまたは複数を任意選択的に含み、さらに、出力デバイスをさらに備え、指示が、音声入力の終了の通知を検出した際に、音声エージェントが検出された音声データを送信しているかに基づき、出力デバイスを介して、音声入力に対する応答を、選択的に受信及び出力するようにさらに実行可能である、音声エージェントを含んでいる。第６の実施例は、第１の実施例から第５の実施例の１つまたは複数を任意選択的に含み、さらに、指示が、音声入力に対応する音声データの検出を開始することと、音声エージェントネットワークの他の音声エージェントの各々に対し、予め規定された起動ワードの検出に応じて音声データが検出される信号強度を報告することと、をするようにさらに実行可能である、音声エージェントを含んでいる。第７の実施例は、第１の実施例から第６の実施例の１つまたは複数を任意選択的に含み、さらに、指示が、音声エージェントネットワークに結合した音声エージェントに応じて、アナウンスメッセージを送信するようにさらに実行可能である、音声エージェントを含んでいる。第８の実施例は、第１の実施例から第７の実施例の１つまたは複数を任意選択的に含み、さらに、信号強度の通知と、検出された音声データとの１つまたは複数を選択的に送信することが、マスター音声エージェントとしてアサインされるのに応じて、少なくとも音声エージェントネットワークのネットワークデバイスに、検出された音声データ、及び、信号強度の通知を送信することと、信号強度が、少なくとも１つの他の音声エージェントの報告された信号強度より高いことと、音声エージェントが現在、マスター音声エージェントとしてアサインされていないこととの判定に応じて、少なくとも音声エージェントネットワークのネットワークデバイスに、信号強度の通知のみを送信することと、を含んでいる、音声エージェントを含んでいる。

別の実施例は、複数の音声エージェントを含む音声エージェントネットワークにおける音声入力の検出の制御方法であって、複数の音声エージェントの第１の音声エージェントにおいて、第１の信号強度における音声入力に対応する第１の音声データを検出することと、第１の信号強度が、音声エージェントネットワーク内の他の音声エージェントの各々から報告された、受信した信号強度より高いことの判定に応じて、第１の音声エージェントをマスター音声エージェントとしてアサインすることと、第１の音声エージェントから、第１の音声データと、第１の音声エージェントがマスター音声エージェントとしてアサインされている間に第１の音声データが検出される、継続的にアップデートされる信号強度の報告とを含むストリームを送信することと、複数の音声エージェントの第２の音声エージェントが、第１の音声エージェントから現在報告されている信号強度よりも高い信号強度において、音声入力に対応する第２の音声データを検出することの通知を受信するのに応じて、第２の音声エージェントをマスター音声エージェントとしてアサインし、第１の音声エージェントにおけるストリームの送信を停止することと、を含む、制御方法を含んでいる。第１の実施例では、本方法は、追加的または代替的に、第１の音声エージェントから、音声入力を識別する声紋を送信することをさらに含む場合がある。第２の実施例は、第１の実施例を任意選択的に含み、さらに、現在の信号強度が、第２の音声エージェントから受信した、最後に報告された信号強度より高いことの判定にのみ応じて、第２の音声エージェントがマスター音声エージェントとしてアサインされている間に、第１の音声エージェントから、音声入力に対応する検出された音声データの現在の信号強度の報告を送信することをさらに含む、方法を含んでいる。第３の実施例は、第１の実施例と第２の実施例との一方または両方を任意選択的に含み、さらに、第１の音声エージェントがマスター音声エージェントとしてアサインされている間に、音声入力の終了の通知を検出することと、音声入力の終了の通知の検出に応じて、音声入力の終了を示すメッセージを遠位のデバイスに送信することと、をさらに含む、方法を含んでいる。第４の実施例は、第１の実施例から第３の実施例の１つまたは複数を任意選択的に含み、さらに、音声入力が音声による質問を含み、遠位のデバイスが質問応答サーバを含み、方法がさらに、第１の音声エージェントにおいて、音声による質問に対する応答を受信することと、第１の音声エージェントの出力デバイスを介して、音声による質問に対する応答を出力することと、をさらに含む、方法を含んでいる。

別の実施例は、音声入力の検出を制御するための例示的音声エージェントネットワークは、複数の音声エージェントと、複数の音声エージェント、及び、質問応答サーバに通信するように結合されたネットワークデバイスと、第１の複数の音声エージェントの第１の音声エージェントであって、第１の音声エージェントのプロセッサにより、第１の信号強度での音声による質問に対応する第１の音声データを検出することと、第１の信号強度が、音声エージェントネットワーク内の他の音声エージェントの各々から報告された、受信した信号強度より高いことの判定に応じて、マスター音声エージェントとしてのアサインを受信することと、第１の音声データと、第１の音声エージェントがマスター音声エージェントとしてアサインされている間に第１の音声データが検出される、継続的にアップデートされる信号強度の報告とを含むストリームを送信することと、複数の音声エージェントの第２の音声エージェントが、第１の音声エージェントから現在報告されている信号強度よりも高い信号強度における音声による質問に対応する第２の音声データを検出することの通知を受信するのに応じて、第２の音声エージェントをマスター音声エージェントとしてアサインし、第１の音声エージェントにおけるストリームの送信を停止することと、をするように実行可能である指示を貯蔵するメモリデバイスを含む、第１の音声エージェントとを含んでいる、音声エージェントネットワークを含んでいる。第１の実施例では、指示は、追加的または代替的に、第１の音声エージェントから、音声による質問を識別する声紋を送信するようにさらに実行可能である場合がある。第２の実施例は、第１の実施例を任意選択的に含み、さらに、指示が、現在の信号強度が、第２の音声エージェントから受信した、最後に報告された信号強度より高いことの判定にのみ応じて、第２の音声エージェントがマスター音声エージェントとしてアサインされている間に、第１の音声エージェントから、音声による質問に対応する検出された音声データの現在の信号強度の報告を送信するように、さらに実行可能である、音声エージェントネットワークを含んでいる。第３の実施例は、第１の実施例と第２の実施例との一方または両方を任意選択的に含み、さらに、指示が、第１の音声エージェントがマスター音声エージェントとしてアサインされている間に、音声入力の終了の通知を検出することと、音声による質問の終了の通知の検出に応じて、質問応答サーバに進行させるために、音声による質問の終了を示すメッセージをネットワークデバイスに送信することと、をするようにさらに実行可能である、音声エージェントネットワークを含んでいる。第４の実施例は、第１の実施例から第３の実施例の１つまたは複数を任意選択的に含み、さらに、指示が、第１の音声エージェントにおいて、音声による質問に対する応答を受信することと、第１の音声エージェントの出力デバイスを介して、音声による質問に対する応答を出力することと、をするようにさらに実行可能である、音声エージェントネットワークを含んでいる。第５の実施例は、第１の実施例から第４の実施例の１つまたは複数を任意選択的に含み、さらに、指示が、音声エージェントネットワークに結合した第１の音声エージェントに応じて、アナウンスメッセージを送信するようにさらに実行可能である、音声エージェントネットワークを含んでいる。

別の実施例には、音声エージェントネットワークであって、複数の音声エージェントと、複数の音声エージェント、及び、質問応答サーバに通信するように結合されたネットワークデバイスと、第１の複数の音声エージェントの第１の音声エージェントであって、第１の音声エージェントのプロセッサにより、第１の信号強度及び第１の信号の品質で、音声による質問に対応する第１の音声データを検出することと、第１の信号強度と第１の信号の品質との一方または両方が、音声エージェントネットワーク内の他の音声エージェントの各々から報告された、受信した信号強度と信号の品質とのそれぞれより高いことの判定に応じて、マスター音声エージェントとしてのアサインを受信することと、第１の音声データと、第１の音声エージェントがマスター音声エージェントとしてアサインされている間に第１の音声データが検出される、継続的にアップデートされる信号強度、及び／または、継続的にアップデートされる信号の品質の報告とを含むストリームを送信することと、複数の音声エージェントの第２の音声エージェントが、第１の音声エージェントから現在報告されている信号強度と信号の品質とのそれぞれよりも高い第２の信号強度と第２の信号の品質との一方または両方において、音声による質問に対応する第２の音声データを検出することの通知を受信するのに応じて、第２の音声エージェントをマスター音声エージェントとしてアサインし、第１の音声エージェントにおけるストリームの送信を停止することと、をするように実行可能である指示を貯蔵するメモリデバイスを含む、第１の音声エージェントと、を備えた、音声エージェントネットワークが含まれている。

各実施形態の記載は、説明及び記載の目的で提供されたものである。各実施形態に対する適切な変更及び変形は、上述の記載を鑑みて行われ得るか、本方法の実施から得られる場合がある。たとえば、別様に記載されていない限り、記載の方法の１つまたは複数は、図１から図４に関して上述した、音声エージェント、ネットワークデバイス、及び／または質問応答サーバなどの、適切なデバイス及び／またはデバイスの組合せによって実施され得る。本方法は、ストレージデバイス、メモリ、ハードウェア・ネットワーク・インターフェース／アンテナ、スイッチ、アクチュエータ、クロック回路などの、１つまたは複数の追加のハードウェア要素と組み合わせて、１つまたは複数の論理デバイス（たとえば、プロセッサ）で、貯蔵された指示を実行することによって実施され得る。記載の方法及び関連する動作は、本出願で記載された順番に加え、並列して、及び／または同時に、様々な順番でも実施され得る。上述のシステムは、例示的性質のものであり、追加の要素を含み得、及び／または、要素を省略し得る。本開示の主題は、すべての新規の、かつ、明らかではない、様々なシステム及び構成、ならびに、開示の他の特徴、機能、及び／または特性の、組合せ及びサブの組合せを含んでいる。

本出願で使用される場合、単数で述べられ、「ａ」または「ａｎ」のワードに続く要素またはステップは、そのような除外が述べられていない限り、複数の前述の要素またはステップを除外しないものとして理解されるものとする。さらに、本開示の「１つの実施形態」または「１つの実施例」に対する参照は、やはり述べられた特徴を組み込んでいるさらなる実施形態の存在を除外するものとして解されることは意図されていない。「ｆｉｒｓｔ」、「ｓｅｃｏｎｄ」、及び「ｔｈｉｒｄ」などの用語は、単にラベルとして使用されているものであり、数値上の要請、または、その対象の特定の位置的順番を課すことを意図するものではない。添付の特許請求の範囲は、特に、新規であり明らかではないものと見なされる、上述の開示からの主題を指摘している。

Claims

音声エージェントであって、
オーディオセンサと、
通信インターフェースと、
プロセッサと、
メモリデバイスであって、前記メモリデバイスは、
前記オーディオセンサを介して、音声入力に対応する第１の音声データを検出すること、ならびに、
音声エージェントネットワークの少なくとも１つの他の音声エージェントが、前記音声入力に対応する第２の音声データを検出していることを判定することに応じて、
前記第１の音声データが検出される信号強度を判定すること、
前記信号強度を、前記少なくとも１つの他の音声エージェントから受信された前記第２の音声データの報告された信号強度と比較すること、及び、
前記第１の音声データの前記信号強度が、前記少なくとも１つの他の音声エージェントから受信された前記第２の音声データの前記報告された信号強度よりも高い場合、前記第１の音声データの前記信号強度の通知を送信すること、を行うように、前記プロセッサによって実行可能な指示を貯蔵する、メモリデバイスと、を備えた、音声エージェント。
前記指示が、少なくとも１つの他の音声エージェントが、別の音声エージェントからの前記音声入力と関連づけられた第１の声紋を受信することにより、前記音声入力に対応する音声データを検出していることを判定するように、さらに実行可能であり、前記音声データの第２の声紋を判定し、前記第２の声紋を前記第１の声紋と比較して、前記第２の声紋が前記第１の声紋にマッチすることを判定する、請求項１に記載の音声エージェント。
前記指示が、前記音声入力の終了の通知を検出することと、前記音声入力の前記終了の前記通知の検出に応じて、少なくとも前記音声エージェントネットワークのネットワークデバイスに、前記音声入力の前記終了を示すメッセージを送信すること、をさらに実行可能である、請求項１に記載の音声エージェント。
前記メッセージを送信することが、前記音声入力の前記終了の前記通知を検出した際に、前記音声エージェントが検出された第１の音声データを送信している場合、前記メッセージを送信することと、前記音声入力の前記終了の前記通知を検出した際に、前記音声エージェントが検出された第１の音声データを送信していない場合、前記メッセージを送信しないことと、を含んでいる、請求項３に記載の音声エージェント。
出力デバイスをさらに備え、前記指示が、前記音声入力の前記終了の前記通知を検出した際に、前記音声エージェントが検出された第１の音声データを送信しているかに基づき、前記出力デバイスを介して、前記音声入力に対する応答を、受信及び出力するようにさらに実行可能である、請求項３に記載の音声エージェント。
前記指示が、前記音声入力に対応する前記第１の音声データの検出を開始することと、前記音声エージェントネットワークの他の音声エージェントの各々に対し、予め規定された起動ワードの検出に応じて前記第１の音声データが検出される信号強度を報告することと、をするようにさらに実行可能である、請求項１に記載の音声エージェント。
前記指示が、前記音声エージェントネットワークに結合した前記音声エージェントに応じて、アナウンスメッセージを送信するようにさらに実行可能である、請求項１に記載の音声エージェント。
複数の音声エージェントを含む音声エージェントネットワークにおける音声入力の検出を制御する方法であって、
前記複数の音声エージェントの第１の音声エージェントにおいて、第１の信号強度における音声入力に対応する第１の音声データを検出することと、
前記第１の信号強度が、前記音声エージェントネットワーク内の他の音声エージェントの各々から報告された、受信した信号強度より高いことの判定に応じて、前記第１の音声エージェントをマスター音声エージェントとしてアサインすることと、
前記第１の音声エージェントから、前記第１の音声エージェントが前記マスター音声エージェントとしてアサインされている間に前記第１の音声データが検出される際に、（ｉ）前記第１の音声データと（ｉｉ）継続的にアップデートされる信号強度の報告とを含むストリームを送信することと、
前記複数の音声エージェントの第２の音声エージェントが、前記第１の音声エージェントから現在報告されている信号強度よりも高い信号強度において、前記音声入力に対応する第２の音声データを検出することの通知を受信するのに応じて、前記第２の音声エージェントを前記マスター音声エージェントとしてアサインし、前記第１の音声エージェントにおける前記ストリームの前記送信を停止することと、を含む、方法。
前記第１の音声エージェントから、前記音声入力を識別する声紋を送信することをさらに含む、請求項８に記載の方法。
前記現在の信号強度が、前記第２の音声エージェントから受信した、最後に報告された信号強度より高いことの判定にのみ応じて、前記第２の音声エージェントが前記マスター音声エージェントとしてアサインされている間に、前記第１の音声エージェントから、前記音声入力に対応する検出された第１の音声データの前記現在の信号強度の報告を送信することをさらに含む、請求項８に記載の方法。
前記第１の音声エージェントが前記マスター音声エージェントとしてアサインされている間に、前記音声入力の終了の通知を検出することと、前記音声入力の前記終了の前記通知の検出に応じて、前記音声入力の前記終了を示すメッセージを遠位のデバイスに送信することと、をさらに含む、請求項８に記載の方法。
前記音声入力が音声による質問を含み、前記遠位のデバイスが質問応答サーバを含み、前記方法がさらに、前記第１の音声エージェントにおいて、前記音声による質問に対する応答を受信することと、前記第１の音声エージェントの出力デバイスを介して、前記音声による質問に対する前記応答を出力することと、をさらに含む、請求項１１に記載の方法。
音声エージェントネットワークであって、
複数の音声エージェントと、
前記複数の音声エージェント、及び、質問応答サーバに通信するように結合されたネットワークデバイスと、
メモリデバイスを含む前記複数の音声エージェントの第１の音声エージェントであって、前記メモリデバイスは、
第１の信号強度及び第１の信号の品質で、音声による質問に対応する第１の音声データを検出することと、
前記第１の信号強度と前記第１の信号の品質との一方または両方が、前記音声エージェントネットワーク内の他の音声エージェントの各々から報告された、受信した信号強度と信号の品質とのそれぞれより高いことの判定に応じて、マスター音声エージェントとしてのアサインを受信することと、
前記第１の音声エージェントが前記マスター音声エージェントとしてアサインされている間に前記第１の音声データが検出される際に、（ｉ）前記第１の音声データと（ｉｉ）継続的にアップデートされる信号強度及び／または継続的にアップデートされる信号の品質の報告とを含むストリームを送信することと、
前記複数の音声エージェントの第２の音声エージェントが、前記第１の音声エージェントから現在報告されている信号強度と信号の品質とのそれぞれよりも高い第２の信号強度と第２の信号の品質との一方または両方において、前記音声による質問に対応する第２の音声データを検出することの通知を受信するのに応じて、前記第２の音声エージェントを前記マスター音声エージェントとしてアサインし、前記第１の音声エージェントにおける前記ストリームの前記送信を停止することと、
を行うように前記第１の音声エージェントのプロセッサによって実行可能である指示を貯蔵する、第１の音声エージェントと、を備えた、音声エージェントネットワーク。
前記指示が、前記第１の音声エージェントから、前記音声による質問を識別する声紋を送信するようにさらに実行可能である、請求項１３に記載の音声エージェントネットワーク。
前記指示が、前記現在の信号強度が、前記第２の音声エージェントから受信した、最後に報告された信号強度より高いことの判定にのみ応じて、前記第２の音声エージェントが前記マスター音声エージェントとしてアサインされている間に、前記第１の音声エージェントから、前記音声による質問に対応する検出された第１の音声データの前記現在の信号強度の報告を送信するように、さらに実行可能である、請求項１３に記載の音声エージェントネットワーク。
前記指示が、前記第１の音声エージェントが前記マスター音声エージェントとしてアサインされている間に、前記音声による質問の終了の通知を検出することと、前記音声による質問の前記終了の前記通知の検出に応じて、前記質問応答サーバに進行させるために、音声入力の終了を示すメッセージを前記ネットワークデバイスに送信することと、をするようにさらに実行可能である、請求項１３に記載の音声エージェントネットワーク。
前記指示が、前記第１の音声エージェントにおいて、前記音声による質問に対する応答を受信することと、前記第１の音声エージェントの出力デバイスを介して、前記音声による質問に対する前記応答を出力することと、をするようにさらに実行可能である、請求項１６に記載の音声エージェントネットワーク。
前記指示が、前記音声エージェントネットワークに結合した前記第１の音声エージェントに応じて、アナウンスメッセージを送信するようにさらに実行可能である、請求項１３に記載の音声エージェントネットワーク。