JP2022137187A

JP2022137187A - ワイヤレススピーカーにおいて、再生を検出するため、かつ／または不整合な再生に適応するための構造化オーディオ出力の使用

Info

Publication number: JP2022137187A
Application number: JP2022111771A
Authority: JP
Inventors: ナサニエル・ネシバ; Nesiba Nathaniel; シャン・カオ; Xiang Cao
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-01-29
Filing date: 2022-07-12
Publication date: 2022-09-21
Anticipated expiration: 2039-02-12
Also published as: JP2024001277A; US11100931B2; US20230386466A1; CN113348503A; JP7442583B2; US20210375287A1; KR20210102443A; WO2020159556A1; EP3916722A1; JP2022515291A; KR102652892B1; EP3743915B1; JP7110496B2; US11741958B2; US20210056964A1; KR102331793B1; KR20210146428A; EP3743915A1

Abstract

【課題】ワイヤレス通信チャネルを介してオーディオデータストリームをコンピューティングデバイスに送信させることによって、コンピューティングデバイスのオーディオ遅延を判定する方法を提供する。【解決手段】方法は、スピーカーを介して、オーディオデータストリームを使用して生成されたオーディオ出力をレンダリングさせる。レンダリングされたオーディオ出力は、マイクロフォンを介してキャプチャされ、オーディオ遅延は、キャプチャされたオーディオ出力をオーディオデータストリームと比較することによって判定される。遅延オーディオセグメントは、コンピューティングデバイスに送信される追加のオーディオデータストリームに付加され、遅延オーディオセグメントの長さは、オーディオ遅延を使用して判定される。雑音低減技法は、追加または代替として、オーディオ遅延に基づいて適応される。【選択図】図５

Description

人間は、本明細書で「自動アシスタント」と呼ばれる(「デジタルエージェント」、「チャットボット」、「対話型パーソナルアシスタント」、「インテリジェントパーソナルアシスタント」、「アシスタントアプリケーション」、「会話型エージェント」、などと呼ばれることもある)対話型ソフトウェアアプリケーションを用いて人間対コンピュータダイアログに参加し得る。たとえば、人間(自動アシスタントと対話するとき、「ユーザ」と呼ばれることがある)は、場合によっては、テキストに変換され、次いで処理され得る口頭の自然言語入力(すなわち、発話)を使用して、かつ/またはテキスト(たとえば、タイプされた)自然言語入力を提供することによって、自動アシスタントにコマンドおよび/または要求を提供し得る。自動アシスタントは、可聴および/または可視インターフェース出力を含み得る応答ユーザインターフェース出力を提供することによって、要求に応じる。

上述のように、多くの自動アシスタントは、口頭発話を介して対話されるように構成される。ユーザのプライバシーを保護するために、かつ/またはリソースを保存するために、ユーザは、自動アシスタントが口頭発話を完全に処理することになる前に、自動アシスタントを明示的に呼び出さなければならないことが多い。自動アシスタントの明示的な呼出しは、一般に、クライアントデバイスにおいて受信される一定のユーザインターフェース入力に応じて発生する。クライアントデバイスは、自動アシスタントとインターフェースするためのインターフェースをクライアントデバイスのユーザに提供し(たとえば、口頭のかつ/またはタイプされた入力をユーザから受信し、可聴および/またはグラフィカル応答を提供し)、自動アシスタントを実装する1つまたは複数の追加の構成要素(たとえば、ユーザ入力を処理し、適切な応答を生成するリモートサーバデバイス)とインターフェースする、アシスタントインターフェースを含む。

クライアントデバイスを介して自動アシスタントを呼び出すことができる、いくつかのユーザインターフェース入力は、自動アシスタントの呼出し(たとえば、ハードウェアボタンのタップ、クライアントデバイスが表示したグラフィカルインターフェース要素の選択)のためのクライアントデバイスにおけるハードウェアおよび/または仮想ボタンを含む。多くの自動アシスタントは、追加または代替として、「ホットワード/フレーズ」または「トリガワード/フレーズ」としても知られる、1つまたは複数の口頭呼出しフレーズに応じて呼び出されることがある。たとえば、「おい、アシスタント」、「OK、アシスタント」、および/または「アシスタント」などの口頭呼出しフレーズを発して自動アシスタントを呼び出すことができる。

ユーザは、車両の中にいる間に自動アシスタントと対話することを望むことがある。たとえば、ユーザは、モバイルスマートフォンの自動アシスタントを呼び出して、運転方向を要求することがある。さらに、クライアントデバイス(モバイルスマートフォンなど)は、クライアントデバイスが提供するオーディオデータが1つまたは複数の車両スピーカーを介してレンダリングされ得るように、車両に通信可能に結合され得る。たとえば、モバイルスマートフォンは、Bluetoothを介して車両に通信可能に結合可能であり、モバイルスマートフォンからのオーディオデータは、Bluetoothを介して車両コンピューティングデバイスに送信され、車両スピーカーを介して車両コンピューティングデバイスによってレンダリングされ得る。このオーディオデータは、自動アシスタントによってモバイルスマートフォンに提供される自然言語応答を含み得る。

しかしながら、多くの車両コンピューティングデバイスは、1つまたは複数の条件下で、モバイルスマートフォンによって送信されるオーディオデータ全体の車両スピーカーを介したレンダリングに失敗することになる。たとえば、いくつかの車両コンピューティングデバイスは、オーディオデータ全体を受信することができるが、たとえば、オーディオデータをレンダリングするための構成要素を開始させる際の遅延により、スピーカーを介してオーディオデータの初期部分をレンダリングしないことになる。したがって、オーディオデータの初期部分は、車両スピーカーを介したレンダリングに失敗することになる。たとえば、オーディオデータは、「Main Streetを左に曲がってください」という合成音声を含み得るが、車両コンピューティングデバイスは、「Main Streetを」のみをレンダリングすることになる。関連する「左に曲がる」がレンダリングされず、ユーザが曲がる方向を確かめるためにモバイルスマートフォンのディスプレイをアクティブ化することを余儀なくし、かつ/またはユーザを「Main Streetに」誤った方向にうっかり曲がらせるため、これは問題になる。これらのシナリオは両方とも、計算リソースの無駄につながる。追加または代替として、多くの車両コンピューティングデバイスは、車両コンピューティングデバイスが適切なモード(たとえば、Bluetoothモード)でないとき、モバイルスマートフォンによって送信されるいずれかのオーディオデータの車両スピーカーを介したレンダリングに失敗することになる。これは、結果として、オーディオデータが車両スピーカーを介して実際にレンダリングされないため、オーディオデータの無駄な送信につながり、適切なモードに手動で切り替えた後でオーディオデータの再送信をユーザに要求させる可能性がある。

本明細書で説明する実装形態は、コンピューティングデバイスと追加のコンピューティングデバイス(たとえば、車両コンピューティングデバイス)によって駆動される1つまたは複数の追加のスピーカー(たとえば、車両スピーカー)の間のオーディオ遅延を判定することに関し、コンピューティングデバイスおよび追加のコンピューティングデバイスは、ワイヤレス通信チャネルを介して通信可能に結合される。それらの実装形態のいくつかのバージョンでは、オーディオ遅延を使用して判定された持続時間を有する、対応する遅延オーディオセグメントが追加のコンピューティングデバイスに送信される追加のオーディオストリームに付加される。遅延オーディオセグメントを追加のオーディオストリームに付加することにより、遅延オーディオセグメントの少なくとも部分は追加のスピーカーによってレンダリングされないが、これは、追加のオーディオストリームが追加のスピーカーによってレンダリングされることを確実にする。それらの実装形態のいくつかのバージョンでは、オーディオ遅延は、追加または代替として、コンピューティングデバイスおよび/またはさらなるコンピューティングデバイスの雑音低減に適応するために利用される。たとえば、適応される雑音低減は、キャプチャされた(マイクロフォンを介してキャプチャされた)オーディオデータから追加のスピーカーを介してレンダリングするために提供されるオーディオデータをフィルタリングする雑音消去フィルタであってよく、オーディオ遅延を利用して、追加のスピーカーを介してオーディオデータを実際にレンダリングするための予測されるタイミングを正確に判定し得る。

本明細書で説明する実装形態は、追加および/または代替として、追加のコンピューティングデバイスによって駆動される1つまたは複数の追加のスピーカー(たとえば、車両スピーカー)を通してレンダリングするために追加のコンピューティングデバイス(たとえば、車両コンピューティングデバイス)に送信されるオーディオデータストリームが、実際に追加のスピーカーを通してレンダリングされているかどうかを判定することに関する。そうである場合、追加のオーディオデータは、(そのオーディオデータが追加のスピーカーを通して同様にレンダリングされることになるとの仮定に基づいて)追加のスピーカーを通してレンダリングするために追加のコンピューティングデバイスに送信され得る。そうでない場合、追加のオーディオデータは、代わりに、追加のコンピューティングデバイスによって駆動されていない代替スピーカーを使用してレンダリングされ得る。これらのおよび他の方法では、前に送信されたオーディオデータが実際に車両スピーカーを介してレンダリングされたと判定されるとき、追加のオーディオデータは車両スピーカーを介してレンダリングするために送信され得る。しかしながら、前に送信されたオーディオデータが実際に車両スピーカーを介してレンダリングされなかったと判定されるとき、追加のオーディオデータは、代わりに、代替スピーカーを介してレンダリングされ得る。これは、オーディオデータが実際にレンダリングされ、ユーザが感知できることを確実にし、ユーザにオーディオデータの再送信および/または別のレンダリング試行の要求を余儀なくさせることを防止する。さらに、これは、随意に、追加のコンピューティングデバイスへのオーディオデータの送信が、そのデータが追加のコンピューティングデバイスによって可聴的にレンダリングされることになると判定されるときのみ発生することを確実にし得る。

一例として、スマートフォンは、Bluetoothを介して車両コンピューティングデバイスに通信可能に結合可能であり、スマートフォンは、車両のスピーカーを介してレンダリングするためにオーディオデータを車両コンピューティングデバイスに送信し得る。たとえば、スマートフォンの自動アシスタントクライアントは、ユーザからの要求に応じて、オーディオデータを生成することができ、その要求に応じて、オーディオデータを車両コンピューティングデバイスに送信させることができる。

多くの実装形態では、車両スピーカーを使用して車両コンピューティングデバイスによってレンダリングするためにコンピューティングデバイスから送信されるオーディオデータは、オーディオデータが車両スピーカーを介してレンダリングされる前に、最高で数秒の遅延を受けることがある。たとえば、車両コンピューティングデバイスがBluetoothモードに切り替えるとき、車両コンピューティングデバイスに送信されるオーディオデータの一部分(たとえば、1秒、1.5秒、など)が車両スピーカーにおけるレンダリングに失敗することがある。多くの実装形態では、オーディオデータのこの部分は、車両コンピューティングデバイスによって受信されるが、車両コンピューティングデバイスによって廃棄される(すなわち、車両コンピューティングデバイスは、車両コンピューティングデバイスがBluetoothモードになるまで、オーディオデータストリームのいずれかの受信された部分を廃棄する)。結果として、オーディオデータの当該部分は、車両スピーカーを介してレンダリングされることが意図されているにもかかわらず、車両スピーカーを介してまったくレンダリングされない。これは、自動アシスタントクライアントを使用して生成された自然言語応答をキャプチャするオーディオデータなど、様々なオーディオデータにとって問題になり得る。そのような自然言語応答は短いことが多く、自然言語応答の関連部分(または、全体)は、車両スピーカーを介したレンダリングに失敗することがある。

多くの実装形態では、コンピューティングデバイスと車両コンピューティングデバイスの間のオーディオ遅延は、自動的に判定可能であり、そのサイズが遅延の長さに基づいて判定される遅延オーディオセグメントが将来のオーディオデータに付加され得る。たとえば、クライアントデバイスは、車両コンピューティングデバイスに送信されるオーディオデータ内に0.5秒の遅延を判定することができ、したがって、0.5秒の遅延オーディオを含む遅延オーディオセグメントを車両コンピューティングデバイスに送信される将来のオーディオデータストリームの始端に付加し得る。このようにして、遅延オーディオセグメントが(少なくとも完全には)レンダリングされないことになるとしても、遅延オーディオセグメントを将来のオーディオデータストリームに付加することは、将来のオーディオストリーム全体がレンダリングされることになることを確実にする。オーディオ遅延は、オーディオデータストリームの始端において、オーディオデータストリームの終端において、またはオーディオデータストリームの始端と終端の両方において、発生し得る。したがって、遅延オーディオセグメントは、オーディオデータストリームの始端、終端、または始端と終端の両方に付加され得る。

車両オーディオ遅延を判定するために、コンピューティングデバイスは、オーディオデータの既知のシーケンスを車両コンピューティングデバイスに送信し得る。車両コンピューティングデバイスは、1つまたは複数の車両スピーカーを使用してオーディオデータをレンダリングすることができ、コンピューティングデバイスは、オーディオデータのレンダリングをキャプチャし得る。たとえば、モバイルスマートフォンは、オーディオデータストリームを車両コンピューティングデバイスに送信することができ、車両のスピーカーを使用して生成されたオーディオ出力をキャプチャし得る。キャプチャされたオーディオデータを既知のオーディオデータストリームと比較することによって、コンピューティングデバイスは、車両オーディオ遅延を判定し得る。このオーディオデータシーケンスは、ユーザに可聴であってよく、ユーザに不可聴であってもよく(たとえば、高周波数オーディオ)、かつ/または可聴および不可聴オーディオデータの組合せであってもよい。たとえば、オーディオデータストリームは、既知の長さの単一の周波数におけるオーディオデータのセグメントを含み得る。クライアントデバイスは、キャプチャされたオーディオデータの長さをオーディオデータストリームの既知の長さと比較して、遅延を判定し得る。追加および/または代替として、オーディオデータストリームは、周波数セグメントのシーケンスを含み得る。キャプチャされた周波数セグメントのシーケンスは、遅延を判定するために、周波数セグメントの送信されたシーケンスと比較され得る。様々な実装形態では、背景雑音は、車両スピーカーを使用してレンダリングされた、キャプチャされたオーディオ出力に干渉し得る(すなわち、車両外部のトラフィック、車両内の人々の話、などは、キャプチャされたオーディオ出力に干渉し得る)。オーディオデータストリームは、共起周波数セグメントのシーケンス(たとえば、デュアルトーン周波数セグメント、トライトーン周波数セグメント、クワッドトーン周波数セグメント、など)を含み得る。多くの場合、コンピューティングデバイスは、背景雑音にもかかわらず、共起周波数セグメント内の少なくとも1つの周波数を依然としてキャプチャし得る。様々な実装形態では、車両オーディオ遅延を判定するために使用されるオーディオデータは、デュアルトーンマルチ周波数(DTMF)オーディオのシーケンスである。

様々な実装形態では、車両インターフェースデバイスは、加えて、コンピューティングデバイスに通信可能に結合され得る。車両インターフェースデバイスは、追加のマイクロフォンおよび/または追加のスピーカーなど、追加および/または代替のユーザインターフェース入力および/またはユーザインターフェース出力を提供し得る。たとえば、車両インターフェースデバイスは、Bluetoothを介してコンピューティングデバイスに通信可能に結合されてよく、車両スピーカーのオーディオ出力ならびにユーザが発した発話をキャプチャするための1つまたは複数の追加のマイクロフォンを含み得る。いくつかの実装形態では、車両インターフェースデバイスのマイクロフォンは、オーディオ出力をキャプチャするために、コンピューティングデバイスのマイクロフォンよりもよい位置にある、かつ/またはより適している可能性がある。たとえば、ユーザは、運転中、そのモバイルスマートフォンをバックパックの中に有することがあり、バックパックは、モバイルスマートフォンのマイクロフォンが(バックパックによって遮断されない)車両インターフェースデバイスのマイクロフォンと同じ程度オーディオ出力をキャプチャすることを妨げることがある。別の例として、車両インターフェースデバイスは、車両内の様々な発話をキャプチャするように、よりよく装備され得る遠距離マイクロフォンを含むことがあるが、スマートフォンには遠距離マイクロフォンがないことがある。追加または代替として、車両インターフェースデバイスは、呼出しフレーズの口頭呼出しを検出し、呼出しフレーズの検出の後、オーディオデータをコンピューティングデバイスに送信し得る。

多くの実装形態では、クライアントデバイスは、オーディオデータストリームが実際に1つまたは複数の車両スピーカーを使用してレンダリングされるかどうかを判定するために、オーディオデータストリームを車両コンピューティングデバイスに送信し得る。クライアントデバイス(または、クライアントデバイスに通信可能に結合された車両インターフェースデバイス)がオーディオデータストリームに対応するいずれかのオーディオデータ出力を(マイクロフォンを介して)キャプチャしない場合、クライアントデバイスは、代替スピーカー(たとえば、クライアントデバイススピーカー、車両インターフェースデバイススピーカー、など)を使用して、将来のオーディオデータストリームをレンダリングし得る。他方で、オーディオデータストリームに対応するオーディオデータ出力がキャプチャされる場合、クライアントデバイスは、車両スピーカーを介してレンダリングするために、将来のオーディオデータストリームを車両コンピューティングデバイスに送信し得る。多くの実装形態では、クライアントデバイスは、周期ベース(たとえば、毎分、2分おきに、5分おきに、など)で、または他の一定または非一定間隔で、オーディオデータストリームを送信し得る。追加または代替として、クライアントデバイスは、クライアントデバイスがオーディオデータストリームを最後に送信してからの経過時間に基づいて、オーディオデータストリームを送信するかどうかを判定し得る。たとえば、最後の送信からしきい値時間が経過した場合、クライアントデバイスはオーディオデータストリームを送信することになる(たとえば、最後の送信から10秒、最後の送信から30秒、最後の送信から1分、などが過ぎた場合、クライアントデバイスはオーディオデータストリームを送信することになる)。多くの実装形態では、クライアントデバイスは、自動アシスタントクライアントが、ユーザが提供した入力に対する応答を判定するのに「忙しい」間、自動アシスタントの呼出しの検出に応じて(たとえば、ホットワードの検出または呼出しボタンの作動の検出に応じて)オーディオデータストリームを送信し得る。これらのおよび他の方法では、クライアントデバイスは、オーディオデータストリームが、車両スピーカーを介したレンダリングのために提供されるべきか、または代わりに、代替スピーカーを介したレンダリングのために提供されるべきかについて、その判定を動的に更新し得る。

いくつかの実装形態では、判定されたオーディオ遅延は、追加または代替として、様々な雑音低減技法とともに使用され得る。たとえば、ユーザは、口頭入力「OKアシスタント、何時?」を自動アシスタントクライアントに提供することができ、自動アシスタントクライアントは、応答として「午後3時5分です」を編成し得る。クライアントデバイスは、「午後3時5分です」のテキスト対音声変換を含むオーディオデータストリームを車両コンピューティングデバイスに送信することができ、車両コンピューティングデバイスは、車両スピーカーを介してオーディオデータストリームをレンダリングし得る。クライアントデバイスおよび/または別個の車両インターフェースデバイスは、(マイクロフォンを介してキャプチャされる)キャプチャされたオーディオデータから「午後3時5分です」のテキスト対音声変換を消去する際に、送信されたオーディオデータストリーム、および判定されたオーディオ遅延を利用し得る。言い換えれば、レンダリングされているオーディオデータストリームの知識を使用して、キャプチャされたオーディオデータからオーディオデータストリームを消去し、それにより、ユーザのいずれかの共起する口頭発話をよりよく認識させることを可能にし得る。オーディオデータストリームの知識は、適切な時点でオーディオデータストリームを消去するための雑音消去を可能にするために(たとえば、「午後3時5分です」が実際に1.2秒の遅延(または、他の遅延)でレンダリングされることになることを知るために)、判定されたオーディオ遅延とともに利用される。たとえば、クライアントデバイスは、雑音低減の際に車両インターフェースデバイスによって使用するために、「午後3時5分です」オーディオストリームを車両インターフェースデバイスに送信し得る。車両インターフェースデバイスは、オーディオストリームおよび車両オーディオ遅延を使用して、オーディオ出力が車両スピーカーを使用していつレンダリングされることになるかを知ることになり、クライアントデバイスに送信されたいずれかのキャプチャされたオーディオ出力から適切な時点で「午後3時5分です」をフィルタリングし得る。

前述の概念および本明細書で詳細に説明する追加の概念のすべての組合せが本明細書で開示する主題の部分として企図されることを諒解されたい。たとえば、本開示の最後に出現する特許請求される主題のすべての組合せが本明細書で開示する主題の部分として企図される。

本明細書で開示する様々な実装形態が実装され得る例示的な環境を示す図である。本明細書で開示する様々な実装形態が実装され得る別の例示的な環境を示す図である。本明細書で開示する様々な実装形態が実装され得る別の例示的な環境を示す図である。本明細書で開示する様々な実装形態による、例示的なオーディオデータストリームおよびキャプチャされたオーディオデータの様々な例を示す図である。本明細書で開示する様々な実装形態による、例示的なプロセスを示すフローチャートである。本明細書で開示する様々な実装形態による、別の例示的なプロセスを示すフローチャートである。明細書で開示する様々な実装形態が実装され得る例示的な環境を示すブロック図である。コンピューティングデバイスの例示的なアーキテクチャを示す図である。

図1、図2、および図3は、本明細書で説明する多くの実装形態による、車両コンピューティングデバイスに通信可能に結合されたコンピューティングデバイスを示す。図1～図3は、簡単のためにコンピューティングデバイスおよび車両外部の車両インターフェースデバイス(図2および図3)を示すが、コンピューティングデバイスおよび/または車両インターフェースデバイスは、本明細書で説明する様々な技法の実行中、車両内に位置することになることを理解されたい。

図1は、ワイヤレス通信チャネル104を介して車両コンピューティングデバイス102に通信可能に結合されたコンピューティングデバイス106を示す。コンピューティングデバイス102は、たとえば、ラップトップコンピューティングデバイス、タブレットコンピューティングデバイス、モバイルスマートフォンコンピューティングデバイス、および/またはコンピューティングデバイスを含むユーザのウェアラブル装置(たとえば、コンピューティングデバイスを有するウォッチ、コンピューティングデバイスを有する眼鏡、または仮想または拡張現実コンピューティングデバイス、など)であってよい。追加および/または代替のクライアントデバイスが提供され得る。様々な実装形態では、コンピューティングデバイス106は、マイクロフォン、スピーカー、および/または追加のユーザインターフェースデバイスなど、様々なユーザインターフェース入力および/または出力デバイスを含む。コンピューティングデバイス106は、車両内に(たとえば、車のマウント上に、窓に吸引されて)取り付けられてよく、かつ/または車両が提供する補助電力(たとえば、12V車両レセプタクル、USBポート、または合衆国における「タイプA」プラグなど、補助標準プラグ)によって電力供給および/または充電され得る。しかしながら、コンピューティングデバイス106は、車両と一体化されず、車両から容易に取り外され、他の車両内に容易におかれることが可能であり、スマートフォンまたは様々な環境でユーザによって利用される他のデバイスであってよい。

車両の車両コンピューティングデバイス102は、たとえば、車両内通信システム、車両内エンターテインメントシステム、および車両内ナビゲーションシステムなどであってよい。追加および/または代替の車両コンピューティングデバイスが提供され得る。様々な実装形態では、車両コンピューティングデバイス102は、車両と一体化され、やはり車両と一体化される車両スピーカーを直接駆動させる。車両コンピューティングデバイス102は、車両の元の機器であってよく、またはアフターマーケットのインストールされたアクセサリであってもよい。車両コンピューティングデバイス102は、そのデバイスが、車両スピーカーを直接駆動させるように、かつ/または特殊なツールの使用を必要とすること、および/またはかなりの時間および/または専門知識を必要とすることなしに、車両から取り外されることが可能でないように、一体化される。たとえば、車両コンピューティングデバイス102は、車両のコントローラエリアネットワーク(CAN)バスに接続されてよく、かつ/または車両固有のコネクタ(たとえば、12V車両レセプタクルではなく、容易にアクセス可能な補助標準プラグではない)を介して電力供給され得る。多くの実装形態では、車両コンピューティングデバイス102は、マイクロフォン、スピーカー、および/または追加のユーザインターフェースデバイスを含めて、様々なユーザインターフェースを含み得る。たとえば、オーディオ入力は、車両コンピューティングデバイスによって駆動される1つまたは複数の車両スピーカーを介してレンダリングされ得る。

ワイヤレス通信チャネル104は、1つまたは複数の標準通信技術、プロトコル、および/またはプロセス間通信技法を随意に利用し得る、様々なワイヤレス通信ネットワークを含み得る。たとえば、ワイヤレス通信チャネル104は、Bluetoothチャネル104であってよく、モバイルスマートフォンコンピューティングデバイス106は、Bluetoothチャネル104を介して車両コンピューティングデバイス102に通信可能に結合され得る。さらなる例として、クライアントデバイス106は、Bluetoothチャネル104を介してオーディオデータストリームを車両コンピューティングデバイス102に送信し得、これは、車両コンピューティングデバイス102に車両内のマイクロフォンによってキャプチャされ得る対応するオーディオ出力をレンダリングさせることができ、このキャプチャされたデータは、車両オーディオ遅延を判定するために使用され得る。

図2は、ワイヤレス通信ネットワーク204を介して車両コンピューティングデバイス202に通信可能に結合されたコンピューティングデバイス206を示す。加えて、コンピューティングデバイス206は、ワイヤレス通信ネットワーク208を介して車両インターフェースデバイス210に通信可能に結合される。図1に関して上記で説明したように、コンピューティングデバイス206は、様々なコンピューティングデバイスを含んでよく、車両コンピューティングデバイス202は、車両の様々なコンピューティングデバイスを含んでよく、かつ/またはワイヤレス通信チャネル204および208は、様々な通信チャネルを含んでよい。

様々な実装形態では、コンピューティングデバイス206は、追加および/または代替として、ワイヤレス通信チャネル208を介して車両インターフェースデバイス210と結合され得る。車両インターフェースデバイス210は、1つまたは複数の追加のマイクロフォン、1つまたは複数の追加のスピーカー、1つまたは複数の追加のボタン、など、追加および/または代替のユーザインターフェース入力および/または出力を提供し得る。様々な実装形態では、車両インターフェースデバイス210は、12V車両レセプタクル(本明細書で、シガレットライターレセプタクルとも呼ばれる)、車両USBポート、バッテリー、などを使用して電力供給され得る。たとえば、車両インターフェースデバイス210は、車両の12Vレセプタクルによって電力供給されてよく、車両のセンターコンソール上またはその周囲に配置され(すなわち、車両インターフェースデバイス210の1つまたは複数のマイクロフォンが運転手および/または追加の車両同乗者によって提供される口頭発話をキャプチャし得るように、車両の運転手の近くに配置され)得る。モバイルスマートフォンなどのコンピューティングデバイス206は、ワイヤレス通信チャネル210を介して車両インターフェースデバイス210に通信可能に結合され得る。さらなる例として、モバイルスマートフォンコンピューティングデバイス206は、第1のBluetoothチャネル204を介して車両インターフェースデバイス202に通信可能に結合され得、コンピューティングデバイス206は、第2のBluetoothチャネル208を介して車両インターフェースデバイス210に通信可能に結合され得る。

図3は、車両コンピューティングデバイスならびに車両インターフェースデバイスに通信可能に結合されたコンピューティングデバイスの代替構成を示す。コンピューティングデバイス304、車両インターフェースデバイス302、および/または車両インターフェースデバイス308は、図1および図2に関して上記で説明されている。様々な実装形態では、車両は、ワイヤレス通信チャネルを介してコンピューティングデバイスに通信可能に結合されていない(たとえば、車両は、ワイヤレス通信チャネルを介してコンピューティングデバイスに接続する能力に欠けることがある)。いくつかのそのような実装形態では、コンピューティングデバイス304は、ワイヤレス通信チャネル306を介して車両インターフェースデバイス308に通信可能に結合され得る。加えて、車両インターフェースデバイス308は、通信チャネル310を介して車両コンピューティングデバイスに通信可能に結合され得る。たとえば、モバイルスマートフォン(すなわち、コンピューティングデバイス304)は、Bluetoothチャネル(すなわち、ワイヤレス通信チャネル306)を介して車両インターフェースデバイス308に通信可能に結合され得る。車両インターフェースデバイス308は、追加または代替として、補助ケーブル(すなわち、通信チャネル310)を介して車両コンピューティングデバイス302に通信可能に結合され得る。

様々な実装形態では、コンピューティングデバイス(たとえば、図1の106、図2の206、および/または図3の304)は、オーディオデータストリームを車両コンピューティングデバイス(たとえば、図1の102、図2の202、および/または図3の302)に送信し、キャプチャされたオーディオ出力(1つまたは複数の車両スピーカーを使用してレンダリングされた)をオーディオデータストリームと比較することによって、車両デバイス遅延を自動的に判定し得る。多くの実装形態によるオーディオデータストリームについて、本明細書で図4を参照しながら説明する。多くの実装形態では、車両スピーカーによってレンダリングされた、キャプチャされたオーディオ出力は、コンピューティングデバイの1つまたは複数のマイクロフォンおよび/または車両インターフェースデバイスの1つまたは複数のマイクロフォンを使用してキャプチャされ得る。

様々な実装形態では、遅延が判定されると、遅延オーディオデータは将来のオーディオデータストリーム上に付加され得、ここで判定された遅延を使用して、遅延オーディオデータの長さが判定される。追加または代替として、判定された遅延は、雑音低減プロセスの一環として利用され得る。

多くの実装形態では、オーディオデータストリームは、1つまたは複数の車両スピーカーを介してレンダリングされたオーディオ出力がキャプチャされ得るかどうかを判定するために送信される。すなわち、テストオーディオ信号が車両コンピューティングデバイスに送信され得、コンピューティングデバイスおよび/または車両インターフェースデバイスが車両スピーカーを介してレンダリングされたオーディオ出力をキャプチャすることができない場合、将来のオーディオデータストリームは、コンピューティングデバイスのスピーカーおよび/または車両インターフェースデバイスのスピーカーを使用してレンダリングされ得る。

本明細書で説明する実装形態は車両コンピューティングデバイスに通信可能に結合されたコンピューティングデバイスに関するが、追加または代替のコンピューティングデバイスがコンピューティングデバイスに結合され得ることを理解されたい。たとえば、コンピューティングデバイスは、スタンドアロンワイヤレススピーカーのコンピューティングデバイス(たとえば、Bluetoothワイヤレススピーカーに通信可能に結合されたモバイルスマートフォン)に通信可能に結合され得る。コンピューティングデバイスは、追加および/または代替のコンピューティングデバイスに結合され得る。

図4を参照すると、様々な実装形態による例示的なオーディオデータストリームおよび様々なキャプチャされたオーディオデータを示す。オーディオデータストリーム402は、5個の周波数セグメント、すなわち、周波数セグメント「1」404、周波数セグメント「2」406、周波数セグメント「3」408、周波数セグメント「4」410、および周波数セグメント「5」412のシーケンスを含む。多くの実装形態では、コンピューティングデバイスは、車両スピーカーを使用してレンダリングするために、オーディオデータストリーム402を車両コンピューティングデバイスに送信する。次に、いずれかの車両オーディオ遅延を判定するために、車両スピーカーを使用してレンダリングされた、対応するオーディオ出力がキャプチャされ、オーディオデータ402と比較され得る。

たとえば、車両オーディオ遅延は、第1の周波数セグメントより短くてよい。キャプチャされたオーディオデータ414は、第1の周波数セグメント404の長さのおよそ半分の遅延を示し、シーケンス周波数セグメント「1」416、周波数セグメント「2」418、周波数セグメント「3」420、周波数セグメント「4」422、および周波数セグメント「5」424をキャプチャする。オーディオデバイス遅延により、キャプチャされたオーディオデータ414の周波数セグメント「1」416は、オーディオデータストリーム402の周波数セグメント「1」404よりも短い。多くの実装形態では、遅延オーディオセグメントは、周波数セグメント「1」416の終端と周波数セグメント「1」404の終端の間の差異を使用して判定され得る。追加の周波数セグメント「2」、「3」、「4」、および/または「5」は、同様の遅延を有することになり、コンピューティングデバイスは、追加および/または代替として、追加のキャプチャされた周波数セグメントを使用して遅延を判定し得る。たとえば、オーディオデータストリームは、2.5秒の長さであってよく、0.5秒の長さの周波数セグメントを5個含む。キャプチャされたオーディオデータは、0.3秒の周波数セグメント「1」をキャプチャし得る(すなわち、キャプチャされたオーディオデータは、2.3秒の周波数セグメントをキャプチャし得る)。コンピューティングデバイスは、周波数セグメント「1」404を周波数セグメント「1」416と比較し、0.2秒の遅延を判定し得る。同様に、周波数セグメント「2」406を周波数セグメント「2」418と比較して、0.25秒の遅延を判定し得、周波数セグメント「3」408を周波数セグメント「3」420と比較して、0.2秒の遅延を判定し得、周波数セグメント「4」410を周波数セグメント「4」422と比較して、0.3秒の遅延を判定し得、周波数セグメント「5」412を周波数セグメント「5」424と比較して、0.2秒の遅延を判定し得る。コンピューティングデバイスは、遅延として0.3秒を選択し得る(すなわち、0.3秒は、0.2秒、0.25秒、0.2秒、0.3秒、および0.2秒の判定された遅延の中で最大の遅延である)。

多くの実装形態では、周波数セグメント全体がキャプチャされたオーディオデータ内で欠落していることがある。システムは、オーディオデータストリーム402内の周波数セグメントを、周波数セグメント「2」428、周波数セグメント「3」430、周波数セグメント「4」432、および周波数セグメント「5」434のシーケンスをキャプチャする、キャプチャされたオーディオデータと比較し得る。言い換えれば、オーディオデータストリーム402の周波数セグメント「1」404は、キャプチャされたオーディオデータストリーム426内に対応する表現を有さない。たとえば、オーディオデータストリーム402は、5秒の長さであってよく、1秒の周波数セグメントを5個含む。コンピューティングデバイスは、キャプチャされたオーディオデータストリーム426が周波数セグメント「1」404のいずれも含まないと判定し得る。1秒の遅延を判定するために、欠落している周波数セグメントの数がオーディオデータストリーム402内の1秒の長さの周波数セグメントで乗算され得る。

多くの実装形態では、周波数セグメント全体が欠落していることがあり、同様に周波数セグメントの部分が欠落していることがある。キャプチャされたオーディオデータ436は、周波数セグメント「1」および周波数セグメント「2」がその全体の中で欠落し、周波数セグメント「3」の一部分が欠落している、キャプチャされたオーディオを示す。言い換えれば、キャプチャされたオーディオデータ436は、周波数セグメント「3」438、周波数セグメント「4」440、および周波数セグメント「5」442を含み、ここで、キャプチャされたオーディオデータ436の周波数セグメント「3」438は、オーディオデータストリーム402の周波数セグメント「3」408よりも短い。デバイス遅延は、上記で説明したように、欠落している周波数セグメントならびに第1のキャプチャされた周波数セグメントの欠落している部分の長さの組合せを使用して判定され得る。たとえば、オーディオデータストリーム402は、0.3秒の長さの周波数セグメントを5個含み得る(すなわち、オーディオデータストリーム402は、1.5秒の長さである)。キャプチャされたオーディオデータストリームは、0.7秒のオーディオデータストリーム402のみをキャプチャし得る。0.7秒の遅延は、キャプチャされたオーディオデータストリーム436をオーディオデータストリーム402と比較して、周波数セグメント「1」404および周波数セグメント「2」406に対応する周波数セグメントがキャプチャされたオーディオデータストリーム436内でキャプチャされないと判定することによって判定される。加えて、周波数セグメント「3」408をキャプチャされた周波数セグメント「3」438と比較することによって、0.1秒の周波数セグメント「3」438のみがキャプチャされると判定し得る。コンピューティングデバイスは、欠落している周波数セグメントの遅延(欠落している周波数セグメント「1」からの0.3秒+欠落している周波数セグメント「2」からの0.3秒)を第1のキャプチャされた周波数セグメント「3」438(0.2秒)の遅延と組み合わせて、0.8秒の遅延(0.3+0.3+0.2)を判定することによって、遅延を判定し得る。

追加または代替として、キャプチャされたオーディオデータは、オーディオデータストリームの始端と終端の両方の欠落している部分であり得る。たとえば、キャプチャされたオーディオデータ444は、周波数セグメント「2」446および周波数セグメント「3」448を含み、ここで、周波数セグメント「2」446は、オーディオデータストリーム402の周波数セグメント「2」406よりも短い。言い換えれば、キャプチャされたオーディオデータ444内で、周波数セグメント「1」、「4」、および「5」は、完全に欠落しており、周波数セグメント「2」の一部分が欠落している。第1の車両遅延は、欠落している周波数セグメント「1」および欠落している周波数セグメント「2」の部分に基づいて判定され得る。追加または代替として、第2の車両遅延は、欠落している周波数セグメント「4」および「5」に基づいて判定され得る。たとえば、オーディオデータストリーム402は、各々が1秒の長さの周波数セグメントを5個含み得る(すなわち、オーディオデータストリームは5秒の長さである)。オーディオデータストリーム402をキャプチャされたオーディオデータストリーム444と比較して、キャプチャされたオーディオデータストリーム444が周波数セグメント「1」404、周波数セグメント「4」410、および周波数セグメント「5」412に対応する周波数セグメントをキャプチャしないと判定し得る。加えて、キャプチャされた周波数セグメント「2」446を周波数セグメント「2」406と比較し、キャプチャされた周波数セグメント「3」448を周波数セグメント「3」408と比較することによって、追加の0.4秒の遅延が判定され得る。キャプチャされたオーディオデータストリームの始端において発生する第1のオーディオ遅延は、キャプチャされた周波数セグメント「2」(0.4秒)の遅延を欠落している周波数セグメント「1」の長さ(1秒)と組み合わせることによって、1.4秒になると判定され得る。追加または代替として、2秒のキャプチャされたオーディオデータストリームの終端において発生する第2のオーディオ遅延は、欠落している周波数セグメント「4」の長さ(1秒)と欠落している周波数セグメント「5」の長さ(1秒)を組み合わせることによって判定され得る。

周波数セグメントの特定のシーケンスが図4に関して説明されているが、多くの実装形態による様々なオーディオデータストリーム(および、対応するキャプチャされたオーディオデータ)が使用され得る。たとえば、オーディオデータストリームは、単一の周波数のセグメントであってよい。たとえば、オーディオデータストリームは、単一の周波数の8秒の長さのセグメントであってよく、キャプチャされたオーディオデータは、6.5秒の単一の周波数のみをキャプチャし得、1.5秒の車両オーディオ遅延は、キャプチャされたオーディオデータ内の実際の持続時間(6.5秒)に対するセグメントの予想される持続時間(8秒)の比較に基づいて判定され得る。別の例として、各周波数セグメントは、いくつかの共起周波数(たとえば、デュアルトーン共起周波数、トライトーン共起周波数、など)であってよい。多くの実装形態では、周波数セグメントのシーケンスは、周波数セグメントの非反復シーケンスを含む。多くの実装形態では、周波数セグメントのシーケンスは、欠落している周波数セグメントが一意に識別可能である、反復周波数セグメントを含む。たとえば、シーケンスは、「1」、「2」、「3」、「4」、「5」、「4」、「3」、「2」、「1」の周波数セグメント表現であり得る。オーディオデータストリームは、0.5秒、1秒、1.5秒、2秒、など、様々な長さであってよい。

図5を参照すると、本明細書で開示する実装形態による、車両オーディオ遅延を判定する例示的なプロセス500を示す。便宜上、図5のフローチャートのいくつかの態様の動作は、それらの動作を実行するシステムを参照しながら説明される。このシステムは、様々なコンピュータシステムの様々な構成要素、および/またはGPU、CPU、および/またはTPUのうちの1つまたは複数を含み得る。たとえば、このシステムは、スマートフォンもしくは他のコンピューティングデバイス、および/または車両インターフェースデバイスを含み得る。さらに、プロセス500の動作は特定の順序で示されているが、これは限定的であることを意味しない。1つまたは複数の動作は、並べ替えられてよく、省かれてよく、かつ/または追加されてよい。

ブロック502において、システムは、コンピューティングデバイスに、ワイヤレス通信チャネルを介してオーディオデータストリームを車両コンピューティングデバイスに送信させる。たとえば、モバイルスマートフォンは、Bluetoothを介してオーディオデータストリームを車両コンピューティングデバイスに送信し得る、別の例として、モバイルスマートフォンは、Bluetoothを介してオーディオデータストリームを車両インターフェースデバイスに送信し得、車両インターフェースデバイスは、オーディオデータストリームを車両コンピューティングデバイスに送信し得る。またさらなる例として、車両インターフェースデバイスは、Bluetoothおよび/またはワイヤード通信チャネルを介してオーディオデータストリームを車両コンピューティングデバイスに送信し得る。

ブロック504において、システムは、車両コンピューティングデバイスに、オーディオデータストリームを使用して生成された可聴出力を車両の1つまたは複数のスピーカーを介してレンダリングさせ、車両の1つまたは複数のスピーカーは、車両コンピューティングデバイスによって駆動される。たとえば、車両コンピューティングデバイスは、オーディオデータストリームのすべてまたは部分に基づいて、車両と一体化された車両スピーカーを駆動させ、それにより、車両スピーカーに対応する可聴出力をレンダリングさせることができる。本明細書で説明するように、車両コンピューティングデバイスが遅延を有さない場合、対応する可聴出力は、オーディオデータストリーム全体を含むことになる。しかしながら、車両コンピューティングデバイスが遅延を有する場合、対応する可聴出力は、オーディオデータストリームの1つまたは複数の部分を省いてよい。

ブロック506において、システムは、車両の1つまたは複数のスピーカーを介してレンダリングされた可聴出力をキャプチャする、キャプチャされたオーディオデータを受信する。キャプチャされたオーディオデータは、車両内の少なくとも1つのマイクロフォンによってキャプチャされる。いくつかの実装形態では、車両内の少なくとも1つのマイクロフォンは、ブロック502においてオーディオデータストリームを送信したコンピューティングデバイスなど、コンピューティングデバイスのマイクロフォンを含む。いくつかの実装形態では、車両内の少なくとも1つのマイクロフォンは、追加または代替として、車両インターフェースデバイスのマイクロフォンを含み、車両インターフェースデバイスは、ブロック502においてオーディオデータストリームを送信したコンピューティングデバイスとは別個であってよい。追加または代替として、可聴出力は、コンピューティングデバイスの少なくとも1つのマイクロフォン、ならびに車両インターフェースデバイスの少なくとも1つのマイクロフォンの両方によってキャプチャされ得る。

ブロック508において、システムは、キャプチャされたオーディオデータをオーディオデータストリームと比較することによって、車両オーディオ遅延を判定する。車両オーディオ遅延を判定するいくつかの非限定的な例が本明細書で(たとえば、図4に関して上記で)説明される。

ブロック510において、システムは、車両コンピューティングデバイスに送信すべき追加のオーディオデータストリームが存在するかどうかを判定する。多くの実装形態では、コンピューティングデバイスの自動アシスタントクライアントが追加のオーディオデータストリームを生成する。多くの実装形態では、車両インターフェースデバイスの自動アシスタントクライアントが追加のオーディオデータストリームを生成する。そうである場合、システムはブロック512に進み、システムは、遅延オーディオセグメントを追加のオーディオデータストリームに付加し、遅延オーディオセグメントの持続時間は、車両オーディオ遅延を使用して判定される。様々な実装形態では、遅延オーディオセグメントは、ホワイトノイズ、人間には不可能な音の高周波数セグメント、ならびに追加の他の音を含めて、様々なオーディオを含み得る。遅延オーディオセグメントは、必要に応じて反復される単一の長さであってよい(すなわち、0.2秒の遅延オーディオセグメントは、0.1秒の遅延ならびに0.2秒の遅延ごとに一回付加されてよく、0.2秒の遅延オーディオデータセグメントは、0.3秒の遅延および0.4秒の遅延ごとに2回付加されてよい、など)。追加または代替として、遅延オーディオセグメントの長さは、判定されたオーディオ遅延にカスタマイズされ得る(すなわち、0.5秒の遅延が判定されるとき、0.5秒の遅延オーディオセグメントが付加され得、0.75秒の遅延が判定されるとき、0.75秒の遅延オーディオセグメントが付加され得る、など)。さらに、判定されたオーディオ遅延よりもわずかに長い遅延オーディオセグメントが付加されてよい(すなわち、0.25秒オーディオ遅延が判定されるとき、0.3秒の遅延オーディオセグメントが付加され得、0.5秒オーディオ遅延が判定されるとき、0.75秒の遅延オーディオセグメントが付加され得る、など)。

ブロック514において、システムは、コンピューティングデバイスに、ワイヤレス通信チャネルを介して、付加された遅延オーディオセグメントを伴う追加のオーディオストリームを車両コンピューティングデバイスに送信させる。システムが追加のオーディオデータストリームを送信すると、プロセスは終了する。

ブロック510において、システムが車両コンピューティングデバイスに送信すべき追加のオーディオデータストリームが存在しないと判定する場合、システムはブロック516に進み、ここで、システムは、雑音消去フィルタが存在するかどうかを判定する。システムが雑音消去フィルタは存在しないと判定した場合、プロセスは終了する。ブロック516において、システムが雑音消去フィルタは存在すると判定した場合、システムはブロック518に進み、ここで、システムは、コンピューティングデバイスに、プロセスが終了する前に、車両オーディオ遅延に基づいて雑音消去フィルタを適応させる。多くの実装形態では、雑音消去フィルタはコンピューティングデバイス上に局所的に記憶される。多くの実装形態では、雑音消去フィルタは、別個のコンピューティングデバイス(たとえば、別個の車両インターフェースデバイス)において記憶される。雑音消去フィルタが別個のコンピューティングデバイスにおいて記憶される場合、ブロック512は、車両オーディオ遅延に基づき、かつコンピューティングデバイスに、車両オーディオ遅延に基づいてその局所雑音消去フィルタを適応させる、データを別個のコンピューティングデバイスに送信するステップを含み得る。

図5は、判定された車両オーディオ遅延に基づいて、遅延オーディオセグメントを付加するステップと、判定された車両オーディオ遅延に基づいて雑音消去フィルタを適応するステップの両方を含むプロセスを示す。しかしながら、本明細書で説明するように、様々な実装形態では、遅延オーディオセグメントは、雑音消去フィルタのいずれの適応もなしに付加され得、または雑音消去フィルタの適応は、遅延オーディオセグメントのいずれの付加もなしに発生し得る。

図6を参照すると、本明細書で開示する実装形態による、車両コンピューティングデバイスによって駆動される1つまたは複数のスピーカーがオーディオデータストリームを使用して生成された可聴出力をレンダリングするかどうかを判定する例示的なプロセス600を示す。便宜上、図6のフローチャートのいくつかの態様の動作は、それらの動作を実行するシステムを参照しながら説明される。このシステムは、様々なコンピュータシステムの様々な構成要素および/またはGPU、CPU、および/またはTPUの1つまたは複数を含み得る。たとえば、システムは、スマートフォンもしくは他のコンピューティングデバイス、および/または車両インターフェースデバイスを含み得る。さらに、プロセス600の動作は特定の順序で示されているが、これは限定的であることを意味しない。1つまたは複数の動作は、並べ替えられてよく、省かれてよく、かつ/または追加されてよい。

ブロック602において、システムは、通信チャネルを介してオーディオデータストリームをコンピューティングデバイスから車両コンピューティングデバイスに送信するかどうかを判定する。多くの実装形態では、システムは、車両が通信チャネルモードであるかどうか(すなわち、車両がBluetoothモードであるかどうか、車両がBluetoothモードへの自動切換えをサポートするかどうか、など)を判定する。多くの実装形態では、システムは、車両コンピューティングデバイスによって駆動される1つまたは複数のスピーカーの音量が、レンダリングされたオーディオ出力が車両内の1つまたは複数のマイクロフォンを介してキャプチャされるには低すぎるかどうかを判定する。システムが車両は通信チャネルモードである(または、通信チャネルモードへの自動切換えをサポートする)と判定し、車両コンピューティングデバイスによって駆動されるスピーカーの音量が低すぎない場合、システムはブロック604に進む。システムが車両は通信チャネルモードでないと判定するか、またはシステムが車両コンピューティングデバイスによって駆動されるスピーカーの音量が低すぎると判定する場合、システムはブロック612に進む。

ブロック604において、システムはコンピューティングデバイスに通信チャネルを介してオーディオデータストリームを車両コンピューティングデバイスに送信させる。いくつかの実装形態では、通信チャネルは、ワイヤレス通信チャネル(たとえば、Bluetoothチャネル)である。他の実装形態では、通信チャネルはワイヤード通信チャネル(たとえば、補助ケーブル)である。

ブロック606において、システムは、車両コンピューティングデバイスに、オーディオデータストリームに基づいて生成された可聴出力を車両コンピューティングデバイスによって駆動される1つまたは複数のスピーカーを介してレンダリングさせる。

ブロック608において、システムは、可聴出力が車両内の少なくとも1つのマイクロフォンによってキャプチャされるかどうかを判定する。システムが可聴出力は少なくとも1つのマイクロフォンによってキャプチャされると判定した場合、システムはブロック610に進む。システムが可聴出力は少なくとも1つのマイクロフォンによってキャプチャされないと判定した場合、システムはブロック612に進む。多くの実装形態では、可聴出力は、コンピューティングデバイスの少なくとも1つのマイクロフォンによってキャプチャされる。多くの実装形態では、可聴出力は、車両インターフェースデバイスの少なくとも1つのマイクロフォンによってキャプチャされる。多くの実装形態では、可聴出力は、コンピューティングデバイスの少なくとも1つのマイクロフォンおよび車両インターフェースデバイスの少なくとも1つのマイクロフォンによってキャプチャされる。

ブロック610において、システムは、コンピューティングデバイスに、車両コンピューティングデバイスによって駆動される1つまたは複数のスピーカーを介してレンダリングするために追加のオーディオデータストリームを車両コンピューティングデバイスに送信させる。

ブロック612において、システムは、追加のオーディオデータストリームを車両内の1つまたは複数の代替スピーカーにおいてレンダリングさせ、1つまたは複数の代替スピーカーは、車両コンピューティングデバイスによって駆動されない。多くの実装形態では、1つまたは複数の代替スピーカーは、コンピューティングデバイスのスピーカーである。多くの実装形態では、1つまたは複数の代替スピーカーは、車両インターフェースデバイスのスピーカーである。

図7を参照すると、本明細書で開示する実装形態が実装され得る例示的な環境を示す。図7は、自動アシスタントクライアント704のインスタンス化を実行するクライアントコンピューティングデバイス702を含む。1つまたは複数のクラウドベースの自動アシスタント構成要素712は、概して、710によって示される、1つまたは複数のローカルエリアおよび/または広域ネットワーク(たとえば、インターネット)を介してクライアントデバイス702に通信可能に結合された、1つまたは複数のコンピューティングシステム(「クラウド」コンピューティングシステムと総称される)上で実装され得る。

自動アシスタントクライアント704のインスタンスは、1つまたは複数のクラウドベースの自動アシスタント構成要素712とのその対話によって、ユーザの観点から、それを用いてユーザが人間対コンピュータダイアログに関与し得る自動アシスタント700の論理インスタンスと思われるものを形成し得る。したがって、いくつかの実装形態では、クライアントデバイス702上で実行する自動アシスタントクライアント704に関与するユーザは、事実上、自動アシスタント700の自らの論理インスタンスに関与し得ることを理解されたい。簡潔かつ簡単のために、特定のユーザに「サービスする」として本明細書で使用する「自動アシスタント」という用語は、しばしば、ユーザが動作させるクライアントデバイス702上で実行する自動アシスタントクライアント704と1つまたは複数のクラウドベースの自動アシスタント構成要素712(複数のクライアントコンピューティングデバイスの複数の自動アシスタントクライアント間で共有され得る)の組合せを指すことになる。いくつかの実装形態では、自動アシスタント700は、ユーザが自動アシスタント700のその特定のインスタンスによって実際に「サービスされる」かどうかにかかわらず、任意のユーザからの要求に応答し得ることをやはり理解されたい。

クライアントコンピューティングデバイス702は、たとえば、デスクトップコンピューティングデバイス、ラップトップコンピューティングデバイス、タブレットコンピューティングデバイス、モバイルスマートフォンコンピューティングデバイス、スタンドアロン対話型スピーカー、スマートアプライアンス、および/またはコンピューティングデバイスを含むユーザのウェアラブル装置(たとえば、コンピューティングデバイスを有するユーザのウォッチ、コンピューティングデバイスを有するユーザの眼鏡、仮想または拡張現実コンピューティングデバイス)であってよい。追加および/または代替のクライアントコンピューティングデバイスが提供され得る。追加または代替として、クライアントコンピューティングデバイス702の動作は、複数のコンピューティングデバイス間で分散され得る。たとえば、クライアントコンピューティングデバイス702の1つまたは複数の動作は、モバイルスマートフォンと車両コンピューティングデバイスの間で分散され得る。さらに、クライアントコンピューティングデバイス702の動作は、複数のコンピューティングデバイス(場合によっては、通信可能に結合され得る)間で反復され得る。さらなる例として、モバイルスマートフォン、ならびに車両インターフェースデバイスは、各々、共に呼出しエンジン(下記で説明する)を含む、モバイルスマートフォンおよび車両インターフェースデバイスなど、自動アシスタント700の動作を実装し得る。様々な実装形態では、クライアントコンピューティングデバイス702は、自動アシスタントクライアント704に対して付加的な、メッセージ交換クライアント(たとえば、SMS、MMS、オンラインチャット)、ブラウザ、など、1つまたは複数の他のアプリケーションを随意に動作させることができる。それらの様々な実装形態のうちのいくつかでは、他のアプリケーションのうちの1つまたは複数は、随意に、(たとえば、アプリケーションプログラミングインターフェースを介して)自動アシスタント704とインターフェース接続し得るか、または自動アシスタントアプリケーション(クラウドベースの自動アシスタント構成要素712とやはりインターフェース接続し得る)のその独自のインスタンスを含み得る。

自動アシスタント700は、クライアントデバイス702のユーザインターフェース入力および出力デバイスを介してユーザとの人間対コンピュータダイアログセッションに関与する。ユーザのプライバシーを保護するために、かつ/またはリソースを保存するために、多くの状況において、ユーザは、自動アシスタントが口頭発話を完全に処理することになる前に、自動アシスタント700を明示的に呼び出さなければなければならないことが多い。自動アシスタント700の明示的な呼出しは、クライアントデバイス702において受信される一定のユーザインターフェース入力に応じて発生し得る。たとえば、クライアントデバイス702を介して自動アシスタント700を呼び出すことができるユーザインターフェース入力は、クライアントデバイス702のハードウェアおよび/または仮想ボタンの作動を随意に含み得る。さらに、自動アシスタントクライアントは、1つまたは複数の口頭呼出しフレーズの存在を検出するように動作可能である呼出しエンジンなど、1つまたは複数のローカルエンジン708を含み得る。呼出しエンジンは、口頭呼出しフレーズの1つまたは複数の検出に応じて、自動アシスタント700を呼び出すことができる。たとえば、呼出しエンジンは、「おい、アシスタント」、「OK アシスタント」、および/または「アシスタント」など、口頭呼出しフレーズの検出に応じて、自動アシスタント700を呼び出すことができる。呼出しエンジンは、口頭呼出しフレーズの発生を監視するために、クライアントデバイス702の1つまたは複数のマイクロフォンからの出力に基づくオーディオデータフレームのストリームを(たとえば、「非アクティブ」モードでない場合)連続的に処理し得る。口頭呼出しフレーズの発生を監視しながら、呼出しエンジンは、(たとえば、バッファ内の一時的記憶の後)口頭呼出しフレーズを含まないいずれのオーディオデータフレームも廃棄する。しかしながら、呼出しエンジンが処理されたオーディオデータフレーム内に口頭呼出しフレーズの発生を検出するとき、呼出しエンジンは、自動アシスタント700を呼び出すことができる。本明細書で使用される、自動アシスタント700を「呼び出すこと」は、自動アシスタント700の1つまたは複数の前に非アクティブな機能をアクティブ化させることを含み得る。たとえば、自動ア
シスタント700を呼び出すことは、1つまたは複数のローカルエンジン708および/またはクラウドベースの自動アシスタント構成要素712に、それに基づいてその呼出しフレーズが検出されたオーディオデータフレーム、および/または1つまたは複数の続くオーディオデータフレームをさらに処理させることを含み得る(他方で、呼出しに先立って、オーディオデータフレームのさらなる処理は発生しなかった)。

自動アシスタント704の1つまたは複数のローカルエンジン708は、任意選択であり、たとえば、上記で説明した呼出しエンジン、ローカル音声テキスト(「STT」)エンジン(キャプチャされたオーディオをテキストに変換する)、ローカルテキスト音声(「TTS」)エンジン(テキストを音声に変換する)、ローカル自然言語プロセッサ(オーディオおよび/またはオーディオから変換されたテキストの意味論的意味を判定する)、および/または他のローカル構成要素を含み得る。クライアントデバイス702はコンピューティングリソース(たとえば、プロセッササイクル、メモリ、バッテリー、など)の点で比較的制約されるため、ローカルエンジン108は、クラウドベースの自動アシスタント構成要素712内に含まれるいずれの対応物に対しても限定された機能性を有し得る。

自動アシスタントクライアント704は、加えて、遅延エンジン706およびオーディオデータ720を含み得る。遅延エンジン706は、オーディオデータストリームを車両コンピューティングデバイスに送信すること、オーディオデータストリームを車両インターフェースデバイスに送信すること、車両デバイス遅延を判定すること、オーディオ遅延セグメントをオーディオデータストリームに付加すること、車両デバイス遅延を車両インターフェースデバイスに送信すること、車両スピーカーを使用してレンダリングされたオーディオデータをキャプチャすること、などを含めて、様々な実装形態に従って自動アシスタントクライアント704によって利用され得る。多くの実装形態では、遅延エンジン706は、オーディオデータデータベース720からオーディオデータストリームを選択し得る。

クラウドベースの自動アシスタント構成要素712は、ローカルエンジン708のいずれかの対応物に対して、オーディオデータおよび/または他のユーザインターフェース入力のよりロバストなかつ/またはより正確な処理を実行するためにクラウドの事実上無制限のリソースを活用する。この場合も、様々な実装形態では、クライアントデバイス702は、呼出しエンジンによる口頭呼出しフレーズの検出、または自動アシスタント700の何らかの他の明示的な呼出しの検出に応じて、オーディオデータおよび/または他のデータをクラウドベースの自動アシスタント構成要素712に提供し得る。

示されたクラウドベースの自動アシスタント構成要素712は、クラウドベースのTTSモジュール714、クラウドベースのSTTモジュール716、および自然言語プロセッサ718を含む。いくつかの実装形態では、自動アシスタント700のエンジンおよび/またはモジュールのうちの1つまたは複数は、省かれてよく、組み合わされてよく、かつ/または自動アシスタント700とは別個の構成要素内で実装されてよい。さらに、いくつかの実装形態では、自動アシスタント700は、追加および/または代替のエンジンおよび/またはモジュールを含み得る。

クラウドベースのSTTモジュール716は、オーディオデータをテキストに変換することができ、テキストは、次いで、自然言語プロセッサ718に提供され得る。様々な実装形態では、クラウドベースのSTTモジュール716は、スピーカーラベルの指示および割当てエンジン(図示せず)によって提供される割当てに少なくとも部分的に基づいて、オーディオデータをテキストに変換し得る。

クラウドベースのTTSモジュール714は、テキストデータ(たとえば、自動アシスタント700によって編成された自然言語応答)をコンピュータ生成音声出力に変換し得る。いくつかの実装形態では、TTSモジュール714は、たとえば、1つまたは複数のスピーカーを使用して、直接出力されるようにコンピュータ生成音声出力をクライアントデバイス702に提供し得る。他の実装形態では、自動アシスタント700によって生成されたテキストデータ(たとえば、自然言語応答)は、ローカルエンジン708のうちの1つに提供され得、そのローカルエンジン708は、次いで、テキストデータを局所的に出力されるコンピュータ生成音声に変換し得る。

自動アシスタント700の自然言語プロセッサ718は、自由形式の自然言語入力を処理し、その自然言語入力に基づいて、自動アシスタント700の1つまたは複数の他の構成要素によって使用するための注釈付きの出力を生成する。たとえば、自然言語プロセッサ718は、クライアントデバイス702を介してユーザによって提供されるオーディオデータのSTTモジュール716による変換であるテキスト入力である、自然言語自由形式入力を処理し得る。生成された注釈付き出力は、自然言語入力の1つまたは複数の注釈、および随意に、自然言語入力の用語のうちの1つまたは複数(たとえば、すべて)を含み得る。いくつかの実装形態では、自然言語プロセッサ718は、自然言語入力内の様々なタイプの文法情報を識別し、注釈付けするように構成される。たとえば、自然言語プロセッサ718は、その文法上の役割で用語に注釈付けするように構成された音声タガー(図示せず)の一部分を含み得る。また、たとえば、いくつかの実装形態では、自然言語プロセッサ718は、追加および/または代替として、自然言語入力の用語同士の間の意味論的な関係を判定するように構成される依存性パーサ(dependency parser)(図示せず)を含み得る。

いくつかの実装形態では、自然言語プロセッサ718は、追加および/または代替として、人々(たとえば、文学上の登場人物、著名人、公人、などを含む)、組織、ロケーション(実際のおよび想像上の)、などに対する参照など、1つまたは複数のセグメント内のエンティティ参照に注釈付けするように構成されたエンティティタガー(図示せず)を含み得る。自然言語プロセッサ718のエンティティタガーは、高いレベルの粒度(たとえば、人々など、クラス全体に対するすべての参照の識別を可能にするための)および/または低いレベルの粒度(たとえば、特定の人物など、特定のエンティティに対するすべての参照の識別を可能にするための)でエンティティに対する参照に注釈付けし得る。エンティティタガーは、特定のエンティティを解析するために自然言語入力のコンテンツに依存し得、かつ/または、特定のエンティティを解析するために、知識グラフまたは他のエンティティデータベースと随意に通信し得る。

いくつかの実装形態では、自然言語プロセッサ718は、追加および/または代替として、1つまたは複数のコンテキストキュー(contextual cues)に基づいて同じエンティティに対する参照をグループ化する、または「クラスタ化する」ように構成された共参照レソルバ(図示せず)を含み得る。たとえば、共参照レソルバは、自然言語入力「最後にあそこに行ったとき、私はHypothetical Cafeが気に入りました」において、「あそこ」と言う用語を「Hypothetical Cafe」に解析するために利用され得る。

いくつかの実装形態では、自然言語プロセッサ718の1つまたは複数の構成要素は、自然言語プロセッサ718の1つまたは複数の他の構成要素からの注釈に依存し得る。たとえば、いくつかの実装形態では、名前付きエンティティタガーは、特定のエンティティに対するすべての言及に注釈付けする際に、共参照レゾルバおよび/または依存性パーサからの注釈に依存し得る。また、たとえば、いくつかの実装形態では、共参照レゾルバは、参照を同じエンティティにクラスタ化する際に依存性パーサからの注釈に依存し得る。いくつかの実装形態では、特定の自然言語入力を処理する際、自然言語プロセッサ718の1つまたは複数の構成要素は、1つまたは複数の注釈を判定するために、関連する前の入力および/または特定の自然言語入力の外部の他の関連データを使用し得る。

図8は、本明細書で説明する技法の1つまたは複数の態様を実行するために随意に利用され得る例示的なコンピューティングデバイス810のブロック図である。いくつかの実装形態では、クライアントコンピューティングデバイスおよび/または他の構成要素のうちの1つまたは複数は、例示的なコンピューティングデバイス810の1つまたは複数の構成要素を含み得る。

コンピューティングデバイス810は、一般に、バスサブシステム812を介していくつかの周辺デバイスと通信する、少なくとも1つのプロセッサ814を含む。これらの周辺デバイスは、たとえば、メモリサブシステム825およびファイル記憶サブシステム826を含む記憶サブシステム824、ユーザインターフェース出力デバイス820、ユーザインターフェース入力デバイス822、およびネットワークインターフェースサブシステム816を含み得る。入力および出力デバイスは、コンピューティングデバイス810とのユーザ対話を可能にする。ネットワークインターフェースサブシステム816は、外部ネットワークに対するインターフェースを提供し、他のコンピューティングデバイス内の対応するインターフェースデバイスに結合される。

ユーザインターフェース入力デバイス822は、キーボード、マウス、トラックボール、タッチパッド、またはグラフィカルタブレットなどのポインティングデバイス、スキャナ、ディスプレイ内に組み込まれたタッチスクリーン、音声認識システム、マイクロフォンなどのオーディオ入力デバイス、および/または他のタイプの入力デバイスを含み得る。概して、「入力デバイス」という用語の使用は、情報をコンピューティングデバイス810内にまたは通信ネットワーク上に入力するためのすべての考えられるタイプのデバイスおよび方法を含むことが意図される。

ユーザインターフェース出力デバイス820は、ディスプレイサブシステム、プリンタ、ファックス機、またはオーディオ出力デバイスなどの非視覚的デバイスを含み得る。ディスプレイサブシステムは、陰極線管(「CRT」)、液晶ディスプレイ(「LCD」)などのフラットパネルデバイス、プロジェクションデバイス、または可視画像を作成するための何らかの他の機構を含み得る。ディスプレイサブシステムは、オーディオ出力デバイスを介してなど、非視覚的表示を提供することも可能である。概して、「出力デバイス」という用語の使用は、情報をコンピューティングデバイス810からユーザに、もしくは別の機械に、またはコンピューティングデバイスに、出力するためのすべての考えられるタイプのデバイスおよび方法を含むことが意図される。

記憶サブシステム824は、本明細書で説明するモジュールのうちのいくつかまたはすべての機能性を提供するプログラミングおよびデータ構成体を記憶する。たとえば、記憶サブシステム824は、図5および/または図6のプロセッサのうちの1つまたは複数の選択された態様を実行するための、ならびに図7に示した様々な構成要素を実装するための、論理を含み得る。

これらのソフトウェアモジュールは、概して、プロセッサ814によって単独で、または他のプロセッサと組み合わせて、実行される。記憶サブシステム824内で使用されるメモリ825は、プログラム実行中に命令およびデータを記憶するためのメインランダムアクセスメモリ(「RAM」)830および固定命令が記憶される読取り専用メモリ(「ROM」)832を含む、いくつかのメモリを含み得る。ファイル記憶サブシステム826は、プログラムおよびデータファイル用の永続記憶装置を提供し得、ハードディスクドライブ、関連するリムーバブル媒体とともにフロッピーディスクドライブ、CD-ROMドライブ、光ドライブ、またはリムーバブル媒体カートリッジを含み得る。特定の実装形態の機能性を実装するモジュールは、ファイル記憶サブシステム826によって記憶サブシステム824内に、またはプロセッサ814によってアクセス可能な他の機械内に、記憶され得る。

バスサブシステム812は、コンピューティングデバイス810の様々な構成要素およびサブシステムに意図されたように互いと通信させるための機構を提供する。バスサブシステム812は単一のバスとして概略的に示されているが、バスサブシステムの代替実装形態は複数のバスを使用し得る。

コンピューティングデバイス810は、ワークステーション、サーバ、コンピューティングクラスタ、ブレードサーバ、サーバファーム、または任意の他のデータ処理システムもしくはコンピューティングデバイスを含む、様々なタイプのものであってよい。コンピュータおよびネットワークの絶えず変化する性質により、図8に示すコンピューティングデバイス810の説明は、いくつかの実装形態を例示するための単なる特定の例であることが意図される。図8に示すコンピューティングデバイスより多数または少数の構成要素を有するコンピューティングデバイス810の多くの他の構成が可能である。

いくつかの実装形態では、1つまたは複数のプロセッサによって実装される方法であって、コンピューティングデバイスに、ワイヤレス通信チャネルを介してオーディオデータストリームを車両の車両コンピューティングデバイスに送信させるステップであって、オーディオデータストリームを送信するステップが、車両コンピューティングデバイスに車両の1つまたは複数の車両スピーカーを介して可聴出力をレンダリングさせ、可聴出力が、オーディオデータストリームに少なくとも部分に基づいて、車両コンピューティングデバイスによって生成される、送信させるステップを含む、方法が提供される。この方法は、車両内の少なくとも1つのマイクロフォンによってキャプチャされる、キャプチャされたオーディオデータを受信するステップであって、キャプチャされたオーディオデータが、少なくとも1つの車両スピーカーによってレンダリングされた可聴出力をキャプチャする、受信するステップをさらに含む。この方法は、キャプチャされたオーディオデータをオーディオデータストリームと比較することに基づいて、車両オーディオ遅延を判定するステップをさらに含む。この方法は、車両オーディオ遅延の判定に応じて、コンピューティングデバイスに、ワイヤレス通信チャネルを介して追加のオーディオデータストリームを車両コンピューティングデバイスに送信するのに先立って、対応する遅延オーディオセグメントを追加のオーディオデータストリームに付加させるステップであって、遅延オーディオセグメントの持続時間が、車両オーディオ遅延を使用して判定される、付加させるステップをさらに含む。

本明細書で開示する技法のこれらおよび他の実装形態は、以下の特徴のうちの1つまたは複数を含み得る。

いくつかの実装形態では、キャプチャされたオーディオデータをオーディオデータストリームと比較することに基づいて、車両オーディオ遅延を判定するステップは、キャプチャされたオーディオデータ内の特定の特徴の時間的指示を判定するステップを含む。それらの実装形態のうちのいくつかでは、この方法は、オーディオデータストリーム内の特定の特徴の追加の時間的指示を判定するステップをさらに含む。それらの実装形態のうちのいくつかでは、この方法は、キャプチャされたオーディオデータ内の特定の特徴の時間的指示とオーディオデータストリーム内の特定の特徴の追加の時間的指示の間の差異に基づいて、車両オーディオ遅延を判定するステップをさらに含む。それらの実装形態のいくつかのバージョンでは、オーディオデータストリームは、周波数セグメントの定義されたシーケンスを含み、特定の特徴は、周波数セグメントの定義されたシーケンスの特定の周波数セグメントである。それらの実装形態のいくつかのバージョンでは、周波数セグメントのシーケンスの周波数セグメントの各々は、少なくとも2つの対応する共起周波数を含む。

いくつかの実装形態では、キャプチャされたオーディオデータ内の特定の特徴の時間的指示を判定するステップは、キャプチャされたオーディオデータ内の特定の周波数セグメントのキャプチャされた位置を判定するステップを含み、オーディオデータストリーム内の特定の特徴の追加の時間的指示を判定するステップは、オーディオデータストリーム内の特定の周波数セグメントのストリーム位置を判定するステップを含む。それらのバージョンのいくつかのバージョンでは、キャプチャされたオーディオデータ内の特定の特徴の時間的指示とオーディオデータストリーム内の特定の特徴の追加の時間的指示の間の差異に基づいて、車両オーディオ遅延を判定するステップは、特定の周波数セグメントのキャプチャされた位置が、その周波数セグメントがキャプチャされたオーディオデータ内の最初に発生した周波数セグメントであることを示し、オーディオデータストリーム内の特定の周波数セグメントのストリーム位置が、その周波数セグメントがオーディオデータストリーム内の最初に発生した周波数セグメントではないことを示す、と判定するステップを含み、キャプチャされたオーディオデータ内の特定の特徴の時間的指示とオーディオデータストリーム内の特定の特徴の追加の時間的指示の間の差異を判定するステップは、キャプチャされた位置とストリーム位置の間の位置のオフセットを判定するステップを含む。

いくつかの実装形態では、キャプチャされたオーディオデータをオーディオデータストリームと比較することに基づいて、車両オーディオ遅延を判定するステップは、周波数セグメントのシーケンス内の複数の周波数セグメントの各々に対して、キャプチャされたオーディオデータ内の周波数セグメントとオーディオデータストリーム内の周波数セグメントの間の対応する時間的オフセットを判定するステップを含む。それらの実装形態のいくつかのバージョンでは、キャプチャされたオーディオデータをオーディオデータストリームと比較することに基づいて、車両オーディオ遅延を判定するステップは、対応する時間的オフセットの最大オフセットに基づいて、車両オーディオ遅延を判定するステップを含む。

いくつかの実装形態では、コンピューティングデバイスに、ワイヤレス通信チャネルを介して追加のデータストリームを車両コンピューティングデバイスに送信するのに先立って、対応する遅延オーディオセグメントを追加のデータストリームに付加させるステップは、コンピューティングデバイスに対応する遅延オーディオセグメントを追加のデータストリームの始端に付加させるステップを含む。

いくつかの実装形態では、コンピューティングデバイスに、ワイヤレス通信チャネルを介して追加のデータストリームを車両コンピューティングデバイスに送信するのに先立って、対応する遅延オーディオセグメントを追加のデータストリームに付加させるステップは、コンピューティングデバイスに、対応する遅延オーディオセグメントを追加のデータストリームの終端に付加させるステップを含む。

いくつかの実装形態では、ワイヤレス通信チャネルはBluetoothチャネルである。

いくつかの実装形態では、コンピューティングデバイスは自動アシスタントクライアントを含む。それらの実装形態のいくつかのバージョンでは、追加のオーディオデータストリームは、自動アシスタントクライアントによる1つまたは複数のマイクロフォンを介した口頭入力の受信に応じて、車両コンピューティングデバイスに送信され、追加のオーディオデータストリームは、口頭入力に応じて生成された自動アシスタント応答である。それらの実装形態のいくつかのバージョンでは、キャプチャされたオーディオデータをキャプチャする、少なくとも1つのマイクロフォンは、コンピューティングデバイスの少なくとも1つのコンピューティングデバイスマイクロフォンを含む。それらの実装形態のいくつかのバージョンでは、キャプチャされたオーディオデータをキャプチャする、少なくとも1つのマイクロフォンは、第2のワイヤレス通信チャネルを介してコンピューティングデバイスと通信している車両インターフェースデバイスの少なくとも1つのインターフェースマイクロフォンを含み、キャプチャされたオーディオデータを受信するステップは、キャプチャされたオーディオデータを第2の通信チャネルを介して車両インターフェースデバイスから受信するステップを含む。

いくつかの実装形態では、車両インターフェースデバイスは、追加のワイヤレス通信チャネルを介して車両コンピューティングデバイスに通信可能に結合される。

いくつかの実装形態では、車両インターフェースデバイスは、ワイヤード通信チャネルを介して車両コンピューティングデバイスに通信可能に結合される。

いくつかの実装形態では、この方法は、車両インターフェースデバイスに、車両オーディオ遅延に基づいて局所雑音消去フィルタを適応させるステップをさらに含む。

いくつかの実装形態では、1つまたは複数のプロセッサによって実装される方法は、コンピューティングデバイスに、通信チャネルを介してオーディオデータストリームを車両の車両コンピューティングデバイスに送信させるステップであって、オーディオデータストリームを送信するステップは、車両コンピューティングデバイスが通信チャネルモードであるとき、車両コンピューティングデバイスによって駆動される1つまたは複数の車両スピーカーを介して可聴出力を車両コンピューティングデバイスにレンダリングさせ、可聴出力は、オーディオデータストリームに少なくとも部分的に基づいて、車両コンピューティングデバイスによって生成される。この方法は、可聴出力が車両内の少なくとも1つのマイクロフォンによってキャプチャされるかどうかを判定するステップをさらに含む。この方法は、可聴出力が車両内の少なくとも1つのマイクロフォンによってキャプチャされるとの判定に応じて、コンピューティングデバイスに、1つまたは複数の車両スピーカーを介して車両コンピューティングデバイスによって追加のオーディオデータストリームをレンダリングするために、通信チャネルを介して追加のオーディオデータストリームを車両コンピューティングデバイスに送信させるステップをさらに含む。可聴出力が車両内の少なくとも1つのマイクロフォンによってキャプチャされないとの判定に応じて、この方法は、追加のオーディオデータストリームを、代わりに、1つまたは複数の代替スピーカーにおいてレンダリングさせるステップであって、1つまたは複数の代替スピーカーが、車両内にあるが、車両コンピューティングデバイスによって駆動される1つまたは複数の車両スピーカーではない、レンダリングさせるステップをさらに含む。

本明細書で開示する技法のこれらのおよび他の実装形態は、以下の特徴のうちの1つまたは複数を含み得る。

いくつかの実装形態では、1つまたは複数の代替スピーカーは、コンピューティングデバイスのものである。それらの実装形態のいくつかのバージョンでは、この方法は、コンピューティングデバイスの自動アシスタントクライアントの呼出しを検出するステップであって、呼出しが自動アシスタントクライアントを第1の状態から第2の状態に遷移させる、検出するステップをさらに含み、コンピューティングデバイスにオーディオデータストリームを車両の車両コンピューティングデバイスに送信させるステップは、呼出しの検出に応じる。

いくつかの実装形態では、呼出しを検出するステップは、コンピューティングデバイスの少なくとも1つのマイクロフォンを介してキャプチャされたオーディオデータ内の呼出しフレーズの発生を検出するステップを含む。

いくつかの実装形態では、呼出しを検出するステップは、追加の通信チャネルを介して呼出しの指示を車両インターフェースデバイスから受信することに基づいて、呼出しを検出するステップであって、車両インターフェースデバイスが、ハードウェアインターフェース要素とのユーザ対話に応じて、または車両インターフェースデバイスの少なくとも1つのマイクロフォンを介してキャプチャされたオーディオデータ内の呼出しフレーズの発生の検出に応じて、呼出しの指示を送信する、検出するステップを含む。

いくつかの実装形態では、コンピューティングデバイスにオーディオデータストリームを車両コンピューティングデバイスに送信させるステップは、コンピューティングデバイスの自動アシスタントクライアントに対するユーザインターフェース入力に応じ、ユーザインターフェース入力および/またはユーザインターフェース入力に基づく追加のデータを含む要求をリモートサーバデバイスに送信するステップをさらに含む。それらの実装形態のいくつかのバージョンでは、コンピューティングデバイスにオーディオデータストリームを車両コンピューティングデバイスに送信させるステップは、要求の送信に応じて、追加のオーディオデータストリームをリモートサーバデバイスから受信するステップをさらに含み、オーディオデータストリームを車両コンピューティングデバイスに送信するステップは、追加のオーディオデータストリーム全体をリモートサーバデバイスから受信するのに先立って発生する。

いくつかの実装形態では、車両内の少なくとも1つのマイクロフォンは、コンピューティングデバイスの少なくとも1つのマイクロフォンを含む。

いくつかの実装形態では、この方法は、自動アシスタントクライアントがコンピューティングデバイスに通信チャネルを介してオーディオデータストリームを車両の車両コンピューティングデバイスに送信させた時間を示す時間的指示を判定するステップをさらに含む。それらの実装形態のいくつかのバージョンでは、この方法は、現在時間を示す現在の時間的指示を判定するステップをさらに含む。それらの実装形態のいくつかのバージョンでは、この方法は、現在の時間的指示と時間的指示の間の差異を判定するステップをさらに含む。現在の時間的指示と時間的指示の間の差異がしきい値を超えるとの判定に応じて、それらの実装形態のいくつかのバージョンは、コンピューティングデバイスの自動アシスタントクライアントに、通信チャネルを介して、第2のオーディオデータストリームを車両の車両コンピューティングデバイスに送信させるステップをさらに含み、第2のオーディオデータストリームを送信するステップは、車両コンピューティングデバイスが通信チャネルモードであるとき、車両コンピューティングデバイスの1つまたは複数のスピーカーを介して、追加の可聴出力を車両コンピューティングデバイスにレンダリングさせ、追加の可聴出力は、第2のオーディオデータストリームに少なくとも部分的に基づいて、車両コンピューティングデバイスによって生成される。それらの実装形態のいくつかのバージョンでは、この方法は、追加の可聴出力が車両内の少なくとも1つのマイクロフォンによってキャプチャされるかどうかを判定するステップをさらに含む。それらの実装形態のいくつかのバージョンでは、追加の可聴出力が車両内の少なくとも1つのマイクロフォンによってキャプチャされるとの判定に応じて、この方法は、コンピューティングデバイスに、通信チャネルを介して第3のオーディオデータストリームを車両コンピューティングデバイスに送信させるステップをさらに含む。追加の可聴出力が車両内の少なくとも1つのマイクロフォンによってキャプチャされないとの判定に応じて、それらの実装形態のいくつかのバージョンでは、この方法は、第3の可聴出力を1つまたは複数の代替スピーカーにおいてレンダリングさせるステップをさらに含む。

いくつかの実装形態では、1つまたは複数のプロセッサによって実装される方法は、ワイヤレス通信チャネルを介してオーディオデータストリームを車両の車両コンピューティングデバイスに送信させるステップを含み、オーディオデータストリームを送信させるステップは、車両コンピューティングデバイスに、車両の1つまたは複数の車両スピーカーを介して可聴出力をレンダリングさせ、可聴出力は、オーディオデータストリームに少なくとも部分的に基づいて、車両コンピューティングデバイスによって生成される。それらの実装形態のいくつかでは、この方法は、車両内のコンピューティングデバイスの少なくとも1つのマイクロフォンによってキャプチャされる、キャプチャされたオーディオデータを受信するステップをさらに含み、キャプチャされたオーディオデータは、少なくとも1つの車両スピーカーによってレンダリングされた可聴出力をキャプチャする。それらの実装形態のいくつかでは、この方法は、キャプチャされたオーディオデータをオーディオデータストリームと比較することに基づいて、車両オーディオ遅延を判定するステップをさらに含む。それらの実装形態のいくつかのバージョンでは、車両オーディオ遅延の判定に応じて、この方法は、コンピューティングデバイスに、車両オーディオ遅延に基づいて局所雑音消去を適応させるステップをさらに含む。

いくつかの実装形態では、局所雑音消去は、1つまたは複数の車両スピーカーを介して車両コンピューティングデバイスによってレンダリングするために、ワイヤレス通信チャネルを介して送信される既知のソースオーディオデータストリームを後でキャプチャされたオーディオデータから、低減し、局所雑音消去を適応するステップは、車両オーディオ遅延に基づいて、既知のソースオーディオデータストリームを検出する予想時間を適応するステップを含む。

いくつかの実装形態では、コンピューティングデバイスは、車両のシガレットライターレセプタクルによって電源供給される車両インターフェースデバイスである。それらの実装形態のいくつかのバージョンでは、車両オーディオ遅延を判定するステップは、車両インターフェースデバイスによる。それらの実装形態のいくつかのバージョンでは、車両オーディオ遅延を判定するステップは、通信チャネルを介して車両インターフェースデバイスと通信しているスマートフォンにより、コンピューティングデバイスに、車両オーディオ遅延に基づいて局所雑音消去を適応させるステップは、車両オーディオ遅延および/または車両オーディオ遅延に基づいて判定される追加のデータを車両インターフェースデバイスに送信するステップを含む。

いくつかの実装形態では、1つまたは複数のプロセッサによって実装される方法であって、コンピューティングデバイスに、ワイヤレス通信チャネルを介してオーディオデータストリームを追加のコンピューティングデバイスに送信させるステップであって、オーディオデータストリームを送信するステップが、追加のコンピューティングデバイスに、追加のコンピューティングデバイスによって駆動される1つまたは複数の追加のスピーカーを介して可聴出力をレンダリングさせ、可聴出力が、オーディオデータストリームに少なくとも部分的に基づいて、追加のコンピューティングデバイスによって生成される、送信させるステップを含む、方法が提供される。この方法は、少なくとも1つのマイクロフォンによってキャプチャされる、キャプチャされたオーディオデータを受信するステップであって、キャプチャされたオーディオデータが、少なくとも1つの追加のスピーカーによってレンダリングされた可聴出力をキャプチャする、受信するステップをさらに含む。この方法は、キャプチャされたオーディオデータをオーディオデータストリームと比較することに基づいて、オーディオ遅延を判定するステップをさらに含む。この方法は、オーディオ遅延の判定に応じて、コンピューティングデバイスに、ワイヤレス通信チャネルを介して追加のオーディオデータストリームを追加のコンピューティングデバイスに送信するのに先立って、対応する遅延オーディオセグメントを追加のオーディオデータストリームに付加させるステップであって、遅延オーディオセグメントの持続時間が、オーディオ遅延を使用して判定される、付加させるステップ、および/またはオーディオ遅延に基づいて局所雑音消去を適応させるステップをさらに含む。

追加のコンピューティングデバイスは、車両コンピューティングデバイスであってよく、1つまたは複数のスピーカーは、1つまたは複数の車両スピーカーであってよい。

追加のコンピューティングデバイスは、1つまたは複数の追加のスピーカーを組み込んだ、またはオーディオケーブルを介して1つまたは複数の追加のスピーカーに直接的に結合された、Bluetooth対応デバイスであってよい。

いくつかの実装形態では、1つまたは複数のプロセッサによって実装される方法であって、コンピューティングデバイスに、通信チャネルを介してオーディオデータストリームを追加のコンピューティングデバイスに送信させるステップであって、オーディオデータストリームを送信するステップが、追加のコンピューティングデバイスが通信チャネルモードであるとき、車両コンピューティングデバイスに、追加のコンピューティングデバイスによって駆動される1つまたは複数の追加のスピーカーを介して可聴出力をレンダリングさせ、可聴出力が、オーディオデータストリームに少なくとも部分的に基づいて、追加のコンピューティングデバイスによって生成される、送信させるステップを含む方法が提供される。この方法は、可聴出力が少なくとも1つのマイクロフォンによってキャプチャされるかどうかを判定するステップをさらに含む。可聴出力が少なくとも1つのマイクロフォンによってキャプチャされるとの判定に応じて、この方法は、キャプチャされたオーディオデータをオーディオデータストリームと比較することに基づいて、オーディオ遅延を判定するステップをさらに含む。この方法は、可聴出力が少なくとも1つのマイクロフォンによってキャプチャされるとの判定に応じて、コンピューティングデバイスに、1つまたは複数の追加のスピーカーを介して車両コンピューティングデバイスによって追加のオーディオデータストリームをレンダリングするために、通信チャネルを介して、追加のオーディオデータストリームを追加のコンピューティングデバイスに送信させるステップをさらに含む。可聴出力が少なくとも1つのマイクロフォンによってキャプチャされないとの判定に応じて、この方法は、追加のオーディオデータストリームを、代わりに、1つまたは複数の代替スピーカーにおいてレンダリングさせるステップであって、1つまたは複数の代替スピーカーが、追加のコンピューティングデバイスによって駆動される、1つまたは複数の車両スピーカーではない、レンダリングさせるステップをさらに含む。

加えて、いくつかの実装形態は、1つまたは複数のコンピューティングデバイスの1つまたは複数のプロセッサ(たとえば、中央処理装置(CPU))、グラフィカル処理ユニット(GPU)、および/またはテンソル処理ユニット(TPU)を含み、1つまたは複数のプロセッサは、関連メモリ内に記憶された命令を実行するように動作可能であり、命令は、本明細書で説明した方法のうちのいずれかを実行させるように構成される。いくつかの実装形態は、本明細書で説明した方法のうちのいずれかを実行するために1つまたは複数のプロセッサによって実行可能なコンピュータ命令を記憶した、1つまたは複数の非一時的コンピュータ可読記憶媒体をやはり含む。

102 車両コンピューティングデバイス、コンピューティングデバイス
104 ワイヤレス通信チャネル、Bluetoothチャネル
106 コンピューティングデバイス、モバイルスマートフォンコンピューティングデバイス、クライアントデバイス
202 車両コンピューティングデバイス
204 ワイヤレス通信ネットワーク、第1のBluetoothチャネル
206 コンピューティングデバイス
208 ワイヤレス通信ネットワーク、第2のBluetoothチャネル
210 車両インターフェースデバイス
302 車両インターフェースデバイス
304 コンピューティングデバイス
306 ワイヤレス通信チャネル
308 車両インターフェースデバイス
310 通信チャネル
402 オーディオデータストリーム、オーディオデータ
404 周波数セグメント「1」、第1の周波数セグメント
406 周波数セグメント「2」
408 周波数セグメント「3」
410 周波数セグメント「4」
412 周波数セグメント「5」
414 オーディオデータ
416 シーケンス周波数セグメント「1」、周波数セグメント「1」
418 周波数セグメント「2」
420 周波数セグメント「3」
422 周波数セグメント「4」
424 周波数セグメント「5」
426 オーディオデータストリーム
428 周波数セグメント「2」
430 周波数セグメント「3」
432 周波数セグメント「4」
434 周波数セグメント「5」
436 オーディオデータ、オーディオデータストリーム
438 周波数セグメント「3」
440 周波数セグメント「4」
442 周波数セグメント「5」
444 オーディオデータ、オーディオデータストリーム
446 周波数セグメント「2」
448 周波数セグメント「3」
500 プロセス
600 プロセス
700 自動アシスタント
702 クライアントコンピューティングデバイス、クライアントデバイス
704 自動アシスタントクライアント、自動アシスタント
706 遅延エンジン
708 ローカルエンジン
712 クラウドベースの自動アシスタント構成要素
714 クラウドベースのTTSモジュール、TTSモジュール
716 クラウドベースのSTTモジュール、STTモジュール
718 自然言語プロセッサ
720 オーディオデータ、オーディオデータデータベース
810 コンピューティングデバイス
812 バスサブシステム
814 プロセッサ
816 ネットワークインターフェースサブシステム
820 ユーザインターフェース出力デバイス
822 ユーザインターフェース入力デバイス
824 記憶サブシステム
825 メモリサブシステム、メモリ
826 ファイル記憶サブシステム
830 メインランダムアクセスメモリ(「RAM」)
832 読取り専用メモリ(「ROM」)

Claims

1つまたは複数のプロセッサによって実装される方法であって、
コンピューティングデバイスに、ワイヤレス通信チャネルを介してオーディオデータストリームを車両の車両コンピューティングデバイスに送信させるステップであって、
前記オーディオデータストリームを送信するステップが、前記車両コンピューティングデバイスに前記車両の1つまたは複数の車両スピーカーを介して可聴出力をレンダリングさせ、
前記可聴出力が、前記オーディオデータストリームに少なくとも部分的に基づいて、前記車両コンピューティングデバイスによって生成される、ステップと、
前記車両内の少なくとも1つのマイクロフォンによってキャプチャされる、キャプチャされたオーディオデータを受信するステップであって、前記キャプチャされたオーディオデータが、少なくとも1つの車両スピーカーによってレンダリングされた前記可聴出力をキャプチャする、ステップと、
前記キャプチャされたオーディオデータを前記オーディオデータストリームと比較することに基づいて、車両オーディオ遅延を判定するステップと、
前記車両オーディオ遅延の判定に基づいて、
前記コンピューティングデバイスに、前記ワイヤレス通信チャネルを介して追加のオーディオデータストリームを前記車両コンピューティングデバイスに送信するのに先立って、対応する遅延オーディオセグメントを前記追加のオーディオデータストリームに付加させるステップであって、前記遅延オーディオセグメントの持続時間が、前記車両オーディオ遅延を使用して判定される、ステップと
を含む、方法。

前記キャプチャされたオーディオデータを前記オーディオデータストリームと比較することに基づいて、前記車両オーディオ遅延を判定するステップステップが、
前記キャプチャされたオーディオデータ内の特定の特徴の時間的指示を判定するステップと、
前記オーディオデータストリーム内の前記特定の特徴の追加の時間的指示を判定するステップと、
前記キャプチャされたオーディオデータ内の前記特定の特徴の前記時間的指示と前記オーディオデータストリーム内の前記特定の特徴の前記追加の時間的指示の間の差異に基づいて、前記車両オーディオ遅延を判定するステップと
を含む、請求項1に記載の方法。

前記オーディオデータストリームが、周波数セグメントの定義されたシーケンスを含み、前記特定の特徴が、周波数セグメントの前記定義されたシーケンスの特定の周波数セグメントである、請求項2に記載の方法。

周波数セグメントの前記シーケンスの前記周波数セグメントの各々が、少なくとも2つの対応する共起周波数を含む、請求項3に記載の方法。

前記キャプチャされたオーディオデータ内の前記特定の特徴の前記時間的指示を判定するステップが、
前記キャプチャされたオーディオデータ内の前記特定の周波数セグメントのキャプチャされた位置を判定するステップ
を含み、
前記オーディオデータストリーム内の前記特定の特徴の前記追加の時間的指示を判定するステップが、
前記オーディオデータストリーム内の前記特定の周波数セグメントのストリーム位置を判定するステップ
を含む、請求項3または4に記載の方法。

前記キャプチャされたオーディオデータ内の前記特定の特徴の前記時間的指示と前記オーディオデータストリーム内の前記特定の特徴の前記追加の時間的指示の間の前記差異に基づいて、前記車両オーディオ遅延を判定するステップが、
前記特定の周波数セグメントの前記キャプチャされた位置が、前記周波数セグメントが前記キャプチャされたオーディオデータ内の最初に発生した周波数セグメントであることを示し、前記オーディオデータストリーム内の前記特定の周波数セグメントの前記ストリーム位置が、前記周波数セグメントが前記オーディオデータストリーム内の前記最初に発生した周波数セグメントではないことを示す、と判定するステップ
を含み、
前記キャプチャされたオーディオデータ内の前記特定の特徴の前記時間的指示と前記オーディオデータストリーム内の前記特定の特徴の前記追加の時間的指示の間の前記差異を判定するステップが、前記キャプチャされた位置と前記ストリーム位置の間の位置的オフセットを判定するステップを含む
請求項5に記載の方法。

前記キャプチャされたオーディオデータを前記オーディオデータストリームと比較することに基づいて、前記車両オーディオ遅延を判定するステップが、
周波数セグメントの前記シーケンス内の複数の周波数セグメントの各々に対して、前記キャプチャされたオーディオデータ内の前記周波数セグメントと前記オーディオデータストリーム内の前記周波数セグメントの間の対応する時間的オフセットを判定するステップと、
前記対応する時間的オフセットの最大オフセットに基づいて、前記車両オーディオ遅延を判定するステップと
を含む、請求項3または4に記載の方法。

前記コンピューティングデバイスに、前記ワイヤレス通信チャネルを介して追加のデータストリームを前記車両コンピューティングデバイスに送信するのに先立って、前記対応する遅延オーディオセグメントを前記追加のデータストリームに付加させるステップが、
前記コンピューティングデバイスに、前記対応する遅延オーディオセグメントを前記追加のデータストリームの始端に付加させるステップ
を含む、請求項1から7のいずれか一項に記載の方法。

前記コンピューティングデバイスに、前記ワイヤレス通信チャネルを介して追加のデータストリームを前記車両コンピューティングデバイスに送信するのに先立って、前記対応する遅延オーディオセグメントを前記追加のデータストリームに付加させるステップが、
前記コンピューティングデバイスに、前記対応する遅延オーディオセグメントを前記追加のデータストリームの終端に付加させるステップ
を含む、請求項1から7のいずれか一項に記載の方法。

前記ワイヤレス通信チャネルがBluetoothチャネルである、請求項1から9のいずれか一項に記載の方法。

前記コンピューティングデバイスが自動アシスタントクライアントを含む、請求項1から10のいずれか一項に記載の方法。

前記追加のオーディオデータストリームが、前記自動アシスタントクライアントによる前記1つまたは複数のマイクロフォンを介した口頭入力の受信に応じて、前記車両コンピューティングデバイスに送信され、
前記追加のオーディオデータストリームが、前記口頭入力に応じて生成された自動アシスタント応答である、請求項11に記載の方法。

前記キャプチャされたオーディオデータをキャプチャする、前記少なくとも1つのマイクロフォンが、前記コンピューティングデバイスの少なくとも1つのコンピューティングデバイスマイクロフォンを含む、請求項12に記載の方法。

前記キャプチャされたオーディオデータをキャプチャする、前記少なくとも1つのマイクロフォンが、第2のワイヤレス通信チャネルを介して前記コンピューティングデバイスと通信している車両インターフェースデバイスの少なくとも1つのインターフェースマイクロフォンを含み、前記キャプチャされたオーディオデータを受信するステップが、
前記キャプチャされたオーディオデータを第2の通信チャネルを介して前記車両インターフェースデバイスから受信するステップ
を含む、請求項12に記載の方法。

前記車両インターフェースデバイスが、追加のワイヤレス通信チャネルを介して前記車両コンピューティングデバイスに通信可能に結合される、請求項14に記載の方法。

前記車両インターフェースデバイスが、ワイヤード通信チャネルを介して前記車両コンピューティングデバイスに通信可能に結合される、請求項14に記載の方法。

前記車両インターフェースデバイスに、前記車両オーディオ遅延に基づいて局所雑音消去フィルタを適応させるステップ
をさらに含む、請求項14に記載の方法。

1つまたは複数のプロセッサによって実装される方法であって、
コンピューティングデバイスに、通信チャネルを介してオーディオデータストリームを車両の車両コンピューティングデバイスに送信させるステップであって、
前記オーディオデータストリームを送信するステップが、前記車両コンピューティングデバイスが通信チャネルモードであるとき、前記車両コンピューティングデバイスによって駆動される1つまたは複数の車両スピーカーを介して可聴出力を前記車両コンピューティングデバイスにレンダリングさせ、
前記可聴出力が、前記オーディオデータストリームに少なくとも部分的に基づいて、前記車両コンピューティングデバイスによって生成される、ステップと、
前記可聴出力が前記車両内の少なくとも1つのマイクロフォンによってキャプチャされるかどうかを判定するステップと、
前記可聴出力が前記車両内の前記少なくとも1つのマイクロフォンによってキャプチャされるとの判定に応じて、
前記コンピューティングデバイスに、前記1つまたは複数の車両スピーカーを介して前記車両コンピューティングデバイスによって追加のオーディオデータストリームをレンダリングするために、前記通信チャネルを介して前記追加のオーディオデータストリームを前記車両コンピューティングデバイスに送信させるステップと、
前記可聴出力が前記車両内の前記少なくとも1つのマイクロフォンによってキャプチャされないとの判定に応じて、
前記追加のオーディオデータストリームを、代わりに、1つまたは複数の代替スピーカーにおいてレンダリングさせるステップであって、前記1つまたは複数の代替スピーカーが、前記車両内にあるが、前記車両コンピューティングデバイスによって駆動される前記1つまたは複数の車両スピーカーではない、ステップと
を含む、方法。

前記1つまたは複数の代替スピーカーが、前記コンピューティングデバイスのものである、請求項18に記載の方法。

前記コンピューティングデバイスの自動アシスタントクライアントの呼出しを検出するステップであって、前記呼出しが、前記自動アシスタントクライアントを第1の状態から第2の状態に遷移させる、ステップ
をさらに含み、
前記コンピューティングデバイスに前記オーディオデータストリームを前記車両の前記車両コンピューティングデバイスに送信させるステップが、前記呼出しの検出に応じる
請求項18または19に記載の方法。

前記呼出しを検出するステップが、
前記コンピューティングデバイスの少なくとも1つのマイクロフォンを介してキャプチャされたオーディオデータ内の呼出しフレーズの発生を検出するステップ
を含む、請求項20に記載の方法。

前記呼出しを検出するステップが、
追加の通信チャネルを介して前記呼出しの指示を車両インターフェースデバイスから受信することに基づいて、前記呼出しを検出するステップ
を含み、
前記車両インターフェースデバイスが、ハードウェアインターフェース要素とのユーザ対話に応じて、または前記車両インターフェースデバイスの少なくとも1つのマイクロフォンを介してキャプチャされたオーディオデータ内の呼出しフレーズの発生の検出に応じて、前記呼出しの前記指示を送信する
請求項20に記載の方法。

前記コンピューティングデバイスに前記オーディオデータストリームを前記車両コンピューティングデバイスに送信させるステップが、前記コンピューティングデバイスの自動アシスタントクライアントに対するユーザインターフェース入力に応じ、
前記ユーザインターフェース入力および/または前記ユーザインターフェース入力に基づく追加のデータを含む要求をリモートサーバデバイスに送信するステップと、
前記要求の送信に応じて、前記追加のオーディオデータストリームを前記リモートサーバデバイスから受信するステップと
を含み、
前記オーディオデータストリームを前記車両コンピューティングデバイスに送信するステップが、前記追加のオーディオデータストリーム全体を前記リモートサーバデバイスから受信するのに先立って発生する
請求項18に記載の方法。

前記車両内の前記少なくとも1つのマイクロフォンが、前記コンピューティングデバイスの少なくとも1つのマイクロフォンを含む、請求項18から23のいずれか一項に記載の方法。

前記自動アシスタントクライアントが前記コンピューティングデバイスに前記通信チャネルを介して前記オーディオデータストリームを前記車両の前記車両コンピューティングデバイスに送信させた時間を示す時間的指示を判定するステップと、
現在の時間を示す現在の時間的指示を判定するステップと、
前記現在の時間的指示と前記時間的指示の間の差異を判定するステップと、
前記現在の時間的指示と前記時間的指示の間の前記差異がしきい値を超えるとの判定に応じて、
前記コンピューティングデバイスの前記自動アシスタントクライアントに、前記通信チャネルを介して、第2のオーディオデータストリームを前記車両の前記車両コンピューティングデバイスに送信させるステップであって、
前記第2のオーディオデータストリームを送信するステップが、前記車両コンピューティングデバイスが前記通信チャネルモードであるとき、前記車両コンピューティングデバイスの前記1つまたは複数のスピーカーを介して、追加の可聴出力を前記車両コンピューティングデバイスにレンダリングさせ、
前記追加の可聴出力が、前記第2のオーディオデータストリームに少なくとも部分的に基づいて、前記車両コンピューティングデバイスによって生成される、ステップと、
前記追加の可聴出力が前記車両内の前記少なくとも1つのマイクロフォンによってキャプチャされるかどうかを判定するステップと、
前記追加の可聴出力が前記車両内の前記少なくとも1つのマイクロフォンによってキャプチャされるとの判定に応じて、
前記コンピューティングデバイスに、前記通信チャネルを介して第3のオーディオデータストリームを前記車両コンピューティングデバイスに送信させるステップと、
前記追加の可聴出力が前記車両内の前記少なくとも1つのマイクロフォンによってキャプチャされないとの判定に応じて、
第3の可聴出力を前記1つまたは複数の代替スピーカーにおいてレンダリングさせるステップと
をさらに含む、請求項18から24のいずれか一項に記載の方法。

1つまたは複数のプロセッサによって実装される方法であって、
ワイヤレス通信チャネルを介してオーディオデータストリームを車両の車両コンピューティングデバイスに送信させるステップであって、
前記オーディオデータストリームを送信するステップが、前記車両コンピューティングデバイスに前記車両の1つまたは複数の車両スピーカーを介して可聴出力をレンダリングさせ、
前記可聴出力が、前記オーディオデータストリームに少なくとも部分的に基づいて、前記車両コンピューティングデバイスによって生成される、ステップと、
前記車両内のコンピューティングデバイスの少なくとも1つのマイクロフォンによってキャプチャされる、キャプチャされたオーディオデータを受信するステップであって、
前記キャプチャされたオーディオデータが、少なくとも1つの車両スピーカーによってレンダリングされた前記可聴出力をキャプチャする、ステップと、
前記キャプチャされたオーディオデータを前記オーディオデータストリームと比較することに基づいて、車両オーディオ遅延を判定するステップと、
前記車両オーディオ遅延の判定に応じて、
前記コンピューティングデバイスに、前記車両オーディオ遅延に基づいて局所雑音消去を適応させるステップと
を含む、方法。

前記局所雑音消去が、前記1つまたは複数の車両スピーカーを介して前記車両コンピューティングデバイスによってレンダリングするために、前記ワイヤレス通信チャネルを介して送信される既知のソースオーディオデータストリームを後でキャプチャされたオーディオデータから低減し、
前記局所雑音消去を適応するステップが、前記車両オーディオ遅延に基づいて、前記既知のソースオーディオデータストリームを検出する予想時間を適応するステップを含む
請求項26に記載の方法。

前記コンピューティングデバイスが、前記車両のシガレットライターレセプタクルによって電力供給される車両インターフェースデバイスである、請求項26または27に記載の方法。

前記車両オーディオ遅延を判定するステップが、前記車両インターフェースデバイスによる、請求項28に記載の方法。

前記車両オーディオ遅延を判定するステップが、通信チャネルを介して前記車両インターフェースデバイスと通信しているスマートフォンにより、前記コンピューティングデバイスに前記車両オーディオ遅延に基づいて前記局所雑音消去を適応させるステップが、
前記車両オーディオ遅延および/または前記車両オーディオ遅延に基づいて判定される追加のデータを前記車両インターフェースデバイスに送信するステップ
を含む、請求項28に記載の方法。