JP2023520937A

JP2023520937A - ノイズロバストなキーワードスポッティングのためのカスケードアーキテクチャ

Info

Publication number: JP2023520937A
Application number: JP2022561573A
Authority: JP
Inventors: イテン・ファン; アレクサンダー・エイチ・グルエンスタイン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2023-05-22
Anticipated expiration: 2040-04-08
Also published as: EP4104168A1; WO2021206713A1; CN115362498A; JP7460794B2; US20230097197A1; KR20220151660A

Abstract

方法(400)は、ユーザデバイス(102)の第1のプロセッサ(110)において、マイクロフォン(107)のアレイによってキャプチャされたストリーミングマルチチャネルオーディオ(118)を受信するステップを含み、各チャネル(119)は、それぞれのオーディオ特徴を含む。各チャネルについて、方法は、ホットワードが検出されたかどうかを判断するために、第1のプロセッサによって、第1段階のホットワード検出器(210)を使用して、それぞれのオーディオ特徴を処理するステップも含む。第1段階のホットワード検出器がホットワードを検出する場合、方法は、第1のプロセッサが、クリーンなモノフォニックオーディオチョンプ(260)を生成するために、第1のノイズクリーニングアルゴリズム(250)を使用して、刻まれた生オーディオデータを処理する第2のプロセッサに、刻まれた生オーディオデータ(212)を提供するステップも含む。方法は、ホットワードを検出するために、第2のプロセッサによって、第2段階のホットワード検出器(220)を使用して、クリーンなモノフォニックオーディオチョンプを処理するステップも含む。

Description

本開示は、ノイズロバストなキーワードスポッティングのためのカスケードアーキテクチャに関する。

音声対応環境(たとえば、家庭、職場、学校、自動車など)は、クエリを処理して対応し、および/またはコマンドに基づいて機能を実行するコンピュータベースのシステムに、ユーザがクエリまたはコマンドを声に出して話すことを可能にする。音声対応環境は、その環境の様々な部屋またはエリアに分散された、接続されているマイクロフォンデバイスのネットワークを使用して実装され得る。これらのデバイスは、環境内に存在する別の個人に向けられた発話とは対照的に、所与の発話がシステムに向けられた場合を識別するのに役立つホットワードを使用し得る。したがって、デバイスは、スリープ状態またはハイバネーション状態において動作し、検出された発話がホットワードを含む場合にのみウェイクアップし得る。これらのデバイスは、マルチチャネルオーディオを記録するための2つ以上のマイクロフォンを含み得る。ストリーミングオーディオにおいてユーザによって発話されたホットワードを検出するためのモデルをトレーニングするための魅力的な解決策として、ニューラルネットワークが最近登場した。典型的には、ストリーミングオーディオにおいてホットワードを検出するために使用されるニューラルネットワークは、ストリーミングオーディオの単一のチャネルを受信する。

国際特許出願PCT/US20/13705

本開示の一態様は、カスケードホットワード検出アーキテクチャにおけるノイズロバストなキーワード/ホットワードスポッティングのための方法を提供する。方法は、ユーザデバイスの第1のプロセッサにおいて、第1のプロセッサと通信するマイクロフォンのアレイによってキャプチャされたストリーミングマルチチャネルオーディオを受信するステップを含み、ストリーミングマルチチャネルオーディオの各チャネルは、マイクロフォンのアレイ内の個別の専用マイクロフォンによってキャプチャされたそれぞれのオーディオ特徴を含む。方法は、第1のプロセッサによって、第1段階のホットワード検出器を使用して、ストリーミングマルチチャネルオーディオにおいて第1段階のホットワード検出器によってホットワードが検出されたかどうかを判断するために、ストリーミングマルチチャネルオーディオの少なくとも1つのチャネルのそれぞれのオーディオ特徴を処理するステップも含む。方法は、第1段階のホットワード検出器がストリーミングマルチチャネルオーディオ内のホットワードを検出する場合、第1のプロセッサによって、チョンプ(chomp)されたマルチチャネル生オーディオデータをユーザデバイスの第2のプロセッサに提供するステップをさらに含み、刻まれたマルチチャネル生オーディオデータの各チャネルが、ストリーミングマルチチャネルオーディオのそれぞれのチャネルに対応し、ストリーミングマルチチャネルオーディオのそれぞれのチャネルから刻まれたそれぞれの生オーディオデータを含む。方法は、クリーンなモノフォニックオーディオチョンプを生成するために、第2のプロセッサによって、第1のノイズクリーニングアルゴリズムを使用して、刻まれたマルチチャネル生オーディオデータの各チャネルを処理するステップと、クリーンなモノフォニックオーディオチョンプにおいて第2段階のホットワード検出器によってホットワードが検出されたかどうかを判断するために、第2段階のホットワード検出器を使用して、クリーンなモノフォニックオーディオチョンプを処理するステップとを含む。クリーンなモノフォニックオーディオチョンプにおいて、第2段階のホットワード検出器によってホットワードが検出される場合、第2のプロセッサによって、ストリーミングマルチチャネルオーディオ内のホットワードおよび/またはホットワードに続く1つもしくは複数の他の用語を処理するためにユーザデバイスに対するウェイクアッププロセスを開始する。

本開示の実装形態は、以下のオプションの特徴のうちの1つまたは複数を含み得る。いくつかの実装形態において、刻まれたマルチチャネル生オーディオデータの各チャネルのそれぞれの生オーディオデータは、ストリーミングマルチチャネルオーディオにおいて第1段階のホットワード検出器によって検出されたホットワードを特徴付けるオーディオセグメントを含む。これらの実装形態において、刻まれたマルチチャネル生オーディオデータの各チャネルのそれぞれの生オーディオデータは、第1段階のホットワード検出器がストリーミングマルチチャネルオーディオにおいてホットワードを検出した時点の直前のオーディオの持続時間を含むプレフィックスセグメントをさらに含む。

いくつかの例において、ストリーミングマルチチャネルオーディオが第1のプロセッサにおいて受信され、ストリーミングマルチチャネルオーディオの少なくとも1つのチャネルのそれぞれのオーディオ特徴が第1のプロセッサによって処理される場合、第2のプロセッサは、スリープモードにおいて動作する。これらの例において、刻まれたマルチチャネルオーディオ生データの第2のプロセッサへの提供は、スリープモードからホットワード検出モードに移行するように第2のプロセッサを起動する。ホットワード検出モードにある間、第2のプロセッサは、第1のノイズクリーニングアルゴリズムと第2段階のホットワード検出器とを実行し得る。

いくつかの実装形態において、方法は、第2のプロセッサによって、クリーンなモノフォニックオーディオチョンプを並行して処理しながら、第2段階のホットワード検出器を使用して、それぞれの生オーディオデータにおいて第2段階のホットワード検出器によってホットワードが検出されたかどうかを判断するために、刻まれたマルチチャネル生オーディオデータの1つのチャネルのそれぞれの生オーディオデータを処理するステップをさらに含む。ここで、クリーンなモノフォニックオーディオチョンプまたはそれぞれの生オーディオデータのいずれか一方において、第2段階のホットワード検出器によってホットワードが検出される場合、方法は、第2のプロセッサによって、ストリーミングマルチチャネルオーディオ内のホットワードおよび/またはホットワードに続く1つもしくは複数の他の用語を処理するためにユーザデバイスに対するウェイクアッププロセスを開始するステップを含む。これらの実装形態において、方法は、クリーンなモノフォニックオーディオチョンプまたはそれぞれの生オーディオデータのいずれか一方においてホットワードが第2段階のホットワード検出器によって検出されない場合、第2のプロセッサによって、ユーザデバイスに対するウェイクアッププロセスの開始を防止するステップをさらに含み得る。

いくつかの例において、ストリーミングマルチチャネルオーディオにおいて第1段階のホットワード検出器によってホットワードが検出されたかどうかを判断するために、ストリーミングマルチチャネルオーディオの少なくとも1つのチャネルのそれぞれのオーディオ特徴を処理するステップは、ストリーミングマルチチャネルオーディオの少なくとも1つのチャネルのそれぞれのオーディオ特徴を、それぞれのオーディオ特徴からノイズをキャンセルすることなく処理するステップを含む。いくつかの実装形態において、方法は、マルチチャネル相互相関行列を生成するために、第1のプロセッサによって、ストリーミングマルチチャネルオーディオの各チャネルのそれぞれのオーディオ特徴を処理するステップを含む。第1段階のホットワード検出器がストリーミングマルチチャネルオーディオにおいてホットワードを検出する場合、実装形態は、ストリーミングマルチチャネルオーディオの各チャネルについて、第1のプロセッサによって、マルチチャネル相互相関行列を使用して、ストリーミングマルチチャネルオーディオのそれぞれのチャネルのそれぞれのオーディオ特徴からそれぞれの生オーディオデータをチョンプし、第1のプロセッサによって、マルチチャネル相互相関行列を第2のプロセッサに提供する方法をさらに含む。これらの実装形態において、クリーンなモノフォニックオーディオチョンプを生成するために、刻まれたマルチチャネル生オーディオデータの各チャネルを処理するステップは、第1のプロセッサから提供されたマルチチャネル相互相関行列を使用して、第1のノイズクリーニングアルゴリズムのためのクリーナフィルタ係数を計算するステップと、クリーンなモノフォニックオーディオチョンプを生成するために、計算されたクリーナフィルタ係数を有する第1のノイズクリーニングアルゴリズムによって、第1のプロセッサによって提供される、刻まれたマルチチャネル生オーディオデータの各チャネルを処理するステップとを含む。これらの実装形態において、ストリーミングマルチチャネルオーディオにおいて第1段階のホットワード検出器によってホットワードが検出されたかどうかを判断するために、ストリーミングマルチチャネルオーディオの少なくとも1つのチャネルのそれぞれのオーディオ特徴を処理するステップは、マルチチャネル相互相関行列を使用して、第1のプロセッサにおいて実行される第2のノイズクリーニングアルゴリズムのためのクリーナ係数を計算し、一方、モノフォニッククリーンオーディオストリームを生成するために、計算されたフィルタ係数を有する第2のノイズクリーニングアルゴリズムによって、ストリーミングマルチチャネルオーディオの各チャネルを処理するステップを含み得る。これらの実装形態において、方法は、ストリーミングマルチチャネルオーディオにおいて第1段階のホットワード検出器によってホットワードが検出されたかどうかを判断するために、第1段階のホットワード検出器を使用して、モノフォニッククリーンオーディオストリームを処理するステップをさらに含む。第1のノイズクリーニングアルゴリズムは、刻まれたモノフォニッククリーンオーディオデータを生成するために、刻まれたマルチチャネル生オーディオデータの各チャネルに対して、第1のフィルタ長を含む第1の有限インパルス応答(FIR: finite impulse response)を適用し得、第2のノイズクリーニングアルゴリズムは、モノフォニッククリーンオーディオストリームを生成するために、ストリーミングマルチチャネルオーディオの各チャネルに対して、第2のフィルタ長を含む第2のFIRを適用し得る。ここで、第2のフィルタ長は、第1のフィルタ長よりも短い。

いくつかの例において、第1のプロセッサは、デジタル信号プロセッサを含み、第2のプロセッサは、システムオンチップ(SoC)プロセッサを含む。追加の例において、ユーザデバイスは、再充電可能な有限電源を含み、有限電源は、第1のプロセッサおよび第2のプロセッサに電力を供給する。

本開示の別の態様は、カスケードアーキテクチャにおけるノイズロバストなキーワードスポッティングのためのシステムを提供する。システムは、第1のプロセッサと第2のプロセッサとを含むデータ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを含む。メモリハードウェアは、データ処理ハードウェアによって実行される場合、ユーザデバイスの第1のプロセッサにおいて、第1のプロセッサと通信するマイクロフォンのアレイによってキャプチャされたストリーミングマルチチャネルオーディオを受信する動作であって、ストリーミングマルチチャネルオーディオの各チャネルが、マイクロフォンのアレイ内の個別の専用マイクロフォンによってキャプチャされたそれぞれのオーディオ特徴を含む、動作を含む動作をデータ処理ハードウェアに実行させる命令を記憶する。方法は、ストリーミングマルチチャネルオーディオにおいて第1段階のホットワード検出器によってホットワードが検出されたかどうかを判断するために、第1のプロセッサによって、第1段階のホットワード検出器を使用して、ストリーミングマルチチャネルオーディオの少なくとも1つのチャネルのそれぞれのオーディオ特徴を処理するステップも含む。動作は、第1段階のホットワード検出器が、ストリーミングマルチチャネルオーディオにおいてホットワードを検出する場合、第1のプロセッサによって、刻まれたマルチチャネル生オーディオデータを第2のプロセッサに提供する動作をさらに含み、刻まれたマルチチャネル生オーディオデータの各チャネルは、ストリーミングマルチチャネルオーディオのそれぞれのチャネルに対応し、ストリーミングマルチチャネルオーディオのそれぞれのチャネルから刻まれたそれぞれの生オーディオデータを含む。動作は、クリーンなモノフォニックオーディオチョンプを生成するために、第2のプロセッサによって、第1のノイズクリーニングアルゴリズムを使用して、刻まれたマルチチャネル生オーディオデータの各チャネルを処理する動作と、クリーンなモノフォニックオーディオチョンプにおいて第2段階のホットワード検出器によってホットワードが検出されたかどうかを判断するために、第2段階のホットワード検出器を使用して、クリーンなモノフォニックオーディオチョンプを処理する動作とをさらに含む。クリーンなモノフォニックオーディオチョンプにおいて、第2段階のホットワード検出器によってホットワードが検出される場合、第2のプロセッサによって、ストリーミングマルチチャネルオーディオ内のホットワードおよび/またはホットワードに続く1つもしくは複数の他の用語を処理するためにユーザデバイスに対するウェイクアッププロセスを開始する。

本開示の実装形態は、以下のオプションの特徴のうちの1つまたは複数を含み得る。いくつかの実装形態において、刻まれたマルチチャネル生オーディオデータの各チャネルのそれぞれの生オーディオデータは、ストリーミングマルチチャネルオーディオにおいて第1段階のホットワード検出器によって検出されたホットワードを特徴付けるオーディオセグメントを含む。これらの実装形態において、刻まれたマルチチャネル生オーディオデータの各チャネルのそれぞれの生オーディオデータは、第1段階のホットワード検出器がストリーミングマルチチャネルオーディオデにおいてホットワードを検出した時点の直前のオーディオの持続時間を含むプレフィックスセグメントをさらに含む。

いくつかの例において、ストリーミングマルチチャネルオーディオが第1のプロセッサにおいて受信され、ストリーミングマルチチャネルオーディオの少なくとも1つのチャネルのそれぞれのオーディオ特徴が第1のプロセッサによって処理される場合、第2のプロセッサは、スリープモードにおいて動作する。これらの例において、刻まれたマルチチャネルオーディオ生データの第2のプロセッサへの提供は、第2のプロセッサをスリープモードからホットワード検出モードに移行させるように起動する。ホットワード検出モードにある間、第2のプロセッサは、第1のノイズクリーニングアルゴリズムと第2段階のホットワード検出器とを実行し得る。

いくつかの実装形態において、動作は、第2のプロセッサによって、クリーンなモノフォニックオーディオチョンプを並行して処理しながら、第2段階のホットワード検出器を使用して、それぞれの生オーディオデータにおいて第2段階のホットワード検出器によってホットワードが検出されたかどうかを判断するために、刻まれたマルチチャネル生オーディオデータの1つのチャネルのそれぞれの生オーディオデータを処理する動作をさらに含む。クリーンなモノフォニックオーディオチョンプまたはそれぞれの生オーディオデータにおいて、第2段階のホットワード検出器によってホットワードが検出される場合、動作は、第2のプロセッサによって、ストリーミングマルチチャネルオーディオ内のホットワードおよび/またはホットワードに続く1つもしくは複数の他の用語を処理するためにユーザデバイスに対するウェイクアッププロセスを開始する動作を含む。これらの実装形態において、動作は、クリーンなモノフォニックオーディオチョンプまたはそれぞれの生オーディオデータのいずれか一方においてホットワードが第2段階のホットワード検出器によって検出されない場合、第2のプロセッサによって、ユーザデバイスに対するウェイクアッププロセスの開始を防止する動作をさらに含み得る。

いくつかの例において、ストリーミングマルチチャネルオーディオにおいて第1段階のホットワード検出器によってホットワードが検出されたかどうかを判断するために、ストリーミングマルチチャネルオーディオの少なくとも1つのチャネルのそれぞれのオーディオ特徴を処理する動作は、ストリーミングマルチチャネルオーディオの少なくとも1つのチャネルのそれぞれのオーディオ特徴を、それぞれのオーディオ特徴からノイズをキャンセルすることなく処理する動作を含む。いくつかの実装形態において、動作は、マルチチャネル相互相関行列を生成するために、第1のプロセッサによって、ストリーミングマルチチャネルオーディオの各チャネルのそれぞれのオーディオ特徴を処理する動作をさらに含む。
第1段階のホットワード検出器がストリーミングマルチチャネルオーディオにおいてホットワードを検出する場合、動作は、ストリーミングマルチチャネルオーディオの各チャネルについて、第1のプロセッサによって、マルチチャネル相互相関行列を使用して、ストリーミングマルチチャネルオーディオのそれぞれのチャネルのそれぞれのオーディオ特徴からそれぞれの生オーディオデータをチョンプし、第1のプロセッサによって、マルチチャネル相互相関行列を第2のプロセッサに提供する動作をさらに含む。これらの実装形態において、クリーンなモノフォニックオーディオチョンプを生成するために、刻まれたマルチチャネル生オーディオデータの各チャネルを処理する動作は、第1のプロセッサから提供されたマルチチャネル相互相関行列を使用して、第1のノイズクリーニングアルゴリズムのためのクリーナフィルタ係数を計算する動作と、クリーンなモノフォニックオーディオチョンプを生成するために、計算されたクリーナフィルタ係数を有する第1のノイズクリーニングアルゴリズムによって、第1のプロセッサによって提供される、刻まれたマルチチャネル生オーディオデータの各チャネルを処理する動作とを含む。これらの実装形態において、ストリーミングマルチチャネルオーディオにおいて第1段階のホットワード検出器によってホットワードが検出されたかどうかを判断するために、ストリーミングマルチチャネルオーディオの少なくとも1つのチャネルのそれぞれのオーディオ特徴を処理する動作は、マルチチャネル相互相関行列を使用して、第1のプロセッサにおいて実行される第2のノイズクリーニングアルゴリズムのためのクリーナ係数を計算し、一方、モノフォニッククリーンオーディオストリームを生成するために、計算されたフィルタ係数を有する第2のノイズクリーニングアルゴリズムによって、ストリーミングマルチチャネルオーディオの各チャネルを処理する動作を含む。これらの実装形態において、動作は、ストリーミングマルチチャネルオーディオにおいて第1段階のホットワード検出器によってホットワードが検出されたかどうかを判断するために、第1段階のホットワード検出器を使用して、モノフォニッククリーンオーディオストリームを処理する動作をさらに含む。第1のノイズクリーニングアルゴリズムは、刻まれたモノフォニッククリーンオーディオデータを生成するために、刻まれたマルチチャネル生オーディオデータの各チャネルに対して、第1のフィルタ長を含む第1の有限インパルス応答(FIR)を適用し得、第2のノイズクリーニングアルゴリズムは、モノフォニッククリーンオーディオストリームを生成するために、ストリーミングマルチチャネルオーディオの各チャネルに対して、第2のフィルタ長を含む第2のFIRを適用し得る。ここで、第2のフィルタ長は、第1のフィルタ長よりも短い。

本開示の1つまたは複数の実装形態の詳細は、添付図面および以下の説明において記載されている。他の態様、特徴、および利点は、説明および図面から、ならびに特許請求の範囲から明らかになるであろう。

ノイズロバストなキーワードスポッティングのためのカスケードホットワード検出アーキテクチャを含む例示的なシステムの概略図である。例示的なカスケードホットワード検出アーキテクチャの概略図である。例示的なカスケードホットワード検出アーキテクチャの概略図である。例示的なカスケードホットワード検出アーキテクチャの概略図である。図2Bおよび図2Cのカスケード検出アーキテクチャのためのクリーナタスク分割の概略図である。ノイズロバストなカスケードホットワード検出アーキテクチャを使用してストリーミングマルチチャネルオーディオにおいてホットワードを検出する方法のための動作の例示的な配置のフローチャートである。本明細書で説明するシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイスの概略図である。

様々な図面における同様の参照符号は、同様の要素を示す。

音声対応デバイス(たとえば、音声アシスタントを実行するユーザデバイス)は、ユーザが、クエリまたはコマンドを声に出して話し、クエリを処理して対応し、および/またはコマンドに基づいて機能を実行することを可能にする。音声対応デバイスに対して注意を喚起するために発話される所定の用語/フレーズが合意によって予約されている「ホットワード」(「キーワード」、「注意ワード」、「ウェイクアップフレーズ/ワード」、「トリガフレーズ」、「起動(invocation)フレーズ」、または「音声アクション開始コマンド」とも呼ばれる)の使用を通じて、音声対応デバイスは、システムに向けられた発話(すなわち、発話内のホットワードに続く1つまたは複数の用語を処理するためにウェイクアッププロセスを開始する)と、環境内の個人に向けられた発話とを区別することができる。典型的には、音声対応デバイスは、バッテリ電力を節約するためにスリープ状態で動作し、入力オーディオデータが発話されたホットワードに続かない限り、入力オーディオデータを処理しない。たとえば、スリープ状態にある間、音声対応デバイスは、複数のマイクロフォンを介してストリーミング入力オーディオをキャプチャし、入力オーディオ内のホットワードの存在を検出するようにトレーニングされたホットワード検出器を使用する。ホットワードが入力オーディオにおいて検出される場合、音声対応デバイスは、入力オーディオ内のホットワードおよび/またはホットワードに続く任意の他の用語を処理するためにウェイクアッププロセスを開始する。

ホットワード検出は、ストリーミングオーディオを継続的に聞き、ストリーミングオーディオにおいてホットワードの存在が検出されたときに正確かつ瞬時にトリガする必要があるので、干し草の山の中の針を探すことに類似している。言い換えれば、ホットワード検出器は、ホットワードの存在が検出されない限り、ストリーミングオーディオを無視する仕事を課される。連続するオーディオのストリーム内のホットワードの存在を検出する複雑さに対処するために、ホットワード検出器によってニューラルネットワークが一般的に用いられる。

ユーザデバイス(たとえば、コンピューティングデバイス)、およびより具体的には、再充電可能な有限電源(たとえば、バッテリ)によって電力を供給される、スマートフォン、タブレット、スマートウォッチ、およびヘッドフォンなどのモバイルユーザデバイスは、典型的には、制限されたバッテリ寿命と、制限された計算能力とを有する組み込み型システムである。すなわち、バッテリ駆動デバイスが音声対応アプリケーション(たとえば、デジタルアシスタント)へのアクセスを提供する場合、デバイスが音声対応アプリケーションを起動するためのホットワード信号を検出するためにオーディオデータおよび/または他のデータを絶えず処理するタスクを課せられる場合、エネルギーリソースがさらに制限される可能性がある。バッテリ駆動音声対応ユーザデバイスがデバイスシステムオンチップ(SoC: system on a chip)(たとえば、アプリケーションプロセッサ(AP: application processor)を含む構成において、ユーザが音声を介してユーザデバイスと対話している場合、デバイスSoCは、他のサブシステム(たとえば、ネットワークプロセッサ、デジタル信号プロセッサ(DSP)など)と比較してかなりの割合のエネルギーを消費する可能性がある。

音声対応ユーザデバイスの設計目標の1つは、ホットワードを正確に検出するためのノイズロバスト性を取得することである。2つ以上のマイクロフォンを含むユーザデバイスについて、改善された信号対ノイズ比(SNR: signal-to-noise ratio)を有するモノフォニックオーディオストリームを生成するために、統計的音声強調アルゴリズムがマルチマイクロフォンのノイズ信号に作用し得る。そのため、2つ以上のマイクロフォンを含むユーザデバイスは、SNRを改善し、したがってノイズ環境におけるホットワード検出精度を改善するために、統計的音声強調アルゴリズムを用いるホットワードクリーナアルゴリズムを使用し得る。一般に、ユーザデバイスは、クリーンなモノフォニックオーディオストリームを取得するためにホットワードクリーナアルゴリズムを使用し、同じモデルを使用する2つのブランチにおいて、しかし、2つの異なる入力、すなわち、生のマイクロフォン信号およびクリーンなモノフォニックオーディオストリームに対して独立してホットワード検出を実行する並列ホットワード検出アーキテクチャを用いる。ホットワードが検出されたかどうかを示す、2つのブランチによって行われる2値のyes/noの決定が、論理和演算と組み合わされる。ホットワードクリーナアルゴリズムを、並列ホットワード検出アーキテクチャと組み合わせて使用することは、クリーンな音響環境とノイズの多い音響環境の両方において犠牲にならないホットワード検出精度をもたらすが、並列ホットワード検出は、バッテリ寿命を急速に消耗する増加した電力消費を必要とする大きい計算負荷を使用するので、並列ホットワード検出アーキテクチャは、典型的には、バッテリ駆動デバイス(たとえば、モバイルデバイス)における使用に適していない。

バッテリ駆動ユーザデバイスによって用いられるホットワード検出器は、ホットワードをある程度の精度で検出するだけでなく、低レイテンシ、小さいメモリフットプリント、および軽い計算負荷という相反する目的も達成しなければならないホットワード検出アルゴリズムを実装しなければならない。これらの目的を達成するために、ユーザデバイスは、第1段階のホットワード検出器と第2段階のホットワード検出器の2つのホットワード検出器を含むカスケードホットワード検出アーキテクチャを用い得る。ここで、第1段階のホットワード検出器は、専用DSP(たとえば、第1のプロセッサ)上に存在し、小さいモデルサイズを含み、ホットワード候補のために入力オーディオストリームを粗くスクリーニングするための計算効率が高い。第1段階のホットワード検出器による入力オーディオストリーム内のホットワード候補の検出は、DSPが、ホットワードを安全に含むのに適切な期間のオーディオデータの小さいバッファ/チョンプを、デバイスSoCにおいて常駐/実行される第2段階のホットワード検出器に渡す/提供することをトリガする。次いで、デバイスSoC(たとえば、メインAP)上の第2段階のホットワード検出器は、より大きいモデルサイズを含み、ホットワードのより正確な検出を提供するための第1段階のホットワード検出器よりも多くの計算出力を提供し、したがって、入力オーディオストリームが実際にホットワードを含むかどうかを判断するための最終的な調停者として機能する。このカスケードアーキテクチャは、DSP上で動作/実行される第1段階のホットワード検出器がストリーミング入力オーディオ内の候補ホットワードを検出するまで、より多くの電力を消費するデバイスSoCが、バッテリ寿命を確保するためにスリープモードにおいて動作することを可能にする。候補ホットワードが検出されたときにのみ、DSPは、スリープモードから、第2段階のホットワード検出器を実行するためのホットワード検出モードに移行するようにデバイスSoCをトリガする。2つ以上のマイクロフォンを有するユーザデバイス上に存在するこれらの従来のホットワード検出カスケードアーキテクチャは、ホットワード検出精度を向上させるためのノイズロバスト性(たとえば、適応ノイズキャンセル)を得るために、2つ以上のマイクロフォンからのストリーミングマルチチャネルオーディオ入力を活用しない。

本明細書における実装形態は、音声対応ユーザデバイスにおけるホットワード検出のためのカスケードアーキテクチャにホットワードクリーニングアルゴリズムを組み込むことに向けられている。いくつかの例において、音声対応ユーザデバイスは、制限されたバッテリ寿命と制限された計算能力とによって制約されるバッテリ駆動ユーザデバイス(たとえば、モバイルデバイス)である。明らかになるように、クリーナによるホットワード検出のための作業負荷を、ユーザデバイスのDSP(すなわち、第1のプロセッサ)およびユーザデバイスのアプリケーションプロセッサ(AP)(すなわち、第2のプロセッサ)に分割して割り当てることによって、電力消費と、レイテンシと、ノイズロバスト性とを共同して最適化するための様々なアーキテクチャが開示される。

図1を参照すると、いくつかの実装形態において、例示的なシステム100は、それぞれのユーザ10に関連付けられた1つまたは複数のユーザデバイス102を含む。1つまたは複数のデバイス102の各々は、携帯電話、コンピュータ、ウェアラブルデバイス、スマート家電、オーディオインフォテインメントシステム、スマートスピーカなどのコンピューティングデバイスに対応し得、メモリハードウェア105と、第1のプロセッサ110(たとえば、デジタル信号プロセッサ(DSP))と第2のプロセッサ120(たとえば、アプリケーションプロセッサ(AP))とを集合的に含むデータ処理ハードウェアとを備える。第1のプロセッサ110は、第2のプロセッサが動作中に消費するよりも少ない電力を動作中に消費する。本明細書で使用される場合、第1のプロセッサ110は、DSPと交換可能に呼ばれる場合があり、第2のプロセッサ120は、「AP」または「デバイスSoC」と交換可能に呼ばれる場合がある。第1および第2のプロセッサ110、120は、電力消費、レイテンシ、およびノイズロバスト性を最適化する方法で、ストリーミングマルチチャネルオーディオ118内のホットワードの存在を協調的に検出するために、第1段階のホットワード検出器210が第1のプロセッサ110上で実行され、第2段階のホットワード検出器220が第2のプロセッサ120上で実行されるカスケードホットワード検出アーキテクチャ200を提供する。マルチチャネルストリーミングオーディオ118は、オーディオの2つ以上のチャネル119、119a～nを含む。

一般に、第1段階のホットワード検出器210は、専用DSP110上に存在し、第2段階のホットワード検出器220に関連するモデルよりも小さいモデルサイズを含み、ホットワード候補について入力ストリーミングマルチチャネルオーディオ118を粗くスクリーニングするための計算効率が高い。したがって、専用DSP110(たとえば、第1のプロセッサ)は、第1段階のホットワード検出器210がマルチチャネルオーディオ118内のホットワード候補について粗くスクリーニングするために常に実行されているように「常時オン」であり得るが、メインAP120(たとえば、第2のプロセッサ)を含むユーザデバイス102の他のすべての構成要素は、バッテリ寿命を節約するためにスリープ状態/モードにある。一方、第2段階のホットワード検出器220は、メインAP120上に存在し、より大きいモデルサイズを含み、第1段階のホットワード検出器210によって最初に検出されたホットワードのより正確な検出を提供するために、第1段階のホットワード検出器210よりも多くの計算出力を提供する。したがって、第2段階のホットワード検出器220は、オーディオ118内にホットワードが存在するかどうかを判断する際により厳格であり得る。DSP110が「常時オン」である間、より多くの電力を消費するメインAP120は、DSP110における第1段階のホットワード検出器210がストリーミングマルチチャネルオーディオ118内の候補ホットワードを検出するまで、バッテリ寿命を確保するために、スリープモードにおいて動作する。したがって、候補ホットワードが検出されたときにのみ、DSP110は、スリープモードから、第2段階のホットワード検出器220を実行するためのホットワード検出モードに移行するようにメインAPをトリガする。

図示の例において、ユーザ10がホットワード(たとえば「Hey Google」)を含む発話104を話すと、発話104は、ユーザデバイス102によってマルチチャネルストリーミングオーディオ118としてキャプチャされる。ユーザデバイス102上に存在するカスケードホットワード検出アーキテクチャ200は、発話104内のホットワードおよび/またはホットワードに続く1つもしくは複数の用語(たとえば、クエリまたはコマンド)を処理するためにユーザデバイス102におけるウェイクアッププロセスを開始/トリガするために、発話104内のホットワードの存在を検出するように構成される。たとえば、ウェイクアッププロセスは、ユーザデバイス102がホットワードおよび/もしくはホットワードに続く1つもしくは複数の用語を認識する(たとえば、文字起こしする)ための自動音声認識(ASR: automatic speech recognition)システムをローカルで実行することを含むことができ、またはウェイクアッププロセスは、ユーザデバイス102が、ホットワードおよび/もしくは1つもしくは複数の他の用語を含むオーディオデータを、オーディオデータに対して音声認識を実行するためのASRシステムを含むリモートコンピューティングデバイス(たとえば、サーバまたはクラウドコンピューティング環境)に送信することを含むことができる。

1つまたは複数のユーザデバイス102は、ユーザ10からの発話104をキャプチャするために、2つ以上のマイクロフォン107、107a～nを含み得る(またはそれらと通信し得る)。各マイクロフォン107は、発話104をマルチチャネルストリーミングオーディオ118の個別の専用チャネル119上に個別に記録し得る。たとえば、ユーザデバイス102は、各々が発話104を記録する2つのマイクロフォン107を含み得、2つのマイクロフォンからの記録は、2チャネルストリーミングオーディオ118(すなわち、ステレオオーディオまたはステレオ)に結合され得る。いくつかの例において、ユーザデバイス102は、3つ以上のマイクロフォンを含む。すなわち、3つ以上のマイクロフォンがユーザデバイス102上に存在する。追加的または代替的に、ユーザデバイス102は、ユーザデバイス102から分離した/リモートの2つ以上のマイクロフォンと通信し得る。たとえば、ユーザデバイスは、車両内に配置され、車両の2つ以上のマイクロフォンと有線またはワイヤレス通信(たとえば、Bluetooth)するモバイルデバイスであり得る。いくつかの構成において、ユーザデバイス102は、別個のデバイス上に存在する少なくとも1つのマイクロフォン107と通信する。これらの構成において、ユーザデバイス102はまた、ユーザデバイス102上に存在する1つまたは複数のマイクロフォン107と通信し得る。

マルチチャネルストリーミングオーディオ118を受信する場合、常時オンのDSP110は、ストリーミングマルチチャネルオーディオ118の少なくとも1つのチャネル119のそれぞれのオーディオ特徴においてホットワードが検出されたかどうかを判断するために、第1段階のホットワード検出器210を実行/動作する。いくつかの例において、第1段階のホットワード検出器210は、ストリーミングマルチチャネルオーディオ118の単一のチャネル119からのそれぞれのオーディオ特徴におけるホットワードの存在を示す確率スコアを計算する。いくつかの例において、それぞれのオーディオ特徴の確率スコアがホットワードしきい値を満たすという判断(たとえば、確率スコアがホットワードしきい値以上である場合)は、ホットワードがストリーミングマルチチャネルオーディオ118内に存在することを示す。特に、AP120は、マルチチャネルオーディオがDSP110において受信され、DSP110がストリーミングマルチチャネルオーディオ118の少なくとも1つのチャネル119のそれぞれのオーディオ特徴を処理する間、スリープモードにおいて動作し得る。いくつかの例において、DSP110によるそれぞれのオーディオ特徴の「処理」は、モノフォニッククリーンオーディオストリーム225を生成するために、ストリーミングマルチチャネルオーディオ118の各チャネル119のそれぞれのオーディオ特徴を処理するクリーナ250を実行することと、次いで、候補ホットワードがモノフォニッククリーンオーディオストリーム255において検出されるかどうかを判断するために、第1段階のホットワード検出器210を実行/動作することとを含む。以下でより詳細に説明するように、クリーナ250は、マルチチャネルのノイズの多いオーディオに適応ノイズキャンセルを提供するために、ノイズクリーニングアルゴリズムを用いる。他の例において、DSP110によるそれぞれのオーディオ特徴の「処理」は、クリーナ250の使用を省略し、単に、それぞれのオーディオ特徴からノイズをキャンセルすることなく、ストリーミングマルチチャネルオーディオ118の1つのチャネル119のそれぞれのオーディオ特徴を処理することを含む。これらの例において、それぞれのオーディオ特徴が処理されるチャネル119は、任意に選択され得る。

第1段階のホットワード検出器210がストリーミングマルチチャネルオーディオ118内のホットワードを検出する場合、DSP110は、刻まれたマルチチャネル生オーディオデータ212、212a～nをAP120に提供する。いくつかの例において、刻まれたマルチチャネル生オーディオデータ212をAP120に提供するDSP110は、スリープモードからホットワード検出モードに移行するようにAP120をトリガ/起動する。オプションで、DSP110は、スリープモードからホットワード検出モードに移行するようにAP120をトリガ/起動する別の信号または命令を提供し得る。刻まれたマルチチャネル生オーディオデータ212a～nの各チャネルは、ストリーミングマルチチャネルオーディオ118のそれぞれのチャネル119a～nに対応し、ストリーミングマルチチャネルオーディオ118のそれぞれのチャネル119のそれぞれのオーディオ特徴から刻まれた生オーディオデータを含む。いくつかの実装形態において、刻まれたマルチチャネル生オーディオデータ212の各チャネルは、ストリーミングマルチチャネルオーディオ118において第1段階のホットワード検出器210によって検出されたホットワードを特徴付けるオーディオセグメントを含む。すなわち、刻まれたマルチチャネル生オーディオデータ212の各チャネルに関連するオーディオセグメントは、検出されたホットワードを安全に含むのに十分な持続時間を含む。それに加えて、刻まれたマルチチャネル生オーディオデータ212の各チャネルは、第1段階のホットワード検出器210がストリーミングマルチチャネルオーディオ118においてホットワードを検出した時点の直前のオーディオの持続時間を含むプレフィックスセグメント214を含む。刻まれたマルチチャネル生オーディオデータ212に関する各チャネルの一部は、検出されたホットワードを含むオーディオセグメント213に続くオーディオの持続時間を含むサフィックスセグメントも含み得る。

ホットワード検出モードにおいて動作する場合、AP120は、ホットワード検出精度を向上させるためのノイズロバスト性(たとえば、適応ノイズキャンセル)を得るために、2つ以上のマイクロフォン107から入力されたストリーミングマルチチャネルオーディオ118を活用するために、クリーナ250を実行/動作する。具体的には、クリーナ250は、クリーンなモノフォニックオーディオチョンプ260を生成するために、刻まれたマルチチャネル生オーディオデータ212の各チャネルを処理するためにAP120が使用する第1のノイズクリーニングアルゴリズムを含む。重要なことに、クリーナ250は、適応ノイズキャンセルを十分に適用するために、刻まれたマルチチャネル生オーディオデータ212の各チャネルが、検出されたホットワードの直前のバッファリングされたオーディオサンプルのプレフィックスセグメント214を含むことを必要とする。プレフィックスセグメント214の長さは、アーキテクチャがクリーナ250を含まない場合の構成よりも、クリーナ250が用いられる場合により長くする必要がある。たとえば、プレフィックスセグメント214の長さは、クリーナなしでは約2秒を必要とするだけである。一般に、より長いプレフィックスセグメント214(たとえば、バッファリングされたオーディオサンプルのより長い持続時間)は、クリーナ250の性能を向上させるが、同時に、第2段階のホットワード検出器220が、ホットワードのリアルタイム検出に追いつくために、プレフィックスセグメント214を最終的に処理するので、レイテンシも増加させる。したがって、カスケードホットワード検出アーキテクチャ200は、レイテンシとクリーナ性能とのバランスをとるプレフィックスセグメント214の長さを選択し得る。次に、AP120は、ホットワードがクリーンなモノフォニックオーディオチョンプ260内に存在するかどうかを判断するために、クリーンなモノフォニックオーディオチョンプ260を処理するために第2段階のホットワード検出器220を実行する。

ホットワードが第2段階のホットワード検出器220によって検出される場合、AP120は、ストリーミングマルチチャネルオーディオ118内のホットワードおよび/またはホットワードに続く1つもしくは複数の他の用語を処理するためにユーザデバイス102に対するウェイクアッププロセスを開始する。第1段階のホットワード検出器210と同様に、第2段階のホットワード検出器220は、それぞれのクリーンなモノフォニックオーディオチョンプ260またはそれぞれの生オーディオデータ212に関連する確率スコアが確率スコアしきい値を満たす場合にホットワードの存在を検出し得る。第2段階のホットワード検出器220によって使用される確率スコアしきい値の値は、第1段階のホットワード検出器210によって使用される確率スコアしきい値の値と同じであっても異なっていてもよい。

上述のように、DSP110は、第1段階のホットワード検出器210のホットワード検出精度を向上させるためのノイズロバスト性(たとえば、適応ノイズキャンセル)を得るために、第1段階のホットワード検出器210を実行する前に第2のノイズクリーニングアルゴリズムを実行するクリーナ250を用い得る。第1および第2のノイズクリーニングアルゴリズムのためのフィルタモデルは、同じであり得るが、DSP110がAP120の計算能力よりも低い計算応力を含むので、第2のノイズクリーニングアルゴリズムは、より短い長さ(たとえば、より少ないフィルタリングパラメータ)を含み得る。したがって、DSP110によって用いられるクリーナ250は、AP120によって用いられるクリーナと比較して、いくらかの性能(たとえば、信号帯ノイズ比(SNR)性能)を犠牲にするが、第1段階のホットワード検出器210の精度を改善するために十分なノイズロバスト性を依然として提供する。

AP120は、ホットワードが第2段階のホットワード検出器220によって検出されかどうかを判断するために、刻まれたマルチチャネル生オーディオデータ212の1つのチャネルのそれぞれの生オーディオデータ212aを処理することと並行して、クリーンなモノフォニックオーディオチョンプ260を処理し得る。第2段階のホットワード検出器220が、クリーンなモノフォニックオーディオチョンプ260またはそれぞれの生オーディオデータ212aのいずれかにおいてホットワードを検出する場合、APは、ストリーミングマルチチャネルオーディオ118内のホットワードおよび/またはホットワードに続く1つもしくは複数の他の用語を処理するために、ユーザデバイス102に対するウェイクアッププロセスを開始/トリガする。第2段階のホットワード検出器220が、クリーンなモノフォニックオーディオチョンプ260またはそれぞれの生オーディオデータ212aのいずれにおいてもホットワードを検出しない場合、AP120は、ユーザデバイス102に対するウェイクアッププロセスを防止する。ウェイクアッププロセスは、ユーザデバイス102がホットワードおよび/もしくは1つもしくは複数の他の用語に対してローカルで音声認識を実行することを含み得、またはウェイクアッププロセスは、ユーザデバイス102が、ホットワードおよび/もしくは1つもしくは複数の他の用語に対して音声認識を実行するために、ホットワードおよび/もしくは1つもしくは複数の他の用語を含むオーディオデータをリモートサーバに送信することを含み得る。いくつかの例において、ユーザデバイス102は、ホットワードが存在することを検証するために、AP120によって検出されたホットワードを含むオーディオデータをリモートサーバに送信し、したがって、第3段階のホットワード検出器として機能し得る。

図2A～図2Cは、話された発話104におけるホットワードの存在を検出するための、図1のユーザデバイス102上に存在し得るカスケードホットワード検出アーキテクチャ200、200a～cの例を示す。図2Aを参照すると、例示的なカスケードアーキテクチャ200aは、第1段階のホットワード検出器210がいかなるノイズクリーニングアルゴリズムからも利益を得ないように、第2段階のホットワード検出器220によって使用するためのAP120上に存在する単一のクリーナ250、250aのみを含む。

図示の例において、簡略化のために、ストリーミングマルチチャネルオーディオ118は、2つのマイクロフォン107のアレイ内の個別の専用マイクロフォン107a～bによってキャプチャされたそれぞれのオーディオ特徴を各々が含む2つのチャネル119a、119bを含む。しかしながら、ストリーミングマルチチャネルオーディオ118は、本開示の範囲から逸脱することなく、3つ以上のチャネルを含むことができる。

図2Aは、第1段階のホットワード検出器210とオーディオチョンパ(chomper)215とを含む/実行する常時オンのDSP110(たとえば、第1のプロセッサ)を示す。第1段階のホットワード検出器210は、入力として、ストリーミングマルチチャネルオーディオ118の単一のチャネル119aからのオーディオ特徴のみを受信し、第1段階のホットワード検出器210によって受信されるチャネル119aは、任意であり得る。ここで、DSP110は、ストリーミングマルチチャネルオーディオ118において第1段階のホットワード検出器210によってホットワードが検出されたかどうかを判断するために、チャネル119aのそれぞれのオーディオ特徴を処理するために、第1段階のホットワード検出器210を使用/実行する。第1段階のホットワード検出器210は、ストリーミングマルチチャネルオーディオ118の単一のチャネル119aからのそれぞれのオーディオ特徴におけるホットワードの存在を示す確率スコアを計算し得る。いくつかの例において、それぞれのオーディオ特徴の確率スコアがホットワードしきい値を満たすという判断(たとえば、確率スコアがホットワードしきい値以上である場合)は、ホットワードがストリーミングマルチチャネルオーディオ118内に存在することを示す。

第1段階のホットワード検出器210が、ストリーミングマルチチャネルオーディオ118内(たとえば、第1のチャネル119a内)のホットワードを検出する場合、DSP110は、刻まれたマルチチャネル生オーディオデータ212、212a～bを生成し、AP120に提供するようにオーディオチョンパ215をトリガ/始動する。ここで、刻まれたマルチチャネル生オーディオデータ212の各チャネルは、ストリーミングマルチチャネルオーディオ118のそれぞれのチャネル119a～bに対応し、第1段階のホットワード検出器210によって検出されたホットワードを含むそれぞれのチャネル119a～bから刻まれたそれぞれの生オーディオデータを含む。刻まれたマルチチャネル生オーディオデータ212のDSP110からAP120への提供は、AP120をスリープモードからホットワード検出モードに移行するように起動し、ホットワード検出モードにおいて、AP120は、クリーナエンジン250aおよび第2段階のホットワード検出器220において第1のノイズクリーニングアルゴリズムを実行する。特に、図2Aのカスケードホットワード検出アーキテクチャ200aにおいて、DSP110は、ストリーミングマルチチャネルオーディオ118に対してノイズクリーニングアルゴリズムを用いず、したがって、第1段階のホットワード検出器210は、ホットワードの存在が単一のチャネル119aのノイズの多いそれぞれのオーディオ特徴において検出されたかどうかを判断する際に、適応ノイズキャンセルから利益を得ない。言い換えれば、ストリーミングマルチチャネルオーディオ118の1つのチャネル119aのそれぞれのオーディオを処理することは、それぞれのオーディオ特徴からノイズをキャンセルすることなく生じる。

図2Aのカスケードホットワード検出アーキテクチャ200aにおいて、クリーナ250全体が、クリーナエンジン250aとしてAP220上で実行され、クリーナエンジン250aは、クリーンなモノフォニックオーディオチョンプ260を生成するために、刻まれたマルチチャネル生オーディオデータ212の各チャネルを処理するために、第1のノイズクリーニングアルゴリズムを使用する。以下で図3を参照してより詳細に説明するように、クリーナエンジン250aによって実行されるクリーニング動作は、比較的計算が複雑であり、刻まれたマルチチャネル生オーディオデータ212a、212bの各チャネルが、クリーニングアルゴリズムが適用されていない場合のチョンプにおけるプレフィックスセグメントの持続時間よりも長い持続時間のプレフィックスセグメント214を含むことを必要とする。たとえば、生オーディオデータチョンプのみが第2段階のホットワード検出器220に渡されるように、クリーニングアルゴリズムがAP120において適用されていない場合、各チョンプのプレフィックスセグメント214は、約2秒の持続時間を含み得る。しかしながら、クリーニングエンジン250aが、刻まれたマルチチャネル生オーディオデータ212の各チャネルを処理するために用いられる場合、クリーニングエンジン250aは、クリーンなモノフォニックオーディオチョンプ260を生成するための有効なノイズキャンセルフィルタを推定するために、ノイズのみを含む、ホットワードの前のオーディオの持続時間を確認する必要がある。したがって、クリーニングエンジン250aの性能(たとえば、SNR)は、検出されたホットワードを含むオーディオセグメント213の前のノイズの多いオーディオを含むプレフィックスセグメント214の持続時間が長いほど向上する。しかしながら、より長いプレフィックスセグメント214は、クリーニングエンジン250aおよび第2段階のホットワード検出器220がマルチチャネル生オーディオデータ212内のより長いプレフィックスセグメント214を処理しなければならないので、増加したレイテンシコストを結果として生じる。この増加したレイテンシは、第2段階のホットワード検出器220が、オーディオセグメント213内に含まれるホットワードのリアルタイム検出に追いつくために、より長いプレフィックスセグメント214を処理する必要があるためである。一例において、DSPにおけるオーディオチョンパ215は、クリーナ性能とレイテンシとのバランスを取るために、約3.5秒に等しい持続時間/長さを有するプレフィックスセグメント214を生成する。刻まれたマルチチャネル生オーディオデータ212に関する各チャネルの一部は、検出されたホットワードを含むオーディオセグメント213に続くオーディオの持続時間を含むサフィックスセグメントも含み得る。

ホットワード検出モードにある間、AP120上で実行される第2段階のホットワード検出器220は、ホットワードがクリーンなモノフォニックオーディオチョンプ260において検出されたかどうかを判断するために、クリーナエンジン250aから出力されたクリーンなモノフォニックオーディオチョンプ260を処理するように構成される。いくつかの例において、第2段階のホットワード検出器220は、同じモデルを使用する2つのブランチ220a、220bにおいて、しかし、2つの異なる入力、すなわち、刻まれたマルチチャネル生オーディオデータ212の1つのチャネルのそれぞれの生オーディオデータ212a、およびクリーンなモノフォニックオーディオチョンプ260に対して独立してホットワード検出を実行する並列ホットワード検出アーキテクチャに対応する。第2段階のホットワード検出器220の第2のブランチ220bへの入力として提供されるそれぞれの生オーディオデータ212aに関連するチャネルは、任意であり得る。したがって、AP120は、第2段階のホットワード検出器220の第2のブランチ220bにおいて、刻まれたマルチチャネル生オーディオデータ212の1つのチャネルのそれぞれの生オーディオデータ212aを処理することと並行して、第2段階のホットワード検出器220の第1のブランチ220aにおいて、クリーンなモノフォニックオーディオチョンプ260を処理し得る。図示の例において、論理和270演算が、(たとえば、第1のブランチ220aにおいて)クリーンなモノフォニックオーディオチョンプ260または(たとえば、第2のブランチ220bにおいて)それぞれの生オーディオデータ212aのいずれかにおいて、第2段階のホットワード検出器220によってホットワードが検出されたことを示す場合、AP120は、ストリーミングマルチチャネルオーディオ118内のホットワードおよび/またはホットワードに続く1つもしくは複数の他の用語を処理するためにユーザデバイスに102に対するウェイクアッププロセスを開始する。第1段階のホットワード検出器210と同様に、第2段階のホットワード検出器220は、それぞれのクリーンなモノフォニックオーディオチョンプ260またはそれぞれの生オーディオデータ212に関連する確率スコアが確率スコアしきい値を満たす場合にホットワードの存在を検出し得る。第2段階のホットワード検出器220によって使用される確率スコアしきい値は、第1段階のホットワード検出器210によって使用される確率スコアしきい値と同じまたは異なる値であり得る。

DSP110によって提供された刻まれたマルチチャネル生オーディオデータ212の各チャネルのプレフィックスセグメント214の長さを最小化し、したがって、クリーンなモノフォニックオーディオチョンプ260を生成するために、刻まれたマルチチャネル生オーディオデータ212の各チャネルを処理する際のクリーナエンジン250aのレイテンシを低減するために、図2Bの例示的なカスケードホットワードアーキテクチャ200bは、DSP110が、マルチマイクロフォン相互相関行列254を更新およびバッファリングするタスクを課せられたクリーナフロントエンド252を実行することを含む。明らかになるように、クリーナフロントエンド252は、オーディオチョンパ215において刻む前に、ストリーミングマルチチャネル生オーディオデータ212から音響特徴を抽出し、それによって、マルチチャネルフルバンド相互相関行列またはマルチチャネルサブバンドコヒーレンス行列と同様に、オーディオが刻まれる時点まで、クリーナエンジン250aによって使用するためにこれらの抽出された音響特徴を追跡するように構成される。ここで、各マルチマイクロフォン相互相関行列254は、ストリーミングマルチチャネルオーディオ118のそれぞれのオーディオ特徴間のノイズキャンセルに対応する。図2Aのカスケードホットワード検出アーキテクチャ200aとは対照的に、AP120におけるクリーナエンジン250aは、もはやマルチマイクロフォン相互相関行列254を計算/生成するタスクを課せられず、したがって、第1段階のホットワード検出器がストリーミングマルチチャネルオーディオ118においてホットワードを検出した時点の直前のオーディオのより短い持続時間を含むプレフィックスセグメント214を有する刻まれたマルチチャネル生オーディオデータ212を処理することができる。たとえば、プレフィックスセグメント114の長さは、3.5秒未満であり得る。レイテンシは、AP120が、より短い持続時間のプレフィックスセグメント214を有する生オーディオデータ212を処理することを可能にすることによって、本質的に改善される。図示の例において、簡略化のために、ストリーミングマルチチャネルオーディオ118は、2つのマイクロフォン107のアレイ内の個別の専用マイクロフォン107a～bによってキャプチャされたそれぞれのオーディオ特徴を各々が含む2つのチャネル119a、119bを含む。しかしながら、ストリーミングマルチチャネルオーディオ118は、本開示の範囲から逸脱することなく、3つ以上のチャネルを含むことができる。

図2Bは、第1段階のホットワード検出器210と、オーディオチョンパ215と、クリーナフロントエンド253とを含む/実行する常時オンのDSP110(たとえば、第1のプロセッサ)を示す。第1段階のホットワード検出器210は、入力として、ストリーミングマルチチャネルオーディオ118の単一のチャネル119aからのオーディオ特徴のみを受信し、オーディオ特徴のチャネル119aは、任意であり得る。ここで、DSP110は、ストリーミングマルチチャネルオーディオ118において第1段階のホットワード検出器210によってホットワードが検出されたかどうかを判断するために、オーディオ特徴を処理するために、第1段階のホットワード検出器210を使用/実行する。同時に、オーディオチョンパ215およびクリーナフロントエンド252は、クリーナフロントエンド252が、ストリーミングマルチチャネルオーディオ118の各チャネル119a、119bのそれぞれのオーディオ特徴間のノイズキャンセルの計算に関連するマルチチャネル相互相関行列254を生成するように、ストリーミングマルチチャネルオーディオ118の各チャネル119a、119bのそれぞれのオーディオ特徴を受信する。より具体的には、クリーナフロントエンド252は、ストリーミングマルチチャネルオーディオ118が受信される場合、マルチチャネル相互相関行列254を連続的に計算/更新し、バッファリングする。クリーナフロントエンド252は、マルチチャネル相互相関行列254をユーザデバイス102のメモリハードウェア105(図1)内にバッファリングし得る。

図3は、AP120がホットワード検出モードにある場合に、常時オンのDSP110において実行されるクリーナフロントエンド252と、AP120において実行されるクリーナエンジン250aとによって実行される例示的なクリーニングサブタスクを示す概略図300を示す。クリーナフロントエンド252は、ストリーミングマルチチャネルオーディオ118の各チャネルのそれぞれのオーディオ特徴をSTFTスペクトルに変換するように各々が構成された短時間フーリエ変換(STFT: Short-time Fourier transform)モジュール310、310a～bを含み得、それによって、変換されたそれぞれのオーディオ特徴は、クリーナフロントエンド252における行列コンピュータ320と、クリーナエンジン250aにおけるクリーン化STFTスペクトルコンピュータ330とに入力として提供される。

クリーナフロントエンド252における行列コンピュータ320は、各チャネル119a、119bにおける変換されたそれぞれのオーディオ特徴に基づいて、マルチチャネル相互相関行列254を連続的に計算/更新し、バッファリングするように構成される。行列コンピュータ320は、行列254を行列バッファ305内にバッファリングし得る。行列バッファ305は、DSP110と通信し、ユーザデバイス102のメモリハードウェア105(図1)上に存在し得る。第1段階のホットワード検出器210が、AP120をスリープモードからホットワード検出モードに移行させるようにトリガ/起動するホットワードを検出する場合、DSP110は、バッファ内に記憶されたマルチチャネル相互相関行列254をAP120におけるクリーナエンジン250aに渡し得る。より具体的には、クリーナエンジン250aは、DSP110から受信したマルチチャネル相互相関行列254に基づいて、第1のノイズクリーニングアルゴリズムのためのクリーナフィルタ係数342を計算するように構成されたクリーナフィルタ係数コンピュータ340を含む。ここで、クリーン化STFTスペクトルコンピュータ330は、計算されたクリーナフィルタ係数342を有する第1のノイズクリーニングアルゴリズムを実行するノイズキャンセルフィルタに対応し、これによって、クリーン化STFTスペクトルコンピュータ330のSTFT出力332は、クリーンなモノフォニックオーディオチョンプ260を生成するためにSTFT逆モジュール334によって変換される。いくつかの例において、クリーン化STFTスペクトルコンピュータ330は、有限インパルス応答(FIR)フィルタを含む。

図2Bに戻って参照すると、第1段階のホットワード検出器210は、ストリーミングマルチチャネルオーディオ118の単一のチャネル119aからのそれぞれのオーディオ特徴におけるホットワードの存在を示す確率スコアを計算し得る。いくつかの例において、それぞれのオーディオ特徴の確率スコアがホットワードしきい値を満たすという判断(たとえば、確率スコアがホットワードしきい値以上である場合)は、ホットワードがストリーミングマルチチャネルオーディオ118内に存在することを示す。いくつかの実施形態において、第1段階のホットワード検出器210がストリーミングマルチチャネルオーディオ118においてホットワードを検出する場合、DSP110は、ストリーミングマルチチャネルオーディオ118のそれぞれのチャネル119a、119bのそれぞれのオーディオ特徴からそれぞれの生オーディオデータ212a、212bを刻むために、クリーナフロントエンド252によって生成され、バッファ305内に記憶されたマルチチャネル相互相関行列254を使用するようにオーディオチョンパ215をトリガ/始動する。したがって、オーディオチョンパ215は、刻まれたマルチチャネル生オーディオデータ212をAP120におけるクリーナエンジン250aに提供する。ここで、刻まれたマルチチャネル生オーディオデータ212のDSP110からAP120への提供は、スリープモードからホットワード検出モードに移行するようにAP120を起動/トリガし得、ホットワード検出モードにおいて、AP120は、第1のノイズクリーニングアルゴリズム250aと第2段階のホットワード検出器220とを実行する。

第1段階のホットワード検出器210によるホットワード検出の検出はまた、DSP110に、クリーナフロントエンド252にマルチチャネル相互相関行列254をAP120のクリーナエンジン250aに提供するように命令させる。ここで、クリーナエンジン250aは、第1のノイズクリーニングアルゴリズムのためのクリーナフィルタ係数342を計算するために、マルチチャネル相互相関行列254を使用する。その後、クリーナエンジン250aは、クリーンなモノフォニックオーディオチョンプ260を生成するために、オーディオチョンパ215から提供された刻まれたマルチチャネルオーディオデータ212の各チャネルを処理するために、計算されたクリーナ係数342を有する第1のノイズクリーニングアルゴリズムを実行する。

ホットワード検出モードにある間、AP120上で実行される第2段階のホットワード検出器220は、ホットワードがクリーンなモノフォニックオーディオチョンプ260において検出されたかどうかを判断するために、クリーンなモノフォニックオーディオチョンプ260を処理するように構成される。いくつかの例において、第2段階のホットワード検出器220は、同じモデルを使用する2つのブランチ220a、220bにおいて、しかし、2つの異なる入力、すなわち、刻まれたマルチチャネル生オーディオデータ212の1つのチャネルのそれぞれの生オーディオデータ212a、およびクリーンなモノフォニックオーディオチョンプ260に対して独立してホットワード検出を実行する並列ホットワード検出アーキテクチャに対応する。第2段階のホットワード検出器220の第2のブランチ220bへの入力として提供されるそれぞれの生オーディオデータ212aに関連するチャネルは、任意であり得る。したがって、AP120は、第2段階のホットワード検出器220の第2のブランチ220bにおいて、刻まれたマルチチャネル生オーディオデータ212の1つのチャネルのそれぞれの生オーディオデータ212aを処理することと並行して、第2段階のホットワード検出器220の第1のブランチ220aにおいて、クリーンなモノフォニックオーディオチョンプ260を処理し得る。図示の例において、論理和270演算が、(たとえば、第1のブランチ220aにおいて)クリーンなモノフォニックオーディオチョンプ260または(たとえば、第2のブランチ220bにおいて)それぞれの生オーディオデータ212aのいずれかにおいて、第2段階のホットワード検出器220によってホットワードが検出されたことを示す場合、AP120は、ストリーミングマルチチャネルオーディオ118内のホットワードおよび/またはホットワードに続く1つもしくは複数の他の用語を処理するためにユーザデバイスに102に対するウェイクアッププロセスを開始する。第1段階のホットワード検出器210と同様に、第2段階のホットワード検出器220は、それぞれのクリーンなモノフォニックオーディオチョンプ260またはそれぞれの生オーディオデータ212に関連する確率スコアが確率スコアしきい値を満たす場合にホットワードの存在を検出し得る。第2段階のホットワード検出器220によって使用される確率スコアしきい値は、第1段階のホットワード検出器210によって使用される確率スコアしきい値と同じまたは異なる値であり得る。

一般に、ホットワード検出性能は、誤受入率(FAR: false accept rate)(たとえば、ホットワードを誤って検出する)と、誤拒否率(FRR: false reject rate)(たとえば、現在のホットワードを検出できない)の2つのエラー率によって測定される。したがって、ホットワードは、第1段階のホットワード検出器210と第2段階のホットワード検出器220の両方がホットワードを検出した場合にのみ、カスケードホットワード検出アーキテクチャ200のいずれかによって識別され得る。したがって、カスケードホットワード検出アーキテクチャ200a、200bの全体的なFARは、第1段階のホットワード検出器210および第2段階のホットワード検出器220のFARのいずれよりも低い。それに加えて、カスケードホットワード検出アーキテクチャ200a、200bの全体的なFRRは、第1段階のホットワード検出器210のFRRおよび第2段階のホットワード検出器220のFRRのいずれよりも高い。たとえば、第1段階のホットワード検出器210のFRRを低く保つ場合、全体的なFRRは、第2段階のホットワード検出器220のFRRとほぼ同じになる。いくつかの例において、第1段階のホットワード検出器210のFARは、AP120による電力消費を軽減するために第2段階のホットワード検出器220が頻繁にトリガされないように、妥当な値に設定される。しかしながら、図2Aおよび図2Bのカスケードホットワードアーキテクチャ200a、200bにおいて、第1段階のホットワード検出器210は、クリーナ250から利益を得ず、したがって、第1段階のホットワード検出器210のFARがより高い値に調整された場合であっても、ノイズの多い環境におけるそれらのFRRは、高くなる。したがって、図2A～図2Cのカスケードホットワードアーキテクチャ200a、200bは、DSP110において軽量クリーナ250b(たとえば、クリーナライト)を用いる図2Cのカスケードホットワード検出アーキテクチャ200cよりも低い性能を経験する。

クリーンな環境とノイズの多い環境の両方において、小さいフットプリントと、低レイテンシと、最大化された精度との間の最適なバランスを達成するために、図2Cの例示的なカスケードホットワード検出アーキテクチャ200cは、候補ホットワードがモノフォニッククリーンオーディオストリーム255において検出されたかどうかを判断するために第1段階のホットワード検出器210を実行/動作する前に、ストリーミングマルチチャネルオーディオ118の各チャネル119のそれぞれのオーディオ特徴を処理し、モノフォニッククリーンオーディオストリーム255を生成するために第2のノイズクリーニングアルゴリズムを実行する第1段階のクリーナ250b(たとえば、クリーナ-ライト)をDSP110が用いることを含む。言い換えれば、DSP110に用いられるクリーナ-ライト250bは、第1段階のホットワード検出器210に入力される、結果として生じるモノフォニッククリーンオーディオストリーム255が、図2Aおよび図2Bのアーキテクチャ200a、200bにおける検出器210に入力される、単一のチャネル119のそれぞれの生オーディオ特徴と比較して改善されたSNRを含むように、適応ノイズキャンセルをストリーミングマルチチャネルオーディオ118に提供するために、第2のノイズクリーニングアルゴリズムを実行する。したがって、第1段階のホットワード検出器210のホットワード検出精度は、第1段階のホットワード検出器210が、単一のチャネルの生オーディオ特徴においてホットワード候補について粗くスクリーニングすることとは対照的に、ホットワード候補についてモノフォニッククリーンオーディオストリーム255を粗くスクリーニングすることができる場合、向上する。

第1および第2のノイズクリーニングアルゴリズムのためのフィルタモデルは、同じであるか、または代替的に、実質的に同様であり得るが、DSP110は、AP120の計算能力よりも低い計算能力を含むので、DSP110におけるクリーナ-ライト250b上で実行される第2のノイズクリーニングアルゴリズムは、AP120におけるクリーナエンジン250a上で実行される第1のノイズクリーニングアルゴリズムよりも短い長さ(たとえば、より少ないフィルタリングパラメータ)を含み得る。たとえば、第1のノイズクリーニングアルゴリズムは、クリーンなモノフォニックオーディオチョンプ260を生成するために、刻まれたマルチチャネル生オーディオデータ212の各チャネルに対して第1の有限インパルス応答(FIR)を適用し得、第2のノイズクリーニングアルゴリズムは、モノフォニッククリーンオーディオストリーム255を生成するために、ストリーミングマルチチャネルオーディオ118の各チャネル119に対して第2のFIRを適用し得る。この例において、クリーナエンジン250aにおける第1のFIRは、第1のフィルタ長を含み得、クリーナ-ライト250bにおける第2のFIRは、第1のフィルタ長よりも短い第2のフィル長を含み得る。したがって、DSP110によって用いられるクリーナ-ライト250bは、AP120によって用いられるクリーナエンジン250aと比較していくつかの性能(たとえば、信号対ノイズ比(SNR)性能)を犠牲にするが、第1段階のホットワード検出器210の精度を改善するために十分なノイズロバスト性を依然として提供する。

図2Cは、クリーナ-ライト250(たとえば、クリーナ)と、第1段階のホットワード検出器210と、オーディオチョンパ215と、クリーナフロントエンド252とを含む/実行する常時オンのDSP110(たとえば、第1のプロセッサ)を示す。クリーナ-ライト250bは、入力として、ストリーミングマルチチャネルオーディオ118のチャネル119a、119bの両方のそれぞれのオーディオ特徴を受信し、ストリーミングマルチチャネルオーディオ118の各チャネル119a、119bからモノフォニッククリーンオーディオストリーム255を生成するために、第2のノイズクリーニングアルゴリズムを実行する。モノフォニッククリーンオーディオストリーム255を生成する場合、DSP110は、モノフォニッククリーンオーディオストリーム255において第1段階のホットワード検出器210によってホットワードが検出されたかどうかを判断するために、モノフォニッククリーンオーディオストリーム255を処理するために、第1段階のホットワード検出器210を使用/実行する。オプションで、かつDSP110が計算上の制限によって制約されないことを条件として、第1段階のホットワード検出器210は、同じモデルを使用する2つのブランチにおいて、しかし、2つの異なる入力、すなわち、ストリーミングマルチチャネルオーディオ118の1つのチャネル119aのそれぞれの生オーディオ特徴、およびモノフォニッククリーンオーディオストリーム255に対して独立してホットワード検出を実行する並列ホットワード検出アーキテクチャに対応し得る。このオプションの構成において、第1段階のホットワード検出器210の2つのホットワード検出ブランチのいずれかにおいてホットワードが検出される場合、ホットワードがストリーミングマルチチャネルオーディオ118内に存在することを判断するために、論理および/または演算が使用され得る。

クリーナ-ライト250bが第2のノイズキャンセルアルゴリズムを実行しているのと同時に、オーディオチョンパ215およびクリーナフロントエンド252は、クリーナフロントエンド252が、ストリーミングマルチチャネルオーディオ118の各チャネル119a、119bのそれぞれのオーディオ特徴間のノイズキャンセルの計算に関連するマルチチャネル相互相関行列254を生成するように、ストリーミングマルチチャネルオーディオ118の各チャネル119a、119bのそれぞれのオーディオ特徴を受信する。より具体的には、また図2Bおよび図3を参照して上記で論じたように、クリーナフロントエンド252は、ストリーミングマルチチャネルオーディオ118が受信される場合、マルチチャネル相互相関行列254を連続的に計算/更新し、バッファリングする。クリーナフロントエンド252は、図3を参照して上記で論じたように、マルチチャネル相互相関行列254をユーザデバイス102のメモリハードウェア105(図1)内にバッファリングし得る。

第1段階のホットワード検出器210は、ストリーミングマルチチャネルオーディオ118のモノフォニッククリーンオーディオストリーム255におけるホットワードの存在を示す確率スコアを計算し得る。いくつかの例において、モノフォニッククリーンオーディオストリーム255の確率スコアがホットワードしきい値を満たすという判断(たとえば、確率スコアがホットワードしきい値以上である場合)は、ホットワードがストリーミングマルチチャネルオーディオ118内に存在することを示す。いくつかの実施形態において、第1段階のホットワード検出器210がストリーミングマルチチャネルオーディオ118においてホットワードを検出する場合、DSP110は、ストリーミングマルチチャネルオーディオ118のそれぞれのチャネル119a、119bのそれぞれのオーディオ特徴からそれぞれの生オーディオデータ212a、212bを刻むために、クリーナフロントエンド252によって生成され、バッファ305(図3)内に記憶されたマルチチャネル相互相関行列254を使用するようにオーディオチョンパ215をトリガ/始動する。したがって、オーディオチョンパ215は、刻まれたマルチチャネル生オーディオデータ212をAP120におけるクリーナエンジン250aに提供する。ここで、刻まれたマルチチャネル生オーディオデータ212のDSP110からAP120への提供は、スリープモードからホットワード検出モードに移行するようにAP120を起動/トリガし得、ホットワード検出モードにおいて、AP120は、クリーナエンジン250a上の第1のノイズクリーニングアルゴリズムと、第2段階のホットワード検出器220とを実行する。

第1段階のホットワード検出器210によるホットワード検出の検出はまた、DSP110に、クリーナフロントエンド252にマルチチャネル相互相関行列254をAP120のクリーナエンジン250aに提供するように命令させる。ここで、クリーナエンジン250aは、第1のノイズクリーニングアルゴリズムのためのクリーナフィルタ係数を計算するために、マルチチャネル相互相関行列254を使用する。その後、クリーナエンジン250aは、クリーンなモノフォニックオーディオチョンプ260を生成するために、オーディオチョンパ215から提供された刻まれたマルチチャネルオーディオデータ212の各チャネルを処理するために、計算されたクリーナ係数を有する第1のノイズクリーニングアルゴリズムを実行する。

いくつかの例において、第2段階のホットワード検出器220は、マルチチャネル入力内のホットワードを検出するようにトレーニングされたマルチチャネルホットワードモデルを利用する。これらの例において、第2段階のホットワード検出器220bは、すべての刻まれたマルチチャネル生オーディオデータ212を取り込み、刻まれたマルチチャネル生オーディオデータ212においてホットワードが検出されたかどうかの決定を行うように構成される。同様に、これらの例において、クリーナエンジン250aは、第2段階のホットワード検出器220の第1のブランチ220aにおけるマルチチャネルホットワードモデルがクリーンなマルチチャネルオーディオチョンプ260を取り込むように、クリーンなモノフォニックオーディオチョンプ260をマルチチャネル出力に複製するように適合され得る。マルチチャネル出力を生成する代わりに、クリーナエンジン250aは、代わりに、クリーンなマルチチャネルオーディオチョンプ260を生成するために、刻まれたマルチチャネル生オーディオデータ212全体を取り込むように適合され得る。マルチチャネルホットワードモデルは、その内容が参照によりその全体において組み込まれる、2020年1月15日に出願した国際特許出願PCT/US20/13705において開示されているように、3次元(3D)単一値分解フィルタ(SVDF: single value decomposition filter)入力層と、順次スタックされたSVDF層とを有する記憶ニューラルネットワーク(memorized neural network)を含み得る。他の例において、第2段階のホットワード検出器220は、生のマルチチャネル生オーディオデータ212とクリーンなマルチチャネルオーディオチョンプ260の両方においてホットワードを検出するようにトレーニングされたマルチチャネルホットワードモデルを利用する。

図4は、ノイズロバストなカスケードホットワード検出アーキテクチャ200を使用してストリーミングマルチチャネルオーディオ118においてホットワードを検出する方法400のための動作の例示的な配置のフローチャートである。動作402において、方法400は、ユーザデバイス102の第1のプロセッサ110において、第1のプロセッサ110と通信するマイクロフォン107のアレイによってキャプチャされたストリーミングマルチチャネルオーディオ118を受信するステップを含む。ここで、第1のプロセッサ110は、常時オンのDSPを含み得る。ストリーミングマルチチャネルオーディオの各チャネル119は、マイクロフォン107のアレイ内の個別の専用マイクロフォンによってキャプチャされたそれぞれのオーディオ特徴を含む。

動作404において、方法400は、第1のプロセッサ110によって、第1段階のホットワード検出器210を使用して、第1段階のホットワード検出器210によってホットワードが検出されたかどうかを判断するために、ストリーミングマルチチャネルオーディオ118の少なくとも1つのチャネルのそれぞれのオーディオ特徴を処理するステップを含む。第1段階のホットワード検出器210がストリーミングマルチチャネルオーディオ118内のホットワードを検出する場合、方法400は、動作406において、第1のプロセッサ110によって、刻まれたマルチチャネル生オーディオデータ212をユーザデバイス102の第2のプロセッサに提供するステップを含む。刻まれたマルチチャネル生オーディオデータ212の各チャネルは、ストリーミングマルチチャネルオーディオ118のそれぞれのチャネル119に対応し、ストリーミングマルチチャネルオーディオ118のそれぞれのチャネル119から刻まれたそれぞれの生オーディオデータを含む。第2のプロセッサ120は、APなどのデバイスSoCを含み得る。第1段階のホットワード検出器210においてホットワードを検出する前に、第2のプロセッサ120は、電力と計算リソースとを節約するためにスリープモードにおいて動作していてもよい。第1段階のホットワード検出器210においてホットワードを検出する場合、第1のプロセッサ110は、スリープモードからホットワード検出モードに移行するように第2のプロセッサ120をトリガ/起動する。第1のプロセッサ110から第2のプロセッサ120への刻まれたマルチチャネル生オーディオデータ212の受け渡しは、ホットワード検出モードに移行するように第2のプロセッサ120を起動/トリガするための基礎として機能し得る。したがって、第1のプロセッサ110は、第1段階のホットワード検出器210がストリーミングマルチチャネルオーディオ118においてホットワードを検出したときに、第2のプロセッサをスリープモードからホットワード検出モードに移行させるように構成される。ホットワードは、1つまたは複数の単語の所与の用語フレーズ、たとえば、「Hey Google」、および/またはアプリケーションを初期化するために使用され得る任意の他の用語/フレーズであり得る。ホットワードは、いくつかの構成において、カスタムホットワードであり得る。

動作408において、方法400は、第2のプロセッサ120によって、第1のノイズクリーニングアルゴリズム250を使用して、クリーンなモノフォニックオーディオチョンプ260を生成するために、刻まれたマルチチャネル生オーディオデータ212の各チャネルを処理するステップも含む。刻まれたマルチチャネル生オーディオデータ212の各チャネルは、検出されたホットワードと、検出されたホットワードの前のノイズの多いオーディオの持続時間を含むそれぞれのプレフィックスセグメント214とを含むそれぞれのオーディオセグメント213を含む。プレフィックスセグメント214は、第1のノイズクリーニングアルゴリズム250が、クリーンなモノフォニックオーディオチョンプ260を生成するために、検出されたホットワードに先行する十分なノイズの多いオーディオを処理するのに十分な持続時間を含む。より長い持続時間を有するプレフィックスセグメント214は、第1のノイズクリーニングアルゴリズムの性能を向上させるが、より長いプレフィックスセグメントは、レイテンシも等しく増加させる。したがって、マルチチャネル生オーディオデータ212の各チャネルのそれぞれのプレフィックスセグメント214は、クリーニング性能とレイテンシとを最適化する持続時間を含み得る。

動作410において、方法400は、第2のプロセッサ120によって、第2段階のホットワード検出器220を使用して、クリーンなモノフォニックオーディオチョンプ260において第2段階のホットワード検出器220によってホットワードが検出されたかどうかを判断するために、クリーンなモノフォニックオーディオチョンプ260を処理するステップを含む。動作412において、クリーンなモノフォニックオーディオチョンプ260において、第2段階のホットワード検出器220によってホットワードが検出される場合、方法400は、第2のプロセッサ120によって、ストリーミングマルチチャネルオーディオ118内のホットワードおよび/またはホットワードに続く1つもしくは複数の他の用語を処理するためにユーザデバイス102に対するウェイクアッププロセスを開始するステップも含む。

ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピュータデバイスにタスクを実行させるコンピュータソフトウェアを指す場合がある。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれる場合がある。例示的なアプリケーションは、限定はしないが、システム診断アプリケーション、システム管理アプリケーション、システムメンテナンスアプリケーション、ワード処理アプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲームアプリケーションを含む。

非一時的メモリは、コンピューティングデバイスによって使用するために、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を一時的または永続的に記憶するために使用される物理デバイスであり得る。非一時的メモリは、揮発性および/または不揮発性のアドレス可能な半導体メモリであり得る。不揮発性メモリの例は、限定はしないが、フラッシュメモリおよび読み取り専用メモリ(ROM)/プログラマブル読み取り専用メモリ(PROM)/消去可能なプログラマブル読み取り専用メモリ(EPROM)/電気的消去可能なプログラマブル読み取り専用メモリ(EEPROM)(たとえば、典型的には、ブートプログラムなどのファームウェアのために使用される)を含む。揮発性メモリの例は、限定はしないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディクスまたはテープを含む。

図5は、この文書で説明されているシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイス500の概略図である。コンピューティングデバイス500は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを意図している。ここに示されている構成要素、それらの接続および関係、ならびにそれらの機能は、例示のみであることを意図しており、この文書において説明および/または特許請求されている本発明の実装形態を限定することを意図していない。

コンピューティングデバイス500は、プロセッサ510と、メモリ520と、記憶デバイス530と、メモリ520および高速拡張ポート550に接続する高速インターフェース/コントローラ540と、低速バス570および記憶デバイス530に接続する低速インターフェース/コントローラ560とを含む。構成要素510、520、530、540、550、および560の各々は、様々なバスを使用して相互接続されており、共通のマザーボード上に、または必要に応じて他の方法で取り付けられ得る。プロセッサ510は、高速インターフェース540に結合されたディスプレイ580などの外部入力/出力デバイス上にグラフィカルユーザーインターフェース(GUI)のためのグラフィカル情報を表示するために、メモリ520内または記憶デバイス530上に記憶された命令を含む、コンピューティングデバイス500内で実行するための命令を処理することができる。他の実装形態において、複数のメモリおよびメモリのタイプとともに、必要に応じて、複数のプロセッサおよび/または複数のバスが使用され得る。また、(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)複数のコンピューティングデバイス500が接続され、各デバイスが必要な動作の一部を提供し得る。

メモリ520は、コンピューティングデバイス500内に情報を非一時的に記憶する。メモリ520は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであり得る。非一時的メモリ520は、コンピューティングデバイス500によって使用するために、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を一時的または永続的に記憶するために使用される物理デバイスであり得る。不揮発性メモリの例は、限定はしないが、フラッシュメモリおよび読み取り専用メモリ(ROM)/プログラマブル読み取り専用メモリ(PROM)/消去可能なプログラマブル読み取り専用メモリ(EPROM)/電気的消去可能なプログラマブル読み取り専用メモリ(EEPROM)(たとえば、典型的には、ブートプログラムなどのファームウェアのために使用される)を含む。揮発性メモリの例は、限定はしないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディクスまたはテープを含む。

記憶デバイス530は、コンピューティングデバイス500のための大容量ストレージを提供することができる。いくつかの実装形態において、記憶デバイス530は、コンピュータ可読媒体である。様々な異なる実装形態において、記憶デバイス530は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくは他の構成におけるデバイスを含むデバイスを含むデバイスのアレイであり得る。追加の実装形態において、コンピュータプログラム製品は、情報キャリア内に実態的に具体化される。コンピュータプログラム製品は、命令を含み、命令は、実行される場合、上記で説明されている方法などの1つまたは複数の方法を実行する。情報キャリアは、メモリ520、記憶デバイス530、またはプロセッサ510上のメモリなどの、コンピュータ可読媒体または機械可読媒体である。

高速コントローラ540は、コンピューティングデバイス500のための帯域幅を消費する動作を管理し、低速コントローラ560は、より帯域幅を消費しない動作を管理する。そのような役割の割り当ては、単なる例示である。いくつかの実装形態において、高速コントローラ540は、メモリ520、(たとえば、グラフィックスプロセッサまたはアクセラレータを介して)ディスプレイ580、および様々な拡張カード(図示せず)を受け入れ得る高速拡張ポート550に結合される。いくつかの実装形態において、低速コントローラ560は、記憶デバイス530および低速拡張ポート590に結合される。様々な通信ポート(たとえば、USB、Bluetooth、イーサネット、ワイヤレスイーサネット)を含み得る低速拡張ポート590は、キーボード、ポインティングデバイス、スキャナ、または、たとえば、ネットワークアダプタを介してスイッチもしくはルータなどのネットワーキングデバイスなどの、1つまたは複数の入力/出力デバイスに結合され得る。

コンピューティングデバイス500は、図に示されるように、いくつかの異なる形態において実装され得る。たとえば、コンピューティングデバイス500は、標準的なサーバ500aとして、もしくはサーバ500aのグループ内で複数回、ラップトップコンピュータ500bとして、またはラックサーバシステム500cの一部として実装され得る。

本明細書で説明されているシステムおよび技法の様々な実装形態は、デジタル電子回路および/もしくは光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに/またはそれらの組合せにおいて実現することができる。これらの様々な実装形態は、記憶装置、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、記憶装置、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスにデータおよび命令を送信するように結合された、専用または汎用であり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムにおける実装形態を含むことができる。

これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる)は、プログラマブルプロセッサのための機械語を含み、高級手続き型および/もしくはオブジェクト指向プログラム言語、ならびに/またはアセンブリ/機械語において実装することができる。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含む、プログラマブルプロセッサに機械命令および/またはデータを提供するために使用される任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置、および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD(Programmable Logic Device)))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

本明細書で説明されているプロセスおよび論理フローは、入力データに対して動作し、出力を生成することによって機能を実行するために1つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラマブルプロセッサによって実行され得る。プロセスおよび論理フローは、専用論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によっても実行され得る。コンピュータプログラムの実行に適したプロセッサは、例として、汎用および専用マイクロプロセッサの両方、ならびに任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。一般に、プロセッサは、読み取り専用メモリ、またはランダムアクセスメモリ、またはその両方から命令とデータとを受信する。コンピュータの本質的な要素は、命令を実行するためのプロセッサと、命令とデータとを記憶するための1つまたは複数のメモリデバイスである。一般に、コンピュータは、データを記憶するための1つまたは複数の大容量記憶デバイス、たとえば、磁気ディスク、光磁気ディスク、または光ディスクも含むか、またはそれらからデータを受信、もしくはそれらにデータを送信、もしくはその両方を行うように動作可能に結合される。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令とデータとを記憶するのに適したコンピュータ可読媒体は、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、たとえば、内部ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD ROMおよびDVD-ROMディスクを含む、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路によって補完され得、または専用論理回路の中に組み込まれ得る。

ユーザとの対話を提供するために、本開示の1つまたは複数の態様は、ユーザに情報を表示するための表示デバイス、たとえば、CRT(陰極線管)、LCD(液晶ディスプレイ)モニタ、またはタッチスクリーンと、オプションで、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、たとえば、マウスまたはトラックボールとを有するコンピュータ上に実装され得る。他の種類のデバイスも同様にユーザとの対話を提供するために使用され得、ユーザに提供されるフィードバックは、任意の形態の感覚的フィードバック、たとえば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックであり得、ユーザからの入力は、音響的入力、音声入力、または触覚的入力を含む任意の形態で受信され得る。それに加えて、コンピュータは、ユーザによって使用されるデバイスに文書を送信し、デバイスから文書を受信することによって、たとえば、ユーザのクライアントデバイス上のウェブブラウザから受信された要求に応答して、ウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。

いくつかの実装形態について説明されてきた。それにもかかわらず、本開示の要旨および範囲から逸脱することなく、様々な修正が行われ得ることが理解されよう。したがって、他の実装形態は、以下の特許請求の範囲内にある。

10 ユーザ
100 システム
102 ユーザデバイス
104 発話
105 メモリハードウェア
107、107a～n マイクロフォン
110 第1のプロセッサ、専用DSP、DSP
114 プレフィックスセグメント
118 ストリーミングマルチチャネルオーディオ、オーディオ、マルチチャネルストリーミングオーディオ、2チャネルストリーミングオーディオ
119、119a～n チャネル
120 第2のプロセッサ、メインAP、AP
200、200a～c カスケードホットワード検出アーキテクチャ、カスケードアーキテクチャ
200a カスケードホットワード検出アーキテクチャ、カスケードホットワードアーキテクチャ
200b カスケードホットワードアーキテクチャ、カスケードホットワード検出アーキテクチャ
200c カスケードホットワード検出アーキテクチャ
210 第1段階のホットワード検出器、検出器
212 ストリーミングマルチチャネル生オーディオデータ
212a、212b 生オーディオデータ
212、212a～n 刻まれたマルチチャネル生オーディオデータ
213 オーディオセグメント
214 プレフィックスセグメント
215 オーディオチョンパ
220 第2段階のホットワード検出器
220a ブランチ
220b ブランチ、第2段階のホットワード検出器
225 モノフォニッククリーンオーディオストリーム
250、250a クリーナ
250a クリーナエンジン
250b 軽量クリーナ、クリーナ-ライト
252 クリーナフロントエンド
254 マルチマイクロフォン相互相関行列、行列
255 モノフォニッククリーンオーディオストリーム
260 クリーンなモノフォニックオーディオチョンプ、クリーンなマルチチャネルオーディオチョンプ
270 論理和
300 概略図
305 行列バッファ
320 行列コンピュータ
330 クリーン化STFTスペクトルコンピュータ
332 STFT出力
334 STFT逆モジュール
340 クリーナフィルタ係数コンピュータ
342 クリーナフィルタ係数
500 コンピューティングデバイス
500a サーバ
500b ラップトップコンピュータ
500c ラックサーバシステム
510 プロセッサ
520 メモリ
530 記憶デバイス
540 高速インターフェース/コントローラ
550 高速拡張ポート
560 低速インターフェース/コントローラ
570 低速バス

Claims

ユーザデバイス(102)の第1のプロセッサ(110)において、前記第1のプロセッサ(110)と通信するマイクロフォン(107、107a～n)のアレイによってキャプチャされたストリーミングマルチチャネルオーディオ(118)を受信するステップであって、前記ストリーミングマルチチャネルオーディオ(118)の各チャネル(119、119a～n)が、前記マイクロフォン(107)のアレイ内の個別の専用マイクロフォン(107)によってキャプチャされたそれぞれのオーディオ特徴を含む、ステップと、
前記第1のプロセッサ(110)によって、第1段階のホットワード検出器(210)を使用して、前記ストリーミングマルチチャネルオーディオ(118)において前記第1段階のホットワード検出器(210)によってホットワードが検出されたかどうかを判断するために、前記ストリーミングマルチチャネルオーディオ(118)の少なくとも1つのチャネル(119)の前記それぞれのオーディオ特徴を処理するステップと、
前記第1段階のホットワード検出器(210)が前記ストリーミングマルチチャネルオーディオ(118)内の前記ホットワードを検出する場合、
前記第1のプロセッサ(110)によって、刻まれたマルチチャネル生オーディオデータ(212、212a～n)を前記ユーザデバイス(102)の第2のプロセッサ(120)に提供するステップであって、前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルが、前記ストリーミングマルチチャネルオーディオ(118)のそれぞれのチャネル(119)に対応し、前記ストリーミングマルチチャネルオーディオ(118)の前記それぞれのチャネル(119)から刻まれたそれぞれの生オーディオデータを含む、ステップと、
クリーンなモノフォニックオーディオチョンプ(260)を生成するために、前記第2のプロセッサ(120)によって、第1のノイズクリーニングアルゴリズム(250a)を使用して、前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルを処理するステップと、
前記クリーンなモノフォニックオーディオチョンプ(260)において、第2段階のホットワード検出器(220)によって前記ホットワードが検出されたかどうかを判断するために、前記第2のプロセッサ(120)によって、前記第2段階のホットワード検出器(220)を使用して、前記クリーンなモノフォニックオーディオチョンプ(260)を処理するステップと、
前記クリーンなモノフォニックオーディオチョンプ(260)において、前記第2段階のホットワード検出器(220)によって前記ホットワードが検出される場合、前記第2のプロセッサ(120)によって、前記ストリーミングマルチチャネルオーディオ(118)内の前記ホットワードおよび/または前記ホットワードに続く1つもしくは複数の他の用語を処理するために前記ユーザデバイス(102)に対するウェイクアッププロセスを開始するステップと
を含む、方法(400)。
前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルの前記それぞれの生オーディオデータ(212)が、前記ストリーミングマルチチャネルオーディオ(118)において前記第1段階のホットワード検出器(210)によって検出された前記ホットワードを特徴付けるオーディオセグメント(213)を含む、請求項1に記載の方法(400)。
前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルの前記それぞれの生オーディオデータ(212)が、前記第1段階のホットワード検出器(210)が前記ストリーミングマルチチャネルオーディオ(118)において前記ホットワードを検出した時点の直前のオーディオの持続時間を含むプレフィックスセグメント(214)をさらに含む、請求項2に記載の方法(400)。
前記ストリーミングマルチチャネルオーディオ(118)が前記第1のプロセッサ(110)において受信され、前記ストリーミングマルチチャネルオーディオ(118)の前記少なくとも1つのチャネル(119)の前記それぞれのオーディオ特徴が前記第1のプロセッサ(110)によって処理される場合、前記第2のプロセッサ(120)が、スリープモードにおいて動作し、
前記刻まれたマルチチャネルオーディオ生データ(212)を前記第2のプロセッサ(120)に提供するステップが、前記スリープモードからホットワード検出モードに移行するように前記第2のプロセッサを起動する、
請求項1から3のいずれか一項に記載の方法(400)。
前記ホットワード検出モードにある間、前記第2のプロセッサ(120)が、前記第1のノイズクリーニングアルゴリズム(250a)と前記第2段階のホットワード検出器(220)とを実行する、請求項4に記載の方法(400)。
前記第2のプロセッサ(120)によって、前記クリーンなモノフォニックオーディオチョンプ(260)を並行して処理しながら、前記第2段階のホットワード検出器(220)を使用して、前記それぞれの生オーディオデータ(212a)において前記第2段階のホットワード検出器(220)によって前記ホットワードが検出されたかどうかを判断するために、前記刻まれたマルチチャネル生オーディオデータ(212)の1つのチャネルの前記それぞれの生オーディオデータ(212a)を処理するステップと、
前記クリーンなモノフォニックオーディオチョンプ(260)または前記それぞれの生オーディオデータ(212a)のいずれか一方において、前記第2段階のホットワード検出器(220)によって前記ホットワードが検出される場合、前記第2のプロセッサ(120)によって、前記ストリーミングマルチチャネルオーディオ(118)内の前記ホットワードおよび/または前記ホットワードに続く1つもしくは複数の他の用語を処理するために前記ユーザデバイス(102)に対する前記ウェイクアッププロセスを開始するステップと
をさらに含む、請求項1から5のいずれか一項に記載の方法(400)。
前記クリーンなモノフォニックオーディオチョンプ(260)または前記それぞれの生オーディオデータ(212a)のいずれか一方において前記ホットワードが前記第2段階のホットワード検出器(220)によって検出されない場合、前記第2のプロセッサ(120)によって、前記ユーザデバイス(102)に対する前記ウェイクアッププロセスの開始を防止するステップをさらに含む、請求項6に記載の方法(400)。
前記ストリーミングマルチチャネルオーディオ(118)において前記第1段階のホットワード検出器(210)によって前記ホットワードが検出されたかどうかを判断するために、前記ストリーミングマルチチャネルオーディオ(118)の前記少なくとも1つのチャネル(119)の前記それぞれのオーディオ特徴を処理するステップが、前記ストリーミングマルチチャネルオーディオ(118)の1つのチャネル(119)の前記それぞれのオーディオ特徴を、前記それぞれのオーディオ特徴からノイズをキャンセルすることなく処理するステップを含む、請求項1から7のいずれか一項に記載の方法(400)。
マルチチャネル相互相関行列(254)を生成するために、前記第1のプロセッサ(110)によって、前記ストリーミングマルチチャネルオーディオ(118)の各チャネル(119)の前記それぞれのオーディオ特徴を処理するステップと、
前記第1段階のホットワード検出器(210)が前記ストリーミングマルチチャネルオーディオ(118)において前記ホットワードを検出する場合、
前記ストリーミングマルチチャネルオーディオ(118)の各チャネル(119)について、前記第1のプロセッサ(110)によって、前記マルチチャネル相互相関行列(254)を使用して、前記ストリーミングマルチチャネルオーディオ(118)の前記それぞれのチャネル(119)の前記それぞれのオーディオ特徴から前記それぞれの生オーディオデータ(212)を刻むステップと、
前記第1のプロセッサ(110)によって、前記マルチチャネル相互相関行列(254)を前記第2のプロセッサ(120)に提供するステップと
をさらに含み、
前記クリーンなモノフォニックオーディオチョンプ(260)を生成するために、前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルを処理するステップが、
前記第1のプロセッサ(110)から提供された前記マルチチャネル相互相関行列(254)を使用して、前記第1のノイズクリーニングアルゴリズム(250a)のためのクリーナフィルタ係数(342)を計算するステップと、
前記クリーンなモノフォニックオーディオチョンプ(260)を生成するために、前記計算されたクリーナフィルタ係数(342)を有する前記第1のノイズクリーニングアルゴリズム(250a)によって、前記第1のプロセッサ(110)によって提供される前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルを処理するステップと
を含む、請求項1から8のいずれか一項に記載の方法(400)。
前記ストリーミングマルチチャネルオーディオ(118)において前記第1段階のホットワード検出器(210)によって前記ホットワードが検出されたかどうかを判断するために、前記ストリーミングマルチチャネルオーディオ(118)の前記少なくとも1つのチャネル(119)の前記それぞれのオーディオ特徴を処理するステップが、
前記マルチチャネル相互相関行列(254)を使用して、前記第1のプロセッサ(110)において実行される第2のノイズクリーニングアルゴリズム(250b)のためのクリーナ係数を計算するステップと、
モノフォニッククリーンオーディオストリーム(255)を生成するために、前記計算されたフィルタ係数を有する前記第2のノイズクリーニングアルゴリズム(250b)によって、前記ストリーミングマルチチャネルオーディオ(118)の各チャネル(119)を処理するステップと、
前記ストリーミングマルチチャネルオーディオ(118)において前記第1段階のホットワード検出器(210)によって前記ホットワードが検出されたかどうかを判断するために、前記第1段階のホットワード検出器(210)を使用して、前記モノフォニッククリーンオーディオストリーム(255)を処理するステップと
を含む、請求項9に記載の方法(400)。
前記第1のノイズクリーニングアルゴリズム(250a)が、前記刻まれたモノフォニッククリーンオーディオデータ(260)を生成するために、前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルに対して、第1の有限インパルス応答(FIR)を適用し、前記第1のFIRが、第1のフィルタ長を含み、
前記第2のノイズクリーニングアルゴリズム(250b)が、前記モノフォニッククリーンオーディオストリーム(255)を生成するために、前記ストリーミングマルチチャネルオーディオ(118)の各チャネルに対して、第2のFIRを適用し、前記第2のFIRが、前記第1のフィルタ長よりも短い第2のフィルタ長を含む、
請求項10に記載の方法(400)。
前記第1のプロセッサ(110)が、デジタル信号プロセッサを備え、
前記第2のプロセッサ(120)が、システムオンチップ(SoC)プロセッサを備える、
請求項1から11のいずれか一項に記載の方法(400)。
前記ユーザデバイス(102)が、再充電可能な有限電源を備え、前記有限電源が、前記第1のプロセッサ(110)および前記第2のプロセッサ(120)に電力を供給する、請求項1から12のいずれか一項に記載の方法(400)。
ユーザデバイス(102)のデータ処理ハードウェア(103)であって、前記データ処理ハードウェア(103)が、第1のプロセッサ(110)と第2のプロセッサ(120)とを備える、データ処理ハードウェア(103)と、
前記ユーザデバイス(102)のメモリ処理ハードウェア(105)であって、前記メモリハードウェア(105)が、前記データ処理ハードウェア(103)と通信し、命令を記憶し、前記命令は、前記データ処理ハードウェア(103)上で実行される場合、前記データ処理ハードウェア(103)に、
前記第1のプロセッサ(110)において、前記第1のプロセッサ(110)と通信するマイクロフォン(107、107a～n)のアレイによってキャプチャされたストリーミングマルチチャネルオーディオ(118)を受信する動作であって、前記ストリーミングマルチチャネルオーディオ(118)の各チャネル(119、119a～n)が、前記マイクロフォン(107)のアレイ内の個別の専用マイクロフォン(107)によってキャプチャされたそれぞれのオーディオ特徴を含む、動作と、
前記第1のプロセッサ(110)によって、第1段階のホットワード検出器(210)を使用して、前記ストリーミングマルチチャネルオーディオ(118)において前記第1段階のホットワード検出器(210)によってホットワードが検出されたかどうかを判断するために、前記ストリーミングマルチチャネルオーディオ(118)の少なくとも1つのチャネル(119)の前記それぞれのオーディオ特徴を処理する動作と、
前記第1段階のホットワード検出器(210)が前記ストリーミングマルチチャネルオーディオ(118)内の前記ホットワードを検出する場合、
前記第1のプロセッサ(110)によって、刻まれたマルチチャネル生オーディオデータ(212、212a～n)を前記第2のプロセッサ(120)に提供する動作であって、前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルが、前記ストリーミングマルチチャネルオーディオ(118)のそれぞれのチャネル(119)に対応し、前記ストリーミングマルチチャネルオーディオ(118)の前記それぞれのチャネル(119)から刻まれたそれぞれの生オーディオデータを含む、動作と、
クリーンなモノフォニックオーディオチョンプ(260)を生成するために、前記第2のプロセッサ(120)によって、第1のノイズクリーニングアルゴリズム(250a)を使用して、前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルを処理する動作と、
前記クリーンなモノフォニックオーディオチョンプ(260)において第2段階のホットワード検出器(220)によって前記ホットワードが検出されたかどうかを判断するために、前記第2のプロセッサ(120)によって、前記第2段階のホットワード検出器(220)を使用して、前記クリーンなモノフォニックオーディオチョンプ(260)を処理する動作と、
前記クリーンなモノフォニックオーディオチョンプ(260)において、前記第2段階のホットワード検出器(220)によって前記ホットワードが検出される場合、前記第2のプロセッサ(120)によって、前記ストリーミングマルチチャネルオーディオ(118)内の前記ホットワードおよび/または前記ホットワードに続く1つもしくは複数の他の用語を処理するために前記ユーザデバイス(102)に対するウェイクアッププロセスを開始する動作と
を含む動作を実行させる、メモリ処理ハードウェア(105)と
を備える、システム(100)。
前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルの前記それぞれの生オーディオデータ(212)が、前記ストリーミングマルチチャネルオーディオ(118)において前記第1段階のホットワード検出器によって検出された前記ホットワードを特徴付けるオーディオセグメント(213)を含む、請求項14に記載のシステム(100)。
前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルの前記それぞれの生オーディオデータ(212)が、前記第1段階のホットワード検出器(210)が前記ストリーミングマルチチャネルオーディオ(110)において前記ホットワードを検出した時点の直前のオーディオの持続時間を含むプレフィックスセグメント(214)をさらに含む、請求項15に記載のシステム(100)。
前記ストリーミングマルチチャネルオーディオ(118)が前記第1のプロセッサ(110)において受信され、前記ストリーミングマルチチャネルオーディオ(118)の前記少なくとも1つのチャネル(119)の前記それぞれのオーディオ特徴が前記第1のプロセッサ(110)によって処理される場合、前記第2のプロセッサ(120)が、スリープモードにおいて動作し、
前記刻まれたマルチチャネルオーディオ生データ(212)を前記第2のプロセッサ(120)に提供するステップが、前記スリープモードからホットワード検出モードに移行するように前記第2のプロセッサ(120)を起動する、
請求項14から16のいずれか一項に記載のシステム(100)。
前記第2のプロセッサ(120)が、前記ホットワード検出モードにある間、前記第1のノイズクリーニングアルゴリズム(250a)と前記第2段階のホットワード検出器(220)とを実行する、請求項17に記載のシステム(100)。
前記動作が、
前記第2のプロセッサ(120)によって、前記クリーンなモノフォニックオーディオチョンプ(260)を並行して処理しながら、前記第2段階のホットワード検出器(220)を使用して、前記それぞれの生オーディオデータ(212a)において前記第2段階のホットワード検出器(220)によって前記ホットワードが検出されたかどうかを判断するために、前記刻まれたマルチチャネル生オーディオデータ(212)の1つのチャネルの前記それぞれの生オーディオデータ(212a)を処理する動作と、
前記クリーンなモノフォニックオーディオチョンプ(260)または前記それぞれの生オーディオデータ(212a)のいずれか一方において、前記第2段階のホットワード検出器(220)によって前記ホットワードが検出される場合、前記第2のプロセッサ(120)によって、前記ストリーミングマルチチャネルオーディオ(118)内の前記ホットワードおよび/または前記ホットワードに続く1つもしくは複数の他の用語を処理するために前記ユーザデバイス(102)に対する前記ウェイクアッププロセスを開始する動作と
をさらに含む、請求項14から18のいずれか一項に記載のシステム(100)。
前記動作が、前記クリーンなモノフォニックオーディオチョンプ(260)または前記それぞれの生オーディオデータ(212a)のいずれか一方において、前記第2段階のホットワード検出器(220)によって前記ホットワードが検出されない場合、前記第2のプロセッサ(120)によって、前記ユーザデバイス(102)に対する前記ウェイクアッププロセスの開始を防止する動作をさらに含む、請求項19に記載のシステム(100)。
前記ストリーミングマルチチャネルオーディオ(118)において前記第1段階のホットワード検出器(210)によって前記ホットワードが検出されたかどうかを判断するために、前記ストリーミングマルチチャネルオーディオ(118)の前記少なくとも1つのチャネル(119)の前記それぞれのオーディオ特徴を処理するステップが、前記ストリーミングマルチチャネルオーディオ(118)の1つのチャネル(119)の前記それぞれのオーディオ特徴を、前記それぞれのオーディオ特徴からノイズをキャンセルすることなく処理するステップを含む、請求項14に記載のシステム(100)。
前記動作が、
マルチチャネル相互相関行列(254)を生成するために、前記第1のプロセッサ(110)によって、前記ストリーミングマルチチャネルオーディオ(118)の各チャネル(119)の前記それぞれのオーディオ特徴を処理する動作と、
前記第1段階のホットワード検出器(210)が前記ストリーミングマルチチャネルオーディオ(118)において前記ホットワードを検出する場合、
前記ストリーミングマルチチャネルオーディオ(118)の各チャネル(119)について、前記第1のプロセッサ(110)によって、前記マルチチャネル相互相関行列(254)を使用して、前記ストリーミングマルチチャネルオーディオ(118)の前記それぞれのチャネル(119)の前記それぞれのオーディオ特徴から前記それぞれの生オーディオデータ(212)を刻む動作と、
前記第1のプロセッサ(110)によって、前記マルチチャネル相互相関行列(254)を前記第2のプロセッサ(120)に提供する動作と
をさらに含み、
前記クリーンなモノフォニックオーディオチョンプ(260)を生成するために、前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルを処理する動作が、
前記第1のプロセッサ(110)から提供された前記マルチチャネル相互相関行列(254)を使用して、前記第1のノイズクリーニングアルゴリズム(250a)のためのクリーナフィルタ係数(342)を計算する動作と、
前記クリーンなモノフォニックオーディオチョンプ(260)を生成するために、前記計算されたクリーナフィルタ係数(342)を有する前記第1のノイズクリーニングアルゴリズム(250a)によって、前記第1のプロセッサ(110)によって提供される前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルを処理する動作と
を含む、請求項14から21のいずれか一項に記載のシステム(100)。
前記ストリーミングマルチチャネルオーディオ(118)において前記第1段階のホットワード検出器(210)によって前記ホットワードが検出されたかどうかを判断するために、前記ストリーミングマルチチャネルオーディオ(118)の前記少なくとも1つのチャネル(119)の前記それぞれのオーディオ特徴(119)を処理する動作が、
前記マルチチャネル相互相関行列(254)を使用して、前記第1のプロセッサ(110)において実行される第2のノイズクリーニングアルゴリズム(250b)のためのクリーナ係数を計算する動作と、
モノフォニッククリーンオーディオストリーム(255)を生成するために、前記計算されたフィルタ係数を有する前記第2のノイズクリーニングアルゴリズム(250b)によって、前記ストリーミングマルチチャネルオーディオ(118)の各チャネル(119)を処理する動作と、
前記ストリーミングマルチチャネルオーディオ(118)において前記第1段階のホットワード検出器(210)によって前記ホットワードが検出されたかどうかを判断するために、前記第1段階のホットワード検出器(210)を使用して、前記モノフォニッククリーンオーディオストリーム(255)を処理する動作と
を含む、請求項22に記載のシステム(100)。
前記第1のノイズクリーニングアルゴリズム(250a)が、前記刻まれたモノフォニッククリーンオーディオデータ(260)を生成するために、前記刻まれたマルチチャネル生オーディオデータ(212)の各チャネルに対して、第1の有限インパルス応答(FIR)を適用し、前記第1のFIRが、第1のフィルタ長を含み、
前記第2のノイズクリーニングアルゴリズム(250b)が、前記モノフォニッククリーンオーディオストリーム(255)を生成するために、前記ストリーミングマルチチャネルオーディオ(118)の各チャネル(119)に対して、第2のFIRを適用し、前記第2のFIRが、前記第1のフィルタ長よりも短い第2のフィルタ長を含む、
請求項23に記載のシステム(100)。
前記第1のプロセッサ(110)が、デジタル信号プロセッサを備え、
前記第2のプロセッサ(120)が、システムオンチップ(SoC)プロセッサを備える、
請求項14から24のいずれか一項に記載のシステム(100)。
前記ユーザデバイス(102)が、再充電可能な有限電源を備え、前記有限電源が、前記第1のプロセッサ(110)および前記第2のプロセッサ(120)に電力を供給する、請求項14から25のいずれか一項に記載のシステム(100)。