JP2023553994A

JP2023553994A - ホットワード特性に基づいた自動音声認識パラメータの適応

Info

Publication number: JP2023553994A
Application number: JP2023535765A
Authority: JP
Inventors: マシュー・シャリフィ; アレクサンダー・クラカン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-12-11
Filing date: 2021-11-21
Publication date: 2023-12-26
Also published as: EP4244852A1; KR20230118165A; US11620990B2; WO2022125295A1; CN116830191A; US20230223014A1; US20220189466A1

Abstract

音声認識を最適化するための方法(300)は、ユーザデバイス(102)によってキャプチャされたストリーミングオーディオ(118)において、ホットワード検出器(110)によって検出されたホットワードを特徴付ける第1の音響セグメント(121)を受け取るステップと、第1の音響セグメントから、1つまたは複数のホットワード属性(210)を抽出するステップと、第1の音響セグメントから抽出された1つまたは複数のホットワード属性に基づいて、自動音声認識(ASR)モデル(320)の1つまたは複数の音声認識パラメータを調整するステップとを含む。ASRモデルの音声認識パラメータを調整した後、方法はまた、ASRモデルを使用して、第2の音響セグメント(122)を処理して、音声認識結果(322)を生成するステップを含む。第2の音響セグメントは、ユーザデバイスによってキャプチャされたストリーミングオーディオにおいて、第1の音響セグメントに続く、発声されたクエリ/コマンドを特徴付ける。

Description

本開示は、ホットワード特性に基づいて自動音声認識パラメータを適応させることに関する。

音声対応環境(たとえば、家庭、職場、学校、自動車など)によって、ユーザは、コマンドに基づいてクエリを処理して回答する、および/または、機能を実行する、コンピュータベースのシステムに向かって、クエリまたはコマンドを大声で話すことができる。音声対応環境は、環境の様々な部屋やエリアに分散された、接続されたマイクロフォンデバイスのネットワークを使用して実施できる。これらのデバイスは、所与の発話が、環境内に存在する別の個人に向けられた発話ではなく、システムに向けられている場合を識別することを助けるために、ホットワードを使用し得る。したがって、デバイスは、スリープ状態すなわちハイバネーション状態で動作し、検出された発話が、ホットワードを含む場合にのみ、ウェイクアップし得る。デバイスは、アウェイクすると、完全なオンデバイス自動音声認識(ASR)、またはサーバベースのASRなど、より高価な処理の実行に進むことができる。

本開示の1つの態様は、音声認識を最適化するための方法を提供する。方法は、データ処理ハードウェアにおいて、ユーザデバイスによってキャプチャされたストリーミングオーディオにおいて、ホットワード検出器によって検出されたホットワードを特徴付ける第1の音響セグメントを受け取るステップと、データ処理ハードウェアによって、第1の音響セグメントから、1つまたは複数のホットワード属性を抽出するステップと、データ処理ハードウェアによって、第1の音響セグメントから抽出された1つまたは複数のホットワード属性に基づいて、自動音声認識(ASR)モデルの1つまたは複数の音声認識パラメータを調整するステップとを含む。ASRモデルの音声認識パラメータを調整した後、方法はまた、データ処理ハードウェアによって、ASRモデルを使用して、第2の音響セグメントを処理して、音声認識結果を生成するステップをも含む。第2の音響セグメントは、ユーザデバイスによってキャプチャされたストリーミングオーディオにおいて、第1の音響セグメントに続く、発声されたクエリ/コマンドを特徴付ける。

本開示の実装形態は、以下の任意選択の特徴のうちの1つまたは複数の特徴を含み得る。いくつかの実装形態では、第1の音響セグメントから抽出された1つまたは複数のホットワード属性は、休止期間測定値、音声速度測定値、ピッチ測定値、ASR予測測定値、または音量/トーン測定値のうちの少なくとも1つを含む。いくつかの例では、方法はまた、第1の音響セグメントを受け取った場合、データ処理ハードウェアにおいて、ユーザデバイスによってキャプチャされたストリーミングオーディオが、ホットワード検出器が検出するようにトレーニングされたホットワードを含む可能性に関する信頼度を示す信頼度スコアを受け取るステップを含む。これらの例では、第1の音響セグメントから1つまたは複数のホットワード属性を抽出するステップは、ASRモデルが、第2の音響セグメントにおけるクエリ/コマンド部分を正確に認識する可能性を示すASR予測測定値を抽出するステップを含む。ここで、ASRモデルの1つまたは複数の音声認識パラメータを調整するステップは、信頼度スコアが、信頼度スコアしきい値よりも大きい場合、ASRモデルによって出力される音声認識仮説の数を減少させる、および/または、ASRモデルのビーム探索幅を減少させるステップ、または、信頼度スコアが、信頼度スコアしきい値よりも小さい場合、ASRモデルによって出力される音声認識仮説の数を増加させる、および/または、ASRモデルのビーム探索幅を増加させるステップを含み得る。それに加えて、またはその代わりに、ASRモデルの1つまたは複数の音声認識パラメータを調整するステップは、信頼度スコアが、信頼度スコアしきい値よりも大きい場合、認識仮説を、第1の音響セグメントにおけるホットワードの認識に向けて偏らせるように、1つまたは複数の音声認識パラメータを調整するステップ、または、信頼度スコアが、信頼度スコアしきい値よりも小さい場合、認識仮説を、第1の音響セグメントにおけるホットワードの認識に向けて偏らせないように、1つまたは複数の音声認識パラメータを調整するステップを含み得る。

いくつかの実装形態では、第1の音響セグメントから1つまたは複数のホットワード属性を抽出するステップは、第1の音響セグメントに関連付けられた周波数の範囲を指定するピッチ測定値を抽出するステップを含み、1つまたは複数の音声認識パラメータを調整するステップは、第2の音響セグメントを処理して音声認識結果を生成した場合、指定された周波数範囲に注目することによって、1つまたは複数の音声認識パラメータを調整し、第2の音響セグメントに、周波数ベースのフィルタリングを適用するステップを含む。第1の音響セグメントから抽出された1つまたは複数のホットワード属性のうちの1つのホットワード属性が、ホットワードを話す場合の声のトーンおよび音量を指定するトーンおよび音量スコアを含んでいる場合、方法はまた、生成された音声認識結果に対してクエリ解釈を実行する場合に、データ処理ハードウェアによって、自然言語理解(NLU)モジュールに影響を与えるステップをも含み得る。

いくつかの実装形態では、第1の音響セグメントから抽出された1つまたは複数のホットワード属性のうちの1つのホットワード属性が、話者が、ホットワードの発声中に、および/または、ホットワードの発声と、クエリ/コマンドの発声との間で、休止した程度を示す、休止期間測定値を含んでいる場合、方法はまた、データ処理ハードウェアによって、休止期間測定値に基づいて、エンドポイントタイムアウト期間の期間を、デフォルト値から増加させるか、または減少させるかの一方を、エンドポインタに命令するステップを含む。それに加えて、またはその代わりに、第1の音響セグメントから抽出された1つまたは複数のホットワード属性のうちの1つのホットワード属性が、話者がストリーミングオーディオにおいてホットワードを話した速度を示す音声速度測定値を含んでいる場合、方法はまた、データ処理ハードウェアによって、音声速度測定値に基づいて、エンドポイントタイムアウト期間の期間を、デフォルト値から増加させるか、または減少させるかの一方を、エンドポインタに命令するステップをも含み得る。いくつかの例では、1つまたは複数のホットワード属性は、ニューラルネットワークベースのモデル、またはヒューリスティックベースのモデルのうちの少なくとも1つのモデルを使用して、第1の音響セグメントから抽出される。

本開示の別の態様は、音声認識を最適化するためのシステムを提供する。システムは、データ処理ハードウェアと、データ処理ハードウェアと通信しており、データ処理ハードウェアにおいて実行されると、データ処理ハードウェアに対して、ユーザデバイスによってキャプチャされたストリーミングオーディオにおいて、ホットワード検出器によって検出されたホットワードを特徴付ける第1の音響セグメントを受け取るステップと、第1の音響セグメントから1つまたは複数のホットワード属性を抽出するステップと、第1の音響セグメントから抽出された1つまたは複数のホットワード属性に基づいて、自動音声認識(ASR)モデルの1つまたは複数の音声認識パラメータを調整するステップとを含む動作を実行させる命令を記憶している、メモリハードウェアとを含む。ASRモデルの音声認識パラメータを調整した後、動作はまた、ASRモデルを使用して、第2の音響セグメントを処理して、音声認識結果を生成するステップをも含む。第2の音響セグメントは、ユーザデバイスによってキャプチャされたストリーミングオーディオにおいて、第1の音響セグメントに続く、発声されたクエリ/コマンドを特徴付ける。

この態様は、以下の任意選択の特徴のうちの1つまたは複数の特徴を含み得る。いくつかの実装形態では、第1の音響セグメントから抽出された1つまたは複数のホットワード属性は、休止期間測定値、音声速度測定値、ピッチ測定値、ASR予測測定値、または音量/トーン測定値のうちの少なくとも1つを含む。いくつかの例では、動作はまた、第1の音響セグメントを受け取った場合、ユーザデバイスによってキャプチャされたストリーミングオーディオが、ホットワード検出器が検出するようにトレーニングされたホットワードを含む可能性に関する信頼度を示す、信頼度スコアを受け取るステップを含む。これらの例では、第1の音響セグメントから1つまたは複数のホットワード属性を抽出するステップは、ASRモデルが、第2の音響セグメントにおいて、クエリ/コマンド部分を正確に認識する可能性を示すASR予測測定値を抽出するステップを含む。ここで、ASRモデルの1つまたは複数の音声認識パラメータを調整するステップは、信頼度スコアが信頼度スコアしきい値よりも大きい場合、ASRモデルによって出力される音声認識仮説の数を減少させる、および/または、ASRモデルのビーム探索幅を減少させるステップ、または、信頼度スコアが信頼度スコアしきい値よりも小さい場合、ASRモデルによって出力される音声認識仮説の数を増加させる、および/または、ASRモデルのビーム探索幅を増加させるステップを含み得る。それに加えて、またはその代わりに、ASRモデルの1つまたは複数の音声認識パラメータを調整するステップは、信頼度スコアが信頼度スコアしきい値よりも大きい場合、認識仮説を、第1の音響セグメントにおけるホットワードの認識に向けて偏らせるように、1つまたは複数の音声認識パラメータを調整するステップ、または、信頼度スコアが信頼度スコアしきい値よりも小さい場合、認識仮説を、第1の音響セグメントにおけるホットワードを認識に向けて偏らせないように、1つまたは複数の音声認識パラメータを調整するステップを含み得る。

いくつかの実装形態では、第1の音響セグメントから1つまたは複数のホットワード属性を抽出するステップは、第1の音響セグメントに関連付けられた周波数範囲を指定するピッチ測定値を抽出するステップを含み、1つまたは複数の音声認識パラメータを調整するステップは、第2の音響セグメントを処理して音声認識結果を生成した場合、指定された周波数範囲に注目することによって、1つまたは複数の音声認識パラメータを調整し、第2の音響セグメントに、周波数ベースのフィルタリングを適用するステップを含む。第1の音響セグメントから抽出された1つまたは複数のホットワード属性のうちの1つのホットワード属性が、ホットワードを話す場合の声のトーンおよび音量を指定するトーンおよび音量スコアを含んでいる場合、動作はまた、生成された音声認識結果に対するクエリ解釈を実行した場合に、自然言語理解(NLU)モジュールに影響を与えるステップをも含み得る。

いくつかの実装形態では、第1の音響セグメントから抽出された1つまたは複数のホットワード属性のうちの1つのホットワード属性は、話者が、ホットワードの発声中に、および/または、ホットワードの発声と、クエリ/コマンドの発声との間で、休止した程度を示す、休止期間測定値を含んでいる場合、動作はまた、休止期間測定値に基づいて、エンドポイントタイムアウト期間の期間を、デフォルト値から増加させるか、または減少させるかのいずれか一方を、エンドポインタに命令するステップをも含む。それに加えて、またはその代わりに、第1の音響セグメントから抽出された1つまたは複数のホットワード属性のうちの1つのホットワード属性が、話者がストリーミングオーディオにおいてホットワードを話した速度を示す音声速度測定値を含んでいる場合、動作はまた、音声速度測定値に基づいて、エンドポイントタイムアウト期間の期間を、デフォルト値から増加させるか、または減少させるかのいずれか一方を、エンドポインタに命令するステップをも含む。いくつかの例では、1つまたは複数のホットワード属性は、ニューラルネットワークベースのモデル、またはヒューリスティックベースのモデルのうちの少なくとも一方を使用して、第1の音響セグメントから抽出される。

本開示の1つまたは複数の実装形態の詳細は、添付の図面および以下の説明に記載される。他の態様、特徴、および利点は、説明および図面、ならびに特許請求の範囲から明らかになるであろう。

発声されたオーディオから抽出されたホットワード属性に基づいて、音声認識を最適化するための例示的なシステムを示す図である。音響特徴から1つまたは複数のホットワード属性を抽出するように構成された、例示的な属性抽出器を示す図である。音声認識を最適化する方法のための動作の例示的な構成のフローチャートである。本明細書で説明されるシステムおよび方法を実施するために使用され得る、例示的なコンピューティングデバイスの概略図である。

様々な図面において、同様の参照符号は、同様の要素を示す。

自動音声認識(ASR)エンジンは、単一の言語または場所において、すべてのユーザによって発声された、短い、ノイズを含む、自由な発話を認識し理解する必要があるという事実により、正確な音声認識を実行することは困難である。精度を向上させるために、ASRエンジンは多くの場合、人間が相互に通信するときに行うように、音声認識処理にコンテキストを組み込むなどの技法に依存する。コンテキストを組み込むことで、精度が向上するように音声認識結果を偏らせることができる。多くの場合、ユーザの位置およびユーザの好みは、音声認識を向上させるためのコンテキストとして使用される。

ホットワードは、通常、後続する発声されたクエリを開始するために、アシスタント対応デバイスを呼び出すために発声されるので、アシスタント対応デバイスによってキャプチャされた、ホットワードを特徴付けるオーディオデータの部分が、発声されたクエリに対応するオーディオデータの残りの部分と相関する可能性が高い。したがって、ホットワードを特徴付けるオーディオデータは、音声認識器が、ユーザによって発声されたクエリを正確に、および/または、より効率的に認識するのを支援する際に使用するための重要な情報を含み得る。本明細書における実装形態は、検出されたホットワードを特徴付けるオーディオデータから、コンテキスト信号を導出し、そのコンテキスト信号を使用して、ホットワードに続くオーディオに対する音声認識を最適化することに向けられている。以下に、より詳細に説明されるように、検出されたホットワードを特徴付けるオーディオデータから導出されるコンテキスト信号は、ホットワードを話している間および/または後の、音声速度または休止期間、ホットワードを特徴付けるオーディオデータの周波数/ピッチ、ストリーミングオーディオにおいて、ホットワードの存在を検出したホットワード検出器によって出力される、信頼度スコアおよび/またはノイズレベル、および、トーンや音量などの他の発声属性を含み得る。

図1を参照して示すように、いくつかの実装形態では、例示的なシステム100は、1人または複数のユーザ10に関連付けられ、ネットワーク104を介してリモートシステム111と通信するユーザデバイス102を含む。ユーザデバイス102は、モバイル電話、コンピュータ(ラップトップまたはデスクトップ)、タブレット、スマートスピーカ/ディスプレイ、スマート家電、スマートヘッドフォン、ウェアラブル、車両インフォテインメントシステムなどのコンピューティングデバイスに対応し得、データ処理ハードウェア103およびメモリハードウェア107を備えている。ユーザデバイス102は、それぞれのユーザ10からの発話をキャプチャするための1つまたは複数のマイクロフォン106を含んでいるか、または、1つまたは複数のマイクロフォン106と通信する。リモートシステム111は、単一のコンピュータ、複数のコンピュータ、またはスケーラブル/弾力性のあるコンピューティングリソース113(たとえば、データ処理ハードウェア)および/またはストレージリソース115(たとえば、メモリハードウェア)を有する分散システム(たとえば、クラウド環境)であり得る。

ユーザデバイス102は、ストリーミングオーディオ118に対して意味分析または音声認識処理を実行することなく、ストリーミングオーディオ118におけるホットワードの存在を検出するように構成された(ホットワード検出モデルとも称される)ホットワード検出器110を含む。ユーザデバイス102はまた、ホットワード検出器110の一部として、またはホットワード検出器110とは別個の部品として実施され得る音響特徴抽出器105をも含む。音響特徴抽出器は、発話119から音響特徴を抽出するように構成される。たとえば、音響特徴抽出器105は、ユーザ10によって発声された発話119に対応する、ユーザデバイス102の1つまたは複数のマイクロフォン106によってキャプチャされたストリーミングオーディオ118を受け取り、音響特徴120を抽出し得る。音響特徴120は、オーディオ信号のウィンドウにわたって計算されたメル周波数ケプストラム係数(MFCC)またはフィルタバンクエネルギを含み得る。

ホットワード検出器110は、音響特徴抽出器105によって抽出された音響特徴120を受け取り得、抽出された特徴120に基づいて、ホットワード分類器112は、発話119が、ユーザ10によって発声された特定のホットワードを含むか否かを分類するように構成される。ユーザデバイスは、特定の用語/フレーズに関連付けられた異なるホットワードを検出するように各々トレーニングされた、複数のホットワード分類器112を含み得る。これらのホットワードは、事前定義されたホットワード、および/または、ユーザ10によって割り当てられたカスタムホットワードであり得る。いくつかの実装形態では、ホットワード分類器112は、ネットワーク104を介してリモートシステム111から受け取られた、トレーニングされたニューラルネットワーク(たとえば、記憶されたニューラルネットワーク)を含む。

いくつかの例では、ホットワード検出器110は、初期の粗段階のホットワード分類器と、後続する精細段階のホットワード分類器とを含む、カスケードホットワード検出アーキテクチャを含む。ここでは、精細段階のホットワード検出器を呼び出して音響特徴120を受け取り、ホットワードがストリーミングオーディオ118において検出されたか否かを確認する前に、粗段階のホットワード分類器が、最初に、音響特徴120におけるホットワードの存在を検出するように構成される。粗段階のホットワード分類器は、デジタル信号プロセッサ(DSP)などの第1のプロセッサで実行し得、精細段階のホットワード分類器は、アプリケーションプロセッサ(AP)またはCPUなどの第2のプロセッサで実行し得るが、第2のプロセッサは、第1のプロセッサよりも、動作中、より多くの電力を消費する。第1のプロセッサに常駐する粗段階のホットワード分類器は、精細段階のホットワード分類器に関連付けられたモデルよりも小さいモデルサイズを含み得、ホットワード検出のために、入力されたストリーミングオーディオ118を、大まかに選別するのに計算効率がよい。したがって、第1のプロセッサは、粗段階のホットワード分類器が、ストリーミングオーディオ118におけるホットワード候補を大まかに選別するために常に実行されるように、「常時オン」であり得る一方、メインAP(たとえば、第2のプロセッサ)を含むユーザデバイス102の他のすべての構成要素は、バッテリ寿命を節約するために、スリープ状態/モードにある。一方、メインAPに常駐する精細段階のホットワード分類器は、より大きなモデルサイズを含み、粗いホットワード検出器によって最初に検出されたホットワードの、より正確な検出を提供するために、粗い段階のホットワード分類器よりも、より多くの計算出力を提供する。したがって、精細段階のホットワード分類器は、ホットワードがオーディオ118に存在するか否かの判定に、より厳密になり得る。したがって、ホットワード検出器110が、カスケードホットワード検出アーキテクチャを含む実装形態では、候補ホットワードが一度検出されただけで、DSPは、精細段階のホットワード分類器を実行するために、メインAPを、スリープモードから、ホットワード検出モードに移行するようにトリガする。

図示される例では、ホットワード分類器112は、ユーザデバイス102を、スリープ状態すなわちハイバネーション状態からウェイクアップさせ、ホットワード、および/または、たとえば、ストリーミングオーディオ118においてホットワードに続く声クエリ/コマンドである、ホットワードに続く1つまたは複数の他の用語について音声認識をトリガさせる、音響特徴120におけるホットワード「ねえ、グーグル」の存在を検出するようにトレーニングされる。ホットワードは、音声対応ユーザデバイス102に向けられていない音を拾う可能性がある「常時オン」システムに有用であり得る。たとえば、ホットワードの使用は、環境内に存在する別の個人に向けられた発話や、背景発話とは対照的に、所与の発話119がデバイス102に向けられたときをデバイス102が識別するのに役立ち得る。そうすることで、デバイス102は、ホットワードを含まない音または発話に対する、たとえば、音声認識および意味解釈などの計算量の多い処理のトリガを回避し得る。

ホットワード分類器112は、たとえば「はい」または「いいえ」のようにバイナリであり、ストリーミングオーディオ118から抽出された音響特徴120において検出するように分類器112がトレーニングされたホットワード(たとえば、「ねえ、グーグル」)を含む可能性が高いとして、発話が分類されるか否かを示す信頼度スコア130を出力し得る。それに加えて、またはその代わりに、ホットワード分類器112は、発話が、ストリーミングオーディオ118から抽出された音響特徴120において検出するように分類器112がトレーニングされているそれぞれのホットワードを含む、尤度に関する信頼度を示し得る、たとえば、0%、10%、30%、75%、または95%の信頼度スコアのような、非バイナリである信頼度スコア130を出力し得る。たとえば、「了解、グーグル」という発話に対して抽出された音響特徴の受け取りに応じて、ホットワード分類器112は、「はい、85%」という信頼度スコア130を出力し得る。信頼度スコアは、それに加えて、またはその代わりに、「0」と「1」との間の数値範囲、たとえば、25%に対応する「0.25」によって表され得る。

いくつかの例では、ホットワード分類器112は、ホットワード分類器112から出力された信頼度スコア130が、ホットワード検出しきい値を満たす場合に、ホットワードの存在が、ストリーミングオーディオ118に存在することを示すホットワードイベントを検出するように構成される。たとえば、ホットワード検出しきい値は、信頼度スコア130が、80%すなわち0.8以上である場合に、ホットワードイベントが検出されるように、80%または0.8であり得る。ホットワードイベントを検出すると、ホットワード検出器110は、音響特徴120から切り取られた第1の音響セグメント121を、自動音声認識(ASR)システム301によるユーザ10の発話119の音声認識を最適化するためのコンテキスト信号として使用され得る1つまたは複数のホットワード属性210を抽出するように構成された、属性抽出器200に提供する。第1の音響セグメント121は、ホットワード検出器110によって検出されたホットワードの存在に関連付けられた関連音響特徴を含む。ホットワード検出器110はまた、音響特徴120から切り取られた第2の音響セグメント122を、ASRシステム301に提供し、それにより、第2の音響セグメント122は、第1の音響セグメント121に続くストリーミングオーディオ118において、ユーザデバイス102によってキャプチャされた発話119の部分を含む。通常、第1の音響セグメント121は、一般に、指定されたホットワードに関連付けられたオーディオ特徴を含むのに十分な固定期間からなる。しかしながら、第2の音響セグメント122は、マイクロフォン106が開いていて、ユーザがまだ話している間に、ユーザデバイス102によってキャプチャされたオーディオを含む可変期間を有し得る。第2の音響セグメント122は、オーディオデータにおけるクエリまたはコマンドを特定するために、1つまたは複数の用語に対して、ASRシステム301によるさらなる処理(たとえば、自動音声認識および/または意味解釈)を必要とするクエリタイプの発話をキャプチャし得る。

図2は、1つまたは複数のホットワード入力特徴202から、1つまたは複数のホットワード属性210を抽出する、図1の例示的な属性抽出器200の概略図を示す。ホットワード入力特徴202は、ホットワード分類器112によって音響特徴120から切り取られた第1の音響セグメント121と、発話119がホットワードを含む可能性を示す信頼度スコア130と、ホットワードを含む発話119の部分を特徴付ける第1の音響セグメント121を符号化するホットワード埋込204とを含み得る。ホットワード分類器112は、到来する音響特徴120に対してホットワード検出を実行して、ホットワードが存在するか否かを判定する場合、ホットワード埋込204を生成し得る。ホットワード入力特徴202は、それに加えて、ホットワードを含むストリーミングオーディオ118の部分を含み得る。

いくつかの例では、属性抽出器200は、1つまたは複数のヒューリスティックモデル240および/または1つまたは複数のニューラルネットワークモデル260を含む。たとえば、属性抽出器200は、ホットワードの発声中および/または発声後の休止期間を検出するヒューリスティックモデル240を実施し得る。ヒューリスティックモデル240は、ユーザ10が、ホットワードの発声中に、および/または、ホットワードの発声後、発話のクエリ/コマンド部分の発声前に、休止した程度を示す、ホットワード属性のうちの1つのホットワード属性として、休止期間測定値を抽出し得る。以下に、より詳細に論じられるように、ASRシステム301のエンドポインタ310は、休止期間測定値に基づいて、エンドポイントタイムアウトを、デフォルト値から増減させ得る。すなわち、ホットワードを話すときに、ユーザ10が、典型的なユーザよりも長く休止した、および/または、ユーザ10が通常休止したよりも長く休止したことを示すより高い休止期間測定値は、エンドポインタ310が、エンドポイントタイムアウトを増加/延長するという結果となり得る。

ホットワード分類器112によって出力された信頼度スコア130に基づいて、属性抽出器200の同じまたは異なるヒューリスティックモデル240(または任意選択的にニューラルネットワークモデル260)は、ASR予測測定値(たとえば、ASR予測スコア)を、ASRシステムのASRモデル320が、発話119のクエリ/コマンド部分を正確に認識する可能性を示すホットワード属性210のうちの1つのホットワード属性として抽出し得る。たとえば、より高いホットワード信頼度スコア130は、ホットワード分類器112が、ストリーミングオーディオ118におけるホットワードの存在を確実に検出できたので、ASRモデル320は、第2の音響セグメント122に対して音声認識を実行する場合、発話119のクエリ/コマンド部分を正確に認識できる可能性がより高いという相関関係を提供する。

いくつかの実装形態では、属性抽出器200は、ユーザ10が発話119のホットワード部分を話した速度(たとえば、どのくらい速いか/遅いか)を示すホットワード属性210のうちの1つのホットワード属性として、音声速度測定値(たとえば、音声速度スコア)を、ホットワード入力特徴202のうちの1つまたは複数のホットワード入力特徴から抽出するように構成されたニューラルネットワークモデル260を実施する。ここで、ニューラルネットワークモデル260は、教師ありおよび/または教師なし方式において、機械学習を通じてトレーニングされた深層ニューラルネットワークを含み得る。休止期間測定値と同様に、音声速度測定値は、ASRシステム301のエンドポインタ310によって利用されて、エンドポイントタイムアウトをデフォルト値から増減させ得る。すなわち、ユーザ10が、ホットワードを話すときに、発話119のホットワード部分を典型的なユーザよりも遅く、および/または、ユーザ10が通常話すよりも遅く話したということを示す、より低い音声速度測定値は、エンドポインタ310が、エンドポイントタイムアウトを増加/延長するという結果となり得る。同様に、音声速度測定値が高くなると、エンドポインタが、エンドポイントタイムアウトを減少/短縮するという結果となり得る。

同じまたは異なるニューラルネットワークモデル260は、ホットワード入力特徴202のうちの1つまたは複数のホットワード入力特徴から、ピッチ測定値(たとえば、高/低ピッチ)を抽出するように構成され得る。ピッチ測定値は、ピッチスコアと称され得る。以下に、より詳細に説明されるように、発話119のクエリ/コマンド部分に対して音声認識を実行する場合、ピッチ測定値は、ASRシステム301に供給されて、(たとえば、第2の音響セグメント122において)入力特徴の特定の周波数/ピッチ範囲に注目するようにASRモデル320に命令するパラメータを提供し得る。いくつかの例では、ニューラルネットワークモデルは、https://arxiv.org/pdf/1910.11664.pdfで入手可能であり、参照により本明細書に組み込まれている、自己教師ありピッチ推定であるSPICEで説明されている技法を使用して、ピッチ測定値を抽出/推定する。

いくつかの例では、同じまたは異なるニューラルネットワークモデル260が、発話119のクエリ/コマンド部分を認識するために、ASRモデル320を最適化する際に使用するためのホットワード属性210のうちの1つのホットワード属性として、トーンおよび音量スコアを、1つまたは複数のホットワード入力特徴202から抽出するようにトレーニングされる。ユーザの声のトーンおよび大きさは、発話のクエリ/コマンド部分を解釈する場合、ASRシステム301の自然言語理解(NLU)モジュール330に影響を与えるために使用できる。たとえば、疲れた声を示すホットワードから抽出されたトーンおよび音量スコアは、クエリ/コマンドが「音楽をかけて」である場合、NLUモジュール330に影響を与えて、音楽サービスから、リラックスできる音楽を要求することができ、熱狂的な声を示すトーンおよび音量スコアは、同じクエリコマンドである「音楽をかけて」に対して、NLUモジュール330に影響を与えて、音楽サービスから、代わりに、パーティの音楽を要求することができる。

再び図1に戻って示すように、ユーザデバイス102は、遅い音声速度で話し、用語間に1つまたは複数の長い休止を含むユーザ10に関連付けられた、ユーザ10によって発声された発話119をキャプチャする。すなわち、音声速度は、典型的なユーザによって発声される典型的な音声速度よりも遅くてもよく、および/または、ユーザ10によって通常発声される音声速度よりも遅くてもよい。同様に、これら用語のうちの1つまたは複数の用語の間の休止は、典型的なユーザによって使用される通常の休止期間よりも長い休止期間に関連付けられ得、および/または、ユーザ10によって通常使用される休止期間よりも長い期間からなり得る。ユーザデバイス102によってストリーミングオーディオ118にキャプチャされた発話119は、「ねえ、グー、グル、オーガストウェストに「ジャケットを着て...埠頭へ」とテキストを送って下さい」を含む。ここで、ユーザ10は、ねえグーグルというホットワードを、第1の用語「ねえ」と第2の用語「グーグル」との間に長い休止期間を有する「ねえ、グー、グル」と話し、それに加えて、ユーザが、音節「グー」と「グル」との間でためらっていることからわかるように、ユーザは、遅い音声速度で第2の用語を発音する。発話119のクエリ/コマンド部分は、メッセージ内容「ジャケットを着て...埠頭へ」を使用したコマンド「オーガストウェストにテキストを送って下さい」を含む。ここで、ユーザ10はまた、用語「ジャケット」と「へ」との間に、長い休止期間を入れて話し、メッセージ内容を、2つの部分、たとえば、「ジャケットを着て」と「埠頭へ」とに分割する。いくつかの例では、ユーザデバイス102(またはリモートシステム111)において実行するエンドポインタ310は、少なくともデフォルト期間にわたる非音声期間を検出すると、発話をエンドポイントするように構成される。ここで、発話のメッセージ内容における用語「ジャケット」と「へ」との間の長い休止期間は、エンドポインタにおけるエンドポイントタイムアウト期間のデフォルト値よりも長い可能性があり、その結果、エンドポインタ310が、用語「ジャケット」の後の発話119を途中でエンドポイントし、残りのメッセージ内容「埠頭へ」を切り取る。たとえば、エンドポイントタイムアウトのデフォルト値を使用して、エンドポインタ310は、ジャケットという用語の後に、音声がキャプチャされないように、マイクロフォン106を閉じるように、ユーザデバイス102に命令し得る。その結果、ASRモデル320は、「オーガストウェストに「ジャケットを着て」とテキストを送って下さい」の表記のみを生成し、ジャケットを着てというメッセージ内容を有するテキストメッセージを、オーガストウェストに関連付けられたユーザデバイスに送信せよとの命令を、テキストアプリケーションに渡す。このシナリオでは、ユーザ10は、オーガストの父親である可能性があり、オーガストは、今日は昼食のために父親と会い、夕方遅くには兄弟と一緒に埠頭へ行く予定であるため、いつどこでジャケットを着るべきか混乱する可能性がある。早すぎるエンドポイントを回避するために、エンドポインタ310は、属性抽出器200によってホットワードから抽出されたホットワード属性210に基づいて、エンドポインティングタイムアウトの期間を、デフォルト値から延長し得、これは、ユーザ10が、遅い音声速度で、用語と音節との間に長い休止期間をおいてホットワードを話したことを示す。エンドポイントタイムアウトの期間を、デフォルト値から延長することによって、エンドポインタ310は、「ジャケットを着て...埠頭へ」とのメッセージ内容のすべてを含む発話119のクエリ/コマンド部分の全体がキャプチャされるように、マイクロフォン106を途中で閉じるように命令しない。したがって、受信者(たとえば、オーガストウェスト)は、ユーザ10が伝えようとしたメッセージの内容全体を含むテキストメッセージを受信する。

引き続き図1を参照して示すように、音響特徴120の第1の音響セグメント121から属性抽出器200によって抽出されたホットワード属性210(および/または、第1の音響セグメント121から導出されたホットワード埋込204)は、発話119のクエリ/コマンド部分に対して音声認識を実行する場合に、(たとえば、第2の音響セグメント122における)入力特徴の特定の周波数/ピッチ範囲に注目するようにASRモデル320に命令するピッチ測定値を示し得る。すなわち、ASRモデル320は、ピッチ測定値によって示される、指定された周波数範囲外の周波数を有するノイズを効果的に除去し、ASRモデル320が、ユーザの音声に対応する第2の音響セグメント122の、指定された周波数範囲内の音のみに注目することができる。ピッチ測定値は、ASRシステム301によって受け取られると、ASRモデル320に、アテンション機構を使用させて、周波数ベースのフィルタリングを適用するか、または単に特徴クロッピング/重み付けを適用して、指定された周波数範囲内の周波数に注目することができる。それに加えて、またはその代わりに、ASRシステム301は、ASRモデル320に入力された第2の音響セグメント122を前処理して、ピッチ測定値によって示される、指定された周波数範囲をより良く強調する。

非限定的な例では、属性抽出器200は、ホットワードを話す低ピッチの声の検出を示すピッチ測定値を抽出し得、それにより、ASRモデル320は、発話119のクエリ/コマンド部分を伝える、後続する第2の音響セグメント122に対する音声認識を実行する場合、低周波数部分のみに注目することによって、周波数ベースのフィルタリングを適用する。この例では、ユーザ10に、背景で互いに会話している小さな子供たちがいる場合、周波数ベースのフィルタリングは、子供たちの甲高い話し声に関連付けられた高周波部分には注目しないであろう。話者の声特性を伝える話者埋込を事前に取得する必要がある既存の声フィルタリング技法とは対照的に、発話119のホットワード部分から抽出されたピッチ測定値を使用して、周波数ベースのフィルタリングを適用するための、指定された周波数範囲を特定することができる。したがって、話者登録は必要なく、ゲスト話者に対して自然に、またユーザの声の変化(たとえば、静かに話すユーザ)に対してASRパラメータを調整できるという利点がある。

それに加えて、またはその代わりに、ホットワード分類器112から出力されたホットワードスコア130は、発話119のクエリ/コマンド部分を伝える第2の音響セグメント122に対して音声認識を実行するためのASRモデル320を最適化するために使用され得る。図1の例では、ホットワード分類器112が、音響特徴120の第1の音響セグメント121においてホットワードイベントを検出したため、信頼度スコア130は、ホットワード検出しきい値を満たしている。しかしながら、より高い信頼度スコア130は、ホットワード分類器112が、より低い信頼度スコア130よりも、ホットワードの存在の検出において、より信頼度が高かったことを示す。ホットワード検出しきい値を満たす信頼度スコア130は、第1の音響セグメント121においてキャプチャされた背景ノイズの影響を受ける可能性があり、これにより、背景ノイズが全くキャプチャされないか、またはあまりキャプチャされなかった場合よりも、ホットワード分類器112が、ホットワードイベントを検出する信頼度が低くなる。結果として、ASRシステム301は、第2の音響セグメント122に対して音声認識を実行する場合、ホットワード信頼度スコア130を使用して、ASRモデル320のパラメータを調整し得る。

たとえば、ホットワード分類器112から出力されたホットワードスコア130が低い(たとえば、ホットワードスコア130が、ホットワード検出しきい値を満たしているが、より高い信頼度しきい値を満たしていない)シナリオでは、ASRモデル320は、ホットワードイベントを確認するためのホットワード認識(たとえば、サーバ側ホットワード検出)のためにも使用される場合、ASRモデル320がホットワードの認識に向けて、認識結果を偏らせないようにパラメータを調整し得る。そうする場合、ホットワードスコア130が低いことは、ユーザデバイス102において実行されているホットワード分類器112が、ホットワードイベントを誤って検出した可能性を示唆しているため、ASRモデル320は、ホットワードが実際に認識されていることを最初に保証するように、認識プロセスに命令することができる。さらに、低いホットワードスコア130により、ASRモデル320は、より多くの音声認識仮説を考慮すること、および/または、ビーム探索幅を増加することのように、他のパラメータを調整して、ASRモデル320が、ノイズの多い入力に対してよりロバストになるようにすることができる。

一方、ASRモデル320によって受け取られた(たとえば、ホットワードスコア130が、より高い信頼度しきい値をも満たす)高いホットワードスコア130は、第2の音響セグメント122の認識が、より容易になる可能性が高いため、ASRモデル320に対して、より少ない数の音声認識仮説を考慮したり、ビーム探索幅を減少させたりするように、パラメータを調整させ得る。特に、これは、ASRモデル320が、より少ない処理リソースを消費すること、および/または、改善されたレイテンシを達成することを可能にすることによって、音声認識プロセスを最適化し得る。これらの最適化は、ASRモデル320が、サーバと比較して処理/メモリ制限がより制約されているユーザデバイス102において完全に実行される場合に特に有益である。ASRパラメータをどのように調整するかを決定するために、ホットワードスコア130をしきい値と比較する代わりに、異なるレベルのホットワードスコアと、対応するASRパラメータとの間の線形マッピングにアクセスして、モデル320のASRパラメータをどのように調整するかを決定することができる。

いくつかの例では、ASRシステム301は、ホットワードスコア130の大きさに基づいて、発話を認識するための複数のASRモデル320の中から選択する。たとえば、ASRシステム301は、高いホットワードスコアに基づいて、発話119を認識するために、さほど強力ではないASRモデル320を選択し得るか、または、低いホットワードスコア130に基づいて、より強力なASRモデル320を選択し得る。1つの例では、ユーザデバイス102は、さほど強力ではないASRモデル320を実行し、高いホットワードスコアに基づいて、デバイス上で音声認識を実行する。別の例では、リモートシステム111は、より強力なASRモデル320を実行して、低いホットワードスコア130に基づいて、サーバ側音声認識を実行する。

いくつかの実装形態では、1つまたは複数のホットワード属性210は、発話119のホットワード部分(たとえば、「ねえ、グー、グル」)を話すときのユーザ10の声のトーンおよび音量を示すトーンおよび音量スコアを含む。いくつかの例では、トーンおよび音量スコアは、ユーザ10が静かに、かつユーザ10が実際に発話119をユーザデバイス102に向けているか否かに関してある程度の不確実性を提供し得るトーンで話していることを示し得る。これらの例では、ASRシステム301は、先ず、音声認識を実行する前に、ユーザ10が実際に発話119をユーザデバイス102に向けているか否かを確認するようユーザ10に促し得る。たとえば、ASRシステム301は、ユーザ10に「本当に私と話すつもりだったのですか?」と尋ねる、ユーザデバイス102からの出力のための合成音声を生成するように対話システムに命令し得る。低い信頼度スコア130は、トーンおよび音量スコアが、ユーザが静かに、かつユーザ10がデバイス102に向かって話していない可能性があることをトーンで話していることを示している場合、ASRシステム301が、ユーザ10にプロンプトを表示するようにさらに奨励し得る。

図2を参照して上記の言及において説明したように、トーンおよび音量スコアは、発話のクエリ/コマンド部分を解釈する場合に、ASRシステム301のNLUモジュール330に影響を与えるためにさらに使用され得る。すなわち、NLUモジュール330は、発話119のクエリ/コマンド部分を転写するASR結果322を受け取り、ASR結果322に対してクエリ解釈を実行する場合に、トーンおよび音量スコアを使用し得る。たとえば、疲れた声を示すホットワードから抽出されたトーンおよび音量スコアは、クエリ/コマンドに対するASR結果322が「音楽をかけて」である場合、NLUモジュール330に影響を与えて、音楽サービスから、リラックスできる音楽を要求することができる。逆に、熱狂的な声を示すトーンおよび音量スコアは、「音楽をかけて」というクエリ/コマンドに対して同じASR結果322を解釈する場合、NLUモジュール330に影響を与えて、音楽サービスから、パーティ音楽を要求することもできる。トーンは、クエリを偏らせるために使用することもできる。たとえば、「リラックスできる音楽をかけて」という発話を、ユーザの声のトーンに基づいて、「リラックス」、「静か」、「就寝時間」などの用語に偏らせることができる。

ASRシステム301は、1つまたは複数のホットワード属性210を入力として受け取り、エンドポインタ310に対して、エンドポイントタイムアウトを調整するように命令するための、および/または、ASRモデル320に対して、モデルパラメータを調整する(または、適切なASRモデル320を選択する)ように命令するための、1つまたは複数の命令を出力として生成する、1つまたは複数の機械学習モデルをトレーニングし得る。1つまたは複数の機械学習モデルは、ASRシステム301によって出力された音声認識結果322に対する満足/不満足を示すユーザフィードバックに基づいて更新され得る。それに加えて、またはその代わりに、ASRシステム301は、上記で論じたように、ホットワード属性210を、ASRシステム301を構成するための命令にマッピングする静的ルールを適用し得る。

いくつかの追加の実装形態では、エンドポインタ310、ASRモデル320、およびNLU330のうちの1つまたは複数のニューラルネットワークベースのモデルは、属性抽出器200によって抽出される明示的なホットワード属性210の代わりに、ホットワード、および/または、ホットワード埋込204を特徴付ける第1の音響セグメント121に基づいて直接的に条件付けされる。これらの実装形態では、モデルは、ASRシステム301が、エンドポインティングを実行しており、音声認識がオンになっている発話のクエリ/コマンド部分を特徴付ける第2の音響セグメント122とともに、ホットワード埋込204(および/または第1の音響セグメント121)を、副入力として受け取り得る。

ホットワード検出器110がホットワードイベントを検出した後、またはそれと並行して、ユーザデバイス102は、音響特徴120に対する話者認識をさらに実行して、ユーザ10を特定し得る。たとえば、テキスト依存の話者認識は、そこから話者埋込を抽出し、話者埋込を、ホットワードを話しているユーザ10の登録発話から導出された参照埋込と比較することによって、ホットワードを特徴付ける第1の音響セグメント121に対して実行され得る。テキスト依存ではない話者認識は、音響特徴120全体に対して実行されて、発話119の話者を特定し得る。ユーザ10が特定されると、ASRシステム301は、ユーザフィードバックから導出された音声認識パラメータの最適なセット、および、発話119のホットワード部分から抽出された1つまたは複数のホットワード属性と、発話119の後続するクエリ/コマンド部分との間の関係の考察とを学習することによって、ユーザ10に合わせて個人化または微調整され得る。

本明細書の例は、ホットワード検出器110によって検出されたホットワードを特徴付ける第1の音響セグメント121から、ホットワード属性202を抽出することを論じているが、同様の属性202が、ホットワードを含まない発話の初期の部分から抽出され得る。すなわち、第1の音響セグメント121は、ストリーミングオーディオにおいてキャプチャされた発話の第1の部分を伝えるプレフィックス音響特徴として抽出され得る。この手法は、最初にホットワードを発声する必要がない音声対応環境で使用できるか、または、クエリに応答した後、ユーザからの追加の発声入力を受け入れるためにマイクロフォンを開いたままにする会話的な支援シナリオでも使用でき、これにより、ユーザ10は、ホットワードを繰り返し話す必要がなくなる。

図3は、音声認識を最適化するための例示的な方法300のフローチャートを提供している。方法300は、ユーザデバイス102のデータ処理ハードウェア103、またはリモートシステム(たとえば、クラウドベースのサーバ)111のデータ処理ハードウェア113を含むデータ処理ハードウェア410(図4)において実行し得る。動作302において、方法300は、ユーザデバイス102によってキャプチャされたストリーミングオーディオ118において、ホットワード検出器110によって検出されたホットワードを特徴付ける第1の音響セグメント121を受け取るステップを含む。動作304において、方法300は、第1の音響セグメント121から、1つまたは複数のホットワード属性210を抽出するステップを含む。動作306において、方法は、第1の音響セグメント121から抽出された1つまたは複数のホットワード属性210に基づいて、自動音声認識(ASR)モデル320の1つまたは複数の音声認識パラメータを調整するステップを含む。動作308において、方法300は、ASRモデル320の音声認識パラメータを調整した後、ASRモデル320を使用して、第2の音響セグメント122を処理して、音声認識結果322を生成するステップをも含む。第2の音響セグメント122は、ユーザデバイス102によってキャプチャされたストリーミングオーディオ118において、第1の音響セグメント121に続く発声されたクエリ/コマンドを特徴付ける。

ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピューティングデバイスに対してタスクを実行させるコンピュータソフトウェアを称し得る。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と称され得る。例示的なアプリケーションは、システム診断アプリケーション、システム管理アプリケーション、システムメンテナンスアプリケーション、ワードプロセシングアプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲームアプリケーションを含むが、これらに限定されない。

非一時的メモリは、コンピューティングデバイスによる使用のためのプログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を、一時的または永続的に記憶するために使用される物理デバイスであり得る。非一時的メモリは、揮発性および/または不揮発性のアドレス指定可能な半導体メモリであり得る。不揮発性メモリの例は、フラッシュメモリおよび読取専用メモリ(ROM)/プログラマブル読取専用メモリ(PROM)/消去可能なプログラマブル読取専用メモリ(EPROM)/電子的に消去可能なプログラマブル読取専用メモリ(EEPROM)(たとえば、通常、ブートプログラムなどのファームウェアに使用される)を含むが、これらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、およびディスクまたはテープを含むが、これらに限定されない。

図4は、本書で説明されるシステムおよび方法を実施するために使用され得る例示的なコンピューティングデバイス400の概略図である。コンピューティングデバイス400は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すように意図されている。本明細書において示される構成要素、それらの接続および関係、ならびにそれらの機能は、例示のみを意図しており、本書で説明および/または特許請求される発明の実装形態を限定するように意図されない。

コンピューティングデバイス400は、プロセッサ(すなわち、データ処理ハードウェア)410と、メモリ420と、記憶デバイス430と、メモリ420および高速拡張ポート450に接続する高速インターフェース/コントローラ440と、低速バス470および記憶デバイス430に接続する低速インターフェース/コントローラ460とを含む。構成要素410,420,430,440,450,460の各々は、様々なバスを使用して相互接続されており、共通のマザーボード上に、または必要に応じて他の方式で実装され得る。プロセッサ410は、高速インターフェース440に結合されたディスプレイ480などの外部入力/出力デバイス上のグラフィックユーザインターフェース(GUI)用のグラフィック情報を表示するために、メモリ420または記憶デバイス430に記憶された命令を含む、コンピューティングデバイス400内で実行するための命令を処理することができる。他の実装形態では、複数のプロセッサおよび/または複数のバスが、複数のメモリおよびメモリのタイプとともに、必要に応じて使用され得る。また、複数のコンピューティングデバイス400が接続されてもよく、各デバイスは、必要な動作の一部を(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)提供する。

メモリ420は、コンピューティングデバイス400内に情報を非一時的に記憶する。メモリ420は、ユーザデバイス102のメモリハードウェア105、またはリモートシステム111のメモリハードウェア114を含み得る。メモリ420は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであり得る。非一時的メモリ420は、コンピューティングデバイス400による使用のためのプログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を一時的または永続的に記憶するために使用される物理デバイスであり得る。不揮発性メモリの例は、フラッシュメモリおよび読取専用メモリ(ROM)/プログラマブル読取専用メモリ(PROM)/消去可能なプログラマブル読取専用メモリ(EPROM)/電子的に消去可能なプログラマブル読取専用メモリ(EEPROM)(たとえば、通常、ブートプログラムなどのファームウェアに使用される)を含むが、これらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、およびディスクやテープを含むが、これらに限定されない。

記憶デバイス430は、コンピューティングデバイス400に大容量ストレージを提供することができる。いくつかの実装形態では、記憶デバイス430は、コンピュータ可読媒体である。様々な異なる実装形態において、記憶デバイス430は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリまたは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークまたは他の構成のデバイスを含むデバイスのアレイであり得る。追加の実装形態では、コンピュータプログラム製品は、情報キャリアに明らかに組み込まれる。コンピュータプログラム製品は、実行時に、上記のような1つまたは複数の方法を実行する命令を含む。情報キャリアは、メモリ420、記憶デバイス430、またはプロセッサ410上のメモリなど、コンピュータまたは機械可読媒体である。

高速コントローラ440は、コンピューティングデバイス400の帯域幅を大量に消費する動作を管理する一方、低速コントローラ460は、帯域幅をあまり消費しない動作を管理する。そのようなデューティの割当は、単なる例である。いくつかの実装形態では、高速コントローラ440は、メモリ420に、(たとえば、グラフィックプロセッサまたはアクセラレータを介して)ディスプレイ480に、および、様々な拡張カード(図示せず)を受け入れることができる高速拡張ポート450に結合される。いくつかの実装形態では、低速コントローラ460は、記憶デバイス430および低速拡張ポート490に結合される。様々な通信ポート(たとえば、USB、Bluetooth、Ethernet、ワイヤレスEthernet)を含み得る低速拡張ポート490は、キーボード、ポインティングデバイス、スキャナなどの1つまたは複数の入力/出力デバイスに、または、たとえばネットワークアダプタを介して、スイッチやルータなどのネットワーキングデバイスに結合され得る。

コンピューティングデバイス400は、図に示すように、多くの異なる形態で実施され得る。たとえば、コンピューティングデバイス400は、標準サーバ400a、またはグループにおける複数倍のそのようなサーバ400aとして、ラップトップコンピュータ400bとして、またはラックサーバシステム400cの一部として実施され得る。

本明細書において説明されるシステムおよび技法の様々な実装形態は、デジタル電子回路構成および/または光回路構成、集積回路構成、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組合せにおいて実現することができる。これらの様々な実装形態は、ストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスとの間のデータおよび命令の受信および送信のために結合された、専用または汎用であり得る、少なくとも1つのプログラマブルプロセッサを含む、プログラマブルシステムにおいて実行可能および/または解釈可能な、1つまたは複数のコンピュータプログラムにおける実施を含むことができる。

(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる)これらのコンピュータプログラムは、プログラマブルプロセッサのための機械命令を含み、高レベルの手続き型、および/または、オブジェクト指向のプログラミング言語、および/または、アセンブリ/機械言語で実施することができる。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含むプログラマブルプロセッサに、機械命令および/またはデータを提供するために使用される、任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を称する。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を称する。

本明細書で説明されるプロセスおよび論理フローは、入力データを演算し、出力を生成することによって機能を実行する、1つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも称される、1つまたは複数のプログラマブルプロセッサによって実行することができる。プロセスおよび論理フローはまた、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)などの特定用途向け論理回路構成によって実行することができる。コンピュータプログラムの実行に適したプロセッサは、例として、汎用マイクロプロセッサと特定用途マイクロプロセッサとの両方、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。一般に、プロセッサは、読取専用メモリ、またはランダムアクセスメモリ、またはその両方から、命令およびデータを受け取る。コンピュータの必須要素は、命令を実行するプロセッサと、命令およびデータを記憶する1つまたは複数のメモリデバイスである。一般に、コンピュータはまた、たとえば、磁気ディスク、光磁気ディスク、または光ディスクのように、データを記憶するための1つまたは複数の大容量記憶デバイスを含むか、またはそれらからデータを受け取るために、またはそれらにデータを転送するために、動作可能に結合される。しかしながら、コンピュータは、そのようなデバイスを有している必要はない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、例として、たとえばEPROM、EEPROM、およびフラッシュメモリデバイスのような半導体メモリデバイス、たとえば内蔵ハードディスクまたはリムーバブルディスクのような磁気ディスク、光磁気ディスク、CD ROMディスクおよびDVD-ROMディスクを含む、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスを含んでいる。プロセッサおよびメモリは、特定用途向け論理回路構成で補ったり、特定用途向け論理回路に組み込むことができる。

ユーザとの対話を提供するために、本開示の1つまたは複数の態様は、ユーザに情報を表示するための、たとえば、CRT(陰極線管)、LCD(液晶ディスプレイ)モニタ、またはタッチスクリーンのようなディスプレイデバイスと、任意選択的に、キーボードと、たとえば、マウスまたはトラックボールのようなポインティングデバイスとを有するコンピュータにおいて実施することができ、ユーザはこれらを使用して、コンピュータに入力を提供することができる。他の種類のデバイスを使用して、ユーザとの対話を提供することもでき、たとえば、ユーザに提供されるフィードバックは、たとえば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックなど、任意の形態の感覚的フィードバックとすることができ、ユーザからの入力は、音響、音声、または触覚入力を含む、任意の形態で受け取ることができる。それに加えて、コンピュータは、たとえば、Webブラウザから受け取った要求に応じて、ユーザのクライアントデバイスにおけるWebブラウザにWebページを送信することによって、ユーザによって使用されるデバイスとの間で、文書を送受信することにより、ユーザと対話できる。

多くの実装形態が説明された。それにも関わらず、本開示の精神および範囲から逸脱することなく、様々な修正を行うことができることが理解されるであろう。したがって、他の実装形態も、以下の特許請求の範囲内にある。

10 ユーザ
100 システム
102 ユーザデバイス
103 データ処理ハードウェア
104 ネットワーク
105 音響特徴抽出器
106 マイクロフォン
107 メモリハードウェア
110 ホットワード検出器
111 リモートシステム
112 ホットワード分類器
113 コンピューティングリソース
114 メモリハードウェア
115 ストレージリソース
118 ストリーミングオーディオ
119 発話
120 音響特徴
121 第1の音響セグメント
122 第2の音響セグメント
130 信頼度スコア、ホットワード信頼度スコア、ホットワードスコア
200 属性抽出器
202 ホットワード属性、ホットワード入力特徴
204 ホットワード埋込
210 ホットワード属性
240 ヒューリスティックモデル
260 ニューラルネットワークモデル
301 ASRシステム
310 エンドポインタ
320 ASRモデル
322 ASR結果、音声認識結果
330 自然言語理解(NLU)モジュール
400 コンピューティングデバイス
400a 標準サーバ
400b ラップトップコンピュータ
400c ラックサーバシステム
410 データ処理ハードウェア、プロセッサ
420 メモリ、メモリハードウェア
430 記憶デバイス
440 高速コントローラ、高速インターフェース
450 高速拡張ポート
460 低速コントローラ、低速インターフェース
470 低速バス
480 ディスプレイ
490 低速拡張ポート

Claims

データ処理ハードウェア(410)によって、ユーザデバイス(102)によってキャプチャされたストリーミングオーディオ(118)において、ホットワード検出器(110)によって検出されたホットワードを特徴付ける第1の音響セグメント(121)を受け取るステップと、
前記データ処理ハードウェア(410)によって、前記第1の音響セグメント(121)から、1つまたは複数のホットワード属性(210)を抽出するステップと、
前記データ処理ハードウェア(410)によって、前記第1の音響セグメント(121)から抽出された前記1つまたは複数のホットワード属性(210)に基づいて、自動音声認識(ASR)モデル(320)の1つまたは複数の音声認識パラメータを調整するステップと、
前記ASRモデル(320)の前記音声認識パラメータを調整した後、前記データ処理ハードウェア(410)によって、前記ASRモデル(320)を使用して、第2の音響セグメント(122)を処理して、音声認識結果(322)を生成するステップであって、前記第2の音響セグメント(122)は、前記ユーザデバイス(102)によってキャプチャされた前記ストリーミングオーディオ(118)において、前記第1の音響セグメント(121)に続く、発声されたクエリ/コマンドを特徴付ける、ステップとを含む、方法(300)。
前記第1の音響セグメント(121)から抽出された前記1つまたは複数のホットワード属性(210)は、
休止期間測定値、
音声速度測定値、
ピッチ測定値、
ASR予測測定値、または
音量/トーン測定値
のうちの少なくとも1つを含む、請求項1に記載の方法(300)。
前記第1の音響セグメント(121)を受け取った場合、
前記データ処理ハードウェア(410)によって、ユーザデバイス(102)によってキャプチャされた前記ストリーミングオーディオ(118)が、前記ホットワード検出器(110)が検出するようにトレーニングされたホットワードを含む可能性に関する信頼度を示す信頼度スコア(130)を受け取るステップをさらに含み、
前記第1の音響セグメント(121)から、1つまたは複数のホットワード属性(210)を抽出するステップは、前記ASRモデル(320)が、前記第2の音響セグメント(122)における前記クエリ/コマンド部分を正確に認識する可能性を示すASR予測測定値を抽出するステップを含む、請求項1または2に記載の方法(300)。
前記ASRモデル(320)の前記1つまたは複数の音声認識パラメータを調整するステップは、
前記信頼度スコア(130)が、信頼度スコア(130)しきい値よりも大きい場合、前記ASRモデル(320)によって出力される音声認識仮説の数を減少させる、および/または、前記ASRモデル(320)のビーム探索幅を減少させるステップ、または、
前記信頼度スコア(130)が、前記信頼度スコア(130)しきい値よりも小さい場合、前記ASRモデル(320)によって出力される音声認識仮説の数を増加させる、および/または、前記ASRモデル(320)の前記ビーム探索幅を増加させるステップを含む、請求項3に記載の方法(300)。
前記ASRモデル(320)の前記1つまたは複数の音声認識パラメータを調整するステップは、
前記信頼度スコア(130)が、信頼度スコア(130)しきい値よりも大きい場合、認識仮説を、前記第1の音響セグメント(121)における前記ホットワードの認識に向けて偏らせるように、前記1つまたは複数の音声認識パラメータを調整するステップ、または、
前記信頼度スコア(130)が、前記信頼度スコア(130)しきい値よりも小さい場合、認識仮説を、前記第1の音響セグメント(121)における前記ホットワードの認識に向けて偏らせないように、前記1つまたは複数の音声認識パラメータを調整するステップを含む、請求項3に記載の方法(300)。
前記第1の音響セグメント(121)から1つまたは複数のホットワード属性(210)を抽出するステップは、前記第1の音響セグメント(121)に関連付けられた周波数の範囲を指定するピッチ測定値を抽出するステップを含み、
前記1つまたは複数の音声認識パラメータを調整するステップは、前記第2の音響セグメント(122)を処理して前記音声認識結果(322)を生成した場合、前記指定された周波数範囲に注目することによって、前記1つまたは複数の音声認識パラメータを調整し、前記第2の音響セグメント(122)に、周波数ベースのフィルタリングを適用するステップを含む、請求項1から5のいずれか一項に記載の方法(300)。
前記第1の音響セグメント(121)から抽出された前記1つまたは複数のホットワード属性(210)のうちの1つのホットワード属性が、前記ホットワードを話す場合の声のトーンおよび音量を指定するトーンおよび音量スコアを含んでいる場合、前記生成された音声認識結果(322)に対してクエリ解釈を実行する場合に、前記データ処理ハードウェア(410)によって、自然言語理解(NLU)モジュール(330)に影響を与える、または前記ASRモデル(320)を偏らせるステップをさらに含む、請求項1から6のいずれか一項に記載の方法(300)。
前記第1の音響セグメント(121)から抽出された前記1つまたは複数のホットワード属性(210)のうちの1つのホットワード属性が、話者が、前記ホットワードの発声中に、および/または、前記ホットワードの発声と、前記クエリ/コマンドの発声との間で、休止した程度を示す、休止期間測定値を含んでいる場合、前記データ処理ハードウェア(410)によって、前記休止期間測定値に基づいて、エンドポイントタイムアウト期間の期間を、デフォルト値から増加させるか、または減少させるかの一方を、エンドポインタ(310)に命令するステップをさらに含む、請求項1から7のいずれか一項に記載の方法(300)。
前記第1の音響セグメント(121)から抽出された前記1つまたは複数のホットワード属性(210)のうちの1つのホットワード属性が、話者が前記ストリーミングオーディオ(118)において前記ホットワードを話した速度を示す音声速度測定値を含んでいる場合、前記データ処理ハードウェア(410)によって、前記音声速度測定値に基づいて、エンドポイントタイムアウト期間の期間を、デフォルト値から増加させるか、または減少させるかの一方を、エンドポインタ(310)に命令するステップをさらに含む、請求項1から8のいずれか一項に記載の方法(300)。
前記1つまたは複数のホットワード属性(210)は、ニューラルネットワークベースのモデル、またはヒューリスティックベースのモデルのうちの少なくとも1つのモデルを使用して、前記第1の音響セグメント(121)から抽出される、請求項1から9のいずれか一項に記載の方法(300)。
データ処理ハードウェア(410)と、
前記データ処理ハードウェア(410)と通信しているメモリハードウェア(420)とを備え、前記メモリハードウェア(420)は、前記データ処理ハードウェア(410)によって実行されると、前記データ処理ハードウェア(410)に対して、
ユーザデバイス(102)によってキャプチャされたストリーミングオーディオ(118)において、ホットワード検出器(110)によって検出されたホットワードを特徴付ける第1の音響セグメント(121)を受け取るステップと、
前記第1の音響セグメント(121)から1つまたは複数のホットワード属性(210)を抽出するステップと、
前記第1の音響セグメント(121)から抽出された前記1つまたは複数のホットワード属性(210)に基づいて、自動音声認識(ASR)モデル(320)の1つまたは複数の音声認識パラメータを調整するステップと、
前記ASRモデル(320)の前記音声認識パラメータを調整した後、前記ASRモデル(320)を使用して、第2の音響セグメント(122)を処理して、音声認識結果(322)を生成するステップであって、前記第2の音響セグメント(122)は、前記ユーザデバイス(102)によってキャプチャされた前記ストリーミングオーディオ(118)において、前記第1の音響セグメント(121)に続く、発声されたクエリ/コマンドを特徴付ける、ステップと、
を含む動作を実行させる命令を記憶している、システム(100)。
前記第1の音響セグメント(121)から抽出された前記1つまたは複数のホットワード属性(210)は、
休止期間測定値、
音声速度測定値、
ピッチ測定値、
ASR予測測定値、または
音量/トーン測定値
のうちの少なくとも1つを含む、請求項11に記載のシステム(100)。
前記動作は、前記第1の音響セグメント(121)を受け取った場合、
ユーザデバイス(102)によってキャプチャされた前記ストリーミングオーディオ(118)が、前記ホットワード検出器(110)が検出するようにトレーニングされたホットワードを含む可能性に関する信頼度を示す、信頼度スコア(130)を受け取るステップをさらに含み、
前記第1の音響セグメント(121)から1つまたは複数のホットワード属性(210)を抽出するステップは、前記ASRモデル(320)が、前記第2の音響セグメント(122)において、前記クエリ/コマンド部分を正確に認識する可能性を示すASR予測測定値を抽出するステップを含む、請求項11または12に記載のシステム(100)。
前記ASRモデル(320)の前記1つまたは複数の音声認識パラメータを調整するステップは、
前記信頼度スコア(130)が信頼度スコア(130)しきい値よりも大きい場合、前記ASRモデル(320)によって出力される音声認識仮説の数を減少させる、および/または、前記ASRモデル(320)のビーム探索幅を減少させるステップ、または、
前記信頼度スコア(130)が前記信頼度スコア(130)しきい値よりも小さい場合、前記ASRモデル(320)によって出力される音声認識仮説の数を増加させる、および/または、前記ASRモデル(320)の前記ビーム探索幅を増加させるステップを含む、請求項13に記載のシステム(100)。
前記ASRモデル(320)の前記1つまたは複数の音声認識パラメータを調整するステップは、
前記信頼度スコア(130)が信頼度スコア(130)しきい値よりも大きい場合、認識仮説を、前記第1の音響セグメント(121)における前記ホットワードの認識に向けて偏らせるように、前記1つまたは複数の音声認識パラメータを調整するステップ、または、
前記信頼度スコア(130)が前記信頼度スコア(130)しきい値よりも小さい場合、認識仮説を、前記第1の音響セグメント(121)における前記ホットワードの認識に向けて偏らせないように、前記1つまたは複数の音声認識パラメータを調整するステップを含む、請求項13に記載のシステム(100)。
前記第1の音響セグメント(121)から1つまたは複数のホットワード属性(210)を抽出するステップは、前記第1の音響セグメント(121)に関連付けられた周波数の範囲を指定するピッチ測定値を抽出するステップを含み、
前記1つまたは複数の音声認識パラメータを調整するステップは、前記第2の音響セグメント(122)を処理して前記音声認識結果(322)を生成した場合、前記指定された周波数範囲に注目することによって、前記1つまたは複数の音声認識パラメータを調整し、前記第2の音響セグメント(122)に、周波数ベースのフィルタリングを適用するステップを含む、請求項11から15のいずれか一項に記載のシステム(100)。
前記動作は、前記第1の音響セグメント(121)から抽出された前記1つまたは複数のホットワード属性(210)のうちの1つのホットワード属性が、前記ホットワードを話す場合の声のトーンおよび音量を指定するトーンおよび音量スコアを含んでいる場合、前記生成された音声認識結果(322)に対するクエリ解釈を実行した場合に、自然言語理解(NLU)モジュール(330)に影響を与える、または前記ASRモデル(320)を偏らせるステップをさらに含む、請求項11から16のいずれか一項に記載のシステム(100)。
前記動作は、前記第1の音響セグメント(121)から抽出された前記1つまたは複数のホットワード属性(210)のうちの1つのホットワード属性が、話者が、前記ホットワードの発声中に、および/または、前記ホットワードの発声と、前記クエリ/コマンドの発声との間で、休止した程度を示す、休止期間測定値を含んでいる場合、前記休止期間測定値に基づいて、エンドポイントタイムアウト期間の期間を、デフォルト値から増加させるか、または減少させるかのいずれか一方を、エンドポインタ(310)に命令するステップをさらに含む、請求項11から17のいずれか一項に記載のシステム(100)。
前記動作は、前記第1の音響セグメント(121)から抽出された前記1つまたは複数のホットワード属性(210)のうちの1つのホットワード属性が、話者が前記ストリーミングオーディオ(118)において前記ホットワードを話した速度を示す音声速度測定値を含んでいる場合、前記音声速度測定値に基づいて、エンドポイントタイムアウト期間の期間を、デフォルト値から増加させるか、または減少させるかのいずれか一方を、エンドポインタ(310)に命令するステップをさらに含む、請求項11から18のいずれか一項に記載のシステム(100)。
前記1つまたは複数のホットワード属性(210)は、ニューラルネットワークベースのモデル、またはヒューリスティックベースのモデルのうちの少なくとも一方を使用して、前記第1の音響セグメント(121)から抽出される、請求項11から19のいずれか一項に記載のシステム(100)。