JP7336537B2

JP7336537B2 - 組み合わせで行うエンドポイント決定と自動音声認識

Info

Publication number: JP7336537B2
Application number: JP2021562016A
Authority: JP
Inventors: チャン、シュオ－イーン; プラカーシュプラバーバルカル、ロヒット; シムコ、ガボール; エヌ．サイナス、ターラ; リー、ボー; ホー、ヤンチャン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-04-16
Filing date: 2020-03-04
Publication date: 2023-08-31
Anticipated expiration: 2040-03-04
Also published as: KR20210151889A; WO2020214269A1; US11475880B2; JP2022529691A; EP3948854A1; CN113841195B; US20200335091A1; EP3948854B1; CN113841195A

Description

本開示は、組み合わせで行うエンドポイント決定（ｅｎｄｐｏｉｎｔｉｎｇ）と自動音声認識に関する。

自然言語処理システムは通常、エンドポインタを使用して、いつユーザが発話を話すことを始めて終えたかを決定する。一部の従来のエンドポインタは、発話がいつ開始または終了するかを決定する際に、単語間のポーズ期間を評価する。例えば、ユーザが「夕食は＜長いポーズ＞何か（ｗｈａｔｉｓ＜ｌｏｎｇｐａｕｓｅ＞ｆｏｒｄｉｎｎｅｒ）」と言った場合、従来のエンドポインタは、長いポーズの箇所でボイス入力をセグメントに分ける場合があり、自然言語処理システムに、完全なフレーズ「夕食は何か（ｗｈａｔｉｓｆｏｒｄｉｎｎｅｒ）」ではなく、不完全なフレーズ「何か（ｗｈａｔｉｓ）」の処理を行うよう指示する場合がある。エンドポインタが、ボイス入力に関して誤った開始点またはエンドポイント（ｅｎｄｐｏｉｎｔｉｎｇ）を指定した場合、ボイス入力を処理した結果は、不正確または望ましくない場合がある。話された発話の終了を認識すること、すなわちエンドポイント決定は、ストリーミング自動音声認識（ＡＳＲ）システムの重要な機能である。

組み合わせで行うエンドポイント決定と自動音声認識を提供する。

本明細書の実装形態は、発話の内容をデコードするとともに発話の終了を決定する音声認識モデルを対象とする。例えば、音声認識モデルは、音声デコードと音声エンドポイント決定の両方を組み合わせで実行するニューラルネットワークモデルであってよい。モデルは、例えば、発話のオーディオ特性を示す入力データを受信し、外部言語モデルを使用せずに正書法データ（書記素、ワードピース、単語など）を出力する、エンドツーエンドモデルであってよい。

単一のモデルでエンドポイントと音声コンテンツを組み合わせで予測することで、いくつかの利点が得られる。例えば、モデルにおける組み合わせの性質により、モデルは、（ｉ）発話の音響情報と、（ｉｉ）発話の言語内容またはセマンティック意味のモデルの解釈の両方に基づいてエンドポイント決定（ｅｎｄｐｏｉｎｔｉｎｇｄｅｃｉｓｉｏｎ）を行うことができる。これにより、オーディオ特性のみを評価するモデルよりも高速で正確なエンドポイント決定（ｅｎｄｐｏｉｎｔｉｎｇｄｅｃｉｓｉｏｎｓ）が可能となる。さらに、エンドポイントと音声内容の両方を組み合わせで予測することで、最初に転写を決定し、続いて転写を使用してエンドポイント決定を行うシステムよりも、非常に高速にエンドポイントを検出できる。

一般に、エンドポイント決定とは、フレーズ、文、疑問、または要求の終了など、話された発話の終了を識別する処理を指す。一部のエンドポイント決定技術では、ボイスアクティビティ検出器またはクエリ終了検出器をエンドポインタとして使用し、これは通常、音声認識モデルとともに動作するが音声認識モデルとは別個に動作する、別個のモデルまたはモジュールである。本明細書の実装形態は、エンドポイント決定機能を音声認識モデルに組み込むことによって、自動音声認識（ＡＳＲ）システムのエンドポイント決定を強化することを目的としている。具体的には、エンドツーエンドモデルを使用して、音声認識とエンドポイントの両方を組み合わせで実行できる。明らかになるように、音声認識とエンドポイント決定を組み合わせで実行できるエンドツーエンドモデルを採用することで、発話エンドポイントの検出における遅延／レイテンシを大幅に削減でき、場合によっては、エンドポイントの検出の遅延／レイテンシを半分に削減する。

任意選択により、音声認識とエンドポイント決定の組み合わせモデルを別のエンドポイント決定モジュールとともに使用して、冗長性を持たせ、平均レイテンシを減らしてもよい。例えば、組み合わせモデルは、多くの状況でより速く、より正確なエンドポイント決定結果を提供する可能性があるが、ただし、専用のエンドポイント決定モデルは、他の状況でより良い結果を提供する場合がある。両方の技術を併せて使用すると、幅広い状況で最良の結果を得ることができる。例えば、システムは、エンドポイントが２つのモデルからの最も早い信号に設定されるように構成され得る。換言すると、いずれのモデルもオーディオを並行して評価でき、２つのモデルのいずれかが最初にエンドポイントを示している場合、発話のエンドポイントが設定される。

本開示の一態様によれば、発話のエンドポイント決定の方法が提供される。方法は、データ処理ハードウェアにおいて、ユーザデバイスのユーザによって話された発話のオーディオデータを受信することと、データ処理ハードウェアによって、オーディオデータを処理して、発話の音声デコードおよびエンドポイント決定を組み合わせで実行するように構成された音声認識モデルからの出力として、発話の部分的な音声認識結果と、発話がいつ終了したかを示すエンドポイント標示と、を取得することと、を含む。オーディオデータの処理中、この方法はまた、データ処理ハードウェアによって、音声認識モデルから出力されたエンドポイント標示に基づいて、発話の終了を検出することを含む。方法は、発話の終了を検出することに応じて、データ処理ハードウェアによって、発話の終了が検出された後に受信された後続のオーディオデータの処理を終結することをさらに含む。

本開示の実装形態は、以下の任意の特徴のうちの１つまたは複数を含み得る。一部の実装形態では、方法は、発話の終了を検出することに応じて、データ処理ハードウェアによって、発話の転写を検索エンジンまたはデジタル会話アシスタントシステムに送信することであって、転写は、オーディオデータの処理中に音声認識モデルによって出力された部分的な音声認識結果に基づくことをさらに含む。一部の例では、音声認識モデルは、エンドポイント決定により発話がいつ終了したかが示される前に、発話の部分的な音声認識結果を出すように構成されているストリーミング音声認識モデルを含む。例えば、ストリーミング音声認識モデルは、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）を含んでいてもよい。これらの例では、方法は、発話の終了を検出する前に、データ処理ハードウェアによって、データ処理ハードウェアと通信する画面上に表示するために、音声認識オーディオによって出される部分的な音声認識結果を提供することをさらに含む。

データ処理ハードウェアは、ユーザのユーザデバイス上に常駐し、音声認識モデルを実行することができる。一部の実装形態では、発話の終了を検出することに応じて、方法は、データ処理ハードウェアによって、ユーザによって話された発話をキャプチャした１つまたは複数のマイクロフォンのアレイを非アクティブ化することをさらに含む。

音声認識モデルは、出力として、複数のオーディオ特徴からなるシーケンスにおけるオーディオ特徴毎の複数の出力ラベルのセットに係る確率分布を生成するように構成されたニューラルネットワークを含んでいてもよい。出力ラベルは、言語単位と発話エンドポイント記号を含んでいてもよい。ここで、オーディオデータを処理してエンドポイント標示を取得することは、発話エンドポイント記号を含む出力ラベルが、閾値スコアを満たす確率スコアに関連付けられている場合において、音声認識モデルがエンドポイント標示を出力したと判定することを含んでいてもよい。さらに、言語単位は、書記素、ワードピース、または単語を含んでいてもよい。一部の例では、複数の出力ラベルは、発話の開始を示す発話開始記号と、句読要素を示す句読記号と、スペース文字を示すスペース記号と、正書法要素に対応しない空白記号とのうちの少なくとも１つをさらに含む。

一部の例では、音声認識モデルは、発話のオーディオデータに基づいて、複数の記号からなるデコードされたシーケンスを出力するように構成され、オーディオデータを処理してエンドポイント標示を取得することは、エンドポイント標示に対応するエンドポイント記号が、音声認識モデルによって出力された複数の記号からなるデコードされたシーケンスに含まれるかどうかを判定することを含む。これらの例では、エンドポイント標示に対応するエンドポイント記号が、音声認識モデルによって出力された複数の記号からなるデコードされたシーケンスに含まれるかどうかを判定することは、エンドポイント記号に関連付けられている確率スコアが閾値スコアを満たすと決定することを含んでいてもよい。追加の例では、オーディオデータを処理して、発話の終了を示すエンドポイント標示を取得することは、音声認識モデルの複数の出力にわたるビームサーチ処理中、エンドポイント標示に対応する記号が、ビームサーチ処理における１つまたは複数のビームに含まれるかどうかを判定することを含む。

本開示の別態様によれば、データ処理ハードウェアと、メモリハードウェアと、を備えるシステムが提供される。メモリハードウェアは命令を記憶し、命令は、データ処理ハードウェアによって実行されるとき、データ処理ハードウェアに、ユーザデバイスのユーザによって話された発話のオーディオデータを受信することと、オーディオデータを処理して、発話の音声デコードおよびエンドポイント決定を組み合わせで実行するように構成された音声認識モデルからの出力として、発話の部分的な音声認識結果と、発話がいつ終了したかを示すエンドポイント標示と、を取得することと、を含む動作を実行させる。オーディオデータの処理中、動作はまた、音声認識モデルから出力されたエンドポイント標示に基づいて、発話の終了を検出することを含む。動作は、発話の終了を検出することに応じて、発話の終了が検出された後に受信された後続のオーディオデータの処理を終結することをさらに含む。

本態様は、以下の任意の特徴のうちの１つまたは複数を含み得る。一部の実装形態では、動作は、発話の終了を検出することに応じて、発話の転写を検索エンジンまたはデジタル会話アシスタントシステムに送信することであって、転写は、オーディオデータの処理中に音声認識モデルによって出力された部分的な音声認識結果に基づくことをさらに含む。一部の例では、音声認識モデルは、エンドポイント決定が発話がいつ終了したかを示す前に、発話の部分的な音声認識結果を出すように構成されているストリーミング音声認識モデルを含む。例えば、ストリーミング音声認識モデルは、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）を含んでいてもよい。これらの例では、動作は、発話の終了を検出する前に、データ処理ハードウェアと通信する画面上に表示するために、音声認識オーディオによって出される部分的な音声認識結果を提供することをさらに含む。

データ処理ハードウェアは、ユーザのユーザデバイス上に常駐し、音声認識モデルを実行することができる。一部の実装形態では、発話の終了を検出することに応じて、動作は、ユーザによって話された発話をキャプチャした１つまたは複数のマイクロフォンのアレイを非アクティブ化することをさらに含む。音声認識モデルは、出力として、複数のオーディオ特徴からなるシーケンスにおけるオーディオ特徴毎の複数の出力ラベルのセットに係る確率分布を生成するように構成されたニューラルネットワークを含んでいてもよい。出力ラベルは、言語単位と発話エンドポイント記号を含んでいてもよい。ここで、オーディオデータを処理してエンドポイント標示を取得することは、発話エンドポイント記号を含む出力ラベルが、閾値スコアを満たす確率スコアに関連付けられている場合において、音声認識モデルがエンドポイント標示を出力したと判定することを含んでいてもよい。さらに、言語単位は、書記素、ワードピース、または単語を含んでいてもよい。一部の例では、複数の出力ラベルは、発話の開始を示す発話開始記号と、句読要素を示す句読記号と、スペース文字を示すスペース記号と、正書法要素に対応しない空白記号とのうちの少なくとも１つをさらに含む。

本開示の１つまたは複数の実装形態の詳細は、添付の図面および以下の説明に記載されている。他の態様、特徴、および利点は、説明、図面、および特許請求の範囲から明らかとなる。

クエリ終了（ＥＯＱ）エンドポインタとともに、自動音声認識（ＡＳＲ）とエンドポイント決定モデルを組み合わせて使用した例示的な音声認識装置の概略図である。発話の音声デコードとエンドポイント決定を組み合わせで実行するべく、図１の組み合わされたＡＳＲとエンドポイント決定モデルをトレーニングするための例示的なトレーニングプロセスの概略図である。エンドポインタモジュールによって予測された複数のクエリ終了（ＥＯＱ）分類ラベルからなるシーケンスのプロットである。図１の組み合わされたＡＳＲおよびエンドポイント決定モデルによって出力されたエンドポイントトークンを含む、デコードされた複数の出力ラベルからなるシーケンスのプロットである。リカレントニューラルネットワークートランスデューサー（ＲＮＮ－Ｔ）モデルのアーキテクチャの例を示す図である。ＥＯＱ分類装置、エンドツーエンドエンドポインタ、およびＥＯＱエンドポインタとエンドツーエンドエンドポインタを合わせた結合システムに係る、単語誤り率（ＷＥＲ）とメディアンレイテンシのプロットである。ＥＯＱエンドポインタのレイテンシを示すヒストグラムである。エンドツーエンドのエンドポインタのレイテンシを示すヒストグラムである。ＥＯＱエンドポイントとエンドツーエンドエンドポインタを合わせた結合システムのレイテンシを示すヒストグラムである。本明細書で説明されるシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイスの概略図である。音声認識モデルを使用して発話のエンドポイント決定を行う方法の動作の例示的な構成のフローチャートである。

さまざまな図面での同様の参照番号は、同様の要素を示す。
汎用自動音声認識（ＡＳＲ）システムは、フレーズ、文、質問、または要求の終わりなど、行われた発話の終了を認識するように構成され得る。発話が終了したことを迅速かつ正確に判定することは、ローレイテンシで正確な結果を提供するためにしばしば重要である。例えば、ＡＳＲシステムのオーディオのキャプチャと処理の終了が早すぎると、ユーザの発話の終了が含まれなくなり、得られる転写が不完全になる可能性がある。一方、発話が終了した後もＡＳＲシステムが追加のオーディオ待ち続けると、システムはユーザへの応答の提供を不必要に遅らせる可能性がある。

ＡＳＲシステムには、エンドポインタを含めることができ、これは、ユーザがいつ話し終えたかを判定するためのＡＳＲシステムのコンポーネントである。エンドポインタの目的は、ボイスアシスタントやボイス検索などのストリーミング音声認識アプリケーションで自然で高速なボイス対話を保証することである。ユーザが話し終えたらすぐにマイクロフォンを閉じることが望ましい。これにより、レイテンシと呼ばれるシステム応答の遅延が最小限に抑えられる。しかしながら、発話が途中で途切れないようにすることも重要である。エンドポイント決定のエラーは、ユーザエクスペリエンスに大きな影響を与える可能性がある。システムがマイクロフォンを閉じるのに待ちすぎると、ユーザエクスペリエンスにおいて遅く感じられる。システムが急ぎすぎると、ユーザは話している最中に切れてしまう。したがって、転写の精度（例えば、単語誤り率（ＷＥＲ）で測定）とレイテンシの間のトレードオフは、ＡＳＲアプリケーションにとって非常に重要である。したがって、ＡＳＲシステムは、認識精度を低下させることなく、発話が終了した後、可及的に早く、エンドポイント決定を行うとともにマイクロフォンを閉じるか、あるいは、現在の発話にさらなるオーディオを含めるのを停止することが望ましい。

一部のＡＳＲシステムは、個別の音響、発音、および言語モデルのコンポーネントを含む。これらのＡＳＲシステムは、個別にトレーニングされたエンドポイント決定モジュールに依存する場合があり、これは、個々のコンポーネントと相互作用して、行われた発話の終了を識別する。

発話の終了を認識する１つの方法は、ボイスアクティビティ検出器（ＶＡＤ）を使用して、オーディオ信号の各フレームを音声または無音として分類することであり、ここで、無音は厳密に非音声である。ＶＡＤを使用する場合、システムが音声を観察し、後に長い無音間隔が続くとすぐにエンドポイントが設定される。ＶＡＤは、現在の音声と現在の無音を区別する音響キューを検出するが、現在の無音の後に後続の音声が続くかどうかを予測するのに役立つ可能性のある潜在的なキューを無視する。これらの潜在的な音響キューは、人間の話し手が所与のポーズの後に話し続ける意図があるか否かの決定について情報提供する、フィラーサウンド、話すリズム、またはピッチを含む。したがって、ＶＡＤはシステム応答に長い遅延をもたらす可能性がある。一般に、ＶＡＤは長い形式の音声をエンドポイント决定するのに適している。

別のタイプのエンドポインタは、確率的クエリ終了（ＥＯＱ）分類装置であり、これは、ユーザが所与の時間に話し終えたかどうかを直接予測するようにトレーニングされる。ＥＯＱ分類装置は、音声、初期無音、中間無音、および最終無音を探す。ＥＯＱ分類装置は、ユーザが音声をさらに発する意図があるかどうかを示すのに役立つ音響キューを検出できる。さらに、ＶＡＤは発話の開始と終了近くの無音を同じように処理するのに対して、ＥＯＱ分類装置はそれらを異なる方法で処理する。ＥＯＱ分類装置では、エンドポイント決定の確率は発話全体を通して時間とともに増加する。ＥＯＱ分類装置は、言語モデルからの情報を考慮せずに、音響情報のみに基づいてエンドポイントの決定を行う。ＥＯＱ分類装置は、音響モデル、発音モデル、言語モデルなど、ＡＳＲの他のコンポーネントから独立してトレーニングされる。

一部のＡＳＲシステムは、音響、発音、および言語モデルを単一のエンドツーエンドニューラルネットワークにまとめたエンドツーエンドモデルを使用するので、認識パイプラインが簡素化される。多くの最新のＡＳＲシステムの重要な要件は、例えば、話者が話し続けている間、デコードされた音声の同時判定と出力が可能である等、ストリーミング操作を可能とすることである。ストリーミングモデルは、音声コンテンツをデコードするよう、発話の終了を待たずに、ユーザが話しているときに決定を出す。ストリーミングモデルは、発話が終了するまでデコードの実行を待つことはできない。ストリーミングニューラルネットワークモデルの１つのタイプは、リカレントニューラルネットワークトランスデューサー（ＲＮＮ－Ｔ）であり、内部メモリを使用して複数の入力からなるシーケンスを処理できる。ＲＮＮ－Ｔモデルは、オーディオ信号が処理されるときに部分的な認識結果を出すことができる。

エンドポイント決定は、エンドポインタを音声認識ニューラルネットワークに組み込むことにより、組み合わされたモデルが音声認識（デコードなど）とエンドポイント決定の両方を実行できるようにした、エンドツーエンドのＡＳＲモデルを使用して改良され得る。この組み合わせモデルを、任意選択により、別のエンドポイント決定モジュールとともに組として使用して、冗長性を持たせ、平均レイテンシを減らしてもよい。結合システムは、組み合わされたエンドポイント決定／音声認識モデルと専用のエンドポイント決定モデル（ＥＯＱモデルやＶＡＤなど）との両方を使用してエンドポイント決定をトリガーし、２つのモデルのどちらが最初にエンドポイントをトリガーするかに基づいてエンドポイントを設定する。

図１は、ＥＯＱエンドポインタ１５０とともに、ＡＳＲとエンドポイント決定モデルを組み合わせて使用した例示的な音声認識装置１００を示している。示されている例では、音声認識装置１４０は、ユーザデバイス１１０のデータ処理ハードウェア１１１上で実行し、ユーザデバイス１１０がユーザ１１５によって話された発話１２０をキャプチャすることを可能とし、発話１２０の音声認識とエンドポイント決定をローカルで実行する。ユーザデバイス１１０は、データ処理ハードウェア１１１によって実行されると、動作（特に、音声認識装置１００の実行を含む）をデータ処理ハードウェアに実行させる命令を記憶するメモリハードウェア１１３を含む。他の例では、音声認識装置１００のコンポーネントのいくつかまたはすべては、リモートコンピューティングデバイス、例えば、クラウドコンピューティング環境を提供する分散システムの１つまたは複数のサーバ上に存在し得る。例えば、組み合わされたＡＳＲおよびエンドポイントモデル１４０は、ユーザデバイス１１０またはリモートコンピューティングデバイスのうちの１つに存在していてもよく、ＥＯＱエンドポインタ１５０は、ユーザデバイス１１０またはリモートコンピューティングデバイスのうちの他方に存在していてもよい。したがって、組み合わされた音声認識およびエンドポイント決定技術は、クライアントデバイスおよびサーバシステムが情報を交換して音声処理を完了する構成で、クライアントデバイスまたはサーバシステムによって使用され得る。

音声認識装置１００は、発話１２０をエンコードしたオーディオデータ１２５を受信し、オーディオデータ１２５の音響特性を示す複数のオーディオ特徴１３５を生成するように構成された特徴抽出モジュール１３０を含む。複数のオーディオ特徴１３５は、組み合わされたＡＳＲおよびエンドポイント決定モデル（「組み合わせモデル」）１４０と、ＥＯＱエンドポインタ１５０とに入力される。組み合わせモデル１４０の出力は、ビームサーチ処理１４５または別のプロセスを使用して評価される。例えば、認識装置は、組み合わせモデル１４０の複数の出力から得られた音声格子１５５上でビームサーチ処理１４５を実行して、オーディオデータ１２５にエンコードした発話１２０の転写１６５を生成することができる。音声認識装置１００は、組み合わせモデル１４０またはＥＯＱエンドポインタ１５０のいずれか最初に発生した方から、エンドポイント信号を受信することに応じて、エンドポイント検出１６０をトリガーすることができる。エンドポイント信号は、発話１２０の終了を示す組み合わせモデル１４０またはＥＯＱエンドポインタ１５０によって出力されるエンドポイント標示に対応する。一部の例では、エンドポイント標示（例えば、エンドポイント信号）は、ビームサーチ１４５によって選択された転写１６５にエンドポイントトークン１７５を含み得る。音声認識装置１００がエンドポイント検出１６０をトリガーすると、ユーザデバイス１１０は、発話１２０の検出を終了することができ、これは、例えば、組み合わせモデル１４０を使用してさらなるオーディオの処理を停止することによって行われてもよいし、あるいは、一部の実装形態では、マイクロフォン１０５のアレイからシステム１００の少なくともいくつかの部分への入力を無効にすることによって行われてもよい。例えば、音声認識装置１００は、マイクロフォンを閉じるイベントとしても知られる、マイクロフォン１０５を非アクティブ化するための命令を提供することができる。エンドポイント信号はまた、デバイス１１０をトリガーして、別のアクション１７０を実行することが可能であり、例えば、検索結果を要求または提供することによって、発話１２０への応答を始めること、コマンドを実行すること等が可能である。

示されている例では、ユーザ１１５は、コマンドに関連付けられる発話１２０をユーザデバイス１１０に話す。ユーザデバイス１１０の１つまたは複数のマイクロフォン１０５からなるアレイ（一部の例では、アレイ内の１つまたは複数のマイクロフォンは、ユーザデバイス１１０から離れており、データ処理ハードウェア１１１と通信している場合がある）は、発話１２０のオーディオデータ１２５を取得し、特徴抽出モジュール１３０は、組み合わせモデル１４０への入力のために、発話１２０の音響特性に対応する複数の音声特徴１３５を抽出する。ここで、組み合わせモデル１４０は、ストリーミング音声認識を実行するために、継続的な方法でオーディオ特徴１３５を継続的に受信および処理することができる。このプロセスは、音声認識処理をトリガーするウェイクワードまたはホットワードの検出から始まる場合がある。

音声認識プロセスの一部として、特徴抽出モジュール１３０は、オーディオデータ１２５の音響特性を表す複数のオーディオ特徴１３５を識別することによって、オーディオデータ１２５を処理する。例えば、特徴抽出モジュール１３０は、しばしばフレームと呼ばれる、オーディオの互いに異なる時間ウィンドウに関し、オーディオ特徴ベクトルを生成する。一連の複数の特徴ベクトルは、さまざまなモデルへの入力とされる。オーディオ特徴ベクトルは、メル周波数ケプストラム（ｃｅｐｔｒａｌ）係数（ＭＦＣＣ）などのオーディオデータ１２５の特性に関する情報を含む。複数のオーディオ特徴は、オーディオのピッチ、ラウドネス、周波数、エネルギーなど、さまざまな要因のいずれかを示す場合がある。複数のオーディオ特徴１３５は、組み合わせモデル１４０（例ではＲＮＮ－Ｔなどのリカレントニューラルネットワークモデル）と、ＥＯＱエンドポインタ１５０とに対する入力として提供される。一部の実装形態では、複数の特徴ベクトルは、モデル１４０、１５０に１つずつ順次提供され得る。

ニューラルネットワークベースの組み合わせモデル１４０は、複数のオーディオ特徴１３５を評価して、複数のＡＳＲスコアを計算する。ＡＳＲスコアは、さまざまな言語単位が発生した可能性を示す。例えば、モデルは、正書法要素（書記素、ワードピース、単語など）を含む複数の出力ラベルの分布にわたって複数のスコアを出力できる、ここで、分布における複数のスコアが、対応する正書法の複数の単位が話された単語を表す確率を表す。

音声の転写を行うときに、あり得るすべての単語シーケンスを評価することは不可能である。したがって、複数のＡＳＲスコアが計算されると、認識装置１００は、最も有望な記号パスに検索を導くよう、プルーニングを含むビームサーチ処理１４５を実行する。換言すると、ビームサーチ処理１４５は、限られた数のアクティブビームを使用して、話された複数の単語からなる最も可能性の高いシーケンスを検索することによって、伴われる計算を制限することができる。格子プルーニングなどの他の関連するプロセスを使用して、組み合わせモデル１４０の複数の出力から得られる格子１５５のサイズを縮小することができる。組み合わせモデルは、複数の出力ステップのそれぞれについて複数の出力（出力ラベルなど）からなるセットを判定するとともに、ビームサーチ処理１４５は、可能性の低い探索パスをプルーニングし、最も可能性の高いパスのみを維持することができる。多くの場合、これには限られた数のサーチビームのみを維持することが含まれる。

一部の実装形態では、ＲＮＮ－Ｔ組み合わせモデル１４０は、ＲＮＮ－Ｔ組み合わせモデル１４０が生成する複数の出力ラベルからなる各セットの複数の出力スコアを生成し、複数の出力ラベルからなる各セットにおける複数の出力ラベルの１つは、エンドポイントの決定を予測するために使用する特別なエンドポイントトークン＜／ｓ＞１７５を含む。エンドポイントトークン１７５は、発話の終了を示すためにモデル１４０によって生成／予測される、予期される出力ラベルシーケンスの一部として含まれるエンドポイント標示に対応する。以下でより詳細に説明するように、組み合わせモデル１４０は、エンドポイントトークン１７５に高い確率スコアを割り当てることによって、発話のエンドポイントに到達したことを示すことができる。例えば、エンドポイントトークン１７５の組み合わせモデル１４０からの確率スコアがしきい値スコアを満たす場合、および／または、ビームサーチ処理１４５が転写にエンドポイントトークン１７５を含む場合、認識装置１００は、発話の終了に到達したことを検出することができる。特に、エンドポイントに到達したかどうかを示すエンドポイント決定１６０は、ビームサーチ処理１４５中に、最高スコアのビームにエンドポイントトークン＜／ｓ＞１７５が含まれている場合に行われ得る。このように、組み合わせモデル１４０は、音声デコーダおよびエンドポインタとして組み合わせで機能し、エンドポイント決定１６０は、文末トークン＜／ｓ＞１７５の出力に基づいている。

システムはまた、組み合わせモデル１４０と並行してエンドポインタ１５０を動作させることができる。エンドポイントが判定される前に、両方のモデル１４０、１５０は、オーディオデータ１２５が受信／検出されるときに、追加のオーディオデータ１２５から特徴抽出モジュール１３０によって抽出された複数の新たな特徴ベクトル１３５を受信することができる。エンドポインタ１５０は、オーディオ特徴１３５を評価して、ユーザが所与の時間に話し終えたかどうかを予測する。エンドポインタ１５０は、ユーザが音声をさらに発する意図があるかどうかを示すのに役立つ音響キューを検出できるＥＯＱ型であってもよい。エンドポインタ１５０は、言語モデルまたは他の音声認識モデルからの情報を考慮することなく、音響情報のみに基づいてエンドポイント決定を行うことができる。

音声認識装置１００は、ＥＯＱエンドポインタ１５０と組み合わせモデル１４０の両方を使用して、エンドポイント決定１６０を行うことができる。エンドポイントは、モデル１４０、１５０のいずれかが、最初に、発話のエンドポイントに到達したことを示すエンドポイント標示を信号で示すことに基づいて、トリガーされる。多くの場合、組み合わせモデル１４０が、最初に、エンドポイント決定を行う。これは、エンドポイント決定は、組み合わせモデル１４０のデコードと併せて実行されることによる。これにより、音響データの意味をよりセマンティックに認識した解釈が可能となる。しかしながら、組み合わせモデル１４０がエンドポイント標示を出力できない可能性があり得る。これは、不完全なフレーズや典型的でない単語の選択など、ユーザの音声の異常が原因である可能性があり、ここでは、検出された音声のセマンティック意味が、さらなる音声が来ることを誤って示唆している可能性がある。これらの例では、ＥＯＱエンドポインタ１５０は、組み合わせモデル１４０がまだエンドポイントを決定していない場合でも、音響データ（例えば、有意なポーズまたは無音）に基づいてエンドポイント決定をトリガーするよう、冗長性を提供する。

エンドポイントが検出されると、ＥＯＱエンドポインタ１５０または組み合わせモデル１４０の出力によるかどうかにかかわらず、デバイス１１０は、発話の検出を終了する。これには、さらなる音声の聴取または処理を減らす、または停止するための１つ以上のアクションが伴われる場合がある。同様に、それは、組み合わせモデル１４０（または他の任意の音声認識モデル）またはリモートシステムへのオーディオデータの提供を停止することを含み得る（サーバシステム等）。一部の実装形態では、デバイス１１０は、音声認識プロセスを終結するが、デバイス１１０は、キーワードスポッティングモデルを使用して、ホットワードまたはウェイクワードなどの特定のキーワードを検出し続けることができる。エンドポイントの検出に応じて、デバイス１１０は、検索エンジンまたはデジタル会話アシスタントに転写を送信するなど、発話に対する応答の取得および提供を始めることができる。さらに、エンドポイントの検出に応じて、現在の発話を終了することができ、それ以降の発話は新しい別個の発話の一部と見なされてよい。

図１の例では、認識装置は、発話の転写１６５を生成する。次に、ユーザデバイス１１０は、転写１６５からアクション１７０を判定し、話されたコマンド１２０に応じたアクション１８０を実行することができる。例えば、転写１６５が「音楽を再生（Ｐｌａｙｍｕｓｉｃ）」の場合、ユーザデバイス１１０は、転写１６５がコマンドを表すことを判定することができ、デバイス１１０は、モバイルデバイス１１０上の音楽アプリから音楽を再生し始めることができる。

当然のことながら、この方法で生成された転写は、ボイスコマンドを判定することに加えて、またはその代わりに、様々な方法で使用可能である。例えば、転写１６５は、デバイス１１０の画面上に表示するために提供されてもよいし、デバイス１１０上のアプリケーションに提供されてもよいし、ネットワークを介してサーバシステムに提供されてもよいし、検索エンジンまたは他のシステムへのリクエストに含めてもよいし、口述されたメッセージまたは文書に含めてもよい。エンドポイントの検出は、これらのアクションのいずれか、および追加の音声認識モデル（言語モデルなど）または他の処理による再スコアリングなどの他のアクションをトリガーできる。さらに、オーディオデータ１２５が受信されている間、および発話の終了を検出する前において、認識装置１００は、ＲＮＮ－Ｔ組み合わせモデル１４０によって出力された部分的な音声認識結果（例えば、書記素、ワードピース、または単語）から部分的な転写１６５を生成することができる。ここで、認識装置１００は、ユーザ１１５がまだ話している間に、ストリーミング方式でユーザデバイス１１０（または別のデバイス）の画面上に部分的な転写１６５を表示することができる。

図１の例では、音声認識装置１００（例えば、ＡＳＲシステム）は、音声認識モデル１４０および追加のエンドポイント決定モデル１４０が、メモリハードウェア１１３に記憶されてデバイス１１０のデータ処理ハードウェア１１１上でローカルに実行されるものとして、モバイルデバイス１１０上でセルフコンテインドの態様で示されている。この構成では、デバイス１１０は、ネットワークへの接続を必要とせずに音声認識機能を提供することができる場合がある。それでも、同じモデリング手法は、リモートデバイスによるエンドポイント決定の実行に用いられてもよいし、処理が複数のデバイス間で共有されている場合に用いられてもよい。例えば、ネットワークを介して受信されたオーディオデータを処理するサーバシステムは、組み合わされたエンドポイント決定と音声認識モデル１４０を使用して、同様に応答を提供する際のレイテンシを短縮することができる。

図２は、音声のデコードと発話のエンドポイント決定を組み合わせで実行するべく、組み合わせモデル１４０をトレーニングするための例示的なトレーニングプロセス２００を示している。トレーニングプロセス２００は、複数のトレーニングサンプル２３６を含むトレーニングデータ２３５により、組み合わされたＡＳＲおよびエンドポイント決定モデル１４０をトレーニングし、複数のトレーニングサンプル２３６の各々が、トレーニング発話２２０と、トレーニング発話２２０に対応する転写２２０と、および対応する転写２２０についての複数の参照出力ラベル２２２からなるシーケンスとを含む。トレーニングプロセス２００は、話された発話から音響データ２１０を収集することによってトレーニングデータ２３５を生成することができる。場合によっては、数千、数十万、または数百万の発話が収集されて使用される。トレーニングサンプル２３６の例は、２０００万の英語の発話２１１（１０，０００時間を超える）を含み得る。複数のトレーニング発話２１１は、匿名化され、転写プロセス２１５によって転写されて、対応するテキスト転写２２０を生成する。転写プロセス２１５は、トレーニングされた音声認識システムによって、または人間によって手動で実行され得る。実世界の状態での堅牢性を向上させるために、トレーニングサンプル２３６の少なくとも一部におけるトレーニング発話２２０は、部屋シミュレータを使用して様々な程度のノイズおよび残響を追加する２２５ことによって人為的に破壊されてもよい。一例では、複数のトレーニング例からなるセットは、全体的な信号対雑音比（ＳＮＲ）が異なる（０ｄＢから３０ｄＢであり、平均ＳＮＲが１２ｄＢ）複数のトレーニング発話２２０を持っている場合がある。結果として、各トレーニングサンプル２３６は、トレーニング発話２１１のオーディオデータと、対応する参照転写２２０と、複数の参照出力ラベル２２２からなるシーケンスとを含むことができる。

トレーニングプロセス２００中、トレーニングモジュール２７０は、組み合わせモデル１４０のパラメータを調整する。例えば、トレーニングモジュール２７０は、組み合わせモデル１４０への入力として、一度に１つのトレーニング発話２１１に関連付けられる特徴ベクトルを供給可能であり、組み合わせモデル１４０は、出力として、複数の出力スコア２６０からなる様々なセットを生成／予測することができる。個々の複数の出力スコア２６０はそれぞれ、出力ラベルセット２６５内における異なる複数の出力ラベルに対応する。出力ラベルセット２６５は、言語単位、例の書記素、およびエンドポイントトークン＜／ｓ＞２７５を含む。複数の出力スコア２６０はそれぞれ、対応する記号が、発話を表すデコードされたシーケンスに追加されるべき相対尤度を表す。追加のタイプの出力ラベルが使用されてもよく、例えば、スペース文字の出力ラベル、句読点の出力ラベル、およびデコードされたラベルシーケンスへの正書法（たとえば、記述された）要素の追加を表さない「空白」出力ラベルが使用されてもよい。トレーニングモジュール２７０は、予測された複数の出力ラベル２６５および関連付けられた複数の出力スコア２６０を、対応する参照転写２１１についての複数の参照出力ラベル２２２と比較するように構成されるとともに、予測の精度を改善するために、組み合わせモデル１４０のパラメータ、例えば、ニューラルネットワークの重みを調整するように構成される。エンドポイントトークン＜／ｓ＞２７５の予測精度を向上させるためのトレーニングは、言語単位の出力ラベルのトレーニングと組み合わせで同時に行うことができる。モデルパラメータを調整するこのプロセスは、多くの異なるトレーニングサンプル２３６に対して繰り返されて、組み合わせモデル１４０をトレーニングして、音声デコードおよびエンドポイント決定の両方について正確な予測を行うことができる。

図１を再び参照して、エンドポインタ１５０は、ユーザがいつ話し終えたかを判定するための音声認識装置のコンポーネントである。エンドポインタの目的は、ボイスアシスタントやボイス検索などのストリーミング音声認識アプリケーションで自然で高速なボイス対話を保証することである。ユーザが話し終えたらすぐにマイクロフォンを閉じることが望ましい。これにより、システム応答の遅延またはレイテンシが最小限に抑えられる。ただし、ユーザがまだ話している間は切断しないようにすることも重要である。エンドポイント決定のエラーは、ユーザエクスペリエンスに大きな影響を与える可能性がある。システムがマイクロフォンを閉じるのに待ちすぎると、ユーザエクスペリエンスにおいて遅く感じられる。システムが急ぎすぎると、ユーザは話している最中に切れてしまう。したがって、転写の精度（単語誤り率（ＷＥＲ）で測定）とレイテンシの間のトレードオフは、ＡＳＲアプリケーションにとって非常に重要である。システムは、ＷＥＲを低下させることなく、発話後に可及的に早くエンドポイント決定を行いマイクロフォンをと閉じる必要がある。

発話の終了を認識する１つの方法は、ＶＡＤを使用して、オーディオ信号の各フレームを音声または無音として分類することである。ＶＡＤでは、システムが音声を観察し、後に長い無音間隔が続くとすぐにマイクロフォンが閉じる。ＶＡＤは、現在の音声と現在の無音を区別する音響キューを検出するが、現在の無音の後に後続の音声が続くかどうかを予測するのに役立つ可能性のある潜在的なキューを無視する。これらの潜在的な音響キューは、人間の話し手が所与のポーズの後に話し続ける意図があるか否かの決定について情報提供する、フィラーサウンド、話すリズム、または基本周波数を含む。したがって、この方法はシステム応答に長い遅延をもたらす可能性がある。

確率的クエリ終了（ＥＯＱ）分類装置は、ユーザが所与の時間に話し終えたかどうかを直接予測するようにトレーニングされる。ＥＯＱ分類装置は、音声、初期無音、中間無音、および最終無音を探す。ＥＯＱ分類装置は、ユーザが音声をさらに発する意図があるかどうかを示すのに役立つ音響キューを検出できる。さらに、ＶＡＤは発話の開始と終了近くの無音を同じように処理するのに対して、ＥＯＱ分類装置はそれらを異なる方法で処理する。ＥＯＱ分類装置では、エンドポイント決定の確率は発話全体を通して時間とともに増加する。ＥＯＱ分類装置は、言語モデルからの情報を考慮せずに、音響情報のみに基づいてエンドポイントの決定を行う。ＥＯＱ分類装置は、音響モデル、発音モデル、言語モデルなど、ＡＳＲの他のコンポーネントから独立してトレーニングされる。

図３Ａは、複数のオーディオ特徴１３５からなるシーケンスによって表される発話１２０について、ＥＯＱ分類装置によって出力された複数のクエリ終了（ＥＯＱ）検出ラベルからなるシーケンスのプロット３００ａを示している。プロット３００ａはまた、発話１２０について、対応する転写１６５を示している。ＥＯＱ検出ラベルは、音声（「０」）、初期無音（「３」）、中間無音（「２」）、および最終無音（「３」）を含む。シーケンス出力ラベルの記号＜ｓｐ＞は、スペースを表す。フレームに関し最終的な無音の後は、ハードマイクロフォンの終了決定を取得するためにしきい値処理される。ＥＯＱ分類装置は、同じＷＥＲでＶＡＤベースのエンドポインタよりも約１００ミリ秒のレイテンシの改善を示している。

ＶＡＤ分類装置とＥＯＱ分類装置はどちらも、言語モデルからの情報を無視して、音響情報のみに基づいてエンドポイントの決定を行う。さらに、これらの分類装置は、音響モデル、発音モデル、言語モデルなど、ＡＳＲパイプラインの他のコンポーネントから独立してトレーニングされる。デコードとエンドポイント決定を組み合わせで実行するようにエンドツーエンドモデルをトレーニングすることにより、ＶＡＤおよびＥＯＱ分類装置を改善できる。

図３Ｂは、ＲＮＮ－Ｔの組み合わせモデル１４０によって出力された、デコードされた複数の出力ラベル２６５からなるシーケンスのプロット３００ｂである。ＲＮＮ－Ｔモデルによる組み合わせデコードおよびエンドポイント決定を有効にするために、ＲＮＮ－Ｔモデルは文末（エンドポイントなど）トークン＜／ｓ＞１７５でトレーニングされる。ここで、ビームサーチ処理１４５は、＜／ｓ＞が出力されると終結する。ここで、エンドポイントトークン＜／ｓ＞１７５は、発話１２０の終了を示すエンドポイント標示に対応する。これにより、エンドポイント決定がエンドツーエンドモデルに組み合わせで統合され、外部のＶＡＤまたはＥＯＱ分類装置への依存が最小限に抑えられる。

図４は、組み合わせモデル４００のＲＮＮ－Ｔのアーキテクチャを示している。アーキテクチャでは、エンコーダ４１０は、音響特徴ベクトル

を受信する音響モデルに類似している。これに対し、予測ネットワーク４２０は、以前の書記素ラベル予測ｙ_ｕ－１を入力として受信し、出力ベクトルｐ_ｕを計算する言語モデルとして機能する。音響フレーム入力ｔとラベルｕの組み合わせごとに、エンコーダ４１０の複数の出力ｈ_ｔおよび予測の複数の出力ｐ_ｕは、出力ロジットを計算するために組み合わせネットワーク４３０に渡され、これは、複数の出力ターゲットからなるセットにわたる確率分布を定義するソフトマックス層４４０へと供給される。したがって、ＲＮＮ－Ｔは、追加の外部言語モデルを使用せずに直接書記素を直接出力するように構成されているので、エンドツーエンドモデルとしてしばしば説明される。

ＲＮＮ－Ｔの条件付き確率分布は、次のように表すことができる。

ここで、ｘ_ｉは特徴ベクトルであり、各フレーム１…Ｔの８０次元のログメルフィルターバンク特徴である。長さＵのグラウンドトゥルースラベルシーケンスは、ｙ_１、ｙ_２、…、ｙ_ｕとして表される。ここで、

であり、Ｓは複数の書記素記号からなるセットである。特別な記号ｙ_０＝＜ｓｏｓ＞は、シーケンスの開始を示す。定式化の便宜のために、Ｓは、追加の空白記号＜ｂ＞で拡張され、可能なすべてのアラインメントのセットは、次のように記述される。

ここで、

はすべてのラベルシーケンス

を表し、

は、＜ｂ＞を取り除くとｙに等しくなるようになっている。この表記を使用して、所与の音響のラベル付けの条件付き確率Ｐ（ｙ｜ｘ）は、アライメントを単純に合計することによって得られる。

アラインメント

においてでいくつかのラベルが表れる確率は、時間ｔまでの音響特性と、これまでに出た非空白ラベル

の履歴により条件付けられている。時間ｔまでの部分的なアラインメント

の確率は、将来のフレームからの音響特徴に依存しないという唯一の独立仮定がなされている。これにより、ストリーミング方式での推論が可能になり、計算を開始する前にすべてのオーディオを待つ必要がなくなる。これにより、実行が高速化されるだけでなく、オーディオの処理中に認識結果が生成され、組み合わせのエンドポイント決定が可能となる。

エンドポイント決定でＲＮＮ－Ｔを拡張するよう、特別な記号＜／ｓ＞は、予想されるラベルシーケンスの一部として発話の終わりを示す。一部の例では、ＲＮＮＴモデル１４０は、トップビームに＜／ｓ＞が含まれている場合に、マイロフォンを閉じる決定を行う。したがって、モデルはデコーダとエンドポインタとして組み合わせで機能する。

＜／ｓ＞の予測ミスは、特に＜／ｓ＞の予測が早すぎる場合、他の記号よりも品質に大きな影響を与える可能性がある。したがって、＜／ｓ＞の後において、デコードのためにビーム検索を実行するときに、２つの異なる側面で正確に制御を行う。

まず、＜／ｓ＞ラベルは、以下に示すように正のスケールαで制限が課される。

αを制御することにより、＜／ｓ＞の後においては、他の記号と競合すると、直接変更が行われる。αが１より大きい値に設定されている場合、追加の制限が＜／ｓ＞に追加される。この場合、＜／ｓ＞を含む仮説は、サーチビーム内の他の仮説よりもコストが高いため、上位に表示される可能性は低くなる。エンドポイントの決定を宣言することは最上位の仮説に依存しているため、変更によりエンドポイントの決定は急いで行われにくくなる。逆に、小さいαを使用すると、エンドポイント決定がより急いで行われるようになり、削除エラーが発生してＷＥＲに悪影響を与える可能性がある。

第２に、＜／ｓ＞に係る検索空間は、後方において変更が行われて事前定義されたしきい値βを超えている場合にのみ拡張され、早期のエンドポイント決定をさらに低減する。エンドポイントトークン＜／ｓ＞は、次の条件が満たされた場合にのみサーチビームに追加される。

αをスイープすると、検索中に仮説を拡張するときに＜／ｓ＞記号が破棄または許容される。したがって、βは＜／ｓ＞記号をサーチビームに表示が許容されるかどうかを決定し、αは＜／ｓ＞を使用した仮説の順序に影響を与える。

図５は、（ａ）ＥＯＱ、（ｂ）エンドツーエンドエンドポインタ、および（ｃ）ＥＯＱとエンドツーエンドエンドポインタの両方を使用してエンドポイント決定をトリガーする複合システムの実装（いずれかのシステムが最初にトリガーするかに基づいている）について、ＷＥＲとレイテンシの実験結果を示す例示的なプロット５００を示している。エンドポイント決定の目標は、レイテンシで測定される高速エンドポイント決定とＷＥＲで測定される精度の間の最良のトレードオフを見つけることである。アグレッシブなエンドポインタはＷＥＲを毀損することを犠牲にしてより速い応答を提供する可能性があるが、パッシブなエンドポインタはＷＥＲを改善するかも可能性があるが、レイテンシを増大させる可能性がある。

以下は、組み合わせのデコードとエンドポイント決定に使用できるＲＮＮ－Ｔモデルの具体例であるが、他の多くの構成が効果的に使用され得る。ＲＮＮ－Ｔモデルの例では、２５ミリ秒のウィンドウを使用して計算された１０ミリ秒のフレームステップで８０次元のログメル特徴を使用している。これらの特徴は、左側に３フレームでスタックされ、３０ミリ秒のフレームレートにダウンサンプリングされる。エンコーダネットワークアーキテクチャは、８つの長短期記憶（ＬＳＴＭ）で構成され、各層には２，０４８の隠れユニットがあり、その後に６４０次元の射影（ｐｒｏｊｅｃｔｉｏｎ）層が続く。デコーダは２つのＬＳＴＭ層で、２，０００の隠れユニットと６４０次元の射影がある（層ごと）。トレーニングを安定させるために、エンコーダとデコーダの各ＬＳＴＭ層の後にレイヤーノルム層が入力される。エンコーダとデコーダは、６４０個の隠れユニットを持つ組み合わせネットワークに供給される。組み合わせネットワークは、合計７６の書記素ユニットを持つソフトマックス層に供給される。例示的なＲＮＮ－Ｔモデルは、グローバルバッチサイズが４，０９６の８ｘ８テンソルプロセッシングユニット（ＴＰＵ）スライスでトレーニングされる。

以下は、エンドポイント決定に使用できるＥＯＱ検出装置の例である。例示的なＥＯＱ入力音響特徴ベクトルシーケンスは、上限が４ｋＨｚでフレームステップが１０ｍｓで２５ミリ秒のウィンドウを使用して、４０次元のログメルフィルターバンクで構成される。例示的なＥＯＱ分類装置では、畳み込みＬＳＴＭディープニューラルネットワーク（ＤＮＮ）を使用しており、これは、畳み込みスタックＬＳＴＭ層とＤＮＮ層の組み合わせである。複数の特徴は、周波数畳み込み層に渡され（８つの周波数帯域のフィルター幅、ストライド３でプール）、その後、６４ノードのＲｅＬＵＤＮＮ層、２つの６４セルＬＳＴＭ層のシーケンス、別の６４ノードのＲｅＬＵＤＮＮレイヤー、および４ノードのソフトマックスレイヤーが続く。

エンドツーエンドのエンドポインタの場合、エンドポイント決定の速度と転写の精度のトレードオフは、スケールαとしきい値βをスイープすることで管理できる。αが大きいほど、エンドポイント記号＜／ｓ＞に大きな制限が加わることを意味し、これにより、エンドポイント決定が遅くなるが、削除も回避される。同様に、より大きなβを使用すると、検索空間でのエンドポイント記号の可用性の拡大が回避され、エンドポイントの決定がそれほどアグレッシブにならない。両方のパラメータを組み合わせでスイープして、最適な動作点を見つける。αとβの値の例は、α＝２．０とβ＝０．６５である。

図５の例示的なプロット５００では、結合システムでは、ＥＯＱエンドポインタよりもはるかに高速であるため、エンドツーエンドのエンドポインタが優勢である。エンドツーエンドエンドポインタは、メディアンレイテンシを５００ミリ秒から２００ミリ秒に低減する（６０％の相対的な改善）。しかしながら、エンドツーエンドのエンドポインタは、レイテンシとＷＥＲの両方でＥＯＱよりも優れているが、エンドポイント決定のカバレッジ損失は約１０％である。これは、エンドツーエンドのエンドポインタがエンドポイントを決定すると、ＥＯＱエンドポインタよりもはるかに短いレイテンシで非常に迅速にエンドポイント決定を行うことを示している。ただし、発話のサブセットの場合、エンドツーエンドのエンドポインタは、エンドポイント決定を全く行えない可能性がある。一方、結合システムは、ＥＯＱシステムから補助されてこのカバレッジ損失を補償すると同時に、発話の大部分についてエンドツーエンドのエンドポインタによる高速エンドポイント決定を行う。結合システムは、ＥＯＱベースラインと比較して、ＷＥＲまたはエンドポイントカバレッジの低下がない、結合システムによる２７０ミリ秒の改善（５４％の相対的な改善）を示している。結合システムでは、エンドツーエンドエンドポインタは、発話の８２％の決定を宣言する主要なエンドポインタであり、ＥＯＱエンドポインタは発話の１６％のリセットをカバーする。したがって、結合システムは、ＥＯＱエンドポインタによる高いカバレッジとエンドツーエンドエンドポインタによるローレイテンシの両方を維持できる。

図６Ａ～図６Ｃは、ＥＯＱエンドポインタ（図６Ａ）、エンドツーエンドのエンドポインタ（図６Ｂ）、およびＥＯＱとエンドツーエンドエンドポインタの両方を使用してエンドポイント決定をトリガーする複合システム（図６Ｃ）（いずれかのシステムが最初にエンドポイントをトリガーするかに基づいている）について、レイテンシを比較する実験結果を示す一連のヒストグラム６００ａ～ｃを示している。図６Ａは、実際にエンドポイント決定された発話のＥＯＱエンドポインタレイテンシのヒストグラム６００ａを示している。エンドポインタレイテンシが３００ミリ秒未満の発話はごくわずかである。レイテンシは主に３００ｍｓから１４００ｍｓの間に散らばっている。

図６Ｂは、エンドツーエンドのエンドポインタのレイテンシに関し、同様のヒストグラム６００ｂを示している。この場合、ほとんどすべてのレイテンシは０～４００ミリ秒である。図６Ｃは、エンドツーエンドおよびＥＯＱエンドポインタのヒストグラム６００ｃを示している。発話の大部分は、エンドツーエンドのエンドポインタにより、レイテンシが４００ミリ秒以内であるため、システムは迅速に動作する。ＥＯＱは６００ミリ秒から１４００ミリ秒に散らばったレイテンシで少量のコーナーケースを処理するため、ヒストグラム６００ｃのロングテールが予想される。

ここで説明する技法を実装するために使用できるコンピューティングデバイス７００およびモバイルコンピューティングデバイス７５０の例を示している。コンピューティングデバイス７００は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的としている。モバイルコンピューティングデバイス７５０は、携帯情報端末、携帯電話、スマートフォン、および他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことを目的としている。ここに示されているコンポーネント、それらの接続と関係、およびそれらの機能は、単なる例であり、限定するものではない。

コンピューティングデバイス７００は、プロセッサ７０２、メモリ７０４、ストレージデバイス７０６、メモリ７０４および複数の高速拡張ポート７１０に接続する高速インターフェース７０８、および低速拡張ポート７１４および記憶装置７０６に接続する低速インターフェース７１２を含む。プロセッサ７０２、メモリ７０４、記憶装置７０６、高速インターフェース７０８、高速拡張ポート７１０、および低速インターフェース７１２のそれぞれは、様々なバスを使用して相互接続され、必要に応じて、一般的なマザーボードまたは他の方法で取り付けられてもよい。プロセッサ７０２は、メモリ７０４または記憶装置７０６に記憶された命令を含む、コンピューティングデバイス７００内で実行するための命令を処理することができ、これにより、高速インターフェース７０８に結合されたディスプレイ７１６などの外部入力／出力デバイス上にＧＵＩのグラフィック情報を表示する。他の実装形態では、複数のメモリおよびメモリのタイプとともに、必要に応じて、複数のプロセッサおよび／または複数のバスを使用することができる。また、複数のコンピューティングデバイスを接続して、各デバイスが必要な操作の一部を提供することも可能である（たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）。

メモリ７０４は、コンピューティングデバイス７００内に情報を記憶する。一部の実装形態では、メモリ７０４は、揮発性メモリユニットまたは複数のユニットである。一部の実装形態では、メモリ７０４は、不揮発性メモリユニットまたは複数のユニットである。メモリ７０４はまた、磁気ディスクまたは光ディスクなどの別の形態のコンピュータ可読媒体であり得る。

ストレージデバイス７０６は、コンピューティングデバイス７００に大容量ストレージを提供することができる。一部の実装では、ストレージデバイス７０６は、フロッピー（登録商標）ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリまたは他の同様のソリッドステートメモリデバイスなどのコンピュータ可読媒体、あるいはストレージエリアネットワークまたはその他の構成のデバイスを含むデバイスの配列であり得るか、またはそれらを含み得る。命令は情報キャリアに記憶されてもよい。命令は、１つまたは複数の処理装置（例えば、プロセッサ７０２）によって実行されると、上記のような１つまたは複数の方法を実行する。命令はまた、コンピュータまたは機械可読媒体（例えば、メモリ７０４、記憶装置７０６、またはプロセッサ７０２上のメモリ）などの１つまたは複数の記憶装置によって記憶することができる。

高速インターフェース７０８は、コンピューティングデバイス７００の帯域幅集約型の動作を管理し、低速インターフェース７１２は、帯域幅集約型のより低い動作を管理する。このような機能の割り当ては一例に過ぎない。いくつかの実装形態では、高速インターフェース７０８は、メモリ７０４、ディスプレイ７１６（例えば、グラフィックプロセッサまたはアクセラレータを介して）、および高速拡張ポート７１０に結合されており、高速拡張ポート７１０は、さまざまな拡張カードを受容できる（図示せず）。実装において、低速インターフェース７１２は、記憶装置７０６および低速拡張ポート７１４に結合される。低速拡張ポート７１４は、様々な通信ポート（例えば、ＵＳＢ、ブルートゥース（登録商標）、イーサネット（登録商標）、ワイヤレスイーサネット）を含み得る。低速拡張ポート７１４は、キーボード、ポインティングデバイス、スキャナ、またはスイッチまたはルータなどのネットワークデバイス（例えば、ネットワークアダプタを介して）などの１つまたは複数の入力／出力デバイスに結合することができる。

コンピューティングデバイス７００は、図に示されるように、いくつかの異なる形態で実装され得る。例えば、それは、標準サーバ７２０として、またはそのようなサーバのグループに複数回実装され得る。さらに、それは、ラップトップコンピュータ７２２などのパーソナルコンピュータに実装され得る。それはまた、ラックサーバシステム７２４の一部として実装され得る。あるいは、コンピューティングデバイス７００からのコンポーネントは、モバイルコンピューティングデバイス７５０などのモバイルデバイス（図示せず）内の他のコンポーネントと組み合わせることができる。そのようなデバイスのそれぞれは、コンピューティングデバイス７００およびモバイルコンピューティングデバイス７５０のうちの１つまたは複数を含む場合があり、システム全体は、互いに通信する複数のコンピューティングデバイスから構成され得る。

モバイルコンピューティングデバイス７５０は、他の構成要素の中でも、プロセッサ７５２、メモリ７６４、ディスプレイ７５４などの入力／出力デバイス、通信インターフェース７６６、およびトランシーバ７６８を含む。モバイルコンピューティングデバイス７５０はまた、追加のストレージを提供するために、マイクロドライブまたは他のデバイスなどのストレージデバイスを備えてもよい。プロセッサ７５２、メモリ７６４、ディスプレイ７５４、通信インターフェース７６６、およびトランシーバ７６８のそれぞれは、様々なバスを使用して相互接続され、いくつかの構成要素は、共通のマザーボードに、または必要に応じて他の方法で取り付けられ得る。

プロセッサ７５２は、メモリ７６４に格納された命令を含む、モバイルコンピューティングデバイス７５０内の命令を実行することができる。プロセッサ７５２は、別個の複数のアナログおよびデジタルプロセッサを含むチップのチップセットとして実装され得る。プロセッサ７５２は、例えば、ユーザインターフェースの制御、モバイルコンピューティングデバイス７５０によって実行されるアプリケーション、およびモバイルコンピューティングデバイス７５０による無線通信などの、モバイルコンピューティングデバイス７５０の他のコンポーネントの調整のために提供することができる。

プロセッサ７５２は、ディスプレイ７５４に結合されたディスプレイインターフェース７５６および制御インターフェース７５８を介してユーザと通信することができる。ディスプレイ７５４は、例えば、ＴＴＦ（薄膜トランジスタ液晶ディスプレイ）ディスプレイまたはＯＬＥＤ（有機発光ダイオード）ディスプレイ、または他の適切なディスプレイ技術であり得る。ディスプレイインターフェース７５６は、グラフィックおよび他の情報をユーザに提示するためにディスプレイ７５４を駆動するための適切な回路を備え得る。制御インターフェース７５８は、ユーザからコマンドを受信し、それらをプロセッサ７５２に提出するために変換することができる。さらに、外部インターフェース７６２は、モバイルコンピューティングデバイス７５０と他のデバイスとの近距離通信を可能にするために、プロセッサ７５２との通信を提供することができる。外部インターフェース７６２は、例えば、いくつかの実装における有線通信、または他の実装における無線通信を提供することができ、複数のインターフェースも使用することができる。

メモリ７６４は、モバイルコンピューティングデバイス７５０内に情報を記憶する。メモリ７６４は、コンピュータ可読媒体または複数の媒体、揮発性メモリユニットまたは複数のユニット、または不揮発性メモリユニットまたは複数のユニットのうちの１つまたは複数として実装することができる。拡張メモリ７７４はまた、例えば、ＳＩＭＭ（シングルインラインメモリモジュール）カードインターフェースを含み得る拡張インターフェース７７２を介して提供され、モバイルコンピューティングデバイス７５０に接続され得る。拡張メモリ７７４は、モバイルコンピューティングデバイス７５０に追加の記憶空間を提供することができ、またはモバイルコンピューティングデバイス７５０にアプリケーションまたは他の情報を記憶することもできる。具体的には、拡張メモリ７７４は、上記のプロセスを実行または補足するための命令を含んでいてもよく、セキュアな情報も含み得る。したがって、例えば、拡張メモリ７７４は、モバイルコンピューティングデバイス７５０のためのセキュリティモジュールとして提供されてよく、モバイルコンピューティングデバイス７５０のセキュアな使用を可能にする命令でプログラムされ得る。さらに、セキュアなアプリケーションは、ＳＩＭＭカードにハッキングできない方法で識別情報を配置するなどの追加情報とともに、ＳＩＭＭカードを介して提供される場合がある。

メモリは、例えば、以下で説明するように、フラッシュメモリおよび／またはＮＶＲＡＭメモリ（不揮発性ランダムアクセスメモリ）を含み得る。いくつかの実装形態では、命令は、情報キャリアに記憶される。命令は、１つまたは複数の処理装置（例えば、プロセッサ７５２）によって実行されると、上記のような１つまたは複数の方法を実行する。命令はまた、１つまたは複数のコンピュータまたは機械可読媒体（例えば、メモリ７６４、拡張メモリ７７４、またはプロセッサ７５２上のメモリ）などの１つまたは複数の記憶装置によって記憶することができる。いくつかの実装形態では、命令は、例えば、トランシーバ７６８または外部インターフェース７６２を介して、伝播された信号で受信することができる。

モバイルコンピューティングデバイス７５０は、必要に応じてデジタル信号処理回路を含み得る通信インターフェース７６６を介して無線で通信することができる。通信インターフェース７６６は、例えば、ＧＳＭ（登録商標）ボイス通話（モバイル通信用グローバルシステム）、ＳＭＳ（ショートメッセージサービス）、ＥＭＳ（拡張メッセージングサービス）、またはＭＭＳメッセージング（マルチメディアメッセージングサービス）、ＣＤＭＡ（符号分割多元接続）、ＴＤＭＡ（時分割多元接続）、ＰＤＣ（パーソナルデジタルセルラー）、ＷＣＤＭＡ（登録商標）（広帯域符号分割多元接続）、ＣＤＭＡ２０００、またはＧＰＲＳ（一般パケット無線サービス）等、様々なモードまたはプロトコルの下での通信を提供することができる。そのような通信は、例えば、無線周波数を使用するトランシーバ７６８を介して発生し得る。さらに、ブルートゥース、ＷｉＦｉ、または他のそのようなトランシーバ（図示せず）を使用するなど、短距離通信が発生する可能性がある。さらに、ＧＰＳ（全地球測位システム）受信機モジュール７７０は、モバイルコンピューティングデバイス７５０上で実行されるアプリケーションによって適切に使用され得る、追加のナビゲーションおよび位置関連の無線データをモバイルコンピューティングデバイス７５０に提供し得る。

モバイルコンピューティングデバイス７５０はまた、オーディオコーデック７６０を使用して聴覚的に通信することができ、オーディオコーデック７６０は、ユーザから音声情報を受信し、それを使用可能なデジタル情報に変換することができる。オーディオコーデック７６０は、同様に、例えば、モバイルコンピューティングデバイス７５０の受話器内のスピーカーを通してなど、ユーザのために可聴音を生成することができる。そのような音は、音声電話からの音を含んでいてもよく、録音された音（例えば、音声メッセージ、音楽ファイルなど）を含んでいてもよく、また、モバイルコンピューティングデバイス７５０上で動作するアプリケーションによって生成された音を含み得る。

モバイルコンピューティングデバイス７５０は、図に示されるように、いくつかの異なる形態で実装され得る。例えば、それは、携帯電話７８０として実装され得る。それはまた、スマートフォン７８２、携帯情報端末、または他の同様のモバイルデバイスの一部として実装され得る。

図８は、発話のエンドポイント決定を行う方法８００の動作の例示的な構成のフローチャートである。動作８０２において、方法８００は、処理ハードウェア１１１において、ユーザデバイス１１０のユーザ１１５によって話された発話１２０のオーディオデータ１２５を受信することを含む。動作８０４において、方法８００は、データ処理ハードウェア１１１によって、オーディオデータ１２５を処理して、発話の音声デコードおよびエンドポイント決定を組み合わせで実行するように構成された音声認識モデル１４０からの出力として、発話の部分的な音声認識結果１６５と、発話がいつ終了したかを示すエンドポイント標示１７５と、を取得することを含む。オーディオデータ１２５の処理中に、方法８００は、動作８０６において、データ処理ハードウェア１１１によって、音声認識モデル１４０から出力されたエンドポイント標示１７５に基づいて、発話１２０の終了を検出することを含む。動作８０８において、方法８００は、発話１２０の終了を検出することに応じて、データ処理ハードウェア１１１によって、発話１２０の終了が検出された後に受信された後続のオーディオデータ１２５の処理を終結することをさらに含む。

ソフトウェアアプリケーション（すなわち、ソフトウェアリソース）は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指す場合がある。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」を指す場合がある。アプリケーションの例には、システム診断アプリケーション、システム管理アプリケーション、システムメンテナンスアプリケーション、ワード処理アプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲームアプリケーションが含まれるが、これらに限定されない。

非一時的メモリは、コンピューティングデバイスによって使用するために一時的または永続的にプログラム（例えば、命令のシーケンス）またはデータ（例えば、プログラム状態情報）を格納するために使用される物理デバイスであり得る。非一時的メモリは、揮発性および／または不揮発性のアドレス可能な半導体メモリであり得る。不揮発性メモリの例には、フラッシュメモリおよび読み取り専用メモリ（ＲＯＭ）／プログラム可能な読み取り専用メモリ（ＰＲＯＭ）／消去可能なプログラム可能な読み取り専用メモリ（ＥＰＲＯＭ）／電子的に消去可能なプログラム可能な読み取り専用が含まれるが、これらに限定されない。メモリ（ＥＥＰＲＯＭ）（例えば、通常、ブートプログラムなどのファームウェアに使用される）。揮発性メモリの例には、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、およびディスクまたはテープが含まれるが、これらに限定されない。

本明細書に記載のシステムおよび技術の様々な実装は、デジタル電子および／または光回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現することができる。これらの様々な実装は、ストレージシステム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスからデータおよび命令を受信し、データおよび命令を送信するために結合された、特別または汎用であり得る少なくとも１つのプログラム可能なプロセッサを含プログラム可能なシステム上で実行可能および／または解釈可能な１つまたは複数のコンピュータプログラムでの実装を含むことができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）は、プログラム可能なプロセッサのマシン命令を含み、高レベルの手続き型および／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／機械語で実装され得る。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令および／またはデータをプログラム可能なプロセッサに提供するために使用される、任意のコンピュータプログラム製品、非一時的なコンピュータ可読媒体、装置および／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指す場合があり、機械命令を機械可読信号として受信する機械可読媒体が含まれる。「機械可読信号」という用語は、プログラム可能なプロセッサに機械命令および／またはデータを提供するために使用される任意の信号を指す。

本明細書に記載のプロセスおよび論理フローは、データ処理ハードウェアとも呼ばれる１つまたは複数のプログラム可能なプロセッサによって実行でき、１つまたは複数のコンピュータプログラムを実行して、入力データを操作し、出力を生成することによって機能を実行する。プロセスとロジックフローは、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）やＡＳＩＣ（特定用途向け集積回路）などの特殊用途のロジック回路によっても実行できる。コンピュータプログラムの実行に適したプロセッサには、例として、汎用および特殊目的の両方のマイクロプロセッサ、および任意の種類のデジタルコンピュータの任意の１つまたは複数のプロセッサが含まれる。一般に、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリ、あるいはその両方から命令とデータを受信する。コンピュータの重要な要素は、命令を実行するためのプロセッサと、命令とデータを格納するための１つまたは複数のメモリデバイスである。一般に、コンピュータはまた、データを格納するための１つまたは複数の大容量記憶装置、例えば、磁気、光磁気ディスク、または光ディスクを含むか、またはデータを受信するか、データを転送するか、またはその両方に動作可能に結合される。ただし、コンピュータにそのようなデバイスが必要としない。コンピュータプログラムの命令およびデータを格納するのに適したコンピュータ可読媒体には、不揮発性メモリ、メディア、およびメモリデバイスの全ての形態が含まれ、例として、半導体メモリデバイス（例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス）、磁気ディスク（例えば、内蔵ハードディスクまたはリムーバブルディスク）光磁気ディスク、ＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクが含まれる。プロセッサとメモリは、特別な目的の論理回路によって補完または組み込むことができる。

ユーザとの対話を提供するために、本開示の１つまたは複数の態様は、ユーザに情報を表示するためのＣＲＴ（ブラウン管）、ＬＣＤ（液晶ディスプレイ）モニター、またはタッチスクリーン等のディスプレイデバイス、任意選択でユーザがコンピュータに入力を提供可能とするキーボードとポインティングデバイス（マウスやトラックボールなど）を有するコンピュータ上に実装することができる。他の種類のデバイスを使用して、ユーザとの対話を提供することもできる。例えば、ユーザに提供されるフィードバックは、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックなど、任意の形態の感覚的フィードバックであり得る。また、ユーザからの入力は、音響、音声、または触覚入力を含む任意の形式で受信できる。さらに、コンピュータは、ユーザが使用するデバイスとの間でドキュメントを送受信することにより、ユーザと対話できる。例えば、Ｗｅｂブラウザから受信した要求に応答して、ユーザのクライアントデバイス上のＷｅｂブラウザにＷｅｂページを送信する。

いくつかの実装形態が説明されている。しかしながら、本開示の趣旨および範囲から逸脱することなく、様々な変更を行うことができることが理解されるであろう。したがって、他の実装形態は、以下の特許請求の範囲内にある。

Claims

データ処理ハードウェア（１１１）において、ユーザデバイス（１１０）のユーザによって話された発話（１２０）のオーディオデータ（１２５）を受信することと、
前記データ処理ハードウェア（１１１）によって、前記オーディオデータ（１２５）を処理して、発話の音声デコードおよびエンドポイント決定を組み合わせで実行するように構成された単一の音声認識モデル（１４０）からの出力として、複数の出力ラベルからなるデコードされたシーケンスと、前記複数の出力ラベルからなるデコードされた前記シーケンスに含まれる１つ以上の言語単位に基づいた前記発話（１２０）の部分的な音声認識結果と、エンドポイント標示（１７５）であって、前記エンドポイント標示（１７５）に対応する発話エンドポイント記号が、前記複数の出力ラベルからなるデコードされた前記シーケンスに含まれていると判定することにより前記発話（１２０）がいつ終了したかを示す前記エンドポイント標示（１７５）と、を取得することと、
前記音声認識モデル（１４０）から出力された前記エンドポイント標示（１７５）応じて、前記オーディオデータ（１２５）の処理中に、前記データ処理ハードウェア（１１１）によって、前記発話（１２０）の前記終了を検出することと、
前記発話（１２０）の前記終了を検出することに応じて、前記データ処理ハードウェア（１１１）によって、前記発話（１２０）の前記終了が検出された後に受信された後続のオーディオデータ（１２５）の前記処理を終結することと、
を含み、
前記音声認識モデル（１４０）は、出力として、前記オーディオデータ（１２５）の音響特性を示す複数のオーディオ特徴（１３５）からなるシーケンスにおけるオーディオ特徴（１３５）毎の複数の出力ラベル（２６５）のセットに係る確率分布を生成するように構成されたニューラルネットワークを含み、前記複数の出力ラベル（２６５）は、前記言語単位および前記発話エンドポイント記号を含む
方法（８００）。
前記発話（１２０）の前記終了を検出することに応じて、前記データ処理ハードウェア（１１１）によって、前記発話（１２０）の転写（１６５）を検索エンジンまたはデジタル会話アシスタントシステムに送信することであって、前記転写（１６５）は、前記オーディオデータ（１２５）の処理中に前記音声認識モデル（１４０）によって出力された前記部分的な音声認識結果に基づくことをさらに含む
請求項１に記載の方法（８００）。
前記音声認識モデル（１４０）は、前記エンドポイント標示（１７５）が前記発話（１２０）がいつ終了したかを示す前に、前記発話（１２０）の前記部分的な音声認識結果を出すように構成されているストリーミング音声認識モデル（１４０）を含む
請求項１または２に記載の方法（８００）。
前記発話（１２０）の前記終了を検出する前に、前記データ処理ハードウェア（１１１）によって、前記データ処理ハードウェア（１１１）と通信する画面上に表示するために、音声認識オーディオによって出される部分的な音声認識結果を提供することをさらに含む
請求項３に記載の方法（８００）。
前記音声認識モデル（１４０）は、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）を含む
請求項３または４に記載の方法（８００）。
前記データ処理ハードウェア（１１１）は、前記ユーザの前記ユーザデバイス（１１０）上に常駐し、前記音声認識モデル（１４０）を実行する
請求項１～５のいずれか一項に記載の方法（８００）。
前記発話（１２０）の前記終了を検出することに応じて、前記データ処理ハードウェア（１１１）によって、前記ユーザによって話された前記発話（１２０）をキャプチャした１つまたは複数のマイクロフォン（１０５）のアレイを非アクティブ化することをさらに含む
請求項１～６のいずれか一項に記載の方法（８００）。
前記オーディオデータ（１２５）を処理して前記エンドポイント標示（１７５）を取得することは、前記発話エンドポイント記号を含む前記出力ラベルが、閾値スコアを満たす確率スコアに関連付けられている場合において、前記音声認識モデル（１４０）が前記エンドポイント標示（１７５）を出力したと判定することを含む
請求項１～７のいずれか一項に記載の方法（８００）。
前記言語単位は、書記素、ワードピース、または単語を含む
請求項１～８のいずれか一項に記載の方法（８００）。
前記複数の出力ラベル（２６５）は、発話（１２０）の開始を示す発話開始記号と、句読要素を示す句読記号と、スペース文字を示すスペース記号と、正書法要素に対応しない空白記号とのうちの少なくとも１つをさらに含む
請求項１～９のいずれか一項に記載の方法（８００）。
前記エンドポイント標示（１７５）に対応する前記発話エンドポイント記号が、前記音声認識モデル（１４０）によって出力された複数の出力ラベルからなる前記デコードされたシーケンスに含まれると判定することは、前記発話エンドポイント記号に関連付けられている確率スコアが閾値スコアを満たすと決定することを含む
請求項１～１０のいずれか一項に記載の方法（８００）。
前記オーディオデータ（１２５）を処理して、前記発話（１２０）の前記終了を示す前記エンドポイント標示（１７５）を取得することは、前記音声認識モデル（１４０）の複数の出力にわたるビームサーチ処理（１４５）中、前記エンドポイント標示（１７５）に対応する発話エンドポイント記号が、前記ビームサーチ処理（１４５）における１つまたは複数のビームに含まれるかどうかを判定することを含む
請求項１～１１のいずれか一項に記載の方法（８００）。
データ処理ハードウェア（１１１）と、
前記データ処理ハードウェア（１１１）と通信するメモリハードウェア（１１３）と、を備え、前記メモリハードウェア（１１３）は命令を記憶し、前記命令は、前記データ処理ハードウェア（１１１）上で実行されるとき、前記データ処理ハードウェア（１１１）に、
ユーザデバイス（１１０）のユーザによって話された発話（１２０）のオーディオデータ（１２５）を受信することと、
前記オーディオデータ（１２５）を処理して、発話の音声デコードおよびエンドポイント決定を組み合わせで実行するように構成された単一の音声認識モデル（１４０）からの出力として、複数の出力ラベルからなるデコードされたシーケンスと、前記複数の出力ラベルからなるデコードされた前記シーケンスに含まれる１つ以上の言語単位に基づいた前記発話（１２０）の部分的な音声認識結果と、エンドポイント標示（１７５）であって、前記エンドポイント標示（１７５）に対応する発話エンドポイント記号が、前記複数の出力ラベルからなるデコードされた前記シーケンスに含まれていると判定することにより前記発話（１２０）がいつ終了したかを示す前記エンドポイント標示（１７５）と、を取得することと、
前記音声認識モデル（１４０）から出力された前記エンドポイント標示（１７５）応じて、前記オーディオデータ（１２５）の処理中に、前記発話（１２０）の前記終了を検出することと、
前記発話（１２０）の前記終了を検出することに応じて、前記発話（１２０）の前記終了が検出された後に受信された後続のオーディオデータ（１２５）の前記処理を終結することと、を含む動作を実行させ、
前記音声認識モデル（１４０）は、出力として、前記オーディオデータ（１２５）の音響特性を示す複数のオーディオ特徴（１３５）からなるシーケンスにおけるオーディオ特徴（１３５）毎の複数の出力ラベル（２６５）のセットに係る確率分布を生成するように構成されたニューラルネットワークを含み、前記複数の出力ラベル（２６５）は、前記言語単位および前記発話エンドポイント記号を含む
システム（１００）。
前記動作は、前記発話（１２０）の前記終了を検出することに応じて、前記発話（１２０）の転写（１６５）を検索エンジンまたはデジタル会話アシスタントシステムに送信することであって、前記転写（１６５）は、前記オーディオデータ（１２５）の処理中に前記音声認識モデル（１４０）によって出力された前記部分的な音声認識結果に基づくことをさらに含む
請求項１３に記載のシステム（１００）。
前記音声認識モデル（１４０）は、前記エンドポイント標示（１７５）が前記発話（１２０）がいつ終了したかを示す前に、前記発話（１２０）の前記部分的な音声認識結果を出すように構成されているストリーミング音声認識モデル（１４０）を含む
請求項１３または１４に記載のシステム（１００）。
前記動作は、前記発話（１２０）の前記終了を検出する前に、前記データ処理ハードウェア（１１１）と通信する画面上に表示するために、音声認識オーディオによって出される部分的な音声認識結果を提供することをさらに含む
請求項１５に記載のシステム（１００）。
前記音声認識モデル（１４０）は、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）を含む
請求項１５または１６に記載のシステム（１００）。
前記データ処理ハードウェア（１１１）は、前記ユーザの前記ユーザデバイス（１１０）上に常駐し、前記音声認識モデル（１４０）を実行する
請求項１３～１７のいずれか一項に記載のシステム（１００）。
前記動作は、前記発話（１２０）の前記終了を検出することに応じて、前記ユーザによって話された前記発話（１２０）をキャプチャした１つまたは複数のマイクロフォン（１０５）のアレイを非アクティブ化することをさらに含む
請求項１３～１８のいずれか一項に記載のシステム（１００）。
前記オーディオデータ（１２５）を処理して前記エンドポイント標示（１７５）を取得することは、前記発話エンドポイント記号を含む前記出力ラベルが、閾値スコアを満たす確率スコアに関連付けられている場合において、前記音声認識モデル（１４０）が前記エンドポイント標示（１７５）を出力したと判定することを含む
請求項１３～１９のいずれか一項に記載のシステム（１００）。
前記言語単位は、書記素、ワードピース、または単語を含む
請求項１３～２０のいずれか一項に記載のシステム（１００）。
前記複数の出力ラベル（２６５）は、発話（１２０）の開始を示す発話開始記号と、句読要素を示す句読記号と、スペース文字を示すスペース記号と、正書法要素に対応しない空白記号とのうちの少なくとも１つをさらに含む
請求項１３～２１のいずれか一項に記載のシステム（１００）。
前記エンドポイント標示（１７５）に対応する前記発話エンドポイント記号が、前記音声認識モデル（１４０）によって出力された複数の出力ラベルからなる前記デコードされたシーケンスに含まれると判定することは、前記発話エンドポイント記号に関連付けられている確率スコアが閾値スコアを満たすと決定することを含む
請求項１３～２２のいずれか一項に記載のシステム（１００）。
前記オーディオデータ（１２５）を処理して、前記発話（１２０）の前記終了を示す前記エンドポイント標示（１７５）を取得することは、前記音声認識モデル（１４０）の複数の出力にわたるビームサーチ処理（１４５）中、前記エンドポイント標示に対応する発話エンドポイント記号が、前記ビームサーチ処理における１つまたは複数のビームに含まれるかどうかを判定することを含む
請求項１３～２３のいずれか一項に記載のシステム（１００）。