JP2024511176A

JP2024511176A - エンドツーエンド自動音声認識コンフィデンスおよび削除推定のためのマルチタスク学習

Info

Publication number: JP2024511176A
Application number: JP2023558841A
Authority: JP
Inventors: デイヴィッド・チウ; ヤンジャン・ヘ; ユ・ジャン; チウジア・リ; リアンリアン・カオ; イアン・マグロウ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-03-26
Filing date: 2021-12-11
Publication date: 2024-03-12
Also published as: KR20230158608A; US20220310080A1; EP4315321A1; WO2022203731A1; CN117099157A

Abstract

方法(500)は、発声(12)の表現形式(204)に対応する音声認識結果(232)を受け取るステップを含む。音声認識結果の仮説サブワードユニットのシーケンス内のサブワードユニット毎に、方法は、対応するサブワードユニットが第1の音声認識装置(200)から出力されたときに、対応する出力ステップと関連付けられたそれぞれのコンフィデンス埋込み(242)を獲得するステップと、コンフィデンス特徴ベクトル(312)を生成するステップと、音響文脈ベクトル(322)を生成するステップと、コンフィデンス予測モジュールの出力層による入力として受け取ったコンフィデンス特徴ベクトルおよび音響文脈ベクトルに基づいて、対応するサブワードユニットに対するそれぞれのコンフィデンス出力スコア(302)を生成するステップとをも含む。方法は、仮説サブワードユニットのシーケンス中のサブワードユニット毎に生成されたそれぞれのコンフィデンス出力スコアに基づいて、発声の表現形式に対する発声レベルコンフィデンススコア(350)を決定するステップも含む。

Description

本開示は、エンドツーエンド自動音声認識コンフィデンスおよび削除推定のためのマルチタスク学習に関する。

近代の自動音声認識(ASR)システムは、品質/精度(例えば低ワード誤り率(WER))を提供することだけでなく、低レイテンシ(例えばユーザスピーチと表現形式出現の間の短い遅延)をも提供することに的を絞っている。さらに、今日のASRシステムを使用する場合、ASRシステムは、ユーザがスピーチする際に、発声の表現形式を実時間で、さらには実時間よりも速く表示することに対応するストリーミング方式で発声を復号することが求められている。例証すると、ASRシステムが直接的なユーザインタラクティビティに遭遇するモバイル電話上で展開されると、ASRシステムを使用しているモバイル電話上のアプリケーションは、ワード、ワードピースおよび/または個別の文字が、それらが話されると直ちにスクリーン上に出現するように、音声認識がストリーミングされることを必要とし得る。ここでは、モバイル電話のユーザがレイテンシに対して寛容性が低いこともあり得る。この低い寛容性のため、音声認識は、レイテンシによる影響、およびユーザの体験に悪影響を及ぼし得る不正確性を最小化するようにしてモバイルデバイス上で動作することを目指している。

米国出願第17/182,592号

本開示の一態様は、エンドツーエンド自動音声認識コンフィデンスおよび削除推定のためのマルチタスク学習のためのコンピュータ実施方法を提供する。コンピュータ実施方法は、データ処理ハードウェア上で実行されると、データ処理ハードウェアに、第1の音声認識装置から、ユーザによって話された発声の表現形式に対応する音声認識結果を受け取るステップを含む動作を実施させる。音声認識結果は、発声の表現形式の1つまたは複数のワードを形成する仮説サブワードユニットのシーケンスを含み、個々のサブワードユニットは、対応する出力ステップで第1の音声認識装置から出力する。動作は、コンフィデンス予測モジュールを使用して、仮説サブワードユニットのシーケンス中のサブワードユニット毎に、対応するサブワードユニットが第1の音声認識装置から出力されると、対応する出力ステップと関連付けられたそれぞれのコンフィデンス埋込みを獲得するステップも含む。動作は、対応するサブワードユニットを続行する仮説サブワードユニットのシーケンス中の任意の他のサブワードユニットに対して獲得された対応するサブワードユニットおよびコンフィデンス埋込みに対するそれぞれのコンフィデンス埋込みに自己付随する第1のアテンション機構を使用して、コンフィデンス特徴ベクトルを生成するために、コンフィデンス予測モジュールをさらに使用する。動作は、発声に対応する音響データからセグメント化された対応する音響フレームとそれぞれ関連付けられた符号化のシーケンスに相互付随する第2のアテンション機構を使用して、音響文脈ベクトルを生成するために、引き続きコンフィデンス予測モジュールを使用する。さらに、次いで動作は、コンフィデンス予測モジュールの出力層からの出力として、コンフィデンス予測モジュールの出力層による入力として受け取ったコンフィデンス特徴ベクトルおよび音響特徴ベクトルに基づいて、対応するサブワードユニットに対するそれぞれのコンフィデンス出力スコアを生成するために、コンフィデンス予測モジュールを使用する。動作は、仮説サブワードユニットのシーケンス中のサブワードユニット毎に生成されたそれぞれのコンフィデンス出力スコアに基づいて、発声の表現形式に対する発声レベルコンフィデンススコアを決定するステップも含む。

本開示の実施態様は、以下の任意選択の特徴のうちの1つまたは複数を含むことができる。いくつかの実施態様では、発声の表現形式に対する発声レベルコンフィデンススコアを決定するステップは、発声の表現形式の1つまたは複数のワードのワード毎に、対応するワード中の最後のサブワードユニットに対して生成されるそれぞれのコンフィデンス出力スコアに等しいそれぞれのワードレベルコンフィデンススコアを決定するステップを含む。これらの実施態様は、発声の表現形式に対する発声レベルコンフィデンススコアを決定するために、表現形式の1つまたは複数のワードの各々に対して決定されたそれぞれのワードレベルコンフィデンススコアを集約するステップをさらに含む。

いくつかの追加実施態様では、動作は、階層的アテンション機構を使用して、発声に対する音声認識結果が正しく認識される確率を推定するステップと、発声に対する音声認識結果が正しく認識される推定確率と、発声が正しく認識されたかどうかを示すグラウンドトゥルースラベルとに基づいて、音声認識結果に対する発声レベル損失を決定するステップと、発声レベル損失に関するコンフィデンス予測モデルを訓練するステップとをさらに含む。

いくつかの例では、コンフィデンス予測モデルおよび第1の音声認識装置は、合同で訓練される。動作は、発声のワードのシーケンス中の各位置における削除数を推定するステップと、音声認識結果および推定された削除数についての削除損失と、ワードのシーケンス中の各位置におけるグラウンドトゥルース削除数とを決定するステップと、削除損失に関するコンフィデンス予測モデルを訓練するステップとを含むことができる。

いくつかの実施態様では、動作は、コンフィデンス予測モデルを訓練した後、第1の音声認識装置によって認識された候補音声認識結果をリスコアリングするステップをさらに含む。サブワードユニットはワードピースまたは書記素を含むことができる。

いくつかの例では、第1の音声認識装置は、複数の候補仮説を生成するように構成された変換器復号器モデルを含み、個々の候補仮説が発声のための候補表現形式に対応し、仮説サブワードユニットのそれぞれのシーケンスによって表される。これらの実施態様では、変換器復号器モデルは、Recurrent Neural Network-Transducer (RNN-T)モデルアーキテクチャを含むことができる。

いくつかの実施態様では、動作は、発声の表現形式に対する発声レベルコンフィデンススコアがコンフィデンス閾値を満足しているかどうかを決定するステップをさらに含む。これらの実施態様では、発声の表現形式に対する発声レベルコンフィデンススコアがコンフィデンス閾値を満足しない場合、動作は、第1の音声認識装置からの表現形式出力を拒否するステップと、ユーザによって話された発声を再転記するために、ユーザによって話された発声に対応する音響データを処理するように第2の音声認識装置に命令するステップとをさらに含む。これらの実施態様では、第1の音声認識装置は、ユーザと関連付けられたユーザデバイス上に常駐することができ、第2の音声認識装置は、ユーザデバイスと通信する遠隔サーバ上で実行することができ、ユーザデバイスは、発声の表現形式に対する発声レベルコンフィデンススコアがコンフィデンス閾値を満足しない場合、音響データを遠隔サーバに送信することができる。また、これらの実施態様では、第2の音声認識装置は、第1の音声認識装置よりもコンピューテーション集約的である可能性がある。

本開示の別の態様は、エンドツーエンド自動音声認識コンフィデンスおよび削除推定のためのマルチタスク学習のためのシステムを提供する。システムは、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを含む。メモリハードウェアは、データ処理ハードウェア上で実行されると、データ処理ハードウェアに、第1の音声認識装置から、ユーザによって話された発声の表現形式に対応する音声認識結果を受け取るステップを含む動作を実施させる命令を記憶する。音声認識結果は、発声の表現形式の1つまたは複数のワードを形成する仮説サブワードユニットのシーケンスを含み、個々のサブワードユニットは、対応する出力ステップで第1の音声認識装置から出力する。動作は、コンフィデンス予測モジュールを使用して、仮説サブワードユニットのシーケンス中のサブワードユニット毎に、対応するサブワードユニットが第1の音声認識装置から出力されると、対応する出力ステップと関連付けられたそれぞれのコンフィデンス埋込みを獲得するステップも含む。動作は、対応するサブワードユニットを続行する仮説サブワードユニットのシーケンス中の任意の他のサブワードユニットに対して獲得された対応するサブワードユニットおよびコンフィデンス埋込みに対するそれぞれのコンフィデンス埋込みに自己付随する第1のアテンション機構を使用して、コンフィデンス特徴ベクトルを生成するために、コンフィデンス予測モジュールも使用する。動作は、発声に対応する音響データからセグメント化された対応する音響フレームとそれぞれ関連付けられた符号化のシーケンスに相互付随する第2のアテンション機構を使用して、音響文脈ベクトルを生成するために、引き続きコンフィデンス予測モジュールを使用する。さらに、動作は、コンフィデンス予測モジュールの出力層からの出力として、コンフィデンス予測モジュールの出力層による入力として受け取ったコンフィデンス特徴ベクトルおよび音響特徴ベクトルに基づいて、対応するサブワードユニットに対するそれぞれのコンフィデンス出力スコアを生成するために、コンフィデンス予測モジュールを使用する。動作は、仮説サブワードユニットのシーケンス中のサブワードユニット毎に生成されたそれぞれのコンフィデンス出力スコアに基づいて、発声の表現形式に対する発声レベルコンフィデンススコアを決定するステップも含む。

この態様は、以下の任意選択の特徴のうちの1つまたは複数を含むことができる。いくつかの実施態様では、発声の表現形式に対する発声レベルコンフィデンススコアを決定するステップは、発声の表現形式の1つまたは複数のワードのワード毎に、対応するワード中の最後のサブワードユニットに対して生成されるそれぞれのコンフィデンス出力スコアに等しいそれぞれのワードレベルコンフィデンススコアを決定するステップを含む。これらの実施態様は、発声の表現形式に対する発声レベルコンフィデンススコアを決定するために、表現形式の1つまたは複数のワードの各々に対して決定されたそれぞれのワードレベルコンフィデンススコアを集約するステップをさらに含む。

いくつかの実施態様では、第1の音声認識装置は、複数の候補仮説を生成するように構成された変換器復号器モデルを含み、個々の候補仮説が発声のための候補表現形式に対応し、仮説サブワードユニットのそれぞれのシーケンスによって表される。これらの実施態様では、変換器復号器モデルは、Recurrent Neural Network-Transducer (RNN-T)モデルアーキテクチャを含むことができる。

いくつかの例では、動作は、発声の表現形式に対する発声レベルコンフィデンススコアがコンフィデンス閾値を満足しているかどうかを決定するステップをさらに含む。これらの例では、発声の表現形式に対する発声レベルコンフィデンススコアがコンフィデンス閾値を満足しない場合、動作は、第1の音声認識装置からの表現形式出力を拒否するステップと、ユーザによって話された発声を再転記するために、ユーザによって話された発声に対応する音響データを処理するように第2の音声認識装置に命令するステップとをさらに含む。これらの例では、第1の音声認識装置は、ユーザと関連付けられたユーザデバイス上に常駐することができ、第2の音声認識装置は、ユーザデバイスと通信する遠隔サーバ上で実行することができ、ユーザデバイスは、発声の表現形式に対する発声レベルコンフィデンススコアがコンフィデンス閾値を満足しない場合、音響データを遠隔サーバに送信することができる。また、これらの例では、第2の音声認識装置は、第1の音声認識装置よりもコンピューテーション集約的である可能性がある。

本開示の1つまたは複数の実施態様の詳細が添付の図面および以下の説明に示されている。他の態様、特徴および利点は、説明および図面から、また、特許請求の範囲から明らかになるであろう。

例示的スピーチ環境の略図である。例示的音声認識装置および音声認識装置上で展開しているコンフィデンス予測モデルの略図である。マルチタスク学習を使用して図2のコンフィデンス予測モジュールを訓練する略図である。発声レベルコンフィデンスに基づいて適切な音声認識装置を選択するための例示的コンフィデンスベースのルーチンの略図である。音声認識装置による表現形式出力の発声レベルコンフィデンススコアを決定する方法のための動作の例示的配置のフローチャートである。本明細書において説明されるシステムおよび方法を実現するために使用することができる例示的コンピューティングデバイスの略図である。

様々な図面における同様の参照記号は同様の要素を示している。

自動音声認識(ASR)システムは、品質/精度(例えば低ワード誤り率(WER))を提供することだけでなく、低レイテンシ(例えばユーザスピーチと表現形式出現の間の短い遅延)をも提供することに的を絞っている。最近、精度およびレイテンシにおける最新技術性能の達成には、Recurrent Neural Network-Transducer(RNN-T)、トランスフォーマまたはコンフォーマ変換器およびアテンションベースの符号器-復号器モデルなどのエンドツーエンド(E2E)ASRモデルが人気を得ている。個別の音響、発音および言語モデルを含む従来のハイブリッドASRシステムとは対照的に、E2Eモデルは、シーケンスツーシーケンス手法を適用して、訓練データ、例えば発声-表現形式対からエンドツーエンドで訓練される単一のニューラルネットワークで音響および言語モデル化を合同で学習する。

シーケンスツーシーケンスモデルの例には、「アテンションベースの」モデルおよび「リスン-アテンド-スペル」(LAS)モデルがある。LASモデルは、リスナ構成要素、アテンダ構成要素およびスペラー構成要素を使用してスピーチ発声を文字に転記する。ここでは、リスナは、音響入力(例えばスピーチ入力の時間-周波数表現)を受け取り、かつ、音響入力をより高水準の特徴表現にマップする回帰型ニューラルネットワーク(RNN)符号器である。アテンダは、より高水準の特徴に付随して、入力特徴と予測されたサブワードユニット(例えば書記素またはワードピース)の間の整列を学習する。スペラーは、仮説ワードのセット全体にわたる確率分布を生成することによって入力から文字列を生成するアテンションベースのRNN復号器である。一体構造であるため、モデルのすべての構成要素を単一のエンドツーエンド(E2E)ニューラルネットワークとして合同で訓練することができる。ここでは、E2Eモデルは、そのアーキテクチャ全体がニューラルネットワークで構築されるモデルを意味している。完全なニューラルネットワークは、外部および/または手動設計された構成要素(例えば有限状態変換器、辞典または文章正規化モジュール)がなくても機能する。さらに、E2Eモデルを訓練する場合、通常、これらのモデルには、決定ツリーからのブートストラッピング、または個別のシステムからの時間整列は不要である。

さらに、今日のASRシステムを使用する場合、ASRシステムは、ユーザがスピーチする際に、発声の表現形式を実時間で、さらには実時間よりも速く表示することに対応するストリーミング方式で発声を復号することが求められている。例証すると、ASRシステムが直接的なユーザインタラクティビティに遭遇するモバイル電話上で展開されると、ASRシステムを使用しているモバイル電話上のアプリケーションは、ワード、ワードピースおよび/または個別の文字が、それらが話されると直ちにスクリーン上に出現するように、音声認識がストリーミングされることを必要とし得る。ここでは、モバイル電話のユーザがレイテンシに対して寛容性が低いこともあり得る。この低い寛容性のため、音声認識は、レイテンシによる影響、およびユーザの体験に悪影響を及ぼし得る不正確性を最小化するようにしてモバイルデバイス上で動作することを目指している。しかしながら、出力文章を生成する前に音響の入力シーケンス全体を再吟味することによって機能するLASモデルなどのシーケンスツーシーケンスモデルは、ストリーミング出力が入力として受け取られることを許容しない。この不備のため、レイテンシに敏感で、および/または実時間ボイス表現形式を必要とするスピーチアプリケーションのためのLASモデルの展開は問題を提起し得る。そのため、LASモデルは、LASモデル単独では、実時間アプリケーション(例えば実時間通信アプリケーション)にしばしば依拠するモバイル技術(例えばモバイル電話)のための理想的なモデルではないモデルになっている。

回帰型ニューラルネットワーク変換器(RNN-T)として知られるシーケンスツーシーケンスモデルの別の形態はアテンション機構を使用せず、また、一般的にシーケンス全体(例えば音響波形)を処理して出力(例えば文)を生成する必要がある他のシーケンスツーシーケンスモデルとは異なり、RNN-Tは入力サンプルを連続的に処理し、かつ、出力記号、すなわち実時間通信のためにとりわけ魅力的である特徴をストリームする。例えばRNN-Tを使用した音声認識は、話される一語毎に文字を出力することができる。ここではRNN-Tは、モデルによって予測された記号を自身にフィードバックして次の記号を予測するフィードバックループを使用している。RNN-Tの復号は、大きい復号器グラフの代わりに単一のニューラルネットワークを介したビーム探索を含んでいるため、RNN-Tは、サーバベースの音声認識モデルのサイズのほんの一部に合わせて調整することができる。サイズが縮小されると、デバイス上で全面的にRNN-Tを展開させることができ、また、オフラインで動作させることができ(すなわちネットワーク接続なしに)、したがって通信ネットワークに関わる非信頼性問題を回避することができる。

しかしながらRNN-Tモデル単独では、品質(例えば音声認識精度)の点で依然として従来の大型最新技術モデル(例えば個別のAM、PMおよびLMを使用したサーバベースのモデル)に対して遅れをとっている。非ストリーミングE2E、LASモデルは、依然として従来の大型最新技術モデルに匹敵する音声認識品質を有している。非ストリーミングE2E LASモデルの品質を利用するために、LASネットワークの第2のパス構成要素が後続するRNN-Tネットワークの第1のパス構成要素を含む2パス音声認識システム(例えば図2Aに示されている)が開発されている。この設計によれば、2パスモデルは、レイテンシが短いRNN-Tモデルのストリーミング性質を利用し、その一方でLASネットワークを組み込んだ第2のパスを介してRNN-Tモデルの精度を改善する。LASネットワークは、RNN-Tモデルのみと比較するとレイテンシを長くするが、そのレイテンシの増加は適度に僅かであり、オン-デバイス動作に対するレイテンシ制約に応じている。精度に関しては、2パスモデルは、RNN-T単独の場合と比較すると17～22%のWER低減を達成し、従来の大型モデルと比較すると同様のWERを有している。

コンフィデンススコアは、多くの下流側アプリケーションをサポートして音声認識誤りを少なくするASRシステムの重要な特徴である。例えば高いコンフィデンスを達成するASRモデルから出力される認識結果を有する、ラベルが振られていない発声を使用して、ASRモデルの半教師あり訓練を実施することができ、転記された発声のみを使用して訓練する費用を削減することができる。一方、ユーザがコンピューティングデバイス上で実行するデジタルアシスタントと対話する音声対話システムなどのアプリケーションでは、低いワードレベルコンフィデンスを達成する認識結果を有する発声は、あらゆる転記ミス-ワードを修正するようにユーザを促すことができる。さらに、低いコンフィデンスを有する認識結果は、対応する発声のための音響を異なる、よりコンピューテーション拡張的ASRモデル(例えばサーバ側)に引き渡して、発声に対する認識を改善することになる。

従来のハイブリッドASRシステムは、格子ネットワークまたはコンフュージョンネットワークからコンピューティングされたワードポステリア確率からワードレベルコンフィデンススコアを容易に推測し、次に集約して発声レベルコンフィデンスを提供することができるが、E2E ASRモデルによって使用される深層ニューラルネットワークには、ワードを予測する際に、過剰コンフィデンスを示す傾向がある。多くのE2E ASRモデルは、サブワードレベルで認識結果を出力するように構成されるため、ASRモデルによって認識されたサブワード毎に、ワードのための対応する固定サブワードトークン化を基準シーケンスとして使用してコンフィデンススコアを単純に学習することは、認識結果は複数の有効なトークン化を含み得るため、コンフィデンス予測モデルを訓練するために使用される不正確なグラウンドトゥルースラベルをもたらすことになり得る。例えば「Good morning」という発声に対する基準固定サブワードシーケンスは、「go、od、morn、ing」であってもよく、一方、ASRモデルによって認識される仮説サブワードシーケンスは、「go、od、mor、ning、mom」であってもよい。ここでは「morning」というワードがASRモデルによって正しく認識されても、ASRモデルによって認識された対応する仮説サブワード「mor」および「ning」に対するサブワードラベルには、それらのラベルが「morning」というワードに対する対応する基準固定サブワード「morn」および「ing」と一致していないため、不適切なラベルが振られることになる。

ASRモデルによって認識される仮説サブワードシーケンスに対するサブワードコンフィデンススコアの予測と関連付けられる、基準固定サブワードシーケンス同士の間の不一致による欠点を軽減するために、本明細書における実施態様は、対応するワードを構築しているASRモデルによって認識された最後の仮説サブワードユニットのコンフィデンスのみを使用して、認識されたワード毎にワードレベルコンフィデンスを予測するために自己アテンションを適用するコンフィデンス予測モジュールを対象としている。2021年2月23日に出願された米国出願第17/182,592号の内容は、その全体が参照により組み込まれる。ASRモデルによって認識された各仮説ワードのワードレベルコンフィデンスのみを学習すると、仮説内のワードの総数に対する正しいワードの比率の推定値が得られる。しかしながら、訓練ラベルは、発声全体が正しく認識されているかどうか、またはASRモデルによって認識された仮説に削除があるかどうかについてのシグナルを提供しない。したがって、ワードレベルコンフィデンスの推定は削除をモデル化せず、発声内のワードのワードレベルコンフィデンスの集約に基づく発声全体のコンフィデンスは、多くの有用なワードレベル訓練信号を破棄する。本明細書の実施態様は、ワード訓練、発声訓練、および削除訓練に関連する目標を使用してコンフィデンスモデルを共同訓練するためのマルチタスク学習を適用することをさらに対象としている。

図1は例示的スピーチ環境100であり、ユーザ10はボイス入力を介してユーザデバイス110と対話している。ユーザデバイス110(一般にデバイス110とも呼ばれる)は、スピーチ対応環境100内の一人または複数人のユーザ10から音(例えばストリーミング音響データ)を取り込むように構成されるコンピューティングデバイスを含む。ここではストリーミング音響データ202は、可聴クエリ、デバイス110に対するコマンド、またはデバイス110によって取り込まれる可聴通信として機能する、ユーザ10によって話された発声を意味することができる。デバイス110のスピーチ対応システムは、クエリを処理し、またはクエリに返事を返すことによってコマンドを処理することができ、および/またはコマンドを実施させることができる。

ユーザデバイス110は、音響データ202を受け取ることができる任意のコンピューティングデバイスに対応し得る。ユーザデバイス110のいくつかの例には、それらに限定されないが、モバイルデバイス(例えばモバイル電話、タブレット、ラップトップなど)、コンピュータ、着用可能デバイス(例えばスマートウォッチ)、スマート機器、モノのインターネット(IoT)デバイス、スマートスピーカ/ディスプレイ、車両インフォテインメントシステムなどがある。ユーザデバイス110は、データ処理ハードウェア112と、データ処理ハードウェア112と通信するメモリハードウェア114であって、データ処理ハードウェア112によって実行されると、データ処理ハードウェア112に1つまたは複数の動作を実施させる命令を記憶する、メモリハードウェア114とを含む。ユーザデバイス110は、話された発声12をスピーチ対応システム100内で取り込み、かつ、電気信号に変換するための音響取込みデバイス(例えばマイクロホン)116、116a、および可聴音響信号を通信する(例えばデバイス110からの出力音響データとして)ためのスピーチ出力デバイス(例えばスピーカ)116、116bを有する音響サブシステム116をさらに含む。ユーザデバイス110は、示されている例では単一の音響取込みデバイス116aを実現しているが、ユーザデバイス110は、本開示の範囲を逸脱することなく、音響取込みデバイス116aのアレイを実現することができ、それによりアレイ中の1つまたは複数の取込みデバイス116aはユーザデバイス110上に物理的に存在していなくてもよく、音響サブシステム116と通信することができる。示されている例では、ユーザデバイス110(例えばハードウェア112、114を使用した)は、ユーザ10によって話された発声12に対応する音響データ202上で音声認識を実施するように構成されている音声認識装置200を実現している。ここでは音響取込みデバイス116aは、発声12を表す音響音を取り込み、かつ、その音響音を音声認識装置200と両立するデジタルフォーマットと関連付けられた音響データ202に変換するように構成されている。音響データ202と関連付けられたデジタルフォーマットは、メルフレームなどの音響フレーム(例えばパラメータ化された音響フレーム)に対応し得る。例えばパラメータ化された音響フレームはログ-メルフィルタバンクエネルギーに対応する。

図1は、デバイス上で音声認識を実施するための音声認識装置200を実現するユーザデバイス100を示しているが、他の実施態様は、ネットワークを介してユーザデバイス110によって送信された音響データ202を処理し、かつ、音響データ202の表現形式204をユーザデバイス110に提供して戻すことによって音声認識装置200を実現している遠隔サーバ410(図4)を含む。いくつかの追加実施態様では、ユーザデバイス110は、ユーザデバイス110上に存在している局所音声認識装置200、および遠隔サーバ410上で実行するサーバ側音声認識装置402(図4)の両方を利用している。ここではユーザデバイス110は、ネットワーク接続を利用することができない場合、またはレイテンシに敏感であり、および/またはストリーミング表現形式を必要とするスピーチアプリケーションに対して、局所音声認識装置200を使用することができ、一方、図4を参照して以下でより詳細に説明されるように、音声認識精度を改善するために追加資源が必要である場合、サーバ側音声認識装置402を利用することができる。

いくつかの例では、ユーザ10は、音声認識装置200を使用しているユーザデバイス110上で実行するプログラムまたはアプリケーション118と対話する。例えば図1は、自動アシスタントアプリケーション118と通信するユーザ10を描写している。この例ではユーザ(例えばBill)10は、発声12を話すことによって自動アシスタントアプリケーションに挨拶している。「おはよう」が音響取込みデバイス116aによって取り込まれ、かつ、音声認識装置200による処理のために対応する音響データ202(例えば音響フレーム)に変換される。この例では、音声認識装置200は、発声12を表す音響データ202を表現形式204(例えば「おはよう」の文章表現)に転記している。ここでは自動アシスタントアプリケーション118は、自然言語処理を表現形式204に適用してユーザ10に出力するための応答119を生成し、「おはようBill、あなたのカレンダの今日の最初の会議は午前9時です」のメッセージを伝えることができる。自然言語処理は、通常、書かれた言語(例えば表現形式204)の翻訳、およびその書かれた言語が何らかのアクションを促しているかどうかの決定の処理を意味している。この例では、アシスタントアプリケーション118は自然言語処理を使用して、ユーザ10によって話された発声12には、アシスタントアプリケーション118にユーザ10のカレンダアプリケーションにアクセスさせて、ユーザ10の今日の最初の会議の時間を示す応答119を提供させることが意図されていることを認識している。すなわち自然言語処理を使用してこれらの詳細を認識することにより、アシスタントアプリケーション118は、音響出力デバイス116aを介した可聴出力のための合成スピーチ表現として、および/またはユーザデバイス110と通信するスクリーンに表示するための文章として応答119をユーザ10に返している。いくつかの例では、ユーザデバイス110は、ユーザ10によって話された発声12の表現形式204、およびスクリーン上での会話としてアシスタントアプリケーション118からの対応する応答119を表示している。いくつかの構成では、自然言語処理は、ユーザデバイス110のデータ処理ハードウェア112と通信する遠隔システム上で生じ得る。

いくつかの例では、音声認識装置200は、入ってくる音響データ202を実時間で処理してストリーミング表現形式204を提供する。ここでは音声認識装置200は、ユーザ10によって話された発声12のワードを構築している仮説サブワードユニットのシーケンスを生成するように構成されている。仮説サブワードユニットはワードピースまたは個別の文字(例えば書記素)を含むことができる。示されている例では、音声認識装置によって認識される仮説サブワードユニットのシーケンスは、「SOS_go od_mor ning」を含み、「SOS」はスピーチタグの開始を示し、また、個々のワード境界インジケータ(「_」)は、ワード毎の始め/開始サブワードユニットを示す。

図2を参照すると、いくつかの実施態様では、音声認識装置200は、音声認識結果/仮説232を予測するためのRecurrent Neural Network-Transducer (RNN-T)復号器220を含み、音声認識結果/仮説232のコンフィデンス302を推定するためのコンフィデンス予測モジュール(CEM)300を実現する。CEM 300は、発声レベルコンフィデンス302を使用して、音声認識装置200によって予測された音声認識結果/仮説232をリスコアすることができる。ここでは音声認識結果/仮説232は、ワードピースまたは書記素などのサブワードユニットのシーケンスに対応しており、集約されると、相俟って発声のための表現形式204を形成する。一般的に言えば、音声認識装置200は、符号器210およびRNN-T復号器220を含み、RNN-T復号器220は予測ネットワークおよび共同ネットワークを含む。RNN-T復号器220は出力222として複数の候補仮説Hを生成し得、また、CEM 300は上位K個の候補仮説Hをリスコアリング/再ランキングして、表現形式204(図1)に対応する最終認識結果として最も高いスコアリング候補仮説を識別し得る。さらに、本明細書の例は、RNN-Tモデルアーキテクチャを有する復号器220を示すが、復号器220は、本開示の範囲を逸脱することなく、他のタイプの変換器モデルアーキテクチャを同様に含むことができる。例えば復号器220は、RNN-Tモデルアーキテクチャの代わりに、Transformer-Transducer、Convolutional Neural Network-Transducer(ConvNet-Transducer)またはConformer-Transducerモデルアーキテクチャのうちの1つを含むことができる。

少なくとも1つの共有符号器210は、入力として、音響フレームのシーケンスとして発声12に対応する音響データ202を受け取るように構成されている。音響フレームは、音響サブシステム116によって、パラメータ化された音響フレーム(例えばメルフレームおよび/またはスペクトルフレーム)に予め処理することができる。いくつかの実施態様では、パラメータ化された音響フレームは、ログ-メル特徴を有するログ-メルフィルタバンクエネルギーに対応している。例えば符号器210の中に入力される音響データ202を表すパラメータ化された入力音響フレームはx=(x₁、...、x_T)として表すことができ、

はログ-メルフィルタバンクエネルギーであり、Tはx中のフレームの数を表し、また、dはログ-メル特徴の数を表す。いくつかの例では、パラメータ化された個々の音響フレームは、短いシフティングウィンドウ(例えば32ミリ秒および10ミリ秒毎にシフトされる)内でコンピューティングされる128次元のログ-メル特徴を含む。個々の特徴は、先行するフレーム(例えば3つの先行するフレーム)を使用して積み重ねて、より高い次元ベクトル(例えば3つの先行するフレームを使用した512次元ベクトル)を形成することができる。次に、ベクトルを形成している特徴をダウンサンプルすることができる(例えば30ミリ秒フレームレートまで)。符号器210は、符号器210に入力される音響データ202の音響フレームx_1:T毎に、出力212として、対応する符号化e_1:Tを生成するように構成されている。Tによって示されるx内のフレーム数の各々は、それぞれの時間ステップに対応する。

符号器210の構造は異なる方法で実現することができるが、いくつかの実施態様では、符号器210は長-短期記憶(LSTM)ニューラルネットワークを含む。例えばLSTMニューラルネットワークは8個のLSTM層を含むことができる。ここでは個々の層は、640次元投射層が後続する2,048個の隠れたユニットを有することができる。いくつかの例では、符号器210の第2のLSTM層の後に、短縮係数がN=2の時間短縮層が挿入される。

いくつかの実施態様では、RNN-T復号器220は予測ネットワークおよび共同ネットワークを含む。ここでは予測ネットワークは、2,048個の隠れたユニットの2つのLSTM層、および層当たり640次元投射、ならびに128ユニットの埋込み層を有することができる。共有符号器210および予測ネットワークの出力212は、ソフトマックス予測層を含む共同ネットワークに供給することができる。いくつかの例では、RNN-T復号器220の共同ネットワークは、4,096個の混合-事例ワードピースを予測するソフトマックス層が後続する640個の隠れたユニットを含む。

RNN-T復号器220は、入力として、音響フレームx毎に符号器210からの出力212として生成された符号化eを受け取り、かつ、出力222として、仮説サブワードユニットy₁、y₂、y₃、…、y_Mのそれぞれのシーケンスによってそれぞれ表されている1つまたは複数の候補仮説Hを生成する。例えばユーザ10が「おはよう」を発声する例では、1つの候補仮説Hは、仮説サブワードユニットの第1のシーケンス[_go、od、_mor、ning]を含むことができ、また、別の候補仮説Hは、仮説サブワードユニットの第2のシーケンス[_go、od、_morn、ing]を含むことができる。多くの他の候補仮説Hも存在し得る。ここでは個々の候補仮説Hを表す仮説サブワードユニットy₁、y₂、y₃、…、y_Mのそれぞれのシーケンスは、発声12に対する候補表現形式に対応している。仮説サブワードユニットy₁、y₂、y₃、…、y_Mの個々のそれぞれのシーケンスにおける個々のサブワードユニットy_iは、可能なサブユニット全体にわたる確率分布を表している。確率分布における最も高い確率を有するサブワードユニットを仮説サブワードユニットのそれぞれのシーケンスにおける仮説サブワードとして選択することができる。

引き続いて図2を参照すると、CEM 300は、入力として、符号器210から出力される符号化e、e_1:T212のシーケンス、およびRNN-T復号器220からの出力222として生成された上位K個の候補仮説Hを受け取ることができる。一例ではKは4に等しく、したがって仮説H毎に発声レベルコンフィデンス350を決定することによって、リスコアリングのために、上位4個の候補仮説Hが入力としてCEM 300に提供される。最も高いコンフィデンス350と関連付けられた候補仮説Hを表現形式204として出力することができる。

ソフトマックス層のサイズを縮小するために、可能なサブワードユニットのサブワードユニット語彙は、典型的には、ワード語彙と比較するとより小さい。サブワードユニット語彙は書記素またはワードピース(WP)を含むことができる。例示的WP語彙は4,096個のWPを含むことができる。本開示の例は、音声認識装置からの出力として生成されるサブワードユニットとしてWPを使用しているが、本開示の範囲を逸脱することなく、音声認識装置から出力されるサブワードユニットとして書記素を同様に利用することも可能である。したがって候補仮説Hに対するワード誤り率(WER)をコンピューティングするためには、仮説サブワードユニット(例えばWP)のそれぞれのシーケンスをその対応するワードシーケンスw₁、w₂、...、w_Lに変換しなければならない。個々のワードの第1のサブワードユニット(例えばWP)はワード境界インジケータ(「_」)で始まるため、サブワードシーケンスをワードシーケンスに変換するためのこの手順は独自に決定される。同様に、y_j、qがj番目のワードのq番目のWPを表すQ_j個のWPを含むワードw_jの場合、ワードコンフィデンスをコンピューティングするための単純な技法は、以下の
c_word(w_j)=agg(y_j、₁)、…、c(y_j、Q_j) (1)
として表すことができ、aggは算術平均、最小値、積またはニューラルネットワークであってもよい。しかしながら個々のワードw_jは、WP正確性とワード正確性の間の不一致のために複数の異なる有効WP組合せに分割することができるため、式1を使用してワードレベルコンフィデンスを予測すると、最も少ないWP編集を有するワードw_jのためのすべての可能基準トークン化に対する探索が要求されるため、訓練中に望ましくないコンピューテーション負担がもたらされることになる。本明細書において使用されているように、WP編集は、仮説WPが基準WPと一致する場合は正しい(cor)ラベルを含み、有効仮説WPが基準WPと一致しない場合は置換(sub)ラベルを含み、また、仮説WPが誤って認識される場合は挿入(ins)ラベルを含む。以下のTable 1(表1)は、「morning」というワードが正しく転記され、しかしながらWP編集距離出力において2つの置換がもたらされた場合の例を示している。

Table 1(表1)に示されているWPレベルで出力する音声認識装置200によってもたらされるWP正確性とワード正確性の間の固有不一致を是正するために、本明細書における実施態様は、ワードレベルコンフィデンスとしてのすべてのワードの最終WPにおけるコンフィデンス出力を利用し、その一方ですべてのワードの先行するすべての他のWPのコンフィデンスを無視するトランスフォーマベースのCEM 300を対象としている。訓練中、音声認識装置200は凍結され、修正、挿入、および置換のグラウンドトゥルースWPラベルが使用される。

図3は、音声認識装置200の上に展開しているトランスフォーマベースのCEM 300の例を示したものである。明確にするために、図3は、RNN-T復号器220によって出力された仮説WP y₁、y₂、y₃、…、y_Mのそれぞれのシーケンスにおけるi番目のWPに対するコンフィデンス出力c(y_i) 302を予測するCEM 300のアクションのみを示している。とりわけ図3は、対応するワードシーケンス「good morning」に変換する仮説WP[_go、od、_mor、ning]のそれぞれのシーケンスにおける「ning」WPに対するコンフィデンス出力c(「ning」)を予測するCEM 300を示している。

RNN-T復号器220は、出力222として、仮説サブワードユニットy₁、y₂、y₃、…、y_Mのそれぞれのシーケンスによってそれぞれ表される1つまたは複数の候補仮説Hを生成する。ここで、RNN-T復号器220は、4つの候補仮説を出力222として生成することができる。「Good morning」という発声12に対する示されている例では、RNN-T復号器220からの出力222として生成された1つの候補仮説Hは、仮説サブワードユニット[_go、od、_mor、ning]の第1のシーケンスを含むことができ、また、別の候補仮説Hは、仮説サブワードユニット[_go、od、_morn、ing]の第2のシーケンスを含むことができる。それと同時に、符号器210は、Tが発声12からセグメント化された多数の音響フレームxに対応する音響文脈を伝える符号化e_1:T 212のシーケンスを生成する。

RNN-T復号器220からの出力222として生成される候補仮説Hを表す仮説サブワード(例えばWP)ユニット[sos_go、od、_mor、ning eos]のシーケンスにおけるサブワードユニット(y_i)毎に、それぞれのコンフィデンス出力c(y_i)302を決定するために、音声認識装置200から得られたコンフィデンス特徴のセットを表すコンフィデンス埋込みb(y_i)242が入力としてCEM 300に提供される。示されている例では、i番目のサブワードユニットはWP「ning」に対応している。ここではコンフィデンス埋込みb(y_i) 242は、入力サブワード+位置埋込みEmb(y_i)特徴(例えばEmb(ning))、ログポステリアログ(p(y_i))特徴および上位K個(i)の特徴のうちの1つまたは複数を伝えている。ログポステリアログ(p(y₁))特徴は、サブワードユニットy_iがWP「ning」を含む確率/可能性と関連付けられた確率値を示し、また、上位K個(i)の特徴は、復号器インデックス(例えば時間ステップ)iにおけるK個の最も大きいログ確率を示している。言い換えると、上位K個(i)の特徴は、復号器インデックス(例えば時間ステップ)iにおける上位K個の中の候補仮説H毎の確率値を提供している。音声認識装置200およびCEM 300の両方が時間ステップ毎にサブワード(例えばWP)レベルで出力を生成するように構成されているため、CEM 300をトランスフォーマとして実現することにより、(1)すべてのワードc_word(w_j)の最終WPにおけるコンフィデンス出力c(y_j、Q_j)を専用ワードレベルコンフィデンス302として利用することにより、ワード編集距離出力をグラウンドトゥルース訓練ラベル(すなわちラベルの修正、置換、および挿入)として使用することができ、また、(2)ワードを構築しているすべてのWPからの情報/特徴を組み込むことができる。示されている例では、トランスフォーマベースのCEM 300の自己アテンション機構310は、WP「ning」に対応するi番目のサブワードユニットに対するコンフィデンス埋込みb(y_i) 242、ならびに同じワードにおけるもっと早いサブワードユニットに対するコンフィデンス埋込みに基づいて、自己アテンションをコンフィデンス特徴ベクトルbに適用している。コンフィデンス特徴ベクトルbは以下のように表すことができる。
b={b(y₁)、…、b(y_i)} (2)

さらに、トランスフォーマベースのCEM 300の音響相互アテンション機構320は、WP「ning」に対応するi番目のサブワードユニットに対するそれぞれのコンフィデンス出力c(y_i) 302を予測する精度を改善するために、音響相互アテンション(CA(e))を符号器210から出力される符号化e、e_1:T 212のシーケンスに適用して音響文脈ベクトル322を生成する。本明細書において使用されているように、「音響文脈ベクトル」および「音響特徴ベクトル」という用語は、互換的に使用することができる。最後に、ソフトマックス出力層340は、自己アテンションコンフィデンス特徴ベクトルSA(b)および相互アテンションCA(e)音響文脈ベクトル322を使用して、トランスフォーマベースのCEM 300による、
[f(y₁),…,f(y_M)]=Transformer(CA(e),SA(b)) (3)
[c(y_i),i(y_i),s(y_i)]=Softmax(f(y₁)) (4)
のようにi番目のサブワードユニットの専用コンフィデンス出力c(y_i)302の生成を許容しており、ソフトマックス出力層340は、WP編集距離と関連付けられた修正、置換、および挿入のグラウンドトゥルースWPラベルを用いて訓練される。CEM 300は、最終WPにおけるコンフィデンス出力c(y_j, Q_j)を使用して、ワードc_word(w_j)毎にコンフィデンス302を決定し、以下のようにワード正解率

を推定することができる。
c_word(w_j)=c(y_j、Q_j) (5)

示されている例におけるワードc_word(morning)に対するコンフィデンス302は、ワードを構築している最終WPのコンフィデンス出力c(ning)に対応している。

は、1つのタイプの発声レベルコンフィデンススコアを含む。

CEM 300は音声認識装置200と合同で訓練することができ、またはCEM 300および音声認識装置は互いに個別に訓練することができる。いくつかの例では、CEM 300は、以下のように二進交差エントロピーワードレベル損失を使用して訓練される。

Table 1(表1)は、仮説ワードが基準ワードと一致すると、ワードw_jに対するLevenshteinワードレベル編集距離が「正しい」(cor)ラベルを出力する場合、d(w_j)は1に等しく、また、仮説ワードが基準ワードと一致しない場合に、ワードw_jに対するLevenshteinワードレベル編集距離が「挿入」(ins)または「置換」(sub)ラベルを出力する場合、d(w_j)はゼロに等しいことを示している。注目すべきことには、音声認識装置200およびCEM 300はサブワードレベルで出力する(例えばすべてのWPを出力する)ため、Table 1(表1)は、CEM 300は、ワードを構築している最終WPのみに的を絞るためにワードマスク損失mの終了を適用し、また、同じワードを構築しているもっと早いWPと関連付けられたWP損失を無視することをも示している。

CEMは、以下のグラウンドトゥルースを使用して、発声レベル損失についてさらに訓練することができる。

ここで、削除が存在するとeの値がゼロになり、信号がCEM 300の内部特徴に逆伝播される。発声特徴を抽出して予測を行うために、階層型アテンション機構380は、以下の
u_i=tanh(W₁f(y_i)+b) (9)

を実施し、s_uttを生成するパラメータW₁、b、およびw₂は、バイナリクロスエントロピー損失L=-[e log s_utt + (1 - e) log(1 - s_utt)]を用いて訓練することができ、ここで、s_uttは、発声全体がゼロWERで認識される確率の推定値を提供し、これは、発声をランク付けするために役立つ。しかしながら、このs_uttからは生のWERの推定値は得られない。直観的には、発声特徴s_uttは、トークン特徴y₁～y_Mのシーケンスの要約である。階層的アテンション機構380のMLPは2つの層を含み、それぞれ320および1の隠れ次元および出力次元を含むことができる。

CEMは、削除数の推定に基づいて仮説Hの生のワード誤り率(WER)をさらに推定することができる。ここで、三次タスクは、j-1とj番目のワードの間の削除数としてグラウンドトゥルースe_jを使用して定義することができる。一般に、任意の位置における削除数は、任意の非負の整数を含むことができる。削除特徴を抽出して予測を行うために、
r_w(w_j)=MLP(f(w_j)) (12)

のようにポアソン回帰損失を使用してMLPを訓練することができる。(f(w_j))は自己アテンションを使用して生成され、j番目のワードまでの言語情報を有する。したがって、j番目のワードの直前の削除数e_jを予測するために適している。

したがって、WER推定値は、以下のように計算でき、

図4は、適切な音声認識装置を選択して発声12を転記するため例示的コンフィデンスベースのルーチンの略図400を示したものである。示されている例では、第1の音声認識装置200は、ユーザ10によって話された発声12に対応する入ってくる音響データ202を処理することによって表現形式204を生成するためのデフォルト音声認識装置として動作している。第1の音声認識装置200は、ユーザ10と関連付けられたユーザデバイス110上で実行する局所音声認識装置に対応し得る。第1の音声認識装置200は、第1の音声認識装置200によって出力される、表現形式204に対応する音声認識結果222に対する発声レベルコンフィデンススコア350を決定するためのCEM 300をも実現している。

いくつかの実施態様では、コンフィデンスベースのルーチンは、第1の音声認識装置200によって転記された発声12に対する発声レベルコンフィデンススコア350がコンフィデンス閾値を満足しているかどうかを決定する。示されている例では、コンフィデンス閾値より大きい発声レベルコンフィデンススコア350はコンフィデンス閾値を満足し、一方、コンフィデンス閾値以下の発声レベルコンフィデンススコア350はコンフィデンス閾値を満足しない。発声レベルコンフィデンススコア350がコンフィデンス閾値を満足すると(例えばコンフィデンス閾値より大きいと)(例えば決定ブロック450が「イエス」である)、第1の音声認識装置200によって生成された表現形式204が受け入れられて、品質、レイテンシおよび信頼性におけるオン-デバイスゲインを達成する。ここでは、受け入れられた表現形式204はユーザデバイス110上に表示することができ、あるいはユーザデバイス110上に継続して表示することができ、および/または表現形式204を翻訳し、かつ、必要に応じて関連するアクション/動作を実施するために、下流側の自然言語理解(NLU)モジュールに引き渡すことができる。

発声レベルコンフィデンススコア350がコンフィデンス閾値を満足していない場合(例えばコンフィデンス閾値未満である場合)(例えば決定ブロック450が「ノー」である)、コンフィデンスベースのルーチンは、第1の音声認識装置200によって生成された表現形式204を拒否し、発声12を再転記する処理のために音響データ202を第2の音声認識装置402に引き渡す。第2の音声認識装置402によって生成された表現形式204はユーザデバイス110に戻すことができ、および/または翻訳のために下流側のNLUモジュールに戻すことができる。第1の音声認識装置200が局所で、かつ、デバイス110上で実行し、また、第2の音声認識装置402がサーバ側で、かつ、遠隔サーバ410上で実行する例では、コンフィデンスベースのルーチンは、遠隔サーバ410上で実行する第2の音声認識装置402が発声12を転記することができるように、ユーザデバイス110に、ネットワーク(図示せず)を介して音響データ202を遠隔サーバ410に送信させる。第2の音声認識装置402は、大規模言語モデル訓練データ上で訓練された大型言語モデルを利用して、第2の音声認識装置402を適切な名詞の認識により適したものにすることができ、あるいは第2の音声認識装置402を、第1の音声認識装置200を訓練するために使用される訓練データには存在していない共通ワードがより少ないものにすることができる。

いくつかの例では、第1の音声認識装置200は、通常、より大きい言語モデルおよび辞典を実現している第2の音声認識装置402よりも、ショートフォーム発声を認識するためにより正確であり(例えばより低いワード誤り率を達成する)、第1の音声認識装置200は、最終的には、ロングテール発声の認識の精度が第2の音声認識装置402よりも劣ることがあり得る。したがってコンフィデンスベースのルーチンは、表現形式204を生成し、かつ、第1の音声認識装置200を使用してほとんどの発声をデバイス110上で転記して、品質、レイテンシおよび信頼性を得るために、すべての発声をコンフィデンス閾値未満のコンフィデンススコア350で第2の音声認識装置402に送ることができる。

第2の音声認識装置402はサーバ側として示されているが、第2の音声認識装置402はデバイス上で実行することも可能である。例えば第2の音声認識装置402は、特定の発声に対して第1の音声認識装置200よりも正確な音声認識結果を生成することができる、よりコンピューテーション集約的音声認識装置と関連付けることができるが、レイテンシの短縮が犠牲になり、また、電力消費が増加する。したがってコンフィデンスベースのルーチンは、第1の音声認識装置200によって生成された認識結果と関連付けられた発声レベルコンフィデンススコアがコンフィデンス閾値未満である場合、第2の音声認識装置402を利用して発声12を転記することができる。

ソフトウェアアプリケーション(すなわちソフトウェア資源)は、コンピューティングデバイスにタスクを実施させるコンピュータソフトウェアを意味することができる。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「app」または「プログラム」と呼ぶことができる。例示的アプリケーションには、それらに限定されないが、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、ワード処理アプリケーション、スプレッドシートアプリケーション、メッセージ発信アプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーションおよびゲーミングアプリケーションがある。

非一時的メモリは、コンピューティングデバイスによる使用のために一時的または永久的ベースでプログラム(例えば命令のシーケンス)またはデータ(例えばプログラム状態情報)を記憶するために使用される物理的デバイスであってもよい。非一時的メモリは揮発性および/または不揮発性アドレス指定可能半導体メモリであってもよい。不揮発性メモリの例には、それらに限定されないが、フラッシュメモリおよびリードオンリメモリ(ROM)/プログラマブルリードオンリメモリ(PROM)/消去可能プログラマブルリードオンリメモリ(EPROM)/電気的消去可能プログラマブルリードオンリメモリ(EEPROM)(例えばブートプログラムなどのファームウェアのために典型的に使用される)がある。揮発性メモリの例には、それらに限定されないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、位相変化メモリ(PCM)ならびにディスクまたはテープがある。

図5は、ワードに対する最終仮説サブワードユニットのコンフィデンスのみを使用した音声認識装置によって認識されたそのワードに対するワードレベルコンフィデンスを予測する方法500のための動作の例示的配置のフローチャートである。データ処理ハードウェア112(図1)は、メモリハードウェア114(図1)上に記憶されている命令を実行して、方法500の動作の例示的配置を実施することができる。方法500は、動作502において、第1の音声認識装置200から、ユーザ10によって話された発声12の表現形式204に対応する音声認識結果232を受け取るステップを含む。第1の音声認識装置200は、図2Aおよび図2Bを参照して上で考察した2パス復号化アーキテクチャで構成することができる。ここでは音声認識結果232は、音声認識装置200のリスコアリング復号器によってリスコアされた最も高いスコアリング候補仮説であり、発声12の1つまたは複数のワードを形成している仮説サブワードユニットのシーケンスを含み、個々のサブワードユニットは、対応する出力ステップで音声認識装置200から出力される。

方法500は、コンフィデンス予測モジュール(CEM)300を使用して、仮説サブワードユニットのシーケンス中のサブワードユニット毎に動作504、506、508、510を実施する。動作504で、方法500は、対応するサブワードユニットが第1の音声認識装置200から出力されると、対応する出力ステップと関連付けられたコンフィデンス特徴のセットを表すそれぞれのコンフィデンス埋込み242を獲得するステップを含む。動作506で、方法500は、対応するサブワードユニットを続行する仮説サブワードユニットのシーケンス中の任意の他のサブワードユニットに対して獲得された対応するサブワードユニットおよびコンフィデンス埋込みb(y₁)-b(y_1-i)に対するそれぞれのコンフィデンス埋込みb(y_i) 242に自己付随する第1のアテンション機構310を使用して、コンフィデンス特徴ベクトルSA(b)を生成するステップを含む。動作508で、方法500は、発声12に対応する音響データ202からセグメント化された対応する音響フレームx_Tとそれぞれ関連付けられた音響符号化e、e_1:T 252のシーケンスに相互付随する第2のアテンション機構320を使用して、音響文脈ベクトルCA(e) 322を生成するステップを含む。動作510で、方法500は、CEM 300の出力層340からの出力として、CEM 300の出力層による入力として受け取ったコンフィデンス特徴ベクトルSA(b)および音響特徴ベクトルCA(e) 322に基づいて、対応するサブワードユニットに対するそれぞれのコンフィデンス出力スコア302を生成するステップを含む。

方法500は、動作512において、仮説サブワードユニットのシーケンス中のサブワードユニット毎に生成されたそれぞれのコンフィデンス出力スコアに基づいて、発声の表現形式に対する発声レベルコンフィデンススコア350を決定するステップを含む。発声レベルコンフィデンススコア350がコンフィデンス閾値より小さい場合、動作は、第1の音声認識装置200によって表現形式204出力を拒否するステップと、発声を再転記するために、発声に対応する音響データ14を処理するように第2の音声認識装置402に命令するステップとをさらに含むことができる。第2の音声認識装置402は、第1の音声認識装置200よりもコンピューテーション集約的である可能性があり、したがって、音響データ14に対して音声認識を実施する場合、第1の音声認識装置200よりも正確である可能性がある。例えば、第1の音声認識装置200は完全にオンデバイスで実行され、レイテンシがほとんどないストリーミング表現形式機能を提供することができ、第2の音声認識装置402は、潜在的に無限のコンピューティング/メモリ資源を利用して遠隔サーバ上で実行し、レイテンシを短縮して音声認識を正確に実施することができる。したがって、オンデバイスで実行する第1の音声認識装置200によって出力される表現形式204の低い発声レベルコンフィデンススコア350は、よりコンピューテーション集約的な第2の音声認識装置200を呼び出すためのインジケータとして機能し得る。本開示の範囲を逸脱することなく、第2の音声認識装置402は、オンデバイスで実行することもできるが、音声認識精度を向上させるためによりコンピューテーション集約的である可能性があり、レイテンシの短縮が犠牲になり、また、電力消費とコンピューティングが増加する。

図6は、本文書において説明されているシステムおよび方法を実現するために使用することができる例示的コンピューティングデバイス600の略図である。コンピューティングデバイス600には、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームおよび他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図されている。ここで示されている構成要素、それらの接続および関係、ならびにそれらの機能は単に例示的なものにすぎず、本文書において説明され、および/または特許請求される本発明の実施態様を制限するものではない。

コンピューティングデバイス600は、プロセッサ610、メモリ620、記憶デバイス630、メモリ620および高速拡張ポート650に接続する高速インタフェース/コントローラ640、および低速バス670および記憶デバイス630に接続する低速インタフェース/コントローラ660を含む。構成要素610、620、630、640、650および660の各々は様々なバスを使用して相互接続されており、また、共通のマザーボード上に取り付けることができ、あるいは適切な他の方法で取り付けることができる。プロセッサ610は、コンピューティングデバイス600内で実行するための命令を処理することができ、命令は、メモリ620の中または記憶デバイス630上に記憶されている、高速インタフェース640に結合されたディスプレイ680などの外部入力/出力デバイス上のグラフィカルユーザインタフェース(GUI)のための図形情報を表示するための命令を含む。他の実施態様では、適切である場合、複数のメモリおよび複数のタイプのメモリと共に複数のプロセッサおよび/または複数のバスを使用することも可能である。また、個々のデバイスが必要な動作の一部を提供する(例えばサーババンク、ブレードサーバのグループまたは多重プロセッサシステムとして)複数のコンピューティングデバイス600を接続することも可能である。

メモリ620は、情報をコンピューティングデバイス600内で非一時的に記憶する。メモリ620は、コンピュータ可読媒体、揮発性メモリユニットまたは不揮発性メモリユニットであってもよい。非一時的メモリ620は、コンピューティングデバイス600による使用のために一時的または永久的ベースでプログラム(例えば命令のシーケンス)またはデータ(例えばプログラム状態情報)を記憶するために使用される物理的デバイスであってもよい。不揮発性メモリの例には、それらに限定されないが、フラッシュメモリおよびリードオンリメモリ(ROM)/プログラマブルリードオンリメモリ(PROM)/消去可能プログラマブルリードオンリメモリ(EPROM)/電気的消去可能プログラマブルリードオンリメモリ(EEPROM)(例えばブートプログラムなどのファームウェアのために典型的に使用される)がある。揮発性メモリの例には、それらに限定されないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、位相変化メモリ(PCM)ならびにディスクまたはテープがある。

記憶デバイス630は、コンピューティングデバイス600のための大容量記憶を提供することができる。いくつかの実施態様では、記憶デバイス630はコンピュータ可読媒体である。様々な異なる実施態様では、記憶デバイス630は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイスまたはテープデバイス、フラッシュメモリまたは他の同様の固体状態メモリデバイス、あるいは記憶領域ネットワークまたは他の構成におけるデバイスを含むデバイスのアレイであってもよい。追加実施態様では、コンピュータプログラム製品が情報担体の中に有形で具体化されている。コンピュータプログラム製品は、実行されると、上で説明した方法などの1つまたは複数の方法を実施する命令を含む。情報担体は、メモリ620、記憶デバイス630、またはプロセッサ610上のメモリなどのコンピュータまたは機械可読媒体である。

高速コントローラ640は、コンピューティングデバイス600のための帯域幅集約動作を管理し、一方、低速コントローラ660は、それほど帯域幅集約ではない動作を管理している。役割のこのような割振りは単に例示的なものにすぎない。いくつかの実施態様では、高速コントローラ640はメモリ620、ディスプレイ680(例えばグラフィックプロセッサまたはアクセラレータを介して)に結合され、また、様々な拡張カード(図示せず)を受け入れることができる高速拡張ポート650に結合されている。いくつかの実施態様では、低速コントローラ660は記憶デバイス630および低速拡張ポート690に結合されている。様々な通信ポート(例えばUSB、Bluetooth、Ethernet、無線Ethernet)を含むことができる低速拡張ポート690は、キーボード、位置決めデバイス、スキャナなどの1つまたは複数の入力/出力デバイスに結合することができ、あるいは例えばネットワークアダプタを介して、スイッチまたはルータなどのネットワーク化デバイスに結合することができる。

コンピューティングデバイス600は、図に示されているように多くの異なる形態で実現することができる。例えばコンピューティングデバイス600は、標準サーバ600aまたはこのようなサーバ600aのグループにおける複数回として、ラップトップコンピュータ600bとして、またはラックサーバシステム600cの一部として実現することができる。

本明細書において説明されているシステムおよび技法の様々な実施態様は、デジタル電子および/または光回路機構、集積回路機構、特殊設計ASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェアおよび/またはそれらの組合せの中で実現することができる。これらの様々な実施態様は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または翻訳することができる1つまたは複数のコンピュータプログラムにおける実施態様を含むことができ、少なくとも1つのプログラマブルプロセッサは、記憶システム、少なくとも1つの入力デバイスおよび少なくとも1つの出力デバイスからデータおよび命令を受け取り、かつ、それらにデータおよび命令を送信するために結合された、専用または汎用プログラマブルプロセッサであってもよい。

これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる)はプログラマブルプロセッサのための機械命令を含み、また、高水準手続きおよび/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械言語で実現することができる。本明細書において使用されているように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令および/またはデータを提供するために使用される任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置および/またはデバイス(例えば磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を意味している。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を意味している。

本明細書において説明されているプロセスおよび論理フローは、データ処理ハードウェアとも呼ばれる、1つまたは複数のコンピュータプログラムを実行して、入力データに対して操作し、かつ、出力を生成することによって機能を実施する1つまたは複数のプログラマブルプロセッサによって実施することができる。また、プロセスおよび論理フローは、専用論理回路機構、例えばFPGA(書替え可能ゲートアレイ)またはASIC(特定用途向け集積回路)によって実施することも可能である。コンピュータプログラムを実行するために適したプロセッサには、一例として、汎用および専用の両方のマイクロプロセッサ、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサがある。通常、プロセッサは、リードオンリメモリまたはランダムアクセスメモリあるいは両方から命令およびデータを受け取ることになる。コンピュータの本質的な要素は、命令を実施するためのプロセッサ、および命令およびデータを記憶するための1つまたは複数のメモリデバイスである。通常、コンピュータは、データを記憶するための1つまたは複数の大容量記憶デバイス、例えば磁気、磁気光学ディスクまたは光ディスクをも含むか、またはそれらからデータを受け取り、またはそれらにデータを転送し、あるいはその両方のためにそれらに動作結合されることになる。しかしながらコンピュータは、必ずしもこのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するために適したコンピュータ可読媒体は、一例として半導体メモリデバイス、例えばEPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、例えば内部ハードディスクまたは取外し可能ディスク、磁気光学ディスクならびにCD ROMおよびDVD-ROMディスクを含む、あらゆる形態の不揮発性メモリ、媒体およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路機構で補足することができ、あるいは専用論理回路機構の中に組み込むことができる。

ユーザとの対話を提供するために、本開示の1つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、例えばCRT(陰極線管)、LCD(液晶ディスプレイ)モニタまたはタッチスクリーンを有し、また、任意選択でユーザがコンピュータに入力を提供することができるキーボードおよび位置決めデバイス、例えばマウスまたはトラックボールを有するコンピュータ上で実現することができる。他の種類のデバイスを使用してユーザとの対話を提供することも可能であり、例えばユーザに提供されるフィードバックは、任意の形態の知覚フィードバック、例えば視覚フィードバック、聴覚フィードバックまたは触覚フィードバックであってもよく、また、ユーザからの入力は、音響入力、スピーチ入力または触覚入力を含む任意の形態で受け取ることができる。さらに、コンピュータは、例えばウェブブラウザから受け取った要求に応答して、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送ることにより、ユーザによって使用されるデバイスに文書を送り、また、デバイスから文書を受け取ることによってユーザと対話することができる。

以上、多くの実施態様について説明した。しかしながら、本開示の精神および範囲を逸脱することなく様々な修正を加えることができることは理解されよう。したがって他の実施態様は以下の特許請求の範囲の範疇である。

10 ユーザ
12 話された発声
14 音響データ
100 スピーチ環境、スピーチ対応環境、システム
110 ユーザデバイス
112 データ処理ハードウェア
114 メモリハードウェア
116 音響サブシステム、音響取込みデバイス(例えばマイクロホン)、スピーチ出力デバイス(例えばスピーカ)
116a 音響取込みデバイス(例えばマイクロホン)
116b スピーチ出力デバイス(例えばスピーカ)
118 プログラムまたはアプリケーション、自動アシスタントアプリケーション
119 応答
200 音声認識装置、第1の音声認識装置
202 ストリーミング音響データ
204 ストリーミング表現形式
210 共有符号器、符号器
212 出力
220 RNN-T復号器
222 出力
232 音声認識結果/仮説
242 コンフィデンス埋込み
252 音響符号化e、e_1:T
300 コンフィデンス予測モジュール(CEM)
302 コンフィデンス、コンフィデンス出力c(y_i)、コンフィデンス出力スコア
310 自己アテンション機構、第1のアテンション機構
320 音響相互アテンション機構
322 音響文脈ベクトル、音響特徴ベクトル
340 ソフトマックス出力層
350 発声レベルコンフィデンススコア
380 階層的アテンション機構
400 例示的コンフィデンスベースのルーチンの略図
402 サーバ側音声認識装置、第2の音声認識装置
410 遠隔サーバ
450 決定ブロック
500 ワードに対する最終仮説サブワードユニットのコンフィデンスのみを使用した音声認識装置によって認識されたそのワードに対するワードレベルコンフィデンスを予測する方法
502 動作
600 例示的コンピューティングデバイス
600a 標準サーバ
600b ラップトップコンピュータ
600c ラックサーバシステム
610 プロセッサ
620 メモリ、非一時的メモリ
630 記憶デバイス
640 高速インタフェース/コントローラ
650 高速拡張ポート
660 低速インタフェース/コントローラ
670 低速バス
680 ディスプレイ
690 低速拡張ポート
CA(e) 音響相互アテンション、音響文脈ベクトル、音響特徴ベクトル
e 音響符号化
e_1:T 音響符号化
H 候補仮説
SA(b) コンフィデンス特徴ベクトル
y₁、y₂、y₃、…、y_M 仮説サブワードユニット

Claims

データ処理ハードウェア(112)上で実行されると、前記データ処理ハードウェア(112)に、
第1の音声認識装置(200)から、ユーザ(10)によって話された発声(12)の表現形式(204)に対応する音声認識結果(232)を受け取るステップであって、前記音声認識結果(232)が前記発声(12)の前記表現形式(204)の1つまたは複数のワードを形成する仮説サブワードユニットのシーケンスを含み、個々のサブワードユニットが、対応する出力ステップで前記第1の音声認識装置(200)から出力される、ステップと、
コンフィデンス予測モジュール(300)を使用して、仮説サブワードユニットの前記シーケンス中のサブワードユニット毎に、
前記対応するサブワードユニットが前記第1の音声認識装置(200)から出力されたときに、前記対応する出力ステップと関連付けられたそれぞれのコンフィデンス埋込み(242)を獲得するステップと、
前記対応するサブワードユニットを続行する仮説サブワードユニットの前記シーケンス中の任意の他のサブワードユニットに対して獲得された、前記対応するサブワードユニットおよび前記コンフィデンス埋込み(242)に対する前記それぞれのコンフィデンス埋込み(242)に自己付随する第1のアテンション機構(310)を使用して、コンフィデンス特徴ベクトル(312)を生成するステップと、
前記発声(12)に対応する音響データ(202)からセグメント化された対応する音響フレームとそれぞれ関連付けられた符号化のシーケンス(212)に相互付随する第2のアテンション機構(320)を使用して、音響文脈ベクトル(322)を生成するステップと、
前記コンフィデンス予測モジュール(300)の出力層(340)からの出力として、前記コンフィデンス予測モジュール(300)の前記出力層(340)による入力として受け取った、前記コンフィデンス特徴ベクトル(312)および前記音響文脈ベクトル(322)に基づいて、前記対応するサブワードユニットに対するそれぞれのコンフィデンス出力スコア(302)を生成するステップと、
仮説サブワードユニットの前記シーケンス中のサブワードユニット毎に生成された前記それぞれのコンフィデンス出力スコア(302)に基づいて、前記発声(12)の前記表現形式(204)に対する発声レベルコンフィデンススコア(350)を決定するステップと
を含む動作を実施させるコンピュータ実施方法(500)。
前記発声(12)の前記表現形式(204)に対する前記発声レベルコンフィデンススコア(350)を決定するステップが、
前記発声(12)の前記表現形式(204)の前記1つまたは複数のワードのワード毎に、前記対応するワード中の最後のサブワードユニットに対して生成される前記それぞれのコンフィデンス出力スコア(302)に等しいそれぞれのワードレベルコンフィデンススコア(302)を決定するステップと、
前記発声(12)の前記表現形式(204)に対する前記発声レベルコンフィデンススコア(350)を決定するために、前記表現形式(204)の前記1つまたは複数のワードの各々に対して決定された前記それぞれのワードレベルコンフィデンススコア(302)を集約するステップと
を含む、請求項1に記載のコンピュータ実施方法。
前記動作が、
階層的アテンション機構(380)を使用して、前記発声(204)に対する前記音声認識結果(232)が正しく認識される確率を推定するステップと、
前記発声(12)に対する前記音声認識結果(232)が正しく認識される推定確率と、前記発声(12)が正しく認識されたかどうかを示すグラウンドトゥルースラベルとに基づいて、前記音声認識結果(232)に対する発声レベル損失を決定するステップと、
前記発声レベル損失に関するコンフィデンス予測モデル(300)を訓練するステップと
をさらに含む、請求項1または2のいずれかに記載のコンピュータ実施方法。
コンフィデンス予測モデル(300)および前記第1の音声認識装置(200)が合同で訓練される、請求項1から3のいずれか一項に記載のコンピュータ実施方法。
前記動作が、
前記発声(12)のワードのシーケンス中の各位置における削除数を推定するステップと、
前記音声認識結果(232)および前記推定された削除数についての削除損失と、ワードの前記シーケンス中の各位置におけるグラウンドトゥルース削除数とを決定するステップと、
前記削除損失に関するコンフィデンス予測モデル(300)を訓練するステップと
をさらに含む、請求項1から4のいずれか一項に記載のコンピュータ実施方法。
前記動作が、コンフィデンス予測モデル(300)を訓練した後、前記第1の音声認識装置(200)によって認識された候補音声認識結果(232)をリスコアリングするステップをさらに含む、請求項1から5のいずれか一項に記載のコンピュータ実施方法。
前記サブワードユニットがワードピースを含む、請求項1から6のいずれか一項に記載のコンピュータ実施方法。
前記サブワードユニットが書記素を含む、請求項1から7のいずれか一項に記載のコンピュータ実施方法。
前記第1の音声認識装置(200)が、複数の候補仮説を生成するように構成された変換器復号器モデルを含み、個々の候補仮説が前記発声(12)のための候補表現形式に対応し、仮説サブワードユニットのそれぞれのシーケンスによって表される、請求項1から8のいずれか一項に記載のコンピュータ実施方法。
前記変換器復号器モデルが、Recurrent Neural Network-Transducer (RNN-T)モデルアーキテクチャを含む、請求項9に記載のコンピュータ実施方法。
前記動作が、
前記発声(12)の前記表現形式(204)に対する前記発声レベルコンフィデンススコア(350)がコンフィデンス閾値を満足しているかどうかを決定するステップと、
前記発声(12)の前記表現形式(204)に対する前記発声レベルコンフィデンススコア(350)が前記コンフィデンス閾値を満足しない場合、
前記第1の音声認識装置(200)からの表現形式出力を拒否するステップと、
前記ユーザによって話された前記発声(12)を再転記するために、前記ユーザ(10)によって話された前記発声(12)に対応する音響データ(202)を処理するように第2の音声認識装置(402)に命令するステップと
をさらに含む、請求項1から10のいずれか一項に記載のコンピュータ実施方法。
前記第1の音声認識装置(200)が、前記ユーザ(10)と関連付けられたユーザデバイス(110)上に常駐し、
前記第2の音声認識装置(402)が、前記ユーザデバイス(110)と通信する遠隔サーバ(410)上で実行し、
前記発声(12)の前記表現形式(204)に対する前記発声レベルコンフィデンススコア(350)が前記コンフィデンス閾値を満足しない場合、前記ユーザデバイス(110)が前記音響データ(202)を前記遠隔サーバ(410)に送信する、請求項11に記載のコンピュータ実施方法。
前記第2の音声認識装置(402)が、前記第1の音声認識装置(200)よりもコンピューテーション集約的である、請求項11または12に記載のコンピュータ実施方法。
データ処理ハードウェア(112)と、
前記データ処理ハードウェア(112)と通信し、命令を記憶するメモリハードウェア(114)と
を備え、前記命令は、前記データ処理ハードウェア(112)上で実行されると、前記データ処理ハードウェア(112)に、
第1の音声認識装置(200)から、ユーザ(10)によって話された発声(12)の表現形式(204)に対応する音声認識結果(232)を受け取るステップであって、前記音声認識結果(232)が前記発声(12)の前記表現形式(204)の1つまたは複数のワードを形成する仮説サブワードユニットのシーケンスを含み、個々のサブワードユニットが、対応する出力ステップで前記第1の音声認識装置(200)から出力される、ステップと、
コンフィデンス予測モジュール(300)を使用して、仮説サブワードユニットの前記シーケンス中のサブワードユニット毎に、
前記対応するサブワードユニットが前記第1の音声認識装置(200)から出力されたときに、前記対応する出力ステップと関連付けられたそれぞれのコンフィデンス埋込み(242)を獲得するステップと、
前記対応するサブワードユニットを続行する仮説サブワードユニットの前記シーケンス中の任意の他のサブワードユニットに対して獲得された前記対応するサブワードユニットおよび前記コンフィデンス埋込み(242)に対する前記それぞれのコンフィデンス埋込み(242)に自己付随する第1のアテンション機構(310)を使用して、コンフィデンス特徴ベクトル(312)を生成するステップと、
前記発声(12)に対応する音響データ(202)からセグメント化された対応する音響フレームとそれぞれ関連付けられた符号化のシーケンス(212)に相互付随する第2のアテンション機構(320)を使用して、音響文脈ベクトル(322)を生成するステップと、
前記コンフィデンス予測モジュール(300)の出力層(340)からの出力として、前記コンフィデンス予測モジュール(300)の前記出力層(340)による入力として受け取った前記コンフィデンス特徴ベクトル(312)および前記音響文脈ベクトル(322)に基づいて、前記対応するサブワードユニットに対するそれぞれのコンフィデンス出力スコア(302)を生成するステップと、
仮説サブワードユニットの前記シーケンス中のサブワードユニット毎に生成された前記それぞれのコンフィデンス出力スコア(302)に基づいて、前記発声(12)の前記表現形式(204)に対する発声レベルコンフィデンススコア(350)を決定するステップと
を含む動作を実施させる、システム(100)。
前記発声(12)の前記表現形式(204)に対する前記発声レベルコンフィデンススコア(350)を決定するステップが、
前記発声(12)の前記表現形式(204)の前記1つまたは複数のワードのワード毎に、前記対応するワード中の最後のサブワードユニットに対して生成される前記それぞれのコンフィデンス出力スコア(302)に等しいそれぞれのワードレベルコンフィデンススコア(302)を決定するステップと、
前記発声(12)の前記表現形式(204)に対する前記発声レベルコンフィデンススコア(350)を決定するために、前記表現形式(204)の前記1つまたは複数のワードの各々に対して決定された前記それぞれのワードレベルコンフィデンススコア(302)を集約するステップと
を含む、請求項14に記載のシステム。
前記動作が、
階層的アテンション機構(380)を使用して、前記発声(204)に対する前記音声認識結果(232)が正しく認識される確率を推定するステップと、
前記発声(12)に対する前記音声認識結果(232)が正しく認識される推定確率と、前記発声(12)が正しく認識されたかどうかを示すグラウンドトゥルースラベルとに基づいて、前記音声認識結果(232)に対する発声レベル損失を決定するステップと、
前記発声レベル損失に関するコンフィデンス予測モデル(300)を訓練するステップと
をさらに含む、請求項14または15に記載のシステム。
コンフィデンス予測モデル(300)および前記第1の音声認識装置(200)が合同で訓練される、請求項14から16のいずれか一項に記載のシステム。
前記動作が、
前記発声(12)のワードのシーケンス中の各位置における削除数を推定するステップと、
前記音声認識結果(232)および前記推定された削除数についての削除損失と、ワードの前記シーケンス中の各位置におけるグラウンドトゥルース削除数とを決定するステップと、
前記削除損失に関するコンフィデンス予測モデル(300)を訓練するステップと
をさらに含む、請求項14から17のいずれか一項に記載のシステム。
前記動作が、コンフィデンス予測モデル(300)を訓練した後、前記第1の音声認識装置(200)によって認識された候補音声認識結果(232)をリスコアリングするステップをさらに含む、請求項14から18のいずれか一項に記載のシステム。
前記サブワードユニットがワードピースを含む、請求項14から19のいずれか一項に記載のシステム。
前記サブワードユニットが書記素を含む、請求項14から20のいずれか一項に記載のシステム。
前記第1の音声認識装置(200)が、複数の候補仮説を生成するように構成された変換器復号器モデルを含み、個々の候補仮説が前記発声(12)のための候補表現形式に対応し、仮説サブワードユニットのそれぞれのシーケンスによって表される、請求項14から21のいずれか一項に記載のシステム。
前記変換器復号器モデルが、Recurrent Neural Network-Transducer (RNN-T)モデルアーキテクチャを含む、請求項22に記載のシステム。
前記動作が、
前記発声(12)の前記表現形式(204)に対する前記発声レベルコンフィデンススコア(350)がコンフィデンス閾値を満足しているかどうかを決定するステップと、
前記発声(12)の前記表現形式(204)に対する前記発声レベルコンフィデンススコア(350)が前記コンフィデンス閾値を満足しない場合、
前記第1の音声認識装置(200)からの表現形式出力を拒否するステップと、
前記ユーザ(10)によって話された前記発声(12)を再転記するために、前記ユーザ(10)によって話された前記発声(12)に対応する音響データ(202)を処理するように第2の音声認識装置(402)に命令するステップと
をさらに含む、請求項14から23のいずれか一項に記載のシステム。
前記第1の音声認識装置(200)が、前記ユーザ(10)と関連付けられたユーザデバイス(110)上に常駐し、
前記第2の音声認識装置(402)が、前記ユーザデバイス(110)と通信する遠隔サーバ(410)上で実行し、
前記発声(12)の前記表現形式(204)に対する前記発声レベルコンフィデンススコア(350)が前記コンフィデンス閾値を満足しない場合、前記ユーザデバイス(110)が前記音響データ(202)を前記遠隔サーバ(410)に送信する、請求項24に記載のシステム。
前記第2の音声認識装置(402)が、前記第1の音声認識装置(200)よりもコンピューテーション集約的である、請求項24または25に記載のシステム。