JP7436760B1 - サブワードエンドツーエンド自動音声認識のための学習ワードレベルコンフィデンス - Google Patents

サブワードエンドツーエンド自動音声認識のための学習ワードレベルコンフィデンス Download PDF

Info

Publication number
JP7436760B1
JP7436760B1 JP2023550664A JP2023550664A JP7436760B1 JP 7436760 B1 JP7436760 B1 JP 7436760B1 JP 2023550664 A JP2023550664 A JP 2023550664A JP 2023550664 A JP2023550664 A JP 2023550664A JP 7436760 B1 JP7436760 B1 JP 7436760B1
Authority
JP
Japan
Prior art keywords
confidence
word
subword
speech recognition
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023550664A
Other languages
English (en)
Other versions
JP2024509515A (ja
Inventor
デイヴィッド・チウ
チウジア・リ
ヤンジャン・ヘ
ユ・ジャン
ボ・リ
リアンリアン・カオ
ロヒット・プラバヴァルカー
ディープティ・バティア
ウェイ・リ
ケ・フ
タラ・サイナス
イアン・マグロウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Application granted granted Critical
Publication of JP7436760B1 publication Critical patent/JP7436760B1/ja
Publication of JP2024509515A publication Critical patent/JP2024509515A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

方法(500)は、音声認識結果(232)を受け取るステップと、コンフィデンス予測モジュール(CEM: confidence estimation module)(300)を使用して、音声認識結果に対する仮説サブワードユニットのシーケンス中のサブワードユニット毎に、それぞれのコンフィデンス埋込み(242)を獲得するステップと、第1のアテンション機構(310)を使用してコンフィデンス特徴ベクトル(312)を生成するステップと、第2のアテンション機構(320)を使用して音響文脈ベクトル(332)を生成するステップと、CEMの出力層(340)からの出力として、対応するサブワードユニット毎にそれぞれのコンフィデンス出力スコア(302)を生成するステップとを含む。方法は、仮説サブワードユニットのシーケンスによって形成される1つまたは複数のワードの各々毎に、ワードのためのそれぞれのワードレベルコンフィデンススコアを決定するステップをも含む。方法は、ワードレベルコンフィデンススコアを集約することによって発声レベルコンフィデンススコア(350)を決定するステップをも含む。

Description

本開示は、サブワードエンドツーエンド自動音声認識のための学習ワードレベルコンフィデンスに関する。
近代の自動音声認識(ASR)システムは、品質/精度(例えば低ワード誤り率(WER))を提供することだけでなく、低レイテンシ(例えばユーザスピーチと表現形式出現の間の短い遅延)をも提供することに的を絞っている。さらに、今日のASRシステムを使用する場合、ASRシステムは、ユーザがスピーチする際に、発声の表現形式を実時間で、さらには実時間よりも速く表示することに対応するストリーミング方式で発声を復号することが求められている。例証すると、ASRシステムが直接的なユーザインタラクティビティに遭遇するモバイル電話上で展開されると、ASRシステムを使用しているモバイル電話上のアプリケーションは、ワード、ワードピースおよび/または個別の文字が、それらが話されると直ちにスクリーン上に出現するように、音声認識がストリーミングされることを必要とし得る。ここでは、モバイル電話のユーザがレイテンシに対して寛容性が低いこともあり得る。この低い寛容性のため、音声認識は、レイテンシによる影響、およびユーザの体験に悪影響を及ぼし得る不正確性を最小化するようにしてモバイルデバイス上で動作することを目指している。
本開示の一態様は、データ処理ハードウェア上で実行されると、データ処理ハードウェアに、音声認識装置から、ユーザによって話される発声に対する音声認識結果を受け取るステップを含む動作を実施させるコンピュータ実施方法を提供する。音声認識結果は、発声の1つまたは複数のワードを形成する仮説サブワードユニットのシーケンスを含む。個々のサブワードユニットは、対応する出力ステップで音声認識装置から出力される。動作は、コンフィデンス予測モジュールを使用して、仮説サブワードユニットのシーケンス中のサブワードユニット毎に、対応するサブワードユニットが音声認識装置から出力されると、対応する出力ステップと関連付けられたコンフィデンス特徴のセットを表すそれぞれのコンフィデンス埋込みを獲得するステップと、対応するサブワードユニットを続行する仮説サブワードユニットのシーケンス中の任意の他のサブワードユニットに対して獲得された対応するサブワードユニットおよびコンフィデンス埋込みに対するそれぞれのコンフィデンス埋込みに自己付随する第1のアテンション機構を使用して、コンフィデンス特徴ベクトルを生成するステップと、発声に対応する音響データからセグメント化された対応する音響フレームとそれぞれ関連付けられた音響符号化のシーケンスに相互付随する第2のアテンション機構を使用して、音響文脈ベクトルを生成するステップと、コンフィデンス予測モジュールの出力層からの出力として、コンフィデンス予測モジュールの出力層による入力として受け取ったコンフィデンス特徴ベクトルおよび音響特徴ベクトルに基づいて、対応するサブワードユニットに対するそれぞれのコンフィデンス出力スコアを生成するステップとをも含む。動作は、仮説サブワードユニットのシーケンスによって形成される1つまたは複数のワードの各々毎に、ワードに対するそれぞれのワードレベルコンフィデンススコアを決定するステップと、発声の1つまたは複数のワードに対して決定されたそれぞれのワードレベルコンフィデンススコアを集約することによって音声認識結果に対する発声レベルコンフィデンススコアを決定するステップとをも含む。それぞれのワードレベルコンフィデンススコアは、ワード中の最後のサブワードユニットに対して生成されるそれぞれのコンフィデンス出力スコアに等しい。
本開示の実施態様は、以下の任意選択の特徴のうちの1つまたは複数を含むことができる。いくつかの実施態様では、それぞれのコンフィデンス埋込みによって表されるコンフィデンス特徴のセットは、対応する出力ステップにおける音声認識装置のソフトマックスポステリア特徴、および対応するサブワードユニットに対するサブワード埋込み特徴を含む。追加実施態様では、それぞれのコンフィデンス埋込みによって表されるコンフィデンス特徴のセットは、対応する出力ステップで音声認識装置から出力される対応するサブワードユニットの確率/可能性と関連付けられる確率値を示すログポステリアログ特徴、および音声認識装置によってリスコアされる上位K個の候補仮説に対する対応する出力ステップにおけるK個の最大ログ確率を示す上位K個の特徴をさらに含む。ここでは、上位K個の候補仮説の各々は、発声の1つまたは複数のワードを形成する仮説サブワードユニットのそれぞれのシーケンスによって表される。
いくつかの例ではサブワードユニットはワードピースを含み、一方、他の例ではサブワードユニットは書記素を含む。音声認識装置は変換器復号器モデルおよびリスコアラ復号器モデルを含むことができる。変換器復号器モデルは、第1のパスの間、複数の候補仮説を生成するように構成され、また、リスコアラ復号器モデルは、第2のパスの間、第1のパスの間に変換器復号器モデルによって生成された複数の候補仮説からの上位K個の候補仮説をリスコアするように構成される。個々の候補仮説は発声のための候補表現形式に対応し、仮説サブワードユニットのそれぞれのシーケンスによって表される。さらに、最も高い第2のパスログ確率と関連付けられた仮説サブワードユニットのそれぞれのシーケンスによって表されるリスコアラ復号器モデルによってリスコアされる上位K個の候補仮説中の候補仮説が、ユーザによって話された発声に対する音声認識結果としてリスコアラ復号器モデルから出力される。変換器復号器モデルは、Recurrent Neural Network-Transducer(RNN-T)モデルアーキテクチャを含むことができ、また、リスコアラ復号器モデルは、Listen, Attend, and Spell(LAS)モデルアーキテクチャを含むことができる。
いくつかの実施態様では、動作は、第2のパスの間、音声認識装置の言語符号器を使用して、第1のパスの間に変換器復号器モデルによって生成された複数の候補仮説の各々を符号化することによって複数の仮説符号化を生成するステップと、コンフィデンス予測モジュールを使用して、仮説サブワードユニットのシーケンス中のサブワードユニット毎に、複数の仮説符号化に相互付随する第3のアテンション機構を使用して、言語文脈ベクトルを生成するステップとをさらに含む。これらの実施態様では、対応するサブワードユニットに対するそれぞれのコンフィデンス出力スコアを生成するステップは、コンフィデンス予測モジュールの出力層による入力として受け取った言語文脈ベクトルにさらに基づく。複数の候補仮説の各々の符号化は、個々の候補仮説を対応する仮説符号化に双方向性符号化するステップを含むことができ、また、複数の候補仮説の生成は、個々の対応する仮説符号化を連結することによって複数の仮説符号化を生成するステップを含むことができる。
音声認識装置およびコンフィデンス予測モジュールは、合同で、または個別に訓練することができる。コンフィデンス予測モデルは、音声認識装置と関連付けられた特徴に基づく二進交差エントロピー損失を使用して訓練することができる。いくつかの例では、動作は、音声認識結果に対する発声レベルコンフィデンススコアがコンフィデンス閾値を満足しているかどうかを決定するステップと、音声認識結果に対する発声レベルコンフィデンススコアがコンフィデンス閾値を満足していない場合、発声に対応する音響データを別の音声認識装置に送信するステップとをさらに含む。ここでは、他の音声認識装置は、音響データを処理して発声の表現形式を生成するように構成される。これらの例では、音声認識装置およびコンフィデンス予測モジュールはユーザコンピューティングデバイス上で実行することができ、また、他の音声認識装置は、ネットワークを介してユーザコンピューティングデバイスと通信する遠隔サーバ上で実行することができる。
本開示の別の態様は、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアであって、データ処理ハードウェア上で実行されると、データ処理ハードウェアに、音声認識装置から、ユーザによって話される発声に対する音声認識結果を受け取るステップを含む動作を実施させる命令を記憶する、メモリハードウェアとを含むシステムを提供する。音声認識結果は、発声の1つまたは複数のワードを形成する仮説サブワードユニットのシーケンスを含む。個々のサブワードユニットは、対応する出力ステップで音声認識装置から出力される。動作は、コンフィデンス予測モジュールを使用して、仮説サブワードユニットのシーケンス中のサブワードユニット毎に、対応するサブワードユニットが音声認識装置から出力されると、対応する出力ステップと関連付けられたコンフィデンス特徴のセットを表すそれぞれのコンフィデンス埋込みを獲得するステップと、対応するサブワードユニットを続行する仮説サブワードユニットのシーケンス中の任意の他のサブワードユニットに対して獲得された対応するサブワードユニットおよびコンフィデンス埋込みに対するそれぞれのコンフィデンス埋込みに自己付随する第1のアテンション機構を使用して、コンフィデンス特徴ベクトルを生成するステップと、発声に対応する音響データからセグメント化された対応する音響フレームとそれぞれ関連付けられた音響符号化のシーケンスに相互付随する第2のアテンション機構を使用して、音響文脈ベクトルを生成するステップと、コンフィデンス予測モジュールの出力層からの出力として、コンフィデンス予測モジュールの出力層による入力として受け取ったコンフィデンス特徴ベクトルおよび音響特徴ベクトルに基づいて、対応するサブワードユニットに対するそれぞれのコンフィデンス出力スコアを生成するステップとをも含む。動作は、仮説サブワードユニットのシーケンスによって形成される1つまたは複数のワードの各々毎に、ワードに対するそれぞれのワードレベルコンフィデンススコアを決定するステップと、発声の1つまたは複数のワードに対して決定されたそれぞれのワードレベルコンフィデンススコアを集約することによって音声認識結果に対する発声レベルコンフィデンススコアを決定するステップとをも含む。それぞれのワードレベルコンフィデンススコアは、ワード中の最後のサブワードユニットに対して生成されるそれぞれのコンフィデンス出力スコアに等しい。
この態様は、以下の任意選択の特徴のうちの1つまたは複数を含むことができる。いくつかの実施態様では、それぞれのコンフィデンス埋込みによって表されるコンフィデンス特徴のセットは、対応する出力ステップにおける音声認識装置のソフトマックスポステリア特徴、および対応するサブワードユニットに対するサブワード埋込み特徴を含む。追加実施態様では、それぞれのコンフィデンス埋込みによって表されるコンフィデンス特徴のセットは、対応する出力ステップで音声認識装置から出力される対応するサブワードユニットの確率/可能性と関連付けられる確率値を示すログポステリアログ特徴、および音声認識装置によってリスコアされる上位K個の候補仮説に対する対応する出力ステップにおけるK個の最大ログ確率を示す上位K個の特徴をさらに含む。ここでは、上位K個の候補仮説の各々は、発声の1つまたは複数のワードを形成する仮説サブワードユニットのそれぞれのシーケンスによって表される。
いくつかの例ではサブワードユニットはワードピースを含み、一方、他の例ではサブワードユニットは書記素を含む。音声認識装置は変換器復号器モデルおよびリスコアラ復号器モデルを含むことができる。変換器復号器モデルは、第1のパスの間、複数の候補仮説を生成するように構成され、また、リスコアラ復号器モデルは、第2のパスの間、第1のパスの間に変換器復号器モデルによって生成された複数の候補仮説からの上位K個の候補仮説をリスコアするように構成される。個々の候補仮説は発声のための候補表現形式に対応し、仮説サブワードユニットのそれぞれのシーケンスによって表される。さらに、最も高い第2のパスログ確率と関連付けられた仮説サブワードユニットのそれぞれのシーケンスによって表されるリスコアラ復号器モデルによってリスコアされる上位K個の候補仮説中の候補仮説が、ユーザによって話された発声に対する音声認識結果としてリスコアラ復号器モデルから出力される。変換器復号器モデルは、Recurrent Neural Network-Transducer(RNN-T)モデルアーキテクチャを含むことができ、また、リスコアラ復号器モデルは、Listen, Attend, and Spell(LAS)モデルアーキテクチャを含むことができる。
いくつかの実施態様では、動作は、第2のパスの間、音声認識装置の言語符号器を使用して、第1のパスの間に変換器復号器モデルによって生成された複数の候補仮説の各々を符号化することによって複数の仮説符号化を生成するステップと、コンフィデンス予測モジュールを使用して、仮説サブワードユニットのシーケンス中のサブワードユニット毎に、複数の仮説符号化に相互付随する第3のアテンション機構を使用して、言語文脈ベクトルを生成するステップとをさらに含む。これらの実施態様では、対応するサブワードユニットに対するそれぞれのコンフィデンス出力スコアを生成するステップは、コンフィデンス予測モジュールの出力層による入力として受け取った言語文脈ベクトルにさらに基づく。複数の候補仮説の各々の符号化は、個々の候補仮説を対応する仮説符号化に双方向性符号化するステップを含むことができ、また、複数の候補仮説の生成は、個々の対応する仮説符号化を連結することによって複数の仮説符号化を生成するステップを含むことができる。
音声認識装置およびコンフィデンス予測モジュールは、合同で、または個別に訓練することができる。コンフィデンス予測モデルは、音声認識装置と関連付けられた特徴に基づく二進交差エントロピー損失を使用して訓練することができる。いくつかの例では、動作は、音声認識結果に対する発声レベルコンフィデンススコアがコンフィデンス閾値を満足しているかどうかを決定するステップと、音声認識結果に対する発声レベルコンフィデンススコアがコンフィデンス閾値を満足していない場合、発声に対応する音響データを別の音声認識装置に送信するステップとをさらに含む。ここでは、他の音声認識装置は、音響データを処理して発声の表現形式を生成するように構成される。これらの例では、音声認識装置およびコンフィデンス予測モジュールはユーザコンピューティングデバイス上で実行することができ、また、他の音声認識装置は、ネットワークを介してユーザコンピューティングデバイスと通信する遠隔サーバ上で実行することができる。
本開示の1つまたは複数の実施態様の詳細が添付の図面および以下の説明に示されている。他の態様、特徴および利点は、説明および図面から、また、特許請求の範囲から明らかになるであろう。
例示的スピーチ環境の略図である。 音声認識のためにトランスフォーマリスコアラを利用している2パスモデルアーキテクチャを有する例示的音声認識装置の略図である。 音声認識のための熟考リスコアラを利用している2パスモデルアーキテクチャを有する例示的音声認識装置の略図である。 2パスモデルアーキテクチャを有する音声認識装置上で展開している例示的コンフィデンス予測モジュールの略図である。 発声レベルコンフィデンスに基づいて適切な音声認識装置を選択するための例示的コンフィデンスベースのルーチンの略図である。 ワードに対する最終仮説サブワードユニットのコンフィデンスのみを使用した音声認識装置によって認識されたそのワードに対するワードレベルコンフィデンスを予測する方法のための動作の例示的配置のフローチャートである。 本明細書において説明されるシステムおよび方法を実現するために使用することができる例示的コンピューティングデバイスの略図である。
様々な図面における同様の参照記号は同様の要素を示している。
自動音声認識(ASR)システムは、品質/精度(例えば低ワード誤り率(WER))を提供することだけでなく、低レイテンシ(例えばユーザスピーチと表現形式出現の間の短い遅延)をも提供することに的を絞っている。最近、精度およびレイテンシにおける最新技術性能の達成には、Recurrent Neural Network-Transducer(RNN-T)、トランスフォーマまたはコンフォーマ変換器およびアテンションベースの符号器-復号器モデルなどのエンドツーエンド(E2E)ASRモデルが人気を得ている。個別の音響、発音および言語モデルを含む従来のハイブリッドASRシステムとは対照的に、E2Eモデルは、シーケンスツーシーケンス手法を適用して、訓練データ、例えば発声-表現形式対からエンドツーエンドで訓練される単一のニューラルネットワークで音響および言語モデル化を合同で学習する。
シーケンスツーシーケンスモデルの例には、「アテンションベースの」モデルおよび「リスン-アテンド-スペル」(LAS)モデルがある。LASモデルは、リスナ構成要素、アテンダ構成要素およびスペラー構成要素を使用してスピーチ発声を文字に転記する。ここでは、リスナは、音響入力(例えばスピーチ入力の時間-周波数表現)を受け取り、かつ、音響入力をより高水準の特徴表現にマップする回帰型ニューラルネットワーク(RNN)符号器である。アテンダは、より高水準の特徴に付随して、入力特徴と予測されたサブワードユニット(例えば書記素またはワードピース)の間の整列を学習する。スペラーは、仮説ワードのセット全体にわたる確率分布を生成することによって入力から文字列を生成するアテンションベースのRNN復号器である。一体構造であるため、モデルのすべての構成要素を単一のエンドツーエンド(E2E)ニューラルネットワークとして合同で訓練することができる。ここでは、E2Eモデルは、そのアーキテクチャ全体がニューラルネットワークで構築されるモデルを意味している。完全なニューラルネットワークは、外部および/または手動設計された構成要素(例えば有限状態変換器、辞典または文章正規化モジュール)がなくても機能する。さらに、E2Eモデルを訓練する場合、通常、これらのモデルには、決定ツリーからのブートストラッピング、または個別のシステムからの時間整列は不要である。
さらに、今日のASRシステムを使用する場合、ASRシステムは、ユーザがスピーチする際に、発声の表現形式を実時間で、さらには実時間よりも速く表示することに対応するストリーミング方式で発声を復号することが求められている。例証すると、ASRシステムが直接的なユーザインタラクティビティに遭遇するモバイル電話上で展開されると、ASRシステムを使用しているモバイル電話上のアプリケーションは、ワード、ワードピースおよび/または個別の文字が、それらが話されると直ちにスクリーン上に出現するように、音声認識がストリーミングされることを必要とし得る。ここでは、モバイル電話のユーザがレイテンシに対して寛容性が低いこともあり得る。この低い寛容性のため、音声認識は、レイテンシによる影響、およびユーザの体験に悪影響を及ぼし得る不正確性を最小化するようにしてモバイルデバイス上で動作することを目指している。しかしながら、出力文章を生成する前に音響の入力シーケンス全体を再吟味することによって機能するLASモデルなどのシーケンスツーシーケンスモデルは、ストリーミング出力が入力として受け取られることを許容しない。この不備のため、レイテンシに敏感で、および/または実時間ボイス表現形式を必要とするスピーチアプリケーションのためのLASモデルの展開は問題を提起し得る。そのため、LASモデルは、LASモデル単独では、実時間アプリケーション(例えば実時間通信アプリケーション)にしばしば依拠するモバイル技術(例えばモバイル電話)のための理想的なモデルではないモデルになっている。
回帰型ニューラルネットワーク変換器(RNN-T)として知られるシーケンスツーシーケンスモデルの別の形態はアテンション機構を使用せず、また、一般的にシーケンス全体(例えば音響波形)を処理して出力(例えば文)を生成する必要がある他のシーケンスツーシーケンスモデルとは異なり、RNN-Tは入力サンプルを連続的に処理し、かつ、出力記号、すなわち実時間通信のためにとりわけ魅力的である特徴をストリームする。例えばRNN-Tを使用した音声認識は、話される一語毎に文字を出力することができる。ここではRNN-Tは、モデルによって予測された記号を自身にフィードバックして次の記号を予測するフィードバックループを使用している。RNN-Tの復号は、大きい復号器グラフの代わりに単一のニューラルネットワークを介したビーム探索を含んでいるため、RNN-Tは、サーバベースの音声認識モデルのサイズのほんの一部に合わせて調整することができる。サイズが縮小されると、デバイス上で全面的にRNN-Tを展開させることができ、また、オフラインで動作させることができ(すなわちネットワーク接続なしに)、したがって通信ネットワークに関わる非信頼性問題を回避することができる。
しかしながらRNN-Tモデル単独では、品質(例えば音声認識精度)の点で依然として従来の大型最新技術モデル(例えば個別のAM、PMおよびLMを使用したサーバベースのモデル)に対して遅れをとっている。非ストリーミングE2E、LASモデルは、依然として従来の大型最新技術モデルに匹敵する音声認識品質を有している。非ストリーミングE2E LASモデルの品質を利用するために、LASネットワークの第2のパス構成要素が後続するRNN-Tネットワークの第1のパス構成要素を含む2パス音声認識システム(例えば図2Aに示されている)が開発されている。この設計によれば、2パスモデルは、レイテンシが短いRNN-Tモデルのストリーミング性質を利用し、その一方でLASネットワークを組み込んだ第2のパスを介してRNN-Tモデルの精度を改善する。LASネットワークは、RNN-Tモデルのみと比較するとレイテンシを長くするが、そのレイテンシの増加は適度に僅かであり、オン-デバイス動作に対するレイテンシ制約に応じている。精度に関しては、2パスモデルは、RNN-T単独の場合と比較すると17~22%のWER低減を達成し、従来の大型モデルと比較すると同様のWERを有している。
コンフィデンススコアは、多くの下流側アプリケーションをサポートして音声認識誤りを少なくするASRシステムの重要な特徴である。例えば高いコンフィデンスを達成するASRモデルから出力される認識結果を有する、ラベルが振られていない発声を使用して、ASRモデルの半教師あり訓練を実施することができ、転記された発声のみを使用して訓練する費用を削減することができる。一方、ユーザがコンピューティングデバイス上で実行するデジタルアシスタントと対話する音声対話システムなどのアプリケーションでは、低いワードレベルコンフィデンスを達成する認識結果を有する発声は、あらゆる転記ミス-ワードを修正するようにユーザを促すことができる。さらに、低いコンフィデンスを有する認識結果は、対応する発声のための音響を異なるASRモデル(例えばサーバ側)に引き渡して、発声に対する認識を改善することになる。
従来のハイブリッドASRシステムは、格子ネットワークまたはコンフュージョンネットワークからコンピューティングされたワードポステリア確率からワードレベルコンフィデンススコアを容易に推測し、次に集約して発声レベルコンフィデンスを提供することができるが、E2E ASRモデルによって使用される深層ニューラルネットワークには、ワードを予測する際に、過剰コンフィデンスを示す傾向がある。多くのE2E ASRモデルは、サブワードレベルで認識結果を出力するように構成されるため、ASRモデルによって認識されたサブワード毎に、ワードのための対応する固定サブワードトークン化を基準シーケンスとして使用してコンフィデンススコアを単純に学習することは、認識結果は複数の有効なトークン化を含み得るため、コンフィデンス予測モデルを訓練するために使用される不正確なグラウンドトゥルースラベルをもたらすことになり得る。例えば「Good morning」という発声に対する基準固定サブワードシーケンスは、「go、od、morn、ing」であってもよく、一方、ASRモデルによって認識される仮説サブワードシーケンスは、「go、od、mor、ning、mom」であってもよい。ここでは「morning」というワードがASRモデルによって正しく認識されても、ASRモデルによって認識された対応する仮説サブワード「mor」および「ning」に対するサブワードラベルには、それらのラベルが「morning」というワードに対する対応する基準固定サブワード「morn」および「ing」と一致していないため、不適切なラベルが振られることになる。
ASRモデルによって認識される仮説サブワードシーケンスに対するサブワードコンフィデンススコアの予測と関連付けられる、基準固定サブワードシーケンス同士の間の不一致による欠点を軽減するために、本明細書における実施態様は、対応するワードを構築しているASRモデルによって認識された最後の仮説サブワードユニットのコンフィデンスのみを使用して、認識されたワード毎にワードレベルコンフィデンスを予測するために自己アテンションを適用するコンフィデンス予測モジュールを対象としている。本開示の追加実施態様は、さらに、認識されている発声のための音響文脈に付随させ、また、第1のパスの間にASRモデルによって認識される複数の仮説(例えばN個の最良リスト)のための言語文脈に付随させるために相互アテンションをさらに利用するコンフィデンス予測モジュールを対象としている。明らかになるように、音響相互アテンションおよび言語相互アテンションの両方を利用することにより、コンフィデンス予測モジュールによって予測されるコンフィデンススコアの精度が改善される。
図1は例示的スピーチ環境100であり、ユーザ10はボイス入力を介してユーザデバイス110と対話している。ユーザデバイス110(一般にデバイス110とも呼ばれる)は、スピーチ対応環境100内の一人または複数人のユーザ10から音(例えばストリーミング音響データ)を取り込むように構成されるコンピューティングデバイスを含む。ここではストリーミング音響データ202は、可聴クエリ、デバイス110に対するコマンド、またはデバイス110によって取り込まれる可聴通信として機能する、ユーザ10によって話された発声を意味することができる。デバイス110のスピーチ対応システムは、クエリを処理し、またはクエリに返事を返すことによってコマンドを処理することができ、および/またはコマンドを実施させることができる。
ユーザデバイス110は、音響データ202を受け取ることができる任意のコンピューティングデバイスに対応し得る。ユーザデバイス110のいくつかの例には、それらに限定されないが、モバイルデバイス(例えばモバイル電話、タブレット、ラップトップなど)、コンピュータ、着用可能デバイス(例えばスマートウォッチ)、スマート機器、モノのインターネット(IoT)デバイス、スマートスピーカ/ディスプレイ、車両インフォテインメントシステムなどがある。ユーザデバイス110は、データ処理ハードウェア112と、データ処理ハードウェア112と通信するメモリハードウェア114であって、データ処理ハードウェア112によって実行されると、データ処理ハードウェア112に1つまたは複数の動作を実施させる命令を記憶する、メモリハードウェア114とを含む。ユーザデバイス110は、話された発声12をスピーチ対応システム100内で取り込み、かつ、電気信号に変換するための音響取込みデバイス(例えばマイクロホン)116、116a、および可聴音響信号を通信する(例えばデバイス110からの出力音響データとして)ためのスピーチ出力デバイス(例えばスピーカ)116、116bを有する音響サブシステム116をさらに含む。ユーザデバイス110は、示されている例では単一の音響取込みデバイス116aを実現しているが、ユーザデバイス110は、本開示の範囲を逸脱することなく、音響取込みデバイス116aのアレイを実現することができ、それによりアレイ中の1つまたは複数の取込みデバイス116aはユーザデバイス110上に物理的に存在していなくてもよく、音響サブシステム116と通信することができる。示されている例では、ユーザデバイス110(例えばハードウェア112、114を使用した)は、ユーザ10によって話された発声12に対応する音響データ202上で音声認識を実施するように構成されている音声認識装置200を実現している。ここでは音響取込みデバイス116aは、発声12を表す音響音を取り込み、かつ、その音響音を音声認識装置200と両立するデジタルフォーマットと関連付けられた音響データ202に変換するように構成されている。音響データ202と関連付けられたデジタルフォーマットは、メルフレームなどの音響フレーム(例えばパラメータ化された音響フレーム)に対応し得る。例えばパラメータ化された音響フレームはログ-メルフィルタバンクエネルギーに対応する。
図1は、デバイス上で音声認識を実施するための音声認識装置200を実現するユーザデバイス100を示しているが、他の実施態様は、ネットワークを介してユーザデバイス110によって送信された音響データ202を処理し、かつ、音響データ202の表現形式204をユーザデバイス110に提供して戻すことによって音声認識装置200を実現している遠隔サーバ410(図4)を含む。いくつかの追加実施態様では、ユーザデバイス110は、ユーザデバイス110上に存在している局所音声認識装置200、および遠隔サーバ410上で実行するサーバ側音声認識装置402(図4)の両方を利用している。ここではユーザデバイス110は、ネットワーク接続を利用することができない場合、またはレイテンシに敏感であり、および/またはストリーミング表現形式を必要とするスピーチアプリケーションに対して、局所音声認識装置200を使用することができ、一方、図4を参照して以下でより詳細に説明されるように、音声認識精度を改善するために追加資源が必要である場合、サーバ側音声認識装置402を利用することができる。
いくつかの例では、ユーザ10は、音声認識装置200を使用しているユーザデバイス110上で実行するプログラムまたはアプリケーション118と対話する。例えば図1は、自動アシスタントアプリケーション118と通信するユーザ10を描写している。この例ではユーザ(例えばBill)10は、発声12を話すことによって自動アシスタントアプリケーションに挨拶している。「おはよう」が音響取込みデバイス116aによって取り込まれ、かつ、音声認識装置200による処理のために対応する音響データ202(例えば音響フレーム)に変換される。この例では、音声認識装置200は、発声12を表す音響データ202を表現形式204(例えば「おはよう」の文章表現)に転記している。ここでは自動アシスタントアプリケーション118は、自然言語処理を表現形式204に適用してユーザ10に出力するための応答119を生成し、「おはようBill、あなたのカレンダの今日の最初の会議は午前9時です」のメッセージを伝えることができる。自然言語処理は、通常、書かれた言語(例えば表現形式204)の翻訳、およびその書かれた言語が何らかのアクションを促しているかどうかの決定の処理を意味している。この例では、アシスタントアプリケーション118は自然言語処理を使用して、ユーザ10によって話された発声12には、アシスタントアプリケーション118にユーザ10のカレンダアプリケーションにアクセスさせて、ユーザ10の今日の最初の会議の時間を示す応答119を提供させることが意図されていることを認識している。すなわち自然言語処理を使用してこれらの詳細を認識することにより、アシスタントアプリケーション118は、音響出力デバイス116aを介した可聴出力のための合成スピーチ表現として、および/またはユーザデバイス110と通信するスクリーンに表示するための文章として応答119をユーザ10に返している。いくつかの例では、ユーザデバイス110は、ユーザ10によって話された発声12の表現形式204、およびスクリーン上での会話としてアシスタントアプリケーション118からの対応する応答119を表示している。いくつかの構成では、自然言語処理は、ユーザデバイス110のデータ処理ハードウェア112と通信する遠隔システム上で生じ得る。
いくつかの例では、音声認識装置200は、入ってくる音響データ202を実時間で処理してストリーミング表現形式204を提供する。ここでは音声認識装置200は、ユーザ10によって話された発声12のワードを構築している仮説サブワードユニットのシーケンスを生成するように構成されている。仮説サブワードユニットはワードピースまたは個別の文字(例えば書記素)を含むことができる。示されている例では、音声認識装置によって認識される仮説サブワードユニットのシーケンスは、「SOS_go od_mor ning」を含み、「SOS」はスピーチタグの開始を示し、また、個々のワード境界インジケータ(「_」)は、ワード毎の始め/開始サブワードユニットを示す。
図2Aを参照すると、いくつかの実施態様では、音声認識装置200、200aは2パス復号化アーキテクチャで構成され、音声認識装置200によって予測された最終認識結果232のコンフィデンス302を予測するためのコンフィデンス予測モジュール(CEM)300を実現している。注目すべきことには音声認識装置200aは、トランスフォーマリスコアラアーキテクチャを利用して第2のパス208復号/リスコアリングを実施している。ここでは最終認識結果232は、ワードピースまたは書記素などのサブワードユニットのシーケンスに対応しており、集約されると、相俟って発声のための表現形式204を形成する。一般的に言えば、音声認識装置200の2パスアーキテクチャは、少なくとも1つの共有符号器210、RNN-T復号器220、および音響符号器250によって強化されたリスコアラ復号器230を含む。2パス復号では、第2のパス208(例えばリスコアラ復号器230として示されている)は、格子リスコアリングまたは上位K個再ランキングなどの技法を使用して、第1のパス206(例えばRNN-T復号器220として示されている)からの初期出力222を改善することができる。言い換えると、RNN-T復号器220は出力222として複数の候補仮説Hを生成し、また、リスコアラ復号器230は上位K個の候補仮説Hをリスコアリング/再ランキングして、表現形式204(図1)に対応する最終認識結果232として最も高いスコアリング候補仮説を識別する。リスコアラ復号器230は、RNN-T復号器220からのストリーム化仮説H 222をリスコアするリスコアリングモードで機能することが概ね考察されているが、リスコアラ復号器230は、設計または他の要因(例えば発声長さ)に応じて、ビーム探索モードなどの異なるモードで動作することも可能である。さらに、本明細書における例は、第1の発声の間、復号を実施するRNN-T復号器220を描写しているが、復号器220は、同様に、本開示の範囲を逸脱することなく他のタイプの変換器モデルアーキテクチャを含むことができる。例えば復号器220は、RNN-Tモデルアーキテクチャの代わりに、Transformer-Transducer、Convolutional Neural Network-Transducer(ConvNet-Transducer)またはConformer-Transducerモデルアーキテクチャのうちの1つを含むことができる。
少なくとも1つの共有符号器210は、入力として、音響フレームのシーケンスとして発声12に対応する音響データ202を受け取るように構成されている。音響フレームは、音響サブシステム116によって、パラメータ化された音響フレーム(例えばメルフレームおよび/またはスペクトルフレーム)に予め処理することができる。いくつかの実施態様では、パラメータ化された音響フレームは、ログ-メル特徴を有するログ-メルフィルタバンクエネルギーに対応している。例えば符号器210の中に入力される音響データ202を表すパラメータ化された入力音響フレームはx=(x1、...、xT)として表すことができ、
はログ-メルフィルタバンクエネルギーであり、Tはx中のフレームの数を表し、また、dはログ-メル特徴の数を表す。いくつかの例では、パラメータ化された個々の音響フレームは、短いシフティングウィンドウ(例えば32ミリ秒および10ミリ秒毎にシフトされる)内でコンピューティングされる128次元のログ-メル特徴を含む。個々の特徴は、先行するフレーム(例えば3つの先行するフレーム)を使用して積み重ねて、より高い次元ベクトル(例えば3つの先行するフレームを使用した512次元ベクトル)を形成することができる。次に、ベクトルを形成している特徴をダウンサンプルすることができる(例えば30ミリ秒フレームレートまで)。個々の特徴は、先行するフレーム(例えば3つの先行するフレーム)を使用して積み重ねて、より高い次元ベクトル(例えば3つの先行するフレームを使用した512次元ベクトル)を形成することができる。次に、ベクトルを形成している特徴をダウンサンプルすることができる(例えば30ミリ秒フレームレートまで)。符号器210は、符号器210に入力される音響データ202の音響フレームx1:T毎に、出力212として、対応する共有符号化es 1:Tを生成するように構成されている。
符号器210の構造は異なる方法で実現することができるが、いくつかの実施態様では、符号器210は長-短期記憶(LSTM)ニューラルネットワークを含む。例えばLSTMニューラルネットワークは8個のLSTM層を含むことができる。ここでは個々の層は、640次元投射層が後続する2,048個の隠れたユニットを有することができる。いくつかの例では、符号器210の第2のLSTM層の後に、短縮係数がN=2の時間短縮層が挿入される。
いくつかの構成では、符号器210は共有符号器ネットワークである。言い換えると、自身の個別の符号器を有する個々のパスネットワーク206、208の代わりに、個々のパス206、208は単一の符号器210を共有する。符号器210を共有することにより、モデルサイズを縮小することができ、および/または2パスアーキテクチャを利用している音声認識装置200のコンピューテーションコストを削減することができる。ここではモデルサイズを縮小することにより、音声認識装置200を完全にデバイス上で動作させることができるように促進することができる。
いくつかの例では、図2Aの音声認識装置200はまた、リスコアラ復号器230の第2のパス208ならびにCEM 300によるコンフィデンス302予測のために適切であるように、音響フレームx毎に共有符号器210から出力212として生成された共有符号化esを適合させるための音響符号器250などの追加符号器を含む。ここでは音響符号器250は、個々の時間ステップの間、共有符号器210からの出力212として生成された個々の共有符号化esを対応する音響符号化e1:T 252にさらに符号化する。いくつかの実施態様では、音響符号器250は、共有符号器210からの個々の出力212を対応する音響符号化e1:T 252にさらに符号化するLSTM符号器(例えば2-層LSTM符号器)を含む。Tによって表されるx中のフレームの数の各々はそれぞれの時間ステップに対応している。音響符号器250を含むことにより、共有符号器210は、第1のパス206と第2のパス208の間の共有符号器として依然として維持することができる。
いくつかの実施態様では、RNN-T復号器220は予測ネットワークおよび共同ネットワークを含む。ここでは予測ネットワークは、2,048個の隠れたユニットの2つのLSTM層、および層当たり640次元投射、ならびに128ユニットの埋込み層を有することができる。共有符号器210および予測ネットワークの出力212は、ソフトマックス予測層を含む共同ネットワークに供給することができる。いくつかの例では、RNN-T復号器220の共同ネットワークは、4,096個の混合-事例ワードピースを予測するソフトマックス層が後続する640個の隠れたユニットを含む。
第1のパス206の間、RNN-T復号器220は、入力として、音響フレームx毎に共有符号器210からの出力212として生成された共有符号化esを受け取り、かつ、出力222として、仮説サブワードユニットy1、y2、y3、…、yMのそれぞれのシーケンスによってそれぞれ表されている複数の候補仮説Hを生成する。例えばユーザ10が「おはよう」を発声する例では、1つの候補仮説Hは、仮説サブワードユニットの第1のシーケンス[_go、od、_mor、ning]を含むことができ、また、別の候補仮説Hは、仮説サブワードユニットの第2のシーケンス[_go、od、_morn、ing]を含むことができる。多くの他の候補仮説Hも存在し得る。ここでは個々の候補仮説Hを表す仮説サブワードユニットy1、y2、y3、…、yMのそれぞれのシーケンスは、発声12に対する候補表現形式に対応している。仮説サブワードユニットy1、y2、y3、…、yMの個々のそれぞれのシーケンスにおける個々のサブワードユニットyiは、可能なサブユニット全体にわたる確率分布を表している。確率分布における最も高い確率を有するサブワードユニットを仮説サブワードユニットのそれぞれのシーケンスにおける仮説サブワードとして選択することができる。
引き続いて図2Aを参照すると、第2のパス208の間、リスコアラ復号器230は、入力として、音響符号器250から出力される音響符号化e、e1:T 252のシーケンス、およびRNN-T復号器220からの出力222として生成された上位K個の候補仮説Hを受け取る。一例ではKは4に等しく、したがって第2のパス208の間のリスコアリングのために、上位4個の候補仮説Hが入力としてリスコアラ復号器230に提供される。リスコアラ復号器230は、上位K個の候補仮説Hの各々毎に、個々のサブワードユニットをリスコアするように構成されており、より詳細には、以下の式
P(yi|e,y1:i-1))=Softmax(Linear(φ(i|e,y1:i-1))) (1)
を使用して、仮説サブワードユニットy1、y2、y3、…、yMのそれぞれのシーケンスにおけるサブワードユニット毎に確率分布をリスコアするように構成されており、φは、リスコアラ復号器230のための最後から2番目の層の起動を表している。最も高い第2のパスログ確率
と関連付けられた仮説サブワードユニットy1、y2、y3、…、yMのそれぞれのシーケンスによって表される候補仮説Hを表現形式204に対応する最終認識結果232として出力することができる。リスコアラ復号器230は、4つの自己アテンション層を有するLASアーキテクチャを実現することができ、4つの自己アテンション層のうちの2つは符号器上に相互アテンションを包含している。
ソフトマックス層のサイズを縮小するために、可能なサブワードユニットのサブワードユニット語彙は、典型的には、ワード語彙と比較するとより小さい。サブワードユニット語彙は書記素またはワードピース(WP)を含むことができる。例示的WP語彙は4,096個のWPを含むことができる。本開示の例は、音声認識装置からの出力として生成されるサブワードユニットとしてWPを使用しているが、本開示の範囲を逸脱することなく、音声認識装置から出力されるサブワードユニットとして書記素を同様に利用することも可能である。したがって候補仮説Hに対するワード誤り率(WER)をコンピューティングするためには、仮説サブワードユニット(例えばWP)のそれぞれのシーケンスをその対応するワードシーケンスw1、w2、...、wLに変換しなければならない。個々のワードの第1のサブワードユニット(例えばWP)はワード境界インジケータ(「_」)で始まるため、サブワードシーケンスをワードシーケンスに変換するためのこの手順は独自に決定される。同様に、yj、qがj番目のワードのq番目のWPを表すQj個のWPを含むワードwjの場合、ワードコンフィデンスをコンピューティングするための単純な技法は、以下の
として表すことができ、aggは算術平均、最小値、積またはニューラルネットワークであってもよい。しかしながら個々のワードwjは、WP正確性とワード正確性の間の不一致のために複数の異なる有効WP組合せに分割することができるため、式2を使用してワードレベルコンフィデンスを予測すると、最も少ないWP編集を有するワードwjのためのすべての可能基準トークン化に対する探索が要求されるため、訓練中に望ましくないコンピューテーション負担がもたらされることになる。本明細書において使用されているように、WP編集は、仮説WPが基準WPと一致する場合は正しい(cor)ラベルを含み、有効仮説WPが基準WPと一致しない場合は置換(sub)ラベルを含み、また、仮説WPが誤って認識される場合は挿入(ins)ラベルを含む。以下の表1は、「morning」というワードが正しく転記され、しかしながらWP編集距離出力において2つの置換がもたらされた場合の例を示している。
図2Bを参照すると、いくつかの追加実施態様では、音声認識装置200、200bは、図2Aのトランスフォーマリスコアラアーキテクチャの代わりに熟考リスコアラアーキテクチャを利用して第2のパス208復号/リスコアリングの実施する、2パス復号化アーキテクチャで構成されている。熟考復号器240は熟考リスコアラアーキテクチャを表しており、言語符号器241、仮説アテンション機構244、音響アテンション機構246およびリスコアラ復号器230を含む。音声認識装置200bは、上で説明した図2Aの音声認識装置200aと同じ共有符号器210、第1のパス206、RNN-T復号器220および音響符号器250を含む。図2Aの音声認識装置200aによって利用されているトランスフォーマリスコアラアーキテクチャと比較すると、図2Bの音声認識装置200bは、音響アテンション機構246における共有符号器210の出力212、および第1のパス候補仮説Hのうちの1つまたは複数に付随することによって両方の音響に付随しており、第1のパス候補仮説Hの各々は、仮説アテンション機構244におけるRNN-T復号器220からの出力222に付随することによって仮説サブワードユニットy1、y2、y3、…、yMのそれぞれのシーケンスによって表されている。一方、図2Aの音声認識装置200は、リスコアラ復号器230自身における符号器210の出力212に付随することによって音響に付随しているにすぎない。両方の音響(例えば共有符号化esとして表されている出力212)および第1のパス仮説に付随することにより、熟考復号器240は、出力として、リスコアラ復号器230によってリスコアされた最も高い第2のパスログ確率と関連付けられた仮説サブワードユニットy1、y2、y3、…、yMのそれぞれのシーケンスによって表されている最終認識結果232を生成している。注目すべきことには個々のアテンション機構244、246は、リスコアラ復号器230の中に入力される文脈ベクトル245、247(例えば音響文脈ベクトル247および仮説文脈ベクトル245)を形成している。これらの文脈ベクトル245、247の連結をリスコアラ復号器230に入力することができる。アテンション機構244、246は、それぞれ多ヘッドアテンション(例えば4つのヘッド)を含むことができる。
引き続いて図2Bを参照すると、第2のパス208の間、言語符号器241は、RNN-T復号器220からの出力222として生成された個々の候補仮説Hを対応する仮説符号化h 243にさらに符号化する。したがって言語符号器241は複数の候補仮説を複数の仮説符号化h 243に符号化し、かつ、サブワードユニットのコンフィデンスの予測に使用するために、その複数の仮説符号化h 243を入力としてCEM 300の言語相互アテンション機構330(図3)に提供することができる。このシナリオでは、現在のワードをスコアリングする際に、CEM 300が複数の仮説の間の統一見解を使用するのを許容するための何らかの位置情報を提供することなく、複数の候補仮説Hから符号化された対応する仮説符号化hを複数の仮説符号化h 243に連結することができる。さらに、言語符号器241は、有用な文脈情報を符号化された仮説243に含めるために出力222をも符号化することができる。例えば言語符号器241は、文脈情報を含むことができる双方向符号器を含むことができる。構造的には、言語符号器241は双方向LSTM(BLSTM)符号器(例えば2-層BLSTM符号器)であってもよい。言語符号器241の個々の層は、BLSTM符号器として、320次元投射が後続する2,048個の隠れたユニットを含むことができる。
リスコアラ復号器230は、入力として、音響符号器250から出力された音響符号化e、e1:T 252のシーケンスに付随している音響文脈ベクトル247、およびRNN-T復号器220からの出力222として生成された上位K個の候補仮説Hに対する符号化された仮説243に付随している仮説文脈ベクトル245を受け取る。リスコアラ復号器230は、上位K個の候補仮説Hの各々毎に、文脈ベクトル245、247を使用して個々のサブワードユニットをリスコアし、より詳細には仮説サブワードユニットy1、y2、y3、…、yMのそれぞれのシーケンスにおけるサブワードユニット毎の確率分布をリスコアする。
表1に示されているWPレベルで出力する音声認識装置200によってもたらされるWP正確性とワード正確性の間の固有不一致を是正するために、本明細書における実施態様は、ワードレベルコンフィデンスとしてのすべてのワードの最終WPにおけるコンフィデンス出力を利用し、その一方ですべてのワードの先行するすべての他のWPのコンフィデンスを無視するトランスフォーマ/熟考ベースのCEM 300を対象としている。図3は、2パスアーキテクチャを利用している音声認識装置200の上に展開しているトランスフォーマ/熟考ベースのCEM 300の例を示したものである。明確にするために、図3は、リスコアラ復号器230によってリスコアされた最終認識結果232を表している仮説WP y1、y2、y3、…、yMのそれぞれのシーケンスにおけるi番目のWPに対するコンフィデンス出力c(yi) 302を予測するCEM 300のアクションのみを示している。とりわけ図3は、対応するワードシーケンス「good morning」に変換する仮説WP[_go、od、_mor、ning]のそれぞれのシーケンスにおける「ning」WPに対するコンフィデンス出力c(「ning」)を予測するCEM 300を示している。以下でより詳細に説明されるように、すべてのダッシュ接続およびダッシュ言語相互アテンションブロック330は熟考CEM 300のためにのみ使用され、トランスフォーマCEM 300のためには使用されていない。
第1のパス206の間、RNN-T復号器220は、出力222として複数の候補仮説Hを生成し、複数の候補仮説Hの各々は、仮説サブワードユニットy1、y2、y3、…、yMのそれぞれのシーケンスによって表されている。例えば「Good morning」という発声12に対する例では、RNN-T復号器220からの出力222として生成された1つの候補仮説Hは、仮説サブワードユニット[_go、od、_mor、ning]の第1のシーケンスを含むことができ、また、別の候補仮説Hは、仮説サブワードユニット[_go、od、_morn、ing]の第2のシーケンスを含むことができる。それと同時に、音響符号器250は、Tが発声12からセグメント化された多数の音響フレームxに対応する音響符号化e1:T 252のシーケンスを生成する。
第2のパス208の間、リスコアラ復号器230は、入力として、音響符号器250から出力される音響符号化e、e1:T 252のシーケンス、およびRNN-T復号器220からの出力222として生成された上位K個の候補仮説Hを受け取る。リスコアラ復号器230は、上位K個の候補仮説Hの各々毎に、個々のサブワードユニットをリスコアするように構成されており、より詳細には式(1)を使用して仮説サブワードユニットp(y1)、p(y2)、p(y3)、…、p(yM)のそれぞれのシーケンスにおけるサブワードユニット毎の確率分布をリスコアするように構成されており、線形+ソフトマックス235は、最終認識結果232としての最も高い第2のパスログ確率
と関連付けられた候補仮説Hを出力することができる。ここでは最終認識結果232は、スピーチの開始(sos)タグおよびスピーチの終了(eos)タグを有する仮説サブワード(例えばWP)ユニット[sos_go、od、_mor、ning eos]のシーケンスを含む。
最終認識結果232を表す仮説サブワード(例えばWP)ユニット[sos_go、od、_mor、ning eos]のシーケンスにおけるサブワードユニット(yi)毎に、それぞれのコンフィデンス出力c(yi) 302を決定するために、音声認識装置200から得られたコンフィデンス特徴のセットを表すコンフィデンス埋込みb(yi) 301が入力としてCEM 300に提供される。示されている例では、i番目のサブワードユニットはWP「ning」に対応している。ここではコンフィデンス埋込みb(yi) 301は、式(1)を使用したリスコアラ復号器230のソフトマックスポステリア特徴φ(i|e、y1:i-1)、入力サブワード+位置埋込みEmb(yi)特徴(例えばEmb(ning))、ログポステリアログ(p(yi))特徴および上位K個(i)の特徴のうちの1つまたは複数を伝えている。ソフトマックスポステリア特徴は、WP「ning」のための内部特徴、音響符号化e、e1:Tのための内部特徴、およびリスコアラ復号器230のための最後から2番目の層の起動φを示している。ログポステリアログ(p(y1))特徴は、サブワードユニットyiがWP「ning」を含む確率/可能性と関連付けられた確率値を示し、また、上位K個(i)の特徴は、復号器インデックス(例えば時間ステップ)iにおけるK個の最も大きいログ確率を示している。言い換えると、上位K個(i)の特徴は、復号器インデックス(例えば時間ステップ)iにおける上位K個の中の候補仮説H毎の確率値を提供している。音声認識装置200およびCEM 300の両方が時間ステップ毎にサブワード(例えばWP)レベルで出力を生成するように構成されているため、CEM 300をトランスフォーマとして実現することにより、(1)すべてのワードcword(wj)の最終WPにおけるコンフィデンス出力c(yj、Qj)を専用ワードレベルコンフィデンス302として利用することにより、ワード編集距離出力をグラウンドトゥルース訓練ラベルとして使用することができ、また、(2)ワードを構築しているすべてのWPからの情報/特徴を組み込むことができる。示されている例では、トランスフォーマベースのCEM 300の自己アテンション機構310は、WP「ning」に対応するi番目のサブワードユニットに対するコンフィデンス埋込みb(yi) 301、ならびに同じワードにおけるもっと早いサブワードユニットに対するコンフィデンス埋込みに基づいて、自己アテンションをコンフィデンス特徴ベクトルb、312に適用している。コンフィデンス特徴ベクトルbは以下の式によって表すことができる。
b(yi)=[Emb(yi);φ(i|e,y1:i-1);log(p(yi));top-K(i)] (3)
b={b(y1)、…、b(yi)} (4)
さらに、トランスフォーマベースのCEM 300の音響相互アテンション機構320は、WP「ning」に対応するi番目のサブワードユニットに対するそれぞれのコンフィデンス出力c(yi) 302を予測する精度を改善するために、音響相互アテンション(CA(e))を音響符号器250から出力される音響符号化e、e1:T 252のシーケンスに適用して音響文脈ベクトル322を生成する。最後に、線形+シグモイドブロック340は、自己アテンションコンフィデンス特徴ベクトルSA(b)および相互アテンションCA(e)音響文脈ベクトル322を使用して、トランスフォーマベースのCEM 300による、
c(yi)=σ(Transformer(CA(e),SA(b))) (5)
のように最終WPにおけるコンフィデンス出力c(yj、Qj)を使用したワードcword(wj)毎の専用コンフィデンス302の生成を許容しており、示されている例におけるワードcword(morning)に対するコンフィデンス302は、ワードを構築している最終WPのコンフィデンス出力c(ning)に対応している。
いくつかの実施態様では、音声認識装置200は、コンフィデンス精度をさらに改善するために、第2のパスリスコアリングのための図2Bの熟考復号器240を利用して、第1のパス206の間にRNN-T復号器220からの出力222として生成された複数の候補仮説Hからの言語情報を組み込んだ熟考ベースのCEM 300を実現している。一般に、ワードにはより高いコンフィデンスを有する傾向があり、ワードは、候補仮説Hの数が多いほど、全体にわたって共有される。例えば互いに付随している、第1の候補仮説Hに対して仮説サブワードユニット[_go、od、_mor、ning]の第1のシーケンスを有し、また、第2の候補仮説Hに対して仮説サブワードユニット[_go、od、_morn、ing]の第2のシーケンスを有する「Good morning」という発声のための表1からの例では、それらが同じワードシーケンスに連結していること、また、したがって同様のコンフィデンススコアにマップすべきであることを熟考ベースのCEMに知らせることになる。注目すべきことには、CEM 300には、既知の仮説におけるワード毎にコンフィデンス302を予測することが課せられているため、熟考ベースのCEMは、現在のワードをスコアリングし/予測する際に、仮説の将来の文脈を利用することができる。音響相互アテンションCA(e)を音響符号器250から出力される音響符号化e、e1:T 252のシーケンスに適用して音響文脈ベクトル322を生成する音響相互アテンション機構320に加えて、熟考ベースのCEM 300は、言語相互アテンション(CA(h))を言語符号器241(図2B)から出力される複数の候補仮説符号化h 243に適用して、サブワードユニットのコンフィデンスの予測に使用するための言語文脈ベクトル332を生成する言語相互アテンション機構330をも含む。図2Bの言語符号器241から出力される複数の仮説符号化h 243は、
として表すことができ、Hは付随した候補仮説の数であり、また、MHはH番目の仮説におけるWPの数である。一例ではHは8に等しい。一例ではHは1に等しく、最終認識結果232と関連付けられた仮説符号化h 243のみがサブワードユニットのコンフィデンスの予測に使用するために付随される。
したがってWP「ning」に対応するi番目のサブワードユニットに対するそれぞれのコンフィデンス出力c(yi) 302を予測する際に、熟考ベースのCEM 300は、音響相互アテンション機構320を介して音響符号化e、e1:T 252のシーケンスに付随することによる音響文脈と、言語相互アテンション機構330を介して複数の仮説符号化h 243に付随することによる言語文脈の両方を組み込む。最後に、CEM 300の線形+シグモイドブロック340に対応する出力層340は、自己アテンションコンフィデンス特徴ベクトルSA(b)、相互アテンションCA(e)音響文脈ベクトル322および相互アテンションCA(h)言語文脈ベクトル332を使用して、熟考ベースのCEM 300による、
c(yi)=σ(Transformer(CA(e)+CA(h),SA(b))) (8)
のようにサブワードWP毎にコンフィデンス出力c(yi)の生成を許容する。
トランスフォーマベースのCEM 300の場合と同様、熟考ベースのCEM 300は式(6)を使用して、最終WPにおけるコンフィデンス出力c(yj、Qj)を使用することによってワードcword(wj)毎に専用コンフィデンス302を決定することができる。トランスフォーマベースのCEM 300および熟考ベースのCEM 300のいずれにおいても、対応するワードシーケンスw1:Lにおけるワードcword(wj)毎に専用コンフィデンス302を集約することによって発声レベルコンフィデンススコア350(図4)を決定することができる。いくつかの例では、集約は算術平均アグリゲータを含む。
CEM 300は音声認識装置200と合同で訓練することができ、またはCEM 300および音声認識装置は互いに個別に訓練することができる。いくつかの例では、CEM 300は、以下のように二進交差エントロピーワードレベル損失を使用して訓練される。
表1は、仮説ワードが基準ワードと一致すると、ワードwjに対するLevenshteinワードレベル編集距離が「正しい」(cor)ラベルを出力する場合、d(wj)は1に等しく、また、仮説ワードが基準ワードと一致しない場合に、ワードwjに対するLevenshteinワードレベル編集距離が「挿入」(ins)または「置換」(sub)ラベルを出力する場合、d(wj)はゼロに等しいことを示している。注目すべきことには、音声認識装置200およびCEM 300はサブワードレベルで出力する(例えばすべてのWPを出力する)ため、表1は、CEM 300は、ワードを構築している最終WPのみに的を絞るためにワードマスク損失mの終了を適用し、また、同じワードを構築しているもっと早いWPと関連付けられたWP損失を無視することをも示している。
図4は、適切な音声認識装置を選択して発声12を転記するため例示的コンフィデンスベースのルーチンの略図400を示したものである。示されている例では、2パス復号化アーキテクチャで構成された(例えば図2Aのトランスフォーマリスコアラアーキテクチャまたは図2Bの熟考リスコアラアーキテクチャのいずれかを含む)第1の音声認識装置200は、ユーザ10によって話された発声12に対応する入ってくる音響データ202を処理することによって表現形式204を生成するためのデフォルト音声認識装置として動作している。第1の音声認識装置200は、ユーザ10と関連付けられたユーザデバイス110上で実行する局所音声認識装置に対応し得る。第1の音声認識装置200は、第1の音声認識装置200によって出力される、表現形式204に対応する音声認識結果232に対する発声レベルコンフィデンススコア350を決定するためのCEM 300をも実現している。
いくつかの実施態様では、コンフィデンスベースのルーチンは、第1の音声認識装置200によって転記された発声12に対する発声レベルコンフィデンススコア350がコンフィデンス閾値を満足しているかどうかを決定する。示されている例では、コンフィデンス閾値より大きい発声レベルコンフィデンススコア350はコンフィデンス閾値を満足し、一方、コンフィデンス閾値以下の発声レベルコンフィデンススコア350はコンフィデンス閾値を満足しない。発声レベルコンフィデンススコア350がコンフィデンス閾値を満足すると(例えばコンフィデンス閾値より大きいと)(例えば決定ブロック450が「イエス」である)、第1の音声認識装置200によって生成された表現形式204が受け入れられて、品質、レイテンシおよび信頼性におけるオン-デバイスゲインを達成する。ここでは、受け入れられた表現形式204はユーザデバイス110上に表示することができ、あるいはユーザデバイス110上に継続して表示することができ、および/または表現形式204を翻訳し、かつ、必要に応じて関連するアクション/動作を実施するために、下流側の自然言語理解(NLU)モジュールに引き渡すことができる。
発声レベルコンフィデンススコア350がコンフィデンス閾値を満足していない場合(例えばコンフィデンス閾値未満である場合)(例えば決定ブロック450が「ノー」である)、コンフィデンスベースのルーチンは、第1の音声認識装置200によって生成された表現形式204を拒否し、発声12を再転記する処理のために音響データ202を第2の音声認識装置402に引き渡す。第2の音声認識装置402によって生成された表現形式204はユーザデバイス110に戻すことができ、および/または翻訳のために下流側のNLUモジュールに戻すことができる。第1の音声認識装置200が局所で、かつ、デバイス110上で実行し、また、第2の音声認識装置402がサーバ側で、かつ、遠隔サーバ410上で実行する例では、コンフィデンスベースのルーチンは、遠隔サーバ410上で実行する第2の音声認識装置402が発声12を転記することができるように、ユーザデバイス110に、ネットワーク(図示せず)を介して音響データ202を遠隔サーバ410に送信させる。第2の音声認識装置402は、大規模言語モデル訓練データ上で訓練された大型言語モデルを利用して、第2の音声認識装置402を適切な名詞の認識により適したものにすることができ、あるいは第2の音声認識装置402を、第1の音声認識装置200を訓練するために使用される訓練データには存在していない共通ワードがより少ないものにすることができる。
いくつかの例では、第1の音声認識装置200は、通常、より大きい言語モデルおよび辞典を実現している第2の音声認識装置402よりも、ショートフォーム発声を認識するためにより正確であり(例えばより低いワード誤り率を達成する)、第1の音声認識装置200は、最終的には、ロングテール発声の認識の精度が第2の音声認識装置402よりも劣ることがあり得る。したがってコンフィデンスベースのルーチンは、表現形式204を生成し、かつ、第1の音声認識装置200を使用してほとんどの発声をデバイス110上で転記して、品質、レイテンシおよび信頼性を得るために、すべての発声をコンフィデンス閾値未満のコンフィデンススコア350で第2の音声認識装置402に送ることができる。
第2の音声認識装置402はサーバ側として示されているが、第2の音声認識装置402はデバイス上で実行することも可能である。例えば第2の音声認識装置402は、特定の発声に対して第1の音声認識装置200よりも正確な音声認識結果を生成することができる、よりコンピューテーション集約的音声認識装置と関連付けることができるが、レイテンシの短縮が犠牲になり、また、電力消費が増加する。したがってコンフィデンスベースのルーチンは、第1の音声認識装置200によって生成された認識結果と関連付けられた発声レベルコンフィデンススコアがコンフィデンス閾値未満である場合、第2の音声認識装置402を利用して発声12を転記することができる。
ソフトウェアアプリケーション(すなわちソフトウェア資源)は、コンピューティングデバイスにタスクを実施させるコンピュータソフトウェアを意味することができる。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「app」または「プログラム」と呼ぶことができる。例示的アプリケーションには、それらに限定されないが、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、ワード処理アプリケーション、スプレッドシートアプリケーション、メッセージ発信アプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーションおよびゲーミングアプリケーションがある。
非一時的メモリは、コンピューティングデバイスによる使用のために一時的または永久的ベースでプログラム(例えば命令のシーケンス)またはデータ(例えばプログラム状態情報)を記憶するために使用される物理的デバイスであってもよい。非一時的メモリは揮発性および/または不揮発性アドレス指定可能半導体メモリであってもよい。不揮発性メモリの例には、それらに限定されないが、フラッシュメモリおよびリードオンリメモリ(ROM)/プログラマブルリードオンリメモリ(PROM)/消去可能プログラマブルリードオンリメモリ(EPROM)/電気的消去可能プログラマブルリードオンリメモリ(EEPROM)(例えばブートプログラムなどのファームウェアのために典型的に使用される)がある。揮発性メモリの例には、それらに限定されないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、位相変化メモリ(PCM)ならびにディスクまたはテープがある。
図5は、ワードに対する最終仮説サブワードユニットのコンフィデンスのみを使用した音声認識装置によって認識されたそのワードに対するワードレベルコンフィデンスを予測する方法500のための動作の例示的配置のフローチャートである。データ処理ハードウェア112(図1)は、メモリハードウェア114(図1)上に記憶されている命令を実行して、方法500の動作の例示的配置を実施することができる。動作502で、方法500は、音声認識装置200から、ユーザ10によって話された発声12に対する音声認識結果232を受け取るステップを含む。音声認識装置200は、図2Aおよび図2Bを参照して上で考察した2パス復号化アーキテクチャで構成することができる。ここでは音声認識結果232は、音声認識装置200のリスコアリング復号器によってリスコアされた最も高いスコアリング候補仮説であり、発声12の1つまたは複数のワードを形成している仮説サブワードユニットのシーケンスを含み、個々のサブワードユニットは、対応する出力ステップで音声認識装置200から出力される。
方法500は、コンフィデンス予測モジュール(CEM)300を使用して、仮説サブワードユニットのシーケンス中のサブワードユニット毎に動作504、506、508、510を実施する。動作504で、方法500は、対応するサブワードユニットが音声認識装置200から出力されると、対応する出力ステップと関連付けられたコンフィデンス特徴のセットを表すそれぞれのコンフィデンス埋込み242を獲得するステップを含む。動作506で、方法500は、対応するサブワードユニットを続行する仮説サブワードユニットのシーケンス中の任意の他のサブワードユニットに対して獲得された対応するサブワードユニットおよびコンフィデンス埋込みb(y1)-b(y1-i)に対するそれぞれのコンフィデンス埋込みb(yi) 242に自己付随する第1のアテンション機構310を使用して、コンフィデンス特徴ベクトルSA(b)、312を生成するステップを含む。動作508で、方法500は、発声12に対応する音響データ202からセグメント化された対応する音響フレームxTとそれぞれ関連付けられた音響符号化e、e1:T 252のシーケンスに相互付随する第2のアテンション機構320を使用して、音響文脈ベクトルCA(e) 322を生成するステップを含む。動作510で、方法500は、CEM 300の出力層340からの出力として、CEM 300の出力層による入力として受け取ったコンフィデンス特徴ベクトルSA(b)および音響特徴ベクトルCA(e) 322に基づいて、対応するサブワードユニットに対するそれぞれのコンフィデンス出力スコア302を生成するステップを含む。
動作512で、方法500は、仮説サブワードユニットのシーケンスによって形成される1つまたは複数のワードの各々毎に、ワードに対するそれぞれのワードレベルコンフィデンススコアを決定するステップを含む。ここではそれぞれのワードレベルコンフィデンススコアは、ワード中の最終サブワードユニットに対して生成されるそれぞれのコンフィデンス出力スコア302に等しい。動作514で、方法500は、発声12の1つまたは複数のワードに対して決定されたそれぞれのワードレベルコンフィデンススコアを集約することによって音声認識結果232に対する発声レベルコンフィデンススコア350を決定するステップを含む。
図6は、本文書において説明されているシステムおよび方法を実現するために使用することができる例示的コンピューティングデバイス600の略図である。コンピューティングデバイス600には、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームおよび他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図されている。ここで示されている構成要素、それらの接続および関係、ならびにそれらの機能は単に例示的なものにすぎず、本文書において説明され、および/または特許請求される本発明の実施態様を制限するものではない。
コンピューティングデバイス600は、プロセッサ610、メモリ620、記憶デバイス630、メモリ620および高速拡張ポート650に接続する高速インタフェース/コントローラ640、および低速バス670および記憶デバイス630に接続する低速インタフェース/コントローラ660を含む。構成要素610、620、630、640、650および660の各々は様々なバスを使用して相互接続されており、また、共通のマザーボード上に取り付けることができ、あるいは適切な他の方法で取り付けることができる。プロセッサ610は、コンピューティングデバイス600内で実行するための命令を処理することができ、命令は、メモリ620の中または記憶デバイス630上に記憶されている、高速インタフェース640に結合されたディスプレイ680などの外部入力/出力デバイス上のグラフィカルユーザインタフェース(GUI)のための図形情報を表示するための命令を含む。他の実施態様では、適切である場合、複数のメモリおよび複数のタイプのメモリと共に複数のプロセッサおよび/または複数のバスを使用することも可能である。また、個々のデバイスが必要な動作の一部を提供する(例えばサーババンク、ブレードサーバのグループまたは多重プロセッサシステムとして)複数のコンピューティングデバイス600を接続することも可能である。
メモリ620は、情報をコンピューティングデバイス600内で非一時的に記憶する。メモリ620は、コンピュータ可読媒体、揮発性メモリユニットまたは不揮発性メモリユニットであってもよい。非一時的メモリ620は、コンピューティングデバイス600による使用のために一時的または永久的ベースでプログラム(例えば命令のシーケンス)またはデータ(例えばプログラム状態情報)を記憶するために使用される物理的デバイスであってもよい。不揮発性メモリの例には、それらに限定されないが、フラッシュメモリおよびリードオンリメモリ(ROM)/プログラマブルリードオンリメモリ(PROM)/消去可能プログラマブルリードオンリメモリ(EPROM)/電気的消去可能プログラマブルリードオンリメモリ(EEPROM)(例えばブートプログラムなどのファームウェアのために典型的に使用される)がある。揮発性メモリの例には、それらに限定されないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、位相変化メモリ(PCM)ならびにディスクまたはテープがある。
記憶デバイス630は、コンピューティングデバイス600のための大容量記憶を提供することができる。いくつかの実施態様では、記憶デバイス630はコンピュータ可読媒体である。様々な異なる実施態様では、記憶デバイス630は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイスまたはテープデバイス、フラッシュメモリまたは他の同様の固体状態メモリデバイス、あるいは記憶領域ネットワークまたは他の構成におけるデバイスを含むデバイスのアレイであってもよい。追加実施態様では、コンピュータプログラム製品が情報担体の中に有形で具体化されている。コンピュータプログラム製品は、実行されると、上で説明した方法などの1つまたは複数の方法を実施する命令を含む。情報担体は、メモリ620、記憶デバイス630、またはプロセッサ610上のメモリなどのコンピュータまたは機械可読媒体である。
高速コントローラ640は、コンピューティングデバイス600のための帯域幅集約動作を管理し、一方、低速コントローラ660は、それほど帯域幅集約ではない動作を管理している。役割のこのような割振りは単に例示的なものにすぎない。いくつかの実施態様では、高速コントローラ640はメモリ620、ディスプレイ680(例えばグラフィックプロセッサまたはアクセラレータを介して)に結合され、また、様々な拡張カード(図示せず)を受け入れることができる高速拡張ポート650に結合されている。いくつかの実施態様では、低速コントローラ660は記憶デバイス630および低速拡張ポート690に結合されている。様々な通信ポート(例えばUSB、Bluetooth、Ethernet、無線Ethernet)を含むことができる低速拡張ポート690は、キーボード、位置決めデバイス、スキャナなどの1つまたは複数の入力/出力デバイスに結合することができ、あるいは例えばネットワークアダプタを介して、スイッチまたはルータなどのネットワーク化デバイスに結合することができる。
コンピューティングデバイス600は、図に示されているように多くの異なる形態で実現することができる。例えばコンピューティングデバイス600は、標準サーバ600aまたはこのようなサーバ600aのグループにおける複数回として、ラップトップコンピュータ600bとして、またはラックサーバシステム600cの一部として実現することができる。
本明細書において説明されているシステムおよび技法の様々な実施態様は、デジタル電子および/または光回路機構、集積回路機構、特殊設計ASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェアおよび/またはそれらの組合せの中で実現することができる。これらの様々な実施態様は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または翻訳することができる1つまたは複数のコンピュータプログラムにおける実施態様を含むことができ、少なくとも1つのプログラマブルプロセッサは、記憶システム、少なくとも1つの入力デバイスおよび少なくとも1つの出力デバイスからデータおよび命令を受け取り、かつ、それらにデータおよび命令を送信するために結合された、専用または汎用プログラマブルプロセッサであってもよい。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる)はプログラマブルプロセッサのための機械命令を含み、また、高水準手続きおよび/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械言語で実現することができる。本明細書において使用されているように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令および/またはデータを提供するために使用される任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置および/またはデバイス(例えば磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を意味している。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を意味している。
本明細書において説明されているプロセスおよび論理フローは、データ処理ハードウェアとも呼ばれる、1つまたは複数のコンピュータプログラムを実行して、入力データに対して操作し、かつ、出力を生成することによって機能を実施する1つまたは複数のプログラマブルプロセッサによって実施することができる。また、プロセスおよび論理フローは、専用論理回路機構、例えばFPGA(書替え可能ゲートアレイ)またはASIC(特定用途向け集積回路)によって実施することも可能である。コンピュータプログラムを実行するために適したプロセッサには、一例として、汎用および専用の両方のマイクロプロセッサ、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサがある。通常、プロセッサは、リードオンリメモリまたはランダムアクセスメモリあるいは両方から命令およびデータを受け取ることになる。コンピュータの本質的な要素は、命令を実施するためのプロセッサ、および命令およびデータを記憶するための1つまたは複数のメモリデバイスである。通常、コンピュータは、データを記憶するための1つまたは複数の大容量記憶デバイス、例えば磁気、磁気光学ディスクまたは光ディスクをも含むか、またはそれらからデータを受け取り、またはそれらにデータを転送し、あるいはその両方のためにそれらに動作結合されることになる。しかしながらコンピュータは、必ずしもこのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するために適したコンピュータ可読媒体は、一例として半導体メモリデバイス、例えばEPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、例えば内部ハードディスクまたは取外し可能ディスク、磁気光学ディスクならびにCD ROMおよびDVD-ROMディスクを含む、あらゆる形態の不揮発性メモリ、媒体およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路機構で補足することができ、あるいは専用論理回路機構の中に組み込むことができる。
ユーザとの対話を提供するために、本開示の1つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、例えばCRT(陰極線管)、LCD(液晶ディスプレイ)モニタまたはタッチスクリーンを有し、また、任意選択でユーザがコンピュータに入力を提供することができるキーボードおよび位置決めデバイス、例えばマウスまたはトラックボールを有するコンピュータ上で実現することができる。他の種類のデバイスを使用してユーザとの対話を提供することも可能であり、例えばユーザに提供されるフィードバックは、任意の形態の知覚フィードバック、例えば視覚フィードバック、聴覚フィードバックまたは触覚フィードバックであってもよく、また、ユーザからの入力は、音響入力、スピーチ入力または触覚入力を含む任意の形態で受け取ることができる。さらに、コンピュータは、例えばウェブブラウザから受け取った要求に応答して、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送ることにより、ユーザによって使用されるデバイスに文書を送り、また、デバイスから文書を受け取ることによってユーザと対話することができる。
以上、多くの実施態様について説明した。しかしながら、本開示の精神および範囲を逸脱することなく様々な修正を加えることができることは理解されよう。したがって他の実施態様は以下の特許請求の範囲の範疇である。
10 ユーザ
12 話された発声
100 スピーチ環境、スピーチ対応環境、システム
110 ユーザデバイス
112 データ処理ハードウェア
114 メモリハードウェア
116 音響サブシステム
116、116a 音響取込みデバイス(例えばマイクロホン)
116a 音響出力デバイス
116、116b スピーチ出力デバイス(例えばスピーカ)
118 プログラムまたはアプリケーション、自動アシスタントアプリケーション
119 応答
200、200a、200b 音声認識装置
202 ストリーミング音響データ
204 ストリーミング表現形式
206 第1のパス
208 第2のパス
210 共有符号器
212 出力
220 RNN-T復号器
222 出力
230 リスコアラ復号器
232 最終認識結果、音声認識結果
235 線形+ソフトマックス
240 熟考復号器
241 言語符号器
242 コンフィデンス埋込み
243 仮説符号化h
244 仮説アテンション機構
245 仮説文脈ベクトル
246 音響アテンション機構
247 音響文脈ベクトル
250 音響符号器
252 音響符号化e1:T、音響符号化e、e1:T
300 コンフィデンス予測モジュール(CEM)
301 コンフィデンス埋込みb(yi)
302 コンフィデンス、コンフィデンス出力c(yi)、コンフィデンス出力スコア
310 自己アテンション機構、第1のアテンション機構
312 コンフィデンス特徴ベクトルb
320 音響相互アテンション機構、第2のアテンション機構
322 音響文脈ベクトル
330 言語相互アテンション機構、相互アテンションブロック
332 言語文脈ベクトル
340 線形+シグモイドブロック、出力層
350 発声レベルコンフィデンススコア
400 例示的コンフィデンスベースのルーチンの略図
402 サーバ側音声認識装置、第2の音声認識装置
410 遠隔サーバ
450 決定ブロック
500 ワードに対する最終仮説サブワードユニットのコンフィデンスのみを使用した音声認識装置によって認識されたそのワードに対するワードレベルコンフィデンスを予測する方法
600 例示的コンピューティングデバイス
600a 標準サーバ
600b ラップトップコンピュータ
600c ラックサーバシステム
610 プロセッサ
620 メモリ、非一時的メモリ
630 記憶デバイス
640 高速インタフェース/コントローラ
650 高速拡張ポート
660 低速インタフェース/コントローラ
670 低速バス
680 ディスプレイ
690 低速拡張ポート
CA(e) 音響相互アテンション、音響文脈ベクトル
CA(h) 言語相互アテンション
e 音響符号化
e1:T 音響符号化
es 共有符号化
H 候補仮説
h 仮説符号化
SA(b) 自己アテンションコンフィデンス特徴ベクトル
y1、y2、y3、…、yM 仮説サブワードユニット

Claims (28)

  1. データ処理ハードウェア(112)上で実行されると、前記データ処理ハードウェア(112)に、
    音声認識装置(200)から、ユーザ(10)によって話される発声(12)に対する音声認識結果(232)を受け取るステップであって、前記音声認識結果(232)が前記発声(12)の1つまたは複数のワードを形成する仮説サブワードユニットのシーケンスを含み、個々のサブワードユニットが、対応する出力ステップで前記音声認識装置(200)から出力される、ステップと、
    コンフィデンス予測モジュール(300)を使用して、仮説サブワードユニットの前記シーケンス中のサブワードユニット毎に、
    対応するサブワードユニットが前記音声認識装置(200)から出力されると、前記対応する出力ステップと関連付けられたコンフィデンス特徴のセットを表すそれぞれのコンフィデンス埋込み(242)を獲得するステップと、
    前記対応するサブワードユニットを続行する仮説サブワードユニットの前記シーケンス中の任意の他のサブワードユニットに対して獲得された対応するサブワードユニットおよびコンフィデンス埋込み(242)に対する前記それぞれのコンフィデンス埋込み(242)に自己付随する第1のアテンション機構(310)を使用して、コンフィデンス特徴ベクトル(312)を生成するステップと、
    前記発声(12)に対応する音響データ(202)からセグメント化された対応する音響フレームとそれぞれ関連付けられた音響符号化(252)のシーケンスに相互付随する第2のアテンション機構(320)を使用して、音響文脈ベクトル(332)を生成するステップと、
    前記コンフィデンス予測モジュール(300)の出力層(340)からの出力として、前記コンフィデンス予測モジュール(300)の前記出力層(340)による入力として受け取った前記コンフィデンス特徴ベクトル(312)および音響特徴ベクトル(322)に基づいて、前記対応するサブワードユニットに対するそれぞれのコンフィデンス出力スコア(302)を生成するステップと、
    仮説サブワードユニットの前記シーケンスによって形成される前記1つまたは複数のワードの各々毎に、前記ワードに対するそれぞれのワードレベルコンフィデンススコアを決定するステップであって、前記それぞれのワードレベルコンフィデンススコアが、前記ワード中の最後のサブワードユニットに対して生成される前記それぞれのコンフィデンス出力スコア(302)に等しい、ステップと、
    前記発声(12)の前記1つまたは複数のワードに対して決定された前記それぞれのワードレベルコンフィデンススコアを集約することによって前記音声認識結果(232)に対する発声レベルコンフィデンススコア(350)を決定するステップと
    を含む動作を実施させるコンピュータ実施方法(500)。
  2. 前記それぞれのコンフィデンス埋込み(242)によって表されるコンフィデンス特徴の前記セットが、
    前記対応する出力ステップにおける前記音声認識装置(200)のソフトマックスポステリア特徴と、
    前記対応するサブワードユニットに対するサブワード埋込み特徴と
    を含む、請求項1に記載のコンピュータ実施方法(500)。
  3. 前記それぞれのコンフィデンス埋込み(242)によって表されるコンフィデンス特徴の前記セットが、
    前記対応する出力ステップで前記音声認識装置(200)から出力される前記対応するサブワードユニットの確率/可能性と関連付けられる確率値を示すログポステリアログ特徴と、
    前記音声認識装置(200)によってリスコアされる上位K個の候補仮説に対する前記対応する出力ステップにおけるK個の最大ログ確率を示す上位K個の特徴であって、前記上位K個の候補仮説の各々が、前記発声(12)の1つまたは複数のワードを形成する仮説サブワードユニットのそれぞれのシーケンスによって表される、上位K個の特徴と
    をさらに含む、請求項1または2に記載のコンピュータ実施方法(500)。
  4. 前記サブワードユニットがワードピースを含む、請求項1から3のいずれか一項に記載のコンピュータ実施方法(500)。
  5. 前記サブワードユニットが書記素を含む、請求項1から4のいずれか一項に記載のコンピュータ実施方法(500)。
  6. 前記音声認識装置(200)が、
    第1のパス(206)の間、複数の候補仮説を生成するように構成された変換器復号器モデル(220)であって、個々の候補仮説が前記発声(12)のための候補表現形式に対応し、仮説サブワードユニットのそれぞれのシーケンスによって表される、変換器復号器モデル(220)と、
    第2のパス(208)の間、前記第1のパスの間に前記変換器復号器モデルによって生成された前記複数の候補仮説からの上位K個の候補仮説をリスコアするように構成されたリスコアラ復号器モデル(230)と
    を備え、最も高い第2のパスログ確率と関連付けられた仮説サブワードユニットの前記それぞれのシーケンスによって表される前記リスコアラ復号器モデル(230)によってリスコアされる前記上位K個の候補仮説中の候補仮説が、前記ユーザ(10)によって話された前記発声(12)に対する前記音声認識結果(232)として前記リスコアラ復号器モデル(230)から出力される、請求項1から5のいずれか一項に記載のコンピュータ実施方法(500)。
  7. 前記変換器復号器モデル(220)が、Recurrent Neural Network-Transducer(RNN-T)モデルアーキテクチャを含み、
    前記リスコアラ復号器モデル(230)が、Listen, Attend, and Spell(LAS)モデルアーキテクチャを含む、
    請求項6に記載のコンピュータ実施方法(500)。
  8. 前記動作が、
    前記第2のパス(208)の間、前記音声認識装置(200)の言語符号器(241)を使用して、前記第1のパス(206)の間に前記変換器復号器モデル(220)によって生成された前記複数の候補仮説の各々を符号化することによって複数の仮説符号化(243)を生成するステップと、
    前記コンフィデンス予測モジュール(300)を使用して、仮説サブワードユニットの前記シーケンス中のサブワードユニット毎に、前記複数の仮説符号化(243)に相互付随する第3のアテンション機構を使用して、言語文脈ベクトル(332)を生成するステップと
    をさらに含み、前記対応するサブワードユニットに対する前記それぞれのコンフィデンス出力スコア(302)を生成するステップが、前記コンフィデンス予測モジュール(300)の前記出力層(340)による入力として受け取った前記言語文脈ベクトル(332)にさらに基づく、請求項6または7に記載のコンピュータ実施方法(500)。
  9. 前記複数の候補仮説の各々の符号化が、個々の候補仮説を対応する仮説符号化に双方向性符号化するステップと、
    個々の対応する仮説符号化を連結することによって前記複数の仮説符号化(243)を生成するステップとを含む、
    請求項8に記載のコンピュータ実施方法(500)。
  10. 前記音声認識装置(200)および前記コンフィデンス予測モジュール(300)が合同で訓練される、請求項1から9のいずれか一項に記載のコンピュータ実施方法(500)。
  11. 前記音声認識装置(200)および前記コンフィデンス予測モジュール(300)が個別に訓練される、請求項1から10のいずれか一項に記載のコンピュータ実施方法(500)。
  12. 前記コンフィデンス予測モジュール(300)が、前記音声認識装置(200)と関連付けられた特徴に基づく二進交差エントロピー損失を使用して訓練される、請求項1から11のいずれか一項に記載のコンピュータ実施方法(500)。
  13. 前記動作が、
    前記音声認識結果(232)に対する前記発声レベルコンフィデンススコア(350)がコンフィデンス閾値を満足しているかどうかを決定するステップと、
    前記音声認識結果(232)に対する前記発声レベルコンフィデンススコア(350)が前記コンフィデンス閾値を満足していない場合、前記発声(12)に対応する音響データ(202)を別の音声認識装置(402)に送信するステップであって、前記他の音声認識装置(402)が前記音響データ(202)を処理して前記発声(12)の表現形式(204)を生成するように構成される、ステップと
    をさらに含む、請求項1から12のいずれか一項に記載のコンピュータ実施方法(500)。
  14. 前記音声認識装置(200)および前記コンフィデンス予測モジュール(300)がユーザコンピューティングデバイス(110)上で実行し、
    前記他の音声認識装置(402)が、ネットワークを介して前記ユーザコンピューティングデバイス(110)と通信する遠隔サーバ(410)上で実行する、
    請求項13に記載のコンピュータ実施方法。
  15. データ処理ハードウェア(112)と、
    前記データ処理ハードウェア(112)と通信し、命令を記憶するメモリハードウェア(114)と
    を備え、前記命令は、前記データ処理ハードウェア(112)上で実行されると、前記データ処理ハードウェア(112)に、
    音声認識装置(200)から、ユーザ(10)によって話される発声(12)に対する音声認識結果(232)を受け取るステップであって、前記音声認識結果(232)が前記発声(12)の1つまたは複数のワードを形成する仮説サブワードユニットのシーケンスを含み、個々のサブワードユニットが、対応する出力ステップで前記音声認識装置(200)から出力される、ステップと、
    コンフィデンス予測モジュール(300)を使用して、仮説サブワードユニットの前記シーケンス中のサブワードユニット毎に、
    対応するサブワードユニットが前記音声認識装置(200)から出力されると、前記対応する出力ステップと関連付けられたコンフィデンス特徴のセットを表すそれぞれのコンフィデンス埋込み(242)を獲得するステップと、
    前記対応するサブワードユニットを続行する仮説サブワードユニットの前記シーケンス中の任意の他のサブワードユニットに対して獲得された対応するサブワードユニットおよびコンフィデンス埋込み(242)に対する前記それぞれのコンフィデンス埋込み(242)に自己付随する第1のアテンション機構(310)を使用して、コンフィデンス特徴ベクトル(312)を生成するステップと、
    前記発声(12)に対応する音響データ(202)からセグメント化された対応する音響フレームとそれぞれ関連付けられた音響符号化(252)のシーケンスに相互付随する第2のアテンション機構(320)を使用して、音響文脈ベクトル(332)を生成するステップと、
    前記コンフィデンス予測モジュール(300)の出力層(340)からの出力として、前記コンフィデンス予測モジュール(300)の前記出力層(340)による入力として受け取った前記コンフィデンス特徴ベクトル(312)および音響特徴ベクトル(322)に基づいて、前記対応するサブワードユニットに対するそれぞれのコンフィデンス出力スコア(302)を生成するステップと、
    仮説サブワードユニットの前記シーケンスによって形成される前記1つまたは複数のワードの各々毎に、前記ワードに対するそれぞれのワードレベルコンフィデンススコアを決定するステップであって、前記それぞれのワードレベルコンフィデンススコアが、前記ワード中の最後のサブワードユニットに対して生成される前記それぞれのコンフィデンス出力スコア(302)に等しい、ステップと、
    前記発声(12)の前記1つまたは複数のワードに対して決定された前記それぞれのワードレベルコンフィデンススコアを集約することによって前記音声認識結果(232)に対する発声レベルコンフィデンススコア(350)を決定するステップと
    を含む動作を実施させる、システム(100)。
  16. 前記それぞれのコンフィデンス埋込み(242)によって表されるコンフィデンス特徴の前記セットが、
    前記対応する出力ステップにおける前記音声認識装置(200)のソフトマックスポステリア特徴と、
    前記対応するサブワードユニットに対するサブワード埋込み特徴と
    を含む、請求項15に記載のシステム(100)。
  17. 前記それぞれのコンフィデンス埋込み(242)によって表されるコンフィデンス特徴の前記セットが、
    前記対応する出力ステップで前記音声認識装置(200)から出力される前記対応するサブワードユニットの確率/可能性と関連付けられる確率値を示すログポステリアログ特徴と、
    前記音声認識装置(200)によってリスコアされる上位K個の候補仮説に対する前記対応する出力ステップにおけるK個の最大ログ確率を示す上位K個の特徴であって、前記上位K個の候補仮説の各々が、前記発声の1つまたは複数のワードを形成する仮説サブワードユニットのそれぞれのシーケンスによって表される、上位K個の特徴と
    をさらに含む、請求項15または16に記載のシステム(100)。
  18. 前記サブワードユニットがワードピースを含む、請求項15から17のいずれか一項に記載のシステム(100)。
  19. 前記サブワードユニットが書記素を含む、請求項15から18のいずれか一項に記載のシステム(100)。
  20. 前記音声認識装置(200)が、
    第1のパス(206)の間、複数の候補仮説を生成するように構成された変換器復号器モデル(220)であって、個々の候補仮説が前記発声(12)のための候補表現形式に対応し、仮説サブワードユニットのそれぞれのシーケンスによって表される、変換器復号器モデル(220)と、
    第2のパス(208)の間、前記第1のパスの間に前記変換器復号器モデルによって生成された前記複数の候補仮説からの上位K個の候補仮説をリスコアするように構成される、リスコアラ復号器モデル(230)と
    を備え、最も高い第2のパスログ確率と関連付けられた仮説サブワードユニットの前記それぞれのシーケンスによって表される前記リスコアラ復号器モデル(230)によってリスコアされる前記上位K個の候補仮説中の候補仮説が、前記ユーザ(10)によって話された前記発声(12)に対する前記音声認識結果(232)として前記リスコアラ復号器モデル(230)から出力される、請求項15から19のいずれか一項に記載のシステム(100)。
  21. 前記変換器復号器モデル(220)が、Recurrent Neural Network-Transducer(RNN-T)モデルアーキテクチャを含み、
    前記リスコアラ復号器モデル(230)が、Listen, Attend, and Spell(LAS)モデルアーキテクチャを含む、
    請求項20に記載のシステム(100)。
  22. 前記動作が、
    前記第2のパス(208)の間、前記音声認識装置(200)の言語符号器(241)を使用して、前記第1のパス(206)の間に前記変換器復号器モデル(220)によって生成された前記複数の候補仮説の各々を符号化することによって複数の仮説符号化(243)を生成するステップと、
    前記コンフィデンス予測モジュール(300)を使用して、仮説サブワードユニットの前記シーケンス中のサブワードユニット毎に、前記複数の仮説符号化(243)に相互付随する第3のアテンション機構を使用して、言語文脈ベクトル(332)を生成するステップと
    をさらに含み、前記対応するサブワードユニットに対する前記それぞれのコンフィデンス出力スコアを生成するステップが、前記コンフィデンス予測モジュールの前記出力層による入力として受け取った前記言語文脈ベクトルにさらに基づく、請求項20または21に記載のシステム(100)。
  23. 前記複数の候補仮説の各々の符号化が、個々の候補仮説を対応する仮説符号化に双方向性符号化するステップと、
    個々の対応する仮説符号化を連結することによって前記複数の仮説符号化(243)を生成するステップとを含む、
    請求項22に記載のシステム(100)。
  24. 前記音声認識装置(200)および前記コンフィデンス予測モジュール(300)が合同で訓練される、請求項15から23のいずれか一項に記載のシステム(100)。
  25. 前記音声認識装置(200)および前記コンフィデンス予測モジュール(300)が個別に訓練される、請求項15から24のいずれか一項に記載のシステム(100)。
  26. 前記コンフィデンス予測モジュール(300)が、前記音声認識装置(200)と関連付けられた特徴に基づく二進交差エントロピー損失を使用して訓練される、請求項15から25のいずれか一項に記載のシステム(100)。
  27. 前記動作が、
    前記音声認識結果(232)に対する前記発声レベルコンフィデンススコア(350)がコンフィデンス閾値を満足しているかどうかを決定するステップと、
    前記音声認識結果(232)に対する前記発声レベルコンフィデンススコア(350)が前記コンフィデンス閾値を満足していない場合、前記発声(12)に対応する音響データ(202)を別の音声認識装置(402)に送信するステップであって、前記他の音声認識装置(402)が前記音響データ(202)を処理して前記発声(12)の表現形式(204)を生成するように構成される、ステップと
    をさらに含む、請求項15から26のいずれか一項に記載のシステム(100)。
  28. 前記音声認識装置(200)および前記コンフィデンス予測モジュール(300)がユーザコンピューティングデバイス(110)上で実行し、
    前記他の音声認識装置(402)が、ネットワークを介して前記ユーザコンピューティングデバイス(110)と通信する遠隔サーバ(410)上で実行する、
    請求項27に記載のシステム。
JP2023550664A 2021-02-23 2022-02-23 サブワードエンドツーエンド自動音声認識のための学習ワードレベルコンフィデンス Active JP7436760B1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/182,592 US11610586B2 (en) 2021-02-23 2021-02-23 Learning word-level confidence for subword end-to-end automatic speech recognition
US17/182,592 2021-02-23
PCT/US2022/017534 WO2022182769A1 (en) 2021-02-23 2022-02-23 Learning word-level confidence for subword end-to-end automatic speech recognition

Publications (2)

Publication Number Publication Date
JP7436760B1 true JP7436760B1 (ja) 2024-02-22
JP2024509515A JP2024509515A (ja) 2024-03-04

Family

ID=80739076

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023550664A Active JP7436760B1 (ja) 2021-02-23 2022-02-23 サブワードエンドツーエンド自動音声認識のための学習ワードレベルコンフィデンス

Country Status (6)

Country Link
US (1) US11610586B2 (ja)
EP (1) EP4292081A1 (ja)
JP (1) JP7436760B1 (ja)
KR (1) KR20230147685A (ja)
CN (1) CN116888662A (ja)
WO (1) WO2022182769A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230343333A1 (en) 2020-08-24 2023-10-26 Unlikely Artificial Intelligence Limited A computer implemented method for the aut0omated analysis or use of data
EP4281968A1 (en) * 2021-01-21 2023-11-29 Citrix Systems Inc. Active learning via a surrogate machine learning model using knowledge distillation
CN117043859A (zh) * 2021-03-24 2023-11-10 谷歌有限责任公司 查找表循环语言模型
JP2024512071A (ja) * 2021-03-26 2024-03-18 グーグル エルエルシー 自動音声認識のための多言語再スコアリングモデル
US11710479B1 (en) * 2021-03-31 2023-07-25 Amazon Technologies, Inc. Contextual biasing of neural language models using metadata from a natural language understanding component and embedded recent history
US11915690B1 (en) * 2021-06-17 2024-02-27 Amazon Technologies, Inc. Automatic speech recognition
US12002451B1 (en) * 2021-07-01 2024-06-04 Amazon Technologies, Inc. Automatic speech recognition
US11989507B2 (en) 2021-08-24 2024-05-21 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
US12067362B2 (en) 2021-08-24 2024-08-20 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
US12073180B2 (en) 2021-08-24 2024-08-27 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
US11989527B2 (en) 2021-08-24 2024-05-21 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
US11977854B2 (en) 2021-08-24 2024-05-07 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
US12033618B1 (en) * 2021-11-09 2024-07-09 Amazon Technologies, Inc. Relevant context determination
WO2024108071A1 (en) * 2022-11-17 2024-05-23 Google Llc End-to-end segmentation in a two-pass cascaded encoder automatic speech recognition model
CN116453507B (zh) * 2023-02-21 2023-09-08 北京数美时代科技有限公司 基于置信度模型的语音识别优化方法、系统和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009116107A (ja) 2007-11-07 2009-05-28 Canon Inc 情報処理装置及び方法
US20210020175A1 (en) 2019-07-17 2021-01-21 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus, device and computer readable storage medium for recognizing and decoding voice based on streaming attention model

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2785081C (en) * 2009-12-31 2021-03-30 Volt Delta Resources, Llc Method and system for processing multiple speech recognition results from a single utterance

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009116107A (ja) 2007-11-07 2009-05-28 Canon Inc 情報処理装置及び方法
US20210020175A1 (en) 2019-07-17 2021-01-21 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus, device and computer readable storage medium for recognizing and decoding voice based on streaming attention model

Also Published As

Publication number Publication date
US11610586B2 (en) 2023-03-21
WO2022182769A1 (en) 2022-09-01
KR20230147685A (ko) 2023-10-23
JP2024509515A (ja) 2024-03-04
US20220270597A1 (en) 2022-08-25
EP4292081A1 (en) 2023-12-20
CN116888662A (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
JP7436760B1 (ja) サブワードエンドツーエンド自動音声認識のための学習ワードレベルコンフィデンス
JP2024511176A (ja) エンドツーエンド自動音声認識コンフィデンスおよび削除推定のためのマルチタスク学習
JP2023545988A (ja) トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル
JP7554925B2 (ja) 簡略化されたストリーミングおよび非ストリーミングasr用のカスケードエンコーダ
KR20220130699A (ko) 심의 모델 기반 2패스 종단간 음성 인식
US20220310062A1 (en) Efficient Streaming Non-Recurrent On-Device End-to-End Model
JP2023524088A (ja) エンドツーエンドの複数話者重複音声認識
US11594212B2 (en) Attention-based joint acoustic and text on-device end-to-end model
US20240321263A1 (en) Emitting Word Timings with End-to-End Models
US20240203409A1 (en) Multilingual Re-Scoring Models for Automatic Speech Recognition
KR20240065125A (ko) 희귀 단어 스피치 인식을 위한 대규모 언어 모델 데이터 선택
US20240029720A1 (en) Context-aware Neural Confidence Estimation for Rare Word Speech Recognition
US20230298563A1 (en) Deliberation by Text-Only and Semi-Supervised Training
CN118339608A (zh) 实施为rnn-t的自动语音识别系统中的声学表示和文本表示的融合

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231018

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231018

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20231018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240208

R150 Certificate of patent or registration of utility model

Ref document number: 7436760

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150