JP7280382B2 - 数字列のエンドツーエンド自動音声認識 - Google Patents

数字列のエンドツーエンド自動音声認識 Download PDF

Info

Publication number
JP7280382B2
JP7280382B2 JP2021565084A JP2021565084A JP7280382B2 JP 7280382 B2 JP7280382 B2 JP 7280382B2 JP 2021565084 A JP2021565084 A JP 2021565084A JP 2021565084 A JP2021565084 A JP 2021565084A JP 7280382 B2 JP7280382 B2 JP 7280382B2
Authority
JP
Japan
Prior art keywords
transcription
sequence
training
utterance
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021565084A
Other languages
English (en)
Other versions
JP2022531414A (ja
Inventor
チャールズ・カレブ・ペイザー
ハオ・ジャン
タラ・エヌ・サイナス
ゼリン・ウー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2022531414A publication Critical patent/JP2022531414A/ja
Application granted granted Critical
Publication of JP7280382B2 publication Critical patent/JP7280382B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Description

この開示は数字列のエンドツーエンド自動音声認識に関するものである。
自動音声認識(ASR)システムには、発言の中で語られた単語を正確に反映しない転写をモデル化するという進行中の課題がある。特に、住所、電話番号、および郵便番号などの数値の発言は、文字領域の長い数字列に固有の語彙外問題のために、転写のモデル化に関する特に困難な要素である。トレーニングデータには長い数字列がありそうもないので、これはデータ希薄の結果である。
たとえば10桁の数には1010の可能なインスタンスがあるので、長い数字列に関して十分な量のトレーニングデータを得るのは困難である。たとえば10桁の電話番号については、トレーニングにおいて、いかなる特定の電話番号のトレーニングデータも、まったくないか、または十分にはないと思われる。
最近、ストリーミング、再帰型ニューラルネットワークトランスデューサ(RNN-T)、エンドツーエンド(E2E)モデルは、オンデバイス音声認識に関して大いに有望であることが示されており、従来のオンデバイスモデルと比較して、ワード誤り率(WER)および待ち時間メトリックが改善されることを表している。これらのモデルは、AM、PM、およびLMを単一のネットワークに組み合わせるものであり、AM、PM、およびLMを別個に有する従来のASRシステムと比較して競争力のある結果を示した。RNN-T、E2Eモデルは、同等サイズの従来のオンデバイスモデルを性能の点で凌ぎ得るので、オンデバイスASRにとって特に魅力がある。
再帰型ニューラルネットワークトランスデューサ(RNN-T)、エンドツーエンド(E2E)モデルは、オンデバイスASRにとって魅力的であるが、重み付けされた有限状態トランスデューサ(WFST)ベースのバーバライザは、メモリフットプリントが大きいので、オンデバイス環境における音声領域トレーニングがより困難になる。本明細書によって説明される拡張ASRシステムは、数字列を伴う発言に対するエンドツーエンドモデルの性能を改善するために、テキストから音声への(TTS)システムによって生成された付加的な数値のトレーニングデータを使用し、次いで、フットプリントが小さいニューラルネットワークをFSTの代わりに使用して、非正規化または補正を実施する。そのような拡張手法は、数字列のいくつかのカテゴリにおいて測定可能な改善をもたらし、より長い数字列に対するワード誤り率(WER)を大幅に改善する。
本開示の一態様は、発言の数字列を表す最終的な転写を文字領域において生成する方法を提供するものである。この方法は、データ処理ハードウェアにおいて、数字列を含有している発言の音声データを受け取るステップと、データ処理ハードウェアによって、シーケンスツーシーケンス音声認識モデルを使用して発言の音声データを復号化し、シーケンスツーシーケンス音声認識モデルからの出力として、発言の中間の転写を生成するステップとを含む。この方法は、データ処理ハードウェアによって、ニューラル補正器/非正規化器を使用してシーケンスツーシーケンス音声認識モデルから出力された中間転写を処理し、発言の数字列を表す最終的な転写を文字領域において生成するステップをも含む。ニューラル補正器/非正規化器は、トレーニングサンプルのセットに対してトレーニングされ、それぞれのトレーニングサンプルが、対応するトレーニング発言に関する音声認識仮説と、対応するトレーニング発言のグラウンドトルース転写とを含む。対応するトレーニング発言のグラウンドトルース転写は文字領域にある。この方法は、データ処理ハードウェアによって、発言の数字列を表す最終的な転写を文字領域に出力するステップをも含む。
本開示の実装形態は、以下の任意選択の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態では、シーケンスツーシーケンス音声認識モデルから出力された中間転写は音声領域にあり、ニューラル補正器/非正規化器をトレーニングするために使用されるトレーニングサンプルのセットにおけるそれぞれのトレーニングサンプルの音声認識仮説は音声領域にある。これらの実装形態では、中間転写を処理するステップは、ニューラル補正器/非正規化器を、音声領域におけるシーケンスツーシーケンス音声認識モデルから出力された中間転写を入力として受け取って、発言の、文字領域における最終的な転写として出力を生成するように構成された文字領域の非正規化モデルとして使用するステップを含み得る。ここで、発言の、文字領域における最終的な転写は、対応する数値表現としての数字列を表す。
他の実装形態では、シーケンスツーシーケンス音声認識モデルから出力された中間転写は、文字領域にあって、数字列を数値語として表し、ニューラル補正器/非正規化器をトレーニングするために使用されるトレーニングサンプルのセットにおける各トレーニングの例の音声認識仮説は文字領域にある。これらの実装形態では、中間転写を処理するステップは、ニューラル補正器/非正規化器を、文字領域におけるシーケンスツーシーケンス音声認識モデルから出力された中間転写を入力として受け取って、初期の転写における数値語を、文字領域における数字列の対応する数値表現で置換する、補正された転写としての最終的な転写を出力として生成するように構成された、文字領域における補正モデルとして使用する。いくつかの例では、文字領域の補正モデルは、数値語を含む中間転写の第1の部分のみを処理する(非数値語を含む中間転写の残りの第2の部分は処理しない)ことによって、補正された転写としての最終的な転写を出力として生成するように構成されている。ここで、文字領域の補正モデルは、中間転写からの非数値語を、補正された転写にコピーするように構成されてよい。
いくつかの例では、データ処理ハードウェアまたはデータ処理ハードウェアと通信する遠隔コンピューティングバイスは、複数のトレーニング発言セットを取得することによって、シーケンスツーシーケンス音声認識モデルおよびニューラル補正器/非正規化器を訓練するように構成されており、複数のトレーニング発言セットは、異なるそれぞれの数値のカテゴリにそれぞれが関連付けられており、複数のそれぞれの転写テンプレートを含み、それによって、各転写テンプレートが、文字領域および数値のスロットにおいてそれぞれのデフォルトのフレーズを含む。データ処理ハードウェアまたは遠隔コンピューティングバイスは、それぞれの転写テンプレートについて、数値の1つまたは複数の合成音声表現をさらに生成し、生成された数値の1つまたは複数の合成音声表現の各々について、対応する転写テンプレートのスロットに、対応する数値の合成音声表現を挿入して、対応する転写テンプレート向けのデフォルトフレーズの可聴の表現と数値の対応する合成音声表現とを含む一意のトレーニング発言を生成する。最後に、データ処理ハードウェアまたは遠隔コンピューティングバイスは、それぞれのトレーニング発言セットの複数の転写テンプレートの各々向けに生成された数値の1つまたは複数の合成音声表現の各々について生成された一意のトレーニング発言に対して、シーケンスツーシーケンス音声認識モデルをトレーニングする。これらの例では、転写テンプレートのうちの少なくとも1つに対応するデフォルトフレーズの可聴表現は、デフォルトフレーズの匿名化された非合成音声または合成音声表現を含み得る。加えて、またはその代わりに、一意のトレーニング発言の文字領域の転写は、ニューラル補正器/非正規化器をトレーニングするために使用されるトレーニングサンプルのセットにおけるトレーニングサンプルのそれぞれのグラウンドトルース転写を含み得る。
いくつかの実装形態では、シーケンスツーシーケンス音声認識モデルは、再帰型ニューラルネットワークトランスデューサ(RNN-T)、エンドツーエンド復号化器モデルを含む。ニューラル補正器/非正規化器は、符号化器部分、タグ付け器部分、およびアテンション/復号化器部分を含み得る。符号化器部分は、シーケンスツーシーケンス音声認識モデルから出力された中間転写の符号化表現を生成するように構成されている。タグ付け器部分は、中間転写におけるそれぞれの非数値語に自明なものとしてのタグを付け、中間転写におけるそれぞれの数値語に非自明なものとしてのタグを付けるように構成されている。アテンション/復号化器部分は、タグ付け器部分からの非自明なタグを処理して、発言の数字列に関する数値表現を文字領域において取得するように構成されている。これらの実装形態では、符号化器部分は双方向の再帰型ニューラルネットワーク(BiRNN)を含み得、タグ付け器部分は再帰型ニューラルネットワーク(RNN)を含み得、アテンション/復号化器部分はBiRNNを含み得る。
本開示の別の態様は、数字列を表す最終的な転写を文字領域において生成するシステムを提供するものである。このシステムは、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを含む。データ処理ハードウェアは、メモリハードウェアに記憶された命令を実行することにより、数字列を含有している発言に関する音声データを受け取るステップと、シーケンスツーシーケンス音声認識モデルを使用して発言の音声データを復号化し、シーケンスツーシーケンス音声認識モデルからの出力として発言の中間転写を生成するステップとを含む動作を実施する。これらの動作は、ニューラル補正器/非正規化器を使用して、シーケンスツーシーケンス音声認識モデルから出力された中間転写を処理し、文字領域において、発言の数字列を表す最終的な転写を生成するステップをも含む。ニューラル補正器/非正規化器は、トレーニングサンプルのセットに対してトレーニングされ、それぞれのトレーニングサンプルが、対応するトレーニング発言に関する音声認識仮説と、対応するトレーニング発言のグラウンドトルース転写とを含む。対応するトレーニング発言のグラウンドトルース転写は文字領域にある。これらの動作は、発言の数字列を表す最終的な転写を文字領域に出力するステップをも含む。
この態様は、以下の任意選択の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態では、シーケンスツーシーケンス音声認識モデルから出力された中間転写は音声領域にあり、ニューラル補正器/非正規化器をトレーニングするために使用されるトレーニングサンプルのセットにおけるそれぞれのトレーニングサンプルの音声認識仮説は音声領域にある。これらの実装形態では、中間転写を処理するステップは、ニューラル補正器/非正規化器を、音声領域におけるシーケンスツーシーケンス音声認識モデルから出力された中間転写を入力として受け取って、発言の、文字領域における最終的な転写として出力を生成するように構成された文字領域の非正規化モデルとして使用するステップを含み得る。ここで、発言の、文字領域における最終的な転写は、対応する数値表現としての数字列を表す。
他の実装形態では、シーケンスツーシーケンス音声認識モデルから出力された中間転写は、文字領域にあって、数字列を数値語として表し、ニューラル補正器/非正規化器をトレーニングするために使用されるトレーニングサンプルのセットにおける各トレーニングの例の音声認識仮説は文字領域にある。これらの実装形態では、中間転写を処理するステップは、ニューラル補正器/非正規化器を、文字領域におけるシーケンスツーシーケンス音声認識モデルから出力された中間転写を入力として受け取って、初期の転写における数値語を、文字領域における数字列の対応する数値表現で置換する、補正された転写としての最終的な転写を出力として生成するように構成された、文字領域における補正モデルとして使用する。いくつかの例では、文字領域の補正モデルは、数値語を含む中間転写の第1の部分のみを処理する(非数値語を含む中間転写の残りの第2の部分は処理しない)ことによって、補正された転写としての最終的な転写を出力として生成するように構成されている。ここで、文字領域の補正モデルは、中間転写からの非数値語を、補正された転写にコピーするように構成されてよい。
いくつかの例では、データ処理ハードウェアまたはデータ処理ハードウェアと通信する遠隔コンピューティングバイスは、複数のトレーニング発言セットを取得することによって、シーケンスツーシーケンス音声認識モデルおよびニューラル補正器/非正規化器を訓練するように構成されており、複数のトレーニング発言セットは、異なるそれぞれの数値のカテゴリにそれぞれが関連付けられており、複数のそれぞれの転写テンプレートを含み、それによって、各転写テンプレートが、文字領域および数値のスロットにおいてそれぞれのデフォルトのフレーズを含む。データ処理ハードウェアまたは遠隔コンピューティングバイスは、それぞれの転写テンプレートについて、数値の1つまたは複数の合成音声表現をさらに生成し、生成された数値の1つまたは複数の合成音声表現の各々について、対応する転写テンプレートのスロットに、対応する数値の合成音声表現を挿入して、対応する転写テンプレート向けのデフォルトフレーズの可聴の表現と数値の対応する合成音声表現とを含む一意のトレーニング発言を生成する。最後に、データ処理ハードウェアまたは遠隔コンピューティングバイスは、それぞれのトレーニング発言セットの複数の転写テンプレートの各々向けに生成された数値の1つまたは複数の合成音声表現の各々について生成された一意のトレーニング発言に対して、シーケンスツーシーケンス音声認識モデルをトレーニングする。これらの例では、転写テンプレートのうちの少なくとも1つに対応するデフォルトフレーズの可聴表現は、デフォルトフレーズの匿名化された非合成音声または合成音声表現を含み得る。加えて、またはその代わりに、一意のトレーニング発言の文字領域の転写は、ニューラル補正器/非正規化器をトレーニングするために使用されるトレーニングサンプルのセットにおけるトレーニングサンプルのそれぞれのグラウンドトルース転写を含み得る。
いくつかの実装形態では、シーケンスツーシーケンス音声認識モデルは、再帰型ニューラルネットワークトランスデューサ(RNN-T)、エンドツーエンド復号化器モデルを含む。ニューラル補正器/非正規化器は、符号化器部分、タグ付け器部分、およびアテンション/復号化器部分を含み得る。符号化器部分は、シーケンスツーシーケンス音声認識モデルから出力された中間転写の符号化表現を生成するように構成されている。タグ付け器部分は、中間転写におけるそれぞれの非数値語に自明なものとしてのタグを付け、中間転写におけるそれぞれの数値語に非自明なものとしてのタグを付けるように構成されている。アテンション/復号化器部分は、タグ付け器部分からの非自明なタグを処理して、発言の数字列に関する数値表現を文字領域において取得するように構成されている。これらの実装形態では、符号化器部分は双方向の再帰型ニューラルネットワーク(BiRNN)を含み得、タグ付け器部分は再帰型ニューラルネットワーク(RNN)を含み得、アテンション/復号化器部分はBiRNNを含み得る。
本開示の1つまたは複数の実装形態の詳細が、添付図面および以下の記述で説明される。他の態様、特徴、および利点は、説明および図面ならびに特許請求の範囲から明らかになる。
数字列の認識を強化するためのニューラル補正器/非正規化器を含む音声認識システムの概略図である。 再帰型ニューラルネットワークトランスデューサ(RNN-T)モデルアーキテクチャの概略図である。 音声認識モデルから出力された文字領域の転写を補正するニューラル補正器/非正規化器の概略図である。 ニューラル補正器/非正規化器をトレーニングするための例示のトレーニング処理の概略図である。 数字列を表す最終的な転写を文字領域において生成する方法に関する動作の例示の配置の流れ図である。 本明細書で説明されたシステムおよび方法を実装するために使用され得る例示のコンピューティングデバイスの概略図である。
様々な図面において同じ参照符号は同じ要素を示す。
ユーザが「私の電話番号は650-555-1212です」という一連の単語を語ると、ASRシステムは、語られた数字列の転写を、いわゆる「音声領域」では、すなわち、それらの単語を、実際に語られたように(「私の電話番号は6505551212です」)と出力することができ、いわゆる「文字領域」では、すなわち、それらの単語を、文書で(「私の電話番号は650-555-1212」です)と再現するように出力することができる。時には、ASRシステムは、数字列の転写を文字領域に出力することができるが、転写は、数字列を、意図されたような対応する数値表現(たとえば「650-555-1212」)ではなく、数値語(たとえば「6505551212」)として表すことができる。住所、電話番号および郵便番号に含まれるものなどの他の数字列は、多くの場合、異なる音声領域の転写および文字領域の転写を有する。
特に、トレーニング中に、文字領域の長い数字列に固有の語彙外(「OOV」)問題のために同一の数字列が参照されないとき、ASRシステムにとって、適切な数字列を用いて発言を転写することの難易度が高くなる可能性がある。この問題は、データ希薄問題、すなわちトレーニングデータにおける十分に長い数字列の不足のために生じる。
たとえば10桁の数には1010の可能なインスタンスがあるので、長い数字列に関して十分な量のトレーニングデータを得るのは困難である。たとえば10桁の電話番号については、トレーニングにおいて、いかなる特定の電話番号のトレーニングデータも、まったくないか、または十分にはないと思われる。
従来のASRシステムでは、OOV問題は、数字列が語彙内の1字1字綴られた数字(たとえば数値語)から成る音声領域発言に対して、ASRシステムの音響モデル(AM)および/または発音モデル(PM)をトレーニングし、次いで、クラスベースの言語モデル(LM)の前に、重み付けされた有限状態トランスデューサ(WFST)バーバライザを挿入して、音声領域の結果を文字領域へと補正する(または「非正規化する」すなわち「非正規化する」)ことによって対処される。残念ながら、オンデバイスASRはメモリ制限が小さいので、従来のASRモデルおよびWFSTバーバライザは適切ではない。さらに、バーバライザおよびクラスベースのLMはルールの所定のセットを使用するので、これらのコンポーネントは、トレーニングデータの変化に対してうまくスケーリングできない。
最近、ストリーミング、再帰型ニューラルネットワークトランスデューサ(RNN-T)、エンドツーエンド(E2E)モデルは、オンデバイス音声認識に関して大いに有望であることが示されており、従来のオンデバイスモデルと比較して、ワード誤り率(WER)および待ち時間メトリックが改善されることを表している。これらのモデルは、AM、PM、およびLMを単一のネットワークに組み合わせるものであり、AM、PM、およびLMを別個に有する従来のASRシステムと比較して競争力のある結果を示した。RNN-T、E2Eモデルは、同等サイズの従来のオンデバイスモデルを性能の点で凌ぎ得るので、オンデバイスASRにとって特に魅力がある。
図1を参照して、いくつかの実装形態では、自動音声認識(ASR)システム100は数字列を認識するように強化される。示された例では、ASRシステム100は、ユーザ104のユーザデバイス102および/またはユーザデバイスと通信する遠隔コンピューティングバイス201(たとえばクラウドコンピューティング環境において実行する分散システムの1つまたは複数のサーバ)上に存在する。ユーザデバイス102は、モバイルコンピューティングデバイス(たとえばスマートフォン)として表されているが、タブレットデバイス、ラップトップ/デスクトップコンピュータ、ウェアラブルデバイス、デジタルアシスタントデバイス、スマートスピーカ/ディスプレイ、スマート器具、自動車の情報娯楽システム、またはモノのインターネット(IoT)デバイスなどの任意のタイプのコンピューティングデバイスに制限なく対応し得る。
ユーザデバイス102が含む音声サブシステム108は、ユーザ104の発言106を受け取って(たとえば、ユーザデバイス102は、発言106を録音するための1つまたは複数のマイクロフォンを含み得る)、発言106を、ASRシステム100によって処理され得るパラメータ化された入力音響フレーム110に関連する、対応するデジタルフォーマットに変換するように構成されている。示された例では、ユーザは、転写されるフレーズに関するそれぞれの発言106を、音声領域において「私の電話番号は6505551212です」と語り、音声サブシステム108が、発言106を、ASRシステム100に対する入力用に、対応する音響フレーム110に変換する。たとえば、音響フレーム110は、一連のパラメータ化された入力音響フレームであり得、それぞれが、80次元のログメル特徴を含み、たとえば25ミリ秒の短いウィンドウを用い、たとえばわずか10ミリ秒ごとにシフトして計算される。
その後、ASRシステム100は、入力として、発言106に対応する音響フレーム110を受け取り、出力として、文字領域において、発言106に対応する転写(たとえば認識結果/仮説)120すなわち「私の電話番号は(650)555-1212です」というテキストを生成する/予測する。示された例では、ユーザデバイス102および/または遠隔コンピューティングバイス201は、ユーザデバイス102のユーザ104に発言106の転写120の表現を提示するように構成されたユーザインターフェース生成器107をも実行する。
いくつかの構成では、ASRシステム100から出力された転写120は、たとえばユーザデバイス102または遠隔コンピューティングバイス201上で実行する自然言語理解(NLU)モジュールによって、ユーザ命令を実行するように処理される。加えて、またはその代わりに、(たとえばユーザデバイス104または遠隔コンピューティングバイス201の任意の組合せ上で実行する)テキストから音声へのシステムが、別のデバイスによる可聴出力のために、転写を合成音声に変換してよい。たとえば、元の発言106は、ユーザ104が友人に送るメッセージに相当し得、メッセージにおける転写120は、元の発言106で伝えられるメッセージを聞くようにとの、友人への可聴出力のための合成音声に変換される。
特に、拡張ASRシステム100は復号化器200およびニューラル補正器/非正規化器300を含む。復号化器200は、パラメータ化された入力音響フレーム110を入力として受け取って、音声領域または文字領域において、発言105を表す中間転写115を出力として生成するように構成されている。ニューラル補正器/非正規化器300は、復号化器200から出力された中間転写115を受け取って、文字領域から文字領域への補正または音声領域から文字領域への非正規化のうちの1つを実施するように構成されている。たとえば、中間転写115が音声領域にあって、ニューラル補正器/非正規化器300がニューラル非正規化器として構成されているときには、ニューラル補正器/非正規化器300は、音声領域における中間転写115を入力として受け取って、文字領域における発言106の転写120、すなわち「私の電話番号は(650)555-1212です」というテキストを出力として生成するように構成されている。他方では、中間転写115が文字領域にあって、ニューラル補正器/非正規化器300がニューラル補正器として構成されているときには、ニューラル補正器/非正規化器300は、文字領域における中間転写115を入力として受け取って、発言106に関する「補正された」文字領域の転写としての転写120を出力として生成するように構成されている。ここで、文字領域における中間転写115は、数値語としての数字列を「6505551212」と1字1字綴られるように表し得、それによって、ニューラル補正器300は、復号化器200から出力された中間転写115からの1字1字綴られた語彙内の数値語表現を、対応する「650-555-1212」の数値表現で置換するように、文字領域において「補正された」転写120を生成する。
いくつかの実装形態では、拡張ASRシステム100は、テキストから音声への(TTS)システム412(図4)によって生成された付加的な数値のトレーニングデータ416(図4)に対してトレーニングされ、FSTベースのバーバライザの代わりにニューラル補正器/非正規化器300を使用して、数字列を有するトレーニング発言402(図4)に対するE2Eモデルの性能を改善する。そのような拡張手法は、数字列のいくつかのカテゴリにおいて測定可能な改善をもたらし、より長い数字列に対するWERを大幅に改善する。ニューラル補正器/非正規化器300は、オンデバイス環境において(たとえばユーザデバイス102上で局所的に)使用するのに適切なニューラル補正器/非正規化器300を可能にするために、フットプリントが小さいニューラルネットワークを含み、復号化器200から出力された中間転写115に対する補正または非正規化を実施する。FSTベースのバーバライザは、フットプリントが大きく、オンデバイスASR環境では小さいメモリの制約があるので使用することができない。加えて、FSTベースのバーバライザが使用するルールの所定のセットは、トレーニングデータの変化に対してうまくスケーリングできない。
図2を参照して、復号化器200が含み得るE2E、RNN-Tモデル200は、対話型アプリケーションに関連した待ち時間の制約に忠実である。RNN-Tモデル200は計算上のフットプリントが小さく、従来のASRアーキテクチャよりも所要メモリ量が少ないので、RNN-Tモデルアーキテクチャは、完全にユーザデバイス102上で音声認識を実施するのに適する(たとえば遠隔サーバと通信する必要はない)。RNN-Tモデル200は、符号化器ネットワーク210、予測ネットワーク220、および結合ネットワーク230を含む。符号化器ネットワーク210は従来のASRシステムの音響モデル(AM)にほぼ類似しており、連続式の長-短期記憶(LSTM)層の再帰型ネットワークを含む。たとえば、符号化器は、一連のd次元の特徴ベクトル(たとえば音響フレーム110(図1))x = (x1, x2,・・・, xT)を読み取って各時間ステップにおいて高次の特徴表現を生成する。ここで
Figure 0007280382000001
である。この高次の特徴表現は、
Figure 0007280382000002
と表される。
同様に、予測ネットワーク220もLSTMネットワークであり、言語モデル(LM)と同様に、最終的なSoftmax層240によってこれまでに出力された非空白記号のシーケンスy0, ..., yui-1を密な表現
Figure 0007280382000003
へと処理する。最後に、符号化器および予測ネットワーク210、220によって生成された表現が、結合ネットワーク230によってRNN-Tモデルアーキテクチャと組み合わされる。次いで、結合ネットワークは
Figure 0007280382000004
を予測し、これは次の出力記号にわたる分布である。別の言い方をすれば、結合ネットワーク230は、それぞれの出力ステップ(たとえば時間ステップ)において、可能な音声認識仮説に関する確率分布を生成する。ここで、「可能な音声認識仮説」は、それぞれが指定された自然言語における記号/文字を表す出力ラベルのセットに対応する。したがって、結合ネットワーク230は、事前に決定された出力ラベルのセットの各々の出現の可能性を表す値のセットを出力し得る。この値のセットはベクトルであり得、出力ラベルのセットに関する確率分布を指示することができる。場合によっては、出力ラベルはアルファベット文字である(たとえば個々の文字であり、可能性として句読点および他の記号である)が、出力ラベルのセットはそのように限定されない。結合ネットワーク230の出力分布は、別々の出力ラベルの各々の事後確率値を含むことができる。したがって、別々のアルファベット文字または他の記号を表す100の別々の出力ラベルがある場合には、結合ネットワーク230の出力yiは、各出力ラベルにつき1つで100の別々の確率値を含むことができる。次いで、確率分布は、(たとえばSoftmax層240による)中間転写115を判定するためのビーム検索処理において、候補の正字法の要素(たとえばアルファベット文字、ワードピース、および/または単語)に対するスコアを選択して割り当てるために使用され得る。
Softmax層240は、対応する出力ステップにおいてモデル200によって予測される次の出力記号として、分布の中で最高確率を有する出力ラベル/記号を選択するために、任意の技術を採用し得る。このように、RNN-Tモデル200は、条件付き独立性の想定を作成することなく、それぞれの記号の予測は、音響ばかりでなく、これまでに出力されたラベルのシーケンスに対しても調整される。RNN-Tモデル200は、出力記号が将来の音響フレーム110には無関係であると想定し、それによって、RNN-Tモデルをストリーミングのやり方で採用することが可能になる。
いくつかの例では、RNN-Tモデル200の符号化器ネットワーク210は8つの2,048次元のLSTM層から構成され、各LSTM層には640次元の投影層が続く。モデル待ち時間を短縮するために、符号化器の第2のLSTM層の後に短縮係数2の時短層が挿入され得る。予測ネットワーク220は2,048次元のLSTM層を2つ有し得、その各々に640次元の投影層も続く。最後に、結合ネットワーク230は640の隠れユニットをも有し得、これらに4,096ワードピースのsoftmax出力が続く。
図3は、RNN-T、拡張ASRシステム100のE2E復号化器200から受け取られた出力に対する後処理動作としてのニューラル補正またはニューラル非正規化を実施するための図1の拡張ASRシステム100のニューラル補正器/非正規化器300に関する例示のアーキテクチャを示すものである。ニューラル補正器/非正規化器300のアーキテクチャは、符号化器部分310、タグ付け器部分320、およびアテンション/復号化器部分330を含む。いくつかの例では、符号化器部分310は双方向RNN(BiRNN)であり、これは、256次元の隠れ状態を発する256ユニットを有する双方向かつ単層のゲート付き再帰型ユニット(GRU)符号化器310を含む。タグ付け器部分320は64ユニットを有する単層のGRUを含むRNNでよく、アテンション/復号化器部分330は256ユニットを有する双方向かつ単層のGRUでよい。図2は主としてニューラル補正の観点からニューラル補正器/非正規化器300を説明するものであるが、ニューラル補正器/非正規化器300は、それに加えて、またはその代わりに、ニューラル非正規化に使用され得る。示された例では、「T」は自明(trivial)を表し、「N」は非自明(non-trivial)を表し、「S」は開始(start)を表し、「C」は継続(continuation)を表す。
ニューラル補正器/非正規化器300は、ニューラル補正器として実装されたときには文字領域の補正モデル300に相当し、これは、RNN-T、E2E復号化器200によって生成された文字領域の中間転写115を入力として受け取って、補正された文字領域の転写120(たとえば最終的な転写120)を出力として生成するものである。ニューラル補正器/非正規化器300は、ニューラル非正規化器として実装されたときには文字領域の非正規化モデル300に相当し、これは、RNN-T、E2E復号化器200によって生成された音声領域の中間転写115を入力として受け取って、文字領域の転写120(たとえば最終的な転写120)を出力として生成するものである。したがって、ニューラル補正器/非正規化器300のアーキテクチャは、ニューラル補正器として実装されようと、ニューラル非正規化器として実装されようと、RNN-T、E2E復号化器200である別のシーケンスツーシーケンスモデルから出力を受け取るアテンションベースのシーケンスツーシーケンスモデルをもたらすものである。
示された例では、ニューラル補正器/非正規化器300のアーキテクチャは、補正中に、たとえば「に(私を)起こして下さい」という文字領域のフレーズの入力115における単語の多くが、単に文字領域の出力120に、たとえば「に(私を)起こして下さい」とコピーされるという事実を明らかにすることによって補正のコンテキストにさらに適合される。具体的には、タグ付け器RNN 320は、アテンション/復号化器部分330に先んじて、中間転写115の入力シーケンスにおける単語に、文字領域の転写120の出力である文字領域シーケンスに単語が単にコピーされ得る「自明」(たとえば補正は不要)、またはアテンション/復号化器部分330に単語が渡される「非自明」(たとえば補正が必要)のいずれかのタグを付けることにより、入力シーケンスに対して動作するようにトレーニングされる。文字領域の補正モデル300は、補正を実施することに加えて、第2パスの設定におけるnの最良のリストの再ランク付けにも使用され得る。
いくつかの構成では、モデル300の符号化器/タグ付け器部分303、304はすべての入力に対して動作し、約400万のパラメータを含有しているが、モデル300のアテンション/復号化器部分301は補正の印がついたテキスト範囲のみに対して動作し、約600万パラメータを含有している。このニューラル補正モデルはフットプリントが小さいので、オンデバイスのコンテキストにとって魅力的である。このモデルはTensorflowに実装され、16のバッチサイズを有し、12のグラフィック処理ユニット(GPU)上で非同期的にトレーニングされる。対照的に、ASRシステムのE2E、RNN-T復号化器200は、約114,000,000のパラメータを含む。
一例では、入力シーケンスx = {x1, ..., xI}が出力の文字領域シーケンスy = {y1, ..., yT}にマッピングされ、ここでシーケンス語彙は単語から成る。たとえば、出力ラベルに関連付けられた文字領域シーケンスにおける数字「4」および「30」は、それぞれの数字が「4時」および「30分」として1字1字綴られるように数値語として表される。BiRNN符号化器310は以下のように定義され、
Figure 0007280382000005
ここで、h = h1, ..., hIは隠された符号化器状態である。
タグ付け器RNN 320はsi = RNNtag(si-1, ti-1, hi)と定義され、ここで、s = si, ..., sIは、対応する観測すなわちタグシーケンスt = ti, ..., tIを伴う隠されたタグ付け器状態である。各タグtiは、単語が、補正が必要な新規のセグメントの始まりなのか、それとも以前のセグメントの継続なのかをモデル化するための、外積セット{trivial, non-trivial} × {start, continuation}における結合されたタグである。この改善により、連続した非自明セグメントのモデル化が可能になる。タグ付け器RNN 320の学習目標は次式で表現され得る。
Figure 0007280382000006
ここで、Pは、sの線形投影にsoftmax層が続くものと定義される。タグ付け器RNN 320をトレーニングするためのアラインメントは、入力転写115と出力転写120とに共通のサブシーケンスを判定する発見的なアラインメント技術を使用して取得され得る。これらの共通のサブシーケンスは、「自明」(たとえば補正は不要)と印を付けられる。たとえば、共通のサブシーケンスは一般に非数値語を含み得る。示された例では、タグ付け器RNN 320によって「自明」と印を付けられた/タグを付けられた共通のサブシーケンスは、単語シーケンス「に(私を)起こして下さい」を含む。ここで、「に(私を)起こして下さい」というフレーズは文字領域にあって補正は不要なので、出力にコピーされ得て、補正された文字領域の転写120の一部を形成する。
文字領域の補正モデル300は、タグ付け器RNN 320の結果を使用して、中間転写115における数値語「4時」および「30分」などの、非自明なものと印を付けられた補正されるテキスト断片を抽出する。たとえば、テキスト断片が時間sからeにわたる場合には、入力範囲{xs, ..., xe}は、コンテキストの隠れ状態
Figure 0007280382000007
および
Figure 0007280382000008
とともに、次のステージのアテンションモデルに対する入力になる。BiRNN符号化器310は、{xs, ..., xe}のRNNmidと定義される。最後に、アテンション/復号化器部分(RNNdec)330は、di,t = RNNdec(di,t-1, yi,t-1, ci,t)と定義され、ここで、ci,tは、di,t-1
Figure 0007280382000009
Figure 0007280382000010
、およびRNNmid({xs, ..., xe})のアテンション関数の結果である。2次元インデックス(i, t)は、tが、入力シーケンスにおける所与の位置i(s, e)に対して相対的なものであることを指示する。アテンション/復号化器部分330の学習目標は次式で表現され得る。
Figure 0007280382000011
したがって、タグ付け器RNN 320の結果によって、ニューラル補正器/非正規化器300のアテンション/復号化器部分330は、中間転写115におけるテキストの、たとえば関連する範囲のみといった、すべてよりも少ない部分に適用すればよくなり、それによって、精度を改善し、待ち時間、コスト、および計算費用を低減する。たとえば示された例では、補正されるテキストの関連する範囲(たとえば補正される断片)は数値語「4時」および「30分」を含み、それによって、アテンション/復号化器330は、数値表現「4:30」が最終的な転写120における数字列を表すように、「4時」および「30分」を「4:30」に補正する。特に、モデル300は、数字列に関連した通貨記号、時間用のコロンなどの適切な記号/文字をも挿入するようにトレーニングされる。ここで、コピーされた部分「に(私を)起こして下さい」の前に、補正された部分「4:30」が追加され、完全に補正された、文字領域の最終的な転写120をもたらす。
ニューラル補正器/非正規化器300のトレーニング中に、式(1)および式(2)で表現された2つの学習目標は、線形結合され得る2つの交差エントロピに変わる。ニューラル補正器/非正規化器300の推論中(すなわち復号時間)に、アテンション/復号化器部分330およびタグ付け器RNN 320はパイプラインとして働き、アテンション/復号化器部分330が使用されるのは、タグ付け器RNN 320によって必要とされたときのみ、すなわちタグ付け器RNN 320が中間転写115における単語に「非自明」(たとえば補正が必要)とのタグを付けたときのみとなる。
図1および図4を参照して、拡張ASRシステム100は、いくつかの拡張機能のうちの1つまたは複数を適用することによって、E2E、数字列に対する音声認識性能を改善することができる。たとえば、文字領域の数字列のために付加的なトレーニングデータ422を合成するTTSシステム412を使用することにより、データ希薄問題にうまく対処するために合成トレーニングデータ422が使用され得る。その際、難易度の高いカテゴリのモデルカバレッジを改善するために、難易度の高いカテゴリの数字列用に合成音声トレーニングデータ422を生成することができる。
データ希薄問題またはOOV問題は、上記のことに加えて、またはその代わりに、ニューラル補正ネットワーク(たとえばニューラル補正器/非正規化器300)を使用することによって対処され得、ニューラル補正ネットワークは、文字領域のグラウンドトルース転写/RNN-T文字領域仮説の対115、424に対してトレーニングされ、間違いを補正することを学習する。他の例では、RNN-T、E2E復号化器200は、音声領域における出力数字列に対してトレーニングされ、また非正規化して文字領域へ戻すようにトレーニングされる。様々な実装形態において、そのような手法は、文字領域の補正モデルに基づくFSTベースの非正規化器またはニューラル非正規化器を使用して実装され得る。
前述のように、いくつかの例では、ASRシステム100は、TTSシステム412を使用して文字領域の数字列用の付加的なトレーニングデータ416、422を合成し、トレーニングデータ402を強化することによる恩恵を受けることによって、RNN-T、E2E復号化器200の「ロングテール」データ希薄問題に対処する。この「ロングテール」データ希薄問題に対処するために、難易度が高い現実的な数字列を表す付加的なトレーニングデータ416、422が生成され得る。この目的のために、ログの中に頻繁に見られる、たとえばデジタルアシスタント要求または検索エンジンの数字列のカテゴリが識別され得る。
図4は、ニューラル復号化器/符号化器200を、文字領域における数字列の様々なカテゴリの表現を学習するようにトレーニングするためのさらなるトレーニングデータ416、422を取得するための例示の処理400を示すものである。遠隔コンピューティングバイス201(たとえばサーバ)は、処理400を実行し、それに応じてモデル200、300をトレーニングし得る。ステージ1において、処理400が取得する複数のトレーニング発言セット402(402A~402N)は、それぞれが、異なるそれぞれの数値のカテゴリA~Nに関連し、複数のそれぞれの転写テンプレート404(404a~404n)を含む。たとえば、異なるそれぞれの数値のカテゴリの数字列は、「日」カテゴリ、「パーセント」カテゴリ、「郵便番号」カテゴリ、「時間」カテゴリ、または「年」カテゴリを制限なく含み得る。Table 1(表1)は、特に、数値の範囲または大きさを表現するカテゴリを含む、いくつかのそのような数字列のカテゴリを示すものである。
Figure 0007280382000012
ステージ1に示された各転写テンプレート404は、文字領域におけるそれぞれのデフォルトフレーズ406および数値のスロット408を含む。それぞれの一意の転写テンプレート404におけるそれぞれのデフォルトフレーズ406は、匿名化された非合成発言からの、たとえば(語られた)「第2の目覚し時計を...にセットして下さい」といった、語られた音声サンプルを表現し得る。いくつかの例では、1つまたは複数の転写テンプレート404は、デフォルトフレーズ406の合成音声表現を生成するためにTTSシステム412に対して入力として供給される対応する文書のデフォルトフレーズ406を含み得る。ステージ2において、処理400は、それぞれの転写テンプレート404向けに、数値の1つまたは複数の合成音声表現416(たとえば(語られた)「4時30分」、(語られた)「4時31分」、(語られた)「4時32分」など)を生成し、生成された数値の1つまたは複数の合成音声表現416の各々について、対応する転写テンプレート404のスロット408に、対応する数値の合成音声表現416を挿入して、一意のトレーニング発言422を生成する。ここで、一意のトレーニング発言422は、対応する転写テンプレート404向けの、たとえば(語られた)「第2の目覚し時計を...にセットして下さい」であるデフォルトフレーズ406の可聴表現と、たとえば(語られた)「4時30分」である対応する数値の合成音声表現412とを含む。
ステージ2において、処理400は、対応するトレーニング数値入力テキスト410に基づいて数値のそれぞれの合成音声表現416を生成するために、TTSシステム412を実装し得る。TTSシステム412は、音素に対して調整されるメルスペクトログラムを生成する複数話者TTSシステムと、トレーニング中に各話者について学習されるn次元の話者埋込みとを含み得る。いくつかの例では、nは256である。ここで、予測されたメルスペクトログラムは、次いで、WaveRNNニューラルボコーダを用いて時間領域波形に逆変換され得る。合成された音声に人工ノイズを付加するためにマルチスタイルトレーニング(MTR)が使用され得る。TTSトレーニングデータは、単一の言語の話者達もしくは複数の言語の話者達から、または単一のアクセントを共有する話者達もしくは複数の異なるアクセントを有する話者達から導出された音声データを含み得る。推論中に、入力されたテキスト形式の数字列が音素にマッピングされ、話者がランダムに選択される。
その上に、ステージ2において処理400が実装し得る挿入器420は、TTSシステム412から出力された数値のそれぞれの合成音声表現416を入力として受け取って、デフォルトフレーズ406に関連した合成音声表現416をスロット408に挿入することによって、一意のトレーニング発言422を出力として供給するように構成される。そのような挿入は、音声領域における重み付けされた数値のWFST文法からの加重サンプリングを実施することによって生じ得る。スロット408は、テンプレート404ではデフォルトフレーズ406に続くものとして示されているが、デフォルトフレーズ406に先行し得、またはデフォルトフレーズ406の開始と終了との間のいかなる場所にも点在し得る。
いくつかの例では、転写テンプレート404のうちの少なくとも1つに対応するデフォルトフレーズ406の可聴表現は、匿名化された非合成音声を含む。ここで、テンプレートを生成するために使用される発言は、生成され、記憶され、または使用される前に、個人情報を取り除くように1つまたは複数のやり方で匿名化され得る。たとえば、ユーザの識別情報は、ユーザの個人情報を割り出すことができないように匿名化されてよく、あるいは、ユーザの特定の位置を割り出すことができないように、ユーザの地理的位置が、たとえば市、郵便番号、または州レベルなどの、位置情報が取得されたところに一般化されてもよい。ユーザは、自分自身に関する情報が、ASRシステム100によって収集され、かつ使用されるやり方を制御し得る。さらなる例では、転写テンプレート404のうちの少なくとも1つに対応するデフォルトフレーズ406の可聴表現は、デフォルトフレーズ406の合成された音声表現を含む。たとえば、TTSシステム412は、転写テンプレート404のうちの1つまたは複数においてそれぞれのデフォルトフレーズ406を合成してよい。
ステージ3において、処理400は、それぞれの異なるカテゴリを表現する複数のトレーニング発言セット402の各々において、複数の転写テンプレート404のそれぞれの転写テンプレート404を更新し、それぞれが同一のデフォルトフレーズ406と数値の別々の合成音声表現416とを含む1つまたは複数のそれぞれの一意のトレーニング発言422が生成される。さらに、処理400は、それぞれの一意のトレーニング発言422について並行のテキスト形式の転写424、426をも生成し得、転写424は、たとえば音声領域における(テキストの)「第2の目覚し時計を4時30分にセットして下さい」であり、転写426は、たとえば文字領域における(テキストの)「第2の目覚し時計を4:30にセットして下さい」である。この処理400は、各テンプレート404について多数回繰り返され、毎回、数字列のそのカテゴリについて一意のトレーニング発言を合成する。いくつかの例では、一意のトレーニング発言422の文字領域の転写426は、図3のニューラル補正器/非正規化器300をトレーニングするために復号化器200から出力された認識仮説115とともに使用されるグラウンドトルース転写を含む。
図1に戻って、いくつかの他の例では、ASRシステム100は音声領域トレーニングおよびFST非正規化から利益を得る。この拡張機能を用いて、RNN-T、E2E復号化器200はトレーニングセットの音声領域バージョンに対してトレーニングされ、文字領域に戻る変換は、レガシーの生成文法から導出されたFST非正規化器に残される。RNN-T、E2E復号化器をトレーニングするために、音声領域における発言の転写と文字領域における発言の転写との両方がトレーニングデータとして使用される。これらの例は、トレーニングセットからの文字領域の転写を、FSTバーバライザを通して渡し、次いで、それぞれの候補の仮説を、辞書を通すことにより、単一の音声領域の言語表現を選択して、もたらされた電話番号の数列を、発言における電話に合わせることによって取得され得る。言語表現文法を使用して取得された音声領域の転写はTTSトレーニングデータとして使用される。
さらなる例では、ASRシステム100はニューラル非正規化を使用することから利益を得る。具体的には、リソースに制限のあるデバイスにFSTベースの非正規化手法を入れるのは難易度が高いので、FSTの代わりにニューラル非正規化器も使用され得るであろう。たとえば、文字領域のニューラル補正モデルは、音声領域のトレーニングデータを消費して文字領域の出力を発行するニューラル非正規化器として言い換えるかまたは再度特徴付けることによって音声領域に適合され得る。ニューラル非正規化モデルのアーキテクチャは書面の補正モデルと同一である。
試験では、ASRシステム100は、合成されたトレーニングデータを導入することにより、特に、より短い数字列についてはレガシーシステムを上回る利益を得、ルールベースのFST非正規化器の悩ましいエラーがほぼ全面的に軽減され得る。音声領域におけるトレーニングによってOOV問題が回避されるので、トレーニングデータから非正規化のやり方を学習することによりFSTベースの音声領域モデルに見られる非正規化エラーを回避するニューラル非正規化器を使用すれば、文字領域モデルに生じるフォーマッティング問題の大部分は解決できると思われる。最後に、音声領域の非正規化手法は、実際の音声データセットの深刻な劣化をもたらさない。複数の拡張機能が一緒に使用されたとき、E2Eの性能に関する改善は、特に、より長い発言に対して最も優れていた。
図5は、発言106の数字列を表す最終的な転写120を文字領域において生成する方法500に関する動作の例示の配置の流れ図を提供するものである。ユーザデバイス102または遠隔サーバ201上に存在するデータ処理ハードウェアは、方法500の動作を実行し得る。方法500は、動作502において、数字列を含有している発言106に関する音声データ110をデータ処理ハードウェアにおいて受け取るステップを含む。方法500は、動作504において、データ処理ハードウェアによって、シーケンスツーシーケンス音声認識モデル200を使用して発言106の音声データ110を復号化し、シーケンスツーシーケンス音声認識モデル200からの出力として、発言106の中間転写115を生成するステップを含む。
方法500は、動作506において、データ処理ハードウェアによって、ニューラル補正器/非正規化器300を使用して、シーケンスツーシーケンス音声認識モデル200から出力された中間転写115を処理し、文字領域において、発言106の数字列を表す最終的な転写120を生成するステップをも含む。ニューラル補正器/非正規化器300は、トレーニングサンプル402のセットに対してトレーニングされてよく、それぞれのトレーニングサンプル402が、対応するトレーニング発言に関する音声認識仮説115と、対応するトレーニング発言のグラウンドトルース転写426とを含む。対応するトレーニング発言のグラウンドトルース転写426は文字領域にある。方法500は、動作508において、データ処理ハードウェアによって、発言106の数字列を表す最終的な転写120を文字領域に出力するステップをも含む。
ソフトウェアアプリケーション(すなわちソフトウェアリソース)は、コンピューティングデバイスにタスクを実施させるコンピュータソフトウェアを指し得る。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と称されることがある。アプリケーションの例は、限定はしないが、システム診断アプリケーション、システム管理アプリケーション、システム保全アプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲームアプリケーションを含む。
非一時的メモリは、コンピューティングデバイスが使用するために、プログラム(たとえば命令のシーケンス)またはデータ(たとえばプログラム状態情報)を、一時的または恒久的に記憶するために使用される物理デバイスでよい。非一時的メモリは、アドレス指定可能な揮発性半導体メモリおよび/または不揮発性半導体メモリでよい。不揮発性メモリの例は、限定はしないが、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラム可能読取り専用メモリ(PROM)/消去可能プログラム可能読取り専用メモリ(EPROM)/(たとえば一般的にはブートプログラムなどのファームウェア用に使用される)電子的消去可能プログラム可能読取り専用メモリ(EEPROM)を含む。揮発性メモリの例は、限定はしないが、ランダムアクセスメモリ(RAM)、動的ランダムアクセスメモリ(DRAM)、静的ランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスクまたはテープを含む。
図6は、この文書で説明されたシステムおよび方法を実装するために使用され得る例示のコンピューティングデバイス600の概略図である。コンピューティングデバイス600は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなど、デジタルコンピュータの様々な形態を表すように意図されている。ここで示された構成要素、それらの接続および関係、ならびにそれらの機能は例示でしかなく、この文書において説明されかつ/または主張された本発明の実装形態を制限するような意味はない。
コンピューティングデバイス600は、プロセッサ610、メモリ620、記憶デバイス630、メモリ620および高速拡張ポート650に接続する高速インターフェース/コントローラ640、ならびに低速バス670および記憶デバイス630に接続する低速インターフェース/コントローラ660を含む。構成要素610、620、630、640、650、および660の各々が、様々なバスを使用して相互接続されており、共通のマザーボードに取り付けられ得、または必要に応じて他のやり方で取り付けられ得る。コンピュータデバイス600の内部で実行するようにプロセッサ610によって処理され得る命令は、メモリ620または記憶デバイス630に記憶された命令を含み、グラフィカルユーザインターフェース(GUI)のグラフィカル情報を、高速インターフェース640に結合されたディスプレイ680などの外部の入出力デバイス上に表示する。他の実装形態では、必要に応じて、複数のプロセッサおよび/または複数のバスが、複数のメモリおよびメモリのタイプとともに使用され得る。また、複数のコンピューティングデバイス600が、(たとえばサーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとしての)必要な動作の一部をもたらすそれぞれのデバイスと接続されてよい。
メモリ620は、コンピューティングデバイス600の非一次的内部情報を記憶する。メモリ620は、コンピュータ可読媒体、揮発性メモリユニットまたは不揮発性メモリユニットでよい。非一時的メモリ620は、コンピューティングデバイス600が使用するために、プログラム(たとえば命令のシーケンス)またはデータ(たとえばプログラム状態情報)を、一時的または恒久的に記憶するために使用される物理デバイスでよい。不揮発性メモリの例は、限定はしないが、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラム可能読取り専用メモリ(PROM)/消去可能プログラム可能読取り専用メモリ(EPROM)/(たとえば一般的にはブートプログラムなどのファームウェア用に使用される)電子的消去可能プログラム可能読取り専用メモリ(EEPROM)を含む。揮発性メモリの例は、限定はしないが、ランダムアクセスメモリ(RAM)、動的ランダムアクセスメモリ(DRAM)、静的ランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスクまたはテープを含む。
記憶デバイス630は、コンピューティングデバイス600に対して大容量記憶を提供することができる。いくつかの実装形態では、記憶デバイス630はコンピュータ可読媒体である。多種多様な実装形態において、記憶デバイス630は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、テープデバイス、フラッシュメモリもしくは他の類似のソリッドステートメモリデバイス、または記憶エリアネットワークもしくは他の構成におけるデバイスを含むデバイスの配列であり得る。さらなる実装形態では、コンピュータプログラム製品は情報媒体で実体的に具現される。コンピュータプログラム製品は、実行されたとき上記で説明されたものなどの1つまたは複数の方法を実施する命令を含有している。情報媒体は、メモリ620、記憶デバイス630、またはプロセッサ610のメモリなどのコンピュータ可読媒体または機械可読媒体である。
高速コントローラ640が、コンピューティングデバイス600の、一定時間内に処理できる情報量に集中した動作を管理し、低速コントローラ660が、一定時間内に処理できる情報量がより少ない動作を管理する。負荷のそのような割り当ては例示でしかない。いくつかの実装形態では、高速コントローラ640は、メモリ620、(たとえばグラフィックスプロセッサまたはグラフィックスアクセラレータを介して)ディスプレイ680、および様々な拡張カード(図示せず)を受け入れ得る高速拡張ポート650に結合されている。いくつかの実装形態では、低速コントローラ660は、記憶デバイス630および低速拡張ポート690に結合されている。様々な通信ポート(たとえばUSB、Bluetooth、Ethernet、無線Ethernet)を含み得る低速拡張ポート690が、たとえばネットワークアダプタを介して、キーボード、ポインティングデバイス、スキャナ、またはスイッチもしくはルータなどのネットワークデバイスなどの1つまたは複数の入出力デバイスに結合され得る。
図に示されるように、コンピューティングデバイス600は複数の異なる形式で実装され得る。たとえば、コンピューティングデバイス600は、標準的なサーバ600aまたは複数のそのようなサーバ600aのグループ、ラップトップコンピュータ600b、またはラックサーバシステム600cの一部として、実装され得る。
本明細書で説明されたシステムおよび技術の様々な実装形態は、デジタル電子回路および/または光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはその組合せで実現され得る。これらの様々な実装形態は、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスに対して、データや命令をやり取りするように結合された専用プロセッサまたは汎用プロセッサであり得る少なくとも1つのプログラムマブルプロセッサを含むプログラマブルシステムで実行可能かつ/または解釈可能な、1つまたは複数のコンピュータプログラムにおける実装形態を含むことができる。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られている)は、プログラマブルプロセッサに対する機械命令を含み、高レベルの手続的プログラミング言語および/またはオブジェクト指向プログラミング言語、および/またはアセンブリ言語/機械語で実施され得る。本明細書で使用される「機械可読媒体」および「コンピュータ可読媒体」という用語は、プログラマブルプロセッサに機械命令および/またはデータを供給するように使用される任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置、および/またはデバイス(たとえば磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械可読信号として機械命令を受け取る機械可読媒体を含む。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令および/またはデータを供給するように使用される任意の信号を指す。
本明細書で説明された処理および論理の流れは、入力データに対して動作して出力を生成することにより機能を実施する1つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも称される1つまたは複数のプログラマブルプロセッサによって実施され得る。これらの処理および論理の流れは、たとえばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)といった専用論理回路によっても実施され得る。コンピュータプログラムを実行するのに適切なプロセッサには、例として、汎用マイクロプロセッサおよび専用マイクロプロセッサ、ならびに任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサが含まれる。一般に、プロセッサは、命令およびデータを、読み取り専用メモリもしくはランダムアクセスメモリまたはその両方から受け取ることになる。コンピュータの必須要素は、命令を遂行するためのプロセッサならびに命令およびデータを記憶するための1つまたは複数の記憶デバイスである。一般に、コンピュータは、たとえば磁気ディスク、光磁気ディスク、または光ディスクといった、データを記憶するための1つまたは複数の大容量記憶デバイスをも含むことになり、あるいは、これらからデータを受け取り、もしくはこれらへデータを転送し、またはその両方を行うために、これらに対して動作可能に結合される。しかしながら、コンピュータにはそのようなデバイスがなくてもよい。コンピュータプログラムの命令およびデータを記憶するのに適切なコンピュータ可読媒体には、例として、たとえばEPROM、EEPROM、およびフラッシュメモリデバイスといった半導体メモリデバイスと、たとえば内蔵ハードディスクまたは取外し可能ディスクといった磁気ディスクと、光磁気ディスクと、CD-ROMおよびDVD-ROMディスクとを含む、すべての形態の不揮発性記憶装置が含まれる。プロセッサおよび記憶装置は、専用論理回路を追加され得、または専用論理回路に組み込まれ得る。
本開示の1つまたは複数の態様は、ユーザとの対話を提供するために、ユーザに情報を表示するためのたとえばCRT(ブラウン管)、LCD(液晶ディスプレイ)モニタ、またはタッチスクリーンといった表示デバイス、また任意選択で、ユーザがコンピュータに入力することができるキーボード、たとえばマウスまたはトラックボールといったポインティングデバイスを有するコンピュータ上で実施され得る。ユーザとの対話を提供するために、他の種類のデバイスも同様に使用され得、たとえば、ユーザに提供されるフィードバックは、たとえば視覚フィードバック、聴覚フィードバック、触覚フィードバックといった任意の形式の感覚フィードバックであり得、また、ユーザからの入力は、音響、音声、または触覚の入力を含む任意の形式で受け取られ得る。加えて、コンピュータは、ユーザが使用しているデバイスとの間でドキュメントを送受することにより、たとえばウェブブラウザから受け取った要求に応答してユーザのクライアントデバイス上のウェブブラウザにウェブページを送ることによって、ユーザと対話することができる。
複数の実施態様が説明されてきた。しかし、本開示の趣旨および範囲から逸脱することなく、様々な変更形態が作製され得ることが理解されよう。したがって、他の実装形態は、以下の特許請求の範囲内にある。
100 自動音声認識(ASR)システム
102 ユーザデバイス
104 ユーザ
106 発言
107 ユーザインターフェース生成器
108 音声サブシステム
110 入力音響フレーム
115 中間転写
120 転写
200 RNN-Tモデル
201 遠隔コンピューティングバイス
210 符号化器ネットワーク
220 予測ネットワーク
230 結合ネットワーク
240 Softmax層
300 ニューラル補正器/非正規化器
310 符号化器部分
320 タグ付け器部分
330 アテンション/復号化器部分
400 処理
402 トレーニング発言セット
402A-N トレーニング発言セット
404 転写テンプレート
404a 転写テンプレート
404n 転写テンプレート
406 デフォルトフレーズ
406a デフォルトフレーズ
408 スロット
410 トレーニング数値入力テキスト
412 TTSシステム
416 合成音声表現
416a 合成音声表現
416b 合成音声表現
416c 合成音声表現
422 一意のトレーニング発言
422a 一意のトレーニング発言
422b 一意のトレーニング発言
422c 一意のトレーニング発言
424 テキスト形式の転写
426 テキスト形式の転写
600 コンピューティングデバイス
600a サーバ
600b ラップトップコンピュータ
600c ラックサーバシステム
610 プロセッサ
620 メモリ
630 記憶デバイス
640 高速インターフェース/コントローラ
650 高速拡張ポート
660 低速インターフェース/コントローラ
670 低速バス
680 ディスプレイ
690 低速拡張ポート

Claims (26)

  1. データ処理ハードウェア(610)において、数字列を含有している発言(106)の音声データ(110)を受け取るステップと、
    前記データ処理ハードウェア(610)によって、シーケンスツーシーケンス音声認識モデル(200)を使用して前記発言(106)の前記音声データ(110)を復号化し、前記シーケンスツーシーケンス音声認識モデル(200)からの出力として、前記発言(106)の中間転写(115)を生成するステップと、
    前記データ処理ハードウェア(610)によって、トレーニングサンプルのセットに対してトレーニングされたニューラル補正器/非正規化器(300)を使用して、前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)を処理し、前記発言(106)の前記数字列を表現する最終的な転写(120)を文字領域において生成するステップであって、各トレーニングサンプルが、対応するトレーニング発言(422)に関する音声認識仮説(115)および前記対応するトレーニング発言(422)のグラウンドトルース転写(424)を含み、前記対応するトレーニング発言(422)の前記グラウンドトルース転写(424)が前記文字領域にあり、前記ニューラル補正器/非正規化器(300)が、
    前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)の符号化表現を生成するように構成された符号化器部分(310)と、
    前記中間転写(115)におけるそれぞれの非数値語に自明なものとしてのタグを付け、前記中間転写(115)におけるそれぞれの数値語に非自明なものとしてのタグを付けるように構成されたタグ付け器部分(320)と、
    前記タグ付け器部分からの非自明なタグを処理して、前記発言(106)の数字列に関する数値表現を文字領域において取得するように構成されたアテンション/復号化器部分(330)とを備える、ステップと、
    前記データ処理ハードウェア(610)によって、出力のために、前記文字領域に、前記発言(106)の前記数字列を表現する前記最終的な転写(120)を供給するステップと
    を含む方法(500)。
  2. 前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)が音声領域にあり、
    前記ニューラル補正器/非正規化器(300)をトレーニングするために使用される前記トレーニングサンプルのセットにおけるそれぞれのトレーニングサンプルの前記音声認識仮説が前記音声領域にある、請求項1に記載の方法(500)。
  3. 前記中間転写(115)を処理するステップが、文字領域の非正規化モデルとして前記ニューラル補正器/非正規化器(300)を使用するステップを含み、前記ニューラル補正器/非正規化器(300)が、
    前記音声領域における前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)を入力として受け取って、
    前記文字領域における前記発言(106)の前記数字列を対応する数値表現として表現するものである前記最終的な転写(120)を出力として生成するように構成されている、請求項2に記載の方法(500)。
  4. 前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)が、前記文字領域にあって、前記数字列を数値語として表し、
    前記ニューラル補正器/非正規化器(300)をトレーニングするために使用される前記トレーニングサンプルのセットにおける各トレーニングの例の前記音声認識仮説が前記文字領域にある、請求項1から3のいずれか一項に記載の方法(500)。
  5. 前記中間転写(115)を処理するステップが、文字領域の補正モデルとして前記ニューラル補正器/非正規化器(300)を使用するステップを含み、前記ニューラル補正器/非正規化器(300)が、
    前記文字領域における前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)を入力として受け取って、
    初期の転写における数値語を、前記文字領域における前記数字列の対応する数値表現で置換する補正された転写としての前記最終的な転写(120)を出力として生成するように構成されている、請求項4に記載の方法(500)。
  6. 前記文字領域の補正モデルが、前記数値語を含む前記中間転写(115)の第1の部分のみを処理する(非数値語を含む前記中間転写(115)の残りの第2の部分は処理しない)ことによって、前記補正された転写としての前記最終的な転写(120)を出力として生成するように構成されている、請求項5に記載の方法(500)。
  7. 前記文字領域の補正モデルが、前記中間転写(115)からの前記非数値語を、前記補正された転写にコピーするように構成されている、請求項6に記載の方法(500)。
  8. 前記データ処理ハードウェア(610)または前記データ処理ハードウェア(610)と通信する遠隔コンピューティングバイス(201)が、
    複数のトレーニング発言のセット(402)を取得するステップであって、それぞれのトレーニング発言のセット(402)が、異なるそれぞれの数値のカテゴリに関連付けられており、複数のそれぞれの転写テンプレート(404)を含み、各転写テンプレート(404)が、前記文字領域におけるそれぞれのデフォルトフレーズ(406)および数値スロット(408)を含む、ステップと、
    各転写テンプレート(404)について、
    数値の1つまたは複数の合成音声表現(416)を生成するステップと、
    生成された数値の前記1つまたは複数の合成音声表現(416)の各々について、前記対応する転写テンプレート(404)の前記数値スロット(408)に、数値の前記対応する合成音声表現(416)を挿入して、数値の前記対応する転写テンプレート(404)向けの前記デフォルトフレーズ(406)の可聴表現および前記対応する合成音声表現(416)を含む一意のトレーニング発言(106)を生成するステップと、
    前記シーケンスツーシーケンス音声認識モデル(200)を、各トレーニング発言セット(402)の前記複数の転写テンプレート(404)の各々向けに生成された数値の前記1つまたは複数の合成音声表現(416)の各々について生成された、前記一意のトレーニング発言(422)に対してトレーニングするステップと
    によって、前記シーケンスツーシーケンス音声認識モデル(200)および前記ニューラル補正器/非正規化器(300)をトレーニングするように構成されている、請求項1から7のいずれか一項に記載の方法(500)。
  9. 前記転写テンプレート(404)のうちの少なくとも1つに対応する前記デフォルトフレーズ(406)の前記可聴表現が、匿名化された非合成音声を含む、請求項8に記載の方法(500)。
  10. 前記転写テンプレート(404)のうちの少なくとも1つに対応する前記デフォルトフレーズ(406)の前記可聴表現が、前記デフォルトフレーズの合成音声表現を含む、請求項8または9に記載の方法(500)。
  11. 前記一意のトレーニング発言(422)の文字領域の転写が、前記ニューラル補正器/非正規化器(300)をトレーニングするために使用される前記トレーニングサンプルの前記セットにおける前記トレーニングサンプルのそれぞれの前記グラウンドトルース転写(424)を含む、請求項8から10のいずれか一項に記載の方法(500)。
  12. 前記シーケンスツーシーケンス音声認識モデル(200)が、再帰型ニューラルネットワークトランスデューサ(RNN-T)、エンドツーエンド復号化器モデルを備える、請求項1から11のいずれか一項に記載の方法(500)
  13. 記符号化器部分(310)が双方向の再帰型ニューラルネットワーク(BiRNN)を備え、
    前記タグ付け器部分(320)が再帰型ニューラルネットワーク(RNN)を備え、
    前記アテンション/復号化器部分(330)がBiRNNを備える、請求項1に記載の方法(500)。
  14. データ処理ハードウェア(610)と、
    前記データ処理ハードウェア(610)と通信するメモリハードウェア(620)とを備えるシステム(600)であって、前記メモリハードウェア(620)が命令を記憶しており、前記命令が前記データ処理ハードウェアによって実行されると、前記データ処理ハードウェアが、
    数字列を含有している発言(106)の音声データ(110)を受け取るステップと、
    シーケンスツーシーケンス音声認識モデル(200)を使用して前記発言(106)の前記音声データ(110)を復号化し、前記シーケンスツーシーケンス音声認識モデル(200)からの出力として、前記発言(106)の中間転写(115)を生成するステップと、
    トレーニングサンプルのセットに対してトレーニングされたニューラル補正器/非正規化器(300)を使用して、前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)を処理し、前記発言(106)の前記数字列を表現する最終的な転写(120)を文字領域において生成するステップであって、各トレーニングサンプルが、対応するトレーニング発言(422)に関する音声認識仮説(115)および前記対応するトレーニング発言(422)のグラウンドトルース転写(424)を含み、前記対応するトレーニング発言(422)の前記グラウンドトルース転写(424)が前記文字領域にあ
    前記ニューラル補正器/非正規化器(300)が、
    前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)の符号化表現を生成するように構成された符号化器部分(310)と、
    前記中間転写(115)におけるそれぞれの非数値語に自明なものとしてのタグを付け、前記中間転写(115)におけるそれぞれの数値語に非自明なものとしてのタグを付けるように構成されたタグ付け器部分(320)と、
    前記タグ付け器部分からの非自明なタグを処理して、前記発言(106)の数字列に関する数値表現を文字領域において取得するように構成されたアテンション/復号化器部分(330)と、を備える、ステップと、
    前記発言(106)の前記数字列を表現する前記最終的な転写(120)を、前記文字領域において出力用に供給するステップと
    を含む動作を実施する、システム(600)。
  15. 前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)が音声領域にあり、
    前記ニューラル補正器/非正規化器(300)をトレーニングするために使用される前記トレーニングサンプルのセットにおけるそれぞれのトレーニングサンプルの前記音声認識仮説が前記音声領域にある、請求項14に記載のシステム(600)。
  16. 前記中間転写(115)を処理するステップが、文字領域の非正規化モデルとして前記ニューラル補正器/非正規化器(300)を使用するステップを含み、前記ニューラル補正器/非正規化器(300)が、
    前記音声領域における前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)を入力として受け取って、
    前記文字領域における前記発言(106)の前記数字列を対応する数値表現として表現するものである前記最終的な転写(120)を出力として生成するように構成されている、請求項15に記載のシステム(600)。
  17. 前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)が、前記文字領域にあって、前記数字列を数値語として表し、
    前記ニューラル補正器/非正規化器(300)をトレーニングするために使用される前記トレーニングサンプルのセットにおける各トレーニングの例の前記音声認識仮説が前記文字領域にある、請求項14から16のいずれか一項に記載のシステム(600)。
  18. 前記中間転写(115)を処理するステップが、文字領域の補正モデルとして前記ニューラル補正器/非正規化器(300)を使用するステップを含み、前記ニューラル補正器/非正規化器(300)が、
    前記文字領域における前記シーケンスツーシーケンス音声認識モデル(200)から出力された前記中間転写(115)を入力として受け取って、
    初期の転写における数値語を、前記文字領域における前記数字列の対応する数値表現で置換する、補正された転写(120)としての前記最終的な転写を出力として生成するように構成されている、請求項17に記載のシステム(600)。
  19. 前記文字領域の補正モデルが、前記数値語を含む前記中間転写(115)の第1の部分のみを処理する(非数値語を含む前記中間転写(115)の残りの第2の部分は処理しない)ことによって、前記補正された転写としての前記最終的な転写(120)を出力として生成するように構成されている、請求項18に記載のシステム(600)。
  20. 前記文字領域の補正モデルが、前記中間転写(115)からの前記非数値語を、前記補正された転写にコピーするように構成されている、請求項19に記載のシステム(600)。
  21. 前記データ処理ハードウェア(610)または前記データ処理ハードウェア(610)と通信する遠隔コンピューティングバイス(201)が、
    複数のトレーニング発言のセット(402)を取得するステップであって、それぞれのトレーニング発言のセット(402)が、異なるそれぞれの数値のカテゴリに関連付けられており、複数のそれぞれの転写テンプレート(404)を含み、
    各転写テンプレート(404)が、前記文字領域におけるそれぞれのデフォルトフレーズ(406)および数値スロット(408)を含む、ステップと、
    各転写テンプレート(404)について、
    数値の1つまたは複数の合成音声表現(416)を生成するステップと、
    生成された数値の前記1つまたは複数の合成音声表現(416)の各々について、前記対応する転写テンプレート(404)の前記数値スロット(408)に、数値の前記対応する合成音声表現(416)を挿入して、数値の前記対応する転写テンプレート(404)向けの前記デフォルトフレーズ(406)の可聴表現および前記対応する合成音声表現(416)を含む、一意のトレーニング発言(106)を生成するステップと、
    前記シーケンスツーシーケンス音声認識モデル(200)を、各トレーニング発言セット(402)の前記複数の転写テンプレート(404)の各々向けに生成された、数値の前記1つまたは複数の合成音声表現(416)の各々について生成された、前記一意のトレーニング発言(422)に対してトレーニングするステップと
    によって、前記シーケンスツーシーケンス音声認識モデル(200)および前記ニューラル補正器/非正規化器(300)をトレーニングするように構成されている、請求項14から20のいずれか一項に記載のシステム(600)。
  22. 前記転写テンプレート(404)のうちの少なくとも1つに対応する前記デフォルトフレーズ(406)の前記可聴表現が、匿名化された非合成音声を含む、請求項21に記載のシステム(600)。
  23. 前記転写テンプレート(404)のうちの少なくとも1つに対応する前記デフォルトフレーズ(406)の前記可聴表現が、前記デフォルトフレーズの合成音声表現を含む、請求項21または22に記載のシステム(600)。
  24. 前記一意のトレーニング発言(422)の文字領域の転写が、前記ニューラル補正器/非正規化器(300)をトレーニングするために使用される前記トレーニングサンプルの前記セットにおける前記トレーニングサンプルのそれぞれの前記グラウンドトルース転写(424)を含む、請求項21から23のいずれか一項に記載のシステム(600)。
  25. 前記シーケンスツーシーケンス音声認識モデル(200)が、再帰型ニューラルネットワークトランスデューサ(RNN-T)、エンドツーエンド復号化器モデルを備える、請求項14から24のいずれか一項に記載のシステム(600)
  26. 記符号化器部分(310)が双方向の再帰型ニューラルネットワーク(BiRNN)を備え、
    前記タグ付け器部分(320)が再帰型ニューラルネットワーク(RNN)を備え、
    前記アテンション/復号化器部分(330)がBiRNNを備える、請求項14に記載のシステム(600)。
JP2021565084A 2019-05-03 2020-03-26 数字列のエンドツーエンド自動音声認識 Active JP7280382B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962842566P 2019-05-03 2019-05-03
US62/842,566 2019-05-03
PCT/US2020/025036 WO2020226777A1 (en) 2019-05-03 2020-03-26 End-to-end automated speech recognition on numeric sequences

Publications (2)

Publication Number Publication Date
JP2022531414A JP2022531414A (ja) 2022-07-06
JP7280382B2 true JP7280382B2 (ja) 2023-05-23

Family

ID=70334123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021565084A Active JP7280382B2 (ja) 2019-05-03 2020-03-26 数字列のエンドツーエンド自動音声認識

Country Status (6)

Country Link
US (1) US11367432B2 (ja)
EP (1) EP3948853A1 (ja)
JP (1) JP7280382B2 (ja)
KR (1) KR20210146368A (ja)
CN (1) CN113811946B (ja)
WO (1) WO2020226777A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200365143A1 (en) * 2018-02-02 2020-11-19 Nippon Telegraph And Telephone Corporation Learning device, learning method, and learning program

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11990134B2 (en) * 2020-03-18 2024-05-21 Sas Institute Inc. Method for configuring and using a numeric-to-alphabetic expression machine learning model
CN113470662B (zh) * 2020-03-31 2024-08-27 微软技术许可有限责任公司 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配
US11657799B2 (en) * 2020-04-03 2023-05-23 Microsoft Technology Licensing, Llc Pre-training with alignments for recurrent neural network transducer based end-to-end speech recognition
US11715461B2 (en) * 2020-10-21 2023-08-01 Huawei Technologies Co., Ltd. Transformer-based automatic speech recognition system incorporating time-reduction layer
CN112580370B (zh) * 2020-12-24 2023-09-26 内蒙古工业大学 一种融合语义知识的蒙汉神经机器翻译方法
US11908458B2 (en) * 2020-12-29 2024-02-20 International Business Machines Corporation Customization of recurrent neural network transducers for speech recognition
US20220284193A1 (en) * 2021-03-04 2022-09-08 Tencent America LLC Robust dialogue utterance rewriting as sequence tagging
US20220319506A1 (en) * 2021-03-31 2022-10-06 Chief Chief Technologies Oy Method and system for performing domain adaptation of end-to-end automatic speech recognition model
WO2022261808A1 (en) * 2021-06-15 2022-12-22 Microsoft Technology Licensing, Llc Contextual spelling correction (csc) for automatic speech recognition (asr)
WO2023278952A1 (en) * 2021-06-30 2023-01-05 Google Llc Injecting text in self-supervised speech pre-training
US12014725B2 (en) * 2021-09-30 2024-06-18 Google Llc Large-scale language model data selection for rare-word speech recognition
CN118696371A (zh) * 2021-10-05 2024-09-24 谷歌有限责任公司 优化Conformer的推理性能
US20230136842A1 (en) * 2021-11-03 2023-05-04 International Business Machines Corporation Training data sequence for rnn-t based global english model
US20230197064A1 (en) * 2021-12-17 2023-06-22 Snap Inc. Speech to entity
EP4227938A1 (en) * 2022-02-09 2023-08-16 Nuance Communications, Inc. Automatic canonicalization in a semantic tagger and speech-to-text pipeline
US20230335125A1 (en) * 2022-04-14 2023-10-19 Google Llc Personalizable Probabilistic Models
US20230335124A1 (en) * 2022-04-14 2023-10-19 Google Llc Comparison Scoring For Hypothesis Ranking
FI20225352A1 (en) * 2022-04-27 2023-10-28 Elisa Oyj COMPUTER METHOD OF GETTING AT LEAST ONE NUMBER
CN115132208A (zh) * 2022-07-07 2022-09-30 湖南三湘银行股份有限公司 一种基于ctc算法构建的人工智能催收方法
WO2024096641A1 (ko) * 2022-11-02 2024-05-10 삼성전자 주식회사 전자 장치 및 전자 장치의 음성 인식 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020030367A (ja) 2018-08-24 2020-02-27 日本放送協会 音声認識結果整形モデル学習装置およびそのプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19709990C2 (de) * 1997-03-11 2000-03-02 Philips Corp Intellectual Pty System zur Erkennung gesprochener Ziffernfolgen
US10332509B2 (en) * 2015-11-25 2019-06-25 Baidu USA, LLC End-to-end speech recognition
US10229672B1 (en) * 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法
US10872598B2 (en) * 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020030367A (ja) 2018-08-24 2020-02-27 日本放送協会 音声認識結果整形モデル学習装置およびそのプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YANZHANG HE; ET AL,STREAMING END-TO-END SPEECH RECOGNITION FOR MOBILE DEVICES,ICASSP 2019 - 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP),IEEE,2019年04月17日,PAGE(S):6381-6385,https://doi.org/10.1109/ICASSP.2019.8682336

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200365143A1 (en) * 2018-02-02 2020-11-19 Nippon Telegraph And Telephone Corporation Learning device, learning method, and learning program

Also Published As

Publication number Publication date
WO2020226777A1 (en) 2020-11-12
CN113811946A (zh) 2021-12-17
KR20210146368A (ko) 2021-12-03
EP3948853A1 (en) 2022-02-09
CN113811946B (zh) 2024-07-16
US11367432B2 (en) 2022-06-21
JP2022531414A (ja) 2022-07-06
US20200349922A1 (en) 2020-11-05

Similar Documents

Publication Publication Date Title
JP7280382B2 (ja) 数字列のエンドツーエンド自動音声認識
JP7092953B2 (ja) エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析
CN117099157A (zh) 用于端到端自动语音识别置信度和删除估计的多任务学习
JP7544989B2 (ja) ルックアップテーブルリカレント言語モデル
JP7502561B2 (ja) 言語間音声合成を改良するための音声認識の使用
WO2023055410A1 (en) Contrastive siamese network for semi-supervised speech recognition
KR20240089276A (ko) 다중 언어 자동 스피치 인식을 위한 공동 비지도 및 지도 트레이닝
US20220310065A1 (en) Supervised and Unsupervised Training with Contrastive Loss Over Sequences
KR20240051176A (ko) 스피치 합성 기반 모델 적응을 통한 스피치 인식 개선하기
JP2024512606A (ja) 自己アライメントを用いたストリーミングasrモデル遅延の短縮
Azim et al. Using Character-Level Sequence-to-Sequence Model for Word Level Text Generation to Enhance Arabic Speech Recognition
CN117378005A (zh) 用于自动语音识别的多语言重新评分模型
US20240013777A1 (en) Unsupervised Data Selection via Discrete Speech Representation for Automatic Speech Recognition
US20240177706A1 (en) Monte Carlo Self-Training for Speech Recognition
JP2024538019A (ja) 多言語自動音声認識のための教師無しおよび教師有り共同トレーニング(just)
CN115114933A (zh) 用于文本处理的方法、装置、设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230417

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230511

R150 Certificate of patent or registration of utility model

Ref document number: 7280382

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150