JP7222153B1 - デリバレーションモデルベースの2パスのエンド・ツー・エンド音声認識 - Google Patents

デリバレーションモデルベースの2パスのエンド・ツー・エンド音声認識 Download PDF

Info

Publication number
JP7222153B1
JP7222153B1 JP2022544204A JP2022544204A JP7222153B1 JP 7222153 B1 JP7222153 B1 JP 7222153B1 JP 2022544204 A JP2022544204 A JP 2022544204A JP 2022544204 A JP2022544204 A JP 2022544204A JP 7222153 B1 JP7222153 B1 JP 7222153B1
Authority
JP
Japan
Prior art keywords
decoder
encoder
hypothesis
context vector
pass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022544204A
Other languages
English (en)
Other versions
JP2023513430A (ja
Inventor
フー、キー
エヌ. サイナス、ターラ
パン、ルオミン
プラカーシュ プラバーバルカル、ロヒット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Priority to JP2023014655A priority Critical patent/JP7488381B2/ja
Application granted granted Critical
Publication of JP7222153B1 publication Critical patent/JP7222153B1/ja
Publication of JP2023513430A publication Critical patent/JP2023513430A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Character Discrimination (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

2パスのデリバレーションアーキテクチャを使用して音声認識を実行する方法は、第1のパスの仮説およびエンコードされた音響フレームを受信すること、および仮説エンコーダにおいて、第1のパスの仮説をエンコードすることを含む。第1のパスの仮説は、エンコードされた音響フレームに対してリカレントニューラルネットワーク(RNN)デコーダモデルによって生成されたものである。方法は、エンコードされた音響フレームをアテンションする第1のアテンション機構を使用して、第1のコンテキストベクトルを生成すること、エンコードされた第1のパスの仮説をアテンションする第2のアテンション機構を使用して、第2のコンテキストベクトルを生成することを含む。方法は、コンテキストベクトルデコーダにおいて、第1のコンテキストベクトルおよび第2のコンテキストベクトルをデコードして、第2のパスの仮説を形成することを含む。

Description

特許法第30条第2項適用 令和2年3月17日にウェブサイトのアドレス https://arxiv.org/abs/2003.07962にて発表 令和2年4月9日にウェブサイトのアドレス https://ieeexplore.ieee.org/document/9053606にて発表
本開示は、2パスのエンド・ツー・エンドの音声認識に関する。
最新の自動音声認識(ASR:automated speech recognition)システムは、高品質(例えば、低い単語誤り率(WER:word error rate))のみならず、低遅延(例えば、ユーザが話してから文字起こし(transcription)が表示されるまでの短い遅延)を提供することに重点を置いている。さらに、現在ASRシステムを使用する場合、ASRシステムは、リアルタイムに対応するか、またはリアルタイムよりもさらに高速に対応するストリーミング方式で発話をデコードすることが要求されている。例えば、ユーザとの直接対話を行う携帯電話にASRシステムが搭載されている場合、ASRシステムを使用する携帯電話上のアプリケーションは、単語が話されるとすぐに画面上に表示されるように音声認識がストリーミングされることを必要とする場合がある。ここで、携帯電話のユーザは、遅延に対する許容度が低い可能性もある。この低い許容度により、音声認識は、ユーザエクスペリエンスに悪影響を与える可能性のある遅延および不正確性による影響を最小限に抑えるようにモバイルデバイス上で動作することを目指している。
本開示の一態様は、データ処理ハードウェア上での実行時に、データ処理ハードウェアに動作を実行させ、動作は、第1のパスの仮説およびエンコードされた音響フレームを受信すること、仮説エンコーダにおいて、第1のパスの仮説をエンコードすることを含む。第1のパスの仮説は、エンコードされた音響フレームに対してリカレントニューラルネットワーク(RNN)デコーダモデルによって生成されたものである。動作は、エンコードされた音響フレームをアテンション(注目)する第1のアテンション機構を使用して、第1のコンテキストベクトルを生成すること、およびエンコードされた第1のパスの仮説をアテンションする第2のアテンション機構を使用して、第2のコンテキストベクトルを生成することを含む。動作は、コンテキストベクトルデコーダにおいて、第1のコンテキストベクトルおよび第2のコンテキストベクトルをデコードして、第2のパスの仮説を形成することを含む。
本開示の実施形態は、以下の任意の特徴のうちの1つまたは複数を含み得る。いくつかの実施形態では、第1のコンテキストベクトルおよび第2のコンテキストベクトルをデコードすることは、第1のコンテキストベクトルと第2のコンテキストベクトルとの連結をデコードすることを含む。第1のパスの仮説をエンコードすることは、仮説エンコーダにおいて、第1のパスの仮説を双方向にエンコードして、第1のパスの仮説からコンテキスト情報を生成することを含み得る。ここで、仮説エンコーダは、長短期記憶(LSTM)ネットワークを含み得る。
いくつかの例では、動作は、共有エンコーダにおいて、音響フレームをエンコードすること、RNNデコーダモデルにおいて、共有エンコーダから伝達されたエンコードされた音響フレームに基づいて、第1のパスの仮説を生成することをさらに含む。これらの例では、動作は、単方向音声エンコーダにおいて、共有エンコーダから伝達されたエンコードされた音響フレームに基づいて、音響埋め込みを生成することをさらに含み得る。ここで、単方向音声エンコーダは、少なくとも2つの層を有し得る長短期記憶(LSTM)ネットワークを含み得る。
いくつかの実施形態では、動作は、RNNデコーダモデルをトレーニングすること、トレーニングされたRNNデコーダモデルのパラメータが固定された状態でデリバレーションデコーダ(deliberation decoder)をトレーニングすることも含む。デリバレーションデコーダは、仮説エンコーダ、第1のアテンション機構、第2のアテンション機構、およびコンテキストベクトルデコーダを含む。これらの実施形態では、動作は、RNNデコーダモデルおよびデリバレーションデコーダモデルのトレーニング中に単語誤り率を最小化することも含み得る。
他の実施形態では、動作は、RNNデコーダモデルおよびデリバレーションデコーダを共同でトレーニングすることを含み、デリバレーションデコーダは、仮説エンコーダ、第1のアテンション機構、第2のアテンション機構、およびコンテキストベクトルデコーダを含む。これらの実施形態では、動作は、RNNデコーダモデルおよびデリバレーションデコーダモデルの共同トレーニング中に単語誤り率を最小化することをさらに含み得る。データ処理ハードウェアは、ユーザデバイス上に存在し得る。
本開示の別の態様は、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを備えるシステムを提供し、メモリハードウェアは、命令を格納しており、命令は、データ処理ハードウェアによる実行時に、データ処理ハードウェアに動作を実行させ、動作は、第1のパスの仮説およびエンコードされた音響フレームを受信すること、仮説エンコードにおいて、第1のパスの仮説のエンコードすることを含む。第1のパスの仮説は、エンコードされた音響フレームに対してリカレントニューラルネットワーク(RNN)デコーダモデルによって生成されたものである。動作は、エンコードされた音響フレームをアテンション(注目)する第1のアテンション機構を使用して、第1のコンテキストベクトルを生成すること、およびエンコードされた第1のパスの仮説をアテンションする第2のアテンション機構を使用して、第2のコンテキストベクトルを生成することを含む。動作は、コンテキストベクトルデコーダにおいて、第1のコンテキストベクトルおよび第2のコンテキストベクトルをデコードして、第2のパスの仮説を形成することを含む。
この態様は、以下の任意の特徴のうちの1つまたは複数を含み得る。いくつかの実施形態では、第1のコンテキストベクトルおよび第2のコンテキストベクトルをデコードすることは、第1のコンテキストベクトルと第2のコンテキストベクトルとの連結をデコードすることを含む。第1のパスの仮説をエンコードすることは、仮説エンコーダにおいて、第1のパスの仮説を双方向にエンコードして、第1のパスの仮説からコンテキスト情報を生成することを含み得る。ここで、仮説エンコーダは、長短期記憶(LSTM)ネットワークを含み得る。
いくつかの例では、動作は、共有エンコーダにおいて、音響フレームをエンコードすること、RNNデコーダモデルにおいて、共有エンコーダから伝達されたエンコードされた音響フレームに基づいて、第1のパスの仮説を生成することをさらに含む。これらの例では、動作は、単方向音声エンコーダにおいて、共有エンコーダから伝達されたエンコードされた音響フレームに基づいて、音響埋め込みを生成することをさらに含み得る。ここで、単方向音声エンコーダは、少なくとも2つの層を有し得る長短期記憶(LSTM)ネットワークを含み得る。
いくつかの実施形態では、動作は、RNNデコーダモデルをトレーニングすること、トレーニングされたRNNデコーダモデルのパラメータが固定された状態でデリバレーションデコーダをトレーニングすることも含む。デリバレーションデコーダは、仮説エンコーダ、第1のアテンション機構、第2のアテンション機構、およびコンテキストベクトルデコーダを含む。これらの実施形態では、動作は、RNNデコーダモデルおよびデリバレーションデコーダモデルのトレーニング中に単語誤り率を最小化することも含み得る。
他の実施形態では、動作は、RNNデコーダモデルおよびデリバレーションデコーダを共同でトレーニングすることを含み、デリバレーションデコーダは、仮説エンコーダ、第1のアテンション機構、第2のアテンション機構、およびコンテキストベクトルデコーダを含む。これらの実施形態では、動作は、RNNデコーダモデルおよびデリバレーションデコーダモデルの共同トレーニング中に単語誤り率を最小化することをさらに含み得る。データ処理ハードウェアは、ユーザデバイス上に存在し得る。
本開示の1つまたは複数の実施の詳細は、添付の図面および以下の詳細な説明に記載されている。他の態様、特徴、および利点は、詳細な説明および図面、ならびに特許請求の範囲から明らかになる。
デリバレーション2パスアーキテクチャを使用する例示的な発話環境の概略図である。 デリバレーション2パスアーキテクチャを使用する例示的な発話環境の概略図である。 音声認識用の従来の例示的な2パスアーキテクチャの概略図である。 音声認識のための図1Aのデリバレーション2パスアーキテクチャの例の概略図である。 図2Bのデリバレーション2パスアーキテクチャを使用して音声認識を実行する方法のための動作の例示的な構成のフローチャートである。 本明細書で説明されるシステムおよび方法を実施するために使用され得る例示的なコンピューティングデバイスの概略図である。
様々な図面の同様の参照記号は、同様の構成要素を示す。
音声認識は、モバイル環境の非拘束性および機敏性の要求を満たすために進化し続けている。自動音声認識システム(ASR)の品質を向上させるために、新たな音声認識アーキテクチャまたは既存のアーキテクチャの改良が引き続き開発されている。例えば、音声認識は、当初、各モデルが専用の目的を持つ複数のモデルを採用していた。例えば、ASRシステムは、音響モデル(AM)、発音モデル(PM)、および言語モデル(LM)を含んでいた。音響モデルは、音声のセグメント(即ち、音声のフレーム)を音素(phonemes)にマッピングした。発音モデルは、これらの音素をつなぎ合わせて単語を形成し、言語モデルは、所与のフレーズの可能性(即ち、単語のシーケンスの確率)を表現するために使用された。これらの個々のモデルは連携して機能したが、各モデルは個別にトレーニングされ、多くの場合、異なるデータセットで手動で設計された。
個別のモデルの手法により、特に所与のモデルに対するトレーニングコーパス(即ち、トレーニングデータの集合体)がモデルの有効性に対応している場合に、音声認識システムの精度をかなり向上させることが可能になった。しかしながら、個別のモデルを個別にトレーニングする必要があることから、それ自体が複雑になるため、統合モデルを備えたアーキテクチャが採用された。これらの統合モデルは、単一のニューラルネットワークを使用して、音声波形(即ち、入力シーケンス)を出力センテンス(即ち、出力シーケンス)に直接マッピングしようとするものである。これにより、任意の音声特徴のシーケンスが与えられると、単語(または書記素(graphemes))のシーケンスが生成されるシーケンス・ツー・シーケンスの手法が実現された。シーケンス・ツー・シーケンスモデルの例には、「アテンションベース」モデルおよび「リッスン・アテンド・スペル」(LAS)モデルが含まれる。LASモデルは、リスナー(listener)コンポーネント、アテンダ(attender)コンポーネント、およびスペラー(speller)コンポーネントを使用して、音声の発話を文字に変換する。ここで、リスナーは、音声入力(例えば、音声入力の時間周波数表現)を受信し、音声入力をより高レベルの特徴表現にマッピングするリカレントニューラルネットワーク(RNN:recurrent neural network)エンコーダである。アテンダは、より高レベルの特徴をアテンションして、入力特徴と予測されるサブワード単位(例えば、書記素または単語ピース)との間のアラインメントを学習する。スペラーは、アテンションベースのRNNデコーダであり、仮定単語のセットに対して確率分布を生成することによって、入力から文字シーケンスを生成する。統合化された構造により、モデルの全てのコンポーネントを単一のエンド・ツー・エンド(E2E:end-to-end)ニューラルネットワークとして共同でトレーニングさせることができる。ここで、E2Eモデルとは、アーキテクチャが全てニューラルネットワークで構成されているモデルを指す。完全なニューラルネットワークは、外部コンポーネントおよび/または手動で設計したコンポーネント(例えば、有限状態トランスデューサ、辞書(lexicon)、またはテキスト正規化モジュール)なしで機能する。さらに、E2Eモデルをトレーニングする場合、これらのモデルは通常、決定木からのブートストラップ、または別のシステムからの時間調整を必要としない。
初期のE2Eモデルは正確であり、個別にトレーニングされたモデルよりもトレーニングが改善されたが、LASモデルなどのこれらのE2Eモデルは、出力テキストを生成する前に入力シーケンス全体を確認することによって機能していたため、入力が受信されたときに出力をストリーミングすることはできなかった。ストリーミング機能がないと、LASモデルは、リアルタイムの音声文字起こし(voice transcription)を実行することができない。この欠陥のため、遅延に敏感な、かつ/またはリアルタイムの音声文字起こしを必要とする音声アプリケーションに対してLASモデルを搭載すると、問題が発生する可能性がある。このため、リアルタイムアプリケーション(例えば、リアルタイム通信アプリケーション)に依存することが多いモバイル技術(例えば、携帯電話)にとって、LASモデルだけでは、理想的なモデルではない。
さらに、音響モデル、発音モデル、および言語モデル、またはそれらが共に構成されているモデルを有する音声認識システムは、これらのモデルに関連する比較的大規模のサーチグラフをサーチする必要があるデコーダに依存し得る。大規模のサーチグラフでは、この種の音声認識システムを完全オンデバイスでホストするのに有利ではない。ここで、音声認識システムが「オンデバイス(on-device)」でホストされている場合、音声入力を受信するデバイスは、そのプロセッサ(単数または複数)を使用して音声認識システムの機能を実行する。例えば、音声認識システムが完全にオンデバイスでホストされている場合、デバイスのプロセッサは、音声認識システムの機能を実行するために、デバイス外のコンピューティングリソースと連携する必要はない。完全にオンデバイスではない音声認識を実行するデバイスは、音声認識システムの少なくとも一部の機能を実行するために、リモートコンピューティング(例えば、リモートコンピューティングシステムまたはクラウドコンピューティング)、従ってオンライン接続に依存している。例えば、音声認識システムは、サーバベースのモデルとのネットワーク接続を使用して、大規模なサーチグラフによりデコーディングを実行する。
残念ながら、リモート接続に依存している状態では、音声認識システムは、遅延の問題および/または通信ネットワークに固有の信頼性の低さに対して脆弱になる。これらの問題を回避することによって音声認識の有用性を向上させるために、音声認識システムは、リカレントニューラルネットワークトランスデューサー(RNN-T)として知られるシーケンス・ツー・シーケンスモデルの形態に再び進化した。RNN-Tはアテンション機構を採用しておらず、かつ出力(例えば、センテンス)を生成するためにシーケンス全体(例えば、音声波形)を処理する必要がある他のシーケンス・ツー・シーケンスモデルとは異なり、RNN-Tは、入力サンプルを連続的に処理して、出力シンボルをストリーミングするという、リアルタイム通信にとって特に魅力的な特徴を有している。例えば、RNN-Tを使用した音声認識では、話した通りに文字が1つずつ出力され得る。ここで、RNN-Tは、モデルによって予測されたシンボルを自身にフィードバックするフィードバックループを使用して、次のシンボルを予測する。RNN-Tのデコーディングは、大規模なデコーダグラフではなく、単一のニューラルネットワークを介したビームサーチを含むため、RNN-Tは、サーバベースの音声認識モデルの数分の1のサイズにスケーリングすることができる。サイズの縮小により、RNN-Tは完全にオンデバイスで搭載され、オフラインで(即ち、ネットワーク接続なしで)動作させることができるため、通信ネットワークの信頼性の問題を回避することができる。
音声認識システムが低遅延で動作することに加えて、音声認識システムには、音声を正確に認識することが求められる。音声認識を実行するモデルの場合、モデルの精度を定義するメトリックとして、単語誤り率(WER)が用いられることが多い。WERは、実際に話された単語の数と比較して、どれだけ単語が変更されたかを示す尺度である。一般に、これらの単語の変更は、置換(即ち、単語が置き換えられる場合)、挿入(即ち、単語が追加される場合)、および/または削除(即ち、単語が省略される場合)を指す。例えば、話者は「カー(car)」と言っているが、ASRシステムは、「カー(car)」という単語を「バー(bar)」と文字起こしする。これは、音素(phonetic)の類似性による置換の例である。他のASRシステムと比較してASRシステムの能力を測定する場合、WERは、別のシステムまたはあるベースラインと比較して、改善または品質保証能力の尺度を示すことができる。
RNN-Tモデルは、オンデバイスの音声認識に関する有力な候補モデルとして有望であることを示したが、RNN-Tモデルのみでは、品質(例えば、音声認識精度)の観点で、大規模な最先端の従来モデル(例えば、別個のAM、PM、およびLMを備えたサーバベースのモデル)に遅れをとっている。しかし、非ストリーミングE2E、LASモデルは、大規模な最先端の従来モデルに匹敵する音声認識品質を備えている。非ストリーミングE2 ELASモデルの品質を利用するために、本明細書の実施形態は、RNN-Tネットワークの第1のパスのコンポーネントと、それに続くLASネットワークの第2のパスのコンポーネントとを含む2パス音声認識システム(例えば、図2Aに示す)に関する。この設計により、2パスモデルは、低遅延のRNN-Tモデルのストリーミング特性の恩恵を受け、LASネットワークを組み込んだ第2のパスを通じてRNN-Tモデルの精度を向上させている。LASネットワークは、RNN-Tモデルのみと比較して遅延を増加させるが、遅延の増加は、適度にわずかであり、かつオンデバイス動作に関する遅延制約に適合している。精度に関しては、2パスモデルは、RNN-T単独と比較した場合に17~22%のWER低減を達成し、大規模な従来モデルと比較した場合に同程度のWERを有している。
2パスモデルでは、非ストリーミングLASモデルは、例えば、第1のパスからストリーミングされた仮説を再スコアリングする。この第2のパスのLASモデル手法では、仮説を再スコアリングするために音響をアテンションする。対照的に、ニューラル補正モデルのクラスとして知られている別の方法は、音響の代わりにテキストを使用して仮説を生成する。言い換えれば、第2のパスで仮説を精緻化するために、異なる変数をアテンションすることができる。そのため、本明細書で提案するモデルは、RNN-T/LASの2パスモデルのバリエーションである。このバリエーションは、2パスモデルの第2のパスに対して、音響と第1のパスのテキスト仮説とを組み合わせたデリバレーションネットワークを使用する。デリバレーションネットワークを使用することによって、2パスモデル(例えば、図2Bに示すに)は、デリバレーションネットワークを使用しない2パスモデル(例えば、図2Aに示す)と比較して、より正確になり、かつ従来の大規模な音声認識モデルよりもより正確になる。例えば、いくつかのテストにおいて、デリバレーションネットワークなしの2パスモデルと比較した場合、デリバレーション2パスモデルは12%の相対的なWER低減を達成し、大規模な従来の音声認識モデルと比較した場合、ほぼ21%の相対的なWER低減を達成した。
図1Aおよび図1Bは、発話環境100の例である。発話環境100において、ユーザデバイス110などのコンピューティングデバイスと対話するユーザの10の方法は、音声入力を介するものであり得る。ユーザデバイス110(一般にデバイス110とも呼ばれる)は、発話対応環境100内の1人または複数人のユーザ10からの音(例えば、ストリーミング音声データ)をキャプチャするように構成されている。ここで、ストリーミング音声データ12は、デバイス110によってキャプチャされる可聴の問い合わせ(クエリ)、デバイス110に対する命令(コマンド)、または可聴の会話(コミュニケーション)としての役割を持つ、ユーザ10によって話された発話を指すことができる。デバイス110の発話対応システムは、問い合わせに応答することによって、かつ/またはコマンドを実行させることによって、問い合わせまたは命令を処理し得る。
ユーザデバイス110は、ユーザ10に関連付けられ、かつ音声データ12を受信することが可能な任意のコンピューティングデバイスに対応し得る。ユーザデバイス110のいくつかの例は、モバイルデバイス(例えば、携帯電話、タブレット、ラップトップなど)、コンピュータ、ウェアラブルデバイス(例えば、スマートウォッチ)、スマート家電、モノのインターネット(IoT)デバイス、スマートスピーカなどを含むが、これらに限定されない。ユーザデバイス110は、データ処理ハードウェア112と、データ処理ハードウェア112と通信するメモリハードウェア114とを含み、メモリハードウェア114は、命令を格納しており、命令は、データ処理ハードウェア112による実行時に、データ処理ハードウェア112に1つまたは複数の動作を実行させる。ユーザデバイス110は、発話対応システム100内で話された発話12をキャプチャして電気信号に変換するための音声キャプチャデバイス(例えば、マイクロフォン)116、116aと、可聴音声信号を(例えば、デバイス110からの出力音声データとして)伝達するための発話出力デバイス(例えばスピーカ)116、116bとを有する音声サブシステム116をさらに含む。図示される例では、ユーザデバイス110は単一の音声キャプチャデバイス116aを実装しているが、ユーザデバイス110は、本開示の範囲から逸脱することなく、音声キャプチャデバイス116aのアレイを実装してもよく、それにより、アレイ内の1つまたは複数のキャプチャデバイス116aは、ユーザデバイス110上に物理的に存在していないが、音声サブシステム116と通信状態になり得る。(例えば、ハードウェア112、114を使用する)ユーザデバイス110は、音声認識器200を使用して、ストリーミング音声データ12に対して音声認識処理を実行するようにさらに構成される。いくつかの例では、音声キャプチャデバイス116aを含むユーザデバイス110の音声サブシステム116は、音声データ12(例えば、話された発話)を受信し、音声データ12を音声認識器200と互換性のあるデジタル形式に変換するように構成される。デジタル形式は、メルフレーム(mel frames)などの音響フレーム(例えば、パラメータ化された音響フレーム)に対応し得る。例えば、パラメータ化された音響フレームは、ログメルフィルタバンク(log-mel filterbank)エネルギーに対応する。
図1Aなどのいくつかの例では、ユーザ10は、音声認識器200を使用するユーザデバイス110のプログラムまたはアプリケーション118と対話する。例えば、図1Aは、ユーザ10が自動アシスタントアプリケーションと通信している状態を示している。この例では、ユーザ10が自動アシスタントに「今夜のコンサートは何時から?(What time is the concert tonight?)」と尋ねている。ユーザ10からのこの質問は、音声キャプチャデバイス116aによってキャプチャされ、ユーザデバイス110の音声サブシステム116によって処理される話された発話12である。この例では、ユーザデバイス110の音声認識器200は、「今夜のコンサートは何時から」という音声入力202を(例えば、音響フレームとして)受信し、音声入力202を文字起こし204(例えば、「今夜のコンサートは何時から?」というテキスト表現)に転写する。ここで、アプリケーション118の自動アシスタントは、自然言語処理を使用して、ユーザ10によって投げかけられた質問に対して回答し得る。自然言語処理とは、一般に、書き言葉(例えば、文字起こし204)を解釈し、書き言葉が何らかのアクションを促しているかどうかを判断するプロセスを指す。この例では、自動アシスタントは、自然言語処理を使用して、ユーザ10からの質問がユーザのスケジュール、より具体的にはユーザのスケジュールでのコンサートに関するものであることを認識する。自動アシスタントは、自然言語処理でこれらの詳細を認識することによって、ユーザの問い合わせに対して、「今夜のコンサートは午後8時30分に開場します(Doors open at 8:30 pm for the concert tonight)」という回答を返す。いくつかの構成では、自然言語処理は、ユーザデバイス110のデータ処理ハードウェア112と通信するリモートシステム上で行われ得る。
図1Bは、音声認識器200を用いた音声認識の別の例である。この例では、ユーザデバイス110に関連付けられたユーザ10は、通信アプリケーション118を用いてジェーン・ドゥという名前の友人と通信している。ここで、テッドという名前のユーザ10は、音声認識器200に自身の音声入力を文字起こしさせることによって、ジェーンと通信する。音声キャプチャデバイス116は、これらの音声入力をキャプチャし、それらを音声認識器200にデジタル形式(例えば、音響フレーム)で伝達する。音声認識器200は、これらの音響フレームを、通信アプリケーション118を介してジェーンに送信されるテキストに文字起こしする。この種類のアプリケーション118はテキストを介して通信するため、音声認識器200からの文字起こし204は、さらなる処理(例えば、自然言語処理)なしでジェーンに送信され得る。
図2Aおよび図2Bなどのいくつかの例では、音声認識器200は2パスアーキテクチャで構成されている。一般的に、音声認識器200の2パスアーキテクチャは、少なくとも1つのエンコーダ210、RNN-Tデコーダ220、およびLASデコーダ230を含む。ここで、図2Aは、従来の2パスアーキテクチャを示し、図2Bは、デリバレーションネットワーク240を有する拡張2パスアーキテクチャを示す。これらの図からわかるように、図2Bの拡張2パスアーキテクチャは、図2Aの基本的な2パス構造に基づいている。2パスデコーディングにおいて、第2のパス208(例えば、LASデコーダ230として示される)は、第1のパス206(例えば、RNN-Tデコーダ220として示される)からの初期出力を格子再スコアリング(lattice rescoring)またはnベスト再ランク付け(n-best re-ranking)などの技術を用いて改善し得る。言い換えれば、RNN-Tデコーダ220はストリーミング予測を生成し、LASデコーダ230は予測を確定する。ここで、具体的には、LASデコーダ230は、RNN-Tデコーダ220からストリーミングされた仮説222yを再スコアリングする。一般に、LASデコーダ230は、RNN-Tデコーダ220からストリーミングされた仮説222yを再スコアリングする再スコアリングモードで機能すると説明されているが、LASデコーダ230は、設計またはその他の要因(例えば、発話の長さ)に応じてビームサーチモード(beam search mode)などの異なるモードで動作することも可能である。
少なくとも1つのエンコーダ210は、ストリーミング音声データ12に対応する音響フレームを音声入力202として受信するように構成される。音響フレームは、音声サブシステム116によってパラメータ化された音響フレーム(例えば、メルフレームおよび/またはスペクトルフレーム)に事前に処理され得る。いくつかの実施形態では、パラメータ化された音響フレームは、ログメル特徴(log-mel features)を有するログメルフィルタバンクエネルギーに対応する。例えば、音声サブシステム116によって出力され、エンコーダ210に入力されるパラメータ化された入力音響フレームは、x=(x,...,x)として表すことができ、ここで、
Figure 0007222153000002
は、ログメルフィルタバンクエネルギーであり、Tはxのフレーム数を示し、dはログメル特徴の数を表す。いくつかの例では、各パラメータ化された音響フレームは、短いシフトウィンドウ(例えば、32ミリ秒、10ミリ秒ごとにシフト)内で計算された128次元のログメル特徴を含む。各特徴は、前のフレーム(例えば、3つ前のフレーム)と重ねられて、より高次元のベクトル(例えば、3つ前のフレームを使用した512次元のベクトル)が形成されてもよい。次に、ベクトルを形成する特徴は、(例えば、30ミリ秒のフレームレートに)ダウンサンプリングされ得る。エンコーダ210は、音声入力202に基づいて、エンコーディングeを生成するように構成される。例えば、エンコーダ210は、エンコードされた音響フレーム(例えば、エンコードされたメルフレームまたは音響埋め込み(acoustic embeddings))を生成する。
エンコーダ210の構造は、異なる方法で実施することができるが、いくつかの実施形態では、エンコーダ210は、長短期記憶(LSTM:long-short term memory)ニューラルネットワークである。例えば、エンコーダ210は、8個のLSTM層を含む。ここで、各層は、2,048個の隠れユニットと、それに続く640次元の射影層(projection layer)とを含む。いくつかの例では、エンコーダ210の第2のLSTM層の後に、短縮係数(reduction factor)N=2を有する時間短縮層(time-reduction layer)が挿入される。
いくつかの構成では、エンコーダ210は共有エンコーダネットワークである。言い換えれば、各パスネットワーク206、208がそれ自体の別個のエンコーダを有する代わりに、各パス206、208は単一のエンコーダ210を共有する。エンコーダを共有することによって、2パスアーキテクチャを使用するASR音声認識器200は、そのモデルサイズおよび/またはその計算コストを削減することができる。ここで、モデルサイズの縮小は、音声認識器200が完全にオンデバイス(on-device)で良好に機能することを可能にするのに役立ち得る。
第1のパス206を通じて、エンコーダ210は、音声入力202の各音響フレームを受信して、出力212(例えば、音響フレームのエンコーディングeとして示される)を生成する。RNN-Tデコーダ220は、各フレームの出力212を受信して、仮説yとして示される出力222を各タイムステップにおいてストリーミング方式で生成する。いくつかの実施形態では、RNN-Tデコーダ220は、予測ネットワークおよび結合ネットワークを含む。ここで、予測ネットワークは、2,048個の隠れユニットおよび640次元の射影(層ごと)の2つのLSTM層、並びに128ユニットの埋め込み層を有し得る。エンコーダ210および予測ネットワークの出力212は、ソフトマックス予測層を含む結合ネットワークに供給され得る。いくつかの例では、RNN-Tデコーダ220の結合ネットワークは、640個の隠れユニットと、それに続く4,096個の大文字と小文字が混在する単語ピースを予測するソフトマックス層とを含む。
図2Aの2パスモデルにおいて、第2のパス208を通じて、LASデコーダ230は、各フレームに関してエンコーダ210からの出力212を受信し、仮説yとして指定された出力232を生成する。LASデコーダ230がビームサーチモードで動作する場合、LASデコーダ230は、出力212のみから出力232を生成し、RNN-Tデコーダ220の出力222を無視する。LASデコーダ230が再スコアリングモードで動作する場合、LASデコーダ230は、RNN-Tデコーダ220からトップのK個の仮説を取得し、次いで、LASデコーダ230は、出力212をアテンション(attention)しつつ、教師強制モードで各シーケンスに対して動作して、スコアを計算する。例えば、スコアは、シーケンスの対数確率とアテンションカバレッジペナルティ(attention coverage penalty)とを組み合わせたものである。LASデコーダ230は、最も高いスコアを有するシーケンスを出力232として選択する。ここで、再スコアリングモードでは、LASデコーダ230は、出力212をアテンションするために、(例えば、4つのヘッドを有する)マルチヘッドアテンション(multi-headed attention)を含み得る。さらに、LASデコーダ230は、予測のためのソフトマックス層を備えた2層LASデコーダ230であり得る。例えば、LASデコーダ230の各層は、2,048個の隠れユニットと、それに続く640次元の射影とを有する。ソフトマックス層は、RNN-Tデコーダ220のソフトマックス層から同じ大文字と小文字が混在する単語ピースを予測するために、4,096次元を含み得る。
図2Bを参照すると、第1のパス206は同じままであるが、第2のパス208は、LASデコーダ230に加えて、デリバレーションエンコーダ242と、2つのアテンション機構244、246(仮説アテンション機構244および音響アテンション機構246)とを含むデリバレーションデコーダ240を使用する。ここで、図2Aの音声認識器200と比較して、図2Bの音声認識器200は、音響アテンション機構246においてエンコーダ210の出力212をアテンションすることによって音響をアテンションするとともに、仮説アテンション機構244においてRNN-Tデコーダ220の出力222をアテンションすることによって第1のパスの仮説をアテンションする。対照的に、図2Aの音声認識器200は、LASデコーダ自体でエンコーダ210の出力212をアテンションすることによって音響に対してのみアテンションする。音響(例えば、eとして表される出力212)と第1のパスの仮説との両方をアテンションすることによって、デリバレーションデコーダ240は、出力248(例えば、予測シーケンス)を生成する。ここで、各アテンション機構244、246は、デリバレーションデコーダ240のLASデコーダ230に入力されるコンテキストベクトル245、247(例えば、音響コンテキストベクトル247および仮説コンテキストベクトル245)を形成する。これらのコンテキストベクトル245、247は、LASデコーダ230への入力として連結され得る。上記のLASデコーダ230に固有のアテンション機構と同様に、アテンション機構244、246は、各アテンション機構244、246がマルチヘッドアテンション(例えば、4つのヘッド)を含むように同様の構造を有してもよい。
デリバレーションエンコーダ242は、RNN-Tデコーダ220の出力222(即ち、第1のパス206の出力222)をさらにエンコードして、エンコードされた仮説243(例えば、hとして示される)を形成する。出力222をさらにエンコードするとき、デリバレーションエンコーダ242は、有用なコンテキスト情報がエンコードされた仮説243に含まれるように出力222をエンコードすることもできる。例えば、デリバレーションエンコーダ242は、コンテキスト情報を含むことが可能な双方向エンコーダである。デリバレーションエンコーダ242は、複数の仮説222をエンコードするように構成することもできる。例えば、デリバレーションエンコーダ242は、各仮説222を別々にエンコードし、次いで、エンコードされた各仮説を共に連結する。構造的に、デリバレーションエンコーダ242は、LSTMエンコーダ(例えば、2層双方向LSTMエンコーダ)であり得る。LSTMエンコーダとして、デリバレーションエンコーダ242の各層は、2,048個の隠れユニットと、それに続く320次元の射影とを含み得る。
第2のパス208を通して、図2Bの音声認識器200は、ビームサーチモードまたは再スコアリングモードを実行して出力248を生成し得る。再スコアリングモードでは、デリバレーションデコーダ240は、教師強制モードで出力222に対して動作することができる。追加的または代替的に、再スコアリングモードにおいて、双方向デリバレーションエンコーダ242を使用することは、デリバレーションデコーダの2パスアーキテクチャの相対WERを改善するのに役立ち得る。
いくつかの例では、図2Bの音声認識器200は、音響エンコーダ250をも含む。例えば、デリバレーションエンコーダ242およびLASデコーダ230は、ある程度の非互換性を有し得るが、これは、音響エンコーダ250を使用することによって克服され得る。言い換えれば、音響エンコーダ250は、出力212をさらにエンコードし得る。いくつかの実施形態では、音響エンコーダ250は、エンコーダ210からの出力212をさらにエンコードするLSTMエンコーダ(例えば、2層LSTMエンコーダ)である。追加のエンコーダを含むことによって、エンコーダ210は、パス206、208の間の共有エンコーダとして依然として保持され得る。追加的または代替的に、音響エンコーダ250は、拡張2パスアーキテクチャ内の潜在的な遅延を低減するために単方向エンコーダであり得る。
ニューラルネットワークは、通常、損失関数(例えば、クロスエントロピー損失関数)を定義するバックプロパゲーションによってトレーニングされる。例えば、損失関数は、ネットワークの実際の出力とネットワークの所望の出力との差として定義される。ここで、音声認識器200は、クロスエントロピー損失手法または共同トレーニング手法のいずれかを使用してトレーニングすることができる。クロスエントロピー損失手法では、デリバレーションデコーダ240を備えた音声認識器200(即ち、デリバレーションベースの認識装置200)などのデリバレーションモデルは、2段階のトレーニングプロセスでトレーニングされる。トレーニングプロセスの最初のステップでは、RNN-Tデコーダ220がトレーニングされる。RNN-Tデコーダ220がトレーニングされた後、RNN-Tデコーダ220に関するパラメータが固定され、デリバレーションデコーダ240および追加のエンコーダ層(例えば、デリバレーションエンコーダ242および音響エンコーダ250)のみがトレーニングされる。
対照的に、RNN-Tデコーダ220のパラメータを固定しながらデリバレーションデコーダ240をトレーニングすることは、デリバレーションベースの認識器200のコンポーネントが共に更新されないため、最適ではない場合がある。代替のトレーニング手法として、デリバレーションベースの認識器200は、以下の式によって表される複合損失手法を使用して共同でトレーニングすることができる。
joint(θ,θ,θ)=LRNNT(θ,θ)+λLCE(θ,θ)(1)
ここで、LRNNT(-)はRNN-T損失であり、λLCE(-)はデリバレーションデコーダ240に関するクロスエントロピー損失であり、θ、θ、およびθは、それぞれエンコーダ210、RNN-Tデコーダ220、およびデリバレーションデコーダ230のパラメータを示す。ここで、共同トレーニングは、「ディープファインチューニング(deep fine tuning)」の概念に似ているが、事前トレーニング済みのデコーダを用いていない。
これらの手法のいずれかに続いて、音声認識器200は、nベスト仮説を使用することによって、予測単語誤り率を最適化するために、最小WER(MWER)損失を使用してさらにトレーニングされ得る。このMWER損失トレーニングは、次の式で表すことができる。
Figure 0007222153000003
ここで、
Figure 0007222153000004
は、デリバレーションデコーダ240からのi番目の仮説248であり、
Figure 0007222153000005
は、グラウンドトゥルースターゲットyに関する
Figure 0007222153000006
に対する単語誤りの数である。
Figure 0007222153000007
は、他の全ての仮説にわたって合計が1になるように正規化されたi番目の仮説の確率である。Bはビームサイズである。クロスエントロピー損失をMWER損失と組み合わせた場合、次の式を使用してトレーニングを安定させることができる。ここで、α=0.01である。
L’MWER(x,y)=LMWER(x,y)+αLCE(x,y)(3)
図3は、デリバレーション2パスアーキテクチャを使用して自動音声認識(例えば、ASR)を実行する方法300のための動作の例示的な構成のフローチャートである。動作302において、方法300は、第1のパスの仮説222およびエンコードされた音響フレーム212を受信する。ここで、第1のパスの仮説222は、エンコードされた音響フレーム212に対してRNNデコーダ220によって生成されたものである。動作304において、方法300は、仮説エンコーダ242において第1のパスの仮説222をエンコードすることを含む。動作306において、方法300は、第1のアテンション機構246を使用して第1のコンテキストベクトル247を生成し、第2のアテンション機構244を使用して第2のコンテキストベクトル245を生成することを含む。第1のアテンション機構246は、エンコードされた音響フレーム212に対してアテンションする。第2のアテンション機構244は、エンコードされた第1のパスの仮説243に対してアテンションする。動作308において、方法300は、コンテキストベクトルデコーダ230において第1のコンテキストベクトル247および第2のコンテキストベクトル245をデコードして、第2のパスの仮説248を形成することを含む。
図4は、本明細書で説明されるシステム(例えば、音声認識器200)および方法(例えば、方法300)を実施するために使用され得る例示的なコンピューティングデバイス400(例えば、システム400)の概略図である。コンピューティングデバイス400は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを代表することが意図されている。本明細書に示された構成要素、それらの接続および関係、およびそれらの機能は、例示的なものに過ぎず、本明細書に記載および/または特許請求の範囲に記載される本発明の実施形態を限定するものではない。
コンピューティングデバイス400は、プロセッサ410(例えば、データ処理ハードウェア410)、メモリ420(例えば、メモリハードウェア520)、ストレージデバイス430、メモリ420および高速拡張ポート440に接続する高速インタフェース/コントローラ440、および低速バス470およびストレージデバイス430に接続する低速インタフェース/コントローラ460を含む。構成要素410、420、430、440、450、および460の各々は、様々なバスを使用して相互接続されており、かつ共通のマザーボード上に、または適切な他の方法で搭載され得る。プロセッサ410は、メモリ420またはストレージデバイス430に格納された命令を含む、コンピューティングデバイス400内で実行するための命令を処理して、高速インタフェース440に接続されたディスプレイ480などの外部入力/出力デバイス上にグラフィカルユーザインタフェース(GUI)用のグラフィカル情報を表示することができる。他の実施形態では、複数のメモリおよび複数のタイプのメモリと共に、複数のプロセッサおよび/または複数のバスが適宜使用されてもよい。また、複数のコンピューティングデバイス400が接続され、各デバイスが(例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)必要な処理の一部を提供してもよい。
メモリ420は、コンピューティングデバイス400内に非一時的に情報を格納する。メモリ420は、コンピュータ可読媒体、揮発性メモリユニット(複数可)、または不揮発性メモリユニット(複数可)であってもよい。非一時的メモリ420は、コンピューティングデバイス400によって使用するための一時的または永久的な基準でプログラム(例えば、命令のシーケンス)またはデータ(例えば、プログラム状態情報)を格納するために使用される物理デバイスであってもよい。不揮発性メモリの例には、これらに限定されないが、フラッシュメモリおよび読み出し専用メモリ(ROM)/プログラム可能読み出し専用メモリ(PROM)/消去可能プログラム可能読み出し専用メモリ(EPROM)/電子消去可能プログラム可能読み出し専用メモリ(EEPROM)(例えば、通常、ブートプログラムなどのファームウェアに使用される)が含まれる。揮発性メモリの例には、これらに限定されないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、およびディスクまたはテープが含まれる。
ストレージデバイス430は、コンピューティングデバイス400の大容量ストレージデバイスを提供することができる。いくつかの実施形態では、ストレージデバイス430は、コンピュータ可読媒体である。様々な異なる実施形態では、ストレージデバイス430は、フロッピーディスク(登録商標)デバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリまたは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークまたはその他の構成におけるデバイスを含むデバイスのアレイであり得る。追加の実施形態では、コンピュータプログラム製品は、情報媒体に有形的に具体化される。コンピュータプログラム製品は、実行時に、上記したような1つまたは複数の方法を実行する命令を含む。情報媒体は、メモリ420、ストレージデバイス430、またはプロセッサ410上のメモリなどの、コンピュータ可読媒体または機械可読媒体である。
高速コントローラ440は、コンピューティングデバイス400の帯域幅を大量に使用する処理を管理し、低速コントローラ460は、より低い帯域幅を大量に使用する処理を管理する。このような役割の配分は、例示的なものに過ぎない。いくつかの実施形態では、高速コントローラ440は、メモリ420、ディスプレイ480(例えば、グラフィックプロセッサまたはアクセラレータを介する)、および各種拡張カード(図示せず)を受け入れる高速拡張ポート450に接続される。いくつかの実施形態では、低速コントローラ460は、ストレージデバイス430および低速拡張ポート490に接続される。様々な通信ポート(例えば、USB、ブルートゥース(登録商標)、イーサネット(登録商標)、無線イーサネット(登録商標))を含む低速拡張ポート490は、キーボード、ポインティングデバイス、スキャナ、または例えばネットワークアダプターを介するスイッチまたはルータなどのネットワークデバイスなどの1つまたは複数の入力/出力デバイスに接続され得る。
コンピューティングデバイス400は、図面に示されるように、いくつかの異なる形態で実施することができる。例えば、それは、標準サーバ400aとして、またはそのようなサーバ400aのグループ内で複数回、ラップトップコンピュータ400bとして、またはラックサーバシステム400cの一部として実施することができる。
本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路および/または光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、ストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、それらにデータおよび命令を送信するように接続された、特別または一般的な目的であってもよい、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムにおける実施形態を含むことができる。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られている)は、プログラマブルプロセッサ用の機械命令を含み、高水準の手続き型言語および/またはオブジェクト指向のプログラミング言語、および/またはアセンブリ言語/機械語で実施することができる。本明細書で使用する場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、任意のコンピュータプログラム製品、非一時的なコンピュータ可読媒体、機械命令を機械可読信号として受信する機械可読媒体を含む、プログラマブルプロセッサに機械命令および/またはデータを提供するために使用される装置および/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
本明細書で説明するプロセスおよび論理フローは、入力データを処理して出力を生成することによって機能を実行する1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラマブルプロセッサによって実行することができる。プロセスおよび論理フローは、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)などの特定用途論理回路によっても実行することができる。コンピュータプログラムの実行に適したプロセッサは、一例として、汎用マイクロプロセッサおよび専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。一般に、プロセッサは、読み出し専用メモリまたはランダムアクセスメモリ、あるいはその両方から命令およびデータを受信する。コンピュータの必須要素は、命令を実行するプロセッサと、命令およびデータを格納するための1つまたは複数のメモリデバイスとである。一般に、コンピュータは、データを格納するための1つまたは複数の大容量ストレージデバイス(例えば、磁気ディスク、光磁気ディスク、または光ディスク)からのデータを受信するか、またはデータを転送するか、あるいはその両方を行うように動作可能に結合される。しかしながら、コンピュータはそのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを格納するのに適したコンピュータ可読媒体には、半導体メモリデバイス(例えば、EPROM、EEPROM、およびフラッシュメモリデバイス)、磁気ディスク(例えば、内蔵ハードディスクまたはリムーバブルディスク)、光磁気ディスク、およびCDROMおよびDVD-ROMディスクを含む全ての形態の不揮発性メモリ、媒体およびメモリデバイスが含まれる。プロセッサおよびメモリは、特定用途論理回路によって補完または特定用途論理回路に組み込むことができる。
ユーザとのインタラクションを提供するために、本開示の1つまたは複数の態様は、例えば、CRT(陰極線管)、LDC(液晶ディスプレイ)モニタ、またはタッチスクリーンなどのユーザに情報を表示するためのディスプレイデバイスと、任意選択でユーザがコンピュータに入力を提供するキーボードおよびポインティングデバイス(例えば、マウスやトラックボール)とを有するコンピュータ上で実施することができる。他の種類の装置を使用して、例えば、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であり得るユーザに提供されるフィードバックとともにユーザとのインタラクションを提供することもでき、ユーザからの入力は、音響、音声、または触覚入力を含む任意の形態で受信することができる。さらに、コンピュータは、ユーザによって使用されるデバイスとの間でドキュメントを送受信することによって(例えば、ウェブブラウザから受信した要求に応答してユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって)、ユーザとインタラクションすることができる。
いくつかの実施形態が説明されている。それにもかかわらず、本開示の技術思想および範囲から逸脱することなく、様々な変更がなされ得ることが理解されるであろう。従って、他の実施形態も以下の特許請求の範囲内にある。

Claims (26)

  1. データ処理ハードウェア(112)上での実行時に、前記データ処理ハードウェア(112)に動作を実行させるコンピュータが実施する方法(300)であって、前記動作は、
    第1のパスの仮説(222)およびエンコードされた音響フレーム(212)を受信すること、前記第1のパスの仮説(222)は、前記エンコードされた音響フレーム(212)に対してリカレントニューラルネットワーク(以下、RNNとする)デコーダモデル(220)によって生成されたものであり、
    仮説エンコーダ(242)において、前記第1のパスの仮説(222)をエンコードすること、
    前記エンコードされた音響フレーム(212)に対してアテンションする第1のアテンション機構(246)を使用して、第1のコンテキストベクトル(247)を生成すること、
    エンコードされた前記第1のパスの仮説(222)に対してアテンションする第2のアテンション機構(244)を使用して、第2のコンテキストベクトル(245)を生成すること、
    コンテキストベクトルデコーダ(230)において、前記第1のコンテキストベクトル(247)および前記第2のコンテキストベクトル(245)をデコードして、第2のパスの仮説(222)を形成すること、を含むコンピュータが実施する方法(300)。
  2. 前記第1のコンテキストベクトル(247)および前記第2のコンテキストベクトル(245)をデコードすることは、前記第1のコンテキストベクトル(247)と前記第2のコンテキストベクトル(245)との連結をデコードすることを含む、請求項1に記載のコンピュータが実施する方法(300)。
  3. 前記第1のパスの仮説(222)をエンコードすることは、前記仮説エンコーダ(242)において、前記第1のパスの仮説(222)を双方向エンコードして、前記第1のパスの仮説(222)からコンテキスト情報を生成することを含む、請求項1または2に記載のコンピュータが実施する方法(300)。
  4. 前記仮説エンコーダ(242)は、長短期記憶(LSTM)ネットワークを含む、請求項3に記載のコンピュータが実施する方法(300)。
  5. 前記動作は、
    共有エンコーダ(210)において、音響フレーム(212)をエンコードすること、
    前記RNNデコーダモデル(220)において、前記共有エンコーダ(210)から伝達された前記エンコードされた音響フレーム(212)に基づいて、前記第1のパスの仮説(222)を生成すること、を含む、請求項1乃至4のいずれか一項に記載のコンピュータが実施する方法(300)。
  6. 前記動作は、単方向音声エンコーダ(250)において、前記共有エンコーダ(210)から伝達された前記エンコードされた音響フレーム(212)に基づいて、音響埋め込み(232)を生成することをさらに含む、請求項5に記載のコンピュータが実施する方法(300)。
  7. 前記単方向音声エンコーダ(250)は、長短期記憶(以下、LSTMとする)ネットワークを含む、請求項6に記載のコンピュータが実施する方法(300)。
  8. 前記LSTMネットワークが少なくとも2つの層を含む、請求項7に記載のコンピュータが実施する方法(300)。
  9. 前記動作は、
    前記RNNデコーダモデル(220)をトレーニングすること、
    トレーニングされた前記RNNデコーダモデル(220)のパラメータが固定された状態で、デリバレーションデコーダ(240)をトレーニングすること、を含み、前記デリバレーションデコーダ(240)は、前記仮説エンコーダ(242)、前記第1のアテンション機構(246)、前記第2のアテンション機構(244)、および前記コンテキストベクトルデコーダ(230)を含む、請求項1乃至8のいずれか一項に記載のコンピュータが実施する方法(300)。
  10. 前記動作は、前記RNNデコーダモデル(220)および前記デリバレーションデコーダ(240)のトレーニング中に単語誤り率を最小化することをさらに含む、請求項9に記載のコンピュータが実施する方法(300)。
  11. 前記動作は、前記RNNデコーダモデル(220)およびデリバレーションデコーダ(240)を共同でトレーニングすることをさらに含み、前記デリバレーションデコーダ(240)は、前記仮説エンコーダ(242)、前記第1のアテンション機構(246)、前記第2のアテンション機構(244)、および前記コンテキストベクトルデコーダ(230)を含む、請求項1乃至10のいずれか一項に記載のコンピュータが実施する方法(300)。
  12. 前記動作は、前記RNNデコーダモデル(220)および前記デリバレーションデコーダ(240)の共同トレーニング中に単語誤り率を最小化することをさらに含む、請求項11に記載のコンピュータが実施する方法(300)。
  13. 前記データ処理ハードウェア(112)がユーザデバイス(110)上に存在する、請求項1乃至12のいずれか一項に記載のコンピュータが実施する方法(300)。
  14. システム(400)であって、
    データ処理ハードウェア(112)と、
    前記データ処理ハードウェア(112)と通信するメモリハードウェア(114)と、を備え、前記メモリハードウェア(114)は、命令を格納しており、前記命令は、前記データ処理ハードウェア(112)上で実行されるときに、前記データ処理ハードウェア(112)に動作を実行させ、前記動作は、
    第1のパスの仮説(222)およびエンコードされた音響フレーム(212)を受信すること、前記第1のパスの仮説(222)は、前記エンコードされた音響フレーム(212)に対してリカレントニューラルネットワーク(以下、RNNとする)デコーダモデル(220)によって生成されたものであり、
    仮説エンコーダ(242)において、前記第1のパスの仮説(222)をエンコードすること、
    前記エンコードされた音響フレーム(212)に対してアテンションする第1のアテンション機構(246)を使用して、第1のコンテキストベクトル(247)を生成すること、
    エンコードされた前記第1のパスの仮説(222)に対してアテンションする第2のアテンション機構(244)を使用して、第2のコンテキストベクトル(245)を生成すること、
    コンテキストベクトルデコーダ(230)において、前記第1のコンテキストベクトル(247)および前記第2のコンテキストベクトル(245)をデコードして、第2のパスの仮説(222)を形成すること、を含む、システム(400)。
  15. 前記第1のコンテキストベクトル(247)および前記第2のコンテキストベクトル(245)をデコードすることは、前記第1のコンテキストベクトル(247)と前記第2のコンテキストベクトル(245)との連結をデコードすることを含む、請求項14に記載のシステム(400)。
  16. 前記第1のパスの仮説(222)をエンコードすることは、前記仮説エンコーダ(242)において、前記第1のパスの仮説(222)を双方向エンコードして、前記第1のパスの仮説(222)からコンテキスト情報を生成することを含む、請求項14または15に記載のシステム(400)。
  17. 前記仮説エンコーダ(242)は、長短期記憶(LSTM)ネットワークを含む、請求項16に記載のシステム(400)。
  18. 前記動作は、
    共有エンコーダ(210)において、音響フレーム(212)をエンコードすること、
    前記RNNデコーダモデル(220)において、前記共有エンコーダ(210)から伝達された前記エンコードされた音響フレーム(212)に基づいて、前記第1のパスの仮説(222)を生成すること、を含む、請求項14乃至17のいずれか一項に記載のシステム(400)。
  19. 前記動作は、単方向音声エンコーダ(250)において、前記共有エンコーダ(210)から伝達された前記エンコードされた音響フレーム(212)に基づいて、音響埋め込み(232)を生成することをさらに含む、請求項18に記載のシステム(400)。
  20. 前記単方向音声エンコーダ(250)は、長短期記憶(以下、LSTMとする)ネットワークを含む、請求項19に記載のシステム(400)。
  21. 前記LSTMネットワークが少なくとも2つの層を含む、請求項20に記載のシステム(400)。
  22. 前記動作は、
    前記RNNデコーダモデル(220)をトレーニングすること、
    トレーニングされた前記RNNデコーダモデル(220)のパラメータが固定された状態で、デリバレーションデコーダ(240)をトレーニングすること、を含み、前記デリバレーションデコーダ(240)は、前記仮説エンコーダ(242)、前記第1のアテンション機構(246)、前記第2のアテンション機構(244)、および前記コンテキストベクトルデコーダ(230)を含む、請求項14乃至21のいずれか一項に記載のシステム(400)。
  23. 前記動作は、前記RNNデコーダモデル(220)および前記デリバレーションデコーダ(240)のトレーニング中に単語誤り率を最小化することをさらに含む、請求項22に記載のシステム(400)。
  24. 前記動作は、前記RNNデコーダモデル(220)およびデリバレーションデコーダ(240)を共同でトレーニングすることをさらに含み、前記デリバレーションデコーダ(240)は、前記仮説エンコーダ(242)、前記第1のアテンション機構(246)、前記第2のアテンション機構(244)、および前記コンテキストベクトルデコーダ(230)を含む、請求項14乃至23のいずれか一項に記載のシステム(400)。
  25. 前記動作は、前記RNNデコーダモデル(220)および前記デリバレーションデコーダ(240)の共同トレーニング中に単語誤り率を最小化することをさらに含む、請求項24に記載のシステム(400)。
  26. 前記データ処理ハードウェア(112)がユーザ装置(110)上に存在する、請求項14乃至25のいずれか一項に記載のシステム(400)。
JP2022544204A 2020-01-21 2021-01-14 デリバレーションモデルベースの2パスのエンド・ツー・エンド音声認識 Active JP7222153B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023014655A JP7488381B2 (ja) 2020-01-21 2023-02-02 デリバレーションモデルベースの2パスのエンド・ツー・エンド音声認識

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062963721P 2020-01-21 2020-01-21
US62/963,721 2020-01-21
PCT/US2021/013449 WO2021150424A1 (en) 2020-01-21 2021-01-14 Deliberation model-based two-pass end-to-end speech recognition

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023014655A Division JP7488381B2 (ja) 2020-01-21 2023-02-02 デリバレーションモデルベースの2パスのエンド・ツー・エンド音声認識

Publications (2)

Publication Number Publication Date
JP7222153B1 true JP7222153B1 (ja) 2023-02-14
JP2023513430A JP2023513430A (ja) 2023-03-31

Family

ID=74661446

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022544204A Active JP7222153B1 (ja) 2020-01-21 2021-01-14 デリバレーションモデルベースの2パスのエンド・ツー・エンド音声認識
JP2023014655A Active JP7488381B2 (ja) 2020-01-21 2023-02-02 デリバレーションモデルベースの2パスのエンド・ツー・エンド音声認識

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023014655A Active JP7488381B2 (ja) 2020-01-21 2023-02-02 デリバレーションモデルベースの2パスのエンド・ツー・エンド音声認識

Country Status (6)

Country Link
US (2) US11908461B2 (ja)
EP (2) EP4062400B1 (ja)
JP (2) JP7222153B1 (ja)
KR (1) KR20220130699A (ja)
CN (1) CN115004296A (ja)
WO (1) WO2021150424A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110648658B (zh) * 2019-09-06 2022-04-08 北京达佳互联信息技术有限公司 一种语音识别模型的生成方法、装置及电子设备
US11783811B2 (en) * 2020-09-24 2023-10-10 International Business Machines Corporation Accuracy of streaming RNN transducer
US11532312B2 (en) * 2020-12-15 2022-12-20 Microsoft Technology Licensing, Llc User-perceived latency while maintaining accuracy
US11908458B2 (en) * 2020-12-29 2024-02-20 International Business Machines Corporation Customization of recurrent neural network transducers for speech recognition
JP2024512071A (ja) * 2021-03-26 2024-03-18 グーグル エルエルシー 自動音声認識のための多言語再スコアリングモデル
EP4392967A1 (en) * 2021-10-04 2024-07-03 Google LLC Transducer-based streaming deliberation for cascaded encoders
US11908454B2 (en) 2021-12-01 2024-02-20 International Business Machines Corporation Integrating text inputs for training and adapting neural network transducer ASR models
KR102478763B1 (ko) * 2022-06-28 2022-12-19 (주)액션파워 자소 정보를 이용한 음성 인식 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018133070A (ja) 2017-02-13 2018-08-23 株式会社東芝 対話システム、対話方法、および対話システムを適合させる方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11119795A (ja) * 1997-10-16 1999-04-30 Nec Corp 特徴量の濃縮合成方法、及び特徴量の濃縮合成装置
US10896681B2 (en) * 2015-12-29 2021-01-19 Google Llc Speech recognition with selective use of dynamic language models
US10176799B2 (en) * 2016-02-02 2019-01-08 Mitsubishi Electric Research Laboratories, Inc. Method and system for training language models to reduce recognition errors
US10210862B1 (en) * 2016-03-21 2019-02-19 Amazon Technologies, Inc. Lattice decoding and result confirmation using recurrent neural networks
US10490183B2 (en) * 2017-11-22 2019-11-26 Amazon Technologies, Inc. Fully managed and continuously trained automatic speech recognition service
JP6989951B2 (ja) 2018-01-09 2022-01-12 国立大学法人 奈良先端科学技術大学院大学 スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法
JP7070653B2 (ja) 2018-02-21 2022-05-18 日本電信電話株式会社 学習装置、音声認識順位推定装置、それらの方法、およびプログラム
US11100920B2 (en) * 2019-03-25 2021-08-24 Mitsubishi Electric Research Laboratories, Inc. System and method for end-to-end speech recognition with triggered attention
US11158307B1 (en) * 2019-03-25 2021-10-26 Amazon Technologies, Inc. Alternate utterance generation
US10964309B2 (en) * 2019-04-16 2021-03-30 Microsoft Technology Licensing, Llc Code-switching speech recognition with end-to-end connectionist temporal classification model
US11615785B2 (en) * 2019-05-10 2023-03-28 Robert Bosch Gmbh Speech recognition using natural language understanding related knowledge via deep feedforward neural networks
US11373639B2 (en) * 2019-12-12 2022-06-28 Mitsubishi Electric Research Laboratories, Inc. System and method for streaming end-to-end speech recognition with asynchronous decoders pruning prefixes using a joint label and frame information in transcribing technique

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018133070A (ja) 2017-02-13 2018-08-23 株式会社東芝 対話システム、対話方法、および対話システムを適合させる方法

Also Published As

Publication number Publication date
JP2023513430A (ja) 2023-03-31
WO2021150424A1 (en) 2021-07-29
US20210225369A1 (en) 2021-07-22
CN115004296A (zh) 2022-09-02
KR20220130699A (ko) 2022-09-27
JP7488381B2 (ja) 2024-05-21
EP4062400B1 (en) 2024-07-17
EP4414896A2 (en) 2024-08-14
US12027158B2 (en) 2024-07-02
EP4062400A1 (en) 2022-09-28
US11908461B2 (en) 2024-02-20
EP4414896A3 (en) 2024-10-16
JP2023041867A (ja) 2023-03-24
US20230186907A1 (en) 2023-06-15

Similar Documents

Publication Publication Date Title
JP7222153B1 (ja) デリバレーションモデルベースの2パスのエンド・ツー・エンド音声認識
JP7351018B2 (ja) エンド・ツー・エンド音声認識における固有名詞認識
JP2023545988A (ja) トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル
JP7375211B2 (ja) アテンションベースのジョイント音響およびテキストのオンデバイス・エンド・ツー・エンドモデル
KR20230158608A (ko) 종단 간 자동 음성 인식 신뢰도 및 삭제 추정을 위한 멀티태스크 학습
US20240321263A1 (en) Emitting Word Timings with End-to-End Models
US20230298563A1 (en) Deliberation by Text-Only and Semi-Supervised Training

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221020

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20221020

Free format text: JAPANESE INTERMEDIATE CODE: A801

Effective date: 20221020

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20221020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230202

R150 Certificate of patent or registration of utility model

Ref document number: 7222153

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150