JP2020537765A - 多言語音声認識ネットワークをトレーニングする方法、音声認識システム及び多言語音声認識システム - Google Patents

多言語音声認識ネットワークをトレーニングする方法、音声認識システム及び多言語音声認識システム Download PDF

Info

Publication number
JP2020537765A
JP2020537765A JP2020518836A JP2020518836A JP2020537765A JP 2020537765 A JP2020537765 A JP 2020537765A JP 2020518836 A JP2020518836 A JP 2020518836A JP 2020518836 A JP2020518836 A JP 2020518836A JP 2020537765 A JP2020537765 A JP 2020537765A
Authority
JP
Japan
Prior art keywords
language
network
speech recognition
module
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020518836A
Other languages
English (en)
Other versions
JP6818941B2 (ja
Inventor
晋司 渡部
晋司 渡部
堀 貴明
貴明 堀
博史 関
博史 関
ル・ルー、ジョナサン
ハーシェイ、ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2020537765A publication Critical patent/JP2020537765A/ja
Application granted granted Critical
Publication of JP6818941B2 publication Critical patent/JP6818941B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

多言語音声認識ネットワークをトレーニングする方法は、所定の言語に対応する発話データセットを提供することと、言語識別(ID)ラベルを発話データセットに挿入することであって、発話データセットの各々は、言語IDラベルの各々によってラベル付けされることと、ラベル付けされた発話データセットを連結することと、発話データセットから初期ネットワークパラメータを生成することと、所定の系列に従って初期ネットワークパラメータを選択することと、トレーニング結果が閾値に達するまで、一連の選択された初期ネットワークパラメータ及び連結されたラベル付けされた発話データセットを用いてエンドツーエンドネットワークを反復的にトレーニングすることとを含む。

Description

本発明は、包括的には、多言語エンドツーエンド音声認識のための装置及び方法に関し、より具体的には、同時の言語識別及び音声認識のためにニューラルネットワークをトレーニングする方法及びシステムに関する。
エンドツーエンド自動音声認識(ASR)は、近年、開発の容易さの観点で従来のハイブリッドASRシステムを凌ぎながら、これらの従来のハイブリッドASRシステムによって得られた最新技術の性能に達することにより、その効率性を証明している。従来のASRシステムは、発音辞書及び単語のセグメンテーション等の言語に依存したリソースを必要とする。これらは、音素と共に、中間表現としてモデルに組み込まれる。これらのリソースは手作業で開発されるため、2つの不利点を有する。第1に、これらのリソースはエラーを起こしやすいか又はそうでない場合準最適である場合があり、第2に、これらのリソースは、特に新たな言語について、ASRシステムを開発するのに必要な労力を大幅に増大させる。このため、言語に依存したリソースの使用は、多言語認識システムの開発を特に複雑にする。対照的に、エンドツーエンドASRシステムは、入力音声特徴系列を、音素又は単語等の表音/言語構成体のいかなる明確な中間表現も用いることなく、出力ラベル系列(主に、本発明の実施形態では、n−gram文字で構成される文字又はトークンの系列)に直接変換する。エンドツーエンドASRシステムの主要な利点は、手作業で作製された言語に依存するリソースの必要性を回避することである。
多言語/言語非依存ASRに関するいくつかの従来の研究が存在する。ディープニューラルネットワーク(DNN)に基づく多言語システムとの関連においては、DNNは言語非依存のボトルネック特徴を計算するのに用いられる。したがって、発音辞書及び言語モデルのような言語依存バックエンドシステムを準備する必要がある。加えて、言語非依存モジュール及び言語依存モジュールを繋げるには、発話された言語を予測する必要がある。
本発明では、複数の異なる言語において、音声の認識及び言語の識別を同時に行うことができる言語非依存ニューラルネットワークアーキテクチャを用いたシステム及び方法が開示される。例えば、本発明は、英語、日本語、標準中国語、ドイツ語、スペイン語、フランス語、イタリア語、オランダ語、ポルトガル語及びロシア語での発話を自動的に認識し、同時に各発話の言語を識別することを可能にする。
本発明の一実施形態によれば、ネットワークは、複数の言語にわたるsoftmax層を含む全てのパラメータを共有する。
例えば、ネットワークは、複数の言語の書記素集合を連結することによって、softmax層を含む全てのパラメータを共有するため、本発明の言語非依存ニューラルネットワークアーキテクチャは、音声を認識し、同時に、英語、日本語、標準中国語、ドイツ語、スペイン語、フランス語、イタリア語、オランダ語、ポルトガル語及びロシア語等の様々な言語において言語を識別することができる。
本発明の言語非依存ニューラルネットワークは、(1)複数の言語からの書記素集合及び言語IDの和集合としてユニバーサルラベル集合を作成し、これに基づいて初期ネットワークが構築されることと、(2)複数の異なる言語コーパスにおける各発話のトランスクリプトに言語IDラベルを挿入することと、(3)複数の異なる言語コーパスから1つ以上の発話を選択し、これらを任意の順序で連結することによって発話を生成することであって、対応するトランスクリプトも同じ順序で連結されることと、(4)生成された発話及びトランスクリプトを用いて初期ネットワークをトレーニングすることと、(5)トレーニングされたネットワークを用いて音声を認識することと、によって多言語エンドツーエンド音声認識を可能にする。
多言語音声認識のためのこのモノリシックエンドツーエンドASRシステムは、3つの利点を有し、第1に、モノリシックアーキテクチャが、言語依存ASRモジュール及び外部言語識別モジュールをなくし、第2に、エンドツーエンドアーキテクチャが、手作業で作成された発音辞書を準備することを不要にし、第3に、共有ネットワークが、低リソース言語の場合であっても、より良好な特徴表現の学習を可能にする。
本発明はまた、言語切り替えを含めるようにトレーニングデータが拡張されるため、音声信号内に言語の切り替えが存在する場合であっても、エンドツーエンドASRシステムが正しく機能することを可能にする。
本発明のいくつかの実施形態によれば、多言語音声認識ネットワークをトレーニングする方法は、所定の言語に対応する発話データセットを提供することと、言語識別(ID)ラベルを前記発話データセットに挿入することであって、前記発話データセットの各々は、前記言語IDラベルの各々によってラベル付けされることと、前記ラベル付けされた発話データセットを連結することと、前記発話データセットから初期ネットワークパラメータを生成することと、トレーニング結果が閾値に達するまで、一連の前記初期ネットワークパラメータ及び前記連結されたラベル付けされた発話データセットを用いてエンドツーエンドネットワークを反復的にトレーニングすることとを含む。
さらに、本発明の一実施形態によれば、多言語音声認識を行う音声認識システムは、声音を受信するためのインターフェースと、1つ以上のプロセッサと、前記多言語音声認識ネットワークをトレーニングする方法によって得られた、トレーニングされたネットワークパラメータを用いることによってトレーニングされたエンドツーエンド音声認識モジュールを記憶する1つ以上の記憶デバイスであって、前記エンドツーエンド音声認識モジュールは、実行されると、前記1つ以上のプロセッサに、前記声音から変換されたオーディオ波形データから、音響特徴抽出モジュールを用いて音響特徴系列を抽出する動作と、前記音響特徴系列を、エンコーダネットワークパラメータを有するエンコーダネットワークを用いて隠れベクトル系列に符号化する動作と、前記隠れベクトル系列を、デコーダネットワークパラメータを有するデコーダネットワークにフィードすることによって、第1の出力ラベル系列確率を予測する動作と、コネクショニスト時系列分類(CTC)モジュールによって、CTCネットワークパラメータ、及び前記エンコーダネットワークからの前記隠れベクトル系列を用いて第2の出力ラベル系列確率を予測する動作と、ラベル系列探索モジュールを用いて、前記デコーダネットワーク及び前記CTCモジュールから提供された前記第1の出力ラベル系列確率及び前記第2の出力ラベル系列確率を組み合わせることによって、最も高い系列確率を有する出力ラベル系列を探索する動作とを含む動作を実行させる命令を含む、1つ以上の記憶デバイスとを備える。
またさらに、本発明の一実施形態によれば、多言語音声認識のために、トレーニングされたネットワークパラメータを生成する多言語音声認識システムは、1つ以上のプロセッサと、パラメータ、及び前記1つ以上のプロセッサによって実行可能な命令を含むプログラムモジュールを記憶する1つ以上の記憶デバイスであって、前記命令は、実行されると、前記1つ以上のプロセッサに、所定の言語に対応する発話データセットを提供する動作と、言語識別(ID)ラベルを前記発話データセットに挿入する動作であって、前記発話データセットの各々は、前記言語IDラベルの各々によってラベル付けされる、動作と、前記ラベル付けされた発話データセットを連結する動作と、前記発話データセットから初期ネットワークパラメータを生成する動作と、所定の系列に従って前記初期ネットワークパラメータを選択する動作と、トレーニング結果が閾値に達するまで、一連の前記選択された初期ネットワークパラメータ及び前記連結されたラベル付けされた発話データセットを用いてエンドツーエンドネットワークを反復的にトレーニングする動作とを実行させる、1つ以上の記憶デバイスとを備える。
ここに開示されている実施形態は、添付図面を参照して更に説明される。示されている図面は、必ずしも一律の縮尺というわけではなく、その代わり、一般的に、ここに開示されている実施形態の原理を示すことに重点が置かれている。
本発明の実施形態による多言語音声認識方法を示すブロック図である。 本発明の実施形態による多言語エンドツーエンドネットワークを用いた音声認識モジュールを示すブロック図である。 本発明の実施形態による多言語音声認識モジュールにおけるニューラルネットワークを示す概略図である。 本発明の実施形態による多言語音声認識システムを示すブロック図である。 本発明の実施形態による多言語音声認識モジュールにおけるニューラルネットワークを示す概略図である。 本発明の実施形態による多言語音声認識モジュールをトレーニングするデータ準備手順を示す図である。 本発明の実施形態による多言語音声認識による、文字誤り率を、発話における言語数の関数として示す評価結果を示す図である。 本発明の実施形態による多言語音声認識の例示的な出力を示す図である。
上記で明らかにされた図面は、ここに開示されている実施形態を記載しているが、この論述において言及されるように、他の実施形態も意図されている。この開示は、限定ではなく代表例として例示の実施形態を提示している。ここに開示されている実施形態の原理の範囲及び趣旨に含まれる非常に多くの他の変更及び実施形態を当業者は考案することができる。
本発明の好ましい実施形態において、言語非依存ニューラルネットワークは、様々な言語の複数の音声コーパスを用いて構築される。
ニューラルネットワークを用いて、話した発話の認識及び発話の言語の識別を同時に行うことができる。例えば、このニューラルネットワークを用いて、英語、日本語、標準中国語、ドイツ語、スペイン語、フランス語、イタリア語、オランダ語、ポルトガル語及びロシア語における発話を自動的にトランスクリプションし、同時に各発話の言語を識別することができる。本発明の実施形態に従って構築されたシステムに対し、人物が英語で「How are you?」と話す場合、システムは、テキストフォーマットで、「[EN] how are you?」を出力することができる。別の人物が同じシステムに対しフランス語で「comment allez-vous?」と話す場合、システムは、テキストフォーマットで、「[FR] comment allez-vous?」を出力することができる。[EN]及び[FR]は、それぞれ、英語及びフランス語に対応する言語IDラベルを表す。人物が英語及びフランス語でシステムに対し「How are you? comment allez-vous?」と話す場合、システムは、「[EN] how are you? [FR] comment allez-vous?」をテキストフォーマットで出力することができる。
以下の説明は、例示的な実施形態のみを提供し、本開示の範囲も、適用範囲も、構成も限定することを意図していない。そうではなく、例示的な実施形態の以下の説明は1つ以上の例示的な実施形態を実施することを可能にする説明を当業者に提供する。添付の特許請求の範囲に明記されているような開示された主題の趣旨及び範囲から逸脱することなく要素の機能及び配置に行うことができる様々な変更が意図されている。
以下の説明では、実施形態の十分な理解を提供するために、具体的な詳細が与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても実施形態を実施することができることを理解することができる。例えば、開示された主題におけるシステム、プロセス、及び他の要素は、実施形態を不必要な詳細で不明瞭にしないように、ブロック図形式の構成要素として示される場合がある。それ以外の場合において、よく知られたプロセス、構造、及び技法は、実施形態を不明瞭にしないように不必要な詳細なしで示される場合がある。さらに、様々な図面における同様の参照符号及び名称は、同様の要素を示す。
また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として描かれるプロセスとして説明される場合がある。フローチャートは、動作を逐次的なプロセスとして説明することができるが、これらの動作の多くは、並列又は同時に実行することができる。加えて、これらの動作の順序は、再配列することができる。プロセスは、その動作が完了したときに終了することができるが、論述されない又は図に含まれない追加のステップを有する場合がある。さらに、特に説明される任意のプロセスにおける全ての動作が全ての実施形態において行われ得るとは限らない。プロセスは、方法、関数、手順、サブルーチン、サブプログラム等に対応することができる。プロセスが関数に対応するとき、その関数の終了は、呼び出し側関数又はメイン関数へのその機能の復帰に対応することができる。
さらに、開示された主題の実施形態は、少なくとも一部は手動又は自動のいずれかで実施することができる。手動実施又は自動実施は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせを用いて実行することもできるし、少なくとも援助することができる。ソフトウェア、ファームウェア、ミドルウェア又はマイクロコードで実施されるとき、必要なタスクを実行するプログラムコード又はプログラムコードセグメントは、マシン可読媒体に記憶することができる。プロセッサ(複数の場合もある)が、それらの必要なタスクを実行することができる。
本開示において例示されるモジュール及びネットワークは、コンピュータプログラム、ソフトウェア又は命令コードとすることができ、1つ以上のプロセッサを用いて命令を実行することができる。モジュール及びネットワークは1つ以上の記憶デバイスに記憶することができるか、又は別の状況では、例えば、磁気ディスク、光ディスク若しくはテープ等の、記憶媒体、コンピュータ記憶媒体又はデータ記憶デバイス(取外し可能及び/又は非取外し可能)等のコンピュータ可読媒体に記憶することができ、コンピュータ可読媒体は、命令を実行するために1つ以上のプロセッサからアクセス可能である。
コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール又は他のデータ等の情報を記憶するための任意の方法又は技術において実現される揮発性及び不揮発性、取外し可能及び非取外し可能の媒体を含むことができる。コンピュータ記憶媒体は、RAM、ROM、EEPROM若しくはフラッシュメモリ、CD−ROM、デジタルバーサタイルディスク(DVD)若しくは他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置若しくは他の磁気記憶デバイス、又は所望の情報を記憶するために使用することができ、1つ以上のプロセッサを用いて、アプリケーション、モジュール又は両方によってアクセスすることができる任意の他の媒体とすることができる。任意のそのようなコンピュータ記憶媒体は、そのデバイスの一部とすることができるか、そのデバイスからアクセス可能とすることができるか、又はそのデバイスに接続可能とすることができる。本明細書において説明される任意のアプリケーション又はモジュールは、そのようなコンピュータ可読媒体によって記憶できるか、又は別の方法で保持できるコンピュータ可読/実行可能命令を用いて実現することができる。
図1は、図4における記憶装置430に記憶された多言語音声認識モジュール100を示す。多言語音声認識モジュール100は、言語ID挿入モジュール112、発話連結モジュール113、初期ネットワーク構築モジュール115、エンドツーエンドネットワークトレーニングモジュール117及びエンドツーエンド音声認識モジュール200等のプログラムモジュール(コンピュータ実行可能命令モジュール)を含むプロセッサ(ハードウェアプロセッサ)実行可能プログラムである。多言語音声認識モジュール100に含まれるプログラムモジュール112、113、115、117及び200は図4にも示されている。さらに、記憶装置430は、以下で検討される、エンコーダネットワークモジュール202、注意デコーダネットワークモジュール204、CTCモジュール208及び音響特徴抽出モジュール434を含む。
多言語音声認識モジュール100は、以下のステップに従って言語非依存ネットワークを構築する。
(1)初期ネットワーク構築モジュール115が、様々な言語の音声コーパス110を用いて、書記素集合及び言語IDの和集合として得られたユニバーサルラベル集合を用いて初期ネットワークパラメータ116を作成(生成)する。
(2)言語ID挿入モジュール112が、言語IDラベルを、様々な言語の音声コーパス110内の各発話のトランスクリプトに挿入する。
(3)発話連結モジュール113が、様々な言語の音声コーパス110から1つ以上の発話を選択し、これをランダムな順序で連結することによって発話を生成する。ここで、対応するトランスクリプトも、連結された発話と同じ順序で連結される。
(4)エンドツーエンドネットワークトレーニングモジュール117が、生成された発話及びトランスクリプトを用いて初期ネットワークパラメータ116を最適化し、トレーニングされたネットワークパラメータ118を出力する。
いくつかの事例では、様々な言語の音声コーパス110は、音響データセット110と呼ぶことができる。さらに、本開示に示されるモジュール及びネットワークパラメータは、システム設計に従って単数又は複数の記憶装置に記憶することができ、モジュールは、図4に示されるプロセッサ420によってコンピュータ(ハードウェアプロセッサ)実行可能プログラムである。プロセッサ420は、1つ以上の(ハードウェア)プロセッサ(コンピュータ)とすることができる。モジュールの各々は、単数又は複数のプロセッサを用いて実行されることによって、所定の単数又は複数のプロセスを実行する。
トレーニングされたネットワークパラメータ118に記憶された言語非依存ネットワークを用いて、エンドツーエンド音声認識モジュール200は、音声及び音声入力の言語IDを同時に認識することができ、認識結果を出力する。
図2は、本発明の実施形態によるエンドツーエンド音声認識モジュール200を示すブロック図である。
エンドツーエンド音声認識モジュール200は、エンコーダネットワークモジュール202と、エンコーダネットワークパラメータ203と、注意デコーダモジュール204と、デコーダネットワークパラメータ205と、ラベル系列探索モジュール206と、CTCモジュール208と、CTCネットワークパラメータ209とを含む。エンコーダネットワークパラメータ203、デコーダネットワークパラメータ205、及びCTCネットワークパラメータ209は、対応するモジュール202、204、及び208にパラメータを提供する記憶デバイスにそれぞれ記憶される。図4の音響特徴抽出モジュール434を用いて、オーディオ波形データ又はスペクトルデータから音響特徴系列201が抽出される。オーディオ波形データ又はスペクトルデータは、記憶デバイスに記憶し、エンコーダネットワークモジュール202に与えることができる。オーディオ波形データ又はスペクトルデータは、声音を受信し、オーディオ波形データ又はスペクトルデータに変換するデジタル信号処理モジュール(図示せず)を用いて、図4の入力デバイス475を介して取得することができる。さらに、記憶デバイス430又はメモリ440に記憶されるオーディオ波形データ又はスペクトルデータは、エンコーダネットワークモジュール202に与えることができる。声音の信号は図4のネットワーク490を介して与えることができ、入力デバイス475はマイクロフォンデバイスとすることができる。
エンコーダネットワークモジュール202はエンコーダネットワークを含み、エンコーダネットワークパラメータ203からパラメータを読み出すエンコーダネットワークを用いて、音響特徴系列201が隠れベクトル系列に変換される。
注意デコーダネットワークモジュール204を使用する注意機構が、以下のように説明される。注意デコーダネットワークモジュール204はデコーダネットワークを含む。注意デコーダネットワークモジュール204は、エンコーダネットワークモジュール202から隠れベクトル系列を、ラベル系列探索モジュール206から先行するラベルを受信し、その後、デコーダネットワークパラメータ205からパラメータを読み出すデコーダネットワークを用いて、先行するラベルに関する次のラベルの第1の事後確率分布を計算する。注意デコーダネットワークモジュール204は、第1の事後確率分布をラベル系列探索モジュール206に与える。CTCモジュール208は、エンコーダネットワークモジュール202から隠れベクトル系列を、ラベル系列探索モジュール206から先行するラベルを受信し、CTCネットワークパラメータ209及び動的計画法を用いて、次のラベル系列の第2の事後確率分布を計算する。この計算後、CTCモジュール208は、第2の事後確率分布をラベル系列探索モジュール206に与える。
ラベル系列探索モジュール206は、注意デコーダネットワークモジュール204及びCTCモジュール208から与えられる第1の事後確率分布及び第2の事後確率分布を用いて、最も高い系列確率を有するラベル系列を見つける。注意デコーダネットワークモジュール204及びCTCモジュール208によって計算されるラベル系列の第1の事後確率分布及び第2の事後確率分布は結合され、1つの確率にされる。この場合、計算された事後確率の結合は、線形結合に基づいて実行することができる。エンドツーエンド音声認識モジュール200によれば、CTC確率を考慮に入れて、入力音響特徴系列に対してより良好なアライメントされた仮説を見つけることが可能になる。
言語非依存エンドツーエンド音声認識のためのニューラルネットワークアーキテクチャ
エンドツーエンド音声認識は、入力音響特徴系列Xが与えられたときの最も確からしいラベル系列
Figure 2020537765
を見つける問題と一般に定義され、すなわち、
Figure 2020537765
である。ただし、Uは所定のラベルの集合Uが与えられたときの取り得るラベル系列の集合を表す。ラベルは、文字又は単語とすることができる。ラベル系列確率p(Y|X)を、予めトレーニングされたニューラルネットワークを用いて計算することができる。
本発明の実施形態において、言語非依存ニューラルネットワークは、フィードフォワードニューラルネットワーク(FFNN)、畳み込みニューラルネットワーク(CNN)及びリカレントニューラルネットワーク(RNN)等の様々なネットワークの組み合わせとすることができる。
例えば、言語非依存ニューラルネットワークのために、ハイブリッド注意/CTCアーキテクチャを用いることができる。図2は、ハイブリッド注意/CTCアーキテクチャを有する多言語エンドツーエンドネットワークを用いる音声認識モジュール200を示すブロック図であり、ラベル系列確率は以下のように計算される。
エンコーダモジュール202は、
Figure 2020537765
として、音響特徴系列X=x,...,xを隠れベクトル系列H=h,...,hに変換するために使用されるエンコーダネットワークを含む。ただし、関数Encoder(X)は、スタックされる、1つ以上のリカレントニューラルネットワーク(RNN)からなることができる。RNNは長短期メモリ(LSTM)として実現することができ、長短期メモリは、各隠れユニット内に入力ゲート、忘却ゲート、出力ゲート及びメモリセルを有する。別のRNNは双方向RNN(BRNN)又は双方向LSTM(BLSTM)とすることができる。BLSTMは一対のLSTM RNNであり、一方は順方向LSTMであり、他方は逆方向LSTMである。BLSTMの隠れベクトルは、順方向LSTM及び逆方向LSTMの隠れベクトルの連結として取得される。
順方向LSTMの場合、順方向の第tの隠れベクトル
Figure 2020537765
は以下のように計算される。
Figure 2020537765
ただし、σ(・)は要素ごとのシグモイド関数であり、tanh(・)は要素ごとの双曲線正接関数であり、
Figure 2020537765
、及び
Figure 2020537765
はそれぞれ、xに関する入力ゲートベクトル、忘却ゲートベクトル、出力ゲートベクトル及びセルアクティベーションベクトルである。
Figure 2020537765
はベクトル間の要素ごとの乗算を表す。重み行列
Figure 2020537765
及びバイアスベクトル
Figure 2020537765
はLSTMのパラメータであり、それらは下付き文字z∈{x,h,i,f,o,c}
によって識別される。例えば、
Figure 2020537765
は隠れ/入力ゲート行列であり、
Figure 2020537765
は入力/出力ゲート行列である。隠れベクトル
Figure 2020537765
は入力ベクトルx及び先行する隠れベクトル
Figure 2020537765
から再帰的に取得される。ただし、
Figure 2020537765
は零ベクトルであると仮定される。
逆方向LSTMによれば、逆方向の第tの隠れベクトル
Figure 2020537765
は以下のように計算される。
Figure 2020537765
ただし、
Figure 2020537765
及び
Figure 2020537765
はそれぞれ、xに関する入力ゲートベクトル、忘却ゲートベクトル、出力ゲートベクトル及びセルアクティベーションベクトルである。重み行列
Figure 2020537765
及びバイアスベクトル
Figure 2020537765
はLSTMのパラメータであり、それらは順方向LSTMと同様にして下付き文字によって識別される。隠れベクトル
Figure 2020537765
は入力ベクトルx及び後続の隠れベクトル
Figure 2020537765
から再帰的に取得される。ただし、
Figure 2020537765
は零ベクトルであると仮定される。
BLSTMの隠れベクトルは、以下のように、順方向隠れベクトル及び逆方向隠れベクトルを連結することによって取得される。
Figure 2020537765
ただし、Tは、全てのベクトルが列ベクトルであると仮定するときに、ベクトルに関する転置演算を表す。
Figure 2020537765
及び
Figure 2020537765
はBLSTMのパラメータとみなされる。
より良好な隠れベクトルを取得するために、第1のBLSTMの隠れベクトルを第2のBLSTMに送り込み、その後、第2のBLSTMの隠れベクトルを第3のBLSTMに送り込み、以下同様にすることによって、複数のBLSTMをスタックすることができる。h’が1つのBLSTMによって取得された隠れベクトルである場合には、それを別のBLSTMに送り込むときに、x=h’であると仮定する。計算を削減するために、1つのBLSTMから別のBLSTMに1つおきの隠れベクトルのみを送り込むことができる。この場合、出力隠れベクトル系列の長さは、入力音響特徴系列の長さの半分になる。
複数のBLSTMの下付き文字z∈{x,h,i,f,o,c}によって識別される全てのパラメータ
Figure 2020537765
及び
Figure 2020537765
は、エンコーダネットワークパラメータ203に記憶され、隠れベクトル系列Hを計算するために使用される。
注意デコーダモジュール204は、隠れベクトル系列Hを用いて、ラベル系列確率patt(Y|X)を計算するために使用されるデコーダネットワークを含む。YがL長のラベル系列y,y,...,yであると仮定する。patt(Y|X)を効率的に計算するために、その確率は、
Figure 2020537765
として確率連鎖律によって分解することができ、各ラベル確率patt(y|y,...,yl−1,X)はラベルにわたる確率分布から取得され、その確率分布は、
Figure 2020537765
としてデコーダネットワークを用いて推定される。ただし、yはラベルを表す確率変数であり、rはコンテンツベクトルと呼ばれ、それはHのコンテンツ情報を有する。ql−1はデコーダ状態ベクトルであり、それは、先行するラベルy,...,yl−1及び先行するコンテンツベクトルr,...,rl−1の文脈情報を含む。したがって、ラベル確率は、文脈を与えられるとすると、y=yの確率として取得され、すなわち、
Figure 2020537765
である。
コンテンツベクトルrは一般に、エンコーダネットワークの隠れベクトルの加重和として与えられ、すなわち、
Figure 2020537765
である。ただし、altは注意重みと呼ばれ、それはΣlt=1を満たす。注意重みはql−1及びHを用いて、以下のように計算することができる。
Figure 2020537765
ただし、W、V、F及びUは行列であり、w及びbはベクトルであり、それらはデコーダネットワークのトレーニング可能なパラメータである。eltは第(l−1)の状態ベクトルql−1と第tの隠れベクトルhとの間の照合スコアであり、時間的なアライメント分布a={alt|t=1,...,T}を形成する。al−1は、先行するラベルyl−1を予測するために使用される先行するアライメント分布{a(l−1)t|t=1,...,T}を表す。f={flt|t=1,...,T}は、al−1に関するFとの畳み込み結果であり、それは、先行するアライメントを現在のアライメントに反映させるために使用される。「*」は畳み込み演算を表す。
ラベル確率分布は、
Figure 2020537765
として状態ベクトルql−1及びコンテンツベクトルrを用いて取得される。ただし、Wqy及びWryは行列であり、bはベクトルであり、それらはデコーダネットワークのトレーニング可能なパラメータである。softmax()関数は、K次元ベクトルvの場合に、
Figure 2020537765
として計算される。ただし、v[i]は、vの第iの要素を示す。
その後、デコーダ状態ベクトルql−1が、以下のように、LSTMを用いて、qに更新される。
Figure 2020537765
ただし、
Figure 2020537765
及び
Figure 2020537765
はそれぞれ、入力ベクトルxに関する入力ゲートベクトル、忘却ゲートベクトル、出力ゲートベクトル及びセルアクティベーションベクトルである。重み行列
Figure 2020537765
及びバイアスベクトル
Figure 2020537765
はLSTMのパラメータであり、それは順方向LSTMと同様にして下付き文字によって識別される。状態ベクトルqは入力ベクトル
Figure 2020537765
及び先行する状態ベクトルql−1から再帰的に取得され、ただし、qは、q−1=0、y=<sos>及びa=1/Tを仮定して計算される。デコーダネットワークの場合、入力ベクトル
Figure 2020537765
は、ラベルy及びコンテンツベクトルrの連結ベクトルとして与えられ、それは
Figure 2020537765
として取得することができ、ただし、Embed(・)は、ラベルを固定次元ベクトルに変換するラベル埋め込みを表す。例えば、これは、以下の式によって計算することができる。
Figure 2020537765
ただし、OneHot(y)は、ラベルインデックスをワンホットベクトル表現に変換するラベルyの1−of−Nコーディングを表す。
Figure 2020537765
は、行列であり、トレーニング可能なパラメータである。
下付き文字z∈{x,h,i,f,o,c}によって識別される全てのパラメータ
Figure 2020537765
及び
Figure 2020537765
と、Wqy、Wry、b
Figure 2020537765
は、デコーダネットワークパラメータ205に記憶され、ラベル確率分布patt(y|y,...,yl−1,X)を計算するために使用される。
CTCモジュール208は、隠れベクトル系列Hを与えられると、ラベル系列YのCTC順方向確率を計算する。CTC定式化は、異なるラベルの集合Uを有するL長のラベル系列Y={y∈U|l=1,...,L}を使用することに留意されたい。付加的な「ブランク」ラベルを有するフレームごとのラベル系列を導入することによって、Z={z∈U∪{b}|t=1,...,T}である。ただし、bはブランクラベルを表す。確率連鎖律と、条件付き独立仮定とを使用することによって、事後確率p(Y|X)は以下のように分解される。
Figure 2020537765
ただし、p(z|zt−1|Y)はブランクラベルを含むラベル遷移確率とみなされる。p(z|X)は、入力系列Xを条件とし、双方向長短期メモリ(BLSTM)を使用することによってモデル化される、フレームごとの事後確率である。
Figure 2020537765
ただし、hはエンコーダネットワークを用いて得られる。
Figure 2020537765
は行列であり、
Figure 2020537765
はベクトルであり、それらはCTCのトレーニング可能なパラメータであり、CTCネットワークパラメータ209に記憶される。式(29)は、全ての取り得るZにわたる総和を取り扱わなければならないが、順方向アルゴリズムを使用することによって効率的に計算される。
CTCのための順方向アルゴリズムは以下のように実行される。長さ2L+1の拡張ラベル系列Y’=y’,y’,...,y’2L+1=b,y,b,y,...,b,y,bが使用される。ただし、ブランクラベル「b」が各対の隣接するラベル間に挿入される。α(s)を順方向確率とする。それは時間フレーム1,...,tに関するラベル系列y,...,yの事後確率を表し、ただし、sは、拡張ラベル系列Y’内の位置を示す。
初期化のために、
Figure 2020537765
が設定される。t=2〜Tの場合に、α(s)は、
Figure 2020537765
として再帰的に計算される。ただし、
Figure 2020537765
である。最後に、CTCベースラベル系列確率が
Figure 2020537765
として得られる。
フレームごとのラベル系列Zは、音響特徴系列Xと出力ラベル系列Yとの間のアライメントを表す。順方向確率を計算するとき、式(34)の再帰によって、Zが単調になるように強制し、アライメントZにおいてsがループ又は大きくジャンプできないようにする。なぜなら、α(s)を得るための再帰は、多くてもα(s)、αt−1(s−1)、αt−1(s−2)しか考慮しないためである。これは、時間フレームが1フレームだけ進むと、ラベルが先行するラベル又はブランクから変化するか、又は同じラベルを維持することを意味する。この制約は、アライメントが単調になるように強制する遷移確率p(z|zt−1,Y)の役割を果たす。それゆえ、pctc(Y|X)が、不規則な(非単調の)アライメントに基づいて計算されるときに、0又は非常に小さい値とすることができる。
最終的に、式(36)のCTCベース確率及び式(14)の注意ベース確率を対数領域において以下のように結合することによってラベル系列確率を得る。
Figure 2020537765
ここで、λは、0≦λ≦1となるようなスカラー重みであり、手動で求めることができる。
図3は、本発明の実施形態による結合ニューラルネットワークモジュール300を示す概略図である。結合ニューラルネットワーク300は、エンコーダネットワークモジュール202と、注意デコーダネットワークモジュール204と、CTCモジュール208とを含む。各矢印は、変換を伴う、又は伴わないデータ転送を表し、各正方形ノード又は円形ノードは、ベクトル又は予測ラベルを表す。音響特徴系列X=x,...,xが、エンコーダネットワークモジュール202に送り込まれ、エンコーダネットワークモジュールでは、2つのBLSTMがスタックされ、第1のBLSTMの1つおきの隠れベクトルが第2のBLSTMに送り込まれる。エンコーダモジュール202の出力の結果、隠れベクトル系列H=h’,h’,...,h’T’が生成される。ただし、T’=T/2である。その後、HがCTCモジュール208及びデコーダネットワークモジュール204に送り込まれる。CTCベース系列確率及び注意ベース系列確率がそれぞれ、CTCモジュール208及び注意デコーダネットワークモジュール204を用いて計算され、ラベル系列確率を取得するために結合される。
同時の言語識別及び音声認識
言語非依存エンドツーエンドシステムの主要な着想は、全てのターゲット言語に現れる文字集合の和集合を含む拡張文字集合を出力ラベルの集合とみなすことである。すなわち、Uunion=UEN∪UJP∪...,であり、ここで、UEN/JP/...は、特定の言語の文字集合である。この拡張文字集合を用いることによって、別個の言語識別モジュールを必要とすることなく、任意の言語について文字系列の尤度を計算することができる。ネットワークは、各発話のターゲット言語のための正しい文字系列を自動的に予測するようにトレーニングされる。和集合の使用は、言語ごとに一意の文字集合を用いることと対照的に、複数の言語において生じる出力シンボルの複製を排除し、低減された計算コストで、よりコンパクトなモデル表現をもたらす。言語非依存システムは、連続した多言語音声を与えられると、言語ID及び音声認識の予測を繰り返す。
さらに、出力ラベルの集合を、言語IDを含むように更に拡張することによって、言語IDの予測をシステムの明確な部分にする。すなわち、Ufinal=Uunion∪{[EN],[JP],...}がエンドツーエンド音声認識のためのラベルの集合Uとして用いられる。本発明の実施形態によれば、ネットワークは、まず、言語ID、k∈{[EN],[JP],...}を予測する。Y=y,...,yは、Uにおける文字の系列であり、Xは音響特徴ベクトルの系列である、事後分布p(Y|X)の代わりに、システムは、言語ID、及び拡張系列Y’=(k,Y)の文字系列としての文字系列の同時分布p(k,Y|X)をモデル化する。ここで、y’=kであり、y’=yl+1,∀l>1である。これは、以下のように確率連鎖律を用いることによって定式化される。
Figure 2020537765
さらに、発話に複数の言語を含む場合、ネットワークが、全体を通じて複数の言語IDを出力することが可能になる。Ufinalにおける文字の系列Y’=y’,...,y’について、言語IDである、Y’における文字
Figure 2020537765
のインデックスを、l,...,lによって表す(すなわち、k∈{[EN],[JP],...})。ここで、システムは、言語ID及び文字の同時分布を以下のようにモデル化する。
Figure 2020537765
これは、「[EN]how<space>are<space>you?[FR]comment<space>allez-vous?」等の、言語IDを含む言語混合文字系列の分布のモデル化と同じである。ここで、<space>は形式上、スペース文字を表す。
ハイブリッド注意/CTCアーキテクチャを用いて、そのような言語混合文字系列をモデル化することができる。言語混合発話を認識するとき、ネットワークは、出力系列の言語を切り替えることができる。図5は、ハイブリッド注意/CTCネットワークを用いた文字系列予測の例を示す。エンコーダネットワークは、日本語及び英語の音声からなる音響特徴を入力として取ることによって、隠れベクトル系列Hを計算する。この例では、x,...,xが日本語に対応し、x,...,xが英語に対応すると仮定するが、実際の音響特徴系列には、言語を分離するインジケーターが存在しない。本発明の実施形態によれば、注意デコーダネットワークは、日本語文字系列が続く言語ID「[JP]」を予測することができ、第1の日本語文字系列を復号した後、ネットワークは、続く文字系列に一致する言語ID、ここでは[EN]を更に予測することができる。
多言語音声認識のためのデータ生成
言語混合発話を予測するために、ハイブリッド注意/CTCネットワークが、そのような言語混合コーパスの集合を用いてトレーニングされる必要がある。しかしながら、同じ発話内に複数の言語が現れるそのような音声コーパスを十分な量収集することは非常に困難である。実際には、そのような発話を収集及びトランスクリプションすることは非常にコストが高く、時間がかかる。本発明の実施形態では、そのようなコーパスは、既に存在する言語依存コーパスの集合から人工的に生成される。
複数のコーパス内の各発話が、文字の系列として対応するトランスクリプトを有すると仮定する。以後、図1における本発明の実施形態に従って、そのような言語混合コーパスを生成する方法が説明される。第1に、言語ID挿入モジュール112は、言語依存コーパス内の各発話のトランスクリプトに言語IDを挿入する。言語IDは、各文字系列の先頭に位置することができる。次に、発話連結モジュール113は、以下で更に説明されるように、選択された発話のカバレッジ、及び言語推移の変動に注意を払いながら、言語依存コーパスから発話を選択する。次に、選択された発話(及びそれらのトランスクリプト)が連結され、生成されたコーパスにおいて単一の発話とみなされる。この手順は、生成されたコーパスの持続時間が、元のコーパスの和集合の持続時間に到達するまで繰り返される。
図6は、生成手順の詳細を示す。第1に言語及び発話をサンプリングする確率を定義する。言語をサンプリングする確率は、元のコーパスの持続時間と比例し、データサイズによって生じる選択バイアスを緩和するために、定数項1/Nが付加される。本発明者らの実験では、連結する発話の最大数Nconcatを3に設定する。1とNconcatとの間の各数nconcatについて、nconcat個の言語及び発話をそれらのサンプリング確率に基づいてサンプリングすることによって、元のコーパスからのnconcat個の発話からなる連結された発話を生成する。元のコーパスの適用範囲を最大にするために、トレーニングセットについて5に設定され、開発セット及び評価セットについて2に設定された最大使用カウントnreuseを導入することによって、発話が過度に再利用されることを防ぐ。この手順を用いて、トレーニングセット、開発セット及び評価セットを生成する。
トレーニング手順
エンドツーエンドネットワークトレーニングモジュール117において、損失関数
Figure 2020537765
の値を小さくするように、エンコーダネットワークパラメータ203、デコーダネットワークパラメータ205、及びCTCネットワークパラメータ209が同時に最適化される。ここで、X及びYは、音響特徴系列及びラベル系列を含むトレーニングデータである。本発明の実施形態によれば、トレーニングデータ(X,Y)は、図1における言語ID挿入モジュール112及び発話連結モジュール113を用いて既存の言語依存コーパスから生成される。
Θは、エンコーダネットワークパラメータ203、デコーダネットワークパラメータ205及びCTCネットワークパラメータ209を含むネットワークパラメータの集合を表す。Nは、トレーニングサンプルの数である。Xは、Xにおける第nの音響特徴系列であり、Yは、Yにおける第nのラベル系列である。pctc(Y|X,Θ)は、パラメータ集合Θを用いて計算された、式(36)におけるCTCベースの系列確率であり、patt(Y|X,Θ)は、パラメータ集合Θを用いて計算された、式(14)における注意ベースの系列確率である。
ネットワークパラメータの集合Θは、確率的勾配降下法によって最適化することができる。第1に、初期ネットワーク構築モジュール115が、初期ネットワークパラメータ116を取得し、行列及びベクトルのサイズと、行列及びベクトルの各要素の初期値とが求められる。行列及びベクトルのサイズは、手作業で又は自動的に決定することができる。例えば、ラベル集合Ufinalのサイズに依存する行列及びベクトルの場合、サイズは、ラベル集合サイズ|Ufinal|に従って求められる。例えば、行列Wqy及びWryの行数が|Ufinal|に等しい場合、式(21)においてベクトルbの次元数も|Ufinal|に等しいはずである。なぜなら、この数はラベル確率分布patt(y|y,...,yl−1,X)の次元と等しくなるはずであるためである。行列及びベクトルの各要素は、ランダム実数として設定することができる。様々な言語の元の音声コーパス110における一意の文字及び言語IDを取得することによって、Ufinalが求められる。
次に、エンドツーエンドネットワークトレーニングモジュール117は、パラメータ集合Θ内のエンコーダネットワークパラメータ、デコーダネットワークパラメータ及びCTCネットワークパラメータを同時に最適化する。勾配降下法に基づいて、パラメータ集合Θの各要素は、L(X,Y,Θ)が収束するまで、
Figure 2020537765
として繰り返し更新される。ここで、ηは学習速度である。
X=X∪...∪X及びY=Y∪...∪Yとなるように、X及びYをM個の小さな部分集合{X,Ym=1,...,Mに分割し、m=1,...,Mについて以下を繰り返すことによってパラメータを更新することも可能である。
Figure 2020537765
小さな部分集合を用いてパラメータを更新することによって、パラメータはより頻繁に更新され、損失関数はより迅速に収束する。
本発明者らの実験では、2つのトレーニング手順を検討する。フラットスタート手順では、モデルは、生成されたコーパスのみをゼロから用いてトレーニングされる。再トレーニング手順では、モデルは、以下のように元のコーパス及び生成されたコーパスを用いて2つのステップでトレーニングされる。まず、言語切り替えのないトレーニングデータ(すなわち、元のコーパス)を用いてモデルをトレーニングし、次に、言語切り替えのあるデータ(生成されたコーパス)を用いてトレーニングを継続する。本発明者らは、以下の理由でこれらの2つのステップを検討する。第1に、言語切り替えのないデータによってトレーニングされたモデルは、言語切り替えのある、間違いなくより難易度の高いデータのトレーニングのための良好な開始点である。第2に、本発明者らは、低リソース言語の比を増大させるために、データ生成アルゴリズムが複製された発話を選択することを可能にした。しかしながら、この特性は、カバレッジの減少を引き起こす。2ステップトレーニングはこの問題を緩和する。
ラベル系列探索
ラベル系列探索モジュール206は、組み合わされたラベル系列確率に従って、以下のように最も確からしいラベル系列
Figure 2020537765
を得る。
Figure 2020537765
ここで、pctc(Y|X)は、式(36)におけるCTCベースのラベル系列確率であり、patt(Y|X)は、式(14)における注意ベースのラベル系列確率であり、本発明の実施形態によればU=Ufinalである。
しかしながら、あり得るラベル系列の数は系列の長さに対し指数関数的に増大するため、Yの全ての可能なラベル系列を列挙し、λ log pctc(Y|X)+(1−λ)log patt(Y|X)を計算することは困難である。したがって、通例、ビーム探索技法を用いて
Figure 2020537765
が得られ、ビーム探索技法では、最初に、より短いラベル系列仮説が生成され、他よりも高いスコアを有する限られた数の仮説のみが、より長い仮説を得るように拡張される。最終的に、完全な仮説において、系列の末尾に到達した最良のラベル系列仮説が選択される。
Ωを、長さlの部分的仮説の集合とする。ビーム探索の開始時に、Ωは、開始シンボル<sos>を有する1つのみの仮説を含む。l=1〜Lmaxについて、Ωl−1における各部分仮説は、あり得る単一のラベルを付加することによって拡張され、新たな仮説はΩに記憶される。ここで、Lmaxは、探索されることになる仮説の最大長である。
各部分仮説hのスコアは以下のように計算される。
Figure 2020537765
ここで、ψatt(h)は以下のように計算される。
Figure 2020537765
ψctc(h,X)を計算するために、自身のプレフィックスとしてhを有する全てのラベル系列の累積確率として定義されるCTCプレフィックス確率
Figure 2020537765
が利用され、CTCスコアは、
Figure 2020537765
と定義される。ただし、vは、空のストリングを除く、全ての取り得るラベル系列を表す。CTCスコアは、式(45)におけるψatt(h)として再帰的に得ることはできないが、入力時間フレームにわたって順方向確率を維持することによって、部分仮説ごとに効率的に計算することができる。
本発明の実施形態によれば、ラベル系列探索モジュール206は、
Figure 2020537765
を以下の手順に従って見つける。
Figure 2020537765
この手順において、Ω及び
Figure 2020537765
は、それぞれ長さlの部分的仮説及び完全な仮説を受け入れるキューとして実施される。1行目〜2行目において、Ω及び
Figure 2020537765
が、空のキューとして初期化される。3行目において、初期仮説<sos>のためのスコアが0に設定される。4行目〜24行目において、Ωl−1における各部分仮説gが、ラベル集合U∪{<eos>}内の各ラベルyによって拡張される。ここで、演算Head(Ω)は、キューΩにおける第1の仮説を返し、Dequeue(Ω)はキューから第1の仮説を除去する。
各拡張された仮説hは、11行目において注意デコーダネットワークを用いてスコアリングされ、12行目においてCTCスコアと組み合わされる。その後、y=<eos>の場合、仮説hは、完全であると仮定され、14行目において、
Figure 2020537765
に記憶される。ここで、
Figure 2020537765
は、hを
Figure 2020537765
に加算する演算である。y≠<eos>の場合、hは16行目においてΩに記憶される。ここで、Ωにおける仮説数、すなわち|Ω|は、17行目において所定の数beamWidthと比較される。|Ω|がbeamWidthを超える場合、Ωにおいて最小スコアhminを有する仮説が18行目〜19行目においてΩから除去され、ここで、Remove(Ω,hmin)は、hminをΩから除去する演算である。最終的に、25行目において、
Figure 2020537765
が最良仮説として選択される。
CTCスコアψctc(h,X)は、修正順方向アルゴリズムを用いて計算することができる。
Figure 2020537765
及び
Figure 2020537765
を時間フレームt=1,...,tにわたる仮説hの順方向確率であるとする。ただし、上付き文字(n)及び(b)はそれぞれ、全てのCTC経路が非ブランクラベル又はブランクラベルで終了する異なる事例を表す。ビーム探索を開始する前に、
Figure 2020537765
及び
Figure 2020537765
が、t=1,...,Tに関して、
Figure 2020537765
として初期化される。ただし、
Figure 2020537765
であり、bがブランクラベルであると仮定する。エンコーダに関するサブサンプリング技法のため、時間インデックスt及び入力長Tは入力発話Xの時間インデックス及び入力長とは異なる場合があることに留意されたい。CTCスコア関数は以下のように実施することができる。
Figure 2020537765
この関数において、所与の仮説hが、1行目において、最初に、最後のラベルy及び残りのラベルgに分割される。yが<eos>である場合には、3行目において、hが完全な仮説であると仮定して、順方向確率の対数を返す。hの順方向確率は、
Figure 2020537765
及び
Figure 2020537765
の定義に従って、
Figure 2020537765
によって与えられる。yが<eos>でない場合には、hが完全な仮説でないと仮定して、順方向確率
Figure 2020537765
及び
Figure 2020537765
並びにプレフィックス確率Ψ=pctc(h,...|X)を計算する。それらの確率に関する初期化ステップ及び再帰ステップが5行目〜13行目に記述されている。この関数において、10行目〜12行目において
Figure 2020537765
及びΨを計算するときにはいつでも、gがhのプレフィックスであり、|g|<|h|であるので、9行目の確率
Figure 2020537765
及び
Figure 2020537765
がビーム探索プロセスを通して既に取得されていると仮定される。したがって、プレフィックス確率及び順方向確率を効率的に計算することができる。9行目のlast(g)は、gの最後のラベルを返す関数であることを留意されたい。
多言語エンドツーエンド音声認識装置
図4は、本発明のいくつかの実施形態による、多言語エンドツーエンド音声認識システム400のブロック図を示す。エンドツーエンド音声認識システム400は、キーボード411及びポインティングデバイス/媒体412と接続可能なヒューマンマシンインターフェース(HMI)410と、1つ以上のプロセッサ420と、記憶デバイス430と、メモリ440と、ローカルエリアネットワーク及びインターネットネットワークを含むネットワーク490と接続可能なネットワークインターフェースコントローラー450(NIC)と、ディスプレイインターフェース460と、マイクロフォンデバイス475と接続可能なオーディオインターフェース470と、印刷デバイス485と接続可能なプリンターインターフェース480とを含む。メモリ440は1つ以上のメモリユニットとすることができる。エンドツーエンド音声認識システム400は、NIC450に接続されるネットワーク490を介して電気的なオーディオ波形/スペクトルデータ495を受信することができる。記憶デバイス430は、言語ID挿入モジュール112と、発話連結モジュール113と、初期ネットワーク構築モジュール115と、エンドツーエンドネットワークトレーニングモジュール117と、エンドツーエンド音声認識モジュール200と、エンコーダネットワークモジュール202と、注意デコーダネットワークモジュール204と、CTCモジュール208と、音響特徴抽出モジュール434とを備える。いくつかの場合、モジュール112、113、115、117、202、204及び208は、システム設計に依拠して、記憶装置430、メモリ440又は外部の取付け可能メモリ(図示せず)に独立して配置することができる。
ラベル系列探索モジュール、エンコーダネットワークパラメータ、デコーダネットワークパラメータ及びCTCネットワークパラメータ等の他のプログラムモジュールについては、この図面において省略されている。さらに、ポインティングデバイス/媒体412は、コンピュータ可読記録媒体に記憶されるコンピュータ実行可能(プロセッサ実行可能)プログラムであるモジュールを含むことができる。注意デコーダネットワークモジュール204、エンコーダネットワークモジュール202及びCTCモジュール208は、ニューラルネットワークパラメータによって形成することができる。音響特徴抽出モジュール434は、音響特徴系列を抽出するために使用されるプログラムモジュールである。音響特徴系列は、一次及び二次時間導関数及び/又はピッチ特徴を伴うメルスケールフィルターバンク係数の系列とすることができる。
エンドツーエンド音声認識を実行するために、キーボード411、ポインティングデバイス/媒体412を用いて、又は他のコンピュータ(図示せず)に接続されているネットワーク490を介して、エンドツーエンド音声認識システム400に命令を送信することができる。システム400は、HMI410を介して命令を受信し、記憶デバイス430に記憶されているエンドツーエンド音声認識モジュール200、注意デコーダネットワークモジュール204、エンコーダネットワークモジュール202、CTCモジュール208及び音響特徴抽出モジュール434をロードすることによって、メモリ440に関連するプロセッサ420を用いてエンドツーエンド音声認識を実行するための命令を実行する。
実験
元のコーパスは、WSJ、CSJ(Maekawa他、2000)、HKUST(Liu他、2006)及びVoxforge(ドイツ語、スペイン語、フランス語、イタリア語、オランダ語、ポルトガル語、ロシア語)(「VoxForge」n.d.)に基づく。
本発明者らは、ハイブリッド注意/CTCネットワークアーキテクチャを用いて言語依存のエンドツーエンドシステム及び言語非依存のエンドツーエンドシステムを構築した。言語依存モデルは、4層BLSTMエンコーダネットワークを用いるのに対し、言語非依存モデルは、ディープ7層BLSTMエンコーダネットワーク等のディープBLSTMエンコーダネットワークを有する。BLSTMエンコーダネットワーク内の層数は7層に限定されない。いくつかの場合、システム設計によれば、層数は2以上であってもよい。本発明者らは、3次元ピッチ特徴と連結された80次元Melフィルターバンク特徴を用いた。言語非依存モデルの場合、CTCベース及び注意ベースの双方の分岐における最終的なsoftmax層は、5520次元を有した(すなわち、|Ufinal|=5520)。
英語の場合、WSJコーパスにおける比較的長い文を扱うために、WSJテキストコーパスに頻繁に現れる最大で5−gramの文字系列に対応するトークンを追加することによって、アルファベット文字集合を201に拡張する。これにより、計算コスト及びGPUメモリ使用を低減するために、出力長Lは短くなる。
言語ごとに、言語依存のASRモデルをトレーニングした。ここで、最終softmax層の次元は、その言語のための別個の文字/トークンの数に設定された。本文書は、エンドツーエンドASRコンセプトに厳密に従い、発音辞書、単語ベースの言語モデル、GMM/HMM、又はDNN/HMMをいずれも使用しなかった。本発明者らのハイブリッド注意/CTCアーキテクチャは、Chainer(Tokui他、2015)を用いて実施された。
結果
図7は、言語切り替えを含む多言語評価セットにおけるトレーニングされた言語依存エンドツーエンドASRシステム及び言語非依存エンドツーエンドASRシステムの文字誤り率(CER)を示す。CERは、10言語にわたって平均を取られ、各発話における言語数に依拠して別個に示される。
各発話に1つのみの言語を含む事例(すなわち、言語切り替えなし)では、言語非依存モデルは、言語依存モデルよりも大幅に性能が上回った。言語数が2又は3であるとき、言語切り替えデータでトレーニングされた言語非依存モデルは、2言語の事例について、31.5%から21.3%まで、3言語の事例について、38.6%から20.8%までCERを低減させた。フラットスタート言語非依存モデルを再トレーニングすることによって、更なるCER低減を得た。すなわち、CERは全ての事例について、それぞれ結果として19.4%、19.3%及び18.6%となった。
したがって、言語非依存ASRは、CERの低減に成功し、言語切り替えデータを用いてトレーニングされたモデルは、復号プロセス中に言語間で適切に切り替えることが可能である。
また、本発明者らは、言語切り替えデータを用いて再トレーニングされた言語非依存モデルを用いて得られた認識結果から言語IDを抽出することによって、言語ID誤り率を計算した。各発話に1つのみの言語を含む事例では、言語ID誤り率は2.0%であった。各発話に1つ〜3つの言語を含む事例では、ID誤り率は8.5%であった。このため、本発明は、僅かな数の誤りで多言語音声及び言語IDを同時に認識することができる。
図8は、本発明によるモデルによって生成されるトランスクリプション例を示す。発話は、日本語、英語及びオランダ語からなる。言語切り替えのないモデルは、正しい言語IDも、日本語文字集合の使用も予測することができない。言語切り替えのあるモデルが、低CERで多言語音声を認識したことを観測することができる。
本開示のいくつかの実施形態において、上記のエンドツーエンド音声認識システムがコンピュータシステム内にインストールされるときに、少ない計算能力で音声認識を実効的、かつ正確に実行することができ、それゆえ、本開示のエンドツーエンド音声認識方法又はシステムを使用することにより、中央処理ユニット使用量及び電力消費量を削減することができる。
さらに、本開示による実施形態は、エンドツーエンド音声認識を実行する実効的な方法を提供し、それゆえ、そのエンドツーエンド音声認識モデルを使用する方法及びシステムを使用することによって、中央処理ユニット(CPU)使用量、電力消費量及び/又はネットワーク帯域幅使用量を削減することができる。
本開示の上記で説明した実施形態は、多数の方法のうちの任意のもので実施することができる。例えば、実施形態は、ハードウェア、ソフトウェア又はそれらの組み合わせを用いて実施することができる。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピュータに設けられるのか又は複数のコンピュータ間に分散されるのかにかかわらず、任意の適したプロセッサ又はプロセッサの集合体において実行することができる。そのようなプロセッサは、1つ以上のプロセッサを集積回路部品に有する集積回路として実装することができる。ただし、プロセッサは、任意の適したフォーマットの回路類を用いて実装することができる。
また、本明細書において略述された様々な方法又はプロセスは、様々なオペレーティングシステム又はプラットフォームのうちの任意の1つを用いる1つ以上のプロセッサ上で実行可能なソフトウェアとしてコード化することができる。加えて、そのようなソフトウェアは、複数の適したプログラミング言語及び/又はプログラミングツール若しくはスクリプティングツールのうちの任意のものを用いて記述することができ、実行可能機械語コード、又はフレームワーク若しくは仮想機械上で実行される中間コードとしてコンパイルすることもできる。通常、プログラムモジュールの機能は、様々な実施形態において所望に応じて組み合わせることもできるし、分散させることもできる。
さらに、本開示の実施形態は、方法として具現化することができ、この方法の一例が提供されている。この方法の一部として実行される動作は、任意の適した方法で順序付けることができる。したがって、例示したものと異なる順序で動作が実行される実施形態を構築することができ、この順序は、いくつかの動作が例示の実施形態では順次的な動作として示されていても、それらの動作を同時に実行することを含むことができる。さらに、請求項の要素を修飾する、特許請求の範囲における第1、第2等の序数の使用は、それ自体で、1つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する1つの請求項の要素を、同じ(序数の用語の使用を除く)名称を有する別の要素と区別するラベルとして用いられているにすぎない。

Claims (18)

  1. 多言語音声認識ネットワークをトレーニングする方法であって、
    所定の言語に対応する発話データセットを提供することと、
    言語識別(ID)ラベルを前記発話データセットに挿入することであって、前記発話データセットの各々は、前記言語IDラベルの各々によってラベル付けされることと、
    前記ラベル付けされた発話データセットを連結することと、
    前記発話データセットから初期ネットワークパラメータを生成することと、
    トレーニング結果が閾値に達するまで、一連の前記初期ネットワークパラメータ及び前記連結されたラベル付けされた発話データセットを用いてエンドツーエンドネットワークを反復的にトレーニングすることと、
    を含む、方法。
  2. 前記発話データセットの各々は、音響データセットと、前記音響データセットに対応するグランドトゥルースラベルとの対を含む、請求項1に記載の方法。
  3. 前記エンドツーエンドネットワークは言語非依存モデルである、請求項1に記載の方法。
  4. 前記言語非依存モデルは、ディープBLSTMエンコーダネットワークを用いる、請求項3に記載の方法。
  5. 前記ディープBLSTMエンコーダネットワークにおける層の数は7以上である、請求項4に記載の方法。
  6. 前記IDラベルは、配列規則に従って前記発話データセットに対し配列される、請求項1に記載の方法。
  7. 前記配列規則により、前記IDラベルの各々が前記発話データセットの各々の先頭位置に追加される、請求項6に記載の方法。
  8. 前記トレーニング結果が前記閾値に到達すると、トレーニングされたネットワークパラメータを生成することを更に含む、請求項1に記載の方法。
  9. 前記エンドツーエンドネットワークは、所定の方法に基づいて、前記一連の初期ネットワークパラメータと、前記連結されたラベル付けされた発話データセットとを同時に最適化する、請求項1に記載の方法。
  10. 多言語音声認識を行う音声認識システムであって、
    声音を受信するためのインターフェースと、
    1つ以上のプロセッサと、
    請求項1に記載の方法によって得られた、トレーニングされたネットワークパラメータを用いることによってトレーニングされたエンドツーエンド音声認識モジュールを記憶する1つ以上の記憶デバイスであって、前記エンドツーエンド音声認識モジュールは、実行されると、前記1つ以上のプロセッサに、
    前記声音から変換されたオーディオ波形データから、音響特徴抽出モジュールを用いて音響特徴系列を抽出する動作と、
    前記音響特徴系列を、エンコーダネットワークパラメータを有するエンコーダネットワークを用いて隠れベクトル系列に符号化する動作と、
    前記隠れベクトル系列を、デコーダネットワークパラメータを有するデコーダネットワークにフィードすることによって、第1の出力ラベル系列確率を予測する動作と、
    コネクショニスト時系列分類(CTC)モジュールによって、CTCネットワークパラメータ、及び前記エンコーダネットワークからの前記隠れベクトル系列を用いて第2の出力ラベル系列確率を予測する動作と、
    ラベル系列探索モジュールを用いて、前記デコーダネットワーク及び前記CTCモジュールから提供された前記第1の出力ラベル系列確率及び前記第2の出力ラベル系列確率を組み合わせることによって、最も高い系列確率を有する出力ラベル系列を探索する動作と、
    を含む動作を実行させる命令を含む、1つ以上の記憶デバイスと、
    を備える、システム。
  11. 多言語音声認識のために、トレーニングされたネットワークパラメータを生成する多言語音声認識システムであって、
    1つ以上のプロセッサと、
    パラメータ、及び前記1つ以上のプロセッサによって実行可能な命令を含むプログラムモジュールを記憶する1つ以上の記憶デバイスであって、前記命令は、実行されると、前記1つ以上のプロセッサに、
    所定の言語に対応する発話データセットを提供する動作と、
    言語識別(ID)ラベルを前記発話データセットに挿入する動作であって、前記発話データセットの各々は、前記言語IDラベルの各々によってラベル付けされる、動作と、
    前記ラベル付けされた発話データセットを連結する動作と、
    前記発話データセットから初期ネットワークパラメータを生成する動作と、
    所定の系列に従って前記初期ネットワークパラメータを選択する動作と、
    トレーニング結果が閾値に達するまで、一連の前記選択された初期ネットワークパラメータ及び前記連結されたラベル付けされた発話データセットを用いてエンドツーエンドネットワークを反復的にトレーニングする動作と、
    を実行させる、1つ以上の記憶デバイスと、
    を備える、システム。
  12. 前記発話データセットの各々は、音響データセットと、前記音響データセットに対応するグランドトゥルースラベルとの対を含む、請求項11に記載のシステム。
  13. 前記エンドツーエンドネットワークは言語非依存モデルである、請求項11に記載のシステム。
  14. 前記言語非依存モデルは、ディープBLSTMエンコーダネットワークを用いる、請求項13に記載のシステム。
  15. 前記ディープBLSTMエンコーダネットワークにおける層の数は7以上である、請求項14に記載のシステム。
  16. 前記IDラベルは、配列規則に従って前記発話データセットに対し配列される、請求項11に記載のシステム。
  17. 前記配列規則により、前記IDラベルの各々が前記発話データセットの各々の先頭位置に追加される、請求項16に記載のシステム。
  18. 前記トレーニング結果が前記閾値に到達すると、トレーニングされたネットワークパラメータを生成することを更に含む、請求項11に記載のシステム。
JP2020518836A 2017-12-15 2018-05-31 多言語音声認識ネットワークをトレーニングする方法、音声認識システム及び多言語音声認識システム Active JP6818941B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/843,047 US10593321B2 (en) 2017-12-15 2017-12-15 Method and apparatus for multi-lingual end-to-end speech recognition
US15/843,047 2017-12-15
PCT/JP2018/021790 WO2019116606A1 (en) 2017-12-15 2018-05-31 Method and system for training a multi-language speech recognition network, and speech recognition system for performing multi-language speech recognition

Publications (2)

Publication Number Publication Date
JP2020537765A true JP2020537765A (ja) 2020-12-24
JP6818941B2 JP6818941B2 (ja) 2021-01-27

Family

ID=62842174

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020518836A Active JP6818941B2 (ja) 2017-12-15 2018-05-31 多言語音声認識ネットワークをトレーニングする方法、音声認識システム及び多言語音声認識システム

Country Status (5)

Country Link
US (1) US10593321B2 (ja)
EP (1) EP3516650B1 (ja)
JP (1) JP6818941B2 (ja)
CN (1) CN111557029B (ja)
WO (1) WO2019116606A1 (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10629193B2 (en) * 2018-03-09 2020-04-21 Microsoft Technology Licensing, Llc Advancing word-based speech recognition processing
US11552731B2 (en) * 2018-07-20 2023-01-10 Nokia Technologies Oy Learning in communication systems by updating of parameters in a receiving algorithm
US10720151B2 (en) * 2018-07-27 2020-07-21 Deepgram, Inc. End-to-end neural networks for speech recognition and classification
US10891951B2 (en) * 2018-10-17 2021-01-12 Ford Global Technologies, Llc Vehicle language processing
CN109327614B (zh) * 2018-10-17 2021-01-26 永德利硅橡胶科技(深圳)有限公司 全球同声传译手机及方法
KR20200056001A (ko) * 2018-11-14 2020-05-22 삼성전자주식회사 인공신경망에서의 디코딩 방법 및 그 장치
US11238845B2 (en) 2018-11-21 2022-02-01 Google Llc Multi-dialect and multilingual speech recognition
EP3899807A1 (en) * 2019-01-23 2021-10-27 Google LLC Generating neural network outputs using insertion operations
US10964309B2 (en) * 2019-04-16 2021-03-30 Microsoft Technology Licensing, Llc Code-switching speech recognition with end-to-end connectionist temporal classification model
US11468244B2 (en) * 2019-05-28 2022-10-11 Google Llc Large-scale multilingual speech recognition with a streaming end-to-end model
CN110399912B (zh) * 2019-07-12 2023-04-07 广东浪潮大数据研究有限公司 一种字符识别的方法、系统、设备及计算机可读存储介质
CN112242959B (zh) * 2019-07-16 2022-10-14 中国移动通信集团浙江有限公司 微服务限流控制方法、装置、设备及计算机存储介质
CN112364658A (zh) 2019-07-24 2021-02-12 阿里巴巴集团控股有限公司 翻译以及语音识别方法、装置、设备
CN112489622B (zh) * 2019-08-23 2024-03-19 中国科学院声学研究所 一种多语言连续语音流语音内容识别方法及系统
JP7385900B2 (ja) 2019-09-09 2023-11-24 国立研究開発法人情報通信研究機構 推論器、推論プログラムおよび学習方法
CN110751941B (zh) * 2019-09-18 2023-05-26 平安科技(深圳)有限公司 语音合成模型的生成方法、装置、设备及存储介质
CN110534115B (zh) * 2019-10-14 2021-11-26 上海企创信息科技有限公司 多方言混合语音的识别方法、装置、系统和存储介质
CN110808034A (zh) * 2019-10-31 2020-02-18 北京大米科技有限公司 语音转换方法、装置、存储介质及电子设备
CN110675865B (zh) * 2019-11-06 2021-09-28 百度在线网络技术(北京)有限公司 用于训练混合语言识别模型的方法和装置
CN110838286B (zh) * 2019-11-19 2024-05-03 腾讯科技(深圳)有限公司 一种模型训练的方法、语种识别的方法、装置及设备
US11373639B2 (en) * 2019-12-12 2022-06-28 Mitsubishi Electric Research Laboratories, Inc. System and method for streaming end-to-end speech recognition with asynchronous decoders pruning prefixes using a joint label and frame information in transcribing technique
CN110930980B (zh) * 2019-12-12 2022-08-05 思必驰科技股份有限公司 一种中英文混合语音的声学识别方法及系统
CN114981884A (zh) * 2020-01-22 2022-08-30 谷歌有限责任公司 基于注意力的联合声学和文本设备上端到端模型
EP4085451B1 (en) * 2020-01-28 2024-04-10 Google LLC Language-agnostic multilingual modeling using effective script normalization
CN113539238B (zh) * 2020-03-31 2023-12-08 中国科学院声学研究所 一种基于空洞卷积神经网络的端到端语种识别分类方法
CN111540344B (zh) * 2020-04-21 2022-01-21 北京字节跳动网络技术有限公司 声学网络模型训练方法、装置及电子设备
CN111582449B (zh) * 2020-05-07 2023-08-04 广州视源电子科技股份有限公司 一种目标域检测网络的训练方法、装置、设备及存储介质
CN111382568B (zh) * 2020-05-29 2020-09-11 腾讯科技(深圳)有限公司 分词模型的训练方法和装置、存储介质和电子设备
CN111914710B (zh) * 2020-07-24 2024-02-13 合肥工业大学 一种铁路机务段场景描述方法及系统
US11798534B2 (en) * 2020-10-02 2023-10-24 Salesforce.Com, Inc. Systems and methods for a multilingual speech recognition framework
US11568858B2 (en) * 2020-10-17 2023-01-31 International Business Machines Corporation Transliteration based data augmentation for training multilingual ASR acoustic models in low resource settings
US11900922B2 (en) * 2020-11-10 2024-02-13 International Business Machines Corporation Multilingual intent recognition
CN112509563B (zh) * 2020-12-17 2024-05-17 中国科学技术大学 模型训练方法、装置及电子设备
CN113782005B (zh) * 2021-01-18 2024-03-01 北京沃东天骏信息技术有限公司 语音识别方法及装置、存储介质及电子设备
CN113035178B (zh) * 2021-03-16 2024-01-05 华南理工大学 基于transformer的语音识别解码加速方法
CN113127622B (zh) * 2021-04-29 2023-06-09 西北师范大学 一种从语音到图像的生成方法及系统
CN113436616B (zh) * 2021-05-28 2022-08-02 中国科学院声学研究所 一种多领域自适应的端到端语音识别方法、系统及电子装置
CN113345466B (zh) * 2021-06-01 2024-03-01 平安科技(深圳)有限公司 基于多麦克风场景的主说话人语音检测方法、装置及设备
CN113345418A (zh) * 2021-06-09 2021-09-03 中国科学技术大学 基于跨语种自训练的多语种模型训练方法
CN113436620B (zh) * 2021-06-30 2022-08-30 北京有竹居网络技术有限公司 语音识别模型的训练方法、语音识别方法、装置、介质及设备
CN113327600A (zh) * 2021-06-30 2021-08-31 北京有竹居网络技术有限公司 一种语音识别模型的训练方法、装置及设备
CN113327631B (zh) * 2021-07-15 2023-03-21 广州虎牙科技有限公司 一种情感识别模型的训练方法、情感识别方法及装置
US20230290345A1 (en) * 2022-03-08 2023-09-14 Microsoft Technology Licensing, Llc Code-Mixed Speech Recognition Using Attention and Language-Specific Joint Analysis
CN114783446B (zh) * 2022-06-15 2022-09-06 北京信工博特智能科技有限公司 一种基于对比预测编码的语音识别方法及系统
CN117292696B (zh) * 2023-10-08 2024-03-12 合肥工业大学 端到端音频隐写方法、系统、存储介质及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017091763A1 (en) * 2015-11-25 2017-06-01 Baidu Usa Llc End-to-end speech recognition

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8849648B1 (en) * 2002-12-24 2014-09-30 At&T Intellectual Property Ii, L.P. System and method of extracting clauses for spoken language understanding
EP1693828B1 (en) * 2005-02-21 2008-01-23 Harman Becker Automotive Systems GmbH Multilingual speech recognition
US7840399B2 (en) * 2005-04-07 2010-11-23 Nokia Corporation Method, device, and computer program product for multi-lingual speech recognition
EP1975923B1 (en) * 2007-03-28 2016-04-27 Nuance Communications, Inc. Multilingual non-native speech recognition
US10540957B2 (en) * 2014-12-15 2020-01-21 Baidu Usa Llc Systems and methods for speech transcription
US9799327B1 (en) * 2016-02-26 2017-10-24 Google Inc. Speech recognition with attention-based recurrent neural networks
CN106126507B (zh) * 2016-06-22 2019-08-09 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
US10059410B2 (en) * 2016-06-29 2018-08-28 Pelican International Inc. Fishing kayak
US20180018973A1 (en) * 2016-07-15 2018-01-18 Google Inc. Speaker verification
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法
CN106504266B (zh) * 2016-09-29 2019-06-14 北京市商汤科技开发有限公司 行走行为的预测方法和装置、数据处理装置和电子设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017091763A1 (en) * 2015-11-25 2017-06-01 Baidu Usa Llc End-to-end speech recognition

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HORI, TAKAAKI ET AL.: ""Joint CTC/attention decoding for end-to-end speech recognition"", PROC. OF THE 55TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, vol. 1, JPN7020003085, 30 July 2017 (2017-07-30), pages 518 - 529, XP055443757, ISSN: 0004360309, DOI: 10.18653/v1/P17-1048 *
WATANABE, SHINJI ET AL.: ""LANGUAGE INDEPENDENT END-TO-END ARCHITECTURE FOR JOINT LANGUAGE INDENTIFICATION AND SPEECH RECOGNIT", PROC. OF 2017 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP (ASRU), JPN6020037249, 16 December 2017 (2017-12-16), pages 265 - 271, ISSN: 0004360308 *

Also Published As

Publication number Publication date
EP3516650B1 (en) 2020-05-13
JP6818941B2 (ja) 2021-01-27
US10593321B2 (en) 2020-03-17
CN111557029B (zh) 2021-06-04
EP3516650A1 (en) 2019-07-31
CN111557029A (zh) 2020-08-18
WO2019116606A1 (en) 2019-06-20
US20190189111A1 (en) 2019-06-20

Similar Documents

Publication Publication Date Title
JP6818941B2 (ja) 多言語音声認識ネットワークをトレーニングする方法、音声認識システム及び多言語音声認識システム
JP6929466B2 (ja) 音声認識システム
JP6827548B2 (ja) 音声認識システム及び音声認識の方法
US11238845B2 (en) Multi-dialect and multilingual speech recognition
CN107870902B (zh) 神经机器翻译系统
JP7368479B2 (ja) モデルをトレーニングするためのトレーニング・データ修正
Ahmed et al. End-to-end lexicon free arabic speech recognition using recurrent neural networks
Karita et al. Sequence training of encoder-decoder model using policy gradient for end-to-end speech recognition
CN113591462A (zh) 弹幕回复生成方法、装置及电子设备
Raval et al. Improving deep learning based automatic speech recognition for Gujarati
Showrav An automatic speech recognition system for bengali language based on wav2vec2 and transfer learning
CN115270771B (zh) 细粒度自适应字音预测任务辅助的中文拼写纠错方法
JP3088364B2 (ja) 音声言語理解装置及び音声言語理解システム
KR20230156425A (ko) 자체 정렬을 통한 스트리밍 asr 모델 지연 감소
US20240153508A1 (en) End-to-End Speech Recognition Adapted for Multi-Speaker Applications
JP4631076B2 (ja) 音素単位セットを最適化する方法及びシステム
Zenkel Character Based Language Modeling and Applications in Speech Recognition
CN115985297A (zh) 语音识别方法、装置、电子设备及存储介质
CN115114933A (zh) 用于文本处理的方法、装置、设备和存储介质
CN114118108A (zh) 建立转译模型的方法、转译方法和对应装置
Abdelbaqy Robotic Speech Recognition System

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200401

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200401

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200401

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201228

R150 Certificate of patent or registration of utility model

Ref document number: 6818941

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250