JP7335569B2 - 音声認識方法、装置及び電子機器 - Google Patents

音声認識方法、装置及び電子機器 Download PDF

Info

Publication number
JP7335569B2
JP7335569B2 JP2021577529A JP2021577529A JP7335569B2 JP 7335569 B2 JP7335569 B2 JP 7335569B2 JP 2021577529 A JP2021577529 A JP 2021577529A JP 2021577529 A JP2021577529 A JP 2021577529A JP 7335569 B2 JP7335569 B2 JP 7335569B2
Authority
JP
Japan
Prior art keywords
model
acoustic
data
text data
acoustic features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021577529A
Other languages
English (en)
Other versions
JPWO2022105472A5 (ja
JP2022551678A (ja
Inventor
チュンファ イー、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING DEEPAI TECHNOLOGY CO., LTD.
Original Assignee
BEIJING DEEPAI TECHNOLOGY CO., LTD.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING DEEPAI TECHNOLOGY CO., LTD. filed Critical BEIJING DEEPAI TECHNOLOGY CO., LTD.
Publication of JP2022551678A publication Critical patent/JP2022551678A/ja
Publication of JPWO2022105472A5 publication Critical patent/JPWO2022105472A5/ja
Application granted granted Critical
Publication of JP7335569B2 publication Critical patent/JP7335569B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Description

関連出願の相互参照
本願は、2020年11月18日に中国知的財産権局に出願された、出願番号が202011294806.8で、発明の名称が「音声認識方法、装置、及び、電子機器」である中国特許出願の優先権を主張し、そのすべての内容が参照により本願に組み込まれる。
本願は、自然言語処理技術分野に関し、特に、音声認識方法、装置、及び、電子機器に関する。
自動音声認識(automatic speech recognition、ASR)、コンピューター音声認識(computer speech recognition)、又は音声ツーテキスト認識(speech to text、STT)とも呼ばれる音声認識技術(speech recognition)は、コンピューターが人間の音声コンテンツを対応する文字に自動的に変換することを目的とする。
音声認識技術は、音声ダイアリング、音声ナビゲーション、室内機器制御、音声文書検索、口述データの録取など、多くの分野で応用することができる。
また、音声認識技術と他の自然言語処理技術(機械翻訳や音声合成技術など)とを組み合わせることにより、音声から音声への翻訳など、より複雑なアプリケーションを構築することができる。
現在の音声認識システムは、一般的には、音響モデルと言語モデルを完全に分離する方法でトレーニングし、音声認識の応用を疎結合的に行う。この音響モデルには、最も基本的な言語モデル情報のみが含まれ、言語モデルには、音響データとは関係ない言語関連の情報のみが含まれる。つまり、言語モデルは、テキストレベルでの文字コロケーション関係のみを表す。
このスキームの欠点は、音響モデルと言語モデルが別々にトレーニングされ、独立して最適化されるため、パイプラインスキームに対してエンドツーエンドの全体的な最適化を実行できず、グローバル(大域的)な最適認識結果を取得できず、したがって、パイプラインスキームの音声認識精度を向上させることが難しいことである。
上記の欠点を克服するために、従来技術は、音声認識システムのすべてのコンポーネントを単一のエンドツーエンドのネットワークモデルとして扱うスキームをさらに採用している。
しかしながら、このエンドツーエンドのネットワークモデルのスキームは、オーディオ-テキストのサンプルを用いてトレーニングするが、現在のオーディオ-テキストのサンプルの数の規模は、一般的に、音響モデルのトレーニング要件を満たすだけであり、言語モデルのトレーニング要件を満たすことはできない。
その結果、当該モデルは、大語彙の連続音声認識の用途に広く適用できず、特定の用途の小型音声認識システムにのみ適用可能であり、また、精度及び拡張性は、音響モデル+N-Gram言語モデルなどの従来のパイプラインスキームよりも劣る。
本実施例は、音声認識システムの認識精度を向上させるための、音声認識方法、装置、及び、電子機器を提供する。
第1の態様において、本実施例は、音声認識方法を提供し、当該方法は、音響モデルを用いて第1の音声データに対応する第1の音響特徴を生成するステップと、データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、第1の音声データに対応する第1のテキストデータ及び第1の音響特徴を用いてデータジェネレーターモデルをトレーニングするステップと、データジェネレーターモデルを用いて第2のテキストデータに対応する第2の音響特徴を生成するステップであって、第2のテキストデータの規模が、第1のテキストデータより大きいステップと、言語モデルが音響モデルから出力された音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、第2のテキストデータ及び第2の音響特徴を用いて言語モデルをトレーニングするステップとを含む。
一実施態様において、第1の音声データに対応する第1のテキストデータ及び第1の音響特徴を用いてデータジェネレーターモデルをトレーニングするステップは、第1のテキストデータに対応する第1の発音トークンシーケンスを生成するステップと、第1の発音トークンシーケンスをデータジェネレーターモデルの入力とし、第1の音響特徴をデータジェネレーターモデルの出力とし、音響モデルの出力をデータジェネレーターモデルの監督信号として、データジェネレーターモデルをトレーニングするステップとを含む。
一実施態様において、データジェネレーターモデルを用いて第2のテキストデータに対応する第2の音響特徴を生成するステップは、第2のテキストデータに対応する第2の発音トークンシーケンスを生成するステップと、第2の発音トークンシーケンスをデータジェネレーターモデルに入力して第2の音響特徴を生成するステップとを含む。
一実施態様において、音響モデルは、隠れマルコフモデルと組み合わせたガウス混合モデルGMM-HMM、又は、隠れマルコフモデルと組み合わせたニューラルネットワークモデルNN-HMMを含み、このニューラルネットワークモデルは、長短期記憶ネットワークモデルLSTMを含み、音響特徴は、GMM-HMMから出力されたすべてのHMM状態での出力確率を含み、あるいは、音響特徴は、ニューラルネットワークモデルがsoftmax層を介して出力したすべてのHMM状態での正規化確率が接続タイミングモデルCTC又はビタビアルゴリズムviterbiを介して出力した事後確率PDF付きの発音ユニットシーケンスグリッドとを含む。
前記発音ユニットは、状態、音素、声韻母、音節、文字又は単語であってもよく、本実施例は、これについて限定しない。
一実施態様において、データジェネレーターモデルは、敵対的生成ネットワークGANNetを含む。
一実施態様において、第2のテキストデータ及び第2の音響特徴を用いて言語モデルをトレーニングするステップは、第2の音響特徴を言語モデルの入力とし、第2のテキストデータを言語モデルの出力として、言語モデルをトレーニングするステップを含む。
一実施態様において、第2のテキストデータ及び第2の音響特徴を用いて言語モデルをトレーニングするステップは、第1の音響特徴及び第2の音響特徴を言語モデルの入力とし、第1のテキストデータ及び第2のテキストデータを言語モデルの出力として、言語モデルをトレーニングするステップを含む。
一実施態様において、言語モデルには、アテンションメカニズムに基づくシーケンスツーシーケンスのエンコーダー及びデコーダーが含まれる。
エンコーダーには、リカレントニューラルネットワーク構造又は畳み込みニューラルネットワーク構造が含まれ、デコーダーには、リカレントニューラルネットワーク構造が含まれる。
第2の態様において、本願の実施例は、音声認識装置を提供し、当該装置は、音響モデルを用いて第1の音声データに対応する第1の音響特徴を生成するために用いられる第1のトレーニングユニットと、データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、第1の音声データに対応する第1のテキストデータ及び第1の音響特徴を用いてデータジェネレーターモデルをトレーニングするために用いられる第2のトレーニングユニットと、データジェネレーターモデルを用いて第2のテキストデータに対応する第2の音響特徴を生成するために用いられる第1の生成ユニットであって、第2のテキストデータの規模が、第1のテキストデータより大きい第1の生成ユニットと、言語モデルが音響モデルから出力された音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、第2のテキストデータ及び第2の音響特徴を用いて言語モデルをトレーニングするために用いられる第2の生成ユニットとを含む。
第3の態様において、本実施例は、電子機器を提供し、当該電子機器は、プロセッサと、コンピュータプログラム命令が記憶されているメモリとを含み、コンピュータプログラム命令は、プロセッサによって実行される場合、音響モデルを用いて第1の音声データに対応する第1の音響特徴を生成するステップと、データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、第1の音声データに対応する第1のテキストデータ及び第1の音響特徴を用いてデータジェネレーターモデルをトレーニングするステップと、データジェネレーターモデルを用いて第2のテキストデータに対応する第2の音響特徴を生成するステップであって、第2のテキストデータの規模が、第1のテキストデータより大きいステップと、言語モデルが音響モデルから出力された音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、第2のテキストデータ及び第2の音響特徴を用いて言語モデルをトレーニングするステップと、をプロセッサに実行させる。
本実施例は、音響モデルAMと、言語モデルLMと、データジェネレーターモデルとの間の入出力関係に基づいて、一般的に、まず、音声-テキストペアデータを用いてトレーニングして音響モデルを得、次に、音響モデルを用いて音声-テキストペアデータ上の音響特徴の出力をターゲットとし、テキストを入力としてデータジェネレーターモデルをトレーニングし、それにより、任意のテキストから対応する音響特徴を生成し、そして、データジェネレーターモデルを用いて超大規模テキストで音響特徴-テキストデータペアを生成して言語モデルをトレーニングし、トレーニングが完了した後、音響モデルと言語モデルをカスケードすることにより、音声からテキストへの変換プロセスを実現する。
モデルの入出力関係に従って、前記3つのモデルは、実施のいくつかの段階で部分的又は全体的に共同でトレーニングできる。
データジェネレーターモデルは、理論的には、音響特徴-テキストペアデータの規模を無限に拡大するため、特定の分野の音声データを事前に取得しなくても、当該分野で高精度の大語彙の連続音声認識システムを構築でき、十分なテキスト規模でデータを生成して言語モデルをトレーニングすれば、あらゆる分野で高精度を持つシステムを構築することができる。
本実施例により提供される音声認識方法のフローチャートである。 本実施例により提供される実現可能な音響モデルの構造図である。 本実施例により提供される実現可能なデータジェネレーターモデルの構造図である。 本実施例により提供されるGANNetのフレーム概略図である。 本実施例により提供される音声認識方法のステップS102のフローチャートである。 本実施例により提供される音声認識方法のステップS103のフローチャートである。 本実施例により提供される実現可能な言語モデルの構造図である。 本実施例により提供される音声認識システムのフレーム図である。 本実施例により提供される音声認識装置の構造図である。
自動音声認識(automatic speech recognition、ASR)、コンピューター音声認識(computer speech recognition)、又は、音声からテキストへの認識(speech to text、STT、音声ツーテキスト)とも呼ばれる音声認識技術(speech recognition)は、コンピューターが人間の音声コンテンツを対応する文字に自動的に変換することを目的とする。
音声認識技術は、音声ダイアリング、音声ナビゲーション、室内機器制御、音声テキスト検索、口述データ録取など、多くの分野で応用できる。
また、音声認識技術と他の自然言語処理技術(機械翻訳や音声合成など)とを組み合わせることにより、音声から音声への翻訳など、より複雑なアプリケーションを構築することができる。
現在の最も先進的な音声認識システムは、一般的には、音響モデルと言語モデルを完全に分離する方法でトレーニングし、音声認識の応用を疎結合的に行う。音響モデルには、最も基本的な言語モデル情報のみが含まれる。
言語モデルには、音響データとは関係ない言語関連の情報のみが含まれる。つまり、言語モデルは、テキストレベルでの文字コロケーション関係のみを表す。
例えば、従来のパイプライン(pipeline)方式の音声認識システムでは、一般的には、音響モデルAM、言語モデルLM、及び、発音モデルPMがそれぞれ1つ含まれる。
ここで、音響モデルAMは、音響特徴から発音ユニットへの関係を表すために用いられ、音響モデルAMは、一般に、オーディオデータから抽出された音響特徴を入力とし、通常に、各音響特徴に対応する発音ユニットシーケンスを出力とする。
ここで、音響モデルは、サウンドユニットシーケンスを表すために用いられる事後確率PDF付きの音素シーケンスグリッド又はマトリックスを中間出力の音響特徴とすることができる。
言語モデルLMは、発音ユニットシーケンスと最終的に認識されるテキストシーケンスの間のマッピング関係を表すために用いられ、言語モデルは、音響モデルの中間出力の音響特徴を入力とし、テキストシーケンスを出力とすることができる。
発音モデルPMは、テキストシーケンスをサウンドとして出力するために用いられる。
パイプライン(pipeline)スキームに基づいて、従来の音声認識は、以下のように実現される。まず、音響モデルAMは、音響特徴を抽出し、一般的に、文脈依存又は文脈非依存の音素シーケンスであるサブワードユニット(subword unit)のセットを予測する。次に、音響モデルによって生成された音素シーケンスを、手動設計された辞書を用いてワードシーケンスにマッピングする。最後に、言語モデルLMは、確率をワードシーケンスに割り当て、全体的な同時確率が最大のワードシーケンスを探して認識結果とする。
上記3つのモデルは、従来の隠れマルコフモデル(hidden markov model、HMM)やN-グラム(N-Gram)などの方法で構築してもよく、ディープニューラルネットワークなどの方法で構築してもよく、また、上記モデルのうちの2つを組み合わせて、モデルが2つ(発音モデルAMと言語モデルLM)しかないことを外の世界に見せるようにしてもよい。
しかし、パイプライン(pipeline)スキームの変更にかかわらず、発音モデルAMと言語モデルLMとを分離して互いに独立させる技術思想から離れることはない。
このスキームの欠点は、音響モデルと言語モデルが別々にトレーニングされ、独立して最適化されるため、パイプラインスキームに対してエンドツーエンドの全体的な最適化を実行できず、グローバル(大域的)な最適認識結果を取得できず、したがって、パイプラインスキームの音声認識精度を向上させることが難しいことである。
パイプラインスキームの欠点を克服するために、従来技術は、音声認識システムのすべてのコンポーネントを単一のエンドツーエンドのネットワークモデルとして扱うスキームをさらに提出する。
発音モデルAMと言語モデルLMを別々のモジュールとしてトレーニングする従来のパイプラインスキームとは異なって、エンドツーエンドスキームでは、すべてのコンポーネントを単一のエンドツーエンドニューラルネットワークとして共同トレーニングするため、トレーニングがより簡単になり、音響特徴と言語的特徴(言語モデルLMの特徴)を十分に融合し、最適な認識結果を得るための理論的サポートを備える。
さらに、エンドツーエンドモデルは、完全にニューラルネットワークであるため、有限状態コンバーター、辞書、テキスト標準化モジュールなど、外部の手動で設計されたコンポーネントは、不要である。
最後に、従来のモデルとは異なって、エンドツーエンドのモデルをトレーニングすることは、別個のシステムから生成された決定木又は時間較正ガイダンスを必要とせず、所与のテキスト及び対応する音響特徴ペアでトレーニングすることができる。
ただし、このエンドツーエンドのモデルは、生成環境のデータ上での評価において十分なパフォーマンスを有せず、当該モデルが何万ものオーディオ-テキストサンプルペアで学習されるため、これらのサンプルは、音響モデルAMのトレーニング要件を満たすことはできるが、そのデータ規模は、従来の言語モデルのトレーニングに必要なテキストコンテンツ又は音声コンテンツの規模に対応すること、又は、それと同等であることができない。
そのため、当該モデルは、大語彙の連続音声認識システムには適用できず、特定の用途の小型音声認識システムにのみ適用可能であり、その一般的な音声認識機能及び適用可能な場合は、従来のパイプラインスキームよりもはるかに少ない。
エンドツーエンドのモデルスキームの不十分なトレーニングデータ規模の問題を解決するために、本実施例は、音声認識方法を提供し、図1に示すように、当該方法は、ステップS101~S104を含む。
ステップS101において、音響モデルを用いて、第1の音声データに対応する第1の音響特徴を生成する。
選択可能に、たとえば、音響モデルは、隠れマルコフモデルと組み合わせたニューラルネットワークモデルNN-HMMで構成されてもよい。
ここで、音響モデルのニューラルネットワーク部分は、長短期記憶ネットワーク(long short-term memory、LSTM)、リカレントニューラルネットワーク(recurrent neural network、RNN)、ゲートリカレントユニット(gate recurrent unit、GRU)、畳み込みニューラルネットワーク(convolutional neural networks、CNN)などであってもよく、本実施例では限定しない。
一方、音響モデルは、隠れマルコフモデルと組み合わせたガウス混合モデルGMM-HMMであってもよい。
どのような形式の音響モデルを採用するかは、本願では、特に限定しない。
音響特徴を取得するために、本願の実施例は、(a1,T1)と記される、音声データ及びそれに対応するテキストデータからなる第1のトレーニングデータセットを導入してもよい。
ここで、a1は、第1の音声データを表し、T1は、第1の音声データに対応する第1のテキストデータを表す。
第1のトレーニングデータセットは、業界でよく見られるデータセットを採用してもよく、自分で収集して作成してもよく、本実施例は、これについて限定されず、一般的には、第1のトレーニングデータセットのデータ規模は、数千時間から数十万時間で異なってもよく、業界で現在の音声認識用の音声-テキストペアデータの中で規模の大きいものは、10万時間のオーダーであり、対応するテキストデータは、一般的に、200MBバイト未満であり、音響モデルのトレーニング規模を満たすことができるが、言語モデルのトレーニング規模にはるかに達しない。
具体的には、音響モデルが隠れマルコフモデルNN-HMMと組み合わされたニューラルネットワークモデルで構成される場合、音響特徴は、前記ニューラルネットワークモデルがsoftmax層を介して出力したすべてのHMM状態での正規化確率が、接続タイミングモデルCTC又はビタビアルゴリズムviterbiを介して出力した、事後確率(probability density function、PDF)付きの発音ユニットシーケンスグリッドを含むことができる。
音響モデルが隠れマルコフモデルと組み合わせたガウス混合モデルGMM-HMMである場合、音響特徴は、前記GMM-HMMから出力されたすべてのHMM状態での出力確率を含むことができる。
例えば、音響モデルが隠れマルコフモデルHMMと組み合わされた長短期記憶ネットワークであることを例として挙げると、音響特徴は、長短期記憶ネットワークLSTMモデルがsoftmax層を介して出力したすべてのHMM状態での正規化確率が、接続タイミングモデルCTC又はビタビアルゴリズムviterbiを介して出力した、事後確率PDF付きの発音ユニットシーケンスグリッドであることができる。
図2は、実現可能な音響モデルの構造図を示す。
図2に示すように、当該音響モデルは、特徴フレーム層AM Ferture Framesと、前置ネットワーク層AMPreNetと、エンコーダー層AMEncoderと、後処理層AMPostNetとを含む。
ここで、特徴フレーム層AM Ferture Frameは、入力された音声の波形データに対してスペクトル変換を行い、音声の周波数領域特徴を得るために用いられる。
当該周波数領域特徴は、音響モデルと音声認識モデルの実際の入力データである。
周波数領域特徴は、例えば、メル周波数ケプストラム係数(mel-frequency cepstral coefficients、MFCC)、メル周波数ケプストラム(mel-frequency cepstrum、MFC)、又は線形スペクトルなどであってもよく、本願の実施例では限定しない。
前置ネットワーク層AMPreNetは、音声の周波数領域特徴に対して、計算処理のために高次元入力ベクトルに変換するなど、事前処理を行うために用いられる。
エンコーダー層AMEncoderは、長短期記憶ネットワークLSTM、リカレントニューラルネットワークRNN、ゲートリカレントユニットGRU、畳み込みニューラルネットワークCNNなどであってもよく、本実施例では限定されず、音声の入力ベクトルを1つの特徴表示にマッピングするために用いられる。
後処理層AMPostNetは、多層の畳み込みニューラルネットワークCNNであってもよく、エンコーダー層の出力を畳み込んで次元削減処理を実現し、入力された音声フレームに対応する事後確率PDFの発音ユニットシーケンスグリッドを得るために用いられる。
また、当該音響モデルは、トレーニングプロセスで発音トークンシーケンスPronunciation Token Sequenceを目標として、接続タイミングモデルCTCを用いて損失Lossを計算してPDFの発音ユニットシーケンスグリッドの出力方向を監督(モニタリング)する。
ここで、発音トークンとは、テキストの発音状況を表すための情報を意味し、例えば、国際表音トークン、中国語ピンインなどであり、その単位は、音素、音節、単語、漢字であってもよく、テキストの発音状況を表す情報であれば、発音トークンとすることができ、本実施例は、これについて限定しない。
音響モデルのトレーニングが完了した後、第1の音声データa1を音響モデルに入力し、対応する第1の音響特徴A1が得られる。
ステップS102において、データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、第1の音声データに対応する第1のテキストデータ及び第1の音響特徴を用いてデータジェネレーターモデルをトレーニングする。
第1の音響特徴A1及び第1のテキストデータT1は、ジェネレーターモデルをトレーニングするときに使用される第2のトレーニングデータセットを構成する。
本実施例では、データジェネレーターモデルは、言語モデルをトレーニングするのに必要な音響特徴の数量セットの要件を達成するために、より多くのテキストデータに基づいてより大規模な音響特徴を生成するために用いられる。
一般的に、テキストデータのデータ規模は、制限されないため、データジェネレーターモデルが得られれば、制限されずに音響特徴を生成することができ、言語モデルのトレーニングに十分使用できる。
一実現形態では、データジェネレーターモデルは、敵対的生成ネットワーク(generative adversarial networks、GANNet)を用いて構築されることができる。
例えば、データジェネレーターモデルは、図3に示すように、発音ユニット事後確率生成モデルText2Pdf GenModelであってもよく、当該モデルは、文字埋込層Char Embeddingと、GANNet層と、GAN後処理層GenPostNetとを含む。
ここで、文字埋込層Char Embeddingは、超大規模のテキストデータに対応する超大規模テキストトークンに対して単語埋め込みエンコーディングを実行し、編集計算のベクトル形式を得るために用いられる。
GANNet層は、テキストデータから音響特徴の表現を生成するために用いられ、GANNet層は、ディープニューラルネットワーク、又は他の生成関数及び判別関数から構成されてもよい。
GAN後処理層GenPostNetは、次元削減処理を実現するためにGANNet層を畳み込み、最終的な超大規模テキストデータに対応する超大規模音響特徴PDF By GenNetを得るために用いられる。
また、トレーニングプロセスでは、音響モデルから出力されたPDFと音響特徴PDF By GenNetとの間のクロスエントロピー損失関数CrossEntropyLoss、又は、他の損失関数を構成してトレーニング方向を互いに監督することができる。
図4は、本実施例により提供されるGANNetのフレーム概略図である。
図4に示すように、GANNetは、生成モデルGenerative Modelと判別モデルDiscriminative Modelからなり、生成モデル及び判別モデルは、相互ゲーミング且学習を通じてGANNetに良好な出力を発生させることができ、生成モデル及び判別モデルは、ニューラルネットワークであってもよく、対応する生成及び判別に適合可能な他の関数であってもよい。
発音ユニット事後確率生成モデルText2Pdf GenModelは、使用段階(連携して言語モデルLMをトレーニングするトレーニング段階を含む)において、生成モデルGenerative Model部分のみを使用する必要がある。
ここで、生成モデルと判別モデルは、長短期記憶ネットワークLSTM、リカレントニューラルネットワークRNN、ゲートリカレントユニットGRU、畳み込みニューラルネットワークCNN及びTransformerなどのモデルのうちのいずれか1つ又は複数の組み合わせであってもよい。
一実現形態では、上記のデータジェネレーターモデルに基づいて、ステップS102は、図5に示すように、具体的には、ステップS201及びS202により実現されることができる。
ステップS201において、第1のテキストデータに対応する第1の発音トークンシーケンスを生成する。
ステップS201は、中国語などの象形文字言語や第1のテキストデータの規模が小さい場合に適用できることが好ましい。
例えば、第1のテキストデータが中国語文字列である場合、第1の発音トークンシーケンスは、中国語文字列に対応するピンイン列であってもよい。
ステップS202において、第1の発音トークンシーケンスをデータジェネレーターモデルの入力とし、第1の音響特徴A1をデータジェネレーターモデルの出力とし、音響モデルの出力をデータジェネレーターモデルの監督信号として、データジェネレーターモデルをトレーニングする。
前述のように、音響モデルの出力PDFとデータジェネレーターモデルの出力PDF By GenNetとの間に、トレーニング方向を互いに監督してモデル品質を向上させるように、クロスエントロピー損失関数CrossEntropyLoss、又は、他の損失関数を構築することができる。
理解できるように、データジェネレーターモデルのトレーニングが完了した後、すなわち、任意のテキストデータを入力して、それに対応する音響特徴を出力する能力を有し、テキストデータの規模は理論的に制限されないため、大規模な音響特徴を生成することができる。
ステップS103において、データジェネレーターモデルを用いて第2のテキストデータに対応する第2の音響特徴を生成し、第2のテキストデータの規模は、第1のテキストデータより大きい。
ステップS103は、図6に示すように、具体的には、ステップS301及びS302により実現されることができる。
ステップS301において、第2のテキストデータに対応する第2の発音トークンシーケンスを生成する。
ステップS301は、中国語などの象形文字言語の場合に適用できることが好ましい。例えば、第2のテキストデータT2が中国語文字列である場合、第2の発音トークンシーケンスは、中国語文字列に対応するピンイン列であってもよい。
言語モデルのトレーニング要件を満たす十分な第2の音響特徴を得るために、第2のテキストデータの規模は、第1のテキストデータの規模よりもかなり大きいであってもよい。
ステップS302において、第2の発音トークンシーケンスをデータジェネレーターモデルに入力し、第2の音響特徴を生成する。
ここで、第2の音響特徴A2及び第2のテキストデータT2は、言語モデルをトレーニングするためのトレーニングデータセットを構成することができる。
ステップS104において、言語モデルが音響モデルから出力された音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、第2のテキストデータ及び第2の音響特徴を用いて言語モデルをトレーニングする。
図7は、本実施例により提供される言語モデルLMの構造概略図である。
図7に示すように、当該言語モデルLMは、前置ネットワーク層LMPreNetと、コーデック層LMNetと、SoftMax層とを含む。
ここで、前置ネットワーク層LMPreNetは、計算を容易にするベクトル形式に変換するなど、入力された音響特徴に対して事前処理を行うために用いられる。
コーデック層LMNetは、アテンションメカニズムに基づくシーケンスツーシーケンスのエンコーダー-デコーダーのディープニューラルネットワークアルゴリズムを用いて構築されてもよい。
ここで、エンコーダーは、長短期記憶ネットワークLSTM、リカレントニューラルネットワークRNN、ゲートリカレントユニットGRU、畳み込みニューラルネットワークCNNなどを用いて構築されてもよく、デコーダーは、リカレントニューラルネットワークRNNを用いて構築されてもよく、アテンションメカニズムは、位置に敏感なアテンションメカニズムであってもよい。
SoftMax層は、コーデック層LMNetから出力されたデータに対して正規化確率を計算し、正規化確率に基づいて確率最大結果を最終出力テキストシーケンスFinal Token Sequenceとして決定するために用いられる。
ここで、テキストシーケンスFinal Token Sequenceの生成方向を監督するために、最終出力するテキストシーケンスFinal Token SequenceとSoftMax層との間にクロスエントロピー損失関数Cross Entropy Lossを構成することができる。
選択可能に、第2の音響特徴を言語モデルの入力とし、第2のテキストデータを言語モデルの出力として、言語モデルをトレーニングしてもよい。
あるいは、第1の音響特徴及び第2の音響特徴を言語モデルの入力とし、第1のテキストデータ及び第2のテキストデータを言語モデルの出力として、言語モデルをトレーニングすることにより、言語モデルのトレーニングデータの規模を拡大させ、モデル品質を向上させることができる。
以上に基づいて、本実施例の図8は、音声認識システムの構造概略図を示す。
当該音声認識システムは、音響モデルAMと、言語モデルLMと、発音ユニット事後確率生成モデルText2Pdf GenModelとを含む。
ここで、言語モデルLMは、音響モデルAMから出力された音響特徴PDFと発音ユニット事後確率生成モデルから出力された音響特徴PDF By GenNetを入力として、最終結果であるテキストシーケンスを出力する。
本願の実施例は、音響モデルAMと、言語モデルLMと、データジェネレーターモデルとの間の入出力関係に基づいて、一般的に、まず、音声-テキストペアデータを用いてトレーニングして音響モデルを得、次に、音響モデルを用いて音声-テキストペアデータ上の音響特徴の出力をターゲットとし、テキストを入力としてデータジェネレーターモデルをトレーニングし、それにより、任意のテキストから対応する音響特徴を生成し、そして、データジェネレーターモデルを用いて超大規模テキストで音響特徴-テキストデータペアを生成して言語モデルをトレーニングし、トレーニングが完了した後、音響モデルと言語モデルをカスケードすることにより、音声からテキストへの変換プロセスを実現する。
モデルの入出力関係に従って、前記3つのモデルは、実施のいくつかの段階で部分的又は全体的に共同でトレーニングできる。
データジェネレーターモデルは、理論的には、音響特徴-テキストペアデータの規模を無限に拡大するため、特定の分野の音声データを事前に取得しなくても、当該分野で高精度の大語彙の連続音声認識システムを構築でき、十分なテキスト規模でデータを生成して言語モデルをトレーニングすれば、あらゆる分野で高精度を持つシステムを構築することができる。
本実施例は、音声認識装置をさらに提供し、図9に示すように、この音声認識装置は、
音響モデルを用いて第1の音声データに対応する第1の音響特徴を生成するために用いられる第1のトレーニングユニット401と、
データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、第1の音声データに対応する第1のテキストデータ及び第1の音響特徴を用いてデータジェネレーターモデルをトレーニングするために用いられる第2のトレーニングユニット402と、
データジェネレーターモデルを用いて第2のテキストデータに対応する第2の音響特徴を生成するために用いられる第1の生成ユニット403であって、第2のテキストデータの規模が、第1のテキストデータより大きい第1の生成ユニット403と、
言語モデルが音響モデルから出力された音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、第2のテキストデータ及び第2の音響特徴を用いて言語モデルをトレーニングするために用いられる第3のトレーニングユニット404とを含むことができる。
一実施例では、第2のトレーニングユニット402は、第1のテキストデータに対応する第1の発音トークンシーケンスを生成することと、第1の発音トークンシーケンスをデータジェネレーターモデルの入力とし、第1の音響特徴をデータジェネレーターモデルの出力とし、音響モデルの出力をデータジェネレーターモデルの監督信号として、データジェネレーターモデルをトレーニングすることのために用いられる。
一実施例では、第1の生成ユニット403は、第2のテキストデータに対応する第2の発音トークンシーケンスを生成することと、第2の発音トークンシーケンスをデータジェネレーターモデルに入力して第2の音響特徴を生成することのために用いられる。
一実施例では、第3のトレーニングユニット404は、第2の音響特徴を言語モデルの入力とし、第2のテキストデータを言語モデルの出力として、言語モデルをトレーニングするために用いられる。
一実施例では、第3のトレーニングユニット404は、第1の音響特徴及び第2の音響特徴を言語モデルの入力とし、第1のテキストデータ及び第2のテキストデータを言語モデルの出力として、言語モデルをトレーニングするために用いられる。
本実施例は、音響モデルAMと、言語モデルLMと、発音ユニット事後確率生成モデルText2Pdf GenModelとの間の入出力関係に基づき、これら3つのモデルは、実施のある段階では共同でトレーニングされてもよい。
また、発音ユニット事後確率生成モデルText2Pdf GenModelが音響特徴の規模を拡大するため、トレーニングにより得られた音声認識システムは、大語彙の連続音声認識の場合に適用でき、且つ高い精度を有する。
本実施例は、電子機器をさらに提供し、この電子機器は、例えば、携帯電話、タブレットPC、パーソナルコンピュータ、サーバ、ワークステーション機器、大画面機器(例えば、スマート画面、スマートテレビなど)、スマートスピーカー、パームゲーム機、家庭用ゲーム機、仮想現実機器、拡張現実機器、ハイブリッド現実機器など、車載スマート端末、自動運転自動車、カスタマ構内設備(customer-premises equipment、CPE)などを含むが、本願の実施例は、これについて限定しない。
当該電子機器は、プロセッサ501と、コンピュータプログラム命令が記憶されているメモリ502とを含んでもよい。
コンピュータプログラム命令は、プロセッサ501によって実行される場合、音響モデルを用いて第1の音声データに対応する第1の音響特徴を生成するステップと、データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、第1の音声データに対応する第1のテキストデータ及び第1の音響特徴を用いてデータジェネレーターモデルをトレーニングするステップと、データジェネレーターモデルを用いて第2のテキストデータに対応する第2の音響特徴を生成し、第2のテキストデータの規模が、第1のテキストデータより大きいステップと、言語モデルが音響モデルから出力された音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、第2のテキストデータ及び第2の音響特徴を用いて言語モデルをトレーニングするステップとをプロセッサ501に実行させる。
本実施例は、音響モデルAMと、言語モデルLMと、発音ユニット事後確率生成モデルText2Pdf GenModelとの間の入出力関係に基づき、これら3つのモデルは、実施のある段階では、共同でトレーニングされてもよい。
また、発音ユニット事後確率生成モデルText2Pdf GenModelが音響特徴の規模を拡大するため、端末機器は、大語彙の連続音声認識の場合において音声認識を行う機能を持つことができ、且つ高い精度を有する。

Claims (8)

  1. 音響モデルを用いて第1の音声データに対応する第1の音響特徴を生成するステップと、
    第1のテキストデータに対応する第1の発音トークンシーケンスを生成するステップと、
    データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、前記第1の発音トークンシーケンスを前記データジェネレーターモデルの入力とし、前記第1の音響特徴を前記データジェネレーターモデルの出力として、前記データジェネレーターモデルをトレーニングするステップと、
    前記データジェネレーターモデルを用いて第2のテキストデータに対応する第2の音響特徴を生成するステップであって、前記第2のテキストデータの規模が、前記第1のテキストデータより大きいステップと、
    言語モデルが前記音響モデルから出力された前記第1の音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、前記第2のテキストデータ及び前記第2の音響特徴を用いて前記言語モデルをトレーニングするステップとを含み、
    前記音響モデルは、隠れマルコフモデルと組み合わせたガウス混合モデルGMM-HMM、又は、隠れマルコフモデルと組み合わせたニューラルネットワークモデルNN-HMMを含み、
    前記ニューラルネットワークモデルは、長短期記憶ネットワークモデルLSTMを含み、
    前記第1の音響特徴は、前記GMM-HMMから出力されたすべてのHMM状態での出力確率を含み、
    あるいは、前記第1の音響特徴は、前記ニューラルネットワークモデルがsoftmax層を介して出力したすべてのHMM状態での正規化確率が、接続タイミングモデルCTC又はビタビアルゴリズムviterbiを介して出力した、事後確率付きの発音ユニットシーケンスグリッドとを含む、
    ことを特徴とする音声認識方法。
  2. 前記データジェネレーターモデルを用いて第2のテキストデータに対応する第2の音響特徴を生成する前記ステップは、
    前記第2のテキストデータに対応する第2の発音トークンシーケンスを生成するステップと、
    前記第2の発音トークンシーケンスを前記データジェネレーターモデルに入力し、前記第2の音響特徴を生成するステップとを含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記データジェネレーターモデルは、敵対的生成ネットワークGANNetを含む、
    ことを特徴とする請求項1又は2に記載の方法。
  4. 前記第2のテキストデータ及び前記第2の音響特徴を用いて言語モデルをトレーニングする前記ステップは、前記第2の音響特徴を前記言語モデルの入力とし、前記第2のテキストデータを前記言語モデルの出力として、前記言語モデルをトレーニングするステップを含む、
    ことを特徴とする請求項1に記載の方法。
  5. 前記第2のテキストデータ及び前記第2の音響特徴を用いて言語モデルをトレーニングする前記ステップは、前記第1の音響特徴及び前記第2の音響特徴を前記言語モデルの入力とし、前記第1のテキストデータ及び前記第2のテキストデータを前記言語モデルの出力として、前記言語モデルをトレーニングするステップを含む、
    ことを特徴とする請求項1に記載の方法。
  6. 前記言語モデルには、アテンションメカニズムに基づくシーケンスツーシーケンスのエンコーダー及びデコーダーが含まれ、
    前記エンコーダーには、リカレントニューラルネットワーク構造又は畳み込みニューラルネットワーク構造が含まれ、
    前記デコーダーには、リカレントニューラルネットワーク構造が含まれる、
    ことを特徴とする請求項1、4、5のいずれか一項に記載の方法。
  7. 音響モデルを用いて第1の音声データに対応する第1の音響特徴を生成するために用いられる第1のトレーニングユニットと、
    第1のテキストデータに対応する第1の発音トークンシーケンスを生成するために用いられる第2のトレーニングユニットであって、データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、前記第1の発音トークンシーケンスを前記データジェネレーターモデルの入力とし、前記第1の音響特徴を前記データジェネレーターモデルの出力として、前記データジェネレーターモデルをトレーニングする第2のトレーニングユニットと、
    前記データジェネレーターモデルを用いて第2のテキストデータに対応する第2の音響特徴を生成するために用いられる第1の生成ユニットであって、前記第2のテキストデータの規模が、前記第1のテキストデータより大きい第1の生成ユニットと、
    言語モデルが前記音響モデルから出力された前記第1の音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、前記第2のテキストデータ及び前記第2の音響特徴を用いて前記言語モデルをトレーニングするために用いられる第2の生成ユニットとを含み、
    前記音響モデルは、隠れマルコフモデルと組み合わせたガウス混合モデルGMM-HMM、又は、隠れマルコフモデルと組み合わせたニューラルネットワークモデルNN-HMMを含み、
    前記ニューラルネットワークモデルは、長短期記憶ネットワークモデルLSTMを含み、
    前記第1の音響特徴は、前記GMM-HMMから出力されたすべてのHMM状態での出力確率を含み、
    あるいは、前記第1の音響特徴は、前記ニューラルネットワークモデルがsoftmax層を介して出力したすべてのHMM状態での正規化確率が、接続タイミングモデルCTC又はビタビアルゴリズムviterbiを介して出力した、事後確率付きの発音ユニットシーケンスグリッドとを含む、
    ことを特徴とする音声認識装置。
  8. プロセッサと、コンピュータプログラム命令が記憶されているメモリとを含む電子機器であって、前記コンピュータプログラム命令は、前記プロセッサによって実行される場合、
    音響モデルを用いて第1の音声データに対応する第1の音響特徴を生成するステップと、
    第1のテキストデータに対応する第1の発音トークンシーケンスを生成するステップと、
    データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、前記第1の発音トークンシーケンスを前記データジェネレーターモデルの入力とし、前記第1の音響特徴を前記データジェネレーターモデルの出力として、前記データジェネレーターモデルをトレーニングするステップと、
    前記データジェネレーターモデルを用いて第2のテキストデータに対応する第2の音響特徴を生成するステップであって、前記第2のテキストデータの規模が、前記第1のテキストデータより大きいステップと、
    言語モデルが前記音響モデルから出力された前記第1の音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、前記第2のテキストデータ及び前記第2の音響特徴を用いて前記言語モデルをトレーニングするステップと、を前記プロセッサに実行させ、
    前記音響モデルは、隠れマルコフモデルと組み合わせたガウス混合モデルGMM-HMM、又は、隠れマルコフモデルと組み合わせたニューラルネットワークモデルNN-HMMを含み、
    前記ニューラルネットワークモデルは、長短期記憶ネットワークモデルLSTMを含み、
    前記第1の音響特徴は、前記GMM-HMMから出力されたすべてのHMM状態での出力確率を含み、
    あるいは、前記第1の音響特徴は、前記ニューラルネットワークモデルがsoftmax層を介して出力したすべてのHMM状態での正規化確率が、接続タイミングモデルCTC又はビタビアルゴリズムviterbiを介して出力した、事後確率付きの発音ユニットシーケンスグリッドとを含む、
    ことを特徴とする電子機器。
JP2021577529A 2020-11-18 2021-10-11 音声認識方法、装置及び電子機器 Active JP7335569B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011294806.8 2020-11-18
CN202011294806.8A CN112420050B (zh) 2020-11-18 2020-11-18 一种语音识别方法、装置和电子设备
PCT/CN2021/122961 WO2022105472A1 (zh) 2020-11-18 2021-10-11 一种语音识别方法、装置和电子设备

Publications (3)

Publication Number Publication Date
JP2022551678A JP2022551678A (ja) 2022-12-13
JPWO2022105472A5 JPWO2022105472A5 (ja) 2023-08-02
JP7335569B2 true JP7335569B2 (ja) 2023-08-30

Family

ID=74774269

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021577529A Active JP7335569B2 (ja) 2020-11-18 2021-10-11 音声認識方法、装置及び電子機器

Country Status (3)

Country Link
JP (1) JP7335569B2 (ja)
CN (1) CN112420050B (ja)
WO (1) WO2022105472A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420050B (zh) * 2020-11-18 2021-06-18 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备
CN113643694A (zh) * 2021-08-17 2021-11-12 科大讯飞股份有限公司 语音识别方法、装置、电子设备和存储介质
CN116013256B (zh) * 2022-12-19 2024-01-30 镁佳(北京)科技有限公司 一种语音识别模型构建及语音识别方法、装置及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200193977A1 (en) 2018-12-12 2020-06-18 Google Llc Transliteration for speech recognition training and scoring

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3813491B2 (ja) * 2001-10-30 2006-08-23 日本放送協会 連続音声認識装置およびそのプログラム
KR20160098910A (ko) * 2015-02-11 2016-08-19 한국전자통신연구원 음성 인식 데이터 베이스 확장 방법 및 장치
JPWO2017037830A1 (ja) * 2015-08-31 2017-11-24 三菱電機株式会社 音声認識装置および音声認識処理方法
KR102423302B1 (ko) * 2015-10-06 2022-07-19 삼성전자주식회사 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법
KR102399535B1 (ko) * 2017-03-23 2022-05-19 삼성전자주식회사 음성 인식을 위한 학습 방법 및 장치
US11318373B2 (en) * 2017-10-04 2022-05-03 Ford Global Technologies, Llc Natural speech data generation systems and methods
CN110085215B (zh) * 2018-01-23 2021-06-08 中国科学院声学研究所 一种基于生成对抗网络的语言模型数据增强方法
CN108922518B (zh) * 2018-07-18 2020-10-23 苏州思必驰信息科技有限公司 语音数据扩增方法和系统
CN109117484B (zh) * 2018-08-13 2019-08-06 北京帝派智能科技有限公司 一种语音翻译方法和语音翻译设备
US10573296B1 (en) * 2018-12-10 2020-02-25 Apprente Llc Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping
CN109739370B (zh) * 2019-01-10 2019-09-03 北京帝派智能科技有限公司 一种语言模型训练方法、汉语拼音输入方法及装置
CN111179917B (zh) * 2020-01-17 2023-01-03 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质
CN112420050B (zh) * 2020-11-18 2021-06-18 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200193977A1 (en) 2018-12-12 2020-06-18 Google Llc Transliteration for speech recognition training and scoring

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
S. Ueno,Data Augmentation Approaches for Automatic Speech Recognition Using Text-to-Speech,博士論文,日本,京都大学,2022年03月23日
Z. Chen et al.,Improving Speech Recognition using GAN-based Speech Synthesis and Contrastive Unspoken Text Selection,INTERSPEECH 2020,2020年10月,556-560
上乃聖、外2名,End-to-End音声合成を用いた単語単位End-to-End音声認識の訓練データ拡張,日本音響学会2018年秋季研究発表会講演論文集CD-ROM,日本,日本音響学会,2018年09月,919-920

Also Published As

Publication number Publication date
JP2022551678A (ja) 2022-12-13
CN112420050B (zh) 2021-06-18
WO2022105472A1 (zh) 2022-05-27
CN112420050A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
Xiong Fundamentals of speech recognition
JP7436709B2 (ja) 非発話テキストおよび音声合成を使う音声認識
KR102386854B1 (ko) 통합 모델 기반의 음성 인식 장치 및 방법
JP7335569B2 (ja) 音声認識方法、装置及び電子機器
Matarneh et al. Speech recognition systems: A comparative review
JP7436760B1 (ja) サブワードエンドツーエンド自動音声認識のための学習ワードレベルコンフィデンス
JP7222153B1 (ja) デリバレーションモデルベースの2パスのエンド・ツー・エンド音声認識
CN111243599B (zh) 语音识别模型构建方法、装置、介质及电子设备
JP2023545988A (ja) トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル
JP7351018B2 (ja) エンド・ツー・エンド音声認識における固有名詞認識
KR20230086737A (ko) 단순화된 스트리밍 및 비스트리밍 스피치 인식을 위한 캐스케이드 인코더들
US20230096805A1 (en) Contrastive Siamese Network for Semi-supervised Speech Recognition
JP2024514064A (ja) ニューラルテキストトゥスピーチのための音素と書記素
Garg et al. Streaming On-Device End-to-End ASR System for Privacy-Sensitive Voice-Typing.
JP2023175029A (ja) アテンションベースのジョイント音響およびテキストのオンデバイス・エンド・ツー・エンドモデル
WO2020136948A1 (ja) 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
CN117063228A (zh) 用于灵活流式和非流式自动语音识别的混合模型注意力
EP4295355A1 (en) Efficient streaming non-recurrent on-device end-to-end model
KR102637025B1 (ko) 자동 음성 인식을 위한 다언어 리스코어링 모델들
EP4068279B1 (en) Method and system for performing domain adaptation of end-to-end automatic speech recognition model
Raheem et al. Real-time speech recognition of arabic language
CN113506561B (zh) 文本拼音的转换方法及装置、存储介质及电子设备
KR20240022598A (ko) 셀프 지도 스피치 사전 트레이닝에서 텍스트 삽입하기
Ahmed et al. 8. Modern Approach of Speech Recognition
WO2024020154A1 (en) Using aligned text and speech representations to train automatic speech recognition models without transcribed speech data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211224

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20211224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230613

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20230725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230809

R150 Certificate of patent or registration of utility model

Ref document number: 7335569

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150