JP7335569B2

JP7335569B2 - 音声認識方法、装置及び電子機器

Info

Publication number: JP7335569B2
Application number: JP2021577529A
Authority: JP
Inventors: チュンファイー、
Original assignee: BEIJING DEEPAI TECHNOLOGY CO., LTD.
Current assignee: BEIJING DEEPAI TECHNOLOGY CO., LTD.
Priority date: 2020-11-18
Filing date: 2021-10-11
Publication date: 2023-08-30
Anticipated expiration: 2041-10-11
Also published as: WO2022105472A1; CN112420050B; CN112420050A; JP2022551678A

Description

関連出願の相互参照

本願は、２０２０年１１月１８日に中国知的財産権局に出願された、出願番号が２０２０１１２９４８０６．８で、発明の名称が「音声認識方法、装置、及び、電子機器」である中国特許出願の優先権を主張し、そのすべての内容が参照により本願に組み込まれる。

本願は、自然言語処理技術分野に関し、特に、音声認識方法、装置、及び、電子機器に関する。

自動音声認識（ａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ、ＡＳＲ）、コンピューター音声認識（ｃｏｍｐｕｔｅｒｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）、又は音声ツーテキスト認識（ｓｐｅｅｃｈｔｏｔｅｘｔ、ＳＴＴ）とも呼ばれる音声認識技術（ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）は、コンピューターが人間の音声コンテンツを対応する文字に自動的に変換することを目的とする。
音声認識技術は、音声ダイアリング、音声ナビゲーション、室内機器制御、音声文書検索、口述データの録取など、多くの分野で応用することができる。
また、音声認識技術と他の自然言語処理技術（機械翻訳や音声合成技術など）とを組み合わせることにより、音声から音声への翻訳など、より複雑なアプリケーションを構築することができる。

現在の音声認識システムは、一般的には、音響モデルと言語モデルを完全に分離する方法でトレーニングし、音声認識の応用を疎結合的に行う。この音響モデルには、最も基本的な言語モデル情報のみが含まれ、言語モデルには、音響データとは関係ない言語関連の情報のみが含まれる。つまり、言語モデルは、テキストレベルでの文字コロケーション関係のみを表す。
このスキームの欠点は、音響モデルと言語モデルが別々にトレーニングされ、独立して最適化されるため、パイプラインスキームに対してエンドツーエンドの全体的な最適化を実行できず、グローバル（大域的）な最適認識結果を取得できず、したがって、パイプラインスキームの音声認識精度を向上させることが難しいことである。

上記の欠点を克服するために、従来技術は、音声認識システムのすべてのコンポーネントを単一のエンドツーエンドのネットワークモデルとして扱うスキームをさらに採用している。
しかしながら、このエンドツーエンドのネットワークモデルのスキームは、オーディオ－テキストのサンプルを用いてトレーニングするが、現在のオーディオ－テキストのサンプルの数の規模は、一般的に、音響モデルのトレーニング要件を満たすだけであり、言語モデルのトレーニング要件を満たすことはできない。
その結果、当該モデルは、大語彙の連続音声認識の用途に広く適用できず、特定の用途の小型音声認識システムにのみ適用可能であり、また、精度及び拡張性は、音響モデル＋Ｎ－Ｇｒａｍ言語モデルなどの従来のパイプラインスキームよりも劣る。

本実施例は、音声認識システムの認識精度を向上させるための、音声認識方法、装置、及び、電子機器を提供する。

第１の態様において、本実施例は、音声認識方法を提供し、当該方法は、音響モデルを用いて第１の音声データに対応する第１の音響特徴を生成するステップと、データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、第１の音声データに対応する第１のテキストデータ及び第１の音響特徴を用いてデータジェネレーターモデルをトレーニングするステップと、データジェネレーターモデルを用いて第２のテキストデータに対応する第２の音響特徴を生成するステップであって、第２のテキストデータの規模が、第１のテキストデータより大きいステップと、言語モデルが音響モデルから出力された音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、第２のテキストデータ及び第２の音響特徴を用いて言語モデルをトレーニングするステップとを含む。

一実施態様において、第１の音声データに対応する第１のテキストデータ及び第１の音響特徴を用いてデータジェネレーターモデルをトレーニングするステップは、第１のテキストデータに対応する第１の発音トークンシーケンスを生成するステップと、第１の発音トークンシーケンスをデータジェネレーターモデルの入力とし、第１の音響特徴をデータジェネレーターモデルの出力とし、音響モデルの出力をデータジェネレーターモデルの監督信号として、データジェネレーターモデルをトレーニングするステップとを含む。

一実施態様において、データジェネレーターモデルを用いて第２のテキストデータに対応する第２の音響特徴を生成するステップは、第２のテキストデータに対応する第２の発音トークンシーケンスを生成するステップと、第２の発音トークンシーケンスをデータジェネレーターモデルに入力して第２の音響特徴を生成するステップとを含む。

一実施態様において、音響モデルは、隠れマルコフモデルと組み合わせたガウス混合モデルＧＭＭ－ＨＭＭ、又は、隠れマルコフモデルと組み合わせたニューラルネットワークモデルＮＮ－ＨＭＭを含み、このニューラルネットワークモデルは、長短期記憶ネットワークモデルＬＳＴＭを含み、音響特徴は、ＧＭＭ－ＨＭＭから出力されたすべてのＨＭＭ状態での出力確率を含み、あるいは、音響特徴は、ニューラルネットワークモデルがｓｏｆｔｍａｘ層を介して出力したすべてのＨＭＭ状態での正規化確率が接続タイミングモデルＣＴＣ又はビタビアルゴリズムｖｉｔｅｒｂｉを介して出力した事後確率ＰＤＦ付きの発音ユニットシーケンスグリッドとを含む。
前記発音ユニットは、状態、音素、声韻母、音節、文字又は単語であってもよく、本実施例は、これについて限定しない。

一実施態様において、データジェネレーターモデルは、敵対的生成ネットワークＧＡＮＮｅｔを含む。

一実施態様において、第２のテキストデータ及び第２の音響特徴を用いて言語モデルをトレーニングするステップは、第２の音響特徴を言語モデルの入力とし、第２のテキストデータを言語モデルの出力として、言語モデルをトレーニングするステップを含む。

一実施態様において、第２のテキストデータ及び第２の音響特徴を用いて言語モデルをトレーニングするステップは、第１の音響特徴及び第２の音響特徴を言語モデルの入力とし、第１のテキストデータ及び第２のテキストデータを言語モデルの出力として、言語モデルをトレーニングするステップを含む。

一実施態様において、言語モデルには、アテンションメカニズムに基づくシーケンスツーシーケンスのエンコーダー及びデコーダーが含まれる。
エンコーダーには、リカレントニューラルネットワーク構造又は畳み込みニューラルネットワーク構造が含まれ、デコーダーには、リカレントニューラルネットワーク構造が含まれる。

第２の態様において、本願の実施例は、音声認識装置を提供し、当該装置は、音響モデルを用いて第１の音声データに対応する第１の音響特徴を生成するために用いられる第１のトレーニングユニットと、データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、第１の音声データに対応する第１のテキストデータ及び第１の音響特徴を用いてデータジェネレーターモデルをトレーニングするために用いられる第２のトレーニングユニットと、データジェネレーターモデルを用いて第２のテキストデータに対応する第２の音響特徴を生成するために用いられる第１の生成ユニットであって、第２のテキストデータの規模が、第１のテキストデータより大きい第１の生成ユニットと、言語モデルが音響モデルから出力された音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、第２のテキストデータ及び第２の音響特徴を用いて言語モデルをトレーニングするために用いられる第２の生成ユニットとを含む。

第３の態様において、本実施例は、電子機器を提供し、当該電子機器は、プロセッサと、コンピュータプログラム命令が記憶されているメモリとを含み、コンピュータプログラム命令は、プロセッサによって実行される場合、音響モデルを用いて第１の音声データに対応する第１の音響特徴を生成するステップと、データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、第１の音声データに対応する第１のテキストデータ及び第１の音響特徴を用いてデータジェネレーターモデルをトレーニングするステップと、データジェネレーターモデルを用いて第２のテキストデータに対応する第２の音響特徴を生成するステップであって、第２のテキストデータの規模が、第１のテキストデータより大きいステップと、言語モデルが音響モデルから出力された音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、第２のテキストデータ及び第２の音響特徴を用いて言語モデルをトレーニングするステップと、をプロセッサに実行させる。

本実施例は、音響モデルＡＭと、言語モデルＬＭと、データジェネレーターモデルとの間の入出力関係に基づいて、一般的に、まず、音声－テキストペアデータを用いてトレーニングして音響モデルを得、次に、音響モデルを用いて音声－テキストペアデータ上の音響特徴の出力をターゲットとし、テキストを入力としてデータジェネレーターモデルをトレーニングし、それにより、任意のテキストから対応する音響特徴を生成し、そして、データジェネレーターモデルを用いて超大規模テキストで音響特徴－テキストデータペアを生成して言語モデルをトレーニングし、トレーニングが完了した後、音響モデルと言語モデルをカスケードすることにより、音声からテキストへの変換プロセスを実現する。
モデルの入出力関係に従って、前記３つのモデルは、実施のいくつかの段階で部分的又は全体的に共同でトレーニングできる。
データジェネレーターモデルは、理論的には、音響特徴－テキストペアデータの規模を無限に拡大するため、特定の分野の音声データを事前に取得しなくても、当該分野で高精度の大語彙の連続音声認識システムを構築でき、十分なテキスト規模でデータを生成して言語モデルをトレーニングすれば、あらゆる分野で高精度を持つシステムを構築することができる。

本実施例により提供される音声認識方法のフローチャートである。本実施例により提供される実現可能な音響モデルの構造図である。本実施例により提供される実現可能なデータジェネレーターモデルの構造図である。本実施例により提供されるＧＡＮＮｅｔのフレーム概略図である。本実施例により提供される音声認識方法のステップＳ１０２のフローチャートである。本実施例により提供される音声認識方法のステップＳ１０３のフローチャートである。本実施例により提供される実現可能な言語モデルの構造図である。本実施例により提供される音声認識システムのフレーム図である。本実施例により提供される音声認識装置の構造図である。

自動音声認識（ａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ、ＡＳＲ）、コンピューター音声認識（ｃｏｍｐｕｔｅｒｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）、又は、音声からテキストへの認識（ｓｐｅｅｃｈｔｏｔｅｘｔ、ＳＴＴ、音声ツーテキスト）とも呼ばれる音声認識技術（ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）は、コンピューターが人間の音声コンテンツを対応する文字に自動的に変換することを目的とする。
音声認識技術は、音声ダイアリング、音声ナビゲーション、室内機器制御、音声テキスト検索、口述データ録取など、多くの分野で応用できる。
また、音声認識技術と他の自然言語処理技術（機械翻訳や音声合成など）とを組み合わせることにより、音声から音声への翻訳など、より複雑なアプリケーションを構築することができる。

現在の最も先進的な音声認識システムは、一般的には、音響モデルと言語モデルを完全に分離する方法でトレーニングし、音声認識の応用を疎結合的に行う。音響モデルには、最も基本的な言語モデル情報のみが含まれる。
言語モデルには、音響データとは関係ない言語関連の情報のみが含まれる。つまり、言語モデルは、テキストレベルでの文字コロケーション関係のみを表す。
例えば、従来のパイプライン（ｐｉｐｅｌｉｎｅ）方式の音声認識システムでは、一般的には、音響モデルＡＭ、言語モデルＬＭ、及び、発音モデルＰＭがそれぞれ１つ含まれる。
ここで、音響モデルＡＭは、音響特徴から発音ユニットへの関係を表すために用いられ、音響モデルＡＭは、一般に、オーディオデータから抽出された音響特徴を入力とし、通常に、各音響特徴に対応する発音ユニットシーケンスを出力とする。
ここで、音響モデルは、サウンドユニットシーケンスを表すために用いられる事後確率ＰＤＦ付きの音素シーケンスグリッド又はマトリックスを中間出力の音響特徴とすることができる。
言語モデルＬＭは、発音ユニットシーケンスと最終的に認識されるテキストシーケンスの間のマッピング関係を表すために用いられ、言語モデルは、音響モデルの中間出力の音響特徴を入力とし、テキストシーケンスを出力とすることができる。
発音モデルＰＭは、テキストシーケンスをサウンドとして出力するために用いられる。
パイプライン（ｐｉｐｅｌｉｎｅ）スキームに基づいて、従来の音声認識は、以下のように実現される。まず、音響モデルＡＭは、音響特徴を抽出し、一般的に、文脈依存又は文脈非依存の音素シーケンスであるサブワードユニット（ｓｕｂｗｏｒｄｕｎｉｔ）のセットを予測する。次に、音響モデルによって生成された音素シーケンスを、手動設計された辞書を用いてワードシーケンスにマッピングする。最後に、言語モデルＬＭは、確率をワードシーケンスに割り当て、全体的な同時確率が最大のワードシーケンスを探して認識結果とする。
上記３つのモデルは、従来の隠れマルコフモデル（ｈｉｄｄｅｎｍａｒｋｏｖｍｏｄｅｌ、ＨＭＭ）やＮ－グラム（Ｎ－Ｇｒａｍ）などの方法で構築してもよく、ディープニューラルネットワークなどの方法で構築してもよく、また、上記モデルのうちの２つを組み合わせて、モデルが２つ（発音モデルＡＭと言語モデルＬＭ）しかないことを外の世界に見せるようにしてもよい。
しかし、パイプライン（ｐｉｐｅｌｉｎｅ）スキームの変更にかかわらず、発音モデルＡＭと言語モデルＬＭとを分離して互いに独立させる技術思想から離れることはない。
このスキームの欠点は、音響モデルと言語モデルが別々にトレーニングされ、独立して最適化されるため、パイプラインスキームに対してエンドツーエンドの全体的な最適化を実行できず、グローバル（大域的）な最適認識結果を取得できず、したがって、パイプラインスキームの音声認識精度を向上させることが難しいことである。

パイプラインスキームの欠点を克服するために、従来技術は、音声認識システムのすべてのコンポーネントを単一のエンドツーエンドのネットワークモデルとして扱うスキームをさらに提出する。
発音モデルＡＭと言語モデルＬＭを別々のモジュールとしてトレーニングする従来のパイプラインスキームとは異なって、エンドツーエンドスキームでは、すべてのコンポーネントを単一のエンドツーエンドニューラルネットワークとして共同トレーニングするため、トレーニングがより簡単になり、音響特徴と言語的特徴（言語モデルＬＭの特徴）を十分に融合し、最適な認識結果を得るための理論的サポートを備える。
さらに、エンドツーエンドモデルは、完全にニューラルネットワークであるため、有限状態コンバーター、辞書、テキスト標準化モジュールなど、外部の手動で設計されたコンポーネントは、不要である。
最後に、従来のモデルとは異なって、エンドツーエンドのモデルをトレーニングすることは、別個のシステムから生成された決定木又は時間較正ガイダンスを必要とせず、所与のテキスト及び対応する音響特徴ペアでトレーニングすることができる。
ただし、このエンドツーエンドのモデルは、生成環境のデータ上での評価において十分なパフォーマンスを有せず、当該モデルが何万ものオーディオ－テキストサンプルペアで学習されるため、これらのサンプルは、音響モデルＡＭのトレーニング要件を満たすことはできるが、そのデータ規模は、従来の言語モデルのトレーニングに必要なテキストコンテンツ又は音声コンテンツの規模に対応すること、又は、それと同等であることができない。
そのため、当該モデルは、大語彙の連続音声認識システムには適用できず、特定の用途の小型音声認識システムにのみ適用可能であり、その一般的な音声認識機能及び適用可能な場合は、従来のパイプラインスキームよりもはるかに少ない。

エンドツーエンドのモデルスキームの不十分なトレーニングデータ規模の問題を解決するために、本実施例は、音声認識方法を提供し、図１に示すように、当該方法は、ステップＳ１０１～Ｓ１０４を含む。

ステップＳ１０１において、音響モデルを用いて、第１の音声データに対応する第１の音響特徴を生成する。

選択可能に、たとえば、音響モデルは、隠れマルコフモデルと組み合わせたニューラルネットワークモデルＮＮ－ＨＭＭで構成されてもよい。
ここで、音響モデルのニューラルネットワーク部分は、長短期記憶ネットワーク（ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ、ＬＳＴＭ）、リカレントニューラルネットワーク（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ、ＲＮＮ）、ゲートリカレントユニット（ｇａｔｅｒｅｃｕｒｒｅｎｔｕｎｉｔ、ＧＲＵ）、畳み込みニューラルネットワーク（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ、ＣＮＮ）などであってもよく、本実施例では限定しない。
一方、音響モデルは、隠れマルコフモデルと組み合わせたガウス混合モデルＧＭＭ－ＨＭＭであってもよい。
どのような形式の音響モデルを採用するかは、本願では、特に限定しない。

音響特徴を取得するために、本願の実施例は、（ａ１，Ｔ１）と記される、音声データ及びそれに対応するテキストデータからなる第１のトレーニングデータセットを導入してもよい。
ここで、ａ１は、第１の音声データを表し、Ｔ１は、第１の音声データに対応する第１のテキストデータを表す。
第１のトレーニングデータセットは、業界でよく見られるデータセットを採用してもよく、自分で収集して作成してもよく、本実施例は、これについて限定されず、一般的には、第１のトレーニングデータセットのデータ規模は、数千時間から数十万時間で異なってもよく、業界で現在の音声認識用の音声－テキストペアデータの中で規模の大きいものは、１０万時間のオーダーであり、対応するテキストデータは、一般的に、２００ＭＢバイト未満であり、音響モデルのトレーニング規模を満たすことができるが、言語モデルのトレーニング規模にはるかに達しない。

具体的には、音響モデルが隠れマルコフモデルＮＮ－ＨＭＭと組み合わされたニューラルネットワークモデルで構成される場合、音響特徴は、前記ニューラルネットワークモデルがｓｏｆｔｍａｘ層を介して出力したすべてのＨＭＭ状態での正規化確率が、接続タイミングモデルＣＴＣ又はビタビアルゴリズムｖｉｔｅｒｂｉを介して出力した、事後確率（ｐｒｏｂａｂｉｌｉｔｙｄｅｎｓｉｔｙｆｕｎｃｔｉｏｎ、ＰＤＦ）付きの発音ユニットシーケンスグリッドを含むことができる。
音響モデルが隠れマルコフモデルと組み合わせたガウス混合モデルＧＭＭ－ＨＭＭである場合、音響特徴は、前記ＧＭＭ－ＨＭＭから出力されたすべてのＨＭＭ状態での出力確率を含むことができる。

例えば、音響モデルが隠れマルコフモデルＨＭＭと組み合わされた長短期記憶ネットワークであることを例として挙げると、音響特徴は、長短期記憶ネットワークＬＳＴＭモデルがｓｏｆｔｍａｘ層を介して出力したすべてのＨＭＭ状態での正規化確率が、接続タイミングモデルＣＴＣ又はビタビアルゴリズムｖｉｔｅｒｂｉを介して出力した、事後確率ＰＤＦ付きの発音ユニットシーケンスグリッドであることができる。

図２は、実現可能な音響モデルの構造図を示す。
図２に示すように、当該音響モデルは、特徴フレーム層ＡＭＦｅｒｔｕｒｅＦｒａｍｅｓと、前置ネットワーク層ＡＭＰｒｅＮｅｔと、エンコーダー層ＡＭＥｎｃｏｄｅｒと、後処理層ＡＭＰｏｓｔＮｅｔとを含む。
ここで、特徴フレーム層ＡＭＦｅｒｔｕｒｅＦｒａｍｅは、入力された音声の波形データに対してスペクトル変換を行い、音声の周波数領域特徴を得るために用いられる。
当該周波数領域特徴は、音響モデルと音声認識モデルの実際の入力データである。
周波数領域特徴は、例えば、メル周波数ケプストラム係数（ｍｅｌ－ｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔｓ、ＭＦＣＣ）、メル周波数ケプストラム（ｍｅｌ－ｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒｕｍ、ＭＦＣ）、又は線形スペクトルなどであってもよく、本願の実施例では限定しない。
前置ネットワーク層ＡＭＰｒｅＮｅｔは、音声の周波数領域特徴に対して、計算処理のために高次元入力ベクトルに変換するなど、事前処理を行うために用いられる。
エンコーダー層ＡＭＥｎｃｏｄｅｒは、長短期記憶ネットワークＬＳＴＭ、リカレントニューラルネットワークＲＮＮ、ゲートリカレントユニットＧＲＵ、畳み込みニューラルネットワークＣＮＮなどであってもよく、本実施例では限定されず、音声の入力ベクトルを１つの特徴表示にマッピングするために用いられる。
後処理層ＡＭＰｏｓｔＮｅｔは、多層の畳み込みニューラルネットワークＣＮＮであってもよく、エンコーダー層の出力を畳み込んで次元削減処理を実現し、入力された音声フレームに対応する事後確率ＰＤＦの発音ユニットシーケンスグリッドを得るために用いられる。
また、当該音響モデルは、トレーニングプロセスで発音トークンシーケンスＰｒｏｎｕｎｃｉａｔｉｏｎＴｏｋｅｎＳｅｑｕｅｎｃｅを目標として、接続タイミングモデルＣＴＣを用いて損失Ｌｏｓｓを計算してＰＤＦの発音ユニットシーケンスグリッドの出力方向を監督（モニタリング）する。
ここで、発音トークンとは、テキストの発音状況を表すための情報を意味し、例えば、国際表音トークン、中国語ピンインなどであり、その単位は、音素、音節、単語、漢字であってもよく、テキストの発音状況を表す情報であれば、発音トークンとすることができ、本実施例は、これについて限定しない。

音響モデルのトレーニングが完了した後、第１の音声データａ１を音響モデルに入力し、対応する第１の音響特徴Ａ１が得られる。

ステップＳ１０２において、データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、第１の音声データに対応する第１のテキストデータ及び第１の音響特徴を用いてデータジェネレーターモデルをトレーニングする。

第１の音響特徴Ａ１及び第１のテキストデータＴ１は、ジェネレーターモデルをトレーニングするときに使用される第２のトレーニングデータセットを構成する。

本実施例では、データジェネレーターモデルは、言語モデルをトレーニングするのに必要な音響特徴の数量セットの要件を達成するために、より多くのテキストデータに基づいてより大規模な音響特徴を生成するために用いられる。
一般的に、テキストデータのデータ規模は、制限されないため、データジェネレーターモデルが得られれば、制限されずに音響特徴を生成することができ、言語モデルのトレーニングに十分使用できる。

一実現形態では、データジェネレーターモデルは、敵対的生成ネットワーク（ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ、ＧＡＮＮｅｔ）を用いて構築されることができる。
例えば、データジェネレーターモデルは、図３に示すように、発音ユニット事後確率生成モデルＴｅｘｔ２ＰｄｆＧｅｎＭｏｄｅｌであってもよく、当該モデルは、文字埋込層ＣｈａｒＥｍｂｅｄｄｉｎｇと、ＧＡＮＮｅｔ層と、ＧＡＮ後処理層ＧｅｎＰｏｓｔＮｅｔとを含む。
ここで、文字埋込層ＣｈａｒＥｍｂｅｄｄｉｎｇは、超大規模のテキストデータに対応する超大規模テキストトークンに対して単語埋め込みエンコーディングを実行し、編集計算のベクトル形式を得るために用いられる。
ＧＡＮＮｅｔ層は、テキストデータから音響特徴の表現を生成するために用いられ、ＧＡＮＮｅｔ層は、ディープニューラルネットワーク、又は他の生成関数及び判別関数から構成されてもよい。
ＧＡＮ後処理層ＧｅｎＰｏｓｔＮｅｔは、次元削減処理を実現するためにＧＡＮＮｅｔ層を畳み込み、最終的な超大規模テキストデータに対応する超大規模音響特徴ＰＤＦＢｙＧｅｎＮｅｔを得るために用いられる。
また、トレーニングプロセスでは、音響モデルから出力されたＰＤＦと音響特徴ＰＤＦＢｙＧｅｎＮｅｔとの間のクロスエントロピー損失関数ＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓ、又は、他の損失関数を構成してトレーニング方向を互いに監督することができる。

図４は、本実施例により提供されるＧＡＮＮｅｔのフレーム概略図である。
図４に示すように、ＧＡＮＮｅｔは、生成モデルＧｅｎｅｒａｔｉｖｅＭｏｄｅｌと判別モデルＤｉｓｃｒｉｍｉｎａｔｉｖｅＭｏｄｅｌからなり、生成モデル及び判別モデルは、相互ゲーミング且学習を通じてＧＡＮＮｅｔに良好な出力を発生させることができ、生成モデル及び判別モデルは、ニューラルネットワークであってもよく、対応する生成及び判別に適合可能な他の関数であってもよい。
発音ユニット事後確率生成モデルＴｅｘｔ２ＰｄｆＧｅｎＭｏｄｅｌは、使用段階（連携して言語モデルＬＭをトレーニングするトレーニング段階を含む）において、生成モデルＧｅｎｅｒａｔｉｖｅＭｏｄｅｌ部分のみを使用する必要がある。
ここで、生成モデルと判別モデルは、長短期記憶ネットワークＬＳＴＭ、リカレントニューラルネットワークＲＮＮ、ゲートリカレントユニットＧＲＵ、畳み込みニューラルネットワークＣＮＮ及びＴｒａｎｓｆｏｒｍｅｒなどのモデルのうちのいずれか１つ又は複数の組み合わせであってもよい。

一実現形態では、上記のデータジェネレーターモデルに基づいて、ステップＳ１０２は、図５に示すように、具体的には、ステップＳ２０１及びＳ２０２により実現されることができる。

ステップＳ２０１において、第１のテキストデータに対応する第１の発音トークンシーケンスを生成する。

ステップＳ２０１は、中国語などの象形文字言語や第１のテキストデータの規模が小さい場合に適用できることが好ましい。
例えば、第１のテキストデータが中国語文字列である場合、第１の発音トークンシーケンスは、中国語文字列に対応するピンイン列であってもよい。

ステップＳ２０２において、第１の発音トークンシーケンスをデータジェネレーターモデルの入力とし、第１の音響特徴Ａ１をデータジェネレーターモデルの出力とし、音響モデルの出力をデータジェネレーターモデルの監督信号として、データジェネレーターモデルをトレーニングする。

前述のように、音響モデルの出力ＰＤＦとデータジェネレーターモデルの出力ＰＤＦＢｙＧｅｎＮｅｔとの間に、トレーニング方向を互いに監督してモデル品質を向上させるように、クロスエントロピー損失関数ＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓ、又は、他の損失関数を構築することができる。

理解できるように、データジェネレーターモデルのトレーニングが完了した後、すなわち、任意のテキストデータを入力して、それに対応する音響特徴を出力する能力を有し、テキストデータの規模は理論的に制限されないため、大規模な音響特徴を生成することができる。

ステップＳ１０３において、データジェネレーターモデルを用いて第２のテキストデータに対応する第２の音響特徴を生成し、第２のテキストデータの規模は、第１のテキストデータより大きい。

ステップＳ１０３は、図６に示すように、具体的には、ステップＳ３０１及びＳ３０２により実現されることができる。

ステップＳ３０１において、第２のテキストデータに対応する第２の発音トークンシーケンスを生成する。

ステップＳ３０１は、中国語などの象形文字言語の場合に適用できることが好ましい。例えば、第２のテキストデータＴ２が中国語文字列である場合、第２の発音トークンシーケンスは、中国語文字列に対応するピンイン列であってもよい。
言語モデルのトレーニング要件を満たす十分な第２の音響特徴を得るために、第２のテキストデータの規模は、第１のテキストデータの規模よりもかなり大きいであってもよい。

ステップＳ３０２において、第２の発音トークンシーケンスをデータジェネレーターモデルに入力し、第２の音響特徴を生成する。

ここで、第２の音響特徴Ａ２及び第２のテキストデータＴ２は、言語モデルをトレーニングするためのトレーニングデータセットを構成することができる。

ステップＳ１０４において、言語モデルが音響モデルから出力された音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、第２のテキストデータ及び第２の音響特徴を用いて言語モデルをトレーニングする。

図７は、本実施例により提供される言語モデルＬＭの構造概略図である。
図７に示すように、当該言語モデルＬＭは、前置ネットワーク層ＬＭＰｒｅＮｅｔと、コーデック層ＬＭＮｅｔと、ＳｏｆｔＭａｘ層とを含む。
ここで、前置ネットワーク層ＬＭＰｒｅＮｅｔは、計算を容易にするベクトル形式に変換するなど、入力された音響特徴に対して事前処理を行うために用いられる。
コーデック層ＬＭＮｅｔは、アテンションメカニズムに基づくシーケンスツーシーケンスのエンコーダー－デコーダーのディープニューラルネットワークアルゴリズムを用いて構築されてもよい。
ここで、エンコーダーは、長短期記憶ネットワークＬＳＴＭ、リカレントニューラルネットワークＲＮＮ、ゲートリカレントユニットＧＲＵ、畳み込みニューラルネットワークＣＮＮなどを用いて構築されてもよく、デコーダーは、リカレントニューラルネットワークＲＮＮを用いて構築されてもよく、アテンションメカニズムは、位置に敏感なアテンションメカニズムであってもよい。
ＳｏｆｔＭａｘ層は、コーデック層ＬＭＮｅｔから出力されたデータに対して正規化確率を計算し、正規化確率に基づいて確率最大結果を最終出力テキストシーケンスＦｉｎａｌＴｏｋｅｎＳｅｑｕｅｎｃｅとして決定するために用いられる。
ここで、テキストシーケンスＦｉｎａｌＴｏｋｅｎＳｅｑｕｅｎｃｅの生成方向を監督するために、最終出力するテキストシーケンスＦｉｎａｌＴｏｋｅｎＳｅｑｕｅｎｃｅとＳｏｆｔＭａｘ層との間にクロスエントロピー損失関数ＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓを構成することができる。

選択可能に、第２の音響特徴を言語モデルの入力とし、第２のテキストデータを言語モデルの出力として、言語モデルをトレーニングしてもよい。
あるいは、第１の音響特徴及び第２の音響特徴を言語モデルの入力とし、第１のテキストデータ及び第２のテキストデータを言語モデルの出力として、言語モデルをトレーニングすることにより、言語モデルのトレーニングデータの規模を拡大させ、モデル品質を向上させることができる。

以上に基づいて、本実施例の図８は、音声認識システムの構造概略図を示す。
当該音声認識システムは、音響モデルＡＭと、言語モデルＬＭと、発音ユニット事後確率生成モデルＴｅｘｔ２ＰｄｆＧｅｎＭｏｄｅｌとを含む。
ここで、言語モデルＬＭは、音響モデルＡＭから出力された音響特徴ＰＤＦと発音ユニット事後確率生成モデルから出力された音響特徴ＰＤＦＢｙＧｅｎＮｅｔを入力として、最終結果であるテキストシーケンスを出力する。

本願の実施例は、音響モデルＡＭと、言語モデルＬＭと、データジェネレーターモデルとの間の入出力関係に基づいて、一般的に、まず、音声－テキストペアデータを用いてトレーニングして音響モデルを得、次に、音響モデルを用いて音声－テキストペアデータ上の音響特徴の出力をターゲットとし、テキストを入力としてデータジェネレーターモデルをトレーニングし、それにより、任意のテキストから対応する音響特徴を生成し、そして、データジェネレーターモデルを用いて超大規模テキストで音響特徴－テキストデータペアを生成して言語モデルをトレーニングし、トレーニングが完了した後、音響モデルと言語モデルをカスケードすることにより、音声からテキストへの変換プロセスを実現する。
モデルの入出力関係に従って、前記３つのモデルは、実施のいくつかの段階で部分的又は全体的に共同でトレーニングできる。
データジェネレーターモデルは、理論的には、音響特徴－テキストペアデータの規模を無限に拡大するため、特定の分野の音声データを事前に取得しなくても、当該分野で高精度の大語彙の連続音声認識システムを構築でき、十分なテキスト規模でデータを生成して言語モデルをトレーニングすれば、あらゆる分野で高精度を持つシステムを構築することができる。

本実施例は、音声認識装置をさらに提供し、図９に示すように、この音声認識装置は、
音響モデルを用いて第１の音声データに対応する第１の音響特徴を生成するために用いられる第１のトレーニングユニット４０１と、
データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、第１の音声データに対応する第１のテキストデータ及び第１の音響特徴を用いてデータジェネレーターモデルをトレーニングするために用いられる第２のトレーニングユニット４０２と、
データジェネレーターモデルを用いて第２のテキストデータに対応する第２の音響特徴を生成するために用いられる第１の生成ユニット４０３であって、第２のテキストデータの規模が、第１のテキストデータより大きい第１の生成ユニット４０３と、
言語モデルが音響モデルから出力された音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、第２のテキストデータ及び第２の音響特徴を用いて言語モデルをトレーニングするために用いられる第３のトレーニングユニット４０４とを含むことができる。

一実施例では、第２のトレーニングユニット４０２は、第１のテキストデータに対応する第１の発音トークンシーケンスを生成することと、第１の発音トークンシーケンスをデータジェネレーターモデルの入力とし、第１の音響特徴をデータジェネレーターモデルの出力とし、音響モデルの出力をデータジェネレーターモデルの監督信号として、データジェネレーターモデルをトレーニングすることのために用いられる。

一実施例では、第１の生成ユニット４０３は、第２のテキストデータに対応する第２の発音トークンシーケンスを生成することと、第２の発音トークンシーケンスをデータジェネレーターモデルに入力して第２の音響特徴を生成することのために用いられる。

一実施例では、第３のトレーニングユニット４０４は、第２の音響特徴を言語モデルの入力とし、第２のテキストデータを言語モデルの出力として、言語モデルをトレーニングするために用いられる。

一実施例では、第３のトレーニングユニット４０４は、第１の音響特徴及び第２の音響特徴を言語モデルの入力とし、第１のテキストデータ及び第２のテキストデータを言語モデルの出力として、言語モデルをトレーニングするために用いられる。

本実施例は、音響モデルＡＭと、言語モデルＬＭと、発音ユニット事後確率生成モデルＴｅｘｔ２ＰｄｆＧｅｎＭｏｄｅｌとの間の入出力関係に基づき、これら３つのモデルは、実施のある段階では共同でトレーニングされてもよい。
また、発音ユニット事後確率生成モデルＴｅｘｔ２ＰｄｆＧｅｎＭｏｄｅｌが音響特徴の規模を拡大するため、トレーニングにより得られた音声認識システムは、大語彙の連続音声認識の場合に適用でき、且つ高い精度を有する。

本実施例は、電子機器をさらに提供し、この電子機器は、例えば、携帯電話、タブレットＰＣ、パーソナルコンピュータ、サーバ、ワークステーション機器、大画面機器（例えば、スマート画面、スマートテレビなど）、スマートスピーカー、パームゲーム機、家庭用ゲーム機、仮想現実機器、拡張現実機器、ハイブリッド現実機器など、車載スマート端末、自動運転自動車、カスタマ構内設備（ｃｕｓｔｏｍｅｒ－ｐｒｅｍｉｓｅｓｅｑｕｉｐｍｅｎｔ、ＣＰＥ）などを含むが、本願の実施例は、これについて限定しない。

当該電子機器は、プロセッサ５０１と、コンピュータプログラム命令が記憶されているメモリ５０２とを含んでもよい。
コンピュータプログラム命令は、プロセッサ５０１によって実行される場合、音響モデルを用いて第１の音声データに対応する第１の音響特徴を生成するステップと、データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、第１の音声データに対応する第１のテキストデータ及び第１の音響特徴を用いてデータジェネレーターモデルをトレーニングするステップと、データジェネレーターモデルを用いて第２のテキストデータに対応する第２の音響特徴を生成し、第２のテキストデータの規模が、第１のテキストデータより大きいステップと、言語モデルが音響モデルから出力された音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、第２のテキストデータ及び第２の音響特徴を用いて言語モデルをトレーニングするステップとをプロセッサ５０１に実行させる。

本実施例は、音響モデルＡＭと、言語モデルＬＭと、発音ユニット事後確率生成モデルＴｅｘｔ２ＰｄｆＧｅｎＭｏｄｅｌとの間の入出力関係に基づき、これら３つのモデルは、実施のある段階では、共同でトレーニングされてもよい。
また、発音ユニット事後確率生成モデルＴｅｘｔ２ＰｄｆＧｅｎＭｏｄｅｌが音響特徴の規模を拡大するため、端末機器は、大語彙の連続音声認識の場合において音声認識を行う機能を持つことができ、且つ高い精度を有する。

Claims

音響モデルを用いて第１の音声データに対応する第１の音響特徴を生成するステップと、
第１のテキストデータに対応する第１の発音トークンシーケンスを生成するステップと、
データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、前記第１の発音トークンシーケンスを前記データジェネレーターモデルの入力とし、前記第１の音響特徴を前記データジェネレーターモデルの出力として、前記データジェネレーターモデルをトレーニングするステップと、
前記データジェネレーターモデルを用いて第２のテキストデータに対応する第２の音響特徴を生成するステップであって、前記第２のテキストデータの規模が、前記第１のテキストデータより大きいステップと、
言語モデルが前記音響モデルから出力された前記第１の音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、前記第２のテキストデータ及び前記第２の音響特徴を用いて前記言語モデルをトレーニングするステップとを含み、
前記音響モデルは、隠れマルコフモデルと組み合わせたガウス混合モデルＧＭＭ－ＨＭＭ、又は、隠れマルコフモデルと組み合わせたニューラルネットワークモデルＮＮ－ＨＭＭを含み、
前記ニューラルネットワークモデルは、長短期記憶ネットワークモデルＬＳＴＭを含み、
前記第１の音響特徴は、前記ＧＭＭ－ＨＭＭから出力されたすべてのＨＭＭ状態での出力確率を含み、
あるいは、前記第１の音響特徴は、前記ニューラルネットワークモデルがｓｏｆｔｍａｘ層を介して出力したすべてのＨＭＭ状態での正規化確率が、接続タイミングモデルＣＴＣ又はビタビアルゴリズムｖｉｔｅｒｂｉを介して出力した、事後確率付きの発音ユニットシーケンスグリッドとを含む、
ことを特徴とする音声認識方法。
前記データジェネレーターモデルを用いて第２のテキストデータに対応する第２の音響特徴を生成する前記ステップは、
前記第２のテキストデータに対応する第２の発音トークンシーケンスを生成するステップと、
前記第２の発音トークンシーケンスを前記データジェネレーターモデルに入力し、前記第２の音響特徴を生成するステップとを含む、
ことを特徴とする請求項１に記載の方法。
前記データジェネレーターモデルは、敵対的生成ネットワークＧＡＮＮｅｔを含む、
ことを特徴とする請求項１又は２に記載の方法。
前記第２のテキストデータ及び前記第２の音響特徴を用いて言語モデルをトレーニングする前記ステップは、前記第２の音響特徴を前記言語モデルの入力とし、前記第２のテキストデータを前記言語モデルの出力として、前記言語モデルをトレーニングするステップを含む、
ことを特徴とする請求項１に記載の方法。
前記第２のテキストデータ及び前記第２の音響特徴を用いて言語モデルをトレーニングする前記ステップは、前記第１の音響特徴及び前記第２の音響特徴を前記言語モデルの入力とし、前記第１のテキストデータ及び前記第２のテキストデータを前記言語モデルの出力として、前記言語モデルをトレーニングするステップを含む、
ことを特徴とする請求項１に記載の方法。
前記言語モデルには、アテンションメカニズムに基づくシーケンスツーシーケンスのエンコーダー及びデコーダーが含まれ、
前記エンコーダーには、リカレントニューラルネットワーク構造又は畳み込みニューラルネットワーク構造が含まれ、
前記デコーダーには、リカレントニューラルネットワーク構造が含まれる、
ことを特徴とする請求項１、４、５のいずれか一項に記載の方法。
音響モデルを用いて第１の音声データに対応する第１の音響特徴を生成するために用いられる第１のトレーニングユニットと、
第１のテキストデータに対応する第１の発音トークンシーケンスを生成するために用いられる第２のトレーニングユニットであって、データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、前記第１の発音トークンシーケンスを前記データジェネレーターモデルの入力とし、前記第１の音響特徴を前記データジェネレーターモデルの出力として、前記データジェネレーターモデルをトレーニングする第２のトレーニングユニットと、
前記データジェネレーターモデルを用いて第２のテキストデータに対応する第２の音響特徴を生成するために用いられる第１の生成ユニットであって、前記第２のテキストデータの規模が、前記第１のテキストデータより大きい第１の生成ユニットと、
言語モデルが前記音響モデルから出力された前記第１の音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、前記第２のテキストデータ及び前記第２の音響特徴を用いて前記言語モデルをトレーニングするために用いられる第２の生成ユニットとを含み、
前記音響モデルは、隠れマルコフモデルと組み合わせたガウス混合モデルＧＭＭ－ＨＭＭ、又は、隠れマルコフモデルと組み合わせたニューラルネットワークモデルＮＮ－ＨＭＭを含み、
前記ニューラルネットワークモデルは、長短期記憶ネットワークモデルＬＳＴＭを含み、
前記第１の音響特徴は、前記ＧＭＭ－ＨＭＭから出力されたすべてのＨＭＭ状態での出力確率を含み、
あるいは、前記第１の音響特徴は、前記ニューラルネットワークモデルがｓｏｆｔｍａｘ層を介して出力したすべてのＨＭＭ状態での正規化確率が、接続タイミングモデルＣＴＣ又はビタビアルゴリズムｖｉｔｅｒｂｉを介して出力した、事後確率付きの発音ユニットシーケンスグリッドとを含む、
ことを特徴とする音声認識装置。
プロセッサと、コンピュータプログラム命令が記憶されているメモリとを含む電子機器であって、前記コンピュータプログラム命令は、前記プロセッサによって実行される場合、
音響モデルを用いて第１の音声データに対応する第１の音響特徴を生成するステップと、
第１のテキストデータに対応する第１の発音トークンシーケンスを生成するステップと、
データジェネレーターモデルが任意のテキストデータに基づいて対応する音響特徴を生成するために用いられるように、前記第１の発音トークンシーケンスを前記データジェネレーターモデルの入力とし、前記第１の音響特徴を前記データジェネレーターモデルの出力として、前記データジェネレーターモデルをトレーニングするステップと、
前記データジェネレーターモデルを用いて第２のテキストデータに対応する第２の音響特徴を生成するステップであって、前記第２のテキストデータの規模が、前記第１のテキストデータより大きいステップと、
言語モデルが前記音響モデルから出力された前記第１の音響特徴に基づいて対応するテキストシーケンスを生成するために用いられるように、前記第２のテキストデータ及び前記第２の音響特徴を用いて前記言語モデルをトレーニングするステップと、を前記プロセッサに実行させ、
前記音響モデルは、隠れマルコフモデルと組み合わせたガウス混合モデルＧＭＭ－ＨＭＭ、又は、隠れマルコフモデルと組み合わせたニューラルネットワークモデルＮＮ－ＨＭＭを含み、
前記ニューラルネットワークモデルは、長短期記憶ネットワークモデルＬＳＴＭを含み、
前記第１の音響特徴は、前記ＧＭＭ－ＨＭＭから出力されたすべてのＨＭＭ状態での出力確率を含み、
あるいは、前記第１の音響特徴は、前記ニューラルネットワークモデルがｓｏｆｔｍａｘ層を介して出力したすべてのＨＭＭ状態での正規化確率が、接続タイミングモデルＣＴＣ又はビタビアルゴリズムｖｉｔｅｒｂｉを介して出力した、事後確率付きの発音ユニットシーケンスグリッドとを含む、
ことを特徴とする電子機器。