JP7282442B2

JP7282442B2 - 音声認識方法、装置及びコンピュータプログラム

Info

Publication number: JP7282442B2
Application number: JP2022520112A
Authority: JP
Inventors: ▲ジュン▼ 王; 永▲業▼ 林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-16
Filing date: 2020-11-12
Publication date: 2023-05-29
Anticipated expiration: 2040-11-12
Also published as: CN111261146B; JP2022551068A; EP4006898A1; EP4006898A4; WO2021143327A1; CN111261146A; US20220148571A1

Description

本出願は、２０２０年０１月１６日に中国専利局に提出した、出願番号が第２０２０１００４８７８０．２号であって、発明の名称が「音声認識、モデルトレーニング方法、装置及びコンピュータ可読記憶媒体」である中国特許出願の優先権を主張し、その全内容を援用により本出願に組み込む。

本出願は、音声処理の技術分野に関し、特に、音声認識方法、装置及びコンピュータ可読記憶媒体に関する。

音声認識技術の発展により、人間と機械が自然言語によってインタラクションすることを可能にする。音声認識技術に基づいて、音声信号をテキストシーケンスに変換できる。このような変換を実現するには、ピックアップされた音声信号に対して、音声分離（ＳｐｅｅｃｈＳｅｐａｒａｔｉｏｎ，ＳＳ）や音声強化（ＳｐｅｅｃｈＥｎｈａｎｃｅｍｅｎｔ，ＳＥ）などのフロントエンド処理を実行し、次に、フロントエンド処理によって取得された音響特徴に対して、自動音声認識（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ，ＡＳＲ）のバックエンド処理を実行する必要がある。

従来の技術では、音声分離強化モデルによって音声信号に対して音声分離及び音声強化を実行し、次に、音声認識モデルを使用して音声認識することができる。しかしながら、音声認識の正確性が低いという問題がよくある。

本出願によって提供される各実施例によれば、音声認識方法、装置及びコンピュータ可読記憶媒体を提供する。

コンピュータデバイスが実行する音声認識方法であって、音声分離強化モデルの第１の損失関数と音声認識モデルの第２の損失関数を取得するステップと、前記第２の損失関数に基づいてバックプロパゲーションを実行して、前記音声分離強化モデルと音声認識モデルとの間にブリッジされた中間モデルをトレーニングし、ロバスト特徴付けモデルを取得するステップと、前記第１の損失関数と前記第２の損失関数を融合して、ターゲット損失関数を取得するステップと、前記ターゲット損失関数に基づいて、前記音声分離強化モデル、前記ロバスト特徴付けモデル、及び前記音声認識モデルを共同でトレーニングし、予め設定された収束条件を満たすと、トレーニングを終了するステップと、含む。

音声認識装置であって、音声分離強化モデルの第１の損失関数と音声認識モデルの第２の損失関数を取得し、前記第２の損失関数に基づいてバックプロパゲーションを実行して、前記音声分離強化モデルと音声認識モデルとの間にブリッジされた中間モデルをトレーニングし、ロバスト特徴付けモデルを取得するための中間特徴付け学習モジュールと、前記第１の損失関数と前記第２の損失関数を融合して、ターゲット損失関数を取得するための損失融合モジュールと、前記ターゲット損失関数に基づいて、前記音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルを共同でトレーニングし、予め設定された収束条件を満たすと、トレーニングを終了するための共同トレーニングモジュールと、を含む。

コンピュータデバイスが実行する音声認識方法であって、ターゲット音声ストリームを取得するステップと、音声分離強化モデルに基づいて、前記ターゲット音声ストリームにおける各オーディオフレームの強化スペクトルを抽出するステップと、ロバスト特徴付けモデルに基づいて、前記強化スペクトルに対して聴覚マッチングを実行して、ロバスト特徴を取得するステップと、音声認識モデルに基づいて、前記ロバスト特徴を認識して、各オーディオフレームに対応する音素を取得するステップと、を含み、前記音声分離強化モデル、前記ロバスト特徴付けモデル、及び前記音声認識モデルは、共同トレーニングによって取得される。

音声認識装置であって、ターゲット音声ストリームを取得し、音声分離強化モデルに基づいて、前記ターゲット音声ストリームにおける各オーディオフレームの強化スペクトルを抽出するための音声分離強化モジュールと、ロバスト特徴付けモデルに基づいて、前記強化スペクトルに対して聴覚マッチングを実行して、ロバスト特徴を取得するための中間特徴付け遷移モジュールと、音声認識モデルに基づいて、前記ロバスト特徴を認識して、各オーディオフレームに対応する音素を取得するための音声認識モジュールと、含み、前記音声分離強化モデル、前記ロバスト特徴付けモデル、及び前記音声認識モデルは、共同トレーニングによって取得される。

コンピュータ可読命令が記憶された１つ又は複数の不揮発性記憶媒体であって、前記コンピュータ可読命令が１つ又は複数のプロセッサーによって実行されるとき、前記プロセッサーに前記音声認識方法のステップを実行させる。

メモリとプロセッサーを含むコンピュータデバイスであって、前記メモリはコンピュータ可読命令を記憶しており、前記コンピュータ可読命令が前記プロセッサーによって実行されるとき、前記プロセッサーに前記音声認識方法のステップを実行させる。

本出願の１つ又は複数の実施例の詳細は、以下の図面及び説明に記載されている。本出願の他の特徴、目的及び利点は、明細書、図面、及び特許請求の範囲から明らかになる。

本出願の実施例における技術案をより明確に説明するために、実施例の説明に使用される図面を以下に簡単に紹介する。明らかに、以下の説明における図面は、本出願のいくつかの実施例に過ぎず、当業者にとって、創造的な労力をしない前提で、これらの図面に基づいて他の図面を得ることができる。

一実施例における音声認識方法の適用環境図である。一実施例における音声認識方法の概略フローチャートである。一実施例におけるロバスト特徴付けモデルに基づいて音声分離強化モデルと音声認識モデルをブリッジするモデルアーキテクチャの概略図である。一実施例における音声処理モデルを事前トレーニングするステップの概略フローチャートである。一実施例における中間モデルを構築するステップの概略フローチャートである。一実施例における音声認識モデルを事前トレーニングするステップの概略フローチャートである。１つの具体的な実施例における音声認識方法の概略フローチャートである。一実施例における音声認識方法の概略フローチャートである。一実施例における５種類のＳＮＲ信号対ノイズ比条件下での、異なる音声認識方法に基づいて２つの音響環境からの音声を認識する単語誤り率の比較概略図である。一実施例における異なるＳＮＲ信号対ノイズ比条件下での異なる音声認識システムのパフォーマンスの比較概略図である。１つの具体的な実施例における音声認識方法の概略フローチャートである。一実施例における音声認識装置の構造ブロック図である。別の実施例における音声認識装置の構造ブロック図である。一実施例における音声認識装置の構造ブロック図である。一実施例におけるコンピュータデバイスの構造ブロック図である。

以下に、本出願の目的、技術案及び利点をより明確にするために、図面と実施例を結合して本出願をさらに詳細に説明する。ここに説明する具体的な実施例は、本出願を説明するためにのみ使用され、本出願を限定するものではないことを理解すべきである。

図１は、一実施例における音声認識モデルのトレーニング方法の適用環境図である。図１を参照して、当該音声認識方法はモデルトレーニングシステムに適用される。当該音声認識モデルトレーニングシステムは、端末１１０とサーバー１２０を含む。端末１１０とサーバー１２０は、ネットワークを介して接続される。端末１１０は、具体的に、デスクトップ端末又はモバイル端末であってもよく、モバイル端末は、具体的に、携帯電話、タブレットコンピューター、ノートパソコンなどのうちの少なくとも１つであってもよい。サーバー１２０は、独立したサーバー又は複数のサーバーで構成されるサーバークラスターによって実現できる。端末１１０とサーバー１２０は、いずれも本出願の実施例で提供される音声認識方法を実行するために独立して使用できる。端末１１０とサーバー１２０は、本出願の実施例で提供される音声認識方法を実行するために協調して使用してもよい。

本出願の実施例によって提供される解決策は、人工知能による音声認識などの技術に関する。音声技術（ＳｐｅｅｃｈＴｅｃｈｎｏｌｏｇｙ）の主な技術は、音声分離（ＳＳ）、音声強化（ＳＥ）、及び自動音声認識技術（ＡＳＲ）がある。コンピュータが聞いたり、見たり、話したり、感じたりできるようにすることは、将来のマンマシンインタラクションの発展の方向性であり、その中で、音声は、将来的に最も有望なマンマシンインタラクション方式の１つになる。

なお、本出願の実施例は、音声処理のための共同モデルに関する。共同モデルは、異なる部分の音声処理のための３つのモデルを含む。具体的に、フロントエンドの音声分離強化モデルと、バックエンドの音声認識モデルと、音声分離強化モデルと音声認識モデルの間にブリッジされたロバスト特徴付けモデルを含む。３つのモデルのそれぞれは、機械学習モデルであってもよい。機械学習モデルは、サンプルから学習した後にある機能を備えたモデルである。具体的に、例えば、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，畳み込みニューラルネットワーク）モデル、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ，リカレントニューラルネットワーク）モデルなどのニューラルネットワークモデルである。勿論、機械学習モデルは、他のタイプのモデルを採用してもよい。モデルトレーニングの前に、精度要件などに応じて各部分で採用するモデルを柔軟に選択できることが理解できる。このように、各部分は、いずれも最適な配置を採用でき、いずれかの部分のパフォーマンスを妥協する必要がない。換言すれば、本出願に係る３つのモデルのそれぞれは、対応する分野に適した専用モデルを自由に選択できる。その中で、音声分離強化モデルと音声認識モデルはそれぞれ事前にトレーニングされたものであってもよく、このように、本出願は、事前にトレーニングされた音声分離強化モデルと音声認識モデルに基づいて、ロバスト特徴付けモデルを含む共同モデルをトレーニングすることができる。このようにして、少ない反復トレーニング回数で、収束した共同モデルを取得できる。音声分離強化モデルと音声認識モデルを事前にトレーニングする手順、及びロバスト特徴付けモデルと結合して共同でトレーニングする手順について、後続の実施例における詳細な説明を参照することができる。

図２に示すように、一実施例では、音声認識方法を提供する。この実施例は、主に、当該方法をコンピュータデバイスに適用することを例として説明し、当該コンピュータデバイスは、具体的に、上記図における端末１１０又はサーバー１２０であってもよい。図２を参照すると、当該音声認識方法は、具体的に、次のステップを含む。
Ｓ２０２、音声分離強化モデルの第１の損失関数と音声認識モデルの第２の損失関数を取得する。

なお、音声分離強化モデルは、トレーニングされた後に、音声分離及び／又は強化能力を有するためのモデルである。具体的に、サンプル音声ストリームをトレーニングデータとして学習及びトレーニングを行って得られた、ターゲット音声をサンプル音声ストリームにおけるバックグラウンド干渉から分離するためのモデルであってもよい。音声分離強化モデルは、音声信号に対して音声アクティビティ検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ，ＶＡＤ）、エコー除去、残響除去、又は音源位置決めなどの前処理を実行する能力の少なくとも１つをさらに有することを理解することができ、これに対して制限しない。センサー又はマイクの数に応じて、音声分離強化モデルは、モノラル（単一のマイク）分離強化モデル及びアレイ（複数のマイク）分離強化モデルに分けることができる。モノラル分離の主な方法は、音声強化と計算聴覚シーン分析（ＣｏｍｐｕｔａｔｉｏｎａｌＡｕｄｉｔｏｒｙＳｃｅｎｅＡｎａｌｙｓｉｓ，ＣＡＳＡ）を含む。音声強化は、モノラル混合信号のうちターゲット音声信号と干渉信号の全てのデータを分析することによって、ノイズ付き音声に対するノイズ推定を介して、明瞭な音声を推定することができる。主流の音声強化方法は、スペクトル減算法（ｓｐｅｃｔｒａｌｓｕｂｔｒａｃｔｉｏｎ）などを含む。計算聴覚シーン分析は、聴覚シーン分析の知覚理論に基づいて、グループ化キュー（ｇｒｏｕｐｉｎｇｃｕｅ）を使用して音声分離を行う。アレイ分離の主な方法は、ビームフォーミング又は空間フィルタなどを含む。ビームフォーミングは、適切なアレイ構造によって特定の方向から到着する音声信号を強化し、さらに他の方向からの音声信号の干渉を低減することであり、例えば、遅延重畳技術である。音声の分離と強化は、人間指向の音声処理タスクである。音声の分離と強化の分野では、例えば、短時間フーリエ変換（ＳｈｏｒｔＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ，ＳＴＦＴ）スペクトログラムや修正離散コサイン変換（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ，ＭＤＣＴ）など、人間が理解できるより効果的な特徴付けパラメータをよく採用する。音声の分離と強化の主流のパフォーマンス測度指標は、音声品質の知覚評価（ＰｅｒｃｅｐｔｕａｌＥｖａｌｕａｔｉｏｎｏｆＳｐｅｅｃｈＱｕａｌｉｔｙ，ＰＥＳＱ）、信号歪み比（ＳｉｇｎａｌＤｉｓｔｏｒｔｉｏｎＲａｔｅ，ＳＤＲ）、及び短時間客観的了解度（ＳｈｏｒｔＴｉｍｅＯｂｊｅｃｔｉｖｅＩｎｔｅｌｌｉｇｉｂｉｌｉｔｙ，ＳＴＯＩ）などの少なくとも１つを含む。その中で、ＳＴＯＩは、主観的な聴覚了解度と高い関連性がある。音声認識モデルは、トレーニングされた後に音声認識能力を備えた音響モデルであり、具体的に、サンプル音声ストリームをトレーニングデータとして学習及びトレーニングを行って得られた、サンプル音声ストリームに対して音素認識を実行するためのモデルである。音声分離強化モデルと音声認識モデルは、別々に事前トレーニングされたものである。事前トレーニングされた音声分離強化モデルと音声認識モデルは、それぞれ固定のモデル構造とモデルパラメータを有する。音声認識は、マシン指向の音声処理タスクである。例えば、スマートスピーカー、仮想デジタルヒューマンアシスタント、機械翻訳などの自動音声認識などの分野では、メルフィルターバンク（ＭｅｌＦｂａｎｋｓ）、メル周波数ケプストラム係数（Ｍｅｌ－ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ，ＭＦＣＣ）などの、機械が理解できるより効率的な特徴付けパラメータをよく採用する。音声認識モデルの主流のパフォーマンス測度指標は、単語誤り率（ＷｏｒｄＥｒｒｏｒＲａｔｅ，ＷＥＲ）、文字誤り率（ＣｈａｒａｃｔｅｒＥｒｒｏｒＲａｔｅ，ＣＥＲ）、又は文誤り率（ＳｅｎｔｅｎｃｅＥｒｒｏｒＲａｔｅ，ＳＥＲ）などを含む。

具体的に、共同モデルトレーニングが必要な場合、コンピュータデバイスは、事前トレーニングされた音声分離強化モデルと音声認識モデル、音声分離強化モデルを事前トレーニングするときに採用される第１の損失関数、及び音声認識モデルを事前トレーニングするときに採用される第２の損失関数を取得する。損失関数（ｌｏｓｓｆｕｎｃｔｉｏｎ）は、一般的に学習準則として最適化問題に関連付けられ、つまり、損失関数を最小化することによってモデルを解き、評価する。例えば、統計学及び機械学習において、モデルのパラメータ推定（ｐａｒａｍｅｔｅｒｉｃｅｓｔｉｍａｔｉｏｎ）に使用される。音声分離強化モデルを事前トレーニングするときに採用される第１の損失関数及び音声認識モデルを事前トレーニングするときに採用される第２の損失関数は、それぞれ、具体的に、平均二乗誤差、平均絶対値誤差、Ｌｏｇ－Ｃｏｓｈ損失、分位数損失、又は理想分位数損失などであってもよい。第１の損失関数と第２の損失関数は、それぞれ、様々な損失関数の組み合わせであってもよい。

Ｓ２０４、第２の損失関数に基づいてバックプロパゲーションを実行して、音声分離強化モデルと音声認識モデルとの間にブリッジされた中間モデルをトレーニングし、ロバスト特徴付けモデルを取得する。

上記のように、音声処理手順では、フロントエンドの音声分離タスクで採用される特徴付けパラメータとパフォーマンス測度指標は、人間指向、即ち、人間の主観的な聴覚了解度をターゲットとするものであり、バックエンドの音声認識タスクで採用される特徴付けパラメータとパフォーマンス測度指標は、機械指向、即ち、機械認識正確率をターゲットとするものである。このように、フロントエンドとバックエンドの音声処理タスクを融合する場合、２種類の特徴付けカテゴリの違いを克服する必要がある。ブリッジすることは、１つのオブジェクトが少なくとも２つのオブジェクトの間にあり、当該少なくとも２つのオブジェクトを接続していることを意味する。即ち、１つのオブジェクトＢの場合、当該オブジェクトがＡとＣの間にブリッジされていると、オブジェクトＢがＡとＣの間にあり、Ｂの一方の端がＡに接続され、もう一方の端がＣに接続されていることを意味する。モデルの場合、中間モデルが音声分離強化モデルと音声認識モデルの間にブリッジされたことは、音声分離強化モデルの出力が中間モデルの入力となり、入力されたデータが中間モデルによって処理され出力されたデータが音声認識モデルの入力となることを表す。

図３に示すように、図３は、一実施例におけるロバスト特徴付けモデルに基づいて音声分離強化モデルと音声認識モデルをブリッジするモデルアーキテクチャの概略図を示す。図３に示すように、２種類の特徴付けカテゴリ間の違いを克服するために、本出願の実施例は、音声分離強化モデルと音声認識モデルの間にトレーニング対象となる中間モデルをブリッジしている。トレーニングされた中間モデルは、ロバスト性を持ち、ロバスト特徴付けモデルと呼ぶことができる。トレーニング対象となる中間モデルと事前トレーニングされた音声分離強化モデル及び音声認識モデルは、いずれも人工ニューラルネットワークで構成されるモデルであってもよい。人工ニューラルネットワーク（ＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＡＮＮｓと略称する）は、ニューラルネットワーク（ＮＮｓ）又は接続モデル（ＣｏｎｎｅｃｔｉｏｎＭｏｄｅｌ）とも呼ばれる。人工ニューラルネットワークは、情報処理の観点から、人間の脳のニューロンネットワークを抽象化して、あるモデルを確立し、異なる接続方式に従って異なるネットワークを構成する。工学や学界では、単にニューラルネットワーク又はニューラルライクネットワークと呼ばれることがよくある。ニューラルネットワークモデルは、例えば、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，畳み込みニューラルネットワーク）モデル、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ，ディープニューラルネットワーク）モデル、及びＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ，リカレントニューラルネットワーク）モデルなどである。音声分離強化モデルは、さまざまなニューラルネットワークモデルの組み合わせであってもよい。畳み込みニューラルネットワークは、畳み込み層（ＣｏｎｖｏｌｕｔｉｏｎａｌＬａｙｅｒ）とプーリング層（ＰｏｏｌｉｎｇＬａｙｅｒ）を含む。ディープニューラルネットワークは、入力層、隠れ層、及び出力層を含み、層と層の間は完全に接続された関係にある。リカレントニューラルネットワークは、シーケンスデータをモデル化するニューラルネットワークであり、即ち、あるシーケンスの現在の出力も前の出力に関連付けられる。具体的な表現形態は、ネットワークが以前の情報を記憶し、それを現在の出力の計算に適用することであり、即ち、隠れ層の間のノードは、接続されないものではなく、接続されており、且つ、隠れ層の入力は、入力層の出力だけでなく、前の時点の隠れ層の出力も含む。リカレントニューラルネットワークモデルは、例えば、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙＮｅｕｒａｌＮｅｔｗｏｒｋ，長短期記憶ニューラルネットワーク）モデル、及びＢｉＬＳＴＭ（Ｂｉ－ｄｉｒｅｃｔｉｏｎａｌＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ，双方向長短期記憶ニューラルネットワーク）などである。

一実施例では、音声の分離と強化のための音声分離強化モデルは、抽出器Ｅｘｔｒａｃｔとも呼ばれる。中間遷移特徴付け学習のためのロバスト特徴付けモデルは、アダプタＡｄａｐｔとも呼ばれる。音素認識のための音声認識モデルは、認識器Ｒｅｃｏｎｇｎｉｚｅとも呼ばれる。以下、抽出器、アダプタ、及び認識器から構成される音声処理システムを、ＥＡＲシステムと呼ぶ。

具体的に、コンピュータデバイスは、予め設定された深層学習最適化アルゴリズムに基づいて、第２の損失関数が各反復手順で生成する局所的な下降勾配を決定する。深層学習最適化アルゴリズムは、具体的に、バッチ最急降下法（ＢａｔｃｈＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ，ＢＧＤ）、確率的勾配下降（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ，ＳＧＤ）、ミニバッチ最急降下法（Ｍｉｎｉ－ＢａｔｃｈＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ，ＭＢＧＤ）、ＡｄａＧｒａｄ（自己適応アルゴリズム）、又はＲＭＳＰｒｏｐ（ＲｏｏｔＭｅａｎＳｑｕａｒｅＰｒｏｐ：二乗平均平方根法）、又はＡｄａｍ（ＡｄａｐｔｉｖｅＭｏｍｅｎｔＥｓｔｉｍａｔｉｏｎ：適応モーメント推定）などである。コンピュータデバイスは、局所的な下降勾配を中間モデルにバックプロパゲーションして、中間モデルに対応するモデルパラメータを更新し、予め設定されたトレーニング停止条件が満たされたときにトレーニングを終了する。確率的勾配下降法を例とし、Ｌ_１とＬ_２はそれぞれ第１の損失関数と第２の損失関数であり、ｆ（ｘ，Θ_{ａｄａｐｔ}）は、入力がｘで、モデルパラメータがΘ_{ａｄａｐｔ}である中間モデルを示し、ｙは、中間モデルがｘを入力したときの音声認識モデルに対応する出力ターゲット値であり、サンプル音声ストリームは、ｎ個のオーディオフレーム｛ｘ^（１），…，ｘ^（ｎ）｝を含み、ｘ^（ｉ）に対応するターゲットはｙ^（ｉ）であると仮定すると、各反復に対応する局所的な下降勾配は、

である。確率的勾配下降アルゴリズムの学習率がηであると仮定すると、モデルパラメータをΘ_{ａｄａｐｔ}－ηｇに変更でき、変更されたモデルパラメータを中間モデルの現在のモデルパラメータとして、予め設定されたトレーニング停止条件に達するまで反復を続けることができる。トレーニング停止条件は、第２の損失関数の損失値が予め設定された最小値に達すること、又は予め設定された回数連続して反復しても中間モデルのモデルパフォーマンスに大きな改善がないことなどである。

一実施例では、第２の損失関数に基づいてバックプロパゲーションして中間モデルをトレーニングする手順では、トレーニングデータは、音声認識モデルを経由したが、事前トレーニングされた音声認識モデルのモデルパラメータを調整及び更新する必要がない。なお、ユーザーは、モデルの好み又は精度の要件などに応じて、具体的に採用される中間モデル、音声分離強化モデル、及び音声認識モデルを柔軟かつ独立して選択できる。即ち、ユーザーが自分の希望に応じて、新しい先進の音声分離／強化及び音声認識技術を柔軟に導入できることを許可する。換言すれば、本出願に係る３つのモデルのそれぞれは、対応する分野に適した専用モデルを自由に選択できる。例えば、音声分離が得意なモデルは、Ａｉを含み、ロバスト特徴付け学習が得意なモデルは、Ｂｊを含み、音声認識が得意なモデルは、Ｃｋを含み、ここで、ｉ、ｊ、ｋは、いずれも正の整数であり、トレーニング対象となる共同モデルは、Ａｉ＋Ｂｊ＋Ｃｋのいずれかである。このように、各モデルは、いずれも最適な配置を採用でき、他のモデルのパフォーマンスを妥協する必要がない。また、ここでの局所的な下降勾配とは、以下の共同トレーニングに係るグローバル下降勾配に対するものであり、第２の損失関数に基づいて決定された下降勾配値の部分的な値と見なすことはできない。

Ｓ２０６、第１の損失関数と第２の損失関数を融合して、ターゲット損失関数を取得する。
ここで、ターゲット損失関数は、第１の損失関数と第２の損失関数を組み合わせた総合損失関数である。関数融合とは、１つ又は複数の予め設定された論理演算によって、複数の関数を１つの関数に変換する手順である。予め設定された論理演算は、四則混合演算、加重和、又は機械学習アルゴリズムなどを含むが、これに限定されない。

具体的に、コンピュータデバイスは、第１の損失関数と第２の損失関数のそれぞれに対して、予め設定された論理演算を実行することによって、ターゲット損失関数を取得する。加重和を例として、重み係数をλ_ＳＳと仮定すると、ターゲット損失関数は、Ｌ＝Ｌ_２＋λ_ＳＳＬ_１となる。重み係数は、例えば、０．１などの経験的又は実験的に設定された値である。重み係数を調整することにより、複数のモデルを共同でトレーニングする場合の音声分離強化モデルの重要性を調整できることは容易に発見できる。

一実施例では、コンピュータデバイスは、１つ又は複数の融合計算式を予め設定し、融合計算式における各パラメータ係数の入力フォーマットを設定する。第１の損失関数と第２の損失関数は、それぞれパラメータ係数として異なる融合計算式に入力され、即ち、異なるターゲット損失関数を取得できる。

Ｓ２０８、ターゲット損失関数に基づいて、音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルを共同でトレーニングし、予め設定された収束条件を満たすと、トレーニングを終了する。

上記のように、音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルは、いずれも人工ニューラルネットワークで構成されるモデルであり得る。このように、本出願によって提供される音声処理のためのモデルアーキテクチャは、完全にニューラルネットワークに基づくものであり、エンドツーエンドの共同トレーニングを実現できる。全体のエンドツーエンドの共同トレーニング手順では、タスクを人為的に分割することはなく、全体の音声処理タスクを完全にニューラルネットワークモデルに渡って、オリジナル音声信号から期待される出力へのマッピングを直接に学習する。具体的に、コンピュータデバイスは、予め設定された深層学習最適化アルゴリズムに基づいて、ターゲット損失関数によって生成されるグローバル下降勾配を決定し、例えば、ターゲット損失関数に基づいて、損失値を計算し、損失値に基づいてグローバル下降勾配を決定する。ローカル下降勾配を決定するための深層学習最適化アルゴリズムとグローバル下降勾配を決定するための深層学習最適化アルゴリズムは、同じであってもよく、異なってもよい。ターゲット損失関数によって生成されたグローバル下降勾配は、音声認識モデルからロバスト特徴付けモデル及び音声分離強化モデルのネットワーク各層に順次にバックプロパゲーションされる。この手順では、音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルに対応するモデルパラメータをそれぞれ繰り返し更新し、予め設定されたトレーニング停止条件が満たされるまでトレーニングを終了する。

一実施例では、ターゲット損失関数に基づいて、音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルを共同でトレーニングすることは、ターゲット損失関数によって生成されるグローバル下降勾配を決定するステップと、グローバル下降勾配に基づいて、音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルのそれぞれに対応するモデルパラメータを、ターゲット損失関数の最小化損失値が得られるまで繰り返し更新するステップと、を含む。

ミニバッチ確率的勾配下降法を例とし、Ｌ_１とＬ_２をそれぞれ第１の損失関数と第２の損失関数とし、Ｌをターゲット損失関数とし、Θ_{ａｄａｐｔ}をロバスト特徴付けモデルのモデルパラメータとし、Θ_{ｅｘｔｒａｃｔ}を音声分離強化モデルのモデルパラメータとし、Θ_{ｒｅｃｏｇ}を音声認識モデルのモデルパラメータとし、Θ_ＥＡＲを共同モデル全体のモデルパラメータとし、αをミニバッチ確率的勾配下降アルゴリズムの学習率とすると、ターゲット損失関数によって生成されるグローバル下降勾配を、常に音声分離強化モデル

にバックプロパゲーションし、モデルパラメータを

に変更し、変更したモデルパラメータを共同モデルの現在のモデルパラメータとして、予め設定されたトレーニング停止条件に達するまで反復を続ける。トレーニング停止条件は、ターゲット損失関数の損失値が予め設定された最小値に達すること、又は予め設定された回数連続して反復しても中間モデルのモデルパフォーマンスが大きな改善がないことなどである。

１つの具体的な実施例では、サンプル音声ストリームのバッチサイズは、２４であり、初期の学習率αは、１０^－４であり、学習率の減衰係数は、０．８であり、そして３回連続して反復してもターゲット損失関数の損失にいずれも改善が見られない場合、共同モデルは収束したと見なされ、共同トレーニングは終了する。

上記の音声認識方法では、フロントエンド音声分離強化モデルとバックエンド音声認識モデルの間に中間遷移のためのロバスト特徴付けモデルを導入する新しいエンドツーエンドネットワークアーキテクチャを提案する。このアーキテクチャは、適切な中間遷移特徴付け学習技術を導入することにより、人間指向の音声分離タスクと機械指向の音声認識タスクの間のギャップをうまく埋める。このネットワークアーキテクチャでは、中間モデルは、バックエンド音声認識モデルの第２の損失関数のバックプロパゲーションによってトレーニングを完了するが、音声分離強化モデル及び音声認識モデルは、事前に選択されてトレーニングされたものであってもよい。このように、比較的少ない反復トレーニング回数の後に収束に達することができる。フロントエンドモデルとバックエンドモデルのそれぞれに対応する損失関数の組み合わせに基づいて、エンドツーエンドのネットワークモデルを共同でトレーニングすることで、ネットワークアーキテクチャにおける個々のモデルは、複雑な音響環境からの音声信号における干渉特徴を包括的に学習できるため、グローバルな音声処理タスクのパフォーマンスを保証でき、音声認識の正確性が向上する。また、ネットワークアーキテクチャにおける各モデルは柔軟で独立した選択をサポートしているため、各モデルだけで、単一のモデルを妥協することなく最適な配置を実現できるので、局所的な各音声処理タスクのパフォーマンスを同時に両立でき、音声の客観的な了解度を向上させる。

一実施例では、図４に示すように、上記の音声認識方法は、音声分離強化モデルを事前トレーニングするステップをさらに含む。具体的に、
Ｓ４０２、第１のニューラルネットワークモデルに基づいて、サンプル音声ストリームの推定スペクトル及び埋め込み特徴行列を抽出する。
なお、第１のニューラルネットワークモデル、及び以下に述べる第２のニューラルネットワークモデル、第３のニューラルネットワークモデルは、それぞれ、上記の人工ニューラルネットワークモデルのいずれかであってもよい。本実施例では、第１のニューラルネットワークモデルは、理想的な比率マスク（ＩｄｅａｌＲａｔｉｏＭａｓｋ，ＩＲＭ）に基づく深度アトラクタネットワーク（ＤｅｅｐＡｔｔｒａｃｔｏｒＮｅｔ，ＤＡＮｅｔ）、及び深度抽出ネットワーク（ＤｅｅｐＥｘｔｒａｃｔｏｒＮｅｔ，ＤＥＮｅｔ）によって簡略化されたモデルである。ＤＥＮｅｔネットワークは、１つ又は複数の畳み込みニューラルネットワークを含む。本実施例では、畳み込みニューラルネットワークは、ＢｉＬＳＴＭネットワークを採用できる。ＢｉＬＳＴＭネットワークは、音声信号を低次元空間から高次元空間にマッピングする。ＤＡＮｅｔネットワークは、高次元空間にアトラクタ（Ａｔｔｒａｃｔｏｒ）を埋め込んで、音声信号の時間周波数を結合して一緒にトレーニングに参加する。ＳＧＤのバックプロパゲーションに基づいてＤＥＮｅｔとＤＡＮｅｔネットワークを共同でトレーニングする手順では、ＤＥＮｅｔネットワークとＤＡＮｅｔネットワークは、いずれかの時間の損失を導入していない。サンプル音声ストリームは、異なる複雑な音響環境では、車載システム、電話会議デバイス、スピーカーデバイス、又はオンライン放送デバイスなどのデバイスにおける音声アプリケーションに基づいて収集されたオーディオデータストリームである。音声アプリケーションは、システム電話アプリケーション、インスタントメッセージングアプリケーション、仮想音声アシスタント、又は機械翻訳アプリケーションなどであってもよい。各サンプルオーディオストリームは、複数のオーディオフレームを含んでもよい。サンプルオーディオストリームでオーディオフレームを収集するサンプリング周波数、及び各オーディオフレームのフレーム長とフレームシフトは、必要に応じて自由に設定できる。１つの具体的な実施例では、１６ｋＨｚのサンプリング周波数、２５ｍｓのフレーム長、及び１０ｍｓのフレームシフトを採用してオーディオフレームを収集する。

具体的に、コンピュータデバイスは、バッチで複数のサンプル音声ストリームに対して短時間フーリエ変換を実行し、各サンプル音声ストリームにおける音声特徴と音声スペクトルを取得することができる。サンプルオーディオストリームのバッチサイズは、必要に応じて自由に設定でき、例えば、２４などに設定する。音声の分離と強化のための第１のニューラルネットワークモデルは、高次元の埋め込み空間で音声の分離と強化をより適切に完了することができるため、コンピュータデバイスは、バッチでサンプル音声ストリームの音声特徴をより高次元の埋め込み空間にマッピングし、変換して埋め込み特徴行列を取得する。コンピュータデバイスは、埋め込み空間で、第１のニューラルネットワークモデルに基づいて、音声スペクトルに対して音声の分離と強化を実行して、推定スペクトルを取得する。推定スペクトルは、第１のニューラルネットワークモデルによって出力されたサンプル音声ストリームのスペクトルである。

Ｓ４０４、埋め込み特徴行列と予め設定された理想的なマスク行列に基づいて、サンプル音声ストリームに対応するアトラクタを決定する。
なお、理想的なマスク行列は、音声信号におけるノイズエネルギー及び音声歪みエネルギーを制限するために確立された自己適応感知マスク行列であり、異なる音声周波数に対応するマスキング閾値を記録している。理想的なマスク行列は、音声信号の低次元の音声特徴と高次元の埋め込み特徴行列から予測できる。アトラクタは、各サンプル音声ストリームの埋め込み空間に存在する一般的な特徴を特徴づけることができる特徴ベクトルである。ＤＡＮｅｔネットワークに基づく音声分離強化モデルは、ターゲット音声トレーニングサンプルの埋め込み空間内のベクトルの加重平均値を計算し、ターゲット音声の「アトラクタ」として記憶する。従って、埋め込み空間で１つのアトラクタを計算すればよい。具体的に、コンピュータデバイスは、音声信号及び短時間フーリエ変換によって音声信号から抽出された音声スペクトルに基づいて、バッチサンプル音声ストリームに対応する理想的なマスク行列を予測する。理想的なマスク行列は、埋め込み特徴行列と同じ次元の埋め込み空間にある。コンピュータデバイスは、埋め込み特徴行列と理想的なマスク行列の積を計算し、この積結果に基づいて埋め込み空間のアトラクタを決定する。

Ｓ４０６、埋め込み特徴行列における各行列要素とアトラクタとの類似性を計算することにより、サンプル音声ストリームのターゲットマスク行列を取得する。
具体的に、コンピュータデバイスは、音声特徴とアトラクタの類似性に基づいて、マスキング閾値を修正し、理想的なマスク行列を再構築して、ターゲットマスク行列を取得する。埋め込み特徴行列における各行列要素とアトラクタの間の類似性の測定方法は、具体的に、ユークリッド距離、マンハッタン距離、チェビシェフ距離、マハラノビス距離、コサイン距離又はハミング距離などを採用することができる。

Ｓ４０８、ターゲットマスク行列に基づいてサンプル音声ストリームに対応する強化スペクトルを決定する。
なお、実際の音響シーンで収集される音声信号は、通常、ターゲット音声にノイズが混入された混合信号である。サンプル音声ストリームに対応する強化スペクトルは、音声信号におけるターゲット音声の強化スペクトルである。
具体的に、音声分離強化モデルの後にブリッジされたロバスト特徴付けモデルの計算量を減少するために、高次元の埋め込み特徴行列に対して次元削減処理を実行し、低次元の強化スペクトルに変換する。

Ｓ４１０、サンプル音声ストリームに対応する推定スペクトルと強化スペクトルの間の平均二乗誤差損失に基づいて、第１のニューラルネットワークモデルをトレーニングし、音声分離強化モデルを取得する。
具体的に、コンピュータデバイスは、バッチサンプル音声ストリームの強化スペクトルとターゲット音声の強化スペクトルとの間の平均二乗誤差損失ＭＳＥ（ｍｅａｎ－ｓｑｕａｒｅｅｒｒｏｒ）を計算し、当該平均二乗誤差損失ＭＳＥによって次の第１のニューラルネットワークモデルを事前トレーニングする。

その中で、Ｍは、トレーニングに使用される混合信号サンプル音声ストリームのバッチサイズであり、ｉは、トレーニングサンプル音声ストリームのインデックスを示し、

は、ベクトルの２－ノルムを示し、Ｓ_Ｓは、第１のニューラルネットワークモデルによって直接に出力されたサンプル音声ストリームの推定スペクトルを示し、

は、サンプル音声ストリームの強化スペクトルを示す。コンピュータデバイスは、第１の損失関数Ｌ_１＝Ｌ_ＭＳＥによって生成された勾配を第１のニューラルネットワークモデルの各ネットワーク層にバックプロパゲーションし、ミニバッチ確率的勾配下降法によって第１のニューラルネットワークモデルのモデルパラメータΘ_{ｅｘｔｒａｃｔ}を更新し、予め設定された収束条件に到達すると、トレーニングを停止し、音声分離強化モデルを取得する。

本実施例では、理想的な比率マスクＩＲＭは、効果的な音声分離強化方法であり、ＩＲＭに基づく理想的なマスク行列は、音声信号におけるノイズエネルギー及び音声歪みエネルギーを制限でき、音声信号に対応する高次元の埋め込み特徴行列及びその一般的な特性を表すアトラクタを結合して理想的なマスク行列を再構築し、再構築されたターゲットマスク行列に基づいてスペクトルを抽出することで、抽出された推定スペクトルは、サンプル音声ストリームの強化スペクトルにさらに近づけることができるため、スペクトル抽出の有効性が向上する。

一実施例では、第１のニューラルネットワークモデルに基づいて、サンプル音声ストリームの推定スペクトル及び埋め込み特徴行列を抽出することは、サンプル音声ストリームに対してフーリエ変換を実行し、各オーディオフレームの音声スペクトルと音声特徴を取得することと、第１のニューラルネットワークモデルに基づいて、音声スペクトルに対して音声の分離と強化を実行し、推定スペクトルを取得することと、第１のニューラルネットワークモデルに基づいて、音声特徴を埋め込み空間にマッピングし、埋め込み特徴行列を取得することとを含む。
なお、実際の音響シーンで収集される音声信号は、通常、ノイズを混入した混合信号である。混合信号ｘ（ｎ）は、ターゲット音声信号ｓ_Ｓ（ｎ）と干渉信号ｓ_Ｉ（ｎ）との線形重ね合わせであるｘ（ｎ）＝ｓ_Ｓ（ｎ）＋ｓ_Ｉ（ｎ）であると見なすことができ、その中で、ｎは、サンプル音声ストリームの数である。混合信号と参照ターゲット音声信号に対して短時間フーリエ変換（ＳＴＦＴ）計算を行い、混合信号に対応する音声スペクトルと音声特徴を取得できる。音声特徴は、低次元の混合信号空間Ｒ^ＴＦにある特徴行列である。フーリエ変換によって抽出された音声特徴の特徴次元は、ＴｘＦ次元である。ここで、Ｔは、フレーム数であり、Ｆは、メルフィルターバンクＭＦのメルフィルターバンドの数である。

ＤＥＮｅｔは、ＢｉＬＳＴＭネットワークによって音声特徴を混合信号空間Ｒ^ＴＦからより高次元の埋め込み空間Ｒ^ＴＦ＊Ｋにマッピングし、出力が次の埋め込み特徴行列に変更するようにする。

高次元マッピングに使用される埋め込みベクトルの次元Ｋは、必要に応じて自由に設定でき、例えば、４０などに設定する。

一実施例では、第１のニューラルネットワークモデルは、のぞき穴接続（ｐｅｅｐｈｏｌｅｃｏｎｎｅｃｔｉｏｎ）された予め設定された数のＢｉＬＳＴＭモデルを１つの完完全接続層とカスケードしたものである。のぞき穴接続は、通常のカスケードとは異なるモデル接続方式であり、より多くのコンテキスト情報を取得できる。基本的な形態のＢｉＬＳＴＭユニットでは、順方向ＬＳＴＭと逆方向ＬＳＴＭのゲートの制御は、いずれも現在の入力ｘ（ｔ）と前の時点の短期的なステータスｈ（ｔ－１）のみがある。異なるＢｉＬＳＴＭをのぞき穴接続することによって、前の時点の長期的なステータスｃ（ｔ－１）を忘却ゲート及び入力ゲートによって制御される入力に追加し、現在時点の長期的なステータスを出力ゲートによって制御される入力に追加することができ、各制御ゲートに長期的なステータスを覗き、より多くのコンテキスト情報を取得できる。例えば、１つの具体的な実施例では、第１のニューラルネットワークモデルは、のぞき穴接続された４層のＢｉＬＳＴＭを採用でき、各層に６００個の隠れノードがあり、最後のＢｉＬＳＴＭ層の後に１つの完全接続層を接続する。完全接続層は、６００次元の音声特徴ベクトルを高次元の埋め込み特徴行列にマッピングする。埋め込み特徴行列の次元Ｋが４０であると仮定すると、６００次元の音声特徴ベクトルを２４０００次元の埋め込み特徴ベクトルにマッピングできる。本実施例では、音声信号の低次元の音声特徴を高次元の埋め込み特徴行列にマッピングすることで、第１のニューラルネットワークモデルによる音声分離及び強化の効果を保証できる。

一実施例では、埋め込み特徴行列と予め設定された理想的なマスク行列に基づいて、サンプル音声ストリームのアトラクタを決定することは、音声スペクトルと音声特徴に基づいて理想的なマスク行列を決定するステップと、予め設定されたバイナリ閾値行列に基づいて理想的なマスク行列におけるノイズ要素をフィルタリングするステップと、埋め込み特徴行列及びノイズ要素がフィルタリングされた理想的なマスク行列に基づいて、サンプル音声ストリームに対応するアトラクタを決定するステップと、を含む。
なお、埋め込み空間のアトラクタの計算式は、次のとおりである。

その中で、ａ_Ｓ∈Ｒ^Ｋであり、

は、行列要素の乗算を表し、

は、理想的なマスク行列であり、ｗ∈Ｒ^ＴＦは、バイナリ閾値行列であり、バイナリ閾値行列の計算式は、次のとおりである。

バイナリ閾値行列ｗは、ノイズ干渉を減らすために、理想的なマスク行列でエネルギーが低すぎる行列要素を除外するために使用される。そして、アトラクタと埋め込み特徴行列における各行列要素との間の類似性を計算することによって、ターゲット音声のマスク行列を推定することができる。これは、ターゲットマスク行列と略称できる。

最後に、ターゲット音声の強化スペクトルは、次の計算方式によって抽出できる。

一実施例では、第１のニューラルネットワークモデルのトレーニングフェーズで計算されたアトラクタが記憶され、これらのアトラクタの平均値を計算し、当該平均値をテスト生産フェーズでグローバルアトラクタとして使用し、テスト用のターゲット音声ストリームの強化スペクトルを抽出する。

本実施例では、理想的なマスク行列におけるノイズ要素をフィルタリングした後、アトラクタを計算することで、アトラクタの計算の正確性を向上させ、計算されたアトラクタが音声データの音声特徴をより適切に反映できるようになる。

一実施例では、図５に示すように、上記の音声認識方法は、中間モデルを構築するステップをさらに含む。具体的には、
Ｓ５０２、第２のニューラルネットワークモデルを取得する。
なお、第２のニューラルネットワークモデルは、フロントエンドの音声分離強化モデルとバックエンドの音声認識モデルの間にブリッジされるモデルである。本出願が直面する音響環境は、非常に複雑であり、入力されたスペクトログラムがスペクトル推定誤差と時間的歪みを含む欠陥スペクトルである場合、フロントエンドからの音声認識誤差の影響を最小限に抑える必要がある。また、フレームレベルのスペクトログラム抽出と音素レベルの音声認識タスクの間のコンテキストの違いにより、フロントエンドとバックエンドの音声処理タスクの融合の時間的で動的な複雑さも増す。換言すれば、本出願は、第２のニューラルネットワークモデルに基づくブリッジトレーニングによって得られた共同モデルを提供し、より多くの複雑な音響環境に適応できる。ボトムアップ及びトップダウンからの時間的動的影響に適応する機能を持つために、本出願の実施例では、第２のニューラルネットワークモデルは、より複雑なＲｅｃｕｒｒｅｎｔモデルアーキテクチャを使用する。典型的に、Ｒｅｃｕｒｒｅｎｔモデルアーキテクチャは、入力スペクトログラムのコンテキストを使用して出力音響特徴空間におけるポイントを予測するモデル構造を含む。例えば、深層畳み込みニューラルネットワークＣＮＮ、又はＢｉＬＳＴＭなどである。ここで、ＢｉＬＳＴＭモデルは、通常、汎用プログラム近似器と呼ばれ、その分布について明示的な仮定を行うことなく、完全なシーケンスの条件付き事後確率を効率的に推定することで中間特徴付けを学習できる。以下は、第２のニューラルネットワークモデルがＢｉＬＳＴＭモデル構造

を採用することを例として説明する。

一実施例では、第２のニューラルネットワークモデルは、予め設定された数のＢｉＬＳＴＭモデルをのぞき穴接続することで取得できる。例えば、１つの具体的な実施例では、第２のニューラルネットワークモデルは、のぞき穴接続された２層のＢｉＬＳＴＭを採用でき、各層に、６００個の隠れノードがある。

Ｓ５０４、第２のニューラルネットワークモデルに対して非負の制約処理を実行し、非負のニューラルネットワークモデルを取得する。
なお、非負の制約処理は、第２のニューラルネットワークモデルが非負であることを保証できる処理ステップである。メルフィルターに基づいてフロントエンドモデルとバックエンドモデルをブリッジする場合、メルフィルターによって出力されるフィルターバンクＦｂａｎｋｓは、非負であるが、標準のＢｉＬＳＴＭの出力には非負の制限がない。専門家によって定義された音響特徴に適合させるために、本出願の実施例は、第２のニューラルネットワークモデルに対して非負の制約処理を実行する。

一実施例では、第２のニューラルネットワークモデルに対して非負の制約処理を実行することは、第２のニューラルネットワークモデルに対して二乗演算を実行することを含み、第２のニューラルネットワークモデルは、双方向の長短期記憶ネットワークモデルを含む。
具体的に、コンピュータデバイスは、Ｆｂａｎｋｓの非負性にマッチングするように、第２のニューラルネットワークモデルの出力に１つの二乗処理を追加する。評価によって、二乗処理は、計算ロジックが短いだけでなく、線形整流関数（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ，ＲｅＬＵ）などの活性化関数と比較して、第２のニューラルネットワークモデルに対する非線形変換の効果は優れることが分かる。

Ｓ５０６、非負のニューラルネットワークモデルによって出力された音響特徴に対して聴覚適応を実行するための微分モデルを取得し、微分モデルと非負のニューラルネットワークモデルをカスケードして、中間モデルを取得する。
なお、聴覚適応とは、人間の耳の演算をシミュレートすることにより、音響特性を人間の聴覚習慣に適合させることを指す。微分モデルは、人間の耳の演算をシミュレートする演算式である。研究によると、スペクトル振幅の差が非常に大きい高振幅の音声信号と低振幅の音声信号について、人間の耳が知覚できる差は、振幅の差ほど明らかではない可能性がある。例えば、振幅が１０００と１０の２つの音声信号について、人間の耳が知覚できる違いは、３と１などの違いだけである可能性がある。また、人間の耳は音声信号の変化に敏感である。
具体的に、コンピュータデバイスは、事前に構築された微分モデルを取得し、微分モデルを非負のニューラルネットワークモデルによって出力された音響特徴に対して聴覚マッチングする最適化処理ステップとして、非負のニューラルネットワークモデルの後にカスケードし、中間モデルを取得する。つまり、中間モデルは、非負のニューラルネットワークモデルと微分モデルを含む。このように、人間の耳の演算をシミュレートするロジックを、微分モデルの形で具体化することによって、トレーニングフェーズでは、第２のニューラルネットワークモデルは、人間の耳の演算をシミュレートするロジックを学習する必要がなく、第２のニューラルネットワークモデルの学習の複雑さが軽減され、中間モデルのトレーニング効率を向上させるのに役立つ。なお、別の実施例では、直接に第２のニューラルネットワークモデルを中間モデルとして、第２のニューラルネットワークモデルに対する非負の制約処理も、微分モデルのスプライスも必要としない。このとき、トレーニングフェーズでは、第２のニューラルネットワークモデルは、それ自体で人間の耳の演算ロジックを学習してシミュレートする必要がある。テストによって、専門家の経験に基づいて決定された非負の制約処理ロジック及び微分モデルと比較して、第２のニューラルネットワークモデルに基づく自己学習は、代わりに人間の耳の演算ロジックのより包括的なシミュレーションを学習し、より優れた聴覚マッチング効果を実現できる。テスト生産フェーズでトレーニングされた第２のニューラルネットワークモデル（即ち、ロバスト特徴付けモデル）は、より多くの複雑な音響環境に適応できる。本実施例では、第２のニューラルネットワークモデルに対して非負の制約処理を実行し、人間の耳の演算をシミュレートするための微分モデルをスプライスすることで、モデルによって出力される音響特性に実際の人間の聴覚習慣により適合し、ひいては全体の音声認識パフォーマンスを向上させるのに役立つ。

一実施例では、上記の音声認識方法は、非負のニューラルネットワークモデルによって出力された音響特徴に対して聴覚適応を実行するための微分モデルを取得するステップをさらに含み、このステップは、音響特徴対応特徴ベクトルに対して対数演算を実行するための対数モデルを取得するステップと、音響特徴対応特徴ベクトルに対して差分演算を実行するための差分モデルを取得するステップと、対数モデルと差分モデルに基づいて微分モデルを構築するステップと、を含む。なお、対数モデルは、非負のニューラルネットワークモデルによって出力された音響特徴の特徴ベクトル要素に対して対数演算を実行する。対数モデルは、

などの要素対数演算を実現できる任意のモデルであってもよい。ここで、ｘは、音響特徴ベクトル要素である。以上のように、スペクトル振幅の差が非常に大きい高振幅の音声信号と低振幅の音声信号について、人間の耳が知覚できる差は、振幅の差ほど明らかではない可能性がある。対数モデルに基づいて音響特徴の特徴ベクトル要素に対して対数演算を実行することで、値の間の差異を弱め、音響特徴が異なるベクトル要素の間の差異を、人間の耳が実際に知覚できる信号の違いをよりよく反映させることができる。例えば、上記の例では、振幅が１０００と１０の２つの音声信号の場合、

対数演算の後、ベクトル要素１０００が３に変換され、ベクトル要素１０が１に変換され、人間の耳が実際に知覚できる信号の違いをよく反映している。差分モデルは、非負のニューラルネットワークモデルによって出力された音響特徴の特徴ベクトル要素に対して差分演算を実行する。差分モデルは、一次差分演算や二次差分演算などの要素差分演算を実現できる任意のモデルである。以上のように、人間の耳は音声信号の変化に敏感である。差分モデルに基づいて音響特徴の特徴ベクトル要素に対して差分演算を実行することで、差分結果は、音響特徴の異なるベクトル要素間の変化を反映できる。

具体的に、コンピュータデバイスは、対数モデルと差分モデルを２つの並列モデルとして微分モデルを構築することができ、対数モデルと差分モデルをカスケードして微分モデルを構築することもできる。対数モデルと差分モデルのカスケード順序は、対数モデルが差分モデルの後にカスケードされてもよいし、差分モデルが対数モデルの後にカスケードされてもよい。微分モデルは、聴覚適応のための他のモデルも含むことを理解することができ、これに対して制限しない。コンピュータデバイスは、音声認識モデルを事前トレーニングした後、音声認識モデルのモデルパラメータを固定し、クリーンな音声のスペクトルをトレーニングデータとして使用し続け、第２の損失関数Ｌ_２を直接にバックプロパゲーションして認識することによって、中間モデルをトレーニングする。

ここで、Θ_{ａｄａｐｔ}は、中間モデルのモデルパラメータであり、

は、第２のニューラルネットワークモデルに対して非負の制約処理を実行し、微分モデルをスプライスすることによって得られた中間モデルであり、

は、第２のニューラルネットワークモデル自身である。

一実施例では、より速い収束とより優れた一般化を実現するために、コンピュータデバイスは、音響特徴のベクトル要素に対してグローバル平均分散正規化処理を実行してもよい。正規化処理に採用される方法は、具体的には、０１正規化、Ｚ－ｓｃｏｒｅ正規化、又はｓｉｇｍｏｉｄ関数正規化などであってもよい。

一実施例では、より良い音声平滑化効果を実現するために、コンピュータデバイスは、サンプルオーディオストリームのうち現在のオーディオフレームを中心とする２Ｗ＋１フレームのコンテキストウィンドウにおける各オーディオフレームの音響特徴をスプライスしてもよい。その中で、Ｗは、片側コンテキストウィンドウのサイズを表し、具体的なサイズは、必要に応じて自由に設定でき、例えば、５に設定する。

本実施例では、非負のニューラルネットワークモデルに対して対数演算を実行することによって、音声信号の音響特性の異なるベクトル要素間の違いが人間の耳が実際に知覚できる信号の違いをよりよく反映するようにする。非負のニューラルネットワークモデルに対して差分演算を実行することによって、音響的特徴の異なるベクトル要素間の変化を反映し、ひいては、人間の耳が音声信号の変化に対してより敏感である聴覚的特徴に適応する。

一実施例では、図６に示すように、上記の音声認識方法は、音声認識モデルを事前トレーニングするステップをさらに含む。具体的に、
Ｓ６０２、サンプル音声ストリーム及び対応するラベル付けされた音素カテゴリを取得する。
なお、サンプル音声ストリームにおける各オーディオフレームは、対応するラベリングデータを有する。ラベリングデータは、オーディオフレームにおけるターゲット音声の出力ユーザー又は音声内容に応じて決定されたオーディオフレームに対応する音素カテゴリを含む。

Ｓ６０４、第３のニューラルネットワークモデルによって、サンプル音声ストリームにおける各オーディオフレームの深度特徴を抽出する。
なお、本実施例では、第３のニューラルネットワークモデルは、ＣＬＤＮＮ（ＣＯＮＶＯＬＵＴＩＯＮＡＬ、ＬＯＮＧＳＨＯＲＴ－ＴＥＲＭＭＥＭＯＲＹ、ＦＵＬＬＹＣＯＮＮＥＣＴＥＤＤＥＥＰＮＥＵＲＡＬＮＥＴＷＯＲＫＳ、ＣＮＮ、ＬＳＴＭ及びＤＮＮを融合したネットワーク）に基づいて実現した音響モデルであってもよい。さらに、ＣＮＮ層とＬＳＴＭ層の出力は、いずれもバッチ正規化できるため、収束が速くなり、一般化が向上する。

具体的に、コンピュータデバイスは、第３のニューラルネットワークモデルによって、サンプル音声ストリームにおける各オーディオフレームの深度特徴を抽出する。第３のニューラルネットワークモデルはＳｏｆｔｍａｘ層を含む。コンピュータデバイスは、Ｓｏｆｔｍａｘ層に基づいて、ロバスト特徴ベクトル要素が各種の音素カテゴリに属する確率を決定できる。

一実施例では、サンプルオーディオストリームのうち現在オーディオフレームを中心とする２Ｗ＋１フレームのコンテキストウィンドウの各オーディオフレームの深度特徴をスプライスでき、スプライス結果を現在オーディオフレームの深度特徴とする。このように、コンテキスト情報を反映する深度特徴を取得できることは、第３のニューラルネットワークモデルの正確性を向上させるのに役立つ。

Ｓ６０６、全ての音素カテゴリのオーディオフレームに対応する深度特徴に基づいて、サンプル音声ストリームの中心ベクトルを決定する。

Ｓ６０８、深度特徴と中心ベクトルに基づいて、各オーディオフレームのクラス間混同測度指数とクラス内距離ペナルティ指数の間の融合損失を決定する。
なお、中心ベクトルは、ターゲットカテゴリにおける全ての深度特徴の中心を記述するために使用される。オーディオフレームのクラス間混同測度指数とは、サンプル音声ストリームがターゲットカテゴリに属する可能性を特徴づけるためのパラメータを指し、異なるターゲットカテゴリ間の区別性を反映できる。クラス間混同測度指数が小さいほど、クラス間の区別性が強くなることを表す。クラス間混同測度指数は、ユークリッド距離によって計算でき、角距離などの他の距離タイプのアルゴリズムを使用して計算することもできる。クラス内距離ペナルティ指数とは、サンプル音声ストリームのクラス内分布のコンパクトさを特徴づけるためのパラメータを指す。クラス内距離のペナルティによって、第３のニューラルネットワークモデルの分類パフォーマンスを強化でき、即ち、クラス内のコンパクトな分布によってクラス内の識別パフォーマンスを満たす。クラス内距離ペナルティ指数が小さいほど、クラス内分布のコンパクトさが強くなることを表し、ひいてはクラス内識別性能の向上が得られる。クラス内距離ペナルティ指数は、センターロス行の数によって実現されるが、これに限定されず、例えば、角度距離のＣｏｎｔｒａｓｔｉｖｅ損失関数、Ｔｒｉｐｌｅｔ損失関数、Ｓｐｈｅｒｅｆａｃｅ損失関数、及びＣｏｓＦａｃｅ損失関数などを採用して実現してもよい。

具体的に、コンピュータデバイスがクラス間混同測度指数とクラス内距離ペナルティ指数を融合する方式は、予め設定された重み係数に従って、クラス間混同測度指数とクラス内距離ペナルティ指数に対して加重計算を実行する。
Ｌ_ＣＬ＝Ｌ_ｃｅ＋λ_ＣＬＬ_ｃｔ
ここで、Ｌ_ＣＬは、融合損失であり、Ｌ_ｃｅは、クラス間混同測度指数であり、Ｌ_ｃｔは、クラス内距離ペナルティ指数であり、λ_ＣＬは、重み係数である。

Ｓ６１０、融合損失に基づいて、第３のニューラルネットワークモデルをトレーニングして、音声認識モデルを取得する。
具体的に、コンピュータデバイスは、予め設定された深層学習最適化アルゴリズムに従って、ターゲット損失関数によって生成されるグローバル下降勾配を決定する。ターゲット損失関数によって生成されたグローバル下降勾配は、音声認識モデルからロバスト特徴付けモデル及び音声分離強化モデルのネットワーク各層に順次にバックプロパゲーションする。

ＥＡＲシステムでは、ＤＥＮｅｔネットワークに基づく抽出器は、ＢｉＬＳＴＭネットワークを介して高次元の埋め込み特徴行列Ｖを生成し、ターゲット音声に適したターゲットフロートマスク

を予測し、

を使用して、抽出器によって出力された推定スペクトルとターゲット音声の強化スペクトルの間の平均二乗誤差ＭＳＥを計算し、ターゲット音声に対するロバスト特徴を生成することができ、ロバスト特徴は、アダプタと認識器を介して音声ユニットを続けて予測することができる。抽出器のモデルパラメータが、ターゲット音声スペクトルを可能な限り正確に推定しつつ音声認識のエラー率を減らすために、本出願は、マルチタスク共同トレーニングの形でＤＥＮｅｔネットワークのパラメータを更新し、マルチタスク共同損失関数（すなわち、ターゲット損失関数）は、音声分離タスクの第１の損失関数と音声認識の第２の損失関数の加重の組み合わせである。ＤＥＮｅｔネットワークのフォワードプロセスは、クロスエントロピー、センターロス重み、及びスペクトル平均二乗誤差を同時に計算できるため、バックプロパゲーションによってモデルパラメータにおける各損失関数の勾配を取得することができる。重み係数を追加した後、マルチタスクトレーニング中に音声分離タスクの「重要性」を調整することができる。本実施例では、センターロスに基づいて深度特徴空間の各カテゴリの中心点を学習及び更新でき、深度特徴及びそれに対応するターゲットカテゴリの中心点の間のクラス内距離にペナルティを課すことにより、目に見えない音響環境での音声認識のエラー率を大幅に低減し、ノイズの変動に対する音声認識の一般化能力を効果的に向上させることができ、ひいてはクリーンな音声、トレーニングで目に見える音響環境、及び見えない音響環境の条件下で、低いエラー率を得ることができるため、サンプル音声ストリームの標準は、新しい音響環境でより優れたロバスト性を備え、新しい音響環境でも、新しいアクセントとバックグラウンドノイズによる様々なユーザーに遭遇しても、安定して確実に音声認識を完了することができる。

一実施例では、深度特徴と中心ベクトルに基づいて、各オーディオフレームのクラス間混同測度指数とクラス内距離ペナルティ指数の融合損失を決定することは、深度特徴をクロスエントロピー関数に入力し、各オーディオフレームのクラス間混同測度指数を計算するステップと、深度特徴と中心ベクトルを中心損失関数に入力し、各オーディオフレームのクラス内距離ペナルティ指数を計算するステップと、クラス間混同測度指数とクラス内距離ペナルティ指数を融合演算して、融合損失を取得するステップと、を含む。

ここで、クロスエントロピー関数は、深度特徴のクラス間区別性を保証するために使用される。クロスエントロピー関数の計算式は、次の通りである。

その中で、Ｌ_ｃｅは、クラス間混同測度指数であり、Ｍは、トレーニングに使用されるサンプル音声ストリームのバッチサイズであり、Ｔは、サンプル音声ストリームにおけるオーディオフレームのフレーム数である。

は、第３のニューラルネットワークモデルの出力層でｓｏｆｔｍａｘ動作を実行した後のｉ番目のノードの出力であり、第３のニューラルネットワークモデルにＫ個の出力カテゴリを表すＫ個の出力ノードがある。

その中で、ａ_ｔは、第ｔのオーディオフレームの時点での第３のニューラルネットワークモデルのｓｏｆｔｍａｘ層の前の層の出力であり、

は、第ｔのオーディオフレームの時点でのｓｏｆｔｍａｘ層の前の層のｊ番目のノードの出力であり、Ｗは、ｓｏｆｔｍａｘ層の重み行列であり、Ｂは、ｓｏｆｔｍａｘ層のバイアスベクトルである。

中心損失関数の計算式は、次の通りである。

その中で、Ｌ_ｃｔは、クラス内距離ペナルティ指数であり、

は、第ｔフレームのオーディオフレームの深度特徴であり、即ち、第ｔのオーディオフレームの時点での第３のニューラルネットワークモデルの最後から２番目の層の出力であり、

は、第Ｋｔクラスの深度特徴の中心ベクトルを示し、ｉは、サンプル音声ストリームのインデックスである。実行されるセンターロス計算の手順では、目標は、中心ベクトルに対するオーディオフレームの深度特徴の距離をできるだけ小さくすることであり、つまり、クラス内の距離ｕ_ｔ－ｃ_Ｋｔが小さいほどよい。

具体的に、コンピュータデバイスは、クロスエントロピー損失関数と中心損失関数を融合して、音声認識モデルに対応する第２の損失関数を取得する。一実施例では、クロスエントロピー損失関数と中心損失関数を融合する方式は、予め設定された重み係数に従って、クロスエントロピー損失関数と中心損失関数に対して加重計算を実行することであってもよい。
Ｌ_ＣＬ＝Ｌ_ｃｅ＋λ_ＣＬＬ_ｃｔ
その中で、Ｌ_ＣＬは、第２の損失関数であり、λ_ＣＬは、第２の損失関数における中心損失関数の重みを制御するハイパーパラメーターである。それに対応して、クラス間混同測度指数とクラス内距離ペナルティ指数を融合する方式は、予め設定された重み係数λ_ＣＬに従って、クラス間混同測度指数とクラス内距離ペナルティ指数に対して加重計算を実行することである。

本実施例では、中心損失関数を採用することによって、深度特徴空間における各カテゴリの中心点を学習及び更新することができ、深度特徴と対応するクラスの中心点の間の距離にペナルティを課すことにより、深度特徴の区別能力を向上させる。

１つの具体的な実施例では、図７に示すように、当該音声認識方法は、具体的に、以下のステップを含む。
Ｓ７０２、サンプル音声ストリームに対してフーリエ変換を実行し、各オーディオフレームの音声スペクトルと音声特徴を取得する。
Ｓ７０４、第１のニューラルネットワークモデルに基づいて、音声スペクトルに対して音声の分離と強化を実行し、推定スペクトルを取得する。
Ｓ７０６、第１のニューラルネットワークモデルに基づいて、音声特徴を埋め込み空間にマッピングし、埋め込み特徴行列を取得する。
Ｓ７０８、音声スペクトルと音声特徴に基づいて理想的なマスク行列を決定する。
Ｓ７１０、予め設定されたバイナリ閾値行列に基づいて、理想的なマスク行列におけるノイズ要素をフィルタリングする。
Ｓ７１２、埋め込み特徴行列及びノイズ要素がフィルタリングされた理想的なマスク行列に基づいて、サンプル音声ストリームに対応するアトラクタを決定する。
Ｓ７１４、埋め込み特徴行列における各行列要素とアトラクタとの類似性を計算することにより、サンプル音声ストリームのターゲットマスク行列を取得する。
Ｓ７１６、ターゲットマスク行列に基づいてサンプル音声ストリームに対応する強化スペクトルを決定する。
Ｓ７１８、第１の損失関数に基づいてサンプル音声ストリームに対応する推定スペクトルと強化スペクトルとの間の平均二乗誤差損失を計算する。
Ｓ７２０、平均二乗誤差損失に基づいて、第１のニューラルネットワークモデルをトレーニングして、音声分離強化モデルを取得する。
Ｓ７２２、サンプル音声ストリーム及び対応するラベル付けされた音素カテゴリを取得する。
Ｓ７２４、第３のニューラルネットワークモデルによって、サンプル音声ストリームにおける各オーディオフレームの深度特徴を抽出する。
Ｓ７２６、全ての音素カテゴリのオーディオフレームに対応する深度特徴に基づいて、サンプル音声ストリームの中心ベクトルを決定する。
Ｓ７２８、深度特徴をクロスエントロピー関数に入力し、各オーディオフレームのクラス間混同測度指数を計算する。
Ｓ７３０、深度特徴と中心ベクトルを中心損失関数に入力し、各オーディオフレームのクラス内距離ペナルティ指数を計算する。
Ｓ７３２、クラス間混同測度指数とクラス内距離ペナルティ指数を融合演算して、第２の損失関数に基づく融合損失を取得する。
Ｓ７３４、融合損失に基づいて、第３のニューラルネットワークモデルをトレーニングして、音声認識モデルを取得する。
Ｓ７３６、音声分離強化モデルの第１の損失関数と音声認識モデルの第２の損失関数を取得する。
Ｓ７３８、第２のニューラルネットワークモデルを取得する。
Ｓ７４０、第２のニューラルネットワークモデルに対して非負の制約処理を実行し、非負のニューラルネットワークモデルを取得する。
Ｓ７４２、非負のニューラルネットワークモデルによって出力された音響特徴に対して聴覚適応を実行するための微分モデルを取得する。
Ｓ７４４、微分モデルと非負のニューラルネットワークモデルをカスケードして、中間モデルを取得する。
Ｓ７４６、第２の損失関数に基づいてバックプロパゲーションを実行して、音声分離強化モデルと音声認識モデルとの間にブリッジされた中間モデルをトレーニングし、ロバスト特徴付けモデルを取得する。
Ｓ７４８、第１の損失関数と第２の損失関数を融合して、ターゲット損失関数を取得する。
Ｓ７５０、ターゲット損失関数によって生成されるグローバル下降勾配を決定する。
Ｓ７５２、グローバル下降勾配に基づいて、音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルのそれぞれに対応するモデルパラメータを、ターゲット損失関数の最小化損失値が得られるまで繰り返し更新する。

ロバスト特徴付けモジュール

を介してフロントエンドの音声分離強化モデルとバックエンドの音声認識モデルを接続することにより、ＥＡＲシステム全体がエンドツーエンドのバックプロパゲーションを実現できるネットワークになり、そして、モジュラーアーキテクチャにより、ＥＡＲシステム全体のネットワークは、「カリキュラム」というトレーニング方法（Ｃｕｒｒｉｃｕｌｕｍｌｅａｒｎｉｎｇ）を採用でき、即ち、バックエンドの音声認識モデルの損失関数に基づいてバックプロパゲーションを実行して、ロバスト特徴付けモデルを個別にトレーニングし、その後、エンドツーエンドでＥＡＲシステム全体のネットワークを共同でトレーニングする。事前にトレーニングされた音声分離強化モデルと音声認識モデルに基づいてトレーニングできるため、「カリキュラム」というトレーニング方法を採用することで、収束をすばやく達成することができる。

上記の音声認識方法、強力なネットワーク構成、及び「カリキュラム」トレーニング方式により、本出願によって提供される音声認識方法に基づいてトレーニングされた共同モデルは、学習能力が非常に強く、ロバストで効果的な音声強化及び音声分離表現を抽出することにより、自動音声認識のパフォーマンスを向上させ、任意の困難で複雑な干渉音響環境に適応できる。

図８に示すように、一実施例では、音声認識方法を提供する。この実施例は、主に、当該方法をコンピュータデバイスに適用することを例として説明し、当該コンピュータデバイスは、具体的に、上図の端末１１０又はサーバー１２０であってもよい。端末１１０とサーバー１２０は、いずれも独立して本出願の実施例によって提供される音声認識方法を実行することができる。端末１１０とサーバー１２０は、協働して本出願の実施例によって提供される音声認識方法を実行することができる。図８を参照して、当該音声認識方法は、具体的に、次のステップを含む。
Ｓ８０２、ターゲット音声ストリームを取得する。

なお、ターゲット音声ストリームは、任意の実際の音響環境で収集されたオーディオデータストリームであってもよい。ターゲット音声ストリームは、事前に収集してコンピュータデバイスに記憶してもよく、コンピュータデバイスによって動的に収集してもよい。例えば、ターゲット音声ストリームは、ゲームアプリケーションに基づいて収集された、ゲーム音声通話中にユーザーによって生成されたオーディオデータストリームであってもよい。このとき、ターゲット音声ストリームは、ゲームのバックグラウンドミュージック及び遠端のボーカルを含むエコー干渉である可能性がある。具体的に、コンピュータデバイスは、ターゲット音声ストリームを取得し、予め設定されたサンプリング周波数に従って、ターゲット音声ストリームからオーディオフレームを収集する。各オーディオフレームのフレーム長と隣接するオーディオフレームの間のフレームシフトは、いずれも必要に応じて自由に設定できる。１つの具体的な実施例では、コンピュータデバイスは、１６ｋＨｚのサンプリング周波数、２５ｍｓのフレーム長、及び１０ｍｓのフレームシフトに基づいてオーディオフレームを収集する。

Ｓ８０４、音声分離強化モデルに基づいて、ターゲット音声ストリームにおける各オーディオフレームの強化スペクトルを抽出する。
なお、音声分離強化モデルは、ニューラルネットワークモデルである。具体的に、理想的な比率マスク（ＩｄｅａｌＲａｔｉｏＭａｓｋ，ＩＲＭ）の深度アトラクタネットワーク（ＤｅｅｐＡｔｔｒａｃｔｏｒＮｅｔ，ＤＡＮｅｔ）、及び深度抽出ネットワーク（ＤｅｅｐＥｘｔｒａｃｔｏｒＮｅｔ，ＤＥＮｅｔ）に基づいて簡略化されたモデルである。１つの具体的な実施例では、音声分離強化モデルは、のぞき穴接続された４層ＢｉＬＳＴＭを採用でき、各層に６００個の隠れノードがあり、最後のＢｉＬＳＴＭ層の後に１つの完全接続層を接続する。具体的に、コンピュータデバイスは、バッチで複数のターゲット音声ストリームに対して短時間フーリエ変換を実行し、各ターゲット音声ストリームにおける音声特徴と音声スペクトルを取得することができる。コンピュータデバイスは、音声分離強化モデルに基づいて、バッチターゲット音声ストリームの音声特徴をより高次元の埋め込み空間にマッピングし、埋め込み空間で音声スペクトルに対して音声の分離と強化を実行し、埋め込み特徴行列を取得する。コンピュータデバイスは、事前に記憶されたグローバルアトラクタを取得する。音声分離強化モデルトのレーニングフェーズでは、コンピュータデバイスは、各回のバッチサンプル音声ストリームに基づいて計算されたアトラクタを記憶し、これらのアトラクタの平均値を計算し、当該平均値をテスト生産フェーズのグローバルアトラクタとして使用する。コンピュータデバイスは、グローバルアトラクタとターゲット音声ストリームに対応する埋め込み特徴行列における各行列要素との間の類似性を計算することによって、ターゲット音声ストリームのターゲットマスク行列を取得する。ターゲットマスク行列と埋め込み特徴行列に基づいて、ターゲット音声ストリームの強化スペクトルを抽出することができる。

Ｓ８０６、ロバスト特徴付けモデルに基づいて強化スペクトルに対して聴覚マッチングを実行して、ロバスト特徴を取得する。
なお、ロバスト特徴付けモデルは、フロントエンドの音声分離強化モデルとバックエンドの音声認識モデルの間にブリッジされたニューラルネットワークモデルである。具体的には、Ｒｅｃｕｒｒｅｎｔモデルアーキテクチャに基づくＣＮＮ、ＢｉＬＳＴＭなどであってもよく、ボトムアップ及びトップダウンからの時間的動的影響に適応する機能を持つ。１つの具体的な実施例では、ロバスト特徴付けモデルは、各層に６００個の隠れノードを有するのぞき穴接続された２層のＢｉＬＳＴＭである。ロバスト特徴は、フロントエンドの音声分離強化モデルによって出力された強化スペクトルを変換して、中間遷移特徴を取得するために使用され、当該中間遷移特徴をバックエンドの音声認識モデルの入力とする。

具体的に、コンピュータデバイスは、ロバスト特徴付けモデルに基づいて、スペクトルの音響特徴を強化する。人間の聴覚習慣に合わせるために、ロバスト特徴付けモデルは、強化スペクトルの音響特徴に対して聴覚マッチングを実行する。コンピュータデバイスは、ロバスト特徴付けモデルに基づいて、音響特徴に対して非負の制約処理を実行し、非負の制限処理が実行された音響特徴に対して、対数や差分を求めるなどの微分演算を実行し、ロバスト特徴を取得する。例えば、スペクトル振幅の差が非常に大きい高振幅の音声信号と低振幅の音声信号について、人間の耳が知覚できる差は、振幅の差ほど明らかではない可能性がある。対数モデルに基づいて音響特徴の特徴ベクトル要素に対して対数演算を実行することで、値の間の差異を弱め、音響特徴が異なるベクトル要素の間の差異を、人間の耳が実際に知覚できる信号の違いをよりよく反映させることができる。人間の耳は音声信号の変化に比較的に敏感である。差分モデルに基づいて音響特徴の特徴ベクトル要素に対して差分演算を実行することで、差分結果は、音響特徴の異なるベクトル要素間の変化を反映できる。

Ｓ８０８、音声認識モデルに基づいてロバスト特徴を認識して、各オーディオフレームに対応する音素を取得し、音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルは、共同トレーニングによって取得される。
なお、音声認識モデル、及び上記に言及された音声分離強化モデル、ロバスト特徴付けモデルは、予め共同トレーニングによって取得される。フロントエンドの音声分離強化モデルとバックエンドの音声認識モデルは、事前にトレーニングされたものであってもよい。コンピュータデバイスは、音声分離強化モデルの第１の損失関数と音声認識モデルの第２の損失関数を取得し、第２の損失関数に基づいて損失値を計算することで、損失値に基づいてバックプロパゲーションを実行して、音声分離強化モデルと音声認識モデルとの間にブリッジされた中間モデルをトレーニングし、ロバスト特徴付けモデルを取得する。コンピュータデバイスは、さらに、第１の損失関数と第２の損失関数を融合し、融合して得られたターゲット損失関数に基づいて音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルを共同でトレーニングし、予め設定された収束条件を満たすと、トレーニングを終了する。具体的に、コンピュータデバイスは、ロバスト特徴を音声認識モデルに入力し、ターゲット音声ストリームに対応する音素を取得する。本出願の実施例では、音声認識モデルは、約２０，０００の音素カテゴリを認識できる。音声認識モデルは、入力されたバッチターゲット音声ストリームのロバスト特徴を処理して、１つの約２０，０００次元の音素ベクトルを出力する。ロバスト特徴ベクトル要素と音素ベクトル要素の間に対応関係がある。音素ベクトルは、ロバスト特徴ベクトル要素が各音素カテゴリに属する確率を記録している。このように、各ロバスト特徴ベクトル要素に対応する最大確率音素カテゴリに対応する音素文字列を決定することができ、それにより、音素レベルからターゲット音声ストリームに対して音声認識を実行することを実現できる。

上記の音声認識方法は、フロントエンドの音声分離強化モデルとバックエンドの音声認識モデルの間にロバスト特徴付けモデルを導入する新しいエンドツーエンドネットワークアーキテクチャを提案する。このアーキテクチャは、適切な中間遷移特徴付け学習技術を導入することにより、人間指向の音声分離タスクと機械指向の音声認識タスクの間のギャップをよく埋め、エンドツーエンドのネットワークモデルを共同でトレーニングし、ネットワークアーキテクチャにおける個々のモデルは、複雑な音響環境の音声信号からの干渉特徴を包括的に学習できることで、グローバルな音声処理タスクのパフォーマンスを保証でき、音声認識の正確性を向上させる。また、ネットワークアーキテクチャにおける各モデルは、柔軟で独立した選択をサポートしているため、各モデルだけで、単一のモデルを妥協することなく最適な配置を実現できるため、ローカルの各音声処理タスクのパフォーマンスを同時に両立でき、音声の客観的な了解度を向上させる。

一実施例では、音声分離強化モデルは、第１のニューラルネットワークモデルを含み、音声分離強化モデルに基づいてターゲット音声ストリームにおける各オーディオフレームの強化スペクトルを抽出することは、第１のニューラルネットワークモデルに基づいて、ターゲット音声ストリームにおける各オーディオフレームの埋め込み特徴行列を抽出するステップと、埋め込み特徴行列と予め設定された理想的なマスク行列に基づいて、ターゲット音声ストリームに対応するアトラクタを決定するステップと、埋め込み特徴行列における各行列要素とアトラクタとの類似性を計算することにより、ターゲット音声ストリームのターゲットマスク行列を取得するステップと、ターゲットマスク行列に基づいて、ターゲット音声ストリームにおける各オーディオフレームに対応する強化スペクトルを決定するステップと、を含む。音声分離強化モデルは、第１のニューラルネットワークモデルに基づいてトレーニングされる。音声分離強化モデルに基づいてターゲット音声ストリームにおける各オーディオフレームの強化スペクトルを抽出する手順は、上記のステップＳ４０２－Ｓ４１０の説明を参照することができる。ここで、繰り返して説明しない。

一実施例では、ロバスト特徴付けモデルは、第２のニューラルネットワークモデルと微分モデルを含み、ロバスト特徴付けモデルに基づいて強化スペクトルに対して聴覚マッチングを実行してロバスト特徴を取得することは、第２のニューラルネットワークモデルに基づいて強化スペクトルから音響の特徴を抽出するステップと、音響特徴に対して非負の制約処理を実行して非負の音響特徴を取得するステップと、微分モデルによって非負の音響特徴に対して微分演算を実行し、人間の耳の聴覚習慣にマッチングするロバスト特徴を取得するステップと、を含む。中間モデルは、第２のニューラルネットワークモデルと微分モデルをつなぎ合わせることによって取得でき、中間モデルをトレーニングすることによって、ロバスト特徴付けモデルを取得する。ロバスト特徴付けモデルに基づいてロバスト特徴を抽出することは、上記のステップＳ５０２－Ｓ５０６の説明を参照することができる。ここで、繰り返して説明しない。

一実施例では、「バックグラウンドミュージックによる干渉」と「他の話者による干渉」という２つの音響環境からの音声について、５種類の異なるＳＮＲ信号対ノイズ比条件（０ｄＢ、５ｄＢ、１０ｄＢ、１５ｄＢ及び２０ｄＢ）で、異なる音声認識方法に基づく単語誤り率（ＷＥＲ）をテストして比較する。テスト結果について、図９ａを参照できる。本出願で提案されたＥＡＲシステムに基づいて音声認識を実行すると、シングルタスクλ_ＳＳ＝０状態でも、マルチタスクλ_ＳＳ≠０（例えば、λ_ＳＳ＝０．１）の状態でも、その単語誤り率は、クリーンな音声や乱れた音声トレーニングに基づく音声認識モデルＡＳＲ、音声分離強化モデルＳＳ、及び音声認識モデルＡＳＲのカスケードシステムなどの、他の音声認識システムよりも一貫して優れている。

図９ｂを参照すると、図９ｂは、一実施例における単一チャネルマルチ話者音声認識タスクにおける異なるＳＮＲ信号対ノイズ比条件下での異なる音声認識システムのパフォーマンス比較の概略図を示す。図９に示すように、異なるマルチタスクトレーニングの重みの下で、本出願で提案されるＥＡＲシステムは、音声分離強化モデルを直接に音声認識モデルの前処理ステップとしてカスケードする方式と比べて、短期的な客観的了解度ＳＴＯＩも単語誤り率ＷＥＲ（％）も優れている。即ち、ＥＡＲシステムは、機械指向の音声明瞭な度（ＷＥＲ）を大幅に向上しながら、人間の聴覚を反映した音声了解度（ＳＴＯＩ）を維持することができ、ＤＥＮｅｔを専用ＳＳモデルとするパフォーマンスと同等又はそれ以上のパフォーマンスを実現できる。

本出願の実施例は、人間指向の音声処理タスクと機械指向の音声処理タスクの間のギャップを埋めるために、適切な中間遷移特徴付け学習を導入することの重要性を初めて明らかにし、フロントエンドの音声分離ローカルタスク及びバックエンドの音声認識ローカルタスクの最適なパフォーマンス（人間の主観的な聴覚了解度）及びグローバルタスクの最適なパフォーマンス（機器の認識正確率指標のパフォーマンス）を同時に保証できる。例えば、ゲームでのリアルタイム音声の適用シーンでは、チームの音声通話中に、近端で話す人間の声もあり、ゲーム中に携帯電話で再生される背景音もある。本文で提案されるＥＡＲシステムは、ロバスト特徴付けモデルに基づいてノイズ制約をよりよく実行し、ユーザーのゲーム音声通話中のゲーム背景音と遠端の人間の声によるエコー干渉を解決することができる。背景音エコー除去により、ユーザー間の音声通話の品質が保証される。大幅なパフォーマンスの向上に加えて、本出願で提案されるＥＡＲシステムフレームワークは高い柔軟性を備え、即ち、いずれかの先進な音声分離強化モデルと音声認識モデルを柔軟に統合してＥＡＲシステムフレームワークにおける対応するモジュールに置き換えることを許可し、そして、提案されるエンドツーエンドのトレーニング可能なフレームワークは、いずれかの単一のモジュールのパフォーマンスを犠牲することを代価としない。

１つの具体的な実施例では、図１０に示すように、当該音声認識方法は、具体的に、次のステップを含む。
Ｓ１００２、ターゲット音声ストリームを取得する。
Ｓ１００４、音声分離強化モデルに基づいて、ターゲット音声ストリームにおける各オーディオフレームの埋め込み特徴行列を抽出する。
Ｓ１００６、埋め込み特徴行列と予め設定された理想的なマスク行列に基づいて、ターゲット音声ストリームに対応するアトラクタを決定する。
Ｓ１００８、埋め込み特徴行列における各行列要素とアトラクタとの類似性を計算することにより、ターゲット音声ストリームのターゲットマスク行列を取得する。
Ｓ１０１０、ターゲットマスク行列に基づいて、ターゲット音声ストリームにおける各オーディオフレームに対応する強化スペクトルを決定する。
Ｓ１０１２、ロバスト特徴付けモデルを取得し、ロバスト特徴付けモデルは第２のニューラルネットワークモデルと微分モデルを含む。
Ｓ１０１４、第２のニューラルネットワークモデルに基づいて、強化スペクトルから音響特徴を抽出する。
Ｓ１０１６、音響特徴に対して非負の制約処理を実行して非負の音響特徴を取得する。
Ｓ１０１８、微分モデルによって非負の音響特徴に対して微分演算を実行し、人間の耳の聴覚習慣にマッチングするロバスト特徴を取得する。
Ｓ１０２０、音声認識モデルに基づいてロバスト特徴を認識し、各オーディオフレームに対応する音素を取得する。音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルは、共同トレーニングによって取得される。

上記の音声認識方法は、フロントエンドの音声分離強化モデルとバックエンドの音声認識モデルの間にロバスト特徴付けモデルを導入する新しいエンドツーエンドネットワークアーキテクチャを提案する。このアーキテクチャは、適切な中間遷移特徴付け学習を導入する技術により、人間指向の音声分離タスクと機械指向の音声認識タスクの間のギャップをよく埋め、エンドツーエンドのネットワークモデルを共同でトレーニングすることによって、ネットワークアーキテクチャにおける個々のモデルが複雑な音響環境の音声信号からの干渉特徴を包括的に学習できるため、グローバルな音声処理タスクのパフォーマンスを保証でき、音声認識の正確性を向上させる。また、ネットワークアーキテクチャにおける各モデルは柔軟で独立した選択をサポートしているため、各モデルだけで、単一のモデルを妥協することなく最適な配置を実現できるため、ローカルの各音声処理タスクのパフォーマンスを同時に両立でき、音声の客観的な了解度を向上させる。

上記のフローチャートにおける各ステップは、矢印に基づいて順番に表示されるが、これらのステップは、必ずしも矢印で示された順序で順番に実行されるとは限らない。本明細書に明示的に記載されていない限り、これらのステップの実行は、厳密には順序に限定されず、これらのステップは、他の順序で実行されてもよい。そして、上記のフローチャートのステップの少なくとも一部は、複数のサブステップ又は複数のフェーズを含み、これらのサブステップ又はフェーズは必ずしも同時に実行されるとは限らず、異なる時点に実行される。これらのサブステップ又はフェーズの実行順序は、必ずしも順番に実行せず、他のステップ又は他のステップのサブステップ又はフェーズの少なくとも一部と輪番又は交互に実行してもよい。

図１１に示すように、一実施例では、音声認識装置１１００を提供し、中間特徴付け学習モジュール１１０２、損失融合モジュール１１０４、及び共同トレーニングモジュール１１０６を含む。

中間特徴付け学習モジュール１１０２は、音声分離強化モデルの第１の損失関数と音声認識モデルの第２の損失関数を取得し、第２の損失関数に基づいてバックプロパゲーションを実行して、音声分離強化モデルと音声認識モデルとの間にブリッジされた中間モデルをトレーニングし、ロバスト特徴付けモデルを取得する。
損失融合モジュール１１０４は、第１の損失関数と第２の損失関数を融合して、ターゲット損失関数を取得する。
共同トレーニングモジュール１１０６は、ターゲット損失関数に基づいて、音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルを共同でトレーニングし、予め設定された収束条件を満たすと、トレーニングを終了する。

一実施例では、図１２に示すように、上記の音声認識装置１１００は、音声分離強化モデル事前トレーニングモジュール１１０８をさらに含み、当該音声分離強化モデル事前トレーニングモジュール１１０８は、第１のニューラルネットワークモデルに基づいて、サンプル音声ストリームの推定スペクトルと埋め込み特徴行列を抽出し、埋め込み特徴行列と予め設定された理想的なマスク行列に基づいて、サンプル音声ストリームに対応するアトラクタを決定し、埋め込み特徴行列における各行列要素とアトラクタとの類似性を計算することにより、サンプル音声ストリームにおけるターゲットマスク行列を取得し、ターゲットマスク行列に基づいて、サンプル音声ストリームに対応する強化スペクトルを決定し、サンプル音声ストリームに対応する推定スペクトルと強化スペクトルの間の平均二乗誤差損失に基づいて、第１のニューラルネットワークモデルをトレーニングして、音声分離強化モデルを取得する。

一実施例では、音声分離強化モデル事前トレーニングモジュール１１０８はさらに、サンプル音声ストリームに対してフーリエ変換を実行し、各オーディオフレームの音声スペクトルと音声特徴を取得し、第１のニューラルネットワークモデルに基づいて音声スペクトルに対して音声の分離と強化を実行し、推定スペクトルを取得し、第１のニューラルネットワークモデルに基づいて、音声特徴を埋め込み空間にマッピングし、埋め込み特徴行列を取得する。

一実施例では、音声分離強化モデル事前トレーニングモジュール１１０８はさらに、音声スペクトルと音声特徴に基づいて理想的なマスク行列を決定し、予め設定されたバイナリ閾値行列に基づいて理想的なマスク行列におけるノイズ要素をフィルタリングし、埋め込み特徴行列及びノイズ要素がフィルタリングされた理想的なマスク行列に基づいて、サンプル音声ストリームに対応するアトラクタを決定する。

一実施例では、図１２に示すように、上記の音声認識装置１１００は、中間モデル構築モジュール１１１０をさらに含み、当該中間モデル構築モジュール１１１０は、第２のニューラルネットワークモデルを取得し、第２のニューラルネットワークモデルに対して非負の制約処理を実行して、非負のニューラルネットワークモデルを取得し、非負のニューラルネットワークモデルによって出力された音響特徴に対して聴覚適応を実行するための微分モデルを取得し、微分モデルと非負のニューラルネットワークモデルをカスケードして、中間モデルを取得する。

一実施例では、中間モデル構築モジュール１１１０はさらに、音響特徴対応特徴ベクトルに対して対数演算を実行するための対数モデルを取得し、音響特徴対応特徴ベクトルに対して差分演算を実行するための差分モデルを取得し、対数モデルと差分モデルに基づいて微分モデルを構築する。

一実施例では、図１２に示すように、上記の音声認識装置１１００は、音声認識モデル事前トレーニングモジュール１１１２をさらに含み、当該音声認識モデル事前トレーニングモジュール１１１２は、サンプル音声ストリーム及び対応するラベル付けされた音素カテゴリを取得し、第３のニューラルネットワークモデルによって、サンプル音声ストリームにおける各オーディオフレームの深度特徴を抽出し、全ての音素カテゴリのオーディオフレームに対応する深度特徴に基づいて、サンプル音声ストリームの中心ベクトルを決定し、深度特徴と中心ベクトルに基づいて各オーディオフレームのクラス間混同測度指数とクラス内距離ペナルティ指数の間の融合損失を決定し、融合損失に基づいて、第３のニューラルネットワークモデルをトレーニングして、音声認識モデルを取得する。

一実施例では、音声認識モデル事前トレーニングモジュール１１１２はさらに、深度特徴をクロスエントロピー関数に入力し、各オーディオフレームのクラス間混同測度指数を計算し、深度特徴と中心ベクトルを中心損失関数に入力し、各オーディオフレームのクラス内距離ペナルティ指数を計算し、クラス間混同測度指数とクラス内距離ペナルティ指数を融合演算して、融合損失を取得する。

一実施例では、共同トレーニングモジュール１１０６は、ターゲット損失関数によって生成されるグローバル下降勾配を決定し、グローバル下降勾配に基づいて、音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルのそれぞれに対応するモデルパラメータを、ターゲット損失関数の最小化損失値が得られるまで繰り返し更新する。

図１３に示すように、一実施例では、音声認識装置１３００を提供し、音声分離強化モジュール１３０２、中間特徴付け遷移モジュール１３０４、及び音声認識モジュール１３０６を含む。音声分離強化モジュール１３０２は、ターゲット音声ストリームを取得し、音声分離強化モデルに基づいてターゲット音声ストリームにおける各オーディオフレームの強化スペクトルを抽出する。中間特徴付け遷移モジュール１３０４は、ロバスト特徴付けモデルに基づいて強化スペクトルに対して聴覚マッチングを実行して、ロバスト特徴を取得する。音声認識モジュール１３０６は、音声認識モデルに基づいてロバスト特徴を認識して、各オーディオフレームに対応する音素を取得する。音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルは、共同トレーニングによって取得される。

一実施例では、音声分離強化モデルは、第１のニューラルネットワークモデルを含み、音声分離強化モジュール１３０２はさらに、第１のニューラルネットワークモデルに基づいて、ターゲット音声ストリームにおける各オーディオフレームの埋め込み特徴行列を抽出し、埋め込み特徴行列と予め設定された理想的なマスク行列に基づいて、ターゲット音声ストリームに対応するアトラクタを決定し、埋め込み特徴行列における各行列要素とアトラクタとの類似性を計算することによって、ターゲット音声ストリームのターゲットマスク行列を取得し、ターゲットマスク行列に基づいて、ターゲット音声ストリームにおける各オーディオフレームに対応する強化スペクトルを決定する。

一実施例では、ロバスト特徴付けモデルは、第２のニューラルネットワークモデルと微分モデルを含み、音声認識モジュール１３０６はさらに、第２のニューラルネットワークモデルに基づいて、強化スペクトルから音響の特徴を抽出し、音響特徴に対して非負の制約処理を実行して、非負の音響特徴を取得し、微分モデルによって非負の音響特徴に対して微分演算を実行し、人間の耳の聴覚習慣にマッチングするロバスト特徴を取得する。

図１４は、一実施例におけるコンピュータデバイスの内部構成図を示している。当該コンピュータデバイスは、具体的に、図１における端末１１０又はサーバー１２０である。図１４に示すように、当該コンピュータデバイスは、システムバスで接続されるプロセッサー、メモリ、及びネットワークインターフェースを含む。メモリは、不揮発性記憶媒体と内蔵メモリを含む。当該コンピュータデバイスの不揮発性記憶媒体は、オペレーティングシステムを記憶し、コンピュータ可読命令を記憶してもよい。当該コンピュータ可読命令がプロセッサーによって実行される場合、プロセッサーに音声認識方法を実現させる。当該内蔵メモリにも、コンピュータ可読命令を記憶してもよい。当該コンピュータ可読命令がプロセッサーによって実行される場合、プロセッサーに音声認識方法を実行させる。当業者は、図１４に示す構造が、本出願の解決策に関連する構造の一部のブロック図であり、本出願の解決策が適用されるコンピュータ機器を制限するものではなく、具体的なコンピュータデバイスは、図に示されているものよりも多い又は少ない構成要素を含むか、又はある構成要素を組み合わせるか、又は異なる配置を有することを理解することができる。

一実施例では、本出願によって提供される音声認識装置は、コンピュータ可読命令の形で実現でき、コンピュータ可読命令は、図１４に示すコンピュータデバイスで実行される。コンピュータデバイスのメモリに、当該音声認識装置を構成する各プログラムモジュール、例えば、図１３に示す音声分離強化モジュール、中間特徴付け遷移モジュール、及び音声認識モジュールを記憶することができる。各プログラムモジュールによって構成されるコンピュータ可読命令は、プロセッサーに本明細書で説明する本出願の各実施例の音声認識方法におけるステップを実行させる。

一実施例では、メモリとプロセッサーを含むコンピュータデバイスを提供し、メモリはコンピュータ可読命令を記憶しており、コンピュータ可読命令がプロセッサーによって実行されるとき、プロセッサーに上記の音声認識方法のステップを実行させる。ここで、音声認識方法のステップは、上記の様々な実施例の音声認識方法におけるステップであってもよい。

一実施例では、コンピュータ可読命令が記憶されたコンピュータ可読記憶媒体を提供し、コンピュータ可読命令がプロセッサーによって実行されるとき、プロセッサーに上記の音声認識方法のステップを実行させる。ここで、音声認識方法のステップは、上記の様々な実施例の音声認識方法におけるステップであってもよい。

一実施例では、コンピュータプログラム製品又はコンピュータプログラムを提供し、当該コンピュータプログラム製品又はコンピュータプログラムは、コンピュータ命令を含み、当該コンピュータ命令は、コンピュータ可読記憶媒体に記憶される。コンピュータデバイスのプロセッサーは、コンピュータ可読記憶媒体から当該コンピュータ命令を読み取り、プロセッサーは、当該コンピュータ命令を実行することで、当該コンピュータデバイスに上記の各方法実施例におけるステップを実行させる。

当業者は、上記の実施例の方法における流れの全部又は一部が、コンピュータ可読命令を介して関連するハードウェアを命令することによって完成され得ることを理解することができる。プログラムは、不揮発性のコンピュータ可読記憶媒体に記憶できる。当該プログラムが実行されるとき、上記の各方法の実施例の流れを含み得る。さらに、本出願によって提供される様々な実施例で使用されるメモリ、記憶、データベース、又は他の媒体への任意の引用は、いずれも不揮発性及び／又は揮発性メモリを含んでもよい。不揮発性メモリは、読み取り専用メモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、電気的にプログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的に消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、又はフラッシュメモリを含んでもよい。揮発性メモリは、ランダムアクセスメモリ（ＲＡＭ）、又は外部キャッシュメモリを含んでもよい。説明として、限定ではなく、ＲＡＭは、例えば、スタティックＲＡＭ（ＳＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、シンクロナスＤＲＡＭ（ＳＤＲＡＭ）、ダブルデータレートＳＤＲＡＭ（ＤＤＲＳＤＲＡＭ）、拡張ＳＤＲＡＭ（ＥＳＤＲＡＭ）、同期リンク（Ｓｙｎｃｈｌｉｎｋ）ＤＲＡＭ（ＳＬＤＲＡＭ）、メモリバス（Ｒａｍｂｕｓ）ダイレクトＲＡＭ（ＲＤＲＡＭ）、ダイレクトメモリバスダイナミックＲＡＭ（ＤＲＤＲＡＭ）、及びメモリバスダイナミックＲＡＭ（ＲＤＲＡＭ）などの様々な形式で利用できる。

上記の実施例の各技術的特徴は、任意に組み合わせることができる。簡潔にするために、上記の実施例における各技術的特徴の全ての可能な組み合わせを説明しない。しかしながら、これらの技術的特徴の組み合わせに矛盾がない限り、全部は本明細書に記載の範囲と見なす。以上の実施例は、本出願のいくつかの実施形態に過ぎず、その説明は、比較的具体的かつ詳細であるが、本出願の特許の範囲に対する制限として理解されるべきではない。なお、当業者にとって、本出願の概念から逸脱することなく、いくつかの修正及び改善を行うことができ、それらは全て本出願の保護範囲に属する。従って、本出願の特許の保護範囲は、添付のクレームに従う。

１１０端末
１２０サーバー
１１００音声認識モデルトレーニング装置
１１０２中間特徴付け学習モジュール
１１０４損失融合モジュール
１１０６共同トレーニングモジュール
１１０８音声分離強化モデル事前トレーニングモジュール
１１１０中間モデル構築モジュール
１１１２音声認識モデル事前トレーニングモジュール
１３００音声認識装置
１３０２音声分離強化モジュール
１３０４中間特徴付け遷移モジュール
１３０６音声認識モジュール

Claims

コンピュータデバイスが実行する音声認識方法であって、
音声分離強化モデルの第１の損失関数と音声認識モデルの第２の損失関数を取得するステップと、
前記第２の損失関数に基づいてバックプロパゲーションを実行して、前記音声分離強化モデルと前記音声認識モデルとの間にブリッジされた中間モデルをトレーニングし、ロバスト特徴付けモデルを取得するステップと、
前記第１の損失関数と前記第２の損失関数を融合して、ターゲット損失関数を取得するステップと、
前記ターゲット損失関数に基づいて、前記音声分離強化モデル、前記ロバスト特徴付けモデル、及び前記音声認識モデルを共同でトレーニングし、予め設定された収束条件を満たすと、トレーニングを終了するステップと、を含み、
前記ターゲット損失関数は、Ｌ＝Ｌ _ＣＬ＋λ _ＳＳＬ _ＭＳＥによって取得され、ここで、Ｌがターゲット損失関数であり、Ｌ _ＭＳＥが音声分離強化モデルの第１の損失関数であり、Ｌ _ＣＬが音声認識モデルの第２の損失関数であり、λ _ＳＳが重み係数である、ことを特徴とする方法。
第１のニューラルネットワークモデルに基づいて、サンプル音声ストリームの推定スペクトルと埋め込み特徴行列を抽出するステップと、
埋め込み特徴行列と予め設定された理想的なマスク行列に基づいて、サンプル音声ストリームに対応するアトラクタを決定するステップと、
前記埋め込み特徴行列における各行列要素と前記アトラクタとの類似性を計算することにより、前記サンプル音声ストリームのターゲットマスク行列を取得するステップと、
前記ターゲットマスク行列に基づいて、前記サンプル音声ストリームに対応する強化スペクトルを決定するステップと、
前記サンプル音声ストリームに対応する推定スペクトルと前記強化スペクトルとの間の平均二乗誤差損失に基づいて、前記第１のニューラルネットワークモデルをトレーニングして、音声分離強化モデルを取得するステップと、をさらに含むことを特徴とする請求項１に記載の方法。
第１のニューラルネットワークモデルに基づいて、サンプル音声ストリームの推定スペクトル及び埋め込み特徴行列を抽出する前記ステップは、
サンプル音声ストリームに対してフーリエ変換を実行し、各オーディオフレームの音声スペクトルと音声特徴を取得するステップと、
第１のニューラルネットワークモデルに基づいて、音声スペクトルに対して音声の分離と強化を実行し、推定スペクトルを取得するステップと、
第１のニューラルネットワークモデルに基づいて、音声特徴を埋め込み空間にマッピングして、埋め込み特徴行列を取得するステップと、を含むことを特徴とする請求項２に記載の方法。
埋め込み特徴行列と予め設定された理想的なマスク行列に基づいて、サンプル音声ストリームのアトラクタを決定する前記ステップは、
前記音声スペクトルと音声特徴に基づいて、理想的なマスク行列を決定するステップと、
予め設定されたバイナリ閾値行列に基づいて、前記理想的なマスク行列におけるノイズ要素をフィルタリングするステップと、
埋め込み特徴行列及びノイズ要素がフィルタリングされた理想的なマスク行列に基づいて、サンプル音声ストリームに対応するアトラクタを決定するステップと、を含むことを特徴とする請求項３に記載の方法。
第２のニューラルネットワークモデルを取得するステップと、
前記第２のニューラルネットワークモデルに対して非負の制約処理を実行して、非負のニューラルネットワークモデルを取得するステップと、
非負のニューラルネットワークモデルによって出力された音響特徴に対して聴覚適応を実行するための微分モデルを取得するステップと、
前記微分モデルと前記非負のニューラルネットワークモデルをカスケードして、中間モデルを取得するステップと、をさらに含むことを特徴とする請求項１に記載の方法。
非負のニューラルネットワークモデルによって出力された音響特徴に対して聴覚適応を実行するための微分モデルを取得する前記ステップは、
音響特徴に対応する特徴ベクトルに対して対数演算を実行するための対数モデルを取得するステップと、
音響特徴に対応する特徴ベクトルに対して差分演算を実行するための差分モデルを取得するステップと、
前記対数モデルと前記差分モデルに基づいて、微分モデルを構築するステップと、を含むことを特徴とする請求項５に記載の方法。
サンプル音声ストリーム及び対応するラベル付けされた音素カテゴリを取得するステップと、
第３のニューラルネットワークモデルによって、サンプル音声ストリームにおける各オーディオフレームの深度特徴を抽出するステップと、
全ての音素カテゴリのオーディオフレームに対応する深度特徴に基づいて、サンプル音声ストリームの中心ベクトルを決定するステップと、
前記深度特徴と前記中心ベクトルに基づいて、各オーディオフレームのクラス間混同測度指数とクラス内距離ペナルティ指数の間の融合損失を決定するステップと、
前記融合損失に基づいて、前記第３のニューラルネットワークモデルをトレーニングして、音声認識モデルを取得するステップと、をさらに含むことを特徴とする請求項１に記載の方法。
前記深度特徴と前記中心ベクトルに基づいて、各オーディオフレームのクラス間混同測度指数とクラス内距離ペナルティ指数の間の融合損失を決定する前記ステップは、
前記深度特徴をクロスエントロピー関数に入力し、各オーディオフレームのクラス間混同測度指数を計算するステップと、
前記深度特徴と前記中心ベクトルを中心損失関数に入力し、各オーディオフレームのクラス内距離ペナルティ指数を計算するステップと、
前記クラス間混同測度指数と前記クラス内距離ペナルティ指数を融合演算して、融合損失を取得するステップと、を含むことを特徴とする請求項７に記載の方法。
前記ターゲット損失関数に基づいて、前記音声分離強化モデル、前記ロバスト特徴付けモデル、及び前記音声認識モデルを共同でトレーニングする前記ステップは、
前記ターゲット損失関数によって生成されるグローバル下降勾配を決定するステップと、
前記音声分離強化モデル、前記ロバスト特徴付けモデル、及び前記音声認識モデルのそれぞれに対応するモデルパラメータを、前記ターゲット損失関数の最小化損失値が得られるまで、前記グローバル下降勾配に基づいて繰り返して更新するステップと、を含むことを特徴とする請求項１に記載の方法。
音声認識装置であって、
音声分離強化モデルの第１の損失関数と音声認識モデルの第２の損失関数を取得し、前記第２の損失関数に基づいてバックプロパゲーションを実行して、前記音声分離強化モデルと前記音声認識モデルの間にブリッジされた中間モデルをトレーニングし、ロバスト特徴付けモデルを取得するための中間特徴付け学習モジュールと、
前記第１の損失関数と前記第２の損失関数を融合して、ターゲット損失関数を取得するための損失融合モジュールと、
前記ターゲット損失関数に基づいて、前記音声分離強化モデル、前記ロバスト特徴付けモデル、及び前記音声認識モデルを共同でトレーニングし、予め設定された収束条件を満たすと、トレーニングを終了するための共同トレーニングモジュールと、を含み、
前記ターゲット損失関数は、Ｌ＝Ｌ _ＣＬ＋λ _ＳＳＬ _ＭＳＥによって取得され、ここで、Ｌがターゲット損失関数であり、Ｌ _ＭＳＥが音声分離強化モデルの第１の損失関数であり、Ｌ _ＣＬが音声認識モデルの第２の損失関数であり、λ _ＳＳが重み係数である、ことを特徴とする音声認識装置。
コンピュータによって実行されるとき、前記コンピュータに請求項１から９のいずれか一項に記載の方法のステップを実行させるコンピュータプログラム。
メモリとプロセッサーを含むコンピュータデバイスであって、前記メモリは、コンピュータ可読命令を記憶しており、前記コンピュータ可読命令が前記プロセッサーによって実行されるとき、前記プロセッサーに請求項１から９のいずれか一項に記載の方法のステップを実行させるコンピュータデバイス。