JP7355776B2

JP7355776B2 - 音声認識方法、音声認識装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム

Info

Publication number: JP7355776B2
Application number: JP2021047570A
Authority: JP
Inventors: リ、シン; フアン、ビン; チャン、ツー; バイ、ジンフェン; ジア、レイ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-07-20
Filing date: 2021-03-22
Publication date: 2023-10-03
Anticipated expiration: 2041-03-22
Also published as: CN111862987B; JP2022017171A; EP3859732A3; KR20220011065A; CN111862987A; US20210233518A1; EP3859732A2; US11735168B2

Description

本願の実施例は、コンピュータの技術分野、具体的には音声および深層学習の技術分野、特に音声認識方法、音声認識装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラムに関する。

音声認識とは、音声信号をテキストに変換する技術を指す。近年、音声技術の発展に伴い、音声認識の精度が大幅に向上している。現在、音声認識技術は、スマートホーム、車載音声、スマートオフィスなどのシナリオで広く使用されている。音声認識の精度は、関連製品の使用体験に直接影響する。

現在、音声認識技術は、高信号対雑音比のシナリオではうまく機能するが、低信号対雑音比のシナリオでは不安定になることが多い。遠方界音声認識は、典型的な低信号対雑音比のシナリオである。遠方界環境では、目標音源がピックアップから遠く離れているため、目標信号が大幅に減衰する。また、環境に雑音が多く、干渉信号が多いため、信号対雑音比が低くなり、音声認識の精度が低下する。

音声認識方法、音声認識装置、電子デバイス、および記憶媒体が提供される。

第一様態によれば、音声認識方法が提供される。この方法は、目標音声を事前に訓練された音声認識モデルに入力し、少なくとも１つの処理層がプリセット方向間隔における音声サンプルを訓練することによって取得される複数のプリセット処理層を含む音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得するステップと、初期テキストに基づいて目標音声の音声認識結果を決定するステップと、を含む。

第二様態によれば、音声認識モデル訓練方法が提供される。この方法は、訓練用の音声サンプルがプリセット方向間隔における音声サンプルを含む訓練サンプルを取得するステップと、訓練用の音声サンプルを音声認識モデルに入力し、複数のプリセット処理層を含む音声認識モデル内の少なくとも１つの認識ネットワークから出力される初期テキストを取得するステップと、初期テキストに基づいて音声認識モデルを訓練して、訓練された音声認識モデルを取得するステップと、を含む。

第三様態によれば、音声認識装置が提供される。この装置は、目標音声を事前に訓練された音声認識モデルに入力し、少なくとも１つの処理層がプリセット方向間隔における音声サンプルを訓練することによって取得される複数のプリセット処理層を含む音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得するように構成される予測ユニットと、初期テキストに基づいて目標音声の音声認識結果を決定するように構成される決定ユニットと、を含む。

第四様態によれば、音声認識モデル訓練装置が提供される。この装置は、訓練用の音声サンプルがプリセット方向間隔における音声サンプルを含む訓練サンプルを取得するように構成される取得ユニットと、訓練用の音声サンプルを音声認識モデルに入力し、複数のプリセット処理層を含む音声認識モデル内の少なくとも１つの認識ネットワークから出力される初期テキストを取得するように構成される入力ユニットと、初期テキストに基づいて音声認識モデルを訓練して、訓練された音声認識モデルを取得するように構成される訓練ユニットと、を含む。

第五態様によれば、電子デバイスが提供される。この電子デバイスは、１つまたは複数のプロセッサと、１つまたは複数のプログラムを記憶するための記憶装置と、を含み、１つまたは複数のプログラムが１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサが、音声認識方法または音声認識モデル訓練方法などの実施例のいずれか一つの方法を実施する。

第六態様によれば、コンピュータプログラムを記憶するコンピュータ可読記憶媒体が提供される。このプログラムが、プロセッサによって実行されると、音声認識方法または音声認識モデル訓練方法などの実施例のいずれか一つの方法を実施する。

第七態様によれば、コンピュータプログラムが提供される。このコンピュータプログラムが、プロセッサによって実行されると、音声認識方法または音声認識モデル訓練方法などの実施例のいずれか一つの方法を実施する。

本願の解決案で使用される音声認識モデルによれば、各認識ネットワークの処理層の少なくとも一部は、プリセット方向間隔における音声を訓練することによって取得されるため、プリセット方向間隔における音声の認識精度を向上させることができる。

本願の他の特徴、目的および利点は、以下の図面で行われる非限定的な実施例についての詳細な説明からより明らかになるであろう。

本願のいくつかの実施例が適用され得る例示的なシステムアーキテクチャ図である。本開示に係る音声認識方法の一実施例のフローチャートである。本願に係る音声認識方法の第一音声認識モデルによる音声認識のフローチャートである。本願に係る音声認識方法の第二音声認識モデルによる音声認識のフローチャートである。本願に係る音声認識方法の第三音声認識モデルによる音声認識のフローチャートである。本願に係る音声認識モデル訓練方法の一実施例のフローチャートである。本願に係る音声認識方法の第三音声認識モデルの第一訓練段階に使用されるネットワーク構造の概略図である。本願に係る音声認識方法の第三音声認識モデルの第二訓練段階に使用されるネットワーク構造の概略図である。本開示に係る音声認識装置の一実施例の構造概略図である。本願の実施例に係る画像認識方法を実施するための電子デバイスのブロック図である。

本願の例示的な実施例は、理解を容易にするための本願の実施例の様々な詳細を含む図面と併せて以下に説明され、単なる例示と見なされるべきである。従って、本願の範囲および精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更および修正を行うことができることは、当業者にとって理解されるであろう。同様に、明瞭性と簡潔性の観点から、公知の機能と構造に関する説明は、以下の説明において省略される。

なお、本願の実施例および実施例の特徴は、矛盾しない限り、互いに組み合わせることができる。以下、図面および実施例を参照して本願を詳細に説明する。

図１は、本願に係る音声認識方法または音声認識装置の実施例が適用され得る例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４、およびサーバ１０５を含み得る。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間の通信リンクを提供するために使用される媒体である。ネットワーク１０４は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含み得る。

ユーザは、端末装置１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５と対話し、メッセージなどを送受信することができる。端末装置１０１、１０２、１０３には、音声認識アプリケーション、ライブブロードキャストアプリケーション、インスタントメッセージツール、電子メールクライアント、ソーシャルプラットフォームソフトウェアなどの様々な通信クライアントアプリケーションがインストールされ得る。

ここでの端末装置１０１、１０２、１０３は、ハードウェアであり得るか、またはソフトウェアであり得る。端末装置１０１、１０２、１０３がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、電子書籍リーダ、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、表示画面を備えた様々な電子デバイスであり得る。端末装置１０１、１０２、１０３がソフトウェアである場合、それらは、上記に挙げた電子デバイスにインストールされ得る。それは、複数のソフトウェアまたはソフトウェアモジュール（例えば、分散サービスを提供するための複数のソフトウェアまたはソフトウェアモジュール）として実装され得るか、または単一のソフトウェアまたはソフトウェアモジュールとして実装され得る。ここでは特に限定されない。

サーバ１０５は、端末装置１０１、１０２、１０３へのサポートを提供するバックグラウンドサーバなど、様々なサービスを提供するサーバであり得る。バックグラウンドサーバは、受信した目標音声などのデータに対して分析などの処理を行い、処理結果（例えば、音声認識結果）を端末装置にフィードバックすることができる。

なお、本願の実施例によって提供される音声認識方法がサーバ１０５または端末装置１０１、１０２、１０３によって実行され得るため、音声認識装置は、サーバ１０５または端末装置１０１、１０２、１０３に設置され得る。

図１中の端末装置、ネットワーク、およびサーバの数は、単なる例示であることを理解されたい。実際のニーズに応じて、端末装置、ネットワーク、およびサーバの数が任意に設定され得る。

さらに図２を参照すると、図２は、本願に係る音声認識方法の一実施例のプロセス２００を示す。この音声認識方法は、以下のステップを含む。

ステップ２０１で、目標音声を事前に訓練された音声認識モデルに入力し、少なくとも１つの処理層がプリセット方向間隔における音声サンプルを訓練することによって取得される複数のプリセット処理層を含む音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得する。

本実施例では、音声認識方法を実行する実行主体（例えば、図１に示すサーバまたは端末装置）は、目標音声を事前に訓練された音声認識モデルに入力し、音声認識モデルにおける少なくとも１つの認識ネットワークを使用して音声認識を実行し、この少なくとも１つの認識ネットワークの各認識ネットワークから出力されるテキストを取得し、このテキストを初期テキストとして決定することができる。実際には、認識ネットワークの複数の処理層には異なる処理層が存在し得る。例えば、その１つの処理層は、複素畳み込み層などの少なくとも１つの畳み込み層であり得、他の処理層は、複素バイアス層などのバイアス層であり得る。なお、本願での複数とは、少なくとも２つを指す。

認識ネットワークは、複数のプリセット処理層を含み得る。実際には、上記複数の処理層は、それぞれ、複素畳み込み層（ＣｏｍｐｌｅｘＣｏｎｖ２ｄ）、複素バイアス層（ＣｏｍｐｌｅｘＢｉａｓ）、複素線形変換層（ＣｏｍｐｌｅｘＬｉｎｅａｒ）、複素数から実数への変換層、低フレームレート特徴抽出層（例えば、モバイル端末用に設計されたネットワーク構造ＭｏｂｉｌｅＮｅｔ）、長期短期記憶（ＬＳＴＭ）ネットワーク層、およびストリーミングマルチレイヤー切り捨てアテンション（ＳｔｒｅａｍｉｎｇＭｕｌｔｉ－ＬａｙｅｒＴｒｕｎｃａｔｅｄＡｔｔｅｎｔｉｏｎ、ＳＭＬＴＡ）層であり得る。任意選択的に、複素畳み込み層の前に、フーリエ変換層も含まれ得る。ここでの各処理層は、１つまたは少なくとも２つの処理層を含み得る。

上記方向間隔は、到着方向（ＤｉｒｅｃｔｉｏｎＯｆＡｒｒｉｖａｌ、ＤＯＡ）間隔である。実際には、方向間隔は、１つの方向間隔であり得る。また、プリセット方向間隔は、複数の方向間隔であり得る。例えば、音声認識モデルにおける少なくとも１つの認識ネットワークの数が複数である場合、この複数の認識ネットワークの各認識ネットワークは、同じ方向間隔における音声を訓練することによって取得され得る。この複数の認識ネットワークにおける任意の２つの認識ネットワークに対応する方向間隔は異なり得る。ここでの到着方向とは、音源の方向を指すことができる。

ステップ２０２で、初期テキストに基づいて目標音声の音声認識結果を決定する。

本実施例では、上記実行主体は、少なくとも１つの認識ネットワークの各認識ネットワークから出力される初期テキストに基づいて、目標音声の音声認識結果を決定することができる。ここでの音声認識結果は、目標音声に対応するテキストである。実際には、このテキストは、目標音声に対応する実テキストとまったく同じである場合もあれば、実テキストから逸脱している場合もある。

具体的には、この音声認識結果は音声認識モデルによって取得されるものであり得る。即ち、この音声認識結果は音声認識モデルの出力である。また、この音声認識結果は音声認識モデルによって取得されるものではない。例えば、音声認識モデルの予測結果は初期テキストであり得、上記実行主体は、初期テキストに基づいて音声認識結果を決定することができる。

実際には、上記実行主体は、様々な方法を用いて、目標音声の音声認識結果を決定することができる。例えば、上記実行主体は、初期テキストをプリセット式またはプリセットモデルに入力し、このプリセット式またはこのプリセットモデルから出力される音声認識結果を取得することができる。

本願の上記実施例によって提供される方法で使用される音声認識モデルについては、各認識ネットワークの処理層の少なくとも一部は、プリセット方向間隔における音声を訓練することによって取得されるため、プリセット方向間隔における音声の認識精度を向上させることができる。

本実施例のいくつかの代替的な実施形態では、音声認識モデルが第一音声認識モデルである場合、少なくとも１つの認識ネットワークは１つの認識ネットワークである。

これらの代替的な実施形態では、上記音声認識モデルが第一音声認識モデルである場合、上記少なくとも１つの認識ネットワークにおける認識ネットワークの数は１つであり得る。この認識ネットワークの各処理層は、１つのプリセット方向間隔における音声サンプルに基づいて訓練され得る。これらの実施形態では、１つのプリセット方向間隔における音声の正確な認識を実現することができる。

これらの実施形態のいくつかの代替的な適用シナリオでは、ステップ２０１は、目標音声を事前に訓練された第一音声認識モデルに入力し、フーリエ変換ネットワークを使用して目標音声に対してフーリエ変換を実行し、変換された音声を取得するステップと、１つの認識ネットワークを使用して、変換された音声に対応するテキストを予測し、初期テキストを取得するステップと、を含み得る。ステップ２０２は、初期テキストを目標音声の音声認識結果として決定するステップを含み得る。

これらの代替的な適用シナリオでは、上記実行主体は、音声認識モデルに含まれる１つの認識ネットワークを使用して、目標音声に対応するテキストを予測する、即ち、目標音声に対して音声認識を実行して、この認識ネットワークによって予測されるテキストを取得することができる。上記実行主体は、フーリエ変換（例えば、高速フーリエ変換ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ、ＦＦＴ）ネットワークを使用して、目標音声に対してフーリエ変換を実行することができる。また、上記実行主体は、認識ネットワークによって予測されたテキストを初期テキストとして決定することができる。その後、上記実行主体は、初期テキストを目標音声の音声認識結果として直接決定することができる。

これらの実施形態では、プリセット方向間隔における音声に基づいて訓練される認識ネットワークを使用して、音声認識を実行することができるため、この方向間隔における音声の認識精度を大幅に向上させることができる。

さらに図３ａを参照すると、図３ａは、単一の認識ネットワークの第一音声認識モデルを使用して目標音声に対して音声認識を実行するプロセスを示す。

本実施例のいくつかの代替的な実施形態では、音声認識モデルが第二音声認識モデルである場合、少なくとも１つの認識ネットワークは、複数のプリセット方向間隔にそれぞれ対応する複数の認識ネットワークである。

これらの代替的な実施形態では、音声認識モデルが第二音声認識モデルである場合、上記少なくとも１つの認識ネットワークにおける認識ネットワークの数は複数であり得る。上記複数の認識ネットワークはそれぞれ複数のプリセット方向間隔に対応する。即ち、複数の認識ネットワークでは、任意の２つの認識ネットワークに対応する方向間隔が異なる。実際には、複数の方向間隔に含まれる方向は、全方向、即ち３６０°であり得る。例えば、全方向が３６０°を含み、各方向間隔が１２０°を含む場合、上記複数の方向間隔は、３つの方向間隔を含み得る。各方向間隔が３６°を含む場合、上記複数の方向間隔は、１０個の方向間隔を含み得る。各方向間隔が３０°を含む場合、上記複数の方向間隔は、１２個の方向間隔を含み得る。

これらの実施形態では、認識ネットワークは、複数のプリセット到着方向間隔における音声を正確に認識することができる。

これらの実施形態のいくつかの代替的な適用シナリオでは、第二音声認識モデルは、フーリエ変換ネットワークをさらに含む。上記ステップ２０１は、目標音声を事前に訓練された第二音声認識モデルに入力し、フーリエ変換ネットワークを使用して目標音声に対してフーリエ変換を実行し、変換された音声を取得するステップと、変換された音声を複数の認識ネットワークの各認識ネットワークに入力し、各認識ネットワークから出力される初期テキストを取得するステップと、を含み得る。

これらの代替的な適用シナリオでは、上記実行主体は、最初に第二音声認識ネットワークのフーリエ変換ネットワークを使用して目標音声に対してフーリエ変換を実行し、変換された音声を取得することができる。変換された音声を認識ネットワークの各認識ネットワークに入力し、各認識ネットワークから出力される初期テキストを取得する。

これらの適用シナリオでは、複数の認識ネットワークを使用して、複数のプリセット到着方向間隔における音声を正確に認識することができる。

これらの実施形態のいくつかの代替的な適用シナリオでは、第二音声認識モデルは、方向間隔決定モジュールをさらに含み得る。ステップ２０１において目標音声を事前に訓練された音声認識モデルに入力した後、上記方法は、数が少なくとも１つである各認識ネットワークから出力される各初期テキストの信頼度を取得するステップをさらに含み得る。ステップ２０２は、方向間隔決定モジュールを使用して、複数の認識ネットワークにそれぞれ対応する各方向間隔に目標音声のサブ音声が存在する確率を決定するステップと、各初期テキストについて、各認識ネットワークに対応する各確率をこの認識ネットワークから出力されるこの初期テキストの信頼度の重みとして決定し、複数の認識ネットワークから出力されるこの初期テキストの信頼度を重み付けするステップと、重み付け結果が最大の対応する初期テキストを音声認識結果として決定するステップと、を含み得る。

これらの代替的な適用シナリオでは、上記実行主体は、認識結果融合モデルを使用して、各方向間隔に目標音声のサブ音声が存在する信頼度を決定することができる。ここでの各到着方向は、複数の認識ネットワークの各認識ネットワークに対応する。上記実行主体は、認識結果融合モデルによって各認識ネットワークに対応する方向間隔に出力される、この方向間隔にサブ音声が存在する確率を、この認識ネットワークから出力されるこの初期テキストの信頼度の重みとして決定し、各認識ネットワークから出力されるこの初期テキストの信頼度を重み付けすることができる。複数の初期テキストのうち、重み付け結果が最大の初期テキストを音声認識結果として決定する。

この適用シナリオでは、各認識ネットワークがこの認識ネットワークに対応する方向間隔における音声を正確に認識できるため、上記実行主体は、特定の方向間隔に音声が存在する場合、この方向間隔に対応する認識ネットワークから出力される初期テキストの信頼度に大きな重みを付けて、音声認識結果の精度を向上させることができる。

これらの実施形態のいくつかの代替的な適用シナリオでは、第二音声認識モデルは、フーリエ変換ネットワークをさらに含む。目標音声を事前に訓練された音声認識モデルに入力し、音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得するステップは、目標音声を事前に訓練された第二音声認識モデルに入力し、フーリエ変換ネットワークを使用して目標音声に対してフーリエ変換を実行し、変換された音声を取得するステップを含む。方向間隔決定モジュールを使用して、複数の認識ネットワークにそれぞれ対応する各方向間隔に目標音声のサブ音声が存在する確率を決定するステップは、変換された音声を方向間隔決定モジュールに入力し、方向間隔決定モジュールに基づいて、プリセット方向間隔決定技術を採用して、複数の認識ネットワークにそれぞれ対応する各方向間隔に目標音声のサブ音声が存在する確率を決定するステップを含む。前記プリセット方向間隔決定技術は、到着方向推定アルゴリズム、または音声到着方向間隔を予測するために使用される事前に訓練されたディープニューラルネットワークを含む。

これらの適用シナリオでは、上記実行主体は、変換された音声を方向間隔決定モジュールに入力することにより、このモジュールを使用してプリセット方向間隔決定技術を採用することができる。実際には、到着方向推定アルゴリズムは、一般化相関関数の到着方向推定アルゴリズムであり得る。ディープニューラルネットワークは、畳み込みニューラルネットワークまたは残差ニューラルネットワークなどの様々なネットワークであり得る。

これらの適用シナリオでは、プリセット方向間隔決定技術を採用して変換された音声を処理できるため、方向間隔の決定精度を向上させることができる。

さらに図３ｂを参照すると、図３ｂは、複数の認識ネットワークを含む第二音声認識モデルを使用して目標音声に対して音声認識を実行するプロセスを示す。

本願は、音声認識方法の別の実施例をさらに提供する。この実施例では、音声認識モデルが第三音声認識モデルである場合、認識ネットワークは全方向性ネットワークおよび複数の指向性ネットワークを含み、指向性ネットワークのいずれか１つと全方向性ネットワークの両方は複数のプリセット処理層を含み、複数の指向性ネットワークはそれぞれ複数のプリセット方向間隔に対応する。

本実施例では、上記音声認識モデルが第三音声認識モデルである場合、認識ネットワークは全方向性ネットワークおよび指向性ネットワークを含み得る。指向性ネットワークの数は複数であり得る。各指向性ネットワークは、上記複数の方向間隔のいずれか１つに対応できる。任意の２つの指向性ネットワークは、異なる方向間隔に対応する。全方向性ネットワークの出力は、指向性ネットワークの入力として決定され得る。

本実施例では、認識ネットワークを２段階ネットワークに分割できるため、全方向性ネットワーク段階において、全方向性ネットワーク内で入力音声のパラメータを共有し、指向性ネットワークを使用して異なる方向間隔における音声の認識精度を向上させることができる。全方向性ネットワークは、パラメータを共有することにより、記憶空間を圧縮し、コンピューティングリソースを節約する役割を果たす。

本実施例のいくつかの代替的な実施形態では、第三音声認識モデルは、フーリエ変換ネットワークをさらに含む。目標音声を事前に訓練された音声認識モデルに入力し、音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得するステップは、目標音声を事前に訓練された第三音声認識モデルに入力し、フーリエ変換ネットワークを使用して目標音声に対してフーリエ変換を実行し、変換された音声を取得するステップと、変換された音声を全方向性ネットワークに入力し、全方向性ネットワークから出力される音声特徴を取得するステップと、音声特徴を複数の指向性ネットワークの各指向性ネットワークに入力し、各指向性ネットワークから出力される初期テキストを取得するステップと、を含む。

これらの代替的な実施形態では、上記実行主体は、フーリエ変換ネットワークおよび全方向性ネットワークを使用して目標音声の音声特徴を取得し、各指向性ネットワークを使用して音声特徴の処理を続行し、目標音声に対応する初期テキストを取得することができる。

実際には、全方向性ネットワークは、複素畳み込み層、複素バイアス層、複素線形変換層、複素数から実数への変換層、低フレームレート特徴抽出層、および長期短期記憶ネットワーク層を含み得る。指向性ネットワークは、長期短期記憶ネットワーク層およびストリーミングマルチレイヤー切り捨てアテンション層を含み得る。

これらの実施形態では、入力音声のパラメータを共有し、異なる方向間隔における音声の認識精度を向上させることができる。

本実施例のいくつかの代替的な実施形態では、第三音声認識モデルは、方向間隔決定モジュールをさらに含む。目標音声を事前に訓練された音声認識モデルに入力した後、上記方法は、各指向性ネットワークから出力される各初期テキストの信頼度を取得するステップをさらに含み得る。初期テキストに基づいて目標音声の音声認識結果を決定するステップは、方向間隔決定モジュールを使用して、複数の指向性ネットワークにそれぞれ対応する各方向間隔に目標音声のサブ音声が存在する確率を決定するステップと、各初期テキストについて、各指向性ネットワークに対応する確率をこの指向性ネットワークから出力されるこの初期テキストの信頼度の重みとして決定し、複数の指向性ネットワークから出力されるこの初期テキストの信頼度を重み付けするステップと、重み付け結果が最大の対応する初期テキストを音声認識結果として決定するステップと、を含む。

これらの代替的な実施形態では、上記実行主体は、方向間隔決定モジュールを使用して、各指向性ネットワークから出力される初期テキストの信頼度を重み付けすることができる。特定の方向間隔にサブ音声が存在する場合、この方向間隔に対応する指向性ネットワークから出力される初期テキストの信頼度に大きな重みを付けて、音声認識結果の精度を向上させることができる。

本実施例のいくつかの代替的な実施形態では、第三音声認識モデルは、フーリエ変換ネットワークをさらに含む。目標音声を事前に訓練された音声認識モデルに入力し、音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得するステップは、目標音声を事前に訓練された第三音声認識モデルに入力し、フーリエ変換ネットワークを使用して目標音声に対してフーリエ変換を実行し、変換された音声を取得するステップと、変換された音声を全方向性ネットワークに入力し、全方向性ネットワークの複素線形変換層から出力される処理済みの音声特徴を取得するステップと、を含む。方向間隔決定モジュールを使用して、複数の指向性ネットワークにそれぞれ対応する各方向間隔に目標音声のサブ音声が存在する確率を決定するステップは、処理済みの音声特徴を方向間隔決定モジュールに入力し、方向間隔決定モジュールに基づいて、プリセット方向間隔決定技術を採用して、複数の認識ネットワークにそれぞれ対応する各方向間隔に目標音声のサブ音声が存在する確率を決定するステップを含む。前記プリセット方向間隔決定技術は、到着方向推定アルゴリズム、または音声到着方向間隔を予測するために使用される事前に訓練されたディープニューラルネットワークを含む。

これらの実施形態では、上記実行主体は、全方向性ネットワークの複素線形変換層から出力される特徴を使用して、この特徴を処理済みの音声特徴として決定することができる。その後、上記実行主体は、方向間隔決定モジュールを使用して上記処理済みの音声特徴を処理し、各方向間隔に目標音声のサブ音声が存在する確率を決定することができる。

これらの実施形態では、処理済みの音声特徴は、目標音声の特徴を完全に抽出することによって取得されるため、方向間隔決定モジュールがより正確な到着方向を決定するのに役立つ。

さらに図３ｃを参照すると、図３ｃは、第三音声認識モデルを使用して目標音声に対して音声認識を実行するプロセスを示す。

さらに図４ａを参照すると、図４ａは、音声認識モデル訓練方法の一実施例のプロセス４００を示す。このプロセス４００は、以下のステップを含み得る。

ステップ４０１で、訓練用の音声サンプルがプリセット方向間隔における音声サンプルを含む訓練サンプルを取得する。

本実施例では、音声認識モデル訓練方法を実行する実行主体（例えば、図１に示すサーバまたは端末装置）は、訓練サンプルを取得することができる。訓練サンプルは、プリセット方向間隔における音声サンプルを含み得る訓練用の音声サンプルを含む。この訓練用の音声サンプルがこのプリセット方向間隔における音声サンプル以外の他の音声サンプルをさらに含む場合、このプリセット方向間隔における音声サンプルとこの他の音声サンプルの両方は上記訓練用の音声サンプルにおけるサブ音声であり得る。

ステップ４０２で、訓練用の音声サンプルを訓練対象となる音声認識モデルに入力し、複数のプリセット処理層を含む音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得する。

本実施例では、上記実行主体は、上記訓練用の音声サンプルを音声認識ネットワークに入力し、音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得することができる。

実際には、認識ネットワークの複数の処理層には異なる処理層が存在し得る。例えば、その１つの処理層は、複素畳み込み層などの少なくとも１つの畳み込み層であり得、他の処理層は、複素バイアス層などのバイアス層であり得る。なお、本願での複数とは、少なくとも２つを指す。

ステップ４０３で、初期テキストに基づいて音声認識モデルを訓練して、訓練された音声認識モデルを取得する。

本実施例では、上記実行主体は、初期テキストに基づいて音声認識モデルを訓練して、訓練された音声認識モデルを取得することができる。実際には、上記実行主体は、様々な方法を用いて、初期テキストに基づいて音声認識モデルを訓練することができる。例えば、上記実行主体は、初期テキストを音声認識モデルのプリセットモデルに入力し、このプリセットモデルから出力される結果を取得し、この結果を音声認識結果として決定することができる。その後、上記実行主体は、この音声認識結果および訓練サンプルの実テキストをこの音声認識結果の損失値として決定し、この損失値を使用して音声認識モデルにおいて逆方向伝搬を実行することにより、訓練を実現して、訓練された音声認識モデルを取得することができる。具体的には、訓練サンプルは、音声サンプルに対応するラベル情報（ｌａｂｅｌ）、即ち、この音声サンプルに対応する実テキストをさらに含み得る。

これらの実施形態のいくつかの代替的な適用シナリオでは、第一音声認識モデルは、フーリエ変換ネットワークをさらに含む。ステップ４０１は、１つのプリセット方向間隔における第一音声サンプルを含む第一訓練サンプルを取得するステップを含み得る。ステップ４０２は、第一音声サンプルを第一音声認識モデルに入力し、フーリエ変換ネットワークを使用して第一音声サンプルに対してフーリエ変換を実行し、変換されたサンプルを取得するステップと、変換されたサンプルを１つの認識ネットワークの１つの認識ネットワークに入力し、第一音声サンプルに対応するテキストを予測するための初期テキストを取得するステップと、を含み得る。

これらの代替的な適用シナリオでは、上記実行主体は、上記１つの認識ネットワークを使用して、第一音声サンプルに対応する初期テキストを決定することができる。上記実行主体は、フーリエ変換（例えば、高速フーリエ変換ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ、ＦＦＴ）ネットワークを使用して、目標音声に対してフーリエ変換を実行することができる。また、上記実行主体は、認識ネットワークによって予測されたテキストを初期テキストとして決定することができる。

これらの適用シナリオでは、訓練中の第一音声認識モデルの順方向伝搬プロセスを実現することができる。

これらの実施形態のいくつかの代替的な適用シナリオでは、ステップ４０３は、初期テキストを音声認識結果として決定し、音声認識結果の損失値を決定し、この損失値を使用して第一音声認識モデルにおいて逆方向伝搬を実行し、第一音声認識モデル内のパラメータを更新し、訓練された第一音声認識モデルを取得するステップを含み得る。

これらの代替的な適用シナリオでは、上記実行主体は、音声認識結果としてのこの初期テキストに基づいて、第一損失値を決定することができる。具体的には、第一訓練サンプルなどの訓練サンプルは、第一音声サンプルに対応するラベル情報（ｌａｂｅｌ）、即ち、この第一音声サンプルに対応する実テキストをさらに含み得る。上記実行主体は、この音声認識結果、実テキスト、およびプリセット損失関数を使用して、この音声認識結果の損失値を決定し、この損失値を第一損失値として決定することができる。具体的には、上記実行主体は、この音声認識結果に対応するベクトルおよび実テキストに対応するベクトルを、上記プリセット損失関数に代入して、この第一損失値を取得することができる。

その後、上記実行主体は、この第一損失値を使用して第一音声認識モデルにおいて逆方向伝搬を実行し、第一音声認識モデル内のパラメータを更新することができる。パラメータ更新後の第一音声認識モデルは、訓練された第一音声認識モデルである。実際には、上記実行主体は、この第一損失値を使用して上記認識ネットワークにおいて逆方向伝搬を実行し、この認識ネットワーク内のパラメータを更新し、訓練された第一音声認識モデルを取得することができる。

これらの代替的な適用シナリオでは、１つの方向間隔に制限された音声サンプルを使用して訓練を実行することができるため、訓練された音声認識モデルがこの方向間隔における音声を認識する精度を向上させるのに役立つ。

これらの実施形態のいくつかの代替的な適用シナリオでは、第二音声認識モデルは、フーリエ変換ネットワークをさらに含む。ステップ４０１は、各方向間隔における第二音声サンプルを含む複数の方向間隔の一つの方向間隔における第二音声サンプルを含む複数の第二訓練サンプルを取得するステップを含み得る。ステップ４０２は、第二音声サンプルをフーリエ変換ネットワークに入力し、変換されたサンプルを取得するステップと、複数の認識ネットワークの各認識ネットワークについて、第二音声サンプルがこの認識ネットワークに対応する方向間隔に存在する場合、変換されたサンプルをこの認識ネットワークに入力し、この認識ネットワークから出力され、第二音声サンプルを予測するために使用される初期テキストを取得するステップと、を含み得る。

これらの代替的な適用シナリオでは、上記実行主体は、フーリエ変換ネットワークを使用して各第二音声サンプルに対してフーリエ変換を実行し、変換されたサンプルを取得することができる。各認識ネットワークについて、この第二音声サンプルがこの認識ネットワークに対応する方向間隔に存在する場合、この認識ネットワークを使用して変換されたこのサンプルを処理することができる。即ち、上記実行主体は、異なる方向間隔における第二音声サンプルを取得することができる。

これらの適用シナリオでは、訓練中の第二音声認識モデルの順方向伝搬プロセスを実現することができる。

これらの実施形態のいくつかの代替的な適用シナリオでは、ステップ４０３は、各認識ネットワークに対応する初期テキストについて、この初期テキストの損失値を決定し、この損失値を使用してこの認識ネットワークにおいて逆方向伝搬を実行し、この認識ネットワーク内のパラメータを更新するステップと、複数の認識ネットワーク内のパラメータを更新した第二音声認識モデルを、訓練された第二音声認識モデルとして決定するステップと、を含み得る。

これらの代替的な適用シナリオでは、上記実行主体は、第二音声サンプルなど、異なる方向間隔における音声サンプルを使用して、各認識ネットワークを個別に訓練することができる。第二訓練サンプルなどの訓練サンプルは、この第二音声サンプルに対応する実テキストを含み得る。上記実行主体は、各認識ネットワークについて、この認識ネットワークから出力される初期テキスト、実テキスト、およびプリセット損失関数を使用して、この初期テキストの損失値を決定し、この損失値を使用してこの認識ネットワークにおいて逆方向伝搬を実行することができる。このように、上記実行主体は、複数の認識ネットワークにおいて逆方向伝搬を実行し、複数の認識ネットワーク内のパラメータを更新することができる。

これらの適用シナリオでは、訓練中の第二音声認識モデルの逆方向伝搬プロセスを実現することができる。

本実施例のいくつかの代替的な実施形態では、音声認識モデルが第三音声認識モデルである場合、認識ネットワークは全方向性ネットワークおよび複数の指向性ネットワークを含み、指向性ネットワークのいずれか１つと全方向性ネットワークの両方は複数のプリセット処理層を含み、複数の指向性ネットワークはそれぞれ複数のプリセット方向間隔に対応する。

これらの実施形態のいくつかの代替的な適用シナリオでは、第三音声認識モデルの訓練用ネットワーク構造は音声指向層を含む。ステップ４０１は、複数の方向間隔における第三音声サンプルを含む訓練サンプルを取得するステップを含み得る。ステップ４０２は、少なくとも１つの方向間隔におけるサブ音声を含む第三音声サンプルをフーリエ変換ネットワークに入力し、第三変換済みサンプルを取得するステップと、第三変換済みサンプルを全方向性ネットワークに入力し、全方向性ネットワークから出力される音声特徴を取得するステップと、音声指向層を使用して、この音声特徴のうち、複数の方向間隔のいずれか１つの方向間隔におけるサブ音声に対応するサブ音声特徴を決定し、いずれか１つの方向間隔に対応する指向性ネットワークを、このサブ音声特徴が入力されるべき指向性ネットワークとして決定するステップと、このサブ音声特徴を入力されるべき指向性ネットワークに入力し、入力されるべき指向性ネットワークから出力され、第三音声サンプルを予測するために使用される初期テキストを取得するステップと、を含み得る。

これらの代替的な適用シナリオでは、上記実行主体は、音声指向層を使用して、複数の指向性ネットワークにおいて全方向性ネットワークから出力される音声特徴のサブ音声特徴が入力されるべき指向性ネットワークとして決定し、サブ音声特徴が存在する方向間隔に応じてサブ音声特徴を割り当てることができるため、各指向性ネットワークが特定の方向間隔における音声の特徴を学習できるようにする。実際には、音声指向層は、目標音声のサブ音声の方向情報を取得できるため、上記割り当てプロセスを実現することができる。実際には、サブ音声の方向は音源の方向である。訓練段階において、方向情報は、シミュレーションモジュールによって生成され得る。

これらの適用シナリオでは、訓練中の第三音声認識モデルの順方向伝搬プロセスを実現することができる。具体的には、これらの適用シナリオでは、音声指向層を使用してサブ音声特徴が入力されるべき指向性ネットワークを決定し、特定の方向間隔における音声を使用して指向性ネットワークを訓練することにより、指向性ネットワークが特定の方向間隔における音声を認識する精度を向上させることができる。

これらの実施形態のいくつかの代替的な適用シナリオでは、ステップ４０３は、各指向性ネットワークに対応する初期テキストについて、この初期テキストの損失値を決定し、この損失値を使用して第三音声認識モデルにおいて逆方向伝搬を実行し、第三音声認識モデル内のパラメータを更新するステップを含み得る。

これらの代替的な適用シナリオでは、これらの実施形態における、フーリエ変換ネットワーク、全方向性ネットワーク、および指向性ネットワークを使用して第三音声認識モデル内のパラメータを更新するプロセスは、第三音声認識モデルを訓練するプロセス全体であり得るか、または第一訓練段階であり得る。

これらの適用シナリオでは、訓練中の第三音声認識モデルの逆方向伝搬プロセスを実現することができる。

図４ｂに示すように、図４ｂは、第三音声認識モデルの第一訓練段階に使用されるネットワーク構造を示す。

これらの適用シナリオのいくつかの代替的な場合では、第三音声認識モデルは、方向間隔決定モジュールをさらに含む。これらの適用シナリオにおける、この損失値を使用して第三音声認識モデルにおいて逆方向伝搬を実行し、第三音声認識モデル内のパラメータを更新するステップは、各指向性ネットワークについて、この指向性ネットワークによって取得された損失値を使用して、この指向性ネットワークにおいて逆方向伝搬を実行し、逆方向伝搬結果を取得するステップと、方向間隔決定モジュールを使用して、複数の指向性ネットワークに対応する逆方向伝搬結果をマージし、伝搬結果セットを取得するステップと、マージされた伝搬結果セットを使用して全方向性ネットワークにおいて逆方向伝搬を実行し、全方向性ネットワーク内のパラメータ、および複数の指向性ネットワーク内のパラメータを更新するステップと、を含み得る。

これらの代替的な場合、上記実行主体は、方向間隔決定モジュールを使用して、各指向性ネットワークの逆方向伝搬結果をマージし、これらの伝搬結果セットを取得することができる。伝搬結果セットを使用して全方向性ネットワークにおいて逆方向伝搬を実行し、全方向性ネットワーク内のパラメータに各方向間隔における音声からの影響を受けさせることにより、各方向間隔における音声の特徴を正確に抽出し、指向性ネットワーク内のパラメータに１つのみの方向間隔における音声からの影響を受けさせ、特定の方向間隔における音声の特徴を正確に抽出することができる。

これらの実施形態のいくつかの代替的な適用シナリオでは、第三音声認識モデルは、方向間隔決定モジュールをさらに含む。サブ音声特徴を入力されるべき指向性ネットワークに入力した後、上記方法は、各指向性ネットワークから出力される各初期テキストの信頼度を取得するステップをさらに含む。上記方法は、方向間隔決定モジュールを使用して、複数の指向性ネットワークにそれぞれ対応する各方向間隔に第三音声サンプルのサブ音声が存在する確率を決定するステップと、各指向性ネットワークに対応する確率をこの指向性ネットワークから出力される初期テキストの信頼度の重みとして決定し、複数の指向性ネットワークから出力される各初期テキストの信頼度を重み付けするステップと、重み付け結果が最大の対応する初期テキストを音声認識結果として決定し、この音声認識結果の損失値を決定し、この損失値を使用して第三音声認識モデルに逆方向伝搬を実行し、第三音声認識モデル内のパラメータを更新し、訓練された第三音声認識モデルを取得するステップと、をさらに含む。

これらの代替的な適用シナリオでは、上記実行主体は、第二訓練段階を実行することができる。上記実行主体は、特定の方向間隔にサブ音声が存在する場合、この方向間隔に対応する指向性ネットワークから出力される初期テキストの信頼度に大きな重みを付けて、音声認識結果の精度をさらに向上させることができる。

図４ｃに示すように、図４ｃは、第三音声認識モデルの第二訓練段階に使用されるネットワーク構造を示す。

さらに図５を参照すると、上記の図２および図３に示す方法の実施例として、本願は、音声認識装置の一実施例を提供する。この装置の実施例は、図２に示す方法の実施例に対応する。以下に説明される特徴に加えて、この装置の実施例は、図２に示す方法の実施例と同じまたは対応する特徴または効果をさらに含み得る。この装置は、様々な電子デバイスに特に適用できる。

図５に示すように、本実施例に係る音声認識装置５００は、予測ユニット５０１、および決定ユニット５０２を含む。予測ユニット５０１は、目標音声を事前に訓練された音声認識モデルに入力し、少なくとも１つの処理層がプリセット方向間隔における音声サンプルを訓練することによって取得される複数のプリセット処理層を含む音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得するように構成される。決定ユニット５０２は、初期テキストに基づいて目標音声の音声認識結果を決定するように構成される。

本実施例では、音声認識装置５００の予測ユニット５０１および決定ユニット５０２の具体的な処理とその技術的効果については、それぞれ図２に対応する実施例のステップ２０１およびステップ２０２の関連説明を参照されたいが、ここでは繰り返さない。

本実施例のいくつかの代替的な実施形態では、第一音声認識モデルは、フーリエ変換ネットワークをさらに含む。予測ユニットは、目標音声を事前に訓練された第一音声認識モデルに入力し、フーリエ変換ネットワークを使用して目標音声に対してフーリエ変換を実行し、変換された音声を取得するステップと、１つの認識ネットワークを使用して、変換された音声に対応するテキストを予測し、初期テキストを取得するステップと、によって、目標音声を事前に訓練された音声認識モデルに入力し、音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得するステップを実行するようにさらに構成される。決定ユニットは、初期テキストを目標音声の音声認識結果として決定するステップによって、初期テキストに基づいて目標音声の音声認識結果を決定するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、第二音声認識モデルは、フーリエ変換ネットワークをさらに含む。予測ユニットは、目標音声を事前に訓練された第二音声認識モデルに入力し、フーリエ変換ネットワークを使用して目標音声に対してフーリエ変換を実行し、変換された音声を取得するステップと、変換された音声を複数の認識ネットワークの各認識ネットワークに入力し、各認識ネットワークから出力される初期テキストを取得するステップと、によって、目標音声を事前に訓練された音声認識モデルに入力し、音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、第二音声認識モデルは、方向間隔決定モジュールをさらに含む。上記装置は、目標音声を事前に訓練された音声認識モデルに入力した後、各認識ネットワークから出力される各初期テキストの信頼度を取得するように構成される出力ユニットをさらに含む。決定ユニットは、方向間隔決定モジュールを使用して、複数の認識ネットワークにそれぞれ対応する各方向間隔に目標音声のサブ音声が存在する確率を決定するステップと、各初期テキストについて、各認識ネットワークに対応する各確率をこの認識ネットワークから出力されるこの初期テキストの信頼度の重みとして決定し、複数の認識ネットワークから出力されるこの初期テキストの信頼度を重み付けするステップと、重み付け結果が最大の対応する初期テキストを音声認識結果として決定するステップと、によって、初期テキストに基づいて目標音声の音声認識結果を決定するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、第二音声認識モデルは、フーリエ変換ネットワークをさらに含む。予測ユニットは、目標音声を事前に訓練された第二音声認識モデルに入力し、フーリエ変換ネットワークを使用して目標音声に対してフーリエ変換を実行し、変換された音声を取得するステップによって、目標音声を事前に訓練された音声認識モデルに入力し、音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得するステップを実行するようにさらに構成される。決定ユニットは、変換された音声を方向間隔決定モジュールに入力し、方向間隔決定モジュールに基づいて、プリセット方向間隔決定技術を採用して、複数の認識ネットワークにそれぞれ対応する各方向間隔に目標音声のサブ音声が存在する確率を決定するステップによって、方向間隔決定モジュールを使用して、複数の認識ネットワークにそれぞれ対応する各方向間隔に目標音声のサブ音声が存在する確率を決定するステップを実行するようにさらに構成される。前記プリセット方向間隔決定技術は、到着方向推定アルゴリズム、または音声到着方向間隔を予測するために使用される事前に訓練されたディープニューラルネットワークを含む。

本実施例のいくつかの代替的な実施形態では、第三音声認識モデルは、フーリエ変換ネットワークをさらに含む。予測ユニットは、目標音声を事前に訓練された第三音声認識モデルに入力し、フーリエ変換ネットワークを使用して目標音声に対してフーリエ変換を実行し、変換された音声を取得するステップと、変換された音声を全方向性ネットワークに入力し、全方向性ネットワークから出力される音声特徴を取得するステップと、音声特徴を複数の指向性ネットワークの各指向性ネットワークに入力し、各指向性ネットワークから出力される初期テキストを取得するステップと、によって、目標音声を事前に訓練された音声認識モデルに入力し、音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、第三音声認識モデルは、方向間隔決定モジュールをさらに含む。上記装置は、目標音声を事前に訓練された音声認識モデルに入力した後、各指向性ネットワークから出力される各初期テキストの信頼度を取得するように構成される実行ユニットをさらに含む。決定ユニットは、方向間隔決定モジュールを使用して、複数の指向性ネットワークにそれぞれ対応する各方向間隔に目標音声のサブ音声が存在する確率を決定するステップと、各初期テキストについて、各指向性ネットワークに対応する確率をこの指向性ネットワークから出力されるこの初期テキストの信頼度の重みとして決定し、複数の指向性ネットワークから出力されるこの初期テキストの信頼度を重み付けするステップと、重み付け結果が最大の対応する初期テキストを音声認識結果として決定するステップと、によって、初期テキストに基づいて目標音声の音声認識結果を決定するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、第三音声認識モデルは、フーリエ変換ネットワークをさらに含む。予測ユニットは、目標音声を事前に訓練された第三音声認識モデルに入力し、フーリエ変換ネットワークを使用して目標音声に対してフーリエ変換を実行し、変換された音声を取得するステップと、変換された音声を全方向性ネットワークに入力し、全方向性ネットワークの複素線形変換層から出力される処理済みの音声特徴を取得するステップと、によって、目標音声を事前に訓練された音声認識モデルに入力し、音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得するステップを実行するようにさらに構成される。方向間隔決定モジュールを使用して、複数の指向性ネットワークにそれぞれ対応する各方向間隔に目標音声のサブ音声が存在する確率を決定するステップは、処理済みの音声特徴を方向間隔決定モジュールに入力し、方向間隔決定モジュールに基づいて、プリセット方向間隔決定技術を採用して、複数の認識ネットワークにそれぞれ対応する各方向間隔に目標音声のサブ音声が存在する確率を決定するステップを含む。前記プリセット方向間隔決定技術は、到着方向推定アルゴリズム、または音声到着方向間隔を予測するために使用される事前に訓練されたディープニューラルネットワークを含む。

上記の図４ａに示す方法の実施例として、本願は、音声認識モデル訓練装置の一実施例を提供する。この装置の実施例は、図４ａに示す方法の実施例に対応する。以下に説明される特徴に加えて、この装置の実施例は、図４ａに示す方法の実施例と同じまたは対応する特徴または効果をさらに含み得る。この装置は、様々な電子デバイスに特に適用できる。

本実施例の音声認識モデル訓練装置は、取得ユニット、入力ユニット、および訓練ユニットを含む。取得ユニットは、訓練用の音声サンプルがプリセット方向間隔における音声サンプルを含む訓練サンプルを取得するように構成される。入力ユニットは、訓練用の音声サンプルを訓練対象となる音声認識モデルに入力し、複数のプリセット処理層を含む音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得するように構成される。訓練ユニットは、初期テキストに基づいて音声認識モデルを訓練して、訓練された音声認識モデルを取得するように構成される。

本実施例では、音声認識モデル訓練装置の取得ユニット、入力ユニット、および訓練ユニットの具体的な処理とその技術的効果については、それぞれ図４ａに対応する実施例のステップ４０１、ステップ４０２、およびステップ４０３の関連説明を参照されたいが、ここでは繰り返さない。

本実施例のいくつかの代替的な実施形態では、第一音声認識モデルは、フーリエ変換ネットワークをさらに含む。取得ユニットは、１つのプリセット方向間隔における第一音声サンプルを含む第一訓練サンプルを取得するステップによって、訓練サンプルを取得するステップを実行するようにさらに構成される。入力ユニットは、第一音声サンプルを第一音声認識モデルに入力し、フーリエ変換ネットワークを使用して第一音声サンプルに対してフーリエ変換を実行し、変換されたサンプルを取得するステップと、変換されたサンプルを１つの認識ネットワークの１つの認識ネットワークに入力し、第一音声サンプルに対応するテキストを予測するための初期テキストを取得するステップと、によって、訓練用の音声サンプルを音声認識モデルに入力し、音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、訓練ユニットは、初期テキストを音声認識結果として決定し、音声認識結果の損失値を決定し、この損失値を使用して第一音声認識モデルにおいて逆方向伝搬を実行し、第一音声認識モデル内のパラメータを更新し、訓練された第一音声認識モデルを取得するステップによって、初期テキストに基づいて音声認識モデルを訓練して、訓練された音声認識モデルを取得するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、第二音声認識モデルは、フーリエ変換ネットワークをさらに含む。取得ユニットは、各方向間隔における第二音声サンプルを含む複数の方向間隔の一つの方向間隔における第二音声サンプルを含む複数の第二訓練サンプルを取得するステップによって、訓練サンプルを取得するステップを実行するようにさらに構成される。入力ユニットは、第二音声サンプルをフーリエ変換ネットワークに入力し、変換されたサンプルを取得するステップと、複数の認識ネットワークの各認識ネットワークについて、第二音声サンプルがこの認識ネットワークに対応する方向間隔に存在する場合、変換されたサンプルをこの認識ネットワークに入力し、この認識ネットワークから出力され、第二音声サンプルを予測するために使用される初期テキストを取得するステップと、によって、訓練用の音声サンプルを音声認識モデルに入力し、音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、訓練ユニットは、各認識ネットワークに対応する初期テキストについて、この初期テキストの損失値を決定し、この損失値を使用してこの認識ネットワークにおいて逆方向伝搬を実行し、この認識ネットワーク内のパラメータを更新するステップと、複数の認識ネットワーク内のパラメータを更新した第二音声認識モデルを、訓練された第二音声認識モデルとして決定するステップと、によって、初期テキストに基づいて音声認識モデルを訓練して、訓練された音声認識モデルを取得するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、第三音声認識モデルの訓練用ネットワーク構造は音声指向層を含む。取得ユニットは、複数の方向間隔における第三音声サンプルの訓練サンプルを取得するステップによって、訓練サンプルを取得するステップを実行するようにさらに構成される。入力ユニットは、少なくとも１つの方向間隔におけるサブ音声を含む第三音声サンプルをフーリエ変換ネットワークに入力し、第三変換済みサンプルを取得するステップと、第三変換済みサンプルを全方向性ネットワークに入力し、全方向性ネットワークから出力される音声特徴を取得するステップと、音声指向層を使用して、この音声特徴のうち、複数の方向間隔のいずれか１つの方向間隔におけるサブ音声に対応するサブ音声特徴を決定し、いずれか１つの方向間隔に対応する指向性ネットワークを、このサブ音声特徴が入力されるべき指向性ネットワークとして決定するステップと、このサブ音声特徴を入力されるべき指向性ネットワークに入力し、入力されるべき指向性ネットワークから出力され、第三音声サンプルを予測するために使用される初期テキストを取得するステップと、によって、訓練用の音声サンプルを音声認識モデルに入力し、音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、訓練ユニットは、各指向性ネットワークに対応する初期テキストについて、この初期テキストの損失値を決定し、この損失値を使用して第三音声認識モデルにおいて逆方向伝搬を実行し、第三音声認識モデル内のパラメータを更新するステップによって、初期テキストに基づいて音声認識モデルを訓練して、訓練された音声認識モデルを取得するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、第三音声認識モデルは、方向間隔決定モジュールをさらに含む。訓練ユニットは、各指向性ネットワークについて、この指向性ネットワークによって取得された損失値を使用して、この指向性ネットワークにおいて逆方向伝搬を実行し、逆方向伝搬結果を取得するステップと、方向間隔決定モジュールを使用して、複数の指向性ネットワークに対応する逆方向伝搬結果をマージし、伝搬結果セットを取得するステップと、マージされた伝搬結果セットを使用して全方向性ネットワークにおいて逆方向伝搬を実行し、全方向性ネットワーク内のパラメータ、および複数の指向性ネットワーク内のパラメータを更新するステップと、によって、この損失値を使用して第三音声認識モデルにおいて逆方向伝搬を実行し、第三音声認識モデル内のパラメータを更新するステップを実行するようにさらに構成される。

本実施例のいくつかの代替的な実施形態では、第三音声認識モデルは、方向間隔決定モジュールをさらに含む。上記装置は、サブ音声特徴を入力されるべき音声認識モデルに入力した後、各指向性ネットワークから出力される各初期テキストの信頼度を取得するように構成される実行ユニットをさらに含む。上記装置は、方向間隔決定モジュールを使用して、複数の指向性ネットワークにそれぞれ対応する各方向間隔に第三音声サンプルのサブ音声が存在する確率を決定するように構成される確率決定ユニットと、各指向性ネットワークに対応する確率をこの指向性ネットワークから出力される初期テキストの信頼度の重みとして決定し、複数の指向性ネットワークから出力される各初期テキストの信頼度を重み付けするように構成される重み付けユニットと、重み付け結果が最大の対応する初期テキストを音声認識結果として決定し、この音声認識結果の損失値を決定し、この損失値を使用して第三音声認識モデルに逆方向伝搬を実行し、第三音声認識モデル内のパラメータを更新し、訓練された第三音声認識モデルを取得するように構成される伝搬ユニットと、をさらに含む。

本願の実施例によれば、本願は、電子デバイスおよび可読記憶媒体をさらに提供する。

図６に示すように、図６は、本願の実施例に係る音声認識方法を実施するための電子デバイスのブロック図であり、音声認識モデル訓練方法を実施するための電子デバイスのブロック図でもある。音声認識方法を実施するための電子デバイスのブロック図を例に挙げて、以下に説明する。

電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子デバイスは、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、およびその他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続と関係、およびそれらの機能は単なる例示であり、本明細書に説明および／または請求される本願の実施形態を限定することを意図したものではない。

図６に示すように、この電子デバイスは、１つまたは複数のプロセッサ６０１と、メモリ６０２と、高速インターフェースおよび低速インターフェースを含む様々なコンポーネントを接続するためのインターフェースとを含む。様々なコンポーネントは、異なるバスを介して互いに接続されており、パブリックマザーボードに取り付けられ得るか、または必要に応じて他の方法で取り付けられ得る。プロセッサは、ＧＵＩのグラフィック情報が外部入力／出力装置（例えば、インターフェースに結合された表示装置）に表示されるようにメモリ内またはメモリ上に記憶される命令を含む、電子デバイスで実行された命令を処理することができる。他の実施形態では、複数のプロセッサおよび／または複数本のバスは、必要に応じて、複数のメモリと共に使用され得る。同様に、それは、（例えば、サーバアレイ、ブレードサーバ群、またはマルチプロセッサシステムとして）いくつかの必要な操作を提供する複数の電子デバイスに接続され得る。図６には、プロセッサ６０１が例として挙げられる。

メモリ６０２は、本願によって提供される非一時的コンピュータ可読記憶媒体である。メモリには、少なくとも１つのプロセッサが本願によって提供される音声認識方法を実行できるように、少なくとも１つのプロセッサによって実行され得る命令が記憶されている。本願の非一時的コンピュータ可読記憶媒体には、本願によって実行され得る音声認識方法をコンピュータに実行させるために使用されるコンピュータ命令が記憶されている。

非一時的コンピュータ可読記憶媒体として、メモリ６０２は、非一時的ソフトウェアプログラムと、非一時的コンピュータ実行可能プログラムと、本願の実施例における音声認識方法に対応するプログラム命令／モジュール（例えば、図５に示す予測モジュール５０１、および決定モジュール５０２）などのモジュールと、を記憶するために使用され得る。プロセッサ６０１は、メモリ６０２に記憶された非一時的ソフトウェアプログラム、命令、およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行する、即ち、上記方法の実施例における音声認識方法を実施する。

メモリ６０２は、オペレーティングシステムおよび少なくとも１つの機能に必要なアプリケーションプログラムが記憶され得るプログラム記憶領域と、音声認識用の電子デバイスによって作成されたデータなどが記憶され得るデータ記憶領域とを含み得る。さらに、メモリ６０２は、高速ランダムアクセスメモリを含み得、また、少なくとも１つの磁気ディスクメモリ、フラッシュメモリ、または他の非一時的ソリッドステートメモリなどの非一時的メモリを含み得る。いくつかの実施例では、メモリ６０２は、任意選択で、プロセッサ６０１に対して遠隔的に設定されたメモリを含み得、これらの遠隔メモリは、ネットワークを介して、音声認識用の電子デバイスに接続され得る。上記ネットワークの例には、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせが含まれるが、これらに限定されない。

音声認識方法を実施するための電子デバイスは、入力装置６０３および出力装置６０４をさらに含み得る。プロセッサ６０１、メモリ６０２、入力装置６０３、および出力装置６０４は、バスまたは他の手段によって接続され得るが、図６にはバスによる接続が例として挙げられる。

入力装置６０３は、入力された数字または文字情報を受信し、音声認識用の電子デバイスのユーザ設定および機能制御に関連するキー信号入力を生成することができるもの、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置６０４は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含み得る。この表示装置は、液晶ディスプレイ（ＬＤＣ）、発光ダイオード（ＬＥＤ）ディスプレイ、およびプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置は、タッチスクリーンであり得る。

本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実装され得る。これらの様々な実施形態は、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信したり、この記憶システム、この少なくとも１つの入力装置、およびこの少なくとも１つの出力装置にデータおよび命令を送信したりすることができる専用又は汎用のプログラマブルプロセッサであり得る少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行および／または解釈され得る１つまたは複数のコンピュータプログラムに実装されることを含み得る。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高水準手続き型またはオブジェクト指向型のプログラミング言語、および／またはアセンブリ／機械言語で実装され得る。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受信する機械可読媒体を含む、機械命令および／またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとの対話を提供するために、本明細書に記載のシステムおよび技術は、情報をユーザに表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザが入力をコンピュータに提供することを可能にするキーボードとポインティングデバイス（例えば、マウスまたはトラックボール）とを備えたコンピュータに実装され得る。他のタイプの装置は、ユーザとの対話を提供するためにも使用されており、例えば、任意の形態の感覚フィードバック（例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバック）をユーザに提供したり、任意の形態（音響入力、音声入力、および触覚入力を含む形態）を使用してユーザからの入力を受信したりするために使用され得る。

本明細書に記載のシステムおよび技術は、バックエンドコンポーネント（例えば、データサーバ）を含むコンピュータシステム、ミドルウェアコンポーネント（例えば、アプリケーションサーバ）を含むコンピュータシステム、フロントエンドコンポーネント（例えば、ユーザが本明細書に記載のシステムおよび技術の実施形態と対話することを可能にするグラフィカルユーザインターフェースまたはウェブブラウザを備えたユーザコンピュータ）を含むコンピュータシステム、または、これらバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントの任意の組み合わせを含むコンピュータシステムに実装され得る。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体（例えば、通信ネットワーク）を介して互いに接続され得る。通信ネットワークの例には、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、およびインターネットが含まれる。

コンピュータシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは通常、互いに遠く離れており、通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータで実行され、クライアント－サーバの関係を有するコンピュータプログラムによって生成される。サーバは、従来の物理ホストおよびＶＰＳサーバ（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、または単に「ＶＰＳ」）における、管理の難しさが高く、サービスの拡張性が低いという欠点を解決するためのクラウドコンピューティングサービスシステムのホスト製品であるクラウドコンピューティングサーバまたはクラウドホストとも呼ばれるクラウドサーバであり得る。

図面中のフローチャートおよびブロック図は、本願の様々な実施例に係るシステム、方法、およびコンピュータプログラム製品の実装可能なアーキテクチャ、機能、および動作を示す。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実施するための１つまたは複数の実行可能な命令を含む、モジュール、プログラムセグメントまたはコードの一部を表すことができる。また、いくつかの代替的な実施形態では、ブロックに示された機能は、図面に示された順序と異なって発生し得る。例えば、連続して示される２つのブロックは、実際には実質的に並行して実行され得るか、または関連機能によっては逆の順序で実行され得る。また、ブロック図および／またはフローチャートの各ブロック、およびブロック図および／またはフローチャートのブロックの組み合わせは、指定された機能または動作を実行する専用のハードウェアベースのシステムによって実装され得るか、または専用ハードウェアとコンピュータ命令との組み合わせによって実装され得る。

本願の実施例に係るユニットは、ソフトウェアによって実装され得るか、またはハードウェアによって実装され得る。上記ユニットはまた、例えば、予測ユニット５０１および決定ユニット５０２を含むプロセッサとして説明され得るプロセッサに設置され得る。これらのユニットの名称は、特定の場合にこのユニット自体を限定するためのものではなく、例えば、決定ユニットはまた、「初期テキストに基づいて目標音声の音声認識結果を決定するユニット」として説明され得る。

別の態様として、本願は、コンピュータ可読媒体をさらに提供する。このコンピュータ可読媒体は、上記実施例に記載の装置に含まれるものであり得るか、またはこの装置に組み込まれることなく、単独で存在するものであり得る。上記コンピュータ可読媒体は、１つまたは複数のプログラムを搭載したものである。上記１つまたは複数のプログラムがこの装置によって実行されると、この装置は、目標音声を事前に訓練された音声認識モデルに入力し、少なくとも１つの処理層がプリセット方向間隔における音声サンプルを訓練することによって取得される複数のプリセット処理層を含む音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得するステップと、初期テキストに基づいて目標音声の音声認識結果を決定するステップと、を実行する。

別の態様として、本願は、コンピュータ可読媒体をさらに提供する。このコンピュータ可読媒体は、上記実施例に記載の装置に含まれるものであり得るか、またはこの装置に組み込まれることなく、単独で存在するものであり得る。上記コンピュータ可読媒体は、１つまたは複数のプログラムを搭載したものである。上記１つまたは複数のプログラムがこの装置によって実行されると、この装置は、訓練用の音声サンプルがプリセット方向間隔における音声サンプルを含む訓練サンプルを取得するステップと、訓練用の音声サンプルを訓練対象となる音声認識モデルに入力し、複数のプリセット処理層を含む音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得するステップと、初期テキストに基づいて音声認識モデルを訓練して、訓練された音声認識モデルを取得するステップと、を実行する。

以上の説明は、本願の好ましい実施例、および使用された技術的原理の説明にすぎない。本願に係る本発明の範囲は、上記技術的特徴の特定の組み合わせからなる技術的解決手段に限定されず、本発明の概念から逸脱することなく上記技術的特徴またはその同等の特徴の任意の組み合わせからなる他の技術的解決手段に含まれることが当業者にとって理解されるであろう。例えば、それは、上記特徴と、本願において開示される（これらに限定されない）同様の機能を有する技術的特徴とを置き換えることによって形成される技術的解決手段であり得る。

Claims

目標音声を事前に訓練された音声認識モデルに入力し、少なくとも１つの処理層がプリセット方向間隔における音声サンプルを訓練することによって取得される複数のプリセット処理層を含む前記音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得するステップと、
前記初期テキストに基づいて前記目標音声の音声認識結果を決定するステップと、を含み、
前記音声認識モデルが第三音声認識モデルである場合、前記認識ネットワークは全方向性ネットワークおよび複数の指向性ネットワークを含み、前記指向性ネットワークのいずれか１つと前記全方向性ネットワークの両方は複数のプリセット処理層を含み、前記複数の指向性ネットワークはそれぞれ複数のプリセット方向間隔に対応する
音声認識方法。
前記第三音声認識モデルは、フーリエ変換ネットワークをさらに含み、
目標音声を事前に訓練された音声認識モデルに入力し、前記音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得する前記ステップは、
目標音声を事前に訓練された第三音声認識モデルに入力し、前記フーリエ変換ネットワークを使用して前記目標音声に対してフーリエ変換を実行し、変換された音声を取得するステップと、
変換された前記音声を前記全方向性ネットワークに入力し、前記全方向性ネットワークから出力される音声特徴を取得するステップと、
前記音声特徴を前記複数の指向性ネットワークの各指向性ネットワークに入力し、各指向性ネットワークから出力される初期テキストを取得するステップと、を含む、
請求項１に記載の音声認識方法。
前記第三音声認識モデルは、方向間隔決定モジュールをさらに含み、
目標音声を事前に訓練された音声認識モデルに入力した後、前記音声認識方法は、
各指向性ネットワークから出力される各初期テキストの信頼性を取得するステップをさらに含み、
前記初期テキストに基づいて前記目標音声の音声認識結果を決定するステップは、
方向間隔決定モジュールを使用して、前記複数の指向性ネットワークにそれぞれ対応する各方向間隔に前記目標音声のサブ音声が存在する確率を決定するステップと、
各初期テキストについて、各指向性ネットワークに対応する確率をこの指向性ネットワークから出力されるこの初期テキストの信頼度の重みとして決定し、前記複数の指向性ネットワークから出力されるこの初期テキストの信頼度を重み付けするステップと、
重み付け結果が最大の対応する初期テキストを音声認識結果として決定するステップと、を含む、
請求項１または２に記載の音声認識方法。
前記第三音声認識モデルは、フーリエ変換ネットワークをさらに含み、
目標音声を事前に訓練された音声認識モデルに入力し、前記音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得する前記ステップは、
目標音声を事前に訓練された第三音声認識モデルに入力し、前記フーリエ変換ネットワークを使用して前記目標音声に対してフーリエ変換を実行し、変換された音声を取得するステップと、
変換された前記音声を前記全方向性ネットワークに入力し、前記全方向性ネットワークの複素線形変換層から出力される処理済みの音声特徴を取得するステップと、を含み、
方向間隔決定モジュールを使用して、前記複数の指向性ネットワークにそれぞれ対応する各方向間隔に前記目標音声のサブ音声が存在する確率を決定する前記ステップは、
前記処理済みの音声特徴を前記方向間隔決定モジュールに入力し、前記方向間隔決定モジュールに基づいて、プリセット方向間隔決定技術を採用して、複数の前記認識ネットワークにそれぞれ対応する各方向間隔に前記目標音声のサブ音声が存在する確率を決定するステップを含み、
前記プリセット方向間隔決定技術は、到着方向推定アルゴリズム、または音声到着方向間隔を予測するために使用される事前に訓練されたディープニューラルネットワークを含む、
請求項３に記載の音声認識方法。
訓練用の音声サンプルがプリセット方向間隔における音声サンプルを含む訓練サンプルを取得するステップと、
前記訓練用の音声サンプルを訓練対象となる音声認識モデルに入力し、複数のプリセット処理層を含む前記音声認識モデル内の少なくとも１つの認識ネットワークから出力される初期テキストを取得するステップと、
前記初期テキストに基づいて前記音声認識モデルを訓練して、訓練された音声認識モデルを取得するステップと、を含み、
前記音声認識モデルが第三音声認識モデルである場合、前記認識ネットワークは全方向性ネットワークおよび複数の指向性ネットワークを含み、前記指向性ネットワークのいずれか１つと前記全方向性ネットワークの両方は複数のプリセット処理層を含み、前記複数の指向性ネットワークはそれぞれ複数のプリセット方向間隔に対応する
音声認識モデル訓練方法。
前記第三音声認識モデルの訓練用ネットワーク構造は、音声指向層を含み、
訓練サンプルを取得する前記ステップは、
複数の方向間隔における第三音声サンプルの訓練サンプルを取得するステップを含み、
前記訓練用の音声サンプルを前記音声認識モデルに入力し、前記音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得する前記ステップは、
少なくとも１つの方向間隔におけるサブ音声を含む前記第三音声サンプルをフーリエ変換ネットワークに入力し、第三変換済みサンプルを取得するステップと、
前記第三変換済みサンプルを前記全方向性ネットワークに入力し、前記全方向性ネットワークから出力される音声特徴を取得するステップと、前記音声指向層を使用して、この音声特徴において前記複数の方向間隔の任意の方向間隔におけるサブ音声に対応するサブ音声特徴を決定し、任意の方向間隔に対応する指向性ネットワークを、このサブ音声特徴が入力されるべき指向性ネットワークとして決定するステップと、
前記サブ音声特徴を入力されるべき前記指向性ネットワークに入力し、入力されるべき前記指向性ネットワークから出力され、前記第三音声サンプルを予測するために使用される初期テキストを取得するステップと、を含む、
請求項５に記載の音声認識モデル訓練方法。
前記初期テキストに基づいて前記音声認識モデルを訓練して、訓練された音声認識モデルを取得するステップは、
各指向性ネットワークに対応する初期テキストについて、この初期テキストの損失値を決定し、この損失値を使用して前記第三音声認識モデルにおいて逆方向伝搬を実行し、前記第三音声認識モデル内のパラメータを更新するステップを含む、
請求項５に記載の音声認識モデル訓練方法。
前記第三音声認識モデルは、方向間隔決定モジュールをさらに含み、
この損失値を使用して前記第三音声認識モデルにおいて逆方向伝搬を実行し、前記第三音声認識モデル内のパラメータを更新する前記ステップは、
各指向性ネットワークについて、この指向性ネットワークによって取得された損失値を使用して、この指向性ネットワークにおいて逆方向伝搬を実行し、逆方向伝搬結果を取得するステップと、
方向間隔決定モジュールを使用して、複数の指向性ネットワークに対応する逆方向伝搬結果をマージし、伝搬結果セットを取得するステップと、
マージされた伝搬結果セットを使用して、前記全方向性ネットワークにおいて逆方向伝搬を実行し、前記全方向性ネットワーク内のパラメータ、および前記複数の指向性ネットワーク内のパラメータを更新するステップと、を含む、
請求項７に記載の音声認識モデル訓練方法。
第三音声認識モデルは、方向間隔決定モジュールをさらに含み、
前記サブ音声特徴を入力されるべき前記指向性ネットワークに入力した後、前記音声認識モデル訓練方法は、
各指向性ネットワークから出力される各初期テキストの信頼性を取得するステップをさらに含み、
前記音声認識モデル訓練方法は、
前記方向間隔決定モジュールを使用して、前記複数の指向性ネットワークにそれぞれ対応する各方向間隔に前記第三音声サンプルのサブ音声が存在する確率を決定するステップと、
各指向性ネットワークに対応する確率をこの指向性ネットワークから出力される初期テキストの信頼度の重みとして決定し、前記複数の指向性ネットワークから出力される各初期テキストの信頼度を重み付けするステップと、
重み付け結果が最大の対応する初期テキストを音声認識結果として決定し、この音声認識結果の損失値を決定し、この損失値を使用して前記第三音声認識モデルにおいて逆方向伝搬を実行し、前記第三音声認識モデル内のパラメータを更新し、訓練された第三音声認識モデルを取得するステップと、をさらに含む、
請求項６に記載の音声認識モデル訓練方法。
目標音声を事前に訓練された音声認識モデルに入力し、少なくとも１つの処理層がプリセット方向間隔における音声サンプルを訓練することによって取得される複数のプリセット処理層を含む前記音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得するように構成される予測ユニットと、
前記初期テキストに基づいて前記目標音声の音声認識結果を決定するように構成される決定ユニットと、を含み、
前記音声認識モデルが第三音声認識モデルである場合、前記認識ネットワークは全方向性ネットワークおよび複数の指向性ネットワークを含み、前記指向性ネットワークのいずれか１つと前記全方向性ネットワークの両方は複数のプリセット処理層を含み、前記複数の指向性ネットワークはそれぞれ複数のプリセット方向間隔に対応する
音声認識装置。
第三音声認識モデルは、フーリエ変換ネットワークをさらに含み、
目標音声を事前に訓練された第三音声認識モデルに入力し、前記フーリエ変換ネットワークを使用して前記目標音声に対してフーリエ変換を実行し、変換された音声を取得するステップと、
変換された前記音声を前記全方向性ネットワークに入力し、前記全方向性ネットワークから出力される音声特徴を取得するステップと、
前記音声特徴を前記複数の指向性ネットワークの各指向性ネットワークに入力し、各指向性ネットワークから出力される初期テキストを取得するステップと、によって、
前記予測ユニットは、目標音声を事前に訓練された音声認識モデルに入力し、前記音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得する前記ステップを実行するようにさらに構成される、
請求項１０に記載の音声認識装置。
第三音声認識モデルは、方向間隔決定モジュールをさらに含み、
前記音声認識装置は、
目標音声を事前に訓練された音声認識モデルに入力した後、各指向性ネットワークから出力される各初期テキストの信頼度を取得するように構成される実行ユニットをさらに含み、
方向間隔決定モジュールを使用して、前記複数の指向性ネットワークにそれぞれ対応する各方向間隔に前記目標音声のサブ音声が存在する確率を決定するステップと、
各初期テキストについて、各指向性ネットワークに対応する確率をこの指向性ネットワークから出力されるこの初期テキストの信頼度の重みとして決定し、前記複数の指向性ネットワークから出力されるこの初期テキストの信頼度を重み付けするステップと、
重み付け結果が最大の対応する初期テキストを音声認識結果として決定するステップと、によって、
前記決定ユニットは、前記初期テキストに基づいて前記目標音声の音声認識結果を決定する前記ステップを実行するようにさらに構成される、
請求項１０または１１に記載の音声認識装置。
前記第三音声認識モデルは、フーリエ変換ネットワークをさらに含み、
目標音声を事前に訓練された第三音声認識モデルに入力し、前記フーリエ変換ネットワークを使用して前記目標音声に対してフーリエ変換を実行し、変換された音声を取得するステップと、
変換された前記音声を前記全方向性ネットワークに入力し、前記全方向性ネットワークの複素線形変換層から出力される処理済みの音声特徴を取得するステップと、によって、
前記予測ユニットは、目標音声を事前に訓練された音声認識モデルに入力し、前記音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得する前記ステップを実行するようにさらに構成されており、
方向間隔決定モジュールを使用して、前記複数の指向性ネットワークにそれぞれ対応する各方向間隔に前記目標音声のサブ音声が存在する確率を決定する前記ステップは、
前記処理済みの音声特徴を前記方向間隔決定モジュールに入力し、前記方向間隔決定モジュールに基づいて、プリセット方向間隔決定技術を採用して、複数の前記認識ネットワークにそれぞれ対応する各方向間隔に前記目標音声のサブ音声が存在する確率を決定するステップを含み、
前記プリセット方向間隔決定技術は、到着方向推定アルゴリズム、または音声到着方向間隔を予測するために使用される事前に訓練されたディープニューラルネットワークを含む、
請求項１２に記載の音声認識装置。
訓練用の音声サンプルがプリセット方向間隔における音声サンプルを含む訓練サンプルを取得するように構成される取得ユニットと、
前記訓練用の音声サンプルを訓練対象となる音声認識モデルに入力し、複数のプリセット処理層を含む前記音声認識モデル内の少なくとも１つの認識ネットワークから出力される初期テキストを取得するように構成される入力ユニットと、
前記初期テキストに基づいて前記音声認識モデルを訓練して、訓練された音声認識モデルを取得するように構成される訓練ユニットと、を含み、
前記音声認識モデルが第三音声認識モデルである場合、前記認識ネットワークは全方向性ネットワークおよび複数の指向性ネットワークを含み、前記指向性ネットワークのいずれか１つと前記全方向性ネットワークの両方は複数のプリセット処理層を含み、前記複数の指向性ネットワークはそれぞれ複数のプリセット方向間隔に対応する
音声認識モデル訓練装置。
前記第三音声認識モデルの訓練用ネットワーク構造は、音声指向層を含み、
複数の方向間隔における第三音声サンプルの訓練サンプルを取得するステップによって、
前記取得ユニットは、訓練サンプルを取得する前記ステップを実行するようにさらに構成されており、
少なくとも１つの方向間隔におけるサブ音声を含む前記第三音声サンプルをフーリエ変換ネットワークに入力し、第三変換済みサンプルを取得するステップと、
前記第三変換済みサンプルを前記全方向性ネットワークに入力し、前記全方向性ネットワークから出力される音声特徴を取得するステップと、前記音声指向層を使用して、この音声特徴において前記複数の方向間隔の任意の方向間隔におけるサブ音声に対応するサブ音声特徴を決定し、任意の方向間隔に対応する指向性ネットワークを、このサブ音声特徴が入力されるべき指向性ネットワークとして決定するステップと、
前記サブ音声特徴を入力されるべき前記指向性ネットワークに入力し、入力されるべき前記指向性ネットワークから出力され、前記第三音声サンプルを予測するために使用される初期テキストを取得するステップと、によって、
前記入力ユニットは、前記訓練用の音声サンプルを前記音声認識モデルに入力し、前記音声認識モデルにおける少なくとも１つの認識ネットワークから出力される初期テキストを取得する前記ステップを実行するようにさらに構成される、
請求項１４に記載の音声認識モデル訓練装置。
各指向性ネットワークに対応する初期テキストについて、この初期テキストの損失値を決定し、この損失値を使用して前記第三音声認識モデルにおいて逆方向伝搬を実行し、前記第三音声認識モデル内のパラメータを更新するステップによって、
前記訓練ユニットは、前記初期テキストに基づいて前記音声認識モデルを訓練して、訓練された音声認識モデルを取得する前記ステップを実行するようにさらに構成される、
請求項１４に記載の音声認識モデル訓練装置。
前記第三音声認識モデルは、方向間隔決定モジュールをさらに含み、
各指向性ネットワークについて、この指向性ネットワークによって取得された損失値を使用して、この指向性ネットワークにおいて逆方向伝搬を実行し、逆方向伝搬結果を取得するステップと、
方向間隔決定モジュールを使用して、複数の指向性ネットワークに対応する逆方向伝搬結果をマージし、伝搬結果セットを取得するステップと、
マージされた伝搬結果セットを使用して、前記全方向性ネットワークにおいて逆方向伝搬を実行し、前記全方向性ネットワーク内のパラメータ、および前記複数の指向性ネットワーク内のパラメータを更新するステップと、によって、
前記訓練ユニットは、この損失値を使用して前記第三音声認識モデルにおいて逆方向伝搬を実行し、前記第三音声認識モデル内のパラメータを更新する前記ステップを実行するようにさらに構成される、
請求項１６に記載の音声認識モデル訓練装置。
第三音声認識モデルは、方向間隔決定モジュールをさらに含み、
前記音声認識モデル訓練装置は、
前記サブ音声特徴を入力されるべき前記指向性ネットワークに入力した後、各指向性ネットワークから出力される各初期テキストの信頼度を取得するように構成される実行ユニットをさらに含み、
前記音声認識モデル訓練装置は、
前記方向間隔決定モジュールを使用して、前記複数の指向性ネットワークにそれぞれ対応する各方向間隔に前記第三音声サンプルのサブ音声が存在する確率を決定するように構成される確率決定ユニットと、
各指向性ネットワークに対応する確率をこの指向性ネットワークから出力される初期テキストの信頼度の重みとして決定し、前記複数の指向性ネットワークから出力される各初期テキストの信頼度を重み付けするように構成される重み付けユニットと、
重み付け結果が最大の対応する初期テキストを音声認識結果として決定し、この音声認識結果の損失値を決定し、この損失値を使用して前記第三音声認識モデルにおいて逆方向伝搬を実行し、前記第三音声認識モデル内のパラメータを更新し、訓練された第三音声認識モデルを取得するように構成される伝搬ユニットと、をさらに含む、
請求項１５に記載の音声認識モデル訓練装置。
１つまたは複数のプロセッサと、
１つまたは複数のプログラムを記憶するための記憶装置と、を含み、
１つまたは複数のプログラムが１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサが、請求項１－４のいずれか一項に記載の音声認識方法または請求項５－９のいずれか一項に記載の音声認識モデル訓練方法を実施する、
電子デバイス。
コンピュータプログラムを記憶するコンピュータ可読記憶媒体であって、このコンピュータプログラムが、プロセッサによって実行されると、請求項１－４のいずれか一項に記載の音声認識方法または請求項５－９のいずれか一項に記載の音声認識モデル訓練方法を実施する、コンピュータ可読記憶媒体。
コンピュータプログラムであって、
このコンピュータプログラムが、プロセッサによって実行されると、請求項１－４のいずれか一項に記載の音声認識方法または請求項５－９のいずれか一項に記載の音声認識モデル訓練方法を実施する、コンピュータプログラム。