JP7278477B2

JP7278477B2 - 復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体

Info

Publication number: JP7278477B2
Application number: JP2022517515A
Authority: JP
Inventors: ガオ，ジエンチン; ワン，チグォ; フー，グォピン
Original assignee: アイフライテックカンパニー，リミテッド
Priority date: 2019-10-16
Filing date: 2019-12-12
Publication date: 2023-05-19
Anticipated expiration: 2039-12-12
Also published as: CN110610700B; JP2022548718A; CN110610700A; EP4047597A1; KR102576505B1; EP4047597A4; KR20220062349A; WO2021072955A1; US20220375459A1

Description

相互参照

本出願は、２０１９年１０月１６日に中国特許局へ提出した出願番号２０１９１０９８３１９６．３、発明名称「復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体」である中国特許出願の優先権を主張し、その全ての内容はここで参照として本出願に引用される。

本出願は、音声認識の技術分野に関し、特に復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体に関する。

音声認識は、言語モデルに基づいて実現されており、現在の音声認識解決案の多くは、汎用言語モデルに基づく認識解決案である。汎用言語モデルに基づく認識解決案は、まず汎用言語モデルを汎用復号化ネットワークに変換し、その後に汎用復号化ネットワークを利用して認識対象音声を復号化する。

汎用言語モデルに基づく認識解決案は、汎用語彙を正確に認識することができるが、特定領域の一部の専門語彙については、その専門語彙が発音の近い汎用語彙として認識されやすく、つまり、既存の汎用言語モデルに基づく認識解決案は、特定領域の専門語彙の認識精度が低い。

このため、本出願では、特定領域の専門語彙の認識精度を向上させるための復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体を提供し、その技術案は以下の通りである。

復号化ネットワーク構築方法は、
汎用言語モデル、領域言語モデル、及び前記汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得することと、
前記領域言語モデル及び前記汎用言語モデルに基づいて、領域復号化ネットワークを生成することと、
前記領域復号化ネットワークを前記汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得することとを含む。

選択肢として、前記汎用言語モデル及び前記領域言語モデルに基づいて、領域復号化ネットワークを生成することは、
前記汎用言語モデル及び前記領域言語モデルに対して補間を行い、このうち、補間部分は、前記領域言語モデル及び前記汎用言語モデルのうち、前記領域言語モデルにだけ出現する部分にして補間を行うことと、
補間部分に基づいて前記領域復号化ネットワークを生成することとを含む。

選択肢として、前記領域復号化ネットワークを前記汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得することは、
前記領域復号化ネットワークと前記汎用復号化ネットワークとを直列接続し、対象復号化ネットワークを取得することを含む。

選択肢として、前記領域復号化ネットワークと前記汎用復号化ネットワークとを直列接
続することは、
前記汎用復号化ネットワーク及び前記領域復号化ネットワークのそれぞれに、開始ノードと終了ノードとを含む仮想ノードを追加することと、
前記開始ノード及び前記終了ノードを用いて、前記汎用復号化ネットワークと前記領域復号化ネットワークとを直列接続することとを含む。

選択肢として、前記開始ノード及び前記終了ノードを用いて、前記汎用復号化ネットワークと前記領域復号化ネットワークとを直列接続することは、
前記汎用復号化ネットワークのために作成された終了ノードと、前記領域復号化ネットワークのために作成された開始ノードとを、終了ノードから開始ノードへの方向に沿って有向接続を行うことと、
前記領域復号化ネットワークのために作成された終了ノードと、前記汎用復号化ネットワークのために作成された開始ノードとを、終了ノードから開始ノードへの方向に沿って有向接続を行うこととを含む。

音声認識方法は、
上記のいずれか１項に記載の復号化ネットワーク構築方法により構築された対象復号化ネットワークを用いて認識対象音声データを復号化し、前記認識対象音声データの復号化経路を取得することと、
前記認識対象音声データの復号化経路に基づいて、前記認識対象音声データの音声認識結果を決定することとを含む。

選択肢として、前記認識対象音声データの復号化経路に基づいて、前記認識対象音声データの音声認識結果を決定することは、
予め取得した上位言語モデル及び前記認識対象音声データの復号化経路により、前記認識対象音声データの音声認識結果を決定することを含み、
このうち、前記上位言語モデルは、領域言語モデルを用いて汎用言語モデルに対して補間を行うことで取得される。

選択肢として、前記対象復号化ネットワークを用いて前記認識対象音声データを復号化し、前記認識対象音声データの復号化経路を取得することは、
前記認識対象音声データの各音声フレームを前記対象復号化ネットワークに順次入力して復号化し、前記認識対象音声データに対応する復号化経路を取得することを含み、
このうち、前記認識対象音声データの各音声フレームを、前記対象復号化ネットワークの２つの開始ノードを介して、それぞれ前記対象復号化ネットワークの汎用復号化ネットワーク及び領域復号化ネットワークに入力して復号化し、前記汎用復号化ネットワーク又は前記領域復号化ネットワークの候補復号化経路が終了ノードを含む場合、当該終了ノードから当該終了ノードに接続されている少なくとも１つの開始ノードにスキップし、音声フレームの終了まで前記汎用復号化ネットワーク及び／又は前記領域復号化ネットワークに入力して復号化を継続する。

復号化ネットワーク構築装置は、言語モデル・汎用復号化ネットワーク取得モジュール、領域復号化ネットワーク生成モジュール及び復号化ネットワーク組み込みモジュールを含み、
前記言語モデル・汎用復号化ネットワーク取得モジュールは、汎用言語モデル、領域言語モデル、及び前記汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得する、
前記領域復号化ネットワーク生成モジュールは、前記汎用言語モデル及び前記領域言語モデルに基づいて、領域復号化ネットワークを生成する、
前記復号化ネットワーク組み込みモジュールは、前記領域復号化ネットワークを前記汎
用復号化ネットワークに組み込み、対象復号化ネットワークを取得する。

選択肢として、前記領域復号化ネットワーク生成モジュールは、補間サブモジュール及び領域復号化ネットワーク生成サブモジュールを含み、
前記補間サブモジュールは、前記汎用言語モデル及び前記領域言語モデルに対して補間を行い、このうち、補間部分は、前記領域言語モデル及び前記汎用言語モデルのうち、前記領域言語モデルに出現する部分であり、
前記領域復号化ネットワーク生成サブモジュールは、補間部分に基づいて前記領域復号化ネットワークを生成する。

選択肢として、前記復号化ネットワーク組み込みモジュールは、特に前記領域復号化ネットワークと前記汎用復号化ネットワークとを直列接続し、前記対象復号化ネットワークを取得する。

音声認識装置は、復号化モジュール及び音声認識結果決定モジュールを含み、
前記復号化モジュールは、上記のいずれか１項に記載の復号化ネットワーク構築装置により構築された対象復号化ネットワークを用いて認識対象音声データを復号化し、前記対象復号化ネットワークの復号化経路を取得する、
前記音声認識結果決定モジュールは、前記対象復号化ネットワークの復号化経路に基づいて、前記認識対象音声データの音声認識結果を決定する。

復号化ネットワーク構築設備は、メモリ及びプロセッサを含み、
前記メモリは、プログラムを格納し、
前記プロセッサは、前記プログラムを実行し、上記のいずれか１項に記載の復号化ネットワーク構築方法の各ステップを実現する。

読取可能な記憶媒体は、コンピュータプログラムを格納し、前記コンピュータプログラムがプロセッサによって実行される時に、上記のいずれか１項に記載の復号化ネットワーク構築方法の各ステップを実現する。

音声認識設備は、メモリ及びプロセッサを含み、
前記メモリは、プログラムを格納し、
前記プロセッサは、前記プログラムを実行し、上記のいずれか１項に記載の音声認識方法の各ステップを実現する。

読取可能な記憶媒体は、コンピュータプログラムを格納し、前記コンピュータプログラムがプロセッサによって実行される時に、上記のいずれか１項に記載の音声認識方法の各ステップを実現する。

以上の解決案から分かるように、本出願に係る復号化ネットワーク構築方法は、汎用言語モデル及び領域言語モデルに基づいて領域復号化ネットワークを生成し、領域復号化ネットワークを汎用復号化ネットワークに組み込むことにより、対象復号化ネットワークを取得することができる。本出願に係る復号化ネットワーク構築方法は、汎用復号化ネットワークに領域復号化ネットワークを組み込むことにより、最終的に取得した対象復号化ネットワークは、汎用語彙を正確に認識するだけでなく、特定領域の専門語彙を正確に認識することができ、従来技術における汎用言語モデルに基づく音声認識方法に比べ、特定領域の専門語彙の音声認識精度を著しく向上させ、また、本出願に係る復号化ネットワーク構築方法は、対象復号化ネットワークを比較的速やかに構築することができる。本出願に係る復号化ネットワーク構築方法は、特定領域の専門語彙を正確に認識する対象復号化ネットワークを効率的に構築することができるため、対象復号化ネットワークに基づいて特
定領域の専門語彙を含む音声を認識する際に、より正確な音声認識結果を取得することができる。

図１は本出願の実施例に係る復号化ネットワーク構築方法のフローチャートである。図２は本出願の実施例に係る復号化ネットワーク構築方法において、汎用言語モデル及び領域言語モデルに基づいて、領域復号化ネットワークを生成するフローチャートである。図３は本出願の実施例に係る復号化ネットワーク構築方法において、領域復号化ネットワークと汎用復号化ネットワークとの直列接続を実現するプロセスを示すフローチャートである。図４は本出願の実施例において、領域復号化ネットワークと汎用復号化ネットワークとを直列接続して得られた対象復号化ネットワークの例を示す図である。図５は本出願の実施例に係る音声認識方法のフローチャートである。図６は本出願の実施例に係る復号化ネットワーク構築装置の構造を示す図である。図７は本出願の実施例に係る音声認識装置の構造を示す図である。図８は本出願の実施例に係る復号化ネットワーク構築設備の構造を示す図である。図９は本出願の実施例に係る音声認識設備の構造を示す図である。

以下、本発明の実施例の図面を併せて、本発明の実施例における技術案を明確かつ詳細に説明する。記載された実施例は本発明の実施例の一部に過ぎず、それらのすべてではないことは明らかである。本発明の実施例に基づいて、当業者は、創造的な作業なしに得られたすべての他の実施例は本発明の保護範囲内にある。

本出願は通常、音声認識を行うための音声認識システムに関するものであり、音声認識システムは、ユーザから入力された音声を受信し、復号化ネットワークを用いてユーザから入力された音声をテキストとして認識し、出力することができる。考えられる１つの実施形態において、音声認識システムは、端末装置で実現されてもよい。基本構成では、端末装置は、入力要素（マイク、センサ、タッチスクリーン、キーなど）と出力要素（ディスプレイ、スピーカなど）を備える。端末装置は、音声認識を可能にするための任意の適切なコンピューティングデバイスとしてもよい。例えば、スマートフォン、タブレット、ノートパソコン、パーソナルコンピュータ、スマートウォッチ、ウェアラブルデバイス、テレビ、ゲーム機器などが挙げられる。ユーザは、端末装置の入力要素（マイクなど）を介して音声を入力し、端末装置は、ユーザから入力された音声を、復号化ネットワークを用いて認識し、音声認識結果を取得した後、出力要素を介して出力する。上記の端末装置は、入力要素及び出力要素に加えて、プロセッサ及びメモリを備える。プロセッサ及びメモリは、通信バスを介して相互通信を行う。プロセッサとしては、中央処理装置ＣＰＵ及び／又はグラフィックスプロセッサＧＰＵが挙げられる。またプロセッサとしては、汎用プロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又は他のプログラマブルロジックデバイス、ディスクリートゲート回路又はトランジスタロジックデバイスなどが挙げられる。ここで、汎用プロセッサとしては、マイクロプロセッサ又は任意の従来のプロセッサが挙げられる。メモリは、読み取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）など、揮発性及び／又は不揮発性メモリ形態のコンピュータ記憶媒体を含めてもよい。メモリにはプログラムが格納され、プロセッサはメモリに格納されているプログラムを呼び出すことができる。

考えられる別の実施形態において、音声認識システムは、１つのサーバで実現されてもよい。当該サーバは、ネットワークを通じて端末装置から提供されたデータを受信でき、ネットワークを通じて端末装置にデータを提供することもできる。もちろん、音声認識システムは、複数のサーバで実現されてもよい。同様に、サーバは、ネットワークを通じて端末装置から提供されたデータを受信でき、ネットワークを通じて端末装置にデータを提供することもできる。上記のネットワークとしては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）などが挙げられるが、これらに限らない。音声認識システムは、サーバで実現される場合、端末装置は、ユーザが入力装置で入力された音声を取得し、当該音声をネットワークを通じてサーバに送信し、サーバは、端末装置から受信された音声を、復号化ネットワークを用いて認識し、音声認識結果を取得した後、音声認識結果をネットワークを通じて端末装置まで送信し、端末装置は、出力要素を介して音声認識結果を出力する。上記のサーバは、プロセッサ及びメモリを備えてもよい。プロセッサ及びメモリは、通信バスを介して相互通信を行う。プロセッサとしては、中央処理装置ＣＰＵ及び／又はグラフィックスプロセッサＧＰＵが挙げられる。またプロセッサとしては、汎用プロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又は他のプログラマブルロジックデバイス、ディスクリートゲート回路又はトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなどが挙げられる。ここで、汎用プロセッサとしては、マイクロプロセッサ又は任意の従来のプロセッサが挙げられる。メモリは、読み取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）など、揮発性及び／又は不揮発性メモリ形態のコンピュータ記憶媒体を含めてもよい。メモリにはプログラムが格納され、プロセッサはメモリに格納されているプログラムを呼び出すことができる。

音声認識システムが汎用復号化ネットワークを用いて領域の専門語彙を含む音声を認識するときの認識効果が低いことを考慮し、特定領域の専門語彙の認識精度を高めるために、本案の発明者は研究を行った。

最初のアイデアは、まず、特定領域のコーパストレーニング領域言語モデルを採用し、その後に、トレーニングにより得られたドメインモデルを汎用言語モデルに補間し、最後に、補間された汎用言語モデルを対象復号化ネットワークに変換することである。選択肢として、補間された言語モデルを、重みつき有限状態トランスデューサ（ＷｅｉｇｈｔｅｄＦｉｎｉｔｅＳｔａｔｅＴｒａｎｓｄｕｃｅｒ、ＷＦＳＴ）に変換し、重みつき有限状態トランスデューサを対象復号化ネットワークとしてもよい。対象復号化ネットワークを取得した後、対象復号化ネットワークを用いて音声認識を行う。

説明すべき点として、汎用言語モデルは、広く使用され、さまざまな一般的な状況に適用可能な言語モデルである。一方、領域言語モデルは、特定の領域ではよく使われているが、他の領域ではあまり使われていない語でトレーニングされた言語モデルであり、領域言語モデルを汎用言語モデルに補間することは、汎用言語モデルの本来の知識を保持するだけでなく、汎用言語モデルには出現していない専門語彙の出現確率を高めるため、領域言語モデルを汎用言語モデルに対して補間を行うことで、特定の領域に適した言語モデルを取得でき、当該言語モデルを変換して得られた対象復号化ネットワークを用いて言語認識を行い、高い認識精度を得ることができる。

発明者は、上述した解決案が特定分野の専門語彙の認識精度を高めるが、次のような問題があることを発見した。

領域言語モデルを汎用言語モデルに補間した後、補間された汎用言語モデルを復号化ネ
ットワーク（例えば、ＷＦＳＴ）に再生成する必要がある。補間された汎用言語モデルの規模が大きいため、復号化ネットワークの生成にはかなり時間（数時間以上）がかかり、大量の記憶リソースを必要とする。したがって、実際のシステムへの適用は困難である。

上記の課題を解決するために、発明者は引き続き深く研究し、もう一つの解決案を提案した。当該解決案の大まかな考え方は、汎用言語モデルで生成した復号化ネットワークを汎用復号化ネットワークとし、特定領域のコーパスを用いて領域言語モデルをトレーニングし、領域言語モデルで生成した復号化ネットワークを領域復号化ネットワークとし、汎用復号化ネットワークの中で領域復号化ネットワークが存在する経路を探索し、重みを修正することである。

しかしながら、上記の解決案では、汎用復号化ネットワークの経路が膨大であるため、探索に要する時間が長い。つまり、復号化ネットワークを再生成するのに多くのリソースを必要とするという問題は避けられるが、長い時間を要する。

発明者は、引き続き深く研究し、最終的に、上述の研究開発で生じる問題を完全に解決した解決案を提案した。次に、本出願に係る解決案を、以下の実施例に基づいて説明する。

本出願の実施例は、まず、復号化ネットワーク構築方法を提供し、図１は、当該復号化ネットワーク構築方法のフローチャートを示す。以下のステップを含む。
Ｓ１０１：汎用言語モデル、領域言語モデル、及び汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得する。
このうち、領域言語モデルは特定領域のコーパスをトレーニングして得られ、汎用復号化ネットワークは汎用言語モデルをバイナリ変換して得られる。
Ｓ１０２：汎用言語モデル及び領域言語モデルに基づいて、領域復号化ネットワークを生成する。

説明すべき点として、音声認識システムの復号化プロセスは、本質的に、復号化経路スコアの比較を行うことである。これに基づいて、本出願は、汎用言語モデルと領域言語モデルに対して補間を行い、領域復号化ネットワークを生成することを提案する。領域復号化ネットワークを生成する必要があるが、領域復号化ネットワークの生成にかかる時間と占有する記憶リソースは、前述した「補間された汎用言語モデルを復号化ネットワークに再生成する」にかかる時間と占有する記憶リソースに比べて大幅に低減される。

汎用言語モデル及び領域言語モデルに基づいて、領域復号化ネットワークを生成するプロセスについては、後述した実施例を参照して説明する。
Ｓ１０３：領域復号化ネットワークを汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得する。

本出願の実施例に係る復号化ネットワーク構築方法は、汎用言語モデル及び領域言語モデルに基づいて、領域復号化ネットワークを生成し、領域復号化ネットワークを汎用復号化ネットワークに組み込むことにより、認識対象音声データを復号化する対象復号化ネットワークを取得することができる。本出願の実施例に係る復号化ネットワーク構築方法は、汎用復号化ネットワークに領域復号化ネットワークを組み込むことにより、最終的に取得した対象復号化ネットワークは、汎用語彙を正確に認識するだけでなく、特定領域の専門語彙を正確に認識することができる。本出願の実施例により構築された対象復号化ネットワークは、汎用復号化ネットワークに比べ、特定領域の専門語彙の音声認識精度を向上させる。また、領域復号化ネットワークの生成にかかる時間及び占有する記憶リソースは、汎用復号化ネットワークの再生成に要する時間及び占有する記憶リソースに比べて大幅
に低減される。

以下、上記の実施例の「Ｓ１０２：汎用言語モデル及び領域言語モデルに基づいて、領域復号化ネットワークを生成する」を説明する。

図２は、汎用言語モデル及び領域言語モデルに基づいて、領域復号化ネットワークを生成するフローチャートを示す。以下のステップを含む。
Ｓ２０１では、汎用言語モデルと領域言語モデルに対して補間を行う。
このうち、補間部分は、領域言語モデル及び汎用言語モデルのうち、領域言語モデルに出現する部分である。

選択肢として、汎用言語モデル及び領域言語モデルは、ｎ－ｇｒａｍモデルであってもよい。これに基づいて、本実施例において、領域言語モデル及び汎用言語モデルに対して補間を行う時に、補間部分は、領域言語モデル及び汎用言語モデルのうち、領域言語モデルにだけ出現するｎ－ｇｒａｍエントリであり、つまり、補間部分は、領域言語モデルに出現するｎ－ｇｒａｍエントリだけを含み、領域言語モデルには出現していないｎ－ｇｒａｍエントリは含まない。

説明すべき点として、汎用言語モデル及び領域言語モデルのうち、領域言語モデルにだけ出現するｎ－ｇｒａｍエントリに対して補間を行うことは、実質的には、汎用言語モデル及び領域言語モデルのうち、領域言語モデルにだけ出現するｎ－ｇｒａｍエントリに対して確率的補間を行うものであり、領域言語モデル及び汎用言語モデルを３次言語モデルとすると、ｔｒｉ－ｇｒａｍの確率的補間式は次のようになる。

ここで、ｐ（ω_ｎ｜ω_ｎ－２ω_ｎ－１）はω_ｎ－２とω_ｎ－１が出現した場合、ω_ｎの出現確率であり、ｐ_Ｂは汎用言語モデルのうち、領域言語モデルにだけ出現するｎ－ｇｒａｍエントリの確率であり、ｐ_ｏｌｄは領域言語モデルのうち、ｎ－ｇｒａｍエントリの確率であり、ｐ_ｎｅｗは汎用言語モデルと領域言語モデルのうち、領域言語モデルにだけ出現するｎ－ｇｒａｍエントリに対して補間を行った後の確率であり、αは補間係数である。

Ｓ２０２では、補間部分に基づいて領域復号化ネットワークを生成する。

具体的には、補間部分をバイナリ変換して領域復号化ネットワークを得る。

補間部分のｎ－ｇｒａｍエントリ（すなわち、領域言語モデルにだけ出現するｎ－ｇｒａｍエントリ）の数が少ないため、補間部分に基づいて領域復号化ネットワークを生成するのにかかる時間と占有する記憶リソースが少ない。

上記の実施例の「Ｓ１０３：領域復号化ネットワークを汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得する」を説明する。

領域復号化ネットワークを汎用復号化ネットワークに組み込むための実施形態はいくつがある。

考えられる１つの実施形態において、対象復号化ネットワークを取得するように、領域
復号化ネットワークと汎用復号化ネットワークを並列接続することができる。

領域復号化ネットワークと汎用復号化ネットワークを並列接続して得られた対象ネットワークを用いて復号化する場合、認識対象音声データを領域復号化ネットワーク及び汎用復号化ネットワークにそれぞれ入力して復号化し、汎用復号化ネットワークの復号化経路と領域復号化ネットワークの復号化経路をそれぞれ取得ことができ、汎用復号化ネットワークの復号化経路のスコアと領域復号化ネットワークの復号化経路のスコアとを比較し、スコアが高い復号化経路を最終的な復号化経路とし、つまり、最終的な復号化経路が領域復号化ネットワークの復号化経路、又は汎用復号化ネットワークの復号化経路である。最後には、最終的な復号化経路に基づいて復号化結果を生成する。

本案の発明者は、領域復号化ネットワークと汎用復号化ネットワークを並列接続して得られた対象復号化ネットワークは、汎用語彙だけを含む音声、特定領域の専門語彙だけを含む音声を正確に認識するが、汎用語彙と特定領域の専門語彙との両方を含む音声の認識効果がよくないことを発見した。認識対象言語は、ある場合には、汎用語彙と専門語彙との大量の語彙を含む連続的な音声であるため、領域復号化ネットワークと汎用復号化ネットワークを並列接続して得られた復号化ネットワークは、大量の語彙を含む連続的な音声認識には適していないことが理解される。

上記の問題に鑑みて、本出願は、領域復号化ネットワークを汎用復号化ネットワークに組み込む別の実施形態を提供する。当該実施形態の基本的な考え方は、領域復号化ネットワークと汎用復号化ネットワークとを直列接続することであり、領域復号化ネットワークと汎用復号化ネットワークとを直列接続して得られた対象復号化ネットワークは、汎用語彙と専門語彙との両方を含む音声を正確に認識でき、大量の語彙を含む連続的な音声認識に適している。

図３は、領域復号化ネットワークと汎用復号化ネットワークとを直列接続する実現プロセスのフローチャートを示す。以下のステップを含む。
Ｓ３０１：汎用復号化ネットワーク及び領域復号化ネットワークのそれぞれに仮想ノードを追加する。
このうち、仮想ノードは開始ノード及び終了ノードを含む。
Ｓ３０２：開始ノード及び終了ノードを用いて、汎用復号化ネットワークと領域復号化ネットワークとを直列接続する。

具体的には、開始ノード及び終了ノードを用いて汎用復号化ネットワークと領域復号化ネットワークとを直列接続するプロセスは、汎用復号化ネットワークのために追加された終了ノードと、領域復号化ネットワークのために追加された開始ノードとを、終了ノードから開始ノードへの方向に沿って有向接続を行うことと、領域復号化ネットワークのために追加された終了ノードと、汎用復号化ネットワークのために追加された開始ノードを、終了ノードから開始ノードへの方向に沿って有向接続を行うこととを含む。

図４は、領域復号化ネットワークと汎用復号化ネットワークとを直列接続して得られた対象復号化ネットワークの模式図を示す。図４に示すように、汎用復号化ネットワークは、ノード１、ノード２及びノード３を含み、領域復号化ネットワークは、ノード４、ノード５及びノード６を含む。

領域復号化ネットワークと汎用復号化ネットワークとを直列接続するために、領域復号化ネットワークと汎用復号化ネットワークのためにそれぞれ仮想的な開始ノードと仮想的な終了ノードを作成し、汎用復号化ネットワークのために作成された開始ノードと汎用復号化ネットワーク内のノード１に対して有向接続（開始ノードからノード１への方向）を
行い、汎用復号化ネットワーク内のノード３と汎用復号化ネットワークのために作成された終了ノードに対して有向接続（ノード３から終了ノードへの方向）を行い、汎用復号化ネットワークのために作成された終了ノードと汎用復号化ネットワークのために作成された開始ノードに対して有向接続（終了ノードから開始ノードへの方向）を行う。

領域復号化ネットワークのために作成された開始ノードと領域復号化ネットワーク内のノード４に対して有向接続（開始ノードからノード４への方向）を行い、領域復号化ネットワーク内のノード６と領域復号化ネットワークのために作成された終了ノードに対して有向接続（ノード６から終了ノードへの方向）を行い、領域復号化ネットワークのために作成された終了ノードと領域復号化ネットワークのために作成された開始ノードに対して有向接続（終了ノードから開始ノードへの方向）を行い、汎用復号化ネットワークのために作成された終了ノードと領域復号化ネットワークのための開始ノードに対して有向接続（終了ノードから開始ノードへの方向）を行い、領域復号化ネットワークのために作成された終了ノードと汎用復号化ネットワークのための開始ノードに対して有向接続（終了ノードから開始ノードへの方向）を行う。

領域復号化ネットワークと汎用復号化ネットワークとを直列接続して得られた対象復号化ネットワークを用いて認識対象音声を復号化する時に、認識対象音声データに汎用語彙及び専門語彙の両方が含まれる場合、最終的な復号化経路は、汎用復号化ネットワークの復号化経路と領域復号化ネットワークの復号化経路からなる。例えば、認識対象音声データが「音声認識を開始する」であり、「を開始する」に対応する復号化経路が汎用復号化ネットワークに存在し、「音声認識」に対応する復号化経路が領域復号化ネットワークに存在し、最終的な復号化経路は「を開始する」に対応する復号化経路と「音声認識」に対応する復号化経路からなる。説明すべき点として、汎用復号化ネットワークの復号化経路と領域復号化ネットワークの復号化経路は終了ノードを介して接続されている。

説明すべき点として、領域復号化ネットワーク及び汎用復号化ネットワークに追加された開始ノード及び終了ノードは、ミュート（ｓｉｌ）に設定されてもよい。開始ノード及び終了ノードは復号化の結果に影響を与えない。対象復号化ネットワークを用いて認識対象音声データを復号化する時に、識別対象音声データの各音声フレームは、２つの開始ノードを介してそれぞれ領域復号化ネットワーク及び汎用復号化ネットワークに入って復号化される。図４に示すように、認識対象音声データの各音声フレームを、開始記号「＜ｓ＞」から入力し、２つの開始ノードにスキップし、汎用復号化ネットワーク及び領域復号化ネットワークにそれぞれ入力して復号化し、汎用復号化ネットワーク又は領域復号化ネットワークにおける候補経路が終了ノードを含む場合、終了ノードから少なくとも１つの開始ノードにスキップし、音声フレームが終了するまで汎用復号化ネットワーク及び／又は領域復号化ネットワークにおいて復号化を継続し、終了記号「＜ｓ＞」を出力し、直列接続復号化プロセスを完了する。

上記の実施例に基づいて、本出願の実施例はまた、音声認識方法を提供し、図５は、当該音声認識方法のフローチャートを示す。以下のステップを含む。
Ｓ５０１：対象復号化ネットワークを用いて認識対象音声データを復号化し、認識対象音声データの復号化経路を取得する。
このうち、対象復号化ネットワークは、上述した実施例に係る復号化ネットワーク構築方法を用いて構築された復号化ネットワークである。

考えられる１つの実施形態において、対象復号化ネットワークの復号化経路は、ｌａｔｔｉｃｅとして表示されてもよい。説明すべき点として、Ｌａｔｔｉｃｅは重み付き無向グラフであり、Ｌａｔｔｉｃｅ内の各ノードは音響単位を表し、各アークは音響重みと言語重みとの２つの重みを含み、Ｌａｔｔｉｃｅの左から右に向かういずれか経路で音声認
識結果を構成し、経路における各辺の音響重みを加算し、これに経路に対応する言語重みを加算したものを経路全体のスコアとする。

具体的には、対象復号化ネットワークを用いて認識対象音声データを復号化し、認識対象音声データの復号化経路を取得するプロセスは、認識対象音声データの各音声フレームを対象復号化ネットワークに順次入力して復号化し、認識対象音声データの復号化経路を取得することを含んでもよい。

このうち、認識対象音声データの各音声フレームを、対象復号化ネットワークの２つの仮想的な開始ノードを介して、それぞれ対象復号化ネットワークの汎用復号化ネットワーク及び領域復号化ネットワークに入力して復号化し、汎用復号化ネットワーク又は領域復号化ネットワークの候補復号化経路が終了ノードを含む場合、当該終了ノードから当該終了ノードに接続されている少なくとも１つの開始ノードにスキップし、音声フレームの終了まで汎用復号化ネットワーク及び／又は領域復号化ネットワークに入力して復号化を継続する。

説明すべき点として、候補復号化経路が終了ノードを含む場合、汎用復号化ネットワークに入る経路のスコア及び領域復号化ネットワークに入る経路のスコアの両方とも予め設定された経路スコア閾値以上であれば、当該終了ノードは、当該終了ノードに接続されている２つの開始ノードにスキップし、汎用復号化ネットワーク及び領域復号化ネットワークに入って復号化する。汎用復号化ネットワークに入る経路のスコアが経路スコア閾値以上であり、領域復号化ネットワークに入る経路のスコアが経路スコア閾値未満であれば、当該終了ノードは、汎用復号化ネットワークのために作成された開始ノードにスキップし、汎用復号化ネットワークに入って復号化する。領域復号化ネットワークに入る経路のスコアが経路スコア閾値以上であり、汎用復号化ネットワークに入る経路のスコアが経路スコア閾値未満であれば、当該終了ノードは、領域復号化ネットワークのために作成された開始ノードにスキップし、領域復号化ネットワークに入って復号化する。

Ｓ５０２：認識対象音声データの復号化経路に基づいて、認識対象音声データの音声認識結果を決定する。

認識対象音声データの復号化経路に基づいて、認識対象音声データの音声認識結果を決定するための実施形態はいくつがある。

考えられる１つの実施形態において、認識対象音声データの復号化経路に基づいて、候補音声認識結果と各候補音声認識結果のスコアを取得し、スコアが最も高い候補音声認識結果を認識対象音声データの音声認識結果としてもよい。

考えられる別の実施形態において、予め取得された上位言語モデル及び認識対象音声データの復号化経路により、認識対象音声データの音声認識結果を決定してもよい。具体的には、認識対象音声データの復号化経路を予め取得された上位言語モデルに入力し、認識対象音声データの音声認識結果を取得してもよい。説明すべき点として、上位言語モデルは、領域言語モデルを用いて汎用言語モデルに対して補間を行って得られる。上位言語モデルは、認識対象音声データの音声認識結果として、複数の候補認識結果から最適な認識結果を選択することができる。

本出願の実施例に係る音声認識方法では、対象復号化ネットワークは、汎用復号化ネットワークに領域復号化ネットワークを組み込んで得られるため、対象復号化ネットワークを用いて、特定領域の専門語彙を含む認識対象音声を正確に認識することができる。

以下、本出願の実施例に係る復号化ネットワーク構築装置を説明する。以下に説明する復号化ネットワーク構築装置は、上述した復号化ネットワーク構築方法に互いに対応して参照される。

図６は、本出願の実施例に係る復号化ネットワーク構築装置の構成図を示す。当該復号化ネットワーク構築装置は、言語モデル・汎用復号化ネットワーク取得モジュール６０１、領域復号化ネットワーク生成モジュール６０２、復号化ネットワーク組み込みモジュール６０３を含むことができる。

言語モデル・汎用復号化ネットワーク取得モジュール６０１は、汎用言語モデル、領域言語モデル、及び汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得する。

領域復号化ネットワーク生成モジュール６０２は、汎用言語モデル及び領域言語モデルに基づいて領域復号化ネットワークを生成する。

復号化ネットワーク組み込みモジュール６０３は、領域復号化ネットワークを汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得する。

本出願の実施例に係る復号化ネットワーク構築装置は、汎用復号化ネットワークに領域復号化ネットワークを組み込むことにより、最終的に取得した対象復号化ネットワークが汎用語彙だけでなく、特定領域の専門語彙も正確に認識することができる。本出願の実施例により構築された対象復号化ネットワークは、汎用復号化ネットワークに比べ、特定領域の専門語彙の音声認識精度を向上させる。また、領域復号化ネットワークの生成にかかる時間及び占有する記憶リソースは、汎用復号化ネットワークの再生成に要する時間及び占有する記憶リソースに比べて大幅に低減される。

考えられる１つの実施形態において、上記の実施例に係る復号化ネットワーク構築装置における領域復号化ネットワーク生成モジュール６０２は、補間サブモジュール及び領域復号化ネットワーク生成サブモジュールを含むことができる。

補間サブモジュールは、前記汎用言語モデル及び前記領域言語モデルに対して補間を行い、このうち、補間部分は、前記領域言語モデル及び前記汎用言語モデルのうち、前記領域言語モデルに出現する部分である。

領域復号化ネットワーク生成サブモジュールは、補間部分に基づいて領域復号化ネットワークを生成する。

考えられる１つの実施形態において、上記の実施例に係る復号化ネットワーク構築装置における復号化ネットワーク組み込みモジュール６０３は、特に領域復号化ネットワークと汎用復号化ネットワークとを直列接続し、対象復号化ネットワークを取得する。

考えられる１つの実施形態において、上記の実施例に係る復号化ネットワーク構築装置における復号化ネットワーク組み込みモジュール６０３は、ノード追加サブモジュール及び直列接続サブモジュールを含む。

ノード追加サブモジュールは、汎用復号化ネットワーク及び領域復号化ネットワークのそれぞれに、開始ノードと終了ノードとを含む仮想ノードを追加する。

直列接続サブモジュールは、開始ノード及び終了ノードを用いて、汎用復号化ネットワ
ークと領域復号化ネットワークとを直列接続する。

考えられる１つの実施形態において、直列接続サブモジュールは、特に汎用復号化ネットワークのために作成された終了ノードと、領域復号化ネットワークのために作成された開始ノードとを、終了ノードから開始ノードへの方向に沿って有向接続を行い、領域復号化ネットワークのために作成された終了ノードと、汎用復号化ネットワークのために作成された開始ノードを、終了ノードから開始ノードへの方向に沿って有向接続を行う。

上記の音声認識方法に対応し、本出願の実施例はまた、音声認識装置を提供する。図７は、復号化モジュール７０１及び音声認識結果決定モジュール７０２を含むことができる音声認識装置の構成図を示す。

復号化モジュール７０１は、上記の実施例に係る復号化ネットワーク構築装置により構築された対象復号化ネットワークを用いて認識対象音声データを復号化し、認識対象音声データの復号化経路を取得する。

音声認識結果決定モジュール７０２は、認識対象音声データの復号化経路に基づいて、認識対象音声データの音声認識結果を決定する。

考えられる１つの実施形態において、上記の実施例に係る音声認識装置内の復号化モジュール７０１は、特に予め取得した上位言語モデル及び認識対象音声データの復号化経路により、認識対象音声データの音声認識結果を決定する、このうち、上位言語モデルは、領域言語モデルを用いて汎用言語モデルに対して補間を行って得られる。

考えられる１つの実施形態において、上記の実施例に係る音声認識装置における復号化モジュール７０１は、特に識別対象音声データの各音声フレームを対象復号ネットワークに順次入力して復号化し、識別対象音声データの復号化経路を取得する。

このうち、認識対象音声データの各音声フレームを、対象復号化ネットワークの２つの開始ノードを介して、それぞれ対象復号化ネットワークの汎用復号化ネットワーク及び領域復号化ネットワークに入力して復号化し、汎用復号化ネットワーク又は領域復号化ネットワークの候補復号化経路が終了ノードを含む場合、当該終了ノードから当該終了ノードに接続されている少なくとも１つの開始ノードにスキップし、音声フレームの終了まで汎用復号化ネットワーク及び／又は領域復号化ネットワークに入力して復号化を継続する。

本出願の実施例はまた、復号化ネットワーク構築設備を提供する。図８は、当該復号化ネットワーク構築設備の構造図を示す。当該復号化ネットワーク構築設備は、少なくとも１つのプロセッサ８０１、少なくとも１つの通信ポート８０２、少なくとも１つのメモリ８０３、少なくとも１つの通信バス８０４を含んでもよい。

本出願の実施例において、プロセッサ８０１、通信ポート８０２、メモリ８０３、通信バス８０４の数が少なくとも１つであり、且つプロセッサ８０１、通信ポート８０２、メモリ８０３は、通信バス８０４を介して相互通信を行う。

プロセッサ８０１は、１つの中央処理装置ＣＰＵ、又は特定用途向け集積回路ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ
）、又は本発明の実施例を実施するように構成されている１つ又は複数の集積回路などであり得る。

メモリ８０３は、高速ＲＡＭメモリを含んでもよい、また、少なくとも１つのディスクメモリなどの不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）などを含んでもよい。

このうち、メモリには、プログラムを格納し、プロセッサは、メモリに格納されるプログラムを呼び出してもよい。前記プログラムは、
汎用言語モデル、領域言語モデル、及び前記汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得し、
領域言語モデル及び汎用言語モデルに基づいて領域復号化ネットワークを生成し、
領域復号化ネットワークを前記汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得する。

選択肢として、前記プログラムの詳細化機能及び拡張機能は、上記の説明を参照することができる。

本出願の実施例はまた、読取可能な記憶媒体を提供する。当該読取可能な記憶媒体は、プロセッサによって実行されるプログラムを格納することができる。前記プログラムは、
汎用言語モデル、領域言語モデル、及び汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得し、
領域言語モデル及び汎用言語モデルに基づいて領域復号化ネットワークを生成し、
領域復号化ネットワークを汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得する。

本出願の実施例はまた、音声認識装置を提供する。図９は、音声認識設備の構造図を示す。当該音声認識設備は、少なくとも１つのプロセッサ９０１、少なくとも１つの通信ポート９０２、少なくとも１つのメモリ９０３、少なくとも１つの通信バス９０４を含んでもよい。

本出願の実施例において、プロセッサ９０１、通信ポート９０２、メモリ９０３、通信バス９０４の数が少なくとも１つであり、且つプロセッサ９０１、通信ポート９０２、メモリ９０３は、通信バス９０４を介して相互通信を行う。

プロセッサ９０１は、１つの中央処理装置ＣＰＵ、又は特定用途向け集積回路ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、又は本発明の実施例を実施するように構成されている１つ又は複数の集積回路などであり得る。

メモリ９０３は、高速ＲＡＭメモリを含んでもよい、また、少なくとも１つのディスクメモリなどの不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）などを含んでもよい。

このうち、メモリには、プログラムを格納し、プロセッサは、メモリに格納されるプログラムを呼び出してもよい。前記プログラムは、
上記の実施例に係る復号化ネットワーク構築方法により構築された対象復号化ネットワークを用いて認識対象音声データを復号化し、認識対象音声データの復号化経路を取得し、
認識対象音声データの復号化経路に基づいて、認識対象音声データの音声認識結果を決
定する。

本出願の実施例はまた、読取可能な記憶媒体を提供する。当該読取可能な記憶媒体は、プロセッサによって実行されるプログラムを格納することができる。前記プログラムは、
上記の実施例に係る復号化ネットワーク構築方法により構築された対象復号化ネットワークを用いて認識対象音声データを復号化し、認識対象音声データの復号化経路を取得し、
認識対象音声データの復号化経路に基づいて、認識対象音声データの音声認識結果を決定する。

最後に、説明すべき点として、本明細書では、第一及び第二のような関係用語は、単に１つのエンティティ又は動作を別のエンティティ又は動作から区別するために使用され、これらのエンティティ又は動作の間にそのような実際の関係又は順序が存在することを必ずしも要求又は暗示するものではない。さらに、用語「備える」、「含む」又はそれらの他の変形は、排他的ではない「含む」をカバーすることを意図しており、一連の要素を含むプロセス、方法、物品又は設備が、それらの要素だけでなく、明示的に記載されていない他の要素、又はそのようなプロセス、方法、物品又は設備に固有の要素も含む。これ以上の制限がない場合には、「１つの…を含む」という文によって限定される要素は、前記要素を含むプロセス、方法、物品又は設備の中に別の同じ要素が存在することを排除しない。

本明細書中の各実施例は、漸進的に説明されており、各実施例は、他の実施例との相違点に重点を置いて説明され、各実施例の間で同一で類似している部分は互いに参照すればよい。

開示された実施例の上記の説明は、当業者が本発明を実施又は使用することを可能にする。これらの実施例に対するさまざまな修正は、当業者にとって自明であり、本明細書で定義された一般的な原理は、本発明の精神又は範囲から逸脱することなく、他の実施例で実現されてもよい。したがって、本発明は、本明細書で示されたこれらの実施例に限定されるのではなく、本明細書で開示された原理及び新規な特徴に一致する最も広い範囲に適合する。

Claims

汎用言語モデル、領域言語モデル、及び前記汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得することと、
前記領域言語モデル及び前記汎用言語モデルに基づいて、領域復号化ネットワークを生成することと、
前記領域復号化ネットワークを前記汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得することと、
を含むことを特徴とする復号化ネットワーク構築方法。
前記汎用言語モデル及び前記領域言語モデルに基づいて、領域復号化ネットワークを生成することは、
前記汎用言語モデル及び前記領域言語モデルに対して補間を行い、このうち、補間部分は、前記領域言語モデル及び前記汎用言語モデルのうち、前記領域言語モデルに出現する部分であることと、
補間部分に基づいて前記領域復号化ネットワークを生成することと、
を含むことを特徴とする請求項１に記載の復号化ネットワーク構築方法。
前記領域復号化ネットワークを前記汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得することは、
前記領域復号化ネットワークと前記汎用復号化ネットワークとを直列接続し、前記対象復号化ネットワークを取得することを含む、
ことを特徴とする請求項１に記載の復号化ネットワーク構築方法。
前記領域復号化ネットワークと前記汎用復号化ネットワークとを直列接続することは、
前記汎用復号化ネットワーク及び前記領域復号化ネットワークのそれぞれに、開始ノードと終了ノードとを含む仮想ノードを追加することと、
前記開始ノード及び前記終了ノードを用いて、前記汎用復号化ネットワークと前記領域復号化ネットワークとを直列接続することと、
を含むことを特徴とする請求項３に記載の復号化ネットワーク構築方法。
前記開始ノード及び前記終了ノードを用いて、前記汎用復号化ネットワークと前記領域復号化ネットワークとを直列接続することは、
前記汎用復号化ネットワークのために作成された終了ノードと、前記領域復号化ネットワークのために作成された開始ノードとを、終了ノードから開始ノードへの方向に沿って有向接続を行うことと、
前記領域復号化ネットワークのために作成された終了ノードと、前記汎用復号化ネットワークのために作成された開始ノードとを、終了ノードから開始ノードへの方向に沿って有向接続を行うことと、
を含むことを特徴とする請求項４に記載の復号化ネットワーク構築方法。
請求項１～５のいずれか１項に記載の復号化ネットワーク構築方法により構築された対象復号化ネットワークを用いて認識対象音声データを復号化し、前記認識対象音声データの復号化経路を取得することと、
前記認識対象音声データの復号化経路に基づいて、前記認識対象音声データの音声認識結果を決定することと、
を含むことを特徴とする音声認識方法。
前記認識対象音声データの復号化経路に基づいて、前記認識対象音声データの音声認識結果を決定することは、
予め取得した上位言語モデル及び前記認識対象音声データの復号化経路により、前記認識対象音声データの音声認識結果を決定することを含み、
このうち、前記上位言語モデルは、領域言語モデルを用いて汎用言語モデルに対して補間を行うことで取得される、
ことを特徴とする請求項６に記載の音声認識方法。
前記対象復号化ネットワークを用いて前記認識対象音声データを復号化し、前記認識対象音声データの復号化経路を取得することは、
前記認識対象音声データの各音声フレームを前記対象復号化ネットワークに順次入力して復号化し、前記認識対象音声データの復号化経路を取得することを含み、
このうち、前記認識対象音声データの各音声フレームを、前記対象復号化ネットワークの２つの開始ノードを介して、それぞれ前記対象復号化ネットワークの汎用復号化ネットワーク及び領域復号化ネットワークに入力して復号化し、前記汎用復号化ネットワーク又は前記領域復号化ネットワークの候補復号化経路が終了ノードを含む場合、当該終了ノードから当該終了ノードに接続されている少なくとも１つの開始ノードにスキップし、音声フレームの終了まで前記汎用復号化ネットワーク及び／又は前記領域復号化ネットワークに入力して復号化を継続する、
ことを特徴とする請求項６に記載の音声認識方法。
復号化ネットワーク構築装置であって、言語モデル・汎用復号化ネットワーク取得モジュール、領域復号化ネットワーク生成モジュール及び復号化ネットワーク組み込みモジュールを含み、
前記言語モデル・汎用復号化ネットワーク取得モジュールは、汎用言語モデル、領域言語モデル、及び前記汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得し、
前記領域復号化ネットワーク生成モジュールは、前記汎用言語モデル及び前記領域言語モデルに基づいて、領域復号化ネットワークを生成し、
前記復号化ネットワーク組み込みモジュールは、前記領域復号化ネットワークを前記汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得する、
ことを特徴とする復号化ネットワーク構築装置。
前記領域復号化ネットワーク生成モジュールは、補間サブモジュールと領域復号化ネットワーク生成サブモジュールとを含み、
前記補間サブモジュールは、前記汎用言語モデル及び前記領域言語モデルに対して補間を行い、このうち、補間部分は、前記領域言語モデル及び前記汎用言語モデルのうち、前記領域言語モデルに出現する部分であり、
前記領域復号化ネットワーク生成サブモジュールは、前記補間部分に基づいて前記領域復号化ネットワークを生成する、
ことを特徴とする請求項９に記載の復号化ネットワーク構築装置。
前記復号化ネットワーク組み込みモジュールは、前記領域復号化ネットワークと前記汎用復号化ネットワークとを直列接続し、前記対象復号化ネットワークを取得する、
ことを特徴とする請求項９に記載の復号化ネットワーク構築装置。
音声認識装置であって、復号化モジュール及び音声認識結果決定モジュールを含み、
前記復号化モジュールは、請求項９～１１のいずれか１項に記載の復号化ネットワーク構築装置により構築された対象復号化ネットワークを用いて認識対象音声データを復号化して、前記認識対象音声データの復号化経路を取得し、
前記音声認識結果決定モジュールは、前記認識対象音声データの復号化経路に基づいて、前記認識対象音声データの音声認識結果を決定する、
ことを特徴とする音声認識装置。
復号化ネットワーク構築設備であって、メモリ及びプロセッサを含み、
前記メモリは、プログラムを格納し、
前記プロセッサは、前記プログラムを実行し、請求項１～５のいずれか１項に記載の復号化ネットワーク構築方法の各ステップを実現する、
ことを特徴とする復号化ネットワーク構築設備。
コンピュータプログラムを格納する読取可能な記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行される時に、請求項１～５のいずれか１項に記載の復号化ネットワーク構築方法の各ステップを実現する、
ことを特徴とする読取可能な記憶媒体。
音声認識設備であって、メモリ及びプロセッサを含み、
前記メモリは、プログラムを格納し、
前記プロセッサは、前記プログラムを実行し、請求項６～８のいずれか１項に記載の音声認識方法の各ステップを実現する、
ことを特徴とする音声認識設備。
コンピュータプログラムを格納する読取可能な記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行される時に、請求項６～８のいずれか１項に記載の音声認識方法の各ステップを実現する、
ことを特徴とする読取可能な記憶媒体。