JP7278477B2 - 復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体 - Google Patents

復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体 Download PDF

Info

Publication number
JP7278477B2
JP7278477B2 JP2022517515A JP2022517515A JP7278477B2 JP 7278477 B2 JP7278477 B2 JP 7278477B2 JP 2022517515 A JP2022517515 A JP 2022517515A JP 2022517515 A JP2022517515 A JP 2022517515A JP 7278477 B2 JP7278477 B2 JP 7278477B2
Authority
JP
Japan
Prior art keywords
decoding network
decoding
language model
general
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022517515A
Other languages
English (en)
Other versions
JP2022548718A (ja
Inventor
ガオ,ジエンチン
ワン,チグォ
フー,グォピン
Original Assignee
アイフライテック カンパニー,リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アイフライテック カンパニー,リミテッド filed Critical アイフライテック カンパニー,リミテッド
Publication of JP2022548718A publication Critical patent/JP2022548718A/ja
Application granted granted Critical
Publication of JP7278477B2 publication Critical patent/JP7278477B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Description

相互参照
本出願は、2019年10月16日に中国特許局へ提出した出願番号201910983196.3、発明名称「復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体」である中国特許出願の優先権を主張し、その全ての内容はここで参照として本出願に引用される。
本出願は、音声認識の技術分野に関し、特に復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体に関する。
音声認識は、言語モデルに基づいて実現されており、現在の音声認識解決案の多くは、汎用言語モデルに基づく認識解決案である。汎用言語モデルに基づく認識解決案は、まず汎用言語モデルを汎用復号化ネットワークに変換し、その後に汎用復号化ネットワークを利用して認識対象音声を復号化する。
汎用言語モデルに基づく認識解決案は、汎用語彙を正確に認識することができるが、特定領域の一部の専門語彙については、その専門語彙が発音の近い汎用語彙として認識されやすく、つまり、既存の汎用言語モデルに基づく認識解決案は、特定領域の専門語彙の認識精度が低い。
このため、本出願では、特定領域の専門語彙の認識精度を向上させるための復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体を提供し、その技術案は以下の通りである。
復号化ネットワーク構築方法は、
汎用言語モデル、領域言語モデル、及び前記汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得することと、
前記領域言語モデル及び前記汎用言語モデルに基づいて、領域復号化ネットワークを生成することと、
前記領域復号化ネットワークを前記汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得することとを含む。
選択肢として、前記汎用言語モデル及び前記領域言語モデルに基づいて、領域復号化ネットワークを生成することは、
前記汎用言語モデル及び前記領域言語モデルに対して補間を行い、このうち、補間部分は、前記領域言語モデル及び前記汎用言語モデルのうち、前記領域言語モデルにだけ出現する部分にして補間を行うことと、
補間部分に基づいて前記領域復号化ネットワークを生成することとを含む。
選択肢として、前記領域復号化ネットワークを前記汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得することは、
前記領域復号化ネットワークと前記汎用復号化ネットワークとを直列接続し、対象復号化ネットワークを取得することを含む。
選択肢として、前記領域復号化ネットワークと前記汎用復号化ネットワークとを直列接
続することは、
前記汎用復号化ネットワーク及び前記領域復号化ネットワークのそれぞれに、開始ノードと終了ノードとを含む仮想ノードを追加することと、
前記開始ノード及び前記終了ノードを用いて、前記汎用復号化ネットワークと前記領域復号化ネットワークとを直列接続することとを含む。
選択肢として、前記開始ノード及び前記終了ノードを用いて、前記汎用復号化ネットワークと前記領域復号化ネットワークとを直列接続することは、
前記汎用復号化ネットワークのために作成された終了ノードと、前記領域復号化ネットワークのために作成された開始ノードとを、終了ノードから開始ノードへの方向に沿って有向接続を行うことと、
前記領域復号化ネットワークのために作成された終了ノードと、前記汎用復号化ネットワークのために作成された開始ノードとを、終了ノードから開始ノードへの方向に沿って有向接続を行うこととを含む。
音声認識方法は、
上記のいずれか1項に記載の復号化ネットワーク構築方法により構築された対象復号化ネットワークを用いて認識対象音声データを復号化し、前記認識対象音声データの復号化経路を取得することと、
前記認識対象音声データの復号化経路に基づいて、前記認識対象音声データの音声認識結果を決定することとを含む。
選択肢として、前記認識対象音声データの復号化経路に基づいて、前記認識対象音声データの音声認識結果を決定することは、
予め取得した上位言語モデル及び前記認識対象音声データの復号化経路により、前記認識対象音声データの音声認識結果を決定することを含み、
このうち、前記上位言語モデルは、領域言語モデルを用いて汎用言語モデルに対して補間を行うことで取得される。
選択肢として、前記対象復号化ネットワークを用いて前記認識対象音声データを復号化し、前記認識対象音声データの復号化経路を取得することは、
前記認識対象音声データの各音声フレームを前記対象復号化ネットワークに順次入力して復号化し、前記認識対象音声データに対応する復号化経路を取得することを含み、
このうち、前記認識対象音声データの各音声フレームを、前記対象復号化ネットワークの2つの開始ノードを介して、それぞれ前記対象復号化ネットワークの汎用復号化ネットワーク及び領域復号化ネットワークに入力して復号化し、前記汎用復号化ネットワーク又は前記領域復号化ネットワークの候補復号化経路が終了ノードを含む場合、当該終了ノードから当該終了ノードに接続されている少なくとも1つの開始ノードにスキップし、音声フレームの終了まで前記汎用復号化ネットワーク及び/又は前記領域復号化ネットワークに入力して復号化を継続する。
復号化ネットワーク構築装置は、言語モデル・汎用復号化ネットワーク取得モジュール、領域復号化ネットワーク生成モジュール及び復号化ネットワーク組み込みモジュールを含み、
前記言語モデル・汎用復号化ネットワーク取得モジュールは、汎用言語モデル、領域言語モデル、及び前記汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得する、
前記領域復号化ネットワーク生成モジュールは、前記汎用言語モデル及び前記領域言語モデルに基づいて、領域復号化ネットワークを生成する、
前記復号化ネットワーク組み込みモジュールは、前記領域復号化ネットワークを前記汎
用復号化ネットワークに組み込み、対象復号化ネットワークを取得する。
選択肢として、前記領域復号化ネットワーク生成モジュールは、補間サブモジュール及び領域復号化ネットワーク生成サブモジュールを含み、
前記補間サブモジュールは、前記汎用言語モデル及び前記領域言語モデルに対して補間を行い、このうち、補間部分は、前記領域言語モデル及び前記汎用言語モデルのうち、前記領域言語モデルに出現する部分であり、
前記領域復号化ネットワーク生成サブモジュールは、補間部分に基づいて前記領域復号化ネットワークを生成する。
選択肢として、前記復号化ネットワーク組み込みモジュールは、特に前記領域復号化ネットワークと前記汎用復号化ネットワークとを直列接続し、前記対象復号化ネットワークを取得する。
音声認識装置は、復号化モジュール及び音声認識結果決定モジュールを含み、
前記復号化モジュールは、上記のいずれか1項に記載の復号化ネットワーク構築装置により構築された対象復号化ネットワークを用いて認識対象音声データを復号化し、前記対象復号化ネットワークの復号化経路を取得する、
前記音声認識結果決定モジュールは、前記対象復号化ネットワークの復号化経路に基づいて、前記認識対象音声データの音声認識結果を決定する。
復号化ネットワーク構築設備は、メモリ及びプロセッサを含み、
前記メモリは、プログラムを格納し、
前記プロセッサは、前記プログラムを実行し、上記のいずれか1項に記載の復号化ネットワーク構築方法の各ステップを実現する。
読取可能な記憶媒体は、コンピュータプログラムを格納し、前記コンピュータプログラムがプロセッサによって実行される時に、上記のいずれか1項に記載の復号化ネットワーク構築方法の各ステップを実現する。
音声認識設備は、メモリ及びプロセッサを含み、
前記メモリは、プログラムを格納し、
前記プロセッサは、前記プログラムを実行し、上記のいずれか1項に記載の音声認識方法の各ステップを実現する。
読取可能な記憶媒体は、コンピュータプログラムを格納し、前記コンピュータプログラムがプロセッサによって実行される時に、上記のいずれか1項に記載の音声認識方法の各ステップを実現する。
以上の解決案から分かるように、本出願に係る復号化ネットワーク構築方法は、汎用言語モデル及び領域言語モデルに基づいて領域復号化ネットワークを生成し、領域復号化ネットワークを汎用復号化ネットワークに組み込むことにより、対象復号化ネットワークを取得することができる。本出願に係る復号化ネットワーク構築方法は、汎用復号化ネットワークに領域復号化ネットワークを組み込むことにより、最終的に取得した対象復号化ネットワークは、汎用語彙を正確に認識するだけでなく、特定領域の専門語彙を正確に認識することができ、従来技術における汎用言語モデルに基づく音声認識方法に比べ、特定領域の専門語彙の音声認識精度を著しく向上させ、また、本出願に係る復号化ネットワーク構築方法は、対象復号化ネットワークを比較的速やかに構築することができる。本出願に係る復号化ネットワーク構築方法は、特定領域の専門語彙を正確に認識する対象復号化ネットワークを効率的に構築することができるため、対象復号化ネットワークに基づいて特
定領域の専門語彙を含む音声を認識する際に、より正確な音声認識結果を取得することができる。
図1は本出願の実施例に係る復号化ネットワーク構築方法のフローチャートである。 図2は本出願の実施例に係る復号化ネットワーク構築方法において、汎用言語モデル及び領域言語モデルに基づいて、領域復号化ネットワークを生成するフローチャートである。 図3は本出願の実施例に係る復号化ネットワーク構築方法において、領域復号化ネットワークと汎用復号化ネットワークとの直列接続を実現するプロセスを示すフローチャートである。 図4は本出願の実施例において、領域復号化ネットワークと汎用復号化ネットワークとを直列接続して得られた対象復号化ネットワークの例を示す図である。 図5は本出願の実施例に係る音声認識方法のフローチャートである。 図6は本出願の実施例に係る復号化ネットワーク構築装置の構造を示す図である。 図7は本出願の実施例に係る音声認識装置の構造を示す図である。 図8は本出願の実施例に係る復号化ネットワーク構築設備の構造を示す図である。 図9は本出願の実施例に係る音声認識設備の構造を示す図である。
以下、本発明の実施例の図面を併せて、本発明の実施例における技術案を明確かつ詳細に説明する。記載された実施例は本発明の実施例の一部に過ぎず、それらのすべてではないことは明らかである。本発明の実施例に基づいて、当業者は、創造的な作業なしに得られたすべての他の実施例は本発明の保護範囲内にある。
本出願は通常、音声認識を行うための音声認識システムに関するものであり、音声認識システムは、ユーザから入力された音声を受信し、復号化ネットワークを用いてユーザから入力された音声をテキストとして認識し、出力することができる。考えられる1つの実施形態において、音声認識システムは、端末装置で実現されてもよい。基本構成では、端末装置は、入力要素(マイク、センサ、タッチスクリーン、キーなど)と出力要素(ディスプレイ、スピーカなど)を備える。端末装置は、音声認識を可能にするための任意の適切なコンピューティングデバイスとしてもよい。例えば、スマートフォン、タブレット、ノートパソコン、パーソナルコンピュータ、スマートウォッチ、ウェアラブルデバイス、テレビ、ゲーム機器などが挙げられる。ユーザは、端末装置の入力要素(マイクなど)を介して音声を入力し、端末装置は、ユーザから入力された音声を、復号化ネットワークを用いて認識し、音声認識結果を取得した後、出力要素を介して出力する。上記の端末装置は、入力要素及び出力要素に加えて、プロセッサ及びメモリを備える。プロセッサ及びメモリは、通信バスを介して相互通信を行う。プロセッサとしては、中央処理装置CPU及び/又はグラフィックスプロセッサGPUが挙げられる。またプロセッサとしては、汎用プロセッサ、デジタルシグナルプロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)又は他のプログラマブルロジックデバイス、ディスクリートゲート回路又はトランジスタロジックデバイスなどが挙げられる。ここで、汎用プロセッサとしては、マイクロプロセッサ又は任意の従来のプロセッサが挙げられる。メモリは、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)など、揮発性及び/又は不揮発性メモリ形態のコンピュータ記憶媒体を含めてもよい。メモリにはプログラムが格納され、プロセッサはメモリに格納されているプログラムを呼び出すことができる。
考えられる別の実施形態において、音声認識システムは、1つのサーバで実現されてもよい。当該サーバは、ネットワークを通じて端末装置から提供されたデータを受信でき、ネットワークを通じて端末装置にデータを提供することもできる。もちろん、音声認識システムは、複数のサーバで実現されてもよい。同様に、サーバは、ネットワークを通じて端末装置から提供されたデータを受信でき、ネットワークを通じて端末装置にデータを提供することもできる。上記のネットワークとしては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)などが挙げられるが、これらに限らない。音声認識システムは、サーバで実現される場合、端末装置は、ユーザが入力装置で入力された音声を取得し、当該音声をネットワークを通じてサーバに送信し、サーバは、端末装置から受信された音声を、復号化ネットワークを用いて認識し、音声認識結果を取得した後、音声認識結果をネットワークを通じて端末装置まで送信し、端末装置は、出力要素を介して音声認識結果を出力する。上記のサーバは、プロセッサ及びメモリを備えてもよい。プロセッサ及びメモリは、通信バスを介して相互通信を行う。プロセッサとしては、中央処理装置CPU及び/又はグラフィックスプロセッサGPUが挙げられる。またプロセッサとしては、汎用プロセッサ、デジタルシグナルプロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)又は他のプログラマブルロジックデバイス、ディスクリートゲート回路又はトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなどが挙げられる。ここで、汎用プロセッサとしては、マイクロプロセッサ又は任意の従来のプロセッサが挙げられる。メモリは、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)など、揮発性及び/又は不揮発性メモリ形態のコンピュータ記憶媒体を含めてもよい。メモリにはプログラムが格納され、プロセッサはメモリに格納されているプログラムを呼び出すことができる。
音声認識システムが汎用復号化ネットワークを用いて領域の専門語彙を含む音声を認識するときの認識効果が低いことを考慮し、特定領域の専門語彙の認識精度を高めるために、本案の発明者は研究を行った。
最初のアイデアは、まず、特定領域のコーパストレーニング領域言語モデルを採用し、その後に、トレーニングにより得られたドメインモデルを汎用言語モデルに補間し、最後に、補間された汎用言語モデルを対象復号化ネットワークに変換することである。選択肢として、補間された言語モデルを、重みつき有限状態トランスデューサ(Weighted Finite State Transducer、WFST)に変換し、重みつき有限状態トランスデューサを対象復号化ネットワークとしてもよい。対象復号化ネットワークを取得した後、対象復号化ネットワークを用いて音声認識を行う。
説明すべき点として、汎用言語モデルは、広く使用され、さまざまな一般的な状況に適用可能な言語モデルである。一方、領域言語モデルは、特定の領域ではよく使われているが、他の領域ではあまり使われていない語でトレーニングされた言語モデルであり、領域言語モデルを汎用言語モデルに補間することは、汎用言語モデルの本来の知識を保持するだけでなく、汎用言語モデルには出現していない専門語彙の出現確率を高めるため、領域言語モデルを汎用言語モデルに対して補間を行うことで、特定の領域に適した言語モデルを取得でき、当該言語モデルを変換して得られた対象復号化ネットワークを用いて言語認識を行い、高い認識精度を得ることができる。
発明者は、上述した解決案が特定分野の専門語彙の認識精度を高めるが、次のような問題があることを発見した。
領域言語モデルを汎用言語モデルに補間した後、補間された汎用言語モデルを復号化ネ
ットワーク(例えば、WFST)に再生成する必要がある。補間された汎用言語モデルの規模が大きいため、復号化ネットワークの生成にはかなり時間(数時間以上)がかかり、大量の記憶リソースを必要とする。したがって、実際のシステムへの適用は困難である。
上記の課題を解決するために、発明者は引き続き深く研究し、もう一つの解決案を提案した。当該解決案の大まかな考え方は、汎用言語モデルで生成した復号化ネットワークを汎用復号化ネットワークとし、特定領域のコーパスを用いて領域言語モデルをトレーニングし、領域言語モデルで生成した復号化ネットワークを領域復号化ネットワークとし、汎用復号化ネットワークの中で領域復号化ネットワークが存在する経路を探索し、重みを修正することである。
しかしながら、上記の解決案では、汎用復号化ネットワークの経路が膨大であるため、探索に要する時間が長い。つまり、復号化ネットワークを再生成するのに多くのリソースを必要とするという問題は避けられるが、長い時間を要する。
発明者は、引き続き深く研究し、最終的に、上述の研究開発で生じる問題を完全に解決した解決案を提案した。次に、本出願に係る解決案を、以下の実施例に基づいて説明する。
本出願の実施例は、まず、復号化ネットワーク構築方法を提供し、図1は、当該復号化ネットワーク構築方法のフローチャートを示す。以下のステップを含む。
S101:汎用言語モデル、領域言語モデル、及び汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得する。
このうち、領域言語モデルは特定領域のコーパスをトレーニングして得られ、汎用復号化ネットワークは汎用言語モデルをバイナリ変換して得られる。
S102:汎用言語モデル及び領域言語モデルに基づいて、領域復号化ネットワークを生成する。
説明すべき点として、音声認識システムの復号化プロセスは、本質的に、復号化経路スコアの比較を行うことである。これに基づいて、本出願は、汎用言語モデルと領域言語モデルに対して補間を行い、領域復号化ネットワークを生成することを提案する。領域復号化ネットワークを生成する必要があるが、領域復号化ネットワークの生成にかかる時間と占有する記憶リソースは、前述した「補間された汎用言語モデルを復号化ネットワークに再生成する」にかかる時間と占有する記憶リソースに比べて大幅に低減される。
汎用言語モデル及び領域言語モデルに基づいて、領域復号化ネットワークを生成するプロセスについては、後述した実施例を参照して説明する。
S103:領域復号化ネットワークを汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得する。
本出願の実施例に係る復号化ネットワーク構築方法は、汎用言語モデル及び領域言語モデルに基づいて、領域復号化ネットワークを生成し、領域復号化ネットワークを汎用復号化ネットワークに組み込むことにより、認識対象音声データを復号化する対象復号化ネットワークを取得することができる。本出願の実施例に係る復号化ネットワーク構築方法は、汎用復号化ネットワークに領域復号化ネットワークを組み込むことにより、最終的に取得した対象復号化ネットワークは、汎用語彙を正確に認識するだけでなく、特定領域の専門語彙を正確に認識することができる。本出願の実施例により構築された対象復号化ネットワークは、汎用復号化ネットワークに比べ、特定領域の専門語彙の音声認識精度を向上させる。また、領域復号化ネットワークの生成にかかる時間及び占有する記憶リソースは、汎用復号化ネットワークの再生成に要する時間及び占有する記憶リソースに比べて大幅
に低減される。
以下、上記の実施例の「S102:汎用言語モデル及び領域言語モデルに基づいて、領域復号化ネットワークを生成する」を説明する。
図2は、汎用言語モデル及び領域言語モデルに基づいて、領域復号化ネットワークを生成するフローチャートを示す。以下のステップを含む。
S201では、汎用言語モデルと領域言語モデルに対して補間を行う。
このうち、補間部分は、領域言語モデル及び汎用言語モデルのうち、領域言語モデルに出現する部分である。
選択肢として、汎用言語モデル及び領域言語モデルは、n-gramモデルであってもよい。これに基づいて、本実施例において、領域言語モデル及び汎用言語モデルに対して補間を行う時に、補間部分は、領域言語モデル及び汎用言語モデルのうち、領域言語モデルにだけ出現するn-gramエントリであり、つまり、補間部分は、領域言語モデルに出現するn-gramエントリだけを含み、領域言語モデルには出現していないn-gramエントリは含まない。
説明すべき点として、汎用言語モデル及び領域言語モデルのうち、領域言語モデルにだけ出現するn-gramエントリに対して補間を行うことは、実質的には、汎用言語モデル及び領域言語モデルのうち、領域言語モデルにだけ出現するn-gramエントリに対して確率的補間を行うものであり、領域言語モデル及び汎用言語モデルを3次言語モデルとすると、tri-gramの確率的補間式は次のようになる。
Figure 0007278477000001
ここで、p(ω|ωn-2ωn-1)はωn-2とωn-1が出現した場合、ωの出現確率であり、pは汎用言語モデルのうち、領域言語モデルにだけ出現するn-gramエントリの確率であり、poldは領域言語モデルのうち、n-gramエントリの確率であり、pnewは汎用言語モデルと領域言語モデルのうち、領域言語モデルにだけ出現するn-gramエントリに対して補間を行った後の確率であり、αは補間係数である。
S202では、補間部分に基づいて領域復号化ネットワークを生成する。
具体的には、補間部分をバイナリ変換して領域復号化ネットワークを得る。
補間部分のn-gramエントリ(すなわち、領域言語モデルにだけ出現するn-gramエントリ)の数が少ないため、補間部分に基づいて領域復号化ネットワークを生成するのにかかる時間と占有する記憶リソースが少ない。
上記の実施例の「S103:領域復号化ネットワークを汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得する」を説明する。
領域復号化ネットワークを汎用復号化ネットワークに組み込むための実施形態はいくつがある。
考えられる1つの実施形態において、対象復号化ネットワークを取得するように、領域
復号化ネットワークと汎用復号化ネットワークを並列接続することができる。
領域復号化ネットワークと汎用復号化ネットワークを並列接続して得られた対象ネットワークを用いて復号化する場合、認識対象音声データを領域復号化ネットワーク及び汎用復号化ネットワークにそれぞれ入力して復号化し、汎用復号化ネットワークの復号化経路と領域復号化ネットワークの復号化経路をそれぞれ取得ことができ、汎用復号化ネットワークの復号化経路のスコアと領域復号化ネットワークの復号化経路のスコアとを比較し、スコアが高い復号化経路を最終的な復号化経路とし、つまり、最終的な復号化経路が領域復号化ネットワークの復号化経路、又は汎用復号化ネットワークの復号化経路である。最後には、最終的な復号化経路に基づいて復号化結果を生成する。
本案の発明者は、領域復号化ネットワークと汎用復号化ネットワークを並列接続して得られた対象復号化ネットワークは、汎用語彙だけを含む音声、特定領域の専門語彙だけを含む音声を正確に認識するが、汎用語彙と特定領域の専門語彙との両方を含む音声の認識効果がよくないことを発見した。認識対象言語は、ある場合には、汎用語彙と専門語彙との大量の語彙を含む連続的な音声であるため、領域復号化ネットワークと汎用復号化ネットワークを並列接続して得られた復号化ネットワークは、大量の語彙を含む連続的な音声認識には適していないことが理解される。
上記の問題に鑑みて、本出願は、領域復号化ネットワークを汎用復号化ネットワークに組み込む別の実施形態を提供する。当該実施形態の基本的な考え方は、領域復号化ネットワークと汎用復号化ネットワークとを直列接続することであり、領域復号化ネットワークと汎用復号化ネットワークとを直列接続して得られた対象復号化ネットワークは、汎用語彙と専門語彙との両方を含む音声を正確に認識でき、大量の語彙を含む連続的な音声認識に適している。
図3は、領域復号化ネットワークと汎用復号化ネットワークとを直列接続する実現プロセスのフローチャートを示す。以下のステップを含む。
S301:汎用復号化ネットワーク及び領域復号化ネットワークのそれぞれに仮想ノードを追加する。
このうち、仮想ノードは開始ノード及び終了ノードを含む。
S302:開始ノード及び終了ノードを用いて、汎用復号化ネットワークと領域復号化ネットワークとを直列接続する。
具体的には、開始ノード及び終了ノードを用いて汎用復号化ネットワークと領域復号化ネットワークとを直列接続するプロセスは、汎用復号化ネットワークのために追加された終了ノードと、領域復号化ネットワークのために追加された開始ノードとを、終了ノードから開始ノードへの方向に沿って有向接続を行うことと、領域復号化ネットワークのために追加された終了ノードと、汎用復号化ネットワークのために追加された開始ノードを、終了ノードから開始ノードへの方向に沿って有向接続を行うこととを含む。
図4は、領域復号化ネットワークと汎用復号化ネットワークとを直列接続して得られた対象復号化ネットワークの模式図を示す。図4に示すように、汎用復号化ネットワークは、ノード1、ノード2及びノード3を含み、領域復号化ネットワークは、ノード4、ノード5及びノード6を含む。
領域復号化ネットワークと汎用復号化ネットワークとを直列接続するために、領域復号化ネットワークと汎用復号化ネットワークのためにそれぞれ仮想的な開始ノードと仮想的な終了ノードを作成し、汎用復号化ネットワークのために作成された開始ノードと汎用復号化ネットワーク内のノード1に対して有向接続(開始ノードからノード1への方向)を
行い、汎用復号化ネットワーク内のノード3と汎用復号化ネットワークのために作成された終了ノードに対して有向接続(ノード3から終了ノードへの方向)を行い、汎用復号化ネットワークのために作成された終了ノードと汎用復号化ネットワークのために作成された開始ノードに対して有向接続(終了ノードから開始ノードへの方向)を行う。
領域復号化ネットワークのために作成された開始ノードと領域復号化ネットワーク内のノード4に対して有向接続(開始ノードからノード4への方向)を行い、領域復号化ネットワーク内のノード6と領域復号化ネットワークのために作成された終了ノードに対して有向接続(ノード6から終了ノードへの方向)を行い、領域復号化ネットワークのために作成された終了ノードと領域復号化ネットワークのために作成された開始ノードに対して有向接続(終了ノードから開始ノードへの方向)を行い、汎用復号化ネットワークのために作成された終了ノードと領域復号化ネットワークのための開始ノードに対して有向接続(終了ノードから開始ノードへの方向)を行い、領域復号化ネットワークのために作成された終了ノードと汎用復号化ネットワークのための開始ノードに対して有向接続(終了ノードから開始ノードへの方向)を行う。
領域復号化ネットワークと汎用復号化ネットワークとを直列接続して得られた対象復号化ネットワークを用いて認識対象音声を復号化する時に、認識対象音声データに汎用語彙及び専門語彙の両方が含まれる場合、最終的な復号化経路は、汎用復号化ネットワークの復号化経路と領域復号化ネットワークの復号化経路からなる。例えば、認識対象音声データが「音声認識を開始する」であり、「を開始する」に対応する復号化経路が汎用復号化ネットワークに存在し、「音声認識」に対応する復号化経路が領域復号化ネットワークに存在し、最終的な復号化経路は「を開始する」に対応する復号化経路と「音声認識」に対応する復号化経路からなる。説明すべき点として、汎用復号化ネットワークの復号化経路と領域復号化ネットワークの復号化経路は終了ノードを介して接続されている。
説明すべき点として、領域復号化ネットワーク及び汎用復号化ネットワークに追加された開始ノード及び終了ノードは、ミュート(sil)に設定されてもよい。開始ノード及び終了ノードは復号化の結果に影響を与えない。対象復号化ネットワークを用いて認識対象音声データを復号化する時に、識別対象音声データの各音声フレームは、2つの開始ノードを介してそれぞれ領域復号化ネットワーク及び汎用復号化ネットワークに入って復号化される。図4に示すように、認識対象音声データの各音声フレームを、開始記号「<s>」から入力し、2つの開始ノードにスキップし、汎用復号化ネットワーク及び領域復号化ネットワークにそれぞれ入力して復号化し、汎用復号化ネットワーク又は領域復号化ネットワークにおける候補経路が終了ノードを含む場合、終了ノードから少なくとも1つの開始ノードにスキップし、音声フレームが終了するまで汎用復号化ネットワーク及び/又は領域復号化ネットワークにおいて復号化を継続し、終了記号「<s>」を出力し、直列接続復号化プロセスを完了する。
上記の実施例に基づいて、本出願の実施例はまた、音声認識方法を提供し、図5は、当該音声認識方法のフローチャートを示す。以下のステップを含む。
S501:対象復号化ネットワークを用いて認識対象音声データを復号化し、認識対象音声データの復号化経路を取得する。
このうち、対象復号化ネットワークは、上述した実施例に係る復号化ネットワーク構築方法を用いて構築された復号化ネットワークである。
考えられる1つの実施形態において、対象復号化ネットワークの復号化経路は、latticeとして表示されてもよい。説明すべき点として、Latticeは重み付き無向グラフであり、Lattice内の各ノードは音響単位を表し、各アークは音響重みと言語重みとの2つの重みを含み、Latticeの左から右に向かういずれか経路で音声認
識結果を構成し、経路における各辺の音響重みを加算し、これに経路に対応する言語重みを加算したものを経路全体のスコアとする。
具体的には、対象復号化ネットワークを用いて認識対象音声データを復号化し、認識対象音声データの復号化経路を取得するプロセスは、認識対象音声データの各音声フレームを対象復号化ネットワークに順次入力して復号化し、認識対象音声データの復号化経路を取得することを含んでもよい。
このうち、認識対象音声データの各音声フレームを、対象復号化ネットワークの2つの仮想的な開始ノードを介して、それぞれ対象復号化ネットワークの汎用復号化ネットワーク及び領域復号化ネットワークに入力して復号化し、汎用復号化ネットワーク又は領域復号化ネットワークの候補復号化経路が終了ノードを含む場合、当該終了ノードから当該終了ノードに接続されている少なくとも1つの開始ノードにスキップし、音声フレームの終了まで汎用復号化ネットワーク及び/又は領域復号化ネットワークに入力して復号化を継続する。
説明すべき点として、候補復号化経路が終了ノードを含む場合、汎用復号化ネットワークに入る経路のスコア及び領域復号化ネットワークに入る経路のスコアの両方とも予め設定された経路スコア閾値以上であれば、当該終了ノードは、当該終了ノードに接続されている2つの開始ノードにスキップし、汎用復号化ネットワーク及び領域復号化ネットワークに入って復号化する。汎用復号化ネットワークに入る経路のスコアが経路スコア閾値以上であり、領域復号化ネットワークに入る経路のスコアが経路スコア閾値未満であれば、当該終了ノードは、汎用復号化ネットワークのために作成された開始ノードにスキップし、汎用復号化ネットワークに入って復号化する。領域復号化ネットワークに入る経路のスコアが経路スコア閾値以上であり、汎用復号化ネットワークに入る経路のスコアが経路スコア閾値未満であれば、当該終了ノードは、領域復号化ネットワークのために作成された開始ノードにスキップし、領域復号化ネットワークに入って復号化する。
S502:認識対象音声データの復号化経路に基づいて、認識対象音声データの音声認識結果を決定する。
認識対象音声データの復号化経路に基づいて、認識対象音声データの音声認識結果を決定するための実施形態はいくつがある。
考えられる1つの実施形態において、認識対象音声データの復号化経路に基づいて、候補音声認識結果と各候補音声認識結果のスコアを取得し、スコアが最も高い候補音声認識結果を認識対象音声データの音声認識結果としてもよい。
考えられる別の実施形態において、予め取得された上位言語モデル及び認識対象音声データの復号化経路により、認識対象音声データの音声認識結果を決定してもよい。具体的には、認識対象音声データの復号化経路を予め取得された上位言語モデルに入力し、認識対象音声データの音声認識結果を取得してもよい。説明すべき点として、上位言語モデルは、領域言語モデルを用いて汎用言語モデルに対して補間を行って得られる。上位言語モデルは、認識対象音声データの音声認識結果として、複数の候補認識結果から最適な認識結果を選択することができる。
本出願の実施例に係る音声認識方法では、対象復号化ネットワークは、汎用復号化ネットワークに領域復号化ネットワークを組み込んで得られるため、対象復号化ネットワークを用いて、特定領域の専門語彙を含む認識対象音声を正確に認識することができる。
以下、本出願の実施例に係る復号化ネットワーク構築装置を説明する。以下に説明する復号化ネットワーク構築装置は、上述した復号化ネットワーク構築方法に互いに対応して参照される。
図6は、本出願の実施例に係る復号化ネットワーク構築装置の構成図を示す。当該復号化ネットワーク構築装置は、言語モデル・汎用復号化ネットワーク取得モジュール601、領域復号化ネットワーク生成モジュール602、復号化ネットワーク組み込みモジュール603を含むことができる。
言語モデル・汎用復号化ネットワーク取得モジュール601は、汎用言語モデル、領域言語モデル、及び汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得する。
領域復号化ネットワーク生成モジュール602は、汎用言語モデル及び領域言語モデルに基づいて領域復号化ネットワークを生成する。
復号化ネットワーク組み込みモジュール603は、領域復号化ネットワークを汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得する。
本出願の実施例に係る復号化ネットワーク構築装置は、汎用復号化ネットワークに領域復号化ネットワークを組み込むことにより、最終的に取得した対象復号化ネットワークが汎用語彙だけでなく、特定領域の専門語彙も正確に認識することができる。本出願の実施例により構築された対象復号化ネットワークは、汎用復号化ネットワークに比べ、特定領域の専門語彙の音声認識精度を向上させる。また、領域復号化ネットワークの生成にかかる時間及び占有する記憶リソースは、汎用復号化ネットワークの再生成に要する時間及び占有する記憶リソースに比べて大幅に低減される。
考えられる1つの実施形態において、上記の実施例に係る復号化ネットワーク構築装置における領域復号化ネットワーク生成モジュール602は、補間サブモジュール及び領域復号化ネットワーク生成サブモジュールを含むことができる。
補間サブモジュールは、前記汎用言語モデル及び前記領域言語モデルに対して補間を行い、このうち、補間部分は、前記領域言語モデル及び前記汎用言語モデルのうち、前記領域言語モデルに出現する部分である。
領域復号化ネットワーク生成サブモジュールは、補間部分に基づいて領域復号化ネットワークを生成する。
考えられる1つの実施形態において、上記の実施例に係る復号化ネットワーク構築装置における復号化ネットワーク組み込みモジュール603は、特に領域復号化ネットワークと汎用復号化ネットワークとを直列接続し、対象復号化ネットワークを取得する。
考えられる1つの実施形態において、上記の実施例に係る復号化ネットワーク構築装置における復号化ネットワーク組み込みモジュール603は、ノード追加サブモジュール及び直列接続サブモジュールを含む。
ノード追加サブモジュールは、汎用復号化ネットワーク及び領域復号化ネットワークのそれぞれに、開始ノードと終了ノードとを含む仮想ノードを追加する。
直列接続サブモジュールは、開始ノード及び終了ノードを用いて、汎用復号化ネットワ
ークと領域復号化ネットワークとを直列接続する。
考えられる1つの実施形態において、直列接続サブモジュールは、特に汎用復号化ネットワークのために作成された終了ノードと、領域復号化ネットワークのために作成された開始ノードとを、終了ノードから開始ノードへの方向に沿って有向接続を行い、領域復号化ネットワークのために作成された終了ノードと、汎用復号化ネットワークのために作成された開始ノードを、終了ノードから開始ノードへの方向に沿って有向接続を行う。
上記の音声認識方法に対応し、本出願の実施例はまた、音声認識装置を提供する。図7は、復号化モジュール701及び音声認識結果決定モジュール702を含むことができる音声認識装置の構成図を示す。
復号化モジュール701は、上記の実施例に係る復号化ネットワーク構築装置により構築された対象復号化ネットワークを用いて認識対象音声データを復号化し、認識対象音声データの復号化経路を取得する。
音声認識結果決定モジュール702は、認識対象音声データの復号化経路に基づいて、認識対象音声データの音声認識結果を決定する。
本出願の実施例に係る音声認識方法では、対象復号化ネットワークは、汎用復号化ネットワークに領域復号化ネットワークを組み込んで得られるため、対象復号化ネットワークを用いて、特定領域の専門語彙を含む認識対象音声を正確に認識することができる。
考えられる1つの実施形態において、上記の実施例に係る音声認識装置内の復号化モジュール701は、特に予め取得した上位言語モデル及び認識対象音声データの復号化経路により、認識対象音声データの音声認識結果を決定する、このうち、上位言語モデルは、領域言語モデルを用いて汎用言語モデルに対して補間を行って得られる。
考えられる1つの実施形態において、上記の実施例に係る音声認識装置における復号化モジュール701は、特に識別対象音声データの各音声フレームを対象復号ネットワークに順次入力して復号化し、識別対象音声データの復号化経路を取得する。
このうち、認識対象音声データの各音声フレームを、対象復号化ネットワークの2つの開始ノードを介して、それぞれ対象復号化ネットワークの汎用復号化ネットワーク及び領域復号化ネットワークに入力して復号化し、汎用復号化ネットワーク又は領域復号化ネットワークの候補復号化経路が終了ノードを含む場合、当該終了ノードから当該終了ノードに接続されている少なくとも1つの開始ノードにスキップし、音声フレームの終了まで汎用復号化ネットワーク及び/又は領域復号化ネットワークに入力して復号化を継続する。
本出願の実施例はまた、復号化ネットワーク構築設備を提供する。図8は、当該復号化ネットワーク構築設備の構造図を示す。当該復号化ネットワーク構築設備は、少なくとも1つのプロセッサ801、少なくとも1つの通信ポート802、少なくとも1つのメモリ803、少なくとも1つの通信バス804を含んでもよい。
本出願の実施例において、プロセッサ801、通信ポート802、メモリ803、通信バス804の数が少なくとも1つであり、且つプロセッサ801、通信ポート802、メモリ803は、通信バス804を介して相互通信を行う。
プロセッサ801は、1つの中央処理装置CPU、又は特定用途向け集積回路ASIC(Application Specific Integrated Circuit
)、又は本発明の実施例を実施するように構成されている1つ又は複数の集積回路などであり得る。
メモリ803は、高速RAMメモリを含んでもよい、また、少なくとも1つのディスクメモリなどの不揮発性メモリ(non-volatile memory)などを含んでもよい。
このうち、メモリには、プログラムを格納し、プロセッサは、メモリに格納されるプログラムを呼び出してもよい。前記プログラムは、
汎用言語モデル、領域言語モデル、及び前記汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得し、
領域言語モデル及び汎用言語モデルに基づいて領域復号化ネットワークを生成し、
領域復号化ネットワークを前記汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得する。
選択肢として、前記プログラムの詳細化機能及び拡張機能は、上記の説明を参照することができる。
本出願の実施例はまた、読取可能な記憶媒体を提供する。当該読取可能な記憶媒体は、プロセッサによって実行されるプログラムを格納することができる。前記プログラムは、
汎用言語モデル、領域言語モデル、及び汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得し、
領域言語モデル及び汎用言語モデルに基づいて領域復号化ネットワークを生成し、
領域復号化ネットワークを汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得する。
本出願の実施例はまた、音声認識装置を提供する。図9は、音声認識設備の構造図を示す。当該音声認識設備は、少なくとも1つのプロセッサ901、少なくとも1つの通信ポート902、少なくとも1つのメモリ903、少なくとも1つの通信バス904を含んでもよい。
本出願の実施例において、プロセッサ901、通信ポート902、メモリ903、通信バス904の数が少なくとも1つであり、且つプロセッサ901、通信ポート902、メモリ903は、通信バス904を介して相互通信を行う。
プロセッサ901は、1つの中央処理装置CPU、又は特定用途向け集積回路ASIC(Application Specific Integrated Circuit)、又は本発明の実施例を実施するように構成されている1つ又は複数の集積回路などであり得る。
メモリ903は、高速RAMメモリを含んでもよい、また、少なくとも1つのディスクメモリなどの不揮発性メモリ(non-volatile memory)などを含んでもよい。
このうち、メモリには、プログラムを格納し、プロセッサは、メモリに格納されるプログラムを呼び出してもよい。前記プログラムは、
上記の実施例に係る復号化ネットワーク構築方法により構築された対象復号化ネットワークを用いて認識対象音声データを復号化し、認識対象音声データの復号化経路を取得し、
認識対象音声データの復号化経路に基づいて、認識対象音声データの音声認識結果を決
定する。
選択肢として、前記プログラムの詳細化機能及び拡張機能は、上記の説明を参照することができる。
本出願の実施例はまた、読取可能な記憶媒体を提供する。当該読取可能な記憶媒体は、プロセッサによって実行されるプログラムを格納することができる。前記プログラムは、
上記の実施例に係る復号化ネットワーク構築方法により構築された対象復号化ネットワークを用いて認識対象音声データを復号化し、認識対象音声データの復号化経路を取得し、
認識対象音声データの復号化経路に基づいて、認識対象音声データの音声認識結果を決定する。
最後に、説明すべき点として、本明細書では、第一及び第二のような関係用語は、単に1つのエンティティ又は動作を別のエンティティ又は動作から区別するために使用され、これらのエンティティ又は動作の間にそのような実際の関係又は順序が存在することを必ずしも要求又は暗示するものではない。さらに、用語「備える」、「含む」又はそれらの他の変形は、排他的ではない「含む」をカバーすることを意図しており、一連の要素を含むプロセス、方法、物品又は設備が、それらの要素だけでなく、明示的に記載されていない他の要素、又はそのようなプロセス、方法、物品又は設備に固有の要素も含む。これ以上の制限がない場合には、「1つの…を含む」という文によって限定される要素は、前記要素を含むプロセス、方法、物品又は設備の中に別の同じ要素が存在することを排除しない。
本明細書中の各実施例は、漸進的に説明されており、各実施例は、他の実施例との相違点に重点を置いて説明され、各実施例の間で同一で類似している部分は互いに参照すればよい。
開示された実施例の上記の説明は、当業者が本発明を実施又は使用することを可能にする。これらの実施例に対するさまざまな修正は、当業者にとって自明であり、本明細書で定義された一般的な原理は、本発明の精神又は範囲から逸脱することなく、他の実施例で実現されてもよい。したがって、本発明は、本明細書で示されたこれらの実施例に限定されるのではなく、本明細書で開示された原理及び新規な特徴に一致する最も広い範囲に適合する。

Claims (16)

  1. 汎用言語モデル、領域言語モデル、及び前記汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得することと、
    前記領域言語モデル及び前記汎用言語モデルに基づいて、領域復号化ネットワークを生成することと、
    前記領域復号化ネットワークを前記汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得することと、
    を含むことを特徴とする復号化ネットワーク構築方法。
  2. 前記汎用言語モデル及び前記領域言語モデルに基づいて、領域復号化ネットワークを生成することは、
    前記汎用言語モデル及び前記領域言語モデルに対して補間を行い、このうち、補間部分は、前記領域言語モデル及び前記汎用言語モデルのうち、前記領域言語モデルに出現する部分であることと、
    補間部分に基づいて前記領域復号化ネットワークを生成することと、
    を含むことを特徴とする請求項1に記載の復号化ネットワーク構築方法。
  3. 前記領域復号化ネットワークを前記汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得することは、
    前記領域復号化ネットワークと前記汎用復号化ネットワークとを直列接続し、前記対象復号化ネットワークを取得することを含む、
    ことを特徴とする請求項1に記載の復号化ネットワーク構築方法。
  4. 前記領域復号化ネットワークと前記汎用復号化ネットワークとを直列接続することは、
    前記汎用復号化ネットワーク及び前記領域復号化ネットワークのそれぞれに、開始ノードと終了ノードとを含む仮想ノードを追加することと、
    前記開始ノード及び前記終了ノードを用いて、前記汎用復号化ネットワークと前記領域復号化ネットワークとを直列接続することと、
    を含むことを特徴とする請求項3に記載の復号化ネットワーク構築方法。
  5. 前記開始ノード及び前記終了ノードを用いて、前記汎用復号化ネットワークと前記領域復号化ネットワークとを直列接続することは、
    前記汎用復号化ネットワークのために作成された終了ノードと、前記領域復号化ネットワークのために作成された開始ノードとを、終了ノードから開始ノードへの方向に沿って有向接続を行うことと、
    前記領域復号化ネットワークのために作成された終了ノードと、前記汎用復号化ネットワークのために作成された開始ノードとを、終了ノードから開始ノードへの方向に沿って有向接続を行うことと、
    を含むことを特徴とする請求項4に記載の復号化ネットワーク構築方法。
  6. 請求項1~5のいずれか1項に記載の復号化ネットワーク構築方法により構築された対象復号化ネットワークを用いて認識対象音声データを復号化し、前記認識対象音声データの復号化経路を取得することと、
    前記認識対象音声データの復号化経路に基づいて、前記認識対象音声データの音声認識結果を決定することと、
    を含むことを特徴とする音声認識方法。
  7. 前記認識対象音声データの復号化経路に基づいて、前記認識対象音声データの音声認識結果を決定することは、
    予め取得した上位言語モデル及び前記認識対象音声データの復号化経路により、前記認識対象音声データの音声認識結果を決定することを含み、
    このうち、前記上位言語モデルは、領域言語モデルを用いて汎用言語モデルに対して補間を行うことで取得される、
    ことを特徴とする請求項6に記載の音声認識方法。
  8. 前記対象復号化ネットワークを用いて前記認識対象音声データを復号化し、前記認識対象音声データの復号化経路を取得することは、
    前記認識対象音声データの各音声フレームを前記対象復号化ネットワークに順次入力して復号化し、前記認識対象音声データの復号化経路を取得することを含み、
    このうち、前記認識対象音声データの各音声フレームを、前記対象復号化ネットワークの2つの開始ノードを介して、それぞれ前記対象復号化ネットワークの汎用復号化ネットワーク及び領域復号化ネットワークに入力して復号化し、前記汎用復号化ネットワーク又は前記領域復号化ネットワークの候補復号化経路が終了ノードを含む場合、当該終了ノードから当該終了ノードに接続されている少なくとも1つの開始ノードにスキップし、音声フレームの終了まで前記汎用復号化ネットワーク及び/又は前記領域復号化ネットワークに入力して復号化を継続する、
    ことを特徴とする請求項6に記載の音声認識方法。
  9. 復号化ネットワーク構築装置であって、言語モデル・汎用復号化ネットワーク取得モジュール、領域復号化ネットワーク生成モジュール及び復号化ネットワーク組み込みモジュールを含み、
    前記言語モデル・汎用復号化ネットワーク取得モジュールは、汎用言語モデル、領域言語モデル、及び前記汎用言語モデルに基づいて生成された汎用復号化ネットワークを取得し、
    前記領域復号化ネットワーク生成モジュールは、前記汎用言語モデル及び前記領域言語モデルに基づいて、領域復号化ネットワークを生成し、
    前記復号化ネットワーク組み込みモジュールは、前記領域復号化ネットワークを前記汎用復号化ネットワークに組み込み、対象復号化ネットワークを取得する、
    ことを特徴とする復号化ネットワーク構築装置。
  10. 前記領域復号化ネットワーク生成モジュールは、補間サブモジュールと領域復号化ネットワーク生成サブモジュールとを含み、
    前記補間サブモジュールは、前記汎用言語モデル及び前記領域言語モデルに対して補間を行い、このうち、補間部分は、前記領域言語モデル及び前記汎用言語モデルのうち、前記領域言語モデルに出現する部分であり、
    前記領域復号化ネットワーク生成サブモジュールは、前記補間部分に基づいて前記領域復号化ネットワークを生成する、
    ことを特徴とする請求項9に記載の復号化ネットワーク構築装置。
  11. 前記復号化ネットワーク組み込みモジュールは、前記領域復号化ネットワークと前記汎用復号化ネットワークとを直列接続し、前記対象復号化ネットワークを取得する、
    ことを特徴とする請求項9に記載の復号化ネットワーク構築装置。
  12. 音声認識装置であって、復号化モジュール及び音声認識結果決定モジュールを含み、
    前記復号化モジュールは、請求項9~11のいずれか1項に記載の復号化ネットワーク構築装置により構築された対象復号化ネットワークを用いて認識対象音声データを復号化して、前記認識対象音声データの復号化経路を取得し、
    前記音声認識結果決定モジュールは、前記認識対象音声データの復号化経路に基づいて、前記認識対象音声データの音声認識結果を決定する、
    ことを特徴とする音声認識装置。
  13. 復号化ネットワーク構築設備であって、メモリ及びプロセッサを含み、
    前記メモリは、プログラムを格納し、
    前記プロセッサは、前記プログラムを実行し、請求項1~5のいずれか1項に記載の復号化ネットワーク構築方法の各ステップを実現する、
    ことを特徴とする復号化ネットワーク構築設備。
  14. コンピュータプログラムを格納する読取可能な記憶媒体であって、
    前記コンピュータプログラムがプロセッサによって実行される時に、請求項1~5のいずれか1項に記載の復号化ネットワーク構築方法の各ステップを実現する、
    ことを特徴とする読取可能な記憶媒体。
  15. 音声認識設備であって、メモリ及びプロセッサを含み、
    前記メモリは、プログラムを格納し、
    前記プロセッサは、前記プログラムを実行し、請求項6~8のいずれか1項に記載の音声認識方法の各ステップを実現する、
    ことを特徴とする音声認識設備。
  16. コンピュータプログラムを格納する読取可能な記憶媒体であって、
    前記コンピュータプログラムがプロセッサによって実行される時に、請求項6~8のいずれか1項に記載の音声認識方法の各ステップを実現する、
    ことを特徴とする読取可能な記憶媒体。
JP2022517515A 2019-10-16 2019-12-12 復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体 Active JP7278477B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910983196.3 2019-10-16
CN201910983196.3A CN110610700B (zh) 2019-10-16 2019-10-16 解码网络构建方法、语音识别方法、装置、设备及存储介质
PCT/CN2019/124790 WO2021072955A1 (zh) 2019-10-16 2019-12-12 解码网络构建方法、语音识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022548718A JP2022548718A (ja) 2022-11-21
JP7278477B2 true JP7278477B2 (ja) 2023-05-19

Family

ID=68894690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022517515A Active JP7278477B2 (ja) 2019-10-16 2019-12-12 復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体

Country Status (6)

Country Link
US (1) US20220375459A1 (ja)
EP (1) EP4047597A4 (ja)
JP (1) JP7278477B2 (ja)
KR (1) KR102576505B1 (ja)
CN (1) CN110610700B (ja)
WO (1) WO2021072955A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402864A (zh) * 2020-03-19 2020-07-10 北京声智科技有限公司 语音处理方法及电子设备
CN111508478B (zh) * 2020-04-08 2023-04-11 北京字节跳动网络技术有限公司 语音识别方法和装置
CN111951788A (zh) * 2020-08-10 2020-11-17 百度在线网络技术(北京)有限公司 一种语言模型的优化方法、装置、电子设备及存储介质
CN111933118B (zh) * 2020-08-17 2022-11-15 思必驰科技股份有限公司 进行语音识别优化的方法、装置及应用其的智能语音对话系统
CN112820277B (zh) * 2021-01-06 2023-08-25 网易(杭州)网络有限公司 语音识别服务定制方法、介质、装置和计算设备
CN112951237B (zh) * 2021-03-18 2022-03-04 深圳奇实科技有限公司 一种基于人工智能的自动语音识别方法及系统
CN113113024A (zh) * 2021-04-29 2021-07-13 科大讯飞股份有限公司 语音识别方法、装置、电子设备和存储介质
CN113299280A (zh) * 2021-05-12 2021-08-24 山东浪潮科学研究院有限公司 基于Kaldi的专业词汇语音识别方法
CN113779972B (zh) * 2021-09-10 2023-09-15 平安科技(深圳)有限公司 语音识别纠错方法、系统、装置及存储介质
CN113782001B (zh) * 2021-11-12 2022-03-08 深圳市北科瑞声科技股份有限公司 一种特定领域语音识别方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011113043A (ja) 2009-11-30 2011-06-09 Nippon Telegr & Teleph Corp <Ntt> 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム
JP2016512609A (ja) 2013-01-29 2016-04-28 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 自動音声認識のための方法およびシステム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077708B (zh) * 2012-12-27 2015-04-01 安徽科大讯飞信息科技股份有限公司 一种语音识别系统中拒识能力提升方法
CN103065630B (zh) * 2012-12-28 2015-01-07 科大讯飞股份有限公司 用户个性化信息语音识别方法及系统
CN103971686B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 自动语音识别方法和系统
CN104157285B (zh) * 2013-05-14 2016-01-20 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
US9460088B1 (en) * 2013-05-31 2016-10-04 Google Inc. Written-domain language modeling with decomposition
CN104282301A (zh) * 2013-07-09 2015-01-14 安徽科大讯飞信息科技股份有限公司 一种语音命令处理方法以及系统
CN103700369B (zh) * 2013-11-26 2016-08-31 科大讯飞股份有限公司 语音导航方法及系统
CN104064184B (zh) * 2014-06-24 2017-03-08 科大讯飞股份有限公司 异构解码网络的构建方法及系统、语音识别方法及系统
JP6358744B2 (ja) * 2014-08-25 2018-07-18 日本放送協会 音声認識誤り修正装置
CN106294460B (zh) * 2015-05-29 2019-10-22 中国科学院声学研究所 一种基于字和词混合语言模型的汉语语音关键词检索方法
CN108932944B (zh) * 2017-10-23 2021-07-30 北京猎户星空科技有限公司 解码方法及装置
US10490183B2 (en) * 2017-11-22 2019-11-26 Amazon Technologies, Inc. Fully managed and continuously trained automatic speech recognition service
US10672388B2 (en) * 2017-12-15 2020-06-02 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for open-vocabulary end-to-end speech recognition
CN108305634B (zh) * 2018-01-09 2020-10-16 深圳市腾讯计算机系统有限公司 解码方法、解码器及存储介质
CN108538285B (zh) * 2018-03-05 2021-05-04 清华大学 一种基于多任务神经网络的多样例关键词检测方法
JP6578049B2 (ja) * 2018-09-18 2019-09-18 日本放送協会 学習データ生成装置及びそのプログラム
CN110120221A (zh) * 2019-06-06 2019-08-13 上海蔚来汽车有限公司 用于车机系统的用户个性化离线语音识别方法及其系统
CN110322884B (zh) * 2019-07-09 2021-12-07 科大讯飞股份有限公司 一种解码网络的插词方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011113043A (ja) 2009-11-30 2011-06-09 Nippon Telegr & Teleph Corp <Ntt> 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム
JP2016512609A (ja) 2013-01-29 2016-04-28 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 自動音声認識のための方法およびシステム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
奥貴裕他,放送音声と字幕テキストを利用した音声言語コーパスの開発,情報処理学会研究報告,情報処理学会,2014年10月,Vol.2014-SLP-103,No.2,pp. 1-5

Also Published As

Publication number Publication date
CN110610700B (zh) 2022-01-14
JP2022548718A (ja) 2022-11-21
CN110610700A (zh) 2019-12-24
EP4047597A1 (en) 2022-08-24
KR102576505B1 (ko) 2023-09-08
EP4047597A4 (en) 2023-11-15
KR20220062349A (ko) 2022-05-16
WO2021072955A1 (zh) 2021-04-22
US20220375459A1 (en) 2022-11-24

Similar Documents

Publication Publication Date Title
JP7278477B2 (ja) 復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体
WO2017166650A1 (zh) 语音识别方法及装置
US10242667B2 (en) Natural language generation in a spoken dialogue system
JP2021018797A (ja) 対話の交互方法、装置、コンピュータ可読記憶媒体、及びプログラム
US9047868B1 (en) Language model data collection
WO2019076286A1 (zh) 一种语句的用户意图识别方法和装置
WO2019174450A1 (zh) 一种对话生成的方法和装置
JP6677419B2 (ja) 音声対話方法及び装置
CN112307188B (zh) 对话生成方法、系统、电子设备和可读存储介质
KR20230006625A (ko) Wfst의 최적화를 이용하는 음성 인식 장치 및 음성 인식 방법
CN116670757A (zh) 用于简化的流式和非流式语音识别的级联编码器
WO2022142823A1 (zh) 人机对话方法、装置、计算机设备及可读存储介质
WO2012004955A1 (ja) テキスト補正方法及び認識方法
CN116884391A (zh) 基于扩散模型的多模态融合音频生成方法及装置
JP7329393B2 (ja) 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
JP7278309B2 (ja) 文章レベルテキストの翻訳方法及び装置
WO2019161753A1 (zh) 信息转换方法、装置、存储介质和电子装置
JP6485941B2 (ja) 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置
CN111681661B (zh) 语音识别的方法、装置、电子设备和计算机可读介质
WO2023185896A1 (zh) 一种文本生成方法、装置、计算机设备及存储介质
CN113689866B (zh) 一种语音转换模型的训练方法、装置、电子设备及介质
JP7335460B2 (ja) テキストエコー消去
RU2796047C1 (ru) Способ построения сети декодирования, способ и устройство для распознавания речи, а также носитель данных
JP6486789B2 (ja) 音声認識装置、音声認識方法、プログラム
CN110110294B (zh) 一种动态反向解码的方法、装置及可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230509

R150 Certificate of patent or registration of utility model

Ref document number: 7278477

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150