JP2016110082A - 言語モデル学習方法及び装置、音声認識方法及び装置 - Google Patents

言語モデル学習方法及び装置、音声認識方法及び装置 Download PDF

Info

Publication number
JP2016110082A
JP2016110082A JP2015206203A JP2015206203A JP2016110082A JP 2016110082 A JP2016110082 A JP 2016110082A JP 2015206203 A JP2015206203 A JP 2015206203A JP 2015206203 A JP2015206203 A JP 2015206203A JP 2016110082 A JP2016110082 A JP 2016110082A
Authority
JP
Japan
Prior art keywords
language model
learning
word
learning data
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015206203A
Other languages
English (en)
Other versions
JP6758811B2 (ja
Inventor
鎬 式 李
Ho-Shik Lee
鎬 式 李
喜 烈 崔
Hee Youl Choi
喜 烈 崔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2016110082A publication Critical patent/JP2016110082A/ja
Application granted granted Critical
Publication of JP6758811B2 publication Critical patent/JP6758811B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】 ニューラルネットワークに基づいた言語モデルを学習させる言語モデル学習方法及び装置、学習された言語モデルに基づいて音声データを認識する音声認識方法及び装置を提供すること。【解決手段】 一実施形態に係る言語モデル学習装置は、入力された学習データをエラーが含まれた学習データに変換し、エラーが含まれた学習データに基づいてニューラルネットワークに基づいた言語モデルを学習させ得る。音声認識装置は、学習された言語モデルを用いて音声データを認識し、音声データの認識結果を出力する。【選択図】 図1

Description

本発明は、ニューラルネットワーク基盤の言語モデルを学習させる技術及び言語モデルに基づいて音声認識を行う技術に関する。
入力パターンを特定グループに分類する問題を解決する方案として、人が有する効率的なパターン認識方法を実際のコンピュータに適用させようとする研究が活発に行われている。このような研究の1つとして、人の生物学的な神経細胞の特性を数学的表現によりモデリングした人工のニューラルネットワーク(neural network)に対する研究がなされている。入力パターンを特定グループに分類する問題を解決するために、ニューラルネットワークでは人が有している学習という能力を模倣したアルゴリズムを用いる。このアルゴリズムによってニューラルネットワークは、入力パターンと出力パターンとの間のマッピングを生成することができるが、これをニューラルネットワークが学習能力があると表現する。また、ニューラルネットワークは、学習された結果に基づいて学習に利用されていない入力パターンに対して比較的正しい出力を生成することのできる一般化能力を有する。
最近は、上のようなニューラルネットワークを用いて音声認識を行う技術が活発に研究されている。例えば、周辺ユーザの発話音声又は外部雑音などのような様々な環境における音声認識の正確度を高めるための研究が持続的に行われている。
一実施形態に係る言語モデル学習方法は、学習データをエラーが含まれた学習データに変換するステップと、前記エラーが含まれた学習データを用いてニューラルネットワークに基づいた言語モデルを学習させるステップとを含む。
一実施形態に係る言語モデル学習方法において、前記学習データを前記エラーが含まれた学習データに変換するステップは、前記学習データに含まれた単語のうち、エラー単語に代替される少なくとも1つの単語を選択するステップと、前記学習データで選択された単語をエラー単語に代替して前記エラーが含まれた学習データを生成するステップとを含んでもよい。
一実施形態に係る言語モデル学習方法において、前記学習データを前記エラーが含まれた学習データに変換するステップは、前記学習データで選択された単語に関する複数の候補単語のうち前記エラー単語を選択するステップをさらに含んでもよい。
一実施形態に係る言語モデル学習方法において、前記候補単語は、前記学習データで選択された単語との発音類似度に基づいて決定されてもよい。
一実施形態に係る言語モデル学習方法において、前記エラー単語を選択するステップは、前記候補単語に割り当てられた加重値に基づいて前記学習データで選択された単語を代替するエラー単語を選択してもよい。
一実施形態に係る言語モデル学習方法において、前記少なくとも1つの単語を選択するステップは、前記学習データに含まれた単語のうち前記少なくとも1つの単語をランダムに選択してもよい。
一実施形態に係る言語モデル学習方法において、前記学習データを前記エラーが含まれた学習データに変換するか否かを決定するステップをさらに含んでもよい。
他の実施形態に係る言語モデル学習方法は、単語間の発音類似度に基づいて学習データに含まれた単語をベクトル値に変換するステップと、前記ベクトル値を用いてニューラルネットワークに基づいた言語モデルを学習させるステップとを含む。
他の実施形態に係る言語モデル学習方法において、前記学習データに含まれた単語をベクトル値に変換するステップは、単語間の発音類似度に基づいたアコースティック埋め込みマトリックスを前記学習データに含まれた単語に適用し、前記学習データに含まれた単語を前記ベクトル値に変換してもよい。
他の実施形態に係る言語モデル学習方法において、前記学習データに含まれた単語をベクトル値に変換するステップは、前記アコースティック埋め込みマトリックスを用いて発音が類似の単語が互いに隣接するベクトル空間上に位置するよう、前記学習データに含まれた単語のベクトル値を決定してもよい。
他の実施形態に係る言語モデル学習方法において、前記アコースティック埋め込みマトリックスは、学習単語間の発音類似度に基づいて決定され、前記学習単語間の発音類似度は、前記学習単語の音素シーケンス間の発音類似度に基づいて決定されてもよい。
他の実施形態に係る言語モデル学習方法において、前記アコースティック埋め込みマトリックスは、互いに異なる単語間の発音距離を行列に表現した単語の間距離行列に多次元尺度法を適用して決定されてもよい。
一実施形態に係る言語モデル学習装置は、学習データをエラーが含まれた学習データに変換する学習データ変換部と、前記エラーが含まれた学習データを用いてニューラルネットワークに基づいた言語モデルを学習させる言語モデル学習部とを含む。
一実施形態に係る言語モデル学習装置において、前記学習データ変換部は、前記学習データに含まれた単語のうちエラー単語に変える少なくとも1つの単語を選択し、前記学習データで選択された単語をエラー単語に代替して前記エラーが含まれた学習データを生成してもよい。
一実施形態に係る言語モデル学習装置は、前記学習データを前記エラーが含まれた学習データに変換するか否かを決定する制御部をさらに含んでもよい。
他の実施形態に係る言語モデル学習装置は、単語間の発音類似度に基づいて学習データに含まれた単語をベクトル値に変換する学習データ変換部と、前記ベクトル値を用いてニューラルネットワークに基づいた言語モデルを学習させる言語モデル学習部とを含む。
他の実施形態に係る言語モデル学習装置において、前記学習データ変換部は、単語間の発音類似度に基づいたアコースティック埋め込みマトリックスを前記学習データに含まれた単語に適用し、前記学習データに含まれた単語を前記ベクトル値に変換してもよい。
一実施形態によると、言語モデルの認識正確度を改善させることができる。
一実施形態によると、音声認識に要する時間及び必要リソース量を節減することができる。
一実施形態に係る言語モデル学習装置の構成を示す図である。 他の実施形態に係る言語モデル学習装置の構成を示す図である。 一実施形態に係る言語モデルに用いられるニューラルネットワークを説明するための図である。 他の実施形態に係る言語モデルに用いられるニューラルネットワークを説明するための図である。 一実施形態に係る音声認識装置の構成を示す図である。 他の実施形態に係る音声認識装置の構成を示す図である。 更なる実施形態に係る音声認識装置の構成を示す図である。 一実施形態に係る言語モデル学習方法の動作を説明するためのフローチャートである。 他の実施形態に係る言語モデル学習方法の動作を説明するためのフローチャートである。 他の実施形態に係る言語モデル学習方法の動作をより具体化したフローチャートである。 更なる実施形態に係る言語モデル学習方法の動作を説明するためのフローチャートである。 更なる実施形態に係る言語モデル学習方法の動作をより具体化したフローチャートである。 一実施形態に係る音声認識方法の動作を示すフローチャートである。 一実施形態に係る言語モデル学習装置のハードウェア構成を示す図である。 一実施形態に係る音声認識装置のハードウェア構成を示す図である。 一実施形態に係る人工ニューロンを示す図である。 一実施形態に係るニューラルネットワークを示す図である。
以下、実施形態を添付する図面を参照しながら詳細に説明する。下記の特定の構造的ないし機能的な説明は単に実施形態を説明する目的のために例示したものであり、実施形態の範囲が本文に説明された内容に限定されるものと解釈されることはない。関連の技術分野で通常の知識を有する者であれば、このような記載から様々な修正及び変形が可能である。また、各図面に提示された同一の参照符号は同一の部材を示し、公知された機能及び構造は省略する。
図1は、一実施形態に係る言語モデル学習装置の構成を示す図である。図1を参照すると、言語モデル学習装置100は、学習データ変換部110及び言語モデル学習部120を含む。学習データ変換部110は入力された学習データを変換し、言語モデル学習部120は変換された学習データに基づいてニューラルネットワークに基づいた言語モデルを学習させ得る。ニューラルネットワークに基づいた言語モデルは、ニューラルネットワークが複数の学習例(training expels)を学習する能力を用いる1つ以上のニューラルネットワークに基づいた言語モデルを示す。
言語モデル学習装置100は、学習データに基づいてニューラルネットワーク基盤の言語モデルを学習させる。ニューラルネットワークは、複数の人工ニューロン(又は、ノード)を用いて生物学的なシステムの算出能力を模倣するソフトウェアやハードウェアに具現された認識モデルである。人工ニューロンは、接続加重値(connection weight)(又は、接続強度)を有する接続線を用いて相互接続され得る。接続加重値は、接続線が有する特定の値を示す。ニューラルネットワークは、人工ニューロンを介して人の認知作用や学習過程を行う。人工ニューロンの一例が図16に図示されている。図16によると、人工ニューロンは、n個の入力ソースから入力X−Xを受信する。例えば、n個の入力ソースは、他の人工ニューロン、センサ、入力データストレージ又は他のデータソースのシナプスであり得る。人工ニューロンの胴体部に接続された入力ベクトルは、それぞれの加重値W−Wによってスケーリングされる。受信された入力は、線形結合されたり、又は活動関数AF(x、x、...x)に基づいて受信された入力を結合するために適用される追加的な関数によって結合され得る。活動関数AF(x、x、...x)に基づいて、ニューロンの胴体部は結合された入力を調整して出力Yを生成する。一例によると、活動関数AF(x、x、...x)の結果は次のニューロンに出力Yを伝達するために閾値を超過しなければならない。人工ニューロンの構造について様々な変形及び修正が可能である。
図17は、一実施形態に係るニューラルネットワークを示す。ニューラルネットワーク1700は、複数のレイヤ1710、1720、1730、1740を含む。それぞれのレイヤは、人工ニューロンに対応する1つ以上のノードを含む。例えば、ニューラルネットワーク100は、入力レイヤ1710、2つの隠れレイヤ1720、1730、及び出力レイヤ1740を含む。入力レイヤ1710は入力を受信し、受信された入力を隠れレイヤ1720を経て隠れレイヤ1730に伝達する。出力レイヤ1740は、隠れレイヤ1730から受信した信号に基づいて出力値を生成する。
言語モデルは、単語間の連結関係に基づいた確率値を提供することができる。言語モデルは、ニューラルネットワークの認識機能を用いて入力された単語に連結される次の単語に対する確率値を提供することができる。例えば、言語モデルに「this」の単語が入力される場合、言語モデルは「this」の次に「is」又は「was」が連結する確率値を決定する。言語モデルは、スマートフォン、スマートTVなどのような様々なスマート機器に適用されて音声認識に用いることができる。また、言語モデルは、S−Voiceのような音声基盤の個人秘書サービス、車両用音声命令システム、音声ディクテーション(voice dictation)などのアプリケーションに用いることができる。
言語モデル学習装置100は学習させる学習データを変形し、変形された学習データに基づいてニューラルネットワークに基づいた言語モデルを学習させ得る。言語モデル学習装置100は、学習データに人為的にエラーを含ませたり、又は学習データを発音上の類似度に基づいたベクトル値に変換し得る。言語モデルは、上記のように変形された学習データを学習することで、音声データに含まれたノイズに強い特性を有し得る。例えば、ノイズの含まれた音声データが言語モデルに入力されても、変形された学習データの学習結果によって言語モデルから正解である結果が出力される確率が高くなる。
以下は、言語モデル学習装置100がニューラルネットワークに基づいた言語モデルを学習させるとき、1学習データに人為的にエラーを含ませる実施形態と、2単語間の発音類似度に基づいて学習データを変換する実施形態とを区別して説明することにする。
<学習データに人為的にエラーを含ませる実施形態>
一実施形態によると、言語モデル学習装置100は、学習データにエラー(又は、ノイズ)を付加してニューラルネットワークに基づいた言語モデルを学習させ得る。言語モデルが人為的にエラーが含まれた学習データを学習することで、認識過程において言語モデルに入力された単語にエラーが存在しても、次に連結される単語の正解確率が高くなり、エラーが継続的に伝播されることを最小化する。単語シーケンスに含まれた特定単語がノイズなどによって間違って認識された場合、間違って認識された単語との連結関係により当該の特定単語の次の単語も間違って認識される確率が増加する。言語モデル学習装置100は、上記のようにノイズによって音声データが間違って認識されることを最小化するため、学習データに人為的にエラーを付加して言語モデルを学習させることができる。
学習データ変換部110は、学習データをエラーが含まれた学習データに変換する。学習データ変換部110は、学習データに含まれた単語のうちエラー単語によって代替される1つ以上の単語を選択できる。例えば、学習データ変換部110は、学習データに含まれた単語のうち、最後の単語又はランダムに決定された単語をエラー単語によって代替される単語として選択し得る。
学習データ変換部110は、複数の候補単語のうちエラー単語を選択する。候補単語は、単語間の発音類似度に基づいて決定され得る。候補単語は、エラー単語によって代替される単語と発音上(acoustically)に類似することがある。例えば、学習データに含まれた単語のうちエラー単語によって代替される単語が「write」であれば、候補単語として、「write」と発音が類似の「wrote」、「rewrite」、「light」、「right」、及び「lite」などの単語が挙げられる。学習データ変換部110は、「wrote」、「rewrite」、「light」、「right」、及び「lite」などの候補単語のうち、学習データに選択された単語を代替するエラー単語を選択する。各候補単語がエラー単語として選択される選択確率は同一であるか、又は特定の候補単語がより大きい選択確率を有し得る。例えば、「write」に対する「wrote」、「rewrite」、「light」、「right」、及び「lite」の候補単語のうち、「write」が「right」に最も多く間違って認識されれば、当該の候補単語のうち、「right」が「write」のエラー単語に選択される確率が他の候補単語に比べて高く設定され得る。
エラー単語によって代替される各単語に対する候補単語は予め学習されて格納されることができる。例えば、アコースティック埋め込み(acoustic embedding)方法に基づいて辞書に含まれた全ての単語が埋め込みスペース(embedding space)の連続(continuous)されたベクトル値に変換された後、与えられた単語から一定のユークリッド距離内に入る単語が候補単語として決定され得る。アコースティック埋め込み方法によって発音が類似する単語は互いに類似のベクトル値に変換され、ベクトル値が表現される空間上互いに隣接する位置に配置される。
学習データ変換部110は、学習データで選択された単語をエラー単語に代替してエラーが含まれた学習データを生成することができる。エラーが含まれた学習データは、ニューラルネットワークに基づいた言語モデルに入力され、言語モデル学習部120は、エラーが含まれた学習データを用いてニューラルネットワークに基づいた言語モデルを学習させ得る。
言語モデル学習部120は、監督学習によってニューラルネットワークに基づいた言語モデルを学習させ得る。監督学習とは、学習データとそれに対応する出力データを共にニューラルネットワークに入力し、学習データに対応する出力データが出力されるよう人工ニューロン間の接続線の接続加重値をアップデートする方法である。例えば、言語モデル学習部120は、エラー逆伝搬学習(backpropagation learning)などにより人工ニューロン間の接続線の接続加重値をアップデートする。エラー逆伝搬学習は、与えられた学習データに対して前方算出によりエラーを推定した後、ニューラルネットワークの出力レイヤから始まって隠れレイヤとプロジェクションレイヤの方向に逆に前進して推定したエラーを伝播し、エラーを減らす方向に接続加重値をアップデートする方法である。
言語モデル学習部120は、ニューラルネットワークで現在の設定された接続加重値がどれ程最適であるかを測定するための目的関数(objective function)を定義し、目的関数の結果に基づいて接続加重値を続けて変更し、学習を繰り返し行う。例えば、目的関数は、ニューラルネットワークが学習データに基づいて実際に出力した出力値と出力されることを所望する期待値との間のエラーを算出するためのエラー関数である。言語モデル学習部120は、ニューラルネットワークの出力レイヤで生成された出力値と学習データに対する所望する期待値とを比較し、出力値と期待値との間の差を減らす方向に接続加重値を調整し得ることができる。
<単語間の発音類似度に基づいて学習データを変換する実施形態>
他の実施形態によると、言語モデル学習装置100は、アコースティック埋め込みに基づいてニューラルネットワークに基づいた言語モデルを学習させ得る。アコースティック埋め込みとは、単語間の発音類似度に基づいて単語を空間上に表現する方法である。アコースティック埋め込みによって、例えば、「write」、「wrote」、「rewrite」、「light」、「right」、及び「lite」のように発音が類似する単語が互いに類似のベクトル値又は特徴値を有し得る。言語モデル学習装置100は、ニューラルネットワークに入力される単語を発音類似度に基づいたベクトル値に変換し、変換されたベクトル値に基づいてニューラルネットワークを学習させ得る。アコースティック埋め込みを用いてニューラルネットワークを学習させることにより、発音上で類似の単語がエラーとしてニューラルネットワークに入力されても、ニューラルネットワークが正解である出力単語を導き出す確率は高くなる。
学習データ変換部110は、単語間の発音類似度に基づいて学習データに含まれた単語をベクトル値に変換することができる。学習データ変換部110は、予め学習された変換マトリックスのアコースティック埋め込みマトリックス(acoustic embedding matrix)を用いて学習データの単語を発音類似度に応じるベクトル値に変換し得る。学習データ変換部110は、単語間の発音類似度に基づいたアコースティック埋め込みマトリックスを学習データに含まれた単語に適用し、学習データに含まれた単語を発音類似度に応じるベクトル値に変換する。学習データ変換部110は、アコースティック埋め込みマトリックスを用いて発音が類似の単語が互いに隣接するベクトル空間上に位置するよう、学習データに含まれた単語のベクトル値を決定する。
学習データに含まれた単語は、アコースティック埋め込みマトリックスによって連続するベクトル値に変換され、ニューラルネットワークに入力されてもよい。アコースティック埋め込みマトリックスによって発音が類似の単語は互いに類似のベクトル値に変換され得る。アコースティック埋め込みにより表現されるアコースティック埋め込みスペースで、発音が類似の単語は互いに近く位置し得る。例えば、「write」、「wrote」、「rewrite」などのように発音上類似する単語のベクトル値は、アコースティック埋め込みスペースで互いに隣接するよう位置することができる。
一実施形態に係る言語モデル学習装置100がアコースティック埋め込みマトリックスを学習させる過程は次の通りである。
言語モデル学習装置100は、例えば、単語間の発音類似度に基づいて辞書に含まれた単語をアコースティック埋め込みマトリックスのためのベクトル値に変換し得る。言語モデル学習装置100は、予め含まれた単語を構成する音素(phoneme)間の距離行列を決定する。音素は、単語の意味を区別する最小の声単位を示し、単語は音素で構成される。音素間の距離行列は音素間の発音類似度を示す発音距離を示す行列である。音素間の発音が類似するほど発音距離が短い。単語の音素シーケンスは、単語に含まれた音素の連続する配列を示す。例えば、「rewrite」の音素シーケンスは[r iy r ay t]であり、音素シーケンスの長さは5である。言語モデル学習装置100は、単語の音素シーケンスを比較して音素間の発音距離を決定し、音素間の発音距離を音素間の距離行列に示すことができる。
言語モデル学習装置100は、音素間の距離行列に基づいて単語間の距離行列を決定することができる。単語間の距離行列は単語間の発音距離を示す行列であり、単語間の発音距離は単語の音素シーケンス間の発音距離を示す。一実施形態によると、言語モデル学習装置100は、レーベンシュタイン距離(Levenshtein distance)方式を変形した距離算出方式に基づいて単語間の発音距離を決定することができる。例えば、言語モデル学習装置100は、文字当たり単位距離として「1」の代わりに「音素間の発音距離」を用いることによって単語間の発音距離を算出することができる。言語モデル学習装置100は、単語の間距離行列に多次元尺度法方式(Multi−Dimensional Scaling:MDS)を適用することで、各単語のベクトル値情報を含むアコースティック埋め込みテーブルを決定することができる。多次元尺度法方式は、個体の特性を測定した後、測定した特性に基づいて個体間の類似性に応じて個体を多次元空間上の点から配置する方式である。言語モデル学習装置100は、単語の音素シーケンスとアコースティック埋め込みテーブルに含まれた各単語のベクトル値情報に基づいてアコースティック埋め込みマトリックスを決定し得る。
再び戻ると、言語モデル学習部120は、監督学習を介してニューラルネットワークに基づいた言語モデルを学習させ得る。言語モデル学習部120は、学習データに含まれた単語に対するベクトル値に基づいてニューラルネットワークに基づいた言語モデルを学習させることができる。例えば、言語モデル学習部120は、エラー逆伝搬学習を介して人工ニューロン間の接続加重値をアップデートすることができる。言語モデル学習部120は、ニューラルネットワークで現在の設定された接続加重値がどれほど最適であるかを測定するための目的関数を定義し、目的関数の結果に基づいて接続加重値を変更して学習を繰り返し行う。上記のような過程によって、発音が類似の誤った単語がニューラルネットワークに基づいた言語モデルに入力に入っても正解が出力される確率は高くなり得る。
図2は、他の実施形態に係る言語モデル学習装置の構成を示す図である。図2を参照すると、言語モデル学習装置200は、制御部210、学習データ変換部220、及び言語モデル学習部230を含む。言語モデル学習装置200は、学習データを用いてニューラルネットワークに基づいた言語モデルを学習させるとき一定の条件下で学習データを変換して言語モデルを学習させ得る。
制御部210は、学習データをエラーが含まれた学習データに変換するか否かを決定する。例えば、制御部210は、入力された学習データをエラーが含まれた学習データに変換するか否かを任意に決定してもよい。または、制御部210は、特定の反復周期に応じて学習データをエラーが含まれた学習データに変換することにより決定してもよい。例えば、制御部210は、50%の確率で学習データをエラーが含まれた学習データに変換すると決定したり、または、学習回数が3回、6回、9回、...3N(Nは自然数)回行われるたびに学習データを、エラーが含まれた学習データに変換するものと決定することができる。
学習データにエラーを含ませないと決定された場合、制御部210は、言語モデル学習部230が言語モデル学習装置200に入力された本来の学習データを学習するように制御できる。
学習データをエラーが含まれた学習データに変換させると決定された場合、制御部210は、学習データ変換部220が学習データをエラーが含まれた学習データに変換させるように制御することができる。学習データ変換部220は、制御部210の制御によって学習データを、エラーが含まれた学習データに変換する。学習データ変換部220は、学習データに含まれた単語のうちエラー単語によって代替される1つ以上の単語を選択できる。例えば、学習データ変換部220は、学習データに含まれた単語のうち、最後の順序の単語又は任意に決定された単語をエラー単語によって代替される単語として選択することができる。
学習データ変換部220は、学習データで選択された単語に関する複数の候補単語のうちエラー単語を選択することができる。候補単語は、単語間の発音類似度に基づいて決定され得る。例えば、候補単語は、エラー単語によって代替される単語と発音上類似してもよい。エラー単語によって代替されるそれぞれの単語に対する候補単語は予め学習されて格納される。学習データ変換部220は、学習データで選択された単語をエラー単語に代替してエラーが含まれた学習データを生成する。エラーが含まれた学習データは、ニューラルネットワークに基づいた言語モデルに入力され、言語モデル学習部230は、エラーが含まれた学習データを用いてニューラルネットワークに基づいた言語モデルを学習させ得る。
言語モデル学習部230は、監督学習を介してニューラルネットワークに基づいた言語モデルを学習させることができる。例えば、言語モデル学習部230は、デルタ規則とエラー逆伝搬学習によりニューラルネットワークに含まれた人工ニューロン間の接続線の接続加重値をアップデートし得る。言語モデル学習部230は、ニューラルネットワークで現在の設定された接続加重値がどれ程最適であるかを測定するための目的関数を定義し、目的関数の結果に基づいて接続加重値を変更して学習を繰り返し行う。
図3は、一実施形態に係る言語モデルに用いられるニューラルネットワークを説明するための図である。
言語モデル学習装置によって学習されるニューラルネットワーク300は、複数のレイヤを含む。例えば、ニューラルネットワーク300は、プロジェクションレイヤ320、隠れレイヤ330、出力レイヤ340を含む。最も下位レイヤは学習データが入力されるプロジェクションレイヤ320であり、最も上位レイヤは入力値に対するニューラルネットワーク300の出力値が出力される出力レイヤ340である。プロジェクションレイヤ320と出力レイヤ340との間の中間レイヤが隠れレイヤ330である。ニューラルネットワーク300は複数の隠れレイヤ330を含み、複数の隠れレイヤ330を含むニューラルネットワーク300をディープニューラルネットワーク(deep neural network)という。
出力レイヤ340は、隠れレイヤ330の人工ニューロンから受信した信号に基づいてニューラルネットワーク300の出力を生成する。隠れレイヤ330は、プロジェクションレイヤ320から伝えられた情報を予測しやすい情報に変換することができる。プロジェクションレイヤ320と隠れレイヤ330に含まれた人工ニューロンは、接続加重値を有する接続線を用いて接続され、隠れレイヤ330と出力レイヤ340に含まれた人工ニューロンも接続加重値を有する接続線を介して接続される。
ニューラルネットワーク300は、プロジェクションレイヤ320→隠れレイヤ330→出力レイヤ340の方向に接続されている。プロジェクションレイヤ320の各人工ニューロンに学習データが入力されれば、学習データはプロジェクションレイヤ320の各人工ニューロンに変換されて隠れレイヤ330に伝えられ、出力レイヤ340で入力された学習データに対応する出力値が生成される。学習データは外部メモリから入力されてもよい。出力レイヤ340によって生成された出力値は、例えば、ファイルフォーマットの形態でユーザに提供されたり、ディスプレイスクリーンに表示されたり、又はユーザ命令としてデバイスに提供され得る。
ニューラルネットワーク300に基づいた言語モデルは、学習データに含まれたn個の単語が入力される。図3では、ニューラルネットワーク300が単語Wn−3、単語Wn−2及び単語Wn−1の3個の単語310に構成された単語シーケンスを学習するものと仮定する。ここで、言語モデル学習装置は、学習データに含まれた3個の単語のうち一部の単語を任意のエラー単語に代替してニューラルネットワーク300を学習させ得る。言語モデル学習装置は、図3に示すように単語Wn−1をエラー単語W’に代替してエラーが含まれた学習データを生成し、エラーが含まれた学習データに基づいてニューラルネットワーク300を学習させ得る。エラーが含まれた学習データは、入力ベクトルの形態に変換されてプロジェクションレイヤ320に入力され得る。プロジェクションレイヤ320に入力される入力ベクトルは、各単語に対応する1−hotベクトルが互いに接続された形態を有し得る。例えば、単語Wn−3、単語Wn−2及びエラー単語W’がそれぞれ(1、0、0、0)、(0、1、0、0)及び(0、0、1、0)のベクトルと表現されれば、プロジェクションレイヤ320に入力される入力ベクトルは(1、0、0、0、0、1、0、0、0、0、1、0)の形態を有する。
言語モデル学習装置は、単語Wn−1に関する候補単語のうち単語Wn−1を代替するエラー単語W’を選択し、候補単語は単語Wn−1と発音上類似の単語を含む。例えば、単語Wn−1が「write」であれば、エラー単語W’として「write」と発音が類似の「right」が選択され、「right」が含まれた学習データがニューラルネットワーク300に入力され得る。
一実施形態によると、ニューラルネットワーク300に入力される単語のうちどれ程多い単語がエラー単語に代替されるか否かが予め決定され、ニューラルネットワーク300に入力された単語のうちどの単語をエラー単語に代替するかの有無は任意に決定され得る。
エラー単語が含まれた学習データは、プロジェクションレイヤ320に入力され、プロジェクションレイヤ320ではセマンティック埋め込み(semantic embedding)又は文法的埋め込み(grammatical embedding)が行われる。セマンティック埋め込み又は文法的埋め込みによって出力予想単語シーケンスの確率が極めて小さくなることを防止し、これにより認識結果が改善される。出力レイヤ340では、ソフトマックス(softmax)方式を用いて入力された3個の単語に続く次の単語の確率を決定する。ソフトマックス方式とは、現在最適であると考えられるソリューションの選択可能性は最大に保持し、残りのソリューションについては推定された値により加重値を付与して選択確率を調整する方法である。
言語モデル学習装置は、出力レイヤ340の出力値と所望する期待値とを比較し、出力値と期待値との間の差を減らす方向にニューラルネットワーク300に含まれた人工ニューロン間の接続線の接続加重値を調整し得る。言語モデル学習装置は、接続加重値を調整することによってニューラルネットワーク300を学習させ得る。例えば、プロジェクションレイヤ320に入力された学習データが隠れレイヤ330を経て接続加重値と乗算及び加算される過程を介して出力レイヤ340から出力値が生成され得る。出力レイヤ340で生成された出力値と期待する出力値との間に相互差が発生し、言語モデル学習装置は、当該の差を最小化するために接続加重値をアップデートすることができる。
図4は、他の実施形態に係る言語モデルに用いられるニューラルネットワークを説明するための図である。
言語モデル学習装置は、単語のアコースティック情報に基づいてニューラルネットワーク400に基づいた言語モデルを学習させることができる。言語モデル学習装置は、学習データに対してアコースティック埋め込み410を行う。アコースティック埋め込み410では、予め学習されたアコースティック埋め込みマトリックスによって学習対象である単語Wn−3、単語Wn−2及び単語Wn−1が連続するベクトル値に変換され得る。例えば、単語Wn−3は、アコースティック埋め込みマトリックスによって0.12、0.54、0.98、...、0.05のような連続するベクトル値に変換され得る。
アコースティック埋め込み410によって学習データに含まれた単語が発音類似度に基づいたベクトル値に変換され、発音上類似の単語が互いに隣接する空間に位置するよう当該単語のベクトル値を決定することができる。アコースティック埋め込み410によって発音が互いに類似する単語は、空間上で互いに隣接する位置に配置する。
アコースティック埋め込み410によって変換された単語Wn−3、単語Wn−2、及び単語Wn−1の各ベクトル値が互いに連結した形態にニューラルネットワーク400のプロジェクションレイヤ420に入力され、プロジェクションレイヤ420では、セマンティック埋め込み又は文法的埋め込みが行われる。プロジェクションレイヤ420と出力レイヤ440との間に位置する隠れレイヤ430は、プロジェクションレイヤ420から伝えられた情報を予測しやすい情報に変換することができる。出力レイヤ440では入力された3個の単語に続く次の単語の確率を決定することができる。
言語モデル学習装置は、出力レイヤ440の出力値と所望する期待値とを比較し、出力値と期待値との間の差を減らすためにニューラルネットワーク400に含まれた人工ニューロン間の接続線の接続加重値を調整し得る。言語モデル学習装置は、接続加重値を調整することでニューラルネットワーク400を学習させ得る。
図5は、一実施形態に係る音声認識装置の構成を示す図である。音声認識装置500は、音声データがどのような文章を示すかを決定する。図5を参照すると、音声認識装置500は、特徴抽出部510、アコースティックモデル520、第1言語モデル530、分析部540、決定部560、及び第2言語モデル550を含む。
音声データは特定の時間単位に分割され、特定の時間単位に分割された音声データが順次に音声認識装置500へ入力され得る。特徴抽出部510は、音声データから特徴値を抽出し得る。例えば、特徴抽出部510は、音声データで時間により変化する相対的な変化量を特徴値に抽出してもよい。アコースティックモデル520は、音声データから抽出された特徴値に基づいて音声データを音素単位として認識して出力し得る。
第1言語モデル530は、音声データに含まれた単語間の連結関係を推定することができる。第1言語モデル530は、音声データに含まれた単語間の連結関係を決定するための確率値を提供できる。第1言語モデル530は、ニューラルネットワークに基づいて単語間の連結関係を推定し、ニューラルネットワークはエラーが含まれた学習データに基づいて予め学習される。
分析部540は、アコースティックモデル520から出力された結果値と第1言語モデル530から出力された結果値に基づいて、音声データに対する候補認識結果を生成する。分析部540は、アコースティックモデル520と第1言語モデル530の出力値に基づいて音声データに含まれた単語の接続経路を推定する。
決定部560は、第1言語モデル530より認識性能の優れた第2言語モデル550に基づいて候補認識結果のうち音声データに対する最終の認識結果を決定する。第2言語モデル550は、第1言語モデル530より認識性能の優れた言語モデルである。例えば、第2言語モデル550は、再帰的ニューラルネットワーク(recurrent neural network)又はLSTM(long short term memory)に基づいた言語モデルであり得る。再帰的ニューラルネットワークは、互いに異なる時間区間で隠れレイヤに含まれた人工ニューロン間に再帰的な連結があるニューラルネットワークを示す。第1言語モデル530によって音声データに対する複数の候補ソリューションを導き出し、第1言語モデル530よりも認識性能の優れた第2言語モデル550を介して最終ソリューションを決定することで、処理時間及び必要リソース量を低減させることができる。
決定部560は、第2言語モデル550に基づいて候補認識結果の確率値を再び算出し、最も大きい確率値を有する候補認識結果を音声データに対する最終の認識結果として決定する。
図6は、他の実施形態に係る音声認識装置の構成を示す図である。
音声認識装置600は、学習されたニューラルネットワークに基づいた言語モデルに応じて音声データを認識する。音声認識装置600は、例えば、スマートフォン、PDAのような携帯用端末、及びユーザの体に取外し可能なウェアラブルデバイスだけではなく、各種の音声命令システムを含む端末に内蔵され得る。図6を参照すると、音声認識装置600は、音声データ変換部610及び音声データ認識部620を含む。
音声データ変換部610は、単語間の発音類似度に基づいて音声データに含まれた単語をベクトル値に変換することができる。音声データ変換部610は、音声データから音素シーケンスを導き出し、発音類似度に基づいて音素シーケンスに対するベクトル値を決定する。音声データ変換部610は、アコースティック埋め込みに基づいて音声データの単語を発音類似度に基づいたベクトル値に変換する。例えば、音声データは、携帯端末又は電子装置に設置されたマイクロホンによって収集されたり、データファイルから取得され得る。
音声データ変換部610は、以前に学習されたアコースティック埋め込みマトリックスを音声データに含まれた単語に適用し、音声データの単語を発音類似度に応じるベクトル値に変換する。アコースティック埋め込みマトリックスによって発音が類似の単語は、互いに類似するベクトル値又は特徴値を有し得る。例えば、発音が類似する単語は、アコースティック埋め込みマトリックスによって空間上互いに隣接する位置に配置されるようにベクトル値を決定することができる。
音声データ認識部620は、音声データが何を示すかを決定する。音声データ認識部620は、音声データに含まれた単語間の連結関係を推定して音声データを認識する。音声データ認識部620は、音声データ変換部610から出力された音声データのベクトル値をニューラルネットワークに基づいた言語モデルに適用して、適用結果に基づいて音声データの認識結果を決定する。
音声データ認識部620は、予め学習されて格納されたアコースティック埋め込みテーブルに基づいて音声データを認識する。例えば、アコースティック埋め込みテーブルは、音素シーケンス間の発音類似度に基づいて決定された一般単語のベクトル値情報を含み得る。アコースティック埋め込みテーブルは、一般単語を空間上の一次元の点に表現したベクトル情報を含み得る。音声データ認識部620は、アコースティック埋め込みテーブルに含まれた単語のベクトル値のうち、音声データに含まれたターゲット単語のベクトル値と最も近い位置に配置するベクトル値を選択し、選択されたベクトル値に対応する単語を音声データのターゲット単語として決定することができる。
図7は、更なる実施形態に係る音声認識装置の構成を示す図である。音声認識装置700は、音声データがいかなる文章を示すかを決定する。図7を参照すると、音声認識装置700は、第1言語モデル710、特徴抽出部750、アコースティックモデル760、分析部770、第2言語モデル780、及び決定部790を含む。第1言語モデル710は、単語入力部720、音声データ変換部730、及びニューラルネットワーク740を含む。
音声データは特定の時間単位に分割され、特定の時間単位に分割された音声データが順次音声認識装置700に入力され得る。特徴抽出部750は、音声データから特徴値を抽出することができる。例えば、特徴抽出部750は、音声データで時間に応じて変化する相対的な変化量を特徴値に抽出することができる。アコースティックモデル760は、音声データから抽出された特徴値に基づいて音声データを音素単位として認識して出力することができる。
第1言語モデル710は、ニューラルネットワーク740に基づいて音声データに含まれた単語間の連結関係を推定することができる。単語入力部720は、音声データに含まれた1つ以上の単語が入力され得る。
音声データ変換部730は、単語間の発音類似度に基づいて音声データに含まれた単語をベクトル値に変換する。音声データ変換部730は、音声データから音素シーケンスを導き出し、発音類似度に基づいて音素シーケンスに対するベクトル値を決定する。音声データ変換部730は、以前に学習されたアコースティック埋め込みマトリックスを音声データに含まれた単語に適用して音声データの単語を発音類似度に応じるベクトル値に変換することができる。アコースティック埋め込みマトリックスによって発音が類似する単語は、互いに類似のベクトル値又は特徴値を有し得る。発音が類似の単語は、アコースティック埋め込みマトリックスによって空間上で互いに隣接する位置に配置するようにベクトル値を決定することができる。
ニューラルネットワーク740は人工ニューロンに基づいた認識モデルとして、音声データに含まれた単語間の連結関係を決定するための確率値を提供する。
分析部770は、アコースティックモデル760から出力された結果値と第1言語モデル710から出力された結果値に基づいて、音声データに対する候補認識結果を生成する。分析部770は、アコースティックモデル760と第1言語モデル710の出力値に基づいて、音声データに含まれた単語の接続経路を推定できる。
決定部790は、第1言語モデル710よりも認識性能の優れる第2言語モデル780に基づいて、候補認識結果のうち音声データに対する最終の認識結果を決定する。第2言語モデル780は、第1言語モデル710よりも認識性能の優れる言語モデルである。例えば、第2言語モデル780は、再帰的ニューラルネットワーク又はLSTMに基づいた言語モデルであってもよい。決定部790は、第2言語モデル780に基づいて候補認識結果の確率値を再び算出し、最も大きい確率値を有する候補認識結果を音声データに対する最終の認識結果として決定することができる。
図8は、一実施形態に係る言語モデル学習方法の動作を説明するためのフローチャートである。
ステップS810において、言語モデル学習装置は、学習データをエラーが含まれた学習データに変換する。言語モデル学習装置は、学習データに含まれた単語のうちエラー単語によって代替される1つ以上の単語を選択する。例えば、言語モデル学習装置は、学習データに含まれた単語のうち、最後の単語又は任意に決定された単語をエラー単語によって代替される単語として決定する。
言語モデル学習装置は、複数の候補単語のうちエラー単語を選択できる。候補単語は、単語間の発音類似度に基づいて決定され得る。候補単語は、エラー単語によって代替される単語と発音上に類似する。各候補単語がエラー単語に選択される選択確率は同一であるか、又は特定の候補単語がよりも大きい選択確率を有し得る。エラー単語によって代替されるそれぞれの単語に対する候補単語は、予め学習されて格納される。言語モデル学習装置は、学習データで選択された単語をエラー単語に代替してエラーが含まれた学習データを生成することができる。
ステップS820において、言語モデル学習装置は、エラーが含まれた学習データに基づいてニューラルネットワークに基づいた言語モデルを学習させる。言語モデル学習装置は、監督学習を介してニューラルネットワークに基づいた言語モデルを学習させ得る。例えば、言語モデル学習装置は、デルタ規則とエラー逆伝搬学習を介して人工ニューロン間の接続線の接続加重値をアップデートすることにより、ニューラルネットワークに基づいた言語モデルを学習させ得る。
図9は、他の実施形態に係る言語モデル学習方法の動作を説明するためのフローチャートである。
ステップS910において、言語モデル学習装置で学習データが入力される。学習データとして順次的データである音声データが入力される。言語モデル学習装置は外部から受信した学習データを格納し、格納した学習データから特徴を抽出する。
ステップS920において、言語モデル学習装置は、学習データをエラーが含まれた学習データに変換するか否かを決定する。例えば、言語モデル学習装置は、特定の反復周期又は特定確率に応じて学習データをエラーが含まれた学習データに変換するものと決定することができる。
学習データをエラーが含まれた学習データに変換するものと決定していない場合、ステップS940において、言語モデル学習装置は、本来の学習データに基づいてニューラルネットワークに基づいた言語モデルを学習させる。
学習データをエラーが含まれた学習データに変換するものと決定した場合、ステップS930において、言語モデル学習装置は、学習データをエラーが含まれた学習データに変換する。言語モデル学習装置は、学習データに含まれた単語のうちエラー単語によって代替される1つ以上の単語を選択することができる。言語モデル学習装置は、複数の候補単語のうちエラー単語を選択することができる。候補単語は、単語間の発音類似度に基づいて決定され得る。エラー単語によって代替されるそれぞれの単語に対する候補単語は予め学習されて格納される。言語モデル学習装置は、学習データから選択された単語をエラー単語に代替してエラーが含まれた学習データを生成する。
ステップS940において、言語モデル学習装置は、エラーが含まれた学習データに基づいてニューラルネットワークに基づいた言語モデルを学習させ得る。言語モデル学習装置は、関連技術分野の様々な方法を用いてニューラルネットワークの言語モデルを学習させ得る。例えば、言語モデル学習装置は、デルタ規則とエラー逆伝搬学習を通してニューラルネットワークに含まれた人工ニューロン間の接続線の接続加重値をアップデートすることができる。
図10は、他の実施形態に係る言語モデル学習方法の動作をより具体化したフローチャートである。
ステップS1010において、言語モデル学習装置に言語モデルの学習のための文章データが入力される。
ステップS1020において、言語モデル学習装置は、文章データに含まれた全体単語のうち特定個数の単語を含む単語シーケンスを選択する。例えば、言語モデル学習装置は、文章データに含まれた全体単語で、前からN−1個の単語を含む単語シーケンスを選択することができる。
ステップS1030において、言語モデル学習装置は、選択した単語シーケンスにエラーを含ませるかの有無を決定する。例えば、言語モデル学習装置は、与えられたN−1個の単語を含む単語シーケンスにエラーを含むか否かを特定確率又は特定周期に基づいて決定する。
単語シーケンスにエラーを含ませないものと決定した場合、ステップS1060において、言語モデル学習装置はステップS1020で選択された単語シーケンスに基づいてニューラルネットワークに基づいた言語モデルを学習させ得る。
単語シーケンスにエラーを含ませるものと決定した場合、ステップS1040において、言語モデル学習装置は単語シーケンスにエラー単語を含ませる。
具体的に、ステップS1045において、言語モデル学習装置は、単語シーケンスに含まれたN−1個の単語のうちM個(MはN−1以下の自然数)の単語を選択する。ステップS1050において、言語モデル学習装置は、候補単語のうちエラー単語を選択する。言語モデル学習装置は、候補単語のうちステップS1045で選択されたM個の単語を代替するM個のエラー単語を選択することができる。候補単語は、単語間の発音類似度に基づいて決定され得る。エラー単語によって代替されるそれぞれの単語に対する候補単語は予め学習されて格納される。各候補単語がエラー単語に選択される選択確率は、同一であるか又は特定の候補単語がより大きい選択確率を有し得る。ステップS1055において、言語モデル学習装置は、ステップS1045で選択された単語シーケンスのM個の単語を、ステップS1050で選択されたM個のエラー単語に代替してエラー単語の含まれた単語シーケンスを生成する。
ステップS1060において、言語モデル学習装置は、エラー単語の含まれた単語シーケンスに基づいてニューラルネットワークに基づいた言語モデルを学習させ得る。
ステップS1065において、言語モデル学習装置は、単語シーケンスが文章データの終わりに到達したか否かを決定する。
単語シーケンスが文章データの終わりに到達していない場合、ステップS1070において、言語モデル学習装置は、文章データに含まれた単語から学習のための単語シーケンスを1単語ずつ移動させることができる。例えば、文章データが「this is a test sentence」を示し、当該の文章データで選択された現在の単語シーケンスが「this is a」であれば、ステップS1070によって単語シーケンスが「is a test」に決定され得る。言語モデル学習装置は、1単語ずつ移動させた単語シーケンスに基づいてステップS1020から再び行う。
単語シーケンスが文章データの終わりに到達した場合、ステップS1075において、言語モデル学習装置は、言語モデルの学習させるための次に文章データが存在するか否かを決定する。
次の文章データが存在する場合、ステップS1080において、言語モデル学習装置は、次の文章データを入力させ、次の文章データに基づいてニューラルネットワークに基づいた言語モデルを学習させ得る。言語モデル学習装置は、次の文章データに対してステップS1020からステップS1075までの過程を再び行う。
図11は、更なる実施形態に係る言語モデル学習方法の動作を説明するためのフローチャートである。
ステップS1110において、言語モデル学習装置は、単語間の発音類似度に基づいて学習データをベクトル値に変換する。言語モデル学習装置は、単語間の発音類似度に基づいたアコースティック埋め込みマトリックスを学習データに含まれた単語に適用し、学習データに含まれた単語を発音類似度に応じるベクトル値に変換する。言語モデル学習装置は、アコースティック埋め込みマトリックスを用いて発音が類似の単語が空間上で互いに隣接する位置に配置するよう、学習データに含まれた単語のベクトル値を決定する。
学習データに含まれた単語は、アコースティック埋め込みマトリックスによって連続するベクトル値に変換され得る。アコースティック埋め込みマトリックスにより発音が類似する単語は、互いに類似するベクトル値に変換されてもよい。アコースティック埋め込みにより表現されるアコースティック埋め込みスペースで、発音の類似な単語は相互近く位置する。
ステップS1120において、言語モデル学習装置は、ステップS1110で決定された学習データのベクトル値に基づいてニューラルネットワークに基づいた言語モデルを学習させる。言語モデル学習装置は、監督学習を介してニューラルネットワークに基づいた言語モデルを学習させ得る。言語モデル学習装置は、ステップS1110で決定された学習データのベクトル値をニューラルネットワークに基づいた言語モデルに入力させ、ニューラルネットワークの出力値と期待値とを比較し、ニューラルネットワークに含まれた人工ニューロン間の接続線の接続加重値を調整する。言語モデル学習装置は、関連技術分野の様々な方法を用いてニューラルネットワークの言語モデルを学習させることができる。
図12は、更なる実施形態に係る言語モデル学習方法の動作をより具体化したフローチャートである。
ステップS1210において、言語モデル学習装置に言語モデルの学習のための文章データが入力される。
ステップS1220において、言語モデル学習装置は、文章データに含まれた全体単語のうち特定個数の単語を含む単語シーケンスを選択する。例えば、言語モデル学習装置は、文章データに含まれた全体単語で、前からN−1個の単語を含む単語シーケンスを選択することができる。
ステップS1230において、言語モデル学習装置は、単語シーケンスに含まれた単語を単語間の発音類似度に基づいたベクトル値に変換させる。言語モデル学習装置は、単語間の発音類似度に基づいたアコースティック埋め込みマトリックスを単語シーケンスに適用し、単語シーケンスに含まれた単語を発音類似度に応じるベクトル値に変換し得る。単語シーケンスに含まれた単語は、アコースティック埋め込みマトリックスによって連続するベクトル値に変換される。
ステップS1240において、言語モデル学習装置は、ニューラルネットワークに基づいた言語モデルにステップS1230におけるベクトル値を適用して当該の言語モデルを学習させる。言語モデル学習装置は、監督学習を介してニューラルネットワークに基づいた言語モデルを学習させることができる。言語モデル学習装置は、ステップS1230で決定されたベクトル値をニューラルネットワークに基づいた言語モデルに入力させ、ニューラルネットワークの出力値と期待値とを比較し、ニューラルネットワークに含まれた人工ニューロン間の接続線の接続加重値を調整する。
ステップS1250において、言語モデル学習装置は単語シーケンスが文章データの終わりに到達したか否かを決定する。
単語シーケンスが文章データの終わりに到達していない場合、ステップS1260において、言語モデル学習装置は、文章データに含まれた単語で学習のための単語シーケンスを1単語ずつ移動させることができる。その後、言語モデル学習装置は、1単語ずつ移動して新しく決定された単語シーケンスに基づいて、ステップS1220からステップS1250までの動作を上記と同様に行う。
単語シーケンスが文章データの終わりに到達した場合、ステップS1270において、言語モデル学習装置は、言語モデルの学習させるための次に文章データが存在するか否かを決定する。
次の文章データが存在する場合、ステップS1280において、言語モデル学習装置は次の文章データを入力させ、次の文章データに基づいてニューラルネットワークに基づいた言語モデルを学習させる。言語モデル学習装置は、次の文章データに対して、ステップS1220からステップS1270までの過程を再び行う。
図13は、一実施形態に係る音声認識方法の動作を示すフローチャートである。
ステップS1310において、音声認識装置は、単語間の発音類似度に基づいて音声データをベクトル値に変換させる。音声認識装置は、単語間の発音類似度に基づいたアコースティック埋め込みマトリックスを音声データに含まれた単語に適用し、音声データに含まれた単語を発音類似度に応じるベクトル値に変換する。音声認識装置は、アコースティック埋め込みマトリックスを用いて発音が類似の単語が空間上で互いに隣接する位置に配置するよう、音声データに含まれた単語のベクトル値を決定する。音声認識装置は、アコースティック埋め込みマトリックスを用いて音声データに含まれた単語を連続するベクトル値に変換する。アコースティック埋め込みマトリックスを用いて発音が類似の単語は、互いに類似のベクトル値に変換することができる。
ステップS1320において、音声認識装置はニューラルネットワークに基づいた言語モデルにステップS1310で変換された音声データのベクトル値を適用する。言語モデルは、音声データのベクトル値に基づいて音声データに対する認識結果を提供することができる。言語モデルは、入力された音声データのベクトル値に基づいて音声データに対する候補認識結果を提供することができる。
ステップS1330において、音声認識装置は音声データの認識結果を決定する。音声認識装置は、ニューラルネットワークに基づいた言語モデルよりも性能の優れる他の言語モデルを用いて候補認識結果のうち音声データに対する最終の認識結果を決定する。
図14は、一実施形態に係る言語モデル学習装置を示す図である。図1〜4、8〜12及び15〜18に関して提供された内容が図14に示す一例に適用され得るため、これに対する詳しい内容は省略する。
図14を参照すると、言語モデル学習装置は、プロセッサ1410、第1言語モデル及び第2言語モデルのためのニューラルネットワークを含む言語モデルストレージ1430、算出された値又は一時的な値を格納するメモリ1420、学習データストレージ1440、及びエラーが含まれた学習データを格納するエラーデータストレージ1450を含む。プロセッサ1410は1つ以上のプロセッサ又はコアを含む。
学習データストレージ1440に格納された学習データは音声データを含む。例えば、学習データは、音声で発見された単語に対応するテキストにタグされたオーディオ録音サンプルを含み得る。プロセッサ1410は、学習データをエラーが含まれた学習データに変換するか否かを決定する。プロセッサ1410は、学習データにエラーを追加して学習データをエラーが含まれた学習データに変換することができる。プロセッサ1410は、エラーが含まれた学習データはエラーデータストレージ1450に格納してもよい。プロセッサ1410は、言語モデルストレージ1430に格納された言語モデルを学習させるためにエラーが含まれた学習データを用いることができる。
図15は、一実施形態に係る淫書認識装置を示す図である。図3〜7、13、16及び17に関して説明された内容が図15にそのまま適用され得るため、これに対する詳しい説明は省略する。
図15を参考すると、音声認識装置は、プロセッサ1510、メモリ1520、言語モデルストレージ1530、口/出力デバイス1550を含む。言語モデル学習装置によって学習されたニューラルネットワーク言語モデルが音声に含まれた単語を認識するために使用することができる。音声認識装置は、スマートフォンのようなモバイル端末に含まれて動作し得る。マイクロホン及び増幅器のような入力デバイスは音声データを取得するために用いてもよい。音声データは、プロセッサ1510によって処理され得る。プロセッサ1510は音声データを分割し、分割された音声データから特徴値を抽出した後、音声データは音素単位に変換することができる。その後、プロセッサ1510は、言語モデルストレージ1530に格納された予め学習された言語モデルを用いて、音素データに含まれた単語間の連結関係を推定する。プロセッサ1510は、当該の連結関係を分析して音声データに関する候補認識結果を生成する。プロセッサ1510は、第1言語モデル及び第2言語モデルの全てを用いて音声データに対する最終の認識結果を決定できる。
以上で説明された実施形態は、ハードウェア構成要素、ソフトウェア構成要素、及び/又はハードウェア構成要素及びソフトウェア構成要素の組合で実現してもよい。例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、または、命令(instruction)を実行して応答できる異なる装置のように、1つ以上の汎用コンピュータまたは特殊目的のコンピュータを用いて実現され得る。処理装置は、オペレーティングシステム(OS)及び前記オペレーティングシステム上で行われる1つ以上のソフトウェアアプリケーションを行ってもよい。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理及び生成してもよい。理解の便宜のために、処理装置は1つ使用されるものと説明される場合もあるが、当該の技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含んでいることが分かる。例えば、処理装置は、複数のプロセッサまたは1つのプロセッサ及び1つのコントローラを含んでもよい。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこのうちの1つ以上の組合せを含んでもよく、希望の通りに動作するよう処理装置を構成したり独立的または結合的に処理装置を命令してもよい。ソフトウェア及び/又はデータは、処理装置によって解釈されたり処理装置に命令またはデータを提供するためどのような類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体または装置、送信される信号波に永久的または一時的に具体化できる。ソフトウェアは、ネットワークに接続されたコンピュータシステム上に分散し、分散された方法で格納されたり実行されてもよい。ソフトウェア及びデータは1つ以上のコンピュータで読み出し可能な記録媒体に格納されてもよい。
実施形態に係る方法は、多様なコンピュータ手段を介して様々な処理を実行することができるプログラム命令の形態で実現され、コンピュータで読取可能な記録媒体に記録されてもよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などのうち1つまたはその組合せを含んでもよい。媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、光ディスクのような光磁気媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれてもよい。プログラム命令の例には、コンパイラによって作られるような機械語コードだけでなく、インタープリタなどを用いてコンピュータによって実行できる高級言語コードが含まれる。前記したハードウェア装置は、本発明の動作を行うために1つ以上のソフトウェアモジュールとして動作するように構成されてもよく、その逆も同様である。
上述したように、本発明を限定された実施形態と図面によって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような実施形態から多様な修正及び変形が可能である。
したがって、本発明の範囲は、開示された実施形態に限定されるものではなく、特許請求の範囲だけではなく特許請求の範囲と均等なものなどによって定められるものである。
100、200:言語モデル学習装置
110、220:学習データ変換部
120、230:言語モデル学習部
210:制御部
510、750:特徴抽出部
520、760:アコースティックモデル
530、710:第1言語モデル
540、770:分析部
550、780:第2言語モデル
560、790:決定部
500、600、700:音声認識装置
610、730:音声データ変換部
620:音声データ認識部
720:単語入力部
740:ニューラルネットワーク

Claims (19)

  1. 学習データをエラーが含まれた学習データに変換するステップと、
    前記エラーが含まれた学習データを用いてニューラルネットワークに基づいた言語モデルを学習させるステップと、
    を含む、言語モデル学習方法。
  2. 前記学習データを前記エラーが含まれた学習データに変換するステップは、
    前記学習データに含まれた単語のうち、エラー単語に代替される少なくとも1つの単語を選択するステップと、
    前記学習データで選択された単語をエラー単語に代替して前記エラーが含まれた学習データを生成するステップと、
    を含む、
    請求項1に記載の言語モデル学習方法。
  3. 前記学習データを前記エラーが含まれた学習データに変換するステップは、前記学習データで選択された単語に関する複数の候補単語のうち前記エラー単語を選択するステップをさらに含む、
    請求項2に記載の言語モデル学習方法。
  4. 前記候補単語は、前記学習データで選択された単語との発音類似度に基づいて決定される、
    請求項3に記載の言語モデル学習方法。
  5. 前記エラー単語を選択するステップは、前記候補単語に割り当てられた加重値に基づいて前記学習データで選択された単語を代替するエラー単語を選択する、
    請求項3または4に記載の言語モデル学習方法。
  6. 前記少なくとも1つの単語を選択するステップは、前記学習データに含まれた単語のうち前記少なくとも1つの単語をランダムに選択する、
    請求項2に記載の言語モデル学習方法。
  7. 前記学習データを前記エラーが含まれた学習データに変換するか否かを決定するステップをさらに含む、
    請求項1乃至6いずれか一項に記載の言語モデル学習方法。
  8. 単語間の発音類似度に基づいて学習データに含まれた単語をベクトル値に変換するステップと、
    前記ベクトル値を用いてニューラルネットワークに基づいた言語モデルを学習させるステップと、
    を含む、言語モデル学習方法。
  9. 前記学習データに含まれた単語をベクトル値に変換するステップは、単語間の発音類似度に基づいたアコースティック埋め込みマトリックスを前記学習データに含まれた単語に適用し、前記学習データに含まれた単語を前記ベクトル値に変換する、
    請求項8に記載の言語モデル学習方法。
  10. 前記学習データに含まれた単語をベクトル値に変換するステップは、前記アコースティック埋め込みマトリックスを用いて発音が類似の単語が互いに隣接するベクトル空間上に位置するよう、前記学習データに含まれた単語のベクトル値を決定する、
    請求項9に記載の言語モデル学習方法。
  11. 前記アコースティック埋め込みマトリックスは、学習単語間の発音類似度に基づいて決定され、
    前記学習単語間の発音類似度は、前記学習単語の音素シーケンス間の発音類似度に基づいて決定される、
    請求項9または10に記載の言語モデル学習方法。
  12. 前記アコースティック埋め込みマトリックスは、互いに異なる単語間の発音距離を行列に表現した単語の間距離行列に多次元尺度法を適用して決定される、
    請求項9乃至11いずれか一項に記載の言語モデル学習方法。
  13. 請求項1または8に記載の方法を実行するためのプログラムが記録されたコンピュータで読み出し可能な記録媒体。
  14. 学習データをエラーが含まれた学習データに変換する学習データ変換部と、
    前記エラーが含まれた学習データを用いてニューラルネットワークに基づいた言語モデルを学習させる言語モデル学習部と、
    を含む、言語モデル学習装置。
  15. 前記学習データ変換部は、
    前記学習データに含まれた単語のうちエラー単語に変える少なくとも1つの単語を選択し、
    前記学習データで選択された単語をエラー単語に代替して前記エラーが含まれた学習データを生成する、
    請求項14に記載の言語モデル学習装置。
  16. 前記学習データ変換部は、
    前記学習データで選択された単語との発音類似度に基づいて決定された候補単語のうち前記エラー単語を選択する、
    請求項15に記載の言語モデル学習装置。
  17. 前記学習データを前記エラーが含まれた学習データに変換するか否かを決定する制御部をさらに含む、
    請求項14乃至16いずれか一項に記載の言語モデル学習装置。
  18. 単語間の発音類似度に基づいて学習データに含まれた単語をベクトル値に変換する学習データ変換部と、
    前記ベクトル値を用いてニューラルネットワークに基づいた言語モデルを学習させる言語モデル学習部と、
    を含む、言語モデル学習装置。
  19. 前記学習データ変換部は、単語間の発音類似度に基づいたアコースティック埋め込みマトリックスを前記学習データに含まれた単語に適用し、前記学習データに含まれた単語を前記ベクトル値に変換する、
    請求項18に記載の言語モデル学習装置。
JP2015206203A 2014-12-08 2015-10-20 言語モデル学習方法及び装置、音声認識方法及び装置 Active JP6758811B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2014-0175152 2014-12-08
KR1020140175152A KR102167719B1 (ko) 2014-12-08 2014-12-08 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치

Publications (2)

Publication Number Publication Date
JP2016110082A true JP2016110082A (ja) 2016-06-20
JP6758811B2 JP6758811B2 (ja) 2020-09-23

Family

ID=54365024

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015206203A Active JP6758811B2 (ja) 2014-12-08 2015-10-20 言語モデル学習方法及び装置、音声認識方法及び装置

Country Status (5)

Country Link
US (2) US9666184B2 (ja)
EP (2) EP3154054B1 (ja)
JP (1) JP6758811B2 (ja)
KR (1) KR102167719B1 (ja)
CN (1) CN105679317B (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019207674A (ja) * 2018-05-28 2019-12-05 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited 適応パラメータサンプリング方法及びシステム
WO2021111832A1 (ja) * 2019-12-06 2021-06-10 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理システム及び情報処理装置
KR20210068776A (ko) * 2019-12-02 2021-06-10 주식회사 엘지유플러스 음성 인식 오류 보정 장치 및 방법
JP7368479B2 (ja) 2019-04-11 2023-10-24 インターナショナル・ビジネス・マシーンズ・コーポレーション モデルをトレーニングするためのトレーニング・データ修正
WO2023228313A1 (ja) * 2022-05-25 2023-11-30 日本電信電話株式会社 言語処理方法、言語処理装置及びプログラム

Families Citing this family (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10354650B2 (en) * 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions
US10410119B2 (en) * 2015-06-05 2019-09-10 Deepmind Technologies Limited Augmented recurrent neural network with external memory
CN107710747B (zh) * 2015-06-12 2020-03-27 索尼互动娱乐股份有限公司 控制设备、控制方法
JP6544131B2 (ja) * 2015-08-14 2019-07-17 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN106486115A (zh) * 2015-08-28 2017-03-08 株式会社东芝 改进神经网络语言模型的方法和装置及语音识别方法和装置
US10032463B1 (en) * 2015-12-29 2018-07-24 Amazon Technologies, Inc. Speech processing with learned representation of user interaction history
JP6545633B2 (ja) * 2016-03-17 2019-07-17 株式会社東芝 単語スコア計算装置、単語スコア計算方法及びプログラム
US10176802B1 (en) * 2016-03-21 2019-01-08 Amazon Technologies, Inc. Lattice encoding using recurrent neural networks
CN107515850A (zh) * 2016-06-15 2017-12-26 阿里巴巴集团控股有限公司 确定多音字发音的方法、装置和系统
CN106202045B (zh) * 2016-07-08 2019-04-02 成都之达科技有限公司 基于车联网的专项语音识别方法
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法
CN107785015A (zh) * 2016-08-26 2018-03-09 阿里巴巴集团控股有限公司 一种语音识别方法及装置
JP6737956B2 (ja) * 2016-10-10 2020-08-12 グーグル エルエルシー エンドツーエンド音声認識のための非常に深い畳み込みニューラルネットワーク
KR20180055189A (ko) 2016-11-16 2018-05-25 삼성전자주식회사 자연어 처리 방법 및 장치와 자연어 처리 모델을 학습하는 방법 및 장치
US10402752B2 (en) * 2016-11-18 2019-09-03 Facebook, Inc. Training sequence natural language processing engines
KR102488338B1 (ko) * 2017-03-09 2023-01-13 삼성전자주식회사 언어 모델을 압축하기 위한 전자 장치, 추천 워드를 제공하기 위한 전자 장치 및 그 동작 방법들
KR102399535B1 (ko) * 2017-03-23 2022-05-19 삼성전자주식회사 음성 인식을 위한 학습 방법 및 장치
US10825445B2 (en) * 2017-03-23 2020-11-03 Samsung Electronics Co., Ltd. Method and apparatus for training acoustic model
KR20180111271A (ko) * 2017-03-31 2018-10-11 삼성전자주식회사 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치
CN107103903B (zh) * 2017-05-05 2020-05-29 百度在线网络技术(北京)有限公司 基于人工智能的声学模型训练方法、装置及存储介质
US10607601B2 (en) * 2017-05-11 2020-03-31 International Business Machines Corporation Speech recognition by selecting and refining hot words
WO2018212584A2 (ko) * 2017-05-16 2018-11-22 삼성전자 주식회사 딥 뉴럴 네트워크를 이용하여 문장이 속하는 클래스를 분류하는 방법 및 장치
KR102071582B1 (ko) 2017-05-16 2020-01-30 삼성전자주식회사 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
EP3625791A4 (en) * 2017-05-18 2021-03-03 Telepathy Labs, Inc. TEXT-SPEECH SYSTEM AND PROCESS BASED ON ARTIFICIAL INTELLIGENCE
US10380259B2 (en) 2017-05-22 2019-08-13 International Business Machines Corporation Deep embedding for natural language content based on semantic dependencies
CN107240395B (zh) * 2017-06-16 2020-04-28 百度在线网络技术(北京)有限公司 一种声学模型训练方法和装置、计算机设备、存储介质
CN107273503B (zh) * 2017-06-19 2020-07-10 北京百度网讯科技有限公司 用于生成同语言平行文本的方法和装置
CN107293296B (zh) * 2017-06-28 2020-11-20 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
KR102509821B1 (ko) * 2017-09-18 2023-03-14 삼성전자주식회사 Oos 문장을 생성하는 방법 및 이를 수행하는 장치
CN107657961B (zh) * 2017-09-25 2020-09-25 四川长虹电器股份有限公司 一种基于vad和ann的噪声消除方法
CN107945792B (zh) * 2017-11-06 2021-05-28 百度在线网络技术(北京)有限公司 语音处理方法和装置
US20190147855A1 (en) * 2017-11-13 2019-05-16 GM Global Technology Operations LLC Neural network for use in speech recognition arbitration
KR102075796B1 (ko) * 2017-11-14 2020-03-02 주식회사 엘솔루 자동 음성인식 장치 및 방법
CN108109619B (zh) * 2017-11-15 2021-07-06 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
KR102023573B1 (ko) 2017-12-06 2019-09-24 한국과학기술연구원 지능형 음성 정보 제공 시스템 및 방법
CN109977368B (zh) * 2017-12-28 2023-06-16 海能达通信股份有限公司 文本转矢量图的方法及装置
US20190266482A1 (en) * 2018-02-26 2019-08-29 Gsi Technology Inc. Distance based deep learning
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法
CN108520752B (zh) * 2018-04-25 2021-03-12 西北工业大学 一种声纹识别方法和装置
KR20190129580A (ko) * 2018-05-11 2019-11-20 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
CN108831445A (zh) * 2018-05-21 2018-11-16 四川大学 四川方言识别方法、声学模型训练方法、装置及设备
CN110990962B (zh) * 2018-09-28 2021-09-07 株洲中车时代电气股份有限公司 辅助变流柜用风机的智能优化方法
KR102346244B1 (ko) * 2018-11-13 2022-01-04 울산과학기술원 신경망 기반 자동 슬롯 채우기 기술 및 장치
US11062621B2 (en) * 2018-12-26 2021-07-13 Paypal, Inc. Determining phonetic similarity using machine learning
CN109754012A (zh) * 2018-12-29 2019-05-14 新华三大数据技术有限公司 实体语义关系分类方法、模型训练方法、装置及电子设备
US11869494B2 (en) * 2019-01-10 2024-01-09 International Business Machines Corporation Vowel based generation of phonetically distinguishable words
JP6918030B2 (ja) * 2019-01-11 2021-08-11 株式会社東芝 学習装置、学習方法、プログラムおよび情報処理システム
US10839792B2 (en) * 2019-02-05 2020-11-17 International Business Machines Corporation Recognition of out-of-vocabulary in direct acoustics-to-word speech recognition using acoustic word embedding
CN111611769A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 一种多种语言模型的文本转换方法及装置
US11024315B2 (en) * 2019-03-09 2021-06-01 Cisco Technology, Inc. Characterizing accuracy of ensemble models for automatic speech recognition
CN109866713A (zh) * 2019-03-21 2019-06-11 斑马网络技术有限公司 安全检测方法及装置、车辆
KR102222640B1 (ko) * 2019-06-07 2021-03-04 고려대학교 산학협력단 기호 인식 장치 및 방법
KR20210014949A (ko) * 2019-07-31 2021-02-10 삼성전자주식회사 음성 인식을 위한 인공신경망에서의 디코딩 방법 및 장치
CN110457700B (zh) * 2019-08-07 2020-04-21 中国人民解放军国防科技大学 短文本描述方法和装置
CN110544469B (zh) * 2019-09-04 2022-04-19 秒针信息技术有限公司 语音识别模型的训练方法及装置、存储介质、电子装置
KR102519138B1 (ko) * 2019-09-09 2023-04-06 포항공과대학교 산학협력단 번역문 품질 예측 모델 학습 장치 및 방법
CN112487182B (zh) * 2019-09-12 2024-04-12 华为技术有限公司 文本处理模型的训练方法、文本处理方法及装置
US11599799B1 (en) * 2019-09-17 2023-03-07 Rockwell Collins, Inc. Digital signal processing with neural networks
KR20190113693A (ko) * 2019-09-18 2019-10-08 엘지전자 주식회사 단어 사용 빈도를 고려하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
US11410658B1 (en) * 2019-10-29 2022-08-09 Dialpad, Inc. Maintainable and scalable pipeline for automatic speech recognition language modeling
US11544472B2 (en) * 2020-01-17 2023-01-03 Samsung Electronics Co., Ltd. Structured adversarial, training for natural language machine learning tasks
KR20210098247A (ko) 2020-01-31 2021-08-10 삼성전자주식회사 전자 장치 및 그 동작방법
KR102152902B1 (ko) * 2020-02-11 2020-09-07 주식회사 엘솔루 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치
CN111209751B (zh) * 2020-02-14 2023-07-28 全球能源互联网研究院有限公司 一种中文分词方法、装置及存储介质
CN111488485B (zh) * 2020-04-16 2023-11-17 北京雷石天地电子技术有限公司 基于卷积神经网络的音乐推荐方法、存储介质和电子装置
CN111223476B (zh) * 2020-04-23 2020-08-04 深圳市友杰智新科技有限公司 语音特征向量的提取方法、装置、计算机设备和存储介质
CN111737996B (zh) * 2020-05-29 2024-03-26 北京百度网讯科技有限公司 基于语言模型获取词向量的方法、装置、设备及存储介质
CN111695298B (zh) * 2020-06-03 2023-04-07 重庆邮电大学 一种基于Pandapower与语音识别的电力系统潮流仿真交互方法
KR102499299B1 (ko) * 2020-12-22 2023-02-10 주식회사 카카오 음성 인식 장치, 프로그램 및 그것의 학습 제어 방법
WO2023205132A1 (en) * 2022-04-21 2023-10-26 Google Llc Machine learning based context aware correction for user input recognition
KR102606415B1 (ko) * 2023-03-27 2023-11-29 (주)유알피 딥러닝 기반 음성인식을 이용한 문맥 의도 인식 장치 및 방법
KR102552297B1 (ko) * 2023-03-29 2023-07-06 (주)유알피 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성방법 및 그 장치
KR102664201B1 (ko) * 2023-08-23 2024-05-08 국방과학연구소 가상 이미지 데이터 기반의 학습 데이터 검증 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091967A (ja) * 2000-09-14 2002-03-29 Nippon Hoso Kyokai <Nhk> 言語モデル作成装置および言語モデル作成プログラムを記録した記録媒体
JP2011027971A (ja) * 2009-07-24 2011-02-10 Fujitsu Ltd 音声認識装置、音声認識方法及びそのプログラム
US20140236577A1 (en) * 2013-02-15 2014-08-21 Nec Laboratories America, Inc. Semantic Representations of Rare Words in a Neural Probabilistic Language Model
JP2014160153A (ja) * 2013-02-20 2014-09-04 Nippon Telegr & Teleph Corp <Ntt> 言語モデル作成装置とその方法とプログラム

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5189610A (en) * 1986-10-20 1993-02-23 Xerox Corporation Electronic dictionary with correct and incorrect words
US5258909A (en) * 1989-08-31 1993-11-02 International Business Machines Corporation Method and apparatus for "wrong word" spelling error detection and correction
US5537317A (en) * 1994-06-01 1996-07-16 Mitsubishi Electric Research Laboratories Inc. System for correcting grammer based parts on speech probability
EP0856175A4 (en) * 1995-08-16 2000-05-24 Univ Syracuse SYSTEM AND METHOD FOR RETURNING MULTI-LANGUAGE DOCUMENTS USING A SEMANTIC VECTOR COMPARISON
US6026359A (en) * 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
US5952942A (en) * 1996-11-21 1999-09-14 Motorola, Inc. Method and device for input of text messages from a keypad
US6006183A (en) * 1997-12-16 1999-12-21 International Business Machines Corp. Speech recognition confidence level display
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
US6131102A (en) * 1998-06-15 2000-10-10 Microsoft Corporation Method and system for cost computation of spelling suggestions and automatic replacement
US6208964B1 (en) * 1998-08-31 2001-03-27 Nortel Networks Limited Method and apparatus for providing unsupervised adaptation of transcriptions
KR100749289B1 (ko) * 1998-11-30 2007-08-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 텍스트의 자동 세그멘테이션 방법 및 시스템
US6272462B1 (en) * 1999-02-25 2001-08-07 Panasonic Technologies, Inc. Supervised adaptation using corrective N-best decoding
JP2001067094A (ja) 1999-08-30 2001-03-16 Mitsubishi Electric Corp 音声認識装置及び方法
US6711541B1 (en) * 1999-09-07 2004-03-23 Matsushita Electric Industrial Co., Ltd. Technique for developing discriminative sound units for speech recognition and allophone modeling
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
JP4590692B2 (ja) 2000-06-28 2010-12-01 パナソニック株式会社 音響モデル作成装置及びその方法
US6876966B1 (en) 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
US6934683B2 (en) * 2001-01-31 2005-08-23 Microsoft Corporation Disambiguation language model
KR100362292B1 (ko) 2001-02-19 2002-11-23 보이스미디어텍(주) 음성인식 기술을 이용한 영어 발음 학습 방법 및 시스템
US6941264B2 (en) * 2001-08-16 2005-09-06 Sony Electronics Inc. Retraining and updating speech models for speech recognition
US7613601B2 (en) * 2001-12-26 2009-11-03 National Institute Of Information And Communications Technology Method for predicting negative example, system for detecting incorrect wording using negative example prediction
JP4233831B2 (ja) 2002-09-25 2009-03-04 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
US7478038B2 (en) * 2004-03-31 2009-01-13 Microsoft Corporation Language model adaptation using semantic supervision
US7509259B2 (en) * 2004-12-21 2009-03-24 Motorola, Inc. Method of refining statistical pattern recognition models and statistical pattern recognizers
JP4316583B2 (ja) 2006-04-07 2009-08-19 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
KR100833096B1 (ko) * 2007-01-18 2008-05-29 한국과학기술연구원 사용자 인식 장치 및 그에 의한 사용자 인식 방법
US9280969B2 (en) * 2009-06-10 2016-03-08 Microsoft Technology Licensing, Llc Model training for automatic speech recognition from imperfect transcription data
US8560318B2 (en) * 2010-05-14 2013-10-15 Sony Computer Entertainment Inc. Methods and system for evaluating potential confusion within grammar structure for set of statements to be used in speech recognition during computing event
EP2609587B1 (en) * 2010-08-24 2015-04-01 Veovox SA System and method for recognizing a user voice command in noisy environment
CN102509549B (zh) * 2011-09-28 2013-08-14 盛乐信息技术(上海)有限公司 语言模型训练方法及系统
CN103187052B (zh) * 2011-12-29 2015-09-02 北京百度网讯科技有限公司 一种建立用于语音识别的语言模型的方法及装置
US20130275117A1 (en) * 2012-04-11 2013-10-17 Morgan H. Winer Generalized Phonetic Transliteration Engine
CN103514230B (zh) * 2012-06-29 2018-06-05 北京百度网讯科技有限公司 一种用于根据语料序列训练语言模型的方法与设备
US8442821B1 (en) * 2012-07-27 2013-05-14 Google Inc. Multi-frame prediction for hybrid neural network/hidden Markov models
US9123333B2 (en) * 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
US9697821B2 (en) * 2013-01-29 2017-07-04 Tencent Technology (Shenzhen) Company Limited Method and system for building a topic specific language model for use in automatic speech recognition
US9519858B2 (en) * 2013-02-10 2016-12-13 Microsoft Technology Licensing, Llc Feature-augmented neural networks and applications of same
US9153231B1 (en) * 2013-03-15 2015-10-06 Amazon Technologies, Inc. Adaptive neural network speech recognition models
US9508347B2 (en) * 2013-07-10 2016-11-29 Tencent Technology (Shenzhen) Company Limited Method and device for parallel processing in model training
US10438581B2 (en) * 2013-07-31 2019-10-08 Google Llc Speech recognition using neural networks
CN103810999B (zh) * 2014-02-27 2016-10-19 清华大学 基于分布式神经网络的语言模型训练方法及其系统
US9484022B2 (en) * 2014-05-23 2016-11-01 Google Inc. Training multiple neural networks with different accuracy
KR102332729B1 (ko) * 2014-07-28 2021-11-30 삼성전자주식회사 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치
US20160034811A1 (en) * 2014-07-31 2016-02-04 Apple Inc. Efficient generation of complementary acoustic models for performing automatic speech recognition system combination
US9378731B2 (en) * 2014-09-25 2016-06-28 Google Inc. Acoustic model training corpus selection
US9818409B2 (en) * 2015-06-19 2017-11-14 Google Inc. Context-dependent modeling of phonemes

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091967A (ja) * 2000-09-14 2002-03-29 Nippon Hoso Kyokai <Nhk> 言語モデル作成装置および言語モデル作成プログラムを記録した記録媒体
JP2011027971A (ja) * 2009-07-24 2011-02-10 Fujitsu Ltd 音声認識装置、音声認識方法及びそのプログラム
US20140236577A1 (en) * 2013-02-15 2014-08-21 Nec Laboratories America, Inc. Semantic Representations of Rare Words in a Neural Probabilistic Language Model
JP2014160153A (ja) * 2013-02-20 2014-09-04 Nippon Telegr & Teleph Corp <Ntt> 言語モデル作成装置とその方法とプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
筒井良平他: "生成したテキストのNgramを用いた英語学習者による文法誤りを含んだ発話の音声認識の高精度化", 電子情報通信学会技術研究報告, vol. 107, no. 405, JPN6019046737, December 2007 (2007-12-01), pages 125 - 130, ISSN: 0004165847 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019207674A (ja) * 2018-05-28 2019-12-05 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited 適応パラメータサンプリング方法及びシステム
JP7368479B2 (ja) 2019-04-11 2023-10-24 インターナショナル・ビジネス・マシーンズ・コーポレーション モデルをトレーニングするためのトレーニング・データ修正
KR20210068776A (ko) * 2019-12-02 2021-06-10 주식회사 엘지유플러스 음성 인식 오류 보정 장치 및 방법
KR102324829B1 (ko) * 2019-12-02 2021-11-11 주식회사 엘지유플러스 음성 인식 오류 보정 장치 및 방법
WO2021111832A1 (ja) * 2019-12-06 2021-06-10 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理システム及び情報処理装置
JP7507172B2 (ja) 2019-12-06 2024-06-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理システム及び情報処理装置
WO2023228313A1 (ja) * 2022-05-25 2023-11-30 日本電信電話株式会社 言語処理方法、言語処理装置及びプログラム

Also Published As

Publication number Publication date
CN105679317A (zh) 2016-06-15
EP3154054A2 (en) 2017-04-12
EP3032533B1 (en) 2017-01-25
US20170229115A1 (en) 2017-08-10
US20160163310A1 (en) 2016-06-09
KR102167719B1 (ko) 2020-10-19
EP3154054B1 (en) 2020-12-23
JP6758811B2 (ja) 2020-09-23
US9666184B2 (en) 2017-05-30
KR20160069329A (ko) 2016-06-16
EP3032533A1 (en) 2016-06-15
EP3154054A3 (en) 2017-08-09
CN105679317B (zh) 2020-11-17
US10332510B2 (en) 2019-06-25

Similar Documents

Publication Publication Date Title
JP6758811B2 (ja) 言語モデル学習方法及び装置、音声認識方法及び装置
JP7170405B2 (ja) ニューラルネットワークを用いた認識方法及び装置並びにトレーニング方法
JP2018026127A (ja) 翻訳方法、翻訳装置及びコンピュータプログラム
JP2018081298A (ja) 自然語処理方法及び装置と自然語処理モデルを学習する方法及び装置
JP2016134169A (ja) 言語モデル学習方法及び装置、言語認識方法及び装置
JP7171532B2 (ja) 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
JP2020086436A (ja) 人工神経網における復号化方法、音声認識装置及び音声認識システム
US11631414B2 (en) Speech recognition method and speech recognition apparatus
EP3379532A1 (en) Method and apparatus for training acoustic model
JP2020042257A (ja) 音声認識方法及び装置
KR20220130565A (ko) 키워드 검출 방법 및 장치
EP4030421A1 (en) Method for converting voice feature of voice
Sen et al. Speech processing and recognition system
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
KR20210042696A (ko) 모델 학습 방법 및 장치
Dubey et al. Deep speech based end-to-end automated speech recognition (asr) for indian-english accents
KR102292921B1 (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
KR20230120790A (ko) 가변적 언어모델을 이용한 음성인식 헬스케어 서비스
KR20220067864A (ko) 음성의 보이스 특징 변환 방법
JP2020173441A (ja) 音声認識方法及び装置
KR102570908B1 (ko) 음성의 끝점 검출 장치, 프로그램 및 그것의 제어 방법
Roewer-Despres et al. Towards Detection and Remediation of Phonemic Confusion
KR20230101211A (ko) 음성으로부터 생성된 텍스트 데이터 처리 방법
KR20240018060A (ko) 감정 인식 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181015

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200302

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200818

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200902

R150 Certificate of patent or registration of utility model

Ref document number: 6758811

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250