JP6746292B2 - 言語モデル学習方法及び装置、言語認識方法及び装置 - Google Patents

言語モデル学習方法及び装置、言語認識方法及び装置 Download PDF

Info

Publication number
JP6746292B2
JP6746292B2 JP2015210589A JP2015210589A JP6746292B2 JP 6746292 B2 JP6746292 B2 JP 6746292B2 JP 2015210589 A JP2015210589 A JP 2015210589A JP 2015210589 A JP2015210589 A JP 2015210589A JP 6746292 B2 JP6746292 B2 JP 6746292B2
Authority
JP
Japan
Prior art keywords
learning
vector sequence
feature vector
estimation
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015210589A
Other languages
English (en)
Other versions
JP2016134169A (ja
Inventor
昊 潼 李
昊 潼 李
鎬 式 李
鎬 式 李
喜 烈 崔
喜 烈 崔
允 泓 閔
允 泓 閔
尚 賢 柳
尚 賢 柳
禮 夏 李
禮 夏 李
知 ▲ひょん▼ 李
知 ▲ひょん▼ 李
榮 相 崔
榮 相 崔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2016134169A publication Critical patent/JP2016134169A/ja
Application granted granted Critical
Publication of JP6746292B2 publication Critical patent/JP6746292B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition

Description

本発明は、言語モデル学習方法及び装置、言語モデルを利用した言語認識方法及び装置に関する。
入力パターンを特定グループに分類する問題を解決する方案として、人が有する効率的なパターン認識方法を実際のコンピュータに適用させようとする研究が活発に行われている。人の生物学的な神経細胞の特性を数学的表現によりモデリングある人工神経網(artificial neural network)に対する研究がその1つである。人工神経網は。音声認識分野で音声の入力パターンに対応する認識結果を出力するために用いることができる。人工神経網は、学習を介して入力パターンと出力パターンとの間のマッピングを生成することができ、学習結果に基づいて学習に利用されていない入力パターンに対して比較的正しい出力を生成することのできる能力を有する。
本発明の目的は、学習データから第1学習特徴ベクトル列と第2学習特徴ベクトル列を生成するステップを含む言語モデル学習方法及び装置を提供することにある。
一実施形態に係る言語モデル学習方法は、学習データから第1学習特徴ベクトル列及び第2学習特徴ベクトル列を生成するステップと、前記第1学習特徴ベクトル列に基づいて神経網の順方向推定を行い、前記第2学習特徴ベクトル列に基づいて前記神経網の逆方向推定を行うステップと、前記順方向推定の結果及び前記逆方向推定の結果に基づいて言語モデルを学習させるステップとを含む。
一実施形態に係る言語モデル学習方法において、前記神経網は、前記順方向推定のための第1隠れレイヤと前記逆方向推定のための第2隠れレイヤを含み、前記第1隠れレイヤと前記第2隠れレイヤは互いに分離してもよい。
一実施形態に係る言語モデル学習方法において、前記生成するステップは、前記学習データを単語ベクトル列に変換するステップと、前記単語ベクトル列の順方向に開始する前記第1学習特徴ベクトル列、及び前記単語ベクトル列の逆方向に開始する前記第2学習特徴ベクトル列を生成するステップとを含んでもよい。
一実施形態に係る言語モデル学習方法において、前記順方向推定は、前記学習データに含まれた第1単語の次に連結する単語を推定するステップを含み、前記逆方向推定は、前記学習データに含まれた第2単語の以前に連結した単語を推定するステップを含んでもよい。
一実施形態に係る言語モデル学習方法において、前記学習させるステップは、前記順方向推定結果及び前記逆方向推定結果に基づいて前記学習データと前記神経網の出力データとの間のエラー値を算出するステップと、前記エラー値に基づいて前記神経網に含まれた人工ニューロン間の接続加重値をアップデートするステップとを含んでもよい。
一実施形態に係る言語モデル学習方法において、前記学習データは、音声データ及び筆跡データのうち少なくとも1つに構成された順次的データを含んでもよい。
一実施形態に係る言語認識方法は、入力データから第1入力特徴ベクトル列及び第2入力特徴ベクトル列を生成するステップと、入力データに対する認識結果を推定するために前記第1入力特徴ベクトル列に基づいて神経網の順方向推定を行い、前記第2入力特徴ベクトル列に基づいて前記神経網の逆方向推定を行うステップとを含む。
一実施形態に係る言語認識方法において、前記推定するステップは、前記第1入力特徴ベクトル列に対する順方向推定結果及び前記第2入力特徴ベクトル列に対する逆方向推定結果に基づいて前記入力データに対する認識結果を推定してもよい。
一実施形態に係る言語モデル学習装置は、学習データから第1学習特徴ベクトル列及び第2学習特徴ベクトル列を生成する学習データ前処理部と、前記第1学習特徴ベクトル列及び前記第2学習特徴ベクトル列を用いて神経網に基づいた言語モデルを学習させ、前記第1学習特徴ベクトル列については前記神経網の順方向推定を行い、前記第2学習特徴ベクトル列については前記神経網の逆方向推定を行う言語モデル学習部とを含む。
一実施形態に係る言語認識装置は、入力データから第1入力特徴ベクトル列及び第2入力特徴ベクトル列を生成する入力データ前処理部と、前記入力データに対する認識結果を推定するために前記第1入力特徴ベクトル列に基づいて前記神経網の順方向推定を行い、前記第2入力特徴ベクトル列に基づいて前記神経網の逆方向推定を行う入力データ認識部とを含む。
一実施形態によると、改善された音声認識性能を提供することができる。
一実施形態に係る言語モデル学習装置の構成を説明するための図である。 一実施形態に係る学習データ前処理部及び言語モデルを学習させる言語モデル学習装置の構成の一例を示す図である。 一実施形態に係る言語モデルを構成する神経網の構造を説明するための図である。 一実施形態に係る言語認識装置の構成を説明するための図である。 一実施形態に係るBLSTM構造の再帰神経網に基づいた言語モデルを学習させる一例を説明するためのフローチャートである。 一実施形態に係る言語モデル学習方法の動作を説明するためのフローチャートである。 一実施形態に係る言語認識方法の動作を説明するためのフローチャートである。
以下、実施形態を添付する図面を参照しながら詳細に説明する。下記の特定の構造的ないし機能的な説明は単に実施形態を説明する目的のためだけに例示したものであり、実施形態の範囲が本文に説明された内容に限定されるものと解釈されることはない。関連の技術分野で通常の知識を有する者であれば、このような記載から様々な修正及び変形が可能である。また、各図面に提示された同一の参照符号は同一の部材を示し、公知された機能及び構造は省略する。
図1Aは、一実施形態に係る言語モデル学習装置の構成を説明するための図である。
言語モデル学習装置100は、神経網に基づいた言語モデルを学習させる。言語モデル学習装置100は、双方向推定によって言語モデルを学習させ、学習された言語モデルを出力する。
言語モデルは、神経網に基づいて入力パターンに対応する認識結果を推定することができる。言語モデルの認識性能は、学習過程により改善され得る。言語モデルは、連続的な音声データ又はテキスト入力のような筆跡データ(handwriting data)に対して認識の対象となる単語を推定するために用いてもよい。言語モデルは、例えば、音声認識、筆記認識、書き取り、通訳及び翻訳などの自然言語認識システムで利用される。言語モデルは、単語のセット又はシリーズ(series)又はグループに構成され、各単語が入力パターンに対応する程度を確率情報に示すことができる。
神経網は、連結線に連結された複数の人工ニューロンを用いて生物学的なシステムの算出能力を模倣するハードウェアに具現された認識モデルである。神経網は、人工ニューロンによって人の認知作用や学習過程を実行し、人工ニューロンは、接続加重値(connection weight)を有する連結線を用いて相互接続される。接続加重値は、連結線が有する特定の値として連結強度とも示す。人工ニューロンはノードとも称してもよい。
図1Aを参照すると、言語モデル学習装置100は、学習データ前処理部110及び言語モデル学習部120を含む。
言語モデルを学習させるための学習データが学習データ前処理部110に入力される。音声データ又は筆跡データなどの順次的データが学習データとして用いられる。
例えば、学習させようとする順次的データが学習データ前処理部110に入力され、学習データ前処理部110は、順次的データを文章単位に分割することができる。各文章を構成する単語はベクトル形態に表現され、学習データ前処理部110は、一文章に含まれた連続する単語を単語ベクトル列に変換することができる。
学習データ前処理部110は、学習データを構成している連続する単語から特徴を抽出し、抽出された特徴に基づいて学習データを単語ベクトル列に変換する。例えば、学習データが音声データである場合、学習データ前処理部110は、環境適応、終わり点検出、反響除去又は雑音除去などを行った後、デジタル処理された音声データを効果的に表現するための特徴ベクトルを抽出することができる。特徴ベクトル抽出方式で、例えば、声道(vocal tract)特性及び励磁(excitation)信号の特性を反映するケプストラム(cepstrum)抽出方式又は人の聴覚認知過程を反映したケプストラム抽出方式のMFCC(Mel Frequency Cepstrum Coefficient)を用いることができる。
学習データ前処理部110は、単語ベクトル列から順方向推定のための第1学習特徴ベクトル列及び逆方向推定のための第2学習特徴ベクトル列を生成する。第1学習特徴ベクトル列は単語ベクトル列の順方向に開始してもよく、第2学習特徴ベクトル列は単語ベクトル列の逆方向に開始してもよい。
言語モデル学習部120は、第1学習特徴ベクトル列及び第2学習特徴ベクトル列を用いて言語モデルを学習させ得る。第1学習特徴ベクトル列及び第2学習特徴ベクトル列は、時間に応じて順次言語モデルに入力されてもよい。言語モデル学習部120は、第1学習特徴ベクトル列については言語モデルを構成する神経網の順方向推定を行ってもよく、第2学習特徴ベクトル列については神経網の逆方向推定を行ってもよい。言語モデル学習部120は、第1学習特徴ベクトル列については順方向推定を継続的に行ってもよく、第2学習特徴ベクトル列については逆方向推定を継続的に行ってもよい。
神経網の順方向推定は、学習データに含まれた第1単語の次に連結する単語を推定する過程として、与えられた文章から過去の単語履歴に基づいて現在の単語を推定する過程である。逆方向推定は、学習データに含まれた第2単語の以前に連結した単語を推定する過程として、与えられた文章から未来の単語履歴に基づいて現在の単語を推定する過程である。
例えば、学習データが「We are friends」の文章で、現在の神経網に入力された単語が「are」であれば、順方向推定は「are」の以前単語の「We」を考慮して「are」を推定する過程であり、逆方向推定は「are」の次の単語の「friends」を考慮して「are」を推定する過程である。
言語モデルは、双方向推定が可能なBLSTM(Bidirectional Long Short−Term Memory)構造の再帰神経網(recurrent neural network)又は他の構造の再帰神経網に構成されてもよい。再帰神経網は、互いに異なる時間区間で隠れレイヤに含まれた隠れノードの間に再帰的な連結のある神経網を示す。BLSTM構造の再帰神経網は、図2を参照して後述する。
言語モデル学習部120は、BLSTM構造の再帰神経網のような双方向推定が可能な神経網を用いて双方向に単語列の発生確率を算出し、関心位置にある単語に対する推定が可能なように言語モデルを構成できる。例えば、言語モデル学習部120は、与えられた文章に対して左側から右側への順方向だけではなく、右側から左側への逆方向の文脈(context)を考慮して言語モデルを学習させることができる。順方向及び逆方向の双方向に文脈が考慮されるため単語をより正確に推定することができ、ノイズによる影響を低減させ得る。
言語モデル学習部120は、第1学習特徴ベクトル列に対する順方向推定結果と第2学習特徴ベクトル列に対する逆方向推定結果を統合し、学習データと言語モデルの出力データとの間のエラー値を算出する。言語モデル学習部120は、算出されたエラー値に基づいて神経網に含まれた人工ニューロン間の接続加重値をアップデートすることができる。
言語モデル学習部120は、例えば、逆伝播(Back Propagation Through Time:BPTT)方式を用いて人工ニューロン間の接続加重値をアップデートすることができる。言語モデル学習部120は、順方向推定結果と逆方向推定結果が統合される神経網のコンボリューションレイヤ(convolution layer)から開始し、隠れレイヤとデータレイヤへの逆方向にエラー値を伝播し、エラー値が減少するように人工ニューロン間の接続加重値をアップデートすることができる。
言語モデル学習部120は、現在の設定された人工ニューロン間の接続加重値がどれ程最適であるかを測定するための目的関数を定義し、目的関数の結果に基づいて接続加重値を続けて変更し学習を繰り返し行う。目的関数は、例えば、学習データに基づいて神経網から実際出力された出力値と出力されることに所望する期待値との間のエラーを算出するためのエラー関数である。言語モデル学習部120は、エラー関数の値を減らす方向に接続加重値をアップデートすることができる。
図1Bは、一実施形態に係る学習データ前処理部及び言語モデルを学習させる言語モデル学習装置の構成の一例を示す図である。
以前に説明したように、学習データ前処理部110は、単語ベクトル列の順方向に開始する第1学習特徴ベクトル列と単語ベクトル列の逆方向に開始する第2特徴ベクトル列を生成する。
言語モデル学習部120は、学習データ前処理部110で生成された第1学習特徴ベクトル列と第2学習特徴ベクトル列に基づいて言語モデルを学習させる学習処理部122を含む。言語モデル学習部120は、第1学習特徴ベクトル列に対してニューラルネットワークの順方向推定を行い、第2学習特徴ベクトル列に対してニューラルネットワークの逆方向推定を行う制御部124を含む。制御部124は第1学習特徴ベクトル列に対して継続的に順方向推定を行い、第2学習特徴ベクトル列に対して継続的に逆方向推定を行う。制御部124は、学習データに含まれた第1単語に連結される次に単語を推定し、与えられた文章から以前単語記録に基づいて現在の単語を推定することでニューラルネットワークの順方向推定を行う。制御部124は、学習データに含まれた第2単語に連結された以前単語を推定し、文章から未来の単語記録に基づいて現在の単語を推定することで逆方向推定を行う。
言語モデル学習部120は、双方向推定を行い、関心位置の単語を推定する言語モデルを構成できるニューラルネットワークを用いて単語列の双方向発生確率を算出する算出処理部126を含む。言語モデル学習部120は、第1学習特徴ベクトル列に対する順方向推定結果と第2学習特徴ベクトル列に対する逆方向推定結果とを統合することで、学習データと言語モデルの出力データとの間のエラー値を算出するエラー算出処理部128を含む。算出されたエラー値に基づいて、ニューラルネットワークに含まれた人工ニューロン間の接続加重値がアップデートされる。言語モデルは、与えられた文章において、左側から右側への順方向コンテキスト及び与えられた文章において右側から左側への逆方向コンテキストに基づいて学習され得る。
図2は、一実施形態に係る言語モデルを構成する神経網の構造を説明するための図である。
神経網200は、データレイヤ210、隠れレイヤ240、及びコンボリューションレイヤ250を含む。隠れレイヤ240は、第1隠れレイヤ220及び第2隠れレイヤ230を含む。神経網200がBLSTM構造の再帰神経網である場合、第1隠れレイヤ220及び第2隠れレイヤ230はLSTMレイヤに対応する。
BLSTM構造の再帰神経網は、以前時間区間で出力された値を次の時間区間まで保持するメモリブロックを含む。メモリブロックは過去のヒストリーを格納し、過去のヒストリーを現在のステップに反映させ得る。BLSTM構造の再帰神経網は、隠れレイヤで入力ゲート(input gate)、忘却ゲート(forget gate)、及び出力ゲート(output gate)の3つのゲートを用いて時間単位から入力されるデータを入力、格納、及び出力することができる。
データレイヤ210には、順方向推定のための第1学習特徴ベクトル列と逆方向推定のための第2学習特徴ベクトル列が入力される。学習データに含まれた単語に対する特徴ベクトルから第1学習特徴ベクトル列と第2学習特徴ベクトル列が別に生成されてもよい。他の実施形態によると、第1学習特徴ベクトル列と第2学習特徴ベクトル列は、学習データに含まれた単語に対する特徴ベクトルに基づいて同時に生成されてもよい。
第1隠れレイヤ220では、第1学習特徴ベクトル列に基づいて順方向推定が実行されて順方向に対する確率情報が算出され、第2隠れレイヤ230では、第2学習特徴ベクトル列に基づいて逆方向推定が実行されて逆方向に対する確率情報が算出される。
第1隠れレイヤ220と第2隠れレイヤ230は複数構成されてもよく、複数の第1隠れレイヤ220及び第2隠れレイヤ230は階層構造を有し得る。第1隠れレイヤ220は、上位第1隠れレイヤ220と連結され、第2隠れレイヤ230は上位第2隠れレイヤ230と連結され得る。
第1隠れレイヤ220及び第2隠れレイヤ230で算出された確率情報は、それぞれ上位第1隠れレイヤ220及び上位第2隠れレイヤ230に伝えられる。上位第1隠れレイヤ220及び上位第2隠れレイヤ230では、伝達された確率情報に基づいて確率情報が再び算出され得る。順方向推定は第1隠れレイヤ220を介して実行され、逆方向推定は第2隠れレイヤ230を介して行われる。第1隠れレイヤ220と第2隠れレイヤ230は、構造的かつ機能的に互いに分離してもよい。他の実施形態によると、第1隠れレイヤ220及び第2隠れレイヤ230は構造的に共に存在するものの、機能的には互いに分離してもよい。更なる実施形態によると、1つの隠れレイヤが第1隠れレイヤ及び第2隠れレイヤを処理するために用いてもよい。
コンボリューションレイヤ250では、順方向推定から導き出された確率情報と逆方向推定から導き出された確率情報を統合し、統合結果に基づいて入力単語に対する最終の推定結果が生成される。
言語モデル学習装置は、コンボリューションレイヤ250から生成された最終の推定結果と入力単語との間のエラー値を算出し、エラー値を最小化する方向に人工ニューロン間の接続加重値をアップデートすることができる。
図3は、一実施形態に係る言語認識装置の構成を説明するための図である。
言語認識装置300は、予め学習された言語モデルを用いて入力データを認識して認識結果を出力する。言語認識装置300は、言語モデルを用いて入力データから特徴を抽出し、抽出された特徴を言語モデルに適用して入力データの分類結果又は認識結果を出力する。例えば、言語認識装置300は、入力された音声データがどのような文章(又は、単語)を示すかを認識して出力することができる。言語認識装置300は、音声認識及び筆跡認識などの領域で用いられ、スマートフォン、タブレットコンピュータ、デスクトップコンピュータ、ナビゲーション、ディスプレイ装置、ウェアラブル装置、セキュリティシステム、及びスマートホームシステムなどの様々な装置/システムに適用され得る。
図3を参照すると、言語認識装置300は、入力データ前処理部310、言語モデルデータベース320及び入力データ認識部330を含む。
入力データ前処理部310は、入力データから順方向推定のための第1入力特徴ベクトル列と逆方向推定のための第2入力特徴ベクトル列を生成する。入力データとして音声データ及び筆跡データなどの時系列データが入力され得る。例えば、入力データ前処理部310は、入力された音声データから時間による相対的な変化量を特徴として抽出し、抽出された特徴を音声特徴ベクトル列に変換することができる。入力データ前処理部310は、音声特徴ベクトル列に基づいて音声特徴ベクトル列の順方向に開始する第1入力特徴ベクトル列と、音声特徴ベクトル列の逆方向に開始する第2入力特徴ベクトル列を生成する。
入力データ認識部330は、神経網に基づいた言語モデルに第1入力特徴ベクトル列と第2入力特徴ベクトル列を適用して入力データに対する認識結果を推定することができる。第1入力特徴ベクトル列と第2入力特徴ベクトル列は、時間に応じて順次言語モデルに入力されてもよい。他の実施形態によると、第1入力特徴ベクトル列と第2入力特徴ベクトル列は、言語モデルに同時に入力されてもよい。
言語モデルは図1A、図1B、図4及び図5を参照して説明する過程によって予め学習されて言語モデルデータベース320に格納されてもよい。言語モデルを構成する神経網は、順方向推定及び逆方向推定の双方向推定が可能な再帰神経網であり得る。入力データ認識部330は、第1入力特徴ベクトル列については神経網の順方向推定を継続的に行い、第2入力特徴ベクトル列については神経網の逆方向推定を継続的に行ってもよい。順方向推定と逆方向推定は互いに分離して独立的に行われてもよい。他の実施形態によると、順方向推定と逆方向推定は同時に行われてもよい。
言語モデルを構成する神経網は、順方向推定を行うための第1隠れレイヤと逆方向推定を行うための第2隠れレイヤを含んでもよく、第1隠れレイヤと第2隠れレイヤは互いに分離してもよい。入力データ認識部330は、第1隠れレイヤに基づいて第1入力特徴ベクトル列に対する順方向推定を行い、第2隠れレイヤに基づいて第2入力特徴ベクトル列に対する逆方向推定を行う。
第1入力特徴ベクトル列に対する順方向推定結果と第2入力特徴ベクトル列に対する逆方向推定結果は言語モデルによって統合され、統合結果に基づいて入力データに対応する認識結果が決定され得る。順方向推定結果及び逆方向推定結果は同時に決定されてもよく、順方向推定結果及び逆方向推定結果は同時に統合されてもよい。言語モデルは当該統合結果を確認できる。
入力データ認識部330は、言語モデルによって決定された認識結果をディスプレイ及びスピーカなどのようなインターフェース装置を介して出力する。
図4は、一実施形態に係るBLSTM構造の再帰神経網に基づいた言語モデルを学習させる一例を説明するためのフローチャートである。
ステップS410において、言語モデル学習装置100は、双方向推定のための単語ベクトル列を生成する。学習データは単語が連続した単語列に構成され、言語モデル学習装置100は、連続した単語列から抽出された特徴をベクトル形式に変換して単語ベクトル列を生成することができる。
言語モデル学習装置100は、単語ベクトル列から順方向推定のための第1学習特徴ベクトル列と逆方向推定のための第2学習特徴ベクトル列とを別に生成することができる。言語モデル学習装置100は、第1学習特徴ベクトル列を逆順に再構成して第2学習特徴ベクトル列を生成する。
順方向推定は、入力された現在の単語の次の単語を推定する特性上、第1学習特徴ベクトル列の初めに文章の開始を示すための特殊単語又は指示子フラグ又はポインタが挿入される。逆方向推定は、入力された現在の単語の以前単語を推定する特性上、第2学習特徴ベクトル列の初めに文章の終了を示すための特殊単語又は指示子フラグ又はポインタが挿入される。一実施形態によると、順方向推定又は逆方向推定に、特殊単語、フラグ、又はポイントは文章の開始に対する指示子として認識されるため、予め定義された1つの字/符号又は複合字であり得る。
ステップS420において、言語モデル学習装置100は、データレイヤとLSTMレイヤとの間の推定を行う。ステップS410で生成された第1学習特徴ベクトル列と第2学習特徴ベクトル列は、単語単位で順次BLSTM構造の再帰神経網のデータレイヤに入力されてもよい。言語モデル学習装置100は、関連の技術分野で知られたLSTMレイヤの算出式により、第1学習特徴ベクトル列と第2学習特徴ベクトル列に対する加重和を算出することができる。LSTMレイヤは、BLSTM構造の再帰神経網の隠れレイヤに該当する。
LSTM構造の再帰神経網が階層的なLSTMレイヤを含む場合、ステップS430において、言語モデル学習装置100は、LSTMレイヤと上位LSTMレイヤとの間の推定を行う。
言語モデル学習装置100は、以前LSTMレイヤの順方向推定によって算出された結果のみを上位LSTMレイヤの順方向推定のために利用され、以前LSTMレイヤの逆方向推定によって算出された結果を上位LSTMレイヤの逆方向推定のために利用され得る。
LSTMレイヤにおける算出が終了すると、ステップS440において、言語モデル学習装置100は、第1学習特徴ベクトル列に対する順方向推定結果と第2学習特徴ベクトル列に対する逆方向推定結果とを統合して最終単語に対する確率値を算出する。
ステップS450において、言語モデル学習装置100は、最終単語に対する確率値に基づいてエラー値を算出し、エラーを補正する。言語モデル学習装置100は、監督学習方式により入力単語と最終単語とを比較してエラー値を算出し、逆伝播(BPTT)方式により、下位LSTMレイヤでエラー値を伝播してLSTMレイヤに含まれた人工ニューロン間の接続加重値を補正することができる。
ステップS460において、言語モデル学習装置100は、エラーが補正されて学習された言語モデルを格納する。言語モデル学習装置100は、BLSTM構造の再帰神経網を構成する人工ニューロンの接続加重値情報及び状態情報を格納する。
ステップS470において、言語モデル学習装置100は、ステップS450で算出されたエラー値が予め設定された条件を満たすか否かを判断する。言語モデル学習装置100は、エラー値が予め設定された条件を満たす場合、学習を終了する。エラー値が予め設定された条件を満足しない場合、言語モデル学習装置100はステップS410〜ステップS470を繰り返す。
図5は、一実施形態に係る言語モデル学習方法の動作を説明するためのフローチャートである。
ステップS510において、言語モデル学習装置100は、学習データから順方向推定のための第1学習特徴ベクトル列及び逆方向推定のための第2学習特徴ベクトル列を生成する。言語モデル学習装置100は、学習データを構成している連続する単語を単語ベクトル列に変換し、単語ベクトル列の順方向に開始する第1学習特徴ベクトル列と単語ベクトル列の逆方向に開始する第2学習特徴ベクトル列を生成する。
ステップS520において、言語モデル学習装置100は、第1学習特徴ベクトル列に基づいて言語モデルを構成する神経網の順方向推定を行い、第2学習特徴ベクトル列に基づいて神経網の逆方向推定を行う。第1学習特徴ベクトル列に対する順方向推定と第2学習特徴ベクトル列に対する逆方向推定は、互いに独立的に行われてもよい。他の実施形態によると、第1学習特徴ベクトル列に対する順方向推定と第2学習特徴ベクトル列に対する逆方向推定は同時に行われてもよい。
ステップS530において、言語モデル学習装置100は、第1学習特徴ベクトル列に対する順方向推定結果と第2学習特徴ベクトル列に対する逆方向推定結果に基づいて言語モデルを学習させる。言語モデル学習装置100は、順方向推定結果と逆方向推定結果とを統合して、学習データと神経網の出力データとの間のエラー値を算出し、エラー値が減少するように人工ニューロン間の接続加重値をアップデートする。
図5に示された各ステップには図1A、図1B、図2及び図4を参照して前述した事項がそのまま適用されるため、より詳細な説明は省略する。
図6は、一実施形態に係る言語認識方法の動作を説明するためのフローチャートである。
ステップS610において、言語認識装置300は、入力データから入力特徴ベクトル列を生成する。言語認識装置300は入力データから特徴を抽出し、抽出された特徴に基づいて入力特徴ベクトル列を生成する。言語認識装置300は、入力特徴ベクトル列に基づいて順方向推定のための第1入力特徴ベクトル列と逆方向推定のための第2入力特徴ベクトル列とを生成する。第1入力特徴ベクトル列と第2入力特徴ベクトル列は、時間に応じて順次予め学習された言語モデルに適用され得る。
ステップS620において、言語認識装置300は、神経網に基づいた言語モデルを用いて入力データに対する認識結果を推定する。言語認識装置300は、第1入力特徴ベクトル列に基づいて言語モデルを構成する神経網の順方向推定を継続的に行い、第2入力特徴ベクトル列に基づいて神経網の逆方向推定を継続的に行う。言語認識装置300は、第1入力特徴ベクトル列に対する順方向推定結果と第2入力特徴ベクトル列に対する逆方向推定結果に基づいて入力データに対する認識結果を推定することができる。
図6に示された各ステップには図3を参照して前述した事項がそのまま適用されるため、より詳細な説明は省略する。
以上で説明された実施形態は、ハードウェア構成要素、ソフトウェア構成要素、及び/又はハードウェア構成要素及びソフトウェア構成要素の組合せで実現してもよい。例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、または、命令(instruction)を実行して応答できる異なる装置のように、1つ以上の汎用コンピュータまたは特殊目的のコンピュータを用いて実現され得る。処理装置は、オペレーティングシステム(OS)及び前記オペレーティングシステム上で行われる1つ以上のソフトウェアアプリケーションを行ってもよい。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理及び生成してもよい。理解の便宜のために、処理装置は1つ使用されるものと説明される場合もあるが、当該の技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含んでいることが分かる。例えば、処理装置は、複数のプロセッサまたは1つのプロセッサ及び1つのコントローラを含んでもよい。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこのうちの1つ以上の組合せを含んでもよく、希望の通りに動作するよう処理装置を構成したり独立的または結合的に処理装置を命令してもよい。ソフトウェア及び/又はデータは、処理装置によって解釈されたり処理装置に命令またはデータを提供するためどのような類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体または装置、送信される信号波に永久的または一時的に具体化できる。ソフトウェアは、ネットワークに接続されたコンピュータシステム上に分散し、分散された方法で格納されたり実行されてもよい。ソフトウェア及びデータは1つ以上のコンピュータで読み出し可能な記録媒体に格納されてもよい。
実施形態に係る方法は、多様なコンピュータ手段を介して様々な処理を実行することができるプログラム命令の形態で実現され、コンピュータで読取可能な記録媒体に記録されてもよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などのうち1つまたはその組合せを含んでもよい。媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、光ディスクのような光磁気媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれてもよい。プログラム命令の例には、コンパイラによって作られるような機械語コードだけでなく、インタープリタなどを用いてコンピュータによって実行できる高級言語コードが含まれる。前記したハードウェア装置は、本発明の動作を行うために1つ以上のソフトウェアモジュールとして動作するように構成されてもよく、その逆も同様である。
上述したように、本発明を特定の実施形態と図面によって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような実施形態から多様な修正及び変形が可能である。
したがって、本発明の範囲は、開示された実施形態に限定されるものではなく、特許請求の範囲だけではなく特許請求の範囲と均等なものなどによって定められるものである。
100:言語モデル学習装置
110:学習データ前処理部
120:言語モデル学習部
122:学習処理部
124:制御部
126:算出処理部
128:エラー算出処理
300:言語認識装置
310:入力データ前処理部
320:言語モデルデータベース
330:入力データ認識部

Claims (12)

  1. 言語モデル学習装置の作動方法であって、前記言語モデル学習装置はコンピュータによって実装され、
    前記コンピュータが、単語を含んでいる学習データである入力データから、順方向推定のための第1学習特徴ベクトル列及び逆方向推定のための第2学習特徴ベクトル列を生成するステップと、
    前記コンピュータが、前記第1学習特徴ベクトル列に基づいて神経網の順方向推定を行い、かつ、前記第2学習特徴ベクトル列に基づいて前記神経網の逆方向推定を行うステップと、
    前記コンピュータが、前記順方向推定の結果及び前記逆方向推定の結果に基づいて言語モデルを学習させるステップと、
    を含み、
    前記第1学習特徴ベクトル列は入力データの単語ベクトル列の順方向で開始し、かつ、前記第2学習特徴ベクトル列は、前記単語ベクトル列の逆方向で開始し、
    前記神経網は、前記順方向推定のための第1隠れレイヤおよび前記逆方向推定のための第2隠れレイヤを含み、前記第1隠れレイヤは、前記第2隠れレイヤと分離しており、かつ、
    前記第1隠れレイヤおよび前記第2隠れレイヤそれぞれは、階層構造を有している、
    法。
  2. 前記生成するステップは、
    前記コンピュータが、前記学習データを単語ベクトル列に変換するステップと、
    前記コンピュータが、前記単語ベクトル列の順方向に開始する前記第1学習特徴ベクトル列、及び前記単語ベクトル列の逆方向に開始する前記第2学習特徴ベクトル列を生成するステップと、
    を含む、請求項1に記載の方法。
  3. 前記順方向推定は、前記コンピュータが、前記学習データに含まれた第1単語の次に連結する単語を推定するステップを含み、
    前記逆方向推定は、前記コンピュータが、前記学習データに含まれた第2単語の以前に連結した単語を推定するステップを含む、
    請求項1または2に記載の方法。
  4. 前記学習させるステップは、
    前記コンピュータが、前記順方向推定の結果及び前記逆方向推定の結果に基づいて前記学習データと前記神経網の出力データとの間のエラー値を算出するステップと、
    前記コンピュータが、前記エラー値に基づいて前記神経網に含まれた人工ニューロン間の接続加重値をアップデートするステップと、
    を含む、請求項1乃至いずれか一項に記載の方法。
  5. 前記言語モデルは、BLSTM(Bidirectional Long Short−Term Memory)構造の再帰神経網に基づく、
    請求項1乃至いずれか一項に記載の方法。
  6. 前記BLSTM構造の再帰神経網は、以前時間区間で出力された値を次の時間区間まで保持するメモリブロックを含む、
    請求項に記載の方法。
  7. 前記学習データは、音声データ及び筆跡データのうち少なくとも1つに構成された順次的データを含む、
    請求項1乃至いずれか一項に記載の方法。
  8. 請求項1乃至7いずれか一項に記載の方法を実行するためのプログラムが記録されたコンピュータで読み出し可能な記録媒体。
  9. コンピュータによって実装される言語モデル学習装置であって、
    前記コンピュータによって、単語を含んでいる学習データである入力データから、順方向推定のための第1学習特徴ベクトル列及び逆方向推定のための第2学習特徴ベクトル列を生成する、ように構成されている学習データ前処理部と、
    前記コンピュータに、前記第1学習特徴ベクトル列及び前記第2学習特徴ベクトル列に基づいて神経網ベースの言語モデルを学習させ、前記第1学習特徴ベクトル列について前記神経網の順方向推定を行い、かつ、前記第2学習特徴ベクトル列について前記神経網の逆方向推定を行うように構成されている言語モデル学習部と、
    を含み、
    前記第1学習特徴ベクトル列は入力データの単語ベクトル列の順方向で開始し、かつ、前記第2学習特徴ベクトル列は、前記単語ベクトル列の逆方向で開始し、
    前記神経網は、前記順方向推定のための第1隠れレイヤおよび前記逆方向推定のための第2隠れレイヤを含み、前記第1隠れレイヤは、前記第2隠れレイヤと分離しており、かつ、
    前記第1隠れレイヤおよび前記第2隠れレイヤそれぞれは、階層構造を有している、
    言語モデル学習装置。
  10. 前記言語モデル学習部は、前記順方向推定の結果及び前記逆方向推定の結果に基づいて、前記コンピュータに前記言語モデルを学習させる、
    請求項に記載の言語モデル学習装置。
  11. 前記言語モデル学習部は、順方向推定結果及び逆方向推定結果に基づいて、前記コンピュータによって、学習データと出力データとの間のエラー値を算出し、前記エラー値に基づいて前記神経網に含まれた人工ニューロン間の接続加重値をアップデートする、
    請求項9または10に記載の言語モデル学習装置。
  12. 前記学習データ前処理部は、前記コンピュータによって、前記学習データを単語ベクトル列に変換し、前記単語ベクトル列の順方向に開始する前記第1学習特徴ベクトル列、及び前記単語ベクトル列の逆方向に開始する前記第2学習特徴ベクトル列を生成する、
    請求項9乃至11いずれか一項に記載の言語モデル学習装置。
JP2015210589A 2015-01-19 2015-10-27 言語モデル学習方法及び装置、言語認識方法及び装置 Active JP6746292B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020150008881A KR102305584B1 (ko) 2015-01-19 2015-01-19 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치
KR10-2015-0008881 2015-01-19

Publications (2)

Publication Number Publication Date
JP2016134169A JP2016134169A (ja) 2016-07-25
JP6746292B2 true JP6746292B2 (ja) 2020-08-26

Family

ID=54145576

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015210589A Active JP6746292B2 (ja) 2015-01-19 2015-10-27 言語モデル学習方法及び装置、言語認識方法及び装置

Country Status (5)

Country Link
US (1) US10380483B2 (ja)
EP (1) EP3046053B1 (ja)
JP (1) JP6746292B2 (ja)
KR (1) KR102305584B1 (ja)
CN (1) CN105810193B (ja)

Families Citing this family (133)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
KR102305584B1 (ko) * 2015-01-19 2021-09-27 삼성전자주식회사 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN106486115A (zh) * 2015-08-28 2017-03-08 株式会社东芝 改进神经网络语言模型的方法和装置及语音识别方法和装置
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10032463B1 (en) * 2015-12-29 2018-07-24 Amazon Technologies, Inc. Speech processing with learned representation of user interaction history
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
JP6671020B2 (ja) * 2016-06-23 2020-03-25 パナソニックIpマネジメント株式会社 対話行為推定方法、対話行為推定装置及びプログラム
KR102615290B1 (ko) 2016-09-01 2023-12-15 에스케이텔레콤 주식회사 발음 사전 학습 방법 및 장치
US10474753B2 (en) * 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
KR20180027887A (ko) * 2016-09-07 2018-03-15 삼성전자주식회사 뉴럴 네트워크에 기초한 인식 장치 및 뉴럴 네트워크의 트레이닝 방법
US10565493B2 (en) * 2016-09-22 2020-02-18 Salesforce.Com, Inc. Pointer sentinel mixture architecture
US11113480B2 (en) 2016-09-26 2021-09-07 Google Llc Neural machine translation systems
US10579729B2 (en) 2016-10-18 2020-03-03 International Business Machines Corporation Methods and system for fast, adaptive correction of misspells
US10372814B2 (en) * 2016-10-18 2019-08-06 International Business Machines Corporation Methods and system for fast, adaptive correction of misspells
US20180113919A1 (en) * 2016-10-24 2018-04-26 Google Llc Graphical user interface rendering predicted query results to unstructured queries
US11042796B2 (en) 2016-11-03 2021-06-22 Salesforce.Com, Inc. Training a joint many-task neural network model using successive regularization
KR101869438B1 (ko) * 2016-11-22 2018-06-20 네이버 주식회사 딥 러닝을 이용하여 환자의 진단 이력으로부터 질병 예후를 예측하는 방법 및 시스템
KR20180068475A (ko) 2016-12-14 2018-06-22 삼성전자주식회사 순환 모델에 기초한 인식 및 순환 모델을 트레이닝하는 방법과 장치
CN106778867B (zh) * 2016-12-15 2020-07-07 北京旷视科技有限公司 目标检测方法和装置、神经网络训练方法和装置
CN107610707B (zh) * 2016-12-15 2018-08-31 平安科技(深圳)有限公司 一种声纹识别方法及装置
CN106531150B (zh) * 2016-12-23 2020-02-07 云知声(上海)智能科技有限公司 一种基于深度神经网络模型的情感合成方法
US10529324B1 (en) * 2016-12-27 2020-01-07 Cognistic, LLC Geographical based voice transcription
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10241684B2 (en) * 2017-01-12 2019-03-26 Samsung Electronics Co., Ltd System and method for higher order long short-term memory (LSTM) network
KR102637338B1 (ko) 2017-01-26 2024-02-16 삼성전자주식회사 번역 보정 방법 및 장치와 번역 시스템
US11954098B1 (en) * 2017-02-03 2024-04-09 Thomson Reuters Enterprise Centre Gmbh Natural language processing system and method for documents
US20190362703A1 (en) * 2017-02-15 2019-11-28 Nippon Telegraph And Telephone Corporation Word vectorization model learning device, word vectorization device, speech synthesis device, method thereof, and program
US10769522B2 (en) 2017-02-17 2020-09-08 Wipro Limited Method and system for determining classification of text
CN108461080A (zh) * 2017-02-21 2018-08-28 中兴通讯股份有限公司 一种基于hlstm模型的声学建模方法和装置
CN108304365A (zh) * 2017-02-23 2018-07-20 腾讯科技(深圳)有限公司 关键词提取方法及装置
KR102488338B1 (ko) * 2017-03-09 2023-01-13 삼성전자주식회사 언어 모델을 압축하기 위한 전자 장치, 추천 워드를 제공하기 위한 전자 장치 및 그 동작 방법들
US10825445B2 (en) * 2017-03-23 2020-11-03 Samsung Electronics Co., Ltd. Method and apparatus for training acoustic model
JP6657137B2 (ja) * 2017-03-31 2020-03-04 Kddi株式会社 情報処理装置、情報処理方法、及びプログラム
JP6663881B2 (ja) * 2017-04-13 2020-03-13 日本電信電話株式会社 並列句解析装置、並列句解析モデル学習装置、方法、及びプログラム
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
KR102291615B1 (ko) * 2017-05-29 2021-08-18 주식회사 케이티 통신망의 장애를 예측하는 장치 및 방법
CN107633842B (zh) 2017-06-12 2018-08-31 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
KR102410820B1 (ko) 2017-08-14 2022-06-20 삼성전자주식회사 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
KR102067973B1 (ko) 2017-08-28 2020-02-11 에스케이텔레콤 주식회사 음소열의 편집 거리를 이용한 웨이크업 단어 선정 방법
CN108304388B (zh) * 2017-09-12 2020-07-07 腾讯科技(深圳)有限公司 机器翻译方法及装置
KR102424540B1 (ko) 2017-10-16 2022-07-25 삼성전자주식회사 문장 생성 모델의 업데이트 방법 및 문장 생성 장치
KR102458244B1 (ko) * 2017-11-23 2022-10-24 삼성전자주식회사 기계 번역 방법 및 장치
KR102449842B1 (ko) * 2017-11-30 2022-09-30 삼성전자주식회사 언어 모델 학습 방법 및 이를 사용하는 장치
KR102424514B1 (ko) * 2017-12-04 2022-07-25 삼성전자주식회사 언어 처리 방법 및 장치
KR102083938B1 (ko) * 2017-12-08 2020-04-29 주식회사 엘솔루 음성인식 시스템 및 이의 전사데이터 생성 방법
CN108074575A (zh) * 2017-12-14 2018-05-25 广州势必可赢网络科技有限公司 一种基于循环神经网络的身份验证方法及装置
US11030414B2 (en) * 2017-12-26 2021-06-08 The Allen Institute For Artificial Intelligence System and methods for performing NLP related tasks using contextualized word representations
CN107993651B (zh) * 2017-12-29 2021-01-19 深圳和而泰数据资源与云技术有限公司 一种语音识别方法、装置、电子设备及存储介质
KR101896973B1 (ko) * 2018-01-26 2018-09-10 가천대학교 산학협력단 기계학습 모델을 이용한 자연어 생성 시스템, 방법, 및 컴퓨터 판독가능매체
JP6816047B2 (ja) * 2018-02-08 2021-01-20 日本電信電話株式会社 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム
CN108363695B (zh) * 2018-02-23 2020-04-24 西南交通大学 一种基于双向依赖语法树表征的用户评论属性抽取方法
KR102599980B1 (ko) * 2018-03-23 2023-11-07 삼성에스디에스 주식회사 텍스트 데이터 복호화를 위한 데이터 처리 방법 및 그 데이터 처리 장치
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
KR102622349B1 (ko) 2018-04-02 2024-01-08 삼성전자주식회사 전자 장치 및 그 제어 방법
US10599769B2 (en) 2018-05-01 2020-03-24 Capital One Services, Llc Text categorization using natural language processing
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
JP7163618B2 (ja) * 2018-05-22 2022-11-01 大日本印刷株式会社 学習装置、学習方法、プログラム及び推定装置
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
KR101951026B1 (ko) * 2018-08-21 2019-02-22 넷마블 주식회사 처리 방법 및 처리 장치와 서버
JP7192356B2 (ja) * 2018-09-27 2022-12-20 大日本印刷株式会社 情報処理装置、情報処理方法及びプログラム
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN109543041B (zh) * 2018-11-30 2021-11-26 安徽听见科技有限公司 一种语言模型得分的生成方法及装置
CN110176230B (zh) * 2018-12-11 2021-10-08 腾讯科技(深圳)有限公司 一种语音识别方法、装置、设备和存储介质
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
KR102153211B1 (ko) * 2019-01-11 2020-09-07 서울과학기술대학교 산학협력단 채팅 데이터와 오디오 데이터를 이용한 하이라이트 영상 생성 장치 및 방법
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110415702A (zh) * 2019-07-04 2019-11-05 北京搜狗科技发展有限公司 训练方法和装置、转换方法和装置
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
KR102405522B1 (ko) 2019-11-27 2022-06-03 연세대학교 산학협력단 텍스트의 계층적 특성을 반영한 문맥적 비윤리 탐지 장치 및 방법
CN113496282A (zh) * 2020-04-02 2021-10-12 北京金山数字娱乐科技有限公司 一种模型训练方法及装置
CN111477220B (zh) * 2020-04-15 2023-04-25 南京邮电大学 一种面向家居口语环境的神经网络语音识别方法及系统
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN111737996B (zh) * 2020-05-29 2024-03-26 北京百度网讯科技有限公司 基于语言模型获取词向量的方法、装置、设备及存储介质
CN111833851B (zh) * 2020-06-16 2021-03-16 杭州云嘉云计算有限公司 一种自动学习优化声学模型的方法
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11829720B2 (en) 2020-09-01 2023-11-28 Apple Inc. Analysis and validation of language models
WO2022139047A1 (ko) * 2020-12-22 2022-06-30 한국과학기술원 대화문에서의 프레임 자동 분석 방법 및 장치
CN112926344B (zh) * 2021-03-13 2023-11-17 中国科学院新疆理化技术研究所 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPR824301A0 (en) * 2001-10-15 2001-11-08 Silverbrook Research Pty. Ltd. Methods and systems (npw001)
KR100480790B1 (ko) 2003-01-28 2005-04-06 삼성전자주식회사 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
JP2007271876A (ja) 2006-03-31 2007-10-18 Denso Corp 音声認識装置および音声認識用のプログラム
KR100825690B1 (ko) 2006-09-15 2008-04-29 학교법인 포항공과대학교 음성 인식 시스템에서의 인식 오류 수정 방법
WO2012025579A1 (en) * 2010-08-24 2012-03-01 Veovox Sa System and method for recognizing a user voice command in noisy environment
US9031844B2 (en) * 2010-09-21 2015-05-12 Microsoft Technology Licensing, Llc Full-sequence training of deep structures for speech recognition
KR20120066530A (ko) * 2010-12-14 2012-06-22 한국전자통신연구원 언어 모델 가중치 추정 방법 및 이를 위한 장치
CN102890930B (zh) * 2011-07-19 2014-06-04 上海上大海润信息系统有限公司 基于hmm/sofmnn混合模型的语音情感识别方法
EP2736042A1 (en) * 2012-11-23 2014-05-28 Samsung Electronics Co., Ltd Apparatus and method for constructing multilingual acoustic model and computer readable recording medium for storing program for performing the method
CN103871404B (zh) * 2012-12-13 2017-04-12 北京百度网讯科技有限公司 一种语言模型的训练方法、查询方法和对应装置
KR102153606B1 (ko) * 2013-08-13 2020-09-08 삼성전자주식회사 동영상 콘텐트에 대한 사용자 피로도 예측 장치 및 방법
KR102183856B1 (ko) * 2013-12-20 2020-11-30 삼성전자주식회사 단말 및 콘텐츠 공유 방법
CN103810999B (zh) * 2014-02-27 2016-10-19 清华大学 基于分布式神经网络的语言模型训练方法及其系统
KR102295769B1 (ko) * 2014-05-20 2021-08-30 삼성전자주식회사 스토리지 컨트롤러 및 상기 스토리지 컨트롤러의 동작 방법
KR102281178B1 (ko) * 2014-07-09 2021-07-23 삼성전자주식회사 멀티-레벨 음성 인식 방법 및 장치
KR102187195B1 (ko) * 2014-07-28 2020-12-04 삼성전자주식회사 주변 소음에 기초하여 자막을 생성하는 동영상 디스플레이 방법 및 사용자 단말
KR102265931B1 (ko) * 2014-08-12 2021-06-16 삼성전자주식회사 음성 인식을 이용하는 통화 수행 방법 및 사용자 단말
KR102248822B1 (ko) * 2014-10-06 2021-05-10 삼성전자주식회사 디스플레이 장치를 구비한 모바일 기기 및 그것의 동작 방법
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR102117082B1 (ko) * 2014-12-29 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR102305584B1 (ko) * 2015-01-19 2021-09-27 삼성전자주식회사 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치
KR102387567B1 (ko) * 2015-01-19 2022-04-18 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR102396250B1 (ko) * 2015-07-31 2022-05-09 삼성전자주식회사 대역 어휘 결정 장치 및 방법
KR102209689B1 (ko) * 2015-09-10 2021-01-28 삼성전자주식회사 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
KR20180001889A (ko) * 2016-06-28 2018-01-05 삼성전자주식회사 언어 처리 방법 및 장치
KR102589637B1 (ko) * 2016-08-16 2023-10-16 삼성전자주식회사 기계 번역 방법 및 장치

Also Published As

Publication number Publication date
EP3046053B1 (en) 2019-05-08
KR20160089210A (ko) 2016-07-27
EP3046053A3 (en) 2016-12-21
US20160210551A1 (en) 2016-07-21
KR102305584B1 (ko) 2021-09-27
EP3046053A2 (en) 2016-07-20
CN105810193B (zh) 2022-02-08
US10380483B2 (en) 2019-08-13
JP2016134169A (ja) 2016-07-25
CN105810193A (zh) 2016-07-27

Similar Documents

Publication Publication Date Title
JP6746292B2 (ja) 言語モデル学習方法及び装置、言語認識方法及び装置
US10332510B2 (en) Method and apparatus for training language model and recognizing speech
KR102483643B1 (ko) 모델을 학습하는 방법 및 장치 및 상기 뉴럴 네트워크를 이용한 인식 방법 및 장치
KR102410820B1 (ko) 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
CN110689879B (zh) 端到端语音转写模型的训练方法、系统、装置
JP6611053B2 (ja) 主題推定システム、主題推定方法およびプログラム
JP7055630B2 (ja) 音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体
KR20200129639A (ko) 모델 학습 방법 및 장치
KR20200128938A (ko) 모델 학습 방법 및 장치
JP2019144402A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
US10825445B2 (en) Method and apparatus for training acoustic model
JP6967197B2 (ja) 異常検出装置、異常検出方法及びプログラム
US11955026B2 (en) Multimodal neural network for public speaking guidance
EP3336775B1 (en) Method and apparatus for performing recognition using recurrent model and training recurrent model
KR102174189B1 (ko) 브이에이이 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템
KR102449840B1 (ko) 사용자 적응적인 음성 인식 방법 및 장치
KR102292921B1 (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
JP7359028B2 (ja) 学習装置、学習方法、および、学習プログラム
Yazdchi et al. A new bidirectional neural network for lexical modeling and speech recognition improvement

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181012

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200714

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200805

R150 Certificate of patent or registration of utility model

Ref document number: 6746292

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250