JP7058985B2 - 認識方法、認識装置及びトレーニング方法 - Google Patents

認識方法、認識装置及びトレーニング方法 Download PDF

Info

Publication number
JP7058985B2
JP7058985B2 JP2017224794A JP2017224794A JP7058985B2 JP 7058985 B2 JP7058985 B2 JP 7058985B2 JP 2017224794 A JP2017224794 A JP 2017224794A JP 2017224794 A JP2017224794 A JP 2017224794A JP 7058985 B2 JP7058985 B2 JP 7058985B2
Authority
JP
Japan
Prior art keywords
data
window
training
padding
current window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017224794A
Other languages
English (en)
Other versions
JP2018097860A (ja
Inventor
尚 賢 柳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2018097860A publication Critical patent/JP2018097860A/ja
Application granted granted Critical
Publication of JP7058985B2 publication Critical patent/JP7058985B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Description

以下、循環モデルに基づいて認識する技術、及び循環モデルをトレーニングさせる技術が提供される。
近年、入力パターンを特定グループに分類する問題を解決する方策として、人が有する効率的なパターン認識方法を実際のコンピュータに適用させようとする研究が盛んに行われている。このような研究の1つとして、人の生物学的神経細胞の特性を数学的に表現することによりモデリングした人工神経網(artificial neural network)に対する研究が行われている。入力パターンを特定グループに分類する問題を解決するために、人工神経網は人が有している学習という能力を模倣したアルゴリズムを用いる。このアルゴリズムを用いて人工神経網は、入力パターンと出力パターンとの間の写像(mapping)を生成するが、これを人工神経網が学習能力があると表現する。また、人工神経網は、学習された結果に基づいて学習に利用されていない入力パターンに対して比較的正しい出力を生成できる一般化能力を有している。
本発明の目的は、循環モデルに基づいて認識する技術、及び循環モデルをトレーニングさせる技術を提供する。
一実施形態に係る認識方法は、シーケンスデータから現在ウィンドウに対応するターゲットデータ及び前記ターゲットデータに続くパディングデータを抽出するステップと、以前ウィンドウに対応する状態パラメータを取得するステップと、循環モデルを用いて前記状態パラメータ、前記抽出されたターゲットデータ、及び前記抽出されたパディングデータに基づいて前記現在ウィンドウに対する認識結果を算出するステップとを含む。
認識方法は、前記現在ウィンドウの最後のフレームに対応する状態パラメータを次のウィンドウで使用するために臨時格納するステップをさらに含み得る。
認識方法は、前記循環モデルに基づいて算出される前記パディングデータに対する出力データ及びパディングに関する状態パラメータを排除するステップをさらに含み得る。
前記認識結果を算出するステップは、前記循環モデルは、前記現在ウィンドウのウィンドウ長さ及びパディング長さだけ広げられるステップと、前記広げられた循環モデルで前記状態パラメータ、前記抽出されたターゲットデータ、及び前記抽出されたパディングデータをフレームごとに入力して前記現在ウィンドウに含まれたフレームに対応する出力データを算出するステップとを含み得る。
前記認識結果を算出するステップは、前記以前ウィンドウの最後のフレームに対応する状態パラメータに基づいて、前記現在ウィンドウの最初のフレームに対応するノードの入力値をアップデートするステップを含み得る。
前記ターゲットデータ及び前記パディングデータを抽出するステップは、前記シーケンスデータから前記以前ウィンドウの最後のフレームデータの次のフレームデータからウィンドウ長さだけのデータを前記現在ウィンドウに対応するターゲットデータとして抽出するステップを含み得る。
前記ターゲットデータ及び前記パディングデータを抽出するステップは、前記シーケンスデータから前記現在ウィンドウの最後のフレームデータの次のフレームデータからパディング長さだけのデータをパディングに対応する前記パディングデータとして抽出するステップを含み得る。
前記循環モデルは、トレーニングデータに基づいてトレーニング入力からトレーニング出力が出力されるようにトレーニングされた双方向循環神経網であり得る。
前記循環モデルは、前記ウィンドウ及びパディングに含まれる各フレームに対応するノードを含み、前記認識結果を算出するステップは、前記ウィンドウの最初のフレームから最後のフレームまで順次前記ノードのフォワードパスよる状態パラメータをアップデートするステップと、前記ウィンドウの最後のフレームから最初のフレームまで順次前記ノードのバックワードパスによる状態パラメータをアップデートするステップと、前記フォワードパスによる状態パラメータ及び前記バックワードパスによる状態パラメータを次のレイヤのノードに提供するステップとを含み得る。
前記ターゲットデータ及び前記パディングデータを抽出するステップは、音声信号に対応する前記シーケンスデータを受信するステップを含み、前記認識結果を算出するステップは、前記現在ウィンドウに対応する前記ターゲットデータから発音を識別するステップを含み得る。
前記以前ウィンドウに対応する状態パラメータを取得するステップは、前記現在ウィンドウが前記シーケンスデータに対して最初ウィンドウである場合に応答して、前記以前ウィンドウに対応する状態パラメータをデフォルト値として決定するステップを含み得る。
前記ターゲットデータ及び前記パディングデータを抽出するステップは、前記現在ウィンドウが前記シーケンスデータに対して最後ウィンドウである場合に応答して、前記パディングデータを排除するステップを含み得る。
一実施形態に係る認識装置は、循環モデルを格納する格納部と、シーケンスデータから現在ウィンドウに対応するターゲットデータ及び前記ターゲットデータに続くパディングデータを抽出し、前記格納部から以前ウィンドウに対応する状態パラメータを取得し、前記循環モデルを用いて前記状態パラメータ、前記抽出されたターゲットデータ、及び前記抽出されたパディングデータに基づいて前記現在ウィンドウに対する認識結果を算出する処理部とを含む。
一実施形態に係るトレーニング方法は、循環モデルを取得するステップと、トレーニング入力から現在ウィンドウに対応するターゲットデータ及び前記ターゲットデータに続くパディングデータを抽出するステップと、以前ウィンドウに対応する状態パラメータを取得するステップと、前記状態パラメータ、前記抽出されたターゲットデータ、及び前記抽出されたパディングデータに基づいて、前記トレーニング入力にマッピングされたトレーニング出力が算出されるように前記循環モデルをトレーニングさせるステップとを含。
トレーニング方法は、前記トレーニング入力で次のウィンドウに対応するデータが存在する場合に応答して、前記現在ウィンドウの最後のフレームに対応する状態パラメータを、次のウィンドウのトレーニングデータをトレーニングさせるために臨時格納するステップを含み得る。
トレーニング方法は、前記循環モデルに基づいて算出されるパディングに対する出力データ及び前記パディングに関する状態パラメータを排除するステップを含み得る。
前記トレーニングさせるステップは、前記以前ウィンドウの最後のフレームに対応する状態パラメータに基づいて、前記現在ウィンドウの最初のフレームに対応するノードの状態パラメータをアップデートするステップを含み得る。
前記以前ウィンドウに対応する状態パラメータを取得するステップは、前記現在ウィンドウが前記トレーニング入力に対して最初ウィンドウである場合に応答して、前記以前ウィンドウに対応する状態パラメータをデフォルト値として決定するステップを含み得る。
前記ターゲットデータ及び前記パディングデータを抽出するステップは、前記現在ウィンドウが前記トレーニング入力に対して最後ウィンドウである場合に応答して、前記パディングデータを排除するステップを含み得る。
他の一実施形態に係る認識方法は、シーケンスデータから現在ウィンドウに対応するターゲットデータを抽出するステップと、前記シーケンスデータ内の前記現在ウィンドウに先行するデータに対応する過去コンテキストデータを取得するステップと、前記シーケンスデータから前記現在ウィンドウに後続するデータに対応する未来コンテキストデータを取得するステップと、前記過去コンテキストデータ、前記抽出されたターゲットデータ、及び前記未来コンテキストデータに基づいて循環モデルを用いて前記現在ウィンドウに対する認識結果を算出するステップとを含み、前記過去コンテキストデータと前記予めコンテキストデータはデータのタイプが異なる特徴を有する。
前記過去コンテキストデータを取得するステップは、前記シーケンスデータから前記現在ウィンドウに先行する以前ウィンドウに対応する状態パラメータを前記過去コンテキストデータとして取得するステップを含み、前記未来コンテキストデータを取得するステップは、前記シーケンスデータから前記抽出されたターゲットデータに後続するパディングデータを前記未来コンテキストデータとして抽出するステップを含み得る。
前記状態パラメータを前記過去コンテキストデータとして取得するステップは、前記現在ウィンドウが前記シーケンスデータの最初ウィンドウであることに応答して、前記状態パラメータをデフォルト値として設定するステップと、前記現在ウィンドウが前記シーケンスデータの最初ウィンドウではないことに応答して、前記以前ウィンドウで実行された認識の間に取得された状態パラメータを前記状態パラメータとして取得するステップとを含み得る。
前記以前ウィンドウで実行された認識過程で取得された状態パラメータは、前記以前ウィンドウで認識過程中に格納され、前記以前ウィンドウで実行された認識の間に取得された状態パラメータの取得は、格納された状態パラメータを検索して取得し得る。
前記以前ウィンドウ及び前記現在ウィンドウは、それぞれ複数のフレームを含み、前記状態パラメータの取得は、前記以前ウィンドウの最終のフレームに対応する状態パラメータを取得することを含み得る。
他の一実施形態に係るトレーニング方法は、循環モデルを取得するステップと、トレーニング入力から現在ウィンドウに対応するターゲットデータを抽出するステップと、前記トレーニング入力から前記現在ウィンドウに先行するデータに対応する過去コンテキストデータを取得するステップと、前記トレーニング入力から前記現在ウィンドウに後続するデータに対応する未来コンテキストデータを取得するステップと、前記トレーニング入力にマッピングされたトレーニング出力が前記過去コンテキストデータ、前記抽出されたターゲットデータ、及び前記未来コンテキストデータに基づいて算出されるように前記循環モデルをトレーニングするステップとを含み、前記過去コンテキストデータと前記予めコンテキストデータはデータのタイプが異なる特徴を有する。
前記過去コンテキストデータを取得するステップは、前記トレーニング入力から前記現在ウィンドウに先行する以前ウィンドウに対応する状態パラメータを過去コンテキストデータとして取得するステップを含み、前記未来コンテキストデータを取得するステップは、前記トレーニング入力から前記抽出されたターゲットデータに続くパディングデータを未来コンテキストデータとして抽出するステップを含み得る。
前記状態パラメータを取得するステップは、前記現在ウィンドウが前記トレーニング入力の最初ウィンドウであることに応答して、前記状態パラメータをデフォルト値として設定するステップと、前記現在ウィンドウが前記トレーニング入力の最初ウィンドウではないことに応答して、前記以前ウィンドウに対して実行されたトレーニングの間に取得された状態パラメータを前記状態パラメータとして取得するステップとを含み得る。
前記以前ウィンドウで実行されたトレーニングの間に取得された前記状態パラメータは、前記以前ウィンドウで実行されたトレーニングの間に格納され、前記以前ウィンドウで実行されたトレーニングの間に取得された状態パラメータの取得は、格納された状態パラメータを検索して取得し得る。
前記以前ウィンドウ及び前記現在ウィンドウは、それぞれ複数のフレームを含み、前記状態パラメータの取得は、前記以前ウィンドウの最終のフレームに対応する状態パラメータを取得することを含み得る。
本発明によると、循環モデルに基づいて認識する技術、及び循環モデルをトレーニングさせる技術を提供することができる。
一実施形態に係る循環神経網の概念を説明する。 一実施形態に係るウィンドウ長さだけ広げられた循環神経網を説明する。 一実施形態に係る双方向循環神経網を説明する。 一実施形態に係る双方向循環神経網を用いた音声認識を説明する。 一実施形態に係る状態パラメータ及びパディングに基づいた循環神経網を用いたシーケンスデータ認識を説明する。 一実施形態に係る以前ウィンドウの状態パラメータを現在ウィンドウに反映する過程を説明する。 一実施形態に係る循環神経網の各ノードのアップデートを説明する図である。 一実施形態に係る認識装置の構成を示すブロック図である。 一実施形態に係るトレーニング装置の構成を示すブロック図である。 一実施形態に係る認識方法を説明したフローチャートである。 一実施形態に係るトレーニング方法を説明したフローチャートである。 一実施形態に係る認識方法及びトレーニング方法において、シーケンスデータに対するウィンドウ及びパディングを設定する過程を説明したフローチャートである。
以下、実施形態を添付する図面を参照しながら詳細に説明する。しかし、特許出願の範囲がこのような実施形態によって制限されたり限定されることはない。各図面に提示された同一の参照符号は同一の部材を示す。
以下で説明する実施形態には様々な変更が加えられる。以下で説明する実施形態は実施形態に対して限定しようとするものではなく、これに対する全ての変更、均等物ないし代替物を含むものとして理解されなければならない。
本明細書で用いた用語は、単に特定の実施形態を説明するために用いられるものであって、本発明を限定しようとする意図はない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
異なる定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
また、添付図面を参照して説明することにおいて、図面符号に関係なく同一の構成要素は同一の参照符号を付与し、これに対する重複する説明は省略することにする。実施形態の説明において関連する公知技術に対する具体的な説明が実施形態の要旨を不要に曖昧にすると判断される場合、その詳細な説明は省略する。
図1は、一実施形態に係る循環神経網の概念を説明する。
神経網は、連結線に連結れた複数の人工ニューロンを用いて生物学的なシステムの算出能力を模倣するハードウェアで具現された認識モデルである。本明細書では神経網として、循環神経網(Recurrent Neural Network:RNN)100を例に挙げて説明する。
循環神経網100はその内部にループを有する神経網として、神経網の出力が循環して再び入力されることにより入力xから新しい出力oが出力されるようトレーニングされた神経網を示す。例えば、循環神経網100はノード110を含み、ノード110(例えば、隠れノード)の出力が循環して再び入力される。図1は、循環神経網100を簡略に示してノード110のみを示しているが、これに限定されることなく、ノード110は循環神経網100に含まれる隠れレイヤを構成する単位である。隠れレイヤに含まれるノード110を隠れノードに示してもよい。
本明細書において、ノード110に関する値を指示するパラメータは状態パラメータのように示す。例えば、状態パラメータは、ノード110の出力値などを含む。状態パラメータはノードパラメータに示してもよい。
例えば、循環神経網100は、LSTM(Long Short Term Memory)神経網から構成されてもよい。LSTM神経網のノード110は、メモリセル及び複数のゲート(例えば、入力ゲート、放棄ゲート(forget gate)、出力ゲート)を含む。LSTM神経網において、ノード110の状態パラメータは、隠れレイヤのノード110の出力値、ノード110のセル状態値などを含む。ノード110のセル状態値及び出力値などは、ノード110のゲートに基づいて制御される。ただし、LSTM神経網は単なる例示であって、本明細書の循環神経網100の構造をこれに限定されることはない。
入力xはt時点に循環神経網100から入力されるフレームデータを示し、出力oはt時点に循環神経網100から出力されるフレームデータを示す。t時点はタイムスタンプtを示す。フレームデータは、シーケンスデータが一定の長さ(例えば、フレーム単位)でサンプリングされたデータを示す。フレーム単位は、設計に応じて相違に設定されてもよい。シーケンスデータ及びフレームデータは下記の図5を参照して詳細に説明する。
図2は、一実施形態に係るウィンドウ長さだけ広げられた循環神経網を説明する。
循環神経網は、図2に示すように、循環連結がウィンドウ長さだけ広げられた(unfolded)形態のように示してもよい。例えば、循環神経網のノードは、フォワードノード211、221、231及びバックワードノード212、222、232に分類される。フォワードノード211、221、231のそれぞれは1つのフレームに対応し、バックワードノード212、222、232のそれぞれも1つのフレームに対応する。図2で各フレームには、1つのフォワードノード及び1つのバックワードノードが対応する。例えば、t番目のフレームに対して、第1フォワードノード211及び第1バックワードノード212が対応する。ただし、これに限定されることなく、1つのフレームに複数のフォワードノード及び複数のバックワードノードが対応できる。
本明細書において、フォワードノード211、221、231は、フォワードパス291を形成している循環連結により他のフォワードノードに接続されてもよい。バックワードノード212、222、232は、バックワードパス292を形成している循環連結により他のバックワードノードに連結される。例えば、フォワードパス291は、次のフレームのフォワードノードに状態パラメータを数式に基づいてアップデートして伝達する連結を示し、バックワードパス292は、以前フレームのバックワードノードに状態パラメータを数式に基づいてアップデートして伝達する連結を示す。フォワードノードのアップデート経路及びバックワードノードのアップデート経路は、互いに独立的に分離できる。
例えば、図2において、ウィンドウ200の長さが3個のフレームである場合を示す。認識装置におけるt時点の入力フレームデータxは、t時点のフレームに対応する第1フォワードノード211及び第1バックワードノード212に入力される。認識装置は、t時点に対応するフレームの第1フォワードノード211からt+1時点に対応するフレームの第2フォワードノード221に、t時点における状態パラメータをフォワードパス291を介して伝搬する。また、認識装置は、t+1時点に対応するフレームの第2バックワードノード222からt時点に対応するフレームの第1バックワードノード212に、t+1時点における状態パラメータをバックワードパス292を介して伝搬する。認識装置は、フォワードパス291及びバックワードパス292を介してアップデートされたノード(例えば、第1フォワードノード211、第1バックワードノード212)の状態パラメータを用いて、t番目のフレームに対応する出力oを入力xから算出する。
図2を参照してウィンドウ長さを3個のフレームに説明し、明確な説明のために循環神経網の要素のうちノードのみを示したが、必ずこれに限定されることはない。
図3は、一実施形態に係る双方向循環神経網を説明する。
循環神経網は、入力レイヤ、隠れレイヤ、及び出力レイヤを含む。隠れレイヤは、上述したように複数のノードを隠れノードとして含む。循環神経網が、例えば、LSTM神経網である場合、ノードのそれぞれはメモリセルユニットを含んでもよく、メモリセルユニットは少なくとも1つの時間ゲートを含んでもよい。
例えば、入力レイヤは、トレーニング又は認識を行うための入力を受信して隠れレイヤに伝達し、出力レイヤは、隠れレイヤのノードから受信した信号に基づいて神経網の出力を生成する。隠れレイヤは、入力レイヤと出力レイヤとの間に位置し、入力レイヤを介して伝達されたトレーニングデータ又は認識の対象となるデータを出力レイヤで認識しやすい値に変化させることができる。入力レイヤ及び隠れレイヤに含まれたノードは、連結加重値を有する連結線を用いて連結され、隠れレイヤと出力レイヤに含まれたノードでも連結加重値を有する連結線を介して連結される。入力レイヤ、隠れレイヤ、及び出力レイヤは複数のノードを含む。
図3を参照すると、各入力レイヤ及び出力レイヤは1つのノードを含み、各隠れレイヤは2つのノードを含むものとして示されているが、これは説明の便宜のために簡略されたものであり、設計に応じて各レイヤに含まれるノード及びノードの個数は変更されてもよい。
神経網は、複数の隠れレイヤを含む。複数の隠れレイヤを含む神経網を深い神経網又はディープニューラルネットワーク(deep neural network)といい、深い神経網を学習させることを深い学習又はディープラーニング(deep learning)という。隠れレイヤに含まれたノードを隠れノード(hidden node)という。以前の時間区間における隠れノードの状態パラメータ(例えば、出力値)は、現在の時間区間(例えば、現在フレーム)における隠れノードに連結される。そして、現在の時間区間における隠れノードの状態パラメータは、次の時間区間における隠れノードに連結される。このように、互いに異なる時間区間で、隠れノードの間に循環的な連結がある神経網を循環神経網という。図3に示す隠れノードにおいて、フォワードノードはフォワードノードに対して循環的な連結を生成し、バックワードノードはバックワードノードに対して循環的な連結を生成する。
図3は、ウィンドウ長さが3個のフレームである場合の循環神経網を広げた状態を示している。ウィンドウ200の最初のフレーム310、中間フレーム320、及び最後のフレーム330に対して循環神経網が入力レイヤ311、321、331、隠れレイヤ312、322、332、及び出力レイヤ313、323、333を含むものと簡略に示されているが、必ずこれに限定されることはない。例えば、循環神経網は、ウィンドウ200それぞれのフレームに対して複数の隠れレイヤを含んでもよい。
循環神経網の各レイヤは、(例えば、レイヤ間の遅延がない)現在の時間に対応するタイムスタンプtを受信する。タイムスタンプtは、位相信号に当該する。位相信号は、同一の時点に対してアップデートされる全てのレイヤに印加される。例えば、t時点に対してアップデートされるレイヤは、ウィンドウ200の最初のフレーム310では入力レイヤ311、隠れレイヤ312、及び出力レイヤ313である。t+1時点に対してアップデートされるレイヤは、ウィンドウ200の中間フレーム320では入力レイヤ321、隠れレイヤ322、及び出力レイヤ323である。t+2時点に対してアップデートされるレイヤは、ウィンドウ200の最後のフレーム330では入力レイヤ331、隠れレイヤ332、及び出力レイヤ333である。
循環神経網に対する入力データは、連続的な入力信号(以下、シーケンスデータ)からサンプリングされる。循環神経網に対する入力値は、均一かつ同期的にサンプリングされてもよく、不均一かつ非同期的にサンプリングされてもよい。
循環神経網の各フレームに対応する隠れレイヤは、次のフレームの同じレベルの隠れレイヤに対してフォワードパス391を形成する。例えば、循環神経網でウィンドウ200内の最初のフレームに対応する隠れレイヤ312のi番目フォワードノードは、次のフレーム(図2では中間フレーム)に対応する隠れレイヤ322のi番目フォワードノードに対してフォワードパス391を形成する。ここで、iは1以上の整数である。
また、循環神経網の各フレームの隠れレイヤは、以前フレームの同じレベルの隠れレイヤに対してバックワードパス392を形成する。例えば、循環神経網でウィンドウ200内の中間フレームに対応する隠れレイヤ322のj番目バックワードノードは、以前フレーム(図2では最初のフレーム)に対応する隠れレイヤ312のj番目バックワードノードに対してバックワードパス392を形成する。ここで、jは1以上の整数である。ここで、ノードは、フォワードパス391を介してのみ連結されるフォワードノード及びバックワードパス392を介してのみ連結されるバックワードノードに分類できる。
上述したように、広げられた循環神経網において、隠れレイヤの間にフォワードパス及びバックワードパスが形成される循環神経網を双方向循環神経網に示すことができる。
図4は、一実施形態に係る双方向循環神経網を用いた音声認識を説明する。
認識装置は、シーケンスデータ401を受信する。認識装置は、シーケンスデータ401として音声信号を受信する。例えば、図4において、認識装置は「one oh five」という音声信号を受信してもよい。発音記号として「wahn ow fayv」に示してもよい。
認識装置は、シーケンスデータから任意のウィンドウに対応するターゲットデータに対する認識結果409を出力するために、現在ウィンドウの以前フレーム410に基づいた情報、及び次のフレーム420に基づいた情報を参照する。例えば、図4において認識装置は「oh」を認識するために、「one」及び「five」に対応する情報を参照し、「ow」という認識結果409を出力する。認識結果409は発音情報であってもよいが、これに限定されることなく、認識装置は発音情報に基づいて発音に対応する単語を推定してもよい。
一実施形態に係る認識装置は、双方向循環神経網を用いることによって全体の音声情報を活用することができ、その結果、認識装置は、現在ウィンドウに対応するターゲットデータの認識結果をより正確に算出できる。さらに、認識装置は、シーケンスデータをウィンドウ単位に分割して認識するため、認識結果を迅速に算出できる。認識装置で使用する循環モデルをトレーニングさせるトレーニング装置も、高い正確性を有する循環モデルを速い速度でトレーニングさせることができる。また、認識装置は、過去のコンテキストについてパディングを追加する代わりに、以前ウィンドウにおける状態パラメータを用いることにより、トレーニング誤差、トレーニング時間、GPUメモリ使容量、認識エラー、認識時間などを全て減少させることができる。
本明細書における認識結果は、現在ウィンドウに対応するターゲットデータから出力されなければならないラベル(label)を示してもよい。例えば、シーケンスデータが音声信号である場合、ターゲットデータは、現在ウィンドウだけ抽出された部分音声信号であってもよく、認識結果は、部分音声信号から識別された発音情報であってもよい。発音情報は、例えば、部分音声信号の各フレームに対応する音素を含む。
図5は、一実施形態に係る状態パラメータ及びパディングに基づいた循環神経網を用いたシーケンスデータ認識を説明する。
一実施形態に係る認識装置は、過去コンテキストの長さに制限されることなく、過去のコンテキストを参照するために以前ウィンドウにおける状態パラメータを考慮して現在ウィンドウに対応するターゲットデータに対する認識結果を算出する。また、認識装置は、未来コンテキストに対してはパディング(padding)に対応するパディングデータを参照する。したがって、認識装置は、過去のコンテキストに加えて未来コンテキストを参照することで正確性及び認識速度を改善することができる。ここで、過去コンテキストデータと予めコンテキストデータは互いに異なるタイプのデータであってもよい。
図5では、複数のフレームで構成されるシーケンスデータ501を例にして説明する。認識装置は、シーケンスデータ501を構成しているフレームデータのそれぞれを順次受信する。フレームデータは、上述したように、シーケンスデータ501が一定時間区間でサンプリングされたデータを示すことができる。
認識装置は、シーケンスデータ501をウィンドウ単位に分割する。例えば、認識装置は、最初ウィンドウ510に対応するターゲットデータを処理した後、2番目のウィンドウ520に対応するターゲットデータを処理し、その後、3番目のウィンドウ530に対応するターゲットデータを処理する。認識装置は、それぞれのウィンドウに対応するターゲットデータのフレームデータが重複しないようにシーケンスデータ501を分割する。すなわち、フレームデータは、1つのウィンドウに示される。
認識装置は、シーケンスデータ501から現在ウィンドウに対応するターゲットデータ541、及び現在ウィンドウの次に連結されたパディングに対応するパディングデータ542を抽出する。認識装置は、ターゲットデータ541及びパディングデータ542を循環モデルに入力し、ターゲットデータ541に対する認識結果を算出する。
そして、認識装置は、ターゲットデータ541に対する認識結果を算出する過程で、現在ウィンドウの最後のフレームに対応する状態パラメータ550(例えば、隠れノードの出力値など)を格納する。ここで、認識装置は、現在ウィンドウの次に連結されたパディングに対応するパディングデータに対応する状態パラメータは排除する。
その後、認識装置は、次のウィンドウに対する認識結果を算出するため、以前に格納した状態パラメータ550を次のウィンドウの最初のフレームに対応するノード(例えば、フォワードノード)に、図5に示すようにフィードフォワーディングする。したがって、認識装置は、過去のコンテキストを保持しながらも、未来のコンテキストをパディングの大きさ内で参照できる。過去コンテキストについては、以前ウィンドウで予め格納した状態パラメータ550を現在ウィンドウの最初のフレームに対応するノードの初期値に入力すればよいため、認識装置の算出の複雑度が減少する。また、認識装置は、状態パラメータ550によって過去のコンテキストの長さに制限されることなく、過去のコンテキストを参照することで認識の正確度を向上させることができる。
認識装置は、最後ウィンドウ590の最後のフレームデータがシーケンスデータ501の最後のフレームデータである場合に応答して、パディングデータなしに認識を行う。
結果的に、認識装置は、最小のオーバーヘッドを有するよう正確度を保障しながら、音声信号などを徐々にデコーディングできる。
図5では認識を基準にして説明したが、必ずこれに限定されることはない。トレーニング装置も認識装置と同様に、トレーニングデータのトレーニング入力をウィンドウ単位に分割してパディングデータと共にトレーニングを行うことができる。
例えば、トレーニング装置は、トレーニング入力のターゲットデータ及びパディングデータを循環モデルにフィードフォワーディングする過程で、現在ウィンドウに対する状態パラメータを格納し、その後、逆伝搬(back propagation)学習によって循環モデルをアップデートする。現在ウィンドウに対するトレーニングが完了した後、トレーニング装置は、トレーニング入力で次のウィンドウに対応するターゲットデータと共に、現在ウィンドウに対する状態パラメータを循環モデルにフィードフォワーディングする。循環モデルのトレーニング及び逆伝搬学習などについて、下記の図11を参照して詳細に説明する。
図6は、一実施形態に係る以前ウィンドウの状態パラメータを現在ウィンドウに反映する過程を説明する。
認識装置は、n-1番目ウィンドウ610に対応するターゲットデータに対応する認識結果を算出する過程で、n-1番目ウィンドウ610で最後のフレームに対応するノード611(例えば、フォワードノード)の状態パラメータを格納する。認識装置は、n-1番目ウィンドウ610の次に配置するパディング620に関する情報は排除する。ここで、nは2以上の整数である。
認識装置は、最後のフレームに対応するノード611に対応する状態パラメータを別途の格納空間に臨時的に格納する。その後、認識装置は、n-1番目ウィンドウ610で最後のフレームに対応するノード611の状態パラメータをn番目ウィンドウ630の最初のフレームに対応するノード631(例えば、次のフォワードノード)にフォワードパス601を介して伝搬する。
n番目ウィンドウ630は、現在ウィンドウに対応する。したがって、認識装置は、現在ウィンドウ(図6では、n番目ウィンドウ)630で最初のフレームに対応するノード631の初期状態パラメータを、以前ウィンドウ610で最後のフレームにおける状態パラメータに基づいて決定する。
その後、認識装置は、現在ウィンドウ630の循環モデルのノード状態パラメータを以前ウィンドウ610の状態パラメータ、現在ウィンドウ630に対応するターゲットデータ、及び現在ウィンドウに付与されたパディング640に対応するパディングデータに基づいてアップデートする。
図6を参照して認識装置に基づいて説明したが、必ずこれに限定されることはない。トレーニング装置も認識装置と同様に、トレーニングデータで現在ウィンドウに対応するトレーニング入力をトレーニングさせるために以前ウィンドウの最後のフレームに対応する状態パラメータをパディングデータと共に参照できる。
図7は、一実施形態に係る循環神経網の各ノードのアップデートを説明する図である。
認識装置は、循環神経網に対して同じレベルのレイヤの状態パラメータを順次アップデートした後、次のレベルのレイヤの状態パラメータを順次アップデートする。
例えば、図7は、3個のフレームから構成されるウィンドウが設定された循環神経網として、入力レイヤ、2つレベルの隠れレイヤ、及び出力レイヤを有するネットワーク構造を仮定する。
まず、認識装置は、ウィンドウに対応するターゲットデータに含まれるフレームデータx、xt+1、xt+2を循環神経網の入力レイヤ711、721、731に一回で入力できる。認識装置は、入力レイヤ711、721、731に入力されたターゲットデータの各フレームデータをフィードフォワーディングを介して隠れレイヤに伝達する。例えば、認識装置は、最初のフレームの入力レイヤ711から隠れレイヤ712にフィードフォワーディング781を介してターゲットデータを伝達し、中間フレームの入力レイヤ721から隠れレイヤ722にフィードフォワーディング782を介してターゲットデータを伝達し、最後のフレームの入力レイヤ731から隠れレイヤ732にフィードフォワーディング783を介してターゲットデータを伝達する。
その後、認識装置は、隠れレイヤのノードをフォワードパスを介して順次アップデートする。例えば、認識装置は、最初のフレームの隠れレイヤ712の状態パラメータを中間フレームの隠れレイヤ722にフォワードパス784を介して伝達し、隠れレイヤ722の状態パラメータをアップデートする。認識装置は、隠れレイヤ722の状態パラメータを再びフォワードパス785を介して最後のフレームの隠れレイヤ732にフォワードパス785を介して伝達し、隠れレイヤ732の状態パラメータをアップデートする。認識装置は、最初のフレームから最後のフレームまでフォワードパスを通した状態パラメータアップデートを繰り返すことができる。
そして、認識装置は、入力レイヤ711、721、731に入力されたターゲットデータをフィードフォワーディング791、792、793を介してバックワードパスのための隠れレイヤ713、723、733に伝達する。認識装置は、隠れレイヤのノードをバックワードパスを介して順次アップデートする。例えば、認識装置は、最後のフレームの隠れレイヤ733の状態パラメータを中間フレームの隠れレイヤ723にバックワードパス794を介して伝達し、隠れレイヤ723の状態パラメータをアップデートする。認識装置は、隠れレイヤ723の状態パラメータを再びバックワードパス795を介して伝達して最初のフレームの隠れレイヤ713に伝達し、隠れレイヤ713の状態パラメータをアップデートする。認識装置は、最後のフレームから最初のフレームまでバックワードパスを通した状態パラメータアップデートを繰り返すことができる。
認識装置は、次のレベルの隠れレイヤ714、715、724、725、734、735についても同様に状態パラメータをアップデートでき、最終的に出力レイヤ716、726、736に認識結果を出力できる。
図8は、一実施形態に係る認識装置の構成を示すブロック図である。
認識装置800は、処理部810及び格納部820を含む。
処理部810は、シーケンスデータから現在ウィンドウに対応するターゲットデータ及びターゲットデータに続くパディングデータを抽出する。処理部810は、格納部820から以前ウィンドウに対応する状態パラメータを取得する。処理部810は、循環モデルに基づいて状態パラメータ、抽出されたターゲットデータ、及び抽出されたパディングデータから現在ウィンドウに対する認識結果を算出する。
ただし、処理部810の動作は必ずこれに限定されることなく、図1ないし図7、図10、及び図12を参照して説明する認識のための動作についても処理部810が行うことができる。
格納部820は循環モデルを含む。循環モデルは、トレーニング入力からトレーニング出力が出力されるようにトレーニングされたモデルであって、例えば、循環神経網を含み得る。上述したように、循環モデルは、ウィンドウ及びパディングに含まれる各フレームに対応するノードを含む。ノードは上述したように、循環モデルの隠れレイヤに含まれてもよい。また、格納部820は、循環モデルの各ノードに対する状態パラメータを格納してもよい。
図9は、一実施形態に係るトレーニング装置の構成を示すブロック図である。
トレーニング装置900は、処理部910及び格納部920を含む。
処理部910は、循環モデル921を取得する。処理部910は、トレーニング入力から現在ウィンドウに対応するターゲットデータ及びターゲットデータに続くパディングデータを抽出する。処理部910は、格納部920から以前ウィンドウに対応する状態パラメータを取得する。処理部910は、状態パラメータ、抽出されたターゲットデータ、及び抽出されたパディングデータからトレーニング入力にマッピングされたトレーニング出力が算出されるよう、循環モデル921をトレーニングさせ得る。ただし、処理部910の動作が必ずこれに限定されることなく、図1ないし図7、図11、及び図12を参照して説明する動作についても処理部910が行うことができる。
本明細書でトレーニングデータ901は、トレーニング入力及びトレーニング出力を含む。トレーニング出力はトレーニング入力にマッピングされた出力として、例えば、トレーニング入力から出力されなければならないラベル(label)であってもよい。例えば、音声認識において、トレーニング入力は音声信号、トレーニング出力は当該音声信号が示す音素情報である。
一実施形態によれば、処理部910は、エラー逆伝搬学習によって循環モデル921のレイヤ間の連結加重値、ノードの状態パラメータなどをトレーニングさせる得る。
例えば、処理部910は、監督学習(supervised learning)により神経網(例えば、循環神経網)を学習させ得る。監督学習とは、トレーニング入力とそれに対応するトレーニング出力を共に神経網に入力し、トレーニング入力に対応するトレーニング出力が出力されるように神経網の連結線の連結加重値をアップデートする方法である。例えば、処理部910は、デルタ規則とエラー逆伝搬学習などによってノード間の連結加重値などをアップデートし得る。
エラー逆伝搬学習は、与えられたトレーニングデータに対して前方算出でエラーを推定した後、出力レイヤから始まって隠れレイヤと入力レイヤへの逆方向に推定したエラーを伝搬し、エラーを減らす方向に連結加重値を調整する方法である。神経網の認識のための処理は、入力レイヤ、隠れレイヤ、出力レイヤの順に行われるが、エラー逆伝搬学習で連結加重値のアップデート方向は出力レイヤ、隠れレイヤ、入力レイヤの順に行われる。
格納部920は、循環モデル921を格納する。格納部920は、トレーニング過程の間に順次アップデートされる循環モデル921を格納する。また、格納部920はトレーニングデータ901を格納してもよい。
図10は、一実施形態に係る認識方法を説明したフローチャートである。
下記のステップS1010ないしS1030は、シーケンスデータのうち1つのウィンドウに対する認識過程を説明する。認識装置は、シーケンスデータをウィンドウ単位に分割し、最初ウィンドウから最後ウィンドウまで下記のステップS1010~S1030を繰り返すことで順次認識結果を算出する。
まず、ステップS1010で、認識装置は、シーケンスデータから現在ウィンドウに対応するターゲットデータ及びターゲットデータに続くパディングデータを抽出する。一実施形態によれば、認識装置は、シーケンスデータから以前ウィンドウの最後のフレームデータの次のフレームデータからウィンドウ長さだけのデータを現在ウィンドウに対応するターゲットデータとして抽出する。また、認識装置は、シーケンスデータから現在ウィンドウの最後のフレームデータの次のフレームデータからパディング長さだけのデータをパディングに対応するパディングデータとして抽出する。例えば、認識装置は、音声信号に対応するシーケンスデータを受信する。
また、認識装置は、現在ウィンドウがシーケンスデータに対して最後ウィンドウである場合に応答してパディングデータを排除する。図5を参照して上述したように最後ウィンドウである場合、パディングによって取得可能なシーケンスデータがないため、認識装置は、最後ウィンドウに対してはパディングを排除する。
そして、ステップS1020で、認識装置は、以前ウィンドウに対応する状態パラメータを取得する。一実施形態によれば、認識装置は、現在ウィンドウがシーケンスデータに対して最初ウィンドウである場合に応答して、以前ウィンドウに対応する状態パラメータをデフォルト値として決定する。例えば、認識装置は現在ウィンドウが最初ウィンドウである場合に応答して、以前ウィンドウに対応する状態パラメータをデフォルト値である0として決定することで、循環モデルに対して以前ウィンドウによる影響を排除しながら、最初ウィンドウに対応するターゲットデータのみを入力できる。
次に、ステップS1030で、認識装置は、循環モデルに基づいて状態パラメータ、抽出されたターゲットデータ、及び抽出されたパディングデータから現在ウィンドウに対する認識結果を算出する。例えば、認識装置は、現在ウィンドウに対応するターゲットデータから発音を識別する。一実施形態によれば、認識装置は、循環モデルは現在ウィンドウのウィンドウ長さ及びパディング長さだけ広げられてもよい。認識装置は、広げられた循環モデル(unfolded recurrent model)で状態パラメータ、抽出されたターゲットデータ、及び抽出されたパディングデータをフレームごとに入力し、現在ウィンドウに含まれたフレームに対応する出力データを算出する。
例えば、認識装置は、以前ウィンドウの最後のフレームに対応する状態パラメータに基づいて、現在ウィンドウの最初のフレームに対応するノードに対する入力値をアップデートする。具体的に、図6を参照して上述したように、認識装置は、以前ウィンドウの最後のフレームにおける状態パラメータを臨時的に格納してから、現在ウィンドウに入力する値をアップデートするために使用できる。
ここで、認識装置は、ウィンドウの最初のフレームから最後のフレームまで順次ノードのフォワードパスによる状態パラメータをアップデートする。認識装置は、ウィンドウの最後のフレームから最初のフレームまで順次ノードのバックワードパスによる状態パラメータをアップデートする。認識装置は、フォワードパスによる状態パラメータ及びバックワードパスによる状態パラメータを次のレイヤのノードに提供する。フォワードパス及びバックワードパスに基づいた状態パラメータのアップデートは、図7を参照して説明した通りである。
一実施形態によれば、認識装置は、現在ウィンドウの最後のフレームに対応する状態パラメータを、次のウィンドウで使用するために臨時格納してもよい。
また、認識装置は、循環モデルに基づいて算出されるパディングデータに対する出力データ及びパディングに関する状態パラメータを排除する。例えば、認識装置は、パディングデータに関する認識結果を無視し、次のウィンドウの認識に使用するための情報からパディングに関する状態パラメータを排除する。
上述した認識装置は、音声認識、筆記認識、翻訳、テキスト生成、自然語理解(natural language understanding:NLU)などに循環モデルを用いることができる。
図11は、一実施形態に係るトレーニング方法を説明したフローチャートである。
下記のステップS1110ないしS1140は、シーケンスデータのうち1つのウィンドウに対するトレーニング過程を説明する。認識装置は、シーケンスデータをウィンドウ単位に分割し、最初ウィンドウから最後ウィンドウまで下記のステップS1110ないしS1140を繰り返すことで順次トレーニングを行う。
まず、ステップS1110では、トレーニング装置が循環モデルを取得する。例えば、トレーニング装置は、内部の格納部から循環モデルをロードしたり、外部サーバから循環モデルを受信する。
そして、ステップS1120では、トレーニング装置がトレーニング入力から現在ウィンドウに対応するターゲットデータ及びターゲットデータに続くパディングデータを抽出する。一実施形態によれば、トレーニング装置は、現在ウィンドウがトレーニング入力に対して最後ウィンドウである場合に応答し、パディングデータを排除する。
次に、ステップS1130では、トレーニング装置が以前ウィンドウに対応する状態パラメータを取得する。一実施形態によれば、トレーニング装置は、現在ウィンドウがトレーニング入力に対して最初ウィンドウである場合に応答して、以前ウィンドウに対応する状態パラメータをデフォルト値(例えば、0)に決定する。したがって、トレーニング装置は、トレーニングデータで現在ウィンドウが最初ウィンドウである場合、以前ウィンドウが存在しないことから以前ウィンドウを無視する。
そして、ステップS1140では、トレーニング装置が状態パラメータ、抽出されたターゲットデータ、及び抽出されたパディングデータからトレーニング入力にマッピングされたトレーニング出力が算出されるよう、循環モデルをトレーニングさせる。一実施形態によれば、トレーニング装置は、以前ウィンドウの最後のフレームに対応する状態パラメータに基づいて、現在ウィンドウの最初のフレームに対応するノードの状態パラメータをアップデートする。
一実施形態によれば、トレーニング装置は、状態パラメータ、抽出されたターゲットデータ、及び抽出されたパディングデータからトレーニング入力にマッピングされたトレーニング出力が算出されるよう、循環モデルをトレーニングさせることができる。
また、トレーニング装置は、循環モデルに基づいて算出されるパディングに対する出力データ及びパディングに関する状態パラメータを排除する。例えば、トレーニング装置は、現在ウィンドウに対するトレーニングが完了した後、現在ウィンドウの最後のフレームの隠れレイヤの隠れノードの出力値などを次のウィンドウに対するトレーニングで使用し、パディングに関する出力データ及び状態パラメータは次のウィンドウに対するトレーニングから排除する。
図12は、一実施形態に係る認識方法及びトレーニング方法においてシーケンスデータに対するウィンドウ及びパディングを設定する過程を説明したフローチャートである。
認識装置の処理部又はトレーニング装置の処理部は、下記のステップS1211ないしS1240に基づいてシーケンスデータをウィンドウ単位に分割し、認識又はトレーニングを行う。
まず、ステップS1211で、処理部は、シーケンスデータを取得する。一実施形態によれば、処理部は、外部から通信又は内部データインターフェースなどを用いてシーケンスデータを取得する。例えば、処理部は、シーケンスデータを構成しているフレームデータを時間の流れに応じて順次受信する。
そして、ステップS1212で、処理部は、シーケンスデータをウィンドウ単位に分割する。一実施形態によれば、処理部は、連続する一連のフレームデータをウィンドウ長さだけ分割し、ターゲットデータを生成する。例えば、処理部は、ウィンドウ間にフレームデータが重複して含まれないようにシーケンスデータを分割する。すなわち、フレームデータは、1つのウィンドウに示される。
次に、ステップS1213で、処理部は、現在ウィンドウが最初ウィンドウであるか否かを判断する。例えば、処理部は、現在ウィンドウ以前フレームデータがシーケンスデータに存在しない場合、現在ウィンドウが最初ウィンドウであると判断する。
そして、ステップS1214で、処理部は、現在ウィンドウが最初ウィンドウではない場合に応答して、以前ウィンドウの最後のフレームに該当する状態パラメータを取得する。例えば、現在ウィンドウがシーケンスデータの最初ウィンドウではない場合、処理部はすでに以前ウィンドウに対する認識又はトレーニングを行う過程で以前ウィンドウの最後のフレームに該当する状態パラメータを算出及び格納しておくことができる。処理部は、基格納された状態パラメータをロードする。
次に、ステップS1215で、処理部は、現在ウィンドウが最後ウィンドウであるか否かを判断する。例えば、処理部は、現在ウィンドウ次のフレームデータが存在しない場合、現在ウィンドウが最後ウィンドウであると判断する。
そして、ステップS1216で、処理部は、現在ウィンドウが最後ウィンドウではない場合に応答して、ウィンドウの後にパディングを追加する。例えば、処理部は、パディングに該当するだけのフレームデータ(例えば、パディングデータ)をシーケンスデータから追加的に抽出する。したがって、処理部は、ウィンドウに対応するターゲットデータ及びパディングに対応するパディングデータを抽出する。
次に、ステップS1222で、処理部は、認識又はトレーニングを行う。例えば、処理部が認識装置内によって実現された装置である場合、処理部は、上述したステップS1216で抽出されたターゲットデータ及びパディングデータに基づいてターゲットデータに対応する認識結果を生成する。異なる例として、処理部がトレーニング装置内によって実現された装置である場合、処理部は、上述したステップS1216で抽出されたターゲットデータ及びパディングデータに基づいて、ターゲットデータにマッピングされたラベルが出力されるように循環モデルをトレーニングさせ得る。
そして、ステップS1230で、処理部は、現在ウィンドウの最後のフレームに該当する状態パラメータを格納する。ここで、格納された現在ウィンドウの最後のフレームに該当する状態パラメータは、次のウィンドウの最初のフレームに対応するノードの状態パラメータのアップデートのために使用される。
次に、ステップS1221で、処理部は、現在ウィンドウが最後ウィンドウではない場合に応答して、認識又はトレーニングを行う。例えば、処理部が認識装置内によって実現された装置である場合、処理部は、上述したステップS1212で分割された現在ウィンドウに対応するターゲットデータに基づいてターゲットデータに対応する認識結果を生成する。異なる例として、処理部がトレーニング装置内によって実現された装置である場合、処理部は、上述したステップS1212で分割された現在ウィンドウに対応するターゲットデータに基づいて、ターゲットデータにマッピングされたラベルが出力されるように循環モデルをトレーニングさせ得る。
そして、ステップS1240で、処理部は、シーケンスデータの終了有無を判断する。シーケンスデータが終了した場合、処理部は、認識又はトレーニング動作を終了する。シーケンスデータが現在ウィンドウの後にも続く場合に応答して、処理部はステップS1211に戻る。
以上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組合せで具現される。例えば、実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当該技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことが分かる。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、又はこれらのうちの1つ以上の組合せを含み、希望通りに動作するように処理装置を構成し、独立的又は結合的に処理装置に命令する。ソフトウェア及び/又はデータは、処理装置によって解釈され、処理装置に命令又はデータを提供するためのあらゆる類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、或いは送信される信号波を介して永久的又は一時的に具現化される。ソフトウェアは、ネットワークに接続されたコンピュータシステム上に分散され、分散された方法で格納されるか又は実行される。ソフトウェア及びデータは1つ以上のコンピュータ読み取り可能な記録媒体に格納される。
本実施形態による方法は、多様なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気-光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明の動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
上述したように実施形態をたとえ限定された図面によって説明したが、当該技術分野で通常の知識を有する者であれば、前記に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順序で実行されたり、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組合わせられたり、他の構成要素又は均等物によって置き換えたり置換されても適切な結果を達成することができる。
したがって、他の具現、他の実施形態、及び請求範囲と均等なものも後述する請求範囲の範囲に属する。
800:認識装置
810:処理部
820:格納部

Claims (30)

  1. 認識方法において、
    シーケンスデータから現在ウィンドウに対応するターゲットデータ及び前記ターゲットデータに続くパディングデータを抽出するステップと、
    以前ウィンドウに対応する状態パラメータを取得するステップと、
    循環モデルを用いて前記状態パラメータ、前記抽出されたターゲットデータ、及び前記抽出されたパディングデータに基づいて前記現在ウィンドウに対する認識結果を算出するステップと、
    前記現在ウィンドウの最後のフレームに対応する状態パラメータを次のウィンドウで使用するために臨時格納するステップと
    を含む、認識方法。
  2. 前記臨時格納するステップの前に、前記現在ウィンドウ最後のウィンドウであるか否かを判断するステップをさらに含む、請求項1に記載の認識方法。
  3. 前記循環モデルに基づいて算出される前記パディングデータに対する出力データ及びパディングに関する状態パラメータを排除するステップをさらに含む、請求項1又は2に記載の認識方法。
  4. 前記認識結果を算出するステップは、
    前記循環モデルは、前記現在ウィンドウのウィンドウ長さ及びパディング長さだけ広げられるステップと、
    前記広げられた循環モデルで前記状態パラメータ、前記抽出されたターゲットデータ、及び前記抽出されたパディングデータをフレームごとに入力して前記現在ウィンドウに含まれたフレームに対応する出力データを算出するステップと、
    を含む、請求項1ないし3のうち何れか一項に記載の認識方法。
  5. 前記認識結果を算出するステップは、前記以前ウィンドウの最後のフレームに対応する状態パラメータに基づいて、前記現在ウィンドウの最初のフレームに対応するノードの入力値をアップデートするステップを含む、請求項1ないし3のうち何れか一項に記載の認識方法。
  6. 前記ターゲットデータ及び前記パディングデータを抽出するステップは、前記シーケンスデータから前記以前ウィンドウの最後のフレームデータの次のフレームデータからウィンドウ長さだけのデータを前記現在ウィンドウに対応するターゲットデータとして抽出するステップを含む、請求項1ないし5のうち何れか一項に記載の認識方法。
  7. 前記ターゲットデータ及び前記パディングデータを抽出するステップは、前記シーケンスデータから前記現在ウィンドウの最後のフレームデータの次のフレームデータからパディング長さだけのデータをパディングに対応する前記パディングデータとして抽出するステップを含む、請求項1ないし5のうち何れか一項に記載の認識方法。
  8. 前記循環モデルは、トレーニングデータに基づいてトレーニング入力からトレーニング出力が出力されるようにトレーニングされた双方向循環神経網である、請求項1ないし7のうち何れか一項に記載の認識方法。
  9. 前記循環モデルは、ウィンドウ及びパディングに含まれる各フレームに対応するノードを含み、
    前記認識結果を算出するステップは、
    前記ウィンドウの最初のフレームから最後のフレームまで順次前記ノードのフォワードパスよる状態パラメータをアップデートするステップと、
    前記ウィンドウの最後のフレームから最初のフレームまで順次前記ノードのバックワードパスによる状態パラメータをアップデートするステップと、
    前記フォワードパスによる状態パラメータ及び前記バックワードパスによる状態パラメータを次のレイヤのノードに提供するステップと、
    を含む、請求項1ないし7のうち何れか一項に記載の認識方法。
  10. 前記ターゲットデータ及び前記パディングデータを抽出するステップは、音声信号に対応する前記シーケンスデータを受信するステップを含み、
    前記認識結果を算出するステップは、前記現在ウィンドウに対応する前記ターゲットデータから発音を識別するステップを含む、請求項1ないし5のうち何れか一項に記載の認識方法。
  11. 前記以前ウィンドウに対応する状態パラメータを取得するステップは、前記現在ウィンドウが前記シーケンスデータに対して最初ウィンドウである場合に応答して、前記以前ウィンドウに対応する状態パラメータをデフォルト値として決定するステップを含む、請求項1ないし5のうち何れか一項に記載の認識方法。
  12. 前記ターゲットデータ及び前記パディングデータを抽出するステップは、前記現在ウィンドウが前記シーケンスデータに対して最後ウィンドウである場合に応答して、前記パディングデータを排除するステップを含む、請求項1ないし5のうち何れか一項に記載の認識方法。
  13. 請求項1ないし12のうち何れか一項に記載の認識方法を装置のコンピュータに実行させる命令語を含むコンピュータプログラム。
  14. 認識装置において、
    循環モデルを格納する格納部と、
    シーケンスデータから現在ウィンドウに対応するターゲットデータ及び前記ターゲットデータに続くパディングデータを抽出し、前記格納部から以前ウィンドウに対応する状態パラメータを取得し、前記循環モデルを用いて前記状態パラメータ、前記抽出されたターゲットデータ、及び前記抽出されたパディングデータに基づいて前記現在ウィンドウに対する認識結果を算出し、前記現在ウィンドウの最後のフレームに対応する状態パラメータを次のウィンドウで使用するために臨時格納する処理部と、
    を含む、認識装置。
  15. トレーニング方法において、
    循環モデルを取得するステップと、
    トレーニング入力から現在ウィンドウに対応するターゲットデータ及び前記ターゲットデータに続くパディングデータを抽出するステップと、
    以前ウィンドウに対応する状態パラメータを取得するステップと、
    前記状態パラメータ、前記抽出されたターゲットデータ、及び前記抽出されたパディングデータに基づいて、前記トレーニング入力にマッピングされたトレーニング出力が算出されるように前記循環モデルをトレーニングさせるステップと、
    前記現在ウィンドウの最後のフレームに対応する状態パラメータを、次のウィンドウのトレーニングデータをトレーニングさせるために臨時格納するステップと
    を含む、トレーニング方法。
  16. 前記トレーニング入力で次のウィンドウに対応するデータが存在するか否かを判断するステップを含む、請求項15に記載のトレーニング方法。
  17. 前記循環モデルに基づいて算出されるパディングに対する出力データ及び前記パディングに関する状態パラメータを排除するステップを含む、請求項15又は16に記載のトレーニング方法。
  18. 前記トレーニングさせるステップは、前記以前ウィンドウの最後のフレームに対応する状態パラメータに基づいて、前記現在ウィンドウの最初のフレームに対応するノードの状態パラメータをアップデートするステップを含む、請求項15に記載のトレーニング方法。
  19. 前記以前ウィンドウに対応する状態パラメータを取得するステップは、前記現在ウィンドウが前記トレーニング入力に対して最初ウィンドウである場合に応答して、前記以前ウィンドウに対応する状態パラメータをデフォルト値として決定するステップを含む、請求項15に記載のトレーニング方法。
  20. 前記ターゲットデータ及び前記パディングデータを抽出するステップは、前記現在ウィンドウが前記トレーニング入力に対して最後ウィンドウである場合に応答して、前記パディングデータを排除するステップを含む、請求項15に記載のトレーニング方法。
  21. 認識方法において、
    シーケンスデータから現在ウィンドウに対応するターゲットデータを抽出するステップと、
    前記シーケンスデータ内の前記現在ウィンドウに先行するデータに対応する過去コンテキストデータを取得するステップと、
    前記シーケンスデータから前記現在ウィンドウに後続するデータに対応する未来コンテキストデータを取得するステップと、
    前記過去コンテキストデータ、前記抽出されたターゲットデータ、及び前記未来コンテキストデータに基づいて循環モデルを用いて前記現在ウィンドウに対する認識結果を算出するステップと、
    を含み、前記過去コンテキストデータを取得するステップは、
    前記シーケンスデータから、前記現在ウィンドウに先行する以前ウィンドウで実行された認識の間に取得された状態パラメータを、前記過去コンテキストデータとして取得するステップを含み、
    前記過去コンテキストデータと前記未来コンテキストデータはデータのタイプが異なる、認識方法。
  22. 記未来コンテキストデータを取得するステップは、前記シーケンスデータから前記抽出されたターゲットデータに後続するパディングデータを前記未来コンテキストデータとして抽出するステップを含む、請求項21に記載の認識方法。
  23. 前記状態パラメータを前記過去コンテキストデータとして取得するステップは、
    前記現在ウィンドウが前記シーケンスデータの最初ウィンドウであることに応答して、前記状態パラメータをデフォルト値として設定するステップと、
    前記現在ウィンドウが前記シーケンスデータの最初ウィンドウではないことに応答して、前記以前ウィンドウで実行された認識の間に取得された状態パラメータを前記状態パラメータとして取得するステップと、
    を含む、請求項22に記載の認識方法。
  24. 前記以前ウィンドウで実行された認識の間に取得された状態パラメータは、前記以前ウィンドウで実行された認識の間に格納され、
    前記以前ウィンドウで実行された認識の間に取得された状態パラメータの取得は、格納された状態パラメータを検索して取得する、請求項23に記載の認識方法。
  25. 前記以前ウィンドウ及び前記現在ウィンドウは、それぞれ複数のフレームを含み、
    前記状態パラメータの取得は、前記以前ウィンドウの最終のフレームに対応する状態パラメータを取得することを含む、請求項22に記載の認識方法。
  26. トレーニング方法において、
    循環モデルを取得するステップと、
    トレーニング入力から現在ウィンドウに対応するターゲットデータを抽出するステップと、
    前記トレーニング入力から前記現在ウィンドウに先行するデータに対応する過去コンテキストデータを取得するステップと、
    前記トレーニング入力から前記現在ウィンドウに後続するデータに対応する未来コンテキストデータを取得するステップと、
    前記トレーニング入力にマッピングされたトレーニング出力が前記過去コンテキストデータ、前記抽出されたターゲットデータ、及び前記未来コンテキストデータに基づいて算出されるように前記循環モデルをトレーニングするステップと、
    を含み、前記過去コンテキストデータを取得するステップは、
    前記トレーニング入力から、前記現在ウィンドウに先行する以前ウィンドウで実行されたトレーニングの間に取得された状態パラメータを、前記過去コンテキストデータとして取得するステップを含み、
    前記過去コンテキストデータと前記未来コンテキストデータはデータのタイプが異なる、トレーニング方法。
  27. 記未来コンテキストデータを取得するステップは、前記トレーニング入力から前記抽出されたターゲットデータに続くパディングデータを未来コンテキストデータとして抽出するステップを含む、請求項26に記載のトレーニング方法。
  28. 前記状態パラメータを取得するステップは、
    前記現在ウィンドウが前記トレーニング入力の最初ウィンドウであることに応答して、前記状態パラメータをデフォルト値として設定するステップと、
    前記現在ウィンドウが前記トレーニング入力の最初ウィンドウではないことに応答して、前記以前ウィンドウに対して実行されたトレーニングの間に取得された状態パラメータを前記状態パラメータとして取得するステップと、
    を含む、請求項27に記載のトレーニング方法。
  29. 前記以前ウィンドウで実行されたトレーニングの間に取得された前記状態パラメータは、前記以前ウィンドウで実行されたトレーニングの間に格納され、
    前記以前ウィンドウで実行されたトレーニングの間に取得された状態パラメータの取得は、格納された状態パラメータを検索して取得する、請求項28に記載のトレーニング方法。
  30. 前記以前ウィンドウ及び前記現在ウィンドウは、それぞれ複数のフレームを含み、
    前記状態パラメータの取得は、前記以前ウィンドウの最終のフレームに対応する状態パラメータを取得することを含む、請求項27に記載のトレーニング方法。
JP2017224794A 2016-12-14 2017-11-22 認識方法、認識装置及びトレーニング方法 Active JP7058985B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160170198A KR20180068475A (ko) 2016-12-14 2016-12-14 순환 모델에 기초한 인식 및 순환 모델을 트레이닝하는 방법과 장치
KR10-2016-0170198 2016-12-14

Publications (2)

Publication Number Publication Date
JP2018097860A JP2018097860A (ja) 2018-06-21
JP7058985B2 true JP7058985B2 (ja) 2022-04-25

Family

ID=59887027

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017224794A Active JP7058985B2 (ja) 2016-12-14 2017-11-22 認識方法、認識装置及びトレーニング方法

Country Status (5)

Country Link
US (1) US11562204B2 (ja)
EP (1) EP3336775B1 (ja)
JP (1) JP7058985B2 (ja)
KR (1) KR20180068475A (ja)
CN (1) CN108229677B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11501155B2 (en) * 2018-04-30 2022-11-15 EMC IP Holding Company LLC Learning machine behavior related to install base information and determining event sequences based thereon
US11244673B2 (en) * 2019-07-19 2022-02-08 Microsoft Technologly Licensing, LLC Streaming contextual unidirectional models
CN111091849B (zh) * 2020-03-03 2020-12-22 龙马智芯(珠海横琴)科技有限公司 鼾声识别的方法及装置、存储介质止鼾设备和处理器
US20230063489A1 (en) * 2021-08-25 2023-03-02 Bank Of America Corporation Malware Detection with Multi-Level, Ensemble Artificial Intelligence Using Bidirectional Long Short-Term Memory Recurrent Neural Networks and Natural Language Processing

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017538137A (ja) 2014-12-15 2017-12-21 バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC 音声転写用のシステム及び方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2996925B2 (ja) * 1997-03-10 2000-01-11 株式会社エイ・ティ・アール音声翻訳通信研究所 音素境界検出装置及び音声認識装置
JP2996926B2 (ja) 1997-03-11 2000-01-11 株式会社エイ・ティ・アール音声翻訳通信研究所 音素シンボルの事後確率演算装置及び音声認識装置
JP2007265345A (ja) 2006-03-30 2007-10-11 Sony Corp 情報処理装置および方法、学習装置および方法、並びにプログラム
US8463721B2 (en) 2010-08-05 2013-06-11 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for recognizing events
JP6065543B2 (ja) 2012-06-08 2017-01-25 富士通株式会社 ニューラルネットワーク設計方法、フィッティング方法、及びプログラム
US9263036B1 (en) 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
US20150279351A1 (en) 2012-12-19 2015-10-01 Google Inc. Keyword detection based on acoustic alignment
US9721562B2 (en) 2013-12-17 2017-08-01 Google Inc. Generating representations of acoustic sequences
KR102239714B1 (ko) 2014-07-24 2021-04-13 삼성전자주식회사 신경망 학습 방법 및 장치, 데이터 처리 장치
US9575952B2 (en) 2014-10-21 2017-02-21 At&T Intellectual Property I, L.P. Unsupervised topic modeling for short texts
KR102380833B1 (ko) 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN104572892B (zh) * 2014-12-24 2017-10-03 中国科学院自动化研究所 一种基于循环卷积网络的文本分类方法
KR102305584B1 (ko) 2015-01-19 2021-09-27 삼성전자주식회사 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치
DK179049B1 (en) * 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
CN106156003B (zh) * 2016-06-30 2018-08-28 北京大学 一种问答系统中的问句理解方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017538137A (ja) 2014-12-15 2017-12-21 バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC 音声転写用のシステム及び方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHEN, K ほか,Training Deep Bidirectional LSTM Acoustic Model for LVCSR by a Context-Sensitive-Chunk BPTT Approach,IEEE/ACM Transactions on Audio, Speech, and Language Processing [online],IEEE,2016年,Vol. 24, No. 7,pp. 1185-1193,[検索日 2021.10.01], インターネット: <URL:https://ieeexplore.ieee.org/abstract/document/7428837>,<DOI: 10.1109/TASLP.2016.2539499>

Also Published As

Publication number Publication date
JP2018097860A (ja) 2018-06-21
US11562204B2 (en) 2023-01-24
KR20180068475A (ko) 2018-06-22
CN108229677A (zh) 2018-06-29
CN108229677B (zh) 2023-06-30
EP3336775B1 (en) 2022-03-16
EP3336775A1 (en) 2018-06-20
US20180165572A1 (en) 2018-06-14

Similar Documents

Publication Publication Date Title
KR102410820B1 (ko) 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
KR102305584B1 (ko) 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치
JP7058985B2 (ja) 認識方法、認識装置及びトレーニング方法
KR102608469B1 (ko) 자연어 생성 방법 및 장치
Gelly et al. Optimization of RNN-based speech activity detection
CN105679317B (zh) 用于训练语言模型并识别语音的方法和设备
CN109710915B (zh) 复述语句生成方法及装置
JP7143091B2 (ja) 音響モデルをトレーニングする方法及び装置
KR102415506B1 (ko) 뉴럴 네트워크 간소화 방법 및 장치
CN104934028B (zh) 用于语音合成的深度神经网络模型的训练方法及装置
BR112019004524B1 (pt) Sistema de redes neurais, um ou mais meios de armazenamento legíveis por computador não transitório e método para gerar autorregressivamente uma sequência de saída de dados de áudio
KR20200045128A (ko) 모델 학습 방법 및 장치, 및 데이터 인식 방법
KR20200129639A (ko) 모델 학습 방법 및 장치
KR20190101567A (ko) 기계 독해에 기초한 질의 응답 장치 및 이를 이용한 질의 응답 방법
CN110751260A (zh) 电子设备、任务处理的方法以及训练神经网络的方法
Li et al. Improving long short-term memory networks using maxout units for large vocabulary speech recognition
KR102449840B1 (ko) 사용자 적응적인 음성 인식 방법 및 장치
CN106157948A (zh) 一种基频建模方法及系统
Ruan et al. An improved tibetan lhasa speech recognition method based on deep neural network
KR102292921B1 (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
Su et al. Dependent bidirectional RNN with extended-long short-term memory
KR102410831B1 (ko) 음향 모델을 트레이닝하는 방법 및 그 장치
KR102637341B1 (ko) 음성 생성 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200924

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220413

R150 Certificate of patent or registration of utility model

Ref document number: 7058985

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150