JP6861500B2 - ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法 - Google Patents

ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法 Download PDF

Info

Publication number
JP6861500B2
JP6861500B2 JP2016216662A JP2016216662A JP6861500B2 JP 6861500 B2 JP6861500 B2 JP 6861500B2 JP 2016216662 A JP2016216662 A JP 2016216662A JP 2016216662 A JP2016216662 A JP 2016216662A JP 6861500 B2 JP6861500 B2 JP 6861500B2
Authority
JP
Japan
Prior art keywords
training
neural network
data
primary
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016216662A
Other languages
English (en)
Other versions
JP2017090912A (ja
Inventor
鎬 式 李
鎬 式 李
喜 烈 崔
喜 烈 崔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2017090912A publication Critical patent/JP2017090912A/ja
Application granted granted Critical
Publication of JP6861500B2 publication Critical patent/JP6861500B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Image Analysis (AREA)

Description

本発明は、ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法と、に関する。
最近の音声認識技術は、過去と比較して多くの注目を受けている状況である。その理由は、音声認識技術が具現される場合、インターネット情報の利用や電子商取引、各種のユビキタス環境をより便利に音声を通じて操作し、かつ手を使いにくい車両運行のような場合にも、インターネットにアクセスでき、又は事務その他のサービスを利用でき、ユーザの多様なニーズ(needs)を充足できるからである。
音声認識技術で重要な問題の1つは、周辺環境によって発生するノイズを効率的に除去することである。このような周辺環境によって生成されたノイズによって発生する、トレーニング環境と実際の音声認識環境との間の不一致は、音声認識システムの音声認識の性能を低下させる主要原因の1つである。
本発明が解決しようとする課題は、ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法と、を提供するところにある。
一実施形態は、ノイズに頑健なニューラルネットワークトレーニング装置及び方法と、ノイズに頑健なニューラルネットワーク基盤の音響モデルを用いる音声認識装置及び方法と、を提供することを目的とする。
一態様によるニューラルネットワークトレーニング装置は、クリーントレーニングデータ(clean training data)及び前記クリーントレーニングデータに対応する正解データに基づいて、ニューラルネットワークモデルを1次トレーニングする一次トレーニング部と、ノイジートレーニングデータ(noisy training data)及び前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布に基づいて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする二次トレーニング部と、を含みうる。
前記二次トレーニング部は、前記ノイジートレーニングデータを入力とし、前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布を正解(target)として、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。
前記ノイジートレーニングデータは、前記クリーントレーニングデータが歪曲されたデータ、または前記クリーントレーニングデータとトレーニングノイズデータとが混合されたデータを含みうる。
前記ニューラルネットワークモデルは、ニューラルネットワーク基盤の音響モデルであり得る。
前記一次トレーニング部は、前記クリーントレーニングデータから前記正解データを獲得するようにニューラルネットワークモデルのトレーニングを行う第1目的関数を用いて、前記ニューラルネットワークモデルを1次トレーニングすることができる。
前記二次トレーニング部は、前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布と、前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される第2目的関数を用いて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。
前記二次トレーニング部は、前記クリーントレーニングデータから正解データを獲得できるようにニューラルネットワークモデルのトレーニングを行う目的関数と、前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布、及び前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される目的関数の加重和で構成される第2目的関数を用いて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。
他の態様によるニューラルネットワークトレーニング方法は、クリーントレーニングデータ及び前記クリーントレーニングデータに対応する正解データに基づいて、ニューラルネットワークモデルを1次トレーニングする段階と、ノイジートレーニングデータ及び前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布に基づいて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする段階と、を含みうる。
前記2次トレーニングする段階は、前記ノイジートレーニングデータを入力とし、前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布を正解として、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。
前記ノイジートレーニングデータは、前記クリーントレーニングデータが歪曲されたデータ、または前記クリーントレーニングデータとトレーニングノイズデータとが混合されたデータを含みうる。
前記ニューラルネットワークモデルは、ニューラルネットワーク基盤の音響モデルであり得る。
前記1次トレーニングする段階は、前記クリーントレーニングデータから正解データを獲得できるようにニューラルネットワークモデルのトレーニングを行う第1目的関数を用いて、前記ニューラルネットワークモデルを1次トレーニングすることができる。
前記2次トレーニングする段階は、前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布と、前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される第2目的関数を用いて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。
前記2次トレーニングする段階は、前記クリーントレーニングデータから正解データを獲得できるようにニューラルネットワークモデルのトレーニングを行う目的関数と、前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布、及び前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される目的関数の加重和で構成される第2目的関数を用いて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。
さらに他の態様によるコンピュータ可読記録媒体は、請求項8に記載の方法を行うためのインストラクションを保存することができる。
さらに他の態様による音声認識装置は、ノイジー音声データ(noisy speech data)の特徴を抽出する特徴抽出部と、音響モデルを用いて、前記抽出された特徴に対応する音素の確率を算出する音素確率算出部と、を含み、前記音響モデルは、音声トレーニングデータ(speech training data)及び前記音声トレーニングデータに対応する音素列に基づいて1次トレーニングし、ノイジー音声トレーニングデータ(noisy speech training data)及び前記音響モデルの1次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布に基づいて2次トレーニングされた音響モデルであり得る。
前記音響モデルは、前記音声トレーニングデータを入力とし、前記音声トレーニングデータに対応する音素列を正解として、1次トレーニングされうる。
前記音響モデルは、前記ノイジー音声トレーニングデータを入力とし、前記音響モデルの1次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布を正解として、2次トレーニングされうる。
前記ノイジー音声トレーニングデータは、前記音声トレーニングデータが歪曲されたデータ、または前記音声トレーニングデータとトレーニングノイズデータとが混合されたデータを含みうる。
前記音響モデルは、ニューラルネットワーク基盤の音響モデルであり得る。
前記音響モデルの1次トレーニングは、前記音声トレーニングデータから音素を獲得できるように音響モデルのトレーニングを行う第1目的関数を用いて行われる。
前記音響モデルの2次トレーニングは、前記音響モデルの1次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布と、前記音響モデルの出力レイヤの活性化関数の組み合わせで構成される第2目的関数を用いて行われる。
前記音響モデルの2次トレーニングは、前記音声トレーニングデータから音素を獲得できるように音響モデルのトレーニングを行う目的関数と、前記音響モデルの1次トレーニング過程から算出される前記音声トレーニングデータに対する出力クラスの確率分布、及び前記音響モデルの出力レイヤの活性化関数の組み合わせで構成される目的関数の加重和で構成される第2目的関数を用いて行われる。
さらに他の態様によるニューラルネットワークトレーニング装置は、クリーントレーニングデータとハードターゲットデータとに基づいて、ニューラルネットワークモデルを1次トレーニングする一次トレーニング部と、ノイジートレーニングデータ及び前記ニューラルネットワークモデルの1次トレーニング過程から獲得されるソフトターゲットデータに基づいて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする二次トレーニング部と、を含みうる。
前記ノイジートレーニングデータは、クリーントレーニングデータを歪曲するか、クリーントレーニングデータをノイズと混合して獲得される。
前記ソフトターゲットデータは、ニューラルネットワークモデルの1次トレーニング過程から算出されたクリーントレーニングデータに対する出力クラスの確率分布であり得る。
前記二次トレーニング部は、前記ノイジートレーニングデータ、前記ソフトターゲットデータ、及び前記ニューラルネットワークモデルの出力レイヤの活性化関数に基づいて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。
ニューラルネットワークトレーニング装置の一実施形態を示す図面である。 ニューラルネットワークトレーニング装置の他の実施形態を示す図面である。 音声認識装置の一実施形態を示すブロック図である。 ニューラルネットワークトレーニング方法の一実施形態を示すフローチャートである。 ニューラルネットワークトレーニング方法の他の実施形態を示すフローチャートである。 音声認識方法の一実施形態を示すフローチャートである。 ノイジー音声データの音素確率算出方法のフローチャートである。
以下、添付図面を参照して、本発明の一実施形態を詳細に説明する。本発明を説明するに当って、関連した公知の機能または構成についての具体的な説明が、本発明の要旨を不明りょうにするおそれがあると判断される場合には、その詳細な説明を省略する。また、後述される用語は、本発明での機能を考慮して定義された用語であって、これは、ユーザ、運用者の意図または慣例などによって変わりうる。したがって、その定義は、本明細書の全般に亘った内容に基づいて下されなければならない。
図1は、ニューラルネットワークトレーニング装置の一実施形態を示す図面である。
ニューラルネットワークトレーニング装置100は、マルチコンディショントレーニング(Multi−condition Training:MCT)技法を用いてニューラルネットワークモデルをトレーニング(training)する装置である。一実施形態によれば、ニューラルネットワークモデルは、複数の隠れ層を含むニューラルネットワーク基盤の音響モデルである。しかし、これは、一実施形態であり、これに限定されるものではない。ニューラルネットワークモデルは、典型的な逆伝播(back propagation)技法(例えば、gradient descent algorithm、stochastic gradient descent algorithm、または他の逆伝播技法など)を用いてトレーニングされうる。
図1を参照すれば、ニューラルネットワークトレーニング装置100は、一次トレーニング部110及び二次トレーニング部120を含みうる。
一次トレーニング部110は、クリーントレーニングデータとクリーントレーニングデータに対応する正解データとに基づいて、ニューラルネットワークモデルを1次トレーニングすることができる。クリーントレーニングデータは、ノイズが含まれていないトレーニングデータを意味する。例えば、一次トレーニング部110は、クリーントレーニングデータを入力とし、クリーントレーニングデータに対応する正解データを正解として、ニューラルネットワークモデルを1次トレーニングすることができる。
一実施形態によれば、一次トレーニング部110は、クリーントレーニングデータから対応する正解を獲得できるようにニューラルネットワークモデルのトレーニングを行う目的関数(以下、第1目的関数)を用いて、ニューラルネットワークモデルを1次トレーニングすることができる。例えば、第1目的関数は、マルチクラス分類(multi−class classification)に主に使われるクロスエントロピー(cross−entropy)を利用できる。それを数式で表現すれば、数式(1)のようである。
Figure 0006861500
数式(1)において、nは、入力データ、すなわち、クリーントレーニングデータのサンプルのインデックスを示し、kは、出力クラス(output class)のインデックスを示し、Xは、クリーントレーニングデータのn番目のサンプルを示し、y(X)は、ニューラルネットワークモデルの出力レイヤの活性化関数(activation function)を示す。tnkは、Xに対するk番目の出力クラスが正解クラスである場合、1の値を、正解クラスではない場合、0の値を有する。
二次トレーニング部120は、ノイジートレーニングデータと1次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布に基づいて、1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。例えば、二次トレーニング部120は、ノイジートレーニングデータを入力とし、1次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布を正解として、1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。ノイジートレーニングデータは、クリーントレーニングデータが歪曲されるか、クリーントレーニングデータとトレーニングノイズデータとが混合されたデータであり得る。例えば、ノイジートレーニングデータは、クリーントレーニングデータと多様なノイズデータとが混合されたデータでもあり、クリーントレーニングデータに多様な変形(例えば、映像データの場合、回転、一部遮蔽、色または照度などの変更など、音声データの場合、残響(reverberation)など)を加えて生成された歪曲されたデータであり得る。
一実施形態によれば、二次トレーニング部120は、1次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布を獲得できるようにニューラルネットワークモデルのトレーニングを行う目的関数(以下、第2目的関数)を用いて、1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。第2目的関数は、ニューラルネットワークモデルの1次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布と、ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成することができる。
例えば、第2目的関数は、マルチクラス分類に主に使われるクロスエントロピーを利用できる。それを数式で表現すれば、数式(2)のようである。
Figure 0006861500
数式(2)において、nは、入力データ、すなわち、ノイジートレーニングデータのサンプルのインデックスを示し、kは、出力クラスのインデックスを示し、Xは、ノイジートレーニングデータのn番目のサンプルを示し、y(X)は、ニューラルネットワークモデルの出力レイヤの活性化関数を示す。snkは、ニューラルネットワークモデルの1次トレーニング過程から算出されるクリーントレーニングデータの出力クラスの確率分布であって、n番目のクリーントレーニングデータサンプルに対するk番目の出力クラスの確率分布を示す。
他の例を挙げれば、第2目的関数は、回帰(regression)に主に使われるユークリッド距離(Euclidian distance)を利用できる。それを数式で表現すれば、数式(3)のようである。
Figure 0006861500
数式(3)において、nは、入力データ、すなわち、ノイジートレーニングデータのサンプルインデックスを示し、kは、出力クラスのインデックスを示し、Xnは、ノイジートレーニングデータのn番目のサンプルを示し、yk(Xn)は、ニューラルネットワークモデルの出力レイヤの活性化関数を示す。snkは、ニューラルネットワークモデルの1次トレーニング過程から算出されるクリーントレーニングデータの出力クラスの確率分布であって、n番目のクリーントレーニングデータサンプルに対するk番目の出力クラスの確率分布を示す。
さらに他の例を挙げれば、第2目的関数は、数式(1)の目的関数と数式(2)の目的関数との加重和、または数式(1)の目的関数と数式(3)の目的関数との加重和で構成することができる。それを数式で表現すれば、数式(4)及び数式(5)のようである。
Figure 0006861500
数式(4)及び数式(5)において、λは、加重値であって、システムの性能及び用途によって多様に設定しうる。
一方、今まで一次トレーニング部110及び二次トレーニング部120は、別個の目的関数を用いてニューラルネットワークモデルをトレーニングするものと説明したが、第1目的関数及び第2目的関数が、1つの統合目的関数として統合されうる。
一実施形態によれば、統合目的関数は、数式(6)で表現される。
Figure 0006861500
数式(6)において、dnは、入力がクリーントレーニングデータである場合、0の値を、入力がノイジートレーニングデータである場合、1の値を有する。λ(dn)は、加重値であって、dnが0である場合(例えば、入力がクリーントレーニングデータである場合)、0の値を有する。dnが1である場合(例えば、入力がノイジートレーニングデータである場合)、λ(dn)は、システムの性能及び用途によって多様に設定しうる。
他の実施形態によれば、統合目的関数は、数式(7)で表現される。
Figure 0006861500
数式(7)において、dnは、入力がクリーントレーニングデータである場合、0の値を、入力がノイジートレーニングデータである場合、1の値を有する。λ(dn)は、加重値であって、dnが0である場合(例えば、入力がクリーントレーニングデータである場合)、0の値を有する。dnが1である場合(例えば、入力がノイジートレーニングデータである場合)、λ(dn)は、システムの性能及び用途によって多様に設定しうる。
図2は、ニューラルネットワークトレーニング装置の他の実施形態を示す図面である。図2を参照すれば、ニューラルネットワークトレーニング装置200は、図1のニューラルネットワークトレーニング装置100に比べて、データ獲得部210、混合部220、特徴抽出部230、及び保存部240をさらに含みうる。
データ獲得部210は、ニューラルネットワークモデルのトレーニングのためのクリーントレーニングデータ及びトレーニングノイズデータを獲得することができる。一実施形態によれば、データ獲得部210は、所定のデータベースまたは外部装置からクリーントレーニングデータ及びトレーニングノイズデータを獲得することができる。
混合部220は、クリーントレーニングデータ及びトレーニングノイズデータを混合してノイジートレーニングデータを生成することができる。また、混合部220は、クリーントレーニングデータに多様な変形(例えば、映像データの場合、回転、一部遮蔽、色または照度などの変更など、音声データの場合、残響など)を加えてノイジートレーニングデータを生成することができる。
特徴抽出部230は、所定のアルゴリズムを用いてクリーントレーニングデータ及びノイジートレーニングデータの特徴(例えば、filterbank)を抽出することができる。この際、所定のアルゴリズムは、クリーントレーニングデータ及びノイジートレーニングデータからそれぞれを識別可能にする特徴を抽出することができるものであれば、その種類と機能とに制限はない。
この場合、一次トレーニング部110は、特徴抽出部230から抽出されたクリーントレーニングデータの特徴データを入力としてニューラルネットワークモデルを1次トレーニングし、二次トレーニング部120は、特徴抽出部230から抽出されたノイジートレーニングデータの特徴データを入力として1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。
保存部240は、一次トレーニング部110でのニューラルネットワークモデルの1次トレーニング結果、及びニューラルネットワークモデルの1次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布を保存することができる。
保存部240は、フラッシュメモリ(Flash Memory)、ハードディスク(Hard Disk)、マルチメディアカード(MultiMediaCard、MMC)、マルチメディアカードマイクロ(MMCmicro)、メモリカード(例えば、SD memory cardまたはXD memory cardなど)、RAM(Random Access Memory)、SRAM(Static Random Access Memory)、ROM(Read−Only Memory)、EEPROM(Electrically Erasable Programmable Read−Only Memory)、PROM(Programmable Read−Only Memory)、磁気メモリ、磁気ディスク、光ディスクのうち、少なくとも1つの記録媒体を含みうる。
一方、図2は、保存部240が、ニューラルネットワークトレーニング装置200の内部に含まれていると示されているが、これに限定されるものではない。言い換えれば、保存部240は、ニューラルネットワークトレーニング装置200の内部に具現されることも可能であり、ニューラルネットワークトレーニング装置200と連結された外部の別個の構成要素として具現されることも可能である。
以下、図1のニューラルネットワークトレーニング装置100または図2のニューラルネットワークトレーニング装置200を通じて生成された音響モデルを用いる音声認識装置について詳細に説明する。
図3は、音声認識装置の一実施形態を示すブロック図である。音声認識装置300は、ハードウェアチップの形態で製作されて電子装置に搭載されうる。電子装置は、TV、ナビゲーション、自動車電子装置、スマートフォン、タブレットPC、スマートウォッチ、デスクトップコンピュータ、ノート型パソコン、ウェアラブル機器などを含むが、これらに制限されるものではない。
図3を参照すれば、音声認識装置300は、入力部310、音響モデル保存部320、及び算出部330を含みうる。
入力部310は、音声認識の対象となるノイジー音声データを入力されうる。ここで、ノイジー音声データは、ノイズが混合された音声データを意味する。
音響モデル保存部320は、あらかじめトレーニングされた音響モデルを保存することができる。この際、音響モデルは、ニューラルネットワークトレーニング装置100、200を通じてトレーニングされたニューラルネットワーク基盤の音響モデルであり得る。
一実施形態によれば、音響モデルは、マルチコンディショントレーニング技法を用いてトレーニングされたニューラルネットワーク基盤の音響モデルであり得る。例えば、音響モデルは、音声トレーニングデータと音声トレーニングデータに対応する音素列に基づいて1次トレーニングされ、ノイジー音声トレーニングデータと1次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布に基づいて2次トレーニングされた音響モデルであり得る。この際、ノイジー音声トレーニングデータは、音声トレーニングデータとトレーニングノイズデータとが混合されたデータであり得る。
この際、音響モデルは、数式(1)ないし数式(7)の目的関数のうち何れか1つを用いてトレーニングされうる。例えば、音響モデルは、数式(1)の目的関数を用いて1次トレーニングされた後、数式(2)ないし数式(5)のうち、1つの目的関数を用いて2次トレーニングされうる。他の例を挙げれば、音響モデルは、数式(6)及び数式(7)のうち、1つの統合目的関数を用いて1次トレーニング及び2次トレーニングされうる。
音響モデル保存部320は、フラッシュメモリ、ハードディスク、マルチメディアカード(MMC)、マルチメディアカードマイクロ、メモリカード(例えば、SD memory cardまたはXD memory cardなど)、RAM、SRAM、ROM、EEPROM、PROM、磁気メモリ、磁気ディスク、光ディスクのうち、少なくとも1つの記録媒体を含みうる。
一方、図3は、音響モデル保存部320が、音声認識装置300の内部に含まれていると示されているが、これに限定されるものではない。言い換えれば、音響モデル保存部320は、音声認識装置300の内部に具現されることも可能であり、音声認識装置300と連結された外部の別個の構成要素として具現されることも可能である。
算出部330は、音響モデル保存部320に保存された音響モデルを用いて入力されたノイジー音声データの音素確率を算出することができる。このために、算出部330は、特徴抽出部331及び音素確率算出部332を含みうる。
特徴抽出部331は、所定のアルゴリズムを用いて入力されたノイジー音声データの特徴を抽出することができる。所定のアルゴリズムは、ノイジー音声データを他のノイジー音声データから識別可能にする特徴を抽出することができるものであれば、その種類と機能とに制限はない。
音素確率算出部332は、音響モデル保存部320に保存された音響モデルを用いて特徴抽出部331から抽出されたノイジー音声データの特徴に対応する音素の確率を算出することができる。
一方、図3は、音声認識装置300が、入力部310及び音響モデル保存部320を含むものと示されているが、入力部310及び音響モデル保存部320は、システムの性能及び用途によって省略可能である。
図4は、ニューラルネットワークトレーニング方法の一実施形態を示すフローチャートである。図4のニューラルネットワークトレーニング方法は、図1のニューラルネットワークトレーニング装置100によって行われる。
図1及び図4を参照すれば、ニューラルネットワークトレーニング装置100は、クリーントレーニングデータとクリーントレーニングデータに対応する正解データとに基づいて、ニューラルネットワークモデルを1次トレーニングすることができる(410)。例えば、ニューラルネットワークトレーニング装置100は、クリーントレーニングデータを入力とし、クリーントレーニングデータに対応する正解データを正解として、ニューラルネットワークモデルを1次トレーニングすることができる。ここで、ニューラルネットワークモデルは、複数の隠れ層を含むニューラルネットワーク基盤の音響モデルであり得るが、これは、一実施形態であり、これに限定されるものではない。
一実施形態によれば、ニューラルネットワークトレーニング装置100は、数式(1)の目的関数(第1目的関数)を用いてニューラルネットワークモデルを1次トレーニングすることができる。
ニューラルネットワークトレーニング装置100は、ノイジートレーニングデータとニューラルネットワークモデルの1次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布に基づいて、1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる(420)。例えば、ニューラルネットワークトレーニング装置100は、ノイジートレーニングデータを入力とし、ニューラルネットワークモデルの1次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布を正解として、1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。ここで、ノイジートレーニングデータは、クリーントレーニングデータが歪曲されるか、クリーントレーニングデータとトレーニングノイズデータとが混合されたデータであり得る。例えば、ノイジートレーニングデータは、クリーントレーニングデータと多様なノイズデータとが混合されたデータでもあり、クリーントレーニングデータに多様な変形(例えば、映像データの場合、回転、一部遮蔽、色または照度などの変更など、音声データの場合、残響など)を加えて生成された歪曲されたデータであり得る。
一実施形態によれば、ニューラルネットワークトレーニング装置100は、数式(2)ないし数式(5)のうち、1つの目的関数(第2目的関数)を用いて1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。
一方、ニューラルネットワークトレーニング装置100が、1次トレーニング過程(410)と2次トレーニング過程(420)とで別個の目的関数(第1目的関数、第2目的関数)を用いてニュ−リョルネットワークモデルをトレーニングするものと説明したが、第1目的関数及び第2目的関数が、1つの統合目的関数として統合されうる。例えば、ニューラルネットワークトレーニング装置100は、数式(6)または数式(7)の統合目的関数を用いて1次トレーニング過程(410)及び2次トレーニング過程(420)を行うことができる。
図5は、ニューラルネットワークトレーニング方法の他の実施形態を示すフローチャートである。図5のニューラルネットワークトレーニング方法は、図2のニューラルネットワークトレーニング装置200によって行われる。
図5のニューラルネットワークトレーニング方法は、図4のニューラルネットワークトレーニング方法に比べて、段階510ないし段階540をさらに含みうる。図5の段階410及び段階420は、図4の段階410及び段階420と同一なので、その詳細な説明は省略する。
図2及び図5を参照すれば、ニューラルネットワークトレーニング装置200は、ニューラルネットワークモデルのトレーニングのためのクリーントレーニングデータ及びトレーニングノイズデータを獲得することができる(510)。一実施形態によれば、ニューラルネットワークトレーニング装置200は、所定のデータベースまたは外部装置からクリーントレーニングデータ及びトレーニングノイズデータを獲得することができる。
ニューラルネットワークトレーニング装置200は、クリーントレーニングデータ及びトレーニングノイズデータを混合してノイジートレーニングデータを生成することができる(520)。また、ニューラルネットワークトレーニング装置200は、クリーントレーニングデータに多様な変形(例えば、映像データの場合、回転、一部遮蔽、色または照度などの変更など、音声データの場合、残響など)を加えてノイジートレーニングデータを生成することができる。
ニューラルネットワークトレーニング装置200は、所定のアルゴリズムを用いてクリーントレーニングデータ及びノイジートレーニングデータの特徴(例えば、filterbank)を抽出することができる(530)。この際、所定のアルゴリズムは、クリーントレーニングデータ及びノイジートレーニングデータからそれぞれを識別可能にする特徴を抽出することができるものであれば、その種類と機能とに制限はない。
ニューラルネットワークトレーニング装置200は、ニューラルネットワークモデルの1次トレーニング結果、及びニューラルネットワークモデルの1次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布を保存することができる(540)。
図6は、音声認識方法の一実施形態を示すフローチャートである。図6の音声認識方法は、図3の音声認識装置300によって行われる。
図3及び図6を参照すれば、音声認識装置300は、音声認識の対象となるノイジー音声データを入力されうる(610)。ここで、ノイジー音声データは、ノイズが混合された音声データを意味する。
音声認識装置300は、あらかじめトレーニングされた音響モデルを用いて入力されたノイジー音声データの音素確率を算出することができる(620)。
ここで、音響モデルは、ニューラルネットワーク基盤の音響モデルであって、マルチコンディショントレーニング技法を用いてトレーニングされた音響モデルであり得る。例えば、音響モデルは、音声トレーニングデータと音声トレーニングデータに対応する音素列に基づいて1次トレーニングされ、ノイジー音声トレーニングデータと音響モデルの1次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布に基づいて2次トレーニングされた音響モデルであり得る。この際、ノイジー音声トレーニングデータは、音声トレーニングデータとトレーニングノイズデータとが混合されたデータであり得る。
一実施形態によれば、音響モデルは、数式(1)ないし数式(7)の目的関数のうち何れか1つを用いてトレーニングされうる。例えば、音響モデルは、数式(1)の目的関数を用いて1次トレーニングされた後、数式(2)ないし数式(5)のうち、1つの目的関数を用いて2次トレーニングされうる。他の例を挙げれば、音響モデルは、数式(6)及び数式(7)のうち、1つの統合目的関数を用いて1次トレーニング及び2次トレーニングされうる。
図7は、ノイジー音声データの音素確率算出方法のフローチャートである。図7のノイジー音声データの音素確率算出方法は、図6の段階620の一実施形態であり得る。
図3及び図7を参照すれば、音声認識装置300は、所定のアルゴリズムを用いて入力されたノイジー音声データの特徴を抽出することができる(710)。この際、所定のアルゴリズムは、ノイジー音声データを他のノイジー音声データから識別可能にする特徴を抽出することができるものであれば、その種類と機能とに制限はない。
音声認識装置300は、あらかじめトレーニングされた音響モデルを用いて抽出されたノイジー音声データの特徴に対応する音素の確率を算出することができる(720)。
図1及び図2の一次トレーニング部110及び二次トレーニング部120、図2のデータ獲得部210、混合部220、特徴抽出部230及び保存部240、及び図3の入力部310、音響モデル保存部320、特徴抽出部331及び音素確率算出部332は、ハードウェアコンポーネントとして具現可能である。例えば、ハードウェアコンポーネントは、コントローラ、センサー、生成器、ドライバ、メモリ、比較器、算術論理ユニット、加算器、減算器、乗算器、除算器、積分器、及び多様な電子部品を含みうる。他の例を挙げれば、ハードウェアコンポーネントは、コンピューティングハードウェア、例えば、1つ以上のプロセッサまたはコンピュータとして具現可能である。プロセッサまたはコンピュータは、マイクロコンピュータ、プログラマブルロジックコントローラ、フィールドプログラマブルゲートアレイ、プログラマブルロジックアレイ、マイクロプロセッサ、または他のデバイスまたはデバイスの結合のような1つ以上のプロセッシングエレメントとして具現可能である。例えば、プロセッサまたはコンピュータは、プロセッサまたはコンピュータによって実行されるインストラクションまたはソフトウェアを保存する1つ以上のメモリを含むか、1つ以上のメモリに連結されうる。プロセッサまたはコンピュータとして具現されるハードウェアコンポーネントは、運用体制(OS)及び運用体制上で動作する1つ以上のソフトウェアアプリケーションのようなインストラクションまたはソフトウェアを実行することができる。ハードウェアコンポーネントは、また、インストラクションまたはソフトウェアの実行に応答して、データにアクセス、操作、処理、生成及び保存することができる。本明細書では、便宜上、単数用語“プロセッサ”または“コンピュータ”を使っているが、複数のプロセッサまたはコンピュータを使い、プロセッサまたはコンピュータが、多数のプロセッシングエレメントまたは多数タイプのプロセッシングエレメントなどを含みうる。例えば、1つのハードウェアコンポーネントまたは2つ以上のハードウェアコンポーネントは、1つのプロセッサ、2つ以上のプロセッサ、または1つのプロセッサ及び1つのコントローラとして具現可能である。1つ以上のハードウェアコンポーネントは、1つ以上のプロセッサ、1つのプロセッサ及び1つのコントローラとして具現可能であり、1つ以上の他のプロセッサは、1つ以上の他のプロセッサ、1つの他のプロセッサ及び1つの他のコントローラとして具現可能である。1つ以上のプロセッサ、または1つのプロセッサ及び1つのコントローラは、1つのハードウェアコンポーネントまたは2つ以上のハードウェアコンポーネントを具現することができる。ハードウェアコンポーネントは、1つのプロセッサ、独立したプロセッサ、並列プロセッサ、シングルインストラクションシングルデータ(SISD)マルチプロセッシング、シングルインストラクションマルチプルデータ(SIMD)マルチプロセッシング、マルチプルインストラクションシングルデータ(MISD)マルチプロセッシング、及びマルチプルインストラクションマルチプルデータ(MIMD)マルチプロセッシングなどを含む1つ以上の互いに異なるプロセッシング構成を有しうる。
図4ないし図7に開示された方法は、動作を行う命令またはソフトウェアを実行する前述されたように具現されたコンピューティングハードウェア、例えば、1つ以上のプロセッサまたはコンピュータによって行われる。例えば、1つの動作または2つ以上の動作は、1つのプロセッサ、2つ以上のプロセッサ、または1つのプロセッサ及び1つのコントローラによって行われる。1つ以上の動作は、1つ以上のプロセッサ、または1つのプロセッサ及び1つのコントローラによって行われ、1つ以上の他の動作は、1つ以上の他のプロセッサ、または1つの他のプロセッサ及び1つの他のコントローラによって行われる。1つ以上のプロセッサ、または1つのプロセッサ及び1つのコントローラは、1つの動作、または2つ以上の動作を行うことができる。
ハードウェアコンポーネントとして具現され、前述した方法を行うコンピューティングハードウェア、例えば、1つ以上のプロセッサまたはコンピュータを制御するための命令またはソフトウェアは、コンピュータプログラム、コードセグメント、命令またはこれらの結合であり得る。例えば、命令またはソフトウェアは、コンパイラによって生成されたマシンコードのような、1つ以上のプロセッサまたはコンピュータによって直接実行されるマシンコードを含む。他の例を挙げれば、命令またはソフトウェアは、インタプリタを用いて1つ以上のプロセッサまたはコンピュータによって実行されるハイレベル(higher−level)コードを含む。命令またはソフトウェアは、前述したハードウェアコンポーネント及び方法によって行われる動作を行うアルゴリズムを開示したブロック図及びフローチャートに基づいてプログラミング言語を用いて記述されうる。
命令またはソフトウェア、関連データ、データファイル、及びデータ構造は、1つ以上の非一時的コンピュータ可読記録媒体に記録または保存することができる。例えば、非一時的コンピュータ可読記録媒体は、Read−Only Memory(ROM)、Random−Access Memory(RAM)、Flash Memory、CD−ROMs、CD−Rs、CD+Rs、CD−RWs、CD+RWs、DVD−ROMs、DVD−Rs、DVD+Rs、DVD−RWs、DVD+RWs、DVD−RAMs、BD−ROMs、BD−Rs、BD−R LTHs、BD−REs、magnetic tapes、floppy disks、magneto−optical data storage devices、optical data storage devices、hard disks、solid−state disks、及び非一時的方式で命令またはソフトウェア、関連データ、データファイル及びデータ構造を保存して、1つ以上のプロセッサまたはコンピュータに提供する他のデバイスを含みうる。例えば、命令またはソフトウェア、関連データ、データファイル、及びデータ構造は、ネットワーク連結コンピュータシステムに分散されて、1つ以上のプロセッサまたはコンピュータによって分散方式で実行可能である。
以上、本発明について、その望ましい実施形態を中心に説明した。当業者ならば、本発明が、本発明の本質的な特性から外れない範囲で変形された形態として具現可能であるということを理解できるであろう。したがって、本発明の範囲は、前述した実施形態に限定されず、特許請求の範囲に記載の内容と同等な範囲内にある多様な実施形態が含まれるように解釈されねばならない。
本発明は、ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法関連の技術分野に適用可能である。

Claims (27)

  1. クリーントレーニングデータ及び前記クリーントレーニングデータに対応する正解データに基づいて、ニューラルネットワークモデルを1次トレーニングする一次トレーニング部と、
    ノイジートレーニングデータ及び前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布に基づいて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする二次トレーニング部と、
    を含むニューラルネットワークトレーニング装置。
  2. 前記二次トレーニング部は、
    前記ノイジートレーニングデータを入力とし、前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布を正解として、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする、請求項1に記載のニューラルネットワークトレーニング装置。
  3. 前記ノイジートレーニングデータは、
    前記クリーントレーニングデータが歪曲されたデータ、または前記クリーントレーニングデータとトレーニングノイズデータとが混合されたデータを含む、請求項1または2に記載のニューラルネットワークトレーニング装置。
  4. 前記ニューラルネットワークモデルは、ニューラルネットワーク基盤の音響モデルである、請求項1ないし3いずれか一項に記載のニューラルネットワークトレーニング装置。
  5. 前記一次トレーニング部は、
    前記クリーントレーニングデータから前記正解データを獲得するようにニューラルネットワークモデルのトレーニングを行う第1目的関数を用いて、前記ニューラルネットワークモデルを1次トレーニングする、請求項1ないし4いずれか一項に記載のニューラルネットワークトレーニング装置。
  6. 前記二次トレーニング部は、
    前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布と、前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される第2目的関数を用いて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする、請求項1ないし5いずれか一項に記載のニューラルネットワークトレーニング装置。
  7. 前記二次トレーニング部は、
    前記クリーントレーニングデータから正解データを獲得できるようにニューラルネットワークモデルのトレーニングを行う目的関数と、前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布、及び前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される目的関数の加重和で構成される第2目的関数を用いて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする、請求項1に記載のニューラルネットワークトレーニング装置。
  8. クリーントレーニングデータ及び前記クリーントレーニングデータに対応する正解データに基づいて、ニューラルネットワークモデルを1次トレーニングする段階と、
    ノイジートレーニングデータ及び前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布に基づいて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする段階と、
    を含むニューラルネットワークトレーニング方法。
  9. 前記2次トレーニングする段階は、
    前記ノイジートレーニングデータを入力とし、前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布を正解として、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする、請求項8に記載のニューラルネットワークトレーニング方法。
  10. 前記ノイジートレーニングデータは、
    前記クリーントレーニングデータが歪曲されたデータ、または前記クリーントレーニングデータとトレーニングノイズデータとが混合されたデータを含む、請求項8または9に記載のニューラルネットワークトレーニング方法。
  11. 前記ニューラルネットワークモデルは、ニューラルネットワーク基盤の音響モデルである、請求項8ないし10いずれか一項に記載のニューラルネットワークトレーニング方法。
  12. 前記1次トレーニングする段階は、
    前記クリーントレーニングデータから正解データを獲得できるようにニューラルネットワークモデルのトレーニングを行う第1目的関数を用いて、前記ニューラルネットワークモデルを1次トレーニングする、請求項8ないし11いずれか一項に記載のニューラルネットワークトレーニング方法。
  13. 前記2次トレーニングする段階は、
    前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布と、前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される第2目的関数を用いて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする、請求項8ないし12いずれか一項に記載のニューラルネットワークトレーニング方法。
  14. 前記2次トレーニングする段階は、
    前記クリーントレーニングデータから正解データを獲得できるようにニューラルネットワークモデルのトレーニングを行う目的関数と、前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布、及び前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される目的関数の加重和で構成される第2目的関数を用いて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする、請求項8に記載のニューラルネットワークトレーニング方法。
  15. コンピュータに、請求項8に記載の方法を実行させるコンピュータプログラム。
  16. ノイジー音声データの特徴を抽出する特徴抽出部と、
    音響モデルを用いて、前記抽出された特徴に対応する音素の確率を算出する音素確率算出部と、を含み、
    前記音響モデルは、
    音声トレーニングデータ及び前記音声トレーニングデータに対応する音素列に基づいて1次トレーニングし、ノイジー音声トレーニングデータ及び前記音響モデルの1次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布に基づいて2次トレーニングされた音響モデルである音声認識装置。
  17. 前記音響モデルは、
    前記音声トレーニングデータを入力とし、前記音声トレーニングデータに対応する音素列を正解として、1次トレーニングされる、請求項16に記載の音声認識装置。
  18. 前記音響モデルは、
    前記ノイジー音声トレーニングデータを入力とし、前記音響モデルの1次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布を正解として、2次トレーニングされる、請求項16または17に記載の音声認識装置。
  19. 前記ノイジー音声トレーニングデータは、
    前記音声トレーニングデータが歪曲されたデータ、または前記音声トレーニングデータとトレーニングノイズデータとが混合されたデータを含む、請求項16ないし18いずれか一項に記載の音声認識装置。
  20. 前記音響モデルは、ニューラルネットワーク基盤の音響モデルである、請求項16ないし19いずれか一項に記載の音声認識装置。
  21. 前記音響モデルの1次トレーニングは、
    前記音声トレーニングデータから音素を獲得できるように音響モデルのトレーニングを行う第1目的関数を用いて行われる、請求項16ないし20いずれか一項に記載の音声認識装置。
  22. 前記音響モデルの2次トレーニングは、
    前記音響モデルの1次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布と、前記音響モデルの出力レイヤの活性化関数の組み合わせで構成される第2目的関数を用いて行われる、請求項16ないし21いずれか一項に記載の音声認識装置。
  23. 前記音響モデルの2次トレーニングは、
    前記音声トレーニングデータから音素を獲得できるように音響モデルのトレーニングを行う目的関数と、前記音響モデルの1次トレーニング過程から算出される前記音声トレーニングデータに対する出力クラスの確率分布、及び前記音響モデルの出力レイヤの活性化関数の組み合わせで構成される目的関数の加重和で構成される第2目的関数を用いて行われる、請求項16に記載の音声認識装置。
  24. クリーントレーニングデータとハードターゲットデータとに基づいて、ニューラルネットワークモデルを1次トレーニングする一次トレーニング部と、
    ノイジートレーニングデータ及び前記ニューラルネットワークモデルの1次トレーニング過程から獲得されるソフトターゲットデータに基づいて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする二次トレーニング部と、
    を含むニューラルネットワークトレーニング装置。
  25. 前記ノイジートレーニングデータは、クリーントレーニングデータを歪曲するか、クリーントレーニングデータをノイズと混合して獲得される、請求項24に記載のニューラルネットワークトレーニング装置。
  26. 前記ソフトターゲットデータは、ニューラルネットワークモデルの1次トレーニング過程から算出されたクリーントレーニングデータに対する出力クラスの確率分布である、請求項24または25に記載のニューラルネットワークトレーニング装置。
  27. 前記二次トレーニング部は、
    前記ノイジートレーニングデータ、前記ソフトターゲットデータ、及び前記ニューラルネットワークモデルの出力レイヤの活性化関数に基づいて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする、請求項24ないし26いずれか一項に記載のニューラルネットワークトレーニング装置。
JP2016216662A 2015-11-06 2016-11-04 ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法 Active JP6861500B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020150156152A KR102494139B1 (ko) 2015-11-06 2015-11-06 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
KR10-2015-0156152 2015-11-06

Publications (2)

Publication Number Publication Date
JP2017090912A JP2017090912A (ja) 2017-05-25
JP6861500B2 true JP6861500B2 (ja) 2021-04-21

Family

ID=57256114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016216662A Active JP6861500B2 (ja) 2015-11-06 2016-11-04 ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法

Country Status (5)

Country Link
US (1) US10529317B2 (ja)
EP (1) EP3166105B1 (ja)
JP (1) JP6861500B2 (ja)
KR (1) KR102494139B1 (ja)
CN (1) CN106683663B (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102209689B1 (ko) * 2015-09-10 2021-01-28 삼성전자주식회사 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
WO2017126482A1 (ja) * 2016-01-19 2017-07-27 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
JP2018187006A (ja) * 2017-04-30 2018-11-29 株式会社藤商事 回胴式遊技機
US11195093B2 (en) * 2017-05-18 2021-12-07 Samsung Electronics Co., Ltd Apparatus and method for student-teacher transfer learning network using knowledge bridge
TWI767000B (zh) * 2017-05-20 2022-06-11 英商淵慧科技有限公司 產生波形之方法及電腦儲存媒體
CN109147773B (zh) * 2017-06-16 2021-10-26 上海寒武纪信息科技有限公司 一种语音识别装置和方法
CN107680582B (zh) * 2017-07-28 2021-03-26 平安科技(深圳)有限公司 声学模型训练方法、语音识别方法、装置、设备及介质
CN107610709B (zh) * 2017-08-01 2021-03-19 百度在线网络技术(北京)有限公司 一种训练声纹识别模型的方法及系统
KR102563752B1 (ko) 2017-09-29 2023-08-04 삼성전자주식회사 뉴럴 네트워크를 위한 트레이닝 방법, 뉴럴 네트워크를 이용한 인식 방법 및 그 장치들
CN108417224B (zh) * 2018-01-19 2020-09-01 苏州思必驰信息科技有限公司 双向神经网络模型的训练和识别方法及系统
KR20190129580A (ko) 2018-05-11 2019-11-20 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
CN109166571B (zh) * 2018-08-06 2020-11-24 广东美的厨房电器制造有限公司 家电设备的唤醒词训练方法、装置及家电设备
US20200019840A1 (en) * 2018-07-13 2020-01-16 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for sequential event prediction with noise-contrastive estimation for marked temporal point process
EP3598777B1 (en) 2018-07-18 2023-10-11 Oticon A/s A hearing device comprising a speech presence probability estimator
CN109036412A (zh) * 2018-09-17 2018-12-18 苏州奇梦者网络科技有限公司 语音唤醒方法和系统
CN109448746B (zh) * 2018-09-28 2020-03-24 百度在线网络技术(北京)有限公司 语音降噪方法及装置
CN111383651A (zh) * 2018-12-29 2020-07-07 Tcl集团股份有限公司 一种语音降噪方法、装置及终端设备
KR102002549B1 (ko) * 2019-01-23 2019-07-22 주식회사 솔리드웨어 다단계 분류모델 생성 방법 및 그 장치
CN109872730B (zh) * 2019-03-14 2021-01-12 广州飞傲电子科技有限公司 音频数据的失真补偿方法、模型建立方法和音频输出设备
CN111783932A (zh) * 2019-04-03 2020-10-16 华为技术有限公司 训练神经网络的方法和装置
KR20210010284A (ko) 2019-07-18 2021-01-27 삼성전자주식회사 인공지능 모델의 개인화 방법 및 장치
KR102321798B1 (ko) * 2019-08-15 2021-11-05 엘지전자 주식회사 인공 신경망 기반의 음성 인식 모델을 학습시키는 방법 및 음성 인식 디바이스
CN110349571B (zh) * 2019-08-23 2021-09-07 北京声智科技有限公司 一种基于连接时序分类的训练方法及相关装置
US11900246B2 (en) 2019-09-02 2024-02-13 Samsung Electronics Co., Ltd. Method and apparatus for recognizing user based on on-device training
CN110634476B (zh) * 2019-10-09 2022-06-14 深圳大学 一种快速搭建鲁棒性声学模型的方法及系统
KR102663669B1 (ko) * 2019-11-01 2024-05-08 엘지전자 주식회사 소음 환경에서의 음성 합성
US20210142177A1 (en) * 2019-11-13 2021-05-13 Nvidia Corporation Synthesizing data for training one or more neural networks
DE102020201400A1 (de) 2020-02-05 2021-08-05 Zf Friedrichshafen Ag Generieren von akustischen Trainingsdaten
US11475220B2 (en) * 2020-02-21 2022-10-18 Adobe Inc. Predicting joint intent-slot structure
CN111582463B (zh) * 2020-06-08 2024-02-09 佛山金华信智能科技有限公司 伺服电机故障识别及模型训练方法、装置、介质及终端
US11455534B2 (en) * 2020-06-09 2022-09-27 Macronix International Co., Ltd. Data set cleaning for artificial neural network training
US11741944B2 (en) * 2020-11-24 2023-08-29 Google Llc Speech personalization and federated training using real world noise
CN112992170B (zh) * 2021-01-29 2022-10-28 青岛海尔科技有限公司 模型训练方法及装置、存储介质及电子装置
KR102362872B1 (ko) * 2021-06-08 2022-02-15 오브젠 주식회사 인공지능 학습을 위한 클린 라벨 데이터 정제 방법
GB202203733D0 (en) * 2022-03-17 2022-05-04 Samsung Electronics Co Ltd Patched multi-condition training for robust speech recognition

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE68928484T2 (de) 1988-03-25 1998-07-23 Hitachi Ltd Verfahren zum erkennen von bildstrukturen
DE69327997T2 (de) * 1992-03-30 2000-07-27 Seiko Epson Corp Gerät zur spracherkennung mit neuronalem netzwerk und lernverfahren dafür
DE19531967C2 (de) 1995-08-30 1997-09-11 Siemens Ag Verfahren zum Training eines neuronalen Netzes mit dem nicht deterministischen Verhalten eines technischen Systems
US6446038B1 (en) * 1996-04-01 2002-09-03 Qwest Communications International, Inc. Method and system for objectively evaluating speech
KR100199296B1 (ko) 1996-10-02 1999-06-15 이계철 규칙적인 잡음을 이용한 한글 인식 시스템
JP3614662B2 (ja) 1998-06-12 2005-01-26 日本電信電話株式会社 時空間パターン検出方法及び装置ならびに記録媒体
JP2000259598A (ja) 1999-03-12 2000-09-22 Fuji Electric Co Ltd ニューラルネットワークの最適化学習方法
US6615170B1 (en) * 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
US6876966B1 (en) * 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
TWI223792B (en) * 2003-04-04 2004-11-11 Penpower Technology Ltd Speech model training method applied in speech recognition
KR100576803B1 (ko) 2003-12-11 2006-05-10 한국전자통신연구원 신경망에 기반한 음성, 영상, 및 문맥의 통합 음성인식장치 및 방법
US7620546B2 (en) * 2004-03-23 2009-11-17 Qnx Software Systems (Wavemakers), Inc. Isolating speech signals utilizing neural networks
WO2006000103A1 (en) * 2004-06-29 2006-01-05 Universite De Sherbrooke Spiking neural network and use thereof
WO2006099621A2 (en) * 2005-03-17 2006-09-21 University Of Southern California Topic specific language models built from large numbers of documents
US20060277028A1 (en) * 2005-06-01 2006-12-07 Microsoft Corporation Training a statistical parser on noisy data by filtering
US20090271195A1 (en) * 2006-07-07 2009-10-29 Nec Corporation Speech recognition apparatus, speech recognition method, and speech recognition program
KR100908121B1 (ko) 2006-12-15 2009-07-16 삼성전자주식회사 음성 특징 벡터 변환 방법 및 장치
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
ES2678415T3 (es) * 2008-08-05 2018-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica
US20100145687A1 (en) * 2008-12-04 2010-06-10 Microsoft Corporation Removing noise from speech
US8639502B1 (en) * 2009-02-16 2014-01-28 Arrowhead Center, Inc. Speaker model-based speech enhancement system
EP2259214B1 (en) 2009-06-04 2013-02-27 Honda Research Institute Europe GmbH Implementing a neural associative memory based on non-linear learning of discrete synapses
JP5027859B2 (ja) 2009-10-26 2012-09-19 パナソニック デバイスSunx株式会社 信号識別方法および信号識別装置
US8265928B2 (en) * 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy
US8447596B2 (en) * 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
US8725669B1 (en) * 2010-08-02 2014-05-13 Chi Yung Fu Signal processing method and apparatus
TWI442384B (zh) * 2011-07-26 2014-06-21 Ind Tech Res Inst 以麥克風陣列為基礎之語音辨識系統與方法
US8972256B2 (en) * 2011-10-17 2015-03-03 Nuance Communications, Inc. System and method for dynamic noise adaptation for robust automatic speech recognition
US9477925B2 (en) 2012-11-20 2016-10-25 Microsoft Technology Licensing, Llc Deep neural networks training for speech and pattern recognition
KR101558653B1 (ko) 2013-06-14 2015-10-08 전북대학교산학협력단 신경망을 이용한 영상의 화질 개선 시스템 및 방법
US9679224B2 (en) * 2013-06-28 2017-06-13 Cognex Corporation Semi-supervised method for training multiple pattern recognition and registration tool models
US9508347B2 (en) * 2013-07-10 2016-11-29 Tencent Technology (Shenzhen) Company Limited Method and device for parallel processing in model training
CN104143327B (zh) * 2013-07-10 2015-12-09 腾讯科技(深圳)有限公司 一种声学模型训练方法和装置
CN103474066B (zh) * 2013-10-11 2016-01-06 福州大学 基于多频带信号重构的生态声音识别方法
US9633671B2 (en) * 2013-10-18 2017-04-25 Apple Inc. Voice quality enhancement techniques, speech recognition techniques, and related systems
CN103854662B (zh) * 2014-03-04 2017-03-15 中央军委装备发展部第六十三研究所 基于多域联合估计的自适应语音检测方法
WO2016037311A1 (en) * 2014-09-09 2016-03-17 Microsoft Technology Licensing, Llc Variable-component deep neural network for robust speech recognition
US9953661B2 (en) * 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
US9299347B1 (en) * 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
CN104538028B (zh) * 2014-12-25 2017-10-17 清华大学 一种基于深度长短期记忆循环神经网络的连续语音识别方法
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system
CN104700828B (zh) * 2015-03-19 2018-01-12 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
US9666183B2 (en) * 2015-03-27 2017-05-30 Qualcomm Incorporated Deep neural net based filter prediction for audio event classification and extraction
CN104952448A (zh) * 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统

Also Published As

Publication number Publication date
EP3166105A1 (en) 2017-05-10
CN106683663A (zh) 2017-05-17
KR20170053525A (ko) 2017-05-16
JP2017090912A (ja) 2017-05-25
EP3166105B1 (en) 2019-09-18
KR102494139B1 (ko) 2023-01-31
US20170133006A1 (en) 2017-05-11
US10529317B2 (en) 2020-01-07
CN106683663B (zh) 2022-01-25

Similar Documents

Publication Publication Date Title
JP6861500B2 (ja) ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法
JP6751322B2 (ja) 音響モデル生成装置及び方法、音声認識装置及び方法
JP6758406B2 (ja) ワイドアンドディープマシンラーニングモデル
US11468324B2 (en) Method and apparatus with model training and/or sequence recognition
US9984683B2 (en) Automatic speech recognition using multi-dimensional models
CN105810193B (zh) 训练语言模型的方法和设备及识别语言的方法和设备
JP6671515B2 (ja) 比較セットを使用する入力例の分類
US11151335B2 (en) Machine translation using attention model and hypernetwork
CN116468070A (zh) 使用规范化的目标输出训练神经网络
US20220058433A1 (en) Method and apparatus for training embedding vector generation model
CN115362497A (zh) 具有延迟阈值的序列到序列语音识别
Coto-Jiménez et al. Improving automatic speech recognition containing additive noise using deep denoising autoencoders of LSTM networks
Feng Deep learning for music genre classification
Esposito et al. Quantum machine learning for audio classification with applications to healthcare
JP7488422B2 (ja) フィルタバンク領域でオーディオサンプルを処理するための生成ニューラルネットワークモデル
US10755171B1 (en) Hiding and detecting information using neural networks
Nelus et al. Privacy-preserving audio classification using variational information feature extraction
Bulín et al. On using stateful LSTM networks for key-phrase detection
Slívová et al. Isolated word automatic speech recognition system
EP3800574A1 (en) Response inference method and apparatus
JP2014232145A (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
Lim et al. Non-stationary noise cancellation using deep autoencoder based on adversarial learning
Giri et al. Block sparse excitation based all-pole modeling of speech
Kim et al. Application of Adversarial Domain Adaptation to Voice Activity Detection
Mondal et al. Improved Speech Activity Detection Using Cochleagram Spectral Basis by Nonnegative Matrix Factorization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200427

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210330

R150 Certificate of patent or registration of utility model

Ref document number: 6861500

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250