JP2018160234A - 音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体 - Google Patents

音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体 Download PDF

Info

Publication number
JP2018160234A
JP2018160234A JP2017245279A JP2017245279A JP2018160234A JP 2018160234 A JP2018160234 A JP 2018160234A JP 2017245279 A JP2017245279 A JP 2017245279A JP 2017245279 A JP2017245279 A JP 2017245279A JP 2018160234 A JP2018160234 A JP 2018160234A
Authority
JP
Japan
Prior art keywords
learning
experience reproduction
iteration
sample
experience
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017245279A
Other languages
English (en)
Other versions
JP7055630B2 (ja
Inventor
允 泓 閔
Yun Hong Min
允 泓 閔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2018160234A publication Critical patent/JP2018160234A/ja
Application granted granted Critical
Publication of JP7055630B2 publication Critical patent/JP7055630B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】 学習方法及び装置が開示される。
【解決手段】 一実施形態に係る学習装置はニューラルネットワークの学習のための現在反復が経験再現セットを用いる経験再現反復によって実行されるか否かを判断し、判断結果に基づいて、経験再現セット及びトレーニングセットのうち少なくとも1つから少なくとも1つのサンプルを選択し、選択されたサンプルに基づいてニューラルネットワークを学習させ得る。
【選択図】 図1

Description

以下の実施形態は音声認識のための学習技術に関する。
音声認識システムで用いられる音響モデルは、GMM(Gaussian Mixture Model)及びHMM(Hidden Markov Model)のハイブリッド形態に具現されても良い。最近では、ディープラーニング(Deep Learning)方式が商用化され、ニューラルネットワークに基づく音響モデルが主に使用されている。
ニューラルネットワークに基づく音響モデルを学習させることにおいて、様々な方式が提案されている。音響モデルの初期モデルから学習が完了したモデルまで収斂する速度を学習速度というが、このような学習速度を高めて学習の正確度及び効率を改善できる学習方式が求められている。
本発明の目的は、音声認識のための学習技術を提供することにある。
一実施形態に係る学習方法は、ニューラルネットワークの学習のための現在反復が経験再現セットを用いる経験再現反復によって実行されるか否かを判断するステップと、前記判断結果に基づいて、前記経験再現セット及びトレーニングセットのうち少なくとも1つから少なくとも1つのサンプルを選択するステップと、前記選択されたサンプルに基づいて前記ニューラルネットワークを学習させるステップとを含む。
一実施形態によると、前記判断するステップは、前記学習のための反復のうち前記現在反復に対応する反復回数が予め定義された数の倍数であるか否かを判断するステップを含み得る。
一実施形態によると、前記判断するステップは、前記学習のための反復のうち前記現在反復に対応する反復回数が予め定義された数の倍数及び予め定義された第2数の合計よりも小さいか否かを判断するステップを含み得る。
一実施形態によると、前記判断するステップは、前記現在反復の以前反復に対応するトレーニングエラーの減少が閾値以下であるか否かを判断するステップを含み得る。
一実施形態によると、前記判断するステップは、前記現在反復がバッチ方式を用いるか否かを判断するステップを含み得る。
一実施形態によると、前記選択するステップは、前記現在反復が前記経験再現反復によって実行される場合、前記経験再現セットからいずれか1つのサンプルをランダムに選択するステップを含み得る。
一実施形態によると、前記選択するステップは、前記現在反復が前記経験再現反復によって実行される場合、前記トレーニングセットからいずれか1つの第1サンプルをランダムに選択するステップと、前記ランダムに選択された第1サンプルと類似度の最も高い第2サンプルを前記経験再現セットから選択するステップとを含み得る。
一実施形態によると、前記類似度は、音響サンプルのトライフォンの分布に基づいて定義され得る。
一実施形態によると、前記選択するステップは、前記現在反復が前記経験再現反復によって実行される場合、前記経験再現セットに含まれたサンプルの品質に基づいて前記経験再現セットからいずれか1つのサンプルを選択するステップを含み得る。
一実施形態によると、前記選択するステップは、前記現在反復が前記経験再現反復によって実行され、前記経験再現反復が配置方式を用いる場合、前記経験再現セットからランダムに複数のサンプルを選択するステップを含み得る。
一実施形態によると、前記選択するステップは、前記現在反復が前記経験再現反復によって実行され、前記経験再現反復が配置方式を用いる場合、前記経験再現セット及び前記トレーニングセットから予め定義された比率で複数のサンプルをランダムに選択するステップを含み得る。
一実施形態によると、前記選択するステップは、前記現在反復が前記経験再現反復によって実行され、前記経験再現反復が配置方式を用いる場合、前記トレーニングセットから複数の第1サンプルをランダムに選択するステップと、前記経験再現セットから前記ランダムに選択された複数の第1サンプルと類似度の最も高い複数の第2サンプルを選択するステップとを含み得る。
一実施形態によると、前記選択するステップは、前記現在反復が前記経験再現反復によって実行され、前記経験再現反復が配置方式を用いる場合、前記経験再現セットに含まれたサンプルの品質に基づいて前記経験再現セットから複数のサンプルを選択するステップを含み得る。
一実施形態に係る学習方法は、前記学習結果及び前記選択されたサンプルに基づいて、前記経験再現セットを更新するか否かを判断するステップをさらに含み得る。
一実施形態によると、前記経験再現セットを更新するか否かを判断するステップは、前記経験再現セットに含まれたサンプルの分布で前記選択されたサンプルの少なくとも1つの確率と、前記選択されたサンプルに基づいて学習されたニューラルネットワークから取得された少なくとも1つの出力と、前記現在反復に対応するトレーニングエラーの減少と、前記現在反復の以前反復に対応するトレーニングエラーの減少と前記現在反復に対応するトレーニングエラーの減少との間の差とのうち少なくとも1つに基づいて前記選択されたサンプルの少なくとも1つの品質を算出するステップを含み得る。
一実施形態によると、前記経験再現セットを更新するか否かを判断するステップは、前記算出された品質を前記経験再現セットに含まれた前記サンプルの品質と比較するステップをさらに含み得る。
一実施形態によると、前記比較結果に基づいて、前記算出された品質より低い品質に対応する少なくとも1つのサンプルを前記選択されたサンプルに代替するステップをさらに含み得る。
一実施形態によると、前記経験再現セットを更新するか否かを判断するステップは、前記算出された品質を閾値と比較するステップをさらに含み得る。
一実施形態によると、前記比較結果に基づいて、前記選択されたサンプルを前記経験再現セットに追加するステップをさらに含み得る。
一実施形態によると、前記品質が前記差に基づいて算出された場合、前記現在反復に対応する反復回数が大きくなるほど前記閾値は小さくなる。
一実施形態によると、前記品質が前記出力に基づいて算出された場合、前記現在反復に対応する反復回数が大きくなるほど前記閾値は大きくなる。
一実施形態によると、前記経験再現セットは、予め定義された環境で録音された音響サンプル及びトライフォンの分布が予め定義された基準に均等に分布した音響サンプルのうち少なくとも1つを含み得る。
一実施形態に係る学習方法は、ニューラルネットワークの学習のための現在反復において、経験再現セット及びトレーニングセットのうち少なくとも1つから選択された少なくとも1つのサンプルに基づいて前記ニューラルネットワークを学習させるステップと、前記学習結果及び前記選択されたサンプルに基づいて前記経験再現セットを更新するか否かを判断するステップと、前記判断結果に基づいて前記経験再現セットを更新するステップとを含む。
一実施形態に係る学習装置は、ニューラルネットワークの学習のための現在反復が経験再現セットを用いる経験再現反復によって実行されるか否かを判断し、前記判断結果に基づいて、前記経験再現セット及びトレーニングセットのうち少なくとも1つから少なくとも1つのサンプルを選択し、前記選択されたサンプルに基づいて前記ニューラルネットワークを学習させるプロセッサを含む。
一実施形態に係る学習装置は、ニューラルネットワークの学習のための現在反復において、経験再現セット及びトレーニングセットのうち少なくとも1つから選択された少なくとも1つのサンプルに基づいて前記ニューラルネットワークを学習させ、前記学習結果及び前記選択されたサンプルに基づいて前記経験再現セットを更新するか否かを判断し、前記判断結果に基づいて前記経験再現セットを更新するプロセッサを含む。
本発明によると、音声認識のための学習技術を提供することができる。
一実施形態に係る学習方法を説明するためのフローチャートである。 一実施形態に係る学習方法を説明するための概念図である。 一実施形態に係る現在反復の学習過程を説明するためのフローチャートである。 一実施形態に経験再現セットを説明するための図である。 一実施形態に経験再現セットを説明するための図である。 一実施形態に経験再現セットを説明するための図である。 一実施形態に係る経験再現セットを説明するための図である。 一実施形態に係る経験再現セットを説明するための図である。 一実施形態に係る学習装置の構成の例示図である。
本明細書で開示されている特定の構造的又は機能的説明は単に実施形態を説明するための目的として例示されたものである。したがって、実施形態に対する特定の構造的又は機能的説明は、単に例示のための目的として開示されたものであり、様々な形態に変更されて実施され得る。したがって、実施形態は、特定の開示形態で限定されることなく、本明細書の範囲は技術的な思想に含まれる変更、均等物、又は代替物を含む。
第1又は第2などの用語を複数の構成要素を説明するために用いることができるが、このような用語は1つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第1構成要素は第2構成要素と命名することができ、同様に第2構成要素は第1構成要素にも命名することができる。
いずれかの構成要素が他の構成要素に「連結されて」いると言及された場合、その次の構成要素に直接的に連結されてもよく、又は中間に他の構成要素が存在することもあり得ると理解されなければならない。一方いずれかの構成要素が他の構成要素に「直接連結されて」いるか「直接接続されて」いと言及される場合には、中間に他の構成要素が存在しないものとして理解されなければならない。構成要素間の関係を説明する表現、例えば「〜間に」と「すぐ〜の間に」、又は「〜に隣接する」と「〜に直接に隣接する」などのように解釈されなければならない。
本明細書で用いた用語は、単に特定の実施形態を説明するために用いられるものであって、本発明を限定しようとする意図はない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
異なるように定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
以下、実施形態を添付する図面を参照しながら詳細に説明する。しかし、特許出願の範囲がこのような実施形態によって制限されたり限定されることはない。各図面に提示された同一の参照符号は同一の部材を示す。
図1は、一実施形態に係る学習方法を説明するためのフローチャートである。
図1を参照すると、一実施形態に係る学習装置は、ニューラルネットワークの学習のための現在反復(current iteration)が経験再現セット(experience relay set)を用いる経験再現反復(experience replay iteration)によって実行されるか否かを判断する(S101)。学習装置は、認識装置を学習させる装置として、ソフトウェアモジュール、ハードウェアモジュール、又はその組合せで実現する。例えば、学習装置は、音声認識システムを構築するとき用いられる音響モデル、言語モデル又は端対端(end−to−end)音声認識モデルを学習させることができる。音響モデルは、音声認識(Automatic Speech Recognition;ASR)で用いられるモデルとして、音声の信号的な特性と言語要素との間の関係を処理できるが、例えば、音声信号の発音を推定することができる。音響モデルと区別される概念である言語モデルは、単語又は文章が文法的又は意味的にある程度正しいかを推定するモデルであって、音声認識システムは、音響モデルと言語モデルが結合された形態に実現する。端対端音声認識モデルは、音声認識システム内の音響モデルと言語モデルが統合して音声信号から単語又は文章が直接的に推定される形態に実現する。
音響モデルは、音声認識器がインストールされた様々な類型の装置(スマートフォン、スマートTV、スマート自動車、ウェアラブル装置など)又はサーバに採用される。ディープラーニングに基づいて設計された音響モデルは、複数のサンプルによって学習される。例えば、ニューラルネットワークに基づく音響モデルは、複数の音声信号、音声特徴、フレームごとの単音(phone)(又は、senone)によって学習される。以下、説明される学習方法は、音響モデルの学習に適用され得る。ただし、学習方法の実施形態は、音声認識システム又はニューラルネットワークに基づく認識装置に限定されて適用される必要がなく、様々な類型のモデル又は装置に採用されて応用する。
一実施形態に係る学習装置は、ニューラルネットワークの学習のために複数の反復(iterations)を実行することができ、複数の反復のうち少なくとも一部を経験再現反復を用いて行う。学習装置は、学習させようとするニューラルネットワークにサンプルを入力し、ニューラルネットワークを更新する過程を繰り返し行うが、例えば、ニューラルネットワークを構成するノード間の加重値を最適化する方式によりニューラルネットワークを学習させることができる。
ここで、反復とは、学習によって実行される反復のうちいずれか1つであって、例えば、ニューラルネットワークを繰り返し更新又は最適化するステップのうち少なくとも1つの特定サンプルにニューラルネットワークを更新又は最適化するステップの単位を意味する。学習装置は、少なくとも1つの第1サンプルを用いて第1反復を行い、第1反復を完了した後少なくとも1つの第2サンプルを用いて第2反復を行う。学習装置は、反復を行って全ての反復を完了しニューラルネットワークを学習させ得る。反復の回数は、設計意図に応じて多様に定義される。例えば、反復の回数は、予め定義された数、予め定義された条件、サンプル数、反復に対応するトレーニングエラー、以前反復のトレーニングエラー、及び現在反復のトレーニングエラーの間の差などに基づいて定義されるが、これに制限されることなく、様々な基準又は政策が採用される。
また、経験再現反復とは、反復のうち経験再現セットに基づいて実行される反復を意味する。学習装置は、複数のサンプルを用いて学習のための反復を行うが、このようなサンプルのうち一部を経験再現セットに別途管理し、経験再現反復時に経験再現セットを用いることができる。学習装置は、学習に用いられるサンプルのうち学習に有効な少なくとも1つのサンプルを選別して格納し、格納されたサンプルを用いて経験再現セットを構成する。経験再現セットは、経験再現反復を行うために別途に管理されるサンプルの集合である。
サンプルは、音響モデルを学習させるためのデータとして、トレーニングサンプルのように称される。サンプルは、音声信号、音声信号を前処理したデータ、音声信号の特徴、又は特徴ベクトル、音声信号のフレームごとの単音(phone)(又は、senone)など様々な形態に実現され、実施形態は、サンプルの類型を制限しない。音声信号のサンプルは、単語、音素、形態素、発音記号単位、句、節、文章、及び段落など、設計意図に応じて様々な形態に定義又は設計され、実施形態はサンプルが含蓄する情報の類型を制限しない。
学習装置は、神経科学及び認知科学で人の学習過程のモデルのうちの1つである経験再現による学習モデルを模写し、機械学習に適用する。上述したように、学習装置は、学習に有効なものとして判断されるサンプルを経験再現セットに別途管理し、学習する過程に経験再現セットを定期的又は非定期的に採用して学習の速度及び正確度を高めることができる。
学習装置は、学習のための反復を行う前に、少なくとも1つの反復が経験再現反復によって実行されるか否かを判断したり、各反復を行う前に、各反復が経験再現反復によって実行されるか否かを判断する。現在反復が経験再現反復によって実行されるか否かを判断する具体的な実施形態については、図3を参照して後述する。
学習装置は、判断結果に基づいてサンプルを選択する(S102)。例えば、学習装置は、経験再現セット又はトレーニングセットから1つ又はそれ以上のサンプルを選択する。又は、学習装置は、経験再現セットから1つ又はそれ以上のサンプルを選択し、トレーニングセットから1つ又はそれ以上のサンプルを選択する。
学習装置は、選択されたサンプルに基づいてニューラルネットワークを学習させる(S103)。例えば、学習装置は、経験再現セットを用いて経験再現反復を行う。学習に活用されるサンプルは、経験再現セットに含まれたサンプル及びトレーニングセットに含まれたサンプルから構成され、ここで、トレーニングセットは、全体サンプルのうち経験再現セットに含まれたサンプルを除いた残りサンプルの集合である。学習装置は、経験再現反復を行うためにニューラルネットワークから入力される少なくとも1つのサンプルを構成できるが、ここで、構成される少なくとも1つのサンプルに経験再現セットに含まれた少なくとも1つのサンプルを含ませてもよい。したがって、経験再現反復は、ニューラルネットワークから入力される少なくとも1つのサンプルに経験再現セットに含まれたサンプルを含ませて行う反復を意味する。
実施形態によって、学習装置は、経験再現セットを更新するか否かを判断し、経験再現セットを更新する。例えば、学習装置は、学習のための反復を行う過程で経験再現セットを更新し、更新された経験再現セットを用いて今後反復を行う。経験再現セットの更新に関連するより具体的な事項については後述する。
図2は、一実施形態に係る学習方法を説明するための概念図である。図2を参照すると、学習装置は、経験再現セット201及びトレーニングセット202に含まれたサンプルのうち少なくとも1つを用いてニューラルネットワーク204を学習させることができる。
より具体的に、学習装置は、現在反復が経験再現反復によって実行されるか否かの判断結果に基づいて、経験再現セット201及びトレーニングセット202のうち少なくとも1つから少なくとも1つのサンプルを選択する。上述したように、現在反復が経験再現反復に該当する場合、学習装置は、全体サンプルのうち現在反復のためのサンプル選択時に経験再現セット201から少なくとも1つのサンプルを選択する。例えば、学習装置は、経験再現反復時に経験再現セット201からサンプルS1を選択してもよい。
一実施形態によると、学習装置は、現在反復時にニューラルネットワーク204に入力するためのサンプルを複数構成し得るが、複数のサンプルを用いて単一反復を行う方式をバッチ方式と称する。ここで、学習装置は、現在反復が配置方式を用いるか否かを判断する。学習装置は、現在反復が配置方式を用いる場合、ニューラルネットワーク204に入力するための複数のサンプルの集合である配置203を生成する。学習装置は、経験再現セット201及び/又はトレーニングセット202から選択された1つ又はそれ以上のサンプルを用いて配置203を生成する。
学習装置は、現在反復が経験再現反復であるか否か及び配置方式を用いるか否かに応じて、ニューラルネットワーク204に入力するための少なくとも1つのサンプルを全体サンプルから適応的に選択できる。
例えば、現在反復が経験再現反復に該当しながら配置方式を用いる場合(即ち、現在反復が経験再現反復に該当し、かつ、複数のサンプルを組み合わせる方式を用いる場合)、学習装置は、経験再現セット201から選択されたサンプルのみを用いて配置203を生成する。又は、学習装置は、経験再現セット201から選択されたサンプルとトレーニングセット202から選択されたサンプルとを共に用いて配置203を生成してもよい。
現在反復が経験再現反復に該当しながら配置方式を利用しない場合、学習装置は、ニューラルネットワーク204に入力するための単一のサンプルを経験再現セット201から選択する。
現在反復が経験再現反復に該当しないが配置方式を用いる場合、学習装置は、トレーニングセット202から選択されたサンプルのみを用いて配置203を生成する。また、現在反復が経験再現反復に該当しないが配置方式を利用しない場合、学習装置は、トレーニングセット202からいずれか1つのサンプルを選択する。
学習装置は、経験再現セット201及びトレーニングセット202のうち少なくとも1つから選択された少なくとも1つのサンプルに基づいてニューラルネットワーク204を学習させ得る。一実施形態によると、学習装置は、現在反復時に様々な類型の方式を採用してニューラルネットワークを学習させ得る。例えば、学習装置は、SGD(Stochastic Gradient Descent)方式を用いてニューラルネットワークを学習させ、SGD方式を用いるとき単一サンプル又はサンプルの集合である配置単位でニューラルネットワークを学習させ得る。
一例として、単一サンプルが用いられる場合、学習装置は、サンプルのレーベルとニューラルネットワーク204の出力に基づいたSGD方式を用いてもよい。
異なる例として、配置方式が用いられる場合、学習装置は、サンプルのレーベル又は配置に対応するレーベルとニューラルネットワーク204の出力に基づいたSGD方式を用いてもよい。ここで、SGD方式は、配置に対応する出力を利用し、このようなSGD方式には、ミニ−バッチ(mini−batch)SGD方式が採用される。学習装置は、選択されたサンプルS及びSで構成された配置203に基づいてニューラルネットワーク204を学習させ得る。学習装置は、複数の出力及び複数のレーベルによって設計された損失関数を用いることができる。配置方式の利用時に採用される損失関数は、設計意図に応じて多様に応用され、配置単位のレーベルと配置単位の出力によって設計され得る。
例えば、学習装置は、配置203に含まれたサンプルS及びSをニューラルネットワーク204に入力し、ニューラルネットワーク204の出力とサンプルS及びSのレーベルに基づいてトレーニングエラーを算出する。学習装置は、予め定義された損失関数を用いてトレーニングエラーを算出する。損失関数は、レーベル、出力、及びパラメータを入力変数として予め定義され、ここで、パラメータは、ニューラルネットワーク204内の加重値によって設定される。例えば、損失関数は、MSE(Mean Square Error)形態、エントロピー(entropy)形態などに設計されるが、損失関数が設計される実施形態には様々な方式又は方式が採用され得る。
一実施形態によると、学習装置は、学習結果及び選択されたサンプルに基づいて経験再現セット201を更新するか否かを判断する。学習装置は、現在反復を完了する前に経験再現セット201を更新するか否かを判断する。経験再現セット201を更新することは、経験再現セット201に含まれたサンプルの組合せを更新することを意味し、例えば、学習装置は、経験再現セット201に含まれたサンプルを新しいサンプルに代替したり、経験再現セット201に新しいサンプルを追加する。例えば、学習装置は、現在反復である経験再現反復の学習結果に基づいて、サンプルS及びSのうち、Sを経験再現セット201内のサンプルSに代替してもよい。一実施形態によると、学習装置は、Sの品質とSの品質とを比較したり、Sの品質と閾値を比較し、比較結果に応じてSをSに代替してもよい。
学習装置は、Sを経験再現セット201内に含まれるよう保持する。学習装置は、経験再現セット201からSを選択し、Sを経験再現セット201から除外し、学習結果に基づいてSを再び経験再現セット201に追加するか否かを判断する。又は、学習装置は、Sを選択しSを経験再現セット201内に含まれるよう保持し、学習結果に基づいてSを経験再現セット201内に含まれるよう保持するか否か、又は、経験再現セット201から除外するか否かを判断する。該当の反復時点に経験再現セット201から選択されたサンプルが経験再現セット201から除外されるか否かは、設計意図に応じて設定され、実施形態はこれに制限されることはない。学習装置は、サンプルに対応する品質を用いて経験再現セット201を更新するが、経験再現セット201を更新する条件、基準、方式、又は政策に関する詳細な実施形態については後述する。
学習装置は、経験再現セット201を更新するか否かの判断結果に基づいて、経験再現セット201を更新する。学習装置は、経験再現セット201を更新すると判断された場合、現在反復に利用された少なくとも1つのサンプル及び少なくとも1つの品質に基づいて経験再現セット201を更新するが、経験再現セット201の更新及びサンプルの品質に関する実施形態については後述する。
図3は、一実施形態に係る現在反復の学習過程を説明するためのフローチャートである。
図3を参照すると、学習装置は、学習のためのk番目の反復を開始する(S301)。ここで、k番目は、学習装置によって実行される反復のうち現在反復の回数又は順序を意味する。
学習装置は、現在反復が経験再現反復によって実行されるか否かを判断する(S302)。一実施形態によると、学習装置は、学習のための反復のうち現在反復に対応する反復回数が予め定義された数の倍数であるか否かを判断する。例えば、学習装置は、学習のための反復のうち反復回数が予め定義されたMの倍数である反復を経験再現反復として行う。この場合、学習装置は、kが予め定義されたMの倍数であるか否かを判断し、判断結果に応じて経験再現反復を行うかを判断する。
一実施形態によると、学習装置は、学習のための反復のうち現在反復に対応する反復回数が予め定義された数の倍数及び予め定義された第2数の合計よりも小さいか否かを判断する。例えば、学習装置は、学習のための反復のうち、反復回数が予め定義されたMの倍数である反復を経験再現反復として行い、Mの倍数である反復回数に対応する経験再現反復を行った後、N回だけ経験再現反復を追加的に行う。この場合、学習装置は、kがMの倍数及びNの合計よりも小さいか同じであるかを判断する。
一実施形態によると、学習装置は、現在反復の以前反復に対応するトレーニングエラーの減少が閾値以下であるか否かを判断する。上述したように、学習装置は、SGD方式を採用した特定反復を行ってニューラルネットワークのトレーニングエラーがどれ程減少したかを測定又は算出する。学習装置は、反復に対応するトレーニングエラー又はトレーニングエラーの減少を算出又は測定し、算出又は測定された値を反復にマッピングして記録する。学習装置は、k−1番目の反復に対応するトレーニングエラーの減少が閾値以下である場合、k番目の反復が経験再現反復によって実行されると判断する。以前反復に対応するトレーニングエラーの減少を基準にして経験再現反復の実行可否を判断する実施形態が説明されているが、学習装置は、以前反復のトレーニングエラーの減少、トレーニングエラーの減少の変化量、又はトレーニングエラーを基準にして経験再現反復の実行可否を判断する。学習装置は、以前反復に対応するトレーニングエラーに基づいて特定パラメータを生成し、このような特定パラメータに基づいて経験再現反復の実行可否を判断する。経験再現反復の実行可否を判断するために基準となる変数の実施形態には、設計意図に応じて様々な方式が採用されて応用される。
一実施形態によると、学習装置は、現在反復が配置方式を用いるか否かを判断する。上述したように、学習装置は、特定反復を行うために複数のサンプルの集合を利用し、このようなサンプルの集合である配置を用いて現在反復を行うか否かを判断する。学習装置は、k番目の反復が配置方式基づくSGD方式を用いるか否かを判断し、配置方式が用いられる場合、k番目の反復が経験再現反復によって実行されると判断する。学習装置は、予め決定したスケジュールによりk番目の反復が配置方式を用いるか否かを判断し、以前反復に対応する学習結果又は以前反復によって生成されたパラメータに基づいて、k番目の反復が配置方式を用いるかの有無を適応的に判断する。学習装置は、現在反復が配置方式を用いる場合、政策的に経験再現反復を行う。
学習装置は、現在反復が経験再現反復によって実行される場合、経験再現セットから少なくとも1つのサンプルを選択する(S303)。上述したように経験再現反復が配置方式を用いる場合、学習装置は、経験再現反復のための複数のサンプルを選択する。経験再現反復が配置方式を利用しない場合、学習装置は、経験再現反復のためのサンプルを経験再現セットから選択する。
一実施形態によると、学習装置は、経験再現セットからいずれか1つのサンプルをランダムに選択する。例えば、学習装置は、現在反復である経験再現反復がSGD方式を用いる場合、経験再現セットからランダムに選択されたいずれか1つのサンプルを用いてSGD方式を行う。
一実施形態によると、学習装置は、トレーニングセットから選択されたいずれか1つのサンプルと類似のサンプルを経験再現セットから選択する。例えば、学習装置は、現在反復である経験再現反復がSGD方式を用いる場合、トレーニングセットからいずれか1つの第1サンプルをランダムに選択する。学習装置は、ランダムに選択された第1サンプルと類似度の最も高い第2サンプルを経験再現セットから選択する。類似度は、サンプルを分類するとき基準となる尺度に基づいて定義されるが、例えば、類似度は、音響サンプルのトライフォン(triphone)の分布に基づいて定義される。学習させようとするニューラルネットワークが音響モデルである場合、学習装置は、サンプルとして音響信号又は音響サンプルを採用する。学習装置は、発音記号の分布を表現するトライフォンの分布を用いて音響信号間の類似度を意味する関数を定義し、このような関数をサンプル間の類似性の判断基準として活用する。ただし、類似度は、上述した方式に限定されずに様々な方式と基準を活用して設計意図に応じて多様に定義される。
一実施形態によると、学習装置は、経験再現セットに含まれたサンプルの品質に基づいて経験再現セットからいずれか1つのサンプルを選択する。例えば、学習装置は、現在反復である経験再現反復がSGD方式を用いる場合、経験再現セットに含まれたサンプルのうち最も高い品質のサンプルを選択する。学習装置は、経験再現セットに含まれたサンプルのうち予め定義された基準を満たすサンプルを選択してもよく、サンプルの品質を閾値と比較する方式により特定サンプルを経験再現セットから選択してもよい。サンプルの品質に基づいて、経験再現セットから特定サンプルを選択する実施形態には、設計意図に応じて様々な基準又は政策が適用される。サンプルの品質は、学習にどれ程役立つかを示すパラメータとして定義される。品質が最も高く又は最も優れることは、品質を示す値が最も大きいことを意味するが、品質を表現する定量的な値又はパラメータは、設計意図に応じて多様に定義される。例えば、予め定義された環境(例えば、騒音と音質に関する基準が予め統制された環境)で録音された音響サンプルの品質は、ランダムに収集された音響サンプルの品質よりも高い可能性がある。品質がトライフォンの分布に基づいて定義された場合、トライフォンの分布が予め定義された基準に均等に分布した音響サンプルの品質は、ランダムに収集された音響サンプルの品質より高い可能性がある。
一実施形態によると、学習に用いられるサンプルの品質は、予め格納されたり学習装置によって学習過程で更新される。例えば、学習装置は、経験再現セットに含まれたサンプルの品質をテーブルで記録したりデータベースで構築する。学習装置は、経験再現セットに含まれたサンプルの品質を反復を実行しながら更新し、更新された品質に基づいて経験再現セットから少なくとも1つのサンプルを選択する。学習装置は、サンプルのうち相対的に品質が高いサンプルを用いて経験再現セットを構成し、経験再現セットを用いた経験再現反復を定期的又は非定期的に行って学習の速度及び学習の正確度に関する性能を高めることができる。サンプルの品質を定義する条件、関数、又は基準などは多様に設計され、品質が定義される実施形態については、図4A〜図4Cを参照して詳しく説明する。
一実施形態によると、学習装置は、現在反復である経験再現反復が配置方式を用いる場合、上述した方式を応用して複数のサンプルを選択する。学習装置は、経験再現セットからランダムに複数のサンプルを選択する。例えば、学習装置は、現在反復である経験再現反復がSGD方式を用いる場合、経験再現セットからランダムに選択されたサンプルを用いてSGD方式を行う。
一実施形態によると、学習装置は、現在反復である経験再現反復が配置方式を用いる場合、経験再現セット及びトレーニングセットから予め定義された比率で複数のサンプルをランダムに選択する。例えば、学習装置は、現在反復である経験再現反復がSGD方式を用いる場合、経験再現セット及びトレーニングセットからM対Nの比率でサンプルをランダムに選択する。ここで、M対Nの比率は、現在反復の回数、経験再現セットに含まれたサンプル数、トレーニングセットに含まれたサンプル数、以前反復のトレーニングエラー及びサンプルの品質のうち少なくとも1つに基づいて定義されるが、比率の定義方式は、上述した方式に制限されず設計意図に応じて多様に変形され得る。
一実施形態によると、学習装置は、現在反復である経験再現反復が配置方式を用いる場合、トレーニングセットから選択されたサンプルと類似のサンプルを経験再現セットから選択する。例えば、学習装置は、現在反復である経験再現反復がSGD方式を用いる場合、トレーニングセットから複数の第1サンプルをランダムに選択する。学習装置は、経験再現セットからランダムに選択された複数の第1サンプルと類似度の最も高い複数の第2サンプルを選択する。学習装置は、第1サンプルとそれぞれ類似度が最も高いサンプルを経験再現セットから選択する。学習装置は、トライフォンの分布に基づいて分類されたサンプルの分布を用いて、第1サンプルと類似度の最も高いサンプルを経験再現セットから選択する。
一実施形態によると、学習装置は、現在反復である経験再現反復が配置方式を用いる場合、経験再現セットに含まれたサンプルの品質に基づいて、経験再現セットから複数のサンプルを選択する。例えば、学習装置は、現在反復である経験再現反復がSGD方式を用いる場合、経験再現セットに含まれたサンプルのうち品質が高い順に複数のサンプルを選択する。学習装置は、経験再現セットに含まれたサンプルのうち予め定義された基準を満たすサンプルを選択してもよく、サンプルの品質を閾値と比較してサンプルを経験再現セットから選択してもよい。
学習装置は、現在反復が経験再現反復によって実行されない場合、トレーニングセットから少なくとも1つのサンプルを選択する(S304)。学習装置は、経験再現反復ではない現在反復が配置方式を用いる場合、トレーニングセットから複数のサンプルを選択する。
学習装置は、経験再現セット及びトレーニングセットのうち少なくとも1つから選択されたサンプルを用いてニューラルネットワークの加重値を更新する(S305)。上述したように学習装置は、逆電波方式及びSGD方式を用いて加重値を更新する。
学習装置は、学習結果及び選択された少なくとも1つのサンプルに基づいて経験再現セットを更新するか否かを判断する(S306)。一実施形態によると、学習装置は、現在反復で利用された少なくとも1つのサンプルを経験再現セットに追加するか否か又は経験再現セットに含まれたサンプルのうち少なくとも1つを現在反復で利用された少なくとも1つのサンプルに代替するか否かを判断する。例えば、学習装置は、現在反復で利用されたサンプルの品質に基づいて経験再現セットの更新可否を判断する。学習装置は、現在反復で利用されたサンプルの品質を算出し、算出された品質と経験再現セットに含まれたサンプルの品質を比較して経験再現セットの更新可否を判断する。
学習装置は、現在反復で選択された少なくともサンプルの少なくとも1つの品質を算出することにおいて、経験再現セットに含まれたサンプルの分布で、現在反復で選択されたサンプルの少なくとも1つの確率、現在反復で選択されたサンプルに基づいて学習されたニューラルネットワークから取得された少なくとも1つの出力、現在反復に対応するトレーニングエラーの減少、及び現在反復の以前反復に対応するトレーニングエラーの減少と現在反復に対応するトレーニングエラーの減少との間の差のうち少なくとも1つを考慮する。経験再現セットに含まれたサンプルの情報は、表1のようにテーブル形態に格納され、学習装置は、データベース又はメモリから経験再現セットに含まれたサンプルの情報を取得する。
Figure 2018160234
表1を参照すると、経験再現セットはSないしSのサンプルを含み、SないしSのサンプルは、レーベル、サンプルの分布における確率、トレーニングエラーの減少、トレーニングエラーの減少の差、及びニューラルネットワークの出力とマッピングされてデータベース形態に構築される。ここで、品質は、サンプルの分布における確率、トレーニングエラーの減少、トレーニングエラーの減少の差、及びニューラルネットワークの出力のうち少なくとも1つに基づいて定義され定量化される。
学習装置は、経験再現セットに含まれたサンプルの分布で、現在反復で選択されたサンプルの確率を算出し、算出された確率に基づいて現在反復で選択されたサンプルの品質を算出する。サンプルの分布は、サンプルを予め決定した基準(例えば、互いに類似の程度)に分類した結果生成されるグループそれぞれに属するサンプル数が分布した程度として理解される。例えば、特定サンプルの確率は、該当サンプルが属するグループ内のサンプル数を全体サンプルの数に割った値に算出される。
図4Aを参照すると、サンプルの分布は正規分布であり、正規分布でSの確率はPであり、Sの確率はPである。サンプルの分布は、類似度又はトライフォンの分布を基準としてサンプルを分類した結果が示された分布である。学習装置は、Pに基づいてSの品質を算出し、Pに基づいてSの品質を算出する。一実施形態によると、学習装置は、相対的に確率がより小さいSの品質をSよりさらに高く算出する。学習装置は、現在反復で選択されたサンプルの確率(経験再現セットに含まれたサンプルの分布における確率)と経験再現セットに含まれたサンプルの確率とを比較し、比較結果に基づいて経験再現セットの更新可否を判断する。例えば、学習装置は、経験再現セットに含まれたサンプルの確率のうち、最も高い確率が現在反復で選択されたサンプルの確率よりも大きければ、現在反復で選択されたサンプルを経験再現セットに追加し、最も高い確率に対応するサンプルを経験再現セットから除外する。学習装置は、サンプルの分布における確率を用いて経験再現セット内に相対的に多く分布したサンプルを経験再現セットから除外し、相対的に少なく分布したサンプルを経験再現セットに含ませる。
図4Bを参照すると、サンプルSないしSは、トライフォンの分布に基づいて図示するように羅列又は分類される。この場合、Sの確率がSないしSの確率よりも小さいため、学習装置はSの品質をSないしSの品質より相対的に高く算出する。図4Bにおいて、明暗はトライフォンの分布を基準としてサンプルを識別するための視覚的な表現を意味する。学習装置は、サンプルの分布に基づいて経験再現セットを更新するため、反復を行って経験再現セットに含まれたサンプルを均等に分布させ得る。学習装置は、表1のように経験再現セットに含まれたサンプルSないしSとサンプルSないしSに対応する確率PないしPをテーブルの形態に管理できる。
学習装置は、現在反復で選択されたサンプルを用いてニューラルネットワークを学習させ、学習されたニューラルネットワークから取得された少なくとも1つの出力に基づいて現在反復で選択されたサンプルの品質を算出する。図4Cを参照すると、ニューラルネットワーク401は、入力レイヤ402、中間レイヤ404、及び出力レイヤ403を含む。学習装置は、現在反復で選択されたサンプルSを入力レイヤ402を介してニューラルネットワークに入力し、ニューラルネットワーク401の出力レイヤ403を介して出力Oを取得し、出力Oを用いてニューラルネットワーク401を学習させる。サンプルSが音響サンプルである場合、学習装置は、複数のフレームを用いて音響サンプルの特徴を生成し、生成された特徴を用いてニューラルネットワーク401を学習させる。出力Oは、出力レイヤ403のノードから出力された確率(log−likelihood)値に基づいて定義され、出力レイヤ403のノードの活性化関数によって定義される。学習装置は、現在反復で選択されたサンプルSに対応する出力Oに基づいて、サンプルSの品質を算出する。例えば、学習装置は、出力レイヤ403のノードから出力される値を表現する出力Oが小さくなるほどサンプルSの品質を高く算出する。出力が相対的に小さいことは、ニューラルネットワークがその小さい出力に対応するサンプルを低い認識率で認識することを意味し、又は、そのサンプルに関連する反復がさらに実行される必要があることを意味する。ここで、学習装置は、出力が小さくなるほどその出力に対応するサンプルの品質を高く設定し、そのサンプルを学習により多く参加させることができる。
学習装置は、表1のように経験再現セットに含まれたサンプルSないしSに対応する出力OないしOをテーブルの形態に管理する。学習装置は、現在反復で選択されたサンプルの出力と経験再現セットに含まれたサンプルの出力とを比較し、比較結果に基づいて経験再現セットの更新を行うか否かを判断する。例えば、学習装置は、経験再現セットに含まれたサンプルの出力のうち最も高い出力が現在反復で選択されたサンプルの出力よりも大きければ、現在反復で選択されたサンプルを経験再現セットに追加し、最も高い出力に対応するサンプルを経験再現セットから除外する。学習装置は、ニューラルネットワークの出力を用いて経験再現セット内に相対的に出力が大きいサンプルを経験再現セットから除外し、相対的に出力が小さい経験再現セットに含ませる。そのため、学習装置は、ニューラルネットワークの出力が小さいサンプルを経験再現反復により定期的、非定期的、又は反復的な学習に参加させ得る。
学習装置は、現在反復に対応するトレーニングエラーの減少に基づいて現在反復で選択されたサンプルの品質を算出し、表1のように経験再現セットに含まれたサンプルSないしSに対応するトレーニングエラーの減少PないしPをテーブル形態に管理する。学習装置は、現在反復で選択されたサンプルに対応するトレーニングエラーの減少と経験再現セットに含まれたサンプルのトレーニングエラーの減少とを比較し、比較結果に基づいて経験再現セットの更新可否を判断する。例えば、学習装置は、経験再現セットに含まれたサンプルに対応する減少のうち最も低い減少が現在反復で選択されたサンプルの減少よりも小さければ、現在反復で選択されたサンプルを経験再現セットに追加し、最も低い減少に対応するサンプルを経験再現セットから除外する。学習装置は、トレーニングエラーの減少を用いて経験再現セット内に相対的に減少が相対的に小さいサンプルを経験再現セットから除外し、相対的に減少が大きいサンプルを経験再現セットに含ませる。そのため、学習装置は、トレーニングエラーの減少が大きいサンプルを経験再現反復により定期的、非定期的、又は反復的な学習に参加させ得る。
学習装置は、トレーニングエラーの減少の差に基づいて現在反復で選択されたサンプルの品質を算出する。ここで、トレーニングエラーの減少の差は、現在反復に対応するトレーニングエラーの減少と以前反復に対応するトレーニングエラーの減少との差を含む。学習装置は、表1のように、経験再現セットに含まれたサンプルSないしSに対応するトレーニングエラーの減少の差DないしDをテーブルの形態に管理する。学習装置は、現在反復で選択されたサンプルに対応する差と経験再現セットに含まれたサンプルに対応する差とを比較し、比較結果に基づいて経験再現セットの更新可否を判断する。例えば、学習装置は、経験再現セットに含まれたサンプルに対応する差のうち最も小さい差が現在反復で選択されたサンプルに対応する差よりも小さければ、現在反復で選択されたサンプルを経験再現セットに追加し、最も小さい差に対応するサンプルを経験再現セットから除外する。学習装置は、トレーニングエラーの減少の差を用いて、経験再現セット内に相対的に差が相対的に小さいサンプルを経験再現セットから除外し、相対的に差が大きいサンプルを経験再現セットに含ませる。そのため、学習装置は、トレーニングエラーの減少の差が大きいサンプルを経験再現反復により定期的、非定期的、又は反復的な学習に参加させ得る。サンプルの品質を定義する方式は、上述した基準に制限されることなく、上述した方式はサンプルの集合である配置の品質を定義するために採用される。
再び図3を参照すると、学習装置は、現在反復で選択されたサンプルを用いて経験再現セットを更新する(S307)。一実施形態によると、学習装置は、現在反復で選択されたサンプルの品質と経験再現セットに含まれたサンプルの品質とを比較する。学習装置は、比較結果に基づいて経験再現セットに含まれたサンプルのうち、現在反復で選択されたサンプルの品質よりも低い品質に対応する少なくとも1つのサンプルを現在反復で選択されたサンプルに代替する。
一実施形態によると、学習装置は、現在反復で選択されたサンプルの品質を閾値と比較する。学習装置は、比較結果に基づいて現在反復で選択されたサンプルを経験再現セットに追加する。例えば、サンプルの品質がトレーニングエラーの減少の差に基づいて算出される場合、品質と比較される基準である閾値は、現在反復に対応する反復回数が大きくなるほど小さくなる。サンプルの品質がニューラルネットワークの出力に基づいて算出される場合、品質と比較される基準である閾値は、現在反復に対応する反復回数が大きくなるほど大きくなる。学習装置は、経験再現セットに含まれたサンプルの品質と閾値とを比較し、比較結果に基づいて経験再現セットに含まれたサンプルのうち少なくとも1つを経験再現セットから除外する。学習装置は、現在反復で選択されたサンプルを用いて経験再現セットを更新する動作において、上述した方式に制限されることなく、様々な方式と方式を採用してサンプルの品質を活用し得る。
学習装置は、経験再現セットの更新を完了したり経験再現セットを更新しないと判断された場合、k番目の反復を終了する(S308)。学習装置は、k番目の反復を終了した後k番目の反復に対応するトレーニングエラー、トレーニングエラーの減少及びトレーニングエラーの減少の差のうち少なくとも1つに基づいて、ニューラルネットワークの学習を終了するか否か、又は(k+1)番目の反復を開始するか否かを判断する。
図5は、一実施形態に係る経験再現セットを説明するための図である。
図5を参照すると、経験再現セット501は、複数の配置BないしBを含む。学習装置は、経験再現セット501に含まれた配置BないしBと配置BないしBに対応する品質などを、上述した方式のようにテーブル形態に管理する。学習装置は、上述した実施形態を採用して経験再現セット501を構成及び更新する。例えば、学習装置は、経験再現セット501を配置単位で更新し、配置に対応する品質を用いて経験再現セット501に含まれた配置BをBnewに代替する。
図6は、一実施形態に係る経験再現セットを説明するための図である。
図6を参照すると、学習装置は、ニューラルネットワーク603の学習を開始する前に経験再現セット601にサンプルを含んでいない。例えば、学習装置は、空いている経験再現セット601を定義し、ニューラルネットワーク603の学習を開始することができ、学習のための反復を行う過程で経験再現セット601を更新し得る。経験再現セット601の更新動作には、上述した実施形態が適用される。学習装置は、学習のための反復のうち最初反復時トレーニングセット602からサンプルSnewを選択し、選択されたSnewを用いてニューラルネットワーク603を学習させ、ニューラルネットワーク603の出力に基づいてSnewの品質を算出する。学習装置は、Snewの品質に基づいてSnewを経験再現セット601に追加する。
図6を参照して経験再現セット601が最初に空くように設定されている実施形態を説明しているが、経験再現セット601は、予め定義された条件を充足するサンプルに最初から構成されてもよい。上述したように、学習に有効なものとして判断されるサンプルの集合により経験再現セット601が構成されてもよい。一実施形態によると、学習装置は、予め定義された数のサンプルの集合で経験再現セット601を保持することができるが、例えば、学習装置は、反復を行う過程で経験再現セット601に含まれたサンプル数をN個に保持してもよい。学習装置は、学習のための反復を行う過程でN個のサンプルの品質を記録し、サンプルの品質及び現在反復で選択されたサンプルの品質に基づいて経験再現セット601を更新する。一実施形態によると、学習装置は、学習のための反復を行う過程で経験再現セット601に含まれたサンプル数を適応的に更新してもよい。学習装置は、サンプル数を更新することにおいて、品質、サンプルの分布、トレーニングエラー、トレーニングエラーの減少、トレーニングエラーの減少の差、及びニューラルネットワークの出力のうち少なくとも1つを考慮する。
図7は、一実施形態に係る学習装置の構成の例示図である。
図7を参照すると、学習装置701は、プロセッサ702及びメモリ703を含む。プロセッサ702は、図1ないし図6を参照して前述した少なくとも1つの装置を含んだり、図1ないし図6を参照して前述した少なくとも1つの方法を行う。メモリ703は、サンプルに関する情報を格納したり、学習方法が具現されたプログラムを格納する。メモリ703は、揮発性メモリ又は不揮発性メモリであってもよい。
プロセッサ702は、プログラムを実行して学習装置701を制御する。プロセッサ702によって実行されるプログラムのコードは、メモリ703に格納される。学習装置701は、入出力装置(図示せず)によって外部装置(例えば、パーソナルコンピュータ又はネットワーク)に接続され、データを交換する。
以上述した実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組合せで具現される。例えば、実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当該技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことが分かる。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、又はこれらのうちの1つ以上の組合せを含み、希望通りに動作するように処理装置を構成し、独立的又は結合的に処理装置に命令する。ソフトウェア及び/又はデータは、処理装置によって解釈され、処理装置に命令又はデータを提供するためのあらゆる類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、或いは送信される信号波を介して永久的又は一時的に具現化される。ソフトウェアは、ネットワークに接続されたコンピュータシステム上に分散され、分散された方法で格納されるか又は実行される。ソフトウェア及びデータは1つ以上のコンピュータ読み取り可能な記録媒体に格納される。
本実施形態による方法は、多様なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明の動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
上述したように実施形態をたとえ限定された図面によって説明したが、当技の術分野で通常の知識を有する者であれば、前記に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順に実行されたり、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられたり、他の構成要素又は均等物によって置き換えたり置換されても適切な結果を達成することができる。
したがって、他の具現、他の実施形態、及び請求範囲と均等なものも後述する請求範囲の範囲に属する。

Claims (33)

  1. ニューラルネットワークの学習のための現在反復が経験再現セットを用いる経験再現反復によって実行されるか否かを判断するステップと、
    前記判断結果に基づいて、前記経験再現セット及びトレーニングセットのうち少なくとも1つから少なくとも1つのサンプルを選択するステップと、
    前記選択されたサンプルに基づいて前記ニューラルネットワークを学習させるステップと、
    を含む、学習方法。
  2. 前記判断するステップは、前記学習のための反復のうち前記現在反復に対応する反復回数が予め定義された数の倍数であるか否かを判断するステップを含む、請求項1に記載の学習方法。
  3. 前記判断するステップは、前記学習のための反復のうち前記現在反復に対応する反復回数が予め定義された数の倍数及び予め定義された第2数の合計よりも小さいか否かを判断するステップを含む、請求項1に記載の学習方法。
  4. 前記判断するステップは、前記現在反復の以前反復に対応するトレーニングエラーの減少が閾値以下であるか否かを判断するステップを含む、請求項1に記載の学習方法。
  5. 前記判断するステップは、前記現在反復がバッチ方式を用いるか否かを判断するステップを含む、請求項1に記載の学習方法。
  6. 前記選択するステップは、前記現在反復が前記経験再現反復によって実行される場合、前記経験再現セットからいずれか1つのサンプルをランダムに選択するステップを含む、請求項1ないし5のうち何れか一項に記載の学習方法。
  7. 前記選択するステップは、
    前記現在反復が前記経験再現反復によって実行される場合、前記トレーニングセットからいずれか1つの第1サンプルをランダムに選択するステップと、
    前記ランダムに選択された第1サンプルと類似度の最も高い第2サンプルを前記経験再現セットから選択するステップと、
    を含む、請求項1ないし5のうち何れか一項に記載の学習方法。
  8. 前記類似度は、音響サンプルのトライフォンの分布に基づいて定義される、請求項7に記載の学習方法。
  9. 前記選択するステップは、前記現在反復が前記経験再現反復によって実行される場合、前記経験再現セットに含まれたサンプルの品質に基づいて前記経験再現セットからいずれか1つのサンプルを選択するステップを含む、請求項1ないし5のうち何れか一項に記載の学習方法。
  10. 前記選択するステップは、前記現在反復が前記経験再現反復によって実行され、前記経験再現反復が配置方式を用いる場合、前記経験再現セットからランダムに複数のサンプルを選択するステップを含む、請求項1ないし5のうち何れか一項に記載の学習方法。
  11. 前記選択するステップは、前記現在反復が前記経験再現反復によって実行され、前記経験再現反復が配置方式を用いる場合、前記経験再現セット及び前記トレーニングセットから予め定義された比率で複数のサンプルをランダムに選択するステップを含む、請求項1ないし5のうち何れか一項に記載の学習方法。
  12. 前記選択するステップは、
    前記現在反復が前記経験再現反復によって実行され、前記経験再現反復が配置方式を用いる場合、前記トレーニングセットから複数の第1サンプルをランダムに選択するステップと、
    前記経験再現セットから前記ランダムに選択された複数の第1サンプルと類似度の最も高い複数の第2サンプルを選択するステップと、
    を含む、請求項1ないし5のうち何れか一項に記載の学習方法。
  13. 前記選択するステップは、前記現在反復が前記経験再現反復によって実行され、前記経験再現反復が配置方式を用いる場合、前記経験再現セットに含まれたサンプルの品質に基づいて前記経験再現セットから複数のサンプルを選択するステップを含む、請求項1ないし5のうち何れか一項に記載の学習方法。
  14. 前記学習結果及び前記選択されたサンプルに基づいて、前記経験再現セットを更新するか否かを判断するステップをさらに含む、請求項1ないし5のうち何れか一項に記載の学習方法。
  15. 前記経験再現セットを更新するか否かを判断するステップは、
    前記経験再現セットに含まれたサンプルの分布で前記選択されたサンプルの少なくとも1つの確率と、
    前記選択されたサンプルに基づいて学習されたニューラルネットワークから取得された少なくとも1つの出力と、
    前記現在反復に対応するトレーニングエラーの減少と、
    前記現在反復の以前反復に対応するトレーニングエラーの減少と前記現在反復に対応するトレーニングエラーの減少との間の差と、
    のうち少なくとも1つに基づいて前記選択されたサンプルの少なくとも1つの品質を算出するステップを含む、請求項14に記載の学習方法。
  16. 前記経験再現セットを更新するか否かを判断するステップは、前記算出された品質を前記経験再現セットに含まれた前記サンプルの品質と比較するステップをさらに含む、請求項15に記載の学習方法。
  17. 前記比較結果に基づいて、前記算出された品質より低い品質に対応する少なくとも1つのサンプルを前記選択されたサンプルに代替するステップをさらに含む、請求項16に記載の学習方法。
  18. 前記経験再現セットを更新するか否かを判断するステップは、前記算出された品質を閾値と比較するステップをさらに含む、請求項15に記載の学習方法。
  19. 前記比較結果に基づいて、前記選択されたサンプルを前記経験再現セットに追加するステップをさらに含む、請求項18に記載の学習方法。
  20. 前記品質が前記差に基づいて算出された場合、前記現在反復に対応する反復回数が大きくなるほど前記閾値は小さくなる、請求項18に記載の学習方法。
  21. 前記品質が前記出力に基づいて算出された場合、前記現在反復に対応する反復回数が大きくなるほど前記閾値は大きくなる、請求項18に記載の学習方法。
  22. 前記経験再現セットは、予め定義された環境で録音された音響サンプル及びトライフォンの分布が予め定義された基準に均等に分布した音響サンプルのうち少なくとも1つを含む、請求項1に記載の学習方法。
  23. ニューラルネットワークの学習のための現在反復において、経験再現セット及びトレーニングセットのうち少なくとも1つから選択された少なくとも1つのサンプルに基づいて前記ニューラルネットワークを学習させるステップと、
    前記学習結果及び前記選択されたサンプルに基づいて前記経験再現セットを更新するか否かを判断するステップと、
    前記判断結果に基づいて前記経験再現セットを更新するステップと、
    を含む、学習方法。
  24. 前記判断するステップは、
    前記経験再現セットに含まれたサンプルの分布で前記選択されたサンプルの少なくとも1つの確率と、
    前記選択されたサンプルに基づいて学習されたニューラルネットワークから取得された少なくとも1つの出力と、
    前記現在反復に対応するトレーニングエラーの減少と、
    前記現在反復の以前反復に対応するトレーニングエラーの減少と前記現在反復に対応するトレーニングエラーの減少との間の差と、
    のうち少なくとも1つに基づいて前記選択されたサンプルの少なくとも1つの品質を算出するステップを含む、請求項23に記載の学習方法。
  25. 前記判断するステップは、前記算出された品質を前記経験再現セットに含まれた前記サンプルの品質と比較するステップをさらに含み、
    前記更新するステップは、前記比較結果に基づいて前記算出された品質より低い品質に対応する少なくとも1つのサンプルを前記選択されたサンプルに代替するステップをさらに含む、請求項24に記載の学習方法。
  26. 前記判断するステップは、前記算出された品質を閾値と比較するステップをさらに含み、
    前記更新するステップは、前記比較結果に基づいて前記選択されたサンプルを前記経験再現セットに追加するステップをさらに含む、請求項24に記載の学習方法。
  27. 前記品質が前記差に基づいて算出された場合、前記現在反復に対応する反復回数が大きくなるほど前記閾値は小さくなる、請求項26に記載の学習方法。
  28. 前記品質が前記出力に基づいて算出された場合、前記現在反復に対応する反復回数が大きくなるほど前記閾値は大きくなる、請求項26に記載の学習方法。
  29. 前記学習させるステップは、前記現在反復が前記経験再現セットを用いる経験再現反復によって実行されるか否かを判断するステップを含む、請求項23に記載の学習方法。
  30. 請求項1ないし請求項29のうちいずれか一項に記載の学習方法を学習装置のコンピュータに実行させるコンピュータプログラム。
  31. 請求項30に記載のコンピュータプログラムを保存する記憶媒体。
  32. ニューラルネットワークの学習のための現在反復が経験再現セットを用いる経験再現反復によって実行されるか否かを判断し、
    前記判断結果に基づいて、前記経験再現セット及びトレーニングセットのうち少なくとも1つから少なくとも1つのサンプルを選択し、
    前記選択されたサンプルに基づいて前記ニューラルネットワークを学習させるプロセッサを含む、学習装置。
  33. ニューラルネットワークの学習のための現在反復において、経験再現セット及びトレーニングセットのうち少なくとも1つから選択された少なくとも1つのサンプルに基づいて前記ニューラルネットワークを学習させ、
    前記学習結果及び前記選択されたサンプルに基づいて前記経験再現セットを更新するか否かを判断し、
    前記判断結果に基づいて前記経験再現セットを更新するプロセッサを含む、学習装置。
JP2017245279A 2017-03-23 2017-12-21 音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体 Active JP7055630B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0036909 2017-03-23
KR1020170036909A KR102399535B1 (ko) 2017-03-23 2017-03-23 음성 인식을 위한 학습 방법 및 장치

Publications (2)

Publication Number Publication Date
JP2018160234A true JP2018160234A (ja) 2018-10-11
JP7055630B2 JP7055630B2 (ja) 2022-04-18

Family

ID=60301805

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017245279A Active JP7055630B2 (ja) 2017-03-23 2017-12-21 音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体

Country Status (5)

Country Link
US (1) US10540958B2 (ja)
EP (1) EP3379531A1 (ja)
JP (1) JP7055630B2 (ja)
KR (1) KR102399535B1 (ja)
CN (1) CN108630197B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305619B (zh) * 2017-03-10 2020-08-04 腾讯科技(深圳)有限公司 语音数据集训练方法和装置
EP3707703A1 (en) * 2018-11-28 2020-09-16 Google LLC. Training and/or using a language selection model for automatically determining language for speech recognition of spoken utterance
CN110033089B (zh) * 2019-04-17 2021-03-26 山东大学 基于分布式估计算法的手写体数字图像识别深度神经网络参数优化方法及系统
CN109979257B (zh) * 2019-04-27 2021-01-08 深圳市数字星河科技有限公司 一种基于英语朗读自动打分进行分拆运算精准矫正的方法
US11335347B2 (en) * 2019-06-03 2022-05-17 Amazon Technologies, Inc. Multiple classifications of audio data
CN110556100B (zh) * 2019-09-10 2021-09-17 思必驰科技股份有限公司 端到端语音识别模型的训练方法及系统
CN111291657B (zh) * 2020-01-21 2022-09-16 同济大学 一种基于难例挖掘的人群计数模型训练方法及应用
CN111951789B (zh) * 2020-08-14 2021-08-17 北京达佳互联信息技术有限公司 语音识别模型的训练、语音识别方法、装置、设备及介质
CN111933121B (zh) * 2020-08-31 2024-03-12 广州市百果园信息技术有限公司 一种声学模型训练方法及装置
CN112420050B (zh) * 2020-11-18 2021-06-18 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备
CN113344056B (zh) * 2021-05-31 2022-11-22 北京邮电大学 一种人员移动性预测模型的训练方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0895939A (ja) * 1994-09-28 1996-04-12 Nippon Telegr & Teleph Corp <Ntt> 時系列データの学習方法及び時系列データの学習装置
JPH10326265A (ja) * 1997-05-23 1998-12-08 Sony Corp 学習方法および装置、並びに記録媒体

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7058617B1 (en) * 1996-05-06 2006-06-06 Pavilion Technologies, Inc. Method and apparatus for training a system model with gain constraints
EP1065601A1 (en) * 1999-07-02 2001-01-03 BRITISH TELECOMMUNICATIONS public limited company Training process
IES20020063A2 (en) * 2001-01-31 2002-08-07 Predictions Dynamics Ltd Neutral network training
US7194320B2 (en) * 2003-06-05 2007-03-20 Neuco, Inc. Method for implementing indirect controller
US7469209B2 (en) * 2003-08-14 2008-12-23 Dilithium Networks Pty Ltd. Method and apparatus for frame classification and rate determination in voice transcoders for telecommunications
US7295700B2 (en) 2003-10-24 2007-11-13 Adobe Systems Incorporated Object extraction based on color and visual texture
US7245250B1 (en) * 2005-08-16 2007-07-17 Itt Manufacturing Enterprises, Inc. Synthetic aperture radar image compression
US8510242B2 (en) * 2007-08-31 2013-08-13 Saudi Arabian Oil Company Artificial neural network models for determining relative permeability of hydrocarbon reservoirs
CN101334998A (zh) * 2008-08-07 2008-12-31 上海交通大学 基于异类模型区分性融合的汉语语音识别系统
KR101780760B1 (ko) 2011-06-30 2017-10-10 구글 인코포레이티드 가변길이 문맥을 이용한 음성인식
US20130090926A1 (en) 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
HUE030528T2 (en) 2012-03-15 2017-05-29 Cortical Io Gmbh Process, equipment and product for semantic processing of texts
US9202464B1 (en) 2012-10-18 2015-12-01 Google Inc. Curriculum learning for speech recognition
US9508347B2 (en) * 2013-07-10 2016-11-29 Tencent Technology (Shenzhen) Company Limited Method and device for parallel processing in model training
US9679258B2 (en) * 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
US9730643B2 (en) * 2013-10-17 2017-08-15 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
WO2015130928A1 (en) * 2014-02-26 2015-09-03 Nancy Packes, Inc. Real estate evaluating platform methods, apparatuses, and media
US10127927B2 (en) 2014-07-28 2018-11-13 Sony Interactive Entertainment Inc. Emotional speech processing
EP3192012A4 (en) * 2014-09-12 2018-01-17 Microsoft Technology Licensing, LLC Learning student dnn via output distribution
CN105636197B (zh) * 2014-11-06 2019-04-26 株式会社理光 距离估计方法和装置、以及节点定位方法和设备
KR102167719B1 (ko) * 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
US10445641B2 (en) * 2015-02-06 2019-10-15 Deepmind Technologies Limited Distributed training of reinforcement learning systems
CA2984311A1 (en) * 2015-05-05 2016-11-10 Retailmenot, Inc. Scalable complex event processing with probabilistic machine learning models to predict subsequent geolocations
US9734436B2 (en) * 2015-06-05 2017-08-15 At&T Intellectual Property I, L.P. Hash codes for images
WO2017019555A1 (en) * 2015-07-24 2017-02-02 Google Inc. Continuous control with deep reinforcement learning
KR102140672B1 (ko) * 2015-09-11 2020-08-03 구글 엘엘씨 트레이닝 증강 학습 신경 네트워크
US9792531B2 (en) * 2015-09-16 2017-10-17 Siemens Healthcare Gmbh Intelligent multi-scale medical image landmark detection
KR20170036909A (ko) 2015-09-24 2017-04-04 푸시맨 주식회사 푸시 메시지 발송 장치
CN117910545A (zh) * 2015-11-12 2024-04-19 渊慧科技有限公司 使用优先化经验存储器训练神经网络
JP6679898B2 (ja) * 2015-11-24 2020-04-15 富士通株式会社 キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム
US11042798B2 (en) * 2016-02-04 2021-06-22 Adobe Inc. Regularized iterative collaborative feature learning from web and user behavior data
CN109479110A (zh) * 2016-03-08 2019-03-15 优确诺股份有限公司 动态创建个人化锻炼视频的系统和方法
CN105955921B (zh) * 2016-04-18 2019-03-26 苏州大学 基于自动发现抽象动作的机器人分层强化学习初始化方法
JP2019518273A (ja) * 2016-04-27 2019-06-27 ニューララ インコーポレイテッド 深層ニューラルネットワークベースのq学習の経験メモリをプルーニングする方法及び装置
US10204097B2 (en) * 2016-08-16 2019-02-12 Microsoft Technology Licensing, Llc Efficient dialogue policy learning
US10671908B2 (en) * 2016-11-23 2020-06-02 Microsoft Technology Licensing, Llc Differential recurrent neural network

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0895939A (ja) * 1994-09-28 1996-04-12 Nippon Telegr & Teleph Corp <Ntt> 時系列データの学習方法及び時系列データの学習装置
JPH10326265A (ja) * 1997-05-23 1998-12-08 Sony Corp 学習方法および装置、並びに記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WEIXIN YANG, ET AL.: "DropSample: A new training method to enhance deep convolutional neural networks for large-scale unco", ARXIV [ONLINE], JPN6021048316, 2015, pages 1 - 18, ISSN: 0004655980 *

Also Published As

Publication number Publication date
EP3379531A1 (en) 2018-09-26
US10540958B2 (en) 2020-01-21
CN108630197B (zh) 2023-10-31
US20180277098A1 (en) 2018-09-27
KR20180107940A (ko) 2018-10-04
JP7055630B2 (ja) 2022-04-18
KR102399535B1 (ko) 2022-05-19
CN108630197A (zh) 2018-10-09

Similar Documents

Publication Publication Date Title
JP7055630B2 (ja) 音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体
CN110546656B (zh) 前馈生成式神经网络
US20200320977A1 (en) Speech recognition method and apparatus
CN110556100B (zh) 端到端语音识别模型的训练方法及系统
CN113544703B (zh) 高效的离策略信用分配
CN105679317B (zh) 用于训练语言模型并识别语音的方法和设备
US9984683B2 (en) Automatic speech recognition using multi-dimensional models
JP4545456B2 (ja) 最適区画の分類神経網の構成方法、最適区画の分類神経網を用いた自動ラベリング方法、並びに装置
US11853893B2 (en) Execution of a genetic algorithm having variable epoch size with selective execution of a training algorithm
US9202464B1 (en) Curriculum learning for speech recognition
WO2016181951A1 (ja) リカレント型ニューラルネットワークの学習方法及びそのためのコンピュータプログラム、並びに音声認識装置
WO2020226778A1 (en) On-device custom wake word detection
JP7218601B2 (ja) 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム
CN109754789A (zh) 语音音素的识别方法及装置
JP2018159917A (ja) 音響モデルをトレーニングする方法及び装置
Sivasankaran et al. Discriminative importance weighting of augmented training data for acoustic model training
Gao et al. Distilling knowledge from ensembles of acoustic models for joint CTC-attention end-to-end speech recognition
GB2607133A (en) Knowledge distillation using deep clustering
US8438029B1 (en) Confidence tying for unsupervised synthetic speech adaptation
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP2020126141A (ja) 音響モデル学習装置、音響モデル学習方法、プログラム
JP2004117503A (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
US11443748B2 (en) Metric learning of speaker diarization
JP2019078857A (ja) 音響モデルの学習方法及びコンピュータプログラム
JP7359028B2 (ja) 学習装置、学習方法、および、学習プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201211

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220406

R150 Certificate of patent or registration of utility model

Ref document number: 7055630

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150