JP2018160234A

JP2018160234A - 音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体

Info

Publication number: JP2018160234A
Application number: JP2017245279A
Authority: JP
Inventors: 允泓閔; Yun Hong Min
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-03-23
Filing date: 2017-12-21
Publication date: 2018-10-11
Anticipated expiration: 2037-12-21
Also published as: CN108630197A; US10540958B2; EP3379531A1; KR102399535B1; US20180277098A1; CN108630197B; JP7055630B2; KR20180107940A

Abstract

【課題】学習方法及び装置が開示される。
【解決手段】一実施形態に係る学習装置はニューラルネットワークの学習のための現在反復が経験再現セットを用いる経験再現反復によって実行されるか否かを判断し、判断結果に基づいて、経験再現セット及びトレーニングセットのうち少なくとも１つから少なくとも１つのサンプルを選択し、選択されたサンプルに基づいてニューラルネットワークを学習させ得る。
【選択図】図１

Description

以下の実施形態は音声認識のための学習技術に関する。

音声認識システムで用いられる音響モデルは、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）及びＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）のハイブリッド形態に具現されても良い。最近では、ディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）方式が商用化され、ニューラルネットワークに基づく音響モデルが主に使用されている。

ニューラルネットワークに基づく音響モデルを学習させることにおいて、様々な方式が提案されている。音響モデルの初期モデルから学習が完了したモデルまで収斂する速度を学習速度というが、このような学習速度を高めて学習の正確度及び効率を改善できる学習方式が求められている。

本発明の目的は、音声認識のための学習技術を提供することにある。

一実施形態に係る学習方法は、ニューラルネットワークの学習のための現在反復が経験再現セットを用いる経験再現反復によって実行されるか否かを判断するステップと、前記判断結果に基づいて、前記経験再現セット及びトレーニングセットのうち少なくとも１つから少なくとも１つのサンプルを選択するステップと、前記選択されたサンプルに基づいて前記ニューラルネットワークを学習させるステップとを含む。

一実施形態によると、前記判断するステップは、前記学習のための反復のうち前記現在反復に対応する反復回数が予め定義された数の倍数であるか否かを判断するステップを含み得る。

一実施形態によると、前記判断するステップは、前記学習のための反復のうち前記現在反復に対応する反復回数が予め定義された数の倍数及び予め定義された第２数の合計よりも小さいか否かを判断するステップを含み得る。

一実施形態によると、前記判断するステップは、前記現在反復の以前反復に対応するトレーニングエラーの減少が閾値以下であるか否かを判断するステップを含み得る。

一実施形態によると、前記判断するステップは、前記現在反復がバッチ方式を用いるか否かを判断するステップを含み得る。

一実施形態によると、前記選択するステップは、前記現在反復が前記経験再現反復によって実行される場合、前記経験再現セットからいずれか１つのサンプルをランダムに選択するステップを含み得る。

一実施形態によると、前記選択するステップは、前記現在反復が前記経験再現反復によって実行される場合、前記トレーニングセットからいずれか１つの第１サンプルをランダムに選択するステップと、前記ランダムに選択された第１サンプルと類似度の最も高い第２サンプルを前記経験再現セットから選択するステップとを含み得る。

一実施形態によると、前記類似度は、音響サンプルのトライフォンの分布に基づいて定義され得る。

一実施形態によると、前記選択するステップは、前記現在反復が前記経験再現反復によって実行される場合、前記経験再現セットに含まれたサンプルの品質に基づいて前記経験再現セットからいずれか１つのサンプルを選択するステップを含み得る。

一実施形態によると、前記選択するステップは、前記現在反復が前記経験再現反復によって実行され、前記経験再現反復が配置方式を用いる場合、前記経験再現セットからランダムに複数のサンプルを選択するステップを含み得る。

一実施形態によると、前記選択するステップは、前記現在反復が前記経験再現反復によって実行され、前記経験再現反復が配置方式を用いる場合、前記経験再現セット及び前記トレーニングセットから予め定義された比率で複数のサンプルをランダムに選択するステップを含み得る。

一実施形態によると、前記選択するステップは、前記現在反復が前記経験再現反復によって実行され、前記経験再現反復が配置方式を用いる場合、前記トレーニングセットから複数の第１サンプルをランダムに選択するステップと、前記経験再現セットから前記ランダムに選択された複数の第１サンプルと類似度の最も高い複数の第２サンプルを選択するステップとを含み得る。

一実施形態によると、前記選択するステップは、前記現在反復が前記経験再現反復によって実行され、前記経験再現反復が配置方式を用いる場合、前記経験再現セットに含まれたサンプルの品質に基づいて前記経験再現セットから複数のサンプルを選択するステップを含み得る。

一実施形態に係る学習方法は、前記学習結果及び前記選択されたサンプルに基づいて、前記経験再現セットを更新するか否かを判断するステップをさらに含み得る。

一実施形態によると、前記経験再現セットを更新するか否かを判断するステップは、前記経験再現セットに含まれたサンプルの分布で前記選択されたサンプルの少なくとも１つの確率と、前記選択されたサンプルに基づいて学習されたニューラルネットワークから取得された少なくとも１つの出力と、前記現在反復に対応するトレーニングエラーの減少と、前記現在反復の以前反復に対応するトレーニングエラーの減少と前記現在反復に対応するトレーニングエラーの減少との間の差とのうち少なくとも１つに基づいて前記選択されたサンプルの少なくとも１つの品質を算出するステップを含み得る。

一実施形態によると、前記経験再現セットを更新するか否かを判断するステップは、前記算出された品質を前記経験再現セットに含まれた前記サンプルの品質と比較するステップをさらに含み得る。

一実施形態によると、前記比較結果に基づいて、前記算出された品質より低い品質に対応する少なくとも１つのサンプルを前記選択されたサンプルに代替するステップをさらに含み得る。

一実施形態によると、前記経験再現セットを更新するか否かを判断するステップは、前記算出された品質を閾値と比較するステップをさらに含み得る。

一実施形態によると、前記比較結果に基づいて、前記選択されたサンプルを前記経験再現セットに追加するステップをさらに含み得る。

一実施形態によると、前記品質が前記差に基づいて算出された場合、前記現在反復に対応する反復回数が大きくなるほど前記閾値は小さくなる。

一実施形態によると、前記品質が前記出力に基づいて算出された場合、前記現在反復に対応する反復回数が大きくなるほど前記閾値は大きくなる。

一実施形態によると、前記経験再現セットは、予め定義された環境で録音された音響サンプル及びトライフォンの分布が予め定義された基準に均等に分布した音響サンプルのうち少なくとも１つを含み得る。

一実施形態に係る学習方法は、ニューラルネットワークの学習のための現在反復において、経験再現セット及びトレーニングセットのうち少なくとも１つから選択された少なくとも１つのサンプルに基づいて前記ニューラルネットワークを学習させるステップと、前記学習結果及び前記選択されたサンプルに基づいて前記経験再現セットを更新するか否かを判断するステップと、前記判断結果に基づいて前記経験再現セットを更新するステップとを含む。

一実施形態に係る学習装置は、ニューラルネットワークの学習のための現在反復が経験再現セットを用いる経験再現反復によって実行されるか否かを判断し、前記判断結果に基づいて、前記経験再現セット及びトレーニングセットのうち少なくとも１つから少なくとも１つのサンプルを選択し、前記選択されたサンプルに基づいて前記ニューラルネットワークを学習させるプロセッサを含む。

一実施形態に係る学習装置は、ニューラルネットワークの学習のための現在反復において、経験再現セット及びトレーニングセットのうち少なくとも１つから選択された少なくとも１つのサンプルに基づいて前記ニューラルネットワークを学習させ、前記学習結果及び前記選択されたサンプルに基づいて前記経験再現セットを更新するか否かを判断し、前記判断結果に基づいて前記経験再現セットを更新するプロセッサを含む。

本発明によると、音声認識のための学習技術を提供することができる。

一実施形態に係る学習方法を説明するためのフローチャートである。一実施形態に係る学習方法を説明するための概念図である。一実施形態に係る現在反復の学習過程を説明するためのフローチャートである。一実施形態に経験再現セットを説明するための図である。一実施形態に経験再現セットを説明するための図である。一実施形態に経験再現セットを説明するための図である。一実施形態に係る経験再現セットを説明するための図である。一実施形態に係る経験再現セットを説明するための図である。一実施形態に係る学習装置の構成の例示図である。

本明細書で開示されている特定の構造的又は機能的説明は単に実施形態を説明するための目的として例示されたものである。したがって、実施形態に対する特定の構造的又は機能的説明は、単に例示のための目的として開示されたものであり、様々な形態に変更されて実施され得る。したがって、実施形態は、特定の開示形態で限定されることなく、本明細書の範囲は技術的な思想に含まれる変更、均等物、又は代替物を含む。

第１又は第２などの用語を複数の構成要素を説明するために用いることができるが、このような用語は１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に第２構成要素は第１構成要素にも命名することができる。

いずれかの構成要素が他の構成要素に「連結されて」いると言及された場合、その次の構成要素に直接的に連結されてもよく、又は中間に他の構成要素が存在することもあり得ると理解されなければならない。一方いずれかの構成要素が他の構成要素に「直接連結されて」いるか「直接接続されて」いと言及される場合には、中間に他の構成要素が存在しないものとして理解されなければならない。構成要素間の関係を説明する表現、例えば「〜間に」と「すぐ〜の間に」、又は「〜に隣接する」と「〜に直接に隣接する」などのように解釈されなければならない。

本明細書で用いた用語は、単に特定の実施形態を説明するために用いられるものであって、本発明を限定しようとする意図はない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なるように定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

以下、実施形態を添付する図面を参照しながら詳細に説明する。しかし、特許出願の範囲がこのような実施形態によって制限されたり限定されることはない。各図面に提示された同一の参照符号は同一の部材を示す。

図１は、一実施形態に係る学習方法を説明するためのフローチャートである。

図１を参照すると、一実施形態に係る学習装置は、ニューラルネットワークの学習のための現在反復（ｃｕｒｒｅｎｔｉｔｅｒａｔｉｏｎ）が経験再現セット（ｅｘｐｅｒｉｅｎｃｅｒｅｌａｙｓｅｔ）を用いる経験再現反復（ｅｘｐｅｒｉｅｎｃｅｒｅｐｌａｙｉｔｅｒａｔｉｏｎ）によって実行されるか否かを判断する（Ｓ１０１）。学習装置は、認識装置を学習させる装置として、ソフトウェアモジュール、ハードウェアモジュール、又はその組合せで実現する。例えば、学習装置は、音声認識システムを構築するとき用いられる音響モデル、言語モデル又は端対端（ｅｎｄ−ｔｏ−ｅｎｄ）音声認識モデルを学習させることができる。音響モデルは、音声認識（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ；ＡＳＲ）で用いられるモデルとして、音声の信号的な特性と言語要素との間の関係を処理できるが、例えば、音声信号の発音を推定することができる。音響モデルと区別される概念である言語モデルは、単語又は文章が文法的又は意味的にある程度正しいかを推定するモデルであって、音声認識システムは、音響モデルと言語モデルが結合された形態に実現する。端対端音声認識モデルは、音声認識システム内の音響モデルと言語モデルが統合して音声信号から単語又は文章が直接的に推定される形態に実現する。

音響モデルは、音声認識器がインストールされた様々な類型の装置（スマートフォン、スマートＴＶ、スマート自動車、ウェアラブル装置など）又はサーバに採用される。ディープラーニングに基づいて設計された音響モデルは、複数のサンプルによって学習される。例えば、ニューラルネットワークに基づく音響モデルは、複数の音声信号、音声特徴、フレームごとの単音（ｐｈｏｎｅ）（又は、ｓｅｎｏｎｅ）によって学習される。以下、説明される学習方法は、音響モデルの学習に適用され得る。ただし、学習方法の実施形態は、音声認識システム又はニューラルネットワークに基づく認識装置に限定されて適用される必要がなく、様々な類型のモデル又は装置に採用されて応用する。

一実施形態に係る学習装置は、ニューラルネットワークの学習のために複数の反復（ｉｔｅｒａｔｉｏｎｓ）を実行することができ、複数の反復のうち少なくとも一部を経験再現反復を用いて行う。学習装置は、学習させようとするニューラルネットワークにサンプルを入力し、ニューラルネットワークを更新する過程を繰り返し行うが、例えば、ニューラルネットワークを構成するノード間の加重値を最適化する方式によりニューラルネットワークを学習させることができる。

ここで、反復とは、学習によって実行される反復のうちいずれか１つであって、例えば、ニューラルネットワークを繰り返し更新又は最適化するステップのうち少なくとも１つの特定サンプルにニューラルネットワークを更新又は最適化するステップの単位を意味する。学習装置は、少なくとも１つの第１サンプルを用いて第１反復を行い、第１反復を完了した後少なくとも１つの第２サンプルを用いて第２反復を行う。学習装置は、反復を行って全ての反復を完了しニューラルネットワークを学習させ得る。反復の回数は、設計意図に応じて多様に定義される。例えば、反復の回数は、予め定義された数、予め定義された条件、サンプル数、反復に対応するトレーニングエラー、以前反復のトレーニングエラー、及び現在反復のトレーニングエラーの間の差などに基づいて定義されるが、これに制限されることなく、様々な基準又は政策が採用される。

また、経験再現反復とは、反復のうち経験再現セットに基づいて実行される反復を意味する。学習装置は、複数のサンプルを用いて学習のための反復を行うが、このようなサンプルのうち一部を経験再現セットに別途管理し、経験再現反復時に経験再現セットを用いることができる。学習装置は、学習に用いられるサンプルのうち学習に有効な少なくとも１つのサンプルを選別して格納し、格納されたサンプルを用いて経験再現セットを構成する。経験再現セットは、経験再現反復を行うために別途に管理されるサンプルの集合である。

サンプルは、音響モデルを学習させるためのデータとして、トレーニングサンプルのように称される。サンプルは、音声信号、音声信号を前処理したデータ、音声信号の特徴、又は特徴ベクトル、音声信号のフレームごとの単音（ｐｈｏｎｅ）（又は、ｓｅｎｏｎｅ）など様々な形態に実現され、実施形態は、サンプルの類型を制限しない。音声信号のサンプルは、単語、音素、形態素、発音記号単位、句、節、文章、及び段落など、設計意図に応じて様々な形態に定義又は設計され、実施形態はサンプルが含蓄する情報の類型を制限しない。

学習装置は、神経科学及び認知科学で人の学習過程のモデルのうちの１つである経験再現による学習モデルを模写し、機械学習に適用する。上述したように、学習装置は、学習に有効なものとして判断されるサンプルを経験再現セットに別途管理し、学習する過程に経験再現セットを定期的又は非定期的に採用して学習の速度及び正確度を高めることができる。

学習装置は、学習のための反復を行う前に、少なくとも１つの反復が経験再現反復によって実行されるか否かを判断したり、各反復を行う前に、各反復が経験再現反復によって実行されるか否かを判断する。現在反復が経験再現反復によって実行されるか否かを判断する具体的な実施形態については、図３を参照して後述する。

学習装置は、判断結果に基づいてサンプルを選択する（Ｓ１０２）。例えば、学習装置は、経験再現セット又はトレーニングセットから１つ又はそれ以上のサンプルを選択する。又は、学習装置は、経験再現セットから１つ又はそれ以上のサンプルを選択し、トレーニングセットから１つ又はそれ以上のサンプルを選択する。

学習装置は、選択されたサンプルに基づいてニューラルネットワークを学習させる（Ｓ１０３）。例えば、学習装置は、経験再現セットを用いて経験再現反復を行う。学習に活用されるサンプルは、経験再現セットに含まれたサンプル及びトレーニングセットに含まれたサンプルから構成され、ここで、トレーニングセットは、全体サンプルのうち経験再現セットに含まれたサンプルを除いた残りサンプルの集合である。学習装置は、経験再現反復を行うためにニューラルネットワークから入力される少なくとも１つのサンプルを構成できるが、ここで、構成される少なくとも１つのサンプルに経験再現セットに含まれた少なくとも１つのサンプルを含ませてもよい。したがって、経験再現反復は、ニューラルネットワークから入力される少なくとも１つのサンプルに経験再現セットに含まれたサンプルを含ませて行う反復を意味する。

実施形態によって、学習装置は、経験再現セットを更新するか否かを判断し、経験再現セットを更新する。例えば、学習装置は、学習のための反復を行う過程で経験再現セットを更新し、更新された経験再現セットを用いて今後反復を行う。経験再現セットの更新に関連するより具体的な事項については後述する。

図２は、一実施形態に係る学習方法を説明するための概念図である。図２を参照すると、学習装置は、経験再現セット２０１及びトレーニングセット２０２に含まれたサンプルのうち少なくとも１つを用いてニューラルネットワーク２０４を学習させることができる。

より具体的に、学習装置は、現在反復が経験再現反復によって実行されるか否かの判断結果に基づいて、経験再現セット２０１及びトレーニングセット２０２のうち少なくとも１つから少なくとも１つのサンプルを選択する。上述したように、現在反復が経験再現反復に該当する場合、学習装置は、全体サンプルのうち現在反復のためのサンプル選択時に経験再現セット２０１から少なくとも１つのサンプルを選択する。例えば、学習装置は、経験再現反復時に経験再現セット２０１からサンプルＳ１を選択してもよい。

一実施形態によると、学習装置は、現在反復時にニューラルネットワーク２０４に入力するためのサンプルを複数構成し得るが、複数のサンプルを用いて単一反復を行う方式をバッチ方式と称する。ここで、学習装置は、現在反復が配置方式を用いるか否かを判断する。学習装置は、現在反復が配置方式を用いる場合、ニューラルネットワーク２０４に入力するための複数のサンプルの集合である配置２０３を生成する。学習装置は、経験再現セット２０１及び／又はトレーニングセット２０２から選択された１つ又はそれ以上のサンプルを用いて配置２０３を生成する。

学習装置は、現在反復が経験再現反復であるか否か及び配置方式を用いるか否かに応じて、ニューラルネットワーク２０４に入力するための少なくとも１つのサンプルを全体サンプルから適応的に選択できる。

例えば、現在反復が経験再現反復に該当しながら配置方式を用いる場合（即ち、現在反復が経験再現反復に該当し、かつ、複数のサンプルを組み合わせる方式を用いる場合）、学習装置は、経験再現セット２０１から選択されたサンプルのみを用いて配置２０３を生成する。又は、学習装置は、経験再現セット２０１から選択されたサンプルとトレーニングセット２０２から選択されたサンプルとを共に用いて配置２０３を生成してもよい。

現在反復が経験再現反復に該当しながら配置方式を利用しない場合、学習装置は、ニューラルネットワーク２０４に入力するための単一のサンプルを経験再現セット２０１から選択する。

現在反復が経験再現反復に該当しないが配置方式を用いる場合、学習装置は、トレーニングセット２０２から選択されたサンプルのみを用いて配置２０３を生成する。また、現在反復が経験再現反復に該当しないが配置方式を利用しない場合、学習装置は、トレーニングセット２０２からいずれか１つのサンプルを選択する。

学習装置は、経験再現セット２０１及びトレーニングセット２０２のうち少なくとも１つから選択された少なくとも１つのサンプルに基づいてニューラルネットワーク２０４を学習させ得る。一実施形態によると、学習装置は、現在反復時に様々な類型の方式を採用してニューラルネットワークを学習させ得る。例えば、学習装置は、ＳＧＤ（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）方式を用いてニューラルネットワークを学習させ、ＳＧＤ方式を用いるとき単一サンプル又はサンプルの集合である配置単位でニューラルネットワークを学習させ得る。

一例として、単一サンプルが用いられる場合、学習装置は、サンプルのレーベルとニューラルネットワーク２０４の出力に基づいたＳＧＤ方式を用いてもよい。

異なる例として、配置方式が用いられる場合、学習装置は、サンプルのレーベル又は配置に対応するレーベルとニューラルネットワーク２０４の出力に基づいたＳＧＤ方式を用いてもよい。ここで、ＳＧＤ方式は、配置に対応する出力を利用し、このようなＳＧＤ方式には、ミニ−バッチ（ｍｉｎｉ−ｂａｔｃｈ）ＳＧＤ方式が採用される。学習装置は、選択されたサンプルＳ_１及びＳ_２で構成された配置２０３に基づいてニューラルネットワーク２０４を学習させ得る。学習装置は、複数の出力及び複数のレーベルによって設計された損失関数を用いることができる。配置方式の利用時に採用される損失関数は、設計意図に応じて多様に応用され、配置単位のレーベルと配置単位の出力によって設計され得る。

例えば、学習装置は、配置２０３に含まれたサンプルＳ_１及びＳ_２をニューラルネットワーク２０４に入力し、ニューラルネットワーク２０４の出力とサンプルＳ_１及びＳ_２のレーベルに基づいてトレーニングエラーを算出する。学習装置は、予め定義された損失関数を用いてトレーニングエラーを算出する。損失関数は、レーベル、出力、及びパラメータを入力変数として予め定義され、ここで、パラメータは、ニューラルネットワーク２０４内の加重値によって設定される。例えば、損失関数は、ＭＳＥ（ＭｅａｎＳｑｕａｒｅＥｒｒｏｒ）形態、エントロピー（ｅｎｔｒｏｐｙ）形態などに設計されるが、損失関数が設計される実施形態には様々な方式又は方式が採用され得る。

一実施形態によると、学習装置は、学習結果及び選択されたサンプルに基づいて経験再現セット２０１を更新するか否かを判断する。学習装置は、現在反復を完了する前に経験再現セット２０１を更新するか否かを判断する。経験再現セット２０１を更新することは、経験再現セット２０１に含まれたサンプルの組合せを更新することを意味し、例えば、学習装置は、経験再現セット２０１に含まれたサンプルを新しいサンプルに代替したり、経験再現セット２０１に新しいサンプルを追加する。例えば、学習装置は、現在反復である経験再現反復の学習結果に基づいて、サンプルＳ_１及びＳ_２のうち、Ｓ_２を経験再現セット２０１内のサンプルＳ_３に代替してもよい。一実施形態によると、学習装置は、Ｓ_２の品質とＳ_３の品質とを比較したり、Ｓ_２の品質と閾値を比較し、比較結果に応じてＳ_３をＳ_２に代替してもよい。

学習装置は、Ｓ_１を経験再現セット２０１内に含まれるよう保持する。学習装置は、経験再現セット２０１からＳ_１を選択し、Ｓ_１を経験再現セット２０１から除外し、学習結果に基づいてＳ_１を再び経験再現セット２０１に追加するか否かを判断する。又は、学習装置は、Ｓ_１を選択しＳ_１を経験再現セット２０１内に含まれるよう保持し、学習結果に基づいてＳ_１を経験再現セット２０１内に含まれるよう保持するか否か、又は、経験再現セット２０１から除外するか否かを判断する。該当の反復時点に経験再現セット２０１から選択されたサンプルが経験再現セット２０１から除外されるか否かは、設計意図に応じて設定され、実施形態はこれに制限されることはない。学習装置は、サンプルに対応する品質を用いて経験再現セット２０１を更新するが、経験再現セット２０１を更新する条件、基準、方式、又は政策に関する詳細な実施形態については後述する。

学習装置は、経験再現セット２０１を更新するか否かの判断結果に基づいて、経験再現セット２０１を更新する。学習装置は、経験再現セット２０１を更新すると判断された場合、現在反復に利用された少なくとも１つのサンプル及び少なくとも１つの品質に基づいて経験再現セット２０１を更新するが、経験再現セット２０１の更新及びサンプルの品質に関する実施形態については後述する。

図３は、一実施形態に係る現在反復の学習過程を説明するためのフローチャートである。

図３を参照すると、学習装置は、学習のためのｋ番目の反復を開始する（Ｓ３０１）。ここで、ｋ番目は、学習装置によって実行される反復のうち現在反復の回数又は順序を意味する。

学習装置は、現在反復が経験再現反復によって実行されるか否かを判断する（Ｓ３０２）。一実施形態によると、学習装置は、学習のための反復のうち現在反復に対応する反復回数が予め定義された数の倍数であるか否かを判断する。例えば、学習装置は、学習のための反復のうち反復回数が予め定義されたＭの倍数である反復を経験再現反復として行う。この場合、学習装置は、ｋが予め定義されたＭの倍数であるか否かを判断し、判断結果に応じて経験再現反復を行うかを判断する。

一実施形態によると、学習装置は、学習のための反復のうち現在反復に対応する反復回数が予め定義された数の倍数及び予め定義された第２数の合計よりも小さいか否かを判断する。例えば、学習装置は、学習のための反復のうち、反復回数が予め定義されたＭの倍数である反復を経験再現反復として行い、Ｍの倍数である反復回数に対応する経験再現反復を行った後、Ｎ回だけ経験再現反復を追加的に行う。この場合、学習装置は、ｋがＭの倍数及びＮの合計よりも小さいか同じであるかを判断する。

一実施形態によると、学習装置は、現在反復の以前反復に対応するトレーニングエラーの減少が閾値以下であるか否かを判断する。上述したように、学習装置は、ＳＧＤ方式を採用した特定反復を行ってニューラルネットワークのトレーニングエラーがどれ程減少したかを測定又は算出する。学習装置は、反復に対応するトレーニングエラー又はトレーニングエラーの減少を算出又は測定し、算出又は測定された値を反復にマッピングして記録する。学習装置は、ｋ−１番目の反復に対応するトレーニングエラーの減少が閾値以下である場合、ｋ番目の反復が経験再現反復によって実行されると判断する。以前反復に対応するトレーニングエラーの減少を基準にして経験再現反復の実行可否を判断する実施形態が説明されているが、学習装置は、以前反復のトレーニングエラーの減少、トレーニングエラーの減少の変化量、又はトレーニングエラーを基準にして経験再現反復の実行可否を判断する。学習装置は、以前反復に対応するトレーニングエラーに基づいて特定パラメータを生成し、このような特定パラメータに基づいて経験再現反復の実行可否を判断する。経験再現反復の実行可否を判断するために基準となる変数の実施形態には、設計意図に応じて様々な方式が採用されて応用される。

一実施形態によると、学習装置は、現在反復が配置方式を用いるか否かを判断する。上述したように、学習装置は、特定反復を行うために複数のサンプルの集合を利用し、このようなサンプルの集合である配置を用いて現在反復を行うか否かを判断する。学習装置は、ｋ番目の反復が配置方式基づくＳＧＤ方式を用いるか否かを判断し、配置方式が用いられる場合、ｋ番目の反復が経験再現反復によって実行されると判断する。学習装置は、予め決定したスケジュールによりｋ番目の反復が配置方式を用いるか否かを判断し、以前反復に対応する学習結果又は以前反復によって生成されたパラメータに基づいて、ｋ番目の反復が配置方式を用いるかの有無を適応的に判断する。学習装置は、現在反復が配置方式を用いる場合、政策的に経験再現反復を行う。

学習装置は、現在反復が経験再現反復によって実行される場合、経験再現セットから少なくとも１つのサンプルを選択する（Ｓ３０３）。上述したように経験再現反復が配置方式を用いる場合、学習装置は、経験再現反復のための複数のサンプルを選択する。経験再現反復が配置方式を利用しない場合、学習装置は、経験再現反復のためのサンプルを経験再現セットから選択する。

一実施形態によると、学習装置は、経験再現セットからいずれか１つのサンプルをランダムに選択する。例えば、学習装置は、現在反復である経験再現反復がＳＧＤ方式を用いる場合、経験再現セットからランダムに選択されたいずれか１つのサンプルを用いてＳＧＤ方式を行う。

一実施形態によると、学習装置は、トレーニングセットから選択されたいずれか１つのサンプルと類似のサンプルを経験再現セットから選択する。例えば、学習装置は、現在反復である経験再現反復がＳＧＤ方式を用いる場合、トレーニングセットからいずれか１つの第１サンプルをランダムに選択する。学習装置は、ランダムに選択された第１サンプルと類似度の最も高い第２サンプルを経験再現セットから選択する。類似度は、サンプルを分類するとき基準となる尺度に基づいて定義されるが、例えば、類似度は、音響サンプルのトライフォン（ｔｒｉｐｈｏｎｅ）の分布に基づいて定義される。学習させようとするニューラルネットワークが音響モデルである場合、学習装置は、サンプルとして音響信号又は音響サンプルを採用する。学習装置は、発音記号の分布を表現するトライフォンの分布を用いて音響信号間の類似度を意味する関数を定義し、このような関数をサンプル間の類似性の判断基準として活用する。ただし、類似度は、上述した方式に限定されずに様々な方式と基準を活用して設計意図に応じて多様に定義される。

一実施形態によると、学習装置は、経験再現セットに含まれたサンプルの品質に基づいて経験再現セットからいずれか１つのサンプルを選択する。例えば、学習装置は、現在反復である経験再現反復がＳＧＤ方式を用いる場合、経験再現セットに含まれたサンプルのうち最も高い品質のサンプルを選択する。学習装置は、経験再現セットに含まれたサンプルのうち予め定義された基準を満たすサンプルを選択してもよく、サンプルの品質を閾値と比較する方式により特定サンプルを経験再現セットから選択してもよい。サンプルの品質に基づいて、経験再現セットから特定サンプルを選択する実施形態には、設計意図に応じて様々な基準又は政策が適用される。サンプルの品質は、学習にどれ程役立つかを示すパラメータとして定義される。品質が最も高く又は最も優れることは、品質を示す値が最も大きいことを意味するが、品質を表現する定量的な値又はパラメータは、設計意図に応じて多様に定義される。例えば、予め定義された環境（例えば、騒音と音質に関する基準が予め統制された環境）で録音された音響サンプルの品質は、ランダムに収集された音響サンプルの品質よりも高い可能性がある。品質がトライフォンの分布に基づいて定義された場合、トライフォンの分布が予め定義された基準に均等に分布した音響サンプルの品質は、ランダムに収集された音響サンプルの品質より高い可能性がある。

一実施形態によると、学習に用いられるサンプルの品質は、予め格納されたり学習装置によって学習過程で更新される。例えば、学習装置は、経験再現セットに含まれたサンプルの品質をテーブルで記録したりデータベースで構築する。学習装置は、経験再現セットに含まれたサンプルの品質を反復を実行しながら更新し、更新された品質に基づいて経験再現セットから少なくとも１つのサンプルを選択する。学習装置は、サンプルのうち相対的に品質が高いサンプルを用いて経験再現セットを構成し、経験再現セットを用いた経験再現反復を定期的又は非定期的に行って学習の速度及び学習の正確度に関する性能を高めることができる。サンプルの品質を定義する条件、関数、又は基準などは多様に設計され、品質が定義される実施形態については、図４Ａ〜図４Ｃを参照して詳しく説明する。

一実施形態によると、学習装置は、現在反復である経験再現反復が配置方式を用いる場合、上述した方式を応用して複数のサンプルを選択する。学習装置は、経験再現セットからランダムに複数のサンプルを選択する。例えば、学習装置は、現在反復である経験再現反復がＳＧＤ方式を用いる場合、経験再現セットからランダムに選択されたサンプルを用いてＳＧＤ方式を行う。

一実施形態によると、学習装置は、現在反復である経験再現反復が配置方式を用いる場合、経験再現セット及びトレーニングセットから予め定義された比率で複数のサンプルをランダムに選択する。例えば、学習装置は、現在反復である経験再現反復がＳＧＤ方式を用いる場合、経験再現セット及びトレーニングセットからＭ対Ｎの比率でサンプルをランダムに選択する。ここで、Ｍ対Ｎの比率は、現在反復の回数、経験再現セットに含まれたサンプル数、トレーニングセットに含まれたサンプル数、以前反復のトレーニングエラー及びサンプルの品質のうち少なくとも１つに基づいて定義されるが、比率の定義方式は、上述した方式に制限されず設計意図に応じて多様に変形され得る。

一実施形態によると、学習装置は、現在反復である経験再現反復が配置方式を用いる場合、トレーニングセットから選択されたサンプルと類似のサンプルを経験再現セットから選択する。例えば、学習装置は、現在反復である経験再現反復がＳＧＤ方式を用いる場合、トレーニングセットから複数の第１サンプルをランダムに選択する。学習装置は、経験再現セットからランダムに選択された複数の第１サンプルと類似度の最も高い複数の第２サンプルを選択する。学習装置は、第１サンプルとそれぞれ類似度が最も高いサンプルを経験再現セットから選択する。学習装置は、トライフォンの分布に基づいて分類されたサンプルの分布を用いて、第１サンプルと類似度の最も高いサンプルを経験再現セットから選択する。

一実施形態によると、学習装置は、現在反復である経験再現反復が配置方式を用いる場合、経験再現セットに含まれたサンプルの品質に基づいて、経験再現セットから複数のサンプルを選択する。例えば、学習装置は、現在反復である経験再現反復がＳＧＤ方式を用いる場合、経験再現セットに含まれたサンプルのうち品質が高い順に複数のサンプルを選択する。学習装置は、経験再現セットに含まれたサンプルのうち予め定義された基準を満たすサンプルを選択してもよく、サンプルの品質を閾値と比較してサンプルを経験再現セットから選択してもよい。

学習装置は、現在反復が経験再現反復によって実行されない場合、トレーニングセットから少なくとも１つのサンプルを選択する（Ｓ３０４）。学習装置は、経験再現反復ではない現在反復が配置方式を用いる場合、トレーニングセットから複数のサンプルを選択する。

学習装置は、経験再現セット及びトレーニングセットのうち少なくとも１つから選択されたサンプルを用いてニューラルネットワークの加重値を更新する（Ｓ３０５）。上述したように学習装置は、逆電波方式及びＳＧＤ方式を用いて加重値を更新する。

学習装置は、学習結果及び選択された少なくとも１つのサンプルに基づいて経験再現セットを更新するか否かを判断する（Ｓ３０６）。一実施形態によると、学習装置は、現在反復で利用された少なくとも１つのサンプルを経験再現セットに追加するか否か又は経験再現セットに含まれたサンプルのうち少なくとも１つを現在反復で利用された少なくとも１つのサンプルに代替するか否かを判断する。例えば、学習装置は、現在反復で利用されたサンプルの品質に基づいて経験再現セットの更新可否を判断する。学習装置は、現在反復で利用されたサンプルの品質を算出し、算出された品質と経験再現セットに含まれたサンプルの品質を比較して経験再現セットの更新可否を判断する。

学習装置は、現在反復で選択された少なくともサンプルの少なくとも１つの品質を算出することにおいて、経験再現セットに含まれたサンプルの分布で、現在反復で選択されたサンプルの少なくとも１つの確率、現在反復で選択されたサンプルに基づいて学習されたニューラルネットワークから取得された少なくとも１つの出力、現在反復に対応するトレーニングエラーの減少、及び現在反復の以前反復に対応するトレーニングエラーの減少と現在反復に対応するトレーニングエラーの減少との間の差のうち少なくとも１つを考慮する。経験再現セットに含まれたサンプルの情報は、表１のようにテーブル形態に格納され、学習装置は、データベース又はメモリから経験再現セットに含まれたサンプルの情報を取得する。

表１を参照すると、経験再現セットはＳ_１ないしＳ_Ｎのサンプルを含み、Ｓ_１ないしＳ_Ｎのサンプルは、レーベル、サンプルの分布における確率、トレーニングエラーの減少、トレーニングエラーの減少の差、及びニューラルネットワークの出力とマッピングされてデータベース形態に構築される。ここで、品質は、サンプルの分布における確率、トレーニングエラーの減少、トレーニングエラーの減少の差、及びニューラルネットワークの出力のうち少なくとも１つに基づいて定義され定量化される。

学習装置は、経験再現セットに含まれたサンプルの分布で、現在反復で選択されたサンプルの確率を算出し、算出された確率に基づいて現在反復で選択されたサンプルの品質を算出する。サンプルの分布は、サンプルを予め決定した基準（例えば、互いに類似の程度）に分類した結果生成されるグループそれぞれに属するサンプル数が分布した程度として理解される。例えば、特定サンプルの確率は、該当サンプルが属するグループ内のサンプル数を全体サンプルの数に割った値に算出される。

図４Ａを参照すると、サンプルの分布は正規分布であり、正規分布でＳ_１の確率はＰ_１であり、Ｓ_２の確率はＰ_２である。サンプルの分布は、類似度又はトライフォンの分布を基準としてサンプルを分類した結果が示された分布である。学習装置は、Ｐ_１に基づいてＳ_１の品質を算出し、Ｐ_２に基づいてＳ_２の品質を算出する。一実施形態によると、学習装置は、相対的に確率がより小さいＳ_１の品質をＳ_２よりさらに高く算出する。学習装置は、現在反復で選択されたサンプルの確率（経験再現セットに含まれたサンプルの分布における確率）と経験再現セットに含まれたサンプルの確率とを比較し、比較結果に基づいて経験再現セットの更新可否を判断する。例えば、学習装置は、経験再現セットに含まれたサンプルの確率のうち、最も高い確率が現在反復で選択されたサンプルの確率よりも大きければ、現在反復で選択されたサンプルを経験再現セットに追加し、最も高い確率に対応するサンプルを経験再現セットから除外する。学習装置は、サンプルの分布における確率を用いて経験再現セット内に相対的に多く分布したサンプルを経験再現セットから除外し、相対的に少なく分布したサンプルを経験再現セットに含ませる。

図４Ｂを参照すると、サンプルＳ_１ないしＳ_Ｎは、トライフォンの分布に基づいて図示するように羅列又は分類される。この場合、Ｓ_１の確率がＳ_２ないしＳ_Ｎの確率よりも小さいため、学習装置はＳ_１の品質をＳ_２ないしＳ_Ｎの品質より相対的に高く算出する。図４Ｂにおいて、明暗はトライフォンの分布を基準としてサンプルを識別するための視覚的な表現を意味する。学習装置は、サンプルの分布に基づいて経験再現セットを更新するため、反復を行って経験再現セットに含まれたサンプルを均等に分布させ得る。学習装置は、表１のように経験再現セットに含まれたサンプルＳ_１ないしＳ_ＮとサンプルＳ_１ないしＳ_Ｎに対応する確率Ｐ_１ないしＰ_Ｎをテーブルの形態に管理できる。

学習装置は、現在反復で選択されたサンプルを用いてニューラルネットワークを学習させ、学習されたニューラルネットワークから取得された少なくとも１つの出力に基づいて現在反復で選択されたサンプルの品質を算出する。図４Ｃを参照すると、ニューラルネットワーク４０１は、入力レイヤ４０２、中間レイヤ４０４、及び出力レイヤ４０３を含む。学習装置は、現在反復で選択されたサンプルＳ_ｎを入力レイヤ４０２を介してニューラルネットワークに入力し、ニューラルネットワーク４０１の出力レイヤ４０３を介して出力Ｏ_ｎを取得し、出力Ｏ_ｎを用いてニューラルネットワーク４０１を学習させる。サンプルＳ_ｎが音響サンプルである場合、学習装置は、複数のフレームを用いて音響サンプルの特徴を生成し、生成された特徴を用いてニューラルネットワーク４０１を学習させる。出力Ｏ_ｎは、出力レイヤ４０３のノードから出力された確率（ｌｏｇ−ｌｉｋｅｌｉｈｏｏｄ）値に基づいて定義され、出力レイヤ４０３のノードの活性化関数によって定義される。学習装置は、現在反復で選択されたサンプルＳ_ｎに対応する出力Ｏ_ｎに基づいて、サンプルＳ_ｎの品質を算出する。例えば、学習装置は、出力レイヤ４０３のノードから出力される値を表現する出力Ｏ_ｎが小さくなるほどサンプルＳ_ｎの品質を高く算出する。出力が相対的に小さいことは、ニューラルネットワークがその小さい出力に対応するサンプルを低い認識率で認識することを意味し、又は、そのサンプルに関連する反復がさらに実行される必要があることを意味する。ここで、学習装置は、出力が小さくなるほどその出力に対応するサンプルの品質を高く設定し、そのサンプルを学習により多く参加させることができる。

学習装置は、表１のように経験再現セットに含まれたサンプルＳ_１ないしＳ_Ｎに対応する出力Ｏ_１ないしＯ_Ｎをテーブルの形態に管理する。学習装置は、現在反復で選択されたサンプルの出力と経験再現セットに含まれたサンプルの出力とを比較し、比較結果に基づいて経験再現セットの更新を行うか否かを判断する。例えば、学習装置は、経験再現セットに含まれたサンプルの出力のうち最も高い出力が現在反復で選択されたサンプルの出力よりも大きければ、現在反復で選択されたサンプルを経験再現セットに追加し、最も高い出力に対応するサンプルを経験再現セットから除外する。学習装置は、ニューラルネットワークの出力を用いて経験再現セット内に相対的に出力が大きいサンプルを経験再現セットから除外し、相対的に出力が小さい経験再現セットに含ませる。そのため、学習装置は、ニューラルネットワークの出力が小さいサンプルを経験再現反復により定期的、非定期的、又は反復的な学習に参加させ得る。

学習装置は、現在反復に対応するトレーニングエラーの減少に基づいて現在反復で選択されたサンプルの品質を算出し、表１のように経験再現セットに含まれたサンプルＳ_１ないしＳ_Ｎに対応するトレーニングエラーの減少Ｐ_１ないしＰ_Ｎをテーブル形態に管理する。学習装置は、現在反復で選択されたサンプルに対応するトレーニングエラーの減少と経験再現セットに含まれたサンプルのトレーニングエラーの減少とを比較し、比較結果に基づいて経験再現セットの更新可否を判断する。例えば、学習装置は、経験再現セットに含まれたサンプルに対応する減少のうち最も低い減少が現在反復で選択されたサンプルの減少よりも小さければ、現在反復で選択されたサンプルを経験再現セットに追加し、最も低い減少に対応するサンプルを経験再現セットから除外する。学習装置は、トレーニングエラーの減少を用いて経験再現セット内に相対的に減少が相対的に小さいサンプルを経験再現セットから除外し、相対的に減少が大きいサンプルを経験再現セットに含ませる。そのため、学習装置は、トレーニングエラーの減少が大きいサンプルを経験再現反復により定期的、非定期的、又は反復的な学習に参加させ得る。

学習装置は、トレーニングエラーの減少の差に基づいて現在反復で選択されたサンプルの品質を算出する。ここで、トレーニングエラーの減少の差は、現在反復に対応するトレーニングエラーの減少と以前反復に対応するトレーニングエラーの減少との差を含む。学習装置は、表１のように、経験再現セットに含まれたサンプルＳ_１ないしＳ_Ｎに対応するトレーニングエラーの減少の差Ｄ_１ないしＤ_Ｎをテーブルの形態に管理する。学習装置は、現在反復で選択されたサンプルに対応する差と経験再現セットに含まれたサンプルに対応する差とを比較し、比較結果に基づいて経験再現セットの更新可否を判断する。例えば、学習装置は、経験再現セットに含まれたサンプルに対応する差のうち最も小さい差が現在反復で選択されたサンプルに対応する差よりも小さければ、現在反復で選択されたサンプルを経験再現セットに追加し、最も小さい差に対応するサンプルを経験再現セットから除外する。学習装置は、トレーニングエラーの減少の差を用いて、経験再現セット内に相対的に差が相対的に小さいサンプルを経験再現セットから除外し、相対的に差が大きいサンプルを経験再現セットに含ませる。そのため、学習装置は、トレーニングエラーの減少の差が大きいサンプルを経験再現反復により定期的、非定期的、又は反復的な学習に参加させ得る。サンプルの品質を定義する方式は、上述した基準に制限されることなく、上述した方式はサンプルの集合である配置の品質を定義するために採用される。

再び図３を参照すると、学習装置は、現在反復で選択されたサンプルを用いて経験再現セットを更新する（Ｓ３０７）。一実施形態によると、学習装置は、現在反復で選択されたサンプルの品質と経験再現セットに含まれたサンプルの品質とを比較する。学習装置は、比較結果に基づいて経験再現セットに含まれたサンプルのうち、現在反復で選択されたサンプルの品質よりも低い品質に対応する少なくとも１つのサンプルを現在反復で選択されたサンプルに代替する。

一実施形態によると、学習装置は、現在反復で選択されたサンプルの品質を閾値と比較する。学習装置は、比較結果に基づいて現在反復で選択されたサンプルを経験再現セットに追加する。例えば、サンプルの品質がトレーニングエラーの減少の差に基づいて算出される場合、品質と比較される基準である閾値は、現在反復に対応する反復回数が大きくなるほど小さくなる。サンプルの品質がニューラルネットワークの出力に基づいて算出される場合、品質と比較される基準である閾値は、現在反復に対応する反復回数が大きくなるほど大きくなる。学習装置は、経験再現セットに含まれたサンプルの品質と閾値とを比較し、比較結果に基づいて経験再現セットに含まれたサンプルのうち少なくとも１つを経験再現セットから除外する。学習装置は、現在反復で選択されたサンプルを用いて経験再現セットを更新する動作において、上述した方式に制限されることなく、様々な方式と方式を採用してサンプルの品質を活用し得る。

学習装置は、経験再現セットの更新を完了したり経験再現セットを更新しないと判断された場合、ｋ番目の反復を終了する（Ｓ３０８）。学習装置は、ｋ番目の反復を終了した後ｋ番目の反復に対応するトレーニングエラー、トレーニングエラーの減少及びトレーニングエラーの減少の差のうち少なくとも１つに基づいて、ニューラルネットワークの学習を終了するか否か、又は（ｋ＋１）番目の反復を開始するか否かを判断する。

図５は、一実施形態に係る経験再現セットを説明するための図である。

図５を参照すると、経験再現セット５０１は、複数の配置Ｂ_１ないしＢ_Ｎを含む。学習装置は、経験再現セット５０１に含まれた配置Ｂ_１ないしＢ_Ｎと配置Ｂ_１ないしＢ_Ｎに対応する品質などを、上述した方式のようにテーブル形態に管理する。学習装置は、上述した実施形態を採用して経験再現セット５０１を構成及び更新する。例えば、学習装置は、経験再現セット５０１を配置単位で更新し、配置に対応する品質を用いて経験再現セット５０１に含まれた配置Ｂ_３をＢ_ｎｅｗに代替する。

図６は、一実施形態に係る経験再現セットを説明するための図である。

図６を参照すると、学習装置は、ニューラルネットワーク６０３の学習を開始する前に経験再現セット６０１にサンプルを含んでいない。例えば、学習装置は、空いている経験再現セット６０１を定義し、ニューラルネットワーク６０３の学習を開始することができ、学習のための反復を行う過程で経験再現セット６０１を更新し得る。経験再現セット６０１の更新動作には、上述した実施形態が適用される。学習装置は、学習のための反復のうち最初反復時トレーニングセット６０２からサンプルＳ_ｎｅｗを選択し、選択されたＳ_ｎｅｗを用いてニューラルネットワーク６０３を学習させ、ニューラルネットワーク６０３の出力に基づいてＳ_ｎｅｗの品質を算出する。学習装置は、Ｓ_ｎｅｗの品質に基づいてＳ_ｎｅｗを経験再現セット６０１に追加する。

図６を参照して経験再現セット６０１が最初に空くように設定されている実施形態を説明しているが、経験再現セット６０１は、予め定義された条件を充足するサンプルに最初から構成されてもよい。上述したように、学習に有効なものとして判断されるサンプルの集合により経験再現セット６０１が構成されてもよい。一実施形態によると、学習装置は、予め定義された数のサンプルの集合で経験再現セット６０１を保持することができるが、例えば、学習装置は、反復を行う過程で経験再現セット６０１に含まれたサンプル数をＮ個に保持してもよい。学習装置は、学習のための反復を行う過程でＮ個のサンプルの品質を記録し、サンプルの品質及び現在反復で選択されたサンプルの品質に基づいて経験再現セット６０１を更新する。一実施形態によると、学習装置は、学習のための反復を行う過程で経験再現セット６０１に含まれたサンプル数を適応的に更新してもよい。学習装置は、サンプル数を更新することにおいて、品質、サンプルの分布、トレーニングエラー、トレーニングエラーの減少、トレーニングエラーの減少の差、及びニューラルネットワークの出力のうち少なくとも１つを考慮する。

図７は、一実施形態に係る学習装置の構成の例示図である。

図７を参照すると、学習装置７０１は、プロセッサ７０２及びメモリ７０３を含む。プロセッサ７０２は、図１ないし図６を参照して前述した少なくとも１つの装置を含んだり、図１ないし図６を参照して前述した少なくとも１つの方法を行う。メモリ７０３は、サンプルに関する情報を格納したり、学習方法が具現されたプログラムを格納する。メモリ７０３は、揮発性メモリ又は不揮発性メモリであってもよい。

プロセッサ７０２は、プログラムを実行して学習装置７０１を制御する。プロセッサ７０２によって実行されるプログラムのコードは、メモリ７０３に格納される。学習装置７０１は、入出力装置（図示せず）によって外部装置（例えば、パーソナルコンピュータ又はネットワーク）に接続され、データを交換する。

以上述した実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組合せで具現される。例えば、実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当該技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことが分かる。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はこれらのうちの１つ以上の組合せを含み、希望通りに動作するように処理装置を構成し、独立的又は結合的に処理装置に命令する。ソフトウェア及び／又はデータは、処理装置によって解釈され、処理装置に命令又はデータを提供するためのあらゆる類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、或いは送信される信号波を介して永久的又は一時的に具現化される。ソフトウェアは、ネットワークに接続されたコンピュータシステム上に分散され、分散された方法で格納されるか又は実行される。ソフトウェア及びデータは１つ以上のコンピュータ読み取り可能な記録媒体に格納される。

本実施形態による方法は、多様なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明の動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述したように実施形態をたとえ限定された図面によって説明したが、当技の術分野で通常の知識を有する者であれば、前記に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順に実行されたり、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられたり、他の構成要素又は均等物によって置き換えたり置換されても適切な結果を達成することができる。

したがって、他の具現、他の実施形態、及び請求範囲と均等なものも後述する請求範囲の範囲に属する。

Claims

ニューラルネットワークの学習のための現在反復が経験再現セットを用いる経験再現反復によって実行されるか否かを判断するステップと、
前記判断結果に基づいて、前記経験再現セット及びトレーニングセットのうち少なくとも１つから少なくとも１つのサンプルを選択するステップと、
前記選択されたサンプルに基づいて前記ニューラルネットワークを学習させるステップと、
を含む、学習方法。
前記判断するステップは、前記学習のための反復のうち前記現在反復に対応する反復回数が予め定義された数の倍数であるか否かを判断するステップを含む、請求項１に記載の学習方法。
前記判断するステップは、前記学習のための反復のうち前記現在反復に対応する反復回数が予め定義された数の倍数及び予め定義された第２数の合計よりも小さいか否かを判断するステップを含む、請求項１に記載の学習方法。
前記判断するステップは、前記現在反復の以前反復に対応するトレーニングエラーの減少が閾値以下であるか否かを判断するステップを含む、請求項１に記載の学習方法。
前記判断するステップは、前記現在反復がバッチ方式を用いるか否かを判断するステップを含む、請求項１に記載の学習方法。
前記選択するステップは、前記現在反復が前記経験再現反復によって実行される場合、前記経験再現セットからいずれか１つのサンプルをランダムに選択するステップを含む、請求項１ないし５のうち何れか一項に記載の学習方法。
前記選択するステップは、
前記現在反復が前記経験再現反復によって実行される場合、前記トレーニングセットからいずれか１つの第１サンプルをランダムに選択するステップと、
前記ランダムに選択された第１サンプルと類似度の最も高い第２サンプルを前記経験再現セットから選択するステップと、
を含む、請求項１ないし５のうち何れか一項に記載の学習方法。
前記類似度は、音響サンプルのトライフォンの分布に基づいて定義される、請求項７に記載の学習方法。
前記選択するステップは、前記現在反復が前記経験再現反復によって実行される場合、前記経験再現セットに含まれたサンプルの品質に基づいて前記経験再現セットからいずれか１つのサンプルを選択するステップを含む、請求項１ないし５のうち何れか一項に記載の学習方法。
前記選択するステップは、前記現在反復が前記経験再現反復によって実行され、前記経験再現反復が配置方式を用いる場合、前記経験再現セットからランダムに複数のサンプルを選択するステップを含む、請求項１ないし５のうち何れか一項に記載の学習方法。
前記選択するステップは、前記現在反復が前記経験再現反復によって実行され、前記経験再現反復が配置方式を用いる場合、前記経験再現セット及び前記トレーニングセットから予め定義された比率で複数のサンプルをランダムに選択するステップを含む、請求項１ないし５のうち何れか一項に記載の学習方法。
前記選択するステップは、
前記現在反復が前記経験再現反復によって実行され、前記経験再現反復が配置方式を用いる場合、前記トレーニングセットから複数の第１サンプルをランダムに選択するステップと、
前記経験再現セットから前記ランダムに選択された複数の第１サンプルと類似度の最も高い複数の第２サンプルを選択するステップと、
を含む、請求項１ないし５のうち何れか一項に記載の学習方法。
前記選択するステップは、前記現在反復が前記経験再現反復によって実行され、前記経験再現反復が配置方式を用いる場合、前記経験再現セットに含まれたサンプルの品質に基づいて前記経験再現セットから複数のサンプルを選択するステップを含む、請求項１ないし５のうち何れか一項に記載の学習方法。
前記学習結果及び前記選択されたサンプルに基づいて、前記経験再現セットを更新するか否かを判断するステップをさらに含む、請求項１ないし５のうち何れか一項に記載の学習方法。
前記経験再現セットを更新するか否かを判断するステップは、
前記経験再現セットに含まれたサンプルの分布で前記選択されたサンプルの少なくとも１つの確率と、
前記選択されたサンプルに基づいて学習されたニューラルネットワークから取得された少なくとも１つの出力と、
前記現在反復に対応するトレーニングエラーの減少と、
前記現在反復の以前反復に対応するトレーニングエラーの減少と前記現在反復に対応するトレーニングエラーの減少との間の差と、
のうち少なくとも１つに基づいて前記選択されたサンプルの少なくとも１つの品質を算出するステップを含む、請求項１４に記載の学習方法。
前記経験再現セットを更新するか否かを判断するステップは、前記算出された品質を前記経験再現セットに含まれた前記サンプルの品質と比較するステップをさらに含む、請求項１５に記載の学習方法。
前記比較結果に基づいて、前記算出された品質より低い品質に対応する少なくとも１つのサンプルを前記選択されたサンプルに代替するステップをさらに含む、請求項１６に記載の学習方法。
前記経験再現セットを更新するか否かを判断するステップは、前記算出された品質を閾値と比較するステップをさらに含む、請求項１５に記載の学習方法。
前記比較結果に基づいて、前記選択されたサンプルを前記経験再現セットに追加するステップをさらに含む、請求項１８に記載の学習方法。
前記品質が前記差に基づいて算出された場合、前記現在反復に対応する反復回数が大きくなるほど前記閾値は小さくなる、請求項１８に記載の学習方法。
前記品質が前記出力に基づいて算出された場合、前記現在反復に対応する反復回数が大きくなるほど前記閾値は大きくなる、請求項１８に記載の学習方法。
前記経験再現セットは、予め定義された環境で録音された音響サンプル及びトライフォンの分布が予め定義された基準に均等に分布した音響サンプルのうち少なくとも１つを含む、請求項１に記載の学習方法。
ニューラルネットワークの学習のための現在反復において、経験再現セット及びトレーニングセットのうち少なくとも１つから選択された少なくとも１つのサンプルに基づいて前記ニューラルネットワークを学習させるステップと、
前記学習結果及び前記選択されたサンプルに基づいて前記経験再現セットを更新するか否かを判断するステップと、
前記判断結果に基づいて前記経験再現セットを更新するステップと、
を含む、学習方法。
前記判断するステップは、
前記経験再現セットに含まれたサンプルの分布で前記選択されたサンプルの少なくとも１つの確率と、
前記選択されたサンプルに基づいて学習されたニューラルネットワークから取得された少なくとも１つの出力と、
前記現在反復に対応するトレーニングエラーの減少と、
前記現在反復の以前反復に対応するトレーニングエラーの減少と前記現在反復に対応するトレーニングエラーの減少との間の差と、
のうち少なくとも１つに基づいて前記選択されたサンプルの少なくとも１つの品質を算出するステップを含む、請求項２３に記載の学習方法。
前記判断するステップは、前記算出された品質を前記経験再現セットに含まれた前記サンプルの品質と比較するステップをさらに含み、
前記更新するステップは、前記比較結果に基づいて前記算出された品質より低い品質に対応する少なくとも１つのサンプルを前記選択されたサンプルに代替するステップをさらに含む、請求項２４に記載の学習方法。
前記判断するステップは、前記算出された品質を閾値と比較するステップをさらに含み、
前記更新するステップは、前記比較結果に基づいて前記選択されたサンプルを前記経験再現セットに追加するステップをさらに含む、請求項２４に記載の学習方法。
前記品質が前記差に基づいて算出された場合、前記現在反復に対応する反復回数が大きくなるほど前記閾値は小さくなる、請求項２６に記載の学習方法。
前記品質が前記出力に基づいて算出された場合、前記現在反復に対応する反復回数が大きくなるほど前記閾値は大きくなる、請求項２６に記載の学習方法。
前記学習させるステップは、前記現在反復が前記経験再現セットを用いる経験再現反復によって実行されるか否かを判断するステップを含む、請求項２３に記載の学習方法。
請求項１ないし請求項２９のうちいずれか一項に記載の学習方法を学習装置のコンピュータに実行させるコンピュータプログラム。
請求項３０に記載のコンピュータプログラムを保存する記憶媒体。
ニューラルネットワークの学習のための現在反復が経験再現セットを用いる経験再現反復によって実行されるか否かを判断し、
前記判断結果に基づいて、前記経験再現セット及びトレーニングセットのうち少なくとも１つから少なくとも１つのサンプルを選択し、
前記選択されたサンプルに基づいて前記ニューラルネットワークを学習させるプロセッサを含む、学習装置。
ニューラルネットワークの学習のための現在反復において、経験再現セット及びトレーニングセットのうち少なくとも１つから選択された少なくとも１つのサンプルに基づいて前記ニューラルネットワークを学習させ、
前記学習結果及び前記選択されたサンプルに基づいて前記経験再現セットを更新するか否かを判断し、
前記判断結果に基づいて前記経験再現セットを更新するプロセッサを含む、学習装置。