JP3775453B2 - Learning method of neural network for speech recognition - Google Patents
Learning method of neural network for speech recognition Download PDFInfo
- Publication number
- JP3775453B2 JP3775453B2 JP20688997A JP20688997A JP3775453B2 JP 3775453 B2 JP3775453 B2 JP 3775453B2 JP 20688997 A JP20688997 A JP 20688997A JP 20688997 A JP20688997 A JP 20688997A JP 3775453 B2 JP3775453 B2 JP 3775453B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- input
- data
- neural network
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、音声認識用ニューラルネットワークの学習方法に関する。
【0002】
【背景技術】
音声認識の形態は、孤立単語音声認識と連続音声認識の2通りに分けられる。
【0003】
また、連続音声認識の方法としては、大きく分けて、DPマッチング(Dynamic Programming Matching)法、HMM(Hidden Markov Model)法、ニューラルネットワークによる方法の3通りがある。
【0004】
DPマッチング法とは、音声認識時に、入力音声とその始端および終端を入力し、標準パターンと入力音声の同じ音素同士が対応するように、動的計画法を用いて時間軸を非線形に伸縮する時間正規化をし、両者の距離が最小となるものを認識結果とする方法である。
【0005】
また、HMM法とは、一つの音素、音節、または単語を一つのHMMで表現するもので、HMMのそれぞれに存在確率が、また、あるHMMから別のHMMへの遷移には遷移確率が学習により与えられている。HMM法は、音声認識時に、入力音声とその始端および終端を入力し、始端の状態から終端の状態へ遷移する確率として、その入力音声が各々の範疇に属する確率が計算される。そして、その確率を最大とするHMMに代表される範疇を認識結果とする方法である。
【0006】
連続音声を認識する場合、連続音声を用いて学習することが望ましい。この場合、音声認識を開始する前に連続音声中の音素等の始端と終端を正確に検出しておく必要がある。しかし、連続音声において、各音素等の始端と終端を機械的に検出することは極めて難しく、ラベリングといった専門家による作業とならざるを得ないため、時間がかかり、正確性の面でも問題があった。
【0007】
これらの問題に対処するため、DPマッチング法、HMM法では、始端終端を入力しなくても音声認識を開始できるように、可能性のある全ての始端終端についての検出処理を繰り返し行い、最良の結果を試行錯誤的に見つけ出すという方法も採られている。
【0008】
しかし、例えば、音声の長さがNのとき、始端の可能性としてはNのオーダーがあり、終端の可能性としてもNのオーダーがある。このため、始端終端を可能な組合せによって所望の認識結果を得るためには、Nの2乗のオーダーがかかることもあり得る。
【0009】
【発明が解決しようとする課題】
これらの問題を解決するため、新しい形のニューラルネットワークとして、内部状態が微分方程式で記述される神経細胞様素子を用いたリカレントニューラルネットワークが提案されている。
【0010】
しかし、例えば、「777(なななななな)」といった連続音声が入力された場合、入力音声中に「7」がいくつあるか判別することは極めて困難であった。
【0011】
本発明の目的は、短時間かつ正確に連続音声認識することができる音声認識用ニューラルネットワークの学習方法を提供することである。
【0012】
【課題を解決するための手段】
前記目的を達成するため、本発明に係る音声認識用ニューラルネットワークの学習方法は、複数のダイナミックニューロンを備え、音声入力される所定の認識対象語を認識する音声認識用ニューラルネットワークの学習方法において、
認識対象語の後半およびこれに連続する認識対象語が連結された第1の連結パターン型入力用教師データが入力された場合には、前記連続する認識対象語の認識のみを行い、
認識対象語の後半およびこれに連続する非認識対象語が連結された第2の連結パターン型入力用教師データが入力された場合には、認識対象語の認識を行わないように、前記複数のダイナミックニューロンを学習させることを特徴とする。
【0013】
本発明によれば、認識対象語の前半で認識を行い、認識対象語の後半では認識を行わない学習ができるため、認識対象語が複数連続する場合でも正確に連続音声認識することができる。
【0014】
また、前記音声認識用ニューラルネットワークの学習方法は、
認識対象語が入力用教師データとして入力された場合には、前記認識対象語の認識を行い、
非認識対象語およびこれに連続する認識対象語が連結された第3の連結パターン型入力用教師データが入力された場合には、前記連続する認識対象語の認識を行い、
非認識対象語およびこれに連続する非認識対象語が連結された第4の連結パターン型入力用教師データが入力された場合には、認識対象語の認識を行わないように、前記複数のダイナミックニューロンを学習させてもよい。
【0015】
本発明によれば、認識対象語を認識し、非認識対象語を認識しない学習ができるため、認識対象語と非認識対象語とが複数連続する場合でも正確に連続音声認識することができる。
【0016】
また、前記音声認識用ニューラルネットワークの学習方法は、
認識対象語を入力し、入力した認識対象語の時間軸上の所定点を区分点として記憶する工程と、
前記認識対象語から前記区分点より後半のデータを取り出し、前記第1および第2の連結パターン型入力用教師データを生成する工程と、
を含んでもよい。
【0017】
本発明によれば、機械的に区分点を設定することにより、教師データの生成が容易となり、初期学習を速く進行させることができるため、連続音声認識の学習を速く進めることができる。なお、所定点として、例えば、1語の時間軸上の中点を用いることができる。
【0018】
また、前記音声認識用ニューラルネットワークの学習方法は、
前記各入力用教師データおよびこれに対応した遷移パターンを表す出力用教師データを含む複数組の入出力用教師データを作成して記憶する工程と、
前記各入力用教師データを入力したときに、前記各入力用教師データに対応した前記出力用教師データを得るように前記複数のダイナミックニューロンを学習させる処理を、前記複数組の入出力用教師データ毎に繰り返し行う工程と、
を含んでもよい。
【0019】
本発明によれば、各入力用教師データおよびこれに対応した遷移パターンを表す出力用教師データを含む複数組の入出力用教師データを作成して記憶した後、入出力用教師データが入力されたダイナミックニューロンを学習させる処理を、入出力用教師データ毎に繰り返し行うことにより、短時間に学習の効果を高めることができる。
【0020】
また、前記音声認識用ニューラルネットワークの学習方法において、
前記各入力用教師データは、
孤立発話された認識対象語および非認識対象語を用いて形成されたものであってもよい。
【0021】
本発明によれば、孤立発話のみの記憶量で済むため、音声データの記憶容量が少なくて済む。また、孤立発話を組合せることにより、連続発話に近似した音声を自由に形成することができるため、柔軟性に富み、便利である。
【0022】
また、前記音声認識用ニューラルネットワークの学習方法において、
前記ニューラルネットワークは、
内部状態値Xが設定された前記複数のダイナミックニューロンを相互に結合して構成されており、
前記各ダイナミックニューロンは、
その内部状態値Xが、当該ダイナミックニューロンに与えられる入力データZj(j=0〜n:nは自然数)および内部状態値Xを用いて表された関数X=G(X,Zj)を満足する値に時間変化するダイナミックニューロンとして形成され、
その内部状態値Xを、関数F(X)を満足する値に変換して出力されるように形成されたものであってもよい。
【0023】
本発明によれば、個々のダイナミックニューロン自体が内部状態値Xを保持するため、適用するニューラルネットワークの構造等によらず、時系列データを処理することができる。
【0024】
また、前記音声認識用ニューラルネットワークの学習方法は、
複数のダイナミックニューロンを備えるニューラルネットワークの状態空間内に、複数の認識対象語に対応して、アトラクタを異なる位置に複数形成するように、前記複数のダイナミックニューロンを学習させてもよい。
【0025】
通常は1つの認識対象単位に対して1つの出力用ニューロンを用意する必要があるが、本発明によれば、より少ないニューロンで学習することができるため、処理が軽くなり、より短時間に連続音声認識することができる。
【0026】
なお、アトラクタとは、出力用ニューロンの出力値の収束状態をいう。
【0027】
また、上記の各発明は、認識対象語の検出後、その出力値をリセットすることにより、音声データが連続入力された場合でも正確に音声認識することができる。
【0028】
【発明の実施の形態】
以下、音声認識用ニューラルネットワークの学習方法に本発明を適用した好適な実施の形態について、図面を参照しつつ詳細に説明する。
【0029】
図1は、本発明による学習方法を実現するための音声認識装置の一実施の形態の構成図を示す。図1に示す音声認識装置は、特徴抽出部10と、音声認識処理手段であるニューラルネットワーク200と、アトラクタ判定部40と、内部状態初期値設定部60とを有する。
【0030】
特徴抽出部10は、図2に示すように、入力されるアナログ音声データ100をフレーム単位で切り出し、特徴ベクトル110に変換して、ニューラルネットワーク200に出力する。この特徴ベクトル110は、図2(A)に示すように、アナログ音声データ100を所定のフレーム102の単位で順次取り出す。図2(B)に示すように、フレーム単位で切り出された音声データ100は、線形予測分析やフィルタバンク等で特徴が抽出され、図2(C)に示す特徴ベクトル110の列として、ニューラルネットワーク200に順次入力される。ニューラルネットワーク200は、複数のダイナミックニューロンにより構成されている。
【0031】
ニューラルネットワーク200内の複数のダイナミックニューロンは、内部状態初期値設定部60から出力される所定の値によって初期化されている。各ダイナミックニューロンは、詳細には後述するように、所定の複数のデータを認識することができるよう、異なる特徴のパターンで学習されている。特徴抽出部10から出力される特徴ベクトル110は、ニューラルネットワーク200の複数のダイナミックニューロンにそれぞれ入力される。ニューラルネットワークは、入力データに演算処理を施して認識動作を行う。
【0032】
この認識動作により判定された結果は、出力結果データ120として、アトラク夕判定部40に入力される。出力結果データ120としては、例えば、4つの座標値P1、P2、P3、P4の値が出力される。アトラク夕判定部40は、出力結果データ120である4つの座標値P1、P2、P3、P4を用いて、どのアトラクタが選択されたのかを判別し、この判別結果を認識結果150として出力する。ここで、認識すべき複数のデータが属するものを範疇、いわゆる力テゴリとし、この力テゴリが複数用意されている。そして、1つのニューラルネットワーク200内には、前記複数の力テゴリがそれぞれ異なる位置に埋め込まれており、この複数の力テゴリの内のあるカテゴリから他の力テゴリへの軌跡の落ち着く先がアトラクタである。
【0033】
なお、アトラクタとは、出力用ニューロンの出力値の収束状態をいう。具体的には、ある時刻におけるニューラルネットワーク200の状態空間では、例えば、N次元の状態空間の任意の一点として表される。例えば、図3に示すように、4つの座標値P1、P2、P3、P4における点Q1〜Q4である。そして、このニューラルネットワーク200の経時変化は、ある点Q1から他の異なる点Q2等への軌跡として表すことができる。この力テゴリが示す座標値は収束状態を示すものである。なお、アトラクタは、最終的には、収束して収束点となる以外に、例えば周期軌道やカオスになったり、発散したりするものである。このような音声認識装置を用いることにより、複数のダイナミックニューロンを含む1つのニューラルネットワーク200で、音声データ等の複数のデータを認識することが可能である。
【0034】
図4は、10個の数字が音声入力された場合のアトラクタの座標値の割り当ての一例である。このように、例えば、状態空間が3次元であれば8つの状態、4次元であれば16の状態を表すことができる。
【0035】
次に、この音声認識装置のニューラルネットワーク200の構成について説明する。図5は、図1に示すニューラルネットワーク200の構成例を簡略化して表したものである。このニューラルネットワーク200は、神経細胞を構成する複数のダイナミックニューロン210を相互に接続して構成されている。各ニューロン210の結合部には、大きさが可変の重み付けがそれぞれなされている。このニューラルネットワーク200は、特徴ベクトル110を入力する入力用ダイナミックニューロン210と、この特徴ベクトル110の入力により状態が遷移した後の値を出力する出力用ダイナミックニューロン210とを別個のものとして示している。具体的には、10個の入力用ダイナミックニューロン210−1〜210−10に10個の特徴ベクトル110がそれぞれ入力され、複数のダイナミックニューロン210を介した値はアトラクタを判別するための値として、出力用ダイナミックニューロン210−11〜210−14からそれぞれ出力される。
【0036】
各ダイナミックニューロン210は、その内部状態値Xが、当該ダイナミックニューロン210に与えられる入力データZj(j=0〜n:nは自然数)および内部状態値Xを用いて表された関数X=G(X,Zj)を満足する値に時間変化するダイナミックニューロン210として形成され、その内部状態値Xが、関数F(X)を満足する値に変換して出力されるよう形成されている。
【0037】
ニューラルネットワーク200では、各ダイナミックニューロン210間の重みを学習により変化させることによって、複数の入力データに対応して正確なアトラクタを設定することができる。
【0038】
図6は、ダイナミックニューロン210の構成を模式的に示している。各ダイナミックニューロン210は、所定の内部状態値Xを記憶する内部状態値記憶手段220と、前記内部状態値Xおよび以下に説明する入力データZjが入力されて、内部状態値記憶手段220の内部状態値Xを更新する内部状態値更新手段240と、内部状態値Xを外部出力値Yに変換する出力値生成手段260とを含む。
【0039】
各ダイナミックニューロン210は、上記の構成をそれぞれ備えることにより、内部状態値Xを基にし、この内部状態値Xを順次更新していく。これにより、ダイナミックニューロン210に入力されるデータの過去の履歴が、内部状態値Xとして変換されて保存される。すなわち、内部状態値Xとして、入力値の時間的な履歴が保存され、この履歴は外部出力値Yに反映される。ダイナミックニューロン210は、上記のダイナミックな動作を行う。これにより、静的なニューロンを用いたニューラルネットワークとは異なり、ニューラルネットワークの構造等に依存することなく、時系列データを処理することができ、ニューラルネットワーク200全体の回路規模を小さくすることができる。これにより、処理が軽くなり、より短時間に高精度の音声認識が可能となる。
【0040】
図7は、ダイナミックニューロン210の構造の一具体例を示す。内部状態記憶手段220は、内部状態値Xを記憶するメモリ222を含んで構成される。また、内部状態値更新手段240は、入力データZjの積算手段242と、演算を行って新たな内部状態値Xを求め、メモリ222に記憶されている内部状態値Xを更新する演算部244とを含む。また、出力値生成手段260は、演算部262を含む、この演算部262は、メモリ222に記憶されている内部状態値Xを、値域制限した外部出力値Yにシグモイド(ロジスティック)関数等を用いて変換するように形成されている。
【0041】
ここで、内部状態値Xおよび外部出力値Yのそれぞれの時間変化において、現在の内部状態値をXcurr、更新される内部状態値をXnext、この更新動作時点での入力データをZjとするときに、内部状態更新手段240の動作を形式的に関数Gで表すとすると、更新される内部状態値Xnextは、Xnext=G(Xcurr、Z1、・・・ Zj・・・、Zn)と表現することができる。
【0042】
この演算式の表現の具体的な形としては様々なものが考えられるが、例えば1階の微分方程式を用いて、以下に示す数1の演算式で示すことができる。ここで、τは定数である。
【0043】
【数1】
【0044】
なお、内部状態値更新手段240の動作を示す演算式としては、上記の演算式に限定されることなく、単純な線形変換やしきい値関数等を用いることも可能である。
【0045】
また、各ダイナミックニューロン210への入力データZjとしては、ある重みが乗算されることにより重み付けされたダイナミックニューロン210自身の出力や、結合重みが乗算されることにより重み付けされた他のダイナミックニューロン210の出力等が含まれる。
【0046】
図7においては、各ダイナミックニューロン210には、重み付けされたダイナミックニューロン210自身の出力や、重み付けされた他のダイナミックニューロン210からの出力が与えられる。特に、10個のダイナミックニューロン210−1〜210−10には、重み付けされたダイナミックニューロン210自身の出力や重み付けされた他のダイナミックニューロン210からの出力の他に、特徴抽出部10からの特徴ベクトル110が与えられる。
【0047】
そして、出力用ダイナミックニューロン210である4個のダイナミックニューロン210−11〜210−14から外部出力値Yが出力される。
【0048】
次に、ニューラルネットワーク200の内部状態値Xの初期値の設定について説明する。上記のように、各ダイナミックニューロン210は、内部状態値記憶手段220内に記憶された内部状態値Xを、内部状態値更新手段240で順次更新していくように構成されている。したがって、ニューラルネットワーク200内のダイナミックニューロン210は、その動作に先立って、予め初期値を設定することが必要である。
【0049】
このため、図1に示す内部状態初期値設定部60は、ニューラルネットワーク200の動作の開始に先立って、予め設定された初期値を、ニューラルネットワーク200内の全てのダイナミックニューロン210に対して出力する。具体的には、ニューラルネットワーク200の動作の開始に先立って、全てのダイナミックニューロン210に対して、適当に選択された内部状態値Xの初期値をセットすると共に、この内部状態値Xの初期値に対応する外部出力値Yをセットする。このように、ニューラルネットワーク200内の全てのダイナミックニューロン210に初期値をセットすることにより、ニューラルネットワーク200の動作は速やかに開始されることとなる。
【0050】
次に、図1に示すニューラルネットワーク200の学習方法について説明する。図8は、ニューラルネットワーク200に対して所望の認識対象データを学習させるための学習装置300の構成を示す。この学習装置300は、発話された音声から作成した入力用教師データを記憶する入力用教師データ記憶部310と、この入力用教師データに対応した前記状態空間内の遷移パターンを表す出力用教師データを含む複数組の出力用教師データを記憶する出力用教師データ記憶部312と、学習させたい入力用教師データを選択する入力用教師データ選択部314と、この入力用教師データ選択部314で選択された入力用教師データに対応する出力用教師データを選択する出力用教師データ選択部316と、ニューラルネットワーク200の学習を制御する学習制御部318とを含む。
【0051】
この学習装置300による学習を行う場合、まず、学習対象となるニューラルネットワーク200を構成する全てのダイナミックニューロン210に、内部状態初期値設定部60からの内部状態値Xの初期値をセットする。
【0052】
次に、学習させたい入力用教師データが、入力用教師データ選択部314で選択され、この選択された入力用教師データは学習制御部318に入力される。このとき、選択された入力用教師データに対応する出力用教師データが、出力用教師データ選択部316で選択され、この選択された出力用教師データも学習制御部318に入力される。
【0053】
学習制御部318においては、入力された連続音声データは、特徴抽出部10に入力されて特徴ベクトル110が抽出される。この抽出された特徴ベクトル110は、ニューラルネットワーク200に入力用教師データZjとして入力される。
【0054】
ニューラルネットワーク200では、全てのダイナミックニューロン210について、それぞれ入力用教師データZjの和を求め、その内部状態値Xが更新される。そして、更新された内部状態値Xによりダイナミックニューロン210の外部出力値Yを求める。
【0055】
初期状態では、ニューラルネットワーク200の各ダイナミックニューロン210間の結合強度としては、ランダムな値が与えられている。従って、図5のダイナミックニューロン210−11〜210−14から出力される座標値P1、P2、P3、P4は、不正確な値であるが、これらの値が正しい値となるように、徐々に各ダイナミックニューロン210の重みを変更していく。
【0056】
このように、この学習装置300では、入力された音声データから形成された入力用教師データおよびこれに対応した遷移パターンを表す出力用教師データを含む複数組の教師データを予め用意しておき、入力用教師データを入力した場合、この入力用教師データに対応する出力用教師データを得るように各ダイナミックニューロン210を学習させる工程を、前記複数組の教師データ毎に繰り返し行う。これにより、短時間に学習の効果を高めることができる。なお、ニューラルネットワーク200の学習の繰り返し回数は、数千回程度である。
【0057】
図9は、入力用教師データと出力用教師データとを比較する際に使用するパターンを示す。図9に示すように、このパターンとして、(A)認識対象語のみ、(B)第1の連結パターン(認識対象語後半と認識対象語)、(C)第2の連結パターン(認識対象語後半と非認識対象語)、(D)第3の連結パターン(非認識対象語後半と認識対象語)、(E)第4の連結パターン(非認識対象語と非認識対象語)という5パターンを使用する。この図では、横軸が時間、縦軸が認識対象語の検出出力となっている。
【0058】
従来の学習方法では、同一の認識対象語が連続入力された場合、この検出出力が立ち上がったままとなり認識対象語の個数が正確には分からない場合があった。本発明では、認識時に出力値を初期値に戻すリセットを行い、かつ、上記5パターンを用いて学習することにより、このような場合も認識対象語の個数が正確に分かる。
【0059】
すなわち、パターン(B)(C)を用いることにより、認識対象語の前半で認識を行い、認識対象語の後半では認識を行わない学習ができるため、認識対象語が複数連続する場合でも正確に連続音声認識することができる。また、パターン(D)(E)を用いることにより、認識対象語を認識し、非認識対象語を認識しない学習ができるため、認識対象語と非認識対象語とが複数連続する場合でも正確に連続音声認識することができる。
【0060】
また、非認識対象語も学習対象とすることにより、さらに認識対象語と非認識対象語を正確かつ効率的に区別できるようになる。
【0061】
このような学習方法によって、複数のアトラクタが形成されたニューラルネットワーク200に対して、アトラクタに対応する複数の音声データを入力した場合には、ニューラルネットワーク200の状態空間の遷移により、入力された複数の音声データを認識することができる。
【0062】
ここで、上記の音声認識用ニューラルネットワーク200を用いた音声認識の学習方法について具体的に説明する。
【0063】
図10は、本発明を用いた音声認識の学習方法を示すフローチャートである。学習は、第1の学習工程を行い、第2の学習工程という2段階で行う。
【0064】
第1の学習工程では、予備学習の準備(ステップ2)および予備学習(ステップ4)を行う。
【0065】
まず、準備段階として、対象となる話者の孤立発話データをデータ入力手段10に入力し、変換手段によりアナログ音声データをディジタルデータに変換し、記憶手段に記憶する(ステップ2)。対象となる話者分のデータを記憶した時点で孤立発話データの学習を開始する。
【0066】
図11に示すように、予備学習では、以下の手順で処理する(ステップ4)。まず、ある認識対象語に対して、対応する孤立発話データを1つ入力して認識させ、所定点をリセット位置として設定する(ステップ20)。この際のリセット位置の設定方法を図13に示す。この例では、リセット位置は、各話者における各認識対象語に対応した出力の遷移パターンの時間軸上の中点Tmである。時間軸上の中点Tmは、機械的に設定できるため、後に行う追加学習の準備が短時間でできる。なお、リセット位置は、時間軸上の中点Tmには限られず、認識対象語の時間軸上であればどこでもよい。
【0067】
ここで、認識とは、具体的には、ニューラルネットワーク200への各孤立発話の入力に対して、図12に示すように、ニューラルネットワーク200からの出力がある一定の値(しきい値)を超えることを意味する。通常は、あるしきい値を超えたところでリセットし、出力を初期値に戻す。
【0068】
また、学習させる音声データは、認識対象語だけでもよいが、非認識対象語も学習させることにより、連続の時系列音声データから認識対象語だけ取り出すことができる。
【0069】
リセット位置設定後、ニューラルネットワーク200を学習させる。この方法として、各孤立発話をつなぎ合わせて仮の連続発話として記憶部310に記憶する。各孤立発話データから図9に示す5パターンの入出力用教師データを作成する(ステップ22)。
【0070】
5パターンの内、パターン(B)(C)の作成は、認識対象語のリセット位置設定後、リセット位置を区分点として出力の遷移パターンを前後に区分することにより、認識対象語後半というデータを作成できる。
【0071】
5パターンの入出力用教師データ作成後、これらを用いてニューラルネットワーク200を学習させる(ステップ24)。
【0072】
学習後、望ましい出力が得られているか判断し(ステップ26)、十分な性能が得られると判断できる場合、学習を終了する。不十分な場合は、同じ教師データを用いて学習および性能評価(ステップ24、26)を繰り返し行う。
【0073】
このようにして、学習させたニューラルネットワーク200を用いても従来に比べ、高性能な連続発話の認識ができるが、さらに性能を上げるため、このニューラルネットワーク200を用いて第2の学習工程を行う。第1の学習では、リセット位置を機械的に設定できるため、学習を速く進めることができ、1つの認識対象語に対して1回のみリセットを行うため、1つの認識対象語に対して認識しなかったり、複数回認識したりすることはない。したがって、従来必要だったラベリングという作業は必要無くなる。さらに、このように学習が進んだ段階で第2の学習を行うため、短時間かつ正確な学習を実現することにおいて、より効果的である。
【0074】
第2の学習工程では、図10に示すように、以下の処理を行う(ステップ6〜14)。
【0075】
各話者毎の連続発話を入力、A/D変換、記憶し、入力用の連続発話データおよび連続発話を用いた各連結パターンデータを作成する(ステップ6)。入力用の連続発話データを用いてテスト駆動を行う(ステップ8)。
【0076】
図14に示すように、テスト駆動の手順は以下のようになる。入力された連続発話データをニューラルネットワーク200に入力し(ステップ34)、入力された認識対象語を認識した際の出力の時間軸上でリセットがかかる位置(しきい値を超える座標および時点)を調べ、記憶する(ステップ36)。この工程をテスト駆動と呼ぶ。
【0077】
図12に示すように、テスト駆動で得られた認識対象語のリセット位置を区分点として、図9に示す5パターンの内、パターン(B)(C)の連結パターン型教師データを作成する(ステップ10)。同様に、非認識対象語と認識対象語を連結してパターン(D)、非認識対象語と非認識対象語を連結してパターン(E)を作成する。その後、追加学習を行う(ステップ12)。
【0078】
図15に示すように、追加学習の手順は以下のようになる。作成された5パターンの教師データをニューラルネットワーク200に入力し(ステップ40)、各ダイナミックニューロン210の重みづけを順次更新しながら、ニューラルネットワーク200を学習させる(ステップ42)。これら5パターンの学習は、ある1パターンを正確に認識できるようになってから次のパターンの学習を行ってもよいが、ニューラルネットワーク200を用いて学習するため、5パターン同時に並列的に学習させることもできる。これにより、さらに、学習時間を短縮できる。
【0079】
図10に示すように、追加学習後、追加学習により実際に出力された出力と望ましい出力とを比較し、十分な性能が得られるかどうか判断し、十分であれば学習を終了する(ステップ14)。不十分であれば、テスト駆動から追加学習、性能比較までの手順(ステップ8〜14)を繰り返し行うことにより、どの話者に対しても最適な音声認識ができるニューラルネットワーク200を実現することができる。
【0080】
以上が学習の流れであるが、ここで、例えば、「0」「1」・・・「9」の数字を組合せた連続発話データを学習する方法を具体的に説明する。この場合、表に示す100パターンの連続発話データに対して十分な音声認識が行えるよう上記の学習の流れに沿って学習する。
【0081】
図16は、上記100パターンを示す。まず、予備学習として、「ぜろ」「いち」・・・「なな」・・・「きゅう」という10個の孤立発話データをニューラルネットワーク200に入力する。入力された各孤立発話データに対する出力の遷移パターンの時間軸上の中点を区分点として、各孤立発話データを組合せ「ぜろぜろ」「ぜろいち」・・・「きゅうきゅう」という連続発話に近似した連結パターン型入力用教師データを機械的に作成する。
【0082】
なお、時系列の音声データの中から認識対象語を取り出すためには、認識対象語だけでなく、非認識対象語も学習させておくことが必要である。また、孤立発話された認識対象語の学習により、図9に示す5パターンの内、パターン(A)について学習できることになる。
【0083】
単独の孤立発話データおよび連続発話に近似した連結パターン型入力用教師データをニューラルネットワーク200に入力して学習させ、望ましい出力が得られるようになったニューラルネットワーク200を用いてテスト駆動を行う。
【0084】
テスト駆動では、連続発話データから形成された入力用教師データを入力し、認識対象語に対する出力のリセット位置を自動判定させる。このリセット位置を区分点として5パターンの連結パターン型出力用教師データを作成し、追加学習を行う。
【0085】
予備学習だけでも従来の学習に比べ十分な性能は得られるが、図16に示す「「ごーぜろ」のように、孤立発話の組合せだけだと「ごぜろ」となってしまい、実際のなめらかな連続発話と異なるため、真に最適な認識を行うため、連続発話を用いた学習を行うことが好ましい。
【0086】
例えば、「ろく」が認識対象語とすると、5パターンは、図9の(A)は「ろく」(B)は「ろく」の後半+「ろく」、(C)は「ろく」の後半+「ぜろ」〜「ご」および「ろく」の後半+「なな」〜「きゅう」(D)は、「ぜろ」〜「ご」+「ろく」および「なな」〜「きゅう」+「ろく」(E)は「ぜろ」〜「ご」および「なな」〜「きゅう」のそれぞれの数字の組合せとなる。
【0087】
パターン(A)については、予備学習の段階で孤立発話について学習済みであるため、ここでは改めて学習しない。例えば、パターン(B)は「ろく」後半+「ろく」となるが、最初の「ろく」後半については出力を出さないようにし、これに連続する「ろく」を認識すると出力を出す学習を行う。同様にパターン(C)は「ろく」後半+「なな」等となるが、最初の「ろく」後半については出力を出さないようにし、これに連続する「なな」等についても誤認識して出力を出すことのないように学習を行う。
【0088】
パターン(D)は「ぜろ」+「ろく」等であるが、非認識対象語「ぜろ」等では誤認識して出力を出すことのないように学習を行い、これに連続する認識対象語「ろく」を認識すると出力を出す学習を行う。同様に、パターン(E)は「ぜろ」+「ぜろ」等である。
【0089】
この2パターンは、認識対象語が「ろく」のとき、パターン(D)(E)であるが、認識対象語を「ぜろ」とすると、パターン(B)(C)として使用できる。すなわち、学習が進むにつれて徐々に必要な学習量も減らすことができ、効率的な学習ができる。
【0090】
もちろん、2連続の発話だけでなく、3連続以上の連続発話データに対しても連結パターン型教師データを2連続から3連続、4連続と増やしていくことにより、2連続の場合と同様に学習できる。
【0091】
以上のように、本発明を用いた学習方法によれば、ラベリングせずに連続発話を学習できるため、短時間かつ正確に連続音声を認識することができる。
【図面の簡単な説明】
【図1】本発明が適用された学習方法を実現するための機能ブロック図である。
【図2】音声データから特徴を抽出する手順を示す概略図である。
【図3】アトラクタの一例を示す図である。
【図4】入力データとアトラクタの座標値との関係を示す図である。
【図5】本発明が適用されたニューラルネットワークの概略図である。
【図6】本発明が適用されたダイナミックニューロンの概略図である。
【図7】本発明が適用されたダイナミックニューロンの詳細図である。
【図8】本発明が適用された学習装置の概略図である。
【図9】本発明で使用する教師パターンを示す図である。
【図10】本発明が適用された学習方法のフローチャートを示す図である。
【図11】本発明が適用された学習方法の第1の工程である予備学習の手順を示す図である。
【図12】ダイナミックニューロンの出力の一例を示す図である。
【図13】出力を時間軸上の中点で区分することを示す図である。
【図14】本発明が適用された学習方法の第2の工程であるテスト駆動の手順を示す図である。
【図15】本発明が適用された学習方法の第2の工程である追加学習の手順を示す図である。
【図16】学習対象の一例を示す図である。
【符号の説明】
10 特徴抽出部
20 ニューラルネットワーク型パターン認識手段
40 アトラクタ制御部
60 内部状態初期値設定部
110 特徴ベクトル
120 出力結果データ
200 ニューラルネットワーク
210 ダイナミックニューロン
220 内部状態値記憶手段
240 内部状態値更新手段
260 出力値生成手段
300 学習装置
310 入力データ記憶部
312 出力データ記憶部
314 入力データ選択部
316 出力データ選択部
318 学習制御部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a learning method for a neural network for speech recognition.
[0002]
[Background]
There are two types of speech recognition: isolated word speech recognition and continuous speech recognition.
[0003]
In addition, the continuous speech recognition methods are roughly classified into three methods: a DP matching (Dynamic Programming Matching) method, an HMM (Hidden Markov Model) method, and a neural network method.
[0004]
The DP matching method inputs the input speech and its start and end points during speech recognition, and uses dynamic programming to nonlinearly expand and contract the time axis so that the same phonemes of the standard pattern and the input speech correspond to each other. This is a method in which time normalization is performed and the distance between the two is minimized as a recognition result.
[0005]
The HMM method expresses one phoneme, syllable, or word with one HMM. Each HMM has a probability of existence, and a transition probability from one HMM to another HMM is learned. Is given by. In the HMM method, during speech recognition, an input speech and its start and end are input, and the probability that the input speech belongs to each category is calculated as the probability of transition from the start state to the end state. Then, the category represented by the HMM that maximizes the probability is used as the recognition result.
[0006]
When recognizing continuous speech, it is desirable to learn using continuous speech. In this case, it is necessary to accurately detect the start and end of phonemes and the like in continuous speech before starting speech recognition. However, in continuous speech, it is extremely difficult to mechanically detect the beginning and end of each phoneme, and it must be done by a specialist such as labeling, so it takes time and there is also a problem in terms of accuracy. It was.
[0007]
In order to cope with these problems, the DP matching method and the HMM method repeatedly perform detection processing for all possible start end points so that voice recognition can be started without inputting the start end points. There is also a method of finding out the results by trial and error.
[0008]
However, for example, when the length of the voice is N, there is an order of N as a possibility of the start end, and there is an order of N as a possibility of the end. For this reason, in order to obtain a desired recognition result by a possible combination of the start end and the end, an order of the square of N may be required.
[0009]
[Problems to be solved by the invention]
In order to solve these problems, a recurrent neural network using a neuron-like element whose internal state is described by a differential equation has been proposed as a new type of neural network.
[0010]
However, for example, when continuous speech such as “777 (Nanananana)” is input, it is extremely difficult to determine how many “7” are in the input speech.
[0011]
An object of the present invention is to provide a learning method of a neural network for speech recognition that can perform continuous speech recognition accurately in a short time.
[0012]
[Means for Solving the Problems]
To achieve the purpose,BookinventionFor learning neural network for speech recognitionIs a neural network learning method for speech recognition that includes a plurality of dynamic neurons and recognizes a predetermined recognition target word inputted by speech.
When the first connected pattern type input teacher data in which the second half of the recognition target word and the continuous recognition target word are connected is input, only the continuous recognition target word is recognized,
When the second connected pattern type input teacher data in which the second half of the recognition target word and the continuous non-recognition target words are connected is input, the plurality of recognition target words are not recognized. It is characterized by learning dynamic neurons.
[0013]
According to the present invention, learning can be performed in which the first half of the recognition target word is recognized and the second half of the recognition target word is not recognized. Therefore, continuous speech recognition can be performed accurately even when a plurality of recognition target words are continuous.
[0014]
Also,Learning method of neural network for speech recognitionIs,
When the recognition target word is input as input teacher data, the recognition target word is recognized,
When the third connected pattern type input teacher data in which a non-recognition target word and a continuous recognition target word are concatenated is input, the continuous recognition target word is recognized,
When the fourth connected pattern type input teacher data in which a non-recognition target word and a continuous non-recognition target word are connected is input, the plurality of dynamics are determined so that the recognition target word is not recognized. Learn neuronsMay be.
[0015]
According to the present invention, since recognition can be performed by recognizing a recognition target word and not recognizing a non-recognition target word, continuous speech recognition can be accurately performed even when a plurality of recognition target words and non-recognition target words are consecutive.
[0016]
Also,Learning method of neural network for speech recognitionIs,
A step of inputting a recognition target word and storing a predetermined point on the time axis of the input recognition target word as a division point;
Extracting data from the latter half of the recognition point from the recognition target word, and generating the first and second connected pattern type input teacher data;
IncludingMay be.
[0017]
According to the present invention, since the division points are mechanically set, teacher data can be easily generated, and the initial learning can be advanced quickly, so that continuous speech recognition learning can be accelerated. As the predetermined point, for example, a midpoint on the time axis of one word can be used.
[0018]
Also,Learning method of neural network for speech recognitionIs,
Creating and storing a plurality of sets of input / output teacher data including each input teacher data and output teacher data representing a transition pattern corresponding thereto; and
A process of learning the plurality of dynamic neurons so as to obtain the output teacher data corresponding to the input teacher data when the input teacher data is input. A process to be repeated every time,
IncludingMay be.
[0019]
According to the present invention, after creating and storing a plurality of sets of input / output teacher data including each input teacher data and output teacher data representing a transition pattern corresponding thereto, the input / output teacher data is input. The learning effect can be enhanced in a short time by repeating the process of learning the dynamic neuron for each input / output teacher data.
[0020]
Also,Learning method of neural network for speech recognitionIn
Each input teacher data is:
It is formed using words that are recognized and unrecognizedMay.
[0021]
According to the present invention, since only a storage amount of isolated utterances is required, the storage capacity of voice data can be reduced. In addition, by combining isolated utterances, it is possible to freely form a voice that approximates a continuous utterance, which is flexible and convenient.
[0022]
Also,Learning method of neural network for speech recognitionIn
The neural network is
The plurality of dynamic neurons set with an internal state value X are coupled to each other,
Each of the dynamic neurons
The internal state value X satisfies input data Zj (j = 0 to n: n is a natural number) given to the dynamic neuron and a function X = G (X, Zj) expressed using the internal state value X. Formed as a dynamic neuron that changes over time in value,
The internal state value X is converted into a value satisfying the function F (X) and output.May.
[0023]
According to the present invention, since each dynamic neuron itself holds the internal state value X, time series data can be processed regardless of the structure of the applied neural network.
[0024]
Also,Learning method of neural network for speech recognitionIs,
The plurality of dynamic neurons are trained to form a plurality of attractors at different positions corresponding to a plurality of recognition target words in a state space of a neural network including a plurality of dynamic neurons.May.
[0025]
Normally, it is necessary to prepare one output neuron for one recognition target unit. However, according to the present invention, since learning can be performed with fewer neurons, processing becomes lighter and continuous in a shorter time. Speech recognition is possible.
[0026]
The attractor means a convergence state of output values of output neurons.
[0027]
In each of the above-described inventions, after the recognition target word is detected, the output value is reset, so that speech recognition can be performed accurately even when speech data is continuously input.
[0028]
DETAILED DESCRIPTION OF THE INVENTION
DESCRIPTION OF EMBODIMENTS Hereinafter, a preferred embodiment in which the present invention is applied to a learning method for a speech recognition neural network will be described in detail with reference to the drawings.
[0029]
FIG. 1 shows a block diagram of an embodiment of a speech recognition apparatus for realizing a learning method according to the present invention. The speech recognition apparatus shown in FIG. 1 includes a
[0030]
As shown in FIG. 2, the
[0031]
A plurality of dynamic neurons in the
[0032]
The result determined by this recognition operation is input to the
[0033]
The attractor means a convergence state of output values of output neurons. Specifically, in the state space of the
[0034]
FIG. 4 shows an example of assigning the coordinate values of attractors when ten numbers are inputted by voice. Thus, for example, eight states can be represented if the state space is three-dimensional, and 16 states can be represented if the state space is four-dimensional.
[0035]
Next, the configuration of the
[0036]
Each
[0037]
In the
[0038]
FIG. 6 schematically shows the configuration of the
[0039]
Each
[0040]
FIG. 7 shows a specific example of the structure of the
[0041]
Here, in each time change of the internal state value X and the external output value Y, when the current internal state value is Xcurr, the updated internal state value is Xnext, and the input data at the time of this update operation is Zj Assuming that the operation of the internal
[0042]
Various forms of expression of the arithmetic expression are conceivable. For example, it can be expressed by the following arithmetic expression using the first-order differential equation. Here, τ is a constant.
[0043]
[Expression 1]
[0044]
The arithmetic expression indicating the operation of the internal state
[0045]
Also, as input data Zj to each
[0046]
In FIG. 7, each
[0047]
Then, the external output value Y is output from the four dynamic neurons 210-11 to 210-14, which are the output
[0048]
Next, the setting of the initial value of the internal state value X of the
[0049]
For this reason, the internal state initial
[0050]
Next, a learning method of the
[0051]
When learning by the learning device 300 is performed, first, the initial value of the internal state value X from the internal state initial
[0052]
Next, the input teacher data to be learned is selected by the input teacher
[0053]
In the
[0054]
In the
[0055]
In the initial state, a random value is given as the connection strength between the
[0056]
As described above, in this learning apparatus 300, a plurality of sets of teacher data including input teacher data formed from input speech data and output teacher data representing transition patterns corresponding thereto are prepared in advance. When input teacher data is input, the process of learning each
[0057]
FIG. 9 shows a pattern used when comparing the input teacher data and the output teacher data. As shown in FIG. 9, as this pattern, (A) only the recognition target word, (B) the first connection pattern (the second recognition target word and the recognition target word), and (C) the second connection pattern (the recognition target word). 5 patterns of (second half and unrecognized target word), (D) third connected pattern (second half of unrecognized target word and recognized target word), and (E) fourth connected pattern (non-recognized target word and unrecognized target word). Is used. In this figure, the horizontal axis represents time, and the vertical axis represents the detection target word detection output.
[0058]
In the conventional learning method, when the same recognition target word is continuously input, the detection output remains rising and the number of recognition target words may not be accurately known. In the present invention, resetting the output value to the initial value at the time of recognition is performed, and learning is performed using the above five patterns, so that the number of words to be recognized can be accurately determined even in such a case.
[0059]
That is, by using the patterns (B) and (C), learning can be performed in which the first half of the recognition target word is recognized and the second half of the recognition target word is not recognized. Continuous speech recognition is possible. In addition, by using the patterns (D) and (E), it is possible to learn the recognition target word and recognize the non-recognition target word. Continuous speech recognition is possible.
[0060]
In addition, by making the non-recognition target word a learning target, the recognition target word and the non-recognition target word can be further accurately and efficiently distinguished.
[0061]
When a plurality of speech data corresponding to an attractor is input to the
[0062]
Here, a speech recognition learning method using the above-described neural network for
[0063]
FIG. 10 is a flowchart showing a speech recognition learning method using the present invention. Learning is performed in two stages, ie, a first learning step and a second learning step.
[0064]
In the first learning step, preparation for preliminary learning (step 2) and preliminary learning (step 4) are performed.
[0065]
First, as a preparation stage, the isolated speech data of the target speaker is input to the data input means 10, the analog voice data is converted into digital data by the conversion means, and stored in the storage means (step 2). The learning of the isolated utterance data is started when the data for the target speaker is stored.
[0066]
As shown in FIG. 11, in preliminary learning, processing is performed according to the following procedure (step 4). First, one piece of corresponding isolated utterance data is input and recognized for a certain recognition target word, and a predetermined point is set as a reset position (step 20). A setting method of the reset position at this time is shown in FIG. In this example, the reset position is the midpoint Tm on the time axis of the output transition pattern corresponding to each recognition target word for each speaker. Since the midpoint Tm on the time axis can be set mechanically, preparation for additional learning to be performed later can be performed in a short time. The reset position is not limited to the midpoint Tm on the time axis, and may be anywhere on the time axis of the recognition target word.
[0067]
Here, the recognition specifically refers to a certain value (threshold value) output from the
[0068]
Further, the speech data to be learned may be only the recognition target word, but only the recognition target word can be extracted from the continuous time-series speech data by learning the non-recognition target word.
[0069]
After the reset position is set, the
[0070]
Of the five patterns, patterns (B) and (C) are created by setting the reset position of the recognition target word and then dividing the output transition pattern back and forth using the reset position as a dividing point to obtain data of the second half of the recognition target word. Can be created.
[0071]
After creating the five patterns of input / output teacher data, the
[0072]
After learning, it is determined whether a desired output is obtained (step 26). If it can be determined that sufficient performance is obtained, the learning is terminated. If insufficient, learning and performance evaluation (
[0073]
In this way, even if the learned
[0074]
In the second learning step, as shown in FIG. 10, the following processing is performed (
[0075]
The continuous utterances for each speaker are input, A / D converted and stored, and the continuous utterance data for input and each connection pattern data using the continuous utterances are created (step 6). Test drive is performed using the continuous utterance data for input (step 8).
[0076]
As shown in FIG. 14, the test drive procedure is as follows. The input continuous utterance data is input to the neural network 200 (step 34), and the position (coordinate and time exceeding the threshold) where the reset is performed on the output time axis when the input recognition target word is recognized. Check and store (step 36). This process is called test drive.
[0077]
As shown in FIG. 12, connected pattern type teacher data of patterns (B) and (C) among the five patterns shown in FIG. Step 10). Similarly, a non-recognition target word and a recognition target word are connected to create a pattern (D), and a non-recognition target word and a non-recognition target word are connected to create a pattern (E). Thereafter, additional learning is performed (step 12).
[0078]
As shown in FIG. 15, the additional learning procedure is as follows. The created five patterns of teacher data are input to the neural network 200 (step 40), and the
[0079]
As shown in FIG. 10, after the additional learning, the output actually output by the additional learning is compared with the desired output to determine whether sufficient performance can be obtained, and if sufficient, the learning is terminated (step 14). ). If it is insufficient, the
[0080]
The above is the flow of learning. Here, for example, a method of learning continuous speech data combining numbers “0”, “1”... “9” will be described in detail. In this case, learning is performed according to the above learning flow so that sufficient speech recognition can be performed on 100 patterns of continuous speech data shown in the table.
[0081]
FIG. 16 shows the 100 patterns. First, as preliminary learning, ten isolated utterance data “Zero”, “Ichi”, “Nana”, “Kyu” are input to the
[0082]
In order to extract a recognition target word from time-series speech data, it is necessary to learn not only the recognition target word but also the non-recognition target word. Further, by learning a recognition target word that has been uttered in isolation, it is possible to learn pattern (A) among the five patterns shown in FIG.
[0083]
Single isolated utterance data and connected pattern type input teacher data approximated to continuous utterances are input to the
[0084]
In the test drive, input teacher data formed from continuous speech data is input, and the output reset position for the recognition target word is automatically determined. Using this reset position as a dividing point, five patterns of connected pattern type output teacher data are created, and additional learning is performed.
[0085]
Preliminary learning alone provides sufficient performance compared to conventional learning, but as shown in Fig. 16, "Gero" is a combination of isolated utterances, it becomes "Gero". Since this is different from smooth continuous utterance, it is preferable to perform learning using continuous utterance in order to perform truly optimal recognition.
[0086]
For example, if “Roku” is the recognition target word, the five patterns in FIG. 9 (A) are “Roku”, (B) is the latter half of “Roku” + “Roku”, and (C) is the latter half of “Roku” + "Zero"-"Goku" and the latter half of "Roku" + "Nana"-"Kyu" (D) are "Zero"-"Goku" + "Roku" and "Nana"-"Kyu" + “Roku” (E) is a combination of the numbers “Zero” to “Go” and “Nana” to “Kyu”.
[0087]
As for the pattern (A), since the isolated utterance has already been learned at the preliminary learning stage, it is not learned again here. For example, the pattern (B) is “Roku” second half + “Roku”, but the first “Roku” second half is not output, and learning is performed to output when the “Roku” continuous is recognized. . Similarly, the pattern (C) is “Roku” second half + “Nana”, etc., but the first “Roku” second half is not output, and the “Nana” etc. that follow this are also mistakenly recognized. So that no output is generated.
[0088]
Pattern (D) is "zero" + "roku", etc., but the non-recognized word "gero" etc. is learned so that it will not be erroneously recognized and output, and the recognition objects that follow this Learning to output when the word "Roku" is recognized. Similarly, the pattern (E) is “zero” + “zero” or the like.
[0089]
These two patterns are patterns (D) and (E) when the recognition target word is “Roku”, but can be used as patterns (B) and (C) when the recognition target word is “Gero”. That is, as the learning progresses, the necessary learning amount can be gradually reduced, and efficient learning can be performed.
[0090]
Of course, learning is performed in the same way as in the case of 2 consecutive cases by increasing the connected pattern type teacher data from 2 continuous to 3 continuous and 4 continuous not only for continuous speech of 3 continuous but also continuous continuous speech data of 3 or more. it can.
[0091]
As described above, according to the learning method using the present invention, continuous speech can be learned without labeling, so that continuous speech can be recognized accurately in a short time.
[Brief description of the drawings]
FIG. 1 is a functional block diagram for realizing a learning method to which the present invention is applied.
FIG. 2 is a schematic diagram illustrating a procedure for extracting features from audio data.
FIG. 3 is a diagram illustrating an example of an attractor.
FIG. 4 is a diagram illustrating a relationship between input data and attractor coordinate values;
FIG. 5 is a schematic diagram of a neural network to which the present invention is applied.
FIG. 6 is a schematic diagram of a dynamic neuron to which the present invention is applied.
FIG. 7 is a detailed view of a dynamic neuron to which the present invention is applied.
FIG. 8 is a schematic diagram of a learning apparatus to which the present invention is applied.
FIG. 9 is a diagram showing a teacher pattern used in the present invention.
FIG. 10 is a flowchart of a learning method to which the present invention is applied.
FIG. 11 is a diagram showing a preliminary learning procedure that is a first step of a learning method to which the present invention is applied;
FIG. 12 is a diagram illustrating an example of an output of a dynamic neuron.
FIG. 13 is a diagram illustrating that the output is divided at a midpoint on the time axis.
FIG. 14 is a diagram showing a test driving procedure which is the second step of the learning method to which the present invention is applied.
FIG. 15 is a diagram showing a procedure of additional learning which is the second step of the learning method to which the present invention is applied.
FIG. 16 is a diagram illustrating an example of a learning target.
[Explanation of symbols]
10 Feature extraction unit
20 Neural network type pattern recognition means
40 Attractor controller
60 Internal state initial value setting section
110 feature vectors
120 Output result data
200 Neural network
210 Dynamic neurons
220 Internal state value storage means
240 Internal state value update means
260 Output value generation means
300 Learning device
310 Input data storage unit
312 Output data storage unit
314 Input data selection part
316 Output data selection part
318 Learning control unit
Claims (5)
対象となる話者の孤立発話データとして、認識対象語の孤立発話データと、前記認識対象語以外の所定の単語である非認識対象語の孤立発話データを生成し、
前記認識対象語の孤立発話データの時間軸上の所定点を区分点として区分し、
前記区分点より後半の認識対象語の孤立発話データおよびこれに連続する前記認識対象語の孤立発話データが連結された第1の連結パターン型入力用教師データが前記音声認識用ニューラルネットワークに入力された場合には、当該連続する認識対象語の認識を行い、かつ、当該後半の認識対象語の認識を行わず、
前記区分点より後半の認識対象語の孤立発話データおよびこれに連続する前記非認識対象語の孤立発話データが連結された第2の連結パターン型入力用教師データが前記音声認識用ニューラルネットワークに入力された場合には、当該後半の認識対象語および当該非認識対象語の認識を行わないように、
前記複数のダイナミックニューロンを学習させることを特徴とする音声認識用ニューラルネットワークの学習方法。In a learning method of a neural network for speech recognition that includes a plurality of dynamic neurons and recognizes a predetermined recognition target word inputted by speech,
As isolated speech data of a target speaker, isolated speech data of a recognition target word and non-recognition target word isolated speech data other than the recognition target word are generated,
Classifying a predetermined point on the time axis of the isolated speech data of the recognition target word as a dividing point;
The first connection pattern type input training data isolated speech data of the recognition target word is connected is input to the neural network for speech recognition successive late recognition terms isolated speech data and thereto from the segment point If the performs recognition of the recognition target words that the continuous and without recognition of the latter half of recognized words,
Input to the non-recognition terms second connection pattern type input training data neural network for recognition the voice isolated speech data are linked in a continuous late recognition terms isolated speech data and thereto from the segment point In such a case, do not recognize the latter recognition target word and the non-recognition target word .
A learning method of a neural network for speech recognition, wherein the plurality of dynamic neurons are learned.
前記認識対象語の孤立発話データのみが入力用教師データとして前記音声認識用ニューラルネットワークに入力された場合には、当該認識対象語の認識を行い、
前記非認識対象語の孤立発話データおよびこれに連続する前記認識対象語の孤立発話データが連結された第3の連結パターン型入力用教師データが前記音声認識用ニューラルネットワークに入力された場合には、当該連続する認識対象語の認識を行い、かつ、当該非認識対象語の認識を行わず、
前記非認識対象語の孤立発話データおよびこれに連続する前記非認識対象語の孤立発話データが連結された第4の連結パターン型入力用教師データが前記音声認識用ニューラルネットワークに入力された場合には、これらの非認識対象語の認識を行わないように、
前記複数のダイナミックニューロンを学習させることを特徴とする音声認識用ニューラルネットワークの学習方法。In claim 1,
If only isolated speech data of the recognition target words is input to the neural network for speech recognition as an input for the teacher data, it performs the recognition of the recognition target word,
When said third connection pattern type input teacher data the recognition target words isolated speech data are linked to successive isolated speech data and to the non-recognition target word is input to the neural network for speech recognition performs recognition of the recognition target words that the continuous and without recognition of the non-recognition terms,
When the fourth connection pattern type input training data isolated speech data of the non-recognition terms the continuous to the isolated speech data and its non-recognition target word is connected is input to the neural network for speech recognition In order not to recognize these unrecognized words,
A learning method of a neural network for speech recognition, wherein the plurality of dynamic neurons are learned.
前記第1〜第4の連結パターン型入力用教師データおよび前記認識対象語の孤立発話データの入力用教師データと、これらの各入力用教師データに対応した遷移パターンを表す出力用教師データとを含む複数組の入出力用教師データを作成して記憶する工程と、
前記各入力用教師データを前記音声認識用ニューラルネットワークに入力したときに、前記各入力用教師データに対応した前記出力用教師データを得るように前記複数のダイナミックニューロンを学習させる処理を、前記複数組の入出力用教師データ毎に繰り返し行う工程と、
を含むことを特徴とする音声認識用ニューラルネットワークの学習方法。In claim 2 ,
And the first to fourth input training data of the isolated speech data connection pattern type input training data and the recognition target words, and output training data representing the these transition patterns corresponding to each input training data Creating and storing a plurality of sets of input / output teacher data including:
A process of learning the plurality of dynamic neurons so as to obtain the output teacher data corresponding to the input teacher data when the input teacher data is input to the speech recognition neural network; A process to be repeated for each set of input / output teacher data;
A method for learning a neural network for speech recognition, comprising:
前記音声認識用ニューラルネットワークは、
内部状態値Xが設定された前記複数のダイナミックニューロンを相互に結合して構成されており、
各ダイナミックニューロンは、
その内部状態値Xが、当該ダイナミックニューロンに与えられる入力データZj(j=0〜n:nは自然数)および内部状態値Xを用いて表された関数X=G(X,Zj)を満足する値に時間変化するダイナミックニューロンとして形成され、
その内部状態値Xを、関数F(X)を満足する値に変換して出力されるように形成されたものであることを特徴とする音声認識用ニューラルネットワークの学習方法。In any one of Claims 1-3 ,
The neural network for speech recognition is
The plurality of dynamic neurons set with an internal state value X are coupled to each other,
Each dynamic neuron
The internal state value X satisfies input data Zj (j = 0 to n: n is a natural number) given to the dynamic neuron and a function X = G (X, Zj) expressed using the internal state value X. Formed as a dynamic neuron that changes over time in value,
A learning method of a neural network for speech recognition, characterized in that the internal state value X is converted into a value satisfying a function F (X) and output.
前記音声認識用ニューラルネットワークの状態空間内に、複数の認識対象語に対応して、アトラクタを異なる位置に複数形成するように、前記複数のダイナミックニューロンを学習させることを特徴とする音声認識用ニューラルネットワークの学習方法。In any one of Claims 1-4 ,
The neural network for speech recognition , wherein the plurality of dynamic neurons are learned so as to form a plurality of attractors at different positions corresponding to a plurality of recognition target words in a state space of the neural network for speech recognition. How to learn the network.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20688997A JP3775453B2 (en) | 1997-07-31 | 1997-07-31 | Learning method of neural network for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20688997A JP3775453B2 (en) | 1997-07-31 | 1997-07-31 | Learning method of neural network for speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1152992A JPH1152992A (en) | 1999-02-26 |
JP3775453B2 true JP3775453B2 (en) | 2006-05-17 |
Family
ID=16530737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP20688997A Expired - Fee Related JP3775453B2 (en) | 1997-07-31 | 1997-07-31 | Learning method of neural network for speech recognition |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3775453B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100486735B1 (en) * | 2003-02-28 | 2005-05-03 | 삼성전자주식회사 | Method of establishing optimum-partitioned classifed neural network and apparatus and method and apparatus for automatic labeling using optimum-partitioned classifed neural network |
JP5459903B2 (en) * | 2008-09-02 | 2014-04-02 | 株式会社半導体エネルギー研究所 | Anthracene derivative, light emitting element, light emitting device, electronic device, and lighting device |
JP6802118B2 (en) * | 2017-07-04 | 2020-12-16 | 株式会社日立製作所 | Information processing system |
-
1997
- 1997-07-31 JP JP20688997A patent/JP3775453B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH1152992A (en) | 1999-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0380297B1 (en) | Method and apparatus for speech recognition | |
US5165007A (en) | Feneme-based Markov models for words | |
EP0574951B1 (en) | Speech recognition system | |
JPH06102899A (en) | Voice recognition device | |
CN109036471B (en) | Voice endpoint detection method and device | |
JP2955297B2 (en) | Speech recognition system | |
KR100832556B1 (en) | Speech Recognition Methods for the Robust Distant-talking Speech Recognition System | |
CN108806691B (en) | Voice recognition method and system | |
JP3775453B2 (en) | Learning method of neural network for speech recognition | |
JP3775454B2 (en) | Learning method of neural network for speech recognition | |
CN109979422B (en) | Fundamental frequency processing method, device, equipment and computer readable storage medium | |
KR101727306B1 (en) | Languange model clustering based speech recognition apparatus and method | |
Abraham et al. | Articulatory Feature Extraction Using CTC to Build Articulatory Classifiers Without Forced Frame Alignments for Speech Recognition. | |
JPH0643895A (en) | Device for recognizing voice | |
JPH0667698A (en) | Speech recognizing device | |
JP2982689B2 (en) | Standard pattern creation method using information criterion | |
JPH08248975A (en) | Standard pattern learning device and speech recognizer using the same device | |
EP0238693B1 (en) | Speech recognition system and method using statistical models for words | |
JPH04271397A (en) | Voice recognizer | |
JP2010145784A (en) | Voice recognizing device, acoustic model learning apparatus, voice recognizing method, and program | |
CN112562657A (en) | Personalized language offline learning method based on deep neural network | |
JP3105708B2 (en) | Voice recognition device | |
JP3231365B2 (en) | Voice recognition device | |
JP2000122693A (en) | Speaker recognizing method and speaker recognizing device | |
JPH07146696A (en) | Automatic forming method for word template in voice recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050406 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20050406 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050406 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20051220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060214 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090303 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100303 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100303 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110303 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120303 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120303 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130303 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140303 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |