JP3775454B2 - 音声認識用ニューラルネットワークの学習方法 - Google Patents

音声認識用ニューラルネットワークの学習方法 Download PDF

Info

Publication number
JP3775454B2
JP3775454B2 JP20689097A JP20689097A JP3775454B2 JP 3775454 B2 JP3775454 B2 JP 3775454B2 JP 20689097 A JP20689097 A JP 20689097A JP 20689097 A JP20689097 A JP 20689097A JP 3775454 B2 JP3775454 B2 JP 3775454B2
Authority
JP
Japan
Prior art keywords
recognition
data
speech
input
recognition target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP20689097A
Other languages
English (en)
Other versions
JPH1152993A (ja
Inventor
浩 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP20689097A priority Critical patent/JP3775454B2/ja
Publication of JPH1152993A publication Critical patent/JPH1152993A/ja
Application granted granted Critical
Publication of JP3775454B2 publication Critical patent/JP3775454B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識用ニューラルネットワークの学習方法に関する。
【0002】
【背景技術】
音声認識の形態は、孤立単語音声認識と連続音声認識の2通りに分けられる。
【0003】
また、連続音声認識の方法としては、大きく分けて、DPマッチング(Dynamic Programming Matching)法、HMM(Hidden Markov Model)法、ニューラルネットワークによる方法の3通りがある。
【0004】
DPマッチング法は、音声認識時に、入力音声とその始端および終端を入力し、標準パターンと入力音声の同じ音素同士が対応するように、動的計画法(Dynamic Programming)を用いて時間軸を非線形に伸縮する時間正規化をし、両者の距離が最小となるものを認識結果とする方法である。
【0005】
また、HMM法は、一つの音素、音節、または単語を一つのHMMで表現するもので、HMMのそれぞれに存在確率が、また、あるHMMから別のHMMへの遷移には遷移確率が学習により与えられている。HMM法は、音声認識時に、入力音声とその始端および終端を入力し、始端の状態から終端の状態へ遷移する確率として、その入力音声が各々の範疇に属する確率が計算される。そして、その確率を最大とするHMMモデルに代表される範疇を認識結果とする方法である。
【0006】
連続音声を認識する場合、連続音声を用いて学習することが望ましい。この場合、音声認識を開始する前に連続音声中の音素等の始端と終端を正確に検出しておく必要がある。しかし、連続音声において、各音素等の始端と終端を機械的に検出することは極めて難しく、ラベリングといった専門家による作業とならざるを得ないため、時間がかかり、正確性の面でも問題があった。
【0007】
これらの問題に対処するため、DPマッチング法、HMM法では、始端終端を入力しなくても音声認識を開始できるように、可能性のある全ての始端終端についての検出処理を繰り返し行い、最良の結果を試行錯誤的に見つけ出すという方法も採られている。
【0008】
しかし、例えば、音声の長さがNのとき、始端の可能性としてはNのオーダーがあり、終端の可能性としてもNのオーダーがある。このため、始端終端を可能な組合せによって所望の認識結果を得るためには、Nの2乗のオーダーがかかることもあり得る。
【0009】
【発明が解決しようとする課題】
これらの問題を解決するため、新しい型のニューラルネットワークとして、内部状態が微分方程式で記述される神経細胞様素子を用いたリカレントニューラルネットワークが提案されている。
【0010】
しかし、例えば、「777(なななななな)」といった連続音声が入力された場合、入力音声中に「7」がいくつあるか判別することは極めて困難であった。
【0011】
本発明の目的は、短時間かつ正確に連続音声認識することができる音声認識用ニューラルネットワークの学習方法を提供することである。
【0012】
【課題を解決するための手段】
前記課題を解決するため、発明に係る音声認識用ニューラルネットワークの学習方法、複数のダイナミックニューロンを備え、音声入力される所定の認識対象語を認識する音声認識用ニューラルネットワークの学習方法において、
認識対象語の後半およびこれに連続する認識対象語を連続発話して形成された第1の連結パターン型入力用教師データが入力された場合には、前記連続する認識対象語の認識のみを行い、
認識対象語の後半およびこれに連続する非認識対象語を連続発話して形成された第2の連結パターン型入力用教師データが入力された場合には、認識対象語の認識を行わないように、前記複数のダイナミックニューロンを学習させることを特徴とする。
【0013】
本発明によれば、認識対象語の前半で認識を行い、認識対象語の後半では認識を行わない学習ができるため、認識対象語が複数連続する場合でも正確に連続音声認識することができる。
【0014】
特に、連続発話を用いて学習するため、現実に発話される音声に適した精度の高い音声認識ができる。
【0015】
また、前記音声認識用ニューラルネットワークの学習方法
認識対象語が入力用教師データとして入力された場合には、前記認識対象語の認識を行い、
非認識対象語およびこれに連続する認識対象語を連続発話して形成された第3の連結パターン型入力用教師データが入力された場合には、前記連続する認識対象語の認識を行い、
非認識対象語およびこれに連続する非認識対象語を連続発話して形成された第4の連結パターン型入力用教師データが入力された場合には、認識対象語の認識を行わないように、前記複数のダイナミックニューロンを学習させてもよい
【0016】
本発明によれば、認識対象語を認識し、非認識対象語を認識しない学習ができるため、認識対象語と非認識対象語とが複数連続する場合でも正確に連続音声認識することができる。
【0017】
また、前記音声認識用ニューラルネットワークの学習方法
認識対象語およびこれに連続する認識対象語を連続発話して形成された第1の連結パターン型入力用教師データ並びに認識対象語およびこれに連続する非認識対象語を連続発話して形成された第2の連結パターン型入力用教師データを入力し、音声認識用ニューラルネットワークがこれらを認識する認識タイミングを検出する工程と、
前記第1および第2の連結パターン型入力用教師データから前記認識タイミングより後半のデータを取り出し、前記第1および第2の連結パターン型入力用教師データを生成する工程と、
を含んでもよい
【0018】
本発明によれば、1つの認識対象語に対して確実に1度だけ認識することができるため、1つの認識対象語を誤って複数と認識したり、非認識対象語と誤認識することなく、正確に連続音声認識することができる。
【0019】
また、前記音声認識用ニューラルネットワークの学習方法
前記各入力用教師データおよびこれに対応した遷移パターンを表す出力用教師データを含む複数組の入出力用教師データを作成して記憶する工程と、
前記各入力用教師データを入力したときに、前記各入力用教師データに対応した前記出力用教師データを得るように前記複数のダイナミックニューロンを学習させる処理を、前記複数組の入出力用教師データ毎に繰り返し行う工程と、
を含んでもよい
【0020】
本発明によれば、各教師データおよびこれに対応した遷移パターンを表す出力用教師データを含む複数組の入出力用教師データを作成して記憶した後、入出力用教師データが入力されたダイナミックニューロンを学習させる処理を、入出力用教師データ毎に繰り返し行うことにより、短時間に学習の効果を高めることができる。
【0021】
また、前記音声認識用ニューラルネットワークの学習方法において、
認識対象語の後半およびこれに連続する認識対象語が孤立発話して形成された孤立発話型の第1の連結パターン型入力用教師データ並びに前記認識対象語の後半およびこれに連続する孤立発話された非認識対象語が連結された孤立発話型の第2の連結パターン型入力用教師データを用い、前記孤立発話型の第1の連結パターン型入力用教師データが入力された場合には、前記連続する認識対象語の認識のみを行い、
前記孤立発話型の第2の連結パターン型入力用教師データが入力された場合には、認識対象語の認識を行わないように、前記複数のダイナミックニューロンを学習させる第1の学習工程と、
前記第1の学習工程終了後に、連続発話して形成された前記第1および第2の連結パターン型入力用教師データを用い、請求項1〜5のいずれかの学習方法により、前記複数のダイナミックニューロンを学習させる第2の学習工程と、
を含んでもよい
これによれば、第1の学習工程においては孤立発話を用いてデータを処理するため、データの入力、記憶等の点で短時間に処理することができ、ある程度の音声認識性能が出るようになった後、第2の学習工程において、さらに精度の高い音声認識を行うことができる。
【0022】
また、前記音声認識用ニューラルネットワークの学習方法において、
前記第1の学習工程では、
認識対象語が入力用教師データとして入力された場合には、前記認識対象語の認識を行い、
非認識対象語およびこれに連続する認識対象語が孤立発話して形成された孤立発話型の第3の連結パターン型入力用教師データが入力された場合には、前記連続する認識対象語の認識を行い、
非認識対象語およびこれに連続する非認識対象語が孤立発話して形成された孤立発話型の第4の連結パターン型入力用教師データが入力された場合には、認識対象語の認識を行わないように、前記複数のダイナミックニューロンを学習させてもよい
【0023】
本発明によれば、第1の学習工程においても、認識対象語を認識し、非認識対象語を認識しない学習ができるので、第2の学習工程を開始する時点ではさらに高精度の音声認識を行える状態となっているため、さらに短時間に所望の音声認識ができるようになる。
【0024】
また、前記音声認識用ニューラルネットワークの学習方法
複数のダイナミックニューロンを備えるニューラルネットワークの状態空間内に、複数の認識対象語に対応して、アトラクタを異なる位置に複数形成するように、前記複数のダイナミックニューロンを学習させてもよい
【0025】
通常は1つの認識対象単位に対して1つの出力用ニューロンを用意する必要があるが、本発明によれば、より少ないニューロンで学習することができるため、処理が軽くなり、より短時間に連続音声認識することができる。
【0026】
なお、アトラクタとは、出力用ニューロンの出力値の収束状態をいう。
【0027】
また、上記の各発明は、認識対象語の検出後、その出力値をリセットすることにより、音声データが連続入力された場合でも正確に音声認識することができる。
【0028】
【発明の実施の形態】
以下、音声認識用ニューラルネットワークの学習方法に本発明を適用した好適な実施の形態について、図面を参照しつつ詳細に説明する。
【0029】
図1は、本発明による学習方法を実現するための音声認識装置の一実施の形態の構成図を示す。図1に示す音声認識装置は、特徴抽出部10と、音声認識処理手段であるニューラルネットワーク200と、アトラクタ判定部40と、内部状態初期値設定部60とを有する。
【0030】
特徴抽出部10は、図2に示すように、入力されるアナログ音声データ100をフレーム単位で切り出し、特徴ベクトル110に変換して、ニューラルネットワーク200に出力する。この特徴ベクトル110は、図2(A)に示すように、アナログ音声データ100を所定のフレーム102の単位で順次取り出す。図2(B)に示すように、フレーム単位で切り出された音声データ100は、線形予測分析やフィルタバンク等で特徴が抽出され、図2(C)に示す特徴ベクトル110の列として、ニューラルネットワーク200に順次入力される。ニューラルネットワーク200は、複数のダイナミックニューロンにより構成されている。
【0031】
ニューラルネットワーク200内の複数のダイナミックニューロンは、内部状態初期値設定部60から出力される所定の値によって初期化されている。各ダイナミックニューロンは、詳細には後述するように、所定の複数のデータを認識することができるよう、異なる特徴のパターンで学習されている。特徴抽出部10から出力される特徴ベクトル110は、ニューラルネットワーク200の複数のダイナミックニューロンにそれぞれ入力される。ニューラルネットワークは、入力データに演算処理を施して認識動作を行う。
【0032】
この認識動作により判定された結果は、出力結果データ120として、アトラク夕判定部40に入力される。出力結果データ120としては、例えば、4つの座標値P1、P2、P3、P4の値が出力される。アトラク夕判定部40は、出力結果データ120である4つの座標値P1、P2、P3、P4を用いて、どのアトラクタが選択されたのかを判別し、この判別結果を認識結果150として出力する。ここで、認識すべき複数のデータが属するものを範疇、いわゆる力テゴリとし、この力テゴリが複数用意されている。そして、1つのニューラルネットワーク200内には、前記複数の力テゴリがそれぞれ異なる位置に埋め込まれており、この複数の力テゴリの内のあるカテゴリから他の力テゴリへの軌跡の落ち着く先がアトラクタである。
【0033】
なお、アトラクタとは、出力用ニューロンの出力値の収束状態をいう。具体的には、ある時刻におけるニューラルネットワーク200の状態空間では、例えば、N次元の状態空間の任意の一点として表される。例えば、図3に示すように、4つの座標値P1、P2、P3、P4における点Q1〜Q4である。そして、このニューラルネットワーク200の経時変化は、ある点Q1から他の異なる点Q2等への軌跡として表すことができる。この力テゴリが示す座標値は収束状態を示すものである。なお、アトラクタは、最終的には、収束して収束点となる以外に、例えば周期軌道やカオスになったり、発散したりするものである。このような音声認識装置を用いることにより、複数のダイナミックニューロンを含む1つのニューラルネットワーク200で、音声データ等の複数のデータを認識することが可能である。
【0034】
図4は、10個の数字が音声入力された場合のアトラクタの座標値の割り当ての一例である。このように、例えば、状態空間が3次元であれば8つの状態、4次元であれば16の状態を表すことができる。
【0035】
次に、この音声認識装置のニューラルネットワーク200の構成について説明する。図5は、図1に示すニューラルネットワーク200の構成例を簡略化して表したものである。このニューラルネットワーク200は、神経細胞を構成する複数のダイナミックニューロン210を相互に接続して構成されている。各ニューロン210の結合部には、大きさが可変の重み付けがそれぞれなされている。このニューラルネットワーク200は、特徴ベクトル110を入力する入力用ダイナミックニューロン210と、この特徴ベクトル110の入力により状態が遷移した後の値を出力する出力用ダイナミックニューロン210とを別個のものとして示している。具体的には、10個の入力用ダイナミックニューロン210−1〜210−10に10個の特徴ベクトル110がそれぞれ入力され、複数のダイナミックニューロン210を介した値はアトラクタを判別するための値として、出力用ダイナミックニューロン210−11〜210−14からそれぞれ出力される。
【0036】
各ダイナミックニューロン210は、その内部状態値Xが、当該ダイナミックニューロン210に与えられる入力データZj(j=0〜n:nは自然数)および内部状態値Xを用いて表された関数X=G(X,Zj)を満足する値に時間変化するダイナミックニューロン210として形成され、その内部状態値Xが、関数F(X)を満足する値に変換して出力されるよう形成されている。
【0037】
ニューラルネットワーク200では、各ダイナミックニューロン210間の重みを学習により変化させることによって、複数の入力データに対応して正確なアトラクタを設定することができる。
【0038】
図6は、ダイナミックニューロン210の構成を模式的に示している。各ダイナミックニューロン210は、所定の内部状態値Xを記憶する内部状態値記憶手段220と、前記内部状態値Xおよび以下に説明する入力データZjが入力されて、内部状態値記憶手段220の内部状態値Xを更新する内部状態値更新手段240と、内部状態値Xを外部出力値Yに変換する出力値生成手段260とを含む。
【0039】
各ダイナミックニューロン210は、上記の構成をそれぞれ備えることにより、内部状態値Xを基にし、この内部状態値Xを順次更新していく。これにより、ダイナミックニューロン210に入力されるデータの過去の履歴が、内部状態値Xとして変換されて保存される。すなわち、内部状態値Xとして、入力値の時間的な履歴が保存され、この履歴は外部出力値Yに反映される。ダイナミックニューロン210は、上記のダイナミックな動作を行う。これにより、静的なニューロンを用いたニューラルネットワークとは異なり、ニューラルネットワークの構造等に依存することなく、時系列データを処理することができ、ニューラルネットワーク200全体の回路規模を小さくすることができる。これにより、処理が軽くなり、より短時間に高精度の音声認識が可能となる。
【0040】
図7は、ダイナミックニューロン210の構造の一具体例を示す。内部状態記憶手段220は、内部状態値Xを記憶するメモリ222を含んで構成される。また、内部状態値更新手段240は、入力データZjの積算手段242と、演算を行って新たな内部状態値Xを求め、メモリ222に記憶されている内部状態値Xを更新する演算部244とを含む。また、出力値生成手段260は、演算部262を含む、この演算部262は、メモリ222に記憶されている内部状態値Xを、値域制限した外部出力値Yにシグモイド(ロジスティック)関数等を用いて変換するように形成されている。
【0041】
ここで、内部状態値Xおよび外部出力値Yのそれぞれの時間変化において、現在の内部状態値をXcurr、更新される内部状態値をXnext、この更新動作時点での入力データをZjとするときに、内部状態更新手段240の動作を形式的に関数Gで表すとすると、更新される内部状態値Xnextは、Xnext=G(Xcurr、Z1、・・・ Zj・・・、Zn)と表現することができる。
【0042】
この演算式の表現の具体的な形としては様々なものが考えられるが、例えば1階の微分方程式を用いて、以下に示す数1の演算式で示すことができる。ここで、τは定数である。
【0043】
【数1】
Figure 0003775454
【0044】
なお、内部状態値更新手段240の動作を示す演算式としては、上記の演算式に限定されることなく、単純な線形変換やしきい値関数等を用いることも可能である。
【0045】
また、各ダイナミックニューロン210への入力データZjとしては、ある重みが乗算されることにより重み付けされたダイナミックニューロン210自身の出力や、結合重みが乗算されることにより重み付けされた他のダイナミックニューロン210の出力等が含まれる。
【0046】
図7においては、各ダイナミックニューロン210には、重み付けされたダイナミックニューロン210自身の出力や、重み付けされた他のダイナミックニューロン210からの出力が与えられる。特に、10個のダイナミックニューロン210−1〜210−10には、重み付けされたダイナミックニューロン210自身の出力や重み付けされた他のダイナミックニューロン210からの出力の他に、特徴抽出部10からの特徴ベクトル110が与えられる。
【0047】
そして、出力用ダイナミックニューロン210である4個のダイナミックニューロン210−11〜210−14から外部出力値Yが出力される。
【0048】
次に、ニューラルネットワーク200の内部状態値Xの初期値の設定について説明する。上記のように、各ダイナミックニューロン210は、内部状態値記憶手段220内に記憶された内部状態値Xを、内部状態値更新手段240で順次更新していくように構成されている。したがって、ニューラルネットワーク200内のダイナミックニューロン210は、その動作に先立って、予め初期値を設定することが必要である。
【0049】
このため、図1に示す内部状態初期値設定部60は、ニューラルネットワーク200の動作の開始に先立って、予め設定された初期値を、ニューラルネットワーク200内の全てのダイナミックニューロン210に対して出力する。具体的には、ニューラルネットワーク200の動作の開始に先立って、全てのダイナミックニューロン210に対して、適当に選択された内部状態値Xの初期値をセットすると共に、この内部状態値Xの初期値に対応する外部出力値Yをセットする。このように、ニューラルネットワーク200内の全てのダイナミックニューロン210に初期値をセットすることにより、ニューラルネットワーク200の動作は速やかに開始されることとなる。
【0050】
次に、図1に示すニューラルネットワーク200の学習方法について説明する。図8は、ニューラルネットワーク200に対して所望の認識対象データを学習させるための学習装置300の構成を示す。この学習装置300は、発話された音声から作成した入力用教師データを記憶する入力用教師データ記憶部310と、この入力用教師データに対応した前記状態空間内の遷移パターンを表す出力用教師データを含む複数組の出力用教師データを記憶する出力用教師データ記憶部312と、学習させたい入力用教師データを選択する入力用教師データ選択部314と、この入力用教師データ選択部314で選択された入力用教師データに対応する出力用教師データを選択する出力用教師データ選択部316と、ニューラルネットワーク200の学習を制御する学習制御部318とを含む。
【0051】
この学習装置300による学習を行う場合、まず、学習対象となるニューラルネットワーク200を構成する全てのダイナミックニューロン210に、内部状態初期値設定部60からの内部状態値Xの初期値をセットする。
【0052】
次に、学習させたい入力用教師データが、入力用教師データ選択部314で選択され、この選択された入力用教師データは学習制御部318に入力される。このとき、選択された入力用教師データに対応する出力用教師データが、出力用教師データ選択部316で選択され、この選択された出力用教師データも学習制御部318に入力される。
【0053】
学習制御部318においては、入力された連続音声データは、特徴抽出部10に入力されて特徴ベクトル110が抽出される。この抽出された特徴ベクトル110は、ニューラルネットワーク200に入力用教師データZjとして入力される。
【0054】
ニューラルネットワーク200では、全てのダイナミックニューロン210について、それぞれ入力用教師データZjの和を求め、その内部状態値Xが更新される。そして、更新された内部状態値Xによりダイナミックニューロン210の外部出力値Yを求める。
【0055】
初期状態では、ニューラルネットワーク200の各ダイナミックニューロン210間の結合強度としては、ランダムな値が与えられている。従って、図5のダイナミックニューロン210−11〜210−14から出力される座標値P1、P2、P3、P4は、不正確な値であるが、これらの値が正しい値となるように、徐々に各ダイナミックニューロン210の重みを変更していく。
【0056】
このように、この学習装置300では、入力された音声データから形成された入力用教師データおよびこれに対応した遷移パターンを表す出力用教師データを含む複数組の教師データを予め用意しておき、入力用教師データを入力した場合、この入力用教師データに対応する出力用教師データを得るように各ダイナミックニューロン210を学習させる工程を、前記複数組の教師データ毎に繰り返し行う。これにより、短時間に学習の効果を高めることができる。なお、ニューラルネットワーク200の学習の繰り返し回数は、数千回程度である。
【0057】
図9は、入力用教師データと出力用教師データとを比較する際に使用するパターンを示す。図9に示すように、このパターンとして、(A)認識対象語のみ、(B)第1の連結パターン(認識対象語後半と認識対象語)、(C)第2の連結パターン(認識対象語後半と非認識対象語)、(D)第3の連結パターン(非認識対象語後半と認識対象語)、(E)第4の連結パターン(非認識対象語と非認識対象語)という5パターンを使用する。この図では、横軸が時間、縦軸が認識対象語の検出出力となっている。
【0058】
従来の学習方法では、同一の認識対象語が連続入力された場合、この検出出力が立ち上がったままとなり認識対象語の個数が正確には分からない場合があった。本発明では、認識時に出力値を初期値に戻すリセットを行い、かつ、上記5パターンを用いて学習することにより、このような場合も認識対象語の個数が正確に分かる。
【0059】
すなわち、パターン(B)(C)を用いることにより、認識対象語の前半で認識を行い、認識対象語の後半では認識を行わない学習ができるため、認識対象語が複数連続する場合でも正確に連続音声認識することができる。また、パターン(D)(E)を用いることにより、認識対象語を認識し、非認識対象語を認識しない学習ができるため、認識対象語と非認識対象語とが複数連続する場合でも正確に連続音声認識することができる。
【0060】
また、非認識対象語も学習対象とすることにより、さらに認識対象語と非認識対象語を正確かつ効率的に区別できるようになる。
【0061】
このような学習方法によって、複数のアトラクタが形成されたニューラルネットワーク200に対して、アトラクタに対応する複数の音声データを入力した場合には、ニューラルネットワーク200の状態空間の遷移により、入力された複数の音声データを認識することができる。
【0062】
ここで、上記の音声認識用ニューラルネットワーク200を用いた音声認識の学習方法について具体的に説明する。
【0063】
図10は、本発明を用いた音声認識の学習方法を示すフローチャートである。学習は、第1の学習工程を行い、第2の学習工程という2段階で行う。
【0064】
第1の学習工程では、予備学習の準備(ステップ2)および予備学習(ステップ4)を行う。
【0065】
まず、準備段階として、対象となる話者の孤立発話データをデータ入力手段10に入力し、変換手段によりアナログ音声データをディジタルデータに変換し、記憶手段に記憶する(ステップ2)。対象となる話者分のデータを記憶した時点で孤立発話データの学習を開始する。
【0066】
図11に示すように、予備学習では、以下の手順で処理する(ステップ4)。まず、ある認識対象語に対して、対応する孤立発話データを1つ入力して認識させ、所定点をリセット位置として設定する(ステップ20)。この際のリセット位置の設定方法を図13に示す。この例では、リセット位置は、各話者における各認識対象語に対応した出力の遷移パターンの時間軸上の中点Tmである。時間軸上の中点Tmは、機械的に設定できるため、後に行う追加学習の準備が短時間でできる。なお、リセット位置は、時間軸上の中点Tmには限られず、認識対象語の時間軸上であればどこでもよい。
【0067】
ここで、認識とは、具体的には、ニューラルネットワーク200への各孤立発話の入力に対して、図12に示すように、ニューラルネットワーク200からの出力がある一定の値(しきい値)を超えることを意味する。通常は、あるしきい値を超えたところでリセットし、出力を初期値に戻す。
【0068】
また、学習させる音声データは、認識対象語だけでもよいが、非認識対象語も学習させることにより、連続の時系列音声データから認識対象語だけ取り出すことができる。
【0069】
リセット位置設定後、ニューラルネットワーク200を学習させる。この方法として、各孤立発話をつなぎ合わせて仮の連続発話として記憶部310に記憶する。各孤立発話データから図9に示す5パターンの入出力用教師データを作成する(ステップ22)。
【0070】
5パターンの内、パターン(B)(C)の作成は、認識対象語のリセット位置設定後、リセット位置を区分点として出力の遷移パターンを前後に区分することにより、認識対象語後半というデータを作成できる。
【0071】
5パターンの入出力用教師データ作成後、これらを用いてニューラルネットワーク200を学習させる(ステップ24)。
【0072】
学習後、望ましい出力が得られているか判断し(ステップ26)、十分な性能が得られると判断できる場合、学習を終了する。不十分な場合は、同じ教師データを用いて学習および性能評価(ステップ24、26)を繰り返し行う。
【0073】
このようにして、学習させたニューラルネットワーク200を用いても従来に比べ、高性能な連続発話の認識ができるが、さらに性能を上げるため、このニューラルネットワーク200を用いて第2の学習工程を行う。第1の学習では、リセット位置を機械的に設定できるため、学習を速く進めることができ、1つの認識対象語に対して1回のみリセットを行うため、1つの認識対象語に対して認識しなかったり、複数回認識したりすることはない。したがって、従来必要だったラベリングという作業は必要無くなる。さらに、このように学習が進んだ段階で第2の学習を行うため、短時間かつ正確な学習を実現することにおいて、より効果的である。
【0074】
第2の学習工程では、図10に示すように、以下の処理を行う(ステップ6〜14)。
【0075】
各話者毎の連続発話を入力、A/D変換、記憶し、入力用の連続発話データおよび連続発話を用いた各連結パターンデータを作成する(ステップ6)。入力用の連続発話データを用いてテスト駆動を行う(ステップ8)。
【0076】
図14に示すように、テスト駆動の手順は以下のようになる。入力された連続発話データをニューラルネットワーク200に入力し(ステップ34)、入力された認識対象語を認識した際の出力の時間軸上でリセットがかかる位置(しきい値を超える座標および時点)を調べ、記憶する(ステップ36)。この工程をテスト駆動と呼ぶ。
【0077】
図12に示すように、テスト駆動で得られた認識対象語のリセット位置を区分点として、図9に示す5パターンの内、パターン(B)(C)の連結パターン型教師データを作成する(ステップ10)。同様に、非認識対象語と認識対象語を連結してパターン(D)、非認識対象語と非認識対象語を連結してパターン(E)を作成する。その後、追加学習を行う(ステップ12)。
【0078】
図15に示すように、追加学習の手順は以下のようになる。作成された5パターンの教師データをニューラルネットワーク200に入力し(ステップ40)、各ダイナミックニューロン210の重みづけを順次更新しながら、ニューラルネットワーク200を学習させる(ステップ42)。これら5パターンの学習は、ある1パターンを正確に認識できるようになってから次のパターンの学習を行ってもよいが、ニューラルネットワーク200を用いて学習するため、5パターン同時に並列的に学習させることもできる。これにより、さらに、学習時間を短縮できる。
【0079】
図10に示すように、追加学習後、追加学習により実際に出力された出力と望ましい出力とを比較し、十分な性能が得られるかどうか判断し、十分であれば学習を終了する(ステップ14)。不十分であれば、テスト駆動から追加学習、性能比較までの手順(ステップ8〜14)を繰り返し行うことにより、どの話者に対しても最適な音声認識ができるニューラルネットワーク200を実現することができる。
【0080】
以上が学習の流れであるが、ここで、例えば、「0」「1」・・・「9」の数字を組合せた連続発話データを学習する方法を具体的に説明する。この場合、表に示す100パターンの連続発話データに対して十分な音声認識が行えるよう上記の学習の流れに沿って学習する。
【0081】
図16は、上記100パターンを示す。まず、予備学習として、「ぜろ」「いち」・・・「なな」・・・「きゅう」という10個の孤立発話データをニューラルネットワーク200に入力する。入力された各孤立発話データに対する出力の遷移パターンの時間軸上の中点を区分点として、各孤立発話データを組合せ「ぜろぜろ」「ぜろいち」・・・「きゅうきゅう」という連続発話に近似した連結パターン型入力用教師データを機械的に作成する。
【0082】
なお、時系列の音声データの中から認識対象語を取り出すためには、認識対象語だけでなく、非認識対象語も学習させておくことが必要である。また、孤立発話された認識対象語の学習により、図9に示す5パターンの内、パターン(A)について学習できることになる。
【0083】
単独の孤立発話データおよび連続発話に近似した連結パターン型入力用教師データをニューラルネットワーク200に入力して学習させ、望ましい出力が得られるようになったニューラルネットワーク200を用いてテスト駆動を行う。
【0084】
テスト駆動では、連続発話データから形成された入力用教師データを入力し、認識対象語に対する出力のリセット位置を自動判定させる。このリセット位置を区分点として5パターンの連結パターン型出力用教師データを作成し、追加学習を行う。
【0085】
予備学習だけでも従来の学習に比べ十分な性能は得られるが、図16に示す「「ごーぜろ」のように、孤立発話の組合せだけだと「ごぜろ」となってしまい、実際のなめらかな連続発話と異なるため、真に最適な認識を行うため、連続発話を用いた学習を行うことが好ましい。
【0086】
例えば、「ろく」が認識対象語とすると、5パターンは、図9の(A)は「ろく」(B)は「ろく」の後半+「ろく」、(C)は「ろく」の後半+「ぜろ」〜「ご」および「ろく」の後半+「なな」〜「きゅう」(D)は、「ぜろ」〜「ご」+「ろく」および「なな」〜「きゅう」+「ろく」(E)は「ぜろ」〜「ご」および「なな」〜「きゅう」のそれぞれの数字の組合せとなる。
【0087】
パターン(A)については、予備学習の段階で孤立発話について学習済みであるため、ここでは改めて学習しない。例えば、パターン(B)は「ろく」後半+「ろく」となるが、最初の「ろく」後半については出力を出さないようにし、これに連続する「ろく」を認識すると出力を出す学習を行う。同様にパターン(C)は「ろく」後半+「なな」等となるが、最初の「ろく」後半については出力を出さないようにし、これに連続する「なな」等についても誤認識して出力を出すことのないように学習を行う。
【0088】
パターン(D)は「ぜろ」+「ろく」等であるが、非認識対象語「ぜろ」等では誤認識して出力を出すことのないように学習を行い、これに連続する認識対象語「ろく」を認識すると出力を出す学習を行う。同様に、パターン(E)は「ぜろ」+「ぜろ」等である。
【0089】
この2パターンは、認識対象語が「ろく」のとき、パターン(D)(E)であるが、認識対象語を「ぜろ」とすると、パターン(B)(C)として使用できる。すなわち、学習が進むにつれて徐々に必要な学習量も減らすことができ、効率的な学習ができる。
【0090】
もちろん、2連続の発話だけでなく、3連続以上の連続発話データに対しても連結パターン型教師データを2連続から3連続、4連続と増やしていくことにより、2連続の場合と同様に学習できる。
【0091】
以上のように、本発明を用いた学習方法によれば、ラベリングせずに連続発話を学習できるため、短時間かつ正確に連続音声を認識することができる。
【図面の簡単な説明】
【図1】本発明が適用された学習方法を実現するための機能ブロック図である。
【図2】音声データから特徴を抽出する手順を示す概略図である。
【図3】アトラクタの一例を示す図である。
【図4】入力データとアトラクタの座標値との関係を示す図である。
【図5】本発明が適用されたニューラルネットワークの概略図である。
【図6】本発明が適用されたダイナミックニューロンの概略図である。
【図7】本発明が適用されたダイナミックニューロンの詳細図である。
【図8】本発明が適用された学習装置の概略図である。
【図9】本発明で使用する教師パターンを示す図である。
【図10】本発明が適用された学習方法のフローチャートを示す図である。
【図11】本発明が適用された学習方法の第1の工程である予備学習の手順を示す図である。
【図12】ダイナミックニューロンの出力の一例を示す図である。
【図13】出力を時間軸上の中点で区分することを示す図である。
【図14】本発明が適用された学習方法の第2の工程であるテスト駆動の手順を示す図である。
【図15】本発明が適用された学習方法の第2の工程である追加学習の手順を示す図である。
【図16】学習対象の一例を示す図である。
【符号の説明】
10 特徴抽出部
20 ニューラルネットワーク型パターン認識手段
40 アトラクタ制御部
60 内部状態初期値設定部
110 特徴ベクトル
120 出力結果データ
200 ニューラルネットワーク
210 ダイナミックニューロン
220 内部状態値記憶手段
240 内部状態値更新手段
260 出力値生成手段
300 学習装置
310 入力データ記憶部
312 出力データ記憶部
314 入力データ選択部
316 出力データ選択部
318 学習制御部

Claims (6)

  1. 複数のダイナミックニューロンを備え、音声入力される所定の認識対象語を認識する音声認識用ニューラルネットワークの学習方法において、
    対象となる話者の連続発話データとして、認識対象語が連続して発話された第1の連続発話データと、前記認識対象語と前記認識対象語以外の所定の単語である非認識対象語が連続して発話された第2の連続発話データを生成し、
    第1および第2の連続発話データにおける最初の前記認識対象語の発話データの時間軸上の所定点を区分点として区分し、
    前記第1の連続発話データのうち、前記区分点より後半の認識対象語の発話データおよびこれに連続する前記認識対象語の発話データの部分である第1の連結パターン型入力用教師データが前記音声認識用ニューラルネットワークに入力された場合には、当該連続する認識対象語の認識を行い、かつ、当該後半の認識対象語の認識を行わず、
    前記第2の連続発話データのうち、前記区分点より後半の認識対象語の発話データおよびこれに連続する前記非認識対象語の発話データの部分である第2の連結パターン型入力用教師データが前記音声認識用ニューラルネットワークに入力された場合には、当該後半の認識対象語および当該非認識対象語の認識を行わないように、前記複数のダイナミックニューロンを学習させることを特徴とする音声認識用ニューラルネットワークの学習方法。
  2. 請求項1において、
    前記認識対象語の孤立発話データのみが入力用教師データとして前記音声認識用ニューラルネットワークに入力された場合には、当該認識対象語の認識を行い、
    前記非認識対象語およびこれに連続する前記認識対象語を連続発話して形成された第3の連結パターン型入力用教師データが前記音声認識用ニューラルネットワークに入力された場合には、当該連続する認識対象語の認識を行い、かつ、当該非認識対象語の認識を行わず、
    前記非認識対象語およびこれに連続する前記非認識対象語を連続発話して形成された第4の連結パターン型入力用教師データが前記音声認識用ニューラルネットワークに入力された場合には、認識対象語の認識を行わないように、前記複数のダイナミックニューロンを学習させることを特徴とする音声認識用ニューラルネットワークの学習方法。
  3. 請求項において、
    前記第1〜第4の連結パターン型入力用教師データおよび前記認識対象語の孤立発話データの入力用教師データと、これらの各入力用教師データに対応した遷移パターンを表す出力用教師データを含む複数組の入出力用教師データを作成して記憶する工程と、
    前記各入力用教師データを前記音声認識用ニューラルネットワークに入力したときに、前記各入力用教師データに対応した前記出力用教師データを得るように前記複数のダイナミックニューロンを学習させる処理を、前記複数組の入出力用教師データ毎に繰り返し行う工程と、
    を含むことを特徴とする音声認識用ニューラルネットワークの学習方法。
  4. 請求項1〜3のいずれかに記載の音声認識用ニューラルネットワークの学習方法において、
    対象となる話者の孤立発話データとして、認識対象語の孤立発話データと、前記認識対象語以外の所定の単語である非認識対象語の孤立発話データを生成し、
    前記認識対象語の孤立発話データの時間軸上の所定点を区分点として区分し、
    前記区分点より後半の認識対象語の孤立発話データおよびこれに連続する前記認識対象語の孤立発話データ連結して形成された孤立発話型の第1の連結パターン型入力用教師データ並びに前記区分点より後半の認識対象語の孤立発話データおよびこれに連続する前記非認識対象語の孤立発話データ連結して形成された孤立発話型の第2の連結パターン型入力用教師データを生成し、
    前記孤立発話型の第1の連結パターン型入力用教師データが前記音声認識用ニューラルネットワークに入力された場合には、当該連続する認識対象語の認識を行い、かつ、当該 後半の認識対象語の認識を行わず、
    前記孤立発話型の第2の連結パターン型入力用教師データが前記音声認識用ニューラルネットワークに入力された場合には、当該後半の認識対象語および当該非認識対象語の認識を行わないように、前記複数のダイナミックニューロンを学習させる第1の学習工程と、
    前記第1の学習工程終了後に、連続発話して形成された前記第1および第2の連結パターン型入力用教師データを用い、請求項1〜のいずれかの学習方法により、前記複数のダイナミックニューロンを学習させる第2の学習工程と、
    を含むことを特徴とする音声認識用ニューラルネットワークの学習方法。
  5. 請求項において、
    前記第1の学習工程では、
    前記認識対象語の孤立発話データのみが入力用教師データとして前記音声認識用ニューラルネットワークに入力された場合には、当該認識対象語の認識を行い、
    前記非認識対象語の孤立発話データおよびこれに連続する前記認識対象語の孤立発話データ連結して形成された孤立発話型の第3の連結パターン型入力用教師データが前記音声認識用ニューラルネットワークに入力された場合には、前記連続する認識対象語の認識を行い、かつ、当該非認識対象語の認識を行わず、
    前記非認識対象語の孤立発話データおよびこれに連続する前記非認識対象語の孤立発話データ連結して形成された孤立発話型の第4の連結パターン型入力用教師データが前記音声認識用ニューラルネットワークに入力された場合には、これらの認識対象語の認識を行わないように、前記複数のダイナミックニューロンを学習させることを特徴とする音声認識用ニューラルネットワークの学習方法。
  6. 請求項1〜5のいずれかにおいて、
    前記音声認識用ニューラルネットワークの状態空間内に、複数の認識対象語に対応して、アトラクタを異なる位置に複数形成するように、前記複数のダイナミックニューロンを学習させることを特徴とする音声認識用ニューラルネットワークの学習方法。
JP20689097A 1997-07-31 1997-07-31 音声認識用ニューラルネットワークの学習方法 Expired - Fee Related JP3775454B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20689097A JP3775454B2 (ja) 1997-07-31 1997-07-31 音声認識用ニューラルネットワークの学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20689097A JP3775454B2 (ja) 1997-07-31 1997-07-31 音声認識用ニューラルネットワークの学習方法

Publications (2)

Publication Number Publication Date
JPH1152993A JPH1152993A (ja) 1999-02-26
JP3775454B2 true JP3775454B2 (ja) 2006-05-17

Family

ID=16530755

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20689097A Expired - Fee Related JP3775454B2 (ja) 1997-07-31 1997-07-31 音声認識用ニューラルネットワークの学習方法

Country Status (1)

Country Link
JP (1) JP3775454B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000058531A (ko) * 2000-06-10 2000-10-05 김성석 음성합성 및 음성인식 기술을 이용한 언어 학습 및 훈련기능을 가진 완구의 제어방법
US10373612B2 (en) 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US10923111B1 (en) 2019-03-28 2021-02-16 Amazon Technologies, Inc. Speech detection and speech recognition

Also Published As

Publication number Publication date
JPH1152993A (ja) 1999-02-26

Similar Documents

Publication Publication Date Title
EP0380297B1 (en) Method and apparatus for speech recognition
EP0574951B1 (en) Speech recognition system
JP3168779B2 (ja) 音声認識装置及び方法
CN1264888A (zh) 半监控说话者自适应
KR102221513B1 (ko) 음성 감정 인식 방법 및 시스템
CN109036471B (zh) 语音端点检测方法及设备
JP6787770B2 (ja) 言語記憶方法及び言語対話システム
JP2955297B2 (ja) 音声認識システム
KR100832556B1 (ko) 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법
JPH11149294A (ja) 音声認識装置および音声認識方法
CN108806691B (zh) 语音识别方法及系统
JP3775454B2 (ja) 音声認識用ニューラルネットワークの学習方法
JP3775453B2 (ja) 音声認識用ニューラルネットワークの学習方法
JPH0643895A (ja) 音声認識装置
Abraham et al. Articulatory Feature Extraction Using CTC to Build Articulatory Classifiers Without Forced Frame Alignments for Speech Recognition.
JPH0667698A (ja) 音声認識装置
JPH06119476A (ja) 時系列データ処理装置
JPH09288492A (ja) 情報量基準を用いた標準パターン作成方式
JPH08248975A (ja) 標準パターン学習装置およびこの装置を使用した音声認識装置
EP0238693B1 (en) Speech recognition system and method using statistical models for words
CN111179902B (zh) 基于高斯模型模拟共鸣腔的语音合成方法、设备及介质
CN114512124B (zh) 端到端语音识别方法、装置及电子设备
JPH04271397A (ja) 音声認識装置
CN112562657A (zh) 一种基于深度神经网络的个性语言离线学习方法
JPH07146696A (ja) 音声認識における単語テンプレートの自動作成方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050406

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050406

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050406

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20051220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060214

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090303

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100303

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100303

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110303

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120303

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120303

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130303

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140303

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees