JPH1152993A - 音声認識用ニューラルネットワークの学習方法 - Google Patents
音声認識用ニューラルネットワークの学習方法Info
- Publication number
- JPH1152993A JPH1152993A JP9206890A JP20689097A JPH1152993A JP H1152993 A JPH1152993 A JP H1152993A JP 9206890 A JP9206890 A JP 9206890A JP 20689097 A JP20689097 A JP 20689097A JP H1152993 A JPH1152993 A JP H1152993A
- Authority
- JP
- Japan
- Prior art keywords
- input
- recognition target
- target word
- learning
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
る学習方法を提供すること。 【解決手段】 第1の学習として、孤立発話された音声
データを入力し、データ検出の出力パターンを組合せて
教師データとし、前記孤立発話データを連結した孤立発
話型の連結パターン型教師データを作成し、この教師デ
ータを用いて学習する。次に、第2の学習として、連続
発話された音声データを入力し、認識対象語を認識した
時点を区分点として、認識対象語を2分割する。分割し
た認識対象語の後半部分と認識対象語または非認識対象
語とを連結した連結パターン型教師データを作成し、こ
の教師データを用いて追加学習する。
Description
ーラルネットワークの学習方法に関する。
続音声認識の2通りに分けられる。
く分けて、DPマッチング(Dynamic Programming Matc
hing)法、HMM(Hidden Markov Model)法、ニュー
ラルネットワークによる方法の3通りがある。
音声とその始端および終端を入力し、標準パターンと入
力音声の同じ音素同士が対応するように、動的計画法
(Dynamic Programming)を用いて時間軸を非線形に伸
縮する時間正規化をし、両者の距離が最小となるものを
認識結果とする方法である。
たは単語を一つのHMMで表現するもので、HMMのそ
れぞれに存在確率が、また、あるHMMから別のHMM
への遷移には遷移確率が学習により与えられている。H
MM法は、音声認識時に、入力音声とその始端および終
端を入力し、始端の状態から終端の状態へ遷移する確率
として、その入力音声が各々の範疇に属する確率が計算
される。そして、その確率を最大とするHMMモデルに
代表される範疇を認識結果とする方法である。
て学習することが望ましい。この場合、音声認識を開始
する前に連続音声中の音素等の始端と終端を正確に検出
しておく必要がある。しかし、連続音声において、各音
素等の始端と終端を機械的に検出することは極めて難し
く、ラベリングといった専門家による作業とならざるを
得ないため、時間がかかり、正確性の面でも問題があっ
た。
ング法、HMM法では、始端終端を入力しなくても音声
認識を開始できるように、可能性のある全ての始端終端
についての検出処理を繰り返し行い、最良の結果を試行
錯誤的に見つけ出すという方法も採られている。
始端の可能性としてはNのオーダーがあり、終端の可能
性としてもNのオーダーがある。このため、始端終端を
可能な組合せによって所望の認識結果を得るためには、
Nの2乗のオーダーがかかることもあり得る。
るため、新しい型のニューラルネットワークとして、内
部状態が微分方程式で記述される神経細胞様素子を用い
たリカレントニューラルネットワークが提案されてい
る。
な)」といった連続音声が入力された場合、入力音声中
に「7」がいくつあるか判別することは極めて困難であ
った。
声認識することができる音声認識用ニューラルネットワ
ークの学習方法を提供することである。
め、請求項1記載の発明は、複数のダイナミックニュー
ロンを備え、音声入力される所定の認識対象語を認識す
る音声認識用ニューラルネットワークの学習方法におい
て、認識対象語の後半およびこれに連続する認識対象語
を連続発話して形成された第1の連結パターン型入力用
教師データが入力された場合には、前記連続する認識対
象語の認識のみを行い、認識対象語の後半およびこれに
連続する非認識対象語を連続発話して形成された第2の
連結パターン型入力用教師データが入力された場合に
は、認識対象語の認識を行わないように、前記複数のダ
イナミックニューロンを学習させることを特徴とする。
を行い、認識対象語の後半では認識を行わない学習がで
きるため、認識対象語が複数連続する場合でも正確に連
続音声認識することができる。
実に発話される音声に適した精度の高い音声認識ができ
る。
おいて、認識対象語が入力用教師データとして入力され
た場合には、前記認識対象語の認識を行い、非認識対象
語およびこれに連続する認識対象語を連続発話して形成
された第3の連結パターン型入力用教師データが入力さ
れた場合には、前記連続する認識対象語の認識を行い、
非認識対象語およびこれに連続する非認識対象語を連続
発話して形成された第4の連結パターン型入力用教師デ
ータが入力された場合には、認識対象語の認識を行わな
いように、前記複数のダイナミックニューロンを学習さ
せることを特徴とする。
認識対象語を認識しない学習ができるため、認識対象語
と非認識対象語とが複数連続する場合でも正確に連続音
声認識することができる。
たは2のいずれかにおいて、認識対象語およびこれに連
続する認識対象語を連続発話して形成された第1の連結
パターン型入力用教師データ並びに認識対象語およびこ
れに連続する非認識対象語を連続発話して形成された第
2の連結パターン型入力用教師データを入力し、音声認
識用ニューラルネットワークがこれらを認識する認識タ
イミングを検出する工程と、前記第1および第2の連結
パターン型入力用教師データから前記認識タイミングよ
り後半のデータを取り出し、前記第1および第2の連結
パターン型入力用教師データを生成する工程と、を含む
ことを特徴とする。
て確実に1度だけ認識することができるため、1つの認
識対象語を誤って複数と認識したり、非認識対象語と誤
認識することなく、正確に連続音声認識することができ
る。
3のいずれかにおいて、前記各入力用教師データおよび
これに対応した遷移パターンを表す出力用教師データを
含む複数組の入出力用教師データを作成して記憶する工
程と、前記各入力用教師データを入力したときに、前記
各入力用教師データに対応した前記出力用教師データを
得るように前記複数のダイナミックニューロンを学習さ
せる処理を、前記複数組の入出力用教師データ毎に繰り
返し行う工程と、を含むことを特徴とする。
に対応した遷移パターンを表す出力用教師データを含む
複数組の入出力用教師データを作成して記憶した後、入
出力用教師データが入力されたダイナミックニューロン
を学習させる処理を、入出力用教師データ毎に繰り返し
行うことにより、短時間に学習の効果を高めることがで
きる。
ナミックニューロンを備え、音声入力される所定の認識
対象語を認識する音声認識用ニューラルネットワークの
学習方法において、認識対象語の後半およびこれに連続
する認識対象語が孤立発話して形成された孤立発話型の
第1の連結パターン型入力用教師データ並びに前記認識
対象語の後半およびこれに連続する孤立発話された非認
識対象語が連結された孤立発話型の第2の連結パターン
型入力用教師データを用い、前記孤立発話型の第1の連
結パターン型入力用教師データが入力された場合には、
前記連続する認識対象語の認識のみを行い、前記孤立発
話型の第2の連結パターン型入力用教師データが入力さ
れた場合には、認識対象語の認識を行わないように、前
記複数のダイナミックニューロンを学習させる第1の学
習工程と、前記第1の学習工程終了後に、連続発話して
形成された前記第1および第2の連結パターン型入力用
教師データを用い、請求項1〜5のいずれかの学習方法
により、前記複数のダイナミックニューロンを学習させ
る第2の学習工程と、を含むことを特徴とする本発明に
よれば、第1の学習工程においては孤立発話を用いてデ
ータを処理するため、データの入力、記憶等の点で短時
間に処理することができ、ある程度の音声認識性能が出
るようになった後、第2の学習工程において、さらに精
度の高い音声認識を行うことができる。
おいて、前記第1の学習工程では、認識対象語が入力用
教師データとして入力された場合には、前記認識対象語
の認識を行い、非認識対象語およびこれに連続する認識
対象語が孤立発話して形成された孤立発話型の第3の連
結パターン型入力用教師データが入力された場合には、
前記連続する認識対象語の認識を行い、非認識対象語お
よびこれに連続する非認識対象語が孤立発話して形成さ
れた孤立発話型の第4の連結パターン型入力用教師デー
タが入力された場合には、認識対象語の認識を行わない
ように、前記複数のダイナミックニューロンを学習させ
ることを特徴とする。
も、認識対象語を認識し、非認識対象語を認識しない学
習ができるので、第2の学習工程を開始する時点ではさ
らに高精度の音声認識を行える状態となっているため、
さらに短時間に所望の音声認識ができるようになる。
6のいずれかにおいて、複数のダイナミックニューロン
を備えるニューラルネットワークの状態空間内に、複数
の認識対象語に対応して、アトラクタを異なる位置に複
数形成するように、前記複数のダイナミックニューロン
を学習させることを特徴とする。
出力用ニューロンを用意する必要があるが、本発明によ
れば、より少ないニューロンで学習することができるた
め、処理が軽くなり、より短時間に連続音声認識するこ
とができる。
の出力値の収束状態をいう。
後、その出力値をリセットすることにより、音声データ
が連続入力された場合でも正確に音声認識することがで
きる。
トワークの学習方法に本発明を適用した好適な実施の形
態について、図面を参照しつつ詳細に説明する。
ための音声認識装置の一実施の形態の構成図を示す。図
1に示す音声認識装置は、特徴抽出部10と、音声認識
処理手段であるニューラルネットワーク200と、アト
ラクタ判定部40と、内部状態初期値設定部60とを有
する。
力されるアナログ音声データ100をフレーム単位で切
り出し、特徴ベクトル110に変換して、ニューラルネ
ットワーク200に出力する。この特徴ベクトル110
は、図2(A)に示すように、アナログ音声データ10
0を所定のフレーム102の単位で順次取り出す。図2
(B)に示すように、フレーム単位で切り出された音声
データ100は、線形予測分析やフィルタバンク等で特
徴が抽出され、図2(C)に示す特徴ベクトル110の
列として、ニューラルネットワーク200に順次入力さ
れる。ニューラルネットワーク200は、複数のダイナ
ミックニューロンにより構成されている。
ダイナミックニューロンは、内部状態初期値設定部60
から出力される所定の値によって初期化されている。各
ダイナミックニューロンは、詳細には後述するように、
所定の複数のデータを認識することができるよう、異な
る特徴のパターンで学習されている。特徴抽出部10か
ら出力される特徴ベクトル110は、ニューラルネット
ワーク200の複数のダイナミックニューロンにそれぞ
れ入力される。ニューラルネットワークは、入力データ
に演算処理を施して認識動作を行う。
力結果データ120として、アトラク夕判定部40に入
力される。出力結果データ120としては、例えば、4
つの座標値P1、P2、P3、P4の値が出力される。
アトラク夕判定部40は、出力結果データ120である
4つの座標値P1、P2、P3、P4を用いて、どのア
トラクタが選択されたのかを判別し、この判別結果を認
識結果150として出力する。ここで、認識すべき複数
のデータが属するものを範疇、いわゆる力テゴリとし、
この力テゴリが複数用意されている。そして、1つのニ
ューラルネットワーク200内には、前記複数の力テゴ
リがそれぞれ異なる位置に埋め込まれており、この複数
の力テゴリの内のあるカテゴリから他の力テゴリへの軌
跡の落ち着く先がアトラクタである。
の出力値の収束状態をいう。具体的には、ある時刻にお
けるニューラルネットワーク200の状態空間では、例
えば、N次元の状態空間の任意の一点として表される。
例えば、図3に示すように、4つの座標値P1、P2、
P3、P4における点Q1〜Q4である。そして、この
ニューラルネットワーク200の経時変化は、ある点Q
1から他の異なる点Q2等への軌跡として表すことがで
きる。この力テゴリが示す座標値は収束状態を示すもの
である。なお、アトラクタは、最終的には、収束して収
束点となる以外に、例えば周期軌道やカオスになった
り、発散したりするものである。このような音声認識装
置を用いることにより、複数のダイナミックニューロン
を含む1つのニューラルネットワーク200で、音声デ
ータ等の複数のデータを認識することが可能である。
合のアトラクタの座標値の割り当ての一例である。この
ように、例えば、状態空間が3次元であれば8つの状
態、4次元であれば16の状態を表すことができる。
トワーク200の構成について説明する。図5は、図1
に示すニューラルネットワーク200の構成例を簡略化
して表したものである。このニューラルネットワーク2
00は、神経細胞を構成する複数のダイナミックニュー
ロン210を相互に接続して構成されている。各ニュー
ロン210の結合部には、大きさが可変の重み付けがそ
れぞれなされている。このニューラルネットワーク20
0は、特徴ベクトル110を入力する入力用ダイナミッ
クニューロン210と、この特徴ベクトル110の入力
により状態が遷移した後の値を出力する出力用ダイナミ
ックニューロン210とを別個のものとして示してい
る。具体的には、10個の入力用ダイナミックニューロ
ン210−1〜210−10に10個の特徴ベクトル1
10がそれぞれ入力され、複数のダイナミツクニューロ
ン210を介した値はアトラクタを判別するための値と
して、出力用ダイナミックニューロン210−11〜2
10−14からそれぞれ出力される。
内部状態値Xが、当該ダイナミックニューロン210に
与えられる入力データZj(j=0〜n:nは自然数)
および内部状態値Xを用いて表された関数X=G(X,
Zj)を満足する値に時間変化するダイナミックニュー
ロン210として形成され、その内部状態値Xが、関数
F(X)を満足する値に変換して出力されるよう形成さ
れている。
イナミックニューロン210間の重みを学習により変化
させることによって、複数の入力データに対応して正確
なアトラクタを設定することができる。
構成を模式的に示している。各ダイナミックニューロン
210は、所定の内部状態値Xを記憶する内部状態値記
憶手段220と、前記内部状態値Xおよび以下に説明す
る入力データZjが入力されて、内部状態値記憶手段2
20の内部状態値Xを更新する内部状態値更新手段24
0と、内部状態値Xを外部出力値Yに変換する出力値生
成手段260とを含む。
の構成をそれぞれ備えることにより、内部状態値Xを基
にし、この内部状態値Xを順次更新していく。これによ
り、ダイナミックニューロン210に入力されるデータ
の過去の履歴が、内部状態値Xとして変換されて保存さ
れる。すなわち、内部状態値Xとして、入力値の時間的
な履歴が保存され、この履歴は外部出力値Yに反映され
る。ダイナミックニューロン210は、上記のダイナミ
ックな動作を行う。これにより、静的なニューロンを用
いたニューラルネットワークとは異なり、ニューラルネ
ツトワークの構造等に依存することなく、時系列データ
を処理することができ、ニューラルネットワーク200
全体の回路規模を小さくすることができる。これによ
り、処理が軽くなり、より短時間に高精度の音声認識が
可能となる。
構造の一具体例を示す。内部状態記憶手段220は、内
部状態値Xを記憶するメモリ222を含んで構成され
る。また、内部状態値更新手段240は、入力データZ
jの積算手段242と、演算を行って新たな内部状態値
Xを求め、メモリ222に記憶されている内部状態値X
を更新する演算部244とを含む。また、出力値生成手
段260は、演算部262を含む、この演算部262
は、メモリ222に記憶されている内部状態値Xを、値
域制限した外部出力値Yにシグモイド(ロジスティッ
ク)関数等を用いて変換するように形成されている。
のそれぞれの時間変化において、現在の内部状態値をX
curr、更新される内部状態値をXnext、この更
新動作時点での入力データをZjとするときに、内部状
態更新手段240の動作を形式的に関数Gで表すとする
と、更新される内部状態値Xnextは、Xnext=
G(Xcurr、Z1、・・・ Zj・・・、Zn)と
表現することができる。
々なものが考えられるが、例えば1階の微分方程式を用
いて、以下に示す数1の演算式で示すことができる。こ
こで、τは定数である。
示す演算式としては、上記の演算式に限定されることな
く、単純な線形変換やしきい値関数等を用いることも可
能である。
の入力データZjとしては、ある重みが乗算されること
により重み付けされたダイナミックニューロン210自
身の出力や、結合重みが乗算されることにより重み付け
された他のダイナミックニューロン210の出力等が含
まれる。
ン210には、重み付けされたダイナミックニューロン
210自身の出力や、重み付けされた他のダイナミック
ニューロン210からの出力が与えられる。特に、10
個のダイナミックニューロン210−1〜210−10
には、重み付けされたダイナミックニューロン210自
身の出力や重み付けされた他のダイナミックニューロン
210からの出力の他に、特徴抽出部10からの特徴ベ
クトル110が与えられる。
10である4個のダイナミックニューロン210−11
〜210−14から外部出力値Yが出力される。
部状態値Xの初期値の設定について説明する。上記のよ
うに、各ダイナミックニューロン210は、内部状態値
記憶手段220内に記憶された内部状態値Xを、内部状
態値更新手段240で順次更新していくように構成され
ている。したがって、ニューラルネットワーク200内
のダイナミックニューロン210は、その動作に先立っ
て、予め初期値を設定することが必要である。
部60は、ニューラルネットワーク200の動作の開始
に先立って、予め設定された初期値を、ニューラルネッ
トワーク200内の全てのダイナミックニューロン21
0に対して出力する。具体的には、ニューラルネットワ
ーク200の動作の開始に先立って、全てのダイナミッ
クニューロン210に対して、適当に選択された内部状
態値Xの初期値をセットすると共に、この内部状態値X
の初期値に対応する外部出力値Yをセットする。このよ
うに、ニューラルネットワーク200内の全てのダイナ
ミックニューロン210に初期値をセットすることによ
り、ニューラルネットワーク200の動作は速やかに開
始されることとなる。
200の学習方法について説明する。図8は、ニューラ
ルネットワーク200に対して所望の認識対象データを
学習させるための学習装置300の構成を示す。この学
習装置300は、発話された音声から作成した入力用教
師データを記憶する入力用教師データ記憶部310と、
この入力用教師データに対応した前記状態空間内の遷移
パターンを表す出力用教師データを含む複数組の出力用
教師データを記憶する出力用教師データ記憶部312
と、学習させたい入力用教師データを選択する入力用教
師データ選択部314と、この入力用教師データ選択部
314で選択された入力用教師データに対応する出力用
教師データを選択する出力用教師データ選択部316
と、ニューラルネットワーク200の学習を制御する学
習制御部318とを含む。
合、まず、学習対象となるニューラルネットワーク20
0を構成する全てのダイナミックニューロン210に、
内部状態初期値設定部60からの内部状態値Xの初期値
をセットする。
入力用教師データ選択部314で選択され、この選択さ
れた入力用教師データは学習制御部318に入力され
る。このとき、選択された入力用教師データに対応する
出力用教師データが、出力用教師データ選択部316で
選択され、この選択された出力用教師データも学習制御
部318に入力される。
連続音声データは、特徴抽出部10に入力されて特徴ベ
クトル110が抽出される。この抽出された特徴ベクト
ル110は、ニューラルネットワーク200に入力用教
師データZjとして入力される。
のダイナミックニューロン210について、それぞれ入
力用教師データZjの和を求め、その内部状態値Xが更
新される。そして、更新された内部状態値Xによりダイ
ナミックニューロン210の外部出力値Yを求める。
00の各ダイナミックニューロン210間の結合強度と
しては、ランダムな値が与えられている。従って、図5
のダイナミックニューロン210−11〜210−14
から出力される座標値P1、P2、P3、P4は、不正
確な値であるが、これらの値が正しい値となるように、
徐々に各ダイナミックニューロン210の重みを変更し
ていく。
力された音声データから形成された入力用教師データお
よびこれに対応した遷移パターンを表す出力用教師デー
タを含む複数組の教師データを予め用意しておき、入力
用教師データを入力した場合、この入力用教師データに
対応する出力用教師データを得るように各ダイナミック
ニューロン210を学習させる工程を、前記複数組の教
師データ毎に繰り返し行う。これにより、短時間に学習
の効果を高めることができる。なお、ニューラルネット
ワーク200の学習の繰り返し回数は、数千回程度であ
る。
ータとを比較する際に使用するパターンを示す。図9に
示すように、このパターンとして、(A)認識対象語の
み、(B)第1の連結パターン(認識対象語後半と認識
対象語)、(C)第2の連結パターン(認識対象語後半
と非認識対象語)、(D)第3の連結パターン(非認識
対象語後半と認識対象語)、(E)第4の連結パターン
(非認識対象語と非認識対象語)という5パターンを使
用する。この図では、横軸が時間、縦軸が認識対象語の
検出出力となっている。
連続入力された場合、この検出出力が立ち上がったまま
となり認識対象語の個数が正確には分からない場合があ
った。本発明では、認識時に出力値を初期値に戻すリセ
ットを行い、かつ、上記5パターンを用いて学習するこ
とにより、このような場合も認識対象語の個数が正確に
分かる。
ことにより、認識対象語の前半で認識を行い、認識対象
語の後半では認識を行わない学習ができるため、認識対
象語が複数連続する場合でも正確に連続音声認識するこ
とができる。また、パターン(D)(E)を用いること
により、認識対象語を認識し、非認識対象語を認識しな
い学習ができるため、認識対象語と非認識対象語とが複
数連続する場合でも正確に連続音声認識することができ
る。
により、さらに認識対象語と非認識対象語を正確かつ効
率的に区別できるようになる。
ラクタが形成されたニューラルネットワーク200に対
して、アトラクタに対応する複数の音声データを入力し
た場合には、ニューラルネットワーク200の状態空間
の遷移により、入力された複数の音声データを認識する
ことができる。
トワーク200を用いた音声認識の学習方法について具
体的に説明する。
方法を示すフローチャートである。学習は、第1の学習
工程を行い、第2の学習工程という2段階で行う。
テップ2)および予備学習(ステップ4)を行う。
孤立発話データをデータ入力手段10に入力し、変換手
段によりアナログ音声データをディジタルデータに変換
し、記憶手段に記憶する(ステップ2)。対象となる話
者分のデータを記憶した時点で孤立発話データの学習を
開始する。
の手順で処理する(ステップ4)。まず、ある認識対象
語に対して、対応する孤立発話データを1つ入力して認
識させ、所定点をリセット位置として設定する(ステッ
プ20)。この際のリセット位置の設定方法を図13に
示す。この例では、リセット位置は、各話者における各
認識対象語に対応した出力の遷移パターンの時間軸上の
中点Tmである。時間軸上の中点Tmは、機械的に設定
できるため、後に行う追加学習の準備が短時間ででき
る。なお、リセット位置は、時間軸上の中点Tmには限
られず、認識対象語の時間軸上であればどこでもよい。
ルネットワーク200への各孤立発話の入力に対して、
図12に示すように、ニューラルネットワーク200か
らの出力がある一定の値(しきい値)を超えることを意
味する。通常は、あるしきい値を超えたところでリセッ
トし、出力を初期値に戻す。
語だけでもよいが、非認識対象語も学習させることによ
り、連続の時系列音声データから認識対象語だけ取り出
すことができる。
ーク200を学習させる。この方法として、各孤立発話
をつなぎ合わせて仮の連続発話として記憶部310に記
憶する。各孤立発話データから図9に示す5パターンの
入出力用教師データを作成する(ステップ22)。
作成は、認識対象語のリセット位置設定後、リセット位
置を区分点として出力の遷移パターンを前後に区分する
ことにより、認識対象語後半というデータを作成でき
る。
これらを用いてニューラルネットワーク200を学習さ
せる(ステップ24)。
断し(ステップ26)、十分な性能が得られると判断で
きる場合、学習を終了する。不十分な場合は、同じ教師
データを用いて学習および性能評価(ステップ24、2
6)を繰り返し行う。
ットワーク200を用いても従来に比べ、高性能な連続
発話の認識ができるが、さらに性能を上げるため、この
ニューラルネットワーク200を用いて第2の学習工程
を行う。第1の学習では、リセット位置を機械的に設定
できるため、学習を速く進めることができ、1つの認識
対象語に対して1回のみリセットを行うため、1つの認
識対象語に対して認識しなかったり、複数回認識したり
することはない。したがって、従来必要だったラベリン
グという作業は必要無くなる。さらに、このように学習
が進んだ段階で第2の学習を行うため、短時間かつ正確
な学習を実現することにおいて、より効果的である。
に、以下の処理を行う(ステップ6〜14)。
記憶し、入力用の連続発話データおよび連続発話を用い
た各連結パターンデータを作成する(ステップ6)。入
力用の連続発話データを用いてテスト駆動を行う(ステ
ップ8)。
以下のようになる。入力された連続発話データをニュー
ラルネットワーク200に入力し(ステップ34)、入
力された認識対象語を認識した際の出力の時間軸上でリ
セットがかかる位置(しきい値を超える座標および時
点)を調べ、記憶する(ステップ36)。この工程をテ
スト駆動と呼ぶ。
た認識対象語のリセット位置を区分点として、図9に示
す5パターンの内、パターン(B)(C)の連結パター
ン型教師データを作成する(ステップ10)。同様に、
非認識対象語と認識対象語を連結してパターン(D)、
非認識対象語と非認識対象語を連結してパターン(E)
を作成する。その後、追加学習を行う(ステップ1
2)。
下のようになる。作成された5パターンの教師データを
ニューラルネットワーク200に入力し(ステップ4
0)、各ダイナミックニューロン210の重みづけを順
次更新しながら、ニューラルネットワーク200を学習
させる(ステップ42)。これら5パターンの学習は、
ある1パターンを正確に認識できるようになってから次
のパターンの学習を行ってもよいが、ニューラルネット
ワーク200を用いて学習するため、5パターン同時に
並列的に学習させることもできる。これにより、さら
に、学習時間を短縮できる。
習により実際に出力された出力と望ましい出力とを比較
し、十分な性能が得られるかどうか判断し、十分であれ
ば学習を終了する(ステップ14)。不十分であれば、
テスト駆動から追加学習、性能比較までの手順(ステッ
プ8〜14)を繰り返し行うことにより、どの話者に対
しても最適な音声認識ができるニューラルネットワーク
200を実現することができる。
ば、「0」「1」・・・「9」の数字を組合せた連続発
話データを学習する方法を具体的に説明する。この場
合、表に示す100パターンの連続発話データに対して
十分な音声認識が行えるよう上記の学習の流れに沿って
学習する。
ず、予備学習として、「ぜろ」「いち」・・・「なな」
・・・「きゅう」という10個の孤立発話データをニュ
ーラルネットワーク200に入力する。入力された各孤
立発話データに対する出力の遷移パターンの時間軸上の
中点を区分点として、各孤立発話データを組合せ「ぜろ
ぜろ」「ぜろいち」・・・「きゅうきゅう」という連続
発話に近似した連結パターン型入力用教師データを機械
的に作成する。
象語を取り出すためには、認識対象語だけでなく、非認
識対象語も学習させておくことが必要である。また、孤
立発話された認識対象語の学習により、図9に示す5パ
ターンの内、パターン(A)について学習できることに
なる。
似した連結パターン型入力用教師データをニューラルネ
ットワーク200に入力して学習させ、望ましい出力が
得られるようになったニューラルネットワーク200を
用いてテスト駆動を行う。
された入力用教師データを入力し、認識対象語に対する
出力のリセット位置を自動判定させる。このリセット位
置を区分点として5パターンの連結パターン型出力用教
師データを作成し、追加学習を行う。
性能は得られるが、図16に示す「「ごーぜろ」のよう
に、孤立発話の組合せだけだと「ごぜろ」となってしま
い、実際のなめらかな連続発話と異なるため、真に最適
な認識を行うため、連続発話を用いた学習を行うことが
好ましい。
5パターンは、図9の(A)は「ろく」(B)は「ろ
く」の後半+「ろく」、(C)は「ろく」の後半+「ぜ
ろ」〜「ご」および「ろく」の後半+「なな」〜「きゅ
う」(D)は、「ぜろ」〜「ご」+「ろく」および「な
な」〜「きゅう」+「ろく」(E)は「ぜろ」〜「ご」
および「なな」〜「きゅう」のそれぞれの数字の組合せ
となる。
階で孤立発話について学習済みであるため、ここでは改
めて学習しない。例えば、パターン(B)は「ろく」後
半+「ろく」となるが、最初の「ろく」後半については
出力を出さないようにし、これに連続する「ろく」を認
識すると出力を出す学習を行う。同様にパターン(C)
は「ろく」後半+「なな」等となるが、最初の「ろく」
後半については出力を出さないようにし、これに連続す
る「なな」等についても誤認識して出力を出すことのな
いように学習を行う。
あるが、非認識対象語「ぜろ」等では誤認識して出力を
出すことのないように学習を行い、これに連続する認識
対象語「ろく」を認識すると出力を出す学習を行う。同
様に、パターン(E)は「ぜろ」+「ぜろ」等である。
のとき、パターン(D)(E)であるが、認識対象語を
「ぜろ」とすると、パターン(B)(C)として使用で
きる。すなわち、学習が進むにつれて徐々に必要な学習
量も減らすことができ、効率的な学習ができる。
続以上の連続発話データに対しても連結パターン型教師
データを2連続から3連続、4連続と増やしていくこと
により、2連続の場合と同様に学習できる。
よれば、ラベリングせずに連続発話を学習できるため、
短時間かつ正確に連続音声を認識することができる。
機能ブロック図である。
図である。
す図である。
概略図である。
概略図である。
詳細図である。
る。
トを示す図である。
ある予備学習の手順を示す図である。
図である。
図である。
あるテスト駆動の手順を示す図である。
ある追加学習の手順を示す図である。
Claims (7)
- 【請求項1】 複数のダイナミックニューロンを備え、
音声入力される所定の認識対象語を認識する音声認識用
ニューラルネットワークの学習方法において、 認識対象語の後半およびこれに連続する認識対象語を連
続発話して形成された第1の連結パターン型入力用教師
データが入力された場合には、前記連続する認識対象語
の認識のみを行い、 認識対象語の後半およびこれに連続する非認識対象語を
連続発話して形成された第2の連結パターン型入力用教
師データが入力された場合には、認識対象語の認識を行
わないように、前記複数のダイナミックニューロンを学
習させることを特徴とする音声認識用ニューラルネット
ワークの学習方法。 - 【請求項2】 請求項1において、 認識対象語が入力用教師データとして入力された場合に
は、前記認識対象語の認識を行い、 非認識対象語およびこれに連続する認識対象語を連続発
話して形成された第3の連結パターン型入力用教師デー
タが入力された場合には、前記連続する認識対象語の認
識を行い、 非認識対象語およびこれに連続する非認識対象語を連続
発話して形成された第4の連結パターン型入力用教師デ
ータが入力された場合には、認識対象語の認識を行わな
いように、前記複数のダイナミックニューロンを学習さ
せることを特徴とする音声認識用ニューラルネットワー
クの学習方法。 - 【請求項3】 請求項1または2のいずれかにおいて、 認識対象語およびこれに連続する認識対象語を連続発話
して形成された第1の連結パターン型入力用教師データ
並びに認識対象語およびこれに連続する非認識対象語を
連続発話して形成された第2の連結パターン型入力用教
師データを入力し、音声認識用ニューラルネットワーク
がこれらを認識する認識タイミングを検出する工程と、 前記第1および第2の連結パターン型入力用教師データ
から前記認識タイミングより後半のデータを取り出し、
前記第1および第2の連結パターン型入力用教師データ
を生成する工程と、 を含むことを特徴とする音声認識用ニューラルネットワ
ークの学習方法。 - 【請求項4】 請求項1〜3のいずれかにおいて、 前記各入力用教師データおよびこれに対応した遷移パタ
ーンを表す出力用教師データを含む複数組の入出力用教
師データを作成して記憶する工程と、 前記各入力用教師データを入力したときに、前記各入力
用教師データに対応した前記出力用教師データを得るよ
うに前記複数のダイナミックニューロンを学習させる処
理を、前記複数組の入出力用教師データ毎に繰り返し行
う工程と、 を含むことを特徴とする音声認識用ニューラルネットワ
ークの学習方法。 - 【請求項5】 複数のダイナミックニューロンを備え、
音声入力される所定の認識対象語を認識する音声認識用
ニューラルネットワークの学習方法において、 認識対象語の後半およびこれに連続する認識対象語が孤
立発話して形成された孤立発話型の第1の連結パターン
型入力用教師データ並びに前記認識対象語の後半および
これに連続する非認識対象語が孤立発話して形成された
孤立発話型の第2の連結パターン型入力用教師データを
用い、前記孤立発話型の第1の連結パターン型入力用教
師データが入力された場合には、前記連続する認識対象
語の認識のみを行い、 前記孤立発話型の第2の連結パターン型入力用教師デー
タが入力された場合には、前記認識対象語の認識を行わ
ないように、前記複数のダイナミックニューロンを学習
させる第1の学習工程と、 前記第1の学習工程終了後に、連続発話して形成された
前記第1および第2の連結パターン型入力用教師データ
を用い、請求項1〜5のいずれかの学習方法により、前
記複数のダイナミックニューロンを学習させる第2の学
習工程と、 を含むことを特徴とする音声認識用ニューラルネットワ
ークの学習方法。 - 【請求項6】 請求項5において、 前記第1の学習工程では、 認識対象語が入力用教師データとして入力された場合に
は、前記認識対象語の認識を行い、 非認識対象語およびこれに連続する認識対象語が孤立発
話して形成された孤立発話型の第3の連結パターン型入
力用教師データが入力された場合には、前記連続する認
識対象語の認識を行い、 非認識対象語およびこれに連続する非認識対象語が孤立
発話して形成された孤立発話型の第4の連結パターン型
入力用教師データが入力された場合には、認識対象語の
認識を行わないように、前記複数のダイナミックニュー
ロンを学習させることを特徴とする音声認識用ニューラ
ルネットワークの学習方法。 - 【請求項7】 請求項1〜6のいずれかにおいて、 複数のダイナミックニューロンを備えるニューラルネッ
トワークの状態空間内に、複数の認識対象語に対応し
て、アトラクタを異なる位置に複数形成するように、前
記複数のダイナミックニューロンを学習させることを特
徴とする音声認識用ニューラルネットワークの学習方
法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20689097A JP3775454B2 (ja) | 1997-07-31 | 1997-07-31 | 音声認識用ニューラルネットワークの学習方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20689097A JP3775454B2 (ja) | 1997-07-31 | 1997-07-31 | 音声認識用ニューラルネットワークの学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1152993A true JPH1152993A (ja) | 1999-02-26 |
JP3775454B2 JP3775454B2 (ja) | 2006-05-17 |
Family
ID=16530755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP20689097A Expired - Fee Related JP3775454B2 (ja) | 1997-07-31 | 1997-07-31 | 音声認識用ニューラルネットワークの学習方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3775454B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000058531A (ko) * | 2000-06-10 | 2000-10-05 | 김성석 | 음성합성 및 음성인식 기술을 이용한 언어 학습 및 훈련기능을 가진 완구의 제어방법 |
JP2019514045A (ja) * | 2016-03-21 | 2019-05-30 | アマゾン テクノロジーズ インコーポレイテッド | 話者照合方法及びシステム |
US10923111B1 (en) | 2019-03-28 | 2021-02-16 | Amazon Technologies, Inc. | Speech detection and speech recognition |
-
1997
- 1997-07-31 JP JP20689097A patent/JP3775454B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000058531A (ko) * | 2000-06-10 | 2000-10-05 | 김성석 | 음성합성 및 음성인식 기술을 이용한 언어 학습 및 훈련기능을 가진 완구의 제어방법 |
JP2019514045A (ja) * | 2016-03-21 | 2019-05-30 | アマゾン テクノロジーズ インコーポレイテッド | 話者照合方法及びシステム |
US11514901B2 (en) | 2016-03-21 | 2022-11-29 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
US10923111B1 (en) | 2019-03-28 | 2021-02-16 | Amazon Technologies, Inc. | Speech detection and speech recognition |
Also Published As
Publication number | Publication date |
---|---|
JP3775454B2 (ja) | 2006-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5165007A (en) | Feneme-based Markov models for words | |
EP0574951B1 (en) | Speech recognition system | |
US5046099A (en) | Adaptation of acoustic prototype vectors in a speech recognition system | |
US5623578A (en) | Speech recognition system allows new vocabulary words to be added without requiring spoken samples of the words | |
JPH06102899A (ja) | 音声認識装置 | |
CN117043857A (zh) | 用于英语发音评估的方法、设备和计算机程序产品 | |
JPH0962291A (ja) | 記述長最小基準を用いたパターン適応化方式 | |
JP2955297B2 (ja) | 音声認識システム | |
CA2051602C (en) | Method and apparatus for generating models of spoken words based on a small number of utterances | |
CN108806691B (zh) | 语音识别方法及系统 | |
CN109979422B (zh) | 基频处理方法、装置、设备及计算机可读存储介质 | |
JP3775453B2 (ja) | 音声認識用ニューラルネットワークの学習方法 | |
JP3775454B2 (ja) | 音声認識用ニューラルネットワークの学習方法 | |
JPH0667698A (ja) | 音声認識装置 | |
KR20160000218A (ko) | 언어모델 군집화 기반 음성인식 장치 및 방법 | |
JP2982689B2 (ja) | 情報量基準を用いた標準パターン作成方式 | |
Dayal et al. | Review on speech recognition using deep learning | |
Aşlyan | Syllable Based Speech Recognition | |
EP0731447A2 (en) | Reference pattern training system and speech recognition system using the same | |
JP2629890B2 (ja) | 音声認識装置及び学習方法 | |
JPH10133686A (ja) | 非母国語音声認識装置 | |
EP0238693B1 (en) | Speech recognition system and method using statistical models for words | |
CN111179902B (zh) | 基于高斯模型模拟共鸣腔的语音合成方法、设备及介质 | |
US20230037541A1 (en) | Method and system for synthesizing speeches by scoring speeches | |
JP3090204B2 (ja) | 音声モデル学習装置及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20050406 Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050406 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050406 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20051220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060214 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090303 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100303 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100303 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110303 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120303 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120303 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130303 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140303 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |