JP3168779B2 - 音声認識装置及び方法 - Google Patents
音声認識装置及び方法Info
- Publication number
- JP3168779B2 JP3168779B2 JP21336393A JP21336393A JP3168779B2 JP 3168779 B2 JP3168779 B2 JP 3168779B2 JP 21336393 A JP21336393 A JP 21336393A JP 21336393 A JP21336393 A JP 21336393A JP 3168779 B2 JP3168779 B2 JP 3168779B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- data
- neural network
- input
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 78
- 238000013528 artificial neural network Methods 0.000 claims description 167
- 210000002569 neuron Anatomy 0.000 claims description 136
- 230000006870 function Effects 0.000 claims description 72
- 239000013598 vector Substances 0.000 claims description 33
- 238000001514 detection method Methods 0.000 claims description 20
- 230000008878 coupling Effects 0.000 claims description 17
- 238000010168 coupling process Methods 0.000 claims description 17
- 238000005859 coupling reaction Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 11
- 210000002364 input neuron Anatomy 0.000 claims description 9
- 210000004205 output neuron Anatomy 0.000 claims description 8
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims 2
- 230000008447 perception Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 21
- 238000004364 calculation method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003930 cognitive ability Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Description
クを用いた音声認識装置に関する。
いた音声認識装置が知られている。この種の音声認識装
置は、予め認識対象となる音声データを学習しておく。
そして、入力された音声データが認識対象となる音声デ
ータと一致した場合に、音声認識信号を出力するよう構
成されている。
を認識するための学習が簡単で、しかも実際に入力され
る音声データに対し、高い認識精度を発揮することが望
まれる。特に、認識対象となる同一の音声データが連続
入力された場合でも、何個の音声データが連続入力され
たかを正確に認識できることが望まれる。
うな要求を全て満足させることはできなかった。
いる手法は大別して、DPマッチング法、隠れマルコフ
モデル(HMM)法の2つである。これらの手法は、例
えば、中川聖一著「確率モデルによる音声認識」に詳し
く記述されている。
入力された音声データと、標準データとの始端と終端の
対応を仮定し、その内部を様々な時間正規化関数を用い
変形する。そして、その差異が最小となる変形と、その
時のパターン間の距離をその標準パターンの失点とす
る。そして、複数の標準パターンの内、失点が最小とな
るパターンをマッチング結果とするものである。
確率的な方法により音声認識を行おうとするものであ
る。この方法では、DP法の場合における標準パターン
に相当するHMMモデルが設定される。一つのHMMモ
デルは複数の状態と、複数の遷移とにより構成される。
それぞれの状態には存在確率が、またそれぞれ遷移には
遷移確率と、出力確率が与えられる。これによりある一
つのHMMモデルが、ある時系列パターンを生成する確
率を計算することができる。
チング法、HMM法は、その学習時、音声認識動作時に
入力される音声データの始端、終端を特定する必要があ
るという問題があった。
声認識処理を行うためには、始端、終端を試行錯誤的に
発見する処理を行わなければならず、その為の処理に非
常に時間がかかるという問題があった。例えば、長さN
のパターンの中から、ある範疇に属するデータを検出す
る場合を考える。この場合、始端位置としては、Nオー
ダーの可能性があり、また終端位置としては、Nオーダ
ーの可能性がある。つまり、始端、終端の組み合わせと
しては、N2 のオーダーの可能性が考えられる。従っ
て、この場合においては、非常に多数の組み合わせの全
てについて、最良の結果を与える始端、終端を試行錯誤
的に発見するという認識処理を行わなければならず、こ
の処理に非常に時間がかかるという問題があった。
み合わせの数という量的な問題以前に、始端、終端の存
在という仮定自体に本質的な問題があった。すなわち、
入力データにある範疇のデータが只一つしか含まれてい
ない条件であれば、始端、終端は自明である。しかし、
現実の状況において、そのような条件が成立するのはま
れである。入力データに連続する異なる範疇のデータが
含まれる場合に、その境界は自明ではない。むしろ、音
声などの時系列情報においては、データ間の境界は明確
には存在せず、連続した二つの範疇のデータは、その情
報が重複する遷移領域を経て一方から他方へ変化する。
端を仮定したデータで標準データを作成したり、あるい
はそのようなデータでHMM法のパラメータを学習させ
ることは、その正確度において非常に大きな問題があっ
た。
は、特定の課題に特化した種々の工夫が必要であり、そ
のような工夫なしにはよい結果を得ることはできない。
しかし、このような工夫は一般的なものではなかった。
ゲーション学習法と多層パーセプトロンを用いた方法
(MLP法)も知られている。この手法は、例えば、中
川、鹿野、東倉共著「音声、聴覚と神経回路網モデル」
(オーム社)等に記述されている。
を認識するための方法である。このため、これに時系列
データを認識させるためには、この入力データの時間構
造を何らかの形でニューラルネットワークの構造へ反映
させなければならない。この方法として最も多く用いら
れるのは、ある時間範囲のデータを、一つの入力データ
として入力し、等価的に時間情報を処理するという手法
である。この時間範囲は、MLPの構造上、固定された
ものでなければならない。
の範疇により、また同一範疇においても、大きく変動す
る。例えば、音声における音素を例にとれば、長い音素
である母音等と、短い音素である炸裂音等の平均長さ
は、十倍以上異なる。また、同一音素内においても、音
声中での実際の長さは2倍以上変動する。従って、仮に
データの入力範囲を平均的な長さに設定したとすると、
短い音素を識別する場合には、その入力データの中には
認識対象以外の音声データが多数含まれることになる。
また、長い音素を認識する場合には、その入力データ中
には、認識対象のデータの一部しか含まれないことにな
る。これらはいずれも認識能力を下げる原因である。ま
た、音素毎に異なる入力長さを設定したとしても、その
音素自身の長さが変動するので、問題の解決にはならな
い。
力範囲の始端と終端を特定する必要があるため、入力デ
ータ長が変動する実際の音声認識動作では、正確な音声
認識を行うことが難しいという問題があった。
データの中に、検出対象となるデータ、例えばAデータ
が複数個連続して含まれている場合に、入力データ中に
幾つのAデータが存在するのかを明確に検出することが
できないという問題があった。このような問題は、音声
認識装置が、同一認識対象カテゴリーのデータが連続し
て入力されるような用途を考える場合、非常に大きな問
題となる。
されたものであり、その目的は、入力される音声データ
を正確に認識することができ、特に認識対象となる音声
データが連続入力された場合でも、その入力個数をも正
確に認識することができる音声認識装置を提供すること
を目的とする。
成するために、本発明の音声認識装置は、入力される音
声データをフレーム単位で切出し、特徴ベクトルに変換
して順次出力する特徴抽出手段と、前記特徴抽出手段か
ら特徴ベクトルとして入力される音声データに基づき所
定の音声データを認識するよう予め学習され、入力され
た音声データが認識対象となる音声データと一致した場
合に音声認識信号を出力する音声認識動作を行う音声認
識用ニューラルネットワーク手段と、前記音声認識用ニ
ューラルネットワーク手段から出力される音声認識信号
を検出し、リセット指示信号を出力する認識信号検出手
段と、前記音声認識用ニューラルネットワーク手段の内
部状態量の初期値が予め設定され、前記リセット指示信
号に基づき音声認識用ニューラルネットワーク手段をリ
セットし、その内部状態量を初期値に設定する内部状態
量設定手段と、を含み、連続入力される同一音声データ
を認識するよう形成されたことを特徴とする。
認識用ニューラルネットワーク手段は、入力された音声
データが認識対象となる音声データと一致するごとに、
音声認識信号を出力する。
出力されるごとにリセット指示信号を内部状態量設定手
段へ向け出力する。
信号に基づき、音声認識用ニューラルネットワーク手段
をリセットし、その内部状態量を初期値に設定する。
連続入力される場合、ニューラルネットワーク手段は音
声認識動作を行うごとにリセットされるため、連続入力
される音声データをその都度正確に認識することができ
る。この結果、連続入力される同一音声データの個数を
も正確に認識することが可能となる。
ネットワーク手段は、内部状態値Xが設定された複数の
ニューロンを相互に結合して構成されており、前記各ニ
ューロンは、その内部状態値Xが、当該ニューロンに与
えられる入力データZj (j=0〜n:nは自然数)お
よび内部状態値Xを用いて表された関数X=G(X,Z
j )を満足する値に時間変化するダイナミックニューロ
ンとして形成され、前記各ダイナミックニューロンは、
その内部状態値Xを、関数F(X)を満足する値に変換
して出力されるよう形成され、前記内部状態量設定手段
は、前記音声認識用ニューラルネットワーク手段の安定
状態における各ニューロンの内部状態量が初期値として
設定されるバッファメモリを含み、前記リセット指示信
号に基づき音声認識用ニューラルネットワーク手段の各
ニューロンをリセットし、その内部状態量を前記バッフ
ァメモリに記憶された初期値に設定することが好まし
い。
ワーク手段を、複数のダイナミックニューロンの組み合
わせとして構成することにより、入力データの時間構造
を所定関数を満足させるよう時間変化する内部状態値お
よびニューロンの結合重みの中に表現することができ
る。これにより、かなり大きな時間変化を含む入力デー
タを、簡単な学習で正確に認識することができる。
用ニューラルネットワーク手段から所定時間継続して音
声認識信号が出力されたとき、前記リセット指示信号を
出力するよう形成することができる。
)は、
目のニューロンの出力をi番目のニューロンの入力へ結
合する結合強度Wij、外部入力値Di 、バイアス値θi
を用いて、
グモイド関数Sを用いて、
グモイド関数S、j番目のニューロンの出力をi番目の
ニューロンの入力へ結合する結合強度Wij、外部入力値
Di、バイアス値θi を用いて、
部は、音声データが入力される入力ニューロンと、音声
データの認識結果を出力する認識結果出力ニューロンと
を含むよう形成できる。
段は、前記特徴ベクトルが入力される複数の入力ニュー
ロンと、入力された音声データが認識対象となる音声デ
ータと一致した場合にのみ肯定信号を出力する第1の出
力ニューロンと、入力された音声データが認識対象とな
る音声データと一致しない場合にのみ否定信号を出力す
る第2の出力ニューロンと、を含むようにも形成でき
る。
することができる。
ることもできる。
力データZj として、自己のニューロンの出力Yに重み
を乗算してフィードバックさせたデータを含むよう形成
できる。
記入力データZj として、他のニューロンの出力に重み
を乗算したデータを含むよう形成できる。
記入力データZj として、外部から与えられた所望のデ
ータを含むよう形成できる。
される音声データをフレーム単位で切出し、特徴ベクト
ルに変換して順次出力する特徴抽出手段と、前記特徴抽
出手段から特徴ベクトルとして入力される音声データに
基づき所定の音声データを認識するよう予め学習され、
入力された音声データが認識対象となる音声データと一
致した場合に音声認識信号を出力する音声認識動作を行
う第1の音声認識用ニューラルネットワーク手段と、前
記第1の音声認識用ニューラルネットワーク手段から出
力される音声認識信号を検出する毎に、動作指示信号を
出力する認識信号検出手段と、前記特徴抽出手段から特
徴ベクトルとして入力される音声データに基づき所定の
音声データを認識するよう予め学習され、前記動作指示
信号が出力される毎に、音声データが認識対象となる音
声データと一致した場合に音声認識信号を出力する音声
認識動作を行う第2の音声認識用ニューラルネットワー
ク手段と、前記第1、第2の音声認識用ニューラルネッ
トワーク手段から出力される音声認識信号を選択し、音
声認識信号として出力する出力合成手段と、を含み、連
続入力される同一音声データを認識するよう形成されて
いる。
なる同一音声データが連続して入力される場合には、第
1の音声認識用ニューラルネットワーク手段と、第2の
音声認識用ニューラルネットワーク手段とが、交互に動
作し、これを正確に認識することができる。この結果、
連続入力される同一音声データの個数を正確に認識する
ことができる。
ーラルネットワーク手段は、前記音声認識動作を行う毎
にリセットされるよう形成することができる。
ットワーク手段は、所定時間動作する毎にリセットされ
るよう形成することもできる。
ワーク手段は、内部状態値Xが設定された複数のニュー
ロンを相互に結合して構成されており、 前記各ニュー
ロンは、その内部状態値Xが、当該ニューロンに与えら
れる入力データZj (j=0〜n:nは自然数)および
内部状態値Xを用いて表された関数X=G(X,Zj )
を満足する値に時間変化するダイナミックニューロンと
して形成され、前記各ダイナミックニューロンは、その
内部状態値Xを、関数F(X)を満足する値に変換して
出力されるよう形成されたことを特徴とするよう形成す
ることが好ましい。
な学習で、しかもより正確に認識することが可能とな
る。
)は、
目のニューロンの出力をi番目のニューロンの入力へ結
合する結合強度Wij、外部入力値Di 、バイアス値θi
を用いて、
グモイド関数Sを用いて、
グモイド関数S、j番目のニューロンの出力をi番目の
ニューロンの入力へ結合する結合強度Wij、外部入力値
Di、バイアス値θi を用いて、
部は、音声データが入力される入力ニューロンと、音声
データの認識結果を出力する認識結果出力ニューロンと
を含むよう形成できる。
段は、前記特徴ベクトルが入力される複数の入力ニュー
ロンと、入力された音声データが認識対象となる音声デ
ータと一致した場合にのみ肯定信号を出力する第1の出
力ニューロンと、入力された音声データが認識対象とな
る音声データと一致しない場合にのみ否定信号を出力す
る第2の出力ニューロンと、を含むようにも形成でき
る。
することができる。
ることもできる。
力データZj として、自己のニューロンの出力Yに重み
を乗算してフィードバックさせたデータを含むよう形成
できる。
記入力データZj として、他のニューロンの出力に重み
を乗算したデータを含むよう形成できる。
記入力データZj として、外部から与えられた所望のデ
ータを含むよう形成できる。
詳細に説明する。
れている。
ニューラルネットワーク部20、認識信号検出部30、
内部状態量設定部40を含む。
入力されるアナログ音声データ100をフレーム単位で
切り出し、特徴ベクトル110に変換して音声認識用ニ
ューラルネットワーク部20へ向け出力する。この特徴
ベクトル110は、次のようにして求められる。すなわ
ち、図2(A)に示すよう、アナログ音声データ100
を所定のフレーム102の単位で順次切り出す。図2
(B)に示すよう、フレーム単位で切り出された音声デ
ータ100は、線形予測分析やフィルタバンク等で特徴
が抽出され、特徴ベクトル110の列として音声認識理
用ニューラルネットワーク部20へ向け、順次出力され
る。
20は、所定の音声データを認識するよう予めその学習
が行われている。そして、このニューラルネットワーク
部20は、特徴ベクトル110として入力される音声デ
ータが、認識対象となる音声データと一致するか否かの
音声認識動作を行う。一致した場合には、音声認識信号
120を出力するよう形成されている。なお、このニュ
ーラルネットワーク部20の詳細な説明は、後述する。
ットワーク部20から出力される音声認識信号120を
検出し、その度にリセット指示信号130を内部状態量
設定部40へ向け出力する。
ラルネットワーク部20の内部状態量の初期値が予め設
定される。そして、前記リセット指示信号130が入力
されると、ニューラルネットワーク部20をリセットし
その内部状態量を初期値に設定するという動作を行う。
ネットワーク部20は、入力される音声データが、認識
対象となる音声データと一致するかの判断を行い、音声
認識信号120を出力するごとに、次の音声認識動作用
にリセットされ、次の音声認識動作を開始することにな
る。このため、例えば認識対象となる同一の音声データ
「A」が連続して入力される場合でも、これをその都度
正確に認識することができる。この結果、音声データ
「A」の認識を正確に行うことができるばかりでなく、
この音声データ「A」が連続入力された場合には、その
連続入力個数をも正確に検出することができる。
0は、前記初期値が設定されるバッファメモリ42を含
み、このバッファメモリ42内に記憶された初期値を用
い、ニューラルネットワーク部20の内部状態量の設定
を行うよう構成されている。
は、後述する。
ク部20としては、例えば階層型モデルや、マルコフモ
デル等で表される従来の静的なニューラルネットワーク
でもよいが、簡単な構成でより良好な認識動作を行うた
めには、以下に詳述するようなダイナミックなニューラ
ルネットワークを用いることが好ましい。
0として用いられるダイナミックなニューラルネットワ
ークの一例を簡略化して表したものが示されている。実
施例のニューラルネットワーク部20は、神経細胞を構
成する複数のニューロン210−1,210−2……2
10−6を相互に接続して構成されている。各ニューロ
ン210の結合部には、それぞれ大きさが可変の重みが
備えられている。この重みを学習によって所定の値に変
化させることによって、正確な音声認識処理が行われる
ようになる。学習の詳細は後述する。
クトル110は、ニューロン210−2,210−3に
与えられ、音声認識信号120はニューロン210−
5,210−6から出力される。実施例において、前記
音声認識信号120として、ニューロン210−5から
は否定出力120−B、ニューロン210−6からは肯
定出力120−Aがそれぞれ出力されるようになってい
る。
れている。このニューロン210は、所定の内部状態値
Xを記憶する内部状態値記憶手段220と、前記内部状
態値X及び以下に説明する外部入力値Zj を入力とし
て、内部状態記憶手段220の内部状態値Xを更新する
内部状態値更新手段240と、内部状態値Xを外部出力
Yへ変換する出力値生成手段260とを含む。
ットワーク部20では、ニューロン210の内部状態値
Xの値を、その値Xそのものを基にして順次更新してい
く。従って、そのニューロン210へ入力されるデータ
の過去の履歴が、その内部状態値Xとして変換、保存さ
れる。つまり、内部状態値Xとして、入力の時間的な履
歴が保存され、出力Yに反映される。この意味で、実施
例のニューロン210の動作はダイナミックなものであ
るといえる。したがって、従来の静的なニューロンを用
いたネットワークと異なり、実施例のニューラルネット
ワーク部20は、ニューラルネットワークの構造等によ
らず、時系列データを処理することができ、全体の回路
規模を小さくできる。
が示されている。前記内部状態記憶手段220は、内部
状態値Xを記憶するメモリ222を含んで構成されてい
る。前記内部状態値更新手段240は、入力Zj の積算
手段242と、次式で示す演算を行い新たな内部状態値
Xを求めメモリ222の内容を更新する演算部244と
を含む。
の演算部262は、メモリ222に記憶されている内部
状態値Xを、値域制限した出力値Yへシグモイド(ロジ
スティック)関数等を用いて変換出力するよう形成され
ている。
時間変化において、現在の内部状態値をXcurr、更
新される内部状態値をXnext、またその更新動作時
点での外部入力値をZj (j は0からnであり、nはそ
のニューロン210への外部入力数)とする。このと
き、内部状態更新手段240の動作を形式的に関数Gで
表すと、 Xnext=G(Xcurr、Z1、−−−、Zi、−
−−、Zn) と表現できる。この表現の具体的な形は様々なものが考
えられるが、例えば1階の微分方程式を用いた前記数1
3で示すことができる。ここでτはある定数である。
は、以下の数14のような表現も可能である。
のニューロンの入力へ結合する結合強度を示す。また、
Di は外部入力値を示す。またθi はバイアス値を示
す。このバイアス値は、固定された値との結合として、
Wijの中に含めて考えることも可能である。
ーロン210の内部状態をXとし、出力生成手段260
の動作を形式的に関数Fで表すと、ニューロン210の
出力Yは、 Y=F(X) と表現できる。Fの具体的な形としては、以下の数15
で示されるような正負対称出力のシグモイド(ロジステ
ィック)関数等が考えられる。
もより単純な線形変換や、あるいはしきい値関数等も考
えられる。
ミックなニューロン210の出力Yの時系列は、図6に
示したような処理により計算される。図6においては、
簡略のためニューロンを単にノードと記載している。
としては、ある重みが乗算されたそのニューロン自身の
出力、結合重みが乗算された他のニューロンの出力、あ
るいはそのニューラルネットワーク以外からの外部入力
などがある。
ロン210−2,210−3には、重み付けされた自分
自身の出力、重み付けされた他のニューロンからの出
力、及び特徴抽出部10からの出力110が与えられ
る。また、ニューロン210−1には、重み付けされた
自分自身の出力、重み付けされた他のニューロンからの
出力が与えられる。さらに、ニューロン210−4,2
10−5,510−6には、重み付けされた自分自身の
出力、重み付けされた他のニューロンからの出力が与え
られる。
いて説明する。
ように内部状態記憶手段220内に記憶された内部状態
量Xを、内部状態値更新手段240を用いて順次更新し
ていくように構成されている。したがって、このような
ニューロン210を用いて構成されたニューラルネット
ワーク部20では、動作に先立って、または認識信号検
出部30からリセット指示信号130が出力されるごと
に、その初期値を設定してやることが必要となる。
置において、ニューラルネットワーク部20が動作する
に先立って、または認識信号検出部30からリセット指
示信号130が出力されるごとに、内部状態量設定部4
0は、ニューラルネットワーク部20をリセットし、全
てのニューロン210に、適当に選択された初期内部状
態値Xを初期値としてセットし、それに対応する出力Y
をセットする。このようにして初期値をセットすること
により、ニューラルネットワーク部20は速やかにかつ
安定して動作することになる。
施例のニューラルネットワーク部20を構成するダイナ
ミックなニューロン210の動作は、一階の微分方程式
で記述される。従って、その動作を決定するにあたって
は、その初期値が必要となる。
ク部20の各ニューロンに種々の初期値を与え、その
後、無入力とした場合の例である。図は、5通りの初期
値を与えた場合について、適当に選択した4つのニュー
ロンの出力の時間変化を示してある。この図からも明ら
かなように、ニューラルネットワーク部20は、ある長
さの時間の経過と共に、平衡状態へ持ち込む。この平衡
状態は、ニューラルネットワーク部20を構成するニュ
ーロンの数により、または学習回数、学習データによ
り、さらにには入力の状態によって、図12に示したよ
うなリミットサイクルのような状態であったり、単純な
平衡点状態であったりする。
ワーク部20の動作を安定させるために重要な要素であ
る。従って、ニューラルネットワーク部20の動作の初
期値として、無入力時の平衡状態、適当な初期値を与え
た場合の平衡状態、適当な正常入力時における平衡状
態、または実際の音声認識時の背景雑音入力時の平衡状
態のいずれかにおけるニューラルネットワーク部20の
内部状態量を、内部状態量設定部40のバッファメモリ
42へ記憶すればよい。そして、このようにバッファメ
モリ42に設定された初期値を用い、ニューラルネット
ワーク部20の内部状態量の初期値設定を行えばよい。
バッファメモリ42には、背景雑音が入力される実際の
音声認識動作時の平衡状態におけるニューラルネットワ
ーク部20の内部状態値が初期値として記憶されるよう
に形成されている。すなわち、内部状態量設定部40内
には、ニューラルネットワーク部20が背景雑音入力時
における平衡状態にあるか否かを判定する判定部が内蔵
されている。そして、リセット指示信号130が入力さ
れるごとに、内部状態量設定部40は、ニューラルネッ
トワーク部20をリセットし、その内部状態量をバッフ
ァメモリ42から読み出す初期値に設定する。その後、
ニューラルネットワーク部20が新たな平衡状態に落ち
着くと、所定のタイミングで内部状態量設定部40はバ
ッファメモリ42内へ、その時点におけるニューラルネ
ットワーク部20の内部状態値を新たな初期値として取
り込む。
は、最新の平衡状態における内部状態量を初期値として
用い、ニューラルネットワーク部20を動作させるた
め、入力される音声データ100に対する音声認識動作
をより安定して正確に行うことができる。
20の学習方法について説明する。
を学習させるための学習装置300の構成が示されてい
る。
データが記憶された入力データ記憶部310と、入力音
声データに対応する模範となる出力データが記憶された
出力データ記憶部312と、学習させたい入力データを
選択する入力データ選択部314と、出力データを選択
する出力データ選択部316と、ニューラルネットワー
ク部20の学習を制御する学習制御部318とを含む。
法を行う場合には、まず、学習対象となるニューラルネ
ットワーク部20を構成する全てのニューロン210
に、初期状態値Xをセットする。次に、学習させたい音
声データが、入力データ選択部310により選択され、
学習制御部318に入力される。このとき、選択した学
習用入力データに対応する学習用出力データが、出力デ
ータ選択部316により選択され、学習制御部318に
入力される。選択された学習用の入力音声データは、特
徴抽出部10に入力され、ここで抽出された特徴ベクト
ル110がニューラルネットワーク部20へ外部入力と
して入力される。全てのニューロン210について、そ
れぞれ入力Zj の和を求め、その内部状態量Xを更新す
る。そして、更新されたXによりニューロン210の出
力Yを求める。
20の各ニューロン間の結合強度にはランダムな値が与
えられている。したがって、図3の各ニューロン210
−5,210−6から出力される認識結果120B,1
20Aはでたらめな値である。これらの出力が正しい値
となるように、少しだけ各ニューロン間の重みを変更す
る。
20は、認識対象となる音声データが入力された場合
に、図8に示すよう、ニューロン210−6から肯定出
力120Aとしてハイレベルの信号が出力され、ニュー
ロン210−5から否定出力120Bとしてローレベル
の信号が出力されるよう学習を行う。このように、肯定
出力と否定出力の2種類の認識結果データ120A,1
20Bを出力させるのは、音声認識処理の精度を向上さ
せるためである。
何回も繰返入力し、少しづつ各ニューロン間の重みを変
更する。これにより、次第にニューロン210−5,2
10−6から正しい値が出力されるようになる。入力さ
れる音声データが認識させたくないデータを学習される
場合は、肯定出力120Aがローレベル、否定出力がハ
イレベルとなるように各ニューロン間の重みを変更す
る。
次の数12により導入される量Cを用いた学習則があ
る。
る。
所望の出力値をTとすると、以下の数17で表わされる
Kullback−leibler距離等で示される。
関数Eは、数17の式と実質的に同等であるが、以下の
数18のようになる。
のようにより具体的に書き替えられる。
更新則は次の数20のように与えられる。
ク部20の出力が収束するまでの繰りかえし行う。学習
回数は、数千回程度である。
データを続けて入力し、学習させる方法がある。その理
由は、音声データを一つづつ用いた学習では、一度ハイ
レベルになった肯定出力はローレベルに下げることが出
来ず、また一度ローレベルになった否定出力はハイレベ
ルに上げることができないからである。つまり、音声デ
ータを一つづつ用いた学習では、図9(A)に示すよう
に、認識させたい音声データ(以下肯定データという)
を与えて肯定出力をハイレベルに上昇させる学習(この
場合、否定出力はローレベルを保持している)、あるい
は図9(B)に示すよう、認識させたくないデータ(以
下、否定データという)を与えて否定出力をハイレベル
に上昇させる学習(この場合、肯定出力はローレベルを
保持している)が行われる。この学習では、肯定出力及
び否定出力とも、一旦ハイレベルに上昇した後は、その
出力値がローレベルになることはないという問題が生ず
る。
在した複数の音声データが連続して与えられた場合、肯
定データの入力で一度ハイレベルに上がった肯定出力
は、その後、否定データの入力があってもローレベルに
下がることはないという問題がある。これは否定出力に
ついても同様である。
(D)に示すように、二つの音声データを連続して与
え、出力の上昇と下降の両方の学習を行わせる方法が取
られている。図10(A)では、否定データNと肯定デ
ータAとを連続して入力し、これを繰り返して学習させ
ている。この学習によって、肯定出力の上昇、否定出力
の上昇と降下が学べる。図10(B)では、肯定データ
Aと否定データNとを連続して入力し、これを繰り返し
て学習させている。この学習によって、肯定出力の上昇
と降下、否定出力の上昇が学べる。図10(C)では、
否定データNを連続して入力し、これを繰り返して学習
させている。この学習は、図10(B)に示した学習に
よって、否定データNの次のデータは肯定データAであ
るといった誤った認識をニューラルネットワーク部20
に持たせないためのものである。同様に図10(D)で
は、肯定データAを二つ連続して入力し、これを繰り返
して学習させている。この学習も、図10(A)に示し
た学習によって、肯定データAの次のデータは否定デー
タNであるといった誤った認識をニューラルネットワー
ク部20に持たせないためのものである。
ネットワーク部20に対して行う。
て、実際に音声認識動作を行った場合の実験データが示
されている。この実験では、ニューラルネットワーク部
20を、それぞれ入力ニューロン数が20、出力ニュー
ロン数が2、その他のニューロン数が32のニューラル
ネットワークとして構成したものを用いた。そして、特
徴抽出部10から20次元のLPCケプストラムをニュ
ーラルネットワーク部20に与え、このときニューラル
ネットワーク部20から出力されるデータを実測した。
ーラルネットワーク部20の肯定出力と否定出力とを示
す。
20には、それぞれ肯定的な認識対象データとして、
「とりあえず」を与え、否定的な認識対象データとして
「終点」,「腕前」,「拒絶」,「超越」,「分類」,
「ロッカー」,「山脈」,「隠れピューリタン」の8つ
の単語を与えた。なお、ニューラルネットワーク部20
は、肯定的認識対象データが与えられた場合、その対象
の半分までが認識された時点で肯定出力120A、否定
出力120Bが変化するように学習させてある。同図で
の縦軸は、出力ニューロンの出力値を、横軸は左から右
へ時間の流れを表す。
にして学習された音声認識装置に話者の音声データを認
識させると、単語「とりあえず」の入力に対し、その肯
定出力120Aが大きな値に変化している。また、その
否定出力120Bは小さな値に変化している。このこと
により、ニューラルネットワーク部20は、単語「とり
あえず」を正しく識別していることがわかる。
ラルネットワーク部20は、入力される音声データ10
0の時間構造を、微分方程式で記述される内部状態値X
と、ニューロン210の結合重みの中に表現することが
できる。従って、従来のMLP法のようにニューラルネ
ットワークの構造により、入力データの時間構造が拘束
されることがなく、かなり大きな時間変化を含む入力デ
ータ100を正確に取り扱うことができることは前述し
た。
タを用い学習を行ったニューラルネットワーク部20の
学習結果が示されている。横軸は、入力データの長さで
あり、縦軸は肯定出力120A、否定出力120Bの値
を表わす。なお、図中○印は肯定出力120A、×印は
否定出力120Bを示している。
タを用い学習されたニューラルネットワーク部20に対
し、認識対象となるデータの長さを変化させ、音声認識
動作を行わせた。この結果、131の長さの学習データ
を用いたにも拘らず、96〜220の非常に広い範囲の
データ長の、データを正確に認識できることが確認され
た。このように、実施例のニューラルネットワーク部2
0では、かなり大きな時間変化を含む入力データ100
を正確に認識可能であることが確認される。
を行うことができる実施例のニューラルネットワーク部
20であっても、図14に示すよう、認識対象となるデ
ータAが連続して入力される場合には、入力データの中
に幾つの認識対象データAが存在したかを正確に検出す
ることはできない。すなわち、認識対象データが連続し
て入力されると、ニューラルネットワーク部20の肯定
出力120Aは、Hレベルのまま変化しない。このた
め、認識対象データAがいくつあったかを検出すること
はできない。
象カテゴリーのデータの連続を許すような用途に使用す
る場合には、この認識対象データがいくつあったかを検
出することが非常に重要な問題となる。
象カテゴリーの連続データを学習データに含ませない方
法も考えられる。この場合は、学習は比較的容易であ
り、また認識能力の柔軟性も損なわれない。しかし、当
然の結果ではあるが、同一認識対象カテゴリーの連続入
力に対する反応は正確ではなくなる。図15はそのよう
な例である。3つの連続した認識対象データAの入力に
対し、その2番目のAデータを検出することはできなく
なる。
音声認識装置は、図1に示すよう、認識信号検出部30
と、内部状態量設定部40とを含んで構成されることは
前述した。
すよう、予め検出閾値Vs が設定されている。そして、
ニューラルネットワーク部20から出力される肯定出力
120Aが検出閾値Vs を上回った時間T0 が一定時間
に達すると、認識信号検出部3は、認識対象データAの
音声が認識されたと判断し、リセット指示信号130を
内部状態量設定部40へ向け出力する。
セット指示信号130が入力される毎に、ニューラルネ
ットワーク部20をリセットし、バッファメモリ42内
に記憶されたデータをニューラルネットワーク部20の
初期値として設定する。
0は、次に連続入力される音声データAを正確に認識す
ることができる。この結果、ニューラルネットワーク部
20から出力される音声認識信号120に基づき、入力
データ100内に認識対象となるデータAが幾つ存在し
たかを正確に検出することができる。
から、単に図14に示すような音声認識信号120が出
力される場合には、入力データ100の中に認識対象と
なるデータAが幾つ存在するかを検出することはできな
い。これに対し、実施例では認識信号検出部30、内部
状態量設定部40を用い、ニューラルネットワーク部2
0の肯定出力120Aが検出閾値Vs を超えるごとに、
ニューラルネットワーク部20を初期状態へリセットす
るよう構成した。このため、図16に示すよう、認識対
象となるデータAの存在を、同図中に示した検出点にお
いて確実に検出することができる。
の音声認識装置を用いて行った、実際のデータに対する
音声認識動作の実験結果が示されている。この実験にお
いて、認識対象となるデータAは、単語音声「とりあえ
ず」であり、否定データNは単語音声「終点」である。
同図から明らかなように、実施例の音声認識装置は、連
続した認識対象カテゴリーのデータA「とりあえず」を
正確に認識し、かつその個数をも正確に認識できること
が理解されよう。
定出力120Aが検出閾値Vs を上回る時間が所定の値
T0 に達した際、リセット指示信号130を出力するよ
うに構成した。この設定時間T0 は、認識対象となるデ
ータAの長さに応じて適宜設定するようにする。すなわ
ち、この時間T0 は短かすぎると、単一のデータAに対
し、繰り返し肯定出力120Aを出力してしまう。長す
ぎると、連続入力される次のデータAを認識できなくな
ってしまう。このため、T0 は、認識対象データAの長
さに応じて、適切な長さに設定すればよい。
に説明する。なお、前記第1実施例と対応する部材には
同一符号を付し、その説明は省略する。
ック図が示されている。本実施例の音声認識装置は、特
徴抽出部10と、主音声認識用ニューラルネットワーク
部20Aと、補助音声認識用ニューラルネットワーク部
20Bと、認識信号検出部30と、出力合成部50とを
含む。
部20A、20Bは、第1実施例のニューラルネットワ
ーク部20と同様に構成され、かつ所定の音声データA
を認識するよう予め学習されている。
ーク部20Aは、前記第1実施例のニューラルネットワ
ーク部20と同様に、特徴抽出部10から出力される特
徴ベクトル110に基づき、音声認識動作を行い、その
音声認識信号120を認識信号検出部30および出力合
成部50へ向け出力する。
ク部20Aから音声認識信号120−1として出力され
る肯定出力120Aの一例が示されている。
ットワーク部20Aから出力される肯定出力120A
が、所定の検出閾値Vs を一定時間V0 上回ると、動作
指示信号を補助音声認識用ニューラルネットワーク部2
0Bへ向け出力する。
ラルネットワーク部20Bから音声認識信号120−2
として出力される肯定出力120Aの一例が示されてい
る。
ク部20Bは、図9(B)に示すよう、通常は非動作状
態に制御されている。そして、認識信号検出部30から
動作指示信号が入力される毎に起動され、特徴抽出部1
0から出力される特徴ベクトル110に基づき音声デー
タAに対する認識動作を所定の基準時間だけ行い、その
音声認識結果120−2を出力合成部50へ向け出力す
る。
ーラルネットワーク部20A、20Bから出力される音
声認識信号120−1、120−2を合成し、音声認識
信号120として出力する。これにより、前記第1実施
例と同様に、連続入力される音声データAを正確に認識
することができ、しかも入力データ中に認識対象データ
Aが幾つ存在したかをも正確に検出することができる。
実際のデータに対する音声認識動作を行った実験結果が
示されている。データA、データNは、前記第1実施例
と同様である。
よっても、連続入力されるデータAを各検出点において
正確に認識できることが確認された。
本発明の要旨の範囲内で各種の変型実施が可能である。
検出部30は、ニューラルネットワーク部20から出力
される肯定出力120Aが所定の閾値Vs を超えたかど
うか、また、その超えている時間がある設定値T0 以上
であるかの判断を行い、音声認識信号120の出力を検
出したが、より性能を向上させるためには、音声認識信
号120の出力の時間変化を考慮し、前記T0 を随時調
整可能にするよう形成してもよい。
ワーク部20を構成するニューロン210を、図5に示
すようなニューロンとして形成する場合を例にとり説明
したが、本発明はこれ以外にも各種ニューロンを用いる
ことができる。
ーク部20に用いられる他のダイナミックニューロン2
10の具体例が示されている。
おいて、内部状態更新手段240は、積算部250と、
関数変換部252と、演算部254とを用いて構成さ
れ、次式に基づく演算を行い、メモリ222の内部状態
量Xを更新するように形成されている。
252は、この積算した値をシグモイド(ロジスティッ
ク)関数Sを用いて変換するように構成されている。そ
して、演算部254は、関数変換された値と、メモリ2
22の内部状態量Xとに基づき、前記数21の演算を行
い、新たな内部状態量Xを求め、メモリ222の値を更
新するように形成されている。
示すような演算を実行するようにしてもよい。
目のニューロンの入力へ結合する結合強度を表す。Di
は外部入力値を示す。またθiはバイアス値を示す。こ
のバイアス値は、固定された値との結合としてWijの
中に含めて考えることも可能である。また、値域制限関
数Sの具体的な形としては、正負対称出力のシグモイド
関数等を用いればよい。
数倍した出力値Yへ変換する関数演算部264として形
成されている。
単語等の認識を行う場合を例にとり説明したが、本発明
はこれに限らず、各種のデータ、例えば各種の音素や音
節等の認識を行うよう形成することも可能である。
認識対象となる音声データが連続入力された場合でも、
その音声認識を正確に行うことができ、しかも連続入力
される音声データの個数をも正確に検出することができ
る音声認識装置を得ることができるという効果がある。
うに、音声認識用ニューラルネットワーク手段を、複数
のダイナミックなニューロンの組み合わせとして構成す
ることにより、入力データの時間構造を所定関数を満足
させるよう時間変化する内部状態値およびニューロンの
結合重みの中に表現することができる。これにより、ニ
ューラルネットワーク部全体の構成を簡単なものとし、
かなり大きな時間変化を含む入力データを、簡単な学習
で正確に認識することができるという効果を得ることが
できる。
図である。
図である。
す概念図である。
ニューロンの説明図である。
明図である。
ト図である。
るために用いる学習装置の説明図である。
態を示す模式図である。
の認識能力の例を示した説明図である。
るニューラルネットワーク部の出力の例を示す説明図で
ある。
ニューラルネットワーク部の出力の例を示す説明図であ
る。
ーク部から出力される音声認識信号の例を示す説明図で
ある。
した場合に得られる出力の例の説明の図である。
装置のブロック図である。
図である。
した場合に得られる出力の説明図である。
ンの他の具体例の説明図である。
Claims (32)
- 【請求項1】 入力される音声データをフレーム単位で
切出し、特徴ベクトルに変換して順次出力する特徴抽出
手段と、前記 特徴ベクトルとして入力される音声データに基づき
所定の音声データを認識するよう予め学習され、入力さ
れた音声データが認識対象となる音声データと一致した
場合に音声認識信号を出力する音声認識動作を行う音声
認識用ニューラルネットワーク手段と、 前記音声認識用ニューラルネットワーク手段から音声認
識信号が出力されるごとに、リセット指示信号を出力す
る認識信号検出手段と、 前記音声認識用ニューラルネットワーク手段の内部状態
量の初期値が予め設定され、前記リセット指示信号に基
づき音声認識用ニューラルネットワーク手段をリセット
し、その内部状態量を初期値に設定する内部状態量設定
手段と、 を含み、前記認識信号検出手段は、 音声認識用ニューラルネットワーク手段から所定時間継
続して音声認識信号が出力されたとき、前記リセット指
示信号を出力するよう形成され、 連続入力される同一音声データをその都度認識すること
を特徴とする音声認識装置。 - 【請求項2】 請求項1において、 前記音声認識用ニューラルネットワーク手段は、 内部状態値Xが設定された複数のニューロンを相互に結
合して構成されており、 前記各ニューロンは、 その内部状態値Xが、当該ニューロンに与えられる入力
データZj(j=0〜n:nは自然数)および内部状態
値Xを用いて表された関数X=G(X,Zj)を満足す
る値に時間変化するダイナミックニューロンとして形成
され、 前記各ダイナミックニューロンは、 その内部状態値Xを、関数F(X)を満足する値に変換
して出力されるよう形成され、 前記内部状態量設定手段は、 前記音声認識用ニューラルネットワーク手段の安定状態
における各ニューロンの内部状態量が初期値として設定
されるバッファメモリを含み、前記リセット指示信号に
基づき音声認識用ニューラルネットワーク手段の各ニュ
ーロンをリセットし、その内部状態量を前記バッファメ
モリに記憶された初期値に設定することを特徴とする音
声認識装置。 - 【請求項3】 入力される音声データをフレーム単位で
切出し、特徴ベクトルに変換して順次出力する特徴抽出
手段と、 前記特徴抽出手段から特徴ベクトルとして入力される音
声データに基づき所定の音声データを認識するよう予め
学習され、入力された音声データが認識対象となる音声
データと一致した場合に音声認識信号を出力する音声認
識動作を行う第1の音声認識用ニューラルネットワーク
手段と、 前記第1の音声認識用ニューラルネットワーク手段から
音声認識信号が出力される毎に、動作指示信号を出力す
る認識信号検出手段と、 前記特徴抽出手段から特徴ベクトルとして入力される音
声データに基づき所定の音声データを認識するよう予め
学習され、前記動作指示信号が出力される毎に、音声デ
ータが認識対象となる音声データと一致した場合に音声
認識信号を出力する音声認識動作を行う第2の音声認識
用ニューラルネットワーク手段と、 前記第1、第2の音声認識用ニューラルネットワーク手
段から出力される音声認識信号を選択し、音声認識信号
として出力する出力合成手段と、 を含み、連続入力される同一音声データをその都度認識
することを特徴とする音声認識装置。 - 【請求項4】 請求項3において、 前記第2の音声認識用ニューラルネットワーク手段は、 所定時間動作する毎にリセットされることを特徴とする
音声認識装置。 - 【請求項5】 請求項3,4のいずれかにおいて、 前記各音声認識用ニューラルネットワーク手段は、 内部状態値Xが設定された複数のニューロンを相互に結
合して構成されており、 前記各ニューロンは、 その内部状態値Xが、当該ニューロンに与えられる入力
データZj(j=0〜n:nは自然数)および内部状態
値Xを用いて表された関数X=G(X,Zj)を満足す
る値に時間変化するダイナミックニューロンとして形成
され、 前記各ダイナミックニューロンは、 その内部状態値Xを、関数F(X)を満足する値に変換
して出力されるよう形成されたことを特徴とする音声認
識装置。 - 【請求項6】 請求項2,5のいずれかにおいて、 前記関数X=G(X,Zj)は、 【数1】 として表されるよう形成されたことを特徴とする音声認
識装置。 - 【請求項7】 請求項2,5のいずれかにおいて、 前記関数X=G(X,Zj)は、j番目のニューロンの
出力をi番目のニューロンの入力へ結合する結合強度W
ij、外部入力値Di、バイアス値θiを用いて、 【数2】 として表されるよう形成されたことを特徴とする音声認
識装置。 - 【請求項8】 請求項2,5のいずれかにおいて、 前記関数X=G(X,Zj)は、シグモイド関数Sを用
いて、 【数3】 として表されるよう形成されたことを特徴とする音声認
識装置。 - 【請求項9】 請求項2,5のいずれかにおいて、 前記関数X=G(X,Zj)は、シグモイド関数S、j
番目のニューロンの出力をi番目のニューロンの入力へ
結合する結合強度Wij、外部入力値Di、バイアス値θi
を用いて、 【数4】 として表されるよう形成されたことを特徴とする音声認
識装置。 - 【請求項10】 請求項2,5のいずれかにおいて、 前記各ダイナミックニューロンは、 前記関数F(X)がsigmoid関数であることを特
徴とする音声認識装置。 - 【請求項11】 請求項2,5〜10のいずれかにおい
て、 前記各ダイナミックニューロンは、 前記関数F(X)がしきい値関数であることを特徴とす
る音声認識装置。 - 【請求項12】 請求項2,5〜11のいずれかにおい
て、 前記各ダイナミックニューロンは、 前記入力データZjとして、自己のニューロンの出力Y
に重みを乗算してフィードバックさせたデータを含むこ
とを特徴とする音声認識装置。 - 【請求項13】 請求項2,5〜12のいずれかにおい
て、 前記各ダイナミックニューロンは、 前記入力データZjとして、他のニューロンの出力に重
みを乗算したデータを含むことを特徴とする音声認識装
置。 - 【請求項14】 請求項2,5〜13のいずれかにおい
て、 前記各ダイナミックニューロンは、 前記入力データZjとして、外部から与えられた所望の
データを含むことを特徴とする音声認識装置。 - 【請求項15】 請求項2,5〜14のいずれかにおい
て、 前記音声認識用ニューラルネットワーク手段は、 音声データの特徴ベクトルが入力される入力ニューロン
と、 音声データの認識結果を出力する認識結果出力ニューロ
ンと、 を含むことを特徴とする音声認識装置。 - 【請求項16】 請求項2,5〜14のいずれかにおい
て、 前記音声認識用ニューラルネットワーク手段は、 前記特徴ベクトルが入力される複数の入力ニューロン
と、 入力された音声データが認識対象となる音声データと一
致した場合にのみ肯定信号を出力する第1の出力ニュー
ロンと、 入力された音声データが認識対象となる音声データと一
致しない場合にのみ否定信号を出力する第2の出力ニュ
ーロンと、 を含むことを特徴とする音声認識装置。 - 【請求項17】 入力される音声データをフレーム単位
で切出し、特徴ベクトルに変換して順次出力する特徴抽
出手順と、 前記特徴抽出手順から特徴ベクトルとして提供される音
声データに基づき所定の音声データを認識するよう予め
学習した音声認識用ニューラルネットワーク手段を用
い、入力された音声データが認識対象となる音声データ
と一致した場合に音声認識信号を出力する音声認識動作
を行う音声認識手順と、 前記音声認識用ニューラルネットワーク手段から音声認
識信号が出力されるごとに、前音声認識用ニューラルネ
ットワーク手段をリセットし、その内部状態量をあらか
じめ設定された前記音声認識用ニューラルネットワーク
手段の内部状態量の初期値に設定する内部状態量設定手
順と、 を含み、 前記内部状態量設定手順は、 音声認識用ニューラルネットワーク手段から所定時間継
続して音声認識信号が出力されたとき、前音声認識用ニ
ューラルネットワーク手段をリセットすることを特徴と
する音声認識方法。 - 【請求項18】 請求項17において、 前記音声認識用ニューラルネットワーク手段は、 内部状態値Xが設定された複数のニューロンを相互に結
合して構成されており、 前記各ニューロンは、 その内部状態値Xが、当該ニューロンに与えられる入力
データZj(j=0〜 n:nは自然数)および内部状態
値Xを用いて表された関数X=G(X,Zj)を満足す
る値に時間変化するダイナミックニューロンとして形成
され、 前記各ダイナミックニューロンは、 その内部状態値Xを、関数F(X)を満足する値に変換
して出力されるよう形成され、 前記内部状態量設定手順は、 前記音声認識用ニューラルネットワーク手段の安定状態
における各ニューロンの内部状態量をバッファメモリに
初期値として記憶しておき、前音声認識用ニューラルネ
ットワーク手段をリセットしたとき、その内部状態量を
前記バッファメモリに記憶された初期値に設定すること
を特徴とする音声認識方法。 - 【請求項19】 入力される音声データをフレーム単位
で切出し、特徴ベクトルに変換して順次出力する特徴抽
出手順と、 前記特徴抽出手順から特徴ベクトルとして提供される音
声データに基づき所定の音声データを認識するよう予め
学習された第1の音声認識用ニューラルネットワーク手
段を用い、入力された音声データが認識対象となる音声
データと一致した場合に音声認識信号を出力する音声認
識動作を行う第1の音声認識手順と、 前記第1の音声認識用ニューラルネットワーク手段から
音声認識信号が出力される毎に、動作指示信号を出力す
る認識信号検出手順と、 前記特徴抽出手順から特徴ベクトルとして提供される音
声データに基づき所定の音声データを認識するよう予め
学習された第2の音声認識用ニューラルネットワーク手
段を用い、前記動作指示信号が出力される毎に、音声デ
ータが認識対象となる音声データと一致した場合に音声
認識信号を出力する音声認識動作を行う第2の音声認識
手順と、 前記第1、第2の音声認識用ニューラルネットワーク手
段から出力される音声認識信号を選択し、音声認識信号
として出力する出力合成手順と、 を含むことを特徴とする音声認識方法。 - 【請求項20】 請求項19において、 前記第2の音声認識用ニューラルネットワーク手段は、 所定時間動作する毎にリセットされることを特徴とする
音声認識方法。 - 【請求項21】 請求項19,20のいずれかにおい
て、 前記各音声認識用ニューラルネットワーク手段は、 内部状態値Xが設定された複数のニューロンを相互に結
合して構成されており、 前記各ニューロンは、 その内部状態値Xが、当該ニューロンに与えられる入力
データZj(j=0〜n:nは自然数)および内部状態
値Xを用いて表された関数X=G(X,Zj)を満足す
る値に時間変化するダイナミックニューロンとして形成
され、 前記各ダイナミックニューロンは、 その内部状態値Xを、関数F(X)を満足する値に変換
して出力されることを特徴とする音声認識方法。 - 【請求項22】 請求項18,21のいずれかにおい
て、 前記関数X=G(X,Zj)は、 【数1】 として表されることを特徴とする音声認識方法。 - 【請求項23】 請求項18,21のいずれかにおい
て、 前記関数X=G(X,Zj)は、j番目のニューロンの
出力をi番目のニューロンの入力へ結合する結合強度W
ij、外部入力値Di、バイアス値θiを用いて、 【数2】 として表されることを特徴とする音声認識方法。 - 【請求項24】 請求項18,21のいずれかにおい
て、 前記関数X=G(X,Zj)は、シグモイド関数Sを用
いて、 【数3】 として表されることを特徴とする音声認識方法。 - 【請求項25】 請求項18,21のいずれかにおい
て、 前記関数X=G(X,Zj)は、シグモイド関数S、j
番目のニューロンの出力をi番目のニューロンの入力へ
結合する結合強度Wij、外部入力値Di、バイアス値θi
を用いて、 【数4】 として表されることを特徴とする音声認識方法。 - 【請求項26】 請求項18,21のいずれかにおい
て、 前記各ダイナミックニューロンは、 前記関数F(X)がsigmoid関数であることを特
徴とする音声認識方法。 - 【請求項27】 請求項18,21〜26のいずれかに
おいて、 前記各ダイナミックニューロンは、 前記関数F(X)がしきい値関数であることを特徴とす
る音声認識方法。 - 【請求項28】 請求項18,21〜27のいずれかに
おいて、 前記各ダイナミックニューロンは、 前記入力データZjとして、自己のニューロンの出力Y
に重みを乗算してフィードバックさせたデータを含むこ
とを特徴とする音声認識方法。 - 【請求項29】 請求項18,22〜28のいずれかに
おいて、 前記各ダイナミックニューロンは、 前記入力データZjとして、他のニューロンの出力に重
みを乗算したデータを含むことを特徴とする音声認識方
法。 - 【請求項30】 請求項18,21〜29のいずれかに
おいて、 前記各ダイナミックニューロンは、 前記入力データZjとして、外部から与えられた所望の
データを含むことを特徴とする音声認識方法。 - 【請求項31】 請求項18,21〜30のいずれかに
おいて、 前記音声認識用ニューラルネットワーク手段は、 音声データの特徴ベクトルが入力される入力ニューロン
と、 音声データの認識結果を出力する認識結果出力ニューロ
ンと、 を含むことを特徴とする音声認識方法。 - 【請求項32】 請求項18,21〜31のいずれかに
おいて、 前記音声認識用ニューラルネットワーク手段は、 前記特徴ベクトルが入力される複数の入力ニューロン
と、 入力された音声データが認識対象となる音声データと一
致した場合にのみ肯定信号を出力する第1の出力ニュー
ロンと、 入力された音声データが認識対象となる音声データと一
致しない場合にのみ否定信号を出力する第2の出力ニュ
ーロンと、 を含むことを特徴とする音声認識方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21336393A JP3168779B2 (ja) | 1992-08-06 | 1993-08-05 | 音声認識装置及び方法 |
EP93112661A EP0582312B1 (en) | 1992-08-06 | 1993-08-06 | Speech recognition apparatus |
US08/102,859 US5481644A (en) | 1992-08-06 | 1993-08-06 | Neural network speech recognition apparatus recognizing the frequency of successively input identical speech data sequences |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21042292 | 1992-08-06 | ||
JP4-210422 | 1992-08-06 | ||
JP21336393A JP3168779B2 (ja) | 1992-08-06 | 1993-08-05 | 音声認識装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06102899A JPH06102899A (ja) | 1994-04-15 |
JP3168779B2 true JP3168779B2 (ja) | 2001-05-21 |
Family
ID=26518048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP21336393A Expired - Lifetime JP3168779B2 (ja) | 1992-08-06 | 1993-08-05 | 音声認識装置及び方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US5481644A (ja) |
EP (1) | EP0582312B1 (ja) |
JP (1) | JP3168779B2 (ja) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08123462A (ja) * | 1994-10-27 | 1996-05-17 | Sony Corp | 音声認識装置 |
JPH08227410A (ja) * | 1994-12-22 | 1996-09-03 | Just Syst Corp | ニューラルネットワークの学習方法、ニューラルネットワークおよびニューラルネットワークを利用した音声認識装置 |
JP3254994B2 (ja) * | 1995-03-01 | 2002-02-12 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
JP3284832B2 (ja) * | 1995-06-22 | 2002-05-20 | セイコーエプソン株式会社 | 音声認識対話処理方法および音声認識対話装置 |
JP3968133B2 (ja) * | 1995-06-22 | 2007-08-29 | セイコーエプソン株式会社 | 音声認識対話処理方法および音声認識対話装置 |
JP3697748B2 (ja) * | 1995-08-21 | 2005-09-21 | セイコーエプソン株式会社 | 端末、音声認識装置 |
US5657424A (en) * | 1995-10-31 | 1997-08-12 | Dictaphone Corporation | Isolated word recognition using decision tree classifiers and time-indexed feature vectors |
US5794191A (en) * | 1996-07-23 | 1998-08-11 | Industrial Technology Research Institute | Neural network based speech recognition method utilizing spectrum-dependent and time-dependent coefficients |
US7006969B2 (en) * | 2000-11-02 | 2006-02-28 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
US7369993B1 (en) | 2000-11-02 | 2008-05-06 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
EP1374486B1 (en) * | 2001-03-30 | 2008-11-05 | Nokia Corporation | Method for configuring a network by defining clusters |
US6845357B2 (en) * | 2001-07-24 | 2005-01-18 | Honeywell International Inc. | Pattern recognition using an observable operator model |
US20030233233A1 (en) * | 2002-06-13 | 2003-12-18 | Industrial Technology Research Institute | Speech recognition involving a neural network |
US8712942B2 (en) * | 2003-03-24 | 2014-04-29 | AEMEA Inc. | Active element machine computation |
KR100908121B1 (ko) | 2006-12-15 | 2009-07-16 | 삼성전자주식회사 | 음성 특징 벡터 변환 방법 및 장치 |
US9026768B2 (en) | 2009-09-14 | 2015-05-05 | AEMEA Inc. | Executing machine instructions comprising input/output pairs of execution nodes |
US9015093B1 (en) | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US8775341B1 (en) | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US9152779B2 (en) | 2011-01-16 | 2015-10-06 | Michael Stephen Fiske | Protecting codes, keys and user credentials with identity and patterns |
US10268843B2 (en) | 2011-12-06 | 2019-04-23 | AEMEA Inc. | Non-deterministic secure active element machine |
US9818409B2 (en) | 2015-06-19 | 2017-11-14 | Google Inc. | Context-dependent modeling of phonemes |
US9652712B2 (en) * | 2015-07-27 | 2017-05-16 | Google Inc. | Analyzing health events using recurrent neural networks |
US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
US10235993B1 (en) * | 2016-06-14 | 2019-03-19 | Friday Harbor Llc | Classifying signals using correlations of segments |
JP6773970B2 (ja) * | 2016-09-09 | 2020-10-21 | 富士通株式会社 | 情報処理装置、イジング装置及び情報処理装置の制御方法 |
US10255909B2 (en) | 2017-06-29 | 2019-04-09 | Intel IP Corporation | Statistical-analysis-based reset of recurrent neural networks for automatic speech recognition |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
CN113744722B (zh) * | 2021-09-13 | 2024-08-23 | 上海交通大学宁波人工智能研究院 | 一种用于有限句库的离线语音识别匹配装置与方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1988010474A1 (en) * | 1987-06-18 | 1988-12-29 | University Of West Virginia | State analog neural network and method of implementing same |
JPH0673080B2 (ja) * | 1987-11-25 | 1994-09-14 | 日本電気株式会社 | 連続音声認識方式 |
US5285522A (en) * | 1987-12-03 | 1994-02-08 | The Trustees Of The University Of Pennsylvania | Neural networks for acoustical pattern recognition |
US5014219A (en) * | 1988-05-06 | 1991-05-07 | White James A | Mask controled neural networks |
JP2764277B2 (ja) * | 1988-09-07 | 1998-06-11 | 株式会社日立製作所 | 音声認識装置 |
US5046019A (en) * | 1989-10-13 | 1991-09-03 | Chip Supply, Inc. | Fuzzy data comparator with neural network postprocessor |
US5182794A (en) * | 1990-07-12 | 1993-01-26 | Allen-Bradley Company, Inc. | Recurrent neural networks teaching system |
JP2601003B2 (ja) * | 1990-09-25 | 1997-04-16 | 日産自動車株式会社 | 車両の走行条件認識装置 |
DE4100500A1 (de) * | 1991-01-10 | 1992-07-16 | Bodenseewerk Geraetetech | Signalverarbeitungsanordnung zur klassifizierung von objekten aufgrund der signale von sensoren |
JP2979711B2 (ja) * | 1991-04-24 | 1999-11-15 | 日本電気株式会社 | パターン認識方式および標準パターン学習方式 |
-
1993
- 1993-08-05 JP JP21336393A patent/JP3168779B2/ja not_active Expired - Lifetime
- 1993-08-06 US US08/102,859 patent/US5481644A/en not_active Expired - Lifetime
- 1993-08-06 EP EP93112661A patent/EP0582312B1/en not_active Expired - Lifetime
Non-Patent Citations (3)
Title |
---|
Proceedings of 1993 International Joint Conference on Neural Networks,IJCNN’93,Vol.3,H.Hasegawa et al,"Speech Recognition by Dynamic Recurrent Neural Networks",p.2219−2222,October 25−29,1993,Nagoya,Japan |
電子情報通信学会技術研究報告[音声],Vol.92,No.126,SP92−25,稲積満広外「リカレントニューラルネットワークによる連続単語音声認識」,p.9−16(1992年6月30日発行) |
電子情報通信学会技術研究報告[音声],Vol.92,No.410,SP92−125,稲積満広外「リカレントニューラルネットワークによる連続単語音声認識」,p.17−24(1993年1月19日発行) |
Also Published As
Publication number | Publication date |
---|---|
JPH06102899A (ja) | 1994-04-15 |
EP0582312A1 (en) | 1994-02-09 |
US5481644A (en) | 1996-01-02 |
EP0582312B1 (en) | 1998-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3168779B2 (ja) | 音声認識装置及び方法 | |
EP0574951B1 (en) | Speech recognition system | |
US20120316879A1 (en) | System for detecting speech interval and recognizing continous speech in a noisy environment through real-time recognition of call commands | |
CN111081230B (zh) | 语音识别方法和设备 | |
JPH06332497A (ja) | ニューラル・ネットワークを使用する話者非依存隔離単語音声認識システム | |
JP3066920B2 (ja) | 音声認識方法及び装置 | |
US10741184B2 (en) | Arithmetic operation apparatus, arithmetic operation method, and computer program product | |
US11935523B2 (en) | Detection of correctness of pronunciation | |
KR100292919B1 (ko) | 뉴럴 네트워크를 이용한 음성인식장치 및 그 학습방법 | |
US6151592A (en) | Recognition apparatus using neural network, and learning method therefor | |
CN112669845A (zh) | 语音识别结果的校正方法及装置、电子设备、存储介质 | |
US6430532B2 (en) | Determining an adequate representative sound using two quality criteria, from sound models chosen from a structure including a set of sound models | |
EP3267438B1 (en) | Speaker authentication with artificial neural networks | |
JP3467556B2 (ja) | 音声認識装置 | |
US5751898A (en) | Speech recognition method and apparatus for use therein | |
JPH064097A (ja) | 話者認識方法 | |
EP0726561A2 (en) | Voice-recognition device | |
CN115171878A (zh) | 基于BiGRU和BiLSTM的抑郁症检测方法 | |
JPH06119476A (ja) | 時系列データ処理装置 | |
JP3521844B2 (ja) | ニューラルネットワークを用いた認識装置 | |
JP3009962B2 (ja) | 音声認識装置 | |
Ekpenyong et al. | A DNN framework for robust speech synthesis systems evaluation | |
Benıtez et al. | Word verification using confidence measures in speech recognition | |
CN117497001A (zh) | 评测方法、评测装置 | |
JPH0455518B2 (ja) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20001003 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20010213 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080316 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090316 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090316 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100316 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100316 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110316 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120316 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120316 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130316 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140316 Year of fee payment: 13 |
|
EXPY | Cancellation because of completion of term |