JP3521429B2 - ニューラルネットワークを用いた音声認識装置およびその学習方法 - Google Patents
ニューラルネットワークを用いた音声認識装置およびその学習方法Info
- Publication number
- JP3521429B2 JP3521429B2 JP51729193A JP51729193A JP3521429B2 JP 3521429 B2 JP3521429 B2 JP 3521429B2 JP 51729193 A JP51729193 A JP 51729193A JP 51729193 A JP51729193 A JP 51729193A JP 3521429 B2 JP3521429 B2 JP 3521429B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning
- output
- input
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 76
- 238000013528 artificial neural network Methods 0.000 title claims description 71
- 238000012545 processing Methods 0.000 claims description 37
- 238000013500 data storage Methods 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 12
- 210000002569 neuron Anatomy 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 7
- 230000000670 limiting effect Effects 0.000 claims description 6
- 210000003061 neural cell Anatomy 0.000 claims 6
- 238000010187 selection method Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 31
- 230000006870 function Effects 0.000 description 21
- 210000005036 nerve Anatomy 0.000 description 14
- 230000008878 coupling Effects 0.000 description 11
- 238000010168 coupling process Methods 0.000 description 11
- 238000005859 coupling reaction Methods 0.000 description 11
- 230000006835 compression Effects 0.000 description 9
- 238000007906 compression Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000006837 decompression Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003930 cognitive ability Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 101000823796 Homo sapiens Y-box-binding protein 1 Proteins 0.000 description 1
- 102100022224 Y-box-binding protein 1 Human genes 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Description
装置およびその学習方法に関するもので、音声データ等
の時系列データを処理する際、従来の様に入力データの
始端・終端を与えたり、考えられる全ての始端・終端の
組み合わせについて処理したりするのではなく、神経細
胞様素子自身が入力されたデータの過去の履歴を保持で
きる構成とすることにより、音声等の時系列データの処
理を簡単なハードウェア構成でかつ高精度の処理が可能
となるような技術に関する。
わせるためのニューラルネットワークの学習方法に関す
る。
疇を学習により認識する手段として実用的に用いられて
いる手段は、ダイナミックプログラミング(DP)法、隠
れマルコフモデル(HMM)法、およびバックプロパゲー
ション学習法と多層パーセプトロン型ニューラルネット
ワークを用いた方法(MLP法)とがある。これらの詳細
については、例えば中川聖一著「確率モデルによる音声
認識」(電子情報通信学会)、中川、鹿野、東倉共著
「音声・聴覚と神経回路網モデル」(オーム社)等に記
述されている。
および認識対象となるデータに始端と終端を必要とする
ことである。これらにおいて見かけ上始端終端に依存し
ない処理をするためには、可能性のある全ての始端終端
についての処理を行い、最良の結果を与える始端終端を
試行錯誤的に発見するという方法がある。しかし、例え
ば長さNのパタンの中から、ある範疇に属するデータの
部分を検出する場合を考えてみると、始端の可能性とし
てはNのオーダーの可能性があり、また終端においても
Nのオーダーの可能性がある。つまり、始端終端の組み
合わせとしてはNの自剰のオーダーの可能性が考えられ
る。従ってこの場合においては、この非常に多数の組み
合わせの全てについて認識処理を行わなければならな
い。そして、その処理には膨大な時間がかかってしま
う。
端の存在という仮定自身に、より本質的な問題がある。
入力データに、ある範疇のデータが唯一つしか含まれな
いという条件であれば始端終端は自明であるが、一つ以
上の範疇のデータが連続する場合においては、そのよう
な境界は自明ではない。特に、音声などの時系列情報に
おいては、そのような境界は明確に存在せず、連続した
2つの範疇のデータはその情報が重複する遷移領域を経
て一方から他方へ変化する。従って、データの始端終端
を仮定することはその正確度において非常に大きな問題
がある。
うなデータの始端終端を特に仮定する必要はない。しか
しそれに代わって入力のデータ範囲という意味での新た
な始端終端の問題が起こる。つまり、MLP法は基本的に
は静的なデータを認識するための方法であり、それに時
系列データを認識させるためには、ある時間範囲のデー
タを1つの入力データとして入力し、等価的に時間情報
を処理しなければならないという問題がある。この時間
範囲はMLPの構成上固定されたものでなければならな
い。
一範疇の中においても大きく変動する。例えば音声にお
ける音素を例にとれば、長い音素である母音等と、短い
音素である破裂音等の平均長さは10倍以上異なる。また
同一音素内においても実際の音声中での長さは2倍以上
変動する。従って、仮にデータの入力範囲を平均的な長
さに設定したとすると、短い音素を認識する場合はその
入力データの中には認識対象以外のデータが多数含まれ
ることになり、また長い音素を認識する場合はその入力
データの中には認識対象のデータの一部しか含まれない
ことになる。これらはいずれも認識能力を下げる原因で
ある。また音素毎に異なる入力長さを設定したとして
も、その音素自身の長さが変動するので問題は同様であ
る。また、このようなことは時系列情報一般に見られる
ことである。
終端とを必要とし、MLP法では学習時に入力範囲の始端
と終端とを必要とする。しかし、時系列情報においては
これは原理的に明確にはできず、無理に始端・終端を仮
定することは認識能力を下げることになる。また、見か
け上これを緩和するためには全ての始端終端の組み合わ
せについての処理を必要となり、膨大な処理が必要とな
る。
いた音声認識装置は、 1)ニューラルネットワークを構成する各神経細胞様素
子が、内部状態値記憶手段と、内部状態値記憶手段に記
憶された内部状態値とその神経細胞様素子に入力される
入力値とにより内部状態値を更新する内部状態値更新手
段と、内部状態値記憶手段の出力を外部出力値へ変換す
る出力値生成手段とを有する、 2)内部状態値更新手段は入力値および内部状態値に重
みを付け積算する重み付き積算手段からなり、内部状態
値記憶手段は前記重み付き積算手段により積算された値
を積分する積分手段からなり、出力値生成手段は積分手
段により得られた値を予め設定された上限値と下限値の
間の値へ変換する出力値制限手段とからなる、 3)前記1)または2)において、ニューラルネットワ
ークを構成するi番目の神経細胞様素子の内部状態値を
Xiとして、τiを時定数とし、神経細胞様素子への重み
付き入力値をZj(jは0からn、nは0または自然数)
とすると、内部状態値更新手段が、 を満足する値へ内部状態値を更新する、 4)前記1)ないし3)において、i番目の神経細胞様
素子への重み付き入力値Zjが、i番目の神経細胞様素子
自身の出力に重みを剰算した値を含む、 5)前記1)ないし4)において、i番目の神経細胞様
素子への重み付き入力値Zjが、ニューラルネットワーク
を構成する他の神経細胞様素子の出力に重みを剰算した
値を含む、 6)前記1)ないし5)において、i番目の神経細胞様
素子への重み付き入力値Zjが、ニューラルネットワーク
の外部から与えられたデータを含む、 7)前記1)ないし6)において、i番目の神経細胞様
素子への重み付き入力値Zjが、ある固定された値に重み
を剰算した値を含む、 8)前記1)ないし7)において、出力値生成手段が、
正負対称出力範囲を有する、 9)前記1)ないし8)において、ニューラルネットワ
ークが少なくとも肯定出力、否定出力の2つの出力を持
つ、 10)前記1)ないし9)において、音声認識装置は、認
識させたい入力の特徴抽出を行うと共に特徴抽出した値
を前記ニューラルネットワークへ入力する音声特徴抽出
手段と、ニューラルネットワークの出力値を認識結果に
変換する認識結果出力手段と、ニューラルネットワーク
を構成する神経細胞様素子の内部状態値記憶手段に予め
設定された初期値を与える内部状態値初期化手段とを有
する、 11)前記10)の音声認識装置において、ニューラルネッ
トワークに背景雑音を入力する背景雑音入力手段と、ニ
ューラルネットワークの出力から平衡状態を検出し、そ
の検出結果に基づき内部状態初期値設定手段に内部状態
値を変更する信号を出力する平衡状態検出手段とを設け
たこと、 を特徴とする。
認識装置の学習方法は、 12)前記10)または11)の音声認識装置が、ニューラル
ネットワークを学習させる学習部を有し、その学習部が
学習用入力データを記憶する入力データ記憶手段と、入
力データ記憶手段から学習用入力データを選択する入力
データ選択手段と、学習用出力データを記憶する出力デ
ータ記憶手段と、選択された入力データとその連鎖によ
り学習用出力データを選択する出力データ選択手段と、
選択された学習用入力データを特徴抽出部に入力すると
共にニューラルネットワークの学習を制御する学習制御
手段とを有し、学習制御手段はニューラルネットワーク
の出力と出力データ選択手段の出力とに基づいて神経細
胞様素子の結合の重み付けを変更する、 13)前記12)において、入力データ記憶手段は複数個の
範疇を有し、出力データ記憶手段は入力データ記憶手段
の各範疇に対応する範疇を有し、入力データ選択手段は
入力データ記憶手段の範疇から学習させたい複数個のデ
ータを選択し、出力データ選択手段は入力データ選択手
段により選択された学習用入力データに対応する学習用
出力データを選択し、学習制御部は入力データ選択手段
が選択した複数個のデータを1つに連結する入力データ
連結手段と出力データ選択手段が選択した学習用出力デ
ータを1つに連結する出力データ連結手段とを有し、学
習部は連結した1つの学習用入力データを音声特徴抽出
手段に入力すると共に、ニューラルネットワークの出力
と出力連結手段の出力とに基づき神経細胞様素子の結合
の重み付けを変更する、 14)前記13)の範疇の数が2であること、 15)前記12)ないし14)において、学習部は雑音データ
を記憶する雑音データ記憶手段と、選択された学習デー
タに雑音データ記憶手段から選択された雑音を重畳する
雑音重畳手段とを有し、雑音重畳手段により雑音が重畳
された入力データを用いてニューラルネットワークを学
習させる、 16)前記15)において、背景雑音を重畳させる位置をず
らして繰り返し学習させる、 17)前記15)において、はじめに背景雑音が重畳されて
いない入力データで学習させた後に、同じ入力データに
背景雑音を重畳して学習させる、 ことを特徴とする。
た音声認識装置及び学習方法によれば、 1)従来例では音声入力の長さNの自剰に比例した処理
時間が必要であったが、本発明ではデータを1回のみ与
えれば良く非常に高速な処理が可能である、 2)入力データを記憶するメモリーが非常に少なくても
良い、 3)結果の正規化の必要がない、 4)容易に連続処理が可能である、 5)整数型のデータ表現でも十分な精度が得られる。
度の認識結果が得られる、 7)より多出力の任意の情報を出力させる事ができる、 8)対雑音性等を容易に向上させる事ができる、 9)種々の時間スクールの現象への対応を学習により自
己組織的に行う事ができる、 10)NNの連想能力、情報の圧縮伸長能力を、目的に合わ
せて最適に配置する構成が容易に行える、 11)学習が極めて容易であり、そのための試行錯誤的な
部分が非常に少ない、などの効果がある。
神経細胞様素子を示す図である。図2は、図1の神経細
胞様素子を具体的な機能に置き換えた図である。図3
は、図2の構成を電気回路に置き換えた例である。図4
は、本発明の神経細胞様素子を用いて構成されたニュー
ラルネットワークを用いた音声認識装置を示す図であ
る。図5は、図4のニューラルネットワークを3層化し
た図である。図6は、図5のニューラルネットワークを
さらに多層化した図である。図7は、図6の伝達ネット
ワークを分割した図である。図8は、自己回帰ループを
有するニューラルネットワークを示す図である。図9
は、ランダム結合ニューラルネットワークを示す図であ
る。図10は、本発明の音声認識装置の耐雑音性を説明す
るための図である。図11は、本発明の音声認識装置の時
間スケールの学習効果化を説明するための図である。図
12は、本発明の神経細胞用素子を用いた別の音声認識装
置の構成を示す図である。図13は、図12の音声認識装置
の動作手順を表す図である。図14は、本発明のニューラ
ルネットワークを用いた音声認識装置の学習方法を示す
図である。図15は本発明の学習方法の学習手順を示す図
である。図16は、本発明の学習データの連結を示す図で
ある。図17は、本発明の学習データの構成を示す図であ
る。図18は、本発明のニューラルネットワークを用いた
音声認識装置の学習方法を示す別の図である。図19は、
本発明の音声認識装置による音声単語検出出力を示す図
である。図20は、本発明の音声認識装置による別の音声
単語検出出力を示す図である。図21は、本発明の音声認
識装置の別の構成を示す図である。図22は、図21の音声
認識装置の動作手順を示す図である。図23は、背景雑音
重畳手段を有する音声認識装置の学習方法を示す図であ
る。図24は、学習データへの雑音成分の重畳させ方を示
す図である。図25は、本発明の学習方法で学習させたニ
ューラルネットワークに未知単語を与えたときの認識結
果を示す図。図26は、図25を同様の処理を未知話者に対
して行った場合の認識結果を示す図。図27は、図26と同
様の処理を背景雑音を与えて行った場合の認識結果を示
す図。図28は、従来技術の神経細胞様素子を示す図であ
る。図29は、図28の神経細胞様素子を具体的な機能に置
き換えた図である。図30は、図29の構成を電気回路に置
き換えた図である。
(以下「ノード」という)の機能を模式的に示したもの
である。図中104は1つのノード全体を、101は内部状態
値記憶手段を、102は101に記憶された内部状態値及びノ
ードに入力される入力値に基づいて内部状態値を更新す
る内部状態値更新手段を、103は内部状態値を外部出力
へ変換する出力値生成手段を示す。
したものである。図中201はデータ入力手段を、202は20
1により得られたデータ入力値に重みを付け積算する重
み付き積算手段を、203は積算されたデータ値を積分す
る積分手段を、204は積分の結果得られた値を予め設定
されたある範囲の値へ変換する出力値制限手段をそれぞ
れ模式的に示す。
301は、図2のデータ入力手段と重み付き積算手段を、
また302は積分手段を、303は出力値制限手段を示す。
の機能を模式的に示したものである。図中2803は1つの
ノード全体を、2801はの内部状態値を計算する内部状態
値計算手段を、2802は2801により計算された内部状態値
を外部出力へ変換する出力値生成手段を示す。
的に示したもので、図中2901はデータ入力手段を、2902
は2901により得られたデータ入力値に重みを付け積算す
る重み付き積算手段を、2903は積算されたデータの値を
予め設定されたある範囲の値へ変換する出力値制限手段
を示す。
01は、図29のデータ入力手段と重み付き積算手段を、ま
た3002は出力値制限手段を示す。
のノードは従来のノードにはなかった積分手段を持つ。
従って、従来のノードにおいては、その出力が、その時
点での入力のみにより決定されると言う意味で静的であ
ったのに対し、本発明のノードは、そのノードへ入力さ
れたデータの過去の履歴が、その積分値として変換、保
持されており、それにより出力が決まると言う意味で動
的であるといえる。
タを処理しようとすれば、そのネットワークの構造とし
てデータの時間構造を取り込む必要があったのに対し、
本発明の動的なノードを用いたNNは、NNの構造によらず
にノードそのもので時系列データを処理する事ができ
る。
させようとすると、その時間情報を空間情報へ展開する
ような方法、例えば複数のタイミングで入力されたデー
タを一つの入力データへまとめあげる等の方法が必要と
なる。このためには、このまとめあげるデータを記憶
し、管理するためのハードウェアと処理が必要となる。
あるいは上で述べたような時間に依存する情報を記憶す
るための、特別なコンテキスト素子が必要となる。さら
に、このコンテキストを管理するハードウェアと処理も
必要である。
等は各々の素子の内部の積分値として記憶されるため、
NNに特別な構造を設定する必要がない。従って、入力デ
ータも、それぞれのタイミングのデータをそれぞれのタ
イミングで入力する、という最も単純な入力方法で十分
であり、時間情報を処理するための特別なハードウェア
や処理は全く必要としない。
されるNNの実際の動作について説明する。ノードの内部
状態値をX、出力値をYとし、XとYの時間変化におい
て、現在の内部状態値をXcurr、更新された内部状態値
をXnext、またその更新動作時にノードに入力される入
力値をZi(iは0からnであり、nはそのノードへの入
力数)とする。内部状態値更新手段の動作を形式的に関
数Gと表すと、更新された内部状態値Xnextは、 Xnext=G(Xcurr、Z0、・・・、Zi、・・・、Zn)
(1) と表現できる。式(1)の具体的な形は様々のものが考
えられるが、例えば1階の微分方程式を用いた次の式
(2)のようなものも可能である。
ある結合重みを乗算されたそのノード自身の出力、あ
る結合重みを乗算された他のノードの出力、等価的に
内部状態更新手段へバイアスを与えるための結合重みを
剰算された固定出力値、そのノードにNNの外部から入
力される外部入力、等が考えられる。そこで、このよう
な入力値Zjに対するi番目のノードの内部状態値の更新
を考える。内部状態値をXi、任意のノードの出力をYj、
j番目のノードの出力をi番目のノードの入力へ結合す
る結合強度をWij、バイアス値をθi、i番目のノード
への外部入力値をDiとすると、式(2)はより具体的に
次の様に書ける。
態をXとし、出力値生成手段の動作を形式的に関数Fで
表すと、ノードの出力Yは、 Y=F(X) (4) と表現できる。Fの具体的な形としては以下の式(5)
で示されるような正負対称出力のシグモイド(ロジステ
ィック)関数等が考えられる。
もより単純な線形変換や、あるいはしきい値関数等も考
えられる。
列は計算される。
た音声認識装置の1例を示すものである。図中401は音
声特徴抽出手段を、402は本発明のノードによって構成
されたNNを、403は認識結果の出力手段を示す。音声特
徴抽出手段により抽出された出力が2つのノードに入力
されている。それから、このNNは任意のノードが他の全
てのノードと結合している全結合型のNNとなっている。
そして、NNからは2つの出力が認識結果出力手段に出力
されている。本発明のNNでは、出力数は任意に設定する
ことができる。よって、単語認識の場合などは、肯定出
力、否定出力の2つの出力を設けて、これらの出力から
総合的に認識結果を判断して、認識精度を高めることが
できる。もちろんNNへの入力数および出力数は図4の様
に2つに限るものではなく、幾つでも良い。
他の構成例を示す。
5に示す。ここではNN402が、入力層501、隠れ層502、
出力層503から構成される。この構成は、従来技術のMLP
法と見かけ上同一に見える。しかし、本発明のノードに
より構成されたNNは、従来技術のような先ず入力層の値
が決定され、その後にその値を入力とする隠れ層の値が
決定され、以下同様に出力層に至るまでの各層の値が逐
次的に決定されていくといった、フィードフォワード型
ネットワークではない。
値を保持できるため従来技術のようなコンテキスト層を
必要とせずに時系列データを認識し、コンテキスト層を
有する従来技術と同等の結果を得る事ができる。また、
全ての層の出力が同時に決定されるため従来技術のMLP
法よりも、より効率の良い並列処理が可能である。
も有する。図10のa)は従来の単純なMLP法におけるノ
ードの入力と出力の対応を示すものである。図より明ら
かなように、方形波的な入力にスパイク的なノイズが重
畳した信号が入力として与えられると、ほぼそのままの
波形が出力に現れるのが判る。このようにMLP法のノー
ドは、その入力を単純に出力に反映するためノイズの影
響をそのまま受けてしまう。
履歴を記憶しており、その内部状態値と入力との関数と
して次の内部状態値、そして出力値が決まる。従って
a)と同様のスパイク的なノイズが入力に重畳しても、
図10b)に示すようにスパイク的な波形はなまらされて
その影響は小さくなり、良好な耐ノイズ性が得ることが
できる。
においても多少は得る事ができるが、NNを構成するノー
ドの一部について、その履歴情報を特別な構成を持った
外部ノードへ保存しなければならず、全てのノードが自
分自身の履歴情報を内部状態値として保持する本発明に
おけるノードを用いた場合と比較してその耐ノイズ性は
劣る。
型ネットワークを構成した例で、図6に示す。図中601
は特徴抽出(または情報圧縮)ネットワークを、602は
伝達ネットワークを、603は認識(または情報伸長)ネ
ットワークを示す。図6のNNの構成も、一見従来のMLP
法と同様である。しかし、その動作は前述した通り全く
異なる。このような構成をとることにより、本発明の効
果を損なわずに時系列的な効果を取り込んだ特徴抽出
(または情報圧縮)NN、及び時系列的な効果を取り込ん
だ認識ネットワーク(または情報伸張)ネットワーク等
の機能をモジュール化した音声認識方法の構成も可能で
ある。
す情報送信機能702と情報受信機能703に分割した例であ
る。702と703の間の法線は、これらが空間的・時間的に
離れていても良い事を示す。この波線が伝送線などの空
間的な距離を示すとすると、図7は音声圧縮伝送装置を
示し、この波線が時間的な距離を示すとすると、図7は
例えば音声圧縮記録装置を示す。もちろんここで圧縮さ
れる対象は音声に限られるものではなく、より一般的な
情報であってもかまわない。また認識処理は広い意味で
の情報圧縮処理である事は言うまでもない。
われる事はない。例えば図10で説明した対ノイズ性によ
り、伝送線上での伝送誤りや雑音の混入、あるいは記録
媒体の欠陥や劣化等に対しても良好な耐性を示すもので
ある。
は、自己回帰ループを持つことにより、より広い時間的
変動範囲の現象を取り扱うことができる。つまり、入力
値Zのなかの自己回帰ループの部分の結合の強さをWと
すると、この自己回帰ループを考えることは近似的に系
の時定数τを以下の式に置き換えたことに相当する。
ので、学習データに合わせて系の応答の時間スケールを
最適化することができる。従来のコンテキスト層を用い
た方法ではこのようなことを学習により自己組織的に行
う事はできず、人間が時間スケールに合わせたネットワ
ークの設定を行うことが必要となる。
のa)に示したような方形波の連続入力があったとする
と、この方形波の周期よりも系の応答時定数が大いと系
の応答はa)の出力のように前の出力に次の出力が加算
されていき、正しい認識結果を得る事はできない。
時定数は学習により最適化されるので、その応答は例え
ば図11のb)のように修正される事が可能であり、良い
認識率を得る事ができる。
組み合わせる事により、図6、図7のシステムの対雑音
性等をさらに高める事ができる。
結合NNとした例を図9に示す。ランダム結合NN902は、
入力ネットワーク904と出力ネットワーク905の2つのサ
ブネットワークからなる。本例では、入力ネットワーク
を全結合型サブネットワークし、出力ネットワークをラ
ンダム結合型のサブネットワークとして、2つのサブネ
ットワークを1方向的に接続する構成とした。
加えて、全結合型NNによる連想能力を用いて入力の欠陥
を補う、あるいは対雑音性をあげる等の機能、さらに一
方向の結合を用いて情報の流れをヒューリスティックに
処理し、情報の圧縮、伸長等を行う等機能を、全体の構
成の設計として最適に行う事ができる等の効果が得られ
る。
音声認識装置そのものの他の構成例を見ていく。
段1204を追加したもので他は図4と同一である。式
(2)で示したように、本発明のNNの動作は1階の微分
方程式で記述される。従って、その動作を決定するにあ
たっては、初期値が必要となる。内部状態初期値設定手
段は、NNが動作をするために、予め決められた初期値を
全てのノードに与えるものである。図13に基づいて、本
音声認識装置の動作手順を説明すると、 1.内部状態初期値設定手段により、全てのノードに適当
に選択された初期内部状態値Xをセットし、それに対応
する出力Yをセットする。
力値Zは前に説明した通りであり、音声特徴抽出手段に
よって抽出された音声特徴量は、外部入力値としてこの
Zの一部として計算される。
内部状態値Xそのものの値によりXの値が更新される。
ードの出力として認識結果出力手段に与えられる。
装置の基本的な動作原理およびその構成であるが、この
様なNNに所望の処理をさせるにはNNを学習させることが
必要となる。そこで、次にNNの学習方法について説明す
る。
図である。図中1410は、NN1402を学習させるための学習
部を示す。1411は所定の学習用入力データが記憶された
入力データ記憶手段、1413は各学習用入力データに対応
する模範となる出力データが記憶された出力データ記憶
手段、1412は入力データ記憶手段から学習させたい入力
データを選択する入力データ選択手段、同様に1414は出
力データを選択する出力データ選択手段、そして、1415
はNNの学習を制御する学習制御手段を示す。
いて図13、図14を参照しながら説明する。まず、全ての
ノードに予め設定された初期状態値Xをセットする。次
に、学習させたい学習用入力データが入力データ選択手
段により選択される。選択された入力データは学習制御
手段に送られる。この時、選択した学習用入力データに
対応する学習用出力データが出力データ選択手段により
選択される。選択された出力データも同様に学習用制御
手段に送られる。選択された学習用入力データは音声特
徴抽出手段1401に入力され、ここで特徴抽出された特徴
ベクトルがNNへ外部入力として入力される。全てのノー
ドについてそれぞれ入力Zの和を求め、式(2)に従っ
て内部状態値Xを更新する。そして、更新されたXによ
り出力Yを求める。
ダムな値が与えられている。したがって、NNから出力さ
れる出力値Yはでたらめな値である。
す。このようにして得られた、出力Yの時系列に対し
て、次の式(7)で示される式により学習評価値Cを求
める。
価値である。式(7)に従い、Cの時系列は図15に示す
ような処理により計算される。
ータに対応する学習用出力データをTとし、学習用入力
データに対応する出力値をYとして、例えば誤差評価関
数として、次の式(8)で示されるkullback−leibler
距離を用いるとEは、 と書ける。kullback−leibler距離を用いると、種々の
要因により学習が高速になるという利点がある。
手段によって生成される出力値が対称出力である場合
は、式(8)は次の式(9)のように表される。
体的な例として次の式(10)が得られる。
式(11)で与えられる。
が目的とする値になるように各ユニット間の結合の強さ
を変更する。認識させたい音声データを繰り返し入力
し、少しずつ各ユニット間の結合の強さを変更すること
により、ネットワークから正しい値が出力されるように
なる。出力が収束するまでの繰り返し回数は、数千回程
度である。
ワークのみではなく、層状結合等を特殊例として含む、
より一般的なランダム結合ニューラルネットワークにも
適用可能であるのは明かである。
させる方法について、NNが肯定出力と否定出力の2つの
出力を有する場合を例にして説明する。
ルになった肯定出力はローレベルに下げることがでな
い。逆に、一度ローレベルになった否定出力はハイレベ
ルに上げることができない。つまり、入力データを1つ
ずつ用いた学習では、図16(a)に示すような、認識さ
せたい入力データ(以下、「肯定データ」という)を与
えて肯定出力をハイレベルに上昇させる学習(否定出力
はローレベルのまま)、または図16(b)に示すよう
な、認識させたくないデータ(以下、「否定データ」と
いう)を与えて否定出力をハイレベルに上昇させる学習
(肯定出力はローレベルのまま)が行われる。しかしな
がら、この学習では、肯定出力、否定出力ともに一度ハ
イレベルに上昇した出力値が下降することがない。
の音声データが連続して与えられた場合、肯定データの
出力で一度ハイレベルに上がった肯定出力は、その後に
否定データの入力があってもローレベルに下がることは
ない。これは否定出力についても同様である。
うな、2つの音声データを連続して与えて、出力の上昇
と下降の両方の学習する方法を用いた。図17(a)では
否定データと肯定データを連続して入力し、肯定出力の
上昇、否定出力の上昇と下降を学ばせる。図17(b)で
は、肯定データと否定データを連続して入力し、肯定出
力の上昇と下降、否定出力の上昇を学ばせる。図17
(C)では、否定データを2つ連続して入力し、図17
(a)の学習で否定データの次は肯定データであると言
った誤った認識をNNに持たせないようにする。同様に、
図17(d)では、肯定データを2つ連続して入力し、図
17(b)の学習で、肯定データの次は否定データである
と言った誤った認識をNNに持たせないようにする。
題である。つまり、入力データを一つのみ用いた学習で
はその学習が特定の初期値のみから開始されるため、そ
の初期値においてのみ期待される能力を示すような学習
結果しか得られない。これをより一般的な場合に適応で
きるようにするためには、様々な初期値に対しても正確
な反応が起こるように学習させなくてはならない。しか
し、このような様々な初期値としては全ての例を与える
必要はない。実際の認識時においては、その認識対象に
ついての種々の制約により可能な初期値の組み合わせは
限られたものとなる。学習に2個以上のデータの連鎖を
用いることは、このような可能な初期値の組み合わせを
近似的に与えるものであり、この目的のためには2個の
データの連続のみにおいても十分によい結果が得られ
る。もちろん3個以上の連続データを用いてもよい。
音声認識装置の構成図である。ここでは、図14で説明し
た入力データ記憶手段が、肯定データ、否定データとい
う2つの範疇から構成されている。図中1801は様々な条
件で収集された認識すべき単語のデータ群である肯定デ
ータ記憶手段を、1802はもう一つの範疇である認識すべ
き単語以外の例としての否定データ記憶手段を、1803、
1804はそれぞれの範疇についての学習用出力データを記
憶する出力データ記憶手段である。ここでは、各範疇に
3個のデータがあるとする。1805は入力データ選択手段
を、1806は出力データ選択手段を、1807は入力データ連
結手段を、1808は出力データ連結手段を、1809は学習制
御手段を、1810はNNをそれぞれ示す。
定データ記憶手段から学習用の入力データが2つ選択さ
れる。その組み合わせについては、図17で説明した通り
である。選択された2つの入力データは入力データ連結
手段で1つの連続データとなる。そして、この連続デー
タは音声特徴抽出手段で特徴抽出されNNへ入力される。
NN内では、図13の処理に従い出力値が時系列的に計算さ
れる。NNの出力は学習制御手段に送られ、予め選択され
ている学習用出力データとの誤差が計算され、各ノード
の結合の重みが修正されることにより、NNが学習を重ね
る。図18では、NNの出力を肯定出力ノードと否定出力ノ
ードの2個とし、1803、1804中の実線が肯定データに対
応する肯定出力ノードの学習用出力、破線が否定データ
に対応する否定出力ノードの学習用出力とした。
たNNからなる音声認識装置の認識結果を、図18で説明し
た学習方法により学習させた場合を例に次に示す。実際
には、音声特徴抽出手段の出力として20次のLPCケプス
トラムを仮定し、入力を20、出力を2、その他を10とし
て合計32個のノードによりNNを構成した。
としては「とりあえず」を、それ以外の参照用単語(否
定データ)としては、「終点」、「腕前」、「拒絶」、
「超越」、「分類」、「ロッカー」、「山脈」、「隠れ
ピューリタン」の8単語を与えた。NNの出力としては、
上の肯定データに対応する肯定出力と、否定データに対
応する否定出力の二つを考えた。学習用出力としては、
図17で説明した4つの場合を想定した。この学習用出力
の曲線部分は、そのデータの時間的な中点に原点を持
ち、かつそのデータの始端を−10、終端を10に対応させ
た式(5)のシグモイド関数を0〜0.9の範囲に変形し
たもの、あるいはそれを反転したものを用いた。また、
学習用の話者は(株)ATR自動翻訳電話研究所の研究用
日本語音声データベースの中のMAUとFSUで行った。
(この場合は20次LPCケプトラム)を入力し、一組の肯
定出力、否定出力を得るものとした。従って、従来のよ
うに複数のフレームのデータを入力するような必要はな
い。
結合を持つBPモデル」型NNでは、学習を収束させるのが
困難であり、その学習用出力を試行錯誤的に作成しなけ
ればならないという問題点があったが、本発明の音声認
識方法のNNは、以上の方法で学習させることにより、数
100〜数1000回の学習で所望の出力を生成するようにな
った。また、学習用出力も試行錯誤的な部分は全く無く
一義的に決めることができる。
かった未知の単語を含むデータを与え、その能力を検証
した結果である。単語の種類の合計は216単語であり、
そのうちの9単語は学習に用いたものである。これらの
216単語から様々な組み合わせの2単語連鎖のデータを
作成し、検証に用いた。検証の際の単語の出現総数は話
者あたり1290単語である。認識結果の判定は、肯定出力
と否定出力の組み合わせによる判定とし、肯定出力が0.
75以上かつ否定出力が0.25以下であれば検出、肯定出力
が0.25以下かつ否定出力が0.75以上であれば非検出、そ
れ以外は困惑状態であるとした。この判定条件におい
て、検出すべき単語が無い位置で検出出力が得られた場
合を挿入誤り、検出すべき単語が有る位置において非検
出出力が得られた場合を欠落誤りとした。
以外の未知話者9人に対して行ったものである。
方法によれば、僅かのデータを学習させるだけで非常に
良い認識率を得る事ができる。
する単語を検出した例である。図中実線は肯定出力を、
破線は否定出力を示す。図より明かなように、従来例の
ように始端、終端を与える事無く単語「とりあえず」を
認識していることが判る。
えず」を認識した例である。図19と同様に、実線は肯定
出力を、破線は否定出力を示している。このように、本
発明の認識方法は、十分な汎化能力を持っている事が分
かる。
長さは合計1049個であるので、従来的な始端、終端を与
えて認識させる場合は単純に言って1049の自剰個のオー
ダーの組み合わせを調べる必要がある。しかし、本発明
は1049個のデータをそれぞれ1回ずつ入力として与える
のみで良いので、従来の処理方法と比較して、数百分の
1の時間で処理できる。また、データをそれぞれ1回だ
け入力すれば良いため、従来のように始端、終端となり
得る範囲のデータを記憶しておく必要がなく、データメ
モリーも小量しか必要なく、その計算量も少なくなる。
加、あるいは単調減少するのではなく、必要な所でピー
ク値を持つため、出力値を入力データの長さに対して正
規化する必要もない。つまり、出力は常にある範囲(こ
の例の場合は−1から1の間)にあり、かつその値の持
つ重みは認識区間のどこでも同じである。この事は処理
すべき値のダイナミックレンジが狭い事を意味し、処理
時に浮動小数点データや対数データを用いなくとも、整
数型のデータで十分な性能を出せることを意味してい
る。
な判断により認識をしているため、例えば、図20の「購
入」のところで肯定出力が立ち上がりかけても、否定出
力が下がらないために誤認識をするようなこともなく、
音声認識処理の精度を向上させることができる。もちろ
ん、出力数は2に限るものではなく、必要に応じて幾つ
設けてもよい。例えば、現在入力されているデータが学
習に用いられたデータとどの程度類似しているかという
ような出力を加えることにより、さらに認識結果の精度
を高めることができる。さらに、それらを複数個用いる
ことにより、最適な結果を与えるNNを選択することがで
きる。
なく音節あるいは音素とすることもできる。この場合に
は、比較的少数のNNによりその言語音声の全体を認識す
ることが可能となる。それにより、例えばディクテーシ
ョンシステムが可能となる。さらに、認識単位として
は、上のような言語との対応を考えない抽象的なもので
あってもよい。このような認識単位を用いることは特に
認識装置を情報圧縮に用いる場合に有効である。
した音声認識装置に対して、背景雑音入力手段2105およ
び平衡状態検出手段2106が付加されたものである。他
は、図12と同様である。
定するかの処理の流れを図22に示す。図中の背景雑音デ
ータの作成に関わる部分は、適当な初期値設定手段、適
当な定常入力作成手段、あるいは無入力に対応するもの
として無くても良い。図27は、この装置を図18に示した
学習方法で学習させて認識した結果を表したもので、実
施例1の表1と表2に対応する結果をまとめたものであ
る。これは、約3秒の背景雑音入力により平衡状態にな
ったNNの内部状態値を初期値として保存し、認識処理の
際にはその値を式(2)の微分方程式の初期値として用
いたものである。
の欠落誤りが実施例1の結果に比較して改善されてい
る。
音声認識機能に加えて、言語的な処理を用いる事が多
い。この際、挿入的な誤りはそのような言語的な制約に
より訂正削除する事が比較的容易に可能であるが、欠落
的な誤りをそのような言語的な制約で推論追加する事は
困難である。従って、本実施例に示したような欠落誤り
率の改善は、より高性能な音声認識装置を実現するため
に重要な事柄である。
ータ重畳手段が付加された例である。基本的な学習方法
については、図14に説明した通りである。本実施例の特
徴は、予め雑音成分を重畳したデータを学習用データと
して用いる点にある。学習用データの認識処理は、学習
用データに含まれている雑音成分を除去したデータにつ
いて認識が行われるように、NNのユニット間の重みが学
習用制御手段によって調整される。つまり、NNは学習用
データに含まれる雑音成分を明確に識別できるように学
習させられる。
であるが、学習データへの雑音成分の重畳は、図24に示
すように複数箇所で行われる。図中2401は学習用データ
を、2402、2403は雑音成分を示す。図24(b)は、図24
(a)の学習用データの前段部分に雑音成分2402を重畳
した例で、図24(c)は、学習用データの後段分に雑音
成分2403を重畳させた例である。このように、学習用デ
ータの複数の箇所に雑音成分を重畳させた重畳データを
用いて、かつ学習用データに重畳された雑音成分を除去
したデータを認識するように学習させることにより、NN
は雑音成分だけを明確に識別できるようになる。
タの雑音部分を正しく認識できるようになる。
は、連続音声認識のみならず孤立音声認識に関しても非
常に有効である。
処理においても有効であり、入力データと出力データの
対応が取れるものであれば、どの様な時系列情報の処理
も可能である。利用可能性としては、情報の圧縮、伸
長、波形等価、等が考えられる。
Claims (22)
- 【請求項1】認識させたい音声入力の特徴抽出を行ない
音声データとして出力する特徴抽出手段と、 前記特徴抽出手段から特徴抽出された音声データが認識
対象となる音声データと一致するか否かの音声認識処理
を行ない、認識結果を複数の範疇の出力の組合わせとし
て出力する音声認識用ニューラルネットワークと、 前記ニューラルネットワークを学習させるための学習部
と、 を有し、 前記学習部は、 複数の範疇の複数個の学習用入力データを記憶する入力
データ記憶手段と、 前記入力データ記憶手段から、複数の範疇の複数個の学
習用入力データの連鎖を構成する学習用入力データを選
択する入力データ選択手段と、 前記学習用入力データの各範疇に対応する複数の範疇の
複数個の学習用出力データを記憶する出力データ記憶手
段と、 前記出力データ記憶手段から、前記選択された学習用入
力データの範疇とその連鎖に対応した範疇と連鎖を持つ
学習用出力データを選択する出力データ選択手段と、 選択された学習用入力データを前記特徴抽出部に入力す
ると共に前記ニューラルネットワークの学習を制御する
学習制御手段と、 を有し、 前記学習制御手段は、 前記ニューラルネットワークの出力と前記出力データ選
択手段の出力とに基づき、前記ニューラルネットワーク
の各神経細胞用素子の結合の重み付けを変更することを
特徴とするニューラルネットワークを用いた音声認識装
置。 - 【請求項2】請求項1において、 前記音声認識用ニューラルネットワークは、 入力される音声データが認識対象となる肯定データかそ
れ以外の否定データかの認識処理を行ない、 肯定データが入力されたときには出力が第1の状態とな
り、連続して否定データが入力されたときには第1の状
態から第2の状態に出力が変化する肯定出力と、否定デ
ータが入力されたときには出力が第3の状態となり、連
続して肯定データが入力されたときには第3の状態から
第4の状態に出力が変化する否定出力との少なくともの
2つの範疇を出力の組合わせとして前記認識結果を出力
するように構成されたことを特徴とするニューラルネッ
トワークを用いた認識装置。 - 【請求項3】請求項1、2のいずれかにおいて、 前記学習部は、 雑音データを記憶する雑音データ記憶手段と、 前記選択された学習用入力データに前記雑音データ記憶
手段から選択された雑音を重畳する雑音重畳手段と、 を有し、 前記雑音重畳手段により雑音が重畳された学習用入力デ
ータを用いて前記ニューラルネットワークを学習させる
ことを特徴とするニューラルネットワークを用いた音声
認識装置。 - 【請求項4】請求項3において、 前記雑音重畳手段は、 背景雑音を重畳させる位置をずらして繰り返し学習させ
ることを特徴とする音声認識装置。 - 【請求項5】請求項3において、 前記学習部は、 はじめに背景雑音が重畳されていない入力データで学習
させた後に、同じ入力データに背景雑音を重畳して学習
させることを特徴とするニューラルネットワークを用い
た音声認識装置。 - 【請求項6】請求項1〜5のいずれかにおいて、 前記ニューラルネットワークを構成する各神経細胞用素
子は、 現在の内部状態値を記憶する内部状態値記憶手段と、 前記内部状態値記憶手段に記憶された内部状態値とその
神経細胞用素子に入力される少なくとも一つの重み付け
された入力値とに基づいて前記内部状態値を更新する内
部状態値更新手段と、 前記内部状態値記憶手段の出力を外部出力値へ変換する
出力値生成手段と、 を有することを特徴とするニューラルネットワークを用
いた音声認識装置。 - 【請求項7】請求項6において、 前記内部状態値更新手段は前記入力値および前記内部状
態値に重みを付け積算する重み付き積算手段からなり、 前記内部状態値記憶手段は前記重み付き積算手段により
積算された値を積分する積分手段からなり、 前記出力値生成手段は前記積分手段により得られた値を
予め設定された上限値と下限値の間の値へ変換する出力
値制限手段とを有することを特徴とする音声認識装置。 - 【請求項8】請求項6、7のいずれかにおいて、 前記ニューラルネットワークを構成するi番目の前記神
経細胞用素子の内部状態値をXiとし、τiを時定数と
し、前記神経細胞用素子への前記重み付き入力値をZj
(jは0からn、nは0または自然数)とすると、 前記内部状態値更新手段が、 【数1】 を満足する値へ内部状態値を更新する事を特徴とする音
声認識装置。 - 【請求項9】請求項6〜8のいずれかにおいて、 前前記i番目の神経細胞用素子への重み付き入力値Zj
が、前記i番目の神経細胞用素子自身の出力に重みを剰
算した値を含む事を特徴とする音声認識装置。 - 【請求項10】請求項6〜9のいずれかにおいて、 前前記i番目の神経細胞用素子への重み付き入力値Zj
が、前記ニューラルネットワークを構成する他の神経細
胞用素子の出力に重みを剰算した値を含む事を特徴とす
る音声認識装置。 - 【請求項11】請求項6〜10のいずれかにおいて、 前記i番目の神経細胞用素子への重み付き入力値Zjが、
前記ニューラルネットワークの外部から与えられたデー
タを含む事を特徴とする音声認識装置。 - 【請求項12】請求項6〜11のいずれかにおいて、 前記i番目の神経細胞用素子への重み付き入力値Zjが、
ある固定された値に重みを剰算した値を含む事を特徴と
する音声認識装置。 - 【請求項13】請求項6〜12のいずれかにおいて、 前記出力値生成手段が、正負対称出力範囲を有する事を
特徴とする音声認識装置。 - 【請求項14】請求項1〜13のいずれかにおいて、 前記ニューラルネットワークの出力値を認識結果に変換
する認識結果出力手段を有することを特徴とする音声認
識装置。 - 【請求項15】請求項1〜14のいずれかにおいて、 前記ニューラルネットワークを構成する神経細胞用素子
の内部状態値記憶手段に予め設定された初期値を与える
内部状態値初期化手段を有することを特徴とする音声認
識装置。 - 【請求項16】請求項15において、 前記ニューラルネットワークに背景雑音を入力する背景
雑音入力手段と、 前記ニューラルネットワークの出力から平衡状態を検出
すると共に、前記平衡状態の検出に基づき内部状態初期
値設定手段に予め設定された内部状態初期値を変更する
信号を出力する平衡状態検出手段と、 を設けたことを特徴とする音声認識装置。 - 【請求項17】認識させたい音声入力の特徴抽出を行な
い音声データとして出力する特徴抽出手段と、 前記特徴抽出手段から特徴抽出された音声データが認識
対象となる音声データと一致するか否かの音声認識処理
を行ない、認識結果を複数の範疇の出力の組合わせとし
て出力する音声認識用ニューラルネットワークと、 を含む音声認識装置の学習方法において、 入力データ記憶手段に記憶された複数の範疇の複数個の
学習用入力データから、複数の範疇の複数個の学習用入
力データの連鎖を構成する学習用入力データを選択する
入力データ選択処理を行なうと共に、出力データ記憶手
段に記憶され前記学習用入力データの各範疇に対応する
複数の範疇の複数個の学習用出力データから、前記選択
された学習用入力データの範疇とその連鎖に対応した範
疇と連鎖を持つ学習用出力データを選択する出力データ
選択処理を行なう選択手順と、 選択複数の範疇の複数個の学習用入力データの連鎖を構
成する学習用入力データを前記特徴抽出部に入力すると
共に前記ニューラルネットワークの学習を制御する学習
制御手順と、 を有し、 前記学習制御手順では、 前記ニューラルネットワークの出力と、前記選択された
学習用入力データの範疇とその連鎖に対応した範疇と連
鎖を持つ学習用出力データとが一致するように、前記ニ
ューラルネットワークの各神経細胞用素子の結合の重み
付けを変更する処理を行なうことを特徴とするニューラ
ルネットワークを用いた音声認識装置の学習方法。 - 【請求項18】請求項17において、 前記音声認識用ニューラルネットワークは、 入力される音声データが認識対象となる肯定データかそ
れ以外の否定データかの認識処理を行ない、 肯定データが入力されたときには出力が第1の状態とな
り、連続して否定データが入力されたときには第1の状
態から第2の状態に出力が変化する肯定出力と、否定デ
ータが入力されたときには出力が第3の状態となり、連
続して肯定データが入力されたときには第3の状態から
第4の状態に出力が変化する否定出力との少なくともも
2つの範疇を出力の組合わせとして前記認識結果を出力
するように構成されたものであることを特徴とする音声
認識装置の学習方法。 - 【請求項19】請求項17、18のいずれかにおいて、 前記選択手順では、 選択された学習用入力データに前記雑音データ記憶手段
から選択された雑音データを重畳する処理を行ない、 前記学習制御手順では、 前記雑音重畳手段により雑音が重畳された学習用入力デ
ータを用いて前記ニューラルネットワークを学習させる
ことを特徴とするニューラルネットワークを用いた音声
認識装置の学習方法。 - 【請求項20】請求項19において、 前記背景雑音を重畳させる位置をずらして繰り返し学習
させることを特徴とする音声認識装置の学習方法。 - 【請求項21】請求項19において、 はじめに背景雑音が重畳されていない入力データで学習
させた後に、同じ入力データに背景雑音を重畳して学習
させることを特徴とするニューラルネットワークを用い
た音声認識装置の学習方法。 - 【請求項22】請求項17〜21のいずれかにおいて、 前記ニューラルネットワークを構成する各神経細胞用素
子は、 現在の内部状態値を記憶する内部状態値記憶手段と、 前記内部状態値記憶手段に記憶された内部状態値とその
神経細胞用素子に入力される少なくとも一つの重み付け
された入力値とに基づいて前記内部状態値を更新する内
部状態値更新手段と、 前記内部状態値記憶手段の出力を外部出力値へ変換する
出力値生成手段と、 を有することを特徴とするニューラルネットワークを用
いた音声認識装置の学習方法。
Applications Claiming Priority (13)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4-73818 | 1992-03-30 | ||
JP7381892 | 1992-03-30 | ||
JP4-87146 | 1992-04-08 | ||
JP8714692 | 1992-04-08 | ||
JP4-88786 | 1992-04-09 | ||
JP8878692 | 1992-04-09 | ||
JP4-159441 | 1992-06-18 | ||
JP15944192 | 1992-06-18 | ||
JP15942292 | 1992-06-18 | ||
JP4-159422 | 1992-06-18 | ||
JP4-161075 | 1992-06-19 | ||
JP16107592 | 1992-06-19 | ||
PCT/JP1993/000373 WO1993020552A1 (en) | 1992-03-30 | 1993-03-26 | Speech recognition apparatus using neural network, and learning method therefor |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000085618A Division JP2000298663A (ja) | 1992-03-30 | 2000-03-27 | ニューラルネットワークを用いた認識装置およびその学習方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP3521429B2 true JP3521429B2 (ja) | 2004-04-19 |
Family
ID=27551274
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP51729193A Expired - Lifetime JP3521429B2 (ja) | 1992-03-30 | 1993-03-26 | ニューラルネットワークを用いた音声認識装置およびその学習方法 |
JP2000085618A Withdrawn JP2000298663A (ja) | 1992-03-30 | 2000-03-27 | ニューラルネットワークを用いた認識装置およびその学習方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000085618A Withdrawn JP2000298663A (ja) | 1992-03-30 | 2000-03-27 | ニューラルネットワークを用いた認識装置およびその学習方法 |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP0586714B1 (ja) |
JP (2) | JP3521429B2 (ja) |
KR (1) | KR100292919B1 (ja) |
DE (1) | DE69327997T2 (ja) |
HK (1) | HK1013879A1 (ja) |
WO (1) | WO1993020552A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5715372A (en) * | 1995-01-10 | 1998-02-03 | Lucent Technologies Inc. | Method and apparatus for characterizing an input signal |
TW347503B (en) * | 1995-11-15 | 1998-12-11 | Hitachi Ltd | Character recognition translation system and voice recognition translation system |
KR100772373B1 (ko) | 2005-02-07 | 2007-11-01 | 삼성전자주식회사 | 복수개의 데이터 처리 장치를 이용한 데이터 처리 장치 및그 방법과, 이를 구현하기 위한 프로그램이 기록된 기록매체 |
US8655815B2 (en) | 2010-05-19 | 2014-02-18 | The Regents Of The University Of California | Neural processing unit |
US9082078B2 (en) | 2012-07-27 | 2015-07-14 | The Intellisis Corporation | Neural processing engine and architecture using the same |
US9185057B2 (en) | 2012-12-05 | 2015-11-10 | The Intellisis Corporation | Smart memory |
US9552327B2 (en) | 2015-01-29 | 2017-01-24 | Knuedge Incorporated | Memory controller for a network on a chip device |
US10061531B2 (en) | 2015-01-29 | 2018-08-28 | Knuedge Incorporated | Uniform system wide addressing for a computing system |
KR102494139B1 (ko) * | 2015-11-06 | 2023-01-31 | 삼성전자주식회사 | 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법 |
US10027583B2 (en) | 2016-03-22 | 2018-07-17 | Knuedge Incorporated | Chained packet sequences in a network on a chip architecture |
US10346049B2 (en) | 2016-04-29 | 2019-07-09 | Friday Harbor Llc | Distributed contiguous reads in a network on a chip architecture |
KR102692670B1 (ko) * | 2017-01-04 | 2024-08-06 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
KR101991041B1 (ko) | 2018-12-31 | 2019-06-19 | 서울대학교산학협력단 | 아날로그 이진인공신경망 회로에서 활성도 조절을 통한 공정변이 보상방법 및 그 시스템 |
CN110310628B (zh) | 2019-06-27 | 2022-05-20 | 百度在线网络技术(北京)有限公司 | 唤醒模型的优化方法、装置、设备及存储介质 |
NL2029215B1 (en) * | 2021-09-21 | 2022-06-03 | Univ Dalian Tech | Speech keyword recognition method based on gated channel transformation sandglass residual neural network |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0272398A (ja) * | 1988-09-07 | 1990-03-12 | Hitachi Ltd | 音声信号用前処理装置 |
JP2897220B2 (ja) * | 1988-09-17 | 1999-05-31 | ソニー株式会社 | 信号処理装置 |
JP2580826B2 (ja) * | 1990-03-14 | 1997-02-12 | 日本電気株式会社 | フィードバック神経細胞モデル |
JPH04295894A (ja) * | 1991-03-26 | 1992-10-20 | Sanyo Electric Co Ltd | 神経回路網モデルによる音声認識方法 |
JP3091504B2 (ja) * | 1991-03-26 | 2000-09-25 | 三洋電機株式会社 | 神経回路網モデルによる音声認識方法 |
-
1993
- 1993-03-26 WO PCT/JP1993/000373 patent/WO1993020552A1/ja active IP Right Grant
- 1993-03-26 EP EP93906832A patent/EP0586714B1/en not_active Expired - Lifetime
- 1993-03-26 KR KR1019930703580A patent/KR100292919B1/ko not_active IP Right Cessation
- 1993-03-26 DE DE69327997T patent/DE69327997T2/de not_active Expired - Lifetime
- 1993-03-26 JP JP51729193A patent/JP3521429B2/ja not_active Expired - Lifetime
-
1998
- 1998-12-23 HK HK98115085A patent/HK1013879A1/xx unknown
-
2000
- 2000-03-27 JP JP2000085618A patent/JP2000298663A/ja not_active Withdrawn
Non-Patent Citations (14)
Title |
---|
中川聖一・他,「シーケンシャルニューラルネットワークを用いた音声認識」,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,1991年 9月25日,Vol.J74−D−II,No.9,pp.1174−1183 |
中野馨,「ニューロコンピュータの基礎」,日本,株式会社コロナ社,1990年 4月 5日,初版,pp.44−49,115−122,ISBN:4−339−02276−4 |
二見亮弘・他,「母音パターンを分析・統合する自己組織神経回路モデル」,電子通信学会技術研究報告,日本,1986年,Vol.85,No.331,pp.261−266,JST資料番号:S0532B |
二見亮弘・他,「相互結合型神経回路網の時系列処理能力について」,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,1991年 3月19日,Vol.90,No.484(NC90−112〜141),pp.31−36 |
今井勝次・他,「フィードバック結合を持つ3層BPモデルを用いた印刷横書き文字列の認識」,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,1991年11月25日,Vol.J74−D−II,No.11,pp.1556−1564 |
光谷直樹.「任意パターンを記憶する相互結合形神経回路網における想起能力の向上」,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,1991年 3月18日,Vol.90,No.483(NC90−68〜111),pp.125−130 |
合原一幸,「小特集:ニューラルコンピューティング I.総論」,電気学会雑誌,日本,社団法人電気学会,1989年 6月20日,Vol.109,No.6,pp.427−433,ISSN:0020−2878 |
松岡清利,「神経場の興奮パターンと振動の生成」,コンピュートロール,日本,株式会社コロナ社,1988年10月10日,no.24,pp.15−21,ISBN:4−339−02043−5 |
松本元・他,「脳とコンピュータ1 ニューロコンピューティング」,日本,株式会社培風館,1992年 1月15日,初版,pp.1−9,ISBN:4−563−01421−4 |
渡辺辰巳・他,「リカレントニューラルネットワークの各学習則に関する検討および学習曲面の形状」,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,1991年12月25日,Vol.J74−D−II,No.12,pp.1776−1787 |
王景雪・他,「疲労効果を用いた連想記憶モデル」,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,1992年 1月18日,Vol.91,No.414(NC91−82〜97),pp.79−86 |
甘利俊一,「PDPモデル」,日本,産業図書株式会社,1989年 2月27日,初版,pp.325−334,ISBN:4−7828−5125−1 |
甘利俊一,「神経回路網の数理」,日本,産業図書株式会社,1978年 4月27日,初版,pp.11−28,ISBN:4−7828−5255−X |
金寺登・他,「ニューラルネットによる連続音声の音韻セグメンテーション」,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,1990年 1月25日,Vol.J73−D−II,No.1,pp.72−79 |
Also Published As
Publication number | Publication date |
---|---|
DE69327997D1 (de) | 2000-04-13 |
EP0586714A1 (en) | 1994-03-16 |
EP0586714A4 (en) | 1995-12-13 |
KR100292919B1 (ko) | 2001-06-15 |
EP0586714B1 (en) | 2000-03-08 |
WO1993020552A1 (en) | 1993-10-14 |
DE69327997T2 (de) | 2000-07-27 |
HK1013879A1 (en) | 1999-09-10 |
JP2000298663A (ja) | 2000-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3521429B2 (ja) | ニューラルネットワークを用いた音声認識装置およびその学習方法 | |
Nicholson et al. | Emotion recognition in speech using neural networks | |
JP3168779B2 (ja) | 音声認識装置及び方法 | |
EP0510632B1 (en) | Speech recognition by neural network adapted to reference pattern learning | |
CN112037766B (zh) | 一种语音音色转换方法及相关设备 | |
EP0574951B1 (en) | Speech recognition system | |
CN111081230B (zh) | 语音识别方法和设备 | |
CN111916111A (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
US5181256A (en) | Pattern recognition device using a neural network | |
US5809461A (en) | Speech recognition apparatus using neural network and learning method therefor | |
KR100306848B1 (ko) | 신경회로망을 이용한 선택적 주의집중 방법 | |
US6151592A (en) | Recognition apparatus using neural network, and learning method therefor | |
US20230070000A1 (en) | Speech recognition method and apparatus, device, storage medium, and program product | |
US20050015251A1 (en) | High-order entropy error functions for neural classifiers | |
KR20190032868A (ko) | 음성인식 방법 및 그 장치 | |
JPH0540497A (ja) | 話者適応音声認識装置 | |
JP3467556B2 (ja) | 音声認識装置 | |
JP3521844B2 (ja) | ニューラルネットワークを用いた認識装置 | |
JPH064097A (ja) | 話者認識方法 | |
KR102159988B1 (ko) | 음성 몽타주 생성 방법 및 시스템 | |
Ganchev et al. | Locally recurrent probabilistic neural networks with application to speaker verification | |
Abd El-Moneim et al. | Effect of reverberation phenomena on text-independent speaker recognition based deep learning | |
Chakraborty et al. | Speech recognition of isolated words using a new speech database in sylheti | |
Ekpenyong et al. | A DNN framework for robust speech synthesis systems evaluation | |
Kämmerer et al. | Experiments for isolated-word recognition with single-and two-layer perceptrons |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20031201 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20031218 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040202 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080220 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090220 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090220 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100220 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110220 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110220 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130220 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130220 Year of fee payment: 9 |