JP2000298663A - ニューラルネットワークを用いた認識装置およびその学習方法 - Google Patents
ニューラルネットワークを用いた認識装置およびその学習方法Info
- Publication number
- JP2000298663A JP2000298663A JP2000085618A JP2000085618A JP2000298663A JP 2000298663 A JP2000298663 A JP 2000298663A JP 2000085618 A JP2000085618 A JP 2000085618A JP 2000085618 A JP2000085618 A JP 2000085618A JP 2000298663 A JP2000298663 A JP 2000298663A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- output
- neural network
- value
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 70
- 210000003061 neural cell Anatomy 0.000 claims abstract description 6
- 210000002569 neuron Anatomy 0.000 claims description 29
- 238000013500 data storage Methods 0.000 claims description 25
- 238000000605 extraction Methods 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 7
- 210000004027 cell Anatomy 0.000 claims 1
- 239000000284 extract Substances 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 34
- 230000008569 process Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 31
- 230000006870 function Effects 0.000 description 23
- 230000000875 corresponding effect Effects 0.000 description 15
- 238000012937 correction Methods 0.000 description 13
- 230000006835 compression Effects 0.000 description 9
- 238000007906 compression Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- 230000008878 coupling Effects 0.000 description 8
- 238000010168 coupling process Methods 0.000 description 8
- 238000005859 coupling reaction Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000006837 decompression Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000036039 immunity Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
提供する。 【解決手段】 ニューラルネットワークを用いた認識装
置である。本発明の神経細胞用素子は、内部状態値を記
憶する内部状態値記憶手段と、内部状態値を他の神経細
胞用素子の出力、自分自身の出力、外部からの入力等に
基づいて更新する内部状態値更新手段と、内部状態値を
外部出力に変換する出力値生成手段とを有する。従っ
て、神経細胞用素子自身が入力されたデータの過去の履
歴を保持できるため、音声等の時系列データをニューラ
ルネットワークに特別な構成を設ける事無く処理でき
る。
Description
ワークを用いた認識装置およびその学習方法に関するも
ので、音声データ等の時系列データを処理する際、従来
の様に入力データの始端・終端を与えたり、考えられる
全ての始端・終端の組み合わせについて処理したりする
のではなく、神経細胞用素子自身が入力されたデータの
過去の履歴を保持できる構成とすることにより、音声等
の時系列データの処理を簡単なハードウェア構成でかつ
高精度の処理が可能となるような技術に関する。
な処理を行わせるためのニューラルネットワークの学習
方法に関する。
合、データ認識手段、特に時系列データの範疇を学習に
より認識する手段として実用的に用いられている手段
は、ダイナミックプログラミング(DP)法、隠れマル
コフモデル(HMM)法、およびバックプロパゲーショ
ン学習法と多層パーセプトロン型ニューラルネットワー
クを用いた方法(MLP法)とがある。これらの詳細に
ついては、例えば中川聖一著「確率モデルによる音声認
識」(電子情報通信学会)、中川、鹿野、東倉共著「音
声・聴覚と神経回路網モデル」(オーム社)等に記述さ
れている。
師となるデータおよび認識対象となるデータに始端と終
端を必要とすることである。これらにおいて見かけ上始
端終端に依存しない処理をするためには、可能性のある
全ての始端終端についての処理を行い、最良の結果を与
える始端終端を試行錯誤的に発見するという方法があ
る。しかし、例えば長さNのパタンの中から、ある範疇
に属するデータの部分を検出する場合を考えてみると、
始端の可能性としてはNのオーダーの可能性があり、ま
た終端においてもNのオーダーの可能性がある。つま
り、始端終端の組み合わせとしてはNの自剰のオーダー
の可能性が考えられる。従ってこの場合においては、こ
の非常に多数の組み合わせの全てについて認識処理を行
わなければならない。そして、その処理には膨大な時間
がかかってしまう。
に、始端終端の存在という仮定自身に、より本質的な問
題がある。入力データに、ある範疇のデータがただ一つ
しか含まれないという条件であれば始端終端は自明であ
るが、一つ以上の範疇のデータが連続する場合において
は、そのような境界は自明ではない。特に、音声などの
時系列情報においては、そのような境界は明確に存在せ
ず、連続した2つの範疇のデータはその情報が重複する
遷移領域を経て一方から他方へ変化する。従って、デー
タの始端終端を仮定することはその正確度において非常
に大きな問題がある。
場合はこのようなデータの始端終端を特に仮定する必要
はない。しかしそれに代わって入力のデータ範囲という
意味での新たな始端終端の問題が起こる。つまり、ML
P法は基本的には静的なデータを認識するための方法で
あり、それに時系列データを認識させるためには、ある
時間範囲のデータを1つの入力データとして入力し、等
価的に時間情報を処理しなければならないという問題が
ある。この時間範囲はMLPの構成上固定されたもので
なければならない。
り、また同一範疇の中においても大きく変動する。例え
ば音声における音素を例にとれば、長い音素である母音
等と、短い音素である破裂音等の平均長さは10倍以上
異なる。また同一音素内においても実際の音声中での長
さは2倍以上変動する。従って、仮にデータの入力範囲
を平均的な長さに設定したとすると、短い音素を認識す
る場合はその入力データの中には認識対象以外のデータ
が多数含まれることになり、また長い音素を認識する場
合はその入力データの中には認識対象のデータの一部し
か含まれないことになる。これらはいずれも認識能力を
下げる原因である。また音素毎に異なる入力長さを設定
したとしても、その音素自身の長さが変動するので問題
は同様である。また、このようなことは時系列情報一般
に見られることである。
データの始端と終端とを必要とし、MLP法では学習時
に入力範囲の始端と終端とを必要とする。しかし、時系
列情報においてはこれは原理的に明確にはできず、無理
に始端・終端を仮定することは認識能力を下げることに
なる。
ての始端終端の組み合わせについての処理を必要とな
り、膨大な処理が必要となる。
ニューラルネットワークを用いた認識装置は、 1)ニューラルネットワークを構成する各神経細胞用素
子が、内部状態値記憶手段と、内部状態値記憶手段に記
憶された内部状態値とその神経細胞用素子に入力される
入力値とにより内部状態値を更新する内部状態値更新手
段と、内部状態値記憶手段の出力を外部出力値へ変換す
る出力値生成手段とを有する、 2)内部状態値更新手段は入力値および内部状態値に重
みを付け積算する重み付き積算手段からなり、内部状態
値記憶手段は前記重み付き積算手段により積算された値
を積分する積分手段からなり、出力値生成手段は積分手
段により得られた値を予め設定された上限値と下限値の
間の値へ変換する出力値制限手段とからなる、 3)前記1)または2)において、ニューラルネットワ
ークを構成するi番目の神経細胞用素子の内部状態値を
Xiとし、τiを時定数とし、神経細胞用素子への重み
付き入力値をZj(jは0からn、nは0または自然
数)とすると、内部状態値更新手段が、
素子への重み付き入力値Zjが、i番目の神経細胞用素
子自身の出力に重みを剰算した値を含む、 5)前記1)ないし4)において、i番目の神経細胞用
素子への重み付き入力値Zjが、ニューラルネットワー
クを構成する他の神経細胞用素子の出力に重みを剰算し
た値を含む、 6)前記1)ないし5)において、i番目の神経細胞用
素子への重み付き入力値Zjが、ニューラルネットワー
クの外部から与えられたデータを含む、 7)前記1)ないし6)において、i番目の神経細胞用
素子への重み付き入力値Zjが、ある固定された値に重
みを剰算した値を含む、 8)前記1)ないし7)において、出力値生成手段が、
正負対称出力範囲を有する、 9)前記1)ないし8)において、ニューラルネットワ
ークが少なくとも肯定出力、否定出力の2つの出力を持
つ、 10)前記1)ないし9)において、認識装置は、認識
させたい入力の特徴抽出を行うと共に特徴抽出した値を
前記ニューラルネットワークへ入力する音声特徴抽出手
段と、ニューラルネットワークの出力値を認識結果に変
換する認識結果出力手段と、ニューラルネットワークを
構成する神経細胞用素子の内部状態値記憶手段に予め設
定された初期値を与える内部状態値初期化手段とを有す
る、 11)前記10)の認識装置において、ニューラルネッ
トワークに背景雑音を入力する背景雑音入力手段と、ニ
ューラルネットワークの出力から平衡状態を検出し、そ
の検出結果に基づき内部状態初期値設定手段に内部状態
値を変更する信号を出力する平衡状態検出手段とを設け
たこと、を特徴とする。
用いた認識装置の学習方法は、12)前記10)または
11)の認識装置が、ニューラルネットワークを学習さ
せる学習部を有し、その学習部が学習用入力データを記
憶する入力データ記憶手段と、入力データ記憶手段から
学習用入力データを選択する入力データ選択手段と、学
習用出力データを記憶する出力データ記憶手段と、選択
された入力データとその連鎖により学習用出力データを
選択する出力データ選択手段と、選択された学習用入力
データを特徴抽出部に入力すると共にニューラルネット
ワークの学習を制御する学習制御手段とを有し、学習制
御手段はニューラルネットワークの出力と出力データ選
択手段の出力とに基づいて神経細胞用素子の結合の重み
付けを変更する、 13)前記12)において、入力データ記憶手段は複数
個の範疇を有し、出力データ記憶手段は入力データ記憶
手段の各範疇に対応する範疇を有し、入力データ選択手
段は入力データ記憶手段の範疇から学習させたい複数個
のデータを選択し、出力データ選択手段は入力データ選
択手段により選択された学習用入力データに対応する学
習用出力データを選択し、学習制御部は入力データ選択
手段が選択した複数個のデータを1つに連結する入力デ
ータ連結手段と出力データ選択手段が選択した学習用出
力データを1つに連結する出力データ連結手段とを有
し、学習部は連結した1つの学習用入力データを音声特
徴抽出手段に入力すると共に、ニューラルネットワーク
の出力と出力連結手段の出力とに基づき神経細胞用素子
の結合の重み付けを変更する、 14)前記13)の範疇の数が2であること、 15)前記12)ないし14)において、学習部は雑音
データを記憶する雑音データ記憶手段と、選択された学
習データに雑音データ記憶手段から選択された雑音を重
畳する雑音重畳手段とを有し、雑音重畳手段により雑音
が重畳された入力データを用いてニューラルネットワー
クを学習させる、 16)前記15)において、背景雑音を重畳させる位置
をずらして繰り返し学習させる、 17)前記15)において、はじめに背景雑音が重畳さ
れていない入力データで学習させた後に、同じ入力デー
タに背景雑音を重畳して学習させる、ことを特徴とす
る。
ークを用いた認識装置及び学習方法によれば、 1)従来例では音声入力の長さNの自剰に比例した処理
時間が必要であったが、本発明ではデータを1回のみ与
えれば良く非常に高速な処理が可能である、 2)入力データを記憶するメモリーが非常に少なくても
良い、 3)結果の正規化の必要がない、 4)容易に連続処理が可能である、 5)整数型のデータ表現でも十分な精度が得られる、 6)肯定否定出力を組み合わせる事により、非常に高精
度の認識結果が得られる、 7)より多出力の任意の情報を出力させる事ができる、 8)対雑音性等を容易に向上させる事ができる、 9)種々の時間スケールの現象への対応を学習により自
己組織的に行う事ができる、 10)NNの連想能力、情報の圧縮伸長能力を、目的に
合わせて最適に配置する構成が容易に行える、 11)学習が極めて容易であり、そのための試行錯誤的
な部分が非常に少ない、などの効果がある。
する神経細胞用素子(以下「ノード」という)の機能を
模式的に示したものである。図中104は1つのノード
全体を、101は内部状態値記憶手段を、102は10
1に記憶された内部状態値及びノードに入力される入力
値に基づいて内部状態値を更新する内部状態値更新手段
を、103は内部状態値を外部出力へ変換する出力値生
成手段を示す。
具体的に示したものである。図中201はデータ入力手
段を、202は201により得られたデータ入力値に重
みを付け積算する重み付き積算手段を、203は積算さ
れたデータ値を積分する積分手段を、204は積分の結
果得られた値を予め設定されたある範囲の値へ変換する
出力値制限手段をそれぞれ模式的に示す。
ある。図中301は、図2のデータ入力手段と重み付き
積算手段を、また302は積分手段を、303は出力値
制限手段を示す。
を構成するノードの機能を模式的に示したものである。
図中2803は1つのノード全体を、2801は内部状
態値を計算する内部状態値計算手段を、2802は28
01により計算された内部状態値を外部出力へ変換する
出力値生成手段を示す。
ードの機能を具体的に示したもので、図中2901はデ
ータ入力手段を、2902は2901により得られたデ
ータ入力値に重みを付け積算する重み付き積算手段を、
2903は積算されたデータの値を予め設定されたある
範囲の値へ変換する出力値制限手段を示す。
である。図中3001は、図29のデータ入力手段と重
み付き積算手段を、また3002は出力値制限手段を示
す。
かな通り、本発明のノードは従来のノードにはなかった
積分手段を持つ。従って、従来のノードにおいては、そ
の出力が、その時点での入力のみにより決定されるとい
う意味で静的であったのに対し、本発明のノードは、そ
のノードへ入力されたデータの過去の履歴が、その積分
値として変換、保持されており、それにより出力が決ま
るという意味で動的であるといえる。
で時系列データを処理しようとすれば、そのネットワー
クの構造としてデータの時間構造を取り込む必要があっ
たのに対し、本発明の動的なノードを用いたNNは、N
Nの構造等によらずにノードそのもので時系列データを
処理する事ができる。
データを処理させようとすると、その時間情報を空間情
報へ展開するような方法、例えば複数のタイミングで入
力されたデータを一つの入力データへまとめあげる等の
方法が必要となる。このためには、このまとめあげるデ
ータを記憶し、管理するためのハードウエアと処理が必
要となる。あるいは上で述べたような時間に依存する情
報を記憶するための、特別なコンテキスト素子が必要と
なる。さらに、このコンテキストを管理するハードウエ
アと処理も必要である。
テキスト情報等は各々の素子の内部の積分値として記憶
されるため、NNに特別な構造を設定する必要がない。
従って、入力データも、それぞれのタイミングのデータ
をそれぞれのタイミングで入力する、という最も単純な
入力方法で十分であり、時間情報を処理するための特別
なハードウエアや処理は全く必要としない。
よって構成されるNNの実際の動作について説明する。
ノードの内部状態値をX、出力値をYとし、XとYの時
間変化において、現在の内部状態値をXcurr、更新
された内部状態値をXnext、またその更新動作時に
ノードに入力される入力値をZi(iは0〜nであり、
nはそのノードへの入力数)とする。内部状態値更新手
段の動作を形式的に関数Gと表すと、更新された内部状
態値Xnextは、 Xnext=G(Xcurr、Z0、・・・、Zi、・・・、Zn) (1) と表現できる。式(1)の具体的な形は様々のものが考
えられるが、例えば1階の微分方程式を用いた次の式
(2)のようなものも可能である。
すると、ある結合重みを乗算されたそのノード自身の
出力、ある結合重みを乗算された他のノードの出力、
等価的に内部状態更新手段へバイアスを与えるための
結合重みを乗算された固定出力値、そのノードにNN
の外部から入力される外部入力、等が考えられる。そこ
で、このような入力値Zjに対するi番目のノードの内
部状態値の更新を考える。内部状態値をXi、任意のノ
ードの出力をYj、j番目のノードの出力をi番目のノ
ードの入力へ結合する結合強度をWij、バイアス値を
θi、i番目のノードへの外部入力値をDiとすると、
式(2)はより具体的に次のように書ける。
ドの内部状態をXとし、出力値生成手段の動作を形式的
に関数Fで表すと、ノードの出力Yは、 Y=F(X) (4) と表現できる。Fの具体的な形としては以下の式(5)
で示されるような正負対称出力のシグモイド(ロジステ
ィック)関数等が考えられる。
く、その他にもより単純な線形変換や、あるいはしきい
値関数等も考えられる。
出力Yの時系列は計算される。
NNを使用した音声認識装置の1例を示すものである。
図中401は音声特徴抽出手段を、402は本発明のノ
ードによって構成されたNNを、403は認識結果の出
力手段を示す。音声特徴抽出手段により抽出された出力
2つのノードに入力されている。それから、このNNは
任意のノードが他の全てのノードと結合している全結合
型のNNとなっている。そして、NNからは2つの出力
が認識結果出力手段に出力されている。本発明のNNで
は、出力数は任意に設定することができる。よって、単
語認識の場合などは、肯定出力、否定出力の2つの出力
を設けて、これらの出力から総合的に認識結果を判断し
て、認識精度を高めることができる。もちろんNNへの
入力数および出力数は図4の様に2つに限るものではな
く、幾つでも良い。
されたNNの他の構成例を示す。
をかえた例を図5に示す。ここではNN402が、入力
層501、隠れ層502、出力層503から構成され
る。この構成は、従来技術のMLP法と見かけ上同一に
見える。しかし、本発明のノードにより構成されたNN
は、従来技術のような先ず入力層の値が決定され、その
後にその値を入力とする隠れ層の値が決定され、以下同
様に出力層に至るまでの各層の値が逐次的に決定されて
いくといった、フィードフォワード型ネットワークでは
ない。
身が内部状態値を保持できるため従来技術のようなコン
テキスト層を必要とせずに時系列データを認識し、コン
テキスト層を有する従来技術と同等の結果を得る事がで
きる。また、全ての層の出力が同時に決定されるため従
来技術のMLP法よりも、より効率の良い並列処理が可
能である。
高い耐雑音性も有する。図10のa)は従来の単純なM
LP法におけるノードの入力と出力の対応を示すもので
ある。図より明らかなように、方形波的な入力にスパイ
ク的なノイズが重畳した信号が入力として与えられる
と、ほぼそのままの波形が出力に現れるのが判る。この
ようにMLP法のノードは、その入力を単純に出力に反
映するためノイズの影響をそのまま受けてしまう。
て時間的な履歴を記憶しており、その内部状態値と入力
との関数として次の内部状態値、そして出力値が決ま
る。従ってa)と同様のスパイク的なノイズが入力に重
畳しても、図10b)に示すようにスパイク的な波形は
なまらされてその影響は小さくなり、良好な耐ノイズ性
が得ることができる。
つ従来技術においても多少は得る事ができるが、NNを
構成するノードの一部について、その履歴情報を特別な
構成を持った外部ノードへ保存しなければならず、全て
のノードが自分自身の履歴情報を内部状態値として保持
する本発明におけるノードを用いた場合と比較してその
耐ノイズ性は劣る。
して、砂時計形ネットワークを構成した例で、図6に示
す。図中601は特徴抽出(又は情報圧縮)ネットワー
クを、602は伝達ネットワークを、603は認識(又
は情報伸長)ネットワークを示す。図6のNNの構成
も、一見従来のMLP法と同様である。しかし、その動
作は前述した通り全く異なる。このような構成をとるこ
とにより、本発明の効果を損なわずに時系列的な効果を
取り込んだ特徴抽出(又は情報圧縮)NN、及び時系列
的な効果を取り込んだ認識ネットワーク(又は情報伸
長)ネットワーク等の機能をモジュール化した音声認識
方法の構成も可能である。
を、図7に示す情報送信機能702と情報受信機能70
3に分割した例である。702と703の間の波線は、
これらが空間的・時間的に離れていても良い事を示す。
この波線が伝送線などの空間的な距離を示すとすると、
図7は音声圧縮伝送装置を示し、この波線が時間的な距
離を示すとすると、図7は例えば音声圧縮記録装置を示
す。もちろんここで圧縮される対象は音声に限られるも
のではなく、より一般的な情報であっても構わない。ま
た認識処理は広い意味での情報圧縮処理である事は言う
までもない。
効果は損なわれる事はない。例えば図10で説明した耐
ノイズ性により、伝送線上での伝送誤りや雑音の混入、
あるいは記録媒体の欠陥や劣化等に対しても良好な体勢
を示すものである。
る。図8のNNは、自己回帰ループを持つことにより、
より広い時間的変動範囲の現象を取り扱うことができ
る。つまり、入力値Zのなかの自己回帰ループの部分の
結合の強さをWとすると、この自己回帰ループを考える
ことは近似的に系の時定数τを以下の式に置き換えたこ
とに相当する。
で、学習データに合わせて系の応答の時間スケールを最
適化することができる。従来のコンテキスト層を用いた
方法ではこのようなことを学習により自己組織的に行う
事はできず、人間が時間スケールに合わせたネットワー
クの設定を行う事が必要となる。
る。いま図の11a)に示したような方形波の連続入力
があったとすると、この方形波の周期よりも系の応答時
定数が大きいと系の応答はa)の出力のように前の出力
に次の出力が加算されていき、正しい認識結果を得る事
はできない。
では、系の時定数は学習により最適化されるので、その
応答は例えば図11のb)のように修正される事が可能
であり、良い認識率を得る事ができる。
学習方法を組み合わせる事により、図6、図7のシステ
ムの耐雑音性等をさらに高める事ができる。
NNをランダム結合NNとした例を図9に示す。ランダ
ム結合NN902は、入力ネットワーク904と出力ネ
ットワーク905の2つのサブネットワークからなる。
本例では、入力ネットワークを全結合型のサブネットワ
ークとし、出力ネットワークをランダム結合型のサブネ
ットワークとして、2つのサブネットワークを1方向的
に接続する構成とした。
うな効果に加えて、全結合型NNによる連想能力を用い
て入力の欠陥を補う、あるいは対雑音性をあげる等の機
能、さらに一方向の結合を用いて情報の流れをヒューリ
スティックに処理し、情報の圧縮、伸長等を行う等機能
を、全体の構成の設計として最適に行う事ができる等の
効果が得られる。
あるが、次に音声認識装置そのものの他の構成例を見て
いく。
初期値設定手段1204を追加したもので他は図4と同
一である。式(2)で示したように、本発明のNNの動
作は1階の微分方程式で記述される。従って、その動作
を決定するにあたっては、初期値が必要となる。内部状
態初期値設定手段は、NNが動作をするために、予め決
められた初期値を全てのノードに与えるものである。図
13に基づいて、本音声認識装置の動作手順を説明する
と、 1.内部状態初期値設定手段により、全てのノードに適
当に選択された初期内部状態値Xをセットし、それに対
応する出力Yをセットする。 2.処理が終了であれば終わる。 3.全てのノード各々において入力値Zの和を求める。
入力値Zは前に説明した通りであり、音声特徴抽出手段
によって抽出された音声特徴量は、外部入力値としてこ
のZの一部として計算される。 4.全てのノードそれぞれについて、3で求めたZの和
と内部状態値Xそのものの値によりXの値が更新され
る。 5.更新されたXの値により出力値Yが計算される。 6.処理2へ戻る。 という手順になる。認識結果は出力に割り当てられたノ
ードの出力として認識結果出力手段に与えられる。
よる音声認識装置の基本的な動作原理およびその構成で
あるが、この様なNNに所望の処理をさせるにはNNを
学習させることが必要となる。そこで、次にNNの学習
方法について説明する。
法を示す構成図である。図中1410は、NN1402
を学習させるための学習部を示す。1411は所定の学
習用入力データが記憶された入力データ記憶手段、14
13は各学習用入力データに対応する模範となる出力デ
ータが記憶された出力データ記憶手段、1412は入力
データ記憶手段から学習させたい入力データを選択する
入力データ選択手段、同様に1414は出力データを選
択する出力データ選択手段、そして、1415はNNの
学習を制御する学習制御手段を示す。
習方法について図13、図14を参照しながら説明す
る。まず、全てのノードに予め設定された初期状態値X
をセットする。次に、学習させたい学習用入力データが
入力データ選択手段により選択される。選択された入力
データは学習制御手段に送られる。この時、選択した学
習用入力データに対応する学習用出力データが出力デー
タ選択手段により選択される。選択された出力データも
同様に学習用制御手段に送られる。選択された学習用入
力データは音声特徴抽出手段1401に入力され、ここ
で特徴抽出された特徴ベクトルがNNへ外部入力として
入力される。全てのノードについてそれぞれ入力Zの和
を求め、式(2)に従って内部状態値Xを更新する。そ
して、更新されたXにより出力Yを求める。
強度にはランダムな値が与えられている。したがって、
NNから出力される出力値Yはでたらめな値である。
まで繰り返す。このようにして得られた、出力Yの時系
列に対して、次の式(7)で示される式により学習評価
値Cを求める。
ある誤差評価値である。式(7)に従い、Cの時系列は
図15に示すような処理により計算される。
習用入力データに対応する学習用出力データをTとし、
学習用入力データに対応する出力値をYとして、例えば
誤差評価関数として、次の式(8)で示されるkullback
-leibler距離を用いるとEは、
と、種々の要因により学習が高速になるという利点があ
る。
出力値生成手段が対称出力である場合は、式(8)は次
の式(9)のように表される。
(7)のより具体的な例として次の式(10)が得られ
る。
則は、次の式(11)で与えられる。
に従い、出力が目的とする値になるように各ユニット間
の結合の強さを変更する。認識させたい音声データを繰
り返し入力し、少しずつ各ユニット間の結合の強さを変
更することにより、ネットワークから正しい値が出力さ
れるようになる。出力が収束するまでの繰り返し回数
は、数千回程度である。
ラルネットワークのみではなく、層状結合等を特殊例と
して含む、より一般的なランダム結合ニューラルネット
ワークにも適用可能であるのは明らかである。
力し、学習させる方法について、NNが肯定出力と否定
出力の2つの出力を有する場合を例にして説明する。
度ハイレベルになった肯定出力はローレベルに下げるこ
とができない。逆に、一度ローレベルになった否定出力
はハイレベルにあげることができない。つまり、入力デ
ータを1つずつ用いた学習では、図16(a)に示すよ
うな、認識させたい入力データ(以下、「肯定データ」
という)を与えて肯定出力をハイレベルに上昇させる学
習(否定出力はローレベルのまま)、または図16
(b)に示すような、認識させたくないデータ(以下、
「否定データ」という)を与えて否定出力をハイレベル
に上昇させる学習(肯定出力はローレベルのまま)が行
われる。しかしながら、この学習では、肯定出力、否定
出力ともに一度ハイレベルに上昇した出力値が下降する
ことがない。
在した複数の音声データが連続して与えられた場合、肯
定データの出力で一度ハイレベルに上がった肯定出力
は、その後に否定データの入力があってもローレベルに
下がることはない。これは否定出力についても同様であ
る。
(d)に示すような、2つの音声データを連続して与え
て、出力の上昇と下降の両方の学習する方法を用いた。
図17(a)では否定データと肯定データを連続して入
力し、肯定出力の上昇、否定出力の上昇と下降を学ばせ
る。図17(b)では、肯定データと否定データを連続
して入力し、肯定出力の上昇と下降、否定出力の上昇を
学ばせる。図17(c)では、否定データを2つ連続し
て入力し、図17(a)の学習で否定データの次は肯定
データであるといった誤った認識をNNに持たせないよ
うにする。同様に、図17(d)では、肯定データを2
つ連続して入力し、図17(b)の学習で、肯定データ
の次は否定データであるといった誤った認識をNNに持
たせないようにする。
値依存性の問題である。つまり、入力データを一つのみ
用いた学習ではその学習が特定の初期値のみから開始さ
れるため、その初期値においてのみ期待される能力を示
すような学習結果しか得られない。これをより一般的な
場合に適応できるようにするためには、様々な初期値に
対しても正確な反応が起こるように学習させなくてはな
らない。しかし、このような様々な初期値としては全て
の例を与える必要はない。実際の認識時においては、そ
の認識対象についての種々の制約により可能な初期値の
組み合わせは限られたものとなる。学習に2個以上のデ
ータの連鎖を用いることは、このような可能な初期値の
組み合わせを近似的に与えるものであり、この目的のた
めには2個のデータの連続のみにおいても十分によい結
果が得られる。もちろん3個以上の連続データを用いて
もよい。
習させるための音声認識装置の構成図である。ここで
は、図14で説明した入力データ記憶手段が、肯定デー
タ、否定データという2つの範疇から構成されている。
図中1801は様々な条件で収集された認識すべき単語
のデータ群である肯定データ記憶手段を、1802はも
う一つの範疇である認識すべき単語以外の例としての否
定データ記憶手段を、1803、1804はそれぞれの
範疇についての学習用出力データを記憶する出力データ
記憶手段である。ここでは、各範疇に3個のデータがあ
るとする。1805は入力データ選択手段を、1806
は出力データ選択手段を、1807は入力データ連結手
段を、1808は出力データ連結手段を、1809は学
習制御手段を、1810はNNをそれぞれ示す。
憶手段、否定データ記憶手段から学習用の入力データが
2つ選択される。その組み合わせについては、図17で
説明した通りである。選択された2つの入力データは入
力データ連結手段で1つの連続データとなる。そして、
この連続データは音声特徴抽出手段で特徴抽出されNN
へ入力される。NN内では、図13の処理に従い出力値
が時系列的に計算される。NNの出力は学習制御手段に
送られ、予め選択されている学習用出力データとの誤差
が計算され、各ノードの結合の重みが修正されることに
より、NNが学習を重ねる。図18では、NNの出力を
肯定出力ノードと否定出力ノードの2個とし、180
3、1804中の実線が肯定データに対応する肯定出力
ノードの学習用出力、破線が否定データに対応する否定
出力ノードの学習用出力とした。
り構成されたNNからなる音声認識装置の認識結果を、
図18で説明した学習方法により学習させた場合を例に
次に示す。実際には、音声特徴抽出手段の出力として2
0次のLPCケプストラムを仮定し、入力を20、出力
を2、その他を10として合計32個のノードによりN
Nを構成した。
定データ)としては「とりあえず」を、それ以外の参照
用単語(否定データ)としては、「終点」、「腕前」、
「拒絶」、「超越」、「分類」、「ロッカー」、「山
脈」、「隠れピューリタン」の8単語を与えた。NNの
出力としては、上の肯定データに対応する肯定出力と、
否定データに対応する否定出力の2つを考えた。学習用
出力としては、図17で説明した4つの場合を想定し
た。この学習用出力の曲線部分は、そのデータの時間的
な中点に原点を持ち、かつそのデータの始端を−10、
終端を10に対応させた式(5)のシグモイド関数を0
〜0.9の範囲に変形したもの、あるいはそれを反転し
たものを用いた。また、学習用の話者は(株)ATR自
動翻訳電話研究所の研究用日本語音声データベースの中
のMAUとFSUで行った。
分の入力(この場合は20次LPCケプトラム)を入力
し、一組の肯定出力、否定出力を得るものとした。従っ
て、従来のように複数フレームのデータを入力するよう
な必要はない。
ィードバック結合を持つBPモデル」型NNでは、学習
を収束させるのが困難であり、その学習用出力を試行錯
誤的に作成しなければならないという問題点があった
が、本発明の音声認識方法のNNは、以上の方法で学習
させることにより、数100〜数1000回の学習で所
望の出力を生成するようになった。また、学習用出力も
試行錯誤的な部分は全く無く一義的に決めることができ
る。
に、学習に用いなかった未知の単語を含むデータを与
え、その能力を検証した結果である。単語の種類の合計
は216単語であり、そのうちの9単語は学習に用いた
ものである。これらの216単語から様々な組み合わせ
の2単語連鎖のデータを作成し、検証に用いた。検証の
際の単語の出現総数は話者あたり1290単語である。
認識結果の判定は、肯定出力と否定出力の組み合わせに
よる判定とし、肯定出力が0.75以上かつ否定出力が
0.25以下であれば検出、肯定出力が0.25以下か
つ否定出力が0.75以上であれば非検出、それ以外は
困惑状態であるとした。この判定条件において、検出す
べき単語が無い位置で検出出力が得られた場合を挿入誤
り、検出すべき単語が有る位置において非検出出力が得
られた場合を欠落誤りとした。
習に用いた話者以外の未知話者九人に対して行ったもの
である。
本発明の音声認識方法によれば、僅かなデータを学習さ
せるだけで非常によい認識率を得ることができる。
ら認識対象とする単語を検出した例である。図中実線は
肯定出力を、破線は否定出力を示す。図より明らかなよ
うに、従来例のように、始端、終端を与えることなく単
語「とりあえず」を認識していることが判る。
象単語「とりあえず」を認識した例である。図19と同
様に、実線は肯定出力を、破線は否定出力を示してい
る。このように、本発明の認識方法は、充分な汎化能力
を持っていることが分かる。
えたデータの長さは合計1049個であるので、従来的
な始端、終端を与えて認識させる場合は単純に言って1
049の自剰個のオーダーの組み合わせを調べる必要が
ある。しかし、本発明は1049個のデータをそれぞれ
1回ずつ入力として与えるのみで良いので、従来の処理
方法と比較して、数百分の1の時間で処理できる。ま
た、データをそれぞれ1回だけ入力すればよいため、従
来のように始端、終端となり得る範囲のデータを記憶し
ておく必要がなく、データメモリーも少量しか必要な
く、その計算量も少なくなる。
ように単調増加、あるいは単調減少するのではなく、必
要な所でピーク値を持つため、出力値を入力データの長
さに対して正規化する必要もない。つまり、出力は常に
ある範囲(この例の場合は−1から1の間)にあり、か
つその値の持つ重みは認識区間のどこでも同じである。
この事は処理すべき値のダイナミックレンジが狭い事を
意味し、処理時に浮動小数点データや対数データを用い
なくとも、整数型のデータで充分な性能を出せることを
意味している。
力の総合的な判断により認識をしているため、例えば、
図20の「購入」のところで肯定出力が立ち上がりかけ
ても、否定出力が下がらないために誤認識をするような
こともなく、音声認識処理の精度を向上させることがで
きる。もちろん、出力数は2に限るものではなく、必要
に応じて幾つ設けてもよい。例えば、現在入力されてい
るデータが学習に用いられたデータとどの程度類似して
いるかというような出力を加えることにより、更に認識
結果の精度を高める事ができる。さらに、それらを複数
個用いることにより、最適な結果を与えるNNを選択す
る事ができる。
語のみではなく音節あるいは音素とすることもできる。
この場合には、比較的少数のNNによりその言語音声の
全体を認識することが可能となる。それにより、例えば
ディクテーションシステムが可能となる。さらに、認識
単位としては、上のような言語との対応を考えない抽象
的なものであってもよい。この様な認識単位を用いるこ
とは特に認識装置を情報圧縮に用いる場合に有効であ
る。
で、図12に示した音声認識装置に対して、背景雑音入
力手段2105および平衡状態検出手段2106が付加
されたものである。他は、図12と同様である。
態初期値を決定するかの処理の流れを図22に示す。図
中の背景雑音データの作成に関わる部分は、適当な初期
値設定手段、適当な定常入力作成手段、あるいは無入力
に対応するものとして無くてもよい。図27は、この装
置を図18に示した学習方法で学習させて認識した結果
を表したもので、実施例1の表1と表2に対応する結果
をまとめたものである。これは、約3秒の背景雑音入力
により平衡状態になったNNの内部状態値を初期値とし
て保存し、認識処理の際にはその値を式(2)の微分方
程式の初期値として用いたものである。
くの場合で単語の欠落誤りが実施例1の結果に比較して
改善されている。
は、単純な音声認識機能に加えて、言語的な処理を用い
る事が多い。この際、挿入的な誤りはそのような言語的
な制約により訂正削除する事が比較的容易に可能である
が、欠落的な誤りをそのような言語的な制約で推論追加
する事は困難である。従って、本実施例に示したような
欠落誤り率の改善は、より高性能な音声認識装置を実現
するために重要な事柄である。
憶手段と雑音データ重畳手段が付加された例である。基
本的な学習方法については、図14に説明した通りであ
る。本実施例の特徴は、予め雑音成分を重畳したデータ
を学習用データとして用いる点にある。学習用データの
認識処理は、学習用データに含まれている雑音成分を除
去したデータについて認識が行われるように、NNの各
ユニット間の重みが学習用制御手段によって調整され
る。つまり、NNは学習用データに含まれる雑音成分を
明確に識別できるように学習させられる。
重畳するかであるが、学習データへの雑音成分の重畳
は、図24に示す様に複数箇所で行われる。図中240
1は学習用データを、2402、2403は雑音成分を
示す。図24(b)は、図24(a)の学習用データの
前段部分に雑音成分2402を重畳した例で、図24
(c)は、学習用データの後段部分に雑音成分2403
を重畳させた例である。この様に、学習用データの複数
の箇所に雑音成分を重畳させた重畳データを用いて、か
つ学習用データに重畳された雑音成分を除去したデータ
を認識するように学習させることにより、NNは雑音成
分だけを明確に識別できるようになる。
れた音声データの雑音部分を正しく認識できるようにな
る。
学習方法は、連続音声認識のみならず孤立音声認識に関
しても非常に有効である。
系列情報の処理においても有効であり、入力データと出
力データの対応が取れるものであれば、どの様な時系列
情報の処理も可能である。利用可能性としては、情報の
圧縮、伸長、波形等価、等が考えられる。
成する神経細胞用素子を示す図である。
に置き換えた図である。
である。
されたニューラルネットワークを用いた認識装置を示す
図である。
化した図である。
に多層化した図である。
である。
ットワークを示す図である。
を示す図である。
明するための図である。
の学習項効果を説明するための図である。
別の認識装置の構成を示す図である。
す図である。
を用いた認識装置の学習方法を示す図である。
す図である。
図である。
図である。
を用いた認識装置の学習方法を示す別の図である。
検出出力を示す図である。
単語検出出力を示す図である。
す図である。
す図である。
置の学習方法を示す図である。
せ方を示す図である。
ューラルネットワークに未知単語を与えたときの認識結
果を示す図である。
対して行った場合の認識結果を示す図である。
与えて行った場合の認識結果を示す図である。
図である。
な機能に置き換えた図である。
えた図である。
6)
Claims (17)
- 【請求項1】 ニューラルネットワークを用いた認識装
置において、前記ニューラルネットワークを構成する各
神経細胞用素子が、内部状態値記憶手段と、前記内部状
態値記憶手段に記憶された内部状態値とその神経細胞用
素子に入力される入力値とに基づいて内部状態値を更新
する内部状態値更新手段と、前記内部状態値記憶手段の
出力を外部出力値へ変換する出力値生成手段とを有する
ことを特徴とするニューラルネットワークを用いた認識
装置。 - 【請求項2】 前記内部状態値更新手段は前記入力値お
よび前記内部状態値に重みを付け積算する重み付き積算
手段からなり、前記内部状態値記憶手段は前記重み付き
積算手段により積算された値を積分する積分手段からな
り、前記出力値生成手段は前記積分手段により得られた
値を予め設定された上限値と下限値の間の値へ変換する
出力値制限手段とからなることを特徴とする請求1記載
のニューラルネットワークを用いた認識装置。 - 【請求項3】 前記ニューラルネットワークを構成する
i番目の前記神経細胞用素子の内部状態値をXiとし、
τiを時定数とし、前記神経細胞用素子への前記重み付
き入力値をZj(jは0からn、nは0または自然数)
とすると、前記内部状態値更新手段が、 【数1】 を満足する値へ内部状態値を更新する事を特徴とする請
求項1または請求項2に記載のニューラルネットワーク
を用いた認識装置。 - 【請求項4】 前記i番目の神経細胞用素子への重み付
き入力値Zjが、前記i番目の神経細胞用素子自身の出
力に重みを剰算した値を含む事を特徴とする請求項1な
いし請求項3に記載のニューラルネットワークを用いた
認識装置。 - 【請求項5】 前記i番目の神経細胞用素子への重み付
き入力値Zjが、前記ニューラルネットワークを構成す
る他の神経細胞用素子の出力に重みを剰算した値を含む
事を特徴とする請求項1ないし請求項4に記載のニュー
ラルネットワークを用いた認識装置。 - 【請求項6】 前記i番目の神経細胞用素子への重み付
き入力値Zjが、前記ニューラルネットワークの外部か
ら与えられたデータを含む事を特徴とする請求項1ない
し請求項5に記載のニューラルネットワークを用いた認
識装置。 - 【請求項7】 前記i番目の神経細胞用素子への重み付
き入力値Zjが、ある固定された値に重みを剰算した値
を含む事を特徴とする請求項1ないし請求項6に記載の
ニューラルネットワークを用いた認識装置。 - 【請求項8】 前記出力値生成手段が、正負対称出力範
囲を有する事を特徴とする請求項1ないし請求項7に記
載のニューラルネットワークを用いた認識装置。 - 【請求項9】 前記ニューラルネットワークが少なくと
も肯定出力、否定出力の2つの出力を持つことを特徴と
する請求項1ないし請求項8に記載のニューラルネット
ワークを用いた認識装置。 - 【請求項10】 前記認識装置は、認識させたい入力の
特徴抽出を行うと共に特徴抽出した値を前記ニューラル
ネットワークへ入力する音声特徴抽出手段と、前記ニュ
ーラルネットワークの出力値を認識結果に変換する認識
結果出力手段と、前記ニューラルネットワークを構成す
る神経細胞用素子の内部状態値記憶手段に予め設定され
た初期値を与える内部状態値初期化手段とを有すること
を特徴とする請求項1〜請求項9記載のニューラルネッ
トワークを用いた認識装置。 - 【請求項11】 請求項10記載の認識装置において、
前記ニューラルネットワークに背景雑音を入力する背景
雑音入力手段と、前記ニューラルネットワークの出力か
ら平衡状態を検出すると共に、前記平衡状態の検出に基
づき内部状態初期値設定手段に予め設定された内部状態
初期値を変更する信号を出力する平衡状態検出手段とを
設けたことを特徴とするニューラルネットワークを用い
た認識装置。 - 【請求項12】 請求項10または請求項11記載の認
識装置において、前記認識装置は、前記ニューラルネッ
トワークを学習させるための学習部を有し、前記学習部
は学習用入力データを記憶する入力データ記憶手段と、
前記入力データ記憶手段から学習用入力データを選択す
る入力データ選択手段と、学習用出力データを記憶する
出力データ記憶手段と、選択された入力データとその連
鎖により学習用出力データを選択する出力データ選択手
段と、選択された学習用入力データを前記特徴抽出部に
入力すると共に前記ニューラルネットワークの学習を制
御する学習制御手段とを有し、前記学習制御手段は前記
ニューラルネットワークの出力と前記出力データ選択手
段の出力とに基づき前記神経細胞用素子の結合の重み付
けを変更することを特徴とするニューラルネットワーク
を用いた認識装置の学習方法。 - 【請求項13】 請求項12記載の認識装置の学習方法
において、前記入力データ記憶手段は複数個の範疇を有
し、前記出力データ記憶手段は前記入力データ記憶手段
の各範疇に対応する範疇を有し、前記入力データ選択手
段は前記入力データ記憶手段の範疇から学習させたい複
数個のデータを選択し、前記出力データ選択手段は前記
入力データ選択手段により選択された学習用入力データ
に対応する学習用出力データを選択し、前記学習制御部
は前記入力データ選択手段が選択した複数個のデータを
1つに連結する入力データ連結手段と前記出力データ選
択手段が選択した学習用出力データを1つに連結する出
力データ連結手段とを有し、前記学習部は前記連結した
1つの学習用入力データを音声特徴抽出手段に入力する
と共に、前記ニューラルネットワークの出力と前記出力
連結手段の出力とに基づき前記神経細胞用素子の結合の
重み付けを変更することを特徴とするニューラルネット
ワークを用いた認識装置の学習方法。 - 【請求項14】 前記範疇の数が2であることを特徴と
する請求項13記載のニューラルネットワークを用いた
認識装置の学習方法。 - 【請求項15】 請求項12ないし請求項14に記載の
ニューラルネットワークを使用した認識装置の学習方法
において、前記学習部は雑音データを記憶する雑音デー
タ記憶手段と、前記選択された学習データに前記雑音デ
ータ記憶手段から選択された雑音を重畳する雑音重畳手
段とを有し、前記雑音重畳手段により雑音が重畳された
入力データを用いて前記ニューラルネットワークを学習
させることを特徴とするニューラルネットワークを用い
た認識装置の学習方法。 - 【請求項16】 前記背景雑音を重畳させる位置をずら
して繰り返し学習させることを特徴とする請求項15に
記載のニューラルネットワークを用いた認識装置の学習
方法。 - 【請求項17】 請求項15に記載のニューラルネット
ワークの学習方法において、はじめに背景雑音が重畳さ
れていない入力データで学習させた後に、同じ入力デー
タに背景雑音を重畳して学習させることを特徴とするニ
ューラルネットワークを用いた認識装置の学習方法。
Applications Claiming Priority (12)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7381892 | 1992-03-30 | ||
JP8714692 | 1992-04-08 | ||
JP8878692 | 1992-04-09 | ||
JP15944192 | 1992-06-18 | ||
JP15942292 | 1992-06-18 | ||
JP4-161075 | 1992-06-19 | ||
JP4-73818 | 1992-06-19 | ||
JP4-88786 | 1992-06-19 | ||
JP4-159422 | 1992-06-19 | ||
JP4-87146 | 1992-06-19 | ||
JP16107592 | 1992-06-19 | ||
JP4-159441 | 1992-06-19 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP51729193A Division JP3521429B2 (ja) | 1992-03-30 | 1993-03-26 | ニューラルネットワークを用いた音声認識装置およびその学習方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000125623A Division JP3521844B2 (ja) | 1992-03-30 | 2000-04-26 | ニューラルネットワークを用いた認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000298663A true JP2000298663A (ja) | 2000-10-24 |
Family
ID=27551274
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP51729193A Expired - Lifetime JP3521429B2 (ja) | 1992-03-30 | 1993-03-26 | ニューラルネットワークを用いた音声認識装置およびその学習方法 |
JP2000085618A Withdrawn JP2000298663A (ja) | 1992-03-30 | 2000-03-27 | ニューラルネットワークを用いた認識装置およびその学習方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP51729193A Expired - Lifetime JP3521429B2 (ja) | 1992-03-30 | 1993-03-26 | ニューラルネットワークを用いた音声認識装置およびその学習方法 |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP0586714B1 (ja) |
JP (2) | JP3521429B2 (ja) |
KR (1) | KR100292919B1 (ja) |
DE (1) | DE69327997T2 (ja) |
HK (1) | HK1013879A1 (ja) |
WO (1) | WO1993020552A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017090912A (ja) * | 2015-11-06 | 2017-05-25 | 三星電子株式会社Samsung Electronics Co.,Ltd. | ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法 |
JP2018109760A (ja) * | 2017-01-04 | 2018-07-12 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識方法及び音声認識装置 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5715372A (en) * | 1995-01-10 | 1998-02-03 | Lucent Technologies Inc. | Method and apparatus for characterizing an input signal |
TW347503B (en) * | 1995-11-15 | 1998-12-11 | Hitachi Ltd | Character recognition translation system and voice recognition translation system |
KR100772373B1 (ko) | 2005-02-07 | 2007-11-01 | 삼성전자주식회사 | 복수개의 데이터 처리 장치를 이용한 데이터 처리 장치 및그 방법과, 이를 구현하기 위한 프로그램이 기록된 기록매체 |
CA2799167A1 (en) * | 2010-05-19 | 2011-11-24 | Douglas A. Palmer | Neural processing unit |
US9082078B2 (en) | 2012-07-27 | 2015-07-14 | The Intellisis Corporation | Neural processing engine and architecture using the same |
US9185057B2 (en) | 2012-12-05 | 2015-11-10 | The Intellisis Corporation | Smart memory |
US10061531B2 (en) | 2015-01-29 | 2018-08-28 | Knuedge Incorporated | Uniform system wide addressing for a computing system |
US9552327B2 (en) | 2015-01-29 | 2017-01-24 | Knuedge Incorporated | Memory controller for a network on a chip device |
US10027583B2 (en) | 2016-03-22 | 2018-07-17 | Knuedge Incorporated | Chained packet sequences in a network on a chip architecture |
US10346049B2 (en) | 2016-04-29 | 2019-07-09 | Friday Harbor Llc | Distributed contiguous reads in a network on a chip architecture |
KR101991041B1 (ko) | 2018-12-31 | 2019-06-19 | 서울대학교산학협력단 | 아날로그 이진인공신경망 회로에서 활성도 조절을 통한 공정변이 보상방법 및 그 시스템 |
CN110310628B (zh) * | 2019-06-27 | 2022-05-20 | 百度在线网络技术(北京)有限公司 | 唤醒模型的优化方法、装置、设备及存储介质 |
NL2029215B1 (en) * | 2021-09-21 | 2022-06-03 | Univ Dalian Tech | Speech keyword recognition method based on gated channel transformation sandglass residual neural network |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0272398A (ja) * | 1988-09-07 | 1990-03-12 | Hitachi Ltd | 音声信号用前処理装置 |
JP2897220B2 (ja) * | 1988-09-17 | 1999-05-31 | ソニー株式会社 | 信号処理装置 |
JP2580826B2 (ja) * | 1990-03-14 | 1997-02-12 | 日本電気株式会社 | フィードバック神経細胞モデル |
JP3091504B2 (ja) * | 1991-03-26 | 2000-09-25 | 三洋電機株式会社 | 神経回路網モデルによる音声認識方法 |
JPH04295894A (ja) * | 1991-03-26 | 1992-10-20 | Sanyo Electric Co Ltd | 神経回路網モデルによる音声認識方法 |
-
1993
- 1993-03-26 EP EP93906832A patent/EP0586714B1/en not_active Expired - Lifetime
- 1993-03-26 KR KR1019930703580A patent/KR100292919B1/ko not_active IP Right Cessation
- 1993-03-26 WO PCT/JP1993/000373 patent/WO1993020552A1/ja active IP Right Grant
- 1993-03-26 JP JP51729193A patent/JP3521429B2/ja not_active Expired - Lifetime
- 1993-03-26 DE DE69327997T patent/DE69327997T2/de not_active Expired - Lifetime
-
1998
- 1998-12-23 HK HK98115085A patent/HK1013879A1/xx unknown
-
2000
- 2000-03-27 JP JP2000085618A patent/JP2000298663A/ja not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017090912A (ja) * | 2015-11-06 | 2017-05-25 | 三星電子株式会社Samsung Electronics Co.,Ltd. | ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法 |
JP2018109760A (ja) * | 2017-01-04 | 2018-07-12 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識方法及び音声認識装置 |
JP7093626B2 (ja) | 2017-01-04 | 2022-06-30 | 三星電子株式会社 | 音声認識方法及び音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
JP3521429B2 (ja) | 2004-04-19 |
DE69327997T2 (de) | 2000-07-27 |
KR100292919B1 (ko) | 2001-06-15 |
HK1013879A1 (en) | 1999-09-10 |
EP0586714B1 (en) | 2000-03-08 |
DE69327997D1 (de) | 2000-04-13 |
EP0586714A4 (en) | 1995-12-13 |
WO1993020552A1 (en) | 1993-10-14 |
EP0586714A1 (en) | 1994-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3168779B2 (ja) | 音声認識装置及び方法 | |
EP3770905B1 (en) | Speech recognition method, apparatus and device, and storage medium | |
US5212730A (en) | Voice recognition of proper names using text-derived recognition models | |
EP0574951B1 (en) | Speech recognition system | |
JP7070894B2 (ja) | 時系列情報の学習システム、方法およびニューラルネットワークモデル | |
US10580432B2 (en) | Speech recognition using connectionist temporal classification | |
JP2000298663A (ja) | ニューラルネットワークを用いた認識装置およびその学習方法 | |
EP2221805A1 (en) | Method for automated training of a plurality of artificial neural networks | |
US11081104B1 (en) | Contextual natural language processing | |
WO2016167779A1 (en) | Speech recognition device and rescoring device | |
US6151592A (en) | Recognition apparatus using neural network, and learning method therefor | |
US5809461A (en) | Speech recognition apparatus using neural network and learning method therefor | |
US5181256A (en) | Pattern recognition device using a neural network | |
US20160275394A1 (en) | Arithmetic operation apparatus, arithmetic operation method, and computer program product | |
CN110808036B (zh) | 一种增量式语音命令词识别方法 | |
JP3467556B2 (ja) | 音声認識装置 | |
JPH064097A (ja) | 話者認識方法 | |
JP2000352994A (ja) | 神経細胞素子、ニューラルネットワークを用いた認識装置およびその学習方法 | |
JPH06119476A (ja) | 時系列データ処理装置 | |
KR102159988B1 (ko) | 음성 몽타주 생성 방법 및 시스템 | |
Renkens et al. | Incrementally learn the relevance of words in a dictionary for spoken language acquisition | |
Huang | Phoneme recognition using neural network and sequence learning model | |
JPH0612096A (ja) | 音声認識方法 | |
JP2022062532A (ja) | 意図推定装置およびその方法 | |
CN117497001A (zh) | 评测方法、评测装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20030930 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20031216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040322 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20040514 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20051219 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20061208 |