JP3521844B2 - Recognition device using neural network - Google Patents

Recognition device using neural network

Info

Publication number
JP3521844B2
JP3521844B2 JP2000125623A JP2000125623A JP3521844B2 JP 3521844 B2 JP3521844 B2 JP 3521844B2 JP 2000125623 A JP2000125623 A JP 2000125623A JP 2000125623 A JP2000125623 A JP 2000125623A JP 3521844 B2 JP3521844 B2 JP 3521844B2
Authority
JP
Japan
Prior art keywords
value
output
data
neural network
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000125623A
Other languages
Japanese (ja)
Other versions
JP2000352994A (en
Inventor
満広 稲積
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2000125623A priority Critical patent/JP3521844B2/en
Publication of JP2000352994A publication Critical patent/JP2000352994A/en
Application granted granted Critical
Publication of JP3521844B2 publication Critical patent/JP3521844B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、ューラルネット
ワークを用いた認識装置関するもので、音声データ等
の時系列データを処理する際、従来の様に入力データの
始端・終端を与えたり、考えられる全ての始端・終端の
組み合わせについて処理したりするのではなく、神経細
胞用素子自身が入力されたデータの過去の履歴を保持で
きる構成とすることにより、音声等の時系列データの処
理を簡単なハードウェア構成でかつ高精度の処理が可能
となるような技術に関する。
BACKGROUND OF THE INVENTION The present invention, which relates to the recognition apparatus using a two-menu neural network, in processing the time-series data such as voice data, giving start-end of the prior input data like the Instead of processing all possible combinations of start and end points, the neuron device itself is configured to retain the past history of input data, so that time series data such as voice data can be stored. The present invention relates to a technique capable of performing highly accurate processing with a simple hardware configuration.

【0002】また、ニューラルネットワークにそのよう
な処理を行わせるためのニューラルネットワークの学習
方法に関する。
Further, the present invention relates to a learning method of a neural network for causing the neural network to perform such processing.

【0003】[0003]

【背景技術及び発明が解決しようとする課題】従来の場
合、データ認識手段、特に時系列データの範疇を学習に
より認識する手段として実用的に用いられている手段
は、ダイナミックプログラミング(DP)法、隠れマル
コフモデル(HMM)法、およびバックプロパゲーショ
ン学習法と多層パーセプトロン型ニューラルネットワー
クを用いた方法(MLP法)とがある。これらの詳細に
ついては、例えば中川聖一著「確率モデルによる音声認
識」(電子情報通信学会)、中川、鹿野、東倉共著「音
声・聴覚と神経回路網モデル」(オーム社)等に記述さ
れている。
2. Description of the Related Art In the prior art, data recognizing means, particularly means practically used as means for recognizing categories of time-series data by learning, are dynamic programming (DP) methods, There are a Hidden Markov Model (HMM) method and a method using a back propagation learning method and a multilayer perceptron type neural network (MLP method). Details of these are described in, for example, Seiichi Nakagawa "Speech Recognition by Probabilistic Model" (IEICE), and Nakagawa, Kano, and Higashikura "Speech / Hearing and Neural Network Model" (Ohmsha). There is.

【0004】このDP法、HMM法に共通する問題は教
師となるデータおよび認識対象となるデータに始端と終
端を必要とすることである。これらにおいて見かけ上始
端終端に依存しない処理をするためには、可能性のある
全ての始端終端についての処理を行い、最良の結果を与
える始端終端を試行錯誤的に発見するという方法があ
る。しかし、例えば長さNのパタンの中から、ある範疇
に属するデータの部分を検出する場合を考えてみると、
始端の可能性としてはNのオーダーの可能性があり、ま
た終端においてもNのオーダーの可能性がある。つま
り、始端終端の組み合わせとしてはNの自剰のオーダー
の可能性が考えられる。従ってこの場合においては、こ
の非常に多数の組み合わせの全てについて認識処理を行
わなければならない。そして、その処理には膨大な時間
がかかってしまう。
A problem common to the DP method and the HMM method is that the data to be a teacher and the data to be recognized require a start end and an end. In order to perform processing that does not seem to depend on the starting end, there is a method of performing processing for all possible starting ends and finding the starting end that gives the best result by trial and error. However, considering the case of detecting a portion of data belonging to a certain category from a pattern of length N, for example,
There is a possibility of the order of N at the beginning and a possibility of the order of N at the end. In other words, there is a possibility that there will be N surplus orders as a combination of the start end and the end. Therefore, in this case, the recognition process must be performed for all of these very large combinations. Then, the processing takes a huge amount of time.

【0005】また組み合わせの数という量的な問題以前
に、始端終端の存在という仮定自身に、より本質的な問
題がある。入力データに、ある範疇のデータがただ一つ
しか含まれないという条件であれば始端終端は自明であ
るが、一つ以上の範疇のデータが連続する場合において
は、そのような境界は自明ではない。特に、音声などの
時系列情報においては、そのような境界は明確に存在せ
ず、連続した2つの範疇のデータはその情報が重複する
遷移領域を経て一方から他方へ変化する。従って、デー
タの始端終端を仮定することはその正確度において非常
に大きな問題がある。
Also, before the quantitative problem of the number of combinations, there is a more fundamental problem in the assumption itself of the existence of the beginning and end. The beginning and end are trivial if the input data contains only one category of data, but if one or more categories of data are continuous, such a boundary is not trivial. Absent. In particular, in time-series information such as voice, such a boundary does not exist clearly, and two consecutive categories of data change from one to the other through a transition region where the information overlaps. Therefore, assuming the beginning and end of data has a very big problem in its accuracy.

【0006】従来法のもう一つの方法であるMLP法の
場合はこのようなデータの始端終端を特に仮定する必要
はない。しかしそれに代わって入力のデータ範囲という
意味での新たな始端終端の問題が起こる。つまり、ML
P法は基本的には静的なデータを認識するための方法で
あり、それに時系列データを認識させるためには、ある
時間範囲のデータを1つの入力データとして入力し、等
価的に時間情報を処理しなければならないという問題が
ある。この時間範囲はMLPの構成上固定されたもので
なければならない。
In the case of the MLP method which is another method of the conventional method, it is not necessary to particularly assume the beginning and end of such data. However, instead, a new start / end problem occurs in the sense of the input data range. That is, ML
The P method is basically a method for recognizing static data, and in order to make it recognize time series data, data in a certain time range is input as one input data, and the time information is equivalently obtained. There is a problem of having to handle. This time range must be fixed due to the structure of the MLP.

【0007】一方時系列データの長さは、その範疇によ
り、また同一範疇の中においても大きく変動する。例え
ば音声における音素を例にとれば、長い音素である母音
等と、短い音素である破裂音等の平均長さは10倍以上
異なる。また同一音素内においても実際の音声中での長
さは2倍以上変動する。従って、仮にデータの入力範囲
を平均的な長さに設定したとすると、短い音素を認識す
る場合はその入力データの中には認識対象以外のデータ
が多数含まれることになり、また長い音素を認識する場
合はその入力データの中には認識対象のデータの一部し
か含まれないことになる。これらはいずれも認識能力を
下げる原因である。また音素毎に異なる入力長さを設定
したとしても、その音素自身の長さが変動するので問題
は同様である。また、このようなことは時系列情報一般
に見られることである。
On the other hand, the length of the time-series data varies greatly depending on its category and within the same category. For example, in the case of phonemes in speech, the average lengths of vowels, which are long phonemes, and plosives, which are short phonemes, differ by a factor of 10 or more. In addition, even within the same phoneme, the length in the actual voice fluctuates more than twice. Therefore, assuming that the input range of data is set to an average length, when recognizing a short phoneme, the input data will include a large amount of data other than the recognition target, and a long phoneme will be included. When recognizing, only a part of the data to be recognized is included in the input data. All of these are factors that reduce cognitive ability. Even if a different input length is set for each phoneme, the length of the phoneme itself changes, and the problem is the same. Moreover, such a thing is generally seen in time series information.

【0008】従来的なDP法、HMM法では、取り扱う
データの始端と終端とを必要とし、MLP法では学習時
に入力範囲の始端と終端とを必要とする。しかし、時系
列情報においてはこれは原理的に明確にはできず、無理
に始端・終端を仮定することは認識能力を下げることに
なる。
The conventional DP method and HMM method require the start and end of data to be handled, and the MLP method requires the start and end of the input range during learning. However, in time-series information, this cannot be clarified in principle, and forcibly assuming the beginning and the end will reduce the cognitive ability.

【0009】また、見かけ上これを緩和するためには全
ての始端終端の組み合わせについての処理を必要とな
り、膨大な処理が必要となる。
Further, in order to apparently alleviate this, it is necessary to perform processing for all combinations of the start end and end, and a huge amount of processing is required.

【0010】[0010]

【課題を解決するための手段】本発明は、入力データが
認識対象と一致するか否かの認識処理を行なう認識用ニ
ューラルネットワークと、前記ニューラルネットワーク
を構成する神経細胞用素子の内部状態値記憶手段に予め
設定された初期値を与える内部状態値初期化手段と、前
記ニューラルネットワークに背景雑音を入力する背景雑
音入力手段と、前記ニューラルネットワークの出力から
平衡状態を検出すると共に、前記平衡状態の検出に基づ
き内部状態初期値設定手段に予め設定された内部状態初
期値を変更する信号を出力する平衡状態検出手段と、を
含み、前記ニューラルネットワークを構成する各神経細
胞用素子は、現在の内部状態値を記憶する前記内部状態
値記憶手段と、前記内部状態値記憶手段に記憶された内
部状態値とその神経細胞用素子に入力される少なくとも
一つの重み付けされた入力値とに基づいて前記内部状態
値を更新する内部状態値更新手段と、前記内部状態値記
憶手段の出力を外部出力値へ変換する出力値生成手段
と、を有することを特徴とする。
According to the present invention, the input data is
A recognition unit that performs recognition processing to determine whether or not it matches the recognition target.
Ural network and the neural network
The internal state value storage means of the neuron element that constitutes
An internal state value initialization means for giving a set initial value, and
Input background noise to neural network
From the sound input means and the output of the neural network
The equilibrium state is detected and based on the detection of the equilibrium state.
Internal state initial value
Equilibrium state detecting means for outputting a signal for changing the period value,
Each neural cell element forming the neural network includes the internal state value storage means for storing a current internal state value, the internal state value stored in the internal state value storage means and the neural cell element thereof. At least entered in
An internal state value updating means for updating the internal state value based on one weighted input value; and an output value generating means for converting the output of the internal state value storage means into an external output value. Characterize.

【0011】[0011]

【0012】[0012]

【0013】[0013]

【0014】[0014]

【0015】[0015]

【0016】[0016]

【0017】[0017]

【0018】[0018]

【0019】[0019]

【0020】[0020]

【0021】[0021]

【0022】[0022]

【0023】[0023]

【0024】[0024]

【0025】[0025]

【0026】[0026]

【0027】[0027]

【0028】[0028]

【0029】[0029]

【発明の実施の形態】本実施の形態のニューラルネット
ワークを用いた認識装置は、 1)ニューラルネットワークを構成する各神経細胞用素
子が、内部状態値記憶手段と、内部状態値記憶手段に記
憶された内部状態値とその神経細胞用素子に入力される
入力値とにより内部状態値を更新する内部状態値更新手
段と、内部状態値記憶手段の出力を外部出力値へ変換す
る出力値生成手段とを有する、 2)内部状態値更新手段は入力値および内部状態値に重
みを付け積算する重み付き積算手段からなり、内部状態
値記憶手段は前記重み付き積算手段により積算された値
を積分する積分手段からなり、出力値生成手段は積分手
段により得られた値を予め設定された上限値と下限値の
間の値へ変換する出力値制限手段とからなる、 3)前記1)または2)において、ニューラルネットワ
ークを構成するi番目の神経細胞用素子の内部状態値を
Xiとし、τiを時定数とし、神経細胞用素子への重み
付き入力値をZj(jは0からn、nは0または自然
数)とすると、内部状態値更新手段が、
BEST MODE FOR CARRYING OUT THE INVENTION A recognition device using a neural network according to the present embodiment is as follows: 1) Each neural cell element forming the neural network is stored in an internal state value storage means and an internal state value storage means. Internal state value updating means for updating the internal state value with the internal state value and the input value input to the neuron element, and output value generating means for converting the output of the internal state value storage means into an external output value. 2) The internal state value updating means comprises a weighted integrating means for weighting and integrating the input value and the internal state value, and the internal state value storing means integrates the values integrated by the weighted integrating means. The output value generating means includes an output value limiting means for converting the value obtained by the integrating means into a value between a preset upper limit value and a lower limit value. 3) The above 1) or ), Xi is the internal state value of the i-th neural cell element constituting the neural network, τi is a time constant, and the weighted input value to the neural cell element is Zj (j is 0 to n, n is n 0 or a natural number), the internal state value updating means

【0030】[0030]

【数2】 [Equation 2]

【0031】を満足する値へ内部状態値を更新する、 4)前記1)ないし3)において、i番目の神経細胞用
素子への重み付き入力値Zjが、i番目の神経細胞用素
子自身の出力に重みを剰算した値を含む、 5)前記1)ないし4)において、i番目の神経細胞用
素子への重み付き入力値Zjが、ニューラルネットワー
クを構成する他の神経細胞用素子の出力に重みを剰算し
た値を含む、 6)前記1)ないし5)において、i番目の神経細胞用
素子への重み付き入力値Zjが、ニューラルネットワー
クの外部から与えられたデータを含む、 7)前記1)ないし6)において、i番目の神経細胞用
素子への重み付き入力値Zjが、ある固定された値に重
みを剰算した値を含む、 8)前記1)ないし7)において、出力値生成手段が、
正負対称出力範囲を有する、 9)前記1)ないし8)において、ニューラルネットワ
ークが少なくとも肯定出力、否定出力の2つの出力を持
つ、 10)前記1)ないし9)において、認識装置は、認識
させたい入力の特徴抽出を行うと共に特徴抽出した値を
前記ニューラルネットワークへ入力する音声特徴抽出手
段と、ニューラルネットワークの出力値を認識結果に変
換する認識結果出力手段と、ニューラルネットワークを
構成する神経細胞用素子の内部状態値記憶手段に予め設
定された初期値を与える内部状態値初期化手段とを有す
る、 11)前記10)の認識装置において、ニューラルネッ
トワークに背景雑音を入力する背景雑音入力手段と、ニ
ューラルネットワークの出力から平衡状態を検出し、そ
の検出結果に基づき内部状態初期値設定手段に内部状態
値を変更する信号を出力する平衡状態検出手段とを設け
たこと、を特徴とする。
The internal state value is updated to a value satisfying 4). 4) In the above 1) to 3), the weighted input value Zj to the i-th nerve cell element is the i-th nerve cell element itself. 5) In the above 1) to 4), the weighted input value Zj to the i-th neural cell element is the output of another neural cell element that constitutes the neural network. 6) In 1) to 5) above, the weighted input value Zj to the i-th neuron element includes data given from the outside of the neural network, 7) In 1) to 6) above, the weighted input value Zj to the i-th neuron element includes a value obtained by adding weight to a fixed value. 8) Output in 1) to 7) above The value generation means
It has a positive / negative symmetrical output range. 9) In the above 1) to 8), the neural network has at least two outputs, a positive output and a negative output. 10) In the above 1) to 9), the recognition device wants the recognition device to recognize. Speech feature extraction means for performing input feature extraction and inputting the feature extracted value to the neural network, recognition result output means for converting the output value of the neural network into a recognition result, and a neural cell element forming the neural network. 11) The internal state value initialization means for giving a preset initial value to the internal state value storage means of 11). 11) In the recognition device according to 10), background noise input means for inputting background noise to a neural network; The equilibrium state is detected from the output of the network, and the internal state is initialized based on the detection result. By providing the equilibrium state detecting means for outputting a signal to change the internal state value setting means and.

【0032】また、本実施の形態のニューラルネットワ
ークを用いた認識装置の学習方法は、 12)前記10)または11)の認識装置が、ニューラ
ルネットワークを学習させる学習部を有し、その学習部
が学習用入力データを記憶する入力データ記憶手段と、
入力データ記憶手段から学習用入力データを選択する入
力データ選択手段と、学習用出力データを記憶する出力
データ記憶手段と、選択された入力データとその連鎖に
より学習用出力データを選択する出力データ選択手段
と、選択された学習用入力データを特徴抽出部に入力す
ると共にニューラルネットワークの学習を制御する学習
制御手段とを有し、学習制御手段はニューラルネットワ
ークの出力と出力データ選択手段の出力とに基づいて神
経細胞用素子の結合の重み付けを変更する、 13)前記12)において、入力データ記憶手段は複数
個の範疇を有し、出力データ記憶手段は入力データ記憶
手段の各範疇に対応する範疇を有し、入力データ選択手
段は入力データ記憶手段の範疇から学習させたい複数個
のデータを選択し、出力データ選択手段は入力データ選
択手段により選択された学習用入力データに対応する学
習用出力データを選択し、学習制御部は入力データ選択
手段が選択した複数個のデータを1つに連結する入力デ
ータ連結手段と出力データ選択手段が選択した学習用出
力データを1つに連結する出力データ連結手段とを有
し、学習部は連結した1つの学習用入力データを音声特
徴抽出手段に入力すると共に、ニューラルネットワーク
の出力と出力連結手段の出力とに基づき神経細胞用素子
の結合の重み付けを変更する、 14)前記13)の範疇の数が2であること、 15)前記12)ないし14)において、学習部は雑音
データを記憶する雑音データ記憶手段と、選択された学
習データに雑音データ記憶手段から選択された雑音を重
畳する雑音重畳手段とを有し、雑音重畳手段により雑音
が重畳された入力データを用いてニューラルネットワー
クを学習させる、 16)前記15)において、背景雑音を重畳させる位置
をずらして繰り返し学習させる、 17)前記15)において、はじめに背景雑音が重畳さ
れていない入力データで学習させた後に、同じ入力デー
タに背景雑音を重畳して学習させる、ことを特徴とす
る。
Further, the learning method of the recognition device using the neural network of this embodiment is as follows: 12) The recognition device of 10) or 11) has a learning unit for learning the neural network, and the learning unit is Input data storage means for storing learning input data,
Input data selection means for selecting learning input data from the input data storage means, output data storage means for storing learning output data, and output data selection for selecting learning output data by the selected input data and its chain. Means and learning control means for controlling the learning of the neural network while inputting the selected learning input data to the feature extraction unit, and the learning control means provides the output of the neural network and the output of the output data selecting means. 13) In 12), the input data storage means has a plurality of categories, and the output data storage means corresponds to each category of the input data storage means. The input data selection means selects a plurality of data to be learned from the category of the input data storage means, and outputs the output data. The selecting means selects the learning output data corresponding to the learning input data selected by the input data selecting means, and the learning control section connects the plurality of data selected by the input data selecting means into one input data connection. Means and output data connecting means for connecting the learning output data selected by the output data selecting means into one, and the learning section inputs the connected one learning input data to the speech feature extracting means, and the neural network. Changing the weighting of the connection of the neural cell elements based on the output of the network and the output of the output connection means, 14) the number of categories in 13) is 2, 15) learning in 12) to 14) The unit has noise data storage means for storing noise data and noise superposition means for superposing the noise selected from the noise data storage means on the selected learning data. , Learning a neural network by using input data on which noise is superimposed by noise superimposing means, 16) in 15), the position of superimposing background noise is shifted and repeated learning is performed, 17) in 15), the background is first described. It is characterized in that after learning is performed with input data on which noise is not superimposed, background noise is superimposed on the same input data for learning.

【0033】このように、本実施の形態のニューラルネ
ットワークを用いた認識装置及び学習方法によれば、 1)従来例では音声入力の長さNの自剰に比例した処理
時間が必要であったが、本実施の形態ではデータを1回
のみ与えれば良く非常に高速な処理が可能である、 2)入力データを記憶するメモリーが非常に少なくても
良い、 3)結果の正規化の必要がない、 4)容易に連続処理が可能である、 5)整数型のデータ表現でも十分な精度が得られる、 6)肯定否定出力を組み合わせる事により、非常に高精
度の認識結果が得られる、 7)より多出力の任意の情報を出力させる事ができる、 8)対雑音性等を容易に向上させる事ができる、 9)種々の時間スケールの現象への対応を学習により自
己組織的に行う事ができる、 10)NNの連想能力、情報の圧縮伸長能力を、目的に
合わせて最適に配置する構成が容易に行える、 11)学習が極めて容易であり、そのための試行錯誤的
な部分が非常に少ない、などの効果がある。
As described above, according to the recognition device and the learning method using the neural network of the present embodiment, 1) the conventional example requires a processing time proportional to the surplus of the voice input length N. However, in this embodiment, the data can be given only once, and extremely high-speed processing can be performed. 2) The memory for storing the input data may be very small. 3) It is necessary to normalize the result. 4) Easy continuous processing is possible 5) Sufficient accuracy is obtained even with integer type data representation 6) Very high accuracy recognition result is obtained by combining positive / negative output ) It is possible to output arbitrary information with more outputs, 8) It is possible to easily improve noise resistance, etc. 9) It is possible to self-organize by responding to phenomena of various time scales by learning. 10) The NN's associative ability and the information compression / expansion ability can be easily arranged optimally according to the purpose. 11) The learning is extremely easy, and the trial-and-error part for that is very small. There is.

【0034】以下にその具体的な実施の形態を詳細に説
明する。
Specific embodiments will be described in detail below.

【0035】図1は本発明におけるNNを構成する神経
細胞用素子(以下「ノード」という)の機能を模式的に
示したものである。図中104は1つのノード全体を、
101は内部状態値記憶手段を、102は101に記憶
された内部状態値及びノードに入力される入力値に基づ
いて内部状態値を更新する内部状態値更新手段を、10
3は内部状態値を外部出力へ変換する出力値生成手段を
示す。
FIG. 1 schematically shows the function of a nerve cell element (hereinafter referred to as "node") which constitutes the NN in the present invention. In the figure, 104 represents one entire node,
Reference numeral 101 denotes internal state value storage means, and 102 denotes internal state value updating means for updating the internal state value based on the internal state value stored in 101 and the input value input to the node.
Reference numeral 3 denotes an output value generating means for converting an internal state value into an external output.

【0036】図2は、図1に示したノードの機能をより
具体的に示したものである。図中201はデータ入力手
段を、202は201により得られたデータ入力値に重
みを付け積算する重み付き積算手段を、203は積算さ
れたデータ値を積分する積分手段を、204は積分の結
果得られた値を予め設定されたある範囲の値へ変換する
出力値制限手段をそれぞれ模式的に示す。
FIG. 2 shows the function of the node shown in FIG. 1 more concretely. In the figure, 201 is a data input means, 202 is a weighted integrating means for weighting and integrating the data input values obtained by 201, 203 is an integrating means for integrating the integrated data values, and 204 is a result of integration. The output value limiting means for converting the obtained value into a preset value within a certain range is schematically shown.

【0037】図3は図2の構成を電子回路にした一例で
ある。図中301は、図2のデータ入力手段と重み付き
積算手段を、また302は積分手段を、303は出力値
制限手段を示す。
FIG. 3 shows an example in which the configuration of FIG. 2 is an electronic circuit. In the figure, 301 indicates the data input means and weighted integrating means of FIG. 2, 302 indicates integrating means, and 303 indicates output value limiting means.

【0038】一方、図28は従来のMLP法によるNN
を構成するノードの機能を模式的に示したものである。
図中2803は1つのノード全体を、2801は内部状
態値を計算する内部状態値計算手段を、2802は28
01により計算された内部状態値を外部出力へ変換する
出力値生成手段を示す。
On the other hand, FIG. 28 shows the NN according to the conventional MLP method.
3 schematically shows the functions of the nodes forming the.
In the figure, reference numeral 2803 denotes one entire node, 2801 denotes an internal state value calculating means for calculating an internal state value, and 2802 denotes 28.
The output value generation means for converting the internal state value calculated by 01 into the external output is shown.

【0039】同様に、図29は図28に示した従来のノ
ードの機能を具体的に示したもので、図中2901はデ
ータ入力手段を、2902は2901により得られたデ
ータ入力値に重みを付け積算する重み付き積算手段を、
2903は積算されたデータの値を予め設定されたある
範囲の値へ変換する出力値制限手段を示す。
Similarly, FIG. 29 specifically shows the function of the conventional node shown in FIG. 28. In the figure, 2901 is a data input means, and 2902 is a data input value obtained by 2901. Weighted integrating means for adding and integrating
Reference numeral 2903 denotes an output value limiting means for converting the value of the integrated data into a value within a preset range.

【0040】図30は図29の構成を電子回路にした例
である。図中3001は、図29のデータ入力手段と重
み付き積算手段を、また3002は出力値制限手段を示
す。
FIG. 30 shows an example in which the configuration of FIG. 29 is replaced by an electronic circuit. In the figure, reference numeral 3001 indicates the data input means and weighted integration means of FIG. 29, and reference numeral 3002 indicates the output value limiting means.

【0041】図1〜図3および図28〜図30から明ら
かな通り、本発明のノードは従来のノードにはなかった
積分手段を持つ。従って、従来のノードにおいては、そ
の出力が、その時点での入力のみにより決定されるとい
う意味で静的であったのに対し、本発明のノードは、そ
のノードへ入力されたデータの過去の履歴が、その積分
値として変換、保持されており、それにより出力が決ま
るという意味で動的であるといえる。
As is apparent from FIGS. 1 to 3 and FIGS. 28 to 30, the node of the present invention has an integrating means which is not provided in the conventional node. Therefore, in the conventional node, the output is static in the sense that it is determined only by the input at that time, whereas the node of the present invention is a past one of the data input to the node. It can be said that the history is dynamic in the sense that the history is converted and held as its integrated value, and the output is determined by it.

【0042】つまり、従来の静的なノードを用いたNN
で時系列データを処理しようとすれば、そのネットワー
クの構造としてデータの時間構造を取り込む必要があっ
たのに対し、本発明の動的なノードを用いたNNは、N
Nの構造等によらずにノードそのもので時系列データを
処理する事ができる。
That is, the NN using the conventional static node
In order to process time-series data with, it was necessary to capture the time structure of the data as the structure of the network, whereas the NN using the dynamic node of the present invention is
The time series data can be processed by the node itself regardless of the structure of N and the like.

【0043】より具体的に言うと、従来のNNに時系列
データを処理させようとすると、その時間情報を空間情
報へ展開するような方法、例えば複数のタイミングで入
力されたデータを一つの入力データへまとめあげる等の
方法が必要となる。このためには、このまとめあげるデ
ータを記憶し、管理するためのハードウエアと処理が必
要となる。あるいは上で述べたような時間に依存する情
報を記憶するための、特別なコンテキスト素子が必要と
なる。さらに、このコンテキストを管理するハードウエ
アと処理も必要である。
More specifically, when a conventional NN attempts to process time-series data, a method of expanding the time information into spatial information, for example, inputting data input at a plurality of timings It is necessary to have a method such as collecting data. This requires hardware and processing to store and manage this summarized data. Alternatively, a special context element is needed to store the time dependent information as described above. In addition, the hardware and processing that manages this context is also required.

【0044】それに対し、本発明のNNによれば、コン
テキスト情報等は各々の素子の内部の積分値として記憶
されるため、NNに特別な構造を設定する必要がない。
従って、入力データも、それぞれのタイミングのデータ
をそれぞれのタイミングで入力する、という最も単純な
入力方法で十分であり、時間情報を処理するための特別
なハードウエアや処理は全く必要としない。
On the other hand, according to the NN of the present invention, since the context information and the like are stored as the integrated value inside each element, it is not necessary to set a special structure in the NN.
Therefore, for the input data, the simplest input method of inputting the data of each timing at each timing is sufficient, and no special hardware or processing for processing the time information is required.

【0045】次に、本発明のノードおよびそのノードに
よって構成されるNNの実際の動作について説明する。
ノードの内部状態値をX、出力値をYとし、XとYの時
間変化において、現在の内部状態値をXcurr、更新
された内部状態値をXnext、またその更新動作時に
ノードに入力される入力値をZi(iは0〜nであり、
nはそのノードへの入力数)とする。内部状態値更新手
段の動作を形式的に関数Gと表すと、更新された内部状
態値Xnextは、 Xnext=G(Xcurr、Z0、・・・、Zi、・・・、Zn) (1) と表現できる。式(1)の具体的な形は様々のものが考
えられるが、例えば1階の微分方程式を用いた次の式
(2)のようなものも可能である。
Next, the actual operation of the node of the present invention and the NN constructed by the node will be described.
The internal state value of the node is X, the output value is Y, and the current internal state value is Xcurr, the updated internal state value is Xnext, and the input that is input to the node at the time of the update operation in the time change of X and Y. The value is Zi (i is 0 to n,
n is the number of inputs to the node). When the operation of the internal state value updating means is formally expressed as a function G, the updated internal state value Xnext is: Xnext = G (Xcurr, Z0, ..., Zi, ..., Zn) (1) Can be expressed. Although various concrete forms of the equation (1) are conceivable, for example, the following equation (2) using a first-order differential equation is also possible.

【0046】[0046]

【数3】 [Equation 3]

【0047】ここでτiはある時定数である。Here, τ i is a certain time constant.

【0048】ここで、入力値Zjをもう少し詳細に定義
すると、ある結合重みを乗算されたそのノード自身の
出力、ある結合重みを乗算された他のノードの出力、
等価的に内部状態更新手段へバイアスを与えるための
結合重みを乗算された固定出力値、そのノードにNN
の外部から入力される外部入力、等が考えられる。そこ
で、このような入力値Zjに対するi番目のノードの内
部状態値の更新を考える。内部状態値をXi、任意のノ
ードの出力をYj、j番目のノードの出力をi番目のノ
ードの入力へ結合する結合強度をWij、バイアス値を
θi、i番目のノードへの外部入力値をDiとすると、
式(2)はより具体的に次のように書ける。
Now, defining the input value Zj in a little more detail, the output of the node itself multiplied by a certain connection weight, the output of another node multiplied by a certain connection weight,
A fixed output value multiplied by a connection weight for biasing the internal state updating means equivalently, NN at that node
An external input, etc., which is input from the outside, can be considered. Therefore, consider updating the internal state value of the i-th node for such an input value Zj. The internal state value is Xi, the output of any node is Yj, the coupling strength that couples the output of the jth node to the input of the ith node is Wij, the bias value is θi, and the external input value to the ith node is Di is
Equation (2) can be written more concretely as follows.

【0049】[0049]

【数4】 [Equation 4]

【0050】このようにして決定されたある瞬間のノー
ドの内部状態をXとし、出力値生成手段の動作を形式的
に関数Fで表すと、ノードの出力Yは、 Y=F(X) (4) と表現できる。Fの具体的な形としては以下の式(5)
で示されるような正負対称出力のシグモイド(ロジステ
ィック)関数等が考えられる。
When the internal state of the node at a certain moment thus determined is X and the operation of the output value generating means is formally represented by a function F, the output Y of the node is Y = F (X) ( 4) can be expressed as As a concrete form of F, the following formula (5) is used.
A positive / negative symmetrical output sigmoid (logistic) function as shown in FIG.

【0051】[0051]

【数5】 [Equation 5]

【0052】しかし、この関数型は必須のものではな
く、その他にもより単純な線形変換や、あるいはしきい
値関数等も考えられる。
However, this function type is not indispensable, and simpler linear conversion, a threshold function, etc. may be considered.

【0053】このように式に従い本発明におけるNNの
出力Yの時系列は計算される。
As described above, the time series of the output Y of the NN in the present invention is calculated according to the formula.

【0054】図4は、本発明のノードにより構成された
NNを使用した音声認識装置の1例を示すものである。
図中401は音声特徴抽出手段を、402は本発明のノ
ードによって構成されたNNを、403は認識結果の出
力手段を示す。音声特徴抽出手段により抽出された出力
2つのノードに入力されている。それから、このNNは
任意のノードが他の全てのノードと結合している全結合
型のNNとなっている。そして、NNからは2つの出力
が認識結果出力手段に出力されている。本発明のNNで
は、出力数は任意に設定することができる。よって、単
語認識の場合などは、肯定出力、否定出力の2つの出力
を設けて、これらの出力から総合的に認識結果を判断し
て、認識精度を高めることができる。もちろんNNへの
入力数および出力数は図4の様に2つに限るものではな
く、幾つでも良い。
FIG. 4 shows an example of a speech recognition apparatus using an NN constructed by the nodes of the present invention.
In the figure, reference numeral 401 is a voice feature extraction means, 402 is an NN formed by the nodes of the present invention, and 403 is a recognition result output means. The output extracted by the voice feature extraction means is input to the two nodes. Then, this NN is a fully connected NN in which an arbitrary node is connected to all other nodes. Then, two outputs from the NN are output to the recognition result output means. In the NN of the present invention, the number of outputs can be set arbitrarily. Therefore, in the case of word recognition, it is possible to improve the recognition accuracy by providing two outputs, a positive output and a negative output, and comprehensively determining the recognition result from these outputs. Of course, the number of inputs and the number of outputs to the NN are not limited to two as shown in FIG. 4, but may be any number.

【0055】図5〜図9に、本発明のノードにより構成
されたNNの他の構成例を示す。
5 to 9 show other examples of the structure of the NN composed of the nodes of the present invention.

【0056】先ず始めは、図4のNN402の構成のみ
をかえた例を図5に示す。ここではNN402が、入力
層501、隠れ層502、出力層503から構成され
る。この構成は、従来技術のMLP法と見かけ上同一に
見える。しかし、本発明のノードにより構成されたNN
は、従来技術のような先ず入力層の値が決定され、その
後にその値を入力とする隠れ層の値が決定され、以下同
様に出力層に至るまでの各層の値が逐次的に決定されて
いくといった、フィードフォワード型ネットワークでは
ない。
First, FIG. 5 shows an example in which only the configuration of the NN 402 in FIG. 4 is changed. Here, the NN 402 is composed of an input layer 501, a hidden layer 502, and an output layer 503. This configuration looks similar to the prior art MLP method. However, the NN constructed by the node of the present invention
As in the prior art, first, the value of the input layer is determined, then the value of the hidden layer with that value as the input is determined, and subsequently, the values of each layer up to the output layer are sequentially determined. It is not a feedforward type network.

【0057】本発明のノードを用いたNNは、ノード自
身が内部状態値を保持できるため従来技術のようなコン
テキスト層を必要とせずに時系列データを認識し、コン
テキスト層を有する従来技術と同等の結果を得る事がで
きる。また、全ての層の出力が同時に決定されるため従
来技術のMLP法よりも、より効率の良い並列処理が可
能である。
The NN using the node of the present invention recognizes time-series data without requiring a context layer as in the prior art because the node itself can hold the internal state value, and is equivalent to the prior art having a context layer. You can get the result of. Further, since the outputs of all layers are determined at the same time, more efficient parallel processing is possible as compared with the conventional MLP method.

【0058】さらに、本発明のノードを用いたNNは、
高い耐雑音性も有する。図10のa)は従来の単純なM
LP法におけるノードの入力と出力の対応を示すもので
ある。図より明らかなように、方形波的な入力にスパイ
ク的なノイズが重畳した信号が入力として与えられる
と、ほぼそのままの波形が出力に現れるのが判る。この
ようにMLP法のノードは、その入力を単純に出力に反
映するためノイズの影響をそのまま受けてしまう。
Further, the NN using the node of the present invention is
It also has high noise resistance. FIG. 10 a) shows a conventional simple M
It shows the correspondence between the input and the output of the node in the LP method. As is apparent from the figure, when a signal in which spike-like noise is superimposed on a square wave input is given as an input, almost the same waveform appears at the output. In this way, the node of the MLP method simply reflects its input on the output and is therefore directly affected by noise.

【0059】しかし、本発明のノードは内部状態値とし
て時間的な履歴を記憶しており、その内部状態値と入力
との関数として次の内部状態値、そして出力値が決ま
る。従ってa)と同様のスパイク的なノイズが入力に重
畳しても、図10b)に示すようにスパイク的な波形は
なまらされてその影響は小さくなり、良好な耐ノイズ性
が得ることができる。
However, the node of the present invention stores the time history as the internal state value, and the next internal state value and the output value are determined as a function of the internal state value and the input. Therefore, even if spike-like noise similar to that in a) is superimposed on the input, the spike-like waveform is blunted as shown in FIG. 10B and its influence is reduced, and good noise resistance can be obtained.

【0060】このような耐雑音性はコンテキスト層を持
つ従来技術においても多少は得る事ができるが、NNを
構成するノードの一部について、その履歴情報を特別な
構成を持った外部ノードへ保存しなければならず、全て
のノードが自分自身の履歴情報を内部状態値として保持
する本発明におけるノードを用いた場合と比較してその
耐ノイズ性は劣る。
Although such noise resistance can be obtained to some extent even in the conventional technique having the context layer, the history information of a part of the nodes forming the NN is stored in an external node having a special structure. The noise resistance is inferior to that in the case of using the node in the present invention in which all the nodes retain their own history information as internal state values.

【0061】次の例は、図5のNNの構成をより多層に
して、砂時計形ネットワークを構成した例で、図6に示
す。図中601は特徴抽出(又は情報圧縮)ネットワー
クを、602は伝達ネットワークを、603は認識(又
は情報伸長)ネットワークを示す。図6のNNの構成
も、一見従来のMLP法と同様である。しかし、その動
作は前述した通り全く異なる。このような構成をとるこ
とにより、本発明の効果を損なわずに時系列的な効果を
取り込んだ特徴抽出(又は情報圧縮)NN、及び時系列
的な効果を取り込んだ認識ネットワーク(又は情報伸
長)ネットワーク等の機能をモジュール化した音声認識
方法の構成も可能である。
The next example is an example in which the hourglass network is configured by making the configuration of the NN of FIG. 5 more multilayered, and is shown in FIG. In the figure, 601 is a feature extraction (or information compression) network, 602 is a transmission network, and 603 is a recognition (or information decompression) network. The configuration of the NN shown in FIG. 6 is seemingly similar to the conventional MLP method. However, the operation is completely different as described above. By adopting such a configuration, feature extraction (or information compression) NN incorporating a time series effect without impairing the effects of the present invention, and a recognition network (or information decompression) incorporating a time series effect. It is also possible to configure a voice recognition method in which functions such as a network are modularized.

【0062】その次は、図6の伝達ネットワーク602
を、図7に示す情報送信機能702と情報受信機能70
3に分割した例である。702と703の間の波線は、
これらが空間的・時間的に離れていても良い事を示す。
この波線が伝送線などの空間的な距離を示すとすると、
図7は音声圧縮伝送装置を示し、この波線が時間的な距
離を示すとすると、図7は例えば音声圧縮記録装置を示
す。もちろんここで圧縮される対象は音声に限られるも
のではなく、より一般的な情報であっても構わない。ま
た認識処理は広い意味での情報圧縮処理である事は言う
までもない。
Next, the transmission network 602 shown in FIG.
The information transmission function 702 and the information reception function 70 shown in FIG.
This is an example divided into three. The wavy line between 702 and 703 is
It shows that these may be separated spatially and temporally.
If this wavy line indicates a spatial distance such as a transmission line,
FIG. 7 shows an audio compression transmission device, and if this wavy line indicates a temporal distance, FIG. 7 shows an audio compression recording device, for example. Of course, the object to be compressed here is not limited to voice, and more general information may be used. It goes without saying that the recognition processing is information compression processing in a broad sense.

【0063】図7においても今まで述べてきた本発明の
効果は損なわれる事はない。例えば図10で説明した耐
ノイズ性により、伝送線上での伝送誤りや雑音の混入、
あるいは記録媒体の欠陥や劣化等に対しても良好な体勢
を示すものである。
Also in FIG. 7, the effects of the present invention described so far are not impaired. For example, due to the noise resistance described with reference to FIG. 10, the transmission error and noise are mixed in on the transmission line,
Alternatively, it shows a good posture against defects and deterioration of the recording medium.

【0064】次は、図4の構成を簡単にしたものであ
る。図8のNNは、自己回帰ループを持つことにより、
より広い時間的変動範囲の現象を取り扱うことができ
る。つまり、入力値Zのなかの自己回帰ループの部分の
結合の強さをWとすると、この自己回帰ループを考える
ことは近似的に系の時定数τを以下の式に置き換えたこ
とに相当する。 τ÷(1−W) (6) このWは以降に述べる学習により修正される値であるの
で、学習データに合わせて系の応答の時間スケールを最
適化することができる。従来のコンテキスト層を用いた
方法ではこのようなことを学習により自己組織的に行う
事はできず、人間が時間スケールに合わせたネットワー
クの設定を行う事が必要となる。
Next, the configuration of FIG. 4 is simplified. The NN in FIG. 8 has an autoregressive loop,
It is possible to handle a phenomenon with a wider time variation range. That is, assuming that the coupling strength of the portion of the autoregressive loop in the input value Z is W, considering this autoregressive loop is equivalent to replacing the time constant τ of the system with the following equation. . τ / (1−W) (6) Since this W is a value corrected by the learning described below, the time scale of the system response can be optimized according to the learning data. In the conventional method using the context layer, such a thing cannot be self-organized by learning, and it is necessary for a human to set a network according to a time scale.

【0065】図11はこの効果を概念的に示した図であ
る。いま図の11a)に示したような方形波の連続入力
があったとすると、この方形波の周期よりも系の応答時
定数が大きいと系の応答はa)の出力のように前の出力
に次の出力が加算されていき、正しい認識結果を得る事
はできない。
FIG. 11 is a diagram conceptually showing this effect. If there is a continuous input of square wave as shown in 11a) of the figure, if the response time constant of the system is larger than the period of this square wave, the response of the system becomes the previous output like the output of a). The next output is added, and the correct recognition result cannot be obtained.

【0066】一方図8のように自己回帰ループのある系
では、系の時定数は学習により最適化されるので、その
応答は例えば図11のb)のように修正される事が可能
であり、良い認識率を得る事ができる。
On the other hand, in a system having an autoregressive loop as shown in FIG. 8, the time constant of the system is optimized by learning, so that its response can be modified as shown in b) of FIG. 11, for example. , You can get a good recognition rate.

【0067】このような系の時定数の学習機能と適当な
学習方法を組み合わせる事により、図6、図7のシステ
ムの耐雑音性等をさらに高める事ができる。
By combining the time constant learning function of such a system with an appropriate learning method, the noise resistance and the like of the system of FIGS. 6 and 7 can be further improved.

【0068】そして最後のNNの構成例として、図8の
NNをランダム結合NNとした例を図9に示す。ランダ
ム結合NN902は、入力ネットワーク904と出力ネ
ットワーク905の2つのサブネットワークからなる。
本例では、入力ネットワークを全結合型のサブネットワ
ークとし、出力ネットワークをランダム結合型のサブネ
ットワークとして、2つのサブネットワークを1方向的
に接続する構成とした。
As a final configuration example of the NN, an example in which the NN of FIG. 8 is a random connection NN is shown in FIG. The random connection NN 902 is composed of two sub-networks, an input network 904 and an output network 905.
In this example, the input network is a fully-coupled subnetwork, the output network is a randomly-coupled subnetwork, and two subnetworks are unidirectionally connected.

【0069】このような構成により、先に述べてきたよ
うな効果に加えて、全結合型NNによる連想能力を用い
て入力の欠陥を補う、あるいは対雑音性をあげる等の機
能、さらに一方向の結合を用いて情報の流れをヒューリ
スティックに処理し、情報の圧縮、伸長等を行う等機能
を、全体の構成の設計として最適に行う事ができる等の
効果が得られる。
With such a configuration, in addition to the effects described above, a function of compensating for input defects by using the associative ability of the fully-coupled NN, or improving noise resistance, and one direction It is possible to obtain the effect that functions such as heuristically processing the flow of information by using the combination of (3) and compressing and decompressing information can be optimally performed as a design of the overall configuration.

【0070】以上が、図4に示したNNの別の構成例で
あるが、次に音声認識装置そのものの他の構成例を見て
いく。
The above is another example of the configuration of the NN shown in FIG. 4. Next, another example of the configuration of the speech recognition apparatus itself will be examined.

【0071】図12は、図4の音声認識装置に内部状態
初期値設定手段1204を追加したもので他は図4と同
一である。式(2)で示したように、本発明のNNの動
作は1階の微分方程式で記述される。従って、その動作
を決定するにあたっては、初期値が必要となる。内部状
態初期値設定手段は、NNが動作をするために、予め決
められた初期値を全てのノードに与えるものである。図
13に基づいて、本音声認識装置の動作手順を説明する
と、 1.内部状態初期値設定手段により、全てのノードに適
当に選択された初期内部状態値Xをセットし、それに対
応する出力Yをセットする。 2.処理が終了であれば終わる。 3.全てのノード各々において入力値Zの和を求める。
入力値Zは前に説明した通りであり、音声特徴抽出手段
によって抽出された音声特徴量は、外部入力値としてこ
のZの一部として計算される。 4.全てのノードそれぞれについて、3で求めたZの和
と内部状態値Xそのものの値によりXの値が更新され
る。 5.更新されたXの値により出力値Yが計算される。 6.処理2へ戻る。 という手順になる。認識結果は出力に割り当てられたノ
ードの出力として認識結果出力手段に与えられる。
FIG. 12 is the same as FIG. 4 except that internal state initial value setting means 1204 is added to the voice recognition apparatus of FIG. As shown in the equation (2), the operation of the NN of the present invention is described by the first-order differential equation. Therefore, an initial value is required to determine the operation. The internal state initial value setting means gives a predetermined initial value to all nodes in order for the NN to operate. The operation procedure of the speech recognition apparatus will be described with reference to FIG. The internal state initial value setting means sets an appropriately selected initial internal state value X to all nodes and sets an output Y corresponding thereto. 2. If the processing is completed, it ends. 3. The sum of the input values Z is calculated at all nodes.
The input value Z is as described above, and the voice feature amount extracted by the voice feature extraction means is calculated as a part of this Z as an external input value. 4. For each node, the value of X is updated by the sum of Z obtained in 3 and the value of the internal state value X itself. 5. The output value Y is calculated from the updated value of X. 6. Return to processing 2. It becomes the procedure. The recognition result is given to the recognition result output means as an output of the node assigned to the output.

【0072】以上が、本発明のノードを使用したNNに
よる音声認識装置の基本的な動作原理およびその構成で
あるが、この様なNNに所望の処理をさせるにはNNを
学習させることが必要となる。そこで、次にNNの学習
方法について説明する。
The above is the basic operating principle of the speech recognition apparatus by the NN using the node of the present invention and its configuration. It is necessary to learn the NN in order to allow such an NN to perform desired processing. Becomes Therefore, a learning method of NN will be described next.

【0073】図14が、本発明の音声認識装置の学習方
法を示す構成図である。図中1410は、NN1402
を学習させるための学習部を示す。1411は所定の学
習用入力データが記憶された入力データ記憶手段、14
13は各学習用入力データに対応する模範となる出力デ
ータが記憶された出力データ記憶手段、1412は入力
データ記憶手段から学習させたい入力データを選択する
入力データ選択手段、同様に1414は出力データを選
択する出力データ選択手段、そして、1415はNNの
学習を制御する学習制御手段を示す。
FIG. 14 is a block diagram showing the learning method of the speech recognition apparatus of the present invention. In the figure, 1410 is the NN1402
The learning part for learning is shown. Reference numeral 1411 denotes an input data storage means in which predetermined learning input data is stored, 14
Reference numeral 13 is an output data storage means in which model output data corresponding to each learning input data is stored, 1412 is input data selection means for selecting input data to be learned from the input data storage means, and similarly 1414 is output data. Is an output data selecting means, and 1415 is a learning control means for controlling the learning of the NN.

【0074】次に、この学習部による音声認識装置の学
習方法について図13、図14を参照しながら説明す
る。まず、全てのノードに予め設定された初期状態値X
をセットする。次に、学習させたい学習用入力データが
入力データ選択手段により選択される。選択された入力
データは学習制御手段に送られる。この時、選択した学
習用入力データに対応する学習用出力データが出力デー
タ選択手段により選択される。選択された出力データも
同様に学習用制御手段に送られる。選択された学習用入
力データは音声特徴抽出手段1401に入力され、ここ
で特徴抽出された特徴ベクトルがNNへ外部入力として
入力される。全てのノードについてそれぞれ入力Zの和
を求め、式(2)に従って内部状態値Xを更新する。そ
して、更新されたXにより出力Yを求める。
Next, the learning method of the speech recognition apparatus by this learning unit will be described with reference to FIGS. 13 and 14. First, the initial state value X preset in all nodes
Set. Next, the input data for learning to be learned is selected by the input data selection means. The selected input data is sent to the learning control means. At this time, the output data for learning corresponding to the selected input data for learning is selected by the output data selecting means. The selected output data is also sent to the learning control means. The selected learning input data is input to the voice feature extraction means 1401, and the feature vector feature extracted here is input to the NN as an external input. The sum of the inputs Z is calculated for all the nodes, and the internal state value X is updated according to the equation (2). Then, the output Y is obtained from the updated X.

【0075】初期段階では、NNの各ユニット間の結合
強度にはランダムな値が与えられている。したがって、
NNから出力される出力値Yはでたらめな値である。
At the initial stage, a random value is given to the bond strength between the NN units. Therefore,
The output value Y output from the NN is a random value.

【0076】以上の内容を、入力データ時系列の終わり
まで繰り返す。このようにして得られた、出力Yの時系
列に対して、次の式(7)で示される式により学習評価
値Cを求める。
The above contents are repeated until the end of the input data time series. With respect to the time series of the output Y thus obtained, the learning evaluation value C is obtained by the equation shown in the following equation (7).

【0077】[0077]

【数6】 [Equation 6]

【0078】ここで、Cはある学習評価値であり、Eは
ある誤差評価値である。式(7)に従い、Cの時系列は
図15に示すような処理により計算される。
Here, C is a certain learning evaluation value, and E is a certain error evaluation value. According to the equation (7), the time series of C is calculated by the processing as shown in FIG.

【0079】この処理の具体的な例として、選択した学
習用入力データに対応する学習用出力データをTとし、
学習用入力データに対応する出力値をYとして、例えば
誤差評価関数として、次の式(8)で示されるkullback
-leibler距離を用いるとEは、
As a concrete example of this processing, let T be the learning output data corresponding to the selected learning input data,
If the output value corresponding to the learning input data is Y, for example, as an error evaluation function, kullback expressed by the following equation (8) is used.
Using the -leibler distance, E is

【0080】[0080]

【数7】 [Equation 7]

【0081】と書ける。kullback-leibler距離を用いる
と、種々の要因により学習が高速になるという利点があ
る。
Can be written as The use of the kullback-leibler distance has the advantage of speeding up learning due to various factors.

【0082】また、式(8)と実質的に同一であるが、
出力値生成手段によって生成される出力値が対称出力で
ある場合は、式(8)は次の式(9)のように表され
る。
Further, although substantially the same as the equation (8),
When the output value generated by the output value generating means is a symmetrical output, the equation (8) is expressed by the following equation (9).

【0083】[0083]

【数8】 [Equation 8]

【0084】そうして、これらを用いる事により、式
(7)のより具体的な例として次の式(10)が得られ
る。
By using these, the following equation (10) is obtained as a more specific example of the equation (7).

【0085】[0085]

【数9】 [Equation 9]

【0086】以上を与える事により、結合強度Wの修正
則は、次の式(11)で与えられる。
By giving the above, the correction rule of the coupling strength W is given by the following equation (11).

【0087】[0087]

【数10】 [Equation 10]

【0088】ここで、αは小さな正の定数である。これ
に従い、出力が目的とする値になるように各ユニット間
の結合の強さを変更する。認識させたい音声データを繰
り返し入力し、少しずつ各ユニット間の結合の強さを変
更することにより、ネットワークから正しい値が出力さ
れるようになる。出力が収束するまでの繰り返し回数
は、数千回程度である。
Here, α is a small positive constant. Accordingly, the strength of the coupling between the units is changed so that the output has the target value. By repeatedly inputting the voice data to be recognized and gradually changing the coupling strength between the units, the correct value can be output from the network. The number of repetitions until the output converges is about several thousand.

【0089】この学習則は、例示した全結合型のニュー
ラルネットワークのみではなく、層状結合等を特殊例と
して含む、より一般的なランダム結合ニューラルネット
ワークにも適用可能であるのは明らかである。
It is obvious that this learning rule can be applied not only to the fully connected neural network illustrated, but also to a more general random connected neural network including layered connections as a special example.

【0090】次に、2つの学習用入力データを続けて入
力し、学習させる方法について、NNが肯定出力と否定
出力の2つの出力を有する場合を例にして説明する。
Next, a method for successively inputting and learning two pieces of learning input data will be described by taking the case where the NN has two outputs, a positive output and a negative output, as an example.

【0091】入力データを1つずつ用いた学習では、一
度ハイレベルになった肯定出力はローレベルに下げるこ
とができない。逆に、一度ローレベルになった否定出力
はハイレベルにあげることができない。つまり、入力デ
ータを1つずつ用いた学習では、図16(a)に示すよ
うな、認識させたい入力データ(以下、「肯定データ」
という)を与えて肯定出力をハイレベルに上昇させる学
習(否定出力はローレベルのまま)、または図16
(b)に示すような、認識させたくないデータ(以下、
「否定データ」という)を与えて否定出力をハイレベル
に上昇させる学習(肯定出力はローレベルのまま)が行
われる。しかしながら、この学習では、肯定出力、否定
出力ともに一度ハイレベルに上昇した出力値が下降する
ことがない。
In the learning using the input data one by one, the positive output which once becomes high level cannot be lowered to low level. On the contrary, the negative output that has once become low level cannot be raised to high level. That is, in the learning using the input data one by one, the input data to be recognized as shown in FIG.
16) to increase the positive output to the high level (the negative output remains at the low level), or FIG.
The data that is not desired to be recognized, as shown in (b) (hereinafter,
Learning to give the negative output to the high level by giving "negative data" (the positive output remains at the low level) is performed. However, in this learning, both the positive output and the negative output do not decrease the output value that once rises to the high level.

【0092】したがって、肯定データと否定データが混
在した複数の音声データが連続して与えられた場合、肯
定データの出力で一度ハイレベルに上がった肯定出力
は、その後に否定データの入力があってもローレベルに
下がることはない。これは否定出力についても同様であ
る。
Therefore, when a plurality of voice data in which positive data and negative data are mixed are continuously given, the positive output that has once been raised to a high level by the output of the positive data is followed by the input of the negative data. Does not go down to low level. This also applies to the negative output.

【0093】そこで、本実施例では、図17(a)〜
(d)に示すような、2つの音声データを連続して与え
て、出力の上昇と下降の両方の学習する方法を用いた。
図17(a)では否定データと肯定データを連続して入
力し、肯定出力の上昇、否定出力の上昇と下降を学ばせ
る。図17(b)では、肯定データと否定データを連続
して入力し、肯定出力の上昇と下降、否定出力の上昇を
学ばせる。図17(c)では、否定データを2つ連続し
て入力し、図17(a)の学習で否定データの次は肯定
データであるといった誤った認識をNNに持たせないよ
うにする。同様に、図17(d)では、肯定データを2
つ連続して入力し、図17(b)の学習で、肯定データ
の次は否定データであるといった誤った認識をNNに持
たせないようにする。
Therefore, in the present embodiment, FIG.
As shown in (d), two voice data are continuously given, and a method of learning both rising and falling of the output is used.
In FIG. 17A, the negative data and the positive data are continuously input, and the rise of the positive output and the rise and fall of the negative output are learned. In FIG. 17 (b), positive data and negative data are continuously input to let the positive output rise and fall and the negative output rise. In FIG. 17C, two negative data are continuously input so that the NN does not have an erroneous recognition that the positive data follows the negative data in the learning of FIG. 17A. Similarly, in FIG. 17D, the positive data is 2
In this case, the NN is prevented from erroneously recognizing that the positive data is followed by the negative data in the learning of FIG. 17B.

【0094】換言すればこのことは、NNの動作の初期
値依存性の問題である。つまり、入力データを一つのみ
用いた学習ではその学習が特定の初期値のみから開始さ
れるため、その初期値においてのみ期待される能力を示
すような学習結果しか得られない。これをより一般的な
場合に適応できるようにするためには、様々な初期値に
対しても正確な反応が起こるように学習させなくてはな
らない。しかし、このような様々な初期値としては全て
の例を与える必要はない。実際の認識時においては、そ
の認識対象についての種々の制約により可能な初期値の
組み合わせは限られたものとなる。学習に2個以上のデ
ータの連鎖を用いることは、このような可能な初期値の
組み合わせを近似的に与えるものであり、この目的のた
めには2個のデータの連続のみにおいても十分によい結
果が得られる。もちろん3個以上の連続データを用いて
もよい。
In other words, this is a problem of the initial value dependence of the operation of the NN. That is, in learning using only one input data, the learning is started from only a specific initial value, and therefore only a learning result showing the expected ability is obtained only in the initial value. In order to be able to adapt this to the more general case, it has to be trained so that an exact reaction also occurs with different initial values. However, it is not necessary to give all examples as such various initial values. At the time of actual recognition, possible combinations of initial values are limited due to various restrictions on the recognition target. The use of a chain of two or more data for learning approximately gives such a possible combination of initial values, and for this purpose even a series of two data is good enough. The result is obtained. Of course, three or more continuous data may be used.

【0095】図18は、この2つの連続入力をNNへ学
習させるための音声認識装置の構成図である。ここで
は、図14で説明した入力データ記憶手段が、肯定デー
タ、否定データという2つの範疇から構成されている。
図中1801は様々な条件で収集された認識すべき単語
のデータ群である肯定データ記憶手段を、1802はも
う一つの範疇である認識すべき単語以外の例としての否
定データ記憶手段を、1803、1804はそれぞれの
範疇についての学習用出力データを記憶する出力データ
記憶手段である。ここでは、各範疇に3個のデータがあ
るとする。1805は入力データ選択手段を、1806
は出力データ選択手段を、1807は入力データ連結手
段を、1808は出力データ連結手段を、1809は学
習制御手段を、1810はNNをそれぞれ示す。
FIG. 18 is a block diagram of a voice recognition device for making the NN learn these two continuous inputs. Here, the input data storage means described in FIG. 14 is composed of two categories of positive data and negative data.
In the figure, 1801 is an affirmative data storage unit that is a data group of words to be recognized collected under various conditions, and 1802 is a negative data storage unit that is another category other than the words to be recognized, 1803. , 1804 are output data storage means for storing the learning output data for each category. Here, it is assumed that there are three data in each category. Reference numeral 1805 denotes input data selection means, 1806
Indicates output data selecting means, 1807 indicates input data connecting means, 1808 indicates output data connecting means, 1809 indicates learning control means, and 1810 indicates NN.

【0096】入力データ選択手段により、肯定データ記
憶手段、否定データ記憶手段から学習用の入力データが
2つ選択される。その組み合わせについては、図17で
説明した通りである。選択された2つの入力データは入
力データ連結手段で1つの連続データとなる。そして、
この連続データは音声特徴抽出手段で特徴抽出されNN
へ入力される。NN内では、図13の処理に従い出力値
が時系列的に計算される。NNの出力は学習制御手段に
送られ、予め選択されている学習用出力データとの誤差
が計算され、各ノードの結合の重みが修正されることに
より、NNが学習を重ねる。図18では、NNの出力を
肯定出力ノードと否定出力ノードの2個とし、180
3、1804中の実線が肯定データに対応する肯定出力
ノードの学習用出力、破線が否定データに対応する否定
出力ノードの学習用出力とした。
The input data selection means selects two input data for learning from the positive data storage means and the negative data storage means. The combination is as described in FIG. The selected two pieces of input data become one continuous data by the input data connecting means. And
This continuous data is feature-extracted by the voice feature extraction means NN
Is input to. In the NN, the output values are calculated in time series according to the processing of FIG. The output of the NN is sent to the learning control means, the error with respect to the preselected learning output data is calculated, and the weight of the connection of each node is corrected, so that the NN repeats the learning. In FIG. 18, the output of the NN is two, that is, a positive output node and a negative output node, and
The solid line in 3 and 1804 is the learning output of the positive output node corresponding to the positive data, and the broken line is the learning output of the negative output node corresponding to the negative data.

【0097】そこで、この様な特徴を有するノードによ
り構成されたNNからなる音声認識装置の認識結果を、
図18で説明した学習方法により学習させた場合を例に
次に示す。実際には、音声特徴抽出手段の出力として2
0次のLPCケプストラムを仮定し、入力を20、出力
を2、その他を10として合計32個のノードによりN
Nを構成した。
Therefore, the recognition result of the speech recognition apparatus composed of the NN constituted by the nodes having such characteristics is
The case where learning is performed by the learning method described with reference to FIG. 18 is shown below as an example. Actually, as the output of the voice feature extraction means, 2
Assuming a 0th-order LPC cepstrum, the number of inputs is 20, the number of outputs is 2, and the others are 10, and a total of 32 nodes make N
Configured N.

【0098】まず学習であるが、認識させたい単語(肯
定データ)としては「とりあえず」を、それ以外の参照
用単語(否定データ)としては、「終点」、「腕前」、
「拒絶」、「超越」、「分類」、「ロッカー」、「山
脈」、「隠れピューリタン」の8単語を与えた。NNの
出力としては、上の肯定データに対応する肯定出力と、
否定データに対応する否定出力の2つを考えた。学習用
出力としては、図17で説明した4つの場合を想定し
た。この学習用出力の曲線部分は、そのデータの時間的
な中点に原点を持ち、かつそのデータの始端を−10、
終端を10に対応させた式(5)のシグモイド関数を0
〜0.9の範囲に変形したもの、あるいはそれを反転し
たものを用いた。また、学習用の話者は(株)ATR自
動翻訳電話研究所の研究用日本語音声データベースの中
のMAUとFSUで行った。
First, in learning, "temporary" is used as a word to be recognized (affirmative data), and "end point", "skill" is used as other reference words (negative data).
The eight words "rejection", "transcendence", "classification", "rocker", "mountain range", and "hidden Puritan" were given. As the output of NN, an affirmative output corresponding to the above affirmative data,
We considered two types of negative output corresponding to negative data. As the learning output, the four cases described in FIG. 17 are assumed. The curve portion of this learning output has an origin at the midpoint in time of the data, and the starting end of the data is -10,
Set the sigmoid function of equation (5) with the terminal end to 10 to 0.
What was deformed in the range of up to 0.9, or what was inverted to that was used. The speakers for learning were MAU and FSU in the Japanese speech database for research of ATR Automatic Translation Telephone Research Institute.

【0099】入力と出力の対応については、1フレーム
分の入力(この場合は20次LPCケプトラム)を入力
し、一組の肯定出力、否定出力を得るものとした。従っ
て、従来のように複数フレームのデータを入力するよう
な必要はない。
Regarding the correspondence between the input and the output, the input for one frame (in this case, the 20th order LPC spectrum) is input and a set of positive output and negative output is obtained. Therefore, it is not necessary to input a plurality of frames of data as in the conventional case.

【0100】また、従来例のMLP法の変形である「フ
ィードバック結合を持つBPモデル」型NNでは、学習
を収束させるのが困難であり、その学習用出力を試行錯
誤的に作成しなければならないという問題点があった
が、本発明の音声認識方法のNNは、以上の方法で学習
させることにより、数100〜数1000回の学習で所
望の出力を生成するようになった。また、学習用出力も
試行錯誤的な部分は全く無く一義的に決めることができ
る。
In the "BP model with feedback coupling" type NN, which is a modification of the MLP method of the conventional example, it is difficult to converge learning, and the learning output must be created by trial and error. However, the NN of the speech recognition method of the present invention is designed to generate a desired output by learning several hundred to several thousand times by learning by the above method. Further, the learning output can be uniquely determined without any trial-and-error part.

【0101】図25は、このような学習をさせたNN
に、学習に用いなかった未知の単語を含むデータを与
え、その能力を検証した結果である。単語の種類の合計
は216単語であり、そのうちの9単語は学習に用いた
ものである。これらの216単語から様々な組み合わせ
の2単語連鎖のデータを作成し、検証に用いた。検証の
際の単語の出現総数は話者あたり1290単語である。
認識結果の判定は、肯定出力と否定出力の組み合わせに
よる判定とし、肯定出力が0.75以上かつ否定出力が
0.25以下であれば検出、肯定出力が0.25以下か
つ否定出力が0.75以上であれば非検出、それ以外は
困惑状態であるとした。この判定条件において、検出す
べき単語が無い位置で検出出力が得られた場合を挿入誤
り、検出すべき単語が有る位置において非検出出力が得
られた場合を欠落誤りとした。
FIG. 25 shows the NN which has been subjected to such learning.
This is the result of verifying the ability by giving data including unknown words that were not used for learning. The total number of word types is 216 words, 9 of which are used for learning. Data of various combinations of two-word chains were created from these 216 words and used for verification. The total number of words that appear during verification is 1290 words per speaker.
The recognition result is determined by a combination of positive output and negative output. If the positive output is 0.75 or more and the negative output is 0.25 or less, it is detected, and the positive output is 0.25 or less and the negative output is 0. If it is 75 or more, it is not detected. Under this judgment condition, the insertion error is a case where a detection output is obtained at a position where there is no word to be detected, and the missing error is a case where a non-detection output is obtained at a position where a word to be detected is present.

【0102】また、下の図26は図25と同じ実験を学
習に用いた話者以外の未知話者九人に対して行ったもの
である。
Further, FIG. 26 below shows the same experiment as that of FIG. 25 performed for nine unknown speakers other than the speaker used for learning.

【0103】図25、図26より明らかであるように、
本発明の音声認識方法によれば、僅かなデータを学習さ
せるだけで非常によい認識率を得ることができる。
As is clear from FIGS. 25 and 26,
According to the voice recognition method of the present invention, a very good recognition rate can be obtained by learning a small amount of data.

【0104】図19は、連続した3個以上の単語の中か
ら認識対象とする単語を検出した例である。図中実線は
肯定出力を、破線は否定出力を示す。図より明らかなよ
うに、従来例のように、始端、終端を与えることなく単
語「とりあえず」を認識していることが判る。
FIG. 19 shows an example in which a word to be recognized is detected from three or more consecutive words. In the figure, the solid line shows the positive output, and the broken line shows the negative output. As is clear from the figure, it is understood that the word "temporarily" is recognized without giving a start end and an end like the conventional example.

【0105】さらに、図20は、未知単語中から認識対
象単語「とりあえず」を認識した例である。図19と同
様に、実線は肯定出力を、破線は否定出力を示してい
る。このように、本発明の認識方法は、充分な汎化能力
を持っていることが分かる。
Further, FIG. 20 shows an example in which the recognition target word "for the time being" is recognized from the unknown words. Similar to FIG. 19, the solid line shows the positive output and the broken line shows the negative output. Thus, it can be seen that the recognition method of the present invention has sufficient generalization ability.

【0106】これらを従来例と比較すると、図19で与
えたデータの長さは合計1049個であるので、従来的
な始端、終端を与えて認識させる場合は単純に言って1
049の自剰個のオーダーの組み合わせを調べる必要が
ある。しかし、本発明は1049個のデータをそれぞれ
1回ずつ入力として与えるのみで良いので、従来の処理
方法と比較して、数百分の1の時間で処理できる。ま
た、データをそれぞれ1回だけ入力すればよいため、従
来のように始端、終端となり得る範囲のデータを記憶し
ておく必要がなく、データメモリーも少量しか必要な
く、その計算量も少なくなる。
Comparing these with the conventional example, the total length of the data given in FIG. 19 is 1049, so in the case where the conventional start and end are given and recognized, it is simply 1
It is necessary to examine the combination of 049 surplus pieces of order. However, according to the present invention, since it is only necessary to give 1049 pieces of data as input once, it is possible to process the data in several hundredth of the time compared with the conventional processing method. Further, since it is only necessary to input the data only once, it is not necessary to store the data in the range that can be the start end and the end as in the conventional case, a small amount of data memory is required, and the amount of calculation is reduced.

【0107】また、出力は従来例のDP法、HMM法の
ように単調増加、あるいは単調減少するのではなく、必
要な所でピーク値を持つため、出力値を入力データの長
さに対して正規化する必要もない。つまり、出力は常に
ある範囲(この例の場合は−1から1の間)にあり、か
つその値の持つ重みは認識区間のどこでも同じである。
この事は処理すべき値のダイナミックレンジが狭い事を
意味し、処理時に浮動小数点データや対数データを用い
なくとも、整数型のデータで充分な性能を出せることを
意味している。
Further, the output does not monotonically increase or monotonically decrease as in the conventional DP method and HMM method, but has a peak value at a necessary position. Therefore, the output value is set to the length of the input data. No need to normalize. That is, the output is always in a certain range (between -1 and 1 in this example), and the weight of the value is the same everywhere in the recognition section.
This means that the dynamic range of the value to be processed is narrow, and it means that integer type data can provide sufficient performance without using floating point data or logarithmic data during processing.

【0108】それから、肯定出力と否定出力の2つの出
力の総合的な判断により認識をしているため、例えば、
図20の「購入」のところで肯定出力が立ち上がりかけ
ても、否定出力が下がらないために誤認識をするような
こともなく、音声認識処理の精度を向上させることがで
きる。もちろん、出力数は2に限るものではなく、必要
に応じて幾つ設けてもよい。例えば、現在入力されてい
るデータが学習に用いられたデータとどの程度類似して
いるかというような出力を加えることにより、更に認識
結果の精度を高める事ができる。さらに、それらを複数
個用いることにより、最適な結果を与えるNNを選択す
る事ができる。
Since the recognition is made by the comprehensive judgment of the two outputs of the positive output and the negative output, for example,
Even if an affirmative output starts rising at "Purchase" in FIG. 20, the negative output does not decrease, so that there is no erroneous recognition, and the accuracy of the voice recognition processing can be improved. Of course, the number of outputs is not limited to two, and any number may be provided as needed. For example, the accuracy of the recognition result can be further improved by adding an output indicating how similar the currently input data is to the data used for learning. Furthermore, by using a plurality of them, it is possible to select the NN that gives the optimum result.

【0109】また、認識対象の単位も例示したような単
語のみではなく音節あるいは音素とすることもできる。
この場合には、比較的少数のNNによりその言語音声の
全体を認識することが可能となる。それにより、例えば
ディクテーションシステムが可能となる。さらに、認識
単位としては、上のような言語との対応を考えない抽象
的なものであってもよい。この様な認識単位を用いるこ
とは特に認識装置を情報圧縮に用いる場合に有効であ
る。
The unit to be recognized may be not only a word as illustrated but also a syllable or a phoneme.
In this case, a relatively small number of NNs makes it possible to recognize the entire language speech. This allows, for example, a dictation system. Further, the recognition unit may be an abstract unit that does not consider the correspondence with the above language. The use of such a recognition unit is particularly effective when the recognition device is used for information compression.

【0110】図21は、の実施例を示すもので、図1
2に示した音声認識装置に対して、背景雑音入力手段2
105および平衡状態検出手段2106が付加されたも
のである。他は、図12と同様である。
FIG. 21 shows another embodiment.
For the voice recognition device shown in FIG.
105 and the equilibrium state detection means 2106 are added. Others are the same as that of FIG.

【0111】図21の構成において、どのように内部状
態初期値を決定するかの処理の流れを図22に示す。図
中の背景雑音データの作成に関わる部分は、適当な初期
値設定手段、適当な定常入力作成手段、あるいは無入力
に対応するものとして無くてもよい。図27は、この装
置を図18に示した学習方法で学習させて認識した結果
を表したもので、実施例1の表1と表2に対応する結果
をまとめたものである。これは、約3秒の背景雑音入力
により平衡状態になったNNの内部状態値を初期値とし
て保存し、認識処理の際にはその値を式(2)の微分方
程式の初期値として用いたものである。
FIG. 22 shows a processing flow of how to determine the internal state initial value in the configuration of FIG. The portion related to the background noise data creation in the figure may not be provided as an appropriate initial value setting means, an appropriate steady input creating means, or a unit corresponding to no input. FIG. 27 shows the results obtained by learning this apparatus by the learning method shown in FIG. 18 and recognizing it, and summarizes the results corresponding to Table 1 and Table 2 of the first embodiment. This is to store the internal state value of the NN in the equilibrium state due to the background noise input for about 3 seconds as the initial value, and use that value as the initial value of the differential equation of equation (2) during the recognition process. It is a thing.

【0112】図27から明らかなように、本実施例の多
くの場合で単語の欠落誤りが実施例1の結果に比較して
改善されている。
As is apparent from FIG. 27, in many cases of this embodiment, the word missing error is improved as compared with the result of the first embodiment.

【0113】実際のより高機能な音声認識装置において
は、単純な音声認識機能に加えて、言語的な処理を用い
る事が多い。この際、挿入的な誤りはそのような言語的
な制約により訂正削除する事が比較的容易に可能である
が、欠落的な誤りをそのような言語的な制約で推論追加
する事は困難である。従って、本実施例に示したような
欠落誤り率の改善は、より高性能な音声認識装置を実現
するために重要な事柄である。
In actual higher-performance voice recognition devices, linguistic processing is often used in addition to the simple voice recognition function. At this time, it is relatively easy to correct and delete an insertion error by such a linguistic constraint, but it is difficult to infer and add a missing error by such a linguistic constraint. is there. Therefore, the improvement of the loss error rate as shown in this embodiment is an important matter for realizing a higher performance speech recognition apparatus.

【0114】図23は、図14の学習部に雑音データ記
憶手段と雑音データ重畳手段が付加された例である。基
本的な学習方法については、図14に説明した通りであ
る。本実施例の特徴は、予め雑音成分を重畳したデータ
を学習用データとして用いる点にある。学習用データの
認識処理は、学習用データに含まれている雑音成分を除
去したデータについて認識が行われるように、NNの各
ユニット間の重みが学習用制御手段によって調整され
る。つまり、NNは学習用データに含まれる雑音成分を
明確に識別できるように学習させられる。
FIG. 23 shows an example in which noise data storage means and noise data superposition means are added to the learning section of FIG. The basic learning method is as described in FIG. The feature of this embodiment is that the data on which the noise component is superimposed in advance is used as the learning data. In the recognition processing of the learning data, the weight between the units of the NN is adjusted by the learning control unit so that the data in which the noise component included in the learning data is removed is recognized. That is, the NN is trained so that the noise component included in the learning data can be clearly identified.

【0115】では、どの様に学習用データへ雑音成分を
重畳するかであるが、学習データへの雑音成分の重畳
は、図24に示す様に複数箇所で行われる。図中240
1は学習用データを、2402、2403は雑音成分を
示す。図24(b)は、図24(a)の学習用データの
前段部分に雑音成分2402を重畳した例で、図24
(c)は、学習用データの後段部分に雑音成分2403
を重畳させた例である。この様に、学習用データの複数
の箇所に雑音成分を重畳させた重畳データを用いて、か
つ学習用データに重畳された雑音成分を除去したデータ
を認識するように学習させることにより、NNは雑音成
分だけを明確に識別できるようになる。
Then, depending on how the noise component is superimposed on the learning data, the noise component is superimposed on the learning data at a plurality of points as shown in FIG. 240 in the figure
Reference numeral 1 indicates learning data, and reference numerals 2402 and 2403 indicate noise components. 24B is an example in which the noise component 2402 is superimposed on the front part of the learning data of FIG.
(C) shows a noise component 2403 in the latter part of the learning data.
It is an example in which is superimposed. In this way, by using the superimposition data in which the noise component is superimposed on a plurality of points of the learning data and recognizing the data in which the noise component superimposed on the learning data is recognized, the NN is Only the noise component can be clearly identified.

【0116】これによって、NNは非定常雑音が重畳さ
れた音声データの雑音部分を正しく認識できるようにな
る。
As a result, the NN can correctly recognize the noise portion of the voice data on which the non-stationary noise is superimposed.

【0117】以上のように、本発明の音声認識装置及び
学習方法は、連続音声認識のみならず孤立音声認識に関
しても非常に有効である。
As described above, the speech recognition apparatus and learning method of the present invention are very effective not only for continuous speech recognition but also for isolated speech recognition.

【0118】また、本発明は音声認識に限らず、広く時
系列情報の処理においても有効であり、入力データと出
力データの対応が取れるものであれば、どの様な時系列
情報の処理も可能である。利用可能性としては、情報の
圧縮、伸長、波形等価、等が考えられる。
Further, the present invention is not limited to speech recognition and is widely effective in processing time series information, and any kind of time series information can be processed as long as input data and output data can be associated with each other. Is. Possible uses include information compression, decompression, waveform equalization, and the like.

【図面の簡単な説明】[Brief description of drawings]

【図1】図1は、本発明のニューラルネットワークを構
成する神経細胞用素子を示す図である。
FIG. 1 is a diagram showing a nerve cell element constituting a neural network of the present invention.

【図2】図2は、図1の神経細胞用素子を具体的な機能
に置き換えた図である。
FIG. 2 is a diagram in which the nerve cell element of FIG. 1 is replaced with a specific function.

【図3】図3は、図2の構成を電気回路に置き換えた例
である。
FIG. 3 is an example in which the configuration of FIG. 2 is replaced with an electric circuit.

【図4】図4は、本発明の神経細胞用素子を用いて構成
されたニューラルネットワークを用いた認識装置を示す
図である。
FIG. 4 is a diagram showing a recognition device using a neural network configured by using the nerve cell element of the present invention.

【図5】図5は、図4のニューラルネットワークを3層
化した図である。
5 is a diagram showing the neural network of FIG. 4 in three layers.

【図6】図6は、図5のニューラルネットワークをさら
に多層化した図である。
FIG. 6 is a diagram in which the neural network of FIG. 5 is further multilayered.

【図7】図7は、図6の伝達ネットワークを分割した図
である。
FIG. 7 is a diagram showing a division of the transmission network of FIG.

【図8】図8は、自己回帰ループを有するニューラルネ
ットワークを示す図である。
FIG. 8 is a diagram showing a neural network having an autoregressive loop.

【図9】図9は、ランダム結合ニューラルネットワーク
を示す図である。
FIG. 9 is a diagram showing a random connection neural network.

【図10】図10は、本発明の認識装置の耐雑音性を説
明するための図である。
FIG. 10 is a diagram for explaining noise resistance of the recognition device of the present invention.

【図11】図11は、本発明の認識装置の時間スケール
の学習項効果を説明するための図である。
FIG. 11 is a diagram for explaining a learning term effect of a time scale of the recognition device of the present invention.

【図12】図12は、本発明の神経細胞用素子を用いた
別の認識装置の構成を示す図である。
FIG. 12 is a diagram showing the configuration of another recognition device using the nerve cell element of the present invention.

【図13】図13は、図12の認識装置の動作手順を表
す図である。
FIG. 13 is a diagram illustrating an operation procedure of the recognition device in FIG. 12.

【図14】図14は、本発明のニューラルネットワーク
を用いた認識装置の学習方法を示す図である。
FIG. 14 is a diagram showing a learning method of a recognition device using the neural network of the present invention.

【図15】図15は、本発明の学習方法の学習手順を示
す図である。
FIG. 15 is a diagram showing a learning procedure of the learning method of the present invention.

【図16】図16は、本発明の学習データの連結を示す
図である。
FIG. 16 is a diagram showing connection of learning data according to the present invention.

【図17】図17は、本発明の学習データの構成を示す
図である。
FIG. 17 is a diagram showing a structure of learning data according to the present invention.

【図18】図18は、本発明のニューラルネットワーク
を用いた認識装置の学習方法を示す別の図である。
FIG. 18 is another diagram showing the learning method of the recognition device using the neural network of the present invention.

【図19】図19は、本発明の認識装置による音声単語
検出出力を示す図である。
FIG. 19 is a diagram showing a speech word detection output by the recognition device of the present invention.

【図20】図20は、本発明の認識装置による別の音声
単語検出出力を示す図である。
FIG. 20 is a diagram showing another speech word detection output by the recognition device of the present invention.

【図21】図21は、本発明の認識装置の別の構成を示
す図である。
FIG. 21 is a diagram showing another configuration of the recognition device of the present invention.

【図22】図22は、図21の認識装置の動作手順を示
す図である。
22 is a diagram showing an operation procedure of the recognition device in FIG. 21.

【図23】図23は、背景雑音重畳手段を有する認識装
置の学習方法を示す図である。
FIG. 23 is a diagram showing a learning method of a recognition device having background noise superimposing means.

【図24】図24は、学習データへの雑音成分の重畳さ
せ方を示す図である。
FIG. 24 is a diagram showing how to superimpose a noise component on learning data.

【図25】図25は、本発明の学習方法で学習させたニ
ューラルネットワークに未知単語を与えたときの認識結
果を示す図である。
FIG. 25 is a diagram showing a recognition result when an unknown word is given to the neural network trained by the learning method of the present invention.

【図26】図26は、図25を同様の処理を未知話者に
対して行った場合の認識結果を示す図である。
FIG. 26 is a diagram showing a recognition result when the same process as in FIG. 25 is performed on an unknown speaker.

【図27】図27は、図26と同様の処理を背景雑音を
与えて行った場合の認識結果を示す図である。
FIG. 27 is a diagram showing a recognition result when the same processing as in FIG. 26 is performed by giving background noise.

【図28】図28は、背景技術の神経細胞用素子を示す
図である。
FIG. 28 is a diagram showing a nerve cell device of the background art.

【図29】図29は、図28の神経細胞用素子を具体的
な機能に置き換えた図である。
FIG. 29 is a diagram in which the nerve cell element of FIG. 28 is replaced with a specific function.

【図30】図30は、図29の構成を電気回路に置き換
えた図である。
FIG. 30 is a diagram in which the configuration of FIG. 29 is replaced with an electric circuit.

【符号の説明】[Explanation of symbols]

101 内部状態値記憶手段 102 内部状態値更新手段 103 出力値生成手段 104 ノード全体 401 音声特徴抽出手段 402 ニューラルネットワーク 403 認識結果出力手段 101 internal state value storage means 102 internal state value updating means 103 output value generation means 104 whole nodes 401 voice feature extraction means 402 Neural network 403 Recognition result output means

───────────────────────────────────────────────────── フロントページの続き (31)優先権主張番号 特願平4−159422 (32)優先日 平成4年6月18日(1992.6.18) (33)優先権主張国 日本(JP) (31)優先権主張番号 特願平4−159441 (32)優先日 平成4年6月18日(1992.6.18) (33)優先権主張国 日本(JP) (31)優先権主張番号 特願平4−161075 (32)優先日 平成4年6月19日(1992.6.19) (33)優先権主張国 日本(JP) 前置審査 (56)参考文献 特開 平3−201161(JP,A) 特開 平2−238495(JP,A) 特開 平1−238696(JP,A) 特開 平3−265077(JP,A) 特開 平1−311386(JP,A) 特開 平4−149661(JP,A) 特開 平5−342189(JP,A) 特開 平3−248259(JP,A) 甘利俊一,「神経回路網の数理」,日 本,産業図書株式会社,1978年 4月27 日,初版,pp.11−28,ISBN:4 −7828−5255−X 松本元・他,「脳とコンピュータ1 ニューロコンピューティング」,日本, 株式会社培風館,1992年 1月15日,初 版,pp.1−9,ISBN:4−563 −01421−4 松岡清利,「神経場の興奮パターンと 振動の生成」,コンピュートロール,日 本,株式会社コロナ社,1988年10月10 日,no.24,pp.15−21,ISB N:4−339−02043−5 中野馨,「ニューロコンピュータの基 礎」,日本,株式会社コロナ社,1990年 4月 5日,初版,pp.44−49, 115−122,ISBN:4−339−02276− 4 甘利俊一,「PDPモデル」,日本, 産業図書株式会社,1989年 2月27日, 初版,pp.325−334,ISBN:4− 7828−5125−1 中川聖一・他,「シーケンシャルニュ ーラルネットワークを用いた音声認 識」,電子情報通信学会論文誌,日本, 社団法人電子情報通信学会,1991年 9 月25日,Vol.J74−D−II, N o.9,pp.1174−1183 合原一幸,「ニューラルコンピュー タ」,日本,東京電機大学出版局,1988 年 4月30日,初版,pp.98−105, ISBN:4−501−51320−9 金寺登・他,「ニューラルネットによ る連続音声の音韻セグメンテーショ ン」,電子情報通信学会論文誌,日本, 社団法人電子情報通信学会,1990年 1 月25日,Vol.J73−D−II, N o.1,pp.72−79 渡辺辰巳・他,「リカレントニューラ ルネットワークの各学習則に関する検討 および学習曲面の形状」,電子情報通信 学会論文誌,日本,社団法人電子情報通 信学会,1991年12月25日,Vol.J74 −D−II, No.12,pp.1776− 1787 二見亮弘・他,「母音パターンを分 析・統合する自己組織神経回路モデ ル」,電子通信学会技術研究報告,日 本,1986年,Vol.85, No.331, pp.261−266,JST資料番号:S 0532B 二見亮弘・他,「相互結合型神経回路 網の時系列処理能力について」,電子情 報通信学会技術研究報告,日本,社団法 人電子情報通信学会,1991年 3月19 日,Vol.90, No.484(NC90 −112〜141),pp.31−36 合原一幸,「小特集:ニューラルコン ピューティング I.総論」,電気学会 雑誌,日本,社団法人電気学会,1989年 6月20日,Vol.109, No.6, pp.427−433,ISSN:0020−2878 王景雪・他,「疲労効果を用いた連想 記憶モデル」,電子情報通信学会技術研 究報告,日本,社団法人電子情報通信学 会,1992年 1月18日,Vol.91, No.414(NC91−82〜97),pp. 79−86 光谷直樹,「任意パターンを記憶する 相互結合形神経回路網における想起能力 の向上」,電子情報通信学会技術研究報 告,日本,社団法人電子情報通信学会, 1991年 3月18日,Vol.90, N o.483(NC90−68〜111),pp. 125−130 (58)調査した分野(Int.Cl.7,DB名) G06N 1/00 - 7/08 G10L 3/00 - 9/20 JSTファイル(JOIS) CSDB(日本国特許庁)─────────────────────────────────────────────────── ─── Continuation of front page (31) Priority claim number Japanese Patent Application No. 4-159422 (32) Priority date June 18, 1992 (June 18, 1992) (33) Priority claim country Japan (JP) (31) Priority claim number Japanese Patent Application No. 4-159441 (32) Priority date June 18, 1992 (June 18, 1992) (33) Country of priority claim Japan (JP) (31) Priority claim number Japanese Patent Application No. 4-161075 (32) Priority date June 19, 1992 (June 19, 1992) (33) Priority claiming country Japan (JP) Preliminary examination (56) Reference JP-A-3-201161 (JP, A) JP-A-2-238495 (JP, A) JP-A-1-238696 (JP, A) JP-A-3-265077 (JP, A) JP-A-1-311386 (JP, A) Kaihei 4-149661 (JP, A) JP-A 5-342189 (JP, A) JP-A 3-248259 (JP, A) Shunichi Amari, "Mathematical Mathematical Neural Networks , Japan, Sangyo Tosho Co., Ltd., April 27, 1978, first edition, pp. 11-28, ISBN: 4-7828-5255-X Matsumoto, et al., "Brain and Computer 1 Neurocomputing", Japan, Baifukan Co., Ltd., January 15, 1992, first edition, pp. 1-9, ISBN: 4-563-01421-4 Kiyotoshi Matsuoka, "Excitation pattern of nerve field and generation of vibration", Computeroll, Nihon, Corona Co., Ltd., October 10, 1988, no. 24, pp. 15-21, ISB N: 4-339-02043-5 Nakano Kaoru, "Foundation of Neurocomputer", Japan, Corona Co., Ltd., April 5, 1990, first edition, pp. 44-49, 115-122, ISBN: 4-339-02276-4 Shunichi Amari, "PDP Model", Japan, Sangyo Tosho Co., Ltd., February 27, 1989, first edition, pp. 325-334, ISBN: 4-7828-5125-1 Nakagawa Seiichi et al., "Voice recognition using sequential neural network", The Institute of Electronics, Information and Communication Engineers, Japan, The Institute of Electronics, Information and Communication Engineers, 1991. September 25, Vol. J74-D-II, No. 9, pp. 1174-1183 Kazuyuki Aihara, "Neural Computer", Japan, Tokyo Denki University Press, April 30, 1988, first edition, pp. 98-105, ISBN: 4-501-51320-9 Noboru Kindera et al., "Phonological segmentation of continuous speech by neural network", IEICE Transactions, Japan, The Institute of Electronics, Information and Communication Engineers, 1990. January 25, Vol. J73-D-II, No. 1, pp. 72-79 Watanabe Tatsumi et al., “Study on each learning rule of recurrent neural network and shape of learning surface”, IEICE Transactions, Japan, The Institute of Electronics, Information and Communication Engineers, December 25, 1991, Vol. J74-D-II, No. 12, pp. 1776-1787 Yoshihiro Futami et al., “Self-organizing neural circuit model for analyzing and integrating vowel patterns”, IEICE Technical Report, Japan, 1986, Vol. 85, No. 331, pp. 261-266, JST Material No .: S 0532B Yoshihiro Futami et al., "Time Series Processing Capability of Mutually Coupled Neural Networks", Technical Report of IEICE, Japan, The Institute of Electronics, Information and Communication Engineers of Japan, March 19, 1991, Vol. 90, No. 484 (NC90-112 to 141), pp. 31-36 Kazuyuki Aihara, "Small Feature: Neural Computing I. General", The Institute of Electrical Engineers of Japan, Japan, The Institute of Electrical Engineers of Japan, June 20, 1989, Vol. 109, No. 6, pp. 427-433, ISSN: 0020-2878 Yuki Kage et al., "Associative Memory Model Using Fatigue Effect", IEICE Technical Report, Japan, The Institute of Electronics, Information and Communication Engineers, January 18, 1992, Vol. 91, No. 414 (NC91-82 to 97), pp.79-86 Naoki Mitsuya, "Improvement of recall ability in mutual connection type neural network that memorizes arbitrary patterns", IEICE technical report, Japan, incorporated association IEICE, March 18, 1991, Vol. 90, No. 483 (NC90-68 to 111), pp. 125-130 (58) Fields investigated (Int.Cl. 7 , DB name) G06N 1/00-7/08 G10L 3/00-9/20 JST file (JOIS ) CSDB (Japan Patent Office)

Claims (10)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 入力データが認識対象と一致するか否か
の認識処理を行なう認識用ニューラルネットワークと、 前記ニューラルネットワークを構成する神経細胞用素子
の内部状態値記憶手段に予め設定された初期値を与える
内部状態値初期化手段と、 前記ニューラルネットワークに背景雑音を入力する背景
雑音入力手段と、 前記ニューラルネットワークの出力から平衡状態を検出
すると共に、前記平衡状態の検出に基づき内部状態初期
値設定手段に予め設定された内部状態初期値を変更する
信号を出力する平衡状態検出手段と、 を含み、 前記ニューラルネットワークを構成する各神経細胞用素
子は、 現在の内部状態値を記憶する前記内部状態値記憶手段
と、 前記内部状態値記憶手段に記憶された内部状態値とその
神経細胞用素子に入力される少なくとも一つの重み付け
された入力値とに基づいて前記内部状態値を更新する内
部状態値更新手段と、 前記内部状態値記憶手段の出力を外部出力値へ変換する
出力値生成手段と、 を有することを特徴とするニューラルネットワークを用
いた認識装置。
1. A recognition neural network for recognizing whether or not input data matches a recognition target, and an initial value preset in an internal state value storage means of a neuron element forming the neural network. An internal state value initialization means for giving a background noise input means for inputting background noise to the neural network; an equilibrium state is detected from the output of the neural network; and an internal state initial value setting based on the detection of the equilibrium state. A balanced state detecting means for outputting a signal for changing an initial value of an internal state preset in the means; each of the nerve cell elements constituting the neural network stores the current internal state value; A value storage means, an internal state value stored in the internal state value storage means and its nerve cell element. Internal state value updating means for updating the internal state value based on at least one weighted input value, and output value generating means for converting the output of the internal state value storage means into an external output value. A recognition device using a neural network characterized by the above.
【請求項2】 前記内部状態値更新手段は前記入力値お
よび前記内部状態値に重みを付け積算する重み付き積算
手段からなり、 前記内部状態値記憶手段は前記重み付き積算手段により
積算された値を積分する積分手段からなり、 前記出力値生成手段は前記積分手段により得られた値を
予め設定された上限値と下限値の間の値へ変換する出力
値制限手段とからなることを特徴とする請求項1記載の
ニューラルネットワークを用いた認識装置。
2. The internal state value updating means comprises a weighted integrating means for weighting and integrating the input value and the internal state value, and the internal state value storage means is a value integrated by the weighted integrating means. And an output value limiting means for converting the value obtained by the integrating means into a value between a preset upper limit value and a lower limit value. A recognition device using the neural network according to claim 1.
【請求項3】 前記ニューラルネットワークを構成する
i番目の前記神経細胞用素子の内部状態値をXiとし、
τiを時定数とし、前記神経細胞用素子への前記重み付
き入力値をZj(jは0からn、nは0または自然数)
とすると、前記内部状態値更新手段が、 【数1】 を満足する値へ内部状態値を更新する事を特徴とする請
求項1または請求項2に記載のニューラルネットワーク
を用いた認識装置。
3. The internal state value of the i-th element for nerve cells constituting the neural network is Xi,
Letting τi be a time constant, the weighted input value to the neuron element is Zj (j is 0 to n, n is 0 or a natural number).
Then, the internal state value updating means is The internal state value is updated to a value that satisfies the following condition. 3. The recognition device using the neural network according to claim 1 or 2.
【請求項4】 前記i番目の神経細胞用素子への重み付
き入力値Zjが、前記i番目の神経細胞用素子自身の出
力に重みを剰算した値を含む事を特徴とする請求項1な
いし請求項3のいずれかに記載のニューラルネットワー
クを用いた認識装置。
4. The weighted input value Zj to the i-th nerve cell element includes a value obtained by adding a weight to the output of the i-th nerve cell element itself. A recognition device using the neural network according to claim 3.
【請求項5】 前記i番目の神経細胞用素子への重み付
き入力値Zjが、前記ニューラルネットワークを構成す
る他の神経細胞用素子の出力に重みを剰算した値を含む
事を特徴とする請求項1ないし請求項4のいずれかに記
載のニューラルネットワークを用いた認識装置。
5. The weighted input value Zj to the i-th neural cell element includes a value obtained by adding weights to the outputs of other neural cell elements constituting the neural network. A recognition device using the neural network according to any one of claims 1 to 4.
【請求項6】 前記i番目の神経細胞用素子への重み付
き入力値Zjが、前記ニューラルネットワークの外部か
ら与えられたデータを含む事を特徴とする請求項1ない
し請求項5のいずれかに記載のニューラルネットワーク
を用いた認識装置。
6. The weighted input value Zj to the i-th element for nerve cells includes data given from outside the neural network, according to claim 1. A recognition device using the described neural network.
【請求項7】 前記i番目の神経細胞用素子への重み付
き入力値Zjが、ある固定された値に重みを剰算した値
を含む事を特徴とする請求項1ないし請求項6のいずれ
かに記載のニューラルネットワークを用いた認識装置。
7. The weighted input value Zj to the i-th neuron cell element includes a value obtained by adding weight to a fixed value, according to any one of claims 1 to 6. A recognition device using the neural network described in 1.
【請求項8】 前記出力値生成手段が、正負対称出力範
囲を有する事を特徴とする請求項1ないし請求項7のい
ずれかに記載のニューラルネットワークを用いた認識装
置。
8. The recognition device using a neural network according to claim 1, wherein the output value generation means has a positive / negative symmetrical output range.
【請求項9】 前記音声認識用ニューラルネットワーク
は、 入力データが認識対象となる肯定データかそれ以外の否
定データかの認識処理を行ない、 肯定データが入力されたときには出力が第1の状態とな
り、連続して否定データが入力されたときには第1の状
態から第2の状態に出力が変化する肯定出力と、否定デ
ータが入力されたときには出力が第3の状態となり、連
続して肯定データが入力されたときには第3の状態から
第4の状態に出力が変化する否定出力との少なくともの
2つの範疇を出力の組合わせとして前記認識結果を出力
するように構成されたことを特徴とする請求項1ないし
請求項8のいずれかに記載のニューラルネットワークを
用いた認識装置。
9. The speech recognition neural network carries out a recognition process as to whether the input data is positive data to be recognized or other negative data, and when positive data is input, the output is in the first state, When the negative data is continuously input, the positive output whose output changes from the first state to the second state, and when the negative data is input, the output becomes the third state, and the positive data is continuously input. The recognition result is output as a combination of at least two categories of a negative output in which the output changes from the third state to the fourth state when output is performed. A recognition device using the neural network according to claim 1.
【請求項10】 前記認識装置は音声認識装置であっ
て、 認識させたい入力の特徴抽出を行うと共に特徴抽出した
値を前記ニューラルネットワークへ入力する音声特徴抽
出手段と、 前記ニューラルネットワークの出力値を認識結果に変換
する認識結果出力手段とを有することを特徴とする請求
項1〜請求項9のいずれかに記載のニューラルネットワ
ークを用いた音声認識装置。
10. The recognition device is a voice recognition device, which extracts a feature of an input to be recognized and inputs a feature-extracted value to the neural network, and an output value of the neural network. 10. A speech recognition device using a neural network according to claim 1, further comprising a recognition result output means for converting into a recognition result.
JP2000125623A 1992-03-30 2000-04-26 Recognition device using neural network Expired - Lifetime JP3521844B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000125623A JP3521844B2 (en) 1992-03-30 2000-04-26 Recognition device using neural network

Applications Claiming Priority (13)

Application Number Priority Date Filing Date Title
JP7381892 1992-03-30
JP8714692 1992-04-08
JP8878692 1992-04-09
JP15942292 1992-06-18
JP15944192 1992-06-18
JP4-88786 1992-06-19
JP4-159422 1992-06-19
JP4-87146 1992-06-19
JP4-73818 1992-06-19
JP16107592 1992-06-19
JP4-159441 1992-06-19
JP4-161075 1992-06-19
JP2000125623A JP3521844B2 (en) 1992-03-30 2000-04-26 Recognition device using neural network

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2000085618A Division JP2000298663A (en) 1992-03-30 2000-03-27 Recognition device using neural network and its learning method

Publications (2)

Publication Number Publication Date
JP2000352994A JP2000352994A (en) 2000-12-19
JP3521844B2 true JP3521844B2 (en) 2004-04-26

Family

ID=32398442

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000125623A Expired - Lifetime JP3521844B2 (en) 1992-03-30 2000-04-26 Recognition device using neural network

Country Status (1)

Country Link
JP (1) JP3521844B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4771249B2 (en) * 2003-03-24 2011-09-14 独立行政法人理化学研究所 Mutually coupled neural network system, method for constructing interconnected neural network structure, method for constructing self-organizing neural network structure, and program for constructing them
US20070083365A1 (en) 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01238696A (en) * 1988-03-19 1989-09-22 Nozomi Hoshimiya Collation and recognition system of time series pattern
JPH01311386A (en) * 1988-06-10 1989-12-15 Sanyo Electric Co Ltd Nerve model circuit
JP3002204B2 (en) * 1989-03-13 2000-01-24 株式会社東芝 Time-series signal recognition device
JPH03201161A (en) * 1989-12-28 1991-09-03 Sharp Corp Sound recognizing device
JP2809791B2 (en) * 1990-02-27 1998-10-15 株式会社東芝 Module assignment method
JP2580826B2 (en) * 1990-03-14 1997-02-12 日本電気株式会社 Feedback neuron model
JPH04149661A (en) * 1990-10-09 1992-05-22 Fujitsu Ltd Resetting method for recurrent neural network
JP3354593B2 (en) * 1992-06-10 2002-12-09 日本政策投資銀行 Learning system for network type information processing equipment

Non-Patent Citations (14)

* Cited by examiner, † Cited by third party
Title
中川聖一・他,「シーケンシャルニューラルネットワークを用いた音声認識」,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,1991年 9月25日,Vol.J74−D−II, No.9,pp.1174−1183
中野馨,「ニューロコンピュータの基礎」,日本,株式会社コロナ社,1990年 4月 5日,初版,pp.44−49,115−122,ISBN:4−339−02276−4
二見亮弘・他,「母音パターンを分析・統合する自己組織神経回路モデル」,電子通信学会技術研究報告,日本,1986年,Vol.85, No.331,pp.261−266,JST資料番号:S0532B
二見亮弘・他,「相互結合型神経回路網の時系列処理能力について」,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,1991年 3月19日,Vol.90, No.484(NC90−112〜141),pp.31−36
光谷直樹,「任意パターンを記憶する相互結合形神経回路網における想起能力の向上」,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,1991年 3月18日,Vol.90, No.483(NC90−68〜111),pp.125−130
合原一幸,「ニューラルコンピュータ」,日本,東京電機大学出版局,1988年 4月30日,初版,pp.98−105,ISBN:4−501−51320−9
合原一幸,「小特集:ニューラルコンピューティング I.総論」,電気学会雑誌,日本,社団法人電気学会,1989年 6月20日,Vol.109, No.6,pp.427−433,ISSN:0020−2878
松岡清利,「神経場の興奮パターンと振動の生成」,コンピュートロール,日本,株式会社コロナ社,1988年10月10日,no.24,pp.15−21,ISBN:4−339−02043−5
松本元・他,「脳とコンピュータ1 ニューロコンピューティング」,日本,株式会社培風館,1992年 1月15日,初版,pp.1−9,ISBN:4−563−01421−4
渡辺辰巳・他,「リカレントニューラルネットワークの各学習則に関する検討および学習曲面の形状」,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,1991年12月25日,Vol.J74−D−II, No.12,pp.1776−1787
王景雪・他,「疲労効果を用いた連想記憶モデル」,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,1992年 1月18日,Vol.91, No.414(NC91−82〜97),pp.79−86
甘利俊一,「PDPモデル」,日本,産業図書株式会社,1989年 2月27日,初版,pp.325−334,ISBN:4−7828−5125−1
甘利俊一,「神経回路網の数理」,日本,産業図書株式会社,1978年 4月27日,初版,pp.11−28,ISBN:4−7828−5255−X
金寺登・他,「ニューラルネットによる連続音声の音韻セグメンテーション」,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,1990年 1月25日,Vol.J73−D−II, No.1,pp.72−79

Also Published As

Publication number Publication date
JP2000352994A (en) 2000-12-19

Similar Documents

Publication Publication Date Title
US11450312B2 (en) Speech recognition method, apparatus, and device, and storage medium
CN110491416B (en) Telephone voice emotion analysis and identification method based on LSTM and SAE
JP3168779B2 (en) Speech recognition device and method
Nicholson et al. Emotion recognition in speech using neural networks
US8838446B2 (en) Method and apparatus of transforming speech feature vectors using an auto-associative neural network
CN111916111B (en) Intelligent voice outbound method and device with emotion, server and storage medium
JP3521429B2 (en) Speech recognition device using neural network and learning method thereof
EP0510632B1 (en) Speech recognition by neural network adapted to reference pattern learning
EP0574951B1 (en) Speech recognition system
CN112365885B (en) Training method and device of wake-up model and computer equipment
US5181256A (en) Pattern recognition device using a neural network
US5809461A (en) Speech recognition apparatus using neural network and learning method therefor
US6151592A (en) Recognition apparatus using neural network, and learning method therefor
US20050015251A1 (en) High-order entropy error functions for neural classifiers
CN111968652B (en) Speaker identification method based on 3DCNN-LSTM and storage medium
US6999929B2 (en) Recognizing speech by selectively canceling model function mixture components
JP3521844B2 (en) Recognition device using neural network
JP3467556B2 (en) Voice recognition device
JPH064097A (en) Speaker recognizing method
Gas et al. Discriminant neural predictive coding applied to phoneme recognition
JPH06119476A (en) Time sequential data processor
Poddar et al. Data capturing and modeling by speech recognition: roles demonstrated by artificial intelligence, A survey
US5581650A (en) Learning dynamic programming
Eng et al. Malay speech recognition using self-organizing map and multilayer perceptron
Chakraborty et al. Speech recognition of isolated words using a new speech database in sylheti

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20031201

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20031204

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040202

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080220

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090220

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090220

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100220

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110220

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110220

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120220

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 9