JPH10254846A - Learning method for regression-type neural network - Google Patents

Learning method for regression-type neural network

Info

Publication number
JPH10254846A
JPH10254846A JP9061473A JP6147397A JPH10254846A JP H10254846 A JPH10254846 A JP H10254846A JP 9061473 A JP9061473 A JP 9061473A JP 6147397 A JP6147397 A JP 6147397A JP H10254846 A JPH10254846 A JP H10254846A
Authority
JP
Japan
Prior art keywords
value
learning
neural network
error
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9061473A
Other languages
Japanese (ja)
Inventor
Kenichi Arai
賢一 新井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP9061473A priority Critical patent/JPH10254846A/en
Publication of JPH10254846A publication Critical patent/JPH10254846A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To suppress drop to a local minimum and to execute a stable learning operation with less errors by correcting a connection weight parameter in a direction where the errors are reduced the most, while a learning coefficient is adjusted so as not to increase the errors, from a stage where the errors are reduced to the value of not more than a reference value. SOLUTION: A neural network initialization part 7 constitutes a neural network from the parameter of the number of elements or the like, initializes connection weight by random numbers and sets a neuro gain parameter β and the learning coefficient η. Then, a βvalue deciding part 9 decides the value of the neuro gain parameter β. When all time sequential data are inputted, a steepest drop direction calculation part 11 calculates the steepest drop direction. A η value deciding part 10 decides the value of the learning coefficient ηand a connection weight matrix correction part 12 corrects connection weight, based on the decided learning coefficient η and the steepest drop direction.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、具体的な入出力時
系列データからその入出力関係を回帰結合型神経回路網
を用いて外部入力のある繰り返し写像関数として推定
し、時系列パターン認識、音声認識、文法解析、有限状
態機械の設計等を行う技術において時系列データの記憶
や学習を神経回路網が行う回帰型神経回路網の学習方法
に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention estimates the input / output relationship from specific input / output time-series data as a repetitive mapping function having an external input using a recursive neural network, and performs time-series pattern recognition. The present invention relates to a learning method of a recurrent neural network in which a neural network stores and learns time-series data in a technology for performing voice recognition, grammar analysis, finite state machine design, and the like.

【0002】[0002]

【従来の技術】神経回路網はニュートラルネットワーク
とも呼ばれ、生物の脳神経細胞の回路網をモデル化して
考案された情報処理装置である。最も一般的に用いられ
る神経回路網を簡単に説明する。
2. Description of the Related Art A neural network, also called a neutral network, is an information processing device devised by modeling a network of brain cells of an organism. The most commonly used neural networks are briefly described.

【0003】生物脳の神経細胞回路網を多数の神経細胞
という素子と、その素子間の結合とから構成される系で
あると考える。
[0003] The neural network of the biological brain is considered to be a system composed of a number of nerve cells and connections between the elements.

【0004】各神経素子はその膜電位に応じてインパル
スを出力する。各素子の出力が連続値を取るモデルでは
その出力値はパルス密度を表すことになる。また、その
膜電位は他の素子からのインパルスを受けて増加するの
で、パルス密度とその素子との結合効率を考慮した重み
付和で計算できると考えられる。膜電位の上昇に伴って
出力値は単調増加するが、パルス密度には上限があり出
力値は飽和する。
[0004] Each neural element outputs an impulse according to its membrane potential. In a model in which the output of each element takes a continuous value, the output value represents the pulse density. In addition, since the membrane potential increases upon receiving an impulse from another element, it is considered that the membrane potential can be calculated by a weighted sum in consideration of the pulse density and the coupling efficiency with the element. The output value monotonically increases with an increase in the membrane potential, but the pulse density has an upper limit and the output value is saturated.

【0005】これらのことから時刻tでのi番目の神経
素子の出力値をSi (t) 、膜電位をhi (t) 、素子jか
ら素子iへの結合効率をwijとすれば離散時間のモデル
では、
From these facts, if the output value of the i-th neural element at time t is S i (t), the membrane potential is h i (t), and the coupling efficiency from element j to element i is w ij , In a discrete-time model,

【数1】 i (t+1)=σ(hi (t) ) (2) となる。ここで、σはシグモイド関数であり、具体的に
はロジスティク関数、
(Equation 1) S i (t + 1) = σ (h i (t)) (2) Here, σ is a sigmoid function, specifically, a logistic function,

【数2】 が最もよく使われる。また、今後のため、(Equation 2) Is most often used. Also, for the future,

【数3】 のようにβを導入する。これをニューロゲインパラメー
タと呼ぶ。特に、βの記述のないときは、β=1.0で
ある。
(Equation 3) Is introduced as follows. This is called a neurogain parameter. In particular, when there is no description of β, β = 1.0.

【0006】神経回路網の一部あるいは全ての神経素子
に外部から入力が与えられる。この部分を入力部あるい
は入力層という。また、一部あるいは全ての神経素子は
外部に出力をする、あるいは外部から観測される。この
部分を出力部、あるいは出力層という。
[0006] An input is externally supplied to some or all of the neural elements of the neural network. This part is called an input part or input layer. Some or all of the neural elements output to the outside or are observed from the outside. This part is called an output unit or an output layer.

【0007】入力層から出力層に一方的に信号の伝わる
結合しかないものをフィードフォワード型神経回路網と
いう。これに対して、フィードバック方向の結合があ
り、信号の流れがループできるようなものを回帰型神経
回路網という。
[0007] A feedforward type neural network has only one connection for transmitting a signal from the input layer to the output layer. On the other hand, a recurrent neural network that has a coupling in a feedback direction and can loop a signal flow is called a recurrent neural network.

【0008】入力層、中間層、出力層の3層から構成さ
れる神経回路網を考える。図5に示すように、入力層の
素子からは中間層の素子への結合があり、中間層の素子
からは出力層の素子への結合と中間層の素子への結合が
ある構造の回帰型神経回路網はElmanネットと呼ば
れ、広く使われている構造の回帰型神経回路網の一つで
ある。
Consider a neural network composed of three layers: an input layer, a middle layer, and an output layer. As shown in FIG. 5, the regression type structure has a structure in which an element in the input layer is coupled to an element in the intermediate layer, and a element in the intermediate layer is coupled to an element in the output layer and coupled to an element in the intermediate layer. The neural network is called an Elman net and is one of the recurrent neural networks having a widely used structure.

【0009】入力層の素子の集合をI、素子数NI 、中
間層の素子の集合をU、素子数NU、出力層の素子の集
合をO、素子数NO とする。また、全素子数をNとす
る。出力素子、中間素子、入力素子の出力値をまとめて
ベクトルとして表現すれば、それぞれ、NO 次ベクトル
O 、NU 次ベクトルSU 、NI 次ベクトルSI であ
り、全素子の出力値ベクトルはN次ベクトルSとなる。
The set of elements in the input layer is I, the number of elements N I , the set of elements in the intermediate layer is U, the number of elements N U , the set of elements in the output layer is O, and the number of elements N O. The total number of elements is N. When the output values of the output element, the intermediate element, and the input element are collectively expressed as a vector, they are N O -order vector S O , N U -order vector S U , and N I -order vector S I , respectively. The vector is an N-order vector S.

【0010】[0010]

【数4】 ここで、中間層のj番目の素子から出力層のi番目の素
子への結合重みをwij OUとし、中間層のj番目の素子か
ら中間層のi番目の素子への結合重みをwij UUとし、入
力層のj番目の素子から中間層のi番目の素子への結合
重みをwij UIとする。このとき、wij、wij OU
ij UU、wij UIは、それぞれ(NO +NU )×(NU
I )、NO ×NU 、NU ×NU 、NU ×NI の行列
W、WOU、WUU、WUIの(i,j) 要素とみなせ、それらの
関係は次のようになる。
(Equation 4) Here, the connection weight from the j-th element in the intermediate layer to the i-th element in the output layer is w ij OU, and the connection weight from the j-th element in the intermediate layer to the i-th element in the intermediate layer is w ij and UU, the connection weight to the i-th element of the intermediate layer and w ij UI from the j-th element of the input layer. At this time, w ij , w ij OU ,
w ij UU, w ij UI, respectively (N O + N U) × (N U +
N i ), N o × N u , N u × N u , N u × N I matrix (W, W OU , W UU , W UI ) (i, j) elements, and their relationships are as follows: become.

【0011】[0011]

【数5】 入力層から出力層への直接の結合はないので、行列右上
はNO ×NI のゼロ行列である。以上から、神経回路網
の時間発展の式はまとめて書くと次のようになる。
(Equation 5) Since there is no direct coupling from the input layer to the output layer, the matrix upper right is the zero matrix of N O × N I. From the above, the expression of the time evolution of the neural network is written as follows.

【0012】[0012]

【数6】 ここでのσは、各要素をシグモイド関数で計算したもの
を要素とするベクトル関数である。
(Equation 6) Here, σ is a vector function in which each element is calculated by a sigmoid function.

【0013】次に、神経回路網の学習について説明す
る。これらの神経回路網は、いくつかの入力値ξ(t) と
出力値のζ(t) 組から、この入出力値の組の関係を実現
している系を近似的に再現する能力がある。どのような
系を近似できるかは素子間の結合の仕方などの神経回路
網の構成に依るが、例えば、フィードフォワード型神経
回路網では多次元実数関数や特徴空間から分類を表す変
数への写像関数、回帰型神経回路網では力学系や時系列
データから分類を表す変数への写像関数などを近似する
ことができる。特に、回帰型神経回路網はデータが時間
と共に変化するとき系列データを扱うときに用いられ
る。
Next, learning of the neural network will be described. These neural networks are capable of approximating the system that realizes the relationship between this input and output value pair from several input value ξ (t) and output value ζ (t) pairs. . The kind of system that can be approximated depends on the configuration of the neural network, such as how elements are connected.For example, in a feedforward neural network, a mapping from a multidimensional real number function or feature space to a variable representing a classification is performed. Functions and regression-type neural networks can approximate mapping functions from dynamical systems and time-series data to variables representing classifications. In particular, recurrent neural networks are used when dealing with series data when the data changes over time.

【0014】神経回路網では様々な系の近似を、素子間
の結合効率であるwijをパラメータとし、この値を適切
な値に設定することで実現している。
In a neural network, approximation of various systems is realized by setting wij , which is the coupling efficiency between elements, as a parameter and setting this value to an appropriate value.

【0015】しかし、神経回路網は非線型系であるた
め、最適なパラメータを一度に求めることは一般には出
来ない。このため通常パラメータwijは逐次的に求める
ことになる。これを「学習」という。
However, since the neural network is a non-linear system, it is generally not possible to obtain optimum parameters at once. For this reason, the normal parameters w ij are determined sequentially. This is called "learning".

【0016】与えられた幾つかの入出力値の組を学習デ
ータという。
A given set of input / output values is called learning data.

【0017】 {ξ(k) (1),ξ(k) (2),…,ξ(k) (t) } (8) {ζ(k) (1),ζ(k) (2),…,ζ(k) (t) } (9) 但し、k=1,2,…,P ここでは、P組の学習データが与えられたことになる。
また、ξ(k) (t) 、ζ(k) (t) はそれぞれNI 次、NO
次のベクトルである。
{Ξ (k) (1), ξ (k) (2),…, ξ (k) (t)} (8) {ζ (k) (1), ζ (k) (2), .., Ζ (k) (t)} (9) where k = 1, 2,..., P Here, P sets of learning data are given.
Ξ (k) (t) and ζ (k) (t) are N I order and N O , respectively.
The next vector.

【0018】ξ(t) =(ξ1 (t),…,ξNO (t))' ζ(t) =(ζ1 (t),…,ζN(t))' ここで、´は転置を表す。神経回路網に入力学習データ
を与える。
[0018] ξ (t) = (ξ 1 (t), ..., ξN O (t)) here 'ζ (t) = (ζ 1 (t), ..., ζN I (t))', ' is Represents transposition. The input learning data is given to the neural network.

【0019】[0019]

【数7】 あるいは、まとめて書くと次のようになる。(Equation 7) Or, when written together:

【0020】[0020]

【数8】 神経回路網の出力値SO(k)(t) と学習データの出力値ζ
(k) (t) の差を誤差という。また、全誤差の自乗和Eを
次のように決める。SO(k)(t) を単にS(k) (t)と書く
ことにする。
(Equation 8) The output value S O (k) (t) of the neural network and the output value of the learning data ζ
The difference between (k) and (t) is called an error. The sum of squares E of all errors is determined as follows. Let S O (k) (t) be simply written as S (k) (t).

【0021】[0021]

【数9】 誤差Eが0になれば、学習データの入出力の対応関係を
完全に獲得したことになる。そこで、どのようにwij
修正し誤差Eを減少させるかが問題になる。最も一般的
に使われている方法は最急降下法といい、誤差Eを最も
減少させる方向、つまり最急降下wijを修正するもので
ある。最急降下方向はEをwijで偏微分することで求め
られるので、wijの修正幅Δwij
(Equation 9) When the error E becomes 0, it means that the input / output correspondence of the learning data has been completely acquired. Therefore, the problem is how to correct w ij and reduce the error E. The most commonly used method is the steepest descent method, which corrects the direction in which the error E is reduced most, that is, the steepest descent w ij . Since the steepest descent direction is determined by partially differentiating E with w ij, correction range [Delta] w ij of w ij is

【数10】 となる。ηは学習係数と呼ばれ学習を安定させるための
正の係数である。∂E/∂wijを計算する方法はいくつ
か知られており、次に代表的な2つの方法を示す。
(Equation 10) Becomes η is called a learning coefficient and is a positive coefficient for stabilizing learning. How to calculate the ∂E / ∂w ij are known some following two typical methods.

【0022】まず、最急降下方向を求める計算方法とし
て、リアルタイムリカレントラーニング(RTRL:Re
al Time Recurrent Learning)を具体的に説明する。以
下では学習データ番号を表す(k) は省略するが、最終的
なΔwijは各学習データでのwijの修正値の和をとれば
よい。
First, a real-time recurrent learning (RTRL: Re
al Time Recurrent Learning). Hereinafter, (k) representing the learning data number is omitted, but the final Δw ij may be the sum of the correction values of w ij in each learning data.

【0023】式(15)(16)より、From equations (15) and (16),

【数11】 となる。ここで、式(13)(14)より、[Equation 11] Becomes Here, from equations (13) and (14),

【数12】 となり、ppq i (t) を逐次求めていくことができる。た
だし、初期条件は、
(Equation 12) And p pq i (t) can be obtained sequentially. However, the initial condition is

【数13】 である。(Equation 13) It is.

【0024】逐次求めたppq i (t) によりΔwij(t) を
計算できる。このように、RTRLでは時系列データが
与えられるとその時点で結合重みの修正値を計算でき、
学習を進めていくことができるという特徴を有する。
From the sequentially obtained p pq i (t), Δw ij (t) can be calculated. Thus, in the RTRL, when time-series data is given, a correction value of the connection weight can be calculated at that time,
The feature is that learning can be advanced.

【0025】次に最急降下法を求める別の計算方法とし
ては、バックプロパゲーションスルータイム(BPT
T:Back Propagation Through Time )を具体的に説明
する。ここでも、学習データ番号を表す(k) は省略す
る。
Next, another calculation method for obtaining the steepest descent method is a back propagation through time (BPT).
T: Back Propagation Through Time) will be specifically described. Here, (k) representing the learning data number is omitted.

【0026】やはり式(15)より、From equation (15),

【数14】 となる。ここで、[Equation 14] Becomes here,

【数15】 とおけば、式(24)は次のように書ける。(Equation 15) Then, equation (24) can be written as follows.

【0027】[0027]

【数16】 i (τ)については、次のように求めることができ
る。
(Equation 16) z i (τ) can be obtained as follows.

【0028】[0028]

【数17】 このように、BPTTではzi (t)を時間逆方向に計算
していきΔwijを求める。ただし終端条件は、 zi (T)=ei (T) (30) である。
[Equation 17] As described above, in BPTT, z i (t) is calculated in the time reverse direction to obtain Δw ij . However, the termination condition is z i (T) = e i (T) (30).

【0029】次に、解散時間、離散値の時系列データの
学習の例として、有限オートマトンの学習について説明
する。まず、Moore 流の有限オートマトンMの定義は次
のようなものである。
Next, learning of a finite automaton will be described as an example of learning the time series data of the dissolution time and discrete values. First, the definition of the Moore finite automaton M is as follows.

【0030】M=(X,Y,S,fs ,fo ,so ) ・X:入力記号集合 ・Y:出力記号集合 ・S:状態集合 ・so ∈S:初期状態 ・fs :X×S→S状態遷移関数 ・fo :S→Y出力関数 現在の状態がsである有限オートマトンに入力記号xが
与えられたとする。このとき、有限オートマトンの状態
は状態遷移関数fs に従い、s´=fs (s,x)へと遷
移し、さらに出力記号y=fo (s')を出力する。つま
り、記号の入力に対して、オートマトンは状態を遷移さ
せその状態に応じて記号を出力する。このようにして、
入力記号列を与えれば状態遷移、記号出力が繰り返さ
れ、その結果有限オートマトンは出力記号列を返すこと
になる。
[0030] M = (X, Y, S , f s, f o, s o) · X: input symbol set · Y: Output symbol set · S: state set · s o ∈S: initial state · f s: X × S → S state transition function f o : S → Y output function Suppose that an input symbol x is given to a finite automaton whose current state is s. At this time, the finite state automaton state in accordance with the state transition function f s, s'= f s ( s, x) transitions to further outputs the output symbols y = f o (s') . That is, in response to the input of the symbol, the automaton changes the state and outputs the symbol according to the state. In this way,
Given an input symbol sequence, the state transition and symbol output are repeated, and as a result, the finite state automaton returns an output symbol sequence.

【0031】有限オートマトンの学習においては入力記
号、出力記号は、それぞれ、入力層入力する入力ベクト
ル、出力層の出力と対応する出力ベクトルへと連続値ベ
クトルに変換される。有限オートマトンの学習ではこれ
らの入出力ベクトル列に対して学習を行う。
In the learning of the finite state automaton, the input symbol and the output symbol are converted into a continuous value vector into an input vector input to the input layer and an output vector corresponding to the output of the output layer, respectively. In the learning of the finite automaton, learning is performed on these input / output vector sequences.

【0032】そして学習が成功したとき、中間層の素子
の出力値の軌道は相空間上で非連結な領域に集中する。
つまり、いくつかのクラスターを形成することが知られ
ている。また、このクラスターは有限オートマトンにお
ける「状態」に対応するので、学習した有限オートマト
ンの再構成をすることが可能である。
When the learning is successful, the trajectories of the output values of the elements of the intermediate layer are concentrated in a non-connected area in the phase space.
That is, it is known that some clusters are formed. Further, since this cluster corresponds to the “state” in the finite state automaton, it is possible to reconstruct the learned finite state automaton.

【0033】[0033]

【発明が解決しようとする課題】誤差を最も減少させる
方向へパラメータを修正する最急降下法では、一旦、最
小値でない局所的な極小値の谷に落ち込んでしまうと、
そこから抜け出せず全体の最小値に到達できないという
問題点がある。なお、局所的な極小値をローカルミニマ
ムといい、領域全体の最小値をグローバルミニマムとい
う。
In the steepest descent method in which a parameter is corrected in a direction in which an error is reduced to a minimum, once a valley of a local minimum value which is not the minimum value falls,
There is a problem that it is not possible to escape from there and to reach the overall minimum value. Note that a local minimum value is called a local minimum, and a minimum value of the entire area is called a global minimum.

【0034】また、学習データの入出力関係を獲得した
神経回路網においても、安定したオートマトン的動作の
保証はされず、長い系列のデータに対して不安定な挙動
を示すという問題がある。
Further, even in a neural network that has acquired the input / output relationship of learning data, stable automaton-like operation is not guaranteed, and there is a problem in that unstable behavior is exhibited for long series of data.

【0035】さらに、ニューロゲインパラメータβが大
きいとき、学習、すなわちwijの変化に対して素子の出
力が敏感に変化することがあり、途中で誤差が急増する
という問題がある。
Further, when the neurogain parameter β is large, the output of the element may change sensitively with respect to learning, that is, the change of w ij , and there is a problem that the error increases rapidly on the way.

【0036】本発明は、上記に鑑みてなされたもので、
その目的とするところは、ローカルミニマムへの落込み
を抑制し、誤差が少なく、安定した学習動作を行うこと
ができる回帰型神経回路網の学習方法を提供することに
ある。
The present invention has been made in view of the above,
An object of the present invention is to provide a learning method for a recurrent neural network that can suppress a drop to a local minimum, have a small error, and perform a stable learning operation.

【0037】[0037]

【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、離散時間、離散値の入力
時系列データと該データに対応した離散時間、離散値の
目標出力時系列データの組がいくつか与えられた時、入
力時系列データを離散時間、連続値の回帰型神経回路網
に入力し、該神経回路網の実際の出力データと目標出力
時系列データとの誤差を減少させるように逐次的に結合
重みパラメータを誤差平面の最急降下方向に修正し、そ
の入出力時系列データ間の関数を獲得する回帰型神経回
路網の学習方法であって、学習がある程度進み、誤差が
基準値以下に減少した段階から、誤差が増加しないよう
にニューロゲインパラメータを増加させつつ学習を進
め、また誤差が増加しないように学習係数を調整しなが
ら誤差が最も減少する方向に結合重みパラメータを修正
することを要旨とする。
In order to achieve the above object, according to the present invention, there is provided an input time series data of discrete time and discrete value and a target time of discrete time and discrete value corresponding to the data. When several sets of series data are given, input time series data is input to a discrete time, continuous value regression type neural network, and an error between actual output data of the neural network and target output time series data. A regression-type neural network learning method in which the connection weight parameter is successively corrected in the steepest descent direction of the error plane so as to reduce and the function between the input and output time series data is obtained. From the stage where the error decreases below the reference value, the learning proceeds while increasing the neuro gain parameter so that the error does not increase, and the error decreases most while adjusting the learning coefficient so that the error does not increase. And summarized in that to correct the connection weights parameter countercurrent.

【0038】請求項1記載の本発明にあっては、学習が
ある程度進み、誤差が基準値以下になった段階から、ニ
ューロゲインパラメータの値を増大させつつ学習を進め
るとともに、またニューロゲインパラメータの増大およ
び結合行列の修正により誤差が基準値以上に増大しない
ようにニューロゲインパラメータの増大幅および学習係
数の値を適応的に調整している。
According to the first aspect of the present invention, the learning is advanced to some extent and the learning is advanced while increasing the value of the neurogain parameter from the stage where the error becomes equal to or less than the reference value. The increase width of the neurogain parameter and the value of the learning coefficient are adaptively adjusted so that the error does not increase beyond the reference value due to the increase and the modification of the coupling matrix.

【0039】[0039]

【発明の実施の形態】まず、本発明の実施の形態を説明
する前に本発明に関連する基本的事項および原理につい
て説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Before describing the embodiments of the present invention, basic matters and principles relating to the present invention will be described.

【0040】誤差Eは神経回路網の結合重みwijの関数
である。そこで、誤差Eを結合重みwijを変数とする関
数とみなせば、 y=E({wij|i,j=1,…N}) (31) は平面をなし、これを誤差平面という。
The error E is a function of the connection weight w ij of the neural network. Therefore, if the error E is regarded as a function using the connection weight w ij as a variable, y = E ({w ij | i, j = 1,... N}) (31) forms a plane, which is called an error plane.

【0041】最急降下法では∂E/∂wijを計算する
が、このベクトル値は誤差平面の斜面の勾配が最も急な
方向を表していることになる。つまり、最急降下法にお
いては初期値のwijから誤差平面の最も急な方向にwij
が移動していくことになる。
In the steepest descent method, ∂E / ∂w ij is calculated, and this vector value indicates the direction in which the slope of the slope of the error plane is the steepest. That, w ij from w ij initial values in the steepest descent method in the steepest direction of the error plane
Will move.

【0042】ニューロゲインパラメータβが0のとき、
誤差平面は傾き0の平坦な平面である。なぜならば、σ
β=o(x)=1/2であり、素子の出力値がwijによ
らず常に一定になるからである。
When the neurogain parameter β is 0,
The error plane is a flat plane having a slope of 0. Because σ
This is because β = o (x) = 1 /, and the output value of the element is always constant regardless of w ij .

【0043】ニューロゲインパラメータβが∞の時、誤
差平面は微細な階段状の面となる。なぜならは、シグモ
イド関数は完全な{0,1}のステップ関数になり、E
も離散値をとるようになるからである。
When the neurogain parameter β is ∞, the error plane is a fine stepped surface. Because the sigmoid function becomes a complete {0,1} step function,
Also takes discrete values.

【0044】また、βの値を0から増加させていくと、
誤差平面の形状は初め平坦であったが、徐々に緩やかな
傾斜の山谷構造を持つようになる。さらに、βの値を増
加させていくと、傾きを増し険しい山谷の様相を示す。
そして最終的にはβ=∞で、断崖絶壁の階段状の面とな
る。
When the value of β is increased from 0,
Although the shape of the error plane was flat at first, it gradually has a mountain-valley structure with a gentle inclination. Furthermore, as the value of β is increased, the slope increases and a steep mountain-valley appearance is exhibited.
Finally, β = 、, and it becomes a step-like surface of a cliff.

【0045】これらのことからβが大きいとき、平地の
部分で学習が進まず、平地の境界の急斜面ではwijの変
化に対して素子の出力値の変化が敏感になるので、学習
は困難であることがわかる。比較的小さいβでは誤差平
面は緩やかな斜面で、学習は確実に進むことが期待でき
る。次にニューロゲインパラメータβと神経回路網の挙
動の関係を考える。オートマトンとしての神経回路網の
動作は、ニューロゲインパラメータβがある値βOより
大きくなると安定化し、任意の長さの入力記号列に対し
て安定した状態遷移および記号の出力が得られるように
なる。
From these facts, when β is large, learning does not proceed on a flat ground portion, and on a steep slope at the boundary of a flat ground, the change in the output value of the element becomes sensitive to the change in w ij , so that learning is difficult. You can see that there is. For a relatively small β, the error plane is a gentle slope, and learning can be expected to proceed reliably. Next, the relationship between the neurogain parameter β and the behavior of the neural network will be considered. The operation of the neural network as an automaton stabilizes when the neurogain parameter β becomes larger than a certain value β O , so that a stable state transition and symbol output can be obtained for an input symbol string of any length. .

【0046】ここでは安定にオートマトン的動作をする
理由を説明する。まず、幾つかの語句、記号の定義をす
る。
Here, the reason why the automaton operation is performed stably will be described. First, some words and symbols are defined.

【0047】NU 次元ユークリッド空間RNUを考え、中
間素子の出力ベクトルはRNU上の点とみなせる。ただ
し、0≦Si O ≦1であるので、NU 次元の単位超立方
体([0,1]Nu)中にしか存在しない。なお、今後
は簡単のため、SO はOを省略しSと書くことにする。
この超立方体の頂点をvとする、すなわちv=(v1
…,vNU)、vi ∈{0,1}である。また、頂点すべ
ての集合をV(={0,1}Nu)とする。
Considering a N U dimensional Euclidean space R NU , the output vector of the intermediate element can be regarded as a point on R NU . However, 0 because it is ≦ S i O ≦ 1, N U dimensional unit hypercube ([0,1] Nu) only present in the. It should be noted that, for the sake of simplicity in the future, S O is to be written as to omit the O S.
Let the vertex of this hypercube be v, ie v = (v 1 ,
.., V NU ) and v i {0, 1}. Also, a set of all vertices is set to V (= {0, 1} Nu).

【0048】結合行列Wと有限個の入力ベクトルξα
(α=α1 ,…,αp )が与えられたとする。RNU上の
平面
A coupling matrix W and a finite number of input vectors ξα
(Α = α 1 ,..., Α p ) is given. Plane on R NU

【数18】 を考える。これをHi αと呼ぶことにする。これら平面
i α(α=α1 ,…,αp,i =1,…NU )によって
NUは部分空間Pv,αへと分割される。
(Equation 18) think of. This will be referred to as Hi α. R NU is divided into subspaces P v, α by these planes H i α (α = α 1 ,..., Α p, i = 1,... N U ).

【0049】[0049]

【数19】 次にDv を次のように定義する。[Equation 19] Next, D v is defined as follows.

【0050】 Dv =fβ(Pv,α,α) (33) ここでfβ(S,α)は次の意味である。Dv = fβ ( Pv, α, α) (33) where fβ (S, α) has the following meaning.

【0051】 fβ(S,α)=σβ((WUUS+WUIξα)) (34) Dv はαとβには依存しないことに注意しよう。S∈P
v,αのとき、fβ(S,α)の値域がαにもβにも依存
しないことを示そう。Sの写像先S´は、
[0051] fβ (S, α) = σβ ((W UU S + W UI ξα)) (34) D v is trying to note that does not depend on α and β. S∈P
Let us show that when v and α, the range of fβ (S, α) does not depend on α or β. The mapping destination S ′ of S is

【数20】 となるが、式(32)より、vi =0のとき、(Equation 20) From equation (32), when v i = 0,

【数21】 であり0<(S')i <1/2となる。また、vi =1のと
き、
(Equation 21) 0 <(S ′) i <1 /. When v i = 1,

【数22】 であり、1/2<(S')i <1となる。したがって、Sの
写像先はαとβには依存しない領域であることがわか
る。すなわち、
(Equation 22) And 1/2 <(S ′) i <1. Therefore, it can be seen that the mapping destination of S is a region independent of α and β. That is,

【数23】 である。(Equation 23) It is.

【0052】F:{V×X}→Vを頂点間遷移関数と呼
ぶことにする。Fによってvp からvq へ到達できる入
力シンボル列α1 α2 ,…,αn が存在するとき、vp
とvq は連結しているという。連結している頂点の集合
をVc (⊆V)とする。S∈Dv に対してg(S)=v
と関数gを定義する。具体的にFはgを使い次のように
定義することにする。
F: {V × X} → V is called an inter-vertex transition function. When there exists an input symbol sequence α 1 α 2 ,..., Α n that can reach v q from v p by F, v p
And v q are connected. A set of connected vertices is defined as V c (⊆V). S∈D v against g (S) = v
And a function g are defined. Specifically, F is defined as follows using g.

【0053】 F(v,α)=gofβ(v,α) (37) Nv を次のように定義する。[0053] F (v, α) = gofβ (v, α) (37) a N v is defined as follows.

【0054】 Nv =Dv ∩PF(v,α1),α1 ∩…∩PF(v,αP),αP (38) αi が与えられた時、vがFによってv' =F(v,α
i )に写像されるように、PF(v,α1),α1 はfβによ
ってDv'に写像される領域を意味する。
N v = D v ∩P F (v, α 1) , α 1 ∩... ∩P F (v, α P) , α P (38) F (v, α
As mapped to i ), PF (v, α 1) , α 1 means the area mapped to D v ′ by fβ.

【0055】つまり、Nv =0であるならば、 gof(Nv ,αi )=F(v,αi ) 但し、i=1,…,P (39) である。That is, if N v = 0, then gof (N v , α i ) = F (v, α i ) where i = 1,..., P (39).

【0056】[定理]Vc の全ての要素vに対して、v
∈Nv c (Nv c はNv の境界も含む領域である。)で
あるならば、次のような有限値のβ0 が存在する。βが
β0以上の任意の値のとき、 fβαn o…ofβα2 ofβα1 (Dvo)⊂Nv1' 1 =Fαn o…oFα1 oFα1 (v0 ) (40) が任意のvo ∈Vc 、任意の長さの入力記号列α1 α2
…α∈X* に対して成り立つ。ここで、Fα(V)とf
βαはそれぞれf(v,α)とfβ(S,ξα)と同じ
意味である。β0 を臨界ニューロゲインパラメータと呼
ぶことにする。
[Theorem] For all elements v of V c , v
If ∈N v c (N v c is a region including a boundary of N v.) Is, there are beta 0 finite value as follows. When beta is any value or β 0, fβα n o ... ofβα 2 ofβα 1 (D vo) ⊂N v1 'v 1 = Fα n o ... oFα 1 oFα 1 (v 0) (40) any v o ∈V c , input symbol string α1 α2 of arbitrary length
... holds true for α∈X * . Here, Fα (V) and f
βα has the same meaning as f (v, α) and fβ (S, ξα), respectively. Let β 0 be called the critical neurogain parameter.

【0057】[証明]全ての入力記号α∈X、つまり全
ての種類の入力ベクトルξαに対して、ップシュータて fβα(Nv )⊆TF(v,α)⊆NF(v,α) となる超立方体Tv (v∈Vc )がβの条件によって構
成できることを示す。
[Proof] For all input symbols α∈X, that is, for all types of input vectors ξα, a pusher is given as fβα (N v ) ⊆TF (v, α) ⊆NF (v, α). It is shown that the following hypercube T v (v∈V c ) can be formed by the condition of β.

【0058】入力記号列α1α2…に対して頂点遷移関
数Fによりり頂点v0 →v1 →v2→…と遷移していく
としよう。この時、上記のようなTv が構成できれば、
神経回路網の中間素子の出力ベクトルが作る状態ベクト
ルはNv0,Nv1,Nv2,…中を順に経巡ることとなり、
安定な状態遷移をする。
Assume that the vertices v 0 → v 1 → v 2 →... Transition with respect to the input symbol strings α 1 α 2 . At this time, if T v as described above can be constructed,
The state vector created by the output vector of the intermediate element of the neural network goes through N v0 , N v1 , N v2 ,.
Make a stable state transition.

【0059】Sおよび入力ベクトルξαに対してFor S and the input vector ξα,

【数24】 と定義する。(Equation 24) Is defined.

【0060】S∈Nv の時、fβ(S,ξα)∈DF(v,
α) であるので、もし(F(v,α))i =1であるならば
i α>0であり、(F(v,α))i =0であるならばh
i α<0である。したがって、βが無限大に近づくとき
σβ(hi α)はそれぞれ、1と0に近づくことが分か
る。
[0060] when the S∈N v, fβ (S, ξα ) ∈D F (v,
α ) , if (F (v, α)) i = 1, then hi α> 0, and if (F (v, α)) i = 0, then h
i α <0. Therefore, it can be seen that when β approaches infinity, σβ (h i α) approaches 1 and 0, respectively.

【0061】Nv の頂点をzk (k=1,…,K)と
し、φv,i 、ψv,i を次のように定義する。
The vertex of N v is z k (k = 1,..., K), and φ v, i and ψ v, i are defined as follows.

【0062】[0062]

【数25】 φv,i 、ψv,i を用いてTv は次のように決めることが
できる。
(Equation 25) T v can be determined as follows using φ v, i and ψ v, i .

【0063】[0063]

【数26】 ここで、Tv ⊆Nv であることを注意しておく。(Equation 26) Note that T v ⊆N v .

【0064】また、次のようにβi v,αを定義する。[0064] In addition, as shown in the following β i v, to define the α.

【0065】各v,α,iおよび全てのS∈Nv に対し
て、
For each v, α, i and all S∈N v ,

【数27】 を満たす最小のβをβi v,αとする。[Equation 27] Let β i v, α be the minimum β that satisfies.

【0066】ここで、V' =F(v,α) である。ここで
v は凸な空間であるので、hi αの最大値や最小値は
SがNv の頂点上で生じる。よって、全てのS∈Nv
調べる必要はなく、全ての頂点だけ条件を満たしている
か調べれば十分である。また、 βv,α=max i βi v,
αとするならば、β≧βv,αに対して、 fβ(S,ξα)∈Tv' (46) が成り立つことがわかる。したがって、
Here, V ′ = F (v, α). Here, since N v is the convex space, the maximum value and the minimum value of h i alpha occurs on the vertices of S is N v. Thus, it is not necessary to examine all of S∈N v, it is sufficient to examining whether the condition is satisfied only all vertices. Β v, α = max i β i v,
If α is set, it can be seen that fβ (S, ∈α) ' T v ′ (46) holds for β ≧ β v, α. Therefore,

【数28】 のようにβ1 を選べば、全てのv∈Vc とα∈Xに対し
てfβ1 (Nv,α)はTv'の部分集合となることが分か
る。
[Equation 28] By selecting β 1 as follows, it can be seen that fβ 1 (N v, α) is a subset of Tv ′ for all v∈V c and α∈X.

【0067】したがって、上記のように定めたβ1 より
大きいβを選んでおけば、任意のS0 ∈Nvoに対して Tv1∋fβα(S0 )=S1 , Tv2∋fβα(S1 )S2 , Tv3∋fβα(S2 )=S3 ,…となり、任意の入力記
号列に対して、常にNv の中に軌道が写像されることと
なり、臨界ニューロゲインパラメータβ0 (≦β1 )は
存在する、つまり定理は証明されたことになる。
Therefore, if β larger than β1 determined as described above is selected, for any S 0 ∈N vo , T v1 ∋fβα (S 0 ) = S 1 , T v2 ∋fβα (S 1 ) S 2 , T v3 ∋fβα (S 2 ) = S 3 ,..., And for any input symbol string, the trajectory is always mapped into N v , and the critical neurogain parameter β 0 (≦ β 1 ) exists, that is, the theorem has been proved.

【0068】上記の内容を鑑みて、初めニューロゲイン
パラメータβをある小さい値に設定し、誤差が最小値に
なるようwijを修正する。緩やかな斜面での効率的な学
習とローカルミニマムへの落込みの回避が期待できる。
In view of the above, first, the neurogain parameter β is set to a certain small value, and wij is corrected so that the error becomes a minimum value. Efficient learning on gentle slopes and avoidance of local minimum can be expected.

【0069】次に徐々にβを大きくしていきβ0 に達す
れば、安定な状態遷移が得られる。βが大きい場合、結
合重みの変化に対して素子の出力値が敏感に変化して誤
差が急激に増加することがある。しかし、ここではηを
適応的に決定しているので、結合重みの修正幅を慎重に
調整していることになり誤差が急激に増加することはな
い。
Next, when β gradually increases and reaches β 0 , a stable state transition can be obtained. When β is large, the output value of the element changes sensitively to the change in the connection weight, and the error may increase rapidly. However, since η is adaptively determined here, the correction width of the connection weight is carefully adjusted, and the error does not increase sharply.

【0070】次に、図面を参照して本発明の実施形態に
ついて説明する。図1は、本発明の一実施形態に係わる
回帰型神経回路網の学習方法を実施する時系列データ学
習装置の構成を示すブロック図である。図1において、
1はパラメータ、データ、計算途中の結果等を蓄積して
おくメモリ、2は学習データが入力されるデータ入力
部、3は出力素子の出力値を出力するデータ出力部、4
は神経素子の値を蓄積しておく神経素子値記憶部、5は
結合重みの値を記憶しておく結合重み記憶部、6は各部
の動作を制御する制御部、7はパラメータから神経回路
網を構成し、結合重みを乱数により初期化する神経回路
網初期化部、8は素子の時間発展を計算し、素子値を更
新する素子時間発展計算部、9はニューロゲインパラメ
ータβの値を決めるβ値決定部、10は学習係数ηの値
を決めるη値決定部、11は最急降下方向を計算する最
急降下方向計算部、12は結合重みを修正する結合重み
行列修正部である。
Next, an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a configuration of a time-series data learning device that implements a learning method for a recurrent neural network according to an embodiment of the present invention. In FIG.
Reference numeral 1 denotes a memory for storing parameters, data, results during calculation, etc., 2 a data input unit for inputting learning data, 3 a data output unit for outputting an output value of an output element, 4
Is a neural element value storage unit for storing values of neural elements, 5 is a connection weight storage unit for storing connection weight values, 6 is a control unit for controlling the operation of each unit, and 7 is a neural network based on parameters. , A neural network initialization unit that initializes connection weights by random numbers, 8 calculates an element time evolution, and updates an element value. 9 determines a value of a neurogain parameter β. A β value determination unit 10, a η value determination unit 10 for determining the value of the learning coefficient η, a steepest descent direction calculation unit 11 for calculating the steepest descent direction, and a connection weight matrix correction unit 12 for correcting the connection weight.

【0071】次に、図2に示すフローチャートを参照し
て、以上のように構成される時系列データ学習装置の作
用を説明する。
Next, the operation of the time-series data learning device configured as described above will be described with reference to the flowchart shown in FIG.

【0072】まず、神経回路網初期化部7により素子数
等のパラメータから神経回路網を構成し、結合重みを乱
数により初期化し(ステップS21)、ニューロゲイン
パラメータβおよび学習係数ηを初期値に設定する(ス
テップS22)。なお、ニューロゲインパラメータβの
初期値は小さい値に設定する。
First, the neural network initializing unit 7 forms a neural network from parameters such as the number of elements, initializes connection weights with random numbers (step S21), and sets the neurogain parameter β and the learning coefficient η to initial values. It is set (step S22). Note that the initial value of the neuro gain parameter β is set to a small value.

【0073】次に、β値決定部9によりニューロゲイン
パラメータβの値を決定する(ステップS23)。この
ニューロゲインパラメータβの値の決定処理については
図3を参照して詳細に後述する。それから、素子値を初
期化する(ステップS24)。データ入力部2から入力
層の素子に時系列データを入力する(ステップS2
5)。素子値を時間発展の式に基づき更新する(ステッ
プS26)。そして、全パターンを終了したか否か、す
なわち全ての時系列データが入力されたか否かをチェッ
ク(ステップS27)、そうでない場合に、ステップS
24に戻って、全ての時系列データが入力されるまで繰
り返すが、全ての時系列データが入力されている場合に
は、ステップ28に進み、最急降下方向計算部11で最
急降下方向を計算する。
Next, the value of the neurogain parameter β is determined by the β value determining section 9 (step S23). The process of determining the value of the neuro gain parameter β will be described later in detail with reference to FIG. Then, the element values are initialized (step S24). Time series data is input from the data input unit 2 to the elements of the input layer (step S2).
5). The element value is updated based on the time evolution formula (step S26). Then, it is checked whether or not all the patterns have been completed, that is, whether or not all the time-series data has been input (step S27).
Returning to 24, the process is repeated until all the time-series data is input. If all the time-series data has been input, the process proceeds to step 28, where the steepest descent direction calculation unit 11 calculates the steepest descent direction. .

【0074】それから、η値決定部10により学習係数
ηの値を決定し(ステップS29)、この決定された学
習係数ηおよび最急降下方向に基づいて結合重み行列修
正部12で結合重みを修正する(ステップS30)。そ
して、誤差が許容範囲以内であるか否かをチェックし
(ステップS31)、誤差が許容範囲以内の場合には、
処理を終了するが、そうでない場合には、ステップS2
3に戻り同じ処理を繰り返す。
Then, the value of the learning coefficient η is determined by the η value determination section 10 (step S29), and the connection weight is corrected by the connection weight matrix correction section 12 based on the determined learning coefficient η and the steepest descent direction. (Step S30). Then, it is checked whether or not the error is within an allowable range (step S31).
The process ends, but if not, step S2
3 and the same process is repeated.

【0075】次に、図3に示すフローチャートを参照し
て、図2のステップS23におけるニューロゲインパラ
メータβの値を適応的に決定する処理について説明す
る。なお、この処理において、最大誤差とは、
Next, the process of adaptively determining the value of the neurogain parameter β in step S23 of FIG. 2 will be described with reference to the flowchart shown in FIG. In this process, the maximum error is

【数29】 であり、すべての学習データを正しく学習できたかを判
定するのに使用することもできる。この値が0.5より
小さければ、すべて正しく学習できていることになる。
(Equation 29) It can also be used to determine whether all learning data has been learned correctly. If this value is smaller than 0.5, it means that all learning has been completed correctly.

【0076】図3の処理では、まず最大誤差Emax が
0.5未満であるか否かがチェックされ(ステップS4
1)、0.5未満である場合には、ニューロゲインパラ
メータβの値および増大幅Δをそれぞれβ0 、Δ0 に初
期化し(ステップS43)、0.5未満でない場合に
は、ステップS42に進み、ニューロゲインパラメータ
βをそのままの値で出力して処理を終了する。
In the process of FIG. 3, first, it is checked whether or not the maximum error Emax is less than 0.5 (step S4).
1) If it is less than 0.5, the value of the neurogain parameter β and the increase width Δ are initialized to β 0 and Δ 0 respectively (step S43), and if not less than 0.5, the process proceeds to step S42. Then, the neuro gain parameter β is output as it is, and the process is terminated.

【0077】それから、最大誤差E(β)がE(β+
Δ)より大きいか否かをチェックし(ステップS4
4)、大きい場合には、ニューロゲインパラメータβの
値および増大幅をβ←β+Δ,Δ←2Δに増加する(ス
テップS45)。そして、最大誤差E(β)がE(β+
Δ)より小さいか否かをチェックする(ステップS4
6)。小さい場合には、ニューロゲインパラメータβの
値が決定したとして、該ニューロゲインパラメータβの
値を出力し、処理を終了する(ステップS47)。最大
誤差E(β)がE(β+Δ)より小さくない場合には、
ステップS45に戻り、同様にニューロゲインパラメー
タβの値および増大幅をβ←β+Δ,Δ←2Δに増加し
て、同じ処理を繰り返す。
Then, the maximum error E (β) becomes E (β +
Δ) is checked (step S4).
4) If it is larger, the value and increase width of the neurogain parameter β are increased to β ← β + Δ, Δ ← 2Δ (step S45). Then, the maximum error E (β) is E (β +
Δ) or not (step S4)
6). If the value is smaller, it is determined that the value of the neurogain parameter β has been determined, the value of the neurogain parameter β is output, and the process ends (step S47). If the maximum error E (β) is not smaller than E (β + Δ),
Returning to step S45, similarly, the value and the increase width of the neuro gain parameter β are increased to β ← β + Δ, Δ ← 2Δ, and the same processing is repeated.

【0078】ステップS44のチェックにおいて、最大
誤差E(β)がE(β+Δ)以下である場合には、ステ
ップS48に進み、ニューロゲインパラメータβの増加
幅ΔをΔ/2に減少させる。そして、最大誤差E(β)
がE(β+Δ)より大きいか否かをチェックし(ステッ
プS49)、大きい場合には、ニューロゲインパラメー
タ(β+Δ)を出力し、ニューロゲインパラメータβの
値を決定し、処理を終了する(ステップS50)。
If it is determined in step S44 that the maximum error E (β) is equal to or smaller than E (β + Δ), the process proceeds to step S48, and the increment Δ of the neurogain parameter β is reduced to Δ / 2. And the maximum error E (β)
Is greater than or equal to E (β + Δ) (step S49), and if so, the neurogain parameter (β + Δ) is output, the value of the neurogain parameter β is determined, and the process is terminated (step S50). ).

【0079】ステップS49のチェックにおいて、最大
誤差E(β)がE(β+Δ)以下の場合には、ステップ
S51に進み、ステップS48,49の処理の回数が所
定の規定回数を越えているか否かをチェックする。越え
ていない場合には、ステップS48に戻り、同じ処理を
繰り返すが、越えている場合には、ステップS52に進
み、ニューロゲインパラメータB0 の値を出力し、処理
を終了する(βの値の決定)。
If it is determined in step S49 that the maximum error E (β) is equal to or smaller than E (β + Δ), the flow advances to step S51 to determine whether or not the number of processes in steps S48 and S49 exceeds a predetermined number. Check. If not, the process returns to step S48 to repeat the same processing. If it does, the process proceeds to step S52, where the value of the neurogain parameter B 0 is output, and the process ends (the value of β Decision).

【0080】次に、図4に示すフローチャートを参照し
て、図2のステップS29における学習係数ηの値を適
応的に決定する処理について詳述する。なお、この処理
において、E(η)とは、学習係数ηで結合重みを変更
した後で計算した全誤差の自乗和E(式(15))のこ
とである。
Next, the processing for adaptively determining the value of the learning coefficient η in step S29 of FIG. 2 will be described in detail with reference to the flowchart shown in FIG. In this process, E (η) refers to the sum of squares E (Equation (15)) of all errors calculated after changing the connection weight with the learning coefficient η.

【0081】図4の処理では、まず学習係数ηの値をη
0 に初期化する(ステップS61)。それからE(0)
がE(η)より小さいか否かをチェックし(ステップS
62)、小さい場合には、学習係数ηの値をη/2に減
少させ(ステップS66)、E(0)がE(η)より大
きいか否かをチェックする(ステップS67)。大きい
場合には、ステップS68に進み、学習係数ηの値を出
力し、処理を終了する(ηの値の決定)。E(0)がE
(η)以下の場合には、ステップS66に戻り、学習係
数ηをη/2に減少し、同じ処理を繰り返す。
In the process of FIG. 4, first, the value of the learning coefficient η is set to η
Initialized to 0 (step S61). Then E (0)
Is smaller than E (η) (step S).
62) If it is smaller, the value of the learning coefficient η is reduced to η / 2 (step S66), and it is checked whether E (0) is larger than E (η) (step S67). If it is larger, the process proceeds to step S68, where the value of the learning coefficient η is output, and the process ends (determination of the value of η). E (0) is E
If (η) or less, the process returns to step S66, where the learning coefficient η is reduced to η / 2, and the same processing is repeated.

【0082】一方、ステップS62の処理において、E
(0)がE(η)以上の場合には、ステップS63に進
み、E(η)がE(2η)より小さいか否かをチェック
し、小さくない場合には、ステップS65に進み、学習
係数ηの値を2ηに増加し、同じ処理を繰り返すが、小
さい場合には、ステップS64に進み、学習係数ηを出
力し、処理を終了する(ηの値の決定)。
On the other hand, in the process of step S62, E
If (0) is equal to or larger than E (η), the process proceeds to step S63, and it is checked whether E (η) is smaller than E (2η). The value of η is increased to 2η, and the same process is repeated. If the value is small, however, the process proceeds to step S64, where the learning coefficient η is output, and the process is terminated (determination of the value of η).

【0083】[0083]

【発明の効果】以上説明したように、本発明によれば、
回帰結合を持つ神経回路網の時系列データの学習の初期
段階においては小さなニューロゲインパラメータβを用
いることによりローカルミニマムへの落込みを極力抑制
し、効率的な学習を行うことができ、また学習がある程
度進んだ段階からは、ニューロゲインパラメータβを徐
々に増大させながら学習を行い、神経回路網は安定な状
態遷移が獲得できる。更に、ニューロゲインパラメータ
β、学習係数ηを一旦獲得した入出力関係を破壊するこ
とのないように適応的に調整することで安定な学習を行
うことができる。
As described above, according to the present invention,
In the initial stage of learning the time series data of the neural network with regression coupling, the use of a small neuro-gain parameter β minimizes the drop to the local minimum, enabling efficient learning. From a stage where the learning has progressed to some extent, learning is performed while gradually increasing the neurogain parameter β, and the neural network can acquire a stable state transition. Furthermore, stable learning can be performed by adaptively adjusting the neurogain parameter β and the learning coefficient η so as not to destroy the input / output relationship once obtained.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態に係わる回帰型神経回路網
の学習方法を実施する時系列データ学習装置の構成を示
すブロック図である。
FIG. 1 is a block diagram illustrating a configuration of a time-series data learning device that implements a learning method for a recurrent neural network according to an embodiment of the present invention.

【図2】図1に示す時系列データ学習装置の作用を示す
フローチャートである。
FIG. 2 is a flowchart showing the operation of the time-series data learning device shown in FIG.

【図3】図2のステップS23におけるニューロゲイン
パラメータβの値を適応的に決定する処理を示すフロー
チャートである。
FIG. 3 is a flowchart showing a process of adaptively determining a value of a neurogain parameter β in step S23 of FIG.

【図4】図2のステップS29における学習係数ηの値
を適応的に決定する処理を示すフローチャートである。
FIG. 4 is a flowchart showing processing for adaptively determining a value of a learning coefficient η in step S29 of FIG. 2;

【図5】回帰型神経回路網の構成の一種であるEima
nネットの構成を示す図である。
FIG. 5 shows Eima, which is a kind of a configuration of a recurrent neural network.
It is a figure showing composition of n net.

【符号の説明】[Explanation of symbols]

1 メモリ 2 データ入力部 3 データ出力部 4 神経素子値記憶部 5 結合重み記憶部 6 制御部 7 神経回路網初期化部 8 素子時間発展計算部 9 β値決定部 10 η値決定部 11 最急降下方向計算部 12 結合重み行列修正部 Reference Signs List 1 memory 2 data input unit 3 data output unit 4 neural element value storage unit 5 connection weight storage unit 6 control unit 7 neural network initialization unit 8 element time evolution calculation unit 9 β value determination unit 10 η value determination unit 11 steepest descent Direction calculation unit 12 Connection weight matrix correction unit

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 離散時間、離散値の入力時系列データと
該データに対応した離散時間、離散値の目標出力時系列
データの組がいくつか与えられた時、入力時系列データ
を離散時間、連続値の回帰型神経回路網に入力し、該神
経回路網の実際の出力データと目標出力時系列データと
の誤差を減少させるように逐次的に結合重みパラメータ
を誤差平面の最急降下方向に修正し、その入出力時系列
データ間の関数を獲得する回帰型神経回路網の学習方法
であって、学習がある程度進み、誤差が基準値以下に減
少した段階から、誤差が増加しないようにニューロゲイ
ンパラメータを増加させつつ学習を進め、また誤差が増
加しないように学習係数を調整しながら誤差が最も減少
する方向に結合重みパラメータを修正することを特徴と
する回帰型神経回路網の学習方法。
When given several sets of discrete-time, discrete-valued input time-series data and discrete-time, discrete-valued target output time-series data corresponding to the data, the input time-series data is divided into discrete-time, A continuous value is input to the regression type neural network, and the connection weight parameter is sequentially corrected in the steepest descent direction of the error plane so as to reduce the error between the actual output data of the neural network and the target output time series data. A learning method for a regression-type neural network that acquires a function between the input and output time-series data, wherein the learning has progressed to some extent and the neurogain has been set so that the error does not increase from the stage where the error decreases below a reference value. A regression-type neural circuit characterized in that learning is advanced while increasing parameters, and a connection weight parameter is corrected in a direction in which an error is reduced while adjusting a learning coefficient so that an error does not increase. Web learning method.
JP9061473A 1997-03-14 1997-03-14 Learning method for regression-type neural network Pending JPH10254846A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9061473A JPH10254846A (en) 1997-03-14 1997-03-14 Learning method for regression-type neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9061473A JPH10254846A (en) 1997-03-14 1997-03-14 Learning method for regression-type neural network

Publications (1)

Publication Number Publication Date
JPH10254846A true JPH10254846A (en) 1998-09-25

Family

ID=13172075

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9061473A Pending JPH10254846A (en) 1997-03-14 1997-03-14 Learning method for regression-type neural network

Country Status (1)

Country Link
JP (1) JPH10254846A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016006617A (en) * 2014-06-20 2016-01-14 ヤフー株式会社 Learning device, learning method, and learning program
CN112445134A (en) * 2020-11-19 2021-03-05 北京航空航天大学 Fast reflector online approximation self-adaptive control method considering incomplete modeling

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016006617A (en) * 2014-06-20 2016-01-14 ヤフー株式会社 Learning device, learning method, and learning program
CN112445134A (en) * 2020-11-19 2021-03-05 北京航空航天大学 Fast reflector online approximation self-adaptive control method considering incomplete modeling

Similar Documents

Publication Publication Date Title
Almeida Multilayer perceptrons
US10832123B2 (en) Compression of deep neural networks with proper use of mask
US10762426B2 (en) Multi-iteration compression for deep neural networks
Kwok et al. Constructive algorithms for structure learning in feedforward neural networks for regression problems
Suliman et al. A review on back-propagation neural networks in the application of remote sensing image classification
US4912651A (en) Speeding learning in neural networks
Santini et al. Block-structured recurrent neural networks
Scardapane et al. Kafnets: kernel-based non-parametric activation functions for neural networks
Kothari et al. Neural networks for pattern recognition
Mascioli et al. Constructive algorithm for neuro-fuzzy networks
JP7438610B2 (en) Neuromorphic device with crossbar array structure
Hintz et al. Evolving a neural network
KR0185757B1 (en) Learning method of choas circular neural net
Sridhar et al. Improved adaptive learning algorithm for constructive neural networks
Rady Reyni’s entropy and mean square error for improving the convergence of multilayer backprobagation neural networks: a comparative study
JPH10254846A (en) Learning method for regression-type neural network
US7373333B2 (en) Information processing apparatus and method, program storage medium and program
JP2004118658A (en) Physical system control method and device for same, and computer program for controlling physical system
Sorheim A combined network architecture using ART2 and back propagation for adaptive estimation of dynamical processes
Bengio et al. An EM approach to learning sequential behavior
JPH08221378A (en) Learning machine
Goryn et al. Conjugate gradient learning algorithms for multilayer perceptrons
JPH0991264A (en) Method and device for optimizing neural network structure
JPH0644207A (en) Neural network and its constituting method
JPH09282298A (en) Method and device for learning time-sequential data