JPH0554163A - Neural network and learning method thereof - Google Patents

Neural network and learning method thereof

Info

Publication number
JPH0554163A
JPH0554163A JP21964491A JP21964491A JPH0554163A JP H0554163 A JPH0554163 A JP H0554163A JP 21964491 A JP21964491 A JP 21964491A JP 21964491 A JP21964491 A JP 21964491A JP H0554163 A JPH0554163 A JP H0554163A
Authority
JP
Japan
Prior art keywords
learning
layer
intermediate layer
sequence
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP21964491A
Other languages
Japanese (ja)
Inventor
Sumio Watanabe
澄夫 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP21964491A priority Critical patent/JPH0554163A/en
Priority to US07/898,202 priority patent/US5528729A/en
Publication of JPH0554163A publication Critical patent/JPH0554163A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

PURPOSE:To provide the efficient learning method by making the property of the neural network clear by analyzing the frequency of the neural network. CONSTITUTION:In the case of calculating constants ai, Wi and thetai so as to minimize the error of output data to teacher data f(x), first of all, Fourier transformation F(k) of the teacher data f(x) is calculated (S1). Next, a sampling interval T is decided, a sequence gn is generated from gn=nT.F(nt) (S2), and a sequence pi satisfying gn+p1gn-1+p2gn-2+...+pNgn-N=0 is calculated from the sequence gn (S3). Afterwards, a resolution Zi is calculated by resolving xN+p1xN<-1>+p2 xN<-2>+...+pN=0 from the sequence pi (S4) and next, the constants Wi and thetai are calculated from Wi=-T/log¦Zi¦ and thetai=arg(Zi)/log¦Zi¦ (S5). Then, tan<-1>(Wix+thetai) is calculated from the constants Wi and thetai by replacing the output of an intermediate layer, the constant ai is calculated by a method of least squares, and the processing is finished (S6).

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】この発明はニューラルネットワー
クに関し、音声認識、音声合成、文字認識、ロボット制
御、株価予測など、ニューラルネットワークが応用でき
る全ての分野に適用できるものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a neural network, and can be applied to all fields to which a neural network can be applied, such as voice recognition, voice synthesis, character recognition, robot control and stock price prediction.

【0002】[0002]

【従来の技術】ここ数年、ニューラルネットワークを用
いた音声・画像認識や時系列予測等の研究が活発に行わ
れており、その有効性が確かめられている。また、ニュ
ーラルネットワークを実現したハードウェアも販売され
始め、様々な製品への応用がなされて本格的な実用化が
始まろうとしている。例えば、渡辺・米山らによる『ニ
ューラルネットワークを用いた超音波3次元物体認識
法』(信学技報,US90−29(1990年))においてもか
なり良好な結果が得られており、実用化への検討が進め
られている。
2. Description of the Related Art In recent years, studies on voice / image recognition and time series prediction using neural networks have been actively conducted, and their effectiveness has been confirmed. In addition, hardware that implements neural networks has begun to be sold, and it has been applied to various products and is about to be put into practical use. For example, Watanabe and Yoneyama et al.'S "Ultrasonic three-dimensional object recognition method using neural network" (Shingaku Giho, US90-29 (1990)) gave quite good results. Is under consideration.

【0003】ニューラルネットワークの学習問題を定式
化すると次のようになる。すなわち、3層パーセプトロ
ン型ニューラルネットワークの学習問題とは、教師デー
タと呼ばれる与えられた実関数f(x) を、予め定められ
ている単調増加関数σ(x) の線形和
The learning problem of the neural network is formulated as follows. That is, the learning problem of the three-layer perceptron type neural network is that the given real function f (x) called the teacher data is linearly summed with a predetermined monotonically increasing function σ (x).

【数1】 ただし、ai :出力層のシナプス荷重 (i=1,2,…,N、Nは中間層のニューロンの個数) wi :中間層のシナプス荷重 θi :中間層の閾値 ε(x) :誤差 に展開する問題である。つまり、関数ε(x) が所定の基
準のもとで最も小さくなるように定数ai ,wi ,θi
を求める問題である。ここで、関数σ(wi x+θi
は中間層のi番目のニューロンの出力値を示し、関数σ
(x)としてはシグモイド関数〔1/(1+exp(−
x))〕が使われる。
[Equation 1] However, a i : Synapse load of the output layer (i = 1,2, ..., N, N is the number of neurons in the intermediate layer) w i : Synapse load of the intermediate layer θ i : Threshold value of the intermediate layer ε (x): This is a problem that develops into error. That is, the constants a i , w i and θ i are set so that the function ε (x) becomes the smallest under a predetermined criterion.
Is the problem of seeking. Here, the function σ (w i x + θ i )
Represents the output value of the i-th neuron in the hidden layer, and the function σ
As (x), the sigmoid function [1 / (1 + exp (-
x))] is used.

【0004】教師データf(x) に対して最もよい定数a
i ,wi ,θi を求める方法は、これまでのところ誤差
逆伝播法だけしか知られていない。誤差逆伝播法では、
次式で誤差関数Eを求め
Best constant a for teacher data f (x)
Only the back-propagation method has been known so far as a method for obtaining i , w i and θ i . In error backpropagation,
Calculate the error function E by the following formula

【数2】 この誤差関数Eを利用して、最急降下法 Δai =−η∂E/∂ai Δwi =−η∂E/∂wi Δθi =−η∂E/∂θi により、定数ai ,wi ,θi を求めるものである。[Equation 2] Using this error function E, the steepest descent method Δa i = −η∂E / ∂a i Δw i = −η∂E / ∂w i Δθ i = −η∂E / ∂θ i is used to obtain a constant a i , W i , θ i are obtained.

【0005】[0005]

【発明が解決しようとする課題】誤差逆伝播法は、これ
まで困難であった3層以上のニューラルネットワークの
学習を可能にしたが、この方法はランダムな初期値から
出発して最急降下法で学習を行うため、次のような不都
合が生じる。 学習に膨大な時間を要する。 学習が局所極小に落ちて進まなくなることがある。 どのような特徴が学習されているのか分らず、学習
結果が解釈できない。 中間層の役割が明らかでなく、その個数は試行錯誤
によって決定しなければならない。個数が少なすぎると
学習が進まず、多すぎると過学習となる。
The back-propagation method has made it possible to learn a neural network having three or more layers, which has been difficult so far. However, this method starts from a random initial value and uses the steepest descent method. Since learning is performed, the following inconveniences occur. It takes a huge amount of time to learn. Learning may fall to a local minimum and not progress. I do not understand what features are being learned, and I cannot interpret the learning results. The role of the intermediate layer is not clear and its number must be determined by trial and error. If the number is too small, learning will not proceed, and if too many, over learning will occur.

【0006】そこで、これらの不都合を補正するために
誤差逆伝播法を改良するいくつかの試みがなされてい
る。しかし、どの方法もニューラルネットワークの数理
的な性質を明らかにすることなく行われているため、本
質的な改善とはなっていない。また、ニューラルネット
ワークの数理的な性質を明らかにすることは、その非線
形性のために困難であると考えられてきた。この発明
は、ニューラルネットワークの周波数解析を行うことに
よってニューラルネットワークの性質を明らかにし、効
率的な学習方法を提供することを目的とする。
Therefore, several attempts have been made to improve the error backpropagation method in order to correct these disadvantages. However, none of these methods are essential improvements because they are performed without clarifying the mathematical properties of neural networks. It has also been considered difficult to clarify the mathematical properties of neural networks because of their non-linearity. An object of the present invention is to clarify the properties of a neural network by performing frequency analysis of the neural network and to provide an efficient learning method.

【0007】[0007]

【課題を解決するための手段】この発明は、入力層と、
複数Nユニットのニューロンを有する中間層と、出力層
とを備え、入力層から中間層へのシナプス荷重をw
i (ただし、i=1,2,…,N)、中間層の各ニューロンの
閾値をθi 、中間層から出力層へのシナプス荷重をai
とするとき、教師データf(x) のフーリエ変換F(k) を
求める第1の処理行程と、任意のサンプリング間隔Tを
定めて数列{gn }を「gn =nT・F(nT)」によって
生成する第2の処理行程と、数列{gn }から「gn
1 n-1 +p2 n-2 +・・・・+pN n-N =0」なる
条件を満たす数列{pi }を求める第3の処理行程と、
数列{pi }からN次元複素代数方程式「xN +p1
N-1 +p2 N-2 +…+pN =0」を解き解{Zi }を
求める第4の処理行程と、次式から定数wi およびθi
を求める第5の処理行程と、 wi =−T/ log|Zi | θi =arg(Zi )/ log|Zi | 中間層の出力を「 tan-1(wi x+θi )」から求め、
その結果から教師データf(x) に対する出力データの誤
差が最小となるように定数ai を最小2乗法によって求
める第6の処理行程とによって各定数wi 、θi および
i を決定することを特徴とする。
SUMMARY OF THE INVENTION The present invention comprises an input layer,
An intermediate layer having a plurality of N units of neurons and an output layer are provided, and the synaptic weight from the input layer to the intermediate layer is w.
i (where i = 1, 2, ..., N), the threshold value of each neuron in the intermediate layer is θ i , and the synaptic weight from the intermediate layer to the output layer is a i
Then, the first processing step for obtaining the Fourier transform F (k) of the teacher data f (x) and the arbitrary sampling interval T are determined and the sequence {g n } is changed to “g n = nT · F (nT)”. a second processing step of generating by "," g n from the sequence {g n} +
and a third processing step for obtaining a sequence {p i } satisfying the condition "p 1 g n-1 + p 2 g n-2 + ... + p N g nN = 0"
From the sequence {p i }, the N-dimensional complex algebraic equation “x N + p 1 x
N-1 + p 2 x N-2 + ... + p N = 0 "to obtain a solution {Z i } and the constants w i and θ i from the following equation.
And a fifth processing step for obtaining the following: w i = −T / log | Z i | θ i = arg (Z i ) / log | Z i | The output of the intermediate layer is “tan −1 (w i x + θ i )”. Requested from
From the result, each constant w i , θ i and a i is determined by the sixth processing step of obtaining the constant a i by the least square method so that the error of the output data with respect to the teacher data f (x) is minimized. Is characterized by.

【0008】[0008]

【作用】この発明は、ニューラルネットワークの周波数
解析を行うことによってニューラルネットワークの構造
を解明し、ニューラルネットワークの学習問題を繰り返
し法ではなく直接法によって解決するようにしている。
周波数解析の結果明らかになることは、ニューラルネッ
トワークの学習は周波数軸上での線形予測の問題に帰着
するということである。線形予測の問題は音声合成等で
従来から用いられてきた音声の分析法の中で既に深く研
究されており、その場合とほとんど同様の方法によって
ニューラルネットワークの問題も解決することができ
る。
According to the present invention, the structure of the neural network is clarified by performing frequency analysis of the neural network, and the learning problem of the neural network is solved by the direct method instead of the iterative method.
What becomes clear as a result of the frequency analysis is that the learning of the neural network results in the problem of linear prediction on the frequency axis. The problem of linear prediction has already been studied deeply in speech analysis methods that have been conventionally used in speech synthesis and the like, and the problem of neural networks can be solved by almost the same method.

【0009】[0009]

【実施例】図1は、この発明の処理手順を示すフローチ
ャートである。この発明は、図2に示すように、入力層
1、複数N個のニューロンを有する中間層2および出力
層3からなる3層パーセプトロンにおいて、入力層1か
ら中間層2へのシナプス荷重がwi (i=1,2,…,
N)、中間層2の各ニューロンの閾値がθi 、中間層2
から出力層3へのシナプス荷重がai のときに、望まし
い出力値である教師データf(x) に対する出力データの
誤差ε(x) が最小となるように各定数ai 、wi、θi
を求めることにある。すなわち、
DESCRIPTION OF THE PREFERRED EMBODIMENTS FIG. 1 is a flow chart showing the processing procedure of the present invention. As shown in FIG. 2, the present invention is a three-layer perceptron consisting of an input layer 1, an intermediate layer 2 having a plurality of N neurons and an output layer 3, and a synaptic load from the input layer 1 to the intermediate layer 2 is w i. (I = 1, 2, ...,
N), the threshold of each neuron in the hidden layer 2 is θ i , and the hidden layer 2
Constants a i , w i , θ so that the error ε (x) of the output data with respect to the desired output value, the teacher data f (x), is minimized when the synaptic load from the output layer 3 to the output layer 3 is a i. i
Is to ask. That is,

【数3】 において、関数ε(x) を、所定の基準のもとで最も小さ
くなるように定数ai 、wi 、θi を求めることにあ
る。
[Equation 3] In, the constants a i , w i and θ i are obtained so that the function ε (x) becomes the smallest under a predetermined criterion.

【0010】図1において、まず、教師データf(x) の
フーリエ変換F(k) を求める。ここで、「F(k) ≡∫f
(X) exp(ikx)dx」である(ステップS1)。
In FIG. 1, first, the Fourier transform F (k) of the teacher data f (x) is obtained. Here, "F (k) ≡ ∫f
(X) exp (ikx) dx ”(step S1).

【0011】次いで、適当なサンプリング間隔Tを決め
て数列{gn }を、「gn =nT・F(nT)」によって生
成する。ただし、nは整数である(ステップS2)。
Then, an appropriate sampling interval T is determined and a sequence {g n } is generated by "g n = nTF (nT)". However, n is an integer (step S2).

【0012】次いで、得られた数列{gn }から gn +p1 n-1 +p2 n-2 +・・・・+pN n-N =0 を満たす数列{pi }を求める(ステップS3)。次数
Nの決定は中間層のニューロンの個数の決定に対応す
る。線形予測問題としての数列{pi }を解く方法とし
ては共分散法と自己相関法とがあるが、この点について
は後述する。
[0012] Then, determine the sequence {p i} that satisfies the obtained sequence {g n} g n + p 1 g n-1 + p 2 g n-2 + ···· + p N g nN = 0 ( step S3). The determination of the order N corresponds to the determination of the number of neurons in the hidden layer. There are a covariance method and an autocorrelation method as a method for solving a sequence {p i } as a linear prediction problem, which will be described later.

【0013】次いで、得られた数列{pi }からN次元
複素代数方程式 xN +p1 N-1 +p2 N-2 +・・・ +pN =0 を解いて解{Zi }を求める(ステップS4)。N次元
複素代数方程式の数値解法としては、高速かつ正確で高
名なDKA法を用いることができる。
Then, an N-dimensional complex algebraic equation x N + p 1 x N-1 + p 2 x N-2 + ... + p N = 0 is solved from the obtained sequence {p i } to obtain a solution {Z i }. Obtained (step S4). As a numerical solution for the N-dimensional complex algebraic equation, a fast, accurate and well-known DKA method can be used.

【0014】次いで、定数wi ,θi を、次式によって
求める(ステップS5)。 wi =−T/ log|Zi | θi =arg(Zi )/ log|Zi | ただし、「arg(x)」は複素数xの偏角を表す。
Next, the constants w i and θ i are obtained by the following equation (step S5). w i = −T / log | Z i | θ i = arg (Z i ) / log | Z i | where “arg (x)” represents the argument of the complex number x.

【0015】次いで、中間層の出力「σ(wi x+
θi )」を「 tan-1(wi x+θi )」と置換し、先に
求めた定数wi およびθi から「 tan-1(wi x+
θi )」を求め、これから定数ai を最小2乗法によっ
て求め(ステップS6)、処理を終了する。
Then, the output of the intermediate layer, "σ (w i x +
theta i) "and" tan -1 (w i x + θ i) "and replacing the constant previously determined w i and theta" tan -1 (w from i i x +
θ i ) ”, and the constant a i is calculated from this by the method of least squares (step S6), and the process ends.

【0016】ステップS6では、「σ(x) = tan-1(x)
」と置くことによって前述のニューラルネットワーク
の学習問題が解析的に解くことが出来ることに着目して
いる。このようにすれば、定数ai ,wi ,θi を、従
来のように繰り返しによらず直接求めることが可能とな
る。「 tan-1(x) 」はニューラルネットワークの出力関
数として通常用いられるシグモイド関数とよく似た形状
をしており、この関数を用いることでニューラルネット
ワークの能力が変わることはない。
In step S6, "σ (x) = tan -1 (x)
It is noted that the above learning problem of the neural network can be solved analytically by putting "." In this way, the constants a i , w i and θ i can be directly obtained without repeating as in the conventional case. “Tan −1 (x)” has a shape very similar to the sigmoid function that is usually used as the output function of a neural network, and using this function does not change the capacity of the neural network.

【0017】次に、これら一連の処理(ステップS1〜
S6)によってニューラルネットワークの学習が可能な
理由を、次の定理によって説明する。なお、以下でいう
フーリエ変換とは緩増加超関数としてのフーリエ変換を
意味する。「 tan-1(x) 」やシグモイド関数は通常の関
数の意味ではフーリエ変換が出来ないが、緩増加超関数
としてはフーリエ変換が出来るためである。
Next, a series of these processes (steps S1 to S1)
The reason why the neural network can be learned by S6) will be explained by the following theorem. The Fourier transform described below means a Fourier transform as a slowly increasing superfunction. This is because "tan -1 (x)" and the sigmoid function cannot be Fourier transformed in the usual sense, but they can be Fourier transformed as a slowly increasing superfunction.

【0018】〔定理〕次の3つの命題は同値である。 関数f(x) がある定数ai ,wi ,θi ((wi ,θ
i )≠(wi ,θi ))を用いて次のように表される。
[Theorem] The following three propositions are equivalent. The function f (x) has constants a i , w i , θ i ((w i , θ
i ) ≠ (w i , θ i )) is used to express as follows.

【数4】 関数f(x) のフーリエ変換を、「F(k) ≡∫f(x)ex
p(ikx)dx」とするとき、「kF(k) 」はある定数ci
i (di は複素数、di ≠dj)を用いて次のように
表される。
[Equation 4] The Fourier transform of the function f (x) is calculated as “F (k) ≡ ∫f (x) ex
"p (ikx) dx", "kF (k)" is a constant c i ,
It is expressed as follows using d i (d i is a complex number, d i ≠ d j ).

【数5】 関数f(x) のフーリエ変換を、「F(k) ≡∫f(x)ex
p(ikx)dx」とするとき、「gn ≡nT・F(nT)」(た
だし、nは整数、Tは任意の定数)とおくと、 gn +p1 n-1 +p2 n-2 +・・・・+pN n-N =0 …(5) が成立するような定数(p1 ,p2 ,・・・・,pN )が存
在する。ここで、N次元複素代数方程式「xN +p1
N-1 +p2 N-2 +・・・・+pN =0」は重解を持たない
とする。〔定理終了〕
[Equation 5] The Fourier transform of the function f (x) is calculated as “F (k) ≡ ∫f (x) ex
If p (ikx) dx ", then" g n ≡nT · F (nT) "(where n is an integer and T is an arbitrary constant), then g n + p 1 g n-1 + p 2 g n There are constants (p 1 , p 2 , ..., P N ) such that -2 + ... + P N g nN = 0 (5) holds. Here, the N-dimensional complex algebraic equation “x N + p 1 x
N-1 + p 2 x N-2 + ... + p N = 0 "has no multiple solution. [End theorem]

【0019】〔証明〕 <==>: 「 tan-1(wx+θ)」のフーリエ変換が、「j(π/2)
1/2・exp[−k{(1+jθ)/w}] /k」となるこ
とから明らかである。
[Proof] <==>: The Fourier transform of “tan −1 (wx + θ)” is “j (π / 2)
1/2 · exp [−k {(1 + jθ) / w}] / k ”.

【0020】 ==>: 「Zi = exp(di T)」とおくと、式(4) から、==>: If “Z i = exp (d i T)” is set, then from equation (4),

【数6】 が成立する。次に、多項式S(x) を考え、その展開係数
をpi と置く。 S(x) ≡(x-Z1)・(x-Z2)…(x-ZN ) =xN +p1N-1 +p2N-2 +・・・・+pN …(7) そこで、次の値を計算すると
[Equation 6] Is established. Next, the polynomial S (x) is considered, and its expansion coefficient is set as p i . S (x) ≡ (xZ 1 ) ・ (xZ 2 )… (xZ N ) = x N + p 1 x N-1 + p 2 x N-2 + ・ ・ ・ ・ ・ ・ + p N … (7) Then, the following value And calculate

【数7】 式(6) を用いて[Equation 7] Using equation (6)

【数8】 こうして式(5) が示された。この証明から、係数p1
2 ,…,pN とd1 との関係も明らかになった。
[Equation 8] Equation (5) is thus shown. From this proof, the coefficient p 1 ,
The relationship between p 2 , ..., P N and d 1 was also clarified.

【0021】 ==>: 式(5) を満たす数列は、最初のN項が決れば残りの項も
決まるので、その解は一つしかない。そこで、式(6) の
ような数列がどのような初期値の与え方によっても求ま
る(ci が求まる)かを示せばよい。それには次の行列
==>: The number sequence satisfying the equation (5) has only one solution because the first N terms determine the remaining terms. Therefore, it suffices to show whether the sequence as shown in the equation (6) can be obtained (c i can be obtained) by any method of giving the initial value. It has the matrix

【数9】 が逆行列を持つことを示せばよい。この行列の行列式
は、Πi>j (Zi −Zj )で与えられるので(Vandermo
nde の行列式)、次の方程式 xN +p1 N-1 +p2 N-2 +・・・・+pN =0 が重解を持たないことから、行列式はゼロでない。〔証
明終了〕
[Equation 9] It suffices to show that has an inverse matrix. The determinant of this matrix is given by Π i> j (Z i −Z j ), so (Vandermo
The determinant is not zero because the following equation x N + p 1 x N-1 + p 2 x N-2 + ... + p N = 0 does not have multiple solutions. [End of certification]

【0022】〔系〕前記の定理に現れる定数には、次の
ような関係がある。 di =−(1+jθi )/wi また、{exp(di T) }は次の方程式 xN +p1 N-1 +p2 N-2 +・・・・+pN =0 の解である。〔系終了〕
[System] The constants appearing in the above theorem have the following relationship. d i = − (1 + jθ i ) / w i Also, {exp (d i T)} is a solution of the following equation x N + p 1 x N-1 + p 2 x N-2 + ... + p N = 0. Is. [End of system]

【0023】前記の定理からニューラルネットワークの
学習に関して次のような点が明らかとなり、その結果、
前述した学習アルゴリズムを構成することが出来る。 ニューラルネットワークの学習は周波数軸上での線
形予測問題に帰着する。 中間層の個数は線形予測の次数と一致する。 入力層から中間層への重みwi ,θi だけによって
線形予測の係数{pi }は決定される。中間層から出力
層への重みai は線形予測の係数{pi }に影響を与え
ない。すなわち、周波数軸上の線形予測によって求まる
のは入力層から中間層への重みである。
From the above theorem, the following points regarding the learning of the neural network become clear, and as a result,
The learning algorithm described above can be constructed. Learning the neural network results in a linear prediction problem on the frequency axis. The number of hidden layers matches the order of linear prediction. The linear prediction coefficient {p i } is determined only by the weights w i and θ i from the input layer to the intermediate layer. The weights a i from the hidden layer to the output layer do not affect the linear prediction coefficients {p i }. That is, what is obtained by linear prediction on the frequency axis is the weight from the input layer to the intermediate layer.

【0024】以上のことから、次のような工学上の見地
が得られる。 解こうとしている工学的な問題にニューラルネット
ワークの応用が適するか否かは、周波数軸上の線形予測
が適するか否かによって判断できる。 中間層の個数は線形予測の残差が十分小さくなるか
どうかによって決定される。 中間層から出力層への重みは線形予測を行った後、
最小2乗法によって決められるのであり、ニューラルネ
ットワークの本質は入力層から出力層への重み決定に存
在する。
From the above, the following engineering point of view can be obtained. Whether or not the application of the neural network is suitable for the engineering problem to be solved can be judged by whether or not the linear prediction on the frequency axis is suitable. The number of hidden layers is determined by whether the residual of linear prediction is sufficiently small. The weight from the hidden layer to the output layer is
It is determined by the method of least squares, and the essence of the neural network lies in the weight determination from the input layer to the output layer.

【0025】この事実を利用すると、中間層の個数を自
動的に決定することが出来る。すなわち、中間層の個数
をある値にして学習を行い、線形予測による残差が十分
小さくならなかったときには、中間層の個数が足りなか
ったのであるから、中間層の個数を増やして線形予測を
やり直す。そうして予め設定した残差の値よりも小さく
なるまでその操作を繰り返すと、必要となる最小の中間
層の個数を決定することが出来る。
By utilizing this fact, the number of intermediate layers can be automatically determined. That is, when the learning is performed with the number of hidden layers set to a certain value, and the residual due to linear prediction does not become sufficiently small, the number of hidden layers is insufficient, so the linear prediction is performed by increasing the number of hidden layers. Start over. Then, by repeating the operation until it becomes smaller than the preset residual value, the minimum number of intermediate layers required can be determined.

【0026】これまでの説明では、入力層および出力層
が1ユニットで中間層が複数Nユニットの場合について
述べていたが、次に、入力層が複数ユニットになった場
合について説明する。この場合は1次元の場合に問題が
帰着する。
In the above description, the case where the input layer and the output layer are one unit and the intermediate layer is a plurality of N units has been described. Next, the case where the input layer is a plurality of units will be described. In this case, the problem is reduced to the one-dimensional case.

【0027】〔補題〕[Lemma]

【数10】 のフーリエ変換F(k1,k2,・・・・,kN )は、次のように与
えられる。
[Equation 10] The Fourier transform F (k 1 , k 2 , ..., K N ) of is given as follows.

【数11】 ここで関数ρは関数σのフーリエ変換である。〔補題終
了〕
[Equation 11] Here, the function ρ is the Fourier transform of the function σ. [End of lemma]

【0028】〔系〕式(9) のような関数のフーリエ変換
は原点を通る直線の組み合わせ
[System] Fourier transform of a function such as equation (9) is a combination of straight lines passing through the origin.

【数12】 以外では0になる。〔系終了〕 与えられた関数のフーリエ変換を利用して、式(11)の直
線が求まると、比 wi1 : wi2 : wi3 : ・・・・ :wiN …(12) が求まったことになる。この比は関数σの形状によらな
い。wi1の値を求めるには関数σの形状が必要になる
が、式(12)の比の値は関数σに依らない不変量である。
[Equation 12] It becomes 0 in all other cases. [System end] When the straight line of the equation (11) is obtained by using the Fourier transform of the given function, the ratio w i1 : w i2 : w i3 : ...: w iN ... (12) is obtained. It will be. This ratio does not depend on the shape of the function σ. The shape of the function σ is required to obtain the value of w i1 , but the value of the ratio in Expression (12) is an invariant that does not depend on the function σ.

【0029】式(11)のような直線を求めるには、関数|
F(k1,k2 , …,kN )|をN次元画像とみなして、原点
を通る直線を全て求めればよい。各直線上では、
To obtain a straight line as shown in equation (11), the function |
F (k 1 , k 2 , ..., K N ) | is regarded as an N-dimensional image, and all the straight lines passing through the origin may be obtained. On each straight line,

【数13】 を解くことになり、1次元の問題に帰着する。定数wi1
およびθi を求めるためには、再び「σ(x) = tan
-1(x) 」の場合を利用すればよい。
[Equation 13] Will result in a one-dimensional problem. Constant w i1
And θ i are calculated again by using “σ (x) = tan
-1 (x) "can be used.

【0030】ところで、2層パーセプトロンでは解くこ
とはできないが、3層以上で解けるものとして排他的論
理和の問題がある。この問題についてシミュレーション
を行ったところ、図3に示すような結果が得られた。図
中、(a)は教師データ、(b)は誤差伝播法による1
万回の学習結果、(c)はこの発明の学習方法による学
習結果である。なお、中間層の個数は5個である。
By the way, although it cannot be solved by the two-layer perceptron, there is an exclusive OR problem that it can be solved by three or more layers. When simulation was performed on this problem, the results shown in FIG. 3 were obtained. In the figure, (a) is teacher data, (b) is 1 by the error propagation method.
(C) is the learning result by the learning method of the present invention. The number of intermediate layers is five.

【0031】この結果から明らかなように、従来の学習
方法(b)に比べこの発明による学習方法(c)の方が
より忠実に教師データを捉えている。学習時間も従来方
法では約10時間要するのに対し、この発明による学習方
法では数秒ですみ、その有効性が確かめられた。
As is clear from this result, the learning method (c) according to the present invention captures the teacher data more faithfully than the conventional learning method (b). The learning time required for the conventional method was about 10 hours, whereas the learning method according to the present invention only required a few seconds, and the effectiveness was confirmed.

【0032】次に、前述したステップS3における線形
予測問題の解法について述べる。この解法については周
知の事柄であるが、前述の処理手順の実現が可能である
ことを示すために簡単に述べることとする。
Next, a method of solving the linear prediction problem in step S3 described above will be described. Although this solution is a well-known matter, it will be briefly described in order to show that the above-described processing procedure can be realized.

【0033】まず、複素数の数列{xt t=0,1,.... ,
M-1 をN次で線形予測する問題について考える。 xt +α1 t-1 +・・・ +αNt-N =εt …(14) ここで、αi ,εt はそれぞれ複素数である。誤差Eは
次のように定義する。
First, a complex number sequence {x t } t = 0,1, ...
Consider the problem of linearly predicting M-1 in the Nth order. x t + α 1 x t-1 + ... + α N x tN = ε t (14) Here, α i and ε t are complex numbers, respectively. The error E is defined as follows.

【数14】 とおくと(ただし、cijは自己共役、cij *=cji)、[Equation 14] (Where c ij is self-adjoint, c ij * = c ji ),

【数15】 が得られる。この値を最小にする(αi =pi +sqrt
(−1)qi ) は、 ∂E/∂pi =∂E/∂qi =0 から特徴づけることができ、「cij=aij+sqrt(−
1)bij」とするとき、連立方程式
[Equation 15] Is obtained. Minimize this value (α i = p i + sqrt
(−1) q i ) can be characterized by ∂E / ∂p i = ∂E / ∂q i = 0, and “c ij = a ij + sqrt (−
1) b ij ”, simultaneous equations

【数16】 を解くことによって求めることができる。最適化する範
囲(t0,t1)を(p, M-1)と選んでこの方程式を解く場
合を共分散法、(−∞,+∞)を選んで(0,M-1)以外
での値を0と置く方法を自己相関法という。
[Equation 16] Can be found by solving. The optimization range (t 0 , t 1 ) is chosen as (p , M-1) and this equation is solved by the covariance method, and (-∞, + ∞) is chosen except (0, M-1). The method of setting the value of at 0 is called the autocorrelation method.

【0034】[0034]

【発明の効果】この発明によれば、ニューラルネットワ
ークの非線形関数として「y= tan-1(x) 」を選び、そ
の学習が周波数軸上の線形予測問題に帰着することに着
目して学習方法を構成するようにしたので、学習速度が
誤差逆伝播法よりも1000 倍近く高速になり、かつニュ
ーラルネットワークの本質の理解を数理的に行うことが
可能となった。この結果、音声認識、音声合成、文字認
識、物体認識、株価予想、ロボット制御等に著しい進展
が期待できる。
According to the present invention, the learning method is selected by focusing on the fact that "y = tan -1 (x)" is selected as the non-linear function of the neural network and the learning results in a linear prediction problem on the frequency axis. Since the learning speed is nearly 1000 times faster than the error backpropagation method, it is possible to mathematically understand the essence of neural networks. As a result, significant progress can be expected in voice recognition, voice synthesis, character recognition, object recognition, stock price prediction, robot control, and the like.

【図面の簡単な説明】[Brief description of drawings]

【図1】この発明の処理手順を示すフローチャートであ
る。
FIG. 1 is a flowchart showing a processing procedure of the present invention.

【図2】3層パーセプトロンのブロック図である。FIG. 2 is a block diagram of a three-layer perceptron.

【図3】排他的論理和問題のシミュレーション結果を示
す図である。
FIG. 3 is a diagram showing a simulation result of an exclusive OR problem.

【符号の説明】[Explanation of symbols]

1 入力層 2 中間層 3 出力層 1 Input layer 2 Middle layer 3 Output layer

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】 入力層と、複数Nユニットのニューロン
を有する中間層と、出力層とを備え、上記入力層から上
記中間層へのシナプス荷重をwi (ただし、i=1,2,
…,N)、上記中間層の各ニューロンの閾値をθi 、上記
中間層から上記出力層へのシナプス荷重をai とすると
き、 教師データf(x) のフーリエ変換F(k) を求める第1の
処理行程と、 任意のサンプリング間隔Tを定めて数列{gn }を「g
n =nT・F(nT)」によって生成する第2の処理行程
と、 上記数列{gn }から「gn +p1 n-1 +p2 n-2
+・・・・+pN n-N =0」なる条件を満たす数列
{pi }を求める第3の処理行程と、 上記数列{pi }からN次元複素代数方程式「xN +p
1 N-1 +p2 N-2 +…+pN =0」を解き解
{Zi }を求める第4の処理行程と、 次式から上記定数wi およびθi を求める第5の処理行
程と、 wi =−T/ log|Zi | θi =arg(Zi )/ log|Zi | 上記中間層の出力を「 tan-1(wi x+θi )」から求
め、その結果から上記教師データf(x) に対する出力デ
ータの誤差が最小となるように上記定数ai を最小2乗
法によって求める第6の処理行程と、 によって上記各定数wi 、θi およびai を決定するこ
とを特徴とするニューラルネットワーク。
1. An input layer, an intermediate layer having neurons of a plurality of N units, and an output layer, wherein synaptic weights from the input layer to the intermediate layer are w i (where i = 1, 2,
, N), where the threshold of each neuron in the intermediate layer is θ i , and the synapse weight from the intermediate layer to the output layer is a i , the Fourier transform F (k) of the training data f (x) is obtained. The first processing step and an arbitrary sampling interval T are determined, and the sequence {g n } is changed to "g
The second processing step generated by “ n = nT · F (nT)” and the above sequence {g n } to “g n + p 1 g n-1 + p 2 g n-2”.
A third processing step for obtaining a sequence {p i } satisfying the condition “+ ... · + p N g nN = 0” and the N-dimensional complex algebraic equation “x N + p” from the above sequence {p i }.
1 x N-1 + p 2 x N-2 + ... + p N = 0 "to obtain a solution {Z i } and a fifth process for obtaining the constants w i and θ i from the following equations And w i = −T / log | Z i | θ i = arg (Z i ) / log | Z i | The output of the intermediate layer is calculated from “tan −1 (w i x + θ i )”, and the result is obtained. From the above, a sixth processing step of obtaining the constant a i by the least square method so that the error of the output data with respect to the teacher data f (x) is minimized, and the constants w i , θ i and a i are determined by Neural network characterized by.
【請求項2】 入力層と、複数Nユニットのニューロン
を有する中間層と、出力層とを備え、上記入力層から上
記中間層へのシナプス荷重をwi (ただし、i=1,2,
…,N)、上記中間層の各ニューロンの閾値をθi 、上記
中間層から上記出力層へのシナプス荷重をai とし、教
師データf(x) に対する出力データの誤差が最小となる
定数wi 、θi 、ai を求める多層パーセプトロンの学
習において、 上記教師データf(x) のフーリエ変換F(k) を求める第
1の処理行程と、 任意のサンプリング間隔Tを定めて数列{gn }を「g
n =nT・F(nT)」によって生成する第2の処理行程
と、 上記数列{gn }から「gn +p1 n-1 +p2 n-2
+・・・・+pN n-N =0」なる条件を満たす数列
{pi }を求める第3の処理行程と、 上記数列{pi }からN次元複素代数方程式「xN +p
1 N-1 +p2 N-2 +…+pN =0」を解き解
{Zi }を求める第4の処理行程と、 次式から上記定数wi およびθi を求める第5の処理行
程と、 wi =−T/ log|Zi | θi =arg(Zi )/ log|Zi | 上記中間層の出力を「 tan-1(wi x+θi )」から求
め、その結果から上記定数ai を最小2乗法によって求
める第6の処理行程と、 から成ることを特徴とするニューラルネットワークの学
習方法。
2. An input layer, an intermediate layer having neurons of a plurality of N units, and an output layer, wherein a synaptic weight from the input layer to the intermediate layer is w i (where i = 1, 2,
, N), the threshold of each neuron in the intermediate layer is θ i , the synapse weight from the intermediate layer to the output layer is a i , and a constant w that minimizes the error of the output data with respect to the teacher data f (x) In the learning of the multi-layer perceptron for obtaining i , θ i , and a i , the first processing step for obtaining the Fourier transform F (k) of the teacher data f (x) and an arbitrary sampling interval T are set and a sequence {g n } To “g
The second processing step generated by “ n = nT · F (nT)” and the above sequence {g n } to “g n + p 1 g n-1 + p 2 g n-2”.
A third processing step for obtaining a sequence {p i } satisfying the condition “+ ... · + p N g nN = 0” and the N-dimensional complex algebraic equation “x N + p” from the above sequence {p i }.
1 x N-1 + p 2 x N-2 + ... + p N = 0 "and a fifth process for obtaining a solution {Z i } and a fifth process for obtaining the constants w i and θ i from the following equations And w i = −T / log | Z i | θ i = arg (Z i ) / log | Z i | The output of the intermediate layer is calculated from “tan −1 (w i x + θ i )”, and the result is obtained. And a sixth processing step for obtaining the above-mentioned constants a i by the least-squares method, and a learning method for a neural network characterized by:
【請求項3】 請求項2において、前記学習を行った結
果、前記誤差が予め決められた値よりも小さければ学習
を終了し、小さくなければ中間層の個数を多くして再び
前記学習を行い、前記誤差が所定の値よりも小さくなる
まで前記学習を繰り返すことによって前記中間層の個数
を決定することを特徴とするニューラルネットワークの
学習方法。
3. The learning according to claim 2, wherein as a result of performing the learning, if the error is smaller than a predetermined value, the learning is ended, and if not smaller, the number of intermediate layers is increased and the learning is performed again. A learning method for a neural network, characterized in that the number of intermediate layers is determined by repeating the learning until the error becomes smaller than a predetermined value.
【請求項4】 3以上の層を有する多層パーセプトロン
の学習において、入力データの次元が2次元以上のとき
に与えられた関数のフーリエ変換に原点を通る直線を当
てはめ、その結果が線形予測できる量に帰着することを
利用して学習を行うことを特徴とするニューラルネット
ワークおよびその学習方法。
4. In learning of a multi-layer perceptron having three or more layers, a straight line passing through the origin is applied to the Fourier transform of a given function when the dimension of input data is two or more, and the result can be linearly predicted. A learning method and its learning method, characterized in that learning is performed by utilizing the fact that it is reduced to.
【請求項5】 与えられた関数をニューラルネットワー
クを用いて近似する場合に、その関数のフーリエ変換を
求め、周波数空間上で関数を近似してから、逆フーリエ
変換によって近似関数を求めることを特徴とするニュー
ラルネットワークによる関数近似方法。
5. When approximating a given function using a neural network, the Fourier transform of the function is obtained, the function is approximated in frequency space, and then the approximate function is obtained by inverse Fourier transform. A function approximation method using a neural network.
JP21964491A 1991-06-12 1991-08-30 Neural network and learning method thereof Withdrawn JPH0554163A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP21964491A JPH0554163A (en) 1991-06-12 1991-08-30 Neural network and learning method thereof
US07/898,202 US5528729A (en) 1991-06-12 1992-06-11 Neural network learning apparatus and learning method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP3-140263 1991-06-12
JP14026391 1991-06-12
JP21964491A JPH0554163A (en) 1991-06-12 1991-08-30 Neural network and learning method thereof

Publications (1)

Publication Number Publication Date
JPH0554163A true JPH0554163A (en) 1993-03-05

Family

ID=26472842

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21964491A Withdrawn JPH0554163A (en) 1991-06-12 1991-08-30 Neural network and learning method thereof

Country Status (1)

Country Link
JP (1) JPH0554163A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019057088A (en) * 2017-09-20 2019-04-11 株式会社東芝 Software development device, software development method, and program
US20210192342A1 (en) * 2018-05-10 2021-06-24 The Board Of Trustees Of The Leland Stanford Junior University Training of Photonic Neural Networks Through in situ Backpropagation

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019057088A (en) * 2017-09-20 2019-04-11 株式会社東芝 Software development device, software development method, and program
US20210192342A1 (en) * 2018-05-10 2021-06-24 The Board Of Trustees Of The Leland Stanford Junior University Training of Photonic Neural Networks Through in situ Backpropagation
US12026615B2 (en) * 2018-05-10 2024-07-02 The Board Of Trustees Of The Leland Stanford Junior University Training of photonic neural networks through in situ backpropagation

Similar Documents

Publication Publication Date Title
US5095443A (en) Plural neural network system having a successive approximation learning method
JP2810202B2 (en) Information processing device using neural network
Kang An investigation of the use of feedforward neural networks for forecasting
Lek et al. Application of neural networks to modelling nonlinear relationships in ecology
DE60217663T2 (en) IMPROVED ARTIFICIAL NEURONAL NETWORK MODELS IN THE PRESENCE OF INSTRUMENT NOISE AND MEASUREMENT ERRORS
Ray et al. Neural network applications in naval architecture and marine engineering
JPH0554163A (en) Neural network and learning method thereof
JPH07121498A (en) Method for constructing neural network
JP2897220B2 (en) Signal processing device
CN113887570A (en) Neural network-based solar flare binary classification prediction method
JPH0535710A (en) Learning method/device for neural network
JP2699447B2 (en) Signal processing device
US5528729A (en) Neural network learning apparatus and learning method
JPH02100757A (en) Parallel neural network learning system
JPH09138786A (en) Learning device for neural network
Nikravesh et al. Process control of nonlinear time variant processes via artificial neural network
JPH0981535A (en) Learning method for neural network
Yeh Structural engineering applications with augmented neural networks
Chiu et al. Design of a radial basis function neural network with a radius-modification algorithm using response surface methodology
JPH0696046A (en) Learning processor of neural network
WO1991002315A1 (en) Methods relating to the configuration of a parallel distributed processing network
JPH10187649A (en) Neural network
JPH05216858A (en) Device and method for learning neural network
Xu A novel higher order artificial neural networks
JP2635443B2 (en) How to train neural networks for multi-source data integration

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19981112