JP2518007B2 - Dynamic neural network with learning mechanism - Google Patents

Dynamic neural network with learning mechanism

Info

Publication number
JP2518007B2
JP2518007B2 JP63070617A JP7061788A JP2518007B2 JP 2518007 B2 JP2518007 B2 JP 2518007B2 JP 63070617 A JP63070617 A JP 63070617A JP 7061788 A JP7061788 A JP 7061788A JP 2518007 B2 JP2518007 B2 JP 2518007B2
Authority
JP
Japan
Prior art keywords
time
layer
unit
learning
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63070617A
Other languages
Japanese (ja)
Other versions
JPH01241667A (en
Inventor
健一 磯
博昭 迫江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP63070617A priority Critical patent/JP2518007B2/en
Publication of JPH01241667A publication Critical patent/JPH01241667A/en
Application granted granted Critical
Publication of JP2518007B2 publication Critical patent/JP2518007B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は音声等の時系列パターンの認識に用いるパタ
ーン学習機構を有するダイナミック・ニューラル・ネッ
トワークに関する。
TECHNICAL FIELD The present invention relates to a dynamic neural network having a pattern learning mechanism used for recognizing a time-series pattern of speech or the like.

(従来の技術) ニューラル・ネットワークは生体の脳神経系が比較的
単純な動作特性を有する神経細胞とその間の多数の結合
から構成されている情報処理システムであることを参考
にして考案された情報処理モデルで、神経細胞に相当す
る処理ユニット(以下ユニットと略す)とその間を結ぶ
ユニット間結合を有する。このユニット間結合の係数を
変えることによってシステムはさまざまな情報処理動作
を行なう。
(Prior Art) A neural network is an information processing system devised with reference to the fact that the cranial nerve system of a living body is an information processing system composed of nerve cells having relatively simple motion characteristics and a large number of connections between them. In the model, a processing unit corresponding to a nerve cell (hereinafter abbreviated as a unit) and an inter-unit connection connecting the units are provided. The system performs various information processing operations by changing the coefficient of the coupling between the units.

このニューラル・ネットワーク・モデルは情報処理シ
ステムとして特に画像や音声等のパターン認識処理に有
効であろうと期待されており、その詳細に関しては「日
経エレクトロニクス」誌、第427号の第115頁(昭和62年
8月10日発行)「ニューラル・ネットをパターン認識、
信号処理、知識処理に使う」に解説されている。(以
下、文献1と称する。) 上記文献1によるとニューラル・ネットワークは第2
図に示すように、入力層、中間層、出力層と呼ばれる階
層構造を有しており、各層は複数のユニットから構成さ
れている。またユニット間結合は隣接する層の間にだけ
許され、層内でのユニット間結合は禁止されている。認
識時にはネットワークは入力層の各ユニットの活性度と
して入力データを与えられ、ユニット間結合を通じて順
次隣接する中間層へ情報を伝達し、最後に出力層にまで
到達する。こうして入力データに対するネットワークの
応答結果が出力層のユニットの活性度のパターンとして
得られる。
It is expected that this neural network model will be particularly effective as an information processing system for pattern recognition processing of images and voices. For details, see Nikkei Electronics, No. 427, page 115 (Showa 62). (August 10, 2010) "Neural network pattern recognition,
It is used for signal processing and knowledge processing ”. (Hereinafter, referred to as Document 1.) According to Document 1 above, the neural network is the second
As shown in the figure, it has a hierarchical structure called an input layer, an intermediate layer, and an output layer, and each layer is composed of a plurality of units. In addition, inter-unit bonding is allowed only between adjacent layers, and inter-unit bonding within a layer is prohibited. At the time of recognition, the network is given input data as the activity of each unit of the input layer, transmits the information to the adjacent intermediate layers through the unit coupling, and finally reaches the output layer. In this way, the response result of the network to the input data is obtained as the pattern of the activity of the units in the output layer.

ネットワークが指定した動作を行なうようにユニット
間結合を定める為には教師付き学習と呼ばれる手法を用
いる。即ち、入力層に学習させたいパターンを提示し、
出力層には対応して出力すべき教師信号を提示して、出
力層での教師信号と実際の出力値との差異を小さくする
ように結合係数を決定する。上記のような構成のニュー
ラル・ネットワークの場合には、この出力誤差最小化学
習はバックフロパゲーション学習と呼ばれており、その
詳細なアルゴリズムに関しては文献1に詳しい。
A method called supervised learning is used to determine the connection between units so that the network performs the specified operation. That is, present the pattern to be learned to the input layer,
The teacher signal to be output is correspondingly presented to the output layer, and the coupling coefficient is determined so as to reduce the difference between the teacher signal in the output layer and the actual output value. In the case of the neural network having the above-mentioned configuration, this output error minimization learning is called back-fropagation learning, and its detailed algorithm is detailed in Reference 1.

(発明が解決しようとする問題点) このようなニューラル・ネットワークを音声認識に用
いることができれば、音声パターンの有する多様性を学
習によって吸収して、良好な認識特性実現できる可能性
があるが、実際に上記のニューラル・ネットワークを音
声認識に用いる為には、いくつかの解決しなければなら
ない問題が存在する。
(Problems to be Solved by the Invention) If such a neural network can be used for voice recognition, it is possible to absorb the diversity of voice patterns by learning and realize good recognition characteristics. In order to actually use the above neural network for speech recognition, there are some problems to be solved.

第一に音声は同じカテゴリ(例えば単語)のパターン
でも発声の度に、或は話者毎にその継続時間長が異なる
ので、長さの異なる音声パターンを同じニューラル・ネ
ットワークの入力層に提示する為の工夫が必要となる。
First, even if patterns of the same category (for example, words) have different durations for each utterance or for each speaker, voice patterns of different lengths are presented to the input layer of the same neural network. It is necessary to devise it.

第二に長さの異なる音声パターンをニューラル・ネッ
トワークの入力に提示できたときに、ネットワークが期
待する認識動作を行なうようにユニット間結合を定める
学習方法を確立しなければならない。
Second, we must establish a learning method that determines the unit-to-unit coupling so that when the speech patterns of different lengths can be presented to the input of the neural network, the network will perform the expected recognition operation.

本発明は固定時間長の特徴パラメータ時系列を入力で
きる入力層を持つニューラル・ネットワークに長さの異
なる音声パターンを提示する為に認識時は出力層の出力
が最大になるように入力層の時間軸と入力音声時系列と
の対応付けを行い、ユニット間結合係数を定める学習時
には提示するパターンを固定継続時間長に正規化してネ
ットワークに提示して出力層での誤差を最小にする教師
付きの学習機構を有するダイナミック・ニューラル・ネ
ットワークを提供しようとするものである。
The present invention presents a speech pattern of different lengths to a neural network having an input layer capable of inputting a time series of characteristic parameters having a fixed time length, so that the time of the input layer is maximized during recognition so that the output of the output layer is maximized. Corresponds the axes to the input speech time series, determines the inter-unit coupling coefficient, and normalizes the pattern to be presented during learning to present it to the network by presenting it to the network to minimize the error in the output layer. It is intended to provide a dynamic neural network having a learning mechanism.

(問題点を解決するための手段) 本発明は音声等の時系列パターンを認識するニューラ
ル・ネットワークで、入力・出力層と複数の中間層から
構成される階層構造を有し、更に入力層と中間層が時間
軸に対応する時系列的構造を有し、認識時には動的計画
法によって入力時系列パターンの時間軸をニューラル・
ネットワークの出力が最大になるように入力層の持つ時
間軸と対応付けを行い、その時の出力層の出力を認識結
果とするダイナミック・ニューラル・ネットワークに於
て、その各階層間のユニット間結合係数を学習するに際
して、入力層の時間軸の長さと同じ一定の継続時間長に
正規化した学習用時系列パターンを入力層に提示し、出
力層には対応して出力すべき教師信号を提示して、出力
層での教師信号と実際の出力値の差異を小さくするよう
に結合係数を決定する教師付き学習を行なう機構を有す
ることを特徴とする。
(Means for Solving Problems) The present invention is a neural network for recognizing a time-series pattern such as voice, which has a hierarchical structure including an input / output layer and a plurality of intermediate layers, and further includes an input layer and The middle layer has a time-series structure corresponding to the time axis, and at the time of recognition, the time axis of the input time-series pattern is
In a dynamic neural network that associates with the time axis of the input layer so that the output of the network is maximized, and the output of the output layer at that time is the recognition result, the unit coupling coefficient between the layers When learning, the learning time-series pattern normalized to a constant duration that is the same as the length of the input layer time axis is presented to the input layer, and the teacher signal to be output is presented to the output layer. And a mechanism for performing supervised learning for determining the coupling coefficient so as to reduce the difference between the teacher signal and the actual output value in the output layer.

(作用) 本発明の原理の説明を簡単のために中間層を1層にし
た3層構造のモデルを用いて行なう。中間層が2層以上
の場合にも同様に適用できることは言うまでもない。
(Operation) For simplicity of explanation of the principle of the present invention, a model having a three-layer structure with one intermediate layer is used. It goes without saying that the same applies to the case where the number of intermediate layers is two or more.

モデルの入力層はP次元の特徴ベクトルの時系列(長
さJ)を受け取ることができるようにJ×P個のユニッ
トから構成されている。この入力ユニットの出力値をy
(1) j(p)(j=1〜J,p=1〜P)とする。一般には
入力層の時間軸の長さJと認識時に入力される入力時系
列パターンai(p)(i=1〜I,p=1〜P)の長さI
は異なるので、入力時系列の時間軸になんらかの伸縮変
換を施して長さJに揃えなければならない。入力層の時
間軸jと入力時系列パターンの時間軸iで構成される平
面(i,j)上での対応関係を次式で表わす。
The input layer of the model is composed of J × P units so that it can receive a time series (length J) of P-dimensional feature vectors. The output value of this input unit is y
(1) j (p) (j = 1 to J, p = 1 to P). Generally, the length J of the time axis of the input layer and the length I of the input time series pattern a i (p) (i = 1 to I, p = 1 to P) input at the time of recognition
Are different from each other, it is necessary to perform some expansion / conversion on the time axis of the input time series to align the length J. The correspondence relation on the plane (i, j) constituted by the time axis j of the input layer and the time axis i of the input time series pattern is represented by the following equation.

c(k)=(i(k),j(k)),(k=1〜K) …
(1) 但し、 この関係を用いて入力ユニットの出力値y(1) j(k)(p)
(j=1〜J,p=1〜P)は y(1) j(k)(p)=ai(k)(p) …(3) と表わされる。即ち、入力ユニットは時間軸を整合して
入力されたデータをそのまま次の層へ伝達することにな
る。
c (k) = (i (k), j (k)), (k = 1 to K) ...
(1) However, Using this relationship, the output value of the input unit y (1) j (k) (p)
(J = 1 to J, p = 1 to P) is expressed as y (1) j (k) (p) = ai (k) (p) (3). That is, the input unit transmits the input data as it is to the next layer while matching the time axis.

中間層はJ×M個のユニット(隠れユニットと呼ぶ)
から構成され、各ユニットへの入力値x(2) j(m)(j
=1〜J,m=1〜M)は入力ユニットの出力値y
(1) j(p)と入力ユニットと隠れユニットの間の結合係
数β0 j(m,p),β1 j(m,p)を用いて次式のように与え
られる。
The middle layer is J × M units (called hidden units)
Input value x (2) j (m) (j
= 1 to J, m = 1 to M) is the output value y of the input unit
(1) Using j (p) and the coupling coefficients β 0 j (m, p) and β 1 j (m, p) between the input unit and the hidden unit, it is given by the following equation.

このようにj(k)番目の隠れユニットは入力層のi
(k)番目とi(k−1)番目のユニットからだけ情報
を受け取るようにユニット間結合を制限したニューラル
・ネットワークの構造を時系列構造と呼ぶことにする。
このようなネットワークの構造は音声パターン等のよう
にデータ自体が時系列的な構造を持っている場合には、
完全結合(すべての入力ユニットとすべての隠れユニッ
トを結ぶ)に比べて少ないユニット間結合でモデルが構
成できるので、認識・学習時の計算量を大幅に削減する
ことができる。式4で与えられる入力に対する隠れユニ
ットの応答は次のようになる。
Thus, the j (k) th hidden unit is i
The structure of the neural network in which the unit-to-unit coupling is limited so that the information is received only from the (k) th and i (k-1) th units will be referred to as a time series structure.
When the data itself has a time-series structure such as a voice pattern, the structure of such a network is
Since the model can be constructed with less inter-unit coupling than full coupling (connecting all input units and all hidden units), the amount of calculation at the time of recognition / learning can be significantly reduced. The response of the hidden unit to the input given by equation 4 is:

y(2) j(m)=f(x(2) j(m)−θ(2) j(m)) …
(5) f(x)=1/(1+e-x) …(6) ここでθ(2) j(m)は隠れユニット(j,m)が持つ閾値
である。式(6)から明らかなように隠れユニットは一
種の閾値論理の働きをしている。
y (2) j (m) = f (x (2) j (m) -θ (2) j (m)) ...
(5) f (x) = 1 / (1 + e- x ) (6) where θ (2) j (m) is a threshold value of the hidden unit (j, m). As is clear from the equation (6), the hidden unit functions as a kind of threshold logic.

出力層は認識対象となるN個のカテゴリに対応するN
個のユニットから構成されている。n番目の出力ユニッ
トへの入力値x(3)(n)(n=1〜N)は隠れユニット
の出力値y(2) j(m)と隠れユニットと出力ユニットの
間の結合係数α(j,m)を用いて次式のように与えら
れる。
The output layer has N corresponding to N categories to be recognized.
It is composed of individual units. The input value x (3) (n) (n = 1 to N) to the nth output unit is the output value y (2) j (m) of the hidden unit and the coupling coefficient α n between the hidden unit and the output unit. It is given by the following equation using (j, m).

出力ユニットの入出力の応答関係は式2と同じである。 The input / output response relationship of the output unit is the same as that in Equation 2.

y(3)(n)=f(x(3)(n)−θ(3)(n)) …
(8) ここでθ(3)(n)は出力ユニットnの持つ閾値であ
る。
y (3) (n) = f (x (3) (n) −θ (3) (n)) ...
(8) where θ (3) (n) is the threshold value of the output unit n.

こうして得られるネットワークの出力値y(3)(n)は
式1で与えられている入力時系列の時間軸と入力ユニッ
ト層の時間軸の対応関係{c(k)}に依存している。
最終的なカテゴリnのネットワークによる認識結果は
{c(k)}に関して最適化された(最大化された)出
力値onとして得られる。
The output value y (3) (n) of the network thus obtained depends on the correspondence {c (k)} between the time axis of the input time series and the time axis of the input unit layer, which is given by the equation (1).
The final recognition result by the network of category n is obtained as an optimized (maximized) output value o n with respect to {c (k)}.

ここで式(8)は単調関数なので式(9)は と置き換えても同じである。ここでf( )の中の特徴
ベクトルの成分pに関する和は省略した。式(10)の
{ }の中の式を γ(c(k),c(k−1)) と定義すると、式(10)は となり、この最適化は良く知られた動的計画法を用いて
解くことができることが分かる。即ち、γ(c(k),c
(k−1))の累積和をg(k)として、次の漸化式を
計算してon=g(K)を求めればよい。
Since equation (8) is a monotone function, equation (9) is It is the same even if replaced with. Here, the sum of the feature vector components p in f () is omitted. When the expression in {} of the expression (10) is defined as γ (c (k), c (k-1)), the expression (10) becomes It can be seen that this optimization can be solved using the well-known dynamic programming method. That is, γ (c (k), c
The (k-1) cumulative sum of) as g (k), may be obtained and by calculating the following recurrence formula o n = g (K).

次にニューラル・ネットワーク・モデルのパラメータで
あるユニット間結合係数{β0 j(m,p),β1 j(m,p),
α(j,m)}と閾値{θ(2) j(m),θ(3)(n)}を
決定する学習法について説明する。
Next, the unit coupling coefficients {β 0 j (m, p), β 1 j (m, p), which are the parameters of the neural network model,
A learning method for determining α n (j, m)} and the threshold value {θ (2) j (m), θ (3) (n)} will be described.

カテゴリnの学習に用いる特徴ベクトルの時系列の組
をA(n) q={an q,i(p)}とする。ここでqは同じカテ
ゴリ内の複数の時系列パターンを区別する添字、iは時
系列の時間軸を表わす添字、pは各時刻での特徴ベクト
ルの成分を表わす添字である。各添字の範囲は n=1〜N,q=1〜Qn,i=1〜Iq,p=1〜P …(14) ネットワークにこのデータA(n) qを提示する為には時系
列の長さIqをネットワークの入力層の時間軸の長さJに
正規化しなければならない。学習時にはモデルのパラメ
ータが最適化されていないので、認識時のように動的計
画法を用いることは難しい。
A set of time series of feature vectors used for learning of category n is A (n) q = {a n q, i (p)}. Here, q is a subscript that distinguishes a plurality of time series patterns in the same category, i is a subscript that represents the time axis of the time series, and p is a subscript that represents the component of the feature vector at each time. The range of each subscript is n = 1 to N, q = 1 to Q n , i = 1 to I q , p = 1 to P (14) In order to present this data A (n) q to the network, The length Iq of the sequence must be normalized to the length J of the time axis of the input layer of the network. It is difficult to use dynamic programming as in recognition because the parameters of the model are not optimized during learning.

そこで学習の為にはカテゴリnのデータの集合A(n) q
(q=1〜Qn)の中から代表となる時系列パターンA(n)
q0を選び出し、それ以外のデータA(n) q(q≠q0)の時
間軸をDPマッチングによって前記代表パターンの時間軸
に対応付ける。その方法を次に示す。代表パターンA(n)
q0の時間軸をj(j=1〜J)、時間軸の対応付け(正
規化)を行ないたいデータA(n) q(q=q0)の時間軸を
i(i=1〜I)とする。このとき2つのパターンをDP
マッチングすることによって2つのパターンの時間軸の
間の対応関係(歪関数)i=i(j)が得られる。DPマ
ッチングと歪関数に関しては「日経エレクトロニクス」
誌、第329号の第171頁(昭和58年11月7日発行)に詳し
く解説されている(以下、文献2と呼ぶ)。この歪関数
i(j)によって代表パターンの時間軸jには学習デー
タの時間軸i=i(j)のフレーム・ベクトルan q,i(j)
を対応付ければ良いことが分かる。この歪関数はDPマッ
チングに用いる局所的な経路の制限の仕方によってはj
=j(i)のような形になり、あるjに対応するフレー
ム・ベクトルが複数存在することが起こるが、このよう
な場合にも対応するフレーム・ベクトルを平均化するこ
とによって同様の時間軸対応付けが行える。
Therefore, for learning, a set of data of category n A (n) q
(Q = 1~Q n) time series pattern A as a representative from among the (n)
I picked out q0, associating the time axis of the other data A (n) q (q ≠ q 0) to the time axis of the representative pattern by DP matching. The method is shown below. Representative pattern A (n)
The time axis of q0 j (j = 1~J), correspondence of the time axis data want to do (normalized) A (n) q time axis (q = q 0) i ( i = 1~I) And DP at this time two patterns
By matching, the correspondence (distortion function) i = i (j) between the time axes of the two patterns is obtained. Nikkei Electronics about DP matching and distortion function
The magazine, No. 329, page 171 (published on November 7, 1983) explains in detail (hereinafter referred to as reference 2). With this distortion function i (j), the frame vector a n q, i (j) of the learning data time axis i = i (j) is represented on the time axis j of the representative pattern.
It is understood that it is sufficient to associate This distortion function is j depending on how to limit the local path used for DP matching.
= J (i), and there may be a plurality of frame vectors corresponding to a certain j. In such a case, by averaging the corresponding frame vectors, a similar time axis is obtained. Can be associated.

この結果、データ毎にばらついていた時間長Iqが一定
の長さIq0に正規化される。ネットワークの入力層の時
間軸の長さJはこのIq0に等しく設定する。
As a result, the time length I q that has varied for each data is normalized to a fixed length I q0 . The length J of the time axis of the input layer of the network is set equal to this I q0 .

ここでカテゴリーnの代表パターンの選び方としては
様々な方法が考えられるが、例えばカテゴリnのパター
ン集合の中でパターン間のDPマッチングによる累積距離
d(Aq0,Aq)をパターン間距離として、次式で与えられ
る量Δ、 を最小にするようなq0とする。このq0はすべてのq=1
〜Qnをq0と仮定してΔを計算する総当たり法によって容
易に求めることができる。この他にも任意の1パターン
を代表にすることも可能である。
Here, various methods can be considered for selecting the representative pattern of category n. For example, in the pattern set of category n, the cumulative distance d (A q0 , A q ) by DP matching between patterns is set as the inter-pattern distance. The quantity Δ given by Let q 0 that minimizes. This q 0 is all q = 1
It can be easily obtained by the brute force method of calculating Δ assuming that Q n is q 0 . In addition to this, it is also possible to represent an arbitrary one pattern.

こうして時間軸の長さを長さJに正規化した入力学習
データをA(n) q={an q,i(p)}(i=1〜J)とす
る。また、同じ長さJに正規化された他のカテゴリの学
習データをB(m) r={bm r,i(p)}(r=1〜R)とす
る(以後このBを反学習データと呼ぶ)。このときq番
目の学習データに対するネットワークの出力値をy(3) q
(n)、望ましい出力値をzq(n)(=1.0)、r番目
の反学習データに対する第nユニットの出力値をy(3) r
(n)、望ましい出力値をzr(n)(=0.0)とする
と、出力ユニット層に於ける出力値の誤差Eは で与えられる。この誤差量Eは学習によって決定しなけ
ればならないユニット間結合係数{β0 j(m,p),β1 j
(m,p),αn(j,m)}と閾値{θ(2) j(m),θ
(3)(n)}の関数と考えられるのでEを評価関数とし
て最小化するようにこれらのパラメータを決定すればよ
い。またユニットの閾値は常に1を出力するユニットを
仮想的に考えて、そのユニットとの結合係数と考えれば
ユニット間結合と同じように学習することができる。そ
こで隣接する2層、第n層のユニットiと第n+1層の
ユニットjを結ぶユニット間結合係数をωn ijとする
と、このωn ijに関するEの微係数を用いて ωn ij(t+1)=ωn ij(t)−ε(δE/δωn ij)t
…(17) とすれば、必ず、 E(t+1)≦E(t) …(18) となる。ここでtは繰り返し学習のステップを表わす整
数値、εは修正の程度を決める定数である。結局、Eを
小さくするようにωn ijを繰り返し修正することがパラ
メータの学習になるのである。ここでωn ijと前記モデ
ルのユニット間結合係数{β0 j(m,p),β1 j(m,p),
α(j,m),θ(2)j(m),θ(3)(n)}とは例え
ば次のように対応付ければよい。
In this way, the input learning data obtained by normalizing the length of the time axis to the length J is set as A (n) q = {a n q, i (p)} (i = 1 to J). Further, the learning data of other categories normalized to the same length J is set to B (m) r = {b m r, i (p)} (r = 1 to R) (hereinafter, this B is the anti-learning). Called data). At this time, the output value of the network for the qth learning data is y (3) q
(N), the desired output value is z q (n) (= 1.0), and the output value of the nth unit for the r-th anti-learning data is y (3) r
(N), if the desired output value is z r (n) (= 0.0), the error E of the output value in the output unit layer is Given in. This error amount E must be determined by learning. The unit coupling coefficient {β 0 j (m, p), β 1 j
(M, p), α n (j, m)} and threshold {θ (2) j (m), θ
(3) Since these are considered to be functions of (n)}, these parameters may be determined so as to minimize E as an evaluation function. Further, the threshold value of the unit can be learned in the same manner as the inter-unit coupling by considering a unit that always outputs 1 virtually and considering it as a coupling coefficient with the unit. Therefore two adjacent layers, when the inter-unit coupling coefficient linking the unit i and unit j of the n + 1 layer of the n-layer and omega n ij, using a derivative of E about the ω n ij ω n ij (t + 1) = Ω n ij (t) -ε (δE / δω n ij ) t
If (17), then E (t + 1) ≦ E (t) (18). Here, t is an integer value that represents the step of iterative learning, and ε is a constant that determines the degree of correction. After all, the parameter learning is to repeatedly correct ω n ij so as to reduce E. Here, ω n ij and the coupling coefficient between units of the model {β 0 j (m, p), β 1 j (m, p),
For example, α n (j, m), θ (2) j (m), θ (3) (n)} may be associated as follows.

Eの微係数は解析的な計算の結果次式のようになること
が分かる。
It can be seen that the differential coefficient of E is as follows as a result of analytical calculation.

ここでδ(n+1) i,qはq番目の学習(または反学習)デー
タを入力層に提示した場合の第n+1層のユニットiの
入力値に換算された誤差で、y(n) j,qはq番目の学習デ
ータに対する第n層のユニットjの出力値である。δ
(n) i,qは次のような漸化式を用いて計算することができ
る。
Here, δ (n + 1) i, q is an error converted into the input value of the unit i of the n + 1-th layer when the q-th learning (or anti-learning) data is presented to the input layer, and y (n) j and q are output values of the unit j of the nth layer for the qth learning data. δ
(n) i, q can be calculated using the following recurrence formula.

ここでf(x)は式6で与えられるユニットの入出力応
答関数で、x(n) iは第n層のユニットiへの入力値、zi
は第N層(出力層)のユニットiがとるべき値で学習の
時には1.0で反学習の時には0.0である。この式21に基づ
いて、各ユニットに換算された誤差量δを求める計算が
出力層から入力層の方向に進むので、この学習法は逆伝
播学習法(バック・プロパゲーション学習法)と呼ばれ
ている(詳細は文献1を参照のこと)。
Where f (x) is the input / output response function of the unit given by Equation 6, x (n) i is the input value to the unit i of the nth layer, and z i
Is a value that the unit i of the Nth layer (output layer) should take, and is 1.0 for learning and 0.0 for anti-learning. This learning method is called the back-propagation learning method (back propagation learning method) because the calculation of the error amount δ converted to each unit proceeds from the output layer to the input layer based on this equation 21. (Refer to Reference 1 for details).

結局、ユニット間結合係数に任意の初期値を与えたモ
デルから出発して、複数の学習・反学習データを提示し
て、各ユニット間結合に関して上記の繰り返し訂正学習
を行なえば、出力層での誤差を極小化するユニット間結
合の組を得ることができる。
After all, starting from a model in which an arbitrary initial value is given to the inter-unit coupling coefficient, if multiple learning / anti-learning data are presented and the above iterative correction learning is performed for each inter-unit coupling, the output layer It is possible to obtain a set of inter-unit couplings that minimize the error.

(実施例) 以下に式13の漸化式計算の為の(i,j)平面上での時
間軸対応付け規則(c(k)とc(k−1)の相対位置
関係)として第3図のような規則を用いた場合の本発明
の実施例を説明する。第3図の場合はc(k)=(i,
j)とするとc(k−1)としては(i−1,j),(i−
1,j−1),(i−1,j−2)の3点だけが可能になる。
このように対応付け規則の場合にはニューラル・ネット
ワークの出力を決める式(12),(13)は次のように書
ける。
(Embodiment) The third time is shown below as a time axis correspondence rule (relative positional relationship between c (k) and c (k-1)) on the (i, j) plane for the recurrence formula calculation of Expression 13. An embodiment of the present invention using the rules shown in the figure will be described. In the case of FIG. 3, c (k) = (i,
j), c (k-1) is (i-1, j), (i-
Only three points of 1, j-1) and (i-1, j-2) are possible.
Thus, in the case of the association rule, the equations (12) and (13) that determine the output of the neural network can be written as follows.

gn(i,j)=γ(i,j)+max[gn(i−1,j),gn(i
−1,j−1), gn(i−1,j−2)] …(24) 第1図は式(22)〜(24)に基づいて本発明を実現した
一実施例を示したブロック図である。分析部10は入力さ
れた音声波形データを分析して特徴ベクトルの時系列に
変換して、パターンバッファ部20に記憶する。パターン
バッファ部20には学習動作時には学習用時系列データが
記憶され、認識動作時には未知発声の分析データが記憶
される。続く切り替えスイッチによって学習動作と認識
動作の切り替えを行なう。
g n (i, j) = γ n (i, j) + max [g n (i−1, j), g n (i
−1, j−1), g n (i−1, j−2)] (24) FIG. 1 shows an embodiment in which the present invention is realized based on formulas (22) to (24). It is a block diagram. The analysis unit 10 analyzes the input voice waveform data, converts it into a time series of feature vectors, and stores it in the pattern buffer unit 20. The pattern buffer unit 20 stores the learning time series data during the learning operation, and stores the analysis data of the unknown utterance during the recognition operation. The learning operation and the recognition operation are switched by the subsequent changeover switch.

時間軸整合部30は学習データ群中の各カテゴリの代表
パターンを式15に基づいて決定して、他の学習データを
代表パターンへDPマッチングすることによって時間軸の
整合を行い、すべての学習データの時間軸の長さを長さ
Jへ規格化する。修正量計算部40は時間軸整合部30から
送られた学習データとユニット間結合係数記憶部50に蓄
えられた結合係数を用いて、式17,20,21に基づいて結合
係数ωn ijの修正量Δωn ijを算出して、結合係数修正部
60に送る。結合係数修正部60はユニット間結合係数記憶
部50に蓄えられた結合係数に前記修正量Δωn ijを加え
て、書き戻す。修正量計算部40はすべての結合係数に対
する修正量Δωn ijが予め定められた閾値より小さくな
るまでか、あるいは修正回数が予め定められた回数を越
えるまで、この修正動作を繰り返す。
The time-axis matching unit 30 determines the representative pattern of each category in the learning data group based on Equation 15, and performs DP-matching of the other learning data to the representative pattern to perform time-axis matching and all learning data. The length of the time axis of is standardized to the length J. The correction amount calculation unit 40 uses the learning data sent from the time axis matching unit 30 and the coupling coefficient stored in the inter-unit coupling coefficient storage unit 50 to calculate the coupling coefficient ω n ij based on Equations 17, 20, and 21. The correction amount Δω n ij is calculated, and the coupling coefficient correction unit
Send to 60. The coupling coefficient modification unit 60 adds the modification amount Δω n ij to the coupling coefficient stored in the inter-unit coupling coefficient storage unit 50 and writes it back. The correction amount calculation unit 40 repeats this correction operation until the correction amount Δω n ij for all coupling coefficients becomes smaller than a predetermined threshold value or the number of correction times exceeds a predetermined number.

格子点計算部70はパターンバッファ部20から送られた
未知発声データとユニット間結合係数記憶部50に蓄えら
れた結合係数を用いて、式23に基づいて格子点データγ
(i,j)(i=1〜I,j=1〜J,n=1〜N)を計算す
る。計算された格子点データは格子点記憶部80に格納さ
れる。漸化式計算部90は格子点記憶部80に蓄えられた格
子点データを用いて、式24に基づく漸化式計算を行なっ
て累積値gn(I,J)を作業用記憶部100に格納する。作業
用記憶部100は漸化式計算途中にもgn(i,j)の記憶に用
いられる。認識判定部110は作業用記憶部100に格納され
た累積値gn(I,J)の中から最大の累積値を与えるnの
値を認識結果として出力する。
The lattice point calculation unit 70 uses the unknown utterance data sent from the pattern buffer unit 20 and the coupling coefficient stored in the inter-unit coupling coefficient storage unit 50 to calculate the lattice point data γ based on Equation 23.
Calculate n (i, j) (i = 1 to I, j = 1 to J, n = 1 to N). The calculated grid point data is stored in the grid point storage unit 80. The recurrence formula calculation unit 90 uses the grid point data stored in the grid point storage unit 80 to perform the recurrence formula calculation based on Formula 24 and store the cumulative value g n (I, J) in the working storage unit 100. Store. The work storage unit 100 is used for storing g n (i, j) even during the recurrence formula calculation. The recognition determination unit 110 outputs, as a recognition result, the value of n that gives the maximum cumulative value among the cumulative values g n (I, J) stored in the work storage unit 100.

(発明の効果) 以上述べたように、本発明によれば認識動作時に未知
音声データの発声時間長の変動を動的計画法によって正
規化してニューラル・ネットワークに入力することがで
きる時間軸の正規化能力を有するニューラル・ネットワ
ークを提供できる。このように本発明のニューラル・ネ
ットワークは認識動作時に時間軸正規化能力を有するの
で、学習動作時には音声データの発声毎の特徴パラメー
タの変動を小数の学習データ(発声時間長の変動による
多様性を持たなくてよい)を用いて学習することによっ
て、良好な認識装置を提供することができる。
(Effect of the Invention) As described above, according to the present invention, the fluctuation of the utterance time length of unknown speech data during the recognition operation is normalized by the dynamic programming method and can be input to the neural network. It is possible to provide a neural network having the capability of computerization. As described above, since the neural network of the present invention has the ability to normalize the time axis during the recognition operation, the variation of the characteristic parameter for each utterance of the voice data during the learning operation is reduced by a small number of learning data (variance due to the variation of the utterance time length is It is possible to provide a good recognition device by learning by using (you do not have to have).

【図面の簡単な説明】[Brief description of drawings]

第1図は本発明の一実施例を示すブロック図、第2図は
ニューラル・ネットワークの階層構造を表わす図、第3
図は漸化式計算の為の(i,j)平面上での時間軸対応付
け規則の例を表わす図である。 図に於て、10は分析部、20はパターンバッファ部、30は
時間軸整合部、40は修正量計算部、50はユニット間結合
係数記憶部、60は結合係数修正部、70は格子点計算部、
80は格子点記憶部、90は漸化式計算部、100は作業用記
憶部、110は認識判定部である。
FIG. 1 is a block diagram showing an embodiment of the present invention, FIG. 2 is a diagram showing a hierarchical structure of a neural network, and FIG.
The figure is a diagram showing an example of a time axis association rule on the (i, j) plane for recurrence formula calculation. In the figure, 10 is an analysis unit, 20 is a pattern buffer unit, 30 is a time axis matching unit, 40 is a correction amount calculation unit, 50 is an inter-unit coupling coefficient storage unit, 60 is a coupling coefficient correction unit, and 70 is a grid point. Calculator,
Reference numeral 80 is a grid point storage unit, 90 is a recurrence formula calculation unit, 100 is a working storage unit, and 110 is a recognition determination unit.

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】音声等の時系列パターンを認識するニュー
ラル・ネットワークで、入力・出力層と複数の中間層か
ら構成される階層構造を有し、更に入力層と中間層が時
間軸に対応する時系列的構造を有し、認識時には動的計
画法によって入力時系列パターンの時間軸をニューラル
・ネットワークの出力が最大となるように入力層の持つ
時間軸と対応付けを行い、その時の出力層の出力を認識
結果とするダイナミック・ニューラルネットワークに於
て、その各階層間のユニット間結合係数を学習するに際
して、入力層の時間軸の長さと同じ一定の継続時間長に
正規化した学習用時系列パターンを入力層に提示し、出
力層には対応して出力すべき教師信号を提示して、出力
層での教師信号と実際の出力値との差異を小さくするよ
う結合係数を決定する教師付き学習を行う機構を有する
ダイナミック・ニューラルネットワーク。
1. A neural network for recognizing a time-series pattern such as voice, having a hierarchical structure composed of an input / output layer and a plurality of intermediate layers, and the input layer and the intermediate layer correspond to a time axis. It has a time-series structure, and at the time of recognition, the time axis of the input time-series pattern is associated with the time axis of the input layer so that the output of the neural network is maximized by dynamic programming, and the output layer at that time is associated. When learning the unit coupling coefficient between each layer in a dynamic neural network that uses the output of the above as the recognition result, the learning time is normalized to a constant duration that is the same as the length of the time axis of the input layer. The sequence pattern is presented to the input layer, the teacher signal to be output correspondingly is presented to the output layer, and the coupling coefficient is determined so as to reduce the difference between the teacher signal in the output layer and the actual output value. Dynamic neural network having a mechanism for supervised learning that.
【請求項2】上記学習用時系列パターンの継続時間長の
バラツキの正規化を、代表パターンへのDPマッチングに
よって行うことを特徴とする請求項(1)記載のダイナ
ミック・ニューラルネットワーク。
2. The dynamic neural network according to claim 1, wherein the variation of the duration of the learning time series pattern is normalized by DP matching with the representative pattern.
【請求項3】上記ユニット間結合係数の教師付き学習
を、バックプロパゲーション学習法によって実現するこ
とを特徴とする請求項(1)記載のダイナミック・ニュ
ーラルネットワーク。
3. The dynamic neural network according to claim 1, wherein the supervised learning of the inter-unit coupling coefficient is realized by a backpropagation learning method.
JP63070617A 1988-03-23 1988-03-23 Dynamic neural network with learning mechanism Expired - Lifetime JP2518007B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63070617A JP2518007B2 (en) 1988-03-23 1988-03-23 Dynamic neural network with learning mechanism

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63070617A JP2518007B2 (en) 1988-03-23 1988-03-23 Dynamic neural network with learning mechanism

Publications (2)

Publication Number Publication Date
JPH01241667A JPH01241667A (en) 1989-09-26
JP2518007B2 true JP2518007B2 (en) 1996-07-24

Family

ID=13436743

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63070617A Expired - Lifetime JP2518007B2 (en) 1988-03-23 1988-03-23 Dynamic neural network with learning mechanism

Country Status (1)

Country Link
JP (1) JP2518007B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03144176A (en) * 1989-10-28 1991-06-19 Sekisui Chem Co Ltd Voice-controlled hot water supply device
JPH07104952B2 (en) * 1989-12-28 1995-11-13 シャープ株式会社 Pattern matching device
KR100204101B1 (en) * 1990-03-02 1999-06-15 가나이 쓰도무 Image processing apparatus
US5402519A (en) * 1990-11-26 1995-03-28 Hitachi, Ltd. Neural network system adapted for non-linear processing
DE4431720C2 (en) * 1994-09-06 2001-03-15 Sun Electric Deutschland Gmbh Method and device for determining the rotational speed of internal combustion engines

Also Published As

Publication number Publication date
JPH01241667A (en) 1989-09-26

Similar Documents

Publication Publication Date Title
EP0342630B1 (en) Speech recognition with speaker adaptation by learning
JP2979711B2 (en) Pattern recognition method and standard pattern learning method
JP2692581B2 (en) Acoustic category average value calculation device and adaptation device
US6421640B1 (en) Speech recognition method using confidence measure evaluation
US5181256A (en) Pattern recognition device using a neural network
KR100306848B1 (en) A selective attention method using neural networks
JPH08227408A (en) Neural network
JP2518007B2 (en) Dynamic neural network with learning mechanism
JPH0540497A (en) Speaker adaptive voice recognizing device
Pauli et al. Lipschitz-bounded 1D convolutional neural networks using the Cayley transform and the controllability Gramian
JPH05225163A (en) Neural network system and learning method for neural network
JPH064097A (en) Speaker recognizing method
JP2897220B2 (en) Signal processing device
CN106355715A (en) Wireless speech-recognition door access system
JPH0535710A (en) Learning method/device for neural network
JPH01241668A (en) Dynamic neural network to have learning mechanism
JPH01204171A (en) Dynamic neural network having learning mechanism
JPH05204399A (en) Unspecified speaker's phoneme recognition method
JPH01204172A (en) Dynamic neural network having learning mechanism
JP3052520B2 (en) Pattern classification device
WO2021145185A1 (en) Behavior recognition device, behavior recognition method, program, and recording medium
JP2734828B2 (en) Probability calculation device and probability calculation method
KR0185755B1 (en) Voice recognition system using neural net
JP3521844B2 (en) Recognition device using neural network
JPH0744195A (en) Recurrent neutral network for speech recognition