JPH06266398A - Arithmetic unit using neural network - Google Patents

Arithmetic unit using neural network

Info

Publication number
JPH06266398A
JPH06266398A JP5055938A JP5593893A JPH06266398A JP H06266398 A JPH06266398 A JP H06266398A JP 5055938 A JP5055938 A JP 5055938A JP 5593893 A JP5593893 A JP 5593893A JP H06266398 A JPH06266398 A JP H06266398A
Authority
JP
Japan
Prior art keywords
neural network
unit
pattern
information
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5055938A
Other languages
Japanese (ja)
Inventor
Hiroya Murao
浩也 村尾
Toshiyuki Watanabe
俊幸 渡辺
Shinichi Tsurufuji
真一 鶴藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP5055938A priority Critical patent/JPH06266398A/en
Publication of JPH06266398A publication Critical patent/JPH06266398A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To enable plural neural networks to be realized by the same program by performing arithmetic for an optional neural network by a neural network arithmetic part according to a selection. CONSTITUTION:A neural network structure storage part 100 sends neural network structure information to the neural network arithmetic part 40. The neural network arithmetic part 40, on receiving the information, determines the structure of the neural network and becomes to be in a state waiting data from a pattern generation part 20. Then, when the pattern generation part 20 generates a speech pattern, the arithmetic of the neural network is performed on the basis of the speech pattern and inter-unit coupling information and a coupling coefficient designated by the neural network structure storage part 100 by a program written in the ROM of the neural network arithmetic part 40.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、ニューラルネットワー
クを用いた演算装置であって、特にニューラルネットワ
ークへの入力情報として、音声の分析結果である特徴パ
ラメータを用いることにより音声パターン等を認識する
認識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an arithmetic unit using a neural network, and particularly to recognition for recognizing a voice pattern or the like by using a characteristic parameter which is a voice analysis result as input information to the neural network. Regarding the device.

【0002】[0002]

【従来の技術】音声認識装置において、日常人間が行っ
ている判定方式に近い処理をコンピュータ上で実現する
ことが、音声認識の実用化にとって重要であり、その一
方策として、人間の神経回路網を簡単なモデルとしてコ
ンピュータ上で実現したニューラルネットワークが広く
用いられている。
2. Description of the Related Art In a speech recognition apparatus, it is important for practical use of speech recognition to realize processing on a computer that is similar to the judgment method performed by everyday humans. A neural network realized on a computer as a simple model is widely used.

【0003】ニューラルネットワークの演算を行う手法
としては、専用LSIによる方法と汎用コンピュータに
よる方法があるが、専用LSIは、コストアップにつな
がるため、汎用コンピュータによりプログラムを組ん
で、演算を実現することが一般的である。
As a method of calculating the neural network, there are a method using a dedicated LSI and a method using a general-purpose computer. However, since the dedicated LSI leads to an increase in cost, it is possible to program the general-purpose computer to realize the calculation. It is common.

【0004】図3はニューラルネットワークを用いた音
声認識装置の概略構成図であり、同図における11は入
力された音声を分析する音声分析部、12は音声分析部
11で分析された音声の特徴パラメータを基に音声区間
を検出する区間検出部であり、この音声分析部11及び
区間検出部12により特徴パラメータ抽出部10を構成
する。20は特徴パラメータ抽出部10で抽出された音
声区間の特徴パラメータからパターンを作成するパター
ン作成部、31はニューラルネットワークのユニット間
の結合情報が数値化され格納されているユニット間結合
情報記憶部、32はニューラルネットワークのユニット
間の結合係数が格納されている結合係数記憶部であり、
このユニット間結合情報記憶部31と結合係数記憶部3
2が認識時にはROM30に格納される。40はパター
ン作成部20で作成されたパターン、ユニット間結合情
報記憶部31に記憶されているユニット間結合情報及び
結合係数記憶部32に記憶されている結合係数からニュ
ーラルネットワークの演算を行うニューラルネットワー
ク演算部、50はニューラルネットワーク演算部の演算
結果を基に認識の判定を行う認識判定部である。
FIG. 3 is a schematic configuration diagram of a voice recognition device using a neural network. In FIG. 3, 11 is a voice analysis unit for analyzing the input voice, and 12 is a feature of the voice analyzed by the voice analysis unit 11. This is a section detection unit that detects a voice section based on a parameter, and the voice analysis section 11 and the section detection section 12 configure a characteristic parameter extraction section 10. Reference numeral 20 is a pattern creation unit that creates a pattern from the feature parameters of the voice section extracted by the feature parameter extraction unit 10, 31 is an inter-unit connection information storage unit in which connection information between units of the neural network is digitized and stored, Reference numeral 32 denotes a coupling coefficient storage unit that stores coupling coefficients between units of the neural network,
This inter-unit coupling information storage unit 31 and coupling coefficient storage unit 3
When 2 is recognized, it is stored in the ROM 30. Reference numeral 40 denotes a neural network for performing a neural network operation from the pattern created by the pattern creating unit 20, the inter-unit coupling information stored in the inter-unit coupling information storage unit 31, and the coupling coefficient stored in the coupling coefficient storage unit 32. The calculation unit 50 is a recognition determination unit that determines recognition based on the calculation result of the neural network calculation unit.

【0005】図4は図3に示す音声認識装置のニューラ
ルネットワークを学習するためのニューラルネットワー
ク学習装置の概略構成図であり、図3におけるニューラ
ルネットワークを用いた音声認識装置と同一機能を有す
るものについては、同一番号を付し、その説明は省略す
る。60はパターン作成部20から特徴パラメータを受
けて音声パターンを蓄積する学習パターン蓄積部、70
は学習パターン蓄積部60からニューラルネットワーク
演算部40に送られた学習パターンの該当するカテゴリ
(ここでカテゴリとは認識対象となる語彙のことであ
る。)の番号を教師信号として発生する教師信号発生
部、80はニューラルネットワーク演算部40の演算結
果と教師信号発生部70の教師信号とにより誤差を計算
する誤差演算部、90は誤差演算部80の演算結果に基
づいて結合係数記憶部32の結合係数を変更する学習演
算部である。
FIG. 4 is a schematic block diagram of a neural network learning device for learning the neural network of the speech recognition device shown in FIG. 3, which has the same function as the speech recognition device using the neural network in FIG. Are denoted by the same reference numerals, and description thereof will be omitted. Reference numeral 60 denotes a learning pattern storage unit that receives characteristic parameters from the pattern creation unit 20 and stores a voice pattern, and 70
Is a teacher signal generation that generates, as a teacher signal, the number of the corresponding category (here, the category is a vocabulary to be recognized) of the learning pattern sent from the learning pattern storage unit 60 to the neural network operation unit 40. Reference numeral 80 denotes an error calculation unit that calculates an error based on the calculation result of the neural network calculation unit 40 and the teacher signal of the teacher signal generation unit 70. Reference numeral 90 denotes the combination of the combination coefficient storage unit 32 based on the calculation result of the error calculation unit 80. It is a learning calculation unit that changes the coefficient.

【0006】図5は階層型ニューラルネットワークの概
略構成図であり、41aは入力層、42aは中間層、4
3aは出力層であり、夫々I個、J個、K個のユニット
より構成されている。上下方向に隣接する各層を構成す
る夫々のユニットは図示した通り、ユニット間結合情報
記憶部31の結合情報を基に情報伝送経路によって接続
される。その情報伝達経路の結合係数は結合係数記憶部
32に格納されている。
FIG. 5 is a schematic configuration diagram of a hierarchical neural network. 41a is an input layer, 42a is an intermediate layer, and 4a.
An output layer 3a is composed of I, J, and K units, respectively. As shown in the drawing, the respective units forming the layers adjacent to each other in the vertical direction are connected by the information transmission path based on the coupling information in the inter-unit coupling information storage unit 31. The coupling coefficient of the information transmission path is stored in the coupling coefficient storage unit 32.

【0007】ここで、具体的に各層のユニットの個数を
述べる。例えば、一桁の数字音声「れい」、「いち」、
「に」、「さん」、「し」、「ご」、「ろく」、「し
ち」、「はち」、「く」及びこれらの読み替えである
「ぜろ」、「まる」、「よん」、「なな」、「きゅう」
の計15単語を例に挙げる。
Here, the number of units in each layer will be specifically described. For example, the one-digit number voice "Rei", "Ichi",
"Ni", "san", "shi", "go", "roku", "shichi", "hachi", "ku" and their replacements "zero", "maru", "yon" , "Nana", "Kyu"
Take a total of 15 words as an example.

【0008】入力される音声は、周波数帯域を16分
割、時間を8分割してパターン化するようにしているの
で、入力層41aのユニット数I=16×8=128で
ある。
Since the frequency of the input voice is divided into 16 and the time is divided into 8, the number of units in the input layer 41a is I = 16 × 8 = 128.

【0009】また、認識すべきカテゴリ数は15である
ので、出力層43aのユニット数K=15であり、更に
中間層42aのユニット数Jは50とする。
Since the number of categories to be recognized is 15, the number of units K of the output layer 43a is K = 15, and the number of units J of the intermediate layer 42a is 50.

【0010】上述の如き構成において、学習パターン蓄
積部60における学習パターンの蓄積並びにニューラル
ネットワークの学習について説明する。一桁数字音声
「れい」を音声分析部11に入力する。音声分析部11
では、その音声「れい」をA/Dコンバータ(明示せ
ず)で、A/D変換したうえで、例えば100〜600
0Hzの周波数帯域を16分割し、夫々の周波数帯域に
おける大きさ、即ち16個の周波数成分を5ミリ秒毎に
抽出すると共に、必要に応じてパワー情報等も抽出す
る。これらの情報が特徴パラメータとして用いられる。
The accumulation of learning patterns in the learning pattern accumulating unit 60 and the learning of the neural network in the above-mentioned configuration will be described. The one-digit number voice “Rei” is input to the voice analysis unit 11. Speech analysis unit 11
Then, after the voice "Rei" is A / D converted by an A / D converter (not explicitly shown), for example, 100 to 600
The frequency band of 0 Hz is divided into 16, and the size in each frequency band, that is, 16 frequency components are extracted every 5 milliseconds, and power information and the like are extracted as necessary. These pieces of information are used as characteristic parameters.

【0011】区間検出部12では、音声分析部11で抽
出された特徴パラメータに基づいて、入力音声「れい」
の開始時刻及び終了時刻を判定して音声区間を決定す
る。区間決定部12で決定された音声区間の特徴パラメ
ータは、パターン作成部20において、その音声区間を
8分割し、各区間における5ミリ秒毎に抽出された周波
数成分の平均を各周波数成分毎に算出する。即ち、1つ
の入力音声に対して、16×8個のデータからなる音声
パターンが作成される。
In the section detection unit 12, based on the characteristic parameters extracted by the voice analysis unit 11, the input voice "Rei"
The voice section is determined by determining the start time and end time of. The feature parameter of the voice section determined by the section determining unit 12 is divided into eight by the pattern creating unit 20, and the average of the frequency components extracted every 5 milliseconds in each period is averaged for each frequency component. calculate. That is, a voice pattern consisting of 16 × 8 data is created for one input voice.

【0012】パターン作成部20で作成された音声パタ
ーンは、学習パターン蓄積部60に送られ、「れい」に
対応するカテゴリの学習パターンとして蓄積される。
The voice pattern created by the pattern creating section 20 is sent to the learning pattern accumulating section 60 and is accumulated as a learning pattern of the category corresponding to "REI".

【0013】以下、上述と同様に「いち」、「に」、・・
・・・、「きゅう」の14個の学習パターンがカテゴリ毎
に学習パターン蓄積部60に蓄積される。
Thereafter, similar to the above, "ichi", "ni", ...
..., 14 learning patterns of "kyu" are stored in the learning pattern storage unit 60 for each category.

【0014】学習パターン蓄積部60に学習パターンが
蓄積されると、学習パターン蓄積部60から「れい」の
カテゴリに属する1個の学習パターンが、ニューラルネ
ットワーク演算部40の入力層41aに入力されると共
に、学習パターン蓄積部60から数字音声「れい」が属
するカテゴリcの番号(但し、1≦c≦K、cは整数、
上述の例の場合K=15である。)が教師信号発生部7
0に送られる。
When the learning patterns are accumulated in the learning pattern accumulating unit 60, one learning pattern belonging to the category "Rei" is inputted from the learning pattern accumulating unit 60 into the input layer 41a of the neural network operation unit 40. At the same time, the number of the category c to which the numerical voice “Rei” belongs from the learning pattern storage unit 60 (where 1 ≦ c ≦ K, c is an integer,
In the above example, K = 15. ) Is the teacher signal generator 7
Sent to 0.

【0015】ニューラルネットワーク演算部40では、
ユニット間結合情報記憶部31に記憶されているネット
ワーク形状と、これに対応付けて結合係数記憶部32に
記憶されているユニット間結合係数とを用いて、入力層
41aに入力された学習パターンに対して、ニューラル
ネットワーク演算部40内部で演算を行ない、その結果
を出力層43aのK個のユニットから出力値Ok(k=
1、2、・・・・・・、K)(以下、Okという。)を出力す
る。
In the neural network operation unit 40,
Using the network shape stored in the unit-to-unit coupling information storage unit 31 and the inter-unit coupling coefficient stored in the coupling coefficient storage unit 32 in association with this, the learning pattern input to the input layer 41a is set. On the other hand, a calculation is performed inside the neural network calculation unit 40, and the result is output from the K units of the output layer 43a as output values Ok (k = k).
, 1, ..., K) (hereinafter referred to as Ok) is output.

【0016】教師信号発生部70では、学習パターン蓄
積部60から送られてきたカテゴリcに応じた教師信号
Tk(k=1、2、・・・・・・、K)(以下、Tkという。)
を発生させて、誤差演算部80に送る。
In the teacher signal generator 70, a teacher signal Tk (k = 1, 2, ..., K) (hereinafter referred to as Tk) corresponding to the category c sent from the learning pattern accumulator 60. )
Is generated and sent to the error calculator 80.

【0017】一方、誤差演算部80では、教師信号発生
部70の教師信号Tkと学習用ニューラルネット演算部
60の出力値Okとの誤差、即ち、 Ek=Tk−Ok (k=1、2、・・・・・・、K) ・・・(1) を演算する。
On the other hand, in the error calculator 80, the error between the teacher signal Tk of the teacher signal generator 70 and the output value Ok of the learning neural network calculator 60, that is, Ek = Tk-Ok (k = 1, 2, ····, K) ··· (1) is calculated.

【0018】学習演算部90は、式(1)に示される誤
差Ekが最小になるように、ユニット間結合情報記憶部
31に記憶されているネットワーク形状を参照し乍ら、
結合係数記憶部32に記憶されているユニット間結合係
数を誤差逆伝搬法に基づいて変更する。
The learning calculation unit 90 refers to the network shape stored in the unit-to-unit coupling information storage unit 31 so that the error Ek shown in the equation (1) is minimized.
The inter-unit coupling coefficient stored in the coupling coefficient storage unit 32 is changed based on the error back propagation method.

【0019】この操作を繰り返すことによって、結合係
数記憶部32に記憶されているユニット間結合係数を徐
々に変化させ、最適解に近付ける。
By repeating this operation, the inter-unit coupling coefficient stored in the coupling coefficient storage unit 32 is gradually changed to approach the optimum solution.

【0020】尚、実際には、最適解を求めることは困難
であるので、学習を十分繰り返すことで準最適解を求
め、この準最適解であっても実用上は問題はない。
In practice, it is difficult to find the optimum solution, so that the quasi-optimal solution is sought by sufficiently repeating the learning, and this quasi-optimal solution has no problem in practice.

【0021】以上の動作により結合係数記憶部32にお
いて結合係数が確定される。この結合係数とユニット間
結合情報記憶部31のユニット間結合情報がROMライ
ター(明示せず)によりROM化され、図3におけるR
OM30として使用される。
By the above operation, the coupling coefficient is determined in the coupling coefficient storage unit 32. This coupling coefficient and the inter-unit coupling information in the inter-unit coupling information storage unit 31 are converted to ROM by a ROM writer (not explicitly shown), and R in FIG.
Used as OM30.

【0022】そこで、学習を終えたニューラルネットワ
−クを用いて音声認識の動作を行う場合について説明す
る。
Then, the case of performing the voice recognition operation using the neural network which has finished learning will be described.

【0023】例えば、一桁数字音声「れい」が発声され
た場合について説明する。音声分析部11では、その音
声「れい」をA/Dコンバータ(明示せず)でA/D変
換したうえで、例えば100〜6000Hzの周波数帯
域を16分割し、夫々の周波数帯域における大きさ、即
ち16個の周波数成分を5ミリ秒毎に抽出すると共に、
必要に応じてパワー情報等も抽出する。
For example, a case where the one-digit number voice "Rei" is uttered will be described. In the voice analysis unit 11, after the voice "Rei" is A / D converted by an A / D converter (not explicitly shown), for example, the frequency band of 100 to 6000 Hz is divided into 16, and the size in each frequency band, That is, 16 frequency components are extracted every 5 milliseconds, and
Power information and the like are also extracted as needed.

【0024】区間検出部12では、音声分析部11で抽
出された特徴パラメータに基づいて、入力音声「れい」
の開始時刻及び終了時刻を判定して音声区間を決定す
る。区間決定部12で決定された音声区間の特徴パラメ
ータは、パターン作成部20において、その音声区間を
8分割し、各区間における5ミリ秒毎に抽出された周波
数成分の平均を各周波数成分毎に算出する。即ち、1つ
の入力音声に対して、16×8個のデータからなる音声
パターンが作成される。
In the section detecting unit 12, the input voice "Rei" is input based on the characteristic parameters extracted by the voice analyzing unit 11.
The voice section is determined by determining the start time and end time of. The feature parameter of the voice section determined by the section determining unit 12 is divided into eight by the pattern creating unit 20, and the average of the frequency components extracted every 5 milliseconds in each period is averaged for each frequency component. calculate. That is, a voice pattern consisting of 16 × 8 data is created for one input voice.

【0025】パターン作成部20で音声パターンが作成
されると、ニューラルネットワーク演算部40のROM
(明示せず)に書かれているプログラムに基づいて、上
記音声パターンと、ROM30に格納されているユニッ
ト間結合情報及び結合係数を用いて演算を行う。演算結
果として、認識すべきカテゴリの15単語の演算結果に
該当する出力層43aの出力値が認識判定部50に伝達
される。認識判定部50においては、ニューラルネット
ワーク演算部40から送られてきた出力層43aの出力
値のうち最も値が大きいカテゴリを認識結果と判定す
る。この場合には、カテゴリ「れい」の出力層43aの
出力値が最も大きいため、カテゴリ「れい」が認識結果
と決定される。
When a voice pattern is created by the pattern creating unit 20, the ROM of the neural network computing unit 40
Based on the program written in (not explicitly shown), calculation is performed using the voice pattern and the inter-unit coupling information and coupling coefficient stored in the ROM 30. As the calculation result, the output value of the output layer 43a corresponding to the calculation result of 15 words in the category to be recognized is transmitted to the recognition determination unit 50. The recognition determination unit 50 determines the category having the largest output value of the output layer 43a sent from the neural network operation unit 40 as the recognition result. In this case, since the output value of the output layer 43a of the category "Rei" is the largest, the category "Rei" is determined as the recognition result.

【0026】認識対象語彙が一定の場合には上記方法を
用いていた。然し乍ら、音声認識における認識対象語彙
は、一定とは限らず、対象となる語彙の種類や対象語数
が変化することが一般的である。例えば、認識対象語彙
数がかわる場合は、同一の構造のニューラルネットワー
クでは演算を実行することが不可能になり、出力層のユ
ニット数、中間層の層数、中間層のユニット数、更には
入力層のユニット数を変更する必要が生じていた。
The above method is used when the vocabulary to be recognized is constant. However, the recognition target vocabulary in speech recognition is not always constant, and the type of target vocabulary and the number of target words generally change. For example, when the number of vocabulary to be recognized changes, it becomes impossible to execute the operation with the neural network having the same structure, and the number of units in the output layer, the number of layers in the intermediate layer, the number of units in the intermediate layer, and the input It was necessary to change the number of units in a layer.

【0027】従来では、複数の認識対象に対応するため
に、ニューラルネットワーク演算部40に複数のニュー
ラルネットワークを備えるため、複数のプログラムを用
い、対象語彙に応じてプログラムを選択していた。この
ため、認識対象語彙の種類の増加に伴ってプログラム数
が増える結果、プログラム容量が増えていた。
Conventionally, since the neural network operation unit 40 has a plurality of neural networks in order to support a plurality of recognition targets, a plurality of programs are used and a program is selected according to the target vocabulary. Therefore, as the number of programs increases with the increase in the types of recognition target vocabulary, the program capacity increases.

【0028】[0028]

【発明が解決しようとする課題】そこで、本発明は上記
問題点に鑑みなされたものであり、認識対象語彙の変化
に対して、単一のプログラムによりニューラルネットワ
ークの演算を行うことを目的とする。
Therefore, the present invention has been made in view of the above problems, and it is an object of the present invention to perform a neural network operation with a single program in response to changes in the vocabulary to be recognized. .

【0029】[0029]

【課題を解決するための手段】本発明のニューラルネッ
トワークを用いた演算装置は、ニューラルネットワーク
を選択するニューラルネットワーク選択部を備えるとと
もに、少なくとも1つのネットワーク構造を格納するニ
ューラルネットワーク構造格納部において、ニューラル
ネットワーク構造情報(中間層の数、入力層のユニット
数、各中間層のユニット数、出力層のユニット数、ユニ
ット間結合情報が記憶されているROMのアドレス情報
或るいは結合係数が記憶されているROMのアドレス情
報)をテーブル化し、ニューラルネットワーク選択部の
選択に応じて、ニューラルネットワーク演算部により、
任意のニューラルネットワークに対して演算することを
可能とする。
An arithmetic unit using a neural network according to the present invention comprises a neural network selection unit for selecting a neural network, and a neural network structure storage unit for storing at least one network structure Network structure information (number of intermediate layers, number of units in input layer, number of units in each intermediate layer, number of units in output layer, address information of ROM storing inter-unit coupling information or coupling coefficient) Address information of existing ROM) is made into a table, and according to the selection of the neural network selection unit, the neural network operation unit
It is possible to operate on any neural network.

【0030】[0030]

【作用】上述の構成により、ニューラルネットワーク構
造情報をテーブル化し、ニューラルネットワーク演算部
での演算に際して、ニューラルネットワーク選択部がニ
ューラルネットワーク構造格納部内のニューラルネット
ワーク構造情報を選択し、ニューラルネットワーク演算
部は、該ニューラルネットワーク構造情報に基づいて演
算を行う。
With the above-described structure, the neural network structure information is tabulated, the neural network selection unit selects the neural network structure information in the neural network structure storage unit when the neural network calculation unit calculates, and the neural network calculation unit Calculation is performed based on the neural network structure information.

【0031】[0031]

【実施例】図1は本発明のニューラルネットワークの一
実施例の概略構成図を示す。
1 is a schematic block diagram of an embodiment of a neural network of the present invention.

【0032】図2は、図5と異なる構造の階層型ニュー
ラルネットワークの概略構成図である。
FIG. 2 is a schematic diagram of a hierarchical neural network having a structure different from that of FIG.

【0033】図1において、従来例に示す図3と同一機
能を有するものについては、同一番号を付し、その説明
は省略する。
In FIG. 1, those having the same functions as those in FIG. 3 showing the conventional example are designated by the same reference numerals, and the description thereof will be omitted.

【0034】本発明が従来例と異なる点は、ニューラル
ネットワーク構造格納部100とニューラルネットワー
ク選択部110を設けたことであり、ニューラルネット
ワーク構造格納部100は、中間層の数、入力層のユニ
ット数、各中間層のユニット数、出力層のユニット数等
からなるニューラルネットワーク構造情報を1組として
格納し、一方、ニューラルネットワーク選択部110
は、ニューラルネットワーク演算部40における演算の
際に用いられるニューラルネットワーク構造情報を選択
する機能を有する。
The present invention is different from the conventional example in that a neural network structure storage unit 100 and a neural network selection unit 110 are provided. The neural network structure storage unit 100 includes the number of intermediate layers and the number of input layer units. , The number of units in each intermediate layer, the number of units in the output layer, and the like are stored as one set, while the neural network selection unit 110 is stored.
Has a function of selecting neural network structure information used in the calculation in the neural network calculation unit 40.

【0035】図2における41bは入力層、42bは入
力層に結合される第1の中間層、42cは第1の中間層
に接続される第2の中間層、43bは第2の中間層42
bに接続される出力層であり、夫々L個、M個、N個及
びO個のユニットより構成されている。上下方向に隣接
する各層を構成する夫々のユニットは図示した通り、情
報伝達経路によって接続されており、その情報伝達経路
の結合係数はROM30に格納されている。
In FIG. 2, 41b is an input layer, 42b is a first intermediate layer coupled to the input layer, 42c is a second intermediate layer connected to the first intermediate layer, and 43b is a second intermediate layer 42.
The output layer is connected to b, and is composed of L, M, N, and O units, respectively. As shown in the figure, the respective units constituting the vertically adjacent layers are connected by an information transmission path, and the coupling coefficient of the information transmission path is stored in the ROM 30.

【0036】ここで、具体的に図2における各層のユニ
ットの個数を述べると、入力される音声は、周波数帯域
を16分割、時間を8分割してパターン化するようにし
ているので、入力層41aのユニット数L=16×8=
128である。
Here, the number of units in each layer in FIG. 2 will be specifically described. The input voice is patterned by dividing the frequency band into 16 parts and the time into 8 parts. 41a number of units L = 16 × 8 =
128.

【0037】また、認識すべきカテゴリは、例えば地名
8単語(「東京」、「大阪」、「京都」、「神戸」、
「横浜」、「名古屋」、「仙台」、「札幌」)とすると
出力層43bのユニット数O=8であり、更に第1の中
間層42b及び第2の中間層42cのユニット数M、N
は、それぞれ30とする。
The categories to be recognized are, for example, 8 words of place names (“Tokyo”, “Osaka”, “Kyoto”, “Kobe”,
“Yokohama”, “Nagoya”, “Sendai”, “Sapporo”), the number of units O in the output layer 43b is 8, and the number of units M, N in the first middle layer 42b and the second middle layer 42c.
Are 30 respectively.

【0038】以下においては、一桁数字が認識対象の場
合をステージ1、地名が認識対象の場合をステージ2と
して説明する。
In the following description, the case where a one-digit number is a recognition target is Stage 1 and the case where a place name is a recognition target is Stage 2.

【0039】表1にステージ1及びステージ2のニュー
ラルネットワーク構造情報を示す。
Table 1 shows the neural network structure information of stage 1 and stage 2.

【0040】[0040]

【表1】 [Table 1]

【0041】例えば、発声された一桁数字音声「れい」
を認識する場合について説明する。尚、ステージ1及び
ステージ2のニューラルネットワークの学習について
は、従来例と同じであるのでここでは割愛する。
For example, the one-digit numeral voice "Rei" that has been uttered
The case of recognizing will be described. The learning of the stage 1 and stage 2 neural networks is the same as in the conventional example, and will not be described here.

【0042】まず、使用者はニューラルネットワーク選
択部110でステージ1を指定する。ステージ1が指定
されるとニューラルネットワーク構造格納部100は、
表1のステージ1に示されるニューラルネットワーク構
造情報(中間層が1層、入力層が128ユニット、中間
層が50ユニット、出力層が15ユニット、ユニット間
結合情報が記憶されているROM30のアドレスが10
00及び結合係数が記憶されているROM30のアドレ
スが2000)をニューラルネットワーク演算部40に
伝達する。
First, the user specifies the stage 1 by the neural network selection unit 110. When stage 1 is designated, the neural network structure storage unit 100
Neural network structure information shown in stage 1 of Table 1 (the middle layer is one layer, the input layer is 128 units, the middle layer is 50 units, the output layer is 15 units, and the address of the ROM 30 in which the inter-unit coupling information is stored is 10
00 and the address of the ROM 30 in which the coupling coefficient is stored are 2000) are transmitted to the neural network operation unit 40.

【0043】ニューラルネットワーク演算部40は、上
記情報を受けて、ニューラルネットワークの構造を決定
し、パターン作成部20からのデータ待機状態となる。
The neural network calculation unit 40 receives the above information, determines the structure of the neural network, and enters a data standby state from the pattern generation unit 20.

【0044】使用者がマイクロフォン(明示せず)に向
かって「れい」を発声すると、音声分析部11では、そ
の音声「れい」をA/D変換したうえで、例えば100
〜6000Hzの周波数帯域を16分割し、夫々の周波
数帯域における大きさ、即ち16個の周波数成分を5ミ
リ秒毎に抽出すると共に、必要に応じてパワー情報等も
抽出する。
When the user utters "Rei" into the microphone (not explicitly shown), the voice analysis unit 11 A / D-converts the voice "Rei" and then, for example, 100
The frequency band of up to 6000 Hz is divided into 16 parts, and the size in each frequency band, that is, 16 frequency components are extracted every 5 milliseconds, and power information and the like are extracted as necessary.

【0045】区間検出部12では、音声分析部11で抽
出された周波数成分及びパワー情報に基づいて、入力音
声「れい」の開始時刻及び終了時刻を判定して音声区間
を決定する。区間決定部12で決定された音声区間の特
徴パラメータは、パターン作成部20において、その音
声区間を8分割し、各区間における5ミリ秒毎に抽出さ
れた周波数成分の平均を各周波数成分毎に算出する。即
ち、1つの入力音声に対して、16×8個のデータから
なる音声パターンが作成される。
The section detecting unit 12 determines the start section and the end time of the input voice "REI" based on the frequency component and the power information extracted by the voice analyzing unit 11 to determine the voice section. The feature parameter of the voice section determined by the section determining unit 12 is divided into eight by the pattern creating unit 20, and the average of the frequency components extracted every 5 milliseconds in each period is averaged for each frequency component. calculate. That is, a voice pattern consisting of 16 × 8 data is created for one input voice.

【0046】パターン作成部20で音声パターンが作成
されると、ニューラルネットワーク演算部40のROM
(明示せず)に書かれているプログラムに基づいて、上
記音声パターンと、ニューラルネットワーク構造格納部
100で指定されたユニット間結合情報及び結合係数を
基にしてニューラルネットワークの演算を行う。演算結
果として、認識すべき15単語のカテゴリに該当する出
力層43bの出力値が演算結果として認識判定部50に
伝達される。認識判定部50においては、認識用ニュー
ラルネットワーク演算部40の出力層43bの出力値の
うち最も値が大きいカテゴリを認識結果と判定する。こ
の場合には、カテゴリ「れい」の出力値が最も大きいた
め、カテゴリ「れい」が認識結果と決定される。
When a voice pattern is created by the pattern creating unit 20, the ROM of the neural network computing unit 40
Based on the program written (not explicitly shown), the neural network is calculated based on the voice pattern, the inter-unit coupling information and the coupling coefficient designated in the neural network structure storage unit 100. As the calculation result, the output value of the output layer 43b corresponding to the category of 15 words to be recognized is transmitted to the recognition determination unit 50 as the calculation result. The recognition determination unit 50 determines the category with the largest output value of the output layers 43b of the recognition neural network operation unit 40 as the recognition result. In this case, since the output value of the category "Rei" is the largest, the category "Rei" is determined as the recognition result.

【0047】続いて、地名の認識を行うために、ニュー
ラルネットワーク選択部110でステージ2を指定す
る。ニューラルネットワーク選択部110でステージ2
が指定されるとニューラルネットワーク構造格納部10
0は、表1のステージ2に示されるニューラルネットワ
ーク構造情報(中間層が2層、入力層が128ユニッ
ト、第1の中間層が30ユニット、第2の中間層が30
ユニット、出力層が8ユニット、ユニット間結合情報が
記憶されているROM1のアドレスが3000及び結合
係数が記憶されているROM1のアドレスが4000)
をニューラルネットワーク演算部40に伝達する。音声
入力部11からニューラルネット演算部40の処理は同
じであるのでここでは省略する。演算結果として、認識
すべき8単語のカテゴリに該当する出力層43bの出力
値が認識判定部50に伝達される。認識判定部50にお
いては、ニューラルネットワーク演算部40から送られ
てきた出力層43bの出力値のうち最も値が大きいもの
を認識結果と判定する。この場合には、カテゴリ「大
阪」の出力値が最も大きいため、カテゴリ「大阪」が認
識結果と決定される。
Then, the stage 2 is designated by the neural network selection unit 110 in order to recognize the place name. Stage 2 in the neural network selection unit 110
Is specified, the neural network structure storage unit 10
0 is the neural network structure information shown in stage 2 of Table 1 (two layers for the intermediate layer, 128 units for the input layer, 30 units for the first intermediate layer, and 30 units for the second intermediate layer).
(Units, output layer is 8 units, address of ROM1 storing coupling information between units is 3000 and address of ROM1 storing coupling coefficient is 4000)
Is transmitted to the neural network calculation unit 40. Since the processing from the voice input unit 11 to the neural network calculation unit 40 is the same, it is omitted here. As an operation result, the output value of the output layer 43b corresponding to the category of 8 words to be recognized is transmitted to the recognition determination unit 50. The recognition determination unit 50 determines that the output value of the output layer 43b sent from the neural network operation unit 40 that has the largest value is the recognition result. In this case, since the output value of the category "Osaka" is the largest, the category "Osaka" is determined as the recognition result.

【0048】以上の動作により、認識の対象となるカテ
ゴリが変更になった場合においてもニューラルネットワ
ーク演算部40にニューラルネットワーク構造情報を与
えることにより、簡単に複数のニューラルネットワーク
の演算を行うことできる。
By the above-mentioned operation, even when the category to be recognized is changed, the neural network structure information is given to the neural network calculation unit 40, so that a plurality of neural networks can be calculated easily.

【0049】尚、本実施例においては、中間層の層数、
各中間層のユニット数、入力層のユニット数及び出力層
のユニット数を限定して説明したが、本発明はこれらの
数に限定されるものではない。また、パターン作成部2
0への入力として、音声認識に用いるための音声分析結
果を用いたが、文字認識のための特徴パラメータ等を用
いることも可能であり、パターン作成部20への入力は
限定されるものではない。
In the present embodiment, the number of intermediate layers,
Although the number of units in each intermediate layer, the number of units in the input layer, and the number of units in the output layer are limited and described, the present invention is not limited to these numbers. Also, the pattern creation unit 2
As the input to 0, the voice analysis result for use in voice recognition is used, but it is also possible to use a characteristic parameter for character recognition and the like, and the input to the pattern creating unit 20 is not limited. .

【0050】[0050]

【発明の効果】本発明によれば、音声認識の対象となる
カテゴリの変更に伴ってニューラルネットワークの演算
を行うためのプログラムを変更する必要がないため、同
一プログラムにより複数のニューラルネットワークを実
現することが可能となり、少ないプログラム容量によ
り、ニューラルネットワークの演算を実現することがで
きる。
According to the present invention, it is not necessary to change the program for performing the operation of the neural network according to the change of the category of the voice recognition target, so that a plurality of neural networks are realized by the same program. Therefore, it is possible to realize the operation of the neural network with a small program capacity.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明のニューラルネットワークの一実施例を
音声認識に応用した場合の一実施例の概略構成図
FIG. 1 is a schematic configuration diagram of an embodiment when an embodiment of the neural network of the present invention is applied to speech recognition.

【図2】階層型のニューラルネットワークの一概略構成
FIG. 2 is a schematic configuration diagram of a hierarchical neural network.

【図3】従来のニューラルネットワークを音声認識に応
用した場合の一実施例の概略構成図
FIG. 3 is a schematic configuration diagram of an embodiment in which a conventional neural network is applied to voice recognition.

【図4】ニューラルネットワークの学習部の一実施例の
概略構成図
FIG. 4 is a schematic configuration diagram of an embodiment of a learning unit of a neural network.

【図5】別の階層型のニューラルネットワークの一概略
構成図
FIG. 5 is a schematic configuration diagram of another hierarchical neural network.

【符号の説明】[Explanation of symbols]

11 音声分析部 12 区間検出部 20 パターン作成部 31 ユニット間結合情報記憶部 32 結合係数記憶部 40 ニューラルネットワーク演算部 50 認識判定部 100 ニューラルネットワーク構造格納部 110 ニューラルネットワーク指定部 11 Voice Analysis Section 12 Section Detection Section 20 Pattern Creation Section 31 Inter-Unit Coupling Information Storage Section 32 Coupling Coefficient Storage Section 40 Neural Network Operation Section 50 Recognition Determination Section 100 Neural Network Structure Storage Section 110 Neural Network Designation Section

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 入力された信号の特徴パラメータを抽出
する特徴パラメータ抽出部と、 該特徴パラメータ抽出部で抽出された特徴パラメータに
基づいてパターンを作成するパターン作成部と、 該パターン作成部で作成されたパターンを入力情報とし
てニューラルネットワークの演算を実行するニューラル
ネットワーク演算部と、 該ニューラルネットワーク演算部での演算の際に必要な
ニューラルネットワークの構造情報を格納するニューラ
ルネットワーク構造格納部と、 該ニューラルネットワーク構造格納部に格納された複数
組のニューラルネットワーク構造情報の中から1組のニ
ューラルネットワーク構造情報を選択するニューラルネ
ットワーク選択部と、を備え前記ニューラルネットワー
ク演算部は、パターン作成部で作成されたパターンを入
力する入力層、該入力層と結合される中間層及び該中間
層と結合される出力層からなると共に、前記ニューラル
ネットワーク構造格納部は、前記中間層の層数、前記入
力層のユニット数、前記中間層のユニット数或るいは、
前記出力層のユニット数のうち少なくとも1つを構成要
素とする複数組のニューラルネットワーク構造情報を格
納し、 前記ニューラルネットワーク演算部は、前記ニューラル
ネットワーク選択部において選択されたニューラルネッ
トワーク構造情報に基づいて演算を行うことを特徴とす
るニューラルネットワークを用いた演算装置。
1. A feature parameter extracting section for extracting a feature parameter of an input signal, a pattern creating section for creating a pattern based on the feature parameter extracted by the feature parameter extracting section, and a pattern creating section A neural network operation unit that executes an operation of the neural network using the generated pattern as input information; a neural network structure storage unit that stores the structure information of the neural network necessary for the operation in the neural network operation unit; And a neural network selection unit that selects one set of neural network structure information from a plurality of sets of neural network structure information stored in the network structure storage unit, and the neural network operation unit is created by the pattern creation unit. Patta An input layer for inputting an input layer, an intermediate layer connected to the input layer, and an output layer connected to the intermediate layer. The neural network structure storage unit includes the number of layers of the intermediate layer and a unit of the input layer. Number, the number of units in the intermediate layer, or
A plurality of sets of neural network structure information having at least one of the number of units of the output layer as a constituent element is stored, and the neural network operation unit is based on the neural network structure information selected by the neural network selection unit. An arithmetic unit using a neural network, which is characterized by performing arithmetic operations.
【請求項2】 前記特徴パラメータ抽出部への入力信号
は、音声信号、又は文字情報であることを特徴とする請
求項1記載のニューラルネットワークを用いた演算装
置。
2. The arithmetic unit using a neural network according to claim 1, wherein the input signal to the characteristic parameter extraction unit is a voice signal or character information.
JP5055938A 1993-03-16 1993-03-16 Arithmetic unit using neural network Pending JPH06266398A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5055938A JPH06266398A (en) 1993-03-16 1993-03-16 Arithmetic unit using neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5055938A JPH06266398A (en) 1993-03-16 1993-03-16 Arithmetic unit using neural network

Publications (1)

Publication Number Publication Date
JPH06266398A true JPH06266398A (en) 1994-09-22

Family

ID=13013022

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5055938A Pending JPH06266398A (en) 1993-03-16 1993-03-16 Arithmetic unit using neural network

Country Status (1)

Country Link
JP (1) JPH06266398A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009176110A (en) * 2008-01-25 2009-08-06 Seiko Epson Corp Parallel processing device and parallel processing method
WO2021240651A1 (en) * 2020-05-26 2021-12-02 日本電気株式会社 Information processing device, control method, and storage medium
US11568226B2 (en) 2018-12-27 2023-01-31 Renesas Electronics Corporation System and method for machine-learning

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04663A (en) * 1990-04-18 1992-01-06 Fujitsu Ltd Neural network simulator
JPH04548A (en) * 1990-04-17 1992-01-06 Fujitsu Ltd Neural network equipment
JPH04336658A (en) * 1991-05-14 1992-11-24 Ricoh Co Ltd Signal processor

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04548A (en) * 1990-04-17 1992-01-06 Fujitsu Ltd Neural network equipment
JPH04663A (en) * 1990-04-18 1992-01-06 Fujitsu Ltd Neural network simulator
JPH04336658A (en) * 1991-05-14 1992-11-24 Ricoh Co Ltd Signal processor

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009176110A (en) * 2008-01-25 2009-08-06 Seiko Epson Corp Parallel processing device and parallel processing method
US11568226B2 (en) 2018-12-27 2023-01-31 Renesas Electronics Corporation System and method for machine-learning
WO2021240651A1 (en) * 2020-05-26 2021-12-02 日本電気株式会社 Information processing device, control method, and storage medium

Similar Documents

Publication Publication Date Title
EP1300831B1 (en) Method for detecting emotions involving subspace specialists
JPH0272397A (en) Speech recognition device
CN105845139B (en) Offline voice control method and device
WO2009048434A1 (en) A dialogue system and a method for executing a fully mixed initiative dialogue (fmid) interaction between a human and a machine
EP1063635B1 (en) Method and apparatus for improving speech command recognition accuracy using event-based constraints
WO2021002136A1 (en) Utterance analysis device, utterance analysis method, and program
CN109643551A (en) Information processing unit, information processing method and program
CN110491394A (en) Wake up the acquisition methods and device of corpus
EP1152398A1 (en) A speech recognition system
JPH06266398A (en) Arithmetic unit using neural network
Liu et al. Learning salient features for speech emotion recognition using CNN
CN109036459A (en) Sound end detecting method, device, computer equipment, computer storage medium
CN116840743A (en) Power transformer fault processing method and device, electronic equipment and storage medium
JP2003163951A (en) Sound signal recognition system, conversation control system using the sound signal recognition method, and conversation control method
JPH03120598A (en) Method and device for voice recognition
CN114328821A (en) Multi-round conversation control method and device based on control slot position and service data slot position
JPH07248790A (en) Voice recognition system
JP3254977B2 (en) Voice recognition method and voice recognition device
KR102019752B1 (en) Method of providing user interface/ user experience strategy executable by computer and apparatus providing the same
JP2005258235A (en) Interaction controller with interaction correcting function by feeling utterance detection
JPH0696048A (en) Recognizing device using neural network
Xu et al. A new approach to merging gaussian densities in large vocabulary continuous speech recognition
JP2003323196A (en) Voice recognition system, voice recognition method, and voice recognition program
WO2024008215A2 (en) Speech emotion recognition method and apparatus
JPH10171488A (en) Method for speech recognition and device therefor and storage medium