JPH09212197A - Neural network - Google Patents

Neural network

Info

Publication number
JPH09212197A
JPH09212197A JP8037292A JP3729296A JPH09212197A JP H09212197 A JPH09212197 A JP H09212197A JP 8037292 A JP8037292 A JP 8037292A JP 3729296 A JP3729296 A JP 3729296A JP H09212197 A JPH09212197 A JP H09212197A
Authority
JP
Japan
Prior art keywords
input
learning
phoneme
data
vector sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8037292A
Other languages
Japanese (ja)
Inventor
Hideto Tomabechi
英人 苫米地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP8037292A priority Critical patent/JPH09212197A/en
Publication of JPH09212197A publication Critical patent/JPH09212197A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide the neural network which facilitates learning and can obtain a high recognition rate with simple constitution. SOLUTION: A neuron element net 22 consists of self-associative type neural networks ANN1-ANNn. Each ANN is made to correspond to each phoneme and learns only the corresponding phoneme exclusively. Namely, self-associative type learning is performed with a vector string as to each phoneme obtained by the spectrum analysis of an FFT device 21. For speech recognition, on the other hand, the vector string of the spectrum-analyzed speech is inputted to all the ANNs 1-(n). Then the similarity between the inputted vector string and an outputted victor string is calculated by each ANN and the phoneme corresponding to the ANN having the highest similarity is recognized as the phoneme constituting the inputted speech.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、ニューラルネット
ワークに係り、例えば、形状認識や音声認識等に使用さ
れるニューラルネットワークに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a neural network, for example, a neural network used for shape recognition, voice recognition and the like.

【0002】[0002]

【従来の技術】人間の脳神経系の仕組みを工学的に実現
し、情報処理を行おうとするニューラルネットワークが
注目されている。このニューラルネットワークは、デー
タの伝搬を行う複数のニューロン素子から成るニューロ
ン素子網とその学習を制御する学習制御部から構成され
ている。このニューロン素子網は、一般に、データが入
力される入力層と、入力されたデータに対してデータが
出力される出力層、およびこの両層間に配置された1ま
たは複数の中間層から構成されている。そして、ニュー
ロン素子網の各層間におけるニューロン素子は、他のニ
ューロン素子に対して所定の強さ(結合重み)で結合さ
れており、この結合重みの値の違いにより出力信号が変
化するようになっている。
2. Description of the Related Art Neural networks have been attracting attention, which are intended to realize information processing by engineeringly realizing the mechanism of the human cranial nerve system. This neural network is composed of a neuron element network composed of a plurality of neuron elements that propagate data and a learning control unit that controls the learning. This neuron element network is generally composed of an input layer to which data is input, an output layer to which data is output in response to input data, and one or a plurality of intermediate layers arranged between these two layers. There is. The neuron elements in each layer of the neuron element network are connected to other neuron elements with a predetermined strength (coupling weight), and the output signal changes according to the difference in the coupling weight values. ing.

【0003】このような階層構造に構成された従来のニ
ューラルネットワークでは、各ニューロン素子相互間の
結合重みを学習制御部により変化させることによって
「学習」という処理が行われる。学習は、入力層と出力
層の入出力数に対応して与えられるアナログまたは2値
のデータ(パターン)によって行われる。いま、データ
としてg1〜g6が与えられ、この内、g1〜g3を入
力層から学習パターンとして入力した場合に、出力層か
らある出力信号p1〜p3が出力されたものとする。こ
の入力信号に対する出力信号の正解がg4〜g6である
場合、これらg4〜g6を一般に教師信号と呼んでい
る。そして、出力信号p1〜p3と教師信号g4〜g6
との誤差が最小になるように、または一致するように各
ニューロン素子の結合重みを修正する処理を、複数の学
習パターンに対して実行することによって学習が行われ
る。
In a conventional neural network having such a hierarchical structure, a learning control process is performed by changing the connection weight between the neuron elements by a learning control unit. Learning is performed by analog or binary data (pattern) given corresponding to the number of inputs and outputs of the input layer and the output layer. Now, it is assumed that g1 to g6 are given as data, and when g1 to g3 among them are input as a learning pattern from the input layer, certain output signals p1 to p3 are output from the output layer. When the correct answer of the output signal with respect to this input signal is g4 to g6, these g4 to g6 are generally called teacher signals. Then, the output signals p1 to p3 and the teacher signals g4 to g6
Learning is performed by executing a process of correcting the connection weights of the respective neuron elements so that the error between and becomes the minimum or the same, for a plurality of learning patterns.

【0004】このような、教師信号に出力信号が一致す
るように、ニューロン素子網における各ニューロン素子
間の結合重みを修正する具体的方法として、従来から誤
差逆伝播法(以下、BP法という。)がよく用いられて
いる。BP法は、出力層での出力値と教師信号との誤差
を最小にするために、このニューラルネットワークを構
成する全ての層間における各ニューロン素子相互間の結
合重みを修正するものである。すなわち、出力層におけ
る誤差は、各中間層のニューロン素子で生じる個々の誤
差が積算されたものであると判断し、単に出力層からの
誤差だけでなく、その原因となっている各中間層のニュ
ーロン素子の誤差も最小となるように結合重みを修正す
る。そのために出力層、各中間層のニューロン素子毎の
全ての誤差を計算処理する。
As a concrete method for correcting the connection weight between the neuron elements in the neuron element network so that the output signal coincides with the teacher signal, the error back-propagation method (hereinafter referred to as the BP method) has been conventionally used. ) Is often used. The BP method is to correct the connection weight between the neuron elements in all the layers constituting the neural network in order to minimize the error between the output value in the output layer and the teacher signal. That is, it is determined that the error in the output layer is the sum of the individual errors generated in the neuron elements in each intermediate layer, and not only the error from the output layer but also the error in each intermediate layer that causes the error. The connection weight is modified so that the error of the neuron element is also minimized. Therefore, all the errors for each neuron element in the output layer and each intermediate layer are calculated.

【0005】この計算処理は、出力層のニューロン素子
の個々の誤差値を初期条件として与えて、n番目の中間
層の各ニューロン素子の誤差値、(n−1)番目の中間
層の誤差、……、といったように、逆の方向に計算処理
を行う。このようにして求めた各ニューロン素子の持つ
誤差値と、その時点での結合重みを用いて、結合重みの
修正値を算出する。以上の、学習処理を教師信号との誤
差が一定値以下となるまで、または所定回数だけ、全て
の学習パターンについて繰り返すことにより、学習が終
了する。このようなニューラルネットワークを使用し
て、各種データの文字や図形等のパターン認識、音声の
分析や合成処理、運動の時系列パターン発生の予測等を
行うことが研究されている。
In this calculation process, the error value of each neuron element of the output layer is given as an initial condition, and the error value of each neuron element of the nth intermediate layer, the error of the (n-1) th intermediate layer, ......, and so on, the calculation processing is performed in the opposite direction. The error value of each neuron element thus obtained and the connection weight at that time are used to calculate the correction value of the connection weight. The learning is completed by repeating the above-described learning process for all learning patterns until the error with the teacher signal becomes a predetermined value or less, or a predetermined number of times. Using such a neural network, research has been conducted on pattern recognition of characters and figures of various data, analysis and synthesis processing of voice, prediction of generation of time-series pattern of motion, and the like.

【0006】[0006]

【発明が解決しようとする課題】このような従来のニュ
ーラルネットワークでは、1つのネットワークによっ
て、全ての場合に対応させていた。すなわち、音声認識
の場合であれば、学習対象となる単語や音素の全てを1
つのニューラルネットワークで学習させていた。しか
し、各音素の学習には複数のデータによる学習を行う必
要がある。例えば、音素“a”の場合であれば、母音の
“a”だけでなく、“ma”、“sa”、“ta”等の
子音中に含まれる“a”、さらに、同じ“ma”であっ
ても、matuのように語頭にあるものや、hamay
aのように語中にあるものや、simaのように語尾に
あるものなどについて学習する必要がある。また、不特
定話者認識に適用する場合には、複数の者の発声による
これらの各音素を学習データとする必要がある。このよ
うに、多くのデータに対して従来は1つのニューラルネ
ットワークで認識を行うようにしていたため、全ての学
習データに対して十分な学習を行って認識率を高めるた
めには、中間層の数をレイヤ数を増やしたり、各層のニ
ューロン素子数を増やすことでネットワークサイズを大
きくしなければならず、非常に高価なネットワークにな
っていた。また、サイズが大きくなればそれだけ学習に
要する時間も長くなっていた。一方、パーソナルコンピ
ュータ等を用いて音声認識等を行う場合には、装置が小
型であるために、中間層のサイズ(ニューロン素子数)
が処理能力から制限され、十分学習しきれていない場合
があり、学習不十分による認識率の低下を招いていた。
In such a conventional neural network, one network is used for all cases. That is, in the case of speech recognition, all words and phonemes to be learned are set to 1
I was learning with two neural networks. However, in order to learn each phoneme, it is necessary to carry out learning with a plurality of data. For example, in the case of the phoneme "a", not only the vowel "a" but also "a" included in consonants such as "ma", "sa", "ta", and the same "ma" Even if there is something, such as the one at the beginning of a word like matu, or mayay
It is necessary to learn what is in a word like a and what is at the end like sima. In addition, when applied to unspecified speaker recognition, it is necessary to use each of these phonemes uttered by a plurality of persons as learning data. As described above, since a single neural network has conventionally been used to recognize a large amount of data, in order to increase the recognition rate by performing sufficient learning on all learning data, the number of intermediate layers must be increased. The network size had to be increased by increasing the number of layers and the number of neuron elements in each layer, resulting in a very expensive network. Also, the larger the size, the longer the learning time. On the other hand, when performing voice recognition using a personal computer, etc., the size of the intermediate layer (the number of neuron elements) is used because the device is small.
There is a case that the learning capacity is limited and the learning is not completed enough, and the recognition rate is lowered due to insufficient learning.

【0007】また、音声認識用ニューラルネットワーク
の最初の位置にあらかじめ入力スペクトルを適合させて
おく必要がある。従って既存の手法では、音韻の開始タ
イミングが自由に変化する連続音声認識に対応すること
ができなかった。さらに、従来のニューラルネットワー
クに対する音声認識では、音韻のスペクトルはそれぞれ
単独で与えられている。しかしながら、連続音声認識時
における各音素の状態はそれぞれの前に現れる音素の状
態により影響を受けているため、音素毎の単独の認識を
おこなう既存のニューラルネットワークによる認識で
は、前に提示された音素情報を利用することができず連
続音声認識には適当ではなかった。これらの課題は、音
声認識だけではなく、図形認識や文字認識、運動の時系
列パターン発生の予測等においても同様に存在してい
た。
Further, it is necessary to previously adapt the input spectrum to the first position of the neural network for speech recognition. Therefore, the existing method cannot handle continuous speech recognition in which the start timing of the phoneme changes freely. Furthermore, in the conventional speech recognition for a neural network, each phoneme spectrum is given independently. However, since the state of each phoneme during continuous speech recognition is affected by the state of the phoneme that appears before each, the existing neural network that performs individual recognition for each phoneme recognizes the previously presented phoneme. Since the information was not available, it was not suitable for continuous speech recognition. These problems existed not only in voice recognition, but also in figure recognition, character recognition, prediction of the occurrence of a time-series pattern of movement, and the like.

【0008】そこで、本発明は、簡単な構成で、高認識
率等を得ることができるニューラルネットワークを提供
することを第1の目的とする。また本発明は、さらに学
習を短時間で容易に行うことが可能なニューラルネット
ワークを提供することを第2の目的とする。
Therefore, it is a first object of the present invention to provide a neural network having a simple structure and capable of obtaining a high recognition rate and the like. A second object of the present invention is to provide a neural network capable of performing learning easily in a short time.

【0009】[0009]

【課題を解決するための手段】請求項1記載の発明で
は、複数のニューロン素子を有する入力層と、この入力
層よりも少ないニューロン素子を有する中間層と、前記
入力層と同数のニューロン素子を有する出力層とを有
し、各々に異なる特定意味が対応付けられた複数のボト
ルネックニューロン素子網と、ベクトル列を前記ボトル
ネックにニューロン素子網の各データ入力層に入力する
入力手段と、この入力手段によるベクトル列の入力によ
る各ボトルネックニューロン素子網の出力ベクトル列と
入力ベクトル列との類似度を算出する類似度算出手段
と、この類似度算出手段で算出された類似度がもっとも
大きいボトルネックニューロン素子網に対応する特定の
意味を、入力手段に入力されたベクトル列の意味として
出力する出力手段と、をニューラルネットワークに具備
させて前記第1の目的を達成する。
According to a first aspect of the present invention, an input layer having a plurality of neuron elements, an intermediate layer having a smaller number of neuron elements than the input layer, and the same number of neuron elements as the input layer are provided. A plurality of bottleneck neuron element networks each having a different specific meaning associated with each other, and input means for inputting a vector sequence to each data input layer of the neuron element network at the bottleneck, Similarity calculation means for calculating the similarity between the output vector sequence of each bottleneck neuron element network and the input vector sequence by the input of the vector sequence by the input means, and the bottle having the highest similarity degree calculated by this similarity calculation means Output means for outputting a specific meaning corresponding to the neck neuron element network as the meaning of the vector sequence input to the input means, It is provided in-menu neural network to achieve the first purpose.

【0010】請求項2に記載の発明では、請求項1に記
載のニューラルネットワークにおいて、前記複数のボト
ルネックニューロン素子網は、対応する特定意味のベク
トル列を入力データおよび教師信号とする自己連想的学
習を行ったものを使用する。請求項3に記載の発明で
は、請求項1に記載のニューラルネットワークにおい
て、対応する特定意味のベクトル列を入力データおよび
教師信号とする自己連想的学習を、前記各ボトルネック
ニューロン素子網毎に行う学習手段を具備させて、前記
第2の目的を達成する。請求項4に記載の発明では、請
求項2または請求項3に記載のニューラルネットワーク
において、バックプロパゲーション則により自己連想的
学習を行う。請求項5に記載の発明では、請求項1から
請求項4のうちのいずれか1の請求項に記載したニュー
ラルネットワークにおいて、前記特定の意味は音声を構
成する音素であり、入力層に入力されるベクトル列は、
時系列的に解析された音素についての特徴量を表すベク
トル列を使用する。請求項6に記載の発明では、請求項
5に記載のニューラルネットワークにおいて、音声のス
ペクトルデータとケプストラムデータの少なくとも一方
を使用する。
According to a second aspect of the present invention, in the neural network according to the first aspect, the plurality of bottleneck neuron element networks are self-associative with corresponding vector strings of specific meaning as input data and teacher signals. Use what you have learned. According to a third aspect of the present invention, in the neural network according to the first aspect, self-associative learning is performed for each of the bottleneck neuron element networks using a corresponding vector string of a specific meaning as input data and a teacher signal. A learning means is provided to achieve the second object. According to the invention described in claim 4, in the neural network according to claim 2 or 3, self-associative learning is performed by the back propagation rule. According to a fifth aspect of the invention, in the neural network according to any one of the first to fourth aspects, the specific meaning is a phoneme that constitutes a voice and is input to the input layer. The vector sequence
A vector sequence representing the feature amount of the phonemes analyzed in time series is used. According to a sixth aspect of the invention, in the neural network according to the fifth aspect, at least one of the spectrum data of the voice and the cepstrum data is used.

【0011】[0011]

【発明の実施の形態】以下、本発明のニューラルネット
ワークの一実施の形態について、音声認識を例に図1か
ら図10を参照しながら詳細に説明する。図1はニュー
ラルネットワークを利用した音声認識装置のシステム構
成を表したものである。この音声認識装置は、ニューロ
ン素子網に対する学習のためのベクトル列の入力と出力
層への教師信号(ベクトル列)の入力、学習による各ニ
ューロン素子間の結合重みの変更、およびニューロン素
子網からの出力信号に基づく音声認識等の各種処理およ
び制御を行うCPU11を備えている。このCPU11
は、データバス等のバスライン12を介して、ROM1
3、RAM14、通信制御装置15、プリンタ16、表
示装置17、キーボード18、FFT(高速フーリエ変
換)装置21、n個の自己連想型NN(ニューラルネッ
トワーク)を有するニューロン素子網22、および図形
読取装置24が接続されている。
BEST MODE FOR CARRYING OUT THE INVENTION An embodiment of the neural network of the present invention will be described in detail below with reference to FIGS. FIG. 1 shows a system configuration of a voice recognition device using a neural network. This speech recognition device is designed to input a vector sequence for learning to a neuron element network and input a teacher signal (vector sequence) to an output layer, change a connection weight between each neuron element by learning, and A CPU 11 is provided for performing various processes such as voice recognition and control based on the output signal. This CPU11
Is connected to the ROM 1 via a bus line 12 such as a data bus.
3, RAM 14, communication control device 15, printer 16, display device 17, keyboard 18, FFT (fast Fourier transform) device 21, neuron element network 22 having n self-associative NN (neural networks), and graphic reading device 24 is connected.

【0012】ROM13は、CPU11が音声認識やニ
ューロン素子網の学習等の処理、制御を行うための各種
プログラムやデータが格納されているリード・オンリー
・メモリである。このROM13には、例えば、ニュー
ロン素子網の学習としてバックプロパゲーション則によ
る学習を行うためのプログラムや、入力信号から順次音
素を認識するプログラムや、認識した音素から音声を認
識すると共に、認識した音声を文字による文章に変換す
る日本語変換システムのプログラムも格納されている。
The ROM 13 is a read-only memory that stores various programs and data for the CPU 11 to perform processing and control such as voice recognition and learning of a neuron element network. In the ROM 13, for example, a program for performing learning based on a backpropagation rule as learning of a neuron element network, a program for sequentially recognizing phonemes from an input signal, a voice for recognizing phonemes from the recognized phonemes, and a recognized voice. It also stores the Japanese conversion system program that converts the text into text.

【0013】RAM14は、ROM13に格納された所
定のプログラムがダウンロードされ格納されると共に、
CPU11のワーキングメモリとして使用されるランダ
ム・アクセス・メモリである。RAM14には、FFT
装置21で解析された音声データまたは通信制御装置1
5から受信した音声データについて、各時間と各周波数
におけるパワーを一時格納するためのベクトル列格納エ
リアが確保されている。この各周波数におけるパワーの
値が、ニューロン素子網22の各自己連想型NNの入力
層Iに入力されるベクトル列になる。また、RAM14
には、文字や図形等をニューラルネットワークで認識す
る場合には、図形読取装置24で読み取られた画像デー
タが格納されるようになっている。
In the RAM 14, a predetermined program stored in the ROM 13 is downloaded and stored, and at the same time,
It is a random access memory used as a working memory of the CPU 11. FFT in RAM14
Voice data analyzed by the device 21 or the communication control device 1
For the voice data received from No. 5, a vector string storage area for temporarily storing the power at each time and each frequency is secured. The power value at each frequency becomes a vector sequence input to the input layer I of each self-associative NN of the neuron element network 22. RAM 14
When recognizing characters, figures, etc. by a neural network, the image data read by the figure reading device 24 is stored.

【0014】通信制御装置15は、認識した音声データ
等の各種データについて、電話回線網、LAN、パーソ
ナルコンピュータ通信網等の各種の通信網2を介して他
の通信制御装置との間でデータ送受信を行う。プリンタ
16は、レーザプリンタやドットプリンタ等を備えてお
り、入力データや認識した音声の内容等を印刷するよう
になっている。表示装置17は、CRTディスプレイや
液晶ディスプレイ等の画像表示部と表示制御部とを備え
ており、入力データや認識した音声の内容、および、音
声認識に必要な操作の指示を画面表示するようになって
いる。キーボード18は、FFT装置21のパラメータ
の変更や設定条件等を入力したり、文章の入力処理等を
行うための入力装置であり、数字を入力するテンキー、
文字を入力する文字キー、各種の機能を実現するための
機能キー等が配置されている。このキーボード18に
は、ポインティングデバイスとしてのマウス19が接続
されている。
The communication control device 15 transmits / receives various data such as recognized voice data to / from other communication control devices via various communication networks 2 such as a telephone line network, a LAN, a personal computer communication network and the like. I do. The printer 16 is provided with a laser printer, a dot printer, etc., and is designed to print input data, the contents of recognized voice, and the like. The display device 17 includes an image display unit such as a CRT display or a liquid crystal display and a display control unit, and displays on screen the input data, the content of the recognized voice, and the operation instruction necessary for the voice recognition. Has become. The keyboard 18 is an input device for inputting parameter changes, setting conditions, and the like of the FFT device 21, and for inputting text, and a numeric keypad for inputting numbers,
Character keys for inputting characters, function keys for realizing various functions, and the like are arranged. A mouse 19 as a pointing device is connected to the keyboard 18.

【0015】FFT装置21には、マイク等の音声入力
装置23が接続されている。このFFT装置21は、音
声入力装置23から入力されたアナログの音声データ
を、ディジタルに変換すると共に、離散的フーリエ変換
によりスペクトル解析を行う。このFFT装置21によ
るスペクトル解析により、各周波数毎のパワーによるベ
クトル列が、各時間毎に出力され、この各時間毎のベク
トル列はRAM14のベクトル列格納エリアに格納され
るようになっている。図形読取装置24は、CCD(Ch
arge Coupled Device )等の素子を備えており、用紙等
に記録された文字や図形等の画像を読み取るための装置
であり、この画像読取装置24で読み取られた画像デー
タは、RAM14に格納されるようになっている。
A voice input device 23 such as a microphone is connected to the FFT device 21. The FFT device 21 converts analog voice data input from the voice input device 23 into digital data, and also performs spectrum analysis by discrete Fourier transform. By the spectrum analysis by the FFT device 21, a vector sequence by the power for each frequency is output for each time, and the vector sequence for each time is stored in the vector sequence storage area of the RAM 14. The figure reading device 24 is a CCD (Ch
a device for reading an image of characters, figures, etc. recorded on a sheet of paper, etc., and image data read by the image reading device 24 is stored in the RAM 14. It is like this.

【0016】図2は、ニューロン素子網22の構成を表
したものである。この図2に示すように、ニューロン素
子網22は、n個の自己連想型ニューラルネットワーク
(以下、単にANNという)1〜nを備えている。AN
Nの数nは、入力データに対してニューロン素子網22
によって区別しようとする特定の意味の数だけ設けられ
る。例えば、本実施の形態における音声認識の場合、入
力された音声データに対して認識しようとする音素の数
がnの値となり、80音素についての認識であればn=
80となる。これらのANN1〜ANNnには各音素が
対応付けられており、ニューラルネットワークの学習に
おいて、対応する音素についての学習が行われるように
なっている。すなわち、ANN1は音素“a”につい
て、ANN2は音素“i”について、ANN3は音素
“u”について、それぞれ自己連想型の学習し、他のA
NN4〜nもそれぞれ対応する音素について自己連想型
の学習が行われるようになっている。
FIG. 2 shows the configuration of the neuron element network 22. As shown in FIG. 2, the neuron element network 22 includes n self-associative neural networks (hereinafter, simply referred to as ANN) 1 to n. AN
The number n of N is the neuron element network 22 for the input data.
It is provided by the number of specific meanings to be distinguished by. For example, in the case of speech recognition according to the present embodiment, the number of phonemes to be recognized with respect to the input speech data is a value of n, and if recognition is performed for 80 phonemes, n =
80. Phonemes are associated with these ANN1 to ANNn, and learning of the corresponding phonemes is performed in learning of the neural network. That is, ANN1 learns about the phoneme "a", ANN2 learns about the phoneme "i", and ANN3 learns about the phoneme "u" in self-associative learning.
Each of the NN4 to NN is also designed to perform self-associative learning on the corresponding phoneme.

【0017】ANNは、入力層Iと中間層Hおよび出力
層Oの3層を備えている。入力層Iは、音声認識や、図
形認識等の各種処理に対応して任意に選択される入力デ
ータ数pに応じた数p個のニューロン素子I1〜Ipを
備えている。中間層Hは、入力層Hのニューロン素子の
数p個よりも少ない数p個のニューロン素子H1〜Hq
(q<p)を備えている。出力層Oは、入力層Hと同数
p個のニューロン素子O1〜Opを備えている。このよ
うに自己連想型NNは、いわゆるボトルネック型のニュ
ーラルネットワークが使用されている。これは、中間層
のニューロン素子数が入力層および出力層のニューロン
素子数と同一の場合、自己認識の学習をさせた場合に各
層間の結合が全て1になってしまい適切な学習を行うこ
とができないためである。
The ANN comprises three layers, an input layer I, an intermediate layer H, and an output layer O. The input layer I includes a number p of neuron elements I1 to Ip corresponding to the number p of input data arbitrarily selected corresponding to various processes such as voice recognition and graphic recognition. The intermediate layer H includes a number p of neuron elements H1 to Hq smaller than the number p of neuron elements of the input layer H.
(Q <p). The output layer O includes the same number p of neuron elements O1 to Op as the input layer H. As described above, the self-associative NN uses a so-called bottleneck neural network. This is because when the number of neuron elements in the middle layer is the same as the number of neuron elements in the input layer and the output layer, when self-recognition learning is performed, the connections between layers become all 1 and appropriate learning is performed. This is because it cannot be done.

【0018】中間層Hの各ニューロン素子H1〜Hq
は、入力層Iの全ニューロン素子との間で、学習時に変
更可能な結合重みW11〜Wpq(以下、この集合をW
で表記する)で完全結合している。また中間層Hの各ニ
ューロン素子H1〜Hqは、それぞれ学習段階で変更可
能な閾値θ1〜θqを備えている。中間層Hの各ニュー
ロン素子H1〜Hqは、入力層Iに入力された入力デー
タと、結合重みWと、閾値に基づいて、順伝播活性によ
る出力値を出力するようになっている。また、出力層O
の各ニューロン素子O1〜Opは、中間層Hの全ニュー
ロン素子H1〜Hqとの間で、学習時に可変な結合重み
w11〜wqp(以下、この集合をwで表記する)で完
全結合している。そして、各ニューロン素子O1〜Op
は、中間層Hの出力値と結合重みwとから、自己連想型
NNの出力値を出力するようになっている。
Each neuron element H1 to Hq of the intermediate layer H
Is the connection weights W11 to Wpq that can be changed at the time of learning with all the neuron elements of the input layer I (hereinafter, this set is W
It is completely connected with. Each of the neuron elements H1 to Hq of the intermediate layer H has thresholds θ1 to θq that can be changed in the learning stage. Each of the neuron elements H1 to Hq of the intermediate layer H is adapted to output an output value due to forward propagation activity based on the input data input to the input layer I, the connection weight W, and the threshold value. Also, the output layer O
Each of the neuron elements O1 to Op is completely connected to all the neuron elements H1 to Hq of the intermediate layer H with variable connection weights w11 to wqp (hereinafter, this set is represented by w) during learning. . Then, each neuron element O1 to Op
Outputs the self-associative NN output value from the output value of the hidden layer H and the connection weight w.

【0019】ニューロン素子網22は、図示しないメモ
リを備えており、各自己連想型NNのそれぞれに対応し
た結合重みテーブルが記憶されている。結合重みテーブ
ルには、入力層Iと中間層Hとの結合重みW、中間層の
閾値θ、および中間層Hと出力層Oとの結合重みが格納
されるようになっている。なお、閾値θについては、入
力層及び出力層の各ニューロン素子についても設定する
ようにしてもよい。そして、ニューロン素子網22の学
習は、CPU11が所定のバックプロパゲーション則に
従って、これらの結合重みおよび閾値を変更することで
実行されるようになっている。
The neuron element network 22 includes a memory (not shown), and stores a connection weight table corresponding to each self-associative NN. The connection weight table stores the connection weight W of the input layer I and the intermediate layer H, the threshold value θ of the intermediate layer, and the connection weight of the intermediate layer H and the output layer O. Note that the threshold value θ may be set for each neuron element in the input layer and the output layer. Then, the learning of the neuron element network 22 is executed by the CPU 11 changing these connection weights and threshold values according to a predetermined backpropagation rule.

【0020】次に、このように構成された実施の形態の
動作について説明する。 動作の概要 自己連想型ニューラルネットワークANN1〜ANNn
は、それぞれ認識対象となる各音素に対応されており、
対応する音素についてだけを専用に学習を行う。学習で
は、FFT装置21のスペクトル解析により得られる各
音素についてのベクトル列により自己連想型の学習を、
他のANNの学習から独立して行う。一方、音声認識を
行う場合、FFT装置21でスペクトル解析された音声
についてのベクトル列を、全てのANN1〜ANNnに
入力する。そして、各ANN毎に、入力したベクトル列
と出力されたベクトル列との類似度を算出する。例え
ば、音素“a”のベクトル列が認識対象として入力され
た場合、対応するANN1のみが音素“a”についての
学習を行っているため、類似度が最も高くなる。一方、
他のANN2〜ANNnは“a”の学習を行っていない
ので、類似度が極めて小さくなる。従って、類似度が最
も大きいANNに対応する音素を、入力された音声を構
成する音素であると認識することができる。
Next, the operation of the embodiment configured as described above will be described. Outline of operation Self-associative neural networks ANN1 to ANNn
Corresponds to each phoneme to be recognized,
Only learn about the corresponding phonemes. In the learning, self-associative learning is performed by a vector sequence for each phoneme obtained by the spectrum analysis of the FFT device 21,
Independent of learning from other ANNs. On the other hand, in the case of performing voice recognition, the vector sequence of the voice spectrum-analyzed by the FFT device 21 is input to all ANN1 to ANNn. Then, the similarity between the input vector sequence and the output vector sequence is calculated for each ANN. For example, when the vector string of the phoneme "a" is input as the recognition target, the similarity is highest because only the corresponding ANN1 is learning about the phoneme "a". on the other hand,
Since the other ANN2 to ANNn have not learned "a", the degree of similarity is extremely small. Therefore, the phoneme corresponding to the ANN having the highest degree of similarity can be recognized as the phoneme forming the input voice.

【0021】ニューラルネットワークの学習の詳細 前述したように、ニューロン素子網22の各ANN1〜
ANNnは、それぞれ特定の音素に対応しており、例え
ばANN1は音素“a”についての自己連想型の学習の
みが独立して行われ、ANN2は音素“i”についての
自己連想型の学習のみが独立して行われる。また、他の
ANN3〜nもそれぞれ対応する音素についての自己連
想型の学習のみが独立して行われるようになっている。
このように、各ANNがそれぞれに対応した特定の音素
についてのみ学習すればよいため、入出力層や中間層の
サイズを小型化(ニューロン素子を少なくする)ことが
可能になり、パーソナルコンピュータ等による学習およ
び認識が容易になる。
Details of Learning of Neural Network As described above, each ANN1 to ANN1 of the neuron element network 22 is
Each ANNn corresponds to a specific phoneme, for example, ANN1 independently performs only self-associative learning of a phoneme "a", and ANN2 only self-associative learning of a phoneme "i". It is done independently. Further, the other ANNs 3 to n are also configured to independently perform only self-associative learning for the corresponding phonemes.
As described above, each ANN only needs to learn about a specific phoneme corresponding to each ANN, which makes it possible to reduce the size of the input / output layer and the intermediate layer (reduce the number of neuron elements). Easy to learn and recognize.

【0022】ニューラルネットワークについての学習を
行う場合、最初にキーボード18を操作することによ
り、または表示装置17に表示された所定キーをマウス
により操作することにより、学習モードを指定する。学
習モードを指定した後、予め決められた80の音素に対
応する文字を順次キーボード18から入力した後に、そ
の音素についての音声を音声入力装置23に入力する。
なお、入力すべき音素を表示装置17に表示すること
で、発声すべき音素を順次知らせるようにしてもよい。
音声入力装置23では、例えば音素「a」について、図
4(a)に示すようなアナログ信号が入力されると、こ
れをFFT装置21に供給する。FFT装置21では、
供給されたアナログ音声データを22KHzでサンプリ
ングし、16ビットのPCMデータにA/D変換し、図
示しない記憶部に格納する。なお、サンプリングの間隔
については特に22KHzに限定されるものではなく、
「ク」、「ッ」、「プ」といった発声時間が短い音素の
発声時間に対する1/2以下の間隔であれば、他の間隔
でもよい。また、PCMデータについても16ビットに
限定されるものではなく、32ビット、10ビット、8
ビット、6ビット、4ビット等であってもよい。
When learning about the neural network, the learning mode is designated by first operating the keyboard 18 or operating a predetermined key displayed on the display device 17 with a mouse. After designating the learning mode, the characters corresponding to the predetermined 80 phonemes are sequentially input from the keyboard 18, and then the voice for the phoneme is input to the voice input device 23.
The phonemes to be input may be displayed on the display device 17 to sequentially notify the phonemes to be uttered.
In the voice input device 23, for example, for the phoneme “a”, when an analog signal as shown in FIG. 4A is input, the analog signal is supplied to the FFT device 21. In the FFT device 21,
The supplied analog audio data is sampled at 22 KHz, A / D converted into 16-bit PCM data, and stored in a storage unit (not shown). The sampling interval is not particularly limited to 22 KHz,
Other intervals may be used as long as the intervals are ½ or less with respect to the utterance time of a phoneme having a short utterance time such as “ku”, “tsu”, and “p”. Further, the PCM data is not limited to 16 bits, but may be 32 bits, 10 bits, 8 bits.
It may be bits, 6 bits, 4 bits or the like.

【0023】次いでFFT装置21では、方形窓、ハミ
ング(Hamming)窓、ハニング(Hannig)
窓等の時間窓の形や、ポイント数等のパラメータに従っ
て、各時間tn(n=1、2、…)毎に、高速フーリエ
変換(FFT)処理によりディジタル音声データ「a」
についてのスペクトル解析を行う。すなわち、FFT装
置21は、図4(b)に示すように、各時間tn毎にお
ける音声データの、各周波数(F1〜F30)に対する
パワーP(tn)を算出する。この各周波数のパワーP
(tn)によるベクトル列は、図5に示すように、各時
間毎に、RAM14のベクトル列格納エリアに格納され
る。
Next, in the FFT device 21, a rectangular window, a Hamming window, and a Hanning.
Digital audio data “a” is processed by fast Fourier transform (FFT) processing at each time tn (n = 1, 2, ...) According to the shape of a time window such as a window and parameters such as the number of points.
The spectrum analysis is performed. That is, the FFT device 21 calculates the power P (tn) for each frequency (F1 to F30) of the audio data at each time tn, as shown in FIG. 4 (b). Power P of each frequency
The vector sequence by (tn) is stored in the vector sequence storage area of the RAM 14 every time as shown in FIG.

【0024】以上のようにして各音素についての学習用
データを生成するが、各ANN1〜ANNnによる自己
連想型の学習に普遍性を持たせるために複数の学習用デ
ータを生成する。以下では、その生成について音素
「a」を例に説明する。いま、学習対象となる音素
「a」については、言葉の最初に発声する場合の音素
(音頭音素)を“あ”で表し、言葉の最後に発声される
場合の音素(音尾音素)を“ア”で表し、言葉の途中に
発声される場合の音素(音中音素)を“A”で表すもの
とする。例えば、“あ”は、aki(秋)からとり、
“ア”はdenwa(電話)からとり、“A”はtom
ari(泊まり)からとる。なお、以下の説明において
は、音素「あ」について、“あ”、“ア”、“A”の3
パターンによる音素「a」の学習を例に説明するが、各
音素について3〜30パターン、好ましくは100パタ
ーン程度による学習が行われる。
The learning data for each phoneme is generated as described above, but a plurality of learning data are generated in order to make the self-associative learning by each ANN1 to ANNn universal. The generation will be described below by taking the phoneme "a" as an example. For the phoneme "a" to be learned, the phoneme (onset phoneme) when uttered at the beginning of the word is represented by "a", and the phoneme (tail tail phoneme) when uttered at the end of the word is " It is represented by "A", and a phoneme (phoneme in phoneme) when it is uttered in the middle of a word is represented by "A". For example, "a" is taken from aki (autumn),
"A" is taken from denwa (phone), "A" is tom
Take from ari (night stay). In the following description, the phoneme "a" is divided into three parts, "a", "a", and "A".
The learning of the phoneme "a" by the pattern will be described as an example, but the learning is performed by 3 to 30 patterns, preferably about 100 patterns for each phoneme.

【0025】図6は、これら3種類の“あ”、“ア”、
“A”について、FFT装置21で各時間t(t=1、
2、…)毎に、FFT処理によりスペクトル解析したデ
ータを表したものである。FFT装置21は、各音素
“あ”、“ア”、“A”について、それぞれ図6
(a)、(b)、(c)に示すように、各時間t毎に音
声データの、各周波数(周波数の分割数は、ANNの入
力層Iのニューロン素子の数pに対応して、F1〜Fp
のp個である)に対するパワー(P)の値を算出する。
そして、各周波数のパワーP(t)による各時間毎のベ
クトル列が、各音素毎に、RAM14の自ベクトル列格
納エリアに格納される。
FIG. 6 shows these three types of "A", "A",
For “A”, the FFT device 21 uses each time t (t = 1,
2, ...) Represents data obtained by spectrum analysis by FFT processing. The FFT device 21 is shown in FIG. 6 for each phoneme “A”, “A”, and “A”.
As shown in (a), (b), and (c), at each time t, each frequency of the audio data (the number of frequency divisions corresponds to the number p of neuron elements in the input layer I of the ANN, F1 to Fp
Value of the power (P) for each of
Then, the vector sequence for each time with the power P (t) of each frequency is stored in the own vector sequence storage area of the RAM 14 for each phoneme.

【0026】いま、図6(a)に示されるように、音素
“あ”についてスペクトル解析された、時刻t=1にお
けるパワーP(1)のベクトル列をあ1とし、時刻t=
2におけるパワーP(2)のベクトル列をあ2とし、同
様に、図示しないが、時刻t=nのベクトル列をあnと
する。また、図6(b)に示されるように、音素“ア”
についてスペクトル解析された、時刻t=1におけるパ
ワーP(1)のベクトル列をア1とし、時刻t=2にお
けるパワーP(2)のベクトル列をア2とし、同様に、
図示しないが、時刻t=nのベクトル列をアnとする。
また、図6(c)に示されるように、音素“A”につい
てスペクトル解析された、時刻t=1におけるパワーP
(1)のベクトル列をA1とし、時刻t=2におけるパ
ワーP(2)のベクトル列をA2とし、同様に、図示し
ないが、時刻t=nのベクトル列をAnとする。
Now, as shown in FIG. 6A, the vector sequence of the power P (1) at the time t = 1, which is spectrally analyzed for the phoneme "A", is set to A1, and the time t =
The vector sequence of power P (2) in 2 is A2, and similarly, although not shown, the vector sequence at time t = n is A. In addition, as shown in FIG. 6B, the phoneme "A"
The vector sequence of the power P (1) at the time t = 1 and the vector sequence of the power P (2) at the time t = 2, which are spectrally analyzed for
Although not shown, the vector sequence at time t = n is an.
Further, as shown in FIG. 6C, the power P at time t = 1, which is spectrally analyzed for the phoneme “A”.
The vector sequence of (1) is A1, the vector sequence of power P (2) at time t = 2 is A2, and similarly, although not shown, the vector sequence of time t = n is An.

【0027】これらの各音素についてスペクトル解析さ
れたパワーP(t)で構成されるベクトル列によって、
ANN1の学習が各時間t毎に行われる。すなわち、同
一時刻、例えばt=1における各音素のベクトル列あ
1、ア1、A、をANN1の入力層I1〜Ipの入力デ
ータとすると共に、出力層O1〜Opの教師信号として
使用することで、各時刻tのベクトル列毎に学習が行わ
れる。
By the vector sequence composed of the power P (t) spectrally analyzed for each of these phonemes,
Learning of ANN1 is performed at each time t. That is, the vector sequence A1, A1, A of each phoneme at the same time, for example, t = 1 is used as the input data of the input layers I1 to Ip of ANN1 and is used as the teacher signal of the output layers O1 to Op. Then, learning is performed for each vector sequence at each time t.

【0028】図7は、自己連想型N27の学習における
入力データと教師信号について表したものである。この
図7では、図6に示した各音素に対するパワーのベクト
ル列に基づいて学習する場合を例に示している。図7に
示されるように、各時刻t(t=1、2、…n)を単位
として学習が行われる。例えば、時刻t1の場合であれ
ば、教師信号をあ1として入力データあ1とア1とA1
について学習を行い、次に、教師信号をア1として、入
力データあ1とア1とA1について学習を行い、更に、
教師信号をA1として、入力データあ1とア1とA1に
ついて学習を行う。さらに、あ2、ア2、A2による入
力データと教師信号の全組み合わせによる学習が行われ
る。同様にして、他のあt、アt、Atについての学習
が行われる。
FIG. 7 shows input data and teacher signals in the learning of the self-associative type N27. In FIG. 7, an example is shown in which learning is performed based on the vector sequence of power for each phoneme shown in FIG. As shown in FIG. 7, learning is performed with each time t (t = 1, 2, ... N) as a unit. For example, in the case of time t1, input data A1, A1 and A1 with the teacher signal A1.
Then learning the input data A1 and A1 and A1 with the teacher signal A1.
With the teacher signal as A1, learning is performed on input data A1, A1 and A1. Further, learning is performed by all combinations of the input data and the teacher signal by A2, A2, and A2. In the same manner, learning about other points t, t, and At is performed.

【0029】このように、同一の音素であっても、複数
者による複数の音素(音頭音素、音中音素、音尾音素)
を使用し、学習データ“ア”に対し、教師信号を“ア”
として自己連想型の学習を行う場合だけでなく、同一音
素に属する他の“A”や“あ”等も教師信号として自己
連想型の学習が行われる。これによって、同一の音素に
対して音素“a”の範疇に含まれる普遍的な音素につい
ての学習を行うことができる。
As described above, even if the same phoneme, a plurality of phonemes (a head phoneme, a middle phoneme, and a tail phoneme) by a plurality of people are used.
Using the training data “A”,
Not only in the case of performing the self-associative learning as, the self-associative learning is performed by using other "A", "a", etc. belonging to the same phoneme as a teacher signal. As a result, it is possible to learn about universal phonemes included in the category of the phoneme "a" for the same phoneme.

【0030】逆に、各音素の各パターンについての組み
合わせでなくても、入力層Iの入力データおよび出力層
Oの教師信号として、同一のパターンのみを使用するよ
うにしてもよい。すなわち、学習データ“ア”に対し、
同一パターンの教師信号“ア”についてのみ自己連想型
の学習を行うようにしてもよい。また、図7では図示し
ていないが、同一の時刻t毎に学習を行う場合だけでな
く、例えば“あ1”、“ア1”、“A1”を学習データ
に対して、“あ2”、“ア2”、“A2”を教師信号と
するようにしてもよい。すなわち、各時刻tnのデータ
の学習に対してtnおよびtn+1のデータを教師信号
とするようにしてもよい。
On the contrary, the same pattern may be used as the input data of the input layer I and the teacher signal of the output layer O instead of the combination of each pattern of each phoneme. That is, for the learning data "a",
The self-associative learning may be performed only for the teacher signal “A” having the same pattern. Although not shown in FIG. 7, not only when learning is performed at the same time t, for example, “A1”, “A1”, and “A1” are compared with “A2” with respect to the learning data. , "A2", "A2" may be used as the teacher signal. That is, the data of tn and tn + 1 may be used as the teacher signal for learning the data of each time tn.

【0031】ANN1の学習において、入力層Iへのベ
クトル列の入力および出力層への教師信号の入力が済む
と、CPU11は、図3に示した、ANN1についての
入力層I、中間層Hおよび出力層Oの各ニューロン素子
間の結合重みWおよび閾値θを用いて学習を行い、各結
合重みを学習後の値に更新する。以上ANN1につい
て、対応する音素「a」の自己連想型の学習について説
明したが、同様にして、ANN2〜ANNnについて
も、それぞれ対応する音素についての自己連想型の学習
を行う。
In the learning of ANN1, when the input of the vector sequence to the input layer I and the input of the teacher signal to the output layer are completed, the CPU 11 shows the input layer I, the intermediate layer H, and the intermediate layer H for the ANN1 shown in FIG. Learning is performed using the connection weight W between each neuron element of the output layer O and the threshold value θ, and each connection weight is updated to the value after learning. Although the self-associative learning of the corresponding phoneme “a” has been described above for ANN1, the self-associative learning for the corresponding phonemes is similarly performed for ANN2 to ANNn.

【0032】本実施の形態において、行われる学習はバ
ックプロパゲーション則による学習が行われる。学習式
は、Δw(t)=〔S(t)/〔S(t−1)−S
(t)〕〕×Δw(t−1)であり、式の詳細および学
習アルゴリズム(The Quickprop Alg
orithm)は、カーネギーメロン大学1988年9
月発行、S.Fahlman著の技術レポート♯CMU
−CS−88−162の“An Empirical
Study of Learning Speedin
Back−Propagation Network
s”に記載されている。また、エルマン(J.L.El
man)による、Finding structure
in time,Cognitive scienc
e,14,pp.179−211(1990)に記載さ
れている、離散時間のリカレントネットワークに、フィ
ードフォワードネットワークのバックプロパゲーション
則を準用した学習でもよい。また、学習については以上
の方法に限定されず、他の学習方法によってもよい。
In the present embodiment, the learning to be performed is the learning based on the back propagation rule. The learning formula is Δw (t) = [S (t) / [S (t-1) -S
(T)]] × Δw (t−1), and the details of the equation and the learning algorithm (The Quickprop Alg
orithm) is Carnegie Mellon University 1988 9
Issued monthly, S.M. Technical report #CMU by Fahlman
-CS-88-162, "An Imperial
Study of Learning Speedin
Back-Propagation Network
s ". Also, Elman (JL El
man)) Finding structure
in time, Cognitive science
e, 14, pp. 179-211 (1990), learning that applies the backpropagation rule of the feedforward network to the recurrent network of discrete time may be applied. Further, learning is not limited to the above method, and other learning method may be used.

【0033】なお、学習対象となる各音素についてのス
ペクトルデータは、入力装置23およびFFT装置21
で学習時に生成するのではなく、他の装置により予めス
ペクトル解析しておいた各種音素についてのデータを通
信制御装置15から入力して、RAM14のベクトル列
格納エリアに格納するようにしてよもい。
The spectrum data for each phoneme to be learned is the input device 23 and the FFT device 21.
It is also possible to input from the communication control device 15 data on various phonemes that have been spectrally analyzed in advance by another device and store them in the vector sequence storage area of the RAM 14 instead of generating them at the time of learning.

【0034】音声認識についての詳細 各ANN1〜ANNnについての学習が終了した後、音
声入力装置23から認識対象となる音声が入力される
と、FFT装置21においてスペクトル解析が行われ、
RAM14のベクトル列格納エリアに各周波数に対する
パワーがベクトル列として各時間t毎に格納される。そ
してCPU11は、認識対象となる音声データについ
て、時間tnにおけるベクトル列P(tn)をRAM1
4から読みだし、ANN1の入力層Iに入力する。そし
て、ニューロン素子網22のメモリに格納されている学
習済の結合重みテーブルから、ANN1に対する出力ベ
クトル列O(tn)を求める。そして、CPU11は、
このANN1の出力ベクトル列O(tn)と入力したベ
クトル列P(tn)との類似度S1(tn)を算出す
る。CPU11は、他のANN2〜ANNnについても
同様に、ベクトル列P(tn)を入力した場合の出力ベ
クトル列と、その出力ベクトル列の入力ベクトル列に対
する類似度S2(tn)〜Sn(tn)を算出する。な
お、類似度は、入力と出力との差、ユークリッド距離、
最小二乗値、その他各種の方法によって算出する。
Details of voice recognition When the voice to be recognized is input from the voice input device 23 after the learning of each ANN1 to ANNn is completed, the FFT device 21 performs spectrum analysis,
The power for each frequency is stored in the vector sequence storage area of the RAM 14 as a vector sequence at each time t. Then, the CPU 11 stores the vector sequence P (tn) at the time tn in the RAM 1 for the voice data to be recognized.
It is read out from No. 4 and input to the input layer I of ANN1. Then, the output vector sequence O (tn) for ANN1 is obtained from the learned connection weight table stored in the memory of the neuron element network 22. Then, the CPU 11
The similarity S1 (tn) between the output vector sequence O (tn) of this ANN1 and the input vector sequence P (tn) is calculated. Similarly for the other ANN2 to ANNn, the CPU 11 obtains the output vector sequence when the vector sequence P (tn) is input and the similarity S2 (tn) to Sn (tn) of the output vector sequence with respect to the input vector sequence. calculate. The similarity is the difference between the input and output, the Euclidean distance,
It is calculated by the least squares value and various other methods.

【0035】CPU11は、全てのANN1〜ANNn
につていの類似度S1(tn)〜Sn(tn)を算出し
た後、最も類似度の大きいANNに対応した音素を、入
力された音声についての時刻t1での音素であると認識
して、RAM14に2格納する。すなわち、ANN2の
類似度S2が最も大きい場合には、時刻tnでの音素が
“i”であると認識する。このように、各ANN1〜A
NNnは、それぞれ対応した音素についてのみの学習を
しいてるため、入力音声データの各音素に対応したAN
Nの類似度が極めて高く、他のANNについての類似度
が極めて低い値となり、類似度Sの値から音素を特定す
ることが可能となる。
The CPU 11 has all the ANN1 to ANNn.
After calculating the similarities S1 (tn) to Sn (tn), the phoneme corresponding to the ANN having the highest similarity is recognized as the phoneme at the time t1 of the input voice, 2 is stored in the RAM 14. That is, when the similarity S2 of ANN2 is the largest, the phoneme at time tn is recognized as "i". In this way, each ANN1-A
Since the NNn learns only the corresponding phonemes, the AN corresponding to each phoneme of the input speech data.
The similarity of N is extremely high, and the similarity of other ANNs is extremely low, and it becomes possible to specify a phoneme from the value of the similarity S.

【0036】以下同様にして、時刻tn+1以降のベク
トル列Pを順次RAM14から読み出し、各ANN1〜
ANNnの類似度S1〜Snの最大値から、その時刻で
の音素を認識し、順次RAM14に格納する。
Similarly, the vector sequence P after the time tn + 1 is sequentially read from the RAM 14 and the ANN1 to ANN1 are sequentially read.
The phoneme at that time is recognized from the maximum value of the similarities S1 to Sn of ANNn and sequentially stored in the RAM 14.

【0037】ANN1〜ANNnの各入力層Iにベクト
ル列P(tn)が時系列的に入力される毎に音素が特定
されるため、RAM14には複数の音素列が格納され
る。例えば、音声「いろ」が入力され、各時刻での認識
した音素列「iiiiirrrooooo」がRAMに
格納される。CPU11は、このRAM14に格納され
た音素列から、入力された音声を「iro」と認識す
る。そしてCPU11は、キーボード18からの入力指
示がある場合には、認識した音声を日本語変換システム
に従って、文字による文章に変換する。変換した文章
は、表示装置17に表示されると共にRAM14に格納
される。また、キーボード18からの指示に応じて、通
信制御装置5および通信網2を介して、パーソナルコン
ピュータやワードプロセッサ等の各種通信制御装置にデ
ータ伝送を行う。
Since the phoneme is specified every time the vector sequence P (tn) is input to each of the input layers I of ANN1 to ANNn in time series, the RAM 14 stores a plurality of phoneme sequences. For example, the voice "iro" is input, and the phoneme sequence "iiiiiirrrooooo" recognized at each time is stored in the RAM. The CPU 11 recognizes the input voice as “iro” from the phoneme string stored in the RAM 14. Then, when there is an input instruction from the keyboard 18, the CPU 11 converts the recognized voice into a text by the Japanese conversion system. The converted text is displayed on the display device 17 and stored in the RAM 14. Further, according to an instruction from the keyboard 18, data is transmitted to various communication control devices such as a personal computer and a word processor via the communication control device 5 and the communication network 2.

【0038】なお、最大類似度の音素であっても、その
類似度が所定の閾値をこえていない場合には、誤認識の
可能性がある。この場合には、入力層Iに入力されたベ
クトルは認識対象からはずされる。これは、各音素から
音素に変化する中間でスペクトル分析されたベクトル列
の場合に発生しやすい。すなわち、音素間のスペクトル
の場合、ANN1〜ANNnの全ての類似度Sが低い場
合があり、このような場合にはその時刻tでの音素を認
識できないことになる。しかし、その後継続的に特定さ
れる音素によって容易に音声を認識することができる。
例えば、音声「いろ」に対して、「iii?rr?o
o」という出力がされたものとする。このように途中に
類似度が低いために認識対象からはずされるベクトル列
(?で表されたベクトル列)があったとしても、その前
後において入力音声を構成する音素が認識されるため、
全体として入力音声「いろ」を認識することができる。
従って、連続音声認識を容易に行うことができる。
Even if the phoneme has the maximum similarity, it may be erroneously recognized if the similarity does not exceed a predetermined threshold value. In this case, the vector input to the input layer I is removed from the recognition target. This is likely to occur in the case of a vector sequence that is spectrally analyzed in the middle of changing from each phoneme to a phoneme. That is, in the case of a spectrum between phonemes, all the similarities S of ANN1 to ANNn may be low, and in such a case, the phoneme at the time t cannot be recognized. However, the voice can be easily recognized by the phoneme that is continuously specified thereafter.
For example, for the voice "Iro", "iii? Rr? O"
It is assumed that the output "o" is made. Even if there is a vector sequence (vector sequence represented by?) That is removed from the recognition target due to the low degree of similarity in this way, the phonemes that make up the input speech are recognized before and after that.
The input voice "color" can be recognized as a whole.
Therefore, continuous speech recognition can be easily performed.

【0039】各音素の変化時において音素を特定できな
いのは、学習段階において、個々の音素単位での学習を
行っており、各音素同士がスペクトルに与える影響まで
は学習の対象になっていないためであると考えられる。
The reason why the phoneme cannot be specified when each phoneme changes is that the learning is performed for each phoneme unit at the learning stage, and the effect of each phoneme on the spectrum is not the object of learning. Is considered to be.

【0040】本実施の形態によれば、各ANN1〜AN
Nnは、それぞれ対応する音素についてのみ専用に学習
を行うようにしているため、対応音素について豊富な学
習(複数人による複数の場合の音素についての学習)を
行うことで、高い認識率をうることができる。従って、
不特定話者認識を行うことができる。
According to the present embodiment, each of ANN1 to AN is
Since Nn specializes in learning only corresponding phonemes, it is possible to obtain a high recognition rate by performing abundant learning about corresponding phonemes (learning phonemes in the case of multiple people by multiple people). You can Therefore,
Unspecified speaker recognition can be performed.

【0041】また、音素単位での音声認識を行う場合に
従来から認識すべき音素の開始点をどのようにして正確
に決定するかが問題であったが、本実施の形態によれ
ば、「ッ」等の発声時間が短い音素の発声時間に対する
1/2以下の間隔でサンプリングしているので、PCM
データについても1音素の開始点を特定する必要がな
い。また、音素単位による連続音声認識を行う場合に、
各個人差が大きい各音素の発声時間に関係なく、音声を
認識することができる。例えば、音声として「はーる」
というように、音声「は」をのばして発声した場合であ
っても、「hhhhh…aaaaaaaaaaaaaa
…rrrr…uuuuu…」というように、音素「a」
が多く特定されるだけで、容易に音声「はる」と認識す
ることができる。
Further, in the case of performing speech recognition on a phoneme basis, it has been a problem in the past how to accurately determine the starting point of a phoneme to be recognized. According to this embodiment, " , Etc. is sampled at intervals of 1/2 or less than the utterance time of a phoneme having a short utterance time.
With respect to the data, it is not necessary to specify the starting point of one phoneme. Also, when performing continuous speech recognition in phoneme units,
The voice can be recognized regardless of the utterance time of each phoneme having a large individual difference. For example, as a voice, "Haru"
In this way, even when the voice "ha" is extended and uttered, "hhhhhh ... aaaaaaaaaaaaaaaaa"
Phoneme "a", such as "rrrr ... uuuuu ..."
It is possible to easily recognize the voice "Haru" simply by specifying many.

【0042】さらに、本実施の形態では、音素単位の音
声認識について説明したが、単語単位で音声認識するよ
うにしてもよい。この場合、ベクトル列が表す特定の意
味としてその単語を表す符号列が教師信号として使用さ
れる。
Further, in the present embodiment, the speech recognition in the unit of phoneme has been described, but the speech recognition may be performed in the unit of word. In this case, a code string representing the word as a specific meaning represented by the vector string is used as a teacher signal.

【0043】また、本実施の形態では、ROM13に格
納した学習プログラムに従ってCPU11でニューロン
素子網22の学習を行い、学習後のニューロン素子網2
2による音声認識を行うようにしたが、不特定話者の連
続音声認識を高い認識率で行うことが可能であるので、
再学習の必要が少ない。従って、音声認識装置として
は、必ずしも学習機能を有する必要がなく、他の装置の
学習で求めた結合重みWおよび閾値θを有する、ANN
1〜ANNnからなるニューロン素子網を使用するよう
にしてもよい。この場合、ニューロン素子網を、学習済
みの結合重みを有するハードウェアで構成してもよい。
Further, in this embodiment, the neuron element network 22 is learned by the CPU 11 according to the learning program stored in the ROM 13, and the neuron element network 2 after learning is learned.
Although the voice recognition by 2 is performed, it is possible to perform continuous voice recognition of an unspecified speaker with a high recognition rate.
Less need for re-learning. Therefore, the speech recognition device does not necessarily have to have a learning function, and has the connection weight W and the threshold value θ obtained by learning of another device.
You may make it use the neuron element network which consists of 1-ANNn. In this case, the neuron element network may be configured by hardware having learned connection weights.

【0044】また、以上説明した実施の形態では、FF
T装置における高速フーリエ変換によって、学習時の各
音素と音声認識時の音声についてのスペクトル解析を行
ったが、他のアルゴリズムによりスペクトル解析を行う
ようにしてもよい。例えば、DCT(離散コサイン変
換)等によるスペクトル解析を行ってもよい。
In the embodiment described above, the FF
Although the spectrum analysis was performed on each phoneme during learning and the speech during speech recognition by the fast Fourier transform in the T device, the spectrum analysis may be performed by another algorithm. For example, spectrum analysis by DCT (discrete cosine transform) or the like may be performed.

【0045】以上説明した、図2のANN1〜ANNn
では、各層I、H、O間の結合状態として完全結合して
いる場合について説明したが、本発明ではこれに限定さ
れるものではない。例えば、各層のニューロン素子数
や、学習能力に応じて結合状態を決定するようにしても
よい。
The above-described ANN1 to ANNn of FIG.
In the above, the case where the layers I, H, and O are completely bonded has been described, but the present invention is not limited to this. For example, the connection state may be determined according to the number of neuron elements in each layer and the learning ability.

【0046】次に第2の実施の形態ついて説明する。前
記した第1の実施の形態では、音声認識においてFFT
装置21でスペクトル解析されたベクトル列を入力層I
に入力するデータとしたのに対して、この第2の実施の
形態では、ケプストラムデータを各入力層Iに入力する
ことで、学習および音声認識を行うようにしたものであ
る。図9は、第2の実施の形態におけるニューラルネッ
トワークのシステム構成を表したものである。この図に
示すように、ニューラルネットワークでは、図1に示し
た第1の実施の形態のシステムに、更にケプストラム装
置26を備えている。なお、その他の部分については第
1の実施の形態と同様なので、同一の番号を付してその
説明を省略する。
Next, a second embodiment will be described. In the above-described first embodiment, FFT is performed in speech recognition.
The vector sequence spectrally analyzed by the device 21 is input to the input layer I.
In the second embodiment, the cepstrum data is input to each input layer I to perform learning and voice recognition. FIG. 9 shows a system configuration of the neural network according to the second embodiment. As shown in this figure, in the neural network, the system of the first embodiment shown in FIG. 1 is further provided with a cepstrum device 26. Since the other parts are the same as those in the first embodiment, the same numbers are given and the description thereof is omitted.

【0047】ケプストラム装置26は、FFT装置21
におけるスペクトル解析された波形の短時間振幅スペク
トルの対数を逆フーリエ変換することで、ケプストラム
データを得るものである。このケプストラム装置26に
より、スペクトル包絡と微細構造とを近似的に分離して
抽出することができる。
The cepstrum device 26 is the FFT device 21.
The cepstrum data is obtained by performing an inverse Fourier transform on the logarithm of the short-time amplitude spectrum of the spectrum analyzed in the above. With this cepstrum device 26, the spectral envelope and the fine structure can be approximately separated and extracted.

【0048】ここで、ケプストラムの原理について説明
する。いま、音源と音道のインパルス応答のフーリエ変
換をそれぞれ、G(ω)H(ω)で表すと、線型分離透
過回路モデルにより、 X(ω)=G(ω)H(ω) の関係が得られる。この式の両辺の対数をとると、次の
数式(1)となる。 log|X(ω)|=log|G(ω)+log|H(ω)|…(1) さらに、この数式(1)の両辺の逆フーリエ変換をとる
と次の数式(2)になり、これがケプストラムである。 c(τ)=F-1log|X(ω)| =F-1log|G(ω)+F-1log|H(ω)|…(2) ここでτの次元は、周波数領域からの逆変換であるから
時間になり、ケフレンシーとよばれる。
Here, the principle of the cepstrum will be described. Now, when the Fourier transform of the impulse response of the sound source and the Fourier transform of the sound path are respectively expressed by G (ω) H (ω), the relationship of X (ω) = G (ω) H (ω) is expressed by the linear separation transmission circuit model. can get. When the logarithm of both sides of this equation is taken, the following equation (1) is obtained. log | X (ω) | = log | G (ω) + log | H (ω) | ... (1) Further, when the inverse Fourier transform of both sides of this equation (1) is taken, the following equation (2) is obtained. This is the cepstrum. c (τ) = F −1 log | X (ω) | = F −1 log | G (ω) + F −1 log | H (ω) | (2) Here, the dimension of τ is from the frequency domain. Since it is an inverse transformation, it takes time, and it is called kefrenshi.

【0049】次に基本周期と包絡線の抽出について説明
する。数式(1)の右辺第1項はスペクトル上の微細構
造であり、第2項はスペクトル包絡線である。両者の逆
フーリエ変換には大きな違いがあり、第1項は高ケフレ
ンシーのピークとなり、第2項は0から2〜4ms程度
の低ケフレンシー部に集中する。高ケフレンシー部を用
いてフーリエ変換することによって対数スペクトル包絡
線が求まり、更に、それを指数変換すればスペクトル包
絡線が求まる。求まるスペクトル包絡線の平滑さの度合
いは、低ケフレンシー部のどれだけの成分を用いるかに
よって変化する。ケフレンシー成分を分離する操作をリ
フタリングと呼ぶ。
Next, the extraction of the basic period and the envelope will be described. The first term on the right side of the equation (1) is the fine structure on the spectrum, and the second term is the spectrum envelope. There is a big difference between the inverse Fourier transforms of the two, the first term is a peak of high kefflenency, and the second term is concentrated in the low kefflenency portion of about 0 to 2 to 4 ms. The logarithmic spectrum envelope is obtained by performing Fourier transform using the high-keflency part, and the spectrum envelope is obtained by subjecting it to exponential transformation. The degree of smoothness of the obtained spectrum envelope changes depending on how many components in the low Keffency portion are used. The operation of separating the kefrenshi component is called lifter ring.

【0050】図9は、ケプストラム装置26の構成を表
したものである。このケプストラム装置26は、対数変
換部261と、逆FFT部262と、ケプストラム窓2
63と、ピーク抽出部264と、FFT部265とを備
えている。なお、ケプストラム窓263、ピーク抽出部
264と、FFT部265は、ニューロン素子網22の
音声入力層32に供給するデータとして、逆FFT部2
62で求めたケプストラムデータを使用する場合には不
要であり、スペクトル包絡をニューロン素子網22の入
力データとして使用する場合に必要となる。また、FF
T部265については、必ずしも必要ではなく、FFT
装置21を使用するようにしてもよい。
FIG. 9 shows the structure of the cepstrum device 26. The cepstrum device 26 includes a logarithmic transformation unit 261, an inverse FFT unit 262, and a cepstrum window 2
63, a peak extraction unit 264, and an FFT unit 265. The cepstrum window 263, the peak extraction unit 264, and the FFT unit 265 use the inverse FFT unit 2 as data to be supplied to the voice input layer 32 of the neuron element network 22.
It is not necessary when using the cepstrum data obtained in 62, and is necessary when using the spectrum envelope as input data of the neuron element network 22. Also, FF
The T section 265 is not always necessary, and the FFT
The device 21 may be used.

【0051】対数変換部261は、FFT装置21から
供給されるスペクトルデータX(ω)から、数式(1)
に従って対数変換を行い、log|X(ω)|を求め、
逆FFT部262に供給する。逆FFT部262では、
供給された値について、更に逆FFTをとり、c(τ)
を算出することで、ケプストラムデータを求める。逆F
FT部262では、求めたケプストラムデータを、音声
データについての学習または音声認識を行う入力データ
In(ベクトル列)として、第1の実施の形態で説明し
たANN1〜ANNnの各入力層Iに供給するようにな
っている。ANN1〜ANNnに入力する入力データI
nの数については、音声認識に併せて任意に選択された
入力層Iのニューロン素子数pと同数が選択される。従
って、ケフレンシー(τ)軸をp分割し、各ケフレンシ
ー毎のパワーの値をニューロン素子I1〜Ipの入力デ
ータとして、各ANN1〜ANNnに供給する。この逆
FFT部262で求めたケプストラムデータをANN1
〜ANNnの各入力層Iに供給するのが、第2の実施の
形態における第1例である。
The logarithmic transformation unit 261 calculates the mathematical expression (1) from the spectrum data X (ω) supplied from the FFT device 21.
Logarithm conversion is performed according to to obtain log | X (ω) |
The inverse FFT unit 262 is supplied. In the inverse FFT unit 262,
Inverse FFT is further performed on the supplied value to obtain c (τ)
By calculating, the cepstrum data is obtained. Reverse F
The FT unit 262 supplies the obtained cepstrum data to the input layers I of ANN1 to ANNn described in the first embodiment as input data In (vector sequence) for learning or recognizing voice data. It is like this. Input data I input to ANN1 to ANNn
As for the number of n, the same number as the number of neuron elements p of the input layer I, which is arbitrarily selected in accordance with the voice recognition, is selected. Therefore, the keffency (τ) axis is divided into p parts, and the power value for each keffency is supplied to each ANN1 to ANNn as the input data of the neuron elements I1 to Ip. The cepstrum data obtained by the inverse FFT unit 262 is ANN1.
It is the first example in the second embodiment that supplies to each input layer I of ANNn.

【0052】次に、第2の実施の形態における第2例に
ついて説明する。この第2例では、ケプストラム窓26
3において求めたケプストラムデータに対してリフタリ
ングを行うことで、ケフレンシー成分を高ケフレンシー
部と低ケフレンシー部に分離する。分離された低ケフレ
ンシー部は、FFT部265において、フーリエ変換す
ることによって対数スペクトル包絡線が求められ、更
に、指数変換することでスペクトル包絡線が求められ
る。このスペクトル包絡データから、周波数軸軸をニュ
ーロン素子の数に対応して分割し、各周波数毎のパワー
の値(ベクトル列)をANN1〜ANNnの各入力層I
に供給する。
Next, a second example of the second embodiment will be described. In this second example, the cepstrum window 26
By performing lifter ringing on the cepstrum data obtained in step 3, the keflenency component is separated into a high kefflenency portion and a low kefflenency portion. In the FFT unit 265, the separated low-keflency portion is Fourier-transformed to obtain a logarithmic spectrum envelope, and further exponentially transformed to obtain a spectrum envelope curve. From this spectrum envelope data, the frequency axis is divided according to the number of neuron elements, and the power value (vector sequence) for each frequency is input to each input layer I of ANN1 to ANNn.
To supply.

【0053】なお、ケプストラム窓263で分離され
た、低ケフレンシー部のケプストラムデータを入力デー
タとして各入力層Iに供給するようにしてよもい。ま
た、分離された高ケフレンシー部のケプストラムデータ
から、ピーク抽出部264で基本周期を抽出し、これ
を、FFT部265で求めたスペクトル包絡のデータと
共に入力データの1つとして使用してもよい。この場
合、入力層Iのニューロン素子数がp個なので、スペク
トル包絡のデータから(p−1)の入力データIn1〜
I(p−1)nを各入力層Iに入力し、基本周期のデー
タから入力データInpを入力層Iに入力する。
It should be noted that the cepstrum data of the low-keflency portion separated by the cepstrum window 263 may be supplied to each input layer I as input data. Alternatively, the peak extraction unit 264 may extract the fundamental period from the separated cepstrum data of the high-keflency portion, and this may be used as one of the input data together with the spectrum envelope data obtained by the FFT unit 265. In this case, since the number of neuron elements in the input layer I is p, the input data In1 to (p-1) of the spectrum envelope data
I (p-1) n is input to each input layer I, and input data Inp is input to the input layer I from the data of the basic period.

【0054】以上説明したように、第2の実施の形態に
よれば、音声データについてのケプストラムデータを使
用することで、パワースペクトルよりも一層音声の特徴
を捕らえたデータにより、音素の学習と認識を行うの
で、認識率が向上する。
As described above, according to the second embodiment, by using the cepstrum data of the voice data, the learning and recognition of the phoneme can be performed by the data in which the features of the voice are more captured than the power spectrum. As a result, the recognition rate is improved.

【0055】なお、第1および第2の実施の形態では音
声認識について説明したが、画像データのケプストラム
データを使用して画像認識を行うようにしてもよい。こ
の場合の画像データは、図形読取装置24で読み取られ
た画像データ、および、通信制御装置15で受信した画
像データのいずれを用いてもよい。
Although voice recognition has been described in the first and second embodiments, image recognition may be performed using cepstrum data of image data. The image data in this case may be either the image data read by the graphic reading device 24 or the image data received by the communication control device 15.

【0056】以上説明した第1および第2の実施の形態
では、音声認識の場合について説明したが、本発明で
は、文字認識、図形認識、運動の時系列パターン発生の
予測等にも適用することができる。文字認識の場合であ
れば、認識対象となる文字数のANNを設け、各ANN
毎に対応する文字について自己連想学習を行う。学習デ
ータとしては、交点等の特徴点、筆順、画数等が使用さ
れる。
In the above-described first and second embodiments, the case of voice recognition has been described. However, the present invention can be applied to character recognition, figure recognition, prediction of occurrence of a time series pattern of motion, and the like. You can In the case of character recognition, an ANN having the number of characters to be recognized is provided, and each ANN is
Self-associative learning is performed for each corresponding character. As learning data, feature points such as intersections, stroke order, and stroke count are used.

【0057】[0057]

【発明の効果】そこで、本発明のニューラルネットワー
クによれば、複数のニューロン素子を有する入力層と、
この入力層よりも少ないニューロン素子を有する中間層
と、前記入力層と同数のニューロン素子を有する出力層
とを有し、各々に異なる特定意味が対応付けられた複数
のボトルネックニューロン素子網と、ベクトル列を前記
ボトルネックにニューロン素子網の各データ入力層に入
力する入力手段と、この入力手段によるベクトル列の入
力による各ボトルネックニューロン素子網の出力ベクト
ル列と入力ベクトル列との類似度を算出する類似度算出
手段と、この類似度算出手段で算出された類似度がもっ
とも大きいボトルネックニューロン素子網に対応する特
定の意味を、入力手段に入力されたベクトル列の意味と
して出力する出力手段と、を具備させたので、簡単な構
成で、高認識率等を得ることができる。また、対応する
特定意味のベクトル列を入力データおよび教師信号とす
る自己連想的学習を、各ボトルネックニューロン素子網
毎に行うので、学習を短時間で容易に行うことができ
る。
Therefore, according to the neural network of the present invention, an input layer having a plurality of neuron elements,
A plurality of bottleneck neuron element networks each having an intermediate layer having fewer neuron elements than the input layer and an output layer having the same number of neuron elements as the input layer, each having a different specific meaning associated with each other, Input means for inputting a vector sequence to each data input layer of the neuron element network at the bottleneck, and the similarity between the output vector sequence of each bottleneck neuron element network and the input vector sequence due to the input of the vector sequence by this input means Outputting means for outputting similarity meaning calculating means and a specific meaning corresponding to the bottleneck neuron element network having the highest similarity calculated by the similarity calculating means as the meaning of the vector sequence input to the input means Since the above is provided, a high recognition rate and the like can be obtained with a simple configuration. Further, since self-associative learning using the corresponding vector string of a specific meaning as the input data and the teacher signal is performed for each bottleneck neuron element network, the learning can be easily performed in a short time.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施の形態におけるニューラルネッ
トワークを利用した音声認識装置のシステム構成図であ
る。
FIG. 1 is a system configuration diagram of a voice recognition device using a neural network according to an embodiment of the present invention.

【図2】同上、音声認識装置のニューロン素子網の構成
図である。
FIG. 2 is a configuration diagram of a neuron element network of the voice recognition device.

【図3】同上、ニューロン素子網22の各ANNの結合
重みと閾値を格納する結合重みテーブルを示す説明図で
ある。
FIG. 3 is an explanatory diagram showing a connection weight table that stores the connection weights and threshold values of each ANN of the neuron element network 22.

【図4】同上、音声認識装置による音声のスペクトル解
析の状態を説明する説明図である。
FIG. 4 is an explanatory diagram explaining a state of spectrum analysis of voice by the voice recognition device.

【図5】同上、音声認識装置のFFT装置によりスペク
トル解析された音声についてのベクトル列を表す説明図
である。
FIG. 5 is an explanatory diagram showing a vector sequence for a voice spectrum-analyzed by the FFT device of the voice recognition device.

【図6】同上、音声認識装置のFFT装置により3種類
の“あ”、“ア”、“A”のスペクトル解析したデータ
を示す説明図である。
FIG. 6 is an explanatory diagram showing data obtained by spectrum analysis of three types of “A”, “A”, and “A” by the FFT device of the voice recognition device.

【図7】同上、音声認識装置のニューロン素子網におけ
るANN1の学習時の入力データと教師信号との関係を
表す説明図である。
FIG. 7 is an explanatory diagram showing a relationship between input data and a teacher signal during learning of ANN1 in the neuron element network of the voice recognition device.

【図8】本発明の第2の実施の形態におけるニューラル
ネットワークのシステム構成図である。
FIG. 8 is a system configuration diagram of a neural network according to a second embodiment of the present invention.

【図9】第2の実施の形態におけるケプストラム装置の
構成図である。
FIG. 9 is a configuration diagram of a cepstrum device according to a second embodiment.

【符号の説明】[Explanation of symbols]

11 CPU 12 バスライン 13 ROM 14 RAM 15 通信制御装置 16 プリンタ 17 表示装置 18 キーボード 21 FFT装置 22 ニューロン素子網 23 音声入力装置 24 図形読取装置 26 ケプストラム装置 11 CPU 12 Bus Line 13 ROM 14 RAM 15 Communication Control Device 16 Printer 17 Display Device 18 Keyboard 21 FFT Device 22 Neuron Element Network 23 Voice Input Device 24 Graphic Reading Device 26 Cepstral Device

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 複数のニューロン素子を有する入力層
と、この入力層よりも少ないニューロン素子を有する中
間層と、前記入力層と同数のニューロン素子を有する出
力層とを有し、各々に異なる特定意味が対応付けられた
複数のボトルネックニューロン素子網と、 ベクトル列を前記ボトルネックにニューロン素子網の各
データ入力層に入力する入力手段と、 この入力手段によるベクトル列の入力による各ボトルネ
ックニューロン素子網の出力ベクトル列と入力ベクトル
列との類似度を算出する類似度算出手段と、 この類似度算出手段で算出された類似度がもっとも大き
いボトルネックニューロン素子網に対応する特定の意味
を、入力手段に入力されたベクトル列の意味として出力
する出力手段と、を具備することを特徴とするニューラ
ルネットワーク。
1. An input layer having a plurality of neuron elements, an intermediate layer having a smaller number of neuron elements than the input layer, and an output layer having the same number of neuron elements as the input layer, each having a different specification. A plurality of bottleneck neuron element networks having associated meanings, input means for inputting a vector sequence to each data input layer of the neuron element network with the bottleneck as the bottleneck, and each bottleneck neuron by inputting a vector sequence by the input means The similarity calculation means for calculating the similarity between the output vector sequence and the input vector sequence of the element network, and the specific meaning corresponding to the bottleneck neuron element network having the highest similarity calculated by the similarity calculation means, Output means for outputting the meaning of the vector sequence input to the input means. Network.
【請求項2】 前記複数のボトルネックニューロン素子
網は、対応する特定意味のベクトル列を入力データおよ
び教師信号とする自己連想的学習を行ったものであるこ
とを特徴とする請求項1に記載のニューラルネットワー
ク。
2. The plurality of bottleneck neuron element networks have been subjected to self-associative learning using a corresponding vector string of a specific meaning as input data and a teacher signal. Neural network.
【請求項3】 対応する特定意味のベクトル列を入力デ
ータおよび教師信号とする自己連想的学習を、前記各ボ
トルネックニューロン素子網毎に行う学習手段を具備し
たことを特徴とする請求項1に記載のニューラルネット
ワーク。
3. A learning means for carrying out self-associative learning for each of the bottleneck neuron element networks, using a corresponding vector string of a specific meaning as input data and a teacher signal. Neural network described.
【請求項4】 バックプロパゲーション則により自己連
想的学習を行うことを特徴とする請求項2または請求項
3に記載のニューラルネットワーク。
4. The neural network according to claim 2, wherein self-associative learning is performed according to the back propagation rule.
【請求項5】 前記特定の意味は音声を構成する音素で
あり、入力層に入力されるベクトル列は、時系列的に解
析された音素についての特徴量を表すベクトル列である
ことを特徴とする請求項1から請求項4のうちのいずれ
か1の請求項に記載したニューラルネットワーク。
5. The specific meaning is a phoneme constituting a voice, and the vector sequence input to the input layer is a vector sequence representing a feature amount of a phoneme analyzed in time series. The neural network according to any one of claims 1 to 4.
【請求項6】 前記特定の意味についての特徴量を表す
ベクトルとして、音声のスペクトルデータとケプストラ
ムデータの少なくとも一方を使用する事を特徴とする請
求項5に記載したニューラルネットワーク。
6. The neural network according to claim 5, wherein at least one of speech spectrum data and cepstrum data is used as a vector representing a feature amount for the specific meaning.
JP8037292A 1996-01-31 1996-01-31 Neural network Pending JPH09212197A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8037292A JPH09212197A (en) 1996-01-31 1996-01-31 Neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8037292A JPH09212197A (en) 1996-01-31 1996-01-31 Neural network

Publications (1)

Publication Number Publication Date
JPH09212197A true JPH09212197A (en) 1997-08-15

Family

ID=12493640

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8037292A Pending JPH09212197A (en) 1996-01-31 1996-01-31 Neural network

Country Status (1)

Country Link
JP (1) JPH09212197A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003519827A (en) * 1999-05-18 2003-06-24 シーメンス アクチエンゲゼルシヤフト Computer-assisted method for detecting the degree of belonging of a predetermined input amount to a cluster, device of mutually coupled calculation elements, computer program carrier for obtaining the degree of belonging of a predetermined input amount to a cluster with computer assistance, cluster Memory medium for obtaining the degree of belonging of a predetermined input amount to computer with computer support
JP2006199159A (en) * 2005-01-20 2006-08-03 Univ Nagoya Operation behavior recognition device
JP2011188901A (en) * 2010-03-12 2011-09-29 Oki Electric Industry Co Ltd Movement detector, movement detection method, and program
JP2017538137A (en) * 2014-12-15 2017-12-21 バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC System and method for audio transcription
WO2018151125A1 (en) * 2017-02-15 2018-08-23 日本電信電話株式会社 Word vectorization model learning device, word vectorization device, speech synthesis device, method for said devices, and program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003519827A (en) * 1999-05-18 2003-06-24 シーメンス アクチエンゲゼルシヤフト Computer-assisted method for detecting the degree of belonging of a predetermined input amount to a cluster, device of mutually coupled calculation elements, computer program carrier for obtaining the degree of belonging of a predetermined input amount to a cluster with computer assistance, cluster Memory medium for obtaining the degree of belonging of a predetermined input amount to computer with computer support
JP2006199159A (en) * 2005-01-20 2006-08-03 Univ Nagoya Operation behavior recognition device
JP2011188901A (en) * 2010-03-12 2011-09-29 Oki Electric Industry Co Ltd Movement detector, movement detection method, and program
JP2017538137A (en) * 2014-12-15 2017-12-21 バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC System and method for audio transcription
WO2018151125A1 (en) * 2017-02-15 2018-08-23 日本電信電話株式会社 Word vectorization model learning device, word vectorization device, speech synthesis device, method for said devices, and program
JPWO2018151125A1 (en) * 2017-02-15 2019-12-12 日本電信電話株式会社 Word vectorization model learning device, word vectorization device, speech synthesizer, method and program thereof

Similar Documents

Publication Publication Date Title
JPH08227410A (en) Learning method of neural network, neural network, and speech recognition device utilizing neural network
US11837216B2 (en) Speech recognition using unspoken text and speech synthesis
EP0342630A2 (en) Speech recognition with speaker adaptation by learning
JPH07503559A (en) Voice training aid for children
JPH0962291A (en) Pattern adaptive method using describing length minimum reference
CN113450761A (en) Parallel speech synthesis method and device based on variational self-encoder
Sunny et al. Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms
JP3014177B2 (en) Speaker adaptive speech recognition device
JPH0772900A (en) Method of adding feelings to synthetic speech
CN117043857A (en) Method, apparatus and computer program product for English pronunciation assessment
JP2003524792A (en) Speech recognition system and method
Rani et al. Speech recognition using neural network
JPH09212197A (en) Neural network
Proroković et al. Adaptation of an EMG-based speech recognizer via meta-learning
JPH0962644A (en) Neural network
JPH09288492A (en) Framing system of standard pattern using information quantity reference
JP2980382B2 (en) Speaker adaptive speech recognition method and apparatus
Patil Deep learning based natural language processing for end to end speech translation
JP2655902B2 (en) Voice feature extraction device
Rojas et al. Statistics and neural networks
Spijkerman Using voice conversion and time-stretching to enhance the quality of dysarthric speech for automatic speech recognition
Luo et al. Speech prosody conversion using sequence generative adversarial nets with continuous wavelet transform F0 features
Sanders et al. Invert-Classify: Recovering Discrete Prosody Inputs for Text-To-Speech
Hsan A Study on Isolated-Word Myanmar Speech Recognition via Artificial Neural Networks
JPH04298794A (en) Voice data correction system