JP2996417B2 - Voice recognition method - Google Patents

Voice recognition method

Info

Publication number
JP2996417B2
JP2996417B2 JP3030434A JP3043491A JP2996417B2 JP 2996417 B2 JP2996417 B2 JP 2996417B2 JP 3030434 A JP3030434 A JP 3030434A JP 3043491 A JP3043491 A JP 3043491A JP 2996417 B2 JP2996417 B2 JP 2996417B2
Authority
JP
Japan
Prior art keywords
time
neural network
input
output
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3030434A
Other languages
Japanese (ja)
Other versions
JPH04269800A (en
Inventor
清明 相川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP3030434A priority Critical patent/JP2996417B2/en
Publication of JPH04269800A publication Critical patent/JPH04269800A/en
Application granted granted Critical
Publication of JP2996417B2 publication Critical patent/JP2996417B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】この発明は、入力が一方向に伝搬
して出力が得られる、いわゆるフィードフォワード型の
人工的神経回路、いわゆるニューラルネットを用いて音
声を認識する方法に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for recognizing speech by using a so-called feed-forward artificial neural circuit in which an input is propagated in one direction to obtain an output, that is, a so-called neural network.

【0002】[0002]

【従来の技術】人工的神経回路のうち多層パーセプトロ
ン型のものは神経素子にあたるセルの出力関数として微
分可能な非線形関数、いわゆるシグモイドを導入するこ
とによって、逆向き誤差伝搬法、いわゆるバックプロパ
ゲーションを用いた精度の高い学習ができるようになっ
た[D.E. Rumelhart, et al, “Learning Internal Repr
esentations by Error Propagation", Parallel Distri
buted Processing: Explorations in the Microstructu
re of Cognition. Vol. 1:Foundations. MIT Press(198
6)] 。多層パーセプトロン型のニューラルネットはフィ
ードフォワード型のニューラルネットと呼ばれ、音声認
識にも応用されてきた。従来から音声の特徴の時間的な
位置ずれに強いニューラルネットの構成法として時間遅
れニューラルネット( Time Delay Neural Network: TDN
N ) が提案されている [A.H.Waibel, et. al, “ Phone
me Recognition Using Time-Delay Neural Network," I
EEE Trans., ASSP Vol. 37, No.3, pp.328-339, (Mar,
1989)]。時間遅れニューラルネットの特徴はニューラル
ネット中の結合で時間方向に並んだ結合をタイド、すな
わち同じ結合係数とすることである。しかし、時間遅れ
ニューラルネットを含め、従来の音声認識のためのフィ
ードフォーワード型神経回路では入力フレーム長は固定
であり、線形非線形を問わず、学習に用いた音声と比較
して時間的に伸縮した未知入力音声に対する認識率は低
かった。部分的に時間伸縮を吸収するため、時間遅れニ
ューラルネットのタイド結合を時間的にいくつかに分割
した時間構造ニューラルネットが提案されているが、与
えられた一定区間の非線形伸縮を吸収する構造にはなっ
ていない〔小森、他、“時間構造を考慮したニューラル
ネットワークによる音韻認識, “日本音響学会平成2年
度春季研究発表会講演論文集、Vol.1, pp.157-158. (Ma
r, 1990)〕。
2. Description of the Related Art Among artificial neural circuits, a multilayer perceptron type uses a reverse error propagation method, so-called back propagation, by introducing a differentiable nonlinear function, so-called sigmoid, as an output function of a cell corresponding to a neural element. High-precision learning that has been used [DE Rumelhart, et al, “Learning Internal Repr.
esentations by Error Propagation ", Parallel Distri
buted Processing: Explorations in the Microstructu
re of Cognition. Vol. 1: Foundations. MIT Press (198
6)]. The multilayer perceptron type neural network is called a feedforward type neural network and has been applied to speech recognition. Conventionally, a time delay neural network (TDN) has been proposed as a method for constructing a neural network that is resistant to temporal displacement of speech features.
N) has been proposed [AHWaibel, et. Al, “Phone
me Recognition Using Time-Delay Neural Network, "I
EEE Trans., ASSP Vol. 37, No.3, pp.328-339, (Mar,
1989)]. The feature of the time-delay neural network is that the connections in the neural network arranged in the time direction are tied, that is, the same coupling coefficient. However, in conventional feedforward neural networks for speech recognition, including time-delay neural networks, the input frame length is fixed, and it expands and contracts in time compared to the speech used for learning, regardless of linear non-linearity. The recognition rate for the unknown input speech was low. In order to partially absorb time expansion and contraction, a time-structured neural network that divides the tied connection of a time-delay neural network into several parts in time has been proposed. [Komori et al., “Phonological Recognition Using Neural Networks Considering Time Structure,” Proc. Of the Acoustical Society of Japan Spring Meeting, Vol.1, pp.157-158. (Ma
r, 1990)].

【0003】[0003]

【発明が解決しようとする課題】音声は個人性や文脈、
発声速度により時間軸の局部的な伸縮、すなわち非線形
の伸縮を起こす。入力データ長は固定であるが優れたパ
ターン識別性能を持つフィードフォーワード型ニューラ
ルネットを用いて、この発明では様々な長さのデータを
時間軸の非線形伸縮を考慮して認識することにより高い
認識性能を実現しようとするものである。
[Problems to be solved by the invention] Speech is personality, context,
Depending on the utterance speed, local expansion and contraction of the time axis, that is, non-linear expansion and contraction is caused. Using a feed-forward type neural network with a fixed input data length but excellent pattern discrimination performance, the present invention realizes high recognition by recognizing data of various lengths in consideration of the non-linear expansion and contraction of the time axis. The goal is to achieve performance.

【0004】[0004]

【課題を解決するための手段】この発明においては、与
えられた音声区間に対し、あらかじめ定められた複数の
時間伸縮関数に従って複数の特徴パラメータ時系列の組
を生成し、これらをニューラルネットの入力とし、これ
らの特徴パラメータ時系列の組の中で対応する時点から
第1隠れ層の神経セルへの結合の組を同じ結合係数とな
るように制約条件をつけた、いわゆるタイド結合とする
ことにより、さまざまな時間伸縮のうちどれかの伸縮パ
ターンに適合すれば上位のセルが発火する構造を持た
せ、ニューラルネットにさまざまな時間伸縮された音声
を受け付けられる構造を持たせることを特徴とする。こ
のニューラルネットの構造を時間伸縮ニューラルネット
と呼ぶことにする。
According to the present invention, for a given voice section, a plurality of sets of feature parameter time series are generated in accordance with a plurality of predetermined time expansion / contraction functions, and these are input to a neural network. From the corresponding time point in the set of these feature parameter time series, a set of connections to the neural cell of the first hidden layer is a so-called tied connection in which constraints are set so as to have the same connection coefficient. It is characterized in that a higher-order cell is fired if it matches any of the expansion / contraction patterns of various time expansion / contraction, and that the neural network has a structure that can accept various time-expanded voices. This structure of the neural network will be referred to as a time-reducing neural network.

【0005】[0005]

【作用】この発明方法により時間伸縮ニューラルネット
は複数種類の時間伸縮した音声を受け付けられることが
できる構造を持つ。未知音声がこのニューラルネットに
入力されたとき複数の時間伸縮パターンのうち、どれか
1つまたは複数に対応する第1隠れ層のセルが発火し、
上位層でそれらが統合されるので、時間伸縮された音声
を認識できる。
According to the method of the present invention, a time-expandable neural network has a structure capable of receiving a plurality of types of time-expanded voices. When an unknown voice is input to the neural network, a cell of the first hidden layer corresponding to any one or more of a plurality of time expansion / contraction patterns is fired,
Since they are integrated in the upper layer, it is possible to recognize time-expanded speech.

【0006】[0006]

【実施例】以下、この発明の一実施例について図面によ
り説明する。図1にこの発明の一実施例を適用可能とし
た音素認識システムの一例を示す。このシステムの使用
に当っては、まず、スイッチSW1,SW2をともにb
側に倒してニューラルネットの学習を行う。ニューラル
ネット学習用の標準音声をマイクロホン1から入力し、
マイクロホン1の出力をA/D変換時のサンプリング周
波数の半分の帯域を持つフィルタ2に通し、そのフィル
タ2の出力をA/D変換部3でディジタル値に変換す
る。この実施例ではサンプリング周波数を12kHz とす
るが、サンプリング周波数はこれと異なっても良い。次
にA/D変換部3の出力はメルスケールバンドパスフィ
ルタ4に通されて複数の特徴時系列を得る。この実施例
では16チャネルのメルスケールバンドパスフィルタ群
を用いているが、チャネル数はこれと異なっても良い。
また、メルスケールバンドパスフィルタによる特徴抽出
の他にケプストラム係数等のスペクトルを表わすパラメ
ータを利用してもよい。メルスケールバンドパスフィル
タの設計には各種の方法が考えられるが、この実施例で
は256点の高速フーリエ変換いわゆるFFTにより得
られる128チャネルの出力からメルスケールに基づ
き、いくつかのチャネルの出力の和を求め、その対数を
取ったものを用いる。
An embodiment of the present invention will be described below with reference to the drawings. FIG. 1 shows an example of a phoneme recognition system to which an embodiment of the present invention can be applied. In using this system, first, both switches SW1 and SW2 are set to b
Flip to the side to learn the neural network. A standard voice for neural network learning is input from the microphone 1,
The output of the microphone 1 is passed through a filter 2 having a band half the sampling frequency at the time of A / D conversion, and the output of the filter 2 is converted into a digital value by an A / D converter 3. In this embodiment, the sampling frequency is 12 kHz, but the sampling frequency may be different. Next, the output of the A / D converter 3 is passed through a mel-scale bandpass filter 4 to obtain a plurality of characteristic time series. In this embodiment, a mel-scale band-pass filter group of 16 channels is used, but the number of channels may be different.
In addition to the feature extraction by the mel-scale bandpass filter, a parameter representing a spectrum such as a cepstrum coefficient may be used. Various methods are conceivable for the design of the mel-scale bandpass filter. In this embodiment, the sum of the outputs of several channels is obtained based on the mel scale from the output of 128 channels obtained by a 256-point fast Fourier transform so-called FFT. And use the logarithm.

【0007】次に音素ラベル6に蓄えられている標準音
声に対応した音素ラベルを音素位置決定部7を通過させ
て音素切り出し部5へ供給し、バンドパスフィルタ4の
出力の時系列から音素ラベルにもとづいて音素部分を切
り出す。この切り出した音素部分に対しあらかじめ決め
られた時間伸縮を時間伸縮部8で施して特徴パラメータ
の時系列の組を生成する。この実施例においては時間伸
縮関数を5種類用意した。これら関数yは時間xを0か
ら1に正規化した時間軸、音素位置決定部7により得ら
れた音素区間長をTとして y=Tx y=T(x±0.3 sin(πx)) y=T(x±0.15 sin(2πx)) により表わされる。これら時間伸縮関数yを図2中に線
21〜25に示す。時間伸縮関数としてはこれらの他に
単調増加するものなら何でも利用できる。1番目の式
(線21)は線形の伸縮関数に相当する。特徴パラメー
タ時系列としてはxが1/6, 3/6, 5/6 の3点に対応する
yの時点を求め、この3時点をそれぞれ中心とする前後
3フレームすなわちあわせて9フレームを用いる。例え
ば線21についてみると、図2中の斜線を施した9フレ
ームであり、線25は点線でくくった3フレームずつの
9フレームであり、この線25は時間軸を中心部に圧縮
した例である。時点数、フレーム数は増減させることが
できる。この実施例では1フレームは16チャネルのバ
ンドパスフィルタ4の出力を含み、時間伸縮関数の数は
5であるから、ニューラルネットの入力数は16×9×
5=720になる。ネットワーク生成部11では入力セ
ル数、隠れセル数、出力セル数、時間伸縮数、時間軸サ
ンプル点数、などに応じた時間伸縮ニューラルネットの
構造を作成する。
Next, the phoneme label corresponding to the standard speech stored in the phoneme label 6 is passed through the phoneme position determination unit 7 and supplied to the phoneme cutout unit 5, and the phoneme label is output from the time series of the output of the bandpass filter 4. Cut out the phoneme part based on. A predetermined time expansion and contraction is performed on the cut-out phoneme part by the time expansion and contraction unit 8 to generate a time-series set of feature parameters. In this embodiment, five types of time expansion / contraction functions are prepared. These functions y are represented by a time axis obtained by normalizing the time x from 0 to 1 and a phoneme section length obtained by the phoneme position determining unit 7 as T. y = Tx y = T (x ± 0.3 sin (πx)) y = T (x ± 0.15 sin (2πx)). These time expansion functions y are shown by lines 21 to 25 in FIG. Any other monotonically increasing function can be used as the time stretching function. The first equation (line 21) corresponds to a linear stretching function. As the characteristic parameter time series, the time points of y corresponding to three points where x is 1/6, 3/6, and 5/6 are obtained, and three frames before and after the three time points as the center, that is, nine frames in total are used. For example, looking at the line 21, there are 9 frames indicated by diagonal lines in FIG. 2, the line 25 is 9 frames of 3 frames each separated by a dotted line, and the line 25 is an example in which the time axis is compressed at the center. is there. The number of points and the number of frames can be increased or decreased. In this embodiment, since one frame includes the output of the band-pass filter 4 of 16 channels and the number of the time expansion / contraction functions is 5, the input number of the neural network is 16 × 9 ×
5 = 720. The network generation unit 11 creates a structure of a time-expanded neural network according to the number of input cells, the number of hidden cells, the number of output cells, the number of time expansion / contraction, the number of time axis sample points, and the like.

【0008】図2に音素認識部9を構成する時間伸縮ニ
ューラルネットの構造を示す。入力層26、第1隠れ層
27、第2隠れ層28、出力層29では神経セルが行列
状に並んでいる。行列中の列と呼ばれる縦向きの帯をこ
こではフレームと呼ぶことにする。層間の結合は下層の
フレーム群のすべてのセルと上層の1フレームのすべて
のセルとがすべて結合していることを表わしている。セ
ル群とセル群とがすべての組み合わせで結合しているこ
とをフルコネクションという。たとえば入力層26と第
1隠れ層27との間の左側の結合は、入力層26の3フ
レームと第1隠れ層27の1フレームとがフルコネクシ
ョンしていることを表わしている。タイド結合とは図2
の太い矢印で示した5つのフルコネクションの対応する
結合が強制的に同じ結合係数を持つように学習されるこ
とを表わしている。すなわち、5つの時間伸縮パターン
の対応する位置からの結合がタイドになっており、これ
が12個に多重化されている。第2層28ではこれらが
12個に多重化されている。第2隠れ層28の全セルの
出力を統合して出力セルが発火する。各セルの入出力関
数は標準的なシグモイドである。すなわち、あるセルj
に入力する下層のセルiの出力をpi 、結合係数をwji
とすると、セルjの出力qj は qj =1/〔1+exp(−(Σi jii +bias))〕 により求められる。Σi はセルjに入力するすべてのセ
ルiについての総和を示し、biasは直流バイアスを供給
する特別の入力セルからの結合である。タイド結合とな
っているセルへのバイアスはやはりタイドとなってい
る。なお、この実施例では4層のネットワークを用いて
いるが、第1隠れ層の出力をすべての出力セルとフルコ
ネクションさせた3層のネットワークを用いることもで
きる。
FIG. 2 shows the structure of a time-varying neural network constituting the phoneme recognition unit 9. In the input layer 26, the first hidden layer 27, the second hidden layer 28, and the output layer 29, nerve cells are arranged in a matrix. A vertical band called a column in a matrix is referred to as a frame here. The connection between the layers indicates that all the cells of the lower layer frame group and all the cells of the upper layer frame are all connected. The connection of the cell group and the cell group in all combinations is called full connection. For example, the connection on the left side between the input layer 26 and the first hidden layer 27 indicates that three frames of the input layer 26 and one frame of the first hidden layer 27 are fully connected. Figure 2
Indicate that the corresponding connections of the five full connections indicated by the thick arrows are forcibly learned to have the same coupling coefficient. That is, the connection from the corresponding position of the five time expansion / contraction patterns is tied, and these are multiplexed into twelve. In the second layer 28, these are multiplexed into 12 pieces. The outputs of all the cells of the second hidden layer 28 are integrated to fire the output cells. The input / output function of each cell is a standard sigmoid. That is, a certain cell j
An output p i of cell i of the lower layer to be input to the coupling coefficient w ji
Then, the output q j of the cell j is obtained by q j = 1 / [1 + exp (− (Σ i w ji p i + bias))]. Σ i indicates the sum for all cells i entering cell j, and bias is the coupling from the special input cell that supplies the DC bias. The bias to the tied cell is still tied. In this embodiment, a four-layer network is used. However, a three-layer network in which the output of the first hidden layer is fully connected to all output cells may be used.

【0009】図1中のニューラルネット学習部10では
時間伸縮部8で得られる学習用音素データを用い、音素
認識部9のネツトワークの結合係数を逆向き誤差伝搬
法、いわゆるバックプロパゲーションにより求める。タ
イド結合の学習に関してはタイドの関係にある結合の組
での結合係数修正量を平均して結合係数を更新すること
により行う。
The neural network learning unit 10 in FIG. 1 uses the phoneme data for learning obtained by the time expansion and contraction unit 8 to determine the network coupling coefficient of the phoneme recognition unit 9 by the backward error propagation method, so-called back propagation. . The learning of the tied combination is performed by updating the coupling coefficient by averaging the coupling coefficient correction amount in the tied coupling set.

【0010】このようにして音素認識部9に対する学習
を終了した後、未知音素を認識するにはスイッチSW1
とSW2をa側に切り替えて、マイクロホン1より音声
を入力し、学習時と同じ処理系でメルスケールバンドパ
スフィルタ4の出力を求め、音素位置決定部7で視察ま
たは音量などに基づき音素位置を決定し、その決定位置
から音素切り出し部5において音素を切り出す。その音
素について時間伸縮部8で学習時と同じ時間伸縮を行
い、特徴パラメータ時系列の組を求め、その出力を音素
認識部9のニューラルネットの入力として与え、出力層
29のどの音素に対応するセルが最も大きな出力を出し
たか、つまり発火したかで認識する。認識結果表示部1
2でその認識結果を表示する。
After the learning for the phoneme recognizing section 9 is completed in this way, the switch SW1 is used to recognize the unknown phoneme.
And SW2 are switched to the a side to input a sound from the microphone 1, obtain the output of the mel-scale bandpass filter 4 in the same processing system as in the learning, and determine the phoneme position based on the inspection or the volume by the phoneme position determination unit 7. The phoneme is cut out from the determined position in the phoneme cutout unit 5. The time expansion and contraction of the phoneme is performed by the time expansion and contraction unit 8 to obtain a set of feature parameter time series, and its output is given as an input to the neural network of the phoneme recognition unit 9. It recognizes whether the cell has produced the largest output, that is, has fired. Recognition result display section 1
2 displays the recognition result.

【0011】なお、この実施例は音素を認識する場合で
あるが、同じ構成で音節、単語などあらゆる長さの音声
を認識できる。ただし、用いるニューラルネットの各層
のセルの数は時間伸縮関数の組や入力する音声の長さに
応じて調整する必要がある。
In this embodiment, phonemes are recognized, but voices of any length, such as syllables and words, can be recognized with the same configuration. However, it is necessary to adjust the number of cells in each layer of the neural network to be used according to a set of time expansion / contraction functions and the length of input speech.

【0012】[0012]

【発明の効果】この発明の効果を6音素/b,d,g,m,n,N/
の認識実験により確認した。学習に用いた音素は使用頻
度の高い重要語5240単語の偶数番目より200個ず
つ抽出した。試験に用いた音素は学習音声と同一の話者
が文節に区切って発声した115文章から視察により抽
出した。従来法の延長線上にある方法として、与えられ
た区間の音声を線形伸縮してリサンプルし一定のフレー
ム数にしたデータを時間遅れニューラルネット(TDN
N)により認識する場合は、81.3%の音素認識率で
あったが、この発明の方法を用いた場合には認識率を8
4.5%まで向上できた。
According to the present invention, the effect of the present invention is expressed by six phonemes / b, d, g, m, n, N /
Was confirmed by a recognition experiment. The phonemes used for learning were extracted 200 times from the even-numbered 5240 frequently used important words. The phonemes used in the test were extracted by inspection from 115 sentences uttered by the same speaker as the learning speech in sections. As a method that is an extension of the conventional method, data obtained by linearly expanding and contracting speech in a given section and resampling the data into a fixed number of frames is converted to a time-delay neural network (TDN).
N), the phoneme recognition rate was 81.3%, but when the method of the present invention was used, the recognition rate was 8%.
It was improved to 4.5%.

【0013】以上述べたようにこの発明によれば複数の
伸縮パターンにより入力音声を時間的に伸縮させて入力
することにより高い認識率を得ることができる。
As described above, according to the present invention, a high recognition rate can be obtained by inputting an input voice while expanding and contracting it in time with a plurality of expansion and contraction patterns.

【図面の簡単な説明】[Brief description of the drawings]

【図1】この発明の一実施例が適用された音素認識シス
テムの一例を示すブロック図。
FIG. 1 is a block diagram showing an example of a phoneme recognition system to which an embodiment of the present invention has been applied.

【図2】この発明の要部である時間伸縮ニューラルネッ
トの構成例を示すブロック図。
FIG. 2 is a block diagram showing a configuration example of a time-varying neural network which is a main part of the present invention.

フロントページの続き (56)参考文献 特開 平2−77888(JP,A) 特開 平1−241668(JP,A) 特開 昭58−115487(JP,A) 日本音響学会平成3年度春季研究発表 会講演論文集▲I▼ 1−5−8「時間 伸縮ニューラルネットワークによる子音 認識」 p.19−20(平成3年3月27日 発行) 電子情報通信学会技術研究報告[音声 ]Vol.91,No.95,SP91−13, 「時間伸縮ニューラルネットワークを用 いた音声認識」 p.55−62(1991年6 月20日発行) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 531 G10L 3/00 539 JICSTファイル(JOIS)Continuation of the front page (56) References JP-A-2-77888 (JP, A) JP-A-1-241668 (JP, A) JP-A-58-115487 (JP, A) Spring Study of the Acoustical Society of Japan in 1991 Proceedings of the conference ▲ I ▼ 1-5-8 “Consonant recognition using time-expandable neural networks” p. 19-20 (issued March 27, 1991) IEICE Technical Report [Voice] Vol. 91, No. 95, SP91-13, “Speech Recognition Using Time-Expandable Neural Network” p. 55-62 (Issued June 20, 1991) (58) Fields investigated (Int. Cl. 6 , DB name) G10L 3/00 531 G10L 3/00 539 JICST file (JOIS)

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 入力が一方向に伝搬して出力が得られる
フィードフォワード型のニューラルネットを用いて音声
認識を行う方法において、与えられた音声に対して複数
の時間軸伸縮を行って得られる一定数時点の特徴パラメ
ータ時系列の組を入力とし、これらの特徴パラメータ時
系列の組の中で対応する時点の特徴パラメータから第1
隠れ層の神経セルへの結合の組を同じ結合係数となるよ
うに制約条件をつけたタイド結合とし、入力の1時点の
特徴パラメータから結合する第1隠れ層のセルを複数個
用意し、未知音声に対して上記の時間伸縮を行って得ら
れた特徴パラメータ時系列の組を上記ニューラルネット
に入力したときの出力セルの出力に基づき認識を行うこ
とを特徴とする音声認識方法。
1. A method for performing speech recognition using a feedforward neural network in which an input is propagated in one direction and an output is obtained, wherein a method is provided in which a given speech is expanded and contracted on a plurality of time axes. A set of feature parameter time series at a certain number of time points is input, and the first time from the feature parameter at the corresponding time point in the set of feature parameter time series
A set of connections to the neural cells of the hidden layer is a tied connection with constraints so as to have the same connection coefficient, and a plurality of cells of the first hidden layer to be connected from the feature parameters at one time point of the input are prepared. A speech recognition method characterized by performing recognition based on an output of an output cell when a set of feature parameter time series obtained by performing the above-described time expansion and contraction on speech is input to the neural network.
JP3030434A 1991-02-25 1991-02-25 Voice recognition method Expired - Fee Related JP2996417B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3030434A JP2996417B2 (en) 1991-02-25 1991-02-25 Voice recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3030434A JP2996417B2 (en) 1991-02-25 1991-02-25 Voice recognition method

Publications (2)

Publication Number Publication Date
JPH04269800A JPH04269800A (en) 1992-09-25
JP2996417B2 true JP2996417B2 (en) 1999-12-27

Family

ID=12303839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3030434A Expired - Fee Related JP2996417B2 (en) 1991-02-25 1991-02-25 Voice recognition method

Country Status (1)

Country Link
JP (1) JP2996417B2 (en)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
日本音響学会平成3年度春季研究発表会講演論文集▲I▼ 1−5−8「時間伸縮ニューラルネットワークによる子音認識」 p.19−20(平成3年3月27日発行)
電子情報通信学会技術研究報告[音声]Vol.91,No.95,SP91−13,「時間伸縮ニューラルネットワークを用いた音声認識」 p.55−62(1991年6月20日発行)

Also Published As

Publication number Publication date
JPH04269800A (en) 1992-09-25

Similar Documents

Publication Publication Date Title
US8126710B2 (en) Conservative training method for adapting a neural network of an automatic speech recognition device
JP2733955B2 (en) Adaptive speech recognition device
US5758021A (en) Speech recognition combining dynamic programming and neural network techniques
CN113053407A (en) Single-channel voice separation method and system for multiple speakers
JP3274133B2 (en) Method and apparatus for recognizing individual words of input speech
JP2996417B2 (en) Voice recognition method
JPH1165590A (en) Voice recognition dialing device
Alotaibi Comparative study of ANN and HMM to Arabic digits recognition systems
JP3315565B2 (en) Voice recognition device
JP2991752B2 (en) Voice recognition device
Bedworth et al. Comparison of neural and conventional classifiers on a speech recognition problem
JP2980382B2 (en) Speaker adaptive speech recognition method and apparatus
Dumitru et al. Vowel, Digit and Continuous Speech Recognition Based on Statistical, Neural and Hybrid Modelling by Using ASRS_RL
Tarcisio et al. Use of simulated data for robust telephone speech recognition
JP3532248B2 (en) Speech recognition device using learning speech pattern model
JPH08248975A (en) Standard pattern learning device and speech recognizer using the same device
JP3003353B2 (en) Task adaptive standard pattern learning device
Potamifis et al. Improving the robustness of noisy MFCC features using minimal recurrent neural networks
JPH03201161A (en) Sound recognizing device
JPH08211888A (en) Environment adaptive method and environment adaptive speech recognition device in speech recognition
JP3009962B2 (en) Voice recognition device
JPH06324696A (en) Device and method for speech recognition
JPH09319395A (en) Voice data learning device in discrete word voice recognition system
Beaufays et al. Porting channel robustness across languages.
JPH02248999A (en) Voice recognition system

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071029

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081029

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091029

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees