JPH10254477A - Phonemic boundary detector and speech recognition device - Google Patents

Phonemic boundary detector and speech recognition device

Info

Publication number
JPH10254477A
JPH10254477A JP9054594A JP5459497A JPH10254477A JP H10254477 A JPH10254477 A JP H10254477A JP 9054594 A JP9054594 A JP 9054594A JP 5459497 A JP5459497 A JP 5459497A JP H10254477 A JPH10254477 A JP H10254477A
Authority
JP
Japan
Prior art keywords
phoneme boundary
parameters
output
neuron group
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9054594A
Other languages
Japanese (ja)
Other versions
JP2996925B2 (en
Inventor
Yoshinori Kosaka
芳典 匂坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP9054594A priority Critical patent/JP2996925B2/en
Publication of JPH10254477A publication Critical patent/JPH10254477A/en
Application granted granted Critical
Publication of JP2996925B2 publication Critical patent/JP2996925B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To detect a phonemic boundary with high accuracy at high speed by generating plural parameters at the time delayed backwards by a prescribed unit time to plural parameters outputted from a first input neuron group and outputting them to an intermediate layer. SOLUTION: A delay element 54 delays ten parameters outputted from an intermediate neuron group 53 by a prescribed unit time and outputs them to an intermediate neuron group 52. In an output latch 55, they become a state neuron group in the forward module B(t-1) having ten units b1 -b10 , an output value outputted from the intermediate neuron group 53 at the time t-1 being the time of completion of operation of the forward module B(t-1) is transiently stored and outputted to a hidden neuron group D of a neural network at the right side for detecting the boundary of sound element. By using this network, the boundary of sound element is detected with high accuracy and at high speed.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、双方向リカレント
型ニューラルネットワーク(Bi-directional Recurrent
Neural Network;以下、BRNNという。)を用いて
音声信号波形信号の音素境界を検出する音素境界検出装
置、及び、上記音素境界検出装置を用いて音声認識する
音声認識装置に関する。本明細書で、音素と音素との境
界を音素境界という。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a bi-directional recurrent neural network.
Neural Network; hereinafter referred to as BRNN. ). In this specification, a boundary between phonemes is called a phoneme boundary.

【0002】[0002]

【従来の技術】従来、音声認識装置のための音響モデル
として音声信号の音声セグメントを用いて音声認識する
方法が、例えば、従来技術文献1「T.Svedsen et al.,
“On the automatic segmentaiton of speech signal
s",Proceedins of ICASSP-87,pp.77-80,1987年」、従来
技術文献2「A.Ljolje et al.,“Automatic segmentati
onand labelling of speech," Proceedings of ICASSP-
91,pp.473-476,1991年」、及び従来技術文献3「J.Glas
s et al.,“A probabilistic framework for feature-b
ased speech recognition",Proceedings of IGSLP-96,p
p.2277-2280,1996年」において開示されている。ここ
で、従来技術文献1及び2においては、音声認識におけ
る音響モデル作成や音声合成のための自動セグメンテー
ションの方法が開示され、従来技術文献3においては、
音声認識のための前処理について開示されている。
2. Description of the Related Art Conventionally, a method of recognizing speech using a speech segment of a speech signal as an acoustic model for a speech recognition apparatus is disclosed in, for example, prior art document 1 "T. Svedsen et al.,
“On the automatic segmentaiton of speech signal
s ", Proceedins of ICASSP-87, pp. 77-80, 1987", prior art document 2 "A. Ljolje et al.," Automatic segmentati
onand labelling of speech, "Proceedings of ICASSP-
91, pp. 473-476, 1991 "and prior art document 3" J. Glas
s et al., “A probabilistic framework for feature-b
ased speech recognition ", Proceedings of IGSLP-96, p
p.2277-2280, 1996 ". Here, in prior art documents 1 and 2, a method of automatic segmentation for creating an acoustic model and speech synthesis in speech recognition is disclosed. In prior art document 3,
A pre-processing for speech recognition is disclosed.

【0003】[0003]

【発明が解決しようとする課題】従来技術文献1におい
ては、隠れマルコフモデル(以下、HMMという。)
と、発声音声の書き下しテキストデータとを用いて、従
来技術文献2においてはさらに、継続時間長モデルを用
いて、音素ラベルの自動ラベリングを行っている。しか
しながら、HMMモデルは音素検出のために尤度が最大
となるように学習されているので、音素検出を行うとき
にその性能は比較的低く、処理時間が比較的長いという
問題点があった。また、従来技術文献2においては、継
続時間長モデルを用いて音素検出しているので、処理時
間が比較的長いという問題点があった。
In the prior art document 1, a hidden Markov model (hereinafter, referred to as HMM).
In the prior art document 2, the automatic labeling of the phoneme label is further performed by using the duration time model using the utterance voice newly written text data. However, since the HMM model has been learned so as to maximize the likelihood for phoneme detection, there is a problem that the performance of the phoneme detection is relatively low and the processing time is relatively long. Further, in the prior art document 2, since the phoneme is detected using the duration model, there is a problem that the processing time is relatively long.

【0004】本発明の第1の目的は以上の問題点を解決
し、従来例に比較して高い精度でかつ高速で音素境界を
検出することができ音素境界検出装置を提供することに
ある。
A first object of the present invention is to solve the above problems and to provide a phoneme boundary detection device capable of detecting a phoneme boundary with higher accuracy and at a higher speed as compared with the conventional example.

【0005】本発明の第2の目的は以上の問題点を解決
し、上記音素境界検出装置を用いて、従来例に比較して
高い音声認識率でかつ高速で音声認識することができる
音声認識装置を提供することにある。
A second object of the present invention is to solve the above-mentioned problems and to use the above-mentioned phoneme boundary detection device to perform speech recognition with a higher speech recognition rate and higher speed than in the conventional example. It is to provide a device.

【0006】[0006]

【課題を解決するための手段】本発明に係る請求項1記
載の音素境界検出装置は、入力層と、複数のユニットを
有し少なくとも1層の中間層と、1個のユニットを有し
音素境界検出確率を表す音素境界検出値を出力する出力
層とを備えた双方向リカレント型ニューラルネットワー
クを用いて、音声特徴パラメータ系列の音素境界を検出
する音素境界検出装置であって、上記入力層は、複数の
音声特徴パラメータを入力とし、複数のユニットを有す
る第1の入力ニューロングループと、前向きモジュール
と、後向きモジュールとを備え、上記前向きモジュール
は、複数の音声特徴パラメータに基づいて、時間的に前
向きの帰還接続を有して上記第1の入力ニューロングル
ープから出力される複数のパラメータよりも所定の単位
時間だけ遅延された時刻の複数のパラメータを生成して
上記中間層に出力する一方、上記後向きモジュールは、
複数の音声特徴パラメータに基づいて、時間的に後向き
の帰還接続を有して上記第1の入力ニューロングループ
から出力される複数のパラメータよりも所定の単位時間
だけ逆向きに遅延された時刻の複数のパラメータを生成
して上記中間層に出力することを特徴とする。
According to a first aspect of the present invention, there is provided a phoneme boundary detecting apparatus comprising: an input layer, at least one intermediate layer having a plurality of units, and a phoneme having one unit. An output layer that outputs a phoneme boundary detection value representing a boundary detection probability, using a bidirectional recurrent neural network, a phoneme boundary detection device that detects a phoneme boundary of a speech feature parameter sequence, wherein the input layer is A plurality of units, a first input neuron group having a plurality of units, a forward module, and a backward module, wherein the forward module is based on the plurality of voice feature parameters, A plurality of parameters having a forward feedback connection and being delayed by a predetermined unit time from a plurality of parameters output from the first input neuron group; While output to the intermediate layer to produce a plurality of parameters of time, the above-mentioned backward module,
Based on the plurality of speech feature parameters, a plurality of times delayed backward by a predetermined unit time from the plurality of parameters output from the first input neuron group having a temporally backward feedback connection. Is generated and output to the intermediate layer.

【0007】また、請求項2記載の音素境界検出装置
は、請求項1記載の音素境界検出装置において、上記前
向きモジュールは、複数の音声特徴パラメータを入力と
し、複数のユニットを有する第2の入力ニューロングル
ープと、第2の中間ニューロングループから所定の単位
時間だけ遅延されて出力される複数のパラメータを入力
とする、複数のユニットを有する第1の中間ニューロン
グループと、上記第2の入力ニューロングループから出
力される複数のパラメータと、上記第1の中間ニューロ
ングループから出力される複数のパラメータに対してそ
れぞれ各荷重係数を乗算してそれぞれ入力されるように
接続され、複数のユニットを有する第2の中間ニューロ
ングループとを備え、上記後向きモジュールは、複数の
音声特徴パラメータを入力とし、複数のユニットを有す
る第3の入力ニューロングループと、第4の中間ニュー
ロングループから所定の単位時間だけ逆向きに遅延され
て出力される複数のパラメータを入力とする、複数のユ
ニットを有する第3の中間ニューロングループと、上記
第3の入力ニューロングループから出力される複数のパ
ラメータと、上記第3の中間ニューロングループから出
力される複数のパラメータに対してそれぞれ各荷重係数
を乗算してそれぞれ入力されるように接続され、複数の
ユニットを有する第4の中間ニューロングループとを備
え、上記第2の中間ニューロングループから出力される
複数のパラメータに対してそれぞれ各荷重係数を乗算し
てそれぞれ上記中間層の複数のユニットに入力されるよ
うに接続され、上記第1の入力ニューロングループから
出力される複数のパラメータに対してそれぞれ各荷重係
数を乗算してそれぞれ上記中間層の複数のユニットに入
力されるように接続され、上記第4の中間ニューロング
ループから出力される複数のパラメータに対してそれぞ
れ各荷重係数を乗算してそれぞれ上記中間層の複数のユ
ニットに入力されるように接続され、上記中間層から出
力される複数のパラメータに対してそれぞれ各荷重係数
を乗算してそれぞれ上記出力層のユニットに入力される
ように接続されたことを特徴とする。
According to a second aspect of the present invention, there is provided the phoneme boundary detection device according to the first aspect, wherein the forward module receives a plurality of speech feature parameters as inputs and has a plurality of units. A neuron group, a first intermediate neuron group having a plurality of units and having a plurality of units input thereto with a plurality of parameters delayed and output by a predetermined unit time from the second intermediate neuron group, and the second input neuron group And a plurality of parameters output from the first intermediate neuron group are connected so as to be input by multiplying each of the plurality of parameters by a respective weighting factor. Wherein the backward module comprises a plurality of speech feature parameters. A third input neuron group having a plurality of units as inputs, and a plurality of units having as input a plurality of parameters output from the fourth intermediate neuron group after being delayed in a reverse direction by a predetermined unit time and output A third intermediate neuron group, a plurality of parameters output from the third input neuron group, and a plurality of parameters output from the third intermediate neuron group are multiplied by respective weighting factors, respectively. A fourth intermediate neuron group having a plurality of units connected to be input and multiplying a plurality of parameters output from the second intermediate neuron group by respective weighting factors. The first input menu is connected to be input to a plurality of units of the hidden layer. A plurality of parameters output from the fourth intermediate neuron group are connected to each other by multiplying each of the plurality of parameters output from the intermediate group by a respective weighting factor and input to each of the plurality of units in the intermediate layer. The parameters are each multiplied by each weighting factor and connected so as to be input to a plurality of units of the intermediate layer, respectively, and the plurality of parameters output from the intermediate layer are each multiplied by each weighting factor. Each is connected so as to be input to the unit of the output layer.

【0008】さらに、請求項3記載の音素境界検出装置
は、請求項1又は2記載の音素境界検出装置において、
上記出力層から出力される音素境界検出値が所定のしき
い値以上のときに音素境界として検出する第1の検出手
段をさらに備えたことを特徴とする。
Further, the phoneme boundary detection device according to claim 3 is the phoneme boundary detection device according to claim 1 or 2,
It is characterized by further comprising a first detecting means for detecting a phoneme boundary as a phoneme boundary when a phoneme boundary detection value output from the output layer is equal to or greater than a predetermined threshold.

【0009】さらに、請求項4記載の音素境界検出装置
は、請求項1又は2記載の音素境界検出装置において、
上記出力層から出力される音素境界検出値が所定のしき
い値以上であって、極大値となるときに音素境界として
検出する第2の検出手段をさらに備えたことを特徴とす
る。
Further, the phoneme boundary detection device according to claim 4 is the phoneme boundary detection device according to claim 1 or 2,
It is characterized by further comprising a second detecting means for detecting a phoneme boundary when the phoneme boundary detection value output from the output layer is equal to or greater than a predetermined threshold value and reaches a local maximum value.

【0010】さらに、請求項5記載の音素境界検出装置
は、請求項1又は2記載の音素境界検出装置において、
上記出力層から出力される音素境界検出値が、所定の第
1のしきい値以上であるときに第1の音素境界として検
出し、上記音素境界検出値が、上記第1のしきい値より
も小さい第2のしきい値以上であって上記第1のしきい
値未満でありかつ極大値となるときに第2の音素境界と
して検出する第3の検出手段をさらに備えたことを特徴
とする。
Further, the phoneme boundary detection device according to claim 5 is the phoneme boundary detection device according to claim 1 or 2,
When the detected phoneme boundary value output from the output layer is equal to or greater than a predetermined first threshold value, it is detected as a first phoneme boundary, and the detected phoneme boundary value is determined based on the first threshold value. And a third detecting means for detecting as a second phoneme boundary when the second phoneme boundary is not less than the second threshold value and smaller than the first threshold value and has a maximum value. I do.

【0011】また、請求項6記載の音素境界検出装置
は、請求項5記載の音素境界検出装置において、上記第
3の検出手段は、上記第1の音素境界として検出したも
のを所定の複数個毎に1個の音素境界を選択して第1の
音素境界として選択することを特徴とする。
According to a sixth aspect of the present invention, there is provided the phoneme boundary detecting device according to the fifth aspect, wherein the third detecting means detects a plurality of the phoneme boundaries detected as the first phoneme boundary. Each time, one phoneme boundary is selected and selected as a first phoneme boundary.

【0012】さらに、請求項7記載の音素境界検出装置
は、請求項5又は6記載の音素境界検出装置において、
上記第3の検出手段は、上記検出又は選択した第1の音
素境界と第2の音素境界との間で形成された経路のラテ
ィスに基づいて音素境界を検出することを特徴とする。
Further, the phoneme boundary detecting device according to claim 7 is the phoneme boundary detecting device according to claim 5 or 6,
The third detecting means detects a phoneme boundary based on a lattice of a path formed between the detected or selected first phoneme boundary and the second phoneme boundary.

【0013】本発明に係る請求項8記載の音声認識装置
は、入力された文字列からなる発声音声文の音声信号か
ら音声特徴パラメータを抽出する特徴抽出手段と、上記
特徴抽出手段によって抽出された音声特徴パラメータに
基づいて、請求項1乃至7のうちの1つに記載された音
素境界検出装置によって検出された音素境界と、所定の
音響モデルとを用いて、入力された文字列からなる発声
音声文の音声信号を音声認識する音声認識手段とを備え
たことを特徴とする。
According to a second aspect of the present invention, there is provided a speech recognition apparatus for extracting a speech feature parameter from a speech signal of an uttered speech sentence composed of an input character string, and the feature extraction means. An utterance composed of an input character string using a phoneme boundary detected by the phoneme boundary detection device according to one of claims 1 to 7 based on a voice feature parameter and a predetermined acoustic model. Voice recognition means for voice-recognizing a voice signal of a voice sentence.

【0014】[0014]

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図1は、本発明に係る一
実施形態である音素境界検出ニューラルネットワーク1
0を用いた音声認識装置のブロック図である。この実施
形態は、学習用音声データの特徴パラメータファイル3
1と、学習用音声データの音素境界値ファイル32とに
基づいて、所定の学習アリゴリズムを用いて、音素境界
検出ニューラルネットワークの初期モデル33を学習す
ることにより、音素境界検出ニューラルネットワーク1
0を得るニューラルネットワーク学習部20を備え、単
語レベル照合部5は、得られた音素境界検出ニューラル
ネットワーク10を用いて音素境界を検出しかつ音素を
検出して単語レベルの音声認識を行うことを特徴として
いる。従って、単語レベル照合部5は、音素境界検出装
置を含む。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 shows a phoneme boundary detection neural network 1 according to an embodiment of the present invention.
FIG. 3 is a block diagram of a speech recognition device using 0. In this embodiment, the feature parameter file 3 of the speech data for learning is used.
1 and a phoneme boundary value file 32 of the learning speech data, a predetermined learning algorithm is used to learn the initial model 33 of the phoneme boundary detection neural network.
The neural network learning unit 20 that obtains 0 is used. The word level matching unit 5 detects a phoneme boundary using the obtained phoneme boundary detection neural network 10 and detects a phoneme to perform word-level speech recognition. Features. Therefore, the word level matching unit 5 includes a phoneme boundary detection device.

【0015】本実施形態においては、音素境界の検出の
ために、図2に示すBRNNで構成される音素境界検出
ニューラルネットワーク10を用いた。一般のリカレン
ト型ニューラルネットワークが時間的に過去の情報を再
帰的に利用するのに対し、BRNNは過去及び未来の入
力情報が利用できることを特徴とする。
In this embodiment, a phoneme boundary detection neural network 10 composed of BRNN shown in FIG. 2 is used for detecting phoneme boundaries. While a general recurrent neural network recursively uses past information in time, BRNN is characterized in that past and future input information can be used.

【0016】図2において、入力はケプストラムなどの
音声特徴パラメータの情報を、出力は当該フレームの入
力が音素境界であるかどうかの情報(例えば、当該フレ
ームが音素境界である場合1,それ以外は0)を学習時
に教師信号として与える。すなわち、入力ニューロング
ループA(t)のユニット数は音声特徴パラメータの次
元数26個となり、出力のユニット数は1個となる。こ
こで、音声特徴パラメータは、12次元のメルケプスト
ラム係数(以下、MFCCという。)と、パワーと、そ
れぞれの1次回帰係数とを含む。以下、1つのファイル
の総フレーム数は複数L個とする。
In FIG. 2, the input is information on speech feature parameters such as cepstrum, and the output is information on whether the input of the frame is a phoneme boundary (for example, 1 if the frame is a phoneme boundary, 1 otherwise 0) is given as a teacher signal at the time of learning. That is, the number of units of the input neuron group A (t) is 26 in the number of dimensions of the speech feature parameter, and the number of output units is 1. Here, the voice feature parameters include a 12-dimensional mel-cepstral coefficient (hereinafter, referred to as MFCC), power, and respective first-order regression coefficients. Hereinafter, the total number of frames in one file is L.

【0017】図2において、前向きモジュールB(t−
1)は、26個の音声特徴パラメータに基づいて、時間
的に前向きの帰還接続を有して入力ニューロングループ
A(t)から出力される26個のパラメータよりも所定
の単位時間だけ遅延された時刻t−1の10個のパラメ
ータを生成して隠れニューロングループDに出力するモ
ジュールであり、(a)26個の音声特徴パラメータを
入力とする、26個のユニットa1乃至a26を有する入
力ニューロングループ51と、(b)中間ニューロング
ループ53から遅延素子54を介して出力される10個
のパラメータを入力とする、10個のユニットb1乃至
10を有する中間ニューロングループ52と、(c)入
力ニューロングループ51から出力される26個のパラ
メータと、中間ニューロングループ52から出力される
10個のパラメータに対してそれぞれ各荷重係数を乗算
してそれぞれ入力されるように接続される10個のユニ
ットb1乃至b10を有する中間ニューロングループ53
と、(d)中間ニューロングループ53から出力される
10個のパラメータを所定の単位時間だけ遅延させて中
間ニューロングループ52に出力する遅延素子54と、
(e)10個のユニットb1乃至b10を有する前向きモ
ジュールB(t−1)の状態ニューロングループとな
り、前向きモジュールB(t−1)の動作終了時の時刻
t−1における中間ニューロングループ53から出力さ
れる出力値を一時的に記憶して、すなわちラッチして、
音素境界検出のための右側のニューラルネットワークの
隠れニューロングループDに出力する出力ラッチ55と
を備える。
In FIG. 2, the forward-facing module B (t-
1) is delayed by a predetermined unit time from the 26 parameters output from the input neuron group A (t) with a temporally forward feedback connection based on the 26 speech feature parameters. A module that generates ten parameters at time t-1 and outputs them to the hidden neuron group D. (a) An input having 26 units a 1 to a 26 that receives 26 speech feature parameters as input A neuron group 51, (b) an intermediate neuron group 52 having ten units b 1 to b 10 which receives ten parameters output from the intermediate neuron group 53 via the delay element 54, and (c) 26) 26 parameters output from the input neuron group 51 and 10 parameters output from the intermediate neuron group 52 Are respectively multiplied by the respective weighting factors and are connected so as to be input respectively. The intermediate neuron group 53 having ten units b 1 to b 10
(D) a delay element 54 for delaying the ten parameters output from the intermediate neuron group 53 by a predetermined unit time and outputting the delayed parameter to the intermediate neuron group 52;
(E) The state neuron group of the forward module B (t-1) having ten units b 1 to b 10 becomes the intermediate neuron group 53 at time t−1 at the time when the operation of the forward module B (t−1) ends. The output value output from is temporarily stored, that is, latched,
An output latch 55 for outputting to the hidden neuron group D of the neural network on the right side for detecting a phoneme boundary.

【0018】以上のように構成された前向きモジュール
B(t−1)においては、中間ニューロングループ52
から中間ニューロングループ53及び遅延素子54を介
して中間ニューロングループ52へと帰還ループを形成
しており、繰り返し計算した後の前向きモジュールB
(t−1)の動作終了時の時刻t−1における中間ニュ
ーロングループ53から出力される出力パラメータベク
トルBm(m=1,2,…,t−1)は次式で表され
る。
In the forward module B (t-1) configured as described above, the intermediate neuron group 52
Form a feedback loop through the intermediate neuron group 53 and the delay element 54 to the intermediate neuron group 52.
The output parameter vector B m (m = 1, 2,..., T−1) output from the intermediate neuron group 53 at time t−1 at the end of the operation of (t−1) is represented by the following equation.

【0019】[0019]

【数1】Bm=WFA・Am+WFB・Bm-1 [Number 1] B m = W FA · A m + W FB · B m-1

【0020】ここで、出力値ベクトルBmは10個のパ
ラメータ値からなり、その初期値ベクトルB0は次式で
表される。
Here, the output value vector B m is composed of ten parameter values, and the initial value vector B 0 is represented by the following equation.

【数2】 (Equation 2)

【0021】また、入力ニューロングループ51への入
力パラメータベクトルAmは次式で表される。
Further, the input parameter vectors A m to the input neuron group 51 is expressed by the following equation.

【数3】 (Equation 3)

【0022】ここで、Om(1)は時刻mにおけるMF
CCの1次の値であり、Om(2)は時刻mにおけるM
FCCの2次の値であり、以下同様にして、Om(2
6)は時刻mにおけるMFCCの26次の値である。さ
らに、数1の荷重係数行列WFA,WFBはそれぞれ、10
×26の行列、10×10の行列であり、次式で表され
る。
Where O m (1) is the MF at time m
O m (2) is the primary value of CC at time m
This is a second order value of FCC, and similarly, O m (2
6) is the 26th-order MFCC value at time m. Further, the weighting factor matrices W FA and W FB of Equation 1 are 10
It is a 26 × 10 matrix and a 10 × 10 matrix, and is represented by the following equation.

【数4】 (Equation 4)

【数5】 (Equation 5)

【0023】さらに、図2において、後向きモジュール
C(t+1)は、26個の音声特徴パラメータに基づい
て、時間的に後向きの帰還接続を有して入力ニューロン
グループA(t)から出力される26個のパラメータよ
りも所定の単位時間だけ逆向きに遅延された時刻t+1
の10個のパラメータを生成して隠れニューロングルー
プDに出力するモジュールであって、(a)26個の音
声特徴パラメータを入力とする、26個のユニットa1
乃至a26を有する入力ニューロングループ61と、
(b)中間ニューロングループ63から逆向き遅延素子
64を介して出力される10個のパラメータを入力とす
る、10個のユニットc1乃至c10を有する中間ニュー
ロングループ62と、(c)入力ニューロングループ6
1から出力される26個のパラメータと、中間ニューロ
ングループ62から出力される10個のパラメータに対
してそれぞれ各荷重係数を乗算してそれぞれ入力される
ように接続される10個のユニットc1乃至c10を有す
る中間ニューロングループ63と、(d)中間ニューロ
ングループ63から出力される10個のパラメータを所
定の単位時間だけ遅延させて中間ニューロングループ6
2に出力する逆向き遅延素子64と、(e)10個のユ
ニットc1乃至c10を有する後向きモジュールC(t+
1)の状態ニューロングループとなり、後向きモジュー
ルC(t+1)の動作終了時の時刻t+1における中間
ニューロングループ63から出力される出力値を一時的
に記憶して、すなわちラッチして、音素境界検出のため
の右側のニューラルネットワークの隠れニューロングル
ープDに出力する出力ラッチ65とを備える。
Further, in FIG. 2, the backward module C (t + 1) has a temporally backward feedback connection and is output from the input neuron group A (t) based on the 26 speech feature parameters. Time t + 1 delayed backward by a predetermined unit time from the number of parameters
(A) 26 units a 1 which receive 26 speech feature parameters as inputs.
An input neuron group 61 having a to a 26 ,
(B) an intermediate neuron group 62 having ten units c 1 to c 10 which receives ten parameters output from the intermediate neuron group 63 via the reverse delay element 64; and (c) an input neuron Group 6
10 units c 1 to c 1 to 26 connected so that each of the 26 parameters output from 1 and the 10 parameters output from the intermediate neuron group 62 are multiplied by each weighting factor and input. The intermediate neuron group 63 having c 10 and the intermediate neuron group 6 (d) delaying ten parameters output from the intermediate neuron group 63 by a predetermined unit time.
Opposite to the delay element 64 to be output to 2, (e) backward with 10 units c 1 to c 10 module C (t +
The state neuron group of 1) is temporarily stored, that is, the output value output from the intermediate neuron group 63 at the time t + 1 at the end of the operation of the backward module C (t + 1) is latched to detect the phoneme boundary. And an output latch 65 for outputting to the hidden neuron group D of the neural network on the right side of.

【0024】以上のように構成された後向きモジュール
C(t+1)においては、中間ニューロングループ62
から中間ニューロングループ63及び逆向き遅延素子6
4を介して中間ニューロングループ62へと帰還ループ
を形成しており、繰り返し計算した後の後向きモジュー
ルC(t+1)の動作終了時の時刻t+1における中間
ニューロングループ63から出力される出力パラメータ
ベクトルCm(m=L,L−1,…,t+1)は次式で
表される。
In the backward module C (t + 1) configured as described above, the intermediate neuron group 62
To intermediate neuron group 63 and reverse delay element 6
4, a feedback loop is formed to the intermediate neuron group 62, and the output parameter vector C m output from the intermediate neuron group 63 at time t + 1 at the end of the operation of the backward module C (t + 1) after repeatedly calculating. (M = L, L-1,..., T + 1) is represented by the following equation.

【0025】[0025]

【数6】Cm=WBA・Am+WBC・Cm+1 [Formula 6] C m = W BA · A m + W BC · C m + 1

【0026】ここで、出力値ベクトルCmは10個のパ
ラメータ値からなり、その初期値ベクトルCL+1は次式
で表される。
Here, the output value vector C m is composed of ten parameter values, and the initial value vector C L + 1 is represented by the following equation.

【数7】 (Equation 7)

【0027】また、入力ニューロングループ61への入
力パラメータベクトルAmは数3と同様である。
Further, the input parameter vectors A m to the input neuron group 61 is the same as the number 3.

【0028】さらに、数6の荷重係数行列WBA,WBC
それぞれ、10×26の行列、10×10の行列であ
り、次式で表される。
Further, the weighting coefficient matrices W BA and W BC of Equation 6 are 10 × 26 matrices and 10 × 10 matrices, respectively, and are represented by the following equations.

【数8】 (Equation 8)

【数9】 (Equation 9)

【0029】さらに、図2に示すように、30個の隠れ
ユニットd1乃至d30を有する隠れニューロングループ
Dと、1個の出力ユニットe1を有し、音素境界検出確
率を表す音素境界検出値y(j)(j=1,2,…,
L)を出力する出力ニューロングループEとを備える。
状態ニューロングループB(t−1)のユニットb1
至b10の各出力パラメータに対してそれぞれ、各荷重係
数を乗算して隠れニューロングループDのユニットd1
乃至d30に入力されるように接続され、状態ニューロン
グループC(t+1)のユニットc1乃至c10の各出力
パラメータに対してそれぞれ、各荷重係数で乗算して隠
れニューロングループDのユニットd1乃至d30に入力
されるように接続され、26個のユニットa1乃至a26
を有する入力ニューロングループA(t)の各出力パラ
メータに対してそれぞれ各荷重係数で乗算されて隠れニ
ューロングループDのユニットd1乃至d30に入力され
るように接続される。さらに、隠れニューロングループ
Dのユニットd1乃至d30の各出力パラメータに対して
それぞれ各荷重係数で乗算されて出力ニューロングルー
プEの出力ユニットe1に入力されるように接続され
る。
Further, as shown in FIG. 2, a hidden neuron group D having 30 hidden units d 1 to d 30 and a phoneme boundary detection having one output unit e 1 and representing a phoneme boundary detection probability. Value y (j) (j = 1, 2,...,
L), and an output neuron group E for outputting L).
Each of the output parameters of the units b 1 to b 10 of the state neuron group B (t−1) is multiplied by each weighting factor, and the unit d 1 of the hidden neuron group D is multiplied.
To d 30, and the output parameters of the units c 1 to c 10 of the state neuron group C (t + 1) are respectively multiplied by the respective weighting factors, and the unit d 1 of the hidden neuron group D is multiplied. To d 30 , and connected to 26 units a 1 to a 26
Are multiplied by the respective weighting factors for the respective output parameters of the input neuron group A (t), and are input to the units d 1 to d 30 of the hidden neuron group D. The output parameters of the units d 1 to d 30 of the hidden neuron group D are respectively multiplied by the respective weighting coefficients, and the output parameters are connected to the output unit e 1 of the output neuron group E.

【0030】ここで、状態ニューロングループB(t−
1)及びC(t+1)並びに入力ニューロングループA
(t)から隠れニューロングループDを介して出力ニュ
ーロングループEまでの処理は、前向きモジュールB
(t−1)及び後向きモジュールC(t+1)の処理動
作の終了後に、学習処理又は演算処理が実行される。当
該ニューラルネットワークにおいては、入力層100
は、入力ニューロングループA(t)と、入力ニューロ
ングループA(t)の出力時刻tから単位時間だけ遅延
された時刻t−1における出力パラメータを計算する前
向きモジュールB(t−1)と、時刻tから単位時間だ
け逆向きに遅延されたt+1における出力パラメータを
計算する後向きモジュールC(t+1)を備え、中間層
200は隠れニューロングループDを備え、出力層30
0は出力ニューロングループEを備える。以上のように
構成された音素境界検出ニューラルネットワーク10
は、等価的には図3に示すように、前向きモジュールと
後向きモジュールが時間方向に接続され、入力層100
が入力ニューロングループA(t)と、前向きモジュー
ルB(t−1)と、後向きモジュールC(t+1)とか
らなるBRNNである。
Here, the state neuron group B (t−
1) and C (t + 1) and input neuron group A
The processing from (t) to the output neuron group E via the hidden neuron group D is performed by the forward module B
After the end of the processing operation of (t-1) and the backward module C (t + 1), a learning process or an arithmetic process is executed. In the neural network, the input layer 100
Is a forward module B (t−1) that calculates an output parameter at time t−1 delayed by a unit time from the output time t of the input neuron group A (t), a backward module C (t + 1) that computes output parameters at t + 1 delayed unit time backward from t, the hidden layer 200 comprises a hidden neuron group D, and the output layer 30
0 comprises the output neuron group E. The phoneme boundary detection neural network 10 configured as described above
Is equivalently, as shown in FIG. 3, the forward module and the backward module are connected in the time direction, and the input layer 100
Is a BRNN composed of an input neuron group A (t), a forward module B (t-1), and a backward module C (t + 1).

【0031】詳細後述する図4のニューラルネットワー
ク学習処理による学習後の音素境界検出ニューラルネッ
トワーク10に対して、特徴パラメータ時系列を入力し
たときの出力例を図10に示す。この例は、詳細後述す
る条件で学習したニューラルネットワーク10を用い
て、オープンデータに対して得られたものである。ここ
で、点線は教師信号(真値)であり、実線はニューラル
ネットワーク10の出力値(検出値)を示す。
FIG. 10 shows an output example when a feature parameter time series is input to the phoneme boundary detection neural network 10 after learning by the neural network learning process of FIG. This example is obtained for the open data using the neural network 10 learned under the conditions described later in detail. Here, a dotted line indicates a teacher signal (true value), and a solid line indicates an output value (detected value) of the neural network 10.

【0032】次いで、図10に示されるような出力結果
から、音素境界を検出するアルゴリズムとして、以下の
4通りの方法を考案した。 (a)方法1:しきい値hを越える出力値を音素境界候
補として判断する。すなわち、次式を満たす出力値を音
素境界候補として判断する。
Next, the following four methods were devised as algorithms for detecting a phoneme boundary from the output results as shown in FIG. (A) Method 1: An output value exceeding a threshold value h is determined as a phoneme boundary candidate. That is, an output value satisfying the following equation is determined as a phoneme boundary candidate.

【数10】y(j)≧h## EQU10 ## y (j) ≧ h

【0033】(b)方法2:しきい値hを越える出力値
から、極大値となるものを音素境界候補として選択す
る。すなわち、次式を満たす出力値を音素境界候補とし
て判断する。
(B) Method 2: From the output values exceeding the threshold value h, the one having the maximum value is selected as a phoneme boundary candidate. That is, an output value satisfying the following equation is determined as a phoneme boundary candidate.

【数11】y(j)≧hかつy(j)>y(j−1)か
つy(j)>y(j+1)
Y (j) ≧ h and y (j)> y (j−1) and y (j)> y (j + 1)

【0034】(c)方法3:2種類のしきい値l,h
(>l)を用いて、第2のしきい値lから第1のしきい
値hまでの極大値となるもの及び、第1のしきい値hを
越えるもの全てを選択する。すなわち、
(C) Method 3: Two types of thresholds l and h
By using (> l), all those having the local maximum values from the second threshold value l to the first threshold value h and those exceeding the first threshold value h are selected. That is,

【数12】y(j)≧h であるときは第1の音素境界候補として選択し、If y (j) ≧ h, select as a first phoneme boundary candidate,

【数13】l≦y(j)<hかつy(j)>y(j−
1)かつy(j)>y(j+1) であるときは第2の音素境界候補として選択する。 (d)方法4:方法3において、連続する2つの第1の
音素境界をk個毎に1つのみ第1の音素境界として選択
する。
(13) l ≦ y (j) <h and y (j)> y (j−
1) If y (j)> y (j + 1), select as the second phoneme boundary candidate. (D) Method 4: In method 3, only two continuous first phoneme boundaries are selected as the first phoneme boundaries per k units.

【0035】方法1及び2は、この処理のみを用いて、
音素の境界を一意に決定する方法である。方法3や方法
4は、まず、これらの処理で可能性のある候補をなるべ
く多く残し、次に、別処理により音素候補を決定するた
めの方法である。例えば、第1のしきい値hを越えて検
出された候補を第1の音素境界候補とし、第2のしきい
値lから第1のしきい値hの間で検出された候補を第2
の音素境界候補とすると、第1の音素境界間に存在する
全ての候補に対して、図11に示すようなラティスが作
成できる。このとき、HMMやセグメントモデルによる
音素モデルなどの音響モデルを用いて、ラティスを再評
価すれば最適音素経路が決定でき、これにより最終的な
音素境界を決定することができる。
Methods 1 and 2 use only this process,
This is a method for uniquely determining the boundaries of phonemes. The methods 3 and 4 are methods for first leaving as many possible candidates as possible in these processes, and then determining phoneme candidates by another process. For example, a candidate detected beyond the first threshold value h is defined as a first phoneme boundary candidate, and a candidate detected between the second threshold value l and the first threshold value h is defined as a second phoneme boundary candidate.
, A lattice as shown in FIG. 11 can be created for all candidates existing between the first phoneme boundaries. At this time, the optimal phoneme path can be determined by re-evaluating the lattice using an acoustic model such as an HMM or a phoneme model based on a segment model, and thereby a final phoneme boundary can be determined.

【0036】なお、図1において、A/D変換器2と、
特徴抽出部3と、単語レベル照合部5と、文レベル照合
部6と、ニューラルネットワーク学習部20とは、例え
ば、デジタル計算機などの演算制御装置で構成され、バ
ッファメモリ4は例えばハードディスクメモリで構成さ
れ、学習用音声データの特徴パラメータファイル31
と、学習用音声データの音素境界値ファイル32と、音
素境界検出ニューラルネットワークの初期モデル33
と、音素境界検出ニューラルネットワーク10と、単語
モデル7、文法規則8及び意味的規則9とは例えばハー
ドディスクメモリに記憶される。
In FIG. 1, the A / D converter 2 and
The feature extracting unit 3, the word level matching unit 5, the sentence level matching unit 6, and the neural network learning unit 20 are configured by, for example, an arithmetic control device such as a digital computer, and the buffer memory 4 is configured by, for example, a hard disk memory. And the characteristic parameter file 31 of the voice data for learning.
And a phoneme boundary value file 32 of learning speech data, and an initial model 33 of a phoneme boundary detection neural network.
The phoneme boundary detection neural network 10, the word model 7, the grammar rules 8, and the semantic rules 9 are stored in, for example, a hard disk memory.

【0037】図4は、図1のニューラルネットワーク学
習部20によって実行されるニューラルネットワーク学
習処理を示すフローチャートである。図4において、ま
ず。ステップS1で特徴パラメータファイル31と、上
記特徴パラメータファイルに対応する音素境界値ファイ
ル32と、音素境界検出ニューラルネットワークの初期
モデル33とを読み込む。次いで、ステップS2で、音
素境界値ファイル32の総発声数に対応する特徴パラメ
ータファイル31のファイル数がパラメータNに設定さ
れ、学習の繰り返し数をパラメータIに設定する。そし
て、ステップS3でパラメータiを1に初期化し、ステ
ップS4でパラメータnを1に初期化する。ステップS
5でnファイル目の総フレーム数をパラメータLnに設
定する。次いで、ステップS6でLnフレームの特徴パ
ラメータを用いて、前向きモジュールの状態ニューロン
グループB(t−1)、後向きモジュールの状態ニュー
ロングループC(t+1)、及び出力ニューロングルー
プEの出力値(それぞれLnグループ)を計算し、ニュ
ーラルネットワークの荷重係数更新パラメータを演算す
る。
FIG. 4 is a flowchart showing a neural network learning process executed by the neural network learning section 20 of FIG. In FIG. In step S1, a feature parameter file 31, a phoneme boundary value file 32 corresponding to the feature parameter file, and an initial model 33 of the phoneme boundary detection neural network are read. Next, in step S2, the number of feature parameter files 31 corresponding to the total number of utterances in the phoneme boundary value file 32 is set as the parameter N, and the number of learning repetitions is set as the parameter I. Then, the parameter i is initialized to 1 in step S3, and the parameter n is initialized to 1 in step S4. Step S
In step 5, the total number of frames of the n-th file is set in the parameter Ln. Next, in step S6, using the feature parameters of the Ln frame, the output values of the state neuron group B (t−1) of the forward module, the state neuron group C (t + 1) of the backward module, and the output neuron group E (each of the Ln group ) Is calculated, and the weight coefficient update parameter of the neural network is calculated.

【0038】そして、ステップS7でパラメータnを1
だけインクリメントした後、ステップS8でn>Nか否
かが判断され、n≦NのときはステップS5に戻り、上
記の処理を繰り返す。ステップS8でn>Nのときは、
ステップS9でニューラルネットワークの荷重係数の更
新処理を実行して、ステップS10でパラメータiを1
だけインクリメントした後、ステップS11でi>Iか
否かが判断される。ここで、i≦Iのときは所定の繰り
返し数に達したと判断し、ステップS12で得られた音
素境界検出ニューラルネットワーク10をメモリに記憶
して、当該処理を終了する。
Then, in step S7, the parameter n is set to 1
After incrementing by only N, it is determined in step S8 whether n> N. If n ≦ N, the process returns to step S5 to repeat the above processing. When n> N in step S8,
In step S9, a process of updating the weight coefficient of the neural network is executed, and in step S10, the parameter i is set to 1
After incrementing by only i, it is determined in step S11 whether i> I. Here, when i ≦ I, it is determined that the predetermined number of repetitions has been reached, the phoneme boundary detection neural network 10 obtained in step S12 is stored in the memory, and the process ends.

【0039】図5は、図1の単語照合部によって実行さ
れる単語照合処理を示すフローチャートである。図5に
おいて、まず、ステップS21でバッファメモリ4に記
憶された特徴パラメータと、音素境界検出ニューラルネ
ットワーク10を読み込む。次いで、ステップS22で
特徴パラメータに基づいて単語モデル7に対する対数尤
度Pwを計算する。さらに、ステップS23で特徴パラ
メータに基づいて、特徴パラメータの総フレーム数L個
の各フレームに対するニューラルネットワーク10の出
力値y(j),j=1,2,…,Lを計算する。そし
て、ステップS24で出力値y(j)の対数値を計算し
て、対数尤度
FIG. 5 is a flowchart showing a word matching process executed by the word matching unit of FIG. In FIG. 5, first, the feature parameters stored in the buffer memory 4 in step S21 and the phoneme boundary detection neural network 10 are read. Next, in step S22, the log likelihood Pw for the word model 7 is calculated based on the feature parameters. Further, in step S23, based on the characteristic parameters, the output values y (j), j = 1, 2,..., L of the neural network 10 for each of the total L frames of the characteristic parameters are calculated. Then, the log value of the output value y (j) is calculated in step S24, and the log likelihood is calculated.

【数14】 を得る。そしてステップS25で音素境界検出処理を実
行した後、計算した対数尤度Pw,Psの重み付け和P
totalを次式を用いて計算し、
[Equation 14] Get. Then, after performing the phoneme boundary detection processing in step S25, the weighted sum P of the calculated log likelihoods Pw and Ps is calculated.
total is calculated using the following formula,

【数15】Ptotal=kPw+(1−k)Ps 単語レベルの照合処理を実行する。すなわち、計算され
た尤度Ptotalに基づいて最大の尤度を有する候補単語
を認識結果として文レベル照合部6に出力して、当該単
語レベル照合処理を終了する。
## EQU15 ## P total = kPw + (1−k) Ps Performs word level collation processing. That is, the candidate word having the maximum likelihood is output to the sentence level matching unit 6 as a recognition result based on the calculated likelihood P total , and the word level matching processing ends.

【0040】図6は、図5の単語照合処理におけるサブ
ルーチンである音素境界検出処理(方法1)(ステップ
S25)のフローチャートである。図6において、各フ
レームj毎にLまで、音素境界検出ニューラルネットワ
ーク10の出力値y(j)について、
FIG. 6 is a flowchart of a phoneme boundary detection process (method 1) (step S25) which is a subroutine in the word matching process of FIG. In FIG. 6, the output value y (j) of the phoneme boundary detection neural network 10 up to L for each frame j is:

【数16】y(j)≧h であるか否か判断され、YESのとき音素境界を判断す
る一方、NOのとき音素内と判断する。
It is determined whether y (j) ≧ h. If YES, the phoneme boundary is determined, and if NO, it is determined to be within the phoneme.

【0041】図7は、図5の単語照合処理におけるサブ
ルーチンである音素境界検出処理(方法2)(ステップ
S25)のフローチャートである。図7においては、各
フレームj毎にLまで、音素境界検出ニューラルネット
ワーク10の出力値y(j)について、
FIG. 7 is a flowchart of a phoneme boundary detection process (method 2) (step S25) which is a subroutine in the word matching process of FIG. In FIG. 7, the output value y (j) of the phoneme boundary detection neural network 10 up to L for each frame j is

【数17】y(j)≧hかつy(j)>y(j−1)か
つy(j)>y(j+1) であるか否か判断され、YESのとき音素境界を判断す
る一方、NOのとき音素内と判断する。
It is determined whether y (j) ≧ h and y (j)> y (j−1) and y (j)> y (j + 1). If YES, the phoneme boundary is determined. When the result is NO, it is determined to be within a phoneme.

【0042】図8は、図5の単語照合処理におけるサブ
ルーチンである音素境界検出処理(方法3)(ステップ
S25)のフローチャートである。図8においては、各
フレームj毎にLまで、音素境界検出ニューラルネット
ワーク10の出力値y(j)について、
FIG. 8 is a flowchart of a phoneme boundary detection process (method 3) (step S25), which is a subroutine in the word matching process of FIG. In FIG. 8, the output value y (j) of the phoneme boundary detection neural network 10 up to L for each frame j is

【数18】y(j)≧h であるときは第1の音素境界と判断し、When y (j) ≧ h, it is determined to be the first phoneme boundary,

【数19】l≦y(j)<hかつy(j)>y(j−
1)かつy(j)>y(j+1) であるときは第2の音素境界と判断し、これら以外のと
きは、音素内と判断する。
[Equation 19] l ≦ y (j) <h and y (j)> y (j−
1) If y (j)> y (j + 1), it is determined to be the second phoneme boundary; otherwise, it is determined to be within the phoneme.

【0043】図9は、図5の単語照合処理におけるサブ
ルーチンである音素境界検出処理(方法4)(ステップ
S25)のフローチャートである。図9において同様の
処理については同一のステップ番号を付している。図9
のフローチャートは、図8に比較して、ステップS57
の前段に、ステップS58が挿入され、ステップS58
では、連続する2つの第1の音素境界をk個毎に1つの
みを第1の音素境界として間引いて選択することを特徴
とする。
FIG. 9 is a flowchart of a phoneme boundary detection process (method 4) (step S25), which is a subroutine in the word matching process of FIG. In FIG. 9, the same processes are denoted by the same step numbers. FIG.
The flowchart of the step S57 is different from that of FIG.
Is inserted before the step S58.
Is characterized in that only two continuous first phoneme boundaries are thinned out and selected as the first phoneme boundaries for every k units.

【0044】次いで、図1に示す自由発話音声認識装置
の構成及び動作について説明する。図1において、文字
列からなる発声音声文である話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、A/D変
換部2に入力される。A/D変換部2は、入力された音
声信号を所定のサンプリング周波数でA/D変換した
後、変換後のデジタルデータを特徴抽出部3に出力す
る。次いで、特徴抽出部3は、入力される音声信号のデ
ジタルデータに対して、例えばLPC分析を実行し、1
0次元のMFCCとパワーとを含む11次元の特徴パラ
メータを抽出する。抽出された特徴パラメータの時系列
はバッファメモリ4を介して単語レベル照合部5に入力
される。
Next, the configuration and operation of the free speech recognition apparatus shown in FIG. 1 will be described. In FIG. 1, a speaker's uttered voice, which is a uttered voice sentence composed of a character string, is input to a microphone 1 and converted into a voice signal, and then input to an A / D converter 2. The A / D converter 2 performs A / D conversion on the input audio signal at a predetermined sampling frequency, and outputs the converted digital data to the feature extractor 3. Next, the feature extraction unit 3 performs, for example, LPC analysis on the digital data of the input audio signal,
An 11-dimensional feature parameter including a 0-dimensional MFCC and power is extracted. The time series of the extracted feature parameters is input to the word level matching unit 5 via the buffer memory 4.

【0045】単語モデルの生成においては、所定のモデ
ルパラメータに基づいて、尤度最大の単語モデル生成処
理を以下の如く実行して単語モデルを生成する。すなわ
ち、上記モデルパラメータにおける同一の単語である複
数N個の単語の音響的特徴量から最大尤度を有する当該
単語の代表の音素ラベルのサンプルを検出し、検出され
た代表の音素ラベルのサンプルと、複数N個の単語の音
素ラベルのサンプルとの時間的な対応付けを動的時間整
合法により行って時間的に正規化を行い、時間的に正規
化された代表の音素ラベルのサンプルと、上記複数N個
の音素ラベルのサンプルとを各単語毎に混合することに
より、単語毎に音響的特徴量を含む単語モデルを生成し
て、単語モデルメモリ7に格納する。要約すれば、生成
された混合分布の確率的音素モデルに基づいて、上記テ
キストの各単語毎の音声特徴パラメータを含む単語モデ
ルを生成する。
In generating a word model, a word model is generated by executing a word model generation process with the maximum likelihood based on predetermined model parameters as follows. That is, a sample of a representative phoneme label of the word having the maximum likelihood is detected from the acoustic features of a plurality of N words that are the same word in the model parameters, and a sample of the detected representative phoneme label is detected. , Temporally normalizing the phoneme label samples of a plurality of N words with the phoneme label samples by the dynamic time matching method, and temporally normalized representative phoneme label samples; By mixing the plurality of N phoneme label samples with each word, a word model including an acoustic feature for each word is generated and stored in the word model memory 7. In short, a word model including a speech feature parameter for each word of the text is generated based on the generated stochastic phoneme model of the mixture distribution.

【0046】単語レベル照合部5に接続される単語モデ
ルメモリ7内の単語モデルは、前後の音素環境を連結す
る環境依存型音素モデルが縦続に連結されてなり、かつ
縦続に連結された複数の状態を含んで構成され、各状態
はそれぞれ以下の情報を有する。 (a)状態番号、(b)11次元の音響的特徴量の平均
値、(c)11次元の音響的特徴量の分散、(d)継続
時間、(e)各クラスタの重み、及び、(f)音素ラベ
ルに対応する音素コード。
The word model in the word model memory 7 connected to the word level collating unit 5 is composed of a plurality of cascade-connected environment-dependent phoneme models for connecting preceding and succeeding phoneme environments. Each state includes the following information. (A) state number, (b) average value of 11-dimensional acoustic features, (c) variance of 11-dimensional acoustic features, (d) duration, (e) weight of each cluster, and ( f) Phoneme code corresponding to phoneme label.

【0047】単語レベル照合部5と文レベル照合部6と
は音声認識回路部を構成し、文レベル照合部6には、品
詞や単語の出力確率及び品詞間や単語間の遷移確率など
を含み文法規則メモリ8に記憶された文法規則と、シソ
ーラスの出力確率や対話管理規則を含み意味的規則メモ
リ9に記憶された意味的規則とが連結される。単語レベ
ル照合部5は、図5の単語レベル照合処理を実行するこ
とにより、単語レベルの音声認識を行う。すなわち、単
語レベル照合部5は、入力された音響的特徴量の時系列
に基づいて、上記メモリ7内の単語モデルと照合して少
なくとも1つの音声認識候補単語を検出し、検出された
候補単語に対して尤度を計算し、かつ、上述の音素境界
検出処理を実行して音素境界を検出して、最大の尤度を
有する候補単語を認識結果の単語として文レベル照合部
6に出力する。さらに、文レベル照合部6は入力された
認識結果の単語に基づいて、上記文法規則と意味的規則
とを含む言語モデルを参照して文レベルの照合処理を実
行することにより、最終的な音声認識結果の文を出力す
る。もし、言語モデルで適合受理されない単語があれ
ば、その情報を単語レベル照合部5に帰還して再度単語
レベルの照合を実行する。単語レベル照合部5と文レベ
ル照合部6は、複数の音素からなる単語を順次連接して
いくことにより、自由発話の連続音声の認識を行い、そ
の音声認識結果データを出力する。
The word level collating unit 5 and the sentence level collating unit 6 constitute a speech recognition circuit unit. The sentence level collating unit 6 includes the output probabilities of parts of speech and words, the transition probabilities between parts of speech and between words, and the like. The grammar rules stored in the grammar rule memory 8 are linked to the semantic rules stored in the semantic rule memory 9 including the output probabilities of the thesaurus and the dialog management rules. The word level collating unit 5 performs word level speech recognition by executing the word level collation processing of FIG. That is, the word level collating unit 5 detects at least one speech recognition candidate word by collating with the word model in the memory 7 based on the time series of the input acoustic feature amounts, and detects the detected candidate word. , And executes the above-described phoneme boundary detection processing to detect phoneme boundaries, and outputs the candidate word having the maximum likelihood to the sentence level matching unit 6 as a recognition result word. . Further, the sentence level matching unit 6 executes a sentence level matching process by referring to a language model including the grammatical rule and the semantic rule based on the input word of the recognition result, thereby obtaining a final speech. Output sentence of recognition result. If there is a word that is not accepted by the language model, the information is returned to the word level collating unit 5 and the word level collation is executed again. The word level collating unit 5 and the sentence level collating unit 6 recognize a continuous speech of a free utterance by sequentially connecting words composed of a plurality of phonemes, and output the speech recognition result data.

【0048】[0048]

【実施例】本発明者は、本特許出願人が所有する音声デ
ータベースを用いて、(1)方法2とHMMに基づく音
素認識により得られる音素境界を音素検出結果とするも
のとの比較、(2)方法2乃至4の比較の2通りの性能
評価を行なった。ニューラルネットワーク10の入力と
して、フレーム長25.6msec、フレーム周期10
msecで分析した26次元のMFCC(12次元MF
CC、パワーとそれぞれの1次回帰係数)を用いた。出
力は、データベース中の音素ラベル情報を利用し、当該
フレームが音素境界である場合1,音素境界に隣接して
いる場合0.5、それ以外は0として与えた。ニューラ
ルネットワーク10における前向き及び後向きモジュー
ルのユニット数はそれぞれ10個とし、隠れモジュール
Dのユニット数は30個とし、学習の繰り返し回数Iは
1,000回とした。このときのニューラルネットワー
ク10の荷重係数の総数は2,181個である。学習デ
ータは462話者(3,696文章)、音素境界総数約
14万個(約110万フレーム)、評価データは学習デ
ータとは別の168話者(1,344文章)、音素境界
総数50,318個(約41万フレーム)である。ニュ
ーラルネットワーク10の真値と検出値との間の平均2
乗誤差は、学習データ及び評価データに対して、それぞ
れ、0.0604,0.0621であった。また、方法
2乃至4におけるしきい値の値は、実験的にh=0.
4,l=0.1とした。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The present inventor has compared (1) Method 2 with a phoneme boundary obtained by phoneme recognition based on HMM as a phoneme detection result using a speech database owned by the present applicant. 2) Two types of performance evaluations of the methods 2 to 4 were performed. As input to the neural network 10, a frame length of 25.6 msec and a frame period of 10
26-dimensional MFCC (12-dimensional MF
CC, power and their respective first-order regression coefficients) were used. The output is given using phoneme label information in the database, and is given as 1 when the frame is a phoneme boundary, 0.5 when the frame is adjacent to the phoneme boundary, and 0 otherwise. The number of units of the forward and backward modules in the neural network 10 was set to 10, the number of units of the hidden module D was set to 30, and the number of times I of learning was set to 1,000. At this time, the total number of weighting factors of the neural network 10 is 2,181. The training data is 462 speakers (3,696 sentences), the total number of phoneme boundaries is about 140,000 (about 1.1 million frames), and the evaluation data is 168 speakers (1,344 sentences) different from the learning data, and the total number of phoneme boundaries is 50. , 318 (about 410,000 frames). Average 2 between true value and detected value of neural network 10
The squared errors were 0.0604 and 0.0621 for the learning data and the evaluation data, respectively. The threshold value in methods 2 to 4 is experimentally h = 0.
4, 1 = 0.1.

【0049】次いで、評価方法について述べる。目視に
よりラベル付けされた音素境界に対して、所定の±Mフ
レーム以内のマージンの中に、音素境界の検出した結果
が含まれる場合は、正解(以下、正解数をHとする。)
とし、含まれていなかった場合は、脱落(以下、脱落数
をDとする。)とした。音素の湧き出しは、挿入(以
下、挿入数をIとする。)とした。また、所定の±Mフ
レームの中に複数の検出候補が含まれていた場合、1つ
を除いて挿入とした。このとき、正解率及びアキュラシ
ーは次式で定義される。
Next, an evaluation method will be described. If the result of the detection of the phoneme boundary is included in the margin within a predetermined ± M frame with respect to the phoneme boundary visually labeled, the correct answer (hereinafter, the number of correct answers is H).
If it was not included, it was determined as dropout (hereinafter, the dropout number is D). The source of phonemes was inserted (hereinafter, the number of insertions is referred to as I). When a plurality of detection candidates are included in a predetermined ± M frame, one is excluded except for one. At this time, the accuracy rate and accuracy are defined by the following equations.

【0050】[0050]

【数20】正解率=H/N×100(%)[Equation 20] Correct answer rate = H / N × 100 (%)

【数21】 アキュラシー=(N−D−I)/N×100(%)[Mathematical formula-see original document] Accuracy = (N-D-I) / N * 100 (%)

【0051】本実施例においては、上記2つの尺度で音
素境界の検出性能を評価した。ここで、Nは、目視によ
りラベル付けされた音素の総数であり、
In this embodiment, the performance of detecting a phoneme boundary was evaluated using the above two measures. Where N is the total number of phonemes visually labeled,

【数22】N=H+D である。## EQU22 ## N = H + D.

【0052】まず、方法2とHMMに基づく結果との比
較について述べる。M=0,1,2に対する方法2によ
る検出結果を表1に示す。本実施形態の音素境界検出ニ
ューラルネットワーク10の性能を比較するために、H
MMに基づく音素バイグラムを用いた音素認識を行な
い、この結果得られた音素境界を音素境界としたものと
比較した。ここで、音素境界(時間)情報のみに着目
し、認識結果は考慮してない。音素ラベル数61音素に
対して、3状態各5混合の環境非依存モデルを作成した
場合の結果を表2に、総状態数600各3混合の環境依
存モデル(例えば、従来技術文献4「鷹見淳一ほか,
“逐次状態分割法による隠れマルコフ網の自動生成”,
電子情報通信学会論文誌DーII,Vol.J76−D
−II,No.10,pp.2155−2164,19
93年10月」参照。)(無音モデルは3状態各10混
合のHMM)を作成した場合の結果を表3に示す。表1
と表2及び表3とを比較すると、ニューラルネットワー
ク10に基づく方法の方が高いアキュラシーが得られて
いる。これは、HMMが音素境界を検出するためにモデ
ルパラメータが学習されたものではなく、副次的に得ら
れた音素境界情報を用いて評価しているのに対して、ニ
ューラルネットワーク10は音素境界を検出するための
学習がなされているためと考えられる。
First, a comparison between the method 2 and the result based on the HMM will be described. Table 1 shows the detection results obtained by the method 2 for M = 0, 1, and 2. In order to compare the performance of the phoneme boundary detection neural network 10 of the present embodiment, H
Phoneme recognition was performed using phoneme bigrams based on MM, and the resulting phoneme boundaries were compared with those obtained as phoneme boundaries. Here, attention is paid only to the phoneme boundary (time) information, and the recognition result is not considered. Table 2 shows the results of creating an environment-independent model with three states and five mixtures each for 61 phonemes with a phoneme label number of 61. Junichi et al.,
“Automatic Generation of Hidden Markov Networks by Sequential State Division Method”,
IEICE Transactions D-II, Vol. J76-D
-II, No. 10, pp. 2155-2164,19
October 1993. " Table 3 shows the results in the case where () (silent model is an HMM of 10 mixtures of 3 states). Table 1
Comparing Table 2 with Tables 2 and 3, a higher accuracy is obtained with the method based on the neural network 10. This is because the HMM does not learn the model parameters in order to detect the phoneme boundaries, but evaluates using the phoneme boundary information obtained secondarily, whereas the neural network 10 uses the phoneme boundaries. It is considered that the learning for detecting is performed.

【0053】[0053]

【表1】 BRNNに基づく音素境界検出結果(方法2) しきい値h=0.4 ──────────────────────────── M 0 1 2 ──────────────────────────── 正解 23,175 38,248 40,056 挿入 18,983 4,066 2,293 脱落 27,143 12,070 10,262 ──────────────────────────── 正解率 46.06 76.01 79.61 アキュラシー 8.33 67.93 75.05 ────────────────────────────[Table 1] Phoneme boundary detection result based on BRNN (method 2) Threshold value h = 0.4─────────────────────────── {M 0 1 2} Correct answer 23,175 38,248 40,056 Insertion 18,983 4,066 2,293 dropout 27,143 12,070 10,262 ──────────────────────────── Correct answer rate 46.06 76.01 79 .61 Accuracy 8.33 67.93 75.05

【0054】[0054]

【表2】 HMMに基づく音素境界検出結果 (a)環境非依存モデル ────────────────────────────── M 0 1 2 ────────────────────────────── 正解 8,806 28,214 38,847 挿入 35,372 16,253 5,915 脱落 41,512 22,104 11,471 ────────────────────────────── 正解率 17.50 56.07 77.20 アキュラシー −52.80 23.77 65.45 ──────────────────────────────Table 2 Results of phoneme boundary detection based on HMM (a) Environment-independent model M M 0 1 2 ────────────────────────────── Correct answer 8,806 28,214 38,847 Insert 35,372 16,253 5 , 915 dropped 41,512 22,104 11,471 ────────────────────────────── correct answer rate 17.50 56.07 77.20 Accuracy -52.80 23.77 65.45

【0055】[0055]

【表3】 HMMに基づく音素境界検出結果 (b)環境依存モデル ────────────────────────────── M 0 1 2 ────────────────────────────── 正解 14,198 35,967 42,611 挿入 32,970 11,521 5,110 脱落 36,120 14,351 7,707 ────────────────────────────── 正解率 28.22 71.47 84.68 アキュラシー −37.31 48.58 74.53 ──────────────────────────────Table 3 Results of phoneme boundary detection based on HMM (b) Environment-dependent model M M 0 1 2 ────────────────────────────── Correct answer 14,198 35,967 42,611 Insert 32,970 11,521,5 110 dropout 36,120 14,351,707 ────────────────────────────── Correct answer rate 28.22 71.47 84 .68 Accuracy -37.31 48.58 74.53

【0056】次に、方法2、3、4による性能の比較を
表4に示す。
Next, Table 4 shows a comparison of the performance by the methods 2, 3, and 4.

【0057】[0057]

【表4】 ─────────────────────────────── 方法 2 3 4 ─────────────────────────────── 正解 40,056 48,856 48,856 挿入 2,293 67,570 30,629 脱落 10,262 1,462 1,461 ─────────────────────────────── 正解率 79.61 97.10 97.10 アキュラシー 75.05 −37.19 36.22 ───────────────────────────────[Table 4] {Method 2 34} ──────────────────── Correct answer 40,056 48,856 48,856 Insertion 2,293 67,570 30,629 Dropout 10,262 1,462 1,461 ─────────────────────────────── Correct answer rate 79.61 97.10 97.10 Accuracy 75.05 -37. 19 36.22 ───────────────────────────────

【0058】ここで、方法4の間引き間隔はk=2と
し、全ての評価はM=2で行なった。方法2は最もアキ
ュラシーは高いが、脱落数が多いことが分かる。上述の
ように、音素境界候補の再評価が可能な場合において
は、脱落数が多いこの方法はあまり適切ではないと考え
られる。方法3は脱落数が方法2に対して大幅に低減で
きているが、逆に挿入数が大幅に増えている。方法4で
は、方法3に対して脱落数を増加させることなく、挿入
数が半分以下となっている。また、方法4の検出結果を
ラティス表現した場合、97.10%もの多くの正解が
ラティス内に含まれることが分かる。
Here, the thinning interval of Method 4 was set to k = 2, and all evaluations were performed with M = 2. It can be seen that Method 2 has the highest accuracy, but has a large number of drops. As described above, when the phoneme boundary candidates can be re-evaluated, this method with a large number of dropouts is not considered appropriate. In method 3, the number of dropouts can be significantly reduced as compared to method 2, but on the contrary, the number of insertions has increased significantly. In Method 4, the number of insertions is less than half without increasing the number of drops compared to Method 3. Also, when the detection result of the method 4 is expressed in a lattice, it can be seen that as many as 97.10% of correct answers are included in the lattice.

【0059】以上説明したように、本実施形態によれ
ば、音声特徴パラメータを用いてBRNNであるニュー
ラルネットワーク10を学習し、学習したニューラルネ
ットワーク10を用いて、音声特徴パラメータのみに基
づいて音素境界位置を高速にかつ正確に検出することが
できる。音素境界位置がより正確に得ることにより、 (a)音声認識の性能を向上させるとともに、音声認識
の計算量を大幅に低減させることができる。 (b)また、音素境界検出ニューラルネットワーク10
を併用して音響モデルであるHMMの初期モデルを作成
するときに、その精度を大幅に向上させることができ
る。 (c)さらに、音素境界検出ニューラルネットワーク1
0を音声合成のための音声波形信号の切り出しのために
用いることができ、この場合、波形切り出し誤差を大幅
に低減させることができる。
As described above, according to the present embodiment, the neural network 10 which is a BRNN is learned using the speech feature parameters, and the phoneme boundary is determined based on only the speech feature parameters using the learned neural network 10. The position can be quickly and accurately detected. By obtaining the phoneme boundary position more accurately, (a) the performance of speech recognition can be improved, and the calculation amount of speech recognition can be significantly reduced. (B) The phoneme boundary detection neural network 10
When an initial model of an HMM, which is an acoustic model, is created by using the above, the accuracy can be greatly improved. (C) Further, a phoneme boundary detection neural network 1
0 can be used for cutting out a speech waveform signal for speech synthesis, and in this case, a waveform cutting error can be significantly reduced.

【0060】[0060]

【発明の効果】以上詳述したように本発明に係る請求項
1記載の音素境界検出装置によれば、入力層と、複数の
ユニットを有し少なくとも1層の中間層と、1個のユニ
ットを有し音素境界検出確率を表す音素境界検出値を出
力する出力層とを備えた双方向リカレント型ニューラル
ネットワークを用いて、音声特徴パラメータ系列の音素
境界を検出する音素境界検出装置であって、上記入力層
は、複数の音声特徴パラメータを入力とし、複数のユニ
ットを有する第1の入力ニューロングループと、前向き
モジュールと、後向きモジュールとを備え、上記前向き
モジュールは、複数の音声特徴パラメータに基づいて、
時間的に前向きの帰還接続を有して上記第1の入力ニュ
ーロングループから出力される複数のパラメータよりも
所定の単位時間だけ遅延された時刻の複数のパラメータ
を生成して上記中間層に出力する一方、上記後向きモジ
ュールは、複数の音声特徴パラメータに基づいて、時間
的に後向きの帰還接続を有して上記第1の入力ニューロ
ングループから出力される複数のパラメータよりも所定
の単位時間だけ逆向きに遅延された時刻の複数のパラメ
ータを生成して上記中間層に出力する。従って、音声特
徴パラメータのみに基づいて音素境界位置を高速にかつ
正確に検出することができる。また、音素境界位置がよ
り正確に得ることにより、音声認識の性能を向上させる
とともに、音声認識の計算量を大幅に低減させることが
できる。
As described above in detail, according to the phoneme boundary detecting device of the first aspect of the present invention, an input layer, at least one intermediate layer having a plurality of units, and one unit An output layer that outputs a phoneme boundary detection value representing a phoneme boundary detection probability and having a bidirectional recurrent neural network, a phoneme boundary detection device that detects a phoneme boundary of a speech feature parameter sequence, The input layer receives a plurality of speech feature parameters as inputs, and includes a first input neuron group having a plurality of units, a forward module, and a backward module, wherein the forward module is based on the plurality of speech feature parameters. ,
A plurality of parameters having a temporally forward feedback connection and having a time delayed by a predetermined unit time from a plurality of parameters output from the first input neuron group are generated and output to the intermediate layer. On the other hand, the backward module has a temporally backward feedback connection based on the plurality of speech feature parameters, and has a backward unit of a predetermined unit time from the plurality of parameters output from the first input neuron group. Are generated and output to the intermediate layer. Therefore, the phoneme boundary position can be quickly and accurately detected based only on the voice feature parameters. Further, by obtaining the phoneme boundary position more accurately, the performance of speech recognition can be improved and the calculation amount of speech recognition can be significantly reduced.

【0061】また、請求項2記載の音素境界検出装置に
おいては、請求項1記載の音素境界検出装置において、
上記前向きモジュールは、複数の音声特徴パラメータを
入力とし、複数のユニットを有する第2の入力ニューロ
ングループと、第2の中間ニューロングループから所定
の単位時間だけ遅延されて出力される複数のパラメータ
を入力とする、複数のユニットを有する第1の中間ニュ
ーロングループと、上記第2の入力ニューロングループ
から出力される複数のパラメータと、上記第1の中間ニ
ューロングループから出力される複数のパラメータに対
してそれぞれ各荷重係数を乗算してそれぞれ入力される
ように接続され、複数のユニットを有する第2の中間ニ
ューロングループとを備え、上記後向きモジュールは、
複数の音声特徴パラメータを入力とし、複数のユニット
を有する第3の入力ニューロングループと、第4の中間
ニューロングループから所定の単位時間だけ逆向きに遅
延されて出力される複数のパラメータを入力とする、複
数のユニットを有する第3の中間ニューロングループ
と、上記第3の入力ニューロングループから出力される
複数のパラメータと、上記第3の中間ニューロングルー
プから出力される複数のパラメータに対してそれぞれ各
荷重係数を乗算してそれぞれ入力されるように接続さ
れ、複数のユニットを有する第4の中間ニューロングル
ープとを備え、上記第2の中間ニューロングループから
出力される複数のパラメータに対してそれぞれ各荷重係
数を乗算してそれぞれ上記中間層の複数のユニットに入
力されるように接続され、上記第1の入力ニューロング
ループから出力される複数のパラメータに対してそれぞ
れ各荷重係数を乗算してそれぞれ上記中間層の複数のユ
ニットに入力されるように接続され、上記第4の中間ニ
ューロングループから出力される複数のパラメータに対
してそれぞれ各荷重係数を乗算してそれぞれ上記中間層
の複数のユニットに入力されるように接続され、上記中
間層から出力される複数のパラメータに対してそれぞれ
各荷重係数を乗算してそれぞれ上記出力層のユニットに
入力されるように接続される。従って、音声特徴パラメ
ータのみに基づいて音素境界位置を高速にかつ正確に検
出することができる。また、音素境界位置がより正確に
得ることにより、音声認識の性能を向上させるととも
に、音声認識の計算量を大幅に低減させることができ
る。
Further, in the phoneme boundary detecting device according to the second aspect, in the phoneme boundary detecting device according to the first aspect,
The forward module receives a plurality of speech feature parameters as input, and inputs a second input neuron group having a plurality of units and a plurality of parameters output from the second intermediate neuron group delayed by a predetermined unit time. A first intermediate neuron group having a plurality of units, a plurality of parameters output from the second input neuron group, and a plurality of parameters output from the first intermediate neuron group. A second intermediate neuron group having a plurality of units and connected so as to be multiplied by the respective weighting factors, and wherein the second module has a plurality of units.
A plurality of speech feature parameters are input, and a plurality of parameters output from a third input neuron group having a plurality of units and delayed from the fourth intermediate neuron group by a predetermined unit time in the reverse direction are input. , A third intermediate neuron group having a plurality of units, a plurality of parameters output from the third input neuron group, and respective weights for a plurality of parameters output from the third intermediate neuron group. A fourth intermediate neuron group having a plurality of units and connected so as to be multiplied by a coefficient, and having a plurality of units, each of which has a weighting factor for each of a plurality of parameters output from the second intermediate neuron group And connected to be input to a plurality of units in the above-mentioned intermediate layer. , A plurality of parameters output from the first input neuron group are respectively multiplied by respective weighting coefficients, and the parameters are connected so as to be input to a plurality of units of the intermediate layer, respectively. Are connected so as to be input to the plurality of units of the intermediate layer, respectively, by multiplying each of the plurality of parameters output from the respective units by the respective load coefficients, and are respectively connected to the plurality of parameters output from the intermediate layer. They are connected so that they are multiplied by a load coefficient and input to the units of the output layer. Therefore, the phoneme boundary position can be quickly and accurately detected based only on the voice feature parameters. Further, by obtaining the phoneme boundary position more accurately, the performance of speech recognition can be improved and the calculation amount of speech recognition can be significantly reduced.

【0062】さらに、請求項3記載の音素境界検出装置
においては、請求項1又は2記載の音素境界検出装置に
おいて、上記出力層から出力される音素境界検出値が所
定のしきい値以上のときに音素境界として検出する第1
の検出手段をさらに備える。従って、音声特徴パラメー
タのみに基づいて音素境界位置を高速にかつ正確に検出
することができる。また、音素境界位置がより正確に得
ることにより、音声認識の性能を向上させるとともに、
音声認識の計算量を大幅に低減させることができる。
Further, in the phoneme boundary detection device according to the third aspect, the phoneme boundary detection device according to the first or second aspect, wherein the detected phoneme boundary value output from the output layer is equal to or more than a predetermined threshold value. First detected as a phoneme boundary
Is further provided. Therefore, the phoneme boundary position can be quickly and accurately detected based only on the voice feature parameters. In addition, by obtaining more accurate phoneme boundary positions, while improving the performance of speech recognition,
The amount of calculation for speech recognition can be greatly reduced.

【0063】さらに、請求項4記載の音素境界検出装置
においては、請求項1又は2記載の音素境界検出装置に
おいて、上記出力層から出力される音素境界検出値が所
定のしきい値以上であって、極大値となるときに音素境
界として検出する第2の検出手段をさらに備える。従っ
て、音声特徴パラメータのみに基づいて音素境界位置を
高速にかつ正確に検出することができる。また、音素境
界位置がより正確に得ることにより、音声認識の性能を
向上させるとともに、音声認識の計算量を大幅に低減さ
せることができる。
Further, in the phoneme boundary detection device according to the fourth aspect, in the phoneme boundary detection device according to the first or second aspect, the phoneme boundary detection value output from the output layer is not less than a predetermined threshold value. And a second detecting means for detecting a maximum value as a phoneme boundary. Therefore, the phoneme boundary position can be quickly and accurately detected based only on the voice feature parameters. Further, by obtaining the phoneme boundary position more accurately, the performance of speech recognition can be improved and the calculation amount of speech recognition can be significantly reduced.

【0064】さらに、請求項5記載の音素境界検出装置
においては、請求項1又は2記載の音素境界検出装置に
おいて、上記出力層から出力される音素境界検出値が、
所定の第1のしきい値以上であるときに第1の音素境界
として検出し、上記音素境界検出値が、上記第1のしき
い値よりも小さい第2のしきい値以上であって上記第1
のしきい値未満でありかつ極大値となるときに第2の音
素境界として検出する第3の検出手段をさらに備える。
従って、音声特徴パラメータのみに基づいて音素境界位
置を高速にかつ正確に検出することができる。また、音
素境界位置がより正確に得ることにより、音声認識の性
能を向上させるとともに、音声認識の計算量を大幅に低
減させることができる。
Further, in the phoneme boundary detection device according to the fifth aspect, in the phoneme boundary detection device according to the first or second aspect, the phoneme boundary detection value output from the output layer is:
When it is not less than a predetermined first threshold value, it is detected as a first phoneme boundary, and the phoneme boundary detection value is not less than a second threshold value smaller than the first threshold value, and First
And a third detecting means for detecting the second phoneme boundary when the value is less than the threshold value and reaches the maximum value.
Therefore, the phoneme boundary position can be quickly and accurately detected based only on the voice feature parameters. Further, by obtaining the phoneme boundary position more accurately, the performance of speech recognition can be improved and the calculation amount of speech recognition can be significantly reduced.

【0065】また、請求項6記載の音素境界検出装置に
おいては、請求項5記載の音素境界検出装置において、
上記第3の検出手段は、上記第1の音素境界として検出
したものを所定の複数個毎に1個の音素境界を選択して
第1の音素境界として選択する。従って、音声特徴パラ
メータのみに基づいて音素境界位置を高速にかつ正確に
検出することができる。また、音素境界位置がより正確
に得ることにより、音声認識の性能を向上させるととも
に、音声認識の計算量を大幅に低減させることができ
る。
According to a sixth aspect of the present invention, there is provided the phoneme boundary detection device according to the fifth aspect.
The third detecting means selects one phoneme boundary for each of a plurality of detected ones as the first phoneme boundary and selects it as the first phoneme boundary. Therefore, the phoneme boundary position can be quickly and accurately detected based only on the voice feature parameters. Further, by obtaining the phoneme boundary position more accurately, the performance of speech recognition can be improved and the calculation amount of speech recognition can be significantly reduced.

【0066】さらに、請求項7記載の音素境界検出装置
においては、請求項5又は6記載の音素境界検出装置に
おいて、上記第3の検出手段は、上記検出又は選択した
第1の音素境界と第2の音素境界との間で形成された経
路のラティスに基づいて音素境界を検出する。従って、
音声特徴パラメータのみに基づいて音素境界位置を高速
にかつ正確に検出することができる。また、音素境界位
置がより正確に得ることにより、音声認識の性能を向上
させるとともに、音声認識の計算量を大幅に低減させる
ことができる。
Further, in the phoneme boundary detecting device according to claim 7, in the phoneme boundary detecting device according to claim 5 or 6, the third detecting means includes: A phoneme boundary is detected based on a lattice of a path formed between the two phoneme boundaries. Therefore,
The phoneme boundary position can be quickly and accurately detected based only on the voice feature parameter. Further, by obtaining the phoneme boundary position more accurately, the performance of speech recognition can be improved and the calculation amount of speech recognition can be significantly reduced.

【0067】本発明に係る請求項8記載の音声認識装置
においては、入力された文字列からなる発声音声文の音
声信号から音声特徴パラメータを抽出する特徴抽出手段
と、上記特徴抽出手段によって抽出された音声特徴パラ
メータに基づいて、請求項1乃至7のうちの1つに記載
された音素境界検出装置によって検出された音素境界
と、所定の音響モデルとを用いて、入力された文字列か
らなる発声音声文の音声信号を音声認識する音声認識手
段とを備える。従って、音声特徴パラメータのみに基づ
いて音素境界位置を高速にかつ正確に検出することがで
きる。また、音素境界位置がより正確に得ることによ
り、音声認識の性能を向上させるとともに、音声認識の
計算量を大幅に低減させることができる。
In the speech recognition apparatus according to the present invention, a feature extraction means for extracting a speech feature parameter from a speech signal of an uttered speech sentence consisting of an input character string, and a feature extraction means for extracting the speech feature parameter. A phoneme boundary detected by the phoneme boundary detection device according to any one of claims 1 to 7 based on the obtained speech feature parameter, and a character string input using a predetermined acoustic model. Voice recognition means for voice-recognizing the voice signal of the uttered voice sentence. Therefore, the phoneme boundary position can be quickly and accurately detected based only on the voice feature parameters. Further, by obtaining the phoneme boundary position more accurately, the performance of speech recognition can be improved and the calculation amount of speech recognition can be significantly reduced.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明に係る一実施形態である音素境界検出
ニューラルネットワークを用いた音声認識装置のブロッ
ク図である。
FIG. 1 is a block diagram of a speech recognition apparatus using a phoneme boundary detection neural network according to an embodiment of the present invention.

【図2】 図1の音素境界検出ニューラルネットワーク
の構成を示すブロック図である。
FIG. 2 is a block diagram showing a configuration of a phoneme boundary detection neural network of FIG.

【図3】 図2の音素境界検出ニューラルネットワーク
の等価構造を示すブロック図である。
FIG. 3 is a block diagram showing an equivalent structure of the phoneme boundary detection neural network of FIG. 2;

【図4】 図1のニューラルネットワーク学習部によっ
て実行されるニューラルネットワーク学習処理を示すフ
ローチャートである。
FIG. 4 is a flowchart illustrating a neural network learning process performed by the neural network learning unit of FIG. 1;

【図5】 図1の単語照合部によって実行される単語照
合処理を示すフローチャートである。
FIG. 5 is a flowchart illustrating a word matching process performed by the word matching unit of FIG. 1;

【図6】 図5の単語照合処理におけるサブルーチンで
ある音素境界検出処理(方法1)のフローチャートであ
る。
6 is a flowchart of a phoneme boundary detection process (method 1) which is a subroutine in the word matching process of FIG.

【図7】 図5の単語照合処理におけるサブルーチンで
ある音素境界検出処理(方法2)のフローチャートであ
る。
FIG. 7 is a flowchart of a phoneme boundary detection process (method 2) which is a subroutine in the word matching process of FIG.

【図8】 図5の単語照合処理におけるサブルーチンで
ある音素境界検出処理(方法3)のフローチャートであ
る。
8 is a flowchart of a phoneme boundary detection process (method 3) which is a subroutine in the word matching process of FIG.

【図9】 図5の単語照合処理におけるサブルーチンで
ある音素境界検出処理(方法4)のフローチャートであ
る。
9 is a flowchart of a phoneme boundary detection process (method 4) which is a subroutine in the word matching process of FIG.

【図10】 図5の音素境界検出処理によって検出され
た一例を示すグラフである。
FIG. 10 is a graph showing an example detected by the phoneme boundary detection processing of FIG.

【図11】 図5の音素境界検出処理における音素境界
候補のラティス表現を示す図である。
11 is a diagram illustrating a lattice representation of a phoneme boundary candidate in the phoneme boundary detection processing of FIG. 5;

【符号の説明】[Explanation of symbols]

1…マイクロホン、 2…A/D変換器、 3…特徴抽出部、 4…バッファメモリ、 5…単語レベル照合部、 6…文レベル照合部、 7…単語モデル、 8…文法規則、 9…意味的規則、 10…音素境界検出ニューラルネットワーク、 20…ニューラルネットワーク学習部、 31…学習用音声データの特徴パラメータファイル、 32…学習用音声データの音素境界値ファイル、 33…音素境界検出ニューラルネットワークの初期モデ
ル、 100…入力層、 200…中間層、 300…出力層、 A(t),51,61…入力ニューロングループ、 B(t−1)…前向きモジュール、 C(t+1)…後向きモジュール、 52,53,62,63…中間ニューロングループ、 54…遅延素子、 64…逆向き遅延素子、 D…隠れニューロングループ、 E…出力ニューロングループ。
DESCRIPTION OF SYMBOLS 1 ... Microphone, 2 ... A / D converter, 3 ... Feature extraction part, 4 ... Buffer memory, 5 ... Word level collation part, 6 ... Sentence level collation part, 7 ... Word model, 8 ... Grammar rule, 9 ... Meaning 10: Phoneme boundary detection neural network, 20: Neural network learning unit, 31: Feature parameter file of learning speech data, 32: Phoneme boundary value file of learning speech data, 33: Initial of phoneme boundary detection neural network Model: 100 input layer, 200: middle layer, 300: output layer, A (t), 51, 61: input neuron group, B (t-1): forward module, C (t + 1): backward module, 52, 53, 62, 63: intermediate neuron group, 54: delay element, 64: reverse delay element, D: hidden neuron group Flop, E ... output neuron group.

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】 入力層と、複数のユニットを有し少なく
とも1層の中間層と、1個のユニットを有し音素境界検
出確率を表す音素境界検出値を出力する出力層とを備え
た双方向リカレント型ニューラルネットワークを用い
て、音声特徴パラメータ系列の音素境界を検出する音素
境界検出装置であって、 上記入力層は、 複数の音声特徴パラメータを入力とし、複数のユニット
を有する第1の入力ニューロングループと、 前向きモジュールと、 後向きモジュールとを備え、 上記前向きモジュールは、複数の音声特徴パラメータに
基づいて、時間的に前向きの帰還接続を有して上記第1
の入力ニューロングループから出力される複数のパラメ
ータよりも所定の単位時間だけ遅延された時刻の複数の
パラメータを生成して上記中間層に出力する一方、 上記後向きモジュールは、複数の音声特徴パラメータに
基づいて、時間的に後向きの帰還接続を有して上記第1
の入力ニューロングループから出力される複数のパラメ
ータよりも所定の単位時間だけ逆向きに遅延された時刻
の複数のパラメータを生成して上記中間層に出力するこ
とを特徴とする音素境界検出装置。
An input layer, an intermediate layer having at least one layer having a plurality of units, and an output layer having one unit and outputting a phoneme boundary detection value representing a phoneme boundary detection probability. A phoneme boundary detection device for detecting a phoneme boundary of a speech feature parameter sequence using a directional recurrent neural network, wherein the input layer has a plurality of speech feature parameters as inputs and a first input having a plurality of units. A neuron group, a forward module, and a backward module, the forward module having a temporally forward feedback connection based on a plurality of speech feature parameters,
While generating a plurality of parameters at times delayed by a predetermined unit time from a plurality of parameters output from the input neuron group and outputting the plurality of parameters to the intermediate layer, the backward module is configured to generate a plurality of parameters based on a plurality of speech feature parameters. And has a temporally backward feedback connection,
And generating a plurality of parameters at times delayed by a predetermined unit time in a backward direction from a plurality of parameters output from the input neuron group of the plurality of input neuron groups and outputting the generated parameters to the intermediate layer.
【請求項2】 上記前向きモジュールは、 複数の音声特徴パラメータを入力とし、複数のユニット
を有する第2の入力ニューロングループと、 第2の中間ニューロングループから所定の単位時間だけ
遅延されて出力される複数のパラメータを入力とする、
複数のユニットを有する第1の中間ニューロングループ
と、 上記第2の入力ニューロングループから出力される複数
のパラメータと、上記第1の中間ニューロングループか
ら出力される複数のパラメータに対してそれぞれ各荷重
係数を乗算してそれぞれ入力されるように接続され、複
数のユニットを有する第2の中間ニューロングループと
を備え、 上記後向きモジュールは、 複数の音声特徴パラメータを入力とし、複数のユニット
を有する第3の入力ニューロングループと、 第4の中間ニューロングループから所定の単位時間だけ
逆向きに遅延されて出力される複数のパラメータを入力
とする、複数のユニットを有する第3の中間ニューロン
グループと、 上記第3の入力ニューロングループから出力される複数
のパラメータと、上記第3の中間ニューロングループか
ら出力される複数のパラメータに対してそれぞれ各荷重
係数を乗算してそれぞれ入力されるように接続され、複
数のユニットを有する第4の中間ニューロングループと
を備え、 上記第2の中間ニューロングループから出力される複数
のパラメータに対してそれぞれ各荷重係数を乗算してそ
れぞれ上記中間層の複数のユニットに入力されるように
接続され、 上記第1の入力ニューロングループから出力される複数
のパラメータに対してそれぞれ各荷重係数を乗算してそ
れぞれ上記中間層の複数のユニットに入力されるように
接続され、 上記第4の中間ニューロングループから出力される複数
のパラメータに対してそれぞれ各荷重係数を乗算してそ
れぞれ上記中間層の複数のユニットに入力されるように
接続され、 上記中間層から出力される複数のパラメータに対してそ
れぞれ各荷重係数を乗算してそれぞれ上記出力層のユニ
ットに入力されるように接続されたことを特徴とする請
求項1記載の音素境界検出装置。
2. The forward module receives a plurality of speech feature parameters as input, outputs a second input neuron group having a plurality of units, and is delayed by a predetermined unit time from a second intermediate neuron group and output. With multiple parameters as input,
A first intermediate neuron group having a plurality of units, a plurality of parameters output from the second input neuron group, and respective weighting factors for a plurality of parameters output from the first intermediate neuron group And a second intermediate neuron group having a plurality of units, each of which is connected so as to be input by multiplying by a plurality of units. The backward module has a plurality of speech feature parameters as inputs, and has a third unit having a plurality of units. An input neuron group, a third intermediate neuron group having a plurality of units, and having a plurality of units inputting a plurality of parameters delayed and output by a predetermined unit time in a backward direction from the fourth intermediate neuron group; A plurality of parameters output from the input neuron group of A fourth intermediate neuron group connected to each of the plurality of parameters output from the intermediate neuron group and multiplied by a respective weighting factor, and having a plurality of units, the second intermediate neuron group having a plurality of units; A plurality of parameters output from the first input neuron group are connected by multiplying a plurality of parameters output from the neuron group by respective weighting factors and input to the plurality of units of the intermediate layer, respectively. The parameters are multiplied by respective weighting factors and connected so as to be input to a plurality of units of the intermediate layer, respectively. The weighting factors are respectively applied to a plurality of parameters output from the fourth intermediate neuron group. Are connected so as to be input to a plurality of units of the intermediate layer, respectively, 2. The phoneme boundary detecting device according to claim 1, wherein the plurality of parameters output from the hidden layer are multiplied by respective weighting factors, and the parameters are connected so as to be input to the units of the output layer. .
【請求項3】 上記出力層から出力される音素境界検出
値が所定のしきい値以上のときに音素境界として検出す
る第1の検出手段をさらに備えたことを特徴とする請求
項1又は2記載の音素境界検出装置。
3. The apparatus according to claim 1, further comprising: a first detection unit that detects a phoneme boundary as a phoneme boundary when a phoneme boundary detection value output from the output layer is equal to or more than a predetermined threshold value. A phoneme boundary detection device as described in the above.
【請求項4】 上記出力層から出力される音素境界検出
値が所定のしきい値以上であって、極大値となるときに
音素境界として検出する第2の検出手段をさらに備えた
ことを特徴とする請求項1又は2記載の音素境界検出装
置。
4. The method according to claim 1, further comprising a second detecting unit that detects a phoneme boundary when the phoneme boundary detection value output from the output layer is equal to or more than a predetermined threshold value and reaches a maximum value. The phoneme boundary detection device according to claim 1 or 2, wherein
【請求項5】 上記出力層から出力される音素境界検出
値が、所定の第1のしきい値以上であるときに第1の音
素境界として検出し、上記音素境界検出値が、上記第1
のしきい値よりも小さい第2のしきい値以上であって上
記第1のしきい値未満でありかつ極大値となるときに第
2の音素境界として検出する第3の検出手段をさらに備
えたことを特徴とする請求項1又は2記載の音素境界検
出装置。
5. When a phoneme boundary detection value output from the output layer is equal to or greater than a predetermined first threshold, the phoneme boundary detection value is detected as a first phoneme boundary, and the phoneme boundary detection value is set to the first phoneme boundary.
A third detection means for detecting a second phoneme boundary when the second phoneme boundary is equal to or more than a second threshold value smaller than the threshold value and smaller than the first threshold value and reaches a maximum value. The phoneme boundary detection device according to claim 1 or 2, wherein:
【請求項6】 上記第3の検出手段は、上記第1の音素
境界として検出したものを所定の複数個毎に1個の音素
境界を選択して第1の音素境界として選択することを特
徴とする請求項5記載の音素境界検出装置。
6. The method according to claim 1, wherein the third detecting means selects one of the detected phoneme boundaries as the first phoneme boundary and selects one as a first phoneme boundary. The phoneme boundary detecting device according to claim 5, wherein
【請求項7】 上記第3の検出手段は、上記検出又は選
択した第1の音素境界と第2の音素境界との間で形成さ
れた経路のラティスに基づいて音素境界を検出すること
を特徴とする請求項5又は6記載の音素境界検出装置。
7. The third detection means detects a phoneme boundary based on a lattice of a path formed between the detected or selected first phoneme boundary and the second phoneme boundary. The phoneme boundary detection device according to claim 5 or 6, wherein
【請求項8】 入力された文字列からなる発声音声文の
音声信号から音声特徴パラメータを抽出する特徴抽出手
段と、 上記特徴抽出手段によって抽出された音声特徴パラメー
タに基づいて、請求項1乃至7のうちの1つに記載され
た音素境界検出装置によって検出された音素境界と、所
定の音響モデルとを用いて、入力された文字列からなる
発声音声文の音声信号を音声認識する音声認識手段とを
備えたことを特徴とする音声認識装置。
8. A feature extracting means for extracting a speech feature parameter from a speech signal of an uttered speech sentence comprising an input character string, and based on the speech feature parameter extracted by the feature extracting means. Speech recognition means for recognizing a speech signal of an uttered speech sentence composed of an input character string using a phoneme boundary detected by the phoneme boundary detection device described in any one of the above and a predetermined acoustic model. A voice recognition device comprising:
JP9054594A 1997-03-10 1997-03-10 Phoneme boundary detection device and speech recognition device Expired - Lifetime JP2996925B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9054594A JP2996925B2 (en) 1997-03-10 1997-03-10 Phoneme boundary detection device and speech recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9054594A JP2996925B2 (en) 1997-03-10 1997-03-10 Phoneme boundary detection device and speech recognition device

Publications (2)

Publication Number Publication Date
JPH10254477A true JPH10254477A (en) 1998-09-25
JP2996925B2 JP2996925B2 (en) 2000-01-11

Family

ID=12975066

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9054594A Expired - Lifetime JP2996925B2 (en) 1997-03-10 1997-03-10 Phoneme boundary detection device and speech recognition device

Country Status (1)

Country Link
JP (1) JP2996925B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011053425A (en) * 2009-09-01 2011-03-17 Nippon Telegr & Teleph Corp <Ntt> Phoneme dividing device, method and program
JP2018097860A (en) * 2016-12-14 2018-06-21 三星電子株式会社Samsung Electronics Co.,Ltd. Recognition method, recognition apparatus and training method
CN108932943A (en) * 2018-07-12 2018-12-04 广州视源电子科技股份有限公司 Command word sound detection method, device, equipment and storage medium
WO2022113214A1 (en) * 2020-11-25 2022-06-02 日本電信電話株式会社 Labeling processing method, labeling processing device and labeling processing program

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680584B (en) * 2017-09-29 2020-08-25 百度在线网络技术(北京)有限公司 Method and device for segmenting audio

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011053425A (en) * 2009-09-01 2011-03-17 Nippon Telegr & Teleph Corp <Ntt> Phoneme dividing device, method and program
JP2018097860A (en) * 2016-12-14 2018-06-21 三星電子株式会社Samsung Electronics Co.,Ltd. Recognition method, recognition apparatus and training method
CN108932943A (en) * 2018-07-12 2018-12-04 广州视源电子科技股份有限公司 Command word sound detection method, device, equipment and storage medium
WO2022113214A1 (en) * 2020-11-25 2022-06-02 日本電信電話株式会社 Labeling processing method, labeling processing device and labeling processing program

Also Published As

Publication number Publication date
JP2996925B2 (en) 2000-01-11

Similar Documents

Publication Publication Date Title
JP4301102B2 (en) Audio processing apparatus, audio processing method, program, and recording medium
Robinson An application of recurrent nets to phone probability estimation
US8478591B2 (en) Phonetic variation model building apparatus and method and phonetic recognition system and method thereof
US4741036A (en) Determination of phone weights for markov models in a speech recognition system
US7689419B2 (en) Updating hidden conditional random field model parameters after processing individual training samples
US8494847B2 (en) Weighting factor learning system and audio recognition system
JPH10254483A (en) Phoneme symbol after-the-fact probability computing device and speech recognizer
Deshmukh Comparison of hidden markov model and recurrent neural network in automatic speech recognition
JP2000099080A (en) Voice recognizing method using evaluation of reliability scale
US20220223066A1 (en) Method, device, and computer program product for english pronunciation assessment
WO1993013519A1 (en) Composite expert
US20100324897A1 (en) Audio recognition device and audio recognition method
US20050015251A1 (en) High-order entropy error functions for neural classifiers
JPH08211889A (en) Pattern adaptive system using tree structure
JP2996925B2 (en) Phoneme boundary detection device and speech recognition device
JPH1185186A (en) Nonspecific speaker acoustic model forming apparatus and speech recognition apparatus
Saha Development of a bangla speech to text conversion system using deep learning
JP3589044B2 (en) Speaker adaptation device
JP2005275348A (en) Speech recognition method, device, program and recording medium for executing the method
JP2974621B2 (en) Speech recognition word dictionary creation device and continuous speech recognition device
JPH01204099A (en) Speech recognition device
KR100327486B1 (en) Sound recognition apparatus and method applying weight by state
JP2005156593A (en) Method for creating acoustic model, device for creating the acoustic model, program for creating acoustic model, and voice-recognition device
JP3216565B2 (en) Speaker model adaptation method for speech model, speech recognition method using the method, and recording medium recording the method
JPH06266386A (en) Word spotting method