JPH09319395A - Voice data learning device in discrete word voice recognition system - Google Patents

Voice data learning device in discrete word voice recognition system

Info

Publication number
JPH09319395A
JPH09319395A JP8315731A JP31573196A JPH09319395A JP H09319395 A JPH09319395 A JP H09319395A JP 8315731 A JP8315731 A JP 8315731A JP 31573196 A JP31573196 A JP 31573196A JP H09319395 A JPH09319395 A JP H09319395A
Authority
JP
Japan
Prior art keywords
data
voice
phoneme
learning
input device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8315731A
Other languages
Japanese (ja)
Inventor
Shigeru Kashiwagi
繁 柏木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP8315731A priority Critical patent/JPH09319395A/en
Publication of JPH09319395A publication Critical patent/JPH09319395A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To make it possible to operate without lowering the word-recognition precision even by the voice data obtained from voice input devices with different characteristics. SOLUTION: Voice data are inputted from a first input device 1 to a phoneme recognition constitution part 11. A second voice input device 2 is provided with the characteristic different from the first voice input device 1. The voice data inputted from the second voice input device 2 are inputted to a characteristic extraction part 22 after they are inputted to a data input part 21. After the voice data are frequency analyzed by the characteristic extraction part 22 to be inputted to an automatic labeling part 23. The data giving the voice data a phoneme label based on the inputted voice data and a phoneme structural table inputted together with the voice data are formed in the automatic labeling part 23. A leanring data part 24 for learning a neural net of a phoneme recognition part 11c is formed based on the data.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】この発明は、ニューラルネッ
トワークによる音素認識部とDTWによる単語認識部か
らなる離散単語音声認識システムにおける音声データ学
習装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice data learning device in a discrete word voice recognition system including a phoneme recognition unit by a neural network and a word recognition unit by a DTW.

【0002】[0002]

【従来の技術】離散単語音声認識システムの概要を図5
に示す。図5において、11は音素認識構成部、12は
単語認識部であり、音素認識構成部11は次のように構
成されている。11aは電話などの音声入力装置より音
声データが入力されるデータ入力部で、この入力部11
aに入力された音声データは特徴抽出部11bに供給さ
れ、ここで音声データから有効なデータを取り出して表
1に示す条件で周波数分析される。
2. Description of the Related Art An outline of a discrete word speech recognition system is shown in FIG.
Shown in In FIG. 5, reference numeral 11 is a phoneme recognition configuration unit, 12 is a word recognition unit, and the phoneme recognition configuration unit 11 is configured as follows. Reference numeral 11a denotes a data input unit to which voice data is input from a voice input device such as a telephone.
The voice data input to a is supplied to the feature extraction unit 11b, where valid data is extracted from the voice data and subjected to frequency analysis under the conditions shown in Table 1.

【0003】[0003]

【表1】 [Table 1]

【0004】上記周波数分析の結果から得られるスペク
トル列は音素認識部11cに入力されて「23」の音素
に分類される。音素認識部11cは図6に詳細を示すよ
うに出力を二重化したニューラルネットワークによって
構成されている。このニューラルネットワークは入力
層、隠れ層、出力層からなり、入力層に1時刻毎に5フ
レームのスペクトルが入力され、それの中央のスペクト
ルが、該当する音素がどれであるかを出力層のユニット
(出力ユニット)の値によって送出する。出力ユニット
は二重化されているため、各音素カテゴリ毎にユニット
は2個づつ対応づけられている。それに対して結果は最
大の出力値を示すものから2つのユニットを選び、それ
が対応する音素を第1位、第2位音素候補として得る。
従って、場合によっては同一音素を第1位音素候補、第
2位音素候補として出力することもあり得る。次に示す
音素列は、第1位音素候補列P1と第2位音素候補列P2
の例である。
The spectrum sequence obtained from the result of the above frequency analysis is input to the phoneme recognition unit 11c and classified into "23" phonemes. The phoneme recognition unit 11c is composed of a neural network having dual outputs, as shown in detail in FIG. This neural network consists of an input layer, a hidden layer, and an output layer. A spectrum of 5 frames is input to the input layer every one time, and the center spectrum of that is the unit of the output layer. It is sent according to the value of (output unit). Since the output units are duplicated, two units are associated with each phoneme category. On the other hand, as a result, two units are selected from those showing the maximum output value, and the phonemes to which the two units correspond are obtained as first and second phoneme candidates.
Therefore, in some cases, the same phoneme may be output as the first-ranked phoneme candidate and the second-ranked phoneme candidate. The phoneme strings shown below are the first-ranked phoneme candidate string P 1 and the second-ranked phoneme candidate string P 2.
This is an example.

【0005】 P1:−−s−zzzieegrrooaoo−− P2:ss−sssseiiyrwwaoaapp なお、音素認識部11cに入力される5フレームのスペ
クトルは1時刻ごとに1フレームづつずらされながら入
力されて行く。
P 1 : -s-zzzzieegrrooooo- P 2 : ss-ssssseiiirwwaoaapp The five-frame spectrum input to the phoneme recognition unit 11c is input while shifting one frame at a time.

【0006】前記音素認識部11cの出力に得られた第
1位、第2位音素候補列P1,P2は単語認識部12に供
給され、この単語認識部12において、辞書13内の単
語テンプレートとDTW法(時間正規化法)によってマ
ッチングされ、最も類似する単語を結果として出力す
る。単語認識部12での演算は、図7に示すようにして
行われる。すなわち、テンプレート音素列Ptのパター
ンを縦軸に、音素認識部11cで得られた第1位、第2
位音素候補列P1,P2を横軸に並べ、各格子点におい
て、局所スコアを次に示す(1)式に従って求め、テン
プレートの音素と音素候補の第1位音素候補が等しい場
合「0」を、第2位音素候補が等しい場合「1」を、い
ずれも等しくない場合「2」をセットする。
The first and second phoneme candidate sequences P 1 and P 2 obtained at the output of the phoneme recognition unit 11c are supplied to the word recognition unit 12, and at this word recognition unit 12, the words in the dictionary 13 are written. The template is matched with the DTW method (time normalization method), and the most similar word is output as a result. The calculation in the word recognition unit 12 is performed as shown in FIG. That is, the patterns of the template phoneme sequence P t are plotted on the vertical axis, and the first and second positions obtained by the phoneme recognition unit 11c are used.
Position phoneme candidate sequences P 1 and P 2 are arranged on the horizontal axis, and at each grid point, a local score is obtained according to the following equation (1). If the phoneme of the template is equal to the first phoneme candidate of the phoneme candidate, “0” is given. Is set to "1" when the second phoneme candidates are equal, and "2" is set when none of them are equal.

【0007】[0007]

【数1】 [Equation 1]

【0008】その後、次の(2)式に示すDTWスコア
計算式の制限に従ってスコアを逐次累積して行き、最終
点(図7の最右上点)での累積スコアを類似スコアとし
て得る。
Thereafter, the scores are successively accumulated according to the restriction of the DTW score calculation formula shown in the following formula (2), and the cumulative score at the final point (the upper rightmost point in FIG. 7) is obtained as a similar score.

【0009】[0009]

【数2】 [Equation 2]

【0010】その類似スコアを辞書中の全テンプレート
に対して求め、スコアが最小のものを認識結果として出
力する。なお、(1)式中でPtはテンプレート音素列
を、また、(1)式、(2)式中でのd(i,j)とg(i,j)は
それぞれ格子点(i,j)での局所スコアと累積スコアを表
している。
The similar score is obtained for all templates in the dictionary, and the one with the smallest score is output as the recognition result. Note that P t in the equation (1) is a template phoneme sequence, and d (i, j) and g (i, j) in the equations (1) and (2) are lattice points (i, It shows the local and cumulative scores in j).

【0011】[0011]

【発明が解決しようとする課題】上記の従来技術におい
て、音素認識はニューラルネットからなる音素認識部に
よって実行される。そのニューラルネットからなる音素
認識部は電話などの音声入力装置から入力された音声デ
ータを学習データとして、バックプロパゲーション法に
よって学習される。しかし、その学習では、実際には各
音素データの周波数特性のみではなく、音声入力装置固
有の伝送周波数特性や付加型の雑音の周波数特性も含め
て学習する手段をとっている。このため、理想的には、
学習データを収録する時に使用した音声入力装置と同じ
特性の装置を実装システムにおいても使用することが必
要となる。しかし、実際には、実装時に小型化やシステ
ム構成の都合などの理由から特性の異なる音声入力装置
を使用しなければならない場合もあり、この結果音声デ
ータの単語認識精度が低下してしまう問題がある。
In the above-mentioned prior art, the phoneme recognition is executed by the phoneme recognition unit composed of a neural network. The phoneme recognition unit composed of the neural network is learned by the back propagation method using the voice data input from the voice input device such as a telephone as the learning data. However, in the learning, actually, not only the frequency characteristic of each phoneme data but also the transmission frequency characteristic peculiar to the voice input device and the frequency characteristic of the additional type noise are taken as means for learning. Therefore, ideally,
It is necessary to use a device having the same characteristics as the voice input device used when recording the learning data also in the mounting system. However, in reality, there are cases where it is necessary to use voice input devices with different characteristics at the time of implementation due to reasons such as miniaturization and system configuration, and as a result, there is a problem that the word recognition accuracy of voice data decreases. is there.

【0012】この発明は上記の事情に鑑みてなされたも
ので、音声入力装置の特性が異なるもので得た音声デー
タによっても、単語認識精度を低下させないで動作させ
ることができるようにした離散単語音声認識システムに
おける音声データ学習装置を提供することを課題とす
る。
The present invention has been made in view of the above circumstances, and discrete words can be operated without lowering the word recognition accuracy even with voice data obtained by voice input devices having different characteristics. An object is to provide a voice data learning device in a voice recognition system.

【0013】[0013]

【課題を解決するための手段】この発明は、上記の課題
を達成するために、第1発明は、音声入力装置より入力
された単語音声データを周波数分析し、それを出力多重
化ニューラルネットに入力させて音素認識を行わせて、
認識音素第1位音素候補と第2位音素候補を得、その認
識された音素候補列と、認識させたい語彙の音素パター
ンを持たせた辞書中のテンプレートとの類似度を、テン
プレート中の音素と認識された音素候補列中の第1位お
よび第2位候補との類似度を局所スコアとし、その局所
スコアをDTW法によって累積することで全体の類似度
スコアを求めた後、認識させたい全ての語彙の中で、そ
の類似度スコアが最小となる単語を認識結果として出力
する音声認識システムにおいて、前記音声入力装置とは
特性が異なる音声入力装置から入力した音声データに音
素ラベルを付与した学習データを得る自動ラベリング部
を設け、この自動ラベリング部で得た学習データで前記
ニューラルネットを学習させるようにしたことを特徴と
するものである。
SUMMARY OF THE INVENTION In order to achieve the above-mentioned object, the present invention provides a frequency analysis of word voice data input from a voice input device and outputs it to an output multiplexing neural network. Let me input and phoneme recognition,
Recognized phonemes First phoneme candidates and second phoneme candidates are obtained, and the similarity between the recognized phoneme candidate sequence and the template in the dictionary having the phoneme pattern of the vocabulary to be recognized is determined as the phoneme in the template. I want to recognize after calculating the overall similarity score by accumulating the local scores by the DTW method by using the similarity with the first and second candidates in the phoneme candidate sequence recognized as In a voice recognition system that outputs a word having the smallest similarity score among all vocabularies as a recognition result, a phoneme label is given to voice data input from a voice input device having characteristics different from those of the voice input device. An automatic labeling unit for obtaining learning data is provided, and the learning data obtained by the automatic labeling unit is used for learning the neural network.

【0014】第2発明は、前記自動ラベリング部は、ニ
ューラルネットによる学習型音素認識部と、DTWを基
本とした音素境界最適位置検出部と、発声された音声デ
ータがどのような音素によって構成されているかを示す
音素構成表とからなることを特徴とするものである。
According to a second aspect of the invention, the automatic labeling unit comprises a learning type phoneme recognition unit using a neural network, a phoneme boundary optimum position detection unit based on DTW, and what kind of phoneme the uttered voice data is composed of. And a phoneme composition table indicating whether or not it is present.

【0015】第3発明は、前記学習データは、全種類の
音素が含まれ、かつなるべく多くの音素連鎖が含まれる
ようにして、任意に設定した語彙に対しても認識率が低
下しないようにしたことを特徴とするものである。
According to a third aspect of the present invention, the learning data includes all types of phonemes and includes as many phoneme chains as possible, so that the recognition rate does not decrease even for an arbitrarily set vocabulary. It is characterized by having done.

【0016】第4発明は、前記ニューラルネットを学習
させる際に、もとの音声入力装置から入力した音声デー
タも併せて学習を行って、任意に設定した語彙に対して
も、もとの音声入力装置からでも、もとの音声入力装置
とは特性が異なる音声入力装置からでも認識率が低下し
ないようにしたことを特徴とするものである。
According to a fourth aspect of the invention, when the neural network is trained, the voice data input from the original voice input device is also learned, and the original voice is set for the arbitrarily set vocabulary. It is characterized in that the recognition rate is prevented from lowering even from an input device or a voice input device having characteristics different from those of the original voice input device.

【0017】第5発明は、前記第1〜4発明中におい
て、音声入力装置とは特性が異なる音声入力装置から入
力した無音データを予め音声データによって学習されて
いる既学習ニューラルネットで学習させ、その学習デー
タを自動ラベリング部に学習させたことを特徴とする。
According to a fifth aspect of the present invention, in the first to fourth aspects, silent data input from a voice input device having a characteristic different from that of the voice input device is learned by a learned neural network that has been learned in advance by voice data. The feature is that the learning data is learned by the automatic labeling unit.

【0018】第6発明は、前記第5発明において、前記
音声入力装置とは特性の異なる音声入力装置から無音デ
ータを予め音声データによって学習されている既学習ニ
ューラルネットで学習させ、その学習データを自動ラベ
リング部に入力させるとともに、前記出力多重化ニュー
ラルネットで音声認識されたデータを自動ラベリング部
に入力させて学習させるようにしたことを特徴とする。
In a sixth aspect based on the fifth aspect, silent data is learned from a voice input device having a characteristic different from that of the voice input device by a learned neural network which is learned in advance by voice data, and the learned data is learned. In addition to inputting to the automatic labeling unit, data recognized by the output multiplexing neural network is input to the automatic labeling unit for learning.

【0019】[0019]

【発明の実施の形態】以下この発明の実施の形態を図面
に基づいて説明するに、図5と同一部分は同一符号を付
して示す。図1はこの発明の実施の第1形態を示すシス
テム構成図で、図1において、音素認識構成部11に
は、第1音声入力装置1から音声データが入力される。
第2音声入力装置2は、図5で示した学習データを収録
する際に使用した第1音声入力装置1とは異なる装置で
ある。第2音声入力装置2から入力された音声データは
データ入力部21に入力された後、特徴抽出部22に入
力される。この特徴抽出部22で音声データは周波数分
析された後、詳細を後述する自動ラベリング部23に入
力される。自動ラベリング部23では入力された音声デ
ータと、その音声データと共に入力される音素構成表
(後述する)をもとに音声データに対して音素ラベルを
付与したデータが作成される。このデータを基にして音
素認識部11cのニューラルネットを学習させるための
学習データ部24を作成する。このようにして得られた
音素ラベルを付与した音声データによって追加学習を適
当な回数行うことで所望の第2音声入力装置2からの入
力に対しても良好な認識結果が得られるような音素認識
部11cが実現できるようになる。上記データ入力部2
1、特徴抽出部22、自動ラベリング部23および学習
データ部24で認識補助システム25が構成される。
BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, an embodiment of the present invention will be described with reference to the drawings, in which the same portions as those in FIG. 5 are designated by the same reference numerals. FIG. 1 is a system configuration diagram showing a first embodiment of the present invention. In FIG. 1, voice data is input from a first voice input device 1 to a phoneme recognition configuration unit 11.
The second voice input device 2 is a device different from the first voice input device 1 used when recording the learning data shown in FIG. The voice data input from the second voice input device 2 is input to the data input unit 21 and then to the feature extraction unit 22. The voice data is frequency-analyzed by the feature extraction unit 22 and then input to an automatic labeling unit 23, the details of which will be described later. The automatic labeling unit 23 creates data in which a phoneme label is added to the voice data based on the input voice data and a phoneme configuration table (described later) input together with the voice data. Based on this data, the learning data unit 24 for learning the neural network of the phoneme recognition unit 11c is created. Phoneme recognition in which a good recognition result is obtained even with respect to the desired input from the second speech input device 2 by performing additional learning a suitable number of times using the phoneme-labeled speech data obtained in this way. The part 11c can be realized. The data input section 2
The recognition assisting system 25 includes the feature extraction unit 22, the automatic labeling unit 23, and the learning data unit 24.

【0020】次に上述した自動ラベリング部23につい
て図2を用いて述べる。図2において、自動ラベリング
部23とは、ニューラルネットによる学習型音素認識部
30と、DTWを基本とした音素境界最適位置検出部3
1とを持ち、発声された音声データがどういった音素に
よって構成されているかを示す音素構成表32と、第1
音声入力装置1から取り込んだ音声データによって学習
されたニューラルネット音素認識部11cから構成され
る。
Next, the automatic labeling unit 23 described above will be described with reference to FIG. In FIG. 2, an automatic labeling unit 23 is a learning type phoneme recognition unit 30 based on a neural network, and a phoneme boundary optimal position detection unit 3 based on DTW.
1 and a phoneme composition table 32 showing what kind of phoneme the uttered voice data is composed of;
It is composed of a neural network phoneme recognition unit 11c learned by the voice data taken in from the voice input device 1.

【0021】このように構成された自動ラベリング部2
3に入力された音声データは、既に学習された音素認識
部11cによる音素認識結果の中から発声データの音素
構成表に存在する音素のみを高い順位のものから選択す
る。選択されたものから音素列に変換され、それをもと
に、音素境界最適位置検出部31によって音素境界が設
定される。その後、その音素境界によって区切られた各
音素データにより、初期状態(未学習状態)のニューラ
ルネットを数回学習させる。この学習の後、ニューラル
ネットによって得られた音素認識結果を基に再び音素境
界最適位置検出部31により音素境界を設定する。以
下、境界位置の変動が収束するか、規定回数を終了する
かまで、初期状態のニューラルネットによる学習から音
素境界設定までを繰り返すことで最適な音素境界が得ら
れ、それを基にフレーム単位のデータに音素ラベルを付
与することができる。
The automatic labeling unit 2 configured as described above
With respect to the voice data input to No. 3, only the phonemes existing in the phoneme composition table of the utterance data are selected from the ones in the higher order among the phoneme recognition results by the phoneme recognition unit 11c that have already been learned. The selected one is converted into a phoneme sequence, and the phoneme boundary optimal position detection unit 31 sets a phoneme boundary based on the conversion. Then, the neural network in the initial state (unlearned state) is trained several times by each phoneme data divided by the phoneme boundary. After this learning, the phoneme boundary optimum position detection unit 31 sets the phoneme boundary again based on the phoneme recognition result obtained by the neural network. Hereinafter, until the variation of the boundary position converges or the specified number of times ends, the learning from the initial state neural network to the setting of the phoneme boundary is repeated to obtain the optimum phoneme boundary, and based on that, the optimum phoneme boundary is obtained. Phoneme labels can be attached to data.

【0022】上記の追加学習の方式に対して、実現した
い音声認識システムの仕様によって以下の3通りの例が
挙げられる。なお、以下の3つの例は実現に対して、デ
ータ収録にかかる時間と必要とする記憶容量の大小関係
が、例1<例2<例3となるので、必要とする認識シス
テムで何が要求されるかに応じてどれかを選択するよう
にする。
With respect to the above additional learning method, the following three examples can be given depending on the specifications of the speech recognition system to be realized. In order to realize the following three examples, the relationship between the time required for data recording and the required storage capacity is Example 1 <Example 2 <Example 3, so what is required by the required recognition system? Make sure you choose which one to use.

【0023】例1:認識させたい認識対象語彙が固定さ
れている場合 認識対象語彙に含まれる単語が、複数人によって発声さ
れた音声として第2音声入力装置2に入力され、この装
置2から出力される音声データをデータ入力部21、特
徴抽出部22を介して自動ラベリング部23に供給す
る。自動ラベリング部23では入力された音声データに
音素ラベルを付与してデータが作成される。この作成さ
れたデータを基に音素認識部11cのニューラルネット
を学習させるための学習データ部24を作成する。この
学習データ部24を既に第1音声入力装置1から入力し
た音声データによって学習されている既学習ニューラル
ネットに学習させる。その際の学習の程度は、全学習デ
ータを一通りニューラルネットに学習させることを数回
繰り返す程度とする。この学習によって得られたニュー
ラルネットを音素認識部11cに適用することで、第2
音声入力装置2に対しても良好に動作する音声認識シス
テムとすることができる。
Example 1: When the recognition target vocabulary to be recognized is fixed The words included in the recognition target vocabulary are input to the second voice input device 2 as voices uttered by a plurality of persons, and output from this device 2. The generated voice data is supplied to the automatic labeling unit 23 via the data input unit 21 and the feature extraction unit 22. The automatic labeling unit 23 attaches a phoneme label to the input voice data to create the data. A learning data unit 24 for learning the neural network of the phoneme recognition unit 11c is created based on the created data. The learning data unit 24 is trained by a learned neural network that has already been trained with the voice data input from the first voice input device 1. The degree of learning at that time is such that the learning of all the learning data through the neural network is repeated several times. By applying the neural network obtained by this learning to the phoneme recognition unit 11c, the second
A voice recognition system that operates well with respect to the voice input device 2 can be provided.

【0024】例2:認識対象語彙が任意である場合 複数人が発声した単語の音声データを第2音声入力装置
2を通して得たデータとして作成する。その際、発声す
る単語内容は全種類の音素を含み、さらに、なるべく多
くの種類の音素連鎖を含むものが望ましい。そうして得
られた音声データを基にニューラルネットを学習させる
ための学習データを作成する。この学習データを既に第
1音声入力装置1から入力した音声データによって学習
されている既学習ニューラルネットに学習させる。その
際の学習の程度は、全学習データを一通りニューラルネ
ットに学習させることを数回繰り返す程度とする。この
学習によって、第2音声入力装置2からの入力でも、任
意に設定した認識対象語彙に対して良好に動作する音声
認識システムとすることができる。
Example 2: When the vocabulary to be recognized is arbitrary The voice data of words uttered by a plurality of people is created as data obtained through the second voice input device 2. At that time, it is desirable that the content of the word to be uttered includes all types of phonemes and further includes as many types of phoneme chains as possible. Learning data for learning the neural network is created based on the voice data thus obtained. This learning data is learned by the learned neural network that has already been learned by the voice data input from the first voice input device 1. The degree of learning at that time is such that the learning of all the learning data through the neural network is repeated several times. By this learning, it is possible to obtain a voice recognition system that operates well even with an input from the second voice input device 2 with respect to an arbitrarily set recognition target vocabulary.

【0025】例3:認識対象語彙が任意で、もとの音声
入力装置に対しても動作させたい場合 複数人が発声した単語の音声データを第2音声入力装置
2を通して得たデータとして作成する。その際発声する
単語内容は全種類の音素を含み、さらに、なるべく多く
の種類の音素連鎖を含むものが望ましい。そうして得ら
れた音声データと、基の音声入力装置である第1音声入
力装置1を通して得て、既に音素認識部のニューラルネ
ットの学習に使用した音声データとをもとにニューラル
ネットを学習させるための学習データを作成する。この
学習データを既に第1音声入力装置1から入力した音声
データによって学習されている既学習ニューラルネット
に学習させる。その際の学習の程度は、全学習データを
一通りニューラルネットに学習させることを数回繰り返
す程度とする。この学習によって任意に設定した認識対
象語彙に対して第1音声入力装置1、第2音声入力装置
2のどちらからの音声入力でも良好に動作する音声認識
システムとすることができる。
Example 3: When the vocabulary to be recognized is arbitrary and it is desired to operate the original voice input device as well, voice data of words uttered by a plurality of persons is created as data obtained through the second voice input device 2. . At that time, it is desirable that the content of the word to be uttered includes all types of phonemes and further includes as many types of phoneme chains as possible. A neural network is learned based on the speech data obtained in this way and the speech data obtained through the first speech input apparatus 1 which is the original speech input apparatus and already used for learning the neural network of the phoneme recognition unit. Create learning data for the training. This learning data is learned by the learned neural network that has already been learned by the voice data input from the first voice input device 1. The degree of learning at that time is such that the learning of all the learning data through the neural network is repeated several times. By this learning, a voice recognition system can be provided which operates well with respect to the vocabulary to be recognized, which is arbitrarily set, by voice input from either the first voice input device 1 or the second voice input device 2.

【0026】次に上記例1を適用した場合の認識実験の
結果を示す。男性が16名が101単語を2回づつ発声
したデータを第1音声入力装置1から取り込んで学習さ
せることで得られた音声認識システムがある。これに対
して、音素的に類似した単語などを多く含み認識させる
タスクとしては難しい単語78語を認識対象語彙として
設定し、実験を行った(簡単なタスクの場合であると、
音声入力装置の違いによる影響が小さいため)。その結
果を表2に示す。
Next, the result of the recognition experiment when the above-mentioned Example 1 is applied is shown. There is a voice recognition system obtained by taking data from 16 voices of 16 men who have uttered 101 words twice each and learning the data from the first voice input device 1. On the other hand, 78 words, which are difficult for a task that includes many phoneme-similar words to be recognized, are set as recognition target vocabulary, and experiments are performed (in the case of a simple task,
Because the effect of differences in voice input devices is small). The results are shown in Table 2.

【0027】[0027]

【表2】 [Table 2]

【0028】第1音声入力装置1から入力した場合は、
78単語語彙に対して、男性3名が2回づつ発声した時
の単語認識率は、87.50%であった。これに対し
て、同じ男性3名によって、今度は第1音声入力装置1
とは異なる第2音声入力装置2から入力した場合、単語
認識率が77.35%にまで低下した。そこで、上記例
1に従って、78単語を2回づつ男性3名(上記認識率
を求めた男性3名とは異なる話者)が発声した音声デー
タを、第2音声入力装置2から取り込み、自動ラベリン
グシステムによって音素ラベルを付与した後に追加学習
を行った。その結果単語認識率は86.75%にまで改
善することができた。
When inputting from the first voice input device 1,
The word recognition rate for three 78-word vocabulary words was 87.50% when three men spoke each two times. On the other hand, by the same three men, this time the first voice input device 1
When inputting from the second voice input device 2 different from, the word recognition rate decreased to 77.35%. Then, according to the above-mentioned example 1, the voice data uttered by three males (speakers different from the three males for which the above recognition rate was obtained) with 78 words twice each was fetched from the second voice input device 2 and automatically labeled. After the phoneme labels were given by the system, additional learning was performed. As a result, the word recognition rate could be improved to 86.75%.

【0029】次に、この発明の実施の第2形態を図3に
基づいて説明するに、図1、2と同一部分は同一符号を
付して示し、その詳細な説明は省略する。図3はこの発
明の実施の第2形態を示すシステム構成図で、図3にお
いて、音素認識構成部11には、第1音声入力装置1か
ら音声データが入力される。第2音声入力装置2は、図
5で示した学習データを収録する際に使用した第1音声
入力装置1とは異なる装置である。第2音声入力装置2
から音声データが入力部21に入力される(詳細を後述
する)と同時に、第2音声入力装置2から無音データ(人
間の発生による音声区間以外のデータ)が入力部26に
入力された後、特徴抽出部27に入力される。この特徴
抽出部27で無音データは、周波数分析された後、あら
かじめ第1音声入力装置1から取り込んだ音声データに
よって学習された既学習ニューラルネット28にて学習
させる。その際の学習の程度は、全学習データを一通り
ニューラルネット28にて学習させることを数回繰り返
す程度とする。このように学習されたニューラルネット
28の出力を、自動ラベリング部23のニューラルネッ
トによる学習型音素認識部30に入力して自動ラベリン
グを実行して、無音データに対して音素ラベルを付与し
たデータが作成される。
Next, a second embodiment of the present invention will be described with reference to FIG. 3. The same parts as those in FIGS. 1 and 2 are designated by the same reference numerals, and detailed description thereof will be omitted. FIG. 3 is a system configuration diagram showing a second embodiment of the present invention. In FIG. 3, voice data is input from the first voice input device 1 to the phoneme recognition configuration unit 11. The second voice input device 2 is a device different from the first voice input device 1 used when recording the learning data shown in FIG. Second voice input device 2
Voice data is input to the input unit 21 (details will be described later), and at the same time, the second voice input device 2 inputs silence data (data other than the voice section generated by humans) to the input unit 26. It is input to the feature extraction unit 27. The silent data is frequency-analyzed by the feature extraction unit 27, and then learned by the learned neural network 28 that has been learned by the voice data previously taken from the first voice input device 1. The degree of learning at that time is such that learning of all the learning data through the neural network 28 is repeated several times. The output of the neural network 28 learned in this way is input to the learning type phoneme recognition unit 30 by the neural network of the automatic labeling unit 23 to perform automatic labeling, and the data in which the phoneme label is added to the silent data is Created.

【0030】第2音声入力装置2から入力された音声デ
ータは入力部21に入力された後、特徴抽出部22に入
力される。この特徴抽出部22で音声データは周波数分
析された後、自動ラベリング部23に入力され、音声デ
ータに対して音素ラベルを付与したデータが作成され
る。無音データおよび音声データに対して音素ラベルを
付与して得られたデータを基にして、音素認識部11c
のニューラルネットを学習させるための学習データ部2
4を作成する。このようにして得られた音素ラベルを付
与したデータによって、追加学習を適当な回数行うこと
で所望の第2音声入力装置2からの入力に対しても良好
な認識結果が得られような音素認識部11cが実現でき
るようになる。上記入力部21、入力部26、特徴抽出
部22、特徴抽出部27、ニューラルネット28、自動
ラベリング部23および学習データ部24で認識補助シ
ステム29が構成される。音声認識構成部11は上記第
1形態と同様に構成され、その詳細な説明は省略する。
The voice data input from the second voice input device 2 is input to the input unit 21 and then to the feature extraction unit 22. The voice data is frequency-analyzed by the feature extraction unit 22, and then input to the automatic labeling unit 23 to create data in which a phoneme label is added to the voice data. Based on data obtained by assigning phoneme labels to silent data and voice data, the phoneme recognition unit 11c
Learning data section 2 for learning the neural network of
Create 4. Phoneme recognition such that a good recognition result can be obtained even with respect to the desired input from the second speech input device 2 by performing additional learning a suitable number of times using the phoneme-labeled data obtained in this way. The part 11c can be realized. A recognition assisting system 29 is configured by the input unit 21, the input unit 26, the feature extraction unit 22, the feature extraction unit 27, the neural network 28, the automatic labeling unit 23, and the learning data unit 24. The voice recognition configuration unit 11 has the same configuration as that of the first embodiment, and detailed description thereof will be omitted.

【0031】上記のように構成する音声認識システムの
仕様において、複数人によって発声された単語の音声デ
ータを第2音声入力装置2により入力してデータを作成
する。なお、その際に発声する単語の内容は全種類の音
素を含み、なるべく多くの種類の音素連鎖を含むものが
望ましい。その際、音声データと同時に無音データを第
2音声入力装置2により入力してデータを作成し、その
データをニューラルネット28に学習させる。このよう
にして得られた音声データ、無音データを学習されたニ
ューラルネット28および第1音声入力装置1により得
られた音声データをもとに、音素認識構成部11のニュ
ーラルネットを学習させるための学習データを作成す
る。この学習データを、第1音声入力装置1により得ら
れた音声データにより学習された既学習ニューラルネッ
トに追加学習させる。その際の学習の程度は、全学習デ
ータを一通りニューラルネットに学習させることを数回
繰り返す程度とする。この学習により、第1音声入力装
置1、第2音声入力装置2のいずれの音声データに対し
ても音声認識構成部11の音素認識部11cが良好に動
作するようになり、単語認識率の向上を図ることができ
る。
According to the specifications of the voice recognition system configured as described above, the voice data of the words uttered by a plurality of people is input by the second voice input device 2 to create the data. In addition, the content of the word spoken at that time includes all types of phonemes, and preferably includes as many types of phoneme chains as possible. At that time, silent data is input simultaneously with the voice data by the second voice input device 2 to create data, and the neural network 28 is made to learn the data. To learn the neural network of the phoneme recognition configuration unit 11 based on the speech data obtained in this way, the neural network 28 learned the silent data, and the speech data obtained by the first speech input device 1. Create learning data. This learning data is additionally learned by the learned neural network learned by the voice data obtained by the first voice input device 1. The degree of learning at that time is such that the learning of all the learning data through the neural network is repeated several times. By this learning, the phoneme recognition unit 11c of the voice recognition configuration unit 11 works well for both the voice data of the first voice input device 1 and the second voice input device 2, and the word recognition rate is improved. Can be achieved.

【0032】次に、上記実施の第2形態を適用した場合
の認識実験の結果を示す。男性16名が101単語を2
回ずつ発声したデータを第1音声入力装置1から取り込
んで学習させることで得られた音声認識構成部がある。
これに対して、第2音声入力装置2から取り込んだ男性
3名が101単語を2回ずつ発声したデータを追加学習
用のデータとして、本発明の実施の第1形態方式および
第2形態方式により認識実験を行った。なお、認識実験
における対象話者を学習話者とテスト話者とに分類して
実験を行い、その結果を表3に示す。
Next, the result of the recognition experiment when the second embodiment is applied will be shown. 16 men 2 101 words
There is a voice recognition configuration unit obtained by fetching data that is uttered each time from the first voice input device 1 and learning the data.
On the other hand, data obtained by the three men who have taken in from the second voice input device 2 and uttered 101 words twice each is used as data for additional learning by the first and second modes of the embodiment of the present invention. A recognition experiment was conducted. The target speaker in the recognition experiment is classified into a learning speaker and a test speaker, and the experiment is performed. The results are shown in Table 3.

【0033】[0033]

【表3】 [Table 3]

【0034】第1音声入力装置1から入力した場合は、
101単語に対して、実施の第2形態方式による単語認
識率は学習話者が98.51%、テスト話者が97.8
5%であった。実施の第1形態方式による単語認識率は
学習話者が98.68%、テスト話者が97.52%で
あった。一方、第2音声入力装置2から入力した場合
は、101単語に対して、実施の第2形態方式による単
語認識率は学習話者が98.18%、テスト話者が9
6.53%であった。実施の第1形態方式による単語認
識率は学習話者が73.43%、テスト話者が50.0
0%であった。以上示したように実施の第2形態方式に
よれば、第1音声入力装置1、第2音声入力装置2のい
ずれからの音声入力でも良好な音声認識を行えることが
判明した。
When inputting from the first voice input device 1,
With respect to 101 words, the word recognition rate according to the second embodiment method was 98.51% for learning speakers and 97.8 for test speakers.
5%. The word recognition rate by the first embodiment method was 98.68% for the learning speaker and 97.52% for the test speaker. On the other hand, in the case of input from the second voice input device 2, the learning speaker has a word recognition rate of 98.18% and the test speaker has a word recognition rate of 9% for 101 words.
It was 6.53%. The word recognition rate according to the first embodiment method was 73.43% for learning speakers and 50.0% for test speakers.
It was 0%. As described above, according to the second embodiment system, it has been found that good voice recognition can be performed by voice input from either the first voice input device 1 or the second voice input device 2.

【0035】次に、この発明の実施の第3形態を図4に
基づいて説明するに、図2、3と同一部分には同一符号
を付して示し、その詳細な説明は省略する。図4におい
て、図3に示す音声認識システムとほぼ同様な構成から
なる音声認識システムを示すが、第2音声入力装置から
入力した音声データ、無音データを既学習ニューラルネ
ットで学習させたデータおよび第1音声入力装置から入
力した音声データにより学習された音声認識構成部11
の音素認識部11cの音素認識出力を自動ラベリング部
23に供給して、自動ラベリング部23のニューラルネ
ットによる学習型音素認識部30にて自動ラベリングを
実行し、音素認識部11cを再び学習させるように構成
する。その学習の程度は、全学習データを一通り学習さ
せることを数回繰り返すものとする。この学習により、
第1音声入力装置1、第2音声入力装置2のいずれの音
声データに対しても音声認識構成部の音声認識部が良好
に動作するようになり、単語認識率の効用を図ることが
できるようになる。
Next, a third embodiment of the present invention will be described with reference to FIG. 4. The same parts as those in FIGS. 2 and 3 are designated by the same reference numerals, and detailed description thereof will be omitted. FIG. 4 shows a voice recognition system having substantially the same configuration as that of the voice recognition system shown in FIG. 3, except that voice data input from the second voice input device and data obtained by learning silent data by a learned neural network and 1 Voice recognition configuration unit 11 learned from voice data input from a voice input device
The phoneme recognition output of the phoneme recognition unit 11c is supplied to the automatic labeling unit 23, and the learning type phoneme recognition unit 30 using the neural network of the automatic labeling unit 23 performs automatic labeling, so that the phoneme recognition unit 11c is learned again. To configure. As for the degree of learning, it is assumed that learning of all learning data is repeated several times. With this learning,
The voice recognition unit of the voice recognition configuration unit works well for both voice data of the first voice input device 1 and the second voice input device 2, and the word recognition rate can be improved. become.

【0036】上記のように構成する音声認識システムの
仕様において、複数人によって発声された単語の音声デ
ータを第2音声入力装置2により入力してデータを作成
する。なお、その際に発声する単語の内容は、全種類の
音素を含み、なるべく多くの種類の音素連鎖を含むもの
が望ましい。このようにして得られた音声データ、無音
データおよび第1音声入力装置1により得られた音声デ
ータをもとに、音素認識構成部11の音声認識部11c
のニューラルネットを学習させるための学習データを作
成する。この学習データを、第1音声入力装置1により
得られた音声データにより学習されている既学習ニュー
ラルネットに追加学習させる。その際の学習の程度は、
全学習データを一通りニューラルネットに学習させるこ
とを数回繰り返す程度とする。得られた音声認識構成部
11の音声認識部11cのデータを、再び認識補助シス
テム29の自動ラベリング部23の学習型音素認識部3
0に適用して自動ラベリングを実行し、学習型音素認識
部30を学習させて学習データを得る。そして、その学
習データを音素認識構成部11の音素認識部11cで学
習させる。この学習の程度は、全学習データを一通り学
習させることを数回繰り返すものとする。この学習によ
り、第1音声入力装置1、第2音声入力装置2のいずれ
の音声データに対しても音声認識構成部11の音素認識
部11cが良好に動作するようになり、単語認識率の向
上を図ることができる。
According to the specifications of the voice recognition system configured as described above, the voice data of the words uttered by a plurality of persons is input by the second voice input device 2 to create the data. In addition, the content of the word uttered at that time preferably includes all types of phonemes, and includes as many types of phoneme chains as possible. Based on the voice data, the silent data, and the voice data obtained by the first voice input device 1 thus obtained, the voice recognition unit 11c of the phoneme recognition configuration unit 11
Create learning data for learning the neural network of. This learning data is additionally learned by a learned neural network that has been learned from the voice data obtained by the first voice input device 1. The degree of learning at that time is
It is assumed that the neural network is trained once for all the learning data and is repeated several times. The obtained data of the speech recognition unit 11c of the speech recognition configuration unit 11 is used again for the learning-type phoneme recognition unit 3 of the automatic labeling unit 23 of the recognition assistance system 29.
0 is applied to perform automatic labeling, and the learning type phoneme recognition unit 30 is learned to obtain learning data. Then, the learning data is learned by the phoneme recognition unit 11c of the phoneme recognition configuration unit 11. As for the degree of this learning, it is assumed that learning of all learning data is repeated several times. By this learning, the phoneme recognition unit 11c of the voice recognition configuration unit 11 works well for both the voice data of the first voice input device 1 and the second voice input device 2, and the word recognition rate is improved. Can be achieved.

【0037】次に、上記実施の第3形態を適用した場合
の認識実験の結果を示す。男性16名が101単語を2
回ずつ発声したデータを第1音声入力装置1から取り込
んで学習させることで得られた音声認識システムがあ
る。これに対して、第2音声入力装置2から取り込んだ
男性3名が101単語を2回ずつ発声したデータを追加
学習用のデータとして、本発明の実施の第1形態および
第3形態方式により認識実験を行った。なお、認識実験
における対象話者を学習話者とテスト話者とに分類して
実験を行い、実施の第3形態方式においては、音素認識
構成部11の音素認識部11cのデータを認識補助シス
テムの自動ラベリング部23の音素認識部30に2回適
用させて実験を行い、その結果を表4に示す。
Next, the result of the recognition experiment when the third embodiment is applied will be shown. 16 men 2 101 words
There is a voice recognition system obtained by taking in data that is uttered each time from the first voice input device 1 and learning the data. On the other hand, the data obtained by uttering 101 words twice by three men captured from the second voice input device 2 is recognized as data for additional learning by the first and third embodiments of the present invention. An experiment was conducted. The target speaker in the recognition experiment is classified into a learning speaker and a test speaker, and the experiment is performed. In the third embodiment mode, the data of the phoneme recognition unit 11c of the phoneme recognition configuration unit 11 is used as a recognition assist system. The experiment was carried out by applying the same to the phoneme recognition unit 30 of the automatic labeling unit 23 twice, and the results are shown in Table 4.

【0038】[0038]

【表4】 [Table 4]

【0039】第1音声入力装置1から入力した場合は、
101単語に対して、実施の第3形態方式による単語認
識率は学習話者が98.35%、テスト話者が97.1
9%であった。実施の第1形態方式による単語認識率は
学習話者が98.68%、テスト話者が97.52%で
あった。一方、第2音声入力装置2から入力した場合
は、101単語に対して、実施の第3形態方式による単
語認識率は学習話者が98.51%、テスト話者が9
6.04%であった。実施の第1形態方式による単語認
識率は学習話者が73.43%、テスト話者が50.0
0%であった。以上示したように実施の第3形態方式に
よれば、第1音声入力装置1、第2音声入力装置2のい
ずれからの音声入力でも良好な音声認識を行えることが
判明した。
When inputting from the first voice input device 1,
With respect to 101 words, the word recognition rate according to the third embodiment method was 98.35% for learning speakers and 97.1 for test speakers.
It was 9%. The word recognition rate by the first embodiment method was 98.68% for the learning speaker and 97.52% for the test speaker. On the other hand, when inputting from the second voice input device 2, the word recognition rate by the third embodiment method is 98.51% for the learning speaker and 9 for the test speaker for 101 words.
It was 6.04%. The word recognition rate according to the first embodiment method was 73.43% for learning speakers and 50.0% for test speakers.
It was 0%. As described above, according to the third embodiment method, it has been found that good voice recognition can be performed by voice input from either the first voice input device 1 or the second voice input device 2.

【0040】[0040]

【発明の効果】以上述べたように、この発明によれば、
音声入力装置を変更した場合でも、単語認識精度を低下
させることがなく、良好に動作させることができる。
As described above, according to the present invention,
Even if the voice input device is changed, the word recognition accuracy is not lowered and the operation can be performed favorably.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の実施の第1形態を示すシステム構成
図。
FIG. 1 is a system configuration diagram showing a first embodiment of the present invention.

【図2】自動ラベリング部の詳細を示す処理構成図。FIG. 2 is a processing configuration diagram showing details of an automatic labeling unit.

【図3】本発明の実施の第2形態を示すシステム構成
図。
FIG. 3 is a system configuration diagram showing a second embodiment of the present invention.

【図4】本発明の実施の第3形態を示すシステム構成
図。
FIG. 4 is a system configuration diagram showing a third embodiment of the present invention.

【図5】離散単語音声認識システムの概要を示す構成
図。
FIG. 5 is a configuration diagram showing an outline of a discrete word speech recognition system.

【図6】音素認識部(ニューラルネットワーク)の構成
を示す説明図。
FIG. 6 is an explanatory diagram showing a configuration of a phoneme recognition unit (neural network).

【図7】単語認識部の構成を示す説明図。FIG. 7 is an explanatory diagram showing a configuration of a word recognition unit.

【符号の説明】[Explanation of symbols]

11…音素認識構成部 11a、21、26…データ入力部 11b、22、27…特徴抽出部 11c…音素認識部 12…単語認識部 13…辞書 23…自動ラベリング部 25、29…認識補助システム 24…学習データ 28…ニューラルネット 11 ... Phoneme recognition configuration section 11a, 21, 26 ... Data input section 11b, 22, 27 ... Feature extraction section 11c ... Phoneme recognition section 12 ... Word recognition section 13 ... Dictionary 23 ... Automatic labeling section 25, 29 ... Recognition assistance system 24 … Learning data 28… Neural network

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 音声入力装置より入力された単語音声デ
ータを周波数分析し、それを出力多重化ニューラルネッ
トに入力させて音素認識を行わせて、認識音素第1位音
素候補と第2位音素候補を得、その認識された音素候補
列と、認識させたい語彙の音素パターンを持たせた辞書
中のテンプレートとの類似度を、テンプレート中の音素
と認識された音素候補列中の第1位および第2位候補と
の類似度を局所スコアとし、その局所スコアをDTW法
によって累積することで全体の類似度スコアを求めた
後、認識させたい全ての語彙の中で、その類似度スコア
が最小となる単語を認識結果として出力する音声認識シ
ステムにおいて、 前記音声入力装置とは特性が異なる音声入力装置から入
力した音声データに音素ラベルを付与した学習データを
得る自動ラベリング部を設け、この自動ラベリング部で
得た学習データで前記ニューラルネットを学習させるよ
うにしたことを特徴とする離散単語音声認識システムに
おける音声データ学習装置。
1. A word voice data input from a voice input device is frequency-analyzed, and the result is input to an output multiplex neural network for phoneme recognition to recognize a recognized phoneme first-rank phoneme candidate and second-rank phoneme. A candidate is obtained, and the similarity between the recognized phoneme candidate sequence and the template in the dictionary having the phoneme pattern of the vocabulary to be recognized is determined as the first place in the phoneme candidate sequence recognized as the phoneme in the template. The similarity score with the second candidate is used as a local score, and the local score is obtained by accumulating the local scores by the DTW method to obtain the overall similarity score. In a voice recognition system that outputs the smallest word as a recognition result, learning data obtained by adding phoneme labels to voice data input from a voice input device having characteristics different from those of the voice input device is obtained. Automatic labeling section provided, the audio data learning apparatus in discrete word recognition system is characterized in that so as to learn the neural network learning data obtained in the automatic labeling unit.
【請求項2】 前記自動ラベリング部は、ニューラルネ
ットによる学習型音素認識部と、DTWを基本とした音
素境界最適位置検出部と、発声された音声データがどの
ような音素によって構成されているかを示す音素構成表
とからなることを特徴とする請求項1記載の離散単語音
声認識システムにおける音声データ学習装置。
2. The automatic labeling unit determines a learning type phoneme recognition unit using a neural network, a phoneme boundary optimal position detection unit based on DTW, and what kind of phoneme the uttered voice data is composed of. The speech data learning device in the discrete word speech recognition system according to claim 1, characterized in that it comprises a phoneme configuration table shown.
【請求項3】 前記学習データは、全種類の音素が含ま
れ、かつなるべく多くの音素連鎖が含まれるようにし
て、任意に設定した語彙に対しても認識率が低下しない
ようにしたことを特徴とする請求項1記載の離散単語音
声認識システムにおける音声データ学習装置。
3. The learning data includes all types of phonemes and includes as many phoneme chains as possible so that the recognition rate does not decrease even for an arbitrarily set vocabulary. The voice data learning device in the discrete word voice recognition system according to claim 1.
【請求項4】 前記ニューラルネットを学習させる際
に、もとの音声入力装置から入力した音声データも併せ
て学習を行って、任意に設定した語彙に対しても、もと
の音声入力装置からでも、もとの音声入力装置とは特性
が異なる音声入力装置からでも認識率が低下しないよう
にしたことを特徴とする請求項1記載の離散単語音声認
識システムにおける音声データ学習装置。
4. When learning the neural network, the voice data input from the original voice input device is also learned, so that the vocabulary set arbitrarily can also be learned from the original voice input device. However, the speech data learning apparatus in the discrete word speech recognition system according to claim 1, wherein the recognition rate does not decrease even from a speech input apparatus having characteristics different from those of the original speech input apparatus.
【請求項5】 前記音声入力装置とは特性が異なる音声
入力装置から入力した無音データを予め音声データによ
って学習されている既学習ニューラルネットで学習さ
せ、その学習データを自動ラベリング部に学習させたこ
とを特徴とする請求項1〜4記載の離散単語音声認識シ
ステムにおける音声データ学習装置。
5. Silence data input from a voice input device having a characteristic different from that of the voice input device is learned by a learned neural network that is learned in advance by voice data, and the learned data is learned by an automatic labeling unit. The voice data learning device in the discrete word voice recognition system according to any one of claims 1 to 4.
【請求項6】 前記音声入力装置とは特性の異なる音声
入力装置から無音データを予め音声データによって学習
されている既学習ニューラルネットで学習させ、その学
習データを自動ラベリング部に入力させるとともに、前
記出力多重化ニューラルネットで音声認識されたデータ
を自動ラベリング部に入力させて学習させるようにした
ことを特徴とする請求項5記載の離散単語音声認識シス
テムにおける音声データ学習装置。
6. The silent data is learned from a voice input device having a characteristic different from that of the voice input device by an already learned neural network learned in advance by voice data, and the learned data is input to an automatic labeling unit, and 6. The voice data learning device in a discrete word voice recognition system according to claim 5, wherein the data recognized by the output multiplex neural network is input to an automatic labeling unit for learning.
JP8315731A 1996-03-26 1996-11-27 Voice data learning device in discrete word voice recognition system Pending JPH09319395A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8315731A JPH09319395A (en) 1996-03-26 1996-11-27 Voice data learning device in discrete word voice recognition system

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP6954396 1996-03-26
JP8-69543 1996-03-26
JP8315731A JPH09319395A (en) 1996-03-26 1996-11-27 Voice data learning device in discrete word voice recognition system

Publications (1)

Publication Number Publication Date
JPH09319395A true JPH09319395A (en) 1997-12-12

Family

ID=26410727

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8315731A Pending JPH09319395A (en) 1996-03-26 1996-11-27 Voice data learning device in discrete word voice recognition system

Country Status (1)

Country Link
JP (1) JPH09319395A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100486735B1 (en) * 2003-02-28 2005-05-03 삼성전자주식회사 Method of establishing optimum-partitioned classifed neural network and apparatus and method and apparatus for automatic labeling using optimum-partitioned classifed neural network
JP2021032909A (en) * 2019-08-13 2021-03-01 日本電信電話株式会社 Prediction device, prediction method and prediction program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100486735B1 (en) * 2003-02-28 2005-05-03 삼성전자주식회사 Method of establishing optimum-partitioned classifed neural network and apparatus and method and apparatus for automatic labeling using optimum-partitioned classifed neural network
JP2021032909A (en) * 2019-08-13 2021-03-01 日本電信電話株式会社 Prediction device, prediction method and prediction program

Similar Documents

Publication Publication Date Title
CN107195296B (en) Voice recognition method, device, terminal and system
KR100815115B1 (en) An Acoustic Model Adaptation Method Based on Pronunciation Variability Analysis for Foreign Speech Recognition and apparatus thereof
Nakamura et al. Differences between acoustic characteristics of spontaneous and read speech and their effects on speech recognition performance
US5679001A (en) Children&#39;s speech training aid
KR100383353B1 (en) Speech recognition apparatus and method of generating vocabulary for the same
US7630878B2 (en) Speech recognition with language-dependent model vectors
EP1233406A1 (en) Speech recognition adapted for non-native speakers
CN111862954B (en) Method and device for acquiring voice recognition model
JPH0876788A (en) Detection method of easy-to-confuse word in voice recognition
US20070294082A1 (en) Voice Recognition Method and System Adapted to the Characteristics of Non-Native Speakers
KR19980070329A (en) Method and system for speaker independent recognition of user defined phrases
Ahsiah et al. Tajweed checking system to support recitation
JP2001166789A (en) Method and device for voice recognition of chinese using phoneme similarity vector at beginning or end
Bernstein et al. Speech recognition by computer
KR100467590B1 (en) Apparatus and method for updating a lexicon
JP3535292B2 (en) Speech recognition system
Venkatagiri Speech recognition technology applications in communication disorders
CN112216270B (en) Speech phoneme recognition method and system, electronic equipment and storage medium
JPH09319395A (en) Voice data learning device in discrete word voice recognition system
US20120116764A1 (en) Speech recognition method on sentences in all languages
Sugamura et al. Speech processing technologies and telecommunications applications at NTT
Kuah et al. A neural network-based text independent voice recognition system
CN111696530B (en) Target acoustic model obtaining method and device
JP2001188556A (en) Method and device for voice recognition
JPH06337700A (en) Voice synthesizer