JPS60147797A - Voice recognition equipment - Google Patents

Voice recognition equipment

Info

Publication number
JPS60147797A
JPS60147797A JP59003923A JP392384A JPS60147797A JP S60147797 A JPS60147797 A JP S60147797A JP 59003923 A JP59003923 A JP 59003923A JP 392384 A JP392384 A JP 392384A JP S60147797 A JPS60147797 A JP S60147797A
Authority
JP
Japan
Prior art keywords
consonant
phoneme
vowel
section
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59003923A
Other languages
Japanese (ja)
Other versions
JPH0333280B2 (en
Inventor
藤井 諭
森井 秀司
昌克 星見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP59003923A priority Critical patent/JPS60147797A/en
Publication of JPS60147797A publication Critical patent/JPS60147797A/en
Publication of JPH0333280B2 publication Critical patent/JPH0333280B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 産業上の利用分野 本発明は入間の声によって発声された音声信号を自動的
に認識するための、音声認識装置に関するものである。
DETAILED DESCRIPTION OF THE INVENTION Field of the Invention The present invention relates to a speech recognition device for automatically recognizing a speech signal uttered by Iruma's voice.

従来例の構成とその問題点 音声を自動的に認識する音声認識装置は人間から電子計
算機や各種機械へデータや命令を与える手段として非常
に有効と考えられる。
Conventional configurations and their problems A speech recognition device that automatically recognizes speech is considered to be very effective as a means for providing data and commands from humans to computers and various machines.

従来研究あるいは発表されている音声認識装置の動作原
理としてはバタンマツチング法が多く採用されている。
The slam matching method is often adopted as the operating principle of speech recognition devices that have been researched or published in the past.

との方法は認識される必要がある全種類の単語に対して
標準バタンをあらかじめ記憶しておき、入力される未知
の入カパタ/と比較することによって一致の度合(以下
類似度と呼ぶ)を計算し、最大一致が得られる標準バタ
ンと同一の単語であると判定するものである。このバタ
ンマツチング法では認識されるべき全ての単語に対して
標準バタンを用意しなければならないため、発声者が変
った場合には新しく標準・くタンを入力して記憶させる
必要がある。従って数百種類以上の単語を認識対象とす
るような場合、全種類の単語を発声して登録するには時
間と労力を必要とし、又登録に要するメモリー容量も膨
大になることが予想される。さらに入力バタンと標準バ
タンのバタンマツチングに要する時間も単語数が多くな
ると長くなってしまう欠点がある。
This method memorizes standard patterns for all types of words that need to be recognized in advance, and compares them with unknown input patterns to determine the degree of matching (hereinafter referred to as similarity). The word is calculated and determined to be the same word as the standard batan that yields the maximum match. In this batan matching method, a standard batan must be prepared for every word to be recognized, so if the speaker changes, it is necessary to input and memorize a new standard batan. Therefore, if more than several hundred types of words are to be recognized, it is expected that it will take time and effort to pronounce and register all types of words, and the memory capacity required for registration will be enormous. . Furthermore, there is a drawback that the time required for matching the input button and the standard button increases as the number of words increases.

これに対して、入力音声を音素単位に分けて音素の組合
せとして認識しく以下音素認識と呼ぶ)音素単位で表記
された単語辞書との類似度をめる方法は単語辞書に袈す
るメモリー容量が大幅に少なくて済み、バタンマツチン
グに要する時間が短く、辞書の内容変更も容易であると
いう特長を持っている。例えば「従い」という発声は/
a /。
On the other hand, the method of dividing the input speech into phoneme units and recognizing them as combinations of phonemes (hereinafter referred to as phoneme recognition) and calculating the similarity with a word dictionary expressed in phoneme units requires less memory capacity for the word dictionary. It has the advantage that it requires much less time, the time required for slam matching is short, and it is easy to change the contents of the dictionary. For example, the utterance of “obey” is /
a/.

/に/、/i/という三つの音素を組合せてAKAIと
いう極めて簡単な形式で表現することができるため、不
特定話者で多数語の音声に対処することが容易である。
Since the three phonemes /ni/ and /i/ can be combined and expressed in an extremely simple format called AKAI, it is easy for unspecified speakers to deal with speech of many words.

第1図に音素認識を行うことを特徴とする音声認識方式
のプロ、り図を示す。マイク等で入力された音声は音響
分析部1によって分析を行なう。
FIG. 1 shows a professional diagram of a speech recognition method characterized by phoneme recognition. Audio input through a microphone or the like is analyzed by an acoustic analysis section 1.

分析方法としては帯域フィルタ群や勝形予側分析を用い
、フレーム周期(1’oms程度)毎にスペクトル情報
を得る。音素判別部2では、音響分析部1で得たスペク
トル情報を用い、標準パターン格納部3のデータによっ
てフレーム毎の音素判別を行なう。標準パターン格納部
3に格納された標準パターンは、あらかじめ多数話者の
音声より音素毎にめておく。セグメンテーション部4で
は、音響分析部1の分析出力をもとに音声区間の検出と
音素毎の境界決定(以下セグメンテーションと呼ぶ)を
行う。音素認識部6ではセグメンテーシを行う。この結
果として音素の系列が完成する。
As an analysis method, a bandpass filter group or a winning side analysis is used, and spectral information is obtained every frame period (about 1'oms). The phoneme discrimination unit 2 uses the spectrum information obtained by the acoustic analysis unit 1 to discriminate phonemes for each frame based on the data in the standard pattern storage unit 3. The standard patterns stored in the standard pattern storage section 3 are prepared in advance for each phoneme from the voices of many speakers. The segmentation unit 4 detects speech intervals and determines boundaries for each phoneme (hereinafter referred to as segmentation) based on the analysis output of the acoustic analysis unit 1. The phoneme recognition unit 6 performs segmentation. As a result, a series of phonemes is completed.

単語認識部6では、この音素系列を、同様に音素系列で
表記された単語辞書7と照合し、最も類似度の高い単語
全認識結果として出力する。
The word recognition unit 6 compares this phoneme sequence with a word dictionary 7 similarly written in phoneme sequences, and outputs the results of recognition of all words with the highest degree of similarity.

前記従来のセグメンテーション部4では、子音のセグメ
ンテーションを次のように行っていた。
The conventional segmentation unit 4 performs consonant segmentation as follows.

第2図aはパワーの時間に対する変化の大きさを、第2
図すはパワーの変化速度の時間に対する変化の大きさを
示したもので、帯域フィルタを用いたパワーの時間的変
化の形8が凹状の形をしている時(これをディップと呼
ぶ)、パワーが極小値を示すフレームラn、とし、n、
の前後のフレームでパワーの時間による変化速度(これ
ヲハワーの差分値と呼ぶ)9が負および正の極太値を示
すフレームをn2. n、とする。また、あるフレーム
nにおける差分値をWD(n)とすると、 VD (n、) −WD (n2)<θa)(1)の条
件を満足する時、n2〜n、までの区間を子音区間とし
ていた。ここで0 は子音の付加を防ぐω ためのいき値で予め統計的な分布に基づき決定されるも
のである。
Figure 2a shows the magnitude of the change in power over time.
The figure shows the magnitude of the change in the rate of change of power over time. When the shape of the temporal change in power using a bandpass filter 8 is concave (this is called a dip), Let n be a frame line in which the power shows a local minimum value, and n,
The frame in which the rate of change of power over time (this is called the power difference value) 9 shows extremely large negative and positive values in the frames before and after n2. Let it be n. Also, if the difference value in a certain frame n is WD(n), when the condition of VD (n,) -WD (n2)<θa) (1) is satisfied, the interval from n2 to n is considered as a consonant interval. there was. Here, 0 is a threshold value for ω to prevent the addition of consonants, and is determined in advance based on statistical distribution.

セグメンテーション部4および音素判別部2の詳細を第
3図に示す。セグメンテーション部4はディップ検出部
31、子音区間決定部32、子音判定部33からなり音
響分析でイ曾た帯域フィルタのパワーを用いてディップ
検出部31にて前記ディップ検出を行い、子音区間決定
部32で第2図のn2〜n3間を子音区間として決定す
る。この区間に対してスペクトル形状をもとに子音判定
部33にて子音判定を行う。一方、音素判別部2は母音
候補抽出部36と母音区間決定部36よりなり音響分析
で得たLPCケプストラム係数を用いて、標準バタン格
納部3に対する類似度計算を母音候補抽出部36にて行
い、最も類似度の高い音素を母音候補として抽出する。
Details of the segmentation unit 4 and phoneme discrimination unit 2 are shown in FIG. The segmentation unit 4 includes a dip detection unit 31, a consonant interval determination unit 32, and a consonant determination unit 33. The dip detection unit 31 performs dip detection using the power of a bandpass filter determined by acoustic analysis, and the consonant interval determination unit At step 32, the area between n2 and n3 in FIG. 2 is determined as a consonant section. The consonant determination section 33 performs consonant determination for this section based on the spectral shape. On the other hand, the phoneme discrimination unit 2 includes a vowel candidate extraction unit 36 and a vowel interval determination unit 36, and the vowel candidate extraction unit 36 calculates the similarity with respect to the standard slam storage unit 3 using the LPC cepstral coefficients obtained by acoustic analysis. , the phoneme with the highest degree of similarity is extracted as a vowel candidate.

この場合標準バタン格納部3は5母音および鼻音を対象
として、フレーム毎のLPCケプストラム係数を用いて
作成しておく。この結果を子音区間決定部32でめた子
音区間以外に適用し、母音区間および母音の種類を母音
区間決定部36″決定りる・0の結果を子音判定部33
の結・果と組合せることによって音素認識部6にて音素
認識を行い、第1図に示した単語認識部6へ送る。
In this case, the standard slam storage section 3 is created using LPC cepstral coefficients for each frame, targeting the five vowels and nasal sounds. This result is applied to consonant intervals other than the consonant interval determined by the consonant interval determination unit 32, and the vowel interval and vowel type are determined by the vowel interval determination unit 36''.
The phoneme recognition unit 6 performs phoneme recognition by combining the results with the results of , and sends the result to the word recognition unit 6 shown in FIG.

この方法によれば音素のセグメンテーション。According to this method phoneme segmentation.

判別を良好に行なうことができるが、ディップの存在に
よって一義的に音素境界を決定してしまうために、欠点
が2つある。その1つは母音中でノ々ワーが不安定にな
りだ時にもディップとして検出してしまうため子音が付
加されてしまい、日本語の規則により必然的に母音が付
加されるため、結果として子音1個の付加によって2音
素付加になってしまうことである。もう1つはディップ
の区間が必ずしも正しい境界を表わさないことにより、
母音、子音間の正しい境界が作証されなくなってしまう
ことである。これによって、母音、子音の判別誤り、単
母音と長母音の判別誤りなどを生ずる。
Although good discrimination can be made, there are two drawbacks because phoneme boundaries are uniquely determined by the presence of dips. One of them is that even when no-no-wah becomes unstable in a vowel, it is detected as a dip, so a consonant is added. The problem is that the addition of one phoneme results in the addition of two phonemes. Another reason is that the dip section does not necessarily represent the correct boundary.
The problem is that the correct boundaries between vowels and consonants are not established. This causes errors in discrimination between vowels and consonants, errors in discrimination between simple vowels and long vowels, and the like.

第4図にその1例を示す。これは「番号」と発声した例
で、乙のラベルで各音素の位置を示す。
An example is shown in FIG. This is an example of saying "number" and indicating the position of each phoneme using the Otsu label.

第3図のディップ検出音631でディップCを検出し、
その結果を子音区間決定部32に転送し、さらに子音判
定部33で判定した結果をdに示す。
Dip C is detected by the dip detection sound 631 in FIG.
The result is transferred to the consonant section determining section 32, and the result determined by the consonant determining section 33 is shown in d.

一方母音候補抽出部36の抽出結果をeに示し、子音区
間決定部32の結果と母音候補eとを組合せて母音区間
決定部36で母音認識を行う。その結果をfに示す。そ
の母音認識結果fと子音=S結果dとを音素認識部6へ
転送し、認識結果すを得る。子音認識dの項には、ディ
ップCの位置によって第2図n2〜n3間を子音の区間
として決定し、標準パタンに対するスペクトルの類似度
によって音素の種類を決定した結果を示す。母音候補e
の項では母音および鼻音を対象にスペクトルの類似度の
最も高い音素を示す。子音認識dの境界を正しい境界と
して母音候補eを機械的に組み合わせることにより、認
識結果すの項で示すような音素系列が作成される。
On the other hand, the extraction result of the vowel candidate extraction unit 36 is shown in e, and the vowel segment determination unit 36 performs vowel recognition by combining the result of the consonant interval determination unit 32 and the vowel candidate e. The results are shown in f. The vowel recognition result f and the consonant=S result d are transferred to the phoneme recognition section 6 to obtain a recognition result. The consonant recognition section d shows the results of determining the consonant section between n2 and n3 in FIG. 2 according to the position of dip C, and determining the type of phoneme according to the degree of spectral similarity to the standard pattern. vowel candidate e
The section shows the phonemes with the highest spectral similarity for vowels and nasals. By mechanically combining the vowel candidates e using the boundaries of the consonant recognition d as correct boundaries, a phoneme sequence as shown in the section ``Recognition Results'' is created.

ラベルaと認識結果すとを比較、すると、/h/と/u
/が付加している。又、/N/が/n/に置換し、/り
/の区間が誤りている。
Comparing label a and recognition result, /h/ and /u
/ is added. Also, /N/ is replaced with /n/, and the /ri/ section is incorrect.

これは単なる一例であり、第2図で示したディップの区
間が必ずしも子音の境界を表わさないことが原因で起る
ものである。
This is just one example, and is caused by the fact that the dip sections shown in FIG. 2 do not necessarily represent consonant boundaries.

このような誤りが発生する頻度は人によって異なり、発
声方法の不安定な発声者や、ディップを検出するための
帯域フィルタに対する周波数特性のずれの大きい発声者
に対して誤りが多く生ずる。
The frequency with which such errors occur differs from person to person, and errors occur more frequently for speakers whose vocalization method is unstable or for speakers whose frequency characteristics deviate greatly from the bandpass filter for detecting dips.

その結果、音素の付加、脱落、置換が多発し、単語認識
の性能を劣化させてしまう欠点があった。
As a result, additions, omissions, and substitutions of phonemes occur frequently, which has the disadvantage of deteriorating word recognition performance.

発明の目的 本発明は前記欠点を解消し、音素のセグメンテーション
の精度および音素判別を向上させることによって高性能
な音声認識方法を提供することを目的とする。
OBJECTS OF THE INVENTION An object of the present invention is to eliminate the above-mentioned drawbacks and provide a high-performance speech recognition method by improving the accuracy of phoneme segmentation and phoneme discrimination.

発明の構成 本発明は前記目的を達成するもので、標準パタンに対す
る音素の類似度をめ、またパワーの変化に基づいて子音
候補の位置をめ、母音に対する類似度の連続性および強
度によるスペクトルの安定性に基づき抽出された母音候
補と、子音候補とを照合することによって音素間の境界
の位置および境界間の音素の種類を精度良く決定し、高
性能な音声認lt−行うことを可能とするものである。
SUMMARY OF THE INVENTION The present invention achieves the above-mentioned objects by determining the similarity of phonemes to a standard pattern, determining the position of consonant candidates based on changes in power, and determining the continuity of similarity and intensity of the spectrum with respect to vowels. By comparing vowel candidates extracted based on stability with consonant candidates, the position of the boundary between phonemes and the type of phoneme between the boundaries can be determined with high accuracy, making it possible to perform high-performance speech recognition. It is something to do.

実施例の説明 以下に本発明の実施例を図面とともに説明する。Description of examples Embodiments of the present invention will be described below with reference to the drawings.

第4図に示したような誤りが生ずるのは、ディップの区
間が必ずしも子音の境界を表わさない原因によるもので
ある。ディップはパワーの変動によって生ずるが、スペ
クトルの変動とは必ずしも対応しない。すなわち、ディ
ップが存在してもスペクトルの変動がなければそこに子
音は存在しないと考えることができる。又、ディップの
始端又は終端の位置ではスペクトルが安定し、それ以外
の位置でスペクトルが大きく変化していれば、真の音素
境界はその位置にあると考えることができる。本実施例
はこの性質を積極的に利用して子音と母音の境界を精度
よく決定することを可能としたものである。
The error shown in FIG. 4 occurs because the dip section does not necessarily represent the consonant boundary. Dips are caused by power fluctuations, but do not necessarily correspond to spectral fluctuations. In other words, even if a dip exists, if there is no change in the spectrum, it can be considered that no consonant exists there. Furthermore, if the spectrum is stable at the position of the start or end of the dip, and the spectrum changes significantly at other positions, it can be considered that the true phoneme boundary is at that position. This embodiment makes it possible to accurately determine the boundary between a consonant and a vowel by actively utilizing this property.

第6図に本発明の一実施例である音声認識装置の主要部
分のブロック図を示す。
FIG. 6 shows a block diagram of the main parts of a speech recognition device that is an embodiment of the present invention.

標準バタン格納部44に格納される標準パターンは母音
および鼻音を対象に音素中心付近nフレームのp次LP
Gケプヌトラム係数を用いて作成しておく。すなわち時
間−周波数軸の2次元バタンで構成する。音素iのnフ
レーム目におけるp次LPGケブヌトラム係数ヲC1n
p と表わし、ベクトルyエ を作成する。
The standard pattern stored in the standard baton storage unit 44 is a p-order LP of n frames near the phoneme center for vowels and nasals.
It is created using the G kepnutrum coefficient. In other words, it is composed of two-dimensional bumps on the time-frequency axis. p-order LPG key nutrum coefficient woC1n in the n-th frame of phoneme i
Denote it as p and create a vector y.

yl=(cl、1.C工、□、・・・、c14.c、□
1.・・・、Cム1.・・ら1.・・・+C1np )
多数の音声による1、を集計し、y#iの平均値をmg
(3はパラメータの順番を表わし、最大はに=nXp)
とする。共分散行列を音素の種類にかかわらず共通とし
、IWで表わす。IWの逆行列をIW−1とし、(]I
I′)要素をσjコ′とすると、音素iのj@目のパラ
メータに対する重み係数a 1.はで表わすことができ
る。
yl=(cl, 1.C engineering, □,..., c14.c, □
1. ..., Cmu1. ...Ra1. ...+C1np)
1 from many voices and calculate the average value of y#i in mg
(3 represents the order of parameters, maximum = nXp)
shall be. The covariance matrix is the same regardless of the type of phoneme, and is expressed as IW. Let the inverse matrix of IW be IW-1, (]I
I') If the element is σj, then the weighting coefficient a for the j@th parameter of phoneme i 1. It can be expressed as .

多数話者の音声データより得られたパラメータx(?+
 + −”2 + ”’ + xj + ”’ + !
k)の音素工の分布に対するマ・・ラノビス距離り工′
は で表わすことができる。tは転置行列を表わす。
Parameter x(?+
+ −”2 + ”’ + xj + ”’ + !
k) Ma Lanobis distance operator for the distribution of phoneme operators'
It can be expressed as . t represents a transposed matrix.

(3)式の第1項は音素の種類に依存しないため省略し
、類似度Li を簡易的に L1=j4 aijxj miw ml(4)でめるこ
とができる。
The first term of equation (3) is omitted because it does not depend on the type of phoneme, and the similarity Li can be simply determined as L1=j4 aijxj miw ml (4).

従って、標準バタン格納部44には(4)式のa:Ij
および定数m工Wmエ を入れておけば良い。
Therefore, in the standard button storage section 44, a:Ij of equation (4)
It is sufficient to include the constant m and Wm.

次に入力音声より得られたパラメータX(X1+x2.
・・・・・・、乃、・・・xk)に対する類似度Li 
を(4)式を用いて母音候補抽出部45で算出し、母音
に対する類似度の連続性および強度によるスペクトルの
安定性に基づき母音候補を抽出し、その結果を母音区間
記憶部46へ転送する。
Next, parameters X(X1+x2.
..., 乃, ...xk)
is calculated by the vowel candidate extracting unit 45 using equation (4), and vowel candidates are extracted based on the continuity of the similarity to the vowel and the stability of the spectrum by intensity, and the result is transferred to the vowel interval storage unit 46. .

一方、音響分析を行った後、ディップ検出部40にて帯
域フィルタのパワーのディップ検出を行う。子音区間検
出部41で第2図に示すn2〜n3間を仮の子音区間と
し子音区間記憶部42にその結果を転送する。ディップ
検出部40と子音区間決定部41で子音候補抽出部49
を構成する。
On the other hand, after performing the acoustic analysis, the dip detection section 40 performs dip detection of the power of the bandpass filter. The consonant section detection section 41 sets the period between n2 and n3 shown in FIG. 2 as a temporary consonant section and transfers the result to the consonant section storage section 42. Consonant candidate extraction unit 49 with dip detection unit 40 and consonant interval determination unit 41
Configure.

子音区間記憶部42と母音区間記憶部46とを音素境界
決定部47にて照合し、音素境界の決定を行う。この場
合標準バタン格納部44は音素中心付近の複数フレーム
で統計的に構成しであるため、母音中のスペクトルのわ
ずかな変動は母音中におけるスペクトルの単なる乱れで
あるとして吸収することができる。又、子音との境界に
おけるあいまい領域ではスペクトルが時間的に安定でな
いため大きな類似度が表われない。この性質を利用する
ことによって母音区間を精度良く抽出することができる
A phoneme boundary determination unit 47 collates the consonant interval storage unit 42 and the vowel interval storage unit 46 to determine the phoneme boundary. In this case, since the standard slam storage section 44 is statistically configured with a plurality of frames near the center of the phoneme, slight fluctuations in the spectrum in the vowel can be absorbed as mere disturbances in the spectrum in the vowel. Furthermore, in the ambiguous region at the boundary with the consonant, the spectrum is not stable over time, so a large degree of similarity does not appear. By utilizing this property, vowel intervals can be extracted with high accuracy.

従って音素境界の存在する可能性のない子音候補は取除
き、子音区間の大きく誤ったものは修正して、結果を子
音に対しては子音区間記憶部42に、母音に対しては母
音区間記憶部46にもどすことができる。
Therefore, consonant candidates for which there is no possibility of a phoneme boundary are removed, consonant intervals with large errors are corrected, and the results are stored in the consonant interval storage unit 42 for consonants and in the vowel interval memory for vowels. It can be returned to section 46.

次に音素境界決定部47で決定され子音区間記憶部42
を経た結果に基づき子音判定部43にて新しい区間にお
ける標準パターンに対するスペクトルの類似度を計算し
子音判定を行う。この結果と母音区間記憶部46の結果
と組合わせることによって音素認識部48で音素認識を
行い、その結果を単語−識部に転送する。
Next, the phoneme boundary determination unit 47 determines the consonant interval storage unit 42.
Based on the results, the consonant determination unit 43 calculates the degree of spectral similarity to the standard pattern in the new section and performs consonant determination. By combining this result with the result of the vowel interval storage section 46, the phoneme recognition section 48 performs phoneme recognition, and the result is transferred to the word-identification section.

第6図に本実施例により認識を行った例を示す。FIG. 6 shows an example of recognition performed by this embodiment.

図においてaは祝祭によって決定されたラベルを示す。In the figure, a indicates the label determined by the festival.

Cは第5図のディップ検出部40により検出されたディ
ップ領域を示し、dは子音区間決定部41で決定された
子音候補を示す。またeは音素境界決定部4了により修
正を加えられた子音候補であり、6はeに示した子音候
補を子音判定部43で判定した子音認識結果を示す。さ
らにqは母音候補抽出部46で抽出した母音候補を示し
、hは音素境界決定部47により修正を加えられた母音
認識結果を示す。bは前記子音認識結果fと母音認識結
果りとから音素認識部48により認識された認識結果を
示す。
C indicates a dip region detected by the dip detection section 40 in FIG. 5, and d indicates a consonant candidate determined by the consonant section determination section 41. Further, e is a consonant candidate modified by the phoneme boundary determining unit 4, and 6 is a consonant recognition result obtained by determining the consonant candidate shown in e by the consonant determining unit 43. Further, q indicates a vowel candidate extracted by the vowel candidate extraction section 46, and h indicates a vowel recognition result modified by the phoneme boundary determination section 47. b indicates the recognition result recognized by the phoneme recognition unit 48 from the consonant recognition result f and the vowel recognition result.

本実施例の場合、まず子音認識についてはディップ検出
部40で第6図Cに示すディップ位置を検出する。この
ディップ位置に対し、子音区間決定部41で第6図dに
示す子音候補/bA/n/;/IIl/、/h/を抽出
し、子音区間記憶部42へ転送する。
In this embodiment, for consonant recognition, the dip detection section 40 first detects the dip position shown in FIG. 6C. For this dip position, the consonant interval determination unit 41 extracts the consonant candidates /bA/n/; /IIl/ and /h/ shown in FIG. 6d, and transfers them to the consonant interval storage unit 42.

一方、母音認識については標準バタン格納部44に格納
された、時間−周波数バタンで構成された標準バタンを
用いて、母音抽出部46にて各フレーム毎に最も類似度
の高い音素を選び、第6図qに示す母音候補を抽出し、
母音区間記憶部46へ転送する。
On the other hand, for vowel recognition, the vowel extraction unit 46 selects the phoneme with the highest degree of similarity for each frame using the standard baton composed of time-frequency bangs stored in the standard baton storage unit 44. 6 Extract the vowel candidates shown in Figure q,
It is transferred to the vowel interval storage unit 46.

音素境界決定部47では、子音区間記憶部42と母音区
間記憶部46の結果を参照して精度の高い音素境界の最
終決定を行なう。
The phoneme boundary determination unit 47 refers to the results of the consonant interval storage unit 42 and the vowel interval storage unit 46 to make a final determination of highly accurate phoneme boundaries.

前述したように、標準バタンに時間−周波数バタンを用
いて母音候補を抽出することによって、次のような性質
がある。
As mentioned above, the following properties are obtained by extracting vowel candidates using the time-frequency button as the standard button.

■ 母音区間中のスペクトルの小さい乱れを吸収し安定
に母音を抽出することができる。
■ It is possible to absorb small disturbances in the spectrum during vowel intervals and extract vowels stably.

■ 渡りの部分は時間的にスペクトルが安定しないため
、余分な母音候補の抽出を防ぐことができる。
■ Since the spectrum is not stable over time in the crossing part, it is possible to prevent the extraction of extra vowel candidates.

■ 母音中でパワーが不安定なためにディップで伺加さ
れた子音候補を、母音候補の安定性によりて取除くこと
ができる。
■ Consonant candidates added by dip due to unstable power among vowels can be removed based on the stability of the vowel candidates.

本実施例はこの性質を積極的に利用し、以下の処理を行
なう。まず、第6図aで示す、子音/h/の付加の部分
では、qに示す母音候補の10/が長い区間に渡って安
定に抽出されているため、■。
This embodiment actively utilizes this property and performs the following processing. First, in the part where the consonant /h/ is added, shown in FIG.

■の性質を用いて取除くことができる。又、ラベルaに
示す/N/の部分では、母音候補qを見ると/N/以外
に安定な母音候補が抽出されないという■の性it利用
することにより、Cに示す次のティップまでの区間をh
に示すように/N/と決定することができる。又、dに
示す/m/の区間で、qの母音候補を見ると、/m/の
区間の一部と10/が重なっており、この10/は長い
区間に渡って安定していることがら■の性質を利用する
ことによって/m/の区間を修正することができる。そ
の結果を第6図eに示す。
■It can be removed using the properties of. In addition, in the /N/ part shown in label a, by using the fact of ■ that no stable vowel candidates other than /N/ are extracted when looking at the vowel candidate q, the section up to the next tip shown in C can be calculated. h
/N/ can be determined as shown in . Also, looking at the vowel candidates for q in the /m/ interval shown in d, 10/ overlaps with a part of the /m/ interval, and this 10/ is stable over a long interval. By utilizing the property of ``Gara'', the interval of /m/ can be modified. The results are shown in Figure 6e.

以上の処理の結果、子音区間は第6図eとして子音区間
記憶部42に転送し、母音区間は第6図りとし−で母音
区間記憶部46を経由して音素認識部48に転送する。
As a result of the above processing, the consonant section is transferred to the consonant section storage section 42 as FIG. 6e, and the vowel section is transferred to the phoneme recognition section 48 via the vowel section storage section 46 as shown in FIG.

子音判定部43では、第6図eに示した子音候補の中で
、音素境界の修正された音素/m/に対して見直しを行
ない、標準パタンのスペクトルに対する類似度をめて最
も類似度の高い要素/S/に修正し、子音認識結果fと
して音素認識部48に転送する。
The consonant determination unit 43 reviews the phoneme /m/ whose phoneme boundaries have been corrected among the consonant candidates shown in FIG. It is corrected to a high element /S/ and transferred to the phoneme recognition unit 48 as a consonant recognition result f.

このように本方法では、ディシブによる子音候補の検出
とスペクトルの安定性を併用することによって、より精
密な音素のセグメンテーションおよび音素判別を実現す
ることができる。
In this way, in this method, more precise phoneme segmentation and phoneme discrimination can be achieved by combining detection of consonant candidates by dissipation and spectral stability.

本方法を用いて、成人男子10名の発声した2120単
語を対象に音素認識し、評価した結果を表に示す。
Using this method, phoneme recognition was performed on 2120 words uttered by 10 adult males, and the results of the evaluation are shown in the table.

表 表から明らかなように、全音素の平均認識率82.6 
%の良好な値を得ることができる。又、音累付加率4.
8%、音素脱落率3.9%の極めて少ない伺加、脱落誤
りで精度の高い音素系列を作成することができる。
As is clear from the table, the average recognition rate for all phonemes is 82.6.
A good value of % can be obtained. Also, the sound addition rate is 4.
It is possible to create a highly accurate phoneme sequence with extremely low addition and omission errors of 8% and phoneme omission rate of 3.9%.

なお前記実施例ではスペクトル情報としてhpcケプス
トラム係数を用いた場合について述べたが、フィルタバ
ンク出力等、他の情報であっても良い。
In the above embodiment, a case was described in which hpc cepstral coefficients were used as spectrum information, but other information such as a filter bank output may be used.

発明の効果 以上要するに本発明は標準バタンに対する音素の類似度
をめ、またパワーの変化に基づいて子音候補をめ、母音
に対する類似度の連続性及び強度によるスペクトルの安
定性に基づき抽出された゛母音候補と、子音候補とを照
合することによって、音素間の境界の位置および境界間
の音素の種類を精度良く決定し、信頼性の高い音素認識
を実現することができる利点を有する。
Effects of the Invention In short, the present invention measures the similarity of phonemes to standard batan, selects consonant candidates based on changes in power, and selects consonant candidates based on continuity of similarity to vowels and stability of spectrum according to intensity. By comparing candidates with consonant candidates, the position of the boundary between phonemes and the type of phoneme between the boundaries can be determined with high accuracy, and there is an advantage that highly reliable phoneme recognition can be realized.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は従来の音声認識装置のブロック図、第2図はパ
ワー及びパワーの変化速度の時間に対する変化の様子を
示した図、第3図は従来の音声認識装置の要部のブロッ
ク図、第4図は同装置により認識を行った一例を示す図
、第6図は本発明の一実施例における音声認識装置の要
部のブロック図、第6図は同装置による認識結果の一例
を示す図である。 4o・・・・・・ディップ検出部、41・・・・・・・
子音区間決定部、42・・・・・・子音区間記憶部、4
3・・・・・・子音判定部、44・・・・・・標準パタ
ーン格納部、46・・・・・・母音候補抽出部、46・
・・・・・母音区間記憶部、47 °。 ・・・音素境界決定部、48・・・・・・音素認識部、
49・・・・・・子音候補抽出部。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第2
図 R 第 31!1 C番号)bαNり00
FIG. 1 is a block diagram of a conventional speech recognition device, FIG. 2 is a diagram showing changes in power and power change rate over time, and FIG. 3 is a block diagram of main parts of a conventional speech recognition device. FIG. 4 is a diagram showing an example of recognition performed by the same device, FIG. 6 is a block diagram of main parts of a speech recognition device in an embodiment of the present invention, and FIG. 6 is an example of recognition results by the same device. It is a diagram. 4o...Dip detection section, 41...
Consonant interval determining unit, 42...Consonant interval storage unit, 4
3... Consonant determination section, 44... Standard pattern storage section, 46... Vowel candidate extraction section, 46.
...Vowel interval memory section, 47 degrees. ... Phoneme boundary determination section, 48 ... Phoneme recognition section,
49...Consonant candidate extraction unit. Name of agent: Patent attorney Toshio Nakao and 1 other person 2nd
Figure R No. 31!1 C number) bαNri00

Claims (2)

【特許請求の範囲】[Claims] (1)多数話者の音声より得られたスペクトル情報を用
いて統計的距離尺度に基づき構成された標準パターンを
予め格納する標準パターン格納部と、スペクトル情報を
用いて分析区間毎に統計的距離尺度に基づき前記標準パ
ターンに対する音素の類似度をめる母音候補抽出部と、
パワーの時間変化によるディップ番用いて子音候補をめ
る子音候補抽出部と、前記母音候補抽出部における、音
素に対する類似度の時間的連続性または類似度の強度に
よるスペクトルの安定性に基づき抽出された母音候補と
、子音候補抽出部における子音候補とを照合し、音素間
の境界の位置および境界間の音素の8!S*決定する音
素境界決定部とも少なくと肩することを特徴とする音声
認識装置。
(1) A standard pattern storage unit that stores in advance a standard pattern constructed based on a statistical distance measure using spectral information obtained from the voices of multiple speakers, and a statistical distance for each analysis interval using spectral information. a vowel candidate extraction unit that calculates the similarity of phonemes to the standard pattern based on a measure;
A consonant candidate extractor extracts consonant candidates using a dip number based on a temporal change in power, and a vowel candidate extractor extracts consonant candidates based on the temporal continuity of the similarity to the phoneme or the stability of the spectrum depending on the strength of the similarity. The vowel candidates obtained are compared with the consonant candidates in the consonant candidate extraction section, and the positions of the boundaries between phonemes and the number of phonemes between the boundaries are determined. A speech recognition device comprising at least a phoneme boundary determination unit that determines S*.
(2)標準パターンが、音素中心付近の複数の分析区間
長のスペクトル情報を用いて時間−周波数の二次元パタ
ーンによって統計的距離尺度に基づき構成されたもので
あることを特徴とする特許請求の範囲第1項記載の音声
認識装置。
(2) The standard pattern is constructed based on a statistical distance measure by a two-dimensional time-frequency pattern using spectral information of a plurality of analysis interval lengths near the center of a phoneme. The speech recognition device according to scope 1.
JP59003923A 1984-01-12 1984-01-12 Voice recognition equipment Granted JPS60147797A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59003923A JPS60147797A (en) 1984-01-12 1984-01-12 Voice recognition equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59003923A JPS60147797A (en) 1984-01-12 1984-01-12 Voice recognition equipment

Publications (2)

Publication Number Publication Date
JPS60147797A true JPS60147797A (en) 1985-08-03
JPH0333280B2 JPH0333280B2 (en) 1991-05-16

Family

ID=11570662

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59003923A Granted JPS60147797A (en) 1984-01-12 1984-01-12 Voice recognition equipment

Country Status (1)

Country Link
JP (1) JPS60147797A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02302798A (en) * 1989-05-17 1990-12-14 Casio Comput Co Ltd Musical sound waveform generating device
JP2007219188A (en) * 2006-02-17 2007-08-30 Kyushu Univ Consonant processing device, speech information transmission device, and consonant processing method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6336676A (en) * 1986-07-31 1988-02-17 Konica Corp Image pickup system by change coupled device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6336676A (en) * 1986-07-31 1988-02-17 Konica Corp Image pickup system by change coupled device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02302798A (en) * 1989-05-17 1990-12-14 Casio Comput Co Ltd Musical sound waveform generating device
JP2007219188A (en) * 2006-02-17 2007-08-30 Kyushu Univ Consonant processing device, speech information transmission device, and consonant processing method

Also Published As

Publication number Publication date
JPH0333280B2 (en) 1991-05-16

Similar Documents

Publication Publication Date Title
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
JPS60147797A (en) Voice recognition equipment
JP2001312293A (en) Method and device for voice recognition, and computer- readable storage medium
JP3039453B2 (en) Voice recognition device
JPS5915993A (en) Voice recognition equipment
JPH0619497A (en) Speech recognizing method
JPS62111295A (en) Voice recognition equipment
JPS63161499A (en) Voice recognition equipment
JPH01185599A (en) Speech recognizing circuit
JPH0455518B2 (en)
KR20040100592A (en) Speech Recognition Method of Real-time Speaker Independent Variable Word in Mobile System
JPS62100799A (en) Voice recognition
JPS60164800A (en) Voice recognition equipment
JPH06100919B2 (en) Voice recognizer
JPS59219799A (en) Voice recognition equipment
JPS58224392A (en) Voice recognition system
JPS6136797A (en) Voice segmentation
JPS62111292A (en) Voice recognition equipment
JPS6180298A (en) Voice recognition equipment
JPS5977500A (en) Word voice recognition system
JPS6120998A (en) Voice recognition equipment
Hosseini Amereei et al. Performance Improvement of Language Identification Using Transcription Based Sequential Approaches & Sequential Kernels Based SVM
JPS6069694A (en) Segmentation of head consonant
JPS59124394A (en) Monosyllabic voice recogntion system
JPH01285996A (en) Speech recognizing device