JPH0337199B2 - - Google Patents
Info
- Publication number
- JPH0337199B2 JPH0337199B2 JP61109559A JP10955986A JPH0337199B2 JP H0337199 B2 JPH0337199 B2 JP H0337199B2 JP 61109559 A JP61109559 A JP 61109559A JP 10955986 A JP10955986 A JP 10955986A JP H0337199 B2 JPH0337199 B2 JP H0337199B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- pattern
- input
- speech
- route
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000004364 calculation method Methods 0.000 claims description 47
- 238000000034 method Methods 0.000 description 22
- 239000013598 vector Substances 0.000 description 18
- 230000008602 contraction Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Description
【発明の詳細な説明】
〔概要〕
未知入力単語音声パターンを各単語標準パター
ンと照合する単語音声認識装置において、入力単
語音声パターンと単語標準パターンのパターン長
比に対応して経路制限の変更を行つて照合を行う
様にする。これにより伸縮比の範囲を狭めること
なく、不自由な時間対応付けを無くして認識率を
向上させることが出来る。[Detailed Description of the Invention] [Summary] In a word speech recognition device that matches an unknown input word speech pattern with each word standard pattern, route restrictions are changed in accordance with the pattern length ratio of the input word speech pattern and the word standard pattern. Go there and check. This makes it possible to eliminate inconvenient time correspondences and improve the recognition rate without narrowing the range of expansion/contraction ratios.
本発明は、未知入力単語音声パターンを予め登
録されている各単語標準パターンと照合して入力
単語音声の認識を行う単語音声認識装置、特に、
照合時に不自然な時間対応付けが行われるのを無
くして認識率を向上させる様に改良した単語音声
認識装置に関する。
The present invention relates to a word speech recognition device that recognizes an input word speech by comparing an unknown input word speech pattern with each pre-registered word standard pattern.
The present invention relates to a word speech recognition device improved so as to improve the recognition rate by eliminating unnatural time correspondence during verification.
未知入力単語音声を認識する場合、認識率が良
好であることから、未知入力単語音声から作成さ
れた入力単語音声パターンを、予め登録されてい
る各単語標準パターンとして照合して入力単語音
声の認識を行う単語音声認識方式が、多く用いら
れている。
When recognizing unknown input word sounds, the recognition rate is good, so the input word sound patterns created from the unknown input word sounds are compared with pre-registered standard patterns for each word to recognize the input word sounds. Word speech recognition methods that perform this are often used.
第5図は、従来の単語標準パターンと照合する
単語音声認識方式の基本構成をブロツク図で示し
たものである。 FIG. 5 is a block diagram showing the basic structure of a conventional word speech recognition method that matches word standard patterns.
第5図の単語音声認識方式において、音声分析
部210は、入力単語音声を分析し、入力単語音
声の特徴を表すパラメタの抽出や区間検出を行つ
て入力単語音声パターンを作成して単語認識部2
20に入力する。 In the word speech recognition method shown in FIG. 5, the speech analysis section 210 analyzes the input word speech, extracts parameters representing the characteristics of the input word speech, and detects intervals to create an input word speech pattern, and the word recognition section 2
Enter 20.
一方、単語標準パターン部230には、認識対
象となる単語群の各単語を分析して作成された標
準パターンが予め登録されている。 On the other hand, in the word standard pattern section 230, standard patterns created by analyzing each word of a word group to be recognized are registered in advance.
単語認識部220は、入力単語音声パターンを
単語標準パターン部230の各単語の標準パター
ンと照合して単語認識を行う。 The word recognition unit 220 performs word recognition by comparing the input word audio pattern with the standard pattern of each word in the word standard pattern unit 230.
この単語認識は、公知のDP法(Dynamic Pro
−gramming matching)によつて行われ、入力
単語音声パターンと距離の最も小さい単語標準パ
ターンの単語を認識単語とする。 This word recognition is performed using the well-known DP method (Dynamic Pro
-gramming matching), and the word of the word standard pattern with the smallest distance from the input word speech pattern is set as the recognized word.
第6図は、単語認識部220において行われる
DPマツチング方式を示したものである。 FIG. 6 shows the process performed in the word recognition unit 220.
This shows the DP matching method.
第6図において、横軸は入力単語音声パターン
で、その数字は、入力単語音声パターンを形成す
る各ベクトルの番号である。縦軸は単語標準パタ
ーンで、その数字は、単語標準パターンを形成す
る各ベクトルの番号である。実線は、入力単語音
声パターンが単語標準パターンとマツチングした
ときの時間伸縮関数(DPパス)である。 In FIG. 6, the horizontal axis is the input word speech pattern, and the numbers are the numbers of each vector forming the input word speech pattern. The vertical axis is the word standard pattern, and the numbers are the numbers of each vector forming the word standard pattern. The solid line is the time warping function (DP path) when the input word speech pattern is matched with the word standard pattern.
所で、実際に発声される単語音声の時間長は、
話者によつて変化し、又、同一話者でも発声する
たびに時間長は変化してしまう。ゆつくり発声さ
れたり早口で発声されたりするので、入力単語音
声パターンは、単語標準パターンの持つ時間長に
対し、伸び縮みしたものとなる。そこで、照合時
は、入力単語音声パターンの時間方向の伸び縮み
を正規化(時間正規化)して、単語標準パターン
との照合が行われる。 By the way, the duration of the word sound actually uttered is
The length of time varies depending on the speaker, and even with the same speaker, the length of time varies each time the speaker speaks. Since the input word speech pattern is uttered slowly or rapidly, the input word speech pattern expands and contracts with respect to the time length of the standard word pattern. Therefore, at the time of matching, the expansion and contraction in the time direction of the input word sound pattern is normalized (time normalization), and then the input word sound pattern is matched with the word standard pattern.
この時間正規化処理時における入力単語音声パ
ターンの伸縮比として許される範囲は、DP法の
手法によつて種々の値に設定されるが、例えば、
1/2〜2倍、1/3〜3倍等の範囲に設定されること
が多い。伸縮比を1/2〜2倍に設定すると、正規
の時間長の1/2から2倍の速さで発声された単語
音声を同じ単語標準パターンを用いて認識するこ
とが出来る。この様に、伸縮比を幅を大きくする
ことにより、同じ単語標準パターンを用いて種々
の時間長を持つた入力単語音声を認識することが
可能となるので、認識範囲を広げることが出来
る。 The range allowed as the expansion/contraction ratio of the input word speech pattern during this time normalization process is set to various values depending on the DP method, but for example,
It is often set in a range of 1/2 to 2 times, 1/3 to 3 times, etc. When the expansion/contraction ratio is set to 1/2 to 2 times, word sounds uttered at 1/2 to 2 times the normal time length can be recognized using the same word standard pattern. In this way, by increasing the expansion/contraction ratio, it becomes possible to recognize input word sounds having various time lengths using the same word standard pattern, and thus the recognition range can be expanded.
伸縮比の幅を1/2〜2や1/3〜3の様に大きくす
ると、前述の様に認識範囲が広くなるという利点
があるが、反面、次の様な不都合が生じる。即
ち、1つの単語を発声する場合、単語の前半を早
口で発声し、後半をゆつくり発声することは、自
然な発声では通常起り得ないことである。然しな
がら、従来のDP法では、前半を2〜3倍に伸ば
し、後半を1/2〜1/3に縮めてパターンマツチング
することが許される為、この様な状態でマツチン
グが行われた場合には誤認識が生じることにな
る。 Increasing the width of the expansion/contraction ratio to 1/2 to 2 or 1/3 to 3 has the advantage of widening the recognition range as described above, but on the other hand, the following disadvantages occur. That is, when uttering one word, uttering the first half of the word quickly and uttering the second half slowly cannot normally occur in natural pronunciation. However, in the conventional DP method, pattern matching is allowed by stretching the first half by 2 to 3 times and shrinking the latter half to 1/2 to 1/3, so if matching is performed under such conditions, This will lead to misunderstandings.
第6図は、入力単語音声が最初は早く発声され
(フレーム1〜2)、次いで極めてゆつくり発声さ
れ(フレーム3〜4)、その後は(フレーム5〜
10)平均して早く発声されたという不自然な状態
でマツチングが行われた結果、誤認識が生じた場
合を示したものである。 Figure 6 shows that the input word speech is first uttered quickly (frames 1-2), then very slowly (frames 3-4), and then (frames 5-4).
10) This shows a case where misrecognition occurs as a result of matching performed under an unnatural condition in which utterances are uttered quickly on average.
従来の単語音声認識方式は、照合時の入力単語
音声パターンの伸縮比の幅を大きくとつていた
為、種々の時間長(パターン長)を持つた入力単
語音声を認識することが可能となつて広い認識範
囲が得られるという利点がある反面、不自然な時
間対応付けが許される結果、誤認識が生じて認識
率が低下するという問題があつた。
Conventional word speech recognition methods have a wide range of expansion/contraction ratios for input word speech patterns during matching, making it possible to recognize input word speech with various time lengths (pattern lengths). Although this method has the advantage of being able to obtain a wide recognition range, it has the problem that unnatural time correspondences are allowed, resulting in erroneous recognition and lower recognition rates.
本発明は、単語全体として許される伸縮比の範
囲を狭めることなく、不自然な時間対応付けによ
る照合が行られることを阻止して認識率を向上さ
せる様にした単語音声認識装置を提供することを
目的とする。 An object of the present invention is to provide a word speech recognition device that improves the recognition rate by preventing matching based on unnatural time correspondence without narrowing the range of expansion/contraction ratios allowed for the word as a whole. With the goal.
1つの単語を発声する場合、単語を形成する各
音節の一部の発声時間が長くなつたり短くなつた
りして変化することは、自然の発声では通常起り
得ないことである。即ち、単語が自然な状態で発
声された場合、普通の早さのときは、単語中の各
音節も普通の早さでそれぞれ発声され、単語が早
口で発声されたときは、その各音節も早口でそれ
ぞれ発声され、単語がゆつくり発声されたとき
は、その各音節もそれぞれゆつくりと発声され
る。
When uttering one word, the utterance time of some of the syllables forming the word changes, such as becoming longer or shorter, which normally does not occur in natural pronunciation. That is, when a word is uttered naturally, each syllable in the word is uttered at a normal rate, and when a word is uttered quickly, each syllable in the word is uttered at a normal rate. Each word is uttered quickly, and when a word is uttered slowly, each syllable is also uttered slowly.
従つて、単語が自然な状態でゆつくり発声され
た場合のマツチング時のDPパスは、その傾斜が
平均して小さい値のものに経路制限した方が良
く、単語が自然の状態で早口で発声された場合の
マツチング時のDPパスは、その傾斜が平均して
大きい値のものに経路制限した方が良いことにな
る。 Therefore, it is better to limit the DP path during matching when the word is uttered slowly and slowly in a natural state, to one whose slope is small on average, and when the word is uttered slowly and naturally. In this case, it is better to limit the DP paths during matching to those whose slopes are large on average.
本発明は、この知見に基づき、単語音声の自然
の発声速度に対応して経路制限を適宜変更するこ
とにより単語全体として許される伸縮比の範囲を
狭めることなく、不自然な時間対応付けによる照
合が行われることを阻止して認識率を向上させる
様にしたものである。 Based on this knowledge, the present invention is capable of collation using unnatural temporal correspondence without narrowing the range of expansion/contraction ratios allowed for the word as a whole by appropriately changing the route restriction in accordance with the natural speaking speed of word speech. This is designed to improve the recognition rate by preventing this from occurring.
以下、従来の単語音声認識方式における前述の
問題点を解決する為に本発明が講じた手段を、第
1図を参照して説明する。 Hereinafter, the means taken by the present invention to solve the above-mentioned problems in the conventional word speech recognition system will be explained with reference to FIG.
第1図は、本発明の基本構成をブロツク図で示
したものである。 FIG. 1 is a block diagram showing the basic configuration of the present invention.
第1図において、110はパターン長比演算手
段で、入力単語音声から作成された入力単語音声
パターンと各単語標準パターンのパターン長の大
小を表すパターン長比を算出する。ここで、パタ
ーン長比は、入力単語音声パターンのパターン長
比と単語標準パターンのパターン長の大小を決め
量で、例えば、両パターン長の差や両パターン長
の比率で表される。又、各パターンのパターン長
は、各パターンのフレーム数や時間長等で表され
る。 In FIG. 1, reference numeral 110 denotes a pattern length ratio calculation means that calculates a pattern length ratio representing the pattern length of the input word speech pattern created from the input word speech and each word standard pattern. Here, the pattern length ratio is a quantity that determines the pattern length ratio of the input word speech pattern and the pattern length of the word standard pattern, and is expressed, for example, as the difference between the two pattern lengths or the ratio of the two pattern lengths. Further, the pattern length of each pattern is expressed by the number of frames, time length, etc. of each pattern.
120は制限経路距離演算手段で、パターン長
比の大きさに対応して照合時の経路制限の変更を
行つて、入力単語音声パターンと各単語標準パタ
ーン間の距離を算出する。 Reference numeral 120 denotes a restricted route distance calculation means, which changes the route restriction at the time of matching in accordance with the magnitude of the pattern length ratio, and calculates the distance between the input word speech pattern and each word standard pattern.
入力単語音声から作成された入力単語音声パタ
ーンが入力されると、パターン長比演算手段11
0は、入力単語音声パターンと単語標準パターン
のパターン長比を算出する。この演算は、各単語
標準パターンについてそれぞれ行われる。
When the input word speech pattern created from the input word speech is input, the pattern length ratio calculation means 11
0 calculates the pattern length ratio between the input word speech pattern and the word standard pattern. This calculation is performed for each word standard pattern.
制限経路距離演算手段120は、パターン長比
演算手段110より入力されたパターン長比の大
きさに対応して照合時の経路制限の変更を行つ
て、入力単語音声パターンと単語標準パターン間
の距離を計算する。 The restricted route distance calculation means 120 changes the route restriction during matching in accordance with the magnitude of the pattern length ratio input from the pattern length ratio calculation means 110, and calculates the distance between the input word audio pattern and the word standard pattern. Calculate.
照合時の経路制限の変更は、例えば比率で表し
たパターン長比、即ち入力単語音声パターン長を
単語標準パターン長で割つた値が1の近傍より大
きいとき(ゆつくり発声された場合)は、1より
大きい傾斜を持つた経路を含まない経路制限に変
更され、パターン長比が1の近傍より小さいとき
(早口で発声された場合)は、1より小さい傾斜
を持つた経路を含まない経路制限に変更される。 For example, when the pattern length ratio expressed as a ratio, that is, the value obtained by dividing the input word speech pattern length by the word standard pattern length, is larger than the vicinity of 1 (when it is uttered slowly), the path restriction during matching can be changed. When the pattern length ratio is smaller than the neighborhood of 1 (when uttered rapidly), the route restriction is changed to exclude paths with a slope of less than 1. will be changed to
以上の様に、入力単語の自然の発声速度に対応
して経路制限の変更を行つて照合することによ
り、単語全体として許される伸縮比の範囲を狭め
ることなく、不自然な時間対応付けによる照合が
行われない様にすることが可能になり、認識率を
向上させることが出来る。 As described above, by changing the route restriction in accordance with the natural speaking rate of the input word and performing matching, it is possible to perform matching using unnatural temporal correspondence without narrowing the range of expansion/contraction ratios allowed for the word as a whole. This makes it possible to prevent this from occurring, thereby improving the recognition rate.
本発明の実施例を、第2図〜第4図を参照して
説明する。
Embodiments of the present invention will be described with reference to FIGS. 2 to 4.
第2図は本発明の一実施例の構成ブロツク説明
図、第3図は同実施例の経路制限の説明図、第4
図は同実施例のDPマツチング方式の説明図であ
る。 FIG. 2 is an explanatory diagram of the configuration block of one embodiment of the present invention, FIG. 3 is an explanatory diagram of route restriction in the same embodiment, and FIG.
The figure is an explanatory diagram of the DP matching method of the same embodiment.
(A) 実施例の構成
第2図において、パターン長比演算手段11
0及び制限経路距離演算手段120について
は、第1図で説明した通りである。(A) Configuration of the embodiment In FIG. 2, the pattern length ratio calculation means 11
0 and the restricted route distance calculation means 120 are as described in FIG.
130はマイクロホンで、話者(図示せず)
の発声した単語発声が入力される。 130 is a microphone, and a speaker (not shown)
The word utterance uttered by is input.
140は音声分析部で、入力された単語音声
を分析し、入力単語音声の特徴を表すパラメタ
の抽出や区間検出を行つて、入力単語音声パタ
ーン又単語標準パターンを作成する。 140 is a speech analysis unit that analyzes the input word speech, extracts parameters representing the characteristics of the input word speech, detects sections, and creates input word speech patterns or word standard patterns.
150は切替え回路で、単語標準パターンの
登録動作と入力単語音声パターンの認識動作に
対応した切替えを行う。 150 is a switching circuit that performs switching corresponding to the word standard pattern registration operation and the input word speech pattern recognition operation.
160は単語標準パターン辞書で、音声分析
部で作成された各単語標準パターンが登録され
る。 160 is a word standard pattern dictionary in which each word standard pattern created by the speech analysis section is registered.
制限経路距離演算手段120において、12
1はベクトル間距離計算部で、音声分析140
より入力単語音声パターンの各ベクトルと単語
標準パターン辞書160中の各単語標準パター
ンの各ベクトルとのベクトル間距離を算出す
る。 In the restricted route distance calculation means 120, 12
1 is an inter-vector distance calculation unit, which performs speech analysis 140
From this, the distance between each vector of the input word speech pattern and each vector of each word standard pattern in the word standard pattern dictionary 160 is calculated.
122は第1のDP計算部で、第1の経路制
限に基づいて入力単語音声パターンと各単語標
準パターン間の距離を算出する。 122 is a first DP calculation unit that calculates the distance between the input word speech pattern and each word standard pattern based on the first route restriction.
123は第2のDP計算部で、第2の経路制
限に基づいて入力単語音声パターンと各単語標
準パターン間の距離を算出する。 A second DP calculation unit 123 calculates the distance between the input word speech pattern and each word standard pattern based on the second route restriction.
124は第3のDP計算部で、第3の経路制
限に基づいて入力単語音声パターンと各単語標
準パターン間の距離を算出する。 A third DP calculation unit 124 calculates the distance between the input word speech pattern and each word standard pattern based on the third route restriction.
なお、前記第1〜第3の各経路制限の具体的
な内容については、次の「(B)実施例の動作」の
項で説明する。 The specific contents of each of the first to third route restrictions will be explained in the next section "(B) Operation of the embodiment".
125は経路選択部で、パターン長比計算手
段110より入力されたパターン長比に基づい
て、第1〜第3の各DP計算部122〜124
の1つを選択して、その算出結果を出力する。 Reference numeral 125 denotes a route selection section, which selects each of the first to third DP calculation sections 122 to 124 based on the pattern length ratio inputted from the pattern length ratio calculation means 110.
Select one of them and output the calculation result.
170は単語認識部で、経路選択部125よ
り入力された入力単語音声パターンと各単語標
準パターン間の制限された経路についての各距
離の中の最小値を検出し、その単語標準パター
ンに対応する単語を認識単語とする。 170 is a word recognition unit that detects the minimum value among the distances on the restricted routes between the input word audio pattern input from the route selection unit 125 and each word standard pattern, and detects the minimum value among the distances for the restricted routes between the input word voice pattern input from the route selection unit 125 and the word standard pattern. Let the word be the recognized word.
(B) 実施例の動作
実施例の動作を、第2図〜第4図を参照し、
入力単語音声認識時の各動作に分けて説明す
る。(B) Operation of the embodiment The operation of the embodiment is explained with reference to FIGS. 2 to 4.
Each operation during input word speech recognition will be explained separately.
(B‐1) 登録動作
話者の発声した単語音声に対する認識処理
が行われる前に、認識対象となる各単語の単
語標準パターンの登録が行われる。(B-1) Registration operation Before recognition processing is performed on the word sounds uttered by the speaker, a standard word pattern for each word to be recognized is registered.
単語標準パターンを単語標準パターン辞書
160に登録する場合は、切替え回路150
を単語標準パターン辞書160側に接続し、
マイクロホン130より登録用の単語音声を
音声分析部140に入力する。 When registering a word standard pattern in the word standard pattern dictionary 160, the switching circuit 150
is connected to the word standard pattern dictionary 160 side,
Word speech for registration is input to the speech analysis section 140 through the microphone 130.
音声分析部140は、入力された単語音声
を分析し、登録用の単語音声の特徴を表すパ
ラメタの抽出や区間検出を行つて、単語標準
パターンを作成して単語標準パターン辞書1
60に登録する。各単語標準パターンは、各
単語標準パターンの特徴を表すベクトルの時
系列で表現される。 The speech analysis unit 140 analyzes the input word speech, extracts parameters representing the characteristics of the word speech for registration, detects sections, creates a word standard pattern, and stores the word standard pattern dictionary 1.
Register at 60. Each word standard pattern is expressed as a time series of vectors representing the characteristics of each word standard pattern.
(B‐2) 入力単語音声パターン作成動作
入力された単語音声の認識を行う場合に、
切替え回路150をベクトル間距離計算部1
21側に接続する。(B-2) Input word speech pattern creation operation When recognizing input word speech,
The switching circuit 150 is connected to the vector distance calculation unit 1
Connect to the 21 side.
マイクロホン130より認識対象となる未
知の単語音声が入力されると、前述の単語標
準パターンの登録の場合と同様にして、音声
分析部140は、この入力単語音声の特徴を
表すパラメタの抽出や区間検出を行つて入力
単語音声パターンを作成し、ベクトル間距離
計算部121に入力する。 When an unknown word speech to be recognized is input from the microphone 130, the speech analysis unit 140 extracts parameters representing the characteristics of the input word speech and extracts the interval The detection is performed to create an input word speech pattern and input to the inter-vector distance calculation unit 121.
作成された各入力単語音声パターンは、単
語標準パターンと同様に、入力単語音声パタ
ーンの特徴を表すベクトルの時系列で表現さ
れる。 Each created input word speech pattern is expressed as a time series of vectors representing the characteristics of the input word speech pattern, similarly to the word standard pattern.
(B‐3) パターン長比算出動作
パターン長比演算手段110は、入力単語
音声パターンと単語標準パターンのパターン
長比を算出する。(B-3) Pattern length ratio calculation operation The pattern length ratio calculation means 110 calculates the pattern length ratio between the input word speech pattern and the word standard pattern.
パターン長比は、例えば入力単語音声パタ
ーン長と単語標準パターン長の差や両者の比
率で表されるが、この実施例では両者の比
率、即ち、入力単語音声パターン長を単語標
準パターン長で割つた値をパターン長比とし
て用いることにする。 The pattern length ratio is expressed, for example, by the difference between the length of the input word audio pattern and the standard word pattern length, or by the ratio of the two. In this example, the ratio of the two, that is, the input word audio pattern length divided by the word standard pattern length, This value will be used as the pattern length ratio.
(B‐4) 制限照合距離算出動作
ベクトル間距離計算部121は、音声分析
部140より入力された入力単語音声パター
ンの各ベクトルと単語標準パターン辞書16
0中の各単語標準パターンの各ベクトルとの
ベクトル間距離を算出する。(B-4) Restricted matching distance calculation operation The inter-vector distance calculation unit 121 calculates each vector of the input word speech pattern input from the speech analysis unit 140 and the word standard pattern dictionary 16.
The inter-vector distance between each word standard pattern in 0 and each vector is calculated.
第1〜第3の各DP計算部122〜124
は、ベクトル間距離計算部121で算出され
た各ベクトル間距離を参照し、第3図に示す
第1〜第3の経路制限に基づいて、入力単語
音声パターンと各単語標準パターン間の距離
を公知のDP法により算出する。 First to third DP calculation units 122 to 124
refers to the inter-vector distances calculated by the inter-vector distance calculation unit 121, and calculates the distance between the input word speech pattern and each word standard pattern based on the first to third route restrictions shown in FIG. Calculated using the known DP method.
第3図において、DP1〜DP4は、従来の各
経路制限を示したもので、i〜(i−2)は
入力単語音声パターンの各ベクトル番号であ
り、j〜(j−3)は単語標準パターンの各
ベクトル番号であり、p1〜p5は、DP計算を
行う際の各パスである。 In FIG. 3, DP 1 to DP 4 indicate each conventional route restriction, i to (i-2) are each vector number of the input word speech pattern, and j to (j-3) are each vector number of the input word speech pattern. These are the vector numbers of the word standard pattern, and p 1 to p 5 are each pass when performing DP calculation.
DPa1〜DPa4は第1の各経路制限で、図示
の様に、対応する従来の各経路制限から傾斜
が1より大きくなるパスを除くことにより、
1より大きい傾斜を持つたパスを含まない構
成になつている。 DPa 1 to DPa 4 are the first path restrictions, and as shown in the figure, by excluding paths whose slope is greater than 1 from the corresponding conventional path restrictions,
The configuration is such that it does not include paths with slopes greater than 1.
DPb1〜DPb4は第2の各経路制限で、図示
の様に、DPb4を除き対応する従来の各経路
制限と同じ構成になつている。DPb4は、対
応する従来の経路制限DP4から傾斜が1より
小さいパス及び2より大きいパスを除いた構
成になつている。 DPb 1 to DPb 4 are second route restrictions, and as shown in the figure, except for DPb 4 , they have the same configuration as the corresponding conventional route restrictions. DPb 4 has a configuration in which paths with slopes less than 1 and paths with slopes greater than 2 are removed from the corresponding conventional path restriction DP 4 .
DPc1〜DPc4は、第3の各経路制限を示し
たもので、図示の様に、対応する従来の各経
路制限から傾斜が1より小さくなるパスを除
くことにより、1より小さい傾斜を持つたパ
スを含まない構成になつている。DPc4は、
更に傾斜1のパスも除かれている。 DPc 1 to DPc 4 indicate the third route restrictions, and as shown in the figure, by excluding paths with slopes smaller than 1 from the corresponding conventional route restrictions, the paths with slopes smaller than 1 are obtained. The configuration does not include any paths. DPc 4 is
Furthermore, paths with slope 1 are also excluded.
第1の経路制限(DPa1〜DPa4)は、パタ
ーン長比が1の近傍より大きい場合、例え
ば、パターン長比>1.2の場合に選択される。
これは、単語が自然な形で普通よりもゆつく
り発声された場合に当る。 The first path restriction (DPa 1 -DPa 4 ) is selected when the pattern length ratio is greater than the neighborhood of 1, for example when the pattern length ratio is >1.2.
This is the case when words are uttered naturally and more slowly than usual.
第2の経路制限(DPb1〜DPb4)は、パタ
ーン長比が1の近傍である場合、例えば、
0.8≦パターン長比≦1.2の場合に選択され
る。これは、単語が自然な形で普通の早さで
発声された場合に当る。 The second path restriction (DPb 1 to DPb 4 ) is, for example, when the pattern length ratio is close to 1.
Selected when 0.8≦pattern length ratio≦1.2. This is the case when words are uttered naturally and at a normal rate.
第3の経路制限(DPc1〜DPc4)は、パタ
ーン長比が1の近傍より小さい場合、例え
ば、パターン長比<0.8の場合に選択される。
これは、単語が自然な形で普通よりも早口で
発声された場合に当る。これらのパターン長
比は、最良の認識結果が得られる様、実験的
に求められる。 The third path restriction (DPc 1 to DPc 4 ) is selected when the pattern length ratio is smaller than the neighborhood of 1, for example, when the pattern length ratio is <0.8.
This is the case when words are uttered more quickly than normal in a natural way. These pattern length ratios are determined experimentally to obtain the best recognition results.
なお、第1〜第3の経路制限は、同じグル
ープ(DPak〜DPck)の中から選択される。
例えば第1の経路制限としてDPa1が選定さ
れた場合、第2の経路制限はDPb1に選定さ
れ、第3の経路制限はDPc1に選定される。 Note that the first to third route restrictions are selected from the same group (DPak to DPck).
For example, if DPa 1 is selected as the first path restriction, DPb 1 is selected as the second path restriction, and DPc 1 is selected as the third path restriction.
第1〜第3の各DP計算部122〜124
における各DP計算は平行して行われ、1つ
の単語標準パターンについての第1〜第3の
経路制限による入力単語パターン間の距離が
算出されると、経路選択部125は、パター
ン長比演算手段110より入力されたその単
語標準パターンに関するパターン長比に基づ
いて、第1〜第3の各DP計算部122〜1
24の1つを選択する。例えば、パターン長
比が0.8よりも小さい場合は、第3の経路制
限によつてDP計算を行つた第3のDP計算部
の算出距離を選択して単語認識部170に入
力する。 First to third DP calculation units 122 to 124
The respective DP calculations in are performed in parallel, and when the distance between input word patterns based on the first to third route restrictions for one word standard pattern is calculated, the route selection unit 125 uses pattern length ratio calculation means. Based on the pattern length ratio regarding the word standard pattern input from 110, each of the first to third DP calculation units 122 to 1
Select one of 24. For example, if the pattern length ratio is smaller than 0.8, the distance calculated by the third DP calculation unit that performed the DP calculation according to the third route restriction is selected and input to the word recognition unit 170.
以上の経路制限によるDP計算処理が単語
標準パターン辞書にある各単語標準パターン
について行われて、単語認識部170にそれ
ぞれ入力される。 The above-described DP calculation process based on the route restriction is performed for each word standard pattern in the word standard pattern dictionary, and each word is input to the word recognition unit 170.
(B‐5) 単語認識動作
単語認識部170は、経路選択部125よ
り入力された入力単語音声パターンと各単語
標準パターン間の制限された経路についての
各距離の中の最小値を検出し、その単語標準
パターンに対応する単語を認識単語とする。(B-5) Word recognition operation The word recognition unit 170 detects the minimum value of each distance on the restricted route between the input word audio pattern input from the route selection unit 125 and each word standard pattern, The word corresponding to the standard word pattern is defined as a recognized word.
第4図は、本発明のDPマツチグ方式を示
したもので、同図aは、第6図をそのまま再
掲したものであり、同図bは、同図aの従来
ケースを本発明のDPマツチング方式によつ
てマツチングさせた場合の例を示したもので
ある。 Figure 4 shows the DP matching method of the present invention. Figure a is a reproduction of Figure 6 as is, and Figure b shows the conventional case of figure a compared to the DP matching method of the present invention. This figure shows an example of matching according to the method.
入力単語音声パターンのパターン長が10フ
レームであり、マツチング時の単語標準パタ
ーンのパターン長が13フレームであるので、
フレーム長は0.77(=10/13)である。従つ
て、第3の経路制限によつてDP計算を行う
第3のDP計算部124の演算結果が選択さ
れる。 Since the pattern length of the input word audio pattern is 10 frames, and the pattern length of the word standard pattern during matching is 13 frames,
The frame length is 0.77 (=10/13). Therefore, the calculation result of the third DP calculation unit 124 that performs DP calculation is selected according to the third route restriction.
この結果、第4図aの代わりに同図bに示
す自然な時間対応付けをもつたDPパスによ
るマツチングが行われて、正しい認識結果を
得ることが出来る。 As a result, matching is performed using the DP path with the natural time correspondence shown in FIG. 4b instead of the one shown in FIG. 4a, and a correct recognition result can be obtained.
以上、本発明の一実施例について説明した
が、本発明の各構成は、この実施例の各構成
に限定されるものではない。 Although one embodiment of the present invention has been described above, each structure of the present invention is not limited to each structure of this embodiment.
例えば、経路制限の態様は第3図の態様に
限定されるものではなく、それ以外の各種の
経路制限を用いることが出来、それに対応し
てDP計算部の数も変更される。 For example, the mode of route restriction is not limited to the mode shown in FIG. 3, and various other route restrictions can be used, and the number of DP calculation units can be changed accordingly.
又、DP計算部122〜124は、第2図
に示す用に並列に設ける代わりに1個のDP
計算部により直列形式で行わせてもよい。然
しながら、第2図に示す様に複数のDP計算
部により各経路制限によるDP計算を並列に
行うことにより、DP計算処理を高速化する
ことが出来る。 Also, the DP calculation units 122 to 124 are arranged in one DP instead of being arranged in parallel as shown in FIG.
The calculation unit may perform the calculation in a serial format. However, as shown in FIG. 2, by performing DP calculations based on each route restriction in parallel using a plurality of DP calculation units, it is possible to speed up the DP calculation process.
以上説明した様に、本発明によれば、入力単語
の自然の発声速度に対応して照合時の経路制限の
変更を行う様にしたので、単語全体として許され
る伸縮比の範囲を狭めることなく、不自然な時間
対応付けによる照合が行われるのを阻止すること
が可能となり、認識率を向上させることが出来
る。
As explained above, according to the present invention, the path restriction during matching is changed in accordance with the natural speaking speed of the input word, without narrowing the range of expansion/contraction ratios allowed for the word as a whole. , it is possible to prevent matching based on unnatural time correspondences, and it is possible to improve the recognition rate.
第1図……本発明の基本構成の説明図、第2図
……本発明の一実施例の構成の説明図、第3図…
…同実施例の経路制限の説明図、第4図……同実
施例のDPマツチング方式の説明図、第5図……
従来の単語認識方式の説明図、第6図……従来の
単語音声認識方式のDPマツチング方式の説明図。
第1図及び第2図において、110……パター
ン長比演算手段、120……制限経路距離演算手
段、130……マイクロホン、140……音声分
析部、150……切替え回路、160……単語標
準パターン辞書、170……単語認識手段。
Fig. 1...Explanatory diagram of the basic configuration of the present invention, Fig. 2...Explanatory diagram of the configuration of an embodiment of the present invention, Fig. 3...
...An explanatory diagram of the route restriction in the same embodiment, Fig. 4...An explanatory diagram of the DP matching method in the same embodiment, Fig. 5...
FIG. 6 is an explanatory diagram of the conventional word recognition method. An explanatory diagram of the DP matching method of the conventional word speech recognition method. In FIGS. 1 and 2, 110...Pattern length ratio calculation means, 120...Limited route distance calculation means, 130...Microphone, 140...Speech analysis unit, 150...Switching circuit, 160...Word standard Pattern dictionary, 170...word recognition means.
Claims (1)
ーンと照合して入力単語音声の認識を行う単語音
声認識装置において、 (a) 入力単語音声から作成された入力単語音声パ
ターンと各単語標準パターンの各パターン長の
大小を表すパターン長比を算出するパターン長
比演算手段110と、 (b) パターン長比の大きさに対応して照合時の経
路制限の変更を行つて、入力単語音声パターン
と各単語標準パターン間の距離を算出する制限
経路距離演算手段120、 を備えたことを特徴とする単語音声認識装置。 2 制限経路距離演算手段120が、入力単語音
声パターンのパターン長が単語標準パターンのパ
ターン長より所定量大きい場合は、1よりも大き
い傾斜を持つた経路を含まない経路制限に変更
し、入力単語音声パターンのパターン長が単語標
準パターンのパターン長より所定量小さい場合
は、1よりも小さい傾斜を持つた経路を含まない
経路制限に変更するものであることを特徴とする
特許請求の範囲第1項記載の単語音声認識装置。[Scope of Claims] 1. In a word speech recognition device that recognizes an input word speech by comparing an unknown input word speech pattern with each word standard pattern, (a) an input word speech pattern created from the input word speech and each (b) pattern length ratio calculation means 110 for calculating a pattern length ratio representing the magnitude of each pattern length of the word standard pattern; A word speech recognition device comprising: restricted path distance calculation means 120 for calculating the distance between a word speech pattern and each word standard pattern. 2. If the pattern length of the input word speech pattern is larger than the pattern length of the standard word pattern by a predetermined amount, the restricted route distance calculation means 120 changes the route restriction to one that does not include a route with a slope greater than 1, and Claim 1: If the pattern length of the voice pattern is smaller than the pattern length of the word standard pattern by a predetermined amount, the route restriction is changed to one that does not include a route with a slope smaller than 1. Word speech recognition device described in Section 1.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61109559A JPS62266600A (en) | 1986-05-15 | 1986-05-15 | Word voice recognition equipment |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61109559A JPS62266600A (en) | 1986-05-15 | 1986-05-15 | Word voice recognition equipment |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS62266600A JPS62266600A (en) | 1987-11-19 |
JPH0337199B2 true JPH0337199B2 (en) | 1991-06-04 |
Family
ID=14513303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61109559A Granted JPS62266600A (en) | 1986-05-15 | 1986-05-15 | Word voice recognition equipment |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS62266600A (en) |
-
1986
- 1986-05-15 JP JP61109559A patent/JPS62266600A/en active Granted
Also Published As
Publication number | Publication date |
---|---|
JPS62266600A (en) | 1987-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3066920B2 (en) | Voice recognition method and apparatus | |
JPS6024597A (en) | Voice registration system | |
JPH03201079A (en) | Pattern recognizing device | |
JPH0337199B2 (en) | ||
JP3437492B2 (en) | Voice recognition method and apparatus | |
JP4391179B2 (en) | Speaker recognition system and method | |
JP3315565B2 (en) | Voice recognition device | |
JPH07230293A (en) | Voice recognition device | |
JPH0484197A (en) | Continuous voice recognizer | |
JP3100208B2 (en) | Voice recognition device | |
JPH0469959B2 (en) | ||
JP2001013988A (en) | Method and device for voice recognition | |
JPH0552516B2 (en) | ||
JP3357752B2 (en) | Pattern matching device | |
JP2804265B2 (en) | Voice recognition method | |
JP3009962B2 (en) | Voice recognition device | |
JPS62217297A (en) | Word voice recognition equipment | |
JPS62111292A (en) | Voice recognition equipment | |
JPH0239199A (en) | Sound reference pattern registering system | |
JPS6073592A (en) | Voice recognition equipment for specific speaker | |
JPH0573037B2 (en) | ||
JPH0484196A (en) | Registered patter forming method for continuous voice recognition | |
JPS6312000A (en) | Voice recognition equipment | |
JPS62249198A (en) | Word voice recognition equipment | |
KR19990011493A (en) | Speaker-dependent Variation Modeling Method by Phoneme |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |