JPH0261700A - Speech recognition device - Google Patents

Speech recognition device

Info

Publication number
JPH0261700A
JPH0261700A JP63213405A JP21340588A JPH0261700A JP H0261700 A JPH0261700 A JP H0261700A JP 63213405 A JP63213405 A JP 63213405A JP 21340588 A JP21340588 A JP 21340588A JP H0261700 A JPH0261700 A JP H0261700A
Authority
JP
Japan
Prior art keywords
phoneme
candidates
speech recognition
standard pattern
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63213405A
Other languages
Japanese (ja)
Inventor
Takeshi Nishibe
西部 毅
Seiko Ishikawa
石川 せい子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP63213405A priority Critical patent/JPH0261700A/en
Publication of JPH0261700A publication Critical patent/JPH0261700A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To prepare correct phoneme candidates by adding an another candidate to candidates by phonemes which are selected by a speech recognition part while referring a rule in a rule dictionary storage means. CONSTITUTION:A standard pattern storage means 3 is stored with standard patterns which are generated by phonemes and a speech is inputted by an input means 1; and a speech recognition part 2 compares an input speech with standard patterns and calculates the extent of matching with the standard patterns to select candidates by phonemes. Then a phoneme processing part 4 while referring to the rule dictionary storage means 5 where recognition rules derived from past speech recognition experience adds a candidate to the phoneme candidate by the phonemes which are selected by the speech recognition part 2. Thus, the phoneme candidates are increased by using a rule dictionary 5, so even if an error occurs in a speech recognizing process, a correct phoneme candidate can be prepared.

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、音声ワープロなどに用いられる音声認識装置
に関する。
DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to a speech recognition device used in speech word processors and the like.

[従来の技術] 音声認識装置において、音素単位で認識を行う場合、各
音素の認識結果の第1位候補を単につなげただけでは、
正しく語句を音声認識できる可能性は低い。なぜなら、
例えば、各音素の認識率が95%であったとしても、そ
れから計算した音節の認識率は(0,95) 2=0.
90となり、更に、4音節発生したとすると、全体の認
識率は、 ((0,95)” )’ =0.66となり
、かなり低いものとなってしまうからである。
[Prior Art] When recognizing each phoneme in a speech recognition device, it is difficult to simply connect the first candidates of the recognition results for each phoneme.
It is unlikely that words can be recognized correctly. because,
For example, even if the recognition rate for each phoneme is 95%, the recognition rate for a syllable calculated from it is (0,95) 2 = 0.
90, and if 4 syllables were generated, the overall recognition rate would be ((0,95)")' = 0.66, which would be quite low.

そこで、従来各音素毎の候補を一つに紋らず、複数個出
力することによって、正解率をあげるようにしている。
Therefore, conventional methods have been used to increase the accuracy rate by outputting multiple candidates for each phoneme instead of just one.

[発明が解決しようとする課題] しかしながら、そのように、各音素毎の候補を複数個出
力することにすると、その各候補同士の組合せ数は膨大
な数にのぼることになり、その後のかな漢字変換などの
処理に使う際、事実上処理時間が掛かりすぎるという課
題がある。
[Problem to be solved by the invention] However, if multiple candidates for each phoneme are output in this way, the number of combinations of each candidate will increase to an enormous number, and the subsequent kana-kanji conversion. When used for processing such as, there is a problem that the processing time is actually too long.

更に、発生が連続音声の場合には、調音結合などの影響
により各音素毎に複数の候補をあげても、その中に正解
がない場合があり、また各音素の切り出し自体が正しく
できない場合もあるので、そのままでは正確なかな漢字
変換が出来ないという課題もある。
Furthermore, in the case of continuous speech, even if multiple candidates are given for each phoneme due to effects such as articulatory combination, there may not be a correct answer among them, and each phoneme itself may not be correctly extracted. Therefore, there is also the problem that accurate kana-kanji conversion cannot be done as is.

本発明は、このような従来の音声認識装置の課題を解決
した音声認識装置を提供することを目的とする。
An object of the present invention is to provide a speech recognition device that solves the problems of conventional speech recognition devices.

[課題を解決するための手段] 請求項1の本発明は、音声を入力する入力手段と、音素
毎に作成された標準パターンを記憶した標準パターン記
憶手段と、前記入力手段から入力された音声と前記標準
パターン記憶手段に記憶された標準パターンとを比較し
、標準パターンとのマツチング度を計算し、音素毎の候
補を選び出す音声認識部と、過去の音声認識経験から導
かれた認識ルールを集めたルール辞書記憶手段と、その
ルール辞書記憶手段のルールを参照しながら、前記音声
認識部により選び出された音素毎の候補に、更に他の候
補を追加する音素処理部とを備えたものである。
[Means for Solving the Problems] The present invention according to claim 1 provides an input means for inputting speech, a standard pattern storage means for storing a standard pattern created for each phoneme, and a method for inputting speech input from the input means. and a standard pattern stored in the standard pattern storage means, a speech recognition unit that calculates the degree of matching with the standard pattern, and selects candidates for each phoneme, and a recognition rule derived from past speech recognition experience. A device comprising: a collected rule dictionary storage means; and a phoneme processing section that adds other candidates to the candidates for each phoneme selected by the speech recognition section while referring to the rules in the rule dictionary storage means. It is.

請求項2の本発明は、音声を入力する入力手段と、音素
毎に作成された標準パターンを記憶した標準パターン記
憶手段と、前記入力手段から入力された音声と前記標準
パターン記憶手段に記憶された標準パターンとを比較し
、標準パターンとのマツチング度を計算し、音素毎の候
補を選び出す音声認識部と、その音声認識部により選び
出された候補を組合せ、その組み合わされた種々の単語
と予め用意された単語辞書の毛語とを比較し、単語辞書
内に、対応する単語がある場合はその単語を出力するク
ラスタリング部と、航記音声認識部で計算された少なく
とも音素毎のマツチング度に基づき、前記クラスタリン
グ部により選ばれた候補単語から更に適切な単語を選択
する単語DPマツチング部とを備えたものである。
The present invention according to claim 2 provides an input means for inputting a voice, a standard pattern storage means for storing a standard pattern created for each phoneme, and a method for storing the voice input from the input means and the standard pattern storage means. A speech recognition unit that compares the selected standard pattern with the standard pattern, calculates the degree of matching with the standard pattern, and selects candidates for each phoneme, and combines the candidates selected by the speech recognition unit, A clustering unit that compares Mao words in a word dictionary prepared in advance and outputs the corresponding word if there is a corresponding word in the word dictionary, and a matching degree for at least each phoneme calculated by a speech recognition unit. and a word DP matching unit that selects a more appropriate word from the candidate words selected by the clustering unit based on the above.

[作用] 請求項1の本発明は、標準パターン記憶手段に予め音素
毎に作成された標準パターンを記憶し、入力手段によっ
て音声を入力し、音声認識部によって、入力された音声
と前記標準パターンとを比較して標準パターンとのマツ
チング度を計算して音素毎の候補を選び出し、音素処理
部によって、過去の音声認識経験から導かれた認識ルー
ルを集めたルール辞書記憶手段を参照しながら、前記音
声認識部により選び出された音素毎の候補に、更に他の
候補を特徴する 請求項2の本発明は、標準パターン記憶手段に予め音素
毎に作成された標準パターンを記憶し、入力手段によっ
て音声を入力し、音声認識部によって、入力された音声
と前記標準パターンとを比較して標準パターンとのマツ
チング度を計算し、音素毎の候補を選び出し、クラスタ
リング部によって、音声認識部により選び出された候補
を組合せ、その組み合わされた種々の単語と予め用意さ
れた単語辞書の単語とを比較し、一致する場合は、その
単語を出力し、単語DPマツチング部によって、前記音
声認識部で計算された少なくとも音素毎マツチング度に
基づき、前記クラスタリング部により選ばれた候補単語
から更に適切な単語を選択する。
[Operation] The present invention according to claim 1 stores a standard pattern created in advance for each phoneme in a standard pattern storage means, inputs a voice through an input means, and combines the input voice and the standard pattern with a voice recognition unit. The phoneme processor selects candidates for each phoneme by calculating the degree of matching with the standard pattern, and uses the phoneme processing unit to refer to a rule dictionary storage means that collects recognition rules derived from past speech recognition experience. The present invention according to claim 2, wherein the candidates for each phoneme selected by the speech recognition section further include other candidates, the standard pattern storage means stores a standard pattern created in advance for each phoneme, and the input means The voice recognition unit compares the input voice with the standard pattern to calculate the degree of matching with the standard pattern, selects candidates for each phoneme, and the clustering unit selects candidates for each phoneme. The candidates are combined, and the combined various words are compared with words in a word dictionary prepared in advance. If they match, the word is output, and the word DP matching unit outputs the word and the speech recognition unit Based on the calculated degree of matching for each phoneme, a more appropriate word is selected from the candidate words selected by the clustering unit.

[実施例] 以下に、本発明をその実施例を示す図面に基づいて説明
する。
[Examples] The present invention will be described below based on drawings showing examples thereof.

第1図は、本発明にかかる音声認識装置の一実施例を示
すブロック図である。
FIG. 1 is a block diagram showing an embodiment of a speech recognition device according to the present invention.

標準パターン記憶手段3は、各種音素の標準パターン波
形を記憶したROM (読み取り専用メモリ)等の手段
である。
The standard pattern storage means 3 is a means such as a ROM (read-only memory) that stores standard pattern waveforms of various phonemes.

音声認識部2は、入力手段1のマイクから入力された音
声と、前記標準パターン記憶手段3の標準パターンを比
較して照合し、音素毎に標準パターンとのマツチング度
(距離)を計算し、マツチング度の高いものを音素候補
とする手段である。
The speech recognition unit 2 compares and matches the speech input from the microphone of the input means 1 with the standard pattern of the standard pattern storage means 3, calculates the degree of matching (distance) with the standard pattern for each phoneme, This is a means of selecting phoneme candidates with a high degree of matching.

例えば、子音については第4位まで、母音については第
1位又は第2位までを候補とする。更に、母音について
は曖昧さを示すフラグも候補に付す。
For example, the candidates are up to 4th place for consonants, and up to 1st or 2nd place for vowels. Furthermore, for vowels, a flag indicating ambiguity is also attached to the candidates.

ルール辞書記憶手段5は、過去の音声認識における分析
経験から得られたルールを記憶したROMである。
The rule dictionary storage means 5 is a ROM that stores rules obtained from past analysis experience in speech recognition.

音素処理部4は、前記ルール辞書記憶手段5の各種ルー
ルを参照しながら、前記音声認識部2によって選ばれた
音素毎の候補に、他の候補を必要に応じて追加する手段
である。
The phoneme processing unit 4 is a means for adding other candidates to the candidates for each phoneme selected by the speech recognition unit 2, as necessary, while referring to various rules in the rule dictionary storage unit 5.

クラスタリング部6は、前記音素処理部4で選択された
音素毎の候補について、互いに組み合わせる。更にその
組み合わせた各音素候補列(単語)が、後述するかな漢
字変換辞書から抽出された単語辞11(単語辞書記憶手
段7に記憶されている)の中の単語に該当するかどうか
を調べ、該当する単語がある場合は、その単語を音素候
補列として出力する手段である。
The clustering section 6 combines the candidates for each phoneme selected by the phoneme processing section 4 with each other. Furthermore, it is checked whether each of the combined phoneme candidate strings (words) corresponds to a word in the word dictionary 11 (stored in the word dictionary storage means 7) extracted from the Kana-Kanji conversion dictionary, which will be described later. If there is a word to be used, this means outputs that word as a phoneme candidate string.

単語間DP部8は、前記母音候補についている曖昧フラ
グの状態と、前記標準パターンのマツチング度(距離)
とを用いて、前記クラスタリング部から出力された候補
単語のマツチング度を計算する手段である。そして、マ
ツチング度が高いと判断された単語は、次のかな漢字変
換部9に渡される。
The word-to-word DP unit 8 determines the state of the ambiguity flag attached to the vowel candidate and the matching degree (distance) of the standard pattern.
This means calculates the degree of matching of the candidate words output from the clustering unit using the above. Then, words determined to have a high degree of matching are passed to the next kana-kanji converter 9.

かな漢字変換部9は、かな漢字変換辞書を用いて、単語
間DP部8から送られてきたかなについて、かな漢字変
換を行うと共に、入力音声に対する出力結果としての妥
当性(コスト)の計算を行い、妥当性の高いと判断され
たものを出力する手段である。
The kana-kanji conversion unit 9 uses the kana-kanji conversion dictionary to perform kana-kanji conversion on the kana sent from the word-to-word DP unit 8, and calculates the validity (cost) of the output result for the input voice. This is a means of outputting those that are judged to have high quality.

次に1、L記実施例の動作を、 「こうばの」という文
節を音声入力した場合を例にとって説明する。
Next, the operation of the embodiment 1.L will be explained by taking as an example the case where the phrase "Kobano" is input by voice.

第2図は、入力手段lから「こうばの」という文節を音
声入力した場合、前記音声認識部2から出力されたもの
である。 「こうばの」の「こう」の部分は実際にはr
ko−JとrOJ母音を長く延ばして発音しているので
連母音フラグ「4」がつけられている。即ち、その曖昧
フラグ「4」の意味は、第3図に示す通り、連母音の可
能性ありという意味である。また、 「の」の部分のr
nJ子音は、 「ン」と誤認識されることがあるため、
この場合は、 「の」l音節外が[零Ngo]の様に2
音節分に分かれて認識されている。しかし、この[零N
]については曖昧フラグ「2」がつけられている。その
意味は、付加の可能性があるという意味である。
FIG. 2 shows what is output from the speech recognition section 2 when the phrase "Kobano" is input by voice from the input means 1. The “Kou” part of “Kobano” is actually r
Since the ko-J and rOJ vowels are pronounced with a long pronunciation, the continuous vowel flag "4" is attached. That is, the meaning of the ambiguity flag "4" is that there is a possibility of continuous vowels, as shown in FIG. Also, r in the “no” part
The nJ consonant is sometimes misrecognized as "n", so
In this case, the outside of the l syllable of “no” is 2 as in [zero Ngo].
It is recognized in syllables. However, this [zero N
] is marked with an ambiguity flag "2". Its meaning is that there is a possibility of addition.

第2図に示す音素候補の表記法の意味は次の通りである
The meaning of the notation of phoneme candidates shown in FIG. 2 is as follows.

即ち、音素候補は、日本語をローマ字表示した場合の各
子音・母音の表記に原則として準じている。但し、 「
ン」については、大文字「N」で示し、またア行及び「
ン」の子音部分に当たる箇所には「木」が記入されてい
る。
That is, the phoneme candidates basically conform to the notation of each consonant and vowel when Japanese is displayed in Roman letters. however, "
"N" is indicated by a capital letter "N", and "A" and "A" are indicated by a capital letter "N".
``木'' is written in the place corresponding to the consonant part of ``n''.

音素処理部4は、第2図に示すような音素毎の候補を入
力し、ルール辞書に基づいて、処理する。
The phoneme processing unit 4 receives candidates for each phoneme as shown in FIG. 2 and processes them based on the rule dictionary.

第4図は、その結果を示すものである。過去の音声分析
経験からみて、連母音フラグのついたrOJ音にはro
*u」、 「0本0」という候補が追加され、また、付
加フラグのついたrJJ]音と次の母音候補から考えて
、音声認識では2音節分と判断されている部分に対して
、 r m o ]、 rnOJというl音節外の候補
が追加される。このほか、子音は、連続発声した場合、
前後の母音の影響を受けて変化し易く、4つの候補の中
に、正解が入っていない場合もあるので、図のように子
音候補の追加も行う。
FIG. 4 shows the results. Based on past speech analysis experience, rOJ sounds with continuous vowel flags have ro
*u" and "0 0 0" are added, and considering the rJJ] sound with the addition flag and the next vowel candidate, for the part that is judged to be two syllables in speech recognition, r m o ], rnOJ are added as candidates outside the l syllable. In addition, when consonants are uttered continuously,
Since it is easy to change due to the influence of the preceding and following vowels, and there may be cases where the correct answer is not among the four candidates, consonant candidates are also added as shown in the figure.

音声認識部2により出力された第2図の音素候補と、音
素処理部4により出力された第4図の音素候補とを比較
すると、第2図の候補は、どのように組み合わせたとし
ても、入力された「こうばの」の正しいかな列は得られ
ない。しかし、第4図の候補は、組合せ次第では「こう
ばの」が得られうろことになる。
Comparing the phoneme candidates in FIG. 2 output by the speech recognition unit 2 and the phoneme candidates in FIG. 4 output by the phoneme processing unit 4, the candidates in FIG. I cannot get the correct kana string for the input "Kobano". However, depending on the combination of the candidates in Figure 4, ``Kobano'' may be obtained.

第5図は、前記クラスタリング部6において、音素処理
部4から出力された音素候補について、あらゆる組合せ
を作り、単語辞書中に含まれるものを捜す。同図に於て
、抽出された単語の左側に記された数字は、その組合せ
の仕方を示すもので、音声認識部2により得られた結果
の同音節目から同音節目に当たる部分から抽出した単語
であることを示すためのものである。本実施例において
は、音声入力は文節毎に行われるので、入力音声中の単
語数は一定ではなく、又文節中で同音節目から単語が始
まるのかを限定できるものでもない。このため、クラス
タリング部6は、文節中の単語数、及び各単語の文字数
及び各単語の位置については制限を与えずに、単語を抽
出するようにしている。
FIG. 5 shows that the clustering unit 6 creates all possible combinations of phoneme candidates output from the phoneme processing unit 4 and searches for those included in the word dictionary. In the figure, the numbers written to the left of the extracted words indicate the way they are combined, and the words are extracted from the same syllable to the same syllable of the result obtained by the speech recognition unit 2. It is meant to show that something is true. In this embodiment, since voice input is performed for each phrase, the number of words in the input voice is not constant, and it is not possible to limit whether words start from the same syllable within a phrase. For this reason, the clustering unit 6 extracts words without limiting the number of words in a clause, the number of characters in each word, and the position of each word.

その左側に示された数字は、単語間DP部8及びかな漢
字変換部9において、使用される。
The numbers shown on the left side are used in the word-to-word DP section 8 and the kana-kanji conversion section 9.

第6図は、単語間DP部8でのDPPマツチング様子を
、クラスタリング部6から候冨として出力される第5図
に示す種々の言葉のうち、 「こうば」という単語を例
に取って図示したものである。
FIG. 6 illustrates the DPP matching in the word-to-word DP section 8, taking as an example the word "Koba" among the various words shown in FIG. 5 output as candidates from the clustering section 6. This is what I did.

「こうば」は、認識結果の第1.2音節目(第5図の1
−2参照)に相当する部分から出て来た一つのm語候補
であるので、DPPマツチング使用するマツチング度も
この部分のマツチング度を用いる。即ち、前記音声認識
部2より渡された音素毎の各標準パターンとのマツチン
グ度(距離)を第6図に示すDPマツチング用子テーブ
ル各空欄に入れ、DPPマツチング行う。同様のDPP
マツチング、第!、2音節の他の単語候補「こうぼ」、
 「こな」、 「こま」 ・・・についても行う。
“Koba” is the 1st and 2nd syllable of the recognition result (1 in Figure 5).
Since this is one m-word candidate that has come out of the part corresponding to (see -2), the matching degree of this part is used as the matching degree used in DPP matching. That is, the degree of matching (distance) between each phoneme and each standard pattern passed from the speech recognition unit 2 is entered into each blank column of the DP matching child table shown in FIG. 6, and DPP matching is performed. Similar DPP
Matching, No. , another two-syllable word candidate "kobo",
``Kona'', ``Koma'', etc. will also be explained.

そして、得られたマツチング度の最も高い単語候補をそ
の1−2音節に関する代表とする。この場合は「こうば
」となる。
Then, the obtained word candidate with the highest degree of matching is taken as a representative for that 1-2 syllable. In this case, it would be "Koba".

このようにして、 11音節、1−2音節、13音節、
・・・ 2−2音節、2−3音節・・・についてそれぞ
れ最大5個までの代表晰語候補を選ぶ。
In this way, 11 syllables, 1-2 syllables, 13 syllables,
... Select up to 5 representative lucid word candidates for each of 2-2 syllables, 2-3 syllables, etc.

なお、母音に曖昧フラグがついている場合は、前記DP
マツチング用子テーブル各空欄に上述したマツチング度
を入れず、それに代えて、特殊な値を入れる場合がある
。− 第7図及び第8図はその特殊処理の流れを示すフローチ
ャートである。
Note that if the vowel has an ambiguity flag, the DP
In some cases, the above-mentioned matching degree is not entered in each blank column of the child table for matching, and instead, a special value is entered. - Figures 7 and 8 are flowcharts showing the flow of the special processing.

第7図は、脱落フラグと付加フラグと連母音フラグの曖
昧フラグ位置の吠況を判断するためのフローチャートで
ある。
FIG. 7 is a flowchart for determining the barking status of the ambiguous flag positions of the dropout flag, addition flag, and continuous vowel flag.

例えば、脱落フラグrlJの処理を例にとって説明する
For example, the processing of the omission flag rlJ will be explained as an example.

そもそも脱落フラグ「1」は、次のような場合に付加さ
れる。
In the first place, the omission flag "1" is added in the following cases.

第9図(a)に示すように、例えば「ふそく」と発声し
た場合の音声波形がマイク1から入力されたとする。
As shown in FIG. 9(a), it is assumed that, for example, a voice waveform when uttering "fusoku" is input from the microphone 1.

音声認識部2においては、第9図(b)に示す様に、先
ず音声区間(A)を検出し、次に母音区間(B)を検出
し、その母音を認識する。入力された「ふそく」につい
ては、 「ふ」の”U′が母音として検出できなかった
とする。
In the speech recognition section 2, as shown in FIG. 9(b), first a speech section (A) is detected, then a vowel section (B) is detected, and the vowel is recognized. Assume that for the input "Fusoku", "U' of "Fu" could not be detected as a vowel.

次に、母音区間(B)の残りの区間を子音(C)とし、
子音認識を行う。そのようにして母音、子音候補が、第
9図(C)に示すようにあげられる(第2図参照)。と
ころで、子音区間(C)のうち、☆部分の区間は一つの
子音としては長すぎる。
Next, the remaining section of the vowel section (B) is set as a consonant (C),
Perform consonant recognition. In this way, vowel and consonant candidates are listed as shown in FIG. 9(C) (see FIG. 2). By the way, in the consonant section (C), the section marked with ☆ is too long as one consonant.

そこで、間に母音があるのかも知れないので、脱落フラ
グ「1」をオンとする。脱落区間の子音をC1母音を■
で示す。また、この区間の子音は、前半は”h′で、後
半は′s′であるため、子音候補として、この両方がで
る可能性がある。
Therefore, since there may be a vowel in between, the omission flag "1" is turned on. Change the consonant in the dropped section to C1 vowel■
Indicated by Furthermore, since the consonants in this section are "h" in the first half and "s" in the second half, both of these may appear as consonant candidates.

このようにして、脱落フラグ「1」が付加された音声認
識結果について、単語間DP部8により、第7図に示す
ように、脱落フラグ「l」がオンであるので(ステップ
Sl)、次に「フラグの位置に文字が無い可能性」を調
べる(ステップS2)。
In this way, regarding the speech recognition result to which the omission flag "1" has been added, the inter-word DP section 8 determines that the omission flag "l" is on (step Sl) as shown in FIG. ``The possibility that there is no character at the flag position'' is checked (step S2).

即ち、候補となるかな文字列を作り出すときに、脱落フ
ラグの文字位置に、文字がある場合と、ない場合の両方
について処理を行う。従って、 「ふそく」に対する候
補としては、2文字のものと3文字のものが上がる。候
補が2文字のときは、脱落フラグの文字位置に文字はな
いと判断して処理したときなので、判断はYESとなり
、chkに1が代入される(ステップS3)。
That is, when creating a kana character string to be a candidate, processing is performed both when there is a character at the character position of the omission flag and when there is no character. Therefore, the candidates for "Fusoku" are two-letter and three-letter ones. When the number of candidates is two characters, this means that the processing is performed with the determination that there is no character at the character position of the omission flag, so the determination is YES and 1 is assigned to chk (step S3).

「次の文字の子音は、この位置の子音に対するもの」 
(ステップS4)では、「ふそく」の第1文字の正しい
認識結果′h゛は、脱落フラグの次の文字に現れる可能
性がある。このような場合、辞書引きによフて得られた
単語候補の第1文字目の子音が、第2文字目の子音の音
声認識結果の中で上位にくる。このときこの判断はYE
Sとなり(ステップS4)、c h kには2が代入さ
れる(ステップS5)。
"The consonant of the next letter is for the consonant in this position."
In (step S4), there is a possibility that the correct recognition result 'h' of the first character of "Fusoku" appears in the next character of the omission flag. In such a case, the consonant of the first letter of the word candidate obtained by dictionary lookup is ranked high among the speech recognition results of the consonant of the second letter. At this time, this judgment is YES
S (step S4), and 2 is assigned to ch k (step S5).

「フラグの位置は促音の可能性」 (ステップS6)で
は、促音は無音区間であり、母音と母音の間にかなり長
い時間間隔があるので、脱落フラグがつくこともある(
促音は専用のフラグを持っているが、脱落として判断さ
れる場合もある)。ルール辞書には、この事実も登録さ
れているので脱落フラグの位置に当たるところに、 「
ツ」が入った単語も候補としてあがる。小さい「ツ」の
後の子音は限られている(1(、SS  t、  p)
ので、脱落フラグのついている次の文字の候補にこれら
の子音があり、フラグの位置に対する文字が小さい「ツ
」のとき、この判断はYESとなり(ステップS6)、
chkには3が代入される(ステップS7)。
"The position of the flag may be a consonant" (step S6), since the consonant is a silent section and there is a fairly long time interval between vowels, a dropout flag may be attached (
Consonants have their own flags, but they may be omitted and judged). This fact is also registered in the rule dictionary, so "
Words that contain "tsu" are also suggested. The number of consonants after the small “tsu” is limited (1 (, SS t, p)
Therefore, if these consonants are candidates for the next character with the omission flag, and the character corresponding to the flag position is a small "tsu", the determination is YES (step S6).
3 is assigned to chk (step S7).

このようにして、付加フラグや連母音フラグについても
、その位置の状況が判断され、その結果がchkに代入
される。
In this way, the positional status of the additional flag and continuous vowel flag is also determined, and the result is substituted into chk.

第8図は、このようにして、フラグ位置の状況が判断さ
れた結果chkを利用して、DPマツチングテーブルの
各欄を補正する様子を示す。
FIG. 8 shows how each column of the DP matching table is corrected using chk, which is the result of determining the state of the flag position in this manner.

同図において、脱落フラグrlJがオンであるので(ス
テップSt)、次にステップ82〜S5において、c 
h kの内容がチエツクされ、各々に応じた前記DPマ
ツチングテーブルの補正が行われる(ステップ86〜S
9)。
In the same figure, since the dropping flag rlJ is on (step St), next in steps 82 to S5, c
The contents of hk are checked, and the DP matching table is corrected accordingly (steps 86 to S
9).

なお、ステップS6において、子、母は、辞書よりの単
語の子音、母音を意味し、C9■は、脱落フラグの位置
の子音、母音である。C,Vはフラグのついていない認
識結果であり、Cは子音、■は母音である。1.010
.5は、この処理によって入れられるマツチング度の値
である。1.0又は0.5の一値が入れられる。
In step S6, child and mother mean the consonant and vowel of the word from the dictionary, and C9■ is the consonant and vowel at the position of the omission flag. C and V are recognition results without flags, C is a consonant, and ■ is a vowel. 1.010
.. 5 is the matching degree value entered by this process. A single value of 1.0 or 0.5 is entered.

ステップS7において、C−子1は、脱落フラグの次の
文字の認識結果の中の子1に対するもの。C−子2は、
脱落フラグ用の子音のスコアの中の子2に対するものく
脱落位置については認識結果がないので、予め数(lσ
を子音、母音とも用意しておく)。
In step S7, C-Child 1 is for Child 1 among the recognition results of the character next to the omission flag. C-child 2 is
Since there is no recognition result regarding the consonant dropout position for child 2 in the consonant score for the dropout flag, the number (lσ
(prepare both consonants and vowels).

ステップS8において、子、母は、小さな「ツ」である
In step S8, the child and mother are small "tsu".

ステップS9において、 (c)、  (v)は、DP
マツチングには直接関与しない位置の子音、母音、 (
c)−子は、次の文字の認l結果の中の子に対するもの
である。太線は、実際のDPマツチングのときのマトリ
ックスの終端(単語候補が発声の途中までに対するもの
であるとき)を示す。
In step S9, (c) and (v) are DP
Consonants and vowels in positions that are not directly involved in matching, (
c) -Child is for the child in the result of the next character's recognition. The thick line indicates the end of the matrix during actual DP matching (when the word candidate is for the middle of the utterance).

ステップSIOにおいて、 (C)、 (V)は、DP
マツチングに直接関与しない位置の脱落フラグのついた
子音、母音、 (C)−子は、脱落フラグ用の子音のス
コアの中で子に対するものである。
In step SIO, (C) and (V) are DP
Consonants and vowels with dropout flags in positions that are not directly involved in matching, (C)-Child are for children in the score of consonants for dropout flags.

太線は、実際のDPマツチングのときの始端(単語候補
が発声の途中からに対するものであるとき)である。
The thick line is the starting point during actual DP matching (when the word candidate is from the middle of the utterance).

ステップSllにおいて、 「V付」とは、付加フラグ
オンの母音候補、1.3☆は、1.3をDPマツチング
テーブルに入れた後この前後の子音の認識結果から判断
した補正を行う意味である。
In step Sll, "V attached" means a vowel candidate with an additional flag on, and 1.3☆ means that after putting 1.3 into the DP matching table, correction is performed based on the recognition results of the consonants before and after this. be.

ステップS13において、c t 、  v lは、フ
ラグの付いていない認識結果である。
In step S13, c t and v l are recognition results without flags.

ステップS14において、■連とは、連母音フラグオン
の母音候補、v  rnbは、連鋳音用に用意した数値
の中から母゛に対するものを入れる。
In step S14, ``2'' is a vowel candidate for the continuous vowel flag on, and vrnb is a value for the vowel from among the numerical values prepared for continuous vowels.

子2、母9は、上の子、母と区別するため「2」が付い
ている。
Child 2 and mother 9 are marked with "2" to distinguish them from the older child and mother.

このようにして、単語間DP部8において、DPマツチ
ング処理を行い、各音節部分(1音節目、l音節口42
音節目、l音節口〜3音節目、・・・2音節目、2音節
目〜3音節目、・・・)において、マツチング度の高い
単語群をかな漢字譲換部9に渡す。
In this way, the inter-word DP unit 8 performs DP matching processing, and each syllable part (1st syllable, l syllable mouth 42
Word groups with a high degree of matching are passed to the kana-kanji transfer unit 9 at the syllable, the first syllable to the third syllable, the second syllable, the second to third syllable, and so on.

かな漢字変換部9では、かな漢字変換用辞書を用いてか
な漢字変換を行い、更に、クラスタリング部6で単語候
補に付された数字を用いて文節の組立を行い、前記単語
間DPマツチング部8でのマツチング度と、言語的知識
を用いて、文節候補の順位付けを行い、出力する。
The kana-kanji conversion unit 9 performs kana-kanji conversion using a kana-kanji conversion dictionary, and furthermore, the clustering unit 6 assembles phrases using numbers attached to word candidates, and the word-to-word DP matching unit 8 performs matching. This system uses language knowledge and linguistic knowledge to rank and output phrase candidates.

第10図は、その結果を示すものである。FIG. 10 shows the results.

なお、前記ルール辞書5は、母音認識時の曖昧フラグを
考慮にいれて作成されているが、音声認識結果にこの種
のフラグがないときは、認識エラーの傾向からルール辞
書を作成することもできる。
Note that the rule dictionary 5 is created taking into account ambiguity flags during vowel recognition, but if there are no flags of this kind in the speech recognition results, a rule dictionary may be created based on the tendency of recognition errors. can.

又、単語間DPマツチング部8でのマツチング度の計算
においては、上述したような方法に限らず、他の計算方
法を用いることもできることは勿論である。
Further, in calculating the degree of matching in the word-to-word DP matching section 8, it is needless to say that other calculation methods can be used instead of the method described above.

[発明の効果] 以上述べたところから明らかなように、請求項1の本発
明は、ルール辞書を用いて音素候補の補強を行うので、
音声認識過程においてエラーが起こっても、正しい音素
候補を用意することが出来る。
[Effects of the Invention] As is clear from the above description, the present invention according to claim 1 uses a rule dictionary to reinforce phoneme candidates.
Even if an error occurs during the speech recognition process, correct phoneme candidates can be prepared.

又、請求項2の本発明は、クラスタリング部、単語間D
Pマツチン部8により、候補の数を絞ることが出来るの
で、例えば、その後の処理である、かな漢字変換処理の
負担を軽減できるという長所を有する。
Further, the present invention according to claim 2 provides a clustering unit, an inter-word D
Since the P-matching unit 8 can narrow down the number of candidates, it has the advantage that, for example, the burden of subsequent kana-kanji conversion processing can be reduced.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は、本発明にかかる音声認識装置の一実施例を示
すブロック図、第2図は、同実施例の音声認識部の出力
例を示す構成図、第3図は、同実施例で用いられる曖昧
フラグの意味を示すフラグ構成図、第4図は、同実施例
における音素処理部の処理結果を示す構成図、第5図は
、同実施例におけるクラスタリング部による処理結果を
示す構成図、第6図は、同実施例における単語間DPマ
ツチング部における処理の状態を示す構成図、第7図及
び第8図は、同実施例における単語間DPマツチング部
での曖昧フラグによる処理を示すフローチャート、第9
図(a)、 (b)、  (c)は、同実施例における
脱落フラグを説明するための構成図、第10図は、同実
施例のかな漢字変換部の処理結果を示す構成図である。 1・・・入力手段   3・・・標準パターン記憶手段
2・・・音声認識部  4・・・音素処理部5・・・ル
ール辞書記憶手段6・・・クラスタリング部8・・・単
語DPマツチング部 出願人  ブラザー工業株式会社
FIG. 1 is a block diagram showing an embodiment of the speech recognition device according to the present invention, FIG. 2 is a block diagram showing an example of the output of the speech recognition section of the embodiment, and FIG. 3 is a block diagram showing an example of the output of the speech recognition unit of the embodiment. FIG. 4 is a configuration diagram showing the processing results of the phoneme processing unit in the same embodiment. FIG. 5 is a configuration diagram showing the processing results by the clustering unit in the same embodiment. , FIG. 6 is a block diagram showing the state of processing in the inter-word DP matching section in the same embodiment, and FIGS. 7 and 8 show processing using ambiguity flags in the inter-word DP matching section in the same embodiment. Flowchart, No. 9
Figures (a), (b), and (c) are block diagrams for explaining the omission flag in the same embodiment, and Fig. 10 is a block diagram showing the processing results of the kana-kanji converter of the same embodiment. 1... Input means 3... Standard pattern storage means 2... Speech recognition section 4... Phoneme processing section 5... Rule dictionary storage means 6... Clustering section 8... Word DP matching section Applicant: Brother Industries, Ltd.

Claims (2)

【特許請求の範囲】[Claims] (1)音声を入力する入力手段と、音素毎に作成された
標準パターンを記憶した標準パターン記憶手段と、前記
入力手段から入力された音声と前記標準パターン記憶手
段に記憶された標準パターンとを比較し、標準パターン
とのマッチング度を計算し、音素毎の候補を選び出す音
声認識部と、過去の音声認識経験から導かれた認識ルー
ルを集めたルール辞書記憶手段と、そのルール辞書記憶
手段のルールを参照しながら、前記音声認識部により選
び出された音素毎の候補に、更に他の候補を追加する音
素処理部とを備えたことを特徴とする音声認識装置。
(1) An input means for inputting speech, a standard pattern storage means for storing a standard pattern created for each phoneme, and a speech input from the input means and the standard pattern stored in the standard pattern storage means. A speech recognition unit that compares and calculates the degree of matching with a standard pattern and selects candidates for each phoneme, a rule dictionary storage unit that collects recognition rules derived from past speech recognition experience, and a rule dictionary storage unit that collects recognition rules derived from past speech recognition experience. A speech recognition device comprising: a phoneme processing unit that adds other candidates to the candidates for each phoneme selected by the speech recognition unit while referring to rules.
(2)音声を入力する入力手段と、音素毎に作成された
標準パターンを記憶した標準パターン記憶手段と、前記
入力手段から入力された音声と前記標準パターン記憶手
段に記憶された標準パターンとを比較し、標準パターン
とのマッチング度を計算し、音素毎の候補を選び出す音
声認識部と、その音声認識部により選び出された候補を
組合せ、その組み合わされた種々の単語と予め用意され
た単語辞書の単語とを比較し、単語辞書内に、対応する
単語がある場合はその単語を出力するクラスタリング部
と、前記音声認識部で計算された少なくとも音素毎のマ
ッチング度に基づき、前記クラスタリング部により選ば
れた候補単語から更に適切な単語を選択する単語DPマ
ッチング部とを備えたことを特徴とする音声認識装置。
(2) An input means for inputting speech, a standard pattern storage means for storing a standard pattern created for each phoneme, and a method for inputting the speech input from the input means and the standard pattern stored in the standard pattern storage means. A speech recognition unit that compares, calculates the degree of matching with a standard pattern, and selects candidates for each phoneme, and combines the candidates selected by the speech recognition unit, and combines various words with pre-prepared words. a clustering unit that compares the words with the words in the dictionary and outputs the corresponding word if there is a corresponding word in the word dictionary; A speech recognition device comprising: a word DP matching unit that selects a more appropriate word from the selected candidate words.
JP63213405A 1988-08-27 1988-08-27 Speech recognition device Pending JPH0261700A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63213405A JPH0261700A (en) 1988-08-27 1988-08-27 Speech recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63213405A JPH0261700A (en) 1988-08-27 1988-08-27 Speech recognition device

Publications (1)

Publication Number Publication Date
JPH0261700A true JPH0261700A (en) 1990-03-01

Family

ID=16638680

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63213405A Pending JPH0261700A (en) 1988-08-27 1988-08-27 Speech recognition device

Country Status (1)

Country Link
JP (1) JPH0261700A (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4328081A1 (en) * 1992-12-02 1994-06-09 Nsk Ltd Pretensioning adjustable roller bearing - simultaneously measuring tension as axial pressure is exerted for relative displacement of two bearing rings
JPH07306691A (en) * 1993-07-12 1995-11-21 Meidensha Corp Apparatus and method for speaker-independent speech recognition
US5517858A (en) * 1991-06-28 1996-05-21 Nsk Ltd. Method and instrument for measuring for measuring preload of rolling bearing
US5877433A (en) * 1996-05-27 1999-03-02 Nsk Ltd. Bearing preload measuring method and apparatus
US6234022B1 (en) 1998-08-28 2001-05-22 Nsk Ltd. Bearing rigidity evaluation apparatus
US6918302B2 (en) 2002-12-19 2005-07-19 Nsk Ltd. Apparatus and method for measuring resonance in bearing device
JP2005257954A (en) * 2004-03-10 2005-09-22 Nec Corp Speech retrieval apparatus, speech retrieval method, and speech retrieval program
US7503216B2 (en) 2001-10-09 2009-03-17 Nsk Ltd. Device and method for evaluating rigidity of bearing device, device and method for manufacturing bearing device, and bearing device
JP2009093671A (en) * 2008-12-18 2009-04-30 Nippon Hoso Kyokai <Nhk> Apparatus and program for converting kana into kanji
CN113053364A (en) * 2019-12-27 2021-06-29 北京搜狗科技发展有限公司 Voice recognition method and device for voice recognition

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5517858A (en) * 1991-06-28 1996-05-21 Nsk Ltd. Method and instrument for measuring for measuring preload of rolling bearing
DE4328081A1 (en) * 1992-12-02 1994-06-09 Nsk Ltd Pretensioning adjustable roller bearing - simultaneously measuring tension as axial pressure is exerted for relative displacement of two bearing rings
JPH07306691A (en) * 1993-07-12 1995-11-21 Meidensha Corp Apparatus and method for speaker-independent speech recognition
US5877433A (en) * 1996-05-27 1999-03-02 Nsk Ltd. Bearing preload measuring method and apparatus
US6234022B1 (en) 1998-08-28 2001-05-22 Nsk Ltd. Bearing rigidity evaluation apparatus
US7503216B2 (en) 2001-10-09 2009-03-17 Nsk Ltd. Device and method for evaluating rigidity of bearing device, device and method for manufacturing bearing device, and bearing device
US6918302B2 (en) 2002-12-19 2005-07-19 Nsk Ltd. Apparatus and method for measuring resonance in bearing device
JP2005257954A (en) * 2004-03-10 2005-09-22 Nec Corp Speech retrieval apparatus, speech retrieval method, and speech retrieval program
JP2009093671A (en) * 2008-12-18 2009-04-30 Nippon Hoso Kyokai <Nhk> Apparatus and program for converting kana into kanji
CN113053364A (en) * 2019-12-27 2021-06-29 北京搜狗科技发展有限公司 Voice recognition method and device for voice recognition

Similar Documents

Publication Publication Date Title
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
US6535849B1 (en) Method and system for generating semi-literal transcripts for speech recognition systems
US7657430B2 (en) Speech processing apparatus, speech processing method, program, and recording medium
Caballero Morales et al. Modelling errors in automatic speech recognition for dysarthric speakers
JP4704254B2 (en) Reading correction device
JPH0261700A (en) Speech recognition device
JP2009271117A (en) Voice retrieval device and voice retrieval method
SE506003C2 (en) Speech-to-speech conversion method and system with extraction of prosody information
EP0987681B1 (en) Speech recognition method and apparatus
Williams Word stress assignment in a text-to-speech synthesis system for British English
JPH11338498A (en) Voice synthesizer
JP2001188556A (en) Method and device for voice recognition
JPS6229796B2 (en)
KR102405547B1 (en) Pronunciation evaluation system based on deep learning
JP3090204B2 (en) Speech model learning device and speech recognition device
JP2000276189A (en) Japanese dictation system
JPH0736481A (en) Interpolation speech recognition device
JPH03245192A (en) Method for determining pronunciation of foreign language word
JPS6180298A (en) Voice recognition equipment
JP2005534968A (en) Deciding to read kanji
JPH04127199A (en) Japanese pronunciation determining method for foreign language word
JPH08171396A (en) Speech recognition device
Caballero et al. Modelling errors in automatic speech recognition for dysarthric speakers
JPS60182499A (en) Voice recognition equipment
JPH0415960B2 (en)