JP2975772B2 - Voice recognition device - Google Patents

Voice recognition device

Info

Publication number
JP2975772B2
JP2975772B2 JP4173114A JP17311492A JP2975772B2 JP 2975772 B2 JP2975772 B2 JP 2975772B2 JP 4173114 A JP4173114 A JP 4173114A JP 17311492 A JP17311492 A JP 17311492A JP 2975772 B2 JP2975772 B2 JP 2975772B2
Authority
JP
Japan
Prior art keywords
pattern
voice
input
audio
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP4173114A
Other languages
Japanese (ja)
Other versions
JPH0619491A (en
Inventor
真一 鶴藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Denki Co Ltd
Original Assignee
Sanyo Denki Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Denki Co Ltd filed Critical Sanyo Denki Co Ltd
Priority to JP4173114A priority Critical patent/JP2975772B2/en
Publication of JPH0619491A publication Critical patent/JPH0619491A/en
Application granted granted Critical
Publication of JP2975772B2 publication Critical patent/JP2975772B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、音声によって各種機器
を制御する音声認識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition device for controlling various devices by voice.

【0002】[0002]

【従来の技術】近年、音声を認識できる音声認識装置の
研究開発が盛んに行われており、この種装置の実用化が
望まれている。
2. Description of the Related Art In recent years, research and development of a voice recognition device capable of recognizing voice have been actively carried out, and practical use of this type of device is desired.

【0003】この種装置は、一般には、音声を分析して
得られる音声の特徴を表すパラメータからなる例えば図
7のような音声パタンをデータ処理するものであり、あ
らかじめ複数の音声について貯えられた音声パタン(音
声標準パタン)のそれぞれを未知の音声パタンとパタン
マッチングの手法によって比較し、最も誤差の小さい
(即ち、類似度の高い)音声標準パタンを見出すこと
で、この標準パタンに対応した信号が認識結果として出
力されるものである。
[0003] This type of apparatus generally performs data processing on a voice pattern such as that shown in FIG. 7, which comprises parameters representing voice characteristics obtained by analyzing voice, and is stored in advance for a plurality of voices. Each of the voice patterns (voice standard patterns) is compared with an unknown voice pattern by a method of pattern matching, and a voice standard pattern with the smallest error (that is, a high similarity) is found, so that a signal corresponding to this standard pattern is obtained. Is output as a recognition result.

【0004】このような音声認識装置において、使用者
は最初に認識させるべき音声の情報をメモリに蓄える登
録作業を行い、この登録終了後に本来の認識処理を行っ
ていた。この場合、登録された音声が正しく登録されて
いない場合、即ちメモリに記憶された音声の情報が誤っ
ているような場合には誤認識を引き起こす原因となって
いた。従って認識性能を高めるためには、如何に音声の
情報(音声標準パタン)を正しくメモリに蓄えるかが、
大きな問題である。従来、音声標準パタンを正しくする
ために、登録時に同一音声につき必ず3回以上発声し、
そのうち最も類似する2つのパタンから音声標準パタン
を作成する方法(特公平1−36639号公報に詳し
い)や一度登録した音声パタンをテストモ−ドなどによ
り音声標準パタンのチェックを行う方法によって、音声
標準パタンをより正確なものにしていた。この場合に
は、音声パタンを登録するために、少なくとも2回以上
音声を発声する必要があり、登録が複雑になっていた。
In such a voice recognition device, a user first performs a registration operation of storing voice information to be recognized in a memory, and performs an original recognition process after completion of the registration. In this case, if the registered voice is not correctly registered, that is, if the information of the voice stored in the memory is wrong, it has caused a cause of erroneous recognition. Therefore, in order to improve the recognition performance, how to correctly store voice information (voice standard pattern) in the memory,
It is a big problem. Conventionally, in order to make the voice standard pattern correct, at the time of registration, the same voice must be spoken at least three times,
An audio standard pattern is created by a method of creating an audio standard pattern from the two patterns that are the most similar (detailed in Japanese Patent Publication No. 1-36639) or a method of checking an audio standard pattern once registered in a test mode or the like. The pattern was more accurate. In this case, it is necessary to utter a voice at least twice in order to register a voice pattern, and the registration is complicated.

【0005】他の方法として、認識結果を用いて音声標
準パタンの修正を行うことも、試みられている。この方
法では、認識結果を出力し、その結果が正しい旨をスイ
ッチなどにより、音声認識装置に使用者が入力し、その
情報を用いて音声標準パタンと入力音声パタンを平均処
理した平均パタンを作成し、音声標準パタンをこの平均
パタンに変更する処理を行っていた。しかし、この方法
を用いる場合には、使用者が認識結果が正しいかどうか
の情報を音声認識装置に入力する必要があり、実用的で
ない。
As another method, an attempt has been made to correct a speech standard pattern using a recognition result. In this method, a recognition result is output, and a user inputs the fact that the result is correct to a voice recognition device using a switch or the like, and generates an average pattern obtained by averaging a voice standard pattern and an input voice pattern using the information. Then, processing for changing the voice standard pattern to this average pattern was performed. However, when this method is used, it is necessary for the user to input information on whether or not the recognition result is correct to the speech recognition device, which is not practical.

【0006】また、認識結果を用いて音声標準パタンの
修正を行う他の方法として、認識結果を出力し、その結
果が正しいかを判断することなく音声標準パタンの修正
を行う方法がある。この場合、誤認識の場合にも音声標
準パタンが修正されてしまうため、かえって誤った音声
標準パタンに修正されてしまう可能性があった。
As another method of correcting a voice standard pattern using a recognition result, there is a method of outputting a recognition result and correcting the voice standard pattern without determining whether the result is correct. In this case, since the voice standard pattern is corrected even in the case of erroneous recognition, there is a possibility that the voice standard pattern is corrected instead to an incorrect voice standard pattern.

【0007】[0007]

【発明が解決しようとする課題】本発明は、上記問題点
を解決するものであり、登録操作を簡単にし、かつ音声
標準パタンの修正を効率よく行う音声認識装置を提供す
るものである。
SUMMARY OF THE INVENTION The present invention has been made to solve the above-mentioned problems, and an object of the present invention is to provide a voice recognition apparatus which simplifies a registration operation and efficiently corrects a voice standard pattern.

【0008】[0008]

【課題を解決するための手段】マイクロホンから入力さ
れた音声を分析する音声分析部と、音声分析部で分析さ
れた結果に基づいて音声パタンを作成するパタン作成部
と、あらかじめ複数の音声標準パタンが蓄積されている
標準パタンメモリと、上記パタン作成部で作成された音
声パタンと上記標準パタンメモリに蓄積されている各音
声標準パタンとの間の類似差を計算し、最も類似してい
る音声標準パタンおよびその類似度を出力する類似度計
算部と、該類似度計算部から得られる音声標準パタンの
類似度が、あらかじめ設定されている閾値よりも大きい
時、音声標準パタンに対応する信号を認識結果として出
力し、この類似度が上記閾値よりも小さい時、認識棄却
と判断する判断部と、該判断部で認識棄却と判断された
音声パタンを記憶する第1の入力パタンバッファメモリ
と、上記判断部で認識棄却と判断された場合、再度の音
声入力で得た音声パタンが最も類似している音声標準パ
タンが、上記第1の入力パタンバッファメモリの音声パ
タンが最も類似している音声標準パタンと同一である
時、この再度の入力で得た音声パタンを記憶する第2の
入力パタンバッファメモリと、第1または第2の入力パ
タンバッファメモリの音声パタンに基づいて、第1また
は第2の入力パタンバッファメモリの音声パタンが最も
類似している上記音声標準パタンメモリ内の音声標準パ
タンを修正するパタン修正部とからなるものである。
A voice analysis unit for analyzing a voice input from a microphone, a pattern generation unit for generating a voice pattern based on a result analyzed by the voice analysis unit, and a plurality of voice standard patterns in advance. Is calculated, and the similarity difference between the voice pattern created by the pattern creation unit and each voice standard pattern stored in the standard pattern memory is calculated, and the most similar voice is calculated. A similarity calculation unit that outputs a standard pattern and its similarity, and a signal corresponding to the voice standard pattern when the similarity of the audio standard pattern obtained from the similarity calculation unit is greater than a preset threshold. Output as a recognition result, and when the similarity is smaller than the threshold value, store a judgment unit that judges rejection of recognition and a voice pattern judged to be rejection of recognition by the judgment unit. The first input pattern buffer memory and the voice standard pattern having the most similar voice pattern obtained by the second voice input when the determination unit determines that the recognition is rejected. Is the same as the most similar voice standard pattern, the second input pattern buffer memory for storing the voice pattern obtained by this re-input and the first or second input pattern buffer memory And a pattern correction unit that corrects the audio standard pattern in the audio standard pattern memory to which the audio pattern of the first or second input pattern buffer memory is most similar based on the audio pattern.

【0009】[0009]

【作用】本発明の音声認識装置によれば、音声の登録処
理の時に、たとえ音声標準パタンに誤りがあっても、音
声の認識処理の時に、この誤り音声標準パタンに対して
修正を行う事ができる。
According to the speech recognition apparatus of the present invention, even if there is an error in the speech standard pattern at the time of speech registration processing, the error speech standard pattern is corrected at the time of speech recognition processing. Can be.

【0010】[0010]

【実施例】図1には本発明の音声認識装置の構成を示
し、その要部のパタン修正部の一実施例の構成を図2に
示す。
FIG. 1 shows the configuration of a speech recognition apparatus according to the present invention, and FIG. 2 shows the configuration of an embodiment of a main part of a pattern correction unit.

【0011】図1の音声認識装置の構成は、マイクロフ
ォン1から入力された音声を分析する音声分析部2、音
声分析部で分析された特徴パラメ−タから音声区間を検
出し、音声パタン化するパタン作成部3、あらかじめ音
声標準パタンが蓄積されている音声標準パタンメモリ
4、分析部で分析された未知音声と音声標準パタンメモ
リに蓄積されている音声標準パタンのマッチングを行
い、音声標準パタン毎に類似度を計算する類似度計算部
5、類似度計算部で計算された各音声標準パタン毎の類
似度を蓄えるとともに、最も類似している音声標準パタ
ンを選択し、判定基準(以降閾値という)と比較し、認
識結果が有効であるかを判定する判定部6、判定部の結
果に基づいて音声標準パタンの修正を行うパタン修正部
7からなる。
The configuration of the speech recognition apparatus shown in FIG. 1 is as follows. A speech analysis unit 2 for analyzing speech input from a microphone 1, a speech section is detected from feature parameters analyzed by the speech analysis unit, and speech patterns are formed. A pattern creation unit 3, a voice standard pattern memory 4 in which voice standard patterns are stored in advance, and matching between the unknown voice analyzed by the analysis unit and a voice standard pattern stored in the voice standard pattern memory, and for each voice standard pattern The similarity calculator 5 for calculating the similarity stores the similarity calculated for each voice standard pattern by the similarity calculator, selects the most similar voice standard pattern, and determines a criterion (hereinafter referred to as a threshold). ), A determination unit 6 for determining whether the recognition result is valid, and a pattern correction unit 7 for correcting the voice standard pattern based on the result of the determination unit.

【0012】このような図1の音声認識装置において、
本発明の特徴とするところはパタン修正部7にあり、そ
の構成は図2に示す如く、修正される音声標準パタンが
蓄えられる第1音声バッファ71、入力音声の音声パタ
ンが蓄えられる第2音声バッファ72、再度入力された
音声の音声パタンが蓄えられる第3音声バッファ73、
各音声バッファの音声パタン間の類似度を計算するパタ
ン類似度計算部74、第1音声バッファ71に伝達され
た音声標準パタンの番号を蓄える棄却番号記憶部76、
第1音声バッファ71または第2音声バッファ72また
は第3音声バッファ73の音声パタンに基づいて、音声
パタンの修正平均処理を行うパタン修正平均部77を備
えている。
In such a speech recognition device of FIG.
The feature of the present invention resides in a pattern correction unit 7, which has a first voice buffer 71 for storing a voice standard pattern to be corrected and a second voice for storing a voice pattern of an input voice, as shown in FIG. A buffer 72, a third audio buffer 73 for storing an audio pattern of the audio input again,
A pattern similarity calculator 74 for calculating the similarity between the audio patterns of each audio buffer; a rejection number storage 76 for storing the number of the audio standard pattern transmitted to the first audio buffer 71;
A pattern correction averaging unit 77 that performs a correction averaging process on the audio pattern based on the audio pattern in the first audio buffer 71, the second audio buffer 72, or the third audio buffer 73 is provided.

【0013】このような図2の構成を図1のパタン修正
部7に採用した場合の本発明装置の動作について以下に
解説する。
The operation of the apparatus according to the present invention when the configuration shown in FIG. 2 is employed in the pattern correction unit 7 shown in FIG. 1 will be described below.

【0014】〔実施例1〕使用者は、最初に音声の登録
を行う。これは、登録スイッチ(図示せず)により装置
を登録モードに設定し、順次登録すべき音声をマイクロ
フォン1に向かって発声する。例えば、”ゼロ”と発声
する。マイクロフォン1から入力された音声は電気信号
に変換され、音声分析部2で、特徴パラメータとして抽
出される。例えばバンド・パス・フィルタなどにより図
7に示すような一般的な周波数分析が行われる。分析さ
れた特徴パラメータは、パタン作成部3に伝達され、さ
らに、パタン作成部において音声区間の検出及び音声パ
タン化が行われる。パタン作成部においてパタン化され
た音声パタンは、音声標準パタンとして音声標準パタン
メモリ4の所定のエリアに格納される。続いて順次”イ
チ”、”ニ”、・・・”キュウ”と音声標準パタンメモ
リ4に格納され、全ての登録を行う。
[First Embodiment] A user first registers a voice. That is, the apparatus is set to a registration mode by a registration switch (not shown), and sounds to be sequentially registered are uttered toward the microphone 1. For example, say "zero". The voice input from the microphone 1 is converted into an electric signal, and the voice analyzer 2 extracts the voice as a feature parameter. For example, a general frequency analysis as shown in FIG. 7 is performed by a band pass filter or the like. The analyzed characteristic parameters are transmitted to the pattern creating unit 3, and the pattern creating unit 3 detects a voice section and performs voice patterning. The voice pattern patterned by the pattern creation unit is stored in a predetermined area of the voice standard pattern memory 4 as a voice standard pattern. Subsequently, "one", "d",... "Kyu" are sequentially stored in the voice standard pattern memory 4, and all registrations are performed.

【0015】次に、実際の音声認識について説明する。
オペレータがマイクロフォン1に向かって”ゼロ”と発
声した場合について説明する。マイクロフォン1から入
力された音声は登録モードと同じ処理が行われ、パタン
作成部3において音声パタンが作成される。認識モード
においてはこの音声パタンが類似度計算部5に伝達され
る。類似度計算部5においては、パタン作成部3で作成
された音声パタンと音声標準パタンメモリ4に格納され
ている各々の音声標準パタンと各々の類似度を計算し、
その類似度が判定部6に伝達される。例えば、入力音
声”ゼロ”に対しては、図5に示されるように類似度が
伝達される。続いて判定部6においては、最大類似度を
与える音声標準パタン及びその類似度を判定する。入
力”ゼロ”に対しては、最大類似度を与える音声標準パ
タンは、図5に示すように、”ゼロ”で、その類似度は
70である。判定部6においては、あらかじめ設定され
ている閾値と類似度の大小の判定を行い、入力音声の有
効性を判定する。ここでは、閾値は80であり、認識棄
却と判定する。判定部6は、パタン修正部7にその旨を
伝達する。〔この状態を<状態1>とする〕ここで、最
大類似度が90であった場合、認識されたと判断され、
判定部6から音声標準パタンに対応する信号を出力す
る。この時、パタン修正部7で音声標準パタンの修正は
行われない。
Next, actual speech recognition will be described.
The case where the operator utters “zero” toward the microphone 1 will be described. The voice input from the microphone 1 is subjected to the same processing as in the registration mode, and the pattern generation unit 3 generates a voice pattern. In the recognition mode, this voice pattern is transmitted to the similarity calculation unit 5. The similarity calculation unit 5 calculates the similarity between the voice pattern created by the pattern creation unit 3 and each of the voice standard patterns stored in the voice standard pattern memory 4,
The similarity is transmitted to the determination unit 6. For example, the similarity is transmitted to the input voice “zero” as shown in FIG. Subsequently, the determination unit 6 determines the voice standard pattern that gives the maximum similarity and the similarity. For the input “zero”, the voice standard pattern that gives the maximum similarity is “zero”, and the similarity is 70, as shown in FIG. The determination unit 6 determines the threshold value and the degree of similarity that are set in advance, and determines the validity of the input voice. Here, the threshold is 80, and it is determined that recognition is rejected. The determination unit 6 notifies the pattern correction unit 7 to that effect. [This state is referred to as <state 1>] Here, if the maximum similarity is 90, it is determined that the recognition has been performed.
The determination unit 6 outputs a signal corresponding to the audio standard pattern. At this time, the pattern correction unit 7 does not correct the audio standard pattern.

【0016】次にパタン修正部7の処理について説明す
る。パタン修正部7は、判定部から認識棄却の信号をう
けると、最大類似度を読み込み、棄却番号記憶部76に
最大類似度を与える音声標準パタンの番号を蓄えるとと
もに、音声標準パタンメモリ4から最大類似度を与える
音声標準パタンを第1音声バッファ71に、入力された
音声の音声パタンをパタン作成部3から第2音声バッフ
ァに読み込む。
Next, the processing of the pattern correction unit 7 will be described. When receiving the recognition rejection signal from the determination unit, the pattern correction unit 7 reads the maximum similarity, stores the number of the voice standard pattern that gives the maximum similarity in the rejection number storage unit 76, and stores the maximum number from the voice standard pattern memory 4. An audio standard pattern giving similarity is read into the first audio buffer 71, and an audio pattern of the input audio is read from the pattern creation unit 3 into the second audio buffer.

【0017】入力された音声が認識棄却と判定された
時、通常、使用者は再度同じ言葉を発声する。ここで
は、再度”ゼロ”と発声されたとする。この入力も同じ
ように類似度が、図6に示すように計算される。図6に
示されるように最大類似度を与える音声標準パタンは”
ゼロ”であると判定部6で判定される。パタン修正部7
では、最大類似度を与える音声標準パタンの番号を、棄
却番号記憶部76に伝達する。棄却番号記憶部76は、
既に記憶されている番号と伝達された番号が一致する場
合には、第3音声バッファにパタン作成部で作成された
音声パタンを伝達する。
When it is determined that the input speech is rejected, the user usually utters the same word again. Here, it is assumed that “zero” is uttered again. Similarly, the similarity of this input is calculated as shown in FIG. As shown in FIG. 6, the voice standard pattern that gives the maximum similarity is "
The determination unit 6 determines that the value is “zero”. The pattern correction unit 7
Then, the number of the voice standard pattern giving the maximum similarity is transmitted to the rejection number storage unit 76. The rejection number storage unit 76
If the number already stored and the transmitted number match, the audio pattern created by the pattern creation unit is transmitted to the third audio buffer.

【0018】次に、パタン類似度計算部74において以
下の計算を行う。第1音声バッファの音声パタンをP1
(i,j)とする。第2音声バッファの音声パタンをP
2(i,j)とする。第3音声バッファの音声パタンを
3(i,j)とする。修正パタンをPref(i,j)と
する。この時、第1音声バッファと第2音声バッファの
音声パタン間の類似度S12は、
Next, the following calculation is performed in the pattern similarity calculator 74. The audio pattern of the first audio buffer is P 1
(I, j). Set the audio pattern of the second audio buffer to P
2 (i, j). The audio pattern of the third audio buffer is P 3 (i, j). Let the modified pattern be P ref (i, j). In this case, the similarity S 12 between voice patterns of the first audio buffer and the second audio buffer,

【0019】[0019]

【数1】 (Equation 1)

【0020】第1音声バッファと第3音声バッファの音
声パタン間の類似度S13は、
The similarity S 13 between the audio patterns of the first audio buffer and the third audio buffer is

【0021】[0021]

【数2】 (Equation 2)

【0022】第2音声バッファと第3音声バッファの音
声パタン間の類似度S23は、
The similarity S 23 between voice patterns of the second audio buffer and the third audio buffer,

【0023】[0023]

【数3】 (Equation 3)

【0024】このような計算結果S12、S13、S23の中
で最も値の大きいもの(最も類似しているもの)の音声
パタンをパタン修正平均部77に伝達する。パタン修正
平均部77は、2つの音声パタンの平均処理を以下のよ
うに行う。
The voice pattern having the largest value (similar one) among the calculation results S 12 , S 13 , and S 23 is transmitted to the pattern correction averaging unit 77. The pattern correction averaging unit 77 performs an averaging process of two voice patterns as follows.

【0025】第1音声バッファと第2音声バッファの音
声パタンの平均処理は
The average processing of the audio patterns in the first audio buffer and the second audio buffer is as follows.

【0026】[0026]

【数4】 (Equation 4)

【0027】第1音声バッファと第3音声バッファの音
声パタンの平均処理は
The average processing of the audio patterns of the first audio buffer and the third audio buffer is as follows.

【0028】[0028]

【数5】 (Equation 5)

【0029】第2音声バッファと第3音声バッファの音
声パタンの平均処理は
The average processing of the audio patterns in the second audio buffer and the third audio buffer is as follows.

【0030】[0030]

【数6】 (Equation 6)

【0031】このような平均処理結果から、修正パタン
を作成する。作成されたこの音声パタンは棄却番号記憶
部に記憶されている番号を元に、標準パタンメモリ4の
該当する音声標準パタンのエリアに格納される。
A correction pattern is created from such an averaging result. The created voice pattern is stored in the corresponding voice standard pattern area of the standard pattern memory 4 based on the number stored in the rejection number storage unit.

【0032】また、棄却番号記憶部76に既に記憶され
ている番号と伝達された番号が一致しない場合には、第
1音声バッファ、第2音声バッファ、第3音声バッファ
及び棄却番号記憶部の内容をクリアし、新しく最大類似
度を与える番号を棄却番号記憶部に、最大類似度を与え
る音声標準パタンを第1音声バッファに、パタン作成部
3で作成された音声パタンを第2音声バッファへ格納す
る。
If the number already stored in the rejection number storage unit 76 and the transmitted number do not match, the contents of the first audio buffer, the second audio buffer, the third audio buffer, and the rejection number storage unit And the number giving the new maximum similarity is stored in the rejection number storage unit, the voice standard pattern giving the maximum similarity is stored in the first voice buffer, and the voice pattern created by the pattern creation unit 3 is stored in the second voice buffer. I do.

【0033】本実施例においては、類似した2つの音声
パタンを元に、新たな音声パタンを作成したが、類似度
を計算することなく、例えば、
In the present embodiment, a new voice pattern is created based on two similar voice patterns, but without calculating the similarity, for example,

【0034】[0034]

【数7】 (Equation 7)

【0035】の計算式で示すように第1音声バッファ、
第2音声バッファ、第3音声バッファ全ての音声パタン
を平均処理して、修正パタンを作成することも考えられ
る。
As shown by the calculation formula, the first audio buffer,
A modified pattern may be created by averaging all the audio patterns of the second and third audio buffers.

【0036】尚、本発明の音声認識装置に於て、使用さ
れる入力音声パタン(入力パタンバッファ)の数は2個
に限定されずにN個(例えば5個)でも可能である。こ
の場合、再度の音声入力処理をN回繰り返せばよい。
In the speech recognition apparatus of the present invention, the number of input speech patterns (input pattern buffers) used is not limited to two, but may be N (for example, five). In this case, the voice input processing may be repeated N times.

【0037】〔実施例2〕図3に本発明の音声認識装置
のパタン修正部の他の実施例の構成を示す。同図の装置
構成が図2のそれと異なる所は、認識棄却結果が得られ
た後に計時を開始し、再度の入力との時間間隔を測定す
る入力時間測定機能75(以降タイマという)を追加し
た点にある。
[Embodiment 2] FIG. 3 shows the configuration of another embodiment of the pattern correction unit of the speech recognition apparatus of the present invention. 2 is different from that of FIG. 2 in that an input time measuring function 75 (hereinafter referred to as a timer) for starting time measurement after a recognition rejection result is obtained and measuring a time interval between re-inputs is added. On the point.

【0038】同図の装置は、前述の<状態1>の状態に
おいて、判定部6から認識棄却の信号を受けたとき、タ
イマ75が計時を開始し、再度音声入力があり、判定部
6から再度認識棄却の信号を受けると計時を終了する。
計時の開始から終了までの時間が設定値(例えば、10
秒〜20秒程度の時間があらかじめ設定されている。)
以内であればパタン修正部7で音声標準パタンの修正を
行う。これによって、所定時間を過ぎてからの音声入力
が適切でない場合の誤修正を回避している。すなわち、
第1回目の認識棄却の信号が発生した後、無制限に長時
間、第2回目の認識棄却の信号を得るような音声の入力
を許容するような装置では,1回目と2回目の認識棄却
の原因が類似の雑音入力である場合に、この雑音パタン
によって音声標準パタンを誤修正してしまう不都合があ
るのに対し、本発明装置では、上述のごとき時間制限手
段を備えることによりこのような不都合を発生する頻度
を小さくしている。
In the apparatus shown in FIG. 7, in the above-mentioned <state 1>, when receiving a signal of rejection of recognition from the judging section 6, the timer 75 starts counting time, and there is a speech input again. When the recognition rejection signal is received again, the timing is ended.
The time from the start to the end of the time measurement is a set value (for example, 10
A time of about seconds to 20 seconds is set in advance. )
If not, the pattern correction unit 7 corrects the voice standard pattern. This avoids erroneous correction when voice input after a predetermined time is not appropriate. That is,
After the first recognition rejection signal is generated, a device that allows speech input to obtain the second recognition rejection signal for an indefinite period of time may be used. When the cause is similar noise input, there is a problem that the voice standard pattern is erroneously corrected by the noise pattern. On the other hand, the device of the present invention has such a problem by providing the time limiting means as described above. Is less frequent.

【0039】〔実施例3〕図4に本発明の音声認識装置
のパタン修正部のさらに他の実施例の構成を示す。同図
の装置構成が図2のそれと異なる所は、認識棄却結果が
得られた後に読み込んだ最大類似度に対して、所定値
(以降第2の閾値という)との比較を行う第2閾値判定
部を追加した点にある。
[Embodiment 3] FIG. 4 shows the configuration of still another embodiment of the pattern correction unit of the speech recognition apparatus of the present invention. 2 differs from that of FIG. 2 in that the maximum similarity read after the recognition rejection result is obtained is compared with a predetermined value (hereinafter referred to as a second threshold). The point is that the section has been added.

【0040】同図の装置は、前述の<状態1>の状態に
おいて、判定部6から認識棄却の信号を受けたとき、読
み込んだ最大類似度に対して、第2閾値判定部78で大
小の比較を行う。第2の閾値は、閾値より小さく設定さ
れるものであり、例えば’45’に設定されている。最
大類似度が第2の閾値よりも大きい場合、パタン修正部
7で音声標準パタンの修正を行う。最大類似度が第2の
閾値以下の場合、再度入力した音声パタンはあまりにも
類似度が低いのでこれを無効として、3度目の音声入力
に対し、2度目の音声入力と同様の処理を行う。
In the state shown in FIG. 4, when the recognition rejection signal is received from the determination unit 6 in the state <State 1>, the second threshold value determination unit 78 determines whether the read maximum similarity is large or small. Make a comparison. The second threshold is set smaller than the threshold, and is set to, for example, '45'. If the maximum similarity is larger than the second threshold, the pattern correction unit 7 corrects the voice standard pattern. When the maximum similarity is equal to or less than the second threshold, the voice pattern input again has too low a similarity, so that the voice pattern is invalidated, and the same processing as the second voice input is performed for the third voice input.

【0041】本実施例において、最大類似度が第2の閾
値以下の場合、再度入力した音声パタンを無効にし、3
度目の音声入力を待つのではなく音声標準パタンの修正
を中止することも考えられる。
In this embodiment, if the maximum similarity is equal to or less than the second threshold, the input voice pattern is invalidated, and
It is also conceivable to stop correcting the voice standard pattern instead of waiting for the second voice input.

【0042】[0042]

【発明の効果】本発明の音声認識装置によれば、音声の
登録処理の時にたとえ音声標準パタンに誤りがあって
も、音声の認識処理の時に誤り音声標準パタンのみに対
して簡単な操作で修正を行う事ができる。また、誤った
入力音声パタンに対しては音声標準パタンの修正を行わ
ないので、信頼性の高い音声標準パタンを得ることがで
きる。
According to the speech recognition apparatus of the present invention, even if there is an error in the speech standard pattern at the time of the speech registration process, only the error speech standard pattern can be operated only by a simple operation at the time of speech recognition processing. Corrections can be made. Further, since the audio standard pattern is not corrected for an incorrect input audio pattern, a highly reliable audio standard pattern can be obtained.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の音声認識装置の構成図を示す。FIG. 1 shows a configuration diagram of a speech recognition device of the present invention.

【図2】本発明の音声認識装置のパタン修正部の一実施
例の構成を示す。
FIG. 2 shows a configuration of an embodiment of a pattern correction unit of the speech recognition device of the present invention.

【図3】本発明の音声認識装置のパタン修正部の他の実
施例の構成を示す。
FIG. 3 shows the configuration of another embodiment of the pattern correction unit of the speech recognition device of the present invention.

【図4】本発明の音声認識装置のパタン修正部のさらに
他の実施例の構成を示す。
FIG. 4 shows the configuration of still another embodiment of the pattern correction unit of the speech recognition device of the present invention.

【図5】入力音声に対する類似度の例を示す。FIG. 5 shows an example of a similarity to an input voice.

【図6】再度入力した音声に対する類似度の例を示す。FIG. 6 shows an example of similarity with respect to re-inputted speech.

【図7】音声パタン例(バンド・パス・フィルタにより
周波数分析された音声パタン)を示す。
FIG. 7 shows an example of an audio pattern (an audio pattern subjected to frequency analysis by a band-pass filter).

【符号の説明】[Explanation of symbols]

1 マイクロフォン 2 音声分析部 3 パタン作成部 4 音声標準パタンメモリ 5 類似度計算部 6 判定部 7 パタン修正部 71 第1音声バッファ 72 第2音声バッファ 73 第3音声バッファ 74 パタン類似度計算部 75 タイマ 76 棄却番号記憶部 77 パタン修正平均部 78 第2閾値判定部 Reference Signs List 1 microphone 2 voice analysis unit 3 pattern creation unit 4 voice standard pattern memory 5 similarity calculation unit 6 determination unit 7 pattern correction unit 71 first voice buffer 72 second voice buffer 73 third voice buffer 74 pattern similarity calculation unit 75 timer 76 Rejection number storage unit 77 Pattern corrected average unit 78 Second threshold value judgment unit

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 521 G10L 3/00 561 ──────────────────────────────────────────────────続 き Continued on front page (58) Field surveyed (Int.Cl. 6 , DB name) G10L 3/00 521 G10L 3/00 561

Claims (5)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 マイクロホンから入力された音声を分析
する音声分析部と、音声分析部で分析された結果に基づ
いて音声パタンを作成するパタン作成部と、あらかじめ
複数の音声標準パタンが蓄積されている標準パタンメモ
リと、上記パタン作成部で作成された音声パタンと上記
標準パタンメモリに蓄積されている各音声標準パタンと
の間の類似差を計算し、最も類似している音声標準パタ
ンおよびその類似度を出力する類似度計算部と、該類似
度計算部から得られる音声標準パタンの類似度が、あら
かじめ設定されている閾値よりも大きい時、音声標準パ
タンに対応する信号を認識結果として出力し、この類似
度が上記閾値よりも小さい時、認識棄却と判断する判断
部と、該判断部で認識棄却と判断された音声パタンを記
憶する第1の入力パタンバッファメモリと、上記判断部
で認識棄却と判断された場合、再度の音声入力で得た音
声パタンが最も類似している音声標準パタンが、上記第
1の入力パタンバッファメモリの音声パタンが最も類似
している音声標準パタンと同一である時、この再度の入
力で得た音声パタンを記憶する第2の入力パタンバッフ
ァメモリと、第1または第2の入力パタンバッファメモ
リの音声パタンに基づいて、第1または第2の入力パタ
ンバッファメモリの音声パタンが最も類似している上記
音声標準パタンメモリ内の音声標準パタンを修正するパ
タン修正部とからなる音声認識装置。
An audio analysis unit that analyzes audio input from a microphone, a pattern creation unit that creates an audio pattern based on a result analyzed by the audio analysis unit, and a plurality of audio standard patterns stored in advance. A standard pattern memory, and a similarity difference between the audio pattern created by the pattern creation unit and each audio standard pattern stored in the standard pattern memory, and the most similar audio standard pattern and its A similarity calculator that outputs the similarity, and a signal corresponding to the voice standard pattern is output as a recognition result when the similarity of the voice standard pattern obtained from the similarity calculator is greater than a preset threshold. When the similarity is smaller than the threshold value, the determination unit determines that the recognition is rejected, and the first input pattern that stores the voice pattern determined to be rejected by the determination unit. If the pattern buffer memory and the determination unit determine that recognition is rejected, the voice standard pattern having the most similar voice pattern obtained by the second voice input is the voice pattern of the first input pattern buffer memory which is the most similar. When the voice pattern is the same as the similar voice standard pattern, the voice pattern is obtained based on the second input pattern buffer memory for storing the voice pattern obtained by the re-input and the voice pattern of the first or second input pattern buffer memory. And a pattern correction unit for correcting a voice standard pattern in the voice standard pattern memory having the most similar voice pattern in the first or second input pattern buffer memory.
【請求項2】 請求項1記載の音声認識装置に於て、上
記パタン修正部は、最大類似度を与える音声標準パタ
ン、第1の入力パタンバッファメモリの音声パタン、第
2の入力パタンバッファメモリの音声パタンのうち類似
する2つのパタンを平均処理した平均パタンを作成し、
音声標準パタンをこの平均パタンに変更することを特徴
とする音声認識装置。
2. A speech recognition apparatus according to claim 1, wherein said pattern correction unit comprises: a speech standard pattern for providing a maximum similarity; a speech pattern of a first input pattern buffer memory; and a second input pattern buffer memory. Create an average pattern by averaging two similar patterns among the audio patterns
A speech recognition apparatus characterized in that a speech standard pattern is changed to this average pattern.
【請求項3】 請求項1、2記載の音声認識装置に於
て、上記パタン修正部は、認識棄却結果が得られた後に
計時を開始し、再度の入力との時間間隔を測定する入力
時間測定機能を有し、測定された時間が所定時間以下の
場合にのみ、音声標準パタンを修正することを特徴とす
る音声認識装置。
3. The speech recognition apparatus according to claim 1, wherein the pattern correction unit starts timing after a recognition rejection result is obtained, and measures an input time interval between re-input. A speech recognition apparatus having a measurement function and correcting a speech standard pattern only when a measured time is equal to or shorter than a predetermined time.
【請求項4】 請求項1、2、3記載の音声認識装置に
於て、入力された音声パタンの最大類似度が閾値よりも
小さい時、閾値よりも低く設定された第2の閾値よりも
最大類似度が大きい場合のみ、音声標準パタンを修正す
ることを特徴とする音声認識装置。
4. The speech recognition device according to claim 1, wherein when the maximum similarity of the input speech pattern is smaller than a threshold, the maximum similarity is lower than a second threshold set lower than the threshold. A speech recognition device wherein a speech standard pattern is modified only when the maximum similarity is large.
【請求項5】 請求項1、2、3記載の音声認識装置に
於て、音声登録時に得られた音声標準パタンを音声標準
パタンメモリに記憶し、音声認識時に上記メモリの音声
標準パタンと同じ入力音声から得られたN個の入力音声
パタンに基づいて上記メモリの音声標準パタンを修正す
ることを特徴とした音声認識装置。
5. The speech recognition device according to claim 1, 2 or 3,
In this case, the voice standard pattern obtained at the time of voice registration is stored in a voice standard pattern memory, and at the time of voice recognition, the voice standard pattern is stored in the memory based on N input voice patterns obtained from the same input voice as the voice standard pattern of the memory. A speech recognition device characterized by correcting a speech standard pattern.
JP4173114A 1992-06-30 1992-06-30 Voice recognition device Expired - Fee Related JP2975772B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4173114A JP2975772B2 (en) 1992-06-30 1992-06-30 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4173114A JP2975772B2 (en) 1992-06-30 1992-06-30 Voice recognition device

Publications (2)

Publication Number Publication Date
JPH0619491A JPH0619491A (en) 1994-01-28
JP2975772B2 true JP2975772B2 (en) 1999-11-10

Family

ID=15954412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4173114A Expired - Fee Related JP2975772B2 (en) 1992-06-30 1992-06-30 Voice recognition device

Country Status (1)

Country Link
JP (1) JP2975772B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19804047C2 (en) * 1998-02-03 2000-03-16 Deutsche Telekom Mobil Method and device for increasing the probability of recognition of speech recognition systems
JP2005202165A (en) * 2004-01-15 2005-07-28 Advanced Media Inc Voice recognition system
JP4784056B2 (en) * 2004-08-18 2011-09-28 パナソニック電工株式会社 Control device with voice recognition function
WO2007111197A1 (en) * 2006-03-24 2007-10-04 Pioneer Corporation Speaker model registration device and method in speaker recognition system and computer program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62105558A (en) * 1985-10-31 1987-05-16 Sharp Corp Telephone set having voice dial function
JPS63118198A (en) * 1986-11-06 1988-05-23 松下電器産業株式会社 Voice recognition equipment

Also Published As

Publication number Publication date
JPH0619491A (en) 1994-01-28

Similar Documents

Publication Publication Date Title
EP0077194B1 (en) Speech recognition system
US6134527A (en) Method of testing a vocabulary word being enrolled in a speech recognition system
EP1159737B9 (en) Speaker recognition
US6393398B1 (en) Continuous speech recognizing apparatus and a recording medium thereof
JP3066920B2 (en) Voice recognition method and apparatus
US7050973B2 (en) Speaker recognition using dynamic time warp template spotting
GB2388947A (en) Method of voice authentication
JP2975772B2 (en) Voice recognition device
JP2996019B2 (en) Voice recognition device
JP2002189487A (en) Speech recognition device and speech recognition method
JP2002516419A (en) Method and apparatus for recognizing at least one keyword in a spoken language by a computer
KR100449912B1 (en) Apparatus and method for detecting topic in speech recognition system
JP2834880B2 (en) Voice recognition device
JPH11249688A (en) Device and method for recognizing voice
JP3360978B2 (en) Voice recognition device
JP3868798B2 (en) Voice recognition device
JP3063855B2 (en) Finding the minimum value of matching distance value in speech recognition
JP2666296B2 (en) Voice recognition device
JP3031081B2 (en) Voice recognition device
JP3439602B2 (en) Voice recognition device
WO2023189173A1 (en) Speaker identification method, speaker identification device, and speaker identification program
JPH0119597B2 (en)
KR100304665B1 (en) Apparatus and method of speech recognition using pitch-wave feature
JPH0754434B2 (en) Voice recognizer
JPH08254991A (en) Pattern recognition device

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees