JP3100208B2 - Voice recognition device - Google Patents
Voice recognition deviceInfo
- Publication number
- JP3100208B2 JP3100208B2 JP03337842A JP33784291A JP3100208B2 JP 3100208 B2 JP3100208 B2 JP 3100208B2 JP 03337842 A JP03337842 A JP 03337842A JP 33784291 A JP33784291 A JP 33784291A JP 3100208 B2 JP3100208 B2 JP 3100208B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- voice
- input
- duration
- recognizing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【0001】[0001]
【産業上の利用分野】本発明は、入力された音声の認識
を行なう音声認識装置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition apparatus for recognizing inputted speech.
【0002】[0002]
【従来の技術】一般に音声認識装置においては、入力さ
れた音声の特徴パタ−ンと予め辞書等に登録されている
種々の標準パタ−ンとを照合し、標準パタ−ンのうちで
入力音声の特徴パタ−ンと類似しているものを候補(認
識結果)として選出し、選出された候補のうちで最も大
きな類似度をもつ第1の候補を基本的には最終的な認識
結果として選択するが、従来においてはさらに、最も大
きな類似度をもつ第1の候補が得られたときにも、例え
ばこの第1の候補の認識信頼度が低いような場合には最
終的な認識結果をリジェクトとして出力したり、あるい
はユ−ザに認識結果の確認を求め、確認が得られたもの
だけを正しい認識結果として出力するようになってい
た。このようの機能が付加されていることによって、認
識対象となる音声以外の音響信号が入力された場合や入
力音声が不安定な場合などに誤認識動作がなされるのを
防止することができる。2. Description of the Related Art In general, in a speech recognition apparatus, a feature pattern of an inputted speech is collated with various standard patterns registered in a dictionary or the like in advance, and the input speech among the standard patterns is compared. Are selected as candidates (recognition results), and the first candidate having the highest similarity among the selected candidates is basically selected as the final recognition result. However, conventionally, even when the first candidate having the highest similarity is obtained, for example, if the recognition reliability of the first candidate is low, the final recognition result is rejected. Or asking the user to confirm the recognition result, and outputting only the confirmed result as a correct recognition result. By adding such a function, it is possible to prevent an erroneous recognition operation from being performed when an acoustic signal other than the voice to be recognized is input or when the input voice is unstable.
【0003】[0003]
【発明が解決しようとする課題】このように従来の音声
認識装置においては、得られた候補の認識信頼度が、例
えば所定の閾値よりも低いときにはリジェクトなどの機
能によって誤認識等を有効に防止することができるが、
その反面、これらの機能が付加されているために、正し
い認識結果を即座に得ることができなくなるなどの問題
があった。例えば、最初の音声がリジェクトされたと
き、音声認識装置の使用者は、1回目の発声が曖昧であ
ったために認識されなかったと考え、認識がなされ易い
ように発話速度を下げてゆっくりと言い直しを行なう場
合がある。しかしながら、この場合、入力音声パタ−ン
の継続時間が標準パタ−ンの継続時間と比較してかえっ
て長いものになって認識信頼度がさらに低下し、使用者
の意図に反して、益々認識しにくいものになってしまう
という問題があった。As described above, in the conventional speech recognition apparatus, when the recognition reliability of the obtained candidate is lower than a predetermined threshold value, for example, erroneous recognition is effectively prevented by a function such as rejection. Can be
On the other hand, since these functions are added, there is a problem that a correct recognition result cannot be obtained immediately. For example, when the first speech is rejected, the user of the speech recognition apparatus thinks that the first utterance was not recognized because it was ambiguous, and lowers the utterance speed and re-phrases slowly to facilitate recognition. May be performed. However, in this case, the duration of the input voice pattern is longer than the duration of the standard pattern, and the recognition reliability is further reduced. There was a problem that it became difficult.
【0004】本発明は、このような従来の欠点を解決す
るものであり、認識結果が採用されず言い直しをする場
合に、言い直した言葉については正しい認識結果を得易
く、正しい認識結果を早期に得ることの可能な音声認識
装置を提供することを目的としている。SUMMARY OF THE INVENTION The present invention solves such a conventional drawback. In the case where the recognition result is not adopted and restatement is performed, a correct recognition result can be easily obtained for the reworded word, and the correct recognition result can be obtained. It is an object of the present invention to provide a speech recognition device that can be obtained early.
【0005】[0005]
【課題を解決するための手段】上記目的を達成するため
に請求項1記載の発明は、音声を入力する音声入力手段
と、入力された音声を継続時間制御を用いて認識する認
識手段と、認識手段によって得られた認識結果を採用す
るか否かを判定する判定手段とを有し、前記判定手段に
おいて認識結果が採用されなかった場合に、前記認識手
段は、標準パタ−ンの継続時間を大きく設定し、次の入
力音声を認識するようになっていることを特徴としてい
る。According to one aspect of the present invention, there is provided a voice input unit for inputting a voice, a recognition unit for recognizing the input voice by using duration control, Determining means for determining whether or not to use the recognition result obtained by the recognition means; and when the determination result does not use the recognition result, the recognition means determines whether or not the continuation time of the standard pattern is satisfied. Is set large to recognize the next input voice.
【0006】また、請求項2記載の発明では、判定手段
において認識結果が採用されなかった場合に、認識手段
は、継続時間の制限を緩めて、次の入力音声を認識する
ことを特徴としている。Further, in the invention according to claim 2, when the recognition result is not adopted by the determination means, the recognition means relaxes the restriction on the duration and recognizes the next input voice. .
【0007】また、請求項3記載の発明では、判定手段
において認識結果が採用されなかった場合に、認識手段
は、入力音声の終端に対応する標準パタ−ンの継続時間
を大きくして、次の入力音声を認識することを特徴とし
ている。In the invention according to the third aspect, when the recognition result is not adopted by the determination means, the recognition means increases the duration of the standard pattern corresponding to the end of the input voice, and Is recognized.
【0008】また、請求項4記載の発明は、判定手段に
おいて認識結果が採用されなかった場合に、認識手段
は、入力音声の終端に対する継続時間制御の制限を緩め
て、認識することを特徴としている。The invention according to claim 4 is characterized in that, when the recognition result is not adopted in the determination means, the recognition means relaxes the restriction on the duration control for the end of the input voice and performs recognition. I have.
【0009】また、請求項5記載の発明では、判定手段
において認識結果が採用されなかった場合に、認識手段
は、入力音声の最後の母音に対応する標準パタ−ンの継
続時間を大きくして、次の入力音声を認識するようにな
っていることを特徴としている。According to the present invention, when the recognition result is not adopted by the judgment means, the recognition means increases the duration of the standard pattern corresponding to the last vowel of the input voice. , The next input voice is recognized.
【0010】また、請求項6記載の発明では、判定手段
において認識結果が採用されなかった場合に、認識手段
は、入力音声の最後の母音に対応する継続時間制御の制
限を緩めて、次の入力音声を認識するようになっている
ことを特徴としている。Further, in the invention according to claim 6, when the recognition result is not adopted in the determination means, the recognition means relaxes the restriction on the duration control corresponding to the last vowel of the input voice, and It is characterized by recognizing an input voice.
【0011】[0011]
【作用】本発明では、1回目に発声された音声を認識で
きなかった場合に、標準パタ−ンの継続時間を大きく設
定するか、あるいは、継続時間の制限を緩めるか、ある
いは、入力音声の終端に対応する標準パタ−ンの継続時
間を大きくするか、あるいは、入力音声の終端に対する
継続時間制御の制限を緩めるか、あるいは、入力音声の
最後の母音に対応する標準パタ−ンの継続時間を大きく
するか、あるいは、入力音声の最後の母音に対応する継
続時間制御の制限を緩めるかして、次の入力音声を認識
する。According to the present invention, when the first uttered voice cannot be recognized, the duration of the standard pattern is set to be large, the restriction on the duration is relaxed, or the input voice is not reproduced. Either increase the duration of the standard pattern corresponding to the end, relax the restriction on the duration control for the end of the input voice, or the duration of the standard pattern corresponding to the last vowel of the input voice , Or the restriction on the duration control corresponding to the last vowel of the input voice is relaxed to recognize the next input voice.
【0012】[0012]
【実施例】以下、本発明の実施例を図面に基づいて説明
する。図1は本発明に係る音声認識装置のブロック図で
ある。図1の音声認識装置は、音声を入力する音声入力
部1と、入力された音声の特徴パターンを予め登録され
ている種々の標準パターンと照合し、標準パターンのう
ちで入力音声の特徴パターンと類似しているものを候補
(認識結果)として選出する認識部2と、選出された候
補のうちで最も大きな類似度をもつものを基本的には最
終的な認識結果として選択するが、この候補の認識信頼
度をも考慮してこの候補を最終的な認識結果として採用
するか否かを判定する判定部3とを有している。Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram of a speech recognition device according to the present invention. The voice recognition device of FIG. 1 collates a voice input unit 1 for inputting voice, a feature pattern of the input voice with various standard patterns registered in advance, and detects a feature pattern of the input voice among the standard patterns. The recognizing unit 2 selects similar ones as candidates (recognition results), and the one having the highest similarity among the selected candidates is basically selected as the final recognition result. And a determination unit 3 that determines whether to adopt this candidate as a final recognition result in consideration of the recognition reliability.
【0013】認識部2における認識手法には種々の方式
のものを用いることができるが、本発明では、認識率の
向上を図るため、認識部2は、継続時間制御を行なうよ
うになっている。Although various methods can be used as the recognition method in the recognition unit 2, in the present invention, the recognition unit 2 performs duration control in order to improve the recognition rate. .
【0014】なお、継続時間制御を行なう音声認識手法
としては、例えば、文献「中川聖一著“確率モデルによ
る音声認識”,昭和63年,電子情報通信学会,第74
頁〜第78頁」に開示されている継続時間制御付き隠れ
マルコフモデルや、本願の発明者による文献「“継続時
間制御型状態遷移モデルを用いた単語音声認識”,電子
通信学会論文誌,Vol、72−D−II,1989年1
1月)に開示のものなどが知られており、以下では、本
願の発明者による上記文献に示されている継続時間制御
型状態遷移モデルを用いて説明する。As a speech recognition method for performing the duration control, for example, the document “Seiichi Nakagawa,“ Speech Recognition by Stochastic Model ”, 1988, IEICE, No. 74
Hidden Markov model with duration control disclosed in "Pages to 78", and the document "Word speech recognition using duration control type state transition model" by the inventor of the present application, IEICE Transactions, Vol. , 72-D-II, 1989 1
(January) is known, and the following description will be made using the duration control type state transition model shown in the above-mentioned document by the inventor of the present application.
【0015】この継続時間制御型状態遷移モデルは、基
本的には、次の漸化式によって、未知の入力音声パタ−
ンと標準パタ−ンとの距離を計算するものである。This duration control type state transition model basically has an unknown input voice pattern by the following recurrence formula.
This is to calculate the distance between the pattern and the standard pattern.
【0016】[0016]
【数1】 (Equation 1)
【0017】ここで、D(i,j)は、入力音声の開始
からiフレ−ム目までを標準パタ−ンの第1〜j状態に
割当てたときの距離であり、D(I,J)(Iは入力音
声の終了フレ−ム番号,Jは標準パタ−ンの最終状態番
号)が入力音声と標準パタ−ンとの距離になる。また、
xiは入力音声の第iフレ−ムの特徴ベクトル,yjは標
準パタ−ンの第j状態の特徴ベクトルを示している。ま
た、B(j)はマッチングパスの形状を記憶するもの
で、初めて第j状態に遷移したフレ−ム番号を表してい
る。このため、数1のi−B(j−1)は入力音声パタ
−ンが第j状態に滞留したフレ−ム数になる。また、L
(j)は標準パタ−ンの第j状態の継続時間を表わす。
また、wjにより継続時間制御の強さを変えることがで
き、wjが大きい値を採るほど継続時間制御の制限が厳
しくなる。Here, D (i, j) is the distance when the frame from the start of the input voice to the i-th frame is assigned to the first to j states of the standard pattern, and D (I, J). ) (I is the end frame number of the input voice, J is the final state number of the standard pattern) is the distance between the input voice and the standard pattern. Also,
x i is a feature vector of the i-th frame of the input voice, and y j is a feature vector of the j-th state of the standard pattern. B (j) stores the shape of the matching path, and represents the frame number of the first transition to the j-th state. Therefore, iB (j-1) in Equation 1 is the number of frames in which the input voice pattern stays in the j-th state. Also, L
(J) represents the duration of the j-th state of the standard pattern.
Further, it is possible to vary the intensity of the duration control by w j, continuous time control limit as taking w j larger value becomes severe.
【0018】認識部2では、このように継続時間制御型
状態遷移モデルを標準パタ−ンとして用い、入力音声の
特徴パターン,すなわち未知入力パタ−ンと認識対象と
なる全ての標準パターンとのパタ−ンマッチングを行な
い、その結果得られる距離を類似度値(スコア)として
求め、類似度値の大きさの順に所定順位までの候補を選
出するようになっている。The recognizing section 2 uses the duration control type state transition model as a standard pattern as described above, and uses the characteristic pattern of the input voice, that is, the pattern of the unknown input pattern and all the standard patterns to be recognized. , Matching is performed, the resulting distance is obtained as a similarity value (score), and candidates up to a predetermined rank are selected in the order of the magnitude of the similarity value.
【0019】また、判定部3における認識信頼度の求め
方にも種々の方式のものを用いることができる。例え
ば、最も大きな類似度値をもつ第1の候補の類似度値R
(1)とその次の第2の候補の類似度値R(2)との差
や比をとったものを第1の候補についての認識信頼度S
として求めることができる。以下では、判定部3は、認
識信頼度Sを次式のように類似度値R(1)とR(2)
との差により求め、この認識信頼度Sが例えば閾値TH
よりも大きいか否かにより、この第1の候補を認識結果
として採用するか否かを判定し、採用しない場合には、
ユーザに再発声,すなわち言い直しを促すようになって
いるとして説明する。Also, various methods can be used for determining the recognition reliability in the determination unit 3. For example, the similarity value R of the first candidate having the largest similarity value
The difference or ratio between (1) and the similarity value R (2) of the next second candidate is taken as the recognition reliability S of the first candidate.
Can be obtained as In the following, the determination unit 3 determines the recognition reliability S as the similarity values R (1) and R (2) as in the following equation.
And the recognition reliability S is, for example, a threshold value TH.
It is determined whether or not to adopt this first candidate as a recognition result, depending on whether or not it is larger than.
A description will be given assuming that the user is urged to re-speak, that is, restate.
【0020】[0020]
【数2】S=R(2)−R(1)S = R (2) -R (1)
【0021】先づ、本発明の第1の実施例について説明
する。上述のような継続時間制御型状態遷移モデルが用
いられ、また判定部3が上記のような判定を行なうよう
になっているとき、本発明の第1の実施例においては、
認識部2は、1つの単語当り、8個の状態を持つ継続時
間制御型状態遷移モデルを標準パタ−ンとして用意し、
入力音声パタ−ンと認識対象となる全ての標準パタ−ン
とのパタ−ンマッチングを行なうようになっている。ま
た、判定部3において数2に基づき認識結果の第1位の
候補の認識信頼度Sが閾値THよりも低いと判断し言い
直しを促がし、使用者が言い直しを行なうと、認識部2
は、(1)数1の全ての継続時間L(j)の値を大きく
して、言い直した音声に対する認識を行なうようになっ
ている。あるいは、(2)数1の全てのwjの値を小さ
くして、言い直した言葉に対する認識を行なうようにな
っている。あるいは、(3)単語の終端に対する継続時
間L(j)の値を大きくして(具体的には、例えば、j
が6,7,8に対するL(j)の値を1.5倍にし
て)、言い直した言葉に対する認識を行なうようになっ
ている。あるいは、(4)単語の終端に対するwjの値
を小さくして(具体的には、例えば、jが6,7,8に
対するwjの値を0.5倍にして)、言い直した言葉に
対する認識を行なうようになっている。First, a first embodiment of the present invention will be described. In the first embodiment of the present invention, when the duration control type state transition model as described above is used and the determination unit 3 performs the above determination,
The recognition unit 2 prepares a duration control type state transition model having eight states per word as a standard pattern,
Pattern matching is performed between the input voice pattern and all the standard patterns to be recognized. Further, the determining unit 3 determines that the recognition reliability S of the first candidate in the recognition result is lower than the threshold value TH based on Expression 2, and prompts the user to repeat the repetition. 2
(1) increases the value of all the durations L (j) of Equation 1 and recognizes the rephrased voice. Alternatively, (2) all the values of w j in Equation 1 are reduced, and the rephrased word is recognized. Alternatively, (3) increasing the value of the duration L (j) with respect to the end of the word (specifically, for example, j
(1.5 times the value of L (j) for 6, 7, 8) to recognize the rephrased word. Alternatively, (4) the value of w j with respect to the end of the word is reduced (specifically, for example, the value of w j with respect to j is 6, 7, and 8 is multiplied by 0.5), and Is recognized.
【0022】このような第1の実施例の構成において、
1回目の発声で音声を認識できなかったときに、認識部
2が(1)のように、標準パタ−ンの継続時間L(j)
を大きい値に変更してから、言い直した言葉に対する認
識を行なうようになっている場合には、使用者が1回目
に比べて発話速度を下げてゆっくりと言い直しを行な
い、この結果、数1においてi−B(j−1)の値が大
きくなっても、これに対してL(j)も大きな値となっ
ているため、入力音声パタ−ンと標準パタ−ンとのマッ
チング時に継続時間の違いによってこれらの間の距離が
大きくなってしまうという不都合が生じるのを有効に防
止することができる。In the configuration of the first embodiment,
When the voice cannot be recognized by the first utterance, the recognition unit 2 sets the standard pattern duration L (j) as shown in (1).
Is changed to a larger value, and then the recognition of the rephrased word is performed, the user lowers the utterance speed compared to the first time and rephrases slowly, and as a result, Even if the value of i-B (j-1) becomes large in No. 1, L (j) also becomes a large value, so that it is continued during the matching between the input voice pattern and the standard pattern. It is possible to effectively prevent the inconvenience of increasing the distance between them due to the difference in time.
【0023】また、認識部2が(2)のように、wjの
値を小さくし継続時間制御の制限を緩めてから、言い直
した言葉に対する認識を行なうようになっている場合に
は、使用者が発話速度を下げてゆっくりと言い直しを行
ない、この結果、i−B(j−1)の値が大きくなって
L(j−1)との差が大きくなっても、wjを小さい値
に変更しているため、入力音声パタ−ンと標準パタ−ン
とのマッチング時に継続時間の違いによってこれらの間
の距離が大きくなってしまうという不都合が生じるのを
有効に防止することができる。In the case where the recognizing unit 2 performs the recognition of the rephrased word after reducing the value of w j and relaxing the restriction of the duration control as in (2), Even if the user lowers the utterance speed and restates slowly, as a result, even if the value of i−B (j−1) increases and the difference from L (j−1) increases, w j can be increased. Since the value is changed to a small value, it is possible to effectively prevent the inconvenience that the distance between the input voice pattern and the standard pattern becomes large due to a difference in duration when matching the standard pattern. it can.
【0024】また、認識部2が、(3)のように、単語
の終端に対する標準パタ−ンの継続時間L(j)(上述
の例では、全てのL(j)のうちのj=6,7,8の部
分)を大きい値に変更してから、言い直した言葉に対す
る認識を行なうようになっている場合には、使用者がゆ
っくりと言い直しを行ない、この結果、単語の語尾が長
くなり、単語終端部分でi−B(j−1)の値が大きく
なっても、単語の終端に対する標準パタ−ンの継続時間
L(j)についてもこれを大きい値に変更しているた
め、入力音声パタ−ンと標準パタ−ンとのマッチング時
に継続時間の違いによってこれらの間の距離が大きくな
ってしまうという不都合が生じるのを有効に防止するこ
とができる。Also, as shown in (3), the recognizing unit 2 determines that the standard pattern duration L (j) with respect to the end of the word (j = 6 of all L (j) in the above example) , 7, 8) to a large value, and then recognizes the rephrased word, the user slowly rephrases, and as a result, the ending of the word is changed. Even if the value of i-B (j-1) increases at the end of the word, the duration L (j) of the standard pattern for the end of the word is also changed to a large value. In addition, it is possible to effectively prevent an inconvenience that the distance between the input voice pattern and the standard pattern is increased due to a difference in duration when matching the input voice pattern and the standard pattern.
【0025】また、認識部2が、(4)のように、単語
の終端に対応する継続時間制御の制限を緩めてから(上
述の例では、wjのうちのj=6,7,8の部分)、言
い直した言葉に対する認識を行なうようになっている場
合には、使用者が発話速度を下げてゆっくりと言い直し
を行ない、この結果、単語の語尾が長くなり、単語終端
部分でi−B(j−1)の値が大きくなっても、単語の
終端に対するwjについてもこれを小さい値に変更して
いるため、入力音声パタ−ンと標準パタ−ンとのマッチ
ング時に継続時間の違いによってこれらの間の距離が大
きくなってしまうという不都合が生じるのを有効に防止
することができる。Also, the recognizing unit 2 relaxes the restriction on the duration control corresponding to the end of the word as in (4) (in the above example, j = 6, 7, 8 of w j ). Part), when the user recognizes the rephrased word, the user lowers the utterance speed and rephrases slowly, and as a result, the ending of the word becomes longer, and the word end part becomes longer. even if the value of i-B (j-1) is increased, since the change to a smaller value, even for the w j for the end of the word, the input speech pattern - emission and the standard pattern - continue when matched with emission It is possible to effectively prevent the inconvenience of increasing the distance between them due to the difference in time.
【0026】従って、上述した(1)乃至(4)のいず
れかの手法を用いることによって、ゆっくりと言い直し
がなされた場合にも、認識信頼度は低下せず、ゆっくり
と言い直しがなされた明瞭な音声に基づき、認識信頼度
を高めることができ、正しい認識結果を迅速に得ること
ができる。Therefore, by using any one of the above-mentioned methods (1) to (4), even if the word is rewritten slowly, the recognition reliability is not reduced and the word is rewritten slowly. Based on clear speech, recognition reliability can be increased, and correct recognition results can be obtained quickly.
【0027】なお、上記例では、(1)乃至(4)のい
ずれか1つの手法が用いられるとして説明したが、
(1)乃至(4)の手法のうちの2つ,あるいは3つの
手法が併用されても良く、あるいは(1)乃至(4)の
全ての手法が併用されても良い。また、(1)乃至
(4)の手法を併用する場合に、そのうちで最も高い認
識信頼度を与えたものからの認識結果を判定部3に送る
ようにしても良い。このときには、より認識精度を高め
ることができる。In the above example, it has been described that any one of the methods (1) to (4) is used.
Two or three of the methods (1) to (4) may be used together, or all of the methods (1) to (4) may be used together. When the methods (1) to (4) are used together, the recognition result from the one giving the highest recognition reliability may be sent to the determination unit 3. At this time, the recognition accuracy can be further improved.
【0028】次に、本発明の第2の実施例について説明
する。また、本発明の第2の実施例においては、認識部
2は、1音素について1〜4状態の継続時間制御型状態
遷移モデルを音素標準パタ−ンとして用意し、この音素
標準パタ−ンを単語ごとに接続するようになっている。
また、判定部3において、数2に基づき認識結果の第1
位の候補の認識信頼度が閾値THよりも低いと判断し言
い直しを促がし、使用者が言い直しを行なうと、認識部
2は、(5)単語の最終母音に対応する標準パタ−ンの
継続時間L(j)の値を大きくして、言い直した音声に
対する認識を行なうようになっている。あるいは、
(6)単語の最終母音に対応する標準パタ−ンのwjの
値を小さくして、言い直した音声に対する認識を行なう
ようになっている。Next, a second embodiment of the present invention will be described. Further, in the second embodiment of the present invention, the recognition unit 2 prepares a duration control type state transition model of 1 to 4 states for one phoneme as a phoneme standard pattern, and this phoneme standard pattern is used. The connection is made for each word.
Further, the determination unit 3 determines the first of the recognition results based on Equation 2.
If the recognition is determined to be lower than the threshold value TH and the user is prompted to re-state, and the user re-performs, the recognizing unit 2 sets (5) the standard pattern corresponding to the final vowel of the word. The value of the continuation time L (j) is increased, and recognition of the rephrased voice is performed. Or,
(6) The value of w j of the standard pattern corresponding to the final vowel of a word is reduced, and the re-speech is recognized.
【0029】このような第2の実施例の構成において、
1回目の発声で音声を認識できなかったとき、認識部2
が(5)のように入力音声の最終母音に対応する標準パ
タ−ンの継続時間L(j)を大きい値に変更してから、
言い直した言葉に対する認識を行なうようになっている
場合には、使用者が発話速度を下げてゆっくりと言い直
しを行ない、この結果、単語の語尾が長くなり、単語終
端部分でi−B(j−1)の値が大きくなっても、単語
の終端に対する標準パタ−ンの継続時間L(j)につい
てもこれを大きい値に変更しているため、入力音声パタ
−ンと標準パタ−ンとのマッチング時に継続時間の違い
によってこれらの間の距離が大きくなってしまうという
不都合が生じるのを有効に防止することができる。In the configuration of the second embodiment,
When the speech cannot be recognized by the first utterance, the recognition unit 2
After changing the duration L (j) of the standard pattern corresponding to the final vowel of the input voice to a large value as shown in (5),
In the case of recognizing the rephrased word, the user lowers the utterance speed and slowly rephrases. As a result, the ending of the word becomes longer, and i-B ( Even if the value of j-1) increases, the duration L (j) of the standard pattern with respect to the end of the word is also changed to a large value, so that the input voice pattern and the standard pattern It is possible to effectively prevent the inconvenience that the distance between them becomes large due to the difference in the duration when matching with.
【0030】また、認識部2が(6)のように、入力音
声の最終母音に対する継続時間制御の制限を緩めてか
ら、言い直した言葉に対する認識を行なうようになって
いる場合には、使用者が発話速度を下げてゆっくりと言
い返しを行ない、この結果、単語終端の部分でi−B
(j−1)の値が大きくなってL(j−1)との差が大
きくなっても、wjを小さい値に変更しているため、入
力音声パタ−ンと標準パタ−ンとのマッチング時に継続
時間の違いによってこれらの間の距離が大きくなってし
まうという不都合が生じるのを有効に防止することがで
きる。If the recognition unit 2 relaxes the restriction on the duration control of the final vowel of the input voice as in (6) and then recognizes the rephrased word, The person slows down the utterance speed and repeats slowly, and as a result, the i-B
Be (j-1) values of increases it becomes the difference is large between the L (j-1), because it changes the w j to a small value, the input speech pattern - emission and the standard pattern - ting of It is possible to effectively prevent the disadvantage that the distance between them becomes large due to the difference in the duration during matching.
【0031】このように第2の実施例においても、上述
した(5)乃至(6)のいずれかの手法を用いることに
よって、ゆっくりと言い直しがなされた場合にも、認識
信頼度は低下せず、ゆっくりと言い直しがなされた明瞭
な音声に基づき、認識信頼度を高めることができ、正し
い認識結果を迅速に得ることができる。As described above, also in the second embodiment, by using any of the above-mentioned methods (5) and (6), the recognition reliability is reduced even when the word is rephrased slowly. Instead, the recognition reliability can be increased based on a clear voice that has been slowly rephrased, and a correct recognition result can be obtained quickly.
【0032】なお、上記例では、(5)乃至(6)のい
ずれか1つの手法が用いられるとして説明したが、
(5)乃至(6)の手法が併用されても良い。また、
(5)乃至(6)の手法を併用する場合に、そのうちで
最も高い認識信頼度を与えたものからの認識結果を判定
部3に送るようにしても良い。このときには、より認識
精度を高めることができる。In the above example, it has been described that any one of the methods (5) and (6) is used.
The methods (5) and (6) may be used together. Also,
When the methods (5) and (6) are used together, the recognition result from the one giving the highest recognition reliability may be sent to the determination unit 3. At this time, the recognition accuracy can be further improved.
【0033】また、さらには、第1の実施例と第2の実
施例とを組合せ(1)乃至(6)を併用しても良く、こ
の場合に、そのうちで最も高い認識信頼度を与えたもの
からの認識結果を判定部3に送るようにしても良い。こ
のときには、さらに一層認識精度を高めることができ
る。Further, the first embodiment and the second embodiment may be combined with the combinations (1) to (6). In this case, the highest recognition reliability is given. The recognition result from the object may be sent to the determination unit 3. At this time, the recognition accuracy can be further improved.
【0034】[0034]
【発明の効果】以上に説明したように、本発明では、認
識結果が採用されず言い直しをする場合に、言い直した
発声については、標準パタ−ンの継続時間を大きく設定
するか、あるいは、継続時間の制限を緩めるか、あるい
は、入力音声の終端に対応する標準パタ−ンの継続時間
を大きくするか、あるいは、入力音声の終端に対する継
続時間制御の制限を緩めるか、あるいは、入力音声の最
後の母音に対応する標準パタ−ンの継続時間を大きくす
るか、あるいは、入力音声の最後の母音に対応する継続
時間制御の制限を緩めるかして、認識するようにしてい
るので、言い直した言葉について正しい認識結果を得易
く、正しい認識結果を早期に得ることができる。As described above, according to the present invention, when the recognition result is not adopted and rephrasing is performed, the repetition utterance is set to a longer duration of the standard pattern, or Either relax the restriction on the duration, increase the duration of the standard pattern corresponding to the end of the input voice, relax the restriction on the duration control for the end of the input voice, or Since the duration of the standard pattern corresponding to the last vowel of the input voice is increased or the restriction on the duration control corresponding to the last vowel of the input voice is relaxed, the recognition is made. A correct recognition result can be easily obtained for the corrected word, and a correct recognition result can be obtained early.
【図1】本発明に係る音声認識装置の一実施例のブロッ
ク図である。FIG. 1 is a block diagram of one embodiment of a speech recognition device according to the present invention.
1 音声入力部 2 認識部 3 判定部 DESCRIPTION OF SYMBOLS 1 Voice input part 2 Recognition part 3 Judgment part
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 17/00 JICSTファイル(JOIS)──────────────────────────────────────────────────続 き Continued on the front page (58) Field surveyed (Int. Cl. 7 , DB name) G10L 15/00-17/00 JICST file (JOIS)
Claims (6)
れた音声を継続時間制御を用いて認識する認識手段と、
認識手段によって得られた認識結果を採用するか否かを
判定する判定手段とを有し、前記判定手段において認識
結果が採用されなかった場合に、前記認識手段は、標準
パタ−ンの継続時間を大きく設定し、次の入力音声を認
識するようになっていることを特徴とする音声認識装
置。1. A voice input means for inputting voice, a recognition means for recognizing the input voice by using duration control,
Determining means for determining whether or not to use the recognition result obtained by the recognition means; and when the determination result does not use the recognition result, the recognition means determines whether or not the continuation time of the standard pattern is satisfied. Is set to be large so as to recognize the next input voice.
れた音声を継続時間制御を用いて認識する認識手段と、
認識手段によって得られた認識結果を採用するか否かを
判定する判定手段とを有し、前記判定手段において認識
結果が採用されなかった場合に、前記認識手段は、継続
時間の制限を緩めて、次の入力音声を認識するようにな
っていることを特徴とする音声認識装置。2. A voice input unit for inputting voice, a recognition unit for recognizing the input voice using duration control,
Determining means for determining whether or not to use the recognition result obtained by the recognition means, and when the recognition result is not adopted by the determination means, the recognition means relaxes the restriction on the duration. A speech recognition device for recognizing a next input speech.
れた音声を継続時間制御を用いて認識する認識手段と、
認識手段によって得られた認識結果を採用するか否かを
判定する判定手段とを有し、前記判定手段において認識
結果が採用されなかった場合に、前記認識手段は、入力
音声の終端に対応する標準パタ−ンの継続時間を大きく
して、次の入力音声を認識するようになっていることを
特徴とする音声認識装置。3. A voice input unit for inputting voice, a recognition unit for recognizing the input voice using duration control,
Determining means for determining whether or not to use the recognition result obtained by the recognition means, wherein when the recognition result is not used by the determination means, the recognition means corresponds to the end of the input voice A speech recognition device characterized by recognizing the next input speech by increasing the duration of the standard pattern.
れた音声を継続時間制御を用いて認識する認識手段と、
認識手段によって得られた認識結果を採用するか否かを
判定する判定手段とを有し、前記判定手段において認識
結果が採用されなかった場合に、前記認識手段は、入力
音声の終端に対する継続時間制御の制限を緩めて、認識
するようになっていることを特徴とする音声認識装置。4. A voice input means for inputting voice, a recognition means for recognizing the input voice using duration control,
Determining means for determining whether or not to use the recognition result obtained by the recognition means; and when the determination result does not use the recognition result, the recognition means determines whether or not the continuation time with respect to the end of the input voice A speech recognition apparatus characterized in that the restriction on control is relaxed and recognition is performed.
れた音声を継続時間制御を用いて認識する認識手段と、
認識手段によって得られた認識結果を採用するか否かを
判定する判定手段とを有し、前記判定手段において認識
結果が採用されなかった場合に、前記認識手段は、入力
音声の最後の母音に対応する標準パタ−ンの継続時間を
大きくして、次の入力音声を認識するようになっている
ことを特徴とする音声認識装置。5. A voice input unit for inputting voice, a recognition unit for recognizing the input voice using duration control,
Determining means for determining whether or not to use the recognition result obtained by the recognition means, and when the recognition result is not used in the determination means, the recognition means sets the last vowel of the input voice as A speech recognition apparatus characterized by recognizing the next input speech by increasing the duration of a corresponding standard pattern.
れた音声を継続時間制御を用いて認識する認識手段と、
認識手段によって得られた認識結果を採用するか否かを
判定する判定手段とを有し、前記判定手段において認識
結果が採用されなかった場合に、前記認識手段は、入力
音声の最後の母音に対応する継続時間制御の制限を緩め
て、次の入力音声を認識するようになっていることを特
徴とする音声認識装置。6. A voice input unit for inputting voice, a recognition unit for recognizing the input voice by using duration control,
Determining means for determining whether or not to use the recognition result obtained by the recognition means, and when the recognition result is not used in the determination means, the recognition means sets the last vowel of the input voice as A speech recognition device characterized by recognizing the next input speech by relaxing the restriction of the corresponding duration control.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03337842A JP3100208B2 (en) | 1991-11-27 | 1991-11-27 | Voice recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03337842A JP3100208B2 (en) | 1991-11-27 | 1991-11-27 | Voice recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05150798A JPH05150798A (en) | 1993-06-18 |
JP3100208B2 true JP3100208B2 (en) | 2000-10-16 |
Family
ID=18312487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP03337842A Expired - Fee Related JP3100208B2 (en) | 1991-11-27 | 1991-11-27 | Voice recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3100208B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240042964A (en) * | 2022-09-26 | 2024-04-02 | 주식회사 네오툰 | Selection and Transmission Method of Related Video Data through Keyword Analysis of Voice Commands |
-
1991
- 1991-11-27 JP JP03337842A patent/JP3100208B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH05150798A (en) | 1993-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
US7228275B1 (en) | Speech recognition system having multiple speech recognizers | |
US6185528B1 (en) | Method of and a device for speech recognition employing neural network and markov model recognition techniques | |
US6185530B1 (en) | Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system | |
US6490555B1 (en) | Discriminatively trained mixture models in continuous speech recognition | |
JP2002507010A (en) | Apparatus and method for simultaneous multi-mode dictation | |
JP2003316386A (en) | Method, device, and program for speech recognition | |
JPH11149294A (en) | Voice recognition device and voice recognition method | |
Boite et al. | A new approach towards keyword spotting. | |
JP3535292B2 (en) | Speech recognition system | |
CN108806691B (en) | Voice recognition method and system | |
JPH11184491A (en) | Voice recognition device | |
JP3100208B2 (en) | Voice recognition device | |
JPH0643895A (en) | Device for recognizing voice | |
JP2871420B2 (en) | Spoken dialogue system | |
JP3112037B2 (en) | Voice recognition device | |
JP4094255B2 (en) | Dictation device with command input function | |
JP3104900B2 (en) | Voice recognition method | |
KR20020045960A (en) | Method for performance improvement of keyword detection in speech recognition | |
JPH06161488A (en) | Speech recognizing device | |
JP3291073B2 (en) | Voice recognition method | |
JP2731133B2 (en) | Continuous speech recognition device | |
JPH0756595A (en) | Voice recognition device | |
JP3254933B2 (en) | Voice recognition method | |
JP3009962B2 (en) | Voice recognition device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080818 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |