JP2996019B2 - Voice recognition device - Google Patents

Voice recognition device

Info

Publication number
JP2996019B2
JP2996019B2 JP4216418A JP21641892A JP2996019B2 JP 2996019 B2 JP2996019 B2 JP 2996019B2 JP 4216418 A JP4216418 A JP 4216418A JP 21641892 A JP21641892 A JP 21641892A JP 2996019 B2 JP2996019 B2 JP 2996019B2
Authority
JP
Japan
Prior art keywords
input
voice
similarity
unit
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP4216418A
Other languages
Japanese (ja)
Other versions
JPH0643895A (en
Inventor
香一郎 畑▲崎▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP4216418A priority Critical patent/JP2996019B2/en
Publication of JPH0643895A publication Critical patent/JPH0643895A/en
Application granted granted Critical
Publication of JP2996019B2 publication Critical patent/JP2996019B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】この発明は、音声入力装置、自動
通訳装置等に用いる音声認識装置において、ポーズを含
む入力音声を認識する方法に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for recognizing an input voice including a pause in a voice recognition device used for a voice input device, an automatic interpreter, or the like.

【0002】[0002]

【従来の技術】音声は人間にとって自然でかつ使いやす
いマンマシンインタフェースのひとつであり、音声入力
による計算機との質問応答装置や、音声入出力の自動通
訳装置の実用化が強く望まれている。これらの装置にお
いては自然言語の文や会話文をできるだけ自然に音声入
力できることが望まれる。従来、これらの装置ではマイ
クロホン、電話等から入力される信号中の音声を認識す
るために、例えば、共立出版株式会社、新美康永著「音
声認識」(以下、文献1と称する)の第68頁から第7
0頁に示されているように、信号パワー情報および零交
差回数を用いて認識すべき音声区間の始端と終端を決定
し、この音声区間に対して認識処理を行なっていた。パ
ワー情報で音声区間の終端を検出する場合には、音声中
の破裂音等の無音部分あるいは発声中の短いポーズと音
声終了後の無音部分とを区別するために、無音部分があ
る一定の時間長以上継続する場合に音声入力が終了した
と判定していた。この場合、標準パタンの前後に無音パ
タンあるいはノイズパタンを結合しておくことによっ
て、音声区間の両端に多少の無音区間あるいはノイズ区
間が含まれていて正しく照合できるようにすることが多
い。
2. Description of the Related Art Voice is one of human-machine interfaces that are natural and easy for humans to use, and there is a strong demand for practical use of a question answering device with a computer by voice input and an automatic interpreter for voice input / output. In these devices, it is desired that a sentence in a natural language or a conversational sentence be input as naturally as possible. Conventionally, in order to recognize a voice in a signal input from a microphone, a telephone, or the like, these apparatuses have been disclosed in, for example, “Speech Recognition” by Yasunaga Niimi, Kyoritsu Shuppan Co., Ltd. From page 7
As shown on page 0, the start and end of a speech section to be recognized are determined using signal power information and the number of zero crossings, and recognition processing is performed on this speech section. When detecting the end of a voice section using power information, a certain period of time is needed to distinguish between a silent part such as a plosive in the voice or a short pause during utterance and a silent part after the voice ends. If the voice input has been continued for a longer time, it has been determined that the voice input has ended. In this case, by combining a silence pattern or a noise pattern before and after the standard pattern, a few silence sections or noise sections are included at both ends of the voice section so that correct matching can be performed in many cases.

【0003】[0003]

【発明が解決しようとする課題】人が自然に文を発声し
た場合には文中にポーズが入ること、すなわち発声の途
切れがよくある。例えば、「その切符を2枚下さい」の
場合に「その切符を」と発声した後に枚数を考えること
があり、この場合には「その切符を<ポーズ>2枚下さ
い」のような発声になる。また長い文の場合には文の途
中で息継ぎを行なった結果、ポーズの生じることがあ
る。これに対処するために、従来の技術では、無音区間
あるいはノイズ区間がある一定の時間長L以上持続する
場合のみに音声入力が終了したと判定していた。これに
よって、一定時間L以下のポーズが文中に含まれた場合
にも誤って音声入力終了と見なすことがなく、ポーズの
あとの発声を含めた入力音声の認識が可能になる。
When a person naturally utters a sentence, a pause often occurs in the sentence, that is, the utterance is interrupted. For example, in the case of "Please give two tickets", you may think about the number after uttering "The ticket". In this case, it will be uttered like "Please give <pause> two tickets" . In the case of a long sentence, a pause may occur as a result of breathing in the middle of the sentence. In order to cope with this, in the related art, it is determined that the voice input has been completed only when a silent section or a noise section lasts for a certain time length L or more. Thus, even when a pause of less than or equal to the predetermined time L is included in the sentence, it is not erroneously determined that the voice input has ended, and the input voice including the utterance after the pause can be recognized.

【0004】しかしながら、この方法では、音声入力が
終了しても前述の一定時間Lが経過するまでは認識結果
を出力することができないため、入力音声中のポーズを
許すためにLを大きくすると音声入力終了後に認識結果
がなかなか出力されないという欠点が生じた。また、音
声入力終了後にすみやかに認識結果が必要な場合にはL
をあまり大きな値に設定することができず、この場合に
は、発声の際に入力音声中に長いポーズを置くことがで
きないという欠点が生じ、この結果、認識装置の使用者
に負担をかけ、装置を使いづらいものにしていた。
However, in this method, the recognition result cannot be output until the above-mentioned predetermined time L has elapsed even if the voice input is completed. There is a disadvantage that the recognition result is not easily output after the input is completed. If the recognition result is required immediately after the voice input is completed, L
Cannot be set to a very large value, and in this case, there is a disadvantage that a long pause cannot be placed in the input voice when uttering, and as a result, a burden is imposed on the user of the recognition device, The device was difficult to use.

【0005】そこで本発明の目的は、音声入力の際に入
力音声の途中に長いポーズを置いた場合でも正しく認識
することができ、しかも音声入力が終了した時点ですみ
やかに認識結果を出力することが可能であり、さらに認
識対象以外の音声あるいはノイズ音が入力された時には
すみやかにリジェクトすることが可能な音声認識装置を
提供することにある。
[0005] It is an object of the present invention to correctly recognize even if a long pause is placed in the middle of the input voice during voice input, and to output a recognition result immediately upon completion of voice input. It is another object of the present invention to provide a speech recognition apparatus capable of promptly rejecting a speech or a noise sound other than a recognition target when the speech or noise sound is input.

【0006】[0006]

【課題を解決するための手段】第1の発明の音声認識装
置は、入力信号を特徴ベクトル時系列に変換する分析部
と、前記特徴ベクトル時系列のうちのパワー情報を用い
て入力信号中の音声区間の始端および終端を検出する音
声検出部と、前記特徴ベクトル時系列とあらかじめ登録
された標準パタンとを比較照合して、入力信号の各時点
での最大類似度を求めるとともに、音声入力終了時には
最大類似度を与える標準パタンを認識結果として求める
比較照合部と、前記音声区間の終端付近の少なくとも1
個のある時点において、前記最大類似度が第1の閾値よ
りも大きければ音声入力終了信号を出力する第1の入力
終了判定部とを有することを特徴とする。
According to a first aspect of the present invention, there is provided a speech recognition apparatus comprising: an analyzing unit for converting an input signal into a feature vector time series; A voice detection unit that detects the start and end of a voice section, compares and compares the feature vector time series with a pre-registered standard pattern, obtains a maximum similarity at each point of the input signal, and ends voice input. Sometimes, a comparison / matching unit that obtains a standard pattern that gives the maximum similarity as a recognition result, and at least one near the end of the voice section.
And a first input termination determination unit that outputs a voice input termination signal if the maximum similarity is greater than a first threshold at a certain point in time.

【0007】第2の発明の音声認識装置は、入力信号を
特徴ベクトル時系列に変換する分析部と、前記特徴ベク
トル時系列のうちのパワー情報を用いて入力信号中の音
声区間の始端および終端を検出する音声検出部と、前記
特徴ベクトル時系列とあらかじめ登録された標準パタン
とを比較照合して、入力信号の各時点での最大類似度を
求めるとともに、音声入力終了時には最大類似度を与え
る標準パタンを認識結果として求める比較照合部と、前
記音声区間の終端付近の少なくとも1個のある時点にお
いて、前記標準パタンの最大類似度と前記標準パタンの
中の部分パタンの最大類似度との差または比が第2の閾
値よりも大きければ音声入力終了信号を出力する第2の
入力終了判定部とを有するこを特徴とする。
According to a second aspect of the present invention, there is provided a speech recognition apparatus for analyzing an input signal into a feature vector time series, and using a power information of the feature vector time series to start and end a speech section in the input signal. And a voice detection unit for detecting the maximum similarity at each time point of the input signal by comparing and comparing the feature vector time series with a pre-registered standard pattern, and giving the maximum similarity at the end of the voice input. A comparison / matching unit for obtaining a standard pattern as a recognition result; and a difference between a maximum similarity of the standard pattern and a maximum similarity of a partial pattern in the standard pattern at at least one point near the end of the voice section. Alternatively, a second input end determination unit that outputs a voice input end signal when the ratio is larger than the second threshold value.

【0008】第3の発明の音声認識装置は、第1又は第
2の発明において、前記入力終了判判定部での判定時
に、前記標準パタン中の部分パタンの最大類似度が第3
の閾値よりも小さければリジェクト信号を出力する第1
のリジェクト部を有することを特徴とする。
In the speech recognition apparatus according to a third aspect of the present invention, in the first or second aspect, the maximum similarity of the partial pattern in the standard pattern is equal to the third similarity at the time of the input completion determination.
Output a reject signal if smaller than the threshold
Characterized in that it has a rejection section.

【0009】第4の発明の音声認識装置は、第1又は第
2の発明において、前記入力終了判定部での判定時に、
前記標準パタンの最大類似度と前記標準パタン中の部分
パタンの最大類似度との差または比が第4の閾値よりも
小さければリジェクト信号を出力する第2のリジェクト
部を有することを特徴とする。
In a fourth aspect of the present invention, in the first or second aspect of the present invention, when the input completion determination unit determines,
A second reject unit that outputs a reject signal when a difference or a ratio between the maximum similarity of the standard pattern and the maximum similarity of the partial patterns in the standard pattern is smaller than a fourth threshold value. .

【0010】第5の発明の音声認識装置は、第1乃至第
4の発明において、前記入力終了判定部が音声入力終了
信号を出力した場合に、前記最大類似度を与える標準パ
タンと同じ部分パタンが存在するならば、その時点から
一定の時間が経過したのちに改めて音声入力終了信号を
出力する終了信号遅延部を有することを特徴とする。
According to a fifth aspect of the present invention, in the speech recognition apparatus according to the first to fourth aspects, when the input end determination unit outputs a voice input end signal, the same partial pattern as the standard pattern giving the maximum similarity is provided. Is provided, an end signal delay unit for outputting a voice input end signal again after a certain time has elapsed from that point.

【0011】第6の発明の音声認識装置は、第1乃至第
5の発明において、認識単位の標準パタンをあらかじめ
定めた順序で結合したパタンと前記音声区間の特徴ベク
トル時系列との類似度の最大値を参照類似度として求め
る参照類似度計算部と、前記入力終了判定部での判定時
において前記参照類似度が第5の閾値よりも小さい場合
にリジェクト信号を出力する第3のリジェクト部とを有
することを特徴とする。
According to a sixth aspect of the present invention, in the speech recognition apparatus according to the first to fifth aspects, a similarity between a pattern obtained by combining standard patterns of recognition units in a predetermined order and a feature vector time series of the speech section. A reference similarity calculating unit that determines a maximum value as a reference similarity, and a third rejecting unit that outputs a reject signal when the reference similarity is smaller than a fifth threshold at the time of determination by the input end determination unit. It is characterized by having.

【0012】第7の発明の音声認識装置は、第1乃至第
6の発明において、前記標準パタンを構成する特徴ベク
トルと前記音声区間の特徴ベクトル時系列中の特徴ベク
トルとのベクトル間類似度の累積値を求めるベクトル間
類似度計算部と、入力終了判定部での判定時において前
記参照類似度が第6の閾値よりも小さい場合にリジェク
ト信号を出力する第4のリジェクト部とを有すること特
徴とする。
According to a seventh aspect of the present invention, in the speech recognition apparatus according to the first to sixth aspects, an inter-vector similarity between a feature vector constituting the standard pattern and a feature vector in a feature vector time series of the speech section is provided. An inter-vector similarity calculating unit for obtaining an accumulated value; and a fourth rejecting unit for outputting a reject signal when the reference similarity is smaller than a sixth threshold at the time of determination by the input end determining unit. And

【0013】第8の発明の音声認識装置は、第1乃至第
7の発明において、ノイズ音のパタンと前記音声区間の
始端以降の特徴ベクトル時系列との類似度を求めるノイ
ズ類似度計算部と、前記入力終了判定部での判定時にお
いて前記ノイズ類似度が第7の閾値よりも大きい場合に
リジェクト信号を出力する第5のリジェクト部とを有す
ることを特徴とする。
The speech recognition apparatus according to an eighth aspect of the present invention is the speech recognition apparatus according to the first to seventh aspects, further comprising: A fifth reject unit that outputs a reject signal when the noise similarity is greater than a seventh threshold value at the time of the determination by the input end determination unit.

【0014】第9の発明の音声認識装置は、第1乃至第
8の発明において、前記音声区間の終端からの経過時間
に従って前記第1、第2、第3、第4、第5、第6およ
び第7の閾値を変化させる閾値計算部を有することを特
徴とする。
According to a ninth aspect of the present invention, in the first to eighth aspects of the present invention, the first, second, third, fourth, fifth, and sixth aspects of the speech recognition apparatus according to an elapsed time from the end of the voice section. And a threshold calculator for changing the seventh threshold.

【0015】第10の発明の音声認識装置は、第1乃至
第9の発明において、前記入力終了判定部での判定時か
らの経過時間を計測する経過時間計測部と、あらかじめ
定められた経過時間内に前記音声検出部が次の音声区間
の始端を検出しない場合にリジェクト信号を出力する場
合にリジェクト信号を出力する第6のリジェクト部とを
有することを特徴とする。
According to a tenth aspect of the present invention, in the speech recognition apparatus according to the first to ninth aspects, an elapsed time measuring section for measuring an elapsed time from the time of the judgment by the input end judging section; And a sixth reject unit that outputs a reject signal when the reject signal is output when the voice detection unit does not detect the start end of the next voice section.

【0016】[0016]

【作用】人が自然に文を発声した場合には文中にポーズ
が入ること、すなわち発声の途切れがよくあるが、入力
信号のパワー情報だけに頼って音声区間の検出を行なう
と、文中のポーズを発声終了後の無音と間違ってしま
い、ポーズの後に続く音声を含めた発声全体の音声を正
しく認識することができなかった。本発明の音声認識装
置は、入力信号のパワー情報だけでなく、認識対象の音
声の標準パタンと入力信号との類似度も同時に使用する
ことによって、発声の終了時点の検出を行なうようにし
たものである。これによって、入力される音声中にポー
ズが含まれている場合でも、そのポーズを発声終了後の
無音と間違えることがなくなる。
When a person naturally utters a sentence, there is a pause in the sentence, that is, the utterance is often interrupted. However, if a voice section is detected only by using the power information of the input signal, a pause in the sentence is obtained. Was mistaken for silence after the end of the utterance, and it was not possible to correctly recognize the entire utterance including the sound following the pause. The speech recognition device of the present invention detects the end point of utterance by simultaneously using not only the power information of the input signal but also the similarity between the standard pattern of the speech to be recognized and the input signal. It is. Thus, even when a pause is included in the input voice, the pause is not mistaken for silence after the utterance ends.

【0017】第1の発明では、まず入力された信号を分
析部によって特徴ベクトル時系列に変換する。ここでの
分析には、東海大学出版会刊行の「ディジタル音声処
理」(以下、文献2と称する)の32〜98ページに示
されているメルケプストラムによる方法やLPC分析に
よる方法などを用いることができる。
In the first invention, first, an input signal is converted into a feature vector time series by an analyzer. For this analysis, it is possible to use a method based on mel cepstrum, a method based on LPC analysis, etc. shown on pages 32 to 98 of “Digital Speech Processing” (hereinafter referred to as Reference 2) published by Tokai University Press. it can.

【0018】次に、音声検出部では、分析部で得られた
特徴ベクトル時系列のうちのパワー情報を用いて、入力
信号中の音声区間の始端および終端を検出する。このた
めには文献1の68〜70ページに示されている音声検
出の方法などを用いることができる。この音声検出部は
入力信号のパワーがある閾値以上の大きさで一定時間以
上継続する区間の始端を音声区間の始端として検出す
る。また、パワーがある閾値以下の大きさに下がったま
ま一定時間以上継続した場合に、その閾値以下に下がっ
た時点を音声区間の終端として検出する。
Next, the speech detection section detects the start and end of the speech section in the input signal using the power information in the feature vector time series obtained by the analysis section. For this purpose, a voice detection method shown on pages 68 to 70 of Document 1 can be used. The voice detection unit detects the start of a section in which the power of the input signal is greater than or equal to a certain threshold and continues for a predetermined time or more as the start of a voice section. Further, when the power has continued for a certain period of time with the power dropped below a certain threshold value, the time point when the power dropped below the threshold value is detected as the end of the voice section.

【0019】比較照合部は、音声検出部によって検出さ
れた始端以降の入力信号の特徴ベクトル時系列とあらか
じめ登録されている認識対象の標準パタンとを比較照合
し、入力信号の各時点において標準パタンと入力信号と
の類似度の最大値、すなわち最大類似度を計算する。ま
た、入力音声の終了時点で最大類似度を与える標準パタ
ンを認識結果として出力する。このとき、音節、半音
節、単語などの単位音声パタンをあらかじめ用意してあ
る文法に従って接続したものを標準パタンとして用いる
ことによって任意の文を認識することができる。例え
ば、特願昭54−104669号明細書「連続音声認識
装置」(以下、文献3と称する)では、有限状態オート
マトンで表現された文法に従って単語パタンを接続して
連続音声を認識する方法が述べられている。
The comparison / comparison section compares and compares the feature vector time series of the input signal after the start end detected by the voice detection section with a standard pattern to be recognized which has been registered in advance. The maximum value of the similarity between the input signal and the input signal, that is, the maximum similarity is calculated. Also, a standard pattern that gives the maximum similarity at the end of the input voice is output as a recognition result. At this time, an arbitrary sentence can be recognized by using, as a standard pattern, a unit voice pattern of syllables, semisyllables, words, or the like connected according to a prepared grammar. For example, in Japanese Patent Application No. 54-104669, "Continuous Speech Recognition Apparatus" (hereinafter referred to as Document 3) describes a method of recognizing continuous speech by connecting word patterns in accordance with a grammar represented by a finite state automaton. Have been.

【0020】第1の入力終了判定部は、音声検出部が検
出した音声区間の終端時点あるいはその付近の少なくと
も1個のある時点で、比較照合部にによって計算された
最大類似度が閾値よりも大きい場合に音声入力が終了し
たと判定し、音声入力終了信号を出力する。
The first input end determining unit determines that the maximum similarity calculated by the comparison / matching unit is smaller than a threshold value at the end point of the voice section detected by the voice detection unit or at least one point in the vicinity thereof. If it is larger, it is determined that the voice input has ended, and a voice input end signal is output.

【0021】例えば、認識対象となる標準パタンとして
「その切符を2枚下さい」、「その切符を3枚下さ
い」、「その切符を下さい」が登録されており、「その
切符を」だけの標準パタンは登録されていないとする。
このとき、「その切符を2枚下さい」という音声を入力
する場合に「その切符を」を入力した時点でポーズをお
いたとする。音声検出部はこのポーズが存在することに
よって「その切符を」の終端の時点を音声区間の終端と
して検出する。この時点で比較照合部は、「その切符
を」の特徴ベクトル時系列と標準パタンとを比較照合し
た結果の最大類似度Siを出力する。すると、この時点
での最大類似度Siは、標準パタンとは異なる単語列と
の比較照合を行なった結果であるから、比較的小さい値
となる。
For example, as standard patterns to be recognized, "Please give two tickets", "Please give three tickets" and "Please give you tickets" are registered. It is assumed that the pattern has not been registered.
At this time, it is assumed that a pause is made at the time of inputting "the ticket" when the voice "Please input two tickets" is input. The voice detecting unit detects the end of the "the ticket" as the end of the voice section due to the presence of this pause. At this time, the comparison / collation unit outputs the maximum similarity Si as a result of the comparison and comparison between the feature vector time series of “the ticket” and the standard pattern. Then, the maximum similarity Si at this point is a relatively small value because it is the result of comparison and collation with a word string different from the standard pattern.

【0022】一方、上記のポーズに続いて「2枚下さ
い」という音声を入力すると、音声検出部は再び音声区
間の始端、終端を検出する。この終端の時点において
は、比較照合部は「その切符を<ポーズ>2枚下さい」
という部分の特徴ベクトル時系列と標準パタンとの比較
照合することになるから、入力音声と同じ単語列である
「その切符を2枚下さい」の標準パタンとの最大類似度
Sjが比較的大きな値となる。
On the other hand, when the voice "Please two" is input following the pause, the voice detection unit detects the start and end of the voice section again. At the end of this time, the comparison and collation unit says, "Please give me two <pause>tickets."
Is compared and compared with the standard pattern, so that the maximum similarity Sj with the standard pattern of "Please give two tickets", which is the same word string as the input voice, is a relatively large value. Becomes

【0023】従って、SiとSjが分類できるようにあ
らかじめ適当な閾値を設定しておくことによって、「そ
の切符を」までが入力された時点においては入力終了判
定部は音声入力終了信号を出力せず、一方、「その切符
を<ポーズ>2枚下さい」までが入力された時点で即座
に音声入力終了信号を出力することが可能である。この
結果、ポーズが含まれる入力音声に対しても、ポーズの
位置では音声認識の処理を終了することなく、かつ文を
最後まで入力した時点で即座に認識結果を出力すること
が可能になる。
Accordingly, by setting an appropriate threshold value in advance so that Si and Sj can be classified, the input end determination unit outputs a voice input end signal when the "up to that ticket" is input. On the other hand, it is possible to immediately output a voice input end signal when up to "Please enter two <pause>tickets". As a result, even for an input voice including a pause, it is possible to output a recognition result immediately after the sentence is completely input without terminating the voice recognition process at the position of the pause.

【0024】なお、ポーズを含む区間の特徴ベクトル時
系列と標準場端とを比較照合するためには、特徴ベクト
ル時系列からポーズ区間をあらかじめ取り除いたものと
標準パタンとを比較照合する方法や、あるいは標準パタ
ン中にポーズ区間の特徴ベクトル時系列をモデル化する
無音モデルを挿入しておく方法などが知られている。
In order to compare and match the feature vector time series of the section including the pose with the standard field edge, a method of comparing and matching the feature pattern time series with the pause section removed in advance and the standard pattern, Alternatively, a method of inserting a silence model for modeling a feature vector time series of a pause section into a standard pattern is known.

【0025】第2の発明では、第2の入力終了判定部に
おいて、音声区間の終端時点あるいはその付近の少なく
とも1個のある時点での、入力音声に対する標準パタン
の最大類似度と、標準パタン中の部分パタンの最大類似
度との差または比が閾値よりも大きい場合に音声入力が
終了したと判定し、音声入力終了信号を出力する。
[0025] In the second invention, the second input end determining unit determines the maximum similarity of the standard pattern with respect to the input voice at the end of the voice section or at least one point in the vicinity thereof. If the difference or ratio of the partial pattern with the maximum similarity is greater than the threshold value, it is determined that the voice input has ended, and a voice input end signal is output.

【0026】例えば、標準パタン「その切符を2枚下さ
い」に対して、「その」、「その切符を」、「その切符
を2枚」を部分パタンとしてあらかじめ定めておく。こ
のとき、「その切符を2枚下さい」という音声を入力す
る場合に「その切符を」を入力した時点でポーズをおい
たとする。この時点で比較照合部は、「その切符を」の
特徴ベクトル時系列と標準パタンとの最大類似度Siを
出力するとともに、同じ特徴ベクトル時系列と部分パタ
ンとの最大類似度Piを出力する。この場合、標準パタ
ンとの比較照合の場合には標準パタンとは異なる単語列
との比較照合を行なうことになるから、最大類似度Si
は比較的小さい値となる。他方、部分パタンとの比較照
合の場合には部分パタン「その切符を」との比較におい
て大きな最大類似度Piが求まることになる。この結
果、これらの最大類似度の差Si−Piは一般に比較的
小さい値(この場合は負の値)になる。
For example, for the standard pattern "Please give two tickets", "that", "this ticket", and "two tickets" are determined in advance as partial patterns. At this time, it is assumed that a pause is made at the time of inputting "the ticket" when the voice "Please input two tickets" is input. At this point, the comparison / matching unit outputs the maximum similarity Si between the feature vector time series of “the ticket” and the standard pattern, and also outputs the maximum similarity Pi between the same feature vector time series and the partial pattern. In this case, in the case of comparison and matching with the standard pattern, comparison and matching with a word string different from the standard pattern is performed.
Is a relatively small value. On the other hand, in the case of comparison and collation with a partial pattern, a large maximum similarity Pi is obtained in comparison with the partial pattern "the ticket". As a result, the difference Si-Pi between these maximum similarities generally has a relatively small value (in this case, a negative value).

【0027】一方、上記のポーズに続いて「2枚下さ
い」という音声を入力すると、音声区間の終端におい
て、比較照合部は「その切符を<ポーズ>2枚下さい」
の特徴ベクトル時系列に対する標準パタンの最大類似度
Sjと、同じ特徴ベクトル時系列と部分パタンとの最大
類似度Pjを出力する。この場合、標準パタンの最大類
似度Sjは比較的大きな値になるのに対して、部分パタ
ンとの最大類似度Pjは比較的小さな値になる。この結
果、これらの最大類似度の差Sj−Pjは比較的大きな
値(この場合は正の値)になる。
On the other hand, when the voice of "please give two sheets" is input following the above pause, at the end of the voice section, the comparison and collation unit will say "Please give the ticket <pause> two sheets."
The maximum similarity Sj of the standard pattern with respect to the feature vector time series and the maximum similarity Pj between the same feature vector time series and the partial pattern are output. In this case, the maximum similarity Sj of the standard pattern has a relatively large value, whereas the maximum similarity Pj with the partial pattern has a relatively small value. As a result, the difference Sj-Pj between these maximum similarities becomes a relatively large value (in this case, a positive value).

【0028】従って、(Si−Pi)と(Sj−Pj)
とが分類できるようにあらかじめ適当な閾値を設定して
おくことによって、「その切符を」までが入力された時
点においては入力終了判定部は音声入力終了信号を出力
せず、一方、「その切符を<ポーズ>2枚下さい」まで
が入力された時点で即座に音声入力終了信号を出力する
ことが可能である。この結果、第1の発明と同様に、ポ
ーズが含まれる入力音声に対しても、ポーズの位置では
音声認識の処理を終了することなく、かつ文を最後まで
入力した時点で即座に認識結果を出力することが可能に
なる。
Therefore, (Si-Pi) and (Sj-Pj)
By setting an appropriate threshold value in advance so that it can be classified, the input end determination unit does not output the voice input end signal at the time when "the ticket" is input, while the "the ticket" When <2><pause> please input>, a voice input end signal can be output immediately. As a result, similarly to the first aspect, even for an input voice including a pause, the voice recognition processing is not terminated at the position of the pause, and the recognition result is immediately generated when the sentence is completely input. It becomes possible to output.

【0029】なお、例えば類似度を確率値で表現してい
る場合には、最大類似度の差を求めるよりも、比を求め
る方がよい。
When the similarity is represented by a probability value, for example, it is better to calculate the ratio than to calculate the difference between the maximum similarities.

【0030】第3の発明では、第1のリジェクト部にお
いて、入力終了判定部が入力終了か否かの判定を行なっ
たときに、入力音声と標準パタン中の部分パタンとの最
大類似度が閾値よりも小さい場合にリジェクト信号を発
生する。
In the third invention, when the input rejection unit determines whether or not the input is completed in the first reject unit, the maximum similarity between the input voice and the partial pattern in the standard pattern is determined by the threshold value. If it is smaller than the above, a reject signal is generated.

【0031】すなわち、認識対象以外の音声を入力した
場合には、その音声と標準パタンとの最大類似度は小さ
な値になるため、多くの場合、入力終了判定部は音声入
力終了信号を出すことがなく、引続き音声の入力を待つ
ことになる。そこで第3の発明によれば、認識対象の音
声を入力した場合には、途中のポーズにおいて入力音声
と部分パタンとの最大類似度は比較的大きな値になるの
に対して、認識対象以外の音声を入力した場合には、そ
の入力音声と標準パタンとの最大類似度が一般に小さな
値になる。従って、適当な閾値を定めておくことによっ
て、即座にリジェクト信号を出力することができる。
That is, when a voice other than the recognition target is input, the maximum similarity between the voice and the standard pattern has a small value, and therefore, in many cases, the input end determination unit outputs a voice input end signal. And waits for voice input. Therefore, according to the third aspect, when a speech to be recognized is input, the maximum similarity between the input speech and the partial pattern in the pause in the middle becomes a relatively large value, whereas the maximum similarity between the input speech and the partial pattern is relatively large. When a voice is input, the maximum similarity between the input voice and the standard pattern generally has a small value. Therefore, by setting an appropriate threshold, a reject signal can be output immediately.

【0032】第4の発明では、第2のリジェクト部にお
いて、入力終了判定部が入力終了か否かの判定を行なっ
たときに、入力音声に対する標準パタンの最大類似度と
標準パタン中の部分パタンとの最大類似度との差または
比が閾値よりも小さい場合にリジェクト信号を発生す
る。
In the fourth invention, the maximum resemblance of the standard pattern with respect to the input voice and the partial pattern in the standard pattern are determined when the input end determining unit determines whether or not the input is completed in the second reject unit. A reject signal is generated when the difference or ratio between the maximum similarity and the ratio is smaller than a threshold value.

【0033】すなわち、認識対象以外の音声が正しく入
力された場合には、途中のポーズにおいては入力音声と
部分パタンとの類似度が比較的大きくなるため、標準パ
タンの最大類似度Siと部分パタンの最大類似度Piと
の差Si−Piは前述のように比較的小さな値あるいは
負の値になるのに対して、認識対象以外の音声が入力さ
れた場合には入力パタンに対して部分パタンの類似度が
とりわけ大きくなるこことはなく、Si−Piはそれほ
ど小さな値にはならない。そこで、適当に閾値を定めて
おくことによって、認識対象以外の音声が入力された場
合には即座にリジェクト信号を出力することが可能にな
る。
That is, when a voice other than the recognition target is correctly input, the similarity between the input voice and the partial pattern becomes relatively large in the middle pause, so that the maximum similarity Si of the standard pattern and the partial pattern Is a relatively small value or a negative value as described above, whereas if a speech other than the recognition target is input, the partial pattern is compared with the input pattern. Is not particularly large, and Si-Pi does not have a very small value. Therefore, by appropriately setting the threshold value, it is possible to immediately output a reject signal when a voice other than the recognition target is input.

【0034】第5の発明では、入力終了判定部が音声入
力終了信号を出力した場合に、そのときの最大類似度を
与える標準パタンと同じ単語列、音節列などの部分パタ
ンがあるならば、その時点では認識結果の出力を一旦延
期し、一定の時間が経過したのちに改めて音声入力信号
を出すことによって認識結果を出力するようにしてい
る。
In the fifth invention, when the input end determining section outputs a speech input end signal, if there is a partial pattern such as a word string or a syllable string which is the same as the standard pattern giving the maximum similarity at that time, At that time, the output of the recognition result is temporarily postponed, and the recognition result is output by outputting a voice input signal again after a certain time has elapsed.

【0035】例えば、標準パタンとして「はい、現金で
お願いします」、「はい、現金で2枚下さい」、「は
い、現金で」、が登録されており、また部分パタンとし
て「はい、現金で」が登録されているとする。このとき
に、「はい、現金で<ポーズ>2枚下さい」という音声
が入力されたとすると、「はい、現金で」までが入力さ
れた時点において、入力音声に対して標準パタン「は
い、現金で」が比較的大きな値の最大類似度を与える。
しかしながら、もしこの時点で認識処理を終了して認識
結果を出力すると、この後に入力される「2枚下さい」
を認識することができず、誤った認識結果を出力してし
まう。そこで、最大類似度を与える標準パタンと同じ部
分パタンがある場合にはある一定の時間が経過するまで
認識結果の出力を延期する。これによって、「はい、現
金で」の後のポーズに続いて「2枚下さい」が入力され
た場合にも全体の入力を正しく認識することができる。
かつ、入力音声が「はい、現金で」だけある場合にも、
一定時間の経過後に認識結果を出力することができる。
For example, “Yes, please give me cash”, “Yes, please give me 2 pieces of cash”, and “Yes, cash” are registered as standard patterns, and “Yes, please give me cash” as partial patterns. Is registered. At this time, assuming that a voice of "Yes, please give me two <pause> with cash" is input, and when "Yes, with cash" is input, a standard pattern "Yes, with cash" Gives a relatively large value of maximum similarity.
However, if the recognition process is terminated at this point and the recognition result is output, the "2 sheets please" input after this will be input.
Cannot be recognized, and an incorrect recognition result is output. Therefore, if there is a partial pattern that is the same as the standard pattern that gives the maximum similarity, the output of the recognition result is postponed until a certain time elapses. As a result, the entire input can be correctly recognized even when "Please two" is input after the pose after "Yes, with cash".
And when the input voice is only "Yes, cash",
The recognition result can be output after a certain time has elapsed.

【0036】第6の発明では、単語、音節、半音節など
の認識単位をあらかじめ定めた順序で結合したパタンと
入力信号の音声区間との類似度を参照類似度として求
め、入力終了判定部が入力終了か否かの判定を行なった
ときに、この参照類似度が閾値よりも小さい値ならばリ
ジェクト信号を出力する。
In the sixth aspect, the similarity between a pattern in which recognition units such as words, syllables, and syllables are combined in a predetermined order, and the speech section of the input signal are obtained as a reference similarity. When it is determined whether the input has been completed or not, if the reference similarity is smaller than the threshold, a reject signal is output.

【0037】音声以外のノイズ音のように、想定してい
ない音が入力された場合には、その音の終端時点におい
て認識対象の標準パタンとの類似度は比較的小さな値に
なるために入力終了判定部では音声入力が終了したと判
定することができず、このままでは次の音声の入力を待
つことになる。一方、音節あるいは半音節を任意の音節
列を許すような順序で結合したパタンと音声以外のノイ
ズ音との類似度は比較的小さな値になる。そこで、適当
な閾値を設定しておくことによって、ノイズ音が入力さ
れた場合には即座にリジェクト信号を出力することがで
きる。
When an unexpected sound such as a noise sound other than a sound is input, the similarity with the standard pattern to be recognized becomes relatively small at the end of the sound. The end determination unit cannot determine that the voice input has ended, and waits for the input of the next voice as it is. On the other hand, the similarity between a pattern in which syllables or semisyllables are combined in an order that allows an arbitrary syllable string and a noise sound other than speech has a relatively small value. Therefore, by setting an appropriate threshold value, a reject signal can be output immediately when a noise sound is input.

【0038】なお、参照類似度の計算には比較照合部に
おける類似度の計算と同様の方法を用いることができ
る。
The calculation of the reference similarity can be performed by the same method as the calculation of the similarity in the comparison / collation unit.

【0039】第7発明では、標準パタンを構成する特徴
ベクトルと入力信号の特徴ベクトルとのベクトル間類似
度の累積値を求め、入力終了判定部で入力終了か否かの
判定を行なったときに、そのベクトル間類似度累積値が
閾値よりも小さな値である場合にリジェクト信号を出力
する。
In the seventh invention, the cumulative value of the inter-vector similarity between the feature vector constituting the standard pattern and the feature vector of the input signal is obtained, and when the input end determining unit determines whether or not the input has been completed, And outputs a reject signal when the inter-vector similarity cumulative value is smaller than the threshold value.

【0040】すなわち、標準パタンを構成する特徴ベク
トルは一般に人の音声を構成する特徴ベクトルであるか
ら、もし音声以外のノイズ音が入力された場合にはベク
トル間類似度累積値は比較的小さな値になる。従って、
第6の発明と同様に、適当な閾値を設定しておくことに
よって、ノイズ音が入力された場合には即座にリジェク
ト信号を出力することができる。
That is, since the feature vectors constituting the standard pattern are generally feature vectors constituting a human voice, if noise noise other than voice is input, the inter-vector similarity cumulative value is a relatively small value. become. Therefore,
As in the sixth aspect, by setting an appropriate threshold value, a reject signal can be output immediately when a noise sound is input.

【0041】第8発明では、入力終了判定部で入力終了
か否かの判定を行なった時点で、あらかじめ用意したノ
イズ音のパタンと入力信号との類似度を求め、その類似
度が閾値よりも大きい場合にリジェクト信号を出力す
る。
In the eighth invention, when the input end determining section determines whether or not the input has been completed, the similarity between the pattern of the noise sound prepared in advance and the input signal is obtained, and the similarity is smaller than the threshold value. Outputs a reject signal if larger.

【0042】この結果、音声以外のノイズ音のように想
定していない音が入力され、その音の終端時点において
認識対象の標準パタンとの類似度は比較的小さな値にな
るために入力終了判定部では音声入力が終了したと判定
することができない場合においても、即座にリジェクト
信号を出力することができる。
As a result, a sound that is not assumed, such as a noise sound other than a sound, is input. At the end of the sound, the similarity with the standard pattern to be recognized becomes a relatively small value. The unit can immediately output a reject signal even when it is not possible to determine that the voice input has ended.

【0043】第9発明では、入力終了判定部において音
声入力終了を判定するための閾値、およびリジェクト部
においてリジェクトを判定するための閾値を、音声区間
の終端時点から判定時点までの経過時間、すなわち判定
時点までのポーズの継続時間によって変化させる。この
場合には、音声区間の終端時点以降の複数個の時点にお
いて入力終了判定およびリジェクション判定を行なう。
According to the ninth aspect, the threshold value for determining the end of the voice input in the input end determination unit and the threshold value for determining the rejection in the reject unit are determined by the elapsed time from the end point of the voice section to the determination point, that is, It is changed according to the duration of the pause up to the determination time. In this case, the input end determination and the rejection determination are performed at a plurality of times after the end of the voice section.

【0044】すなわち、ポーズの継続時間が短い場合に
はポーズの後に引続き音声が入力される可能性が高いた
め、音声入力終了判定のための閾値は音声入力が終了し
たという判定が比較的出にくいように変化させ、リジェ
クト判定のための閾値を比較的リジェクトしにくいよう
な値に変化させる。一方、ポーズの継続時間が長い場合
には引続き音声が入力される可能性が幾分低くなること
から、音声入力終了判定のための閾値は音声入力が終了
したという判定が比較的出やすいように変化させ、リジ
ェクト判定のための閾値を比較的リジェクトしやすい値
に変化させる。この結果、音声入力の途中にポーズをお
いた場合に、認識対象の音声が入力された場合には長い
ポーズをおいてもリジェクトせずに次の音声を受け付け
ることができる。他方、認識対象以外の音声あるいはノ
イズ音が入力された場合には短いポーズでもすみやかに
リジェクトしたり、認識処理を終了することができる。
That is, if the duration of the pause is short, there is a high possibility that a voice will be continuously input after the pause, so that it is relatively difficult to determine that the voice input has ended as the threshold value for the voice input end determination. The threshold for reject determination is changed to a value that makes it relatively difficult to reject. On the other hand, if the duration of the pause is long, the possibility of continuous voice input is somewhat lower, so the threshold value for voice input end determination is set so that it is relatively easy to determine that voice input has ended. The threshold value for reject determination is changed to a value that is relatively easy to reject. As a result, if a pause is set during voice input and a voice to be recognized is input, the next voice can be accepted without rejecting even if a long pause is set. On the other hand, when a voice or noise sound other than the recognition target is input, it is possible to quickly reject even a short pause or end the recognition processing.

【0045】第10発明では、入力終了判定部で入力終
了か否かの判定を行なった時点からあらかじめ定められ
た経過時間内に、次の音声区間が始まらない場合にリジ
ェクト信号を出力する。これによって、音声入力が途中
で中断された場合に、そのまま次の音声入力を待ち続け
ることなく、リジェクト信号を出力することができる。
According to the tenth aspect, a reject signal is output when the next voice section does not start within a predetermined elapsed time from the time when the input completion determination section determines whether or not the input has been completed. Thus, when the voice input is interrupted on the way, the reject signal can be output without waiting for the next voice input.

【0046】[0046]

【実施例】次に図面を参照して本発明を詳細に説明す
る。図1は本発明の一実施例を示す図である。図1の実
施例の動作について説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be described in detail with reference to the drawings. FIG. 1 shows an embodiment of the present invention. The operation of the embodiment of FIG. 1 will be described.

【0047】入力信号は分析部1に入力され、特徴分析
によって特徴ベクトル時系列に変換される。ここでの分
析には、例えば、文献2の60〜64ページ、および1
55ページに示されているようなLPC分析による方法
を用いることができる。
The input signal is input to the analysis unit 1 and converted into a feature vector time series by feature analysis. The analysis here includes, for example, pages 60 to 64 of Document 2 and 1
A method based on LPC analysis as shown on page 55 can be used.

【0048】特徴ベクトル時系列は音声検出部2に入力
され、このうちのパワー情報を用いて、入力信号中の音
声区間の始端および終端が検出される。このためには、
例えば文献1の68〜70ページに示されている音声検
出の方法を用いることができる。
The feature vector time series is input to the voice detection unit 2, and the start and end of the voice section in the input signal are detected using the power information. To do this,
For example, the voice detection method shown on pages 68 to 70 of Document 1 can be used.

【0049】検出された音声区間の始端位置は特徴ベク
トル時系列とともに比較照合部3に入力され、始端以降
の特徴ベクトル時系列と、あらかじめ登録されている認
識対象の複数の標準パタンとが比較照合される。この結
果、入力信号の各時点における標準パタンの最大類似度
Siが求められる。類似度の計算方法としては文献3に
示されているような方法を用いることができる。比較照
合部3は、入力終了判定部から音声入力終了信号が入力
されるまで、上記の比較照合を行なう。
The detected start position of the speech section is input to the comparison / matching unit 3 together with the feature vector time series, and the feature vector time series after the start end is compared with a plurality of standard patterns registered in advance for recognition. Is done. As a result, the maximum similarity Si of the standard pattern at each time point of the input signal is obtained. As a method of calculating the similarity, a method shown in Reference 3 can be used. The comparison / collation unit 3 performs the comparison / collation until a voice input end signal is input from the input end determination unit.

【0050】なお、標準パタンと入力信号との類似度を
計算する場合には、例えば、特願平3−60786号明
細書「音声認識装置」に述べられているように、話者や
発声環境の影響によって類似度が変動することを防ぐよ
う類似度を補正、あるいは正規化する方法を用いること
によって、より正確な類似度を求めることができる。
When calculating the similarity between the standard pattern and the input signal, for example, as described in Japanese Patent Application No. 3-60786, "Speech Recognition Apparatus," By using a method of correcting or normalizing the similarity so as to prevent the similarity from fluctuating due to the influence of the above, a more accurate similarity can be obtained.

【0051】次に、音声検出部2において音声区間の終
端が検出されたときに、その終端位置が入力終了判定部
4に入力される。入力終了判定部4は、その終端時点に
おける上記標準パタンの最大類似度Siを比較照合部3
から入力し、その最大類似度Siと閾値T1 との大小を
比較する。この結果Si>T1 であれば音声入力信号を
比較照合部3に出力する。Si>T1 でなければ比較照
合部3には何も出力しない。
Next, when the voice detection section 2 detects the end of the voice section, the end position is input to the input end determination section 4. The input end determination unit 4 compares the maximum similarity Si of the standard pattern at the end point with the comparison / matching unit 3.
And compares the maximum similarity Si with the threshold value T1. As a result, if Si> T1, the voice input signal is output to the comparison / matching unit 3. If Si> T1, nothing is output to the comparison / collation unit 3.

【0052】音声入力終了信号が比較照合部3に入力さ
れると、比較照合部3はその時点で最大類似度を与える
標準パタンを認識結果として出力する。
When the voice input end signal is input to the comparison / comparison section 3, the comparison / comparison section 3 outputs a standard pattern giving the maximum similarity at that time as a recognition result.

【0053】このようにして、第1の発明によって、ポ
ーズが含まれる入力音声に対しても、ポーズの位置では
音声認識の処理を終了することなく、かつ文を最後まで
入力した時点で即座に認識結果を出力することが可能に
なる。
As described above, according to the first aspect of the present invention, even for an input voice including a pause, the voice recognition processing is not terminated at the position of the pause, and immediately after the sentence is completely input. It is possible to output a recognition result.

【0054】第2の発明によれば、比較照合部3は入力
信号の各時点において、標準パタンの最大類似度Siと
ともに、標準パタン中の部分パタンの最大類似度Piを
求める。
According to the second aspect of the present invention, the comparison / matching section 3 obtains the maximum similarity Si of the standard pattern and the maximum similarity Pi of the partial pattern in the standard pattern at each time point of the input signal.

【0055】一方、入力終了判定部4は、音声検出部2
において音声区間の終端が検出されたときに、その終端
時点における上記標準パタンの最大類似度Siと部分パ
タンの最大類似度Piとを比較照合部3から受け取り、
それらの差Si−Piと閾値T2 との大小を比較する。
この結果Si−Pi>T2 であれば音声入力終了信号を
比較照合部3に出力する。そうでなければ比較照合部3
には何も出力しない。
On the other hand, the input end determination section 4
, When the end of the voice section is detected, the maximum similarity Si of the standard pattern and the maximum similarity Pi of the partial pattern at the end point are received from the comparison / matching unit 3;
The difference between the difference Si-Pi and the threshold value T2 is compared.
As a result, if Si-Pi> T2, a voice input end signal is output to the comparison / collation unit 3. Otherwise, the comparison and collation unit 3
Does not output anything.

【0056】このようにして、第1の発明の場合と同様
に、ポーズが含まれる入力音声に対しても、ポーズの位
置では音声認識の処理を終了することなく、かつ文を最
後まで入力した時点で即座に認識結果を出力することが
可能になる。
In this way, as in the first invention, even for an input voice including a pause, the sentence is completely input at the pause position without terminating the speech recognition processing. It becomes possible to output a recognition result immediately at a point in time.

【0057】第3の発明によれば、第1のリジェクト部
7において、入力終了判定部4が入力終了か否かの判定
を行なった時点で、比較照合部3によって求められた標
準パタンの最大類似度Siと閾値T3 の大小を比較し、
Si<T3 ならばリジェクト信号を発生する。
According to the third aspect of the present invention, when the input end determination unit 4 determines whether or not the input is completed in the first reject unit 7, the maximum of the standard pattern obtained by the comparison / matching unit 3 is obtained. Comparing the magnitude of the similarity Si with the threshold T3,
If Si <T3, a reject signal is generated.

【0058】第4の発明によれば、第2のリジェクト部
8において、入力終了判定部4が入力終了か否かの判定
を行なった時点で、比較照合部3によって求められた標
準パタンの最大類似度Siと部分パタンの最大類似度P
iとの差Si−Piと閾値T4 とを比較し、Si−Pi
<T4 ならばリジェクト信号を発生する。
According to the fourth aspect, in the second rejection unit 8, when the input end determination unit 4 determines whether or not the input has ended, the maximum of the standard pattern obtained by the comparison / matching unit 3 is determined. Maximum similarity P between similarity Si and partial pattern
i, the difference Si-Pi is compared with a threshold value T4, and the Si-Pi
If <T4, a reject signal is generated.

【0059】第5の発明によれば、音声入力終了信号は
入力終了判定部4から、比較照合3ではなく、一旦、終
了信号遅延部6に出力される。終了信号遅延部6は、音
声入力終了信号を受け取った時に、比較照合部3から最
大類似度を与える標準パタンを入力する。終了信号遅延
部6はその標準パタンと同じ音節列の部分パタンが存在
するかどうかを調べ、もし存在するならば、あらかじめ
定めた時間が経過したのちに音声入力終了信号を比較照
合部3に出力する。存在しなければ、即時に音声入力終
了信号を比較照合部3に出力する。
According to the fifth aspect, the voice input end signal is output from the input end determination unit 4 to the end signal delay unit 6 instead of the comparison / comparison 3 temporarily. Upon receiving the voice input end signal, the end signal delay unit 6 inputs a standard pattern giving the maximum similarity from the comparison / matching unit 3. The end signal delay unit 6 checks whether a partial pattern of the same syllable string as the standard pattern exists, and if it exists, outputs a speech input end signal to the comparison / matching unit 3 after a predetermined time has elapsed. I do. If it does not exist, an audio input end signal is immediately output to the comparison and collation unit 3.

【0060】第6の発明によれば、入力終了判定部4が
入力終了か否かの判定を行なった時点で、参照類似度計
算部9が、単語、音節、半音節などの認識単位をあらか
じめ定めた順序で結合した複数のパタンと入力信号の音
声区間とを比較照合し、参照類似度Riを出力する。次
に、第3のリジェクト部10が、参照類似度Riと閾値
T5 との大小を比較し、Ri<T5 ならばリジェクト信
号を発生する。
According to the sixth aspect, when the input end determining section 4 determines whether or not the input is completed, the reference similarity calculating section 9 sets the recognition unit such as a word, a syllable, a semi-syllable in advance. A plurality of patterns combined in a predetermined order are compared with a voice section of an input signal, and a reference similarity Ri is output. Next, the third reject unit 10 compares the magnitude of the reference similarity Ri with the threshold value T5, and generates a reject signal if Ri <T5.

【0061】第7の発明によれば、入力終了判定部4が
入力終了か否かの判定を行なった時点で、ベクトル間類
似度計算部11が、認識対象の標準パタンを構成する特
徴ベクトルと入力信号の特徴ベクトルとのベクトル間類
似度の累積値Diを出力する。次に第4のリジェクト部
12が、ベクトル間類似度累積値Diと閾値T6 との大
小を比較し、Di<T6 ならばリジェクト信号を発生す
る。
According to the seventh aspect, when the input end determining unit 4 determines whether or not the input has been completed, the inter-vector similarity calculating unit 11 determines whether the feature vector constituting the standard pattern to be recognized is The cumulative value Di of the similarity between the input signal and the feature vector is output. Next, the fourth reject unit 12 compares the magnitude of the inter-vector similarity cumulative value Di with the threshold value T6, and generates a reject signal if Di <T6.

【0062】第8の発明によれば、入力終了判定部4が
入力終了か否かの判定を行なった時点で、ノイズ類似度
計算部13が、あらかじめ用意したノイズ音のパタンと
入力信号との類似度Niを求める。次に第5のリジェク
ト部14が、類似度Niと閾値T7 との大小を比較し、
Ni>T7 ならばリジェク信号を発生する。
According to the eighth aspect, when the input end determining unit 4 determines whether or not the input has been completed, the noise similarity calculating unit 13 determines whether the input signal has a noise sound pattern prepared in advance. The similarity Ni is obtained. Next, the fifth reject unit 14 compares the magnitude of the similarity Ni with the threshold T7,
If Ni> T7, a reject signal is generated.

【0063】第9の発明によれば、閾値計算部5は、入
力終了判定部4が入力終了か否かの判定を行なう時点
で、音声区間の終端から判定時までの時間を求め、入力
終了判定部4、第1のリジェクト部7、第2のリジェク
ト部8、第3のリジェクト部10、第4のリジェクト部
12、第5のリジェクト部14で用いる閾値T1 ,T
2,T3 ,T4 ,T5 ,T6 ,T7 のそれぞれを、この
経過時間に応じた値に変更する。
According to the ninth aspect, when the input end determining section 4 determines whether or not the input has been completed, the threshold value calculating section 5 obtains the time from the end of the voice section to the time of the determination. Thresholds T1 and T1 used in the determination unit 4, the first reject unit 7, the second reject unit 8, the third reject unit 10, the fourth reject unit 12, and the fifth reject unit 14.
Each of 2, T3, T4, T5, T6, and T7 is changed to a value corresponding to the elapsed time.

【0064】第10の発明によれば、第6リジェクト部
15は、入力終了判定部4が入力終了か否かの判定を行
なった時点からあらかじめ定められた時間経過内に、音
声検出部2が次の音声区間の始端を検出しない場合に、
リジェクト信号を出力する。
According to the tenth aspect, the sixth rejection unit 15 determines that the voice detection unit 2 has been turned on within a predetermined time after the input end determination unit 4 has determined whether or not the input has ended. If the beginning of the next voice segment is not detected,
Outputs a reject signal.

【0065】[0065]

【発明の効果】以上詳しく説明したように本発明によれ
ば、音声入力の際に入力音声の途中に長いポーズを置い
た場合でも入力音声を正しく認識することができ、しか
も音声入力が終了した時点ですみやかに認識結果を出力
することが可能であり、さらに認識対象以外の音声ある
いはノイズ音が入力された時にはすみやかにリジェクト
することができる。
As described above in detail, according to the present invention, the input voice can be correctly recognized even when a long pause is put in the middle of the input voice, and the voice input is completed. Recognition results can be output promptly at a point in time, and rejection can be made promptly when voice or noise other than the recognition target is input.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施例を示す構成図である。FIG. 1 is a configuration diagram showing one embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 分析部 2 音声検出部 3 比較照合部 4 入力終了判定部 5 閾値計算部 6 終了信号遅延部 7 第1のリジェクト部 8 第2のリジェクト部 9 参照類似度計算部 10 第3のリジェクト部 11 ベクトル間類似度計算部 12 第4のリジェクト部 13 ノイズ類似度計算部 14 第5のリジェクト部 15 第6のリジェクト部 Reference Signs List 1 analysis unit 2 voice detection unit 3 comparison and collation unit 4 input end determination unit 5 threshold calculation unit 6 end signal delay unit 7 first reject unit 8 second reject unit 9 reference similarity calculation unit 10 third reject unit 11 Inter-vector similarity calculation unit 12 Fourth reject unit 13 Noise similarity calculation unit 14 Fifth reject unit 15 Sixth reject unit

フロントページの続き (56)参考文献 特開 平5−66787(JP,A) 特開 平4−184396(JP,A) 特開 平3−167600(JP,A) 特開 昭62−211698(JP,A) 特開 昭61−282898(JP,A) 特開 平3−71200(JP,A) 特開 平1−185599(JP,A) 特開 昭63−5394(JP,A) 特開 昭63−97999(JP,A) 特開 平2−178699(JP,A) 特開 平3−122697(JP,A) 特開 平3−122698(JP,A) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 531 G10L 3/00 513 G10L 3/00 561 JICSTファイル(JOIS)Continuation of the front page (56) References JP-A-5-66787 (JP, A) JP-A-4-184396 (JP, A) JP-A-3-167600 (JP, A) JP-A-62-111698 (JP) JP-A-61-282898 (JP, A) JP-A-3-71200 (JP, A) JP-A-1-185599 (JP, A) JP-A-63-5394 (JP, A) 63-97999 (JP, A) JP-A-2-178699 (JP, A) JP-A-3-122697 (JP, A) JP-A-3-1222698 (JP, A) (58) Fields investigated (Int. Cl. 6, DB name) G10L 3/00 531 G10L 3/00 513 G10L 3/00 561 JICST file (JOIS)

Claims (10)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 入力信号を特徴ベクトル時系列に変換す
る分析部と、前記特徴ベクトル時系列のうちのパワー情
報を用いて入力信号中の音声区間の始端および終端を検
出する音声検出部と、前記特徴ベクトル時系列とあらか
じめ登録された標準パタンとを比較照合して、入力信号
の各時点での最大類似度を求めるとともに、音声入力終
了時には最大類似度を与える標準パタンを認識結果とし
て求める比較照合部と、前記音声区間の終端付近の少な
くとも1個のある時点において、前記最大類似度が第1
の閾値よりも大きければ音声入力終了信号を出力する第
1の入力終了判定部とを有する音声認識装置。
An analysis unit configured to convert an input signal into a feature vector time series; a speech detection unit configured to detect a beginning and an end of a speech section in the input signal using power information of the feature vector time series; The feature vector time series is compared with a pre-registered standard pattern to determine the maximum similarity at each point of the input signal, and to obtain a standard pattern that gives the maximum similarity as a recognition result at the end of voice input. A matching unit, wherein at least one point near the end of the voice section has the maximum similarity of the first
And a first input end determination unit that outputs a voice input end signal when the input end end is greater than a threshold value.
【請求項2】 入力信号を特徴ベクトル時系列に変換す
る分析部と、前記特徴ベクトル時系列のうちのパワー情
報を用いて入力信号中の音声区間の始端および終端を検
出する音声検出部と、前記特徴ベクトル時系列とあらか
じめ登録された標準パタンとを比較照合して、入力信号
の各時点での最大類似度を求めるとともに、音声入力終
了時には最大類似度を与える標準パタンを認識結果とし
て求める比較照合部と、前記音声区間の終端付近の少な
くとも1個のある時点において、前記標準パタンの最大
類似度と前記標準パタン中の部分パタンの最大類似度と
の差または比が第2の閾値よりも大きければ音声入力終
了信号を出力する第2の入力終了判定部とを有する音声
認識装置。
2. An analysis unit for converting an input signal into a feature vector time series, a speech detection unit for detecting the start and end of a speech section in the input signal using power information of the feature vector time series, The feature vector time series is compared with a pre-registered standard pattern to determine the maximum similarity at each point of the input signal, and to obtain a standard pattern that gives the maximum similarity as a recognition result at the end of voice input. A comparison unit, and at least one point in time near the end of the voice section, wherein a difference or ratio between a maximum similarity of the standard pattern and a maximum similarity of partial patterns in the standard pattern is smaller than a second threshold. A second input end determination unit that outputs a voice input end signal if the input is larger.
【請求項3】 前記入力終了判定部での判定時におい
て、前記標準パタン中の部分パタンの最大類似度が第3
の閾値よりも小さければリジェクト信号を出力する第1
のリジェクト部を有する請求項1又は2に記載の音声認
識装置。
3. The method according to claim 1, wherein the maximum similarity of the partial pattern in the standard pattern is a third similarity at the time of determination by the input end determination unit.
Output a reject signal if smaller than the threshold
The voice recognition device according to claim 1, further comprising a reject unit.
【請求項4】 前記入力終了判定部での判定時におい
て、前記標準パタンの最大類似度と前記標準パタン中の
部分パタンの最大類似度との差または比が第4の閾値よ
りもの小さければリジェクト信号を出力する第2のリジ
ェクト部を有する請求項1又は2にに記載の音声認識装
置。
4. When the difference or ratio between the maximum similarity of the standard pattern and the maximum similarity of a partial pattern in the standard pattern is smaller than a fourth threshold value at the time of determination by the input end determination unit, rejection is performed. The speech recognition device according to claim 1, further comprising a second reject unit that outputs a signal.
【請求項5】 前記入力終了判定部が音声入力終了信号
を出力した場合に、前記最大類似度を与える標準パタン
と同じ部分パタンが存在するならば、その時点から一定
の時間が経過したのちに改めて音声入力終了信号を出力
する終了信号遅延部を有する請求項1乃至4に記載の音
声認識装置。
5. When the input end determination unit outputs a voice input end signal, if there is a partial pattern that is the same as the standard pattern that gives the maximum similarity, after a certain time has elapsed from that point in time. 5. The speech recognition device according to claim 1, further comprising an end signal delay unit for outputting a speech input end signal again.
【請求項6】 認識単位の標準パタンをあらかじめ定め
た順序で結合したパタンと前記音声区間の特徴ベクトル
時系列との類似度の最大値を参照類似度として求める参
照類似度計算部と、前記入力終了判定部での判定時にお
いて前記参照類似度が第5の閾値よりも小さい場合にリ
ジェクト信号を出力する第3のリジェクト部とを有する
請求項1乃至5に記載の音声認識装置。
6. A reference similarity calculating unit for obtaining, as a reference similarity, a maximum similarity between a pattern obtained by combining standard patterns of recognition units in a predetermined order and a feature vector time series of the speech section; The speech recognition device according to claim 1, further comprising a third reject unit that outputs a reject signal when the reference similarity is smaller than a fifth threshold value at the time of the determination by the end determination unit.
【請求項7】 前記標準パタンを構成する特徴ベクトル
と前記音声区間の特徴ベクトル時系列中の特徴ベクトル
とのベクトル間類似度の累積値を求めるベクトル間類似
度計算部と、入力終了判定部での判定において前記参照
類似度が第6の閾値よりも小さい場合にリジェクト信号
を出力する第4のリジェクト部とを有する請求項1乃至
6に記載の音声認識装置。
7. An inter-vector similarity calculation unit for obtaining an accumulated value of inter-vector similarity between a feature vector constituting the standard pattern and a feature vector in a feature vector time series of the voice section, and an input end determination unit. 7. The speech recognition device according to claim 1, further comprising: a fourth reject unit configured to output a reject signal when the reference similarity is smaller than a sixth threshold value in the determination.
【請求項8】 ノイズ音のパタンと前記音声区間の始端
以降の特徴ベクトル時系列との類似度を求めるノイズ類
似度計算部と、前記入力終了判定部での判定において前
記ノイズ類似度が第7の閾値よりも大きい場合にリジェ
クト信号を出力する第5のリジェクト部とを有する請求
項1乃至7に記載の音声認識装置。
8. A noise similarity calculating section for calculating a similarity between a pattern of a noise sound and a feature vector time series after the beginning of the voice section, and the noise similarity is determined to be 7th in the input end determining section. The speech recognition apparatus according to claim 1, further comprising: a fifth rejection unit that outputs a rejection signal when the value is larger than the threshold value.
【請求項9】 前記音声区間の終端から経過時間に従っ
て前記第1、第2、第3、第4、第5、第6および第7
の閾値を変化させる閾値計算部を有する請求項1乃至8
に記載の音声認識装置。
9. The method according to claim 1, wherein the first, second, third, fourth, fifth, sixth, and seventh elapses from the end of the voice section.
10. A threshold calculator for changing a threshold value of the threshold value.
A speech recognition device according to claim 1.
【請求項10】 前記入力終了判定部での判定時からの
経過時間を計測する経過時間計測部と、あらかじめ定め
られた経過時間内に前記音声検出部が次の音声区間の始
端を検出しない場合にリジェクト信号を出力する第6の
リジェクト部とを有する請求項1乃至9に記載の音声認
識装置。
10. An elapsed time measuring section for measuring an elapsed time from the time of determination by the input end determining section, and a case where the voice detecting section does not detect a start end of a next voice section within a predetermined elapsed time. The speech recognition apparatus according to any one of claims 1 to 9, further comprising a sixth reject unit that outputs a reject signal.
JP4216418A 1992-07-22 1992-07-22 Voice recognition device Expired - Lifetime JP2996019B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4216418A JP2996019B2 (en) 1992-07-22 1992-07-22 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4216418A JP2996019B2 (en) 1992-07-22 1992-07-22 Voice recognition device

Publications (2)

Publication Number Publication Date
JPH0643895A JPH0643895A (en) 1994-02-18
JP2996019B2 true JP2996019B2 (en) 1999-12-27

Family

ID=16688258

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4216418A Expired - Lifetime JP2996019B2 (en) 1992-07-22 1992-07-22 Voice recognition device

Country Status (1)

Country Link
JP (1) JP2996019B2 (en)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3004883B2 (en) * 1994-10-18 2000-01-31 ケイディディ株式会社 End call detection method and apparatus and continuous speech recognition method and apparatus
JP3581752B2 (en) * 1995-10-09 2004-10-27 株式会社リコー Voice recognition device and voice recognition method
KR970071462A (en) * 1996-04-15 1997-11-07 김광호 Method for rejecting recognition result in speech recognition system
JP3578587B2 (en) * 1997-03-28 2004-10-20 株式会社リコー Voice recognition device and voice recognition method
JP2006133284A (en) * 2004-11-02 2006-05-25 Kddi Corp Voice information extracting device
WO2011070972A1 (en) * 2009-12-10 2011-06-16 日本電気株式会社 Voice recognition system, voice recognition method and voice recognition program
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
KR101986354B1 (en) * 2017-05-19 2019-09-30 네이버 주식회사 Speech-controlled apparatus for preventing false detections of keyword and method of operating the same
JP7096199B2 (en) * 2019-05-16 2022-07-05 ヤフー株式会社 Information processing equipment, information processing methods, and programs

Also Published As

Publication number Publication date
JPH0643895A (en) 1994-02-18

Similar Documents

Publication Publication Date Title
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US6618702B1 (en) Method of and device for phone-based speaker recognition
US5025471A (en) Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
US6553342B1 (en) Tone based speech recognition
CN100587806C (en) Speech recognition method and apparatus thereof
JPS62217295A (en) Voice recognition system
JPS62232691A (en) Voice recognition equipment
JP2996019B2 (en) Voice recognition device
JP5342629B2 (en) Male and female voice identification method, male and female voice identification device, and program
JP2745562B2 (en) Noise adaptive speech recognizer
KR100391123B1 (en) speech recognition method and system using every single pitch-period data analysis
JP2000250593A (en) Device and method for speaker recognition
US6438521B1 (en) Speech recognition method and apparatus and computer-readable memory
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
JP2813209B2 (en) Large vocabulary speech recognition device
JP3114757B2 (en) Voice recognition device
JP2000214879A (en) Adaptation method for voice recognition device
JP3357752B2 (en) Pattern matching device
JP3110025B2 (en) Utterance deformation detection device
Aye Speech recognition using Zero-crossing features
JPH0997095A (en) Speech recognition device
JP3031081B2 (en) Voice recognition device
Sahu et al. Odia isolated word recognition using DTW
JPH0316038B2 (en)
JP2004309654A (en) Speech recognition apparatus

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990928

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071029

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081029

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091029

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091029

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101029

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111029

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121029

Year of fee payment: 13

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121029

Year of fee payment: 13