JPH09258765A - Voice interval start end correcting method and device for voice recognition, and voice recognizing method - Google Patents

Voice interval start end correcting method and device for voice recognition, and voice recognizing method

Info

Publication number
JPH09258765A
JPH09258765A JP8068230A JP6823096A JPH09258765A JP H09258765 A JPH09258765 A JP H09258765A JP 8068230 A JP8068230 A JP 8068230A JP 6823096 A JP6823096 A JP 6823096A JP H09258765 A JPH09258765 A JP H09258765A
Authority
JP
Japan
Prior art keywords
sentence
section
input signal
voice
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8068230A
Other languages
Japanese (ja)
Other versions
JP3428805B2 (en
Inventor
Masaki Naito
正樹 内藤
Shingo Kuroiwa
眞吾 黒岩
Seiichi Yamamoto
誠一 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
Kokusai Denshin Denwa KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kokusai Denshin Denwa KK filed Critical Kokusai Denshin Denwa KK
Priority to JP06823096A priority Critical patent/JP3428805B2/en
Publication of JPH09258765A publication Critical patent/JPH09258765A/en
Application granted granted Critical
Publication of JP3428805B2 publication Critical patent/JP3428805B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To exclude unsteady noise, detected as a voice interval by mistake, from an object to be recognized by detecting unsteady noise, and correcting the start end of the voice interval. SOLUTION: A sound analysis result delay part 2 delays a sound analysis result 1A, sent from a sound analyzing part 1, by the specified time and sends its result 2A to a word collating part 7 and a noise detecting part 13. A partial sentence generating part 9 obtains each partial sentence and each collating score from a word collated result 7A sent from the word collating part 7 and sends its result 9A to a word predicting part 6, a recognized result output part 10 and the noise detecting part 13. The noise detecting part 13 detects unsteady noise on the basis of the collation score and sentence structure analysis result of the partial sentence, the interval length of an input signal judged to be coincident with a silent standard pattern, and the adaptation of the input signal to the partial sentence. A voice interval detecting switch 11 connects with the start end detecting part 3 side upon receiving a noise detection signal 13A from the noise detecting part 13.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、音声認識のための
音声区間検出において、音声区間として誤検出された非
定常雑音を認識対象から除外するために音声区間始端の
補正を行う方法及び装置並びにこの方法を用いた音声認
識方法に関し、特に音声言語によるマン・マシンインタ
フェースにおける音声認識の精度向上に有用なものであ
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method and apparatus for correcting the start of a voice section in order to exclude non-stationary noise erroneously detected as a voice section from a recognition target in voice section detection for voice recognition. A voice recognition method using this method is particularly useful for improving the accuracy of voice recognition in a man-machine interface by a voice language.

【0002】[0002]

【従来の技術】従来の音声認識装置では、音声信号が入
力された際に、入力信号のパワ−等を基にして音声区間
の始端と終端を検出し、その結果得られる音声区間にお
いて単語標準パタンを文法規則に基づいて連続的に入力
信号と照合することにより、音声を認識するようになっ
ている。
2. Description of the Related Art In a conventional voice recognition apparatus, when a voice signal is input, the start and end of the voice section are detected based on the power of the input signal, and the word standard is obtained in the resulting voice section. The voice is recognized by continuously matching the pattern with the input signal based on the grammatical rules.

【0003】文法規則は人が発声する文を想定して、文
中に現れる通常の単語と、単語の間や前後に生じる無音
(ポーズ)とを、認識に用いるために予め各種組み合わ
せたものである。単語標準パタンには本来の単語に対応
する標準パタンと、無音に対応する標準パタン(無音標
準パタン)とがある。無音といっても全く音が無い状態
は事実上殆ど無く、例えば電話回線上のホワイトノイズ
等の定常的な雑音(以下、定常雑音)が存在するので、
通常は、認識対象環境等での定常雑音が無音として扱わ
れる。
Grammar rules are based on the assumption that a sentence is uttered by a person, and various combinations of ordinary words appearing in the sentence and silences (pauses) occurring between and before and after the word are used in combination for recognition. . The word standard pattern includes a standard pattern corresponding to the original word and a standard pattern corresponding to silence (silent standard pattern). Even if it is silent, there is practically no sound at all, and there is stationary noise (hereinafter, stationary noise) such as white noise on the telephone line.
Normally, stationary noise in the environment to be recognized is treated as silence.

【0004】従って、音声認識の上では無音も認識対象
なので単語の一種であると考えられるから、特に断らな
い限り、単語という場合は無音も含み、また単語標準パ
タンと言う場合は無音標準パタンも含むものとする。
Therefore, in speech recognition, since silence is a recognition target and is considered to be a type of word, unless otherwise noted, a word includes silence, and a word standard pattern includes a silence standard pattern. Shall be included.

【0005】この種の従来の音声認識装置は、図10に
示すように、音響分析部1と、音響分析結果遅延部2
と、始端検出部3と、終端検出部4と、文法規則格納部
5と、単語予測部6と、単語照合部7と、単語標準パタ
ン格納部8と、部分文生成部9と、認識結果出力部10
と、音声区間検出用スイッチ11と、パワ−計算部12
から構成され、主として中央処理装置(CPU)とソフ
トウェアにより実現されている。
As shown in FIG. 10, a conventional voice recognition device of this type has an acoustic analysis unit 1 and an acoustic analysis result delay unit 2.
A starting point detecting section 3, an ending detecting section 4, a grammar rule storing section 5, a word predicting section 6, a word matching section 7, a word standard pattern storing section 8, a partial sentence generating section 9, and a recognition result. Output unit 10
A voice section detection switch 11 and a power calculation unit 12
And is mainly realized by a central processing unit (CPU) and software.

【0006】図10において、文法規則格納部5には認
識に用いる各種の文法規則を予め格納し、また、単語標
準パタン格納部8には各種の単語標準パタンを予め格納
する。音声区間検出用スイッチ11は予め、始端検出部
3側に接続される。このような前提の下で、図10の音
声認識装置は以下に示す手順(1)〜(9)に従い音声
認識を行う。
In FIG. 10, various grammatical rules used for recognition are stored in advance in the grammatical rule storage unit 5, and various standard word patterns are stored in the standard word pattern storage unit 8. The voice section detection switch 11 is connected in advance to the start end detection unit 3 side. Under such a premise, the voice recognition device of FIG. 10 performs voice recognition according to the following procedures (1) to (9).

【0007】(1)パワー計算部12は、装置の起動後
入力信号のパワーを逐次計算し、その結果12Aを音声
区間検出用スイッチ11を通して始端検出部3に送る。
(1) The power calculation unit 12 sequentially calculates the power of the input signal after the device is activated, and sends the result 12A to the start end detection unit 3 through the voice section detection switch 11.

【0008】ここで音声区間検出用スイッチ11は、前
述のとおり最初は始端検出部3に接続しておくものと
し、以後、始端検出部3から始端検出信号3Aを受け取
った時点で終端検出部4に接続し、終端検出部4から終
端検出信号4Aを受け取った時点で始端検出部3側に接
続を戻し、それぞれ接続した側にパワ−の計算結果12
Aを送る。
Here, the voice section detecting switch 11 is initially connected to the starting end detecting section 3 as described above, and thereafter, when the starting end detecting signal 3A is received from the starting end detecting section 3, the ending detecting section 4 is detected. , And when the end detection signal 4A is received from the end detection unit 4, the connection is returned to the start end detection unit 3 side, and the power calculation result 12 is calculated for each connected side.
Send A.

【0009】(2)始端検出部3はパワ−計算部12か
ら送られてくるパワ−を、図11に示すように始端検出
用の閾値TH1 と逐次比較し、閾値TH1 を越えた状態
が予め定めた時間t2 以上継続した時点で、始端検出信
号3Aを音声区間検出用スイッチ11及び単語予測部6
に送る。
(2) The leading edge detecting section 3 sequentially compares the power sent from the power calculating section 12 with a threshold TH1 for detecting the leading edge, as shown in FIG. At the time when the predetermined time t2 or more continues, the start end detection signal 3A is set to the voice section detection switch 11 and the word prediction unit 6
Send to

【0010】(3)一方、終端検出部4はパワ−計算部
12から送られてくるパワ−を、図11に示すように終
端検出用の閾値TH2 と逐次比較し、閾値TH2 以下の
値をとる状態が予め定めた時間t3 以上継続した時点
で、パワ−が最初に閾値TH2 以下となった時点から時
間t4 後までの照合をも行うように、終端検出信号4A
を音声区間検出用スイッチ11、単語予測部6及び認識
結果出力部10に送る。
(3) On the other hand, the end detection unit 4 successively compares the power sent from the power calculation unit 12 with the end detection threshold TH2 as shown in FIG. At the time when the state to be taken continues for a predetermined time t3 or longer, the end detection signal 4A is set so as to perform the collation from the time when the power first becomes the threshold value TH2 or less to the time t4.
Is sent to the voice section detection switch 11, the word prediction section 6 and the recognition result output section 10.

【0011】(4)音響分析部1は入力信号の特徴パラ
メ−タを抽出するための音響分析を逐次行い、その結果
1Aを音響分析結果遅延部2に送る。
(4) The acoustic analysis unit 1 sequentially performs acoustic analysis for extracting characteristic parameters of the input signal, and sends the result 1A to the acoustic analysis result delay unit 2.

【0012】(5)音響分析結果遅延部2は音響分析部
1から送られる音響分析結果1Aを、始端検出誤りを避
けるために設定されるマ−ジン時間t1 (図11参照)
の分だけ遅延させ、その結果2Aを単語照合部7に送
る。
(5) The acoustic analysis result delay unit 2 sets a margin time t1 (see FIG. 11) for the acoustic analysis result 1A sent from the acoustic analysis unit 1 so as to avoid a start end detection error.
And the result 2A is sent to the word matching unit 7.

【0013】(6)単語予測部6では、部分文生成部9
から送られてくる部分文照合結果(各部分文とそれぞれ
の照合スコア)9Aと、文法規則格納部5に格納された
文法規則5Aとから、単語照合部7で次に照合すべき単
語即ち照合単語6Aを1つまたは複数推定し、単語照合
部7に送る。
(6) In the word prediction unit 6, the partial sentence generation unit 9
From the sub-sentence matching result (each sub-sentence and each matching score) 9A and the grammar rule 5A stored in the grammar rule storage unit 5, the word matching unit 7 matches the next word, that is, the matching. One or a plurality of words 6A are estimated and sent to the word matching unit 7.

【0014】この単語予測部6の処理は、始端検出部3
より始端検出信号3Aを受け取った時点から開始され、
終端検出部4より終端検出信号4Aを受け取るまで継続
する。
The processing of the word predicting section 6 is performed by the starting point detecting section 3
Starting from the time when the leading edge detection signal 3A is received,
It continues until the end detection signal 4A is received from the end detection unit 4.

【0015】(7)単語照合部7は単語予測部6から受
け取った照合単語6Aに対応する単語標準パタン即ち照
合単語標準パタン8Aを単語標準パタン格納部8から読
み出して、得られた照合単語標準パタン8Aと遅延され
た音響分析結果2Aとを照合し、単語標準パタンの終わ
りまで照合を行った単語についてその結果即ち単語照合
結果7Aを部分文生成部9に送る。
(7) The word collating unit 7 reads out the word standard pattern corresponding to the collating word 6A received from the word predicting unit 6, that is, the collating word standard pattern 8A from the word standard pattern storing unit 8 and obtains the collating word standard. The pattern 8A is collated with the delayed acoustic analysis result 2A, and the result, that is, the word collation result 7A is sent to the sub-sentence generation unit 9 for the word that has been collated up to the end of the word standard pattern.

【0016】なお、単語照合部7において照合の際に用
いる照合スコアの計算法としては、周知の如くDPマッ
チングや隠れマルコフモデル(HMM)を用いる方法等
がある。(中川聖一著「確率モデルによる音声認識」参
照)
As a well-known method of calculating the matching score in the word matching unit 7, DP matching, a hidden Markov model (HMM), or the like is used. (Refer to Seiichi Nakagawa, "Speech Recognition by Stochastic Model")

【0017】単語の予測及び照合が進むに連れて、各時
刻で照合された単語を文法規則に従い並べることにより
得られる文の一部即ち部分文が得られ、また、部分文毎
の照合スコアを計算することができる。
As word prediction and matching progress, part of the sentence obtained by arranging the matched words at each time according to grammatical rules, that is, a partial sentence, is obtained, and the matching score for each partial sentence is calculated. Can be calculated.

【0018】(8)そこで、部分文生成部9は、単語照
合部7より送られてくる単語照合結果7Aから各部分文
とそれぞれの照合スコアを求め、その結果9Aを単語予
測部6及び認識結果出力部10に送る。
(8) Then, the sub-sentence generating unit 9 obtains each sub-sentence and its matching score from the word matching result 7A sent from the word matching unit 7, and the result 9A is recognized by the word predicting unit 6 and the recognition unit. It is sent to the result output unit 10.

【0019】(9)認識結果出力部10は終端検出部4
から終端検出信号4Aを受け取った後に、部分文生成部
9から送られてきた全ての部分文照合結果9Aのうち
で、照合スコアの最も高い部分文を入力信号に対する認
識結果10Aとして出力する。
(9) The recognition result output unit 10 is the end detection unit 4
After receiving the end detection signal 4A from, the sub-sentence having the highest matching score among all the sub-sentence matching results 9A sent from the sub-sentence generating unit 9 is output as the recognition result 10A for the input signal.

【0020】[0020]

【発明が解決しようとする課題】しかし、このような従
来方法では、音声認識装置の利用者(装置利用者)が認
識対象の音声を発声する前に、咳、吸う息、吐く息、鼻
をすする音、リップノイズ、周囲の人の声、ベルの音、
パルスの音、受話器の音、ドアの音、足音、紙の擦れる
音、キーボードの音等の非定常的な雑音(以下、非定常
雑音)が入力された場合、そのパワーが十分大きければ
音声区間の始端が検出される。
However, in such a conventional method, before the user of the voice recognition device (device user) utters the voice of the recognition target, a cough, inhalation, exhalation, and nose are generated. Soothing sound, lip noise, people's voice around, bell sound,
When non-stationary noise (hereinafter referred to as non-stationary noise) such as pulse sound, handset sound, door sound, footstep sound, paper rubbing sound, keyboard sound, etc. is input, if the power is sufficiently large, it is a voice section. The start edge of is detected.

【0021】そのため、これら非定常雑音は単語標準パ
タンに無い認識対象外の音であるにもかかわらず、それ
ら非定常雑音のみを音声として検出して音声認識を開始
したり、又は非定常雑音と認識対象の音声とを合わせて
一つの音声として検出して音声認識を開始することがあ
り、それらと文の標準パタンとの照合を行うことになっ
て、認識性能が低下する。
Therefore, although these non-stationary noises are sounds that are not included in the word standard pattern and are not recognized, only these non-stationary noises are detected as speech to start speech recognition, or the non-stationary noises are detected. The recognition target voice may be detected as one voice together with the voice to be recognized, and voice recognition may be started. Since the voice recognition is performed, the voice recognition is started and the recognition performance is deteriorated.

【0022】そこで本発明は、音声区間として誤検出さ
れた非定常雑音を認識対象から除外するために音声区間
始端の補正を行う方法及び装置並びにこの方法を用いた
音声認識方法を提供することを目的とする。
Therefore, the present invention provides a method and apparatus for correcting the beginning of a voice section in order to exclude non-stationary noise erroneously detected as a voice section from a recognition target, and a voice recognition method using this method. To aim.

【0023】[0023]

【課題を解決するための手段】本発明では、単語標準パ
タンを文法規則に基づき連続的に入力信号と照合するこ
とで連続に発声された音声を認識する音声認識におい
て、入力信号と単語標準パタンとの照合結果より得られ
る、部分文の照合スコア及び構文解析結果と、無音の標
準パタンに一致すると判断される入力信号の区間長と、
入力信号と部分文との適合度とを基に、認識対象外の非
定常雑音を検出し、音声区間の始端を補正した後、再度
認識を開始する。
According to the present invention, an input signal and a word standard pattern are recognized in speech recognition for continuously recognizing a voice by collating a word standard pattern with an input signal continuously based on grammatical rules. Matching score and parsing result of the partial sentence obtained from the matching result with, and the section length of the input signal determined to match the silent standard pattern,
Based on the matching degree between the input signal and the sub-sentence, non-stationary noise outside the recognition target is detected, the start end of the voice section is corrected, and then the recognition is started again.

【0024】即ち本発明の音声区間始端検出方法は、単
語標準パタンを文法規則に基づき連続的に入力信号と照
合することで音声を認識する装置において、入力信号と
単語標準パタンとの照合結果より得られる、部分文の照
合スコアと構文解析結果、無音の標準パタンと一致する
と判断される入力信号の区間長、及び、入力信号と部分
文の適合度を基に非定常雑音等を検出し、音声区間の始
端を補正することを特徴とする。
That is, according to the method for detecting the beginning of a voice section of the present invention, in a device for recognizing a voice by continuously matching a standard word pattern with an input signal based on grammatical rules, the result of matching between the input signal and the standard word pattern is used. The matching score and the syntactic analysis result of the sub-sentence obtained, the section length of the input signal determined to match the silent standard pattern, and the non-stationary noise etc. are detected based on the matching degree between the input signal and the sub-sentence, It is characterized in that the start end of the voice section is corrected.

【0025】また、本発明の他の音声区間始端検出方法
は、単語標準パタンを文法規則に基づき入力信号と照合
することにより音声を認識するに際し、入力信号と単語
標準パタンとの照合結果より得られる部分文とその照合
スコアから、無音で終わる部分文の照合スコアが最大で
あるという第1の条件を満たし、且つ、部分文文末の無
音に相当する入力信号の区間長が予め定めた時間以上で
あるという第2の条件を満たす部分文が存在するか否か
を判定すること、第1と第2の条件を共に満たすと判定
した時点で、入力信号と別途定めた基準パタンとの照合
スコアを基準スコアとし、それ以前の区間の前記入力信
号と単語標準パタンとの照合結果より得られた同部分文
の照合スコアと基準スコアとの差が所定の範囲内である
という第3の条件が満たされるか否かを判定すること、
第3の条件が満たされると判定した時、第1と第2の条
件を共に満たすと判定した部分文に対応する区間の入力
信号が非定常雑音であると判定し、音声区間の始端を補
正することを特徴とし、あるいは、更に前記第1と第2
と第3の条件を満たした時点で前記第1と第2の条件を
共に満たすと判定した部分文に対応した入力信号の区間
長を求め、この区間長が所定の範囲で前記部分文の標準
区間長に適合するという第4の条件が満たされるか否か
を判定すること、第4の条件が満たされると判定した
時、前記第1、第2及び第3の条件を共に満たすと判定
した部分文に対応する区間の入力信号が非定常雑音であ
ると判定し、音声区間の始端を補正することを特徴と
し、あるいは、前記第3の条件に代えて、第1と第2の
条件を共に満たすと判定した部分文について、同部分文
の各状態での照合スコアを比較して最大値を求め、この
最大値を取る状態までの同部分文に対応した入力信号と
別途定めた基準パタンとの照合スコアを基準スコアと
し、この基準スコアと前記最大値との差が所定の範囲内
であるという第5の条件が満たされるか否かを判定する
こと、第5の条件が満たされると判定した時、第1と第
2の条件を共に満たすと判定した部分文に対応する区間
の入力信号が非定常雑音であると判定し、音声区間の始
端を補正することを特徴とし、あるいは、前記第1と第
2の条件を共に満たすと判定した部分文のうち前記最大
値を取る状態で見た同部分文に対応した入力信号の区間
長を求め、この区間長が所定の範囲で同部分文の標準区
間長に適合するという第6の条件が満たされるか否かを
判定すること、第6の条件が満たされると判定した時、
前記第1、第2及び第5の条件を共に満たすと判定した
部分文に対応する区間の入力信号が非定常雑音であると
判定し、音声区間の始端を補正することを特徴とし、あ
るいは、前記音声区間の始端の補正として、部分文に対
応する区間の入力信号が非定常雑音であると判定した時
点より一定時間前に、音声区間の始端を補正することを
特徴とする。
Further, according to another method of detecting the beginning of a voice section of the present invention, when recognizing a voice by matching a word standard pattern with an input signal based on a grammatical rule, it is obtained from a matching result of the input signal and the word standard pattern. From the partial sentences and their matching scores, the first condition that the matching score of the partial sentence ending in silence is the maximum is satisfied, and the section length of the input signal corresponding to the silence at the end of the partial sentence is equal to or longer than a predetermined time. It is determined whether or not there is a sub-sentence that satisfies the second condition that is, and at the time when it is determined that both the first and second conditions are satisfied, the matching score of the input signal and the separately determined reference pattern. Is a reference score, and the difference between the reference score and the matching score of the same partial sentence obtained from the matching result of the input signal and the word standard pattern in the previous section is within a predetermined range. Determining whether or not fulfilled,
When it is determined that the third condition is satisfied, it is determined that the input signal of the section corresponding to the sub-sentences that are determined to satisfy both the first and second conditions is non-stationary noise, and the start end of the voice section is corrected. Or, in addition, the first and second
And when the third condition is satisfied, the section length of the input signal corresponding to the sub-sentence determined to satisfy both the first and second conditions is obtained, and the section length is within a predetermined range. It is determined whether or not the fourth condition of conforming to the section length is satisfied, and when it is determined that the fourth condition is satisfied, it is determined that both the first, second and third conditions are satisfied. It is characterized in that the input signal of the section corresponding to the sub-sentence is determined to be non-stationary noise, and the start end of the speech section is corrected, or instead of the third condition, the first and second conditions are set. For the sub-sentences that are determined to satisfy both, the matching score in each state of the same sub-sentence is compared to obtain the maximum value, and the input signal corresponding to the same sub-sentence up to the state where the maximum value is obtained and the reference pattern separately defined. The reference score is the matching score with It is determined whether the fifth condition that the difference from the maximum value is within a predetermined range is satisfied, and when it is determined that the fifth condition is satisfied, both the first and second conditions are satisfied. It is characterized that the input signal of the section corresponding to the sub-sentence determined to be non-stationary noise is corrected and the start end of the voice section is corrected, or it is determined that both the first and second conditions are satisfied. A sixth condition that the section length of the input signal corresponding to the same sub-sentence in the state of taking the maximum value among the sub-sentences is obtained, and the section length conforms to the standard section length of the same sub-sentence within a predetermined range. When it is determined that the sixth condition is satisfied,
The input signal of the section corresponding to the sub-sentence determined to satisfy all of the first, second and fifth conditions is non-stationary noise, and the beginning of the speech section is corrected, or As the correction of the beginning of the voice section, the beginning of the voice section is corrected at a certain time before the time point when the input signal of the section corresponding to the partial sentence is determined to be non-stationary noise.

【0026】また、本発明の音声区間始端検出装置は、
単語標準パタンを文法規則に基づき入力信号と照合する
ことにより音声を認識する装置において、入力信号と単
語標準パタンとの照合結果より得られる部分文とその照
合スコアから、無音で終わる部分文の照合スコアが最大
であるという第1の条件を満たし、且つ、部分文文末の
無音に相当する入力信号の区間長が予め定めた時間以上
であるという第2の条件を満たす部分文が存在するか否
かを判定する第1の判定手段と、第1と第2の条件を共
に満たすと判定した時点で、入力信号と別途定めた基準
パタンとの照合スコアを基準スコアとし、それ以前の区
間の前記入力信号と単語標準パタンとの照合結果より得
られた同部分文の照合スコアと前記基準スコアとの差が
所定の範囲内であるという第3の条件が満たされるか否
かを判定する第2の判定手段と、第3の条件が満たされ
ると判定した時、第1と第2の条件を共に満たすと判定
した部分文に対応する区間の入力信号が非定常雑音であ
ると判定し、音声区間の始端を補正する第3の手段を有
することを特徴とし、或いは、前記第1と第2と第3の
条件を満たした時点で、前記第1と第2の条件を共に満
たすと判定した部分文に対応した入力信号の区間長を求
め、この区間長が所定の範囲で前記部分文の標準区間長
に適合するという第4の条件が満たされるか否かを判定
する手段を有し、前記第3の手段は第4の条件が満たさ
れると判定した時、前記第1、第2及び第3の条件を共
に満たすと判定した部分文に対応する区間の入力信号が
非定常雑音であると判定し、音声区間の始端を補正する
ことを特徴とし、或いは、前記第2の判定手段は前記第
3の条件に代えて、第1と第2の条件を共に満たすと判
定した部分文について、同部分文の各状態での照合スコ
アを比較して最大値を求め、この最大値を取る状態で見
た同部分文に対応した入力信号と別途定めた基準パタン
との照合スコアを基準スコアとし、この基準スコアと前
記最大値との差が所定の範囲内であるという第5の条件
が満たされるか否かを判定すること、前記第3の手段は
第5の条件が満たされると判定した時、第1と第2の条
件を共に満たすと判定した部分文に対応する区間の入力
信号が非定常雑音であると判定し、音声区間の始端を補
正することを特徴とし、或いは、前記第1と第2の条件
を共に満たすと判定した部分文のうち前記最大値を取る
状態で見た同部分文に対応した入力信号の区間長を求
め、この区間長が所定の範囲で同部分文の平均区間長に
適合するという第6の条件が満たされるか否かを判定す
る手段を有し、前記第3の手段は第6の条件が満たされ
ると判定した時、前記第1、第2及び第5の条件を共に
満たすと判定した部分文に対応する区間の入力信号が非
定常雑音であると判定し、音声区間の始端を補正するこ
とを特徴とする。
Further, the voice section start edge detecting apparatus of the present invention is
In a device for recognizing speech by matching a standard word pattern with an input signal based on grammatical rules, a partial sentence obtained from the matching result of the input signal and the standard word pattern and its matching score are used to match a partial sentence ending in silence. Whether there is a partial sentence that satisfies the first condition that the score is maximum and that satisfies the second condition that the section length of the input signal corresponding to silence at the end of the partial sentence is equal to or longer than a predetermined time. At the time when it is determined that both the first and the second conditions are satisfied by the first determining means for determining whether or not both the first signal and the second condition are satisfied, the matching score between the input signal and the separately determined reference pattern is set as the reference score, and the reference score in the previous section is set. Secondly determining whether or not a third condition that a difference between the matching score of the same partial sentence obtained from the matching result of the input signal and the standard word pattern and the reference score is within a predetermined range is satisfied When the determination means determines that the third condition is satisfied, the input signal in the section corresponding to the sub-sentence determined to satisfy both the first and second conditions is determined to be non-stationary noise, and the speech section And a third means for correcting the starting point of, or a portion determined to satisfy both the first and second conditions at the time when the first, second and third conditions are satisfied. Means for determining a section length of an input signal corresponding to a sentence, and determining whether or not a fourth condition that the section length conforms to the standard section length of the sub-sentence within a predetermined range is satisfied, The third means, when it is determined that the fourth condition is satisfied, that the input signal in the section corresponding to the sub-sentences that are determined to satisfy the first, second and third conditions is non-stationary noise. It is characterized in that the start end of the voice section is determined and the second end is corrected. Instead of the third condition, the determining means compares the matching scores in each state of the partial sentence with respect to the partial sentence determined to satisfy both the first and second conditions, and obtains the maximum value. A fifth is that a matching score between an input signal corresponding to the same sub-sentence seen in a state of taking a value and a separately defined reference pattern is used as a reference score, and a difference between the reference score and the maximum value is within a predetermined range. Section that corresponds to the sub-sentence that is determined to satisfy both the first and second conditions when the third means determines that the fifth condition is satisfied. The input signal is determined to be non-stationary noise and the start end of the voice section is corrected, or the maximum value is taken from the sub-sentences determined to satisfy both the first and second conditions. Obtain the section length of the input signal corresponding to the same sub-sentence seen in the state , And a means for determining whether or not a sixth condition that this section length conforms to the average section length of the same partial sentence within a predetermined range is satisfied, and the third means satisfies the sixth condition. When it is determined that the input signal of the section corresponding to the sub-sentence determined to satisfy all of the first, second and fifth conditions is non-stationary noise, the beginning end of the speech section is corrected. Is characterized by.

【0027】更に、本発明の音声認識方法は、単語標準
パタンを文法規則に基づき入力信号と照合することで音
声を認識する装置の起動時に、入力信号のパワー計算等
により音声区間の始端を検出した後、この検出した始端
を上記いずれかの音声区間始端補正方法により補正して
音声認識を行うことを特徴とし、或いは、単語標準パタ
ンを文法規則に基づき入力信号と照合することで音声を
認識する装置の起動時に、入力信号のパワー計算等によ
る音声区間の始端を検出することなく音声認識と、請求
項1から6いずれかに記載の音声区間始端補正方法とを
開始し、この音声区間始端補正方法により補正しながら
音声認識を行うと共に、入力信号のパワー計算による音
声区間の終端を検出することなく、入力信号と単語標準
パタンとの照合結果より得られる、部分文の照合スコア
及び構文解析結果と、無音の標準パタンと一致すると判
断される入力信号の区間長とを基に音声区間の終端を検
出して音声認識を終了することを特徴とする。
Further, according to the voice recognition method of the present invention, the start end of the voice section is detected by the power calculation of the input signal when the apparatus for recognizing the voice is started by collating the standard word pattern with the input signal based on the grammatical rules. After that, the detected start end is corrected by any one of the above voice section start end correction methods to perform voice recognition, or the voice is recognized by matching the standard word pattern with the input signal based on the grammatical rules. The speech recognition and the speech segment start end correction method according to any one of claims 1 to 6 are started at the time of starting the device without detecting the beginning of the speech segment by the power calculation of the input signal or the like. The voice is recognized while being corrected by the correction method, and the input signal is matched with the standard word pattern without detecting the end of the voice section by calculating the power of the input signal. The feature is that the end of the voice section is detected and the voice recognition is terminated based on the matching score and the syntactic analysis result of the sub-sentence obtained and the section length of the input signal determined to match the silent standard pattern. And

【0028】[0028]

【発明の実施の形態】文法規則を用いて、単語標準パタ
ンを連続的に音声や雑音等の入力信号と照合すると、単
語の予測及び照合が進むに連れ各時刻で部分文と入力信
号との照合スコアが得られる。入力信号が音声又は雑音
等いずれの場合も、無音区間においては、全ての部分文
中で無音で終わる部分文の照合スコアが最大となり、且
つ無音の標準パタンと一致すると判断される区間(無音
区間)が或る程度継続する。
BEST MODE FOR CARRYING OUT THE INVENTION When a grammatical rule is used to continuously match a standard word pattern with an input signal such as speech or noise, the sub-sentence and the input signal are separated at each time as word prediction and matching progress. A matching score is obtained. Regardless of whether the input signal is voice, noise, etc., in the silent section, the matching score of the partial sentence ending in silence among all the partial sentences is the maximum, and it is determined that it matches the standard pattern of silence (silent section) Continues for a while.

【0029】但し、非定常雑音という認識対象外の音
と、単語標準パタンという異なるパタンとが照合された
場合は、照合スコアが低い。また、部分文に一致すると
判断される区間長も、本来予想される部分文長とは大き
く異なる場合が多い。
However, when the non-stationary noise, which is a non-recognition sound, is collated with a different pattern, which is the word standard pattern, the collation score is low. Also, the section length determined to match the sub-sentence is often significantly different from the originally expected sub-sentence length.

【0030】そこで、入力信号と単語標準パタンとの照
合により得られる、部分文の照合スコア及び構文解析結
果と、無音の標準パタンに一致すると判断される入力信
号の区間長とを用いて、無音区間であるか否かを判断
し、更に、この時点で入力信号と部分文との適応度を基
にそれ以前の入力が非定常雑音であるか否かを判定し、
非定常雑音と判定された場合には、その時点から数フレ
−ム以前の無音区間の中に音声区間の始端を補正して、
音声認識を再開する。
Therefore, using the matching score of the partial sentence and the syntactic analysis result obtained by matching the input signal and the standard pattern of the word, and the section length of the input signal determined to match the standard pattern of silence, the silence is used. It is determined whether or not it is a section, and further at this time, it is determined whether or not the input before that is non-stationary noise based on the fitness of the input signal and the sub-sentence,
If it is determined to be non-stationary noise, the beginning of the voice section is corrected in the silent section several frames before from that point,
Restart voice recognition.

【0031】上述した音声区間始端の補正方法または装
置を連続音声認識に適用することにより、従来は誤検出
していた非定常雑音を除いた区間で、入力信号と単語標
準パタンとの照合が行えるため、音声認識の性能が向上
する。
By applying the above-described method or apparatus for correcting the beginning of the speech section to continuous speech recognition, the input signal and the word standard pattern can be collated in the section excluding the non-stationary noise which was conventionally erroneously detected. Therefore, the performance of voice recognition is improved.

【0032】[0032]

【実施例】以下、図面を参照して本発明をその実施例と
ともに説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be described below with reference to the drawings with reference to the accompanying drawings.

【0033】本発明の一実施例に係る音声認識装置を図
1に示す。図1の音声認識装置は、入力信号のパワ−を
用いて音声区間の始端を検出し、同じく入力音声のパワ
−を用いて検出する音声区間の終端までの区間の入力信
号を、文法規則に基づき単語標準パタンと連続的に照合
する音声認識装置において、入力信号と単語標準パタン
との照合結果より得られる、部分文の照合スコア及び構
文解析結果と、無音の標準パタンに一致すると判断され
る入力信号の区間長と、入力信号の部分文との適合度と
を基に非定常雑音等を検出して、音声区間の始端を補正
する方法を適用したものである。
FIG. 1 shows a voice recognition device according to an embodiment of the present invention. The speech recognition apparatus of FIG. 1 detects the beginning of a speech section using the power of an input signal, and uses the input signal of the section up to the end of a speech section that is also detected using the power of the input speech as grammatical rules. In a voice recognition device that continuously matches a word standard pattern based on the above, it is determined that the matching score and the syntactic analysis result of the partial sentence obtained from the matching result of the input signal and the word standard pattern match the silent standard pattern. This is a method in which non-stationary noise or the like is detected based on the section length of the input signal and the matching degree with the sub-sentence of the input signal, and the start end of the speech section is corrected.

【0034】即ち、この音声認識装置は、音響分析部1
と、音響分析結果遅延部2と、始端検出部3と、終端検
出部4と、文法規則格納部5と、単語予測部6と、単語
照合部7と、単語標準パタン格納部8と、部分文生成部
9と、認識結果出力部10と、音声区間検出用スイッチ
11と、パワ−計算部12と、雑音検出部13から構成
され、主として中央処理装置(CPU)とソフトウェア
により実現される。
That is, this speech recognition apparatus is provided with the acoustic analysis unit 1
An acoustic analysis result delay unit 2, a start end detection unit 3, an end detection unit 4, a grammar rule storage unit 5, a word prediction unit 6, a word collation unit 7, a word standard pattern storage unit 8, and a portion. It is composed of a sentence generation unit 9, a recognition result output unit 10, a voice section detection switch 11, a power calculation unit 12, and a noise detection unit 13, and is mainly realized by a central processing unit (CPU) and software.

【0035】文法規則格納部5には、認識に用いる幾つ
かの文法規則が予め格納される。例えば、図2に示すよ
うな「(無音)総務部の(無音)矢野さん(無音)」を
表す文法規則等が各種用意される。なお、図2において
は、文法規則がネットワ−クを用いて示されている。
The grammar rule storage unit 5 stores some grammar rules used for recognition in advance. For example, various grammatical rules representing “(silence) Yano-san (silence) of the general affairs department” as shown in FIG. 2 are prepared. In FIG. 2, the grammatical rules are shown using a network.

【0036】単語標準パタン格納部8には、文法規則に
現れる全ての単語の標準パタン(図2の例では「総務
部」、「の」、「矢野」、「さん」、「(無音)」)が
予め用意されている。
The word standard pattern storage unit 8 stores standard patterns of all the words appearing in the grammar rules (in the example of FIG. 2, "general affairs department", "no", "Yano", "san", "(silence)". ) Is prepared in advance.

【0037】また音声区間検出用スイッチ11は最初即
ち装置の起動時に、始端検出部3側に接続しておくもの
とし、以後始端検出部3から始端検出信号3Aを受け取
った時点で終端検出部4に接続し、後述の如く終端検出
部4から終端検出信号4Aを、又は雑音検出部13から
雑音検出信号13Aを受け取った時点で始端検出部3側
に接続するものである。
It is assumed that the voice section detecting switch 11 is connected to the starting end detecting section 3 side at the beginning, that is, at the time of starting the apparatus, and after that, when the starting end detecting signal 3A is received from the starting end detecting section 3, the end detecting section 4 is detected. When the end detection signal 4A is received from the end detection unit 4 or the noise detection signal 13A is received from the noise detection unit 13, the start end detection unit 3 side is connected.

【0038】音声認識の手順に沿って、図1に示された
音声認識装置の各部の機能を以下に説明する。
The functions of the respective parts of the speech recognition apparatus shown in FIG. 1 will be described below in accordance with the procedure of speech recognition.

【0039】音声パワー計算部12は、入力信号のパワ
ーを逐次計算し、その結果12Aを音声区間検出用スイ
ッチ11を通して始端検出部3に送る。
The voice power calculation unit 12 sequentially calculates the power of the input signal, and sends the result 12A to the start end detection unit 3 through the voice section detection switch 11.

【0040】前述のとおり音声区間検出用スイッチ11
は、最初、始端検出部3に接続しておくものとし、以後
始端検出部3から始端検出信号3Aを受け取った時点で
終端検出部4に接続し、終端検出部4から終端検出信号
4Aを受け取った時点で、または雑音検出部13から雑
音検出信号13Aを受け取った時点で始端検出部3側に
接続を戻し、それぞれ接続された側にパワ−の計算結果
12Aを送る。
As described above, the voice section detection switch 11
Is first connected to the starting end detecting unit 3, and thereafter, when the starting end detecting signal 3A is received from the starting end detecting unit 3, it is connected to the ending end detecting unit 4 and the ending detection signal 4A is received from the ending end detecting unit 4. When the noise detection signal 13A is received from the noise detection unit 13, the connection is returned to the starting end detection unit 3 side, and the power calculation result 12A is sent to each connected side.

【0041】始端検出部3はパワ−計算部12から送ら
れてくるパワ−を図10に示すように閾値TH1 と比較
し、閾値TH1 を越えた状態が予め定めた時間t2 以上
継続した時点で、始端検出信号3Aを音声区間検出用ス
イッチ11、単語予測部6及び雑音検出部13に送る。
The leading edge detecting section 3 compares the power sent from the power calculating section 12 with a threshold value TH1 as shown in FIG. 10, and when the state of exceeding the threshold value TH1 continues for a predetermined time t2 or more. , The leading edge detection signal 3A is sent to the voice section detection switch 11, the word prediction section 6, and the noise detection section 13.

【0042】一方、終端検出部4はパワ−計算部12か
ら送られてくるパワ−を図10に示すように閾値TH2
と比較し、閾値TH2 以下の値をとる状態が予め定めた
時間t3 以上継続した時点で、パワ−が最初に閾値以下
となった時点から時間t4 後までの照合も行うように、
終端検出信号4Aを音声区間検出用スイッチ11、単語
予測部6、雑音検出部13及び認識結果出力部10に送
る。
On the other hand, the end detection unit 4 determines the power sent from the power calculation unit 12 as a threshold TH2 as shown in FIG.
In comparison with the threshold value TH2, when the state in which the value is equal to or less than the threshold value TH2 continues for a predetermined time t3 or more, the collation is performed from the time when the power first becomes the threshold value to the time t4.
The end detection signal 4A is sent to the voice section detection switch 11, the word prediction unit 6, the noise detection unit 13, and the recognition result output unit 10.

【0043】音響分析部1は入力信号の特徴パラメ−タ
を抽出するための音響分析を逐次行い、その結果1Aを
音響分析結果遅延部2に送る。
The acoustic analysis unit 1 sequentially performs acoustic analysis for extracting characteristic parameters of the input signal, and sends the result 1A to the acoustic analysis result delay unit 2.

【0044】音響分析結果遅延部2は音響分析部1から
送られる音響分析結果1Aを始端検出誤りを避けるため
に置かれるマ−ジン時間t1 分だけ遅延させ、その結果
2Aを単語照合部7及び雑音検出部13に送る。
The acoustic analysis result delay unit 2 delays the acoustic analysis result 1A sent from the acoustic analysis unit 1 by a margin time t1 which is set in order to avoid a start end detection error, and the result 2A is delayed by the word collation unit 7 and the word collation unit 7. It is sent to the noise detection unit 13.

【0045】また、音響分析結果遅延部2は音響分析結
果を一定の時間保存しておき、雑音検出部13から雑音
検出信号13Aを受け取った場合は、一定時刻前の音響
分析結果から再度、単語照合部7及び雑音検出部13に
送る。この一定時刻前とは、雑音検出部13で非定常雑
音の検出を行う条件の「部分文文末の無音」に対応する
入力信号の区間長以下に対応するように設定するのが望
ましい。
Further, the acoustic analysis result delay unit 2 stores the acoustic analysis result for a certain period of time, and when the noise detection signal 13A is received from the noise detection unit 13, the acoustic analysis result before a certain time is re-worded. It is sent to the matching unit 7 and the noise detection unit 13. It is desirable that the fixed time before is set so as to correspond to the section length of the input signal corresponding to “silence at the end of a partial sentence”, which is a condition for detecting non-stationary noise by the noise detection unit 13.

【0046】単語予測部6では、部分文生成部9から送
られてくる部分文照合結果(部分文とその照合スコア)
9Aと、文法規則格納部5に格納された文法規則5Aと
から、次に単語照合部7で照合すべき単語即ち照合単語
6Aを1つまたは複数求め、単語照合部7に送る。
In the word predicting unit 6, the partial sentence matching result (partial sentence and its matching score) sent from the partial sentence generating unit 9.
9A and the grammar rules 5A stored in the grammar rule storage unit 5, the word matching unit 7 next finds one or more words to be matched, that is, the matching words 6A, and sends them to the word matching unit 7.

【0047】この単語予測部6の処理は始端検出部3よ
り始端検出信号3Aを受け取った時点から開始され、終
端検出部4より終端検出信号4Aを、または雑音検出部
13から雑音検出信号13Aを受け取るまで継続する。
雑音検出信号13Aを受け取った時は、次の始端検出信
号3Aを受け取った時点で新たに処理を開始する。
The processing of the word predicting section 6 is started at the time point when the start edge detecting signal 3A is received from the start edge detecting section 3, and the end detecting section 4 receives the end detecting signal 4A or the noise detecting section 13 receives the noise detecting signal 13A. Continue until you receive it.
When the noise detection signal 13A is received, the process is newly started at the time when the next start edge detection signal 3A is received.

【0048】単語照合部7は単語予測部6から受け取っ
た照合単語6Aに対応する単語標準パタン即ち照合単語
標準パタン8Aを単語標準パタン格納部8から読み出し
て、遅延された音響分析結果2Aと、得られた照合単語
標準パタン8Aとを照合し、単語標準パタンの終わりま
で照合を行った単語について、その単語照合結果7Aを
部分文生成部9に送る。
The word collating unit 7 reads out the word standard pattern corresponding to the collating word 6A received from the word predicting unit 6, that is, the collating word standard pattern 8A from the word standard pattern storing unit 8, and the delayed acoustic analysis result 2A, The obtained matching word standard pattern 8A is matched, and the word matching result 7A is sent to the sub-sentence generating unit 9 for the matched word up to the end of the word standard pattern.

【0049】なお、単語照合部2において照合の際に用
いる、照合スコアの計算法としては、前述の如くDPマ
ッチングや隠れマルコフモデルを用いる方法等がある。
As a method of calculating the matching score used in the matching in the word matching unit 2, there are the DP matching and the method using the hidden Markov model as described above.

【0050】照合スコアの計算に隠れマルコフモデルを
用いた場合、照合スコアは下記数1の式(1)により計
算される。
When the hidden Markov model is used to calculate the matching score, the matching score is calculated by the following equation (1).

【0051】[0051]

【数1】 [Equation 1]

【0052】部分文生成部9は、単語照合部7より送ら
れてくる単語照合結果7Aから各部分文とそれぞれの照
合スコアを求め、その結果9Aを単語予測部6及び認識
結果出力部10に送る。
The sub-sentence generating unit 9 obtains each sub-sentence and each collation score from the word collation result 7A sent from the word collating unit 7, and outputs the result 9A to the word predicting unit 6 and the recognition result output unit 10. send.

【0053】ここで図2に例示した文法規則について言
えば、部分文として、「(無音)」、「(無音)総務
部」、「(無音)総務部の」、「(無音)総務部の(無
音)」、「(無音)総務部の(無音)矢野」、「総務部
の(無音)矢野さん」、「(無音)総務部の(無音)矢
野さん(無音)」の7つの部分文があり、それぞれにつ
いて照合スコアが求められる。
Speaking of the grammatical rule illustrated in FIG. 2, as sub-sentences, “(silence)”, “(silence) general affairs department”, “(silence) general affairs department”, and “(silence) general affairs department (Silence) ”,“ (Silence) General Affairs Department (silence) Yano ”,“ General Affairs Department (silence) Yano-san ”,“ (Silence) General Affairs Department (silence) Yano-san (silence) ” And a matching score is obtained for each.

【0054】ここでHMM(隠れマルコフモデル)を用
いた場合を例に部分文の生成とその照合スコアの計算に
ついて説明する。まず、照合スコアについては、例えば
「(無音)総務部」から「の」が予測された場合には、
部分文のHMM「(無音)総務部」に単語HMM「の」
を接続して新たに部分文「(無音)総務部の」のHMM
を作成し、上記数1の計算を続けることにより、部分文
「(無音)総務部の」の照合スコアが求められる。ま
た、「総務部」、「の」、「(無音)」、「矢野」、
「さん」という単語列を記憶しておくことで、部分文
「(無音)総務部の(無音)矢野さん(無音)」を生成
することができる。
Here, the generation of sub-sentences and the calculation of the matching score thereof will be described by taking the case of using an HMM (Hidden Markov Model) as an example. First, as for the matching score, for example, when "no" is predicted from "(silence) general affairs department",
The word HMM "no" in the HMM "(silence) general affairs department" of the partial sentence
HMM of "(silence) general affairs department"
And the calculation of Equation 1 is continued, the collation score of the partial sentence “(silence) of the general affairs department” is obtained. Also, "General Affairs Department", "No", "(silence)", "Yano",
By storing the word string “san”, the partial sentence “(silence) Yano san (silence) of the general affairs department” can be generated.

【0055】数1の式(1)では、上述した照合スコア
の計算処理を単語別に記述している。図3(a)におい
て例えば部分文「総務部の」という部分文のHMMを単
語HMMを接続して作る代わりに、図3(b)のように
2つの単語HMMを用いて書くと、単語間では例えば単
語「総務部」と「の」との間では、各時刻tで単語「総
務部」の終了状態Aに遷移した際のスコアと、単語
「の」の先頭状態Bから同じ状態Bへ自己遷移した際の
照合スコアとを比べ、大きいものを状態Bの照合スコア
とする。
In the equation (1) of the equation 1, the above-mentioned calculation process of the matching score is described for each word. In FIG. 3 (a), for example, instead of making an HMM of a partial sentence “general affairs department's” by connecting word HMMs, writing with two word HMMs as shown in FIG. Then, for example, between the words "general affairs department" and "no", the score at the time of transition to the end state A of the word "general affairs department" and the beginning state B of the word "no" to the same state B The collation score at the time of self transition is compared, and the larger one is set as the collation score of state B.

【0056】但し、最初に単語「の」の照合が要求され
た場合は、まだ先頭状態Bが照合されていないため、無
条件に単語「総務部」の終了状態Aのスコアを先頭状態
Bの照合スコアとする。また、単語「の」のその他の状
態C、D、Eのスコアは初期化のため−∞(マイナス無
限大)とする。
However, when the matching of the word "no" is requested at the beginning, since the leading state B has not been matched yet, the score of the ending state A of the word "general affairs department" is unconditionally set to the leading state B. Use as a matching score. The scores of the other states C, D, and E of the word "no" are set to -∞ (minus infinity) for initialization.

【0057】このように、照合スコアの計算を行うこと
で、部分文「(無音)総務部」の照合スコアは単語「総
務部」の終了状態Aにおける照合スコアとなり、部分文
「(無音)総務部の」の照合スコアは単語「の」の終了
状態Eにおける照合スコアとなる。部分文生成部9にお
いては、こうして得られた部分文と照合スコアの対応付
けを行う。
By calculating the matching score in this way, the matching score of the partial sentence "(silence) general affairs department" becomes the matching score in the end state A of the word "general affairs department", and the partial sentence "(silence) general affairs department" is obtained. The collation score of "no" is the collation score of the word "no" in the end state E. The sub-sentence generating unit 9 associates the sub-sentence thus obtained with the matching score.

【0058】但し、部分文は必ずしも実際の単語列とし
て保持する必要はなく、単語予測に用いるために適した
形式で保持することが可能である。単語予測に用いられ
る手法としては、「Early法」、「LR法」(参考
文献:野村浩郷著、自然言語処理の基礎技術、電子情報
通信学会編)などが一般に広く用いられている。
However, the partial sentence does not necessarily have to be held as an actual word string, but can be held in a format suitable for use in word prediction. As a method used for word prediction, "Early method", "LR method" (reference: Hirogo Nomura, basic technology of natural language processing, edited by the Institute of Electronics, Information and Communication Engineers) are widely used.

【0059】雑音検出部13は、入力信号と単語標準パ
タンとの照合により得られる、部分文の照合スコア及び
構文解析結果と、無音の標準パタンに対応すると判断さ
れる入力信号の区間長と、入力信号と部分文との適合度
と、部分文の標準パタンに対応すると判断される入力信
号の区間長とを用い、或る時刻までに照合された入力音
声が非定常雑音(認識対象外の音)であるか否かを判断
し、非定常雑音であると判断した場合、一定時刻前に音
声区間の始端を補正した後、再度照合処理を行わせるも
のである。つまり、パワーにより始端を検出した場合は
非定常雑音を検出する毎に、再度パワーにより始端検出
から認識処理を行う。
The noise detection unit 13 obtains the matching score of the partial sentence and the syntactic analysis result obtained by matching the input signal with the word standard pattern, and the section length of the input signal determined to correspond to the silent standard pattern. By using the goodness of fit between the input signal and the sub-sentence and the section length of the input signal that is determined to correspond to the standard pattern of the sub-sentence, the input speech matched up to a certain time is a non-stationary noise (non-recognition target). If it is determined that the noise is non-stationary noise, the start end of the voice section is corrected before a fixed time, and the matching process is performed again. That is, when the start edge is detected by the power, the recognition processing is performed again from the start edge detection by the power each time the non-stationary noise is detected.

【0060】具体的には、以下に示す条件1〜3を満た
すか否かを常時調べ、満たされた時点で入力音声が非定
常雑音であったと判断し、雑音検出信号13Aを単語予
測部6、音声区間検出スイッチ11、音響分析結果遅延
部2にそれぞれ送る。
Specifically, it is constantly checked whether or not the following conditions 1 to 3 are satisfied, and when it is satisfied, it is determined that the input voice is non-stationary noise, and the noise detection signal 13A is set to the word prediction unit 6. , The voice section detection switch 11 and the acoustic analysis result delay unit 2, respectively.

【0061】条件1:無音で終わる部分文、例えば図2
の文法の例では、「(無音)」、「(無音)総務部の
(無音)」または「(無音)総務部の(無音)矢野さん
(無音)」の照合スコアが全ての部分文の照合スコアの
うちで最大であること。
Condition 1: Partial sentence ending in silence, eg, FIG.
In the grammar example, the matching score of "(silence)", "(silence) General Affairs Department (silence)" or "(silence) General Affairs Department (silence) Yano-san (silence)" matches all sub-sentences. Be the highest of the scores.

【0062】条件2:無音の標準パタンに一致すると判
断される入力信号の区間長が予め定めた時間以上である
こと。
Condition 2: The section length of the input signal judged to match the silent standard pattern is equal to or longer than a predetermined time.

【0063】条件3:入力信号と部分文との適合度が基
準を満たしていないこと。
Condition 3: The matching degree between the input signal and the sub-sentence does not satisfy the standard.

【0064】ここで、入力信号と部分文との適合度とし
て、部分文の照合スコアを用いる方法、或いは、部分文
の照合スコアと、基準として用いるその他の標準パタン
(基準パタン)と入力信号との照合スコアとの比較、例
えば差を用いる方法がある。
Here, as the matching degree between the input signal and the sub-sentence, a method of using the collation score of the sub-sentence, or the collation score of the sub-sentence and other standard patterns (reference patterns) used as a reference and the input signal There is a method of comparing with the matching score of, for example, using the difference.

【0065】また、これらの照合スコアを用いた適合度
に加え、部分文に一致すると判断された区間長と部分文
の本来予想される区間長との比較、例えば比を用いるこ
とができる。このような区間長による適合度を併用する
場合は、非定常雑音の判定精度が一層向上する。
In addition to the goodness of fit using these matching scores, a comparison between the section length determined to match the sub-sentence and the originally expected section length of the sub-sentence, for example, a ratio can be used. When such a degree of conformity based on the section length is used together, the accuracy of determining non-stationary noise is further improved.

【0066】雑音検出部13の具体例を図4に例示す
る。この雑音検出部13は、無音区間長計算部16、雑
音判定部17、部分文照合スコア比較部18、構文解析
部19、状態別照合スコア比較部20、基準パタン照合
部21、適合度判定部22、無音判定部23から構成さ
れる。
A concrete example of the noise detecting section 13 is illustrated in FIG. The noise detecting unit 13 includes a silent section length calculating unit 16, a noise determining unit 17, a partial sentence matching score comparing unit 18, a syntax analyzing unit 19, a state-based matching score comparing unit 20, a reference pattern matching unit 21, and a fitness determining unit. 22 and a silence determination section 23.

【0067】図4に例示した雑音検出部13では、まず
部分文照合スコア比較部18において部分文照合結果9
Aの照合スコアを互いに比較し、照合スコアが最大とな
る部分文を探索してその結果18Aを構文解析部19に
送る。
In the noise detection unit 13 illustrated in FIG. 4, the partial sentence matching score comparison unit 18 first outputs the partial sentence matching result 9
The matching scores of A are compared with each other, the sub-sentence having the maximum matching score is searched, and the result 18A is sent to the parsing unit 19.

【0068】続いて、構文解析部19が部分文照合スコ
ア比較部18において探索された最大の照合スコアを持
つ部分文の最後(部分文文末)の単語が「(無音)」で
あるか否かを判断し、その結果19Aを無音判定部23
に送る。
Subsequently, the syntactic analysis unit 19 determines whether or not the last word (end of the partial sentence) of the partial sentence having the maximum matching score searched by the partial sentence matching score comparison unit 18 is "(silence)". And the result 19A is determined as the silence determination unit 23.
Send to

【0069】これら部分文照合スコア比較部18と構文
解析部19により、前述した条件1が満たされるか否か
が判定される。
The sub-sentence matching score comparing section 18 and the syntax analyzing section 19 determine whether or not Condition 1 described above is satisfied.

【0070】無音区間長計算部16では部分文照合スコ
ア比較結果18Aから、条件2が満たされるか否かを判
定するため、即ち無音の標準パタンに一致すると判断さ
れる入力信号(図10の例では、文末の「(無音)」に
相当する信号)の区間長16Aを計算して無音判定部2
3に送る。
The silent section length calculation unit 16 determines from the partial sentence matching score comparison result 18A whether Condition 2 is satisfied, that is, an input signal determined to match the silent standard pattern (example of FIG. 10). Then, the section length 16A of the signal corresponding to “(silence)” at the end of the sentence is calculated and the silence determination unit 2
Send to 3.

【0071】ここで無音の標準パタンと一致する入力信
号の区間長の求め方について説明する。
Here, how to obtain the section length of the input signal that matches the silent standard pattern will be described.

【0072】単語照合部7においてHMMを用いて照合
スコアを計算する場合(数1の式(1)参照)は、下記
数2の式(2.1)〜(2.5)と、数3の式(3)により単語
(無音を含む)の標準パタンに一致する入力信号の区間
長が計算される。
When the matching score is calculated using the HMM in the word matching unit 7 (see the expression (1) of the expression 1), the expressions (2.1) to (2.5) of the following expression 2 and the expression (3) of the expression 3 are used. ) Calculates the section length of the input signal that matches the standard pattern of words (including silence).

【0073】[0073]

【数2】 [Equation 2]

【0074】[0074]

【数3】 〔無音の標準パタンと一致する入力音声の継続時間〕 =〔現在の時刻〕−begin(現在の時刻,無音の標準パタンの終了状態) …式(3)[Equation 3] [Continuation time of input voice that matches silent standard pattern] = [current time] -begin (current time, end state of silent standard pattern) Equation (3)

【0075】ここで、図5を例に、単語標準パタンとし
てHMMを用いた場合の単語と一致すると判断される入
力信号の区間長の計算例を説明する。
Here, with reference to FIG. 5, an example of calculating the section length of the input signal which is determined to match the word when the HMM is used as the word standard pattern will be described.

【0076】図5で、時刻t+5において経路200で
照合したスコアが一番高かったとすると、この場合、時
刻t+5における単語標準パタンの状態4までの照合が
開始された時刻を求める。
In FIG. 5, assuming that the score collated on the route 200 at time t + 5 is the highest, in this case, the time at which collation up to state 4 of the word standard pattern at time t + 5 is started is obtained.

【0077】まず、単語の先頭状態1では、前単語から
の遷移Aのスコアが自分自身からの遷移Bのスコアより
高い場合には、その時刻t+1を記憶する。即ち、be
gin(t+1,状態1)=t+1である。
First, in the first state 1 of the word, if the score of the transition A from the previous word is higher than the score of the transition B from itself, the time t + 1 is stored. That is, be
gin (t + 1, state 1) = t + 1.

【0078】単語の先頭状態1以外については、一番高
い照合スコアを与える状態遷移元に保持された時刻を引
き継ぐ。例えば、begin(t+3,状態2)=be
gin(t+2,状態2)となる。
For words other than the first state 1 of the word, the time held at the state transition source giving the highest matching score is inherited. For example, begin (t + 3, state 2) = be
It becomes gin (t + 2, state 2).

【0079】この処理を繰り返すことにより、各時刻で
単語標準パタンの状態4まで照合を行った際に、一番高
い照合スコアを与える経路200での単語標準パタンと
の照合を開始した時刻が得られる。
By repeating this process, when the matching is performed up to the state 4 of the word standard pattern at each time, the time when the matching with the word standard pattern on the route 200 giving the highest matching score is started is obtained. To be

【0080】また時刻t+5における単語標準パタンと
一致した音声区間長は、(t+5)−begin(t+
5,状態4)となる。
The voice section length that matches the standard word pattern at time t + 5 is (t + 5) -begin (t +
5, state 4).

【0081】この計算により、部分文照合スコア比較部
18により得られた部分文の文末の、無音に対応する単
語標準パタンに一致する区間長を求めることで、無音と
一致する入力信号の区間長が求められる。
By this calculation, the section length of the input signal that matches the silence is found by finding the section length of the sentence end of the partial sentence obtained by the partial sentence matching score comparison unit 18 that matches the word standard pattern corresponding to silence. Is required.

【0082】無音判定部23においては、照合スコア比
較部18において求めた最大の照合スコアを持つ部分文
の最後の単語が「(無音)」であると構文解析部19で
判断された場合に、その部分文について無音区間長計算
部16で求めた無音区間長16Aが予め定めた時間以上
であるか否かを判断し、予め定めた時間以上である場合
に、無音区間検出信号23Aを雑音判定部17に送る。
In the silence judging section 23, when the syntax analyzing section 19 judges that the last word of the partial sentence having the maximum matching score obtained by the matching score comparing section 18 is “(silent)”, It is determined whether or not the silent section length 16A obtained by the silent section length calculation unit 16 for the partial sentence is longer than or equal to a predetermined time, and when it is longer than or equal to the predetermined time, the silent section detection signal 23A is determined as noise. Send to section 17.

【0083】状態別照合スコア比較部20においては、
単語照合部7において入力信号と単語標準パタンとの照
合時に得られる各状態での照合スコア(状態別照合スコ
ア)を互いに比較して、状態別照合スコアの最大値と、
その最大値を取る状態でみた部分文に対応する音声区間
(入力信号)の継続時間とを求め、その結果20Aを適
合度判定部22へ送る。
In the state-based collation score comparison unit 20,
The word matching unit 7 compares the matching scores in each state (matching score by state) obtained at the time of matching the input signal and the word standard pattern with each other to obtain the maximum value of the matching score by state,
The duration of the voice section (input signal) corresponding to the sub-sentence seen in the state of taking the maximum value is obtained, and the result 20A is sent to the fitness determining unit 22.

【0084】ここで部分文と一致すると判断された入力
信号の区間長の求め方について説明する。
Here, how to obtain the section length of the input signal which is determined to match the sub-sentence will be described.

【0085】部分文の標準パタンであるHMMの或る状
態までに一致する入力信号の区間長は一般に、下記数4
の式(4)、数5の式(5.1),(5.2)、数6の式(6.1) 〜
(6.5)、数7の式(7.1),(7.2)により計算される。
The section length of the input signal that matches up to a certain state of the HMM which is the standard pattern of the sub-sentence is generally expressed by the following equation 4.
Expression (4), Expression 5 (5.1), (5.2), Expression 6 (6.1) ~
(6.5), which is calculated by the equations (7.1) and (7.2) of Equation 7.

【0086】[0086]

【数4】(1) 認識開始時tSの文頭の単語HMMの先頭
状態に対して: length(tS,j)=0 …式(4)
## EQU00004 ## (1) For the head state of the word HMM at the beginning of the sentence at the time t S of recognition start: length (t S , j) = 0 ... Formula (4)

【0087】[0087]

【数5】(2) 認識開始時以外に対して:単語標準パタ
ンの先頭状態以外については length(t+1,j)=length(t,j) …式(5.1) 但し、全ての状態mに対して、 α(t,j)+O(k(t),j→j) ≧α(t,m)+O(k(t),m→j)の時 length(t+1,j)=length(t,m) …式(5.2) 但し、或る状態mに対して、 α(t,j)+O(k(t),j→j)<α(t,m)
+O(k(t),m→j)の時
[Equation 5] (2) For other than at the start of recognition: For other than the leading state of the word standard pattern, length (t + 1, j) = length (t, j) ... Equation (5.1) However, for all states m When α (t, j) + O (k (t), j → j) ≧ α (t, m) + O (k (t), m → j) length (t + 1, j) = length (t, m) Formula (5.2) However, for a certain state m, α (t, j) + O (k (t), j → j) <α (t, m)
When + O (k (t), m → j)

【0088】[0088]

【数6】単語標準パタンの先頭状態については (a) 最初に単語の照合が要求された場合 length(t+1,j)=length(t,F) …式(6.1) 但し、前単語が無音の時 length(t+1,j)=t−begin(t,F) +length(t,F) …式(6.2) 但し、前単語が無音以外の時(b) それ以降 length(t+1,j)=length(t,j) …式(6.3) 但し、α(t,j)+O(k(t),j→j)≧α(t
+1,F)の時 length(t+1,j)=length(t,F) …式(6.4) 但し、α(t,j)+O(k(t),j→j)<α(t
+1,F)で、前単語が無音の時 length(t+1,j)=t−begin(t,F) +length(t,F) …式(6.5) 但し、前単語が無音以外の時
[Equation 6] Regarding the start state of the word standard pattern (a) When the word matching is requested for the first time, length (t + 1, j) = length (t, F) Equation (6.1) However, the preceding word is silent. Time length (t + 1, j) = t-begin (t, F) + length (t, F) Equation (6.2) However, when the previous word is other than silent (b) after that length (t + 1, j) = length ( t, j) Equation (6.3) where α (t, j) + O (k (t), j → j) ≧ α (t
+ 1, F) length (t + 1, j) = length (t, F) Equation (6.4) where α (t, j) + O (k (t), j → j) <α (t
+ 1, F) and the previous word is silent length (t + 1, j) = t-begin (t, F) + length (t, F) Equation (6.5) However, when the previous word is other than silent

【0089】ここで、数4から数6中の記号の意味は次
のとおりである。 length(t,j):時刻tの時点で単語標準パタンの状態j まで照合が進んだ場合の、先行単語の終 了状態までの区間長 m :状態jに遷移可能な前状態から、j自身 を除いたもの。 F :当単語に先行する単語標準パタンの終了 状態
Here, the meanings of the symbols in the equations 4 to 6 are as follows. length (t, j): length of the section to the end state of the preceding word when matching progresses to the state j of the standard word pattern at time t m: j from the previous state that can transit to state j Excluding. F: End state of the word standard pattern preceding this word

【0090】[0090]

【数7】 <時刻t、状態jにおいて見た部分文と一致すると判断さ
れた入力信号の区間長> 部分文末の単語が無音の時 = length(t,j) …式(7.1) 部分文末の単語が無音以外の単語の時 = t−begin(t,j)+length(t,j) …式(7.2)
## EQU00007 ## <Section Length of Input Signal Determined to Match Partial Sentence at Time t, State j> When word at end of partial sentence is silent = length (t, j) Equation (7.1) When the word is a word other than silence = t-begin (t, j) + length (t, j) ... Formula (7.2)

【0091】ここで、図6を例に、単語標準パタンとし
てHMMを用いた場合の部分文と一致すると判断された
入力信号の区間長の計算例を説明する。
Here, with reference to FIG. 6, an example of calculating the section length of the input signal which is determined to match the sub-sentence when the HMM is used as the word standard pattern will be described.

【0092】上記数2の式(2.1) 〜式(2.5) と、数3の
式(3)により各時刻で単語標準パタンと一致した音声
区間長が求められることから、先行する単語に対応する
入力信号の区間長を引き継ぐことで部分文と一致した区
間長を求める。
Since the speech section length that matches the word standard pattern at each time is obtained by the above equations (2.1) to (2.5) and equation (3) of equation 3, it corresponds to the preceding word. The section length that matches the sub-sentence is obtained by taking over the section length of the input signal.

【0093】まず認識開始時tSに文頭の単語の先頭状
態1に部分文長0を記憶する。即ち、length(t
S,状態1)=0である。
First, at the start of recognition t S , the partial sentence length 0 is stored in the head state 1 of the word at the beginning of the sentence. That is, length (t
S , state 1) = 0.

【0094】その後、単語の先頭状態1では、前単語か
らの遷移Aのスコアが自分自身からの遷移Bのスコアよ
り高い場合に前単語の終了状態までの区間長を記憶す
る。
Then, in the first state 1 of the word, when the score of the transition A from the previous word is higher than the score of the transition B from itself, the section length to the end state of the previous word is stored.

【0095】即ち、前単語が無音である場合はleng
th(t,状態3’)を、前単語が無音以外の単語であ
る場合はlength(t,状態3’)+(t)−be
gin(t,状態3’)を、length(t+1,状
態1)に格納する。
That is, if the previous word is silent, len
If th (t, state 3 ′) is a word other than silence, then length (t, state 3 ′) + (t) −be
Store gin (t, state 3 ′) in length (t + 1, state 1).

【0096】先頭状態1以外については、一番高い照合
スコアを与える状態遷移元に保持された時刻を引き継
ぐ。例えばlength(t+3,状態2)=leng
th(t+2,状態2)となる。
For the states other than the first state 1, the time held at the state transition source giving the highest matching score is taken over. For example, length (t + 3, state 2) = length
th (t + 2, state 2).

【0097】この処理を繰り返すことにより、各時刻で
単語標準パタンの各状態において前単語までの部分文と
一致する入力信号の区間長が参照できる。
By repeating this process, it is possible to refer to the section length of the input signal that matches the partial sentence up to the previous word in each state of the word standard pattern at each time.

【0098】このことから、例えば時刻t+5における
状態4において見た、単語標準パタンと一致した入力信
号の区間長は、無音であればlength(t+5,状
態4)となり、無音以外の単語であれば(t+5)−b
egin(t+5,状態4)+length(t+5,
状態4)となる。
From this, for example, the section length of the input signal that matches the word standard pattern seen in state 4 at time t + 5 becomes length (t + 5, state 4) if there is no sound, and if it is a word other than silence, (T + 5) -b
egin (t + 5, state 4) + length (t + 5,
State 4) is reached.

【0099】このような計算により、最も高い照合スコ
アを得られた単語標準パタンの状態において部分文に一
致する区間長を求め、その結果と照合スコアとを適合度
判定部22に送る。
By such a calculation, the section length matching the partial sentence in the state of the word standard pattern having the highest matching score is obtained, and the result and the matching score are sent to the matching degree judging unit 22.

【0100】基準パタン照合部21においては、始端検
出信号3Aを受け取った時点から終端検出信号13Aを
受け取るまで、下記数8の式(8)に従い入力信号と基
準パタン(詳細は後で述べる)との照合を逐次行い、照
合スコアを適合度判定部22に送る。
In the reference pattern matching unit 21, from the time when the start edge detection signal 3A is received to the time when the end edge detection signal 13A is received, the input signal and the reference pattern (details will be described later) are calculated according to the following equation (8). Are sequentially performed, and the matching score is sent to the fitness determining unit 22.

【0101】[0101]

【数8】 (Equation 8)

【0102】ここで用いる基準パタンとしては、図7に
示す雑音標準パタンを結合したモデル、或いは図8に示
す音節認識用標準パタン、或いはこれらを複合(ハイブ
リッド)化した図9に示すパタン等が考えられる。図
7、図8、図9には基準パタンとしてHMMを用いた場
合を示した。ここでは、非定常雑音は図7に示す雑音標
準パタンを結合したモデル、或いは図8に示す音節認識
用標準パタン、或いはこれらをハイブリッド化した図9
に示すパタンと好く適合し、その照合スコアが比較的高
いが、認識対象の音声(単語及び無音)はこれらの基準
パタンとの適合があまり好くなく、比較的照合スコアが
低い、という特性の差を利用している。
As the reference pattern used here, a model in which the noise standard patterns shown in FIG. 7 are combined, a standard pattern for syllable recognition shown in FIG. 8, or a pattern shown in FIG. 9 in which these are combined (hybrid) is used. Conceivable. FIGS. 7, 8 and 9 show the case where the HMM is used as the reference pattern. Here, the non-stationary noise is a model in which the noise standard patterns shown in FIG. 7 are combined, a syllable recognition standard pattern shown in FIG. 8, or a hybrid thereof.
It is a good match with the pattern shown in Fig. 4 and its matching score is relatively high, but the speech to be recognized (words and silence) does not have a good match with these reference patterns and has a relatively low matching score. The difference between is used.

【0103】適合度判定部22は基準パタンの照合スコ
アと状態別照合スコアとの差による条件である下記数9
の式(9)と、部分文の音声区間の継続時間と本来予想
される部分文の継続時間との比に関する条件である下記
数10の式(10)とのいずれかを満たさない場合に、
不適合信号22Aを雑音判定部17に送る。
The conformity determination unit 22 uses the following expression 9 which is a condition based on the difference between the matching score of the reference pattern and the matching score by state.
(9) and the following equation (10), which is a condition related to the ratio of the duration of the voice section of the sub-sentence and the originally expected duration of the sub-sentence, are not satisfied,
The nonconforming signal 22A is sent to the noise determination unit 17.

【0104】[0104]

【数9】 (L(s,t)−Lp (t))÷D(s,t)≧θL …式(9)(9) (L (s, t) −L p (t)) ÷ D (s, t) ≧ θ L (Equation (9)

【0105】ここで、 s(t) :ある時刻tにおける照合スコアが最大で
あった状態 L(s,t):状態s(t)における照合スコア Lp (t) :基準パタンの照合スコア D(s,t):照合結果から求めた部分文と一致する入
力信号の区間長 θL :状態別照合スコアと基準パタンの照合ス
コアとの差の上限を定めるパラメ−タである。D(s,
t)は正規化のために用いている。
Here, s (t): the state in which the matching score is maximum at a certain time t L (s, t): the matching score in the state s (t) L p (t): the matching score of the reference pattern D (S, t): Section length of the input signal that matches the sub-sentence obtained from the matching result θ L : A parameter that determines the upper limit of the difference between the matching score by state and the matching score of the reference pattern. D (s,
t) is used for normalization.

【0106】[0106]

【数10】 M(s、t)×θmin≦D(s,t)≦M(s、t)×θmax …式(10)[Equation 10] M (s, t) × θ min ≦ D (s, t) ≦ M (s, t) × θ max Equation (10)

【0107】ここで、 s(t) :ある時刻tにおける照合スコアが最大で
あった状態 D(s,t):照合結果から求めた部分文と一致する入
力信号の区間長 M(s、t):予想される部分文の区間長 θmin :区間長の下限を定めるパラメータ θmax :区間長の上限を定めるパラメータであ
る。
Here, s (t): the state in which the matching score is maximum at a certain time t D (s, t): the section length M (s, t) of the input signal that matches the partial sentence obtained from the matching result ): Expected section length of sub-sentence θ min : Parameter defining lower limit of section length θ max : Parameter defining upper limit of section length.

【0108】なお、基準パタンとして、図7〜図9に示
したような非定常雑音とは比較的好く適合しその照合ス
コアが比較的高いが、認識対象の音声(単語及び無音)
との適合はあまり好くなく比較的照合スコアが低い、と
いう特性を持つパタンを複数N種類独立的に用いても良
い。その場合は、基準パタン照合部21は各基準パタン
の照合スコアを数8の式(8)により並列的に求める。
n番目の基準パタンの照合スコアをLpn(t)とする
と、適合度判定部22には各基準パタンnに対応した上
限パラメータθLnをN個用意しておき、下記数11の式
(11)で表されるN個の条件のいづれかが満たされな
い場合、数9の式(9)が満たされない場合と同様に、
不適合信号22Aを雑音判定部17に送る。
It should be noted that, as the reference pattern, the non-stationary noise as shown in FIGS. 7 to 9 is relatively favorably matched and the matching score thereof is relatively high, but the speech to be recognized (word and silence).
It is also possible to independently use a plurality of N types of patterns having the characteristic that the matching with is not so favorable and the matching score is relatively low. In that case, the reference pattern matching unit 21 finds the matching scores of the respective reference patterns in parallel by the equation (8) of the equation (8).
Assuming that the matching score of the n-th reference pattern is L pn (t), N pieces of upper limit parameters θ Ln corresponding to each reference pattern n are prepared in the conformity determination unit 22, and the equation (11) below is used. ), If any of the N conditions represented by) is not satisfied, as in the case where the equation (9) of the equation 9 is not satisfied,
The nonconforming signal 22A is sent to the noise determination unit 17.

【0109】[0109]

【数11】 (L(s,t)-Lpn(t))÷D(s,t)≧θLn (但し、n=1〜N) …式(9)[Equation 11] (L (s, t) -L pn (t)) ÷ D (s, t) ≧ θ Ln (where n = 1 to N) Equation (9)

【0110】雑音判定部17は、無音判定部23から送
られる無音区間検出信号23Aと適合度判定部22から
送られる不適合信号22Aを共に受け取った時点で、そ
れ以前の入力が非定常雑音であったと判断し、雑音検出
信号13Aを出力する。
When the noise determining section 17 receives both the silent section detection signal 23A sent from the silence determining section 23 and the nonconforming signal 22A sent from the fitness determining section 22, the input before that is non-stationary noise. Therefore, the noise detection signal 13A is output.

【0111】認識結果出力部10は終端検出部4から終
端検出信号4Aを受け取った後に、部分文生成部9から
送られてきた全ての部分文照合結果9Aのうちで、照合
スコアの最も高い文を認識結果10Aとして出力する。
After receiving the end detection signal 4A from the end detection unit 4, the recognition result output unit 10 has the highest matching score among all the partial sentence matching results 9A sent from the partial sentence generation unit 9. Is output as the recognition result 10A.

【0112】上記実施例では入力信号のパワー計算結果
12Aを用いて始端検出部3及び終端検出部4により音
声区間の始端と終端を検出しているが、パワー計算によ
る音声区間の始端と終端の検出を共に省略することもで
きる。その構成例を図12に示す。図12では図1と比
較すると、音声検出用スイッチ11と音声パワー計算部
12と始端検出部3と終端検出部4がなく、代わりに終
端検出部34がある。終端検出部34では、文法上受理
される全ての部分文の内で照合スコアが最大であること
と言う条件と、文末の無音区間が一定時間以上であるこ
とという条件を共に満たした時点をもって、音声区間の
終端と検出する。具体的には、音声認識装置は起動と同
時に音声認識を開始し、また雑音検出部13も音声認識
装置の起動と同時に非定常雑音の検出を開始し、検出し
た時に雑音検出信号13Aを音響分析結果遅延部2と単
語予測部6に与える。単語予測部6は起動と同時に処理
を開始する。終端検出部34は文法規則5Aと部分文照
合結果9Aとに基づき、文法上受理される全ての部分文
の内で照合スコアが最大であることと言う条件と、文末
の無音に対応する区間が一定時間以上であることという
条件とを共に満たした時点をもって、音声区間の終端を
検出し、終端検出信号34Aを単語予測部6と認識結果
出力部9と雑音検出部13に与えする。他は図1の実施
例と同じである。これにより、入力信号のレベルが低い
場合に従来生じていた始端と終端の検出誤りによる認識
性能の劣化を回避することができる。なお、この場合、
音響分析結果遅延部2は図2に示したような音響分析部
1から送られる音響分析結果1Aを始端検出誤りを避け
るために置かれるマ−ジン時間t1 分だけ遅延させると
いう機能は必要なく、前述の如く音響分析結果を一定の
時間保存しておき、雑音検出部13から雑音検出信号1
3Aを受け取った場合は、一定時刻前の音響分析結果か
ら再度、単語照合部7及び雑音検出部13に送るという
機能を有すればよい。また、基準パタン照合部21は終
端検出信号34Aを受け取った時点で新たに基準パタン
と入力信号との照合を開始する。
In the above-described embodiment, the start end and the end of the voice section are detected by the start end detection section 3 and the end detection section 4 using the power calculation result 12A of the input signal. Both detections can be omitted. An example of the configuration is shown in FIG. Compared to FIG. 1, FIG. 12 does not include the voice detection switch 11, the voice power calculation unit 12, the start end detection unit 3, and the end detection unit 4, but instead includes the end detection unit 34. At the end detection unit 34, when both the condition that the matching score is the maximum among all the sub-sentences that are grammatically accepted and the condition that the silent section at the end of the sentence is a certain time or more are both satisfied, Detects the end of the voice section. Specifically, the voice recognition device starts voice recognition at the same time as starting, and the noise detection unit 13 also starts detecting non-stationary noise at the same time as starting the voice recognition device. At the time of detection, the noise detection signal 13A is acoustically analyzed. It is given to the result delay unit 2 and the word prediction unit 6. The word prediction unit 6 starts the processing at the same time as it is activated. Based on the grammar rule 5A and the partial sentence matching result 9A, the end detection unit 34 determines that the matching score is the maximum among all the partial sentences that are grammatically accepted, and the section corresponding to silence at the end of the sentence. The end of the voice section is detected at the time when both the conditions of being equal to or longer than a certain time are satisfied, and the end detection signal 34A is given to the word prediction unit 6, the recognition result output unit 9, and the noise detection unit 13. Others are the same as the embodiment of FIG. As a result, it is possible to avoid the deterioration of the recognition performance due to the detection error of the start end and the end which has conventionally occurred when the level of the input signal is low. In this case,
The acoustic analysis result delay unit 2 does not need to have a function of delaying the acoustic analysis result 1A sent from the acoustic analysis unit 1 as shown in FIG. 2 by a margin time t1 placed in order to avoid a start end detection error. As described above, the acoustic analysis result is stored for a certain period of time, and the noise detection unit 1 outputs the noise detection signal 1
When 3A is received, it may have a function of sending again to the word matching unit 7 and the noise detection unit 13 based on the acoustic analysis result before a certain time. Further, the reference pattern matching unit 21 newly starts matching between the reference pattern and the input signal at the time of receiving the end detection signal 34A.

【0113】次に、図4に示した実施例の雑音検出部1
3では、部分文照合スコア比較部18で求めた最大の照
合スコアを持つ部分文について構文解析部19により文
末に無音区間があるか否かを判断しているが、逆に図1
3に示すように、構文解析部19により文末に無音区間
がある部分文を探索し、その中で最大の照合スコアを持
つ部分文を部分文照合スコア比較部18で求めるように
しても良い。また、無音区間長の計算は、構文解析部1
9により得られた部分文末が無音である部分文につい
て、部分文照合スコア比較部18と同時並列的に無音区
間長計算部16で行ってもよく、或いは、部分文末に無
音区間があり且つ最大の照合スコアを持つ部分文につい
てのみ無音区間長の計算を行っても良い。
Next, the noise detecting section 1 of the embodiment shown in FIG.
3, the syntactic analysis unit 19 determines whether or not there is a silent section at the end of the sentence with respect to the partial sentence having the maximum matching score obtained by the partial sentence matching score comparison unit 18.
As shown in FIG. 3, the syntactic analysis unit 19 may search for a partial sentence having a silent section at the end of the sentence and the partial sentence matching score comparison unit 18 may find the partial sentence having the maximum matching score. In addition, the calculation of the silent section length is performed by the syntax analysis unit 1
For the partial sentence whose sub-sentence end is silence obtained by 9, the sub-sentence matching score comparison unit 18 may be performed in parallel with the sub-sentence section length calculation unit 16, or a sub-sentence end may have a silence section and maximum. The silent section length may be calculated only for the partial sentence having the matching score of.

【0114】更に、図14に示すように、図4又は図1
3から状態別照合スコア比較部20を省略した構成とし
ても良い。この場合は、状態別照合スコアの最大値と、
最大値を取る状態で見た部分文に対応する入力信号の継
続期間との代わりに、各部分文のうちの照合スコアの最
大値と、最大値を取る部分文に対応する区間の入力信号
の継続期間とを求めてこれらを用いれば良い。
Further, as shown in FIG. 14, as shown in FIG.
It is also possible to omit the state-based collation score comparison unit 20 from the configuration of FIG. In this case, the maximum value of the matching score by state,
Instead of the duration of the input signal corresponding to the sub-sentence seen in the state of taking the maximum value, the maximum value of the matching score of each sub-sentence and the input signal of the section corresponding to the sub-sentence taking the maximum value These may be used by obtaining the duration.

【0115】[0115]

【発明の効果】以上、実施例に基づいて具体的に説明し
たように、本発明は、非定常雑音を除いた音声区間で、
入力信号と単語標準パタンとの照合を行うことができる
ため、音声認識の性能が向上する。
As described above in detail with reference to the embodiments, the present invention provides a voice section excluding non-stationary noise,
Since the input signal can be matched with the word standard pattern, the performance of voice recognition is improved.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例を示すブロック構成図であ
る。
FIG. 1 is a block diagram showing an embodiment of the present invention.

【図2】文法規則の例を示す図である。FIG. 2 is a diagram showing an example of grammar rules.

【図3】部分文と照合スコア計算の説明図である。FIG. 3 is an explanatory diagram of partial sentences and matching score calculation.

【図4】雑音検出部の一実施例を示すブロック構成図で
ある。
FIG. 4 is a block diagram showing an embodiment of a noise detection unit.

【図5】単語標準パタンと一致する区間長計算の説明図
である。
FIG. 5 is an explanatory diagram of a section length calculation that matches a word standard pattern.

【図6】部分文と一致する区間長計算の説明図である。FIG. 6 is an explanatory diagram of section length calculation that matches a partial sentence.

【図7】基準パタンの一例(雑音標準パタン)を示す図
である。
FIG. 7 is a diagram showing an example of a reference pattern (noise standard pattern).

【図8】基準パタンの一例(音節認識用標準パタン)を
示す図である。
FIG. 8 is a diagram showing an example of a reference pattern (standard pattern for syllable recognition).

【図9】基準パタンの一例(雑音標準パタンと音節認識
用標準パタンのハイブリッド構成)を示す図である。
FIG. 9 is a diagram showing an example of a reference pattern (hybrid configuration of noise standard pattern and syllable recognition standard pattern).

【図10】従来例のブロック構成図である。FIG. 10 is a block diagram of a conventional example.

【図11】パワーを用いた音声区間検出の例を示す図で
ある。
FIG. 11 is a diagram showing an example of voice section detection using power.

【図12】本発明の他の実施例を示すブロック構成図で
ある。
FIG. 12 is a block diagram showing another embodiment of the present invention.

【図13】雑音検出部の他の実施例を示すブロック構成
図である。
FIG. 13 is a block diagram showing another embodiment of the noise detection unit.

【図14】雑音検出部の更に他の実施例を示すブロック
構成図である。
FIG. 14 is a block diagram showing still another embodiment of the noise detection unit.

【符号の説明】[Explanation of symbols]

1 音響分析部 2 音響分析結果遅延部 3 始端検出部 4 終端検出部 5 文法規則格納部 6 単語予測部 7 単語照合部 8 単語標準パタン格納部 9 部分文生成部 10 認識結果出力部 11 音声区間検出用スイッチ 12 音声パワ−計算部 13 雑音検出部 16 無音区間長計算部 17 雑音判定部 18 部分文照合スコア比較部 19 構文解析部 20 状態別照合スコア比較部 21 基準パタン照合部 22 適合度判定部 23 無音判定部 34 終端検出部 1 acoustic analysis unit 2 acoustic analysis result delay unit 3 start edge detection unit 4 end detection unit 5 grammar rule storage unit 6 word prediction unit 7 word matching unit 8 word standard pattern storage unit 9 partial sentence generation unit 10 recognition result output unit 11 speech section Detection switch 12 Speech power calculation unit 13 Noise detection unit 16 Silence section length calculation unit 17 Noise determination unit 18 Partial sentence matching score comparison unit 19 Syntax analysis unit 20 State-based matching score comparison unit 21 Reference pattern matching unit 22 Fitness level determination Part 23 Silence determination part 34 End detection part

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G10L 3/00 561 G10L 3/00 561G 5/06 5/06 A ─────────────────────────────────────────────────── ─── Continuation of the front page (51) Int.Cl. 6 Identification code Internal reference number FI Technical display location G10L 3/00 561 G10L 3/00 561G 5/06 5/06 A

Claims (12)

【特許請求の範囲】[Claims] 【請求項1】単語標準パタンを文法規則に基づき連続的
に入力信号と照合することで音声を認識する装置におい
て、 入力信号と単語標準パタンとの照合結果より得られる、
部分文の照合スコアと構文解析結果、無音の標準パタン
と一致すると判断される入力信号の区間長、及び、入力
信号と部分文の適合度を基に非定常雑音等を検出し、音
声区間の始端を補正することを特徴とする音声区間始端
補正方法。
1. An apparatus for recognizing a voice by continuously matching a standard word pattern with an input signal based on a grammatical rule, which is obtained from a matching result between the input signal and the standard word pattern.
Matching score of sub-sentence and syntactic analysis result, section length of input signal judged to match with silent standard pattern, and non-stationary noise etc. are detected based on conformity of input signal and sub-sentence, A method for correcting the beginning of a voice section, characterized by correcting the beginning.
【請求項2】単語標準パタンを文法規則に基づき入力信
号と照合することにより音声を認識するに際し、 入力信号と単語標準パタンとの照合結果より得られる部
分文とその照合スコアから、無音で終わる部分文の照合
スコアが最大であるという第1の条件を満たし、且つ、
部分文文末の無音に相当する入力信号の区間長が予め定
めた時間以上であるという第2の条件を満たす部分文が
存在するか否かを判定すること、 第1と第2の条件を共に満たすと判定した時点で、入力
信号と別途定めた基準パタンとの照合スコアを基準スコ
アとし、それ以前の区間の前記入力信号と単語標準パタ
ンとの照合結果より得られた同部分文の照合スコアと前
記基準スコアとの差が所定の範囲内であるという第3の
条件が満たされるか否かを判定すること、 第3の条件が満たされると判定した時、第1と第2の条
件を共に満たすと判定した部分文に対応する区間の入力
信号が非定常雑音であると判定し、音声区間の始端を補
正することを特徴とする音声区間始端補正方法。
2. When recognizing a voice by matching a standard word pattern with an input signal based on a grammatical rule, a partial sentence obtained from the matching result of the input signal and the standard word pattern and its matching score end silently. The first condition that the matching score of the sub-sentence is maximum is satisfied, and
It is determined whether or not there is a sub-sentence that satisfies the second condition that the section length of the input signal corresponding to silence at the end of the sub-sentence is equal to or longer than a predetermined time, and both the first and second conditions are determined. When it is determined that they satisfy, the matching score of the input signal and the separately defined reference pattern is used as the reference score, and the matching score of the same sub-sentence obtained from the matching result of the input signal and the word standard pattern in the previous section. And whether the third condition that the difference between the reference score and the reference score is within a predetermined range is satisfied. When it is determined that the third condition is satisfied, the first condition and the second condition are determined. A method for correcting the beginning of a voice section, characterized in that the input signal in the section corresponding to a sub-sentence that is determined to satisfy both is determined to be non-stationary noise, and the beginning of the voice section is corrected.
【請求項3】前記第1と第2と第3の条件を満たした時
点で、前記第1と第2の条件を共に満たすと判定した部
分文に対応した入力信号の区間長を求め、この区間長が
所定の範囲で前記部分文の標準区間長に適合するという
第4の条件が満たされるか否かを判定すること、 第4の条件が満たされると判定した時、前記第1、第2
及び第3の条件を共に満たすと判定した部分文に対応す
る区間の入力信号が非定常雑音であると判定し、音声区
間の始端を補正することを特徴とする請求項2に記載の
音声区間始端補正方法。
3. When the first, second, and third conditions are satisfied, the section length of the input signal corresponding to the sub-sentence determined to satisfy both the first and second conditions is obtained, and Determining whether or not a fourth condition that the section length conforms to the standard section length of the sub-sentence within a predetermined range is satisfied; and when it is determined that the fourth condition is satisfied, the first and the first Two
3. The voice section according to claim 2, wherein the input signal of the section corresponding to the sub-sentence determined to satisfy both the first and third conditions is non-stationary noise, and the start end of the voice section is corrected. Starting point correction method.
【請求項4】前記第3の条件に代えて、第1と第2の条
件を共に満たすと判定した部分文について、同部分文の
各状態での照合スコアを比較して最大値を求め、この最
大値を取る状態で見た同部分文に対応した入力信号と別
途定めた基準パタンとの照合スコアを基準スコアとし、
この基準スコアと前記最大値との差が所定の範囲内であ
るという第5の条件が満たされるか否かを判定するこ
と、 第5の条件が満たされると判定した時、第1と第2の条
件を共に満たすと判定した部分文に対応する区間の入力
信号が非定常雑音であると判定し、音声区間の始端を補
正することを特徴とする請求項2に記載の音声区間始端
補正方法。
4. For a sub-sentence that is determined to satisfy both the first and second conditions in place of the third condition, collation scores in each state of the sub-sentence are compared to obtain a maximum value, The reference score is the matching score between the input signal corresponding to the same sub-sentence and the reference pattern defined separately when the maximum value is taken,
It is determined whether a fifth condition that the difference between the reference score and the maximum value is within a predetermined range is satisfied. When it is determined that the fifth condition is satisfied, the first and second 3. The method of correcting the beginning of a voice section according to claim 2, wherein the input signal of the section corresponding to the sub-sentences that are determined to satisfy both conditions is non-stationary noise, and the beginning of the voice section is corrected. .
【請求項5】前記第1と第2の条件を共に満たすと判定
した部分文のうち前記最大値を取る状態で見た同部分文
に対応した入力信号の区間長を求め、この区間長が所定
の範囲で同部分文の平均区間長に適合するという第6の
条件が満たされるか否かを判定すること、 第6の条件が満たされると判定した時、前記第1、第2
及び第5の条件を共に満たすと判定した部分文に対応す
る区間の入力信号が非定常雑音であると判定し、音声区
間の始端を補正することを特徴とする請求項4に記載の
音声区間始端補正方法。
5. A section length of an input signal corresponding to a sub-sentence found in a state where the maximum value is obtained among sub-sentences determined to satisfy both the first and second conditions, and the section length is Determining whether or not a sixth condition that the average section length of the same partial sentence is satisfied within a predetermined range is satisfied; and when determining that the sixth condition is satisfied, the first and second conditions are satisfied.
5. The voice section according to claim 4, wherein the input signal of the section corresponding to the sub-sentence determined to satisfy both the first and fifth conditions is non-stationary noise, and the beginning of the voice section is corrected. Starting point correction method.
【請求項6】前記音声区間の始端の補正として、部分文
に対応する区間の入力信号が非定常雑音であると判定し
た時点より一定時間前に、音声区間の始端を補正するこ
とを特徴とする請求項1から5いづれかに記載の音声区
間始端補正方法。
6. The correction of the start of the voice section, the start of the voice section is corrected at a certain time before a time point when the input signal of the section corresponding to the partial sentence is determined to be non-stationary noise. The method for correcting a voice section start end according to any one of claims 1 to 5.
【請求項7】単語標準パタンを文法規則に基づき入力信
号と照合することにより音声を認識する装置において、 入力信号と単語標準パタンとの照合結果より得られる部
分文とその照合スコアから、無音で終わる部分文の照合
スコアが最大であるという第1の条件を満たし、且つ、
部分文文末の無音に相当する入力信号の区間長が予め定
めた時間以上であるという第2の条件を満たす部分文が
存在するか否かを判定する第1の判定手段と、 第1と第2の条件を共に満たすと判定した時点で、入力
信号と別途定めた基準パタンとの照合スコアを基準スコ
アとし、それ以前の区間の前記入力信号と単語標準パタ
ンとの照合結果より得られた同部分文の照合スコアと前
記基準スコアとの差が所定の範囲内であるという第3の
条件が満たされるか否かを判定する第2の判定手段と、 第3の条件が満たされると判定した時、第1と第2の条
件を共に満たすと判定した部分文に対応する区間の入力
信号が非定常雑音であると判定し、音声区間の始端を補
正する第3の手段を有することを特徴とする音声区間始
端補正装置。
7. An apparatus for recognizing a voice by matching a standard word pattern with an input signal based on a grammatical rule, in a silent state from a partial sentence obtained from the matching result of the input signal and the standard word pattern and its matching score. The first condition that the matching score of the ending sub-sentence is maximum is satisfied, and
First determining means for determining whether or not there is a partial sentence satisfying the second condition that the section length of the input signal corresponding to silence at the end of the partial sentence is equal to or longer than a predetermined time; When it is determined that both conditions of 2 are satisfied, the matching score of the input signal and the separately defined reference pattern is set as the reference score, and the matching score obtained from the matching result of the input signal and the word standard pattern in the section before that. Second determination means for determining whether or not a third condition that the difference between the matching score of the partial sentence and the reference score is within a predetermined range is satisfied, and it is determined that the third condition is satisfied. At this time, a third means is provided for determining that the input signal of the section corresponding to the sub-sentence determined to satisfy both the first and second conditions is non-stationary noise, and correcting the beginning of the voice section. The voice section start correction device.
【請求項8】前記第1と第2と第3の条件を満たした時
点で、前記第1と第2の条件を共に満たすと判定した部
分文に対応した入力信号の区間長を求め、この区間長が
所定の範囲で前記部分文の標準区間長に適合するという
第4の条件が満たされるか否かを判定する手段を有し、 前記第3の手段は第4の条件が満たされると判定した
時、前記第1、第2及び第3の条件を共に満たすと判定
した部分文に対応する区間の入力信号が非定常雑音であ
ると判定し、音声区間の始端を補正することを特徴とす
る請求項7に記載の音声区間始端補正装置。
8. When the first, second and third conditions are satisfied, the section length of the input signal corresponding to the sub-sentence determined to satisfy both the first and second conditions is calculated, and The third means has means for judging whether or not a fourth condition that the section length conforms to the standard section length of the sub-sentence in a predetermined range is satisfied, and the third means, when the fourth condition is satisfied. When the determination is made, it is determined that the input signal of the section corresponding to the sub-sentence determined to satisfy all the first, second and third conditions is non-stationary noise, and the start end of the speech section is corrected. The voice section start end correction device according to claim 7.
【請求項9】前記第2の判定手段は前記第3の条件に代
えて、第1と第2の条件を共に満たすと判定した部分文
について、同部分文の各状態での照合スコアを比較して
最大値を求め、この最大値を取る状態で見た同部分文に
対応した入力信号と別途定めた基準パタンとの照合スコ
アを基準スコアとし、この基準スコアと前記最大値との
差が所定の範囲内であるという第5の条件が満たされる
か否かを判定すること、 前記第3の手段は第5の条件が満たされると判定した
時、第1と第2の条件を共に満たすと判定した部分文に
対応する区間の入力信号が非定常雑音であると判定し、
音声区間の始端を補正することを特徴とする請求項7に
記載の音声区間始端補正装置。
9. The second determination means compares the matching scores in each state of the same sub-sentence with respect to the sub-sentence determined to satisfy both the first and second conditions instead of the third condition. Then, the maximum value is obtained, and the matching score between the input signal corresponding to the same sub-sentence and the separately determined reference pattern seen in the state of taking the maximum value is set as the reference score, and the difference between this reference score and the maximum value is Determining whether or not a fifth condition of being within a predetermined range is satisfied, and when the third means determines that the fifth condition is satisfied, both of the first and second conditions are satisfied. It is determined that the input signal in the section corresponding to the sub-sentence determined to be non-stationary noise,
The voice section start end correction device according to claim 7, wherein the start point of the voice section is corrected.
【請求項10】前記第1と第2の条件を共に満たすと判
定した部分文のうち前記最大値を取る状態で見た同部分
文に対応した入力信号の区間長を求め、この区間長が所
定の範囲で同部分文の平均区間長に適合するという第6
の条件が満たされるか否かを判定する手段を有し、 前記第3の手段は第6の条件が満たされると判定した
時、前記第1、第2及び第5の条件を共に満たすと判定
した部分文に対応する区間の入力信号が非定常雑音であ
ると判定し、音声区間の始端を補正することを特徴とす
る請求項9に記載の音声区間始端補正装置。
10. A section length of an input signal corresponding to the same sub-sentence found in a state where the maximum value is obtained among sub-sentences determined to satisfy both the first and second conditions, and the section length is No. 6 that fits the average section length of the same sub-sentence within a predetermined range
And a means for determining whether or not the condition is satisfied, and when the third means determines that the sixth condition is satisfied, it is determined that both the first, second and fifth conditions are satisfied. 10. The voice section start edge correction device according to claim 9, wherein the input signal in the section corresponding to the partial sentence is determined to be non-stationary noise, and the start edge of the voice section is corrected.
【請求項11】単語標準パタンを文法規則に基づき入力
信号と照合することで音声を認識する装置の起動時に、
入力信号のパワー計算等により音声区間の始端を検出し
た後、この検出した始端を請求項1から6いずれかに記
載の音声区間始端補正方法により補正して音声認識を行
うことを特徴とする音声認識方法。
11. When starting a device for recognizing a voice by matching a standard word pattern with an input signal based on a grammar rule,
A voice which is characterized in that after detecting the start of a voice section by calculating the power of an input signal or the like, the detected start is corrected by the voice section start correction method according to any one of claims 1 to 6 to perform voice recognition. Recognition method.
【請求項12】単語標準パタンを文法規則に基づき入力
信号と照合することで音声を認識する装置の起動時に、
入力信号のパワー計算等による音声区間の始端を検出す
ることなく音声認識と、請求項1から6いずれかに記載
の音声区間始端補正方法とを開始し、この音声区間始端
補正方法により補正しながら音声認識を行うと共に、 入力信号のパワー計算による音声区間の終端を検出する
ことなく、入力信号と単語標準パタンとの照合結果より
得られる、部分文の照合スコア及び構文解析結果と、無
音の標準パタンと一致すると判断される入力信号の区間
長とを基に音声区間の終端を検出して音声認識を終了す
ることを特徴とする音声認識方法。
12. When starting a device for recognizing a voice by matching a standard word pattern with an input signal based on grammatical rules,
The voice recognition and the voice section start end correction method according to any one of claims 1 to 6 are started without detecting the start point of the voice section based on the power calculation of the input signal, and the correction is performed by this voice section start end correction method. While performing voice recognition, without detecting the end of the voice section by calculating the power of the input signal, the matching score and parsing result of the partial sentence, which is obtained from the matching result of the input signal and the word standard pattern, and the silent standard. A voice recognition method, characterized in that the end of a voice section is detected based on the section length of an input signal determined to match a pattern and the voice recognition is ended.
JP06823096A 1996-03-25 1996-03-25 Method and apparatus for correcting beginning of voice section for voice recognition and voice recognition method Expired - Fee Related JP3428805B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06823096A JP3428805B2 (en) 1996-03-25 1996-03-25 Method and apparatus for correcting beginning of voice section for voice recognition and voice recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06823096A JP3428805B2 (en) 1996-03-25 1996-03-25 Method and apparatus for correcting beginning of voice section for voice recognition and voice recognition method

Publications (2)

Publication Number Publication Date
JPH09258765A true JPH09258765A (en) 1997-10-03
JP3428805B2 JP3428805B2 (en) 2003-07-22

Family

ID=13367794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06823096A Expired - Fee Related JP3428805B2 (en) 1996-03-25 1996-03-25 Method and apparatus for correcting beginning of voice section for voice recognition and voice recognition method

Country Status (1)

Country Link
JP (1) JP3428805B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005098820A1 (en) * 2004-03-31 2005-10-20 Pioneer Corporation Speech recognition device and speech recognition method
JP2006082154A (en) * 2004-09-14 2006-03-30 Fuji Electric Systems Co Ltd Blade tool diagnostic device and diagnostic method
JP2006227030A (en) * 2005-01-20 2006-08-31 Advanced Telecommunication Research Institute International Pronunciation evaluating device and program
JP2011002494A (en) * 2009-06-16 2011-01-06 Nippon Telegr & Teleph Corp <Ntt> Speech recognition device and method thereof, program and recording medium
JP2012048119A (en) * 2010-08-30 2012-03-08 Nippon Telegr & Teleph Corp <Ntt> Voice interval detecting method, speech recognition method, voice interval detector, speech recognition device, and program and storage method therefor
JP2014049100A (en) * 2012-09-04 2014-03-17 Future Univ-Hakodate Learning device, determination device, behavior state determination system, and determination method

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005098820A1 (en) * 2004-03-31 2005-10-20 Pioneer Corporation Speech recognition device and speech recognition method
US7813921B2 (en) 2004-03-31 2010-10-12 Pioneer Corporation Speech recognition device and speech recognition method
JP2006082154A (en) * 2004-09-14 2006-03-30 Fuji Electric Systems Co Ltd Blade tool diagnostic device and diagnostic method
JP2006227030A (en) * 2005-01-20 2006-08-31 Advanced Telecommunication Research Institute International Pronunciation evaluating device and program
JP2011002494A (en) * 2009-06-16 2011-01-06 Nippon Telegr & Teleph Corp <Ntt> Speech recognition device and method thereof, program and recording medium
JP2012048119A (en) * 2010-08-30 2012-03-08 Nippon Telegr & Teleph Corp <Ntt> Voice interval detecting method, speech recognition method, voice interval detector, speech recognition device, and program and storage method therefor
JP2014049100A (en) * 2012-09-04 2014-03-17 Future Univ-Hakodate Learning device, determination device, behavior state determination system, and determination method

Also Published As

Publication number Publication date
JP3428805B2 (en) 2003-07-22

Similar Documents

Publication Publication Date Title
JP3004883B2 (en) End call detection method and apparatus and continuous speech recognition method and apparatus
US11361763B1 (en) Detecting system-directed speech
JP6705008B2 (en) Speaker verification method and system
CN108320733B (en) Voice data processing method and device, storage medium and electronic equipment
CN107810529B (en) Language model speech endpoint determination
US10678504B1 (en) Maintaining context for voice processes
KR101183344B1 (en) Automatic speech recognition learning using user corrections
JP4836290B2 (en) Speech recognition system, speech recognition program, and speech recognition method
US7634401B2 (en) Speech recognition method for determining missing speech
JP2001517816A (en) A speech recognition system for recognizing continuous and separated speech
KR19990087935A (en) Apparatus and method for automatically generating punctuation marks in continuous speech recognition
JP2007057844A (en) Speech recognition system and speech processing system
JPH11175090A (en) Speaker clustering processor and voice recognition device
US5706397A (en) Speech recognition system with multi-level pruning for acoustic matching
JP3428805B2 (en) Method and apparatus for correcting beginning of voice section for voice recognition and voice recognition method
JPH11184491A (en) Voice recognition device
US11978445B1 (en) Confidence scoring for selecting tones and text of voice browsing conversations
JP3633254B2 (en) Voice recognition system and recording medium recording the program
JP2003076390A (en) Method and system for authenticating speaker
JP3006496B2 (en) Voice recognition device
JP3104900B2 (en) Voice recognition method
JP2006010739A (en) Speech recognition device
JP4449380B2 (en) Speaker normalization method and speech recognition apparatus using the same
JP2003044085A (en) Dictation device with command input function
JP3868798B2 (en) Voice recognition device

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030408

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120516

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150516

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees