JP2003050595A - Device and method for speech recognition, and program - Google Patents

Device and method for speech recognition, and program

Info

Publication number
JP2003050595A
JP2003050595A JP2001239710A JP2001239710A JP2003050595A JP 2003050595 A JP2003050595 A JP 2003050595A JP 2001239710 A JP2001239710 A JP 2001239710A JP 2001239710 A JP2001239710 A JP 2001239710A JP 2003050595 A JP2003050595 A JP 2003050595A
Authority
JP
Japan
Prior art keywords
word
likelihood
ratio
candidate
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001239710A
Other languages
Japanese (ja)
Other versions
JP4604424B2 (en
Inventor
Shigeru Kafuku
滋 加福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2001239710A priority Critical patent/JP4604424B2/en
Publication of JP2003050595A publication Critical patent/JP2003050595A/en
Application granted granted Critical
Publication of JP4604424B2 publication Critical patent/JP4604424B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To improve the precision of speech recognition by removing noise showing high likelihood as a result of speech recognition. SOLUTION: An inputted speech is sectioned into frames having specific time intervals and power component of the respective frames are found. A speech section is extracted according to the values of the power components and speech features of the respective speech sections are extracted. According to the speech features of the respective speech sections and a prepared hidden Markov phoneme model, the word having the highest likelihood among words contained in a word dictionary is extracted as a candidate. According to the acquired likelihood, maximum likelihood, and minimum likelihood of each frame, a likelihood reliability rate is found and compared with a previously set threshold. When the likelihood reliability rate exceeds the threshold, the vowel rate in the extracted speech section is found and then compared with a previously set threshold. When a vowel rate exceeds the threshold, the word as the candidate is outputted as a speech recognition result, but when the likelihood reliability rate or the vowel rate is less than each threshold, the word as the candidate is discarded.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、不特定話者または
特定話者の発話を音声認識する音声認識装置等に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition device and the like for recognizing speech of an unspecified speaker or a specified speaker.

【0002】[0002]

【従来の技術】音声認識処理を行う場合、話者がマイク
から入力した音声をデジタルデータ化したPCMデータ
からノイズなどの無関係なデータを極力排除し、話者が
発声した音声だけを切り出して音声認識し、認識結果を
返すことが理想である。無関係なデータを切り出して、
意味のない認識結果を返してしまうことは、混乱を生む
原因となる。
2. Description of the Related Art When performing voice recognition processing, irrelevant data such as noise is excluded as much as possible from PCM data obtained by converting the voice input by a speaker from a microphone into digital data, and only the voice uttered by the speaker is cut out. It is ideal to recognize and return the recognition result. Cut out irrelevant data,
Returning meaningless recognition results can cause confusion.

【0003】ノイズに強い音声認識システムを構築する
ためには、音声区間の検出精度を向上させるのに加え
て、話者が発した音声以外のノイズなどを音声区間とし
て誤って検出してしまった場合にも、その誤って検出し
た区間を棄却することが望まれる。音声以外から誤って
検出した音声区間を棄却することができれば、すぐに再
び音声入力待ちの状態に戻すことができ、何事もなかっ
たかのように処理していくことが可能である。
In order to construct a voice recognition system resistant to noise, in addition to improving the detection accuracy of the voice section, noise other than the voice uttered by the speaker is erroneously detected as the voice section. Even in this case, it is desirable to reject the erroneously detected section. If it is possible to reject a voice section that is erroneously detected from a source other than voice, it is possible to immediately return to the state of waiting for voice input, and it is possible to process as if nothing had happened.

【0004】ここで、音声区間を検出するための処理で
は、一般に、音声のパワー成分に着目し、パワーが大き
く増大する部分を音声の開始区間と判断している。そし
て、パワーが大きな部分が連続して長時間続かずに、短
時間の後に下がってしまう部分については、ノイズと見
なして棄却するようにしている。
Here, in the processing for detecting the voice section, generally, attention is paid to the power component of the voice, and it is judged that the portion where the power greatly increases is the voice start section. Then, a portion where the power is large does not continue for a long time and drops after a short time is considered as noise and is discarded.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、このよ
うな処理では、話者が発した音声と似たようなパワー成
分を持つノイズを棄却することができずに、音声区間で
あると判断してしまうことになる。また、「ええと」な
どといった話者が本来発話したい内容と無関係な音声
は、音声区間の検出だけでは棄却することができない。
However, in such processing, it is not possible to reject noise having a power component similar to the voice uttered by the speaker, and it is determined that it is in the voice section. Will end up. Also, a voice such as "umu" that is unrelated to the content that the speaker originally wants to speak cannot be rejected only by detecting the voice section.

【0006】そこで、パワー成分に基づく判断で音声区
間として検出された部分については、全て音声認識処理
を行い、認識結果が正解である確率、すなわち認識結果
の尤度を判定して、音声認識結果を出力するか、または
検出された音声区間を棄却して再び入力待ちの状態に戻
すかしている。ここで、認識結果の確からしさを求め方
としては、連続音素認識の結果との比較、ガベージモデ
ルの尤度との差の比較、などの方法が一般的に適用され
ている。
Therefore, all the portions detected as the voice section by the determination based on the power component are subjected to the voice recognition processing, and the probability that the recognition result is correct, that is, the likelihood of the recognition result is determined, and the voice recognition result is determined. Is output, or the detected voice section is rejected and the input waiting state is restored again. Here, as a method of obtaining the certainty of the recognition result, a method such as comparison with the result of continuous phoneme recognition, comparison with the difference with the likelihood of the garbage model, etc. is generally applied.

【0007】ところが、現実の世界で発生するノイズ
は、種々雑多であり、認識結果の尤度が高いと判定され
てしまうようなものも中には存在する。とりわけこのよ
うなノイズが多く発生するような環境では、上記したよ
うな従来の方法だけでは、ノイズの区間を棄却できる確
率が十分なものとならず、音声認識の精度が低くなって
しまうという問題があった。
However, there are various kinds of noises generated in the real world, and some noises are judged to have a high likelihood of the recognition result. Especially in such an environment where a lot of noise is generated, the problem that the accuracy of voice recognition becomes low due to insufficient probability that the noise section can be rejected only by the conventional method described above. was there.

【0008】本発明は、上記従来技術の問題点を解消す
るためになされたものであり、音声認識の結果として高
い尤度を示しているノイズを棄却できるようにすること
で、音声認識の精度を高くすることができる音声認識装
置及び方法、並びにそのためのプログラムを提供するこ
とを目的とする。
The present invention has been made in order to solve the above-mentioned problems of the prior art, and it is possible to reject noise showing a high likelihood as a result of the voice recognition, thereby improving the accuracy of the voice recognition. It is an object of the present invention to provide a voice recognition device and method capable of increasing the sound quality, and a program therefor.

【0009】[0009]

【課題を解決するための手段】上記目的を達成するた
め、本発明の第1の観点にかかる音声認識装置は、認識
対象となる音声に含まれる各音素をモデル化した音素モ
デルを格納した音素モデル格納手段と、認識結果として
出力されるべき複数種類の単語の音素パターン系列をそ
れぞれ登録した単語辞書を格納した単語辞書格納手段
と、入力された音声を前記音素モデル及び前記単語辞書
を参照して音声認識し、前記単語辞書に登録された各種
類の単語の尤度を求め、該求めた尤度に基づいて、認識
結果として出力される単語の候補を抽出する候補単語抽
出手段と、前記入力された音声に含まれる母音と子音と
の比率を算出する比率算出手段と、前記比率算出手段が
算出した母音と子音との比率が所定の範囲にあるかどう
かを判定する比率判定手段と、前記比率判定手段が所定
の範囲にあると判定したときに、前記候補単語抽出手段
が候補として抽出した単語を音声認識結果として出力す
る結果出力手段とを備えることを特徴とする。
In order to achieve the above object, a speech recognition apparatus according to a first aspect of the present invention is a phoneme storing a phoneme model in which each phoneme included in a speech to be recognized is modeled. Model storage means, word dictionary storage means for storing a word dictionary in which phoneme pattern sequences of a plurality of types of words to be output as recognition results are stored, and input speech is referred to the phoneme model and the word dictionary. A candidate word extracting means for recognizing a voice by performing voice recognition, obtaining likelihoods of respective types of words registered in the word dictionary, and extracting candidate words output as a recognition result based on the obtained likelihoods; Ratio calculating means for calculating the ratio of vowels and consonants contained in the input voice, and ratio determination for determining whether the ratio of vowels and consonants calculated by the ratio calculating means is within a predetermined range When the stage, said ratio determining means determines to be in the predetermined range, characterized in that it comprises a result output means for outputting words the candidate word extracting means has extracted as a candidate as the speech recognition result.

【0010】上記音声認識装置では、入力された音声を
音声認識して候補単語抽出手段から候補単語が抽出され
ても、これをそのまま最終的な音声認識結果として出力
せず、さらに入力された音声に含まれる母音と子音との
比率による判定が行われる。ノイズを音声認識して尤度
の高い第1候補単語が抽出されたとしても、母音と子音
との比率が人間の発話した音声としてあり得ないような
範囲にあれば、これを棄却して音声認識結果として出力
しないでよいので、音声認識の精度を高くすることがで
きる。
In the above speech recognition apparatus, even if the input speech is speech-recognized and the candidate word is extracted from the candidate word extracting means, this is not output as it is as the final speech recognition result, and the input speech is further inputted. Is determined by the ratio of the vowels and the consonants included in. Even if the first candidate word with a high likelihood is extracted by voice recognition of noise, if the ratio of vowels and consonants is in a range that cannot be assumed as a voice spoken by a human, this is rejected and voiced. Since it is not necessary to output the recognition result, the accuracy of voice recognition can be increased.

【0011】上記音声認識装置において、前記比率判定
手段は、前記母音と子音との比率を予め設定された閾値
と比較することで、所定の範囲にあるかどうかの判定を
行うことができる。
In the above speech recognition apparatus, the ratio determining means can determine whether the ratio is in a predetermined range by comparing the ratio between the vowel and the consonant with a preset threshold value.

【0012】人間が発話した音声は、一般に、そこに含
まれる母音の比率が極端に低い値とはならないことが知
られている。比率判定手段の比較に用いる閾値を、人間
が発話した音声とは考えられないような値に設定してお
けば、母音の比率が極端に低いものをノイズと判断して
棄却することができる。
It is known that speech spoken by humans generally does not have an extremely low ratio of vowels contained therein. If the threshold value used for the comparison of the ratio determining means is set to a value that is not considered to be a voice uttered by a human, it is possible to judge that the ratio of vowels is extremely low as noise and reject it.

【0013】上記音声認識装置において、前記単語辞書
は、前記複数種類の単語のそれぞれに対応付けて、さら
に前記比率判定手段の判定に用いるための比率範囲を登
録していてもよい。この場合、前記比率判定手段は、前
記母音と子音との比率が前記候補単語抽出手段が候補と
して抽出した単語に対応した比率範囲にあるかどうかを
判定するものとすることができる。
In the above speech recognition device, the word dictionary may be associated with each of the plurality of types of words and may further register a ratio range for use in the judgment of the ratio judgment means. In this case, the ratio determining means may determine whether the ratio between the vowel and the consonant is within the ratio range corresponding to the word extracted as a candidate by the candidate word extracting means.

【0014】単語の中には、本来的に母音の比率が高い
ものと、それほど高くないものとが含まれている。本来
的な母音の比率が高いか低いかによって、単語毎に比率
範囲を設定しておくことにより、ノイズを棄却できる場
合が増え、精度の高い音声認識を行うことができるよう
になる。
The words include those with a high ratio of vowels and those with a low vowel ratio. By setting the ratio range for each word depending on whether the ratio of the original vowels is high or low, the number of cases in which noise can be rejected increases and it becomes possible to perform highly accurate speech recognition.

【0015】上記音声認識装置は、同一の話者から入力
された同一の単語について、前記比率算出手段が算出し
た母音と子音との比率の履歴を複数回分登録する履歴登
録手段をさらに備えていてもよい。この場合、少なくと
も1の単語に対応付けて前記単語辞書に登録された比率
範囲は、前記履歴登録手段に登録された比率の履歴に従
って算出されたものとすることができる。
The voice recognition apparatus further comprises history registration means for registering a plurality of times of the history of the ratio of vowels and consonants calculated by the ratio calculation means for the same word input by the same speaker. Good. In this case, the ratio range registered in the word dictionary in association with at least one word may be calculated according to the history of the ratio registered in the history registration means.

【0016】特定話者が同じ単語を何回か発話した場
合、同じ単語内に含まれる母音の比率はほぼ同じになる
ことが知られている。このため、特に特定話者の音声認
識について母音と子音との比率の履歴を登録しておき、
登録された履歴に基づいて比率範囲を調整することによ
り、より正確な音声認識を行えるようになる。
It is known that when a specific speaker utters the same word several times, the ratio of vowels contained in the same word becomes almost the same. Therefore, the history of the ratio of vowels and consonants is registered especially for the voice recognition of a specific speaker,
By adjusting the ratio range based on the registered history, more accurate voice recognition can be performed.

【0017】上記音声認識装置は、前記候補単語抽出手
段は、尤度の高いほうから順位付けられた複数の単語の
候補を抽出してもよい。この場合、前記比率算出手段
は、尤度の高い単語から順に母音と子音との比率を算出
し、該算出した母音と子音との比率が所定の範囲にない
と前記比率判定手段によって判定されたときに、次の順
位の単語について母音と子音との比率を算出するものと
することができる。
In the above speech recognition apparatus, the candidate word extracting means may extract a plurality of word candidates ranked in order of increasing likelihood. In this case, the ratio calculating means calculates the ratio of vowels and consonants in order from the word having the highest likelihood, and the ratio determining means determines that the calculated ratio of vowels and consonants is not within a predetermined range. Occasionally, the ratio of vowels and consonants can be calculated for words in the next rank.

【0018】候補単語抽出手段が尤度が最も高いものを
候補の単語として抽出しても、母音の比率が低いために
棄却される場合があり、音声認識結果を出力することが
できない。ところが、求めた尤度が若干低くても、母音
の比率が高く、しかもそれが正解の単語である場合もあ
り得る。上記のように複数の単語に順位を付けて候補を
抽出し、順に母音と子音との比率の判定を行っているこ
とにより、正解の単語を音声認識結果として出力できる
可能性が高くなる。
Even if the candidate word extracting means extracts the word having the highest likelihood as a candidate word, it may be rejected because of a low vowel ratio, and the speech recognition result cannot be output. However, even if the calculated likelihood is slightly low, the ratio of vowels may be high, and it may be the correct word. As described above, the plurality of words are ranked and the candidates are extracted, and the ratio of the vowel and the consonant is determined in order, which increases the possibility that the correct word can be output as the speech recognition result.

【0019】上記音声認識装置は、前記候補単語抽出手
段が候補として抽出した単語について、その尤度の信頼
度を算出する尤度信頼度算出手段と、前記尤度信頼度算
出手段が算出した尤度の信頼度が所定の閾値を上回るか
どうかを判定する尤度信頼度判定手段とをさらに備えて
いてもよい。この場合、前記結果出力手段は、前記尤度
信頼度判定手段が所定の閾値を上回ると判定し、且つ前
記比率判定手段が所定の範囲にあると判定したときに、
前記候補単語抽出手段が抽出した単語を音声認識結果と
して出力するものとすることができる。
In the speech recognition apparatus, with respect to the words extracted as candidates by the candidate word extracting means, the likelihood reliability calculating means for calculating the reliability of the likelihood and the likelihood calculating by the likelihood reliability calculating means. It may further include a likelihood reliability determination means for determining whether or not the reliability of the degree exceeds a predetermined threshold. In this case, the result output means determines that the likelihood reliability determination means exceeds a predetermined threshold value, and when the ratio determination means determines that it is within a predetermined range,
The words extracted by the candidate word extracting means may be output as a voice recognition result.

【0020】ノイズを音声認識した結果として単語が抽
出されたとしても、この場合には、尤度の信頼度が低く
なることが経験則的に分かる。このような構成を加えた
ことにより、尤度の信頼度が低いもの、すなわち処置の
閾値を下回るものをノイズとして棄却することができる
ので、音声認識の精度をさらに高くすることができる。
It is empirically understood that even if a word is extracted as a result of speech recognition of noise, the reliability of the likelihood is low in this case. By adding such a configuration, it is possible to reject noise having a low reliability of likelihood, that is, noise having a likelihood lower than the treatment threshold, as noise, and thus it is possible to further improve the accuracy of voice recognition.

【0021】上記音声認識装置において、前記候補単語
抽出手段が、尤度の高いほうから順位付けられた複数の
単語の候補を抽出する場合には、前記尤度信頼度算出手
段は、尤度の高い単語から順に尤度の信頼度を算出し、
該算出した尤度の信頼度が前記所定の閾値を上回らない
と前記尤度信頼度判定手段によって判定されたときに、
次の順位の単語について尤度の信頼度を算出するものと
することができる。
In the above speech recognition apparatus, when the candidate word extracting means extracts a plurality of word candidates ranked from the highest likelihood, the likelihood reliability calculating means determines the likelihood. The likelihood reliability is calculated in order from the highest word,
When it is determined by the likelihood reliability determination means that the reliability of the calculated likelihood does not exceed the predetermined threshold value,
The likelihood reliability can be calculated for the next ranked word.

【0022】候補単語抽出手段が尤度が最も高いものを
候補の単語として抽出しても、その尤度の信頼度が低く
なって棄却される場合があり、音声認識結果を出力する
ことができない。ところが、求めた尤度が若干低くて
も、尤度の信頼度が高く、しかもそれが正解の単語であ
る場合もあり得る。上記のように複数の単語に順位を付
けて候補を抽出し、順に尤度の信頼度の判定を行ってい
ることにより、正解の単語を音声認識結果として出力で
きる可能性が高くなる。
Even if the candidate word extraction means extracts the word having the highest likelihood as a candidate word, the reliability of the likelihood becomes low and the word may be rejected, and the speech recognition result cannot be output. . However, even if the obtained likelihood is slightly low, the likelihood reliability may be high, and it may be the correct word. As described above, the plurality of words are ranked and the candidates are extracted, and the reliability of the likelihood is determined in order, which increases the possibility of outputting the correct word as the speech recognition result.

【0023】上記音声認識装置において、前記音素モデ
ルは、認識対象となる音声に含まれる各音素を隠れマル
コフモデルでモデル化したものであってもよい。この場
合、前記候補単語抽出手段は、前記入力された音声を所
定時間を単位として複数の区間に分割し、該分割した区
間のうちの音声区間について音響特徴ベクトルを求め、
各区間の音響特徴ベクトルと前記音素モデルとに基づい
て連続音素認識を行い、各フレームでの尤度の合計が最
大となる単語を候補として抽出できる。
In the above speech recognition apparatus, the phoneme model may be a model in which each phoneme included in the speech to be recognized is modeled by a hidden Markov model. In this case, the candidate word extraction unit divides the input voice into a plurality of sections in units of a predetermined time, and obtains an acoustic feature vector for a voice section of the divided sections,
Continuous phoneme recognition is performed based on the acoustic feature vector of each section and the phoneme model, and a word having the maximum total likelihood in each frame can be extracted as a candidate.

【0024】上記目的を達成するため、本発明の第2の
観点に音声認識方法は、入力された音声を、認識対象と
なる音声に含まれる各音素をモデル化した音素モデル及
び認識結果として出力されるべき複数種類の単語の音素
パターン系列をそれぞれ登録した単語辞書を参照して音
声認識し、前記単語辞書に登録された各種類の単語の尤
度を求め、該求めた尤度に基づいて、認識結果として出
力される単語の候補を抽出する候補単語抽出ステップ
と、前記入力された音声に含まれる母音と子音との比率
を算出する比率算出ステップと、前記比率算出ステップ
で算出した母音と子音との比率が所定の範囲にあるかど
うかを判定する比率判定ステップと、前記比率判定ステ
ップで所定の範囲にあると判定したときに、前記候補単
語抽出ステップにおいて候補として抽出した単語を音声
認識結果として出力する結果出力ステップとを含むこと
を特徴とする。
In order to achieve the above object, the speech recognition method according to the second aspect of the present invention outputs an input speech as a phoneme model in which each phoneme included in a speech to be recognized is modeled and a recognition result. Speech recognition is performed by referring to a word dictionary in which phoneme pattern sequences of a plurality of types of words to be registered are respectively referred to, the likelihood of each type of word registered in the word dictionary is obtained, and based on the obtained likelihood. A candidate word extraction step of extracting a candidate word output as a recognition result, a ratio calculation step of calculating a ratio of vowels and consonants included in the input voice, and a vowel calculated in the ratio calculation step. A ratio determination step of determining whether the ratio with the consonant is within a predetermined range, and when the ratio determination step determines that the ratio is within the predetermined range, the candidate word extraction step is performed. Word extracted as candidates Te and characterized in that it comprises a result output step of outputting as a voice recognition result.

【0025】上記音声認識方法は、前記候補単語抽出ス
テップで候補として抽出した単語について、その尤度の
信頼度を算出する尤度信頼度算出ステップと、前記尤度
信頼度算出ステップで算出した尤度の信頼度が所定の閾
値を上回るかどうかを判定する尤度信頼度判定ステップ
とをさらに含むことができ、この場合、前記結果出力ス
テップは、前記尤度信頼度判定ステップ所定の閾値を上
回ると判定し、且つ前記比率判定ステップで所定の範囲
にあると判定したときに、前記候補単語抽出ステップで
抽出した単語を音声認識結果として出力するものとする
ことができる。
In the above speech recognition method, with respect to the words extracted as candidates in the candidate word extraction step, the likelihood reliability calculation step for calculating the reliability of the likelihood and the likelihood calculated in the likelihood reliability calculation step. And a likelihood reliability determining step of determining whether the reliability of the degree exceeds a predetermined threshold, wherein the result outputting step exceeds the likelihood reliability determining step predetermined threshold. When it is determined that it is within the predetermined range in the ratio determining step, the word extracted in the candidate word extracting step can be output as a voice recognition result.

【0026】上記目的を達成するため、本発明の第3の
観点にかかるプログラムは、入力された音声を、認識対
象となる音声に含まれる各音素をモデル化した音素モデ
ル及び認識結果として出力されるべき複数種類の単語の
音素パターン系列をそれぞれ登録した単語辞書を参照し
て音声認識し、前記単語辞書に登録された各種類の単語
の尤度を求め、該求めた尤度に基づいて、認識結果とし
て出力される単語の候補を抽出する候補単語抽出手段、
前記入力された音声に含まれる母音と子音との比率を算
出する比率算出手段、前記比率算出手段が算出した母音
と子音との比率が所定の範囲にあるかどうかを判定する
比率判定手段、及び、前記比率判定手段が所定の範囲に
あると判定したときに、前記候補単語抽出手段が候補と
して抽出した単語を音声認識結果として出力する結果出
力手段としてコンピュータ装置を機能させることを特徴
とする。
In order to achieve the above object, the program according to the third aspect of the present invention outputs the input speech as a phoneme model in which each phoneme included in the speech to be recognized is modeled and a recognition result. Speech recognition is performed by referring to a word dictionary in which phoneme pattern sequences of a plurality of types of words to be registered are respectively referred to, the likelihood of each type of word registered in the word dictionary is obtained, and based on the obtained likelihood, Candidate word extraction means for extracting word candidates output as a recognition result,
Ratio calculating means for calculating the ratio of vowels and consonants contained in the input voice, ratio determining means for determining whether the ratio of vowels and consonants calculated by the ratio calculating means is within a predetermined range, and When the ratio determining means determines that the ratio is within a predetermined range, the computer device functions as result output means for outputting the word extracted as a candidate by the candidate word extracting means as a voice recognition result.

【0027】上記プログラムは、前記候補単語抽出手段
が候補として抽出した単語について、その尤度の信頼度
を算出する尤度信頼度算出手段、及び、前記尤度信頼度
算出手段が算出した尤度の信頼度が所定の閾値を上回る
かどうかを判定する尤度信頼度判定手段として前記コン
ピュータ装置を機能させることができ、この場合、前記
結果出力手段は、前記尤度信頼度判定手段が所定の閾値
を上回ると判定し、且つ前記比率判定手段が所定の範囲
にあると判定したときに、前記候補単語抽出手段が抽出
した単語を音声認識結果として出力するものとすること
ができる。
The program includes a likelihood reliability calculation means for calculating the reliability of the likelihood of a word extracted as a candidate by the candidate word extraction means, and a likelihood calculated by the likelihood reliability calculation means. The computer device can be made to function as a likelihood reliability determination means for determining whether or not the reliability of is greater than a predetermined threshold value, and in this case, the result output means is The word extracted by the candidate word extracting means may be output as a voice recognition result when it is determined that the threshold value is exceeded and the ratio determining means determines that the ratio is within a predetermined range.

【0028】[0028]

【発明の実施の形態】以下、添付図面を参照して、本発
明の実施の形態について説明する。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the accompanying drawings.

【0029】[第1の実施の形態]図1は、この実施の
形態にかかる音声認識装置の構成を示すブロック図であ
る。図示するように、この音声認識装置は、音声入力部
1と、入力音声格納部2と、パワー算出部3と、音声区
間検出部4と、音声特徴抽出部5と、音素モデル格納部
6と、単語辞書格納部7と、尤度計算部8と、検証部9
と、最終判定部10と、出力部11とを備えている。
[First Embodiment] FIG. 1 is a block diagram showing the arrangement of a speech recognition apparatus according to this embodiment. As shown in the figure, this voice recognition device includes a voice input unit 1, an input voice storage unit 2, a power calculation unit 3, a voice section detection unit 4, a voice feature extraction unit 5, and a phoneme model storage unit 6. , The word dictionary storage unit 7, the likelihood calculation unit 8, and the verification unit 9
And a final determination unit 10 and an output unit 11.

【0030】音声入力部1は、不特定話者から入力され
た音声(アナログ信号)をA/D変換するもので、この
音声を時系列で示すデジタル音声信号(例えば、PCM
信号)に変換する。入力音声格納部2は、音声入力部1
によって変換されたデジタル音声信号を格納する。
The voice input unit 1 performs A / D conversion of voice (analog signal) input from an unspecified speaker, and a digital voice signal (eg, PCM) indicating this voice in time series.
Signal). The input voice storage unit 2 is the voice input unit 1
The digital audio signal converted by is stored.

【0031】パワー算出部3は、入力音声格納部2に格
納されたデジタル音声信号を、所定の時間間隔(2.0
〜4.0ミリ秒)で音声データを、時間窓などのハミン
グ窓によって複数のフレームに区分し、区分した各フレ
ームから音声データを切り出してパワー成分を求める。
音声区間検出部4は、パワー算出部3が算出したパワー
成分が所定の閾値を超えたフレームを音声区間として検
出する。例えば、1秒以内にパワー成分が閾値を下回っ
たフレームは、音声区間としない。音声特徴抽出部5
は、音声区間検出部4が検出した音声区間について、そ
れぞれパワー算出部3が算出したパワー成分に基づいて
音響特徴ベクトルX(t)を計算する。
The power calculator 3 converts the digital audio signal stored in the input audio storage 2 into a predetermined time interval (2.0).
Voice data is divided into a plurality of frames by a Hamming window such as a time window, and the voice data is cut out from each divided frame to obtain a power component.
The voice section detection unit 4 detects a frame in which the power component calculated by the power calculation unit 3 exceeds a predetermined threshold as a voice section. For example, a frame in which the power component falls below the threshold within 1 second is not set as a voice section. Speech feature extraction unit 5
Calculates the acoustic feature vector X (t) for each of the voice sections detected by the voice section detection unit 4 based on the power component calculated by the power calculation unit 3.

【0032】音素モデル格納部6は、認識対象となる音
声を構成する全ての音素をモデル化した音素モデルを格
納している。音素モデルとしては、例えば図2に示すよ
うな隠れマルコフモデル(HMM)が適用される。図2
では、音素“z”についてのみ示しているが、実際に
は、全ての音素についてのHMMが記憶されていること
となる。
The phoneme model storage unit 6 stores a phoneme model obtained by modeling all the phonemes forming the speech to be recognized. As the phoneme model, for example, a hidden Markov model (HMM) as shown in FIG. 2 is applied. Figure 2
In the figure, only the phoneme "z" is shown, but in reality, HMMs for all phonemes are stored.

【0033】単語辞書格納部7は、単語毎の音素パター
ン系列情報を登録した単語辞書を格納している。この単
語辞書は、例えば図3に示すようなものであり、“善光
寺(ぜんこうじ)”という単語について、z→e→n→
k→o→u→j→iという音素パターン系列を登録し、
“善通寺(ぜんつうじ)”という単語について、z→e
→n→ts→→u→j→iという音素パターン系列を登
録している。
The word dictionary storage unit 7 stores a word dictionary in which phoneme pattern sequence information for each word is registered. This word dictionary is as shown in FIG. 3, for example, and z → e → n → for the word "Zenkoji".
Register a phoneme pattern sequence of k → o → u → j → i,
About the word "zentsuji" z → e
A phoneme pattern sequence of → n → ts →→ u → j → i is registered.

【0034】尤度計算部8は、音響特徴ベクトルX
(t)とHMMによる音素モデルとを参照してフレーム
毎の連続音素認識を行い、各フレームの尤度の合計が最
大となるものを暫定的に第1位候補単語として抽出す
る。尤度計算部8は、第1位候補単語を抽出するのに必
要となる尤度(取得尤度)の他に、検証部9が尤度信頼
度率Sを求めるために必要となる最低尤度と最高尤度と
を求めている。
The likelihood calculator 8 calculates the acoustic feature vector X
The continuous phoneme recognition is performed for each frame with reference to (t) and the phoneme model based on the HMM, and the one having the maximum total likelihood is extracted as a first-rank candidate word. Likelihood calculation unit 8 calculates the minimum likelihood required for verification unit 9 to obtain likelihood reliability rate S, in addition to the likelihood (acquisition likelihood) required for extracting the first-ranked candidate word. Degree and maximum likelihood.

【0035】次に、尤度計算部8による尤度(取得尤
度、最低尤度及び最高尤度)の計算について、図4を参
照して説明する。これは、「善通寺(ぜんつうじ)」と
いう単語を音声認識する場合の例であり、その理想的な
音素の並びとしては、z・・・z、e・・・e、n・・・n、t
s・・・ts、u・・・u、j・・・j、i・・・iとなる。
Next, the calculation of the likelihoods (acquisition likelihood, minimum likelihood and maximum likelihood) by the likelihood calculation section 8 will be described with reference to FIG. This is an example in the case of recognizing the word "zentsuji" by voice, and the ideal phoneme sequence is z ... z, e ... e, n ... n, t
s ... ts, u ... u, j ... j, i ... i.

【0036】この図において、縦軸は時間(フレーム)
を示しており、第0〜第79までの80フレームが尤度
計算の対象となっている。図の左側(フレーム番号のす
ぐ右側)の格子状に示される○は、音素モデルとしての
HMMの状態を表しており、単語「善通寺」を音声認識
する際の状態の遷移の経路を太矢印で示している。この
経路を進むために各フレームで出力された値が取得尤度
である。
In this figure, the vertical axis represents time (frame)
, And 80th to 79th frames are targets of likelihood calculation. The circles on the left side of the figure (just to the right of the frame number) represent the state of the HMM as a phoneme model, and the bold arrow indicates the state transition path when recognizing the word "Zentsuji." Shows. The value output in each frame for advancing this route is the acquisition likelihood.

【0037】第1位音素は、入力音声格納部2に格納さ
れた音声信号をフレーム毎に音声認識した結果、当該フ
レームにおいて尤度が最も高くなった音素であり、その
尤度が最高尤度となる。また、音声認識した結果として
最低だった音素の尤度が最低尤度となる。各フレームで
の取得尤度、最低尤度及び最高尤度は、次の検証部9で
尤度信頼度率Sを求めるのに用いられる。第0フレーム
から第79フレームまでに状態の経路として複数の経路
を考えることができるが、そのうちで取得尤度の合計が
最も高くなるものを抽出し、第1候補単語としている。
The first phoneme is a phoneme that has the highest likelihood in the frame as a result of speech recognition of the speech signal stored in the input speech storage unit 2 for each frame, and the likelihood is the highest likelihood. Becomes In addition, the likelihood of the phoneme, which is the lowest as a result of speech recognition, becomes the lowest likelihood. The acquisition likelihood, the minimum likelihood, and the maximum likelihood in each frame are used by the next verification unit 9 to obtain the likelihood reliability rate S. Although a plurality of routes can be considered as the routes of the states from the 0th frame to the 79th frame, the one with the highest total of the acquisition likelihoods is extracted as the first candidate word.

【0038】検証部9は、音声認識の精度を高めるべ
く、尤度計算部8が抽出した第1位候補単語について、
次の数式による演算を行って、その尤度信頼度率Sを求
める。
The verification unit 9 selects the first candidate word extracted by the likelihood calculation unit 8 in order to improve the accuracy of speech recognition.
The likelihood reliability rate S is calculated by performing the following calculation.

【数1】S={Σ(取得尤度−最低尤度)/(最高尤度
−最低尤度)}/フレーム数
[Formula 1] S = {Σ (acquisition likelihood-minimum likelihood) / (maximum likelihood-minimum likelihood)} / number of frames

【0039】尤度信頼度率Sが求まると、検証部9は、
これが予め定めた閾値Sminよりも大きいかどうかを判
定する。閾値Smin以下であれば第1位候補単語を棄却
し、閾値より大きければさらに最終判定部10による判
定を行わせる。尤度信頼度率Sと比較される閾値Smin
の値は、例えば90%に設定される。これは、何らかの
認識結果が得られることと、認識結果が正確であること
のバランスをとるための値として設定されたものであ
る。
When the likelihood reliability rate S is obtained, the verification unit 9
It is determined whether or not this is larger than a predetermined threshold value Smin. If it is less than or equal to the threshold value Smin, the first-ranked candidate word is rejected, and if it is greater than the threshold value, the final determination unit 10 further determines. Threshold Smin to be compared with likelihood reliability rate S
The value of is set to 90%, for example. This is set as a value for balancing the fact that some recognition result is obtained and that the recognition result is accurate.

【0040】最終判定部10は、検証部9が閾値Smin
より大きいと判定した尤度信頼度率Sを持つ第1候補単
語の母音率Vを求める。母音率Vは、音声区間検出部4
が音声区間であると検出したフレームのうちでa、i,
u、e、o、nの音素を持つフレームを母音系音素のフ
レームとし、その他の音素を持つフレームを子音系音素
のフレームとして、母音系音素のフレームと子音系音素
のフレームの合計に対して母音系音素のフレームが示す
比率を示すものである。
In the final judgment unit 10, the verification unit 9 sets the threshold value Smin.
The vowel rate V of the first candidate word having the likelihood reliability rate S determined to be larger is calculated. The vowel rate V is determined by the voice section detection unit 4
Among the frames detected to be in the voice section, a, i,
A frame having u, e, o, and n phonemes is a vowel phoneme frame, and a frame having other phonemes is a consonant phoneme frame. For the total of the vowel phoneme frame and the consonant phoneme frame. It shows the ratio indicated by the frames of vowel phonemes.

【0041】そして、最終判定部10は、求めた母音率
Vが予め設定した閾値Vminよりも大きいかどうかを判
定する。閾値Vminよりも大きければ第1位候補単語を
正解の単語として出力部11に渡し、閾値Vmin以下で
あれば第1位候補単語を棄却する。ここで、母音率Vと
比較される閾値Vminの値は、例えば15%に設定され
る。これは、人間が言語で発話した音声は比較的母音率
が高くなることが経験上知られているのに対して、例え
ば、図5に示すようにキーボードを打つ音の実測結果で
は母音率が非常に低くなっていることから、このような
値に設定されたものである。
Then, the final decision section 10 decides whether or not the obtained vowel rate V is larger than a preset threshold value Vmin. If it is larger than the threshold value Vmin, the first-ranked candidate word is passed to the output unit 11 as a correct word, and if it is equal to or smaller than the threshold value Vmin, the first-ranked candidate word is rejected. Here, the value of the threshold value Vmin that is compared with the vowel rate V is set to, for example, 15%. It is empirically known that the vowel rate of human speech in a language is relatively high, whereas, for example, as shown in FIG. Since it is extremely low, it is set to such a value.

【0042】出力部11は、最終判定部10から渡され
た正解となった単語を出力する。出力部11は、第1位
候補単語が棄却され、正解が得られなかった場合には、
その旨を出力する。
The output unit 11 outputs the correct word passed from the final judgment unit 10. If the first candidate word is rejected and no correct answer is obtained, the output unit 11
The fact is output.

【0043】なお、上記の音声認識装置は、パーソナル
コンピュータなどの汎用コンピュータをプラットフォー
ムとして実現することができ、例えば、音声入力部1及
び出力部11は、それぞれ汎用コンピュータに接続され
るマイクロフォン、表示装置によって実現される。入力
音声格納部2、音素モデル格納部6、単語辞書格納部7
は、それぞれに対応した領域がメモリに確保されること
によって実現される。音素モデル格納部6が格納する音
素モデル、単語辞書格納部7が格納する単語辞書は、音
声認識処理を行う前に予め外部装置から読み込まれてメ
モリに記憶されるものである。パワー算出部3、音声区
間検出部4、音声特徴検出部5、尤度計算部8、検証部
9及び最終判定部10は、CPU(Central Processing
Unit)がメモリに記憶されたプログラムを実行するこ
とによって実現される。
The voice recognition device can be realized by using a general-purpose computer such as a personal computer as a platform. For example, the voice input unit 1 and the output unit 11 are each a microphone and a display device connected to the general-purpose computer. Is realized by Input speech storage unit 2, phoneme model storage unit 6, word dictionary storage unit 7
Is realized by allocating a corresponding area in the memory. The phoneme model stored in the phoneme model storage unit 6 and the word dictionary stored in the word dictionary storage unit 7 are read in advance from an external device and stored in a memory before performing the speech recognition process. The power calculation unit 3, the voice section detection unit 4, the voice feature detection unit 5, the likelihood calculation unit 8, the verification unit 9, and the final determination unit 10 are CPUs (Central Processing).
Unit) executes the program stored in the memory.

【0044】次に、動作について説明する。図6は、こ
の実施の形態にかかる音声認識装置における処理を示す
フローチャートである。
Next, the operation will be described. FIG. 6 is a flowchart showing processing in the voice recognition device according to this embodiment.

【0045】最初に、音素モデルと、単語辞書及び母音
率テーブルとを外部記憶装置からメモリに読み込み、音
素モデル格納部6と単語辞書格納部7とを構築する(ス
テップS101)。次に、尤度信頼度率Sと比較される
閾値Sminの値と、母音率Vと比較される閾値Vminの値
とを最終判定部10に設定する(ステップS102)。
そして、次に示す音声認識処理を行い(ステップS10
3)、このフローチャートの処理を終了する。
First, the phoneme model, the word dictionary and the vowel rate table are read from the external storage device into the memory to construct the phoneme model storage unit 6 and the word dictionary storage unit 7 (step S101). Next, the value of the threshold value Smin that is compared with the likelihood reliability rate S and the value of the threshold value Vmin that is compared with the vowel rate V are set in the final determination unit 10 (step S102).
Then, the following voice recognition processing is performed (step S10
3) Then, the processing of this flowchart ends.

【0046】図7は、ステップS103の音声認識処理
を詳細に示すフローチャートである。まず、話者が認識
対象として発声した音声を音声入力部1から入力し、時
系列のデジタル音声信号に変換して入力音声格納部2に
格納する(ステップS201)。次に、パワー算出部3
は、入力音声格納部2に格納したデジタル音声信号を所
定時間毎で複数のフレームに区分し、各フレームのパワ
ー成分を算出する(ステップS202)。
FIG. 7 is a flow chart showing the voice recognition process of step S103 in detail. First, a voice uttered by a speaker as a recognition target is input from the voice input unit 1, converted into a time-series digital voice signal, and stored in the input voice storage unit 2 (step S201). Next, the power calculation unit 3
Divides the digital audio signal stored in the input audio storage unit 2 into a plurality of frames at predetermined time intervals, and calculates the power component of each frame (step S202).

【0047】次に、音声区間検出部4は、ステップS2
02で算出した各フレームのパワー成分を所定の閾値と
比較し、閾値を上回ったフレームを音声区間として抽出
する(ステップS203)。そして、この処理で候補の
単語を抽出するのに必要なだけの音声区間が検出された
かどうかを判定する(ステップS204)。必要なだけ
の音声区間が検出されていなければ、処理を終了する。
必要なだけの音声区間が検出された場合には、音声特徴
抽出部5は、ステップS202で算出した各フレームの
パワー成分に基づいて、ステップS203で抽出した音
声区間の音響特徴ベクトルX(t)を計算する(ステッ
プS205)。
Next, the voice section detector 4 operates in step S2.
The power component of each frame calculated in 02 is compared with a predetermined threshold value, and a frame exceeding the threshold value is extracted as a voice section (step S203). Then, it is determined whether or not a voice segment necessary for extracting a candidate word is detected in this processing (step S204). If not enough voice sections have been detected, the process ends.
When the required number of voice sections are detected, the voice feature extraction unit 5 based on the power component of each frame calculated in step S202, the acoustic feature vector X (t) of the voice section extracted in step S203. Is calculated (step S205).

【0048】次に、尤度計算部8は、ステップS205
で算出した音声特徴ベクトルX(t)と音素モデル格納
部6に格納されている音素モデルとしての隠れマルコフ
モデルに基づいて、単語辞書格納部7に格納されている
単語辞書に登録された単語のうちで尤度が最も高くなる
ものを、第1位候補単語として抽出する(ステップS2
06)。
Next, the likelihood calculator 8 operates in step S205.
Of the word registered in the word dictionary stored in the word dictionary storage unit 7 based on the speech feature vector X (t) calculated in step 1 and the hidden Markov model as a phoneme model stored in the phoneme model storage unit 6. The word with the highest likelihood is extracted as the first candidate word (step S2).
06).

【0049】第1位候補単語が抽出されると、検証部9
は、前述した処理を行うことで、第1位候補単語につい
ての尤度信頼度率Sを求める(ステップS207)。そ
して、この尤度信頼度率SをステップS102で設定し
た閾値Sminと比較し、尤度信頼度率Sが閾値Sminを上
回っているかどうかを判定する(ステップS208)。
尤度信頼度率Sが閾値Smin以下であれば、抽出された
第1候補単語を棄却して(ステップS212)、処理を
終了する。
When the first candidate word is extracted, the verification unit 9
Performs the above-mentioned process to obtain the likelihood reliability rate S for the first-ranked candidate word (step S207). Then, the likelihood reliability rate S is compared with the threshold Smin set in step S102 to determine whether the likelihood reliability rate S exceeds the threshold Smin (step S208).
If the likelihood reliability rate S is less than or equal to the threshold value Smin, the extracted first candidate word is rejected (step S212), and the process ends.

【0050】尤度信頼度率Sが閾値Sminを上回ってい
れば、第1位候補単語が最終判定部10に渡され、最終
判定部10は、ステップS203で検出された音声区間
のうちの母音率Vを求める(ステップS209)。そし
て、この母音率VをステップS102で設定した閾値V
minと比較し、母音率Vが閾値Vminを上回っているかど
うかを判定する(ステップS210)。
If the likelihood reliability rate S exceeds the threshold value Smin, the first candidate word is passed to the final decision unit 10, and the final decision unit 10 makes a vowel sound in the voice section detected in step S203. The rate V is obtained (step S209). Then, the vowel rate V is set to the threshold value V set in step S102.
It is determined whether the vowel rate V exceeds the threshold value Vmin by comparing with min (step S210).

【0051】母音率Vが閾値Vmin以下であれば、抽出
された第1位候補単語を棄却して(ステップS21
2)、処理を終了する。一方、母音率Vが閾値Vminを
上回っていた場合には、抽出された第1位候補単語を出
力部11に渡す。そして、出力部11は、この第1位候
補単語を音声認識の結果として出力する(ステップS2
11)。そして、処理を終了する。なお、ステップS2
12で第1候補単語が棄却された場合は、その旨を示す
メッセージが出力部11から出力される。
If the vowel rate V is less than or equal to the threshold value Vmin, the extracted first rank candidate word is rejected (step S21).
2), the process ends. On the other hand, when the vowel rate V exceeds the threshold value Vmin, the extracted first-ranked candidate word is passed to the output unit 11. Then, the output unit 11 outputs this first-ranked candidate word as a result of voice recognition (step S2).
11). Then, the process ends. Note that step S2
When the first candidate word is rejected in 12, a message indicating that is output from the output unit 11.

【0052】以上説明したように、この実施の形態にか
かる音声認識装置では、尤度計算部8において尤度が最
大となる第1位候補単語を抽出した後、さらに検証部9
において尤度信頼度率Sに基づく検証を行い、最終判定
部10において母音率Vに基づく最終判定を行ってい
る。ここで、尤度計算部8は、尤度が最大となる第1位
候補単語を抽出するだけであるが、音声区間検証部4が
音声区間として検出したフレームがノイズのフレームで
あった場合には、経験則的に尤度信頼度率Sの値は低く
なる。また、話者の発した音声の母音率Vは、極端に低
くなることがない。
As described above, in the speech recognition apparatus according to this embodiment, the likelihood calculating section 8 extracts the first candidate word having the maximum likelihood, and then the verifying section 9 further.
The verification is performed based on the likelihood reliability rate S, and the final determination unit 10 performs the final determination based on the vowel rate V. Here, the likelihood calculation unit 8 only extracts the first-rank candidate word having the maximum likelihood, but when the frame detected by the voice section verification unit 4 as a voice section is a noise frame. Empirically, the value of the likelihood reliability rate S becomes low. Further, the vowel rate V of the voice uttered by the speaker does not become extremely low.

【0053】このため、ノイズを音声認識した場合に、
尤度信頼度率Sが低くなるか、母音率Vが極端に低くな
ることによって、尤度計算部8で計算した尤度が高かっ
たとしてもノイズとして棄却することができるようにな
る。これにより、ノイズについての棄却率を高めること
ができ、従来に比べて精度の高い音声認識を行うことが
できるようになる。
Therefore, when noise is recognized by voice,
If the likelihood reliability rate S becomes low or the vowel rate V becomes extremely low, even if the likelihood calculated by the likelihood calculation unit 8 is high, it can be rejected as noise. As a result, the rejection rate of noise can be increased, and speech recognition can be performed with higher accuracy than in the past.

【0054】[第2の実施の形態]この実施の形態にか
かる音声認識装置は、第1の実施の形態にかかるものと
ほぼ同じ構成を有しているが、特定話者の音声認識を対
象とするもので、単語辞書格納部7に格納される単語辞
書が第1の実施の形態のものと異なっており、また、単
語辞書格納部7は、後述する母音率履歴テーブルをさら
に格納している。また、音声認識のために実行される処
理(プログラム)が第1の実施の形態のものと異なり、
最終判定部10の機能が異なる。
[Second Embodiment] The speech recognition apparatus according to this embodiment has substantially the same configuration as that of the first embodiment, but is targeted for speech recognition of a specific speaker. However, the word dictionary stored in the word dictionary storage unit 7 is different from that of the first embodiment, and the word dictionary storage unit 7 further stores a vowel rate history table described later. There is. Further, the processing (program) executed for voice recognition is different from that of the first embodiment,
The function of the final determination unit 10 is different.

【0055】図8(a)は、この実施の形態にかかる音
声認識装置において、単語辞書格納部7に格納される単
語辞書の例を示す図である。この単語辞書は、単語毎の
音素パターン系列情報に加えて、最終判定部10で母音
率Vと比較される規定範囲(最小値Vminと最大値Vma
x)を登録している。この規定範囲は、初期状態では所
定のデフォルト値が登録されているが、単語辞書格納部
7内に格納された母音率履歴テーブルに登録された母音
率に基づいて変更されることができる。
FIG. 8A is a diagram showing an example of a word dictionary stored in the word dictionary storage unit 7 in the voice recognition device according to this embodiment. In this word dictionary, in addition to the phoneme pattern sequence information for each word, a prescribed range (minimum value Vmin and maximum value Vma to be compared with the vowel rate V in the final determination unit 10 is added.
x) is registered. A predetermined default value is registered in the prescribed range in the initial state, but it can be changed based on the vowel rate registered in the vowel rate history table stored in the word dictionary storage unit 7.

【0056】図8(b)は、この実施の形態にかかる音
声認識装置において、単語辞書格納部7に格納される母
音率履歴テーブルを示す図である。母音率履歴テーブル
は、最終判定部10が求めた母音率Vの履歴を単語辞書
に登録された単語毎に登録するテーブルである。なお、
母音率履歴テーブルへの母音率Vの登録の処理、及び単
語辞書に登録された規定範囲の変更の処理は、最終判定
部10が行うこととなる。
FIG. 8B is a diagram showing a vowel rate history table stored in the word dictionary storage unit 7 in the voice recognition device according to this embodiment. The vowel rate history table is a table in which the history of the vowel rate V obtained by the final determination unit 10 is registered for each word registered in the word dictionary. In addition,
The final determination unit 10 performs the process of registering the vowel rate V in the vowel rate history table and the process of changing the specified range registered in the word dictionary.

【0057】次に、動作について説明する。図9は、こ
の実施の形態にかかる音声認識装置における処理を示す
フローチャートである。
Next, the operation will be described. FIG. 9 is a flowchart showing processing in the voice recognition device according to this embodiment.

【0058】まず、第1の実施の形態の場合と同じく、
音素モデルと、単語辞書及び母音率履歴テーブルとを外
部記憶装置からメモリに読み込み、音素モデル格納部6
と単語辞書格納部7とを構築する(ステップS30
1)。次に、尤度信頼度率Sと比較される閾値Sminの
値を判定部10に設定する(ステップS302)。そし
て、次に示す音声認識処理を行い(ステップS30
3)、このフローチャートの処理を終了する。
First, as in the case of the first embodiment,
The phoneme model, the word dictionary, and the vowel rate history table are read from the external storage device into the memory, and the phoneme model storage unit 6
And the word dictionary storage unit 7 are constructed (step S30).
1). Next, the value of the threshold value Smin that is compared with the likelihood reliability rate S is set in the determination unit 10 (step S302). Then, the following voice recognition processing is performed (step S30
3) Then, the processing of this flowchart ends.

【0059】図10、図11は、ステップS303の音
声認識処理を示すフローチャートである。このフローチ
ャートにおけるステップS401〜S409、S418
の処理は、それぞれ図7のステップS201〜S20
9、S212の処理と同じである。
10 and 11 are flowcharts showing the voice recognition processing of step S303. Steps S401 to S409, S418 in this flowchart
The processing of each of steps S201 to S20 of FIG.
9, the same as the processing of S212.

【0060】ステップS409で母音率Vが求められる
と、最終判定部10は、第1位候補単語に対応付けて単
語辞書に登録されている規定範囲の最小値Vminと最大
値Vmaxとを読み出し、求めた母音率Vが最小値Vminよ
りも大きく、最大値Vmaxよりも小さい範囲、すなわち
規定範囲内にあるかどうかを判定する(ステップS41
1)。規定範囲内になければ、ステップS418の処理
に進み、第1位候補単語が棄却される。
When the vowel rate V is obtained in step S409, the final decision section 10 reads the minimum value Vmin and the maximum value Vmax of the specified range registered in the word dictionary in association with the first candidate word, It is determined whether the obtained vowel rate V is in a range larger than the minimum value Vmin and smaller than the maximum value Vmax, that is, within a specified range (step S41).
1). If it is not within the specified range, the process proceeds to step S418, and the first candidate word is rejected.

【0061】規定範囲内にあれば、抽出された第1位候
補単語を出力部11に渡し、出力部11が、この第1位
候補単語を音声認識の結果として出力する(ステップS
411)。さらに最終判定部10は、出力した単語につ
いて母音率履歴テーブルに既に登録されている母音率の
数を変数nに代入し、さらに変数nの値を1だけプラス
する(ステップS412)。そして、ステップS409
で求めた母音率Vを当該単語のn個目の母音率として母
音率履歴テーブルに登録する(ステップS413)。
If it is within the specified range, the extracted first-rank candidate word is passed to the output unit 11, and the output unit 11 outputs this first-rank candidate word as a result of the speech recognition (step S).
411). Further, the final determination unit 10 substitutes the number of vowel rates already registered in the vowel rate history table for the output word into the variable n, and adds 1 to the value of the variable n (step S412). Then, step S409
The vowel rate V obtained in step S is registered in the vowel rate history table as the n-th vowel rate of the word (step S413).

【0062】次に、最終判定部10は、当該単語につい
て母音率履歴テーブルに登録された母音率の個数nが所
定数m以上となっているかどうかを判定する(ステップ
S414)。母音率の個数nが所定数m以上となってい
なければ、そのまま処理を終了する。
Next, the final judgment section 10 judges whether or not the number n of vowel rates registered in the vowel rate history table for the word is equal to or larger than a predetermined number m (step S414). If the number n of vowel rates is not equal to or larger than the predetermined number m, the process is ended as it is.

【0063】一方、母音率の個数nが所定数m以上とな
っていれば、最終判定部10は、当該単語について母音
率履歴テーブルに登録されたn個の母音率の分散pを求
める(ステップS415)。次に、分散pの値が予め定
められた値xよりも小さいかどうかを判定する。分散p
の値が値x以上である場合には、そのまま処理を終了す
る。分散pの値が値xよりも小さい場合には、当該単語
について単語辞書に登録された規定範囲の最小値Vmin
と最大値Vmaxとにそれぞれ分散pの値を加算し、規定
範囲を再設定する(ステップS417)。そして、処理
を終了する。
On the other hand, if the number n of vowel rates is equal to or greater than the predetermined number m, the final judgment unit 10 obtains the variance p of the n vowel rates registered in the vowel rate history table for the word (step). S415). Next, it is determined whether the value of the variance p is smaller than the predetermined value x. Variance p
If the value of is greater than or equal to the value x, the process ends. When the value of the variance p is smaller than the value x, the minimum value Vmin of the specified range registered in the word dictionary for the word.
And the maximum value Vmax are added with the value of the variance p to reset the specified range (step S417). Then, the process ends.

【0064】以上説明したように、この実施の形態にか
かる音声認識装置では、母音率Vによる判定には、単語
毎に登録された規定範囲(最小値Vminと最大値Vmax)
を用いている。このため、第1の実施の形態に示した音
声認識装置に比べて、より正確にノイズの棄却を行うこ
とができ、音声認識の精度が向上する。しかも、規定範
囲の値は、話者が過去に発した同じ単語についての母音
率の履歴に従って変更することができる。この音声認識
装置は、特定話者を対象としているものであるので、母
音率の履歴によって規定範囲をより適正なものとしてい
くことができ、音声認識の精度を高めることができるよ
うになる。
As described above, in the voice recognition device according to the present embodiment, in the determination based on the vowel rate V, the specified range (minimum value Vmin and maximum value Vmax) registered for each word is used.
Is used. Therefore, as compared with the voice recognition apparatus shown in the first embodiment, noise can be rejected more accurately, and the accuracy of voice recognition is improved. Moreover, the value of the specified range can be changed according to the history of the vowel rate for the same word that the speaker has spoken in the past. Since this voice recognition device is intended for a specific speaker, the specified range can be made more appropriate by the history of vowel rates, and the accuracy of voice recognition can be improved.

【0065】[実施の形態の変形]本発明は、上記の第
1、第2の実施の形態に限られず、種々の変形、応用が
可能である。以下、本発明に適用可能な上記の実施の形
態の変形態様について説明する。
[Modifications of the Embodiment] The present invention is not limited to the above-described first and second embodiments, and various modifications and applications are possible. Hereinafter, modifications of the above-described embodiment applicable to the present invention will be described.

【0066】上記の第1の実施の形態では、母音率Vと
比較される閾値Vminは、第1位候補単語に関わらず、
同一の値が用いられていたが、第1の実施の形態のよう
に単語辞書に単語毎に対応付けて閾値Vminを登録して
おき、第1位候補単語に対応づけられた閾値Vminを、
求めた母音率Vと比較するものとしてもよい。ここで、
「愛(あい)」といった母音率が高くなる単語に関して
は閾値Vminの値を高めに設定し、「被災(ひさい)」
といった母音率が低くなる単語に関しては閾値Vminの
値を低めに設定しておけばよい。
In the above-described first embodiment, the threshold value Vmin compared with the vowel rate V is
Although the same value is used, as in the first embodiment, the threshold Vmin is registered in the word dictionary in association with each word, and the threshold Vmin associated with the first candidate word is
It may be compared with the obtained vowel rate V. here,
For words with a high vowel rate, such as "love," the threshold value Vmin is set to a high value, and "hisai"
For a word with a low vowel rate, the threshold value Vmin may be set low.

【0067】上記の第2の実施の形態では、全ての単語
について単語辞書に規定範囲が登録されているものとし
ていたが、一部の単語についてのみ独自の規定範囲を登
録し、他の単語については共通の規定範囲(VMIN、VM
AX)を用いるものとしてもよい。この場合、ステップS
302の処理で共通の規定範囲(VMIN、VMAX)を最終
判定部10に設定しておく。ステップS409で母音率
Vを求めた後に、第1位候補単語に独自の規定範囲が登
録されているかどうかを判別する。独自の規定範囲が登
録されていなければ、そのままステップS410の処理
に進むものとし、独自の規定範囲が登録されていれば、
最終判定部に設定される規定範囲を共通の規定範囲(V
MIN、VMAX)から独自の規定範囲(Vmin、Vmax)に書
き替えて、ステップS410の処理に進めばよい。
In the second embodiment described above, the specified range is registered in the word dictionary for all the words, but the unique specified range is registered only for some words, and for other words. Is a common specified range (VMIN, VM
AX) may be used. In this case, step S
In the process of 302, the common determination range (VMIN, VMAX) is set in the final determination unit 10. After obtaining the vowel rate V in step S409, it is determined whether or not a unique prescribed range is registered in the first-rank candidate word. If the original specified range is not registered, the process proceeds to step S410 as it is. If the original specified range is registered,
The common range (V
It is only necessary to rewrite from (MIN, VMAX) to an original specified range (Vmin, Vmax) and proceed to the processing of step S410.

【0068】上記の第2の実施の形態では、単語辞書に
登録される規定範囲(Vmin、Vmax)は、母音率履歴テ
ーブルに登録された母音率の分散pが加算されて変更さ
れるものとなっていた。これに対して、特定話者が発話
した同じ単語であれば、その母音率の値はほぼ同じ値に
なることが一般に知られている。このため、母音率履歴
テーブルに登録された母音率の個数が多くなるに従っ
て、その計算結果に基づいて規定範囲を狭く設定してい
くようにしてもよい。
In the second embodiment described above, the specified range (Vmin, Vmax) registered in the word dictionary is changed by adding the variance p of the vowel rate registered in the vowel rate history table. Was becoming. On the other hand, it is generally known that, if the same word is spoken by a specific speaker, the values of the vowel rates are almost the same. Therefore, as the number of vowel rates registered in the vowel rate history table increases, the specified range may be set narrower based on the calculation result.

【0069】上記の第1、第2の実施の形態では、検証
部9で尤度信頼度率Sが閾値Sminよりも大きいと判定
された場合に、最終判定部10は、母音率Vについての
判定を行うものとしていた。しかしながら、検証部9の
処理を経ずに母音率Vについての判定を行い、その判定
結果を最終結果とするものとしてもよい。また、母音率
Vについての判定を先に行い、母音率Vが閾値Vminよ
りも大きい場合(第2の実施の形態では、規定範囲(V
minからVmaxの間)内にあると判定した場合)、さらに
尤度信頼度率Sを閾値Sminと比較させるものとしても
よい。
In the first and second embodiments described above, when the verification unit 9 determines that the likelihood reliability rate S is larger than the threshold value Smin, the final determination unit 10 determines the vowel rate V. The decision was made. However, the vowel rate V may be determined without the processing of the verification unit 9, and the determination result may be used as the final result. Further, the vowel rate V is determined first, and when the vowel rate V is larger than the threshold value Vmin (in the second embodiment, the specified range (V
If it is determined to be within (min to Vmax)), the likelihood reliability rate S may be further compared with the threshold value Smin.

【0070】上記の第1、第2の実施の形態では、第1
位候補単語の尤度信頼度率S及び母音率Vを、全てのフ
レームに基づいて算出していたが、2つまたはそれ以上
の間隔毎のフレームに基づいて算出するものとしてもよ
い。これにより、尤度信頼度率Sおよび/または母音率
Vの計算精度が低下するが、処理時間を短縮することが
できるというメリットが得られる。
In the above first and second embodiments, the first
Although the likelihood reliability rate S and the vowel rate V of the rank candidate word are calculated based on all the frames, they may be calculated based on the frames at every two or more intervals. This reduces the calculation accuracy of the likelihood reliability rate S and / or the vowel rate V, but has the advantage that the processing time can be shortened.

【0071】上記の第1、第2の実施の形態では、尤度
計算部8は、HMMによる音素モデルを参照し、フレー
ム毎の連続音素認識により尤度を計算していた。これに
対して、HMMを母音毎にまたは子音毎に混合したガベ
ージモデルで表現したモデルを用いて、尤度を計算する
ものとしてもよい。この場合、フレーム毎の音声認識を
必要としないので、計算量が少なくなり、特に単語辞書
に登録されている単語数が少ない場合に適用するのに好
適である。
In the above-described first and second embodiments, the likelihood calculating section 8 refers to the phoneme model by the HMM and calculates the likelihood by the continuous phoneme recognition for each frame. On the other hand, the likelihood may be calculated using a model in which the HMM is represented by a garbage model in which each vowel is mixed or each consonant is mixed. In this case, since voice recognition for each frame is not required, the amount of calculation is small, and it is suitable for application especially when the number of words registered in the word dictionary is small.

【0072】上記の第1、第2の実施の形態では、第1
位候補単語による尤度信頼度率Sと母音率Vの判定で棄
却されれば、その時点で音声認識結果が得られないもの
となっていた。しかしながら、第1位候補単語よりも尤
度が低くても、ある程度の尤度がある単語(HMMの状
態の経路が異なるのみで、単語としては第1位候補単語
と同じである場合を含む)であれば、尤度信頼度率Sと
母音率Vの判定で棄却されず、しかもこれが正解の単語
である可能性も存在する。そこで、次のような変形を加
えるものとしてもよい。
In the above first and second embodiments, the first
If the likelihood reliability rate S and the vowel rate V based on the rank candidate words are rejected, the speech recognition result cannot be obtained at that time. However, even if the likelihood is lower than that of the first-ranked candidate word, the word has a certain degree of likelihood (including the case where the word is the same as the first-ranked candidate word, only the path of the HMM state is different) If so, there is a possibility that the likelihood reliability rate S and the vowel rate V are not rejected in the determination, and that this is a correct word. Therefore, the following modifications may be added.

【0073】尤度計算部8は、例えば、尤度が高い単語
に3つの単語を第1位、第2位、第3位候補単語として
抽出する。第1位候補単語が尤度信頼度率Sまたは母音
率Vに基づいて棄却された場合には、第2位候補単語の
尤度信頼度率Sと母音率Vとを順次求める。これで棄却
されなければ、第2位候補単語を音声認識結果として出
力部11から出力する。第2位候補単語についても尤度
信頼度率Sまたは母音率Vに基づいて棄却された場合に
は、第3位候補単語の尤度信頼度率Sと母音率Vとを順
次求める。これで棄却されなければ、第3位候補単語を
音声認識結果として出力部11から出力する。第3位候
補単語も棄却された場合には、音声認識結果が得られな
かった旨を出力部11から出力すればよい。
The likelihood calculating section 8 extracts, for example, three words having high likelihood as first, second, and third candidate words. If the first candidate word is rejected based on the likelihood reliability rate S or the vowel rate V, the likelihood reliability rate S and the vowel rate V of the second candidate word are sequentially obtained. If not rejected, the second candidate word is output from the output unit 11 as the voice recognition result. If the second candidate word is rejected based on the likelihood reliability rate S or the vowel rate V, the likelihood reliability rate S and the vowel rate V of the third candidate word are sequentially obtained. If not rejected, the output unit 11 outputs the third-ranked candidate word as the voice recognition result. If the third-ranked candidate word is also rejected, the fact that no voice recognition result has been obtained may be output from the output unit 11.

【0074】上記の第1、第2の実施の形態では、出力
部11は、例えば表示装置によって構成され、音声認識
結果(棄却された旨の情報を含む)を話者に提示するも
のであった。これに対して、出力部11を何らかの電子
回路に接続させ、出力部11からの出力結果に従って当
該電子回路を動作させるものとしてもよい。
In the first and second embodiments described above, the output unit 11 is composed of, for example, a display device, and presents the voice recognition result (including the information indicating that it has been rejected) to the speaker. It was On the other hand, the output unit 11 may be connected to some electronic circuit and the electronic circuit may be operated according to the output result from the output unit 11.

【0075】上記の第1、第2の実施の形態では、図6
及び図7に示したフローチャートの処理、或いは図9乃
至図11に示したフローチャートの処理を実行させるた
めのプログラムは、汎用コンピュータのメモリに記憶さ
れているものとして説明した。そして、CPUがメモリ
に記憶されたプログラムを実行することで、パワー算出
部3、音声区間検出部4、音声特徴検出部5、尤度計算
部8、検証部9及び最終判定部10が実現されるものと
していた。これに対して、図6及び図7のフローチャー
トの処理、或いは図9乃至図11のフローチャートの処
理を汎用コンピュータに実行させ、パワー算出部3、音
声区間検出部4、音声特徴抽出部5、尤度計算部8、検
証部9及び最終判定部10を実現させるためのプログラ
ムを、CD−ROMやDVD−ROMなどのコンピュー
タ読み取り可能な記録媒体に格納して配布してもよい。
または、これらのプログラムをWebサーバ装置が有す
る固定ディスク装置に格納しておき、インターネットを
汎用コンピュータにダウンロードさせるものとしてもよ
い。
In the first and second embodiments described above, FIG.
The program for executing the process of the flowchart shown in FIG. 7 or the process of the flowchart shown in FIGS. 9 to 11 has been described as being stored in the memory of the general-purpose computer. Then, the CPU executes the program stored in the memory to realize the power calculation unit 3, the voice section detection unit 4, the voice feature detection unit 5, the likelihood calculation unit 8, the verification unit 9, and the final determination unit 10. I was supposed to. On the other hand, the general-purpose computer is caused to execute the processing of the flowcharts of FIGS. 6 and 7 or the processing of the flowcharts of FIGS. 9 to 11, and the power calculation unit 3, the voice section detection unit 4, the voice feature extraction unit 5, the likelihood The program for realizing the power calculation unit 8, the verification unit 9, and the final determination unit 10 may be stored in a computer-readable recording medium such as a CD-ROM or a DVD-ROM and distributed.
Alternatively, these programs may be stored in a fixed disk device included in the Web server device and the Internet may be downloaded to a general-purpose computer.

【0076】[0076]

【発明の効果】以上説明したように、本発明によれば、
音声認識の結果として高い尤度を示しているノイズでも
棄却できるようなり、音声認識の精度を高めることがで
きる。
As described above, according to the present invention,
It is possible to reject even noise that shows a high likelihood as a result of voice recognition, and improve the accuracy of voice recognition.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第1の実施の形態にかかる音声認識装
置の構成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of a voice recognition device according to a first exemplary embodiment of the present invention.

【図2】図1の音素モデル格納部に格納される音素モデ
ルの例を示す図である。
FIG. 2 is a diagram showing an example of a phoneme model stored in a phoneme model storage unit of FIG.

【図3】図1の単語辞書格納部に格納される単語辞書の
例を示す図である。
3 is a diagram showing an example of a word dictionary stored in a word dictionary storage unit of FIG.

【図4】尤度信頼度率を求める方法を説明する図であ
る。
FIG. 4 is a diagram illustrating a method of obtaining a likelihood reliability rate.

【図5】キーボードを打つ音の実測結果を示す図であ
る。
FIG. 5 is a diagram showing an actual measurement result of a sound of hitting a keyboard.

【図6】本発明の第1の実施の形態にかかる音声認識装
置における処理を示すフローチャートである。
FIG. 6 is a flowchart showing processing in the voice recognition device according to the first embodiment of the present invention.

【図7】図6の音声認識処理を詳細に示すフローチャー
トである。
7 is a flowchart showing the voice recognition process of FIG. 6 in detail.

【図8】(a)は、本発明の第2の実施の形態にかかる
音声認識装置において単語辞書格納部に格納される単語
辞書の例を、(b)は、母音率履歴テーブルを示す図で
ある。
FIG. 8A is an example of a word dictionary stored in a word dictionary storage unit in the speech recognition apparatus according to the second embodiment of the present invention, and FIG. 8B is a diagram showing a vowel rate history table. Is.

【図9】本発明の第2の実施の形態にかかる音声認識装
置における処理を示すフローチャートである。
FIG. 9 is a flowchart showing processing in the voice recognition device according to the second embodiment of the present invention.

【図10】図9の音声認識処理を詳細に示すフローチャ
ートである。
10 is a flowchart showing the voice recognition process of FIG. 9 in detail.

【図11】図9の音声認識処理を詳細に示すフローチャ
ートである。
11 is a flowchart showing the voice recognition process of FIG. 9 in detail.

【符号の説明】[Explanation of symbols]

1・・・音声入力部、2・・・入力音声格納部、3・・・パワー
算出部、4・・・音声区間検出部、5・・・音声特徴抽出部、
6・・・音素モデル格納部、7・・・単語辞書格納部、8・・・
尤度計算部、9・・・検証部、10・・・最終判定部、11・・
・出力部
1 ... voice input unit, 2 ... input voice storage unit, 3 ... power calculation unit, 4 ... voice section detection unit, 5 ... voice feature extraction unit,
6 ... Phoneme model storage unit, 7 ... Word dictionary storage unit, 8 ...
Likelihood calculation unit, 9 ... Verification unit, 10 ... Final determination unit, 11 ...
・ Output section

Claims (12)

【特許請求の範囲】[Claims] 【請求項1】認識対象となる音声に含まれる各音素をモ
デル化した音素モデルを格納した音素モデル格納手段
と、 認識結果として出力されるべき複数種類の単語の音素パ
ターン系列をそれぞれ登録した単語辞書を格納した単語
辞書格納手段と、 入力された音声を前記音素モデル及び前記単語辞書を参
照して音声認識し、前記単語辞書に登録された各種類の
単語の尤度を求め、該求めた尤度に基づいて、認識結果
として出力される単語の候補を抽出する候補単語抽出手
段と、 前記入力された音声に含まれる母音と子音との比率を算
出する比率算出手段と、 前記比率算出手段が算出した母音と子音との比率が所定
の範囲にあるかどうかを判定する比率判定手段と、 前記比率判定手段が所定の範囲にあると判定したとき
に、前記候補単語抽出手段が候補として抽出した単語を
音声認識結果として出力する結果出力手段とを備えるこ
とを特徴とする音声認識装置。
1. A phoneme model storage means for storing a phoneme model in which each phoneme included in a speech to be recognized is modeled, and a word for registering a phoneme pattern series of a plurality of types of words to be output as a recognition result. A word dictionary storage means storing a dictionary, and speech recognition of the input speech by referring to the phoneme model and the word dictionary, and the likelihood of each type of word registered in the word dictionary is obtained, and the obtained Candidate word extraction means for extracting word candidates output as a recognition result based on likelihood, ratio calculation means for calculating a ratio of vowels and consonants contained in the input speech, and the ratio calculation means When the ratio determining unit determines that the ratio of the calculated vowel and consonant is within a predetermined range, and the ratio determining unit determines that the ratio is within a predetermined range, There speech recognition apparatus characterized by comprising a result output means for outputting the words extracted as a candidate as the speech recognition result.
【請求項2】前記比率判定手段は、前記母音と子音との
比率を予め設定された閾値と比較することで、所定の範
囲にあるかどうかの判定を行うことを特徴とする請求項
1に記載の音声認識装置。
2. The ratio determining means compares the ratio between the vowel and consonant with a preset threshold value to determine whether or not the ratio is within a predetermined range. The voice recognition device described.
【請求項3】前記単語辞書は、前記複数種類の単語のそ
れぞれに対応付けて、さらに前記比率判定手段の判定に
用いるための比率範囲を登録しており、 前記比率判定手段は、前記母音と子音との比率が前記候
補単語抽出手段が候補として抽出した単語に対応した比
率範囲にあるかどうかを判定することを特徴とする請求
項1または2に記載の音声認識装置。
3. The word dictionary stores a ratio range to be used for the determination of the ratio determining means, in association with each of the plurality of types of words, and the ratio determining means determines that the vowel sounds The voice recognition device according to claim 1 or 2, wherein it is determined whether or not a ratio with a consonant is within a ratio range corresponding to a word extracted as a candidate by the candidate word extraction means.
【請求項4】同一の話者から入力された同一の単語につ
いて、前記比率算出手段が算出した母音と子音との比率
の履歴を複数回分登録する履歴登録手段をさらに備え、 少なくとも1の単語に対応付けて前記単語辞書に登録さ
れた比率範囲は、前記履歴登録手段に登録された比率の
履歴に従って算出されたものであることを特徴とする請
求項3に記載の音声認識装置。
4. For at least one word, at least one word further comprises history registration means for registering the history of the ratio of vowels and consonants calculated by the ratio calculation means for the same word input by the same speaker. The voice recognition device according to claim 3, wherein the ratio range registered in the word dictionary in association with each other is calculated according to the history of the ratios registered in the history registration means.
【請求項5】前記候補単語抽出手段は、尤度の高いほう
から順位付けられた複数の単語の候補を抽出し、 前記比率算出手段は、尤度の高い単語から順に母音と子
音との比率を算出し、該算出した母音と子音との比率が
所定の範囲にないと前記比率判定手段によって判定され
たときに、次の順位の単語について母音と子音との比率
を算出することを特徴とする請求項1乃至4のいずれか
1項に記載の音声認識装置。
5. The candidate word extracting means extracts a plurality of word candidates ranked from the highest likelihood, and the ratio calculating means calculates the ratio of vowels and consonants in order from the highest likelihood word. And the ratio of the calculated vowels and consonants is not within a predetermined range, when the ratio determination means determines that the ratio of vowels and consonants is calculated for the word of the next rank. The voice recognition device according to claim 1, wherein
【請求項6】前記候補単語抽出手段が候補として抽出し
た単語について、その尤度の信頼度を算出する尤度信頼
度算出手段と、 前記尤度信頼度算出手段が算出した尤度の信頼度が所定
の閾値を上回るかどうかを判定する尤度信頼度判定手段
とをさらに備え、 前記結果出力手段は、前記尤度信頼度判定手段が所定の
閾値を上回ると判定し、且つ前記比率判定手段が所定の
範囲にあると判定したときに、前記候補単語抽出手段が
抽出した単語を音声認識結果として出力することを特徴
とする請求項1乃至5のいずれか1項に記載の音声認識
装置。
6. A likelihood reliability calculating means for calculating a reliability of likelihood of a word extracted as a candidate by the candidate word extracting means, and a reliability of likelihood calculated by the likelihood reliability calculating means. Further includes a likelihood reliability determination means for determining whether or not exceeds a predetermined threshold, the result output means determines that the likelihood reliability determination means exceeds a predetermined threshold, and the ratio determination means. 6. The speech recognition apparatus according to claim 1, wherein when it is determined that is within a predetermined range, the word extracted by the candidate word extraction unit is output as a speech recognition result.
【請求項7】前記候補単語抽出手段は、尤度の高いほう
から順位付けられた複数の単語の候補を抽出し、 前記尤度信頼度算出手段は、尤度の高い単語から順に尤
度の信頼度を算出し、該算出した尤度の信頼度が前記所
定の閾値を上回らないと前記尤度信頼度判定手段によっ
て判定されたときに、次の順位の単語について尤度の信
頼度を算出することを特徴とする請求項6に記載の音声
認識装置。
7. The candidate word extracting means extracts a plurality of word candidates ranked from the highest likelihood, and the likelihood reliability calculating means calculates likelihoods in descending order of likelihood. The reliability is calculated, and when the likelihood reliability determination means determines that the calculated reliability of the likelihood does not exceed the predetermined threshold, the reliability of the likelihood of the word of the next rank is calculated. The voice recognition device according to claim 6, wherein
【請求項8】前記音素モデルは、認識対象となる音声に
含まれる各音素を隠れマルコフモデルでモデル化したも
のであり、 前記候補単語抽出手段は、前記入力された音声を所定時
間を単位として複数の区間に分割し、該分割した区間の
うちの音声区間について音響特徴ベクトルを求め、各区
間の音響特徴ベクトルと前記音素モデルとに基づいて連
続音素認識を行い、各フレームでの尤度の合計が最大と
なる単語を候補として抽出することを特徴とする請求項
1乃至7のいずれか1項に記載の音声認識装置。
8. The phoneme model is a model in which each phoneme included in a speech to be recognized is modeled by a hidden Markov model, and the candidate word extracting means sets the input speech in units of a predetermined time. Dividing into a plurality of sections, obtaining an acoustic feature vector for a voice section of the divided sections, performing continuous phoneme recognition based on the acoustic feature vector of each section and the phoneme model, the likelihood of each frame The speech recognition device according to claim 1, wherein a word having a maximum total is extracted as a candidate.
【請求項9】入力された音声を、認識対象となる音声に
含まれる各音素をモデル化した音素モデル及び認識結果
として出力されるべき複数種類の単語の音素パターン系
列をそれぞれ登録した単語辞書を参照して音声認識し、
前記単語辞書に登録された各種類の単語の尤度を求め、
該求めた尤度に基づいて、認識結果として出力される単
語の候補を抽出する候補単語抽出ステップと、 前記入力された音声に含まれる母音と子音との比率を算
出する比率算出ステップと、 前記比率算出ステップで算出した母音と子音との比率が
所定の範囲にあるかどうかを判定する比率判定ステップ
と、 前記比率判定ステップで所定の範囲にあると判定したと
きに、前記候補単語抽出ステップにおいて候補として抽
出した単語を音声認識結果として出力する結果出力ステ
ップとを含むことを特徴とする音声認識方法。
9. A word dictionary in which a phoneme model obtained by modeling each phoneme included in a voice to be recognized and a phoneme pattern series of a plurality of types of words to be output as a recognition result are registered in a word dictionary. Voice recognition by referring to
Obtaining the likelihood of each type of word registered in the word dictionary,
A candidate word extraction step of extracting a candidate word output as a recognition result based on the obtained likelihood; a ratio calculation step of calculating a ratio of vowels and consonants included in the input speech, A ratio determination step of determining whether the ratio of vowels and consonants calculated in the ratio calculation step is within a predetermined range, and when it is determined that the ratio is within a predetermined range in the ratio determination step, in the candidate word extraction step And a result output step of outputting a word extracted as a candidate as a voice recognition result.
【請求項10】前記候補単語抽出ステップで候補として
抽出した単語について、その尤度の信頼度を算出する尤
度信頼度算出ステップと、 前記尤度信頼度算出ステップで算出した尤度の信頼度が
所定の閾値を上回るかどうかを判定する尤度信頼度判定
ステップとをさらに含み、 前記結果出力ステップは、前記尤度信頼度判定ステップ
所定の閾値を上回ると判定し、且つ前記比率判定ステッ
プで所定の範囲にあると判定したときに、前記候補単語
抽出ステップで抽出した単語を音声認識結果として出力
することを特徴とする請求項9に記載の音声認識方法。
10. A likelihood reliability calculation step of calculating a reliability of likelihood of a word extracted as a candidate in the candidate word extraction step, and a reliability of likelihood calculated in the likelihood reliability calculation step. Further includes a likelihood reliability determination step of determining whether or not exceeds a predetermined threshold, the result output step determines that the likelihood reliability determination step exceeds a predetermined threshold, and in the ratio determination step 10. The voice recognition method according to claim 9, wherein the word extracted in the candidate word extraction step is output as a voice recognition result when it is determined that the word is within a predetermined range.
【請求項11】入力された音声を、認識対象となる音声
に含まれる各音素をモデル化した音素モデル及び認識結
果として出力されるべき複数種類の単語の音素パターン
系列をそれぞれ登録した単語辞書を参照して音声認識
し、前記単語辞書に登録された各種類の単語の尤度を求
め、該求めた尤度に基づいて、認識結果として出力され
る単語の候補を抽出する候補単語抽出手段、 前記入力された音声に含まれる母音と子音との比率を算
出する比率算出手段、 前記比率算出手段が算出した母音と子音との比率が所定
の範囲にあるかどうかを判定する比率判定手段、及び、 前記比率判定手段が所定の範囲にあると判定したとき
に、前記候補単語抽出手段が候補として抽出した単語を
音声認識結果として出力する結果出力手段としてコンピ
ュータ装置を機能させるためのプログラム。
11. A word dictionary in which a phoneme model obtained by modeling each phoneme included in a voice to be recognized and a phoneme pattern series of a plurality of types of words to be output as a recognition result are registered. Candidate word extraction means for performing speech recognition with reference to obtain likelihood of each type of word registered in the word dictionary, and extracting a candidate of a word output as a recognition result based on the obtained likelihood. Ratio calculating means for calculating the ratio of vowels and consonants contained in the input voice, ratio determining means for determining whether the ratio of vowels and consonants calculated by the ratio calculating means is within a predetermined range, and When the ratio determining unit determines that the ratio is within a predetermined range, the computer apparatus is provided as a result output unit that outputs a word extracted as a candidate by the candidate word extracting unit as a voice recognition result. Program for the functioning of the.
【請求項12】前記候補単語抽出手段が候補として抽出
した単語について、その尤度の信頼度を算出する尤度信
頼度算出手段、及び、 前記尤度信頼度算出手段が算出した尤度の信頼度が所定
の閾値を上回るかどうかを判定する尤度信頼度判定手段
として前記コンピュータ装置を機能させ、 前記結果出力手段は、前記尤度信頼度判定手段が所定の
閾値を上回ると判定し、且つ前記比率判定手段が所定の
範囲にあると判定したときに、前記候補単語抽出手段が
抽出した単語を音声認識結果として出力することを特徴
とする請求項11に記載のプログラム。
12. A likelihood reliability calculation means for calculating a reliability of likelihood of a word extracted as a candidate by the candidate word extraction means, and a reliability of likelihood calculated by the likelihood reliability calculation means. The computer device functions as a likelihood reliability determination means for determining whether the degree exceeds a predetermined threshold, the result output means determines that the likelihood reliability determination means exceeds a predetermined threshold, and The program according to claim 11, wherein when the ratio determining unit determines that the ratio is within a predetermined range, the word extracted by the candidate word extracting unit is output as a voice recognition result.
JP2001239710A 2001-08-07 2001-08-07 Speech recognition apparatus and method, and program Expired - Fee Related JP4604424B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001239710A JP4604424B2 (en) 2001-08-07 2001-08-07 Speech recognition apparatus and method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001239710A JP4604424B2 (en) 2001-08-07 2001-08-07 Speech recognition apparatus and method, and program

Publications (2)

Publication Number Publication Date
JP2003050595A true JP2003050595A (en) 2003-02-21
JP4604424B2 JP4604424B2 (en) 2011-01-05

Family

ID=19070416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001239710A Expired - Fee Related JP4604424B2 (en) 2001-08-07 2001-08-07 Speech recognition apparatus and method, and program

Country Status (1)

Country Link
JP (1) JP4604424B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005115386A (en) * 2003-10-06 2005-04-28 Sony Internatl Europ Gmbh Method for predicting misrecognition
WO2009147927A1 (en) 2008-06-06 2009-12-10 株式会社レイトロン Audio recognition device, audio recognition method, and electronic device
JP2013114202A (en) * 2011-11-30 2013-06-10 Nippon Telegr & Teleph Corp <Ntt> Speech recognition method, device for the same and program

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58224396A (en) * 1982-06-23 1983-12-26 富士通株式会社 Voice recognition equipment
JPS61219099A (en) * 1985-03-25 1986-09-29 株式会社東芝 Voice recognition equipment
JPH01185599A (en) * 1988-01-18 1989-07-25 Toshiba Corp Speech recognizing circuit
JPH02293798A (en) * 1989-05-02 1990-12-04 Ricoh Co Ltd Dictionary updating system for voice recognizing device
JPH05249987A (en) * 1992-03-09 1993-09-28 Matsushita Electric Ind Co Ltd Voice detecting method and device
JPH1185189A (en) * 1997-09-10 1999-03-30 Hitachi Ltd Speech recognition apparatus

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58224396A (en) * 1982-06-23 1983-12-26 富士通株式会社 Voice recognition equipment
JPS61219099A (en) * 1985-03-25 1986-09-29 株式会社東芝 Voice recognition equipment
JPH01185599A (en) * 1988-01-18 1989-07-25 Toshiba Corp Speech recognizing circuit
JPH02293798A (en) * 1989-05-02 1990-12-04 Ricoh Co Ltd Dictionary updating system for voice recognizing device
JPH05249987A (en) * 1992-03-09 1993-09-28 Matsushita Electric Ind Co Ltd Voice detecting method and device
JPH1185189A (en) * 1997-09-10 1999-03-30 Hitachi Ltd Speech recognition apparatus

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005115386A (en) * 2003-10-06 2005-04-28 Sony Internatl Europ Gmbh Method for predicting misrecognition
WO2009147927A1 (en) 2008-06-06 2009-12-10 株式会社レイトロン Audio recognition device, audio recognition method, and electronic device
JP2013114202A (en) * 2011-11-30 2013-06-10 Nippon Telegr & Teleph Corp <Ntt> Speech recognition method, device for the same and program

Also Published As

Publication number Publication date
JP4604424B2 (en) 2011-01-05

Similar Documents

Publication Publication Date Title
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
JP4737990B2 (en) Vocabulary stress prediction
US10319373B2 (en) Information processing device, information processing method, computer program product, and recognition system
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
EP2048655A1 (en) Context sensitive multi-stage speech recognition
CN109036471B (en) Voice endpoint detection method and device
JP5229124B2 (en) Speaker verification device, speaker verification method and program
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
JP2011053569A (en) Audio processing device and program
CN110189750B (en) Word detection system, word detection method, and recording medium
CN108573713B (en) Speech recognition apparatus, speech recognition method, and storage medium
JP3633254B2 (en) Voice recognition system and recording medium recording the program
JP4604424B2 (en) Speech recognition apparatus and method, and program
US11961510B2 (en) Information processing apparatus, keyword detecting apparatus, and information processing method
JP2001312293A (en) Method and device for voice recognition, and computer- readable storage medium
JP4610451B2 (en) Speech recognition apparatus and program
JP2008026721A (en) Speech recognizer, speech recognition method, and program for speech recognition
JP2004177551A (en) Unknown speech detecting device for voice recognition and voice recognition device
US6438521B1 (en) Speech recognition method and apparatus and computer-readable memory
JP2006313261A (en) Voice recognition device and voice recognition program and computer readable recording medium with the voice recognition program stored
JP2005091758A (en) System and method for speaker recognition
JP5066668B2 (en) Speech recognition apparatus and program
KR100677224B1 (en) Speech recognition method using anti-word model
JP4981519B2 (en) Learning data label error candidate extraction apparatus, method and program thereof, and recording medium thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070625

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100506

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100907

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100920

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131015

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees