JP2006030915A - Method and device for speech recognition - Google Patents

Method and device for speech recognition Download PDF

Info

Publication number
JP2006030915A
JP2006030915A JP2004213687A JP2004213687A JP2006030915A JP 2006030915 A JP2006030915 A JP 2006030915A JP 2004213687 A JP2004213687 A JP 2004213687A JP 2004213687 A JP2004213687 A JP 2004213687A JP 2006030915 A JP2006030915 A JP 2006030915A
Authority
JP
Japan
Prior art keywords
threshold
recognition
threshold value
value
recognition score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004213687A
Other languages
Japanese (ja)
Inventor
Yoshihisa Omoto
芳尚 大元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iwatsu Electric Co Ltd
Original Assignee
Iwatsu Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iwatsu Electric Co Ltd filed Critical Iwatsu Electric Co Ltd
Priority to JP2004213687A priority Critical patent/JP2006030915A/en
Publication of JP2006030915A publication Critical patent/JP2006030915A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a method and device for speech recognition that decides that an unnecessary word is an incorrect answer with high probability without using a dictionary of unnecessary word models, reduces malfunction, and has high recognition efficiency with a small-capacity memory by replacing an old threshold with a new threshold suitable to change of environment of a speech recognition device for deciding a recognition result outputted through speech recognition processing. <P>SOLUTION: A feature quantity of an inputted speech is analyzed to obtain a score (19) showing the feature quantity and retrieval from a database (21) is carried out; when the value of the recognition score (19) is not close to a threshold already stored in the database (21) (23), a new threshold adapted to the recognition score is calculated (25) to replace the old threshold stored in the database (36). It is decided that an unnecessary word is an incorrect answer with high probability without using a dictionary of unnecessary word models and malfunction is reduced to provide the method and device for speech recognition which has high recognition efficiency with the small-capacity memory. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、音声認識方法と装置に関する。具体的には、入力された音声を確定するための新規な方法と装置を提供せんとするものである。   The present invention relates to a speech recognition method and apparatus. Specifically, it is intended to provide a novel method and apparatus for determining an input voice.

音声認識装置は、人間の発生した音声を利用した情報伝達手段として開発されてきた。このような音声認識装置では、あらかじめ音響モデルと単語辞書が登録(記憶)されており、人間が語句を発生すると登録された音響モデルと単語辞書を参照して、音声信号の語句を認識するようにしている。     Voice recognition devices have been developed as information transmission means using human generated voice. In such a speech recognition device, an acoustic model and a word dictionary are registered (stored) in advance, and when a person generates a phrase, the phrase of the speech signal is recognized with reference to the registered acoustic model and the word dictionary. I have to.

実際の音声認識では、言い間違いや「えーと」や咳のように認識内容に関係のない言葉(以後、「不要語」という)が含まれる場合がある。この不要語は、誤認識の原因となりやすく、その場合には、音声認識装置を利用する人に再発話を要求することになる。このような不要語への対処を考慮した方法として、不要語のモデルを作成して辞書として登録し音声認識において参照し、その結果から不要語を除去する方法が提案されている。   In actual speech recognition, there are cases where words that are not related to the content of recognition (hereinafter referred to as “unnecessary words”) such as “motto” and “um” or cough may be included. This unnecessary word is likely to cause misrecognition, and in that case, a person who uses the speech recognition apparatus is requested to re-utter. As a method in consideration of dealing with such unnecessary words, a method has been proposed in which an unnecessary word model is created, registered as a dictionary, referenced in speech recognition, and unnecessary words are removed from the result.

また、音声対話処理を行う音声対話装置において、電話機から入力された音声を確定するための候補と、その候補に対する認識スコア(得点)とを取得し、得られた候補が正しいか否かを判断する方法として、音声入力されるであろうと予測される各単語に対応して設定したしきい値をデータ・ベースにあらかじめ格納しており、それと認識スコアとを比較することによって分岐判断を実行し、利用者への適切な対応を決定する方法が提案されている。   In addition, in a voice interaction device that performs voice interaction processing, a candidate for determining a voice input from a telephone and a recognition score (score) for the candidate are acquired, and it is determined whether or not the obtained candidate is correct. As a method, a threshold set for each word predicted to be input is stored in the database in advance, and branch judgment is executed by comparing it with the recognition score. A method for determining an appropriate response to a user has been proposed.

利用者への適切な対応を決定する方法においては、データ・ベースに
1. 各単語の整理番号
2. 各単語
3. 各単語に関するしきい値を含む固定データ
を格納している。格納内容は、予め入力されたものであり、装置の動作中にこれらを書き換えることはない。
In the method of determining the appropriate response to the user,
1. Reference number for each word
2. Each word
3. Stores fixed data including thresholds for each word. The stored contents are input in advance and are not rewritten during the operation of the apparatus.

しかしながら、不要語を除去する方法では、予めあらゆる環境に応じた不要語のモデルを作成する必要があり、現実的に不可能である。これに対して、利用者への適切な対応を決定する方法においては、しきい値の設定方法が重要であり、たとえば、ある環境(時間、設置場所、利用者など)で設定したしきい値を他の環境で利用する場合には、環境の変化による影響が避けられない。さらに、音声認識装置の環境ごとに適したしきい値を決定するためには、環境ごとの膨大なデータとそれを作成する時間が必要になる。また、認識辞書に登録した単語すべての認識スコアを集計して設定されたしきい値は、単語個々の認識スコアのばらつきを全て網羅するため、分布で表すと平均値からの分散が大きく広がってしまい、認識精度が悪くなるという問題点があった。   However, in the method of removing unnecessary words, it is necessary to create a model of unnecessary words according to any environment in advance, which is impossible in practice. On the other hand, in the method of determining an appropriate response to the user, the threshold setting method is important. For example, the threshold set in a certain environment (time, installation location, user, etc.) When using in other environments, the effects of environmental changes are inevitable. Furthermore, in order to determine a threshold value suitable for each environment of the speech recognition apparatus, enormous data for each environment and a time for creating it are required. In addition, the threshold set by summing up the recognition scores of all words registered in the recognition dictionary covers all the variations in recognition scores for each word. As a result, there is a problem that the recognition accuracy deteriorates.

特許文献1では、未知入力音声と予め用意した標準パターン(データ・ベース)との比較照合により未知入力音声の認識を行う音声認識装置が開示され、未知入力音声に対して最も類似性の高い標準パターンの基準類似度を各標準パターン毎に生成し、未知入力音声の認識に際し選択された標準パターンを認識結果とするか否かを基準類似度に基づき決定している。   Patent Document 1 discloses a speech recognition apparatus that recognizes an unknown input voice by comparing and collating an unknown input voice with a standard pattern (data base) prepared in advance, and has the highest similarity to the unknown input voice. A reference similarity of the pattern is generated for each standard pattern, and it is determined based on the reference similarity whether or not to use the standard pattern selected in recognition of unknown input speech as a recognition result.

特許文献2では、データ・ベースには標準情報が格納してある。そこにおいて、標準情報には、全単語毎に、特徴パターンと、それぞれの単語における標準的な音声区間時間に基づき得られる継続長時間とを有し、照合手段1にて、第1時刻にて第1類似度を得ている。第2単語もしくは結合単語について第2時刻にて最大類似度を得たとき、送出手段2は、第2時刻から当該最大類似度を得た単語における第2継続長時間分逆上った時刻に相当する判断時刻が、上記第1時刻よりも後であるときには、上記第1類似度及び上記最大類似度の両方を送出する。   In Patent Document 2, standard information is stored in a data base. In this case, the standard information includes, for every word, a feature pattern and a continuous duration obtained based on the standard speech interval time of each word. The first similarity is obtained. When the maximum similarity is obtained at the second time for the second word or the combined word, the sending means 2 at the time when the word having the maximum similarity from the second time goes up by the second continuous long time. When the corresponding determination time is later than the first time, both the first similarity and the maximum similarity are transmitted.

これら、特許文献1および特許文献2では、いずれも予め用意された標準パターンをデータ・ベースに登録格納し、入力音声のこれら標準パターンとの類似度を認識している。その点で、特許文献1および特許文献2は、前述の利用者への適切な対応を決定する方法に属するものである。
特開平9-152888号公報 特開平9-166995号公報
In both Patent Document 1 and Patent Document 2, a standard pattern prepared in advance is registered and stored in a data base, and the similarity of the input speech with these standard patterns is recognized. In this regard, Patent Document 1 and Patent Document 2 belong to a method for determining an appropriate response to the above-described user.
JP-A-9-152888 Japanese Unexamined Patent Publication No. 9-16995

従来の技術には、あらかじめあらゆる環境に応じた不要語のモデルを作成しなければならず、現実的に不可能であるという解決し難い問題があった。さらに、環境の変化による影響が避けられず、音声認識装置の環境ごとに適したしきい値を決定するためには、膨大なデータと時間が必要になり、認識精度が悪くなるという解決されねばならない課題があった。   In the conventional technology, an unnecessary word model corresponding to every environment must be created in advance, and there is a problem that it is impossible to solve in reality. Furthermore, it is unavoidable that the influence of environmental changes is unavoidable, and in order to determine a threshold value suitable for each environment of the speech recognition apparatus, a huge amount of data and time are required, and the recognition accuracy deteriorates. There was a problem that was not possible.

本発明は、音声認識処理で出力された認識結果の判定に、音声認識装置の環境の変化に適した新しいしきい値を旧いしきい値に置き換えることで、不要語モデルの辞書を使用せずに、不要語を高い確率で不正解と判別し、誤動作を減らし、小容量のメモリで認識効率の高い音声認識方法と装置を提供することを目的とする。   The present invention replaces a new threshold value suitable for a change in the environment of the speech recognition apparatus with an old threshold value in the determination of the recognition result output in the speech recognition processing, thereby avoiding the use of an unnecessary word model dictionary. Another object of the present invention is to provide a speech recognition method and apparatus that recognizes an unnecessary word as an incorrect answer with high probability, reduces malfunctions, and has high recognition efficiency with a small memory.

入力された音声を確定するために、音響モデルと単語辞書を参照して特徴量を分析して特徴量を示す尤度を認識スコアとして得て、単語辞書に収容された多くの単語の特徴量とそれらに対応したしきい値を収納したデータ・ベースを検索し、少なくとも1つの特徴データに対して信頼度を採点して認識スコアとし、認識スコア付きの特徴データを検索結果として得て、その検索結果のしきい値から正解か不正解かを判定し、正解とした認識スコアの平均と分散を所定の短期間ごとに計算して正解認識スコアを作成し、この正解認識スコアの値が、すでにデータ・ベースに収納されているしきい値に近似していない場合には、この正解認識スコアに適応する新しいしきい値を計算して、データ・ベースに収納されている旧いしきい値に置き換える。   In order to determine the input speech, the feature amount is analyzed by referring to the acoustic model and the word dictionary, and the likelihood indicating the feature amount is obtained as a recognition score, and the feature amount of many words stored in the word dictionary And a database containing the thresholds corresponding to them, scoring reliability for at least one feature data to obtain a recognition score, and obtaining feature data with a recognition score as a search result, It is determined whether the answer is correct or incorrect from the threshold value of the search result, and the correct recognition score is calculated by calculating the average and variance of the correct recognition scores for each predetermined short period. If it is not close to the threshold already stored in the database, a new threshold that adapts to this correct recognition score is calculated to the old threshold stored in the database. Replace .

本発明によれば、単語辞書に収容された多くの単語ごとに、種々に変化する環境に最適な新しいしきい値を常に計算して、必要に応じてデータ・ベースに収納されている旧いしきい値に置き換えるようにしたから、データ・ベースに収納されているいしきい値は常に環境に最適の状態にあり、入力された音声を環境の変化に係らず正しく確定し、不要語を高い確率で不正解と判別できるため、誤動作を低減し、小さなメモリ容量のデータ・ベースで効率の良い音声認識が可能になった。   According to the present invention, for each of many words stored in the word dictionary, a new threshold value that is optimal for various changing environments is always calculated, and the old and new stored in the database as necessary. Since threshold values are replaced with threshold values, the threshold values stored in the database are always optimal for the environment, input speech is correctly determined regardless of environmental changes, and unnecessary words have a high probability. Therefore, it is possible to discriminate incorrect answers, thereby reducing malfunctions and enabling efficient speech recognition with a data base having a small memory capacity.

入力された音声を確定するために、音響モデルと単語辞書を参照して特徴量を分析して特徴量を示す尤度を認識スコアとして得て、単語辞書に収容された多くの単語の特徴量とそれらに対応したしきい値を収納したデータ・ベースを検索し、少なくとも1つの特徴データに対して信頼度を採点して認識スコアとし、認識スコア付きの特徴データを検索結果として得る。その検索結果の認識スコアから正解か不正解かを判定し、正解とした認識スコアの平均と分散を所定の短期間ごとに計算して正解認識スコアを作成する。   In order to determine the input speech, the feature amount is analyzed by referring to the acoustic model and the word dictionary, and the likelihood indicating the feature amount is obtained as a recognition score, and the feature amount of many words stored in the word dictionary And a data base storing threshold values corresponding to them, the reliability is scored for at least one feature data as a recognition score, and feature data with a recognition score is obtained as a search result. A correct answer recognition score is created by determining whether the answer is correct or incorrect from the recognition score of the search result, and calculating the average and variance of the recognition scores taken as correct answers every predetermined short period.

この正解認識スコアの値が、すでにデータ・ベースに収納されているしきい値に近似していない場合には、この正解認識スコアに適応する新しいしきい値を計算して、データ・ベースに収納されている旧いしきい値に置き換える。単語辞書に収容された多くの単語ごとに、種々に変化する環境に最適な新しいしきい値を常に計算して、必要に応じてデータ・ベースに収納されている旧いしきい値に置き換えるようにしたから、データ・ベースに収納されているいしきい値は常に環境に最適の状態にあり、入力された音声を環境の変化に係らず正しく確定し、不要語を高い確率で不正解と判別できる音声認識方法と装置を実現することができた。   If the value of the correct recognition score is not close to the threshold already stored in the database, a new threshold that adapts to the correct recognition score is calculated and stored in the database. Replace with the old threshold value. For many words contained in the word dictionary, always calculate a new threshold that best suits the changing environment and replace it with the old threshold stored in the database as needed. Therefore, the threshold value stored in the database is always optimal for the environment, and the input speech can be determined correctly regardless of environmental changes, and unnecessary words can be determined as incorrect answers with high probability. A speech recognition method and device could be realized.

図1は、本願発明の実施例を示した回路構成図である。一般に認識エンジンと呼ばれている認識処理部10には、音響モデル11、単語辞書12および特徴量分析器13が含まれている。特徴量分析器13に音声信号18が入力されると、スペクトル特徴量(特徴ベクトル)を抽出する。音響モデル11および単語辞書12に音声信号18の特徴ベクトルを照合し、一致している可能性の高さを表す尤度(ゆうど)の最も高いものから順番に音響モデルを複数個選択し、選択された各音響モデルにそれぞれの尤度の値を示す認識スコアx(0≦x≦1)を付して特徴データ19として出力する。   FIG. 1 is a circuit configuration diagram showing an embodiment of the present invention. A recognition processing unit 10 generally called a recognition engine includes an acoustic model 11, a word dictionary 12, and a feature amount analyzer 13. When the audio signal 18 is input to the feature quantity analyzer 13, a spectral feature quantity (feature vector) is extracted. The feature vector of the speech signal 18 is checked against the acoustic model 11 and the word dictionary 12, and a plurality of acoustic models are selected in order from the one with the highest likelihood (yudo) indicating the possibility of matching, A recognition score x (0 ≦ x ≦ 1) indicating each likelihood value is attached to each selected acoustic model and output as feature data 19.

データ・ベース21には、単語辞書12に格納されている各単語に対応して書き換え可能なしきい値sが収納されている。データ検索部22は、印加された特徴データ19に最も近似した音響モデルの属する単語のしきい値sを検索情報31として取得し、検索結果32として出力する。しきい値判定部23は認識スコアxを含む特徴データ19およびしきい値sを表す検索結果32を受けて両者を比較することにより、各単語に対応した認識スコアxとしきい値sから、正しいものとして認められるか否かを判定する。認識スコアxがしきい値sよりも大きい場合は高い確率で正しいものとして認め、認識スコアxを正解認識スコア33として出力する。認識スコアxがしきい値sよりも小さい場合は正しくないものとして、不正解認識スコア34として出力する。不正解認識スコア34が出力されると、使用者に対し、再度の音声入力を要求したり、あるいは、それ以後の動作を中止したりする。   The data base 21 stores threshold values s that can be rewritten corresponding to each word stored in the word dictionary 12. The data search unit 22 acquires, as search information 31, the threshold value s of the word to which the acoustic model closest to the applied feature data 19 belongs, and outputs it as a search result 32. The threshold value determination unit 23 receives the feature data 19 including the recognition score x and the search result 32 representing the threshold value s, and compares them, so that the correct value is obtained from the recognition score x and the threshold value s corresponding to each word. Judge whether it is recognized as a thing. When the recognition score x is larger than the threshold value s, it is recognized as being correct with a high probability, and the recognition score x is output as the correct answer recognition score 33. If the recognition score x is smaller than the threshold value s, the incorrect answer recognition score 34 is output as an incorrect one. When the incorrect answer recognition score 34 is output, the user is requested to input voice again, or the subsequent operation is stopped.

後処理部24は正解認識スコア33を受けて、次のステップに進むべく、利用者が知りたく思っている情報を提供するための音声認識アプリケーションを実行する。音声認識アプリケーションでは、たとえば、利用者への音声入力を促す情報提供は、画面出力、音声案内、あるいは応答担当者(オペレータ)によりなされる。画面出力、音声案内のためには、表示装置や音声装置へ必要な情報を転送する必要がある。また、オペレータが応答するには、オペレータに対する電話発信または情報の転送が必要である。   The post-processing unit 24 receives the correct answer recognition score 33 and executes a voice recognition application for providing information that the user wants to know in order to proceed to the next step. In the voice recognition application, for example, information prompting the user to input voice is provided by screen output, voice guidance, or a responder (operator). For screen output and voice guidance, it is necessary to transfer necessary information to a display device or voice device. In addition, in order for the operator to respond, it is necessary to make a call to the operator or transfer information.

その必要とされる後処理を済ませると、後処理部24は正解認識スコア33を認識スコア35として出力する。しきい値計算処理部25は認識スコア35を受けて、各単語に対応した正解認識スコアxの平均と分散を短期間毎に計算し、その結果得た新しきい値が現在データ・ベース21で使用中のしきい値に近似していない場合は、新しきい値をしきい値更新データ36として出力し、データ・ベース21のしきい値を更新する。このしきい値の更新により、新しい環境に順応したデータ・ベース21となるから、その後の音声入力における同じ単語に対する音声認識率は高くなる。   When the necessary post-processing is completed, the post-processing unit 24 outputs the correct answer recognition score 33 as the recognition score 35. The threshold calculation processing unit 25 receives the recognition score 35, calculates the average and variance of the correct recognition scores x corresponding to each word every short period, and the new threshold value obtained as a result is the current database 21. If it is not close to the threshold value in use, the new threshold value is output as threshold update data 36, and the threshold value of the data base 21 is updated. By updating the threshold value, the database 21 is adapted to the new environment, so that the speech recognition rate for the same word in the subsequent speech input is increased.

図2は、図1で示した構成要素のうち重要な役割りをする、しきい値計算処理部25の内部構成図である。しきい値計算処理部25には、しきい値計算前処理器41、回数判定器42、しきい値計算器43およびしきい値更新器44を含んでいる。しきい値計算前処理器41は、正解と判定された認識スコア35(値はxとする)を受けて、この認識スコアxを用いて単語ごとにしきい値計算に必要となる平均と分散を計算するための前処理を行い前処理結果46を出力する。回数判定器42は前処理結果46を受けて、しきい値計算前処理をあらかじめ設定した回数だけ実行したか否かの判定をし、回数判定結果47を出力する。   FIG. 2 is an internal configuration diagram of the threshold value calculation processing unit 25 that plays an important role among the components shown in FIG. The threshold calculation processing unit 25 includes a threshold calculation pre-processor 41, a frequency determination unit 42, a threshold calculator 43, and a threshold update unit 44. The threshold calculation pre-processor 41 receives the recognition score 35 (value is x) determined to be correct, and uses this recognition score x to calculate the average and variance necessary for threshold calculation for each word. Pre-processing for calculation is performed and a pre-processing result 46 is output. The number determination unit 42 receives the preprocessing result 46, determines whether or not the threshold calculation preprocessing has been executed a preset number of times, and outputs the number determination result 47.

しきい値計算器43は回数判定結果47を受けると、前処理結果46を用いて正解した認識スコアxの平均値と分散および標準偏差の計算を行い、しきい値計算結果48を得る。しきい値更新器44はしきい値計算結果48を受けて、前回の標準偏差と今回の標準偏差との差(新旧標準偏差値差)が、標準偏差の値が安定したことを判定するためのマージンαより大きい場合は、しきい値計算器43で今回得た平均値と標準偏差の減算値を新しきい値sとしてデータ・ベース21に格納し、新旧標準偏差値差がマージンαより小さい場合は、新旧標準偏差値差が収束したものと判断して、新しきい値sのデータ・ベース21における更新を停止する。   Upon receipt of the number determination result 47, the threshold calculator 43 calculates the average value, variance, and standard deviation of the correct recognition score x using the preprocessing result 46, and obtains the threshold calculation result 48. The threshold updater 44 receives the threshold calculation result 48 and determines that the difference between the previous standard deviation and the current standard deviation (new and old standard deviation value difference) is stable. Is larger than the margin α, the average value obtained by the threshold calculator 43 and the subtraction value of the standard deviation are stored in the data base 21 as the new threshold s, and the difference between the old and new standard deviation values is smaller than the margin α. In this case, it is determined that the difference between the old and new standard deviation values has converged, and the update of the new threshold value s in the database 21 is stopped.

しきい値計算前処理器41における計算処理について詳細に説明する。しきい値計算前処理器41は、正解と判定された認識スコア35を受けて、認識スコアxを用いて単語ごとにしきい値計算に必要となる平均と分散を計算するための前処理を行う。平均値の計算に必要な平均加算値ETN(x)’と、分散の計算に必要な平均の2乗加算値ETN(x2)’を計算する。まず、正解認識スコア33と判定された認識スコアxに重みmをつけて所定数のN回加算して式(1)の平均値E(x)を求め、格納する。ここで、重みmは、Σ=1 であり、このΣはn=1〜Nの累和を表す。
(x)=Σm (1)
ただし、式(1)におけるΣはn=1〜Nの累和を表す。
The calculation process in the threshold value calculation preprocessor 41 will be described in detail. The threshold calculation preprocessor 41 receives the recognition score 35 determined to be correct and performs preprocessing for calculating the average and variance necessary for threshold calculation for each word using the recognition score x. . An average added value E TN (x) ′ necessary for calculating the average value and an average square added value E TN (x 2 ) ′ required for calculating the variance are calculated. First, the weight m is added to the recognition score x determined to be the correct recognition score 33, and a predetermined number of times N are added to determine and store the average value E N (x) of equation (1). Here, the weight m is Σ n = 1, and this Σ represents the accumulation of n = 1 to N.
E N (x) = Σm n x n (1)
However, Σ in the formula (1) represents the accumulation of n = 1 to N.

そこで、N個×T回目(NおよびTは所定の整数)の認識スコアxの重み付き平均加算値ETN(x)’を式(2)を用いて計算する。
TN(x)’=Σm (2)
ただし、式(2)におけるΣはn=(T-1)N+1〜TNの累和を表す(NおよびTは所定の整数)。
一方、分散σx2は分散の性質を利用した式(3)を用いて計算する。
σx2=E(x2)-E(x)2 (3)
Therefore, the weighted average added value E TN (x) ′ of the N times × T times (N and T are predetermined integers) recognition scores x is calculated using Equation (2).
E TN (x) ′ = Σm n x n (2)
However, Σ in equation (2) represents the sum of n = (T−1) N + 1 to TN (N and T are predetermined integers).
On the other hand, the variance σx 2 is calculated using equation (3) using the nature of the variance.
σx 2 = E (x 2 ) −E (x) 2 (3)

さらに、しきい値計算前処理器41では、認識スコアxの平均の2乗加算値ETN(x2)’を計算する。そのために、式(4)を用いて認識スコアxを2乗し重みpを付けてN回加算する。ここで、重みpは、Σp=1 であり、Σはn=1〜Nの累和を表す。
(x2)=Σp 2 (4)
ただし、式(4)におけるΣはn=1〜Nの累和を表す。
そこで、N個×T回目(NおよびTは所定の整数)の認識スコアxの重み付き平均の2乗加算値ETN(x2)’を式(5)を用いて計算する。
TN(x2)’=Σp 2 (5)
ただし、式(5)におけるΣはn=(T-1)N+1〜TNの累和を表す(NおよびTは所定の整数)。
Further, the threshold calculation pre-processor 41 calculates an average square addition value E TN (x 2 ) ′ of the recognition score x. For this purpose, the recognition score x is squared using formula (4), weight p is added, and N times are added. Here, the weight p is Σp n = 1, and Σ represents the sum of n = 1 to N.
E N (x 2 ) = Σp n x n 2 (4)
However, Σ in equation (4) represents a sum of n = 1 to N.
Therefore, the weighted average square addition value E TN (x 2 ) ′ of the N times × T times (N and T are predetermined integers) recognition scores x is calculated using Equation (5).
E TN (x 2 ) ′ = Σp n x n 2 (5)
However, Σ in equation (5) represents the sum of n = (T−1) N + 1 to TN (N and T are predetermined integers).

回数判定器42は、しきい値計算前処理器41の実行回数、すなわち、N回およびT回に達したか否かの判定をする。しきい値計算器43は前処理結果46と回数判定結果47を受け取り、N回ごとに式(6)の平均ETN(x)、式(8)の分散σTN2、式(9)の標準偏差σTNxを求め、式(10)のしきい値sTN’を算出している。N個×T回目(NおよびTは所定の整数)までの式(6)の平均ETN(x)は、しきい値計算前処理器41で計算した式(2)の平均加算値ETN(x)’を用いて計算する。
TN(x)=(1/T){(T-1)E(T-1)N(x)+ETN(x)’} (6)
The number determination unit 42 determines whether or not the number of executions of the threshold value calculation preprocessing unit 41 has been reached, that is, N times and T times. The threshold calculator 43 receives the preprocessing result 46 and the frequency determination result 47, and every N times, the average E TN (x) of the equation (6), the variance σ TN x 2 of the equation (8), and the equation (9) The standard deviation σ TN x is obtained, and the threshold value s TN ′ of equation (10) is calculated. The average E TN (x) of the equation (6) up to N times T times (N and T are predetermined integers) is the average addition value E TN of the equation (2) calculated by the threshold calculation pre-processor 41. Calculate using (x) ′.
E TN (x) = (1 / T) {(T-1) E (T-1) N (x) + E TN (x) '} (6)

N個×T回目(NおよびTは所定の整数)までの分散σTN2は、しきい値計算前処理器41で計算した式(5)の重み付き平均2乗加算値ETN(x2)’を用いてN個ずつT回目までの平均の2乗加算値ETN(x2)を式(7)により計算し、式(6)と式(7)の計算結果から、式(8)を用いて求める。
TN(x2)=(1/T){(T-1)E(T-1)N(x2)+ETN(x2)’} (7)
σTN2=ETN(x2)-ETN(x)2 (8)
The variance σ TN x 2 up to N times T times (N and T are predetermined integers) is the weighted mean square addition value E TN (x 2 ) 'is used to calculate an average square addition value E TN (x 2 ) by N times by the number N using Equation (7). From the calculation results of Equation (6) and Equation (7), Obtained using 8).
E TN (x 2) = ( 1 / T) {(T-1) E (T-1) N (x 2) + E TN (x 2) '} (7)
σ TN x 2 = E TN (x 2 ) −E TN (x) 2 (8)

N個×T回目(NおよびTは所定の整数)までの標準偏差σTNxは、式(8)の平方根をとった式(9)により計算する。
σTNx=(σTN21/2 (9)
しきい値sTN’は、式(6)で得た平均ETN(x)から標準偏差λσTNxを減算した式(10)の値とする。ここに、λは、音声認識装置に応じてあらかじめ設定した値である。
TN’=ETN(x)-λσTNx (10)
The standard deviation σ TN x up to N × T times (N and T are predetermined integers) is calculated by Equation (9) taking the square root of Equation (8).
σ TN x = (σ TN x 2 ) 1/2 (9)
The threshold value s TN ′ is a value of Expression (10) obtained by subtracting the standard deviation λσ TN x from the average E TN (x) obtained by Expression (6). Here, λ is a value set in advance according to the speech recognition apparatus.
s TN '= E TN (x) -λσ TN x (10)

しきい値更新器44は、しきい値計算器43で計算したしきい値sTN’を、データ・ベース21に格納されているしきい値sに置き換えるべきか否かの判定を、式(11)により行う。ここで、σの変動が安定し収束したことを判定するためのマージンαを用いる。すなわち、1つ前の標準偏差σ(T-1)(x)と式(9)で得た標準偏差σTNxとの差の絶対値がマージンαの値より大きい場合(式(11))、には、データ・ベース21に格納されているしきい値sを今回得たしきい値sTN’に置き換える(式(12))。
(T-1)(x)-σTNx|≧α (11)
s=sTN’ (12)
1つ前の標準偏差σ(T-1)(x)と標準偏差σTNxとの差の絶対値が、マージンαの値より小さい場合には(式(13))、標準偏差σが収束したと判断してしきい値の適応(更新)を停止する。
(T-1)(x)-σTNx|<α (13)
The threshold updater 44 determines whether or not the threshold value s TN ′ calculated by the threshold value calculator 43 should be replaced with the threshold value s stored in the data base 21 by the formula ( 11). Here, a margin α for determining that the fluctuation of σ is stable and converged is used. That is, when the absolute value of the difference between the previous standard deviation σ (T−1) (x) and the standard deviation σ TN x obtained by the equation (9) is larger than the value of the margin α (equation (11)) , Replace the threshold value s stored in the database 21 with the threshold value s TN ′ obtained this time (formula (12)).
| σ (T-1) (x) -σ TN x | ≧ α (11)
s = s TN '(12)
If the absolute value of the difference between the previous standard deviation σ (T-1) (x) and the standard deviation σ TN x is smaller than the margin α (equation (13)), the standard deviation σ converges. The threshold value adaptation (update) is stopped.
| σ (T-1) (x) -σ TN x | <α (13)

データ・ベース21には、背景技術の利用者への適切な対応を決定する方法において示した
1. 各単語の整理番号
2. 各単語
3. 各単語に関するしきい値を含む書き換え可能なデータ
を格納している。ここで、背景技術と異なるのは、3.のデータが、従来は固定であったものが、書き換え可能なデータになっている点である。さらに、書き換え可能にするために
4. 各単語の正解回数
5. 平均加算値 ETN(x)’ (式(2))
6. 平均2乗加算値 ETN(x2)’ (式(5))
もデータ・ベース21に格納され、しきい値sが書き換えられたときには、これらの値も同時に更新される。
Database 21 shows how to determine the appropriate response to users of background technology
1. Reference number for each word
2. Each word
3. Stores rewritable data including thresholds for each word. Here, what is different from the background art is that the data in 3. is rewritable data that was previously fixed. To make it rewritable
4. Number of correct answers for each word
5. Average addition value E TN (x) '(Formula (2))
6. Mean square addition value E TN (x 2 ) '(Formula (5))
Are stored in the data base 21, and when the threshold value s is rewritten, these values are simultaneously updated.

図3及び図4は、図1および図2のしきい値計算処理部25における、しきい値sの決定動作の流れを示すフローチャートである。しきい値計算処理を開始すると、式(1)の平均値E(x)を求めて記憶し、それをもとにN個×T回目(T=0,1,2,・・・)の認識スコアxの重み付き平均加算値ETN(x)’を式(2)を用いて計算する(S1、図3)。そこで、式(3)により分散σx2を計算し、つづいて式(4)によりx2の重み付き平均加算値E(x2 )を計算して、それをもとにして平均の2乗加算値ETN(x2)’を式(5)を用いて計算する(S2)。 3 and 4 are flowcharts showing the flow of the threshold value s determining operation in the threshold value calculation processing unit 25 of FIGS. When the threshold value calculation process is started, the average value E N (x) of the equation (1) is obtained and stored, and N times × T times (T = 0, 1, 2,...) The weighted average addition value E TN (x) ′ of the recognition score x is calculated using the equation (2) (S1, FIG. 3). Therefore, the variance sigma] x 2 calculated by Equation (3), followed by Formula (4) to calculate a weighted average sum of x 2 E N (x 2), the square of the average which was based on The added value E TN (x 2 ) ′ is calculated using equation (5) (S2).

そこで、nをインクリメントして、n=n+1にする(S3)。インクリメントの結果、nが所定数Nを超えたか否かを判断し(S4)、Nを超えてはいない(N>n)場合は(S4N)、ステップS1に戻りS1〜S4の動作を繰り返す。Nを超えた(N≦n)場合は(S4Y)、式(6)の平均ETN(x)を計算する(S5)。つぎに、平均の2乗加算値ETN(x2)を式(7)により計算し(S6)、N個×T回目までの分散σTN2を式(8)を用いて計算する(S7)。そこで、標準偏差σTNxは、式(8)の平方根をとった式(9)により計算する(S8、図4)。 Therefore, n is incremented to n = n + 1 (S3). As a result of the increment, it is determined whether or not n exceeds a predetermined number N (S4). If N does not exceed N (N> n) (S4N), the process returns to step S1 and the operations of S1 to S4 are repeated. When N is exceeded (N ≦ n) (S4Y), the average E TN (x) of equation (6) is calculated (S5). Next, an average square addition value E TN (x 2 ) is calculated by the equation (7) (S6), and a variance σ TN x 2 up to N × T times is calculated by using the equation (8) ( S7). Therefore, the standard deviation σ TN x is calculated by the equation (9) obtained by taking the square root of the equation (8) (S8, FIG. 4).

σの変動が安定し収束したことを判定するためのマージンαを用いて、1つ前の標準偏差σ(T-1)(x)と式(9)で得た標準偏差σTNxとの差の絶対値がマージンαの値より大きい場合(式(11)、S9Y)には、データ・ベース21に格納されているしきい値sを今回得たしきい値sTN’に置き換えるべく式(10)により、しきい値sTN’を算出する(S10)。そこでデータ・ベース21に格納されているしきい値sを今回得たしきい値sTN’に置き換える(式(12)、S11)。n=0、ETN(x)’=0、ETN(x2)’=0にリセットし(S12)、TをT+1にインクリメントし(S13)、ステップS1の動作にもどる。この動作は、Tが所定値に達したところで終了する。 Using the margin α for determining that the fluctuation of σ is stable and converged, the previous standard deviation σ (T−1) (x) and the standard deviation σ TN x obtained by the equation (9) If the absolute value of the difference is larger than the value of the margin α (equation (11), S9Y), an equation to replace the threshold value s stored in the data base 21 with the threshold value s TN ′ obtained this time. The threshold value s TN ′ is calculated from (10) (S10). Therefore, the threshold value s stored in the database 21 is replaced with the threshold value s TN ′ obtained this time (formulas (12), S11). n = 0, E TN (x) ′ = 0, E TN (x 2 ) ′ = 0 is reset (S12), T is incremented to T + 1 (S13), and the operation returns to step S1. This operation ends when T reaches a predetermined value.

図5〜図8は、図1の音声認識装置を含んだ情報案内システムにおける、全体動作の流れを示すフローチャートである。例示する情報案内システムは、情報提供の行われる場所に設置され、ボタン押下によりガイダンスがあり、マイクを介して利用者の発話内容を認識し、得られた認識結果を用いて、データ・ベース21から目的の情報データ・ファイルを取得し、認識結果が正しいか否かを利用者に確認した後、目的の情報を音声案内するサービスを提供する。   5 to 8 are flowcharts showing the overall operation flow in the information guidance system including the voice recognition apparatus of FIG. The illustrated information guidance system is installed in a place where information is provided, has guidance by pressing a button, recognizes a user's utterance content via a microphone, and uses the obtained recognition result to create a database 21. The target information data file is obtained from the server, and after confirming with the user whether or not the recognition result is correct, a service for providing voice guidance of the target information is provided.

音声認識による情報案内の開始にあたり、情報案内ボタンが押下される(S51、図5)。情報案内ガイダンスを出力し(S52)、利用者がマイクから入力した音声信号18を認識処理部10において、音響モデル11と単語辞書12を参照しながら、第1候補および第2候補の認識結果AおよびBと、それぞれの認識スコアx1,x2を取得する(S53)。特徴データ19として得られた認識結果AおよびBと、それぞれの認識スコアx1,x2を、データ・ベース21を検索してそれらに最も近似したものとして、第1候補Aの情報データ・ファイルA’としきい値s1、第2候補Bの情報データ・ファイルB’としきい値s2を取り出す(S54)。   At the start of information guidance by voice recognition, the information guidance button is pressed (S51, FIG. 5). The information guidance guidance is output (S52), and the recognition signal A is input from the microphone by the user while the recognition processing unit 10 refers to the acoustic model 11 and the word dictionary 12 to recognize the first candidate and the second candidate recognition result A. And B and the respective recognition scores x1 and x2 are acquired (S53). The recognition result A and B obtained as the feature data 19 and the respective recognition scores x1 and x2 are obtained by searching the data base 21 and closest to them, and the information data file A ′ of the first candidate A And the threshold value s1, the information data file B 'of the second candidate B, and the threshold value s2 are extracted (S54).

第1候補Aの認識スコアx1が第1候補Aのしきい値s1以下(x1≦s1)の場合(S55N、図6)、不正解フラグをTRUEにし(S56TRUE)、認識できなかったこと(誤認識)を利用者に通知し再入力案内した後(S57)、不正解フラグをTRUEに設定してステップS53(図5)の認識処理に戻る(S58)。第1候補Aの認識スコアx1が第1候補Aのしきい値s1以上(x1≧s1)の場合(S55Y、図6)、利用者が発声した語句“A”が高い確率で正しいと判断して確認案内を出力し(S59)、認識したしきい値s1を確認処理結果として取得する(S60)。   If the recognition score x1 of the first candidate A is less than or equal to the threshold s1 of the first candidate A (x1 ≦ s1) (S55N, FIG. 6), the incorrect answer flag is set to TRUE (S56TRUE) and the recognition was not possible (error (Recognition) is notified to the user and re-input guidance is provided (S57), the incorrect answer flag is set to TRUE, and the process returns to the recognition process in Step S53 (FIG. 5) (S58). When the recognition score x1 of the first candidate A is greater than or equal to the threshold value s1 of the first candidate A (x1 ≧ s1) (S55Y, FIG. 6), it is determined that the word “A” uttered by the user is correct with a high probability. The confirmation guidance is output (S59), and the recognized threshold value s1 is acquired as the confirmation processing result (S60).

認識した確認処理結果が“NG”場合(S61NG)、第2候補があり、判断フラグ=FALESになっていれば(S62Y、図7)、第1候補の場合のステップS55〜S58と同じく、第2候補Bの認識スコアx2が第2候補Bのしきい値s2以下(x2≧s2)の場合(S63Y)、“B”の確認案内(正しく認識したこと)を利用者に通知し(S64)、判断フラグをTRUEにし、確認できたことを表示してステップS60に戻る(S65)。ステップS61における確認結果が“OK”ならば(S61OK)、“A”の確認案内(正しく認識したこと)を利用者に通知し(S66)、確認フラグをTRUEにし(S67)、ステップS70(図8)に進む。   If the recognized confirmation processing result is “NG” (S61NG), if there is a second candidate and the determination flag = FALSE (S62Y, FIG. 7), the same as in steps S55 to S58 for the first candidate, When the recognition score x2 of the two candidates B is equal to or less than the threshold s2 of the second candidate B (x2 ≧ s2) (S63Y), a confirmation guidance for “B” (recognized correctly) is notified to the user (S64) The determination flag is set to TRUE, the fact that it has been confirmed is displayed, and the process returns to step S60 (S65). If the confirmation result in step S61 is “OK” (S61OK), the user is notified of the confirmation guidance for “A” (recognized correctly) (S66), the confirmation flag is set to TRUE (S67), and step S70 (FIG. Go to 8).

ステップS56において不正解フラグ=FALSEの場合(S56FALSE)、ステップ62において判断フラグ=FALSEの場合(S62N)、ステップ63においてx2<s2の場合(S63N)は、認識できなかったこと(誤認識)を利用者に謝罪し、オペレータを自動的に呼び出すための転送をし、オペレータは利用者に応対して目的の情報を口頭で案内をする(S68、図7)。その案内にしたがって、利用者から音声認識装置への音声入力は、オペレータへと転送処理されて(S69)、ステップS70に進む。そこで、判断フラグと不正解フラグをともにFALESにし(S70)、確認フラグがTRUEになっていれば(S71Y)、図3および図4で示したしきい値計算処理をしてステップS51にもどる(S72)。確認フラグがTRUEになっていない場合にも(S71Y)、ステップS51にもどる(S71N)。   If the incorrect answer flag is FALSE in step S56 (S56FALSE), if the judgment flag is FALSE in step 62 (S62N), or if x2 <s2 in step 63 (S63N), it is not recognized (incorrect recognition). The user apologizes and forwards the call to the operator automatically. The operator responds to the user and provides the target information verbally (S68, FIG. 7). According to the guidance, the voice input from the user to the voice recognition device is transferred to the operator (S69), and the process proceeds to step S70. Therefore, both the judgment flag and the incorrect answer flag are set to FALSE (S70), and if the confirmation flag is set to TRUE (S71Y), the threshold value calculation process shown in FIGS. 3 and 4 is performed and the process returns to step S51 ( S72). Even when the confirmation flag is not TRUE (S71Y), the process returns to step S51 (S71N).

以上の説明から明らかなように、単語辞書に収容された多くの単語ごとに、種々に変化する環境に最適な新しいしきい値を常に計算して、必要に応じてデータ・ベースに収納されている旧いしきい値に置き換えるようにしたから、データ・ベースに収納されているいしきい値は常に環境に最適の状態に適応し、入力された音声を環境の変化に係らず正しく確定し、不要語を高い確率で不正解と判別できるため、誤動作を低減し、小さなメモリ容量のデータ・ベースで効率の良い音声認識が可能になった。   As is clear from the above description, for each of the many words contained in the word dictionary, a new threshold value that is optimal for various environments is constantly calculated and stored in the database as needed. Since the threshold value stored in the database is always adapted to the optimum state for the environment, the input sound is correctly determined regardless of the environment change, and is unnecessary. Since words can be identified as incorrect answers with high probability, malfunctions are reduced, and efficient speech recognition is possible with a data base having a small memory capacity.

本願発明の実施例を示した回路構成図である。(実施例1)It is the circuit block diagram which showed the Example of this invention. (Example 1) 図1の回路構成の構成要素である、しきい値計算処理部の内部構成図である。FIG. 2 is an internal configuration diagram of a threshold value calculation processing unit, which is a component of the circuit configuration of FIG. 図2のしきい値計算処理部の動作の流れを示すフローチャートである。3 is a flowchart showing a flow of operations of a threshold value calculation processing unit in FIG. 図3とともに、図2のしきい値計算処理部の動作の流れを示すフローチャートである。FIG. 3 is a flowchart showing the operation flow of the threshold value calculation processing unit in FIG. 2 together with FIG. 図1の回路構成の音声認識装置を含んだ情報案内システムにおける、全体動作の流れを示すフローチャートである。FIG. 2 is a flowchart showing a flow of overall operation in an information guidance system including a voice recognition device having the circuit configuration of FIG. 図5とともに、図1の回路構成の音声認識装置を含んだ情報案内システムにおける、全体動作の流れを示すフローチャートである。6 is a flowchart showing the overall operation flow in the information guidance system including the voice recognition device having the circuit configuration of FIG. 1 together with FIG. 図5および図6とともに、図1の回路構成の音声認識装置を含んだ情報案内システムにおける、全体動作の流れを示すフローチャートである。7 is a flowchart showing an overall operation flow in the information guidance system including the voice recognition device having the circuit configuration of FIG. 1 together with FIGS. 5 and 6. FIG. 図5ないし図7とともに、図1の回路構成の音声認識装置を含んだ情報案内システムにおける、全体動作の流れを示すフローチャートである。8 is a flowchart showing an overall operation flow in the information guidance system including the voice recognition device having the circuit configuration of FIG. 1 together with FIGS.

符号の説明Explanation of symbols

10 認識処理部
11 音響モデル
12 単語辞書
13 特徴量分析器
18 音声信号
19 特徴データ
21 データ・ベース
22 データ検索部
23 しきい値判定部
24 後処理部
25 しきい値計算処理部
31 検索情報
32 検索結果
33 正解認識スコア
34 不正解認識スコア
35 認識スコア
36 しきい値更新データ
41 しきい値計算前処理器
42 回数判定器
43 しきい値計算器
44 しきい値更新器
46 前処理結果
47 回数判定結果
48 しきい値計算結果
10 Recognition processing section
11 Acoustic model
12 word dictionary
13 Feature analyzer
18 Audio signal
19 Feature data
21 Database
22 Data search part
23 Threshold judgment part
24 Post-processing section
25 Threshold calculation processing section
31 Search information
32 Results
33 Correct answer score
34 Incorrect answer recognition score
35 recognition score
36 Threshold update data
41 Threshold calculation pre-processor
42 Count detector
43 Threshold calculator
44 Threshold updater
46 Pretreatment results
47 Judgment result
48 Threshold calculation results

Claims (5)

入力された音声信号(18)を認識するために音響モデル(11)と単語辞書(12)を参照して特徴量を分析してその特徴量を認識スコアとした特徴データ(19)を得るための認識処理(10)をし、
前記単語辞書(12)に収容された多くの単語の特徴量とそれらに対応したしきい値を収納したデータ・ベース(21)を検索して、少なくとも1つの特徴データ(19)に対して信頼度を採点して認識スコア付きの特徴データを検索結果(32)として得るためのデータ検索処理(22)をし、
前記しきい値から前記検索結果(32)を正解認識スコア(33)とすべきか不正解認識スコア(34)とすべきかを判定するためのしきい値判定処理(23)をし、
前記正解認識スコア(33)を受けて、必要とされる後処理をすることにより後処理済み認識スコア(35)を得るための後処理(24)をし、
前記後処理済み認識スコア(35)の平均と分散を所定の短期間ごとに計算して新しい認識スコアを作成し、この新しい認識スコアの値が、すでに前記データ・ベース(21)に収納されているしきい値に近似していない場合には、この認識スコアに適応する新しいしきい値を計算して、前記データ・ベース(21)に収納されている旧いしきい値に置き換えるためのしきい値計算処理(25)をする
音声認識方法。
To recognize the input speech signal (18), refer to the acoustic model (11) and the word dictionary (12), analyze the feature value, and obtain feature data (19) using the feature value as the recognition score Recognition processing (10)
The database (21) storing the feature values of many words stored in the word dictionary (12) and the threshold values corresponding to them is searched to trust at least one feature data (19). A data search process (22) for scoring the degree and obtaining feature data with a recognition score as a search result (32),
A threshold value determination process (23) for determining whether the search result (32) should be a correct answer recognition score (33) or an incorrect answer recognition score (34) from the threshold value;
Receiving the correct recognition score (33) and performing a post-processing (24) to obtain a post-processed recognition score (35) by performing the necessary post-processing,
A new recognition score is created by calculating the average and variance of the post-processed recognition score (35) every predetermined short period, and the value of this new recognition score is already stored in the database (21). If the threshold value is not close to the threshold value, a threshold value is calculated to replace the old threshold value stored in the database (21) by calculating a new threshold value adapted to the recognition score. Voice recognition method that performs value calculation processing (25).
前記しきい値計算処理(25)が、
前記後処理済み認識スコア(35)を受けて、前記新しいしきい値の計算に必要な前処理計算をして前処理結果(46)を得るためのしきい値計算前処理(41)と、
前記しきい値計算前処理(41)における計算回数が所定値に達した時に回数判定結果(47)を得るための回数判定処理(42)と、
前記回数判定結果(47)と前記前処理結果(46)を受けて、前記新しいしきい値をしきい値計算結果(48)として得るためのしきい値計算処理(43)をし、
前記しきい値計算結果(48)が前記データ・ベース(21)に収納されているしきい値に近似していない場合には、前記しきい値計算結果(48)をしきい値更新データ(36)として前記データ・ベース(21)に収納されている旧いしきい値に置き換えるためのしきい値更新処理(44)とを含んでいる
請求項1の音声認識方法。
The threshold value calculation process (25)
A threshold calculation pre-processing (41) for receiving the post-processed recognition score (35) and performing a pre-processing calculation necessary for calculating the new threshold to obtain a pre-processing result (46);
Number of times determination processing (42) for obtaining a number of times determination result (47) when the number of calculations in the threshold calculation preprocessing (41) reaches a predetermined value;
In response to the number determination result (47) and the preprocessing result (46), a threshold value calculation process (43) for obtaining the new threshold value as a threshold value calculation result (48),
If the threshold calculation result (48) does not approximate the threshold stored in the data base (21), the threshold calculation result (48) is used as threshold update data ( The speech recognition method according to claim 1, further comprising: a threshold value updating process (44) for replacing the old threshold value stored in the data base (21) as 36).
前記しきい値計算前処理(41)において、
前記後処理済み認識スコア(35)から、所定数N個の認識スコア(35)につき、平均値(E(x):式(1))、重み付き平均加算値(ETN(x)’:式(2))、分散(σx2:式(3))、重み付き2乗加算値(ETN(x2):式(4))、および、前記N個の認識スコア(35)を所定回数T回にわたって重み付き平均の2乗加算値(ETN(x2)’:式(5))を算出して前記前処理結果(46)とし、
前記しきい値計算処理(43)において、
N個×T回目までの前記前処理結果(46)から、平均(ETN(x):式(6))、平均の2乗加算値(ETN(x2):式(7))、分散(σTN2:式(8))、標準偏差(σTNx:式(9))、および、しきい値(sTN’:式(10))を得て、このしきい値(sTN’:式(10))を前記しきい値計算結果(48)として出力する
請求項2の音声認識方法。
In the threshold calculation pre-processing (41),
From the post-processed recognition score (35), an average value (E N (x): Expression (1)) and a weighted average addition value (E TN (x) ′) for a predetermined number N of recognition scores (35). : Equation (2)), variance (σx 2 : Equation (3)), weighted square addition value (E TN (x 2 ): Equation (4)), and the N recognition scores (35) A weighted average square addition value (E TN (x 2 ) ′: Formula (5)) is calculated over a predetermined number of times T, and is used as the preprocessing result (46).
In the threshold value calculation process (43),
From the pre-processing results (46) up to N times T times, the average (E TN (x): Formula (6)), the mean square addition value (E TN (x 2 ): Formula (7)), The variance (σ TN x 2 : Formula (8)), standard deviation (σ TN x: Formula (9)), and threshold value (s TN ′: Formula (10)) are obtained, and this threshold value ( The speech recognition method according to claim 2, wherein s TN ': Expression (10) is output as the threshold calculation result (48).
入力された音声信号(18)を認識するために音響モデル(11)と単語辞書(12)を参照して特徴量を分析してその特徴量を認識スコアとした特徴データ(19)を得るための認識手段(10)と、
前記単語辞書(12)に収容された多くの単語の特徴量とそれらに対応したしきい値を収納したデータ・ベース(21)を検索して、少なくとも1つの特徴データ(19)に対して信頼度を採点して認識スコア付きの特徴データを検索結果(32)として得るためのデータ検索手段(22)と、
前記しきい値から前記検索結果(32)を正解認識スコア(33)とすべきか不正解認識スコア(34)とすべきかを判定するためのしきい値判定手段(23)と、
前記正解認識スコア(33)を受けて、必要とされる後処理をすることにより後処理済み認識スコア(35)を得るための後処理手段(24)と、
前記後処理済み認識スコア(35)の平均と分散を所定の短期間ごとに計算して新しい認識スコアを作成し、この新しい認識スコアの値が、すでに前記データ・ベース(21)に収納されているしきい値に近似していない場合には、この認識スコアに適応する新しいしきい値を計算して、前記データ・ベース(21)に収納されている旧いしきい値に置き換えるためのしきい値計算処理手段(25)とを含む
音声認識装置。
To recognize the input speech signal (18), refer to the acoustic model (11) and the word dictionary (12), analyze the feature value, and obtain the feature data (19) using the feature value as the recognition score Recognizing means (10),
The database (21) storing the feature values of many words stored in the word dictionary (12) and the threshold values corresponding to them is searched to trust at least one feature data (19). A data search means (22) for scoring the degree and obtaining feature data with a recognition score as a search result (32),
Threshold determination means (23) for determining whether the search result (32) should be a correct answer recognition score (33) or an incorrect answer recognition score (34) from the threshold;
A post-processing means (24) for obtaining a post-processed recognition score (35) by receiving the correct answer recognition score (33) and performing post-processing as required;
A new recognition score is created by calculating the average and variance of the post-processed recognition score (35) every predetermined short period, and the value of this new recognition score is already stored in the database (21). If the threshold value is not close to the threshold value, a threshold value is calculated to replace the old threshold value stored in the database (21) by calculating a new threshold value adapted to the recognition score. A speech recognition device including a value calculation processing means (25).
前記しきい値計算処理手段(25)が、
前記後処理済み認識スコア(35)を受けて、前記新しいしきい値の計算に必要な前処理計算をして前処理結果(46)を得るためのしきい値計算前処理手段(41)と、
前記しきい値計算前処理(41)における計算回数が所定値に達した時に回数判定結果(47)を得るための回数判定手段(42)と、
前記回数判定結果(47)と前記前処理結果(46)を受けて、前記新しいしきい値をしきい値計算結果(48)として得るためのしきい値計算手段(43)と、
前記しきい値計算結果(48)が前記データ・ベース(21)に収納されているしきい値に近似していない場合には、前記しきい値計算結果(48)をしきい値更新データ(36)として前記データ・ベース(21)に収納されている旧いしきい値に置き換えるためのしきい値更新手段(44)とを含んでいる
請求項4の音声認識装置。
The threshold value calculation processing means (25)
Threshold calculation pre-processing means (41) for receiving the post-processed recognition score (35), performing pre-processing calculation necessary for calculation of the new threshold value, and obtaining a pre-processing result (46); ,
Count determination means (42) for obtaining a count determination result (47) when the number of calculations in the threshold calculation preprocessing (41) reaches a predetermined value;
Threshold calculation means (43) for receiving the number determination result (47) and the pre-processing result (46) and obtaining the new threshold value as a threshold calculation result (48);
If the threshold calculation result (48) does not approximate the threshold stored in the data base (21), the threshold calculation result (48) is used as threshold update data ( 5. The speech recognition apparatus according to claim 4, further comprising threshold update means (44) for replacing with an old threshold stored in the data base (21) as 36).
JP2004213687A 2004-07-22 2004-07-22 Method and device for speech recognition Pending JP2006030915A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004213687A JP2006030915A (en) 2004-07-22 2004-07-22 Method and device for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004213687A JP2006030915A (en) 2004-07-22 2004-07-22 Method and device for speech recognition

Publications (1)

Publication Number Publication Date
JP2006030915A true JP2006030915A (en) 2006-02-02

Family

ID=35897286

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004213687A Pending JP2006030915A (en) 2004-07-22 2004-07-22 Method and device for speech recognition

Country Status (1)

Country Link
JP (1) JP2006030915A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012252026A (en) * 2011-05-31 2012-12-20 Ntt Docomo Inc Voice recognition device, voice recognition method, and voice recognition program
WO2017154358A1 (en) * 2016-03-07 2017-09-14 株式会社デンソー Speech recognition device and speech recognition program
JP2018174981A (en) * 2017-04-03 2018-11-15 株式会社ユニバーサルエンターテインメント Game machine and game device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012252026A (en) * 2011-05-31 2012-12-20 Ntt Docomo Inc Voice recognition device, voice recognition method, and voice recognition program
WO2017154358A1 (en) * 2016-03-07 2017-09-14 株式会社デンソー Speech recognition device and speech recognition program
JP2017161581A (en) * 2016-03-07 2017-09-14 株式会社デンソー Voice recognition device and voice recognition program
JP2018174981A (en) * 2017-04-03 2018-11-15 株式会社ユニバーサルエンターテインメント Game machine and game device

Similar Documents

Publication Publication Date Title
CN105741836B (en) Voice recognition device and voice recognition method
KR101537370B1 (en) System for grasping speech meaning of recording audio data based on keyword spotting, and indexing method and method thereof using the system
KR101183344B1 (en) Automatic speech recognition learning using user corrections
US8793130B2 (en) Confidence measure generation for speech related searching
US7206741B2 (en) Method of speech recognition using time-dependent interpolation and hidden dynamic value classes
CN106297800B (en) Self-adaptive voice recognition method and equipment
CN111326148B (en) Confidence correction and model training method, device, equipment and storage medium thereof
KR20110066357A (en) Dialog system and conversational method thereof
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
CN111145733B (en) Speech recognition method, speech recognition device, computer equipment and computer readable storage medium
CN106847259B (en) Method for screening and optimizing audio keyword template
KR102199246B1 (en) Method And Apparatus for Learning Acoustic Model Considering Reliability Score
CN112017694B (en) Voice data evaluation method and device, storage medium and electronic device
JP2009532744A (en) Method and system for fitting a model to a speech recognition system
JP3298858B2 (en) Partition-based similarity method for low-complexity speech recognizers
JP2015082036A (en) Acoustic-analysis-frame reliability calculation device, acoustic model adaptation device, voice recognition device, program therefor, and acoustic-analysis-frame reliability calculation method
US20130317820A1 (en) Automatic Methods to Predict Error Rates and Detect Performance Degradation
JP2006030915A (en) Method and device for speech recognition
KR101229108B1 (en) Apparatus for utterance verification based on word specific confidence threshold
JPH06266386A (en) Word spotting method
CN113299278A (en) Acoustic model performance evaluation method and device and electronic equipment
KR100952974B1 (en) System and method for recognizing voice dealing with out-of-vocabulary words, and computer readable medium storing thereof
WO2022049613A1 (en) Information processing device, estimation method, and estimation program
JPH11249688A (en) Device and method for recognizing voice
KR100449912B1 (en) Apparatus and method for detecting topic in speech recognition system