JP2006084706A - Voice recognition performance estimating method, device, and program, recognition trouble word extracting method, device, and program, and recording medium - Google Patents
Voice recognition performance estimating method, device, and program, recognition trouble word extracting method, device, and program, and recording medium Download PDFInfo
- Publication number
- JP2006084706A JP2006084706A JP2004268590A JP2004268590A JP2006084706A JP 2006084706 A JP2006084706 A JP 2006084706A JP 2004268590 A JP2004268590 A JP 2004268590A JP 2004268590 A JP2004268590 A JP 2004268590A JP 2006084706 A JP2006084706 A JP 2006084706A
- Authority
- JP
- Japan
- Prior art keywords
- word
- speech recognition
- list
- score
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
この発明は、音声認識の技術分野に関わり、特に音声認識に用いる単語リストの性能の予測及び認識語彙の設計の分野に関する。 The present invention relates to the technical field of speech recognition, and more particularly to the field of predicting the performance of a word list used for speech recognition and designing a recognition vocabulary.
音声認識装置の性能を実際に音声認識を行う前に推定する音声認識性能推定の分野における従来の技術としては、音声認識に用いる音響モデルのパラメータから音素の誤認識傾向を自動的に推定し、二つの単語の間の音響的な類似度を算出し、それを元に単語間の類似度を算出し、対立する単語との類似度から認識率を推定する手法(非特許文献1)があった。
また従来、音声認識に用いる認識語彙の設計においては、ユーザが発音すると予測される語を認識語彙として設計していた。
Conventionally, in designing a recognition vocabulary used for speech recognition, a word predicted to be pronounced by a user is designed as a recognition vocabulary.
音声認識技術を実用に供する際、提供するサービスの品質を見積もる為、認識結果の精度を事前にある程度推定できていることが必要である。認識結果の精度を事前に推定するため、一般にはサービスを提供した際に入力される音声と類似した環境の音声を試験データとして収集し、これに対して認識実験を行うことによりその精度を見積もる。しかし、実サービスと類似した環境における音声を収集するには相応の経済的負担と期間を必要とするため、音声の収録をせずに認識精度を推定する技術が求められている。
背景技術に述べた非特許文献1の手法では、認識語彙と音響モデルの情報のみを用いて認識精度を推定しており、音声の収録を不要としている。
When the speech recognition technology is put to practical use, it is necessary to estimate the accuracy of the recognition result to some extent in advance in order to estimate the quality of the service to be provided. In order to estimate the accuracy of recognition results in advance, in general, speech in an environment similar to the speech input when a service is provided is collected as test data, and the accuracy is estimated by conducting a recognition experiment on this. . However, since collecting a sound in an environment similar to an actual service requires an appropriate economic burden and time, a technique for estimating the recognition accuracy without recording the sound is required.
In the method of Non-Patent Document 1 described in the background art, the recognition accuracy is estimated using only the information of the recognition vocabulary and the acoustic model, and the recording of the voice is unnecessary.
一方で、音声認識技術を実用に供する際、認識結果の精度と共に、認識を行う速度が重要な要因となる。たとえば音声の入力を受け付け、適切な応答を出力する音声応答システムを構築する際、入力音声が終わった後に数秒経過しなければ結果が得られないならば、応答が間延びし不自然な印象を与えるなど、使い勝手が著しく低下する。
ところで、現在広く用いられる音声認識手法は、入力として得られる音声波形を数ミリ秒の短い単位で区切り、短い区間内での周波数特性などを手がかりに、短い単位で発声されている音素は何であるかを推定し、その音素を含む単語の候補を単語リストとして列挙し、単語リストの中から最も入力に良く当てはまる単語の候補を認識結果とする。
On the other hand, when the speech recognition technology is put to practical use, the speed of recognition is an important factor as well as the accuracy of the recognition result. For example, when constructing a voice response system that accepts voice input and outputs an appropriate response, if the result is not obtained until a few seconds have passed after the input voice is over, the response is delayed and gives an unnatural impression Usability is significantly reduced.
By the way, the currently widely used speech recognition method is to divide a speech waveform obtained as input into short units of several milliseconds, and what is the phoneme uttered in short units based on the frequency characteristics within a short interval. The word candidates including the phoneme are listed as a word list, and the word candidate that best matches the input from the word list is used as the recognition result.
この単語リストを列挙する際に認識対象となる単語を全て列挙すると、計算量が増加し実時間で音声認識結果を得ることが困難になる場合があるが、認識対象となる単語を一定の基準で選別し、限られた数の単語の中だけで候補を探索すれば、計算量を抑えて実時間で認識結果が得られることは知られている。しかし、候補の数を限定すると、もしその候補の中に正解が含まれなければ正しく認識することができないため、認識精度は低下する。すなわち、音声認識を行う際に探索候補をいくつまでに絞り込むか、という基準値を変更することにより認識速度を速くすることが出来るが、その代償として認識精度が低下するという不具合が生じる。 When enumerating all the words to be recognized when enumerating this word list, the amount of calculation increases and it may be difficult to obtain a speech recognition result in real time. It is known that a recognition result can be obtained in real time with a reduced amount of calculation if a candidate is searched only in a limited number of words. However, if the number of candidates is limited, since the correct recognition cannot be performed unless the correct answer is included in the candidates, the recognition accuracy decreases. That is, the recognition speed can be increased by changing the reference value of how many search candidates are narrowed down when performing speech recognition, but the disadvantage is that the recognition accuracy is reduced.
そこで、一般に音声認識を実用に供する際には、認識速度と認識精度のどちらを重視するかによって探索候補の絞込み個数を変更するということが行われている。
非特許文献1にあるような従来の技術においては、この探索候補の絞込み個数による認識精度の変化を推定できないため、たとえば高速な応答出力を求められるサービスに音声認識技術を用いる場合、事前に十分な信頼性を持って認識精度を推定することはできなかった。
また、ユーザがコンピュータシステムに向かって話しかけることに慣れてゆけばゆくほど、「えーと」、「あのー」、「あっ」などの、言いさしたり言いよどんだりする発話が増加してゆく。すなわち、音声認識の対象には、名前や地名といった重要なキーワードだけでなく、重要ではないがユーザの発声に出現しうるものが含まれる。
Therefore, in general, when speech recognition is put to practical use, the number of search candidates to be narrowed is changed depending on which of the recognition speed and the recognition accuracy is important.
In the conventional technology as described in Non-Patent Document 1, since the change in recognition accuracy due to the number of search candidates narrowed down cannot be estimated, for example, when using the speech recognition technology for a service that requires high-speed response output, it is sufficient in advance. The recognition accuracy could not be estimated with high reliability.
In addition, as the user gets used to speaking toward the computer system, the number of utterances such as “Ut”, “Oh no”, “Ah”, etc. increases. That is, the target of speech recognition includes not only important keywords such as names and place names, but also those that are not important but can appear in the user's utterance.
一方、音声認識の認識精度は、発音が似ている語が認識語彙(単語リスト)に多く含まれていると低下する傾向がある。たとえば、「江藤」と発声した音声は、「あのー」と認識されることは少ないが、「えーっと」と誤って認識されることは多い。重要ではないがユーザの発声に出現しうる語彙をすべて含むように認識語彙を設計すると、その中には人名や地名といった重要なキーワードと発声が酷似した語彙が含まれ、重要なキーワードの音声認識率が著しく低下することがある。
従来の認識語彙設計においては、出現すると予測される語をすべて単語リストとして設計していたため、重要なキーワードの単語リストに悪影響を与えるかどうか、という観点から、重要ではないが実現しうる語を単語リストに含めるかどうかを判断することができなかった。
On the other hand, the recognition accuracy of speech recognition tends to decrease when words having similar pronunciations are included in the recognized vocabulary (word list). For example, a voice uttered “Eto” is rarely recognized as “Ah”, but is often mistakenly recognized as “Eh”. If the recognition vocabulary is designed to include all vocabularies that are not important but can appear in the user's utterance, the vocabulary that closely resembles the utterance with important keywords such as names of people and places will be included in the recognition vocabulary. The rate may be significantly reduced.
In the conventional recognition vocabulary design, all the words that are expected to appear are designed as a word list. Therefore, from the viewpoint of whether the word list of important keywords is adversely affected, the words that can be realized are not important. It was not possible to determine whether to include in the word list.
本発明では、音声認識に用いる単語リストの性能を推定することができる音声認識性能推定方法及び装置を提案しようとするものである。そのために本発明では対象単語と対立単語から成る二つの単語を受け取り、音声認識を行った際に対象単語に対応する発声が対立単語として認識される度合いを示す単語類似度を算出する単語類似度算出処理と、対象単語と性能推定対象となる被推定単語リストを受け取り、音声認識を行った際に対象単語に対応する発声が被推定単語リストのいずれかの単語として認識される度合いを示す単語誤認識スコアを算出する単語誤認識スコア算出処理と、被推定単語リストを受け取り、被推定単語リストに含まれるすべての単語の平均的な単語誤認識スコアを算出する平均単語誤認識スコア算出処理と、被推定単語リストに含まれる単語数と、平均単語誤認識スコアと、音声認識の解候補を探索する際に設定される候補数絞込み基準値の三要素を入力として、音声認識率の推定値を算出する音声認識率推定処理と、を実行することを特徴とする音声認識性能推定装置を提案する。 The present invention intends to propose a speech recognition performance estimation method and apparatus capable of estimating the performance of a word list used for speech recognition. For this purpose, the present invention receives two words consisting of a target word and an opposing word, and calculates a word similarity that indicates the degree to which the utterance corresponding to the target word is recognized as an opposing word when speech recognition is performed. A word indicating the degree to which the utterance corresponding to the target word is recognized as one of the words in the estimated word list when the calculation process, the target word and the estimated word list as the performance estimation target are received and speech recognition is performed A word misrecognition score calculating process for calculating a misrecognition score; an average word misrecognition score calculating process for receiving an estimated word list and calculating an average word misrecognition score of all words included in the estimated word list; The three elements of the number of words included in the estimated word list, the average word error recognition score, and the candidate number narrowing reference value set when searching for speech recognition solution candidates As a force, proposes a speech recognition performance estimation apparatus and executes the speech recognition rate estimation processing of calculating the estimated value of the speech recognition rate, a.
また本発明では、認識障害単語探索処理と上記の音声認識性能推定方法を実行させ、上記認識障害単語探索方法は、入力で与えられる被推定単語リストに含まれるそれぞれの単語について、被推定単語リストから当該単語を除いた残りのすべての単語で構成される障害探索用単語リストの音声認識性能を音声認識性能推定方法により推定し、音声認識性能が高い順に障害探索用単語リストを一定数抽出し、それぞれの障害探索用単語リストに対応する除かれた単語を認識障害単語として出力することを特徴とする、認識障害単語抽出方法を提案する。 In the present invention, the recognition impaired word search process and the speech recognition performance estimation method are executed, and the recognition impaired word search method performs the estimated word list for each word included in the estimated word list given by input. The speech recognition performance estimation method estimates the speech recognition performance of the failure search word list consisting of all the remaining words excluding the word from, and extracts a certain number of failure search word lists in descending order of speech recognition performance Then, a recognition failure word extraction method is proposed in which the removed words corresponding to each failure search word list are output as recognition failure words.
なお、本発明で提案するのと同様な認識障害単語抽出方法は、従来技術による音声認識性能推定方法を用いても実現することは可能である。しかしながら認識障害単語を正しく抽出するためにはこれに用いる音声認識性能推定方法の精度が高い事が要求される。このため、十分な信頼性を持って認識精度を推定することができない場合がある従来技術を用いた認識障害単語抽出方法に比べ、本発明による認識障害単語抽出方法は、より高い信頼精度を持つ本発明による音声認識性能推定方法を用いるため、明らかに優れた認識障害単語抽出方法となる。 Note that the recognition failure word extraction method similar to that proposed in the present invention can also be realized using a speech recognition performance estimation method according to the prior art. However, in order to correctly extract the recognition failure word, it is required that the accuracy of the speech recognition performance estimation method used for this is high. For this reason, the recognition failure word extraction method according to the present invention has higher reliability accuracy than the recognition failure word extraction method using the prior art in which the recognition accuracy may not be estimated with sufficient reliability. Since the speech recognition performance estimation method according to the present invention is used, the recognition failure word extraction method is clearly excellent.
本発明の音声認識性能推定方法によれば、音声認識率を推定する際に、単語の数と、平均単語誤認識スコアと、候補の絞込み基準値を用いて音声認識率を算出する。
これにより、たとえば基準値を、候補を絞り込む際の最大候補数として設定し、その最大候補数が大きければ推定される認識率が高くなり、最大候補数が少なければ推定される認識率が低くなるように音声認識率推定処理を行えば、候補の絞り込み基準値に応じた音声認識率を推定することができる。
また、候補を絞り込む際にたとえば基準値を、候補の持つ音響スコアや言語スコアといった音声認識スコアが基準値以上でなくてはならないと設定したり、対立する候補の中で最も高い音声認識スコアを持つ候補との音声認識スコアの差が基準値以下でなくてはならないと設定すれば、最大候補数の場合と同様に、基準値に応じた音声認識率の変化を推定することが可能となる。
According to the speech recognition performance estimation method of the present invention, when the speech recognition rate is estimated, the speech recognition rate is calculated using the number of words, the average word misrecognition score, and the candidate narrowing reference value.
Thereby, for example, the reference value is set as the maximum number of candidates when narrowing down candidates, and the estimated recognition rate increases if the maximum number of candidates is large, and the estimated recognition rate decreases if the maximum number of candidates is small. If the speech recognition rate estimation process is performed as described above, it is possible to estimate the speech recognition rate according to the candidate narrowing reference value.
In addition, when narrowing down candidates, for example, the reference value is set so that the voice recognition score such as the acoustic score and language score of the candidate must be higher than the reference value, or the highest voice recognition score among the conflicting candidates If it is set that the difference in the speech recognition score with the candidate must be below the reference value, it is possible to estimate the change in the speech recognition rate according to the reference value, as in the case of the maximum number of candidates. .
また、本発明の認識障害単語抽出方法によれば、重要なキーワードとして指定した抽出阻止単語以外の単語について音声認識性能に悪影響を与える語を抽出できる。このため、重要なキーワードの認識性能へ与える効果を考慮しつつ、重要ではないが出現しうる単語のうちから、音声認識に悪影響を与える語を削除する、といった認識語彙設計が可能となる。 Furthermore, according to the recognition failure word extraction method of the present invention, words that adversely affect speech recognition performance can be extracted for words other than the extraction-prevented words designated as important keywords. For this reason, it is possible to design a recognition vocabulary such as deleting words that adversely affect speech recognition from words that may appear but are not important, while taking into consideration the effect on the recognition performance of important keywords.
本発明による音声認識性能推定装置、及び認識障害単語抽出装置は主にコンピュータに本発明で提案する音声認識性能推定プログラム及び認識障害単語抽出プログラムをインストールし、コンピュータにこれらのプログラムを実行させることにより、コンピュータに性能推定対象となる被推定単語リストの認識率を推定する音声認識性能推定装置及び被推定単語リストの中から認識に障害となる障害単語を抽出する認識障害単語抽出装置として機能させる実施形態が最良の実施形態である。
コンピュータが音声認識性能推定装置として機能する場合、コンピュータは少なくとも単語類似度算出手段と、単語誤認識スコア算出手段と、平均単語誤認識スコア算出手段と、音声認識率推定手段とを備え、これら各手段の機能により被推定単語リストの音声認識率の推定値を算出する動作を実行する。
The speech recognition performance estimation device and the recognition failure word extraction device according to the present invention mainly install a speech recognition performance estimation program and a recognition failure word extraction program proposed in the present invention in a computer and cause the computer to execute these programs. Implementation of a computer to function as a speech recognition performance estimation device for estimating the recognition rate of a word list to be estimated for performance estimation and a recognition failure word extraction device for extracting a failure word that hinders recognition from the word list to be estimated The form is the best embodiment.
When the computer functions as a speech recognition performance estimation device, the computer includes at least a word similarity calculation means, a word error recognition score calculation means, an average word error recognition score calculation means, and a speech recognition rate estimation means. The operation of calculating the estimated value of the speech recognition rate of the estimated word list by the function of the means is executed.
コンピュータが認識障害単語抽出装置として機能する場合、コンピュータは上記した音声認識性能推定装置の構成に加えて認識障害単語探索手段を備え、この認識障害単語探索手段は音声認識性能推定装置が推定した被推定単語リストの音声認識率を利用して音声認識率が高い順に被単語リストを一定数抽出し、それぞれの単語リストに対応する除かれた単語を認識障害単語として出力する動作を実行する。 When the computer functions as a recognition failure word extraction device, the computer includes a recognition failure word search means in addition to the configuration of the speech recognition performance estimation device described above. A certain number of word lists are extracted in descending order of the speech recognition rate using the speech recognition rate of the estimated word list, and an operation of outputting the removed words corresponding to the respective word lists as recognition failure words is executed.
以下にこの発明による音声認識性能推定装置の一実施例を図1乃至図3を用いて詳細に説明する。
図1は音声認識性能推定装置100の全体の構成を示す。音声認識性能推定装置100は音声認識率推定手段101と、平均単語誤認識率スコア算出手段102と、単語誤認識スコア算出手段103と、単語類似度算出手段104からなり、候補数絞込み基準値と被推定単語リストを入力として、音声認識率rを出力する。
音声認識率推定手段101は、候補数絞込み基準値と被推定単語リストLinputを受け取り、被推定単語リストLinputを平均単語誤認識スコア算出手段102へ引き渡し、結果として平均単語誤認識スコアを受け採る。
An embodiment of a speech recognition performance estimation apparatus according to the present invention will be described in detail below with reference to FIGS.
FIG. 1 shows the overall configuration of the speech recognition
The speech recognition rate estimation means 101 receives the candidate number narrowing reference value and the estimated word list L input, passes the estimated word list L input to the average word error recognition score calculation means 102, and receives the average word error recognition score as a result. take.
この発明による音声認識性能推定装置においては、候補数絞込み基準値を探索の各時点において列挙する解候補の最大限度数とし、平均単語誤認識スコアをx、被推定単語リストLinputに含まれる総単語数をy、候補数絞込み基準値をzとすると、音声認識性能推定装置100は、下記の式(1)で算出される値rを音声認識率として出力する。
r=a1x+a2y+a3(y/z)+a4 …式(1)
ここで、各anの値は、音声認識が行われる音環境や、音声認識に用いられる音響モデルおよび音声認識手法に応じてあらかじめ調整されているものとする。
In the speech recognition performance estimation apparatus according to the present invention, the candidate number narrowing reference value is set to the maximum number of candidate solutions listed at each time point of the search, the average word misrecognition score is x, and the total number included in the estimated word list L input When the number of words is y and the candidate number narrowing reference value is z, the speech recognition
r = a 1 x + a 2 y + a 3 (y / z) + a 4 (1)
Here, the value of each a n is or sound environment in which the speech recognition is performed, assumed to be previously adjusted in accordance with the acoustic model and speech recognition method used in speech recognition.
平均単語誤認識スコア算出装置102は、被推定単語リストLinputを受け取り、被推定単語リストLinputに含まれるそれぞれの単語ごとに、その単語を対象単語Wiとし、その単語以外の単語を全て含む単語リストLiを新たに作成して、単語誤認識スコア算出手段103へ引き渡し、結果として単語誤認識スコアSCAを受け取る。本発明においては、それぞれの単語毎に得られる単語誤認識スコアSCAの値の平均を平均単語誤認識スコアxとして出力する。
更に本発明においては、平均単語誤認識スコアxの他の算出方法としてそれぞれの単語毎に得られる単語誤認識スコアSCAの値にそれぞれの単語の生起確率を乗じた値の総和を平均単語誤認識スコアxとして出力する方法を提案する。
The average word error recognition
Further, in the present invention, as another method of calculating the average word misrecognition score x, the sum of values obtained by multiplying the value of the word misrecognition score SCA obtained for each word by the occurrence probability of each word is used as the average word misrecognition. A method of outputting as a score x is proposed.
単語誤認識スコア算出手段103は、図2に示すように重要対立語抽出部201と、単語間距離算出部202と、スコア変換部203とかならなり、対象単語Wiと単語リストLiを入力として、単語誤認識スコアSCAを出力する。
単語誤認識スコア算出手段103は、対象単語Wiと単語リストLiを受け取り、単語リストLiに含まれるそれぞれの単語について、これを対立単語Wkとし、対象単語Wiと組にして単語類似度算出手段104へ引き渡し、結果として単語類似度Jを受け取る。重要対立語抽出部201は単語リストLiに含まれる全ての単語のうち、単語類似度Jが大きいものを上位から一定数抽出し、これを重要対立語リストLimsbとして、対象単語Wiと共に単語間距離算出部202へと引き渡す。
Words misrecognized score calculating means 103, input important conflict
The word misrecognition score calculation means 103 receives the target word W i and the word list L i, and for each word included in the word list L i , sets this as the opposite word W k , and sets the target word W i as a pair. As a result, the word similarity degree J is received. Important conflict
単語間距離算出部202は、対象単語Wiの対象単語自身との単語類似度の対数値を算出し、重要対立語リストLimsbに含まれる各単語について、対象単語Wiとの単語類似度の対数値を自分自身の単語類似度の対数値から減じた値を単語間距離として、スコア変換部203へ引き渡す。
スコア変換部203は、重要対立語リストLimsbに含まれる各単語の単語間距離dを、dが小さければ小さいほど大きな値へ、dが大きければ大きいほど小さな値へと変換してから、変換後の値の総和をとって単語誤認識スコアSCAとして出力する。これは、単語間距離が近ければ近いほど、対象単語が誤って誤認識される相手としての重要度が高まることを反映するための処理である。変換する関数としては様々な関数が考えられるが、例えば式(2)に示すSIGMOID関数などを用いることができる。
Word
The
単語類似度算出手段104は、図3に示すように音素列生成部301と、音素継続時間付与部302と、音素アライメント部303と、辞書304と、音素継続時間長データ305と、音素コンフュージョンマトリクス306とからなり、対象単語Wiと対立単語Wkを入力として、単語類似度Jを出力する。
As shown in FIG. 3, the word
音素列生成部301は、対象単語Wiと対立単語Wkを入力とし、それぞれの発音情報から、対応する音素の系列を作成し、対象単語Wiに対応する音素列Wionは音素継続時間付与部302へ、対立単語Wkに対応する音素列Wkonは音素アライメント部303へと出力する。
音素継続時間付与部302は、対象単語Wiの音素列Wionを受け取り、音素継続時間長データ305で与えられる各音素の平均的な音素継続長を音素列Wionの各音素へ付与し、継続時間情報付きの音素列Wiontとして、音素アライメント部303へと出力する。
Phoneme
Phoneme
音素アライメント部303は、対象単語Wiに対応する継続時間情報付きの音素列Wiontと、対立単語Wkに対応する音素列Wkonをうけとり、対象単語Wiに対応する音素列Wiontの各音素が継続している各時点において、対立単語Wkに対応する音素列Wkonのいずれかの音素を対応させる。
対応付けの例を、図4に示す。対応付けは、対象単語Wiに対応する側の音素が、対立単語に対応する側の音素として認識される確率を、全ての時点における音素の組にわたって積算した値が最も大きくなるように、動的計画法を用いて行う。ある音素が別の音素に間違えて認識される確率は、音素コンフュージョンマトリクス306に与えられている。音素コンフュージョンマトリクス306は、あらゆる音素と音素の組み合わせについて、片方の音素が発声された場合にもう片方の音素へ認識される確率を保持しており、音声認識が行われる音環境と、音声認識に用いられる音響モデルに応じて、事前に準備されている。
Phoneme alignment unit 303, and the phoneme string W iont with duration information corresponding to the target word W i, receives the phoneme string W kon corresponding to the confrontation word W k, of the phoneme string W iont corresponding to the target word W i At each time point when each phoneme continues, any phoneme in the phoneme string W kon corresponding to the conflict word W k is associated.
An example of association is shown in FIG. Correspondence, as phonemes side corresponding to the target word W i is the probability to be recognized as a phoneme of the side corresponding to the conflict word, the value obtained by integrating over phoneme-set at all time points becomes largest, the dynamic This is done using genetic programming. The probability that a phoneme is mistakenly recognized by another phoneme is given to the
音素アライメント部303は、音素の対応付けが行われた後に、全ての時点における音素の組にわたって積算された確率値を、対象単語の総継続時間で正規化し、単語類似度として出力する。 The phoneme alignment unit 303 normalizes the probability values accumulated over the phoneme pairs at all time points after the phoneme association is performed, and outputs the normalized value as the word similarity.
図5に本発明による認識障害単語抽出装置の実施例を示す。図5に示す501は認識障害単語抽出装置を示す。本発明による認識障害単語抽出装置501は認識障害単語探索装置502と音声認識性能推定装置100とによって構成される。
認識障害単語探索装置502には候補数絞込み基準値と、被推定単語リストLinputと、抽出阻止単語リストLoffとが入力され、これらの入力の中から、被推定単語リストLinputに含まれる各単語Wiについて、被推定単語リストLinputから各単語Wiを除いて得られる新たな単語リストLiと候補数絞込み基準値を音声認識性能推定装置100に受け渡し、音声認識性能推定装置100から新たな単語リストLiの音声認識率riを受け取り、この音声認識率riを手がかりに認識障害単語を探索し、認識障害単語Woffを出力する。ここで抽出阻止単語リストLoffとは被推定単語リストLinputに含まれる単語の中の重要単語をリストアップした単語リストを意味し、地名、人名等音声認識を用いた各種サービスの実行に必要な重要キーワードの単語リストである。この単語リストに挙げた単語を抽出阻止することにより、サービスの実行に支障をきたすことなく、単語リストの調整を行うことができる。
FIG. 5 shows an embodiment of the recognition failure word extraction apparatus according to the present invention. 501 shown in FIG. 5 shows a recognition failure word extraction apparatus. The recognition failure word extraction device 501 according to the present invention includes a recognition failure
The recognition failure
以下に図6に示す動作フローを用いて認識障害単語探索装置501の動作を説明する。
認識障害単語抽出装置501はステップ601にて候補数絞込み基準値およびN単語からなる被推定単語リストLinputおよびM単語からなる抽出阻止単語リストLoffを受け取ると、ステップ602において、被推定単語リストLinputに含まれる抽出阻止単語以外の各単語を対象単語Wi(i=0〜N−M−1)とするループを開始する。
ループ内部のステップ603において、被推定単語リストLinputから対象単語Wiを除いた単語リストLi(図9)を作成し、ステップ604において、単語リストLiおよび候補数絞込み基準値を音声認識性能推定装置100へ入力して音声認識率rを得る。
The operation of the recognition failure word search device 501 will be described below using the operation flow shown in FIG.
When the recognition failure word extraction device 501 receives the candidate number narrowing reference value and the estimated word list L input consisting of N words and the extraction blocked word list L off consisting of M words in
In the loop inside the
ループが終了すると、ステップ606において、音声認識性能の高いものから順に一定数の単語リストLiを選択し、ステップ607において、選択された単語リストLiに対応する対象単語Wiを認識障害単語として出力する。
以下では各部の具体的な動作例を図を用いて説明する。
図7は本発明による音声認識性能推定装置100に入力する被推定単語リストLinputの例である。また、図8は、音素コンフュージョンマトリクス306に用意した確率例である。本来、日本語には40前後の音素が存在するとされるが、ここでは簡便のため、図7の単語に含まれる音素と無音区間を意味するpauseのみを考慮の対象とした。
When the loop is finished, in
Hereinafter, specific operation examples of the respective units will be described with reference to the drawings.
FIG. 7 is an example of the estimated word list L input input to the speech recognition
また、以下の例では、候補数絞込み基準値を、候補を絞り込む際の最大候補数と設定し、その値を6とする。
平均単語誤認識スコア算出手段106(図1)は、被推定単語リストLinputを受け取ると、被推定単語リストLinputに含まれるそれぞれの語を対象単語Wiとし、それ以外の語を新たな単語リストLiとして単語誤認識スコア算出装置103へ引き渡す。図9の各行に、対象単語Wiと単語リストLiのペアの例を示す。単語リストLiには四つの単語が含まれるため、この場合は四通りの対象単語Wiと単語リストLiのペアが作成される。
Also, in the following example, the candidate number narrowing reference value is set as the maximum number of candidates when narrowing candidates, and the value is set to 6.
The average word error recognition score calculating unit 106 (FIG. 1), the new receives an object to be estimated word list L input The, each of the words included in the estimated word list L input The intended word W i, the other word deliver to word erroneously recognized
単語誤認識スコア算出手段103に含まれる重要対立語抽出部201(図2)では、図9の各行に対応する対象単語Wiと単語リストLiを受け取り、単語リストLiに含まれる各単語について、単語類似度算出手段104を用いて対象単語Wiとの単語類似度を算出し、対象単語Wiとの単語類似度が大きいものを一定数、重要対立語リストLimsbとして抽出する。図10の各行に、対象単語Wiと、重要対立語リストLimsbと、対象単語Wiとの単語類似度の例を示す。この例では、抽出される重要対立語の数は2としており、単語類似度は確率値の対数で表現しているため負の値をとっているが、値が大きいほど(0に近いほど)対象単語Wiに近いことを意味している。また、対象単語Wiの欄に記入されている数字は、対象単語Wiの対象単語自身との類似度を表している。
In words misrecognized score calculating means important conflict word contained in 103 extraction unit 201 (FIG. 2) receives the target word W i and word list L i for each row in FIG. 9, each of words contained in the word list L i for calculates word similarity between the target word W i using the word similarity
単語間距離算出部202(図2)では、対象単語Wiと重要対立語リストLimsbを受け取り、重要対立語リストLimsbに含まれる各単語について、単語類似度の対数値を対象単語Wiの対象単語自身との単語類似度の対数値から減じて単語間距離を算出する。図11の各行に、重要対立語の単語間距離の例を示す。例えば対象単語Wiが「赤」である場合の重要対立語「朝」の単語間距離は、−0.21−−0.57=0.36となっている。このように、単語間距離の値は、対象単語Wiに近ければ近いほど小さな値となっている。 In a word distance calculation unit 202 (FIG. 2) receives the target word W i and important conflict word list L Imsb, for each word included in the important conflicting word list L Imsb, word directed to the logarithm of the word similarity W i The inter-word distance is calculated by subtracting from the logarithmic value of the word similarity with the target word itself. Each row of FIG. 11 shows an example of the distance between words of the important conflicting word. For example, important words between the distance of the confrontation word "morning" when the target word W i is "red", has become a -0.21--0.57 = 0.36. In this way, the value of the word distance between, has become the smaller the value the closer to the target word W i.
スコア変換部203では、重要対立語の各単語の単語間距離を、変換関数によって、小さければ小さいほど大きな値へ、大きければ大きいほど小さな値へと変換する。図12の各行に、重要対立単語リストLimsbの変換された単語間距離の例を示す。この例では、変換する関数には、式(2)に与えられるSIGMOID関数に、α=10、β=0.4を代入して計算した。このα、βの値は絶対的なものではなく、音声認識が使用される環境に応じて調整されるべき値である。さらにこれらの値の総和をとって、各対象単語Wiに対応した単語誤認識スコアSCAが計算される。図13の各行に、対象単語Wiに対応した単語誤認識スコアSCAの例を示す。
In the
平均単語誤認識スコア算出手段102では、図13の各行に含まれる単語誤認識スコアSCAの平均を取り、これを平均単語誤認識スコアとして出力する。この例では、0.8+0.6+0.17+0.0024を4で割って、0.394が平均単語誤認識スコアとなる。
音声認識率推定装置100では、得られた平均単語誤認識スコア0.394と、単語数4と、候補数絞込み基準値6を用いて、式(1)を用いて音声認識率を算出する。式(1)のanの値を、たとえばa1=−1.5、a2=−0.2、a3=0.8、a4=80とすると、
−15×0.394−0.2×4+0.8×(4/6)+80=73.8 …式(3)
となり、音声認識率を73.8%として推定する。
The average word error recognition score calculation means 102 takes the average of the word error recognition scores SCA included in each line of FIG. 13 and outputs this as the average word error recognition score. In this example, 0.8 + 0.6 + 0.17 + 0.0024 is divided by 4, and 0.394 becomes the average word error recognition score.
The speech recognition
−15 × 0.394−0.2 × 4 + 0.8 × (4/6) + 80 = 73.8 Equation (3)
Thus, the speech recognition rate is estimated as 73.8%.
これらanの値は絶対的なものではなく、音声認識が使用される環境に応じて調整されるべき値である。
単語類似度算出手段104(図3)では、対象単語Wiと対立単語Wkを受け取り、まず音素列生成部301において、単語に対応する音素列を生成する。図14に示す例では「赤」と「朝」を受け取り、辞書を用いて対応する音素列である/a/、/k/、/a/と/a/、/s/、/a/に、前後のポーズ区間を付与したものを生成している。
次に、対象単語Wiに対応する音素列Wionについては、音素継続時間付与部302(図3)において音素の継続時間を付与する。図15の例では、対象単語Wiが「赤」であるので、/pause/、/a/、/k/、/a/、/pause/に継続時間が付与される。
The value of these a n are not absolute, the value should be adjusted according to the environment in which the speech recognition is used.
In the word similarity calculation means 104 (FIG. 3), the target word Wi and the conflict word Wk are received, and the phoneme
Next, the phoneme string W ion corresponding to the target word W i, to impart phoneme duration in the phoneme duration applying unit 302 (FIG. 3). In the example of FIG. 15, since the target word Wi is “red”, the duration is given to / pause /, / a /, / k /, / a /, / pause /.
次に、音素アライメント部303(図3)において、対象単語Wiに対応する音素列Wionの各音素が継続している各時点について、対立単語Wkに対応する音素列のWkonのいずれかの音素を対応させる。図16に対応付けされた例を示す。対応付けには様々な組み合わせが存在するが、対応付けられる各音素について、音素コンフュージョンマトリクス306上で与えられる確率値を積算した値が最大となるように、動的計画法を用いて対応付けを決定する。
対応付けられる各音素の確率について、図16の音素対応1601を例にとって説明する。音素対応1601では、対象単語Wiに対応する音素は/a/で、対立単語Wkに対応する音素は/s/なので、図8に与えられる音素コンフュージョンマトリクス306上で/a/の行、/k/の列の値である0.03が、対応付けられる各音素の確率値となる。
Next, the phoneme alignment unit 303 (FIG. 3), for each time point each phoneme of the phoneme sequence W ion corresponding to the target word W i is continued, either W kon phoneme string corresponding to the conflicting word W k Match any phoneme. An example associated with FIG. 16 is shown. There are various combinations of associations. For each associated phoneme, association is performed using dynamic programming so that the value obtained by integrating the probability values given on the
The probability of each phoneme to be associated will be described taking the phoneme correspondence 1601 in FIG. 16 as an example. In phonemes corresponding 1601, phonemes corresponding to the target word and W i / a / a, Conflict word W corresponding phoneme k is / s / So
対応付けられた各音素の確率値を積算した値を対象単語の音素の総継続時間で正規化した値が、単語類似度算出手段104の出力値となる。この例では、積算値の対数の値を時間長で割ることにより正規化を行っており、この値が図10の第一行の「朝」に対応する値である−0.57となっている。
図17を用いて、認識障害単語抽出装置501の動作例を示す。候補数絞込み基準値として候補を絞り込む際の最大候補数と設定し、抽出する認識障害単語の数は1とする。
図17の例では認識障害単語抽出装置501に入力として、図7に示す被推定単語リストLinput、および候補数絞込み基準値と、抽出阻止単語リストLoffを入力する。
The value obtained by integrating the probability values of the associated phonemes is normalized by the total duration of the phonemes of the target word is the output value of the word similarity calculation means 104. In this example, normalization is performed by dividing the logarithm value of the integrated value by the length of time, and this value is -0.57, which is a value corresponding to "morning" in the first row of FIG. Yes.
An example of the operation of the recognition failure word extraction device 501 will be described with reference to FIG. The maximum number of candidates when narrowing candidates is set as the candidate number narrowing reference value, and the number of recognition failure words to be extracted is 1.
In the example of FIG. 17, the to-be-estimated word list L input , the candidate number narrowing reference value, and the extraction prevention word list L off shown in FIG.
図6に示したステップ602から始まるループにおける、対象単語Wiは予め定めた抽出阻止単語リストに含まれる単語以外の単語で構成され、図17の第一列目に示すように被推定単語リストLinputの各単語となり、対応する単語リストLiは第二列目に示すように、被推定単語リストLinputから対象単語Wiを除いた単語のリストとなる。
単語リストLiに対応する音声認識率を単語リストLiおよび候補数絞込み基準値を音声認識性能推定装置100へ入力し、得られる音声認識性能を図17の第三列目に示す。この例では「赤」を除いて得られる「朝 烏賊 牛」の単語リストの音声認識率が最も高くなるので、この単語リストに対応する認識障害単語は「赤」となる。被推定単語リストLinputで与えられる単語が全て抽出阻止単語リストに含まれる単語であった場合は、認識障害単語の抽出動作は実行されず、認識障害単語の抽出結果は「ナシ」を出力する。
In the loop starting from
The reference value narrowing down word list L i and the number of candidates of speech recognition rate corresponding to the word list L i input to the speech recognition
以上説明した本発明による音声認識性能推定装置および認識障害単語抽出装置はコンピュータに本発明による音声認識性能推定プログラム、および認識障害単語抽出プログラムをインストールし、コンピュータに備えた中央演算処理装置にこれらのプログラムを解読させ、実行させることにより実現される。
本発明による音声認識性能推定プログラムおよび認識性能推定プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータが読み取り可能な磁気ディスク或はCD−ROMのような記録媒体に記録され、これらの記録媒体又は通信回線を通じてコンピュータにインストールされる。
The speech recognition performance estimation device and the recognition failure word extraction device according to the present invention described above install the speech recognition performance estimation program and the recognition failure word extraction program according to the present invention in a computer, and these are installed in a central processing unit provided in the computer. This is realized by deciphering and executing the program.
The speech recognition performance estimation program and the recognition performance estimation program according to the present invention are described in a computer-readable program language, and are recorded on a recording medium such as a magnetic disk or a CD-ROM that can be read by a computer. Or it is installed in a computer through a communication line.
本発明による音声認識性能推定方法、音声認識推定装置、音声認識推定プログラム、認識障害単語抽出方法、認識障害単語抽出装置、認識障害単語抽出プログラムは、音声を用いた自動案内システムなどの設計分野において活用される。 The speech recognition performance estimation method, speech recognition estimation device, speech recognition estimation program, recognition failure word extraction method, recognition failure word extraction device, and recognition failure word extraction program according to the present invention are used in the design field such as an automatic guidance system using speech. Be utilized.
100 音声認識性能推定装置 304 辞書
101 音声認識率推定手段 305 音素継続時間長データ
102 平均単語誤認識スコア算出手段 306 音素コンフュージョンマトリクス
103 単語誤認識スコア算出手段 501 認識障害単語抽出装置
104 単語類似度算出手段 502 認識障害単語探索装置
201 重要対立語抽出部
202 単語間距離算出部
203 スコア変換部
301 音素列生成部
302 音素継続時間付与部
303 音素アライメント部
DESCRIPTION OF
Claims (19)
対象単語と対立単語からなる二つの単語を受け取り、音声認識を行った際に上記対象単語に対応する発声が上記対立単語として認識される度合いを示す単語類似度を算出する単語類似度算出処理と、
上記対象単語と単語リストを受け取り、音声認識を行った際に上記対象単語に対応する発声が単語リストのいずれかの単語として認識される度合いを示す単語誤認識スコアを算出する単語誤認識スコア算出処理と、
上記単語リストを受け取り、上記単語リストに含まれるすべての単語の平均的な平均単語誤認識スコアを算出する平均単語誤認識スコア算出処理と、
上記単語リストに含まれる単語数と、上記平均単語誤認識スコアと、音声認識処理において、解候補を探索する際に設定される候補数絞込み基準値の三要素を入力として、音声認識率の推定値を算出する音声認識率推定処理と、
を実行させることを特徴とする音声認識性能推定方法。 On the computer,
A word similarity calculation process for calculating a word similarity indicating a degree of recognition of an utterance corresponding to the target word as the opposite word when speech recognition is performed when two words including the target word and the opposite word are received; ,
Word misrecognition score calculation that receives the target word and the word list and calculates a word misrecognition score indicating the degree to which the utterance corresponding to the target word is recognized as any word in the word list when speech recognition is performed Processing,
An average word misrecognition score calculation process for receiving the word list and calculating an average average word misrecognition score of all words included in the word list;
Estimating speech recognition rate using as input the number of words included in the word list, the average word misrecognition score, and the candidate number narrowing reference value set when searching for solution candidates in speech recognition processing A speech recognition rate estimation process for calculating a value;
The speech recognition performance estimation method characterized by performing this.
上記単語類似度算出処理は、上記対象単語の発音に対応する音素列の各音素は当該音素の平均的な継続時間だけを継続するものとし、上記対立単語の発音に対応する音素列の各継続時間は上記対立単語の各音素の継続時間の総和が上記対象単語の各音素の継続時間の総和と等しくなり、且つ同一の時点における上記対象単語の音素が上記対立単語の音素に認識される確率をすべての時点において積算した確率がもっとも高くなるように決定し、当該積算した確率の値を対象単語の各音素の継続時間の総和で正規化した値を単語類似度とすることを特徴とする音声認識性能推定方法。 The speech recognition performance estimation method according to claim 1,
In the word similarity calculation process, each phoneme of the phoneme string corresponding to the pronunciation of the target word is assumed to continue only the average duration of the phoneme, and each continuation of the phoneme string corresponding to the pronunciation of the opposite word The time is the probability that the sum of the durations of the phonemes of the opposing word is equal to the sum of the durations of the phonemes of the target word, and that the phonemes of the target word are recognized by the phonemes of the opposing words at the same time Is determined so that the probability of integration at all times becomes the highest, and the value obtained by normalizing the integrated probability value with the sum of durations of each phoneme of the target word is used as the word similarity. Speech recognition performance estimation method.
上記単語誤認識スコア算出処理は、上記単語リストから上記対象単語との単語類似度が大きい単語を一定数抽出し、当該抽出された各単語について、上記対象単語と上記対象単語自身との単語類似度の対数値から当該各単語と上記対象単語との単語類似度の対数値を減じた差の値を算出し、これを単語間距離とし、単語間距離の値が小さければ小さいほど大きな値となるように変換した値を算出し、抽出された各単語に対応する変換した値の総和を単語誤認識スコアとすることを特徴とする音声認識性能推定方法。 In any one of the speech recognition performance estimation methods of Claim 1 or 2,
The word misrecognition score calculation process extracts a certain number of words having a high word similarity with the target word from the word list, and for each of the extracted words, the word similarity between the target word and the target word itself The difference value obtained by subtracting the logarithmic value of the word similarity between each word and the target word is calculated from the logarithm value of the degree, and this is used as the interword distance. The smaller the interword distance value, the larger the value. A speech recognition performance estimation method characterized in that a converted value is calculated and a sum of converted values corresponding to each extracted word is used as a word error recognition score.
平均単語誤認識スコア算出処理は、被推定単語リストに含まれる各単語について、当該単語を対象単語とし、被推定単語リストに含まれる残りの全ての単語を新たな単語リストとした場合の単語誤認識スコアを算出し、上記新たな単語リストに含まれる各単語の単語誤認識スコアの総和を被推定単語リストの単語数で割ったものを平均単語誤認識スコアとすることを特徴とする音声認識性能推定方法。 The speech recognition performance estimation method according to any one of claims 1 to 3,
The average word error recognition score calculation processing is performed for each word included in the estimated word list when the word is the target word and all remaining words included in the estimated word list are new word lists. Speech recognition characterized by calculating a recognition score and dividing the sum of the word error recognition scores of each word included in the new word list by the number of words in the estimated word list as an average word error recognition score Performance estimation method.
平均単語誤認識スコア算出処理は、被推定単語リストに含まれる各単語について、該当単語を対象単語とし、被推定単語リストに含まれる残りの全ての単語を新たな単語リストとした場合の単語誤認識スコアを算出し、上記被推定単語リストに含まれる各単語の生起確率を当該単語の単語誤認識スコアに乗じたものの総和を平均単語誤認識スコアとすることを特徴とする音声認識性能推定方法。 The speech recognition performance estimation method according to any one of claims 1 to 3,
The average word misrecognition score calculation processing is a word error when each word included in the estimated word list is the target word and all the remaining words included in the estimated word list are the new word list. A speech recognition performance estimation method characterized in that a recognition score is calculated and a sum of the occurrence probabilities of each word included in the estimated word list multiplied by the word error recognition score of the word is used as an average word error recognition score .
音声認識の解候補を探索する際に設定される候補数絞込み基準値を、探索の各時点において列挙する解候補の最大限度数とし、
上記音声認識性能推定処理は、被推定単語リストに含まれる単語数と、平均単語誤認識スコアと、被推定単語リストに含まれる単語数を解候補の最大限度数で割った値の、重みつき線形和に定数を加えたものを推定される音声認識率とすることを特徴とする音声認識性能推定方法。 The speech recognition performance estimation method according to any one of claims 1 to 5,
The candidate number narrowing reference value set when searching for speech recognition solution candidates is set as the maximum number of solution candidates listed at each time point of the search,
The speech recognition performance estimation process is a weighted value obtained by dividing the number of words included in the estimated word list, the average word error recognition score, and the number of words included in the estimated word list by the maximum number of solution candidates. A speech recognition performance estimation method, characterized in that a linear sum plus a constant is used as an estimated speech recognition rate.
認識障害単語探索処理と、請求項1乃至6記載の音声認識性能推定方法のいずれかを実行させ、
上記認識障害単語探索処理は、入力で与えられる被推定単語リストに含まれるそれぞれの単語について、被推定単語リストから当該単語を除いた残りのすべての単語で構成される新たな単語リストの音声認識性能を音声認識性能推定方法により推定し、音声認識性能が高い順に上記新たな単語リストを一定数抽出し、それぞれの新たな単語リストに対応する除かれた単語を認識障害単語として出力することを特徴とする認識障害単語抽出方法。 On the computer,
Executing any one of the recognition failure word search processing and the speech recognition performance estimation method according to claim 1,
In the recognition failure word search process, for each word included in the estimated word list given by input, speech recognition of a new word list composed of all remaining words excluding the word from the estimated word list Estimating the performance by the speech recognition performance estimation method, extracting a certain number of the above new word lists in descending order of speech recognition performance, and outputting the removed words corresponding to each new word list as recognition impairment words A method for extracting recognition impairment words as a feature.
上記認識障害単語探索処理は、抽出阻止単語リストを入力に含み、入力で与えられる被推定単語リストのうち抽出阻止単語以外のそれぞれの単語について、上記被推定単語リストから当該単語を除いた残りのすべての単語で構成される新たな単語リストの音声認識性能を音声認識性能推定方法により推定し、音声認識性能が高い順に単語リストを一定数抽出し、それぞれの単語リストに対応する除かれた単語を認識障害単語として出力することを特徴とする認識障害単語抽出方法。 The recognition impairment word extraction method according to claim 7,
The recognition failure word search process includes an extraction prevention word list in the input, and for each word other than the extraction prevention word in the estimated word list given by input, the remaining words obtained by removing the word from the estimation word list Estimate the speech recognition performance of a new word list composed of all words using the speech recognition performance estimation method, extract a certain number of word lists in descending order of speech recognition performance, and remove the words corresponding to each word list Is extracted as a recognition failure word.
上記対象単語と上記単語リストを入力とし、音声認識を行った際に上記対象単語に対応する発声が単語リストに含まれるいずれかの語として認識される度合いを示す単語誤認識スコアを算出する単語誤認識スコア算出手段と、
上記単語リストを入力とし、上記単語リストに含まれる全ての単語の平均的な平均単語誤認識スコアを算出する平均単語誤認識スコア算出手段と、
上記単語リストに含まれる単語数と、上記平均単語誤認識スコアと、音声認識処理において解候補を探索する際に設定される候補数絞込み基準値の三要素を入力として、音声認識率の推定値を算出する音声認識率推定手段と、
を備えることを特徴とする音声認識性能推定装置。 A word similarity calculating means for calculating a word similarity indicating a degree that an utterance corresponding to the target word is recognized as the opposite word when speech recognition is performed using two words of the target word and the opposite word;
A word for calculating a word misrecognition score indicating the degree to which the utterance corresponding to the target word is recognized as one of the words included in the word list when the target word and the word list are input and speech recognition is performed. Misrecognition score calculation means;
The average word error recognition score calculating means for calculating the average average word error recognition score of all the words included in the word list, using the word list as input,
Estimated value of speech recognition rate using as input the number of words included in the word list, the average word error recognition score, and the candidate number narrowing reference value set when searching for solution candidates in speech recognition processing Speech recognition rate estimating means for calculating
A speech recognition performance estimation apparatus comprising:
上記単語類似度算出手段は、上記対象単語の発音に対応する音素列の各音素は当該音素の平均的な継続時間だけ継続するものとし、上記対立単語の発音に対応する音素列の各音素の継続時間は上記対立単語の各音素の継続時間の総和が上記対象単語の各音素の継続時間の総和と等しくなり、且つ同一の時点における上記対象単語の音素が上記対立単語の音素に認識される確率をすべての時点において積算した確率がもっとも高くなるように決定し、当該積算した確率の値を対象単語の各音素の継続時間の総和で正規化した値を単語類似度とすることを特徴とする音声認識性能推定装置。 The speech recognition performance estimation apparatus according to claim 9,
The word similarity calculating means assumes that each phoneme of the phoneme string corresponding to the pronunciation of the target word lasts for an average duration of the phoneme, and each phoneme of the phoneme string corresponding to the pronunciation of the opposite word As for the duration, the sum of the durations of the phonemes of the opposing word is equal to the sum of the durations of the phonemes of the target word, and the phonemes of the target word at the same time point are recognized as phonemes of the opposing word. It is determined that the probability obtained by integrating the probabilities at all points in time is the highest, and the value obtained by normalizing the value of the integrated probability with the sum of durations of each phoneme of the target word is used as the word similarity. A speech recognition performance estimation device.
上記単語誤認識スコア算出手段は、上記単語リストから上記対象単語との単語類似度が大きい単語を一定数抽出し、当該抽出された各単語について、上記対象単語と上記対象単語自身との単語類似度の対数値から当該各単語と上記対象単語との単語類似度の対数値を減じた差の値を算出し、これを単語間距離とし、単語間距離の値が小さければ小さいほど大きな値となるように変換した値を算出し、抽出された各単語に対応する変換した値の総和を単語誤認識スコアとすることを特徴とする音声認識性能推定装置。 In any of the speech recognition performance estimation apparatuses according to claim 9 or 10,
The word misrecognition score calculating means extracts a certain number of words having a large word similarity with the target word from the word list, and for each of the extracted words, the word similarity between the target word and the target word itself The difference value obtained by subtracting the logarithmic value of the word similarity between each word and the target word is calculated from the logarithm value of the degree, and this is used as the interword distance. The smaller the interword distance value, the larger the value. A speech recognition performance estimation apparatus characterized by calculating a converted value so that the sum of converted values corresponding to each extracted word is used as a word error recognition score.
上記平均単語誤認識スコア算出手段は、被推定単語リストに含まれる各単語について、当該単語を対象単語とし、被推定単語リストに含まれる残りの全ての単語を新たな単語リストとした場合の単語誤認識スコアを算出し、新たな単語リストに含まれる各単語の単語誤認識スコアの総和を被推定単語リストの単語数で割ったものを平均単語誤認識スコアとすることを特徴とする音声認識性能推定装置。 The speech recognition performance estimation device according to any one of claims 9 to 11,
The average word misrecognition score calculation means, for each word included in the estimated word list, the word when the word is the target word and all the remaining words included in the estimated word list are the new word list Speech recognition characterized by calculating a misrecognition score and dividing the sum of the word misrecognition scores of each word included in the new word list by the number of words in the estimated word list as an average word misrecognition score Performance estimation device.
上記平均単語誤認識スコア算出手段は、被推定単語リストに含まれる各単語について、当該単語を対象単語とし、被推定単語リストに含まれる残りの全ての単語を新たな単語リストとした場合の単語誤認識スコアを算出し、被推定単語リストに含まれる各単語の生起確率を当該単語の単語誤認識スコアに乗じたものの総和を平均単語誤認識スコアとすることを特徴とする音声認識性能推定装置。 The speech recognition performance estimation device according to any one of claims 9 to 12,
The average word misrecognition score calculation means, for each word included in the estimated word list, the word when the word is the target word and all the remaining words included in the estimated word list are the new word list A speech recognition performance estimation device characterized by calculating a misrecognition score and using the sum of the occurrence probability of each word included in the estimated word list multiplied by the word misrecognition score of the word as an average word misrecognition score .
音声認識の解候補を探索する際に設定される候補数絞込み基準値を、探索の各時点において列挙する解候補の最大限度数とし、
上記音声認識性能推定装置は、被推定単語リストに含まれる単語数と、平均単語誤認識スコアと、被推定単語リストに含まれる単語数を解候補の最大限度数で割った値の、重みつき線形和に定数を加えたものを推定される音声認識率とすることを特徴とする音声認識性能推定装置。 The speech recognition performance estimation device according to any one of claims 9 to 12,
The candidate number narrowing reference value set when searching for speech recognition solution candidates is set as the maximum number of solution candidates listed at each time point of the search,
The speech recognition performance estimation device is weighted by a value obtained by dividing the number of words included in the estimated word list, the average word misrecognition score, and the number of words included in the estimated word list by the maximum number of solution candidates. An apparatus for estimating speech recognition performance, wherein an estimated speech recognition rate is obtained by adding a constant to a linear sum.
認識障害単語探索手段と、請求項9乃至14に記載の音声認識性能推定装置のいずれかを備え、
上記認識障害単語探索手段は、入力で与えられる被推定単語リストに含まれるそれぞれの単語について、被推定単語リストから当該単語を除いた残りのすべての単語で構成される新たな単語リストの音声認識性能を音声認識性能推定装置により推定し、音声認識性能が高い順に単語リストを一定数抽出し、それぞれの単語リストに対応する除かれた単語を認識障害単語として出力することを特徴とする認識障害単語抽出装置。 On the computer,
A recognition failure word search means; and any one of the speech recognition performance estimation devices according to claims 9 to 14,
The recognition failure word search means, for each word included in the estimated word list given by input, voice recognition of a new word list composed of all remaining words excluding the word from the estimated word list A recognition failure characterized by estimating performance by a speech recognition performance estimation device, extracting a certain number of word lists in descending order of speech recognition performance, and outputting the removed words corresponding to each word list as recognition failure words Word extraction device.
認識障害単語探索手段は、抽出阻止単語リストを入力に含み、入力で与えられる被推定単語リストに含まれる単語のうち抽出阻止単語以外のそれぞれの単語について、被推定単語リストから当該単語を除いた残りのすべての単語で構成される新たな単語リストの音声認識性能を音声認識性能推定装置により推定し、音声認識性能が高い順に単語リストを一定数抽出し、それぞれの単語リストに対応する除かれた単語を認識障害単語として出力することを特徴とする認識障害単語抽出装置。 The recognition impairment word extracting device according to claim 15,
The recognition failure word search means includes an extraction prevention word list in the input, and excludes the word from the estimated word list for each word other than the extraction prevention word among the words included in the estimation word list given by the input. The speech recognition performance estimation device estimates the speech recognition performance of a new word list composed of all the remaining words, extracts a certain number of word lists in descending order of speech recognition performance, and removes the corresponding word lists. A recognition failure word extraction apparatus, wherein the recognition word is output as a recognition failure word.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004268590A JP4336282B2 (en) | 2004-09-15 | 2004-09-15 | Speech recognition performance estimation method, recognition failure word extraction method, speech recognition performance estimation device, recognition failure word extraction device, speech recognition performance estimation program, recognition failure word extraction program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004268590A JP4336282B2 (en) | 2004-09-15 | 2004-09-15 | Speech recognition performance estimation method, recognition failure word extraction method, speech recognition performance estimation device, recognition failure word extraction device, speech recognition performance estimation program, recognition failure word extraction program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006084706A true JP2006084706A (en) | 2006-03-30 |
JP4336282B2 JP4336282B2 (en) | 2009-09-30 |
Family
ID=36163286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004268590A Expired - Fee Related JP4336282B2 (en) | 2004-09-15 | 2004-09-15 | Speech recognition performance estimation method, recognition failure word extraction method, speech recognition performance estimation device, recognition failure word extraction device, speech recognition performance estimation program, recognition failure word extraction program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4336282B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017167270A (en) * | 2016-03-15 | 2017-09-21 | 本田技研工業株式会社 | Sound processing device and sound processing method |
-
2004
- 2004-09-15 JP JP2004268590A patent/JP4336282B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017167270A (en) * | 2016-03-15 | 2017-09-21 | 本田技研工業株式会社 | Sound processing device and sound processing method |
Also Published As
Publication number | Publication date |
---|---|
JP4336282B2 (en) | 2009-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100612839B1 (en) | Method and apparatus for domain-based dialog speech recognition | |
JP4195428B2 (en) | Speech recognition using multiple speech features | |
JP4543294B2 (en) | Voice recognition apparatus, voice recognition method, and recording medium | |
JP4737990B2 (en) | Vocabulary stress prediction | |
US8818801B2 (en) | Dialogue speech recognition system, dialogue speech recognition method, and recording medium for storing dialogue speech recognition program | |
JP2011033680A (en) | Voice processing device and method, and program | |
EP2842124A1 (en) | Negative example (anti-word) based performance improvement for speech recognition | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
Prakoso et al. | Indonesian Automatic Speech Recognition system using CMUSphinx toolkit and limited dataset | |
CN114627896A (en) | Voice evaluation method, device, equipment and storage medium | |
KR101122591B1 (en) | Apparatus and method for speech recognition by keyword recognition | |
JP4700522B2 (en) | Speech recognition apparatus and speech recognition program | |
JP2011053569A (en) | Audio processing device and program | |
JP2016177045A (en) | Voice recognition device and voice recognition program | |
JP3444108B2 (en) | Voice recognition device | |
JP4666129B2 (en) | Speech recognition system using speech normalization analysis | |
JP2012053218A (en) | Sound processing apparatus and sound processing program | |
JP4336282B2 (en) | Speech recognition performance estimation method, recognition failure word extraction method, speech recognition performance estimation device, recognition failure word extraction device, speech recognition performance estimation program, recognition failure word extraction program, and recording medium | |
JP4610451B2 (en) | Speech recognition apparatus and program | |
JP6183147B2 (en) | Information processing apparatus, program, and method | |
JPH06266386A (en) | Word spotting method | |
Tong et al. | Fusion of acoustic and tokenization features for speaker recognition | |
JP2008242059A (en) | Device for creating speech recognition dictionary, and speech recognition apparatus | |
JP6497651B2 (en) | Speech recognition apparatus and speech recognition program | |
JP4604424B2 (en) | Speech recognition apparatus and method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060726 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060726 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090210 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090317 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090616 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090626 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120703 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130703 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |