JP2010175765A - Speech recognition device and speech recognition program - Google Patents
Speech recognition device and speech recognition program Download PDFInfo
- Publication number
- JP2010175765A JP2010175765A JP2009017524A JP2009017524A JP2010175765A JP 2010175765 A JP2010175765 A JP 2010175765A JP 2009017524 A JP2009017524 A JP 2009017524A JP 2009017524 A JP2009017524 A JP 2009017524A JP 2010175765 A JP2010175765 A JP 2010175765A
- Authority
- JP
- Japan
- Prior art keywords
- word
- speech recognition
- score
- probability value
- cache
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 claims abstract description 105
- 238000004364 calculation method Methods 0.000 claims abstract description 27
- 238000006467 substitution reaction Methods 0.000 claims description 28
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 description 45
- 230000006870 function Effects 0.000 description 24
- 238000004458 analytical method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 239000002245 particle Substances 0.000 description 3
- 238000000034 method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Abstract
Description
本発明は、言語モデルを用いて音声認識を行う音声認識装置および音声認識プログラムに関する。 The present invention relates to a speech recognition apparatus and speech recognition program that perform speech recognition using a language model.
現在、ニュース等の生放送の番組で字幕を付加した放送を行うために、音声認識装置を用いてニュース原稿等の音声をリアルタイムで文字データに変換し、字幕を作成している。この音声認識装置によって認識された文字データには、一般的に数%の誤りが含まれている。そこで、音声に対する音声認識装置の認識結果の誤りを、その音声を聞いた操作者が目視により検出し、修正装置によってキーボードを介して修正することで、リアルタイムに正しい音声認識結果を生成し出力するシステムが開示されている(例えば、特許文献1参照)。 At present, in order to perform broadcasting with subtitles added in a live broadcast program such as news, a voice recognition device is used to convert voice of a news manuscript or the like into character data in real time to create subtitles. The character data recognized by this voice recognition apparatus generally contains several percent of errors. Therefore, an operator who has heard the voice visually detects an error in the recognition result of the voice recognition device for the voice, and corrects it through the keyboard by the correction device, thereby generating and outputting a correct voice recognition result in real time. A system is disclosed (for example, see Patent Document 1).
一方、音声認識の認識精度を高める技術として、言語モデルにキャッシュを適用した技術が開示されている(例えば、非特許文献1参照)。この技術によれば、直前に使われた単語は再び使われやすいという単語の局所的な性質を利用し、キャッシュ中の単語が出現する出現間隔等を考慮して言語モデルに重み付けを行うことで、キャッシュ中のより最近に出現した単語の出現確率を高め、音声認識の精度を高めている。 On the other hand, as a technique for improving the recognition accuracy of voice recognition, a technique in which a cache is applied to a language model is disclosed (for example, see Non-Patent Document 1). According to this technology, by using the local nature of the word that the word used immediately before is easy to use again, the language model is weighted in consideration of the appearance interval of the word in the cache. , The appearance probability of words that appear more recently in the cache is increased, and the accuracy of speech recognition is increased.
前記した操作者がリアルタイムで音声認識装置の認識誤りを修正するシステムは、音声認識装置の認識誤りを手動で修正することで、正しい認識結果を出力することができる。しかし、このシステムでは、操作者が行った修正が音声認識装置には反映されないため、音声認識装置は同じ誤りを繰り返してしまう。そのため、操作者は、同じ修正を何度も行わなければならないという問題がある。 The above-described system in which the operator corrects the recognition error of the speech recognition apparatus in real time can output a correct recognition result by manually correcting the recognition error of the speech recognition apparatus. However, in this system, since the correction made by the operator is not reflected in the voice recognition apparatus, the voice recognition apparatus repeats the same error. Therefore, there is a problem that the operator must perform the same correction many times.
一方、キャッシュを適用した音声認識技術では、使用している言語モデルにおいて、認識精度を高めることはできるが、認識誤りが発生した場合、その誤りを修正した結果を次の認識に適用できない。そのため、従来のキャッシュを適用した音声認識では、前記したシステムと同様に、誤りの再発を防止することができないという問題がある。 On the other hand, in the speech recognition technology to which the cache is applied, the recognition accuracy can be improved in the language model being used, but when a recognition error occurs, the result of correcting the error cannot be applied to the next recognition. For this reason, the conventional speech recognition using the cache has a problem that it is impossible to prevent the recurrence of errors, as in the above-described system.
本発明は、以上のような問題点に鑑みてなされたものであり、操作者が行った音声認識誤りの修正をフィードバックして、認識誤りの再発を防止することが可能な音声認識装置および音声認識プログラムを提供することを目的とする。 The present invention has been made in view of the above problems, and a speech recognition apparatus and a speech that can prevent a recurrence of a recognition error by feeding back a correction of a speech recognition error performed by an operator. The purpose is to provide a recognition program.
本発明は、前記目的を達成するために創案されたものであり、まず、請求項1に記載の音声認識装置は、発音辞書、音響モデルおよび言語モデルを用いた音声認識装置により音声信号を音声認識することで得られた文字列の認識誤りを、操作者が修正装置により修正し、音声認識結果として出力する音声認識システムにおける音声認識装置において、キャッシュ記憶手段と、キャッシュスコア算出手段と、言語スコア修正手段と、探索手段と、を備える構成とした。 The present invention has been made to achieve the above object. First, the speech recognition apparatus according to claim 1 utters a speech signal by a speech recognition apparatus using a pronunciation dictionary, an acoustic model, and a language model. In a speech recognition apparatus in a speech recognition system in which an operator corrects a recognition error of a character string obtained by recognition using a correction device and outputs it as a speech recognition result, a cache storage unit, a cache score calculation unit, a language The score correction means and the search means are provided.
かかる構成において、音声認識装置は、修正装置において修正された修正文字列を入力し、当該修正文字列を構成する単語を予め定めた単語数分だけキャッシュ記憶手段に記憶する。これによって、常に直近に修正された修正単語がキャッシュ記憶手段に記憶されることになる。 In such a configuration, the speech recognition apparatus inputs the corrected character string corrected by the correction device, and stores the words constituting the corrected character string in the cache storage unit for the predetermined number of words. As a result, the most recently corrected word is always stored in the cache storage means.
そして、音声認識装置は、キャッシュスコア算出手段によって、キャッシュ記憶手段に記憶されている単語について、当該単語がキャッシュ記憶手段において出現する確率値をキャッシュスコアとして算出する。さらに、音声認識装置は、言語スコア修正手段によって、言語モデルから得られる単語の出現確率値である言語スコアに、キャッシュ記憶手段に記憶されている当該単語の出現確率値であるキャッシュスコアを加算することで、言語モデルから得られる単語の言語スコアを修正した修正言語スコアを生成する。これによって、言語スコアに、修正装置から入力された直近の単語についての重みが付加されることになり、その単語については、言語スコアがより高く設定されることになる。 Then, the speech recognition apparatus calculates, as a cache score, a probability value that the word appears in the cache storage unit with respect to the word stored in the cache storage unit by the cache score calculation unit. Furthermore, the speech recognition apparatus adds the cache score, which is the appearance probability value of the word stored in the cache storage means, to the language score, which is the appearance probability value of the word obtained from the language model, by the language score correction means. Thus, a corrected language score obtained by correcting the language score of the word obtained from the language model is generated. As a result, the weight for the most recent word input from the correction device is added to the language score, and the language score is set higher for that word.
そして、音声認識装置は、探索手段によって、言語スコア修正手段で生成された修正言語スコアに基づいて、接続確率値が最大となる単語列を音声認識結果として言語モデルの中から探索する。これによって、修正装置から入力された直近の単語については言語スコアが高くなり、接続確率値が最大となる単語列において、直近の単語が選択される確率が高くなる。 Then, the speech recognition apparatus searches the language model as a speech recognition result for the word string having the maximum connection probability value based on the corrected language score generated by the language score correcting unit. As a result, the language score is increased for the most recent word input from the correction device, and the probability that the most recent word is selected in the word string having the maximum connection probability value is increased.
また、請求項2に記載の音声認識装置は、請求項1に記載の音声認識装置において、IDF値記憶手段を備える構成とした。 A voice recognition device according to a second aspect of the present invention is the voice recognition device according to the first aspect, comprising an IDF value storage means.
かかる構成において、音声認識装置は、IDF値記憶手段に、複数の文書中のどれくらいの文書に特定の単語が出現するかを示す尺度であるIDF(Inverse Document Frequency)値をその特定の単語ごとに対応付けて記憶しておく。
そして、音声認識装置は、キャッシュスコア算出手段によって、キャッシュスコアに対し、当該キャッシュスコアに対応する単語に対応付けられているIDF値記憶手段に記憶されているIDF値を、重み付け値として付加する。このようにIDF値を用いることで、ある特定の文書にしか出現しないキーワードのような単語については、より大きい重みが付加されることになる。
In such a configuration, the speech recognition apparatus stores an IDF (Inverse Document Frequency) value, which is a scale indicating how many specific documents appear in a plurality of documents, in the IDF value storage unit for each specific word. Store them in association with each other.
Then, the speech recognition apparatus adds the IDF value stored in the IDF value storage unit associated with the word corresponding to the cache score as a weighting value to the cache score by the cache score calculation unit. By using the IDF value in this way, a greater weight is added to a word such as a keyword that appears only in a specific document.
さらに、請求項3に記載の音声認識装置は、請求項1または請求項2に記載の音声認識装置において、前記修正文字列は、前記操作者によって修正された単語と修正されなかった単語とが混在した文字列であって、キャッシュスコア算出手段が、修正装置から入力された修正文字列において、操作者が修正した修正単語について、キャッシュスコアに対し、予め定めた重み付け値を付加する構成とした。
Furthermore, the speech recognition device according to
かかる構成において、音声認識装置は、操作者が修正した単語のキャッシュスコアに重みが付加されるため、修正された単語については、言語スコアがより高く設定されることになる。なお、修正された単語か否かは、修正装置から取得することが可能である。あるいは、音声認識装置側で、修正装置から修正前の文字列と修正後の文字列とを取得し、比較することで判定してもよい。 In such a configuration, since the weight is added to the cache score of the word corrected by the operator in the voice recognition device, the language score is set higher for the corrected word. Whether or not the word is corrected can be obtained from the correction device. Alternatively, the voice recognition device may obtain the character string before correction and the character string after correction from the correction device, and determine by comparing them.
また、請求項4に記載の音声認識装置は、請求項1から請求項3のいずれか一項に記載の音声認識装置において、既知語変換手段をさらに備える構成とした。 A voice recognition device according to a fourth aspect of the present invention is the voice recognition device according to any one of the first to third aspects, further comprising known word conversion means.
かかる構成において、音声認識装置は、既知語変換手段によって、修正装置から入力された修正文字列の各単語について、言語モデルに登録されていない未知語を、言語モデルに登録されている既知語に分解する。これによって、言語モデルに登録されていない未知語が、言語モデルにおいて確率値が設定されている既知語に変換され、キャッシュ記憶手段に記憶されることになる。 In such a configuration, the speech recognition apparatus converts an unknown word not registered in the language model into a known word registered in the language model for each word of the corrected character string input from the correction apparatus by the known word conversion unit. Decompose. As a result, unknown words that are not registered in the language model are converted into known words for which probability values are set in the language model and stored in the cache storage means.
また、請求項5に記載の音声認識装置は、請求項1から請求項3のいずれか一項に記載の音声認識装置において、外部辞書記憶手段と、未知語代用手段と、をさらに備える構成とした。
The speech recognition device according to claim 5 is the speech recognition device according to any one of
かかる構成において、音声認識装置は、発音辞書よりも単語の登録数が多い第2の発音辞書である外部辞書を外部辞書記憶手段に記憶しておく。そして、音声認識装置は、未知語代用手段によって、修正装置から入力された修正文字列の各単語について、言語モデルに登録されていない未知語の発音を外部辞書から取得するとともに、当該未知語が出現する確率値を予め言語モデルに未知語の接続確率値として登録されている確率値で代用して設定する。これによって、修正装置から入力された未知語について、言語モデルに予め登録されている未知語の確率値が代用されて割り当てられることになる。
そして、音声認識装置は、探索手段によって、言語モデルにおける接続確率値と、代用された未知語の接続確率値とに基づいて、接続確率値が最大となる単語列を探索する。
In such a configuration, the speech recognition apparatus stores an external dictionary, which is a second pronunciation dictionary having a larger number of registered words than the pronunciation dictionary, in the external dictionary storage unit. Then, the voice recognition device acquires, from the external dictionary, the pronunciation of the unknown word that is not registered in the language model for each word of the corrected character string input from the correction device by the unknown word substitution unit, and the unknown word is The probability value to appear is set in place of a probability value registered in advance as an unknown word connection probability value in the language model. As a result, the unknown word probability value registered in advance in the language model is assigned and assigned to the unknown word input from the correction device.
Then, the speech recognition apparatus searches for a word string having the maximum connection probability value based on the connection probability value in the language model and the connection probability value of the substituted unknown word by the search means.
さらに、請求項6に記載の音声認識装置は、請求項1から請求項3のいずれか一項に記載の音声認識装置において、音素認識手段と、第2未知語代用手段と、をさらに備える構成とした。
Furthermore, the speech recognition apparatus according to claim 6 is the speech recognition apparatus according to any one of
かかる構成において、音声認識装置は、音素認識手段によって、音響モデルに基づいて音声信号の発音のデータを生成する。そして、音声認識装置は、第2未知語代用手段によって、修正装置から入力された修正文字列の各単語について、言語モデルに登録されていない未知語の発音を音素認識手段から取得するとともに、当該未知語が出現する確率値を予め言語モデルに未知語の接続確率値として登録されている確率値で代用して設定する。これによって、修正装置から入力された未知語について、言語モデルに予め登録されている未知語の確率値が代用されて割り当てられることになる。
そして、音声認識装置は、探索手段によって、言語モデルにおける接続確率値と、代用された未知語の接続確率値とに基づいて、接続確率値が最大となる単語列を探索する。
In such a configuration, the speech recognition device generates phonetic sound data based on the acoustic model by the phoneme recognition means. The speech recognition apparatus acquires, from the phoneme recognition means, the pronunciation of the unknown word that is not registered in the language model for each word of the corrected character string input from the correction apparatus by the second unknown word substitution means. A probability value at which an unknown word appears is set in place of a probability value registered in advance as an unknown word connection probability value in the language model. As a result, the unknown word probability value registered in advance in the language model is assigned and assigned to the unknown word input from the correction device.
Then, the speech recognition apparatus searches for a word string having the maximum connection probability value based on the connection probability value in the language model and the connection probability value of the substituted unknown word by the search means.
また、請求項7に記載の音声認識装置は、請求項1から請求項3のいずれか一項に記載の音声認識装置において、外部辞書記憶手段と、音素認識手段と、既知語変換手段と、未知語代用手段と、第2未知語代用手段と、をさらに備える構成とした。
A speech recognition device according to claim 7 is the speech recognition device according to any one of
かかる構成において、音声認識装置は、発音辞書よりも単語の登録数が多い第2の発音辞書である外部辞書を外部辞書記憶手段に記憶しておく。また、音声認識装置は、認識手段によって、音響モデルに基づいて音声信号の発音のデータを生成する。
そして、音声認識装置は、既知語変換手段によって、修正装置から入力された修正文字列の各単語について、言語モデルに登録されていない未知語を、言語モデルに登録されている既知語に分解する。これによって、言語モデルに登録されていない未知語が、言語モデルにおいて確率値が設定されている既知語に変換され、キャッシュ記憶手段に記憶されることになる。
In such a configuration, the speech recognition apparatus stores an external dictionary, which is a second pronunciation dictionary having a larger number of registered words than the pronunciation dictionary, in the external dictionary storage unit. Further, the speech recognition apparatus generates sound generation data of the speech signal based on the acoustic model by the recognition unit.
Then, the speech recognition apparatus decomposes the unknown words not registered in the language model into known words registered in the language model for each word of the corrected character string input from the correction apparatus by the known word conversion unit. . As a result, unknown words that are not registered in the language model are converted into known words for which probability values are set in the language model and stored in the cache storage means.
また、音声認識装置は、未知語代用手段によって、既知語変換手段で既知語に分解できなかった未知語の発音を外部辞書から取得するとともに、当該未知語が出現する確率値を予め言語モデルに未知語の接続確率値として登録されている確率値で代用して設定する。これによって、修正装置から入力された未知語について、言語モデルに予め登録されている未知語の確率値が代用されて割り当てられることになる。 In addition, the speech recognition device acquires from the external dictionary the pronunciation of the unknown word that could not be decomposed into the known word by the known word conversion means by the unknown word substitution means, and the probability value that the unknown word appears in the language model in advance. A probability value registered as an unknown word connection probability value is used instead. As a result, the unknown word probability value registered in advance in the language model is assigned and assigned to the unknown word input from the correction device.
そして、音声認識装置は、第2未知語代用手段によって、未知語代用手段で外部辞書から発音を取得できなかった未知語の発音を音素認識手段から取得するとともに、当該未知語が出現する確率値を予め言語モデルに未知語の接続確率値として登録されている確率値で代用して設定する。これによって、修正装置から入力された未知語について、言語モデルに予め登録されている未知語の確率値が代用されて割り当てられることになる。
そして、音声認識装置は、探索手段によって、言語モデルにおける接続確率値と、代用された未知語の接続確率値とに基づいて、接続確率値が最大となる単語列を探索する。
Then, the speech recognition apparatus acquires, from the phoneme recognition unit, the pronunciation of the unknown word that could not be acquired from the external dictionary by the unknown word substitution unit by the second unknown word substitution unit, and the probability value that the unknown word appears Is substituted with a probability value registered in advance as an unknown word connection probability value in the language model. As a result, the unknown word probability value registered in advance in the language model is assigned and assigned to the unknown word input from the correction device.
Then, the speech recognition apparatus searches for a word string having the maximum connection probability value based on the connection probability value in the language model and the connection probability value of the substituted unknown word by the search means.
さらに、請求項8に記載の音声認識プログラムは、発音辞書、音響モデルおよび言語モデルを用いた音声認識装置により音声信号を音声認識することで得られた文字列の認識誤りを、操作者が修正装置により修正し、音声認識結果として出力する音声認識システムにおいて、前記修正装置により修正された文字列により前記認識誤りを軽減させるために、前記音声認識装置のコンピュータを、キャッシュスコア算出手段、言語スコア修正手段、探索手段として機能させる構成とした。 Furthermore, the speech recognition program according to claim 8 corrects a recognition error of a character string obtained by speech recognition of a speech signal by a speech recognition device using a pronunciation dictionary, an acoustic model, and a language model. In a speech recognition system that is corrected by a device and outputs as a speech recognition result, in order to reduce the recognition error by a character string corrected by the correction device, a computer of the speech recognition device is connected to a cache score calculation means, a language score The configuration is made to function as correction means and search means.
かかる構成において、音声認識プログラムは、キャッシュスコア算出手段によって、修正装置において修正された修正文字列の各単語を予め定めた単語数分だけ記憶させたキャッシュ記憶手段に記憶されている単語について、当該単語がキャッシュ記憶手段において出現する確率値をキャッシュスコアとして算出する。 In such a configuration, the speech recognition program uses the cache score calculation unit to store the words stored in the cache storage unit that stores the words of the corrected character string corrected by the correction device by a predetermined number of words. A probability value that the word appears in the cache storage means is calculated as a cache score.
そして、音声認識プログラムは、言語スコア修正手段によって、言語モデルから得られる単語の出現確率値である言語スコアに、キャッシュ記憶手段に記憶されている当該単語の出現確率値であるキャッシュスコアを加算することで、言語モデルから得られる単語の言語スコアを修正した修正言語スコアを生成する。これによって、言語スコアに、修正装置から入力された直近の単語についての重みが付加されることになり、その単語については、言語スコアがより高く設定されることになる。 Then, the speech recognition program adds the cache score, which is the appearance probability value of the word stored in the cache storage means, to the language score, which is the word appearance probability value obtained from the language model, by the language score correction means. Thus, a corrected language score obtained by correcting the language score of the word obtained from the language model is generated. As a result, the weight for the most recent word input from the correction device is added to the language score, and the language score is set higher for that word.
そして、音声認識プログラムは、探索手段によって、言語スコア修正手段で生成された修正言語スコアに基づいて、接続確率値が最大となる単語列を音声認識結果として言語モデルの中から探索する。これによって、修正装置から入力された直近の単語については言語スコアが高くなり、接続確率値が最大となる単語列において、直近の単語が選択される確率が高くなる。 Then, the speech recognition program searches the language model as a speech recognition result for the word string having the maximum connection probability value based on the corrected language score generated by the language score correcting unit. As a result, the language score is increased for the most recent word input from the correction device, and the probability that the most recent word is selected in the word string having the maximum connection probability value is increased.
本発明は、以下に示す優れた効果を奏するものである。
請求項1,8に記載の発明によれば、修正装置から入力された直近の単語について、言語スコアを高く設定することで、音声認識において、修正装置から入力された単語の言語スコアを高めることができる。これによって、音声認識において認識誤りが発生し、修正装置で修正された単語について、その出現確率を高めることができるため、同様の認識誤りの再発を防止することができる。
The present invention has the following excellent effects.
According to the first and eighth aspects of the present invention, the language score of the word input from the correction device is increased in speech recognition by setting a high language score for the most recent word input from the correction device. Can do. As a result, a recognition error occurs in speech recognition, and the appearance probability of the word corrected by the correction device can be increased, so that the recurrence of the same recognition error can be prevented.
請求項2に記載の発明によれば、キャッシュスコアにIDF値を重み付け値として付加するためキーワードのような重要な単語については出現確率を高めることができる。これによって、助詞のような機能語(付属語)についてキャッシュスコアが大きくなってしまう弊害を防止することができ、機能語の湧き出し誤りを抑制することができる。 According to the second aspect of the present invention, since the IDF value is added as a weighting value to the cache score, the appearance probability can be increased for important words such as keywords. As a result, it is possible to prevent the adverse effect that the cache score becomes large for a function word (attachment word) such as a particle, and it is possible to suppress errors in the function word.
請求項3に記載の発明によれば、操作者が修正装置において修正した単語について、言語スコアがより高く設定されるため、操作者が修正した単語、すなわち、正しい単語の出現確率を高めることができ、音声認識の認識誤りを抑制することができる。
According to the invention described in
請求項4に記載の発明によれば、修正装置から入力された既知語の連鎖で構成される未知語を、個々の既知語に分解することで、未知語に対して、正確な出現確率値を与えることができるため、音声認識の精度を高めることができる。 According to the fourth aspect of the present invention, an accurate appearance probability value for an unknown word is obtained by decomposing an unknown word composed of a chain of known words input from a correction device into individual known words. Therefore, the accuracy of speech recognition can be improved.
請求項5,6に記載の発明によれば、修正装置から入力された未知語の出現確率値に対し、言語モデルに予め登録されている未知語の出現確率値を代用させることができ、修正装置から入力された未知語を音声認識の認識対象となる単語とすることができる。 According to the fifth and sixth aspects of the invention, the unknown word appearance probability value registered in advance in the language model can be substituted for the unknown word appearance probability value input from the correction device. An unknown word input from the apparatus can be a word to be recognized by speech recognition.
請求項7に記載の発明によれば、修正装置から入力された既知語の連鎖で構成される未知語を、個々の既知語に分解することで、未知語に対して、正確な出現確率値を与えることができるため、音声認識の精度を高めることができる。さらに、請求項7に記載の発明によれば、修正装置から入力された未知語の出現確率値に対し、言語モデルに予め登録されている未知語の出現確率値を代用させることができ、修正装置から入力された未知語を音声認識の認識対象となる単語とすることができる。 According to the seventh aspect of the present invention, an accurate appearance probability value for an unknown word is obtained by decomposing an unknown word composed of a chain of known words input from the correction device into individual known words. Therefore, the accuracy of speech recognition can be improved. Furthermore, according to the invention described in claim 7, the appearance probability value of the unknown word registered in advance in the language model can be substituted for the appearance probability value of the unknown word input from the correction device. An unknown word input from the apparatus can be a word to be recognized by speech recognition.
以下、本発明の実施形態について図面を参照して説明する。
<音声認識システム>
最初に、図1を参照して、本発明の実施形態に係る音声認識システムの構成について説明する。この音声認識システムSは、入力音声を音声認識し、認識誤りした文字列については、操作者が手動で修正を行いリアルタイム(修正時間を含む)で音声認識結果として出力するシステムである。例えば、音声認識システムSは、ニュース等の生放送の番組で字幕を付加した放送を行うために、ニュース原稿等の音声をリアルタイムで文字データに変換し、字幕データとして出力するものである。ここでは、音声認識システムSは、音声認識装置1と、修正装置3とを備えている。
Embodiments of the present invention will be described below with reference to the drawings.
<Voice recognition system>
Initially, with reference to FIG. 1, the structure of the speech recognition system which concerns on embodiment of this invention is demonstrated. This speech recognition system S is a system that recognizes an input speech, and manually corrects an erroneously recognized character string and outputs it as a speech recognition result in real time (including a correction time). For example, the voice recognition system S converts a voice of a news manuscript or the like into character data in real time and outputs it as subtitle data in order to perform broadcasting with subtitles added in a live broadcast program such as news. Here, the speech recognition system S includes a
音声認識装置1は、入力された音声信号(入力音声)を音声認識し、認識結果を文字列として出力するものである。例えば、音声認識装置1は、ニュース等の番組の音声を聞いた発話者(リスピーカ)が、図示を省略したマイクを介して、再度その音声を入力することで、番組の音声を文字列として出力する。この音声認識装置1の認識結果である文字列は、修正装置3に出力される。
なお、音声認識装置1は、修正装置3において、認識結果に対して修正が行われた場合、その修正結果(修正文字列)を、フィードバックすることで、以降の音声認識に反映させる。この音声認識装置1については、後で詳細に説明を行う。
The
When the
修正装置3は、音声認識装置1で音声認識された文字列について、誤りがある場合に、操作者が修正を行うものである。例えば、修正装置3は、図示を省略した表示装置に図2に示すような画面Gを表示する。
図2の画面Gの例は、修正装置3が、表示装置の画面G上に、認識結果表示領域3aと、修正前文字列表示領域3bと、修正文字列入力領域3cと、送出ボタン3dとを表示した状態を示している。
The
In the example of the screen G in FIG. 2, the
認識結果表示領域3aは、音声認識装置1から入力された音声認識結果の文字列を表示する領域である。
修正前文字列表示領域3bは、認識結果表示領域3aに表示された文字列で認識誤りが発生している文字列を表示する領域である。この修正前文字列表示領域3bには、操作者が、自身が聞いた音声と認識結果表示領域3aに表示された認識結果とを比較し、認識結果表示領域3aにおいて、認識誤りが発生している文字列として、図示を省略したマウスやタッチパネルによる操作によって選択された文字列が表示される。
The recognition
The pre-correction character
修正文字列入力領域3cは、操作者が、修正前文字列表示領域3bに表示された文字列に対して、修正を行った正しい文字列を入力する領域である。
図2の例では、音声認識装置1から入力された認識結果において、「文部科学省」を誤って「文部か楽章」と認識した例を示している。
この場合、操作者は、認識結果表示領域3aにおいて、「文部か楽章」を選択する。このとき、修正前文字列表示領域3bには、「文部か楽章」が表示される。そして、操作者は、正しい文字列として、修正文字列入力領域3cに「文部科学省」を入力する。
このように、修正装置3は、誤認識された文字列を、操作者によって修正する。
The corrected character
The example of FIG. 2 shows an example in which “Ministry of Education, Culture, Sports, Science and Technology” is mistakenly recognized as “MEXT or movement” in the recognition result input from the
In this case, the operator selects “sentence or movement” in the recognition
In this way, the
また、画面G上の送出ボタン3dは、修正が完了した場合、あるいは修正が必要ない場合に、操作者によって押下されることで、修正後の文字列(修正がない場合は、元の文字列)を出力するためのボタンである。この送出ボタン3dを押下されることで、修正装置3は、音声認識装置1の音声認識である文字列(あるいは修正後の文字列)を、字幕用のデータとして出力する。
なお、修正装置3は、音声認識結果に修正が行われた場合、送出ボタン3dの押下のタイミングで、修正後の文字列(図2の例では、「文部科学省」)を修正文字列(「文部/科学/省」:“/”は単語の区分を示す)として、音声認識装置1にフィードバックする。
The
When the speech recognition result is corrected, the
このように、音声認識システムSを構成することで、音声認識システムSは、修正装置3において、音声認識結果の誤りが修正された文字列(修正文字列)が、音声認識装置1にフィードバックされ、音声認識の認識精度が高められることになる。
以下、本発明に係る音声認識装置1(1B〜1F)について、詳細に説明を行う。
By configuring the speech recognition system S in this way, the speech recognition system S feeds back the character string (corrected character string) in which the error of the speech recognition result is corrected in the
Hereinafter, the speech recognition apparatus 1 (1B to 1F) according to the present invention will be described in detail.
[第1実施形態]
<音声認識装置の構成>
まず、図3を参照して、本発明の第1実施形態に係る音声認識装置の構成について説明する。図3に示した音声認識装置1は、修正装置3からフィードバックされる文字列(修正文字列)を参照して、入力音声の音声認識を行うものである。ここでは、音声認識装置1は、発音辞書記憶手段10と、音響モデル記憶手段11と、言語モデル記憶手段12と、音声分析手段20と、キャッシュ処理手段21と、スコア結合手段22と、単語列生成手段23と、を備えている。
[First Embodiment]
<Configuration of voice recognition device>
First, the configuration of the speech recognition apparatus according to the first embodiment of the present invention will be described with reference to FIG. The
発音辞書記憶手段10は、発音辞書10aを記憶するものであって、ハードディスク等の一般的な記憶装置である。発音辞書10aは、単語ごとにその発音を示す子音と母音との構成を示したもので、予め複数の単語の発音を登録しておく。
The pronunciation dictionary storage means 10 stores the
音響モデル記憶手段11は、音響モデル11aを記憶するのであって、ハードディスク等の一般的な記憶装置である。音響モデル11aは、大量の音声データから予め学習した音素ごとの特徴量を「隠れマルコフモデル」によってモデル化したものである。この音響モデル11aは、単一の音響モデルを用いてもよいし、音響の種別(例えば、人物別)ごとに複数のモデルを用いてもよい。
The acoustic
言語モデル記憶手段12は、言語モデル12aを記憶するものであって、ハードディスク等の一般的な記憶装置である。言語モデル12aは、大量のテキストから学習した出力系列(単語、形態素等)の出現確率等をモデル化したものである。この言語モデルには、例えば、一般的な「Nグラム言語モデル」を用いることができる。
なお、ここでは、発音辞書記憶手段10と、音響モデル記憶手段11と、言語モデル記憶手段12とを、別々の記憶装置として構成しているが、1つの記憶装置内に発音辞書10a、音響モデル11aおよび言語モデル12aを記憶しておくこととしてもよい。また、ここでは、発音辞書10a、音響モデル11aおよび言語モデル12aをハードディスクに記憶して構成した例を示しているが、動作時においては、高速化のため、単語列生成手段23において参照可能な図示を省略したメモリに展開することとする。
The language
Here, the pronunciation dictionary storage means 10, the acoustic model storage means 11, and the language model storage means 12 are configured as separate storage devices, but the
音声分析手段20は、外部から入力された音声信号(入力音声)を分析し、その音声信号の特徴量を特徴ベクトルとして抽出するものである。この音声分析手段20で抽出された特徴ベクトルは、単語列生成手段23に出力される。
なお、音声分析手段20は、音声信号の音声波形に窓関数(ハミング窓等)をかけることで、フレーム化された波形を抽出し、その波形を周波数分析することで、種々の特徴量を抽出する。例えば、フレーム化された波形のパワースペクトルの対数を逆フーリエ変換した値であるケプストラム係数等を特徴量とする。この特徴量には、ケプストラム係数以外にも、メル周波数ケプストラム係数(MFCC:Mel Frequency Cepstrum Coefficient)、LPC(Linear Predictive Cording)係数、対数パワー等、一般的な音声特徴量を用いることができる。
The voice analysis means 20 analyzes a voice signal (input voice) input from the outside and extracts a feature amount of the voice signal as a feature vector. The feature vector extracted by the
Note that the voice analysis means 20 extracts a framed waveform by applying a window function (such as a Hamming window) to the voice waveform of the voice signal, and extracts various feature amounts by performing frequency analysis on the waveform. To do. For example, a cepstrum coefficient that is a value obtained by inverse Fourier transform of the logarithm of the power spectrum of a framed waveform is used as the feature amount. In addition to the cepstrum coefficients, general audio feature quantities such as a mel frequency cepstrum coefficient (MFCC), an LPC (Linear Predictive Cording) coefficient, logarithmic power, and the like can be used as the feature quantity.
キャッシュ処理手段21は、修正装置3からフィードバックされた修正文字列を単語ごとに入力し、保存(キャッシュ)するとともに、キャッシュ内の単語の出現確率であるキャッシュスコアを算出するものである。ここでは、キャッシュ処理手段21は、キャッシュ記憶手段211と、キャッシュスコア算出手段212と、を備えている。
The cache processing means 21 inputs the corrected character string fed back from the
キャッシュ記憶手段211は、修正装置3からフィードバックされた修正文字列について、予め定めた個数(M個とする)分の最新の単語を保存するものであって、一般的なメモリ等で構成される。このキャッシュ記憶手段211には、逐次最新のM個(例えば、3000個)の単語が記憶される。
The
キャッシュスコア算出手段212は、キャッシュ(キャッシュ記憶手段211)中の単語の出現確率値であるキャッシュスコアを算出するものである。このキャッシュスコア算出手段212で算出されたキャッシュスコアは、スコア結合手段22の言語スコア修正手段221に出力される。
ここで、キャッシュされた最新の単語をwn、M個前の単語をwn−Mと表記し、単語列wn−M,wn−M+1,…,wn−1をwn−M n−1と表記したとき、キャッシュスコア算出手段212は、単語wnのキャッシュスコアPC(wn|wn−M n−1)を以下の(1)式により算出する。
The cache score calculation unit 212 calculates a cache score that is an appearance probability value of a word in the cache (cache storage unit 211). The cache score calculated by the cache score calculating unit 212 is output to the language
Here, the latest word that has been cached notation w n, the word of M one before and w n-M, a word string w n-M, w n- M + 1, ..., a w n-1 w n-M when expressed as n-1, the cache score calculating means 212, a word w n cache score P C (w n | w n -M n-1) the following (1) is calculated by the equation.
この(1)式において、δ(・)は、クロネッカーのδ関数であり、引数が等しいとき、すなわち、(1)式においてwnとwn−mとが等しいときは“1”、それ以外のときは“0”となる関数である。なお、この(1)式で与えられる確率モデルを、以下では、キャッシュモデルと呼ぶ。 In this equation (1), δ (·) is the Kronecker δ function, and when the arguments are equal, that is, when wn and wn −m are equal in equation (1), “1”, otherwise In this case, the function is “0”. Hereinafter, the probability model given by the equation (1) is referred to as a cache model.
スコア結合手段22は、言語モデル12aから得られる単語の出現確率値である言語スコアに、キャッシュとして記憶されている単語の出現確率値であるキャッシュスコアを結合することで、言語スコアを修正するものである。ここでは、スコア結合手段22は、言語スコア修正手段221を備えている。
The score combining means 22 corrects the language score by combining a cache score, which is a word appearance probability value stored as a cache, with a language score, which is a word appearance probability value obtained from the
言語スコア修正手段221は、言語モデル12aから得られる言語スコアに、キャッシュスコア算出手段212で算出されたキャッシュスコアを結合することで、言語スコアを修正するものである。この言語スコア修正手段221で修正された言語スコア(修正言語スコア)は、単語列生成手段23の探索手段232に出力される。
The language
ここで、言語モデル12aをN−gram言語モデルとし、言語モデル12aから得られる単語wnのスコア(言語スコア)を、PLM=(wn|wn−N+1 n−1)としたとき、言語スコア修正手段221は、以下の(2)式により、言語モデル12aのスコア(言語スコア)と、キャッシュモデルのスコア(キャッシュスコア)とを結合することで、言語スコアを修正した修正言語スコアP(wn|w1 n−1)を生成する。
Here, the
この(2)式において、λは、0≦λ≦1の定数である。この定数λは、予め実験によって、音声認識誤りが少なくなる値を定めることとしてもよいし、あるいは、予め定めたテキストのパープレキシティ(テキストの予測出力系列数)が最小となる値としてもよい。 In the equation (2), λ is a constant satisfying 0 ≦ λ ≦ 1. The constant λ may be set to a value that reduces speech recognition errors by experiments in advance, or may be set to a value that minimizes a predetermined text perplexity (the number of predicted output sequences of text). .
単語列生成手段23は、発音辞書10a、音響モデル11aおよび言語モデル12aに基づいて、音声分析手段20で抽出された特徴ベクトルから、音声認識結果となる単語列(認識文字列)を生成するものである。ここでは、単語列生成手段23は、音響スコア算出手段231と、探索手段232と、を備えている。
The word string generation means 23 generates a word string (recognized character string) as a voice recognition result from the feature vector extracted by the voice analysis means 20 based on the
音響スコア算出手段231は、音声分析手段20で抽出され、時系列に入力される特徴ベクトルと、音響モデル11aでモデル化されている音素との類似度(確率値)を音響スコアとして算出するものである。なお、この音響スコア算出手段231は、後記する探索手段232から逐次出力される出力系列の探索候補ごとに音響スコアを算出する。ここで算出された音響スコアは、探索手段232に出力される。
The acoustic score calculation means 231 calculates the similarity (probability value) between the feature vector extracted by the speech analysis means 20 and input in time series and the phoneme modeled by the acoustic model 11a as an acoustic score. It is. The acoustic
探索手段232は、音響スコア算出手段231で算出された音響スコアに基づいて、言語モデル12aから、接続される出力系列の候補を探索し、その探索結果である探索候補を音響スコア算出手段231に出力するとともに、音響スコアと接続確率(言語スコア)とが最大となる出力系列を入力音声に対する認識結果として外部に出力するものである。
なお、探索手段232は、言語モデル12aについては、言語スコア修正手段221によって修正された言語スコア(修正言語スコア)を用いる。そして、探索手段232は、音響スコアと言語スコア(修正言語スコア)との積が最大となる出力系列を言語モデル12a(修正後の言語モデル)から探索する。
Based on the acoustic score calculated by the acoustic
The search means 232 uses the language score (corrected language score) corrected by the language
このように音声認識装置1を構成することで、従来の言語モデルを用いた音声認識に対し、キャッシュ(キャッシュ記憶手段211)に記憶された修正済みの単語のスコア(キャッシュスコア)を言語スコアに加えることができるため、直近に修正装置3から入力された単語に重みが付与されることになり、音声認識の精度を高め、また、認識誤りの再発を防止することができる。
By configuring the
また、音声認識装置1は、図示を省略したCPUやメモリを搭載した一般的なコンピュータで実現することができる。このとき、音声認識装置1は、コンピュータを、前記した各手段として機能させる音声認識プログラムによって動作する。
The
<音声認識装置の動作>
次に、図4を参照(構成については適宜図3参照)して、本発明の第1実施形態に係る音声認識装置の音声認識動作について説明する。なお、修正装置3から出力される修正文字列は、音声認識装置1に入力され、キャッシュ記憶手段211に記憶されるものとし、以下の説明においては、そのキャッシュ動作についての説明は省略する。
<Operation of voice recognition device>
Next, the speech recognition operation of the speech recognition apparatus according to the first embodiment of the present invention will be described with reference to FIG. Note that the corrected character string output from the
まず、音声認識装置1は、音声分析手段20によって、外部から入力された音声信号(入力音声)を分析し、その音声信号の特徴量を特徴ベクトルとして抽出する(ステップS1)。
そして、音声認識装置1は、探索手段232によって、言語モデル12aから、接続される出力系列の候補を順次リストアップする(ステップS2)。そして、音声認識装置1は、音響スコア算出手段231によって、ステップS2でリストアップされた出力系列の探索候補ごとに、発音辞書10aで示される発音の音響モデル11aにおける音素の特徴量と、ステップS1で抽出された入力音声の特徴量との類似度(確率値)を音響スコアとして算出する(ステップS3)。
First, the
Then, the
さらに、音声認識装置1は、探索手段232によって、ステップS2でリストアップした出力系列の候補ごとに、言語モデル12aにおいて、接続確率(言語スコア)を算出する。すなわち、音声認識装置1は、キャッシュ処理手段21のキャッシュスコア算出手段212によって、出力系列内の単語のうちでキャッシュ記憶手段211に記憶されている単語の出現確率値であるキャッシュスコアを前記(1)式により算出する(ステップS4)。
Furthermore, the
そして、音声認識装置1は、スコア結合手段22の言語スコア修正手段221によって、言語モデル12aにおいて、出力系列の候補内の当該単語の出現確率値である言語スコアと、ステップS4で算出したキャッシュスコアとを結合することで、言語スコアを修正した修正言語スコアを生成する(ステップS5)。
そして、音声認識装置1は、探索手段232によって、ステップS3で算出された音響スコアと、ステップS5で生成された修正言語スコアとの積が最大となる出力系列を音声認識結果として出力する(ステップS6)。
Then, the
Then, the
以上の動作によって、音声認識装置1は、直近に修正装置3から入力された単語によって、言語スコアを修正し、当該単語に重みを付けることができるため、音声認識の精度を高め、また、認識誤りの再発を防止することができる。さらに、操作者の修正の手間を減らすことができる。
With the above operation, the
[第2実施形態]
次に、図5を参照して、本発明の第2実施形態に係る音声認識装置の構成について説明する。図5に示した音声認識装置1Bは、図3で説明した音声認識装置1と同様、修正装置3からフィードバックされる文字列(修正文字列)を参照して、入力音声の音声認識を行うものである。この音声認識装置1Bは、キャッシュ内の単語に対してさらに重みを付ける点が、音声認識装置1と異なっている。
[Second Embodiment]
Next, the configuration of the speech recognition apparatus according to the second embodiment of the present invention will be described with reference to FIG. The
ここでは、音声認識装置1Bは、発音辞書記憶手段10と、音響モデル記憶手段11と、言語モデル記憶手段12と、重み付け値記憶手段13と、音声分析手段20と、キャッシュ処理手段21Bと、スコア結合手段22と、単語列生成手段23と、を備えている。重み付け値記憶手段13およびキャッシュ処理手段21B以外の構成については、図3で説明した音声認識装置1と同様の構成であるため、同一の符号を付して説明を省略する。また、キャッシュ処理手段21、スコア結合手段22および単語列生成手段23の内部構成については、図3で説明した音声認識装置1と同様の構成であるため図示を省略する。
Here, the
重み付け値記憶手段(IDF値記憶手段)13は、キャッシュ記憶手段211に記憶される単語に対して設定する重み付け値を単語に対応付けて予め記憶しておくものである。この重み付け値は、例えば、助詞(「が」、「は」、「の」…)等の文法的な役割を持つ語である機能語(付属語)に対し、それ以外の一般的な意味を持つ語である内容語の方が大きな重みとなるように設定する。 The weight value storage means (IDF value storage means) 13 stores in advance a weight value set for a word stored in the cache storage means 211 in association with the word. This weighting value has a general meaning other than that for a function word (attachment) that is a word having a grammatical role such as a particle (“GA”, “HA”, “NO” ...). Set so that the content word that is a word has a greater weight.
ここでは、重み付け値として、特定の単語が全文書中のどれくらいの文書に出現するかを示す尺度であるIDF(Inverse Document Frequency)値を用いることとし、単語にIDF値を対応付けたIDFテーブル13aを重み付け値記憶手段13に記憶しておくこととする。また、このIDF値は、外部の記憶手段30に記憶した予めIDF学習のために準備した文書の集合(IDF学習用文書集合30a)により、予め学習しておくものとする。このIDF学習用文書集合30aは、例えば、ある期間にニュース等で使用したニュース原稿等である。
Here, an IDF (Inverse Document Frequency) value, which is a scale indicating how many specific documents appear in the entire document, is used as the weighting value, and an IDF table 13a in which an IDF value is associated with a word. Is stored in the weight value storage means 13. The IDF value is learned in advance by a set of documents (IDF learning document set 30a) prepared in advance for IDF learning stored in the
ここで、IDF学習用文書集合30aに含まれる文書数をNd、文書中に単語wnを含んだ文書数をdfnとしたとき、単語wnのIDF値(IDF(wn))は、以下の(3)式で与えられ、単語wnにこのIDF値を対応付けて、IDFテーブル13aとする。 Here, when the number of documents contained in the IDF learning document set 30a N d, a number of documents that contain word w n in a document and df n, IDF value of word w n (IDF (w n)) is given by the following expression (3), in association with the IDF value to word w n, the IDF table 13a.
このIDF値は、各文書にまんべんなく出現する機能語のような単語については小さな値となり、ある特定の文書にしか出現しないキーワードのような単語については大きな値となる。 This IDF value is a small value for words such as function words that appear evenly in each document, and a large value for words such as keywords that appear only in a specific document.
キャッシュ処理手段21Bは、修正装置3からフィードバックされた修正文字列を入力し、予め定めた個数(M個とする)分の最新の単語を保存(キャッシュ)するとともに、当該キャッシュされた単語に重み付けを行うものである。ここでは、キャッシュ処理手段21Bは、キャッシュ記憶手段211と、キャッシュスコア算出手段212Bと、を備えている。キャッシュ記憶手段211は、図3で説明した音声認識装置1と同一の構成であるため説明を省略する。
The
キャッシュスコア算出手段212Bは、キャッシュ(キャッシュ記憶手段211)中の単語の出現確率値に重みを付加したキャッシュスコアを算出するものである。このキャッシュスコア算出手段212Bで算出されたキャッシュスコアは、スコア結合手段22の言語スコア修正手段221に出力される。
ここでは、キャッシュスコア算出手段212Bは、キャッシュ記憶手段211の単語に対し、重み付け値記憶手段13に記憶されているIDFテーブル13aの重み付け値(IDF値)によって、重み付けを行った出現確率値であるキャッシュスコアを算出する。
具体的には、キャッシュされた最新の単語をwn、M個前の単語をwn−Mと表記し、単語列wn−M,wn−M+1,…,wn−1をwn−M n−1と表記したとき、キャッシュスコア算出手段212Bは、単語wnのキャッシュスコアPC(wn|wn−M n−1)を以下の(4)式により算出する。
The cache score calculation unit 212B calculates a cache score by adding a weight to the appearance probability value of the word in the cache (cache storage unit 211). The cache score calculated by the cache score calculating unit 212B is output to the language
Here, the cache score calculation means 212B is an appearance probability value obtained by weighting the words in the cache storage means 211 with the weight values (IDF values) of the IDF table 13a stored in the weight value storage means 13. Calculate the cash score.
Specifically, the latest cached word is denoted by wn, the Mth previous word is denoted by wn-M, and the word string wn -M , wn -M + 1 , ..., wn -1 is denoted by wn. when expressed as -M n-1, the cache score calculating unit 212B, the word w n cache score P C (w n | w n -M n-1) the following (4) is calculated by the equation.
この(4)式において、δ(・)は、前記(1)式と同様、クロネッカーのδ関数であり、引数が等しいとき、すなわち、(4)式においてwnとwn−mとが等しいときは“1”、それ以外のときは“0”となる関数である。また、Zは、確率の公理を満たすための正規化係数であって、以下の(5)式で算出される値である。 In this equation (4), [delta] (·), like the equation (1), a [delta] function Kronecker, when the argument is equal, i.e., is equal to w n and w n-m in (4) It is a function that is “1” at times, and “0” at other times. Z is a normalization coefficient for satisfying the probability axiom, and is a value calculated by the following equation (5).
このように、音声認識装置1Bは、IDF値によって、キャッシュ(キャッシュ記憶手段211)中の単語の出現確率値に重み付けを行うため、キャッシュ中の単語に含まれる助詞等の機能語のスコアを相対的に低くすることができ、音声認識結果において、機能語の湧き出し誤りを抑制することができる。
なお、本実施形態において、キャッシュスコア算出手段212Bは、IDF値の代わりに、単語の品詞情報を利用して、機能語の重みを小さくすることとしてもよい。ただし、単語の品詞は一意に決まらない場合もあり、音声認識結果のような誤りを含む文字列の文脈から各単語の正しい品詞を推定することは困難であるため、IDF値を用いることが望ましいといえる。
As described above, the
In the present embodiment, the cache score calculation unit 212B may use the part of speech information of a word instead of the IDF value to reduce the weight of the function word. However, the part-of-speech of a word may not be uniquely determined, and it is difficult to estimate the correct part-of-speech of each word from the context of a character string including an error such as a speech recognition result. Therefore, it is desirable to use an IDF value. It can be said.
また、ここでは、キャッシュスコア算出手段212Bは、キャッシュ(キャッシュ記憶手段211)中の単語の出現確率値にIDF値のみで重み付けを与えたが、修正単語であることを示す状態を加味して重み付けを行ってもよい。
具体的には、修正装置3からフィードバックされた単語wが修正された単語であるか否かを表す重みをweight(w)と表記したとき、キャッシュスコア算出手段212Bは、前記(4)式および(5)式に代えて、以下の(6)式および(7)式により、単語wnのキャッシュスコアPC(wn|wn−M n−1)を算出する。
Here, the cache score calculation unit 212B weights only the IDF value to the appearance probability value of the word in the cache (cache storage unit 211). May be performed.
Specifically, when the weight w indicating whether or not the word w fed back from the
このweight(w)の値は、単語wが認識結果そのものであれば“0”、修正された単語であれば、正の定数を与えるものとする。
ここで、単語wが修正された単語であるか否かは、修正装置3において、情報を付加することで、キャッシュ処理手段21Bで判断することができる。例えば、図2の例では、修正装置3は、修正が行われなかった認識結果そのものの単語「文部」については“0”、修正が行われた「科学」については正の定数を付加して、音声認識装置1Bにフィードバックする。
The value of weight (w) is “0” if the word w is the recognition result itself, and a positive constant if the word w is a corrected word.
Here, whether or not the word w is a corrected word can be determined by the
また、単語wが修正された単語であるか否かは、修正装置3から、修正前の文字列(認識結果)と、修正後の文字列(修正文字列)とをフィードバックしてもらい、図示を省略した修正判定手段によりDPマッチングを行うことで、両文字列の比較を行い、差異がある単語については、修正が行われた単語であると判定することとしてもよい。例えば、図2の例では、修正装置3は、修正前の文字列(認識結果)として「文部か楽章」、修正後の文字列(修正文字列)として「文部科学省」を音声認識装置1Bにフィードバックする。このように、IDF値以外に、修正が行われたか否かによっても重み付けを行うことで、音声認識装置1Bは、操作者が修正した単語について言語スコアに大きい重みが付与されるため、同じ認識誤りの発生を防止することができる。
Whether or not the word w is a corrected word is determined by feedback from the
なお、この音声認識装置1Bの音声認識動作については、基本的に図4で説明した音声認識装置1の動作と同様である。音声認識装置1Bと、音声認識装置1の動作の相違点は、図4のステップS4において、キャッシュ処理手段21のキャッシュスコア算出手段212Bによって、出力系列内の単語のうちでキャッシュ記憶手段211に記憶されている単語の出現確率値であるキャッシュスコアを前記(4)式、あるいは(5)式により算出する点である。
The voice recognition operation of the
以上説明した音声認識装置1Bは、図示を省略したCPUやメモリを搭載した一般的なコンピュータで実現することができる。このとき、音声認識装置1Bは、コンピュータを、前記した各手段として機能させる音声認識プログラムによって動作する。
The
[第3実施形態]
次に、図6を参照して、本発明の第3実施形態に係る音声認識装置の構成について説明する。図6に示した音声認識装置1Cは、図3で説明した音声認識装置1の機能に加え、修正装置3からフィードバックされた修正文字列で、言語モデルに登録されていない未知語を認識可能にするものである。
[Third Embodiment]
Next, with reference to FIG. 6, the structure of the speech recognition apparatus according to the third embodiment of the present invention will be described. The speech recognition apparatus 1C shown in FIG. 6 can recognize unknown words that are not registered in the language model by using the corrected character string fed back from the
ここでは、音声認識装置1Cは、発音辞書記憶手段10と、音響モデル記憶手段11と、言語モデル記憶手段12と、音声分析手段20と、キャッシュ処理手段21と、スコア結合手段22と、単語列生成手段23と、未知語処理手段24と、を備えている。未知語処理手段24以外の構成については、図3で説明した音声認識装置1と同様の構成であるため、同一の符号を付して説明を省略する。また、キャッシュ処理手段21、スコア結合手段22および単語列生成手段23の内部構成については、図3で説明した音声認識装置1と同様の構成であるため図示を省略する。
Here, the speech recognition apparatus 1C includes a pronunciation
未知語処理手段24は、修正装置3において操作者が修正した修正文字列において、未知の単語である未知語を、既知の単語である既知語の単語列に変換するものである。
通常、修正装置3において、操作者が修正した単語には、言語モデル12aに登録されていないような未知語が存在する場合がある。そこで、未知語処理手段24は、未知語を既知語に変換する既知語変換手段241を備え、既知語変換手段241によって、未知語を既知語に変換する。この既知語の単語列に変換された修正文字列は、キャッシュ処理手段21に出力される。
The unknown word processing means 24 converts an unknown word that is an unknown word into a word string of a known word that is a known word in the corrected character string that is corrected by the operator in the
Usually, in the
すなわち、既知語変換手段241は、入力された修正文字列の個々の単語について、言語モデル12aを参照し、言語モデル12aに登録されている単語に分解することで、既知の単語に変換する。例えば、未知語として「ハローワーク」が入力された場合、既知語変換手段241は、言語モデル12aに登録されている既知の単語である「ハロー」と「ワーク」とに分解する。この個々に分解された既知の単語が、キャッシュ処理手段21に出力され、キャッシュ記憶手段211に記憶されることになる。
That is, the known word conversion means 241 converts each word of the input corrected character string into a known word by referring to the
このように音声認識装置1Cを構成することで、音声認識装置1Cは、第1実施形態の効果に加え、修正装置3から、修正文字列として未知語が入力された場合であっても、既知語に変換することで、正確な言語スコアに反映することができ、音声認識の精度を高めることができる。
また、音声認識装置1Cは、キャッシュ処理手段21を図5で説明したキャッシュ処理手段21Bに代え、さらに、図5で説明した重み付け値記憶手段13を備える構成としてもよい。
By configuring the speech recognition device 1C in this manner, the speech recognition device 1C is known even when an unknown word is input as a corrected character string from the
Further, the speech recognition apparatus 1C may be configured to include the weight
この音声認識装置1Cの音声認識動作については、図4で説明した音声認識装置1の動作と同様であるため、説明を省略する。なお、音声認識装置1Cのキャッシュ動作において、修正装置3からフィードバックされた修正文字列が音声認識装置1Cに入力され、キャッシュ記憶手段211に記憶される前に、既知語変換手段241によって、未知語が既知語に変換される点が、音声認識装置1の動作と異なっている。
The voice recognition operation of the voice recognition device 1C is the same as that of the
以上説明した音声認識装置1Cは、図示を省略したCPUやメモリを搭載した一般的なコンピュータで実現することができる。このとき、音声認識装置1Cは、コンピュータを、前記した各手段として機能させる音声認識プログラムによって動作する。 The speech recognition apparatus 1C described above can be realized by a general computer equipped with a CPU and a memory (not shown). At this time, the speech recognition apparatus 1C operates by a speech recognition program that causes the computer to function as each of the above-described means.
[第4実施形態]
次に、図7を参照して、本発明の第4実施形態に係る音声認識装置の構成について説明する。図7に示した音声認識装置1Dは、図3で説明した音声認識装置1の機能に加え、修正装置3からフィードバックされた修正文字列で、発音辞書に登録されていない未知語を認識可能にするものである。
[Fourth Embodiment]
Next, with reference to FIG. 7, the structure of the speech recognition apparatus which concerns on 4th Embodiment of this invention is demonstrated. The voice recognition device 1D shown in FIG. 7 can recognize unknown words that are not registered in the pronunciation dictionary by using the corrected character string fed back from the
ここでは、音声認識装置1Dは、発音辞書記憶手段10と、音響モデル記憶手段11と、言語モデル記憶手段12と、外部辞書記憶手段14と、音声分析手段20と、キャッシュ処理手段21と、スコア結合手段22と、単語列生成手段23と、未知語処理手段24Bと、未知語登録手段25と、を備えている。外部辞書記憶手段14、未知語処理手段24Bおよび未知語登録手段25以外の構成については、図3で説明した音声認識装置1と同様の構成であるため、同一の符号を付して説明を省略する。また、キャッシュ処理手段21、スコア結合手段22および単語列生成手段23の内部構成については、図3で説明した音声認識装置1と同様の構成であるため図示を省略する。
Here, the speech recognition apparatus 1D includes a pronunciation
外部辞書記憶手段14は、発音辞書(第2の発音辞書)である外部辞書14aを記憶するものであって、ハードディスク等の一般的な記憶装置である。通常、音声認識において、認識精度および認識速度を高めるため、発音辞書10aには、予め定めた数の単語の発音しか登録されていない。この外部辞書記憶手段14に記憶されている外部辞書14aは、発音辞書10aよりも多い単語の発音を登録した巨大辞書である。
The external dictionary storage means 14 stores an
未知語処理手段24Bは、修正装置3において操作者が修正した修正文字列において、未知の単語である未知語に対して、出現確率値を与えるものである。
この未知語処理手段24Bは、未知語に予め定めた代用の出現確率値を与える未知語代用手段242によって、未知語に出現確率値を与える。この未知語に対する出現確率値は、未知語登録手段25に出力される。
The unknown word processing means 24B gives an appearance probability value to an unknown word that is an unknown word in the corrected character string corrected by the operator in the
This unknown word processing means 24B gives the appearance probability value to the unknown word by the unknown word substitution means 242 that gives a predetermined substitute appearance probability value to the unknown word. The appearance probability value for this unknown word is output to the unknown word registration means 25.
未知語代用手段242は、入力された修正文字列の個々の単語について、言語モデル12aに登録されていない未知語の単語については、外部辞書記憶手段14から発音を取得し、言語モデル12aに予め登録されている未知語の出現確率値とともに、未知語登録手段25に出力するものである。なお、未知語処理手段24Bは、既知語については、そのままキャッシュ処理手段21に出力する。
The unknown word substitution means 242 obtains pronunciations from the external dictionary storage means 14 for words of unknown words that are not registered in the
未知語登録手段25は、未知語処理手段24Bから出力される未知語の発音および出現確率値を、発音辞書10aおよび言語モデル12aに登録するものである。
すなわち、未知語登録手段25は、未知語処理手段24Bから出力される未知語のテキストデータと、当該未知語の発音とを発音辞書10aに登録する。さらに、未知語登録手段25は、未知語処理手段24Bから出力される未知語のテキストデータを言語モデル12aに登録するとともに、出現確率値を当該未知語に対応付けて登録しておく。
なお、本実施形態では、予め発音辞書10aおよび言語モデル12aを、単語列生成手段23が参照可能な図示を省略したメモリに展開して動作させることを想定しているため、図7において、未知語登録手段25からの出力を単語列生成手段23としている。
The unknown
That is, the unknown
In the present embodiment, it is assumed that the
このように音声認識装置1Dを構成することで、音声認識装置1Dは、第1実施形態の効果に加え、修正装置3から、修正文字列として未知語が入力された場合であっても、当該未知語に言語モデルの予め定めた未知語の出現確率値を代用させることができ、未知語に対しても音声認識を行うことが可能になる。
By configuring the speech recognition device 1D in this way, the speech recognition device 1D can be used even when an unknown word is input as a corrected character string from the
この音声認識装置1Dの音声認識動作については、図4で説明した音声認識装置1の動作と同様であるため、説明を省略する。なお、音声認識装置1Dは、修正装置3からフィードバックされた修正文字列が音声認識装置1Dに入力された際に、未知語代用手段242Bによって、外部辞書14aを参照して、未知語に対して発音と出現確率値とが割り当てられる点が、音声認識装置1の動作と異なっている。
The voice recognition operation of the voice recognition device 1D is the same as that of the
以上説明した音声認識装置1Dは、図示を省略したCPUやメモリを搭載した一般的なコンピュータで実現することができる。このとき、音声認識装置1Dは、コンピュータを、前記した各手段として機能させる音声認識プログラムによって動作する。 The voice recognition device 1D described above can be realized by a general computer having a CPU and a memory (not shown). At this time, the speech recognition apparatus 1D operates by a speech recognition program that causes the computer to function as each of the above-described means.
[第5実施形態]
次に、図8を参照して、本発明の第5実施形態に係る音声認識装置の構成について説明する。図8に示した音声認識装置1Eは、図3で説明した音声認識装置1の機能に加え、修正装置3からフィードバックされた修正文字列で、発音辞書に登録されていない未知語を認識可能にするものである。
[Fifth Embodiment]
Next, with reference to FIG. 8, the structure of the speech recognition apparatus according to the fifth embodiment of the present invention will be described. The voice recognition device 1E shown in FIG. 8 can recognize unknown words that are not registered in the pronunciation dictionary by using the corrected character string fed back from the
ここでは、音声認識装置1Eは、発音辞書記憶手段10と、音響モデル記憶手段11と、言語モデル記憶手段12と、音声分析手段20と、キャッシュ処理手段21と、スコア結合手段22と、単語列生成手段23Bと、未知語処理手段24Cと、未知語登録手段25と、音素認識手段26と、を備えている。単語列生成手段23B、未知語処理手段24Cおよび音素認識手段26以外の構成については、図7で説明した音声認識装置1Dと同様の構成であるため、同一の符号を付して説明を省略する。また、キャッシュ処理手段21およびスコア結合手段22の内部構成については、図3で説明した音声認識装置1と同様の構成であるため図示を省略する。
Here, the speech recognition apparatus 1E includes a pronunciation
単語列生成手段23Bは、発音辞書10a、音響モデル11aおよび言語モデル12aに基づいて、音声分析手段20で抽出された特徴ベクトルから、音声認識結果となる単語列(認識文字列)を生成するものである。また、単語列生成手段23Bの内部構成については、図3で説明した音声認識装置1の単語列生成手段23と同様の構成であるため図示を省略する。
なお、ここでは、単語列生成手段23Bは、図3で説明した単語列生成手段23の機能に加え、図示を省略した計時手段で計時された時刻情報(タイムスタンプ)を単語に付与することとする。
The
Here, in addition to the function of the word
未知語処理手段24Cは、修正装置3において操作者が修正した修正文字列において、未知の単語である未知語に対して、出現確率値を与えるものである。
ここでは、未知語処理手段24Cは、未知語に予め定めた代用の出現確率値を与える未知語代用手段242Bによって、未知語に出現確率値を与える。この未知語に対する出現確率値は、未知語登録手段25に出力される。
The unknown word processing means 24C gives an appearance probability value to an unknown word that is an unknown word in the corrected character string corrected by the operator in the
Here, the unknown word processing means 24C gives the appearance probability value to the unknown word by the unknown word substitution means 242B that gives a predetermined substitute appearance probability value to the unknown word. The appearance probability value for this unknown word is output to the unknown word registration means 25.
未知語代用手段(第2未知語代用手段)242Bは、入力された修正文字列の個々の単語について、言語モデル12aに登録されていない未知語の単語については、音素認識手段26から発音を取得し、言語モデル12aに予め登録されている未知語の出現確率値とともに、未知語登録手段25に出力するものである。なお、未知語処理手段24Cは、既知語については、そのままキャッシュ処理手段21に出力する。
The unknown word substitution means (second unknown word substitution means) 242B obtains pronunciation from the phoneme recognition means 26 for words of unknown words that are not registered in the
この未知語代用手段242Bは、単語列生成手段23Bで生成されたタイムスタンプが付与された文字列と、修正装置3から出力される修正文字列とを比較することで、修正された単語のタイムスタンプを得ることができる。そして、その単語が未知語である場合、未知語代用手段242Bは、その未知語に対し、当該タイムスタンプに対応する音素認識手段26から出力される発音を対応付ける。
The unknown
音素認識手段26は、外部から入力される音声信号(入力音声)を、音響モデル11aを参照して音素に分解し、発音のデータを生成するものである。この音素認識手段26は、一般的な音素認識装置を用いることができ、音声認識装置1Eの内部に備えることとしてもよいし、外部に接続して構成することとしてもよい。なお、この音素認識手段26は、認識結果として、音素ごとに、図示を省略した計時手段で時刻情報(タイムスタンプ)を付与し、未知語処理手段24Cに出力する。
The
このように音声認識装置1Eを構成することで、音声認識装置1Eは、第1実施形態の効果に加え、修正装置3から、修正文字列として未知語が入力された場合であっても、当該未知語に言語モデルの予め定めた未知語の出現確率値を代用させることができ、未知語に対しても音声認識を行うことが可能になる。
By configuring the speech recognition device 1E as described above, the speech recognition device 1E can be used in addition to the effects of the first embodiment, even when an unknown word is input as a corrected character string from the
この音声認識装置1Eの音声認識動作については、図4で説明した音声認識装置1の動作と同様であるため、説明を省略する。なお、音声認識装置1Eは、修正装置3からフィードバックされた修正文字列が音声認識装置1Eに入力された際に、未知語代用手段242Bによって、未知語に対して発音と出現確率値とが割り当てられる点が、音声認識装置1の動作と異なっている。
The voice recognition operation of the voice recognition device 1E is similar to the operation of the
以上説明した音声認識装置1Eは、図示を省略したCPUやメモリを搭載した一般的なコンピュータで実現することができる。このとき、音声認識装置1Eは、コンピュータを、前記した各手段として機能させる音声認識プログラムによって動作する。 The voice recognition device 1E described above can be realized by a general computer equipped with a CPU and a memory (not shown). At this time, the speech recognition apparatus 1E operates according to a speech recognition program that causes the computer to function as each of the above-described means.
以上、本発明の実施形態として、第1〜第5実施形態について説明したが、本発明は、これらの実施形態に限定されるものではない。例えば、第3〜第5実施形態は、適宜これらを組み合わせて構成してもよい。例えば、第3〜第5実施形態を組み合わせた第6実施形態とすることができる。 As mentioned above, although 1st-5th embodiment was described as embodiment of this invention, this invention is not limited to these embodiment. For example, the third to fifth embodiments may be appropriately combined. For example, it can be set as 6th Embodiment which combined 3rd-5th embodiment.
[第6実施形態]
ここで、図9を参照して、第3〜第5実施形態を組み合わせた第6実施形態の音声認識装置について説明する。
図9に示した音声認識装置1Fは、第3〜第5実施形態を組み合わせ未知語処理手段24Dに、既知語変換手段241、未知語代用手段242,242Bを備える構成としている。各構成については、第1〜第5実施形態で説明したため、同一の符号を付して説明を省略するが、未知語処理手段24Dの機能が異なっているため、その動作について説明を行う。
[Sixth Embodiment]
Here, with reference to FIG. 9, the speech recognition apparatus of 6th Embodiment which combined 3rd-5th embodiment is demonstrated.
The
音声認識装置1Fは、修正装置3から修正文字列が入力された場合、修正文字列のうちに未知語が存在する場合は、既知語変換手段241によって、未知語を分解することで複数の既知語に変換する。
ここで、未知語が既知語に変換できない場合、音声認識装置1Fは、未知語代用手段242によって、外部辞書記憶手段14の外部辞書14aから発音を取得し、言語モデル12aに予め登録されている未知語の出現確率値とともに、未知語登録手段25に出力し登録を行う。
When a corrected character string is input from the
Here, when the unknown word cannot be converted into the known word, the
さらに、外部辞書14aにおいても未知語の発音が取得できない場合、音声認識装置1Fは、未知語代用手段242Bによって、音素認識手段26から発音を取得し、言語モデル12aに予め登録されている未知語の出現確率値とともに、未知語登録手段25に出力し登録を行う。
Further, when the pronunciation of the unknown word cannot be acquired even in the
これによって、音声認識装置1Fは、直近に入力された修正文字列の単語によって、言語スコアを修正し、当該単語に重みを付けることができるため、音声認識の精度を高め、また、認識誤りの再発を防止することができる。さらに、音声認識装置1Fは、単語が未知語である場合であっても、当該未知語に言語モデルの予め定めた未知語の出現確率値を代用させることができ、未知語に対しても音声認識を行うことが可能になる。
また、音声認識装置1Fは、キャッシュ処理手段21を図5で説明したキャッシュ処理手段21Bに代え、さらに、図5で説明した重み付け値記憶手段13を備える構成としてもよい。
As a result, the
Further, the
以上説明した音声認識装置1Fは、図示を省略したCPUやメモリを搭載した一般的なコンピュータで実現することができる。このとき、音声認識装置1Eは、コンピュータを、前記した各手段として機能させる音声認識プログラムによって動作する。
The
S 音声認識システム
1(1B〜1F) 音声認識装置
10 発音辞書記憶手段
10a 発音辞書
11 音響モデル記憶手段
11a 音響モデル
12 言語モデル記憶手段
12a 言語モデル
13 重み付け値記憶手段(IDF値記憶手段)
13a IDFテーブル
14 外部辞書記憶手段
14a 外部辞書(第2の発音辞書)
20 音声分析手段
21 キャッシュ処理手段
211 キャッシュ記憶手段
212 キャッシュスコア算出手段
22 スコア結合手段
221 言語スコア修正手段
23 単語列生成手段
231 音響スコア算出手段
232 探索手段
24 未知語処理手段
241 既知語変換手段
242 未知語代用手段
242B 未知語代用手段(第2未知語代用手段)
25 未知語登録手段
26 音素認識手段
3 修正装置
S Speech recognition system 1 (1B to 1F)
13a IDF table 14 External dictionary storage means 14a External dictionary (second pronunciation dictionary)
20 speech analysis means 21 cache processing means 211 cache storage means 212 cache score calculation means 22 score combination means 221 language score correction means 23 word string generation means 231 acoustic score calculation means 232 search means 24 unknown word processing means 241 known word conversion means 242 Unknown word substitution means 242B Unknown word substitution means (second unknown word substitution means)
25 Unknown word registration means 26 Phoneme recognition means 3 Correction device
Claims (8)
前記修正装置において修正された修正文字列を入力し、当該修正文字列を構成する単語を予め定めた単語数分だけ記憶するキャッシュ記憶手段と、
前記キャッシュ記憶手段に記憶されている単語について、当該単語が前記キャッシュ記憶手段において出現する確率値をキャッシュスコアとして算出するキャッシュスコア算出手段と、
前記言語モデルから得られる単語の出現確率値である言語スコアに、前記キャッシュ記憶手段に記憶されている当該単語の出現確率値であるキャッシュスコアを加算することで、前記言語モデルから得られる単語の言語スコアを修正した修正言語スコアを生成する言語スコア修正手段と、
この言語スコア修正手段で生成された修正言語スコアに基づいて、接続確率値が最大となる単語列を前記音声認識結果として前記言語モデルの中から探索する探索手段と、
を備えることを特徴とする音声認識装置。 Speech recognition that the operator corrects the recognition error of the character string obtained by speech recognition by the speech recognition device using the pronunciation dictionary, acoustic model and language model, and outputs it as a speech recognition result In the speech recognition device in the system,
A cache storage means for inputting a corrected character string corrected in the correction device, and storing words constituting the corrected character string by a predetermined number of words;
For a word stored in the cache storage means, a cache score calculation means for calculating a probability value that the word appears in the cache storage means as a cache score;
By adding a cache score that is an appearance probability value of the word stored in the cache storage unit to a language score that is an appearance probability value of the word obtained from the language model, the word obtained from the language model Language score correction means for generating a corrected language score obtained by correcting the language score;
Based on the corrected language score generated by the language score correcting means, search means for searching the language model as a speech recognition result for a word string having a maximum connection probability value;
A speech recognition apparatus comprising:
前記キャッシュスコア算出手段は、前記キャッシュスコアに対し、当該キャッシュスコアに対応する単語に対応付けられている前記IDF値記憶手段に記憶されているIDF値を、重み付け値として付加することを特徴とする請求項1に記載の音声認識装置。 IDF value storage means for storing an IDF value, which is a scale indicating how many specific documents appear in a plurality of documents, in association with each specific word;
The cache score calculation means adds an IDF value stored in the IDF value storage means associated with a word corresponding to the cache score as a weighting value to the cache score. The speech recognition apparatus according to claim 1.
前記キャッシュスコア算出手段は、前記修正装置から入力された修正文字列において、前記操作者が修正した単語について、前記キャッシュスコアに対し、予め定めた重み付け値を付加することを特徴とする請求項1または請求項2に記載の音声認識装置。 The corrected character string is a character string in which a word corrected by the operator and a word not corrected are mixed,
2. The cache score calculation unit adds a predetermined weight value to the cache score for a word corrected by the operator in a corrected character string input from the correction device. Or the speech recognition apparatus of Claim 2.
前記修正装置から入力された前記修正文字列の各単語について、前記言語モデルに登録されていない未知語の発音を前記外部辞書から取得するとともに、当該未知語が出現する確率値を予め前記言語モデルに未知語の接続確率値として登録されている確率値で代用して設定する未知語代用手段と、をさらに備え、
前記探索手段が、前記言語モデルにおける接続確率値と、前記代用された未知語の接続確率値とに基づいて、接続確率値が最大となる単語列を探索することを特徴とする請求項1から請求項3のいずれか一項に記載の音声認識装置。 An external dictionary storage means for storing an external dictionary which is a second pronunciation dictionary having a larger number of registered words than the pronunciation dictionary;
For each word of the corrected character string input from the correction device, the pronunciation of an unknown word that is not registered in the language model is obtained from the external dictionary, and the probability value of the unknown word appearing in advance in the language model An unknown word substitution means that substitutes and sets a probability value registered as an unknown word connection probability value in
The search means searches for a word string having a maximum connection probability value based on a connection probability value in the language model and a connection probability value of the substituted unknown word. The speech recognition apparatus according to claim 3.
前記修正装置から入力された前記修正文字列の各単語について、前記言語モデルに登録されていない未知語の発音を前記音素認識手段から取得するとともに、当該未知語が出現する確率値を予め前記言語モデルに未知語の接続確率値として登録されている確率値で代用して設定する第2未知語代用手段と、をさらに備え、
前記探索手段が、前記言語モデルにおける接続確率値と、前記代用された未知語の接続確率値とに基づいて、接続確率値が最大となる単語列を探索することを特徴とする請求項1から請求項3のいずれか一項に記載の音声認識装置。 Phoneme recognition means for generating pronunciation data of the speech signal based on the acoustic model;
For each word of the corrected character string input from the correction device, the pronunciation of an unknown word that is not registered in the language model is acquired from the phoneme recognition means, and the probability value that the unknown word appears is preliminarily set in the language. A second unknown word substitution means that substitutes and sets a probability value registered as a connection probability value of an unknown word in the model,
The search means searches for a word string having a maximum connection probability value based on a connection probability value in the language model and a connection probability value of the substituted unknown word. The speech recognition apparatus according to claim 3.
前記音響モデルに基づいて前記音声信号の発音のデータを生成する音素認識手段と、
前記修正装置から入力された前記修正文字列の各単語について、前記言語モデルに登録されていない未知語を、前記言語モデルに登録されている既知語に分解し、前記キャッシュ記憶手段に記憶するする既知語変換手段と、
この既知語変換手段で既知語に分解できなかった未知語の発音を前記外部辞書から取得するとともに、当該未知語が出現する確率値を予め前記言語モデルに未知語の接続確率値として登録されている確率値で代用して設定する未知語代用手段と、
この未知語代用手段で前記外部辞書から発音を取得できなかった未知語の発音を前記音素認識手段から取得するとともに、当該未知語が出現する確率値を予め前記言語モデルに未知語の接続確率値として登録されている確率値で代用して設定する第2未知語代用手段と、をさらに備え、
前記探索手段が、前記言語モデルにおける接続確率値と、前記代用された未知語の接続確率値とに基づいて、接続確率値が最大となる単語列を探索することを特徴とする請求項1から請求項3のいずれか一項に記載の音声認識装置。 An external dictionary storage means for storing an external dictionary which is a second pronunciation dictionary having a larger number of registered words than the pronunciation dictionary;
Phoneme recognition means for generating pronunciation data of the speech signal based on the acoustic model;
For each word of the corrected character string input from the correction device, an unknown word that is not registered in the language model is decomposed into known words that are registered in the language model, and stored in the cache storage unit. A known word conversion means;
The pronunciation of an unknown word that could not be decomposed into known words by this known word conversion means is acquired from the external dictionary, and the probability value that the unknown word appears is registered in the language model in advance as a connection probability value of the unknown word. An unknown word substitution means that substitutes with a certain probability value, and
The unknown word substitution means obtains the pronunciation of the unknown word that could not be obtained from the external dictionary from the phoneme recognition means, and the probability value of the unknown word appearing in advance in the language model is connected to the unknown word connection probability value. A second unknown word substitution means that substitutes and sets the probability value registered as:
The search means searches for a word string having a maximum connection probability value based on a connection probability value in the language model and a connection probability value of the substituted unknown word. The speech recognition apparatus according to claim 3.
前記修正装置において修正された修正文字列の各単語を予め定めた単語数分だけ記憶させたキャッシュ記憶手段に記憶されている単語について、当該単語が前記キャッシュ記憶手段において出現する確率値をキャッシュスコアとして算出するキャッシュスコア算出手段、
前記言語モデルから得られる単語の出現確率値である言語スコアに、前記キャッシュ記憶手段に記憶されている当該単語の出現確率値であるキャッシュスコアを加算することで、前記言語モデルから得られる単語の言語スコアを修正した修正言語スコアを生成する言語スコア修正手段、
この言語スコア修正手段で生成された修正言語スコアに基づいて、接続確率値が最大となる単語列を前記音声認識結果として前記言語モデルの中から探索する探索手段、
として機能させることを特徴とする音声認識プログラム。 Speech recognition that the operator corrects the recognition error of the character string obtained by speech recognition by the speech recognition device using the pronunciation dictionary, acoustic model and language model, and outputs it as a speech recognition result In the system, in order to reduce the recognition error by the character string corrected by the correction device, the computer of the voice recognition device,
For a word stored in the cache storage means in which each word of the corrected character string corrected by the correction device is stored for a predetermined number of words, a probability value that the word appears in the cache storage means is determined as a cache score. Cash score calculation means for calculating as
By adding a cache score that is an appearance probability value of the word stored in the cache storage unit to a language score that is an appearance probability value of the word obtained from the language model, the word obtained from the language model A language score correcting means for generating a corrected language score obtained by correcting the language score;
Search means for searching a word string having a maximum connection probability value from the language model as the speech recognition result based on the corrected language score generated by the language score correcting means,
A voice recognition program characterized by functioning as
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009017524A JP5054711B2 (en) | 2009-01-29 | 2009-01-29 | Speech recognition apparatus and speech recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009017524A JP5054711B2 (en) | 2009-01-29 | 2009-01-29 | Speech recognition apparatus and speech recognition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010175765A true JP2010175765A (en) | 2010-08-12 |
JP5054711B2 JP5054711B2 (en) | 2012-10-24 |
Family
ID=42706820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009017524A Active JP5054711B2 (en) | 2009-01-29 | 2009-01-29 | Speech recognition apparatus and speech recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5054711B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012522278A (en) * | 2009-03-30 | 2012-09-20 | マイクロソフト コーポレーション | Adaptation to statistical language models |
JP2014521158A (en) * | 2011-07-14 | 2014-08-25 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | Text input method, apparatus, and system |
JP2014194774A (en) * | 2013-03-28 | 2014-10-09 | Estsoft Corp | Misspelling correction system and misspelling correction method |
JP2021078060A (en) * | 2019-11-12 | 2021-05-20 | パナソニックIpマネジメント株式会社 | Subtitle correction system, subtitle correction method, and computer program |
JP2022068817A (en) * | 2020-10-22 | 2022-05-10 | ネイバー コーポレーション | Method for improving voice recognition rate for voice recording, system, and computer readable recording medium |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001092494A (en) * | 1999-09-24 | 2001-04-06 | Mitsubishi Electric Corp | Device and method for recognizing speech, and speech recognition program recording medium |
JP2001092485A (en) * | 1999-09-10 | 2001-04-06 | Internatl Business Mach Corp <Ibm> | Method for registering speech information, method for determining recognized character string, speech recognition device, recording medium in which software product for registering speech information is stored, and recording medium in which software product for determining recognized character string is stored |
JP2005208643A (en) * | 2004-01-20 | 2005-08-04 | Microsoft Corp | System and method for automatic speech recognition learning using user correction |
JP2006146008A (en) * | 2004-11-22 | 2006-06-08 | National Institute Of Advanced Industrial & Technology | Speech recognition device and method, and program |
JP2007226091A (en) * | 2006-02-27 | 2007-09-06 | Nippon Hoso Kyokai <Nhk> | Speech recognizer and speech recognizing program |
JP2008216341A (en) * | 2007-02-28 | 2008-09-18 | Nippon Hoso Kyokai <Nhk> | Error-trend learning speech recognition device and computer program |
-
2009
- 2009-01-29 JP JP2009017524A patent/JP5054711B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001092485A (en) * | 1999-09-10 | 2001-04-06 | Internatl Business Mach Corp <Ibm> | Method for registering speech information, method for determining recognized character string, speech recognition device, recording medium in which software product for registering speech information is stored, and recording medium in which software product for determining recognized character string is stored |
JP2001092494A (en) * | 1999-09-24 | 2001-04-06 | Mitsubishi Electric Corp | Device and method for recognizing speech, and speech recognition program recording medium |
JP2005208643A (en) * | 2004-01-20 | 2005-08-04 | Microsoft Corp | System and method for automatic speech recognition learning using user correction |
JP2006146008A (en) * | 2004-11-22 | 2006-06-08 | National Institute Of Advanced Industrial & Technology | Speech recognition device and method, and program |
JP2007226091A (en) * | 2006-02-27 | 2007-09-06 | Nippon Hoso Kyokai <Nhk> | Speech recognizer and speech recognizing program |
JP2008216341A (en) * | 2007-02-28 | 2008-09-18 | Nippon Hoso Kyokai <Nhk> | Error-trend learning speech recognition device and computer program |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012522278A (en) * | 2009-03-30 | 2012-09-20 | マイクロソフト コーポレーション | Adaptation to statistical language models |
JP2014521158A (en) * | 2011-07-14 | 2014-08-25 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | Text input method, apparatus, and system |
JP2014194774A (en) * | 2013-03-28 | 2014-10-09 | Estsoft Corp | Misspelling correction system and misspelling correction method |
JP2021078060A (en) * | 2019-11-12 | 2021-05-20 | パナソニックIpマネジメント株式会社 | Subtitle correction system, subtitle correction method, and computer program |
JP2022068817A (en) * | 2020-10-22 | 2022-05-10 | ネイバー コーポレーション | Method for improving voice recognition rate for voice recording, system, and computer readable recording medium |
JP7166370B2 (en) | 2020-10-22 | 2022-11-07 | ネイバー コーポレーション | Methods, systems, and computer readable recording media for improving speech recognition rates for audio recordings |
Also Published As
Publication number | Publication date |
---|---|
JP5054711B2 (en) | 2012-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6013951B2 (en) | Environmental sound search device and environmental sound search method | |
US8401840B2 (en) | Automatic spoken language identification based on phoneme sequence patterns | |
US8036894B2 (en) | Multi-unit approach to text-to-speech synthesis | |
US20120078607A1 (en) | Speech translation apparatus, method and program | |
US9594744B2 (en) | Speech transcription including written text | |
US20130018649A1 (en) | System and a Method for Generating Semantically Similar Sentences for Building a Robust SLM | |
GB2557714A (en) | Determining phonetic relationships | |
TW201517018A (en) | Speech recognition method and electronic apparatus using the method | |
JP2011065120A (en) | Voice recognition of all languages, and single letter input method utilizing voice recognition | |
US20140358533A1 (en) | Pronunciation accuracy in speech recognition | |
JP5753769B2 (en) | Voice data retrieval system and program therefor | |
CN110675866B (en) | Method, apparatus and computer readable recording medium for improving at least one semantic unit set | |
JP5054711B2 (en) | Speech recognition apparatus and speech recognition program | |
WO2011033834A1 (en) | Speech translation system, speech translation method, and recording medium | |
JP2013016011A (en) | Synonym dictionary generation device, method therefor, and program | |
JP5396530B2 (en) | Speech recognition apparatus and speech recognition method | |
JP5068225B2 (en) | Audio file search system, method and program | |
JP5160594B2 (en) | Speech recognition apparatus and speech recognition method | |
Tan et al. | A malay dialect translation and synthesis system: Proposal and preliminary system | |
Gutkin et al. | Building statistical parametric multi-speaker synthesis for bangladeshi bangla | |
KR100480790B1 (en) | Method and apparatus for continous speech recognition using bi-directional n-gram language model | |
Lamel et al. | Development of a speech-to-text transcription system for Finnish. | |
JP2005250071A (en) | Method and device for speech recognition, speech recognition program, and storage medium with speech recognition program stored therein | |
Yen et al. | Improvements to Embedding-Matching Acoustic-to-Word ASR Using Multiple-Hypothesis Pronunciation-Based Embeddings | |
GB2568902A (en) | System for speech evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110322 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120313 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120327 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120528 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120703 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120727 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5054711 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150803 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |