JP4741452B2 - Language model creation device, language model creation program, speech recognition device, and speech recognition program - Google Patents
Language model creation device, language model creation program, speech recognition device, and speech recognition program Download PDFInfo
- Publication number
- JP4741452B2 JP4741452B2 JP2006314121A JP2006314121A JP4741452B2 JP 4741452 B2 JP4741452 B2 JP 4741452B2 JP 2006314121 A JP2006314121 A JP 2006314121A JP 2006314121 A JP2006314121 A JP 2006314121A JP 4741452 B2 JP4741452 B2 JP 4741452B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- language model
- word
- probability
- partial character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
本発明は、音声認識の際に用いられる言語モデルを作成する言語モデル作成装置及び言語モデル作成プログラム並びに、当該言語モデルを用いて音声信号を認識する音声認識装置及び音声認識プログラムに関する。 The present invention relates to a language model creation device and a language model creation program for creating a language model used in speech recognition, and a speech recognition device and speech recognition program for recognizing a speech signal using the language model.
従来、音声認識装置に組みこまれ、音声信号(入力音声)を音声認識する際に用いられる辞書において、この辞書に登録できる単語数には制限があり、あらゆる単語を登録することは不可能であるので、一般的によく知られた単語や辞書を作成する際に利用する学習データの中で頻度の高い単語だけを登録することになる。このため、特殊な専門用語等は、当該辞書に登録されていない単語、すなわち、未知語になってしまう場合がある。 Conventionally, in a dictionary incorporated in a speech recognition device and used for speech recognition of speech signals (input speech), the number of words that can be registered in this dictionary is limited, and it is impossible to register any word. Therefore, only words with high frequency are registered in learning data used when creating a well-known word or dictionary. For this reason, special technical terms and the like may become words that are not registered in the dictionary, that is, unknown words.
例えば、「動物」に関する放送番組の音声を音声認識しようとした場合、読み上げられる特殊な動物名が未知語になることが多く、一例として、「オオアリクイ」、「オオスズメバチ」、「オオサンショウウオ」、「クロサンショウウオ」という4つの動物名が未知語となる場合を想定する。 For example, when trying to recognize the sound of a broadcast program related to "animals", the special animal names that are read out often become unknown words. For example, "Early anteater", "Early giant hornet", "Early salamander", " Assume that four animal names “Black Salamander” are unknown words.
この場合、これらの動物名について音声認識を可能にするためには、「オ」、「ア」、「リ」、「ク」、「イ」等の単語よりも短い「文字の単位」を、音声認識装置に組み込まれている辞書に登録するという手法が考えられるが、実際に音声認識実験を行ってみると、辞書に「文字の単位」を登録するだけでは認識精度があまり改善されないことが分かっている。 In this case, in order to enable speech recognition for these animal names, a “character unit” shorter than words such as “o”, “a”, “li”, “ku”, “b”, Although a method of registering in a dictionary built into the speech recognition device can be considered, when actually performing a speech recognition experiment, simply registering “units of characters” in the dictionary may not improve the recognition accuracy much. I know it.
また、音声認識装置に入力された音声信号に、辞書に登録されていない単語(未知語)が含まれていた場合に、当該単語を認識可能にする手法として、「連続音声認識システムniNjaへの未知語処理の導入」(非特許文献1)や「複数のマルコフモデルを用いた階層化言語モデルによる未登録語認識」(非特許文献2)が提案されている。 In addition, as a technique for enabling recognition of a word (unknown word) that is not registered in the dictionary in the speech signal input to the speech recognition apparatus, a method for enabling recognition of the word is described in “Continuous Speech Recognition System niNja”. "Introduction of unknown word processing" (Non-patent document 1) and "Unregistered word recognition by hierarchical language model using a plurality of Markov models" (Non-patent document 2) have been proposed.
この「連続音声認識システムniNjaへの未知語処理の導入」は、未知語の音韻系列を推定するために、辞書に登録されている単語(登録単語)の辞書引きプロセスと並行して音韻タイプライタを駆動するというものであるが、ここで用いられる言語モデルは文法で記述したものが想定されている。 This “introduction of unknown word processing to the continuous speech recognition system niNja” is a phonological typewriter in parallel with a dictionary lookup process for words (registered words) registered in a dictionary in order to estimate a phoneme sequence of unknown words. The language model used here is assumed to be written in grammar.
また、「複数のマルコフモデルを用いた階層化言語モデルによる未登録語認識」は、未知語を収集して性質が近い未知語同士をまとめてクラスに分類し、当該クラスごとに個別の言語モデルを割り当てることで性能の向上を図るものである。なお、この手法で用いられる言語モデルは、一般的なクラス言語モデルを改良した「複数マルコフモデルに基づく階層化言語モデル」と呼ばれるものが想定されている。
しかしながら、従来の手法において、音声信号(入力音声)中に未知語が含まれている場合、非特許文献1に開示されている手法では、言語モデルによる単語内や単語間の制約が少ないため、認識精度に限界があり、非特許文献2に開示されている手法では、高頻度の音節列2−gramを用いる方法であるが、あらゆるパターンの音節列2−gramを学習することは現実的に困難であるため、学習されていない未知語の認識ができず、未知語の前後の単語においても認識誤りが生じやすいという問題があり、音声認識装置のユーザの間では、未知語について正確に認識できなくとも、カナ文字で出力可能になることが望まれていた。
However, in the conventional method, when an unknown word is included in the speech signal (input speech), in the method disclosed in Non-Patent
そこで、本発明では、前記した問題を解決し、未知語についてカナ文字出力を可能にする言語モデルを作成する言語モデル作成装置及び言語モデル作成プログラム並びに未知語の前後の単語について認識誤りを少なくすることができる音声認識装置及び音声認識プラグラムを提供することを目的とする。 Therefore, in the present invention, the above-described problem is solved, and a language model creation apparatus and language model creation program for creating a language model that enables kana character output for unknown words, and recognition errors for words before and after the unknown word are reduced. An object of the present invention is to provide a voice recognition device and a voice recognition program that can be used.
前記課題を解決するため、請求項1に記載の言語モデル作成装置は、音声認識する際に用いられる辞書に登録されていない単語である未知語をカナ文字列で表現し、このカナ文字列の部分集合である部分文字列が出現する確率である出現確率及び部分文字列同士が連鎖する確率である状態遷移確率と、前記部分文字列とを対応付けることで、音声認識する際に前記未知語の言語スコアを得る言語モデルを作成する言語モデル作成装置であって、単語蓄積手段と、音節単位分割手段と、隠れマルコフモデル推定手段と、部分文字列選択手段と、正規化手段と、情報量基準値計算手段と、言語モデル作成手段と、を備える構成とした。
In order to solve the above problem, the language model creation device according to
かかる構成によれば、言語モデル作成装置は、単語蓄積手段にカナ文字列に書き下された複数の単語を蓄積しており、音節単位分割手段によって、単語蓄積手段に蓄積されている単語を音節単位に分割する。続いて、言語モデル作成装置は、隠れマルコフモデル推定手段によって、音節単位分割手段で分割された各単語に含まれる連続する音節の組み合わせである部分文字列それぞれの出現確率と状態遷移確率とを、隠れマルコフモデルの学習アルゴリズムに基づいて推定する。そして、言語モデル作成装置は、部分文字列選択手段によって、音節単位分割手段で分割した1音節からなる全ての部分文字列と、隠れマルコフモデル推定手段で推定した出現確率の確率値の最上位から所定数の部分文字列とを選択する。そして、言語モデル作成装置は、正規化手段によって、選択した部分文字列の確率値の和が1となるように、選択した部分文字列の確率値を正規化する。 According to this configuration, the language model creation device stores a plurality of words written in the kana character string in the word storage unit, and the syllable unit dividing unit converts the words stored in the word storage unit into syllables. Divide into units. Subsequently, the language model creating device uses the hidden Markov model estimating means to calculate the appearance probability and the state transition probability of each partial character string that is a combination of consecutive syllables included in each word divided by the syllable unit dividing means. Estimate based on learning algorithm of hidden Markov model. Then, the language model creation device uses the partial character string selection unit to determine all partial character strings composed of one syllable divided by the syllable unit dividing unit and the highest probability of the appearance probability estimated by the hidden Markov model estimation unit. A predetermined number of partial character strings are selected. Then, the language model creating apparatus normalizes the probability value of the selected partial character string so that the sum of the probability values of the selected partial character string becomes 1 by the normalizing means.
そして、言語モデル作成装置は、情報量基準値計算手段によって、正規手段で確率値を正規化した部分文字列について、予め設定した情報量基準の値を計算する。その後、言語モデル作成装置は、言語モデル作成手段によって、情報量基準値計算手段で計算された情報量基準の値が最小となる最適数の部分文字列の出現確率及び状態遷移確率と当該部分文字列とを対応付けた言語モデルを作成する。なお、言語モデル作成装置は、情報量基準値計算手段で計算した情報量基準の値が最小となる前記最適数を得るように、部分文字列選択手段で部分文字列の選択を変更することと、前記正規化手段で正規化することと、前記隠れマルコフモデル推定手段で部分文字列の出現確率と状態遷移確率とを、隠れマルコフモデルの学習アルゴリズムに基づいて再推定することとを繰り返している。 Then, the language model creation device calculates the information amount reference value set in advance for the partial character string whose probability value is normalized by the normalization means by the information amount reference value calculation means. After that, the language model creation device uses the language model creation means to generate the optimum number of partial character strings with the minimum information amount reference value calculated by the information amount reference value calculation means, the state transition probability, and the partial characters. Create a language model that associates columns. The language model creation device changes the selection of the partial character string by the partial character string selection unit so as to obtain the optimum number that minimizes the information amount reference value calculated by the information amount reference value calculation unit. The normalization by the normalization means, and the hidden Markov model estimation means re-estimates the appearance probability and state transition probability of the partial character string based on the learning algorithm of the hidden Markov model. .
この言語モデル作成装置では、未知語を表現するために用いるカナ文字列の単位(長さ)と、このカナ文字列が出現する確率及び遷移する確率とを言語モデルとして学習する際に、この言語モデルを学習(作成)することを、蓄積手段に蓄積したカナで書き下された複数の単語(大量のテキスト)について、長さが所定文字数以下の文字列の単位に最大の確率値を与えるように当該単語を分割する問題と捉えている。そして、言語モデル作成装置は、この問題を一般的な隠れマルコフモデルの推定問題とみなして解き、解いた結果から得られるカナ文字列の単位と確率値とを隠れマルコフモデルで表現することで、言語モデルを作成している。 In this language model creation device, when learning as a language model the unit (length) of a kana character string used to represent an unknown word, and the probability that this kana character string appears and the probability of transition, To learn (create) a model, the maximum probability value is given to a unit of a character string whose length is a predetermined number of characters or less for a plurality of words (a large amount of text) written in kana stored in the storage means. This is considered to be a problem of dividing the word. Then, the language model creation device solves this problem as a general hidden Markov model estimation problem, and expresses the unit and probability value of the kana character string obtained from the solved result by the hidden Markov model, A language model is being created.
請求項2に記載の言語モデル作成装置は、請求項1に記載の言語モデル作成装置において、前記情報量基準に赤池情報量基準又は最小記述長原理に基づく基準のいずれかを用いることを特徴とする。
The language model creation device according to
かかる構成によれば、言語モデル作成装置は、情報量基準に赤池情報量基準又は最小記述長原理に基づく基準のいずれかを用いることで、言語モデルのパラメータが最適化される。 According to this configuration, the language model creation apparatus optimizes the language model parameters by using either the Akaike information amount criterion or the criterion based on the minimum description length principle as the information amount criterion.
請求項3に記載の音声認識装置は、請求項1又は請求項2に記載の言語モデル作成装置で作成された言語モデルと、音声認識する際に用いられる辞書に登録されている単語である既知語について、Nグラムモデルの学習アルゴリズムに基づき推定した既知語言語モデルとを使用して、入力された音声信号の認識を行う音声認識装置であって、蓄積手段と、特徴抽出手段と、正解探索手段と、を備える構成とした。
The speech recognition apparatus according to
かかる構成によれば、音声認識装置は、蓄積手段に、言語モデル及び既知語言語モデルと、既知語の文字列及び発音と部分文字列の文字列及び発音に関する情報を収めた発音辞書と、音声信号の音韻韻律に関する情報をモデル化した音響モデルとを蓄積している。まず、音声認識装置は、特徴抽出手段によって、音声信号の言語的な特徴量及び音響的な特徴量を抽出する。そして、音声認識装置は、正解探索手段によって、特徴抽出手段で抽出した言語的な特徴量に基づいて、既知語の言語スコアである既知語言語スコアを既知語言語モデルからのNグラム確率値を用いて得、未知語の言語スコアである未知語言語スコアを言語モデルからの確率値及びNグラム確率値を用いて得、音響的な特徴量に基づいて音響モデルから音響スコアを得て、得られた既知語言語スコアと音響スコアとの合計と、未知語言語スコアと音響スコアとの合計とを比較した結果に基づいて、発音辞書に登録されている文字列を探索して、探索した文字列を認識結果として出力する。 According to such a configuration, the speech recognition apparatus includes, in the storage unit, a language model and a known word language model, a pronunciation dictionary that stores information on a character string and pronunciation of a known word and a character string and pronunciation of a partial character string, a voice It stores an acoustic model that models information about the phonological prosody of the signal. First, the speech recognition apparatus extracts the linguistic feature amount and the acoustic feature amount of the speech signal by the feature extraction unit. Then, the speech recognition apparatus obtains an N-gram probability value from the known word language model from the known word language score, which is the language score of the known word, based on the linguistic feature amount extracted by the feature extraction means by the correct answer searching means. An unknown word language score, which is a language score of an unknown word, is obtained using a probability value from a language model and an N-gram probability value, and an acoustic score is obtained from an acoustic model based on an acoustic feature amount. Based on the result of comparing the sum of the known word language score and the acoustic score and the sum of the unknown language score and the acoustic score, the character string registered in the pronunciation dictionary is searched, and the searched character Output columns as recognition results.
なお、この音声認識装置は、一般的なNグラム言語モデル(Nグラムモデル)を用いた大語彙連続音声認識システムを前提としたものであり、従来のNグラムモデルを用いた音声認識装置の簡易な改修によって構成されたものである。また、この音声認識装置では、未知語を認識するためのカナ文字列を出力する隠れマルコフモデルによる未知語言語モデルと、既知語を認識するための既知語言語モデル(一般的なNグラムモデル)とを搭載し、音声信号の音声認識を実行する際には、既知語のスコアについてNグラムモデルを利用して計算し、未知語のスコアについてNグラムモデルと隠れマルコフモデルの組み合わせによって計算し、得られたスコアの値を利用して認識結果を推定しているので、Nグラムモデルの性能を劣化させることなく、音声信号において、未知語を含む音声区間についても認識精度を低下させることがない。 This speech recognition device is premised on a large vocabulary continuous speech recognition system using a general N-gram language model (N-gram model), and is simplified from the conventional speech recognition device using the N-gram model. It is composed by a simple renovation. In this speech recognition apparatus, an unknown word language model based on a hidden Markov model that outputs a kana character string for recognizing an unknown word, and a known word language model (a general N-gram model) for recognizing a known word. When performing speech recognition of speech signals, the score of a known word is calculated using an N-gram model, the score of an unknown word is calculated by a combination of an N-gram model and a hidden Markov model, Since the recognition result is estimated using the obtained score value, the accuracy of the speech signal including unknown words is not reduced in the speech signal without degrading the performance of the N-gram model. .
請求項4に記載の音声認識装置は、請求項3に記載の音声認識装置において、前記正解探索手段で出力された認識結果に含まれている未知語を表現したカナ文字列を、カナ漢字文字列に変換するカナ漢字文字列変換手段を備えることを特徴とする。
The speech recognition apparatus according to
かかる構成によれば、音声認識装置は、カナ漢字文字列変換手段によって、カナ文字列を、漢字を含めたカナ漢字文字列に変換して出力することができ、単にカナ文字が羅列するよりは、漢字が含まれることで未知語の適切な推測が可能になる。 According to such a configuration, the speech recognition apparatus can convert a kana character string into a kana-kanji character string including kanji characters by the kana-kanji character string conversion unit, and output the kana character string. Including kanji makes it possible to properly guess unknown words.
請求項5に記載の言語モデル作成プログラムは、音声認識する際に用いられる辞書に登録されていない単語である未知語をカナ文字列で表現し、このカナ文字列の部分集合である部分文字列が出現する確率である出現確率及び部分文字列同士が連鎖する確率である状態遷移確率と、前記部分文字列とを対応付けることで、音声認識する際に前記未知語の言語スコアを得る言語モデルを作成するために、前記カナ文字列に書き下された単語を複数蓄積する単語蓄積手段を備えたコンピュータを、音節単位分割手段、隠れマルコフモデル推定手段、部分文字列選択手段、正規化手段、情報量基準値計算手段、言語モデル作成手段、として機能させる構成とした。
The language model creation program according to
かかる構成によれば、言語モデル作成プログラムは、単語蓄積手段に蓄積されている単語を音節単位に分割し、隠れマルコフモデル推定手段によって、音節単位分割手段で分割された各単語に含まれる音節の連続する組み合わせである部分文字列それぞれの出現確率と状態遷移確率とを、隠れマルコフモデルの学習アルゴリズムに基づいて推定する。そして、言語モデル作成プログラムは、部分文字列選択手段によって、音節単位分割手段で分割された1音節からなる全ての部分文字列と、隠れマルコフモデル推定手段で推定された出現確率の確率値の最上位から所定数の部分文字列とを選択し、正規化手段によって、部分文字列選択手段で選択した部分文字列の確率値の和が1となるように、選択した部分文字列の前記確率値を正規化する。そして、言語モデル作成プログラムは、情報量基準値計算手段によって、正規化手段で確率値を正規化した部分文字列について、予め設定した情報量基準の値を計算し、言語モデル作成手段によって、情報量基準値計算手段で計算された情報量基準の値が最小となる部分文字列選択手段で選択された部分文字列について、当該部分文字列の出現確率及び状態遷移確率と当該部分文字列とを対応付けた言語モデルを作成する。 According to such a configuration, the language model creation program divides the words accumulated in the word accumulation unit into syllable units, and the hidden Markov model estimation unit divides the syllables included in each word divided by the syllable unit division unit. The appearance probability and state transition probability of each partial character string that is a continuous combination are estimated based on the learning algorithm of the hidden Markov model. Then, the language model creation program uses the partial character string selection unit to calculate the maximum of all partial character strings composed of one syllable divided by the syllable unit dividing unit and the probability value of the appearance probability estimated by the hidden Markov model estimation unit. The probability value of the selected partial character string is selected such that the sum of the probability values of the partial character strings selected by the partial character string selecting means is 1 by selecting a predetermined number of partial character strings from the top and normalizing means. Is normalized. Then, the language model creation program calculates a preset information amount reference value for the partial character string whose probability value has been normalized by the normalization unit by the information amount reference value calculation unit, and the language model creation unit calculates the information For the partial character string selected by the partial character string selection means that minimizes the information amount reference value calculated by the quantity reference value calculation means, the appearance probability and state transition probability of the partial character string and the partial character string are calculated. Create the associated language model.
請求項6に記載の音声認識プログラムは、請求項1又は請求項2に記載の言語モデル作成装置で作成された言語モデルと、音声認識する際に用いられる辞書に登録されている単語である既知語について、Nグラムモデルの学習アルゴリズムに基づき推定した既知語言語モデルとを使用して、入力された音声信号の認識を行うために、前記言語モデル及び前記既知語言語モデルと、前記既知語の文字列及び発音と部分文字列の文字列及び発音に関する情報を収めた発音辞書と、音声信号の音韻韻律に関する情報をモデル化した音響モデルとを蓄積している蓄積手段を備えたコンピュータを、特徴抽出手段、正解探索手段、として機能させる構成とした。
The speech recognition program according to
かかる構成によれば、音声認識プログラムは、特徴抽出手段によって、音声信号の言語的な特徴量及び音響的な特徴量を抽出し、正解探索手段によって、特徴抽出手段で抽出した言語的な特徴量に基づいて、既知語の言語スコアである既知語言語スコアを既知語言語モデルからのNグラム確率値を用いて得、未知語の言語スコアである未知語言語スコアを言語モデルからの確率値及びNグラム確率値を用いて得、音響的な特徴量に基づいて音響モデルから音響スコアを得て、得られた既知語言語スコアと音響スコアとの合計と、未知語言語スコアと音響スコアとの合計とを比較した結果に基づいて、発音辞書に登録されている文字列を探索して、探索した文字列を認識結果として出力する。 According to this configuration, the speech recognition program extracts the linguistic feature amount and the acoustic feature amount of the speech signal by the feature extraction unit, and the linguistic feature amount extracted by the feature extraction unit by the correct answer search unit. A known word language score that is a language score of a known word is obtained using an N-gram probability value from a known word language model, and an unknown word language score that is a language score of an unknown word is obtained from the language model N-gram probability value is used, an acoustic score is obtained from the acoustic model based on the acoustic feature quantity, and the sum of the obtained known language language score and acoustic score, and the unknown language language score and acoustic score A character string registered in the pronunciation dictionary is searched based on the comparison result with the total, and the searched character string is output as a recognition result.
請求項1、5に記載の発明によれば、未知語を表現するために用いるカナ文字列について、所定文字数以下の文字列に最大の確率値を与えるように単語を分割する問題と捉え、この問題を隠れマルコフモデルの推定問題とみなして解き、解いた結果から得られるカナ文字列の単位と確率値とを隠れマルコフモデルで表現することで、当該未知語についてカナ文字出力を可能にする言語モデルを作成することができる。 According to the first and fifth aspects of the present invention, the kana character string used to represent the unknown word is regarded as a problem of dividing the word so as to give the maximum probability value to the character string having a predetermined number of characters or less. A language that enables Kana character output for unknown words by solving the problem as an estimation problem of a hidden Markov model and expressing the unit and probability value of the Kana character string obtained from the result of solving as a hidden Markov model A model can be created.
請求項2に記載の発明によれば、情報量基準に一般的な赤池情報量基準又は最小記述長原理のいずれかを用いることで、汎用的に言語モデルのパラメータを最適化することができる。 According to the second aspect of the present invention, by using either the general Akaike information criterion or the minimum description length principle as the information criterion, the parameters of the language model can be optimized universally.
請求項3、6に記載の発明によれば、既知語について既知語言語モデルを用い、未知語について未知語言語モデルを用いることで、未知語の前後の単語について認識誤りを少なくすることができる。 According to the third and sixth aspects of the invention, it is possible to reduce recognition errors for the words before and after the unknown word by using the known word language model for the known word and using the unknown word language model for the unknown word. .
請求項4に記載の発明によれば、カナ文字列を、漢字を含めたカナ漢字文字列に変換して出力することができ、単にカナ文字が羅列するよりは、漢字が含まれることで未知語の適切な推測を行うことができる。 According to the fourth aspect of the present invention, a kana character string can be converted into a kana / kanji character string including kanji characters and output, and it is unknown that kana characters are included rather than simply enumerating kana characters. Appropriate guesses of words can be made.
次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
図1は音声認識装置(言語モデル作成装置を内包)のブロック図である。この図1に示すように、音声認識装置1は、言語モデル作成装置3を備えると共に、特徴抽出手段5と、蓄積手段7と、正解探索手段9と、カナ漢字文字列変換手段11とを備えている。この音声認識装置1は、音声信号(入力音声)を入力として、認識結果(認識単語列)を出力するものである。この音声認識装置1の説明に先立ち、言語モデル作成装置3の説明を行う。
Next, embodiments of the present invention will be described in detail with reference to the drawings as appropriate.
FIG. 1 is a block diagram of a speech recognition device (including a language model creation device). As shown in FIG. 1, the
(言語モデル作成装置の構成)
言語モデル作成装置3は、辞書(発音辞書)に登録されていない単語である未知語を、カナ文字列として出力可能な言語モデル(未知語言語モデル)を、隠れマルコフモデルとして作成するもので、単語蓄積手段13と、音節単位分割手段15と、隠れマルコフモデル推定手段17と、部分文字列選択手段19と、正規化手段21と、情報量基準値計算手段23と、言語モデル作成手段25とを備えている。
(Configuration of language model creation device)
The language
単語蓄積手段13は、カナ文字(単にカナという)で書き下された大量の単語データ(又は学習用のテキストデータ)を蓄積しているもので、一般的な記録媒体(ハードディスク、メモリ等)によって構成されている。
The
音節単位分割手段15は、単語蓄積手段13に蓄積されている単語を、音節単位に分割するものである。例えば、単語が「オオアリクイ」であった場合、「オ」、「オ」、「ア」、「リ」、「ク」、「イ」と分割する。
The syllable
隠れマルコフモデル推定手段17は、音節単位分割手段15で分割された各単語に含まれる音節の連続する組み合わせである部分文字列(サブワード)それぞれについて、出現確率と状態遷移確率とを、隠れマルコフモデルの学習アルゴリズムに基づいて推定するものである。例えば、単語が「アリクイ」の場合、「ア」、「リ」、「ク」、「イ」、「アリ」、「リク」、「クイ」、「アリク」、「リクイ」、「アリクイ」の10個の部分文字列について、出現確率と状態遷移確率とを推定する。 The hidden Markov model estimating means 17 calculates the appearance probability and the state transition probability for each partial character string (subword) that is a continuous combination of syllables included in each word divided by the syllable unit dividing means 15. It is estimated based on the learning algorithm. For example, if the word is "anteater", "a", "li", "ku", "i", "ant", "riku", "quii", "antique", "liquis", "anteater" The appearance probability and the state transition probability are estimated for 10 partial character strings.
ここで、単語蓄積手段13に蓄積されている大量の単語データ(又は学習用のテキストデータ)の中の単語の集合をVと記述し、このVに含まれる単語をwと記述し、この単語wに含まれる部分文字列をoと記述する。そして、単語wの部分文字列の集合(単語wの読みから得られたカナ文字列の集合)を記号列o1 Tw=o1,・・・,oTwであるとした場合、隠れマルコフモデルの学習アルゴリズムに基づいて推定するとは、条件付確率P(o1 Tw|M)を全ての単語について考慮した次に示す数式(1)を最大にするような言語モデルM(未知語言語モデル)を推定することである。すなわち、言語モデルMは、「全ての未知語(w←V)の出現確率を記録したもの」である。 Here, a set of words in a large amount of word data (or learning text data) stored in the word storage means 13 is described as V, a word included in this V is described as w, and this word The partial character string included in w is described as o. If a set of partial character strings of the word w (a set of kana character strings obtained from the reading of the word w) is a symbol string o 1 Tw = o 1 ,..., O Tw , a hidden Markov model The language model M (unknown language model) that maximizes the following formula (1) considering the conditional probability P (o 1 Tw | M) for all words Is to estimate. That is, the language model M is “recording the appearance probabilities of all unknown words (w ← V)”.
ここで言語モデルMの一例を、図2を参照して説明する。この図2に示すように、言語モデルMとして、left−to−right型の隠れマルコフモデル(HMM)を想定する。この図2では、記号列o1 Twが入力される前の初期状態が「状態0」であることを前提とし、この言語モデルMが、o1,o2,・・・,という順で一つずつ記号を出力していき、最終の記号oTwが出力された後、「状態S」(S=3)の最終状態に遷移して終了することを示している。なお、時刻tまでにt個の記号o1 tが出力された時点では、状態遷移確率aijと、「状態1」と「状態2」で得られるため生成可能な任意の部分記号列oの出現確率とによりt個の記号o1 tの出現確率を計算することができる。
Here, an example of the language model M will be described with reference to FIG. As shown in FIG. 2, a left-to-right type hidden Markov model (HMM) is assumed as the language model M. In FIG. 2, it is assumed that the initial state before the symbol string o 1 Tw is input is “
そして、各状態から出力される記号列o1 Twの任意の部分記号列oの長さの最大値をNとした場合、言語モデルMが時刻tまでにt個の記号o1 tを生成して状態j(j≦S)に到達する前向き確率αt (w)(j)は、次に示す数式(2)により再帰的に計算することができる。以下、単語の集合Vに含まれる単語wそれぞれについて、得られる確率(α、β、γ)を区別するために、添え字を付すこととする。 When the maximum value of the length of an arbitrary partial symbol string o in the symbol string o 1 Tw output from each state is N, the language model M generates t symbols o 1 t by time t. The forward probability α t (w) (j) to reach the state j (j ≦ S) can be recursively calculated by the following equation (2). Hereinafter, in order to distinguish the probabilities (α, β, γ) obtained for each word w included in the word set V, a subscript is added.
この数式(2)において、αの初期値は、t=0,j=0のときαt (w)(j)=1、t=0,j≠0のときαt (w)(j)=0とする。ちなみに、一般的な前向き確率の計算式では、各状態から出力される記号(シンボル)は、otだけを考慮するのが通常であるが、数式(2)では、各状態からot−1 t、ot−2 t、・・・、ot−(N−1) tという長さN以下の任意の長さの部分文字列が出力されることを考慮している点に特徴がある。 In Equation (2), the initial value of α is α t (w) (j) = 1 when t = 0, j = 0, and α t (w) (j) when t = 0, j ≠ 0. = 0. Incidentally, in the formula for general forward probability, the symbol (symbol) output from each state is normally that considering only o t, the equation (2), o t-1 from the state t , o t−2 t ,..., o t− (N−1) t is characterized by considering that a partial character string having an arbitrary length of length N or less is output. .
また、数式(2)の前向き確率αt (w)(j)の定義より、P(o1 Tw|M)は次に示す数式(3)によって求められる。 Further, P (o 1 Tw | M) is obtained by the following equation (3) from the definition of the forward probability α t (w) (j) of the equation (2).
なお、この数式(3)が時刻Twでなく、時刻Tw+1におけるαの和から導かれる理由は、図2に示したHMMの例が、最終の記号oTwが出力された後に、時刻Tw+1において、「状態S」の最終状態に到達するように定義しているためである。ちなみに、本発明と類似した手法として、「ICASSP 1995 pp.169−172」によるものがあるが、この類似した手法での前提は「状態iにおいて固定長nの記号列が出力され、全ての状態遷移確率は等確率」となっており、本発明との違いは、各状態から出力される記号列oの長さがN以下の可変長であり、状態遷移確率が等確率に限定していない点である。 Note that the reason why the equation (3) is derived not from the time Tw but from the sum of α at the time Tw + 1 is that the example of the HMM shown in FIG. 2 is obtained at the time Tw + 1 after the final symbol o Tw is output. This is because it is defined to reach the final state of “state S”. Incidentally, as a method similar to the present invention, there is a method based on “ICASSP 1995 pp.169-172”, but the premise of this similar method is that a symbol string of fixed length n is output in state i, and all states The transition probability is “equal probability”. The difference from the present invention is that the length of the symbol string o output from each state is a variable length of N or less, and the state transition probability is not limited to the equal probability. Is a point.
次に、前向き確率αt (w)(j)の計算方法の具体例を、図3を参照して説明する。
この図3は、トレリス(トレリス線図)と呼ばれているものであり、数式(2)において、t=4,j=2のときの前向き確率αt (w)(j)の値を計算する様子を示したものである。なお、この図3において、HMM(言語モデルM)に入力した記号列(文字列)o1 Twは、“abcde”であり、各状態(状態1と状態2)において出力可能な部分記号列(部分文字列)の長さの最大値Nを3と設定している。
Next, a specific example of a method for calculating the forward probability α t (w) (j) will be described with reference to FIG.
This FIG. 3 is called a trellis (trellis diagram), and in Formula (2), the value of the forward probability α t (w) (j) when t = 4 and j = 2 is calculated. It shows how to do. In FIG. 3, a symbol string (character string) o 1 Tw input to the HMM (language model M) is “abcde”, and a partial symbol string (
ここで、この記号列(文字列)o1 Twを単語wとみなして、Tw=3とした場合の例で示すと、w=[o1o2o3]、[o1][o2o3]、[o1o2][o3]、[o1][o2][o3]([]は部分文字列であることを示す)のようなパターンが存在することを前提としている。 Here, when this symbol string (character string) o 1 Tw is regarded as a word w and Tw = 3, an example is shown in which w = [o 1 o 2 o 3 ], [o 1 ] [o 2 o 3 ], [o 1 o 2 ] [o 3 ], and [o 1 ] [o 2 ] [o 3 ] ([] indicates a partial character string). It is said.
この図3に示すように、t=4のときに、HMM(言語モデルM)に、4番目の文字dが入力され、このとき、各状態からはdからN(=3)以内において時刻をさかのぼって入力された文字dの確率がP(d)、文字列cdの確率がP(cd)、文字列bcdの確率がP(bcd)でそれぞれ出力される。 As shown in FIG. 3, when t = 4, the fourth character d is input to the HMM (language model M), and at this time, the time is set within d (= 3) from d from each state. The probability of the character d retroactively input is P (d), the probability of the character string cd is P (cd), and the probability of the character string bcd is P (bcd).
文字dを出力する直前の時刻がt=3であり、文字列cdを出力する直前の時刻がt=2であり、文字列bcdを出力する直前の時刻がt=1であり、それぞれの文字又は文字列が状態1及び状態2の両方において、出力された後に、現在の状態j=2に至っている。これらを考慮して、t=4,j=2のときの前向き確率αt (w)(j)は、直前の時刻の各状態におけるαの値を利用することにより、次に示す数式(4)のように計算される。
The time immediately before outputting the character d is t = 3, the time immediately before outputting the character string cd is t = 2, and the time immediately before outputting the character string bcd is t = 1. Or, after the character string is output in both the
この数式(4)では、数式(2)と同様にして、時刻τでoτ Twを生成して状態i(≦S)に到達する後向き確率βτ (w)(i)は、次に示す数式(5)によって、再帰的に計算することができる。 In Equation (4), as in Equation (2), the backward probability β τ (w) (i) of generating o τ Tw at time τ and reaching the state i (≦ S) is as follows: It can be calculated recursively by the equation (5).
この数式(5)において、βの初期値は、t=Tw+1,j=Sのときβt (w)(j)=1、t=Tw+1,j≠0のときβt (w)(j)=0とする。なお、この数式(5)においても、数式(2)と同様に、otだけを考慮するのではなく、各状態からot−1 t、ot−2 t、・・・、ot−(N−1) tという長さN以下の任意の長さの部分文字列が出力されることを考慮している点に特徴がある。 In this formula (5), the initial value of beta is when t = Tw + 1, j = S β t (w) (j) = 1, t = Tw + 1, when j ≠ 0 β t (w) (j) = 0. Also in this formula (5), similarly to Equation (2), o t only instead of considering, o t-1 t from each state, o t-2 t, ··· , o t- (N-1) It is characterized in that it takes into account that a partial character string having an arbitrary length less than or equal to the length N of t is output.
次に、記号列o1 Tw=o1,・・・,oTwの出力に対し、状態iから状態jへの遷移が時刻tにおいて生じた確率γt (w)(i,j)を次に示す数式(6)によって求める。 Next, with respect to the output of the symbol string o 1 Tw = o 1 ,..., O Tw , the probability γ t (w) (i, j) that the transition from the state i to the state j occurred at time t is It calculates | requires by Numerical formula (6) shown in.
また、この数式(6)において、γt (w)(i)を次に示す数式(7)のように定義する。このγt (w)(i)は、時刻tに状態iに滞在した確率である。 Further, in this equation (6), γ t (w) (i) is defined as the following equation (7). This γ t (w) (i) is the probability of staying in state i at time t.
γt(i,j)及びγt (w)(i)を用いて、HMMの遷移確率(状態遷移確率)のパラメータaijの再推定を次に示す数式(8)のように行うことができる。 Using γ t (i, j) and γ t (w) (i), reestimation of the parameter a ij of the transition probability (state transition probability) of the HMM can be performed as shown in the following equation (8). it can.
また、記号o1 Twから生成される長さn(≦N)の任意の部分文字列をoとしたとき、HMMの状態jにおける出現確率の再推定は、次に示す数式(9)のように行うことができる。 Further, when an arbitrary partial character string of length n (≦ N) generated from the symbol o 1 Tw is set to o, the re-estimation of the appearance probability in the state j of the HMM is represented by the following formula (9). Can be done.
なお、実際に、HMMの遷移確率(状態遷移確率)aijと出現確率Pj(o)を求める際には、後記するように、aijとPj(o)に適当な初期値を設定し、数式(8)と数式(9)とを用いて、各パラメータの再推定を繰り返し実行することになる。図1に戻る。 Actually, when determining the transition probability (state transition probability) a ij and the appearance probability P j (o) of the HMM, appropriate initial values are set in a ij and P j (o) as described later. Then, the re-estimation of each parameter is repeatedly executed using the formula (8) and the formula (9). Returning to FIG.
以上のように、隠れマルコフモデル推定手段17では、これらの処理によって、HMMの各パラメータの確率値(出現確率の確率値及び状態遷移確率の確率値)を推定している。つまり、隠れマルコフモデル推定手段17では、音節単位分割手段15で分割された単語データ(学習用のテキストデータ)に含まれる長さN以下の全てのカナ文字列(部分文字列、サブワード)の集合が入力された場合に、各状態におけるサブワードの出現確率と状態遷移確率(状態間の遷移確率)とを求めている。 As described above, the hidden Markov model estimation means 17 estimates the probability values (probability value of appearance probability and probability value of state transition probability) of each parameter of the HMM through these processes. That is, the hidden Markov model estimation means 17 is a set of all kana character strings (partial character strings, subwords) of length N or less included in the word data (learning text data) divided by the syllable unit dividing means 15. Is input, the subword appearance probability and state transition probability (transition probability between states) in each state are obtained.
部分文字列選択手段19は、音節単位分割手段15で分割された1音節の全ての部分文字列と、隠れマルコフモデル推定手段17で推定されたHMMの各パラメータにおける出現確率の確率値が上位となる所定文字数の部分文字列とを選択するものである。 The partial character string selection means 19 is such that all the partial character strings of one syllable divided by the syllable unit dividing means 15 and the probability value of the appearance probability in each parameter of the HMM estimated by the hidden Markov model estimation means 17 are higher. A partial character string having a predetermined number of characters is selected.
正規化手段21は、1音節の部分文字列の出現確率の確率値と所定文字数の部分文字列の出現確率の確率値との和が1となるように、部分文字列選択手段19で選択された部分文字列の確率値を正規化するものである。なお、この正規化手段21は、情報量基準値計算手段23による計算結果(情報量基準値)によって、隠れマルコフモデル推定手段17で推定されたサブワードの出現確率の確率値が上位となる所定文字数が変更されることにより、繰り返し実行される。 The normalization means 21 is selected by the partial character string selection means 19 so that the sum of the probability value of the appearance probability of a partial character string of one syllable and the probability value of the appearance probability of a partial character string of a predetermined number of characters is 1. The probability value of the substring is normalized. Note that the normalizing means 21 uses the calculation result (information quantity reference value) by the information amount reference value calculating means 23 to determine the number of predetermined characters in which the probability value of the appearance probability of the subword estimated by the hidden Markov model estimating means 17 is higher. It is repeatedly executed by changing.
情報量基準値計算手段23は、最小記述長原理(MDL)に基づいて、正規化手段21で正規化されたHMMの情報量基準値を計算するものである。この情報量基準値計算手段23では、次に示す数式(10)により、情報量基準値を計算している。そして、数式(10)によって計算された情報量基準値が最小になるとき、最適な言語モデルのパラメータの選択がなされたことになる。
The information amount reference
この数式(10)において、Xiが単語蓄積手段13に蓄積されるすべての単語w(単語データ)(=o1 Tw)であり、Nxがこの単語wの個数であり、言語モデルMのパラメータ数がmである。そして、このパラメータ数mが単語wから生成される長さN以下のカナ文字列(サブワード)oの数である。 In this equation (10), Xi is all the words w (word data) (= o 1 Tw ) stored in the word storage means 13, Nx is the number of the words w, and the number of parameters of the language model M Is m. The parameter number m is the number of kana character strings (subwords) o having a length N or less generated from the word w.
つまり、この情報量基準値計算手段23では、計算した情報量基準値を記憶しておき、隠れマルコフモデル推定手段17で出現確率及び状態遷移確率が再推定され、正規化手段21で再正規化され、繰り返し情報量基準値を計算していくことで、最小の情報量基準値が得られた言語モデルのパラメータを特定することになる。 That is, the information amount reference value calculation means 23 stores the calculated information amount reference value, the hidden Markov model estimation means 17 re-estimates the appearance probability and the state transition probability, and the normalization means 21 re-normalizes. Then, by repeatedly calculating the information amount reference value, the parameter of the language model from which the minimum information amount reference value is obtained is specified.
なお、この実施の形態では、情報量基準値計算手段23は、最小記述長原理(MDL)に基づいて、情報量基準値を計算しているが、これに限定されず、例えば、赤池情報量基準(AIC)に基づいて、情報量基準値を計算してもよい。 In this embodiment, the information amount reference value calculation means 23 calculates the information amount reference value based on the minimum description length principle (MDL). However, the present invention is not limited to this, and for example, the Akaike information amount The information amount reference value may be calculated based on the reference (AIC).
言語モデル作成手段25は、情報量基準値計算手段23で得られた言語モデルのパラメータから言語モデルを作成し、未知語言語モデルとして蓄積手段7に出力するものである。 The language model creation means 25 creates a language model from the parameters of the language model obtained by the information amount reference value calculation means 23 and outputs it to the storage means 7 as an unknown language language model.
ここで、隠れマルコフモデル推定手段17、部分文字列選択手段19、正規化手段21及び情報量基準値計算手段23で繰り返し実行される言語モデルのパラメータの特定の仕方(パラメータの最適化の手順(1)〜(7))について説明する。
Here, the method of specifying the parameters of the language model repeatedly executed by the hidden Markov model estimating means 17, the partial character
(1)隠れマルコフモデル推定手段17において、数式(8)及び数式(9)により、HMMの各パラメータの確率値(出現確率の確率値及び状態遷移確率の確率値)を推定する。
(2)部分文字列選択手段19において、隠れマルコフモデル推定手段17で推定された出現確率の確率値により上位m個のパラメータを選択する(1音節の部分文字列と出現確率の確率値が上位となる所定文字数の部分文字列とを選択する)。
(1) The hidden Markov model estimation means 17 estimates the probability values (probability value of appearance probability and probability value of state transition probability) of each parameter of the HMM by using Equation (8) and Equation (9).
(2) In the partial character string selection means 19, the top m parameters are selected based on the probability value of the appearance probability estimated by the hidden Markov model estimation means 17 (the partial character string of one syllable and the probability value of the appearance probability are higher). And a substring of a predetermined number of characters.
(3)正規化手段21において、m個のパラメータの出現確率の確率値の和が1になるように、確率値の正規化を行う。
(4)隠れマルコフモデル推定手段17において、正規化手段21で正規化したパラメータを初期値として、数式(8)及び数式(9)により、HMMの各パラメータの確率値(出現確率の確率値及び状態遷移確率の確率値)を再推定する。
(3) The normalizing means 21 normalizes the probability values so that the sum of the probability values of the appearance probability of m parameters becomes 1.
(4) In the hidden Markov model estimation means 17, the parameters normalized by the normalization means 21 are used as initial values, and the probability values (probability values of appearance probabilities and Reestimate the probability value of the state transition probability.
(5)情報量基準値計算手段23において、数式(10)により、情報量基準値(MDL)を計算する。
(6)正規化手段21において、パラメータ数mを変えながら、(1)〜(5)の手順を繰り返して、情報量基準値計算手段23において、パラメータ数mの値と情報量基準値(MDL)との関係を求め、情報量基準値(MDL)が最小となるときのmの値を特定する。
(5) The information amount reference value calculation means 23 calculates the information amount reference value (MDL) according to the mathematical formula (10).
(6) The normalization means 21 changes the number of parameters m, repeats the procedures (1) to (5), and the information amount reference value calculation means 23 determines the value of the parameter number m and the information amount reference value (MDL). ) To determine the value of m when the information reference value (MDL) is minimum.
(7)情報量基準値計算手段23において、m個のパラメータを、情報量基準値(MDL)から得た最適なパラメータとみなして、言語モデル作成手段25に出力する。 (7) The information amount reference value calculation means 23 regards m parameters as optimum parameters obtained from the information amount reference value (MDL) and outputs them to the language model creation means 25.
なお、正規化手段21において、上位m個のパラメータを選択する際(1音節の部分文字列と出現確率の確率値が上位となる所定文字数の部分文字列とを選択する際)に、選択された部分文字列(サブワード)の組み合わせでは、表現できない単語が発生する可能性がある。すなわち、数式(10)のP(Xi|M)の値が0になるために、この数式(10)による計算が不能になる場合がある。そこで、この言語モデル作成装置3では、パラメータとして、あらゆる単語を表現できる部分文字列(サブワード)の最小単位を、出現確率によらずに最低限保持しておく必要が生じる。
The normalization means 21 selects the top m parameters (when selecting a partial character string of one syllable and a partial character string of a predetermined number of characters having a higher probability of appearance probability). The combination of partial character strings (subwords) may generate words that cannot be expressed. That is, since the value of P (Xi | M) in Expression (10) becomes 0, the calculation according to Expression (10) may be disabled. Therefore, in this language
部分文字列の理論上の最小単位は「1文字」であり、部分文字列の数はこの「1文字」を順に組み合わせた全パターン数になる。しかし、音声認識装置1で処理される際に、部分文字列が音素と対応付けられている必要があるため、部分文字列の最小単位を「1文字」ではなく「1音節」(例えば、“キャ”等の拗音や、“アー”等の長音は分割しない)とし、この場合の部分文字列の数は「1音節」を順に組み合わせた全パターンの数になる。
The theoretical minimum unit of the partial character string is “1 character”, and the number of partial character strings is the total number of patterns obtained by sequentially combining the “1 character”. However, since the partial character string needs to be associated with the phoneme when processed by the
また、ここで参考までに、言語モデル作成装置3によって、HMM(言語モデル)を作成した例(パラメータ選択を行う実験)について説明する。
単語蓄積手段13に蓄積する単語データとして、日本語の学習テキストから得られた単語の読みを用い、言語モデル作成装置3によって、HMM(言語モデル)のパラメータ選択を行う実験(部分文字列のパターンを選択する実験)をしたところ、約30,000個存在した部分文字列のパターンから約8300個の部分文字列のパターンが選択され、結果としてHMM(言語モデル)のパターン数を全パターン数の約3割に削減することができた。
For reference, an example (an experiment for performing parameter selection) in which an HMM (language model) is created by the language
An experiment (partial character string pattern) in which the language
さらに具体的な単語の例に挙げて説明する。「オオアリクイ」、「オオスズメバチ」、「オオサンショウウオ」、「クロサンショウウオ」という単語の場合、部分文字列の最大長N=5として作成したHMMのアルゴリズムを用いて、出現確率が最大となるように、これらの単語を言語モデル作成装置3によって、分割する実験を行ったところ、「オオ|アリクイ」、「オオ|スズメバチ」、「オオサ|ンショウウオ」、「クロ|サ|ンショウウオ」のように分割された。
Further explanation will be given using specific word examples. In the case of the words "Early anteater", "Early giant hornet", "Early salamander", "Black salamander", using the HMM algorithm created with the maximum length of the partial character string N = 5, the appearance probability is maximized, As a result of an experiment for dividing these words by the language
この言語モデル作成装置3によれば、未知語を表現するために用いるカナ文字列について、所定文字数以下の文字列に最大の確率値を与えるように単語を分割する問題と捉え、隠れマルコフモデル推定手段17によって、この問題を隠れマルコフモデルの推定問題とみなして解き、解いた結果から得られるカナ文字列の単位と確率値とを隠れマルコフモデルで表現することで、当該未知語についてカナ文字出力を可能にする言語モデルを作成することができる。
According to this language
また、この言語モデル作成装置3によれば、情報量基準値計算手段23によって、情報量基準に一般的な赤池情報量基準又は最小記述長原理に基づく基準のいずれかを用いることで、汎用的に言語モデルのパラメータを最適化することができる。
In addition, according to the language
(音声認識装置の構成)
これより、音声認識装置1の他の構成について説明する。
特徴抽出手段5は、入力された音声信号を前処理するもので、具体的には、当該音声信号の音響的な特徴量を、特徴量ベクトルとして抽出するものである。この特徴量ベクトルの系列には、典型的な特徴量であるケプストラム係数の1種のMFCC(Mel−Frequency Cepstrum Coefficients)といった要素が含まれている。
(Configuration of voice recognition device)
Hereafter, the other structure of the
The feature extraction means 5 preprocesses the input voice signal, and specifically extracts the acoustic feature quantity of the voice signal as a feature quantity vector. This series of feature quantity vectors includes an element such as a MFCC (Mel-Frequency Cepstrum Coefficients) of a cepstrum coefficient that is a typical feature quantity.
蓄積手段7は、音声認識に関する各種データ及び当該各種データの設定値を蓄積しているもので、一般的な記録媒体によって構成されている。各種データは、音響モデル、発音辞書、言語モデルである。
音響モデルは、音声信号の音韻韻律に関する情報をモデル化したものである。
The storage means 7 stores various data related to speech recognition and set values of the various data, and is configured by a general recording medium. The various data are an acoustic model, a pronunciation dictionary, and a language model.
The acoustic model models information related to phonological prosody of a speech signal.
発音辞書は、入力された音声信号に含まれることが予測される単語(一般的な単語、既知語)とその読み(音素)との関係を記録したものであり、さらに、未知語を表現するためのカナ文字列とその読み(音素)との関係を記録したものである。 The pronunciation dictionary records the relationship between words (general words, known words) that are expected to be included in the input speech signal and their readings (phonemes), and also represents unknown words. The relationship between the kana character string and its reading (phoneme) is recorded.
言語モデルは、既知語言語モデルと未知語言語モデルとからなり、既知語言語モデルは、入力された音声信号に含まれることが予測される単語(一般的な単語、既知語)の連鎖の確率(接続確率)を記録したものであり、未知語言語モデルは、未知語同士の連鎖の確率(接続確率)を記録したものである。さらに、図示を省略したが、言語モデルは、既知語と未知語間の連鎖の確率(接続確率)や、未知語を表現するために用いられるカナ文字列の出現確率や接続確率も記録している。 The language model is composed of a known language model and an unknown language model, and the known language model is a probability of a chain of words (general words, known words) predicted to be included in the input speech signal. (Connection probability) is recorded, and the unknown word language model records the probability of connection between unknown words (connection probability). Furthermore, although not shown, the language model also records the probability of connection between known words and unknown words (connection probability), and the appearance probability and connection probability of kana character strings used to represent unknown words. Yes.
なお、既知語と未知語間の連鎖の確率(接続確率)は、単語蓄積手段13に含まれる単語で蓄積手段7の発音辞書に含まれていない単語を、例えば<UNK>という文字に置換し、そして、蓄積手段7の発音辞書に含まれる単語と、<UNK>との接続確率を計算することで求められる。 Incidentally, the probability of linkage between known words and unknown words (connection probability) is to replace the word with words included in the word storage means 13 is not included in the pronunciation dictionary storing unit 7, for example, the letter <UNK> and the words contained in the pronunciation dictionary storage means 7 is determined by calculating the connection probabilities of the <UNK>.
正解探索手段9は、音声認識を実行するもので、音響スコアと言語スコア(既知語言語スコア及び未知語言語スコア)とを得て、これらの合計スコアに基づいて、発音辞書に含まれている候補(音素)を探索し、認識結果(認識単語列)を出力するものである。一般的な音声認識は、音声信号から得られる特徴量ベクトルの系列Xが与えられた下で、条件付確率P(W|X)を最大化する単語系列Wを決定する問題として定式化されており、ここで条件付確率P(W|X)は次に示す数式(11)により計算される。 The correct answer searching means 9 performs speech recognition, obtains an acoustic score and a language score (known word language score and unknown word language score), and is included in the pronunciation dictionary based on these total scores. A candidate (phoneme) is searched and a recognition result (recognized word string) is output. General speech recognition is formulated as a problem of determining a word sequence W that maximizes a conditional probability P (W | X) given a sequence X of feature vectors obtained from a speech signal. Here, the conditional probability P (W | X) is calculated by the following equation (11).
この数式(11)において、分母が単語系列Wによらず、一定であることから、条件付確率P(W|X)を最大化する単語系列Wは次に示す数式(12)により与えられる。 In this equation (11), the denominator is constant regardless of the word sequence W, so the word sequence W that maximizes the conditional probability P (W | X) is given by the following equation (12).
ここで、音響スコアは、条件付確率P(W|X)が単語系列Wの音響的な表れとして、特徴量ベクトルの系列Xの観測される確率(音響確率)を意味しており、この確率の対数値である。なお、音響スコアは、蓄積手段7に蓄積されている音響モデルを参照して計算される。 Here, the acoustic score means a probability (acoustic probability) that the feature vector sequence X is observed as an acoustic appearance of the word sequence W with the conditional probability P (W | X), and this probability. Is the logarithm of The acoustic score is calculated with reference to the acoustic model stored in the storage unit 7.
また、言語スコアは、P(W)が単語系列W自体の出現する確率(言語確率)を意味しており、この確率の対数値である。なお、言語スコアは、蓄積手段7に蓄積されている言語モデル(既知語言語モデル及び未知語言語モデル)を参照して計算される。
言語モデルとして、Nグラム言語モデルを用いる場合は、言語スコア(既知語言語スコア)は言語確率P(w|h)を用いて計算することができる。この言語確率P(w|h)において、wが正解単語の候補であり、hはwの直前のNグラムの履歴(N−1個の単語列)を指している。
The language score means the probability (language probability) that P (W) appears in the word sequence W itself, and is a logarithmic value of this probability. The language score is calculated with reference to language models (known language model and unknown language model) stored in the storage unit 7.
When an N-gram language model is used as the language model, the language score (known language score) can be calculated using the language probability P (w | h). In this language probability P (w | h), w is a candidate for a correct word, and h indicates an N-gram history (N−1 word strings) immediately before w.
ここで、uを音声認識装置1の発音辞書に登録されていない単語(未知語)とした場合、未知語uの言語スコア(未知語言語スコア)を推定する際には、次に示す数式(13)を利用する。
Here, when u is a word (unknown word) that is not registered in the pronunciation dictionary of the
この数式(13)において、<UNK>は未知語クラス、Mは前記した未知語を表現するHMM(言語モデル)を示している。なお、未知語クラス<UNK>は発音辞書に含まれていない単語を、すべて「<UNK>」という語に置換することによって得られるものを指している。 In this formula (13), <UNK> unknown word class, M denotes an HMM (language model) which expresses the unknown word described above. It should be noted, pointing to things unknown word class <UNK> is obtained by substituting the words that are not included in the pronunciation dictionary, all to the term "<UNK>".
ここで、未知語uがQn個の部分文字列(サブワード)s1,・・・,sQnからなるものであり、このQn個の部分文字列が言語モデルMの状態遷移系列Q=q0,q1,・・・,qQn,qQn+1から出力されるものとすれば、P(u|M)は次に示す数式(14)によって計算される。 Here, the unknown word u is composed of Qn partial character strings (subwords) s 1 ,..., S Qn , and these Qn partial character strings are the state transition sequence Q = q 0 of the language model M. , Q 1 ,..., Q Qn , q Qn + 1 , P (u | M) is calculated by the following equation (14).
この数式(14)において、未知語uを構成する部分文字列(サブワード)のパターンとして様々組み合わせ(状態系列)を想定できるが、全ての系列パターンを考慮した上で、最大の確率値を与える系列(Viterbi系列)が出力される確率値をP(u|M)の値として採用することを意味している。なお、q0はHMMの初期状態を、qQn+1はHMMの最終状態を示しており、図2で説明した例では、q0は「状態0」、qQn+1は「状態3」に対応している。また、P(qi|qi−1)は数式(8)で計算された状態遷移確率aijを参照し、P(si|qi)は数式(9)で計算された出現確率Pj(o)を参照して求めればよい。
In this formula (14), various combinations (state series) can be assumed as patterns of partial character strings (subwords) constituting the unknown word u, but a series that gives the maximum probability value in consideration of all series patterns This means that the probability value at which (Viterbi series) is output is adopted as the value of P (u | M). Note that q 0 indicates the initial state of the HMM, and q Qn + 1 indicates the final state of the HMM. In the example described with reference to FIG. 2, q 0 corresponds to “
この数式(14)を用いることにより、音声認識装置1は、認識結果(認識単語列)として、未知語区間をカナ文字列で表したものを出力することが可能になる。
By using the mathematical formula (14), the
カナ漢字文字列変換手段11は、正解探索手段9から出力された認識結果(認識単語列)について、未知語区間をカナ漢字文字列(未知語区間カナ漢字混在認識単語列)に変換して出力するものである。 The kana-kanji character string conversion means 11 converts the unknown word section into a kana-kanji character string (unknown word section kana-kanji mixed recognition word string) and outputs the recognition result (recognized word string) output from the correct answer searching means 9. To do.
この音声認識装置1によれば、正解探索手段9によって、特徴量ベクトルが抽出された音声信号の音声認識を行う際に、既知語について既知語言語モデルを用い、未知語について未知語言語モデルを用いることで、未知語の前後の単語について認識誤りを少なくすることができる。
According to the
また、この音声認識装置1によれば、カナ漢字文字列変換手段11によって、認識結果の未知語区間であるカナ文字列を、漢字を含めたカナ漢字文字列に変換して出力することができ、単にカナ文字が羅列するよりは、漢字が含まれることで未知語の適切な推測を行うことができる。
Further, according to the
(言語モデル作成装置の動作)
次に、図4に示すフローチャートを参照して、言語モデル作成装置3の動作について説明する(適宜、図1参照)。
まず、言語モデル作成装置3は、音節単位分割手段15によって、単語蓄積手段13に蓄積されているカナ文字列に書き下された単語(カナ表記の単語)を音節単位に分割する(ステップS1)。
(Operation of language model creation device)
Next, the operation of the language
First, the language
続いて、言語モデル作成装置3は、隠れマルコフモデル推定手段17によって、HMM学習アルゴリズムにより、各単語から生成される部分文字列(サブワード)の出現確率と状態遷移確率を推定する(ステップS2)。
Subsequently, the language
そして、言語モデル作成装置3は、部分文字列選択手段19及び正規化手段21によって、1音節の全ての部分文字列と出現確率の確率値が上位n個の部分文字列とを選択し、これら選択した1音節の全ての部分文字列の出現確率の確率値と上位n個の部分文字列の出現確率の確率値との和が1となるように部分文字列の確率値を正規化する(ステップS3)。
Then, the language
そうすると、言語モデル作成装置3は、隠れマルコフモデル推定手段17によって、HMM学習アルゴリズムにより、正規化手段21で正規化した確率値を初期値として、数式(8)及び数式(9)を用いて、選択された部分文字列の出現確率と状態遷移確率を再推定する(ステップS4)。
Then, the language
そして、言語モデル作成装置3は、情報量基準値計算手段23によって、nに対応するMDLを計算し、記憶しておく(ステップS5)。そして、言語モデル作成装置3は、計算したMDLを比較し、最小か否かを判定する(ステップS6)。言語モデル作成装置3は、情報量基準値計算手段23によって、MDLが最小と判定しなかった場合(ステップS6、No)、正規化手段21によって、nの値を変更し部分文字列を選択し直して(ステップS7)、ステップS3に戻り、選択し直した部分文字列の出現確率を再正規化し、ステップS4において、当該部分文字列の出現確率と状態遷移確率を再推定する。なお、最初は比較するMDLがないので、そのままステップS7に進む。
Then, the language
その後、言語モデル作成装置3は、これらステップS3〜ステップS5を繰り返した後、MDLが最小と判定した場合(ステップS6、Yes)には、言語モデル作成手段25によって、言語モデルを作成する(ステップS8)。
Thereafter, after repeating these steps S3 to S5, the language
(音声認識装置の動作)
次に、図5に示すフローチャートを参照して、音声認識装置1の動作について説明する(適宜、図1参照)。
まず、音声認識装置1は、音声信号を入力すると(ステップS11)、特徴抽出手段5によって、当該音声信号の特徴量ベクトル(特徴量)を抽出する(ステップS12)。
(Operation of voice recognition device)
Next, the operation of the
First, when the
そして、音声認識装置1は、正解探索手段9によって、蓄積手段7に蓄積されている音響モデル、発音辞書及び言語モデル(既知語言語モデル及び未知語言語モデル)を参照して、既知語言語スコアと音響スコアとの合計スコアと、未知語言語スコアと音響スコアとの合計スコアとを比較した結果に基づいて、認識結果(認識単語列)を出力する(ステップ13)。
そうすると、音声認識装置1は、未知語区間をカナ文字列で表した認識結果をそのまま出力するか否かを判定し(ステップS14)、そのまま出力すると判定した場合(ステップS14、Yes)には、そのまま出力し動作を終了する。また、音声認識装置1は、そのまま出力すると判定しなかった場合(ステップS14、No)、カナ漢字文字列変換手段11によって、未知語区間をカナ漢字文字列に変換した認識結果(未知語区間カナ漢字混在認識単語列)を出力(ステップS15)して動作を終了する。
Then, the
Then, the
以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、言語モデル作成装置3及び音声認識装置1として説明したが、これらの各構成の処理を、コンピュータ言語で記述した言語モデル作成プログラム、音声認識プログラムとして構成することも可能である。これらの場合、言語モデル作成装置3及び音声認識装置1と同様の効果を奏する。
As mentioned above, although embodiment of this invention was described, this invention is not limited to the said embodiment. For example, in the present embodiment, the language
1 音声認識装置
3 言語モデル作成装置
5 特徴抽出手段
7 蓄積手段
9 正解探索手段
11 カナ漢字文字列変換手段
13 単語蓄積手段
15 音節単位分割手段
17 隠れマルコフモデル推定手段
19 部分文字列選択手段
21 正規化手段
23 情報量基準計算手段
25 言語モデル作成手段
DESCRIPTION OF
Claims (6)
前記カナ文字列に書き下された単語を複数蓄積する単語蓄積手段と、
この単語蓄積手段に蓄積されている単語を音節単位に分割する音節単位分割手段と、
この音節単位分割手段で分割された各単語に含まれる連続する音節の組み合わせである部分文字列それぞれの出現確率と状態遷移確率とを、隠れマルコフモデルの学習アルゴリズムに基づいて推定する隠れマルコフモデル推定手段と、
前記音節単位分割手段で分割した1音節からなる全ての部分文字列と、前記隠れマルコフモデル推定手段で推定した出現確率の確率値の最上位から所定数の部分文字列とを選択する部分文字列選択手段と、
この部分文字列選択手段で選択した部分文字列の確率値の和が1となるように、選択した部分文字列の前記確率値を正規化する正規化手段と、
この正規化手段で確率値を正規化した部分文字列について、予め設定した情報量基準の値を計算する情報量基準値計算手段と、
この情報量基準値計算手段で計算された情報量基準の値が最小となる前記部分文字列選択手段で選択された部分文字列について、当該部分文字列の出現確率及び状態遷移確率と当該部分文字列とを対応付けた前記言語モデルを作成する言語モデル作成手段と、
を備えることを特徴とする言語モデル作成装置。 Appearance probabilities and partial character strings, which are unknown words that are not registered in the dictionary used for speech recognition, are expressed as kana character strings, and a partial character string that is a subset of this kana character string appears. A language model creation device that creates a language model that obtains a language score of the unknown word when recognizing speech by associating a state transition probability that is a probability of chaining together with the partial character string,
Word accumulation means for accumulating a plurality of words written in the kana character string;
Syllable unit dividing means for dividing the word stored in the word storage means into syllable units;
Hidden Markov model estimation that estimates the appearance probability and state transition probability of each partial character string that is a combination of consecutive syllables included in each word divided by this syllable unit dividing means based on the learning algorithm of the hidden Markov model Means,
A partial character string that selects all partial character strings composed of one syllable divided by the syllable unit dividing means and a predetermined number of partial character strings from the top of the probability values of appearance probabilities estimated by the hidden Markov model estimating means A selection means;
Normalization means for normalizing the probability values of the selected partial character strings so that the sum of the probability values of the partial character strings selected by the partial character string selection means is 1.
An information amount reference value calculating means for calculating a preset information amount reference value for the partial character string obtained by normalizing the probability value by the normalizing means;
With respect to the partial character string selected by the partial character string selecting means that minimizes the information amount reference value calculated by the information amount reference value calculating means, the appearance probability and state transition probability of the partial character string and the partial character are selected. Language model creation means for creating the language model in which columns are associated;
A language model creation device comprising:
前記言語モデル及び前記既知語言語モデルと、前記既知語の文字列及び発音並びに部分文字列の文字列及び発音に関する情報を収めた発音辞書と、音声信号の音韻韻律に関する情報をモデル化した音響モデルとを蓄積している蓄積手段と、
前記音声信号の言語的な特徴量及び音響的な特徴量を抽出する特徴抽出手段と、
この特徴抽出手段で抽出した言語的な特徴量に基づいて、既知語の言語スコアである既知語言語スコアを前記既知語言語モデルからのNグラム確率値を用いて得、未知語の言語スコアである未知語言語スコアを前記言語モデルからの確率値及びNグラム確率値を用いて得、前記音響的な特徴量に基づいて前記音響モデルから音響スコアを得て、得られた既知語言語スコアと音響スコアとの合計と、未知語言語スコアと音響スコアとの合計とを比較した結果、合計スコアの大きい方に基づいて、前記発音辞書に登録されている文字列を探索して、探索した文字列を認識結果として出力する正解探索手段と、
を備えることを特徴とする音声認識装置。 The language model created by the language model creation device according to claim 1 or claim 2 and a known word that is a word registered in a dictionary used for speech recognition is based on an N-gram model learning algorithm. A speech recognition device for recognizing an input speech signal using an estimated known language model,
The language model and the known word language model, a pronunciation dictionary storing information on the character strings and pronunciations of the known words and the character strings and pronunciations of the partial character strings, and an acoustic model modeling information on the phonological prosody of the speech signal And storage means for storing
Feature extraction means for extracting linguistic and acoustic features of the audio signal;
Based on the linguistic feature amount extracted by the feature extraction means, a known word language score, which is a language score of a known word, is obtained using an N-gram probability value from the known word language model, and the language score of the unknown word is obtained. An unknown word language score is obtained using a probability value and an N-gram probability value from the language model, an acoustic score is obtained from the acoustic model based on the acoustic feature amount, and the obtained known language score is obtained As a result of comparing the sum of the acoustic score with the sum of the unknown language score and the acoustic score, the character string registered in the pronunciation dictionary is searched based on the larger total score, and the searched character Correct answer searching means for outputting a sequence as a recognition result;
A speech recognition apparatus comprising:
前記単語蓄積手段に蓄積されている単語を音節単位に分割する音節単位分割手段、
この音節単位分割手段で分割された各単語に含まれる連続する音節の組み合わせである部分文字列それぞれの出現確率と状態遷移確率とを、隠れマルコフモデルの学習アルゴリズムに基づいて推定する隠れマルコフモデル推定手段、
前記音節単位分割手段で分割された1音節からなる全ての部分文字列と、前記隠れマルコフモデル推定手段で推定された出現確率の確率値の最上位から所定数の部分文字列とを選択する部分文字列選択手段、
この部分文字列選択手段で選択した部分文字列の確率値の和が1となるように、選択した部分文字列の前記確率値を正規化する正規化手段、
この正規化手段で確率値を正規化した部分文字列について、予め設定した情報量基準の値を計算する情報量基準値計算手段、
この情報量基準値計算手段で計算された情報量基準の値が最小となる前記部分文字列選択手段で選択された部分文字列について、当該部分文字列の出現確率及び状態遷移確率と当該部分文字列とを対応付けた前記言語モデルを作成する言語モデル作成手段、
として機能させることを特徴とする言語モデル作成プログラム。 Appearance probabilities and partial character strings, which are unknown words that are not registered in the dictionary used for speech recognition, are expressed as kana character strings, and a partial character string that is a subset of this kana character string appears. In order to create a language model that obtains the language score of the unknown word during speech recognition by associating the state transition probability that is a probability of chaining with the partial character string, A computer equipped with word storage means for storing a plurality of processed words,
A syllable unit dividing means for dividing a word stored in the word storing means into syllable units;
Hidden Markov model estimation that estimates the appearance probability and state transition probability of each partial character string that is a combination of consecutive syllables included in each word divided by this syllable unit dividing means based on the learning algorithm of the hidden Markov model means,
A part that selects all partial character strings composed of one syllable divided by the syllable unit dividing means and a predetermined number of partial character strings from the highest probability value of the appearance probability estimated by the hidden Markov model estimating means Character string selection means,
Normalization means for normalizing the probability values of the selected partial character strings so that the sum of the probability values of the partial character strings selected by the partial character string selection means is 1.
Information amount reference value calculation means for calculating a preset information amount reference value for the partial character string whose probability value is normalized by the normalization means,
With respect to the partial character string selected by the partial character string selecting means that minimizes the information amount reference value calculated by the information amount reference value calculating means, the appearance probability and state transition probability of the partial character string and the partial character are selected. Language model creating means for creating the language model in association with a column;
Language model creation program characterized by functioning as
前記音声信号の言語的な特徴量及び音響的な特徴量を抽出する特徴抽出手段、
この特徴抽出手段で抽出した言語的な特徴量に基づいて、既知語の言語スコアである既知語言語スコアを前記既知語言語モデルからのNグラム確率値を用いて得、未知語の言語スコアである未知語言語スコアを前記言語モデルからの確率値及びNグラム確率値を用いて得、前記音響的な特徴量に基づいて前記音響モデルから音響スコアを得て、得られた既知語言語スコアと音響スコアとの合計と、未知語言語スコアと音響スコアとの合計とを比較した結果、合計スコアの大きい方に基づいて、前記発音辞書に登録されている文字列を探索して、探索した文字列を認識結果として出力する正解探索手段、
として機能させることを特徴とする音声認識プログラム。 The language model created by the language model creation device according to claim 1 or claim 2 and a known word that is a word registered in a dictionary used for speech recognition is based on an N-gram model learning algorithm. In order to recognize the input speech signal using the estimated known word language model, the language model and the known word language model, the character string and pronunciation of the known word, and the character string of the partial character string And a computer having storage means for storing a pronunciation dictionary storing information related to pronunciation and an acoustic model modeling information related to phonological prosody of a speech signal,
Feature extraction means for extracting linguistic feature quantities and acoustic feature quantities of the audio signal;
Based on the linguistic feature amount extracted by the feature extraction means, a known word language score, which is a language score of a known word, is obtained using an N-gram probability value from the known word language model, and the language score of the unknown word is obtained. An unknown word language score is obtained using a probability value and an N-gram probability value from the language model, an acoustic score is obtained from the acoustic model based on the acoustic feature amount, and the obtained known language score is obtained As a result of comparing the sum of the acoustic score with the sum of the unknown language score and the acoustic score, the character string registered in the pronunciation dictionary is searched based on the larger total score, and the searched character Correct answer searching means for outputting a sequence as a recognition result,
A voice recognition program characterized by functioning as
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006314121A JP4741452B2 (en) | 2006-11-21 | 2006-11-21 | Language model creation device, language model creation program, speech recognition device, and speech recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006314121A JP4741452B2 (en) | 2006-11-21 | 2006-11-21 | Language model creation device, language model creation program, speech recognition device, and speech recognition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008129318A JP2008129318A (en) | 2008-06-05 |
JP4741452B2 true JP4741452B2 (en) | 2011-08-03 |
Family
ID=39555185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006314121A Expired - Fee Related JP4741452B2 (en) | 2006-11-21 | 2006-11-21 | Language model creation device, language model creation program, speech recognition device, and speech recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4741452B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016114428A1 (en) | 2015-01-16 | 2016-07-21 | 삼성전자 주식회사 | Method and device for performing voice recognition using grammar model |
JP7084761B2 (en) * | 2018-04-10 | 2022-06-15 | 日本放送協会 | Statement generator, statement generator and statement generator |
CN116978354B (en) * | 2023-08-01 | 2024-04-30 | 支付宝(杭州)信息技术有限公司 | Training method and device of prosody prediction model, and voice synthesis method and device |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2886118B2 (en) * | 1995-09-11 | 1999-04-26 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | Hidden Markov model learning device and speech recognition device |
JP3004254B2 (en) * | 1998-06-12 | 2000-01-31 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | Statistical sequence model generation device, statistical language model generation device, and speech recognition device |
JP3415585B2 (en) * | 1999-12-17 | 2003-06-09 | 株式会社国際電気通信基礎技術研究所 | Statistical language model generation device, speech recognition device, and information retrieval processing device |
JP4543294B2 (en) * | 2000-03-14 | 2010-09-15 | ソニー株式会社 | Voice recognition apparatus, voice recognition method, and recording medium |
JP3639776B2 (en) * | 2000-07-28 | 2005-04-20 | シャープ株式会社 | Speech recognition dictionary creation device, speech recognition dictionary creation method, speech recognition device, portable terminal device, and program recording medium |
JP2004126143A (en) * | 2002-10-01 | 2004-04-22 | Mitsubishi Electric Corp | Voice recognition device and voice recognition program |
US7590533B2 (en) * | 2004-03-10 | 2009-09-15 | Microsoft Corporation | New-word pronunciation learning using a pronunciation graph |
JP2005331600A (en) * | 2004-05-18 | 2005-12-02 | Mitsubishi Electric Corp | Device and program for selecting words and phrases |
-
2006
- 2006-11-21 JP JP2006314121A patent/JP4741452B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008129318A (en) | 2008-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6727607B2 (en) | Speech recognition device and computer program | |
JP3933750B2 (en) | Speech recognition method and apparatus using continuous density Hidden Markov model | |
US5949961A (en) | Word syllabification in speech synthesis system | |
JP4215418B2 (en) | Word prediction method, speech recognition method, speech recognition apparatus and program using the method | |
US7299178B2 (en) | Continuous speech recognition method and system using inter-word phonetic information | |
KR101153078B1 (en) | Hidden conditional random field models for phonetic classification and speech recognition | |
JP4769223B2 (en) | Text phonetic symbol conversion dictionary creation device, recognition vocabulary dictionary creation device, and speech recognition device | |
KR100845428B1 (en) | Speech recognition system of mobile terminal | |
JP2020505650A (en) | Voice recognition system and voice recognition method | |
US20170263242A1 (en) | Information processing device, information processing method, computer program product, and recognition system | |
JP5310563B2 (en) | Speech recognition system, speech recognition method, and speech recognition program | |
JP6884946B2 (en) | Acoustic model learning device and computer program for it | |
US20100100379A1 (en) | Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method | |
JPWO2008105263A1 (en) | Weight coefficient learning system and speech recognition system | |
KR101014086B1 (en) | Voice processing device and method, and recording medium | |
JP2007047412A (en) | Apparatus and method for generating recognition grammar model and voice recognition apparatus | |
JP5276610B2 (en) | Language model generation apparatus, program thereof, and speech recognition system | |
JP6031316B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
JP5180800B2 (en) | Recording medium for storing statistical pronunciation variation model, automatic speech recognition system, and computer program | |
KR100930714B1 (en) | Voice recognition device and method | |
CN110189750B (en) | Word detection system, word detection method, and recording medium | |
JP4741452B2 (en) | Language model creation device, language model creation program, speech recognition device, and speech recognition program | |
KR100480790B1 (en) | Method and apparatus for continous speech recognition using bi-directional n-gram language model | |
JP6027754B2 (en) | Adaptation device, speech recognition device, and program thereof | |
Pylkkönen | Towards efficient and robust automatic speech recognition: decoding techniques and discriminative training |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090319 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110328 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110412 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110506 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140513 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |