JP2001109491A - Continuous voice recognition device and continuous voice recognition method - Google Patents

Continuous voice recognition device and continuous voice recognition method

Info

Publication number
JP2001109491A
JP2001109491A JP28143799A JP28143799A JP2001109491A JP 2001109491 A JP2001109491 A JP 2001109491A JP 28143799 A JP28143799 A JP 28143799A JP 28143799 A JP28143799 A JP 28143799A JP 2001109491 A JP2001109491 A JP 2001109491A
Authority
JP
Japan
Prior art keywords
probability
speech recognition
word
language model
means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP28143799A
Other languages
Japanese (ja)
Inventor
Hideaki Kikuchi
Katsuhiko Shirai
Yasuo Shirosaki
康夫 城崎
克彦 白井
英明 菊池
Original Assignee
Univ Waseda
学校法人早稲田大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Waseda, 学校法人早稲田大学 filed Critical Univ Waseda
Priority to JP28143799A priority Critical patent/JP2001109491A/en
Publication of JP2001109491A publication Critical patent/JP2001109491A/en
Application status is Pending legal-status Critical

Links

Abstract

PROBLEM TO BE SOLVED: To improve the recognition precision of a designated word in vocabularies that can be recognized and to prevent the drop of whole recognition precision at the time of continuously recognizing the voice of the large vocabularies. SOLUTION: A language model correction part 6 corrects the probability of a designated word in the probability of while entries described in a language model 51 by multiplying weight which is previously decided by weight decision 7 by means of a probability correction 61. The language model corrected by the language model correction part 6 is used in sound recognition 4.

Description

【発明の詳細な説明】 DETAILED DESCRIPTION OF THE INVENTION

【0001】 [0001]

【発明の属する技術分野】本発明は、音声を認識する音声認識装置および方法に関する。 The present invention relates to relates to a speech recognition apparatus and method for recognizing speech.

【0002】 [0002]

【従来の技術】連続音声認識において特定の語彙を認識する従来手法としては、あらかじめ設定された認識候補の単語を連続的な会話音声から抽出するワードスポッティングが考案されている(例えば、古井貞興、「ディジタル音声処理」、東海大学出版、1985,p.176 The conventional method for recognizing a specific vocabulary BACKGROUND ART In continuous speech recognition, word spotting for extracting words preset recognition candidates from a continuous conversation speech has been devised (for example, sieve Sadakyo , "digital speech processing", Tokai University publishing, 1985, p.176
参照)。 reference). この手法では、設定される語が少量であれば効率良く抽出できることが確認されているが、設定される語の数が多くなるほど、抽出の精度が低下することもわかっている。 In this approach, but it has been confirmed that efficiently extracted when the small amount of words to be set, larger the number of words to be set, the extraction accuracy has also been found to decrease. また、この手法では設定された語以外を認識することができないため、大語彙の連続音声認識を必要とする用途には利用できない。 Moreover, it is not possible to recognize a non-word that has been set in this method, it can not be used for applications requiring continuous speech recognition of a large vocabulary. 以上の点から、大語彙連続音声認識の枠組において大量の指定語を中心に認識する手法が必要とされている。 In view of the above, a technique for recognizing the center a large amount of the specified word in a large vocabulary continuous framework of speech recognition are needed.

【0003】音声認識は、観測された音声信号から話者が何を話したかを推定する問題であり、話者がある言語を発声し特徴抽出から特徴パラメータxが得られた場合、パターン認識の理論から事後確率P(w|x)を最大にするwを求めればよいことになる。 [0003] The voice recognition is a problem that the speaker from the observed voice signal is to estimate what you were talking about, if the speaker is the characteristic parameter x obtained from the utterance and feature extraction of the language there is, of pattern recognition will be the | (x w) may be obtained a w to a maximum a posteriori probability P from the theory. 通常、事後確率p(w|x)を直接求めるのは困難なので、ベイズの法則(p(w|x)=p(x|w)p(w)/p(x)) Normally, the posterior probability p | Since it is difficult to determine the (w x) directly, Bayes of law (p (w | x) = p (x | w) p (w) / p (x))
よりp(x|w)p(w)を最大にするwを求める問題に置きかえられる(このとき、p(x)はwによらない)。 More p | replaced the problem of finding (x w) w that maximizes p a (w) (this time, p (x) does not depend on w). p(x|w)は音素などを単位とした音響モデルから特徴パラメータが出現する確率としてあらかじめ学習により得たデータから求められる。 p (x | w) is determined from data obtained in advance by learning as a probability that the feature parameter emerge from the acoustic model in units of phoneme. P(w)は単語などを単位とした言語モデルによって求められる。 P (w) is determined by the language model in which the word, etc. as a unit. 大語彙連続音声認識の枠組としては、入力される音声信号について、音素隠れマルコフモデルと統計的言語モデルを用いて尤度を計算し比較する手法が有効であることが確認されている(例えば、古井貞興、「大語彙連続音声認識の現状と展望」、音響学会春季講演論文集、1−6−1 The framework of large vocabulary continuous speech recognition, the speech signal input, a technique for comparing calculates a likelihood using a statistical language model phoneme Hidden Markov Models have been confirmed to be effective (e.g., sieve Sadakyo, "Present and Future of large vocabulary continuous speech recognition", acoustical Society of spring Proceedings, 1-6-1
0、1998参照)。 See 0,1998). 統計的言語モデルとしては、通常、あらかじめ用意された大量のテキストデータについて二単語間の連鎖確率を求め、それを音声認識時に用いるのが一般的である。 The statistical language model, usually, seek linkage probability between two words for a large amount of text data prepared in advance, it is common to use it during speech recognition.

【0004】しかし、このようにあらかじめ求められた確率値を用いる方法は、話者が連続的に発声する場合には適切とは言えない。 [0004] However, the method used in this way previously obtained probability value can not be said to be appropriate if the speaker is continuously utterance. なぜならば、話者が何らかの文脈に沿って連続的に発声する場合、現れ得る単語や単語間のつながりが異なってくることが予想され、厳密には利用すべき言語モデルが異なるべきであるのに、常に同じ言語モデルを用いているからである。 This is because, if the speaker is continuously uttered along to some context, is expected to come different ties between words may appear or words, strictly speaking, to the language model to be utilized should be different , because always uses the same language model.

【0005】 [0005]

【発明が解決しようとする課題】文脈の変化が生じる連続的な発声形態において、より精度良く音声認識を行うには文脈の変化に応じて言語モデルの確率値を調整することが有効となる。 In a continuous utterance forms a change of context INVENTION Problems to Solved] occurs, it is effective to adjust a probability value of the language model in response to changes in context to do more accurately speech recognition. 例えば、論文検索サービスの音声インタフェースにおいてユーザが音声により論文検索を要求する場合、ユーザはまず初めにキーとなる著者名やキーワードを発声し、検索結果が得られた段階でそれを絞り込む要求を発声すると考えられる。 For example, if a user in the voice interface of article search services require the paper searched by voice, the user utters the author name or keyword as the First key utterance requests narrow it down at the stage where the search result is obtained Then conceivable. このような場合、 In such a case,
前半では著者名やキーワードが出現する確率が高いのであるから、音声認識において用いる言語モデルの確率値においても、著者名やキーワードについては高くしておけば認識結果としてこれらが現れやすくなる。 Because in the first half is the high probability that the author name or keyword appears, even in the probability value of the language model used in speech recognition, these are likely to appear as a recognition result Once you have high About the author name or keyword.

【0006】しかし、単純に文脈に沿って現れやすいと予測される語の確率値を増やすのみでは、全体の認識結果においてその語が現れやすくなり、本来その語ではない語に対しても誤って認識されてしまう恐れが生じる。 [0006] However, only simply increase the probability value of the words that are predicted to likely to appear along the context, it becomes easy that word appears in the whole of the recognition result, wrong even for words that are not the word originally in a fear that recognized occurs.
そこで、大語彙の音声を連続的に認識する際に、語彙のうち指定された語の認識精度を向上し、なおかつ全体の認識精度の低下を防ぐ必要がある。 Accordingly, when recognizing speech large vocabulary continuous, and improve recognition accuracy of the given word of the vocabulary, it is necessary yet preventing a reduction in the overall recognition accuracy. 本発明の目的は、言語モデルに含まれている語彙のうち指定された語の認識精度を向上させる一方で、なおかつ全体の認識精度の低下を防止するものである。 An object of the present invention, while improving the recognition accuracy of the given word of the vocabulary included in the language model, thereby preventing yet the reduction in the overall recognition accuracy.

【0007】 [0007]

【課題を解決するための手段】本発明は、言語モデルに含まれている語彙、すなわち認識対象語彙のうち、指定された語の確率に対して重み付けを行ってそれらの語の認識率を向上させても、全体の認識精度の低下は許容範囲内に抑えることができるという発見に基づくものである。 The present invention SUMMARY OF] is increased vocabulary contained in the language model, i.e. of the vocabulary to be recognized, the recognition rate of those words by performing a weighted probability of the given word also be, is based on the discovery that the reduction in the overall recognition accuracy can be suppressed within the allowable range.

【0008】本発明に係る連続音声認識装置は、認識対象の音声の連続的な入力を受け付ける音声入力手段と、 [0008] Continuous speech recognition apparatus according to the present invention, an audio input means for receiving successive input of recognized speech,
該音声の特徴を分析して抽出する特徴抽出手段と、認識対象語彙の各単語が出現する確率を記述した言語モデルと、該特徴と該言語モデルを用いて音声認識を行い音声認識結果を出力する音声認識手段とを有し、言語モデルに記述される全単語のうち指定された語に関する確率に対する重みを決定する重み決定手段と、該確率に該重みを掛け合わせることにより言語モデルにおける各語の確率を修正する確率修正手段を備えた言語モデル修正手段を有することを特徴とする。 Output feature extracting means for extracting and analyzing the characteristics of speech, and a language model that describes the probability that each word of the recognition target words appear, the speech recognition result performs speech recognition using the feature and 該言 word model and a speech recognition means for, each word in the language model by multiplying the weight determining means for determining a weight for probability for a given word of all words that are written in the language model, the heavy body on said probability characterized in that it has a language model correcting means having a probability modifying means for modifying the probability. この言語モデル修正手段により修正された言語モデルを用いて音声認識が行われる。 Speech recognition is performed using a language model modified by this language model correction means.

【0009】本発明に係る連続音声認識装置は、さらに、前記の言語モデル修正手段が、言語モデル中の全語の確率の和が1になるように正規化する確率正規化手段を含むことを特徴とする。 [0009] Continuous speech recognition apparatus according to the present invention, furthermore, the the language model correction means, that the sum of all terms of the probability in the language model comprises a probability normalization means for normalizing such that 1 and features.

【0010】本発明によれば、さらに、前記の重み決定手段において、特定のデータ群における指定語の出現頻度に応じて各単語に掛け合わせる重みを決定したり、指定語のエントロピーを基準にして指定語に関する全ての確率に掛け合わせる重みを決定することができる。 According to the present invention, furthermore, the weight determining means of said, or to determine the weight multiplying each word in accordance with the frequency of occurrence of the specified word in a particular data group, based on the entropy of designating terms it is possible to determine the weight to be multiplied to all of the probability for the specified language.

【0011】本発明はさらに、認識対象の音声の連続的な入力を受け付ける入力ステップと、該音声を分析して特徴を抽出する特徴抽出ステップと、あらかじめ作成された認識対象語彙の各語が出現する確率を記述した言語モデルに記述される全単語のうち指定された語に関する確率に対する重みを決定する重み決定ステップと、該確率に該重みを掛け合わせることにより該言語モデルにおける各語の確率を修正する確率修正ステップと、修正された確率を含む言語モデルと該特徴とを用いて音声認識を行い音声認識結果を出力する音声認識ステップとを備えたことを特徴とする連続音声認識方法を提供する。 [0011] The present invention further includes: an input step of accepting a continuous input of the recognition target voice, a feature extraction step of extracting a feature by analyzing the voice, each word of the recognition target words that are created in advance appearance a weight determining step of determining a weight for probability for a given word of all words that are written in the language model that describes the probability of the probability of each word in 該言 language model by multiplying the heavy body on said probability providing a probability correction step for correcting, the continuous speech recognition method using the language model and the feature is characterized in that a voice recognition step of outputting a voice recognition result performs speech recognition comprising the modified probability to.

【0012】本発明の方法は、コンピュータプログラムとして実施できるものであり、本発明はそのようなコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体をも含むものである。 The method of the present invention, which can be implemented as a computer program, the present invention also includes a recording medium computer-readable recorded with such a computer program.

【0013】本発明の装置または方法は、広く連続音声認識に有効に利用できるものであるが、対話型の連続音声認識において特に大きな効果が得られる。 [0013] device or method of the present invention are those which can be effectively used in wide continuous speech recognition, particularly large effect is obtained in continuous speech recognition interactive. コンピュータなどにより発せられる質問に対して話者が答える音声を認識するような場合には、ある質問に対して期待される答えがある。 In the case, such as to recognize the voice to answer the speaker to the questions that are emitted by such as a computer, it is the answer to be expected for a certain question. 本発明は、そのような答えに含まれるいくつかの限られた語についてその確率を重み付けすることにより、認識精度を向上させることができる一方、全体の音声認識率はさほど低下させずにすむものである。 The present invention, by weighting the probability for some limited word contained in such answer, while it is possible to improve the recognition accuracy, the overall ASR accuracy in which less need without deteriorating .

【0014】 [0014]

【発明の実施の形態】図1は、本発明に係る一実施形態である連続音声認識システムの構成を示すブロック図である。 Figure 1 DETAILED DESCRIPTION OF THE INVENTION is a block diagram showing the configuration of a continuous speech recognition system according to an embodiment of the present invention. 本実施形態においては、利用者が音声を用いて対話的に論文を検索することが可能な論文検索サービスの音声インタフェースに連続音声認識システムが用いられる状況を仮定し、入力音声の内容としては論文検索を要求する日本語文、音声認識結果としては日本語かな漢字による単語列が出力されると見なして説明する。 In the present embodiment, the user assumes the situation where the continuous speech recognition system to the audio interface interactively capable of searching a paper article search service using a voice used, paper as the content of the input speech Japanese sentence to request a search be described regarded as word sequence by Japanese kana-kanji is output as a speech recognition result.

【0015】図1において、この実施形態の連続音声認識システムは、マイクロフォンを通して入力された入力音声に対して音声の特徴パラメータを抽出する特徴抽出手段3と、認識対象語彙の各語が現れる確率をあらかじめ記述した言語モデル51と、言語モデルに記述された確率値のうち、指定語として指定された語に関する確率に重みを掛け合わせて修正する言語モデル修正手段6 [0015] In FIG. 1, a continuous speech recognition system of this embodiment, the feature extraction unit 3 for extracting feature parameters of the speech to the input speech that is input through the microphone, the probability that each word of the recognition target words appears a language model 51 prewritten, among the probability values ​​described in the language model, the language model correcting means corrects by probability multiplied by the weight for a given word as a designated word 6
と、修正された言語モデルおよび抽出された特徴パラメータを用いて音声認識を行い音声認識結果を出力する音声認識手段4とを備えて構成される。 When constituted by a speech recognition means 4 for outputting a speech recognition result performs speech recognition using the language model and the extracted feature parameters are modified.

【0016】本実施形態において入力される音声は、例えば論文検索サービスの音声インタフェースに連続音声認識システムが用いられる状況を仮定した場合、「西川さんという人が書いた論文はありますか」「では3番目の論文を詳しく見せて下さい」などの日本語による会話文調の内容である。 [0016] The voice input in the present embodiment, for example, article search if the service continuous speech recognition system to the voice interface of is assumed a situation to be used, "Do you have a paper that people wrote that Nishikawa's" "In 3 th Please show me the details paper "is the content of the conversation writing style by the Japanese, such as.

【0017】特徴抽出手段において入力音声から抽出する音声の特徴パラメータとしては、周波数スペクトルの時間変化を表す尺度が用いられることが一般的である。 [0017] As a feature parameter of the speech to be extracted from the input speech in the feature extraction means, it is common to measure of the time variation of the frequency spectrum is used.
ここでは12次元のLPCメルケプストラム距離およびその差分さらに音声信号のパワーの差分を特徴パラメータとして用いることを仮定する。 Here it is assumed the use of difference of the power of the 12-dimensional LPC mel-cepstrum distance and the difference further audio signal as a characteristic parameter. ただし、ここで用いる特徴パラメータの種類と、後に説明する言語モデルとは無関係である。 However, it is independent of the type of feature parameters used here, a language model to be described later.

【0018】本実施形態において用いる音声認識手段は一般的な大語彙連続音声認識方法を用いる。 The speech recognition means used in this embodiment uses a typical large vocabulary continuous speech recognition method. 音声認識は、観測された音声信号から話者が何を話したかを推定する問題であり、話者がある言語を発声し特徴抽出から特徴パラメータxが得られた場合、パターン認識の理論から事後確率P(w|x)を最大にするwを求めればよいことになる。 Speech recognition is a matter of speakers from the observed speech signal to estimate what was spoken, if the feature parameter x obtained from the utterance and feature extraction to have speaker language, posterior from the theory of pattern recognition will be the | (x w) may be obtained a w that maximizes the probability P. 通常、事後確率p(w|x)を直接求めるのは困難なので、ベイズの法則(p(w|x)=p Normally, the posterior probability p | Since it is difficult to determine the (w x) directly, Bayes of law (p (w | x) = p
(x|w)p(w)/p(x))よりp(x|w)p (X | w) p (w) / p (x)) from p (x | w) p
(w)を最大にするwを求める問題に置きかえられる(このとき、p(x)はwによらない)。 (W) a is replaced by the problem of finding the w which maximizes (this time, p (x) does not depend on w). p(x|w) p (x | w)
は音素などを単位とした音響モデルから特徴パラメータが出現する確率としてあらかじめ学習により得たデータから求められる。 It is determined from data obtained in advance by learning as a probability that the feature parameter emerge from the acoustic model in units of phoneme. P(w)は単語などを単位とした言語モデルによって求められる。 P (w) is determined by the language model in which the word, etc. as a unit. 大語彙連続音声認識の枠組としては、入力される音声信号について、音素隠れマルコフモデルと統計的言語モデルを用いて尤度を計算し比較する手法が有効であることが確認されている(例えば、上出、古井貞興、「大語彙連続音声認識の現状と展望」、音響学会春季講演論文集、1−6−10、199 The framework of large vocabulary continuous speech recognition, the speech signal input, a technique for comparing calculates a likelihood using a statistical language model phoneme Hidden Markov Models have been confirmed to be effective (e.g., supra, sieve Sadakyo, "Present and Future of large vocabulary continuous speech recognition", acoustical Society of spring Proceedings, 1-6-10,199
8参照)。 8 reference).

【0019】言語モデルとしては、近年は統計的言語モデルと呼ばれる単語の連鎖確率を用いるのが一般的である。 [0019] The language model, in recent years to use a chain probability of a word called statistical language model is common. 本実施形態においては、下の表1に示すような、隣接する2単語のペアについてその連鎖確率(共起確率とも言う)を記述した構造として言語モデルを説明する。 In the present embodiment, as shown in Table 1 below, the two adjacent word pair (also referred to as co-occurrence probability) that chain probability a language model describing a structure describing the.
なお、ここでは単語をもとにした例を説明するが、「論文を」といった、助詞等を含めた適当な区切りを単位として言語モデルを構築することができる。 Here, explaining an example of a word based but can build a language model such as "papers", an appropriate separator, including particle such as a unit. 言語モデルの構築方法については、鹿野清宏ほか著、「音声・音情報のディジタル信号処理」、p. For information about how to build a language model, Kano Shikano addition al., "Digital signal processing of speech and sound information", p. 84−、昭晃堂、199 84-, Shokodo, 199
7年11月に詳しいが、ここでは、あらかじめ用意された大量のテキストデータにおける2単語のペアの出現頻度によりその連鎖確率を求めて得るものとする。 Familiar with the 7 November, but here, it is assumed that may be in search of the chain probability by the frequency of occurrence of two words of the pair in a large amount of text data prepared in advance. ごく限られた例を示すと下記の表1にようになる。 So in Table 1 below when showing a very limited example. 右端の数値が連鎖確率を対数表示したものである。 One in which the right end of the numerical value is logarithmic display a chain probability. 〔表1〕 論文 著者 ‐3164.41 論文 検索 ‐842.57 論文 探し ‐1216.19 論文 下さい ‐932.64 論文 を ‐1032.22 [Table 1] the paper author -3164.41 article search -842.57 paper looking -1216.19 paper please -932.64 paper -1032.22

【0020】本実施形態において、言語モデル修正手段のうちの重み決定手段は、前述の言語モデルにおける指定語に関する確率値を修正するための重みを決定する。 In the present embodiment, the weight determination means of the language model correction means determines the weights for modifying the probability value for the specified language in the previous language model.
また、確率修正手段は言語モデルにおいて指定語に関する確率値を探し、重み決定手段により決定された重みを掛け合わせる。 Moreover, probability correction means finds the probability value for a specified word in a language model, multiplying the weights determined by the weight determining means. 具体的には単語w Iと単語w jの連鎖確率をp(w I |w j )、全単語数をNとする。 Word Specifically, w I and the word w j of the chain probability p (w I | w j) , the total number of words and N. 指定語への重みをxとすると、修正された確率値は以下のように現せる。 When the weight of the specified word and x, modified probability values ​​Arawaseru as follows. 〔式1〕 P'(w I |w j )=p(w I |w j )*x 例えば「探し」が指定語である場合、表1に示した言語モデルは以下の様に修正され得る。 [Equation 1] P '(w I | w j ) = p (w I | w j) * If x, for example, "looking" is the designated language, the language model shown in Table 1 may be modified as follows . なお、言語モデル修正手段の実行は、連続音声認識システム実行時でも実行前でもよい。 The execution of the language model correction means may be a pre-run, even in continuous speech recognition systems perform. 〔表2〕 論文 著者 ‐3164.41 論文 検索 ‐842.57 論文 探し ‐482.35 論文 下さい ‐932.64 論文 を ‐1032.22 [Table 2] paper author -3164.41 article search -842.57 -1032.22 the paper looking -482.35 paper please -932.64 paper

【0021】以上説明した様に、大語彙の音声を連続的に認識する際に、語彙のうち指定された語の認識精度を向上することを目的として、言語モデルの確率値を修正する連続音声認識方法を発明した。 [0021] As described above, when you recognize the voice of the large vocabulary continuous, with the aim to improve the recognition accuracy of the given word of the vocabulary, continuous speech to modify the probability value of the language model It invented the recognition method. 言語モデルを毎目新聞データ集91〜97年版を用いて作成した2単語連鎖確率とし、評価する入力音声を毎日新聞記事読み上げ音声コーパスの話者100名各1文とし、指定語を「単語辞書に含まれる名詞のうち出現頻度上位100単語」とした場合、この方法を用いない時の指定語の認識率8 A two-word chain probability that was created using the each eye newspaper data collection 91-97 Toshiban the language model, read aloud the Mainichi article the input speech to evaluate a speaker 100 people each one sentence of the speech corpus, "the word dictionary of the specified language If you have a frequency of occurrence top 100 words "of the noun that is included in the recognition rate of the specified word when not using this method 8
1.16%に対してこの方法を用いて重みを100とした時に認識率91.30%を得た。 Weights using this method with respect to 1.16% was obtained recognition rate 91.30% is 100. その際に全体の正解率は前者が73.92%であったのに対して後者は6 The latter accuracy rate of the whole in its whereas the former was 73.92% 6
8.79%であった。 It was 8.79%. つまり、この方法を用いることにより、正解率を5%程度下げても指定語の正解率を10 In other words, the use of this method, even lower the accuracy rate of about 5% accuracy rate for the specified word 10
%向上できることが分かった。 % It has been found that can be improved. その他に指定語を別の基準で選択した場合も同様の傾向を確認した。 A similar tendency was also found when you select in a different relation to a specified term in the other. なお、ここで用いた認識方法は、隠れマルコフモデルによるものである。 Incidentally, the recognition method used here is by Hidden Markov Models.

【0022】また、本発明の確率正規化手段によれば、 Further, according to the probability normalizing means of the present invention,
図2に示すように確率修正手段の後で言語モデル中の全単語の確率の和が1になるように正規化することによって、確率間の相対的な比較だけでなく絶対的な比較が可能になるため、音声認識結果としての利用範囲を広げることができる。 By the sum of the probabilities of all words in the language model after the probability correction means as shown in FIG. 2 is normalized to be 1, an absolute comparison can not only relative comparison between the probability to become, it is possible to widen the range of use as a speech recognition result.

【0023】なお、図2に示す例においては、音声認識を音素尤度計算41と単語尤度計算42とに分けて行っている。 [0023] In the example shown in FIG. 2, it is performed by dividing the speech recognition phoneme likelihood calculation 41 and the word likelihood calculation 42. 音素尤度計算41においては、予め定められた音素モデルを使用して、たとえば、隠れマルコフモデルを用いて音素の尤度を計算することができる。 In the phoneme likelihood calculation 41, using the phoneme models predetermined, for example, it is possible to calculate the likelihood of phonemes using a hidden Markov model. その例としては、音素間の調音結合を考慮した混合ガウス分布型トライフォンを用いる隠れマルコフモデルなどがある Examples include and the like Hidden Markov model with Gaussian mixture type triphone Considering coarticulation between phonemes
(S. Young, et al., Proc. ARPA Human Language Tech (S. Young, et al., Proc. ARPA Human Language Tech
nology Workshop, pp. 307-312 (1994))。 nology Workshop, pp. 307-312 (1994)). そして単語尤度計算42においては、単語のバイグラムやトライグラムのような統計的言語モデルを用いることができる。 And in a word likelihood calculation 42, it is possible to use a statistical language model such as a word bigram or trigram. もちろん、本発明は、音声認識をこのように二つに分けて行う場合に限定されるものではなく、いっぺんに認識結果を得る方式も採用することができる。 Of course, the present invention is not limited to the case of dividing the speech recognition into two in this way, it can also be employed method to obtain at once recognition result.

【0024】さらに、特定のデータ群における指定語の出現確率に応じて各単語に掛け合わせる重みを決定することによって、より指定語の認識精度を向上することができる。 Furthermore, by determining the weight multiplying each word according to the probability of occurrence of the specified word in a particular data group, it is possible to improve the recognition accuracy of the specified word. 具体的には、図3に示すフローチャートを用いて説明する。 Specifically, with reference to the flowchart shown in FIG.

【0025】図3に示したフローチャートは、指定語が与えられた場合に言語モデルにおける修正前の出現確率に対してしきい値判定を行い、その結果に応じて重みを変えることを目的としている。 The flowchart shown in FIG. 3 performs threshold determination against the probability of occurrence of pre-correction in the language model if the specified word is given, it is an object of varying the weights in accordance with the result . ここでは2種類の重みを与えているが、この種類数およびしきい値は変更され得る。 Here, although giving two weights, the number of types and thresholds may be changed. たとえば、重みを3種類以上にすることもできるが、あまり種類が多すぎても認識率の向上につながるわけではない。 For example, it can also be a three or more weights, not lead to improvement in the recognition rate even very kind too many. フローチャートにおいて、まず与えられた指定語の出現確率を、言語モデルから探索して求め、しきい値pと大小比較を行う。 In the flowchart, the probability of occurrence of first given specified word, determined by searching from the language model, performs threshold p and compares. 指定語の出現確率がしきい値pより大きければ重みc 1を与え、そうでない場合にはc 2を与える。 The probability of occurrence of the specified word is given a weight c 1 is greater than the threshold value p, otherwise give the c 2. 1 <c 2である場合、出現確率が高い指定語には重みを小さく、出現確率が低い指定語には重みを大きくすることになり、その結果、修正した言語モデルにおいて極端に大きな連鎖確率を持つエントリが生じることを押さえられるため、指定語の挿入誤りを押さえることができる。 If it is c 1 <c 2, the appearance probability is high specifies words reduce weight, appearance probability becomes possible to increase the weight in the lower designating terms, as a result, extremely large linkage probability in the language model modified since it is pressing that an entry with results, it is possible to suppress the insertion error of the specified word. なお、挿入誤りとは、本来発声されていないにもかかわらず余計な単語を認識してしまう誤りのことを言う。 It is to be noted that the insertion error, refers to an error that would recognize despite the extra words that are not originally uttered. 一般に言語モデルにおいて確率が高いエントリは、挿入誤りを起こしやすい傾向がある。 General probability in the language model to the high entry, there is a tendency to cause the insertion error.

【0026】なお、エントロピーを利用して、重み付けを決定する場合には、指定語のある群に関してエントロピーを計算し、その値が大きい群ほどそれについての重みを小さくするのが好ましい。 [0026] Incidentally, by using the entropy, when determining the weighting entropy calculated for the group with the specified word, it is preferable to reduce the weight of it as the group value is large. エントロピーHは、−Σ Entropy H is, -Σ
logP により計算される。 It is calculated by N i P i logP i. ここで、P はある単語の出現確率であり、Nはある群に属する単語の数である。 Here, P i is the probability of occurrence of a word that is the number of words N belonging to a certain group.

【0027】 [0027]

【発明の効果】以上、詳述したように、本発明の連続音声認識装置によれば、大語彙の音声を連続的に認識する際に語彙のうち指定された語の認識精度を向上することができる。 Effect of the Invention] As described above in detail, according to the continuous speech recognition apparatus of the present invention, to improve the recognition accuracy of the given word of the vocabulary in recognizing speech large vocabulary continuous can. 本発明の装置または方法は、出現する語彙が比較的に限定されているか、ある程度予測が可能な対話音声の認識率の向上に役立つ。 Apparatus or method of the present invention, either emerging vocabulary is limited relatively to help somewhat improve the recognition rate of spoken dialogue that can be predicted.

【0028】また、本発明の確率正規化手段を利用すると、図3に示すように、確率修正手段の後に実行することによって、言語モデルに対してより正確に連鎖確率を修正することができ、音声認識結果としての利用範囲が広がる。 Moreover, the use of probability normalization means of the present invention, as shown in FIG. 3, by performing the following probability correction unit, can be corrected more accurately linkage probability for the language model, spread the use range as a result of speech recognition.

【0029】そして、特定のデータ群における指定語の出現頻度に応じて各単語に掛け合わせる重みを決定することによって、修正した言語モデルにおいて極端に大きな連鎖確率を持つエントリが生じることを押さえられるため、指定語の挿入誤りを押さえ、より指定語の認識精度をさらに向上させることができる。 [0029] Then, by determining the weight multiplying each word in accordance with the frequency of occurrence of the specified word in a particular data set, since it is pressing that the entry occurs to excessively with a large linkage probability in the language model modified , pressing the insertion error of the specified word, it is possible to further improve the recognition accuracy of the specified word.

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

【図1】本発明に係る一実施形態である、特徴抽出手段3と、音声認識手段4と、言語モデル修正手段6と、言語モデル51を備えた連続音声認識システムの構成を示すブロック図である。 1 is an embodiment of the present invention, the characteristic extracting unit 3, a speech recognition unit 4, a language model modifying means 6, a block diagram showing the configuration of a continuous speech recognition system having a language model 51 is there.

【図2】確率の正規化を含む本発明にかかる別の実施形態を示すブロック図である。 2 is a block diagram illustrating another embodiment according to the present invention comprising a normalization of the probability.

【図3】本発明による重み決定方法の一例を示すフローチャートである。 3 is a flowchart showing an example of a weight determination method according to the invention.

【符号の説明】 DESCRIPTION OF SYMBOLS

1 マイクロフォン 2 増幅器 3 特徴抽出手段 4 音声認識手段 51 言語モデル 6 言語モデル修正手段 61 確率修正手段 7 重み決定 1 microphone 2 amplifier 3 feature extracting unit 4 speech recognition means 51 language model 6 language model modifying means 61 probability correction unit 7 weight determination

Claims (5)

    【特許請求の範囲】 [The claims]
  1. 【請求項1】 認識対象の音声の連続的な入力を受け付ける音声入力手段と、該音声を分析して特徴を抽出する特徴抽出手段と、認識対象語彙の各語が出現する確率を記述した言語モデルと、該特徴と該言語モデルを用いて音声認識を行い音声認識結果を出力する音声認識手段とを有する連続音声認識装置において、該言語モデルに記述される全単語のうち指定された語に関する確率に対する重みを決定する重み決定手段と、該確率に該重みを掛け合わせることにより該言語モデルにおける各語の確率を修正する確率修正手段とを備え、該確率修正手段から得られる修正された確率により修正された言語モデルに基づいて音声認識を行うことを特徴とする連続音声認識装置。 1. A an audio input means for receiving successive input of the recognition target voice, and feature extracting means for extracting a feature by analyzing the voice, language each word of the recognition target vocabulary describing the probability of occurrence and model the continuous speech recognition apparatus having speech recognition means for outputting a speech recognition result performs speech recognition using the feature and 該言 word model relating words specified among all words that are written in 該言 language model a weight determining means for determining a weight for probability, the probability of a probability correction means for correcting the probability of each word in 該言 language model was modified obtained from said probability modifying means by multiplying the heavy body on said probability continuous speech recognition apparatus and performing speech recognition based on the language model modified by.
  2. 【請求項2】 前記確率修正手段により修正された確率を正規化して、前記言語モデル中の全単語の確率の和が1になるようにする確率正規化手段を備えたことを特徴とする請求項1記載の連続音声認識装置。 2. A normalized probability that has been modified by the probability correction unit, wherein the sum of all words of the probability in the language model, characterized in that with a probability normalization means to be 1 continuous speech recognition apparatus of claim 1, wherein.
  3. 【請求項3】 前記重み決定手段において、特定のデータ群における指定語の出現頻度に応じて各単語に掛け合わせる重みを決定することを特徴とする請求項1記載の連続音声認識装置。 3. A said weight determining means, continuous speech recognition apparatus according to claim 1, wherein the determining the weights multiplying each word in accordance with the frequency of occurrence of the specified word in a particular data set.
  4. 【請求項4】 前記重み決定手段が指定語のエントロピーを基準にして指定語に関する全ての確率に掛け合わせる重みを決定することを特徴とする請求項1記載の連続音声認識装置。 4. A continuous speech recognition apparatus according to claim 1, wherein the determining the weight multiplying all the probabilities for the specified language in the said weight determination means based on the entropy of the specified word.
  5. 【請求項5】 認識対象の音声の連続的な入力を受け付ける入力ステップと、該音声を分析して特徴を抽出する特徴抽出ステップと、あらかじめ作成された認識対象語彙の各語が出現する確率を記述した言語モデルに記述される全単語のうち指定された語に関する確率に対する重みを決定する重み決定ステップと、該確率に該重みを掛け合わせることにより該言語モデルにおける各語の確率を修正する確率修正ステップと、修正された確率を含む言語モデルと該特徴とを用いて音声認識を行い音声認識結果を出力する音声認識ステップとを備えたことを特徴とする連続音声認識方法。 An input step of 5. accepts successive input of the recognition target voice, and feature extraction step of extracting a feature by analyzing the voice, the probability that each word of the recognition target words that are created in advance appears a weight determining step of determining a weight for probability for a given word of all words that are written in the language model that describes the probability of modifying the probability of each word in 該言 language model by multiplying the heavy body on said probability and correction step, continuous speech recognition method characterized by comprising a speech recognition step of outputting a voice recognition result performs speech recognition using the language model and the feature containing the modified probability.
JP28143799A 1999-10-01 1999-10-01 Continuous voice recognition device and continuous voice recognition method Pending JP2001109491A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28143799A JP2001109491A (en) 1999-10-01 1999-10-01 Continuous voice recognition device and continuous voice recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28143799A JP2001109491A (en) 1999-10-01 1999-10-01 Continuous voice recognition device and continuous voice recognition method

Publications (1)

Publication Number Publication Date
JP2001109491A true JP2001109491A (en) 2001-04-20

Family

ID=17639168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28143799A Pending JP2001109491A (en) 1999-10-01 1999-10-01 Continuous voice recognition device and continuous voice recognition method

Country Status (1)

Country Link
JP (1) JP2001109491A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007226091A (en) * 2006-02-27 2007-09-06 Nippon Hoso Kyokai <Nhk> Speech recognizer and speech recognizing program
WO2007142102A1 (en) * 2006-05-31 2007-12-13 Nec Corporation Language model learning system, language model learning method, and language model learning program
JP2010078877A (en) * 2008-09-25 2010-04-08 Pioneer Electronic Corp Speech recognition device, speech recognition method, and speech recognition program
JP2011048405A (en) * 2010-12-10 2011-03-10 Nippon Hoso Kyokai <Nhk> Speech recognition device and speech recognition program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007226091A (en) * 2006-02-27 2007-09-06 Nippon Hoso Kyokai <Nhk> Speech recognizer and speech recognizing program
WO2007142102A1 (en) * 2006-05-31 2007-12-13 Nec Corporation Language model learning system, language model learning method, and language model learning program
US8831943B2 (en) 2006-05-31 2014-09-09 Nec Corporation Language model learning system, language model learning method, and language model learning program
JP2010078877A (en) * 2008-09-25 2010-04-08 Pioneer Electronic Corp Speech recognition device, speech recognition method, and speech recognition program
JP2011048405A (en) * 2010-12-10 2011-03-10 Nippon Hoso Kyokai <Nhk> Speech recognition device and speech recognition program

Similar Documents

Publication Publication Date Title
Zissman et al. Automatic language identification
US6751595B2 (en) Multi-stage large vocabulary speech recognition system and method
DE69829235T2 (en) Registration for speech recognition
US6912499B1 (en) Method and apparatus for training a multilingual speech model set
ES2391454T3 (en) Automatic identification of telephone callers based on voice features
US6961705B2 (en) Information processing apparatus, information processing method, and storage medium
US7181398B2 (en) Vocabulary independent speech recognition system and method using subword units
US6064959A (en) Error correction in speech recognition
US6092044A (en) Pronunciation generation in speech recognition
US5710866A (en) System and method for speech recognition using dynamically adjusted confidence measure
US7043422B2 (en) Method and apparatus for distribution-based language model adaptation
US6067514A (en) Method for automatically punctuating a speech utterance in a continuous speech recognition system
Zhan et al. Vocal tract length normalization for large vocabulary continuous speech recognition
US7289950B2 (en) Extended finite state grammar for speech recognition systems
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
JP5327054B2 (en) Pronunciation variation rule extraction device, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
US20050091054A1 (en) Method and apparatus for generating and displaying N-Best alternatives in a speech recognition system
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
EP1346343B1 (en) Speech recognition using word-in-phrase command
JP4543294B2 (en) Voice recognition apparatus, voice recognition method, and recording medium
EP1557822B1 (en) Automatic speech recognition adaptation using user corrections
JP4351385B2 (en) Speech recognition system for recognizing continuous and separated speech
US6163768A (en) Non-interactive enrollment in speech recognition
EP0867859B1 (en) Speech recognition language models
US7421387B2 (en) Dynamic N-best algorithm to reduce recognition errors