JP2001242883A - Device and method for speech recognition, and recording medium - Google Patents

Device and method for speech recognition, and recording medium

Info

Publication number
JP2001242883A
JP2001242883A JP2000051464A JP2000051464A JP2001242883A JP 2001242883 A JP2001242883 A JP 2001242883A JP 2000051464 A JP2000051464 A JP 2000051464A JP 2000051464 A JP2000051464 A JP 2000051464A JP 2001242883 A JP2001242883 A JP 2001242883A
Authority
JP
Japan
Prior art keywords
word
score
words
speech recognition
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000051464A
Other languages
Japanese (ja)
Other versions
JP4600705B2 (en
Inventor
Hiroaki Ogawa
浩明 小川
Katsuki Minamino
活樹 南野
Koji Asano
康治 浅野
Lucke Helmut
ルッケ ヘルムート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000051464A priority Critical patent/JP4600705B2/en
Publication of JP2001242883A publication Critical patent/JP2001242883A/en
Application granted granted Critical
Publication of JP4600705B2 publication Critical patent/JP4600705B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To improve speech recognition rate. SOLUTION: A word preliminary selection section 13 selects a word string, that is connected to the words for which scores are already computed and are made up with several words, from a dictionary database 18A. A matching section 14 computes a score for the leading word, that is the leading word of the word string, based on more than one word following the leading word of the word string. Then, a word connection information storage section 16 stores the connecting relationship between the leading word whose score is computed and the word that is connected with the leading word and the score is already computed. A control section 11 decides a speech recognition result, based on the connecting relationship and the score.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声認識装置およ
び音声認識方法、並びに記録媒体に関し、特に、例え
ば、高速、かつ高精度な音声認識を行うことができるよ
うにする音声認識装置および音声認識方法、並びに記録
媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition apparatus, a speech recognition method, and a recording medium, and more particularly to, for example, a speech recognition apparatus and a speech recognition that can perform high-speed and high-accuracy speech recognition. The present invention relates to a method and a recording medium.

【0002】[0002]

【従来の技術】図1は、従来の音声認識装置の一例の構
成を示している。
2. Description of the Related Art FIG. 1 shows the configuration of an example of a conventional speech recognition apparatus.

【0003】ユーザが発した音声は、マイク(マイクロ
フォン)1に入力され、マイク1では、その入力音声
が、電気信号としての音声信号に変換される。この音声
信号は、AD(Analog Digital)変換部2に供給される。
AD変換部2では、マイク1からのアナログ信号である
音声信号がサンプリング、量子化され、ディジタル信号
である音声データに変換される。この音声データは、特
徴抽出部3に供給される。
[0003] A voice emitted by a user is input to a microphone (microphone) 1, which converts the input voice into a voice signal as an electric signal. This audio signal is supplied to an AD (Analog Digital) converter 2.
The AD converter 2 samples and quantizes an audio signal that is an analog signal from the microphone 1 and converts it into audio data that is a digital signal. This audio data is supplied to the feature extraction unit 3.

【0004】特徴抽出部3は、AD変換部2からの音声
データについて、適当なフレームごとに音響処理を施
し、これにより、例えば、MFCC(Mel Frequency Cep
strumCoefficient)等の特徴量を抽出し、マッチング部
4に供給する。なお、特徴抽出部3では、その他、例え
ば、スペクトルや、線形予測係数、ケプストラム係数、
線スペクトル対等の特徴量を抽出することが可能であ
る。
[0004] The feature extraction unit 3 performs audio processing on the audio data from the AD conversion unit 2 for each appropriate frame, thereby obtaining, for example, an MFCC (Mel Frequency Cep).
A feature amount such as strumCoefficient) is extracted and supplied to the matching unit 4. In addition, the feature extraction unit 3 further includes, for example, a spectrum, a linear prediction coefficient, a cepstrum coefficient,
It is possible to extract a feature amount such as a line spectrum pair.

【0005】マッチング部4は、特徴抽出部3からの特
徴量を用いて、音響モデルデータベース5、辞書データ
ベース6、および文法データベース7を必要に応じて参
照しながら、マイク1に入力された音声(入力音声)
を、例えば、連続分布HMM法等に基づいて音声認識す
る。
The matching unit 4 uses the feature amount from the feature extracting unit 3 to refer to the acoustic model database 5, the dictionary database 6, and the grammar database 7 as necessary, and to input the voice ( Input voice)
Is recognized based on, for example, a continuous distribution HMM method or the like.

【0006】即ち、音響モデルデータベース5は、音声
認識する音声の言語における個々の音素や音節などの音
響的な特徴を表す音響モデルを記憶している。ここで
は、連続分布HMM法に基づいて音声認識を行うので、
音響モデルとしては、例えば、HMM(Hidden Markov M
odel)が用いられる。辞書データベース6は、認識対象
の各単語について、その発音に関する情報(音韻情報)
が記述された単語辞書を記憶している。文法データベー
ス7は、辞書データベース6の単語辞書に登録されてい
る各単語が、どのように連鎖する(つながる)かを記述
した文法規則(言語モデル)を記憶している。ここで、
文法規則としては、例えば、文脈自由文法(CFG)
や、統計的な単語連鎖確率(N−gram)などに基づ
く規則を用いることができる。
That is, the acoustic model database 5 stores acoustic models representing acoustic features such as individual phonemes and syllables in the language of the speech to be recognized. Here, since speech recognition is performed based on the continuous distribution HMM method,
As an acoustic model, for example, HMM (Hidden Markov M
odel) is used. The dictionary database 6 includes information on pronunciation (phonological information) of each word to be recognized.
Is stored in the word dictionary. The grammar database 7 stores grammar rules (language models) describing how words registered in the word dictionary of the dictionary database 6 are linked (connected). here,
As grammar rules, for example, context-free grammar (CFG)
Alternatively, a rule based on a statistical word chain probability (N-gram) or the like can be used.

【0007】マッチング部4は、辞書データベース6の
単語辞書を参照することにより、音響モデルデータベー
ス5に記憶されている音響モデルを接続することで、単
語の音響モデル(単語モデル)を構成する。さらに、マ
ッチング部4は、幾つかの単語モデルを、文法データベ
ース7に記憶された文法規則を参照することにより接続
し、そのようにして接続された単語モデルを用いて、特
徴量に基づき、連続分布HMM法によって、マイク1に
入力された音声を認識する。即ち、マッチング部4は、
特徴抽出部3が出力する時系列の特徴量が観測されるス
コア(尤度)が最も高い単語モデルの系列を検出し、そ
の単語モデルの系列に対応する単語列を、音声の認識結
果として出力する。
[0007] The matching unit 4 refers to the word dictionary of the dictionary database 6 and connects the acoustic models stored in the acoustic model database 5 to form a word acoustic model (word model). Further, the matching unit 4 connects several word models by referring to the grammar rules stored in the grammar database 7, and uses the word models connected in this way to generate a continuous The voice input to the microphone 1 is recognized by the distributed HMM method. That is, the matching unit 4
The feature extraction unit 3 detects a sequence of a word model having the highest score (likelihood) at which a time-series feature amount is observed, and outputs a word sequence corresponding to the word model sequence as a speech recognition result. I do.

【0008】即ち、マッチング部4は、接続された単語
モデルに対応する単語列について、各特徴量の出現確率
を累積し、その累積値をスコアとして、そのスコアを最
も高くする単語列を、音声認識結果として出力する。
That is, the matching section 4 accumulates the appearance probabilities of the respective feature amounts for the word string corresponding to the connected word model, and uses the accumulated value as a score, and outputs the word string having the highest score as a voice. Output as recognition result.

【0009】スコア計算は、一般に、音響モデルデータ
ベース5に記憶された音響モデルによって与えられる音
響的なスコア(以下、適宜、音響スコアという)と、文
法データベース7に記憶された文法規則によって与えら
れる言語的なスコア(以下、適宜、言語スコアという)
とを総合評価することで行われる。
Generally, the score calculation is performed by using an acoustic score (hereinafter, appropriately referred to as an acoustic score) given by an acoustic model stored in an acoustic model database 5 and a language given by a grammatical rule stored in a grammatical database 7. Score (hereinafter referred to as language score as appropriate)
It is performed by comprehensively evaluating

【0010】即ち、音響スコアは、例えば、HMM法に
よる場合には、単語モデルを構成する音響モデルから、
特徴抽出部3が出力する特徴量の系列が観測される確率
(出現する確率)に基づいて、単語ごとに計算される。
また、言語スコアは、例えば、バイグラムによる場合に
は、注目している単語と、その単語の直前の単語とが連
鎖(連接)する確率に基づいて求められる。そして、各
単語についての音響スコアと言語スコアとを総合評価し
て得られる最終的なスコア(以下、適宜、最終スコアと
いう)に基づいて、音声認識結果が確定される。
That is, for example, in the case of using the HMM method, the acoustic score is obtained from the acoustic model constituting the word model.
It is calculated for each word based on the probability of observing the sequence of feature values output by the feature extracting unit 3 (probability of appearance).
In the case of a bigram, for example, the language score is determined based on the probability that the word of interest and the word immediately before the word are linked (connected). Then, a speech recognition result is determined based on a final score (hereinafter, appropriately referred to as a final score) obtained by comprehensively evaluating an acoustic score and a language score for each word.

【0011】具体的には、あるN個の単語からなる単語
列におけるk番目の単語をwkとして、その単語wkの音
響スコアをA(wk)と、言語スコアをL(wk)と、そ
れぞれ表すとき、その単語列の最終スコアSは、例え
ば、次式にしたがって計算される。
Specifically, the k-th word in a word string composed of a certain N words is w k , the acoustic score of the word w k is A (w k ), and the language score is L (w k ). , Respectively, the final score S of the word string is calculated according to, for example, the following equation.

【0012】 S=Σ(A(wk)+Ck×L(wk)) ・・・(1) 但し、Σは、kを1からNに変えてのサメーションをと
ることを表す。また、C kは、単語wkの言語スコアL
(wk)にかける重みを表す。
S = Σ (A (wk) + Ck× L (wk)) (1) where Σ is the summation of changing k from 1 to N
It represents that. Also, C kIs the word wkLanguage score L
(Wk).

【0013】マッチング部4では、例えば、式(1)に
示す最終スコアを最も大きくするNと、単語列w1
2,・・・,wNを求めるマッチング処理が行われ、そ
の単語列w1,w2,・・・,wNが、音声認識結果とし
て出力される。
In the matching unit 4, for example, N which maximizes the final score shown in the equation (1), the word string w 1 ,
w 2, · · ·, matching processing for obtaining the w N is performed, the word sequence w 1, w 2, ···, w N is output as a speech recognition result.

【0014】以上のような処理が行われることにより、
図1の音声認識装置では、例えば、ユーザが、「ニュー
ヨークに行きたいです」と発話した場合には、「ニュー
ヨーク」、「に」、「行きたい」、「です」といった各
単語に、音響スコアおよび言語スコアが与えられ、それ
らを総合評価して得られる最終スコアが最も大きいとき
と、単語列「ニューヨーク」、「に」、「行きたい」、
「です」が、音声認識結果として出力される。
By performing the above processing,
In the speech recognition device of FIG. 1, for example, when the user utters “I want to go to New York”, an acoustic score is added to each word such as “New York”, “Nii”, “I want to go”, “I”. And the linguistic score, and when the final score obtained by comprehensively evaluating them is the largest, and when the word strings "New York", "to", "want to go",
"Is" is output as the speech recognition result.

【0015】ところで、上述の場合において、辞書デー
タベース6の単語辞書に、「ニューヨーク」、「に」、
「行きたい」、および「です」の5単語が登録されてい
るとすると、これらの5単語を用いて構成しうる5単語
の並びは、55通り存在する。従って、単純には、マッ
チング部4では、この55通りの単語列を評価し、その
中から、ユーザの発話に最も適合するもの(最終スコア
を最も大きくするもの)を決定しなければならない。そ
して、単語辞書に登録する単語数が増えれば、その単語
数分の単語の並びの数は、単語数の単語数乗通りになる
から、評価の対象としなければならない単語列は、膨大
な数となる。
In the above case, the word dictionaries of the dictionary database 6 include "New York", "Ni",
When 5 words of "I want to go", and "is" is registered, the arrangement of the 5 words that can be constructed using these five words, the presence of 5 5 ways. Thus, simply, the matching section 4 evaluates the word sequence of the 5 5 kinds, among them, must determine the best match to the utterance of the user (which maximized the final score). If the number of words to be registered in the word dictionary increases, the number of words arranged as the number of words becomes the same as the number of words to the number of words, so the number of word strings to be evaluated is huge. Becomes

【0016】さらに、一般には、発話中に含まれる単語
の数は未知であるから、5単語の並びからなる単語列だ
けでなく、1単語、2単語、・・・からなる単語列も、
評価の対象とする必要がある。従って、評価すべき単語
列の数は、さらに膨大なものとなるから、そのような膨
大な単語列の中から、音声認識結果として最も確からし
いものを、計算量および使用するメモリ容量の観点から
効率的に決定することは、非常に重要な問題である。
Furthermore, since the number of words included in an utterance is generally unknown, not only a word string consisting of a sequence of five words but also a word string consisting of one word, two words,.
Need to be evaluated. Therefore, the number of word strings to be evaluated becomes even more enormous, and among such enormous word strings, the most probable speech recognition result is determined from the viewpoint of the amount of calculation and the memory capacity used. Efficient decisions are a very important issue.

【0017】計算量およびメモリ容量の効率化を図る方
法としては、例えば、音響スコアを求める過程におい
て、その途中で得られる音響スコアが所定の閾値以下と
なった場合に、そのスコア計算を打ち切るという音響的
な枝刈り手法や、言語スコアに基づいて、スコア計算の
対象とする単語を絞り込む言語的な枝刈り手法がある。
As a method for improving the efficiency of the calculation amount and the memory capacity, for example, in the process of obtaining an acoustic score, if the acoustic score obtained in the middle of the process becomes equal to or less than a predetermined threshold, the score calculation is terminated. There are acoustic pruning techniques and linguistic pruning techniques for narrowing down words to be scored based on linguistic scores.

【0018】これらの枝刈り手法によれば、スコア計算
の対象が、所定の判断基準(例えば、上述したような計
算途中の音響スコアや、単語に与えられる言語スコア)
に基づいて絞り込まれることで、計算量の削減を図るこ
とができる。しかしながら、その反面、絞り込みを強く
すると、即ち、判断基準を厳しくすると、本来、音声認
識結果として正しいものまでも枝刈りされてしまい、誤
認識が生じることになる。従って、枝刈り手法による場
合には、音声認識結果として正しいものが枝刈りされな
いように、ある程度のマージンをもたせた絞り込みを行
う必要があり、このため、計算量を大きく削減すること
は困難である。
According to these pruning methods, the target of score calculation is a predetermined criterion (for example, an acoustic score in the middle of calculation or a language score given to a word as described above).
, The calculation amount can be reduced. However, on the other hand, if the refinement is strengthened, that is, if the criterion is made strict, even the correct speech recognition result is originally pruned, resulting in erroneous recognition. Therefore, in the case of the pruning method, it is necessary to perform narrowing down with a certain margin so that a correct speech recognition result is not pruned, and it is difficult to greatly reduce the calculation amount. .

【0019】また、音響スコアを求める場合に、スコア
計算の対象となっているすべての単語について独立に行
うと、その計算量が大きくなることから、複数の単語に
ついての音響スコアの計算の一部を共通化(共有化)す
る方法が提案されている。この共通化の方法としては、
単語辞書の単語のうち、その先頭の音韻が同一のものに
ついて、その先頭の音韻から、同一になっている音韻ま
では、音響モデルを共通に用い、それ以後の異なる音韻
には、音響モデルを個々に用いることにより、全体とし
て1つの木構造のネットワークを構成し、これを用い
て、音響スコアを求める方法がある。具体的には、例え
ば、いま、単語「秋田」と「曙」を考え、「秋田」の音
韻情報が「akita」であり、「曙」の音韻情報が「akebo
no」であるとすると、単語「秋田」と「曙」の音響スコ
アは、それぞれの先頭から2番目までの同一の音韻a,k
については兼用で計算される。そして、単語「秋田」の
残りの音韻k,i,t,a、および単語「曙」の残りの音韻e,
b,o,n,oについては、それぞれ独立に音響スコアが計算
される。
Further, when calculating the acoustic score, if the calculation is performed independently for all the words for which the score is to be calculated, the amount of calculation becomes large. Therefore, a part of the calculation of the acoustic score for a plurality of words is performed. There has been proposed a method of sharing (sharing) the same. As a method of this commonization,
Of the words in the word dictionary, if the first phoneme is the same, use the acoustic model in common from the first phoneme to the same phoneme, and use the acoustic model for subsequent different phonemes. There is a method in which a single tree-structured network is configured as a whole by using each of them individually, and an acoustic score is obtained using the network. Specifically, for example, considering the words “Akita” and “Akebono”, the phoneme information of “Akita” is “akita” and the phoneme information of “Akebono” is “akebo”
If "no", the acoustic scores of the words "Akita" and "Akebono" are the same phonemes a, k
Is calculated for both uses. Then, the remaining phonemes k, i, t, a of the word “Akita” and the remaining phonemes e,
For b, o, n, and o, an acoustic score is calculated independently.

【0020】従って、この方法によれば、音響スコアの
計算量を大幅に低減することができる。
Therefore, according to this method, the calculation amount of the acoustic score can be greatly reduced.

【0021】しかしながら、この方法では、共通化され
ている部分(音響スコアが兼用で計算される部分)にお
いて、その音響スコアの計算の対象となっている単語を
決定することができない。即ち、上述の単語「秋田」と
「曙」の例でいえば、それぞれの先頭から2番目までの
音韻a,kについて音響スコアが計算されている場合は、
その音響スコアが計算されている単語が、「秋田」であ
るのか、または「曙」であるのかを同定することができ
ない。
However, according to this method, it is not possible to determine the word for which the acoustic score is to be calculated in the common portion (the portion where the acoustic score is also calculated). That is, in the case of the above words “Akita” and “Akebono”, if the acoustic score is calculated for the first two phonemes a and k,
It is not possible to identify whether the word whose acoustic score is calculated is “Akita” or “Akebono”.

【0022】そして、この場合、「秋田」については、
その3番目の音韻iについて音響スコアの計算が開始さ
れたときに、その計算対象が「秋田」であることを同定
することができ、「曙」についても、その3番目の音韻
eについての音響スコアの計算が開始されたときに、そ
の計算対象が「曙」であることを同定することができ
る。
In this case, for "Akita",
When the calculation of the acoustic score is started for the third phoneme i, it is possible to identify that the calculation target is “Akita”.
When the calculation of the acoustic score for e is started, it is possible to identify that the calculation target is “Akebono”.

【0023】従って、音響スコアの計算の一部を共通化
してしまうと、単語の音響スコアの計算の開始時に、そ
の単語を同定することができないため、その単語につい
て、言語スコアを考慮することができない。その結果、
単語の音響スコアの開始前に、上述したような言語的な
枝刈り手法を用いることが困難となり、無駄な計算が行
われることがある。
Therefore, if a part of the calculation of the acoustic score is standardized, the word cannot be identified at the start of the calculation of the acoustic score of the word. Can not. as a result,
Before the start of the acoustic score of a word, it becomes difficult to use the linguistic pruning method as described above, and useless calculation may be performed.

【0024】さらに、音響スコアの計算の一部を共通化
する場合、単語辞書のすべての単語を対象として、上述
したような木構造のネットワークが構成されるから、こ
れを保持するための大きなメモリ容量が必要となる。
Further, when a part of the calculation of the acoustic score is shared, the above-mentioned tree-structure network is formed for all the words in the word dictionary. Capacity is required.

【0025】また、計算量およびメモリ容量の効率化を
図る方法としては、音響スコアを計算する場合に、単語
辞書のすべての単語を対象とするのではなく、その音響
スコアの計算の対象とする単語を予備的に選択(予備選
択)し、その予備選択された単語についてだけ、音響ス
コアを計算する方法がある。ここで、予備選択は、例え
ば、それほど精度の高くない、簡易的な音響モデルや文
法規則を用いて行われる。
As a method of increasing the calculation amount and the memory capacity, when calculating the acoustic score, not all the words in the word dictionary but the acoustic score are calculated. There is a method of preliminarily selecting a word (preliminary selection) and calculating an acoustic score only for the preselected word. Here, the preliminary selection is performed using, for example, a simple acoustic model or a grammar rule that is not so high in accuracy.

【0026】なお、予備選択の方法は、例えば、L. R.
Bahl, S. V. De Gennaro, P. S. Gopalakrishnan and
R. L. Mercer, "A Fast Approximate Acoustic Match f
or Large Vocabulary Speech Recognition", IEEE Tran
s. Speech and Audio Proc.,vol. 1, pp.59-67, 1993等
に記載されている。
The method of preliminary selection is, for example, LR
Bahl, SV De Gennaro, PS Gopalakrishnan and
RL Mercer, "A Fast Approximate Acoustic Match f
or Large Vocabulary Speech Recognition ", IEEE Tran
s. Speech and Audio Proc., vol. 1, pp. 59-67, 1993 and the like.

【0027】ところで、単語の音響スコアは、音声の特
徴量の系列を用いて計算されるが、その計算に使用する
特徴量の系列の始点や終点が異なれば、求められる音響
スコアも変化する。そして、この変化は、音響スコアと
言語スコアとを総合評価して求められる式(1)の最終
スコアに影響する。
By the way, the acoustic score of a word is calculated using a sequence of feature amounts of speech. If the starting point and the end point of the sequence of feature amounts used for the calculation are different, the obtained acoustic score also changes. Then, this change affects the final score of Expression (1) obtained by comprehensively evaluating the acoustic score and the language score.

【0028】ある単語に対応する特徴量の系列の始点お
よび終点、即ち、単語どうしの境界(単語境界)は、例
えば、動的計画法(Dynamic Programming)を用いて求め
ることができる。即ち、特徴量の系列の任意の点を、単
語境界の候補とし、音声認識結果の候補となる単語列の
単語について、その音響スコアと言語スコアとを総合評
価したスコア(以下、適宜、単語スコアという)を、逐
次累積していく。そして、その単語スコアの累積の際
に、最も大きい累積値を与える単語境界の候補を、その
累積値とともに記憶していく。
The start point and end point of a sequence of feature amounts corresponding to a certain word, that is, boundaries between words (word boundaries) can be obtained by using, for example, dynamic programming (Dynamic Programming). That is, a score obtained by comprehensively evaluating an acoustic score and a linguistic score of a word in a word string that is a candidate for a speech recognition result is set as an arbitrary point in the series of feature amounts as a candidate for a word boundary (hereinafter, the word score is appropriately determined) ) Are sequentially accumulated. Then, at the time of accumulating the word scores, word boundary candidates giving the largest accumulated value are stored together with the accumulated value.

【0029】これにより、最終的な単語スコアの累積値
が求めらると、最も良い累積値、即ち、最も大きい最終
スコアを与える単語境界も求められる。
Thus, when the final accumulated value of the word scores is obtained, the best accumulated value, that is, the word boundary giving the largest final score is also obtained.

【0030】上述のようにして単語境界を求める方法
は、ビタビデコーディング(Viterbi decoding)、あるい
はワンパスデコーディング(One pass decoding)等と呼
ばれ、例えば、中川聖一、「確率モデルによる音声認
識」、電子情報通信学会、pp.20-26、1988年7月1
日等に、その詳細が記載されている。
The method of finding a word boundary as described above is called Viterbi decoding or One pass decoding. For example, Seiichi Nakagawa, "Speech Recognition by Stochastic Model" , IEICE, pp.20-26, July 1, 1988
Details are described on the date.

【0031】上述の予備選択を効果的に行うには、単語
境界をどこにするか、即ち、特徴量の系列(特徴量系
列)のどの点を始点とするかが非常に重要である。
In order to perform the above-mentioned preliminary selection effectively, it is very important to determine where the word boundary is located, that is, which point of the feature value sequence (feature value sequence) is to be the starting point.

【0032】具体的には、例えば、図2(A)に示すよ
うな、音声「今日はいい天気ですね」について得られた
特徴量系列において、「今日」と「は」との正しい単語
境界が、時刻t1である場合において、単語「今日」に
続く単語「は」に関して予備選択を行うときに、正しい
時刻t1より先行する時刻t1-1を始点として予備選択を
行うと、その予備選択には、単語「は」の特徴量だけで
なく、その直前の単語「今日」の最後の部分の特徴量が
影響する。一方、正しい時刻t1より後行する時刻t1+1
を始点として予備選択を行うと、その予備選択において
は、単語「は」の最初の部分の特徴量が用いられないこ
とになる。
Specifically, for example, as shown in FIG. 2A, in the feature amount sequence obtained for the voice “Today is fine weather”, the correct word boundary between “today” and “ha” Is the time t 1 , when the preliminary selection is performed on the word “ha” following the word “today”, the preliminary selection is performed starting from the time t 1-1 preceding the correct time t 1. The preliminary selection is affected not only by the feature amount of the word "ha" but also by the feature amount of the last part of the word "today" immediately before. On the other hand, the time t 1 + 1 to the trailing than the correct time t 1
Is used as a starting point, the feature amount of the first part of the word "ha" is not used in the preliminary selection.

【0033】従って、いずれにしても、始点を誤ると、
予備選択、ひいては、その後に行われるマッチング処理
に悪影響を与えることとなる。
Therefore, in any case, if the starting point is wrong,
This will adversely affect the pre-selection and eventually the subsequent matching process.

【0034】なお、図2においては(後述する図5およ
び図6においても同様)、左から右方向が、時間の経過
を表しており、また、音声区間の開始時刻を0として、
音声区間は時刻Tで終了するものとしてある。
In FIG. 2 (the same applies to FIGS. 5 and 6 to be described later), the direction from the left to the right represents the passage of time.
The voice section ends at time T.

【0035】上述した動的計画法を用いる方法では、特
徴量系列の最後、即ち、図2においては、音声区間の終
了時刻Tまでの単語スコア(音響スコアおよび言語スコ
ア)の計算が終了しないと、最終的な単語境界を決定す
ることができないため、予備選択を行う段階では、その
予備選択の始点となる単語境界を一意に決定することは
困難である。
In the above-described method using the dynamic programming, the calculation of the word score (the acoustic score and the language score) must be completed until the end of the feature amount sequence, that is, in FIG. Since the final word boundary cannot be determined, it is difficult to uniquely determine the word boundary that is the starting point of the preliminary selection at the stage of performing the preliminary selection.

【0036】そこで、単語境界の候補を、音声区間の特
徴量系列を用いた単語スコアの計算が終了するまで保持
しておく方法がある。
Therefore, there is a method in which word boundary candidates are held until the calculation of a word score using a feature amount sequence of a speech section is completed.

【0037】この方法では、例えば、音声区間の開始時
刻0を始点として、単語「今日」の単語スコアを計算し
た場合に、時刻t1-1,t1,t1+1が、単語「今日」の
発話の終点の候補として求まったとすると、この3通り
の時刻t1-1,t1,t1+1が保持され、それぞれを始点
として、次の単語の予備選択が行われる。
In this method, for example, when the word score of the word “today” is calculated starting from the start time 0 of the voice section, the times t 1-1 , t 1 , and t 1 + 1 correspond to the words “today”. , The three times t 1-1 , t 1 , and t 1 + 1 are held, and starting from each of them, preliminary selection of the next word is performed.

【0038】いま、この予備選択によって、時刻t1-1
を始点とした場合には、「は」と「いい」の2単語が、
時刻t1を始点とした場合には、「は」の1単語が、時
刻t1 +1を始点とした場合には、「は」と「いい」の2
単語が、それぞれ得られたとし、さらに、これらの各単
語を対象として単語スコアの計算を行うことにより、図
2(B)乃至図2(G)に示すような結果が得られたと
する。
Now, the time t 1-1 is obtained by this preliminary selection.
Is the starting point, the two words “ha” and “good”
When the time point t 1 is the starting point, one word “ha” is the starting point, and when the time point t 1 +1 is the starting point, two words “ha” and “good”
It is assumed that words are obtained, respectively, and that the results shown in FIGS. 2B to 2G are obtained by calculating word scores for these words.

【0039】即ち、図2(B)は、時刻t1-1を始点と
して、単語「は」の単語スコアの計算を行い、その終点
の候補として、時刻t2が得られた状態を示しており、
図2(C)は、時刻t1-1を始点として、単語「いい」
の単語スコアの計算を行い、その終点の候補として、時
刻t2+1が得られた状態を示している。また、図2
(D)は、時刻t1を始点として、単語「は」の単語ス
コアの計算を行い、その終点の候補として、時刻t2+1
が得られた状態を示しており、図2(E)は、時刻t1
を始点として、単語「は」の単語スコアの計算を行い、
その終点の候補として、時刻t2が得られた状態を示し
ている。さらに、図2(F)は、時刻t1+1を始点とし
て、単語「は」の単語スコアの計算を行い、その終点の
候補として、時刻t2が得られた状態を示しており、図
2(G)は、時刻t1+1を始点として、単語「いい」の
単語スコアの計算を行い、その終点の候補として、時刻
2+2が得られた状態を示している。なお、図2におい
ては、t1-1<t1<t1+1<t2<t 2+1<t2+2となって
いる。
That is, FIG. 2B shows the time t1-1With the starting point
Then, calculate the word score of the word "ha", the end point
At time tTwoShows the state where was obtained,
FIG. 2C shows the time t1-1Starts with the word "good"
Calculate the word score of
Time t2 + 1Shows the state obtained. FIG.
(D) is the time t1From the word "ha"
The core is calculated, and the time t2 + 1
FIG. 2E shows the state at time t.1
Starting from, calculate the word score for the word "ha",
As a candidate for the end point, time tTwoShows the state where
ing. Further, FIG.1 + 1Starting from
To calculate the word score for the word "ha"
As a candidate, time tTwoIs shown in the figure, and FIG.
2 (G) is the time t1 + 1Starting from the word "good"
Calculate the word score, and select the time
t2 + 2Shows the state obtained. In addition, in FIG.
T1-1<T1<T1 + 1<TTwo<T 2 + 1<T2 + 2Become
I have.

【0040】図2(B)乃至図2(G)のうち、図2
(B)、図2(E)、および図2(F)に示したものに
ついては、いずれも、音声認識結果の候補としての単語
列が、「今日」、「は」で同一あり、さらに、その単語
列の最後「は」の終点も、時刻t2で同一であるから、
その中から最も適切なものを、例えば、時刻t2までの
単語スコアの累積値等に基づいて選び、残りを破棄する
ことが可能である。
2B to 2G, FIG.
(B), FIG. 2 (E), and FIG. 2 (F), the word strings as candidates for the speech recognition result are the same as “today” and “ha”. also the end of the last "is" of the word string, because it is the same at the time t 2,
Those most appropriate among them, for example, select based on the accumulated value or the like of the word scores up to time t 2, the it is possible to discard the rest.

【0041】しかしながら、いまの時点では、図2
(B)、図2(E)、または図2(F)のうちから選ん
だものに、図2(C)、図2(D)、図2(G)に示し
たものを加えた中から、正しいものを確定することはで
きないから、これらの4通りの場合を保持しておく必要
がある。そして、この4通りの場合それぞれについて、
再び、予備選択を行っていくことになる。
However, at this point, FIG.
(B), FIG. 2 (E), or FIG. 2 (F), plus the ones shown in FIG. 2 (C), FIG. 2 (D), and FIG. 2 (G). Since the correct one cannot be determined, it is necessary to keep these four cases. And for each of these four cases,
The preliminary selection will be performed again.

【0042】従って、この方法では、音声区間の特徴量
系列を用いた単語スコアの計算が終了するまで、多くの
単語境界の候補を保持しながら、単語スコアの計算を行
っていく必要があり、計算量およびメモリ容量の効率化
の観点からは好ましくない。
Accordingly, in this method, it is necessary to calculate the word score while holding many word boundary candidates until the calculation of the word score using the feature amount sequence of the voice section is completed. It is not preferable from the viewpoint of the efficiency of the calculation amount and the memory capacity.

【0043】また、この場合、単語境界の候補として、
真に正しい単語境界を保持していれば、原理的には、上
述の動的計画法を用いた場合と同様の正しい単語境界
を、最終的に得ることができるが、その反面、単語境界
の候補として、真に正しい単語境界を保持し損ねると、
その単語境界を始点または終点とする単語を誤認識し、
さらには、それに起因して、その後に続く単語も誤認識
することがある。
In this case, as word boundary candidates,
If a truly correct word boundary is retained, in principle, the same correct word boundary as in the case of using the dynamic programming described above can be finally obtained, but on the other hand, the word boundary If you fail to maintain truly correct word boundaries,
Misrecognize words that start or end at that word boundary,
Further, due to this, the following word may be erroneously recognized.

【0044】一方、近年においては、音響モデルとし
て、前後のコンテキストに依存するもの(考慮したも
の)が用いられるようになってきている。前後のコンテ
キストに依存する音響モデルとは、同一の音節(または
音素)の音響モデルであっても、その直前や直後の音節
によって異なるものとしてモデル化したもので、従っ
て、例えば、音節「あ」は、その直前や直後の音節が、
例えば、「か」の場合と「さ」の場合とで、異なる音響
モデルにモデル化される。
On the other hand, in recent years, an acoustic model that depends on (considers) the context before and after has been used. The acoustic model depending on the context before and after is an acoustic model of the same syllable (or phoneme) that is modeled as being different depending on the syllable immediately before or immediately after it. Means that the syllable immediately before or after
For example, different acoustic models are modeled for “ka” and “sa”.

【0045】前後のコンテキストに依存する音響モデル
としては、大きく分けて、単語内のコンテキストに依存
する音響モデルと、単語間にまたがるコンテキストに依
存する音響モデルとがある。
Acoustic models that depend on contexts before and after are roughly divided into acoustic models that depend on contexts within words and acoustic models that depend on contexts between words.

【0046】単語内のコンテキストに依存する音響モデ
ルを用いる場合には、「今日」(きょう)という単語モ
デルを、音響モデル「きょ」と「う」とを連結して作成
するときに、音響モデル「きょ」として、その直後の音
節「う」に依存したもの(直後の音節「う」の影響を考
慮した音響モデル「きょ」)が用いられ、あるいは、音
響モデル「う」として、その直前の音節「きょ」に依存
したものが用いられる。
When an acoustic model that depends on the context in a word is used, when a word model of “today” (today) is created by connecting the acoustic models “kyo” and “u”, As the model "Kyo", a model that depends on the syllable "U" immediately after it (an acoustic model "Kyo" considering the influence of the syllable "U" immediately after) is used. The one that depends on the syllable "Kyo" immediately before it is used.

【0047】一方、単語間にまたがるコンテキストに依
存する音響モデルを用いる場合には、上述のように、
「今日」という単語モデルを、音響モデル「きょ」と
「う」とを連結して作成するときに、その後につづく単
語が「は」であれば、音響モデル「う」として、その直
後の単語の最初の音節「は」に依存したものが用いられ
る。この単語間にまたがるコンテキストに依存する音響
モデルは、クロスワードモデルと呼ばれる。
On the other hand, when an acoustic model that depends on a context extending between words is used, as described above,
When creating the word model “Today” by connecting the acoustic models “Kyo” and “U”, if the word that follows is “Ha”, it is assumed to be the acoustic model “U”, The one that depends on the first syllable "ha" of the word is used. This acoustic model that depends on the context spanning between words is called a crossword model.

【0048】このクロスワードモデルを、予備選択を行
う音声認識に適用した場合には、予備選択された単語に
ついて、その直前の単語との間のコンテキストは考慮す
ることができるが、その直後の単語は、まだ決まってい
ないから、その直後の単語との間のコンテキストは考慮
することができない。
When this crossword model is applied to speech recognition for making a preselection, the context between the preselected word and the immediately preceding word can be considered, but the immediately following word can be considered. Has not yet been determined, so the context between it and the immediately following word cannot be considered.

【0049】そこで、予備選択される単語について、そ
の単語の直後に位置する可能性の高い単語を、あらかじ
め求めておき、その単語との間のコンテキストを考慮し
て、単語モデルを作成する方法がある。即ち、例えば、
単語「今日」について、その直後に、「は」や、
「が」、「の」などが位置する可能性が高い場合には、
単語「今日」の単語モデルの最後の音節に対応する音響
モデル「う」として、「は」、「が」、「の」をそれぞ
れ考慮したものを用いて、単語モデルを作成する方法が
ある。
Therefore, a method of obtaining a word model which is likely to be located immediately after the word to be preliminarily selected in advance and creating a word model in consideration of the context between the word and the word is proposed. is there. That is, for example,
Immediately after the word "today",
If "ga" or "no" is likely to be located,
There is a method of creating a word model using an acoustic model “u” corresponding to the last syllable of the word model of the word “today”, which considers “ha”, “ga”, and “no”, respectively.

【0050】しかしながら、この方法では、余分なコン
テキストまでも必ず考慮してしまうため、演算量および
メモリ容量の効率化の観点からは好ましくない。
However, in this method, an extra context is always considered, which is not preferable from the viewpoint of the efficiency of the calculation amount and the memory capacity.

【0051】また、同様の理由から、予備選択された単
語について、その言語スコアを、その直後の単語を考慮
して計算することも困難である。
For the same reason, it is also difficult to calculate the language score of a preselected word in consideration of the word immediately after it.

【0052】一方、注目している単語(注目単語)に対
して先行する単語だけでなく、後行する単語も考慮した
音声認識方法としては、例えば、R. Schwartz and Y.
L. Chow, "The N-Best Algorithm: An Efficient and E
xact Procedure for FindingThe Most Likely Sentence
Hypotheses", Proc. ICASSP, pp.81-84, 1990に記載さ
れているような、2パスデコーディング(2 pass decodi
ng)と呼ばれる方法がある。
On the other hand, as a speech recognition method taking into account not only the word preceding the word of interest (the word of interest) but also the following word, for example, R. Schwartz and Y.
L. Chow, "The N-Best Algorithm: An Efficient and E
xact Procedure for FindingThe Most Likely Sentence
Hypotheses ", Proc. ICASSP, pp.81-84, 1990, two-pass decoding.
ng).

【0053】即ち、図3は、2パスデコーディングによ
る音声認識を行う、従来の音声認識装置の一例の概略構
成を示している。
That is, FIG. 3 shows a schematic configuration of an example of a conventional speech recognition apparatus for performing speech recognition by two-pass decoding.

【0054】図3において、マッチング部41は、例え
ば、図1のマッチング部4と同様のマッチング処理を行
い、その結果得られる単語列を出力する。但し、マッチ
ング部41は、マッチング処理の結果得られる複数の単
語列から、最終的な音声認識結果となるものを1つだけ
出力するのではなく、音声認識結果の候補として確から
しいものを複数出力する。
[0054] In FIG. 3, the matching section 4 1 performs, for example, the same matching processing as the matching section 4 of FIG. 1, and outputs a word string obtained as a result. However, multiple matching section 4 1, a plurality of word strings obtained as a result of the matching process, what is the final speech recognition result instead of outputting only one of those probable candidates for the speech recognition result Output.

【0055】マッチング部41の出力は、マッチング部
2に供給され、マッチング部42は、マッチング部41
が出力する複数の単語列それぞれについて、その単語列
を音声認識結果とすることの確からしさを再評価するマ
ッチング処理を行う。即ち、マッチング部41が出力す
る音声認識結果としての単語列においては、ある単語の
直前の単語だけでなく、直後の単語も存在するから、マ
ッチング部42では、直前の単語だけでなく、直後の単
語も考慮して、クロスワードモデルによって、音響スコ
アや言語スコアが新たに求められる。そして、マッチン
グ部42は、マッチング部41からの複数の単語列から、
各単語列の新たな音響スコアおよび言語スコアに基づい
て、音声認識結果として確からしいものを決定して出力
する。
[0055] The output of the matching section 4 1 is supplied to the matching section 4 2, the matching unit 4 2, the matching unit 4 1
Performs a matching process for re-evaluating the likelihood that the word string is the speech recognition result for each of the plurality of word strings output by. That is, in the word string as a speech recognition result matching section 4 1 outputs, as well as the words immediately preceding a word, because there is also a word after, the matching section 4 2, not only the last word, The acoustic score and the language score are newly obtained by the crossword model in consideration of the immediately succeeding word. Then, the matching section 4 2, a plurality of word strings from the matching section 4 1,
Based on the new acoustic score and linguistic score of each word string, a likely speech recognition result is determined and output.

【0056】なお、以上のような2パスデコーディング
では、一般に、最初のマッチング処理を行うマッチング
部41では、精度のそれほど高くない、簡易な音響モデ
ル、単語辞書、および文法規則が用いられ、後段のマッ
チング処理を行うマッチング部42では、高精度の音響
モデル、単語辞書、文法規則が用いられる。これによ
り、図3の音声認識装置では、マッチング部41と42
れぞれにおける処理量が、相互に緩和される一方、精度
の高い音声認識結果を得ることができるようになってい
る。
[0056] In the two-pass decoding, such as described above, generally, the matching section 4 1 performs first matching processing, not so high accuracy, simple acoustic models, a word dictionary, and a grammar rule are used, the matching section 4 2 for subsequent matching process, high accuracy of acoustic models, a word dictionary, grammar rules used. Thus, the speech recognition apparatus of FIG. 3, the amount of processing in the matching unit 4 1 and 4 2, respectively, while being relaxed to each other, thereby making it possible to obtain high speech recognition result with high accuracy.

【0057】図3は、上述のように、2パスデコーディ
ングの音声認識装置であるが、図3の後段のマッチング
部42の後段に、同様のマッチング部を追加したマルチ
パスデコーディング(multi pass decoding)の音声認識
装置も提案されている。
[0057] Figure 3, as described above, 2 is a voice recognition device of the path decoding, the subsequent stage of the subsequent matching section 4 2 of FIG. 3, the multi-pass decoding adding the same matching unit (multi Pass speech recognition systems have also been proposed.

【0058】しかしながら、2パスデコーディングやマ
ルチパスデコーディングでは、最初のマッチング処理が
終了するまで、次のマッチング処理を行うことができな
い。従って、音声の入力があってから、最終的な音声認
識結果が出力されるまでの遅延時間が大になる。
However, in the two-pass decoding and the multi-pass decoding, the next matching process cannot be performed until the first matching process is completed. Therefore, the delay time from the input of the voice to the output of the final voice recognition result increases.

【0059】そこで、例えば、幾つかの単語についての
最初のマッチング処理が終了した時点で、その幾つかの
単語については、クロスワードモデルを適用して後段の
マッチング処理を行うことを逐次的に繰り返す方法が、
例えば、M. Schuster, "Evaluation of a Stack Decode
r on a Japanese Newspaper Dictation Task", 音講論,
1-R-12, pp.141-142, 1997等で提案されている。
Therefore, for example, when the first matching process for some words is completed, for the some words, the subsequent matching process using the crossword model is sequentially repeated. The way
For example, M. Schuster, "Evaluation of a Stack Decode
r on a Japanese Newspaper Dictation Task ",
1-R-12, pp.141-142, 1997, etc.

【0060】[0060]

【発明が解決しようとする課題】しかしながら、マッチ
ング処理を逐次的に繰り返す方法でも、最初のマッチン
グ処理においては、予備選択された単語の直後の単語
は、まだ決まっていないから、その直後の単語との間の
コンテキストを考慮することは困難である。
However, even in the method of sequentially repeating the matching process, in the first matching process, the word immediately after the preselected word has not been determined yet, so that the word immediately after the preselected word is not determined. It is difficult to consider the context between.

【0061】本発明は、このような状況に鑑みてなされ
たものであり、単語についての音響的または言語的な評
価を、その直後の単語も考慮して行うことができるよう
にするものである。
The present invention has been made in view of such a situation, and is intended to enable the acoustic or linguistic evaluation of a word to be performed in consideration of the immediately succeeding word. .

【0062】[0062]

【課題を解決するための手段】本発明の音声認識装置
は、音声認識の対象とする単語群から、既にスコアの計
算がされた単語に接続する複数の単語からなる単語列を
選択する単語列選択手段と、単語列の先頭の単語である
先頭単語について、単語列の先頭単語に続く1以上の単
語に基づき、スコアを計算するスコア計算手段と、スコ
アの計算がされた先頭単語と、その先頭単語が接続す
る、既にスコアの計算がされた単語との間の接続関係を
記憶する接続関係記憶手段と、接続関係およびスコアに
基づいて、音声の音声認識結果を確定する確定手段とを
備えることを特徴とする。
According to the present invention, there is provided a speech recognition apparatus for selecting a word string including a plurality of words connected to a word whose score has been calculated from a group of words to be subjected to speech recognition. Selecting means, score calculating means for calculating a score for a head word which is the head word of the word string based on one or more words following the head word of the word string, head word for which the score has been calculated, A connection relation storage unit for storing a connection relation between a word to which the first word is connected and a word for which a score has been calculated, and a determination means for determining a speech recognition result of voice based on the connection relation and the score. It is characterized by the following.

【0063】スコア計算手段には、先頭単語について、
単語列の先頭単語に続く1以上の単語に基づき、音響的
または言語的なスコアを計算させることができる。
In the score calculation means, for the first word,
An acoustic or linguistic score can be calculated based on one or more words following the first word of the word sequence.

【0064】また、スコア計算手段には、確率的な言語
モデルを参照して、言語的なスコアを計算させることが
できる。
The score calculating means can calculate a linguistic score with reference to a probabilistic language model.

【0065】本発明の音声認識装置には、音声認識の対
象とする単語群を記憶している記憶手段をさらに設ける
ことができる。
The speech recognition apparatus according to the present invention may further include storage means for storing a word group to be subjected to speech recognition.

【0066】また、本発明の音声認識装置には、音声か
ら、その特徴量を抽出する抽出手段をさらに設けること
ができ、この場合、スコア計算手段には、特徴量を用い
て、スコアを計算させることができる。
Further, the speech recognition apparatus of the present invention can further comprise an extracting means for extracting the characteristic amount from the voice, and in this case, the score calculating means calculates the score using the characteristic amount. Can be done.

【0067】本発明の音声認識方法は、音声認識の対象
とする単語群から、既にスコアの計算がされた単語に接
続する複数の単語からなる単語列を選択する単語列選択
ステップと、単語列の先頭の単語である先頭単語につい
て、単語列の先頭単語に続く1以上の単語に基づき、ス
コアを計算するスコア計算ステップと、スコアの計算が
された先頭単語と、その先頭単語が接続する、既にスコ
アの計算がされた単語との間の接続関係を記憶させる接
続関係記憶ステップと、接続関係およびスコアに基づい
て、音声の音声認識結果を確定する確定ステップとを備
えることを特徴とする。
The speech recognition method according to the present invention comprises: a word string selection step of selecting a word string consisting of a plurality of words connected to a word whose score has been calculated from a group of words to be subjected to speech recognition; A score calculation step of calculating a score based on one or more words following the first word of the word string for the first word that is the first word of the word string, and connecting the first word for which the score has been calculated and the first word; It is characterized by comprising a connection relation storing step of storing a connection relation between words whose scores have already been calculated, and a determination step of determining a speech recognition result of the voice based on the connection relation and the score.

【0068】本発明の記録媒体は、音声認識の対象とす
る単語群から、既にスコアの計算がされた単語に接続す
る複数の単語からなる単語列を選択する単語列選択ステ
ップと、単語列の先頭の単語である先頭単語について、
単語列の先頭単語に続く1以上の単語に基づき、スコア
を計算するスコア計算ステップと、スコアの計算がされ
た先頭単語と、その先頭単語が接続する、既にスコアの
計算がされた単語との間の接続関係を記憶させる接続関
係記憶ステップと、接続関係およびスコアに基づいて、
音声の音声認識結果を確定する確定ステップとを備える
プログラムが記録されていることを特徴とする。
The recording medium of the present invention includes a word string selecting step of selecting a word string composed of a plurality of words connected to a word whose score has been calculated from a group of words to be subjected to speech recognition; For the first word, the first word,
A score calculation step of calculating a score based on one or more words following the first word of the word string; and a first word for which the score has been calculated and a word for which the first word is connected and for which a score has been calculated. Based on the connection relationship and the score,
And a determining step of determining the voice recognition result of the voice.

【0069】本発明の音声認識装置および音声認識方
法、並びに記録媒体においては、音声認識の対象とする
単語群から、既にスコアの計算がされた単語に接続する
複数の単語からなる単語列が選択され、その単語列の先
頭の単語である先頭単語について、単語列の先頭単語に
続く1以上の単語に基づき、スコアが計算される。そし
て、スコアの計算がされた先頭単語と、その先頭単語が
接続する、既にスコアの計算がされた単語との間の接続
関係が記憶され、その接続関係およびスコアに基づい
て、音声認識結果が確定される。
In the speech recognition apparatus, the speech recognition method, and the recording medium of the present invention, a word string composed of a plurality of words connected to the words whose scores have already been calculated is selected from a group of words to be subjected to speech recognition. Then, a score is calculated for the first word, which is the first word of the word string, based on one or more words following the first word of the word string. Then, the connection relation between the head word for which the score has been calculated and the word to which the head word is connected and for which the score has already been calculated is stored. Based on the connection relation and the score, the speech recognition result is obtained. Is determined.

【0070】[0070]

【発明の実施の形態】図4は、本発明を適用した音声認
識装置の一実施の形態の構成例を示している。なお、図
中、図1における場合と対応する部分については、同一
の符号を付してあり、以下では、その説明は、適宜省略
する。
FIG. 4 shows a configuration example of an embodiment of a speech recognition apparatus to which the present invention is applied. In the figure, parts corresponding to those in FIG. 1 are denoted by the same reference numerals, and a description thereof will be omitted as appropriate below.

【0071】特徴量抽出部3が出力する、ユーザが発し
た音声の特徴量の系列は、フレーム単位で、制御部11
に供給されるようになっており、制御部11は、特徴量
抽出部3からの特徴量を、特徴量記憶部12に供給す
る。
The sequence of the feature amount of the voice uttered by the user, which is output by the feature amount extraction unit 3, is divided into frames by the control unit 11
The control unit 11 supplies the feature value from the feature value extraction unit 3 to the feature value storage unit 12.

【0072】また、制御部11は、単語接続情報記憶部
16に記憶された単語接続情報を参照し、マッチング部
14や再評価部15を制御する。さらに、制御部11
は、マッチング部14が、前述した図1のマッチング部
4と同様のマッチング処理を行うことにより得られるマ
ッチング処理結果としての音響スコアや言語スコア等に
基づいて、単語接続情報を生成し、その単語接続情報に
よって、単語接続情報記憶部16の記憶内容を更新す
る。また、制御部11は、再評価部15の出力に基づい
て、単語接続情報記憶部16の記憶内容を修正する。さ
らに、制御部11は、単語接続情報記憶部16に記憶さ
れた単語接続情報に基づいて、最終的な音声認識結果を
確定して出力する。
The control unit 11 refers to the word connection information stored in the word connection information storage unit 16 and controls the matching unit 14 and the reevaluation unit 15. Further, the control unit 11
Generates word connection information based on an acoustic score, a linguistic score, or the like as a matching processing result obtained by the matching unit 14 performing the same matching processing as the matching unit 4 in FIG. The storage content of the word connection information storage unit 16 is updated with the connection information. Further, the control unit 11 corrects the storage content of the word connection information storage unit 16 based on the output of the reevaluation unit 15. Further, the control unit 11 determines and outputs the final speech recognition result based on the word connection information stored in the word connection information storage unit 16.

【0073】特徴量記憶部12は、制御部11から供給
される特徴量の系列を、例えば、ユーザの音声の認識結
果が得られるまで記憶する。なお、制御部11は、音声
区間の開始時刻を基準(例えば0)とする、特徴抽出部
3が出力する特徴量が得られた時刻(以下、適宜、抽出
時刻という)を、その特徴量とともに、特徴量記憶部1
2に供給するようになっており、特徴量記憶部12は、
特徴量を、その抽出時刻とともに記憶する。
The feature amount storage unit 12 stores a series of feature amounts supplied from the control unit 11 until, for example, a recognition result of a user's voice is obtained. The control unit 11 sets the time at which the feature amount output by the feature extraction unit 3 is obtained (hereinafter, appropriately referred to as an extraction time) with the start time of the voice section as a reference (for example, 0) together with the feature amount. , Feature amount storage unit 1
2 and the feature amount storage unit 12
The feature amount is stored together with the extraction time.

【0074】単語予備選択部13は、マッチング部14
からの要求に応じ、単語接続情報記憶部16、音響モデ
ルデータベース17A、辞書データベース18A、およ
び文法データベース19Aを必要に応じて参照しなが
ら、マッチング部14でマッチング処理の対象とする単
語を選択する単語予備選択処理を、特徴量記憶部12に
記憶された特徴量を用いて行う。但し、本実施の形態で
は、単語予備選択部13は、マッチング処理の対象とす
る単語の他、発話において、その単語の直後の単語であ
る可能性が高いものも選択し、その2つの単語でなる単
語列を、単語予備選択処理の結果として、マッチング部
14に供給する。
The word preliminary selecting section 13 includes a matching section 14
In response to a request from the user, the matching unit 14 selects a word to be subjected to a matching process while referring to the word connection information storage unit 16, the acoustic model database 17A, the dictionary database 18A, and the grammar database 19A as necessary. The preliminary selection processing is performed using the feature amount stored in the feature amount storage unit 12. However, in the present embodiment, the word preliminary selection unit 13 also selects, in addition to the word to be subjected to the matching processing, a word that is likely to be the word immediately after the word in the utterance, and selects the two words. Is supplied to the matching unit 14 as a result of the word preliminary selection processing.

【0075】ここで、上述のように単語予備選択部13
が単語予備選択処理の結果として出力する単語列を構成
する2つの単語のうち、先頭の単語を第1単語と、2番
目の単語を第2単語という。
Here, as described above, the word preliminary selection unit 13
Among the two words forming the word string output as a result of the word preliminary selection process, the first word is referred to as a first word, and the second word is referred to as a second word.

【0076】マッチング部14は、制御部11からの制
御に基づき、単語接続情報記憶部16、音響モデルデー
タベース17B、辞書データベース18B、および文法
データベース19Bを必要に応じて参照しながら、単語
予備選択部13からの単語予備選択処理の結果得られる
単語列の第1単語を対象としたマッチング処理を、特徴
量記憶部12に記憶された特徴量を用いて行い、そのマ
ッチング処理の結果を、制御部11に供給する。
Under the control of the control unit 11, the matching unit 14 refers to the word connection information storage unit 16, the acoustic model database 17B, the dictionary database 18B, and the grammar database 19B as necessary, and selects a preliminary word selection unit. 13 is performed using the feature amount stored in the feature amount storage unit 12 for the first word of the word string obtained as a result of the word preliminary selection process from the feature amount storage unit 12, and the result of the matching process is transmitted to the control unit. 11

【0077】再評価部15は、制御部11からの制御に
基づき、音響モデルデータベース17C、辞書データベ
ース18C、および文法データベース19Cを必要に応
じて参照しながら、単語接続情報記憶部16に記憶され
た単語接続情報の再評価を、特徴量記憶部12に記憶さ
れた特徴量を用いて行い、その再評価結果を制御部11
に供給する。
The re-evaluation unit 15 stores the data in the word connection information storage unit 16 while referring to the acoustic model database 17C, the dictionary database 18C, and the grammar database 19C as needed based on the control from the control unit 11. The reevaluation of the word connection information is performed using the feature amount stored in the feature amount storage unit 12, and the reevaluation result is transmitted to the control unit 11.
To supply.

【0078】単語接続情報記憶部16は、制御部11か
ら供給される単語接続情報を、ユーザの音声の認識結果
が得られるまで記憶する。
The word connection information storage unit 16 stores the word connection information supplied from the control unit 11 until a recognition result of the user's voice is obtained.

【0079】ここで、単語接続情報は、最終的な音声認
識結果の候補となる単語列を構成する単語どうしの接続
(連鎖または連接)関係を表すもので、各単語の音響ス
コアおよび言語スコア、並びに各単語に対応する発話の
開始時刻および終了時刻も含んでいる。
Here, the word connection information indicates a connection (chain or concatenation) relationship between words constituting a word string that is a candidate for a final speech recognition result, and includes an acoustic score and a language score of each word, It also includes the start time and end time of the utterance corresponding to each word.

【0080】即ち、図5は、単語接続情報記憶部16に
記憶される単語接続情報を、グラフ構造を用いて示して
いる。
That is, FIG. 5 shows the word connection information stored in the word connection information storage unit 16 using a graph structure.

【0081】図5の実施の形態において、単語接続情報
としてのグラフ構造は、単語を表すアーク(図5におい
て、○印どうしを結ぶ線分で示す部分)と、単語どうし
の境界を表すノード(図5において○印で示す部分)と
から構成されている。
In the embodiment shown in FIG. 5, the graph structure as the word connection information includes an arc representing a word (in FIG. 5, a portion indicated by a line connecting circles) and a node representing a boundary between words ( (Indicated by a circle in FIG. 5).

【0082】ノードは、時刻情報を有しており、この時
刻情報は、そのノードに対応する特徴量の抽出時刻を表
す。上述したように、抽出時刻は、音声区間の開始時刻
を0とする、特徴抽出部3が出力する特徴量が得られた
時刻であるから、図5において、音声区間の開始、即
ち、最初の単語の先頭に対応するノードNode1が有する
時刻情報は0となる。ノードは、アークの始端および終
端となるが、始端のノード(始端ノード)、または終端
のノード(終端ノード)が有する時刻情報は、それぞ
れ、そのノードに対応する単語の発話の開始時刻、また
は終了時刻となる。
Each node has time information, and the time information indicates the time of extraction of the feature value corresponding to the node. As described above, the extraction time is the time at which the feature amount output by the feature extraction unit 3 is obtained, with the start time of the voice section being 0, so in FIG. 5, the start of the voice section, that is, the first time, The time information of the node Node 1 corresponding to the beginning of the word is 0. The nodes are the start and end of the arc, and the time information of the start node (start node) or the end node (end node) is the start time or end of the utterance of the word corresponding to that node, respectively. It is time.

【0083】なお、図5では、左から右方向が、時間の
経過を表しており、従って、あるアークの左右にあるノ
ードのうち、左側のノードが始端ノードとなり、右側の
ノードが終端ノードとなる。
In FIG. 5, the time from the left to the right represents the passage of time. Therefore, among the nodes on the left and right of a certain arc, the left node is the start node, and the right node is the end node. Become.

【0084】アークは、そのアークに対応する単語の音
響スコアおよび言語スコアを有しており、このアーク
が、終端ノードとなっているノードを始端ノードとし
て、順次接続されていくことにより、音声認識結果の候
補となる単語の系列が構成されていく。
The arc has an acoustic score and a linguistic score of a word corresponding to the arc, and the arc is sequentially connected with the node serving as a terminal node as a start node, thereby enabling speech recognition. A sequence of candidate words for the result is formed.

【0085】即ち、制御部11においては、まず最初
に、音声区間の開始を表すノードNode 1に対して、音声
認識結果として確からしい単語に対応するアークが接続
される。図5の実施の形態では、「今日」に対応するア
ークArc1、「いい」に対応するアークArc6、および「天
気」に対応するArc11が接続されている。なお、音声認
識結果として確からしい単語かどうかは、マッチング部
14において求められる音響スコアおよび言語スコアに
基づいて決定される。
That is, in the control section 11, first,
Is a node Node that represents the start of a voice section 1Against the voice
Arcs corresponding to probable words are connected as recognition results
Is done. In the embodiment shown in FIG.
Arc1Arc for "good"6, And "Heaven
Arc for Ki11Is connected. In addition, voice recognition
The matching section determines whether a word is likely to be
The acoustic and linguistic scores determined in 14
It is determined based on.

【0086】そして、以下、同様にして、「今日」に対
応するアークArc1の終端である終端ノードNode2、「い
い」に対応するアークArc6の終端である終端ノードNode
7、「天気」に対応するArc11の終端である終端ノードNo
de12それぞれに対して、同様に、確からしい単語に対応
するアークが接続されていく。
Then, similarly, the terminal node Node 2 which is the terminal of the arc Arc 1 corresponding to “today” and the terminal node Node which is the terminal of the arc Arc 6 corresponding to “good”
7 , End node No. which is the end of Arc 11 corresponding to "weather"
Similarly, for each of the de 12 , arcs corresponding to probable words are connected.

【0087】以上のようにしてアークが接続されていく
ことで、音声区間の開始を始点として、左から右方向
に、アークとノードで構成される1以上のパスが構成さ
れて行くが、例えば、そのパスのすべてが、音声区間の
最後(図5の実施の形態では、時刻T)に到達すると、
制御部11において、音声区間の開始から最後までに形
成された各パスについて、そのパスを構成するアークが
有している音響スコアおよび言語スコアが累積され、最
終スコアが求められる。そして、例えば、その最終スコ
アが最も高いパスを構成するアークに対応する単語列
が、音声認識結果として確定されて出力される。
By connecting arcs as described above, one or more paths composed of arcs and nodes are formed from left to right starting from the start of the voice section. , When all of the paths reach the end of the voice section (time T in the embodiment of FIG. 5),
The control unit 11 accumulates, for each path formed from the start to the end of the voice section, the acoustic score and the language score of the arc constituting the path, and obtains the final score. Then, for example, a word string corresponding to an arc constituting a path having the highest final score is determined and output as a speech recognition result.

【0088】具体的には、例えば、図5において、ノー
ドNode1から、「今日」に対応するアークArc1、ノード
Node2、「は」に対応するアークArc2、ノードNode3
「いい」に対応するアークArc3、ノードNode4、「天
気」に対応するアークArc4、ノードNode5、「ですね」
に対応するアークArc5、およびノードNode6で構成され
るパスについて、最も高い最終スコアが得られた場合に
は、単語列「今日」、「は」、「いい」、「天気」、
「ですね」が、音声認識結果として出力されることにな
る。
More specifically, for example, in FIG. 5, an arc Arc 1 corresponding to “today” and a node
Node 2 , arc Arc 2 corresponding to “ha”, node Node 3 ,
Arc Arc 3 and Node 4 corresponding to "good", Arc Arc 4 and Node 5 corresponding to "weather"
If the highest final score is obtained for the path composed of arc Arc 5 corresponding to and the node Node 6 , the word strings “today”, “ha”, “good”, “weather”,
"Issue" is output as a speech recognition result.

【0089】なお、上述の場合には、音声区間内にある
ノードについて、必ずアークを接続して、音声区間の開
始から最後にまで延びるパスを構成するようにしたが、
このようなパスを構成する過程において、それまでに構
成されたパスについてのスコアから、音声認識結果とし
て不適当であることが明らかであるパスに関しては、そ
の時点で、パスの構成を打ち切る(その後に、アークを
接続しない)ようにすることが可能である。
In the above case, arcs are always connected to nodes in the voice section to form a path extending from the start of the voice section to the end.
In the process of constructing such a path, for a path that is apparently inappropriate as a result of speech recognition based on the scores of the paths constructed up to that point, the path construction is discontinued at that point (after that, The arc is not connected to it).

【0090】また、上述のようなパスの構成ルールに従
えば、1つのアークの終端が、次に接続される1以上の
アークの始端ノードなり、基本的には、枝葉が拡がるよ
うに、パスが構成されて行くが、例外的に、1つのアー
クの終端が、他のアークの終端に一致する場合、つま
り、あるアークの終端ノードと、他のアークの終端ノー
ドとが同一のノードに共通化される場合がある。
Further, according to the above-described path configuration rules, the end of one arc is the start node of one or more arcs to be connected next. Is formed, except that the end of one arc coincides with the end of another arc, that is, the end node of one arc and the end node of another arc are common to the same node. In some cases.

【0091】即ち、文法規則としてバイグラムを用いた
場合には、別のノードから延びる2つのアークが、同一
の単語に対応するものであり、さらに、その単語の発話
の終了時刻も同一であるときには、その2つのアークの
終端は一致する。
That is, when bigrams are used as grammatical rules, if two arcs extending from different nodes correspond to the same word, and the ending time of the utterance of the word is also the same, , The ends of the two arcs coincide.

【0092】図5において、ノードNode7を始端として
延びるアークArc7、およびノードNode13を始端として
延びるアークArc13は、いずれも「天気」に対応するも
のであり、その発話の終了時刻も同一であるため、その
終端ノードは、同一のノードNode8に共通化されてい
る。
In FIG. 5, the arc Arc 7 extending from the node Node 7 as a starting point and the arc Arc 13 extending from the node Node 13 as a starting point both correspond to “weather” and have the same ending time of the utterance. Therefore, the terminal node is shared by the same node Node 8 .

【0093】なお、ノードの共通化は行わないようにす
ることも可能であるが、メモリ容量の効率化の観点から
は、行うのが好ましい。
Although it is possible not to share the nodes, it is preferable to do so from the viewpoint of increasing the memory capacity.

【0094】また、図5では、文法規則としてバイグラ
ムを用いているが、その他、例えば、トライグラム等を
用いる場合も、ノードの共通化は可能である。
In FIG. 5, bigrams are used as grammatical rules, but other nodes such as trigrams can be used in common.

【0095】図4に戻り、音響モデルデータベース17
A,17B、および17Cは、基本的には、図1の音響
モデルデータベース5において説明したような音響モデ
ルを記憶している。
Returning to FIG. 4, the acoustic model database 17
A, 17B, and 17C basically store the acoustic model as described in the acoustic model database 5 of FIG.

【0096】但し、音響モデルデータベース17Bは、
音響モデルデータベース17Aよりも精度の高い処理が
可能な高精度の音響モデルを記憶しており、音響モデル
データベース17Cは、音響モデルデータベース17B
よりも精度の高い処理が可能なより高精度の音響モデル
を記憶している。即ち、音響モデルデータベース17A
において、各音素や音節について、例えば、前後のコン
テキストに依存しない1パターンの音響モデルだけが記
憶されているとすると、音響モデルデータベース17B
には、各音素や音節について、例えば、前後のコンテキ
ストに依存しない音響モデルの他、単語間にまたがるコ
ンテキストに依存する音響モデル、つまり、クロスワー
ドモデルも記憶されている。そして、音響モデルデータ
ベース17Cには、各音素や音節について、例えば、前
後のコンテキストに依存しない音響モデルおよびクロス
ワードモデルの他、単語内のコンテキストに依存する音
響モデルも記憶されている。
However, the acoustic model database 17B is
The acoustic model database 17C stores a high-accuracy acoustic model capable of performing processing with higher accuracy than the acoustic model database 17A.
A higher-accuracy acoustic model capable of higher-accuracy processing is stored. That is, the acoustic model database 17A
Assuming that, for example, only one pattern acoustic model independent of the context before and after is stored for each phoneme or syllable, the acoustic model database 17B
Stores, for each phoneme or syllable, for example, an acoustic model that does not depend on contexts before and after, as well as an acoustic model that depends on contexts extending between words, that is, a crossword model. The acoustic model database 17C stores, for each phoneme or syllable, for example, an acoustic model and a crossword model that do not depend on the context before and after, as well as an acoustic model that depends on the context within a word.

【0097】辞書データベース18A,18B、および
18Cは、基本的には、図1の辞書データベース6にお
いて説明したような単語辞書を記憶している。
The dictionary databases 18A, 18B and 18C basically store word dictionaries as described in the dictionary database 6 of FIG.

【0098】即ち、辞書データベース18A乃至18C
の単語辞書には、同一セットの単語が登録されている。
但し、辞書データベース18Bの単語辞書は、辞書デー
タベース18Aの単語辞書よりも精度の高い処理が可能
な高精度の音韻情報を記憶しており、辞書データベース
18Cの単語辞書は、辞書データベース18Bの単語辞
書よりもさらに精度の高い処理が可能な高精度の音韻情
報を記憶している。即ち、辞書データベース18Aの単
語辞書には、例えば、各単語に対して、1通りの音韻情
報(読み)だけ登録されているとすると、辞書データベ
ース18Bの単語辞書には、例えば、各単語に対して、
複数通りの音韻情報が登録されている。そして、辞書デ
ータベース18Cの単語辞書には、例えば、各単語に対
して、さらに多くの通りの音韻情報が登録されている。
That is, the dictionary databases 18A to 18C
The same set of words is registered in the word dictionary.
However, the word dictionary of the dictionary database 18B stores high-accuracy phonemic information that can be processed with higher accuracy than the word dictionary of the dictionary database 18A, and the word dictionary of the dictionary database 18C is the word dictionary of the dictionary database 18B. It stores high-accuracy phonemic information that enables more accurate processing than before. That is, for example, assuming that only one type of phonological information (reading) is registered for each word in the word dictionary of the dictionary database 18A, for example, for each word, hand,
A plurality of types of phoneme information are registered. In the word dictionary of the dictionary database 18C, for example, more phonemic information is registered for each word.

【0099】具体的には、例えば、単語「お早う」に対
して、辞書データベース18Aの単語辞書には、1通り
の音韻情報「おはよう」だけが、辞書データベース18
Bの単語辞書には、「おはよう」の他、「おはよー」や
「おはよ」が、辞書データベース18Cの単語辞書に
は、「おはよう」、「おはよー」、および「おはよ」の
他、「はよう」や「はよー」が、それぞれ音韻情報とし
て登録されている。
Specifically, for example, for the word “Ohashi”, only one type of phonemic information “Ohayo” is stored in the word dictionary of the dictionary database 18A.
In the word dictionary of B, in addition to "Ohayo", "Ohayo" and "Ohayo" are included, and in the word dictionary of the dictionary database 18C, "Ohayo", "Ohayo", and "Ohayo" , "Hayo" and "hayo" are each registered as phoneme information.

【0100】文法データベース19A,19B、および
19Cは、基本的には、図1の文法データベース7にお
いて説明したような文法規則を記憶している。
The grammar databases 19A, 19B and 19C basically store grammar rules as described in the grammar database 7 of FIG.

【0101】但し、文法データベース19Bは、文法デ
ータベース19Aよりも精度の高い処理が可能な高精度
の文法規則を記憶しており、文法データベース19C
は、文法データベース19Bよりも精度の高い処理が可
能なより高精度の文法規則を記憶している。即ち、文法
データベース19Aが、例えば、ユニグラム(単語の生
起確率)に基づく文法規則を記憶しているとすると、文
法データベース19Bは、例えば、バイグラム(直前の
単語との関係を考慮した単語の生起確率)を記憶してい
る。そして、文法データベース19Cは、例えば、トラ
イグラム(直前の単語およびそのさらに1つ前の単語と
の関係を考慮した単語の生起確率)や文脈自由文法等に
基づく文法規則を記憶している。
However, the grammar database 19B stores high-precision grammar rules that enable processing with higher precision than the grammar database 19A, and the grammar database 19C
Stores higher-precision grammar rules that allow more precise processing than the grammar database 19B. That is, if the grammar database 19A stores, for example, grammar rules based on unigrams (probabilities of occurrence of words), the grammar database 19B stores, for example, bigrams (probabilities of occurrence of words in consideration of the relationship with the immediately preceding word). ) Is remembered. The grammar database 19C stores grammar rules based on, for example, trigrams (occurrence probabilities of words in consideration of the relation between the immediately preceding word and the immediately preceding word) and context-free grammar.

【0102】以上のように、音響モデルデータベース1
7Aには、各音素や音節について、1パターンの音響モ
デルが、音響モデルデータベース17Bには、各音素や
音節について、複数パターンの音響モデルが、音響モデ
ルデータベース17Cには、各音素や音節について、さ
らに多くのパターンの音響モデルが、それぞれ記憶され
ている。また、辞書データベース18Aには、各単語に
ついて、1通りの音韻情報が、辞書データベース18B
には、各単語について、複数通りの音韻情報が、辞書デ
ータベース18Cには、各単語について、さらに多くの
通りの音韻情報が、それぞれ記憶されている。そして、
文法データベース19Aには、簡易な文法規則が、文法
データベース19Bには、精度の高い文法規則が、文法
データベース19Cには、さらに精度の高い文法規則
が、それぞれ記憶されている。
As described above, the acoustic model database 1
7A shows an acoustic model of one pattern for each phoneme or syllable, an acoustic model database 17B shows an acoustic model of a plurality of patterns for each phoneme or syllable, and an acoustic model database 17C shows an acoustic model of each phoneme or syllable. Further, acoustic models of more patterns are stored. The dictionary database 18A stores one type of phonological information for each word.
, A plurality of types of phoneme information are stored for each word, and the dictionary database 18C stores more types of phoneme information for each word. And
The grammar database 19A stores simple grammar rules, the grammar database 19B stores high-precision grammar rules, and the grammar database 19C stores higher-precision grammar rules.

【0103】これにより、音響モデルデータベース17
A、辞書データベース18A、および文法データベース
19Aを参照する単語予備選択部13では、それほど精
度は高くないが、多くの単語を対象として、迅速に、音
響スコアおよび言語スコアを求めることができるように
なっている。また、音響モデルデータベース17B、辞
書データベース18B、および文法データベース19B
を参照するマッチング部14では、ある程度の数の単語
を対象として、迅速に、精度の高い音響スコアおよび言
語スコアを求めることができるようになっている。そし
て、音響モデルデータベース17C、辞書データベース
18C、および文法データベース19Cを参照する再評
価部15では、少ない数の単語を対象として、迅速に、
より精度の高い音響スコアおよび言語スコアを求めるこ
とができるようになっている。
As a result, the acoustic model database 17
A, the word preliminary selection unit 13 referring to the dictionary database 18A and the grammar database 19A can obtain the acoustic score and the linguistic score quickly for many words, although the accuracy is not so high. ing. Also, an acoustic model database 17B, a dictionary database 18B, and a grammar database 19B
In the matching unit 14 that refers to a certain number of words, a high-accuracy acoustic score and a high-accuracy language score can be quickly obtained for a certain number of words. Then, the re-evaluation unit 15 referring to the acoustic model database 17C, the dictionary database 18C, and the grammar database 19C quickly targets a small number of words,
More accurate acoustic scores and language scores can be obtained.

【0104】なお、ここでは、音響モデルデータベース
17A乃至17Cそれぞれに記憶させる音響モデルの精
度について優劣を設けるようにしたが、音響モデルデー
タベース17A乃至17Cには、いずれにも、同一の音
響モデルを記憶させることができ、この場合、音響モデ
ルデータベース17A乃至17Cは、1つの音響モデル
データベースに共通化することができる。同様に、辞書
データベース18A乃至18Cの単語辞書それぞれの記
憶内容や、文法データベース19A乃至19Cそれぞれ
の文法規則も、同一にすることができる。
Here, the accuracy of the acoustic model stored in each of the acoustic model databases 17A to 17C is set to be superior, but the same acoustic model is stored in each of the acoustic model databases 17A to 17C. In this case, the acoustic model databases 17A to 17C can be shared by one acoustic model database. Similarly, the storage contents of the respective word dictionaries of the dictionary databases 18A to 18C and the grammar rules of the grammar databases 19A to 19C can be the same.

【0105】次に、図6のフローチャートを参照して、
図4の音声認識装置による音声認識処理について説明す
る。
Next, referring to the flowchart of FIG.
The speech recognition processing by the speech recognition device in FIG. 4 will be described.

【0106】ユーザが発話を行うと、その発話としての
音声は、マイク1およびAD変換部2を介することによ
り、ディジタルの音声データとされ、特徴抽出部3に供
給される。特徴抽出部3は、そこに供給される音声デー
タから、音声の特徴量を、フレームごとに順次抽出し、
制御部11に供給する。
When the user speaks, the speech as the speech is converted into digital voice data via the microphone 1 and the AD converter 2 and supplied to the feature extractor 3. The feature extracting unit 3 sequentially extracts a feature amount of a voice from the voice data supplied thereto for each frame,
It is supplied to the control unit 11.

【0107】制御部11は、何らかの手法で音声区間を
認識するようになっており、音声区間においては、特徴
抽出部3から供給される特徴量の系列を、各特徴量の抽
出時刻と対応付けて、特徴量記憶部12に供給して記憶
させる。
The control unit 11 recognizes the voice section by some method. In the voice section, the control unit 11 associates a series of feature amounts supplied from the feature extraction unit 3 with the extraction time of each feature amount. Then, it is supplied to and stored in the feature amount storage unit 12.

【0108】さらに、制御部11は、音声区間の開始
後、ステップS1において、音声区間の開始を表すノー
ド(以下、適宜、初期ノードという)を生成し、単語接
続情報記憶部16に供給して記憶させる。即ち、制御部
11は、ステップS1において、図5におけるノードNo
de1を、単語接続情報記憶部16に記憶させる。
Further, after the start of the voice section, the control unit 11 generates a node (hereinafter, appropriately referred to as an initial node) representing the start of the voice section and supplies it to the word connection information storage unit 16 in step S1. Remember. That is, in step S1, the control unit 11 sets the node No. in FIG.
de 1 is stored in the word connection information storage unit 16.

【0109】そして、ステップS2に進み、制御部11
は、単語接続情報記憶部16の単語接続情報を参照する
ことで、途中ノードが存在するかどうかを判定する。
Then, the process proceeds to a step S2, wherein the control unit 11
Determines whether there is an intermediate node by referring to the word connection information in the word connection information storage unit 16.

【0110】即ち、上述したように、図5に示した単語
接続情報においては、終端ノードに、アークが接続され
ていくことにより、音声区間の開始から最後にまで延び
るパスが形成されて行くが、ステップS2では、終端ノ
ードのうち、まだアークが接続されておらず、かつ、音
声区間の最後にまで到達していないものが、途中ノード
(例えば、図5におけるノードNode8や、Node10,Node
11)として検索され、そのような途中ノードが存在する
かどうかが判定される。
That is, as described above, in the word connection information shown in FIG. 5, a path extending from the start to the end of the voice section is formed by connecting the arc to the terminal node. In step S2, among the end nodes, those whose arcs have not yet been connected and which have not reached the end of the voice section are intermediate nodes (for example, nodes Node 8 and Node 10 in FIG. 5). Node
11 ), and it is determined whether such an intermediate node exists.

【0111】なお、上述したように、音声区間は何らか
の手法で認識され、さらに、終端ノードに対応する時刻
は、その終端ノードが有する時刻情報を参照することで
認識することができるから、アークが接続されていない
終端ノードが、音声区間の最後に到達していない途中ノ
ードであるかどうかは、音声区間の最後の時刻と、終端
ノードが有する時刻情報とを比較することで判定するこ
とができる。
As described above, the voice section is recognized by some method, and the time corresponding to the terminal node can be recognized by referring to the time information of the terminal node. Whether or not the unconnected end node is an intermediate node that has not reached the end of the voice section can be determined by comparing the last time of the voice section with the time information of the end node. .

【0112】ステップS2において、途中ノードが存在
すると判定された場合、ステップS3に進み、制御部1
1は、情報接続情報の中に存在する途中ノードのうちの
1つを、それに接続するアークとしての単語を決定する
ノード(以下、適宜、注目ノードという)として選択す
る。
If it is determined in step S2 that an intermediate node exists, the process proceeds to step S3, where the control unit 1
1 selects one of the intermediate nodes existing in the information connection information as a node that determines a word as an arc connected to the node (hereinafter, appropriately referred to as a target node).

【0113】即ち、制御部11は、情報接続情報の中に
1つの途中ノードしか存在しない場合には、その途中ノ
ードを、注目ノードとして選択する。また、制御部11
は、情報接続情報の中に複数の途中ノードが存在する場
合には、その複数の途中ノードのうちの1つを注目ノー
ドとして選択する。具体的には、制御部11は、例え
ば、複数の途中ノードそれぞれが有する時刻情報を参照
し、その時刻情報が表す時刻が最も古いもの(音声区間
の開始側のもの)、または最も新しいもの(音声区間の
終わり側のもの)を、注目ノードとして選択する。ある
いは、また、制御部11は、例えば、初期ノードから、
複数の途中ノードそれぞれに至るまでのパスを構成する
アークが有する音響スコアおよび言語スコアを累積し、
その累積値(以下、適宜、部分累積スコアという)が最
も大きくなるパス、または小さくなるパスの終端になっ
ている途中ノードを、注目ノードとして選択する。
That is, when there is only one intermediate node in the information connection information, the control unit 11 selects that intermediate node as the target node. The control unit 11
When there are a plurality of intermediate nodes in the information connection information, selects one of the plurality of intermediate nodes as a target node. Specifically, for example, the control unit 11 refers to the time information of each of the plurality of intermediate nodes, and indicates that the time indicated by the time information is the oldest (the start side of the voice section) or the newest ( Is selected as the node of interest. Alternatively, the control unit 11 may, for example,
Accumulate the acoustic score and the linguistic score of the arc constituting the path to each of the plurality of intermediate nodes,
The node at the end of the path where the accumulated value (hereinafter, appropriately referred to as a partial accumulated score) is the largest or the path where the accumulated value is the smallest is selected as the node of interest.

【0114】その後、制御部11は、注目ノードが有す
る時刻情報を開始時刻としてマッチング処理を行う旨の
指令(以下、適宜、マッチング処理指令という)を、マ
ッチング部14および再評価部15に出力する。
After that, the control unit 11 outputs to the matching unit 14 and the re-evaluation unit 15 a command to perform matching processing using the time information of the node of interest as a start time (hereinafter, appropriately referred to as a matching processing command). .

【0115】再評価部15は、制御部11からマッチン
グ処理指令を受信すると、ステップS4に進み、単語接
続情報記憶部16を参照することにより、初期ノードか
ら注目ノードに至るまでのパス(以下、適宜、部分パス
という)を構成するアークによって表される単語列(以
下、適宜、部分単語列という)を認識し、その部分単語
列の再評価を行う。即ち、部分単語列は、後述するよう
にして、単語予備選択部13が予備選択した単語を対象
に、マッチング部14がマッチング処理を行うことによ
り得られた音声認識結果の候補とする単語列の途中結果
であるが、再評価部15では、その途中結果が、再度、
評価される。
Upon receiving the matching processing command from the control unit 11, the reevaluation unit 15 proceeds to step S4, and refers to the word connection information storage unit 16 to determine the path from the initial node to the target node (hereinafter, referred to as the node). A word string (hereinafter, appropriately referred to as a partial word string) represented by an arc constituting a partial path is appropriately recognized, and the partial word string is reevaluated. That is, as described later, the partial word string is a word string that is a candidate for a speech recognition result obtained by performing a matching process on the word preselected by the word preselection unit 13 by the matching unit 14. Although it is an intermediate result, the re-evaluation unit 15 determines that the intermediate result is
Be evaluated.

【0116】具体的には、再評価部15は、部分単語列
について、言語スコアおよび音響スコアを再計算するた
め、部分単語列に対応する特徴量の系列を、特徴量記憶
部12から読み出す。即ち、再評価部15は、部分パス
の先頭のノードである初期ノードが有する時刻情報が表
す時刻から、注目ノードが有する時刻情報が表す時刻ま
でに対応付けられている特徴量の系列(特徴量系列)
を、特徴量記憶部12から読み出す。さらに、再評価部
15は、音響モデルデータベース17C、辞書データベ
ース18C、および文法データベース19Cを参照し、
特徴量記憶部12から読み出した特徴量系列を用いて、
部分単語列について、言語スコアおよび音響スコアを再
計算する。なお、この再計算は、部分単語列を構成する
各単語の単語境界を固定せずに行われる。従って、再評
価部15では、部分単語列の言語スコアおよび音響スコ
アを再計算することにより、部分単語列について、それ
を構成する各単語の単語境界の決定が、動的計画法に基
づいて行われることになる。
More specifically, the re-evaluation unit 15 reads out a series of feature amounts corresponding to the partial word strings from the feature amount storage unit 12 in order to recalculate the language score and the acoustic score for the partial word strings. In other words, the re-evaluation unit 15 determines a sequence of feature amounts (feature amounts) associated from the time represented by the time information of the initial node, which is the first node of the partial path, to the time represented by the time information of the node of interest. series)
Is read from the feature amount storage unit 12. Further, the reevaluation unit 15 refers to the acoustic model database 17C, the dictionary database 18C, and the grammar database 19C,
Using the feature amount sequence read from the feature amount storage unit 12,
The language score and the acoustic score are recalculated for the partial word string. This recalculation is performed without fixing the word boundaries of each word constituting the partial word string. Therefore, the reevaluation unit 15 recalculates the linguistic score and the acoustic score of the partial word string, and determines the word boundaries of each word constituting the partial word string based on the dynamic programming. Will be

【0117】再評価部15は、以上のようにして、部分
単語列の各単語の言語スコアおよび音響スコア、並びに
単語境界を新たに得ると、その新たな言語スコアおよび
音響スコアによって、単語接続情報記憶部16の部分単
語列に対応する部分パスを構成するアークが有する言語
スコアおよび音響スコアを修正するとともに、新たな単
語境界によって、単語接続情報記憶部16の部分単語列
に対応する部分パスを構成するノードが有する時刻情報
を修正する。なお、本実施の形態では、再評価部15に
よる単語接続情報の修正は、制御部11を介して行われ
るようになっている。
As described above, the re-evaluation unit 15 obtains a new language score and acoustic score of each word in the partial word string and a new word boundary, and uses the new language score and acoustic score to obtain word connection information. The language score and the acoustic score of the arc constituting the partial path corresponding to the partial word string in the storage unit 16 are corrected, and the partial path corresponding to the partial word string in the word connection information storage unit 16 is changed by the new word boundary. Correct the time information of the constituent nodes. In the present embodiment, the correction of the word connection information by the reevaluation unit 15 is performed via the control unit 11.

【0118】即ち、例えば、図7に示すノードNode5
注目ノードとされた場合において、初期ノードNode1
ら注目ノードNode5に至る部分パスのうちの、例えば、
ノードNode3、単語「いい」に対応するアークArc3、ノ
ードNode4、単語「天気」に対応するArc4、およびノー
ドNode5の部分で表される単語列「いい」、「天気」に
注目すると、再評価部15は、ノードNode3に対応する
時刻からノードNode5に対応する時刻までの特徴量系列
を用い、音響モデルデータベース17Cおよび辞書デー
タベース18Cを参照することで、単語「いい」、「天
気」それぞれの単語モデルを構成し、音響スコアを計算
する。さらに、再評価部15は、文法データベース19
Cを参照することで、単語「いい」、「天気」それぞれ
の言語スコアを計算する。具体的には、例えば、文法デ
ータベース19Cに、トライグラムに基づく文法規則が
記憶されている場合には、再評価部15は、単語「い
い」については、その直前の単語「は」と、さらにその
前の単語「今日」を用い、単語が、「今日」、「は」、
「いい」と連鎖する確率を求め、その確率に基づいて言
語スコアを計算する。また、再評価部15は、単語「天
気」については、その直前の単語「いい」と、さらにそ
の前の単語「は」を用い、単語が、「は」、「いい」、
「天気」と連鎖する確率を求め、その確率に基づいて言
語スコアを計算する。
That is, for example, when the node Node 5 shown in FIG. 7 is set as the target node, for example, of the partial paths from the initial node Node 1 to the target node Node 5 ,
Node Node 3, the arc Arc 3 corresponding to the word "good", the node Node 4, word word string "good" represented by part of Arc 4, and the node Node 5 corresponding to "weather", attention to "weather" Then, the reevaluation unit 15 refers to the acoustic model database 17C and the dictionary database 18C using the feature amount sequence from the time corresponding to the node Node 3 to the time corresponding to the node Node 5 , and the word “good”, The word model of each "weather" is constructed, and the acoustic score is calculated. Further, the re-evaluation unit 15 checks the
By referring to C, the language score of each of the words “good” and “weather” is calculated. Specifically, for example, when a grammar rule based on a trigram is stored in the grammar database 19C, the reevaluation unit 15 determines that the word “good” is a word “ha” immediately before the word “good”, and further, Using the word "Today" before it, the words "Today", "Ha",
The probability of being linked to "good" is obtained, and the language score is calculated based on the probability. In addition, the re-evaluation unit 15 uses the word “good” immediately before the word “weather” and the word “ha” immediately before the word “weather”, and the words “ha”, “good”,
A probability linked to “weather” is obtained, and a language score is calculated based on the probability.

【0119】再評価部15は、以上のようにして求めら
れる音響スコアおよび言語スコアを累積し、その累積値
が最も大きくなるように、単語「いい」と「天気」の単
語境界を決定する。そして、再評価部15は、そのよう
にして求まった音響スコアおよび言語スコアによって、
単語「いい」に対応するアークArc3と、単語「天気」に
対応するArc4がそれぞれ有する音響スコアおよび言語ス
コアを修正するとともに、決定した単語境界によって、
単語「いい」と「天気」の単語境界に対応するノードNo
de4が有する時刻情報を修正する。
The re-evaluation unit 15 accumulates the acoustic score and the linguistic score obtained as described above, and determines the word boundary between the words “good” and “weather” so that the accumulated value becomes the largest. Then, the re-evaluation unit 15 uses the acoustic score and the language score thus obtained to
Arc Arc 3 corresponding to the word "good" and Arc 4 corresponding to the word "weather" have their acoustic and linguistic scores corrected, and the determined word boundaries determine
Node No. corresponding to the word boundary between the words "good" and "weather"
The time information of de 4 is corrected.

【0120】従って、再評価部15では、部分単語列の
各単語どうしの単語境界が、動的計画法に基づいて決定
され、単語接続情報16に記憶された単語接続情報が、
逐次修正されていく。そして、この修正された単語接続
情報を参照して、単語予備選択部13およびマッチング
部14で処理が行われるため、それぞれにおける処理の
精度および信頼性を向上させることができる。
Therefore, the re-evaluation unit 15 determines the word boundaries between the words in the partial word string based on the dynamic programming, and replaces the word connection information stored in the word connection information 16 with:
It will be corrected sequentially. Then, since the processing is performed in the word preliminary selection unit 13 and the matching unit 14 with reference to the corrected word connection information, the accuracy and reliability of the processing in each of them can be improved.

【0121】さらに、再評価部15において単語接続情
報の単語境界が修正されるため、単語接続情報として記
憶しておく単語境界の候補の数を大幅に削減することが
できる。
Furthermore, since the word boundary of the word connection information is corrected in the reevaluation unit 15, the number of word boundary candidates stored as word connection information can be significantly reduced.

【0122】即ち、従来においては、例えば、前述の図
2で説明したように、単語「今日」と「は」との単語境
界の候補として、時刻t1-1,t1,t1+1の3つを保持
しておく必要があり、また、正しい単語境界である時刻
1を保持し損ねた場合には、その後のマッチング処理
に悪影響を与える。これに対して、再評価部15におい
て単語境界を逐次修正する場合には、例えば、誤った単
語境界である時刻t1- 1の1つだけしか保持しなかった
としても、再評価部15において、その誤った単語境界
である時刻t1-1が、正しい単語境界である時刻t1に修
正されるから、その後のマッチング処理に悪影響を与え
ることはない。
[0122] That is, conventionally, for example, as described in Figure 2 above, as candidates for word boundaries of words between "kyou" and "wa", the time t 1-1, t 1, t 1 + 1 Must be held, and if the time t 1 , which is a correct word boundary, is not maintained, the subsequent matching process is adversely affected. In contrast, in the case of sequentially correcting the word boundary in the re-evaluation section 15, for example, even if not only hold only one time t 1-1 is incorrect word boundaries, the re-evaluation section 15 , the erroneous time t 1-1 is a word boundary, since is modified at time t 1 is the correct word boundary, it does not adversely affect the subsequent matching processing.

【0123】また、再評価部15では、部分単語列を構
成する単語については、最初と最後の単語を除き、その
前と後に接続する単語それぞれを考慮したクロスワード
モデルを用いて音響スコアを計算し、さらに、言語スコ
アの計算も、その前と後に接続する単語をそれぞれ考慮
して行うことができ、従って、高精度の処理を行うこと
ができる。しかも、再評価部15の処理は、逐次的に行
われるため、前述した2パスデコーディングのような大
きな遅延は生じない。
The re-evaluation unit 15 calculates an acoustic score using a crossword model that takes into account the words connected before and after the words constituting the partial word string except for the first and last words. Further, the calculation of the language score can be performed in consideration of the words connected before and after the language score, respectively, and therefore, high-precision processing can be performed. Moreover, since the processing of the re-evaluation unit 15 is performed sequentially, a large delay unlike the above-described two-pass decoding does not occur.

【0124】図6に戻り、以上のようにして、再評価部
15は、単語接続情報記憶部16の単語接続情報の修正
を終了すると、その旨を、制御部11を介して、マッチ
ング部14に供給する。
Returning to FIG. 6, when the re-evaluation unit 15 finishes correcting the word connection information in the word connection information storage unit 16 as described above, the re-evaluation unit To supply.

【0125】マッチング部14は、上述したように、制
御部11からマッチング処理指令を受信した後、再評価
部15から、制御部11を介して、単語接続情報の修正
が終了した旨を受信すると、注目ノードと、それが有す
る時刻情報とを、単語予備選択部13に供給し、単語予
備選択処理を要求する。
As described above, after receiving the matching processing command from the control unit 11, the matching unit 14 receives from the reevaluation unit 15 via the control unit 11 that the word connection information has been corrected. , The noticed node, and the time information of the noticed node are supplied to the word preliminary selection unit 13 to request a word preliminary selection process.

【0126】単語予備選択部13は、マッチング部14
から、単語予備選択処理の要求を受信すると、ステップ
S5において、注目ノードに接続されるアークとなる単
語の候補と、その後に続く単語の候補それぞれとしての
第1単語と第2単語でなる単語列、つまり、マッチング
処理の直接の対象となる第1単語と、その後に続く第2
単語からなる単語列を選択する単語予備選択処理を、辞
書データベース18Aの単語辞書に登録された単語を対
象として行う。
The word preliminary selecting section 13
Receives a request for word preliminary selection processing from step S5, in step S5, a word string consisting of a first word and a second word as candidates for an arc word to be connected to the node of interest and subsequent word candidates, respectively. In other words, the first word that is directly targeted for the matching process, and the second word that follows
A word pre-selection process of selecting a word string composed of words is performed on words registered in the word dictionary of the dictionary database 18A.

【0127】即ち、単語予備選択部13は、言語スコア
および音響スコアを計算するのに用いる特徴量の系列の
開始時刻を、注目ノードが有する時刻情報から認識し、
その開始時刻以降の、必要な特徴量の系列を特徴量記憶
部12から読み出す。さらに、単語予備選択部13は、
辞書データベース18Aの単語辞書に登録された各単語
の単語モデルを、音響モデルデータベース17Aに記憶
された音響モデルを接続することで構成し、さらに、例
えば、任意の2つの単語モデルを接続して、第1単語と
第2単語からなる単語列のモデル(単語列モデル)を構
成する。そして、単語予備選択部13は、各単語列モデ
ルに対応する単語列の第1単語と第2単語それぞれにつ
いて、特徴量記憶部12から読み出した特徴量の系列を
用いて、音響スコアを計算する。
That is, the word preliminary selection unit 13 recognizes the start time of a series of feature amounts used for calculating the language score and the acoustic score from the time information of the node of interest,
A required feature amount series after the start time is read from the feature amount storage unit 12. Further, the word preliminary selection unit 13
The word model of each word registered in the word dictionary of the dictionary database 18A is configured by connecting the acoustic models stored in the acoustic model database 17A, and further, for example, by connecting any two word models, A word string model (word string model) composed of the first word and the second word is configured. Then, the word preliminary selection unit 13 calculates an acoustic score for each of the first word and the second word of the word string corresponding to each word string model, using the feature amount sequence read from the feature amount storage unit 12. .

【0128】また、単語予備選択部13は、各単語列モ
デルに対応する単語列の言語スコアを、文法データベー
ス19Aに記憶された文法規則に基づいて計算する。即
ち、単語予備選択部13は、単語列の第1単語について
は、例えば、ユニグラムに基づいて、その言語スコアを
求め、第2単語については、例えば、第1単語と第2単
語とが連鎖する確率を規定するバイグラムに基づいて、
その言語スコアを求める。
Further, the word preliminary selection section 13 calculates the language score of the word string corresponding to each word string model based on the grammar rules stored in the grammar database 19A. That is, the word preliminary selection unit 13 obtains a linguistic score for the first word of the word string based on, for example, a unigram, and for the second word, for example, the first word and the second word are linked. Based on the bigram that defines the probability,
Find the language score.

【0129】なお、単語予備選択部13において、単語
列の第1単語または第2単語の音響スコアの計算は、第
2単語または第1単語に依存するクロスワードモデルを
それぞれ用いて行うことが可能である。さらに、単語予
備選択部13においては、単語接続情報を参照すること
により、第1単語の音響スコアの計算を、第1単語の直
前の単語(注目ノードが終端となっているアークに対応
する単語)に依存するクロスワードモデルを用いて行う
ことも可能である。
In the word preliminary selecting section 13, the calculation of the acoustic score of the first word or the second word of the word string can be performed by using the second word or a crossword model depending on the first word, respectively. It is. Further, the word preliminary selection unit 13 calculates the acoustic score of the first word by referring to the word connection information, and calculates the acoustic score of the word immediately before the first word (the word corresponding to the arc ending at the focused node). ) Can be performed using a crossword model that depends on the above.

【0130】また、単語予備選択部13においては、単
語接続情報を参照することにより、第1単語の言語スコ
アの計算を、第1単語の直前の単語と第1単語とが連鎖
する確率を規定するバイグラムに基づいて行ったり、第
1単語の2つ前の単語、第1単語の直前の単語、および
第1単語が連鎖する確率を規定するトライグラムに基づ
いて行うことが可能である。同様に、第2単語の言語ス
コアの計算も、第2単語の2つ前の単語(第1単語の直
前の単語)、第2単語の直前の単語である第1単語、お
よび第2単語が連鎖する確率を規定するトライグラムに
基づいて行うことが可能である。
Further, the word preliminary selection unit 13 refers to the word connection information to calculate the language score of the first word and determine the probability that the word immediately before the first word is linked to the first word. Or a trigram defining the probability of the first word being chained, the word immediately before the first word, the word immediately before the first word, and the probability that the first word is linked. Similarly, the calculation of the linguistic score of the second word also includes the word immediately before the second word (the word immediately before the first word), the first word that is the word immediately before the second word, and the second word. This can be performed based on a trigram that defines the probability of chaining.

【0131】単語予備選択部13は、以上のようにし
て、第1単語と第2単語からなる各単語列について音響
スコアおよび言語スコアを求めると、その音響スコアお
よび言語スコアを総合評価したスコアを、以下、適宜、
単語列スコアという)を求め、その上位L個を、マッチ
ング処理に用いる単語列として、マッチング部14に供
給する。
When the word preliminary selection unit 13 obtains an acoustic score and a language score for each word string including the first word and the second word as described above, the word preliminary selecting unit 13 calculates a score obtained by comprehensively evaluating the acoustic score and the language score. , Below, as appropriate,
(Referred to as a word string score), and the upper L words are supplied to the matching unit 14 as a word string used in the matching process.

【0132】マッチング部14は、単語予備選択部13
から、マッチング処理に用いるL個の単語列(以下、適
宜、選択単語列という)を受信すると、ステップS6に
おいて、各選択単語列の第1単語を対象として、その前
後それぞれの単語に依存するクロスワードモデルを用い
たマッチング処理を行う。
The matching section 14 includes the word preliminary selecting section 13
When the L word strings (hereinafter, appropriately referred to as selected word strings) used for the matching process are received from step S6, in step S6, the first word of each selected word string is subjected to the cross depending on the preceding and succeeding words. Perform a matching process using a word model.

【0133】即ち、マッチング部14は、言語スコアお
よび音響スコアを計算するのに用いる特徴量の系列の開
始時刻を、注目ノードが有する時刻情報から認識し、そ
の開始時刻以降の、必要な特徴量の系列を特徴量記憶部
12から読み出す。さらに、マッチング部14は、辞書
データベース18Bを参照することで、選択単語列の第
1単語の音韻情報を認識し、その音韻情報に対応する音
響モデルを、音響モデルデータベース17Bから読み出
して接続することで、第1単語の単語モデルを構成す
る。
That is, the matching unit 14 recognizes, from the time information of the node of interest, the start time of a series of feature amounts used for calculating the language score and the acoustic score, and calculates the necessary feature amount after the start time. Are read from the feature amount storage unit 12. Further, the matching unit 14 recognizes the phoneme information of the first word of the selected word string by referring to the dictionary database 18B, reads out the acoustic model corresponding to the phoneme information from the acoustic model database 17B, and connects it. Form a word model of the first word.

【0134】ここで、マッチング部14は、第1単語の
各音素(または音節)に対応する音響モデルとして、そ
の前後の音素(または音節)に依存するものを用いて、
第1単語の単語モデルを構成する。従って、マッチング
部14では、第1単語の最初の音素については、単語接
続情報を参照することにより、第1単語の直前の単語の
最後の音素に依存したクロスワードモデルを用いて、第
1単語の単語モデルが構成される。また、マッチング部
14では、第1単語の最後の音素については、その直後
の単語である第2単語の最初の音素に依存したクロスワ
ードモデルを用いて、第1単語の単語モデルが構成され
る。
Here, the matching unit 14 uses, as an acoustic model corresponding to each phoneme (or syllable) of the first word, a model that depends on the phonemes (or syllables) before and after it.
Construct a word model of the first word. Therefore, the matching unit 14 refers to the word connection information for the first phoneme of the first word, and uses the crossword model that depends on the last phoneme of the word immediately before the first word to obtain the first word. Is constructed. Further, in the matching unit 14, for the last phoneme of the first word, a word model of the first word is configured using a crossword model that depends on the first phoneme of the second word that is the word immediately after the first phoneme. .

【0135】以上により、例えば、第1単語が「おはよ
う」で、第2単語が「ございます」である場合において
は、第1単語の最後の音素/u/については、その直前の
音素/o/(「よ」の母音部分)と、その直後の音素/g/
(「ご」の子音部分)とに依存した音響モデル、即ち、
第1単語の最後の音素/u/を、より高精度に表す音響モ
デルを用いて、第1単語「おはよう」の単語モデルが構
成される。
As described above, for example, when the first word is “good morning” and the second word is “is”, the last phoneme / u / of the first word is replaced by the phoneme / o immediately before it. / (The vowel part of "yo") and the phoneme / g /
(The consonant part of “go”),
A word model of the first word "good morning" is constructed using an acoustic model that represents the last phoneme / u / of the first word with higher accuracy.

【0136】そして、マッチング部14は、上述のよう
にして構成した単語モデルに基づき、特徴量記憶部12
から読み出した特徴量系列を用いて、第1単語の音響ス
コアを計算する。
[0136] The matching unit 14 is based on the word model constructed as described above,
The acoustic score of the first word is calculated by using the feature amount sequence read from.

【0137】また、マッチング部14は、文法データベ
ース19Bを参照することで、第1単語の言語スコア
を、その前後の単語を考慮して計算する。即ち、マッチ
ング部14は、例えば、単語接続情報を参照することに
より、第1単語の直前の単語と、さらにその前の単語を
認識し、第1単語の2つ前の単語、第1単語の直前の単
語、および第1単語が連鎖するトライグラムに基づく確
率、並びに第1単語および第2単語が連鎖するバイグラ
ムに基づく確率を求める。さらに、マッチング部14
は、これらのトライグラムに基づく確率と、バイグラム
に基づく確率とから、第1単語の言語スコアを求める。
The matching unit 14 calculates the language score of the first word by referring to the grammar database 19B in consideration of words before and after the first word. That is, the matching unit 14 recognizes the word immediately before the first word and the word before that by referring to the word connection information, for example, and recognizes the word two words before the first word and the word before the first word. The probability based on the immediately preceding word and the trigram in which the first word is chained, and the probability based on the bigram in which the first word and the second word are chained are determined. Further, the matching unit 14
Calculates the language score of the first word from the probabilities based on these trigrams and the probabilities based on bigrams.

【0138】マッチング部14は、以上のようにして、
単語予備選択部13からのL個の選択単語列の第1単語
すべてについて、その音響スコアおよび言語スコアを求
め、ステップS7に進む。ステップS7では、L個の選
択単語列の第1単語それぞれについて、その音響スコア
および言語スコアを総合評価した単語スコアが求めら
れ、その単語スコアに基づいて、単語接続情報記憶部1
6に記憶された単語接続情報が更新される。
As described above, the matching unit 14
For all of the first words in the L selected word strings from the word preliminary selection unit 13, their acoustic scores and language scores are obtained, and the process proceeds to step S7. In step S7, for each of the first words in the L selected word strings, a word score obtained by comprehensively evaluating the acoustic score and the linguistic score is obtained, and based on the word score, the word connection information storage unit 1
The word connection information stored in No. 6 is updated.

【0139】即ち、ステップS7では、マッチング部1
4は、各選択単語列の第1単語について単語スコアを求
め、例えば、その単語スコアを所定の閾値と比較するこ
と等によって、注目ノードに接続するアークとしての単
語を、第1単語の中から絞り込む。そして、マッチング
部14は、その絞り込みの結果残った第1単語を、その
音響スコア、言語スコア、およびその単語の終了時刻と
ともに、制御部11に供給する。
That is, in step S7, the matching unit 1
4 obtains a word score for the first word of each selected word string, and compares the word score with a predetermined threshold to determine a word as an arc connected to the node of interest from among the first words. Refine. Then, the matching unit 14 supplies the first word remaining as a result of the narrowing down to the control unit 11 together with the acoustic score, the language score, and the end time of the word.

【0140】なお、単語の終了時刻は、音響スコアを計
算するのに用いた特徴量の抽出時刻から認識される。ま
た、ある単語について、その終了時刻としての蓋然性の
高い抽出時刻が複数得られた場合には、その単語につい
ては、各終了時刻と、対応する音響スコアおよび言語ス
コアとのセットが、制御部11に供給される。
Note that the end time of a word is recognized from the extraction time of the feature amount used for calculating the acoustic score. When a plurality of extraction times having a high probability as the end time are obtained for a certain word, for the word, a set of each end time and the corresponding acoustic score and language score is stored in the control unit 11. Supplied to

【0141】制御部11は、上述のようにしてマッチン
グ部14から供給される第1単語の音響スコア、言語ス
コア、および終了時刻を受信すると、マッチング部14
からの各第1単語について、単語接続情報記憶部16に
記憶された単語接続情報(図5)における注目ノードを
始端ノードとして、アークを延ばし、そのアークを、終
了時刻の位置に対応する終端ノードに接続する。さら
に、制御部11は、各アークに対して、対応する単語、
並びにその音響スコアおよび言語スコアを付与するとと
もに、各アークの終端ノードに対して、対応する終了時
刻を時刻情報として与える。そして、ステップS2に戻
り、以下、同様の処理が繰り返される。
Upon receiving the acoustic score, language score, and end time of the first word supplied from the matching unit 14 as described above, the control unit 11
From the target node in the word connection information (FIG. 5) stored in the word connection information storage unit 16 for each first word, the arc is extended, and the arc is set to the terminal node corresponding to the position of the end time. Connect to Further, the control unit 11 determines, for each arc, a corresponding word,
In addition to providing the acoustic score and the language score, a corresponding end time is given as time information to the terminal node of each arc. Then, the process returns to step S2, and thereafter, the same processing is repeated.

【0142】以上のように、単語接続情報は、マッチン
グ部14の処理結果に基づいて、逐次更新され、さら
に、再評価部15において逐次修正されるので、単語予
備選択部13およびマッチング部14は、常時、単語接
続情報を利用して処理を行うことが可能となる。
As described above, the word connection information is successively updated based on the processing result of the matching unit 14, and is successively corrected by the reevaluation unit 15, so that the word preliminary selection unit 13 and the matching unit 14 The processing can be always performed using the word connection information.

【0143】なお、制御部11は、単語接続情報を更新
する際に、可能であれば、上述したような終端ノードの
共通化を行う。
When updating the word connection information, the control unit 11, if possible, shares the terminal nodes as described above.

【0144】一方、ステップS2において、途中ノード
が存在しないと判定された場合、ステップS8に進み、
制御部11は、単語接続情報を参照することで、その単
語接続情報として構成された各パスについて、単語スコ
アを累積することで、最終スコアを求め、例えば、その
最終スコアが最も大きいパスを構成するアークに対応す
る単語列を、ユーザの発話に対する音声認識結果として
出力して、処理を終了する。
On the other hand, if it is determined in step S2 that there is no intermediate node, the process proceeds to step S8,
The control unit 11 obtains a final score by referring to the word connection information and accumulates a word score for each path configured as the word connection information. For example, a path having the highest final score is formed. A word string corresponding to the arc to be output is output as a speech recognition result for the utterance of the user, and the process ends.

【0145】以上のように、単語予備選択部13におい
て、途中ノードに続く単語の候補である第1単語だけで
なく、その後に続く蓋然性の高い第2単語も選択するよ
うにしたので、第1単語について、第2単語に基づき、
精度の高い音響スコアや言語スコアの計算を行うことが
でき、その結果、音声認識精度を向上させることができ
る。
As described above, the word preliminary selection section 13 selects not only the first word which is a candidate for the word following the intermediate node but also the second word which is likely to follow thereafter. For words, based on the second word,
A highly accurate acoustic score or language score can be calculated, and as a result, speech recognition accuracy can be improved.

【0146】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
汎用のコンピュータ等にインストールされる。
Next, the above-described series of processing can be performed by hardware or software. When a series of processing is performed by software, a program constituting the software is
Installed on a general-purpose computer.

【0147】そこで、図8は、上述した一連の処理を実
行するプログラムがインストールされるコンピュータの
一実施の形態の構成例を示している。
FIG. 8 shows an example of the configuration of an embodiment of a computer in which a program for executing the above-described series of processing is installed.

【0148】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク105やROM1
03に予め記録しておくことができる。
The program is stored in a hard disk 105 or a ROM 1 as a recording medium built in the computer.
03 can be recorded in advance.

【0149】あるいはまた、プログラムは、フロッピー
ディスク、CD-ROM(Compact Disc Read Only Memory),M
O(Magneto optical)ディスク,DVD(Digital Versatile
Disc)、磁気ディスク、半導体メモリなどのリムーバブ
ル記録媒体111に、一時的あるいは永続的に格納(記
録)しておくことができる。このようなリムーバブル記
録媒体111は、いわゆるパッケージソフトウエアとし
て提供することができる。
Alternatively, the program may be a floppy disk, CD-ROM (Compact Disc Read Only Memory), M
O (Magneto optical) disc, DVD (Digital Versatile)
Disc), a magnetic disk, a semiconductor memory, or another such removable storage medium 111, which can be temporarily or permanently stored (recorded). Such a removable recording medium 111 can be provided as so-called package software.

【0150】なお、プログラムは、上述したようなリム
ーバブル記録媒体111からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部108で受信し、内蔵するハード
ディスク105にインストールすることができる。
The program can be installed in the computer from the removable recording medium 111 as described above, can be wirelessly transferred from a download site to the computer via a digital satellite broadcasting artificial satellite, or can be transmitted to a LAN (Local Area). Network), the Internet, and the like, and can be transferred to a computer by wire. In the computer, the transferred program can be received by the communication unit 108 and installed on the built-in hard disk 105.

【0151】コンピュータは、CPU(Central Processing
Unit)102を内蔵している。CPU102には、バス1
01を介して、入出力インタフェース110が接続され
ており、CPU102は、入出力インタフェース110を
介して、ユーザによって、キーボードや、マウス、マイ
ク等で構成される入力部107が操作等されることによ
り指令が入力されると、それにしたがって、ROM(Read O
nly Memory)103に格納されているプログラムを実行
する。あるいは、また、CPU102は、ハードディスク
105に格納されているプログラム、衛星若しくはネッ
トワークから転送され、通信部108で受信されてハー
ドディスク105にインストールされたプログラム、ま
たはドライブ109に装着されたリムーバブル記録媒体
111から読み出されてハードディスク105にインス
トールされたプログラムを、RAM(Random Access Memor
y)104にロードして実行する。これにより、CPU10
2は、上述したフローチャートにしたがった処理、ある
いは上述したブロック図の構成により行われる処理を行
う。そして、CPU102は、その処理結果を、必要に応
じて、例えば、入出力インタフェース110を介して、
LCD(Liquid CryStal Display)やスピーカ等で構成され
る出力部106から出力、あるいは、通信部108から
送信、さらには、ハードディスク105に記録等させ
る。
The computer has a CPU (Central Processing).
Unit) 102. The CPU 102 has a bus 1
01, the input / output interface 110 is connected. The CPU 102 operates the input / output unit 107 including a keyboard, a mouse, a microphone, and the like by the user via the input / output interface 110. When a command is input, the ROM (Read O
nly Memory) 103 is executed. Alternatively, the CPU 102 may execute a program stored in the hard disk 105, a program transferred from a satellite or a network, received by the communication unit 108 and installed in the hard disk 105, or a removable recording medium 111 mounted in the drive 109. The program read and installed on the hard disk 105 is stored in a RAM (Random Access Memory).
y) Load to 104 and execute. As a result, the CPU 10
2 performs processing according to the above-described flowchart or processing performed by the configuration of the above-described block diagram. Then, the CPU 102 transmits the processing result as necessary, for example, via the input / output interface 110.
An output is made from an output unit 106 including an LCD (Liquid CryStal Display), a speaker, or the like, or transmitted from a communication unit 108, and further recorded on the hard disk 105.

【0152】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理(例えば、並列処理あるい
はオブジェクトによる処理)も含むものである。
Here, in this specification, processing steps for describing a program for causing a computer to perform various processes do not necessarily have to be processed in chronological order in the order described in the flowchart, and may be performed in parallel. Alternatively, it also includes processing executed individually (for example, parallel processing or processing by an object).

【0153】また、プログラムは、1のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。
The program may be processed by one computer, or may be processed in a distributed manner by a plurality of computers. Further, the program may be transferred to a remote computer and executed.

【0154】なお、マッチング部14でスコア計算の対
象となる単語(第1単語)は、単語予備選択部13にお
いてあらかじめ選択されているから、マッチング部14
による各単語のスコア計算は、前述したような、音響ス
コアの計算の一部を共通化する木構造のネットワークを
構成せずに、各単語ごとに独立して行うことができる。
この場合、マッチング部14が各単語についてスコア計
算を行うために確保するメモリ容量を小さく抑えること
ができる。さらに、この場合、単語のスコア計算を開始
するときに、その単語が、どの単語であるのかを同定す
ることができるから、前述したような、単語を同定する
ことができないことによって無駄な計算が行われること
を防止することができる。
Since the word (first word) to be scored by the matching unit 14 has been selected in advance by the word preliminary selection unit 13, the matching unit 14
Can be independently performed for each word without configuring a tree-structured network that shares a part of the calculation of the acoustic score as described above.
In this case, the memory capacity reserved for the matching unit 14 to calculate a score for each word can be reduced. Furthermore, in this case, when the score calculation of a word is started, it is possible to identify which word the word is. Therefore, as described above, the useless calculation cannot be performed because the word cannot be identified. Can be prevented.

【0155】また、マッチング部14や再評価部15に
よるスコア計算は、各単語ごとに、時間的に独立して行
うことができ、この場合、スコア計算に要するメモリ容
量を使い回すことにより、必要とするメモリ容量を小さ
く抑えることができる。
The score calculation by the matching unit 14 and the re-evaluation unit 15 can be performed independently for each word in terms of time. In this case, by using the memory capacity required for the score calculation, Can be kept small.

【0156】なお、図4に示した音声認識装置は、例え
ば、音声によってデータベースの検索を行う場合や、各
種の機器の操作を行う場合、各機器へのデータ入力を行
う場合、音声対話システム等に適用可能である。より具
体的には、例えば、音声による地名の問合せに対して、
対応する地図情報を表示するデータベース検索装置や、
音声による命令に対して、荷物の仕分けを行う産業用ロ
ボット、キーボードの代わりに音声入力によりテキスト
作成を行うディクテーションシステム、ユーザとの会話
を行うロボットにおける対話システム等に適用可能であ
る。
The voice recognition apparatus shown in FIG. 4 is used, for example, to search a database by voice, to operate various devices, to input data to each device, to use a voice interactive system, and the like. Applicable to More specifically, for example, in response to an inquiry about a place name by voice,
A database search device that displays the corresponding map information,
The present invention can be applied to an industrial robot that sorts luggage in response to a voice command, a dictation system that creates text by voice input instead of a keyboard, and a dialog system of a robot that talks with a user.

【0157】また、本実施の形態では、単語予備選択部
13において、2つの単語(第1単語と第2単語)から
なる単語列を選択するようにしたが、単語予備選択部1
3では、3以上の単語からなる単語列を選択するように
することも可能である。この場合、マッチング部14で
は、単語列の先頭の単語について、その後に続く2以上
の単語に基づき、より精度の高い文法規則(言語モデ
ル)を用いて、言語スコアを計算することが可能とな
る。
Further, in the present embodiment, the word preliminary selection unit 13 selects a word string composed of two words (first word and second word).
In 3, it is also possible to select a word string consisting of three or more words. In this case, the matching unit 14 can calculate the language score of the first word of the word string using a grammar rule (language model) with higher accuracy based on two or more words that follow. .

【0158】さらに、単語予備選択部13において選択
する単語列を構成する単語数は、固定である必要はな
く、可変にすることが可能である。
Further, the number of words constituting the word string selected by the word preliminary selection section 13 does not need to be fixed, but can be variable.

【0159】[0159]

【発明の効果】本発明の音声認識装置および音声認識方
法、並びに記録媒体によれば、音声認識の対象とする単
語群から、既にスコアの計算がされた単語に接続する複
数の単語からなる単語列が選択され、その単語列の先頭
の単語である先頭単語について、単語列の先頭単語に続
く1以上の単語に基づき、スコアが計算される。そし
て、スコアの計算がされた先頭単語と、その先頭単語が
接続する、既にスコアの計算がされた単語との間の接続
関係が記憶され、その接続関係およびスコアに基づい
て、音声認識結果が確定される。従って、単語について
の、例えば、音響的なスコアや言語的なスコアを、その
直後の単語も考慮して計算することが可能となり、その
結果、音声認識精度を向上させることが可能となる。
According to the speech recognition apparatus, the speech recognition method, and the recording medium of the present invention, a word consisting of a plurality of words connected to a word whose score has been calculated from a group of words to be subjected to speech recognition. A row is selected, and a score is calculated for the first word, which is the first word of the word string, based on one or more words following the first word of the word string. Then, the connection relation between the head word for which the score has been calculated and the word to which the head word is connected and for which the score has already been calculated is stored. Based on the connection relation and the score, the speech recognition result is obtained. Is determined. Therefore, for example, an acoustic score or a linguistic score for a word can be calculated in consideration of the immediately following word, and as a result, the accuracy of speech recognition can be improved.

【図面の簡単な説明】[Brief description of the drawings]

【図1】従来の音声認識装置の一例の構成を示すブロッ
ク図である。
FIG. 1 is a block diagram illustrating a configuration of an example of a conventional voice recognition device.

【図2】単語どうしの境界の候補を保持する必要性を説
明する図である。
FIG. 2 is a diagram illustrating the necessity of holding a candidate for a boundary between words;

【図3】従来の音声認識装置の他の一例の構成を示すブ
ロック図である。
FIG. 3 is a block diagram showing a configuration of another example of the conventional voice recognition device.

【図4】本発明を適用した音声認識装置の一実施の形態
の構成例を示すブロック図である。
FIG. 4 is a block diagram illustrating a configuration example of a voice recognition device according to an embodiment of the present invention;

【図5】単語接続情報を説明するための図である。FIG. 5 is a diagram for explaining word connection information.

【図6】図4の音声認識装置の処理を説明するためのフ
ローチャートである。
FIG. 6 is a flowchart for explaining processing of the voice recognition device of FIG. 4;

【図7】再評価部15の処理を説明するための図であ
る。
FIG. 7 is a diagram for explaining a process of a reevaluation unit 15;

【図8】本発明を適用したコンピュータの一実施の形態
の構成例を示すブロック図である。
FIG. 8 is a block diagram illustrating a configuration example of a computer according to an embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 マイク, 2 AD変換部, 3 特徴抽出部,
11 制御部, 12特徴量記憶部, 13 単語予備
選択部, 14 マッチング部, 15 再評価部,
16 単語接続情報記憶部, 17A乃至17C 音響
モデルデータベース, 18A乃至18C 辞書データ
ベース, 19A乃至19C 文法データベース, 1
01 バス, 102 CPU, 103 ROM, 104
RAM, 105 ハードディスク, 106 出力
部, 107 入力部, 108通信部, 109 ド
ライブ, 110 入出力インタフェース, 111リ
ムーバブル記録媒体
1 microphone, 2 AD converter, 3 feature extractor,
11 control unit, 12 feature amount storage unit, 13 word preliminary selection unit, 14 matching unit, 15 reevaluation unit,
16 word connection information storage unit, 17A to 17C acoustic model database, 18A to 18C dictionary database, 19A to 19C grammar database, 1
01 bus, 102 CPU, 103 ROM, 104
RAM, 105 hard disk, 106 output unit, 107 input unit, 108 communication unit, 109 drive, 110 input / output interface, 111 removable recording medium

───────────────────────────────────────────────────── フロントページの続き (72)発明者 浅野 康治 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 ヘルムート ルッケ 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 5D015 AA05 BB01 HH11 HH16 9A001 HH17  ──────────────────────────────────────────────────続 き Continuing on the front page (72) Koji Asano, Inventor 6-7-35 Kita-Shinagawa, Shinagawa-ku, Tokyo Inside Sony Corporation (72) Inventor Helmut Lucke 6-35, Kita-Shinagawa, Shinagawa-ku, Tokyo Sony Corporation F term (reference) 5D015 AA05 BB01 HH11 HH16 9A001 HH17

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 入力された音声に対して、その音声認識
結果の尤度を表すスコアを計算し、そのスコアに基づい
て、前記音声を認識する音声認識装置であって、 音声認識の対象とする単語群から、既に前記スコアの計
算がされた単語に接続する複数の単語からなる単語列を
選択する単語列選択手段と、 前記単語列の先頭の単語である先頭単語について、前記
単語列の先頭単語に続く1以上の単語に基づき、前記ス
コアを計算するスコア計算手段と、 前記スコアの計算がされた先頭単語と、その先頭単語が
接続する、既に前記スコアの計算がされた単語との間の
接続関係を記憶する接続関係記憶手段と、 前記接続関係およびスコアに基づいて、前記音声の音声
認識結果を確定する確定手段とを備えることを特徴とす
る音声認識装置。
1. A speech recognition apparatus for calculating a score representing the likelihood of a speech recognition result for an input speech, and recognizing the speech based on the score. Word string selecting means for selecting a word string consisting of a plurality of words connected to the word for which the score has been calculated, from a group of words to be executed, and for the first word which is the first word of the word string, Score calculating means for calculating the score based on one or more words following the head word; and a head word for which the score has been calculated and a word to which the head word is connected and for which the score has been calculated. A speech recognition apparatus comprising: a connection relationship storage unit that stores a connection relationship between the two; and a determination unit that determines a voice recognition result of the voice based on the connection relationship and the score.
【請求項2】 前記スコア計算手段は、前記先頭単語に
ついて、前記単語列の先頭単語に続く1以上の単語に基
づき、音響的または言語的なスコアを計算することを特
徴とする請求項1に記載の音声認識装置。
2. The method according to claim 1, wherein the score calculating means calculates an acoustic or linguistic score for the first word based on at least one word following the first word in the word string. The speech recognition device according to the above.
【請求項3】 前記スコア計算手段は、確率的な言語モ
デルを参照して、前記言語的なスコアを計算することを
特徴とする請求項2に記載の音声認識装置。
3. The speech recognition apparatus according to claim 2, wherein said score calculating means calculates said linguistic score with reference to a probabilistic language model.
【請求項4】 前記音声認識の対象とする単語群を記憶
している記憶手段をさらに備えることを特徴とする請求
項1に記載の音声認識装置。
4. The speech recognition apparatus according to claim 1, further comprising storage means for storing a group of words to be subjected to the speech recognition.
【請求項5】 前記音声から、その特徴量を抽出する抽
出手段をさらに備え、 前記スコア計算手段は、前記特徴量を用いて、前記スコ
アを計算することを特徴とする請求項1に記載の音声認
識装置。
5. The apparatus according to claim 1, further comprising an extraction unit configured to extract a feature amount of the voice, wherein the score calculation unit calculates the score using the feature amount. Voice recognition device.
【請求項6】 入力された音声に対して、その音声認識
結果の尤度を表すスコアを計算し、そのスコアに基づい
て、前記音声を認識する音声認識方法であって、 音声認識の対象とする単語群から、既に前記スコアの計
算がされた単語に接続する複数の単語からなる単語列を
選択する単語列選択ステップと、 前記単語列の先頭の単語である先頭単語について、前記
単語列の先頭単語に続く1以上の単語に基づき、前記ス
コアを計算するスコア計算ステップと、 前記スコアの計算がされた先頭単語と、その先頭単語が
接続する、既に前記スコアの計算がされた単語との間の
接続関係を記憶させる接続関係記憶ステップと、 前記接続関係およびスコアに基づいて、前記音声の音声
認識結果を確定する確定ステップとを備えることを特徴
とする音声認識方法。
6. A speech recognition method for recognizing a speech based on the score, wherein the score representing the likelihood of the speech recognition result is calculated for the inputted speech. A word string selection step of selecting a word string composed of a plurality of words connected to the word for which the score has been calculated from the set of words to be executed; and for the first word that is the first word of the word string, A score calculating step of calculating the score based on one or more words following the head word; and a head word for which the score has been calculated and a word to which the head word is connected and for which the score has been calculated. A connection relationship storing step of storing a connection relationship between, and a determination step of determining a voice recognition result of the voice based on the connection relationship and the score.識方 method.
【請求項7】 入力された音声に対して、その音声認識
結果の尤度を表すスコアを計算し、そのスコアに基づい
て、前記音声を認識する音声認識処理を、コンピュータ
に行わせるプログラムが記録されている記録媒体であっ
て、 音声認識の対象とする単語群から、既に前記スコアの計
算がされた単語に接続する複数の単語からなる単語列を
選択する単語列選択ステップと、 前記単語列の先頭の単語である先頭単語について、前記
単語列の先頭単語に続く1以上の単語に基づき、前記ス
コアを計算するスコア計算ステップと、 前記スコアの計算がされた先頭単語と、その先頭単語が
接続する、既に前記スコアの計算がされた単語との間の
接続関係を記憶させる接続関係記憶ステップと、 前記接続関係およびスコアに基づいて、前記音声の音声
認識結果を確定する確定ステップとを備えるプログラム
が記録されていることを特徴とする記録媒体。
7. A program for calculating a score representing the likelihood of a speech recognition result for an input speech, and recording a program for causing a computer to perform speech recognition processing for recognizing the speech based on the score. A word string selection step of selecting, from a group of words to be subjected to speech recognition, a word string consisting of a plurality of words connected to the word for which the score has been calculated; and A score calculation step of calculating the score based on one or more words following the first word of the word string, for the first word that is the first word of the first word; A connection relation storing step of storing a connection relation between a connected word and the word for which the score has been calculated; and a sound of the sound based on the connection relation and the score. Recording medium comprising a program and a determination step for determining the identification result is recorded.
JP2000051464A 2000-02-28 2000-02-28 Voice recognition apparatus, voice recognition method, and recording medium Expired - Fee Related JP4600705B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000051464A JP4600705B2 (en) 2000-02-28 2000-02-28 Voice recognition apparatus, voice recognition method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000051464A JP4600705B2 (en) 2000-02-28 2000-02-28 Voice recognition apparatus, voice recognition method, and recording medium

Publications (2)

Publication Number Publication Date
JP2001242883A true JP2001242883A (en) 2001-09-07
JP4600705B2 JP4600705B2 (en) 2010-12-15

Family

ID=18573114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000051464A Expired - Fee Related JP4600705B2 (en) 2000-02-28 2000-02-28 Voice recognition apparatus, voice recognition method, and recording medium

Country Status (1)

Country Link
JP (1) JP4600705B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10475440B2 (en) 2013-02-14 2019-11-12 Sony Corporation Voice segment detection for extraction of sound source

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000075885A (en) * 1998-08-27 2000-03-14 Atr Onsei Honyaku Tsushin Kenkyusho:Kk Voice recognition device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000075885A (en) * 1998-08-27 2000-03-14 Atr Onsei Honyaku Tsushin Kenkyusho:Kk Voice recognition device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10475440B2 (en) 2013-02-14 2019-11-12 Sony Corporation Voice segment detection for extraction of sound source

Also Published As

Publication number Publication date
JP4600705B2 (en) 2010-12-15

Similar Documents

Publication Publication Date Title
JP4465564B2 (en) Voice recognition apparatus, voice recognition method, and recording medium
US7240002B2 (en) Speech recognition apparatus
JP4802434B2 (en) Voice recognition apparatus, voice recognition method, and recording medium recording program
US7249017B2 (en) Speech recognition with score calculation
JP2001249684A (en) Device and method for recognizing speech, and recording medium
JP6188831B2 (en) Voice search apparatus and voice search method
JP4301102B2 (en) Audio processing apparatus, audio processing method, program, and recording medium
Chen et al. Advances in speech transcription at IBM under the DARPA EARS program
US20140067394A1 (en) System and method for decoding speech
Alleva et al. An improved search algorithm using incremental knowledge for continuous speech recognition
JP4757936B2 (en) Pattern recognition method and apparatus, pattern recognition program and recording medium therefor
JP4072718B2 (en) Audio processing apparatus and method, recording medium, and program
KR101424496B1 (en) Apparatus for learning Acoustic Model and computer recordable medium storing the method thereof
JP4600706B2 (en) Voice recognition apparatus, voice recognition method, and recording medium
JP3364631B2 (en) Statistical language model generation apparatus and speech recognition apparatus
JP4600705B2 (en) Voice recognition apparatus, voice recognition method, and recording medium
JP3042455B2 (en) Continuous speech recognition method
JP4696400B2 (en) Voice recognition apparatus, voice recognition method, program, and recording medium
JP2000075885A (en) Voice recognition device
JP3550350B2 (en) Voice recognition method and program recording medium
JP2002149188A (en) Device and method for processing natural language and recording medium
JP2005134442A (en) Speech recognition device and method, recording medium, and program
JP2000250583A (en) Statistical language model generating device and voice recognition device
Cai et al. Development of a Chinese song name recognition system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100902

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100915

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees