JPH08241096A - Speech recognition method - Google Patents

Speech recognition method

Info

Publication number
JPH08241096A
JPH08241096A JP7041948A JP4194895A JPH08241096A JP H08241096 A JPH08241096 A JP H08241096A JP 7041948 A JP7041948 A JP 7041948A JP 4194895 A JP4194895 A JP 4194895A JP H08241096 A JPH08241096 A JP H08241096A
Authority
JP
Japan
Prior art keywords
evaluation value
partial
recognition method
voice
partial hypothesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7041948A
Other languages
Japanese (ja)
Other versions
JP3104900B2 (en
Inventor
Yoshiaki Noda
喜昭 野田
Shigeki Sagayama
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP07041948A priority Critical patent/JP3104900B2/en
Publication of JPH08241096A publication Critical patent/JPH08241096A/en
Application granted granted Critical
Publication of JP3104900B2 publication Critical patent/JP3104900B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PURPOSE: To discard non-grammatical utterance during the course of a search process. CONSTITUTION: A partial hypothesis is formed by additionally connecting and branching phonemes in accordance with the grammer 41 of a tree structure and a score function gi(t) is determined by trellis calculation while collecting the partial hypothesis i, the corresponding HMM and input speeches. The max. value in the score of the nongrammatically formed partial hypothesis is simultaneously obtained as a reference score function go(t). The respective max. values of the respective differences between the forward heuristic function gΛ(t) and gi(t) and go(t) are respectively determined as evaluation values Si, So and the search is progressed by discarding the partial hypothesis in which Si-So is below the threshold.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】この発明は、音素、音節、半音
節、単語などのような音声単位の、与えられた文法の制
御に従って連結可能な数多くの各部分仮説について対応
する音響モデルと、入力された音声とを照合し入力音声
に近い候補を探索する音声認識方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a corresponding acoustic model for a number of partial hypotheses, which can be connected according to the control of a given grammar, of a phonetic unit such as a phoneme, a syllable, a half syllable, and a word. The present invention relates to a voice recognition method for collating an input voice and searching for a candidate close to an input voice.

【0002】[0002]

【従来の技術】図3Aに音素を認識の単位とした音声認
識処理の手順を示す。入力音声11は、分析処理部12
により、特徴パラメータのベクトルデータ時系列に変換
され、探索処理部13により文法16の拘束条件を用い
ながら、音素モデル15との照合が行われる。そして、
最も高い評価値を持つ音素系列が認識結果14として出
力される。
2. Description of the Related Art FIG. 3A shows a procedure of speech recognition processing using a phoneme as a unit of recognition. The input voice 11 is the analysis processing unit 12
Thus, the vector data of the feature parameter is converted into a time series, and the search processing unit 13 performs matching with the phoneme model 15 while using the constraint condition of the grammar 16. And
The phoneme sequence having the highest evaluation value is output as the recognition result 14.

【0003】分析処理部12における信号処理として、
よく用いられるのは、線形予測分析(Linear P
redictive Coding,LPCと呼ばれ
る)であり、特徴パラメータとしては、LPCケプスト
ラム、LPCデルタケプストラム、メルケプストラム、
対数パワーなどがある。音素モデル15としては確率・
統計理論に基づいてモデル化された隠れマルコフモデル
(Hidden Markov Model,以後HM
M法と呼ぶ)が主流である。このHMMの詳細は、例え
ば、社団法人電子情報通信学会編,中川聖一著『確率モ
デルによる音声認識』に開示されている。
As signal processing in the analysis processing section 12,
Often used is Linear Predictive Analysis (Linear P
(Reductive Coding, LPC), and the characteristic parameters are LPC cepstrum, LPC delta cepstrum, mel cepstrum,
There is logarithmic power. Probability as the phoneme model 15
Hidden Markov Model (Hidden Markov Model, modeled based on statistical theory)
(M method) is the mainstream. Details of this HMM are disclosed, for example, in "Speech Recognition by Probabilistic Model" by Seiichi Nakagawa, edited by The Institute of Electronics, Information and Communication Engineers.

【0004】探索処理部13は、文法で連結することが
許される音素列である部分仮説についてその音素モデル
に対して、入力音声とのもっともらしさを評価し、一つ
ずつ部分仮説に音素を拡張しながら探索を進める。ここ
で、部分仮説とは、文法に示されている音素の並び順の
制約に従ってつなげられた音素列のことを表し、また、
部分仮説への音素の拡張とは、文法に従って部分仮説の
音素列にさらに一つ音素をつなげることを意味する。
The search processing unit 13 evaluates the plausibility of the partial hypotheses, which are phoneme sequences that are allowed to be connected by grammar, with the input speech, and expands the phonemes to the partial hypotheses one by one. While proceeding with the search. Here, the partial hypothesis represents a phoneme string connected according to the restriction of the order of phonemes shown in the grammar, and
Extension of a phoneme to a partial hypothesis means that one more phoneme is connected to the phoneme sequence of the partial hypothesis according to the grammar.

【0005】それぞれの部分仮説について、1.音素
列、2.トレリス計算等による、音響モデルとの照合結
果であるスコア関数、3.入力音声に対する部分仮説の
もっともらしさを示す評価値、の3つの情報を記憶して
おく。部分仮説の識別番号をi、時刻をtとするとスコ
ア関数はgi (t)と表される。探索処理部13では、
まず文法によって許される1つ目の音素を部分仮説に拡
張し、その音素に対応したHMMと、分析された特徴パ
ラメータのベクトルデータ時系列(入力音声)とを照合
し、この部分仮説iの各時刻tのスコア関数gi(t)
を求める。HMMとの照合方法としてトレリス法、ビタ
ービ法があり、この詳細は、例えば、社団法人電子情報
通信学会編,中川聖一著『確率モデルによる音声認識』
に開示されている。このスコア関数gi (t)から後述
する方法で部分仮説iの評価値を求め、この部分仮説に
対し、音素列、スコア関数gi (t)、評価値を記録し
ておく。そして、以後の音素の拡張が行われるごとに、
その部分仮説に対する評価値を求めながら探索処理が進
められる。また、部分仮説の音素列に対して、文法の制
約から2種類以上の音素が拡張できる場合は、拡張でき
る音素の種類の数だけ元の部分仮説を複製し、それぞれ
の音素を拡張した部分仮説を作り、それらに対する評価
値計算を行う。文法により音素を延ばすことが出来なく
なった部分仮説は、その音素列が文法として受理された
仮説として、音素の拡張を終了する。全ての部分仮説で
音素の拡張が出来なくなった時、文法として許される全
ての音素列に対し入力音声と照合を行ったことになり、
探索処理13を終える。そのときの最も評価値の高い仮
説の音素列またはそれに対応する単語、文を認識結果1
4として出力する。
For each partial hypothesis, 1. Phoneme sequence, 2. 2. A score function that is a result of matching with an acoustic model by trellis calculation or the like; Three pieces of information, that is, an evaluation value indicating the plausibility of the partial hypothesis with respect to the input voice, are stored. When the identification number of the partial hypothesis is i and the time is t, the score function is expressed as g i (t). In the search processing unit 13,
First, the first phoneme allowed by the grammar is expanded to a partial hypothesis, the HMM corresponding to the phoneme is collated with the vector data time series (input speech) of the analyzed characteristic parameter, and each partial hypothesis i Score function g i (t) at time t
Ask for. The trellis method and the Viterbi method are available as the matching method with the HMM. For more details, see the Institute of Electronics, Information and Communication Engineers, edited by Seiichi Nakagawa, "Speech recognition by probabilistic model".
Is disclosed in. The evaluation value of the partial hypothesis i is obtained from the score function g i (t) by the method described later, and the phoneme sequence, the score function g i (t), and the evaluation value are recorded for this partial hypothesis. And every time the phoneme is expanded thereafter,
The search process proceeds while obtaining the evaluation value for the partial hypothesis. In addition, when two or more types of phonemes can be expanded from the phoneme string of the partial hypothesis due to grammatical constraints, the original partial hypothesis is duplicated by the number of kinds of phonemes that can be expanded, and each phoneme is expanded. And calculate evaluation values for them. For the partial hypothesis in which the phoneme cannot be extended by the grammar, the phoneme expansion is terminated as the hypothesis that the phoneme sequence is accepted as the grammar. When the phonemes cannot be expanded for all the partial hypotheses, it means that all phoneme strings allowed as grammar are matched with the input speech.
The search process 13 ends. Recognition result 1 of the hypothetical phoneme sequence with the highest evaluation value at that time or the corresponding word or sentence
Output as 4.

【0006】上記のように、探索処理において全ての部
分仮説(音素列)の音素数が均等となるように部分仮説
の音素を延ばす探索方法は横形探索法と呼ばれる。横形
探索法を実際に行うと、文法の許す全ての音素列に対応
した部分仮説について計算を行うことになり、非常に多
くの部分仮説の計算を行わなければならず、多くの処理
時間を必要とする。このため、部分仮説に音素を拡張す
る過程で、最終的な認識結果となる見込みのある部分仮
説のみを残し、それ以外の部分仮説を廃棄する方法をと
る場合が多い。具体的には、部分仮説の評価値によりそ
の部分仮説を残すかどうかを判定する。その判定方法と
して部分仮説の評価値の高いものから順に一定個数の部
分仮説を残す方法や、部分仮説の評価値のしきい値を設
け、そのしきい値よりも高い部分仮説のみを残す方法、
両者の方法の併用等が用いられる。このような横形探索
法において、一定の条件により、見込みのある部分仮説
のみを残し、それ以外の部分仮説を廃棄して探索を行う
方法はビーム探索法と呼ばれる。
[0006] As described above, a search method for extending phonemes of partial hypotheses so that the number of phonemes of all partial hypotheses (phoneme strings) in the search process is equal is called a horizontal search method. When the horizontal search method is actually performed, calculation is performed for partial hypotheses corresponding to all phoneme sequences permitted by the grammar, and a large number of partial hypotheses must be calculated, which requires a lot of processing time. And Therefore, in the process of expanding phonemes to partial hypotheses, a method is often adopted in which only partial hypotheses that are likely to be the final recognition result are left and other partial hypotheses are discarded. Specifically, the evaluation value of the partial hypothesis determines whether or not the partial hypothesis remains. As a determination method, a method of leaving a certain number of partial hypotheses in order from the one with the highest evaluation value of the partial hypothesis, a method of providing a threshold value of the evaluation value of the partial hypothesis, and leaving only the partial hypothesis higher than the threshold value,
A combination of both methods is used. In such a horizontal search method, a method of leaving only a partial hypothesis with a certain probability and discarding the other partial hypotheses under certain conditions to perform a search is called a beam search method.

【0007】以上のことを具体的に説明すると、例えば
図3Bに示すような木構造によって表現された文法に対
して、HMMを用いた探索処理を行う場合を例とし、い
ま探索処理が既に第4音素までの処理を終えていると
し、第5音素を拡張する場合を述べると、図3Bにおい
ては第1音素#から第4音素まで拡張された部分仮説
は、「# 」,「# i」,「#
i」の3種類である。ここで、“ ”は音素の
区切りを示す記号であり、音素#は無音を示すものとす
る。
Explaining the above concretely, for example, a search process using HMM is performed on a grammar expressed by a tree structure as shown in FIG. 3B. Assuming that the processing up to the fourth phoneme has been completed and the case where the fifth phoneme is expanded will be described, in FIG. 3B, the partial hypothesis expanded from the first phoneme # to the fourth phoneme is “# i k a ”,“ # i k i ”,“ #
i m i ”. here," It is assumed that "" is a symbol indicating a phoneme division, and phoneme # indicates silence.

【0008】第1音素が#から始まり、第4音素まで拡
張された一つの部分仮説、「# i」では、図3
Bからわかるように、第5音素として、3種類の音素
k,o,mが拡張可能である。また、第1音素が#から
始まり、第4音素まで拡張されたもう1つの部分仮説、
「# a」は、第5音素として、2種類の音素
m,nが拡張可能である。また、部分仮説「#
i」は、第4音素で完了しており、音素の拡張は行わ
れない。
The first phoneme starts with # and extends to the fourth phoneme.
One partial hypothesis, "# i k i ”in FIG.
As can be seen from B, there are three types of phonemes as the fifth phoneme.
k, o, and m can be expanded. Also, the first phoneme is from #
Another partial hypothesis that started and expanded to the 4th phoneme,
"# i k "a" is the second phoneme as the fifth phoneme.
m and n can be expanded. In addition, the partial hypothesis “# i m
i ”is completed in the 4th phoneme, and the phoneme is expanded.
Not.

【0009】木構造文法における音素の深さごとに見込
みのない部分仮説の廃棄を行うビーム探索では、同じ音
素数をもつ部分仮説に対し、これら部分仮説の評価値を
求め、一定の条件で評価値の良い部分仮説のみを残す。
ここでは、一定の条件として、評価値の高い上位2つの
部分仮説のみを残すものとする。上で述べたように、第
5音素まで拡張された部分仮説は、「#
o」,「# k」,「#
m」,「# m」,「# n」
の5種類あり、それぞれの部分仮説の評価値はこの順に
高いとすると、上位2つの部分仮説である「#
o」と「# k」のみが次の音素を拡
張できる部分仮説として残し、それ以外の部分仮説を廃
棄する。
Expected for each phoneme depth in tree structure grammar
The same sound is generated in the beam search that discards the missing partial hypothesis.
For partial hypotheses with prime numbers,
Only the partial hypotheses with good evaluation values are left under certain conditions.
Here, as a certain condition, the top two with the highest evaluation value are
Only the partial hypothesis remains. As mentioned above,
The partial hypothesis expanded to 5 phonemes is "# i k i
o ”,“ # i k i k ”,“ # i k i
m ”,“ # i k a m ”,“ # i k a n "
There are 5 types, and the evaluation value of each partial hypothesis is in this order.
If it is high, the top two partial hypotheses are "# i k
i o ”and“ # i k i k ”only expands the next phoneme
It remains as a partial hypothesis that can be extended and the other partial hypotheses are abolished.
Abandon.

【0010】このように、部分仮説に音素を拡張して、
一定の条件によって残す部分仮説を限定し、残された部
分仮説にさらに音素を拡張していき、全ての部分仮説で
音素を拡張できなくなるまで、同様の処理を続ける。そ
して、音素を拡張できなくなった全ての部分仮説、つま
り仮説の評価値を比較して、評価値の最も高い仮説を認
識結果として、出力する。
In this way, phonemes are expanded to the partial hypothesis,
The partial hypotheses to be left are limited under certain conditions, the phonemes are further expanded to the remaining partial hypotheses, and the same processing is continued until the phonemes cannot be expanded for all the partial hypotheses. Then, all partial hypotheses whose phonemes cannot be expanded, that is, the evaluation values of the hypotheses are compared, and the hypothesis with the highest evaluation value is output as the recognition result.

【0011】部分仮説iのスコア関数gi (t)から部
分仮説の評価値を求める方法としては、音声の始端から
前向きに推定した全ての部分仮説に共通な前向きヒュー
リスティック関数g^(t)を求めておき、これと、部
分仮説iのスコア関数gi (t)との差を求め、その差
の時刻tに対する最大値に対応する値を、部分仮説iの
評価値Si とする方法がある(この方法の詳細は、例え
ば「野田喜昭、嵯峨山茂樹、“前向き尤度を用いたA*
ビーム探索によるHMM−LR音声認識”電子情報通信
学会技術研究報告 音声、SP94−23,199
4」、および「特願平6−133339,音響認識方
法」に開示されている)。
As a method of obtaining the evaluation value of the partial hypothesis from the score function g i (t) of the partial hypothesis i, a forward heuristic function g ^ (t) common to all partial hypotheses estimated forward from the beginning of speech is used. The difference between this and the score function g i (t) of the partial hypothesis i is obtained, and the value corresponding to the maximum value of the difference with respect to the time t is used as the evaluation value S i of the partial hypothesis i. (For details of this method, see, for example, “Yoshiaki Noda, Shigeki Sagayama,” A * using forward likelihood .
HMM-LR Speech Recognition by Beam Search "IEICE Technical Report, Speech, SP94-23,199
4 "and" Japanese Patent Application No. 6-133339, acoustic recognition method ".

【0012】この部分仮説の評価値の求め方の具体例と
して第4音素まで拡張された部分仮説「#
i」に音素oを拡張するときの、評価値の計算方法を図
4を用いて説明する。図4は、音素列と入力音声の照合
であるトレリス計算を行って得られるスコア関数を、音
素列、入力音声、スコアの3つの軸をもつ3次元の図に
よって示しており、曲線31は部分仮説「#
i」のスコア関数、gi4(t)であり、時刻t1 でのそ
のスコア値gi4(t1 )は、入力音声が時刻t1までに
この部分仮説(音素列)が最も短い時間で発声されたと
仮定した時のもっともらしさを示すスコアであり、時刻
2 でのスコアgi4(t2 )は、入力音声が時刻t2
でに、この部分仮説が最も長い時間で発声されたと仮定
した時のもっともらしさを示すスコアであり、時刻
1 、t2 と、音素oの継続時間長とから時刻t3 を決
定し、その区間で、入力音声がその各時刻までに、音素
列「# o」をそれぞれ発声されたと仮定し
た時のもっともらしさ(スコア)をつらねたのが曲線3
2であり、つまり曲線32は入力音声の部分仮説「#
o」に対するスコア関数gi5(t)である。
即ち部分仮説「# i」のスコア関数31は、既
に計算されており、これを各時刻の尤度を初期値とし
て、トレリス計算により音素oの各時刻のスコアを積算
していき、「# o」のスコア関数32を求
める。
A specific example of how to obtain the evaluation value of this partial hypothesis and
And extended to the 4th phoneme, the partial hypothesis "# i k
Diagram of how to calculate evaluation value when phoneme o is extended to "i"
4 will be described. Fig. 4 shows matching between phoneme strings and input speech.
The score function obtained by performing the trellis calculation is
A three-dimensional diagram with three axes: elementary sequence, input speech, and score
Therefore, the curve 31 shows the partial hypothesis “# i k
i "score function, gi4(T) at time t1Sono
Score value gi4(T1) Indicates that the input voice is at time t1until
That this partial hypothesis (phoneme sequence) was uttered in the shortest time
It is a score that indicates the plausibility of assuming
t2Score ini4(T2) Indicates that the input voice is at time t2Well
And suppose that this partial hypothesis was uttered in the longest time
It is a score that shows the plausibility of when
t1, T2And the duration of the phoneme o, the time t3Decided
And the input voice will be phoneme by that time in that section.
Column "# i k i "o" is uttered respectively
Curve 3 is what made the plausibility (score) of when
2, that is, the curve 32 is the partial hypothesis “#” of the input voice. i
k i Score function g for "o"i5(T).
That is, the partial hypothesis "# i k The score function 31 of “i” is
Is calculated as the initial value of the likelihood at each time.
Then, the trellis calculation is used to accumulate the scores of phoneme o at each time.
Then, "# i k i Find the score function 32 of "o"
Meru.

【0013】トレリス計算は、音響モデルを示すHMM
と入力音声を分析した特徴パラメータのベクトル時系列
データとの照合であり、時刻tでHMMの最終状態に到
達するHMMの全ての遷移に対してベクトル時系列デー
タの確率計算を行い、その結果時刻tにおける確率値を
得ることができる。ここではその確率値のlog 値をスコ
ア(尤度)として用いる。
The trellis calculation is an HMM showing an acoustic model.
And the vector time-series data of the characteristic parameters obtained by analyzing the input speech, and the probability calculation of the vector time-series data is performed for all transitions of the HMM that reach the final state of the HMM at time t. The probability value at t can be obtained. Here, the log value of the probability value is used as the score (likelihood).

【0014】次に部分仮説の評価値を求めるために、音
声の始端から推定した各部分仮説に共通な無文法(文法
の制約がなく、何れの音素への拡張を許す)で求めた前
向きのヒューリスティック関数g^(t)を求め、これ
を、下記式(1)のように、この部分仮説のスコア関数
i (t)から差し引き、その最大値Si を求めると、
i はその部分仮説iのもっともらしさを示しており、
これを部分仮説iの評価値とすることによって、時刻に
対する正規化を行った部分仮説の評価値を求めることが
できる。
Next, in order to obtain the evaluation value of the partial hypothesis, a forward-looking statement obtained by common grammar (without grammatical restrictions and allowing expansion to any phoneme) common to each partial hypothesis estimated from the beginning of the speech When the heuristic function g ^ (t) is obtained and is subtracted from the score function g i (t) of this partial hypothesis as in the following formula (1), the maximum value S i is obtained.
S i indicates the plausibility of the partial hypothesis i,
By setting this as the evaluation value of the partial hypothesis i, the evaluation value of the partial hypothesis that is normalized with respect to time can be obtained.

【0015】 Si = max{gi (t)−g^(t)} (1) maxは各tについて{ }内が最大となるもの なお、無文法により探索を行うと正解に近い評価値が得
られるが、部分仮説の数が著しく多く、ほぼ同一の評価
値のものが多くなり、選択が困難となるため、前述した
ように文法の制約下での探索を行うことになる。
S i = max {g i (t) −g ^ (t)} (1) max is the maximum in {} for each t Note that when a search is performed without grammar, an evaluation value close to the correct answer is obtained. However, since the number of partial hypotheses is remarkably large and the number of evaluation values that are almost the same is large and selection becomes difficult, as described above, the search is performed under the constraint of grammar.

【0016】[0016]

【発明が解決しようとする課題】音声認識において、探
索処理量の削減により、認識処理時間を短くし実使用で
の音声認識の使いやすさが良くなる。また、探索処理量
の削減により処理能力の低い計算機にも音声認識を実用
的に動作させることが可能となる。探索処理量を減らす
には、探索の過程で見込みのない部分仮説を廃棄し、拡
張すべき部分仮説の個数を少なくすることが必要であ
る。しかし、従来の評価値の高い部分仮説を一定個数保
持するビーム探索では、一定個数保持する部分仮説の中
に評価値が小さい部分仮説、つまり、もっともらしい認
識結果となり得ない部分仮説があったとしても、その部
分仮説は廃棄されず、無駄な処理を行うことになる。ま
た、しきい値を設定し、評価値がしきい値よりも高い部
分仮説を保持するビーム探索では、評価値が小さい部分
仮説は廃棄されるが、一般に評価値は認識語彙数、話
者、入力音声長に大きく影響を受けるため、正解の部分
仮説を落とさずに効果的に部分仮説の廃棄を行えるしき
い値の設定は難しい。
In the voice recognition, by reducing the search processing amount, the recognition processing time is shortened and the voice recognition in actual use becomes easy to use. Further, by reducing the amount of search processing, it becomes possible to practically operate voice recognition even on a computer having a low processing capacity. In order to reduce the amount of search processing, it is necessary to discard partial hypotheses that are unlikely in the search process and reduce the number of partial hypotheses to be expanded. However, in the conventional beam search that holds a certain number of partial hypotheses with high evaluation values, there is a partial hypothesis with a small evaluation value among partial hypotheses that hold a certain number of hypotheses, that is, a partial hypothesis that cannot be a plausible recognition result. However, the partial hypothesis is not discarded, and wasteful processing is performed. Further, in the beam search in which a threshold is set and a partial hypothesis whose evaluation value is higher than the threshold is retained, partial hypotheses with a small evaluation value are discarded, but in general, the evaluation value is the number of recognized vocabularies, speakers, Since it is greatly affected by the input speech length, it is difficult to set a threshold value that can effectively discard the partial hypothesis without dropping the correct partial hypothesis.

【0017】つまり、従来の方法によって計算された評
価値は、部分仮説同士の比較を行うためには有効である
が、認識語彙数、話者、入力音声長の影響を大きく受け
るため、その絶対値そのものを用いて部分仮説を評価す
ることは難しい。
That is, the evaluation value calculated by the conventional method is effective for comparing the partial hypotheses, but is greatly affected by the number of recognition vocabularies, the speaker, and the input speech length, and therefore its absolute value It is difficult to evaluate the partial hypothesis using the value itself.

【0018】[0018]

【課題を解決するための手段】この発明によれば、探索
の過程で、つまり木構造の文法における音声単位(音
素、音節、半音節、単語など)の深さごとに、入力音声
の発声内容が正解であると仮定したときの評価値を推定
して基準評価値とし、従来の文法の制約を受けて音声単
位を連結し音響モデルとの照合を行って得られた評価値
を、前記基準評価値で正規化を行い、その正規化評価値
がしきい値以下の部分仮説を廃棄する。
According to the present invention, the utterance content of the input speech is calculated in the search process, that is, for each depth of a phonetic unit (phoneme, syllable, semi-syllable, word, etc.) in the tree structure grammar. Is estimated as a reference evaluation value by assuming that the answer is correct, and the evaluation value obtained by performing a collation with an acoustic model by concatenating speech units under the constraint of the conventional grammar is the reference value. The evaluation value is normalized, and the partial hypothesis whose normalized evaluation value is less than or equal to the threshold value is discarded.

【0019】上記正規化により、部分仮説の評価値から
認識語彙数、話者、入力音声長等の影響が取り除かれ、
探索の過程で見込みのない部分仮説を確実に廃棄でき、
探索効率を高め、この正規化評価値を用いることで探索
処理量を削減することができる。
By the above normalization, the influence of the number of recognized vocabulary, the speaker, the input speech length, etc. is removed from the evaluation value of the partial hypothesis,
In the search process, you can surely discard the partial hypothesis that has no prospect,
By increasing the search efficiency and using this normalized evaluation value, the search processing amount can be reduced.

【0020】[0020]

【実施例】以下、この発明の実施例を説明する。従来と
同様に入力音声を分析処理し、時系列の特徴パラメータ
のベクトルデータを得る。探索処理としては、部分仮説
に拡張する音声の単位を音素とし、各部分仮説で音素数
が一定なる音素同期のビーム探索、音響モデルはHMM
の場合に、この発明を適用した実施例を図1を用いて説
明する。文法41の拘束条件を用い音素拡張処理部42
で部分仮説iに音素を拡張し、トレリス計算処理部43
で音素系列に対応するHMMと入力音声との照合を行
う。得られた部分仮説iのスコア関数gi (t)から評
価値計算処理部47で部分仮説iの評価値Si を求め
る。従来の方法ではこの部分仮説iの評価値Si の高い
部分仮説を一定個数保持し、あとは捨てるというビーム
探索を行うが、この発明では、スコア関数計算処理部4
5で基準評価値のためのスコア関数g0 (t)を後述す
る方法で求め、上記と同様に評価値計算処理部48で基
準評価値SO を求める。次に部分仮説iの評価値Si
基準評価値S0 の差(部分仮説iの正規化評価値
i ′)を求め、この差Si ′が大きいものは、見込み
のない部分仮説として廃棄し、探索を進める。
Embodiments of the present invention will be described below. The input speech is analyzed in the same manner as in the past, and vector data of time-series feature parameters is obtained. As the search processing, a phoneme is used as a unit of speech extended to the partial hypothesis, a phoneme-synchronized beam search in which the number of phonemes in each partial hypothesis is constant, and an acoustic model is an HMM.
In this case, an embodiment to which the present invention is applied will be described with reference to FIG. The phoneme extension processing unit 42 using the constraint condition of the grammar 41
The phoneme is expanded to the partial hypothesis i by, and the trellis calculation processing unit 43
Matches the HMM corresponding to the phoneme sequence with the input voice. The evaluation value calculation processing unit 47 obtains the evaluation value S i of the partial hypothesis i from the obtained score function g i (t) of the partial hypothesis i. In the conventional method, a beam search is performed in which a certain number of partial hypotheses having a high evaluation value S i of the partial hypothesis i are held and then discarded. However, in the present invention, the score function calculation processing unit 4
Calculated by the score function g 0 (t) the method described below for the reference evaluation value in 5, we obtain the reference evaluation value S O in the evaluation value calculation processing unit 48 in the same manner as described above. Then 'seek, the difference S i the difference evaluation value S i and the reference evaluation value S 0 of the partial hypotheses i (partial hypotheses i normalized evaluation value S i) of' what is large, as expected with no partial hypotheses Discard and proceed with the search.

【0021】図3Bの例で具体的に説明すると、第4音
素の部分仮説から音素を拡張した部分仮説は、「#
o」,「# k」,「#
m」,「# m」,「#
n」の5種類あり、それぞれの部分仮説を部分仮説
iとし、部分仮説iの評価値をSi とし、基準評価値S
0 とすると、下記式(2)により部分仮説iの正規化評
価値Si ′が得られる。
Explaining specifically with reference to the example of FIG. 3B, the fourth tone
The partial hypothesis obtained by extending the phoneme from the elementary partial hypothesis is "# i
k i o ”,“ # i k i k ”,“ # i
k i m ”,“ # i k a m ”,“ # i k
a There are five types of "n", and each partial hypothesis is a partial hypothesis.
i and the evaluation value of the partial hypothesis i is SiAnd the standard evaluation value S
0Then, the normalized evaluation of the partial hypothesis i is performed by the following equation (2).
Value Si′ Is obtained.

【0022】 Si ′=Si −S0 (2) 入力された音声が実際には「いきおい」と発生されたと
すると、「# o」の部分仮説が最も正解に
近く評価値が高くなる。また、「# m」の
ように正解とは離れた部分仮説については、その評価値
は小さくなっている。基準評価値は、入力音声の内容が
正解であると仮定したときの推定評価値であって、例え
ば無文法によって求められたものであるから、文法的な
制約がなく全ての音響モデルの組み合わせを許して得ら
れるものなので、必ず入力音声の内容と同一の音素系列
又はこれに近いものとの照合がなされ、その音素系列は
最も評価値が高くなる組み合わせになっているはずであ
り、この基準評価値は「# o」の部分仮
説の評価値に近い値になる。よって、正規化評価値
i ′の値は正解に近い部分仮説に対しては0に近くな
り、正解から離れた部分仮説では大きな負の値となる。
正規化評価値Si ′のこの傾向は、S0 とS i は共に同
一入力音声から作られているためS0 とSi が含む話者
の特性が正規化評価値では差し引かれて除去され、話者
に依存しにくい。同様の理由でSi の前記傾向は入力音
声長にも依存しない。また、部分仮説の個数を一定にす
るビーム探索では、認識語彙数によって保持する部分仮
説の個数を変える必要があるが、評価値そのものは認識
語彙数が変わっても変化しないため、正規化評価値
i′は認識語彙数の影響も少ない。
Si′ = Si-S0 (2) When the input voice is actually generated as "Ikioi"
Then, "# i k i The partial hypothesis of "o" is the most correct answer
The evaluation value becomes high soon. Also,"# i k a m ”
As for the partial hypothesis that is far from the correct answer, its evaluation value
Is getting smaller. The reference evaluation value depends on the content of the input voice.
Estimated evaluation value assuming that the answer is correct.
For example, since it was obtained by non-grammar, grammatical
There are no restrictions, and all combinations of acoustic models are allowed
The same phoneme sequence as the content of the input speech
Or, the phoneme sequence of the phoneme sequence
The combination should have the highest evaluation value.
This standard evaluation value is "# i k i part of "o"
It is close to the theory's evaluation value. Therefore, the normalized evaluation value
SiThe value of ′ is not close to 0 for the partial hypothesis that is close to the correct answer.
Therefore, the partial hypothesis far from the correct answer has a large negative value.
Normalized evaluation value SiThis tendency of ′ is S0And S iAre both the same
S because it is made from one input voice0And SiSpeakers including
Characteristics are subtracted from the normalized evaluation value and removed.
Hard to depend on. S for the same reasoniSaid tendency of input sound
It does not depend on the voice length. Also, keep the number of partial hypotheses constant.
In the beam search,
It is necessary to change the number of theories, but the evaluation value itself is recognized
Normalized evaluation value because it does not change even if the number of vocabularies changes
Si′ Has little influence on the number of recognized vocabularies.

【0023】ビーム探索で正規化評価値Si ′の低い部
分仮説を廃棄する場合、しきい値Lを定め、Si ′<L
となる部分仮説を廃棄するが、Lは一定数としたり、部
分仮説の時間長に依存した値、例えば部分仮説の時間長
が長ければこれに応じて前記例では負の大きな値に設定
してもよい。図1中の評価値計算処理部47,48での
計算方法として式(1)を用い、かつ式(1)のg^
(t)が基準評価値のためのスコア関数g0 (t)と等
しい場合は下記式(3)を用いて正規化評価値Si ′を
求めることができる。gi (t)は部分仮説iのスコア
関数、g0 (t)は基準評価値のためのスコア関数であ
る。式(3)によれば正規化評価値Si ′のための計算
処理量を大幅に削減できる。
When a partial hypothesis having a low normalized evaluation value S i ′ is discarded in the beam search, a threshold value L is set and S i ′ <L.
However, if L is a constant number or a value depending on the time length of the partial hypothesis, for example, if the time length of the partial hypothesis is long, a large negative value is set in the above example. Good. Equation (1) is used as the calculation method in the evaluation value calculation processing units 47 and 48 in FIG.
When (t) is equal to the score function g 0 (t) for the reference evaluation value, the normalized evaluation value S i ′ can be obtained using the following equation (3). g i (t) is a score function of the partial hypothesis i, and g 0 (t) is a score function for the reference evaluation value. According to the equation (3), the amount of calculation processing for the normalized evaluation value S i ′ can be significantly reduced.

【0024】 Si ′= max{gi (t)−g0 (t)} (3) maxは各tについて{ }内が最大となるもの 基準評価値SO のためのスコア関数g0 (t)の求め方
を以下に示す。 <基準評価値のためのスコア関数の計算方法1>各音素
HMMは、通常3つ程度の状態をもっており、その各状
態では、複数の確率密度関数の重み和の出力確率密度分
布をもっている。ここで、各時刻での入力音声の特徴パ
ラメータを全ての出力確率密度分布に与え、最も高い出
力確率密度値を選択し、その対数である時刻ごとの最大
尤度を求める。この最大尤度の時刻進行での累積値を求
め、それを基準評価値のためのスコア関数とする。Oτ
を時刻τでの特徴パラメータ、pj (Oτ)を出力確率
密度分布jにその特徴パラメータを与えた出力確率密度
値とすると、g0 (t)は式(4)によって与えられ
る。
[0024] S i '= max {g i (t) -g 0 (t)} (3) max score function g 0 for a reference evaluation value S O those in {} for each t is maximum ( The method of obtaining t) is shown below. <Score function calculation method 1 for reference evaluation value> Each phoneme HMM usually has about three states, and in each state, there is an output probability density distribution of the weighted sum of a plurality of probability density functions. Here, the characteristic parameter of the input speech at each time is given to all output probability density distributions, the highest output probability density value is selected, and the maximum likelihood for each time, which is the logarithm thereof, is obtained. The cumulative value of this maximum likelihood over time is calculated, and this is used as the score function for the reference evaluation value. Oτ
Is a characteristic parameter at time τ, and p j (Oτ) is an output probability density value obtained by giving the characteristic parameter to the output probability density distribution j, g 0 (t) is given by the equation (4).

【0025】 g0 (t)=Σ maxpj (Oτ) (4) Σはτ=0からtまで、 maxはpj (Oτ)中の全ての
jについての最大値通常は一つのHMMから他のHMM
への遷移は、一つのHMMの終りの状態から、他のHM
Mの始めの状態へ遷移するという条件のもとに遷移する
が、このスコア関数は、前記遷移条件をなくし、かつ文
法の制約もなくし、全てのHMMの何れの状態から何れ
のHMMの何れの状態への遷移を許し、かつその遷移確
率を1として、ビタービ計算を行ったときのスコア関数
を示している。探索が進むとpj (Oτ)の大部分は、
探索の過程でのトレリス計算で行われているので、その
結果を利用でき計算量が少なくて済む。
G 0 (t) = Σ maxp j (Oτ) (4) Σ is from τ = 0 to t, max is the maximum value for all j in p j (Oτ), usually from one HMM to another HMM
The transition from the end state of one HMM to another HM
The transition is made under the condition that the transition to the initial state of M is made, but this score function eliminates the transition condition and the constraint of grammar, and from any state of any HMM to any of any HMM. The score function when the Viterbi calculation is performed with the transition probability being 1 and the transition probability being 1 is shown. As the search progresses, most of p j (Oτ) becomes
Since the trellis calculation is performed in the search process, the result can be used and the amount of calculation is small.

【0026】<基準評価値のためのスコア関数の計算方
法2>前記計算方法1においては、全HMMの全ての状
態の出力確率密度分布から得られる出力確率密度値の最
大値から求めたが、この計算方法2では探索処理の過程
で現在までにトレリス計算によって計算済みの全ての出
力確率密度分布に対する出力確率密度値の最大値から求
める。例えば図2に示すように、各HMMの各状態の出
力密度分布p1 ,p2 ,p3 …,を縦軸に、横軸に時刻
tをとると、前記図3Bの例では先ず無音#のHMMの
各状態の出力密度分布に対する出力確率密度値が予測さ
れる無音長について、この例では時刻0から3まで計算
され(この計算値が埋められた領域を51で示す)、最
も短い無音の終了時刻1の次の時刻2から最も長い無音
の終了時刻3の次の時刻4より次の音素iのHMMの各
状態の出力密度分布に対する出力確率密度値がそれぞれ
計算される。その計算値が埋められた領域を52で示
す。同様にして音素kのHMMの各状態の出力確率密度
値が図2に領域53として計算される。探索によりこの
ような計算が進められるが、図2中の各時刻0,1,
2,…における各計算された出力確率密度値の最大値を
求める。この最大値を順次加算してg0 (t)とする。
このようにすると探索処理過程で文法の拘束を受けた出
力確率密度分布からスコア関数g0 (t)を計算するた
め、より実際の文法に近いスコア関数が得られる。しか
も、トレリス計算で既に計算された出力確率密度値しか
使わないため、スコア関数g0 (t)のための計算はほ
とんど必要としない。このような計算方法でも、文法で
制約されていない部分の出力確率密度値はトレリス計算
で得られているものより小さいものが大部分と考えら
れ、正しく数g0 (t)が推定される。
<Calculation Method 2 of Score Function for Reference Evaluation Value> In the calculation method 1, the maximum value of the output probability density values obtained from the output probability density distributions of all the states of all HMMs is obtained. In this calculation method 2, the maximum value of the output probability density values for all the output probability density distributions that have been calculated by trellis calculation up to the present in the course of the search processing is obtained. For example, as shown in FIG. 2, when the power density distributions p 1 , p 2 , p 3 ... Of each state of each HMM are plotted on the vertical axis and the time t is plotted on the horizontal axis, in the example of FIG. In this example, the silent length for which the output probability density value is predicted for the output density distribution of each state of the HMM is calculated from time 0 to time 3 (the area in which this calculated value is filled is indicated by 51), and the shortest silence The output probability density value for the output density distribution of each state of the HMM of the next phoneme i is calculated from the time 2 after the end time 1 of 1 to the time 4 after the end time 3 of the longest silence. An area in which the calculated value is filled is indicated by 52. Similarly, the output probability density value of each HMM state of the phoneme k is calculated as a region 53 in FIG. Although such calculation is advanced by the search, each time 0, 1, in FIG.
The maximum value of the calculated output probability density values in 2, ... Is obtained. This maximum value is sequentially added to obtain g 0 (t).
In this way, since the score function g 0 (t) is calculated from the output probability density distribution which is constrained by the grammar in the search process, a score function closer to the actual grammar can be obtained. Moreover, since only the output probability density value already calculated in the trellis calculation is used, the calculation for the score function g 0 (t) is hardly necessary. Even in such a calculation method, it is considered that the output probability density value of the part not restricted by the grammar is smaller than that obtained by the trellis calculation, and the number g 0 (t) is correctly estimated.

【0027】<基準評価値のためのスコア関数の計算方
法3>横型探索法の説明で述べたように部分仮説に音素
を拡張していき、トレリス計算等の照合を行うことによ
りスコア関数を得る。この場合、各部分仮説に任意の音
素の拡張を行えるような文法、つまり無文法で、音素を
拡張していき、対応する音響モデルと入力音声を照合し
て得られたスコア関数の各時刻での最大値を基準評価値
のためのスコア関数とする。この場合はHMMの遷移制
約は残しておく、この方法は上記2つの方法よりも文法
的拘力が強く、これを用いることにより精度の高い正規
化評価値Si ′を求めることができるが、計算量も多く
なる。
<Score function calculation method 3 for reference evaluation value> As described in the explanation of the horizontal search method, phonemes are expanded to partial hypotheses, and a score function is obtained by performing collation such as trellis calculation. . In this case, the phoneme is expanded in a grammar that can expand any phoneme to each partial hypothesis, that is, without grammar, and at each time of the score function obtained by matching the corresponding acoustic model with the input speech. The maximum value of is the score function for the reference evaluation value. In this case, the transition constraint of the HMM is left. This method has a stronger grammatical force than the above two methods, and by using this, a highly accurate normalized evaluation value S i ′ can be obtained. The amount of calculation also increases.

【0028】<基準評価値のためのスコア関数の計算方
法4>基準評価値のためのスコア関数の計算方法3にお
いて、任意の音素の拡張を行えるような文法ではなく、
日本語特有の音素配列構造のみを許す文法により、尤度
計算を行い、得られたスコア関数を前向きのヒューリス
ティック関数とする。日本語特有の音素配列構造を許す
音素列とは、例えば「o sh
i」や「s u」という
ように一般に子音の後には子音が来ないという制約を示
している。「s ai k」という音素の連鎖
は英語での音素配列構造を満たしているが、日本語の音
素配列構造とはなっていない。
<How to calculate score function for reference evaluation value
Method 4> In the calculation method 3 of the score function for the reference evaluation value
And not a grammar that can expand any phoneme,
A grammar that allows only the phoneme array structure peculiar to Japanese
Perform the calculation and use the obtained score function as a positive heuristic.
Let it be a tick function. Allow Japanese phoneme array structure
The phoneme sequence is, for example, "o m o sh i r o
i "and" s u t o r a i k u "
In general, the restriction that consonants do not come after
are doing. "S t r ai Phoneme chain "k"
Satisfies the phoneme array structure in English, but Japanese sounds
It is not a prime array structure.

【0029】計算方法3および計算方法4におけるg0
(t)を計算する際の音素を拡張する文法は、探索のた
めの部分仮説を作成するための文法を包含する文法と言
える。 <基準評価値のためのスコア関数の計算方法5>最終的
な正解の部分仮説は、そのスコア関数も他の部分仮説よ
りも大きくなっている場合が多い。そこで、探索の過程
で計算された全ての部分仮説のスコア関数g1 (t),
2 (t),g3 (t),…の各時間ごとの最大値をg
0 (t)とする。式で表現すると次のようになる。
G 0 in calculation method 3 and calculation method 4
It can be said that the grammar for expanding the phonemes when calculating (t) includes the grammar for creating the partial hypothesis for the search. <Calculation Method 5 of Score Function for Reference Evaluation Value> In most cases, the final correct partial hypothesis has a larger score function than the other partial hypotheses. Therefore, the score functions g 1 (t) of all partial hypotheses calculated in the search process,
The maximum value of g 2 (t), g 3 (t), ...
0 (t). Expressed as an expression, it is as follows.

【0030】 g0 (t)= maxgi (t) (5) maxはgi (t)の全てのi中最大のもの この計算方法ではg0 (t)のための計算量をほとんど
必要としない。 <基準評価値のためのスコア関数の計算方法6>基準評
価値SO を求めるためのスコア関数g0 (t)の計算
は、音素の識別をする必要はなく、スコアを求めること
ができればよいから、各音素ごとのHMMを用いる必要
がなく、図1に点線で示すように認識用の音響モデル1
5とは別の音響モデル46を用いてもよく、この音響モ
デル46としては、例えば一つまたは数個の音響モデル
でも、多くの状態数を設けることにより、認識対象を包
含している音響現象を全て表現できるように構成したも
のでもよく、この一つの音響モデルを繰り返し使用し、
または数個の音響モデルの場合は、これらを任意に選択
して連結して入力音声と照合してもっともらしいものを
求めてg0 (t)を求めてもよい。
G 0 (t) = max g i (t) (5) max is the largest of all i in g i (t) This calculation method requires almost all the calculation amount for g 0 (t). do not do. <Score Function Calculation Method 6 for Reference Evaluation Value> The calculation of the score function g 0 (t) for obtaining the reference evaluation value S O does not need to identify phonemes, and it is sufficient if the score can be obtained. Therefore, it is not necessary to use the HMM for each phoneme, and the acoustic model 1 for recognition as shown by the dotted line in FIG.
An acoustic model 46 different from 5 may be used. As the acoustic model 46, for example, even if one or several acoustic models are provided, by providing a large number of states, an acoustic phenomenon including a recognition target. It may be configured to express all, and this one acoustic model is repeatedly used,
Alternatively, in the case of several acoustic models, g 0 (t) may be obtained by arbitrarily selecting and concatenating these acoustic models and matching them with the input voice to find a plausible one.

【0031】一部変形の説明 上述において、評価値を求めるため前向きヒューリステ
ィック関数を求めたが、例えば「南等“番号案内を対象
とした大語い連続音声認識アルゴリズム”電子情報通信
学会論文誌A.vol.J77−A,No. 2,pp. 190〜
197.1994」に示されているように、音声の終端
から後向きに推定した全ての仮説に共通な推定尤度関数
h^(t)を求めておき、これをスコア関数gi (t)
に加算して評価値Si としてもよい。さらに、この発明
は音素を単位としての音声認識のみならず、音節、半音
節、単語などを単位として認識する場合にも適用され
る。
Description of Partially Modified In the above, a forward-looking heuristic function was obtained in order to obtain an evaluation value. For example, “Minami et al.“ Large word continuous speech recognition algorithm for number guidance ”, IEICE Transactions A Vol.J77-A, No. 2, pp. 190-
197.1994 ”, an estimated likelihood function h ^ (t) common to all hypotheses estimated backward from the end of speech is obtained, and this is calculated as a score function g i (t).
To the evaluation value S i . Furthermore, the present invention is applicable not only to speech recognition in units of phonemes, but also to recognition in units of syllables, semi-syllables, words, and the like.

【0032】以下に実験例を示す。音素バランス216
単語の奇数番号108単語を対象とした単語認識におい
て、語彙内単語として奇数番号108単語、語彙外単語
として偶数番号108単語の音声データを与え認識を行
った結果で評価を行った。探索中、廃棄の性能を評価す
る値として、語彙内の単語認識での認識率を全体の認識
率、語彙内の単語認識で“認識結果なし”と判定される
割合を誤棄却率、語彙外の単語認識で“認識結果が棄却
されない”割合を誤受理率、誤棄却率と誤受理率の平均
を誤判定率とした。つまり、認識率を保った状態で誤判
定率を低く抑えられる場合に廃棄の性能が良いと考えら
れる。
Experimental examples are shown below. Phoneme balance 216
In the word recognition targeting the odd-numbered 108 words, the speech data of the odd-numbered 108 words as the vocabulary and the even-numbered 108 words as the words outside the vocabulary were given and evaluated. During the search, the recognition rate for word recognition in the vocabulary is the overall recognition rate as the value for evaluating the performance of discarding, and the rate of misrecognition in the word recognition in the vocabulary is “missing recognition result”, and the rate outside the vocabulary. The rate at which the recognition result was not rejected in the word recognition was defined as the false acceptance rate, and the average of the false rejection rate and the false acceptance rate was defined as the false positive rate. That is, it is considered that the discarding performance is good when the false determination rate can be suppressed to a low level while maintaining the recognition rate.

【0033】以上の評価を廃棄の強さを変化させて行っ
た。これには部分仮説を棄却するためのしきい値Lとし
て、時刻tに比例したθ・tを用い、θの値を変えるこ
とによって廃棄の強さを変えた。θの値が大きいほど強
い廃棄となる。音声データとしてはATRの音声データ
ベースのうちMAU,MHT,FAF,FSUの4人の
話者を評価に用いた。また、実験システムとしてHMM
−LR音声認識サーバを用いた。ただし、音響モデル
は、状態数3,混合分布数4で音素モデル数54個の不
特定話者用環境独立型混合連続分布HMMで、音響学会
連続音声データベース9600文より学習したものを使
用した。今回の実験では任意の音素の組み合わせの連鎖
を基準評価値用の仮説とし、その尤度関数を前向きヒュ
ーリスティック関数とした。
The above evaluation was carried out by changing the strength of disposal. For this, as the threshold L for rejecting the partial hypothesis, θ · t proportional to the time t was used, and the strength of discard was changed by changing the value of θ. The larger the value of θ, the stronger the disposal. As voice data, four speakers of MAU, MHT, FAF, and FSU in the voice database of ATR were used for evaluation. As an experimental system, HMM
-Using the LR voice recognition server. However, as the acoustic model, an environment-independent mixed continuous distribution HMM for unspecified speakers with the number of states 3 and the number of mixture distributions 4 and the number of phoneme models 54, which was learned from 9600 sentences of the ASJ continuous speech database was used. In this experiment, the chain of arbitrary phoneme combinations was used as the hypothesis for the reference evaluation value, and its likelihood function was used as the forward heuristic function.

【0034】図5に話者MHTの場合の動的廃棄の強さ
を変化させたときの認識性能、廃棄性能の変化を示す。
図での認識処理時間、照合回数は全探索でのそれぞれの
値を用いて正規化した値を示す。図からわかるように、
例えばθ=0付近を見るとわかるように認識率を保った
状態で廃棄の効果がある。また照合回数が抑えられてお
り、不要な部分仮説の棄却が行われていることがわか
る。しかし、今回の単語認識実験では語彙が小さいた
め、ヒューリスティック関数を求めるための計算量が相
対的に大きくなり、全体の認識処理時間は全探索を行う
場合とほとんど変わらなかった。ただし、このヒューリ
スティック関数を用いて部分仮説の個数一定のビーム探
索を行う場合、同等の認識率を得るには全探索の1.2倍
程度の認識処理時間を必要とする。よって、この条件で
の実験でも、個数一定のビーム探索に比べ、この発明方
法の方が廃棄の機能があり、しかも認識処理時間が短い
結果となった。
FIG. 5 shows changes in the recognition performance and the discard performance when the strength of the dynamic discard in the case of the speaker MHT is changed.
The recognition processing time and the number of times of matching in the figure show the values normalized using the respective values in the full search. As you can see from the figure,
For example, as can be seen from around θ = 0, there is an effect of discarding while maintaining the recognition rate. Moreover, the number of times of matching is suppressed, and it can be seen that unnecessary partial hypotheses are rejected. However, since the vocabulary was small in this word recognition experiment, the amount of calculation for obtaining the heuristic function was relatively large, and the overall recognition processing time was almost the same as when performing a full search. However, when a beam search with a certain number of partial hypotheses is performed using this heuristic function, a recognition processing time of about 1.2 times that of the full search is required to obtain the same recognition rate. Therefore, even in the experiment under these conditions, the method of the present invention has a discarding function and the recognition processing time is shorter than that of the beam search with a constant number.

【0035】[0035]

【発明の効果】従来の部分仮説の評価値の絶対値が話
者、認識語彙数、入力音声長に依存するのに対し、この
発明では、部分仮説の評価値を同一入力音声から求めた
基準評価値により正規化しているため、話者、認識語彙
数、入力音声長に依存しない正規化評価値が得られ、探
索の過程での見込みのない部分仮説の廃棄を効果的に行
うことができる。これより、正規化評価値のためのしき
い値は同じ値で様々な用途に音声認識を利用でき、利用
者の設定の負担を減らすことができる。
As described above, the absolute value of the evaluation value of the partial hypothesis depends on the speaker, the number of recognized vocabularies, and the length of the input speech. Since it is normalized by the evaluation value, a normalized evaluation value that does not depend on the speaker, the number of recognized vocabularies, and the input speech length can be obtained, and it is possible to effectively discard unexpected partial hypotheses in the search process. . As a result, the threshold value for the normalized evaluation value is the same value, the voice recognition can be used for various purposes, and the setting load on the user can be reduced.

【0036】また、入力された音声が文法の許さない内
容の場合、従来の探索では文法内のもっとも近い候補で
ある間違った結果を出力することになり、利用者の発声
ミスと音声認識の誤認識との区別を示すことができなか
った。しかし、この場合この発明では、探索の過程で全
ての部分仮説が廃棄され、認識結果なしとなり、利用者
に発声の誤りを知らせることができる。利用者の発声ミ
スを早期に発見して示すことは実用の音声認識において
重要である。
Further, when the input voice has a content that the grammar does not allow, the conventional search outputs the wrong result which is the closest candidate in the grammar, so that the utterance error of the user and the voice recognition error. Could not show distinction from cognition. However, in this case, in the present invention, all the partial hypotheses are discarded during the search process, and no recognition result is obtained, and the user can be notified of the utterance error. It is important for practical speech recognition to detect and show the utterance error of the user at an early stage.

【0037】この発明の方法の効果を以下に列挙する。 ・探索の過程での見込みのない部分仮説の廃棄を効果的
に行える。 ・設定しなければならないしきい値は、話者、認識語彙
数、入力音声長に依存しないので、利用者の設定の負担
を減らすことができる。 ・入力された音声が文法の許さない内容の場合、探索の
過程で早期に認識が行えないことを検出でき、利用者の
発声ミスを知らせることができる。
The effects of the method of the present invention are listed below. -Effectively discarding partial hypotheses that are unlikely in the search process. -Since the threshold that must be set does not depend on the speaker, the number of recognized vocabularies, and the length of input speech, the burden of setting on the user can be reduced. -If the input voice has a content that the grammar does not allow, it can be detected that recognition cannot be performed early in the search process, and the user's utterance error can be notified.

【図面の簡単な説明】[Brief description of drawings]

【図1】この発明方法の要部である部分仮説の正規化評
価値を求める手法の例を示す図。
FIG. 1 is a diagram showing an example of a method of obtaining a normalized evaluation value of a partial hypothesis, which is a main part of the method of the present invention.

【図2】基準評価値のためのスコア関数計算方法2を説
明するためのトレリス計算にてなされた出力確率密度値
の例を示す図。
FIG. 2 is a diagram showing an example of an output probability density value obtained by a trellis calculation for explaining a score function calculation method 2 for a reference evaluation value.

【図3】Aは音素を認識の単位とした音声認識方法の処
理を示す図、Bは木構造によって表現される文法を示す
図である。
FIG. 3A is a diagram showing a process of a speech recognition method in which a phoneme is a unit of recognition, and B is a diagram showing a grammar expressed by a tree structure.

【図4】トレリス計算の結果得られるスコア関数を示す
図。
FIG. 4 is a diagram showing a score function obtained as a result of trellis calculation.

【図5】この発明方法について行った実験の結果を示す
図。
FIG. 5 is a diagram showing the results of experiments conducted on the method of the present invention.

Claims (12)

【特許請求の範囲】[Claims] 【請求項1】 音声単位で構成された木構造の文法に基
づいて、入力音声の発生内容に関する一つあるいは複数
の仮説を、音声単位を漸次的に追加連結および分岐して
生成し、 その際に上記木構造の音声単位の深さごとに、音響モデ
ルに基づいて、入力音声に対する各仮説におけるそれま
での部分仮説のもっともらしさを評価して部分仮説評価
値を求め、 上記各仮説についてのもっともらしさから認識結果を求
める音声認識方法において、 上記木構造の音声単位の深さごとに、上記入力音声の発
声内容が正解であると仮定したときの評価値を推定して
基準評価値とし、 その基準評価値で対応する深さの上記部分仮説の評価値
を正規化し、 その正規化した評価値がしきい値以下の部分仮説を廃棄
することを特徴とする音声認識方法。
1. Based on a grammar of a tree structure composed of voice units, one or a plurality of hypotheses regarding the generated content of an input voice is generated by gradually concatenating and branching voice units, and at that time, For each depth of the voice unit of the above tree structure, based on the acoustic model, the plausibility of the partial hypotheses up to that point for the input speech is evaluated to obtain the partial hypothesis evaluation value, and the In a voice recognition method for obtaining a recognition result from the likelihood, for each depth of the voice unit of the tree structure, the evaluation value when the utterance content of the input voice is assumed to be the correct answer is estimated as a reference evaluation value, A speech recognition method characterized by normalizing an evaluation value of a partial hypothesis of a corresponding depth with a reference evaluation value and discarding a partial hypothesis having a normalized evaluation value equal to or less than a threshold value.
【請求項2】 上記文法を包含する文法に基づいて、上
記入力音声の発声内容に関する仮説を、音声単位を漸次
的に追加連続して生成し、上記入力音声を、部分仮説と
対応した上記音響モデルと照合してスコア関数を求め
て、上記基準評価値を得ることを特徴とする請求項1記
載の音声認識方法。
2. A hypothesis related to the utterance content of the input voice is generated successively and continuously by adding voice units based on a grammar including the grammar, and the input voice is the sound corresponding to the partial hypothesis. 2. The voice recognition method according to claim 1, wherein the reference evaluation value is obtained by obtaining a score function by collating with a model.
【請求項3】 認識対象を包含している音響現象を表現
する少なくとも一つの基準評価値用音響モデルの部分仮
説と対応したものと、上記入力音声を照合してスコア関
数を求めて、上記基準評価値を得ることを特徴とする請
求項1記載の音声認識方法。
3. A score function is obtained by collating the input speech with a partial hypothesis corresponding to at least one reference evaluation value acoustic model expressing an acoustic phenomenon including a recognition target, and obtaining the score function. The voice recognition method according to claim 1, wherein an evaluation value is obtained.
【請求項4】 上記入力音声を上記部分仮説と対応した
音響モデルと照合してスコア関数を求めて、上記部分仮
説評価値を得ることを特徴とする請求項2または3の何
れかに記載の音声認識方法。
4. The partial hypothesis evaluation value is obtained by collating the input speech with an acoustic model corresponding to the partial hypothesis to obtain a score function. Speech recognition method.
【請求項5】 上記音響モデルは隠れマルコフモデルで
あることを特徴とする請求項4記載の音声認識方法。
5. The speech recognition method according to claim 4, wherein the acoustic model is a hidden Markov model.
【請求項6】 各時刻ごとに上記隠れマルコフモデルの
全ての出力確率密度値の最大値を求め、その最大値を累
積して上記基準評価値を得るためのスコア関数を計算す
ることを特徴とする請求項5記載の音声認識方法。
6. A maximum value of all output probability density values of the hidden Markov model is calculated for each time, and the maximum value is accumulated to calculate a score function for obtaining the reference evaluation value. The voice recognition method according to claim 5.
【請求項7】 各時刻において、上記部分評価値を得る
ために計算された隠れマルコフの出力確率値中の最大値
を選び、その最大値を累積して上記基準評価値を得るた
めのスコア関数を計算することを特徴とする請求項5記
載の音声認識方法。
7. A score function for selecting the maximum value among the output probability values of hidden Markov calculated for obtaining the partial evaluation value at each time and accumulating the maximum value to obtain the reference evaluation value. The voice recognition method according to claim 5, wherein
【請求項8】 上記文法を包含する文法は、音声単位に
対応した音響モデルの任意の組み合わせを許すものであ
ることを特徴とする請求項2記載の音声認識方法。
8. The voice recognition method according to claim 2, wherein the grammar including the grammar allows any combination of acoustic models corresponding to voice units.
【請求項9】 上記音声単位に対応した音響モデルの組
み合わせに、日本語特有の音素配列構造の制約を用いる
ことを特徴とする請求項8記載の音声認識方法。
9. The speech recognition method according to claim 8, wherein a constraint of a phoneme array structure peculiar to Japanese is used for a combination of acoustic models corresponding to the speech units.
【請求項10】 上記入力音声を、部分仮説と対応した
上記音響モデルと照合してスコア関数を求めて上記部分
仮説評価値を得、上記基準評価値を、各時刻における上
記スコア関数の最大値を求めることにより得ることを特
徴とする請求項1記載の音声認識方法。
10. The input speech is collated with the acoustic model corresponding to a partial hypothesis to obtain a score function to obtain the partial hypothesis evaluation value, and the reference evaluation value is the maximum value of the score function at each time. The speech recognition method according to claim 1, wherein the speech recognition method is obtained by determining
【請求項11】上記部分仮説の評価値を、全ての部分仮
説に共通な前向きヒューリスティック関数を求め、各部
分仮説のスコア関数と上記前向きヒューリスティック関
数との差をとり、その差の最大値と対応する値として求
めることを特徴とする請求項4乃至10の何れかに記載
の音声認識方法。
11. The evaluation value of the partial hypothesis is calculated as a forward heuristic function common to all partial hypotheses, the difference between the score function of each partial hypothesis and the forward heuristic function is calculated, and the maximum value of the difference is associated. The voice recognition method according to any one of claims 4 to 10, wherein the voice recognition method is obtained as a value.
【請求項12】 上記前向きヒューリスティック関数と
して、上記基準評価値を求めるために得られたスコア関
数を用いることを特徴とする請求項11記載の音声認識
方法。
12. The speech recognition method according to claim 11, wherein a score function obtained for obtaining the reference evaluation value is used as the forward-looking heuristic function.
JP07041948A 1995-03-01 1995-03-01 Voice recognition method Expired - Lifetime JP3104900B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP07041948A JP3104900B2 (en) 1995-03-01 1995-03-01 Voice recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP07041948A JP3104900B2 (en) 1995-03-01 1995-03-01 Voice recognition method

Publications (2)

Publication Number Publication Date
JPH08241096A true JPH08241096A (en) 1996-09-17
JP3104900B2 JP3104900B2 (en) 2000-10-30

Family

ID=12622438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07041948A Expired - Lifetime JP3104900B2 (en) 1995-03-01 1995-03-01 Voice recognition method

Country Status (1)

Country Link
JP (1) JP3104900B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000293196A (en) * 1999-04-08 2000-10-20 Nec Corp Device and method for voice recognition and storage medium which stores program
JP2002534719A (en) * 1999-01-07 2002-10-15 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ Search algorithm for large vocabulary speech recognition
JP2002351491A (en) * 2001-05-30 2002-12-06 Sony Corp Speech recognizing device and speech recognizing method as well as program and recording medium
WO2005096271A1 (en) * 2004-03-30 2005-10-13 Pioneer Corporation Speech recognition device and speech recognition method

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6072561B2 (en) * 2013-02-20 2017-02-01 三菱電機株式会社 Air conditioning system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002534719A (en) * 1999-01-07 2002-10-15 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ Search algorithm for large vocabulary speech recognition
JP2000293196A (en) * 1999-04-08 2000-10-20 Nec Corp Device and method for voice recognition and storage medium which stores program
JP2002351491A (en) * 2001-05-30 2002-12-06 Sony Corp Speech recognizing device and speech recognizing method as well as program and recording medium
JP4696400B2 (en) * 2001-05-30 2011-06-08 ソニー株式会社 Voice recognition apparatus, voice recognition method, program, and recording medium
WO2005096271A1 (en) * 2004-03-30 2005-10-13 Pioneer Corporation Speech recognition device and speech recognition method

Also Published As

Publication number Publication date
JP3104900B2 (en) 2000-10-30

Similar Documents

Publication Publication Date Title
US6535850B1 (en) Smart training and smart scoring in SD speech recognition system with user defined vocabulary
US7672846B2 (en) Speech recognition system finding self-repair utterance in misrecognized speech without using recognized words
US7693713B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
JP4301102B2 (en) Audio processing apparatus, audio processing method, program, and recording medium
JP4351385B2 (en) Speech recognition system for recognizing continuous and separated speech
US20140207457A1 (en) False alarm reduction in speech recognition systems using contextual information
JP4340685B2 (en) Speech recognition apparatus and speech recognition method
JPH11175090A (en) Speaker clustering processor and voice recognition device
KR101014086B1 (en) Voice processing device and method, and recording medium
JP4769098B2 (en) Speech recognition reliability estimation apparatus, method thereof, and program
JP4950024B2 (en) Conversation system and conversation software
Huang et al. From Sphinx-II to Whisper—making speech recognition usable
JP5184467B2 (en) Adaptive acoustic model generation apparatus and program
JP3104900B2 (en) Voice recognition method
JP2974621B2 (en) Speech recognition word dictionary creation device and continuous speech recognition device
JP3633254B2 (en) Voice recognition system and recording medium recording the program
JP2871420B2 (en) Spoken dialogue system
JP2001255887A (en) Speech recognition device, speech recognition method and medium recorded with the method
JP3615088B2 (en) Speech recognition method and apparatus
JP3368989B2 (en) Voice recognition method
JP2731133B2 (en) Continuous speech recognition device
EP2948943B1 (en) False alarm reduction in speech recognition systems using contextual information
JP5158877B2 (en) Speech recognition method and apparatus
JP3575904B2 (en) Continuous speech recognition method and standard pattern training method
JPH09212190A (en) Speech recognition device and sentence recognition device

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070901

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080901

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080901

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090901

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090901

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100901

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100901

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110901

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120901

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130901

Year of fee payment: 13

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term