JPH1097275A - Large-vocabulary speech recognition system - Google Patents

Large-vocabulary speech recognition system

Info

Publication number
JPH1097275A
JPH1097275A JP8249548A JP24954896A JPH1097275A JP H1097275 A JPH1097275 A JP H1097275A JP 8249548 A JP8249548 A JP 8249548A JP 24954896 A JP24954896 A JP 24954896A JP H1097275 A JPH1097275 A JP H1097275A
Authority
JP
Japan
Prior art keywords
phoneme
backward
viterbi search
speech recognition
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8249548A
Other languages
Japanese (ja)
Inventor
Koichi Yamaguchi
耕市 山口
Seiji Hamaguchi
清治 濱口
Toshio Akaha
俊夫 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP8249548A priority Critical patent/JPH1097275A/en
Publication of JPH1097275A publication Critical patent/JPH1097275A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To obtain the large-vocabulary speech recognition system which can perform real-time operation with inexpensive hardware constitution even for a very large vocabulary by composing a parser of a forward and a backward operation part and making a viterbi search driven under restriction conditions of tri-phoneme units considering phoneme environment. SOLUTION: This system is equipped with the parser 5 including the forward operation part 6 and backward operation part 7. The forward operation part 6 makes a viterbi search under restriction conditions of phoneme units considering the phoneme environment and the backward operation part 7 develops a hypothesis by using a viterbi search while referring to a tree structure dictionary of language models 10 considering the phoneme environment. Then the order of development is determined on a best.first basis by using A* algorithm making good use of the sum of the score of the forward operation result and the score of the operation result of the backward viterbi search made in phoneme units, and outputted as a word candidate for a recognition result in the order of received hypotheses and once a specific number of word candidates are found, the backward operation is ended.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は大語彙音声認識装
置に関し、特に、サブワード単位のHMM(隠れマルコ
フモデル:Hidden Markov Model の略称)を用いて音声
認識する際に処理量を削減するようにした大語彙音声認
識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a large vocabulary speech recognition apparatus, and in particular, to reduce the processing amount when performing speech recognition using an HMM (Hidden Markov Model) for each subword. The present invention relates to a large vocabulary speech recognition device.

【0002】[0002]

【従来の技術】図6は従来の音声認識装置を示すブロッ
ク図である。図6において、音声波形は音響分析部1に
与えられ、線形予測分析などを用いて音声波形の特徴で
ある音響パラメータに変換される。この音響パラメータ
は構文解析アルゴリズムであるパーザ2に与えられる。
2. Description of the Related Art FIG. 6 is a block diagram showing a conventional speech recognition apparatus. In FIG. 6, a speech waveform is provided to a sound analysis unit 1 and is converted into a sound parameter which is a feature of the speech waveform using a linear prediction analysis or the like. These acoustic parameters are given to a parser 2 which is a parsing algorithm.

【0003】パーザ2は音響パラメータを解析するため
に、音響モデル3と言語モデル4の2つのモデルを使
う。音響モデル3は各音素がどういうパラメータになる
のかを決定するためのものであり、言語モデル4は音素
がどういう順番で並べば意味がある文や単語になるかを
決める語彙や文法の情報を決定するためのものである。
パーザ3はこの2つのモデルを組合せて入力に最もうま
く合う単語や文を探し出す。
The parser 2 uses two models, an acoustic model 3 and a language model 4, to analyze acoustic parameters. The acoustic model 3 is for determining what parameters each phoneme is to be, and the language model 4 is for determining vocabulary and grammatical information for determining in what order the phonemes are arranged into meaningful sentences and words. It is for doing.
The parser 3 combines the two models to find a word or sentence that best matches the input.

【0004】音響モデル3では、サブワードモデルHM
Mが一般的に用いられ、特に音素環境依存型の連続分布
型HMMが不特定話者に対して精度よく表現できること
からよく用いられている。日本語では、たとえば特開平
07−175494号公報に記載されたHMnet(Hi
dden Markov Netwook )が良好な認識率を得ている。こ
こで、サブワードとは、言語音声を精度よくかつ効率よ
く表せる表現単位のことで、音素や音節などがある。
In the acoustic model 3, the sub-word model HM
M is generally used, and in particular, a phoneme environment-dependent continuous distribution HMM is often used because it can accurately represent an unspecified speaker. In Japanese, for example, HMNet (Hi) described in JP-A-07-175494 is used.
dden Markov Netwook) has a good recognition rate. Here, a subword is a unit of expression that can express language speech with high accuracy and efficiency, and includes phonemes and syllables.

【0005】HMMを用いる音声認識システムは処理量
が多く、これを要素別に見ると、一般に、HMMの尤度
演算と探索処理(パーザ部)が二大要因となっている。
HMMの尤度演算はパーザ2の中の探索の前処理として
位置付けられる。オンライン型の音声認識では実時間動
作が望ましく、また処理量の多さは価格に直接影響する
ばかりでなく、他のタスクへの負荷にもなるので、処理
量削減は重要な課題である。近年、サブワードHMMに
よる音声認識が一般的になり、その高速化の研究が増え
てきている。
[0005] A speech recognition system using an HMM has a large processing amount. Looking at this by element, generally, the likelihood calculation and search processing (parser section) of the HMM are two major factors.
The likelihood calculation of the HMM is positioned as a pre-process of the search in the parser 2. In online speech recognition, real-time operation is desirable, and the large amount of processing not only directly affects the price but also imposes a load on other tasks, so reducing the processing amount is an important issue. In recent years, speech recognition using a subword HMM has become common, and research on speeding up the speech recognition has been increasing.

【0006】連続音声認識では、与えられた文法(言語
モデル)で許される系列と入力された音声とを照合し、
照合スコアの最も高い音素系列を認識結果とする。しか
し、文法で許される音素系列すべてと入力音声を照合し
たのでは、多くの計算量を必要とする。照合の回数をで
きるだけ減らし、必要な照合のみを行なうことが探索処
理の高速の鍵となっている。そのための1つの手法とし
て、A* アルゴリズムを用いて正確なN−ベスト候補を
高速に探索する手法が提案されている。
[0006] In continuous speech recognition, a sequence permitted by a given grammar (language model) is collated with input speech,
The phoneme sequence having the highest matching score is set as the recognition result. However, if all the phoneme sequences permitted by the grammar are collated with the input speech, a large amount of calculation is required. Reducing the number of times of collation as much as possible and performing only necessary collation is the key to the high-speed search process. As one method for that purpose, a method of searching for an accurate N-best candidate at high speed using the A * algorithm has been proposed.

【0007】図7はA* アルゴリズムを説明するための
図である。図7において、グラフの任意の接点をnとし
たとき、出発点Sからnまでの最適な道のコストの推定
値をg* (n)とし、nから目標接点までの最適な道の
コストの推定値をh* (n)とする。もし、道がなけれ
ばg* (n)あるいはh* (n)は無限大となる。nを
通る最適な道のコストの推定値f* (n)は次式で与え
られる。
FIG. 7 is a diagram for explaining the A * algorithm. In FIG. 7, when an arbitrary point on the graph is n, the estimated value of the optimal road cost from the starting point S to n is g * (n), and the optimal road cost from n to the target point is Let the estimated value be h * (n). If there is no road, g * (n) or h * (n) will be infinite. An estimate f * (n) of the cost of the optimal road through n is given by:

【0008】 f* (n)=g* (n)+h* (n)…(1) 上述の式を評価関数として用いかつ推定コストh* が真
のコストhの下界であれば(h* (n)≦h* (n))
であるグラフ探索の戦略をA* アルゴリズムと呼ぶ。
F * (n) = g * (n) + h * (n) (1) If the above equation is used as an evaluation function and the estimated cost h * is a lower bound of the true cost h, (h * ( n) ≦ h * (n))
Is called the A * algorithm.

【0009】図7に示すA* アルゴリズムにおいてh*
(n)は節点の横に示し、各節点に対するf* を括弧内
に示す。リストの変化は次のようになる。(S(7)→
(A(8)B(9))→(D(8)B(9)C(1
0))→(B(9)C(10)H(10)I(10))
→(D(7)C(10)E(10)H(10)I(1
0))→(H(9)I(9)C(10)E(10))→
(I(9)G1(10)C(10)E(10)L(1
1))→(G2(9)G1(10)C(10)E(1
0)L(11))。次に、G2がオープンから取出され
て終了する。解はS→B→D→I→G2となる。
[0009] In the A * algorithm shown in Figure 7 h *
(N) is shown beside the nodes, and f * for each node is shown in parentheses. The list changes as follows. (S (7) →
(A (8) B (9)) → (D (8) B (9) C (1
0)) → (B (9) C (10) H (10) I (10))
→ (D (7) C (10) E (10) H (10) I (1
0)) → (H (9) I (9) C (10) E (10)) →
(I (9) G1 (10) C (10) E (10) L (1
1)) → (G2 (9) G1 (10) C (10) E (1
0) L (11)). Next, G2 is taken out of the open and ends. The solution is S → B → D → I → G2.

【0010】一方、照合計算の共有化/近似を行なう方
法として、バンドルサーチが提案されている。この方法
では、各単語の1回ずつの照合計算で済ませるため、複
雑な文法でも高速探索が可能となる。しかし、計算量は
語彙数に依存する。
On the other hand, a bundle search has been proposed as a method of sharing / approximate the collation calculation. In this method, only one matching calculation is required for each word, so that a high-speed search can be performed even with a complicated grammar. However, the amount of calculation depends on the number of words.

【0011】従来の離散単語認識方法では、入力音声に
対して、認識語彙に含まれる単語1つずつビタービサー
チしてスコアが算出される。したがって、パーザ部の処
理数は語彙数に比例する。語彙数が非常に多いとき、連
続音声認識の場合と同様のことが離散単語認識について
もいえる。単語ごとのマッチングにbest−firs
t型のビタービサーチを用いる方法も提案されている
が、探索空間の削減は達成できてはいるものの、ヒュー
リスティック関数の計算量が多いため、実際の処理量は
あまり削減できていない。また、ヒューリスティック関
数の作成が離散HMMに対して有効な手法ともいえる。
In the conventional discrete word recognition method, a score is calculated by performing a Viterbi search for each word included in the recognized vocabulary for the input speech. Therefore, the number of processes in the parser unit is proportional to the number of words. When the number of vocabularies is very large, the same applies to discrete word recognition as in the case of continuous speech recognition. Best-firsts for word-by-word matching
Although a method using t-type Viterbi search has been proposed, the reduction of the search space has been achieved, but the actual amount of processing has not been significantly reduced due to the large amount of calculation of the heuristic function. In addition, it can be said that creation of a heuristic function is an effective method for a discrete HMM.

【0012】不特定話者を対象とするならば、より高精
度な音響モデルの混合連続HMMを使用する必要があ
る。この混合連続HMMに対してはヒューリスティック
関数を設計するのが難しい。予備選択を用いる方法も古
くから提案されている。しかし、予備選択ミスという避
けられない欠点があるため、最近ではあまり採用されな
い。認識率の低下はわずかながら計算量は1/24まで
削減できたという報告もある。しかし、この実験は特定
話者認識であり、不特定話者を対象とした場合、予備選
択ミスが増加するため、認識率の低下を招くことが予想
される。
For an unspecified speaker, it is necessary to use a mixed continuous HMM of a more accurate acoustic model. It is difficult to design a heuristic function for this mixed continuous HMM. Methods using preselection have long been proposed. However, due to the unavoidable drawback of preliminary selection mistakes, they are not often adopted recently. There is also a report that the amount of calculation could be reduced to 1/24 with a slight decrease in the recognition rate. However, this experiment is specific speaker recognition. When an unspecified speaker is targeted, errors in preliminary selection increase, and it is expected that the recognition rate will decrease.

【0013】Chenなどが発表した“Large Vocabulary W
ord Recognition Based on Tree-trellis Search, ”Pr
oc. ICASSP-94, pp.II-137-II-140 (1994)において、
Soong の連続音声認識手法を用いて中国語の大語彙単語
認識を高速にする手法を提案している。前向き探索には
音節の自由なネットワーク,後向き探索には音節木化し
た単語辞書を参照してA* アルゴリズムを用いるという
もので、超大語彙の高速認識が可能としている。中国語
は412種類もの音節があるので、サブシラブル(subs
yllable )HMMを状態共有することによって効率よく
音節を構成する。
"Large Vocabulary W" published by Chen et al.
ord Recognition Based on Tree-trellis Search, ”Pr
oc. ICASSP-94, pp.II-137-II-140 (1994)
We propose a method to speed up large vocabulary word recognition in Chinese using Soong's continuous speech recognition method. In the forward search, a syllable-free network is used. In the backward search, the A * algorithm is used with reference to a word dictionary converted into a syllable tree, and high-speed vocabulary recognition can be performed. Chinese has 412 syllables, so subsyllables (subs
yllable) A syllable is efficiently constructed by sharing the state of the HMM.

【0014】音素環境は音節内のみ考慮しており、音節
内の母音間接続条件のみが環境依存である。つまり、音
節間は無考慮(=環境独立)とし、木構造辞書は音節を
アークとして作成しており、音節と音節を直接接続す
る。この論文中において、音素環境独立型(Table 4)
と音節内音素環境依存型(Table 5)の両方認識実験を
試みている。もちろん、音節内音素環境依存型を用いた
方が高い認識率を得ている。しかし、この実験も特定話
者認識である。不特定話者を対象とした場合、音節間環
境が考慮されていないため、認識性能の劣化が予想され
る。
The phoneme environment considers only syllables, and only the connection conditions between vowels in syllables are environment-dependent. That is, syllables are not considered (= environmentally independent), the syllables are created as arcs in the tree structure dictionary, and syllables are directly connected. In this paper, the phoneme environment independent type (Table 4)
Recognition experiments of both the syllable phoneme environment-dependent type (Table 5) are being attempted. Of course, a higher recognition rate is obtained by using the syllable phoneme environment dependent type. However, this experiment is also specific speaker recognition. In the case of an unspecified speaker, degradation in recognition performance is expected because the intersyllable environment is not considered.

【0015】[0015]

【発明が解決しようとする課題】従来の離散単語認識方
法では、入力音声に対して認識語彙に含まれる単語1つ
ずつビタービサーチしてスコアを算出する。したがっ
て、パーザ2の処理量は語彙数に比例する。語彙数が非
常に多いとき、連続音声認識の場合と同様のことが離散
単語認識についてもいえる。情報検索などに適用する場
合、語彙数は数千単語以上となることが十分考えられ
る。100単語のとき0.1秒かかるシステムならば、
1,000単語では1秒、10,000単語では10秒
かかることになる。この方式は、実時間動作が望ましい
オンライン型の音声認識には不向きである。
In the conventional discrete word recognition method, a score is calculated by performing a Viterbi search for each word included in a recognized vocabulary for an input speech. Therefore, the processing amount of the parser 2 is proportional to the number of words. When the number of vocabularies is very large, the same applies to discrete word recognition as in the case of continuous speech recognition. When applied to information retrieval and the like, the number of vocabulary words can be several thousand words or more. For a system that takes 0.1 second for 100 words,
It takes 1 second for 1,000 words and 10 seconds for 10,000 words. This method is not suitable for online speech recognition where real-time operation is desired.

【0016】前述のChenの離散単語認識方式は、特定話
者を対象としているので、音節間環境を考慮しなくとも
元来音響モデルが高精度なため良好な認識性能が得られ
ていた。しかし、この方式を不特定話者を対象とした場
合、A* アルゴリズムがうまく動作しないという問題点
がある。音響モデルの精度は低いため、前向きサーチの
精度は低くなり、後向きの探索で失敗する確率が高くな
るからである。
Since the Chen discrete word recognition method described above is intended for a specific speaker, good recognition performance was obtained because the acoustic model was originally highly accurate without considering the intersyllable environment. However, when this method is applied to an unspecified speaker, there is a problem that the A * algorithm does not operate well. This is because the accuracy of the acoustic model is low, the accuracy of the forward search is low, and the probability of failure in the backward search is high.

【0017】同様の実験が日本語でも試みられ、「孤立
単語認識における全探索法・ビームサーチ法・A* 探索
法の比較」,日本音響学会講演論文集,2-5-10, pp.77-
78(1996.3)において発表されている。この文献では、
* 探索のヒューリスティック関数x* (t)の推定に
は任意の音節連鎖を用いており、音素環境を考慮してお
らず、不特定話者を対象とした実験を行ない処理時間を
調査しているが、従来方法に比べてよい結果は得られて
いない。
A similar experiment was attempted in Japanese, "Comparison of full search method, beam search method, and A * search method in isolated word recognition," Proc. Of the Acoustical Society of Japan, 2-5-10, pp.77 -
78 (1996.3). In this document,
An arbitrary syllable chain is used for estimating the heuristic function x * (t) for A * search, and the phoneme environment is not taken into account. However, good results have not been obtained compared with the conventional method.

【0018】予備選択方式は最近ではあまり用いられる
ことはない。なぜならば、予備選択部では処理量の少な
いマッチング方式で大雑把な認識/分類を行なう。よっ
て、しばしば誤り(=予備選択ミス)が生じる。この誤
りは後で回復できないため認識率の低下を招く、という
ような避けられない欠点があるためである。
The preselection scheme has not been used much recently. This is because the preliminary selection unit performs rough recognition / classification by a matching method with a small processing amount. Therefore, an error (= preliminary selection error) often occurs. This is because there is an unavoidable disadvantage that this error cannot be recovered later and causes a reduction in the recognition rate.

【0019】それゆえに、この発明の主たる目的は、パ
ーザにおいて、探索空間を効率よく絞り込むサーチ方法
を採用することによって、処理量が語彙数にほとんど影
響されないという特徴を持たせ、超大語彙を対象として
も安価なハードウェア構成で実時間動作が可能な大語彙
音声認識装置を提供することである。
Therefore, a main object of the present invention is to provide a feature that the processing amount is hardly influenced by the number of vocabularies by adopting a search method in which the search space is efficiently narrowed in the parser. Another object of the present invention is to provide a large vocabulary speech recognition device capable of real-time operation with an inexpensive hardware configuration.

【0020】[0020]

【課題を解決するための手段】請求項1に係る発明は、
音素環境依存型音素隠れマルコフモデルを用いた音声認
識装置において、音声を入力するための入力手段と、入
力された音声を短時間フレームごとに分析し、特徴ベク
トルを抽出する特徴ベクトル抽出手段と、抽出された特
徴ベクトルに基づいて語頭の前および語尾の後に無音モ
デルを付加した認識語彙を音素環境依存型音素列で表現
し、それら音素をアークとする木構造の辞書に変換する
辞書作成手段と、前向き演算部と後向き演算部とを含む
パーザ手段を備え、前向き演算部は音素環境を考慮した
音素単位の制約条件下で駆動するビタービサーチを行な
い、後向き演算部は音素環境を考慮した木構造辞書を参
照しながらビタービサーチを用いて仮説を展開し、前向
き演算結果のスコアと音素単位で実行した後向きビター
ビサーチの演算結果のスコアの和を利用したA* アルゴ
リズムを用いて展開する順番をbest−firstに
決定し、受理された仮説の順にそれを認識結果の単語候
補として出力し、所定の個数の単語候補が求まれば後向
き演算を終了するようにしたものである。
The invention according to claim 1 is
In a speech recognition apparatus using a phoneme environment-dependent phoneme hidden Markov model, an input means for inputting speech, a feature vector extraction means for analyzing the input speech for each short-time frame, and extracting a feature vector, A dictionary creating means for expressing a recognition vocabulary obtained by adding a silent model before and after the beginning of the word based on the extracted feature vector as a phoneme environment-dependent phoneme sequence and converting the phonemes into a tree-structured dictionary having arcs as phonemes; , A parser means including a forward operation unit and a backward operation unit, the forward operation unit performs a Viterbi search driven under a constraint condition of a phoneme unit in consideration of a phoneme environment, and the backward operation unit includes a tree in consideration of a phoneme environment. The hypothesis is developed using Viterbi search while referring to the structure dictionary, and the result of the forward Viterbi search is calculated based on the score of the forward calculation result and phoneme unit. The order in which developed using the A * algorithm using the sum of the scores determined to best-first, and outputs it as a word candidate of the recognition result in order of received hypotheses, word candidates a predetermined number is Motomema In this case, the backward calculation is terminated.

【0021】請求項2に係る発明では、請求項1の前向
き演算部は、音素環境を考慮した隠れマルコフモデルの
状態単位の制約条件下で駆動するビタービサーチを行な
う。
According to a second aspect of the present invention, the forward operation unit of the first aspect performs a Viterbi search driven under a constraint condition of a state unit of a hidden Markov model in consideration of a phoneme environment.

【0022】請求項3に係る発明では、請求項1の後向
き演算部は各音素ごとのビタービサーチの照合範囲を予
め定める各音素別継続時間長をもとに所定の方法で制限
する。
According to the third aspect of the present invention, the backward operation unit of the first aspect limits the collation range of the Viterbi search for each phoneme by a predetermined method based on a predetermined duration for each phoneme.

【0023】請求項4に係る発明では、請求項1の後向
き演算部は、音素単位の仮説の展開におけるビタービサ
ーチをA* アルゴリズムで実行する。
According to the fourth aspect of the present invention, the backward operation unit of the first aspect executes the Viterbi search in the development of the hypothesis for each phoneme using the A * algorithm.

【0024】[0024]

【発明の実施の形態】図1はこの発明の一実施形態を示
すブロック図である。図1において、図示しないマイク
ロフォンから入力された音声は、A/D変換器でデジタ
ル信号に変換され、音響分析部1に入力される。音響分
析部1では入力音声をフレームごとに分析し、音響パラ
メータを抽出する。この音響パラメータとしては、たと
えばLPCケプストラムや差分LPCケプストラムや差
分パワーなどである。
FIG. 1 is a block diagram showing an embodiment of the present invention. In FIG. 1, sound input from a microphone (not shown) is converted into a digital signal by an A / D converter, and input to the acoustic analysis unit 1. The acoustic analysis unit 1 analyzes the input speech for each frame and extracts acoustic parameters. The acoustic parameters include, for example, LPC cepstrum, differential LPC cepstrum, and differential power.

【0025】この実施形態では、音響モデルの音素環境
依存型HMMとしてHMnetを用いて説明する。音素
環境依存にするために各音素は三組音素(triphone)と
して表現され、さらに各状態は他の三組音素状態と共有
することがある。したがって、音素ごとに前後に接続す
る音素リスト,状態ごとに前後に接続する音素リスト,
状態ごとに前後に接続する状態リストが記述されてい
て、1つのネットワークを形成している。表1にHMn
etの状態に関する各種情報の例を示す。これらの接続
情報を用いて前向きサーチ演算および後向きサーチ演算
が実現される。
In this embodiment, HMNet will be described as a phoneme environment-dependent HMM of an acoustic model. Each phoneme is represented as a triphone to make it phonemic environment dependent, and each state may be shared with other triad phoneme states. Therefore, a phoneme list connected before and after for each phoneme, a phoneme list connected before and after for each state,
A state list connected before and after each state is described for each state to form one network. Table 1 shows HMn
The example of various information regarding the state of et was shown. A forward search operation and a backward search operation are realized using these pieces of connection information.

【0026】[0026]

【表1】 [Table 1]

【0027】図1におけるパーザ5は前向き演算部6と
後向き演算部7の2つの演算部から構成される。前向き
演算部6では、まずフレームごとにHMnetの各状態
について尤度が計算される。この計算結果は尤度テーブ
ルとして前向き演算部6と後向き演算部7とで参照され
る。次に、音素環境を考慮した三組音素単位の制約条件
下で駆動するビタービサーチが行なわれる。
The parser 5 in FIG. 1 is composed of two operation units, a forward operation unit 6 and a backward operation unit 7. The forward operation unit 6 first calculates the likelihood for each state of HMNet for each frame. This calculation result is referred to by the forward calculation unit 6 and the backward calculation unit 7 as a likelihood table. Next, a Viterbi search is performed, which is driven under a constraint condition in units of three phonemes in consideration of a phoneme environment.

【0028】図2は状態/音素接続情報の例を示す図で
ある。図2において、1つの音素は3〜4個の状態から
成り立っている。日本語の三組音素の総数は三千数百種
類存在するが、この発明の実施形態で扱うHMnetを
利用すると、状態共有がなされているため、状態系列の
異なる三組音素(これを異なり三組音素と呼ぶ)は数百
種類になる。そこで、この発明の実施形態では、図2に
示すように異なり三組音素ごとに状態を並べる。したが
って、三組音素のうちHMMの状態系列が同じものは計
算を省略されることとなる。
FIG. 2 is a diagram showing an example of state / phoneme connection information. In FIG. 2, one phoneme is composed of three to four states. Although the total number of triads in Japanese is three hundred and several hundred, when HMNet used in the embodiment of the present invention is used, the state is shared, so that triads in different state series (three different phonemes) There are several hundred types. Therefore, in the embodiment of the present invention, the states are arranged for each of the three sets of phonemes differently as shown in FIG. Accordingly, among the three sets of phonemes, those having the same HMM state series are omitted from the calculation.

【0029】図2(a)において、時刻がt−1からt
へ移るとき、許されている遷移のうち、主として音素p
の状態aに関係するものを実線矢印で示している。ある
時刻tにおけるある音素pのヒューリスティック関数h
* p (t)は次の第(2)式のようにして1フレームご
と、すべての異なる音素について累積スコアとして算出
される。図2(a)の時刻t上の状態jには直前フレー
ムt−1上の状態iと状態jからの経路が存在してい
て、t−1フレームからこれらの経路を辿ってtフレー
ムの状態jに達する累積スコア中で、最大のものが時刻
tにおける状態jの累積スコアとなる。
In FIG. 2A, the time is changed from t-1 to t.
When transitioning to, of the allowed transitions,
The state related to the state a is indicated by a solid arrow. Heuristic function h of a certain phoneme p at a certain time t
* p (t) is calculated as a cumulative score for all different phonemes for each frame as in the following equation (2). In the state j at the time t in FIG. 2A, there are paths from the state i and the state j on the immediately preceding frame t-1, and these paths are traced from the t-1 frame to the state of the t frame. Among the cumulative scores that reach j, the largest one is the cumulative score of state j at time t.

【0030】[0030]

【数1】 (Equation 1)

【0031】ここで、jは当該音素pの最終状態の状態
番号であり、簡単のためh* p (t)≡h* jp(t)と
して定義している。bj (t)は状態jの時刻tにおけ
るシンボル出力確率で、尤度テーブルに格納されてい
る。aijは状態iから状態jへの状態遷移確率である。
p (j)は状態jに遷移し得る状態のうち、その音素
pに属するものの集合を意味し、図1に示す音響/言語
モデル8の状態/音素接続情報を参照して求められる。
ip(t−1)は状態iの時刻t−1における累積スコ
アであり、ビタービサーチによって漸化的に求められ
る。
Here, j is the state number of the final state of the phoneme p, and is defined as h * p (t) ≡h * jp (t) for simplicity. b j (t) is the symbol output probability at time t in state j and is stored in the likelihood table. a ij is a state transition probability from the state i to the state j.
C p (j) means a set of states belonging to the phoneme p among the states that can transition to the state j, and is obtained by referring to the state / phoneme connection information of the sound / language model 8 shown in FIG.
v ip (t−1) is a cumulative score of the state i at time t−1, and is recursively obtained by Viterbi search.

【0032】jが当該音素pの初期状態の状態番号のと
きを図2(b)に示す。この場合は第(3)式に示すと
おり、音素pに接続し得る音素群と自己ループのうちで
最大のものが選ばれる。
FIG. 2B shows the case where j is the initial state number of the phoneme p. In this case, as shown in Expression (3), the largest one of the self-loop and the phoneme group that can be connected to the phoneme p is selected.

【0033】[0033]

【数2】 (Equation 2)

【0034】ここで、I(p)は音素pに接続し得る音
素とその最終状態番号の集合を意味し、後述の表2に示
す音素接続情報を参照して求められる。
Here, I (p) means a set of phonemes that can be connected to phoneme p and their final state numbers, and is obtained by referring to phoneme connection information shown in Table 2 described later.

【0035】前向き演算部7において、音素環境を考慮
したHMMの状態単位の制約条件下で駆動するビタービ
サーチを行なうことも有効である。この場合、h
* (t)の精度は上述の方式に比べてわずかに劣る。し
かし、状態共有によって計算しなくて済む度合が多くな
る。結局、状態数だけ計算すればよいので、前向きサー
チに必要な演算量が1/10以下になるというメリット
がある。前向き演算方法は用途に応じて決めればよい。
ある時刻tにおけるある音素pのヒューリスティック関
数h* p (t)は第(4)式のようにして1フレームご
と、すべての状態について算出され、音素pの最終状態
の状態番号jを用いてh* j (t)として代表表現され
る。
It is also effective in the forward operation unit 7 to perform a Viterbi search in which the driving is performed under the constraint condition of the state unit of the HMM in consideration of the phoneme environment. In this case, h
* The accuracy of (t) is slightly inferior to the above method. However, the degree to which calculations need not be performed due to state sharing increases. In the end, since it is sufficient to calculate only the number of states, there is an advantage that the amount of calculation required for the forward search is reduced to 1/10 or less. The forward calculation method may be determined according to the application.
The heuristic function h * p (t) of a certain phoneme p at a certain time t is calculated for every state for each frame as shown in Expression (4), and is calculated using the state number j of the final state of the phoneme p. * j (t) is typically represented.

【0036】[0036]

【数3】 (Equation 3)

【0037】ここでS(j)は状態jに遷移し得るすべ
ての状態の集合を意味し、状態に接続情報を参照して求
められる。vi (t−1)は状態iの時刻t−1におけ
る累積スコアであり、jが当該音素pの初期状態の状態
番号のときには、第(2)式と同様である。
Here, S (j) means a set of all the states that can transition to the state j, and is obtained by referring to the connection information for the state. v i (t−1) is the cumulative score of state i at time t−1, and when j is the state number of the initial state of the phoneme p, the same as in equation (2).

【0038】次に、表2に音素間の接続情報と初期状態
番号の集合I(p)のうち、音素接続情報のテーブルを
示す。
Next, Table 2 shows a table of phoneme connection information in the set I (p) of connection information between phonemes and initial state numbers.

【0039】[0039]

【表2】 [Table 2]

【0040】音素pの初期状態に対してはこのテーブル
が参照される。言語的な制約を考慮して特定の音素と音
素との連結に制限を設けている。たとえば日本語であれ
ば子音と子音が連結しないと考えられ、“m”から
“h”への経路は設けないなどと設定している。音素表
記はヘボン式ローマ字綴りに従っている。ただし、
“q”は促音、“N”は撥音、“y”は拗音、“−”は
無音を示す。表2では左側の音素HMMの最終状態から
右側の音素HMMの初期状態に繋がり得ることを意味し
ている。
This table is referred to for the initial state of the phoneme p. Considering linguistic restrictions, restrictions are placed on the connection between specific phonemes. For example, in Japanese, it is considered that consonants are not connected to each other, so that a route from “m” to “h” is not provided. Phonetic notation follows the Hepburn Roman spelling. However,
“Q” indicates a prompting sound, “N” indicates a repellent sound, “y” indicates a relentless sound, and “−” indicates no sound. In Table 2, it means that the final state of the phoneme HMM on the left can be connected to the initial state of the phoneme HMM on the right.

【0041】後向き演算部7では、音素をアークとする
言語モデル10の木構造辞書を参照する。この木構造辞
書は認識語彙リストから予め作成されている。パーザ5
の前に単語ごとの音声区間の切出し処理を行うが、語頭
・語尾の判定誤りがしばしば起こる。そこで、音声区間
と判定された区間に対し、その語頭の前および語尾の後
に、ある程度のマージン、すなわち周囲環境音区間を設
定することが多い。このマージンに対応するために各認
識語彙の前後にはHMMの無音モデルが付加されてい
る。無音モデルとは音声が入っていない周囲雑音を対象
に学習したモデルのことであって、波形が常に0の真の
無音を指しているのではない。
The backward operation unit 7 refers to the tree structure dictionary of the language model 10 using phonemes as arcs. This tree structure dictionary is created in advance from the recognized vocabulary list. Parser 5
Is performed before the word, the speech section of each word is extracted. Therefore, for a section determined to be a voice section, a certain margin, that is, a surrounding environment sound section is often set before the beginning of the word and after the end of the word. To accommodate this margin, a silence model of HMM is added before and after each recognized vocabulary. The silence model is a model that has been trained on ambient noise that contains no voice, and does not always indicate true silence with a waveform of zero.

【0042】図3は木構造辞書の一部分の例を示す図で
あり、図4は比較のために音素環境を考慮しない場合の
木構造辞書を示す図である。図3および図4において、
数字は辞書のノード番号を示し、アルファベットはアー
クの音素を示す。前述の表2に例示したような音素間の
接続情報制約下で音素が展開されており、前後の音素環
境が考慮されている。そのため、枝分かれが多くなって
いる。ノード328から4本のアークが伸びているのに
対し、図4に示すように音素環境を考慮しなければノー
ド76のように2本のアークとなる。演算の方向が時間
とは逆向きのため、語尾から語頭へと枝が伸びている。
後向き演算の参照を高速にするため、各アークには予め
HMnetの状態番号が割付けられている。
FIG. 3 is a diagram showing an example of a part of a tree structure dictionary, and FIG. 4 is a diagram showing a tree structure dictionary when a phoneme environment is not considered for comparison. 3 and 4,
The numbers indicate the node numbers of the dictionary, and the alphabets indicate the phonemes of the arc. The phonemes are developed under the connection information restriction between phonemes as exemplified in Table 2 described above, and the surrounding phoneme environments are considered. Therefore, branching is increasing. While four arcs extend from the node 328, as shown in FIG. 4, if the phoneme environment is not taken into account, two arcs occur as in the node 76. Since the direction of operation is opposite to time, a branch extends from the end to the beginning.
In order to make the backward operation reference faster, each arc is assigned a state number of HMNet in advance.

【0043】図3に示した木構造辞書に沿って仮説が展
開されるが、展開する順番はA* アルゴリズムを用いて
best−firstに決定される。すなわち、以下の
第(5)式の評価値f* p (t)が最も高い部分仮説の
ノードを展開して先に進む。ここで、pはその仮説の先
端アークの音素を表わし、tは後述する方法によって定
められた照合範囲R(p,t0 )中のフレーム番号を表
わす。
The hypotheses are developed along the tree structure dictionary shown in FIG. 3, and the development order is determined as best-first using the A * algorithm. That is, the node of the partial hypothesis having the highest evaluation value f * p (t) in the following equation (5) is expanded and the process proceeds. Here, p represents a phoneme of the tip arc of the hypothesis, and t represents a frame number in a collation range R (p, t 0 ) determined by a method described later.

【0044】評価値f* (t)は前向き演算結果のスコ
アh* (t)と、第(6)式に示すようにt∈R(p,
0 )について音素単位で実行した後向きビタービサー
チの演算結果のスコアgp (t)の和で表わされる。こ
の和は木構造辞書に沿っているため、h* (t)および
p (t)に付与されている前後音素環境情報が反映さ
れており、音素環境が考慮されていることになる。処理
の簡素化のため、接続ポイントはf* (t)の最大値を
与えるt′1点に限定する。つまり接続ポイントが異な
るだけで音素列は同じ仮説を1つで代表させることで仮
説の和を削減する。この仮説に接続するアークを次に展
開するときのビタービサーチの開始点はこのt′となり
これをt0 とおく。
The evaluation value f * (t) is the forward operation result score h * (t), the as shown in equation (6) t∈R (p,
t 0 ) is represented by the sum of the scores g p (t) of the calculation results of the backward Viterbi search executed for each phoneme. Since this sum is in accordance with the tree structure dictionary, the before and after phoneme environment information given to h * (t) and g p (t) is reflected, and the phoneme environment is considered. For simplicity of processing, the connection point is limited to t'1 which gives the maximum value of f * (t). In other words, the sum of hypotheses is reduced by representing the same hypothesis by one phoneme sequence only at the different connection points. Viterbi search of the starting point is put with this t 0 makes this t 'when you then expand the arc to connect to this hypothesis.

【0045】[0045]

【数4】 (Equation 4)

【0046】ここで、iは音素pの初期状態の状態番号
であり、gp (t)≡gip(t)と定義している。C*
p (i)はCp (j)の状態接続の方向を逆にした集合
である。後述のbest−first仮説成長アルゴリ
ズムで説明しているように、仮説には単一仮説とグルー
プ仮説とがある。単一仮説の場合、pは先端アークの唯
一の音素である。グループ仮説の場合は、pはそのグル
ープ中の最高のスコアを与える選択アークの音素を示
す。t0 はその仮説の前回の接続ポイントt′を示す。
Here, i is the state number of the initial state of the phoneme p, and is defined as g p (t) ≡g ip (t). C *
p (i) is a set in which the direction of the state connection of C p (j) is reversed. As described in the best-first hypothesis growing algorithm described later, there are a single hypothesis and a group hypothesis. For the single hypothesis, p is the only phoneme of the tip arc. For the group hypothesis, p indicates the phoneme of the selected arc that gives the highest score in the group. t 0 indicates the previous connection point t ′ of the hypothesis.

【0047】後向き演算における各音素pごとのビター
ビサーチの照合範囲R(p,t0 )は、通常のその仮説
の開始点t0 (=前回の接続ポイント)から終点、すな
わち入力音声の先頭t=1までである。したがって、語
尾付近においては照合範囲が非常に広くなり、計算量の
増加を招く。音素にはその音素固有の継続時間があり、
一般に母音や撥音,促音は長く、破裂子音は短い傾向が
ある。そこで、音素単位にラベル付けされた音声データ
を用いて、各音素ごとに平均継続時間長μp と分散σ2
p を求めておく。音声データが多量にある場合は正確を
期すため、各三組音素ごとに平均継続時間長と分散を求
めてもよい。使い方としては前回の接続ポイントt0
ら“平均値μp ±α×標準偏差σp ”の区間を対象とす
る。たとえば、この実施形態では、次の第(7)式に示
すように、t0 から“平均値μp+3×標準偏差σp
だけ遡った区間が照合範囲R(p,t0 )とされる
The matching range R (p, t 0 ) of the Viterbi search for each phoneme p in the backward calculation is the end point from the normal start point t 0 (= the previous connection point) of the hypothesis, that is, the beginning of the input voice. Up to t = 1. Therefore, the matching range becomes very wide near the end of the word, which leads to an increase in the amount of calculation. Phonemes have their own duration.
In general, vowels, sound repellents, and consonants tend to be long, and consonants tend to be short. Then, using the speech data labeled in phoneme units, the average duration length μ p and the variance σ 2
Find p . If there is a large amount of voice data, the average duration and variance may be calculated for each triad of phonemes for accuracy. As a usage, a section of “average value μ p ± α × standard deviation σ p ” from the previous connection point t 0 is targeted. For example, in this embodiment, as shown in the following equation (7), “average value μ p + 3 × standard deviation σ p ” from t 0.
The section that has been traced back is set as the collation range R (p, t 0 )

【0048】[0048]

【数5】 (Equation 5)

【0049】この照合範囲制限は計算量の削減だけでな
く、ビタービサーチでしばしば生じる不必要な時間軸整
合を未然に防ぐこともできるため、認識率の向上にも貢
献することが実験により確認されている。
It has been confirmed by experiments that this collation range restriction not only reduces the amount of calculation but also prevents unnecessary time-axis matching often occurring in Viterbi search, thereby contributing to an improvement in the recognition rate. Have been.

【0050】図5はbest−firstに仮説を成長
させるアルゴリズムを示すフローチャートである。この
フローチャートは前述のSoong に準拠している。図6に
おける全スコアとは第(5)式の評価値f* p (t)の
ことであり、ルートノードとはまだ全く展開をしていな
い仮説のことを意味し、単一パスとは仮説の先端アーク
が1個,グループパスとは仮説の先端アークが複数個で
ある仮説のことを示し、NはN−bestの候補数Nを
示す。
FIG. 5 is a flowchart showing an algorithm for growing a hypothesis at best-first. This flowchart conforms to Soong described above. In FIG. 6, the total score is the evaluation value f * p (t) of the equation (5), the root node means a hypothesis that has not yet been developed at all, and the single pass is a hypothesis. Indicates one hypothesis and the group path indicates a hypothesis having a plurality of hypotheses, and N indicates the number N of N-best candidates.

【0051】仮説の展開はスタックのトップエントリ
(=最良部分仮説)を1アーク展開し、2つの仮説(す
なわち最良単一パスと残りのグループ)に分割すること
によって進められる。展開対象は常に最良部分仮説とし
ているので展開する順番はbest−firstとな
る。
The development of the hypothesis proceeds by expanding the top entry of the stack (= the best partial hypothesis) by one arc and dividing it into two hypotheses (the best single path and the remaining group). Since the development target is always the best partial hypothesis, the development order is best-first.

【0052】図5を参照してより具体的に説明すると、
スタックにルートノードをおき、初期化が行なわれる。
次いで、スタックのトップエントリを取出し、最良部分
仮説が単一パスであり、グループパスでないか否かが判
別される。単一パスでなければ、最良部分仮説を2つの
仮説(最良単一パスと残りのグループ)に分割され、こ
れら2つの仮説について全スコアが計算され、これら2
つの仮説がスタックに戻されて全スコアに基づいてソー
トされる。単一パスであれば最良部分仮説が終端ノード
まで到達しているか否かが判別され、終端ノードまで到
達していなければ、グループ仮説を2つの仮説に分割
し、これら2つの仮説について全スコアを計算し、これ
ら2つの仮説をスタックに戻し、全スコアに基づいてソ
ートされる。最良部分仮説が終端ノードまで到達すれ
ば、その仮説を出力し、受理数カウンタをインクリメン
トする。受理数カウンタがNに等しくなければ、再びス
タックのトップエントリを取り、受理カウンタがNに等
しければ終了する。
More specifically, with reference to FIG.
A root node is placed on the stack, and initialization is performed.
Next, the top entry of the stack is taken out, and it is determined whether or not the best partial hypothesis is a single pass and not a group pass. If it is not a single pass, the best partial hypothesis is split into two hypotheses (the best single pass and the remaining groups), and a total score is calculated for these two hypotheses,
One hypothesis is returned to the stack and sorted based on the total score. In the case of a single pass, it is determined whether or not the best partial hypothesis has reached the terminal node. If the best partial hypothesis has not reached the terminal node, the group hypothesis is divided into two hypotheses, and the total score of these two hypotheses is calculated. Calculate and put these two hypotheses back on the stack and sort based on the total score. When the best partial hypothesis reaches the terminal node, the hypothesis is output and the accepted number counter is incremented. If the received number counter is not equal to N, the top entry of the stack is taken again. If the received counter is equal to N, the process is terminated.

【0053】このように、best−firstに順次
仮説を展開していくと、受理された仮説の順に認識結果
のN−best単語候補が求まる。つまり、スコアの高
い候補から順に受理されるので、第1位、第2位、第3
位、…の順に単語候補が出力される。所定の個数(たと
えば10個なら第10位まで)の単語候補が求められれ
ば後向き演算が終了され、木構造辞書のうち、N−be
st単語候補にかかわるアークのみ後向き演算でビター
ビサーチを実行していることとなる。
As described above, by sequentially developing hypotheses in the best-first manner, N-best word candidates as recognition results are obtained in the order of the received hypotheses. In other words, since the candidates with the highest scores are accepted in order, the first, second, third
Word candidates are output in the order of order,. When a predetermined number of word candidates (for example, up to the tenth place for ten words) are obtained, the backward calculation is terminated, and the N-be
Only the arc related to the st word candidate is executing the Viterbi search by backward calculation.

【0054】ヒューリスティック関数h* (t)の精度
は後向きサーチの探索効率(=仮説展開回数)に大きく
影響する。もし、h* (t)が真の値h(t)に等しい
ならば理想的に展開が進み、無駄な仮説の展開を全くし
なくて済む。このとき処理量は認識語彙数、すなわち木
構造辞書のサイズには依存しないこととなる。h
* (t)はA* アルゴリズムの許容可能性:h* (t)
≧h(t)の関係が成立しているが、弱い文法を使って
いるためh* (t)=h(t)にはならない。
The accuracy of the heuristic function h * (t) greatly affects the search efficiency of the backward search (= the number of hypothesis developments). If h * (t) is equal to the true value h (t), the development proceeds ideally, and there is no need to develop useless hypotheses. At this time, the processing amount does not depend on the number of recognized vocabularies, that is, the size of the tree structure dictionary. h
* (T) is the acceptability of the A * algorithm: h * (t)
Although the relationship of ≧ h (t) holds, h * (t) = h (t) does not hold because a weak grammar is used.

【0055】したがって、実際には無駄な仮説の展開が
多少存在し、正解に近い仮説の周辺アークもサーチする
ので処理量は認識語彙数に少しは依存する。結果として
処理量が語彙数にはほとんど影響されないという特徴を
持つ。従来の1単語ずつビタービサーチを実行する方式
に比べれば、語彙が増えれば増えるほど探索空間が劇的
に削減できる。したがって、この実施形態は大語彙に適
した認識方式といえる。20,3000単語を認識語彙
とした場合、パーザ5の処理量が1/40に削減できる
ことが実験で確認されている。
Therefore, in practice, there is some useless hypothesis development, and a search is also made for a peripheral arc of a hypothesis that is close to the correct answer, so that the processing amount slightly depends on the number of recognized words. As a result, the processing amount is hardly influenced by the number of words. Compared with the conventional method of executing the Viterbi search one word at a time, the search space can be dramatically reduced as the vocabulary increases. Therefore, this embodiment can be said to be a recognition method suitable for a large vocabulary. It has been confirmed by experiments that the processing amount of the parser 5 can be reduced to 1/40 when 20,3000 words are used as the recognition vocabulary.

【0056】なお、展開途中の仮説はスタックに積んで
おく。1回の展開操作ごとにスタックの並び換え(ソー
ト)が必要となる。スタックのサイズは理想的な環境下
では理論的にはN−bestの候補数Nと同じでよい。
しかし、現実には認識語彙数や音響モデルの性能に影響
されるため、余裕を持たせた値に設定する必要がある。
実環境実験では数百程度のサイズが望まれる。たとえ
ば、この実施形態では、語彙が20,000語のときは
1,000、5,000語のときは500とする。した
がって、スタックのソートは処理量を増大させる要因と
なる。処理の高速化のため、仮説をスタックへ戻す際に
は二分木探索処理量を増大させる要因となる。処理の高
速化のため、仮説をスタックへ戻す際には二分木探索を
用いて挿入する場所が決定される。これによりスタック
の全データのソートはしなくて済む。スタックの入換え
はポインタ操作で行ない、実際のスタック上のデータは
移動させないようにする。ただし、処理系によってはポ
インタ操作よりもスタックをリスト構造にした方が効果
的となることもある。
The hypotheses that are being developed are stored on the stack. The stack must be rearranged (sorted) for each expansion operation. The stack size may theoretically be the same as the number N of N-best candidates under an ideal environment.
However, since it is actually affected by the number of recognized vocabulary words and the performance of the acoustic model, it is necessary to set a value with a margin.
In an actual environment experiment, a size of several hundreds is desired. For example, in this embodiment, the vocabulary is 1,000 when the vocabulary is 20,000 words, and 500 when the vocabulary is 5,000 words. Therefore, stack sorting causes an increase in the processing amount. When the hypothesis is returned to the stack in order to speed up the processing, this becomes a factor for increasing the binary tree search processing amount. In order to speed up the processing, when returning a hypothesis to the stack, a place to insert is determined using a binary tree search. This eliminates the need to sort all data in the stack. Stack replacement is performed by pointer operation, and actual data on the stack is not moved. However, depending on the processing system, it may be more effective to make the stack a list structure than to operate the pointer.

【0057】なお、後向き演算における各音素ごとのビ
タービサーチの代わりにA* アルゴリズムを用いて算出
することも可能である。この場合ヒューリスティック関
数は前向き演算で既に求まっているものを流用できる。
ただし、A* アルゴリズムを起動する回数が多く、スタ
ック操作などのオーバヘッドがあるため、処理速度が向
上するかどうかは、メモリのアクセススピードなど実装
する処理系の条件に依存する。
Note that it is also possible to use the A * algorithm instead of the Viterbi search for each phoneme in the backward calculation. In this case, the heuristic function that has already been obtained by the forward operation can be used.
However, since the A * algorithm is activated many times and has an overhead such as a stack operation, whether or not the processing speed is improved depends on conditions of a processing system to be mounted such as a memory access speed.

【0058】この実施形態では、サブワード単位とし
て、音素を採用したが、音節でも実現可能である。日本
語の音節は約110種類あり、音素環境を考慮すると異
なり音節数は10,000以上になるため、前向き演算
の処理量が大きくなる反面、前向きサーチの精度が向上
するため、後向きサーチの探索がより効率よく行なわれ
る。
In this embodiment, phonemes are used as subword units, but syllables can be used. There are about 110 types of Japanese syllables, and the number of syllables is more than 10,000 in consideration of the phoneme environment. Therefore, the processing amount of the forward calculation is large, but the accuracy of the forward search is improved. Is performed more efficiently.

【0059】また、上述の実施形態では、認識対象とし
て単語を取上げたが、辞書の語彙は単語に限定されるわ
けではなく、1文節を1単語と見なして木構造辞書を作
成すれば、文節の認識も実現可能である。日本語は助詞
などの表現で語尾の表現が木構造によって共有化できる
ので、効率よくサーチすることができる。
In the above embodiment, words are picked up as recognition targets. However, the vocabulary of the dictionary is not limited to words, and if a phrase is regarded as one word and a tree-structured dictionary is created, the phrase Recognition is also feasible. In Japanese, since the ending expression can be shared by a tree structure in expressions such as particles, it is possible to search efficiently.

【0060】[0060]

【発明の効果】以上のように、この発明によれば、認識
語彙を音素環境依存型音素列で表現し、それら音素をア
ークとする木構造の辞書に変換し、前向き演算部で音素
環境を考慮した音素単位の制約条件下で駆動するビター
ビサーチを行ない、後向き演算部で音素環境を考慮した
木構造辞書を参照しながらビタービサーチを用いて仮説
を展開し、前向き演算結果のスコアと音素単位で実行し
た後向きビタービサーチの演算結果のスコアの和を利用
したA* アルゴリズムを用いて展開する順番をbest
−firstに決定し、受理された仮説の順にそれを認
識結果の単語候補として出力し、所定の個数の単語候補
が求まれば後向き演算を終了して認識候補の単語を出力
するようにしたので、処理量が語彙数に比例しないとい
う特徴を活かして、超大語彙を対象としても安価なハー
ドウェア構成で実時間動作が可能な音声認識装置を実現
できる。たとえば、20,000単語を認識語彙とした
場合、この発明によれば、音声認識の処理量の二大要
素、HMMの尤度演算とパーザのうち、後者を約1/4
0に削減できる。
As described above, according to the present invention, the recognized vocabulary is represented by a phoneme environment-dependent phoneme sequence, and these phonemes are converted into a tree-structured dictionary having arcs. Perform the Viterbi search driven under the constraint condition of the phoneme unit considered, develop the hypothesis using the Viterbi search while referring to the tree structure dictionary considering the phoneme environment in the backward operation unit, and calculate the score of the forward operation result and The best order to develop using the A * algorithm that uses the sum of the scores of the results of backward Viterbi search performed on a phoneme-by-phoneme basis
−first, and output them as word candidates of the recognition result in the order of the accepted hypotheses. When a predetermined number of word candidates are obtained, the backward operation is terminated and the words of the recognition candidates are output. By taking advantage of the feature that the processing amount is not proportional to the number of vocabularies, it is possible to realize a speech recognition device capable of real-time operation with an inexpensive hardware configuration even for very large vocabularies. For example, when 20,000 words are used as the recognition vocabulary, according to the present invention, of the two major elements of the processing amount of speech recognition, the likelihood calculation of the HMM and the parser, the latter is about 1/4.
It can be reduced to zero.

【図面の簡単な説明】[Brief description of the drawings]

【図1】この発明の一実施形態を示すブロック図であ
る。
FIG. 1 is a block diagram showing an embodiment of the present invention.

【図2】HMMの状態間の接続の制約例を示す図であ
る。
FIG. 2 is a diagram illustrating an example of a restriction on a connection between states of an HMM.

【図3】音素環境を考慮した木構造辞書の一部分の例を
示す図である。
FIG. 3 is a diagram showing an example of a part of a tree-structured dictionary considering a phoneme environment.

【図4】音素環境を考慮しない木構造辞書の一部分の例
を示す図である。
FIG. 4 is a diagram showing an example of a part of a tree-structured dictionary without considering a phoneme environment.

【図5】best−firstに仮説を成長させるアル
ゴリズムを示すフローチャートである。
FIG. 5 is a flowchart illustrating an algorithm for growing a hypothesis in best-first.

【図6】従来の一般的な単語音声認識装置の構成を示す
ブロック図である。
FIG. 6 is a block diagram showing a configuration of a conventional general word speech recognition device.

【図7】A* アルゴリズムを説明するための図である。FIG. 7 is a diagram for explaining an A * algorithm.

【符号の説明】[Explanation of symbols]

1 音響分析部 5 パーザ 6 前向き演算部 7 後向き演算部 8 音響/言語モデル 9 音響モデル 10 言語モデル Reference Signs List 1 sound analysis unit 5 parser 6 forward operation unit 7 backward operation unit 8 sound / language model 9 sound model 10 language model

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 音素環境依存型音素隠れマルコフモデル
を用いた音声認識装置において、 音声を入力するための入力手段と、 前記入力手段から入力された音声を短時間フレームごと
に分析し、特徴ベクトルを抽出する特徴ベクトル抽出手
段、 前記特徴ベクトル抽出手段によって抽出された特徴ベク
トルに基づいて、語頭の前および語尾の後に無音モデル
を付加した認識語彙を音素環境依存型音素列で表現し、
それら音素をアークとする木構造の辞書に変換する辞書
作成手段、および、 前向き演算部と後向き演算部とを含むパーザ手段を備
え、 前記前向き演算部は、音素環境を考慮した音素単位の制
約条件下で駆動するビタービサーチを行ない、 前記後向き演算部は、音素環境を考慮した木構造辞書を
参照しながらビタービサーチを用いて仮説を展開し、前
向き演算結果のスコアと音素単位で実行した後向きビタ
ービサーチの演算結果のスコアの和を利用したA* アル
ゴリズムを用いて展開する順番をbest−first
に決定し、受理された仮説の順にそれを認識結果の単語
候補として出力し、所定の個数の単語候補が求まれば後
向き演算を終了することを特徴とする、大語彙音声認識
装置。
1. A speech recognition apparatus using a phoneme environment-dependent phoneme hidden Markov model, comprising: input means for inputting speech; analyzing speech input from the input means for each short-time frame; Based on the feature vector extracted by the feature vector extraction means, a recognition vocabulary to which a silence model is added before and after the beginning of a word is represented by a phoneme environment-dependent phoneme sequence,
Dictionary creation means for converting the phonemes into a tree-structured dictionary having arcs, and parser means including a forward operation unit and a backward operation unit, wherein the forward operation unit is provided with phoneme unit constraints in consideration of a phoneme environment. The Viterbi search driven below was performed, and the backward operation unit developed a hypothesis using Viterbi search while referring to a tree structure dictionary in consideration of the phoneme environment, and executed the forward operation result score and phoneme unit. The order of development using the A * algorithm that uses the sum of the scores of the operation results of backward Viterbi search is best-first.
A large vocabulary speech recognition device, characterized in that the hypotheses are output in the order of the accepted hypotheses as word candidates as recognition results, and when a predetermined number of word candidates are obtained, the backward calculation is terminated.
【請求項2】 前記前向き演算部は、音素環境を考慮し
た隠れマルコフモデルの状態単位の制約条件下で駆動す
るビタービサーチを行なうことを特徴とする、請求項1
の大語彙音声認識装置。
2. The method according to claim 1, wherein the forward calculation unit performs a Viterbi search driven under a constraint condition of a state unit of a hidden Markov model in consideration of a phoneme environment.
Large vocabulary speech recognition device.
【請求項3】 前記後向き演算部は、各音素ごとのビタ
ービサーチの照合範囲を予め定める各音素別継続時間長
をもとに所定の方法で制限することを特徴とする、請求
項1の大語彙音声認識装置。
3. The method according to claim 1, wherein the backward calculation unit limits a collation range of the Viterbi search for each phoneme in a predetermined manner based on a predetermined duration for each phoneme. Large vocabulary speech recognition device.
【請求項4】 前記後向き演算部は、音素単位の仮説の
展開におけるビタービサーチをA* アルゴリズムで実行
することを特徴とする、請求項1の大語彙音声認識装
置。
4. The large vocabulary speech recognition apparatus according to claim 1, wherein said backward operation unit executes a Viterbi search in developing a hypothesis in phoneme units using an A * algorithm.
JP8249548A 1996-09-20 1996-09-20 Large-vocabulary speech recognition system Pending JPH1097275A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8249548A JPH1097275A (en) 1996-09-20 1996-09-20 Large-vocabulary speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8249548A JPH1097275A (en) 1996-09-20 1996-09-20 Large-vocabulary speech recognition system

Publications (1)

Publication Number Publication Date
JPH1097275A true JPH1097275A (en) 1998-04-14

Family

ID=17194637

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8249548A Pending JPH1097275A (en) 1996-09-20 1996-09-20 Large-vocabulary speech recognition system

Country Status (1)

Country Link
JP (1) JPH1097275A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240008B2 (en) 2001-10-03 2007-07-03 Denso Corporation Speech recognition system, program and navigation system
JP2009169154A (en) * 2008-01-17 2009-07-30 Kddi Corp Voice recognition method and device, voice recognition program, and recording medium therefor
JP2010175807A (en) * 2009-01-29 2010-08-12 Kddi Corp Speech recognition method and device
US7818171B2 (en) 2006-03-31 2010-10-19 Denso Corporation Speech recognition apparatus and speech recognition program
JP2021039384A (en) * 2020-12-08 2021-03-11 株式会社東芝 Generation device, recognition system, and finite state transducer generation method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240008B2 (en) 2001-10-03 2007-07-03 Denso Corporation Speech recognition system, program and navigation system
US7818171B2 (en) 2006-03-31 2010-10-19 Denso Corporation Speech recognition apparatus and speech recognition program
DE102007015497B4 (en) * 2006-03-31 2014-01-23 Denso Corporation Speech recognition device and speech recognition program
JP2009169154A (en) * 2008-01-17 2009-07-30 Kddi Corp Voice recognition method and device, voice recognition program, and recording medium therefor
JP2010175807A (en) * 2009-01-29 2010-08-12 Kddi Corp Speech recognition method and device
JP2021039384A (en) * 2020-12-08 2021-03-11 株式会社東芝 Generation device, recognition system, and finite state transducer generation method

Similar Documents

Publication Publication Date Title
US5241619A (en) Word dependent N-best search method
US6243680B1 (en) Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
Wang et al. Complete recognition of continuous Mandarin speech for Chinese language with very large vocabulary using limited training data
JP3481497B2 (en) Method and apparatus using a decision tree to generate and evaluate multiple pronunciations for spelled words
Kenny et al. A*-admissible heuristics for rapid lexical access
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
JPH06110493A (en) Method for constituting speech model and speech recognition device
JP2006038895A (en) Device and method for speech processing, program, and recording medium
JP2000075895A (en) N best retrieval method for continuous speech recognition
US20050038647A1 (en) Program product, method and system for detecting reduced speech
Boite et al. A new approach towards keyword spotting.
WO2002029615A1 (en) Search method based on single triphone tree for large vocabulary continuous speech recognizer
Lee et al. Acoustic modeling of subword units for speech recognition
Mihajlik et al. Phonetic transcription in automatic speech recognition
JPH1097275A (en) Large-vocabulary speech recognition system
Nakagawa Speaker-independent continuous-speech recognition by phoneme-based word spotting and time-synchronous context-free parsing
Huang et al. A fast algorithm for large vocabulary keyword spotting application
JP3171107B2 (en) Voice recognition device
Nakagawa Spoken sentence recognition by time-synchronous parsing algorithm of context-free grammar
JPH08123470A (en) Speech recognition device
JPH0981181A (en) Voice recognition device
Lee et al. A survey on automatic speech recognition with an illustrative example on continuous speech recognition of Mandarin
Kershaw et al. The 1995 Abbot hybrid connectionist-HMM large-vocabulary recognition system
JP3494338B2 (en) Voice recognition method
Nakagawa et al. The syntax-oriented speech understanding system-SPOJUS-SYNO.

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030422