JP5008078B2 - Pattern recognition method and apparatus, pattern recognition program and recording medium therefor - Google Patents

Pattern recognition method and apparatus, pattern recognition program and recording medium therefor Download PDF

Info

Publication number
JP5008078B2
JP5008078B2 JP2007262250A JP2007262250A JP5008078B2 JP 5008078 B2 JP5008078 B2 JP 5008078B2 JP 2007262250 A JP2007262250 A JP 2007262250A JP 2007262250 A JP2007262250 A JP 2007262250A JP 5008078 B2 JP5008078 B2 JP 5008078B2
Authority
JP
Japan
Prior art keywords
state
word
pruning
region
hypothesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007262250A
Other languages
Japanese (ja)
Other versions
JP2009092844A (en
Inventor
恒夫 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2007262250A priority Critical patent/JP5008078B2/en
Publication of JP2009092844A publication Critical patent/JP2009092844A/en
Application granted granted Critical
Publication of JP5008078B2 publication Critical patent/JP5008078B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体に係り、特に、HMMに代表される確率的な状態遷移モデルを用いて、音声認識などのパタン認識を行うパタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体に関する。   The present invention relates to a pattern recognition method and apparatus, a pattern recognition program, and a recording medium thereof, and more particularly to a pattern recognition method and apparatus for performing pattern recognition such as speech recognition using a probabilistic state transition model typified by an HMM. And a pattern recognition program and a recording medium thereof.

音声認識では、入力された音声信号に最も近い単語列が、状態系列として表現される単語との類似度に基づいて判定される。HMM(Hidden Markov Model:隠れマルコフモデル)は、単語や単語を構成する音素を表現するのに適切な確率モデルの1つであり、HMMの各状態は状態遷移確率および出力確率密度関数を持つ。以下、従来の音声認識の手法を、前記HMM を利用した場合を例にして説明する。   In speech recognition, the word string closest to the input speech signal is determined based on the similarity with the word expressed as the state series. The HMM (Hidden Markov Model) is one of probability models suitable for expressing words and phonemes constituting the words, and each state of the HMM has a state transition probability and an output probability density function. Hereinafter, a conventional speech recognition method will be described by taking the case of using the HMM as an example.

音声認識装置では、認識可能な文の集合が単語を単位とするネットワークとして記述された文法と、文を構成する単語の読み(音素列)が記述された単語辞書とに従って認識処理が進行する。図9は、文法の一例を示した図であり、ここでは、「伊藤です」、「糸井です」、「今井です」、「土井です」という4つの音声を識別する場合を例にして説明する。   In the speech recognition apparatus, the recognition process proceeds according to a grammar in which a set of recognizable sentences is described as a network in units of words and a word dictionary in which readings of words constituting the sentence (phoneme strings) are described. FIG. 9 is a diagram showing an example of a grammar, and here, a case where four voices “Ito Ito”, “Ito Itoi”, “Imai Ito”, “Ito Doi” are identified is described as an example. .

図9に示された文法は、丸数字1で示した状態「1」を始端(文頭)とし、状態「5」を終端(文末)とする状態遷移図であり、矢印で対応付けられた単語を出力して状態間を遷移する。文法を構成する各単語は、その読み(音素列)に従ってHMMの状態系列として表現され、単語辞書に含まれる単語の集合は、図10に示したような木構造辞書として展開される。   The grammar shown in FIG. 9 is a state transition diagram in which the state “1” indicated by the circled number 1 is the beginning (start of sentence) and the state “5” is the end (end of sentence), and is a word associated with an arrow. To transition between states. Each word constituting the grammar is expressed as an HMM state sequence according to its reading (phoneme string), and a set of words included in the word dictionary is expanded as a tree structure dictionary as shown in FIG.

木構造辞書では、各単語が音素列に分解され、単語「糸井」であれば4つの音素「i」,「t」,「o」,「i」の列に展開される。各音素は、通常3つ程度の状態(HMM状態)から構成される。木構造辞書は、HMMの状態系列として表現される単語間で、先頭から共通する部分的な状態系列をマージすることにより、右に進むにつれて分岐が広がる状態遷移図である。図10の木構造辞書では、「伊藤」、「糸井」、「今井」の3単語で、単語先頭の「い」に相当するHMMの状態系列がマージされ、さらに「伊藤」と「糸井」の間で「いと」までに相当するHMMの状態系列がマージされている。また「土井」と「です」との間で、単語先頭の「d」に相当するHMM状態系列がマージされている。図中の「sil」は無音声区間(silence)を表している。   In the tree structure dictionary, each word is decomposed into a phoneme string, and if it is the word “Itoi”, it is expanded into four phoneme “i”, “t”, “o”, and “i” strings. Each phoneme is usually composed of about three states (HMM states). The tree structure dictionary is a state transition diagram in which a branch expands toward the right by merging partial state sequences that are common from the beginning among words expressed as HMM state sequences. In the tree structure dictionary of FIG. 10, the HMM state series corresponding to “I” at the head of the word is merged with three words “Ito”, “Itoi”, and “Imai”, and “Ito” and “Itoi” are further merged. The HMM state series corresponding to “Ito” is merged. In addition, the HMM state sequence corresponding to “d” at the beginning of the word is merged between “Doi” and “Is”. “Sil” in the figure represents a silent period (silence).

音声認識処理では、図9に示した文法の制約に従って、図10に示した木構造辞書中の単語先頭のHMM状態から、状態仮説と呼ばれるトークンが木構造辞書を左から右へと遷移する。状態仮説が単語終端のHMM状態に到達すると、単語仮説と呼ばれる履歴を残して、図9の文法における該当単語の遷移先状態に遷移する。遷移先状態が文末でなければ、次の時刻から同様に、文法の制約に従って木構造辞書の探索が行われる。   In the speech recognition process, a token called a state hypothesis transitions from the left to the right in the tree structure dictionary from the HMM state at the beginning of the word in the tree structure dictionary shown in FIG. 10 in accordance with the grammatical restrictions shown in FIG. When the state hypothesis reaches the HMM state at the end of the word, a history called a word hypothesis is left and the state transitions to the transition destination state of the word in the grammar of FIG. If the transition destination state is not the end of the sentence, the tree structure dictionary is similarly searched from the next time according to grammatical constraints.

木構造辞書中のHMM状態系列を状態仮説が左から右へと遷移する間に、入力音声に対して、その単語らしさのスコア(累積尤度)が計算される。木構造辞書を構成する各HMM状態は、音響特徴パラメータの入力に対して尤もらしさを出力する確率分布(出力確率密度関数)を有している。また、HMM状態間の遷移について遷移確率(状態遷移確率)が定義されている。これらの確率を時間方向に累積することで累積尤度が計算される。   While the state hypothesis transitions from the left to the right in the HMM state sequence in the tree structure dictionary, a word-likeness score (cumulative likelihood) is calculated for the input speech. Each HMM state constituting the tree structure dictionary has a probability distribution (output probability density function) that outputs likelihood with respect to the input of acoustic feature parameters. Also, transition probabilities (state transition probabilities) are defined for transitions between HMM states. The cumulative likelihood is calculated by accumulating these probabilities in the time direction.

この累積尤度は、後述する認識結果の確定処理のため、状態仮説が各単語の終端の状態に到達して単語仮説と呼ばれる履歴を残すときに、先行する単語仮説のインデックスとともに単語仮説中に格納される。   This cumulative likelihood is determined in the word hypothesis together with the index of the preceding word hypothesis when the state hypothesis reaches the terminal state of each word and leaves a history called the word hypothesis for the recognition result determination process described later. Stored.

音声信号を分析して音響特徴パラメータを得る所定の一定周期ごとに、各HMM状態まで遷移した各状態仮説は、さらに自身のHMM状態への遷移(自己遷移)および右隣のHMM状態への遷移(L-R遷移)とを同時に繰り返す。このとき、t番目のフレームに状態jが存在する累積尤度をαj(t)とすれば、この累積尤度αj(t)は次式(1)で表される。ここで、αijは状態iから状態jへの遷移確率、bj(ot)は状態jが音響特徴量otを出力する確率である。自己遷移は、次式(1)においてi=jの場合として考える。   Each hypothesis that has transitioned to each HMM state at every fixed period that analyzes the audio signal to obtain acoustic feature parameters further transitions to its own HMM state (self-transition) and to the right-hand HMM state (LR transition) is repeated at the same time. At this time, if the cumulative likelihood in which the state j exists in the t-th frame is αj (t), the cumulative likelihood αj (t) is expressed by the following equation (1). Here, αij is a transition probability from the state i to the state j, and bj (ot) is a probability that the state j outputs the acoustic feature quantity ot. Self-transition is considered as the case of i = j in the following equation (1).

Figure 0005008078
Figure 0005008078

T個のフレームから構成される音声信号についてN個のHMM状態からなる単語系列を探索する場合、すなわち、状態仮説がHMM状態系列を遷移していく場合の、自己遷移とL-R遷移との探索空間(トレリス)を図11に示す。トレリス空間は、横軸を観察系列としてのフレーム、縦軸を状態として可能な状態系列を示す格子グラフであって、それぞれの状態系列は、各時刻における状態を表す点(○印)を線分で結んだ折れ線で表される。   Search space for self-transition and LR transition when searching for a word sequence consisting of N HMM states for a speech signal composed of T frames, that is, when a state hypothesis transitions through an HMM state sequence FIG. 11 shows (trellis). The trellis space is a lattice graph showing a possible state sequence with the horizontal axis as the observation sequence and the vertical axis as the state, and each state sequence is a line segment representing a point at each time (a circle). It is represented by a broken line connected with

図11に示したように、t番目のフレームのタイミングで状態jに至るパスは数多く存在するが、音声認識は最も確からしいパス(最尤パス)を求めるのが目的であるので、各フレームの各HMM状態において、次式(2)に従って累積尤度の高い状態仮説を残すViterbi探索が行われる。   As shown in FIG. 11, there are many paths that reach the state j at the timing of the t-th frame, but since speech recognition is aimed at finding the most likely path (maximum likelihood path), In each HMM state, a Viterbi search that leaves a state hypothesis with a high cumulative likelihood is performed according to the following equation (2).

Figure 0005008078
Figure 0005008078

音声認識処理は、文法が許容する全ての単語連鎖を探索する必要があるため、同時刻に数多くの状態仮説が、自分自身のHMM状態への遷移(図11では、右隣りへの自己遷移)と隣接する他のHMM状態への遷移(図11では、右下隣りへのL-R遷移)とを行うので、その計算量は膨大になる。この計算量の増大を抑えるために、通常はViterbi探索途中で確率の小さい状態仮説を探索空間から除外する「枝刈り」が行われる。   Since the speech recognition process needs to search all word chains allowed by the grammar, a number of state hypotheses transition to their own HMM state at the same time (in FIG. 11, self-transition to the right side). And a transition to another adjacent HMM state (LR transition to the lower right neighbor in FIG. 11), the amount of calculation becomes enormous. In order to suppress this increase in the amount of calculation, “pruning” is generally performed during the Viterbi search, in which a state hypothesis with a low probability is excluded from the search space.

その後、パワーの低下等、音声の終了を判断する何らかの条件により探索処理が終了すると、終了時刻に文末に到達した単語仮説のうち、音声始端からの累積尤度が最も高いものから、先行する単語の系列(この単語仮説に至るまでの単語の履歴)が導き出され、これが最終的な認識結果の候補となる。この操作はバックトレースと呼ばれる。   After that, when the search process ends due to some condition for determining the end of speech, such as power reduction, from the word hypotheses that reach the end of the sentence at the end time, the word that precedes the one with the highest cumulative likelihood from the beginning of speech A sequence (word history up to this word hypothesis) is derived, and this is a final recognition result candidate. This operation is called backtrace.

上記した枝刈りでは、発声全体の探索を終えた時点で累積尤度が最大になる状態仮説を必ず残すようにしながら、状態仮説数を効率的に削減することが要求される。従来の枝刈りは、Viterbi探索の各フレームで累積尤度の高い状態仮説を残し、累積尤度の低い状態仮説を次フレーム以降の探索対象から取り除くために、以下の2種類の方法が併用されることが多い。   In the above-mentioned pruning, it is required to efficiently reduce the number of state hypotheses while always leaving the state hypothesis having the maximum cumulative likelihood when the search for the entire utterance is completed. Conventional pruning leaves the state hypothesis with a high cumulative likelihood in each frame of the Viterbi search, and removes the state hypothesis with a low cumulative likelihood from the search target for the next frame and the following two methods. Often.

(1)ビーム幅による枝刈り   (1) Pruning by beam width

この枝刈り方法では、処理中の時刻における最大の尤度から、尤度が一定幅以内にある状態仮説を次の時刻の探索空間として残し、尤度が一定幅以上に低い状態仮説は次の時刻の探索空間から除外される。すなわち、時刻t、状態jの尤度が同時刻の全状態仮説中で最大の尤度と比較される。そして、次式(3)が成立する場合は、状態jを次の時刻の探索空間に残し、次式(4)が成立する場合は、状態jを次の時刻の探索空間から除外する。θpruningは枝刈りの閾値であって正の実数であり、ビーム幅と呼ばれる。   In this pruning method, the state hypothesis that the likelihood is within a certain range is left as a search space at the next time from the maximum likelihood at the time being processed, and the state hypothesis with a likelihood that is less than a certain range is Excluded from the time search space. That is, the likelihood of time t and state j is compared with the maximum likelihood in all state hypotheses at the same time. When the following equation (3) is satisfied, the state j is left in the search space at the next time, and when the following equation (4) is satisfied, the state j is excluded from the search space at the next time. θpruning is a pruning threshold and is a positive real number and is called a beam width.

Figure 0005008078
Figure 0005008078

Figure 0005008078
Figure 0005008078

(2)ヒストグラムによる枝刈り   (2) Pruning with histogram

上記したビーム幅による枝刈りでは、ビーム幅の範囲に多数の状態仮説が残る可能性があり、想定以上に処理時間を増大させてしまうことがある。これに対して、この枝刈り方法では、残す状態仮説が個数により制限される。ただし、厳密に個数により制限するためには状態仮説数をスコア(累積尤度)の順にソーティングする必要があるが、ソーティングのコストを回避するためにヒストグラムによる枝刈りが行われる。   In the above-described pruning with the beam width, a large number of state hypotheses may remain in the range of the beam width, and the processing time may be increased more than expected. On the other hand, in this pruning method, the state hypotheses to be left are limited by the number. However, in order to strictly limit the number by the number, it is necessary to sort the number of state hypotheses in the order of score (cumulative likelihood), but pruning is performed using a histogram in order to avoid sorting costs.

即ち、全状態仮説中最大の対数尤度との差分に対して予め適当な区分を設定しておき、全状態仮説がどの区分に該当するかを記録してヒストグラムを作成し、最後に累積尤度の高い区分から順に度数を累積する。そして、累積度数が一定個数を超える区間までの状態仮説は次フレームの探索対象として残し、それ以降の区間の状態仮説は除外する。個数の閾値は最大許容仮説数と呼ばれる。   In other words, an appropriate category is set in advance for the difference from the maximum log likelihood in all state hypotheses, a histogram is created by recording which category the all state hypothesis corresponds to, and finally the cumulative likelihood. The frequency is accumulated in order from the highest category. Then, the state hypotheses up to the section where the cumulative frequency exceeds a certain number are left as search targets for the next frame, and the state hypotheses of the subsequent sections are excluded. The number threshold is called the maximum allowable hypothesis number.

特許文献1〜5には、ビーム幅と最大許容仮説数とを適応的に設定する技術(従来技術A)が開示されており、特許文献6には、枝刈りで残される状態仮説の多様性が失われないようにする技術(従来技術B)が開示されている。   Patent Documents 1 to 5 disclose a technique (prior art A) for adaptively setting the beam width and the maximum allowable number of hypotheses, and Patent Document 6 discloses the diversity of state hypotheses left by pruning. A technique (prior art B) for preventing the loss of data is disclosed.

特許文献1には、計算量の少ない音響モデルを用いた確率計算部により、未探索部分における順位の変動幅を推定し、推定値によりビーム幅および最大許容仮説数を動的に設定する技術が開示されている。特許文献2には、文法の選択肢の数の指標であるパープレキシティを計算することによりビーム幅および最大許容仮説数を動的に設定する技術が開示されている。   Patent Document 1 discloses a technique for estimating a fluctuation range of rank in an unsearched portion by a probability calculation unit using an acoustic model with a small calculation amount, and dynamically setting a beam width and the maximum allowable number of hypotheses based on an estimated value. It is disclosed. Patent Document 2 discloses a technique for dynamically setting the beam width and the maximum allowable number of hypotheses by calculating perplexity, which is an index of the number of grammatical options.

特許文献3には、現行のビーム幅で残される仮説数をカウントし、残される仮説数の大小に応じて、それ以降のビーム幅を適応的に設定する技術が開示されている。特許文献4には、文法における現在の探索位置(深さ)をパラメータとしてニューラルネットで動的にビーム幅を決定する技術が開示されている。   Patent Document 3 discloses a technique for counting the number of hypotheses remaining with the current beam width and adaptively setting the subsequent beam widths according to the number of remaining hypotheses. Patent Document 4 discloses a technique for dynamically determining a beam width by a neural network using a current search position (depth) in a grammar as a parameter.

特許文献5には、DPマッチングによる音声認識における仮説数をカウントし、残される仮説数の大小に応じてそれ以降の距離に対する閾値を適応的に設定する技術が開示されている。特許文献6には、複数の音響モデル(即ち、複数の木構造辞書)を併用して探索処理を行う場合に、各々の音響モデルごとに枝刈りを行う技術が開示されている。
特開2001−75596号公報 特開平11−119793号公報 特開平10−153999号公報 特開平6−282295号公報 特開平5−35292号公報 特開2005−10464号公報
Patent Document 5 discloses a technique for counting the number of hypotheses in speech recognition based on DP matching and adaptively setting a threshold for the distance after that according to the number of remaining hypotheses. Patent Document 6 discloses a technique for performing pruning for each acoustic model when a search process is performed using a plurality of acoustic models (that is, a plurality of tree structure dictionaries) together.
JP 2001-75596 A Japanese Patent Application Laid-Open No. 11-119793 Japanese Patent Laid-Open No. 10-153999 JP-A-6-282295 JP-A-5-35292 JP 2005-10464 A

枝刈りの目的は、最終的に最尤となるパスを見いだせるように、木構造辞書の広い探索空間を少ない状態仮説で効率的に探索することである。上記した従来の枝刈り方法では、木構造辞書の一部の領域に状態仮説が集中して残り、それ以外の広い領域に状態仮説が残らないことがあり、これでは効率的な探索が行われているといえない。   The purpose of pruning is to efficiently search the wide search space of the tree structure dictionary with few state hypotheses so that the path with the maximum likelihood can be finally found. In the conventional pruning method described above, state hypotheses may remain concentrated in some areas of the tree structure dictionary, and state hypotheses may not remain in other wide areas. This allows efficient search. I can't say that.

上記した従来技術Aに属する改良手法を適用しても、上記の問題は根本的に解決されない。従来技術Bに属する技術では、複数の音響モデルを併用する場合の枝刈りが効率化されるものの、単一の木構造辞書における枝刈りを効率化できない。   Even if the improved technique belonging to the above-mentioned conventional technique A is applied, the above problem is not fundamentally solved. In the technique belonging to the conventional technique B, the pruning in the case of using a plurality of acoustic models is made efficient, but the pruning in the single tree structure dictionary cannot be made efficient.

本発明の目的は、上記した従来技術の課題を解決し、単一の木構造辞書であっても、木構造辞書の構造的な特徴を生かして、認識率を低下させることなく、状態仮説を効率良く枝刈りできるパタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体を提供することにある。   The object of the present invention is to solve the above-mentioned problems of the prior art, and even if a single tree structure dictionary is used, the state hypothesis can be obtained without lowering the recognition rate by utilizing the structural features of the tree structure dictionary. It is an object to provide a pattern recognition method and apparatus, a pattern recognition program, and a recording medium thereof that can efficiently prune.

上記した目的を達成するために、本発明は、入力信号から抽出された特徴パラメータと、認識パタンが木構造で表現された確率的な状態遷移モデルとを照合し、前記特徴パラメータに対する確率モデルの各状態の尤度を計算しながら状態仮説を遷移させ、最尤な状態遷移パスを認識パタンとするパタン認識装置において、以下のような手段を講じた点に特徴がある。   In order to achieve the above-described object, the present invention collates a feature parameter extracted from an input signal with a probabilistic state transition model in which a recognition pattern is expressed in a tree structure, and obtains a probability model for the feature parameter. The pattern recognition apparatus that changes the state hypothesis while calculating the likelihood of each state and uses the most likely state transition path as a recognition pattern is characterized by the following measures.

(1)入力信号の特徴パラメータに基づいて、前記状態遷移モデルの探索空間で尤度計算を実行する探索手段と、前記探索空間を仮想的に複数の領域に分割する領域分割手段と、同一時刻で遷移する状態仮説を前記いずれかの領域に振り分ける振分手段と、前記分割された領域ごとに、同一領域内で尤度の低い状態仮説を探索対象から除外する枝刈り手段とを含むことを特徴とする。   (1) Search means for performing likelihood calculation in the search space of the state transition model based on feature parameters of the input signal, area dividing means for virtually dividing the search space into a plurality of areas, and the same time Distribution means for allocating the state hypothesis to be transferred to any one of the areas, and pruning means for excluding a low-likelihood state hypothesis from the search target in the same area for each of the divided areas. Features.

(2)分割された領域ごとに枝刈り条件を設定する枝刈り条件設定手段をさらに含むことを特徴とする。   (2) It further includes pruning condition setting means for setting a pruning condition for each divided area.

上記した特徴(1)によれば、状態遷移モデルの探索空間が複数の領域に分割され、領域ごとに独立して枝刈りが実行されるので、一の領域と他の一の領域とで独立して累積尤度が上位の状態仮説を残すことができる。したがって、一の領域に属する各状態仮説の累積尤度が他の一の領域に属する各状態仮説の累積尤度よりも相対的に高く、一の領域と他の一の領域とを分割せずに一括して枝刈りしたときには累積尤度が上位とならない他の一の領域の状態仮説も、領域ごとに枝刈りを行うことにより残すことが可能になる。   According to the feature (1) described above, the search space of the state transition model is divided into a plurality of regions, and pruning is performed independently for each region, so that one region and the other region are independent. Thus, a state hypothesis having a higher cumulative likelihood can be left. Therefore, the cumulative likelihood of each state hypothesis belonging to one region is relatively higher than the cumulative likelihood of each state hypothesis belonging to another one region, and one region and another region are not divided. The state hypothesis of the other region whose cumulative likelihood is not higher when pruning all together can be left by pruning for each region.

上記した特徴(2)によれば、状態遷移モデルの探索空間を、例えば単語が確定している単語確定領域と単語が確定していない単語未確定領域とに分割し、単語確定領域の枝刈り条件を単語未確定領域の枝刈り条件よりも厳しくしたり、あるいは、状態遷移モデルの探索空間を、各状態から分岐する単語総数に基づいて複数領域に分割し、分岐する単語総数が少ない領域ほど枝刈り条件を厳しくしたりすれば、認識率を低下させることなく、状態仮説をさらに効率良く枝刈りできるようになる。   According to the feature (2) described above, the search space of the state transition model is divided into, for example, a word determination area where the word is fixed and a word unconfirmed area where the word is not fixed, and pruning the word determination area The condition is made stricter than the pruning condition of the word undetermined area, or the search space of the state transition model is divided into multiple areas based on the total number of words branching from each state, and the area with fewer total branching words If the pruning condition is tightened, the state hypothesis can be pruned more efficiently without reducing the recognition rate.

以下、図面を参照して本発明の最良の実施の形態について詳細に説明する。 ここでは初めに、図1に示した音素列「a」で始まる地名の木構造辞書を例にして本発明の概要を説明する。   DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, the best embodiment of the present invention will be described in detail with reference to the drawings. Here, first, the outline of the present invention will be described using the tree structure dictionary of place names beginning with the phoneme string “a” shown in FIG.

音素列「ai」で始まる地名のうち、音素列「aio」で始まる地名は「相生(aioi)」に限定されるので、状態仮説が音素列「aio」の探索空間を過ぎれば単語(パタン)が確定する。同様に、音素列「aika」で始まる地名は「秋鹿町」、「相川」および「愛環梅坪」の3つであるが、音素列「aikam」で始まる地名は「秋鹿町」に限定されるので、状態仮説が音素列「aikam」の探索空間を過ぎれば単語が確定する。   Of the place names that begin with the phoneme sequence "ai", place names that start with the phoneme sequence "aio" are limited to "aioi", so if the state hypothesis passes the search space of the phoneme sequence "aio", the word (pattern) Is fixed. Similarly, there are three place names that begin with the phoneme string “aika”: “Akikacho”, “Aikawa”, and “Aikan Umetsubo”, but place names that start with the phoneme string “aikam” are limited to “Akikacho”. Therefore, if the state hypothesis passes the search space for the phoneme sequence “aikam”, the word is determined.

ここで、ある時刻で自己遷移またはLR遷移した全N1個の状態仮説を対象に枝刈りを行うとき、従来技術であれば、N1個の全ての状態仮説を対象に枝刈りが行われ、ビーム幅や最大許容仮説数で決まる上位n1個の状態仮説のみが残る。このとき、状態仮説が多くの単語に到達する可能性を残すためには、探索空間の広い範囲にわたって、その状態仮説が上位n1個の中に漏れなく残るようにすることが望ましい。しかしながら、実際には単語が確定する領域の状態仮説のみが上位を占めてしまうような場合があり、このような場合には、多くの単語に到達する可能性が一度に失われてしまう。   Here, when pruning is performed for all N1 state hypotheses that have self-transitioned or LR-transitioned at a certain time, the pruning is performed for all N1 state hypotheses in the conventional technique, and the beam Only the top n1 state hypotheses, which are determined by the width and the maximum allowable number of hypotheses, remain. At this time, in order to leave the possibility that the state hypothesis reaches many words, it is desirable that the state hypothesis remains in the top n1 without omission over a wide range of the search space. However, in reality, there are cases where only the state hypothesis of the region where the word is determined occupies the upper rank, and in such a case, the possibility of reaching many words is lost at once.

これに対して、探索空間を、例えば単語が確定される領域(単語確定領域)と単語が確定されない領域(単語未確定領域)とに分割し、各領域において別々に枝刈りを行い、領域ごとに上位の状態仮説を残せば上記したような技術課題を解決できる。   On the other hand, the search space is divided into, for example, a region where a word is fixed (word fixed region) and a region where a word is not fixed (word unconfirmed region), and pruning separately in each region. The above-mentioned technical problems can be solved by leaving a higher level hypothesis.

すなわち、同一時刻で自己遷移またはLR遷移した全N1個の状態仮説のうち、単語確定領域にある全N2個の状態仮説のみを対象に枝刈りを行って、その上位n2個の状態仮説を残す一方、これとは別に、単語未確定領域にある全N3個の状態仮説を対象に枝刈りを行って、その上位n3個の状態仮説を残す。このようにすれば、探索空間の一部領域のみに状態仮説が偏在することが無くなるので、認識率を低下させることなく全体の状態仮説数を削減できるようになる。   That is, among all N1 state hypotheses that have self-transitioned or LR-transitioned at the same time, pruning is performed only on all N2 state hypotheses in the word determination area, and the top n2 state hypotheses remain. On the other hand, pruning is performed on all N3 state hypotheses in the word unconfirmed region, and the top n3 state hypotheses are left. In this way, since state hypotheses are not unevenly distributed only in a partial region of the search space, the total number of state hypotheses can be reduced without reducing the recognition rate.

さらに、単語確定領域に関しては、一列の状態に存在する状態仮説はすべて一つの単語に至るので、枝刈り条件を厳しくして、そのうちのいくつかの状態仮説が枝刈り対象となったとしても、最尤に近い尤度をもつ単語仮説が得られる可能性が高い。   Furthermore, for the word fixed area, all the state hypotheses that exist in a single row will reach a single word, so even if the pruning condition is tightened and some of the state hypotheses are subject to pruning, There is a high possibility that a word hypothesis having a likelihood close to the maximum likelihood is obtained.

本発明では、このような考察に基づいて、探索空間を複数の領域に分割し、領域ごとに、同一領域内で同一時刻に遷移する状態仮説間で尤度を計算し、尤度の低い状態仮説を枝刈りすることによって、認識率を低下させることなく全体の状態仮説数を削減できるようにしている。   In the present invention, based on such considerations, the search space is divided into a plurality of regions, and for each region, the likelihood is calculated between state hypotheses that transition at the same time within the same region. By pruning hypotheses, the total number of state hypotheses can be reduced without lowering the recognition rate.

図2は、本発明のパタン認識方法を適用した音声認識装置の主要部の構成を示したブロック図である。   FIG. 2 is a block diagram showing the configuration of the main part of a speech recognition apparatus to which the pattern recognition method of the present invention is applied.

音声信号入力部11は、入力された音声信号をデジタル信号に変換する。音響分析部12は、音声デジタル信号を音響分析して音響特徴パラメータを抽出し、これをパラメータ記憶部13に記憶する。音響特徴パラメータとは、入力音声を一定時間間隔(例えば10ms:以下、フレームと表現する)毎に分析して得られる特徴ベクトルである。したがって、音声信号は特徴ベクトルの系列X=x1,x2,…,xTに変換される。   The audio signal input unit 11 converts the input audio signal into a digital signal. The acoustic analysis unit 12 acoustically analyzes the audio digital signal to extract acoustic feature parameters, and stores them in the parameter storage unit 13. The acoustic feature parameter is a feature vector obtained by analyzing the input speech at regular time intervals (for example, 10 ms: hereinafter referred to as a frame). Therefore, the audio signal is converted into a sequence of feature vectors X = x1, x2,.

探索データベース14には、探索用の文法および木構造辞書(音素モデルの確率的な状態遷移モデル)が予め記憶されている。音響モデルデータベース17には、予め作成された音響モデルが登録されている。探索部15は、前記探索用の文法、木構造辞書および音響モデルに音響特徴パラメータの時系列データを照合させて音響的な尤度を算出し、この尤度を時間方向に累積して累積尤度を求める尤度計算部151と、探索過程で各状態仮説を自己遷移させる自己遷移部152およびLR遷移させるLR遷移部153と、探索過程で尤度の低い状態仮説を探索対象から除外する枝刈り部154と、単語末尾まで進んだ状態仮説の単語仮説を出力する単語仮説出力部155とを含む。   The search database 14 stores in advance a search grammar and a tree structure dictionary (probabilistic state transition model of a phoneme model). An acoustic model created in advance is registered in the acoustic model database 17. The search unit 15 compares the time series data of the acoustic feature parameters with the search grammar, the tree structure dictionary, and the acoustic model to calculate the acoustic likelihood, and accumulates the likelihood in the time direction to calculate the cumulative likelihood. A likelihood calculation unit 151 for obtaining a degree, a self-transition unit 152 for self-transitioning each state hypothesis in the search process, an LR transition unit 153 for LR transition, and a branch for excluding a state hypothesis having a low likelihood in the search process from the search target A trimming unit 154 and a word hypothesis output unit 155 that outputs a word hypothesis of a state hypothesis advanced to the end of the word are included.

なお、文法の制約から木構造辞書の状態系列が複数に枝分れする場合、探索部15は枝の数だけ状態仮説を複製し、枝ごとに状態仮説を進行させて尤度を計算する。認識結果判定部16は、文法上の最後のHMM状態まで到達した全ての状態仮説を累積尤度に基づいてソートし、累積尤度が最も高い状態系列にバックトレースを実行して認識結果を判定する。   When the state series of the tree structure dictionary branches into a plurality of branches due to grammatical constraints, the search unit 15 duplicates the state hypotheses by the number of branches, and advances the state hypothesis for each branch to calculate the likelihood. The recognition result determination unit 16 sorts all state hypotheses that have reached the last HMM state in the grammar based on the cumulative likelihood, and performs a backtrace on the state series with the highest cumulative likelihood to determine the recognition result To do.

図3は、前記枝刈り部154の主要部の構成を示した機能ブロック図であり、状態遷移モデルの探索空間を複数の領域に分割する領域分割部154aと、同一時刻で遷移する状態仮説を前記分割された領域のいずれかに振り分ける状態仮説振り分け部154bと、前記分割された各領域の枝刈り条件を設定する枝刈り条件設定部154cと、前記分割された領域ごとに、同一領域内で尤度の低い状態仮説を探索対象から除外する領域別枝刈り部154dとを含む。   FIG. 3 is a functional block diagram showing the configuration of the main part of the pruning unit 154. The region dividing unit 154a that divides the search space of the state transition model into a plurality of regions and the state hypothesis that changes at the same time are shown. A state hypothesis allocating unit 154b that distributes to one of the divided regions, a pruning condition setting unit 154c that sets a pruning condition for each of the divided regions, and the divided regions within the same region. And a region-specific pruning unit 154d that excludes a low-likelihood state hypothesis from the search target.

前記領域別枝刈り部154dは、実用時間内での処理が可能ならば、一つの枝刈り部で領域ごとに枝刈りを繰り返すようにしても良いし、複数の枝刈り部を設けて、これらで並列的に枝刈りを行うようにしても良い。   The region-specific pruning unit 154d may repeat pruning for each region with a single pruning unit as long as processing within a practical time is possible, or by providing a plurality of pruning units. The pruning may be performed in parallel.

図4は、本発明のパタン認識方法を適用した音声認識の手順を示したフローチャートであり、主に前記探索部15の動作を示している。   FIG. 4 is a flowchart showing the procedure of speech recognition to which the pattern recognition method of the present invention is applied, and mainly shows the operation of the search unit 15.

ここでは、音声信号入力部11に入力された認識対象の音声信号が音響分析部12でフレームごとに音響分析され、各フレームの音響特徴パラメータがパラメータ記憶部13に蓄積されている状態から説明を始める。また、前記領域分割部154aにより、図4に示したように、探索空間が「単語確定領域」および「単語未確定領域」に分割されているものとする。 Here, the recognition target speech signal input to the speech signal input unit 11 is acoustically analyzed for each frame by the acoustic analysis unit 12, and the acoustic feature parameter of each frame is accumulated in the parameter storage unit 13. start. Further, it is assumed that the search space is divided into a “word determined region” and a “word undefined region” by the region dividing unit 154a as shown in FIG.

ステップS1では、探索処理の初期化として、文法の先頭の単語の先頭の状態に遷移する仮想的な状態仮説が設定される。ステップS2では、前記パラメータ記憶部13に記憶されている音響特徴パラメータが、記音声区間の先頭フレームから正順で取り込まれる。ステップS3では、有効な状態仮説の一つが今回の計算対象として選択される。ステップS4では自己遷移が実施され、その尤度が計算・更新される。ステップS5では、今回のタイミングに対応した全ての状態仮説に関して自己遷移および尤度計算が完了したか否かが判定される。完了していなければステップS3へ戻り、今回のタイミングで遷移すべき他の状態仮説についても上記した各処理が繰り返される。   In step S1, as a search process initialization, a hypothetical state hypothesis that transitions to the top state of the top word of the grammar is set. In step S2, the acoustic feature parameters stored in the parameter storage unit 13 are captured in the normal order from the first frame of the recorded speech section. In step S3, one of the valid state hypotheses is selected as the current calculation target. In step S4, self-transition is performed, and the likelihood is calculated and updated. In step S5, it is determined whether self-transition and likelihood calculation have been completed for all state hypotheses corresponding to the current timing. If not completed, the process returns to step S3, and the above-described processes are repeated for other state hypotheses to be transitioned at this timing.

今回のタイミングに対応した全ての状態仮説に関して自己遷移および尤度計算が完了するとステップS6へ進み、改めて今回のタイミングに対応した有効な状態仮説の一つが計算対象として選択される。ステップS7では各状態仮説がL-R遷移される。ステップS8ではViterbi探索が実行される。ステップS9では、今回のタイミングで遷移すべき全ての状態仮説に関して、上記したL-R遷移およびViterbi探索が完了したか否かが判定される。完了していなければステップS6へ戻り、今回のタイミングで遷移すべき他の状態仮説についても上記した各処理が繰り返される。その後、今回のタイミングで遷移すべき全ての状態仮説について上記した各処理が完了するとステップS10へ進み、領域ごとに枝刈りを独立して行う領域別枝刈り処理が実行される。 When the self-transition and the likelihood calculation are completed for all the state hypotheses corresponding to the current timing, the process proceeds to step S6, and one of the valid state hypotheses corresponding to the current timing is selected again as a calculation target. In step S7, each state hypothesis is LR transitioned. In step S8 Vit e rbi search is performed. In step S9, it is determined whether or not the above-described LR transition and Viterbi search have been completed for all state hypotheses to be transitioned at the current timing. If not completed, the process returns to step S6, and the above-described processes are repeated for other state hypotheses that should transition at the current timing. Thereafter, when the above-described processes are completed for all the state hypotheses to be transitioned at the current timing, the process proceeds to step S10, and an area-specific pruning process is performed in which pruning is performed independently for each area.

図5は、前記領域別枝刈り処理の手順を示したフローチャートであり、ステップS101では、今回のタイミングに対応した有効な状態仮説の一つが計算対象として選択される。ステップS102では、前記選択された今回の状態仮説がいずれかの領域に振り分けられる。ステップS103では、全ての状態仮説に関して前記振り分けが完了したか否かが判定され、完了していなければ、ステップS101へ戻って上記した振り分け処理が繰り返される。   FIG. 5 is a flowchart showing the procedure of the area-specific pruning process. In step S101, one of valid state hypotheses corresponding to the current timing is selected as a calculation target. In step S102, the selected current state hypothesis is distributed to any region. In step S103, it is determined whether or not the distribution has been completed for all state hypotheses, and if not completed, the process returns to step S101 and the above-described distribution process is repeated.

その後、全ての状態仮説がいずれかの領域に振り分けられると、ステップS104では、分割された領域の一つが、今回の枝刈り領域として選択される。ステップS105では、領域内の全ての状態仮説の累積尤度に基づいて枝刈り条件が設定される。ステップS106では、領域内の状態仮説の一つが今回の枝刈り対象として選択される。ステップS107では、累積尤度が前記枝刈り条件よりも高い状態仮説のみを残して他の状態仮説を次の探索から除外する枝刈りが行われる。   After that, when all the state hypotheses are distributed to any region, in step S104, one of the divided regions is selected as the current pruning region. In step S105, pruning conditions are set based on the cumulative likelihood of all state hypotheses in the region. In step S106, one of the state hypotheses in the region is selected as the current pruning target. In step S107, pruning is performed to leave only the state hypotheses whose cumulative likelihood is higher than the pruning condition and exclude other state hypotheses from the next search.

本実施形態では、時刻t、状態jの各尤度αj(t)を、探索空間の領域ごとに全状態仮説の中で最大の尤度αmax(t)と比較し、次式(7)を満足する状態仮説を次の時刻の探索空間に残し、次式(8)を満足する状態仮説を次の時刻の探索空間から除外する。θpruningはビーム幅であり、前記枝刈り条件設定部154cは、領域ごとに同一のビーム幅を設定しても良いし、あるいは異なるビーム幅を設定しても良い。   In this embodiment, each likelihood αj (t) at time t and state j is compared with the maximum likelihood αmax (t) in all state hypotheses for each region of the search space, and the following equation (7) is obtained. The satisfied state hypothesis is left in the search space at the next time, and the state hypothesis satisfying the following equation (8) is excluded from the search space at the next time. θpruning is the beam width, and the pruning condition setting unit 154c may set the same beam width for each region or may set different beam widths.

Figure 0005008078
Figure 0005008078

Figure 0005008078
Figure 0005008078

なお、上記のように探索空間を単語確定領域と単語未確定領域とに分割するのであれば、単語確定領域の枝刈り条件を単語未確定領域の枝刈り条件よりも厳しくすることにより、認識率を低下させることなく、状態仮説を効率良く枝刈りできるようになる。   In addition, if the search space is divided into the word decision area and the word undetermined area as described above, the recognition rate is improved by making the pruning condition of the word decision area stricter than the pruning condition of the word undetermined area. The state hypothesis can be efficiently pruned without lowering.

ステップS108では、今回の領域内の全ての状態仮説に関して上記した処理が完了したか否かが判定され、完了していなければ、ステップS106へ戻って状態仮説を変更しながら上記した各処理が繰り返される。ステップS109では、全ての領域に関して上記した処理が完了したか否かが判定され、完了していなければステップS104へ戻り、領域を変更しながら上記した各処理が繰り返される。   In step S108, it is determined whether or not the above-described processing has been completed for all state hypotheses in the current region. If not, the processing returns to step S106 and the above-described processing is repeated while changing the state hypothesis. It is. In step S109, it is determined whether or not the above-described processing has been completed for all the regions. If not, the processing returns to step S104, and the above-described processing is repeated while changing the regions.

図4へ戻り、ステップS11では、枝刈り後に残った状態仮説の一つが選択される。ステップS12では、選択された状態仮説が単語末尾の状態仮説であるか否かが判定され、単語末尾の状態仮説であれば、ステップS13へ進んで単語仮説が出力される。ステップS14では、文法の上の次の単語の先頭の状態に遷移する仮想的な状態仮説が設定される。ステップS15では、枝刈り後に残った全ての状態仮説に関して上記した処理が完了したか否かが判定される。完了していなければ前記ステップS11へ戻り、状態仮説を変更しながら上記した各処理が繰り返される。   Returning to FIG. 4, in step S11, one of the state hypotheses remaining after pruning is selected. In step S12, it is determined whether or not the selected state hypothesis is a state hypothesis at the end of the word, and if it is a state hypothesis at the end of the word, the process proceeds to step S13 and the word hypothesis is output. In step S14, a hypothetical state hypothesis is set for transitioning to the head state of the next word on the grammar. In step S15, it is determined whether or not the above-described processing has been completed for all state hypotheses remaining after pruning. If not completed, the process returns to step S11, and the processes described above are repeated while changing the state hypothesis.

ステップS16では、次フレームの有無が判定され、次フレームが存在すればステップS2へ戻って次フレームの音響特徴パラメータを取り込んで上記した各処理が繰り返される。   In step S16, it is determined whether or not there is a next frame. If there is a next frame, the process returns to step S2 to acquire the acoustic feature parameter of the next frame and the above-described processes are repeated.

全てのフレームに関して上記した各処理が終了して探索が文末フレームまで到達すると、ステップS17では、これまでに文法上の最後のHMM状態まで到達した全ての状態仮説が、その累積尤度の昇順にソートされる。ステップS18では、累積尤度が上位の複数または唯一の状態仮説にバックトレースが実施され、認識結果が出力される。   When the above-described processing is completed for all frames and the search reaches the end-of-sentence frame, in step S17, all state hypotheses that have reached the last HMM state in the grammar are displayed in ascending order of their cumulative likelihoods. Sorted. In step S18, a backtrace is performed on a plurality of or only state hypotheses with the highest cumulative likelihood, and a recognition result is output.

なお、上記した実施形態では、本発明を状態仮説がビーム幅に基づいて枝刈りされる場合を例にして説明したが、本発明はこれのみに限定されるものではなく、状態仮説の累積尤度をヒストグラム化し、最大許容仮説数に基づいて枝刈りする場合にも同様に適用できる。   In the above-described embodiment, the present invention has been described by taking an example in which the state hypothesis is pruned based on the beam width. However, the present invention is not limited to this, and the cumulative likelihood of the state hypothesis is not limited thereto. The present invention can be similarly applied to a case in which degrees are histogrammed and pruned based on the maximum allowable number of hypotheses.

また、上記した実施形態では、本発明を音声認識を例にして説明したが、ゲノム解析におけるタンパク質配列の探索など、のパタン認識にも同様に適用できる。 In the above-described embodiment, the present invention has been described by taking speech recognition as an example. However, the present invention can be similarly applied to other pattern recognition such as search for protein sequences in genome analysis.

さらに、上記した実施形態では探索空間を単語確定領域および単語未確定領域に2分割し、領域ごとに独立して枝刈りを実行するものとして説明したが、本発明はこれのみに限定されるものではなく、探索空間を、以下のような規則の一つまたは複数の組み合わせに基づいて複数領域に分割しても良い。   Further, in the above-described embodiment, the search space is divided into the word determination region and the word unconfirmed region, and pruning is performed independently for each region. However, the present invention is limited to this. Instead, the search space may be divided into a plurality of regions based on one or a combination of the following rules.

(1)図6に示したように、探索空間を木構造辞書を根からの距離に応じて複数領域に分割する。このとき、領域ごとに枝刈り条件を異ならせるのであれば、木構造辞書の根から遠い領域ほどビーム幅や最大許容仮説数を狭めて枝刈り条件を厳しくすることが望ましい。図示した例では、ビーム幅や最大許容仮説数が第1領域>第2領域>第3領域となり、第3領域の枝刈り条件が最も厳しくなる。   (1) As shown in FIG. 6, the search space is divided into a plurality of regions in accordance with the distance from the root of the tree structure dictionary. At this time, if the pruning condition is made different for each region, it is desirable to narrow the pruning condition by narrowing the beam width and the maximum allowable number of hypotheses in a region farther from the root of the tree structure dictionary. In the illustrated example, the beam width and the maximum allowable number of hypotheses are first region> second region> third region, and the pruning condition of the third region is the strictest.

(2)図7に示したように、探索空間を、各HMM状態以降に分岐するパタンの総数ごとに分割する。このとき、領域ごとに枝刈り条件を異ならせるのであれば、パタン総数が少ない領域ほどビーム幅を狭めて枝刈り条件を厳しくすることが望ましい。図示した例では、第1領域から分岐するパタン総数は7個であり、第2領域から分岐するパタン総数は3個であり、第3領域から分岐するパタン総数は4個である。したがって、ビーム幅や最大許容仮説数が第1領域>第3領域>第2領域となり、第2領域の枝刈り条件が最も厳しくなる。   (2) As shown in FIG. 7, the search space is divided for the total number of patterns that branch after each HMM state. At this time, if the pruning conditions are made different for each region, it is desirable to narrow the pruning condition by narrowing the beam width in the region where the total number of patterns is smaller. In the illustrated example, the total number of patterns branched from the first region is 7, the total number of patterns branched from the second region is 3, and the total number of patterns branched from the third region is 4. Therefore, the beam width and the maximum allowable number of hypotheses are first region> third region> second region, and the pruning condition of the second region becomes the strictest.

(3)図8に示したように、探索空間を木構造辞書の根の種類(ここでは、単語先頭の音素)に基づいて複数の領域に分割する。このとき、領域ごとに枝刈り条件を異ならせるのであれば、各グループを同一領域としてグループごとにビーム幅を設定することが望ましい。このような分割方法は、木構造辞書の根の内容に応じて、その後に分岐するパタン総数が特異的であるような場合に有効である。   (3) As shown in FIG. 8, the search space is divided into a plurality of regions based on the root type of the tree structure dictionary (here, the phonemes at the beginning of words). At this time, if the pruning condition is varied for each region, it is desirable to set the beam width for each group with each group as the same region. Such a dividing method is effective when the total number of patterns branched thereafter is specific according to the content of the root of the tree structure dictionary.

本発明の概要を説明するための木構造辞書の一例を示した図である。It is the figure which showed an example of the tree structure dictionary for demonstrating the outline | summary of this invention. 本発明を適用した音声認識装置の主要部の構成を示したブロック図であるIt is the block diagram which showed the structure of the principal part of the speech recognition apparatus to which this invention is applied. 図2に示した探索部の機能ブロック図である。It is a functional block diagram of the search part shown in FIG. 本発明を適用した音声認識の手順を示したフローチャートである。It is the flowchart which showed the procedure of the speech recognition to which this invention is applied. 領域別枝刈り処理の手順を示したフローチャートである。It is the flowchart which showed the procedure of the pruning process according to area | region. 本発明の変形例(その1)を説明するための図である。It is a figure for demonstrating the modification (the 1) of this invention. 本発明の変形例(その2)を説明するための図である。It is a figure for demonstrating the modification (the 2) of this invention. 本発明の変形例(その3)を説明するための図である。It is a figure for demonstrating the modification (the 3) of this invention. 文法の一例を示した図である。It is the figure which showed an example of grammar. 木構造辞書の一例を示した図である。It is the figure which showed an example of the tree structure dictionary. 自己遷移とL-R遷移との空間(トレリス)の一例を示した図である。It is the figure which showed an example of the space (trellis) of a self transition and LR transition.

符号の説明Explanation of symbols

11…音声信号入力部,12…音響分析部,13…パラメータ記憶部,14…探索データベース,15…探索部,16…認識結果判定部,151…尤度計算部,152…自己遷移部,153…LR遷移部,154…枝刈り部,154a…領域分割部,154b…状態仮説振り分け部,154c…枝刈り条件設定部,154d…領域別枝刈り部,155…単語仮説出力部
DESCRIPTION OF SYMBOLS 11 ... Audio | voice signal input part, 12 ... Acoustic analysis part, 13 ... Parameter memory | storage part, 14 ... Search database, 15 ... Search part, 16 ... Recognition result determination part, 151 ... Likelihood calculation part, 152 ... Self-transition part, 153 LR transition unit 154 Pruning unit 154a Area dividing unit 154b State hypothesis sorting unit 154c Pruning condition setting unit 154d Area pruning unit 155 Word hypothesis output unit

Claims (7)

入力信号から抽出された特徴パラメータと、認識パタンが木構造で表現された確率的な状態遷移モデルとを照合し、前記特徴パラメータに対する確率モデルの各状態の尤度を計算しながら状態仮説を遷移させ、最尤な状態遷移パスを認識パタンとするパタン認識装置において、
入力信号の特徴パラメータに基づいて、前記状態遷移モデルの探索空間で尤度計算を実行する探索手段と、
前記探索空間を仮想的に、単語が確定される単語確定領域および単語が確定されない単語未確定領域に分割する領域分割手段と、
同一時刻で遷移する状態仮説を前記分割された領域のいずれかに振り分ける状態仮説振分手段と、
前記分割された領域ごとに、同一領域内で尤度の低い状態仮説を探索対象から除外する領域別枝刈り手段とを含むことを特徴とするパタン認識装置。
The feature parameters extracted from the input signal are compared with the probabilistic state transition model whose recognition pattern is expressed in a tree structure, and the state hypothesis is changed while calculating the likelihood of each state of the probability model for the feature parameter. In the pattern recognition device that uses the most likely state transition path as a recognition pattern,
Search means for performing likelihood calculation in a search space of the state transition model based on a feature parameter of an input signal;
A region dividing means for virtually dividing the search space into a word determination region where a word is fixed and a word unconfirmed region where the word is not fixed ;
State hypothesis allocating means for allocating the state hypothesis that transitions at the same time to any of the divided regions;
A pattern recognition apparatus, comprising: a pruning unit for each region that excludes, from the search target, a state hypothesis having a low likelihood in the same region for each of the divided regions.
前記分割された領域ごとに枝刈り条件を設定する枝刈り条件設定手段をさらに含むことを特徴とする請求項1に記載のパタン認識装置。   The pattern recognition apparatus according to claim 1, further comprising a pruning condition setting unit that sets a pruning condition for each of the divided areas. 前記枝刈り条件設定手段は、前記単語確定領域の枝刈り条件を前記単語未確定領域の枝刈り条件よりも厳しくすることを特徴とする請求項に記載のパタン認識装置。 The pruning condition setting means, a pattern recognition apparatus according pruning conditions of the word fixing region to claim 2, characterized in that stricter than pruning conditions of said word undetermined area. 音声信号からフレーム単位で音響特徴パラメータを抽出する音響分析手段をさらに含み、
前記音響特徴パラメータに基づいて音声認識を行うことを特徴とする請求項1ないしのいずれかに記載のパタン認識装置。
Acoustic analysis means for extracting acoustic feature parameters from the audio signal in units of frames;
Pattern recognition apparatus according to any one of claims 1 to 3, characterized in that the speech recognition based on the acoustic feature parameter.
コンピュータが、入力信号から抽出された特徴パラメータと、認識モデルが木構造で表現された確率的な状態遷移モデルとを照合し、前記特徴パラメータに対する確率モデルの各状態の尤度を計算しながら状態仮説を遷移させ、最尤な状態遷移パスを認識パタンとするパタン認識方法において、
コンピュータが、入力信号の特徴パラメータに基づいて、前記状態遷移モデルの探索空間で尤度計算を実行する手順と、
コンピュータが、前記探索空間を仮想的に、単語が確定される単語確定領域および単語が確定されない単語未確定領域に分割する手順と、
コンピュータが、同一時刻で遷移する状態仮説を前記いずれかの領域に振り分ける手順と、
コンピュータが、前記分割された領域ごとに、同一領域内で尤度の低い状態仮説を探索対象から除外する領域枝刈り手順とを含むことを特徴とするパタン認識方法。
The computer collates the feature parameter extracted from the input signal with a probabilistic state transition model in which the recognition model is expressed in a tree structure, and calculates the likelihood of each state of the probability model with respect to the feature parameter In a pattern recognition method in which a hypothesis is transitioned and the most likely state transition path is a recognition pattern,
A computer executing likelihood calculation in a search space of the state transition model based on a feature parameter of an input signal;
The computer virtually divides the search space into a word determination area where a word is fixed and a word undetermined area where a word is not fixed ;
A procedure in which the computer distributes the state hypothesis that transitions at the same time to any one of the areas;
A pattern recognition method , wherein the computer includes a region pruning procedure for excluding a state hypothesis having a low likelihood in the same region from a search target for each of the divided regions.
前記請求項に記載のパタン認識方法を、コンピュータに実行させるためのパタン認識プログラム。 A pattern recognition program for causing a computer to execute the pattern recognition method according to claim 5 . 前記請求項に記載したパタン認識プログラムをコンピュータが読み取り可能に記憶した記録媒体。 A recording medium in which the pattern recognition program according to claim 6 is stored so as to be readable by a computer.
JP2007262250A 2007-10-05 2007-10-05 Pattern recognition method and apparatus, pattern recognition program and recording medium therefor Expired - Fee Related JP5008078B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007262250A JP5008078B2 (en) 2007-10-05 2007-10-05 Pattern recognition method and apparatus, pattern recognition program and recording medium therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007262250A JP5008078B2 (en) 2007-10-05 2007-10-05 Pattern recognition method and apparatus, pattern recognition program and recording medium therefor

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2011168321A Division JP5309343B2 (en) 2011-08-01 2011-08-01 Pattern recognition method and apparatus, pattern recognition program and recording medium therefor

Publications (2)

Publication Number Publication Date
JP2009092844A JP2009092844A (en) 2009-04-30
JP5008078B2 true JP5008078B2 (en) 2012-08-22

Family

ID=40664913

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007262250A Expired - Fee Related JP5008078B2 (en) 2007-10-05 2007-10-05 Pattern recognition method and apparatus, pattern recognition program and recording medium therefor

Country Status (1)

Country Link
JP (1) JP5008078B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10572538B2 (en) 2015-04-28 2020-02-25 Kabushiki Kaisha Toshiba Lattice finalization device, pattern recognition device, lattice finalization method, and computer program product

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6014519B2 (en) * 2013-03-06 2016-10-25 Kddi株式会社 Search device in probabilistic finite state transition model

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248980A (en) * 1995-03-06 1996-09-27 Fuji Xerox Co Ltd Voice recognition device
JP4289715B2 (en) * 1999-04-02 2009-07-01 キヤノン株式会社 Speech recognition apparatus, speech recognition method, and tree structure dictionary creation method used in the method
JP2001312293A (en) * 2000-04-28 2001-11-09 Matsushita Electric Ind Co Ltd Method and device for voice recognition, and computer- readable storage medium
JP4521631B2 (en) * 2004-03-16 2010-08-11 株式会社国際電気通信基礎技術研究所 Storage medium recording tree structure dictionary and language score table creation program for tree structure dictionary
CN100592387C (en) * 2004-07-15 2010-02-24 日本电信电话株式会社 Signal detecting method, signal detecting system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10572538B2 (en) 2015-04-28 2020-02-25 Kabushiki Kaisha Toshiba Lattice finalization device, pattern recognition device, lattice finalization method, and computer program product

Also Published As

Publication number Publication date
JP2009092844A (en) 2009-04-30

Similar Documents

Publication Publication Date Title
JP4757936B2 (en) Pattern recognition method and apparatus, pattern recognition program and recording medium therefor
JP4737990B2 (en) Vocabulary stress prediction
US7031915B2 (en) Assisted speech recognition by dual search acceleration technique
US20100100379A1 (en) Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method
US20030088416A1 (en) HMM-based text-to-phoneme parser and method for training same
JP5309343B2 (en) Pattern recognition method and apparatus, pattern recognition program and recording medium therefor
WO2009139230A1 (en) Language model score lookahead value imparting device and method for the same, and program recording medium
JPH10153999A (en) Voice recognizing device
CN112951211B (en) Voice awakening method and device
US20040148169A1 (en) Speech recognition with shadow modeling
US20040158464A1 (en) System and method for priority queue searches from multiple bottom-up detected starting points
US20040158468A1 (en) Speech recognition with soft pruning
JP5008078B2 (en) Pattern recognition method and apparatus, pattern recognition program and recording medium therefor
JP2003208195A5 (en)
JP6026224B2 (en) Pattern recognition method and apparatus, pattern recognition program and recording medium therefor
CN110992939B (en) Language model training method, decoding method, device, storage medium and equipment
JPH09134192A (en) Statistical language model forming device and speech recognition device
US20040148163A1 (en) System and method for utilizing an anchor to reduce memory requirements for speech recognition
JP4748605B2 (en) Voice recognition method and apparatus, voice recognition program and recording medium therefor
JP4705535B2 (en) Acoustic model creation device, speech recognition device, and acoustic model creation program
Gopalakrishnan et al. Fast match techniques
JP4883717B2 (en) Voice recognition method and apparatus, voice recognition program and recording medium therefor
KR100981540B1 (en) Speech recognition method of processing silence model in a continous speech recognition system
JP2000075885A (en) Voice recognition device
KR102182408B1 (en) Apparatus and method for generating speech recognition units consider morphological pronunciation variation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110801

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120502

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120524

R150 Certificate of patent or registration of utility model

Ref document number: 5008078

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150608

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees