JPH05257491A - Voice recognizing system - Google Patents

Voice recognizing system

Info

Publication number
JPH05257491A
JPH05257491A JP4054711A JP5471192A JPH05257491A JP H05257491 A JPH05257491 A JP H05257491A JP 4054711 A JP4054711 A JP 4054711A JP 5471192 A JP5471192 A JP 5471192A JP H05257491 A JPH05257491 A JP H05257491A
Authority
JP
Japan
Prior art keywords
probability
symbol sequence
hmm
words
hidden markov
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4054711A
Other languages
Japanese (ja)
Inventor
Hiroshi Matsuura
博 松浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP4054711A priority Critical patent/JPH05257491A/en
Publication of JPH05257491A publication Critical patent/JPH05257491A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To obtain a system for recognizing a voice at a high speed without dropping accuracy. CONSTITUTION:An input voice is analyzed by a voice analyzing part 1, an analyzed feature parameter is applied to a conversion part 3 and a symbol sequence is found out by using a symbol recognizing dictionary 2. The symbol sequence is passed through the 1st HMM recognizing part 5 in which the 1st HMM is set up, and probability of outputting of the symbol sequence by the model is found out. Plural words are extracted by an upper candidate extracting part 6 in the order of decending probability. Then, the symbol sequence is passed through the 2nd HMM recognizing part 8 in which the 2nd HMM having more states than the 1st HMM is set up and probability of outputting of the symbol sequence by the model is found out. A word is specified based upon the probability of the recognized results.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】この発明は、発声された音声を認
識する音声認識方式に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition system for recognizing spoken voice.

【0002】[0002]

【従来の技術】音声を一定のシンボル系列に変換するベ
クトル量子化を行ない、量子化シンボル系列を隠れマル
コフモデル(以下、HMMと称する)で認識する方式
が、近年成功をおさめている。
2. Description of the Related Art A method of performing vector quantization for converting speech into a constant symbol sequence and recognizing the quantized symbol sequence by a hidden Markov model (hereinafter referred to as HMM) has been successful in recent years.

【0003】HMMの一般的定式化について述べる。H
MMではn個の状態S1 ,S2 ,…,Sn を有し、初期
状態がこれらn個の状態に確率的に分布しているとす
る。音声では、一定のフレーム周期ごとにある確率(遷
移確率)で状態を遷移するモデルが使用される。遷移の
際には、ある確率(出力確率)でシンボルを出力しない
で状態を遷移するナル遷移を導入することもある。出力
シンボル系列が与えられても、状態遷移系列は一意に決
定されない。観測できるのはシンボル系列だけであるこ
とから、隠れマルコフモデルと称されている。HMMの
モデルMは次の6つのパラメータから定義される。 n:状態数(状態S1 ,S2 ,…,Sn ) h:シンボル数(シンボルR1 ,R2 ,…,Rh ) Pij:遷移確率Si にいてSj に遷移する確率 Qij(h):Si からSj への遷移の際にシンボルhを
出力する確率 mi :初期状態確率(初期状態がSi である確率) F:最終状態の集合
A general formulation of the HMM will be described. H
It is assumed that the MM has n states S1, S2, ..., Sn, and the initial state is stochastically distributed to these n states. For speech, a model that transitions a state with a certain probability (transition probability) for each fixed frame period is used. At the time of a transition, a null transition that transitions the state without outputting a symbol with a certain probability (output probability) may be introduced. Even if the output symbol sequence is given, the state transition sequence is not uniquely determined. Since only the symbol series can be observed, it is called a hidden Markov model. The HMM model M is defined by the following six parameters. n: Number of states (states S1, S2, ..., Sn) h: Number of symbols (symbols R1, R2, ..., Rh) Pij: Probability of transition probability Si to Sj Qij (h): From Si to Sj Probability of outputting symbol h during transition mi: initial state probability (probability that initial state is Si) F: set of final states

【0004】次にモデルMに対して音声の特徴を反映し
た遷移上の制限を加える。音声では一般に状態Si から
以前に通過した状態(Si-1 ,Si-2 ,…)に戻るよう
なル−プの遷移は、時間的前後関係を乱すため許されな
い。前記のようなHMMの構造としては、図5のような
例が代表的である。HMMの評価はモデルMがシンボル
系列O=o1 ,o2 ,…,ot を出力する確率Pr (O
/M)を求める。認識時にはHMM認識部で各モデルを
仮定してPr (O/M)が最大となるようなモデルMを
ビタビアルゴリズムにより求める。また、HMMの学習
はHMM学習部にて多数のシンボル系列をOを与えて、
平均的にPr (O/M)が最大となるモデルMのパラメ
ータを推定すればよい。以上のようにして発声された入
力音声を認識処理することにより、その入力音声を高精
度に認識することが可能となる。
Next, the model M is subject to transitional restrictions that reflect the characteristics of speech. In speech, a loop transition that returns from a state Si to a previously passed state (Si-1, Si-2, ...) Is not allowed because it disturbs the temporal context. As a structure of the HMM described above, an example as shown in FIG. 5 is typical. The HMM is evaluated by the probability Pr (O) that the model M outputs the symbol series O = o1, o2, ..., Ot.
/ M). At the time of recognition, the HMM recognition unit assumes each model and obtains a model M that maximizes Pr (O / M) by the Viterbi algorithm. Also, for learning HMM, the HMM learning unit gives O to a large number of symbol sequences,
It suffices to estimate the parameter of the model M that maximizes Pr (O / M) on average. By recognizing the input voice uttered as described above, the input voice can be recognized with high accuracy.

【0005】[0005]

【発明が解決しようとする課題】前記のような従来の技
術によれば、認識の際の計算処理は単語数が200程度
になると、現在のワークステーションにおいては実時間
(発声後200〜300ms以内)では結果が得られな
い程計算量が多くなるという問題がある。この発明は前
記事情に鑑みてなされたものでその目的は、精度を落と
さずに高速に認識処理を行なう音声認識方式を提供する
ことにある。
According to the above-mentioned conventional technique, when the number of words in the calculation process for recognition reaches about 200, the current workstation is in real time (within 200 to 300 ms after utterance). In (), there is a problem that the calculation amount becomes large so that the result cannot be obtained. The present invention has been made in view of the above circumstances, and an object thereof is to provide a voice recognition system for performing recognition processing at high speed without degrading accuracy.

【0006】[0006]

【課題を解決するための手段】この発明は上記問題を解
決するために、音声信号を入力して音声分析し、特徴パ
ラメータを求める音声分析手段と、この音声分析手段に
よって求められた特徴パラメータをシンボル系列に変換
する変換手段と、このシンボル系列を、単語ごとに予め
作成された第1の隠れマルコフモデルに通し、そのモデ
ルが前記シンボル系列を出力する確率を求める第1の確
率決定手段と、この第1の確率決定手段によって求めら
れた確率をもとに、確率の大きい方から複数の単語を抽
出する上位候補抽出手段と、この上位候補抽出手段によ
って抽出された複数の単語についての、この第1の隠れ
マルコフモデルより状態数の多い、予め作成された第2
の隠れマルコフモデルにこのシンボル系列を通し、その
モデルがこのシンボル系列を出力する確率を求める第2
の確率決定手段とを設け、この第2の確率決定手段によ
って決定された確率をもとに単語を特定して音声認識を
行なうことを特徴とする。
In order to solve the above problems, the present invention provides a voice analysis means for inputting a voice signal and performing voice analysis to obtain a feature parameter, and a feature parameter obtained by the voice analysis means. Conversion means for converting into a symbol series, and a first probability determining means for passing this symbol series through a first hidden Markov model created in advance for each word, and obtaining a probability that the model outputs the symbol series, Based on the probabilities obtained by the first probability determining means, the upper candidate extracting means for extracting a plurality of words from the one with the highest probability and the plurality of words extracted by the upper candidate extracting means A second pre-created second with more states than the first Hidden Markov Model
Pass this symbol sequence to the hidden Markov model of and obtain the probability that the model outputs this symbol sequence.
The probability determining means is provided and the word is specified based on the probability determined by the second probability determining means to perform voice recognition.

【0007】またこの発明は、前記第1の確率決定手段
を、k段(kは2以上の整数)の組として構成し、各組
の、n個の単語についての、予め作成された第1の隠れ
マルコフモデルのうちの複数のモデルに前記シンボル系
列を通し、そのモデルがこのシンボル系列を出力する確
率を求める第1の確率決定手段、及びこの第1の確率決
定手段によって求められた確率をもとに、確率の大きい
方からm個(mは2≦m<nを満足する整数)の単語を
抽出する上位候補抽出手段を設ける。そして、初段の第
1の確率決定手段が、このn個の単語のそれぞれについ
ての第1の隠れマルコフモデル全てに前記シンボル系列
を通し、初段以外の前記第1の確率決定手段が、前段の
組の前記上位候補抽出手段によって抽出されたm個の単
語についての、第1の隠れマルコフモデルに前記シンボ
ル系列を通すように構成する。この第1の隠れマルコフ
モデルの状態数を後段になるほど多く、この上位候補抽
出手段によって抽出される単語の数mを後段になるほど
少なくなるようにk段の組を構成する。そして、このk
段の組の最終段の上位候補抽出手段によって抽出された
m個の単語についての、前記第1の隠れマルコフモデル
より状態数の多い、予め作成された第2の隠れマルコフ
モデルに前記シンボル系列を通し、そのモデルがこのシ
ンボル系列を出力する確率を求める第2の確率決定手段
とを設け、この第2の確率決定手段によって決定された
確率をもとに単語を特定して音声認識を行なうことを特
徴とする。
Further, according to the present invention, the first probability determining means is configured as a set of k stages (k is an integer of 2 or more), and a first preliminarily prepared for each set of n words. The first probability determining means for passing the symbol sequence through a plurality of models among the hidden Markov models of the above, and determining the probability that the model outputs this symbol sequence, and the probability determined by the first probability determining means. Initially, a high-rank candidate extraction means for extracting m words (m is an integer satisfying 2 ≦ m <n) from the highest probability is provided. Then, the first probability determining means in the first stage passes the symbol sequence to all of the first hidden Markov models for each of the n words, and the first probability determining means other than the first stage uses the preceding stage combination. The first hidden Markov model for the m words extracted by the higher-rank candidate extracting means is passed through the symbol sequence. The k-stage set is configured such that the number of states of the first hidden Markov model is increased in the subsequent stage, and the number m of words extracted by the upper candidate extracting means is decreased in the subsequent stage. And this k
The symbol sequence is applied to a second hidden Markov model created in advance, which has a larger number of states than the first hidden Markov model for the m words extracted by the higher-rank candidate extraction means in the final stage of the stage set. And a second probability determining means for determining the probability that the model outputs this symbol sequence, and performing speech recognition by specifying a word based on the probability determined by the second probability determining means. Is characterized by.

【0008】[0008]

【作用】上記の構成によれば、音声信号を入力して音声
分析して特徴パラメータを求め、この特徴パラメータを
シンボル系列に変換し、このシンボル系列を、単語ごと
に予め作成された第1の隠れマルコフモデルに通して、
そのモデルが前記シンボル系列を出力する確率を第1の
確率決定手段により決定する。この第1の確率決定手段
によって求められた確率をもとに、確率の大きい方から
複数の単語を上位候補抽出手段により抽出して、まず第
1段階として大まかな認識を行ない入力音声の単語の候
補をあげる。
According to the above configuration, a voice signal is input and voice analysis is performed to obtain a characteristic parameter, the characteristic parameter is converted into a symbol series, and the symbol series is generated in advance for each word. Through the hidden Markov model,
The first probability determining means determines the probability that the model outputs the symbol sequence. Based on the probabilities obtained by the first probability determining means, a plurality of words with the highest probability are extracted by the high-rank candidate extracting means, and first, rough recognition is performed as the first step to determine the words of the input speech. Give a candidate.

【0009】この上位候補抽出手段によって抽出された
複数の単語についての、前記第1の隠れマルコフモデル
より状態数の多い、予め作成された第2の隠れマルコフ
モデルに前記シンボル系列を通し、そのモデルが前記シ
ンボル系列を出力する確率を第2の確率決定手段によっ
て求め、決定された確率をもとに単語を特定するように
する。
For the plurality of words extracted by the upper candidate extraction means, the symbol sequence is passed through a second hidden Markov model created in advance, which has a larger number of states than the first hidden Markov model, and the model thereof is passed. The second probability determining means determines the probability that the symbol output the symbol sequence, and the word is specified based on the determined probability.

【0010】このようにして、第1段階の大まかな認識
によりあげられた単語の候補に対してのみ、状態数の多
い第2の隠れマルコフモデルによる詳細な認識を行なう
ようにして、精度を落とさずに高速に認識処理を行な
う。
In this way, the accuracy is lowered by performing detailed recognition by the second hidden Markov model having a large number of states only for the word candidates given by the rough recognition in the first stage. The recognition process is performed at high speed.

【0011】また、上記のように2段階に認識を行なう
のみならず、はじめは大まかに認識を行なって単語の候
補を抽出し、その候補についてもう少し詳細に認識を行
なって、さらに候補を絞っていき多段階に認識を行なう
こともできる。
Further, not only the recognition in two stages as described above, but at the beginning, the recognition is roughly performed to extract word candidates, and the candidates are recognized in more detail to narrow down the candidates. It is also possible to perform recognition in multiple stages.

【0012】[0012]

【実施例】以下、図面を参照してこの発明の実施例を説
明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0013】(第1実施例)図1は、この発明の第1実
施例を示す音声認識装置のブロック構成図である。図1
の音声認識装置は、音声分析部1、シンボル認識辞書
2、変換部3、第1のHMMセット部4、第1のHMM
認識部5、上位候補抽出部6、第2のHMMセット部
7、及び第2のHMM認識部8を備えている。
(First Embodiment) FIG. 1 is a block diagram of a voice recognition apparatus showing a first embodiment of the present invention. Figure 1
The speech recognition device includes a speech analysis unit 1, a symbol recognition dictionary 2, a conversion unit 3, a first HMM setting unit 4, and a first HMM.
The recognition unit 5, the high-rank candidate extraction unit 6, the second HMM setting unit 7, and the second HMM recognition unit 8 are provided.

【0014】音声分析部1は、入力音声を分析し特徴パ
ラメータを抽出する。シンボル認識辞書2は、各シンボ
ルごとに複数の標準パターンから作成された識別用辞書
である。変換部3は、音声分析部1によって抽出された
特徴パラメータと、シンボル認識辞書2に登録されてい
る所定のシンボルとのマッチング処理を行ない、シンボ
ル系列を求める。
The voice analysis unit 1 analyzes the input voice and extracts characteristic parameters. The symbol recognition dictionary 2 is an identification dictionary created from a plurality of standard patterns for each symbol. The conversion unit 3 performs a matching process between the characteristic parameter extracted by the voice analysis unit 1 and a predetermined symbol registered in the symbol recognition dictionary 2 to obtain a symbol series.

【0015】第1のHMMセット部4は、予め用意され
た例えば32単語それぞれについてのHMM(第1のH
MM)を第1のHMM認識部5にセットする。第1のH
MM認識部5は、変換部3で求められたシンボル系列を
入力し、上記セットされた各第1のHMMがこのシンボ
ル系列を出力する確率を求める処理を行なう。上位候補
抽出部6は、この処理結果の確率の大きい方から複数の
単語を抽出する。
The first HMM setting section 4 prepares an HMM (first HMM) for each of, for example, 32 words prepared in advance.
MM) is set in the first HMM recognition unit 5. First H
The MM recognizing unit 5 receives the symbol sequence obtained by the converting unit 3 and performs a process for obtaining the probability that each of the set first HMMs outputs this symbol sequence. The higher-rank candidate extraction unit 6 extracts a plurality of words from the one with the highest probability of this processing result.

【0016】第2のHMMセット部7は、予め用意され
た例えば32単語それぞれについてのHMM(第2のH
MM)を第2のHMM認識部8にセットする。第2のH
MM認識部8は、上位候補抽出部6により抽出された複
数の単語についての上記セットされた第2のHMMに変
換部3で求められたシンボル系列を通して、各HMMが
このシンボル系列を出力する確率を求め、この確率をも
とに単語を特定する。
The second HMM setting section 7 prepares an HMM (second HMM) for each of, for example, 32 words prepared in advance.
MM) is set in the second HMM recognition unit 8. Second H
The MM recognition unit 8 outputs the probability that each HMM outputs this symbol sequence through the symbol sequence obtained by the conversion unit 3 to the above-set second HMM for the plurality of words extracted by the high-rank candidate extraction unit 6. And the word is specified based on this probability.

【0017】図2に、図1の第1のHMM認識部5にセ
ットされる第1のHMMを示す。このHMMはleft
to right型で、5個の状態S1 ,S2 ,…,
S5を有し、初期状態はS1 のみとし、8msのフレー
ム周期で、ある出力確率でシンボルを出力するモデルで
ある。このシステムのHMMの、たとえば32個のモデ
ルについてのパラメータは次のようになっている。 n:状態数=5(状態S1 ,S2 ,…,S5 ) h:シンボル数=191(シンボルのそれぞれをコード
にするR=1,2,…,191) Pij:遷移確率Si にいてSj に遷移する確率 Qij(h):Si からSj への遷移の際にシンボルhを
出力する確率 また、最終確率はS5 に限定する。
FIG. 2 shows the first HMM set in the first HMM recognition unit 5 of FIG. This HMM is left
To-right type, five states S1, S2, ...,
It is a model that has S5, has only S1 as the initial state, and outputs a symbol with a certain output probability in a frame period of 8 ms. The parameters for, for example, 32 models of the HMM of this system are as follows. n: number of states = 5 (states S1, S2, ..., S5) h: number of symbols = 191 (R = 1, 2, ..., 191 which code each symbol) Pij: transition probability S i to S j Probability Qij (h): Probability of outputting the symbol h at the transition from Si to Sj Further, the final probability is limited to S5.

【0018】図3に、図1の第2のHMM認識部8にセ
ットされる第2のHMMを示す。このHMMはleft
to right型で10個の状態S1 ,S2 ,…,
S10を有し、初期状態はS1 のみとし、8msのフレー
ム周期で、一定の遷移確率で状態を遷移する。その遷移
の際に、一定の出力確率でシンボルを出力するモデルで
ある。この実施例におけるシステムのHMMの32個の
モデルについてのパラメータは次のようになっている。 n:状態数=10(状態S1 ,S2 ,…,S10) h:シンボル数=191(シンボルのそれぞれをコード
にするR=1,2,…,191) Pij:遷移確率Si にいてSj に遷移する確率 Qij(h):Si からSj への遷移の際にシンボルhを
出力する確率 また、最終確率はS10に限定する。 次に、図1の構成による音声認識処理について説明す
る。
FIG. 3 shows a second HMM set in the second HMM recognizing unit 8 in FIG. This HMM is left
10 states of to right type S1, S2, ...,
It has S10, the initial state is only S1, and the state is transited with a constant transition probability in a frame period of 8 ms. It is a model that outputs a symbol with a constant output probability at the time of the transition. The parameters for the 32 HMM models of the system in this example are as follows: n: number of states = 10 (states S1, S2, ..., S10) h: number of symbols = 191 (R = 1, 2, ..., 191 which code each of the symbols) Pij: transition probability S i to S j Probability Qij (h): Probability of outputting the symbol h at the transition from Si to Sj Further, the final probability is limited to S10. Next, the voice recognition processing with the configuration of FIG. 1 will be described.

【0019】音声が入力されると音声分析部1におい
て、たとえば、線形予測法(LPC)あるいはバンドパ
スフィルタ(BPF)により分析を行ない特徴パラメー
タを抽出する。変換部3は、この分析・抽出された特徴
パラメータを、シンボル認識辞書2に登録されている各
シンボルごとの標準パタ−ンとマッチング処理を行な
い、シンボル系列を求める。
When a voice is input, the voice analysis unit 1 analyzes it by, for example, a linear prediction method (LPC) or a bandpass filter (BPF) and extracts a characteristic parameter. The conversion unit 3 performs a matching process on the analyzed and extracted characteristic parameters with the standard pattern for each symbol registered in the symbol recognition dictionary 2 to obtain a symbol sequence.

【0020】第1のHMMセット部4には、図2に示す
第1のHMMを所定の32単語について予め学習し蓄積
しておき、このHMMを第1のHMM認識部5にセット
する。入力された音声に対し求められたシンボル系列
を、第1のHMM認識部5においてこの第1のHMMに
通し、上位候補抽出部6にて、これを出力する確率Pr
(O/M)を求め、この確率が1位から5位までになる
ようなHMMを求める。
The first HMM setting unit 4 learns and accumulates the first HMM shown in FIG. 2 for predetermined 32 words in advance, and sets this HMM in the first HMM recognition unit 5. The symbol sequence obtained for the input speech is passed through the first HMM in the first HMM recognition unit 5 and the probability Pr of outputting it through the upper candidate extraction unit 6
(O / M) is calculated, and an HMM is calculated so that this probability is from the 1st place to the 5th place.

【0021】第2のHMMセット部7には、図3に示す
前記第1のHMMより状態数を多くした所定の32単語
について第2のHMMを予め学習し蓄積しておき、この
HMMを第2のHMM認識部8にセットする。第2のH
MM認識部8において前述のシンボル系列を、上位候補
抽出部6で得られた1位から5位までの5個の単語の第
2のHMMに通して、これを出力する確率Pr (O/
M)を求め、この確率が最大となる単語を認識結果とす
る。
The second HMM setting unit 7 preliminarily learns and accumulates the second HMM for a predetermined 32 words having a larger number of states than the first HMM shown in FIG. 2 is set in the HMM recognition unit 8. Second H
In the MM recognition unit 8, the above-mentioned symbol sequence is passed through the second HMM of the five words from the first place to the fifth place obtained by the high-rank candidate extraction unit 6, and the probability Pr (O / O /
M) is obtained, and the word having the highest probability is used as the recognition result.

【0022】ところで、認識処理においては、HMMの
状態数を多くすればする程、そのHMMにシンボル系列
を通して確率を求めて行なった認識結果の精度は高くな
るが、認識処理に必要とする時間が長くなる。状態数が
少ない場合には、認識結果の精度は低くなるが認識処理
に必要とする時間は短くてすむ。
In the recognition process, as the number of states of the HMM increases, the accuracy of the recognition result obtained by obtaining the probability through the HMM symbol sequence increases, but the time required for the recognition process increases. become longer. When the number of states is small, the accuracy of the recognition result is low, but the time required for the recognition process is short.

【0023】そこで、この実施例においては認識処理を
2段階に行ない、1段階目で入力音声のシンボル系列を
32単語についての状態数5のHMMに通し、これを出
力する確率を求めて、この確率の大きい方から5個のH
MMを求める。
Therefore, in this embodiment, the recognition process is performed in two steps, and in the first step, the symbol sequence of the input voice is passed through the HMM having the number of states of 5 for 32 words, and the probability of outputting this is obtained, 5 Hs from the highest probability
Find MM.

【0024】次に2段階目では、32単語についての状
態数10のHMMを用意しておき、入力音声のシンボル
系列を1段階目で求められた確率の大きい方から5個の
単語のHMMに通し、この確率が最大となる単語を認識
結果とする。
Next, in the second step, an HMM having a number of states of 10 for 32 words is prepared, and the symbol sequence of the input voice is converted into an HMM of five words from the one having the highest probability obtained in the first step. Throughout, the word with the highest probability is used as the recognition result.

【0025】上述の認識処理時間の具体例を示すと、た
とえば、認識処理を2段階に行なわない従来方式では、
32単語についてHMMの状態数10で認識処理を行な
い確率が最大となる単語を認識結果とすると、約60m
sで処理が行なわれる。
To give a concrete example of the above-mentioned recognition processing time, for example, in the conventional system in which the recognition processing is not performed in two stages,
If the recognition result is the word that has the maximum probability of performing recognition processing for the 32 words with the HMM state number 10, it is about 60 m.
Processing is performed at s.

【0026】一方これに対し、認識処理を2段階に行な
う本実施例では、まず、1段階目の処理、即ちHMMの
状態数を5として認識処理を行ない、確率の大きい方か
ら5個の単語を抽出する処理は約30msで行なわれ
る。次に、2段階目の処理、即ち1段階目の処理で抽出
された5個の単語に対してHMMの状態数を10として
認識を行ない、確率が最大となる単語を認識結果とする
処理は、10msで行なわれる。したがって、本実施例
によれば従来方式に比べて約1/3の時間が短縮され
る。しかも、試験を行なった結果、最終的な誤りは1つ
も増加しなかった。
On the other hand, in the present embodiment in which the recognition process is performed in two stages, first, the process of the first stage, that is, the recognition process is performed with the number of HMM states being 5, and the five words with the highest probability are selected. Is extracted in about 30 ms. Next, the process of the second stage, that is, the process of recognizing the five words extracted in the process of the first stage with the HMM state number as 10 and recognizing the word with the highest probability as the recognition result, It is performed in 10 ms. Therefore, according to this embodiment, the time is reduced by about 1/3 as compared with the conventional method. Moreover, as a result of the test, no final error was increased.

【0027】(第2実施例)前記第1実施例において
は、第1のHMM認識部5および第2のHMM認識部8
の2つの確率決定手段を使用して2段階に処理を行ない
単語を特定したが、以下に述べる第2実施例のように3
段階以上の処理で単語を特定することもできる。
(Second Embodiment) In the first embodiment, the first HMM recognition unit 5 and the second HMM recognition unit 8 are used.
The word was specified by performing the processing in two stages by using the two probability determining means of the above. However, as in the second embodiment described below, 3
It is also possible to specify a word by performing processing in steps or more.

【0028】図4は、この第2実施例を示す音声認識装
置のブロック構成図であり、図1と同一部分には同一符
号を付してある。図4の音声認識装置は、図1の音声認
識装置と同様に音声分析部1、シンボル認識辞書2、変
換部3、第2のHMMセット部7及び第2のHMM認識
部8を備える他、図1の第1のHMMセット部4、第1
のHMM認識部5及び上位候補抽出部6に代えて、直列
多段接続されるk段の第1のHMMセット部4-i、第1
のHMM認識部5-i、上位候補抽出手段6-iの組(i =
1〜k)を備えている。
FIG. 4 is a block diagram of a voice recognition apparatus showing the second embodiment, and the same parts as those in FIG. 1 are designated by the same reference numerals. The voice recognition device of FIG. 4 includes a voice analysis unit 1, a symbol recognition dictionary 2, a conversion unit 3, a second HMM setting unit 7, and a second HMM recognition unit 8 as in the voice recognition device of FIG. The first HMM setting unit 4 of FIG. 1, the first
Instead of the HMM recognizing unit 5 and the higher-rank candidate extracting unit 6, the k-stage first HMM setting unit 4-i connected in series multi-stage, the first
HMM recognition unit 5-i and higher-rank candidate extraction means 6-i (i =
1-k).

【0029】この相違点についてのみ構成を説明する。
第1のHMMセット部4-iは、第1のHMM認識部5-i
に予め用意された例えば32単語それぞれについてのH
MM(第1のHMM)をセットする。初段の第1のHM
M認識部5-1は、変換部3で求められたシンボル系列を
入力し、32単語それぞれについての各第1のHMMが
このシンボル系列を出力する確率を求める。上位候補抽
出部6-1は、第1のHMM認識部5-1の処理結果の確率
の大きい方からm1 個(m1 は2≦m1 <32を満足す
る整数)の単語を抽出する。2段目以降のHMM認識部
5-j(j =2〜k)は、前段の上位候補抽出部6-(j-1)
により抽出されたm(j-1) 個の単語についての各第1の
HMMがこのシンボル系列を出力する確率を求める。そ
して、上位候補抽出部6-jは、第1のHMM認識部5-j
の処理結果の確率の大きい方からmj 個(mj は2≦m
j <32及びmj <m(j-1) を満足する整数)の単語を
抽出する。ここで、第1のHMMの状態数は後段になる
ほど多くなるように設定される。次に、図4の構成によ
る音声認識処理について説明する。音声分析部1、シン
ボル認識辞書2、変換部3までの処理は、第1実施例と
同じである。
The configuration will be described only with respect to this difference.
The first HMM setting unit 4-i is the first HMM recognition unit 5-i.
For example, H for each of 32 words prepared in advance
Set MM (first HMM). First-stage 1st HM
The M recognizing unit 5-1 receives the symbol sequence obtained by the converting unit 3 and obtains the probability that each first HMM for each of 32 words outputs this symbol sequence. The upper candidate extraction unit 6-1 extracts m1 words (m1 is an integer satisfying 2≤m1 <32) from the one with the highest probability of the processing result of the first HMM recognition unit 5-1. The HMM recognition unit 5-j (j = 2 to k) in the second and subsequent stages is the upper candidate extraction unit 6- (j-1) in the previous stage.
The probability that each first HMM for m (j-1) words extracted by is output this symbol sequence is obtained. Then, the higher-rank candidate extraction unit 6-j receives the first HMM recognition unit 5-j.
Mj pieces (mj is 2 ≦ m
The words of j <32 and mj <m (j-1) are extracted. Here, the number of states of the first HMM is set to increase in the subsequent stages. Next, the voice recognition processing with the configuration of FIG. 4 will be described. The processes up to the voice analysis unit 1, the symbol recognition dictionary 2, and the conversion unit 3 are the same as those in the first embodiment.

【0030】第1のHMMセット部4-1には第1のHM
Mを所定の32単語について予め学習しておき、このH
MMを第1のHMM認識部5-1にセットする。前記変換
部3で求められたシンボル系列を第1のHMM認識部5
-1においてこの第1のHMMに通し、このシンボル系列
を出力する確率を求める。上位候補抽出部6-1は、これ
を出力する確率を求め、この確率の大きい方からm1 個
(m1 は2<m1 <32を満足する整数)の単語を抽出
する。
The first HM setting unit 4-1 has a first HM.
M is learned in advance for 32 predetermined words, and this H
The MM is set in the first HMM recognition unit 5-1. The symbol sequence obtained by the conversion unit 3 is converted into the first HMM recognition unit 5
At -1, the probability of outputting this symbol sequence is obtained by passing through this first HMM. The high-rank candidate extraction unit 6-1 obtains the probability of outputting this, and extracts m1 words (m1 is an integer satisfying 2 <m1 <32) from the highest probability.

【0031】2段目以降の第1のHMMセット部4-j
(j は2≦j ≦kの整数)には、各々前段の第1のHM
Mセット部4-(j-1)のHMMよりも状態数を多くした所
定の32単語についてのHMMを予め学習しておき、こ
のHMMを第1のHMM認識部5-jにセットする。そし
てHMM認識部5-jにおいて、前段の上位候補抽出部6
-(j-1)により抽出されたm(j-1) 個の単語についての上
記の第1のHMMがシンボル系列を出力する確率を求め
る。この上位候補抽出部6-jは、処理結果の確率の大き
い方からmj 個の単語を抽出する。ここで、上位候補抽
出部6-jにより抽出される単語の数mj は後段になるほ
ど少なくなるように設定されているので、候補となる単
語が徐々に絞られる。また、第1のHMMの状態数は後
段になるほど多く設定されているため、候補となった単
語について後段になるほどより詳細に認識処理を行なう
ことができる。この際、候補となる単語は、上記のよう
に後段になるほど少なくなるため、HMMの状態数を後
段になるほど多くしても、処理時間を減らすことができ
る。
First HMM setting unit 4-j in the second and subsequent stages
(J is an integer of 2≤j≤k), the first HM of the preceding stage
The HMM for a predetermined 32 words having a larger number of states than the HMM of the M setting unit 4- (j-1) is learned in advance, and this HMM is set in the first HMM recognition unit 5-j. Then, in the HMM recognition unit 5-j, the upper-rank candidate extraction unit 6 in the preceding stage
The probability that the above first HMM outputs the symbol sequence for m (j-1) words extracted by-(j-1) is obtained. The high-rank candidate extraction unit 6-j extracts mj words from the one with the highest probability of the processing result. Here, since the number mj of words extracted by the higher-rank candidate extraction unit 6-j is set to be smaller in the subsequent stage, the candidate words are gradually narrowed down. Further, since the number of states of the first HMM is set to be larger in the latter stage, the recognition process can be performed in more detail in the latter stage for the candidate word. At this time, the number of candidate words decreases as the latter stage as described above, and therefore the processing time can be reduced even if the number of HMM states increases as the latter stage.

【0032】第2のHMMセット部7には、前記第1の
HMMより状態数を多くした所定の32単語について第
2のHMMを予め学習し蓄積しておき、このHMMを第
2のHMM認識部8にセットする。第2のHMM認識部
8において前述のシンボル系列を、k段目(最終段)の
上位候補抽出部6-kで得られたmk 個の単語についての
第2のHMMに通してこれを出力する確率を求め、この
確率が最大となる単語を認識結果とする。なお、前記実
施例においては、離散型HMMで説明したが、連続型H
MMによっても同様に実施される。
The second HMM setting unit 7 preliminarily learns and accumulates the second HMM for a predetermined 32 words having a larger number of states than the first HMM, and recognizes this HMM as the second HMM recognition. Set in part 8. In the second HMM recognition unit 8, the above-mentioned symbol sequence is passed through the second HMM for the mk words obtained by the k-th (final stage) higher-rank candidate extraction unit 6-k and is output. The probability is calculated, and the word having the highest probability is used as the recognition result. Although the discrete HMM has been described in the above embodiment, the continuous HMM is used.
The same is performed by the MM.

【0033】[0033]

【発明の効果】以上詳記したようにこの発明によれば、
まず最初に状態数の少ない隠れマルコフモデル(第1の
隠れマルコフモデル)により、認識しようとする入力音
声の特徴パラメータから得られたシンボル系列を出力す
る確率(第1の確率)を求めて、この確率の大きい方か
ら複数の単語を抽出(上位候補抽出)して大まかに候補
を選ぶことにより大分類を行ない、次に前記隠れマルコ
フモデルよりも状態数の多い隠れマルコフモデル(第2
の隠れマルコフモデル)により、前記抽出された確率の
大きい方から複数の単語に対し、シンボル系列を出力す
る確率(第2の確率)を求めて、この確率をもとに入力
音声の単語を特定する構成とすることにより、精度を落
とさずに高速に認識処理を行なうことができる。
As described above in detail, according to the present invention,
First, a hidden Markov model with a small number of states (first hidden Markov model) is used to obtain the probability (first probability) of outputting the symbol sequence obtained from the feature parameter of the input speech to be recognized, A large classification is performed by extracting a plurality of words (extracting upper candidates) from the one with a higher probability and roughly selecting the candidate, and then a hidden Markov model having a larger number of states than the hidden Markov model (second
Hidden Markov model), the probability of outputting a symbol sequence (second probability) is calculated for a plurality of words from the one with the highest extracted probability, and the word of the input speech is identified based on this probability. With this configuration, the recognition processing can be performed at high speed without lowering the accuracy.

【0034】さらにこの発明によれば、上記第1の確率
を求めるにあたり、後段になるほど状態数の多い第1の
隠れマルコフモデルを多段に有して、各段において前段
の第1の隠れマルコフモデルにより抽出(上位候補抽
出)された確率の大きい方から複数の単語(前段で抽出
したよりも少ない数とする、ただし初段においては全入
力音声の単語)に対し、シンボル系列を出力する確率を
多段階に求める構成とすることにより、認識対象単語の
数が多い場合には、精度を落とさずにさらに高速に認識
処理を行なうことができる。
Further, according to the present invention, in obtaining the above-mentioned first probability, the first hidden Markov model having a larger number of states in the subsequent stages is provided in multiple stages, and the first hidden Markov model in the preceding stage is provided in each stage. The higher the probability of outputting the symbol sequence to the multiple words (the number of words is smaller than that extracted in the previous stage, but in the first stage all input speech words) from the one with the highest probability of being extracted by With the configuration obtained in stages, when the number of recognition target words is large, the recognition processing can be performed at a higher speed without lowering the accuracy.

【図面の簡単な説明】[Brief description of drawings]

【図1】この発明を適用する音声認識装置の第1実施例
を示すブロック構成図。
FIG. 1 is a block configuration diagram showing a first embodiment of a voice recognition device to which the present invention is applied.

【図2】図1の第1のHMM認識部5にセットされるH
MMを示す図。
FIG. 2 is an H set in the first HMM recognition unit 5 of FIG.
The figure which shows MM.

【図3】図1の第2のHMM認識部8にセットされるH
MMを示す図。
3 is an H set in a second HMM recognition unit 8 in FIG.
The figure which shows MM.

【図4】この発明を適用する音声認識装置の第2実施例
を示すブロック構成図。
FIG. 4 is a block diagram showing a second embodiment of a voice recognition device to which the invention is applied.

【図5】一般的なHMMを示す図。FIG. 5 is a diagram showing a general HMM.

【符号の説明】 1…音声分析部、2…シンボル認識辞書、3…変換部、
4,4-1〜4-k…第1のHMMセット部、5,5-1〜5
-k…第1のHMM認識部(第1の確率決定手段)、6,
6-1〜6-k…上位候補抽出部、7…第2のHMMセット
部、8…第2のHMM認識部(第2の確率決定手段)。
[Explanation of Codes] 1 ... Speech analysis unit, 2 ... Symbol recognition dictionary, 3 ... Conversion unit,
4, 4-1 to 4-k ... First HMM setting unit, 5, 5-1 to 5
-k ... 1st HMM recognition part (1st probability determination means), 6,
6-1 to 6-k ... High-rank candidate extraction unit, 7 ... Second HMM setting unit, 8 ... Second HMM recognition unit (second probability determining means).

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 音声信号を入力して音声分析し、特徴パ
ラメータを求める音声分析手段と、 この音声分析手段によって求められた特徴パラメータを
シンボル系列に変換する変換手段と、 前記シンボル系列を、単語ごとに予め作成された第1の
隠れマルコフモデルに通し、そのモデルが前記シンボル
系列を出力する確率を求める第1の確率決定手段と、 この第1の確率決定手段によって求められた確率をもと
に、確率の大きい方から複数の単語を抽出する上位候補
抽出手段と、 この上位候補抽出手段によって抽出された複数の単語に
ついての、前記第1の隠れマルコフモデルより状態数の
多い、予め作成された第2の隠れマルコフモデルに前記
シンボル系列を通し、そのモデルが前記シンボル系列を
出力する確率を求める第2の確率決定手段とを具備し、 前記第2の確率決定手段によって決定された確率をもと
に単語を特定するようにしたことを特徴とする音声認識
方式。
1. A voice analysis unit for inputting a voice signal and performing voice analysis to obtain a characteristic parameter, a conversion unit for converting the characteristic parameter obtained by the voice analysis unit into a symbol sequence, and the symbol sequence as a word. A first hidden Markov model that is created in advance for each model, and a first probability determining unit that obtains a probability that the model outputs the symbol sequence; and a probability that is obtained by the first probability determining unit. In addition, a higher-rank candidate extraction means for extracting a plurality of words from the one having a higher probability, and a plurality of states of the plurality of words extracted by the higher-rank candidate extraction means, which have more states than the first hidden Markov model, are created in advance. Second probability determining means that passes the symbol sequence through a second hidden Markov model and obtains the probability that the model outputs the symbol sequence Comprising a speech recognition system, characterized in that the probability determined by the second probability determination unit configured to identify words based.
【請求項2】 音声信号を入力して音声分析し、特徴パ
ラメータを求める音声分析手段と、 この音声分析手段によって求められた特徴パラメータを
シンボル系列に変換する変換手段と、 k段(kは2以上の整数)の組であって、各組が、n個
の単語のそれぞれについて予め作成された第1の隠れマ
ルコフモデルのうちの複数のモデルに前記シンボル系列
を通し、そのモデルが前記シンボル系列を出力する確率
を求める第1の確率決定手段、及びこの第1の確率決定
手段によって求められた確率をもとに、確率の大きい方
からm個(mは2≦m<nを満足する整数)の単語を抽
出する上位候補抽出手段を有し、初段の前記第1の確率
決定手段が、前記n個の単語のそれぞれについての第1
の隠れマルコフモデル全てに前記シンボル系列を通し、
初段以外の前記第1の確率決定手段が、前段の組の前記
上位候補抽出手段によって抽出されたm個の単語につい
ての、前記第1の隠れマルコフモデルに前記シンボル系
列を通すように構成され、前記第1の隠れマルコフモデ
ルの状態数が後段になるほど多くなり、前記上位候補抽
出手段によって抽出される単語の数mが後段になるほど
少なくなるように構成されたk段の組と、 前記k段の組の最終段の前記上位候補抽出手段によって
抽出されたm個の単語についての、前記第1の隠れマル
コフモデルより状態数の多い、予め作成された第2の隠
れマルコフモデルに前記シンボル系列を通し、そのモデ
ルが前記シンボル系列を出力する確率を求める第2の確
率決定手段とを具備し、 前記第2の確率決定手段によって決定された確率をもと
に単語を特定するようにしたことを特徴とする音声認識
方式。
2. A voice analysis means for inputting a voice signal and performing voice analysis to obtain a characteristic parameter, a conversion means for converting the characteristic parameter obtained by the voice analysis means into a symbol sequence, and k stages (k is 2). The above integer sequence), each set passes the symbol sequence through a plurality of models of the first hidden Markov model created in advance for each of the n words, and the model is the symbol sequence. Based on the probabilities obtained by the first probability determining means and the probability obtained by the first probability determining means, and m probabilities from the larger probability (m is an integer satisfying 2 ≦ m <n ), The first probability determining means at the first stage has a first candidate for each of the n words.
Pass the above symbol sequence to all hidden Markov models of
The first probability determining means other than the first stage is configured to pass the symbol sequence through the first hidden Markov model for the m words extracted by the upper candidate extracting means in the preceding set, A k-stage set configured such that the number of states of the first hidden Markov model increases as the number of states increases, and the number m of words extracted by the higher-rank candidate extraction means decreases as the number of states decreases. The second hidden Markov model having a larger number of states than the first hidden Markov model for the m words extracted by the upper candidate extraction means in the final stage of Second probability determining means for determining the probability that the model outputs the symbol sequence, and based on the probability determined by the second probability determining means. Speech recognition method being characterized in that so as to identify.
JP4054711A 1992-03-13 1992-03-13 Voice recognizing system Pending JPH05257491A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4054711A JPH05257491A (en) 1992-03-13 1992-03-13 Voice recognizing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4054711A JPH05257491A (en) 1992-03-13 1992-03-13 Voice recognizing system

Publications (1)

Publication Number Publication Date
JPH05257491A true JPH05257491A (en) 1993-10-08

Family

ID=12978391

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4054711A Pending JPH05257491A (en) 1992-03-13 1992-03-13 Voice recognizing system

Country Status (1)

Country Link
JP (1) JPH05257491A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07200742A (en) * 1993-11-23 1995-08-04 Internatl Business Mach Corp <Ibm> Handwriting recognition system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07200742A (en) * 1993-11-23 1995-08-04 Internatl Business Mach Corp <Ibm> Handwriting recognition system

Similar Documents

Publication Publication Date Title
India et al. Self multi-head attention for speaker recognition
Ney The use of a one-stage dynamic programming algorithm for connected word recognition
EP0191354B1 (en) Speech recognition method
EP0715298B1 (en) Reduction of search space in speech recognition using phone boundaries and phone ranking
EP0788090B1 (en) Transcription of speech data with segments from acoustically dissimilar environments
US4910784A (en) Low cost speech recognition system and method
JPH0422276B2 (en)
JPH0554959B2 (en)
JP3299408B2 (en) Speech recognition method and apparatus using dynamic features
US4910782A (en) Speaker verification system
US4876720A (en) Speech recognition system
US5040213A (en) Method of renewing reference pattern stored in dictionary
US20030036905A1 (en) Information detection apparatus and method, and information search apparatus and method
EP0344017B1 (en) Speech recognition system
US5704004A (en) Apparatus and method for normalizing and categorizing linear prediction code vectors using Bayesian categorization technique
US5295190A (en) Method and apparatus for speech recognition using both low-order and high-order parameter analyzation
US4860358A (en) Speech recognition arrangement with preselection
JP3403838B2 (en) Phrase boundary probability calculator and phrase boundary probability continuous speech recognizer
JPH05257491A (en) Voice recognizing system
JP2002169592A (en) Device and method for classifying and sectioning information, device and method for retrieving and extracting information, recording medium, and information retrieval system
JPS63179398A (en) Voice recognition
JPH08314490A (en) Word spotting type method and device for recognizing voice
JPH06324699A (en) Continuous speech recognizing device
JPH0997095A (en) Speech recognition device
JPH04271397A (en) Voice recognizer