JPH06175685A - Pattern recognition device and hidden markov model generating device - Google Patents

Pattern recognition device and hidden markov model generating device

Info

Publication number
JPH06175685A
JPH06175685A JP4329489A JP32948992A JPH06175685A JP H06175685 A JPH06175685 A JP H06175685A JP 4329489 A JP4329489 A JP 4329489A JP 32948992 A JP32948992 A JP 32948992A JP H06175685 A JPH06175685 A JP H06175685A
Authority
JP
Japan
Prior art keywords
hmm
learning
markov model
weighting coefficient
weighting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4329489A
Other languages
Japanese (ja)
Inventor
Junichi Nakabashi
順一 中橋
Hidekazu Tsuboka
英一 坪香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP4329489A priority Critical patent/JPH06175685A/en
Publication of JPH06175685A publication Critical patent/JPH06175685A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To simplify the constitution of the entire device and to reduce the number of arithmetic operations by beforehand computing weighting coefficient vectors and eliminating a weighting coefficient vector computing section. CONSTITUTION:The device is provided with a weighting coefficient vector storage means so as to store weighting coefficient vectors prior to the learning of a Hidden Markov Model(HMM) and to use their fixed values during a pattern recognition. Namely, a weighting vector storage section 104 stores weighting coefficients u1, u2,... UK corresponding to a first to a Kth representative vectors as fixed values independent to the frames of an input voice. Therefore, during an HMM learning, the computations of weighting coefficient vectors, which are computed sequentially, are eliminated while conducting a recognition, a voice recognition is performed by employing a smaller amount of a storage capacity, the device is simplified and the amount of computations is reduced.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明はパタン認識装置及びヒド
ゥンマルコフモデル(HMM:Hidden MarkovModel)作成
装置(以下、単にHMM作成装置という)に関し、特に音
声認識等の時系列パターンを識別するための装置に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a pattern recognition device and a Hidden Markov Model (HMM) creating device (hereinafter simply referred to as an HMM creating device), and more particularly to a device for identifying a time series pattern such as voice recognition. Regarding

【0002】本発明は一般の時系列信号に適応可能なも
のであるが、説明の便宜のために、以下、従来の技術及
び本発明については、音声認識を例に説明する。
The present invention can be applied to general time-series signals, but for convenience of explanation, the prior art and the present invention will be described below by taking speech recognition as an example.

【0003】[0003]

【従来の技術】一般に、音声認識装置は、未知の音声信
号を定められた音響特徴ベクトルの系列に変換し、その
後、前もって記憶されている識別された参照パタンを表
す音響特徴ベクトルと比較するように構成されている。
比較の結果として、未知の音声信号は、定められた認識
基準に従って最もよく適合する参照パタンとして識別さ
れる。現在、最も性能の良いとされる参照パタンは、統
計的推定に基づく状態と状態遷移との集合を利用したH
MMである。
BACKGROUND OF THE INVENTION In general, speech recognizers convert an unknown speech signal into a sequence of defined acoustic feature vectors and then compare it with a previously stored acoustic feature vector representing an identified reference pattern. Is configured.
As a result of the comparison, the unknown speech signal is identified as the best matching reference pattern according to the defined recognition criteria. Currently, the reference pattern that is considered to have the best performance is H that uses a set of states and state transitions based on statistical estimation.
It is MM.

【0004】そこで、先ず、HMMについて説明する。
HMMは、観測系列O=o1,o2,…,oTにおいて各
観測が有限の数Mのシンボル中のどれかであるような観
測系列を評価するのに用いられる。観測系列は、直接的
には観測可能でない状態遷移を持つ潜在的なマルコフ鎖
の確率的関数としてモデル化できる。図5はこのような
HMMを説明するための図である。
Therefore, first, the HMM will be described.
The HMM is used to evaluate an observation sequence such that each observation is one of a finite number M of symbols in the observation sequence O = o 1 , o 2 , ..., O T. The observation sequence can be modeled as a stochastic function of a latent Markov chain with state transitions that are not directly observable. FIG. 5 is a diagram for explaining such an HMM.

【0005】図5では、状態数N=3、有限個の出力シ
ンボルM=4を例としてある。状態1,2,3間の遷移
は状態遷移確率行列A=[aij]として表され、aij
モデルが状態iにいる場合には状態jに遷移を生ずる確
率である。モデルの出力シンボルの確率はシンボル出力
確率行列B=[bj(k)]で表され、bj(k)はモデルが状
態jに遷移した場合にシンボルkを出力する確率であ
る。HMMは、各語彙に対して1つずつ作成しておき、
各HMMから未知の観測系列を発生する確率に基づいて
観測系列を分類するために用いることができる。
In FIG. 5, the number of states N = 3 and the finite number of output symbols M = 4 are taken as an example. The transition between states 1, 2 and 3 is represented as a state transition probability matrix A = [a ij ], where a ij is the probability of transition to state j when the model is in state i. The probability of the output symbol of the model is represented by a symbol output probability matrix B = [b j (k)], and b j (k) is the probability of outputting the symbol k when the model transits to the state j. Create one HMM for each vocabulary,
It can be used to classify observation sequences based on the probability of generating an unknown observation sequence from each HMM.

【0006】未知入力に対して得られるシンボル系列を
O=o1,o2,…,oT、HMMλから発生できる長さ
Tの任意の状態系列をS=s1,s2,…,sTとすると
き、λからシンボル系列Oの発生する確率(尤度)は、
(数1)のように示される。
A symbol sequence obtained for an unknown input is O = o 1 , o 2 , ..., O T , and an arbitrary state sequence of length T that can be generated from HMMλ is S = s 1 , s 2 ,. When T , the probability (likelihood) that the symbol sequence O occurs from λ is
It is shown as (Equation 1).

【0007】[0007]

【数1】 [Equation 1]

【0008】以上は、入力xtを唯一のシンボルotに変
換するようにしたものであるが、K個の複数のシンボル
t1,ot2,…,otKに変換し(シンボルベクトルqt
(ot1,ot2,…,otK))、各々のシンボルとの荷重係
数ut1,ut2,…,utKを用いて表す方法(荷重係数ベ
クトルvt(ut1,ut2,…,utK))もあり、その場合、
未知入力はシンボルベクトル系列Q=q1,q2,…,q
Tと荷重係数ベクトル系列V=v1,v2,…,vTで表現
され、HMMλからシンボルベクトル系列の発生する確
率(尤度)は、(数2)のように示される。
In the above, the input x t is converted into a unique symbol o t , but it is converted into a plurality of K symbols o t1 , o t2 , ..., O tK (the symbol vector q t =
(o t1 , o t2 , ..., O tK )), and a method of using the weight coefficients u t1 , u t2 , ..., U tK with each symbol (weight coefficient vector v t (u t1 , u t2 , ...). , U tK )), in which case
The unknown input is a symbol vector sequence Q = q 1 , q 2 , ..., q
T and the load coefficient vector sequence V = v 1, v 2, ..., expressed in v T, the probability of occurrence of the symbol vector sequence to the HMMramuda (likelihood) is expressed as shown in equation (2).

【0009】[0009]

【数2】 [Equation 2]

【0010】各々の語彙のHMMから求まる尤度を比較
することにより認識は行われる。
Recognition is performed by comparing the likelihoods obtained from the HMMs of each vocabulary.

【0011】[0011]

【外1】 [Outer 1]

【0012】[0012]

【数3】 [Equation 3]

【0013】図6は従来のHMMを用いた音声認識装置
の構成を示すブロック図である。同図において、601は
特徴抽出部であり、入力音声信号vを線形予測コーディ
ング(LPC:Linear Predictive Coding)分析、フーリ
エ変換等の周知の方法により、一定時間間隔毎に特徴ベ
クトルの系列X=x1,x2,…xt,…,xTに変換す
る。ここで、Tは、入力音声信号vにおける特徴ベクト
ル系列の長さである。
FIG. 6 is a block diagram showing the structure of a conventional speech recognition apparatus using an HMM. In the figure, reference numeral 601 denotes a feature extraction unit, which uses a well-known method such as linear predictive coding (LPC) analysis or Fourier transform of an input speech signal v to obtain a feature vector sequence X = x at regular time intervals. 1, x 2, ... x t , ..., is converted to x T. Here, T is the length of the feature vector sequence in the input audio signal v.

【0014】602はコードブックと呼ばれるものであ
り、図7に示すように有限個Mの各シンボルを表す代表
ベクトルを保持している。即ち、各行の1カラム目にシ
ンボルを、それ以降に代表ベクトルを格納する形で、コ
ードブックの数M行で構成されている。
Reference numeral 602 is called a codebook, and holds a representative vector representing a finite number M of symbols as shown in FIG. In other words, the symbol is stored in the first column of each row, and the representative vector is stored after that in the number M rows of the codebook.

【0015】603はベクトル量子化部であり、前記特徴
ベクトルxtを前記コードブック602の最も近い順に1位
からK位の代表ベクトルのシンボルに置き換え、シンボ
ルベクトルqt=(ot1,ot2,…,otk…,otK)に変
換し、前記特徴ベクトルの系列をシンボルベクトル系列
Q=q1,q2,…,qTに変換するものである。
Reference numeral 603 denotes a vector quantizer, which replaces the feature vector x t with the symbols of the representative vectors of the 1st to Kth ranks in the closest order of the codebook 602, and symbol vectors q t = (o t1 , o t2 , ..., o tk ..., o tK ), and the sequence of the feature vectors is converted into a symbol vector sequence Q = q 1 , q 2 , ..., q T.

【0016】604は荷重係数ベクトル算出部であり、前
記特徴ベクトルxtの前記ベクトル量子化部603により選
ばれる1位からK位の代表ベクトルそれぞれに対する荷
重係数を(数4)に従い算出し、荷重係数ベクトルvt
(ut1,ut2,…,utk…,utK)を算出し、荷重係数ベ
クトル系列V=v1,v2,…,vTを算出するものであ
る。
Reference numeral 604 denotes a weighting factor vector calculating unit, which calculates a weighting factor for each of the 1st to Kth representative vectors selected by the vector quantization unit 603 of the feature vector x t according to (Equation 4), Coefficient vector v t =
(u t1 , u t2 , ..., U tk ..., U tK ), and the load coefficient vector series V = v 1 , v 2 , ..., V T is calculated.

【0017】[0017]

【数4】 [Equation 4]

【0018】[0018]

【外2】 [Outside 2]

【0019】[0019]

【外3】 [Outside 3]

【0020】[0020]

【数5】 [Equation 5]

【0021】[0021]

【外4】 [Outside 4]

【0022】[0022]

【数6】 [Equation 6]

【0023】608は尤度記憶部であり、前記尤度算出部6
07で算出された各単語の尤度を比較するため記憶する。
Reference numeral 608 denotes a likelihood storage unit, which is the likelihood calculation unit 6
It is stored to compare the likelihood of each word calculated in 07.

【0024】609は比較判定部であり、前記尤度記憶部6
08に記憶されているそれぞれのHMMに対する尤度の最
大値を与えるHMMに対応する語彙を認識結果(rec)と
して判定するものである。
Reference numeral 609 denotes a comparison / determination unit, which is the likelihood storage unit 6
The vocabulary corresponding to the HMM that gives the maximum likelihood value for each HMM stored in 08 is determined as the recognition result (rec).

【0025】前記各部606から608は各語彙のHMMにつ
き1度ずつ行い、w=1〜Wまで繰り返され、その結果を前
記比較判定部609で評価する。
The respective units 606 to 608 perform once for each HMM of each vocabulary and repeat from w = 1 to W, and the result is evaluated by the comparison and determination unit 609.

【0026】以上のようなHMMを用いた認識を行うた
めには、事前にHMMを作成しておく必要がある。これ
をHMMの学習と呼び、以下にその方法について説明す
る。
In order to perform recognition using the HMM as described above, it is necessary to create the HMM in advance. This is called HMM learning, and the method will be described below.

【0027】[0027]

【外5】 [Outside 5]

【0028】802はコードブックと呼ばれるものであ
り、有限個Mの各シンボルを表わす代表ベクトルを保持
しており、その構成は前記図7と同様である。
Reference numeral 802 is called a codebook, which holds a representative vector representing a finite number of M symbols, and its configuration is the same as that shown in FIG.

【0029】[0029]

【外6】 [Outside 6]

【0030】[0030]

【外7】 [Outside 7]

【0031】[0031]

【外8】 [Outside 8]

【0032】806はHMM一時記憶部であり、初期HM
M(A,Bは乱数、または経験値などを用いたもの)や逐
次学習を繰り返す上で学習が収束する以前の学習途上H
MMを記憶するものであり、前記状態遷移確率行列Aと
前記シンボル出力確率行列Bを記憶しておき学習が1度
終わる度に更新する。
Reference numeral 806 denotes an HMM temporary storage unit, which is an initial HM.
M (where A and B are random numbers or empirical values) and learning H before the learning converges when repeating the learning H
The MM is stored, and the state transition probability matrix A and the symbol output probability matrix B are stored and updated every time learning is completed.

【0033】[0033]

【外9】 [Outside 9]

【0034】[0034]

【外10】 [Outside 10]

【0035】[0035]

【数7】 [Equation 7]

【0036】[0036]

【外11】 [Outside 11]

【0037】810は再推定部であり、(数8)に従って状
態遷移確率aijを、(数9)に従ってシンボル出力確率b
i(m)を再推定するものである。
Reference numeral 810 denotes a re-estimation unit which calculates the state transition probability a ij according to (Equation 8) and the symbol output probability b ij according to ( Equation 9).
It re-estimates i (m).

【0038】[0038]

【数8】 [Equation 8]

【0039】[0039]

【数9】 [Equation 9]

【0040】811は学習収束確認部であり、再推定部810
における状態から学習が収束状態にあるか否かを判定
し、収束状態にあるならば収束信号yをそうでなければ
再推定命令信号nを再推定HMM記憶部812に送る。
Reference numeral 811 is a learning convergence confirmation unit, which is a re-estimation unit 810.
It is determined from the state in 1) whether the learning is in the convergent state, and if it is in the convergent state, the convergent signal y is sent, and otherwise, the re-estimation command signal n is sent to the re-estimated HMM storage unit 812.

【0041】上記再推定HMM記憶部812は、再推定さ
れたHMMを一時記憶しておき、前記学習収束確認部81
1からの信号により、収束信号yならば再推定HMMを
前記図6におけるHMM記憶部605に記憶させ、再推定
命令信号nならば前記HMM一時記憶部806に記憶させ
る。
The re-estimation HMM storage unit 812 temporarily stores the re-estimated HMM, and the learning convergence confirmation unit 81
With the signal from 1, if the convergence signal is y, the re-estimation HMM is stored in the HMM storage unit 605 in FIG. 6, and if it is the re-estimation command signal n, it is stored in the HMM temporary storage unit 806.

【0042】前記学習収束確認部811で収束信号yが得
られるまで、前記各部807から810は繰り返される。
The respective units 807 to 810 are repeated until the learning convergence confirmation unit 811 obtains the convergence signal y.

【0043】以上が、従来のHMMを用いた音声認識装
置、及びHMM作成装置の構成である。
The above is the configuration of the speech recognition apparatus and the HMM creation apparatus using the conventional HMM.

【0044】[0044]

【発明が解決しようとする課題】以上のような従来の音
声認識等を用いられている前記図6及び図8の荷重係数
ベクトル算出部604,804は、前記(数4)のような算出を
行うため、その構成が複雑となること及び演算回数が増
加するという課題があった。
The weighting factor vector calculation units 604 and 804 in FIGS. 6 and 8 using the conventional speech recognition and the like as described above perform the calculation as shown in (Equation 4). Therefore, there is a problem that the configuration becomes complicated and the number of calculations increases.

【0045】本発明は、この課題を解決すべく荷重係数
ベクトルの事前の算出によって荷重係数ベクトル算出部
を削除することによって装置全体の構成を簡略化し、か
つ演算回数を削減することを目的とする。
An object of the present invention is to solve the problem by simplifying the weighting factor vector calculation unit by deleting the weighting factor vector in advance and simplifying the overall construction of the apparatus and reducing the number of calculations. .

【0046】[0046]

【課題を解決するための手段】本発明の請求項1記載の
発明は、荷重係数ベクトル記憶手段を有し、HMM(ヒ
ドゥンマルコフモデル)の学習前に事前に荷重係数ベク
トルを記憶させ、パタン認識時にその固定値を用いるこ
とを特徴とするパタン認識装置である。
The invention according to claim 1 of the present invention has a weighting coefficient vector storage means, which stores a weighting coefficient vector in advance before learning of an HMM (Hidden Markov model) to recognize a pattern. The pattern recognition device is characterized in that the fixed value is sometimes used.

【0047】また、本発明の請求項2記載の発明は、荷
重係数ベクトル記憶手段を有し、HMM(ヒドゥンマル
コフモデル)の学習前に事前に荷重係数ベクトルを記憶
させ、前記ヒドゥンマルコフモデル学習時にその固定値
を用いることを特徴とするヒドゥンマルコフモデル作成
装置である。
The invention according to claim 2 of the present invention further comprises a weighting coefficient vector storage means for storing the weighting coefficient vector in advance before learning the HMM (Hidden Markov model), and at the time of learning the Hidden Markov model. It is a Hidden Markov model creation device characterized by using the fixed value.

【0048】[0048]

【作用】本発明によれば、HMM学習前に算出した荷重
係数ベクトルを荷重係数ベクトル記憶部に記憶してお
き、HMM学習時、認識時において、逐次算出していた
荷重係数ベクトルの計算を削除し、装置を簡略化,計算
量を削減できる。
According to the present invention, the weighting coefficient vector calculated before the HMM learning is stored in the weighting coefficient vector storage unit, and the calculation of the weighting coefficient vector which is sequentially calculated during the HMM learning and the recognition is deleted. However, the device can be simplified and the calculation amount can be reduced.

【0049】[0049]

【実施例】以下、実施例を用いて、本発明に付いて説明
する。
EXAMPLES The present invention will be described below with reference to examples.

【0050】図1は、本発明の第1の実施例におけるH
MMを用いた音声認識装置の構成を示すブロック図であ
る。同図において、101は特徴抽出部であり、入力音声
信号vをLPC分析、フーリエ変換等の周知の方法によ
り、一定時間間隔毎に特徴ベクトルの系列X=x1
2,…xt,…,xTに変換する。ここで、Tは、入力
音声信号における特徴ベクトル系列の長さである。
FIG. 1 shows H in the first embodiment of the present invention.
It is a block diagram which shows the structure of the speech recognition apparatus using MM. In the figure, 101 is a feature extraction unit, which uses a well-known method such as LPC analysis or Fourier transform of the input voice signal v to obtain a feature vector sequence X = x 1 ,
x 2, ... x t, ... , it is converted to x T. Here, T is the length of the feature vector sequence in the input audio signal.

【0051】102はコードブックと呼ばれるものであ
り、有限個Mの各シンボルを表わす代表ベクトルを保持
しており、その構成は前記図7と同様である。
Reference numeral 102 is a codebook, which holds a representative vector representing a finite number of M symbols, and its configuration is the same as that shown in FIG.

【0052】103はベクトル量子化部であり、前記特徴
ベクトルxtを前記コードブック102の最も近い順に1位
からK位の代表ベクトルのシンボルに置き換え、シンボ
ルベクトルqt=(ot1,ot2,…,otk…,otK)に変
換し、前記特徴ベクトルの系列をシンボルベクトル系列
Q=q1,q2,…,qTに変換するものである。
Reference numeral 103 denotes a vector quantizer, which replaces the feature vector x t with the symbols of the representative vectors of the 1st to Kth ranks in the closest order of the codebook 102, and symbol vectors q t = (o t1 , o t2 , ..., o tk ..., o tK ), and the sequence of the feature vectors is converted into a symbol vector sequence Q = q 1 , q 2 , ..., q T.

【0053】104は本発明の特徴である荷重係数ベクト
ル記憶部であり、1位からK位の代表ベクトルそれぞれ
に対する荷重係数(u1,…,uk…,uK)を入力音声の
フレームに関係ない固定値として記憶しておくものであ
る。この値の決め方は、例えば、1位からK位の逆数で
もよく、また、1位からK位まで徐々に小さくなる値を
適当に与えてもよい。
Reference numeral 104 denotes a weighting factor vector storage unit, which is a feature of the present invention, and weighting factors (u 1 , ..., U k ..., U K ) for each of the 1st to Kth representative vectors are input to the frame of the input speech. It is stored as an irrelevant fixed value. The value may be determined by, for example, the reciprocal of the first place to the Kth place, or a value that gradually decreases from the first place to the Kth place may be appropriately given.

【0054】[0054]

【外12】 [Outside 12]

【0055】[0055]

【外13】 [Outside 13]

【0056】[0056]

【数10】 [Equation 10]

【0057】[0057]

【外14】 [Outside 14]

【0058】108は尤度記憶部であり、前記尤度算出部1
07で算出された各単語の尤度を比較するため記憶する。
Reference numeral 108 denotes a likelihood storage unit, which is the likelihood calculation unit 1
It is stored to compare the likelihood of each word calculated in 07.

【0059】109は比較判定部であり、前記尤度記憶部1
08に記憶されているそれぞれのHMMに対する尤度の最
大値を与えるHMMに対応する語彙を認識結果(rec)と
して判定するものである。
Reference numeral 109 denotes a comparison / determination unit, which is the likelihood storage unit 1
The vocabulary corresponding to the HMM that gives the maximum likelihood value for each HMM stored in 08 is determined as the recognition result (rec).

【0060】前記各部106から108は各語彙のHMMにつ
き1度ずつ行い、w=1〜Wまで繰り返され、その結果を前
記比較判定部109で評価する。
The respective units 106 to 108 perform once for each HMM of each vocabulary and repeat from w = 1 to W, and the result is evaluated by the comparison and determination unit 109.

【0061】以上のように本実施例では音声認識時にお
いて、逐次計算していた荷重係数ベクトル算出部の計算
を削除できる。
As described above, in the present embodiment, at the time of voice recognition, the calculation of the weighting factor vector calculation unit, which has been sequentially calculated, can be deleted.

【0062】[0062]

【外15】 [Outside 15]

【0063】202はコードブックと呼ばれるものであ
り、有限個Mの各シンボルを表す代表ベクトルを保持し
ており、その構成は前記図7と同様である。
Reference numeral 202 denotes a codebook, which holds a representative vector representing a finite number of M symbols, and its configuration is the same as that shown in FIG.

【0064】[0064]

【外16】 [Outside 16]

【0065】204は本発明の特徴である荷重係数ベクト
ル記憶部であり、1位からK位の代表ベクトルそれぞれ
に対する荷重係数(u1,u2,…,uk…,uK)を入力学
習音声信号v′のフレームの関係ない固定値として記憶
しておくものである。この値の決め方は、例えば、1位
からK個の逆でもよく、また、1位からK位まで徐々に
小さくなる値を適当に与えてもよい。
Reference numeral 204 denotes a weighting coefficient vector storage unit, which is a feature of the present invention, in which the weighting coefficients (u 1 , u 2 , ..., U k ..., U K ) for each of the 1st to Kth representative vectors are input and learned. It is stored as a fixed value irrelevant to the frame of the audio signal v '. The method of determining this value may be, for example, the reverse of 1st to Kth, or a value that gradually decreases from the 1st to Kth may be appropriately given.

【0066】[0066]

【外17】 [Outside 17]

【0067】206はHMM一時記憶部であり、初期HM
M(A,Bは乱数、または経験値などを用いたもの)や逐
次学習を繰り返す上で学習が収束する以前の学習途上H
MMを記憶するものであり、前記状態遷移確率行列Aと
前記シンボル出力確率行列Bを記憶しておき学習が1度
終わる度に更新する。
Reference numeral 206 denotes an HMM temporary storage unit, which is an initial HM.
M (where A and B are random numbers or empirical values) and learning H before the learning converges when repeating the learning H
The MM is stored, and the state transition probability matrix A and the symbol output probability matrix B are stored and updated every time learning is completed.

【0068】[0068]

【外18】 [Outside 18]

【0069】[0069]

【外19】 [Outside 19]

【0070】[0070]

【外20】 [Outside 20]

【0071】210は再推定部であり、前記(数8)に従っ
て状態遷移確率aijを、前記(数9)に従ってシンボル出
力確率bi(m)を再推定するものである。
A re-estimation unit 210 re-estimates the state transition probability a ij according to (Equation 8) and the symbol output probability b i (m) according to ( Equation 9).

【0072】211は学習収束確認部であり、学習が収束
状態にあるか否かを判定し、収束状態にあるならば収束
信号yを、そうでなければ再推定命令信号nを再推定H
MM記憶部212に送る。
Reference numeral 211 denotes a learning convergence confirming unit, which determines whether or not learning is in a convergent state. If the learning is in a convergent state, the convergent signal y is re-estimated.
It is sent to the MM storage unit 212.

【0073】上記再推定HMM記憶部212は、再推定さ
れたHMMを一時記憶しておき、前記学習収束確認部21
1からの信号により、収束信号yならば再推定HMMを
前記図1におけるHMM記憶部105に記憶させ、再推定
命令信号nならば前記HMM一時記憶部206に記憶させ
る。
The re-estimation HMM storage unit 212 temporarily stores the re-estimated HMM, and the learning convergence confirmation unit 21
With the signal from 1, if the convergence signal is y, the re-estimation HMM is stored in the HMM storage unit 105 in FIG. 1, and if it is the re-estimation command signal n, it is stored in the HMM temporary storage unit 206.

【0074】前記学習収束確認部211で収束信号yが得
られるまで、前記各部207から210は繰り返される。
The respective units 207 to 210 are repeated until the learning convergence confirmation unit 211 obtains a convergence signal y.

【0075】以上が、本発明の各第1の実施例のHMM
を用いた音声認識装置、及びHMM作成装置の構成であ
る。
The above is the HMM of each first embodiment of the present invention.
2 is a configuration of a voice recognition device and an HMM creation device using the.

【0076】以上の第1の実施例でもわかるように、従
来の図6や図8に示す荷重係数ベクトル計算部604,804
が削減され、そのかわりに荷重係数ベクトル記憶部10
4,204が与えられている。前者は計算装置としての構成
となるが、後者は高々K個の値を記憶するものでよく、
大きく構成が簡略化されている。また、計算を行なう必
要もなく計算量の削減につながっている。
As can be seen from the first embodiment described above, the conventional load coefficient vector calculation units 604 and 804 shown in FIG. 6 and FIG.
Is reduced, and instead the weighting factor vector storage unit 10
4,204 are given. The former is configured as a computing device, but the latter can store at most K values,
The structure is greatly simplified. In addition, it is possible to reduce the amount of calculation without having to perform calculation.

【0077】以上の本発明の実施例を用いて行なった実
験に付いて説明を行なう。
The experiment conducted by using the above-described embodiment of the present invention will be described.

【0078】認識対象語彙としては、日本の100地名を
用い、各々のHMMの学習データに男性27名が2回発声
した各語彙に付き延べ54単語を用い、認識のデータとし
ては各100語彙に付いて学習話者以外の者48名が2回発
声した計9600単語を用いた。結果については(表1)に示
すように計算量を削減したにも関わらず従来の方法に比
べ性能の劣化は見られない。
As the vocabulary to be recognized, 100 place names of Japan were used, and a total of 54 words for each vocabulary uttered by 27 men twice were used as the learning data of each HMM. For this purpose, a total of 9600 words were spoken twice by 48 non-learning speakers. As for the result, as shown in (Table 1), the performance is not deteriorated as compared with the conventional method even though the calculation amount is reduced.

【0079】[0079]

【表1】 [Table 1]

【0080】図3は、本発明の第2の実施例におけるH
MMを用いた音声認識装置の構成を示すブロック図であ
る。この第2の実施例の構成は、前記図1の第1の実施
例の構成に、荷重係数ベクトル記憶部305に記憶する荷
重係数の値をHMM学習の事前に計算する事前荷重係数
ベクトル計算部304を構築した物である。同図におい
て、301は特徴抽出部であり、入力音声信号vをLPC
分析、フーリエ変換等の周知の方法により、一定時間間
隔毎に特徴ベクトルの系列X=x1,x2,…xt,…,
Tに変換する。ここで、Tは、入力音声信号における
特徴ベクトル系列の長さである。
FIG. 3 shows H in the second embodiment of the present invention.
It is a block diagram which shows the structure of the speech recognition apparatus using MM. The configuration of the second embodiment is the same as the configuration of the first embodiment of FIG. 1, except that the weighting coefficient vector storage unit 305 stores the value of the weighting factor in advance in the HMM learning. It is a build of 304. In the figure, reference numeral 301 denotes a feature extraction unit that inputs the input voice signal v to the LPC.
A series of feature vectors X = x 1 , x 2 , ... Xt , ..., At regular time intervals, by well-known methods such as analysis and Fourier transform.
Convert to x T. Here, T is the length of the feature vector sequence in the input audio signal.

【0081】302はコードブックと呼ばれるものであ
り、有限個Mの各シンボルを表す代表ベクトルを保持し
ており、その構成は前記図7と同様である。
Reference numeral 302 is a codebook, which holds a representative vector representing a finite number of M symbols, and its configuration is the same as that shown in FIG.

【0082】303はベクトル量子化部であり、前記特徴
ベクトルxtを前記コードブック302の最も近い順に1位
からK位の代表ベクトルのシンボルに置き換え、シンボ
ルベクトルqt=(ot1,ot2,…,otk…,otK)に変
換し、前記特徴ベクトルの系列をシンボルベクトル系列
Q=q1,q2,…qt,qTに変換するものである。
Reference numeral 303 denotes a vector quantizer, which replaces the feature vector x t with the symbols of the representative vectors from the 1st to the Kth in the closest order of the codebook 302, and symbol vectors q t = (o t1 , o t2 , ..., o tk ..., o tK ), and the feature vector sequence is converted into a symbol vector sequence Q = q 1 , q 2 , ... q t , q T.

【0083】304は本発明の特徴である事前荷重係数ベ
クトル計算部であり、HMM学習データDとコードブッ
ク302を用いて(数11)に従って、荷重係数を算出するも
のである。
Reference numeral 304 denotes a pre-weighting coefficient vector calculation unit, which is a feature of the present invention, and calculates a weighting coefficient using the HMM learning data D and the codebook 302 according to (Equation 11).

【0084】[0084]

【数11】 [Equation 11]

【0085】305は荷重係数ベクトル記憶部であり、前
記事前荷重係数ベクトル計算部304により学習の事前に
求められた1位からK位の代表ベクトルそれぞれに対す
る荷重係数(u1,…,uk…,uK)を入力音声信号vの
フレームに関係ない固定値として記憶しておくものであ
る。
Reference numeral 305 denotes a weighting coefficient vector storage section, which is a weighting coefficient (u 1 , ..., U k) for each of the representative vectors of 1st to Kth ranks obtained in advance by the aforesaid weighting coefficient vector calculation section 304. , U K ) is stored as a fixed value irrelevant to the frame of the input audio signal v.

【0086】[0086]

【外21】 [Outside 21]

【0087】[0087]

【外22】 [Outside 22]

【0088】[0088]

【外23】 [Outside 23]

【0089】309は尤度記憶部であり、前記尤度算出部3
08で算出された各単語の尤度を比較するため記憶する。
A likelihood storage unit 309 includes the likelihood calculation unit 3
It is stored in order to compare the likelihood of each word calculated in 08.

【0090】310は比較判定部であり、前記尤度記憶部3
09に記憶されているそれぞれのHMMに対する尤度の最
大値を与えるHMMに対応する語彙を認識結果(rec)と
して判定するものである。
Reference numeral 310 denotes a comparison / determination unit, which is the likelihood storage unit 3
The vocabulary corresponding to the HMM that gives the maximum likelihood value for each HMM stored in 09 is determined as the recognition result (rec).

【0091】前記各部307から309は各語彙のHMMにつ
き1度ずつ行い、w=1〜Wまで繰り返され、その結果を前
記比較判定部310で評価する。
The respective units 307 to 309 perform once for each HMM of each vocabulary and repeat from w = 1 to W, and the result is evaluated by the comparison / determination unit 310.

【0092】[0092]

【外24】 [Outside 24]

【0093】402はコードブックと呼ばれるものであ
り、有限個Mの各シンボルを表わす代表ベクトルを保持
しており、その構成は前記図7と同様である。
Reference numeral 402 denotes a codebook, which holds a representative vector representing a finite number of M symbols, and its configuration is the same as that shown in FIG.

【0094】[0094]

【外25】 [Outside 25]

【0095】404は本発明の特徴である事前荷重係数ベ
クトル計算部であり、HMM学習用データDとコードブ
ック402を用いて前記(数11)に従って、荷重係数を算出
するものである。
Reference numeral 404 denotes a pre-weighting coefficient vector calculation unit, which is a feature of the present invention, and calculates the weighting coefficient using the HMM learning data D and the codebook 402 in accordance with (Equation 11).

【0096】405は荷重係数ベクトル記憶部であり、前
記図3の事前荷重係数ベクトル計算部304により学習の
事前に求められた1位からK位の代表ベクトルそれぞれ
に対する荷重係数(u1,u2,…,uk…,uK)を入力学
習音声信号v′のフレームに関係ない固定値として記憶
しておくものである。
Reference numeral 405 denotes a weighting coefficient vector storage unit, which weights the weighting factors (u 1 , u 2) for the respective representative vectors of the 1st to Kth positions obtained in advance by the preloading coefficient vector calculation unit 304 of FIG. , ..., u k ..., in which stored as no fixed value related to the frame of the u K) input training speech signal v 'a.

【0097】[0097]

【外26】 [Outside 26]

【0098】407はHMM一時記憶部であり、初期HM
M(A,Bは乱数、または経験値などを用いたもの)や逐
次学習を繰り返す上で学習が収束する以前の学習途上H
MMを記憶するものであり、前記状態遷移確率行列Aと
前記シンボル出力確率行列Bを記憶しておき学習が1度
終わる度に更新する。
Reference numeral 407 denotes an HMM temporary storage unit which stores the initial HM.
M (where A and B are random numbers or empirical values) and learning H before the learning converges when repeating the learning H
The MM is stored, and the state transition probability matrix A and the symbol output probability matrix B are stored and updated every time learning is completed.

【0099】[0099]

【外27】 [Outside 27]

【0100】[0100]

【外28】 [Outside 28]

【0101】[0101]

【外29】 [Outside 29]

【0102】411は再推定部であり、前記(数8)に従っ
て状態遷移確率aijを、前記(数9)に従ってシンボル出
力確率bi(m)を再推定するものである。
A re-estimation unit 411 re-estimates the state transition probability a ij according to (Equation 8) and the symbol output probability b i (m) according to ( Equation 9).

【0103】412は学習収束確認部であり、学習が収束
状態にあるか否かを判定し、収束状態にあるならば収束
信号yを、そうでなければ再推定命令信号nを再推定H
MM記憶部413に送る。
A learning convergence confirmation unit 412 determines whether or not the learning is in the convergent state. If the learning is in the convergent state, the convergent signal y is re-estimated.
It is sent to the MM storage unit 413.

【0104】上記再推定HMM記憶部413は、再推定さ
れたHMMを一時記憶しておき、前記学習収束確認部41
2からの信号により、収束信号yならば再推定HMMを
前記図3におけるHMM記憶部306に記憶させ、再推定
命令信号nならば前記HMM一時記憶部407に記憶させ
る。
The re-estimation HMM storage unit 413 temporarily stores the re-estimated HMM, and the learning convergence confirmation unit 41
In accordance with the signal from 2, if the convergence signal is y, the re-estimation HMM is stored in the HMM storage unit 306 in FIG. 3, and if it is the re-estimation command signal n, it is stored in the HMM temporary storage unit 407.

【0105】前記学習収束確認部412で収束信号yが得
られるまで、前記各部408から411は繰り返される。
The respective units 408 to 411 are repeated until the learning convergence confirmation unit 412 obtains the convergence signal y.

【0106】以上が、本発明の第2実施例のHMMを用
いた音声認識装置、及びHMM作成装置の構成である。
The above is the configuration of the voice recognition apparatus using the HMM and the HMM creation apparatus of the second embodiment of the present invention.

【0107】以上の第2の実施例でもわかるように、従
来の図6や図8に示す荷重係数ベクトル計算部604や804
が削減され、そのかわりに荷重係数ベクトル記憶部30
5,405が与えられている。前者は計算装置としての構成
となるが、後者は高々K個の値を記憶するものでよく、
大きく構成が簡略化されている。また、計算を行なう必
要もなく計算量の削減につながっている。
As can be seen from the second embodiment described above, the conventional load coefficient vector calculation units 604 and 804 shown in FIG. 6 and FIG.
Is reduced, and instead, the weighting factor vector storage unit 30
5,405 have been given. The former is configured as a computing device, but the latter can store at most K values,
The structure is greatly simplified. In addition, it is possible to reduce the amount of calculation without having to perform calculation.

【0108】以上の本発明を用いて行なった実験に付い
て説明を行なう。
The experiment conducted using the present invention will be described.

【0109】認識対象語彙としては、日本の100地名を
用い、各々のHMMの学習データに男性27名が2回発声
した各語彙に付き延べ54単語を用い、認識のデータとし
ては各100語彙に付いて学習話者以外の者48名が2回発
声した計9600単語を用いた。結果に付いては(表2)に示
すように計算量を削減したにも関わらず従来の方法に比
べ性能の劣化はほぼ見られない。
As the recognition target vocabulary, 100 place names of Japan were used, and a total of 54 words for each vocabulary that 27 males uttered twice were used for the learning data of each HMM, and the recognition data was 100 vocabulary for each. For this purpose, a total of 9600 words were spoken twice by 48 non-learning speakers. As for the results, as shown in (Table 2), there is almost no deterioration in performance compared with the conventional method, even though the calculation amount is reduced.

【0110】[0110]

【表2】 [Table 2]

【0111】[0111]

【発明の効果】以上説明したように、本発明は、事前の
荷重係数ベクトルの算出により、従来に比べ認識率をほ
ぼ変化させずに、従来に比べ構成が簡易で、演算回数の
少ないパタン認識装置を作成することが可能となる。
As described above, according to the present invention, by the calculation of the weighting coefficient vector in advance, the recognition rate is substantially unchanged as compared with the conventional one, and the pattern recognition is simpler than the conventional one and the number of calculations is small. It is possible to create a device.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第1の実施例におけるHMMを用いた
音声認識装置の構成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of a voice recognition device using an HMM according to a first embodiment of the present invention.

【図2】本発明の第1の実施例における音声認識に用い
るHMM作成装置の構成を示すブロック図である。
FIG. 2 is a block diagram showing a configuration of an HMM creating apparatus used for voice recognition in the first exemplary embodiment of the present invention.

【図3】本発明の第2の実施例におけるHMMを用いた
音声認識装置の構成を示すブロック図である。
FIG. 3 is a block diagram showing a configuration of a voice recognition device using an HMM according to a second embodiment of the present invention.

【図4】本発明の第2の実施例における音声認識に用い
るHMM作成装置の構成を示すブロック図である。
FIG. 4 is a block diagram showing a configuration of an HMM creating apparatus used for voice recognition in a second exemplary embodiment of the present invention.

【図5】ビドゥンマルコフモデル(HMM)を説明するた
めの図である。
FIG. 5 is a diagram for explaining a Bidun Markov model (HMM).

【図6】従来のHMMを用いた音声認識装置の構成を示
すブロック図である。
FIG. 6 is a block diagram showing a configuration of a speech recognition apparatus using a conventional HMM.

【図7】コードブックの構成例を示す図である。FIG. 7 is a diagram showing a configuration example of a codebook.

【図8】従来の音声認識に用いるHMM作成装置の構成
を示すブロック図である。
FIG. 8 is a block diagram showing a configuration of a conventional HMM creating apparatus used for speech recognition.

【符号の説明】[Explanation of symbols]

101,201,301,401…特徴抽出部、 102,202,302,4
02…コードブック、103,203,303,403…ベクトル量子
化部、 104,204,305,405…荷重係数ベクトル記憶
部、 106,207,307,408…重み付け確率和算出部、
105,306…HMM記憶部、 107,308…尤度算出部、
108,309…尤度記憶部、 109,310…比較判定部、 20
5,406…HMM学習用データ記憶部、 206,407 HM
M一時記憶部、 208,409…経路確率算出部、 209,4
10…経路確率記憶部、 210,411…再推定部、 211,4
12…学習収束確認部、 212,413…再推定HMM記憶
部、304,404…事前荷重係数ベクトル計算部。
101, 201, 301, 401 ... Feature extraction unit, 102, 202, 302, 4
02 ... Codebook, 103, 203, 303, 403 ... Vector quantizer, 104, 204, 305, 405 ... Weighting coefficient vector memory, 106, 207, 307, 408 ... Weighted probability sum calculator,
105, 306 ... HMM storage unit, 107, 308 ... Likelihood calculation unit,
108, 309 ... Likelihood storage unit, 109, 310 ... Comparison determination unit, 20
5,406 ... HMM learning data storage unit, 206,407 HM
M temporary storage unit, 208, 409 ... Path probability calculation unit, 209, 4
10 ... Path probability storage unit, 210, 411 ... Re-estimation unit, 211, 4
12 ... Learning convergence confirmation unit, 212, 413 ... Re-estimation HMM storage unit, 304, 404 ... Pre-load coefficient vector calculation unit.

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 荷重係数ベクトル記憶手段を有し、ヒド
ゥンマルコフモデルの学習前に事前に荷重係数ベクトル
を記憶させ、パタン認識時にその固定値を用いることを
特徴とするパタン認識装置。
1. A pattern recognition device comprising a weighting coefficient vector storage means, which stores a weighting coefficient vector in advance before learning a Hidden Markov model, and uses a fixed value when recognizing a pattern.
【請求項2】 荷重係数ベクトル記憶手段を有し、ヒド
ゥンマルコフモデルの学習前に事前に荷重係数ベクトル
を記憶させ、前記ヒドゥンマルコフモデル学習時にその
固定値を用いることを特徴とするヒドゥンマルコフモデ
ル作成装置。
2. A Hidden Markov model is created, which has a weighting coefficient vector storage means, stores a weighting coefficient vector in advance before learning a Hidden Markov model, and uses a fixed value when learning the Hidden Markov model. apparatus.
【請求項3】 事前荷重係数ベクトル算出手段を有し、
荷重係数をヒドゥンマルコフモデル学習前に該ヒドゥン
マルコフモデルの学習データより求めた荷重係数ベクト
ルの平均として荷重係数ベクトル記憶手段に記憶し、パ
タン認識時にその値を用いることを特徴とする請求項1
記載のパタン認識装置。
3. A pre-load coefficient vector calculation means is provided,
The weighting factor vector storage means stores the weighting factor as an average of the weighting factor vectors obtained from the learning data of the Hidden-Markov model before learning, and the value is used at the time of pattern recognition.
The pattern recognition device described.
【請求項4】 事前荷重係数ベクトル算出手段を有し、
荷重係数をヒドゥンマルコフモデル学習前に該ヒドゥン
マルコフモデルの学習データより求めた荷重係数ベクト
ルの平均として荷重係数ベクトル記憶手段に記憶し、前
記ヒドゥンマルコフモデル学習時にその値を用いること
を特徴とする請求項2記載のヒドゥンマルコフモデル作
成装置。
4. A pre-load coefficient vector calculation means is provided,
The weighting factor is stored in the weighting factor vector storage means as an average of the weighting factor vectors obtained from the learning data of the Hidden-Markov model before learning the Hidden-Markov model, and the value is used during the learning of the Hidden-Markov model. Item 2. The Hidden Markov model creation device according to item 2.
JP4329489A 1992-12-09 1992-12-09 Pattern recognition device and hidden markov model generating device Pending JPH06175685A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4329489A JPH06175685A (en) 1992-12-09 1992-12-09 Pattern recognition device and hidden markov model generating device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4329489A JPH06175685A (en) 1992-12-09 1992-12-09 Pattern recognition device and hidden markov model generating device

Publications (1)

Publication Number Publication Date
JPH06175685A true JPH06175685A (en) 1994-06-24

Family

ID=18221946

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4329489A Pending JPH06175685A (en) 1992-12-09 1992-12-09 Pattern recognition device and hidden markov model generating device

Country Status (1)

Country Link
JP (1) JPH06175685A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08225649A (en) * 1994-10-27 1996-09-03 Consortium Elektrochem Ind Gmbh Cyclic polyorganosiloxane,its production,and polarizer and moderator containing same
KR100406604B1 (en) * 1995-03-07 2004-02-18 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니 Speech recognition method and apparatus

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08225649A (en) * 1994-10-27 1996-09-03 Consortium Elektrochem Ind Gmbh Cyclic polyorganosiloxane,its production,and polarizer and moderator containing same
KR100406604B1 (en) * 1995-03-07 2004-02-18 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니 Speech recognition method and apparatus

Similar Documents

Publication Publication Date Title
US10902845B2 (en) System and methods for adapting neural network acoustic models
JP2795058B2 (en) Time series signal processing device
JP2871561B2 (en) Unspecified speaker model generation device and speech recognition device
US5825978A (en) Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions
US4827521A (en) Training of markov models used in a speech recognition system
KR100324988B1 (en) Signal analyzer
US4783804A (en) Hidden Markov model speech recognition arrangement
EP0706171A1 (en) Speech recognition method and apparatus
EP0847041A2 (en) Method and apparatus for speech recognition performing noise adaptation
JP4531166B2 (en) Speech recognition method using reliability measure evaluation
JP2002500779A (en) Speech recognition system using discriminatively trained model
US5680509A (en) Method and apparatus for estimating phone class probabilities a-posteriori using a decision tree
JPH0934486A (en) Method and device for voice acknowledgement, information forming method, and recording medium
US5956676A (en) Pattern adapting apparatus using minimum description length criterion in pattern recognition processing and speech recognition system
EP0453649A2 (en) Method and apparatus for modeling words with composite Markov models
WO2022148176A1 (en) Method, device, and computer program product for english pronunciation assessment
JPH08211889A (en) Pattern adaptive system using tree structure
JP2531227B2 (en) Voice recognition device
JPH06175685A (en) Pattern recognition device and hidden markov model generating device
JP3589044B2 (en) Speaker adaptation device
JP2996925B2 (en) Phoneme boundary detection device and speech recognition device
JPH0823758B2 (en) Speaker-adaptive speech recognizer
JP2600871B2 (en) HMM creation device, likelihood calculation device and time-series pattern recognition device using the same
JP2973805B2 (en) Standard pattern creation device
JP2734828B2 (en) Probability calculation device and probability calculation method

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees