JP2973805B2 - Standard pattern creation device - Google Patents

Standard pattern creation device

Info

Publication number
JP2973805B2
JP2973805B2 JP5310518A JP31051893A JP2973805B2 JP 2973805 B2 JP2973805 B2 JP 2973805B2 JP 5310518 A JP5310518 A JP 5310518A JP 31051893 A JP31051893 A JP 31051893A JP 2973805 B2 JP2973805 B2 JP 2973805B2
Authority
JP
Japan
Prior art keywords
unit
feature vector
pattern
standard pattern
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP5310518A
Other languages
Japanese (ja)
Other versions
JPH07160287A (en
Inventor
栄子 山田
浩明 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP5310518A priority Critical patent/JP2973805B2/en
Publication of JPH07160287A publication Critical patent/JPH07160287A/en
Application granted granted Critical
Publication of JP2973805B2 publication Critical patent/JP2973805B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、音声認識装置内で用い
られる標準パターンを作成するための、標準パターン作
成装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a standard pattern creating device for creating a standard pattern used in a speech recognition device.

【0002】[0002]

【従来の技術】音声認識においては、予め認識対象とな
る音素、単語等の標準パターンを用意しておき入力音声
と標準パターンの比較を行ない、最も類似している標準
パターンの属するカテゴリの音素、あるいは単語が発声
されたものと判定を行なうことが多い。このような方式
においては、一般に、標準パターン数が多いほど音声の
種々の変動を表現できるため、良い認識率が得られる。
しかし、その反面、多くのメモリー量と計算量とを必要
とする。
2. Description of the Related Art In speech recognition, standard patterns such as phonemes and words to be recognized are prepared in advance, and the input speech is compared with the standard patterns. Alternatively, it is often determined that a word has been uttered. In such a method, in general, the more the number of standard patterns, the more various fluctuations in voice can be expressed, so that a good recognition rate is obtained.
However, on the other hand, it requires a large amount of memory and computation.

【0003】クラスタリング(A.Gersho an
d V.Cuperman,IEEE Commun,
Meg.21,9,pp.15−21,1983、以下
これを文献1とする)の手法は、認識性能を保ちつつ計
算時間、メモリー量を削減するために、標準パターンを
削減する方法として知られている。その中でも効率良く
標準パターンを削減できる方法として、学習パターンの
特徴ベクトルを分割し、分割された特徴ベクトルごとに
クラスタリングを行なうセパレートクラスタリング(日
本音響学会誌44巻8号、1988、p595〜602
「セパレートベクトル量子化を用いたスペクトログラム
の正規化」、以下これを文献2とする)が挙げられる。
文献2では、特徴ベクトルは、パワー及びLPCパラメ
ーターによって構成されている。以下、文献2を例にと
って従来の標準パターン作成装置を説明する。
[0003] Clustering (A. Gersho an
dV. Cuperman, IEEE Commun,
Meg. 21,9, pp. 15-21, 1983, hereinafter referred to as Document 1) is known as a method for reducing the standard pattern in order to reduce the calculation time and the memory amount while maintaining the recognition performance. Among them, as a method for efficiently reducing the standard pattern, a separate clustering method in which a feature vector of a learning pattern is divided and clustering is performed for each of the divided feature vectors (Journal of the Acoustical Society of Japan, Vol. 44, No. 8, 1988, pp. 595-602).
"Normalization of spectrogram using separate vector quantization", hereinafter referred to as Document 2).
In Literature 2, the feature vector is composed of power and LPC parameters. Hereinafter, a conventional standard pattern creating apparatus will be described with reference to Document 2 as an example.

【0004】図2は従来の標準パターン作成装置の1例
を示す構成図である。音声入力部200に音声が入力さ
れ、分析部210に送られる。送られた音声波形は、分
析部210において分析され、パワーとLPCパラメー
ターの特徴ベクトルが抽出される。抽出された特徴ベク
トルを用い学習された第1の標準パターンは、学習パタ
ーン記憶部220に保持される。パワーは、学習パター
ン記憶部220からパワークラスタリング部230に送
られクラスタリングされる。また、LPCパラメーター
は、学習パターン記憶部220からLPCパラメーター
クラスタリング部240に送られクラスタリングされ
る。パワークラスタリング部230とLPCパラメータ
ークラスタリング部240とでクラスタリングされた情
報を用い、学習パターン記憶部220より送られた学習
パターンからパターン作成部250において標準パター
ンが作成される。パターン作成部250で作成された標
準パターンは、標準パターン出力部260に送られ出力
される。
FIG. 2 is a block diagram showing an example of a conventional standard pattern creating apparatus. A voice is input to the voice input unit 200 and sent to the analysis unit 210. The transmitted voice waveform is analyzed in the analysis unit 210, and the power and LPC parameter feature vectors are extracted. The first standard pattern learned using the extracted feature vector is stored in the learning pattern storage unit 220. The power is sent from the learning pattern storage unit 220 to the power clustering unit 230 and clustered. The LPC parameters are sent from the learning pattern storage unit 220 to the LPC parameter clustering unit 240 and are clustered. Using the information clustered by the power clustering unit 230 and the LPC parameter clustering unit 240, a standard pattern is created in the pattern creation unit 250 from the learning pattern sent from the learning pattern storage unit 220. The standard pattern created by the pattern creation unit 250 is sent to the standard pattern output unit 260 and output.

【0005】以上のように、パワーとLPCパラメータ
ーのクラスタリングを行なうことによって、特徴ベクト
ルを一括してクラスタリングを行なうより、よりメモリ
ー量が少なく、かつ、量子化歪みの少ない標準パターン
が得られたと述べられている。
[0005] As described above, by performing clustering of power and LPC parameters, a standard pattern with a smaller amount of memory and less quantization distortion was obtained than by clustering feature vectors collectively. Have been.

【0006】[0006]

【発明が解決しようとする課題】文献2では、パワーと
LPCパラメータの各特徴量ごとに別々にクラスタリン
グを行なっている。この方法では、相関の低いパラメー
ター同士がまとめられる場合があり、その結果、量子化
歪みが増しクラスタリングの効率が低下するために多く
のクラスタを必要とする。本発明の目的はこの問題点を
解決した標準パターン作成装置を提供することにある。
In Reference 2, clustering is separately performed for each feature amount of power and LPC parameters. In this method, parameters having low correlation may be put together, and as a result, many clusters are required because quantization distortion increases and clustering efficiency decreases. An object of the present invention is to provide a standard pattern creating apparatus which solves this problem.

【0007】[0007]

【課題を解決するための手段】本発明による標準パター
ン作成装置は、音声を入力する音声入力部と、入力され
た音声データを分析し特徴ベクトルを抽出する分析部
と、抽出された第1の特徴ベクトルから標準パターンを
学習する学習部と、学習された第1の標準パターンを記
憶する学習パターン記憶部と、前記特徴ベクトル要素間
の相関ど度合いを計算する相関度計算部と、前記相関度
から特徴ベクトル要素間の相関の強さを計算し、特徴ベ
クトルの分割を行なう特徴ベクトル分割部と、前記特徴
ベクトルからパターン間距離を計算する距離計算部と、
前記ベクトル分割情報、パターン間距離をもとに分割特
徴ベクトルごとに学習パターンをクラスタリングするク
ラスタリング部と、前記クラスタリングの結果得られる
クラスタ中心を記憶するクラスタ中心記憶部と、各クラ
スタを構成するパターンを記憶するクラスタメンバ記憶
部と、前記クラスタリングの結果をもとに標準パターン
を作成する標準パターン作成部とを有して構成される。
According to the present invention, there is provided a standard pattern creating apparatus comprising: a voice input unit for inputting voice; an analysis unit for analyzing input voice data and extracting a feature vector; A learning unit that learns a standard pattern from a feature vector, a learning pattern storage unit that stores a learned first standard pattern, a correlation calculation unit that calculates a degree of correlation between the feature vector elements, A feature vector dividing unit that calculates the strength of correlation between feature vector elements from and a feature vector, and a distance calculating unit that calculates an inter-pattern distance from the feature vector.
A clustering unit that clusters a learning pattern for each divided feature vector based on the vector division information and the distance between patterns; a cluster center storage unit that stores a cluster center obtained as a result of the clustering; and a pattern that forms each cluster. It comprises a cluster member storage unit for storing and a standard pattern creation unit for creating a standard pattern based on the result of the clustering.

【0008】[0008]

【作用】本発明の標準パターン作成装置は、特徴ベクト
ル要素間の相関の強さを計算し、特徴ベクトルを分割
し、分割した分割特徴ベクトルごとにクラスタリングを
行なうことにより、クラスタ数を削減した標準パターン
を作成する。
The standard pattern creating apparatus according to the present invention calculates the strength of correlation between feature vector elements, divides the feature vector, and performs clustering for each of the divided feature vectors to reduce the number of clusters. Create a pattern.

【0009】図3、図4において、概念を簡単に説明す
る。図中のX1,X2,Y1,Y2は、特徴量軸、軸上
の分布は各軸を基準とした分布、R1〜R5は、クラス
タ中心番号、点線で囲まれた部分は各クラスタ中心によ
って被覆される特徴空間、実線で囲まれた部分は被覆さ
れるべき特徴空間である。
The concept will be briefly described with reference to FIGS. In the figure, X1, X2, Y1, and Y2 are feature amount axes, distributions on the axes are distributions based on each axis, R1 to R5 are cluster center numbers, and portions surrounded by dotted lines are covered by cluster centers. The feature space to be covered, and the portion surrounded by the solid line is the feature space to be covered.

【0010】図3、図4を見ると、各軸上での分布は等
しいものとなっている。しかし、図3の場合、特徴空間
はパラメーター間の相関が低いため、空間全体を覆うに
は多くの標準パターンを必要とする。それに対し、図4
に示すようにパラメーター間の相関が高い場合には、空
間全体を少ない標準パターンで被覆することができる。
このように、パラメーター間の相関が高いと、より少な
いパラメーターで空間全体を表現することができるた
め、効率よくパターン数を削減した標準パターンを得ら
れるのである。
Referring to FIGS. 3 and 4, the distributions on each axis are equal. However, in the case of FIG. 3, since the feature space has a low correlation between parameters, many standard patterns are required to cover the entire space. In contrast, FIG.
When the correlation between the parameters is high as shown in (1), the entire space can be covered with a small number of standard patterns.
As described above, when the correlation between the parameters is high, the entire space can be expressed with fewer parameters, so that a standard pattern with a reduced number of patterns can be efficiently obtained.

【0011】簡単な例において説明する。A simple example will be described.

【0012】[0012]

【数1】 (Equation 1)

【0013】の3つの要素を持つパラメーター、x,
y,zを仮定する。また、この3つのパラメーターの中
で、xとyの2つのパラメーターは強い相関を持ち相関
関数が1であるが、xとy、yとzは無相関であり相関
関数が0であるものとする。この条件において、x,
y,zの3パラメーターを2つの組みに分割する場合を
考える。
A parameter having three elements x, x,
Suppose y, z. Among these three parameters, two parameters x and y have a strong correlation and a correlation function of 1, but x and y, and y and z have no correlation and a correlation function of 0. I do. Under these conditions, x,
Consider a case where three parameters of y and z are divided into two sets.

【0014】最初にxとyをまとめたものと、zとの2
組に分割した場合を考える。x,yは常に等しい値をと
るため、取り得る値は、[−1,−1]、[0,0]、
[1,1]の3通りである。zについても取り得る値
は、−1,0,1の3通りである。よって、x,yとz
に分割した場合、記憶すべきパラメーター数は2×3+
3=9である。次に、xと、y,zをまとめたものとの
2組に分割した場合を考える。xの取り得る値は、−
1,0,1の3通りである。y,zをまとめた方は、
[−1,−1]、[−1,0]、[−1,1]、[0,
−1]、[0,0]、[0,1]、[1,−1]、
[1,0]、[1,1]の9通りの値を取る。よって、
xとy,zに分割した場合、記憶すべきパラメーター数
は3+2×9=21である。この場合、相関の高いパラ
メーターをまとめることによって、9/21のパラメー
ター数で空間全体を被覆できる。
First, the sum of x and y, and 2 of z
Consider the case of dividing into sets. Since x and y always take the same value, possible values are [-1, -1], [0, 0],
[1, 1]. There are three possible values of z, -1, 0 and 1. Therefore, x, y and z
, The number of parameters to be stored is 2 × 3 +
3 = 9. Next, let us consider a case where the image is divided into two sets of x and a set of y and z. The possible value of x is-
1, 0, and 1. If you put together y and z,
[-1, -1,], [-1,0], [-1,1,], [0,
-1], [0,0], [0,1], [1, -1],
It takes nine values of [1,0] and [1,1]. Therefore,
When divided into x, y, and z, the number of parameters to be stored is 3 + 2 × 9 = 21. In this case, by gathering parameters having high correlation, the entire space can be covered with 9/21 parameter numbers.

【0015】ここでは簡単な例について説明したが、パ
ラメーター数などが増加した場合も同様である。
Although a simple example has been described here, the same applies when the number of parameters is increased.

【0016】以上のように、パラメーター間の相関の強
さを考慮することによって、少ないパターン数でよりよ
い認識性能が得られる標準パターンを提供できる。
As described above, by taking into account the strength of the correlation between parameters, it is possible to provide a standard pattern that can obtain better recognition performance with a small number of patterns.

【0017】[0017]

【実施例】次に本発明による標準パターン作成装置につ
いて図面を用いて説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Next, a standard pattern forming apparatus according to the present invention will be described with reference to the drawings.

【0018】図1は本発明の一実施例を示す構成図であ
る。音声入力部10に音声が入力され、分析部20に送
られる。送られた音声波形は、分析部20において分析
され特徴ベクトルが抽出される。分析後の特徴ベクトル
の例としては、LPCメルケプストラム、Δメルケプス
トラム(”Speaker−independenti
solated word recognition
using dynamic features of
speech spectrum,”IEEE Tr
ans.Acoust.,Speech Signal
Processing,vol.ASSP−34,p
p.52−59,1986.以下これを文献3とす
る)、Δ2 メルケプストラム(”Improved A
coustic Modeling with the
SPHINX Speech Recognitio
n System,X.D.Huang,K.F.Le
e,H.W.Hon,and M.Y.Hwang,I
CASSP 91,pp.345−348,1991、
以下これを文献4とする)などが挙げられる。
FIG. 1 is a block diagram showing an embodiment of the present invention. A voice is input to the voice input unit 10 and sent to the analysis unit 20. The sent voice waveform is analyzed in the analysis unit 20 and a feature vector is extracted. Examples of the feature vector after the analysis include LPC mel-cepstrum and Δ-mel-cepstrum (“Speaker-independent”.
isolated word recognition
using dynamic features of
speech spectrum, "IEEE Tr
ans. Acoustic. , Speech Signal
Processing, vol. ASSP-34, p
p. 52-59, 1986. Hereinafter, this is referred to as Document 3), delta 2 Mel cepstrum ( "Improved A
cosmetic Modeling with the
SPHINX Speech Recognition
n System, X. D. Huang, K .; F. Le
e, H .; W. Hon, and M.S. Y. Hwang, I
CASSP 91 pp. 345-348, 1991,
Hereinafter, this will be referred to as Reference 4.).

【0019】抽出された特徴ベクトル列は、学習部30
において標準パターンの学習に用いられる。学習方法は
認識手法に依存するが、例えば、パスコストDP(渡
辺、木村、音響学会講演論文集、2−5−9、昭62−
10、以下これを文献5とする)ならば、文献5に述べ
られているように、標準パターンの各フレームでの平均
ベクトル及び統計的パスコストが計算される。
The extracted feature vector sequence is sent to the learning unit 30
Is used for learning standard patterns. The learning method depends on the recognition method. For example, the path cost DP (Watanabe, Kimura, Proceedings of the Acoustical Society of Japan, 2-5-9, 1962)
10, hereinafter referred to as Reference 5), as described in Reference 5, the average vector and the statistical path cost in each frame of the standard pattern are calculated.

【0020】以下、パスコストDPを例として説明す
る。
Hereinafter, the path cost DP will be described as an example.

【0021】学習されたパターンは、学習パターン記憶
部40に入力される。次に、平均ベクトル
The learned pattern is input to a learning pattern storage unit 40. Next, the average vector

【0022】[0022]

【数2】 (Equation 2)

【0023】(j=1〜J:カテゴリー番号、n=1〜
j :カテゴリーjの特徴ベクトル数、p=1〜P:特
徴ベクトルの次元数)が、相関度計算部50に送られ
る。ここで、平均ベクトルの要素を
(J = 1 to J: category number, n = 1 to
N j : the number of feature vectors of the category j, p = 1 to P: the number of dimensions of the feature vector) are sent to the correlation degree calculation unit 50. Where the elements of the mean vector

【0024】[0024]

【数3】 (Equation 3)

【0025】(カテゴリーjのn番目の特徴ベクトルの
p次元目の要素)とする。
(P-dimensional element of the n-th feature vector of category j).

【0026】この相関度計算部50について一実施例を
説明する。
An embodiment of the correlation calculating section 50 will be described.

【0027】最初に全学習パターンFirst, all learning patterns

【0028】[0028]

【数4】 (Equation 4)

【0029】にわたる特徴ベクトルの各パラメーターご
との平均値μ(p)を求める。平均μ(p)は、
The average value μ (p) of each parameter of the feature vector over the range is determined. The average μ (p) is

【0030】[0030]

【数5】 (Equation 5)

【0031】で表される。## EQU1 ##

【0032】次に、計算されたパラメーター平均値を用
い、各パラメーターごとの共分散行列σ(p1,p
2)、1<p1,p2<P(p1,p2は特徴ベクトル
のパラメーター番号)が計算される。
Next, using the calculated parameter average value, the covariance matrix σ (p1, p
2) 1 <p1, p2 <P (p1, p2 are parameter numbers of the feature vector) are calculated.

【0033】[0033]

【数6】 (Equation 6)

【0034】次に、計算された共分散行列σ(p1,p
2)を用い、各パラメーター間の相関係数ρ(p1,p
2)が計算される。
Next, the calculated covariance matrix σ (p1, p
2) and the correlation coefficient ρ (p1, p
2) is calculated.

【0035】[0035]

【数7】 (Equation 7)

【0036】相関度計算部50で計算された相関係数
は、相関度記憶部60に保持される。次に、特徴ベクト
ル分割部70において、50で計算された相関係数をも
とに、各相関係数間の行列式を計算し、パラメーターを
まとめていく。
The correlation coefficient calculated by the correlation degree calculation section 50 is stored in the correlation degree storage section 60. Next, in the feature vector dividing unit 70, a determinant between the correlation coefficients is calculated based on the correlation coefficients calculated in 50, and parameters are collected.

【0037】以下、特徴ベクトル分割部70について説
明する。 (1) 最初に、各パラメーターが独立であるものと
し、各パラメーターが部分ベクトルであるようP個に分
割する。
Hereinafter, the feature vector dividing section 70 will be described. (1) First, each parameter is assumed to be independent, and is divided into P pieces so that each parameter is a partial vector.

【0038】r=P T(k),(1≦k≦P) (T(k)はk番目の部分ベクトルの次元数) (kは、部分ベクトル番号) (2) 次に、1≦k,l≦r、k≠lである部分ベク
トルk,lに属するパラメーターp1,p2、(1≦p
1,p2≦(T(k)+T(l)))の相関関数ρ(p
1,p2)を相関度記憶部60から読みだし、(T
(k)+T(l))×(T(k)+T(l))の相関行
列Cを作成し行列式D(k,l)を求める。
R = PT (k), (1≤k≤P) (T (k) is the number of dimensions of the k-th partial vector) (k is the partial vector number) (2) Next, 1≤k , L ≦ r, parameters p1, p2, (1 ≦ p
1, p2 ≦ (T (k) + T (l)) correlation function ρ (p
1, p2) is read from the correlation degree storage unit 60, and (T
A correlation matrix C of (k) + T (l)) × (T (k) + T (l)) is created, and a determinant D (k, l) is obtained.

【0039】D(k,l)=det|C| (3) 次に、最小のD(k,l)を与える部分ベクト
ルk,lを1つの部分ベクトルにまとめる。
D (k, l) = det | C | (3) Next, the partial vectors k and l giving the minimum D (k, l) are combined into one partial vector.

【0040】T(k)=T(K)+T(l)(k<l) この時、新たな部分ベクトルの番号は、まとめられた2
つのうちの小さい方の番号とする。
T (k) = T (K) + T (l) (k <l) At this time, the numbers of the new partial vectors are
The smaller of the two.

【0041】次に、前記分割情報をもとに部分ベクトル
番号の付け直しが行なわれる。この段階で分割数は1減
少することになる。 (4) 次に、r=r−1とし、rが予め定められるい
き値Kよりも大きければ(2)へ戻る。r=Kとなるま
でこの計算を行なう。
Next, the partial vector numbers are renumbered based on the division information. At this stage, the number of divisions is reduced by one. (4) Next, r = r−1, and if r is larger than a predetermined threshold value K, the process returns to (2). This calculation is performed until r = K.

【0042】最終的には、p次元目の要素が属する部分
ベクトル番号pv(p)とk番目の部分ベクトルの次元
数T(k)が求められる。
Finally, the partial vector number pv (p) to which the p-th element belongs and the number of dimensions T (k) of the k-th partial vector are obtained.

【0043】以上の手続きは、相関の度合いとして特徴
ベクトルの共分散行列から計算された相関系列を例とし
たが、その他の計算方法も可能である。
In the above procedure, the correlation sequence calculated from the covariance matrix of the feature vector as the degree of correlation has been described as an example, but other calculation methods are also possible.

【0044】次に、各部分ベクトルごとに特徴ベクトル
のクラスタリングをクラスタリング部80で行なう。
Next, the clustering of the feature vectors is performed by the clustering section 80 for each partial vector.

【0045】クラスタリングについては、LBGアルゴ
リズムを用いた方法(IEEE Trans.Comm
un.,COM−28,1PP.84−95,Jan.
1980、以下これを文献6とする)などが知られてい
る。
For clustering, a method using the LBG algorithm (IEEE Trans.
un. , COM-28, 1PP. 84-95, Jan.
1980, hereinafter referred to as Document 6).

【0046】以下、クラスタリング部の一実施例を述べ
る。
Hereinafter, an embodiment of the clustering unit will be described.

【0047】制御部120より部分ベクトル番号k(k
=1〜K)と、部分ベクトル番号kのクラスタ中心数M
k が、クラスタリング部80に順次送られる。クラスタ
リング部80は、学習記憶部40に蓄えられた平均ベク
トル
The controller 120 sends a partial vector number k (k
= 1 to K) and the cluster center number M of the partial vector number k
k are sequentially sent to the clustering unit 80. The clustering unit 80 calculates the average vector stored in the learning storage unit 40.

【0048】[0048]

【数8】 (Equation 8)

【0049】の中からpv(p)=kである要素pを抽
出し、T(k)次元のベクトルとする。抽出されたT
(k)次元のベクトル
An element p for which pv (p) = k is extracted from among them, and is set as a T (k) -dimensional vector. The extracted T
(K) dimensional vector

【0050】[0050]

【数9】 (Equation 9)

【0051】とする。次に、Assume that next,

【0052】[0052]

【数10】 (Equation 10)

【0053】からMk 個のベクトルをクラスタ中心とし
て選択する。この選択方法としては、番号順にMk 個と
ってもよいし、ランダムに選んでもよい。選択されたM
k 個のクラスタ中心の値
Then, M k vectors are selected as the cluster centers. As this selection method, M k numbers may be selected in numerical order or may be selected at random. M selected
k cluster center values

【0054】[0054]

【数11】 [Equation 11]

【0055】は距離計算分110に送られる。Is sent to the distance calculation 110.

【0056】距離計算部110は、学習パターン記憶部
40に蓄えられた各平均ベクトル
The distance calculation unit 110 calculates each average vector stored in the learning pattern storage unit 40.

【0057】[0057]

【数12】 (Equation 12)

【0058】とクラスタリング部80から送られたMk
個の各クラスタ中心との距離
And M k sent from the clustering unit 80
Distance from each cluster center

【0059】[0059]

【数13】 (Equation 13)

【0060】を計算しクラスタリング部80に送る。Is calculated and sent to the clustering unit 80.

【0061】距離については、パスコストDPではユー
クリッド距離が利用可能である。
As for the distance, the Euclidean distance can be used in the path cost DP.

【0062】クラスタリング部80は、クラスタ中心の
The clustering unit 80 calculates the value of the cluster center.

【0063】[0063]

【数14】 [Equation 14]

【0064】をクラスタ中心記憶部100に送り、クラ
スタ中心記憶部100はこれを保持する。また、クラス
タリング部80は、距離計算部110で計算されたDc
l(j,n,k,h)の中で最小値をとるクラスタ番号
hをmember(j,n,k)=h(1≦membe
r(j,n,k)≦Mk )とし、クラスタメンバ記憶部
90に送る。member(j,n,k)は
Is sent to the cluster center storage unit 100, and the cluster center storage unit 100 holds this. The clustering unit 80 calculates the Dc calculated by the distance calculation unit 110.
The cluster number h that takes the minimum value among l (j, n, k, h) is defined as member (j, n, k) = h (1 ≦ membe
r (j, n, k) ≦ M k ) and sends it to the cluster member storage unit 90. member (j, n, k) is

【0065】[0065]

【数15】 (Equation 15)

【0066】の各ベクトルが属するクラスタの番号を示
す。クラスタメンバ記憶部90はこれを保持する。
Indicates the number of the cluster to which each vector belongs. The cluster member storage unit 90 holds this.

【0067】次に、クラスタリング部80は、memb
er(j,n,k)をクラスタメンバ記憶部90から読
みだし、クラスタ中心
Next, the clustering unit 80
er (j, n, k) is read from the cluster member storage unit 90, and the cluster center

【0068】[0068]

【数16】 (Equation 16)

【0069】を番号hのクラスタに属するBelongs to the cluster of number h

【0070】[0070]

【数17】 [Equation 17]

【0071】の平均値を用いて更新する。以下、距離計
算部110で計算されるDcl(j,n,k,h)が収
束するまで上記手順を繰り返し、最終的なクラスタ中心
Update using the average value of Hereinafter, the above procedure is repeated until Dcl (j, n, k, h) calculated by the distance calculation unit 110 converges, and the final cluster center value is obtained.

【0072】[0072]

【数18】 (Equation 18)

【0073】をクラスタ中心記憶部100に保持し、最
終的な各平均ベクトルの属するクラスタ番号membe
r(j,n,k)をクラスタメンバ記憶部90に保持す
る。
Is stored in the cluster center storage unit 100, and the cluster number membe to which each final average vector belongs
r (j, n, k) is stored in the cluster member storage unit 90.

【0074】以上、部分ベクトル番号kにおけるクラス
タリングについて説明したが、この作業をk=1〜Kに
ついて行なう。
Although the clustering at the partial vector number k has been described above, this operation is performed for k = 1 to K.

【0075】次に、クラスタメンバ記憶部90に保持さ
れた各パターンの属するクラスタ番号member
(j,n,k)とクラスタ中心記憶部100に保持され
たクラスタ中心値
Next, the cluster number member to which each pattern belongs held in the cluster member storage unit 90
(J, n, k) and the cluster center value held in the cluster center storage unit 100

【0076】[0076]

【数19】 [Equation 19]

【0077】の情報をもとに、学習パターン記憶部40
に保持されている学習パターンを用い、パターン作成部
130において標準パターンを作成する。
Based on the information of the learning pattern storage unit 40,
The standard pattern is created in the pattern creating unit 130 using the learning pattern stored in the standard pattern.

【0078】まず、クラスタ中心記憶部100に蓄えら
れているクラスタ中心値
First, the cluster center value stored in the cluster center storage unit 100

【0079】[0079]

【数20】 (Equation 20)

【0080】を読みだし、これを保持する。次に、クラ
スタメンバ記憶部90からmember(j,n,k)
の値を読みだし、これを保持する。平均ベクトル作成の
ために記憶すべきものは、
Is read out and held. Next, the member (j, n, k) is read from the cluster member storage unit 90.
Read out the value of and keep it. What should be remembered for creating the average vector is

【0081】[0081]

【数21】 (Equation 21)

【0082】個のクラスタ中心の値とN×K個のmem
ber(j,n,k)の値となり、よりメモリー量の少
ない標準パターンを作成することができる。パスコスト
Cluster center value and N × K mem
ber (j, n, k), and a standard pattern with a smaller amount of memory can be created. Path cost

【0083】[0083]

【数22】 (Equation 22)

【0084】については、学習パターン記憶部40に蓄
えられた値をそのまま使用し、上記で計算された平均ベ
クトルトと併せて1つのパターンとする。上記の例で
は、平均ベクトルのみをクラスタリングの対象とした
が、パスコストについてもクラスタリングの対象とする
こともできる。
As for the value, the value stored in the learning pattern storage section 40 is used as it is, and one pattern is combined with the average vector calculated above. In the above example, only the average vector is targeted for clustering, but the path cost can also be targeted for clustering.

【0085】ここで作成された標準パターンは、標準パ
ターン出力部140に送られ出力される。本手法の適用
はパスコストDPに限らない。例えば、連続HMM(B
−H.Juang,IEEE Trans.Acous
t.,Speech & Signal Proces
s.,ASSP−33,6,pp.1404−141
3,1985、以下これを文献4とする)の場合に、そ
の分布の平均ベクトル等をここで述べる方法によってク
ラスタリングすることが可能である。
The standard pattern created here is sent to the standard pattern output unit 140 and output. The application of this method is not limited to the path cost DP. For example, a continuous HMM (B
-H. Juang, IEEE Trans. Acous
t. , Speech & Signal Processes
s. , ASSP-33,6, pp. 1404-141
3, 1985, hereafter referred to as Document 4), the average vector of the distribution and the like can be clustered by the method described here.

【0086】作成された標準パターンを音声認識に用い
るには、例えば、SPLIT法(菅村、古井、”擬音韻
標準パターンによる大語彙単語音声認識”、信学論、J
65−D、8、pp1014−1048、昭57、以下
これを文献7とする)が利用できる。上記で作成された
標準パターンを音声認識に用いた場合、メモリー量及び
計算量が少ない認識装置が実現できる。
To use the created standard pattern for speech recognition, for example, the SPLIT method (Sugamura, Furui, "Large vocabulary word speech recognition using onomatopoeia standard pattern", IEICE
65-D, 8, pp 1014-1048, 1982, hereinafter referred to as Reference 7.). When the standard pattern created above is used for speech recognition, a recognition device with a small amount of memory and a small amount of calculation can be realized.

【0087】[0087]

【発明の効果】本発明によれば、従来の標準パターン作
成装置よりもより少ないパターンで、より認識率の高い
標準パターンを作成可能な標準パターン作成装置が得ら
れる。
According to the present invention, a standard pattern creating apparatus capable of creating a standard pattern having a higher recognition rate with fewer patterns than the conventional standard pattern creating apparatus can be obtained.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明による標準パターン作成装置の一実施例
を示すブロック図である。
FIG. 1 is a block diagram showing an embodiment of a standard pattern creation device according to the present invention.

【図2】従来の標準パターン作成装置の一実施例を示す
ブロック図である。
FIG. 2 is a block diagram showing one embodiment of a conventional standard pattern creation device.

【図3】特徴量間の相関の高低による被覆空間の相違を
示す図である。
FIG. 3 is a diagram illustrating a difference in a covering space depending on a level of a correlation between feature amounts;

【図4】特徴量間の相関の高低による被覆空間の相違を
示す図である。
FIG. 4 is a diagram illustrating a difference in a covering space depending on a level of a correlation between feature amounts;

【符号の説明】[Explanation of symbols]

10 音声入力部 20 分析部 30 学習部 40 学習パターン記憶部 50 相関度計算部 60 相関度記憶部 70 特徴ベクトル分割部 80 クラスタリング部 90 クラスタメンバ記憶部 100 クラスタ中心記憶部 110 距離計算部 120 制御部 130 パターン作成部 140 標準パターン出力部 200 音声入力部 210 分析部 220 学習パターン記憶部 230 パワークラスタリング部 240 LPCパラメータークラスタリング部 250 パターン作成部 260 標準パターン出力部 Reference Signs List 10 voice input unit 20 analysis unit 30 learning unit 40 learning pattern storage unit 50 correlation degree calculation unit 60 correlation degree storage unit 70 feature vector division unit 80 clustering unit 90 cluster member storage unit 100 cluster center storage unit 110 distance calculation unit 120 control unit 130 pattern creation unit 140 standard pattern output unit 200 voice input unit 210 analysis unit 220 learning pattern storage unit 230 power clustering unit 240 LPC parameter clustering unit 250 pattern creation unit 260 standard pattern output unit

フロントページの続き (56)参考文献 特開 平4−363000(JP,A) 特開 平1−233499(JP,A) 特開 平5−119790(JP,A) 特開 平4−111189(JP,A) 実開 昭58−147062(JP,U) 特許2800618(JP,B2) 特公 平6−7345(JP,B2) 特公 平6−7344(JP,B2) IEEE Transactions on Communications Vol.COM−28,No.1,Ja nuary 1980,”An Alogo rithm for Vector Q uantizer Design”, p.84−95 IEEE Communicatio ns Magazine,Vol.21, No.9,December 1983," Vector Quantizatio n:A Pattern−Matchi ng Technique for S peech Coding”,p.15− 21 日本音響学会誌 Vol.44,No. 8,1988,「セパレートベクトル量子化 を用いたスペクトログラムの正規化」 p.595−602(昭和63年8月1日発行) 日本音響学会昭和62年度秋季研究発表 会講演論文集 2−5−16「ベクトル量 子化を用いたスペクトログラムの正規 化」p.81−82(昭和62年8月10月) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 515 G10L 9/18 H03M 7/30 JICSTファイル(JOIS)Continuation of the front page (56) References JP-A-4-363000 (JP, A) JP-A-1-233499 (JP, A) JP-A-5-119790 (JP, A) JP-A-4-111189 (JP) JP-A-58-147062 (JP, U) Patent 2800618 (JP, B2) JP 673345 (JP, B2) JP 6-7344 (JP, B2) IEEE Transactions on Communications Vol. COM-28, No. 1, January 1980, "An Analogism for Vector Quantifier Design", p. 84-95 IEEE Communication Magazines, Vol. 21, No. 9, December 1983, "Vector Quantitation: A Pattern-Matching Technique for Speech Coding", p. 15-21 Journal of the Acoustical Society of Japan, Vol. 44, No. 8, 1988, “Normalization of spectrogram using separate vector quantization” p. 595-602 (Published on August 1, 1988) Proceedings of the Fall Meeting of the Acoustical Society of Japan in 1987 2-5-16 "Spectrogram Normalization Using Vector Quantization" p. 81-82 (August 10, 1987) (58) Field surveyed (Int. Cl. 6 , DB name) G10L 3/00 515 G10L 9/18 H03M 7/30 JICST file (JOIS)

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 音声を入力する音声入力部と、入力され
た音声データを分析し特徴ベクトルを抽出する分析部
と、抽出された特徴ベクトルから第1の標準パターンを
学習する学習部と、学習された第1の標準パターンを記
憶する学習パターン記憶部と、前記特徴ベクトル要素間
の相関の度合いを計算する相関度計算部と、前記相関度
から特徴ベクトル要素間の相関の強さを計算し、特徴ベ
クトルの分割を行なう特徴ベクトル分割部と、前記特徴
ベクトルからパターン間距離を計算する距離計算部と、
前記ベクトル分割情報、パターン間距離をもとに学習パ
ターンを分割特徴ベクトルごとにクラスタリングするク
ラスタリング部と、前記クラスタリングの結果得られる
クラスタ中心を記憶するクラスタ中心記憶部と、各クラ
スタを構成するパターンを記憶するクラスタメンバ記憶
部と、前記クラスタリングの結果をもとに標準パターン
を作成する標準パターン作成部とを有することを特徴と
する標準パターン作成装置。
A voice input unit for inputting voice, an analysis unit for analyzing input voice data and extracting a feature vector, a learning unit for learning a first standard pattern from the extracted feature vector, and a learning unit. A learning pattern storage unit that stores the obtained first standard pattern, a correlation degree calculation unit that calculates the degree of correlation between the feature vector elements, and calculates a correlation strength between the feature vector elements from the correlation degree. A feature vector dividing unit that divides a feature vector, a distance calculating unit that calculates a distance between patterns from the feature vector,
A clustering unit that clusters a learning pattern for each divided feature vector based on the vector division information and the inter-pattern distance; a cluster center storage unit that stores a cluster center obtained as a result of the clustering; and a pattern that forms each cluster. A standard pattern creation device, comprising: a cluster member storage unit for storing; and a standard pattern creation unit for creating a standard pattern based on the result of the clustering.
JP5310518A 1993-12-10 1993-12-10 Standard pattern creation device Expired - Lifetime JP2973805B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5310518A JP2973805B2 (en) 1993-12-10 1993-12-10 Standard pattern creation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5310518A JP2973805B2 (en) 1993-12-10 1993-12-10 Standard pattern creation device

Publications (2)

Publication Number Publication Date
JPH07160287A JPH07160287A (en) 1995-06-23
JP2973805B2 true JP2973805B2 (en) 1999-11-08

Family

ID=18006200

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5310518A Expired - Lifetime JP2973805B2 (en) 1993-12-10 1993-12-10 Standard pattern creation device

Country Status (1)

Country Link
JP (1) JP2973805B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182036B1 (en) * 1999-02-23 2001-01-30 Motorola, Inc. Method of extracting features in a voice recognition system
JP5689782B2 (en) * 2011-11-24 2015-03-25 日本電信電話株式会社 Target speaker learning method, apparatus and program thereof
WO2014109040A1 (en) * 2013-01-10 2014-07-17 富士通株式会社 Control method, control program, and control device
JP6640896B2 (en) 2018-02-15 2020-02-05 株式会社東芝 Data processing device, data processing method and program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2800618B2 (en) 1993-02-09 1998-09-21 日本電気株式会社 Voice parameter coding method

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0469780A (en) * 1990-07-10 1992-03-04 N T T Data Tsushin Kk Dimension compressing method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2800618B2 (en) 1993-02-09 1998-09-21 日本電気株式会社 Voice parameter coding method

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
IEEE Communications Magazine,Vol.21,No.9,December 1983,"Vector Quantization:A Pattern−Matching Technique for Speech Coding",p.15−21
IEEE Transactions on Communications Vol.COM−28,No.1,January 1980,"An Alogorithm for Vector Quantizer Design",p.84−95
日本音響学会昭和62年度秋季研究発表会講演論文集 2−5−16「ベクトル量子化を用いたスペクトログラムの正規化」p.81−82(昭和62年8月10月)
日本音響学会誌 Vol.44,No.8,1988,「セパレートベクトル量子化を用いたスペクトログラムの正規化」p.595−602(昭和63年8月1日発行)

Also Published As

Publication number Publication date
JPH07160287A (en) 1995-06-23

Similar Documents

Publication Publication Date Title
JP4450991B2 (en) Dynamically configurable acoustic model for speech recognition systems
Rabiner et al. HMM clustering for connected word recognition
EP0847041B1 (en) Method and apparatus for speech recognition performing noise adaptation
US6260013B1 (en) Speech recognition system employing discriminatively trained models
JP4141495B2 (en) Method and apparatus for speech recognition using optimized partial probability mixture sharing
US4908865A (en) Speaker independent speech recognition method and system
US5167004A (en) Temporal decorrelation method for robust speaker verification
JP2733955B2 (en) Adaptive speech recognition device
JPH09152886A (en) Unspecified speaker mode generating device and voice recognition device
JPH0535299A (en) Method and device for coding voice
US5794198A (en) Pattern recognition method
JPH07110695A (en) Voice coding device and method
Acero et al. Speaker and gender normalization for continuous-density hidden Markov models
Bocchieri et al. Discriminative feature selection for speech recognition
US5943647A (en) Speech recognition based on HMMs
JP2006510060A (en) Method and system for separating a plurality of acoustic signals generated by a plurality of acoustic sources
Sankar Experiments with a Gaussian merging-splitting algorithm for HMM training for speech recognition
KR100574769B1 (en) Speaker and environment adaptation based on eigenvoices imcluding maximum likelihood method
JP2973805B2 (en) Standard pattern creation device
JP2001083986A (en) Method for forming statistical model
JPH10254473A (en) Method and device for voice conversion
Yu et al. Speaker recognition models.
Fontaine et al. Speaker-dependent speech recognition based on phone-like units models-application to voice dialling
JP3029803B2 (en) Word model generation device for speech recognition and speech recognition device
JP3036706B2 (en) Voice recognition method

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990803