JPH07160287A - 標準パターン作成装置 - Google Patents
標準パターン作成装置Info
- Publication number
- JPH07160287A JPH07160287A JP5310518A JP31051893A JPH07160287A JP H07160287 A JPH07160287 A JP H07160287A JP 5310518 A JP5310518 A JP 5310518A JP 31051893 A JP31051893 A JP 31051893A JP H07160287 A JPH07160287 A JP H07160287A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- correlation
- feature vector
- clustering
- standard pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Abstract
(57)【要約】
【目的】 本発明は、特徴ベクトルを分割する際に、パ
ラメーター間の相関を考慮して分割することによって、
標準パターン量を効率良く削減する標準パターン作成装
置を実現するものである。 【構成】 学習パターン記憶部40に蓄えられた特徴ベ
クトルは、相関度計算部50に送られ、各パラメーター
間の相関度が計算される。計算された相関度は、相関度
記憶部60に保持される。特徴ベクトル分割部70は、
この相関度をもとに、相関の強いパラメーターをまとめ
ていく。クラスタリング部80では、特徴ベクトル分割
部70で分割された部分ベクトルごとにクラスタリング
を行なう。部分ベクトルは、相関の高いパラメーターで
構成されているため、クラスタリングする際に、より量
子化歪みの少ないクラスタリングを行なうことができ
る。これによって、より少ないクラスタ数で多くのパタ
ーンを表すことが可能となるため、メモリー量の削減さ
れた標準パターンを作成できる。
ラメーター間の相関を考慮して分割することによって、
標準パターン量を効率良く削減する標準パターン作成装
置を実現するものである。 【構成】 学習パターン記憶部40に蓄えられた特徴ベ
クトルは、相関度計算部50に送られ、各パラメーター
間の相関度が計算される。計算された相関度は、相関度
記憶部60に保持される。特徴ベクトル分割部70は、
この相関度をもとに、相関の強いパラメーターをまとめ
ていく。クラスタリング部80では、特徴ベクトル分割
部70で分割された部分ベクトルごとにクラスタリング
を行なう。部分ベクトルは、相関の高いパラメーターで
構成されているため、クラスタリングする際に、より量
子化歪みの少ないクラスタリングを行なうことができ
る。これによって、より少ないクラスタ数で多くのパタ
ーンを表すことが可能となるため、メモリー量の削減さ
れた標準パターンを作成できる。
Description
【0001】
【産業上の利用分野】本発明は、音声認識装置内で用い
られる標準パターンを作成するための、標準パターン作
成装置に関するものである。
られる標準パターンを作成するための、標準パターン作
成装置に関するものである。
【0002】
【従来の技術】音声認識においては、予め認識対象とな
る音素、単語等の標準パターンを用意しておき入力音声
と標準パターンの比較を行ない、最も類似している標準
パターンの属するカテゴリの音素、あるいは単語が発声
されたものと判定を行なうことが多い。このような方式
においては、一般に、標準パターン数が多いほど音声の
種々の変動を表現できるため、良い認識率が得られる。
しかし、その反面、多くのメモリー量と計算量とを必要
とする。
る音素、単語等の標準パターンを用意しておき入力音声
と標準パターンの比較を行ない、最も類似している標準
パターンの属するカテゴリの音素、あるいは単語が発声
されたものと判定を行なうことが多い。このような方式
においては、一般に、標準パターン数が多いほど音声の
種々の変動を表現できるため、良い認識率が得られる。
しかし、その反面、多くのメモリー量と計算量とを必要
とする。
【0003】クラスタリング(A.Gersho an
d V.Cuperman,IEEE Commun,
Meg.21,9,pp.15−21,1983、以下
これを文献1とする)の手法は、認識性能を保ちつつ計
算時間、メモリー量を削減するために、標準パターンを
削減する方法として知られている。その中でも効率良く
標準パターンを削減できる方法として、学習パターンの
特徴ベクトルを分割し、分割された特徴ベクトルごとに
クラスタリングを行なうセパレートクラスタリング(日
本音響学会誌44巻8号、1988、p595〜602
「セパレートベクトル量子化を用いたスペクトログラム
の正規化」、以下これを文献2とする)が挙げられる。
文献2では、特徴ベクトルは、パワー及びLPCパラメ
ーターによって構成されている。以下、文献2を例にと
って従来の標準パターン作成装置を説明する。
d V.Cuperman,IEEE Commun,
Meg.21,9,pp.15−21,1983、以下
これを文献1とする)の手法は、認識性能を保ちつつ計
算時間、メモリー量を削減するために、標準パターンを
削減する方法として知られている。その中でも効率良く
標準パターンを削減できる方法として、学習パターンの
特徴ベクトルを分割し、分割された特徴ベクトルごとに
クラスタリングを行なうセパレートクラスタリング(日
本音響学会誌44巻8号、1988、p595〜602
「セパレートベクトル量子化を用いたスペクトログラム
の正規化」、以下これを文献2とする)が挙げられる。
文献2では、特徴ベクトルは、パワー及びLPCパラメ
ーターによって構成されている。以下、文献2を例にと
って従来の標準パターン作成装置を説明する。
【0004】図2は従来の標準パターン作成装置の1例
を示す構成図である。音声入力部200に音声が入力さ
れ、分析部210に送られる。送られた音声波形は、分
析部210において分析され、パワーとLPCパラメー
ターの特徴ベクトルが抽出される。抽出された特徴ベク
トルを用い学習された第1の標準パターンは、学習パタ
ーン記憶部220に保持される。パワーは、学習パター
ン記憶部220からパワークラスタリング部230に送
られクラスタリングされる。また、LPCパラメーター
は、学習パターン記憶部220からLPCパラメーター
クラスタリング部240に送られクラスタリングされ
る。パワークラスタリング部230とLPCパラメータ
ークラスタリング部240とでクラスタリングされた情
報を用い、学習パターン記憶部220より送られた学習
パターンからパターン作成部250において標準パター
ンが作成される。パターン作成部250で作成された標
準パターンは、標準パターン出力部260に送られ出力
される。
を示す構成図である。音声入力部200に音声が入力さ
れ、分析部210に送られる。送られた音声波形は、分
析部210において分析され、パワーとLPCパラメー
ターの特徴ベクトルが抽出される。抽出された特徴ベク
トルを用い学習された第1の標準パターンは、学習パタ
ーン記憶部220に保持される。パワーは、学習パター
ン記憶部220からパワークラスタリング部230に送
られクラスタリングされる。また、LPCパラメーター
は、学習パターン記憶部220からLPCパラメーター
クラスタリング部240に送られクラスタリングされ
る。パワークラスタリング部230とLPCパラメータ
ークラスタリング部240とでクラスタリングされた情
報を用い、学習パターン記憶部220より送られた学習
パターンからパターン作成部250において標準パター
ンが作成される。パターン作成部250で作成された標
準パターンは、標準パターン出力部260に送られ出力
される。
【0005】以上のように、パワーとLPCパラメータ
ーのクラスタリングを行なうことによって、特徴ベクト
ルを一括してクラスタリングを行なうより、よりメモリ
ー量が少なく、かつ、量子化歪みの少ない標準パターン
が得られたと述べられている。
ーのクラスタリングを行なうことによって、特徴ベクト
ルを一括してクラスタリングを行なうより、よりメモリ
ー量が少なく、かつ、量子化歪みの少ない標準パターン
が得られたと述べられている。
【0006】
【発明が解決しようとする課題】文献2では、パワーと
LPCパラメータの各特徴量ごとに別々にクラスタリン
グを行なっている。この方法では、相関の低いパラメー
ター同士がまとめられる場合があり、その結果、量子化
歪みが増しクラスタリングの効率が低下するために多く
のクラスタを必要とする。本発明の目的はこの問題点を
解決した標準パターン作成装置を提供することにある。
LPCパラメータの各特徴量ごとに別々にクラスタリン
グを行なっている。この方法では、相関の低いパラメー
ター同士がまとめられる場合があり、その結果、量子化
歪みが増しクラスタリングの効率が低下するために多く
のクラスタを必要とする。本発明の目的はこの問題点を
解決した標準パターン作成装置を提供することにある。
【0007】
【課題を解決するための手段】本発明による標準パター
ン作成装置は、音声を入力する音声入力部と、入力され
た音声データを分析し特徴ベクトルを抽出する分析部
と、抽出された第1の特徴ベクトルから標準パターンを
学習する学習部と、学習された第1の標準パターンを記
憶する学習パターン記憶部と、前記特徴ベクトル要素間
の相関ど度合いを計算する相関度計算部と、前記相関度
から特徴ベクトル要素間の相関の強さを計算し、特徴ベ
クトルの分割を行なう特徴ベクトル分割部と、前記特徴
ベクトルからパターン間距離を計算する距離計算部と、
前記ベクトル分割情報、パターン間距離をもとに分割特
徴ベクトルごとに学習パターンをクラスタリングするク
ラスタリング部と、前記クラスタリングの結果得られる
クラスタ中心を記憶するクラスタ中心記憶部と、各クラ
スタを構成するパターンを記憶するクラスタメンバ記憶
部と、前記クラスタリングの結果をもとに標準パターン
を作成する標準パターン作成部とを有して構成される。
ン作成装置は、音声を入力する音声入力部と、入力され
た音声データを分析し特徴ベクトルを抽出する分析部
と、抽出された第1の特徴ベクトルから標準パターンを
学習する学習部と、学習された第1の標準パターンを記
憶する学習パターン記憶部と、前記特徴ベクトル要素間
の相関ど度合いを計算する相関度計算部と、前記相関度
から特徴ベクトル要素間の相関の強さを計算し、特徴ベ
クトルの分割を行なう特徴ベクトル分割部と、前記特徴
ベクトルからパターン間距離を計算する距離計算部と、
前記ベクトル分割情報、パターン間距離をもとに分割特
徴ベクトルごとに学習パターンをクラスタリングするク
ラスタリング部と、前記クラスタリングの結果得られる
クラスタ中心を記憶するクラスタ中心記憶部と、各クラ
スタを構成するパターンを記憶するクラスタメンバ記憶
部と、前記クラスタリングの結果をもとに標準パターン
を作成する標準パターン作成部とを有して構成される。
【0008】
【作用】本発明の標準パターン作成装置は、特徴ベクト
ル要素間の相関の強さを計算し、特徴ベクトルを分割
し、分割した分割特徴ベクトルごとにクラスタリングを
行なうことにより、クラスタ数を削減した標準パターン
を作成する。
ル要素間の相関の強さを計算し、特徴ベクトルを分割
し、分割した分割特徴ベクトルごとにクラスタリングを
行なうことにより、クラスタ数を削減した標準パターン
を作成する。
【0009】図3、図4において、概念を簡単に説明す
る。図中のX1,X2,Y1,Y2は、特徴量軸、軸上
の分布は各軸を基準とした分布、R1〜R5は、クラス
タ中心番号、点線で囲まれた部分は各クラスタ中心によ
って被覆される特徴空間、実線で囲まれた部分は被覆さ
れるべき特徴空間である。
る。図中のX1,X2,Y1,Y2は、特徴量軸、軸上
の分布は各軸を基準とした分布、R1〜R5は、クラス
タ中心番号、点線で囲まれた部分は各クラスタ中心によ
って被覆される特徴空間、実線で囲まれた部分は被覆さ
れるべき特徴空間である。
【0010】図3、図4を見ると、各軸上での分布は等
しいものとなっている。しかし、図3の場合、特徴空間
はパラメーター間の相関が低いため、空間全体を覆うに
は多くの標準パターンを必要とする。それに対し、図4
に示すようにパラメーター間の相関が高い場合には、空
間全体を少ない標準パターンで被覆することができる。
このように、パラメーター間の相関が高いと、より少な
いパラメーターで空間全体を表現することができるた
め、効率よくパターン数を削減した標準パターンを得ら
れるのである。
しいものとなっている。しかし、図3の場合、特徴空間
はパラメーター間の相関が低いため、空間全体を覆うに
は多くの標準パターンを必要とする。それに対し、図4
に示すようにパラメーター間の相関が高い場合には、空
間全体を少ない標準パターンで被覆することができる。
このように、パラメーター間の相関が高いと、より少な
いパラメーターで空間全体を表現することができるた
め、効率よくパターン数を削減した標準パターンを得ら
れるのである。
【0011】簡単な例において説明する。
【0012】
【数1】
【0013】の3つの要素を持つパラメーター、x,
y,zを仮定する。また、この3つのパラメーターの中
で、xとyの2つのパラメーターは強い相関を持ち相関
関数が1であるが、xとy、yとzは無相関であり相関
関数が0であるものとする。この条件において、x,
y,zの3パラメーターを2つの組みに分割する場合を
考える。
y,zを仮定する。また、この3つのパラメーターの中
で、xとyの2つのパラメーターは強い相関を持ち相関
関数が1であるが、xとy、yとzは無相関であり相関
関数が0であるものとする。この条件において、x,
y,zの3パラメーターを2つの組みに分割する場合を
考える。
【0014】最初にxとyをまとめたものと、zとの2
組に分割した場合を考える。x,yは常に等しい値をと
るため、取り得る値は、[−1,−1]、[0,0]、
[1,1]の3通りである。zについても取り得る値
は、−1,0,1の3通りである。よって、x,yとz
に分割した場合、記憶すべきパラメーター数は2×3+
3=9である。次に、xと、y,zをまとめたものとの
2組に分割した場合を考える。xの取り得る値は、−
1,0,1の3通りである。y,zをまとめた方は、
[−1,−1]、[−1,0]、[−1,1]、[0,
−1]、[0,0]、[0,1]、[1,−1]、
[1,0]、[1,1]の9通りの値を取る。よって、
xとy,zに分割した場合、記憶すべきパラメーター数
は3+2×9=21である。この場合、相関の高いパラ
メーターをまとめることによって、9/21のパラメー
ター数で空間全体を被覆できる。
組に分割した場合を考える。x,yは常に等しい値をと
るため、取り得る値は、[−1,−1]、[0,0]、
[1,1]の3通りである。zについても取り得る値
は、−1,0,1の3通りである。よって、x,yとz
に分割した場合、記憶すべきパラメーター数は2×3+
3=9である。次に、xと、y,zをまとめたものとの
2組に分割した場合を考える。xの取り得る値は、−
1,0,1の3通りである。y,zをまとめた方は、
[−1,−1]、[−1,0]、[−1,1]、[0,
−1]、[0,0]、[0,1]、[1,−1]、
[1,0]、[1,1]の9通りの値を取る。よって、
xとy,zに分割した場合、記憶すべきパラメーター数
は3+2×9=21である。この場合、相関の高いパラ
メーターをまとめることによって、9/21のパラメー
ター数で空間全体を被覆できる。
【0015】ここでは簡単な例について説明したが、パ
ラメーター数などが増加した場合も同様である。
ラメーター数などが増加した場合も同様である。
【0016】以上のように、パラメーター間の相関の強
さを考慮することによって、少ないパターン数でよりよ
い認識性能が得られる標準パターンを提供できる。
さを考慮することによって、少ないパターン数でよりよ
い認識性能が得られる標準パターンを提供できる。
【0017】
【実施例】次に本発明による標準パターン作成装置につ
いて図面を用いて説明する。
いて図面を用いて説明する。
【0018】図1は本発明の一実施例を示す構成図であ
る。音声入力部10に音声が入力され、分析部20に送
られる。送られた音声波形は、分析部20において分析
され特徴ベクトルが抽出される。分析後の特徴ベクトル
の例としては、LPCメルケプストラム、Δメルケプス
トラム(”Speaker−independenti
solated word recognition
using dynamic features of
speech spectrum,”IEEE Tr
ans.Acoust.,Speech Signal
Processing,vol.ASSP−34,p
p.52−59,1986.以下これを文献3とす
る)、Δ2 メルケプストラム(”Improved A
coustic Modeling with the
SPHINX Speech Recognitio
n System,X.D.Huang,K.F.Le
e,H.W.Hon,and M.Y.Hwang,I
CASSP 91,pp.345−348,1991、
以下これを文献4とする)などが挙げられる。
る。音声入力部10に音声が入力され、分析部20に送
られる。送られた音声波形は、分析部20において分析
され特徴ベクトルが抽出される。分析後の特徴ベクトル
の例としては、LPCメルケプストラム、Δメルケプス
トラム(”Speaker−independenti
solated word recognition
using dynamic features of
speech spectrum,”IEEE Tr
ans.Acoust.,Speech Signal
Processing,vol.ASSP−34,p
p.52−59,1986.以下これを文献3とす
る)、Δ2 メルケプストラム(”Improved A
coustic Modeling with the
SPHINX Speech Recognitio
n System,X.D.Huang,K.F.Le
e,H.W.Hon,and M.Y.Hwang,I
CASSP 91,pp.345−348,1991、
以下これを文献4とする)などが挙げられる。
【0019】抽出された特徴ベクトル列は、学習部30
において標準パターンの学習に用いられる。学習方法は
認識手法に依存するが、例えば、パスコストDP(渡
辺、木村、音響学会講演論文集、2−5−9、昭62−
10、以下これを文献5とする)ならば、文献5に述べ
られているように、標準パターンの各フレームでの平均
ベクトル及び統計的パスコストが計算される。
において標準パターンの学習に用いられる。学習方法は
認識手法に依存するが、例えば、パスコストDP(渡
辺、木村、音響学会講演論文集、2−5−9、昭62−
10、以下これを文献5とする)ならば、文献5に述べ
られているように、標準パターンの各フレームでの平均
ベクトル及び統計的パスコストが計算される。
【0020】以下、パスコストDPを例として説明す
る。
る。
【0021】学習されたパターンは、学習パターン記憶
部40に入力される。次に、平均ベクトル
部40に入力される。次に、平均ベクトル
【0022】
【数2】
【0023】(j=1〜J:カテゴリー番号、n=1〜
Nj :カテゴリーjの特徴ベクトル数、p=1〜P:特
徴ベクトルの次元数)が、相関度計算部50に送られ
る。ここで、平均ベクトルの要素を
Nj :カテゴリーjの特徴ベクトル数、p=1〜P:特
徴ベクトルの次元数)が、相関度計算部50に送られ
る。ここで、平均ベクトルの要素を
【0024】
【数3】
【0025】(カテゴリーjのn番目の特徴ベクトルの
p次元目の要素)とする。
p次元目の要素)とする。
【0026】この相関度計算部50について一実施例を
説明する。
説明する。
【0027】最初に全学習パターン
【0028】
【数4】
【0029】にわたる特徴ベクトルの各パラメーターご
との平均値μ(p)を求める。平均μ(p)は、
との平均値μ(p)を求める。平均μ(p)は、
【0030】
【数5】
【0031】で表される。
【0032】次に、計算されたパラメーター平均値を用
い、各パラメーターごとの共分散行列σ(p1,p
2)、1<p1,p2<P(p1,p2は特徴ベクトル
のパラメーター番号)が計算される。
い、各パラメーターごとの共分散行列σ(p1,p
2)、1<p1,p2<P(p1,p2は特徴ベクトル
のパラメーター番号)が計算される。
【0033】
【数6】
【0034】次に、計算された共分散行列σ(p1,p
2)を用い、各パラメーター間の相関係数ρ(p1,p
2)が計算される。
2)を用い、各パラメーター間の相関係数ρ(p1,p
2)が計算される。
【0035】
【数7】
【0036】相関度計算部50で計算された相関係数
は、相関度記憶部60に保持される。次に、特徴ベクト
ル分割部70において、50で計算された相関係数をも
とに、各相関係数間の行列式を計算し、パラメーターを
まとめていく。
は、相関度記憶部60に保持される。次に、特徴ベクト
ル分割部70において、50で計算された相関係数をも
とに、各相関係数間の行列式を計算し、パラメーターを
まとめていく。
【0037】以下、特徴ベクトル分割部70について説
明する。 (1) 最初に、各パラメーターが独立であるものと
し、各パラメーターが部分ベクトルであるようP個に分
割する。
明する。 (1) 最初に、各パラメーターが独立であるものと
し、各パラメーターが部分ベクトルであるようP個に分
割する。
【0038】r=P T(k),(1≦k≦P) (T(k)はk番目の部分ベクトルの次元数) (kは、部分ベクトル番号) (2) 次に、1≦k,l≦r、k≠lである部分ベク
トルk,lに属するパラメーターp1,p2、(1≦p
1,p2≦(T(k)+T(l)))の相関関数ρ(p
1,p2)を相関度記憶部60から読みだし、(T
(k)+T(l))×(T(k)+T(l))の相関行
列Cを作成し行列式D(k,l)を求める。
トルk,lに属するパラメーターp1,p2、(1≦p
1,p2≦(T(k)+T(l)))の相関関数ρ(p
1,p2)を相関度記憶部60から読みだし、(T
(k)+T(l))×(T(k)+T(l))の相関行
列Cを作成し行列式D(k,l)を求める。
【0039】D(k,l)=det|C| (3) 次に、最小のD(k,l)を与える部分ベクト
ルk,lを1つの部分ベクトルにまとめる。
ルk,lを1つの部分ベクトルにまとめる。
【0040】T(k)=T(K)+T(l)(k<l) この時、新たな部分ベクトルの番号は、まとめられた2
つのうちの小さい方の番号とする。
つのうちの小さい方の番号とする。
【0041】次に、前記分割情報をもとに部分ベクトル
番号の付け直しが行なわれる。この段階で分割数は1減
少することになる。 (4) 次に、r=r−1とし、rが予め定められるい
き値Kよりも大きければ(2)へ戻る。r=Kとなるま
でこの計算を行なう。
番号の付け直しが行なわれる。この段階で分割数は1減
少することになる。 (4) 次に、r=r−1とし、rが予め定められるい
き値Kよりも大きければ(2)へ戻る。r=Kとなるま
でこの計算を行なう。
【0042】最終的には、p次元目の要素が属する部分
ベクトル番号pv(p)とk番目の部分ベクトルの次元
数T(k)が求められる。
ベクトル番号pv(p)とk番目の部分ベクトルの次元
数T(k)が求められる。
【0043】以上の手続きは、相関の度合いとして特徴
ベクトルの共分散行列から計算された相関系列を例とし
たが、その他の計算方法も可能である。
ベクトルの共分散行列から計算された相関系列を例とし
たが、その他の計算方法も可能である。
【0044】次に、各部分ベクトルごとに特徴ベクトル
のクラスタリングをクラスタリング部80で行なう。
のクラスタリングをクラスタリング部80で行なう。
【0045】クラスタリングについては、LBGアルゴ
リズムを用いた方法(IEEE Trans.Comm
un.,COM−28,1PP.84−95,Jan.
1980、以下これを文献6とする)などが知られてい
る。
リズムを用いた方法(IEEE Trans.Comm
un.,COM−28,1PP.84−95,Jan.
1980、以下これを文献6とする)などが知られてい
る。
【0046】以下、クラスタリング部の一実施例を述べ
る。
る。
【0047】制御部120より部分ベクトル番号k(k
=1〜K)と、部分ベクトル番号kのクラスタ中心数M
k が、クラスタリング部80に順次送られる。クラスタ
リング部80は、学習記憶部40に蓄えられた平均ベク
トル
=1〜K)と、部分ベクトル番号kのクラスタ中心数M
k が、クラスタリング部80に順次送られる。クラスタ
リング部80は、学習記憶部40に蓄えられた平均ベク
トル
【0048】
【数8】
【0049】の中からpv(p)=kである要素pを抽
出し、T(k)次元のベクトルとする。抽出されたT
(k)次元のベクトル
出し、T(k)次元のベクトルとする。抽出されたT
(k)次元のベクトル
【0050】
【数9】
【0051】とする。次に、
【0052】
【数10】
【0053】からMk 個のベクトルをクラスタ中心とし
て選択する。この選択方法としては、番号順にMk 個と
ってもよいし、ランダムに選んでもよい。選択されたM
k 個のクラスタ中心の値
て選択する。この選択方法としては、番号順にMk 個と
ってもよいし、ランダムに選んでもよい。選択されたM
k 個のクラスタ中心の値
【0054】
【数11】
【0055】は距離計算分110に送られる。
【0056】距離計算部110は、学習パターン記憶部
40に蓄えられた各平均ベクトル
40に蓄えられた各平均ベクトル
【0057】
【数12】
【0058】とクラスタリング部80から送られたMk
個の各クラスタ中心との距離
個の各クラスタ中心との距離
【0059】
【数13】
【0060】を計算しクラスタリング部80に送る。
【0061】距離については、パスコストDPではユー
クリッド距離が利用可能である。
クリッド距離が利用可能である。
【0062】クラスタリング部80は、クラスタ中心の
値
値
【0063】
【数14】
【0064】をクラスタ中心記憶部100に送り、クラ
スタ中心記憶部100はこれを保持する。また、クラス
タリング部80は、距離計算部110で計算されたDc
l(j,n,k,h)の中で最小値をとるクラスタ番号
hをmember(j,n,k)=h(1≦membe
r(j,n,k)≦Mk )とし、クラスタメンバ記憶部
90に送る。member(j,n,k)は
スタ中心記憶部100はこれを保持する。また、クラス
タリング部80は、距離計算部110で計算されたDc
l(j,n,k,h)の中で最小値をとるクラスタ番号
hをmember(j,n,k)=h(1≦membe
r(j,n,k)≦Mk )とし、クラスタメンバ記憶部
90に送る。member(j,n,k)は
【0065】
【数15】
【0066】の各ベクトルが属するクラスタの番号を示
す。クラスタメンバ記憶部90はこれを保持する。
す。クラスタメンバ記憶部90はこれを保持する。
【0067】次に、クラスタリング部80は、memb
er(j,n,k)をクラスタメンバ記憶部90から読
みだし、クラスタ中心
er(j,n,k)をクラスタメンバ記憶部90から読
みだし、クラスタ中心
【0068】
【数16】
【0069】を番号hのクラスタに属する
【0070】
【数17】
【0071】の平均値を用いて更新する。以下、距離計
算部110で計算されるDcl(j,n,k,h)が収
束するまで上記手順を繰り返し、最終的なクラスタ中心
値
算部110で計算されるDcl(j,n,k,h)が収
束するまで上記手順を繰り返し、最終的なクラスタ中心
値
【0072】
【数18】
【0073】をクラスタ中心記憶部100に保持し、最
終的な各平均ベクトルの属するクラスタ番号membe
r(j,n,k)をクラスタメンバ記憶部90に保持す
る。
終的な各平均ベクトルの属するクラスタ番号membe
r(j,n,k)をクラスタメンバ記憶部90に保持す
る。
【0074】以上、部分ベクトル番号kにおけるクラス
タリングについて説明したが、この作業をk=1〜Kに
ついて行なう。
タリングについて説明したが、この作業をk=1〜Kに
ついて行なう。
【0075】次に、クラスタメンバ記憶部90に保持さ
れた各パターンの属するクラスタ番号member
(j,n,k)とクラスタ中心記憶部100に保持され
たクラスタ中心値
れた各パターンの属するクラスタ番号member
(j,n,k)とクラスタ中心記憶部100に保持され
たクラスタ中心値
【0076】
【数19】
【0077】の情報をもとに、学習パターン記憶部40
に保持されている学習パターンを用い、パターン作成部
130において標準パターンを作成する。
に保持されている学習パターンを用い、パターン作成部
130において標準パターンを作成する。
【0078】まず、クラスタ中心記憶部100に蓄えら
れているクラスタ中心値
れているクラスタ中心値
【0079】
【数20】
【0080】を読みだし、これを保持する。次に、クラ
スタメンバ記憶部90からmember(j,n,k)
の値を読みだし、これを保持する。平均ベクトル作成の
ために記憶すべきものは、
スタメンバ記憶部90からmember(j,n,k)
の値を読みだし、これを保持する。平均ベクトル作成の
ために記憶すべきものは、
【0081】
【数21】
【0082】個のクラスタ中心の値とN×K個のmem
ber(j,n,k)の値となり、よりメモリー量の少
ない標準パターンを作成することができる。パスコスト
ber(j,n,k)の値となり、よりメモリー量の少
ない標準パターンを作成することができる。パスコスト
【0083】
【数22】
【0084】については、学習パターン記憶部40に蓄
えられた値をそのまま使用し、上記で計算された平均ベ
クトルトと併せて1つのパターンとする。上記の例で
は、平均ベクトルのみをクラスタリングの対象とした
が、パスコストについてもクラスタリングの対象とする
こともできる。
えられた値をそのまま使用し、上記で計算された平均ベ
クトルトと併せて1つのパターンとする。上記の例で
は、平均ベクトルのみをクラスタリングの対象とした
が、パスコストについてもクラスタリングの対象とする
こともできる。
【0085】ここで作成された標準パターンは、標準パ
ターン出力部140に送られ出力される。本手法の適用
はパスコストDPに限らない。例えば、連続HMM(B
−H.Juang,IEEE Trans.Acous
t.,Speech & Signal Proces
s.,ASSP−33,6,pp.1404−141
3,1985、以下これを文献4とする)の場合に、そ
の分布の平均ベクトル等をここで述べる方法によってク
ラスタリングすることが可能である。
ターン出力部140に送られ出力される。本手法の適用
はパスコストDPに限らない。例えば、連続HMM(B
−H.Juang,IEEE Trans.Acous
t.,Speech & Signal Proces
s.,ASSP−33,6,pp.1404−141
3,1985、以下これを文献4とする)の場合に、そ
の分布の平均ベクトル等をここで述べる方法によってク
ラスタリングすることが可能である。
【0086】作成された標準パターンを音声認識に用い
るには、例えば、SPLIT法(菅村、古井、”擬音韻
標準パターンによる大語彙単語音声認識”、信学論、J
65−D、8、pp1014−1048、昭57、以下
これを文献7とする)が利用できる。上記で作成された
標準パターンを音声認識に用いた場合、メモリー量及び
計算量が少ない認識装置が実現できる。
るには、例えば、SPLIT法(菅村、古井、”擬音韻
標準パターンによる大語彙単語音声認識”、信学論、J
65−D、8、pp1014−1048、昭57、以下
これを文献7とする)が利用できる。上記で作成された
標準パターンを音声認識に用いた場合、メモリー量及び
計算量が少ない認識装置が実現できる。
【0087】
【発明の効果】本発明によれば、従来の標準パターン作
成装置よりもより少ないパターンで、より認識率の高い
標準パターンを作成可能な標準パターン作成装置が得ら
れる。
成装置よりもより少ないパターンで、より認識率の高い
標準パターンを作成可能な標準パターン作成装置が得ら
れる。
【図1】本発明による標準パターン作成装置の一実施例
を示すブロック図である。
を示すブロック図である。
【図2】従来の標準パターン作成装置の一実施例を示す
ブロック図である。
ブロック図である。
【図3】特徴量間の相関の高低による被覆空間の相違を
示す図である。
示す図である。
【図4】特徴量間の相関の高低による被覆空間の相違を
示す図である。
示す図である。
10 音声入力部 20 分析部 30 学習部 40 学習パターン記憶部 50 相関度計算部 60 相関度記憶部 70 特徴ベクトル分割部 80 クラスタリング部 90 クラスタメンバ記憶部 100 クラスタ中心記憶部 110 距離計算部 120 制御部 130 パターン作成部 140 標準パターン出力部 200 音声入力部 210 分析部 220 学習パターン記憶部 230 パワークラスタリング部 240 LPCパラメータークラスタリング部 250 パターン作成部 260 標準パターン出力部
Claims (1)
- 【請求項1】 音声を入力する音声入力部と、入力され
た音声データを分析し特徴ベクトルを抽出する分析部
と、抽出された特徴ベクトルから第1の標準パターンを
学習する学習部と、学習された第1の標準パターンを記
憶する学習パターン記憶部と、前記特徴ベクトル要素間
の相関の度合いを計算する相関度計算部と、前記相関度
から特徴ベクトル要素間の相関の強さを計算し、特徴ベ
クトルの分割を行なう特徴ベクトル分割部と、前記特徴
ベクトルからパターン間距離を計算する距離計算部と、
前記ベクトル分割情報、パターン間距離をもとに学習パ
ターンを分割特徴ベクトルごとにクラスタリングするク
ラスタリング部と、前記クラスタリングの結果得られる
クラスタ中心を記憶するクラスタ中心記憶部と、各クラ
スタを構成するパターンを記憶するクラスタメンバ記憶
部と、前記クラスタリングの結果をもとに標準パターン
を作成する標準パターン作成部とを有することを特徴と
する標準パターン作成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5310518A JP2973805B2 (ja) | 1993-12-10 | 1993-12-10 | 標準パターン作成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5310518A JP2973805B2 (ja) | 1993-12-10 | 1993-12-10 | 標準パターン作成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07160287A true JPH07160287A (ja) | 1995-06-23 |
JP2973805B2 JP2973805B2 (ja) | 1999-11-08 |
Family
ID=18006200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5310518A Expired - Lifetime JP2973805B2 (ja) | 1993-12-10 | 1993-12-10 | 標準パターン作成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2973805B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000250576A (ja) * | 1999-02-23 | 2000-09-14 | Motorola Inc | 音声認識システムにおいて特徴を抽出する方法 |
JP2013109274A (ja) * | 2011-11-24 | 2013-06-06 | Nippon Telegr & Teleph Corp <Ntt> | 目標話者学習方法、その装置及びプログラム |
WO2014109040A1 (ja) * | 2013-01-10 | 2014-07-17 | 富士通株式会社 | 制御方法、制御プログラム、および制御装置 |
JP2019139670A (ja) * | 2018-02-15 | 2019-08-22 | 株式会社東芝 | データ処理装置、データ処理方法およびプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0469780A (ja) * | 1990-07-10 | 1992-03-04 | N T T Data Tsushin Kk | 次元圧縮方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2800618B2 (ja) | 1993-02-09 | 1998-09-21 | 日本電気株式会社 | 音声パラメータ符号化方式 |
-
1993
- 1993-12-10 JP JP5310518A patent/JP2973805B2/ja not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0469780A (ja) * | 1990-07-10 | 1992-03-04 | N T T Data Tsushin Kk | 次元圧縮方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000250576A (ja) * | 1999-02-23 | 2000-09-14 | Motorola Inc | 音声認識システムにおいて特徴を抽出する方法 |
JP2013109274A (ja) * | 2011-11-24 | 2013-06-06 | Nippon Telegr & Teleph Corp <Ntt> | 目標話者学習方法、その装置及びプログラム |
WO2014109040A1 (ja) * | 2013-01-10 | 2014-07-17 | 富士通株式会社 | 制御方法、制御プログラム、および制御装置 |
JPWO2014109040A1 (ja) * | 2013-01-10 | 2017-01-19 | 富士通株式会社 | 制御方法、制御プログラム、および制御装置 |
JP2019139670A (ja) * | 2018-02-15 | 2019-08-22 | 株式会社東芝 | データ処理装置、データ処理方法およびプログラム |
US10853400B2 (en) | 2018-02-15 | 2020-12-01 | Kabushiki Kaisha Toshiba | Data processing device, data processing method, and computer program product |
Also Published As
Publication number | Publication date |
---|---|
JP2973805B2 (ja) | 1999-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rabiner et al. | HMM clustering for connected word recognition | |
EP0847041B1 (en) | Method and apparatus for speech recognition performing noise adaptation | |
JP4109063B2 (ja) | 音声認識装置及び音声認識方法 | |
US5167004A (en) | Temporal decorrelation method for robust speaker verification | |
JP4913204B2 (ja) | 音声認識システムのための動的にコンフィギュレーション可能な音響モデル | |
JP4141495B2 (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
US4908865A (en) | Speaker independent speech recognition method and system | |
US4837831A (en) | Method for creating and using multiple-word sound models in speech recognition | |
EP1526504B1 (en) | Multiple models integration for multi-environment speech recognition | |
JP3037864B2 (ja) | 音声コード化装置及び方法 | |
JPH05216490A (ja) | 音声コード化装置及び方法並びに音声認識装置及び方法 | |
JPH0535299A (ja) | 音声符号化方法及び装置 | |
EP0645755A1 (en) | Speech coding apparatus and method using classification rules | |
US5794198A (en) | Pattern recognition method | |
JPH11242494A (ja) | 話者適応化装置と音声認識装置 | |
Bocchieri et al. | Discriminative feature selection for speech recognition | |
KR100574769B1 (ko) | 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법 | |
JP2973805B2 (ja) | 標準パターン作成装置 | |
JP2001083986A (ja) | 統計モデル作成方法 | |
JP2982689B2 (ja) | 情報量基準を用いた標準パターン作成方式 | |
JPH10254473A (ja) | 音声変換方法及び音声変換装置 | |
JP3029803B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
Yu et al. | Speaker recognition models. | |
EP0190489B1 (en) | Speaker-independent speech recognition method and system | |
Padmanabhan et al. | Decision-tree based quantization of the feature space of a speech recognizer. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19990803 |