JP3245149B2 - パターン認識装置 - Google Patents
パターン認識装置Info
- Publication number
- JP3245149B2 JP3245149B2 JP31438389A JP31438389A JP3245149B2 JP 3245149 B2 JP3245149 B2 JP 3245149B2 JP 31438389 A JP31438389 A JP 31438389A JP 31438389 A JP31438389 A JP 31438389A JP 3245149 B2 JP3245149 B2 JP 3245149B2
- Authority
- JP
- Japan
- Prior art keywords
- function
- standard pattern
- pattern
- standard
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Image Analysis (AREA)
Description
[産業上の利用分野] 本発明は、各カテゴリごとに複数個ずつ用意された標
準パターンを用いて識別を行うパターン認識装置に関す
る。 [発明の概要] 各カテゴリごとに複数個ずつ用意した標準パターンを
用いて識別を行なうパターン認識のための標準パターン
構成法に関するもので、与えられた学習データを識別率
を評価関数として最適に分類して標準パターンを構成す
ることにより、従来からの識別率を考慮に入れていない
クラスタリング法を用いて標準パターンを構成する方式
よりも高い識別性能が得られるようにしたものである。 [従来の技術] 各カテゴリごとに複数個の標準パターンを用意して識
別を行なうパターン認識方式のための標準パターン構成
法としては、例えば、長尾真著:岩波講座情報科学21
「パターン認識と図形処理」(岩波書店発行)に開示さ
れているようなクラスタリングの手法を用いた技術が考
えられる。従来のクラスタリングは、学習データが分布
している空間において距離を定義した上、各カテゴリご
とに互いに距離が近いものを集めてクラスタを構成する
方法であり、標準パターンは各クラスタごとに重心を計
算することによって与えられる。 このように、データの分類という観点から標準パター
ンを構成する方法はあるが、本発明のように識別という
観点からクラスタを構成する方法は皆無であった。 [発明が解決しようとする課題] 従来のクラスタリングを用いる標準パターンの構成法
は、各カテゴリごとに互いに距離の近いものを集めるこ
とによって学習データを分類する方法であって、識別と
いう点で他のカテゴリとの関係を考慮していないので、
得られた標準パターンは識別という意味では必ずしも適
当なものではなかった。そこで、より高い識別能力を実
現するためには、識別という観点から標準パターンを構
成する必要がある。 本発明の目的は、かかる点に鑑み、学習データに対し
て識別という意味で最適なクラスタリングを行なって、
標準パターンを構成することにより、各カテゴリごとに
複数個の標準パターンを用意して識別を行なうというパ
ターン認識方式の中で、従来よりも高いパターン識別能
力をもつパターン認識装置を提供することにある。 [課題を解決するための手段] 上記目的を達成するため、本発明は、各カテゴリごと
に複数個ずつ用意された標準パターンを用いて識別を行
うパターン認識装置において、学習データを各カテゴリ
毎に複数のクラスタに分割するクラスタ分割手段と、各
前記クラスタ毎に代表点を決める代表点決定手段と、当
該代表点によって標準パターンを構成する標準パターン
構成手段と、当該標準パターンを用いて前記学習データ
を認識したときの誤認識の程度を示す関数を構成する関
数構成手段と、前記関数を評価関数として前記クラスタ
分割を最適化するクラスタ分割最適化手段と、を具備
し、最適化されたクラスタ分割に対応する代表点による
標準パターンをもって最終的な標準パターンとし、当該
最終的な標準パターンを用いて識別を行うことを特徴と
する。 本発明の一形態として、前記誤認識の程度を示す関数
は、集合{tir}を標準パターンとして、学習データの
集合{Xij}を認識した時の誤認識の程度を示す関数E
であり、該関数Eは関数μを選ぶことにより次式
準パターンを用いて識別を行うパターン認識装置に関す
る。 [発明の概要] 各カテゴリごとに複数個ずつ用意した標準パターンを
用いて識別を行なうパターン認識のための標準パターン
構成法に関するもので、与えられた学習データを識別率
を評価関数として最適に分類して標準パターンを構成す
ることにより、従来からの識別率を考慮に入れていない
クラスタリング法を用いて標準パターンを構成する方式
よりも高い識別性能が得られるようにしたものである。 [従来の技術] 各カテゴリごとに複数個の標準パターンを用意して識
別を行なうパターン認識方式のための標準パターン構成
法としては、例えば、長尾真著:岩波講座情報科学21
「パターン認識と図形処理」(岩波書店発行)に開示さ
れているようなクラスタリングの手法を用いた技術が考
えられる。従来のクラスタリングは、学習データが分布
している空間において距離を定義した上、各カテゴリご
とに互いに距離が近いものを集めてクラスタを構成する
方法であり、標準パターンは各クラスタごとに重心を計
算することによって与えられる。 このように、データの分類という観点から標準パター
ンを構成する方法はあるが、本発明のように識別という
観点からクラスタを構成する方法は皆無であった。 [発明が解決しようとする課題] 従来のクラスタリングを用いる標準パターンの構成法
は、各カテゴリごとに互いに距離の近いものを集めるこ
とによって学習データを分類する方法であって、識別と
いう点で他のカテゴリとの関係を考慮していないので、
得られた標準パターンは識別という意味では必ずしも適
当なものではなかった。そこで、より高い識別能力を実
現するためには、識別という観点から標準パターンを構
成する必要がある。 本発明の目的は、かかる点に鑑み、学習データに対し
て識別という意味で最適なクラスタリングを行なって、
標準パターンを構成することにより、各カテゴリごとに
複数個の標準パターンを用意して識別を行なうというパ
ターン認識方式の中で、従来よりも高いパターン識別能
力をもつパターン認識装置を提供することにある。 [課題を解決するための手段] 上記目的を達成するため、本発明は、各カテゴリごと
に複数個ずつ用意された標準パターンを用いて識別を行
うパターン認識装置において、学習データを各カテゴリ
毎に複数のクラスタに分割するクラスタ分割手段と、各
前記クラスタ毎に代表点を決める代表点決定手段と、当
該代表点によって標準パターンを構成する標準パターン
構成手段と、当該標準パターンを用いて前記学習データ
を認識したときの誤認識の程度を示す関数を構成する関
数構成手段と、前記関数を評価関数として前記クラスタ
分割を最適化するクラスタ分割最適化手段と、を具備
し、最適化されたクラスタ分割に対応する代表点による
標準パターンをもって最終的な標準パターンとし、当該
最終的な標準パターンを用いて識別を行うことを特徴と
する。 本発明の一形態として、前記誤認識の程度を示す関数
は、集合{tir}を標準パターンとして、学習データの
集合{Xij}を認識した時の誤認識の程度を示す関数E
であり、該関数Eは関数μを選ぶことにより次式
【数2】 で定義されることを特徴とすることができる。 [作 用] 本発明は、学習データを各カテゴリ毎に複数のクラス
タに分割し、各クラスタ毎に代表点を決め、当該代表点
によって標準パターンを構成し、当該標準パターンを用
いて学習データを認識したときの誤認識の程度を示す関
数を構成し、この関数を評価関数としてクラスタ分割を
最適化し、最適化されたクラスタ分割に対応する代表点
による標準パターンをもって最終的な標準パターンと
し、当該最終的な標準パターンを用いて識別を行うの
で、各カテゴリごとに複数個ずつ用意された標準パター
ンを用いて識別を行うパターン認識装置において、パタ
ーン識別能力を向上させることができる。 [実施例] 以下、図面を参照して本発明の実施例を詳細に説明す
る。 実施例の詳細 まず、次のように記法を定める。 K :識別すべきパターンのカテゴリ数 Ni :カテゴリiに対する学習データの数 (i=1,…,K) Mi :カテゴリiに対するクラスタの数 (i=1,…,K) Xij :学習データ (i=1,…,K、j=1,…,Ni) Cir :カテゴリ(例えば、母音)iに対するr番目のク
ラスタ (i=1,…,K、r=1,…,Mi) Sir :クラスタCirに含まれる学習データの数 (i=1,…,K、r=1,…,Mi) yirp :クラスタCirに属するp番目の学習データ (i=1,…,K、r=1,…,Mi、p=1,…,Sir) 但し、yirp∈{Xij} tir :カテゴリ(例えば、母音)iに対するr番目の標
準パターン (i=1,…,K、r=1,…,Mi) E :標準パターンの組{tir}を用いて全学習パター
ン{Xij}を識別した時の誤認識の程度を表わす関数 A,B :繰返しの回数 本発明実施例は、上記の関数Eを最小にする標準パタ
ーンの組{tir}を構成することを特徴とする。関数E
を最小化する方法として、組合せ最適化問題を解く方法
の1つであるアニーリング法(simulated annealing)
を用いた場合の、本発明の実施例のフローチャートを、
第1図から第3図までに示す。図示したB2〜B40の各ブ
ロック(処理ステップとも称する)における実行内容は
次の通りである。なお、このアルゴリズムを実行するた
めの計算機、記憶装置等は標準パターン作成に用いるこ
とのできる一般的なものを適用できるので、その説明は
省略する。 B2 :まず学習データの集合{Xij}を各カテゴリごとに
予め決められた数Mi個のクラスタCi1、…、CiMiに分類
する。本実施例では、従来のクラスタリング法を用いて
この分類を行う。最後に、得られたクラスタの集合{C
ir}を出力する。 B4 :{yirp}をクラスタCirに含まれる学習データの集
合とすると、クラスタCirから得られる標準パターンtir
を次式(1)により計算する。 ここで、SirはクラスタCirに含まれる学習データの数
である。また、学習データがベクトル空間上の点で表現
されている場合には、上式のΣはベクトルの和を計算す
ることを意味することとする。全てのクラスタに対し標
準パターンを計算した後、標準パターンの集合{tir}
を出力して、本ブロックは処理を終える。 B6 :集合{tir}を標準パターンとして、学習データの
集合{Xir}を認識した時の誤認識の程度を表わす関数
Eを計算する。誤認識された学習データの個数でEを定
義しても良いが、本実施例では、次のようにしてEを計
算する。先ず、ある学習データXijに対して次の2つの
距離d1,d2を定義する。 ここで、dは2つのパターン間のユークリッド距離を
表わす。この時、λを λ(Xij,{tir}) =d1(Xij,{tir}) /(d1(Xij,{tir}) +d2(Xij,{tir})) …(2) で定義する。上式(2)から明らかに、0≦λ≦1であ
る。このλと、パラメータκ(0<κ<0.5)に対して
関数μ(Xij,{tir})を定義する。具体的には、λ<
0.5−κの場合にはμ=0,0.5−κ≦λ<0.5+κに対し
て μ=(λ−κ−0.5)/2κ …(3) とし、0.5+κ≦λに対してμ=1とする。標準パター
ンを用いる識別の場合には、λ<0.5なら正しく識別さ
れ、λ≧0.5ならば誤って識別される。従って、λ≧0.5
に対して1、それ以外のλに対して0となる関数μ′を
考えると、μ′は誤識別かどうかを0と1で表現する。
上式(3)のμは、このμ′にパラメータκを導入した
ものであり、誤認識の程度を表わす関数となっている。
関数Eを次式(4) で定義する。明らかにEは標準パターンの組{tir}の
関数であり、標準パターンとして{tir}を選んで学習
パターン全体を識別したときの誤識別の程度を表わす。 B7 :E*の初期値としてB6で求めたEを代入する。 B84:変数aに0を代入する。 B10:変数bに0を代入する。 B12:2つの誤認識の程度EとE*を比較する。E<E*
の場合はB14へ進み、それ以外の場合はB16へ飛ぶ。 B14:クラスタの集合{Cir}及び標準パターンの集合{t
ir}の全要素をそれぞれ集合{Cir *}{tir *}の要素
とし、Eの値をE*に代入する操作を行なう。 B16:アニーリング法におけるパラメータの1つである
「温度」Taを次式(5)により設定する。 Ta=0.1/log(2+a) …(5) B18:クラスタの集合{Cir}の中からランダムに1つの
クラスタCvwを選択する。 B20:B18で選ばれたクラスタCvwと同じカテゴリに属し、
Cvwとは異なるクラスタCvzをクラスタの集合{Cir}の
中からランダムに選択する。 B22:B18で選ばれたクラスタCvwに含まれる学習データの
中から、 d(yvwp,tvz)<ν・d(yvwp,tvw) を満たす学習データyvwpをランダムに選ぶ。ここで、t
vw,tvzはそれぞれクラスタCvw,Cvzに対応する標準パタ
ーンである。また、νは経験に基づいて適当に与えられ
た定数である。但し、この定数νの値は1以上(例えば
1.5)である。 B23:データyvwpをいままでのクラスタCvwから別のクラ
スタCvzに移すことにより、クラスタの集合{Cir}に対
し摂動を与える。摂動後のクラスタの集合を{Cir′}
と表すこととする。 B24:B4と同様にして、標準パターン{tir′}の計算を
行う。 B25:B6と同様にして、誤認識の程度E′の計算を行う。 B26:区間[0,1]の間で一様分布する乱数ωを発生す
る。 B28:2つの誤認識の程度を表す関数E′,Eの差(E′−
E)が負であるか、あるいはB26で発生された乱数ωがe
xp(−(E′−E)/Ta)未満であるか否かを判定す
る。 肯定(YES)の判定結果の場合はB30へ進み、否定(NO)
の判定結果の場合はB32へ飛ぶ。 B30:クラスタの集合{Cir′}及び標準パターンの集合
{tir′}の全要素をそれぞれ集合{Cir}および
{tir}の要素とし、E′の値をEに代入する操作を行
なう。 B32:変数bの値を1だけ増加させる。 B34:変数bが予め設定された値(繰り返しの回数)Bよ
りも大きいか否かを判定する。否定判定の場合はB12へ
戻り、肯定判定の場合はB36へ進む。 B36:変数aの値を1だけ増加させる。 B38:変数aが予め設定された値(繰り返しの回数)Aよ
りも大きいか否かを判定する。否定判定の場合はB10へ
戻り、肯定判定の場合はB40へ進む。 B40:集合{tir *}を最終的な標準パターンの集合と決
定し、標準パターンを格納するためのあらかじめ定めた
メモリ(例えば、RAM)の所定領域に格納する。 以上に示した本実施例では、アニーリング法を用いた
場合について述べてきたが、例えば、B28の判断条件を
E′−E<0のみにすると最急降下法を用いる場合に対
応する。従って、本発明は、アニーリング法を用いる場
合に限らず、他の最適化手法を用いる場合にも常に適応
し得ることは勿論である。 実験結果 以上に述べた通り、本発明によれば、識別に適した標
準パターンを構成することができるので、標準パターン
を用いるパターン認識であれば音声認識に限らず、図形
認識等においても識別能力の向上を図るために本発明を
適応することができる。 ここでは、音声認識のうちで、標準パターンを用いて
母音を認識する場合に本発明を適応した結果について述
べる。 母音として撥音を含む6母音/a/,/i/,/u/,/e/,/o/,/N
/を想定し、これらの6つの各カテゴリごとに3つずつ
の標準パターン(すなわち、K=6,Mi=3(i=1,
6))を用意して母音認識を行なう場合について検討し
た。従って、全クラスタ数は18となる。検討に当っては
男性話者2名が発声した連続音声を、第2図に示すよう
に、標本化周波数15kHzで標本化し、18次のLPC(線形予
測符号化)ケプストラム分析を行なった後、母音中心3
フレームを平均して母音データを作成した。 1名分の音声データ(話者1と称する)については、
母音中心は視察によって定めた。 もう1名の話者の音声データ(話者2と称する)は、
ATR(アドバンスト テレコミュニケーションズ リサ
ーチ インスティテュト インタナショナル)音声デー
タベースの中の話者MAUが文節単位に発声した文章デー
タ(SA1〜SA4)であり、母音中心はこのデータベースに
付与された母音中心のラベルに基づいて定めた。 このようなデータを各カテゴリごとに100個ずつ作成
し、これらを50個ずつに分割して(すなわち、Ni=50
(i=1,6))、データセットA、データセットBを作
成した。 データセットAを用いて標準パターンを構成し、デー
タセットA(学習データ)の認識及びデータセットB
(未知データ)の認識を行なった。 データセットBを用いて標準パターンを構成する場合
についても同様のことを行ない、最後に、学習データ、
未知データ別に認識率を平均した。 なお、第1図〜第3図のフローチャートのアルゴリズ
ムを使用するに当っては、B2,B24に示すクラスタ集合の
初期化を、従来から提案されているクラスタリングアル
ゴリズムの1つであるLBG(Linde,Buzo,Gray)アルゴリ
ズムを用いて行なった。 また、B6,B25におけるパラメータκを0.2、B22におけ
るパラメータνを1.5と設定した。また、B38のAを200,
B34のBを10と設定した。 比較のため、従来のクラスタリング法の例としてLBG
アルゴリズムのみを用いる場合についても同様の認識実
験を行なった。 実験結果を表1に示す。表1により何れの話者につい
ても、特に未知データの場合、本発明を用いると誤認識
率が下がり、従って認識性能が向上することが確認でき
た。 [発明の効果] 以上説明したように、本発明によれば、学習データを
各カテゴリ毎に複数のクラスタに分割し、各クラスタ毎
に代表点を決め、当該代表点によって標準パターンを構
成し、当該標準パターンを用いて学習データを認識した
ときの誤認識の程度を示す関数を構成し、この関数を評
価関数としてクラスタ分割を最適化し、最適化されたク
ラスタ分割に対応する代表点による標準パターンをもっ
て最終的な標準パターンとし、当該最終的な標準パター
ンを用いて識別を行うので、各カテゴリごとに複数個ず
つ用意された標準パターンを用いて識別を行うパターン
認識装置において、パターン識別能力を向上させること
ができる。
タに分割し、各クラスタ毎に代表点を決め、当該代表点
によって標準パターンを構成し、当該標準パターンを用
いて学習データを認識したときの誤認識の程度を示す関
数を構成し、この関数を評価関数としてクラスタ分割を
最適化し、最適化されたクラスタ分割に対応する代表点
による標準パターンをもって最終的な標準パターンと
し、当該最終的な標準パターンを用いて識別を行うの
で、各カテゴリごとに複数個ずつ用意された標準パター
ンを用いて識別を行うパターン認識装置において、パタ
ーン識別能力を向上させることができる。 [実施例] 以下、図面を参照して本発明の実施例を詳細に説明す
る。 実施例の詳細 まず、次のように記法を定める。 K :識別すべきパターンのカテゴリ数 Ni :カテゴリiに対する学習データの数 (i=1,…,K) Mi :カテゴリiに対するクラスタの数 (i=1,…,K) Xij :学習データ (i=1,…,K、j=1,…,Ni) Cir :カテゴリ(例えば、母音)iに対するr番目のク
ラスタ (i=1,…,K、r=1,…,Mi) Sir :クラスタCirに含まれる学習データの数 (i=1,…,K、r=1,…,Mi) yirp :クラスタCirに属するp番目の学習データ (i=1,…,K、r=1,…,Mi、p=1,…,Sir) 但し、yirp∈{Xij} tir :カテゴリ(例えば、母音)iに対するr番目の標
準パターン (i=1,…,K、r=1,…,Mi) E :標準パターンの組{tir}を用いて全学習パター
ン{Xij}を識別した時の誤認識の程度を表わす関数 A,B :繰返しの回数 本発明実施例は、上記の関数Eを最小にする標準パタ
ーンの組{tir}を構成することを特徴とする。関数E
を最小化する方法として、組合せ最適化問題を解く方法
の1つであるアニーリング法(simulated annealing)
を用いた場合の、本発明の実施例のフローチャートを、
第1図から第3図までに示す。図示したB2〜B40の各ブ
ロック(処理ステップとも称する)における実行内容は
次の通りである。なお、このアルゴリズムを実行するた
めの計算機、記憶装置等は標準パターン作成に用いるこ
とのできる一般的なものを適用できるので、その説明は
省略する。 B2 :まず学習データの集合{Xij}を各カテゴリごとに
予め決められた数Mi個のクラスタCi1、…、CiMiに分類
する。本実施例では、従来のクラスタリング法を用いて
この分類を行う。最後に、得られたクラスタの集合{C
ir}を出力する。 B4 :{yirp}をクラスタCirに含まれる学習データの集
合とすると、クラスタCirから得られる標準パターンtir
を次式(1)により計算する。 ここで、SirはクラスタCirに含まれる学習データの数
である。また、学習データがベクトル空間上の点で表現
されている場合には、上式のΣはベクトルの和を計算す
ることを意味することとする。全てのクラスタに対し標
準パターンを計算した後、標準パターンの集合{tir}
を出力して、本ブロックは処理を終える。 B6 :集合{tir}を標準パターンとして、学習データの
集合{Xir}を認識した時の誤認識の程度を表わす関数
Eを計算する。誤認識された学習データの個数でEを定
義しても良いが、本実施例では、次のようにしてEを計
算する。先ず、ある学習データXijに対して次の2つの
距離d1,d2を定義する。 ここで、dは2つのパターン間のユークリッド距離を
表わす。この時、λを λ(Xij,{tir}) =d1(Xij,{tir}) /(d1(Xij,{tir}) +d2(Xij,{tir})) …(2) で定義する。上式(2)から明らかに、0≦λ≦1であ
る。このλと、パラメータκ(0<κ<0.5)に対して
関数μ(Xij,{tir})を定義する。具体的には、λ<
0.5−κの場合にはμ=0,0.5−κ≦λ<0.5+κに対し
て μ=(λ−κ−0.5)/2κ …(3) とし、0.5+κ≦λに対してμ=1とする。標準パター
ンを用いる識別の場合には、λ<0.5なら正しく識別さ
れ、λ≧0.5ならば誤って識別される。従って、λ≧0.5
に対して1、それ以外のλに対して0となる関数μ′を
考えると、μ′は誤識別かどうかを0と1で表現する。
上式(3)のμは、このμ′にパラメータκを導入した
ものであり、誤認識の程度を表わす関数となっている。
関数Eを次式(4) で定義する。明らかにEは標準パターンの組{tir}の
関数であり、標準パターンとして{tir}を選んで学習
パターン全体を識別したときの誤識別の程度を表わす。 B7 :E*の初期値としてB6で求めたEを代入する。 B84:変数aに0を代入する。 B10:変数bに0を代入する。 B12:2つの誤認識の程度EとE*を比較する。E<E*
の場合はB14へ進み、それ以外の場合はB16へ飛ぶ。 B14:クラスタの集合{Cir}及び標準パターンの集合{t
ir}の全要素をそれぞれ集合{Cir *}{tir *}の要素
とし、Eの値をE*に代入する操作を行なう。 B16:アニーリング法におけるパラメータの1つである
「温度」Taを次式(5)により設定する。 Ta=0.1/log(2+a) …(5) B18:クラスタの集合{Cir}の中からランダムに1つの
クラスタCvwを選択する。 B20:B18で選ばれたクラスタCvwと同じカテゴリに属し、
Cvwとは異なるクラスタCvzをクラスタの集合{Cir}の
中からランダムに選択する。 B22:B18で選ばれたクラスタCvwに含まれる学習データの
中から、 d(yvwp,tvz)<ν・d(yvwp,tvw) を満たす学習データyvwpをランダムに選ぶ。ここで、t
vw,tvzはそれぞれクラスタCvw,Cvzに対応する標準パタ
ーンである。また、νは経験に基づいて適当に与えられ
た定数である。但し、この定数νの値は1以上(例えば
1.5)である。 B23:データyvwpをいままでのクラスタCvwから別のクラ
スタCvzに移すことにより、クラスタの集合{Cir}に対
し摂動を与える。摂動後のクラスタの集合を{Cir′}
と表すこととする。 B24:B4と同様にして、標準パターン{tir′}の計算を
行う。 B25:B6と同様にして、誤認識の程度E′の計算を行う。 B26:区間[0,1]の間で一様分布する乱数ωを発生す
る。 B28:2つの誤認識の程度を表す関数E′,Eの差(E′−
E)が負であるか、あるいはB26で発生された乱数ωがe
xp(−(E′−E)/Ta)未満であるか否かを判定す
る。 肯定(YES)の判定結果の場合はB30へ進み、否定(NO)
の判定結果の場合はB32へ飛ぶ。 B30:クラスタの集合{Cir′}及び標準パターンの集合
{tir′}の全要素をそれぞれ集合{Cir}および
{tir}の要素とし、E′の値をEに代入する操作を行
なう。 B32:変数bの値を1だけ増加させる。 B34:変数bが予め設定された値(繰り返しの回数)Bよ
りも大きいか否かを判定する。否定判定の場合はB12へ
戻り、肯定判定の場合はB36へ進む。 B36:変数aの値を1だけ増加させる。 B38:変数aが予め設定された値(繰り返しの回数)Aよ
りも大きいか否かを判定する。否定判定の場合はB10へ
戻り、肯定判定の場合はB40へ進む。 B40:集合{tir *}を最終的な標準パターンの集合と決
定し、標準パターンを格納するためのあらかじめ定めた
メモリ(例えば、RAM)の所定領域に格納する。 以上に示した本実施例では、アニーリング法を用いた
場合について述べてきたが、例えば、B28の判断条件を
E′−E<0のみにすると最急降下法を用いる場合に対
応する。従って、本発明は、アニーリング法を用いる場
合に限らず、他の最適化手法を用いる場合にも常に適応
し得ることは勿論である。 実験結果 以上に述べた通り、本発明によれば、識別に適した標
準パターンを構成することができるので、標準パターン
を用いるパターン認識であれば音声認識に限らず、図形
認識等においても識別能力の向上を図るために本発明を
適応することができる。 ここでは、音声認識のうちで、標準パターンを用いて
母音を認識する場合に本発明を適応した結果について述
べる。 母音として撥音を含む6母音/a/,/i/,/u/,/e/,/o/,/N
/を想定し、これらの6つの各カテゴリごとに3つずつ
の標準パターン(すなわち、K=6,Mi=3(i=1,
6))を用意して母音認識を行なう場合について検討し
た。従って、全クラスタ数は18となる。検討に当っては
男性話者2名が発声した連続音声を、第2図に示すよう
に、標本化周波数15kHzで標本化し、18次のLPC(線形予
測符号化)ケプストラム分析を行なった後、母音中心3
フレームを平均して母音データを作成した。 1名分の音声データ(話者1と称する)については、
母音中心は視察によって定めた。 もう1名の話者の音声データ(話者2と称する)は、
ATR(アドバンスト テレコミュニケーションズ リサ
ーチ インスティテュト インタナショナル)音声デー
タベースの中の話者MAUが文節単位に発声した文章デー
タ(SA1〜SA4)であり、母音中心はこのデータベースに
付与された母音中心のラベルに基づいて定めた。 このようなデータを各カテゴリごとに100個ずつ作成
し、これらを50個ずつに分割して(すなわち、Ni=50
(i=1,6))、データセットA、データセットBを作
成した。 データセットAを用いて標準パターンを構成し、デー
タセットA(学習データ)の認識及びデータセットB
(未知データ)の認識を行なった。 データセットBを用いて標準パターンを構成する場合
についても同様のことを行ない、最後に、学習データ、
未知データ別に認識率を平均した。 なお、第1図〜第3図のフローチャートのアルゴリズ
ムを使用するに当っては、B2,B24に示すクラスタ集合の
初期化を、従来から提案されているクラスタリングアル
ゴリズムの1つであるLBG(Linde,Buzo,Gray)アルゴリ
ズムを用いて行なった。 また、B6,B25におけるパラメータκを0.2、B22におけ
るパラメータνを1.5と設定した。また、B38のAを200,
B34のBを10と設定した。 比較のため、従来のクラスタリング法の例としてLBG
アルゴリズムのみを用いる場合についても同様の認識実
験を行なった。 実験結果を表1に示す。表1により何れの話者につい
ても、特に未知データの場合、本発明を用いると誤認識
率が下がり、従って認識性能が向上することが確認でき
た。 [発明の効果] 以上説明したように、本発明によれば、学習データを
各カテゴリ毎に複数のクラスタに分割し、各クラスタ毎
に代表点を決め、当該代表点によって標準パターンを構
成し、当該標準パターンを用いて学習データを認識した
ときの誤認識の程度を示す関数を構成し、この関数を評
価関数としてクラスタ分割を最適化し、最適化されたク
ラスタ分割に対応する代表点による標準パターンをもっ
て最終的な標準パターンとし、当該最終的な標準パター
ンを用いて識別を行うので、各カテゴリごとに複数個ず
つ用意された標準パターンを用いて識別を行うパターン
認識装置において、パターン識別能力を向上させること
ができる。
第1図,第2図および第3図は、本発明のパターン認識
装置の一実施例の標準パターン構成手順を示すフローチ
ャート、 第4図は、本発明を実施したパターン認識装置の機能構
成例を示すブロック図である。 4……クラスタ化・標準パターン構成ブロック(B2〜B4
0に相当)、 6……照合ブロック、 7……判定ブロック。
装置の一実施例の標準パターン構成手順を示すフローチ
ャート、 第4図は、本発明を実施したパターン認識装置の機能構
成例を示すブロック図である。 4……クラスタ化・標準パターン構成ブロック(B2〜B4
0に相当)、 6……照合ブロック、 7……判定ブロック。
フロントページの続き (56)参考文献 鹿野清宏著「不特定話音単語音声認識 における単語マルチテンプレートの一選 択法」信学技報 PRL83−38,PP. 39−46(1983) 尾関和彦 安藤彰男著「疑似アニーリ ング法による母音標準パターンの最適配 置」日本音響学会 昭和63年秋季講演論 文集2−P−(22),昭和63年10月
Claims (2)
- 【請求項1】各カテゴリごとに複数個ずつ用意された標
準パターンを用いて識別を行うパターン認識装置におい
て、 学習データを各カテゴリ毎に複数のクラスタに分割する
クラスタ分割手段と、 各前記クラスタ毎に代表点を決める代表点決定手段と、 当該代表点によって標準パターンを構成する標準パター
ン構成手段と、 当該標準パターンを用いて前記学習データを認識したと
きの誤認識の程度を示す関数を構成する関数構成手段
と、 前記関数を評価関数として前記クラスタ分割を最適化す
るクラスタ分割最適化手段と、 を具備し、最適化されたクラスタ分割に対応する代表点
による標準パターンをもって最終的な標準パターンと
し、当該最終的な標準パターンを用いて識別を行うこと
を特徴とするパターン認識装置。 - 【請求項2】前記誤認識の程度を示す関数は、集合{t
ir}を標準パターンとして、学習データの集合{Xij}
を認識した時の誤認識の程度を示す関数Eであり、該関
数Eは関数μを選ぶことにより次式 【数1】 で定義されることを特徴とする請求項1に記載のパター
ン認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31438389A JP3245149B2 (ja) | 1989-12-05 | 1989-12-05 | パターン認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31438389A JP3245149B2 (ja) | 1989-12-05 | 1989-12-05 | パターン認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03176781A JPH03176781A (ja) | 1991-07-31 |
JP3245149B2 true JP3245149B2 (ja) | 2002-01-07 |
Family
ID=18052682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP31438389A Expired - Fee Related JP3245149B2 (ja) | 1989-12-05 | 1989-12-05 | パターン認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3245149B2 (ja) |
-
1989
- 1989-12-05 JP JP31438389A patent/JP3245149B2/ja not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
尾関和彦 安藤彰男著「疑似アニーリング法による母音標準パターンの最適配置」日本音響学会 昭和63年秋季講演論文集2−P−(22),昭和63年10月 |
鹿野清宏著「不特定話音単語音声認識における単語マルチテンプレートの一選択法」信学技報 PRL83−38,PP.39−46(1983) |
Also Published As
Publication number | Publication date |
---|---|
JPH03176781A (ja) | 1991-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021208719A1 (zh) | 基于语音的情绪识别方法、装置、设备及存储介质 | |
CN110853666B (zh) | 一种说话人分离方法、装置、设备及存储介质 | |
US5457768A (en) | Speech recognition apparatus using syntactic and semantic analysis | |
EP0099476B1 (en) | Identity verification system | |
CN108197282B (zh) | 文件数据的分类方法、装置及终端、服务器、存储介质 | |
US6253179B1 (en) | Method and apparatus for multi-environment speaker verification | |
JP4728972B2 (ja) | インデキシング装置、方法及びプログラム | |
CN112464638B (zh) | 一种基于改进谱聚类算法的文本聚类方法 | |
CN111916111A (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
Sahoo et al. | Emotion recognition from audio-visual data using rule based decision level fusion | |
CN108228732A (zh) | 语言存储方法和语言对话系统 | |
CN111462761A (zh) | 声纹数据生成方法、装置、计算机装置及存储介质 | |
CN112101243A (zh) | 一种基于关键姿势和dtw的人体动作识别方法 | |
GB2576960A (en) | Speaker recognition | |
JP2002132286A (ja) | 音声認識方法 | |
JP3245149B2 (ja) | パターン認識装置 | |
JP3536471B2 (ja) | 識別装置および識別方法、並びに音声認識装置および音声認識方法 | |
Lim et al. | Interlayer selective attention network for robust personalized wake-up word detection | |
Dhakal | Novel Architectures for Human Voice and Environmental Sound Recognitionusing Machine Learning Algorithms | |
JPH05314320A (ja) | 認識距離の差と候補順を利用した認識結果の評価方式 | |
JPS63186298A (ja) | 単語音声認識装置 | |
Helmi et al. | Speech recognition with fuzzy neural network for discrete words | |
Sun et al. | A method of speaker recognition for small-scale speakers based on one-versus-rest and neural network | |
Liu et al. | Improved phonotactic language recognition based on RNN feature reconstruction | |
Ramya et al. | Genetic Algorithm‐Based Optimization for Speech Processing Applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |