JP2739950B2

JP2739950B2 - パターン認識装置

Info

Publication number: JP2739950B2
Application number: JP63078827A
Authority: JP
Inventors: 英生瀬川
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1988-03-31
Filing date: 1988-03-31
Publication date: 1998-04-15
Anticipated expiration: 2013-04-15
Also published as: EP0335739A2; EP0335739A3; US5023912A; JPH01251100A

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）本発明は、音声認識や文字認識において求められる類
似度値（又は距離）を事後確率へ変換して認識精度を高
めるようにしたパターン認識装置に係わり、特に登録語
彙の内容に基づく事前確率を事後確率に反映させるよう
にしたパターン認識装置に関する。

（従来の技術）従来より、連続して入力される音声や文字を、単語列
や文字列単位で認識するパターン認識装置が知られてい
る。その一つとして複合類似度法を用いた連続数字音声
認識アルゴリズムについて説明する。

連続発声された入力音声は一定時間毎のフレームに分
割される。いま、１フレームからｍフレームまでの入力
音声区間［1,m］について考えると、音声認識の前処理
においては、音声が１フレーム入力される毎にスペクト
ル変化が抽出され、その大きさによって単語境界候補が
求められる。そして、この単語境界候補に求められる度
に単語認識部が起動される。

単語認識部においては、［1,m］を二つの部分区間、
即ち、［1,ki］［ki,m］に分割する。kiは、単語境界候補である。［1,ki］は、
単語列ｗに相当する部分音声区間で［ki,m］は一つの
単語wiに相当する単語音声区間である。ここで、単語列
Wiは、 Wi＝ｗ＋wi …（１）で表され、これがｉフレームで分割されたときの音声区
間［1,m］の認識単語列候補となる。この認識単語列候
補Wiを全てのki（ｉ＝1,2,…,n）に関して求め、これに
よって得られた候補のうち最大の類似度値を有する単語
列Ｗが音声区間［1,m］の認識単語列となる。但し、ｎ
は単語列認識時に記憶する部分区間に対応する認識単語
列の数であり、システムが認定するパラメータである。
このアルゴリズムでｍを順次増やしていくことで、全音
声区間の認識単語列を求めることができる。

ところで、このような連続音声認識の方法では、入力
単語数が未知であることから、入力音声パターンＬを正
確に単語列Ｗであると認識するには、その前提として検
出された音声区間が正しく単語と対応しているかどうか
を考慮する必要がある。これを考慮することなしに単純
に類似度を組合わせて単語列認識を行なっても、類似度
は確率的な尺度ではないので、認識率を上げることはで
きない。

そこで、従来より、得られた類似度を事後確率に変換
し、これを類似度よりも精度の高い評価値として用いら
れることも行われている。

即ち、いま、単語集合Ｃ＝｛c1,c2,…,Ci｝の要素に
より、構成されているｎ単語の入力単語列Ｗ＝w1w2……wn wi∈Ｃに関し、単語境界を正確に認識すること。

各々の単語音声区間の内容を正確に認識すること。

の二条件を満たすように音声認識を行なう場合を考え
る。ここで、第５図に示すように、単語wiがそれぞれ部
分音声区間におけるパターンl1と対応し、Ｌ＝l1l2……ln を満たすとする。

このとき、それぞれの音声区間が正しく対応している
単語に認識される確率は、単語列Ｗに文法構造が全くな
ければ、wiとwjとは独立事象とみなせるから（ｉ≠
ｊ）、と表わせる。また、Ｐ（W|L）の計算を行なう際、乗算
を繰返すことを避けるために、両辺の対数をとり、と対数尤度を求めることも多い。ここで、Ｐ（wi|li）
は、区間liであるときに、それがwiである条件付き確率
であり、これが求める事後確率となる。

そこで、このような事後確率の分布をテーブルとして
備えておき、得られた類似度値を上記事後確率に変換す
ることで、高い認識率を得ることができる。

しかしながら、事後確率Ｐ（wi|li）を求めるのは事
実上困難であるため、通常は、確率値の代わりに、直接
類似度値を求めたら、適当なバイアスをかけることによ
り、確率値に近時していた。例えば、浮田らは、第６図
に示すような、なる指数関数で近似した（“A Speaker Independent Re
cognition Algorithm for Connected Word Boundary Hy
pothesizer",Proc.ICASSP,Tokyo,April,1986）。上記
（４）式の対数をとり、Ａ・B^Smax＝1.0を利用すると、となり、類似度ＳからSmaxという固定したバイアスを引
くことで、類似度を確率値に変換している。連続数字音
声認識にこの尺度を利用した場合、バイアスSmaxは0.96
に設定されている。

しかし、一般に事後確率曲線は固定した曲線ではな
く、語彙数、語彙の内容（似た語彙が多い等）に依存す
る性質の量である。したがって、上記のように固定的な
曲線のみに基づいて事後確率へ変換する従来の方法は、
高精度の認識を行うことができないという問題があっ
た。

（発明が解決しようとする課題）このように、類似度から事後確率への変換を行なって
類似度の評価を行なう従来のパターン認識装置にあって
は、事後確率を得るための変換曲線として、予め語彙辞
書の内容や語数に応じた曲線を求めることが困難である
ことから固定的な曲線によって近似していたため、高精
度の認識が不可能であった。

そこで、本発明は、語彙内容の学習によって容易に求
められるパラメータに基づいて、類似度−事後確率変換
を行ない、より高精度な認識が可能なパターン認識装置
を提供することを目的とする。

［発明の構成］（課題を解決するための手段）本発明は、入力パターンの特徴と各カテゴリについて
の標準パターンとから求められた類似度を事後確率に変
換する事後確率変換手段を以下のような類似度−事後確
率変換パラメータ記憶手段と、変換演算手段とで構成す
るか、若しくはこれらの機能を１つにまとめたテーブル
で構成したことを特徴としている。

即ち、類似度−事後確率変換パラメータ記憶手段は、
予め与えられた学習パターンと各カテゴリの標準パター
ンとの類似度演算による認識処理で正しく認識された類
似度の分布を規定するパラメータ（α，β）と誤認識さ
れた類似度の分布を規定するパラメータ（，）と、
両パラメータの分布から事後確率を求めるのに必要な重
み係数ωとからなるパラメータセットを各カテゴリ毎に
記憶している。

また、変換演算手段は、前記類似度演算手段で求めら
れた類似度と、上記類似度−事後確率変換パラメータ記
憶手段に格納されたパラメータセットとにより事後確率
を算出するものである。

（作用）いま、部分音声パターンliをその属性である単語認識
結果とその類似度値（特に複合類似度を例にあげる）と
に分類すると、事後確率Ｐ（wi|li）は、Ｐ（wi|li）→Ｐ（wi|TiΛsi） …（６）但し、Tiは複合類似度法によるliの認識結果がwiであ
る事象 Siは単語wiに関するliの複合類似度と置換える。さらに上記（６）式は、ベイズの定理を用
いることにより、と変形することができる。但し、ここで、▲▼は、
パターンliがwiのカテゴリに属さないという事象を表
す。

次に、上記（７）式中のそれぞれの統計量について考
察する。

まず、Ｐ（Si|TiΛwi）について考える。Ｐ（Si|TiΛ
wi）は、複合類似度法による認識結果がwiで、かつ入力
データのカテゴリがwiである事象が生ずる確率であり、
この曲線は、以下の式で近似できる。

ここで、α，βは学習データにより得られるパラメタ
で、αは複合類似度法で吸収されなかった成分数、βは
その分散である。このパラメータの推定方法は、例え
ば、瀬川英生，「複合類似度法における類似度値の分布
について」（信学技報PRU87−18,1987年６月）にも示さ
れているように、全カテゴリを１回発声すれば１サンプ
ル分求まる性質のもので、かつそれらの有効な推定量を
求めるには、サンプル数も数十程度で良い。

次にＰ（Si|TiΛ▲▼）について考える。Ｐ（Si|
TiΛ▲▼）は、複合類似度法にようる認識結果wiで
あるが、入力データのカテゴリはwiでない事象が生ずる
確率である。連続音声認識のときには、特に▲▼が
問題となり、誤認識を起こし易いカテゴリの組合わせだ
けでなく、単語のカテゴリには属さないパターンで誤認
識を起こし易いような単語コンテクスト、例えば、ある単語の一部分（例） “６［roku］” →“６−９［roku−kyuu］” 単語と単語のわたりの部分（例） “３−１［san−ici］” →“３−２−１［san−ni−ici］” 二つの単語パターンの併合（例） “２−２［ni−ni］” →“２［ni］” を調べ、それらの類似度の分布についても推定しなけれ
ばならない。類似度の分布に関しては、前記（８）式で
近似可能である。この類似度の分布のパラメータは、
（８）式の（αi,βｉ）と区別するために、（▲
▼，▲▼）とする。これらも、パラメータ（αi,β
ｉ）と同様、容易に求められる。

最後に、Ｐ（TiΛwi）/P（TiΛ▲▼）について考
察する。この量は、ベイズ確率における事前確率に相当
しており、カテゴリの出現頻度の比に相当している。こ
こで、Ｐ（TiΛwi）は、部分空間法による認識結果がwi
で、かつ入力パターンがwiである事象が生ずる確率を表
す。

この統計量は学習過程において、として求められていく。このωを重み係数とする。

このように、上記のパラメータセットはいずれも学習
によって容易に求められる。得られる量である。

そして、パターン認識時においては、得られた類似度
Siに応じて必要なパラメータセットα，β，，，ω
を変換パラメータ記憶部から適宜読出し、変換演算手段
で前記（７）式に基づく演算を行なうことにより、類似
度値を所望の事後確率に変換することが出来る。また、
変換演算手段は、複雑な演算を含んでいるので、これを
類似度−事後確率変換パラメータ記憶手段と統合してテ
ーブル化すれば、処理速度の向上が図れる。

したがって、本発明によれば、少ないデータ量で精度
の良い事後確率変換手段を構成でき、これにより認識精
度の向上が図れる。

（実施例）以下、図面に基づいて本発明の一実施例について説明
する。

第１図は、本発明を連続数字音声認識に適用した場合
の単語列認識装置の構成を示す図である。

音声入力部１は、連続発声された音声を所定の電気信
号に変換して前処理部２に供給する。前処理部２は、音
響処理部３、スペクトル変化抽出部４、音声終始端決定
部５及び単語境界候補生成部６により構成されている。
音響処理部３は、入力される音声データを、フレーム毎
に例えば８〜30チャンネルのフィルタバンクによりスペ
クトル分析して特徴パターンを抽出する。スペクトル変
化抽出部４は、フレーム毎のスペクトルデータUm間の差
ΔＵ＝|Um−Um−1|を抽出する。音声始終端決定部５
は、抽出されたスペクトル変化の大きさに基づいて音声
の始端及び終端を検出する。更に単語境界候補生成部６
は、スペクトル変化ΔＵが所定のしきい値θよりも大き
いときに、そのフレームを単語境界候補kiとして出力す
る。

境界候補ki（ｉ＝１〜ｎ）によって得られるｎ個の単
語区間候補［ki,m］に対応する各特徴パターンは、単語
認識部７に与えられ、ここで単語辞書８を用いた単語認
識に供される。各単語区間候補の単語認識候補は、類似
度−事後確率変換部９で事後確率に変換され、単語列認
識部10に与えられる。単語列認識部10では、認識単語列
候補登録部11に登録されている各単語列区間［1,ki］
（ｉ＝１〜ｎ）についての単語列候補と、上記事後確率
に変換された類似度とを統合して単語列認識を行う。こ
れによって得られた単語列認識候補は認識単語列候補登
録部11に格納される。そして、音声始終端決定部５によ
り音声の終端が検出されたら、登録された単語列候補の
うち最も類似度の高い候補を認識単語として出力する。

第２図に類似度−事後確率変換部９の構成を示す。こ
の類似度−事後確率変換部９は、変換演算部21と変換パ
ラメータ記憶部22とにより構成されている。変換パラメ
ータ記憶部22は、 α，β 正解パターンの類似度分布，不正解パターンの類似度分布 ω 正解パターンと不正解パターンに関する事前
確率の比の各パラメータを各カテゴリ毎に記憶したテーブルであ
る。これらのパラメータセットは、いずれも学習によっ
て得られる。第３図に、この学習のアルゴリズムを示
す。

即ち、学習処理は、第一学習過程31と第二学習過程32
とからなる。第一学習過程31では、教師データとして与
えられる単語境界データと単語カテゴリとに従って単語
列を発声し、複合類似度法に基づく単語音声テンプレー
トを作成する。第二学習過程32では、教師データとして
与えられる単語境界データと単語カテゴリとに従って再
度単語列を発声し、単語音声区間候補を生成するととも
に、生成された単語区間候補データに基づいて前記第一
学習過程で得られた単語音声テンプレートとの単語類似
度計算を行ない、単語類似度データと単語認識結果とを
得る。そして、その結果と与えられた教師データとから
正解データ及び不正解データの類似度分布及びカテゴリ
の出現頻度をそれぞれ求め、類似度値に関する事後確率
曲線を求める。

このような学習の結果、得られた事後確率の曲線は、
例えば第４図に示すような曲線となる。

学習を前カテゴリについて行なうと、全カテゴリにつ
いてのパラメタ（αi,βi,▲▼，▲▼，ω）が
求められるので、これを変換パラメータ記憶部22に記憶
しておく。

変換演算部21は、の両式に類似度を変換した後、なる変換式により、事後確率を求める。

このように、本実施例の装置にによれば、類似度−事
後確率変換部を簡単な学習処理によって作成することが
でき、得られた変換部を使用して高い精度の認識処理を
行なうことができる。

なお、事後確率への変換に際しては、認識カテゴリ毎
に異なる変換曲線を用いることが望ましいが、認識カテ
ゴリ結果により共通の変換曲線を用いるため、なる式を用いるようにしても良い。

また、変換演算部は、複雑な演算を含んでいるので、
変換演算部と変換パラメータ記憶部とを統合してテーブ
ル化しておくようにしても良い。この場合には、変換処
理を高速化できる。

なお、本発明は、特に音声認識に限らず、文字認識に
も適用可能である。

［発明の効果］以上述べたように、本発明によれば、少ないサンプル
数で正確な事後確率変換パラメータを得ることができ、
これを用いて認識処理の精度を大幅に向上させることが
できる。

【図面の簡単な説明】第１図は本発明の一実施例に係る連続音声数字認識装置
のブロック図、第２図は同装置における類似度−事後確
率変換部の構成を示すブロック図、第３図は同変換部に
おけるパラメータの学習過程を示す流れ図、第４図は同
学習過程で得られる事後確率曲線を示す図、第５図は音
声パターンと単語列との対応を示す図、第６図は従来の
近似的な変換関数を示す図である。１……音声入力部、２……前処理部、３……音響処理
部、４……スペクトル変化抽出部、５……音声始終端決
定部、６……単語境界候補生成部、８……単語認識部、
８……単語辞書、９……類似度−事後確率変換部、10…
…単語列認識部、11……認識単語列候補登録部。

Claims

(57)【特許請求の範囲】

【請求項１】入力されたパターンの特徴を抽出する特徴
抽出手段と、各カテゴリについての標準パターンを記憶
した辞書手段と、前記特徴抽出手段で抽出された特徴と
前記辞書手段に記憶された標準パターンとの類似度を算
出する類似度演算手段と、この類似度演算手段で求めら
れた類似度を事後確率に変換する事後確率変換手段を具
備したパターン認識装置において、前記事後確率変換手段は、予め与えられた学習パターンと各カテゴリの標準パター
ンとの類似度演算による認識処理で正しく認識された類
似度の分布を規定するパラメータ（α，β）と誤認識さ
れた類似度の分布を規定するパラメータ（，）と、
両パラメータの分布から事後確率を求めるのに必要な重
み係数ωとからなるパラメータセットを各カテゴリ毎に
記憶した類似度−事後確率変換パラメータ記憶手段と、前記類似度演算手段で求められた類似度と、前記類似度
−事後確率変換パラメータ記憶手段に格納されたパラメ
ータセットとにより事後確率を算出する変換演算手段と
を有することを特徴とするパターン認識装置。
【請求項２】前記類似度−事後確率変換パラメータ記憶
手段と前記変換演算手段の代わりに、これらの機能を１
つにまとめたテーブルを備えたことを特徴とする請求項
１に記載のパターン認識装置。