JP2514983B2 - 音声認識方式 - Google Patents
音声認識方式Info
- Publication number
- JP2514983B2 JP2514983B2 JP62252106A JP25210687A JP2514983B2 JP 2514983 B2 JP2514983 B2 JP 2514983B2 JP 62252106 A JP62252106 A JP 62252106A JP 25210687 A JP25210687 A JP 25210687A JP 2514983 B2 JP2514983 B2 JP 2514983B2
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- orthogonalization
- pattern
- learning
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は少ない学習パターンで高い認識性能を得るこ
とのできる音声認識方式に関する。
とのできる音声認識方式に関する。
(従来の技術) 音声により情報の入出力は人間にとって自然性が高
く、マン・マシン・インターフェースとして優れてお
り、従来より種々研究されている。現在、実用化されて
いる音声認識装置の殆んどは単語音声を認識する方式の
もので、一般的には第3図に示すように構成されてい
る。
く、マン・マシン・インターフェースとして優れてお
り、従来より種々研究されている。現在、実用化されて
いる音声認識装置の殆んどは単語音声を認識する方式の
もので、一般的には第3図に示すように構成されてい
る。
この装置は、発声入力された音声を電気信号に変換し
て取込み、バンド・パス・フィルタ等からなる音響分析
部1にて音響分析し、始端・終端検出部2にてその単語
音声区間を検出する。そして入力音声の上記単語音声区
間の音響分析データ(特徴情報;音声パターン)と、標
準パターン辞書3に予め登録されている認識対象単語の
各標準パターンとの類似度や距離等をパターン・マッチ
ング部4にて計算し、その計算結果を判定部5にて判定
して、例えば類似度値の最も高い標準パターンのカテゴ
リ名を前記入力音声に対する認識結果として求めるもの
となっている。
て取込み、バンド・パス・フィルタ等からなる音響分析
部1にて音響分析し、始端・終端検出部2にてその単語
音声区間を検出する。そして入力音声の上記単語音声区
間の音響分析データ(特徴情報;音声パターン)と、標
準パターン辞書3に予め登録されている認識対象単語の
各標準パターンとの類似度や距離等をパターン・マッチ
ング部4にて計算し、その計算結果を判定部5にて判定
して、例えば類似度値の最も高い標準パターンのカテゴ
リ名を前記入力音声に対する認識結果として求めるもの
となっている。
しかしこのようにパターン・マッチング法による音声
認識では入力音声パターンと予め登録されている標準パ
ターンとの時間軸方向のずれ(パターン変形)が問題と
なる。そこで従来では、専ら線形伸縮や、動的計画法
(DP)に代表される非線形伸縮等により、上述した時間
軸方向のずれに対する課題を解消している。
認識では入力音声パターンと予め登録されている標準パ
ターンとの時間軸方向のずれ(パターン変形)が問題と
なる。そこで従来では、専ら線形伸縮や、動的計画法
(DP)に代表される非線形伸縮等により、上述した時間
軸方向のずれに対する課題を解消している。
一方、このようなパターン・マッチング法とは別に、
予め収集された学習パターンから直交化辞書を作成し、
この直交化辞書を用いて音声認識する方式(部分空間
法)が提唱されている。この方式は第4図にその構成例
を示すように、音響分析されて音声区間検出された音声
パターンから、標本点抽出部6にて上記音声区間を等分
割した所定点数の標本点を抽出し、(特徴ベクトルの数
×標本点数)で示される標本パターンを求める。このよ
うな標本パターンを認識対象とするカテゴリ毎に所定数
ずつ収集してパターン蓄積部7に格納する。そしてグラ
ム・シュミット(GS)直交化部8において、上記パター
ン蓄積部7に収集された所定数(3個以上)の標本パタ
ーンを用いて以下に示す手順で直交化辞書9を作成す
る。
予め収集された学習パターンから直交化辞書を作成し、
この直交化辞書を用いて音声認識する方式(部分空間
法)が提唱されている。この方式は第4図にその構成例
を示すように、音響分析されて音声区間検出された音声
パターンから、標本点抽出部6にて上記音声区間を等分
割した所定点数の標本点を抽出し、(特徴ベクトルの数
×標本点数)で示される標本パターンを求める。このよ
うな標本パターンを認識対象とするカテゴリ毎に所定数
ずつ収集してパターン蓄積部7に格納する。そしてグラ
ム・シュミット(GS)直交化部8において、上記パター
ン蓄積部7に収集された所定数(3個以上)の標本パタ
ーンを用いて以下に示す手順で直交化辞書9を作成す
る。
即ち、上記直交化辞書9の作成は、各カテゴリ毎にそ
のカテゴリのm回目の学習パターンをamとし、3回発声
された学習パターンを用いる場合には、 1回目の学習データa1を第1軸の辞書b1とし、 b1=a1 …(1) これを直交化辞書9に登録する。
のカテゴリのm回目の学習パターンをamとし、3回発声
された学習パターンを用いる場合には、 1回目の学習データa1を第1軸の辞書b1とし、 b1=a1 …(1) これを直交化辞書9に登録する。
2回目の学習データa2からグラム・シュミットの直交
化式を用い、 なる計算を行い、‖b2‖が一定値より大きい場合、これ
を第2軸の辞書b2として前記直交化辞書9に登録する。
但し、(・)は内積、Tは転置、‖ ‖はノルムを示
す。
化式を用い、 なる計算を行い、‖b2‖が一定値より大きい場合、これ
を第2軸の辞書b2として前記直交化辞書9に登録する。
但し、(・)は内積、Tは転置、‖ ‖はノルムを示
す。
そして3回目の学習データa3から、 なる計算を行い、‖b3‖が一定値より大きい場合、これ
を第3軸の辞書b3として前記直交化辞書9に登録する。
但し、第2軸の辞書が求められていない場合には、上記
(2)式の計算を行う。
を第3軸の辞書b3として前記直交化辞書9に登録する。
但し、第2軸の辞書が求められていない場合には、上記
(2)式の計算を行う。
以上の〜の処理を各カテゴリについて繰返し実行
して直交化辞書9を予め形成しておく。
して直交化辞書9を予め形成しておく。
類似度計算部10は上述した如く作成された直交化辞書
9と、入力音声パターンXとの間で として、カテゴリiの直交化辞書bi,rとの間の類似度を
計算するもので、この類似度値に従って上記入力音声パ
ターンXが認識される。尚、上記カテゴリiの直交化辞
書bi,rは予め正規化されたものであり、Kiはカテゴリi
の辞書の個数(軸数)を示している。
9と、入力音声パターンXとの間で として、カテゴリiの直交化辞書bi,rとの間の類似度を
計算するもので、この類似度値に従って上記入力音声パ
ターンXが認識される。尚、上記カテゴリiの直交化辞
書bi,rは予め正規化されたものであり、Kiはカテゴリi
の辞書の個数(軸数)を示している。
ところがこのようなGS直交化を用いる方式にあって
は、上述した各直交軸が担うパターン変動量が明確でな
いと云う問題がある。この為、上述した如くして計算さ
れた直交化辞書9のカテゴリiの標本パターン{ai,1,
ai,2,ai,3}が、そのカテゴリiの本来の標準的なパタ
ーンを良く表現しているとは何等保障されないと云う不
具合がある。
は、上述した各直交軸が担うパターン変動量が明確でな
いと云う問題がある。この為、上述した如くして計算さ
れた直交化辞書9のカテゴリiの標本パターン{ai,1,
ai,2,ai,3}が、そのカテゴリiの本来の標準的なパタ
ーンを良く表現しているとは何等保障されないと云う不
具合がある。
(発明が解決しようとする問題点) このように従来のGS直交化を用いた部分空間法による
音声認識にあっては、直交化された辞書自体に、例えば
収集した学習パターンの時間軸方向の変動に起因する問
題があり、その標準パターンを良く表現しているか否か
と云う点で課題が残されている。またこのような問題を
解消するには、相当大量の学習パターンを収集する必要
がある等の不具合がある。
音声認識にあっては、直交化された辞書自体に、例えば
収集した学習パターンの時間軸方向の変動に起因する問
題があり、その標準パターンを良く表現しているか否か
と云う点で課題が残されている。またこのような問題を
解消するには、相当大量の学習パターンを収集する必要
がある等の不具合がある。
本発明はこのような事情を考慮してなされたもので、
その目的とするところは、少ない学習パターンにてその
標準パターンを良く表現した直交化辞書を作成し、認識
性能の向上を図ることのできる音声認識方式を提供する
ことにある。
その目的とするところは、少ない学習パターンにてその
標準パターンを良く表現した直交化辞書を作成し、認識
性能の向上を図ることのできる音声認識方式を提供する
ことにある。
[発明の構成] (問題点を解決するための手段) 本発明は入力音声を分析処理して求められる入力音声
パターンと予め収集された学習パターンに基いて作成さ
れている直交化辞書との間で類似度を計算して上記入力
音声を認識する音声認識方式において、 予め収集された学習パターンに対して少なくとも平滑
処理と微分処理とを施す複数の直交化時間フィルタを用
い、例えば収集された学習パターンの平均パターンを求
め、この平均パターンを時間軸方向に平滑化して第1軸
の辞書を求め、更に上記平均パターンを時間軸方向に微
分して第2軸の辞書を求める等して前記直交化辞書を作
成すると共に、この直交化辞書と直交する付加辞書をグ
ラムシュミットの直交化により作成して前記直交化辞書
に付加するするようにしたことを特徴とするものであ
る。
パターンと予め収集された学習パターンに基いて作成さ
れている直交化辞書との間で類似度を計算して上記入力
音声を認識する音声認識方式において、 予め収集された学習パターンに対して少なくとも平滑
処理と微分処理とを施す複数の直交化時間フィルタを用
い、例えば収集された学習パターンの平均パターンを求
め、この平均パターンを時間軸方向に平滑化して第1軸
の辞書を求め、更に上記平均パターンを時間軸方向に微
分して第2軸の辞書を求める等して前記直交化辞書を作
成すると共に、この直交化辞書と直交する付加辞書をグ
ラムシュミットの直交化により作成して前記直交化辞書
に付加するするようにしたことを特徴とするものであ
る。
(作用) 直交化時間フィルタを用い、収集された学習パターン
の平均パターンを求め、この平均パターンを時間軸方向
に平滑化して第1軸の辞書を求めるので音声パターンの
時間軸方向の変動を効果的に吸収することができ、更に
は上記平均パターンを時間軸方向に微分して第2軸の辞
書を求めるので、時間軸方向に対する音声パターンの位
置ずれを効果的に吸収することができる。
の平均パターンを求め、この平均パターンを時間軸方向
に平滑化して第1軸の辞書を求めるので音声パターンの
時間軸方向の変動を効果的に吸収することができ、更に
は上記平均パターンを時間軸方向に微分して第2軸の辞
書を求めるので、時間軸方向に対する音声パターンの位
置ずれを効果的に吸収することができる。
このようにして時間軸方向に対するパターン変動を吸
収して直交化辞書が作成されるので、直交化辞書の各辞
書パターンをその変動を吸収したものとすることがで
き、認識性能の向上に大きく寄与する。しかも時間軸方
向のパターン変動を吸収した平均パターンから生成され
る辞書パターンをベースとしてその直交化辞書が生成さ
れていくので、従来のように直交化辞書自体の各直交軸
が担うパターン変動量が不明確になることがなく、少な
い学習パターンを有効に用いて性能の高い直交化辞書を
効果的に作成することが可能となる。
収して直交化辞書が作成されるので、直交化辞書の各辞
書パターンをその変動を吸収したものとすることがで
き、認識性能の向上に大きく寄与する。しかも時間軸方
向のパターン変動を吸収した平均パターンから生成され
る辞書パターンをベースとしてその直交化辞書が生成さ
れていくので、従来のように直交化辞書自体の各直交軸
が担うパターン変動量が不明確になることがなく、少な
い学習パターンを有効に用いて性能の高い直交化辞書を
効果的に作成することが可能となる。
しかも上記直交化辞書と直交する付加辞書が作成され
ているので、上述した時間軸方向のパターン変動以外の
パターン変動をも効果的に吸収して認識処理を行うこと
が可能となるので、その認識性能を更に向上させること
が可能となる。
ているので、上述した時間軸方向のパターン変動以外の
パターン変動をも効果的に吸収して認識処理を行うこと
が可能となるので、その認識性能を更に向上させること
が可能となる。
(実施例) 以下、図面を参照して本発明の一実施例につき説明す
る。
る。
第1図は本発明に係る一実施例方式を適用して構成さ
れる音声認識装置の概略構成図で、第4図に示した従来
装置と同一部分には同一符号を付して示してある。
れる音声認識装置の概略構成図で、第4図に示した従来
装置と同一部分には同一符号を付して示してある。
この実施例装置が特徴とするところは、パターン蓄積
部7に蓄積された学習パターンを用いて直交化辞書9を
作成する手段として、従来のGS直交化部8に代えて少な
くとも平滑処理と微分処理とを実行する複数のフィル
タ、例えば複数の直交化時間フィルタからなる直交化時
間フィルタ部11を用いた点にある。そしてGS直交化部8
では、上記直交化時間フィルタ部11にて作成された直交
化辞書に直交する辞書を付加辞書として作成し、この付
加辞書を上記直交化辞書9に付加するようにしてことを
特徴としている。尚、ここではパターン蓄積部7に収集
される学習パターンとしては、例えばj(=1,2,〜16)
で示される16点の音響分析された特徴ベクトルからな
り、その音声区間をk(=0,1,2,〜17)として17等分す
る18個の標本点に亙って採取したデータ系列として与え
られるものとして説明する。
部7に蓄積された学習パターンを用いて直交化辞書9を
作成する手段として、従来のGS直交化部8に代えて少な
くとも平滑処理と微分処理とを実行する複数のフィル
タ、例えば複数の直交化時間フィルタからなる直交化時
間フィルタ部11を用いた点にある。そしてGS直交化部8
では、上記直交化時間フィルタ部11にて作成された直交
化辞書に直交する辞書を付加辞書として作成し、この付
加辞書を上記直交化辞書9に付加するようにしてことを
特徴としている。尚、ここではパターン蓄積部7に収集
される学習パターンとしては、例えばj(=1,2,〜16)
で示される16点の音響分析された特徴ベクトルからな
り、その音声区間をk(=0,1,2,〜17)として17等分す
る18個の標本点に亙って採取したデータ系列として与え
られるものとして説明する。
しかして前記直交化時間フィルタ部11は、カテゴリi
について3個ずつ収集されたm番目の学習パターンをa
m(j,k)としたとき、次のようにして直交化辞書9を作成
している。
について3個ずつ収集されたm番目の学習パターンをa
m(j,k)としたとき、次のようにして直交化辞書9を作成
している。
先ず、カテゴリiの学習パターンam(j,k)から、そ
の平均パターンA(j,k)を として求める。
の平均パターンA(j,k)を として求める。
しかる後、上述した如くして求めた平均パターンA
(j,k)を用いて、 b1(j,k)=A(j,k-1)+2*A(j,k)+A(j,k+1) [j=1,2,〜16,k=1,2,〜16] …(6) なる演算にて第1軸の辞書b1(j,k)を求め、これを直交
化辞書9に登録する。この辞書b1(j,k)は前記平均パタ
ーンA(j,k)を時間軸方向に平滑化したものとして求めら
れ、直交化辞書9の基準となる第1軸の辞書データとし
て登録される。
(j,k)を用いて、 b1(j,k)=A(j,k-1)+2*A(j,k)+A(j,k+1) [j=1,2,〜16,k=1,2,〜16] …(6) なる演算にて第1軸の辞書b1(j,k)を求め、これを直交
化辞書9に登録する。この辞書b1(j,k)は前記平均パタ
ーンA(j,k)を時間軸方向に平滑化したものとして求めら
れ、直交化辞書9の基準となる第1軸の辞書データとし
て登録される。
しかる後、前記平均パターンA(j,k)を用い、 b2(j,k)=-A(j,k-1)+A(j,k+1) [j=1,2,〜16,k=1,2,〜16] …(7) なる演算にて第2軸の辞書b2(j,k)を求め、これを正規
化する。つまりこの辞書b2(j,k)は前記平均パターンA
(j,k)を時間軸方向に微分したものとして求められる。
化する。つまりこの辞書b2(j,k)は前記平均パターンA
(j,k)を時間軸方向に微分したものとして求められる。
尚、このようにして計算される第2軸の辞書b2(j,k)
は、前記第1軸の辞書b1(j,k)に対して完全には直交し
ていないことから、 B2(j,k)=b2(j,k) −(b2(j,k)・b1(j,k))b1(j,k) なる再直交化処理を施し、この再直交化された辞書デー
タB2(j,k)を正規化した後、新たな第2軸の辞書b2(j,k)
として前記直交化辞書9に登録する。
は、前記第1軸の辞書b1(j,k)に対して完全には直交し
ていないことから、 B2(j,k)=b2(j,k) −(b2(j,k)・b1(j,k))b1(j,k) なる再直交化処理を施し、この再直交化された辞書デー
タB2(j,k)を正規化した後、新たな第2軸の辞書b2(j,k)
として前記直交化辞書9に登録する。
以上の〜の処理を各カテゴリ毎に繰返し実行する
ことによって前記直交化辞書9が作成される。
ことによって前記直交化辞書9が作成される。
尚、この直交化時間フィルタ部11による処理手順を次
のように代えても、ほぼ同等な直交化辞書9を作成する
ことができる。即ち、 収集された学習パターンam(j,k)から として第1軸の辞書b1(j,k)を求め、これを直交化辞書
9にセットする。
のように代えても、ほぼ同等な直交化辞書9を作成する
ことができる。即ち、 収集された学習パターンam(j,k)から として第1軸の辞書b1(j,k)を求め、これを直交化辞書
9にセットする。
続いて前記学習パターンam(j,k)から として第2軸の辞書b2(j,k)を求め、これを直交化辞書
9にセットする。
9にセットする。
このような処理,をカテゴリの数だけ繰返し実行
する。つまり、前述したように一旦平均パターンA
m(j,k)を計算することなしに、収集された所定数の学習
パターンam(j,k)から時間軸方向に平滑化した第1軸の
辞書b1(j,k)と、時間軸方向に微分した第2軸の辞書b
2(j,k)をそれぞれ直接的に計算するようにしても良い。
する。つまり、前述したように一旦平均パターンA
m(j,k)を計算することなしに、収集された所定数の学習
パターンam(j,k)から時間軸方向に平滑化した第1軸の
辞書b1(j,k)と、時間軸方向に微分した第2軸の辞書b
2(j,k)をそれぞれ直接的に計算するようにしても良い。
ところで上述した説明では、直交辞書9として2軸ま
でを求める例について示したが、更に2次微分を行う等
して3軸以降の辞書を作成するようにしても良い。この
場合には、学習パターンとして前述した18点ではなく、
例えば20点以上の標本点を抽出したものを用いるように
すれば良い。この場合には、例えば b1(j,k)=A(j,k-2)+4*A(j,k-1) +6*A(j,k)+4*A(j,k+1) +A(j,k+2) [j=1,2,〜16,k=1,2,〜16] として第1軸の辞書b1(j,k)を求め、また b2(j,k)=−A(j,k-2)−2*A(j,k-1) +2*A(j,k+1)+A(j,k+2) [j=1,2,〜16,k=1,2,〜16] として第2軸の辞書b2(j,k)を求めるようにすれば良
い。また2次微分した第3軸の辞書b3(j,k)については b2(j,k)=−A(j,k-2)−2*A(j,k-1) +3*A(j,k)−2*A(j,k+1) −A(j,k+2) [j=1,2,〜16,k=1,2,〜16] として求めるようにすれば良い。
でを求める例について示したが、更に2次微分を行う等
して3軸以降の辞書を作成するようにしても良い。この
場合には、学習パターンとして前述した18点ではなく、
例えば20点以上の標本点を抽出したものを用いるように
すれば良い。この場合には、例えば b1(j,k)=A(j,k-2)+4*A(j,k-1) +6*A(j,k)+4*A(j,k+1) +A(j,k+2) [j=1,2,〜16,k=1,2,〜16] として第1軸の辞書b1(j,k)を求め、また b2(j,k)=−A(j,k-2)−2*A(j,k-1) +2*A(j,k+1)+A(j,k+2) [j=1,2,〜16,k=1,2,〜16] として第2軸の辞書b2(j,k)を求めるようにすれば良
い。また2次微分した第3軸の辞書b3(j,k)については b2(j,k)=−A(j,k-2)−2*A(j,k-1) +3*A(j,k)−2*A(j,k+1) −A(j,k+2) [j=1,2,〜16,k=1,2,〜16] として求めるようにすれば良い。
次に上述した如く求められた直交化辞書に対して、GS
直交化部8にて前記パターン蓄積部7に格納された学習
パターンから、上記直交化辞書に直交する付加辞書を次
のようにして作成する。即ち、この付加辞書の作成は、
前記パターン蓄積部7に収集された学習パターンa
m(j,k)について、既に求められている直交化辞書の軸数
をPとしたとき なるグラムシュミットの直交化式を演算して行われる。
そして上記‖bP+m‖が所定値よりも大きい場合、これを
付加辞書として前記直交化辞書9に登録する。
直交化部8にて前記パターン蓄積部7に格納された学習
パターンから、上記直交化辞書に直交する付加辞書を次
のようにして作成する。即ち、この付加辞書の作成は、
前記パターン蓄積部7に収集された学習パターンa
m(j,k)について、既に求められている直交化辞書の軸数
をPとしたとき なるグラムシュミットの直交化式を演算して行われる。
そして上記‖bP+m‖が所定値よりも大きい場合、これを
付加辞書として前記直交化辞書9に登録する。
このようにして直交化時間フィルタを用いた平滑・微
分により作成された直交化辞書、およびこの直交化辞書
をベースとしてグラムシュミットの直交化により求めら
れた付加辞書とからなる直交化辞書9を作成して入力音
声パターンを認識処理する本装置によれば、その直交化
辞書9が音声パターンの時間軸方向への変動を吸収し、
またその他のパターン変動をも補償したものとなってい
るので、入力音声パターンの時間軸方向の変動に左右さ
れることなく音声認識することが可能となり、その認識
性能を高めることが可能となる。また直交化時間フィル
タを用いて直交化辞書9を作成しているので、少ない学
習パターンにて性能の高い直交化辞書を効率的に構築す
ることが可能となり、実用的効果が多大である。
分により作成された直交化辞書、およびこの直交化辞書
をベースとしてグラムシュミットの直交化により求めら
れた付加辞書とからなる直交化辞書9を作成して入力音
声パターンを認識処理する本装置によれば、その直交化
辞書9が音声パターンの時間軸方向への変動を吸収し、
またその他のパターン変動をも補償したものとなってい
るので、入力音声パターンの時間軸方向の変動に左右さ
れることなく音声認識することが可能となり、その認識
性能を高めることが可能となる。また直交化時間フィル
タを用いて直交化辞書9を作成しているので、少ない学
習パターンにて性能の高い直交化辞書を効率的に構築す
ることが可能となり、実用的効果が多大である。
第2図および次表は男性5名,女性3名から数字音声
と人名からなる30語の音声データをそれぞれ15回に亙っ
て収集し、そのうちの5回分を学習用、残り10回分を認
識性能評価に用いた実験例を示すものである。
と人名からなる30語の音声データをそれぞれ15回に亙っ
て収集し、そのうちの5回分を学習用、残り10回分を認
識性能評価に用いた実験例を示すものである。
この実験データに示されるように、直交化時間フィル
タを用いて構成された直交化辞書を用いた場合、部分空
間法にみられるようにGS直交化により直交化辞書を構成
する場合よりも、認識性能が向上することが明らかとな
った。また第2図に示す実験データからは、複合類似度
法(KL展開)では発声回数が増えるとこれに伴ってエラ
ー率の減少の度合いが微分・直交化よりも大きいが、5
回程度の発声では前述した微分・直交化によって求めら
れた直交化辞書を用いた方が認識性能の点で優れている
ことが示される。
タを用いて構成された直交化辞書を用いた場合、部分空
間法にみられるようにGS直交化により直交化辞書を構成
する場合よりも、認識性能が向上することが明らかとな
った。また第2図に示す実験データからは、複合類似度
法(KL展開)では発声回数が増えるとこれに伴ってエラ
ー率の減少の度合いが微分・直交化よりも大きいが、5
回程度の発声では前述した微分・直交化によって求めら
れた直交化辞書を用いた方が認識性能の点で優れている
ことが示される。
以上の実験データからも、時間軸方向の位置ずれを補
償する微分フィルタと、2次元パターンの変動を吸収す
る直交化フィルタとを用いて直交化辞書を作成して音声
認識を行う本方式によれば、少ない学習パターンによっ
て高い認識性能が得られることがわかる。故に、本方式
は音声認識性能の向上を図る上で多大な効果を奏すると
云える。その上、前述した付加辞書にてその他のパター
ン変動を救出した認識処理を行い得るので、更にその認
識性能の向上を図ることが可能となる。
償する微分フィルタと、2次元パターンの変動を吸収す
る直交化フィルタとを用いて直交化辞書を作成して音声
認識を行う本方式によれば、少ない学習パターンによっ
て高い認識性能が得られることがわかる。故に、本方式
は音声認識性能の向上を図る上で多大な効果を奏すると
云える。その上、前述した付加辞書にてその他のパター
ン変動を救出した認識処理を行い得るので、更にその認
識性能の向上を図ることが可能となる。
尚、本発明は上述した実施例に限定されるものではな
い。ここでは2軸および3軸の直交化辞書を作成する例
について説明したが、更に多くの軸数の直交化辞書を作
成することも可能である。この場合、直交化時間フィル
タの係数としては幾つかのバリエーションが考えられる
が、要は学習パターンを平滑,1次微分,2次微分,…すれ
ば良いものであり、種々変形して実施することができ
る。また学習パターンの次元数等も特に限定されるもの
でもない。更には付加辞書の数も学習パターン数に応じ
て定めれば良く、グラムシュミット以外の直交化法を用
いて付加辞書を作成することも可能である。その他、本
発明はその要旨を逸脱しない範囲で変形して実施可能で
ある。
い。ここでは2軸および3軸の直交化辞書を作成する例
について説明したが、更に多くの軸数の直交化辞書を作
成することも可能である。この場合、直交化時間フィル
タの係数としては幾つかのバリエーションが考えられる
が、要は学習パターンを平滑,1次微分,2次微分,…すれ
ば良いものであり、種々変形して実施することができ
る。また学習パターンの次元数等も特に限定されるもの
でもない。更には付加辞書の数も学習パターン数に応じ
て定めれば良く、グラムシュミット以外の直交化法を用
いて付加辞書を作成することも可能である。その他、本
発明はその要旨を逸脱しない範囲で変形して実施可能で
ある。
[発明の効果] 以上説明したように本発明によればフィルタを用いて
時間軸方向のパターン変動を吸収して直交化辞書を作成
し、更にこの直交化辞書に直交する付加辞書を作成して
上記直交化辞書に付加するので、少ない学習パターンで
そのパターンの変動を効果的に表現した辞書を得ること
ができ、その認識性能の向上を図り得る等の実用上多大
なる効果を奏する。
時間軸方向のパターン変動を吸収して直交化辞書を作成
し、更にこの直交化辞書に直交する付加辞書を作成して
上記直交化辞書に付加するので、少ない学習パターンで
そのパターンの変動を効果的に表現した辞書を得ること
ができ、その認識性能の向上を図り得る等の実用上多大
なる効果を奏する。
第1図は本発明の一実施例方式を適用して構成される音
声認識装置の概略構成図、第2図は実施例方式の効果を
確認する為の実験データ例を示す図、第3図および第4
図はそれぞれ従来の音声認識装置の概略構成を示す図で
ある。 1…音響分析部、2…始端・終端検出部、5…判定部、
6…標本点抽出部、7…パターン蓄積部、8…グラムシ
ュミット直交化部、9…直交化辞書、10…類似度演算
部、11…直交化時間フィルタ。
声認識装置の概略構成図、第2図は実施例方式の効果を
確認する為の実験データ例を示す図、第3図および第4
図はそれぞれ従来の音声認識装置の概略構成を示す図で
ある。 1…音響分析部、2…始端・終端検出部、5…判定部、
6…標本点抽出部、7…パターン蓄積部、8…グラムシ
ュミット直交化部、9…直交化辞書、10…類似度演算
部、11…直交化時間フィルタ。
Claims (3)
- 【請求項1】入力音声を分析処理して求められる入力音
声パターンと予め収集された学習パターンに基いて作成
されている直交化辞書との間で類似度を計算して上記入
力音声を認識する音声認識方式において、 予め収集された学習パターンに対して少なくとも時間軸
方向への平滑処理と微分処理とを施す複数のフィルタを
用いて上記直交化辞書を作成する手段と、 上記直交化辞書と直交する付加辞書を作成する手段とを
具備したことを特徴とする音声認識方式。 - 【請求項2】上記フィルタは、収集された学習パターン
の平均パターンを求め、この平均パターンを時間軸方向
に平滑化して第1軸の辞書を求める手段と、 上記平均パターンを時間軸方向に微分して第2軸の辞書
を求める手段とを備えたものである特許請求の範囲第1
項記載の音声認識方式。 - 【請求項3】上記付加辞書を作成する手段は、グラムシ
ュミットの直交化により上記直交化辞書に直交する付加
辞書を求めるものである特許請求の範囲第1項記載の音
声認識方式。
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62252106A JP2514983B2 (ja) | 1987-10-06 | 1987-10-06 | 音声認識方式 |
DE3888777T DE3888777T2 (de) | 1987-10-06 | 1988-10-04 | Verfahren und Einrichtung zur Spracherkennung. |
EP88116414A EP0311022B1 (en) | 1987-10-06 | 1988-10-04 | Speech recognition apparatus and method thereof |
US07/254,110 US5001760A (en) | 1987-10-06 | 1988-10-06 | Speech recognition apparatus and method utilizing an orthogonalized dictionary |
KR1019880013005A KR910007530B1 (ko) | 1987-10-06 | 1988-10-06 | 음성인식장치 및 그 방법 |
SG123594A SG123594G (en) | 1987-10-06 | 1994-08-25 | Speech recognition apparatus and method thereof |
HK110794A HK110794A (en) | 1987-10-06 | 1994-10-12 | Speech recognition apparatus and method thereof |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62252106A JP2514983B2 (ja) | 1987-10-06 | 1987-10-06 | 音声認識方式 |
SG123594A SG123594G (en) | 1987-10-06 | 1994-08-25 | Speech recognition apparatus and method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0194394A JPH0194394A (ja) | 1989-04-13 |
JP2514983B2 true JP2514983B2 (ja) | 1996-07-10 |
Family
ID=26540549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62252106A Expired - Lifetime JP2514983B2 (ja) | 1987-10-06 | 1987-10-06 | 音声認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2514983B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3015477B2 (ja) | 1991-02-20 | 2000-03-06 | 株式会社東芝 | 音声認識方法 |
-
1987
- 1987-10-06 JP JP62252106A patent/JP2514983B2/ja not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3015477B2 (ja) | 1991-02-20 | 2000-03-06 | 株式会社東芝 | 音声認識方法 |
Also Published As
Publication number | Publication date |
---|---|
JPH0194394A (ja) | 1989-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0492470A2 (en) | Method of speech recognition | |
JP2815579B2 (ja) | 音声認識における単語候補削減装置 | |
JPH0352640B2 (ja) | ||
JPH07146699A (ja) | 音声認識方法 | |
JP2870224B2 (ja) | 音声認識方法 | |
CN113160852A (zh) | 语音情绪识别方法、装置、设备及存储介质 | |
JPS6128998B2 (ja) | ||
Rabiner et al. | Some performance benchmarks for isolated work speech recognition systems | |
Krishna et al. | Emotion recognition using dynamic time warping technique for isolated words | |
JPH02165388A (ja) | パターン認識方式 | |
JP2514983B2 (ja) | 音声認識方式 | |
Singh et al. | Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition | |
JP2514985B2 (ja) | 音声認識方式 | |
JP2514986B2 (ja) | 音声認識方式 | |
Semary et al. | Using voice technologies to support disabled people | |
Sangeetha et al. | Automatic continuous speech recogniser for Dravidian languages using the auto associative neural network | |
JP2514984B2 (ja) | 音声認識方式 | |
Asakawa et al. | Automatic recognition of connected vowels only using speaker-invariant representation of speech dynamics. | |
JP2502880B2 (ja) | 音声認識方法 | |
EP0311022B1 (en) | Speech recognition apparatus and method thereof | |
KR910007530B1 (ko) | 음성인식장치 및 그 방법 | |
JP2856429B2 (ja) | 音声認識方式 | |
JP3283971B2 (ja) | 音声認識方法 | |
JP2710045B2 (ja) | 音声認識方法 | |
JP2870268B2 (ja) | 音声認識装置 |