JP3100180B2 - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JP3100180B2 JP3100180B2 JP13187491A JP13187491A JP3100180B2 JP 3100180 B2 JP3100180 B2 JP 3100180B2 JP 13187491 A JP13187491 A JP 13187491A JP 13187491 A JP13187491 A JP 13187491A JP 3100180 B2 JP3100180 B2 JP 3100180B2
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- dissimilarity
- parameter
- measured
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、入力された音声信号と
予め登録されている登録音声との類似,非類似を計測す
ることによって入力音声の音声認識を行なう音声認識方
法に関する。
予め登録されている登録音声との類似,非類似を計測す
ることによって入力音声の音声認識を行なう音声認識方
法に関する。
【0002】
【従来の技術】従来、音声認識の分野においては、入力
音声と予め登録されている登録音声との類似,非類似の
計測は、入力音声の特徴パラメータと登録音声の標準パ
ラメータとに基づき、統一された1つの尺度によってな
されていた。例えば、これらの間のユークリッド距離を
求め、この距離が所定の閾値以下か以上かであることに
より類似,非類似を判断したり、あるいは、これらの類
似度を正規分布を仮定した確率密度などによって計測し
ていた。
音声と予め登録されている登録音声との類似,非類似の
計測は、入力音声の特徴パラメータと登録音声の標準パ
ラメータとに基づき、統一された1つの尺度によってな
されていた。例えば、これらの間のユークリッド距離を
求め、この距離が所定の閾値以下か以上かであることに
より類似,非類似を判断したり、あるいは、これらの類
似度を正規分布を仮定した確率密度などによって計測し
ていた。
【0003】このような認識方式においては、認識に有
効なパラメータとして、LPCケプストラム,バンドパ
スフィルタの出力値,音素の継続時間,ホルマント周波
数などがあり、通常はこれらのパラメータのうち少数の
ものが組み合せて用いられている。
効なパラメータとして、LPCケプストラム,バンドパ
スフィルタの出力値,音素の継続時間,ホルマント周波
数などがあり、通常はこれらのパラメータのうち少数の
ものが組み合せて用いられている。
【0004】
【発明が解決しようとする課題】しかしながら、上記各
パラメータは個々に特性が異なり、あるパラメータは、
類似性を判断するには適しているが非類似性を判断する
のには不適切であったりまた、他のパラメータは、これ
とは逆に、非類似性を判断するには適しているが、類似
性を判断するのには不適切であったりする。
パラメータは個々に特性が異なり、あるパラメータは、
類似性を判断するには適しているが非類似性を判断する
のには不適切であったりまた、他のパラメータは、これ
とは逆に、非類似性を判断するには適しているが、類似
性を判断するのには不適切であったりする。
【0005】例えば、ホルマント周波数は、母音などの
認識等において、第1,第2ホルマントが登録された母
音のものと一致すれば、極めて高い信頼度で類似してい
ると判断できるが、一般にホルマントの抽出は難かしく
誤抽出の可能性があるため、ホルマントにより非類似と
判断してもこの判断は正確なものとはなり得ない。
認識等において、第1,第2ホルマントが登録された母
音のものと一致すれば、極めて高い信頼度で類似してい
ると判断できるが、一般にホルマントの抽出は難かしく
誤抽出の可能性があるため、ホルマントにより非類似と
判断してもこの判断は正確なものとはなり得ない。
【0006】また、ホルマントとは逆に、音素の継続時
間は、非類似性を判断するには適している。例えば、
“きゃ”(kya),“きょ”(kyo)などの拗音の
“y”の部分の継続時間が例えば100m秒として登録
されているときに、入力音声が200m秒の継続時間で
あったり、あるいは3m秒の継続時間であったりした場
合には、この入力音声を高い信頼度で拗音らしくないと
判断でき、従って、非類似度についての信頼度は高い。
しかしながら、入力音声が100m秒の継続時間であっ
て、上記拗音の登録された継続時間と一致した場合で
も、類似度についての信頼性は高くない。すなわち、継
続時間が100m秒程度の音素は、拗音に限らず他にも
数多くあるので、音素の継続時間によりある音素,例え
ば拗音と類似していると判断してもこの判断は正確なも
のではない。
間は、非類似性を判断するには適している。例えば、
“きゃ”(kya),“きょ”(kyo)などの拗音の
“y”の部分の継続時間が例えば100m秒として登録
されているときに、入力音声が200m秒の継続時間で
あったり、あるいは3m秒の継続時間であったりした場
合には、この入力音声を高い信頼度で拗音らしくないと
判断でき、従って、非類似度についての信頼度は高い。
しかしながら、入力音声が100m秒の継続時間であっ
て、上記拗音の登録された継続時間と一致した場合で
も、類似度についての信頼性は高くない。すなわち、継
続時間が100m秒程度の音素は、拗音に限らず他にも
数多くあるので、音素の継続時間によりある音素,例え
ば拗音と類似していると判断してもこの判断は正確なも
のではない。
【0007】このように、各々異なる特性を有している
音声の各パラメータに基づき、類似,非類似の計測を距
離や確率といった1つの尺度で正確に行なうのは非常に
難かしく、従って、距離や確率といった1つの尺度で類
似、非類似の計測を行なっていた従来の音声認識方式で
は、多数のパラメータを併用して認識を精密に行なおう
とすると、かえって類似,非類似の判断が不正確とな
り、信頼性のある認識結果を得ることができないという
欠点があった。
音声の各パラメータに基づき、類似,非類似の計測を距
離や確率といった1つの尺度で正確に行なうのは非常に
難かしく、従って、距離や確率といった1つの尺度で類
似、非類似の計測を行なっていた従来の音声認識方式で
は、多数のパラメータを併用して認識を精密に行なおう
とすると、かえって類似,非類似の判断が不正確とな
り、信頼性のある認識結果を得ることができないという
欠点があった。
【0008】本発明は、従来に比べ正確で信頼性のある
認識結果を得ることが可能であって、特に多数のパラメ
ータを併用することができ、多数のパラメータを併用す
ることで、より一層信頼性のある認識結果を得ることの
可能な音声認識方法を提供することを目的としている。
認識結果を得ることが可能であって、特に多数のパラメ
ータを併用することができ、多数のパラメータを併用す
ることで、より一層信頼性のある認識結果を得ることの
可能な音声認識方法を提供することを目的としている。
【0009】
【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明は、入力音声から複数種類の特
徴パラメータを抽出し、登録音声の各標準パラメータに
対する入力音声の各特徴パラメータの類似性を個々のパ
ラメータごとにそれぞれ計算し、各パラメータごとの類
似性に対してそのパラメータの類似,非類似に関する信
頼度特性を反映させた重みを付けて、入力音声と登録音
声との類似度,非類似度を計測し、計測された類似度,
非類似度に基づき入力音声を認識させるようになってい
ることを特徴としている。
に、請求項1記載の発明は、入力音声から複数種類の特
徴パラメータを抽出し、登録音声の各標準パラメータに
対する入力音声の各特徴パラメータの類似性を個々のパ
ラメータごとにそれぞれ計算し、各パラメータごとの類
似性に対してそのパラメータの類似,非類似に関する信
頼度特性を反映させた重みを付けて、入力音声と登録音
声との類似度,非類似度を計測し、計測された類似度,
非類似度に基づき入力音声を認識させるようになってい
ることを特徴としている。
【0010】請求項2記載の発明においては、前記類似
度は、各パラメータごとの類似性に対してそのパラメー
タの類似に関する信頼度特性を反映させた重みを付けて
計測され、前記非類似度は、前記類似度の計測とは別
に、各パラメータごとの類似性に対してそのパラメータ
の非類似に関する信頼度特性を反映された重みを付けて
計測され、各々別個に計測された類似度と非類似度とに
基づき入力音声を認識させるようになっている。
度は、各パラメータごとの類似性に対してそのパラメー
タの類似に関する信頼度特性を反映させた重みを付けて
計測され、前記非類似度は、前記類似度の計測とは別
に、各パラメータごとの類似性に対してそのパラメータ
の非類似に関する信頼度特性を反映された重みを付けて
計測され、各々別個に計測された類似度と非類似度とに
基づき入力音声を認識させるようになっている。
【0011】また、請求項3記載の発明では、前記類似
度と非類似度とは、各パラメータごとの類似性に対して
そのパラメータの類似,非類似に関する信頼度特性を反
映させた重みを付けて統合されて計測され、統合された
類似度/非類似度に基づき入力音声を認識させるように
なっている。
度と非類似度とは、各パラメータごとの類似性に対して
そのパラメータの類似,非類似に関する信頼度特性を反
映させた重みを付けて統合されて計測され、統合された
類似度/非類似度に基づき入力音声を認識させるように
なっている。
【0012】また、請求項4記載の発明では、前記重み
は、所定の登録音声に対し計測結果としての類似度,非
類似度が最適となる方向に逐次更新されるようになって
いる。
は、所定の登録音声に対し計測結果としての類似度,非
類似度が最適となる方向に逐次更新されるようになって
いる。
【0013】
【作用】本発明では、各パラメータごとの類似性に対
し、そのパラメータの類似,非類似に関する信頼度特性
を反映させた重みを付けて入力音声と登録音声との類似
度,非類似度を計測する。例えば、あるパラメータが、
類似判断についての信頼性は良いが、非類似判断につい
ての信頼性が悪い特性をもっているときには、類似度の
計測では、このパラメータの類似性に付される重みを大
きな値に設定し、非類似度の計測では、このパラメータ
の類似性に付される重みを小さな値に設定する。これに
より、パラメータの類似,非類似に関する信頼度特性を
反映させて、正確で信頼性のある類似度,非類似度を計
測することができる。
し、そのパラメータの類似,非類似に関する信頼度特性
を反映させた重みを付けて入力音声と登録音声との類似
度,非類似度を計測する。例えば、あるパラメータが、
類似判断についての信頼性は良いが、非類似判断につい
ての信頼性が悪い特性をもっているときには、類似度の
計測では、このパラメータの類似性に付される重みを大
きな値に設定し、非類似度の計測では、このパラメータ
の類似性に付される重みを小さな値に設定する。これに
より、パラメータの類似,非類似に関する信頼度特性を
反映させて、正確で信頼性のある類似度,非類似度を計
測することができる。
【0014】この際、類似度,非類似度の両者を別個に
計測し、これらに基づき入力音声を認識させても良い
し、または、両者を統合させた形で計測し、統合された
類似度/非類似度に従って入力音声を認識させても良
い。両者を統合させた類似度/類似度を計測する場合に
は、これに基づき認識結果を容易にかつ迅速に得ること
ができる。
計測し、これらに基づき入力音声を認識させても良い
し、または、両者を統合させた形で計測し、統合された
類似度/非類似度に従って入力音声を認識させても良
い。両者を統合させた類似度/類似度を計測する場合に
は、これに基づき認識結果を容易にかつ迅速に得ること
ができる。
【0015】また、計測結果としての類似度,非類似度
が最適となる方向に重みを逐次更新することにより、常
に精度良く類似度,非類似度を求めることができる。
が最適となる方向に重みを逐次更新することにより、常
に精度良く類似度,非類似度を求めることができる。
【0016】
【実施例】以下、本発明の実施例を図面に基づいて説明
する。図1は本発明の第1の実施例のブロック図であ
り、この第1の実施例では、音声を入力する音声入力部
1と、音声入力部1から入力された音声信号から特徴パ
ラメータを抽出する特徴抽出部2と、登録音声の標準パ
ラメータが予め登録されている辞書3と、特徴抽出部2
で抽出された特徴パラメータの標準パラメータに対する
類似性を個々のパラメータごとにそれぞれ計算し、各パ
ラメータごとの類似性にそのパラメータの類似,非類似
に関する信頼度の特性を反映させた重みを付けて、入力
音声と登録音声との総体的な類似度,非類似度を算出
し、これに基づき入力音声の認識を行なう認識部4とを
有している。
する。図1は本発明の第1の実施例のブロック図であ
り、この第1の実施例では、音声を入力する音声入力部
1と、音声入力部1から入力された音声信号から特徴パ
ラメータを抽出する特徴抽出部2と、登録音声の標準パ
ラメータが予め登録されている辞書3と、特徴抽出部2
で抽出された特徴パラメータの標準パラメータに対する
類似性を個々のパラメータごとにそれぞれ計算し、各パ
ラメータごとの類似性にそのパラメータの類似,非類似
に関する信頼度の特性を反映させた重みを付けて、入力
音声と登録音声との総体的な類似度,非類似度を算出
し、これに基づき入力音声の認識を行なう認識部4とを
有している。
【0017】特徴抽出部2が入力音声からN種類の特徴
パラメータを抽出するとし、これに対応させ、辞書3に
は1つの登録音声についてN種類の標準パラメータが登
録されているとすると、認識部4は、より具体的には、
N種類の各パラメータごとの類似性Rj(1≦j≦N)
を先づ計算し、各パラメータごとの類似性Rjにそのパ
ラメータの類似(a),非類似(b)に関する信頼度特
性を反映させた重みwj(a),wj(b)をそれぞれ付
けて次式のようにして総体的な類似度R(a),非類似
度R(b)を算出するようになっている。
パラメータを抽出するとし、これに対応させ、辞書3に
は1つの登録音声についてN種類の標準パラメータが登
録されているとすると、認識部4は、より具体的には、
N種類の各パラメータごとの類似性Rj(1≦j≦N)
を先づ計算し、各パラメータごとの類似性Rjにそのパ
ラメータの類似(a),非類似(b)に関する信頼度特
性を反映させた重みwj(a),wj(b)をそれぞれ付
けて次式のようにして総体的な類似度R(a),非類似
度R(b)を算出するようになっている。
【0018】
【数1】
【0019】なお、数1において、各パラメータごとの
類似性Rjは、そのパラメータが類似のときには正の
値、そのパラメータが非類似のときには負の値となるよ
うに計算され、類似度R(a)の計算において、例えば
R1が負のときには、R1に関する項は類似度R(a)
の計算には含ませず、また非類似度R(b)の計算にお
いて、例えばRNが正のときには、RNに関する項は非
類似度R(b)の計算には含ませないものとする。
類似性Rjは、そのパラメータが類似のときには正の
値、そのパラメータが非類似のときには負の値となるよ
うに計算され、類似度R(a)の計算において、例えば
R1が負のときには、R1に関する項は類似度R(a)
の計算には含ませず、また非類似度R(b)の計算にお
いて、例えばRNが正のときには、RNに関する項は非
類似度R(b)の計算には含ませないものとする。
【0020】上記数1の演算を行なうため、認識部4に
は、類似性Rj(1≦j≦N)を計算するためのN個の
計算部5−1乃至5−Nと、N個の計算部5−1乃至5
−Nから出力されるN個の類似性Rjに対し、類似
(a),非類似(b)の信頼性に応じた重みwj
(a),wj(b)を付け、N個の類似要素wj(a)・
RjとN個の非類似要素wj(b)・Rjとをそれぞれ求
め、これらを類似(a),非類似(b)毎に別個に加算
し、総体的な類似度R(a),非類似度R(b)をそれ
ぞれ算出する加算部6−1,6−2とが設けられてい
る。
は、類似性Rj(1≦j≦N)を計算するためのN個の
計算部5−1乃至5−Nと、N個の計算部5−1乃至5
−Nから出力されるN個の類似性Rjに対し、類似
(a),非類似(b)の信頼性に応じた重みwj
(a),wj(b)を付け、N個の類似要素wj(a)・
RjとN個の非類似要素wj(b)・Rjとをそれぞれ求
め、これらを類似(a),非類似(b)毎に別個に加算
し、総体的な類似度R(a),非類似度R(b)をそれ
ぞれ算出する加算部6−1,6−2とが設けられてい
る。
【0021】次にこのような構成における音声認識処理
動作について説明する。なお、辞書3内には特徴抽出部
2で抽出される特徴パラメータに対応した登録音素の標
準パラメータが予め登録されているとする。マイクや受
話器,テープレコーダなどの音声入力部1から音声が入
力されると、特徴抽出部2では、例えばこの入力音声の
中から1つの音素に相当する区間を検出し、この区間に
存在する音素の特徴パラメータ(特徴ベクトル)を抽出
する。
動作について説明する。なお、辞書3内には特徴抽出部
2で抽出される特徴パラメータに対応した登録音素の標
準パラメータが予め登録されているとする。マイクや受
話器,テープレコーダなどの音声入力部1から音声が入
力されると、特徴抽出部2では、例えばこの入力音声の
中から1つの音素に相当する区間を検出し、この区間に
存在する音素の特徴パラメータ(特徴ベクトル)を抽出
する。
【0022】例えば、この区間をs〜eフレームと仮定
すると、この部分の音素の特徴パラメータ(特徴ベクト
ル)として、特徴抽出部2から例えば、ホルマント周波
数,LPCケプストラム,LPCケプストラムの回帰係
数,音素の継続時間の4種類(N=4)を抽出する。
すると、この部分の音素の特徴パラメータ(特徴ベクト
ル)として、特徴抽出部2から例えば、ホルマント周波
数,LPCケプストラム,LPCケプストラムの回帰係
数,音素の継続時間の4種類(N=4)を抽出する。
【0023】上記4種類のパラメータが抽出されると、
認識部4では先づ、この4種類の特徴パラメータと辞書
3内に予め登録されている種々の音素の4種類の標準パ
ラメータとの類似性Rjを各パラメータ毎に計算する。
すなわち、計算部5−1では、ホルマント周波数に関す
る類似性R1を計算し、計算部5−2では、LPCケプ
ストラムに関する類似性R2を計算し、計算部5−3で
は、LPCケプストラムの回帰係数に関する類似性R3
を計算し、計算部5−4では、音素の継続時間に関する
類似性R4を計算する。
認識部4では先づ、この4種類の特徴パラメータと辞書
3内に予め登録されている種々の音素の4種類の標準パ
ラメータとの類似性Rjを各パラメータ毎に計算する。
すなわち、計算部5−1では、ホルマント周波数に関す
る類似性R1を計算し、計算部5−2では、LPCケプ
ストラムに関する類似性R2を計算し、計算部5−3で
は、LPCケプストラムの回帰係数に関する類似性R3
を計算し、計算部5−4では、音素の継続時間に関する
類似性R4を計算する。
【0024】ホルマント周波数に関する類似性R1は、
例えば次式により計算される。
例えば次式により計算される。
【0025】
【数2】
【0026】ここでF1,F2は入力音声のs〜eフレ
ームにおける第1,第2ホルマント周波数、G1,G2
はいま類似判断対象となっている辞書3内の音素Pの第
1,第2ホルマント周波数であり、A1,A2は各々正
の定数である。数2において、類似性R1は、入力音声
と音素Pとのホルマント周波数が一致したとき最大値
“1”をとり、これらのホルマント周波数がずれるに従
って減少し、非類似と認められるときには負の値をとる
ようになる。
ームにおける第1,第2ホルマント周波数、G1,G2
はいま類似判断対象となっている辞書3内の音素Pの第
1,第2ホルマント周波数であり、A1,A2は各々正
の定数である。数2において、類似性R1は、入力音声
と音素Pとのホルマント周波数が一致したとき最大値
“1”をとり、これらのホルマント周波数がずれるに従
って減少し、非類似と認められるときには負の値をとる
ようになる。
【0027】また、LPCケプストラムに関する類似性
R2は、例えば次数kを“10”に設定したとき、次式
で求められる。
R2は、例えば次数kを“10”に設定したとき、次式
で求められる。
【0028】
【数3】
【0029】ここで、xikは入力音声の第iフレーム
の第k次のLPCケプストラムであり、yk,Bkはそ
れぞれ音素Pの第k次のLPCケプストラムおよびその
係数である。数3において、LPCケプストラムに関す
る類似性R2も、数1におけるホルマント周波数に関す
る類似性R1と同様に、LPCケプストラムが一致した
とき最大値“1”をとり、これらのLPCケプストラム
がずれるに従って減少し、非類似と認められるときには
負の値をとるようになる。
の第k次のLPCケプストラムであり、yk,Bkはそ
れぞれ音素Pの第k次のLPCケプストラムおよびその
係数である。数3において、LPCケプストラムに関す
る類似性R2も、数1におけるホルマント周波数に関す
る類似性R1と同様に、LPCケプストラムが一致した
とき最大値“1”をとり、これらのLPCケプストラム
がずれるに従って減少し、非類似と認められるときには
負の値をとるようになる。
【0030】また、LPCケプストラムの回帰係数に関
する類似性R3は、次数kを“10”に設定したとき、
次式で求められる。
する類似性R3は、次数kを“10”に設定したとき、
次式で求められる。
【0031】
【数4】
【0032】ここで、dxk,dykはそれぞれ入力音
声,音素Pの第k次のLPCケプストラムの回帰係数
(傾き)である。
声,音素Pの第k次のLPCケプストラムの回帰係数
(傾き)である。
【0033】また、音素の継続時間に関する類似性R4
は、次式で求められる。
は、次式で求められる。
【0034】
【数5】
【0035】ここで、(e−s+1)は入力音声の継続
時間(すなわちs〜eフレームの時間)、Lは音素Pの
継続時間、Dは正の定数である。数5において、音素の
継続時間に関する類似性R4は、図2に示すように、入
力音声の継続時間(e−s+1)が音素Pの継続時間L
と一致したときに最大値“1”をとり、継続時間Lから
ずれるに従って減少し、非類似と認められるときには負
の値をとるようになる。
時間(すなわちs〜eフレームの時間)、Lは音素Pの
継続時間、Dは正の定数である。数5において、音素の
継続時間に関する類似性R4は、図2に示すように、入
力音声の継続時間(e−s+1)が音素Pの継続時間L
と一致したときに最大値“1”をとり、継続時間Lから
ずれるに従って減少し、非類似と認められるときには負
の値をとるようになる。
【0036】このようにして、4つのパラメータに関す
る個々の類似性R1,R2,R3,R4を各計算部5−
1乃至5−4で求めた後、加算部6−1では、4個の類
似性R1,R2,R3,R4に対し、各パラメータの類
似の信頼度特性に応じた重みw1(a),w2(a),
w3(a),w4(a)を付けてこれらを加算し、総体
的な類似度R(a)を数1に従い次式により算出する。
る個々の類似性R1,R2,R3,R4を各計算部5−
1乃至5−4で求めた後、加算部6−1では、4個の類
似性R1,R2,R3,R4に対し、各パラメータの類
似の信頼度特性に応じた重みw1(a),w2(a),
w3(a),w4(a)を付けてこれらを加算し、総体
的な類似度R(a)を数1に従い次式により算出する。
【0037】
【数6】
【0038】また、加算部6−2では、4個の類似性に
対し、各パラメータの非類似の信頼度特性に応じた重み
w1(b),w2(b),w3(b),w4(b)を付
けてこれらを加算し、総体的な非類似度R(b)を数1
に従い次式により算出する。
対し、各パラメータの非類似の信頼度特性に応じた重み
w1(b),w2(b),w3(b),w4(b)を付
けてこれらを加算し、総体的な非類似度R(b)を数1
に従い次式により算出する。
【0039】
【数7】
【0040】例えば、類似性R1,R4が正の値をと
り、類似性R2,R3が負の値をとるときには、総体的
な類似度R(a),非類似度R(b)はそれぞれ、次式
によって算出される。
り、類似性R2,R3が負の値をとるときには、総体的
な類似度R(a),非類似度R(b)はそれぞれ、次式
によって算出される。
【0041】
【数8】
【0042】また、この第1の実施例においては、各重
みw1(a)〜w4(a),w1(b)〜w4(b)
は、各パラメータの類似,非類似の信頼度特性に応じ予
め定められている。
みw1(a)〜w4(a),w1(b)〜w4(b)
は、各パラメータの類似,非類似の信頼度特性に応じ予
め定められている。
【0043】例えば、パラメータとしてホルマント周波
数の場合は、前述したように、類似判断については正確
さ,信頼性が高いので、類似についてのその重みw1
(a)は“0.7”程度に大きく設定されている。これ
に対し、非類似判断については正確さ,信頼性が低いの
で、非類似についてのその重みw1(b)は“0.1”
程度に小さく設定されている。
数の場合は、前述したように、類似判断については正確
さ,信頼性が高いので、類似についてのその重みw1
(a)は“0.7”程度に大きく設定されている。これ
に対し、非類似判断については正確さ,信頼性が低いの
で、非類似についてのその重みw1(b)は“0.1”
程度に小さく設定されている。
【0044】また、パラメータとして音素の継続時間の
場合は、類似判断については正確さ,信頼性が低いの
で、類似についてのその重みw4(a)は“0.1”程
度に小さく設定されている。これに対し、非類似判断に
ついては正確さ,信頼性が高いので、非類似についての
その重みw4(b)は“0.4”程度に大きく設定され
ている。
場合は、類似判断については正確さ,信頼性が低いの
で、類似についてのその重みw4(a)は“0.1”程
度に小さく設定されている。これに対し、非類似判断に
ついては正確さ,信頼性が高いので、非類似についての
その重みw4(b)は“0.4”程度に大きく設定され
ている。
【0045】従って、総体的な類似度R(a)におい
て、類似判断の正確さ,信頼性の高いホルマント周波数
についての類似性R1には、大きな重みw1(a)が付
されて、この類似性R1は、正確さ,信頼性の低い継続
時間についての類似性R4に比べて、大きなウェイトを
占めるので、これにより、加算部6−2からは、入力音
声と音素Pとの類似度を正確かつ信頼性良く計測した類
似度R(a)が出力される。
て、類似判断の正確さ,信頼性の高いホルマント周波数
についての類似性R1には、大きな重みw1(a)が付
されて、この類似性R1は、正確さ,信頼性の低い継続
時間についての類似性R4に比べて、大きなウェイトを
占めるので、これにより、加算部6−2からは、入力音
声と音素Pとの類似度を正確かつ信頼性良く計測した類
似度R(a)が出力される。
【0046】また、総体的な非類似度R(b)におい
て、非類似判断の正確さ,信頼性の低いホルマント周波
数についての類似性R1には小さな重みw1(b)が付
されて、この類似性R1は正確さ,信頼性の高い継続時
間についての類似性R4に比べて、小さなウェイトを占
めるので、これにより、加算部6−2からは、入力音声
と音素Pとの非類似度を正確かつ信頼性良く計測した非
類似度R(b)が出力される。
て、非類似判断の正確さ,信頼性の低いホルマント周波
数についての類似性R1には小さな重みw1(b)が付
されて、この類似性R1は正確さ,信頼性の高い継続時
間についての類似性R4に比べて、小さなウェイトを占
めるので、これにより、加算部6−2からは、入力音声
と音素Pとの非類似度を正確かつ信頼性良く計測した非
類似度R(b)が出力される。
【0047】なお、さらに個々の音素の特徴を考慮し
て、促音や長母音に対しては重みw4(a)を大きく
(例えば“0.3”程度に)また、バズバー部は重みw
4(b)を小さく(例えば“0.1”程度に)設定した
りすることにより、より精度良く、類似度R(a),非
類似度R(b)を得ることができる。
て、促音や長母音に対しては重みw4(a)を大きく
(例えば“0.3”程度に)また、バズバー部は重みw
4(b)を小さく(例えば“0.1”程度に)設定した
りすることにより、より精度良く、類似度R(a),非
類似度R(b)を得ることができる。
【0048】このように、この第1の実施例では、個々
のパラメータごとに類似判断の信頼性に応じた重み,お
よび非類似判断の信頼性に応じた重みを独立に設定し、
各パラメータに関する類似性に重みを付して総体的な類
似度,非類似度をそれぞれ算出するようにしているの
で、パラメータの類似,非類似に関する信頼度特性が各
パラメータごとに異なっていても、従来の音声認識方式
に比べて、総体的な類似度,非類似度を正確かつ信頼性
良く求めることができる。従って、より多くのパラメー
タを併用することができ、より多くのパラメータを併用
することで、より精密な認識処理を行なうことができ
て、認識率を一層向上させることができる。
のパラメータごとに類似判断の信頼性に応じた重み,お
よび非類似判断の信頼性に応じた重みを独立に設定し、
各パラメータに関する類似性に重みを付して総体的な類
似度,非類似度をそれぞれ算出するようにしているの
で、パラメータの類似,非類似に関する信頼度特性が各
パラメータごとに異なっていても、従来の音声認識方式
に比べて、総体的な類似度,非類似度を正確かつ信頼性
良く求めることができる。従って、より多くのパラメー
タを併用することができ、より多くのパラメータを併用
することで、より精密な認識処理を行なうことができ
て、認識率を一層向上させることができる。
【0049】図3は本発明の第2の実施例のブロック図
である。なお、図3において図1と同様の箇所には同じ
符号を付している。この第2の実施例の認識部14で
は、各パラメータごとの類似性Rj(1≦j≦N)を先
づ計算し、各パラメータごとの類似性Rjにそのパラメ
ータの類似(a),非類似(b)に関する信頼度特性を
反映させた重みwj(a),wj(b)をそれぞれ付け
て、次式のようにして統合された類似度/非類似度Qを
算出するようになっている。
である。なお、図3において図1と同様の箇所には同じ
符号を付している。この第2の実施例の認識部14で
は、各パラメータごとの類似性Rj(1≦j≦N)を先
づ計算し、各パラメータごとの類似性Rjにそのパラメ
ータの類似(a),非類似(b)に関する信頼度特性を
反映させた重みwj(a),wj(b)をそれぞれ付け
て、次式のようにして統合された類似度/非類似度Qを
算出するようになっている。
【0050】
【数9】
【0051】なお、数9において、各パラメータごとの
類似性Rjは、数1におけると同様に、そのパラメータ
が類似のときには正の値、そのパラメータが非類似のと
きには負の値となるように計算されるものとする。
類似性Rjは、数1におけると同様に、そのパラメータ
が類似のときには正の値、そのパラメータが非類似のと
きには負の値となるように計算されるものとする。
【0052】上記数9の演算を行なうため、認識部14
には、N個の計算部5−1乃至5−Nと、各計算部5−
1乃至5−Nから出力されるN個の類似性Rjに対し、
類似(a),非類似(b)の信頼度に応じた重みwj
(a),wj(b)を付け、N個の要素wj(a)・R
j,またはwj(b)・Rjを加算して統合された類似度
/非類似度Qを算出する統合部7とが設けられている。
には、N個の計算部5−1乃至5−Nと、各計算部5−
1乃至5−Nから出力されるN個の類似性Rjに対し、
類似(a),非類似(b)の信頼度に応じた重みwj
(a),wj(b)を付け、N個の要素wj(a)・R
j,またはwj(b)・Rjを加算して統合された類似度
/非類似度Qを算出する統合部7とが設けられている。
【0053】このような構成においては、第1の実施例
と同様の4種類の類似性R1,R2,R3,R4が計算
部5−1乃至5−4から出力されたとすると、統合部7
では、数9により統合された類似度/非類似度Qを算出
する。例えば、類似性R1,R4が正の値をとり、類似
性R2,R3が負の値をとるときには、統合された類似
度/非類似度Qは、次式により算出される。
と同様の4種類の類似性R1,R2,R3,R4が計算
部5−1乃至5−4から出力されたとすると、統合部7
では、数9により統合された類似度/非類似度Qを算出
する。例えば、類似性R1,R4が正の値をとり、類似
性R2,R3が負の値をとるときには、統合された類似
度/非類似度Qは、次式により算出される。
【0054】
【数10】
【0055】前述の第1の実施例では、総体的な類似度
R(a),非類似度R(b)をそれぞれ算出しており、
最終的な認識結果を得るには、算出された類似度R
(a),非類似度R(b)の両方を参酌してさらに統合
的な判断を加える必要がある。用途によっては、このよ
うに類似度R(a),非類似度R(b)を別々に求める
のが望ましい場合もあるが、最終的な認識結果を容易に
かつ迅速に得るためには、第2の実施例のように、統合
された類似度/非類似度Qが直接算出されるのが望まし
い。すなわち、数10によって求まる統合された類似度
/非類似度Qが正の値をとるときには、入力音声がある
音素Pと類似しており、音素Pと一致していると判断す
ることができ、また負の値をとるときには入力音声があ
る音素Pと非類似であり、音素Pではないと即座に判断
することができる。
R(a),非類似度R(b)をそれぞれ算出しており、
最終的な認識結果を得るには、算出された類似度R
(a),非類似度R(b)の両方を参酌してさらに統合
的な判断を加える必要がある。用途によっては、このよ
うに類似度R(a),非類似度R(b)を別々に求める
のが望ましい場合もあるが、最終的な認識結果を容易に
かつ迅速に得るためには、第2の実施例のように、統合
された類似度/非類似度Qが直接算出されるのが望まし
い。すなわち、数10によって求まる統合された類似度
/非類似度Qが正の値をとるときには、入力音声がある
音素Pと類似しており、音素Pと一致していると判断す
ることができ、また負の値をとるときには入力音声があ
る音素Pと非類似であり、音素Pではないと即座に判断
することができる。
【0056】このように、第2の実施例では、各パラメ
ータに関する類似性に重みを付けて統合された類似度/
非類似度Qを算出するようにしているので、類似度/非
類似度を正確かつ信頼性良く求めることができ、さらに
精密な認識処理を容易にかつ迅速に行なうことができ
る。
ータに関する類似性に重みを付けて統合された類似度/
非類似度Qを算出するようにしているので、類似度/非
類似度を正確かつ信頼性良く求めることができ、さらに
精密な認識処理を容易にかつ迅速に行なうことができ
る。
【0057】ところで、上述の各実施例では、パラメー
タの信頼度特性を予め考慮して重みwj(a),wj
(b)を一定のものに初期設定している。この場合、重
みwj(a),wj(b)を当初から最適なものに設定す
れば、高い認識性能が得られるが、音素や話者ごとに重
みwj(a),wj(b)を最適に設定するのは難しく、
さらに、当初最適に設定されていても、声質の変化や疲
労による発声の変化等によって、使用時間が経過すると
最適でなくなる場合がある。
タの信頼度特性を予め考慮して重みwj(a),wj
(b)を一定のものに初期設定している。この場合、重
みwj(a),wj(b)を当初から最適なものに設定す
れば、高い認識性能が得られるが、音素や話者ごとに重
みwj(a),wj(b)を最適に設定するのは難しく、
さらに、当初最適に設定されていても、声質の変化や疲
労による発声の変化等によって、使用時間が経過すると
最適でなくなる場合がある。
【0058】図4は本発明の第3の実施例のブロック図
であり、この第3の実施例では、上記問題を解決可能な
構成となっている。すなわち、この第3の実施例では、
図3,すなわち第2の実施例においてさらに重みwj
(a),wj(b)を学習により更新する重み更新部8
が設けられている。この重み更新部8は、ある音素Pに
対する統合された類似度/非類似度Qが所定の閾値TH
よりも小さいときには、次式に従って、Qの値を大きく
する方向に、重みwj(a),wj(b)を更新するよう
になっている。
であり、この第3の実施例では、上記問題を解決可能な
構成となっている。すなわち、この第3の実施例では、
図3,すなわち第2の実施例においてさらに重みwj
(a),wj(b)を学習により更新する重み更新部8
が設けられている。この重み更新部8は、ある音素Pに
対する統合された類似度/非類似度Qが所定の閾値TH
よりも小さいときには、次式に従って、Qの値を大きく
する方向に、重みwj(a),wj(b)を更新するよう
になっている。
【0059】
【数11】
【0060】このような構成では、ある音素に対応する
音声を入力させるときに、重みwj(a),wj(b)が
当初最適に設定されていない状態においては、入力音声
とこれに対応した音素との統合された類似度/非類似度
Qは閾値TH以下の小さな値として算出される。この算
出結果が加わると、重み更新部8は、数11に従い、類
似度/非類似度Qを大きくする方向に重みwj(a),
wj(b)を更新する。しかる後、現在入力された音声
と非常に似た音声が次の機会に入力されると、統合され
た類似度/非類似度Qは、更新された重みwj(a),
wj(b)によって、大きな値となり、これを重み更新
部8に繰り返し加えて、重みwj(a),wj(b)を繰
り返し学習により更新することにより、最終的に最適な
類似度/非類似度Qを得ることができる。
音声を入力させるときに、重みwj(a),wj(b)が
当初最適に設定されていない状態においては、入力音声
とこれに対応した音素との統合された類似度/非類似度
Qは閾値TH以下の小さな値として算出される。この算
出結果が加わると、重み更新部8は、数11に従い、類
似度/非類似度Qを大きくする方向に重みwj(a),
wj(b)を更新する。しかる後、現在入力された音声
と非常に似た音声が次の機会に入力されると、統合され
た類似度/非類似度Qは、更新された重みwj(a),
wj(b)によって、大きな値となり、これを重み更新
部8に繰り返し加えて、重みwj(a),wj(b)を繰
り返し学習により更新することにより、最終的に最適な
類似度/非類似度Qを得ることができる。
【0061】すなわち、ある音素に対応した音声が入力
されたときに、当初、これらの間の類似度が差程高くな
いと判断されてしまう場合にも、重みwj(a),wj
(b)は、学習によって最適な値に自動更新設定される
ので、最終的にはこれらの間の類似度を高いと判定させ
ることができ、これにより認識性能を著しく向上させる
ことが可能となる。
されたときに、当初、これらの間の類似度が差程高くな
いと判断されてしまう場合にも、重みwj(a),wj
(b)は、学習によって最適な値に自動更新設定される
ので、最終的にはこれらの間の類似度を高いと判定させ
ることができ、これにより認識性能を著しく向上させる
ことが可能となる。
【0062】このように、この第3の実施例では、各パ
ラメータごとの類似性Rjに重みwj(a),wj(b)
を付けて統合された類似度/非類似度Qを算出する場合
に、重みwj(a),wj(b)を音素や話者に応じて、
さらには、使用時間の経過に伴なう声質の変化や発声の
変化等に追従させて自動的に最適設定できるので、常に
高い認識性能を得ることができる。
ラメータごとの類似性Rjに重みwj(a),wj(b)
を付けて統合された類似度/非類似度Qを算出する場合
に、重みwj(a),wj(b)を音素や話者に応じて、
さらには、使用時間の経過に伴なう声質の変化や発声の
変化等に追従させて自動的に最適設定できるので、常に
高い認識性能を得ることができる。
【0063】なお、図4は図3,すなわち第2の実施例
を改良したものとなっているが、図1,すなわち第1の
実施例の構成に対しても同様にして適用しうる。
を改良したものとなっているが、図1,すなわち第1の
実施例の構成に対しても同様にして適用しうる。
【0064】
【発明の効果】以上に説明したように本発明によれば、
各パラメータごとの類似性に対し、そのパラメータの類
似,非類似に関する信頼度特性を反映させた重みを付け
て入力音声と登録音声との類似度,非類似度を計測する
ようにしているので、正確で信頼性のある認識結果を得
ることができて、特に多数のパラメータを併用すること
ができ、多数のパラメータを併用することでより一層信
頼性のある認識結果を得ることができる。
各パラメータごとの類似性に対し、そのパラメータの類
似,非類似に関する信頼度特性を反映させた重みを付け
て入力音声と登録音声との類似度,非類似度を計測する
ようにしているので、正確で信頼性のある認識結果を得
ることができて、特に多数のパラメータを併用すること
ができ、多数のパラメータを併用することでより一層信
頼性のある認識結果を得ることができる。
【0065】この際、類似度,非類似度の両者を別個に
計測し、これらに基づき入力音声を認識させても良い
し、または、両者を統合させた形で計測し、統合された
類似度/非類似度に従って入力音声を認識させても良
い。両者を統合させた類似度/類似度を計測する場合に
は、これに基づき認識結果を容易にかつ迅速に得ること
ができる。
計測し、これらに基づき入力音声を認識させても良い
し、または、両者を統合させた形で計測し、統合された
類似度/非類似度に従って入力音声を認識させても良
い。両者を統合させた類似度/類似度を計測する場合に
は、これに基づき認識結果を容易にかつ迅速に得ること
ができる。
【0066】また、計測結果としての類似度,非類似度
が最適となる方向に重みを逐次更新することにより、常
に精度良く類似度,非類似度を求めることができる。
が最適となる方向に重みを逐次更新することにより、常
に精度良く類似度,非類似度を求めることができる。
【図1】本発明の第1の実施例のブロック図である。
【図2】音素の継続時間に関する類似性の特性を示す図
である。
である。
【図3】本発明の第2の実施例のブロック図である。
【図4】本発明の第3の実施例のブロックである。
1 音声入力部 2 特徴抽出部 3 辞書 4,14 認識部 5−1乃至5−N 計算部 6−1,6−2 加算部 7 統合部 8 重み更新部 wj(a),wj(b) 重み R(a) 類似度 R(b) 非類似度 Q 統合された類似度/非類似度
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 17/00 JICSTファイル(JOIS)
Claims (4)
- 【請求項1】 入力音声から複数種類の特徴パラメータ
を抽出し、登録音声の各標準パラメータに対する入力音
声の各特徴パラメータの類似性を個々のパラメータごと
にそれぞれ計算し、各パラメータごとの類似性に対して
そのパラメータの類似,非類似に関する信頼度特性を反
映させた重みを付けて、入力音声と登録音声との類似
度,非類似度を計測し、計測された類似度,非類似度に
基づき入力音声を認識させるようになっていることを特
徴とする音声認識方法。 - 【請求項2】 前記類似度は、各パラメータごとの類似
性に対してそのパラメータの類似に関する信頼度特性を
反映させた重みを付けて計測され、前記非類似度は、前
記類似度の計測とは別に、各パラメータごとの類似性に
対してそのパラメータの非類似に関する信頼度特性を反
映された重みを付けて計測され、各々別個に計測された
類似度と非類似度とに基づき入力音声を認識させるよう
になっていることを特徴とする請求項1記載の音声認識
方法。 - 【請求項3】 前記類似度と非類似度とは、各パラメー
タごとの類似性に対してそのパラメータの類似,非類似
に関する信頼度特性を反映させた重みを付けて統合され
て計測され、統合された類似度/非類似度に基づき入力
音声を認識させるようになっていることを特徴とする請
求項1記載の音声認識方法。 - 【請求項4】 前記重みは、所定の登録音声に対し計測
結果としての類似度,非類似度が最適となる方向に逐次
更新されるようになっていることを特徴とする請求項1
記載の音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP13187491A JP3100180B2 (ja) | 1991-05-07 | 1991-05-07 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP13187491A JP3100180B2 (ja) | 1991-05-07 | 1991-05-07 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04332000A JPH04332000A (ja) | 1992-11-19 |
JP3100180B2 true JP3100180B2 (ja) | 2000-10-16 |
Family
ID=15068163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP13187491A Expired - Fee Related JP3100180B2 (ja) | 1991-05-07 | 1991-05-07 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3100180B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1185188A (ja) * | 1997-09-12 | 1999-03-30 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及びそのプログラム記録媒体 |
US11380314B2 (en) | 2019-03-25 | 2022-07-05 | Subaru Corporation | Voice recognizing apparatus and voice recognizing method |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5060224B2 (ja) * | 2007-09-12 | 2012-10-31 | 株式会社東芝 | 信号処理装置及びその方法 |
-
1991
- 1991-05-07 JP JP13187491A patent/JP3100180B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1185188A (ja) * | 1997-09-12 | 1999-03-30 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及びそのプログラム記録媒体 |
US11380314B2 (en) | 2019-03-25 | 2022-07-05 | Subaru Corporation | Voice recognizing apparatus and voice recognizing method |
Also Published As
Publication number | Publication date |
---|---|
JPH04332000A (ja) | 1992-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6125345A (en) | Method and apparatus for discriminative utterance verification using multiple confidence measures | |
EP0831456B1 (en) | Speech recognition method and apparatus therefor | |
JP4355322B2 (ja) | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 | |
US7693713B2 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
US5675706A (en) | Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition | |
TWI396184B (zh) | 一種語音辨認所有語言及用語音輸入單字的方法 | |
JP2001517816A (ja) | 連続および分離音声を認識するための音声認識システム | |
JP3066920B2 (ja) | 音声認識方法及び装置 | |
JP2002507010A (ja) | 同時に起こるマルチモード口述のための装置及び方法 | |
JP2001503154A (ja) | 音声認識システムにおける隠れマルコフ音声モデルの適合方法 | |
US7346497B2 (en) | High-order entropy error functions for neural classifiers | |
JPH09160584A (ja) | 音声適応化装置および音声認識装置 | |
JP3130524B2 (ja) | 音声信号認識方法およびその方法を実施する装置 | |
US20040015357A1 (en) | Method and apparatus for rejection of speech recognition results in accordance with confidence level | |
JP2955297B2 (ja) | 音声認識システム | |
JP3535292B2 (ja) | 音声認識システム | |
JP3100180B2 (ja) | 音声認識方法 | |
JPH1185190A (ja) | 音声認識装置及び音声認識方法 | |
JP2004139033A (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JPH06289891A (ja) | 音声認識装置 | |
US20020133343A1 (en) | Method for speech recognition, apparatus for the same, and voice controller | |
JPS60114900A (ja) | 有音・無音判定法 | |
JP3104900B2 (ja) | 音声認識方法 | |
EP1524650A1 (en) | Confidence measure in a speech recognition system | |
JP3075250B2 (ja) | 話者認識方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080818 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080818 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090818 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090818 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100818 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |