JP3400474B2 - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法

Info

Publication number
JP3400474B2
JP3400474B2 JP32357292A JP32357292A JP3400474B2 JP 3400474 B2 JP3400474 B2 JP 3400474B2 JP 32357292 A JP32357292 A JP 32357292A JP 32357292 A JP32357292 A JP 32357292A JP 3400474 B2 JP3400474 B2 JP 3400474B2
Authority
JP
Japan
Prior art keywords
input pattern
pattern
similarity
input
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP32357292A
Other languages
English (en)
Other versions
JPH06149289A (ja
Inventor
貢 松下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP32357292A priority Critical patent/JP3400474B2/ja
Publication of JPH06149289A publication Critical patent/JPH06149289A/ja
Application granted granted Critical
Publication of JP3400474B2 publication Critical patent/JP3400474B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声の入力パターンと
標準パターンとの類似度を求めて、音声認識処理を行な
う音声認識装置および音声認識方法に関する。
【0002】
【従来の技術】一般に、音声認識装置では、音声の入力
パターンと標準パターンとを照合し、その類似度に基づ
いて音声認識結果を出力するようになっている。入力パ
ターンと標準パターンとの類似度を求めるのに、従来で
は、DPマッチング法が良く知られている。このDPマ
ッチング法は、標準パターンと入力パターンの局所距離
(i番目の入力ベクトルとj番目の標準ベクトルとの距
離)から、標準パターンと入力パターンの累積距離が最
小となる最適累積距離を見つけ、この最適累積距離が最
小となる標準パターンを照合結果として出力するもので
あり、局所距離としては、例えば、ユークリッド距離,
マハラノビスの距離などを用いることができる。例え
ば、i番目の入力パターンのfチャンネル目のデータを
X(i,f)、i番目の標準パターンのfチャンネル目
の特徴量をY(j,f)とした場合に、ユークリッド距
離de(i,j)は、次式によって求められる。
【0003】
【数1】
【0004】
【発明が解決しようとする課題】このようにして求めた
局所距離は、話者の発声変動が小さい場合、あるいは周
囲の騒音が小さい場合には、非常に有効であるが、話者
が大きな声で発声したり周囲の騒音が大きい場合などに
は、良好な認識結果を得ることができないという問題が
あった。
【0005】本発明は、上述のような従来の欠点を解決
するためのものであり、特に、発声変動や周囲環境変動
に対しての認識精度を高めることの可能な音声認識装置
および音声認識方法を提供することを目的としている。
【0006】
【課題を解決するための手段および作用】上記目的を達
成するために、請求項1乃至請求項3,請求項8記載の
発明は、音声を入力する音声入力手段と、前記音声入力
手段より入力された入力信号を特徴ベクトルの時系列に
変換し、入力パタ−ンとする入力パターン生成手段と、
予め登録された音声を1つ以上の状態に分け、各状態毎
の特徴ベクトルで構成される標準パターンを記憶する標
準パターン記憶手段と、前記入力パターン生成手段で生
成された入力パタ−ンと前記標準パターン記憶部に記憶
されている標準パターンとの類似度を求める類似度計算
手段と、前記類似度計算手段で求めた類似度結果を用い
て認識処理を行なう認識処理手段と、前記類似度計算手
段により類似度を求める際に、標準パターンと入力パタ
−ンとから入力パターン補正値を求め、該入力パターン
補正値により入力パタ−ンを補正し、標準パターンと補
正された入力パタ−ンとの類似度を再度、前記類似度計
算手段により求めさせる入力パターン補正手段とを備え
ていることを特徴としている。このように、第1の類似
度計算処理を行ない、その際の標準パターンと入力パタ
−ンとから入力パターン補正値を求め、該入力パターン
補正値により入力パタ−ンを補正した後、再度、類似度
計算を行なうことにより、発声変動,周囲環境変動に対
しての認識精度を高めることができる。
【0007】また、請求項4記載の発明は、第1の類似
度計算処理を行なった際に、類似度が高かった所定個数
の標準パターンを選択し、該選択した標準パターンのみ
を再度、類似度計算処理の対象とすることを特徴として
いる。これにより、計算時間を短縮することができると
ともに、認識精度をより高めることができる。
【0008】また、請求項5,請求項6記載の発明は、
入力パタ−ンを母音部とそれ以外の部分とに分け、母音
部と子音部の2種類の補正値を求めて、入力パターンの
補正を行なうことを特徴としている。これにより、より
効果的な補正を行なうことができ、認識精度をより高め
ることができる。
【0009】また、請求項7記載の発明は、入力パター
ンに対する補正値を求める際に、それ以前に認識させた
時の補正値も利用することを特徴としている。これによ
り、より安定した補正を行なうことができ、認識精度を
より一層高めることができる。
【0010】
【実施例】以下、本発明の実施例を図面に基づいて説明
する。図1は本発明に係る音声認識装置の一実施例のブ
ロック図である。図1を参照すると、この音声認識装置
は、音声を入力する音声入力部1と、音声入力部1より
入力された入力信号を特徴ベクトルの時系列に変換し、
入力パターンとする入力パターン生成部2と、予め登録
された音声を1つ以上の状態に分割し、各状態毎の特徴
ベクトルで構成される標準パターンを記憶する標準パタ
ーン記憶部3と、入力パターン生成部2で生成された入
力パターンと標準パターン記憶部3に記憶されている標
準パターンとの類似度を求める類似度計算部4と、類似
度計算部4において類似度計算処理がなされるときに、
入力パターンと標準パターンとの違いにより入力パター
ンを補正し、再度、類似度計算処理を行なわせる入力パ
ターン補正部5と、類似度計算部4で求めた類似度結果
を用いて認識処理を行なう認識処理部6とを有してい
る。
【0011】次に、このような構成の音声認識装置のよ
り具体的な処理例について説明する。図2は第1の処理
例を示すフローチャートである。この第1の処理例で
は、実際の音声認識処理を行なうに先立って、認識対象
語を1つ以上の状態に分け、各状態毎に求めた標準パタ
ーンの特徴ベクトルY(j,f)(j:状態番号、f:
分析チャンネル)を標準パターン記憶部3に記憶してお
く。なお、この特徴ベクトルY(j,f)には、入力パ
ターン生成部2で使用される特徴ベクトルと同じ種類の
特徴ベクトルを用いる。
【0012】標準パターンの生成方法としては、認識対
象語を一定の状態数J個に分け、各状態毎に、状態内の
全フレームの特徴ベクトルの平均ベクトルを求める方法
や、全音素の特徴ベクトルを記憶しておき、認識対象語
の音素記号列に応じて、標準パターンを生成する方法な
どがある。例えば、“さっぽろ”の場合、/saqpo
ro/という音素記号列で表わすことができるので、/
s/,/a/,/q/,/p/,/o/,/r/,/o
/の各音素の特徴ベクトルから標準パターンを生成する
ことができる。
【0013】このようにして、標準パターン記憶部3に
標準パターンを予め記憶した後、先づ、音声入力部1で
は、マイクロホンのような音響/電気信号変換器を用い
て、入力音を電気信号x(t)に変換する(ステップS
1)。次いで、入力パターン生成部2では、音声入力部
1で得られた入力信号x(t)を10m秒程度のフレー
ム単位に分析を行ない、特徴ベクトルの時系列X(i,
f)(i:フレーム番号、f:分析チャンネル)を求
め、これを入力パターンとして生成する(ステップS
2)。なお、フレーム単位の分析方法としては、バンド
パスフィルタ群を用いて、入力信号x(t)のスペクト
ラムを得る方法や、入力信号x(t)をデジタル信号に
変換した後、LPC分析を行ない、線形予測係数,LP
Cケプストラムを求める方法などがある。
【0014】次いで、類似度計算部4では、入力パター
ン生成部2で生成された入力パターンの特徴ベクトルX
(i,f)と、標準パターン記憶部3に記憶されている
標準パターンの特徴ベクトルY(j,f)との距離,例
えばユ−クリッド距離を入力パタ−ンと標準パタ−ンと
の局所距離d1(i,j)として次式により求める。
【0015】
【数2】
【0016】しかる後、類似度計算部4は、この局所距
離d1(i,j)に基づき第1類似度D1を求める。
【0017】なお、この第1類似度D1は、例えば、特
開昭64−23299号に開示されているような動的計
画法や山登り法等を用いたパターンマッチングにより局
所距離d1(i,j)から求めることができる。但し、
この場合に、標準パターン記憶部3に記憶する特徴ベク
トルに、各状態の継続時間も加えておく必要がある。
【0018】ところで、この第1の処理例では、入力パ
ターン補正部5は、類似度計算部4で上記第1の類似度
計算処理を行なった際に、最適な類似度D1が得られた
経路における入力パターンと標準パターンとの差の発声
語内の平均的な値b(f)を特徴量毎に次式により求め
る(ステップS3)。
【0019】
【数3】
【0020】ここで、Iは発声語フレーム数である。入
力パターン補正部5は、次いで、入力パターンと標準パ
ターンとの差の発声語内平均値b(f)を補正値とし
て、入力パターンX(i,f)を次式のように補正し、
X’(i,f)とする(ステップS4)。
【0021】
【数4】X’(i,f)=X(i,f)−b(f)
【0022】このようにして入力パターンX(i,f)
がX’(i,f)に補正されると、類似度計算部4で
は、再び、当初の入力パターンX(i,f)のかわり
に、この補正された入力パターンX’(i,f)を用い
て、次式により局所距離d2(i,j)を求める。
【0023】
【数5】
【0024】次いで、前述と同様の仕方で、この局所距
離d2(i,j)に基づき、第1類似度D1と同様の仕方
で第2類似度D2を求める(ステップS5)。
【0025】このようにして、類似度計算部4におい
て、第2の類似度計算処理で、補正された入力パターン
X’(i,f)を用いて局所距離d2(i,j)を求
め、これに基づき第2類似度D2を求めた後、認識処理
部6では、類似度計算部4で求めた第2類似度D2が最
小となる認識対象語を認識結果として出力する(ステッ
プS6)。
【0026】このように、第1の処理例では、入力パタ
ーンと標準パターンとの差の発声語内の平均値により入
力パターンを補正し、再度類似度計算を行なっているの
で、発声変動,周囲環境変動がある場合にも、この変動
による影響を小さくすることができ、その結果、認識精
度を高めることができる。
【0027】なお、上記第1の処理例では、入力パター
ン補正部5は、入力パターンと標準パターンとの差の発
声語内の平均値により入力パターンを補正したが、これ
のかわりに種々の変形が可能である。
【0028】図3は他の音声認識処理例,すなわち第2
の処理例を示すフローチャートであり、この第2の処理
例では、入力パターンを標準パターンとの比の発声語内
の平均的な値を特徴量毎に求め、この平均的な値を補正
値として入力パターンを補正し、再度類似度計算を行な
うようになっている。すなわち、図3では、図2のステ
ップS1,S2,S5,S6の処理と同様の処理をステ
ップS11,S12,S15,S16で行ない、ステッ
プS13,S14の入力パタ−ン補正部5の処理だけが
図2の処理と異なっている。
【0029】ステップS13,S14の処理では、入力
パターン補正部5は、類似度計算部4で第1の類似度計
算処理を行なった際に、入力パターンと標準パターンと
の差の発声語内平均値b(f)ではなく、最適な類似度
1が得られた経路における各パラメータ毎の入力パタ
ーンと標準パターンとの比の発声語内平均値a(f)を
次式により求める。
【0030】
【数6】
【0031】入力パターン補正部5は、次いで、入力パ
ターンと標準パターンとの比の発声語内平均値a(f)
を補正値として、入力パターンX(i,f)を次式のよ
うに補正し、X’(i,f)とする。
【0032】
【数7】X’(i,f)=X(i,f)・a(f)
【0033】このようにして入力パターンX(i,f)
がX’(i,f)に補正されると、第1の処理例と同様
に、類似度計算部4では、再び、当初の入力パターンX
(i,f)のかわりに、この補正された入力パターン
X’(i,f)を用いて、数5により局所距離d
2(i,j)を求め、この局所距離d2(i,j)に基づ
き、第2類似度D2を求める。しかる後、認識処理部6
では、類似度計算部4で求めた類似度D2が最小となる
認識対象語を認識結果として出力する。
【0034】このように、第2の処理例では、入力パタ
ーンと標準パターンとの比の発声語内の平均値により入
力パターンを補正し、再度類似度計算を行なっているの
で、第1の処理例と同様に、発声変動,周囲環境変動が
ある場合にも、この変動による影響を小さくすることが
でき、その結果、認識精度を高めることができる。
【0035】また、図4はさらに他の音声認識処理例,
すなわち第3の処理例を示す図であり、この第3の処理
例では、入力パターンの特徴ベクトルの大きさと標準パ
ターンの特徴ベクトルの大きさとの比の発声語内の平均
的な値を補正値として、入力パターンを補正し、再度類
似度計算を行なうようになっている。すなわち、図4で
は、図2のステップS1,S2,S5,S6の処理と同
様の処理をステップS21,S22,S25,S26で
行ない、ステップS23,S24の入力パターン補正部
5の処理だけが図2の処理と異なっている。
【0036】ステップS23,S24の処理では、入力
パターン補正部5は、類似度計算部4で類似度計算を行
なった際に、最適な類似度D1が得られた経路における
入力パターンの特徴ベクトルの大きさと標準パターンの
特徴ベクトルの大きさとの比の発声語内平均値Aを次式
により求める。
【0037】
【数8】
【0038】入力パターン補正部5は、次いで、入力パ
ターンの特徴ベクトルの大きさと標準パターンの特徴ベ
クトルの大きさとの比の発声語内平均値Aを補正値とし
て、入力パターンX(i,f)を次式のように補正し、
X’(i,f)とする。
【0039】
【数9】X’(i,f)=X(i,f)・A
【0040】このようにして入力パターンX(i,f)
がX’(i,f)に補正されると、類似度計算部4で
は、再び、当初の入力パターンX(i,f)のかわり
に、この補正された入力パターンX’(i,f)を用い
て、数5により局所距離d2(i,j)を求め、この局
所距離d2(i,j)に基づき、第2類似度D2を求め
る。しかる後、認識処理部6では、類似度計算部4で求
めた第2類似度D2が最小となる認識対象語を認識結果
として出力する。
【0041】このように、第3の処理例では、入力パタ
ーンの特徴ベクトルの大きさと標準パターンの特徴ベク
トルの大きさとの比の発声語内の平均値により入力パタ
ーンを補正し、再度類似度計算を行なっているので、第
1,第2の処理例と同様に、発声変動,周囲環境変動が
ある場合にも、この変動による影響を小さくすることが
でき、その結果、認識精度を高めることができる。
【0042】また、図5はさらに他の音声認識処理例,
すなわち第4の処理例を示す図であり、この第4の処理
例では、入力パターンと標準パターンとの比の発声語内
の平均的な値を特徴量毎に求め、これを補正値として入
力パターンを補正した後、補正された入力パターンと標
準パターンとの差の発声語内の平均的な値を特徴量毎に
求め、これを補正値として、上記補正のなされた入力パ
ターンを補正し、再度類似度計算を行なうようになって
いる。すなわち、図5では、図2のステップS1,S
2,S5,S6の処理と同様の処理をステップS31,
S32,S35,S36で行ない、ステップS33,S
34の入力パターン補正部5の処理だけが図2の処理と
異なっている。
【0043】ステップS33,S34の処理では、入力
パターン補正部5は、類似度計算部4で類似度計算を行
なった際に、最適な類似度D1が得られた経路における
各パラメータ毎の入力パターンと標準パターンとの比の
発声語内平均値a(f)を先づ、数6により求める。こ
れを補正値として、数7により入力パターンX(i,
f)にa(f)を乗算し、入力パターンをX’(i,
f)に補正した後、各パラメータ毎の入力パターンと標
準パターンとの差の発声語内平均値b(f)を次式によ
り求める。
【0044】
【数10】
【0045】次いで、b(f)を補正値として、入力パ
ターンX’(i,f)を次式により補正する。
【0046】
【数11】X”(i,f)=X’(i,f)−b(f)
【0047】このようにして入力パターンX(i,f)
がX”(i,f)に補正されると、類似度計算部4で
は、再び、当初の入力パターンX(i,f)のかわり
に、この補正された入力パターンX”(i,f)を用い
て、数5(但し、X’(i,f)をX”(i,f)とす
る)により局所距離d2(i,j)を求め、この局所距
離d2(i,j)に基づき、第2類似度D2を求め、しか
る後、認識処理部6では、類似度計算部4で求めた第2
類似度D2が最小となる認識対象語を認識結果として出
力する。
【0048】このように、第4の処理例では、入力パタ
ーンと標準パターンとの比の発声語内の平均値により入
力パターンを補正し、さらに、補正された入力パターン
と標準パターンとの差の発声語内の平均値により上記補
正のなされた入力パターンを補正し、その補正値により
再度類似度計算を行なっているので、第1乃至第3の処
理例と同様に、発声変動,周囲環境変動がある場合に
も、この変動による影響を小さくすることができ、その
結果、認識精度を高めることができる。
【0049】また、図6はさらに他の音声認識処理例,
すなわち第5の処理例を示す図であり、この第5の処理
例では、入力パターンの特徴ベクトルの大きさと標準パ
ターンの特徴ベクトルの大きさとの比の発声語内の平均
的な値により入力パターンを補正し、さらに補正された
入力パターンと標準パターンとの差の発声語内の平均的
な値を特徴量毎に求め、これにより、上記補正のなされ
た入力パターンを補正し、再度類似度計算を行なうよう
になっている。すなわち、図6では、図2のステップS
1,S2,S5,S6の処理と同様の処理をステップS
41,S42,S45,S46で行ない、ステップS4
3,S44の入力パターン補正部5の処理だけが図2の
処理と異なっている。
【0050】ステップS43,S44の処理では、入力
パターン補正部5は、類似度計算部4で類似度計算を行
なった際に、最適な類似度D1が得られた経路における
入力パターンの特徴ベクトルの大きさと標準パターンの
特徴ベクトルの大きさとの比の発声語内平均値Aを先づ
数8により求める。これを補正値として、数9により入
力パターンX(i,f)にAを乗算し、入力パターンを
X’(i,f)に補正した後、各パラメータ毎の入力パ
ターンと標準パターンとの差の発声語内平均値b(f)
を数10により求め、これを補正値として、入力パター
ンX’(i,f)を数11により補正し、X”(i,
f)とする。
【0051】このようにして入力パターンX(i,f)
がX”(i,f)に補正されると、類似度計算部4で
は、再び、当初の入力パターンX(i,f)のかわり
に、この補正された入力パターンX”(i,f)を用い
て、数5(但し、X’(i,f)をX”(i,f)とす
る)により局所距離d2(i,j)を求め、この局所距
離d2(i,j)に基づき、第2類似度D2を求め、しか
る後、認識処理部6では、類似度計算部4で求めた第2
類似度D2が最小となる認識対象語を認識結果として出
力する。
【0052】このように、第5の処理例では、入力パタ
ーンの特徴ベクトルの大きさと標準パターンの特徴ベク
トルの大きさとの比の発声語内の平均的な値により入力
パターンを補正し、さらに補正された入力パターンと標
準パターンとの差の発声語内の平均的な値を特徴量毎に
求め、これにより上記補正のなされた入力パターンを補
正し、再度類似度計算を行なうようになっているので、
第1乃至第4の処理例と同様に、発声変動,周囲環境変
動がある場合にも、この変動による影響を小さくするこ
とができ、その結果、認識精度を高めることができる。
【0053】また、図7はさらに他の音声認識処理例,
すなわち第6の処理例を示す図であり、この第6の処理
例では、第1の類似度計算処理において、入力パターン
と標準パターンとの類似度D1を求め、このとき、認識
対象語(標準パターン)のうち、高い類似度D1を与え
た上位N候補についてのみ、第2の類似度計算処理の対
象とするようになっている。すなわち、図7では、図2
のステップS1,S2,S6の処理と同様の処理をステ
ップS51,S52,S57で行ない、ステップS53
乃至S56の処理が図2の処理と異なっている。
【0054】ステップS53乃至S56の処理では、類
似度計算部4は、入力パターン生成部2で生成された入
力パターンX(i,f)と標準パターン記憶部3に記憶
されている標準パターンY(j,f)とのユークリッド
距離d1(i,j)に基づき、前述したと同様に入力パ
ターンX(i,f)と各標準パターンY(j,f)との
類似度D1を求めることができる。
【0055】このとき、認識対象語,すなわち各標準パ
ターンY(j,f)のうち、類似度D1が高かった上位
N候補についてのみ、第2の類似度計算処理の対象と
し、その他は以後の処理において認識対象語から外す。
【0056】入力パターン補正部5では、例えば、最適
な類似度D1が得られた経路における入力パターンと標
準パターンとの差の発声語内平均値b(f)を数3によ
り特徴量毎に求め、b(f)を補正値として、入力パタ
ーンX(i,f)を数4により補正し、X’(i,f)
とする。
【0057】このようにして入力パターンX(i,f)
がX’(i,f)に補正されると、類似度計算部4で
は、再び、当初の入力パターンX(i,f)のかわり
に、この補正された入力パターンX’(i,f)を用い
て、数5により各標準パターンY(j,f)との局所距
離d2(i,j)を求め、これに基づき類似度D2を求め
る。ところで、この第2の類似度計算処理においては、
入力パターンX’(i,f)との照合対象となる標準パ
ターンは、ステップS54において得られた上位N候補
に限られる。
【0058】すなわち、第2の類似度計算処理では、標
準パターンを絞った上で、補正された入力パターンとの
類似度D2を求める。これにより、計算時間を短縮でき
るとともに、認識精度をより高めることができる。例え
ば、パターンの類似度は低いが、パターンの時間変化分
の類似度が高い語の場合、補正による悪影響により誤認
識する可能性があったが、この第6の処理例によれば、
第1の類似度計算処理の結果に基づき認識対象を類似度
の高い標準パターンのみに限定するので、上記のような
事態を防止することができる。
【0059】また、図8はさらに他の音声認識処理例,
すなわち第7の処理例を示す図であり、この第7の処理
例では、入力パターンを母音部とそれ以外の部分とに分
け、母音部のみを補正するようになっている。すなわ
ち、図8では、図2のステップS1,S2,S5,S6
の処理と同様の処理をステップS61,S62,S6
6,S67で行ない、ステップS63乃至S65の処理
が図2の処理と異なっている。
【0060】ステップS63乃至S65の処理では、入
力パターン補正部5は、類似度計算部4で類似度計算を
行なった際に、最適な類似度D1が得られた経路におけ
る各パラメータ毎の入力パターンと標準パターンとの差
の発声語内の母音部平均値bv(f)を次式により求め
る。
【0061】
【数12】
【0062】ここで、Ivは発声語内の母音部フレーム
数である。入力パターン補正部5は、次いで、発声語内
の母音部平均値bv(f)を補正値として、入力パター
ンX(i,f)を次式のように補正し、X’(i,f)
とする。
【0063】
【数13】X’(i,f)=X(i,f)−bv(f)
【0064】このようにして入力パターンX(i,f)
(より正確には入力パターンX(i,f)の母音部)が
補正されてX’(i,f)になると、類似度計算部4で
は、再び、当初の入力パターンX(i,f)のかわり
に、この補正された入力パターンX’(i,f)を用い
て、数5により局所距離d2(i,j)を求め、この局
所距離d2(i,j)に基づき、類似度D2を求める。し
かる後、認識処理部6では、類似度計算部4で求めた類
似度D2が最小となる認識対象語を認識結果として出力
する。
【0065】また、図9はさらに他の音声認識処理例,
すなわち第8の処理例を示す図であり、この第8の処理
例では、入力パターンを母音部と母音部以外とに分けて
補正するようになっている。すなわち、図9では、図2
のステップS1,S2,S5,S6の処理と同様の処理
をステップS71,S72,S77,S78で行ない、
ステップS73乃至S76の処理が図2の処理と異なっ
ている。
【0066】ステップS73乃至S76の処理では、入
力パターン補正部5は、類似度計算部4で類似度計算を
行なった際に、最適な類似度D1が得られた経路におけ
る入力パターンと標準パターンとの差の発声語内の母音
部平均値bv(f)と母音部外平均値bc(f)とを次
式により特徴量毎に求める。
【0067】
【数14】
【0068】ここで、Ivは発声語内の母音部フレーム
数であり、Icは発声語内の母音部外のフレーム数であ
る。入力パターン補正部5は、次いで、上記母音部平均
値bv(f)と母音部外平均値bc(f)を補正値とし
て、入力パターンX(i,f)を次式のように補正し、
X’(i,f)とする。
【0069】
【数15】
【0070】このようにして入力パターンX(i,f)
がX’(i,f)に補正されると、類似度計算部4で
は、再び、当初の入力パターンX(i,f)のかわり
に、この補正された入力パターンX’(i,f)を用い
て、数5により局所距離d2(i,j)を求め、これに
基づき、類似度D2を求める。しかる後、認識処理部6
では、類似度計算部4で求めた類似度D2が最小となる
認識対象語を認識結果として出力する。
【0071】このように、上述の第7,第8の処理例で
は、入力パターンを母音部と母音部以外とに分けて補正
するようになっているので、より効果的に補正を行なう
ことができ、その結果、認識精度をより一層高めること
ができる。
【0072】また、図10はさらに他の音声認識処理
例,すなわち第9の処理例を示す図であり、この第9の
処理例では、入力パターンに対する補正値を求める際、
それ以前に認識させたときの補正値も利用するようにな
っている。すなわち、図10では、図2のステップS
1,S2,S5,S6の処理と同様の処理をステップS
81,S82,S85,S86で行ない、ステップS8
3,S84の処理が図2の処理と異なっている。
【0073】ステップS83,S84の処理では、入力
パターン補正部5は、類似度計算部4で類似度計算を行
なった際に、例えば、最適な類似度D1が得られた経路
における入力パターンと標準パターンとの差の発声語内
平均値b(f)を数3によって特徴量毎に求めることの
他に、現在、類似度計算処理を行なっている発声以前の
発声時に用いた補正値bp(f)も記憶しておき、例え
ば、次式で求まる値b’(f)を入力パターンの補正値
とする。
【0074】
【数16】b’(f)={b(f)+bp(f)}/2
【0075】そして、この値b’(f)により入力パタ
ーンX(i,f)を次式のように補正する。
【0076】
【数17】X’(i,f)=X(i,f)−b’(f)
【0077】このようにして入力パターンX(i,f)
がX’(i,f)に補正されると、類似度計算部4で
は、再び、当初の入力パターンX(i,f)のかわり
に、この補正された入力パターンX’(i,f)を用い
て、数5により局所距離d2(i,j)を求め、これに
基づき、類似度D2を求める。しかる後、認識処理部6
では、類似度計算部4で求めた類似度D2が最小となる
認識対象語を認識結果として出力する。
【0078】このように、第9の処理例では、補正値を
求める際、それ以前に認識させたときの補正値も利用す
るので、より安定した補正を行なうことができ、その結
果、認識精度をより高めることができる。
【0079】なお、上述の各例において、補正演算の仕
方については上述した方法のみならず、種々の方法を用
いることができる。
【0080】
【発明の効果】以上に説明したように、請求項1乃至請
求項8記載の発明によれば、類似度計算で類似度を求め
る際に、標準パターンと入力パターンから入力パターン
補正値を求め、該入力パタ−ン補正値により入力パター
ンを補正して再度類似度を計算するので、発声変動,周
囲環境変動に対しての認識精度を高めることができる。
【0081】特に、請求項4記載の発明によれば、第1
の類似度計算処理を行なった際に、類似度が高かった所
定個数の標準パターンを選択し、該選択した標準パター
ンのみを再度、類似度計算処理の対象とするので、計算
時間を短縮することができるとともに、認識精度をより
高めることができる。
【0082】また、請求項5,6記載の発明によれば、
入力パターンを母音部と母音部以外とに分けて補正する
ようになっているので、より効果的な補正を行なうこと
ができ、認識精度をより高めることができる。
【0083】また、請求項7記載の発明によれば、入力
パターンの補正を行なう際、以前に発声された際の補正
値も利用するようになっているので、より安定した補正
を行なうことができ、認識精度をより一層高めることが
できる。
【図面の簡単な説明】
【図1】本発明に係る音声認識装置の一実施例のブロッ
ク図である。
【図2】図1の音声認識装置の処理動作の一例を示すフ
ローチャートである。
【図3】図1の音声認識装置の処理動作の一例を示すフ
ローチャートである。
【図4】図1の音声認識装置の処理動作の一例を示すフ
ローチャートである。
【図5】図1の音声認識装置の処理動作の一例を示すフ
ローチャートである。
【図6】図1の音声認識装置の処理動作の一例を示すフ
ローチャートである。
【図7】図1の音声認識装置の処理動作の一例を示すフ
ローチャートである。
【図8】図1の音声認識装置の処理動作の一例を示すフ
ローチャートである。
【図9】図1の音声認識装置の処理動作の一例を示すフ
ローチャートである。
【図10】図1の音声認識装置の処理動作の一例を示す
フローチャートである。
【符号の説明】
1 音声入力部 2 入力パタ−ン生成部 3 標準パターン記憶部 4 類似度計算部 5 入力パターン補正部 6 認識処理部

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声を入力する音声入力手段と、前記音
    声入力手段より入力された入力信号を特徴ベクトルの時
    系列に変換し、入力パタ−ンとする入力パターン生成手
    段と、予め登録された音声を1つ以上の状態に分け、各
    状態毎の特徴ベクトルで構成される標準パターンを記憶
    する標準パターン記憶手段と、前記入力パターン生成手
    段で生成された入力パタ−ンと前記標準パターン記憶部
    に記憶されている標準パターンとの類似度を求める類似
    度計算手段と、前記類似度計算手段で求めた類似度結果
    を用いて認識処理を行なう認識処理手段と、前記類似度
    計算手段により類似度を求める際に、標準パターンと入
    力パタ−ンとから入力パターン補正値を求め、該入力パ
    ターン補正値により入力パタ−ンを補正し、標準パター
    ンと補正された入力パタ−ンとの類似度を再度、前記類
    似度計算手段により求めさせる入力パターン補正手段と
    を備えていることを特徴とする音声認識装置。
  2. 【請求項2】 請求項1記載の音声認識装置において、
    前記入力パタ−ン補正手段は、前記類似度計算手段が類
    似度を求める際に、入力パタ−ンと標準パターンとの比
    の発声語内の平均的な値を特徴量毎に求め、これを入力
    パターン補正値として入力パタ−ンを補正した後、補正
    された入力パタ−ンと標準パターンとの差の発声語内の
    平均的な値を特徴量毎に求め、これを入力パターン補正
    として入力パタ−ンを再度補正して、再度、類似度計
    算処理を行わせるようになっていることを特徴とする音
    声認識装置。
  3. 【請求項3】 請求項1記載の音声認識装置において、
    前記入力パタ−ン補正手段は、前記類似度計算手段が類
    似度を求める際に、入力パタ−ンの特徴ベクトルの大き
    さと標準パターンの特徴ベクトルの大きさとの比の発声
    語内の平均的な値を求め、これを入力パタ−ン補正値
    して入力パタ−ンを補正した後、補正された入力パタ−
    ンと標準パターンとの差の発声語内の平均的な値を特徴
    量毎に求め、これを入力パタ−ン補正値として入力パタ
    −ンを再度補正して、再度、類似度計算処理を行なわせ
    ることを特徴とする音声認識装置。
  4. 【請求項4】 請求項3記載の音声認識装置において、
    前記類似度計算手段は、類似度計算処理を行なった際
    に、類似度が高かった所定個数の標準パターンを選択
    し、該選択した標準パターンのみを再度の類似度計算処
    理の対象とすることを特徴とする音声認識装置。
  5. 【請求項5】 請求項1記載の音声認識装置において、
    前記入力パターン補正手段は、入力パタ−ンを母音部と
    それ以外の部分とに分け、母音部のみ補正を行なうこと
    を特徴とする音声認識装置。
  6. 【請求項6】 請求項1記載の音声認識装置において、
    前記入力パターン補正手段は、入力パタ−ンを母音部と
    それ以外の部分とに分け、母音部と子音部の2種類の補
    正値を求めて、入力パターンの補正を行なうことを特徴
    とする音声認識装置。
  7. 【請求項7】 請求項1記載の音声認識装置において、
    前記入力パターン補正手段は、入力パタ−ン補正値を求
    める際に、それ以前に認識させた時の補正値も利用する
    ことを特徴とする音声認識装置。
  8. 【請求項8】 入力された音声入力信号を特徴ベクトル
    の時系列に変換して入力パタ−ンを作成し、予め登録さ
    れた音声を1つ以上の状態に分けて各状態毎の特徴ベク
    トルで構成される標準パターンを作成し、前記入力パタ
    −ンと前記標準パターンとの類似度を計算し、該類似度
    計算による類似度結果を用いて認識処理を行なう音声認
    識方法において、前記類似度計算で類似度を求める際
    に、標準パターンと入力パターンから入力パターン補正
    値を求め、該入力パタ−ン補正値により入力パターンを
    補正して再度類似度を計算することを特徴とする音声認
    識方法。
JP32357292A 1992-11-09 1992-11-09 音声認識装置および音声認識方法 Expired - Fee Related JP3400474B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32357292A JP3400474B2 (ja) 1992-11-09 1992-11-09 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32357292A JP3400474B2 (ja) 1992-11-09 1992-11-09 音声認識装置および音声認識方法

Publications (2)

Publication Number Publication Date
JPH06149289A JPH06149289A (ja) 1994-05-27
JP3400474B2 true JP3400474B2 (ja) 2003-04-28

Family

ID=18156206

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32357292A Expired - Fee Related JP3400474B2 (ja) 1992-11-09 1992-11-09 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP3400474B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5262713B2 (ja) * 2006-06-02 2013-08-14 日本電気株式会社 ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム
JP6451136B2 (ja) * 2014-08-05 2019-01-16 沖電気工業株式会社 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム
JP6451143B2 (ja) * 2014-08-20 2019-01-16 沖電気工業株式会社 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム

Also Published As

Publication number Publication date
JPH06149289A (ja) 1994-05-27

Similar Documents

Publication Publication Date Title
US8019602B2 (en) Automatic speech recognition learning using user corrections
JP3066920B2 (ja) 音声認識方法及び装置
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
JP2010020102A (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP2955297B2 (ja) 音声認識システム
US7765103B2 (en) Rule based speech synthesis method and apparatus
JP3400474B2 (ja) 音声認識装置および音声認識方法
JPH0247760B2 (ja)
JPH07219579A (ja) 音声認識装置
US7010481B2 (en) Method and apparatus for performing speech segmentation
JPH0486899A (ja) 標準パターン適応化方式
JPH09258783A (ja) 音声認識装置
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JPH0635495A (ja) 音声認識装置
JPH06230798A (ja) 音声認識装置
JP3652753B2 (ja) 発声変形音声認識装置及び音声認識方法
JPH0777998A (ja) 連続単語音声認識装置
JPH0635499A (ja) 音声認識装置
JP3518195B2 (ja) 音声認識装置
JP2655902B2 (ja) 音声の特徴抽出装置
JP3090204B2 (ja) 音声モデル学習装置及び音声認識装置
JPH10143190A (ja) 音声認識装置
JPH05197397A (ja) 音声認識方法及びその装置
JPH06130993A (ja) セグメンテーション及び音素の大分類認識法
JP2000122693A (ja) 話者認識方法および話者認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080221

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090221

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees