JP2797949B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP2797949B2 JP2797949B2 JP6009026A JP902694A JP2797949B2 JP 2797949 B2 JP2797949 B2 JP 2797949B2 JP 6009026 A JP6009026 A JP 6009026A JP 902694 A JP902694 A JP 902694A JP 2797949 B2 JP2797949 B2 JP 2797949B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- inner product
- normalization
- feature vector
- storage unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
Description
【0001】
【産業上の利用分野】本発明は、音声認識装置内で用い
られるスペクトルを正規化するための正規化方法に関す
るものである。
られるスペクトルを正規化するための正規化方法に関す
るものである。
【0002】
【従来の技術】音声認識の分野では、マイク、電話など
異なる回線特性の入力系において高い認識率を得られる
ような分析方法の研究がなされている。その1例とし
て、1次直線による傾き補正方法(特開昭58−196
595号:以下これを文献1とする)を挙げることが出
来る。この方法は、最小2乗法によりスペクトルの近似
1次直線を求め、スペクトルから1次直線を引き算する
ことによってスペクトルの傾き補正を行なっている。こ
の方法によって、音声の回線特性のバラツキを取り除く
ことができると述べられている。
異なる回線特性の入力系において高い認識率を得られる
ような分析方法の研究がなされている。その1例とし
て、1次直線による傾き補正方法(特開昭58−196
595号:以下これを文献1とする)を挙げることが出
来る。この方法は、最小2乗法によりスペクトルの近似
1次直線を求め、スペクトルから1次直線を引き算する
ことによってスペクトルの傾き補正を行なっている。こ
の方法によって、音声の回線特性のバラツキを取り除く
ことができると述べられている。
【0003】また、曲線によるスペクトル補正方法とし
て、Critical Damping系(中島,大
村、「適応逆フィルタ法による声道断面積関数の推
定」、日本音響学会講演論文集、昭和48年5月;以下
これを文献2とする)を挙げることができる。この方法
は、音声波形から滑らかな周波数特性を持つ声帯波を取
り出すことを目的としている。ここでは、時刻tにおけ
るサンプル値xt を、予測係数ε1 を用いて直前の2個
のサンプル値xt-1 、xt-2 の1次結合
て、Critical Damping系(中島,大
村、「適応逆フィルタ法による声道断面積関数の推
定」、日本音響学会講演論文集、昭和48年5月;以下
これを文献2とする)を挙げることができる。この方法
は、音声波形から滑らかな周波数特性を持つ声帯波を取
り出すことを目的としている。ここでは、時刻tにおけ
るサンプル値xt を、予測係数ε1 を用いて直前の2個
のサンプル値xt-1 、xt-2 の1次結合
【0004】
【数1】
【0005】で表し、時刻tにおける予測値と実際の値
との2乗和が最小になるようにε1 を定めている。すな
わち、時間領域の最小2乗法によってスペクトル補正を
行なっている。これによって、滑らかな周波数特性を持
つ声帯波を得ることができたと述べられている。
との2乗和が最小になるようにε1 を定めている。すな
わち、時間領域の最小2乗法によってスペクトル補正を
行なっている。これによって、滑らかな周波数特性を持
つ声帯波を得ることができたと述べられている。
【0006】
【発明が解決しようとする課題】文献1では、1次直線
による傾き補正方法を行なっているが、電話系など回線
特性が複雑な場合、1次直線では補正しきれないという
問題がある。
による傾き補正方法を行なっているが、電話系など回線
特性が複雑な場合、1次直線では補正しきれないという
問題がある。
【0007】また文献2では、曲線によるスペクトル補
正を行なっているが、波形レベルで補正計算を行なって
いるため多くの計算量を必要とする。2次系のCrit
ical Damping系を例に取って説明を行な
う。分析窓幅のポイント数をpとすると、予測係数ε1
を求めるためには、
正を行なっているが、波形レベルで補正計算を行なって
いるため多くの計算量を必要とする。2次系のCrit
ical Damping系を例に取って説明を行な
う。分析窓幅のポイント数をpとすると、予測係数ε1
を求めるためには、
【0008】
【数2】
【0009】の3次方程式を解かなくてはならない。こ
れらの計算を各時刻において行なうため多くの計算量を
必要とする。
れらの計算を各時刻において行なうため多くの計算量を
必要とする。
【0010】本発明の目的は、回線特性が複雑な場合に
も対応でき、かつ、計算量の少ないスペクトル正規化法
を提供することにある。
も対応でき、かつ、計算量の少ないスペクトル正規化法
を提供することにある。
【0011】
【課題を解決するための手段】第1の発明による音声認
識装置は、音声を入力する音声入力部と、前記音声入力
部より入力された音声データを対数スペクトルに変換す
る音声分析部と、前記音声分析部で得られた対数スペク
トルを直交変換する直交変換部と、正規化係数、単位ベ
クトルを保存する正規化係数保存部と、前記直交変換部
で得られた特徴ベクトルと前記正規化係数保存部に保存
されている単位ベクトルとを用いて内積の計算を行なう
内積計算部と、前記内積計算部で計算された内積を回帰
的に更新し、更新された内積と前記正規化係数保存部に
保存されている正規化係数、単位ベクトルと前記直交変
換部で計算された特徴ベクトルを用いて、2次以上の曲
線によるスペクトルの正規化を直交変換後の特徴ベクト
ル上で行なう正規化部と、正規化された特徴ベクトルを
用いて音声認識を行なう認識部とを有して構成される。
識装置は、音声を入力する音声入力部と、前記音声入力
部より入力された音声データを対数スペクトルに変換す
る音声分析部と、前記音声分析部で得られた対数スペク
トルを直交変換する直交変換部と、正規化係数、単位ベ
クトルを保存する正規化係数保存部と、前記直交変換部
で得られた特徴ベクトルと前記正規化係数保存部に保存
されている単位ベクトルとを用いて内積の計算を行なう
内積計算部と、前記内積計算部で計算された内積を回帰
的に更新し、更新された内積と前記正規化係数保存部に
保存されている正規化係数、単位ベクトルと前記直交変
換部で計算された特徴ベクトルを用いて、2次以上の曲
線によるスペクトルの正規化を直交変換後の特徴ベクト
ル上で行なう正規化部と、正規化された特徴ベクトルを
用いて音声認識を行なう認識部とを有して構成される。
【0012】第2の発明による音声認識装置は、音声を
入力する音声入力部と、前記音声入力部より入力された
音声データを対数スペクトルに変換する音声分析部と、
前記音声分析部で得られた対数スペクトルを直交変換す
る直交変換部と、前記直交変換部で得られた特徴ベクト
ルを一定区間分保存する特徴ベクトル保存部と、正規化
係数、単位ベクトルを保存する正規化係数保存部と、前
記直交変換部で得られた特徴ベクトルと前記正規化係数
保存部に保存されている単位ベクトルとを用いて内積の
計算を行なう内積計算部と、前記内積計算部で計算され
た内積を一定区間分足し込み、内積の平均を取る内積平
均計算部と、前記内積平均計算部で計算された平均内積
と前記正規化係数保存部に保存されている正規化係数、
単位ベクトルと前記特徴ベクトル保存部で保存されてい
る特徴ベクトルとを用いて、2次以上の曲線によるスペ
クトルの正規化を直交変換後の特徴ベクトル上で行なう
正規化部と、正規化された特徴ベクトルを用いて音声認
識を行なう認識部とを有して構成される。
入力する音声入力部と、前記音声入力部より入力された
音声データを対数スペクトルに変換する音声分析部と、
前記音声分析部で得られた対数スペクトルを直交変換す
る直交変換部と、前記直交変換部で得られた特徴ベクト
ルを一定区間分保存する特徴ベクトル保存部と、正規化
係数、単位ベクトルを保存する正規化係数保存部と、前
記直交変換部で得られた特徴ベクトルと前記正規化係数
保存部に保存されている単位ベクトルとを用いて内積の
計算を行なう内積計算部と、前記内積計算部で計算され
た内積を一定区間分足し込み、内積の平均を取る内積平
均計算部と、前記内積平均計算部で計算された平均内積
と前記正規化係数保存部に保存されている正規化係数、
単位ベクトルと前記特徴ベクトル保存部で保存されてい
る特徴ベクトルとを用いて、2次以上の曲線によるスペ
クトルの正規化を直交変換後の特徴ベクトル上で行なう
正規化部と、正規化された特徴ベクトルを用いて音声認
識を行なう認識部とを有して構成される。
【0013】
【作用】本発明は、音声認識装置内で用いられるスペク
トルを正規化するための正規化方法に関するものであ
る。
トルを正規化するための正規化方法に関するものであ
る。
【0014】本発明の正規化方法について、2次曲線に
よる正規化を例にとって説明を行なう。ここでは、ある
フレーム番号tでの計算の説明を行ない、式、記号中で
のフレーム番号表示は省略する。音声分析部で分析され
た対数スペクトルをfi 、対数スペクトル近似した2次
曲線をai2 +bi+c、(i=0〜N−1)、とする
と、正規化後の対数スペクトルは、
よる正規化を例にとって説明を行なう。ここでは、ある
フレーム番号tでの計算の説明を行ない、式、記号中で
のフレーム番号表示は省略する。音声分析部で分析され
た対数スペクトルをfi 、対数スペクトル近似した2次
曲線をai2 +bi+c、(i=0〜N−1)、とする
と、正規化後の対数スペクトルは、
【0015】
【数3】
【0016】となる。2次曲線は最小2乗法によって求
められるため、誤差
められるため、誤差
【0017】
【数4】
【0018】を最小とする係数a,b,cを求めれば良
い。すなわち、
い。すなわち、
【0019】
【数5】
【0020】の連立方程式を解けばよい。しかし、これ
らの演算を周波数軸上で行なう場合、多くの計算量とメ
モリー量を必要とする。
らの演算を周波数軸上で行なう場合、多くの計算量とメ
モリー量を必要とする。
【0021】本発明では、前記のスペクトル正規化と同
じ計算を、周波数軸上ではなく直交変換後の軸上で行な
うことを特徴とする。ここでは、直交変換の例としてc
os変換
じ計算を、周波数軸上ではなく直交変換後の軸上で行な
うことを特徴とする。ここでは、直交変換の例としてc
os変換
【0022】
【数6】
【0023】を挙げる。対数スペクトルのcos変換は
ケプストラムと呼ばれる特徴量である。直交変換部で直
交変換された後のケプストラムをFk 、正規化後のケプ
ストラムを
ケプストラムと呼ばれる特徴量である。直交変換部で直
交変換された後のケプストラムをFk 、正規化後のケプ
ストラムを
【0024】
【数7】
【0025】とすると、式(1)は
【0026】
【数8】
【0027】となり、式(2)は
【0028】
【数9】
【0029】となる。ケプストラム軸上での最小2乗法
の計算も周波数軸上の計算と同様に、(3),(4),
(5)の連立方程式を解けば良い。ここで、簡単のため
Tk (fi )=Fk 、Tk (i2 )=IIk 、T
k (i)=Ik 、Tk (1)=Ok とする。式(3)を
解くと、
の計算も周波数軸上の計算と同様に、(3),(4),
(5)の連立方程式を解けば良い。ここで、簡単のため
Tk (fi )=Fk 、Tk (i2 )=IIk 、T
k (i)=Ik 、Tk (1)=Ok とする。式(3)を
解くと、
【0030】
【数10】
【0031】となる。ここで、Re(Fk )は、Fk の
実部を表し、Im(Fk )は、Fk の虚部を表す。式
(4)と式(5)も同様に解くと、
実部を表し、Im(Fk )は、Fk の虚部を表す。式
(4)と式(5)も同様に解くと、
【0032】
【数11】
【0033】となる。ここで、
【0034】
【数12】
【0035】であり、Fk 、Ok とも実数であるから、
式(9),(10),(11)は実部のみ考慮すれば良
い。(9),(10),(11)の連立方程式を解く
と、
式(9),(10),(11)は実部のみ考慮すれば良
い。(9),(10),(11)の連立方程式を解く
と、
【0036】
【数13】
【0037】となる。実際には、Ok はk=0の時のみ
値を持つが、k=0において
値を持つが、k=0において
【0038】
【数14】
【0039】であるため式(7)の第4項は無視でき、
正規化の式は
正規化の式は
【0040】
【数15】
【0041】となる。式(17)に式(14),(1
5)を代入しまとめると、
5)を代入しまとめると、
【0042】
【数16】
【0043】となる。ここで、
【0044】
【数17】
【0045】である。(19),(20),(23),
(24)は予め計算しテーブル化しておけるため、実際
には、式(21),(22)の計算を行なえば良い。直
交係数はN個であるが、通常特徴ベクトルとして使用さ
れる直交係数はNc <Nであるため、P1 、P2 の計算
はk=1〜Nc まで行えば良い。Nc は10程度であ
り、Nは256程度であるため、ケプストラム軸上で正
規化を行なうことによって計算量を大幅に削減できる。
ここでは2次曲線による正規化の説明を行なったが、よ
り高次の曲線においても同様にケプストラム軸上で計算
することができる。
(24)は予め計算しテーブル化しておけるため、実際
には、式(21),(22)の計算を行なえば良い。直
交係数はN個であるが、通常特徴ベクトルとして使用さ
れる直交係数はNc <Nであるため、P1 、P2 の計算
はk=1〜Nc まで行えば良い。Nc は10程度であ
り、Nは256程度であるため、ケプストラム軸上で正
規化を行なうことによって計算量を大幅に削減できる。
ここでは2次曲線による正規化の説明を行なったが、よ
り高次の曲線においても同様にケプストラム軸上で計算
することができる。
【0046】また、ある周波数に中心を固定した2次曲
線による正規化の場合についても、同様の方法で式を導
出できる。固定中心周波数をMとすると、この場合の正
規化の式は、
線による正規化の場合についても、同様の方法で式を導
出できる。固定中心周波数をMとすると、この場合の正
規化の式は、
【0047】
【数18】
【0048】となる。ここで
【0049】
【数19】
【0050】であり、P1 、P2 、
【0051】
【外1】
【0052】は式(21),(22),(23),(2
4)と同様である。この場合も、R1、R2 、R3 、
4)と同様である。この場合も、R1、R2 、R3 、
【0053】
【外2】
【0054】は予め計算しテーブル化しておけるため、
認識動作時には内積部分のみの計算で良い。
認識動作時には内積部分のみの計算で良い。
【0055】また、周波数の帯域の1/2が曲線の中心
と一致した場合には、M=N/4とすれば良い。その場
合、正規化の式は、
と一致した場合には、M=N/4とすれば良い。その場
合、正規化の式は、
【0056】
【数20】
【0057】となる。ここで
【0058】
【数21】
【0059】であり、P1 、P2 は式(21),(2
2)と同様である。この場合も、U1 、U2 、
2)と同様である。この場合も、U1 、U2 、
【0060】
【外3】
【0061】は予め計算しテーブル化しておけるため、
認識動作時には内積部分のみの計算で良い。しかもこの
場合は、kが奇数項の時
認識動作時には内積部分のみの計算で良い。しかもこの
場合は、kが奇数項の時
【0062】
【数22】
【0063】であるため、kが偶数の時のみ計算すれば
良く、より少ない計算量で済む。
良く、より少ない計算量で済む。
【0064】対数スペクトルの正規化が、固定回線の特
性正規化を目的とする場合には、入力全体から正規化を
行なえば良い。フレーム番号をt,(t=0〜T−1)
とし、入力全体の内積を
性正規化を目的とする場合には、入力全体から正規化を
行なえば良い。フレーム番号をt,(t=0〜T−1)
とし、入力全体の内積を
【0065】
【数23】
【0066】とすると、
【0067】
【数24】
【0068】となる。このようにして求められた内積を
式(18),(25)のP1 、P2 に代入し、正規化を
行なう。
式(18),(25)のP1 、P2 に代入し、正規化を
行なう。
【0069】一方、動的に回線特性が変動すると考えら
れる場合には、以下のように回帰的に内積値を更新すれ
ば良い。更新後の内積を
れる場合には、以下のように回帰的に内積値を更新すれ
ば良い。更新後の内積を
【0070】
【数25】
【0071】とすると、
【0072】
【数26】
【0073】となる。ここで、αはα=0〜1の範囲の
正の値を取る係数であり、αが小さい場合は過去の内積
の比重を重くし、αが大きい場合は現時刻の内積の比重
を重くした計算となっている。このようにして求められ
た内積を式(18),(25)のP1 、P2 に代入し、
正規化を行なう。この際、記憶しておくのは1フレーム
前の内積のみで良いため、記憶量が少ないだけでなく、
入力に同期した処理が可能となる。
正の値を取る係数であり、αが小さい場合は過去の内積
の比重を重くし、αが大きい場合は現時刻の内積の比重
を重くした計算となっている。このようにして求められ
た内積を式(18),(25)のP1 、P2 に代入し、
正規化を行なう。この際、記憶しておくのは1フレーム
前の内積のみで良いため、記憶量が少ないだけでなく、
入力に同期した処理が可能となる。
【0074】
【実施例】図1は本発明の一実施例を示す構成図であ
り、本発明による音声認識装置を図1を用いて説明す
る。最初に、2次曲線(中心固定ではない)を用い、内
積値を回帰的に更新する正規化方法を説明する。この実
施例を以後実施例1とする。
り、本発明による音声認識装置を図1を用いて説明す
る。最初に、2次曲線(中心固定ではない)を用い、内
積値を回帰的に更新する正規化方法を説明する。この実
施例を以後実施例1とする。
【0075】音声入力部10に音声が入力され、音声分
析部20に送られる。送られた波形は、音声分析部20
において対数スペクトルに変換され、直交変換部30に
送られる。変換の例としては、フーリエ変換(古井、
「ディジタル音声処理」、東海大学出版会、p.44−
47、1985年;以下これを参考文献3とする)、c
os変換(「日野、「スペクトル解析」、朝倉書店、
p.62−63、1977年;以下これを参考文献4と
する)などが挙げられる。
析部20に送られる。送られた波形は、音声分析部20
において対数スペクトルに変換され、直交変換部30に
送られる。変換の例としては、フーリエ変換(古井、
「ディジタル音声処理」、東海大学出版会、p.44−
47、1985年;以下これを参考文献3とする)、c
os変換(「日野、「スペクトル解析」、朝倉書店、
p.62−63、1977年;以下これを参考文献4と
する)などが挙げられる。
【0076】直交変換部30に送られた対数スペクトル
は、特徴ベクトルに直交変換される。ここでは直交変換
としてcos変換を用いるが、その他の直交変換も可能
である。変換後の特徴ベクトルは内積計算部40と、正
規化部60に送られる。
は、特徴ベクトルに直交変換される。ここでは直交変換
としてcos変換を用いるが、その他の直交変換も可能
である。変換後の特徴ベクトルは内積計算部40と、正
規化部60に送られる。
【0077】内積計算部40の説明を行なうが、記号は
[作用]の記述と同一とする。内積計算部40に送られ
たケプストラムFk ,(k=1〜N−1)は、正規化係
数保存部50に保存されている単位ベクトル
[作用]の記述と同一とする。内積計算部40に送られ
たケプストラムFk ,(k=1〜N−1)は、正規化係
数保存部50に保存されている単位ベクトル
【0078】
【外4】
【0079】とともに内積の計算に用いられる。フレー
ム番号をtとすると、内積は、
ム番号をtとすると、内積は、
【0080】
【数27】
【0081】に従って計算される。計算された各フレー
ムの内積は、順次正規化部60に送られる。
ムの内積は、順次正規化部60に送られる。
【0082】正規化部60では、内積計算部40から送
られてきた内積を用い、回帰的な内積の更新を行なう。
t=0の場合、
られてきた内積を用い、回帰的な内積の更新を行なう。
t=0の場合、
【0083】
【数28】
【0084】となり、内積
【0085】
【数29】
【0086】は正規化部60に保存される。t≧1の場
合、保存されている1フレーム前の内積
合、保存されている1フレーム前の内積
【0087】
【数30】
【0088】と、内積計算部40で計算された現フレー
ムの内積P1 (t)、P2 (t)とを用い、式(3
6),(37)に従い、内積を回帰的に更新する。更新
された内積
ムの内積P1 (t)、P2 (t)とを用い、式(3
6),(37)に従い、内積を回帰的に更新する。更新
された内積
【0089】
【数31】
【0090】は、正規化部60に保存される。回帰的な
計算の場合、1フレーム前の内積のみ保存しておけば良
い。次に、正規化係数保存部50から送られてきた正規
化係数Q1 、Q2 、単位ベクトル
計算の場合、1フレーム前の内積のみ保存しておけば良
い。次に、正規化係数保存部50から送られてきた正規
化係数Q1 、Q2 、単位ベクトル
【0091】
【外5】
【0092】と、更新された内積
【0093】
【数32】
【0094】を用い、
【0095】
【数33】
【0096】が計算される。次に、計算されたAk ,B
k ,Ck ,Dk と、直交変換部30から送られてきた特
徴ベクトルFk を用い正規化を行なう。計算式は、
k ,Ck ,Dk と、直交変換部30から送られてきた特
徴ベクトルFk を用い正規化を行なう。計算式は、
【0097】
【数34】
【0098】で表される。以上の計算はフレームtの場
合について行なったが、実際には0〜T−1のフレーム
分の正規化計算が順次行なわれ、正規化されたケプスト
ラムは、順次、認識部70に送られる。
合について行なったが、実際には0〜T−1のフレーム
分の正規化計算が順次行なわれ、正規化されたケプスト
ラムは、順次、認識部70に送られる。
【0099】認識部70では、正規化されたケプストラ
ム
ム
【0100】
【数35】
【0101】を用い、音声認識を行なう。音声認識は、
前向きパスアルゴリズム(中川、「確率モデルによる音
声認識」、電子情報通信学会編、p.40−44、19
88年;以下これを文献5とする)、Viterbiア
ルゴリズム(中川、「確率モデルによる音声認識」、電
子情報通信学会編、p.44−46、1988年;以下
これを文献6とする)などを用いて行なう。ここでは、
ケプストラムのみを用いた音声認識について説明した
が、正規化された特徴ベクトルの他に、Δケプストラム
(“Speaker−independent iso
lated word recognition us
ing dynamic featuresof sp
eech spectrum”,IEEE Tran
s.Acoust.,Speech Signal P
rocessing,vol.ASSP−34,pp.
52−59,1986;以下これを参考文献7とする)
などを併用することも可能である。
前向きパスアルゴリズム(中川、「確率モデルによる音
声認識」、電子情報通信学会編、p.40−44、19
88年;以下これを文献5とする)、Viterbiア
ルゴリズム(中川、「確率モデルによる音声認識」、電
子情報通信学会編、p.44−46、1988年;以下
これを文献6とする)などを用いて行なう。ここでは、
ケプストラムのみを用いた音声認識について説明した
が、正規化された特徴ベクトルの他に、Δケプストラム
(“Speaker−independent iso
lated word recognition us
ing dynamic featuresof sp
eech spectrum”,IEEE Tran
s.Acoust.,Speech Signal P
rocessing,vol.ASSP−34,pp.
52−59,1986;以下これを参考文献7とする)
などを併用することも可能である。
【0102】次に、中心をある周波数に固定した2次曲
線を用い、回帰的に内積値を更新する正規化方法を例に
取って説明する。この実施例を以後実施例2とする。前
記実施例1と同様、図1を用いて説明を行なう。図中の
内積計算部40までは前記実施例1と同様に行なう。内
積計算部40で計算された内積P1 (t)、P2 (t)
は、正規化部60に送られる。
線を用い、回帰的に内積値を更新する正規化方法を例に
取って説明する。この実施例を以後実施例2とする。前
記実施例1と同様、図1を用いて説明を行なう。図中の
内積計算部40までは前記実施例1と同様に行なう。内
積計算部40で計算された内積P1 (t)、P2 (t)
は、正規化部60に送られる。
【0103】次に正規化部60では、内積計算部40か
ら送られてきたP1 (t)、P2 (t)と正規化部60
に保存されている1フレーム前の内積
ら送られてきたP1 (t)、P2 (t)と正規化部60
に保存されている1フレーム前の内積
【0104】
【数36】
【0105】とを用い、内積を回帰的に更新する。
【0106】次に、更新された内積
【0107】
【数37】
【0108】と正規化係数保存部50に保存されている
正規化係数R1 、R2 、R3 、単位ベクトル
正規化係数R1 、R2 、R3 、単位ベクトル
【0109】
【外6】
【0110】とを用い、
【0111】
【数38】
【0112】
【数39】
【0113】の計算を行なう。次に、計算されたEk 、
Vk 、Gk 、Hk と、直交変換部30から送られてきた
Fk を用い正規化を行なう。計算式は、
Vk 、Gk 、Hk と、直交変換部30から送られてきた
Fk を用い正規化を行なう。計算式は、
【0114】
【数40】
【0115】で表される。以上の計算をt=0〜T−1
において順次行なう。このようにして正規化されたケプ
ストラムは、認識部70に順次送られる。
において順次行なう。このようにして正規化されたケプ
ストラムは、認識部70に順次送られる。
【0116】認識部70での計算は、前記実施例1と同
様に行なう。
様に行なう。
【0117】次に、曲線の中心を周波数の帯域の1/2
に一致させた2次曲線を用い、回帰的に内積値を更新す
る正規化方法を例に取って説明する。この実施例を以後
実施例3とする。前記実施例1、2と同様、図1を用い
て説明を行なう。図中の内積計算部40までは前記実施
例1、2と同様に行なう。内積計算部40で計算された
内積P1 (t)、P2 (t)は、正規化部60に送られ
る。
に一致させた2次曲線を用い、回帰的に内積値を更新す
る正規化方法を例に取って説明する。この実施例を以後
実施例3とする。前記実施例1、2と同様、図1を用い
て説明を行なう。図中の内積計算部40までは前記実施
例1、2と同様に行なう。内積計算部40で計算された
内積P1 (t)、P2 (t)は、正規化部60に送られ
る。
【0118】次に正規化部60では、内積計算部40か
ら送られてきたP1 (t)、P2 (t)と正規化部60
に保存されている1フレーム前の内積
ら送られてきたP1 (t)、P2 (t)と正規化部60
に保存されている1フレーム前の内積
【0119】
【数41】
【0120】とを用い、内積を回帰的に更新する。
【0121】次に、更新された内積
【0122】
【数42】
【0123】と正規化係数保存部50に保存されている
正規化係数U1 、U2 、単位ベクトル
正規化係数U1 、U2 、単位ベクトル
【0124】
【外7】
【0125】とを用い、
【0126】
【数43】
【0127】の計算を行なう。次に、計算されたJk と
直交変換部30から送られてきたFkを用い正規化を行
なう。計算式は、
直交変換部30から送られてきたFkを用い正規化を行
なう。計算式は、
【0128】
【数44】
【0129】で表される。以上の計算をt=0〜T−1
において順次行なう。このようにして正規化されたケプ
ストラムは、認識部70に順次送られる。
において順次行なう。このようにして正規化されたケプ
ストラムは、認識部70に順次送られる。
【0130】認識部70での計算は、前記実施例1、2
と同様に行なう。
と同様に行なう。
【0131】次に2次曲線(中心固定ではない)を用
い、内積計算を一定区間で行なう方法を例に取り、図2
を用いて説明する。ここでは一定区間を単語とするが、
音素や文なども可能である。この実施例を以後実施例4
とする。図中の直交変換部120までは前記実施例1、
2、3の直交変換部30と同様の計算を行なう。直交変
換部120で計算された特徴ベクトルは、内積計算部1
30と特徴ベクトル保存部140に送られる。
い、内積計算を一定区間で行なう方法を例に取り、図2
を用いて説明する。ここでは一定区間を単語とするが、
音素や文なども可能である。この実施例を以後実施例4
とする。図中の直交変換部120までは前記実施例1、
2、3の直交変換部30と同様の計算を行なう。直交変
換部120で計算された特徴ベクトルは、内積計算部1
30と特徴ベクトル保存部140に送られる。
【0132】内積計算部130では、直交変換部120
から送られてきた特徴ベクトルと正規化係数保存部15
0に保存されている単位ベクトルを用いて、内積の計算
が行なわれる。内積計算部130で計算された各フレー
ムの内積P1 (t)、P2 (t)は、順次内積平均計算
部160に送られ足し込まれる。t=T−1の内積計算
が終了した時点で、単語全体の平均内積
から送られてきた特徴ベクトルと正規化係数保存部15
0に保存されている単位ベクトルを用いて、内積の計算
が行なわれる。内積計算部130で計算された各フレー
ムの内積P1 (t)、P2 (t)は、順次内積平均計算
部160に送られ足し込まれる。t=T−1の内積計算
が終了した時点で、単語全体の平均内積
【0133】
【数45】
【0134】が式(34),(35)に従って計算され
る。
る。
【0135】内積平均計算部160で計算された単語全
体の平均内積
体の平均内積
【0136】
【数46】
【0137】と、正規化係数保存部150に保存されて
いる正規化係数Q1 、Q2 、単位ベクトル
いる正規化係数Q1 、Q2 、単位ベクトル
【0138】
【外8】
【0139】は正規化部170に送られる。正規化部1
70では、内積平均計算部160から送られてきた
70では、内積平均計算部160から送られてきた
【0140】
【数47】
【0141】と正規化係数保存部150から送られてき
たQ1 、Q2 、
たQ1 、Q2 、
【0142】
【外9】
【0143】とを用い、
【0144】
【数48】
【0145】が計算される。次に、特徴ベクトル保存部
140に保存されているケプストラムFk (t)、(t
=0〜T−1)と計算された
140に保存されているケプストラムFk (t)、(t
=0〜T−1)と計算された
【0146】
【数49】
【0147】を用い
【0148】
【数50】
【0149】に従い、正規化が順次行われる。正規化さ
れたケプストラムは、順次、認識部180に送られる。
れたケプストラムは、順次、認識部180に送られる。
【0150】認識部180の計算は、前記実施例1、
2、3の認識部70の計算と同様に行われる。
2、3の認識部70の計算と同様に行われる。
【0151】次に、中心をある周波数に固定した2次曲
線を用い、内積計算を単語ごとに行なう方法を例に取
り、図2を用いて説明する。この実施例を以後実施例5
とする。図中の内積計算部130までは前記実施例4の
内積計算部130と同様の計算を行なう。内積計算部1
30で計算された各フレームの内積P1 (t)、P
2 (t)は、順次内積平均計算部160に送られ足し込
まれる。t=T−1の内積計算が終了した時点で、単語
全体の平均内積
線を用い、内積計算を単語ごとに行なう方法を例に取
り、図2を用いて説明する。この実施例を以後実施例5
とする。図中の内積計算部130までは前記実施例4の
内積計算部130と同様の計算を行なう。内積計算部1
30で計算された各フレームの内積P1 (t)、P
2 (t)は、順次内積平均計算部160に送られ足し込
まれる。t=T−1の内積計算が終了した時点で、単語
全体の平均内積
【0152】
【数51】
【0153】が式(34),(35)に従って計算され
る。
る。
【0154】内積平均計算部160で計算された単語全
体の平均内積
体の平均内積
【0155】
【数52】
【0156】と、正規化係数保存部150に保存されて
いる正規化係数R1 、R2 、R3 、単位ベクトル
いる正規化係数R1 、R2 、R3 、単位ベクトル
【0157】
【外10】
【0158】は正規化部170に送られる。正規化部1
70では、内積平均計算部160から送られてきた
70では、内積平均計算部160から送られてきた
【0159】
【数53】
【0160】と正規化係数保存部150から送られてき
たR1 、R2 、R3 、
たR1 、R2 、R3 、
【0161】
【外11】
【0162】とを用い、
【0163】
【数54】
【0164】が計算される。次に、特徴ベクトル保存部
140に保存されているケプストラムFk (t)と計算
された
140に保存されているケプストラムFk (t)と計算
された
【0165】
【数55】
【0166】を用い
【0167】
【数56】
【0168】に従い、正規化が順次行なわれる。正規化
されたケプストラムは、順次、認識部180に送られ
る。
されたケプストラムは、順次、認識部180に送られ
る。
【0169】認識部180の計算は、前記実施例4と同
様に行なわれる。
様に行なわれる。
【0170】次に、曲線の中心を周波数の帯域の1/2
に一致させた2次曲線を用い、内積計算を単語ごとに行
なう方法を例に取り、図2を用いて説明する。この実施
例を以後実施例6とする。図中の内積計算部130まで
は前記実施例4,5の内積計算部130と同様の計算を
行なう。内積計算部130で計算された各フレームの内
積P1 (t)、P2 (t)は、順次内積平均計算部16
0に送られ足し込まれる。t=T−1の内積計算が終了
した時点で、単語全体の平均内積
に一致させた2次曲線を用い、内積計算を単語ごとに行
なう方法を例に取り、図2を用いて説明する。この実施
例を以後実施例6とする。図中の内積計算部130まで
は前記実施例4,5の内積計算部130と同様の計算を
行なう。内積計算部130で計算された各フレームの内
積P1 (t)、P2 (t)は、順次内積平均計算部16
0に送られ足し込まれる。t=T−1の内積計算が終了
した時点で、単語全体の平均内積
【0171】
【数57】
【0172】が式(34),(35)に従って計算され
る。
る。
【0173】内積平均計算部160で計算された単語全
体の平均内積
体の平均内積
【0174】
【数58】
【0175】と、正規化係数保存部150に保存されて
いる正規化係数Uk 、単位ベクトル
いる正規化係数Uk 、単位ベクトル
【0176】
【外12】
【0177】は正規化部170に送られる。正規化部1
70では、内積平均計算部160から送られてきた
70では、内積平均計算部160から送られてきた
【0178】
【数59】
【0179】と正規化係数保存部150から送られてき
たU1 、U2 、
たU1 、U2 、
【0180】
【外13】
【0181】とを用い、
【0182】
【数60】
【0183】が計算される。次に、特徴ベクトル保存部
140に保存されているケプストラムFk (t)と計算
された
140に保存されているケプストラムFk (t)と計算
された
【0184】
【数61】
【0185】を用い
【0186】
【数62】
【0187】に従い、正規化が順次行なわれる。正規化
されたケプストラムは、順次、認識部180に送られ
る。
されたケプストラムは、順次、認識部180に送られ
る。
【0188】認識部180の計算は、前記実施例4、5
と同様に行なわれる。
と同様に行なわれる。
【0189】
【発明の効果】本発明によれば、正規化部分の計算量が
少なく、しかも回線特性が複雑な場合でも高い認識率が
得られるような音声認識装置が得られる。
少なく、しかも回線特性が複雑な場合でも高い認識率が
得られるような音声認識装置が得られる。
【図1】本発明による音声認識装置の一実施例を示すブ
ロック図である。
ロック図である。
【図2】本発明による音声認識装置の一実施例を示すブ
ロック図である。
ロック図である。
【符号の説明】 10 音声入力部 20 音声分析部 30 直交変換部 40 内積計算部 50 正規化係数保存部 60 正規化部 70 認識部 100 音声入力部 110 音声分析部 120 直交変換部 130 内積計算部 140 特徴ベクトル保存部 150 正規化係数保存部 160 内積平均計算部 170 正規化部 180 認識部
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G10L 3/02 301 G10L 9/16 301
Claims (4)
- 【請求項1】音声を入力する音声入力部と、前記音声入
力部より入力された音声データを対数スペクトルに変換
する音声分析部と、前記音声分析部で得られた対数スペ
クトルを直交変換する直交変換部と、正規化係数、単位
ベクトルを保存する正規化係数保存部と、前記直交変換
部で得られた特徴ベクトルと前記正規化係数保存部に保
存されている単位ベクトルとを用いて内積の計算を行な
う内積計算部と、前記内積計算部で計算された内積を回
帰的に更新し、更新された内積と前記正規化係数保存部
に保存されている正規化係数、単位ベクトルと前記直交
変換部で計算された特徴ベクトルとを用いて、2次以上
の曲線によるスペクトルの正規化を直交変換後の特徴ベ
クトル上で行なう正規化部と、正規化された特徴ベクト
ルを用いて音声認識を行なう認識部とを備えたことを特
徴とする音声認識装置。 - 【請求項2】音声を入力する音声入力部と、前記音声入
力部より入力された音声データを対数スペクトルに変換
する音声分析部と、前記音声分析部で得られた対数スペ
クトルを直交変換する直交変換部と、前記直交変換部で
得られた特徴ベクトルを一定区間分保存する特徴ベクト
ル保存部と、正規化係数、単位ベクトルを保存する正規
化係数保存部と、前記直交変換部で得られた特徴ベクト
ルと前記正規化係数保存部に保存されている単位ベクト
ルとを用いて内積の計算を行なう内積計算部と、前記内
積計算部で計算された内積を一定区間分足し込み、内積
の平均を取る内積平均計算部と、前記内積平均計算部で
計算された平均内積と前記正規化係数保存部に保存され
ている正規化係数、単位ベクトルと前記特徴ベクトル保
存部で保存されている特徴ベクトルとを用いて、2次以
上の曲線によるスペクトルの正規化を直交変換後の特徴
ベクトル上で行なう正規化部と、正規化された特徴ベク
トルを用いて音声認識を行なう認識部とを備えたことを
特徴とする音声認識装置。 - 【請求項3】前記正規化係数保存部と前記正規化部にお
いて、ある周波数に中心を固定した2次以上の偶数次の
曲線による正規化方法を含むことを特徴とする請求項1
又は2記載の音声認識装置。 - 【請求項4】前記正規化係数保存部と前記正規化部にお
いて、周波数の帯域の1/2が2次以上の偶数次の曲線
の中心と一致した場合の正規化方法を含むことを特徴と
する請求項3記載の音声認識装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6009026A JP2797949B2 (ja) | 1994-01-31 | 1994-01-31 | 音声認識装置 |
DE69517829T DE69517829T2 (de) | 1994-01-31 | 1995-01-31 | Vorrichtung und Verfahren zur Spracherkennung |
EP95101309A EP0665532B1 (en) | 1994-01-31 | 1995-01-31 | Speech recognition apparatus and method |
US08/381,328 US5712956A (en) | 1994-01-31 | 1995-01-31 | Feature extraction and normalization for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6009026A JP2797949B2 (ja) | 1994-01-31 | 1994-01-31 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07219592A JPH07219592A (ja) | 1995-08-18 |
JP2797949B2 true JP2797949B2 (ja) | 1998-09-17 |
Family
ID=11709156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6009026A Expired - Lifetime JP2797949B2 (ja) | 1994-01-31 | 1994-01-31 | 音声認識装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5712956A (ja) |
EP (1) | EP0665532B1 (ja) |
JP (1) | JP2797949B2 (ja) |
DE (1) | DE69517829T2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107580722A (zh) * | 2015-05-27 | 2018-01-12 | 英特尔公司 | 具有对应于各个数据流的直接存储器存取引擎的高斯混合模型加速器 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3061114B2 (ja) * | 1996-11-25 | 2000-07-10 | 日本電気株式会社 | 音声認識装置 |
KR20010102549A (ko) * | 1999-03-11 | 2001-11-15 | 내쉬 로저 윌리엄 | 화자 인식 방법 및 장치 |
JP3877270B2 (ja) * | 2000-07-12 | 2007-02-07 | アルパイン株式会社 | 音声特徴量抽出装置 |
EP1229517B1 (en) * | 2001-02-06 | 2005-05-04 | Sony International (Europe) GmbH | Method for recognizing speech with noise-dependent variance normalization |
JP3885523B2 (ja) * | 2001-06-20 | 2007-02-21 | 日本電気株式会社 | サーバ・クライアント型音声認識装置及び方法 |
US7010167B1 (en) | 2002-04-30 | 2006-03-07 | The United States Of America As Represented By The National Security Agency | Method of geometric linear discriminant analysis pattern recognition |
CN1312656C (zh) * | 2002-09-24 | 2007-04-25 | 松下电器产业株式会社 | 说话人标准化方法及用该方法的语音识别装置 |
DE602005026949D1 (de) * | 2004-01-12 | 2011-04-28 | Voice Signal Technologies Inc | Normierung von cepstralen Merkmalen für die Spracherkennung |
US7676363B2 (en) * | 2006-06-29 | 2010-03-09 | General Motors Llc | Automated speech recognition using normalized in-vehicle speech |
JP4599420B2 (ja) * | 2008-02-29 | 2010-12-15 | 株式会社東芝 | 特徴量抽出装置 |
US20100094622A1 (en) * | 2008-10-10 | 2010-04-15 | Nexidia Inc. | Feature normalization for speech and audio processing |
US8620643B1 (en) | 2009-07-31 | 2013-12-31 | Lester F. Ludwig | Auditory eigenfunction systems and methods |
US9514098B1 (en) * | 2013-12-09 | 2016-12-06 | Google Inc. | Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4520500A (en) * | 1981-05-07 | 1985-05-28 | Oki Electric Industry Co., Ltd. | Speech recognition system |
US4625286A (en) * | 1982-05-03 | 1986-11-25 | Texas Instruments Incorporated | Time encoding of LPC roots |
JPS58196595A (ja) * | 1982-05-12 | 1983-11-16 | 日本電気株式会社 | パタ−ン特徴抽出装置 |
US4852181A (en) * | 1985-09-26 | 1989-07-25 | Oki Electric Industry Co., Ltd. | Speech recognition for recognizing the catagory of an input speech pattern |
US5001761A (en) * | 1988-02-09 | 1991-03-19 | Nec Corporation | Device for normalizing a speech spectrum |
JPH02165388A (ja) * | 1988-12-20 | 1990-06-26 | Toshiba Corp | パターン認識方式 |
US5617508A (en) * | 1992-10-05 | 1997-04-01 | Panasonic Technologies Inc. | Speech detection device for the detection of speech end points based on variance of frequency band limited energy |
JP3163185B2 (ja) * | 1992-11-27 | 2001-05-08 | 株式会社東芝 | パターン認識装置およびパターン認識方法 |
US5604839A (en) * | 1994-07-29 | 1997-02-18 | Microsoft Corporation | Method and system for improving speech recognition through front-end normalization of feature vectors |
-
1994
- 1994-01-31 JP JP6009026A patent/JP2797949B2/ja not_active Expired - Lifetime
-
1995
- 1995-01-31 EP EP95101309A patent/EP0665532B1/en not_active Expired - Lifetime
- 1995-01-31 US US08/381,328 patent/US5712956A/en not_active Expired - Fee Related
- 1995-01-31 DE DE69517829T patent/DE69517829T2/de not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
日本音響学会講演論文集(平成6年3月)1−Q−18,P.145〜146 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107580722A (zh) * | 2015-05-27 | 2018-01-12 | 英特尔公司 | 具有对应于各个数据流的直接存储器存取引擎的高斯混合模型加速器 |
CN107580722B (zh) * | 2015-05-27 | 2022-01-14 | 英特尔公司 | 具有对应于各个数据流的直接存储器存取引擎的高斯混合模型加速器 |
Also Published As
Publication number | Publication date |
---|---|
DE69517829T2 (de) | 2001-03-08 |
JPH07219592A (ja) | 1995-08-18 |
EP0665532B1 (en) | 2000-07-12 |
EP0665532A2 (en) | 1995-08-02 |
DE69517829D1 (de) | 2000-08-17 |
EP0665532A3 (en) | 1997-07-09 |
US5712956A (en) | 1998-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2797949B2 (ja) | 音声認識装置 | |
Liu et al. | Efficient cepstral normalization for robust speech recognition | |
EP0831461B1 (en) | Scheme for model adaptation in pattern recognition based on taylor expansion | |
US8391505B2 (en) | Reverberation suppressing apparatus and reverberation suppressing method | |
EP0689194B1 (en) | Method of and apparatus for signal recognition that compensates for mismatching | |
US7165028B2 (en) | Method of speech recognition resistant to convolutive distortion and additive distortion | |
US20070276662A1 (en) | Feature-vector compensating apparatus, feature-vector compensating method, and computer product | |
US6772117B1 (en) | Method and a device for recognizing speech | |
JP2692581B2 (ja) | 音響カテゴリ平均値計算装置及び適応化装置 | |
US6671666B1 (en) | Recognition system | |
US20040190732A1 (en) | Method of noise estimation using incremental bayes learning | |
EP1241662B1 (en) | Speech recognition with compensation for both convolutive distortion and additive noise | |
US8417522B2 (en) | Speech recognition method | |
US6470314B1 (en) | Method and apparatus for rapid adapt via cumulative distribution function matching for continuous speech | |
US6934681B1 (en) | Speaker's voice recognition system, method and recording medium using two dimensional frequency expansion coefficients | |
JPH1069290A (ja) | 音声処理装置 | |
US6937981B2 (en) | Voice recognition system | |
JP3397568B2 (ja) | 音声認識方法及び装置 | |
JP4673828B2 (ja) | 音声信号区間推定装置、その方法、そのプログラム及び記録媒体 | |
JP3183104B2 (ja) | ノイズ削減装置 | |
JPH04184400A (ja) | 雑音除去装置 | |
JP2961916B2 (ja) | 音声認識装置 | |
JP2003167599A (ja) | 音声認識方法および音声認識装置 | |
JP3091648B2 (ja) | 隠れマルコフモデルの学習方法 | |
JPH113094A (ja) | ノイズ除去装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19980602 |