JP2797949B2

JP2797949B2 - 音声認識装置

Info

Publication number: JP2797949B2
Application number: JP6009026A
Authority: JP
Inventors: 栄子山田; 浩明服部
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1994-01-31
Filing date: 1994-01-31
Publication date: 1998-09-17
Anticipated expiration: 2013-09-17
Also published as: DE69517829T2; JPH07219592A; EP0665532B1; EP0665532A2; DE69517829D1; EP0665532A3; US5712956A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識装置内で用い
られるスペクトルを正規化するための正規化方法に関す
るものである。

【０００２】

【従来の技術】音声認識の分野では、マイク、電話など
異なる回線特性の入力系において高い認識率を得られる
ような分析方法の研究がなされている。その１例とし
て、１次直線による傾き補正方法（特開昭５８−１９６
５９５号：以下これを文献１とする）を挙げることが出
来る。この方法は、最小２乗法によりスペクトルの近似
１次直線を求め、スペクトルから１次直線を引き算する
ことによってスペクトルの傾き補正を行なっている。こ
の方法によって、音声の回線特性のバラツキを取り除く
ことができると述べられている。

【０００３】また、曲線によるスペクトル補正方法とし
て、ＣｒｉｔｉｃａｌＤａｍｐｉｎｇ系（中島，大
村、「適応逆フィルタ法による声道断面積関数の推
定」、日本音響学会講演論文集、昭和４８年５月；以下
これを文献２とする）を挙げることができる。この方法
は、音声波形から滑らかな周波数特性を持つ声帯波を取
り出すことを目的としている。ここでは、時刻ｔにおけ
るサンプル値ｘ_tを、予測係数ε₁を用いて直前の２個
のサンプル値ｘ_t-1、ｘ_t-2の１次結合

【０００４】

【数１】

【０００５】で表し、時刻ｔにおける予測値と実際の値
との２乗和が最小になるようにε₁を定めている。すな
わち、時間領域の最小２乗法によってスペクトル補正を
行なっている。これによって、滑らかな周波数特性を持
つ声帯波を得ることができたと述べられている。

【０００６】

【発明が解決しようとする課題】文献１では、１次直線
による傾き補正方法を行なっているが、電話系など回線
特性が複雑な場合、１次直線では補正しきれないという
問題がある。

【０００７】また文献２では、曲線によるスペクトル補
正を行なっているが、波形レベルで補正計算を行なって
いるため多くの計算量を必要とする。２次系のＣｒｉｔ
ｉｃａｌＤａｍｐｉｎｇ系を例に取って説明を行な
う。分析窓幅のポイント数をｐとすると、予測係数ε₁
を求めるためには、

【０００８】

【数２】

【０００９】の３次方程式を解かなくてはならない。こ
れらの計算を各時刻において行なうため多くの計算量を
必要とする。

【００１０】本発明の目的は、回線特性が複雑な場合に
も対応でき、かつ、計算量の少ないスペクトル正規化法
を提供することにある。

【００１１】

【課題を解決するための手段】第１の発明による音声認
識装置は、音声を入力する音声入力部と、前記音声入力
部より入力された音声データを対数スペクトルに変換す
る音声分析部と、前記音声分析部で得られた対数スペク
トルを直交変換する直交変換部と、正規化係数、単位ベ
クトルを保存する正規化係数保存部と、前記直交変換部
で得られた特徴ベクトルと前記正規化係数保存部に保存
されている単位ベクトルとを用いて内積の計算を行なう
内積計算部と、前記内積計算部で計算された内積を回帰
的に更新し、更新された内積と前記正規化係数保存部に
保存されている正規化係数、単位ベクトルと前記直交変
換部で計算された特徴ベクトルを用いて、２次以上の曲
線によるスペクトルの正規化を直交変換後の特徴ベクト
ル上で行なう正規化部と、正規化された特徴ベクトルを
用いて音声認識を行なう認識部とを有して構成される。

【００１２】第２の発明による音声認識装置は、音声を
入力する音声入力部と、前記音声入力部より入力された
音声データを対数スペクトルに変換する音声分析部と、
前記音声分析部で得られた対数スペクトルを直交変換す
る直交変換部と、前記直交変換部で得られた特徴ベクト
ルを一定区間分保存する特徴ベクトル保存部と、正規化
係数、単位ベクトルを保存する正規化係数保存部と、前
記直交変換部で得られた特徴ベクトルと前記正規化係数
保存部に保存されている単位ベクトルとを用いて内積の
計算を行なう内積計算部と、前記内積計算部で計算され
た内積を一定区間分足し込み、内積の平均を取る内積平
均計算部と、前記内積平均計算部で計算された平均内積
と前記正規化係数保存部に保存されている正規化係数、
単位ベクトルと前記特徴ベクトル保存部で保存されてい
る特徴ベクトルとを用いて、２次以上の曲線によるスペ
クトルの正規化を直交変換後の特徴ベクトル上で行なう
正規化部と、正規化された特徴ベクトルを用いて音声認
識を行なう認識部とを有して構成される。

【００１３】

【作用】本発明は、音声認識装置内で用いられるスペク
トルを正規化するための正規化方法に関するものであ
る。

【００１４】本発明の正規化方法について、２次曲線に
よる正規化を例にとって説明を行なう。ここでは、ある
フレーム番号ｔでの計算の説明を行ない、式、記号中で
のフレーム番号表示は省略する。音声分析部で分析され
た対数スペクトルをｆ_i、対数スペクトル近似した２次
曲線をａｉ²＋ｂｉ＋ｃ、（ｉ＝０〜Ｎ−１）、とする
と、正規化後の対数スペクトルは、

【００１５】

【数３】

【００１６】となる。２次曲線は最小２乗法によって求
められるため、誤差

【００１７】

【数４】

【００１８】を最小とする係数ａ，ｂ，ｃを求めれば良
い。すなわち、

【００１９】

【数５】

【００２０】の連立方程式を解けばよい。しかし、これ
らの演算を周波数軸上で行なう場合、多くの計算量とメ
モリー量を必要とする。

【００２１】本発明では、前記のスペクトル正規化と同
じ計算を、周波数軸上ではなく直交変換後の軸上で行な
うことを特徴とする。ここでは、直交変換の例としてｃ
ｏｓ変換

【００２２】

【数６】

【００２３】を挙げる。対数スペクトルのｃｏｓ変換は
ケプストラムと呼ばれる特徴量である。直交変換部で直
交変換された後のケプストラムをＦ_k、正規化後のケプ
ストラムを

【００２４】

【数７】

【００２５】とすると、式（１）は

【００２６】

【数８】

【００２７】となり、式（２）は

【００２８】

【数９】

【００２９】となる。ケプストラム軸上での最小２乗法
の計算も周波数軸上の計算と同様に、（３），（４），
（５）の連立方程式を解けば良い。ここで、簡単のため
Ｔ_k（ｆ_i）＝Ｆ_k、Ｔ_k（ｉ²）＝ＩＩ_k、Ｔ
_k（ｉ）＝Ｉ_k、Ｔ_k（１）＝Ｏ_kとする。式（３）を
解くと、

【００３０】

【数１０】

【００３１】となる。ここで、Ｒｅ（Ｆ_k）は、Ｆ_kの
実部を表し、Ｉｍ（Ｆ_k）は、Ｆ_kの虚部を表す。式
（４）と式（５）も同様に解くと、

【００３２】

【数１１】

【００３３】となる。ここで、

【００３４】

【数１２】

【００３５】であり、Ｆ_k、Ｏ_kとも実数であるから、
式（９），（１０），（１１）は実部のみ考慮すれば良
い。（９），（１０），（１１）の連立方程式を解く
と、

【００３６】

【数１３】

【００３７】となる。実際には、Ｏ_kはｋ＝０の時のみ
値を持つが、ｋ＝０において

【００３８】

【数１４】

【００３９】であるため式（７）の第４項は無視でき、
正規化の式は

【００４０】

【数１５】

【００４１】となる。式（１７）に式（１４），（１
５）を代入しまとめると、

【００４２】

【数１６】

【００４３】となる。ここで、

【００４４】

【数１７】

【００４５】である。（１９），（２０），（２３），
（２４）は予め計算しテーブル化しておけるため、実際
には、式（２１），（２２）の計算を行なえば良い。直
交係数はＮ個であるが、通常特徴ベクトルとして使用さ
れる直交係数はＮ_c＜Ｎであるため、Ｐ₁、Ｐ₂の計算
はｋ＝１〜Ｎ_cまで行えば良い。Ｎ_cは１０程度であ
り、Ｎは２５６程度であるため、ケプストラム軸上で正
規化を行なうことによって計算量を大幅に削減できる。
ここでは２次曲線による正規化の説明を行なったが、よ
り高次の曲線においても同様にケプストラム軸上で計算
することができる。

【００４６】また、ある周波数に中心を固定した２次曲
線による正規化の場合についても、同様の方法で式を導
出できる。固定中心周波数をＭとすると、この場合の正
規化の式は、

【００４７】

【数１８】

【００４８】となる。ここで

【００４９】

【数１９】

【００５０】であり、Ｐ₁、Ｐ₂、

【００５１】

【外１】

【００５２】は式（２１），（２２），（２３），（２
４）と同様である。この場合も、Ｒ₁、Ｒ₂、Ｒ₃、

【００５３】

【外２】

【００５４】は予め計算しテーブル化しておけるため、
認識動作時には内積部分のみの計算で良い。

【００５５】また、周波数の帯域の１／２が曲線の中心
と一致した場合には、Ｍ＝Ｎ／４とすれば良い。その場
合、正規化の式は、

【００５６】

【数２０】

【００５７】となる。ここで

【００５８】

【数２１】

【００５９】であり、Ｐ₁、Ｐ₂は式（２１），（２
２）と同様である。この場合も、Ｕ₁、Ｕ₂、

【００６０】

【外３】

【００６１】は予め計算しテーブル化しておけるため、
認識動作時には内積部分のみの計算で良い。しかもこの
場合は、ｋが奇数項の時

【００６２】

【数２２】

【００６３】であるため、ｋが偶数の時のみ計算すれば
良く、より少ない計算量で済む。

【００６４】対数スペクトルの正規化が、固定回線の特
性正規化を目的とする場合には、入力全体から正規化を
行なえば良い。フレーム番号をｔ，（ｔ＝０〜Ｔ−１）
とし、入力全体の内積を

【００６５】

【数２３】

【００６６】とすると、

【００６７】

【数２４】

【００６８】となる。このようにして求められた内積を
式（１８），（２５）のＰ₁、Ｐ₂に代入し、正規化を
行なう。

【００６９】一方、動的に回線特性が変動すると考えら
れる場合には、以下のように回帰的に内積値を更新すれ
ば良い。更新後の内積を

【００７０】

【数２５】

【００７１】とすると、

【００７２】

【数２６】

【００７３】となる。ここで、αはα＝０〜１の範囲の
正の値を取る係数であり、αが小さい場合は過去の内積
の比重を重くし、αが大きい場合は現時刻の内積の比重
を重くした計算となっている。このようにして求められ
た内積を式（１８），（２５）のＰ₁、Ｐ₂に代入し、
正規化を行なう。この際、記憶しておくのは１フレーム
前の内積のみで良いため、記憶量が少ないだけでなく、
入力に同期した処理が可能となる。

【００７４】

【実施例】図１は本発明の一実施例を示す構成図であ
り、本発明による音声認識装置を図１を用いて説明す
る。最初に、２次曲線（中心固定ではない）を用い、内
積値を回帰的に更新する正規化方法を説明する。この実
施例を以後実施例１とする。

【００７５】音声入力部１０に音声が入力され、音声分
析部２０に送られる。送られた波形は、音声分析部２０
において対数スペクトルに変換され、直交変換部３０に
送られる。変換の例としては、フーリエ変換（古井、
「ディジタル音声処理」、東海大学出版会、ｐ．４４−
４７、１９８５年；以下これを参考文献３とする）、ｃ
ｏｓ変換（「日野、「スペクトル解析」、朝倉書店、
ｐ．６２−６３、１９７７年；以下これを参考文献４と
する）などが挙げられる。

【００７６】直交変換部３０に送られた対数スペクトル
は、特徴ベクトルに直交変換される。ここでは直交変換
としてｃｏｓ変換を用いるが、その他の直交変換も可能
である。変換後の特徴ベクトルは内積計算部４０と、正
規化部６０に送られる。

【００７７】内積計算部４０の説明を行なうが、記号は
［作用］の記述と同一とする。内積計算部４０に送られ
たケプストラムＦ_k，（ｋ＝１〜Ｎ−１）は、正規化係
数保存部５０に保存されている単位ベクトル

【００７８】

【外４】

【００７９】とともに内積の計算に用いられる。フレー
ム番号をｔとすると、内積は、

【００８０】

【数２７】

【００８１】に従って計算される。計算された各フレー
ムの内積は、順次正規化部６０に送られる。

【００８２】正規化部６０では、内積計算部４０から送
られてきた内積を用い、回帰的な内積の更新を行なう。
ｔ＝０の場合、

【００８３】

【数２８】

【００８４】となり、内積

【００８５】

【数２９】

【００８６】は正規化部６０に保存される。ｔ≧１の場
合、保存されている１フレーム前の内積

【００８７】

【数３０】

【００８８】と、内積計算部４０で計算された現フレー
ムの内積Ｐ₁（ｔ）、Ｐ₂（ｔ）とを用い、式（３
６），（３７）に従い、内積を回帰的に更新する。更新
された内積

【００８９】

【数３１】

【００９０】は、正規化部６０に保存される。回帰的な
計算の場合、１フレーム前の内積のみ保存しておけば良
い。次に、正規化係数保存部５０から送られてきた正規
化係数Ｑ₁、Ｑ₂、単位ベクトル

【００９１】

【外５】

【００９２】と、更新された内積

【００９３】

【数３２】

【００９４】を用い、

【００９５】

【数３３】

【００９６】が計算される。次に、計算されたＡ_k，Ｂ
_k，Ｃ_k，Ｄ_kと、直交変換部３０から送られてきた特
徴ベクトルＦ_kを用い正規化を行なう。計算式は、

【００９７】

【数３４】

【００９８】で表される。以上の計算はフレームｔの場
合について行なったが、実際には０〜Ｔ−１のフレーム
分の正規化計算が順次行なわれ、正規化されたケプスト
ラムは、順次、認識部７０に送られる。

【００９９】認識部７０では、正規化されたケプストラ
ム

【０１００】

【数３５】

【０１０１】を用い、音声認識を行なう。音声認識は、
前向きパスアルゴリズム（中川、「確率モデルによる音
声認識」、電子情報通信学会編、ｐ．４０−４４、１９
８８年；以下これを文献５とする）、Ｖｉｔｅｒｂｉア
ルゴリズム（中川、「確率モデルによる音声認識」、電
子情報通信学会編、ｐ．４４−４６、１９８８年；以下
これを文献６とする）などを用いて行なう。ここでは、
ケプストラムのみを用いた音声認識について説明した
が、正規化された特徴ベクトルの他に、Δケプストラム
（“Ｓｐｅａｋｅｒ−ｉｎｄｅｐｅｎｄｅｎｔｉｓｏ
ｌａｔｅｄｗｏｒｄｒｅｃｏｇｎｉｔｉｏｎｕｓ
ｉｎｇｄｙｎａｍｉｃｆｅａｔｕｒｅｓｏｆｓｐ
ｅｅｃｈｓｐｅｃｔｒｕｍ”，ＩＥＥＥＴｒａｎ
ｓ．Ａｃｏｕｓｔ．，ＳｐｅｅｃｈＳｉｇｎａｌＰ
ｒｏｃｅｓｓｉｎｇ，ｖｏｌ．ＡＳＳＰ−３４，ｐｐ．
５２−５９，１９８６；以下これを参考文献７とする）
などを併用することも可能である。

【０１０２】次に、中心をある周波数に固定した２次曲
線を用い、回帰的に内積値を更新する正規化方法を例に
取って説明する。この実施例を以後実施例２とする。前
記実施例１と同様、図１を用いて説明を行なう。図中の
内積計算部４０までは前記実施例１と同様に行なう。内
積計算部４０で計算された内積Ｐ₁（ｔ）、Ｐ₂（ｔ）
は、正規化部６０に送られる。

【０１０３】次に正規化部６０では、内積計算部４０か
ら送られてきたＰ₁（ｔ）、Ｐ₂（ｔ）と正規化部６０
に保存されている１フレーム前の内積

【０１０４】

【数３６】

【０１０５】とを用い、内積を回帰的に更新する。

【０１０６】次に、更新された内積

【０１０７】

【数３７】

【０１０８】と正規化係数保存部５０に保存されている
正規化係数Ｒ₁、Ｒ₂、Ｒ₃、単位ベクトル

【０１０９】

【外６】

【０１１０】とを用い、

【０１１１】

【数３８】

【０１１２】

【数３９】

【０１１３】の計算を行なう。次に、計算されたＥ_k、
Ｖ_k、Ｇ_k、Ｈ_kと、直交変換部３０から送られてきた
Ｆ_kを用い正規化を行なう。計算式は、

【０１１４】

【数４０】

【０１１５】で表される。以上の計算をｔ＝０〜Ｔ−１
において順次行なう。このようにして正規化されたケプ
ストラムは、認識部７０に順次送られる。

【０１１６】認識部７０での計算は、前記実施例１と同
様に行なう。

【０１１７】次に、曲線の中心を周波数の帯域の１／２
に一致させた２次曲線を用い、回帰的に内積値を更新す
る正規化方法を例に取って説明する。この実施例を以後
実施例３とする。前記実施例１、２と同様、図１を用い
て説明を行なう。図中の内積計算部４０までは前記実施
例１、２と同様に行なう。内積計算部４０で計算された
内積Ｐ₁（ｔ）、Ｐ₂（ｔ）は、正規化部６０に送られ
る。

【０１１８】次に正規化部６０では、内積計算部４０か
ら送られてきたＰ₁（ｔ）、Ｐ₂（ｔ）と正規化部６０
に保存されている１フレーム前の内積

【０１１９】

【数４１】

【０１２０】とを用い、内積を回帰的に更新する。

【０１２１】次に、更新された内積

【０１２２】

【数４２】

【０１２３】と正規化係数保存部５０に保存されている
正規化係数Ｕ₁、Ｕ₂、単位ベクトル

【０１２４】

【外７】

【０１２５】とを用い、

【０１２６】

【数４３】

【０１２７】の計算を行なう。次に、計算されたＪ_kと
直交変換部３０から送られてきたＦ_kを用い正規化を行
なう。計算式は、

【０１２８】

【数４４】

【０１２９】で表される。以上の計算をｔ＝０〜Ｔ−１
において順次行なう。このようにして正規化されたケプ
ストラムは、認識部７０に順次送られる。

【０１３０】認識部７０での計算は、前記実施例１、２
と同様に行なう。

【０１３１】次に２次曲線（中心固定ではない）を用
い、内積計算を一定区間で行なう方法を例に取り、図２
を用いて説明する。ここでは一定区間を単語とするが、
音素や文なども可能である。この実施例を以後実施例４
とする。図中の直交変換部１２０までは前記実施例１、
２、３の直交変換部３０と同様の計算を行なう。直交変
換部１２０で計算された特徴ベクトルは、内積計算部１
３０と特徴ベクトル保存部１４０に送られる。

【０１３２】内積計算部１３０では、直交変換部１２０
から送られてきた特徴ベクトルと正規化係数保存部１５
０に保存されている単位ベクトルを用いて、内積の計算
が行なわれる。内積計算部１３０で計算された各フレー
ムの内積Ｐ₁（ｔ）、Ｐ₂（ｔ）は、順次内積平均計算
部１６０に送られ足し込まれる。ｔ＝Ｔ−１の内積計算
が終了した時点で、単語全体の平均内積

【０１３３】

【数４５】

【０１３４】が式（３４），（３５）に従って計算され
る。

【０１３５】内積平均計算部１６０で計算された単語全
体の平均内積

【０１３６】

【数４６】

【０１３７】と、正規化係数保存部１５０に保存されて
いる正規化係数Ｑ₁、Ｑ₂、単位ベクトル

【０１３８】

【外８】

【０１３９】は正規化部１７０に送られる。正規化部１
７０では、内積平均計算部１６０から送られてきた

【０１４０】

【数４７】

【０１４１】と正規化係数保存部１５０から送られてき
たＱ₁、Ｑ₂、

【０１４２】

【外９】

【０１４３】とを用い、

【０１４４】

【数４８】

【０１４５】が計算される。次に、特徴ベクトル保存部
１４０に保存されているケプストラムＦ_k（ｔ）、（ｔ
＝０〜Ｔ−１）と計算された

【０１４６】

【数４９】

【０１４７】を用い

【０１４８】

【数５０】

【０１４９】に従い、正規化が順次行われる。正規化さ
れたケプストラムは、順次、認識部１８０に送られる。

【０１５０】認識部１８０の計算は、前記実施例１、
２、３の認識部７０の計算と同様に行われる。

【０１５１】次に、中心をある周波数に固定した２次曲
線を用い、内積計算を単語ごとに行なう方法を例に取
り、図２を用いて説明する。この実施例を以後実施例５
とする。図中の内積計算部１３０までは前記実施例４の
内積計算部１３０と同様の計算を行なう。内積計算部１
３０で計算された各フレームの内積Ｐ₁（ｔ）、Ｐ
₂（ｔ）は、順次内積平均計算部１６０に送られ足し込
まれる。ｔ＝Ｔ−１の内積計算が終了した時点で、単語
全体の平均内積

【０１５２】

【数５１】

【０１５３】が式（３４），（３５）に従って計算され
る。

【０１５４】内積平均計算部１６０で計算された単語全
体の平均内積

【０１５５】

【数５２】

【０１５６】と、正規化係数保存部１５０に保存されて
いる正規化係数Ｒ₁、Ｒ₂、Ｒ₃、単位ベクトル

【０１５７】

【外１０】

【０１５８】は正規化部１７０に送られる。正規化部１
７０では、内積平均計算部１６０から送られてきた

【０１５９】

【数５３】

【０１６０】と正規化係数保存部１５０から送られてき
たＲ₁、Ｒ₂、Ｒ₃、

【０１６１】

【外１１】

【０１６２】とを用い、

【０１６３】

【数５４】

【０１６４】が計算される。次に、特徴ベクトル保存部
１４０に保存されているケプストラムＦ_k（ｔ）と計算
された

【０１６５】

【数５５】

【０１６６】を用い

【０１６７】

【数５６】

【０１６８】に従い、正規化が順次行なわれる。正規化
されたケプストラムは、順次、認識部１８０に送られ
る。

【０１６９】認識部１８０の計算は、前記実施例４と同
様に行なわれる。

【０１７０】次に、曲線の中心を周波数の帯域の１／２
に一致させた２次曲線を用い、内積計算を単語ごとに行
なう方法を例に取り、図２を用いて説明する。この実施
例を以後実施例６とする。図中の内積計算部１３０まで
は前記実施例４，５の内積計算部１３０と同様の計算を
行なう。内積計算部１３０で計算された各フレームの内
積Ｐ₁（ｔ）、Ｐ₂（ｔ）は、順次内積平均計算部１６
０に送られ足し込まれる。ｔ＝Ｔ−１の内積計算が終了
した時点で、単語全体の平均内積

【０１７１】

【数５７】

【０１７２】が式（３４），（３５）に従って計算され
る。

【０１７３】内積平均計算部１６０で計算された単語全
体の平均内積

【０１７４】

【数５８】

【０１７５】と、正規化係数保存部１５０に保存されて
いる正規化係数Ｕ_k、単位ベクトル

【０１７６】

【外１２】

【０１７７】は正規化部１７０に送られる。正規化部１
７０では、内積平均計算部１６０から送られてきた

【０１７８】

【数５９】

【０１７９】と正規化係数保存部１５０から送られてき
たＵ₁、Ｕ₂、

【０１８０】

【外１３】

【０１８１】とを用い、

【０１８２】

【数６０】

【０１８３】が計算される。次に、特徴ベクトル保存部
１４０に保存されているケプストラムＦ_k（ｔ）と計算
された

【０１８４】

【数６１】

【０１８５】を用い

【０１８６】

【数６２】

【０１８７】に従い、正規化が順次行なわれる。正規化
されたケプストラムは、順次、認識部１８０に送られ
る。

【０１８８】認識部１８０の計算は、前記実施例４、５
と同様に行なわれる。

【０１８９】

【発明の効果】本発明によれば、正規化部分の計算量が
少なく、しかも回線特性が複雑な場合でも高い認識率が
得られるような音声認識装置が得られる。

【図面の簡単な説明】

【図１】本発明による音声認識装置の一実施例を示すブ
ロック図である。

【図２】本発明による音声認識装置の一実施例を示すブ
ロック図である。

【符号の説明】１０音声入力部２０音声分析部３０直交変換部４０内積計算部５０正規化係数保存部６０正規化部７０認識部１００音声入力部１１０音声分析部１２０直交変換部１３０内積計算部１４０特徴ベクトル保存部１５０正規化係数保存部１６０内積平均計算部１７０正規化部１８０認識部

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/02 301 G10L 9/16 301

Claims

(57)【特許請求の範囲】

【請求項１】音声を入力する音声入力部と、前記音声入
力部より入力された音声データを対数スペクトルに変換
する音声分析部と、前記音声分析部で得られた対数スペ
クトルを直交変換する直交変換部と、正規化係数、単位
ベクトルを保存する正規化係数保存部と、前記直交変換
部で得られた特徴ベクトルと前記正規化係数保存部に保
存されている単位ベクトルとを用いて内積の計算を行な
う内積計算部と、前記内積計算部で計算された内積を回
帰的に更新し、更新された内積と前記正規化係数保存部
に保存されている正規化係数、単位ベクトルと前記直交
変換部で計算された特徴ベクトルとを用いて、２次以上
の曲線によるスペクトルの正規化を直交変換後の特徴ベ
クトル上で行なう正規化部と、正規化された特徴ベクト
ルを用いて音声認識を行なう認識部とを備えたことを特
徴とする音声認識装置。
【請求項２】音声を入力する音声入力部と、前記音声入
力部より入力された音声データを対数スペクトルに変換
する音声分析部と、前記音声分析部で得られた対数スペ
クトルを直交変換する直交変換部と、前記直交変換部で
得られた特徴ベクトルを一定区間分保存する特徴ベクト
ル保存部と、正規化係数、単位ベクトルを保存する正規
化係数保存部と、前記直交変換部で得られた特徴ベクト
ルと前記正規化係数保存部に保存されている単位ベクト
ルとを用いて内積の計算を行なう内積計算部と、前記内
積計算部で計算された内積を一定区間分足し込み、内積
の平均を取る内積平均計算部と、前記内積平均計算部で
計算された平均内積と前記正規化係数保存部に保存され
ている正規化係数、単位ベクトルと前記特徴ベクトル保
存部で保存されている特徴ベクトルとを用いて、２次以
上の曲線によるスペクトルの正規化を直交変換後の特徴
ベクトル上で行なう正規化部と、正規化された特徴ベク
トルを用いて音声認識を行なう認識部とを備えたことを
特徴とする音声認識装置。
【請求項３】前記正規化係数保存部と前記正規化部にお
いて、ある周波数に中心を固定した２次以上の偶数次の
曲線による正規化方法を含むことを特徴とする請求項１
又は２記載の音声認識装置。
【請求項４】前記正規化係数保存部と前記正規化部にお
いて、周波数の帯域の１／２が２次以上の偶数次の曲線
の中心と一致した場合の正規化方法を含むことを特徴と
する請求項３記載の音声認識装置。