JP2797949B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2797949B2
JP2797949B2 JP6009026A JP902694A JP2797949B2 JP 2797949 B2 JP2797949 B2 JP 2797949B2 JP 6009026 A JP6009026 A JP 6009026A JP 902694 A JP902694 A JP 902694A JP 2797949 B2 JP2797949 B2 JP 2797949B2
Authority
JP
Japan
Prior art keywords
unit
inner product
normalization
feature vector
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP6009026A
Other languages
English (en)
Other versions
JPH07219592A (ja
Inventor
栄子 山田
浩明 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP6009026A priority Critical patent/JP2797949B2/ja
Priority to DE69517829T priority patent/DE69517829T2/de
Priority to EP95101309A priority patent/EP0665532B1/en
Priority to US08/381,328 priority patent/US5712956A/en
Publication of JPH07219592A publication Critical patent/JPH07219592A/ja
Application granted granted Critical
Publication of JP2797949B2 publication Critical patent/JP2797949B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識装置内で用い
られるスペクトルを正規化するための正規化方法に関す
るものである。
【0002】
【従来の技術】音声認識の分野では、マイク、電話など
異なる回線特性の入力系において高い認識率を得られる
ような分析方法の研究がなされている。その1例とし
て、1次直線による傾き補正方法(特開昭58−196
595号:以下これを文献1とする)を挙げることが出
来る。この方法は、最小2乗法によりスペクトルの近似
1次直線を求め、スペクトルから1次直線を引き算する
ことによってスペクトルの傾き補正を行なっている。こ
の方法によって、音声の回線特性のバラツキを取り除く
ことができると述べられている。
【0003】また、曲線によるスペクトル補正方法とし
て、Critical Damping系(中島,大
村、「適応逆フィルタ法による声道断面積関数の推
定」、日本音響学会講演論文集、昭和48年5月;以下
これを文献2とする)を挙げることができる。この方法
は、音声波形から滑らかな周波数特性を持つ声帯波を取
り出すことを目的としている。ここでは、時刻tにおけ
るサンプル値xt を、予測係数ε1 を用いて直前の2個
のサンプル値xt-1 、xt-2 の1次結合
【0004】
【数1】
【0005】で表し、時刻tにおける予測値と実際の値
との2乗和が最小になるようにε1 を定めている。すな
わち、時間領域の最小2乗法によってスペクトル補正を
行なっている。これによって、滑らかな周波数特性を持
つ声帯波を得ることができたと述べられている。
【0006】
【発明が解決しようとする課題】文献1では、1次直線
による傾き補正方法を行なっているが、電話系など回線
特性が複雑な場合、1次直線では補正しきれないという
問題がある。
【0007】また文献2では、曲線によるスペクトル補
正を行なっているが、波形レベルで補正計算を行なって
いるため多くの計算量を必要とする。2次系のCrit
ical Damping系を例に取って説明を行な
う。分析窓幅のポイント数をpとすると、予測係数ε1
を求めるためには、
【0008】
【数2】
【0009】の3次方程式を解かなくてはならない。こ
れらの計算を各時刻において行なうため多くの計算量を
必要とする。
【0010】本発明の目的は、回線特性が複雑な場合に
も対応でき、かつ、計算量の少ないスペクトル正規化法
を提供することにある。
【0011】
【課題を解決するための手段】第1の発明による音声認
識装置は、音声を入力する音声入力部と、前記音声入力
部より入力された音声データを対数スペクトルに変換す
る音声分析部と、前記音声分析部で得られた対数スペク
トルを直交変換する直交変換部と、正規化係数、単位ベ
クトルを保存する正規化係数保存部と、前記直交変換部
で得られた特徴ベクトルと前記正規化係数保存部に保存
されている単位ベクトルとを用いて内積の計算を行なう
内積計算部と、前記内積計算部で計算された内積を回帰
的に更新し、更新された内積と前記正規化係数保存部に
保存されている正規化係数、単位ベクトルと前記直交変
換部で計算された特徴ベクトルを用いて、2次以上の曲
線によるスペクトルの正規化を直交変換後の特徴ベクト
ル上で行なう正規化部と、正規化された特徴ベクトルを
用いて音声認識を行なう認識部とを有して構成される。
【0012】第2の発明による音声認識装置は、音声を
入力する音声入力部と、前記音声入力部より入力された
音声データを対数スペクトルに変換する音声分析部と、
前記音声分析部で得られた対数スペクトルを直交変換す
る直交変換部と、前記直交変換部で得られた特徴ベクト
ルを一定区間分保存する特徴ベクトル保存部と、正規化
係数、単位ベクトルを保存する正規化係数保存部と、前
記直交変換部で得られた特徴ベクトルと前記正規化係数
保存部に保存されている単位ベクトルとを用いて内積の
計算を行なう内積計算部と、前記内積計算部で計算され
た内積を一定区間分足し込み、内積の平均を取る内積平
均計算部と、前記内積平均計算部で計算された平均内積
と前記正規化係数保存部に保存されている正規化係数、
単位ベクトルと前記特徴ベクトル保存部で保存されてい
る特徴ベクトルとを用いて、2次以上の曲線によるスペ
クトルの正規化を直交変換後の特徴ベクトル上で行なう
正規化部と、正規化された特徴ベクトルを用いて音声認
識を行なう認識部とを有して構成される。
【0013】
【作用】本発明は、音声認識装置内で用いられるスペク
トルを正規化するための正規化方法に関するものであ
る。
【0014】本発明の正規化方法について、2次曲線に
よる正規化を例にとって説明を行なう。ここでは、ある
フレーム番号tでの計算の説明を行ない、式、記号中で
のフレーム番号表示は省略する。音声分析部で分析され
た対数スペクトルをfi 、対数スペクトル近似した2次
曲線をai2 +bi+c、(i=0〜N−1)、とする
と、正規化後の対数スペクトルは、
【0015】
【数3】
【0016】となる。2次曲線は最小2乗法によって求
められるため、誤差
【0017】
【数4】
【0018】を最小とする係数a,b,cを求めれば良
い。すなわち、
【0019】
【数5】
【0020】の連立方程式を解けばよい。しかし、これ
らの演算を周波数軸上で行なう場合、多くの計算量とメ
モリー量を必要とする。
【0021】本発明では、前記のスペクトル正規化と同
じ計算を、周波数軸上ではなく直交変換後の軸上で行な
うことを特徴とする。ここでは、直交変換の例としてc
os変換
【0022】
【数6】
【0023】を挙げる。対数スペクトルのcos変換は
ケプストラムと呼ばれる特徴量である。直交変換部で直
交変換された後のケプストラムをFk 、正規化後のケプ
ストラムを
【0024】
【数7】
【0025】とすると、式(1)は
【0026】
【数8】
【0027】となり、式(2)は
【0028】
【数9】
【0029】となる。ケプストラム軸上での最小2乗法
の計算も周波数軸上の計算と同様に、(3),(4),
(5)の連立方程式を解けば良い。ここで、簡単のため
k (fi )=Fk 、Tk (i2 )=IIk 、T
k (i)=Ik 、Tk (1)=Ok とする。式(3)を
解くと、
【0030】
【数10】
【0031】となる。ここで、Re(Fk )は、Fk
実部を表し、Im(Fk )は、Fk の虚部を表す。式
(4)と式(5)も同様に解くと、
【0032】
【数11】
【0033】となる。ここで、
【0034】
【数12】
【0035】であり、Fk 、Ok とも実数であるから、
式(9),(10),(11)は実部のみ考慮すれば良
い。(9),(10),(11)の連立方程式を解く
と、
【0036】
【数13】
【0037】となる。実際には、Ok はk=0の時のみ
値を持つが、k=0において
【0038】
【数14】
【0039】であるため式(7)の第4項は無視でき、
正規化の式は
【0040】
【数15】
【0041】となる。式(17)に式(14),(1
5)を代入しまとめると、
【0042】
【数16】
【0043】となる。ここで、
【0044】
【数17】
【0045】である。(19),(20),(23),
(24)は予め計算しテーブル化しておけるため、実際
には、式(21),(22)の計算を行なえば良い。直
交係数はN個であるが、通常特徴ベクトルとして使用さ
れる直交係数はNc <Nであるため、P1 、P2 の計算
はk=1〜Nc まで行えば良い。Nc は10程度であ
り、Nは256程度であるため、ケプストラム軸上で正
規化を行なうことによって計算量を大幅に削減できる。
ここでは2次曲線による正規化の説明を行なったが、よ
り高次の曲線においても同様にケプストラム軸上で計算
することができる。
【0046】また、ある周波数に中心を固定した2次曲
線による正規化の場合についても、同様の方法で式を導
出できる。固定中心周波数をMとすると、この場合の正
規化の式は、
【0047】
【数18】
【0048】となる。ここで
【0049】
【数19】
【0050】であり、P1 、P2
【0051】
【外1】
【0052】は式(21),(22),(23),(2
4)と同様である。この場合も、R1、R2 、R3
【0053】
【外2】
【0054】は予め計算しテーブル化しておけるため、
認識動作時には内積部分のみの計算で良い。
【0055】また、周波数の帯域の1/2が曲線の中心
と一致した場合には、M=N/4とすれば良い。その場
合、正規化の式は、
【0056】
【数20】
【0057】となる。ここで
【0058】
【数21】
【0059】であり、P1 、P2 は式(21),(2
2)と同様である。この場合も、U1 、U2
【0060】
【外3】
【0061】は予め計算しテーブル化しておけるため、
認識動作時には内積部分のみの計算で良い。しかもこの
場合は、kが奇数項の時
【0062】
【数22】
【0063】であるため、kが偶数の時のみ計算すれば
良く、より少ない計算量で済む。
【0064】対数スペクトルの正規化が、固定回線の特
性正規化を目的とする場合には、入力全体から正規化を
行なえば良い。フレーム番号をt,(t=0〜T−1)
とし、入力全体の内積を
【0065】
【数23】
【0066】とすると、
【0067】
【数24】
【0068】となる。このようにして求められた内積を
式(18),(25)のP1 、P2 に代入し、正規化を
行なう。
【0069】一方、動的に回線特性が変動すると考えら
れる場合には、以下のように回帰的に内積値を更新すれ
ば良い。更新後の内積を
【0070】
【数25】
【0071】とすると、
【0072】
【数26】
【0073】となる。ここで、αはα=0〜1の範囲の
正の値を取る係数であり、αが小さい場合は過去の内積
の比重を重くし、αが大きい場合は現時刻の内積の比重
を重くした計算となっている。このようにして求められ
た内積を式(18),(25)のP1 、P2 に代入し、
正規化を行なう。この際、記憶しておくのは1フレーム
前の内積のみで良いため、記憶量が少ないだけでなく、
入力に同期した処理が可能となる。
【0074】
【実施例】図1は本発明の一実施例を示す構成図であ
り、本発明による音声認識装置を図1を用いて説明す
る。最初に、2次曲線(中心固定ではない)を用い、内
積値を回帰的に更新する正規化方法を説明する。この実
施例を以後実施例1とする。
【0075】音声入力部10に音声が入力され、音声分
析部20に送られる。送られた波形は、音声分析部20
において対数スペクトルに変換され、直交変換部30に
送られる。変換の例としては、フーリエ変換(古井、
「ディジタル音声処理」、東海大学出版会、p.44−
47、1985年;以下これを参考文献3とする)、c
os変換(「日野、「スペクトル解析」、朝倉書店、
p.62−63、1977年;以下これを参考文献4と
する)などが挙げられる。
【0076】直交変換部30に送られた対数スペクトル
は、特徴ベクトルに直交変換される。ここでは直交変換
としてcos変換を用いるが、その他の直交変換も可能
である。変換後の特徴ベクトルは内積計算部40と、正
規化部60に送られる。
【0077】内積計算部40の説明を行なうが、記号は
[作用]の記述と同一とする。内積計算部40に送られ
たケプストラムFk ,(k=1〜N−1)は、正規化係
数保存部50に保存されている単位ベクトル
【0078】
【外4】
【0079】とともに内積の計算に用いられる。フレー
ム番号をtとすると、内積は、
【0080】
【数27】
【0081】に従って計算される。計算された各フレー
ムの内積は、順次正規化部60に送られる。
【0082】正規化部60では、内積計算部40から送
られてきた内積を用い、回帰的な内積の更新を行なう。
t=0の場合、
【0083】
【数28】
【0084】となり、内積
【0085】
【数29】
【0086】は正規化部60に保存される。t≧1の場
合、保存されている1フレーム前の内積
【0087】
【数30】
【0088】と、内積計算部40で計算された現フレー
ムの内積P1 (t)、P2 (t)とを用い、式(3
6),(37)に従い、内積を回帰的に更新する。更新
された内積
【0089】
【数31】
【0090】は、正規化部60に保存される。回帰的な
計算の場合、1フレーム前の内積のみ保存しておけば良
い。次に、正規化係数保存部50から送られてきた正規
化係数Q1 、Q2 、単位ベクトル
【0091】
【外5】
【0092】と、更新された内積
【0093】
【数32】
【0094】を用い、
【0095】
【数33】
【0096】が計算される。次に、計算されたAk ,B
k ,Ck ,Dk と、直交変換部30から送られてきた特
徴ベクトルFk を用い正規化を行なう。計算式は、
【0097】
【数34】
【0098】で表される。以上の計算はフレームtの場
合について行なったが、実際には0〜T−1のフレーム
分の正規化計算が順次行なわれ、正規化されたケプスト
ラムは、順次、認識部70に送られる。
【0099】認識部70では、正規化されたケプストラ
【0100】
【数35】
【0101】を用い、音声認識を行なう。音声認識は、
前向きパスアルゴリズム(中川、「確率モデルによる音
声認識」、電子情報通信学会編、p.40−44、19
88年;以下これを文献5とする)、Viterbiア
ルゴリズム(中川、「確率モデルによる音声認識」、電
子情報通信学会編、p.44−46、1988年;以下
これを文献6とする)などを用いて行なう。ここでは、
ケプストラムのみを用いた音声認識について説明した
が、正規化された特徴ベクトルの他に、Δケプストラム
(“Speaker−independent iso
lated word recognition us
ing dynamic featuresof sp
eech spectrum”,IEEE Tran
s.Acoust.,Speech Signal P
rocessing,vol.ASSP−34,pp.
52−59,1986;以下これを参考文献7とする)
などを併用することも可能である。
【0102】次に、中心をある周波数に固定した2次曲
線を用い、回帰的に内積値を更新する正規化方法を例に
取って説明する。この実施例を以後実施例2とする。前
記実施例1と同様、図1を用いて説明を行なう。図中の
内積計算部40までは前記実施例1と同様に行なう。内
積計算部40で計算された内積P1 (t)、P2 (t)
は、正規化部60に送られる。
【0103】次に正規化部60では、内積計算部40か
ら送られてきたP1 (t)、P2 (t)と正規化部60
に保存されている1フレーム前の内積
【0104】
【数36】
【0105】とを用い、内積を回帰的に更新する。
【0106】次に、更新された内積
【0107】
【数37】
【0108】と正規化係数保存部50に保存されている
正規化係数R1 、R2 、R3 、単位ベクトル
【0109】
【外6】
【0110】とを用い、
【0111】
【数38】
【0112】
【数39】
【0113】の計算を行なう。次に、計算されたEk
k 、Gk 、Hk と、直交変換部30から送られてきた
k を用い正規化を行なう。計算式は、
【0114】
【数40】
【0115】で表される。以上の計算をt=0〜T−1
において順次行なう。このようにして正規化されたケプ
ストラムは、認識部70に順次送られる。
【0116】認識部70での計算は、前記実施例1と同
様に行なう。
【0117】次に、曲線の中心を周波数の帯域の1/2
に一致させた2次曲線を用い、回帰的に内積値を更新す
る正規化方法を例に取って説明する。この実施例を以後
実施例3とする。前記実施例1、2と同様、図1を用い
て説明を行なう。図中の内積計算部40までは前記実施
例1、2と同様に行なう。内積計算部40で計算された
内積P1 (t)、P2 (t)は、正規化部60に送られ
る。
【0118】次に正規化部60では、内積計算部40か
ら送られてきたP1 (t)、P2 (t)と正規化部60
に保存されている1フレーム前の内積
【0119】
【数41】
【0120】とを用い、内積を回帰的に更新する。
【0121】次に、更新された内積
【0122】
【数42】
【0123】と正規化係数保存部50に保存されている
正規化係数U1 、U2 、単位ベクトル
【0124】
【外7】
【0125】とを用い、
【0126】
【数43】
【0127】の計算を行なう。次に、計算されたJk
直交変換部30から送られてきたFkを用い正規化を行
なう。計算式は、
【0128】
【数44】
【0129】で表される。以上の計算をt=0〜T−1
において順次行なう。このようにして正規化されたケプ
ストラムは、認識部70に順次送られる。
【0130】認識部70での計算は、前記実施例1、2
と同様に行なう。
【0131】次に2次曲線(中心固定ではない)を用
い、内積計算を一定区間で行なう方法を例に取り、図2
を用いて説明する。ここでは一定区間を単語とするが、
音素や文なども可能である。この実施例を以後実施例4
とする。図中の直交変換部120までは前記実施例1、
2、3の直交変換部30と同様の計算を行なう。直交変
換部120で計算された特徴ベクトルは、内積計算部1
30と特徴ベクトル保存部140に送られる。
【0132】内積計算部130では、直交変換部120
から送られてきた特徴ベクトルと正規化係数保存部15
0に保存されている単位ベクトルを用いて、内積の計算
が行なわれる。内積計算部130で計算された各フレー
ムの内積P1 (t)、P2 (t)は、順次内積平均計算
部160に送られ足し込まれる。t=T−1の内積計算
が終了した時点で、単語全体の平均内積
【0133】
【数45】
【0134】が式(34),(35)に従って計算され
る。
【0135】内積平均計算部160で計算された単語全
体の平均内積
【0136】
【数46】
【0137】と、正規化係数保存部150に保存されて
いる正規化係数Q1 、Q2 、単位ベクトル
【0138】
【外8】
【0139】は正規化部170に送られる。正規化部1
70では、内積平均計算部160から送られてきた
【0140】
【数47】
【0141】と正規化係数保存部150から送られてき
たQ1 、Q2
【0142】
【外9】
【0143】とを用い、
【0144】
【数48】
【0145】が計算される。次に、特徴ベクトル保存部
140に保存されているケプストラムFk (t)、(t
=0〜T−1)と計算された
【0146】
【数49】
【0147】を用い
【0148】
【数50】
【0149】に従い、正規化が順次行われる。正規化さ
れたケプストラムは、順次、認識部180に送られる。
【0150】認識部180の計算は、前記実施例1、
2、3の認識部70の計算と同様に行われる。
【0151】次に、中心をある周波数に固定した2次曲
線を用い、内積計算を単語ごとに行なう方法を例に取
り、図2を用いて説明する。この実施例を以後実施例5
とする。図中の内積計算部130までは前記実施例4の
内積計算部130と同様の計算を行なう。内積計算部1
30で計算された各フレームの内積P1 (t)、P
2 (t)は、順次内積平均計算部160に送られ足し込
まれる。t=T−1の内積計算が終了した時点で、単語
全体の平均内積
【0152】
【数51】
【0153】が式(34),(35)に従って計算され
る。
【0154】内積平均計算部160で計算された単語全
体の平均内積
【0155】
【数52】
【0156】と、正規化係数保存部150に保存されて
いる正規化係数R1 、R2 、R3 、単位ベクトル
【0157】
【外10】
【0158】は正規化部170に送られる。正規化部1
70では、内積平均計算部160から送られてきた
【0159】
【数53】
【0160】と正規化係数保存部150から送られてき
たR1 、R2 、R3
【0161】
【外11】
【0162】とを用い、
【0163】
【数54】
【0164】が計算される。次に、特徴ベクトル保存部
140に保存されているケプストラムFk (t)と計算
された
【0165】
【数55】
【0166】を用い
【0167】
【数56】
【0168】に従い、正規化が順次行なわれる。正規化
されたケプストラムは、順次、認識部180に送られ
る。
【0169】認識部180の計算は、前記実施例4と同
様に行なわれる。
【0170】次に、曲線の中心を周波数の帯域の1/2
に一致させた2次曲線を用い、内積計算を単語ごとに行
なう方法を例に取り、図2を用いて説明する。この実施
例を以後実施例6とする。図中の内積計算部130まで
は前記実施例4,5の内積計算部130と同様の計算を
行なう。内積計算部130で計算された各フレームの内
積P1 (t)、P2 (t)は、順次内積平均計算部16
0に送られ足し込まれる。t=T−1の内積計算が終了
した時点で、単語全体の平均内積
【0171】
【数57】
【0172】が式(34),(35)に従って計算され
る。
【0173】内積平均計算部160で計算された単語全
体の平均内積
【0174】
【数58】
【0175】と、正規化係数保存部150に保存されて
いる正規化係数Uk 、単位ベクトル
【0176】
【外12】
【0177】は正規化部170に送られる。正規化部1
70では、内積平均計算部160から送られてきた
【0178】
【数59】
【0179】と正規化係数保存部150から送られてき
たU1 、U2
【0180】
【外13】
【0181】とを用い、
【0182】
【数60】
【0183】が計算される。次に、特徴ベクトル保存部
140に保存されているケプストラムFk (t)と計算
された
【0184】
【数61】
【0185】を用い
【0186】
【数62】
【0187】に従い、正規化が順次行なわれる。正規化
されたケプストラムは、順次、認識部180に送られ
る。
【0188】認識部180の計算は、前記実施例4、5
と同様に行なわれる。
【0189】
【発明の効果】本発明によれば、正規化部分の計算量が
少なく、しかも回線特性が複雑な場合でも高い認識率が
得られるような音声認識装置が得られる。
【図面の簡単な説明】
【図1】本発明による音声認識装置の一実施例を示すブ
ロック図である。
【図2】本発明による音声認識装置の一実施例を示すブ
ロック図である。
【符号の説明】 10 音声入力部 20 音声分析部 30 直交変換部 40 内積計算部 50 正規化係数保存部 60 正規化部 70 認識部 100 音声入力部 110 音声分析部 120 直交変換部 130 内積計算部 140 特徴ベクトル保存部 150 正規化係数保存部 160 内積平均計算部 170 正規化部 180 認識部
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G10L 3/02 301 G10L 9/16 301

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】音声を入力する音声入力部と、前記音声入
    力部より入力された音声データを対数スペクトルに変換
    する音声分析部と、前記音声分析部で得られた対数スペ
    クトルを直交変換する直交変換部と、正規化係数、単位
    ベクトルを保存する正規化係数保存部と、前記直交変換
    部で得られた特徴ベクトルと前記正規化係数保存部に保
    存されている単位ベクトルとを用いて内積の計算を行な
    う内積計算部と、前記内積計算部で計算された内積を回
    帰的に更新し、更新された内積と前記正規化係数保存部
    に保存されている正規化係数、単位ベクトルと前記直交
    変換部で計算された特徴ベクトルとを用いて、2次以上
    の曲線によるスペクトルの正規化を直交変換後の特徴ベ
    クトル上で行なう正規化部と、正規化された特徴ベクト
    ルを用いて音声認識を行なう認識部とを備えたことを特
    徴とする音声認識装置。
  2. 【請求項2】音声を入力する音声入力部と、前記音声入
    力部より入力された音声データを対数スペクトルに変換
    する音声分析部と、前記音声分析部で得られた対数スペ
    クトルを直交変換する直交変換部と、前記直交変換部で
    得られた特徴ベクトルを一定区間分保存する特徴ベクト
    ル保存部と、正規化係数、単位ベクトルを保存する正規
    化係数保存部と、前記直交変換部で得られた特徴ベクト
    ルと前記正規化係数保存部に保存されている単位ベクト
    ルとを用いて内積の計算を行なう内積計算部と、前記内
    積計算部で計算された内積を一定区間分足し込み、内積
    の平均を取る内積平均計算部と、前記内積平均計算部で
    計算された平均内積と前記正規化係数保存部に保存され
    ている正規化係数、単位ベクトルと前記特徴ベクトル保
    存部で保存されている特徴ベクトルとを用いて、2次以
    上の曲線によるスペクトルの正規化を直交変換後の特徴
    ベクトル上で行なう正規化部と、正規化された特徴ベク
    トルを用いて音声認識を行なう認識部とを備えたことを
    特徴とする音声認識装置。
  3. 【請求項3】前記正規化係数保存部と前記正規化部にお
    いて、ある周波数に中心を固定した2次以上の偶数次の
    曲線による正規化方法を含むことを特徴とする請求項1
    又は2記載の音声認識装置。
  4. 【請求項4】前記正規化係数保存部と前記正規化部にお
    いて、周波数の帯域の1/2が2次以上の偶数次の曲線
    の中心と一致した場合の正規化方法を含むことを特徴と
    する請求項3記載の音声認識装置。
JP6009026A 1994-01-31 1994-01-31 音声認識装置 Expired - Lifetime JP2797949B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP6009026A JP2797949B2 (ja) 1994-01-31 1994-01-31 音声認識装置
DE69517829T DE69517829T2 (de) 1994-01-31 1995-01-31 Vorrichtung und Verfahren zur Spracherkennung
EP95101309A EP0665532B1 (en) 1994-01-31 1995-01-31 Speech recognition apparatus and method
US08/381,328 US5712956A (en) 1994-01-31 1995-01-31 Feature extraction and normalization for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6009026A JP2797949B2 (ja) 1994-01-31 1994-01-31 音声認識装置

Publications (2)

Publication Number Publication Date
JPH07219592A JPH07219592A (ja) 1995-08-18
JP2797949B2 true JP2797949B2 (ja) 1998-09-17

Family

ID=11709156

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6009026A Expired - Lifetime JP2797949B2 (ja) 1994-01-31 1994-01-31 音声認識装置

Country Status (4)

Country Link
US (1) US5712956A (ja)
EP (1) EP0665532B1 (ja)
JP (1) JP2797949B2 (ja)
DE (1) DE69517829T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107580722A (zh) * 2015-05-27 2018-01-12 英特尔公司 具有对应于各个数据流的直接存储器存取引擎的高斯混合模型加速器

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3061114B2 (ja) * 1996-11-25 2000-07-10 日本電気株式会社 音声認識装置
KR20010102549A (ko) * 1999-03-11 2001-11-15 내쉬 로저 윌리엄 화자 인식 방법 및 장치
JP3877270B2 (ja) * 2000-07-12 2007-02-07 アルパイン株式会社 音声特徴量抽出装置
EP1229517B1 (en) * 2001-02-06 2005-05-04 Sony International (Europe) GmbH Method for recognizing speech with noise-dependent variance normalization
JP3885523B2 (ja) * 2001-06-20 2007-02-21 日本電気株式会社 サーバ・クライアント型音声認識装置及び方法
US7010167B1 (en) 2002-04-30 2006-03-07 The United States Of America As Represented By The National Security Agency Method of geometric linear discriminant analysis pattern recognition
CN1312656C (zh) * 2002-09-24 2007-04-25 松下电器产业株式会社 说话人标准化方法及用该方法的语音识别装置
DE602005026949D1 (de) * 2004-01-12 2011-04-28 Voice Signal Technologies Inc Normierung von cepstralen Merkmalen für die Spracherkennung
US7676363B2 (en) * 2006-06-29 2010-03-09 General Motors Llc Automated speech recognition using normalized in-vehicle speech
JP4599420B2 (ja) * 2008-02-29 2010-12-15 株式会社東芝 特徴量抽出装置
US20100094622A1 (en) * 2008-10-10 2010-04-15 Nexidia Inc. Feature normalization for speech and audio processing
US8620643B1 (en) 2009-07-31 2013-12-31 Lester F. Ludwig Auditory eigenfunction systems and methods
US9514098B1 (en) * 2013-12-09 2016-12-06 Google Inc. Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4520500A (en) * 1981-05-07 1985-05-28 Oki Electric Industry Co., Ltd. Speech recognition system
US4625286A (en) * 1982-05-03 1986-11-25 Texas Instruments Incorporated Time encoding of LPC roots
JPS58196595A (ja) * 1982-05-12 1983-11-16 日本電気株式会社 パタ−ン特徴抽出装置
US4852181A (en) * 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
US5001761A (en) * 1988-02-09 1991-03-19 Nec Corporation Device for normalizing a speech spectrum
JPH02165388A (ja) * 1988-12-20 1990-06-26 Toshiba Corp パターン認識方式
US5617508A (en) * 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
JP3163185B2 (ja) * 1992-11-27 2001-05-08 株式会社東芝 パターン認識装置およびパターン認識方法
US5604839A (en) * 1994-07-29 1997-02-18 Microsoft Corporation Method and system for improving speech recognition through front-end normalization of feature vectors

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
日本音響学会講演論文集(平成6年3月)1−Q−18,P.145〜146

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107580722A (zh) * 2015-05-27 2018-01-12 英特尔公司 具有对应于各个数据流的直接存储器存取引擎的高斯混合模型加速器
CN107580722B (zh) * 2015-05-27 2022-01-14 英特尔公司 具有对应于各个数据流的直接存储器存取引擎的高斯混合模型加速器

Also Published As

Publication number Publication date
DE69517829T2 (de) 2001-03-08
JPH07219592A (ja) 1995-08-18
EP0665532B1 (en) 2000-07-12
EP0665532A2 (en) 1995-08-02
DE69517829D1 (de) 2000-08-17
EP0665532A3 (en) 1997-07-09
US5712956A (en) 1998-01-27

Similar Documents

Publication Publication Date Title
JP2797949B2 (ja) 音声認識装置
Liu et al. Efficient cepstral normalization for robust speech recognition
EP0831461B1 (en) Scheme for model adaptation in pattern recognition based on taylor expansion
US8391505B2 (en) Reverberation suppressing apparatus and reverberation suppressing method
EP0689194B1 (en) Method of and apparatus for signal recognition that compensates for mismatching
US7165028B2 (en) Method of speech recognition resistant to convolutive distortion and additive distortion
US20070276662A1 (en) Feature-vector compensating apparatus, feature-vector compensating method, and computer product
US6772117B1 (en) Method and a device for recognizing speech
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
US6671666B1 (en) Recognition system
US20040190732A1 (en) Method of noise estimation using incremental bayes learning
EP1241662B1 (en) Speech recognition with compensation for both convolutive distortion and additive noise
US8417522B2 (en) Speech recognition method
US6470314B1 (en) Method and apparatus for rapid adapt via cumulative distribution function matching for continuous speech
US6934681B1 (en) Speaker's voice recognition system, method and recording medium using two dimensional frequency expansion coefficients
JPH1069290A (ja) 音声処理装置
US6937981B2 (en) Voice recognition system
JP3397568B2 (ja) 音声認識方法及び装置
JP4673828B2 (ja) 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
JP3183104B2 (ja) ノイズ削減装置
JPH04184400A (ja) 雑音除去装置
JP2961916B2 (ja) 音声認識装置
JP2003167599A (ja) 音声認識方法および音声認識装置
JP3091648B2 (ja) 隠れマルコフモデルの学習方法
JPH113094A (ja) ノイズ除去装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19980602