JPH08110793A - 特性ベクトルの前端正規化による音声認識の改良方法及びシステム - Google Patents
特性ベクトルの前端正規化による音声認識の改良方法及びシステムInfo
- Publication number
- JPH08110793A JPH08110793A JP7222471A JP22247195A JPH08110793A JP H08110793 A JPH08110793 A JP H08110793A JP 7222471 A JP7222471 A JP 7222471A JP 22247195 A JP22247195 A JP 22247195A JP H08110793 A JPH08110793 A JP H08110793A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- characteristic vector
- noise
- frame
- pronunciation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 title claims abstract description 155
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000010606 normalization Methods 0.000 title claims abstract description 29
- 230000006870 function Effects 0.000 claims description 34
- 230000006978 adaptation Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OVSKIKFHRZPJSS-UHFFFAOYSA-N 2,4-D Chemical compound OC(=O)COC1=CC=C(Cl)C=C1Cl OVSKIKFHRZPJSS-UHFFFAOYSA-N 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
(57)【要約】 (修正有)
【課題】 特性ベクトルの前端正規化による音声認識改
良方法及びシステム。 【解決手段】 認識するべき音声がマイクロホンに話さ
れ、増幅器14で増幅しA/Dコンバータ16によりア
ナログからデジタル信号に変換する。該コンバータから
のデジタル信号は特性抽出器20に入力し、音声のフレ
ームに分割する特性ベクトル抽出する。特性ベクトル
は、入力正規化装置22へ入力し、該装置は、修正ベク
トルを計算し特性ベクトルを正規化する。修正ベクトル
は、音声の現在フレームがノイズである確率に基づくと
共に、現在発音及び発音のデータベース26に対する平
均ノイズ及び音声特性ベクトルに基づき計算する。正規
化により特性ベクトルに対する音響環境の変化の影響を
低減し、該特性ベクトルはパターン一致装置へ入力し、
記憶された特性モデルと比較し、最良の一致を見つけ
る。
良方法及びシステム。 【解決手段】 認識するべき音声がマイクロホンに話さ
れ、増幅器14で増幅しA/Dコンバータ16によりア
ナログからデジタル信号に変換する。該コンバータから
のデジタル信号は特性抽出器20に入力し、音声のフレ
ームに分割する特性ベクトル抽出する。特性ベクトル
は、入力正規化装置22へ入力し、該装置は、修正ベク
トルを計算し特性ベクトルを正規化する。修正ベクトル
は、音声の現在フレームがノイズである確率に基づくと
共に、現在発音及び発音のデータベース26に対する平
均ノイズ及び音声特性ベクトルに基づき計算する。正規
化により特性ベクトルに対する音響環境の変化の影響を
低減し、該特性ベクトルはパターン一致装置へ入力し、
記憶された特性モデルと比較し、最良の一致を見つけ
る。
Description
【0001】
【発明の属する技術分野】本発明は一般に音声(スピー
チ)認識に係り、より詳細には、特性ベクトルの前端正
規化により音声認識を改良する方法及びシステムに係
る。
チ)認識に係り、より詳細には、特性ベクトルの前端正
規化により音声認識を改良する方法及びシステムに係
る。
【0002】
【従来の技術】種々の音声認識システムが開発されてい
る。これらのシステムは、コンピュータが音声を理解で
きるようにする。この能力は、コンピュータにコマンド
やデータを入力するのに有用である。音声認識は一般に
2つの段階を含む。第1段階はトレーニングとして知ら
れている。トレーニング中に、システムは、音声の大き
なサンプルを入力しそして音声のモデルを発生すること
により音声を「学習」する。第2段階は、認識として知
られている。認識中に、システムは、音声をトレーニン
グ中に発生したモデルと比較しそして厳密な一致又は最
良の一致を見つけることにより入力音声を認識しようと
試みる。ほとんどの音声認識システムは、特性ベクトル
の形態の入力音声から幾つかの特性を抽出する前端を有
している。これらの特性ベクトルは、トレーニング中に
モデルを成形するのに使用され、そして認識中にその形
成されたモデルに対して比較される。
る。これらのシステムは、コンピュータが音声を理解で
きるようにする。この能力は、コンピュータにコマンド
やデータを入力するのに有用である。音声認識は一般に
2つの段階を含む。第1段階はトレーニングとして知ら
れている。トレーニング中に、システムは、音声の大き
なサンプルを入力しそして音声のモデルを発生すること
により音声を「学習」する。第2段階は、認識として知
られている。認識中に、システムは、音声をトレーニン
グ中に発生したモデルと比較しそして厳密な一致又は最
良の一致を見つけることにより入力音声を認識しようと
試みる。ほとんどの音声認識システムは、特性ベクトル
の形態の入力音声から幾つかの特性を抽出する前端を有
している。これらの特性ベクトルは、トレーニング中に
モデルを成形するのに使用され、そして認識中にその形
成されたモデルに対して比較される。
【0003】このような音声認識システムに伴う1つの
問題は、トレーニング中及び認識中並びにそれらの間に
音響環境に変化があった場合に生じる。このような変化
は、例えば、使用するマイクロホン、バックグランドノ
イズ、話し手の口とマイクロホンとの間の距離、及び室
内の音響が変化することによって生じる。これら変化が
生じた場合には、その音響的環境が音声から抽出される
特性ベクトルに影響を及ぼすために、システムはあまり
良好に機能しない。従って、異なる音響環境で話をした
場合には同じ音声から異なる特性ベクトルが抽出される
ことがある。音響環境が一定に保たれることは稀である
から、音声認識システムは、音響環境の変化に対して強
いものであることが望まれる。特定のワード又はセンテ
ンスは、そのワード又はセンテンスが話される音響環境
に係わりなく、常に、そのワード又はセンテンスとして
認識されねばならない。音響環境の変化の問題を解決す
る幾つかの試みは、このような変化の影響を減少するよ
うに入力音声の特性ベクトルを正規化することに集約さ
れている。
問題は、トレーニング中及び認識中並びにそれらの間に
音響環境に変化があった場合に生じる。このような変化
は、例えば、使用するマイクロホン、バックグランドノ
イズ、話し手の口とマイクロホンとの間の距離、及び室
内の音響が変化することによって生じる。これら変化が
生じた場合には、その音響的環境が音声から抽出される
特性ベクトルに影響を及ぼすために、システムはあまり
良好に機能しない。従って、異なる音響環境で話をした
場合には同じ音声から異なる特性ベクトルが抽出される
ことがある。音響環境が一定に保たれることは稀である
から、音声認識システムは、音響環境の変化に対して強
いものであることが望まれる。特定のワード又はセンテ
ンスは、そのワード又はセンテンスが話される音響環境
に係わりなく、常に、そのワード又はセンテンスとして
認識されねばならない。音響環境の変化の問題を解決す
る幾つかの試みは、このような変化の影響を減少するよ
うに入力音声の特性ベクトルを正規化することに集約さ
れている。
【0004】この問題を解決する1つの試みは、平均正
規化として知られている。平均正規化を使用すると、入
力音声の特性ベクトルは、全音声から抽出された全ての
特性ベクトルの平均を計算しそしてその平均を、次の関
数を用いて入力音声特性ベクトルから減算することによ
り、正規化される。 の入力音声特性ベクトルであり、そしてnは、全音声か
ら抽出される特性ベクトルの数である。
規化として知られている。平均正規化を使用すると、入
力音声の特性ベクトルは、全音声から抽出された全ての
特性ベクトルの平均を計算しそしてその平均を、次の関
数を用いて入力音声特性ベクトルから減算することによ
り、正規化される。 の入力音声特性ベクトルであり、そしてnは、全音声か
ら抽出される特性ベクトルの数である。
【0005】上記問題を解消するための別の試みは、信
号対雑音比に従属した(SNR従属の)正規化として知
られている。SNR従属の正規化を使用すると、入力音
声の特性ベクトルは、入力音声の瞬時SNRを計算しそ
してSNRに基づく修正ベクトルを、次の関数を用いて
入力音声特性ベクトルから減算することにより、正規化
される。 の入力音声特性ベクトルであり、そしてy(SNR)
は、修正ベクトルである。この修正ベクトルは、予め計
算され、そしてそれに対応するSNRと共にルックアッ
プテーブルに記憶される。
号対雑音比に従属した(SNR従属の)正規化として知
られている。SNR従属の正規化を使用すると、入力音
声の特性ベクトルは、入力音声の瞬時SNRを計算しそ
してSNRに基づく修正ベクトルを、次の関数を用いて
入力音声特性ベクトルから減算することにより、正規化
される。 の入力音声特性ベクトルであり、そしてy(SNR)
は、修正ベクトルである。この修正ベクトルは、予め計
算され、そしてそれに対応するSNRと共にルックアッ
プテーブルに記憶される。
【0006】
【発明が解決しようとする課題】トレーニング中及び認
識中並びにそれらの間の音響環境の変化の問題を解決す
るための公知の試みの中で非常に有用なものは皆無であ
る。平均正規化は、入力音声特性ベクトルを動的に調整
できるようにするが、全音声から抽出された全ての特性
ベクトルに対し単一の平均しか計算しないので、あまり
正確ではない。SNR従属の正規化は、入力音声のSN
Rに基づいて変化する修正ベクトルを計算するので平均
正規化よりは精度が高いが、修正ベクトルの値を動的に
更新するものではない。それ故、正確であると共に、入
力音声特性ベクトルを正規化するのに用いられる値を動
的に更新するような解決策が要望される。
識中並びにそれらの間の音響環境の変化の問題を解決す
るための公知の試みの中で非常に有用なものは皆無であ
る。平均正規化は、入力音声特性ベクトルを動的に調整
できるようにするが、全音声から抽出された全ての特性
ベクトルに対し単一の平均しか計算しないので、あまり
正確ではない。SNR従属の正規化は、入力音声のSN
Rに基づいて変化する修正ベクトルを計算するので平均
正規化よりは精度が高いが、修正ベクトルの値を動的に
更新するものではない。それ故、正確であると共に、入
力音声特性ベクトルを正規化するのに用いられる値を動
的に更新するような解決策が要望される。
【0007】
【課題を解決するための手段】本発明の1つの特徴は、
特性ベクトルの前端正規化により音声認識を改良する方
法及びシステムを提供する。本発明の音声認識システム
において、認識されるべき音声は、マイクロホンへ話さ
れ、増幅器によって増幅され、そしてアナログ/デジタ
ル(A/D)コンバータによりアナログ信号からデジタ
ル信号へ変換される。A/Dコンバータからのデジタル
信号は、特性抽出器へ入力され、該抽出器は、その信号
を音声のフレームに分割し、そして各フレームから特性
ベクトルを抽出する。特性ベクトルは、該ベクトルを正
規化する入力正規化装置へ入力される。正規化された特
性ベクトルは、パターン一致装置へ入力され、該装置
は、正規化されたベクトルを、データベースに記憶され
た特性モデルと比較し、厳密な一致又は最良の一致を見
つける。
特性ベクトルの前端正規化により音声認識を改良する方
法及びシステムを提供する。本発明の音声認識システム
において、認識されるべき音声は、マイクロホンへ話さ
れ、増幅器によって増幅され、そしてアナログ/デジタ
ル(A/D)コンバータによりアナログ信号からデジタ
ル信号へ変換される。A/Dコンバータからのデジタル
信号は、特性抽出器へ入力され、該抽出器は、その信号
を音声のフレームに分割し、そして各フレームから特性
ベクトルを抽出する。特性ベクトルは、該ベクトルを正
規化する入力正規化装置へ入力される。正規化された特
性ベクトルは、パターン一致装置へ入力され、該装置
は、正規化されたベクトルを、データベースに記憶され
た特性モデルと比較し、厳密な一致又は最良の一致を見
つける。
【0008】本発明の入力正規化装置は、修正ベクトル
を計算しそしてその修正ベクトルを特性ベクトルから減
算することにより特性ベクトルを正規化する。修正ベク
トルは、音声の現在フレームがノイズである確率と、現
在の発音及び発音のデータベースに対する平均ノイズ及
び音声特性ベクトルとに基づいて計算される。特性ベク
トルの正規化は、特性ベクトルに対する音響環境の変化
の影響を減少する。特性ベクトルに対する音響環境の変
化の影響を減少することにより、本発明の入力正規化装
置は、音声認識システムの精度を改善する。
を計算しそしてその修正ベクトルを特性ベクトルから減
算することにより特性ベクトルを正規化する。修正ベク
トルは、音声の現在フレームがノイズである確率と、現
在の発音及び発音のデータベースに対する平均ノイズ及
び音声特性ベクトルとに基づいて計算される。特性ベク
トルの正規化は、特性ベクトルに対する音響環境の変化
の影響を減少する。特性ベクトルに対する音響環境の変
化の影響を減少することにより、本発明の入力正規化装
置は、音声認識システムの精度を改善する。
【0009】
【発明の実施の形態】本発明の好ましい実施形態は、特
性ベクトルの前端正規化により音声認識を改良する方法
及びシステムを提供する。特性ベクトルの正規化は、特
性ベクトルに対する音響環境の変化の影響を減少する。
このような変化は、例えば、使用するマイクロホン、バ
ックグランドノイズ、話し手の口とマイクロホンとの間
の距離及び室内の音響の変化により生じる。正規化を行
わないと、特性ベクトルに対する音響環境の変化の影響
により、同じ音声を異なる音声と認識することが生じ得
る。これは、音響環境が、音声から抽出される特性ベク
トルに影響するためである。従って、異なる音響環境で
話をする場合には同じ音声から異なる特性ベクトルが抽
出されることがある。特性ベクトルに対する音響環境の
変化の影響を減少することにより、本発明の入力正規化
装置は、音声認識システムの精度を改善する。
性ベクトルの前端正規化により音声認識を改良する方法
及びシステムを提供する。特性ベクトルの正規化は、特
性ベクトルに対する音響環境の変化の影響を減少する。
このような変化は、例えば、使用するマイクロホン、バ
ックグランドノイズ、話し手の口とマイクロホンとの間
の距離及び室内の音響の変化により生じる。正規化を行
わないと、特性ベクトルに対する音響環境の変化の影響
により、同じ音声を異なる音声と認識することが生じ得
る。これは、音響環境が、音声から抽出される特性ベク
トルに影響するためである。従って、異なる音響環境で
話をする場合には同じ音声から異なる特性ベクトルが抽
出されることがある。特性ベクトルに対する音響環境の
変化の影響を減少することにより、本発明の入力正規化
装置は、音声認識システムの精度を改善する。
【0010】図1は、本発明の原理を組み込んだ音声認
識システム10を示している。このシステムにおいて、
認識されるべき音声は、マイクロホン12へ話され、増
幅器14によって増幅され、そしてアナログ/デジタル
(A/D)コンバータ16によりアナログ信号からデジ
タル信号に変換される。マイクロホン12、増幅器14
及びA/Dコンバータ16は、従来の要素であり、公知
技術で良く知られている。A/Dコンバータ16からの
デジタル信号は、コンピュータシステム18に入力され
る。より詳細には、デジタル信号は、特性抽出器20に
入力され、この抽出器は、特性ベクトルの形態の信号か
ら幾つかの特性を抽出する。音声(スピーチ)は、発音
より成る。発音は、センテンスの口述具現体であり、典
型的に、1ないし10秒の音声を表す。各発音は、フレ
ームと称する等離間された時間間隔に分割される。1つ
のフレームは、典型的に、10ミリ秒の音声を表す。特
性ベクトルは、音声の各フレームから抽出される。即
ち、特性抽出器20は、A/Dコンバータ16からのデ
ジタル信号を音声のフレームに分割し、そして各フレー
ムから特性ベクトルを抽出する。本発明の好ましい実施
形態において、音声の各フレームから抽出された特性ベ
クトルは、ケプストラルベクトルより成る。このケプス
トラルベクトル、及び音声からケプストラルベクトルを
抽出するのに用いる方法は、公知である。
識システム10を示している。このシステムにおいて、
認識されるべき音声は、マイクロホン12へ話され、増
幅器14によって増幅され、そしてアナログ/デジタル
(A/D)コンバータ16によりアナログ信号からデジ
タル信号に変換される。マイクロホン12、増幅器14
及びA/Dコンバータ16は、従来の要素であり、公知
技術で良く知られている。A/Dコンバータ16からの
デジタル信号は、コンピュータシステム18に入力され
る。より詳細には、デジタル信号は、特性抽出器20に
入力され、この抽出器は、特性ベクトルの形態の信号か
ら幾つかの特性を抽出する。音声(スピーチ)は、発音
より成る。発音は、センテンスの口述具現体であり、典
型的に、1ないし10秒の音声を表す。各発音は、フレ
ームと称する等離間された時間間隔に分割される。1つ
のフレームは、典型的に、10ミリ秒の音声を表す。特
性ベクトルは、音声の各フレームから抽出される。即
ち、特性抽出器20は、A/Dコンバータ16からのデ
ジタル信号を音声のフレームに分割し、そして各フレー
ムから特性ベクトルを抽出する。本発明の好ましい実施
形態において、音声の各フレームから抽出された特性ベ
クトルは、ケプストラルベクトルより成る。このケプス
トラルベクトル、及び音声からケプストラルベクトルを
抽出するのに用いる方法は、公知である。
【0011】次いで、特性ベクトルは、該ベクトルを正
規化する入力正規化装置22へ入力される。特性ベクト
ルの正規化は、特性ベクトルに対する音響環境の変化の
影響を減少する。正規化された特性ベクトルは、次いで
パターン一致装置24へ入力され、これは、正規化され
たベクトルをデータベース26に記憶された特性モデル
と比較し、厳密な一致又は最良の一致を見つける。デー
タベース26に記憶された特性モデルは、既知の音声か
ら形成されたものである。受け入れられる一致がある場
合には、その一致する特性モデルに対応する既知の音声
が出力される。さもなくば、音声を認識できなかったこ
とを指示するメッセージが出力される。典型的なパター
ン一致は、隠れたマルコフ(hidden Marko
v)モデル又はニュートラルネットワークのような統計
学的な方法によってトレーニングされたネットワークに
基づく。しかしながら、他のパターン一致装置も使用で
きる。このようなパターン一致装置は、公知である。
規化する入力正規化装置22へ入力される。特性ベクト
ルの正規化は、特性ベクトルに対する音響環境の変化の
影響を減少する。正規化された特性ベクトルは、次いで
パターン一致装置24へ入力され、これは、正規化され
たベクトルをデータベース26に記憶された特性モデル
と比較し、厳密な一致又は最良の一致を見つける。デー
タベース26に記憶された特性モデルは、既知の音声か
ら形成されたものである。受け入れられる一致がある場
合には、その一致する特性モデルに対応する既知の音声
が出力される。さもなくば、音声を認識できなかったこ
とを指示するメッセージが出力される。典型的なパター
ン一致は、隠れたマルコフ(hidden Marko
v)モデル又はニュートラルネットワークのような統計
学的な方法によってトレーニングされたネットワークに
基づく。しかしながら、他のパターン一致装置も使用で
きる。このようなパターン一致装置は、公知である。
【0012】入力正規化装置22によって実行される段
階が図2に示されている。入力正規化装置22は、jを
インデックスとすれば現在フレームjに対する特性ベク
トルxjを受け取る(ステップ210)。本発明の好ま
しい実施形態では、特性ベクトルは、ケプストラルベク
トルより成る。ケプストラルベクトルとは、異なる周波
数帯域におけるエネルギーの対数の離散的コサイン変換
(DCT)を行うことにより、このようなエネルギーか
ら導出された1組の係数である。好ましい実施形態にお
いては、特性ベクトルは、時間での一次及び二次導関
数、即ち各々デルタケプストラルベクトル及びデルタ−
デルタケプストラルベクトルで増大された静的なケプス
トラルベクトルより成る。各ケプストラルベクトルは、
1組の13個のケプストラル係数より成る。しかしなが
ら、当業者であれば、異なる数のケプストラル係数を有
するケプストラルベクトルも使用できることが明らかで
あろう。更に、当業者であれば、他の形態の特性ベクト
ルも使用できることが明らかであろう。
階が図2に示されている。入力正規化装置22は、jを
インデックスとすれば現在フレームjに対する特性ベク
トルxjを受け取る(ステップ210)。本発明の好ま
しい実施形態では、特性ベクトルは、ケプストラルベク
トルより成る。ケプストラルベクトルとは、異なる周波
数帯域におけるエネルギーの対数の離散的コサイン変換
(DCT)を行うことにより、このようなエネルギーか
ら導出された1組の係数である。好ましい実施形態にお
いては、特性ベクトルは、時間での一次及び二次導関
数、即ち各々デルタケプストラルベクトル及びデルタ−
デルタケプストラルベクトルで増大された静的なケプス
トラルベクトルより成る。各ケプストラルベクトルは、
1組の13個のケプストラル係数より成る。しかしなが
ら、当業者であれば、異なる数のケプストラル係数を有
するケプストラルベクトルも使用できることが明らかで
あろう。更に、当業者であれば、他の形態の特性ベクト
ルも使用できることが明らかであろう。
【0013】次いで、入力正規化装置22は、次の関数
を用いて修正ベクトルr(xj)又はrjを計算する
(ステップ212)。 r(xj)=pj(nj−1−navg)+(1−pj)(sj−1−s
avg) (式1) 但し、pjは現在フレームjがノイズである事後確率で
あり、nj−1及びsj−1は現在発音に対する平均ノ
イズ及び音声特性ベクトルであり、そしてnavg及び
savgは、発音のデータベース26に対する平均ノイ
ズ及び音声特性ベクトルである。n、s、navg及び
savgの計算については、以下で述べる。更に、入力 る(ステップ214)。 特性ベクトルは、上記の3つのケプストラルベクトルよ
り成るが、本発明の好ましい実施形態では、静的なケプ
ストラルベクトルのみが正規化され、デルタケプストラ
ルベクトル及びデルタ−デルタケプストラルベクトルは
正規化されない。
を用いて修正ベクトルr(xj)又はrjを計算する
(ステップ212)。 r(xj)=pj(nj−1−navg)+(1−pj)(sj−1−s
avg) (式1) 但し、pjは現在フレームjがノイズである事後確率で
あり、nj−1及びsj−1は現在発音に対する平均ノ
イズ及び音声特性ベクトルであり、そしてnavg及び
savgは、発音のデータベース26に対する平均ノイ
ズ及び音声特性ベクトルである。n、s、navg及び
savgの計算については、以下で述べる。更に、入力 る(ステップ214)。 特性ベクトルは、上記の3つのケプストラルベクトルよ
り成るが、本発明の好ましい実施形態では、静的なケプ
ストラルベクトルのみが正規化され、デルタケプストラ
ルベクトル及びデルタ−デルタケプストラルベクトルは
正規化されない。
【0014】修正ベクトルr(xj)の計算は、幾つか
の仮定及び推定に基づいて簡単化される。先ず、ノイズ
及び音声は、ガウスの分布に従うと仮定する。この仮定
に基づき、現在フレームjがノイズである事後確率pj
は、次の関数を用いて計算される。 但し、ξは、現在フレームjがノイズである先験的確率
であり、N(xj.nj−1.Σn(j−1))及びN
(xj.sj−1.Σs(j−1))は、各々、ノイズ
及び音声に対するガウスの確率密度関数であり、そして
Σn(j−1)及びΣs(j−1)は、各々、ノイズ及
び音声に対する共分散マトリクスである。ノイズ及び音
声に対するガウスの確率密度関数N(xj.
nj−1).Σn(j−1))及びN(xj.
sj−1.Σs(j−1))は、ガウスの確率密度関数
に対する標準関数を用いて次のように表される。 及び 但し、qはxjの次元であり、expは指数関数であ
り、そしてTは転置関数である。
の仮定及び推定に基づいて簡単化される。先ず、ノイズ
及び音声は、ガウスの分布に従うと仮定する。この仮定
に基づき、現在フレームjがノイズである事後確率pj
は、次の関数を用いて計算される。 但し、ξは、現在フレームjがノイズである先験的確率
であり、N(xj.nj−1.Σn(j−1))及びN
(xj.sj−1.Σs(j−1))は、各々、ノイズ
及び音声に対するガウスの確率密度関数であり、そして
Σn(j−1)及びΣs(j−1)は、各々、ノイズ及
び音声に対する共分散マトリクスである。ノイズ及び音
声に対するガウスの確率密度関数N(xj.
nj−1).Σn(j−1))及びN(xj.
sj−1.Σs(j−1))は、ガウスの確率密度関数
に対する標準関数を用いて次のように表される。 及び 但し、qはxjの次元であり、expは指数関数であ
り、そしてTは転置関数である。
【0015】次いで、現在フレームjがノイズである事
後確率pjは、次のシグモイド関数によって表される。 但し、 ここで、d(xj)又はdjは歪である。この歪は、信
号がノイズであるか音声であるかの指示である。この歪
が大きな負である場合は、信号がノイズであり、歪が大
きな正である場合は、信号が音声であり、そして歪がゼ
ロである場合は、ノイズ又は音声である。
後確率pjは、次のシグモイド関数によって表される。 但し、 ここで、d(xj)又はdjは歪である。この歪は、信
号がノイズであるか音声であるかの指示である。この歪
が大きな負である場合は、信号がノイズであり、歪が大
きな正である場合は、信号が音声であり、そして歪がゼ
ロである場合は、ノイズ又は音声である。
【0016】第2に、xjの成分が互いに独立であると
仮定する。この仮定に基づき、Σn及びΣsが各々対角
共分散マトリクスσn及びσsを用いてモデリングされ
る。従って、d(xj)は、次の関数を用いて表され
る。 但し、qはσn及びσsの次元である。更に、音声から
ノイズを弁別する際の最も重要なファクタは、パワー項
(1=0)である。従って、d(xj)は、次の関数を
用いて近似される。
仮定する。この仮定に基づき、Σn及びΣsが各々対角
共分散マトリクスσn及びσsを用いてモデリングされ
る。従って、d(xj)は、次の関数を用いて表され
る。 但し、qはσn及びσsの次元である。更に、音声から
ノイズを弁別する際の最も重要なファクタは、パワー項
(1=0)である。従って、d(xj)は、次の関数を
用いて近似される。
【0017】次いで、n、s、σn、σs及びξの値
は、公知の推定−最大化(EM)アルゴリズムの変型形
態を用いて推定される。EMアルゴリズムは、1967
年12月の「アナルズ・ロイヤル・スタティスティカル
・ソサエティ」の1−38ページに掲載されたN.M.
レイアド、A.P.デンプスタ及びD.B.ルビン著の
「不完全なデータからEMアルゴリズムを経ての最大の
見込み(MaximumLikelihood fro
m Incomplete Data viathe
EM Algorithm)」に説明されている。EM
アルゴリズムは、手前の推定値を新たな値に基づいて洗
練することにより最大見込み推定値を発生する。このア
ルゴリズムは、推定値を洗練するところの窓関数を使用
する。窓関数は、過去の推定値を使用して現在の推定値
を洗練するところの時間間隔を定める。標準的なEMア
ルゴリズムは、長方形窓の関数を使用する。長方形窓の
関数は、窓全体にわたりデータに等しい重みを与える。
本発明の好ましい実施形態に使用されるEMアルゴリズ
ムの変型形態は、指数窓関数を使用する。指数窓関数は
窓において最近のデータに大きな重みを与える。従っ
て、n、s、σn、σs及びξの値は、次の関数を用い
て推定される。 但し、WKは指数窓関数である。
は、公知の推定−最大化(EM)アルゴリズムの変型形
態を用いて推定される。EMアルゴリズムは、1967
年12月の「アナルズ・ロイヤル・スタティスティカル
・ソサエティ」の1−38ページに掲載されたN.M.
レイアド、A.P.デンプスタ及びD.B.ルビン著の
「不完全なデータからEMアルゴリズムを経ての最大の
見込み(MaximumLikelihood fro
m Incomplete Data viathe
EM Algorithm)」に説明されている。EM
アルゴリズムは、手前の推定値を新たな値に基づいて洗
練することにより最大見込み推定値を発生する。このア
ルゴリズムは、推定値を洗練するところの窓関数を使用
する。窓関数は、過去の推定値を使用して現在の推定値
を洗練するところの時間間隔を定める。標準的なEMア
ルゴリズムは、長方形窓の関数を使用する。長方形窓の
関数は、窓全体にわたりデータに等しい重みを与える。
本発明の好ましい実施形態に使用されるEMアルゴリズ
ムの変型形態は、指数窓関数を使用する。指数窓関数は
窓において最近のデータに大きな重みを与える。従っ
て、n、s、σn、σs及びξの値は、次の関数を用い
て推定される。 但し、WKは指数窓関数である。
【0018】指数窓関数WKは、次のように表される。 WK=αK (式14) 但し、αは、適応の割合を制御するパラメータである。
適応の割合は、現在データに対して過去のデータにいか
に多くの重みを与えるかを決定する。αが小さいほど、
現在データに対して過去のデータに与えられる重みは小
さくなり、αが大きいほど、現在データに対して過去の
データに与えられる重みは大きくなる。αの値は、次の
関数を用いて計算される。 α=(1/2)1/TFs (式15) 但し、Tは時定数であり、FsはA/Dコンバータ16
のサンプリング周波数である。本発明の好ましい実施形
態では、ノイズ及び音声に対して個別のαが使用され
る。個別のαの使用は、ノイズ及び音声を異なる割合で
適応できるようにする。個別のαが使用される好ましい
実施形態では、音声よりもノイズに対して小さなαが使
用される。従って、n、s、σn、σs及びξの値を推
定するのに用いられる関数は、次のように簡略化され
る。 ξj=(1−αn)Cn(j) (式20) 但し、 an(j)=pjxj+αnan(j−1) (式21) bn(j)=pjxj 2+αnbn(j−1) (式22) cn(j)=pj+αncn(j−1) (式23) as(j)=(1−pj)xj+αsas(j−1) (式24) bs(j)=(1−pj)xj 2+αsbs(j−1) (式25) cs(j)=(1−pj)+αscs(j−1) (式26) ここで、αn及びαsは各々ノイズ及び音声に対して適
応の割合を制御するパラメータである。n、s、σn、
σs、ξ、an、bn、cn、as、bs、csについ
ての初期値の計算は、以下で説明する。
適応の割合は、現在データに対して過去のデータにいか
に多くの重みを与えるかを決定する。αが小さいほど、
現在データに対して過去のデータに与えられる重みは小
さくなり、αが大きいほど、現在データに対して過去の
データに与えられる重みは大きくなる。αの値は、次の
関数を用いて計算される。 α=(1/2)1/TFs (式15) 但し、Tは時定数であり、FsはA/Dコンバータ16
のサンプリング周波数である。本発明の好ましい実施形
態では、ノイズ及び音声に対して個別のαが使用され
る。個別のαの使用は、ノイズ及び音声を異なる割合で
適応できるようにする。個別のαが使用される好ましい
実施形態では、音声よりもノイズに対して小さなαが使
用される。従って、n、s、σn、σs及びξの値を推
定するのに用いられる関数は、次のように簡略化され
る。 ξj=(1−αn)Cn(j) (式20) 但し、 an(j)=pjxj+αnan(j−1) (式21) bn(j)=pjxj 2+αnbn(j−1) (式22) cn(j)=pj+αncn(j−1) (式23) as(j)=(1−pj)xj+αsas(j−1) (式24) bs(j)=(1−pj)xj 2+αsbs(j−1) (式25) cs(j)=(1−pj)+αscs(j−1) (式26) ここで、αn及びαsは各々ノイズ及び音声に対して適
応の割合を制御するパラメータである。n、s、σn、
σs、ξ、an、bn、cn、as、bs、csについ
ての初期値の計算は、以下で説明する。
【0019】特性ベクトルの正規化において実行される
段階が図3及び4に示されている。先ず、αn及びαs
の値が選択される(ステップ310)。αn及びαsの
値は適応の所望の割合に基づいて選択される(上記のよ
うに)。更に、jの値がゼロに等しくセットされ(ステ
ップ312)、そしてn、s、σn、σs及びξの初期
値が推定される(ステップ314)。n、s、σn、σ
s及びξの初期値は、標準EM技術を用いて発音のデー
タベース26から推定される。 n0=navg (式27) s0=savg (式28) σ2 n(0)=σ2 n(avg) (式29) σ2 s(0)=σ2 s(avg) (式30) ξ0=ξavg (式31)
段階が図3及び4に示されている。先ず、αn及びαs
の値が選択される(ステップ310)。αn及びαsの
値は適応の所望の割合に基づいて選択される(上記のよ
うに)。更に、jの値がゼロに等しくセットされ(ステ
ップ312)、そしてn、s、σn、σs及びξの初期
値が推定される(ステップ314)。n、s、σn、σ
s及びξの初期値は、標準EM技術を用いて発音のデー
タベース26から推定される。 n0=navg (式27) s0=savg (式28) σ2 n(0)=σ2 n(avg) (式29) σ2 s(0)=σ2 s(avg) (式30) ξ0=ξavg (式31)
【0020】次いで、現在フレームjに対する特性ベク
トルxjが受け取られる(ステップ316)。歪d
jは、次の関数を用いて計算される(ステップ31
8)。 現在フレームjがノイズである事後確率pjは、次の関
数を使用して計算される(ステップ320)。 修正ベクトルrjは、次の関数を用いて計算される(ス
テップ322)。 rj〔l〕=pj(nj−1〔l〕−navg〔l〕)+ (1−pj)(sj−1〔l〕−savg〔l〕) (式40) 数を用いて計算される(ステップ324)。 但し、1=0、1、・・・mである。
トルxjが受け取られる(ステップ316)。歪d
jは、次の関数を用いて計算される(ステップ31
8)。 現在フレームjがノイズである事後確率pjは、次の関
数を使用して計算される(ステップ320)。 修正ベクトルrjは、次の関数を用いて計算される(ス
テップ322)。 rj〔l〕=pj(nj−1〔l〕−navg〔l〕)+ (1−pj)(sj−1〔l〕−savg〔l〕) (式40) 数を用いて計算される(ステップ324)。 但し、1=0、1、・・・mである。
【0021】n、s、σn、σs及びξの値は、次の関
数を用いて更新される(ステップ326)。 ξj[l]=(1−αn)cmj)[l] (式46) 但し、1=0、1、・・・mであり、そして である。
数を用いて更新される(ステップ326)。 ξj[l]=(1−αn)cmj)[l] (式46) 但し、1=0、1、・・・mであり、そして である。
【0022】更に、入力正規化装置22は、フレームj
が現在発音における最後のフレームであるかどうか判断
する(ステップ328)。フレームjが現在発音におけ
る最後のフレームでない場合には、jが増加され(ステ
ップ330)そしてステップ316ないし326が次の
フレームに対して繰り返される。フレームjが現在発音
における最後のフレームである場合には、入力正規化装
置22は、現在発音が最後の発音であるかどうか判断す
る(ステップ332)。現在発音が最後の発音でない場
合には、jがゼロにリセットされ(ステップ334)、
n、s、σn、σs及びξの値が推定初期値にリセット
され(ステップ336)、そしてステップ316ないし
326が次の発音の各フレームごとに繰り返される。現
在発音が最後の発音である場合には、入力正規化装置2
2が復帰する。
が現在発音における最後のフレームであるかどうか判断
する(ステップ328)。フレームjが現在発音におけ
る最後のフレームでない場合には、jが増加され(ステ
ップ330)そしてステップ316ないし326が次の
フレームに対して繰り返される。フレームjが現在発音
における最後のフレームである場合には、入力正規化装
置22は、現在発音が最後の発音であるかどうか判断す
る(ステップ332)。現在発音が最後の発音でない場
合には、jがゼロにリセットされ(ステップ334)、
n、s、σn、σs及びξの値が推定初期値にリセット
され(ステップ336)、そしてステップ316ないし
326が次の発音の各フレームごとに繰り返される。現
在発音が最後の発音である場合には、入力正規化装置2
2が復帰する。
【0023】本発明の入力正規化装置22の計算上の複
雑さを低減するために、入力正規化装置に対して多数の
変型をなし得ることが当業者に明らかであろう。第1
に、歪djを計算するのに使用された関数(式38)か
ら最後の項を除去することができる。この項は、歪dj
の値に著しく影響せず、対数を含むために計算経費が高
くつく。更に、現在フレームjがノイズである事後確率
pjは、ルックアップテーブルを用いて計算することが
できる。このテーブルは、歪djに対して考えられる値
と、それに対応する事後確率pjの値とを含む。更に、
n、s、σn及びσsの値は、各フレームごとではなく
幾つかのフレームごとに更新することができ、そしてξ
の値は、その初期値に保持でき、全く更新されない。こ
れらの変型の各々は、入力正規化装置22の精度に著し
く影響することなく該装置の効率を改善する。
雑さを低減するために、入力正規化装置に対して多数の
変型をなし得ることが当業者に明らかであろう。第1
に、歪djを計算するのに使用された関数(式38)か
ら最後の項を除去することができる。この項は、歪dj
の値に著しく影響せず、対数を含むために計算経費が高
くつく。更に、現在フレームjがノイズである事後確率
pjは、ルックアップテーブルを用いて計算することが
できる。このテーブルは、歪djに対して考えられる値
と、それに対応する事後確率pjの値とを含む。更に、
n、s、σn及びσsの値は、各フレームごとではなく
幾つかのフレームごとに更新することができ、そしてξ
の値は、その初期値に保持でき、全く更新されない。こ
れらの変型の各々は、入力正規化装置22の精度に著し
く影響することなく該装置の効率を改善する。
【0024】本発明は、認識中のみの特性ベクトルの正
規化について説明したが、本発明の好ましい実施形態
は、トレーニング中の特性ベクトルの正規化も含む。よ
り詳細には、データベース26における各発音が本発明
の原理に基づいて正規化され、次いで、その正規化され
た発音のデータベースを用いてシステムが再トレーニン
グされる。正規化された発音のデータベースは、次い
で、上記のように認識中に使用される。
規化について説明したが、本発明の好ましい実施形態
は、トレーニング中の特性ベクトルの正規化も含む。よ
り詳細には、データベース26における各発音が本発明
の原理に基づいて正規化され、次いで、その正規化され
た発音のデータベースを用いてシステムが再トレーニン
グされる。正規化された発音のデータベースは、次い
で、上記のように認識中に使用される。
【0025】以上のことから、本発明は、特性ベクトル
の前端正規化により音声認識を改良する方法及びシステ
ムを提供することが当業者に明らかであろう。本発明
は、好ましい実施形態を参照して説明したが、以上の説
明を読んで理解することにより同等の変更や修正が当業
者に明らかであろう。本発明は、このような全ての同等
の変更や修正を包含し、特許請求の範囲のみによって限
定されるものとする。
の前端正規化により音声認識を改良する方法及びシステ
ムを提供することが当業者に明らかであろう。本発明
は、好ましい実施形態を参照して説明したが、以上の説
明を読んで理解することにより同等の変更や修正が当業
者に明らかであろう。本発明は、このような全ての同等
の変更や修正を包含し、特許請求の範囲のみによって限
定されるものとする。
【図1】本発明の原理を組み込んだ音声認識システムを
示すブロック図である。
示すブロック図である。
【図2】図1のシステムの入力正規化装置によって実行
される段階を示す高レベルフローチャートである。
される段階を示す高レベルフローチャートである。
【図3】図1のシステムの特性ベクトルの正規化におい
て実行される段階を示す高レベルフローチャートであ
る。
て実行される段階を示す高レベルフローチャートであ
る。
【図4】図1のシステムの特性ベクトルの正規化におい
て実行される段階を示す高レベルフローチャートであ
る。
て実行される段階を示す高レベルフローチャートであ
る。
フロントページの続き (72)発明者 ケドン フアン アメリカ合衆国 ワシントン州 98052 レッドモンド ワンハンドレッドアンドセ ヴンティセヴンス アベニュー ノースイ ースト 10026
Claims (21)
- 【請求項1】 特性ベクトルの前端正規化により音声認
識を改良する方法であって、上記音声は発音より成り、
各発音は音声のフレームを構成し、該音声の各フレーム
は特性ベクトルによって表され、上記方法は、 既知の発音のデータベースであって、平均ノイズ特性ベ
クトル及び平均音声特性ベクトルを有する発音のデータ
ベースを用意し、 認識されるべき発音において音声のフレームを表す特性
ベクトルを受け取り、音声のフレームはノイズである確
率を有し、発音は平均ノイズ特性ベクトル及び平均音声
特性ベクトルを有し、 音声のフレームがノイズである確率に基づくと共に、発
音及び発音のデータベースに対する平均ノイズ及び音声
特性ベクトルに基づいて修正ベクトルを計算し、そして
特性ベクトル及び修正ベクトルに基づいて正規化された
特性ベクトルを計算する、という段階を備えたことを特
徴とする方法。 - 【請求項2】 特性ベクトルを受け取る上記段階は、ケ
プストラルベクトルを受け取る段階を備えた請求項1に
記載の方法。 - 【請求項3】 音声のフレームがノイズである確率、及
び発音に対する平均ノイズ及び音声特性ベクトルは、音
声の各フレームごとに更新される請求項1に記載の方
法。 - 【請求項4】 修正ベクトルを計算する上記段階は、 音声のフレームがノイズである確率を音声のフレームの
歪尺度に基づいて計算し、 発音に対する平均ノイズ及び音声特性ベクトルを計算
し、 発音のデータベースに対する平均ノイズ及び音声特性ベ
クトルを計算し、そして音声のフレームがノイズである
確率と、発音及び発音のデータベースに対する平均ノイ
ズ及び音声特性ベクトルの間の差とに基づいて修正ベク
トルを計算するという段階を備えた請求項1に記載の方
法。 - 【請求項5】 特性ベクトルの前端正規化により音声認
識を改良する方法であって、上記音声は発音より成り、
各発音は音声のフレームを構成し、該音声の各フレーム
は特性ベクトルによって表され、上記方法は、 既知の発音のデータベースであって、平均ノイズ特性ベ
クトル及び平均音声特性ベクトルを有する発音のデータ
ベースを用意し、 認識されるべき発音における音声jのフレームを表す特
性ベクトルxjを受け取り、該音声のフレームは、ノイ
ズであるという事後確率を有し、発音は、平均ノイズ特
性ベクトル及び平均音声特性ベクトルを有し、 修正ベクトルr(xj)を r(xj)=pj(nj−1−navg)+(1−
pj)(sj−1−savg) として計算し、ここで、pjは、音声jのフレームがノ
イズである事後確率であり、nj−1及びsj−1は、
発音に対する平均ノイズ及び音声特性ベクトルでありそ
してnavg及びsavgは、発音のデータベースに対
する平均ノイズ及び音声特性ベクトルであり、そして として計算する、という段階を備えたことを特徴とする
方法。 - 【請求項6】 特性ベクトルを受け取る上記段階は、ケ
プストラルベクトルを受け取る段階を含む請求項5に記
載の方法。 - 【請求項7】 音声のフレームがノイズである事後確
率、及び発音に対する平均ノイズ及び音声特性ベクトル
は、音声の各フレームに対して更新される請求項5に記
載の方法。 - 【請求項8】 音声jのフレームがノイズである事後確
率pjは、 として計算され、ここで、ξは、音声jのフレームがノ
イズである先験的確率であり、N(xj.nj−1.Σ
n(j−1))及びN(xj.sj−1.Σ
s(j−1))は、各々、ノイズ及び音声に対するガウ
スの確率密度関数であり、そしてΣn(j−1)及びΣ
s(j−1)は、各々、ノイズ及び音声に対する共分散
マトリクスである請求項5に記載の方法。 - 【請求項9】 上記ノイズ及び音声に対するガウスの確
率密度関数N(xj.nj−1.Σn(j−1))及び
N(xj.sj−1.Σs(j−1))は、 及び として計算され、ここで、qはxjの次元であり、ex
pは指数関数であり、そしてTは転置関数である請求項
8に記載の方法。 - 【請求項10】 音声jのフレームがノイズである事後
確率pjは、 として計算され、ここで、d(xj)は、音声jのフレ
ームの歪尺度である請求項5に記載の方法。 - 【請求項11】 上記歪尺度d(xj)は、 として計算される請求項10に記載の方法。
- 【請求項12】 上記歪尺度d(xj)は、 として計算され、ここで、qは、σn及びσsの次元で
ある請求項10に記載の方法。 - 【請求項13】 上記歪尺度d(xj)は、 として計算される請求項10に記載の方法。
- 【請求項14】 発音に対する平均ノイズ及び音声特性
ベクトルは、 として計算され、但し、WKは、WK=αKとして表さ
れる指数窓関数であり、そしてαは、適応の割合を制御
するパラメータである請求項13に記載の方法。 - 【請求項15】 ノイズ及び音声に対する対角共分散マ
トリクスは、 として計算される請求項14に記載の方法。 - 【請求項16】 音声jのフレームがノイズである先験
的確率ξjは、 として計算される請求項15に記載の方法。 - 【請求項17】 発音に対する平均ノイズ及び音声特性
ベクトルは、 として計算され、ここで、 であり、そしてαn及びαsは、各々ノイズ及び音声に
対する適応の割合を制御するパラメータである請求項1
3に記載の方法。 - 【請求項18】 ノイズ及び音声に対する対角共分散マ
トリクスは、 として計算され、ここで、 bn(j)=pjxj 2+αnbn(j−1)、及び bs(j)=(1−pj)xj 2+αsbs(j−1) である請求項17に記載の方法。 - 【請求項19】 音声jのフレームがノイズである先験
的確率ξjは、 ξj=(1−αn)cn(j) である請求項18に記載の方法。 - 【請求項20】 特性ベクトルの前端正規化により音声
認識を改良するシステムであって、上記音声は発音より
成り、各発音は音声のフレームを構成し、該音声の各フ
レームは特性ベクトルによって表され、上記システム
は、 既知の発音のデータベースであって、平均ノイズ特性ベ
クトル及び平均音声特性ベクトルを有する発音のデータ
ベースと、 入力正規化装置とを備え、該正規化装置は、 認識されるべき発音において音声のフレームを表す特性
ベクトルを受け取り、音声のフレームはノイズである確
率を有し、発音は平均ノイズ特性ベクトル及び平均音声
特性ベクトルを有し、 更に、音声のフレームがノイズである確率に基づくと共
に、発音及び発音のデータベースに対する平均ノイズ及
び音声特性ベクトルに基づいて修正ベクトルを計算し、
そして特性ベクトル及び修正ベクトルに基づいて正規化
された特性ベクトルを計算することを特徴とするシステ
ム。 - 【請求項21】 特性ベクトルの前端正規化により音声
認識を改良するシステムであって、上記音声は発音より
成り、各発音は音声のフレームを構成し、該音声の各フ
レームは特性ベクトルによって表され、上記システム
は、 特性モデルによって表される既知の発音のデータベース
であって、平均ノイズ特性ベクトル及び平均音声特性ベ
クトルを有する発音のデータベースと、 認識されるべき発音において音声のフレームから特性ベ
クトルを抽出するための特性抽出器であって、音声のフ
レームはノイズである確率を有し、発音は平均ノイズ特
性ベクトル及び平均音声特性ベクトルを有するような特
性抽出器と、 (i)音声のフレームがノイズである確率に基づくと共
に、発音及び発音のデータベースに対する平均ノイズ及
び音声特性ベクトルに基づいて修正ベクトルを計算し、
そして(ii)特性ベクトル及び修正ベクトルに基づい
て正規化された特性ベクトルを計算することにより、特
性ベクトルを正規化するための入力正規化装置と、 上記正規化された特性ベクトルをデータベースにおける
特性モデルと比較するためのパターン一致装置と、を備
えたことを特徴とするシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/283271 | 1994-07-29 | ||
US08/283,271 US5604839A (en) | 1994-07-29 | 1994-07-29 | Method and system for improving speech recognition through front-end normalization of feature vectors |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH08110793A true JPH08110793A (ja) | 1996-04-30 |
Family
ID=23085287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7222471A Pending JPH08110793A (ja) | 1994-07-29 | 1995-07-27 | 特性ベクトルの前端正規化による音声認識の改良方法及びシステム |
Country Status (4)
Country | Link |
---|---|
US (1) | US5604839A (ja) |
EP (1) | EP0694906B1 (ja) |
JP (1) | JPH08110793A (ja) |
DE (1) | DE69518705T2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100442825B1 (ko) * | 1997-07-11 | 2005-02-03 | 삼성전자주식회사 | 음성 인식을 위한 환경 보상 방법 |
JP2007536562A (ja) * | 2004-01-12 | 2007-12-13 | ヴォイス シグナル テクノロジーズ インコーポレーティッド | 自動音声認識チャンネルの正規化 |
JP2008298844A (ja) * | 2007-05-29 | 2008-12-11 | Advanced Telecommunication Research Institute International | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム |
JP2015501012A (ja) * | 2011-12-19 | 2015-01-08 | スパンション エルエルシー | 演算論理ユニットアーキテクチャ |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2797949B2 (ja) * | 1994-01-31 | 1998-09-17 | 日本電気株式会社 | 音声認識装置 |
US6266709B1 (en) | 1996-07-01 | 2001-07-24 | Sun Microsystems, Inc. | Object-oriented system, method and article of manufacture for a client-server failure reporting process |
US5848246A (en) | 1996-07-01 | 1998-12-08 | Sun Microsystems, Inc. | Object-oriented system, method and article of manufacture for a client-server session manager in an interprise computing framework system |
US6424991B1 (en) | 1996-07-01 | 2002-07-23 | Sun Microsystems, Inc. | Object-oriented system, method and article of manufacture for a client-server communication framework |
US6038590A (en) | 1996-07-01 | 2000-03-14 | Sun Microsystems, Inc. | Object-oriented system, method and article of manufacture for a client-server state machine in an interprise computing framework system |
US5987245A (en) | 1996-07-01 | 1999-11-16 | Sun Microsystems, Inc. | Object-oriented system, method and article of manufacture (#12) for a client-server state machine framework |
US6304893B1 (en) | 1996-07-01 | 2001-10-16 | Sun Microsystems, Inc. | Object-oriented system, method and article of manufacture for a client-server event driven message framework in an interprise computing framework system |
US5999972A (en) | 1996-07-01 | 1999-12-07 | Sun Microsystems, Inc. | System, method and article of manufacture for a distributed computer system framework |
US6272555B1 (en) | 1996-07-01 | 2001-08-07 | Sun Microsystems, Inc. | Object-oriented system, method and article of manufacture for a client-server-centric interprise computing framework system |
US6434598B1 (en) | 1996-07-01 | 2002-08-13 | Sun Microsystems, Inc. | Object-oriented system, method and article of manufacture for a client-server graphical user interface (#9) framework in an interprise computing framework system |
JP3195752B2 (ja) * | 1997-02-28 | 2001-08-06 | シャープ株式会社 | 検索装置 |
JP3962445B2 (ja) * | 1997-03-13 | 2007-08-22 | キヤノン株式会社 | 音声処理方法及び装置 |
FI114247B (fi) | 1997-04-11 | 2004-09-15 | Nokia Corp | Menetelmä ja laite puheen tunnistamiseksi |
KR100450787B1 (ko) * | 1997-06-18 | 2005-05-03 | 삼성전자주식회사 | 스펙트럼의동적영역정규화에의한음성특징추출장치및방법 |
US5946653A (en) * | 1997-10-01 | 1999-08-31 | Motorola, Inc. | Speaker independent speech recognition system and method |
US6173258B1 (en) * | 1998-09-09 | 2001-01-09 | Sony Corporation | Method for reducing noise distortions in a speech recognition system |
US6768979B1 (en) * | 1998-10-22 | 2004-07-27 | Sony Corporation | Apparatus and method for noise attenuation in a speech recognition system |
US6308155B1 (en) * | 1999-01-20 | 2001-10-23 | International Computer Science Institute | Feature extraction for automatic speech recognition |
GB2349259B (en) | 1999-04-23 | 2003-11-12 | Canon Kk | Speech processing apparatus and method |
US6920421B2 (en) | 1999-12-28 | 2005-07-19 | Sony Corporation | Model adaptive apparatus for performing adaptation of a model used in pattern recognition considering recentness of a received pattern data |
US6804640B1 (en) * | 2000-02-29 | 2004-10-12 | Nuance Communications | Signal noise reduction using magnitude-domain spectral subtraction |
US7003455B1 (en) * | 2000-10-16 | 2006-02-21 | Microsoft Corporation | Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech |
DE60110541T2 (de) * | 2001-02-06 | 2006-02-23 | Sony International (Europe) Gmbh | Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz |
US6985858B2 (en) * | 2001-03-20 | 2006-01-10 | Microsoft Corporation | Method and apparatus for removing noise from feature vectors |
US6985859B2 (en) * | 2001-03-28 | 2006-01-10 | Matsushita Electric Industrial Co., Ltd. | Robust word-spotting system using an intelligibility criterion for reliable keyword detection under adverse and unknown noisy environments |
US6959276B2 (en) * | 2001-09-27 | 2005-10-25 | Microsoft Corporation | Including the category of environmental noise when processing speech signals |
JP3826032B2 (ja) * | 2001-12-28 | 2006-09-27 | 株式会社東芝 | 音声認識装置、音声認識方法及び音声認識プログラム |
US7139703B2 (en) * | 2002-04-05 | 2006-11-21 | Microsoft Corporation | Method of iterative noise estimation in a recursive framework |
US6944590B2 (en) | 2002-04-05 | 2005-09-13 | Microsoft Corporation | Method of iterative noise estimation in a recursive framework |
US7117148B2 (en) * | 2002-04-05 | 2006-10-03 | Microsoft Corporation | Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization |
US7174292B2 (en) * | 2002-05-20 | 2007-02-06 | Microsoft Corporation | Method of determining uncertainty associated with acoustic distortion-based noise reduction |
US7103540B2 (en) | 2002-05-20 | 2006-09-05 | Microsoft Corporation | Method of pattern recognition using noise reduction uncertainty |
US7107210B2 (en) * | 2002-05-20 | 2006-09-12 | Microsoft Corporation | Method of noise reduction based on dynamic aspects of speech |
US7047047B2 (en) | 2002-09-06 | 2006-05-16 | Microsoft Corporation | Non-linear observation model for removing noise from corrupted signals |
US7165026B2 (en) * | 2003-03-31 | 2007-01-16 | Microsoft Corporation | Method of noise estimation using incremental bayes learning |
JP2007508577A (ja) * | 2003-10-08 | 2007-04-05 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声認識システムの環境的不整合への適応方法 |
US7720675B2 (en) * | 2003-10-27 | 2010-05-18 | Educational Testing Service | Method and system for determining text coherence |
JP4943335B2 (ja) * | 2004-09-23 | 2012-05-30 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 話者に依存しない堅牢な音声認識システム |
GB2422237A (en) * | 2004-12-21 | 2006-07-19 | Fluency Voice Technology Ltd | Dynamic coefficients determined from temporally adjacent speech frames |
US8175877B2 (en) * | 2005-02-02 | 2012-05-08 | At&T Intellectual Property Ii, L.P. | Method and apparatus for predicting word accuracy in automatic speech recognition systems |
KR100714721B1 (ko) | 2005-02-04 | 2007-05-04 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치 |
US8202098B2 (en) | 2005-02-28 | 2012-06-19 | Educational Testing Service | Method of model scaling for an automated essay scoring system |
DE102005030855A1 (de) * | 2005-07-01 | 2007-01-11 | Müller-BBM GmbH | Elektroakustisches Verfahren |
US7725316B2 (en) * | 2006-07-05 | 2010-05-25 | General Motors Llc | Applying speech recognition adaptation in an automated speech recognition system of a telematics-equipped vehicle |
CN101154380B (zh) * | 2006-09-29 | 2011-01-26 | 株式会社东芝 | 说话人认证的注册及验证的方法和装置 |
US20100094622A1 (en) * | 2008-10-10 | 2010-04-15 | Nexidia Inc. | Feature normalization for speech and audio processing |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
US9824684B2 (en) | 2014-11-13 | 2017-11-21 | Microsoft Technology Licensing, Llc | Prediction-based sequence recognition |
CN111489754A (zh) * | 2019-01-28 | 2020-08-04 | 国家电网有限公司客户服务中心 | 一种基于智能语音技术的话务数据分析方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4926488A (en) * | 1987-07-09 | 1990-05-15 | International Business Machines Corporation | Normalization of speech by adaptive labelling |
JP2776848B2 (ja) * | 1988-12-14 | 1998-07-16 | 株式会社日立製作所 | 雑音除去方法、それに用いるニューラルネットワークの学習方法 |
JP2763398B2 (ja) * | 1990-11-20 | 1998-06-11 | キヤノン株式会社 | パターン認識装置 |
-
1994
- 1994-07-29 US US08/283,271 patent/US5604839A/en not_active Expired - Lifetime
-
1995
- 1995-07-26 EP EP95111784A patent/EP0694906B1/en not_active Expired - Lifetime
- 1995-07-26 DE DE69518705T patent/DE69518705T2/de not_active Expired - Lifetime
- 1995-07-27 JP JP7222471A patent/JPH08110793A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100442825B1 (ko) * | 1997-07-11 | 2005-02-03 | 삼성전자주식회사 | 음성 인식을 위한 환경 보상 방법 |
JP2007536562A (ja) * | 2004-01-12 | 2007-12-13 | ヴォイス シグナル テクノロジーズ インコーポレーティッド | 自動音声認識チャンネルの正規化 |
JP2008298844A (ja) * | 2007-05-29 | 2008-12-11 | Advanced Telecommunication Research Institute International | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム |
JP2015501012A (ja) * | 2011-12-19 | 2015-01-08 | スパンション エルエルシー | 演算論理ユニットアーキテクチャ |
Also Published As
Publication number | Publication date |
---|---|
DE69518705T2 (de) | 2001-01-04 |
EP0694906A1 (en) | 1996-01-31 |
DE69518705D1 (de) | 2000-10-12 |
EP0694906B1 (en) | 2000-09-06 |
US5604839A (en) | 1997-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH08110793A (ja) | 特性ベクトルの前端正規化による音声認識の改良方法及びシステム | |
EP0886263B1 (en) | Environmentally compensated speech processing | |
US5812972A (en) | Adaptive decision directed speech recognition bias equalization method and apparatus | |
Acero et al. | Robust speech recognition by normalization of the acoustic space. | |
CA2147772C (en) | Method of and apparatus for signal recognition that compensates for mismatching | |
CA2204866C (en) | Signal conditioned minimum error rate training for continuous speech recognition | |
US5895448A (en) | Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose | |
US6076054A (en) | Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition | |
CN111816165A (zh) | 语音识别方法、装置及电子设备 | |
KR20010005674A (ko) | 인식 시스템 | |
US5734793A (en) | System for recognizing spoken sounds from continuous speech and method of using same | |
US6725196B2 (en) | Pattern matching method and apparatus | |
JP2000099080A (ja) | 信頼性尺度の評価を用いる音声認識方法 | |
JPH09160584A (ja) | 音声適応化装置および音声認識装置 | |
EP0780828B1 (en) | Method and system for performing speech recognition | |
US20050015251A1 (en) | High-order entropy error functions for neural classifiers | |
TW418383B (en) | Telephone voice recognition system and method and the channel effect compensation device using the same | |
US20050010406A1 (en) | Speech recognition apparatus, method and computer program product | |
JP3397568B2 (ja) | 音声認識方法及び装置 | |
JPH10149191A (ja) | モデル適応方法、装置およびその記憶媒体 | |
JPH0486899A (ja) | 標準パターン適応化方式 | |
US7480614B2 (en) | Energy feature extraction method for noisy speech recognition | |
Seltzer et al. | Speech-recognizer-based filter optimization for microphone array processing | |
JPH03200999A (ja) | 標準パターン学習方法 | |
JP3044741B2 (ja) | 標準パターン学習方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050729 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051031 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20051031 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060801 |