JP3354252B2

JP3354252B2 - 音声認識装置

Info

Publication number: JP3354252B2
Application number: JP33059193A
Authority: JP
Inventors: 敬有吉
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1993-12-27
Filing date: 1993-12-27
Publication date: 2002-12-09
Anticipated expiration: 2017-12-09
Also published as: JPH07191696A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力された音声の特徴
量を予め用意された標準パターンの特徴量と比較するこ
とで入力された音声を認識する音声認識装置に関する。

【０００２】

【従来の技術】近年、人間が発生する言語の音韻性情報
を認識する音声認識技術が盛んに研究され、この音声認
識技術を具体的な装置に応用した音声認識装置の開発が
進められている。音韻性情報を認識するには、一般に、
予め単語や音節等を単位とする複数の標準パターンを用
意し、未知の入力音声と各標準パターンとを比較し、入
力音声に最も類似している標準パターンを見つけ出し、
この標準パターンが発声された音声であると判定する等
の手法が用いられている。

【０００３】このような音声認識の技術における単語や
音節等を認識する技術は、区切って発生された単語等を
認識する孤立単語音声認識と、連続的に発生された音声
から特定の単語等を認識する連続単語音声認識との二通
りに分類できる。音声認識技術を利用した音声認識装置
の実用化に際しては、周囲に生ずる騒音や話者が発生す
るかもしれない不要語等を考慮すると、連続単語音声認
識を実現し得る装置とすることが望ましい。

【０００４】周囲の騒音や話者が発生する不要語等を除
外して音声を認識する連続単語音声認識の技術として
は、例えば、連続ＤＰ法等のワードスポッティングが従
来から知られている（吉井貞煕著「デジタル音声処理」
東海大学出版会第８章）。ここで、ワードスポッティ
ング（word spotting ）というのは、ある音声から単語
や音節等の単位を捜し出し、予め定められた言葉を抽出
する技術である。また、連続ＤＰ法（continuous Dynam
ic Programming）というのは、スペクトル等のパラメー
タ系列に変換された入力音声について、この入力音声を
始端から１フレームずつずらして単語や音節等の標準パ
ターンとＤＰマッチング（Dynamic Programming matchi
ng）を行い、マッチング結果としての距離がある閾値以
下となったとき、その時点にその標準パターンの単語や
音節等が存在すると判定する連続単語音声認識である。

【０００５】ここで、音声認識における入力音声と標準
パターンとの比較に際しては、音声波形そのものを比較
するのではなく、音声波形から位相情報を除去し、スペ
クトルに関連した特徴に変換して入力音声情報を扱うの
が一般的である。これは、音声波形そのものを比較した
のでは情報量が多過ぎるし、波形の位相情報は伝送系や
録音系により変化し易い上に、このような位相情報は人
間による音声の知覚にほとんど寄与しないからである。

【０００６】スペクトルに関連した特徴としては、一定
周期毎に抽出された短時間スペクトルが一般に用いられ
る。この短時間スペクトルというのは、音声の短時間区
間毎の電力スペクトル密度を意味し、周波数に応じて緩
やかに変化する成分であるスペクトル包絡と、周波数に
応じて細かく変化する成分であるスペクトル微細構造と
の積（対数尺度では和）に分解して分析することができ
る。これらのうち、スペクトル微細構造は、ピッチ等の
影響を受けて不安定である。このため、音声認識に際し
ては、短時間スペクトルからスペクトル包絡を抽出し、
スペクトル包絡を音声の特徴とするようなことが一般に
行われている。

【０００７】スペクトル包絡を抽出する手法には色々な
種類があるが、そのうちの一つとしてケプストラム分析
（cepstrum）がある。このケプストラム分析というの
は、波形の短時間振幅スペクトルの対数の逆フーリエと
して定義され、スペクトル包絡とスペクトル微細構造と
を近似的に分離することができる点に特色を有する。ま
た、ケプストラム分析に関連したスペクトル包絡を抽出
する手法として、近年では、メルスケールの周波数で再
標本化した対数スペクトルから計算したケプストラムを
用いる試みもなされている。このようなケプストラムを
メルケプストラムという。さらに、ケプストラム分析の
特殊なものとして、ＬＰＣケプストラム分析（ＬＰＣ
は、linear predictive coding：線形予測の略称であ
る）という手法がある。このＬＰＣケプストラムという
のは、波形から直接計算されるケプストラム、すなわち
ＦＦＴケプストラム（ＦＦＴは、fast Fourier transfo
rm：高速フーリエ変換の略称である）に対し、線形予測
モデルによるケプストラムを意味し、ＦＦＴケプストラ
ムによる包絡スペクトルよりもスペクトルのピークを重
視した形の包絡スペクトルを得ることができる点を特色
とする。つまり、スペクトルのピーク部に音声認識の重
要な情報が存在していることに着目し、スペクトルのピ
ークを強調することで、その距離尺度をセンシティブに
してより正確な音声認識を実現させるようにした手法で
ある。

【０００８】

【発明が解決しようとする課題】このように、音声特徴
量の検出、すなわち、短時間スペクトルのスペクトル包
絡の抽出には、例えば、ケプストラム分析、メルケプス
トラム分析、ＬＰＣケプストラム分析等の手法が用いら
れる。この際、音声特徴量としては、ケプストラム係
数、メルケプストラム係数、ＬＰＣケプストラム係数が
それぞれ用いられる。ところが、このようなケプストラ
ム係数等は、音声の入力レベルに依存しない特徴量であ
るため、促音発声時等の無音区間や音声レベルが低い区
間では、周囲の騒音の特徴量が入力音声の特徴量に影響
を与え、誤認識を生じさせてしまうことがあるという問
題がある。例えば、無音の区間では、入力音声に対応す
る単語の標準パターンに対する距離が周囲の騒音によっ
て広がり、対応しない単語であると誤認されてしまった
り、入力音声に対応しない単語の標準パターンに対する
距離が周囲の騒音によって狭まり、対応する単語である
と誤認されてしまったりするようなことがあり、正確な
音声認識を実現する上での障害となっている。

【０００９】

【課題を解決するための手段】請求項１記載の発明は、
入力された音響信号に対してフレーム毎に音響分析を行
うことでその音響信号の音響特徴量を求める音響分析部
と、入力された音響信号に対してフレーム毎に音声らし
さの程度を求める音声検出部と、この音声検出部により
音声らしさの程度が低いと判定された区間の音響特徴量
を白色雑音化する雑音化処理部と、音声の標準パターン
を記憶する標準パターン記憶部と、この標準パターン記
憶部に記憶された標準パターンの時系列と雑音化処理部
による処理を経た音響特徴量の時系列とのマッチングを
行うマッチング処理部とを設けた。

【００１０】請求項２記載の発明は、請求項１記載の発
明において、音響分析部では音響特徴量としてケプスト
ラム係数をフレーム毎に求めるケプストラム分析を行
い、雑音化処理部では音声検出部で求められた音声らし
さの程度が低いフレームのケプストラム係数を小さく設
定することで音響特徴量を白色雑音化する。

【００１１】請求項３記載の発明は、請求項１記載の発
明において、音響分析部では音響特徴量としてメルケプ
ストラム係数をフレーム毎に求めるメルケプストラム分
析を行い、雑音化処理部では音声検出部で求められた音
声らしさの程度が低いフレームのメルケプストラム係数
を小さく設定することで音響特徴量を白色雑音化する。

【００１２】請求項４記載の発明は、請求項１記載の発
明において、音響分析部では音響特徴量としてスペクト
ル傾斜を除去する補正が行われた短時間スペクトルをフ
レーム毎に求めるスペクトル分析を行い、雑音化処理部
では音声検出部で求められた音声らしさの程度が低いフ
レームの短時間スペクトルを小さく設定することで音響
特徴量を白色雑音化する。

【００１３】請求項５記載の発明は、請求項１記載の発
明において、音声検出部では入力された音響信号のパワ
ーが小さいほど音声らしさの程度が低いと判断し、雑音
化処理部ではその音声検出部で音声らしさの程度が低い
と判断される程音響特徴量を強く白色雑音化する。

【００１４】請求項６記載の発明は、請求項１記載の発
明において、標準パターン記憶部に記憶された標準パタ
ーンは、雑音化処理部での音響特徴量の白色雑音化と同
等の処理を経て生成された標準パターンである。

【００１５】請求項７記載の発明は、請求項１記載の発
明において、マッチング処理部でのマッチング処理は、
ワードスポッティング処理である。

【００１６】

【作用】請求項１記載の発明では、各フレーム毎に、音
響分析部により入力された音響信号の音響特徴量が求め
られ、音声検出部によりその音響信号の音声らしさの程
度が求められる。この際、音響信号中に音声らしさの程
度が低いと判定された区間がある場合には、音響特徴量
が雑音化処理部で白色雑音化される。つまり、音響信号
中、音声らしさの程度が低い区間は、無音であるか音声
レベルが低い区間であることを意味する。そして、音響
特徴量が白色雑音化されるということは、音響特徴量を
表現するスペクトルが平滑化されることを意味する。し
たがって、無音であるか音声レベルが低い場合には、音
響特徴量としてのスペクトルが平滑化され、周囲の騒音
による影響が除去される。マッチング処理部では、この
ような処理を経た特徴量の時系列と標準パターン記憶部
に記憶された標準パターンの時系列とが比較され、その
マッチングが行われる。これにより、周囲の騒音の有無
に拘らず、正確な音声認識がなされる。

【００１７】請求項２記載の発明では、音響特徴量とし
てケプストラム係数を用いるケプストラム分析が音響分
析の手法として選択され、このケプストラム係数を小さ
くすることで音響特徴量の白色雑音化を実現させてい
る。また、請求項３記載の発明では、音響特徴量として
メルケプストラム係数を用いるメルケプストラム分析が
音響分析の手法として選択され、このメルケプストラム
係数を小さくすることで音響特徴量の白色雑音化を実現
させている。そして、請求項４記載の発明では、音響特
徴量としてスペクトル傾斜が除去されたスペクトルを用
いるスペクトル分析が音響分析の手法として選択され、
このスペクトルを小さくすることで音響特徴量の白色雑
音化を実現させている。したがって、請求項２、３及び
４記載の発明では、安定した音響特徴量に基づく正確な
音声認識がなされ、しかも、音響特徴量の白色雑音化が
容易である。

【００１８】請求項５記載の発明では、音声検出部にお
ける音声らしさの程度の判断に際して、入力された音響
信号のパワーが小さいほど音声らしさの程度が低いと判
断され、雑音化処理部では、入力された音響信号のパワ
ーの程度に応じて音響特徴量の白色雑音化の程度が決定
される。つまり、音響信号は、そのパワーが小さいほど
強く白色雑音化される。これにより、より精度が高い音
声認識がなされる。

【００１９】請求項６記載の発明では、標準パターン記
憶部に記憶された標準パターンは、雑音化処理部での音
響特徴量の白色雑音化と同等の処理を経て生成されてい
るので、標準パターンの生成が容易である。そして、現
実に入力される音響信号の特徴量と極めて近似する標準
パターンを用意することができ、より精度の高い音声認
識がなされる。

【００２０】請求項７記載の発明では、マッチング部で
は、音声特徴量の時系列と標準パターンの時系列とのマ
ッチング処理に際し、ワードスポッティング処理がなさ
れる。これにより、標準パターンとして生成された単語
や音節等が含まれたある言葉が発声された場合、その言
葉に含まれるその単語等が抽出されて認識される。

【００２１】

【実施例】本発明の一実施例を図１に基づいて説明す
る。図１に示すのは各部のブロック図であり、音声を入
力する音声入力部１にＡ／Ｄ変換部２（Ａ／Ｄは、 ana
logto disitalの略称である）が接続され、このＡ／Ｄ
変換部２には音響前処理部３と音響分析部４とが順に接
続されている。また、前記音響前処理部３には音声検出
部５も接続され、この音声検出部５と前記音響分析部４
とには雑音化処理部６が接続されている。そして、標準
パターン記憶部７が設けられ、この標準パターン記憶部
７と前記雑音化処理部６とはマッチング処理部８に接続
され、このマッチング処理部８は認識結果出力部９に接
続されている。

【００２２】ここで、前記音声入力部１は、例えばマイ
クロフォンであり、この音声入力部１より入力されたア
ナログ信号である音響信号が前記Ａ／Ｄ変換部２に出力
される構造である。

【００２３】前記Ａ／Ｄ変換部２は、前記音声入力部１
からの音響信号をデジタル信号に変換し、標本化、量子
化及び符号化を実行する構造のものである。このＡ／Ｄ
変換部２でのデジタル変換の条件としては、例えば、標
本化周波数が１６kHz で量子化ビット数が１６ビットで
ある。この際、低周波域の帯域制限をかけた後に標本化
がなされるよう構成されている。これは、標本化定理に
従った標本化をして折り返し否（aliasing distortion
）の発生を防止するためである。

【００２４】次いで、前記音響前処理部３は、Ａ／Ｄ変
換部２でデジタル信号に変換された入力音響信号を高域
強調（プリエンファシス：pre-emphasis）する構造のも
のである。この音響前処理部３は、Ｈ(z)＝１−Ｚ~¹ ………式１の伝達関数を有する１次のデジタルフィルタや、差分演
算回路等により構成されている。

【００２５】次いで、前記音響分析部４は、入力された
音響信号の特徴量を抽出する演算部であり、音響信号の
短時間スペクトルのスペクトル包絡を抽出する構造のも
のである。本実施例では、音響信号をＬＰＣスペクトラ
ム分析し、フレーム毎にケプストラム係数としてのケプ
ストラムベクトル（０次は含まず）ｃt を求める構造の
ものが用いられている。この音響分析部４における音響
信号の分析条件は、フレーム周期：１０ms 窓周期：１６ms 窓関数：ハミング窓ＬＰＣ分析次数：１４次ケプストラム次数：１４次である。

【００２６】次いで、前記音声検出部５は、前記音響前
処理部３で高域強調された入力音響信号における各フレ
ームでの平均パワーに基づき、その音響信号の音声らし
さの程度を求める構造のものである。フレーム平均パワ
ーは、ＬＰＣ分析中の０次の自己相関係数から求めるこ
とができる。ここで、前記音声検出部５においては、フ
レーム平均パワーｐとこの音声検出部５で求める音声ら
しさの程度ｖとの関係を、次に示す式２で定義してい
る。

【００２７】

【数２】

【００２８】この式２におけるｐ₀ は実験的に求められ
る定数であり、音声区間の始終端のパワーの値よりもや
や大きな値が用いられる。この式より明らかなように、
音声らしさの程度ｖは、０≦ｖ≦１であり、フレーム平
均パワーｐが十分に大きい時には音声らしさの程度ｖは
１で、フレーム平均パワーｐが０の時には音声らしさの
程度ｖは０であり、その間では、フレーム平均パワーｐ
が小さくなるにつれて音声らしさの程度ｖは単調に低く
なっていく。

【００２９】次いで、前記雑音化処理部６は、前記音声
検出部５により求められた音声らしさの程度に応じ、前
記音響分析部４により求められた音響特徴量を白色雑音
化する構造のものである。この雑音化処理部６では、ｃ*t＝ｖｃt ………式３の演算処理が実行される。ここで、前述した通り、ｃt
は前記音響分析部４により求められた音響特徴量、すな
わちケプストラムベクトルであり、ｖは前記音声検出部
５により求められた音声らしさの程度である。そして、
ｃ*tは、入力された音響信号中の音声らしさの程度に応
じて白色雑音化されたケプストラムベクトルである。こ
の式から明らかなように、前記雑音化処理部６では、ケ
プストラムベクトルｃt と音声らしさの程度ｖとの積に
よりケプストラムベクトルｃ*tを決定している。ここ
で、白色雑音のケプストラムベクトルは０、すなわち０
ベクトルである。したがって、音声らしさの程度ｖが低
ければ低いほどケプストラムベクトルｃtが強く白色雑
音化されることになる。

【００３０】次いで、前記標準パターン記憶部７には、
音声認識を実行させる単語や音節等の標準パターンが多
数記憶されている。これらの標準パターンは、音声入力
部１に入力されて音響分析部４でケプストラムベクトル
ｃt とされ、雑音化処理部４で所定の処理が施されたケ
プストラムベクトルｃ*tの時系列と同等の内容を有し、
このケプストラムベクトルｃ*tの時系列と同じ処理を経
て生成されたケプストラムベクトルｃ*rである。

【００３１】次いで、前記マッチング処理部８は、前記
標準パターン記憶部７に記憶された標準パターン、つま
りケプストラムベクトルｃ*rの時系列と、前記雑音化処
理部６による処理を経た音響特徴量、つまりケプストラ
ムベクトルｃ*tの時系列とでマッチング処理を実行する
構造のものである。このマッチング処理部８でのマッチ
ング処理は、連続ＤＰ法を用いたマッチング処理であ
る。この際、距離尺度は、群遅延スペクトル距離尺度等
の距離尺度が用いられる。

【００３２】次いで、前記認識結果出力部９は、前記マ
ッチング処理部８での認識結果を出力する構造であり、
例えば、該当する単語等の有無を信号や表示として出力
する等の構造となっている。

【００３３】このような構成において、音声入力部１に
入力された音響信号はＡ／Ｄ変換部２でデジタル変換さ
れ、標本化、量子化及び符号化される。そして、音響前
処理部３で高域強調が施され、スペクトル傾斜が平坦化
される。これにより、音響信号のダイナミックレンジが
圧縮され、実効的なＳＮＲ（signal-to-quantizationno
ise ratio：信号対量子化雑音比）が高められる。

【００３４】次いで、高域強調された音響信号は、音響
分析部４によるＬＰＣケプストラム分析によりその特徴
量がケプストラムベクトルｃt として抽出される。これ
と同時に、音声検出部５では、式２により、高域強調さ
れた音響信号の音声らしさの程度ｖが各フレームの平均
パワーｐに基づき求められる。

【００３５】そして、こうして求められたケプストラム
ベクトルｃt 及び音声らしさの程度ｖは雑音化処理部６
に送られ、この雑音化処理部６での式３の演算処理によ
り白色雑音化処理されたケプストラムベクトルｃ*tが求
められる。ここで、この雑音化処理部６で処理されたケ
プストラムベクトルｃ*tは、音声検出部５で求められた
音声らしさの程度が低ければ低いほど強く白色雑音化さ
れる。つまり、音声らしさの程度が低いということは、
その区間が無音であるか音声レベルが低いことを意味し
ているため、無音区間や音声レベルが低い区間が白色雑
音化され、その区間のスペクトルが平坦にされる。

【００３６】次いで、マッチング処理部８では、雑音化
処理部６での処理を経たケプストラムベクトルｃ*tの時
系列と、標準パターン記憶部７に格納されている標準パ
ターンであるケプストラムベクトルｃ*rの時系列とがマ
ッチング処理される。この時のマッチング処理は、ワー
ドスポッティングである連続ＤＰ法によりなされる。し
たがって、音声の端点フリーの音声認識がなされる。そ
して、マッチング対象であるケプストラムベクトルｃ*t
の時系列とケプストラムベクトルｃ*rの時系列とは、共
に、音声らしさの程度が低い区間、すなわち、無音であ
るか音声レベルが低い区間が白色雑音化され、その区間
のスペクトルが平滑化されている。したがって、周囲の
騒音による影響がない音声認識がなされ、音声認識の精
度の向上が図られる。したがって、マッチング処理部８
の処理結果を出力する認識結果出力部９より、高精度な
認識結果が出力される。

【００３７】ここで、音響分析部４の変形例について説
明する。本実施例では、入力された音響信号の特徴量を
求める手法としてＬＰＣケプストラム分析を実行する音
響分析部４を設けたが、音響信号の特徴量を求める手法
としてはこれに限らず、例えば、ケプストラム分析やメ
ルケプストラム分析、スペクトル傾斜補正を施したスペ
クトル分析等の手法を用いる音響分析部としても良い。
要は、雑音化処理部６での白色雑音化の処理を容易にす
ることができる特徴量を求めることができる構造であれ
ば、その種類を問わない。より詳細には、メルケプスト
ラム係数としてのメルケプストラムベクトルは、ケプス
トラムベクトルと同様に、０ベクトルが白色雑音を表現
する。また、スペクトル傾斜補正を施したスペクトル分
析は、ＦＦＴやバンドパスフィルタバンクによって求め
られたスペクトルに対し、対数変換や最小２乗近似直線
を減じる補正（指数変換）等のスペクトル傾斜補正をす
ることにより実行される。この結果、補正後のスペクト
ルベクトルは、ケプストラムベクトルと同様に、０ベク
トルが白色雑音を表現する。したがって、標準パターン
記憶部に格納する標準パターンをメルケプストラム分析
を施した標準パターンとしたり、スペクトル傾斜補正を
施したスペクトル分析を施した標準パターンとするだけ
で、本実施例の装置にそのまま適用できる。

【００３８】次いで、音声検出部５の変形例について説
明する。まず、音声検出部５では、音響信号中の音声ら
しさの程度を求めるための基礎データとして各フレーム
の平均パワーＰを求めるが、このフレーム平均パワーｐ
はＬＰＣ分析により求められるため、ＬＰＣケプストラ
ム分析を行う音響分析部４の構造を一部共用して音声検
出部５を構成しても良い。音声検出部５の他の変形例と
しては、音声らしさの程度を判定する基礎データとして
音声パワーを用いず、ゼロ交差数、ピッチ周波数、フォ
ルマントの先鋭度、各音素パターンとの距離等を用いて
も良い。

【００３９】次いで、マッチング処理部８の変形例につ
いて説明する。本実施例では、連続ＤＰ法を実行する構
造のマッチング処理部８としたが、状態遷移モデル等を
用いる他の方式によるマッチングを実行する構造として
も良く、また、これらのようなワードスポッティングに
限らず、孤立単語音声認識を実行する構造としても良
い。

【００４０】

【発明の効果】請求項１記載の発明は、入力された音響
信号に対してフレーム毎に音響分析を行うことでその音
響信号の音響特徴量を求める音響分析部と、入力された
音響信号に対してフレーム毎に音声らしさの程度を求め
る音声検出部と、この音声検出部により音声らしさの程
度が低いと判定された区間の音響特徴量を白色雑音化す
る雑音化処理部と、音声の標準パターンを記憶する標準
パターン記憶部と、この標準パターン記憶部に記憶され
た標準パターンの時系列と雑音化処理部による処理を経
た音響特徴量の時系列とのマッチングを行うマッチング
処理部とを設けたので、入力された音響信号中に音声ら
しさの程度が低いと判定された区間がある場合、つま
り、無音であるか音声レベルが低い区間がある場合に
は、音響特徴量を雑音化処理部で白色雑音化して音響特
徴量を表現するスペクトルを平滑化し、これにより、そ
の区間に対する周囲の騒音による影響を除去し、周囲の
騒音の特徴量が音響特徴量に混ざることによる誤認識を
防止することができ、したがって、音声の認識精度を向
上させることができる等の効果を有する。

【００４１】請求項２記載の発明は、請求項１記載の発
明において、音響分析部では音響特徴量としてケプスト
ラム係数をフレーム毎に求めるケプストラム分析を行
い、雑音化処理部では音声検出部で求められた音声らし
さの程度が低いフレームのケプストラム係数を小さく設
定することで音響特徴量を白色雑音化し、請求項３記載
の発明は、請求項１記載の発明において、音響分析部で
は音響特徴量としてメルケプストラム係数をフレーム毎
に求めるメルケプストラム分析を行い、雑音化処理部で
は音声検出部で求められた音声らしさの程度が低いフレ
ームのメルケプストラム係数を小さく設定することで音
響特徴量を白色雑音化し、請求項４記載の発明は、請求
項１記載の発明において、音響分析部では音響特徴量と
してスペクトル傾斜を除去する補正が行われた短時間ス
ペクトルをフレーム毎に求めるスペクトル分析を行い、
雑音化処理部では音声検出部で求められた音声らしさの
程度が低いフレームの短時間スペクトルを小さく設定す
ることで音響特徴量を白色雑音化するように構成したの
で、安定した音響特徴量に基づく正確な音声認識を行う
ことができ、したがって、音声の認識精度をより向上さ
せることができ、また、音響特徴量を容易に白色雑音化
することができ、したがって、白色雑音化するに際して
の演算処理の簡略化を図ることができる等の効果を有す
る。

【００４２】請求項５記載の発明は、請求項１記載の発
明において、音声検出部では入力された音響信号のパワ
ーが小さいほど音声らしさの程度が低いと判断し、雑音
化処理部ではその音声検出部で音声らしさの程度が低い
と判断される程音響特徴量を強く白色雑音化するように
構成したので、音声らしさの程度を判断するパラメータ
として音響信号のパワーを用いることで容易かつ正確に
音声らしさの程度の判断を実現させることができ、した
がって、演算処理の簡略化を図ることができ、また、音
響信号は、そのパワーが小さいほど強く白色雑音化され
るため、より精度が高い音声認識の実現に寄与すること
ができる等の効果を有する。

【００４３】請求項６記載の発明は、請求項１記載の発
明において、標準パターン記憶部に記憶された標準パタ
ーンは、雑音化処理部での音響特徴量の白色雑音化と同
等の処理を経て生成された標準パターンであるので、標
準パターンの生成が容易であり、また、現実に入力され
る音響信号の特徴量と極めて近似する標準パターンを用
意することができ、したがって、より精度の高い音声認
識の実現に寄与することができる等の効果を有する。

【００４４】請求項７記載の発明は、請求項１記載の発
明において、マッチング処理部でのマッチング処理は、
ワードスポッティング処理であるので、標準パターンと
して生成された単語や音節等が含まれたある言葉が発声
された場合、その言葉に含まれるその単語等を抽出して
認識することができ、この際、入力音声がない場合に誤
った認識結果が生ずるのを防止することができる等の効
果を有する。

【図面の簡単な説明】

【図１】本発明の一実施例を示すブロック図である。

【符号の説明】

４音響分析部５音声検出部６雑音化処理部７標準パターン記憶部８マッチング処理部

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/10 G10L 21/02 G10L 15/20

Claims

(57)【特許請求の範囲】

【請求項１】入力された音響信号に対してフレーム毎
に音響分析を行うことでその音響信号の音響特徴量を求
める音響分析部と、入力された音響信号に対してフレー
ム毎に音声らしさの程度を求める音声検出部と、この音
声検出部により音声らしさの程度が低いと判定された区
間の音響特徴量を白色雑音化する雑音化処理部と、音声
の標準パターンを記憶する標準パターン記憶部と、この
標準パターン記憶部に記憶された標準パターンの時系列
と前記雑音化処理部による処理を経た音響特徴量の時系
列とのマッチングを行うマッチング処理部とを有するこ
とを特徴とする音声認識装置。
【請求項２】音響分析部では音響特徴量としてケプス
トラム係数をフレーム毎に求めるケプストラム分析を行
い、雑音化処理部では音声検出部で求められた音声らし
さの程度が低いフレームのケプストラム係数を小さく設
定することで音響特徴量を白色雑音化することを特徴と
する請求項１記載の音声認識装置。
【請求項３】音響分析部では音響特徴量としてメルケ
プストラム係数をフレーム毎に求めるメルケプストラム
分析を行い、雑音化処理部では音声検出部で求められた
音声らしさの程度が低いフレームのメルケプストラム係
数を小さく設定することで音響特徴量を白色雑音化する
ことを特徴とする請求項１記載の音声認識装置。
【請求項４】音響分析部では音響特徴量としてスペク
トル傾斜を除去する補正が行われた短時間スペクトルを
フレーム毎に求めるスペクトル分析を行い、雑音化処理
部では音声検出部で求められた音声らしさの程度が低い
フレームの短時間スペクトルを小さく設定することで音
響特徴量を白色雑音化することを特徴とする請求項１記
載の音声認識装置。
【請求項５】音声検出部では入力された音響信号のパ
ワーが小さいほど音声らしさの程度が低いと判断し、雑
音化処理部ではその音声検出部で音声らしさの程度が低
いと判断される程音響特徴量を強く白色雑音化すること
を特徴とする請求項１記載の音声認識装置。
【請求項６】標準パターン記憶部に記憶された標準パ
ターンは、雑音化処理部での音響特徴量の白色雑音化と
同等の処理を経て生成された標準パターンであることを
特徴とする請求項１記載の音声認識装置。
【請求項７】マッチング処理部でのマッチング処理
は、ワードスポッティング処理であることを特徴とする
請求項１記載の音声認識装置。