JP2003271190A

JP2003271190A - 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置

Info

Publication number: JP2003271190A
Application number: JP2002071891A
Authority: JP
Inventors: Yoshihisa Nakato; 良久中藤; Keiko Morii; 景子森井
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2002-03-15
Filing date: 2002-03-15
Publication date: 2003-09-25

Abstract

(57)【要約】【課題】伝送特性を有する雑音を性能良く除去する雑
音除去方法、雑音除去装置及び、それを用いた音声認識
装置を提供すること。【解決手段】第１の入力信号のスペクトルを求めるス
テップ（Ｓ３０２）と、スペクトルを対数変換して対数
スペクトルを求めるステップ（Ｓ３０３）と、対数スペ
クトルの特定区間についての平均値である平均対数スペ
クトルを求めるステップ（Ｓ３０４）と、平均対数スペ
クトルを指数変換して平均スペクトルを求めるステップ
（Ｓ３０５）と、平均スペクトルで第２の入力信号のス
ペクトルを除算して正規化スペクトルを求めるステップ
（Ｓ３１０、Ｓ３１１）とを有することによって、伝送
歪を含む長時間平均された対数スペクトルで入力信号に
含まれる伝送歪を削除することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、マイク特性や回線
の伝送特性などの雑音が畳み込まれた信号から雑音を除
去する雑音除去方法、雑音除去装置及び、それを用いた
音声認識装置に関する。

【０００２】

【従来の技術】従来、この雑音除去方法としては、例え
ば、特開昭６０−２５４１００号公報に記載されている
ようなものがあった。図１６は、前記公報に記載された
従来の雑音除去装置のブロック図を示す。

【０００３】図１６において、従来の雑音除去装置は、
入力端子１００と、周波数分析部２００と、対数変換部
３００と、スペクトル変換部４００と、音声区間決定部
５００と、音声の時間軸の正規化を行う再サンプル部と
を備えている。

【０００４】また、音声区間決定部５００は、対数変換
済データ部５０１、ノイズパターン検出部５０２，減算
回路５０３、乗算回路５０４、加算回路５０５、除算回
路５０６、Ｐパラメータメモリ５０７、第１比較器５０
８、ＦＬＡＧ５０９、第１スムージング５１０、第２ス
ムージング５１１、ブロック化５１２、第２比較器５１
３、ブロック決定５１４、音声区間決定５１５、ＭＡＸ
ＢＬＫテーブル５１６とから構成されている。

【０００５】

【発明が解決しようとする課題】しかしながら、このよ
うな従来の構成では、音声を周波数分析し、さらに対数
変換されたスペクトルから、ノイズのスペクトルを差し
引き、このスペクトルから得られるパワーから音声区間
を検出することが主たる目的であり、直接ノイズを差し
引いたスペクトルを音声認識などに用いることは明示さ
れていない。また従来例では、実環境で音声に畳み込ま
れた音声が伝送路を通過した場合の伝送歪みなどを、音
声の長時間スペクトルとともに除去することで、音響系
の歪みのないスペクトルを直接得て、このスペクトルを
音声認識などに直接用いることによる性能改善について
は全く明示されていない。

【０００６】本発明は、このような従来の課題を解決す
るものであり、伝送特性を有する雑音を性能良く除去す
る雑音除去方法、雑音除去装置及び、それを用いた音声
認識装置を提供することを目的とする。

【０００７】

【課題を解決するための手段】前記従来の課題を解決す
る本発明に係る雑音除去方法は、第１の入力信号のスペ
クトルを求めるステップと、スペクトルを対数変換して
対数スペクトルを求めるステップと、対数スペクトルの
特定区間についての平均値である平均対数スペクトルを
求めるステップと、平均対数スペクトルを指数変換して
平均スペクトルを求めるステップと、平均スペクトルで
第２の入力信号のスペクトルを除算して正規化スペクト
ルを求めるステップとを有している。

【０００８】これによって、伝送歪を含む長時間平均さ
れた対数スペクトルで入力信号に含まれる伝送歪を削除
することができる。

【０００９】また、本発明に係る雑音除去方法は、第１
の入力信号のスペクトルを求めるステップと、スペクト
ルの特定区間についての相乗平均値である相乗平均スペ
クトルを求めるステップと、相乗平均スペクトルで第２
の入力信号のスペクトルを除算して正規化スペクトルを
求めるステップとを有している。

【００１０】これによって、伝送歪を含む長時間相乗平
均された相乗平均スペクトルで入力信号に含まれる伝送
歪を削除することができる。

【００１１】また本発明に係る雑音除去方法の特定区間
が、第１の入力信号の入力区間すべてである。

【００１２】これによって、音声と周囲雑音を区別する
ことなくスペクトルを集めることができ、第１の入力信
号の中の音声部分が少ない場合でも、正確に入力信号に
含まれる伝送歪を削除することができる。

【００１３】また、本発明に係る雑音除去方法の特定区
間が、第１の入力信号に含まれる音声信号が存在する区
間のみである。

【００１４】これによって、音声に畳み込まれた伝送歪
みのみを選択的にスペクトルを集めることができ、周囲
騒音などの加法性雑音の影響を受けにくいため、正確に
入力信号に含まれる伝送歪を削除することができる。

【００１５】また、本発明に係る雑音除去方法の特定区
間が、第１の入力信号に含まれる音声信号が存在する区
間のうち、特定の音韻区間とパワーの大きい区間との少
なくともいずれか一方である。

【００１６】これによって、音声の中でも母音部分や特
に音の大きい部分は周囲騒音などの加法性雑音の影響が
少ないため、音声に畳み込まれた伝送歪みを選択的に集
めることができ、正確に入力信号に含まれる伝送歪を削
除することができる。

【００１７】また、本発明に係る雑音除去方法は、第１
の入力信号のスペクトルを求めるステップと、スペクト
ルの第１の特定区間の平均値である第１平均スペクトル
を求めるステップと、スペクトルを対数変換して対数ス
ペクトルを求めるステップと、対数スペクトルの第２の
特定区間の平均値である平均対数スペクトルを求めるス
テップと、平均対数スペクトルを指数変換し第２平均ス
ペクトルを求めるステップと、第２の入力信号のスペク
トルを求めるステップと、スペクトルから前記第１平均
スペクトルを減算するステップと、減算の結果を第２平
均スペクトルで除算して正規化スペクトルを求めるステ
ップとを有している。

【００１８】これによって、周囲騒音を含む長時間平均
されたスペクトルと伝送歪を含む長時間平均された対数
スペクトルとで、同時に入力信号に含まれる雑音を削除
することができる。

【００１９】また、本発明に係る雑音除去方法は、第１
の入力信号のスペクトルを求めるステップと、スペクト
ルの第１の特定区間の平均値である平均スペクトルを求
めるステップと、スペクトルの第２の特定区間の相乗平
均値である相乗平均スペクトルを求めるステップと、第
２の入力信号のスペクトルを求めるステップと、スペク
トルから平均スペクトルを減算するステップと、減算結
果を相乗平均スペクトルで除算して正規化スペクトルを
求めるステップとを有している。

【００２０】これによって、周囲騒音を含む長時間平均
されたスペクトルと伝送歪を含む長時間相乗平均された
相乗平均スペクトルとで、同時に入力信号に含まれる雑
音を削除することができる。

【００２１】また、本発明に係る雑音除去方法の第１の
特定区間及び第２の特定区間の少なくともいずれか一方
が、第１の入力信号の入力区間すべてである。

【００２２】これによって、音声と周囲雑音を区別する
ことなくスペクトルを集めることができ、第１の入力信
号の中の音声部分が少ない場合でも、正確に入力信号に
含まれる伝送歪を削除することができる。

【００２３】また、本発明に係る雑音除去方法の第１の
特定区間及び第２の特定区間の少なくともいずれか一方
が、第１の入力信号に含まれる音声信号が存在する区間
のみである。

【００２４】これによって、音声に畳み込まれた伝送歪
みのみを選択的にスペクトルを集めることができ、周囲
騒音などの加法性雑音の影響を受けにくいため、正確に
入力信号に含まれる伝送歪を削除することができる。

【００２５】また、本発明に係る雑音除去方法の第１の
特定区間及び第２の特定区間の少なくともいずれか一方
が、第１の入力信号に含まれる音声信号が存在する区間
のうち、特定の音韻区間とパワーの大きい区間との少な
くともいずれか一方である。

【００２６】これによって、音声の中でも母音部分や特
に音の大きい部分は周囲騒音などの加法性雑音の影響が
少ないため、音声に畳み込まれた伝送歪みを選択的に集
めることができ、正確に入力信号に含まれる伝送歪を削
除することができる。

【００２７】また、本発明に係る雑音除去方法の第１の
特定区間及び第２の特定区間の少なくともいずれか一方
が、第１の入力信号に含まれる音声信号が存在しない区
間のみである。

【００２８】これによって、入力信号に含まれる周囲騒
音などの加法性雑音を正確に削除することができる。

【００２９】また、本発明に係る雑音除去方法の第１平
均スペクトルに第１の定数を乗算し、第２平均スペクト
ルに第２の定数を乗算し、第１の定数と第２の定数の少
なくともいずれか一方が、スペクトルの周波数軸上での
成分ごとに異なった値である。

【００３０】これによって、周波数毎にＳＮＲに応じて
細かく乗算の度合いを制御することで、正確に入力信号
に含まれる伝送歪を削除することができる。

【００３１】また、本発明に係る雑音除去方法の平均ス
ペクトルに第１の定数を乗算し、相乗平均スペクトルに
第２の定数を乗算し、第１の定数と第２の定数の少なく
ともいずれか一方が、スペクトルの周波数軸上での成分
ごとに異なった値である。

【００３２】これによって、周波数毎にＳＮＲに応じて
細かく乗算の度合いを制御することで、正確に入力信号
に含まれる伝送歪を削除することができる。

【００３３】また、本発明に係る雑音除去方法は、理想
伝送経路からの第１の入力信号のスペクトルである理想
スペクトルを求めるステップと、理想スペクトルを対数
変換して理想対数スペクトルを求めるステップと、理想
対数スペクトルの平均値である理想平均対数スペクトル
を求めるステップと、第２の入力信号のスペクトルを求
めるステップと、スペクトルを対数変換して対数スペク
トルを求めるステップと、対数スペクトルの平均値であ
る平均対数スペクトルを求めるステップと、平均対数ス
ペクトルから理想平均対数スペクトルを減算して差分対
数スペクトルを求めるステップと、第３の入力信号の対
数スペクトルを求めるステップと、第３の入力信号の対
数スペクトルから差分対数スペクトルを減算して正規化
対数スペクトルを求めるステップとを有する。

【００３４】これによって、伝送歪を含まない音声のみ
の長時間平均されたスペクトルを、伝送歪と音声の両方
を含むスペクトルから削除することで伝送歪のみのスペ
クトルが求まるので、その後の入力信号から伝送歪を精
度良く削除することができる。

【００３５】また、本発明に係る雑音除去方法は、理想
伝送経路からの第１の入力信号のスペクトルである理想
スペクトルを求めるステップと、理想スペクトルを対数
変換して理想対数スペクトルを求めるステップと、理想
対数スペクトルの平均値である理想平均対数スペクトル
を求めるステップと、第２の入力信号のスペクトルを求
めるステップと、スペクトルを対数変換して対数スペク
トルを求めるステップと、対数スペクトルの平均値であ
る平均対数スペクトルを求めるステップと、平均対数ス
ペクトルから理想平均対数スペクトルを減算して差分対
数スペクトルを求めるステップと、差分対数スペクトル
を指数変換して差分スペクトルを求めるステップと、第
３の入力信号のスペクトルを求めるステップと、差分ス
ペクトルで第３の入力信号のスペクトルを除算して正規
化スペクトルを求めるステップとを有している。

【００３６】これによって、伝送歪を含まない音声のみ
の長時間平均されたスペクトルを、伝送歪と音声の両方
を含むスペクトルから削除することで伝送歪のみのスペ
クトルが求まる。また、周囲騒音を含む長時間平均され
たスペクトルも用いて、その後の入力信号から伝送歪と
周囲騒音を同時に精度良く削除することができる。

【００３７】また、本発明に係る雑音除去方法は、理想
伝送経路からの第１の入力信号のスペクトルである理想
スペクトルを求めるステップと、理想スペクトルの相乗
平均値である理想相乗平均スペクトルを求めるステップ
と、第２の入力信号のスペクトルを求めるステップと、
スペクトルの相乗平均値である相乗平均スペクトルを求
めるステップと、相乗平均スペクトルから理想相乗平均
スペクトルを除算して差分相乗平均スペクトルを求める
ステップと、第３の入力信号のスペクトルを求めるステ
ップと、第３の入力信号のスペクトルを差分相乗平均ス
ペクトルで除算して正規化スペクトルを求めるステップ
とを有している。

【００３８】これによって、伝送歪を含まない音声のみ
の長時間平均されたスペクトルを、伝送歪と音声の両方
を含むスペクトルから削除することで伝送歪のみのスペ
クトルが求まる。また、周囲騒音を含む長時間平均され
たスペクトルも用いて、その後の入力信号から伝送歪と
周囲騒音を同時に精度良く削除することができる。

【００３９】また、本発明に係る雑音除去方法の除算
が、逆数変換と乗算により処理される。

【００４０】これによって、逆数変換までの時間のかか
る処理を事前に済ませておくことができ、その後の入力
信号からの雑音除去が高速に行うことができる。

【００４１】また、本発明に係る雑音除去方法の対数変
換が一般化対数変換であり、かつ指数変換が一般化指数
変換である。

【００４２】これによって、音声に含まれる周囲騒音な
どの加法性雑音と、音声に畳み込まれた伝送歪みとを、
同時に削除することができる。

【００４３】また、本発明に係る雑音除去方法の対数変
換が一般化対数変換である。

【００４４】これによって、音声に含まれる周囲騒音な
どの加法性雑音と、音声に畳み込まれた伝送歪みとを、
同時に削除することができる。

【００４５】また、本発明に係る雑音除去方法のスペク
トルがフーリエ分析により得られる振幅スペクトルであ
る。

【００４６】これによって、正確に入力信号に含まれる
伝送歪を削除することができる。

【００４７】また、本発明に係る雑音除去方法のスペク
トルがフーリエ分析により得られるパワースペクトルで
ある。

【００４８】これによって、正確に入力信号に含まれる
伝送歪を削除することができる。

【００４９】また、本発明に係る雑音除去方法のスペク
トルが聴覚フィルタやメルフィルタに基づくフィルタバ
ンク分析により得られる振幅スペクトルである。

【００５０】これによって、少ない処理量で入力信号に
含まれる伝送歪を削除することができる。

【００５１】また、本発明に係る雑音除去方法のスペク
トルが聴覚フィルタやメルフィルタに基づくフィルタバ
ンク分析により得られるパワースペクトルである。

【００５２】これによって、少ない処理量で入力信号に
含まれる伝送歪を削除することができる。

【００５３】また、本発明に係る雑音除去装置は、入力
信号のスペクトルを求めるスペクトル算出部と、スペク
トルから対数スペクトルを求める対数変換部と、対数ス
ペクトルを一時的に蓄積する一時記憶部と、一時記憶部
内の対数スペクトルから特定区間のスペクトルを抽出す
る区間判定部と、抽出された全対数スペクトルの平均値
である平均対数スペクトルを求める平均化処理部と、平
均対数スペクトルを指数変換して平均スペクトルを求め
る指数変換部と、平均スペクトルを記憶する記憶部と、
記憶部内の第１の入力信号から求めた平均スペクトル
で、第２の入力信号のスペクトル算出部からの出力を除
算して正規化スペクトルを求める除算器とを有してい
る。

【００５４】これによって、伝送歪を含む長時間平均さ
れた対数スペクトルで入力信号に含まれる伝送歪を削除
することができる。

【００５５】また、本発明に係る雑音除去装置は、入力
信号のスペクトルを求めるスペクトル算出部と、スペク
トルを一時的に蓄積する一時記憶部と、一時記憶部内の
スペクトルから特定区間のスペクトルを抽出する区間判
定部と、抽出された全スペクトルの相乗平均値である相
乗平均スペクトルを求める相乗平均化処理部と、相乗平
均スペクトルを記憶する記憶部と、記憶部内の第１の入
力信号から求めた相乗平均スペクトルで、第２の入力信
号のスペクトル算出部からの出力を除算して正規化スペ
クトルを求める除算器とを有している。

【００５６】これによって、伝送歪を含む長時間相乗平
均された相乗平均スペクトルで入力信号に含まれる伝送
歪を削除することができる。

【００５７】また、本発明に係る雑音除去装置は、入力
信号のスペクトルを求めるスペクトル算出部と、スペク
トルから対数スペクトルを求める対数変換部と、スペク
トルと対数スペクトルをスペクトルデータとして一時的
に蓄積する一時記憶部と、特定区間を指定する区間指定
部と、特定区間の前記スペクトルデータを一時記憶部内
から抽出する区間判定部と、抽出された全スペクトルデ
ータの平均値を求める平均化処理部と、平均化処理部か
らの出力である平均対数スペクトルを指数変換する指数
変換部と、スペクトルの平均化処理の出力である第１平
均スペクトルと指数変換部の出力である第２平均スペク
トルとを記憶する記憶部と、記憶部内の第１の入力信号
から求めた第１平均スペクトルを、第２の入力信号のス
ペクトル算出部の出力から減算する減算器と、記憶部内
の第１の入力信号から求めた第２平均スペクトルで、減
算器の出力を除算して正規化スペクトルを求める除算器
とを有している。

【００５８】これによって、周囲騒音を含む長時間平均
されたスペクトルと伝送歪を含む長時間平均されたスペ
クトルとで、同時に入力信号に含まれる雑音を削除する
ことができる。

【００５９】また、本発明に係る雑音除去装置は、入力
信号のスペクトルを求めるスペクトル算出部と、スペク
トルを一時的に蓄積する一時記憶部と、特定区間を指定
する区間指定部と、特定区間のスペクトルを一時記憶部
内から抽出する区間判定部と、抽出された全スペクトル
の平均値である平均スペクトルを求める平均化処理部
と、抽出された全スペクトルの相乗平均値である相乗平
均スペクトルを求める相乗平均処理部と、平均化処理部
から求めた平均スペクトルと、相乗平均処理部から求め
た相乗平均スペクトルとを記憶する記憶部と、記憶部内
の第１の入力信号から求めた平均スペクトルを、第２の
入力信号のスペクトル算出部の出力から減算する減算器
と、記憶部内の第１の入力信号から求めた相乗平均スペ
クトルで、減算器の出力を除算して正規化スペクトルを
求める除算器とを有している。

【００６０】これによって、周囲騒音を含む長時間平均
されたスペクトルと伝送歪を含む長時間相乗平均された
相乗平均スペクトルとで、同時に入力信号に含まれる雑
音を削除することができる。

【００６１】また、本発明に係る雑音除去装置は、入力
信号のスペクトルを求めるスペクトル算出部と、スペク
トルから対数スペクトルを求める対数変換部と、対数ス
ペクトルを一時的に蓄積する一時記憶部と、一時記憶部
内の全対数スペクトルの平均値である平均対数スペクト
ルを求める平均化処理部と、平均対数スペクトルとあら
かじめ求めた理想平均対数スペクトルとを記憶する記憶
部と、減算器とを有し、理想平均対数スペクトルを、第
１の入力信号から求めた平均対数スペクトルから減算器
で減算し、減算結果である差分対数スペクトルを第２の
入力信号から求めた対数スペクトルから減算器で減算し
て正規化スペクトルを求める。

【００６２】これによって、伝送歪を含まない音声のみ
の長時間平均されたスペクトルを、伝送歪と音声の両方
を含むスペクトルから削除することで伝送歪のみのスペ
クトルが求まるので、その後の入力信号から伝送歪を精
度良く削除することができる。

【００６３】また、本発明に係る雑音除去装置は、入力
信号のスペクトルを求めるスペクトル算出部と、スペク
トルから対数スペクトルを求める対数変換部と、対数ス
ペクトルを一時的に蓄積する一時記憶部と、一時記憶部
内の全対数スペクトルの平均値である平均対数スペクト
ルを求める平均化処理部と、平均対数スペクトルとあら
かじめ求めた理想平均対数スペクトルとを記憶する記憶
部と、理想平均対数スペクトルを、第１の入力信号より
求めた平均対数スペクトルから減算し差分対数スペクト
ルを求める減算器と、差分対数スペクトルを指数変換
し、差分スペクトルを求める指数変換部と、第２の入力
信号のスペクトルを差分スペクトルで除算して正規化ス
ペクトルを求める除算器とを有する。

【００６４】これによって、伝送歪を含まない音声のみ
の長時間平均されたスペクトルを、伝送歪と音声の両方
を含むスペクトルから削除することで伝送歪のみのスペ
クトルが求まるので、その後の入力信号から伝送歪を精
度良く削除することができる。

【００６５】また、本発明に係る雑音除去装置は、入力
信号のスペクトルを求めるスペクトル算出部と、スペク
トルを一時的に蓄積する一時記憶部と、一時記憶部内の
全スペクトルの相乗平均である相乗平均スペクトルを求
める相乗平均処理部と、相乗平均スペクトルとあらかじ
め求めた理想相乗平均スペクトルとを記憶する記憶部
と、除算器を有し、理想相乗平均スペクトルで、記憶部
内の第１の入力信号より求めた相乗平均スペクトルを除
算し、除算結果である差分相乗平均スペクトルで、第２
の入力信号のスペクトルを除算して正規化スペクトルを
求める。

【００６６】これによって、伝送歪を含まない音声のみ
の長時間平均されたスペクトルを、伝送歪と音声の両方
を含むスペクトルから削除することで伝送歪のみのスペ
クトルが求まるので、その後の入力信号から伝送歪を精
度良く削除することができる。

【００６７】また、本発明に係る音声認識装置は、本発
明の雑音除去装置と、雑音除去装置の出力信号の特徴量
を抽出する特徴量抽出部と、特徴量と標準モデルとの類
似度を算出する類似度算出部と、類似度で認識結果を判
定する判定処理部とを有している。

【００６８】これによって、雑音が削除された音声の認
識処理を行うため、音声認識性能を高くすることができ
る。

【００６９】

【発明の実施の形態】以下、本発明を図面と共に詳細に
説明する。

【００７０】（実施の形態１）図１は本発明の第１の実
施の形態による音声認識装置の構成を示すブロック図で
あり、マイクロフォン１０１、雑音除去装置１０２、特
徴量抽出部１０３、類似度算出部１０４、標準モデル辞
書１０５、判定処理部１０６で構成されている。

【００７１】以上のように構成された音声認識装置につ
いて、以下にその動作を説明する。

【００７２】マイク１０１から取り込まれた音声が雑音
除去装置１０２に入力され、ここで１０ｍｓ程度の周期
でフレーム分析され、後述する雑音除去方法により、周
囲環境の雑音や、マイクや伝送路が有する伝送特性雑音
を除去される。その後、特徴量抽出部１０３により音声
認識で使用される特徴量、たとえばケプストラム係数が
抽出される。この抽出は対数的な変換処理により対数ス
ペクトルを求めておいてから、逆フーリエ変換や逆コサ
イン変換をすることにより算出できる。そして、あらか
じめ標準モデル辞書１０５に登録されている複数の単語
の特徴量との類似度が類似度算出部１０４で算出され
る。その類似度がある閾値よりも大きいか否かを判定処
理部１０６で判定し、大きければその単語を認識結果と
して出力する。

【００７３】標準モデルとしては、複数の認識対象語彙
毎の特徴量の時系列を確率的な遷移として表現する隠れ
マルコフモデル（ＨＭＭ）と呼ばれる方法がある。ＨＭ
Ｍとは、あらかじめ個人差による音韻や単語の特徴量の
時系列をＨＭＭモデルに学習させておき、入力音声がモ
デルに確率値としてどのくらい近いかを捉えて認識する
方法である。また、標準モデルとしては、複数の認識対
象語彙毎の特徴量の時系列の中の代表的な特徴量の時系
列をモデルとしても良いし、さらに特徴量の時系列を時
間的あるいは周波数的に正規化（伸縮）することで得ら
れる特徴量の正規化時系列を用いてもよい。例えば、時
間軸上で任意の長さに正規化する方法としＤＰマッチン
グ（動的計画法）があり、あらかじめ決定した対応付け
の規則に従って、時間的特徴量の時系列を正規化するこ
とが可能である。

【００７４】本実施形態では、このようにいずれの場合
の標準モデルを使用することができる。ただし、いずれ
の標準モデルを作成する場合でも、標準モデルを作成す
るための多量の音声データをあらかじめ用意しておき、
入力音声の対数スペクトルから環境学習データから作成
した平均対数スペクトルを減算したのと同様な処理を施
す必要がある。具体的には、標準モデルを作成するため
の多量の音声データ（以降、標準学習データと呼ぶ）を
フーリエ変換あるいはフィルタバンク分析することによ
りスペクトルを算出し、さらにスペクトルから対数的な
変換処理により対数スペクトルを求め、標準学習データ
から得られる複数の対数スペクトルを用いて、その平均
値である平均対数スペクトルを求め、標準学習データか
ら得られるすべての対数スペクトルからこの平均対数ス
ペクトル減算することで正規化対数スペクトルを求め、
さらに正規化対数スペクトルから音声認識に用いるケプ
ストラム係数などの特徴量を算出し、この特徴量の時系
列を用いて標準モデルを作成する。

【００７５】この雑音除去装置のブロック図を図２に示
す。

【００７６】図２において、スペクトル算出部２０１
は、入力音声をフーリエ変換あるいはフィルタバンク分
析することにより周波数成分、すなわちスペクトルを算
出するためのものである。対数変換部２０２は、スペク
トル算出部２０１で求めたスペクトルを対数的な変換処
理により対数スペクトルを求めるものである。一時記憶
部２０３はスペクトル算出部２０１あるいは対数変換部
２０２からの出力を一時的に蓄積しておくためのもので
ある。区間指定部２０４は、一時記憶部２０３から抽出
するスペクトルの区間と、対数スペクトルの区間をそれ
ぞれ指定するものである。区間判定部２０５は対象とす
る音声区間を特定し、一時記憶部２０３からその区間の
スペクトルあるいは対数スペクトルを抽出するものであ
る。平均化処理部２０６は区間判定部２０５で抽出した
全スペクトルあるいは全対数スペクトルの平均値である
平均スペクトルあるいは平均対数スペクトルを求めるも
のである。指数・逆数変換部２０７は平均化処理部２０
６で求めた平均対数スペクトルを指数変換し、さらに逆
数を計算し、対数スペクトルからの逆平均スペクトルを
求めるものである。記憶部２０８は平均スペクトル及
び、逆平均スペクトルを記憶しておくためのものであ
る。減算器２０９はスペクトル算出部２０１から平均ス
ペクトルを減算するものである。乗算器２１０はスペク
トル算出部２０１で算出したスペクトルと記憶部２０８
に保持してある逆平均スペクトルを乗算するものであ
る。

【００７７】以上のように構成された雑音除去装置１０
２について、図３を用いて以下にその動作、作用を説明
する。

【００７８】図３は雑音除去方法の処理の流れを示す流
れ図である。

【００７９】まず、入力されたディジタル音声（以下、
「入力音声」と記す。）があらかじめ音声認識を行う環
境で収録した音（以下、「環境学習データ」と記す。）
か否かの判定を行う（ステップＳ３０１）。環境学習デ
ータは、音声認識の対象となる音声が発声される時期と
は無関係なデータを用いてもかまわないし、発声の直前
のデータを用いことや、音声認識の対象となる音声その
ものを用いてもかまわない。また、音声のみならず雑音
などの非音声や音のレベルの低い無音などを含めてもか
まわない。入力音声が環境学習データであった場合、そ
れの時系列データは、スペクトル算出部２０１で一定周
期の長さ（フレーム）毎に分割される。そして、このフ
レーム毎の入力音声をフーリエ変換（具体的にはＦＦＴ
分析）することにより、スペクトルと呼ばれる周波数成
分を算出する（ステップＳ３０２）。スペクトルとして
は、振幅スペクトルやその２乗であるパワースペクトル
があるが、いずれの場合もその算出方法は既知であり、
どちらを用いても良い。また、フーリエ変換の他にフィ
ルタバンク分析を行うことで得られるスペクトルを用い
ても良い。フィルタバンクとは、周波数軸上を複数のバ
ンドパスフィルタで区分して、それぞれのフィルタの出
力から音声信号の周波数帯域ごとのスペクトルを求める
方法である。このバンドパスフィルタを設計する際に、
周波数軸上を等間隔に分割する場合（リニア）や、例え
ば聴覚の特性に応じて設計する臨界帯域フィルタのよう
に周波数軸上を不均一に分割する場合がある。一方、フ
ーリエ変換により得られた周波数成分から、図１４のよ
うなフィルタバンクを用いて各周波数成分の重み付け線
形和を求め、これを帯域ごとの周波数成分として扱うこ
とも可能である。図１４は、聴覚の特性に応じて周波数
軸をメル周波数軸上で等間隔に分割するように、三角型
のフィルタで構成された場合である。横軸が周波数軸を
表す。各フィルタは式（１）により構成することが可能
である。

【００８０】

【数１】

【００８１】ここで、Ｍｅｌ（ｆ）は、周波数軸伸縮さ
れた周波数軸上での周波数を表し、式（１）は通常の周
波数軸ｆとの関係を表した式である。式（１）で、ａ、
ｆｎはそれぞれ定数である。そして、

【００８２】

【数２】

【００８３】

【数３】

【００８４】のとき、メル周波数軸にほぼ一致すること
が分かっている。

【００８５】図１５は、周波数軸伸縮された周波数軸上
（縦軸）と伸縮前の通常の周波数軸（横軸）との関係を
表した図である。

【００８６】次に、対数変換部２０２が対数的な変換処
理により対数スペクトルを算出する（ステップＳ３０
３）。対数的な変換処理としては、単純にスペクトルの
対数（自然対数、常用対数）を計算する方法や、一般化
対数変換処理や、ｎ乗根を計算する方法、それらを周波
数毎に組み合わせて用いる方法などが可能である。ここ
で、一般化対数変換処理とは、リニアスケールと対数ス
ケールの中間的な表現が可能な変換処理である。たとえ
ば、変換前のスペクトルＳ（ｉ，ｋ）を変換後の一般化
対数スペクトルＧ（ｉ，ｋ）に変換するための関数Ｆ
は、式（２）で与えられる。

【００８７】

【数４】

【００８８】ただし、

【００８９】

【数５】

【００９０】γは、リニアスケールと対数スケールの度
合いを決定するパラメータであり、γ＝０のとき対数ス
ペクトル、γ＝１のときスペクトルに対応する。

【００９１】次に、対数スペクトルは一時記憶部２０３
に蓄積された後、区間判定部２０５が全対数スペクトル
から対象となる区間のものを抽出し、それらの平均値を
平均化処理部２０６で算出する（ステップＳ３０４）。
ここで、jフレーム目の対数スペクトルをＬ（ｊ，ｋ）
とすると、平均対数スペクトルＬａｖｅ（ｋ）は式
（３）で表される。

【００９２】

【数６】

【００９３】ここで、Ｎは平均を求める際の対数スペク
トルの個数である。

【００９４】また、対象となる区間のフレームの対数ス
ペクトルを計算に用いるかで、それぞれ異なる効果が得
られる。

【００９５】（１）全フレームをＮフレーム分用いて平
均対数スペクトルを求める場合は、音声と周囲雑音を区
別する手間が省け、スペクトルを数多く集めることがで
きるので、入力信号の中の音声部分が少ない場合でも、
入力信号に畳み込まれた伝送歪みを正確に削除すること
が可能になる。

【００９６】（２）パワーの大きさやスペクトルの形状
から、音声と判定されたフレームをＮフレーム分用いて
平均対数スペクトルを求める場合は、音声に畳み込まれ
た伝送歪みを含むスペクトルのみを選択的に集めること
ができ、周囲騒音などの加法性雑音の影響を受けること
なく、入力信号に畳み込まれた伝送歪みを正確に削除す
ることが可能になる。

【００９７】（３）パワーの大きさやスペクトルの形状
から、雑音と判定されたフレームをＮフレーム分用いて
平均対数スペクトルを求める場合は、入力信号に畳み込
まれた伝送歪みを正確に削除することができる。

【００９８】（４）パワーの大きさやスペクトルの形状
から、音声と判定されたフレーム特定の音韻区間とパワ
ーの大きい区間の少なくともいずれか一方をＮフレーム
分用いて平均対数スペクトルを求める場合は、音声の中
でも母音部分や特に音の大きい部分は周囲騒音などの加
法性雑音の影響が少ないので、入力信号に畳み込まれた
伝送歪みを正確に削除することが可能になる。

【００９９】（５）パワーの大きさやスペクトルの形状
から、音声と判定されないフレームをＮフレーム分用い
て平均対数スペクトルを求める場合は、入力信号に畳み
込まれた伝送歪みを正確に削除することができる。

【０１００】これらの対象となる区間の指定を区間指定
部２０４が行い、区間判定部２０５に指示する。このよ
うに、環境学習用データから得られる複数の対数スペク
トルの平均値を求めることは、音声の長時間対数スペク
トルを求めていることと等価になるが、マイクロフォン
の特性や音声が伝送路を通過した場合の伝送歪みなど主
に音響系の歪みは、短時間には変動しないと仮定する
と、音声の長時間対数スペクトルに重畳された形で推定
することが可能となる。

【０１０１】指数・逆数変換部２０７は、式（４）のよ
うに平均化処理部２０６で求めた環境学習データから得
られた平均対数スペクトルＬａｖｅ（ｋ）を指数変換
し、さらに逆数を計算することで、逆平均スペクトルＳ
ａｖｅ＿ｉｎｖ（ｋ）を求める（ステップＳ３０５）。

【０１０２】

【数７】

【０１０３】ここで、βは音響系の歪みを除去する度合
いをコントロールする係数であり、実験により決定する
ことが可能である。さらにβを周波数成分ごとに制御で
きるようにβ(k)の形式で扱うことで、より細かい制御
が可能となる。

【０１０４】また、対数変換が一般化対数変換の場合に
は、この指数変換は一般化指数変換となり、平均一般化
対数スペクトルを平均一般化スペクトルに変換すること
になる。

【０１０５】次に、算出された逆平均対数スペクトルは
記憶部２０８に保存される（ステップＳ３０６）。

【０１０６】また一方、ステップＳ３０２で算出された
スペクトルも対数スペクトル同様に、一時記憶部２０３
に蓄積されたのち、区間指定部２０４からの指示で区間
判定部２０５が抽出する。その抽出された全スペクトル
は平均化処理部２０６で、式（５）に従って平均化さ
れ、環境学習データから得られた複数のスペクトルの平
均値である平均スペクトルが求まる（ステップＳ３０
７）。ここで、jフレーム目のスペクトルをＳ（ｊ，
ｋ）とすると、平均スペクトルＳＳａｖｅ（ｋ）は次式
で表される。

【０１０７】

【数８】

【０１０８】ここで、Ｎは平均を求める際のスペクトル
の個数である。

【０１０９】また、対数スペクトルの場合と同様、対象
となる区間のフレームにどのスペクトルを計算に用いる
かで、それぞれ異なる効果が得られる。

【０１１０】（１）全フレームをＮフレーム分用いて平
均スペクトルを求める場合は、音声と周囲雑音を区別す
る手間が省け、スペクトルを数多く集めることができる
ので、入力信号の中の音声部分が少ない場合でも、入力
信号に含まれる周囲騒音などの加法性雑音を正確に削除
することが可能になる。

【０１１１】（２）パワーの大きさやスペクトルの形状
から、音声と判定されたフレームをＮフレーム分用いて
平均スペクトルを求める場合は、音声に含まれる周囲騒
音などの加法性雑音を含むスペクトルのみを選択的に集
めることができ、入力信号に含まれる周囲騒音などの加
法性雑音を正確に削除することが可能になる。

【０１１２】（３）パワーの大きさやスペクトルの形状
から、雑音と判定されたフレームをＮフレーム分用いて
平均スペクトルを求める場合は、入力信号に含まれる周
囲騒音などの加法性雑音を正確に削除することができ
る。

【０１１３】（４）パワーの大きさやスペクトルの形状
から、音声と判定されたフレーム特定の音韻区間とパワ
ーの大きい区間の少なくともいずれか一方をＮフレーム
分用いて平均スペクトルを求める場合は、音声の中でも
母音部分や特に音の大きい部分は周囲騒音などの加法性
雑音の影響が少ないので、入力信号に含まれる周囲騒音
などの加法性雑音を正確に削除することが可能になる。

【０１１４】（５）パワーの大きさやスペクトルの形状
から、音声と判定されないフレームをＮフレーム分用い
て平均スペクトルを求める場合は、入力信号に含まれる
周囲騒音などの加法性雑音を正確に削除することができ
る。

【０１１５】これらの対象となる区間の指定を区間指定
部２０４が行い、区間判定部２０５に指示する。このよ
うに、環境学習用データから得られる複数の対数スペク
トルの平均値を求めることは、音声の長時間対数スペク
トルを求めていることと等価になるが、マイクロフォン
の特性や音声が伝送路を通過した場合の伝送歪みなど主
に音響系の歪みは、短時間には変動しないと仮定する
と、音声の長時間対数スペクトルに重畳された形で推定
することが可能となる。

【０１１６】このように、環境学習用データから得られ
る複数のスペクトルの平均値を求めることは、騒音の長
時間スペクトル（騒音スペクトル）を求めていることと
等価になる。背景騒音が、短時間に大きく変動しないと
仮定すると、騒音の長時間スペクトルを安定して求める
ことが可能になる。そして、この騒音スペクトルをフレ
ーム毎の入力音声のスペクトルから減算することで、騒
音の影響を受けていない音声スペクトルを求めることが
でき、これを音声認識に用いることで正確に音声認識す
ることが可能となる。

【０１１７】この処理を行うために、以上により算出さ
れた平均スペクトルは記憶部２０８に保存される（ステ
ップＳ３０８）。

【０１１８】次に、音声認識の対象となる入力音声が入
力されると、環境学習データでないと判定され（ステッ
プＳ３０１）、スペクトル算出部２０１でスペクトルＳ
（ｉ，ｋ）)の算出が行われる（ステップＳ３０９）。

【０１１９】次に、減算器２０９が式（６）に従って、
このスペクトルＳ（ｉ，ｋ）から記憶部２１０内の平均
スペクトルＳａｖｅ（ｋ）を減算し、正規化スペクトル
Ｓｎｏｒｍｌ（ｉ，ｋ）を求める（ステップＳ３１
０）。

【０１２０】

【数９】

【０１２１】ここで、αは周囲の騒音を除去する度合い
をコントロールする係数であり、実験により決定するこ
とが可能である。さらにαを周波数成分ごとに制御でき
るようにα(k)の形式で扱うことで、より細かいスペク
トルの制御が可能となる。

【０１２２】次に、乗算器２１０が式（７）に従って、
正規化スペクトルＳｎｏｒｍｌ（ｉ，ｋ）に、記憶部２
０８内の逆平均スペクトルＳａｖｅ＿ｉｎｖ（ｋ）を乗
算し、最終の正規化スペクトルＳｎｏｒｍ２（ｉ，ｋ）
を求める。

【０１２３】

【数１０】

【０１２４】この結果が前述の特徴量抽出部１０３に入
力される。

【０１２５】このように、マイクロフォンの特性や音声
が伝送路を通過した場合の伝送歪みなど、主に音響系の
歪みと、騒音が入力音声から同一次元で演算でき、効率
的に除去することができる。これにより、従来に比べ少
ない処理量で高い認識性能を実現することができる。ま
た、処理時間のかかる対数変換は事前に済ませておける
ため、音声認識処理の高速化が可能となる。

【０１２６】本発明の雑音除去方法の効果を確認するた
め、音声認識装置を用いて、実際に本発明の対数スペク
トル領域での音響系の歪みである乗法性歪み除去と、ケ
プストラム平均除去との比較を行った。実験には音声デ
ータとして、ＡＴＲの音声データベースＣ１セット（最
重要語５２０単語）中の男性話者６０名を用いた。４０
名の話者（Ｍ１０１からＭ１２０、Ｍ３０１からＭ３２
０）によりＨＭＭの学習を行い、学習話者以外の残りの
２０名の話者（Ｍ４０１からＭ４２０）で評価を行っ
た。ＨＭＭは、まずラベル情報であるデータ（Ｍ１０１
からＭ１２０）を用いて初期学習を行い、更に４０名全
員を用いて連結学習を行った。

【０１２７】実験に使用する音響単位としては、約２６
０種類の音素文脈依存ＨＭＭを音響単位として用いた。
ＨＭＭの構造は、４状態３分布の対角ガウス型連続分布
ＨＭＭであり、１分布あたりの混合数は２である。

【０１２８】音声の分析条件を表１に示す。実験に用い
るパラメータはメルフィルタバンク・ケプストラム係数
であり、同時に１次の回帰係数（Δケプストラム）も用
いたが、Δケプストラム係数は乗法性歪みを除去した後
のケプストラム係数から計算で求めた。また、ケプスト
ラム及び、Δケプストラムの各０次の項（パワー項）は
用いなかった。

【０１２９】

【表１】

【０１３０】また、付加する乗法性歪みとしては、カッ
トオフ周波数ｆ_c＝３．４ｋＨｚで、−６ｄＢ／ｏｃｔ
の特性を持つローパスフィルタを用い、評価話者２０
名（Ｍ４０１からＭ４２０）の音声データにのみ付加し
た。

【０１３１】この結果は、本発明の雑音除去を行った場
合、単語認識率は９７．７２％であり、ケプストラム平
均除去を行った場合は、９７．４９％であった。本発明
の雑音除去方法を用いた場合、従来に比べて誤り率が、
約９％改善された。このように、本発明によれば音声認
識率の向上を図ることができる。

【０１３２】（実施の形態２）図４は、本発明の第２の
実施の形態の雑音除去装置のブロック図である。

【０１３３】図４において、相乗平均処理部４０１はス
ペクトルの相乗平均である相乗平均スペクトルを算出す
るものであり、逆数変換部４０２は相乗平均スペクトル
の逆数を求めるものである。その他のスペクトル算出部
２０１、一時記憶部２０３、区間指定部２０４、区間判
定部２０５、平均化処理部２０６、記憶部２０８、減算
器２０９、乗算器２１０は実施の形態１と同じものであ
る。

【０１３４】以上のように構成された雑音除去装置１０
２について、図５を用いて以下にその動作、作用を説明
する。

【０１３５】図５は雑音除去方法の処理の流れを示す流
れ図である。なお、図中、実施の形態１と同じ番号のス
テップは実施の形態１と同一の処理であることを示して
いる。

【０１３６】まず、入力音声が環境学習データか否かの
判定を行う（ステップＳ３０１）。

【０１３７】次に、入力音声が環境学習データであった
場合、それの時系列データは、スペクトル算出部２０１
で一定周期の長さ（フレーム）毎に分割される。そし
て、このフレーム毎の入力音声をフーリエ変換（具体的
にはＦＦＴ分析）することにより、スペクトルを算出す
る（ステップＳ３０２）。

【０１３８】次に、ステップＳ３０２で算出されたスペ
クトルは、一時記憶部２０３に蓄積されたのち、区間指
定部２０４からの指示で区間判定部２０５が抽出する。
その抽出された全スペクトルは平均化処理部２０６で、
式（８）に従って相乗平均の演算がされ、環境学習デー
タから得られた複数のスペクトルの相乗平均値である相
乗平均スペクトルが求まる（ステップＳ５０１）。ここ
で、jフレーム目のスペクトルをＳ（ｊ，ｋ）とする
と、平均スペクトルＳｍａｖｅ（ｋ）は次式で表され
る。

【０１３９】

【数１１】

【０１４０】ここで、Ｎは平均を求める際のスペクトル
の個数である。

【０１４１】また、対象となる区間のフレームにどのス
ペクトルを計算に用いるかで、それぞれ異なる効果が得
られる。

【０１４２】（１）全フレームをＮフレーム分用いて相
乗平均スペクトルを求める場合は、音声と周囲雑音を区
別する手間が省け、スペクトルを数多く集めることがで
きるので、入力信号の中の音声部分が少ない場合でも、
入力信号に畳み込まれた伝送歪みを正確に削除すること
が可能になる。

【０１４３】（２）パワーの大きさやスペクトルの形状
から、音声と判定されたフレームをＮフレーム分用いて
相乗平均スペクトルを求める場合は、音声に畳み込まれ
た伝送歪みを含むスペクトルのみを選択的に集めること
ができ、周囲騒音などの加法性雑音の影響を受けること
なく、入力信号に畳み込まれた伝送歪みを正確に削除す
ることが可能になる。

【０１４４】（３）パワーの大きさやスペクトルの形状
から、雑音と判定されたフレームをＮフレーム分用いて
相乗平均スペクトルを求める場合は、入力信号に畳み込
まれた伝送歪みを正確に削除することができる。

【０１４５】（４）パワーの大きさやスペクトルの形状
から、音声と判定されたフレーム特定の音韻区間とパワ
ーの大きい区間の少なくともいずれか一方をＮフレーム
分用いて相乗平均スペクトルを求める場合は、音声の中
でも母音部分や特に音の大きい部分は周囲騒音などの加
法性雑音の影響が少ないので、入力信号に畳み込まれた
伝送歪みを正確に削除することが可能になる。

【０１４６】（５）パワーの大きさやスペクトルの形状
から、音声と判定されないフレームをＮフレーム分用い
て相乗平均スペクトルを求める場合は、入力信号畳み込
まれた伝送歪みを正確に削除することができる。

【０１４７】これらの対象となる区間の指定を区間指定
部２０４が行い、区間判定部２０５に指示する。このよ
うに、環境学習用データから得られる複数の対数スペク
トルの平均値を求めることは、音声の長時間対数スペク
トルを求めていることと等価になるが、マイクロフォン
の特性や音声が伝送路を通過した場合の伝送歪みなど主
に音響系の歪みは、短時間には変動しないと仮定する
と、音声の長時間対数スペクトルに重畳された形で推定
することが可能となる。

【０１４８】このように、環境学習用データから得られ
る複数のスペクトルの相乗平均値を求めることは、音声
の長時間スペクトルを求めていることと等価になるが、
マイクロフォンの特性や音声が伝送路を通過した場合の
伝送歪みなど主に音響系の歪みは、短時間には変動しな
いと仮定すると、音声の長時間スペクトルに重畳された
形で推定することが可能となる。そして、この相乗平均
スペクトルでフレーム毎のスペクトルを除算すること
で、音声の長時間スペクトルとともに音響系の歪みも同
時に減算することが可能となり、音響系の歪みの影響を
受けずに音声認識を行うことが可能となる。

【０１４９】次に、逆数変換部４０２が、式（９）に従
って、相乗平均処理部４０１で求めた環境学習データか
ら得られた相乗平均スペクトルＳｍａｖｅ（ｋ）の逆数
を計算して、逆相乗平均スペクトルＳｍａｖｅ＿ｉｎｖ
（ｋ）を求める（ステップＳ５０２）。

【０１５０】

【数１２】

【０１５１】ここで、βは音響系の歪みを除去する度合
いをコントロールする係数であり、実験により決定する
ことが可能である。さらにβを周波数成分ごとに制御で
きるようにβ(k)の形式で扱うことで、より細かい制御
が可能となる。

【０１５２】以上により算出された相乗平均スペクトル
は記憶部２０８に保存される（ステップＳ５０３）。

【０１５３】また一方、ステップＳ３０２で算出された
スペクトルは、区間判定部２０５で抽出された後、平均
化処理部２０６で、実施の形態１と同じく式（５）に従
って平均化され、環境学習データから得られた複数のス
ペクトルの平均値である平均スペクトルが求まる（ステ
ップＳ３０７）。

【０１５４】以上により算出された平均スペクトルは記
憶部２０８に保存される（ステップＳ３０８）。

【０１５５】次に、音声認識の対象となる入力音声が入
力されると、環境学習データでないと判定され（ステッ
プＳ３０１）、スペクトル算出部２０１でスペクトルＳ
（ｉ，ｋ）)の算出が行われる（ステップＳ３０９）。

【０１５６】次に、減算器２０９が式（６）に従って、
実施の形態１と同じく、このスペクトルＳ（ｉ，ｋ）か
ら記憶部２０８内の平均スペクトルＳａｖｅ（ｋ）を減
算し、正規化スペクトルＳｎｏｒｍｌ（ｉ，ｋ）を求め
る（ステップＳ３１０）。

【０１５７】次に、乗算器２１０が式（１０）に従っ
て、正規化スペクトルＳｎｏｒｍｌ（ｉ，ｋ）に、記憶
部２１０内の逆相乗平均スペクトルＳｍａｖｅ＿ｉｎｖ
（ｋ）を乗算し、最終の正規化スペクトルＳｎｏｒｍ２
（ｉ，ｋ）を求める。

【０１５８】

【数１３】

【０１５９】この結果が前述の特徴量抽出部１０３に入
力される。

【０１６０】このように、実施の形態１と同様、マイク
ロフォンの特性や音声が伝送路を通過した場合の伝送歪
みなど、主に音響系の歪みと、騒音が入力音声から同一
次元で演算でき、効率的に除去することができる。これ
により、従来に比べも少ない処理量で高い認識性能を実
現することができる。また、処理時間のかかる相乗平均
演算は事前に済ませておけるため、音声認識処理の高速
化が可能となる。

【０１６１】また、この実施の形態２で示した雑音除去
装置を有する音声認識装置においては、実施の形態１と
同様に、標準モデルを用いて類似度の計算を行うが、標
準モデルを作成するための多量の音声データをあらかじ
め用意しておき、入力音声の対数スペクトルから環境学
習データより作成した平均対数スペクトルを減算したの
と同様な処理を施す必要がある。しかし、実施の形態１
と異なる点は、標準学習データから得られる相乗平均ス
ペクトルを求め、標準学習データから得られる全てのス
ペクトルからこの相乗平均スペクトルを除算することで
正規化スペクトルを求め、さらにケプストラル係数など
の特徴量を算出し、この特徴量の時系列を用いて標準モ
デルを作成する点が異なる。

【０１６２】（実施の形態３）図６は本発明の第３の実
施の形態による雑音除去装置のブロック図であり、スペ
クトル算出部２０１、対数変換部２０２、一時記憶部２
０３、平均化処理部２０６、記憶部６０１、減算器６０
２から構成されている。これらのうち、実施の形態１と
同じ番号の構成物は、同じものであることを示してい
る。

【０１６３】以上のように構成された雑音除去装置１０
２について、図７を用いて以下にその動作、作用を説明
する。

【０１６４】図７は雑音除去方法の処理の流れを示す流
れ図である。

【０１６５】まず、学習データである音声を理想伝送路
から入力する。この理想伝送路とは、標準マイクロフォ
ンのような歪のない入力特性を有する入力器と、伝送歪
のないように補正された伝送路からなる伝送路である。
入力音声がこの学習データであると判定されると（ステ
ップＳ７０１）、スペクトル算出部２０１が理想伝送路
からの入力音声のスペクトルを算出する（ステップＳ７
０２）。

【０１６６】次に、対数変換部２０２が対数変換し、対
数スペクトルを求める（ステップＳ７０３）。

【０１６７】次に、一時記憶部２０３に入力音声全ての
対数スペクトルが蓄積され、平均化処理部２０６がこれ
ら全ての平均値である平均対数スペクトルを算出する
（ステップＳ７０４）。この平均対数スペクトルは伝送
路の雑音を含まない、純粋に音声信号のみであり、理想
対数スペクトルとして記憶部６０１に保持される（ステ
ップＳ７０５）。

【０１６８】次に、環境学習データが入力され、入力音
声は環境学習データと判定されると（ステップＳ７０
６）、スペクトル算出部２０１がスペクトルを算出する
（ステップＳ７０７）。

【０１６９】次に、対数変換部２０２が環境学習データ
のスペクトルを対数変換し対数スペクトルを算出する
（ステップＳ７０８）。

【０１７０】次に、一時記憶部２０３に入力音声全ての
対数スペクトルが蓄積され、平均化処理部２０６がこれ
ら全ての平均値である平均対数スペクトルを算出する
（ステップＳ７０９）。この環境学習データから求めた
平均対数スペクトルには、音声信号の他に、伝送路歪な
どの音響系の歪を含んでいる。

【０１７１】次にこの平均対数スペクトルから記憶部６
０１に保持されている理想対数スペクトルを減算器６０
２により減算する（ステップＳ７１０）。従って、これ
によって求まる差分対数スペクトルは、伝送路歪の対数
スペクトルである。

【０１７２】次に、この差分対数スペクトルを記憶部６
０１に記憶する（ステップＳ７１１）。

【０１７３】次に、音声認識の対象となる入力音声が入
力されると、環境学習データでないと判定され（ステッ
プＳ７０６）、スペクトル算出部２０１でスペクトルＳ
（ｉ，ｋ）)の算出が行われる（ステップＳ７１２）。

【０１７４】次に、対数変換部２０２が対数スペクトル
Ｌ（ｉ，ｋ）を算出する（ステップＳ７１３）。

【０１７５】次に、この対数スペクトルＬ（ｉ，ｋ）か
ら減算器６０２が式（１１）に従って、このスペクトル
Ｓ（ｉ，ｋ）から記憶部６０１内の差分対数スペクトル
Ｌａｖｅ（ｋ）を減算し、正規化対数スペクトルＬｎｏ
ｒｍｌ（ｉ，ｋ）を求める（ステップＳ７１４）。

【０１７６】

【数１４】

【０１７７】ここで、βは音響系の歪を除去する度合い
をコントロールする係数であり、実験により決定するこ
とが可能である。さらにβを周波数成分ごとに制御でき
るようにβ（ｋ）の形式で扱うことで、より細かい制御
が可能となる。

【０１７８】音声認識装置の場合は、この結果が前述の
特徴量抽出部１０３に入力される。

【０１７９】このように、マイクロフォンの特性や音声
が伝送路を通過した場合の伝送歪みなど、主に音響系の
歪みが、より精度良く効率的に除去することができる。

【０１８０】また、実施の形態３では、理想伝送路から
の学習データを雑音除去装置に入力して、理想平均対数
スペクトルを算出したが、この算出を別の装置で行い、
この雑音除去装置に算出済みの理想平均対数スペクトル
を読み出し専用記憶部に別途備えておく構成にすること
も可能である。

【０１８１】この場合のブロック図を図８に、流れ図を
図９に示す。図８において、読み出し専用記憶部８０１
にあらかじめ算出した理想平均対数スペクトルを記憶さ
せておき、環境学習データが入力され差分対数スペクト
ルを求めるときに、この理想平均対数スペクトルが環境
学習データの対数スペクトルから減算される（ステップ
Ｓ９０１）。その他の構成物及び、処理は実施の形態３
と同じである。また、読み出し専用記憶８０１部と記憶
部６０１は別構成でなく、記憶部６０１にまとめる構成
も可能である。

【０１８２】また、この実施の形態３で示した雑音除去
装置を有する音声認識装置においては、実施の形態１と
同様に、標準モデルを用いて類似度の計算を行うが、実
施の形態１と異なり、標準モデルを作成するための多量
の音声データをあらかじめ用意しておき、標準学習デー
タから得られるすべてのスペクトルを求め、さらにケプ
ストラル係数などの特徴量を算出し、この特徴量の時系
列を用いて標準モデルを作成する点が異なる。

【０１８３】（実施の形態４）図１０は、本発明の第４
の実施の形態の雑音除去装置のブロック図である。図１
０において、指数・逆数変換部２０７は実施の形態３と
同じ処理で算出した差分対数スペクトルを指数変換し、
そして逆数変換するものであり、乗算器２１０は音声認
識の対象である入力音声のスペクトルと、逆差分対数ス
ペクトルを乗算するものである。その他の構成物は実施
の形態３と同じである。

【０１８４】図１１は雑音除去方法の処理の流れを示す
流れ図である。

【０１８５】まず、環境学習データが入力され、入力音
声は環境学習データと判定されると（ステップＳ７０
６）、スペクトル算出部２０１がスペクトルを算出する
（ステップＳ７０７）。

【０１８６】次に、対数変換部２０２が環境学習データ
のスペクトルを対数変換し対数スペクトルを算出する
（ステップＳ７０８）。

【０１８７】次に、一時記憶部２０３に入力音声全ての
対数スペクトルが蓄積され、平均化処理部２０６がこれ
ら全ての平均値である平均対数スペクトルを算出する
（ステップＳ７０９）。

【０１８８】次にこの平均対数スペクトルから読み出し
専用記憶部８０１に保持されている理想対数スペクトル
を減算器２０９により減算する（ステップＳ９０１）。

【０１８９】次に指数・逆数変換部２０７がこの理想対
数スペクトルを指数変換し、そして逆数変換し、逆差分
スペクトルを算出する（ステップＳ１１０１）。

【０１９０】次に、この逆差分スペクトルを記憶部６０
１に記憶する（ステップＳ７１１）。

【０１９１】また一方、環境学習データのスペクトルは
一時記憶部２０３に蓄積され、その全スペクトルの平均
値である平均スペクトルを平均化処理部２０６が算出す
る（ステップＳ１１０２）。この平均スペクトルは記憶
部６０１に記憶される。

【０１９２】次に、音声認識の対象となる入力音声が入
力されると、環境学習データでないと判定され（ステッ
プＳ７０６）、スペクトル算出部２０１でスペクトルＳ
（ｉ，ｋ）)の算出が行われる（ステップＳ１１０
４）。

【０１９３】次に、このスペクトルＳ（ｉ，ｋ）から減
算器２１１が式（６）に従って、このスペクトルＳ
（ｉ，ｋ）から記憶部６０１内の平均スペクトルを減算
し、実施の形態１と同様に、正規化スペクトルＳｎｏｒ
ｍｌ（ｉ，ｋ）を算出する（ステップＳ１１０５）。

【０１９４】次に、正規化スペクトルＳｎｏｒｍｌ
（ｉ，ｋ）に式（７）に従って、逆差分スペクトルＳａ
ｖｅ＿ｉｎｖ（ｋ）を乗算し、最終の対数スペクトルＬ
ｎｏｒｍｌ（ｉ，ｋ）を求める（ステップＳ１１０
６）。

【０１９５】ここで、βは音響系の歪を除去する度合い
をコントロールする係数であり、実験により決定するこ
とが可能である。さらにβを周波数成分ごとに制御でき
るようにβ（ｋ）の形式で扱うことで、より細かい制御
が可能となる。

【０１９６】音声認識装置の場合は、この結果が前述の
特徴量抽出部１０３に入力される。

【０１９７】このように、マイクロフォンの特性や音声
が伝送路を通過した場合の伝送歪みなど、主に音響系の
歪みが、より精度良く効率的に除去することができる。
また、この音響系の歪みと、騒音が入力音声から同一次
元で演算でき、効率的に除去することができる。これに
より、従来よりも少ない処理量でより高い認識性能を実
現することができる。また、処理時間のかかる対数変換
は事前に済ませておけるため、音声認識処理の高速化が
可能となる。

【０１９８】また、この実施の形態４で示した雑音除去
装置を有する音声認識装置においては、実施の形態１と
同様に、標準モデルを用いて類似度の計算を行うが、実
施の形態１と異なり、標準モデルを作成するための多量
の音声データをあらかじめ用意しておき、標準学習デー
タから得られるすべてのスペクトルを求め、さらにケプ
ストラル係数などの特徴量を算出し、この特徴量の時系
列を用いて標準モデルを作成する点が異なる。

【０１９９】（実施の形態５）図１２は、本発明の第５
の実施の形態の雑音除去装置のブロック図である。

【０２００】図１２において、相乗平均処理部４０１は
スペクトルの相乗平均である相乗平均スペクトルを算出
するものであり、逆数変換部４０２は相乗平均スペクト
ルの逆数を求めるものである。その他のスペクトル算出
部２０１、一時記憶部２０３、平均化処理部２０６、記
憶部６０１、読み出し専用記憶部８０１、減算器２０
９、乗算器２１０は実施の形態４と同じものである。

【０２０１】以上のように構成された雑音除去装置１０
２について、図１３を用いて以下にその動作、作用を説
明する。

【０２０２】図１３は雑音除去方法の処理の流れを示す
流れ図である。

【０２０３】まず、環境学習データが入力され、入力音
声は環境学習データと判定されると（ステップＳ７０
６）、スペクトル算出部２０１がスペクトルを算出する
（ステップＳ７０７）。

【０２０４】次に、一時記憶部２０３に入力音声全ての
スペクトルが蓄積され、相乗平均処理部４０１がこれら
全ての相乗平均である相乗平均スペクトルを算出する
（ステップＳ１３０１）。

【０２０５】次にこの相乗平均スペクトルから読み出し
専用記憶部８０１に保持されている理想相乗平均スペク
トルの逆数を乗算器２１０により乗算し差分相乗平均ス
ペクトルを算出する（ステップＳ１３０２）。

【０２０６】次に逆数変換部４０２がこの差分相乗平均
スペクトルを逆数変換し、逆差分相乗平均スペクトルを
算出する（ステップＳ１３０３）。

【０２０７】次に、この逆差分相乗スペクトルを記憶部
６０１に記憶する（ステップＳ１３０４）。

【０２０８】また一方、環境学習データのスペクトルか
ら、実施の形態４と同様に、平均スクトルを算出し（ス
テップＳ１１０３）、記憶部６０１に記憶される。

【０２０９】次に、音声認識の対象となる入力音声が入
力されると、環境学習データでないと判定され（ステッ
プＳ７０６）、スペクトル算出部２０１でスペクトルＳ
（ｉ，ｋ）)の算出が行われる（ステップＳ７１２）。

【０２１０】次に、このスペクトルＳ（ｉ，ｋ）から実
施の形態４と同様に、記憶部６０１内の平均スペクトル
を減算して正規化スペクトルＳｎｏｒｍｌ（ｉ，ｋ）を
算出する（ステップＳ１１０５）。

【０２１１】次に、正規化スペクトルＳｎｏｒｍｌ
（ｉ，ｋ）に式（１０）に従って、逆差分相乗平均スペ
クトルＳｍａｖｅ＿ｉｎｖ（ｋ）を乗算し、最終のスペ
クトルＳｎｏｒｍ２（ｉ，ｋ）を求める（ステップＳ１
３０５）。

【０２１２】ここで、βは音響系の歪を除去する度合い
をコントロールする係数であり、実験により決定するこ
とが可能である。さらにβを周波数成分ごとに制御でき
るようにβ（ｋ）の形式で扱うことで、より細かい制御
が可能となる。

【０２１３】音声認識装置の場合は、この結果が前述の
特徴量抽出部１０３に入力される。

【０２１４】このように、マイクロフォンの特性や音声
が伝送路を通過した場合の伝送歪みなど、主に音響系の
歪みが、より精度良く効率的に除去することができる。
また、この音響系の歪みと、騒音が入力音声から同一次
元で演算でき、効率的に除去することができる。これに
より、従来よりも少ない処理量でより高い認識性能を実
現することができる。また、処理時間のかかる対数変換
は事前に済ませておけるため、音声認識処理の高速化が
可能となる。

【０２１５】また、この実施の形態５で示した雑音除去
装置を有する音声認識装置においては、実施の形態１と
同様に、標準モデルを用いて類似度の計算を行うが、実
施の形態１と異なり、標準モデルを作成するための多量
の音声データをあらかじめ用意しておき、標準学習デー
タから得られるすべてのスペクトルを求め、さらにケプ
ストラル係数などの特徴量を算出し、この特徴量の時系
列を用いて標準モデルを作成する点が異なる。

【０２１６】

【発明の効果】以上のように、本発明によれば、精度良
く効率的に伝送歪や周囲騒音といった雑音を除去でき、
その結果として高精度の音声認識を行うことができる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態における音声認識装
置の構成を示すブロック図

【図２】本発明の第１の実施の形態における雑音除去装
置の構成を示すブロック図

【図３】本発明の第１の実施の形態における雑音除去装
置の処理の流れを示す流れ図

【図４】本発明の第２の実施の形態における雑音除去装
置の構成を示すブロック図

【図５】本発明の第２の実施の形態における雑音除去装
置の処理の流れを示す流れ図

【図６】本発明の第３の実施の形態における雑音除去装
置の構成を示すブロック図

【図７】本発明の第３の実施の形態における雑音除去装
置の処理の流れを示す流れ図

【図８】本発明の第３の実施の形態における雑音除去装
置の構成を示すブロック図

【図９】本発明の第３の実施の形態における雑音除去装
置の処理の流れを示す流れ図

【図１０】本発明の第４の実施の形態における雑音除去
装置の構成を示すブロック図

【図１１】本発明の第４の実施の形態における雑音除去
装置の処理の流れを示す流れ図

【図１２】本発明の第５の実施の形態における雑音除去
装置の構成を示すブロック図

【図１３】本発明の第５の実施の形態における雑音除去
装置の処理の流れを示す流れ図

【図１４】本発明の第１の実施の形態における雑音除去
装置のフィルタバンク特性を示す周波数特性図

【図１５】本発明の第１の実施の形態における雑音除去
装置の周波数軸伸縮に伴う周波数特性を示す周波数特性
図

【図１６】従来の音声認識装置の構成を示すブロック図

【符号の説明】

１０１マイクロフォン１０２雑音除去装置１０３特徴量抽出部１０４類似度算出部１０５標準モデル辞書１０６判定処理部２０１スペクトル算出部２０２対数変換部２０３一時記憶部２０４区間指定部２０５区間判定部２０６平均化処理部２０７指数・逆数変換部２０８記憶部２０９減算部２１０乗算部４０１相乗平均処理部４０２逆数変換部６０１記憶部６０２減算部８０１読み出し専用記憶部１００入力端子２００周波数分析部３００対数変換部４００スペクトル変換部５００音声区間決定部５０１対数変換済データ５０２ノイズパターン検出部５０３減算回路５０４乗算回路５０５加算回路５０６除算回路５０７Ｐパラメータメモリ５０８比較器１５０９ＦＬＡＧ５１０スムージング１５１１スムージング２５１２ブロック化５１３比較器２５１４ブロック決定５１５音声区間決定５１６ＭａｘＢＬＫ６００再サンプル部７００距離演算部８００標準パターンメモリ９００判定部１０００認識結果出力端子

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 21/02

Claims

【特許請求の範囲】

【請求項１】第１の入力信号のスペクトルを求めるス
テップと、前記スペクトルを対数変換して対数スペクト
ルを求めるステップと、前記対数スペクトルの特定区間
についての平均値である平均対数スペクトルを求めるス
テップと、前記平均対数スペクトルを指数変換して平均
スペクトルを求めるステップと、前記平均スペクトルで
第２の入力信号のスペクトルを除算して正規化スペクト
ルを求めるステップとを有する雑音除去方法。
【請求項２】第１の入力信号のスペクトルを求めるス
テップと、前記スペクトルの特定区間についての相乗平
均値である相乗平均スペクトルを求めるステップと、前
記相乗平均スペクトルで第２の入力信号のスペクトルを
除算して正規化スペクトルを求めるステップとを有する
雑音除去方法。
【請求項３】前記特定区間が、第１の入力信号の入力
区間すべてである請求項１または請求項２に記載の雑音
除去方法。
【請求項４】前記特定区間が、第１の入力信号に含ま
れる音声信号が存在する区間のみである請求項１または
請求項２に記載の雑音除去方法。
【請求項５】前記特定区間が、第１の入力信号に含ま
れる音声信号が存在する区間のうち、特定の音韻区間と
パワーの大きい区間との少なくともいずれか一方である
請求項１または請求項２に記載の雑音除去方法。
【請求項６】第１の入力信号のスペクトルを求めるス
テップと、前記スペクトルの第１の特定区間の平均値で
ある第１平均スペクトルを求めるステップと、前記スペ
クトルを対数変換して対数スペクトルを求めるステップ
と、前記対数スペクトルの第２の特定区間の平均値であ
る平均対数スペクトルを求めるステップと、前記平均対
数スペクトルを指数変換し第２平均スペクトルを求める
ステップと、第２の入力信号のスペクトルを求めるステ
ップと、前記スペクトルから前記第１平均スペクトルを
減算するステップと、前記減算の結果を前記第２平均ス
ペクトルで除算して正規化スペクトルを求めるステップ
とを有する雑音除去方法。
【請求項７】第１の入力信号のスペクトルを求めるス
テップと、前記スペクトルの第１の特定区間の平均値で
ある平均スペクトルを求めるステップと、前記スペクト
ルの第２の特定区間の相乗平均値である相乗平均スペク
トルを求めるステップと、第２の入力信号のスペクトル
を求めるステップと、前記スペクトルから前記平均スペ
クトルを減算するステップと、前記減算結果を前記相乗
平均スペクトルで除算して正規化スペクトルを求めるス
テップとを有する雑音除去方法。
【請求項８】前記第１の特定区間及び前記第２の特定
区間の少なくともいずれか一方が、第１の入力信号の入
力区間すべてである請求項６または請求項７に記載の雑
音除去方法。
【請求項９】前記第１の特定区間及び前記第２の特定
区間の少なくともいずれか一方が、第１の入力信号に含
まれる音声信号が存在する区間のみである請求項６また
は請求項７に記載の雑音除去方法。
【請求項１０】前記第１の特定区間及び前記第２の特
定区間の少なくともいずれか一方が、第１の入力信号に
含まれる音声信号が存在する区間のうち、特定の音韻区
間とパワーの大きい区間との少なくともいずれか一方で
ある請求項６または請求項７に記載の雑音除去方法。
【請求項１１】前記第１の特定区間及び前記第２の特
定区間の少なくともいずれか一方が、第１の入力信号に
含まれる音声信号が存在しない区間のみである請求項６
または請求項７に記載の雑音除去方法。
【請求項１２】前記第１平均スペクトルに第１の定数
を乗算し、前記第２平均スペクトルに第２の定数を乗算
し、前記第１の定数と前記第２の定数の少なくともいず
れか一方が、スペクトルの周波数軸上での成分ごとに異
なった値である請求項６に記載の雑音除去方法。
【請求項１３】前記平均スペクトルに第１の定数を乗
算し、前記相乗平均スペクトルに第２の定数を乗算し、
前記第１の定数と前記第２の定数の少なくともいずれか
一方が、スペクトルの周波数軸上での成分ごとに異なっ
た値である請求項７に記載の雑音除去方法。
【請求項１４】理想伝送経路からの第１の入力信号の
スペクトルである理想スペクトルを求めるステップと、
前記理想スペクトルを対数変換して理想対数スペクトル
を求めるステップと、前記理想対数スペクトルの平均値
である理想平均対数スペクトルを求めるステップと、第
２の入力信号のスペクトルを求めるステップと、前記ス
ペクトルを対数変換して対数スペクトルを求めるステッ
プと、前記対数スペクトルの平均値である平均対数スペ
クトルを求めるステップと、前記平均対数スペクトルか
ら前記理想平均対数スペクトルを減算して差分対数スペ
クトルを求めるステップと、第３の入力信号の対数スペ
クトルを求めるステップと、前記第３の入力信号の対数
スペクトルから前記差分対数スペクトルを減算して正規
化対数スペクトルを求めるステップとを有する雑音除去
方法。
【請求項１５】理想伝送経路からの第１の入力信号の
スペクトルである理想スペクトルを求めるステップと、
前記理想スペクトルを対数変換して理想対数スペクトル
を求めるステップと、前記理想対数スペクトルの平均値
である理想平均対数スペクトルを求めるステップと、第
２の入力信号のスペクトルを求めるステップと、前記ス
ペクトルを対数変換して対数スペクトルを求めるステッ
プと、前記対数スペクトルの平均値である平均対数スペ
クトルを求めるステップと、前記平均対数スペクトルか
ら前記理想平均対数スペクトルを減算して差分対数スペ
クトルを求めるステップと、前記差分対数スペクトルを
指数変換して差分スペクトルを求めるステップと、第３
の入力信号のスペクトルを求めるステップと、前記差分
スペクトルで前記第３の入力信号のスペクトルを除算し
て正規化スペクトルを求めるステップとを有する雑音除
去方法。
【請求項１６】理想伝送経路からの第１の入力信号の
スペクトルである理想スペクトルを求めるステップと、
前記理想スペクトルの相乗平均値である理想相乗平均ス
ペクトルを求めるステップと、第２の入力信号のスペク
トルを求めるステップと、前記スペクトルの相乗平均値
である相乗平均スペクトルを求めるステップと、前記相
乗平均スペクトルを前記理想相乗平均スペクトルで除算
して差分相乗平均スペクトルを求めるステップと、第３
の入力信号のスペクトルを求めるステップと、前記第３
の入力信号のスペクトルを前記差分相乗平均スペクトル
で除算して正規化スペクトルを求めるステップとを有す
る雑音除去方法。
【請求項１７】前記除算が、逆数変換と乗算により処
理される請求項１乃至請求項２と、請求項６乃至請求項
７と、請求項１５乃至請求項１６のいずれかに記載の雑
音除去方法。
【請求項１８】前記対数変換が一般化対数変換であ
り、かつ前記指数変換が一般化指数変換である請求項１
と請求項６と請求項１５とのいずれかに記載の雑音除去
方法。
【請求項１９】前記対数変換が一般化対数変換である
請求項１４に記載の雑音除去方法。
【請求項２０】前記スペクトルがフーリエ分析により
得られる振幅スペクトルである請求項１乃至請求項１９
のいずれかに記載の雑音除去方法。
【請求項２１】前記スペクトルがフーリエ分析により
得られるパワースペクトルである請求項１乃至請求項１
９のいずれかに記載の雑音除去方法。
【請求項２２】前記スペクトルが聴覚フィルタやメル
フィルタに基づくフィルタバンク分析により得られる振
幅スペクトルである請求項１乃至請求項１９のいずれか
に記載の雑音除去方法。
【請求項２３】前記スペクトルが聴覚フィルタやメル
フィルタに基づくフィルタバンク分析により得られるパ
ワースペクトルである請求項１乃至請求項１９のいずれ
かに記載の雑音除去方法。
【請求項２４】入力信号のスペクトルを求めるスペク
トル算出部と、前記スペクトルから対数スペクトルを求
める対数変換部と、前記対数スペクトルを一時的に蓄積
する一時記憶部と、前記一時記憶部内の対数スペクトル
から特定区間のスペクトルを抽出する区間判定部と、前
記抽出された全対数スペクトルの平均値である平均対数
スペクトルを求める平均化処理部と、前記平均対数スペ
クトルを指数変換して平均スペクトルを求める指数変換
部と、前記平均スペクトルを記憶する記憶部と、前記記
憶部内の第１の入力信号から求めた前記平均スペクトル
で、第２の入力信号の前記スペクトル算出部からの出力
を除算して正規化スペクトルを求める除算器とを有する
雑音除去装置。
【請求項２５】入力信号のスペクトルを求めるスペク
トル算出部と、前記スペクトルを一時的に蓄積する一時
記憶部と、前記一時記憶部内のスペクトルから特定区間
のスペクトルを抽出する区間判定部と、前記抽出された
全スペクトルの相乗平均値である相乗平均スペクトルを
求める相乗平均化処理部と、前記相乗平均スペクトルを
記憶する記憶部と、前記記憶部内の第１の入力信号から
求めた前記相乗平均スペクトルで、第２の入力信号の前
記スペクトル算出部からの出力を除算して正規化スペク
トルを求める除算器とを有する雑音除去装置。
【請求項２６】入力信号のスペクトルを求めるスペク
トル算出部と、前記スペクトルから対数スペクトルを求
める対数変換部と、前記スペクトルと前記対数スペクト
ルをスペクトルデータとして一時的に蓄積する一時記憶
部と、特定区間を指定する区間指定部と、前記特定区間
の前記スペクトルデータを前記一時記憶部内から抽出す
る区間判定部と、前記抽出された全スペクトルデータの
平均値を求める平均化処理部と、前記平均化処理部から
の出力である平均対数スペクトルを指数変換する指数変
換部と、前記スペクトルの平均化処理の出力である第１
平均スペクトルと前記指数変換部の出力である第２平均
スペクトルとを記憶する記憶部と、前記記憶部内の第１
の入力信号から求めた前記第１平均スペクトルを、第２
の入力信号のスペクトル算出部の出力から減算する減算
器と、前記記憶部内の第１の入力信号から求めた前記第
２平均スペクトルで、前記減算器の出力を除算して正規
化スペクトルを求める除算器とを有する雑音除去装置。
【請求項２７】入力信号のスペクトルを求めるスペク
トル算出部と、前記スペクトルを一時的に蓄積する一時
記憶部と、特定区間を指定する区間指定部と、前記特定
区間のスペクトルを前記一時記憶部内から抽出する区間
判定部と、前記抽出された全スペクトルの平均値である
平均スペクトルを求める平均化処理部と、前記抽出され
た全スペクトルの相乗平均値である相乗平均スペクトル
を求める相乗平均処理部と、前記平均化処理部から求め
た平均スペクトルと、前記相乗平均処理部から求めた相
乗平均スペクトルとを記憶する記憶部と、前記記憶部内
の第１の入力信号から求めた前記平均スペクトルを、第
２の入力信号のスペクトル算出部の出力から減算する減
算器と、前記記憶部内の第１の入力信号から求めた前記
相乗平均スペクトルで、前記減算器の出力を除算して正
規化スペクトルを求める除算器とを有する雑音除去装
置。
【請求項２８】入力信号のスペクトルを求めるスペク
トル算出部と、前記スペクトルから対数スペクトルを求
める対数変換部と、前記対数スペクトルを一時的に蓄積
する一時記憶部と、前記一時記憶部内の全対数スペクト
ルの平均値である平均対数スペクトルを求める平均化処
理部と、前記平均対数スペクトルとあらかじめ求めた理
想平均対数スペクトルとを記憶する記憶部と、減算器と
を有し、前記理想平均対数スペクトルを、第１の入力信
号から求めた平均対数スペクトルから前記減算器で減算
し、前記減算結果である差分対数スペクトルを第２の入
力信号から求めた対数スペクトルから前記減算器で減算
して正規化スペクトルを求める雑音除去装置。
【請求項２９】入力信号のスペクトルを求めるスペク
トル算出部と、前記スペクトルから対数スペクトルを求
める対数変換部と、前記対数スペクトルを一時的に蓄積
する一時記憶部と、前記一時記憶部内の全対数スペクト
ルの平均値である平均対数スペクトルを求める平均化処
理部と、前記平均対数スペクトルとあらかじめ求めた理
想平均対数スペクトルとを記憶する記憶部と、前記理想
平均対数スペクトルを、第１の入力信号より求めた前記
平均対数スペクトルから減算し差分対数スペクトルを求
める減算器と、前記差分対数スペクトルを指数変換し、
差分スペクトルを求める指数変換部と、第２の入力信号
のスペクトルを前記差分スペクトルで除算して正規化ス
ペクトルを求める除算器とを有する雑音除去装置。
【請求項３０】入力信号のスペクトルを求めるスペク
トル算出部と、前記スペクトルを一時的に蓄積する一時
記憶部と、前記一時記憶部内の全スペクトルの相乗平均
である相乗平均スペクトルを求める相乗平均処理部と、
前記相乗平均スペクトルとあらかじめ求めた理想相乗平
均スペクトルとを記憶する記憶部と、除算器を有し、前
記理想相乗平均スペクトルで、前記記憶部内の第１の入
力信号より求めた相乗平均スペクトルを除算し、前記除
算結果である差分相乗平均スペクトルで、第２の入力信
号のスペクトルを除算して正規化スペクトルを求める雑
音除去装置。
【請求項３１】請求項２４乃至請求項３０のいずれか
に記載の雑音除去装置と、前記雑音除去装置の出力信号
の特徴量を抽出する特徴量抽出部と、前記特徴量と標準
モデルとの類似度を算出する類似度算出部と、前記類似
度で認識結果を判定する判定処理部とを有する音声認識
装置。