JP2003271190A - 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置 - Google Patents

雑音除去方法、雑音除去装置及び、それを用いた音声認識装置

Info

Publication number
JP2003271190A
JP2003271190A JP2002071891A JP2002071891A JP2003271190A JP 2003271190 A JP2003271190 A JP 2003271190A JP 2002071891 A JP2002071891 A JP 2002071891A JP 2002071891 A JP2002071891 A JP 2002071891A JP 2003271190 A JP2003271190 A JP 2003271190A
Authority
JP
Japan
Prior art keywords
spectrum
logarithmic
average
input signal
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002071891A
Other languages
English (en)
Inventor
Yoshihisa Nakato
良久 中藤
Keiko Morii
景子 森井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2002071891A priority Critical patent/JP2003271190A/ja
Publication of JP2003271190A publication Critical patent/JP2003271190A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 伝送特性を有する雑音を性能良く除去する雑
音除去方法、雑音除去装置及び、それを用いた音声認識
装置を提供すること。 【解決手段】 第1の入力信号のスペクトルを求めるス
テップ(S302)と、スペクトルを対数変換して対数
スペクトルを求めるステップ(S303)と、対数スペ
クトルの特定区間についての平均値である平均対数スペ
クトルを求めるステップ(S304)と、平均対数スペ
クトルを指数変換して平均スペクトルを求めるステップ
(S305)と、平均スペクトルで第2の入力信号のス
ペクトルを除算して正規化スペクトルを求めるステップ
(S310、S311)とを有することによって、伝送
歪を含む長時間平均された対数スペクトルで入力信号に
含まれる伝送歪を削除することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、マイク特性や回線
の伝送特性などの雑音が畳み込まれた信号から雑音を除
去する雑音除去方法、雑音除去装置及び、それを用いた
音声認識装置に関する。
【0002】
【従来の技術】従来、この雑音除去方法としては、例え
ば、特開昭60−254100号公報に記載されている
ようなものがあった。図16は、前記公報に記載された
従来の雑音除去装置のブロック図を示す。
【0003】図16において、従来の雑音除去装置は、
入力端子100と、周波数分析部200と、対数変換部
300と、スペクトル変換部400と、音声区間決定部
500と、音声の時間軸の正規化を行う再サンプル部と
を備えている。
【0004】また、音声区間決定部500は、対数変換
済データ部501、ノイズパターン検出部502,減算
回路503、乗算回路504、加算回路505、除算回
路506、Pパラメータメモリ507、第1比較器50
8、FLAG509、第1スムージング510、第2ス
ムージング511、ブロック化512、第2比較器51
3、ブロック決定514、音声区間決定515、MAX
BLKテーブル516とから構成されている。
【0005】
【発明が解決しようとする課題】しかしながら、このよ
うな従来の構成では、音声を周波数分析し、さらに対数
変換されたスペクトルから、ノイズのスペクトルを差し
引き、このスペクトルから得られるパワーから音声区間
を検出することが主たる目的であり、直接ノイズを差し
引いたスペクトルを音声認識などに用いることは明示さ
れていない。また従来例では、実環境で音声に畳み込ま
れた音声が伝送路を通過した場合の伝送歪みなどを、音
声の長時間スペクトルとともに除去することで、音響系
の歪みのないスペクトルを直接得て、このスペクトルを
音声認識などに直接用いることによる性能改善について
は全く明示されていない。
【0006】本発明は、このような従来の課題を解決す
るものであり、伝送特性を有する雑音を性能良く除去す
る雑音除去方法、雑音除去装置及び、それを用いた音声
認識装置を提供することを目的とする。
【0007】
【課題を解決するための手段】前記従来の課題を解決す
る本発明に係る雑音除去方法は、第1の入力信号のスペ
クトルを求めるステップと、スペクトルを対数変換して
対数スペクトルを求めるステップと、対数スペクトルの
特定区間についての平均値である平均対数スペクトルを
求めるステップと、平均対数スペクトルを指数変換して
平均スペクトルを求めるステップと、平均スペクトルで
第2の入力信号のスペクトルを除算して正規化スペクト
ルを求めるステップとを有している。
【0008】これによって、伝送歪を含む長時間平均さ
れた対数スペクトルで入力信号に含まれる伝送歪を削除
することができる。
【0009】また、本発明に係る雑音除去方法は、第1
の入力信号のスペクトルを求めるステップと、スペクト
ルの特定区間についての相乗平均値である相乗平均スペ
クトルを求めるステップと、相乗平均スペクトルで第2
の入力信号のスペクトルを除算して正規化スペクトルを
求めるステップとを有している。
【0010】これによって、伝送歪を含む長時間相乗平
均された相乗平均スペクトルで入力信号に含まれる伝送
歪を削除することができる。
【0011】また本発明に係る雑音除去方法の特定区間
が、第1の入力信号の入力区間すべてである。
【0012】これによって、音声と周囲雑音を区別する
ことなくスペクトルを集めることができ、第1の入力信
号の中の音声部分が少ない場合でも、正確に入力信号に
含まれる伝送歪を削除することができる。
【0013】また、本発明に係る雑音除去方法の特定区
間が、第1の入力信号に含まれる音声信号が存在する区
間のみである。
【0014】これによって、音声に畳み込まれた伝送歪
みのみを選択的にスペクトルを集めることができ、周囲
騒音などの加法性雑音の影響を受けにくいため、正確に
入力信号に含まれる伝送歪を削除することができる。
【0015】また、本発明に係る雑音除去方法の特定区
間が、第1の入力信号に含まれる音声信号が存在する区
間のうち、特定の音韻区間とパワーの大きい区間との少
なくともいずれか一方である。
【0016】これによって、音声の中でも母音部分や特
に音の大きい部分は周囲騒音などの加法性雑音の影響が
少ないため、音声に畳み込まれた伝送歪みを選択的に集
めることができ、正確に入力信号に含まれる伝送歪を削
除することができる。
【0017】また、本発明に係る雑音除去方法は、第1
の入力信号のスペクトルを求めるステップと、スペクト
ルの第1の特定区間の平均値である第1平均スペクトル
を求めるステップと、スペクトルを対数変換して対数ス
ペクトルを求めるステップと、対数スペクトルの第2の
特定区間の平均値である平均対数スペクトルを求めるス
テップと、平均対数スペクトルを指数変換し第2平均ス
ペクトルを求めるステップと、第2の入力信号のスペク
トルを求めるステップと、スペクトルから前記第1平均
スペクトルを減算するステップと、減算の結果を第2平
均スペクトルで除算して正規化スペクトルを求めるステ
ップとを有している。
【0018】これによって、周囲騒音を含む長時間平均
されたスペクトルと伝送歪を含む長時間平均された対数
スペクトルとで、同時に入力信号に含まれる雑音を削除
することができる。
【0019】また、本発明に係る雑音除去方法は、第1
の入力信号のスペクトルを求めるステップと、スペクト
ルの第1の特定区間の平均値である平均スペクトルを求
めるステップと、スペクトルの第2の特定区間の相乗平
均値である相乗平均スペクトルを求めるステップと、第
2の入力信号のスペクトルを求めるステップと、スペク
トルから平均スペクトルを減算するステップと、減算結
果を相乗平均スペクトルで除算して正規化スペクトルを
求めるステップとを有している。
【0020】これによって、周囲騒音を含む長時間平均
されたスペクトルと伝送歪を含む長時間相乗平均された
相乗平均スペクトルとで、同時に入力信号に含まれる雑
音を削除することができる。
【0021】また、本発明に係る雑音除去方法の第1の
特定区間及び第2の特定区間の少なくともいずれか一方
が、第1の入力信号の入力区間すべてである。
【0022】これによって、音声と周囲雑音を区別する
ことなくスペクトルを集めることができ、第1の入力信
号の中の音声部分が少ない場合でも、正確に入力信号に
含まれる伝送歪を削除することができる。
【0023】また、本発明に係る雑音除去方法の第1の
特定区間及び第2の特定区間の少なくともいずれか一方
が、第1の入力信号に含まれる音声信号が存在する区間
のみである。
【0024】これによって、音声に畳み込まれた伝送歪
みのみを選択的にスペクトルを集めることができ、周囲
騒音などの加法性雑音の影響を受けにくいため、正確に
入力信号に含まれる伝送歪を削除することができる。
【0025】また、本発明に係る雑音除去方法の第1の
特定区間及び第2の特定区間の少なくともいずれか一方
が、第1の入力信号に含まれる音声信号が存在する区間
のうち、特定の音韻区間とパワーの大きい区間との少な
くともいずれか一方である。
【0026】これによって、音声の中でも母音部分や特
に音の大きい部分は周囲騒音などの加法性雑音の影響が
少ないため、音声に畳み込まれた伝送歪みを選択的に集
めることができ、正確に入力信号に含まれる伝送歪を削
除することができる。
【0027】また、本発明に係る雑音除去方法の第1の
特定区間及び第2の特定区間の少なくともいずれか一方
が、第1の入力信号に含まれる音声信号が存在しない区
間のみである。
【0028】これによって、入力信号に含まれる周囲騒
音などの加法性雑音を正確に削除することができる。
【0029】また、本発明に係る雑音除去方法の第1平
均スペクトルに第1の定数を乗算し、第2平均スペクト
ルに第2の定数を乗算し、第1の定数と第2の定数の少
なくともいずれか一方が、スペクトルの周波数軸上での
成分ごとに異なった値である。
【0030】これによって、周波数毎にSNRに応じて
細かく乗算の度合いを制御することで、正確に入力信号
に含まれる伝送歪を削除することができる。
【0031】また、本発明に係る雑音除去方法の平均ス
ペクトルに第1の定数を乗算し、相乗平均スペクトルに
第2の定数を乗算し、第1の定数と第2の定数の少なく
ともいずれか一方が、スペクトルの周波数軸上での成分
ごとに異なった値である。
【0032】これによって、周波数毎にSNRに応じて
細かく乗算の度合いを制御することで、正確に入力信号
に含まれる伝送歪を削除することができる。
【0033】また、本発明に係る雑音除去方法は、理想
伝送経路からの第1の入力信号のスペクトルである理想
スペクトルを求めるステップと、理想スペクトルを対数
変換して理想対数スペクトルを求めるステップと、理想
対数スペクトルの平均値である理想平均対数スペクトル
を求めるステップと、第2の入力信号のスペクトルを求
めるステップと、スペクトルを対数変換して対数スペク
トルを求めるステップと、対数スペクトルの平均値であ
る平均対数スペクトルを求めるステップと、平均対数ス
ペクトルから理想平均対数スペクトルを減算して差分対
数スペクトルを求めるステップと、第3の入力信号の対
数スペクトルを求めるステップと、第3の入力信号の対
数スペクトルから差分対数スペクトルを減算して正規化
対数スペクトルを求めるステップとを有する。
【0034】これによって、伝送歪を含まない音声のみ
の長時間平均されたスペクトルを、伝送歪と音声の両方
を含むスペクトルから削除することで伝送歪のみのスペ
クトルが求まるので、その後の入力信号から伝送歪を精
度良く削除することができる。
【0035】また、本発明に係る雑音除去方法は、理想
伝送経路からの第1の入力信号のスペクトルである理想
スペクトルを求めるステップと、理想スペクトルを対数
変換して理想対数スペクトルを求めるステップと、理想
対数スペクトルの平均値である理想平均対数スペクトル
を求めるステップと、第2の入力信号のスペクトルを求
めるステップと、スペクトルを対数変換して対数スペク
トルを求めるステップと、対数スペクトルの平均値であ
る平均対数スペクトルを求めるステップと、平均対数ス
ペクトルから理想平均対数スペクトルを減算して差分対
数スペクトルを求めるステップと、差分対数スペクトル
を指数変換して差分スペクトルを求めるステップと、第
3の入力信号のスペクトルを求めるステップと、差分ス
ペクトルで第3の入力信号のスペクトルを除算して正規
化スペクトルを求めるステップとを有している。
【0036】これによって、伝送歪を含まない音声のみ
の長時間平均されたスペクトルを、伝送歪と音声の両方
を含むスペクトルから削除することで伝送歪のみのスペ
クトルが求まる。また、周囲騒音を含む長時間平均され
たスペクトルも用いて、その後の入力信号から伝送歪と
周囲騒音を同時に精度良く削除することができる。
【0037】また、本発明に係る雑音除去方法は、理想
伝送経路からの第1の入力信号のスペクトルである理想
スペクトルを求めるステップと、理想スペクトルの相乗
平均値である理想相乗平均スペクトルを求めるステップ
と、第2の入力信号のスペクトルを求めるステップと、
スペクトルの相乗平均値である相乗平均スペクトルを求
めるステップと、相乗平均スペクトルから理想相乗平均
スペクトルを除算して差分相乗平均スペクトルを求める
ステップと、第3の入力信号のスペクトルを求めるステ
ップと、第3の入力信号のスペクトルを差分相乗平均ス
ペクトルで除算して正規化スペクトルを求めるステップ
とを有している。
【0038】これによって、伝送歪を含まない音声のみ
の長時間平均されたスペクトルを、伝送歪と音声の両方
を含むスペクトルから削除することで伝送歪のみのスペ
クトルが求まる。また、周囲騒音を含む長時間平均され
たスペクトルも用いて、その後の入力信号から伝送歪と
周囲騒音を同時に精度良く削除することができる。
【0039】また、本発明に係る雑音除去方法の除算
が、逆数変換と乗算により処理される。
【0040】これによって、逆数変換までの時間のかか
る処理を事前に済ませておくことができ、その後の入力
信号からの雑音除去が高速に行うことができる。
【0041】また、本発明に係る雑音除去方法の対数変
換が一般化対数変換であり、かつ指数変換が一般化指数
変換である。
【0042】これによって、音声に含まれる周囲騒音な
どの加法性雑音と、音声に畳み込まれた伝送歪みとを、
同時に削除することができる。
【0043】また、本発明に係る雑音除去方法の対数変
換が一般化対数変換である。
【0044】これによって、音声に含まれる周囲騒音な
どの加法性雑音と、音声に畳み込まれた伝送歪みとを、
同時に削除することができる。
【0045】また、本発明に係る雑音除去方法のスペク
トルがフーリエ分析により得られる振幅スペクトルであ
る。
【0046】これによって、正確に入力信号に含まれる
伝送歪を削除することができる。
【0047】また、本発明に係る雑音除去方法のスペク
トルがフーリエ分析により得られるパワースペクトルで
ある。
【0048】これによって、正確に入力信号に含まれる
伝送歪を削除することができる。
【0049】また、本発明に係る雑音除去方法のスペク
トルが聴覚フィルタやメルフィルタに基づくフィルタバ
ンク分析により得られる振幅スペクトルである。
【0050】これによって、少ない処理量で入力信号に
含まれる伝送歪を削除することができる。
【0051】また、本発明に係る雑音除去方法のスペク
トルが聴覚フィルタやメルフィルタに基づくフィルタバ
ンク分析により得られるパワースペクトルである。
【0052】これによって、少ない処理量で入力信号に
含まれる伝送歪を削除することができる。
【0053】また、本発明に係る雑音除去装置は、入力
信号のスペクトルを求めるスペクトル算出部と、スペク
トルから対数スペクトルを求める対数変換部と、対数ス
ペクトルを一時的に蓄積する一時記憶部と、一時記憶部
内の対数スペクトルから特定区間のスペクトルを抽出す
る区間判定部と、抽出された全対数スペクトルの平均値
である平均対数スペクトルを求める平均化処理部と、平
均対数スペクトルを指数変換して平均スペクトルを求め
る指数変換部と、平均スペクトルを記憶する記憶部と、
記憶部内の第1の入力信号から求めた平均スペクトル
で、第2の入力信号のスペクトル算出部からの出力を除
算して正規化スペクトルを求める除算器とを有してい
る。
【0054】これによって、伝送歪を含む長時間平均さ
れた対数スペクトルで入力信号に含まれる伝送歪を削除
することができる。
【0055】また、本発明に係る雑音除去装置は、入力
信号のスペクトルを求めるスペクトル算出部と、スペク
トルを一時的に蓄積する一時記憶部と、一時記憶部内の
スペクトルから特定区間のスペクトルを抽出する区間判
定部と、抽出された全スペクトルの相乗平均値である相
乗平均スペクトルを求める相乗平均化処理部と、相乗平
均スペクトルを記憶する記憶部と、記憶部内の第1の入
力信号から求めた相乗平均スペクトルで、第2の入力信
号のスペクトル算出部からの出力を除算して正規化スペ
クトルを求める除算器とを有している。
【0056】これによって、伝送歪を含む長時間相乗平
均された相乗平均スペクトルで入力信号に含まれる伝送
歪を削除することができる。
【0057】また、本発明に係る雑音除去装置は、入力
信号のスペクトルを求めるスペクトル算出部と、スペク
トルから対数スペクトルを求める対数変換部と、スペク
トルと対数スペクトルをスペクトルデータとして一時的
に蓄積する一時記憶部と、特定区間を指定する区間指定
部と、特定区間の前記スペクトルデータを一時記憶部内
から抽出する区間判定部と、抽出された全スペクトルデ
ータの平均値を求める平均化処理部と、平均化処理部か
らの出力である平均対数スペクトルを指数変換する指数
変換部と、スペクトルの平均化処理の出力である第1平
均スペクトルと指数変換部の出力である第2平均スペク
トルとを記憶する記憶部と、記憶部内の第1の入力信号
から求めた第1平均スペクトルを、第2の入力信号のス
ペクトル算出部の出力から減算する減算器と、記憶部内
の第1の入力信号から求めた第2平均スペクトルで、減
算器の出力を除算して正規化スペクトルを求める除算器
とを有している。
【0058】これによって、周囲騒音を含む長時間平均
されたスペクトルと伝送歪を含む長時間平均されたスペ
クトルとで、同時に入力信号に含まれる雑音を削除する
ことができる。
【0059】また、本発明に係る雑音除去装置は、入力
信号のスペクトルを求めるスペクトル算出部と、スペク
トルを一時的に蓄積する一時記憶部と、特定区間を指定
する区間指定部と、特定区間のスペクトルを一時記憶部
内から抽出する区間判定部と、抽出された全スペクトル
の平均値である平均スペクトルを求める平均化処理部
と、抽出された全スペクトルの相乗平均値である相乗平
均スペクトルを求める相乗平均処理部と、平均化処理部
から求めた平均スペクトルと、相乗平均処理部から求め
た相乗平均スペクトルとを記憶する記憶部と、記憶部内
の第1の入力信号から求めた平均スペクトルを、第2の
入力信号のスペクトル算出部の出力から減算する減算器
と、記憶部内の第1の入力信号から求めた相乗平均スペ
クトルで、減算器の出力を除算して正規化スペクトルを
求める除算器とを有している。
【0060】これによって、周囲騒音を含む長時間平均
されたスペクトルと伝送歪を含む長時間相乗平均された
相乗平均スペクトルとで、同時に入力信号に含まれる雑
音を削除することができる。
【0061】また、本発明に係る雑音除去装置は、入力
信号のスペクトルを求めるスペクトル算出部と、スペク
トルから対数スペクトルを求める対数変換部と、対数ス
ペクトルを一時的に蓄積する一時記憶部と、一時記憶部
内の全対数スペクトルの平均値である平均対数スペクト
ルを求める平均化処理部と、平均対数スペクトルとあら
かじめ求めた理想平均対数スペクトルとを記憶する記憶
部と、減算器とを有し、理想平均対数スペクトルを、第
1の入力信号から求めた平均対数スペクトルから減算器
で減算し、減算結果である差分対数スペクトルを第2の
入力信号から求めた対数スペクトルから減算器で減算し
て正規化スペクトルを求める。
【0062】これによって、伝送歪を含まない音声のみ
の長時間平均されたスペクトルを、伝送歪と音声の両方
を含むスペクトルから削除することで伝送歪のみのスペ
クトルが求まるので、その後の入力信号から伝送歪を精
度良く削除することができる。
【0063】また、本発明に係る雑音除去装置は、入力
信号のスペクトルを求めるスペクトル算出部と、スペク
トルから対数スペクトルを求める対数変換部と、対数ス
ペクトルを一時的に蓄積する一時記憶部と、一時記憶部
内の全対数スペクトルの平均値である平均対数スペクト
ルを求める平均化処理部と、平均対数スペクトルとあら
かじめ求めた理想平均対数スペクトルとを記憶する記憶
部と、理想平均対数スペクトルを、第1の入力信号より
求めた平均対数スペクトルから減算し差分対数スペクト
ルを求める減算器と、差分対数スペクトルを指数変換
し、差分スペクトルを求める指数変換部と、第2の入力
信号のスペクトルを差分スペクトルで除算して正規化ス
ペクトルを求める除算器とを有する。
【0064】これによって、伝送歪を含まない音声のみ
の長時間平均されたスペクトルを、伝送歪と音声の両方
を含むスペクトルから削除することで伝送歪のみのスペ
クトルが求まるので、その後の入力信号から伝送歪を精
度良く削除することができる。
【0065】また、本発明に係る雑音除去装置は、入力
信号のスペクトルを求めるスペクトル算出部と、スペク
トルを一時的に蓄積する一時記憶部と、一時記憶部内の
全スペクトルの相乗平均である相乗平均スペクトルを求
める相乗平均処理部と、相乗平均スペクトルとあらかじ
め求めた理想相乗平均スペクトルとを記憶する記憶部
と、除算器を有し、理想相乗平均スペクトルで、記憶部
内の第1の入力信号より求めた相乗平均スペクトルを除
算し、除算結果である差分相乗平均スペクトルで、第2
の入力信号のスペクトルを除算して正規化スペクトルを
求める。
【0066】これによって、伝送歪を含まない音声のみ
の長時間平均されたスペクトルを、伝送歪と音声の両方
を含むスペクトルから削除することで伝送歪のみのスペ
クトルが求まるので、その後の入力信号から伝送歪を精
度良く削除することができる。
【0067】また、本発明に係る音声認識装置は、本発
明の雑音除去装置と、雑音除去装置の出力信号の特徴量
を抽出する特徴量抽出部と、特徴量と標準モデルとの類
似度を算出する類似度算出部と、類似度で認識結果を判
定する判定処理部とを有している。
【0068】これによって、雑音が削除された音声の認
識処理を行うため、音声認識性能を高くすることができ
る。
【0069】
【発明の実施の形態】以下、本発明を図面と共に詳細に
説明する。
【0070】(実施の形態1)図1は本発明の第1の実
施の形態による音声認識装置の構成を示すブロック図で
あり、マイクロフォン101、雑音除去装置102、特
徴量抽出部103、類似度算出部104、標準モデル辞
書105、判定処理部106で構成されている。
【0071】以上のように構成された音声認識装置につ
いて、以下にその動作を説明する。
【0072】マイク101から取り込まれた音声が雑音
除去装置102に入力され、ここで10ms程度の周期
でフレーム分析され、後述する雑音除去方法により、周
囲環境の雑音や、マイクや伝送路が有する伝送特性雑音
を除去される。その後、特徴量抽出部103により音声
認識で使用される特徴量、たとえばケプストラム係数が
抽出される。この抽出は対数的な変換処理により対数ス
ペクトルを求めておいてから、逆フーリエ変換や逆コサ
イン変換をすることにより算出できる。そして、あらか
じめ標準モデル辞書105に登録されている複数の単語
の特徴量との類似度が類似度算出部104で算出され
る。その類似度がある閾値よりも大きいか否かを判定処
理部106で判定し、大きければその単語を認識結果と
して出力する。
【0073】標準モデルとしては、複数の認識対象語彙
毎の特徴量の時系列を確率的な遷移として表現する隠れ
マルコフモデル(HMM)と呼ばれる方法がある。HM
Mとは、あらかじめ個人差による音韻や単語の特徴量の
時系列をHMMモデルに学習させておき、入力音声がモ
デルに確率値としてどのくらい近いかを捉えて認識する
方法である。また、標準モデルとしては、複数の認識対
象語彙毎の特徴量の時系列の中の代表的な特徴量の時系
列をモデルとしても良いし、さらに特徴量の時系列を時
間的あるいは周波数的に正規化(伸縮)することで得ら
れる特徴量の正規化時系列を用いてもよい。例えば、時
間軸上で任意の長さに正規化する方法としDPマッチン
グ(動的計画法)があり、あらかじめ決定した対応付け
の規則に従って、時間的特徴量の時系列を正規化するこ
とが可能である。
【0074】本実施形態では、このようにいずれの場合
の標準モデルを使用することができる。ただし、いずれ
の標準モデルを作成する場合でも、標準モデルを作成す
るための多量の音声データをあらかじめ用意しておき、
入力音声の対数スペクトルから環境学習データから作成
した平均対数スペクトルを減算したのと同様な処理を施
す必要がある。具体的には、標準モデルを作成するため
の多量の音声データ(以降、標準学習データと呼ぶ)を
フーリエ変換あるいはフィルタバンク分析することによ
りスペクトルを算出し、さらにスペクトルから対数的な
変換処理により対数スペクトルを求め、標準学習データ
から得られる複数の対数スペクトルを用いて、その平均
値である平均対数スペクトルを求め、標準学習データか
ら得られるすべての対数スペクトルからこの平均対数ス
ペクトル減算することで正規化対数スペクトルを求め、
さらに正規化対数スペクトルから音声認識に用いるケプ
ストラム係数などの特徴量を算出し、この特徴量の時系
列を用いて標準モデルを作成する。
【0075】この雑音除去装置のブロック図を図2に示
す。
【0076】図2において、スペクトル算出部201
は、入力音声をフーリエ変換あるいはフィルタバンク分
析することにより周波数成分、すなわちスペクトルを算
出するためのものである。対数変換部202は、スペク
トル算出部201で求めたスペクトルを対数的な変換処
理により対数スペクトルを求めるものである。一時記憶
部203はスペクトル算出部201あるいは対数変換部
202からの出力を一時的に蓄積しておくためのもので
ある。区間指定部204は、一時記憶部203から抽出
するスペクトルの区間と、対数スペクトルの区間をそれ
ぞれ指定するものである。区間判定部205は対象とす
る音声区間を特定し、一時記憶部203からその区間の
スペクトルあるいは対数スペクトルを抽出するものであ
る。平均化処理部206は区間判定部205で抽出した
全スペクトルあるいは全対数スペクトルの平均値である
平均スペクトルあるいは平均対数スペクトルを求めるも
のである。指数・逆数変換部207は平均化処理部20
6で求めた平均対数スペクトルを指数変換し、さらに逆
数を計算し、対数スペクトルからの逆平均スペクトルを
求めるものである。記憶部208は平均スペクトル及
び、逆平均スペクトルを記憶しておくためのものであ
る。減算器209はスペクトル算出部201から平均ス
ペクトルを減算するものである。乗算器210はスペク
トル算出部201で算出したスペクトルと記憶部208
に保持してある逆平均スペクトルを乗算するものであ
る。
【0077】以上のように構成された雑音除去装置10
2について、図3を用いて以下にその動作、作用を説明
する。
【0078】図3は雑音除去方法の処理の流れを示す流
れ図である。
【0079】まず、入力されたディジタル音声(以下、
「入力音声」と記す。)があらかじめ音声認識を行う環
境で収録した音(以下、「環境学習データ」と記す。)
か否かの判定を行う(ステップS301)。環境学習デ
ータは、音声認識の対象となる音声が発声される時期と
は無関係なデータを用いてもかまわないし、発声の直前
のデータを用いことや、音声認識の対象となる音声その
ものを用いてもかまわない。また、音声のみならず雑音
などの非音声や音のレベルの低い無音などを含めてもか
まわない。入力音声が環境学習データであった場合、そ
れの時系列データは、スペクトル算出部201で一定周
期の長さ(フレーム)毎に分割される。そして、このフ
レーム毎の入力音声をフーリエ変換(具体的にはFFT
分析)することにより、スペクトルと呼ばれる周波数成
分を算出する(ステップS302)。スペクトルとして
は、振幅スペクトルやその2乗であるパワースペクトル
があるが、いずれの場合もその算出方法は既知であり、
どちらを用いても良い。また、フーリエ変換の他にフィ
ルタバンク分析を行うことで得られるスペクトルを用い
ても良い。フィルタバンクとは、周波数軸上を複数のバ
ンドパスフィルタで区分して、それぞれのフィルタの出
力から音声信号の周波数帯域ごとのスペクトルを求める
方法である。このバンドパスフィルタを設計する際に、
周波数軸上を等間隔に分割する場合(リニア)や、例え
ば聴覚の特性に応じて設計する臨界帯域フィルタのよう
に周波数軸上を不均一に分割する場合がある。一方、フ
ーリエ変換により得られた周波数成分から、図14のよ
うなフィルタバンクを用いて各周波数成分の重み付け線
形和を求め、これを帯域ごとの周波数成分として扱うこ
とも可能である。図14は、聴覚の特性に応じて周波数
軸をメル周波数軸上で等間隔に分割するように、三角型
のフィルタで構成された場合である。横軸が周波数軸を
表す。各フィルタは式(1)により構成することが可能
である。
【0080】
【数1】
【0081】ここで、Mel(f)は、周波数軸伸縮さ
れた周波数軸上での周波数を表し、式(1)は通常の周
波数軸fとの関係を表した式である。式(1)で、a、
fnはそれぞれ定数である。そして、
【0082】
【数2】
【0083】
【数3】
【0084】のとき、メル周波数軸にほぼ一致すること
が分かっている。
【0085】図15は、周波数軸伸縮された周波数軸上
(縦軸)と伸縮前の通常の周波数軸(横軸)との関係を
表した図である。
【0086】次に、対数変換部202が対数的な変換処
理により対数スペクトルを算出する(ステップS30
3)。対数的な変換処理としては、単純にスペクトルの
対数(自然対数、常用対数)を計算する方法や、一般化
対数変換処理や、n乗根を計算する方法、それらを周波
数毎に組み合わせて用いる方法などが可能である。ここ
で、一般化対数変換処理とは、リニアスケールと対数ス
ケールの中間的な表現が可能な変換処理である。たとえ
ば、変換前のスペクトルS(i,k)を変換後の一般化
対数スペクトルG(i,k)に変換するための関数F
は、式(2)で与えられる。
【0087】
【数4】
【0088】ただし、
【0089】
【数5】
【0090】γは、リニアスケールと対数スケールの度
合いを決定するパラメータであり、γ=0のとき対数ス
ペクトル、γ=1のときスペクトルに対応する。
【0091】次に、対数スペクトルは一時記憶部203
に蓄積された後、区間判定部205が全対数スペクトル
から対象となる区間のものを抽出し、それらの平均値を
平均化処理部206で算出する(ステップS304)。
ここで、jフレーム目の対数スペクトルをL(j,k)
とすると、平均対数スペクトルLave(k)は式
(3)で表される。
【0092】
【数6】
【0093】ここで、Nは平均を求める際の対数スペク
トルの個数である。
【0094】また、対象となる区間のフレームの対数ス
ペクトルを計算に用いるかで、それぞれ異なる効果が得
られる。
【0095】(1)全フレームをNフレーム分用いて平
均対数スペクトルを求める場合は、音声と周囲雑音を区
別する手間が省け、スペクトルを数多く集めることがで
きるので、入力信号の中の音声部分が少ない場合でも、
入力信号に畳み込まれた伝送歪みを正確に削除すること
が可能になる。
【0096】(2)パワーの大きさやスペクトルの形状
から、音声と判定されたフレームをNフレーム分用いて
平均対数スペクトルを求める場合は、音声に畳み込まれ
た伝送歪みを含むスペクトルのみを選択的に集めること
ができ、周囲騒音などの加法性雑音の影響を受けること
なく、入力信号に畳み込まれた伝送歪みを正確に削除す
ることが可能になる。
【0097】(3)パワーの大きさやスペクトルの形状
から、雑音と判定されたフレームをNフレーム分用いて
平均対数スペクトルを求める場合は、入力信号に畳み込
まれた伝送歪みを正確に削除することができる。
【0098】(4)パワーの大きさやスペクトルの形状
から、音声と判定されたフレーム特定の音韻区間とパワ
ーの大きい区間の少なくともいずれか一方をNフレーム
分用いて平均対数スペクトルを求める場合は、音声の中
でも母音部分や特に音の大きい部分は周囲騒音などの加
法性雑音の影響が少ないので、入力信号に畳み込まれた
伝送歪みを正確に削除することが可能になる。
【0099】(5)パワーの大きさやスペクトルの形状
から、音声と判定されないフレームをNフレーム分用い
て平均対数スペクトルを求める場合は、入力信号に畳み
込まれた伝送歪みを正確に削除することができる。
【0100】これらの対象となる区間の指定を区間指定
部204が行い、区間判定部205に指示する。このよ
うに、環境学習用データから得られる複数の対数スペク
トルの平均値を求めることは、音声の長時間対数スペク
トルを求めていることと等価になるが、マイクロフォン
の特性や音声が伝送路を通過した場合の伝送歪みなど主
に音響系の歪みは、短時間には変動しないと仮定する
と、音声の長時間対数スペクトルに重畳された形で推定
することが可能となる。
【0101】指数・逆数変換部207は、式(4)のよ
うに平均化処理部206で求めた環境学習データから得
られた平均対数スペクトルLave(k)を指数変換
し、さらに逆数を計算することで、逆平均スペクトルS
ave_inv(k)を求める(ステップS305)。
【0102】
【数7】
【0103】ここで、βは音響系の歪みを除去する度合
いをコントロールする係数であり、実験により決定する
ことが可能である。さらにβを周波数成分ごとに制御で
きるようにβ(k)の形式で扱うことで、より細かい制御
が可能となる。
【0104】また、対数変換が一般化対数変換の場合に
は、この指数変換は一般化指数変換となり、平均一般化
対数スペクトルを平均一般化スペクトルに変換すること
になる。
【0105】次に、算出された逆平均対数スペクトルは
記憶部208に保存される(ステップS306)。
【0106】また一方、ステップS302で算出された
スペクトルも対数スペクトル同様に、一時記憶部203
に蓄積されたのち、区間指定部204からの指示で区間
判定部205が抽出する。その抽出された全スペクトル
は平均化処理部206で、式(5)に従って平均化さ
れ、環境学習データから得られた複数のスペクトルの平
均値である平均スペクトルが求まる(ステップS30
7)。ここで、jフレーム目のスペクトルをS(j,
k)とすると、平均スペクトルSSave(k)は次式
で表される。
【0107】
【数8】
【0108】ここで、Nは平均を求める際のスペクトル
の個数である。
【0109】また、対数スペクトルの場合と同様、対象
となる区間のフレームにどのスペクトルを計算に用いる
かで、それぞれ異なる効果が得られる。
【0110】(1)全フレームをNフレーム分用いて平
均スペクトルを求める場合は、音声と周囲雑音を区別す
る手間が省け、スペクトルを数多く集めることができる
ので、入力信号の中の音声部分が少ない場合でも、入力
信号に含まれる周囲騒音などの加法性雑音を正確に削除
することが可能になる。
【0111】(2)パワーの大きさやスペクトルの形状
から、音声と判定されたフレームをNフレーム分用いて
平均スペクトルを求める場合は、音声に含まれる周囲騒
音などの加法性雑音を含むスペクトルのみを選択的に集
めることができ、入力信号に含まれる周囲騒音などの加
法性雑音を正確に削除することが可能になる。
【0112】(3)パワーの大きさやスペクトルの形状
から、雑音と判定されたフレームをNフレーム分用いて
平均スペクトルを求める場合は、入力信号に含まれる周
囲騒音などの加法性雑音を正確に削除することができ
る。
【0113】(4)パワーの大きさやスペクトルの形状
から、音声と判定されたフレーム特定の音韻区間とパワ
ーの大きい区間の少なくともいずれか一方をNフレーム
分用いて平均スペクトルを求める場合は、音声の中でも
母音部分や特に音の大きい部分は周囲騒音などの加法性
雑音の影響が少ないので、入力信号に含まれる周囲騒音
などの加法性雑音を正確に削除することが可能になる。
【0114】(5)パワーの大きさやスペクトルの形状
から、音声と判定されないフレームをNフレーム分用い
て平均スペクトルを求める場合は、入力信号に含まれる
周囲騒音などの加法性雑音を正確に削除することができ
る。
【0115】これらの対象となる区間の指定を区間指定
部204が行い、区間判定部205に指示する。このよ
うに、環境学習用データから得られる複数の対数スペク
トルの平均値を求めることは、音声の長時間対数スペク
トルを求めていることと等価になるが、マイクロフォン
の特性や音声が伝送路を通過した場合の伝送歪みなど主
に音響系の歪みは、短時間には変動しないと仮定する
と、音声の長時間対数スペクトルに重畳された形で推定
することが可能となる。
【0116】このように、環境学習用データから得られ
る複数のスペクトルの平均値を求めることは、騒音の長
時間スペクトル(騒音スペクトル)を求めていることと
等価になる。背景騒音が、短時間に大きく変動しないと
仮定すると、騒音の長時間スペクトルを安定して求める
ことが可能になる。そして、この騒音スペクトルをフレ
ーム毎の入力音声のスペクトルから減算することで、騒
音の影響を受けていない音声スペクトルを求めることが
でき、これを音声認識に用いることで正確に音声認識す
ることが可能となる。
【0117】この処理を行うために、以上により算出さ
れた平均スペクトルは記憶部208に保存される(ステ
ップS308)。
【0118】次に、音声認識の対象となる入力音声が入
力されると、環境学習データでないと判定され(ステッ
プS301)、スペクトル算出部201でスペクトルS
(i,k))の算出が行われる(ステップS309)。
【0119】次に、減算器209が式(6)に従って、
このスペクトルS(i,k)から記憶部210内の平均
スペクトルSave(k)を減算し、正規化スペクトル
Snorml(i,k)を求める(ステップS31
0)。
【0120】
【数9】
【0121】ここで、αは周囲の騒音を除去する度合い
をコントロールする係数であり、実験により決定するこ
とが可能である。さらにαを周波数成分ごとに制御でき
るようにα(k)の形式で扱うことで、より細かいスペク
トルの制御が可能となる。
【0122】次に、乗算器210が式(7)に従って、
正規化スペクトルSnorml(i,k)に、記憶部2
08内の逆平均スペクトルSave_inv(k)を乗
算し、最終の正規化スペクトルSnorm2(i,k)
を求める。
【0123】
【数10】
【0124】この結果が前述の特徴量抽出部103に入
力される。
【0125】このように、マイクロフォンの特性や音声
が伝送路を通過した場合の伝送歪みなど、主に音響系の
歪みと、騒音が入力音声から同一次元で演算でき、効率
的に除去することができる。これにより、従来に比べ少
ない処理量で高い認識性能を実現することができる。ま
た、処理時間のかかる対数変換は事前に済ませておける
ため、音声認識処理の高速化が可能となる。
【0126】本発明の雑音除去方法の効果を確認するた
め、音声認識装置を用いて、実際に本発明の対数スペク
トル領域での音響系の歪みである乗法性歪み除去と、ケ
プストラム平均除去との比較を行った。実験には音声デ
ータとして、ATRの音声データベースC1セット(最
重要語520単語)中の男性話者60名を用いた。40
名の話者(M101からM120、M301からM32
0)によりHMMの学習を行い、学習話者以外の残りの
20名の話者(M401からM420)で評価を行っ
た。HMMは、まずラベル情報であるデータ(M101
からM120)を用いて初期学習を行い、更に40名全
員を用いて連結学習を行った。
【0127】実験に使用する音響単位としては、約26
0種類の音素文脈依存HMMを音響単位として用いた。
HMMの構造は、4状態3分布の対角ガウス型連続分布
HMMであり、1分布あたりの混合数は2である。
【0128】音声の分析条件を表1に示す。実験に用い
るパラメータはメルフィルタバンク・ケプストラム係数
であり、同時に1次の回帰係数(Δケプストラム)も用
いたが、Δケプストラム係数は乗法性歪みを除去した後
のケプストラム係数から計算で求めた。また、ケプスト
ラム及び、Δケプストラムの各0次の項(パワー項)は
用いなかった。
【0129】
【表1】
【0130】また、付加する乗法性歪みとしては、カッ
トオフ周波数fc=3.4kHzで、−6dB/oct
の特性を持つローパスフィルタを用い、評価話者20
名(M401からM420)の音声データにのみ付加し
た。
【0131】この結果は、本発明の雑音除去を行った場
合、単語認識率は97.72%であり、ケプストラム平
均除去を行った場合は、97.49%であった。本発明
の雑音除去方法を用いた場合、従来に比べて誤り率が、
約9%改善された。このように、本発明によれば音声認
識率の向上を図ることができる。
【0132】(実施の形態2)図4は、本発明の第2の
実施の形態の雑音除去装置のブロック図である。
【0133】図4において、相乗平均処理部401はス
ペクトルの相乗平均である相乗平均スペクトルを算出す
るものであり、逆数変換部402は相乗平均スペクトル
の逆数を求めるものである。その他のスペクトル算出部
201、一時記憶部203、区間指定部204、区間判
定部205、平均化処理部206、記憶部208、減算
器209、乗算器210は実施の形態1と同じものであ
る。
【0134】以上のように構成された雑音除去装置10
2について、図5を用いて以下にその動作、作用を説明
する。
【0135】図5は雑音除去方法の処理の流れを示す流
れ図である。なお、図中、実施の形態1と同じ番号のス
テップは実施の形態1と同一の処理であることを示して
いる。
【0136】まず、入力音声が環境学習データか否かの
判定を行う(ステップS301)。
【0137】次に、入力音声が環境学習データであった
場合、それの時系列データは、スペクトル算出部201
で一定周期の長さ(フレーム)毎に分割される。そし
て、このフレーム毎の入力音声をフーリエ変換(具体的
にはFFT分析)することにより、スペクトルを算出す
る(ステップS302)。
【0138】次に、ステップS302で算出されたスペ
クトルは、一時記憶部203に蓄積されたのち、区間指
定部204からの指示で区間判定部205が抽出する。
その抽出された全スペクトルは平均化処理部206で、
式(8)に従って相乗平均の演算がされ、環境学習デー
タから得られた複数のスペクトルの相乗平均値である相
乗平均スペクトルが求まる(ステップS501)。ここ
で、jフレーム目のスペクトルをS(j,k)とする
と、平均スペクトルSmave(k)は次式で表され
る。
【0139】
【数11】
【0140】ここで、Nは平均を求める際のスペクトル
の個数である。
【0141】また、対象となる区間のフレームにどのス
ペクトルを計算に用いるかで、それぞれ異なる効果が得
られる。
【0142】(1)全フレームをNフレーム分用いて相
乗平均スペクトルを求める場合は、音声と周囲雑音を区
別する手間が省け、スペクトルを数多く集めることがで
きるので、入力信号の中の音声部分が少ない場合でも、
入力信号に畳み込まれた伝送歪みを正確に削除すること
が可能になる。
【0143】(2)パワーの大きさやスペクトルの形状
から、音声と判定されたフレームをNフレーム分用いて
相乗平均スペクトルを求める場合は、音声に畳み込まれ
た伝送歪みを含むスペクトルのみを選択的に集めること
ができ、周囲騒音などの加法性雑音の影響を受けること
なく、入力信号に畳み込まれた伝送歪みを正確に削除す
ることが可能になる。
【0144】(3)パワーの大きさやスペクトルの形状
から、雑音と判定されたフレームをNフレーム分用いて
相乗平均スペクトルを求める場合は、入力信号に畳み込
まれた伝送歪みを正確に削除することができる。
【0145】(4)パワーの大きさやスペクトルの形状
から、音声と判定されたフレーム特定の音韻区間とパワ
ーの大きい区間の少なくともいずれか一方をNフレーム
分用いて相乗平均スペクトルを求める場合は、音声の中
でも母音部分や特に音の大きい部分は周囲騒音などの加
法性雑音の影響が少ないので、入力信号に畳み込まれた
伝送歪みを正確に削除することが可能になる。
【0146】(5)パワーの大きさやスペクトルの形状
から、音声と判定されないフレームをNフレーム分用い
て相乗平均スペクトルを求める場合は、入力信号畳み込
まれた伝送歪みを正確に削除することができる。
【0147】これらの対象となる区間の指定を区間指定
部204が行い、区間判定部205に指示する。このよ
うに、環境学習用データから得られる複数の対数スペク
トルの平均値を求めることは、音声の長時間対数スペク
トルを求めていることと等価になるが、マイクロフォン
の特性や音声が伝送路を通過した場合の伝送歪みなど主
に音響系の歪みは、短時間には変動しないと仮定する
と、音声の長時間対数スペクトルに重畳された形で推定
することが可能となる。
【0148】このように、環境学習用データから得られ
る複数のスペクトルの相乗平均値を求めることは、音声
の長時間スペクトルを求めていることと等価になるが、
マイクロフォンの特性や音声が伝送路を通過した場合の
伝送歪みなど主に音響系の歪みは、短時間には変動しな
いと仮定すると、音声の長時間スペクトルに重畳された
形で推定することが可能となる。そして、この相乗平均
スペクトルでフレーム毎のスペクトルを除算すること
で、音声の長時間スペクトルとともに音響系の歪みも同
時に減算することが可能となり、音響系の歪みの影響を
受けずに音声認識を行うことが可能となる。
【0149】次に、逆数変換部402が、式(9)に従
って、相乗平均処理部401で求めた環境学習データか
ら得られた相乗平均スペクトルSmave(k)の逆数
を計算して、逆相乗平均スペクトルSmave_inv
(k)を求める(ステップS502)。
【0150】
【数12】
【0151】ここで、βは音響系の歪みを除去する度合
いをコントロールする係数であり、実験により決定する
ことが可能である。さらにβを周波数成分ごとに制御で
きるようにβ(k)の形式で扱うことで、より細かい制御
が可能となる。
【0152】以上により算出された相乗平均スペクトル
は記憶部208に保存される(ステップS503)。
【0153】また一方、ステップS302で算出された
スペクトルは、区間判定部205で抽出された後、平均
化処理部206で、実施の形態1と同じく式(5)に従
って平均化され、環境学習データから得られた複数のス
ペクトルの平均値である平均スペクトルが求まる(ステ
ップS307)。
【0154】以上により算出された平均スペクトルは記
憶部208に保存される(ステップS308)。
【0155】次に、音声認識の対象となる入力音声が入
力されると、環境学習データでないと判定され(ステッ
プS301)、スペクトル算出部201でスペクトルS
(i,k))の算出が行われる(ステップS309)。
【0156】次に、減算器209が式(6)に従って、
実施の形態1と同じく、このスペクトルS(i,k)か
ら記憶部208内の平均スペクトルSave(k)を減
算し、正規化スペクトルSnorml(i,k)を求め
る(ステップS310)。
【0157】次に、乗算器210が式(10)に従っ
て、正規化スペクトルSnorml(i,k)に、記憶
部210内の逆相乗平均スペクトルSmave_inv
(k)を乗算し、最終の正規化スペクトルSnorm2
(i,k)を求める。
【0158】
【数13】
【0159】この結果が前述の特徴量抽出部103に入
力される。
【0160】このように、実施の形態1と同様、マイク
ロフォンの特性や音声が伝送路を通過した場合の伝送歪
みなど、主に音響系の歪みと、騒音が入力音声から同一
次元で演算でき、効率的に除去することができる。これ
により、従来に比べも少ない処理量で高い認識性能を実
現することができる。また、処理時間のかかる相乗平均
演算は事前に済ませておけるため、音声認識処理の高速
化が可能となる。
【0161】また、この実施の形態2で示した雑音除去
装置を有する音声認識装置においては、実施の形態1と
同様に、標準モデルを用いて類似度の計算を行うが、標
準モデルを作成するための多量の音声データをあらかじ
め用意しておき、入力音声の対数スペクトルから環境学
習データより作成した平均対数スペクトルを減算したの
と同様な処理を施す必要がある。しかし、実施の形態1
と異なる点は、標準学習データから得られる相乗平均ス
ペクトルを求め、標準学習データから得られる全てのス
ペクトルからこの相乗平均スペクトルを除算することで
正規化スペクトルを求め、さらにケプストラル係数など
の特徴量を算出し、この特徴量の時系列を用いて標準モ
デルを作成する点が異なる。
【0162】(実施の形態3)図6は本発明の第3の実
施の形態による雑音除去装置のブロック図であり、スペ
クトル算出部201、対数変換部202、一時記憶部2
03、平均化処理部206、記憶部601、減算器60
2から構成されている。これらのうち、実施の形態1と
同じ番号の構成物は、同じものであることを示してい
る。
【0163】以上のように構成された雑音除去装置10
2について、図7を用いて以下にその動作、作用を説明
する。
【0164】図7は雑音除去方法の処理の流れを示す流
れ図である。
【0165】まず、学習データである音声を理想伝送路
から入力する。この理想伝送路とは、標準マイクロフォ
ンのような歪のない入力特性を有する入力器と、伝送歪
のないように補正された伝送路からなる伝送路である。
入力音声がこの学習データであると判定されると(ステ
ップS701)、スペクトル算出部201が理想伝送路
からの入力音声のスペクトルを算出する(ステップS7
02)。
【0166】次に、対数変換部202が対数変換し、対
数スペクトルを求める(ステップS703)。
【0167】次に、一時記憶部203に入力音声全ての
対数スペクトルが蓄積され、平均化処理部206がこれ
ら全ての平均値である平均対数スペクトルを算出する
(ステップS704)。この平均対数スペクトルは伝送
路の雑音を含まない、純粋に音声信号のみであり、理想
対数スペクトルとして記憶部601に保持される(ステ
ップS705)。
【0168】次に、環境学習データが入力され、入力音
声は環境学習データと判定されると(ステップS70
6)、スペクトル算出部201がスペクトルを算出する
(ステップS707)。
【0169】次に、対数変換部202が環境学習データ
のスペクトルを対数変換し対数スペクトルを算出する
(ステップS708)。
【0170】次に、一時記憶部203に入力音声全ての
対数スペクトルが蓄積され、平均化処理部206がこれ
ら全ての平均値である平均対数スペクトルを算出する
(ステップS709)。この環境学習データから求めた
平均対数スペクトルには、音声信号の他に、伝送路歪な
どの音響系の歪を含んでいる。
【0171】次にこの平均対数スペクトルから記憶部6
01に保持されている理想対数スペクトルを減算器60
2により減算する(ステップS710)。従って、これ
によって求まる差分対数スペクトルは、伝送路歪の対数
スペクトルである。
【0172】次に、この差分対数スペクトルを記憶部6
01に記憶する(ステップS711)。
【0173】次に、音声認識の対象となる入力音声が入
力されると、環境学習データでないと判定され(ステッ
プS706)、スペクトル算出部201でスペクトルS
(i,k))の算出が行われる(ステップS712)。
【0174】次に、対数変換部202が対数スペクトル
L(i,k)を算出する(ステップS713)。
【0175】次に、この対数スペクトルL(i,k)か
ら減算器602が式(11)に従って、このスペクトル
S(i,k)から記憶部601内の差分対数スペクトル
Lave(k)を減算し、正規化対数スペクトルLno
rml(i,k)を求める(ステップS714)。
【0176】
【数14】
【0177】ここで、βは音響系の歪を除去する度合い
をコントロールする係数であり、実験により決定するこ
とが可能である。さらにβを周波数成分ごとに制御でき
るようにβ(k)の形式で扱うことで、より細かい制御
が可能となる。
【0178】音声認識装置の場合は、この結果が前述の
特徴量抽出部103に入力される。
【0179】このように、マイクロフォンの特性や音声
が伝送路を通過した場合の伝送歪みなど、主に音響系の
歪みが、より精度良く効率的に除去することができる。
【0180】また、実施の形態3では、理想伝送路から
の学習データを雑音除去装置に入力して、理想平均対数
スペクトルを算出したが、この算出を別の装置で行い、
この雑音除去装置に算出済みの理想平均対数スペクトル
を読み出し専用記憶部に別途備えておく構成にすること
も可能である。
【0181】この場合のブロック図を図8に、流れ図を
図9に示す。図8において、読み出し専用記憶部801
にあらかじめ算出した理想平均対数スペクトルを記憶さ
せておき、環境学習データが入力され差分対数スペクト
ルを求めるときに、この理想平均対数スペクトルが環境
学習データの対数スペクトルから減算される(ステップ
S901)。その他の構成物及び、処理は実施の形態3
と同じである。また、読み出し専用記憶801部と記憶
部601は別構成でなく、記憶部601にまとめる構成
も可能である。
【0182】また、この実施の形態3で示した雑音除去
装置を有する音声認識装置においては、実施の形態1と
同様に、標準モデルを用いて類似度の計算を行うが、実
施の形態1と異なり、標準モデルを作成するための多量
の音声データをあらかじめ用意しておき、標準学習デー
タから得られるすべてのスペクトルを求め、さらにケプ
ストラル係数などの特徴量を算出し、この特徴量の時系
列を用いて標準モデルを作成する点が異なる。
【0183】(実施の形態4)図10は、本発明の第4
の実施の形態の雑音除去装置のブロック図である。図1
0において、指数・逆数変換部207は実施の形態3と
同じ処理で算出した差分対数スペクトルを指数変換し、
そして逆数変換するものであり、乗算器210は音声認
識の対象である入力音声のスペクトルと、逆差分対数ス
ペクトルを乗算するものである。その他の構成物は実施
の形態3と同じである。
【0184】図11は雑音除去方法の処理の流れを示す
流れ図である。
【0185】まず、環境学習データが入力され、入力音
声は環境学習データと判定されると(ステップS70
6)、スペクトル算出部201がスペクトルを算出する
(ステップS707)。
【0186】次に、対数変換部202が環境学習データ
のスペクトルを対数変換し対数スペクトルを算出する
(ステップS708)。
【0187】次に、一時記憶部203に入力音声全ての
対数スペクトルが蓄積され、平均化処理部206がこれ
ら全ての平均値である平均対数スペクトルを算出する
(ステップS709)。
【0188】次にこの平均対数スペクトルから読み出し
専用記憶部801に保持されている理想対数スペクトル
を減算器209により減算する(ステップS901)。
【0189】次に指数・逆数変換部207がこの理想対
数スペクトルを指数変換し、そして逆数変換し、逆差分
スペクトルを算出する(ステップS1101)。
【0190】次に、この逆差分スペクトルを記憶部60
1に記憶する(ステップS711)。
【0191】また一方、環境学習データのスペクトルは
一時記憶部203に蓄積され、その全スペクトルの平均
値である平均スペクトルを平均化処理部206が算出す
る(ステップS1102)。この平均スペクトルは記憶
部601に記憶される。
【0192】次に、音声認識の対象となる入力音声が入
力されると、環境学習データでないと判定され(ステッ
プS706)、スペクトル算出部201でスペクトルS
(i,k))の算出が行われる(ステップS110
4)。
【0193】次に、このスペクトルS(i,k)から減
算器211が式(6)に従って、このスペクトルS
(i,k)から記憶部601内の平均スペクトルを減算
し、実施の形態1と同様に、正規化スペクトルSnor
ml(i,k)を算出する(ステップS1105)。
【0194】次に、正規化スペクトルSnorml
(i,k)に式(7)に従って、逆差分スペクトルSa
ve_inv(k)を乗算し、最終の対数スペクトルL
norml(i,k)を求める(ステップS110
6)。
【0195】ここで、βは音響系の歪を除去する度合い
をコントロールする係数であり、実験により決定するこ
とが可能である。さらにβを周波数成分ごとに制御でき
るようにβ(k)の形式で扱うことで、より細かい制御
が可能となる。
【0196】音声認識装置の場合は、この結果が前述の
特徴量抽出部103に入力される。
【0197】このように、マイクロフォンの特性や音声
が伝送路を通過した場合の伝送歪みなど、主に音響系の
歪みが、より精度良く効率的に除去することができる。
また、この音響系の歪みと、騒音が入力音声から同一次
元で演算でき、効率的に除去することができる。これに
より、従来よりも少ない処理量でより高い認識性能を実
現することができる。また、処理時間のかかる対数変換
は事前に済ませておけるため、音声認識処理の高速化が
可能となる。
【0198】また、この実施の形態4で示した雑音除去
装置を有する音声認識装置においては、実施の形態1と
同様に、標準モデルを用いて類似度の計算を行うが、実
施の形態1と異なり、標準モデルを作成するための多量
の音声データをあらかじめ用意しておき、標準学習デー
タから得られるすべてのスペクトルを求め、さらにケプ
ストラル係数などの特徴量を算出し、この特徴量の時系
列を用いて標準モデルを作成する点が異なる。
【0199】(実施の形態5)図12は、本発明の第5
の実施の形態の雑音除去装置のブロック図である。
【0200】図12において、相乗平均処理部401は
スペクトルの相乗平均である相乗平均スペクトルを算出
するものであり、逆数変換部402は相乗平均スペクト
ルの逆数を求めるものである。その他のスペクトル算出
部201、一時記憶部203、平均化処理部206、記
憶部601、読み出し専用記憶部801、減算器20
9、乗算器210は実施の形態4と同じものである。
【0201】以上のように構成された雑音除去装置10
2について、図13を用いて以下にその動作、作用を説
明する。
【0202】図13は雑音除去方法の処理の流れを示す
流れ図である。
【0203】まず、環境学習データが入力され、入力音
声は環境学習データと判定されると(ステップS70
6)、スペクトル算出部201がスペクトルを算出する
(ステップS707)。
【0204】次に、一時記憶部203に入力音声全ての
スペクトルが蓄積され、相乗平均処理部401がこれら
全ての相乗平均である相乗平均スペクトルを算出する
(ステップS1301)。
【0205】次にこの相乗平均スペクトルから読み出し
専用記憶部801に保持されている理想相乗平均スペク
トルの逆数を乗算器210により乗算し差分相乗平均ス
ペクトルを算出する(ステップS1302)。
【0206】次に逆数変換部402がこの差分相乗平均
スペクトルを逆数変換し、逆差分相乗平均スペクトルを
算出する(ステップS1303)。
【0207】次に、この逆差分相乗スペクトルを記憶部
601に記憶する(ステップS1304)。
【0208】また一方、環境学習データのスペクトルか
ら、実施の形態4と同様に、平均スクトルを算出し(ス
テップS1103)、記憶部601に記憶される。
【0209】次に、音声認識の対象となる入力音声が入
力されると、環境学習データでないと判定され(ステッ
プS706)、スペクトル算出部201でスペクトルS
(i,k))の算出が行われる(ステップS712)。
【0210】次に、このスペクトルS(i,k)から実
施の形態4と同様に、記憶部601内の平均スペクトル
を減算して正規化スペクトルSnorml(i,k)を
算出する(ステップS1105)。
【0211】次に、正規化スペクトルSnorml
(i,k)に式(10)に従って、逆差分相乗平均スペ
クトルSmave_inv(k)を乗算し、最終のスペ
クトルSnorm2(i,k)を求める(ステップS1
305)。
【0212】ここで、βは音響系の歪を除去する度合い
をコントロールする係数であり、実験により決定するこ
とが可能である。さらにβを周波数成分ごとに制御でき
るようにβ(k)の形式で扱うことで、より細かい制御
が可能となる。
【0213】音声認識装置の場合は、この結果が前述の
特徴量抽出部103に入力される。
【0214】このように、マイクロフォンの特性や音声
が伝送路を通過した場合の伝送歪みなど、主に音響系の
歪みが、より精度良く効率的に除去することができる。
また、この音響系の歪みと、騒音が入力音声から同一次
元で演算でき、効率的に除去することができる。これに
より、従来よりも少ない処理量でより高い認識性能を実
現することができる。また、処理時間のかかる対数変換
は事前に済ませておけるため、音声認識処理の高速化が
可能となる。
【0215】また、この実施の形態5で示した雑音除去
装置を有する音声認識装置においては、実施の形態1と
同様に、標準モデルを用いて類似度の計算を行うが、実
施の形態1と異なり、標準モデルを作成するための多量
の音声データをあらかじめ用意しておき、標準学習デー
タから得られるすべてのスペクトルを求め、さらにケプ
ストラル係数などの特徴量を算出し、この特徴量の時系
列を用いて標準モデルを作成する点が異なる。
【0216】
【発明の効果】以上のように、本発明によれば、精度良
く効率的に伝送歪や周囲騒音といった雑音を除去でき、
その結果として高精度の音声認識を行うことができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態における音声認識装
置の構成を示すブロック図
【図2】本発明の第1の実施の形態における雑音除去装
置の構成を示すブロック図
【図3】本発明の第1の実施の形態における雑音除去装
置の処理の流れを示す流れ図
【図4】本発明の第2の実施の形態における雑音除去装
置の構成を示すブロック図
【図5】本発明の第2の実施の形態における雑音除去装
置の処理の流れを示す流れ図
【図6】本発明の第3の実施の形態における雑音除去装
置の構成を示すブロック図
【図7】本発明の第3の実施の形態における雑音除去装
置の処理の流れを示す流れ図
【図8】本発明の第3の実施の形態における雑音除去装
置の構成を示すブロック図
【図9】本発明の第3の実施の形態における雑音除去装
置の処理の流れを示す流れ図
【図10】本発明の第4の実施の形態における雑音除去
装置の構成を示すブロック図
【図11】本発明の第4の実施の形態における雑音除去
装置の処理の流れを示す流れ図
【図12】本発明の第5の実施の形態における雑音除去
装置の構成を示すブロック図
【図13】本発明の第5の実施の形態における雑音除去
装置の処理の流れを示す流れ図
【図14】本発明の第1の実施の形態における雑音除去
装置のフィルタバンク特性を示す周波数特性図
【図15】本発明の第1の実施の形態における雑音除去
装置の周波数軸伸縮に伴う周波数特性を示す周波数特性
【図16】従来の音声認識装置の構成を示すブロック図
【符号の説明】
101 マイクロフォン 102 雑音除去装置 103 特徴量抽出部 104 類似度算出部 105 標準モデル辞書 106 判定処理部 201 スペクトル算出部 202 対数変換部 203 一時記憶部 204 区間指定部 205 区間判定部 206 平均化処理部 207 指数・逆数変換部 208 記憶部 209 減算部 210 乗算部 401 相乗平均処理部 402 逆数変換部 601 記憶部 602 減算部 801 読み出し専用記憶部 100 入力端子 200 周波数分析部 300 対数変換部 400 スペクトル変換部 500 音声区間決定部 501 対数変換済データ 502 ノイズパターン検出部 503 減算回路 504 乗算回路 505 加算回路 506 除算回路 507 Pパラメータメモリ 508 比較器1 509 FLAG 510 スムージング1 511 スムージング2 512 ブロック化 513 比較器2 514 ブロック決定 515 音声区間決定 516 MaxBLK 600 再サンプル部 700 距離演算部 800 標準パターンメモリ 900 判定部 1000 認識結果出力端子
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 21/02

Claims (31)

    【特許請求の範囲】
  1. 【請求項1】 第1の入力信号のスペクトルを求めるス
    テップと、前記スペクトルを対数変換して対数スペクト
    ルを求めるステップと、前記対数スペクトルの特定区間
    についての平均値である平均対数スペクトルを求めるス
    テップと、前記平均対数スペクトルを指数変換して平均
    スペクトルを求めるステップと、前記平均スペクトルで
    第2の入力信号のスペクトルを除算して正規化スペクト
    ルを求めるステップとを有する雑音除去方法。
  2. 【請求項2】 第1の入力信号のスペクトルを求めるス
    テップと、前記スペクトルの特定区間についての相乗平
    均値である相乗平均スペクトルを求めるステップと、前
    記相乗平均スペクトルで第2の入力信号のスペクトルを
    除算して正規化スペクトルを求めるステップとを有する
    雑音除去方法。
  3. 【請求項3】 前記特定区間が、第1の入力信号の入力
    区間すべてである請求項1または請求項2に記載の雑音
    除去方法。
  4. 【請求項4】 前記特定区間が、第1の入力信号に含ま
    れる音声信号が存在する区間のみである請求項1または
    請求項2に記載の雑音除去方法。
  5. 【請求項5】 前記特定区間が、第1の入力信号に含ま
    れる音声信号が存在する区間のうち、特定の音韻区間と
    パワーの大きい区間との少なくともいずれか一方である
    請求項1または請求項2に記載の雑音除去方法。
  6. 【請求項6】 第1の入力信号のスペクトルを求めるス
    テップと、前記スペクトルの第1の特定区間の平均値で
    ある第1平均スペクトルを求めるステップと、前記スペ
    クトルを対数変換して対数スペクトルを求めるステップ
    と、前記対数スペクトルの第2の特定区間の平均値であ
    る平均対数スペクトルを求めるステップと、前記平均対
    数スペクトルを指数変換し第2平均スペクトルを求める
    ステップと、第2の入力信号のスペクトルを求めるステ
    ップと、前記スペクトルから前記第1平均スペクトルを
    減算するステップと、前記減算の結果を前記第2平均ス
    ペクトルで除算して正規化スペクトルを求めるステップ
    とを有する雑音除去方法。
  7. 【請求項7】 第1の入力信号のスペクトルを求めるス
    テップと、前記スペクトルの第1の特定区間の平均値で
    ある平均スペクトルを求めるステップと、前記スペクト
    ルの第2の特定区間の相乗平均値である相乗平均スペク
    トルを求めるステップと、第2の入力信号のスペクトル
    を求めるステップと、前記スペクトルから前記平均スペ
    クトルを減算するステップと、前記減算結果を前記相乗
    平均スペクトルで除算して正規化スペクトルを求めるス
    テップとを有する雑音除去方法。
  8. 【請求項8】 前記第1の特定区間及び前記第2の特定
    区間の少なくともいずれか一方が、第1の入力信号の入
    力区間すべてである請求項6または請求項7に記載の雑
    音除去方法。
  9. 【請求項9】 前記第1の特定区間及び前記第2の特定
    区間の少なくともいずれか一方が、第1の入力信号に含
    まれる音声信号が存在する区間のみである請求項6また
    は請求項7に記載の雑音除去方法。
  10. 【請求項10】 前記第1の特定区間及び前記第2の特
    定区間の少なくともいずれか一方が、第1の入力信号に
    含まれる音声信号が存在する区間のうち、特定の音韻区
    間とパワーの大きい区間との少なくともいずれか一方で
    ある請求項6または請求項7に記載の雑音除去方法。
  11. 【請求項11】 前記第1の特定区間及び前記第2の特
    定区間の少なくともいずれか一方が、第1の入力信号に
    含まれる音声信号が存在しない区間のみである請求項6
    または請求項7に記載の雑音除去方法。
  12. 【請求項12】 前記第1平均スペクトルに第1の定数
    を乗算し、前記第2平均スペクトルに第2の定数を乗算
    し、前記第1の定数と前記第2の定数の少なくともいず
    れか一方が、スペクトルの周波数軸上での成分ごとに異
    なった値である請求項6に記載の雑音除去方法。
  13. 【請求項13】 前記平均スペクトルに第1の定数を乗
    算し、前記相乗平均スペクトルに第2の定数を乗算し、
    前記第1の定数と前記第2の定数の少なくともいずれか
    一方が、スペクトルの周波数軸上での成分ごとに異なっ
    た値である請求項7に記載の雑音除去方法。
  14. 【請求項14】 理想伝送経路からの第1の入力信号の
    スペクトルである理想スペクトルを求めるステップと、
    前記理想スペクトルを対数変換して理想対数スペクトル
    を求めるステップと、前記理想対数スペクトルの平均値
    である理想平均対数スペクトルを求めるステップと、第
    2の入力信号のスペクトルを求めるステップと、前記ス
    ペクトルを対数変換して対数スペクトルを求めるステッ
    プと、前記対数スペクトルの平均値である平均対数スペ
    クトルを求めるステップと、前記平均対数スペクトルか
    ら前記理想平均対数スペクトルを減算して差分対数スペ
    クトルを求めるステップと、第3の入力信号の対数スペ
    クトルを求めるステップと、前記第3の入力信号の対数
    スペクトルから前記差分対数スペクトルを減算して正規
    化対数スペクトルを求めるステップとを有する雑音除去
    方法。
  15. 【請求項15】 理想伝送経路からの第1の入力信号の
    スペクトルである理想スペクトルを求めるステップと、
    前記理想スペクトルを対数変換して理想対数スペクトル
    を求めるステップと、前記理想対数スペクトルの平均値
    である理想平均対数スペクトルを求めるステップと、第
    2の入力信号のスペクトルを求めるステップと、前記ス
    ペクトルを対数変換して対数スペクトルを求めるステッ
    プと、前記対数スペクトルの平均値である平均対数スペ
    クトルを求めるステップと、前記平均対数スペクトルか
    ら前記理想平均対数スペクトルを減算して差分対数スペ
    クトルを求めるステップと、前記差分対数スペクトルを
    指数変換して差分スペクトルを求めるステップと、第3
    の入力信号のスペクトルを求めるステップと、前記差分
    スペクトルで前記第3の入力信号のスペクトルを除算し
    て正規化スペクトルを求めるステップとを有する雑音除
    去方法。
  16. 【請求項16】 理想伝送経路からの第1の入力信号の
    スペクトルである理想スペクトルを求めるステップと、
    前記理想スペクトルの相乗平均値である理想相乗平均ス
    ペクトルを求めるステップと、第2の入力信号のスペク
    トルを求めるステップと、前記スペクトルの相乗平均値
    である相乗平均スペクトルを求めるステップと、前記相
    乗平均スペクトルを前記理想相乗平均スペクトルで除算
    して差分相乗平均スペクトルを求めるステップと、第3
    の入力信号のスペクトルを求めるステップと、前記第3
    の入力信号のスペクトルを前記差分相乗平均スペクトル
    で除算して正規化スペクトルを求めるステップとを有す
    る雑音除去方法。
  17. 【請求項17】 前記除算が、逆数変換と乗算により処
    理される請求項1乃至請求項2と、請求項6乃至請求項
    7と、請求項15乃至請求項16のいずれかに記載の雑
    音除去方法。
  18. 【請求項18】 前記対数変換が一般化対数変換であ
    り、かつ前記指数変換が一般化指数変換である請求項1
    と請求項6と請求項15とのいずれかに記載の雑音除去
    方法。
  19. 【請求項19】 前記対数変換が一般化対数変換である
    請求項14に記載の雑音除去方法。
  20. 【請求項20】 前記スペクトルがフーリエ分析により
    得られる振幅スペクトルである請求項1乃至請求項19
    のいずれかに記載の雑音除去方法。
  21. 【請求項21】 前記スペクトルがフーリエ分析により
    得られるパワースペクトルである請求項1乃至請求項1
    9のいずれかに記載の雑音除去方法。
  22. 【請求項22】 前記スペクトルが聴覚フィルタやメル
    フィルタに基づくフィルタバンク分析により得られる振
    幅スペクトルである請求項1乃至請求項19のいずれか
    に記載の雑音除去方法。
  23. 【請求項23】 前記スペクトルが聴覚フィルタやメル
    フィルタに基づくフィルタバンク分析により得られるパ
    ワースペクトルである請求項1乃至請求項19のいずれ
    かに記載の雑音除去方法。
  24. 【請求項24】 入力信号のスペクトルを求めるスペク
    トル算出部と、前記スペクトルから対数スペクトルを求
    める対数変換部と、前記対数スペクトルを一時的に蓄積
    する一時記憶部と、前記一時記憶部内の対数スペクトル
    から特定区間のスペクトルを抽出する区間判定部と、前
    記抽出された全対数スペクトルの平均値である平均対数
    スペクトルを求める平均化処理部と、前記平均対数スペ
    クトルを指数変換して平均スペクトルを求める指数変換
    部と、前記平均スペクトルを記憶する記憶部と、前記記
    憶部内の第1の入力信号から求めた前記平均スペクトル
    で、第2の入力信号の前記スペクトル算出部からの出力
    を除算して正規化スペクトルを求める除算器とを有する
    雑音除去装置。
  25. 【請求項25】 入力信号のスペクトルを求めるスペク
    トル算出部と、前記スペクトルを一時的に蓄積する一時
    記憶部と、前記一時記憶部内のスペクトルから特定区間
    のスペクトルを抽出する区間判定部と、前記抽出された
    全スペクトルの相乗平均値である相乗平均スペクトルを
    求める相乗平均化処理部と、前記相乗平均スペクトルを
    記憶する記憶部と、前記記憶部内の第1の入力信号から
    求めた前記相乗平均スペクトルで、第2の入力信号の前
    記スペクトル算出部からの出力を除算して正規化スペク
    トルを求める除算器とを有する雑音除去装置。
  26. 【請求項26】 入力信号のスペクトルを求めるスペク
    トル算出部と、前記スペクトルから対数スペクトルを求
    める対数変換部と、前記スペクトルと前記対数スペクト
    ルをスペクトルデータとして一時的に蓄積する一時記憶
    部と、特定区間を指定する区間指定部と、前記特定区間
    の前記スペクトルデータを前記一時記憶部内から抽出す
    る区間判定部と、前記抽出された全スペクトルデータの
    平均値を求める平均化処理部と、前記平均化処理部から
    の出力である平均対数スペクトルを指数変換する指数変
    換部と、前記スペクトルの平均化処理の出力である第1
    平均スペクトルと前記指数変換部の出力である第2平均
    スペクトルとを記憶する記憶部と、前記記憶部内の第1
    の入力信号から求めた前記第1平均スペクトルを、第2
    の入力信号のスペクトル算出部の出力から減算する減算
    器と、前記記憶部内の第1の入力信号から求めた前記第
    2平均スペクトルで、前記減算器の出力を除算して正規
    化スペクトルを求める除算器とを有する雑音除去装置。
  27. 【請求項27】 入力信号のスペクトルを求めるスペク
    トル算出部と、前記スペクトルを一時的に蓄積する一時
    記憶部と、特定区間を指定する区間指定部と、前記特定
    区間のスペクトルを前記一時記憶部内から抽出する区間
    判定部と、前記抽出された全スペクトルの平均値である
    平均スペクトルを求める平均化処理部と、前記抽出され
    た全スペクトルの相乗平均値である相乗平均スペクトル
    を求める相乗平均処理部と、前記平均化処理部から求め
    た平均スペクトルと、前記相乗平均処理部から求めた相
    乗平均スペクトルとを記憶する記憶部と、前記記憶部内
    の第1の入力信号から求めた前記平均スペクトルを、第
    2の入力信号のスペクトル算出部の出力から減算する減
    算器と、前記記憶部内の第1の入力信号から求めた前記
    相乗平均スペクトルで、前記減算器の出力を除算して正
    規化スペクトルを求める除算器とを有する雑音除去装
    置。
  28. 【請求項28】 入力信号のスペクトルを求めるスペク
    トル算出部と、前記スペクトルから対数スペクトルを求
    める対数変換部と、前記対数スペクトルを一時的に蓄積
    する一時記憶部と、前記一時記憶部内の全対数スペクト
    ルの平均値である平均対数スペクトルを求める平均化処
    理部と、前記平均対数スペクトルとあらかじめ求めた理
    想平均対数スペクトルとを記憶する記憶部と、減算器と
    を有し、前記理想平均対数スペクトルを、第1の入力信
    号から求めた平均対数スペクトルから前記減算器で減算
    し、前記減算結果である差分対数スペクトルを第2の入
    力信号から求めた対数スペクトルから前記減算器で減算
    して正規化スペクトルを求める雑音除去装置。
  29. 【請求項29】 入力信号のスペクトルを求めるスペク
    トル算出部と、前記スペクトルから対数スペクトルを求
    める対数変換部と、前記対数スペクトルを一時的に蓄積
    する一時記憶部と、前記一時記憶部内の全対数スペクト
    ルの平均値である平均対数スペクトルを求める平均化処
    理部と、前記平均対数スペクトルとあらかじめ求めた理
    想平均対数スペクトルとを記憶する記憶部と、前記理想
    平均対数スペクトルを、第1の入力信号より求めた前記
    平均対数スペクトルから減算し差分対数スペクトルを求
    める減算器と、前記差分対数スペクトルを指数変換し、
    差分スペクトルを求める指数変換部と、第2の入力信号
    のスペクトルを前記差分スペクトルで除算して正規化ス
    ペクトルを求める除算器とを有する雑音除去装置。
  30. 【請求項30】 入力信号のスペクトルを求めるスペク
    トル算出部と、前記スペクトルを一時的に蓄積する一時
    記憶部と、前記一時記憶部内の全スペクトルの相乗平均
    である相乗平均スペクトルを求める相乗平均処理部と、
    前記相乗平均スペクトルとあらかじめ求めた理想相乗平
    均スペクトルとを記憶する記憶部と、除算器を有し、前
    記理想相乗平均スペクトルで、前記記憶部内の第1の入
    力信号より求めた相乗平均スペクトルを除算し、前記除
    算結果である差分相乗平均スペクトルで、第2の入力信
    号のスペクトルを除算して正規化スペクトルを求める雑
    音除去装置。
  31. 【請求項31】 請求項24乃至請求項30のいずれか
    に記載の雑音除去装置と、前記雑音除去装置の出力信号
    の特徴量を抽出する特徴量抽出部と、前記特徴量と標準
    モデルとの類似度を算出する類似度算出部と、前記類似
    度で認識結果を判定する判定処理部とを有する音声認識
    装置。
JP2002071891A 2002-03-15 2002-03-15 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置 Pending JP2003271190A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002071891A JP2003271190A (ja) 2002-03-15 2002-03-15 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002071891A JP2003271190A (ja) 2002-03-15 2002-03-15 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置

Publications (1)

Publication Number Publication Date
JP2003271190A true JP2003271190A (ja) 2003-09-25

Family

ID=29202045

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002071891A Pending JP2003271190A (ja) 2002-03-15 2002-03-15 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置

Country Status (1)

Country Link
JP (1) JP2003271190A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006011405A1 (ja) 2004-07-28 2006-02-02 The University Of Tokushima デジタルフィルタリング方法及び装置
KR100636048B1 (ko) * 2004-10-28 2006-10-20 한국과학기술연구원 주변 소음에 따라 주파수 특성이 변화된 신호음을발생시키는 이동단말기 및 방법
JP2009145895A (ja) * 2007-12-14 2009-07-02 Ind Technol Res Inst ケプストラムノイズ減算を用いた音声認識システム及び方法
JP2013120379A (ja) * 2011-12-09 2013-06-17 Nippon Telegr & Teleph Corp <Ntt> スペクトル歪みパラメータ推定値補正装置とその方法とプログラム
JP2016045249A (ja) * 2014-08-20 2016-04-04 沖電気工業株式会社 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム
JP2017067879A (ja) * 2015-09-29 2017-04-06 本田技研工業株式会社 音声処理装置及び音声処理方法
JP2022544065A (ja) * 2019-07-30 2022-10-17 ドルビー ラボラトリーズ ライセンシング コーポレイション 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006011405A1 (ja) 2004-07-28 2006-02-02 The University Of Tokushima デジタルフィルタリング方法及び装置
US7890323B2 (en) 2004-07-28 2011-02-15 The University Of Tokushima Digital filtering method, digital filtering equipment, digital filtering program, and recording medium and recorded device which are readable on computer
KR100636048B1 (ko) * 2004-10-28 2006-10-20 한국과학기술연구원 주변 소음에 따라 주파수 특성이 변화된 신호음을발생시키는 이동단말기 및 방법
JP2009145895A (ja) * 2007-12-14 2009-07-02 Ind Technol Res Inst ケプストラムノイズ減算を用いた音声認識システム及び方法
US8150690B2 (en) 2007-12-14 2012-04-03 Industrial Technology Research Institute Speech recognition system and method with cepstral noise subtraction
JP2013120379A (ja) * 2011-12-09 2013-06-17 Nippon Telegr & Teleph Corp <Ntt> スペクトル歪みパラメータ推定値補正装置とその方法とプログラム
JP2016045249A (ja) * 2014-08-20 2016-04-04 沖電気工業株式会社 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム
JP2017067879A (ja) * 2015-09-29 2017-04-06 本田技研工業株式会社 音声処理装置及び音声処理方法
JP2022544065A (ja) * 2019-07-30 2022-10-17 ドルビー ラボラトリーズ ライセンシング コーポレイション 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置
JP7383122B2 (ja) 2019-07-30 2023-11-17 ドルビー ラボラトリーズ ライセンシング コーポレイション 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置

Similar Documents

Publication Publication Date Title
CN109147796B (zh) 语音识别方法、装置、计算机设备及计算机可读存储介质
Hirsch et al. A new approach for the adaptation of HMMs to reverberation and background noise
EP1355296B1 (en) Keyword detection in a speech signal
US5459815A (en) Speech recognition method using time-frequency masking mechanism
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
US20030144839A1 (en) MVDR based feature extraction for speech recognition
JP3130524B2 (ja) 音声信号認識方法およびその方法を実施する装置
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
EP1511007A2 (en) Vocal tract resonance tracking using a nonlinear predictor and a target-guided temporal constraint
Erell et al. Filterbank-energy estimation using mixture and Markov models for recognition of noisy speech
JP4301896B2 (ja) 信号分析装置、音声認識装置、プログラム、記録媒体、並びに電子機器
KR100897555B1 (ko) 음성 특징벡터 추출장치 및 방법과 이를 채용하는음성인식시스템 및 방법
JP2003271190A (ja) 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
KR101023211B1 (ko) 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법
Kaur et al. Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition
Upadhyay et al. Robust recognition of English speech in noisy environments using frequency warped signal processing
KR101610708B1 (ko) 음성 인식 장치 및 방법
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
CN112489692A (zh) 语音端点检测方法和装置
CN111627426A (zh) 消除语音交互中信道差异的方法及系统、电子设备及介质
Koc Acoustic feature analysis for robust speech recognition
Dutta et al. A comparative study on feature dependency of the Manipuri language based phonetic engine
Singh et al. A novel algorithm using MFCC and ERB gammatone filters in speech recognition
Gouda et al. Robust Automatic Speech Recognition system based on using adaptive time-frequency masking