JP2001134286A

JP2001134286A - 雑音抑圧装置、音声認識システム及び記録媒体

Info

Publication number: JP2001134286A
Application number: JP31720699A
Authority: JP
Inventors: Norihide Kitaoka; 教英北岡; Ichiro Akahori; 一郎赤堀; Seiichi Nakagawa; 聖一中川
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 1999-11-08
Filing date: 1999-11-08
Publication date: 2001-05-18
Anticipated expiration: 2019-11-08
Also published as: JP4325044B2

Abstract

(57)【要約】【課題】スペクトル領域における音声とノイズの相関の
影響を、時間分解能の低下なく抑圧することによって、
ノイズ除去における不正確さを低減する。【解決手段】音声は時間と共に変化するものであるた
め、処理区間が長すぎると時間分解能の低下が生じる。
そのため、下段に示すようにフレーム長１２８点、フレ
ーム周期６４点というように、上段の場合の２分の１に
したのである。このようにすると、３フレーム分のスム
ージングを行っても、フレーム長を半分にする前の１フ
レーム分の分析長に相当するため、時間分解能の低下が
起こらない。しかし、フレーム長及びフレーム周期を半
分にしただけで何らの対処もしないと、音声認識装置で
の認識処理も２倍の頻度で行うこととなり、処理負荷が
増大してしまう。そこで、スムージングを２回に１回行
うようにした。このようにすれば、音声認識装置での認
識処理は従来通りの頻度でよくなる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識等の音声
信号処理の前処理として用いる雑音抑圧技術に関し、特
に、認識対象となる音声信号と雑音信号とが混在した入
力信号から雑音成分を極力除去するスペクトラムサブト
ラクション法を用いた雑音抑圧技術に関する。

【０００２】

【従来の技術】従来より、例えばカーナビゲーションシ
ステムにおける目的地の設定などを音声によって入力で
きるようにする場合などに有効な音声認識装置が提案さ
れ、また実現されている。このような音声認識装置にお
いては、入力音声を予め記憶されている複数の比較対象
パターン候補と比較し、一致度合の高いものを認識結果
とするのであるが、現在の認識技術ではその認識結果が
完全に正確なものとは限らない。これは、静かな環境下
にあってもそうであるため、周囲に雑音が発生するよう
な環境下ではなおさらである。特に、上述したカーナビ
ゲーションシステムなどの実際の使用環境を考慮する
と、雑音がないことは想定しにくい。したがって、認識
率の向上を実現する上では、音声認識装置への入力の前
処理として、認識に必要な音声信号と雑音信号とが混在
した入力信号から雑音成分を極力除去する雑音抑圧を行
なうことが望ましい。

【０００３】この音声と雑音とが混在した入力信号から
雑音成分を除去する手法としては、スペクトラムサブト
ラクション法（以下「ＳＳ法」と略記する。）が非常に
有効な手法として知られている、このＳＳ法について
は、例えばSTEVEN F BOLL、”Suppression of Acoustic
Noise in Speech Using Spectral Subtruction”、IEE
E Transactions on Acoustics, Speech and Signal pro
cessing、Vol.Assp-27、No.2、April 1979、pp.113-120
をはじめとして多くの研究成果が発表されている。ＳＳ
法は、雑音の混入した音声信号の振幅スペクトラムから
雑音の振幅スペクトラムを差し引くか、または雑音の混
入した音声信号のパワースペクトラムから雑音のパワー
スペクトラムを差し引くことによって雑音抑圧を実現す
るものである。なお、パワースペクトラムは振幅スペク
トラムを２乗したものである。ＳＳ法による出力は、雑
音の抑圧された振幅スペクトラムか、雑音の抑圧された
パワースペクトラムである。

【０００４】そして、このような雑音抑圧を行なってか
ら音声認識を行なうシステム構成として、例えば図４
（ａ）のような音声認識システム２００が考えられてい
る。つまり、マイク２０１からは雑音が混入した音声信
号あるいは雑音信号のみが入力される。マイク２０１か
らの入力信号は雑音抑圧装置２０３へ入力され、雑音抑
圧装置２０３で雑音抑圧された音声信号が音声認識装置
２０４へ転送される。また、この場合、利用者がＰＴＴ
（Push-To-Talk）スイッチ２０５を押しながらマイク２
０１を介して音声を入力するようにされている。そし
て、雑音抑圧装置２０３での雑音抑圧は次のように行わ
れる。

【０００５】つまり、図４（ｂ）に示すように、ＰＴＴ
スイッチ２０５が押されるまでは雑音区間であるとし
て、雑音抑圧装置２０３はマイク２０１からの入力信号
を取り込む。そして、ＰＴＴスイッチ２０５が押される
と音声区間であるとして、雑音抑圧装置２０３はマイク
２０１からの入力信号を取り込む。しかし、音声区間に
て取り込んだものは「音声信号＋雑音信号」となる。し
たがって、雑音区間で取り込んだ「雑音信号」を、音声
区間において取り込んだ「音声信号＋雑音信号」から差
し引けば、雑音信号の抑圧された音声信号を抽出するこ
とができるというものである。

【０００６】但し、この手法は、基本的には推定雑音に
基づくものである。つまり図４（ｂ）に示す音声区間に
おいては混入した雑音を直接検知しているのではなく、
音声区間の開始以前の雑音区間にて取り込んだ雑音信号
を基に音声区間における雑音を推定し、その推定雑音の
パワースペクトラムを音声区間にて取り込んだ入力音声
のパワースペクトラムから差し引く処理を行なうのであ
る。そして、一般的には、推定雑音のパワースペクトラ
ムに所定の係数（サブトラクト係数）を乗じた値を入力
音声のパワースペクトラムから差し引いており、このサ
ブトラクト係数は１より大きな値に設定されることが多
い。このように、サブトラクト係数を１より大きな値に
設定することは、推定雑音のパワースペクトラムを差し
引く際に必要以上に差し引いてしまうことに相当する。

【０００７】音声の母音部分のように音声のパワーがあ
る程度確保されている区間では、推定雑音のパワースペ
クトラムを多少引き過ぎた場合でも音声のパワースペク
トラムの形状にはほとんど影響がない。しかし、音声中
のポーズ区間や摩擦子音部分のように音声のパワーが小
さいところでは、引き過ぎてマイナスの値になってしま
う場合がある。上述したようにパワースペクトラムは振
幅スペクトラムを２乗したものなのでマイナス値になる
ことは理論的にあり得ない。そのため、引き過ぎてマイ
ナスの値になってしまう部分はゼロ（０）あるいは相対
的に小さな正の定数に設定するようにしている。したが
って、ＳＳ法によって得られる雑音抑圧された入力音声
のパワースペクトラムには特有の歪が生じてしまうので
ある。

【０００８】図４（ａ）に示す雑音抑圧装置２０３から
音声認識装置２０４へは、ＳＳ法によって雑音抑圧され
た入力音声のパワースペクトラム、あるいはそのパワー
スペクトラムを逆フーリエ変換して得た自己相関係数が
出力される。上述したように、この音声認識装置２０４
に入力されるパワースペクトラムあるいは自己相関係数
に歪が発生しているため、音声認識装置２０４での認識
率が低下してしまう。

【０００９】このような問題を解決するために、本願出
願人は、特願平１０−１８２６８５号（特開平１１−１
５４０００号。以下、先願と称す。）において、時間方
向に移動平均をとるスムージングを導入することによっ
て、認識対象となる音声と雑音とが混在した入力信号に
対しＳＳ法を用いて雑音抑圧を行なう場合の歪を極力低
減させることを提案した。

【００１０】例えばパワースペクトラムはＰ（ｆ，ｔ）
というように周波数ｆと時間（この場合はフレーム単位
の処理に対応する時間）ｔ＝０，１，２，……の関数と
して表せる。なお、この場合はｔ＝０が現在、ｔ＝１が
直前の過去、ｔ＝２がさらに前の過去を示すものとす
る。上述の引算処理によってＰ（ｆ，１）が０となって
いる場合であっても、Ｐ（ｆ，０）及びＰ（ｆ，２）で
は０でない可能性がある。そのため、それら時間（ｔ）
方向の関係に着目してスムージングすれば、Ｐ（ｆ，
１）が０でない値として得られる場合があり、それは実
際の雑音成分を除去した音声信号のパワースペクトラム
をより的確に把握することとなり、歪低減に有効であ
る。

【００１１】

【発明が解決しようとする課題】しかしながら、この方
法の場合には、音声の分析区間が長くなることによって
音声認識そのものの性能を落とす可能性がある。つま
り、音声は時間と共に変化するものであるため、処理す
る区間が長すぎるといわゆる「ボヤけた」状態となって
悪影響が出てしまう。これを時間分解能の低下という。
スペクトル領域における音声とノイズの相関の影響を低
減させるためには、スムージングに用いるフレーム数を
増加させると有利であるが、フレーム数が増加して音声
の分析区間が長くなると、上述の問題が生じてしまう。

【００１２】そこで、本発明は、スペクトル領域におけ
る音声とノイズの相関の影響を、時間分解能の低下なく
抑圧することによって、ノイズ除去における不正確さを
低減することを目的とする。

【００１３】

【課題を解決するための手段及び発明の効果】本発明の
雑音抑圧装置によれば、例えばマイクロフォンなどを介
して入力された入力信号を、入力信号切り出し手段が、
所定の切り出し間隔毎に所定のフレーム長のフレーム信
号として切り出す。そして、スペクトラム算出手段が、
そのフレーム信号をフーリエ変換するなどしてスペクト
ラムを算出する。入力信号に音声が含まれている音声区
間であるか音声が含まれていない雑音区間であるかは判
定手段によって判定され、雑音スペクトラム推定手段
は、雑音区間の入力信号に基づいて算出したスペクトラ
ムを用いて雑音スペクトラムを推定する。そして、引算
手段が、音声区間の入力信号に基づいて算出したスペク
トラムから雑音スペクトラムに所定のサブトラクト係数
を乗じたものを引算し、さらに、スムージング手段が、
引算手段によって引算された結果に対して時間方向の移
動平均処理であるスムージングを実行する。

【００１４】なお、スペクトラム算出手段が算出するス
ペクトラムには、振幅スペクトラムやパワースペクトラ
ムが考えられる。つまり、フレーム信号をフーリエ変換
すると周波数スペクトラムＳpec（ｆ）が算出される。
この周波数スペクトラムＳpec（ｆ）の振幅成分である
振幅スペクトラムＡ（ｆ）を用いてもよいし、その振幅
スペクトラムＡ（ｆ）を２乗して得たパワースペクトラ
ムＰ（ｆ）を用いてもよい。

【００１５】例えば、請求項２のようにスペクトラム算
出手段が振幅スペクトラムＡ（ｆ）を算出する場合に
は、雑音スペクトラム推定手段が雑音振幅スペクトラム
ＡＮ（ｆ）を推定し、引算手段が、音声区間の入力信号
に基づいて算出した振幅スペクトラムＡＳＮ（ｆ）か
ら、雑音振幅スペクトラムＡＮ（ｆ）に所定のサブトラ
クト係数を乗じたものを引算すればよい。

【００１６】また、請求項３のようにスペクトラム算出
手段がパワースペクトラムＰ（ｆ）を算出する場合に
は、雑音スペクトラム推定手段が雑音パワースペクトラ
ムＰＮ（ｆ）を推定し、引算手段が、音声区間の入力信
号に基づいて算出したパワースペクトラムＰＳＮ（ｆ）
から、雑音パワースペクトラムＰＮ（ｆ）に所定のサブ
トラクト係数を乗じたものを引算すればよい。

【００１７】このように引算処理を施すと、推定雑音の
パワースペクトラムあるいは振幅スペクトラムにサブト
ラクト係数を乗じた値を、入力音声のパワースペクトラ
ムあるいは振幅スペクトラムから差し引くこととなる
が、サブトラクト係数が大きい場合には計算上マイナス
値になることがある。パワースペクトラムあるいは振幅
スペクトラムは理論上マイナス値になることはあり得な
いため、その部分はゼロ（０）あるいは相対的に小さな
正の定数に設定する。したがって、この引算処理したま
までは、引算結果であるパワースペクトラムあるいは振
幅スペクトラムに特有の歪が生じてしまう。これをその
まま音声認識に用いると認識率が低下してしまう。

【００１８】そこで、この引算結果に対してスムージン
グを行うことで歪低減を実現する。この技術思想の前提
となるのは、「一般に音声信号の振幅スペクトラム、パ
ワースペクトラムについては、時間方向に相関がある」
という認識である。例えばパワースペクトラムはＰ
（ｆ，ｔ）というように周波数ｆと時間（この場合はフ
レーム単位の処理に対応する時間）ｔ＝０，１，２，…
…の関数として表せる。なお、この場合はｔ＝０が現
在、ｔ＝１が直前の過去、ｔ＝２がさらに前の過去を示
すものとする。例えば上述の引算処理によってＰ（ｆ，
１）が０となっている場合であっても、Ｐ（ｆ，０）及
びＰ（ｆ，２）では０でない可能性がある。そのため、
それら時間（ｔ）方向の関係に着目して補間すれば、Ｐ
（ｆ，１）が０でない値として得られる場合があり、そ
れは実際の雑音成分を除去した音声信号のパワースペク
トラムをより的確に把握することとなり、歪低減に有効
である。

【００１９】このように、音声と雑音とが混在した入力
信号に対しＳＳ法を用いて雑音抑圧を行なう場合の歪を
極力低減させることができれば、例えばその出力を用い
て音声認識を行なう場合の認識率の向上に寄与すること
ができ、非常に有効である。スペクトル領域における音
声とノイズの相関の影響を低減させるためには、スムー
ジングに用いるフレーム数を増加させると有利である。
しかし、フレーム数が増加して音声の分析区間が長くな
ってしまうと、音声認識そのものの性能を落とす可能性
がある。つまり、音声は時間と共に変化するものである
ため、処理する区間が長すぎるといわゆる「ボヤけた」
状態となって悪影響が出てしまう。

【００２０】そこで、本発明では、このような時間分解
能の低下を防止するために、入力信号切り出し手段によ
る切り出し間隔をフレーム長のｎ分の１（ｎは２以上の
整数）とすると共に、スムージングをｎ回に１回実行す
るようにした。例えばｎ＝２の場合で考えると、フレー
ムの切り出しがフレーム長の１／２であるため、入力音
声は、フレームの半分がオーバーラップした状態で切り
出されていく。このようにすれば、複数フレームをスム
ージングに用いても、従来の１フレーム分の分析長に相
当するため、時間分解能の低下が起こらない。

【００２１】但し、スムージングを毎回行っていると、
本雑音抑圧装置からの出力を用いて音声認識を行なう音
声認識装置での認識処理も２倍の頻度で行うこととなり
処理負荷が増大してしまう。そこで、２回に１回行うよ
うにすれば、音声認識装置での認識処理は従来通りの頻
度でよくなり、処理負荷は増大しない。さらに、分析長
が短くなるため、一般に高速フーリエ変換（ＦＦＴ）を
用いてパワースペクトラムなどを算出することの多いス
ペクトラム算出手段での処理負荷の低減にも寄与する。

【００２２】このように、本発明は、スペクトル領域に
おける音声とノイズの相関の影響を、時間分解能の低下
なく抑圧することによって、ノイズ除去における不正確
さを低減することができる。また、請求項３に示すよう
に、引算手段が、音声区間の入力信号に基づいて算出し
たパワースペクトラムＰＳＮ（ｆ）から雑音パワースペ
クトラムＰＮ（ｆ）に所定のサブトラクト係数を乗じた
ものを引算する構成を前提とする場合には、請求項４に
示すようにしてもよい。つまり、引算手段による引算結
果に基づいて自己相関係数を算出する自己相関係数算出
手段をさらに備え、スムージング手段は、その自己相関
係数算出手段によって算出された自己相関係数に対して
スムージングを実行するのである。このように自己相関
係数を用いても同様に歪低減が実現できると共に、雑音
抑圧装置からの出力を用いて音声認識を行なう音声認識
装置におけるメモリ容量及び処理負荷の低減の面で有効
である。

【００２３】これは、自己相関係数のフーリエ変換がパ
ワースペクトラムになる、つまりパワースペクトラムの
逆フーリエ変換が自己相関係数になることに着目したも
のである。自己相関係数をＣ（ｒ，ｔ）、逆フーリエ変
換をＦ^-1とすると、パワースペクトラムＰ（ｆｔ）との
関係は次のようになる。Ｃ（ｒ，ｔ）＝Ｆ^-1［Ｐ（ｆ，ｔ）］なお、ｒは自己相関係数の指数であり、パワースペクト
ラムにおける周波数ｆに対応する。

【００２４】例えば、フーリエ変換の線形性より、次の
変形が可能である。Ｆ^-1［α・Ｐ(f,0)＋β・Ｐ(f,1)＋γ・Ｐ(f,2)］＝α・Ｆ^-1［Ｐ(f,0)］＋β・Ｆ^-1［Ｐ(f,1)］＋γ・Ｆ^-1［Ｐ(f,2)］＝α・Ｃ(r,0)＋β・Ｃ(r,1)＋γ・Ｃ(r,2) このように、パワースペクトラムと自己相関係数とは等
価であるため、スムージングを施す場合に、パワースペ
クトラムを用いても自己相関係数を用いても同様の結
果、つまり歪の低減された出力を得ることができる。

【００２５】そして、このような自己相関係数を用いる
と後段の音声認識装置におけるメモリ容量及び処理負荷
が低減されるのであるが、その点について説明する。後
段の音声認識装置が線形予測分析（linear predictive
coding：ＬＰＣ）を行なう構成であり、雑音抑圧装置か
らパワースペクトラムを出力する場合を想定すると、音
声認識装置においては、まず雑音抑圧装置から出力され
たパワースペクトラムから自己相関係数を算出しなけれ
ばならなくなる。そのため、処理負荷やメモリ容量の増
大につながっていた。それに対して、雑音抑圧装置にお
いて自己相関係数化し、これを音声認識装置側へ渡せ
ば、音声認識装置における処理負荷やメモリ容量の削減
を実現できる。音声認識装置がＰ次のＬＰＣを実行する
場合には、指数ｒがｒ＝０，１，２，……Ｐの自己相関
係数Ｃ（ｒ，ｔ）しか用いず、一般にＰ＝１７程度であ
る。

【００２６】したがって、パワースペクトラムを逆フー
リエ変換して自己相関係数化し、その自己相関係数を補
間したものを出力することで、後段の音声認識装置にお
けるメモリ容量及び処理負荷の低減を実現できる。な
お、上述した判定手段は、入力信号に音声が含まれてい
る音声区間であるか音声が含まれていない雑音区間であ
るかを判定するのであるが、例えば請求項５に示すよう
に、入力信号のパワーに基づいて判定することが考えら
れる。また、音声を入力させる期間を発声者自身が指定
するために設けられた入力期間指定手段によって指定さ
れた入力期間を音声区間として判定するようにしてもよ
い。この入力期間指定手段としては、例えばＰＴＴ（Pu
sh-To-Talk）スイッチなどが考えられる。つまり、利用
者がＰＴＴスイッチを押しながら音声を入力すると、そ
のＰＴＴスイッチが押されている間に入力された音声を
処理対象として受け付けるのである。このようにするこ
とで、雑音抑圧対象となる入力信号に対してのみ雑音抑
圧処理を実行すればよいので、処理負荷軽減の点で有効
である。

【００２７】なお、これまでは雑音抑圧装置としての構
成及びその作用効果について説明したが、上述した雑音
抑圧装置と、該雑音抑圧装置からの出力を、予め記憶さ
れている複数の比較対象パターン候補と比較して一致度
合の高いものを認識結果とする音声認識装置と、を備え
ることを特徴とする音声認識システムとして実現するこ
ともできる（請求項６）。そして、この音声認識システ
ムにおける音声認識装置は、雑音抑圧装置からの出力に
対して線形予測分析を行なうよう構成することが考えら
れる（請求項７）。

【００２８】これら音声認識システムとして実現した場
合の効果については、雑音抑圧装置として実現した場合
と同様であるので、ここでは省略する。また、このよう
な音声認識システムは、種々の適用先が考えられるが、
例えばいわゆるカーナビゲーションシステム用として用
いることが考えられる。この場合には、例えば経路設定
のための目的地などが音声にて入力できれば非常に便利
である。また、ナビゲーションシステムだけでなく、例
えば音声認識システムを車載空調システム用として用い
ることも考えられる。この場合には、空調システムにお
ける空調状態関連指示を利用者が音声にて入力するため
に用いることとなる。さらには、例えば、携帯用の情報
端末装置、あるいは街頭やパーキングエリアなどに設定
される情報端末装置などにも同様に適用できる。

【００２９】そして、このように音声認識システムとし
て実現する場合には、雑音抑圧装置に対する上述の工夫
だけでなく、音声認識装置においても雑音抑圧装置側の
工夫に対応した工夫を施すことが考えられる。具体的に
は、音声認識装置内に記憶されている比較対象パターン
候補を作成するに際して、次のような工夫を施す。

【００３０】例えば、請求項８に示すシステムでは、学
習用サンプル音声のスペクトラムに対し、スムージング
手段において実行されるスムージングと同一の処理を施
した結果を用いて比較対象パターン候補を作成する。以
下、このようにして作成したものを「第１の比較対象パ
ターン候補」と称す。

【００３１】また、請求項９に示すシステムでは、雑音
の重畳された学習用サンプル音声に対して、前記引算手
段と同様に、学習用サンプル音声のスペクトラムから雑
音のスペクトラムに所定のサブトラクト係数を乗じたも
のを引算し、その引算された結果に対し、スムージング
手段において実行されるのと同一のスムージングを施し
た結果を用いて比較対象パターン候補を作成する。以
下、このようにして作成したものを「第２の比較対象パ
ターン候補」と称す。

【００３２】このように、学習用サンプル音声のスペク
トラム、あるいは雑音の重畳された学習用サンプル音声
にＳＳ法による処理を施したものに対し、スムージング
手段において実行されるスムージングと同一の処理を施
すのは、次の意図からである。すなわち、上述した雑音
抑圧装置に対する工夫は、ＳＳ法を用いて雑音抑圧を行
なう場合の歪を極力低減させるためにスムージングを行
っているのであるが、このスムージングを施すことによ
って、音声の本来の特性を変化させてしまっていること
となる。そのため、雑音抑圧に関しては有効であって
も、音声認識装置における認識処理に際し、場合によっ
ては、上述の音声特性変化の影響で認識率を低下させる
方向へ作用してしまう可能性も考えられる。そこで、音
声認識時の比較対象パターン候補を作成する際に、学習
用サンプル音声のスペクトラム（あるいはＳＳ法による
処理を施したもの）そのままを用いるのではなく、スム
ージング手段において実行されるスムージングと同一の
処理を施すことにより、意図的に音声特性変化を加えて
いる。こうすることにより、雑音抑圧装置側でのスムー
ジングによる音声特性変化を吸収し、認識率の低下を防
止することができるのである。

【００３３】なお、音声認識は、上述したように、雑音
抑圧装置からの出力を、予め記憶されている複数の比較
対象パターン候補と比較して一致度合の高いものを認識
結果とするので、この比較対象パターン候補の充実を図
ることが認識率向上につながる。したがって、例えば請
求項１０に示すように、音声認識装置内に記憶されてい
る比較対象パターン候補として、前記第１の比較対象パ
ターン候補及び前記第２の比較対象パターン候補の両方
を備えておくことが好ましい。また、同様の観点から、
請求項１１に示すように、雑音の重畳された学習用サン
プル音声に対して、ＳＳ法による処理、つまり学習用サ
ンプル音声のスペクトラムから雑音のスペクトラムに所
定のサブトラクト係数を乗じたものを引算した結果を用
いて作成された第３の比較対象パターン候補を準備し、
第１又は第２の比較対象パターン候補と第３の比較対象
パターン候補を備えるようにしたり、あるいは第１〜第
３の比較対象パターン候補を全て備えるようにしてもよ
い。

【００３４】そして、請求項１２に示すように、第２及
び第３の比較対象パターン候補を作成する際に用いる雑
音は、音声認識システムが使用される環境での雑音とす
ることが好ましい。この環境雑音としては１種類だけで
なく複数種類を考慮することがさらに好ましい。例え
ば、音声認識システムが自動車内にて用いられる場合に
は、搭載される車種、走行速度、窓の開閉の有無、エア
コンやオーディオ等の他の車載機器の使用の有無などに
よって雑音のレベルやＳＮ比が異なる。したがって、そ
れらの要素を適宜加味した使用環境をいくつか想定し、
その環境での雑音の重畳された学習用サンプル音声を用
いて比較対象パターン候補を作成することが好ましい。

【００３５】なお、以上説明した雑音抑圧装置における
各手段をコンピュータシステムにて実現する機能は、例
えば、コンピュータシステム側で起動するプログラムと
して備えられる。このようなプログラムの場合、例え
ば、フロッピーディスク、光磁気ディスク、ＣＤ−ＲＯ
Ｍ、ＤＶＤ、ハードディスク等の記録媒体に記録し、必
要に応じてコンピュータシステムにロードして起動する
ことにより用いることができる。この他、ＲＯＭやバッ
クアップＲＡＭを記録媒体として前記プログラムを記録
しておき、このＲＯＭあるいはバックアップＲＡＭをコ
ンピュータシステムに組み込んで用いても良い。

【００３６】

【発明の実施の形態】図１は本発明の実施形態の音声認
識システムの概略構成を示すブロック図である。本音声
認識システムは、マイク３０を介して入力された音声に
対して雑音抑圧を行なう雑音抑圧装置１０と、その雑音
抑圧装置１０からの出力を、予め記憶されている複数の
比較対象パターン候補と比較して一致度合の高いものを
認識結果とする音声認識装置２０とを備えている。

【００３７】まず、雑音抑圧装置１０について説明す
る。図１に示すように、雑音抑圧装置１０は、音声入力
部１１と、入力音声切り出し部１２と、フーリエ変換部
１３と、パワースペクトラム変換部１４と、雑音パワー
スペクトラム推定部１５と、引算部１６と、逆フーリエ
変換部１７と、スムージング部１８とを備えている。以
下、各ブロックでの処理内容について説明する。

【００３８】音声入力部１１は、マイク３０を介して入
力されたアナログ音声信号を例えば１２ＫＨｚのサンプ
リング周波数でデジタル信号に変換し、入力音声切り出
し部１２及び雑音パワースペクトラム推定部１５へ出力
する。雑音パワースペクトラム推定部１５は、音声入力
部１１からの入力信号をオーバーラップさせながら、所
定の切り出し間隔で、順次所定の長さのフレーム毎に切
り出す。そして、フーリエ変換してスペクトラムを求
め、そのスペクトラムの振幅の２乗を計算して求めたパ
ワースペクトラムを内部のバッファ（図示せず）に記憶
する。この切り出し間隔が以降の処理の時間間隔と一致
する。

【００３９】このバッファには過去の全てのパワースペ
クトラムが記憶されているのではなく、最新のｍ個のフ
レームに対するパワースペクトラムＰｎ（ｆ，ｔ）が順
次更新しながら記憶されていくこととなる。なお、パワ
ースペクトラムＰｎ（ｆ，ｔ）において、ｆは周波数、
ｔは時間（この場合はフレーム単位の処理に対応する時
間）であり、ｔ＝０が現在、ｔ＝１が直前の過去、ｔ＝
２がさらに前の過去、というように数字が増えるほど前
の過去を示すものとする。したがって、最新のｍ個のフ
レームに対するパワースペクトラムＰｎ（ｆ，ｔ）と
は、Ｐｎ（ｆ，０）、Ｐｎ（ｆ，１）、Ｐｎ（ｆ，
２）、……Ｐｎ（ｆ，ｍ−１）のｍ個を指す。また、そ
れ以前の過去のパワースペクトラムはバッファから捨て
られる。

【００４０】そして、雑音パワースペクトラム推定部１
５は、音声が入力されたことを示す音声入力検出信号を
受け取ると雑音パワースペクトラムの推定処理を中止す
る。本実施形態においては、図示しないＰＴＴ（Push-T
o-Talk）スイッチが押されている場合にはこの音声入力
検出信号が出力される。つまり、本音声認識システムで
は、利用者がＰＴＴスイッチを押しながらマイク３０を
介して音声を入力するという使用方法である。そのた
め、ＰＴＴスイッチが押されているということは利用者
が音声を入力しようとする意志をもって操作したことで
あるので、その場合には実際には音声入力があるかない
かを判断することなく、音声入力がされる期間（音声区
間）であると捉えて処理しているのである。

【００４１】音声入力検出信号を受け取った雑音パワー
スペクトラム推定部１５では、雑音パワースペクトラム
の推定処理を中止し、バッファに記憶されているｍ個の
パワースペクトラムＰｎ（ｆ，０）、Ｐｎ（ｆ，１）、
Ｐｎ（ｆ，２）、……Ｐｎ（ｆ，ｍ−１）の平均値を算
出して、ＳＳ法での引算に用いる雑音パワースペクトラ
ムＰＮ（ｆ）（ｆは周波数）を作成し、引算部１６へ渡
す。なお、この雑音パワースペクトラムＰＮ（ｆ）の算
出式は以下の通りである。

【００４２】

【数１】

【００４３】一方、入力音声切り出し部１２は、音声入
力検出信号を受け取った場合にだけ処理を行なう。その
処理は、音声入力部１１からの入力信号をオーバーラッ
プさせながら、所定の切り出し間隔で、順次所定の長さ
のフレーム毎に切り出して、フーリエ変換部１３へ出力
する。フーリエ変換部１３では、フレーム毎の入力音声
信号に対してフーリエ変換を行なうことによって入力音
声信号のスペクトラムＳpec（ｆ）を求め、パワースペ
クトラム変換部１４へ出力する。

【００４４】そして、パワースペクトラム変換部１４で
は、スペクトラムＳpec（ｆ）の振幅の２乗を計算して
パワースペクトラムＰＳＮ（ｆ）を求め、引算部１６へ
渡す。なお、このパワースペクトラムＰＳＮ（ｆ）の算
出式は以下の通りである。

【００４５】

【数２】

【００４６】引算部１６では、パワースペクトラム変換
部１４から送られたパワースペクトラムＰＳＮ（ｆ）か
ら、雑音パワースペクトラム推定部１５から送られた雑
音パワースペクトラムＰＮ（ｆ）に所定のサブトラクト
係数を乗じたものを引算して逆フーリエ変換部１７へ送
る。ここでサブトラクト係数は１．４であり、引算処理
の結果マイナスとなった場合にはゼロとする。したがっ
て、引算部１６からの出力Ｐ（ｆ）は以下の式に示す通
りとなる。

【００４７】

【数３】

【００４８】逆フーリエ変換部１７では、引算部１６か
らの出力Ｐ（ｆ）に対して逆フーリエ変換を施して自己
相関係数ＣＳＳ（ｒ）（ｒは相関のラグであり、ｒ＝0,
1,2,3,…）を求める。逆フーリエ変換部１７は、この自
己相関係数ＣＳＳ（ｒ）の内で、ｒ＝0,1,2,……,pのも
のだけをスムージング部１８へ送る。

【００４９】スムージング部１８は、常に現在時間と過
去２つまでの自己相関係数を図示しないバッファに保持
している。つまり、ｔ＝０が現在、ｔ＝１が直前の過
去、ｔ＝２がさらに前の過去を示すものとすると、ＣＳ
Ｓ(r,0),ＣＳＳ(r,1)，ＣＳＳ(r,2) の３つの自己相関
係数である。逆フーリエ変換部１７から送られた自己相
関係数は現在時点の自己相関係数としてのスムージング
部１８のバッファに蓄えられ、過去２つの自己相関係数
と併せた３つの自己相関係数を用いて、１つ前の過去の
自己相関係数を次式のようにして求める。なお、スムー
ジング部１８の出力がＣ（ｒ）である。Ｃ（ｒ）＝β0・ＣＳＳ(r,0)＋β1・ＣＳＳ(r,1)＋β2
・ＣＳＳ(r,2) （β0＝0.4/1.8，β1＝1.0/1.8，β2＝0.4/1.8，ｒ＝0,
1,2,……,p）ところで、このスムージング部１８におけるスムージン
グは、逆フーリエ変換部１７から自己相関係数が送られ
てくる度に行われるのではなく、ｎ回に１回だけ行われ
る。このｎは、入力音声切り出し部１２による切り出し
間隔とフレーム長との関係に依存しており、切り出し間
隔がフレーム長の１／ｎ（ｎは自然数）である場合に、
スムージングをｎ回に１回行うこととなる。

【００５０】入力音声切り出し部１２は、上述したよう
に、音声入力部１１からの入力信号をオーバーラップさ
せながら、所定の切り出し間隔で、順次所定の長さのフ
レーム毎に切り出してフーリエ変換部１３へ出力する。
例えば１２ＫＨｚのサンプリング周波数で、図２中の上
段に示すように１２８回のサンプリング毎に２５６点の
切り出しを行うと、約１０．８ｍ毎に２１．５ｍｓ分の
音声を処理することになり、この場合にはフレーム長２
５６点、フレーム周期１２８点である。スムージング部
１８では３フレーム分のスムージングを行うため、フレ
ーム長２５６点、フレーム周期１２８点の場合には、５
１２点分、すなわち４３ｍｓ分の音声を処理することと
なる。

【００５１】但し、音声は時間と共に変化するものであ
るため、処理する区間が長すぎるといわゆる「ボヤけ
た」状態となって悪影響が出てしまう。つまり、時間分
解能の低下である。そこで、本実施例では、入力音声切
り出し部１２において、図２中の下段に示すように６４
回のサンプリング毎に１２８点の切り出しを行い、約
５．４ｍｓ毎に約１０．８ｍ分の音声を処理するように
した。この場合にはフレーム長１２８点、フレーム周期
６４点である。このようにすると、スムージング部１８
では３フレーム分のスムージングを行っても、２５６点
分にしかならない。つまり、フレーム長を半分にする前
の１フレーム分（図２中の上段参照）の分析長に相当す
るため、時間分解能の低下が起こらない。

【００５２】しかし、このようにフレーム長及びフレー
ム周期を半分にしただけで何らの対処もしないと、雑音
抑圧装置１０からの出力を用いて音声認識を行なう音声
認識装置２０での認識処理も２倍の頻度で行うこととな
り、処理負荷が増大してしまう。そこで、本実施例で
は、スムージングを２回に１回行うようにした。このよ
うにすれば、音声認識装置２０での認識処理は従来通り
の頻度でよくなり、処理負荷は増大しない。

【００５３】さらに、分析長が短くなるため、フーリエ
変換部１３での処理負荷の低減にも寄与する。例えば高
速フーリエ変換による計算量は、２５６点のフレーム長
を用いた場合の０．８７５倍でよく、分析の計算量はさ
らに削減できる。このように、スムージング部１８にて
２回に１回スムージングが行われて得られた自己相関係
数Ｃ（ｒ）（ｒ＝0,1,2,〜,p）が順次音声認識装置２０
へ送られる。

【００５４】次に、この音声認識装置２０について説明
する。音声認識装置２０は、ＬＰＣ分析部２１と、ケプ
ストラム計算部２２と、標準パターン格納部２３と、照
合部２４と、判定部２５とを備えている。ＬＰＣ分析部
２１では、雑音抑圧装置１０からの出力を用いて線形予
測分析を行なう。線形予測分析は音声信号処理の分野で
は一般的な分析手法であり、例えば、古井「ディジタル
音声処理」（東海大学出版会）などに詳しく説明されて
いる。本実施形態においてはこの線形予測分析に自己相
関法を用いており、自己相関係数Ｃ（ｒ）を用いてｍ次
のＬＰＣ係数を計算する。なお、本実施形態においては
雑音抑圧装置１０のスムージング部１８から自己相関係
数Ｃ（ｒ）が出力されるので、ＬＰＣ分析部２１におい
てはそれをそのまま用いてＬＰＣ係数の計算を行えばよ
い。つまり、パワースペクトラムの状態で出力される場
合には、それを逆フーリエ変換して自己相関係数を算出
する処理が必要となるが、本実施形態では自己相関係数
Ｃ（ｒ）の形で出力されてくるので、ＬＰＣ分析部２１
において逆フーリエ変換する必要がない。

【００５５】そして、ケプストラム計算部２２では、Ｌ
ＰＣ分析部２１において計算されたＬＰＣ係数を基に、
フレーム毎のスペクトル上の特徴パラメータとしてのＬ
ＰＣケプストラム係数を計算する。一方、標準パターン
格納部２３には予め計算しておいた認識対象語彙の標準
パターン（特徴パラメータ系列）が格納してあり、照合
部２４は、標準パターン格納部２３に格納されている標
準パターンと、ケプストラム計算部２２にて計算された
ＬＰＣケプストラム係数との間で類似度計算を行なう。
これらは周知のＤＰマッチング法、ＨＭＭ（隠れマルコ
フモデル）あるいはニューラルネットなどによって、こ
の時系列データをいくつかの区間に分け、各区間が辞書
データとして格納されたどの単語に対応しているかを求
める。そして、判定部２５は、各認識対象語彙のうち照
合部２４で計算した類似度が最も高い語彙を認識結果と
して出力する。

【００５６】このように、本実施形態の音声認識システ
ムによれば、雑音抑圧装置１０の引算部１６において、
音声区間の入力信号に基づいて算出したパワースペクト
ラムＰＳＮ（ｆ）から雑音スペクトラムＰＮ（ｆ）に所
定のサブトラクト係数（ここでは１．４）を乗じたもの
を引算している。

【００５７】引算部１６においては、上述したように雑
音パワースペクトラムＰＮ（ｆ）を１．４倍したもの
を、音声区間の入力信号に基づいて算出したパワースペ
クトラムＰＳＮ（ｆ）から引算している。この場合はサ
ブトラクト係数が１より大きい１．４であるため、計算
上マイナス値になることがある。パワースペクトラムは
理論上マイナス値になることはあり得ないため、その部
分はゼロ（０）あるいは相対的に小さな正の定数に設定
している。したがって、この引算処理したままでは、引
算結果であるパワースペクトラムに特有の歪が生じてし
まい、これをそのまま音声認識に用いると認識率が低下
してしまう。

【００５８】そこで、この引算結果に対して逆フーリエ
変換部１７において自己相関係数化した後、スムージン
グ部１８において時間方向（ｔ）の移動平均処理である
スムージングを実行し、歪低減を実現する。そして、音
声と雑音とが混在した入力信号に対しＳＳ法を用いて雑
音抑圧を行なう場合の歪を極力低減させることができれ
ば、後段の音声認識装置２０における音声認識での認識
率の向上に寄与することができ、非常に有効である。

【００５９】また、音声は時間と共に変化するものであ
るため、処理する区間が長すぎると時間分解能の低下が
生じるため、入力音声切り出し部１２において、図２中
の下段に示すようにフレーム長１２８点、フレーム周期
６４点というように、図２中の上段の場合の２分の１に
したのである。このようにすると、スムージング部１８
では３フレーム分のスムージングを行っても、フレーム
長を半分にする前の１フレーム分の分析長に相当するた
め、時間分解能の低下が起こらない。

【００６０】しかし、このようにフレーム長及びフレー
ム周期を半分にしただけで何らの対処もしないと、雑音
抑圧装置１０からの出力を用いて音声認識を行なう音声
認識装置２０での認識処理も２倍の頻度で行うこととな
り、処理負荷が増大してしまう。そこで、本実施例で
は、スムージングを２回に１回行うようにした。このよ
うにすれば、音声認識装置２０での認識処理は従来通り
の頻度でよくなり、処理負荷は増大しない。

【００６１】なお、本実施例では、フレーム周期をフレ
ーム長の２分の１にしたため、スムージングを２回に１
回行うようにしたが、当然ながら、フレーム周期がフレ
ーム長の３分の１であればスムージングを３回に１回、
フレーム周期がフレーム長の４分の１であればスムージ
ングを４回に１回行えば、処理負荷が増大しない。

【００６２】また、本実施形態においては、引算部１６
における引算結果を逆フーリエ変換部１７において自己
相関係数化している。このように自己相関係数を用いて
も同様に歪低減が実現できると共に、この場合には、後
段の音声認識装置２０におけるメモリ容量及び処理負荷
の低減の面で有効である。

【００６３】これは、パワースペクトラムの逆フーリエ
変換が自己相関係数になることに着目したものである。
つまり、自己相関係数をＣ（ｒ，ｔ）、逆フーリエ変換
をＦ ^-1とすると、パワースペクトラムＰ（ｆ，ｔ）との
関係は次のようになる。Ｃ（ｒ，ｔ）＝Ｆ^-1［Ｐ（ｆ，ｔ）］なお、ｒは自己相関係数の指数であり、パワースペクト
ラムにおける周波数ｆに対応する。

【００６４】例えば、上述したスムージングを用いて考
えると、フーリエ変換の線形性より、次の変形が可能で
ある。Ｆ^-1［α・Ｐ(f,0)＋β・Ｐ(f,1)＋γ・Ｐ(f,2)］＝α・Ｆ^-1［Ｐ(f,0)］＋β・Ｆ^-1［Ｐ(f,1)］＋γ・Ｆ^-1［Ｐ(f,2)］＝α・Ｃ(r,0)＋β・Ｃ(r,1)＋γ・Ｃ(r,2) このように、パワースペクトラムと自己相関係数とは等
価であるため、スムージングを施す場合に、パワースペ
クトラムを用いても自己相関係数を用いても同様の結
果、つまり歪の低減された出力を得ることができる。そ
して、音声認識装置２０ではＬＰＣ分析部２１において
線形予測分析を行なっているが、仮に雑音抑圧装置１０
からパワースペクトラムを出力する場合を想定すると、
音声認識装置２０においては、まず雑音抑圧装置１０か
ら出力されたパワースペクトラムに基づいて自己相関係
数を算出しなければならなくなる。そのため、処理負荷
やメモリ容量の増大につながるが、本実施形態のように
雑音抑圧装置１０において自己相関係数化し、これを音
声認識装置２０へ渡せば、音声認識装置２０における処
理負荷やメモリ容量の削減を実現できる。

【００６５】なお、本実施形態においては、入力音声切
り出し部１２及び雑音パワースペクトラム推定部１５に
おける切り出し機能が「入力信号切り出し手段」に相当
する。また、入力音声切り出し部１２において、音声入
力検出信号の入力があると切り出し処理を始めたり、雑
音パワースペクトラム推定部１５において、音声入力検
出信号の入力があると雑音パワースペクトラムの推定を
止めているが、これが「判定手段」による音声区間と雑
音区間の判定結果に基づく処理内容の変更に相当する。
そして、フーリエ変換部１３及びパワースペクトラム変
換部１４が「スペクトラム算出手段」に相当し、雑音パ
ワースペクトラム推定部１５が「雑音スペクトラム推定
手段」に相当する。また、引算部１６が「引算手段」に
相当し、スムージング部１８が「スムージング手段」に
相当する。さらに、逆フーリエ変換部１７が「自己相関
係数算出手段」に相当する。

【００６６】以上、本発明はこのような実施例に何等限
定されるものではなく、本発明の主旨を逸脱しない範囲
において種々なる形態で実施し得る。（１）例えば、上記実施形態では、フーリエ変換して得
た周波数スペクトラムＳpec（ｆ）の振幅を２乗したパ
ワースペクトラムＰＳＮ（ｆ）を用い、同様に雑音パワ
ースペクトラムＰＮ（ｆ）を用いたが、周波数スペクト
ラムＳpec（ｆ）の振幅成分である振幅スペクトラムＡ
（ｆ）そのものを用いてもよい。その場合には、雑音振
幅スペクトラムＡＮ（ｆ）を推定し、音声区間の入力信
号に基づいて算出した振幅スペクトラムＡＳＮ（ｆ）か
ら雑音振幅スペクトラムＡＮ（ｆ）に所定のサブトラク
ト係数を乗じたものを引算すればよい。

【００６７】但し、自己相関係数Ｃ(r,t) は上述したよ
うにパワースペクトラムＰ(f,t) との間で等価であるた
め、振幅スペクトラムを用いる場合には、自己相関係数
化はできないため、自己相関係数を用いた場合のメリッ
トは得られない。しかし、逆に考えれば、雑音抑圧装置
１０において自己相関係数化するのは、これを音声認識
装置２０へ渡した場合に音声認識装置２０における処理
負荷やメモリ容量の削減を実現できるからであり、この
利点を享受しないのであれば、自己相関係数化しなくて
もよい。したがって、パワースペクトラムや振幅スペク
トラムを用い、自己相関係数化せずに後段の音声認識装
置などに出力するような形態も実施可能である。（２）また、上記実施形態においては、音声を入力させ
る期間を発声者自身が指定するために設けられたＰＴＴ
スイッチを用い、利用者がＰＴＴスイッチを押しながら
音声を入力すると、そのＰＴＴスイッチが押されている
間を音声区間とみなすようにしたが、実際の入力信号に
基づいて音声区間と雑音区間を判定するようにしてもよ
い。例えば、入力信号のパワーに基づいて判定すること
が考えられる。

【００６８】（３）また、音声認識システムとして実現
する場合には、雑音抑圧装置１０に対する上述の工夫だ
けでなく、音声認識装置２０においても雑音抑圧装置１
０側の工夫に対応した工夫を施すことが考えられる。具
体的には、音声認識装置２０の標準パターン格納部２３
に格納する認識対象語彙の標準パターン（特徴パラメー
タ系列）を作成するに際して工夫する。図３には概略的
な処理手順を示す。学習用サンプル音声を入力したら
（Ｓ１）、その入力音声を切り出す（Ｓ２）。そして、
そのパワースペクトラムを算出したら（Ｓ３）、雑音抑
圧装置１０のスムージング部１８において実行されるス
ムージングと同一のフィルタ処理を施す（Ｓ４）。そし
て、そのフィルタ処理を施した結果を用いて特徴量（ケ
プストラム係数）を算出し（Ｓ５）、認識対象語彙の標
準パターンとして標準パターン格納部２３に格納する
（Ｓ６）。

【００６９】このように、学習用サンプル音声のパワー
スペクトラムに対し、スムージング部１８において実行
されるスムージングと同一の処理を施す意図は次の通り
である。すなわち、上述した雑音抑圧装置１０に対する
工夫は、ＳＳ法を用いて雑音抑圧を行なう場合の歪を極
力低減させるためにスムージングを行っているのである
が、このスムージングを施すことによって、音声の本来
の特性を変化させてしまっていることとなる。そのた
め、雑音抑圧に関しては有効であっても、音声認識装置
２０における認識処理に際し、場合によっては、上述の
音声特性変化の影響で認識率を低下させる方向へ作用し
てしまう可能性も考えられる。そこで、音声認識装置２
０の照合部２４がケプストラム計算部２２にて計算され
たＬＰＣケプストラム係数との間で類似度計算を行なう
対象である標準パターンを作成する際に、学習用サンプ
ル音声のスペクトラムをそのままを用いるのではなく、
スムージング部１８において実行されるスムージングと
同一の処理を施すことにより、意図的に音声特性変化を
加えている。こうすることにより、雑音抑圧装置１０側
でのスムージングによる音声特性変化を吸収し、認識率
の低下を防止することができる。

【００７０】なお、図３に示す処理手順では、学習用サ
ンプル音声として雑音を含まない場合にも、あるいは雑
音を含む場合にも適用できる。但し、雑音を含む場合に
は、図１に示した雑音抑圧装置１０の場合と同様にＳＳ
法を用いてもよい。つまり、雑音の重畳された学習用サ
ンプル音声から雑音パワースペクトラムを推定し、学習
用サンプル音声のパワースペクトラムから雑音のスペク
トラムに所定のサブトラクト係数を乗じたものを引算す
る。そして、その引算された結果に対し、スムージング
部１８において実行されるのと同一のスムージングを施
し、特徴量（ケプストラム係数）を算出するのである。

【００７１】なお、音声認識は、上述したように、雑音
抑圧装置１０からの出力を、予め記憶されている標準パ
ターン候補と比較して一致度合の高いものを認識結果と
するので、この比較対象パターン候補の充実を図ること
が認識率向上につながる。したがって、上述した図３の
処理手順にて作成した標準パターン及びＳＳ法を用いて
作成した標準パターンの両方を備えておくことが好まし
い。そして、実際の使用環境では雑音が含まれることが
ほとんどであるので、標準パターンを作成する際の学習
用サンプル音声は、音声認識システムが使用される環境
での雑音を重畳させたものを用いることが好ましい。さ
らに、この環境雑音としては１種類だけでなく複数種類
を考慮した方が好ましい。例えば、音声認識システムが
自動車内にて用いられる場合には、搭載される車種、走
行速度、窓の開閉の有無、エアコンやオーディオ等の他
の車載機器の使用の有無などによって雑音のレベルやＳ
Ｎ比が異なる。したがって、それらの要素を適宜加味し
た使用環境をいくつか想定し、その環境での雑音の重畳
された学習用サンプル音声を用いて比較対象パターン候
補を作成する。

【図面の簡単な説明】

【図１】本発明の実施形態の音声認識システムの概略
構成を示すブロック図である。

【図２】フレーム長とフレーム周期の比較を示す説明
図である。

【図３】標準パターンの作成処理手順を示すフローチ
ャートである。

【図４】従来の音声認識システムの概要を示す説明図
である。

【符号の説明】

１０…雑音抑圧装置１１…音声入力部１２…入力音声切り出し部１３…フーリエ変換
部１４…パワースペクトラム変換部１５…雑音パワース
ペクトラム推定部１６…引算部１７…逆フーリエ変
換部１８…スムージング部２０…音声認識装置２１…ＬＰＣ分析部２２…ケプストラム
計算部２３…標準パターン格納部２４…照合部２５…判定部３０…マイク２００…音声認識システム２０１…マイク２０３…雑音抑圧装置２０４…音声認識装
置２０５…ＰＴＴスイッチ

フロントページの続き (72)発明者中川聖一愛知県豊橋市天伯町雲雀ケ丘１−１豊橋技術科学大学内Ｆターム(参考） 5D015 CC03 CC05 EE05 FF04 9A001 BB06 GG03 HH15 HH17 JJ73 KK37

Claims

【特許請求の範囲】

【請求項１】入力信号を、所定の切り出し間隔毎に、所
定のフレーム長のフレーム信号として切り出す入力信号
切り出し手段と、前記フレーム信号からスペクトラムを算出するスペクト
ラム算出手段と、前記入力信号に音声が含まれている音声区間と、前記音
声が含まれていない雑音区間とを判定する判定手段と、該判定手段によって判定された前記雑音区間の入力信号
に基づいて算出した前記スペクトラムを用いて雑音スペ
クトラムを推定する雑音スペクトラム推定手段と、前記音声区間の入力信号に基づいて算出した前記スペク
トラムから、前記雑音スペクトラム推定手段によって推
定された前記雑音スペクトラムに所定のサブトラクト係
数を乗じたものを引算する引算手段と、該引算手段によって引算された結果に対して時間方向の
移動平均処理であるスムージングを実行するスムージン
グ手段とを備える雑音抑圧装置であって、前記入力信号切り出し手段による切り出し間隔は、前記
フレーム長のｎ分の１（ｎは２以上の整数）であると共
に、前記スムージング手段は、前記スムージングをｎ回
に１回実行することを特徴とする雑音抑圧装置。
【請求項２】請求項１に記載の雑音抑圧装置において、前記スペクトラム算出手段は、前記フレーム信号から振
幅スペクトラムを算出し、前記雑音スペクトラム推定手段は、前記雑音区間の入力
信号に基づいて算出した前記振幅スペクトラムを用いて
雑音振幅スペクトラムを推定し、前記引算手段は、前記音声区間の入力信号に基づいて算
出した前記振幅スペクトラムから、前記雑音スペクトラ
ム推定手段によって推定された前記雑音振幅スペクトラ
ムに所定のサブトラクト係数を乗じたものを引算するよ
う構成されていることを特徴とする雑音抑圧装置。
【請求項３】請求項１に記載の雑音抑圧装置において、前記スペクトラム算出手段は、前記フレーム信号からパ
ワースペクトラムを算出し、前記雑音スペクトラム推定手段は、前記雑音区間の入力
信号に基づいて算出した前記パワースペクトラムを用い
て雑音パワースペクトラムを推定し、前記引算手段は、前記音声区間の入力信号に基づいて算
出した前記パワースペクトラムから、前記雑音スペクト
ラム推定手段によって推定された前記雑音パワースペク
トラムに所定のサブトラクト係数を乗じたものを引算す
るよう構成されていることを特徴とする雑音抑圧装置。
【請求項４】請求項３に記載の雑音抑圧装置において、さらに、前記引算手段による引算結果に基づいて自己相
関係数を算出する自己相関係数算出手段を備え、前記スムージング手段は、前記自己相関係数算出手段に
よって算出された自己相関係数に対してスムージングを
実行するよう構成されていることを特徴とする雑音抑圧
装置。
【請求項５】請求項１〜４のいずれかに記載の雑音抑圧
装置において、前記判定手段は、前記入力信号のパワーに基づいて前記
音声区間及び雑音区間を判定するよう構成されているこ
とを特徴とする雑音抑圧装置。
【請求項６】請求項１〜５のいずれかに記載の雑音抑圧
装置と、該雑音抑圧装置からの出力を、予め記憶されている複数
の比較対象パターン候補と比較して一致度合の高いもの
を認識結果とする音声認識装置と、を備えることを特徴とする音声認識システム。
【請求項７】請求項６に記載の音声認識システムにおい
て、前記音声認識装置は、前記雑音抑圧装置からの出力に対
して線形予測分析を行なうよう構成されていることを特
徴とする音声認識システム。
【請求項８】請求項６又は７に記載の音声認識システム
において、前記音声認識装置内に記憶されている前記比較対象パタ
ーン候補は、学習用サンプル音声のスペクトラムに対し、前記スムー
ジング手段において実行されるスムージングと同一の処
理を施した結果を用いて作成された第１の比較対象パタ
ーン候補であること、を特徴とする音声認識システム。
【請求項９】請求項６又は７に記載の音声認識システム
において、前記音声認識装置内に記憶されている前記比較対象パタ
ーン候補は、雑音の重畳された学習用サンプル音声に対して、前記引
算手段と同様に、前記学習用サンプル音声のスペクトラ
ムから前記雑音のスペクトラムに所定のサブトラクト係
数を乗じたものを引算し、その引算された結果に対し、
前記スムージング手段において実行されるのと同一のス
ムージングを施した結果を用いて作成された第２の比較
対象パターン候補であること、を特徴とする音声認識システム。
【請求項１０】請求項８に記載の音声認識システムにお
いて、前記音声認識装置内に記憶されている前記比較対象パタ
ーン候補には、前記第１の比較対象パターン候補に加え、雑音の重畳さ
れた前記学習用サンプル音声に対して、前記引算手段と
同様に、前記学習用サンプル音声のスペクトラムから前
記雑音のスペクトラムに所定のサブトラクト係数を乗じ
たものを引算し、その引算された結果に対し、前記スム
ージング手段において実行されるのと同一のスムージン
グを施した結果を用いて作成された第２の比較対象パタ
ーン候補も含まれていること、を特徴とする音声認識システム。
【請求項１１】請求項８〜１０のいずれかに記載の音声
認識システムにおいて、前記音声認識装置内に記憶されている前記比較対象パタ
ーン候補には、前記第１の比較対象パターン候補及び／又は前記第２の
比較対象パターン候補に加え、雑音の重畳された前記学
習用サンプル音声に対して、前記引算手段と同様に、前
記学習用サンプル音声のスペクトラムから前記雑音のス
ペクトラムに所定のサブトラクト係数を乗じたものを引
算した結果を用いて作成された第３の比較対象パターン
候補も含まれていること、を特徴とする音声認識システム。
【請求項１２】請求項９〜１１のいずれかに記載の音声
認識システムにおいて、前記第２及び第３の比較対象パターン候補を作成する際
に用いる雑音は、音声認識システムが使用される環境で
の雑音であることを特徴とする雑音抑圧装置。を特徴と
する音声認識システム。
【請求項１３】請求項１〜５のいずれか記載の雑音抑圧
装置における各手段としてコンピュータシステムを機能
させるためのプログラムを記録したコンピュータ読取可
能な記録媒体。