JP3444198B2 - 雑音抑圧装置及び該装置を用いた音声認識システム - Google Patents

雑音抑圧装置及び該装置を用いた音声認識システム

Info

Publication number
JP3444198B2
JP3444198B2 JP18268598A JP18268598A JP3444198B2 JP 3444198 B2 JP3444198 B2 JP 3444198B2 JP 18268598 A JP18268598 A JP 18268598A JP 18268598 A JP18268598 A JP 18268598A JP 3444198 B2 JP3444198 B2 JP 3444198B2
Authority
JP
Japan
Prior art keywords
noise
spectrum
voice
subtraction
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP18268598A
Other languages
English (en)
Other versions
JPH11154000A (ja
Inventor
邦雄 横井
震一 田村
教英 北岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP18268598A priority Critical patent/JP3444198B2/ja
Publication of JPH11154000A publication Critical patent/JPH11154000A/ja
Application granted granted Critical
Publication of JP3444198B2 publication Critical patent/JP3444198B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識等の音声
信号処理の前処理として用いる雑音抑圧に関し、特に、
認識対象となる音声信号と雑音信号とが混在した入力信
号から雑音成分を極力除去するスペクトラムサブトラク
ション法を用いた雑音抑圧装置及びその装置を用いた音
声認識システムに関する。
【0002】
【従来の技術】従来より、例えばカーナビゲーションシ
ステムにおける目的地の設定などを音声によって入力で
きるようにする場合などに有効な音声認識装置が提案さ
れ、また実現されている。このような音声認識装置にお
いては、入力音声を予め記憶されている複数の比較対象
パターン候補と比較し、一致度合の高いものを認識結果
とするのであるが、現在の認識技術ではその認識結果が
完全に正確なものとは限らない。これは、静かな環境下
にあってもそうであるため、周囲に雑音が発生するよう
な環境下ではなおさらである。特に、上述したカーナビ
ゲーションシステムなどの実際の使用環境を考慮する
と、雑音がないことは想定しにくい。したがって、認識
率の向上を実現する上では、音声認識装置への入力の前
処理として、認識に必要な音声信号と雑音信号とが混在
した入力信号から雑音成分を極力除去する雑音抑圧を行
なうことが望ましい。
【0003】この音声と雑音とが混在した入力信号から
雑音成分を除去する手法としては、スペクトラムサブト
ラクション法が非常に有効な手法として知られている、
このスペクトラムサブトラクション法については、例え
ばSTEVEN F BOLL、”Suppression of Acoustic Noise i
n Speech Using Spectral Subtruction”、IEEE Transa
ctions on Acoustics, Speech and Signal processin
g、Vol.Assp-27、No.2、April 1979、pp.113-120をはじ
めとして多くの研究成果が発表されている。スペクトラ
ムサブトラクション法は、雑音の混入した音声信号の振
幅スペクトラムから雑音の振幅スペクトラムを差し引く
か、または雑音の混入した音声信号のパワースペクトラ
ムから雑音のパワースペクトラムを差し引くことによっ
て雑音抑圧を実現するものである。なお、パワースペク
トラムは振幅スペクトラムを2乗したものである。スペ
クトラムサブトラクション法による出力は、雑音の抑圧
された振幅スペクトラムか、雑音の抑圧されたパワース
ペクトラムである。
【0004】そして、このような雑音抑圧を行なってか
ら音声認識を行なうシステム構成として、例えば図2
(a)のような音声認識システム200が考えられてい
る。つまり、マイク201からは雑音が混入した音声信
号あるいは雑音信号のみが入力される。マイク201か
らの入力信号は雑音抑圧装置203へ入力され、雑音抑
圧装置203で雑音抑圧された音声信号が音声認識装置
204へ転送される。また、この場合、利用者がPTT
(Push-To-Talk)スイッチ205を押しながらマイク2
01を介して音声を入力するようにされている。そし
て、雑音抑圧装置203での雑音抑圧は次のように行わ
れる。
【0005】つまり、図2(b)に示すように、PTT
スイッチ205が押されるまでは雑音区間であるとし
て、雑音抑圧装置203はマイク201からの入力信号
を取り込む。そして、PTTスイッチ205が押される
と音声区間であるとして、雑音抑圧装置203はマイク
201からの入力信号を取り込む。しかし、音声区間に
て取り込んだものは「音声信号+雑音信号」となる。し
たがって、雑音区間で取り込んだ「雑音信号」を、音声
区間において取り込んだ「音声信号+雑音信号」から差
し引けば、雑音信号の抑圧された音声信号を抽出するこ
とができるというものである。
【0006】
【発明が解決しようとする課題】しかしながら、この手
法は、基本的には推定雑音に基づくものである。つまり
図2(b)に示す音声区間においては混入した雑音を直
接検知しているのではなく、音声区間の開始以前の雑音
区間にて取り込んだ雑音信号を基に音声区間における雑
音を推定し、その推定雑音のパワースペクトラムを音声
区間にて取り込んだ入力音声のパワースペクトラムから
差し引く処理を行なうのである。そして、一般的には、
推定雑音のパワースペクトラムに所定の係数(サブトラ
クト係数)を乗じた値を入力音声のパワースペクトラム
から差し引いており、このサブトラクト係数は1より大
きな値に設定されることが多い。このように、サブトラ
クト係数を1より大きな値に設定することは、推定雑音
のパワースペクトラムを差し引く際に必要以上に差し引
いてしまうことに相当する。
【0007】音声の母音部分のように音声のパワーがあ
る程度確保されている区間では、推定雑音のパワースペ
クトラムを多少引き過ぎた場合でも音声のパワースペク
トラムの形状にはほとんど影響がない。しかし、音声中
のポーズ区間や摩擦子音部分のように音声のパワーが小
さいところでは、引き過ぎてマイナスの値になってしま
う場合がある。上述したようにパワースペクトラムは振
幅スペクトラムを2乗したものなのでマイナス値になる
ことは理論的にあり得ない。そのため、引き過ぎてマイ
ナスの値になってしまう部分はゼロ(0)あるいは相対
的に小さな正の定数に設定するようにしている。したが
って、スペクトラムサブトラクション法によって得られ
る雑音抑圧された入力音声のパワースペクトラムには特
有の歪が生じてしまうのである。
【0008】なお、パワースペクトラムを用いずに振幅
スペクトラムを用いた場合でも同様である。つまり、推
定雑音の振幅スペクトラムにサブトラクト係数を乗じた
値を入力音声の振幅スペクトラムから差し引くと計算上
マイナス値になることがある。この場合も振幅スペクト
ラム自体は本来マイナス値になることはあり得ないた
め、その部分はゼロ(0)あるいは相対的に小さな正の
定数に設定する。したがって、スペクトラムサブトラク
ション法によって得られる雑音抑圧された入力音声の振
幅スペクトラムには特有の歪が生じてしまう。
【0009】図2(a)に示す雑音抑圧装置203から
音声認識装置204には、スペクトラムサブトラクショ
ン法によって雑音抑圧された入力音声のパワースペクト
ラム、あるいはそのパワースペクトラムを逆フーリエ変
換して得た自己相関係数が出力される。上述したよう
に、この音声認識装置204に入力されるパワースペク
トラムあるいは自己相関係数に歪が発生しているため、
音声認識装置204での認識率が低下してしまう。
【0010】そこで本発明は、認識対象となる音声と雑
音とが混在した入力信号に対しスペクトラムサブトラク
ション法を用いて雑音抑圧を行なう場合の歪を極力低減
させることによって、例えばその出力を用いて音声認識
を行なう場合の認識率の向上に寄与することを目的とす
る。
【0011】
【課題を解決するための手段及び発明の効果】請求項1
に係る雑音抑圧装置は、入力信号を所定の処理時間毎に
フレーム信号として切り出すフレーム分割手段と、前記
フレーム信号からパワースペクトラムを算出するスペク
トラム算出手段と、前記入力信号に音声が含まれている
音声区間と、前記音声が含まれていない雑音区間とを判
定する判定手段と、該判定手段によって判定された前記
雑音区間の入力信号に基づいて算出した前記パワースペ
クトラムを用いて雑音パワースペクトラムを推定する雑
音スペクトラム推定手段と、前記音声区間の入力信号に
基づいて算出した前記パワースペクトラムから、前記雑
音スペクトラム推定手段によって推定された前記雑音
ワースペクトラムに所定のサブトラクト係数を乗じたも
のを引算する引算手段と、を備える雑音抑圧装置におい
て、前記引算手段による引算結果に基づいて自己相関係
数を算出する自己相関係数算出手段と、前記自己相関係
数算出手段によって算出された自己相関係数に対して、
時間方向又は周波数方向の少なくともいずれか一方の補
間を実行する補間手段を備えていることを特徴とする。
【0012】本発明の雑音抑圧装置によれば、例えばマ
イクロフォンなどを介して入力された入力信号を、フレ
ーム分割手段が所定の処理時間毎にフレーム信号として
切り出し、スペクトラム算出手段が、そのフレーム信号
からパワースペクトラムを算出する。入力信号に音声が
含まれている音声区間であるか音声が含まれていない雑
音区間であるかは判定手段によって判定され、雑音スペ
クトラム推定手段は、雑音区間の入力信号に基づいて算
出したパワースペクトラムを用いて雑音パワースペクト
ラムを推定する。
【0013】そして、引算手段が、音声区間の入力信号
に基づいて算出したパワースペクトラムから雑音パワー
スペクトラムに所定のサブトラクト係数を乗じたものを
引算し、さらに、自己相関係数算出手段がその引算結果
に基づいて自己相関係数を算出し、補間手段が、その算
出された自己相関係数に対して時間方向又は周波数方向
の少なくともいずれか一方の補間を実行する。
【0014】なお、スペクトラム算出手段が算出するパ
ワースペクトラムは、次のように算出される。つまり、
フレーム信号をフーリエ変換すると周波数スペクトラム
Spec(f) が算出される。この周波数スペクトラムS
pec(f) の振幅成分である振幅スペクトラムA(f)
を2乗すると、パワースペクトラムP(f)が得られ
る。
【0015】引算手段は、音声区間の入力信号に基づい
て算出したパワースペクトラムPSN(f)から、雑音
パワースペクトラムPN(f)に所定のサブトラクト係
数を乗じたものを引算するのであるが、このように引算
処理を施すと、推定雑音のパワースペクトラムにサブト
ラクト係数を乗じた値を、入力音声のパワースペクトラ
ムから差し引くこととなるが、サブトラクト係数が大き
い場合には計算上マイナス値になることがある。パワー
スペクトラムは理論上マイナス値になることはあり得な
いため、その部分はゼロ(0)あるいは相対的に小さな
正の定数に設定する。
【0016】たがって、この引算処理したままでは、
引算結果であるパワースペクトラムに特有の歪が生じて
しまう。これをそのまま音声認識に用いると認識率が低
下してしまう。
【0017】そこで本発明では、この引算結果に対し
て、時間方向又は周波数方向の少なくともいずれか一方
の補間を行うことで歪低減を実現する。この技術思想の
前提となるのは、「一般に音声信号のパワースペクトラ
ムについては、時間方向又は周波数方向に相関がある」
という認識である。
【0018】ワースペクトラムはP(f,t)という
ように周波数fと時間(この場合はフレーム単位の処理
に対応する時間)t=0,1,2,……の関数として表
せる。なお、この場合はt=0が現在、t=1が直前の
過去、t=2がさらに前の過去を示すものとする。例え
ば上述の引算処理によってP(f,1)が0となってい
る場合であっても、P(f,0)及びP(f,2)では
0でない可能性がある。そのため、それら時間(t)方
向の関係に着目して補間すれば、P(f,1)が0でな
い値として得られる場合があり、それは実際の雑音成分
を除去した音声信号のパワースペクトラムをより的確に
把握することとなり、歪低減に有効である。
【0019】例えば、時間(t)方向の補間の一例とし
て、次式に示すような線形フィルタ処理を考える。 P(f,1)=α・P(f,0)+β・P(f,1)+
γ・P(f,2) ここで、例えばα=0.4,β=1,γ=0.4とする
と、P(f,1)が0であったとしても、P(f,0)
あるいはP(f,2)が0でない値となっている場合に
は、上式による線形フィルタ処理を施すと、P(f,
1)も0でない値として得られる。
【0020】同様に、周波数(f)方向の関係に着目す
れば、実際の雑音成分を除去した音声信号のパワースペ
クトラムをより的確に把握することとなり、やはり歪低
減に有効である。また、それら時間(t)方向及び周波
数(f)方向の両方について補間するようにしてもよ
い。
【0021】このように、音声と雑音とが混在した入力
信号に対しスペクトラムサブトラクション法を用いて雑
音抑圧を行なう場合の歪を極力低減させることができれ
ば、例えばその出力を用いて音声認識を行なう場合の認
識率の向上に寄与することができ、非常に有効である。
【0022】そして、補間手段が、自己相関係数に対し
て時間方向又は相関の指数方向の少なくともいずれか一
方の補間を実行するため、雑音抑圧装置からの出力を用
いて音声認識を行なう音声認識装置におけるメモリ容量
及び処理負荷の低減の面で有効である。
【0023】これは、自己相関係数のフーリエ変換がパ
ワースペクトラムになる、つまりパワースペクトラムの
逆フーリエ変換が自己相関係数になることに着目したも
のである。自己相関係数をC(r,t)、逆フーリエ変
換をF-1とすると、パワースペクトラムP(ft)との
関係は次のようになる。
【0024】C(r,t)=F-1[P(f,t)] なお、rは自己相関係数の指数であり、パワースペクト
ラムにおける周波数fに対応する。例えば、上述した時
間(t)方向の補間の一例として示した線形フィルタ処
理を用いて考えると、フーリエ変換の線形性より、次の
変形が可能である。
【0025】 F-1[α・P(f,0)+β・P(f,1)+γ・P(f,2)] =α・F-1[P(f,0)]+β・F-1[P(f,1)]+γ・F-1[P(f,2)] =α・C(r,0)+β・C(r,1)+γ・C(r,2) このように、パワースペクトラムと自己相関係数とは等
価であるため、補間処理(この場合には線形フィルタ処
理)を施す場合に、パワースペクトラムを用いても自己
相関係数を用いても同様の結果、つまり歪の低減された
出力を得ることができる。
【0026】そして、このような自己相関係数を用いる
と後段の音声認識装置におけるメモリ容量及び処理負荷
が低減されるのであるが、その点について説明する。後
段の音声認識装置が線形予測分析(linear predictive
coding:LPC)を行なう構成であり、雑音抑圧装置か
らパワースペクトラムを出力する場合を想定すると、音
声認識装置においては、まず雑音抑圧装置から出力され
たパワースペクトラムから自己相関係数を算出しなけれ
ばならなくなる。そのため、処理負荷やメモリ容量の増
大につながっていた。それに対して、雑音抑圧装置にお
いて自己相関係数化し、これを音声認識装置側へ渡せ
ば、音声認識装置における処理負荷やメモリ容量の削減
を実現できる。音声認識装置がP次のLPCを実行する
場合には、指数rがr=0,1,2,……Pの自己相関
係数C(r,t)しか用いず、一般にP=17程度であ
る。
【0027】したがって、パワースペクトラムを逆フー
リエ変換して自己相関係数化し、その自己相関係数を補
間したものを出力することで、後段の音声認識装置にお
けるメモリ容量及び処理負荷の低減を実現できる。とこ
ろで、本発明の雑音抑圧装置では補間することで歪低減
を実現するようにしているが、この補間手段としては、
線形フィルタ処理による補間を実行するようにしてもよ
いし、あるいは、非線形フィルタ処理による補間を実行
するようにしてもよい。そして、非線形フィルタ処理に
よる補間を行なう場合には、ニューラルネットワークを
用いて実行することが考えられる。
【0028】このような非線形フィルタ処理による補間
を行なう場合の利点としては、線形フィルタ処理による
補間よりさらなる能力向上が期待できることが挙げられ
る。この点について説明する。例えば、時間(t)方向
の線形補間の一例として、次式に示すような線形フィル
タ処理を上述した。
【0029】P(f,1)=α・P(f,0)+β・P
(f,1)+γ・P(f,2) しかし、この場合には、係数α,β,γをどのように調
整しても望む出力が得られない場合がある。つまり、3
つの入力から1つの出力をするシステムであるが、任意
の入力から任意の出力をするシステムが好ましい。そし
て、スペクトラムサブトラクション法によって生じる歪
を補正するのに能力の限定された線形システムが最適で
ある保障はない。
【0030】これに対して、同様に、P(f,0),P
(f,1),P(f,2)を用いて修正されたP(f,
1)を算出する非線形補間の一例としては、例えば3層
のフィードフォワードニューラルネットワークを用いて
実現できる。そして、ニューロン数を十分多く取れば任
意の入出力関係を実現できる点については、例えば船橋
賢一「ニューラル・ネットワークのcapabilit
yについて」(電子情報通信学会技術研究報告vol.8
8,No.126、MBE88−52)などにおいて証明
されている。
【0031】したがって、スペクトラムサブトラクショ
ン法による歪を補正できるようなニューラルネットワー
クを予め学習により設計しておけば、最適な補間ができ
る。例えば雑音抑圧装置が自動車内にて用いられる場合
には、予め多くの自動車雑音を含んだ音声にて学習した
ニューラルネットワークを用いることが好ましい。
【0032】請求項2に係る雑音抑圧装置は、入力信号
を所定の処理時間毎にフレーム信号として切り出すフレ
ーム分割手段と、前記フレーム信号からスペクトラムを
算出するスペクトラム算出手段と、前記入力信号に音声
が含まれている音声区間と、前記音声が含まれていない
雑音区間とを判定する判定手段と、該判定手段によって
判定された前記雑音区間の入力信号に基づいて算出した
前記スペクトラムを用いて雑音スペクトラムを推定する
雑音スペクトラム推定手段と、前記音声区間の入力信号
に基づいて算出した前記スペクトラムから、前記雑音ス
ペクトラム推定手段によって推定された前記雑音スペク
トラムに所定のサブトラクト係数を乗じたものを引算す
る引算手段とを備える雑音抑圧装置において、前記引算
手段によって引算された結果に対して、時間方向又は周
波数方向の少なくともいずれか一方の補間を実行する補
間手段と、音声を入力させる期間を発声者自身が指定す
るために設けられた入力期間指定手段を備え、前記判定
手段は、前記入力期間指定手段によって指定された入力
期間を前記音声区間として判定するよう構成されいる
ことを特徴とする。 本発明の雑音抑圧装置によれば、例
えばマイクロフォンなどを介して入力された入力信号
を、フレーム分割手段が所定の処理時間毎にフレーム信
号として切り出し、スペクトラム算出手段が、そのフレ
ーム信号をフーリエ変換するなどしてスペクトラムを算
出する。入力信号に音声が含まれている音声区間である
か音声が含まれていない雑音区間であるかは判定手段に
よって判定される。具体的には、音声を入力させる期間
を発声者自身が指定するために設けられた入力期間指定
手段によって指定された入力期間を音声区間として判定
する。この入力期間指定手段としては、例えばPTT
(Push-To-Talk)スイッチなどが考えられる。つまり、
利用者がPTTスイッチを押しながら音声を入力する
と、そのPTTスイッチが押されている間に入力された
音声を処理対象として受け付けるのである。このように
することで、雑音抑圧対象となる入力信号に対してのみ
雑音抑圧処理を実行すればよいので、処理負荷軽減の点
で有効である。そして、雑音スペクトラム推定手段は、
雑音区間の入力信号に基づいて算出したスペクトラムを
用いて雑音スペクトラムを推定する。そして、引算手段
が、音声区間の入力信号に基づい て算出したスペクトラ
ムから雑音スペクトラムに所定のサブトラクト係数を乗
じたものを引算し、さらに、補間手段が、引算手段によ
って引算された結果に対して時間方向又は周波数方向の
少なくともいずれか一方の補間を実行する。 なお、スペ
クトラム算出手段が算出するスペクトラムには、振幅ス
ペクトラムやパワースペクトラムが考えられる。つま
り、フレーム信号をフーリエ変換すると周波数スペクト
ラムSpec(f) が算出される。この周波数スペクトラ
ムSpec(f) の振幅成分である振幅スペクトラムA
(f)を用いてもよいし、その振幅スペクトラムA
(f)を2乗して得たパワースペクトラムP(f)を用
いてもよい。 例えば、請求項3のようにスペクトラム算
出手段が振幅スペクトラムA(f)を算出する場合に
は、雑音スペクトラム推定手段が雑音振幅スペクトラム
AN(f)を推定し、引算手段が、音声区間の入力信号
に基づいて算出した振幅スペクトラムASN(f)か
ら、雑音振幅スペクトラムAN(f)に所定のサブトラ
クト係数を乗じたものを引算すればよい。 また、請求項
4のようにスペクトラム算出手段がパワースペクトラム
P(f)を算出する場合には、雑音スペクトラム推定手
段が雑音パワースペクトラムPN(f)を推定し、引算
手段が、音声区間の入力信号に基づいて算出したパワー
スペクトラムPSN(f)から、雑音パワースペクトラ
ムPN(f)に所定のサブトラクト係数を乗じたものを
引算すればよい。 このように引算処理を施すと、推定雑
音のパワースペクトラムあるいは振幅スペクトラムにサ
ブトラクト係数を乗じた値を、入力音声のパワースペク
トラムあるいは振幅スペクトラムから差し引くこととな
るが、サブトラクト係数が大きい場合には計算上マイナ
ス値になることがある。パワースペクトラムあるいは振
幅スペクトラムは理論上マイナス値になることはあり得
ないため、その部分はゼロ(0)あるいは相対的に小さ
な正の定数に設定する。したがって、この引算処理した
ままでは、引算結果であるパワースペクトラムあるいは
振幅スペクトラムに特有の歪が生じてしまう。これをそ
のまま音声認識に用いると認識率が低下してしまう。
こで本発明では、この引算結果に対して、時間方向又は
周波数方向の少なく ともいずれか一方の補間を行うこと
で歪低減を実現する。この技術思想の前提となるのは、
「一般に音声信号の振幅スペクトラム、パワースペクト
ラムについては、時間方向又は周波数方向に相関があ
る」という認識である。 また、請求項4に示すように、
引算手段が、音声区間の入力信号に基づいて算出したパ
ワースペクトラムPSN(f)から雑音パワースペクト
ラムPN(f)に所定のサブトラクト係数を乗じたもの
を引算する構成を前提とする場合には、請求項5に示す
ようにしてもよい。つまり、引算手段による引算結果に
基づいて自己相関係数を算出する自己相関係数算出手段
をさらに備え、補間手段は、その自己相関係数算出手段
によって算出された自己相関係数に対して、時間方向又
は相関の指数方向の少なくともいずれか一方の補間を実
行するのである。このように自己相関係数を用いても同
様に歪低減が実現できると共に、雑音抑圧装置からの出
力を用いて音声認識を行なう音声認識装置におけるメモ
リ容量及び処理負荷の低減の面で有効である。 なお、パ
ワースペクトラムを例に取った補足説明は請求項1に係
る発明に対して既に述べたのでここでは省略する。
【0033】なお、これまでは雑音抑圧装置としての構
成及びその作用効果について説明したが、上述した雑音
抑圧装置と、該雑音抑圧装置からの出力を、予め記憶さ
れている複数の比較対象パターン候補と比較して一致度
合の高いものを認識結果とする音声認識装置と、を備え
ることを特徴とする音声認識システムとして実現するこ
ともできる。そして、この音声認識システムにおける音
声認識装置は、雑音抑圧装置からの出力に対して線形予
測分析を行なうよう構成することが考えられる。
【0034】これら音声認識システムとして実現した場
合の効果については、雑音抑圧装置として実現した場合
と同様であるので、ここでは省略する。また、このよう
な音声認識システムは、種々の適用先が考えられるが、
例えばいわゆるカーナビゲーションシステム用として用
いることが考えられる。この場合には、例えば経路設定
のための目的地などが音声にて入力できれば非常に便利
である。また、ナビゲーションシステムだけでなく、例
えば音声認識システムを車載空調システム用として用い
ることも考えられる。この場合には、空調システムにお
ける空調状態関連指示を利用者が音声にて入力するため
に用いることとなる。さらには、例えば、携帯用の情報
端末装置、あるいは街頭やパーキングエリアなどに設定
される情報端末装置などにも同様に適用できる。
【0035】そして、このように音声認識システムとし
て実現する場合には、雑音抑圧装置に対する上述の工夫
だけでなく、音声認識装置においても雑音抑圧装置側の
工夫に対応した工夫を施すことが考えられる。具体的に
は、音声認識装置内に記憶されている比較対象パターン
候補を作成するに際して、次のような工夫を施す。
【0036】例えば、請求項12に示すシステムでは、
学習用サンプル音声のスペクトラムに対し、補間手段に
おいて実行される補間処理と同一の処理を施した結果を
用いて比較対象パターン候補を作成する。以下、このよ
うにして作成したものを「第1の比較対象パターン候
補」と称す。
【0037】また、請求項13に示すシステムでは、雑
音の重畳された学習用サンプル音声に対して、前記引算
手段と同様に、学習用サンプル音声のスペクトラムから
雑音のスペクトラムに所定のサブトラクト係数を乗じた
ものを引算し、その引算された結果に対し、補間手段に
おいて実行されるとの同一の補間処理を施した結果を用
いて比較対象パターン候補を作成する。以下、このよう
にして作成したものを「第2の比較対象パターン候補」
と称す。
【0038】このように、学習用サンプル音声のスペク
トラム、あるいは雑音の重畳された学習用サンプル音声
にスペクトラムサブトラクション法(SS法)による処
理を施したものに対し、補間手段において実行される補
間処理と同一の処理を施すのは、次の意図からである。
【0039】すなわち、上述した雑音抑圧装置に対する
工夫は、SS法を用いて雑音抑圧を行なう場合の歪を極
力低減させるために補間処理を行っているのであるが、
この補間処理を施すことによって、音声の本来の特性を
変化させてしまっていることとなる。そのため、雑音抑
圧に関しては有効であっても、音声認識装置における認
識処理に際し。場合によっては、上述の音声特性変化の
影響で認識率を低下させる方向へ作用してしまう可能性
も考えられる。そこで、音声認識時の比較対象パターン
候補を作成する際に、学習用サンプル音声のスペクトラ
ム(あるいはSS法による処理を施したもの)そのまま
を用いるのではなく、補間手段において実行される補間
処理と同一の処理を施すことにより、意図的に音声特性
変化を加えている。こうすることにより、雑音抑圧装置
側での補間処理による音声特性変化を吸収し、認識率の
低下を防止することができるのである。
【0040】なお、音声認識は、上述したように、雑音
抑圧装置からの出力を、予め記憶されている複数の比較
対象パターン候補と比較して一致度合の高いものを認識
結果とするので、この比較対象パターン候補の充実を図
ることが認識率向上につながる。したがって、例えば請
求項14に示すように、音声認識装置内に記憶されてい
る比較対象パターン候補として、前記第1の比較対象パ
ターン候補及び前記第2の比較対象パターン候補の両方
を備えておくことが好ましい。また、同様の観点から、
請求項15に示すように、雑音の重畳された学習用サン
プル音声に対して、SS法による処理、つまり学習用サ
ンプル音声のスペクトラムから雑音のスペクトラムに所
定のサブトラクト係数を乗じたものを引算した結果を用
いて作成された第3の比較対象パターン候補を準備し、
第1又は第2の比較対象パターン候補と第3の比較対象
パターン候補を備えるようにしたり、あるいは第1〜第
3の比較対象パターン候補を全て備えるようにしてもよ
い。
【0041】そして、請求項16に示すように、第2及
び第3の比較対象パターン候補を作成する際に用いる雑
音は、音声認識システムが使用される環境での雑音とす
ることが好ましい。この環境雑音としては1種類だけで
なく複数種類を考慮することがさらに好ましい。例え
ば、音声認識システムが自動車内にて用いられる場合に
は、搭載される車種、走行速度、窓の開閉の有無、エア
コンやオーディオ等の他の車載機器の使用の有無などに
よって雑音のレベルやSN比が異なる。したがって、そ
れらの要素を適宜加味した使用環境をいくつか想定し、
その環境での雑音の重畳された学習用サンプル音声を用
いて比較対象パターン候補を作成することが好ましい。
【0042】
【発明の実施の形態】図1は本発明の実施形態の音声認
識システムの概略構成を示すブロック図である。本音声
認識システムは、マイク30を介して入力された音声に
対して雑音抑圧を行なう雑音抑圧装置10と、その雑音
抑圧装置10からの出力を、予め記憶されている複数の
比較対象パターン候補と比較して一致度合の高いものを
認識結果とする音声認識装置20とを備えている。
【0043】まず、雑音抑圧装置10について説明す
る。図1に示すように、雑音抑圧装置10は、音声入力
部11と、入力音声切り出し部12と、フーリエ変換部
13と、パワースペクトラム変換部14と、雑音パワー
スペクトラム推定部15と、引算部16と、逆フーリエ
変換部17と、補間処理部18とを備えている。以下、
各ブロックでの処理内容について説明する。
【0044】音声入力部11は、マイク30を介して入
力されたアナログ音声信号を例えば12KHzのサンプ
リング周波数でデジタル信号に変換し、入力音声切り出
し部12及び雑音パワースペクトラム推定部15へ出力
する。雑音パワースペクトラム推定部15は、音声入力
部11からの入力信号を順次所定の長さ、例えば20ミ
リ秒のフレーム毎に切り出し、フーリエ変換してスペク
トラムを求め、そのスペクトラムの振幅の2乗を計算し
て求めたパワースペクトラムを内部のバッファ(図示せ
ず)に記憶する。このバッファには過去の全てのパワー
スペクトラムが記憶されているのではなく、現在時点か
ら5×20ミリ秒まで過去のパワースペクトラム、つま
り最新の5つのフレームに対するパワースペクトラムP
n(f,t)が順次更新しながら記憶されていくことと
なる。
【0045】なお、パワースペクトラムPn(f,t)
において、fは周波数、tは時間(この場合はフレーム
単位の処理に対応する時間)であり、t=0が現在、t
=1が直前の過去、t=2がさらに前の過去、というよ
うに数字が増えるほど前の過去を示すものとする。した
がって、最新の5つフレームに対するパワースペクトラ
ムPn(f,t)とは、Pn(f,0)、Pn(f,
1)、Pn(f,2)、Pn(f,3)、Pn(f,
4)の5つを指す。また、それ以前の過去のパワースペ
クトラムはバッファから捨てられる。
【0046】そして、雑音パワースペクトラム推定部1
5は、音声が入力されたことを示す音声入力検出信号を
受け取ると雑音パワースペクトラムの推定処理を中止す
る。本実施形態においては、図示しないPTT(Push-T
o-Talk)スイッチが押されている場合にはこの音声入力
検出信号が出力される。つまり、本音声認識システムで
は、利用者がPTTスイッチを押しながらマイク30を
介して音声を入力するという使用方法である。そのた
め、PTTスイッチが押されているということは利用者
が音声を入力しようとする意志をもって操作したことで
あるので、その場合には実際には音声入力があるかない
かを判断することなく、音声入力がされる期間(音声区
間)であると捉えて処理しているのである。
【0047】音声入力検出信号を受け取った雑音パワー
スペクトラム推定部15では、雑音パワースペクトラム
の推定処理を中止し、バッファに記憶されている5つの
パワースペクトラムPn(f,0)、Pn(f,1)、
Pn(f,2)、Pn(f,3)、Pn(f,4)の平
均値を算出して、スペクトラムサブトラクション法での
引算に用いる雑音パワースペクトラムPN(f)(fは
周波数)を作成し、引算部16へ渡す。なお、この雑音
パワースペクトラムPN(f)の算出式は以下の通りで
ある。
【0048】
【数1】
【0049】一方、入力音声切り出し部12は、音声入
力検出信号を受け取った場合にだけ処理を行なう。その
処理は、音声入力部11から入力された音声信号を順次
所定の長さ、例えば20ミリ秒のフレーム毎に切り出し
てフーリエ変換部13へ出力する。フーリエ変換部13
では、20ミリ秒のフレーム毎の入力音声信号に対して
フーリエ変換を行なうことによって入力音声信号のスペ
クトラムSpec(f)を求め、パワースペクトラム変換
部14へ出力する。
【0050】そして、パワースペクトラム変換部14で
は、スペクトラムSpec(f) の振幅の2乗を計算して
パワースペクトラムPSN(f)を求め、引算部16へ
渡す。なお、このパワースペクトラムPSN(f)の算
出式は以下の通りである。
【0051】
【数2】
【0052】引算部16では、パワースペクトラム変換
部14から送られたパワースペクトラムPSN(f)か
ら、雑音パワースペクトラム推定部15から送られた雑
音パワースペクトラムPN(f)に所定のサブトラクト
係数を乗じたものを引算して逆フーリエ変換部17へ送
る。ここでサブトラクト係数は1.4であり、引算処理
の結果マイナスとなった場合にはゼロとする。したがっ
て、引算部16からの出力P(f)は以下の式に示す通
りとなる。
【0053】
【数3】
【0054】逆フーリエ変換部17では、引算部16か
らの出力P(f)に対して逆フーリエ変換を施して自己
相関係数CSS(r)(rは相関のラグであり、r=0,
1,2,3,…)を求める。逆フーリエ変換部17は、この自
己相関係数CSS(r)の内で、r=0,1,2,〜,11 のも
のだけを補間処理部18へ送る。
【0055】補間処理部18は、常に現在時間と過去2
つまでの自己相関係数を図示しないバッファに保持して
いる。つまり、t=0が現在、t=1が直前の過去、t
=2がさらに前の過去を示すものとすると、CSS(r,
0),CSS(r,1),CSS(r,2)の3つの自己相関係数で
ある。逆フーリエ変換部17から送られた自己相関係数
は現在時点の自己相関係数としての補間処理部18のバ
ッファに蓄えられ、過去2つの自己相関係数と併せた3
つの自己相関係数を用いて、1つ前の過去の自己相関係
数を次式のようにして求める。なお、補間処理部18の
出力がC(r)である。
【0056】C(r)=0.4・CSS(r,0)+CSS
(r,1)+0.4・CSS(r,2) (r=0,1,2,3,4,5,6,7,8,9,10,11) このようにして、入力音声切り出し部12での切り出し
単位である20ミリ秒のフレーム毎に得られる自己相関
係数C(r)(r=0,1,2,〜,11)が順次音声認識装置
20へ送られる。
【0057】次に、この音声認識装置20について説明
する。音声認識装置20は、LPC分析部21と、ケプ
ストラム計算部22と、標準パターン格納部23と、照
合部24と、判定部25とを備えている。LPC分析部
21では、雑音抑圧装置10からの出力を用いて線形予
測分析を行なう。線形予測分析は音声信号処理の分野で
は一般的な分析手法であり、例えば、古井「ディジタル
音声処理」(東海大学出版会)などに詳しく説明されて
いる。本実施形態においてはこの線形予測分析に自己相
関法を用いており、自己相関係数C(r)を用いてm次
のLPC係数を計算する。なお、本実施形態においては
雑音抑圧装置10の補間処理部18から自己相関係数C
(r)が出力されるので、LPC分析部21においては
それをそのまま用いてLPC係数の計算を行えばよい。
つまり、パワースペクトラムの状態で出力される場合に
は、それを逆フーリエ変換して自己相関係数を算出する
処理が必要となるが、本実施形態では自己相関係数C
(r)の形で出力されてくるので、LPC分析部21に
おいて逆フーリエ変換する必要がない。そして、ケプス
トラム計算部22では、LPC分析部21において計算
されたLPC係数を基に、フレーム毎のスペクトル上の
特徴パラメータとしてのLPCケプストラム係数を計算
する。
【0058】一方、標準パターン格納部23には予め計
算しておいた認識対象語彙の標準パターン(特徴パラメ
ータ系列)が格納してあり、照合部24は、標準パター
ン格納部23に格納されている標準パターンと、ケプス
トラム計算部22にて計算されたLPCケプストラム係
数との間で類似度計算を行なう。これらは周知のDPマ
ッチング法、HMM(隠れマルコフモデル)あるいはニ
ューラルネットなどによって、この時系列データをいく
つかの区間に分け、各区間が辞書データとして格納され
たどの単語に対応しているかを求める。そして、判定部
25は、各認識対象語彙のうち照合部24で計算した類
似度が最も高い語彙を認識結果として出力する。
【0059】このように、本実施形態の音声認識システ
ムによれば、雑音抑圧装置10の引算部16において、
音声区間の入力信号に基づいて算出したパワースペクト
ラムPSN(f)から雑音スペクトラムPN(f)に所
定のサブトラクト係数(ここでは1.4)を乗じたもの
を引算し、逆フーリエ変換部17において自己相関係数
化した後、補間処理部18において時間方向(t)の補
間を実行している。
【0060】引算部16においては、上述したように雑
音パワースペクトラムPN(f)を1.4倍したもの
を、音声区間の入力信号に基づいて算出したパワースペ
クトラムPSN(f)から引算している。この場合はサ
ブトラクト係数が1より大きい1.4であるため、計算
上マイナス値になることがある。パワースペクトラムは
理論上マイナス値になることはあり得ないため、その部
分はゼロ(0)あるいは相対的に小さな正の定数に設定
している。したがって、この引算処理したままでは、引
算結果であるパワースペクトラムに特有の歪が生じてし
まい、これをそのまま音声認識に用いると認識率が低下
してしまう。
【0061】そこで、この引算結果に対して、時間方向
の補間を行うことで歪低減を実現する。この技術思想の
前提となるのは、「一般に音声信号の振幅スペクトラ
ム、パワースペクトラムについては、時間方向又は周波
数方向に相関がある」という認識である。例えば周波数
fと時間(この場合はフレーム単位の処理に対応する時
間)t=0,1,2,……の関数としてパワースペクト
ラムをP(f,t)と表すと、t=0が現在、t=1が
直前の過去、t=2がさらに前の過去を示すものとした
場合に、例えば上述の引算処理によってP(f,1)が
0となっている場合であっても、P(f,0)及びP
(f,2)では0でない可能性がある。そのため、それ
ら時間(t)方向の関係に着目して補間すれば、P
(f,1)が0でない値として得られる場合があり、そ
れは実際の雑音成分を除去した音声信号のパワースペク
トラムをより的確に把握することとなり、歪低減に有効
である。
【0062】本実施形態では、パワースペクトラムP
(f,0),P(f,1),P(f,2) を逆フーリエ変換して得た現
在時点及び過去2つの自己相関係数と併せた3つの自己
相関係数CSS(r,0),CSS(r,1),CSS(r,2) を用
いて、1つ前の過去の自己相関係数CSS(r,1) に対応
する補間後の自己相関係数C(r)を次式のようにして
求める。
【0063】C(r)=0.4・CSS(r,0)+CSS
(r,1)+0.4・CSS(r,2) (r=0,1,2,3,4,5,6,7,8,9,10,11) したがって、フーリエ変換の線形性により、パワースペ
クトラムでの線形補間と同じ処理を行ったことになる。
【0064】このように、本実施形態では時間方向
(t)の補間を行うことで歪低減を実現している。そし
て、音声と雑音とが混在した入力信号に対しスペクトラ
ムサブトラクション法を用いて雑音抑圧を行なう場合の
歪を極力低減させることができれば、後段の音声認識装
置20における音声認識での認識率の向上に寄与するこ
とができ、非常に有効である。
【0065】また、本実施形態においては、引算部16
における引算結果を逆フーリエ変換部17において自己
相関係数化している。このように自己相関係数を用いて
も同様に歪低減が実現できると共に、この場合には、後
段の音声認識装置20におけるメモリ容量及び処理負荷
の低減の面で有効である。
【0066】これは、パワースペクトラムの逆フーリエ
変換が自己相関係数になることに着目したものである。
つまり、自己相関係数をC(r,t)、逆フーリエ変換
をF -1とすると、パワースペクトラムP(f,t)との
関係は次のようになる。 C(r,t)=F-1[P(f,t)] なお、rは自己相関係数の指数であり、パワースペクト
ラムにおける周波数fに対応する。
【0067】例えば、上述した時間(t)方向の補間の
一例として示した線形フィルタ処理を用いて考えると、
フーリエ変換の線形性より、次の変形が可能である。 F-1[α・P(f,0)+β・P(f,1)+γ・P(f,2)] =α・F-1[P(f,0)]+β・F-1[P(f,1)]+γ・F-1[P(f,2)] =α・C(r,0)+β・C(r,1)+γ・C(r,2) このように、パワースペクトラムと自己相関係数とは等
価であるため、補間処理(この場合には線形フィルタ処
理)を施す場合に、パワースペクトラムを用いても自己
相関係数を用いても同様の結果、つまり歪の低減された
出力を得ることができる。そして、音声認識装置20で
はLPC分析部21において線形予測分析を行なってい
るが、仮に雑音抑圧装置10からパワースペクトラムを
出力する場合を想定すると、音声認識装置20において
は、まず雑音抑圧装置10から出力されたパワースペク
トラムに基づいて自己相関係数を算出しなければならな
くなる。そのため、処理負荷やメモリ容量の増大につな
がるが、本実施形態のように雑音抑圧装置10において
自己相関係数化し、これを音声認識装置20へ渡せば、
音声認識装置20における処理負荷やメモリ容量の削減
を実現できる。
【0068】なお、本実施形態においては、入力音声切
り出し部12及び雑音パワースペクトラム推定部15に
おける切り出し機能が「フレーム分割手段」に相当す
る。また、入力音声切り出し部12において、音声入力
検出信号の入力があると切り出し処理を始めたり、雑音
パワースペクトラム推定部15において、音声入力検出
信号の入力があると雑音パワースペクトラムの推定を止
めているが、これが「判定手段」による音声区間と雑音
区間の判定結果に基づく処理内容の変更に相当する。そ
して、フーリエ変換部13及びパワースペクトラム変換
部14が「スペクトラム算出手段」に相当し、雑音パワ
ースペクトラム推定部15が「雑音スペクトラム推定手
段」に相当する。また、引算部16が「引算手段」に相
当し、補間処理部18が「補間手段」に相当する。さら
に、逆フーリエ変換部17が「自己相関係数算出手段」
に相当する。
【0069】以上、本発明はこのような実施例に何等限
定されるものではなく、本発明の主旨を逸脱しない範囲
において種々なる形態で実施し得る。 (1)例えば、上記実施形態では、フーリエ変換して得
た周波数スペクトラムSpec(f) の振幅を2乗したパ
ワースペクトラムPSN(f)を用い、同様に雑音パワ
ースペクトラムPN(f)を用いていたが、周波数スペ
クトラムSpec(f) の振幅成分である振幅スペクトラ
ムA(f)そのものを用いてもよい。その場合には、雑
音振幅スペクトラムAN(f)を推定し、音声区間の入
力信号に基づいて算出した振幅スペクトラムASN
(f)から雑音振幅スペクトラムAN(f)に所定のサ
ブトラクト係数を乗じたものを引算すればよい。
【0070】但し、自己相関係数C(r,t) は上述したよ
うにパワースペクトラムP(f,t) との間で等価であるた
め、振幅スペクトラムを用いる場合には、自己相関係数
化はできないため、自己相関係数を用いた場合のメリッ
トは得られない。しかし、逆に考えれば、雑音抑圧装置
10において自己相関係数化するのは、これを音声認識
装置20へ渡した場合に音声認識装置20における処理
負荷やメモリ容量の削減を実現できるからであり、この
利点を享受しないのであれば、自己相関係数化しなくて
もよい。したがって、パワースペクトラムや振幅スペク
トラムを用い、自己相関係数化せずに後段の音声認識装
置などに出力するような形態も実施可能である。
【0071】(2)また、上記実施形態においては、補
間処理部18における補間処理が時間(t)方向の補間
であったが、周波数(f)方向の補間を行ってもよい。
上記実施形態では自己相関係数化しているため、自己相
関係数CSS(r,t) の指数rが周波数(f)に対応す
る。したがって、指数(r)についての補間処理の一例
は、次式に示すようになる。
【0072】C(2)=0.4・CSS(1,t)+CSS
(2,t)+0.4・CSS(3,t) このように、入力信号の周波数(f)方向の関係に着目
しても実際の雑音成分を除去した音声信号のパワースペ
クトラムをより的確に把握することとなり、やはり歪低
減に有効である。また、それら時間(t)方向及び周波
数(f)方向の両方について補間するようにしてもよ
い。
【0073】(3)さらに、上記実施形態では、補間処
理部18において線形フィルタ処理による補間を実行す
るようにした。しかし、非線形フィルタ処理による補間
を実行するようにしてもよい。そして、非線形フィルタ
処理による補間を行なう場合には、ニューラルネットワ
ークを用いて実行することが考えられる。
【0074】このような非線形フィルタ処理による補間
を行なう場合の利点としては、線形フィルタ処理による
補間よりさらなる能力向上が期待できることが挙げられ
る。この点について説明する。例えば、時間(t)方向
の線形補間の一例として、上記実施形態においては自己
相関係数に対して次式に示すような線形フィルタ処理を
施した。
【0075】C(r)=α・CSS(r,0)+β・CSS
(r,1)+γ・CSS(r,2) (但し、α=0.4,β=1,γ=0.4) しかし、この場合には、係数α,β,γをどのように調
整しても望む出力が得られない場合がある。つまり、3
つの入力から1つの出力をするシステムであるが、任意
の入力から任意の出力をするシステムが好ましい。そし
て、スペクトラムサブトラクション法によって生じる歪
を補正するのに能力の限定された線形システムが最適で
ある保障はない。
【0076】これに対して、同様にCSS(r,0)、CS
S(r,1)、CSS(r,2) を用いて修正されたC(r)を
算出する非線形補間の一例としては、例えば3層のフィ
ードフォワードニューラルネットワークを用いて実現で
きる。スペクトラムサブトラクション法による歪を補正
できるようにこのニューラルネットワークを予め学習に
より設計しておけば、最適な補間ができる。例えば雑音
抑圧装置が自動車内にて用いられる場合には、予め多く
の自動車雑音を含んだ音声にて学習したニューラルネッ
トワークを用いればよい。 (4)また、上記実施形態においては、音声を入力させ
る期間を発声者自身が指定するために設けられたPTT
スイッチを用い、利用者がPTTスイッチを押しながら
音声を入力すると、そのPTTスイッチが押されている
間を音声区間とみなすようにしたが、実際の入力信号に
基づいて音声区間と雑音区間を判定するようにしてもよ
い。例えば、入力信号のパワーに基づいて判定すること
が考えられる。
【0077】(5)また、音声認識システムとして実現
する場合には、雑音抑圧装置10に対する上述の工夫だ
けでなく、音声認識装置20においても雑音抑圧装置1
0側の工夫に対応した工夫を施すことが考えられる。具
体的には、音声認識装置20の標準パターン格納部23
に格納する認識対象語彙の標準パターン(特徴パラメー
タ系列)を作成するに際して工夫する。図2には概略的
な処理手順を示す。学習用サンプル音声を入力したら
(S1)、その入力音声を切り出す(S2)。いわゆる
フレーム分割である。そして、そのパワースペクトラム
を算出したら(S3)、雑音抑圧装置10の補間処理部
18において実行される補間処理と同一のフィルタ処理
を施す(S4)。そして、そのフィルタ処理を施した結
果を用いて特徴量(ケプストラム係数)を算出し(S
5)、認識対象語彙の標準パターンとして標準パターン
格納部23に格納する(S6)。
【0078】このように、学習用サンプル音声のパワー
スペクトラムに対し、補間処理部18において実行され
る補間処理と同一の処理を施す意図は次の通りである。
すなわち、上述した雑音抑圧装置10に対する工夫は、
SS法を用いて雑音抑圧を行なう場合の歪を極力低減さ
せるために補間処理を行っているのであるが、この補間
処理を施すことによって、音声の本来の特性を変化させ
てしまっていることとなる。そのため、雑音抑圧に関し
ては有効であっても、音声認識装置20における認識処
理に際し、場合によっては、上述の音声特性変化の影響
で認識率を低下させる方向へ作用してしまう可能性も考
えられる。そこで、音声認識装置20の照合部24がケ
プストラム計算部22にて計算されたLPCケプストラ
ム係数との間で類似度計算を行なう対象である標準パタ
ーンを作成する際に、学習用サンプル音声のスペクトラ
ムをそのままを用いるのではなく、補間処理部18にお
いて実行される補間処理と同一の処理を施すことによ
り、意図的に音声特性変化を加えている。こうすること
により、雑音抑圧装置10側での補間処理による音声特
性変化を吸収し、認識率の低下を防止することができ
る。
【0079】なお、図3に示す処理手順では、学習用サ
ンプル音声として雑音を含まない場合にも、あるいは雑
音を含む場合にも適用できる。但し、雑音を含む場合に
は、図1に示した雑音抑圧装置10の場合と同様にSS
法を用いてもよい。つまり、雑音の重畳された学習用サ
ンプル音声から雑音パワースペクトラムを推定し、学習
用サンプル音声のパワースペクトラムから雑音のスペク
トラムに所定のサブトラクト係数を乗じたものを引算す
る。そして、その引算された結果に対し、補間処理部1
8において実行されるとの同一の補間処理を施し、特徴
量(ケプストラム係数)を算出するのである。
【0080】なお、音声認識は、上述したように、雑音
抑圧装置10からの出力を、予め記憶されている標準パ
ターン候補と比較して一致度合の高いものを認識結果と
するので、この比較対象パターン候補の充実を図ること
が認識率向上につながる。したがって、上述した図3の
処理手順にて作成した標準パターン及びSS法を用いて
作成した標準パターンの両方を備えておくことが好まし
い。そして、実際の使用環境では雑音が含まれることが
ほとんどであるので、標準パターンを作成する際の学習
用サンプル音声は、音声認識システムが使用される環境
での雑音を重畳させたものを用いることが好ましい。さ
らに、この環境雑音としては1種類だけでなく複数種類
を考慮した方が好ましい。例えば、音声認識システムが
自動車内にて用いられる場合には、搭載される車種、走
行速度、窓の開閉の有無、エアコンやオーディオ等の他
の車載機器の使用の有無などによって雑音のレベルやS
N比が異なる。したがって、それらの要素を適宜加味し
た使用環境をいくつか想定し、その環境での雑音の重畳
された学習用サンプル音声を用いて比較対象パターン候
補を作成する。
【図面の簡単な説明】
【図1】 本発明の実施形態の音声認識システムの概略
構成を示すブロック図である。
【図2】 標準パターンの作成処理手順を示すフローチ
ャートである。
【図3】 従来の音声認識システムの概要を示す説明図
である。
【符号の説明】
10…雑音抑圧装置 11…音声入力部 12…入力音声切り出し部 13…フーリエ変換
部 14…パワースペクトラム変換部 15…雑音パワース
ペクトラム推定部 16…引算部 17…逆フーリエ変
換部 18…補間処理部 20…音声認識装置 21…LPC分析部 22…ケプストラム
計算部 23…標準パターン格納部 24…照合部 25…判定部 30…マイク 200…音声認識システム 201…マイク 203…雑音抑圧装置 204…音声認識装
置 205…PTTスイッチ
フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 9/14 301A (56)参考文献 特開 平9−171397(JP,A) 特開 平7−104797(JP,A) 特開 平8−97723(JP,A) 特開 平8−123484(JP,A) 特開 平10−97278(JP,A) 特開 平9−90998(JP,A) 特開 平8−194497(JP,A) 特開 平6−50440(JP,A) 特公 昭62−38720(JP,B2) 特公 平7−31519(JP,B2) (58)調査した分野(Int.Cl.7,DB名) G10L 15/20 G10L 21/02 G10L 15/02

Claims (16)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力信号を所定の処理時間毎にフレーム
    信号として切り出すフレーム分割手段と、 前記フレーム信号からパワースペクトラムを算出するス
    ペクトラム算出手段と、 前記入力信号に音声が含まれている音声区間と、前記音
    声が含まれていない雑音区間とを判定する判定手段と、 該判定手段によって判定された前記雑音区間の入力信号
    に基づいて算出した前記パワースペクトラムを用いて雑
    パワースペクトラムを推定する雑音スペクトラム推定
    手段と、 前記音声区間の入力信号に基づいて算出した前記パワー
    スペクトラムから、前記雑音スペクトラム推定手段によ
    って推定された前記雑音パワースペクトラムに所定のサ
    ブトラクト係数を乗じたものを引算する引算手段と、 を備える雑音抑圧装置において、前記引算手段による引算結果に基づいて自己相関係数を
    算出する自己相関係数算出手段と、 前記自己相関係数算出手段によって算出された自己相関
    係数 に対して、時間方向又は周波数方向の少なくともい
    ずれか一方の補間を実行する補間手段を備えていること
    を特徴とする雑音抑圧装置。
  2. 【請求項2】 入力信号を所定の処理時間毎にフレーム
    信号として切り出すフレーム分割手段と、 前記フレーム信号からスペクトラムを算出するスペクト
    ラム算出手段と、 前記入力信号に音声が含まれている音声区間と、前記音
    声が含まれていない雑音区間とを判定する判定手段と、 該判定手段によって判定された前記雑音区間の入力信号
    に基づいて算出した前記スペクトラムを用いて雑音スペ
    クトラムを推定する雑音スペクトラム推定手段と、 前記音声区間の入力信号に基づいて算出した前記スペク
    トラムから、前記雑音スペクトラム推定手段によって推
    定された前記雑音スペクトラムに所定のサブトラクト係
    数を乗じたものを引算する引算手段と、 を備える雑音抑圧装置において、 前記引算手段によって引算された結果に対して、時間方
    向又は周波数方向の少なくともいずれか一方の補間を実
    行する補間手段と、 音声を入力させる期間を発声者自身が指定するために設
    けられた入力期間指定手段を備え、 前記判定手段は、前記入力期間指定手段によって指定さ
    れた入力期間を前記音声区間として判定するよう構成さ
    ていることを特徴とする雑音抑圧装置。
  3. 【請求項3】 請求項に記載の雑音抑圧装置におい
    て、 前記スペクトラム算出手段は、前記フレーム信号から振
    幅スペクトラムを算出し、 前記雑音スペクトラム推定手段は、前記雑音区間の入力
    信号に基づいて算出した前記振幅スペクトラムを用いて
    雑音振幅スペクトラムを推定し、 前記引算手段は、前記音声区間の入力信号に基づいて算
    出した前記振幅スペクトラムから、前記雑音スペクトラ
    ム推定手段によって推定された前記雑音振幅スペクトラ
    ムに所定のサブトラクト係数を乗じたものを引算するよ
    う構成されていることを特徴とする雑音抑圧装置。
  4. 【請求項4】 請求項に記載の雑音抑圧装置におい
    て、 前記スペクトラム算出手段は、前記フレーム信号からパ
    ワースペクトラムを算出し、 前記雑音スペクトラム推定手段は、前記雑音区間の入力
    信号に基づいて算出した前記パワースペクトラムを用い
    て雑音パワースペクトラムを推定し、 前記引算手段は、前記音声区間の入力信号に基づいて算
    出した前記パワースペクトラムから、前記雑音スペクト
    ラム推定手段によって推定された前記雑音パワースペク
    トラムに所定のサブトラクト係数を乗じたものを引算す
    るよう構成されていることを特徴とする雑音抑圧装置。
  5. 【請求項5】 請求項に記載の雑音抑圧装置におい
    て、 さらに、前記引算手段による引算結果に基づいて自己相
    関係数を算出する自己相関係数算出手段を備え、 前記補間手段は、前記自己相関係数算出手段によって算
    出された自己相関係数に対して、時間方向又は相関の指
    数方向の少なくともいずれか一方の補間を実行するよう
    構成されていることを特徴とする雑音抑圧装置。
  6. 【請求項6】 請求項2〜5のいずれかに記載の雑音抑
    圧装置において、 前記補間手段は、線形フィルタ処理による補間を実行す
    るよう構成されていることを特徴とする雑音抑圧装置。
  7. 【請求項7】 請求項2〜5のいずれかに記載の雑音抑
    圧装置において、 前記補間手段は、非線形フィルタ処理による補間を実行
    するよう構成されていることを特徴とする雑音抑圧装
    置。
  8. 【請求項8】 請求項に記載の雑音抑圧装置におい
    て、 前記補間手段は、前記非線形フィルタ処理による補間
    を、ニューラルネットワークを用いて実行するよう構成
    されていることを特徴とする雑音抑圧装置。
  9. 【請求項9】 請求項に記載の雑音抑圧装置におい
    て、 前記ニューラルネットワークは、雑音抑圧装置が使用さ
    れる環境での雑音を含んだ音声にて学習されていること
    を特徴とする雑音抑圧装置。
  10. 【請求項10】 請求項2〜9のいずれかに記載の雑音
    抑圧装置と、 該雑音抑圧装置からの出力を、予め記憶されている複数
    の比較対象パターン候補と比較して一致度合の高いもの
    を認識結果とする音声認識装置と、 を備えることを特徴とする音声認識システム。
  11. 【請求項11】 請求項10に記載の音声認識システム
    において、 前記音声認識装置は、前記雑音抑圧装置からの出力に対
    して線形予測分析を行なうよう構成されていることを特
    徴とする音声認識システム。
  12. 【請求項12】 請求項10又は11に記載の音声認識
    システムにおいて、 前記音声認識装置内に記憶されている前記比較対象パタ
    ーン候補は、 学習用サンプル音声のスペクトラムに対し、前記補間手
    段において実行される補間処理と同一の処理を施した結
    果を用いて作成された第1の比較対象パターン候補であ
    ること、 を特徴とする音声認識システム。
  13. 【請求項13】 請求項10又は11に記載の音声認識
    システムにおいて、 前記音声認識装置内に記憶されている前記比較対象パタ
    ーン候補は、 雑音の重畳された学習用サンプル音声に対して、前記引
    算手段と同様に、前記学習用サンプル音声のスペクトラ
    ムから前記雑音のスペクトラムに所定のサブトラクト係
    数を乗じたものを引算し、その引算された結果に対し、
    前記補間手段において実行されるとの同一の補間処理を
    施した結果を用いて作成された第2の比較対象パターン
    候補であること、 を特徴とする音声認識システム。
  14. 【請求項14】 請求項12に記載の音声認識システム
    において、 前記音声認識装置内に記憶されている前記比較対象パタ
    ーン候補には、 前記第1の比較対象パターン候補に加え、雑音の重畳さ
    れた前記学習用サンプル音声に対して、前記引算手段と
    同様に、前記学習用サンプル音声のスペクトラムから前
    記雑音のスペクトラムに所定のサブトラクト係数を乗じ
    たものを引算し、その引算された結果に対し、前記補間
    手段において実行されるとの同一の補間処理を施した結
    果を用いて作成された第2の比較対象パターン候補も含
    まれていること、 を特徴とする音声認識システム。
  15. 【請求項15】 請求項12〜14のいずれかに記載の
    音声認識システムにおいて、 前記音声認識装置内に記憶されている前記比較対象パタ
    ーン候補には、 前記第1の比較対象パターン候補及び/又は前記第2の
    比較対象パターン候補に加え、雑音の重畳された前記学
    習用サンプル音声に対して、前記引算手段と同様に、前
    記学習用サンプル音声のスペクトラムから前記雑音のス
    ペクトラムに所定のサブトラクト係数を乗じたものを引
    算した結果を用いて作成された第3の比較対象パターン
    候補も含まれていること、 を特徴とする音声認識システム。
  16. 【請求項16】 請求項13〜15のいずれかに記載の
    音声認識システムにおいて、 前記第2及び第3の比較対象パターン候補を作成する際
    に用いる雑音は、音声認識システムが使用される環境で
    の雑音であることを特徴とする音声認識システム。
JP18268598A 1997-09-16 1998-06-29 雑音抑圧装置及び該装置を用いた音声認識システム Expired - Fee Related JP3444198B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP18268598A JP3444198B2 (ja) 1997-09-16 1998-06-29 雑音抑圧装置及び該装置を用いた音声認識システム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP9-250883 1997-09-16
JP25088397 1997-09-16
JP18268598A JP3444198B2 (ja) 1997-09-16 1998-06-29 雑音抑圧装置及び該装置を用いた音声認識システム

Publications (2)

Publication Number Publication Date
JPH11154000A JPH11154000A (ja) 1999-06-08
JP3444198B2 true JP3444198B2 (ja) 2003-09-08

Family

ID=26501401

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18268598A Expired - Fee Related JP3444198B2 (ja) 1997-09-16 1998-06-29 雑音抑圧装置及び該装置を用いた音声認識システム

Country Status (1)

Country Link
JP (1) JP3444198B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001069597A (ja) * 1999-06-22 2001-03-16 Yamaha Corp 音声処理方法及び装置
WO2001024167A1 (fr) 1999-09-30 2001-04-05 Fujitsu Limited Dispositif antiparasite
JP5147194B2 (ja) * 2006-04-24 2013-02-20 中国電力株式会社 虫警報装置
CN102037664A (zh) * 2008-05-21 2011-04-27 林翰 降低音频干扰的方法及其装置

Also Published As

Publication number Publication date
JPH11154000A (ja) 1999-06-08

Similar Documents

Publication Publication Date Title
KR100574594B1 (ko) 잡음 보상되는 음성 인식 시스템 및 방법
EP2151821B1 (en) Noise-reduction processing of speech signals
US8812312B2 (en) System, method and program for speech processing
KR100870889B1 (ko) 음신호 처리 방법, 음신호 처리 장치 및 기록 매체
JPH11126090A (ja) 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
JPH0612089A (ja) 音声認識方法
JP2003303000A (ja) 特殊領域におけるチャンネル雑音および加法性雑音の合同補償に関する方法および装置
Wolfel Enhanced speech features by single-channel joint compensation of noise and reverberation
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
US8423360B2 (en) Speech recognition apparatus, method and computer program product
US20030036902A1 (en) Method and apparatus for recognizing speech in a noisy environment
EP1189204B1 (en) HMM-based noisy speech recognition
US5487129A (en) Speech pattern matching in non-white noise
JP3444198B2 (ja) 雑音抑圧装置及び該装置を用いた音声認識システム
JP3900691B2 (ja) 雑音抑圧装置及び当該装置を用いた音声認識システム
JP4325044B2 (ja) 音声認識システム
JP3270866B2 (ja) 雑音除去方法および雑音除去装置
JPH11327593A (ja) 音声認識システム
JP2000321080A (ja) 雑音抑圧装置,音声認識装置及び車両用ナビゲーション装置
KR20130125014A (ko) 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
EP3669356B1 (en) Low complexity detection of voiced speech and pitch estimation
JP2001067094A (ja) 音声認識装置及び方法
JPH11212588A (ja) 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090627

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100627

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100627

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110627

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110627

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120627

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees