JP3960834B2 - 音声強調装置及び音声強調方法 - Google Patents

音声強調装置及び音声強調方法 Download PDF

Info

Publication number
JP3960834B2
JP3960834B2 JP2002077327A JP2002077327A JP3960834B2 JP 3960834 B2 JP3960834 B2 JP 3960834B2 JP 2002077327 A JP2002077327 A JP 2002077327A JP 2002077327 A JP2002077327 A JP 2002077327A JP 3960834 B2 JP3960834 B2 JP 3960834B2
Authority
JP
Japan
Prior art keywords
comb filter
noise
spectrum
pitch
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002077327A
Other languages
English (en)
Other versions
JP2003280696A (ja
Inventor
幼華 王
幸司 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2002077327A priority Critical patent/JP3960834B2/ja
Publication of JP2003280696A publication Critical patent/JP2003280696A/ja
Application granted granted Critical
Publication of JP3960834B2 publication Critical patent/JP3960834B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Noise Elimination (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声強調装置及び音声強調方法に関し、特に通信に用いて好適な音声強調装置及び音声強調方法に関する。
【0002】
【従来の技術】
従来の音声符号化通信において、低ビットレートで音声を符号化して通信を行うと、背景雑音のない音声に対しては高品質な音声での通話を提供することができるが、背景雑音が含まれた音声に対しては低ビットレート符号化特有の耳障りな歪みが生じ、音質が劣化する。
【0003】
この音質が劣化する問題の対処するため雑音抑圧処理を行うことがある。この雑音抑圧処理に関する音声強調技術としてスペクトルサブトラクション法、およびコムフィルタ法がある。
【0004】
スペクトルサブトラクション法(SS法)は、雑音情報に着目して無音区間で雑音の性質を推定して雑音を含む音声信号の短時間パワスペクトルから雑音の短時間パワスペクトルを減算する、または減衰係数を乗算することにより音声信号のパワスペクトルを推定して雑音を抑圧する方法である。SS法は、例えば、文献1(S.Boll,Suppression of acoustic noise in speech using spectral subtraction,IEEE Trans.Acoustics,Speech,and Signal Processing,vol.ASSP-27,pp.113-120,1979)、文献2(R.J.McAulay,M.L.Malpass,Speech enhancement using a soft-decision noise suppression filter,IEEE.Trans.Acoustics,Speech,and Signal Processing,vol.ASSP-28,pp.137-145.1980)に記載されているものがある。
【0005】
しかしながら、SS法では、音声からノイズを差し引いた後の残留ノイズとして、音声ピッチ間の残留ノイズに起因する歪を生じる。
【0006】
例えば、音声強調方法として用いられる文献1に示したSS法では、ノイズ情報のみに着目し、短時間のノイズ特性を定常と見なして、音声とノイズを区別せず、一律にノイズベース(推定されたノイズのスペクトル特性)を差し引く。しかし、SS法では、音声の情報(例えば、音声のピッチ)は利用していない。実際の通信では、ノイズの特性が定常でないため、差し引かれた後の残留ノイズ、特に音声ピッチ間の残留ノイズにより、いわゆる「ミュジカルノイズ」と呼ばれる不自然な歪を生じる。
【0007】
この不自然な歪みの改善法として、音声パワ対ノイズパワの比(SNR)に基づき、減衰係数を乗じてノイズを減衰する方法、例えば、特許第2714656号及び特願平9-518820号に開示されたものが提案されている。
【0008】
これらに開示された方法では、音声の大きい(SNRが大きい)帯域とノイズの大きい(SNRが小さい)帯域を区別して異なる減衰係数を用いるため、ミュジカルノイズを抑制し、音質を向上させた。
【0009】
しかし、特許第2714656号及び特願平9-518820号に開示された方法では、処理する周波数チャネル数(16チャネル)は十分でないので、音声ピッチ調波情報を雑音から分離し抽出することがむずかしい。
【0010】
また、音声とノイズ両方の帯域に減衰係数を用いるため、互いに影響を及ぼし合う結果、減衰係数は大きくすることができない。例えば、減衰係数を大きくすると、SNR推定の誤りによって、音声の歪みを生じる可能性がある。この結果、ノイズの減衰が不十分となる。
【0011】
一方、コムフィルタ法は、音声情報に着目し、音声ピッチにコムフィルタをかけることにより雑音減衰を行う方法である。コムフィルタとは、周波数領域単位で入力された信号を所定の比率で減衰させ、または減衰させずに信号を出力するフィルタであり、櫛状の減衰特性をもつ。デジタルデータ処理でコムフィルタ法を実現する場合、コムフィルタ法では、コムフィルタの減衰特性を周波数領域毎に減衰特性のデータを作成し、周波数毎に音声スペクトルを乗算することにより雑音を抑圧できる。
【0012】
コムフィルタ法に関する文献として、文献3(J.S.Lim etc.,Evaluation of an adaptive comb filtering method for enhancing speech degraded by white noise addition,IEEE Trans.Acoustics,Speech,and Signal Processing,vol.ASSP26,pp.354-358,1978)に示すものがある。
【0013】
従来のコムフィルタ法では、基本周波数であるピッチに推定誤差があると、その高調波では誤差分が拡大し、本来の高調波成分がその通過帯域からはずれる可能性がより大きくなる。また、準周期性を持つ音声とそうでない音声を判別する必要があるため、実現性に問題がある。また、移動体通信において、単に雑音を抑圧することによって、自然感のある周囲騒音も抑圧され、通話の違和感を生じることがある。
【0014】
通話の違和感を解消する方法として、音声と雑音を分離し、それぞれ符号化と復号化を行うことによって良好な音声と周囲騒音を再生する技術がある。例えば、文献4(三関 公生, 押切 正浩, 音声・背景雑音分離にもとづく低レート音声符号化, 日本音響学会講演論文集, pp.235-236, 平成10年3月)に示した方法がある。
【0015】
文献4に示した方法は、SS法を用いて音声強調を行い、雑音抑圧された入力信号を音声成分とし、入力信号と音声成分を減算した結果を雑音成分とする方法である。基本的にはSS法と同じ方法であるため、本方法による分離方法では良好な音声と雑音特性を得ることが難しい。
【0016】
【発明が解決しようとする課題】
このように、従来の装置においては、音声の歪みが少なくかつ雑音を十分に除去することが難しいという問題がある。
【0017】
発明は、かかる点に鑑みてなされたものであり、音声の歪みが少なくかつ雑音を十分に除去することができる音声強調装置を提供するとともに、良好な音声と雑音の特性を得られる音声強調装置及び音声強調方法を提供することを目的とする。
【0018】
【課題を解決するための手段】
本発明の音声強調装置は、入力信号のスペクトルを所定の周波数単位で分割した周波数分割スペクトルを出力する周波数分割手段と、周波数分割スペクトルに基づいて無音と判定した周波数領域の信号を減衰する第一コムフィルタを作成する第一コムフィルタ作成手段と、周波数分割スペクトルに基づいて第一コムフィルタより多くの雑音のピークを取り除いたフィルタである第二コムフィルタを作成する第二コムフィルタ作成手段と、前記周波数分割スペクトルから音声ピッチを推定するピッチ推定手段と、前記第二コムフィルタと前記音声ピッチに基づいてピッチ調波構造を表すピッチ調波修復コムフィルタを作成するピッチ調波構造修復手段と、前記ピッチ調波修復コムフィルタの通過域と重複する第一コムフィルタの通過域のみを通過域とするように前記第一コムフィルタを修正するコムフィルタ修正手段と、前記コムフィルタ修正手段において修正された第一コムフィルタを用いて前記周波数分割スペクトルのノイズを抑圧する抑圧手段と、ノイズを抑圧した前記周波数分割スペクトルを周波数領域で連続したスペクトル信号に合成する音声周波数合成手段と、を具備する構成を採る。
【0019】
この構成によれば、音声信号のスペクトルから音声ピークである可能性の高いピークを取り出して音声ピッチを推定するコムフィルタを作成し、このコムフィルタから正確な音声ピッチ情報を取得し、また、できる限り多くの音声情報を取り出してノイズ信号の抑圧を行うコムフィルタを作成し、このコムフィルタを用いて雑音に埋もれた音声スペクトルのピークを抑圧しないことにより、正しい音声ピッチ情報に基づいて欠落した音声ピッチ調波構造を補ったコムフィルタを作成することができ、このコムフィルタを用いてノイズ信号を抑圧することにより、音声歪みの少ない音声強調を行うことができる。
【0020】
本発明の音声強調装置は、第一コムフィルタと第二コムフィルタとから音声スペクトルに音声成分が含まれているか否か判定する音声/雑音フレーム検出手段を具備し、コムフィルタ修正手段は、前記音声/雑音フレーム検出手段の判定が音声成分を含まない結果である場合、前記第一コムフィルタに各周波数成分で信号を減衰する修正をする構成を採る。
【0021】
本発明の音声強調装置は、前記音声/雑音フレーム検出手段は、第一コムフィルタの通過域における入力信号のパワスペクトルの和と第一コムフィルタの阻止域における入力信号のパワスペクトルの和の比を第一結果とし、第二コムフィルタの通過域における入力信号のパワスペクトルの和と第二コムフィルタの阻止域における入力信号のパワスペクトルの和の比を第二結果とし、第一結果と第二結果を加算した結果が所定の閾値より大きい場合、前記加算結果を用い、前記加算結果が所定の閾値以下である場合、第二結果を用いて音声スペクトルに音声が含まれるか否か判定する構成を採る。
【0022】
これらの構成によれば、第一コムフィルタと第二コムフィルタとから音声スペクトルに音声成分が含まれているか否か判定し、この判定が音声成分を含まない結果である場合、前記第一コムフィルタに各周波数成分で信号を減衰することにより、突発的に発生するノイズを抑圧することができる。
【0023】
本発明の音声強調装置は、第一コムフィルタ生成手段は、入力信号のパワスペクトルの極小値から所定の範囲を阻止域とする第一コムフィルタを作成する構成を採る。
【0024】
この構成によれば、入力信号のパワスペクトルの極小値から所定の範囲を阻止域とするコムフィルタを作成し、このコムフィルタを用いてノイズ信号を抑圧することにより、音声とノイズのレベル差が少ない場合でも、音声ピッチ調波構造を抽出して修復して音声歪を低減することができる。
【0025】
本発明の音声強調装置は、入力信号のパワスペクトルからノイズベースを減算し、減算結果の自己相関関数を用いて音声ピッチを推定するピッチ推定手段を具備し、コムフィルタ修正手段は、前記ピッチ推定手段において推定した音声ピッチで前記第一コムフィルタに含まれる音声ピッチ調波構造を修正する構成を採る。
【0026】
この構成によれば、入力信号のパワスペクトルからノイズベースを減算し、減算結果の自己相関関数に基づいて音声ピッチを推定し、推定した音声ピッチでコムフィルタに含まれる音声ピッチ調波構造を修正することにより、コムフィルタのピッチ調波構造の修復を行うことができ、音声歪みの少ない音声強調を行うことができる。
【0027】
本発明の音声強調装置は、入力信号のパワスペクトルからノイズベースを減算した結果に、直流成分に所定のパワを持つ擬似ピークを生成する直流成分生成手段を具備し、ピッチ推定手段は、前記直流成分生成手段において擬似ピークを生成した前記パワスペクトルから音声ピッチを推定する構成を採る。
【0028】
この構成によれば、入力信号のパワスペクトルからノイズベースを減算した結果に直流成分に所定のパワを持つ擬似ピークを生成し、直流成分を生成したスペクトルの自己相関関数に基づいて音声ピッチを推定し、推定した音声ピッチでコムフィルタに含まれる音声ピッチ調波構造を修正することにより、音声スペクトルの調波ピークが少ない場合でも、ピッチ情報を得てコムフィルタのピッチ調波構造の修復を行うことができ、音声歪みの少ない音声強調を行うことができる。
【0029】
本発明の音声強調装置は、入力信号のパワスペクトルからノイズベースを減算した結果において、パワが所定の閾値以上である周波数領域の数の移動平均を算出するノイズ特性推定手段を具備し、第二コムフィルタ作成手段は、前記移動平均から入力信号に音声が含まれるか否か判断した結果より第二コムフィルタを作成する構成を採る。
【0030】
この構成によれば、入力信号のノイズレベルの分布を検出し、この分布に基づいて音声スペクトルからコムフィルタを生成する基準を決定し、作成したコムフィルタからピッチ情報を取得することにより、雑音の状態に応じたピッチ情報を取得してコムフィルタを作成することができ、音声歪みの少ない音声強調を行うことができる。
【0031】
本発明の音声強調装置は、入力信号のパワスペクトルからノイズベースを減算した結果において、パワが所定の閾値以上である周波数領域の数の移動平均を算出するノイズ特性推定手段を具備し、第二コムフィルタ作成手段は、ノイズ特性推定手段において算出された移動平均が所定の値以下である場合、所定の周波数領域を阻止域とする第二コムフィルタを作成する構成を採る。
【0032】
この構成によれば、ノイズ特性の推定結果に基づいて周波数成分を選択し、第二コムフィルタにおいて、選択された周波数領域をすべて阻止域に変換することによって、分散値の大きいノイズにより生成した偽のピッチ調波を減少し、偽のピッチ調波を生じにくい低周波数領域におけるピッチ調波を基準に、ピッチ調波構造の修復を行えば、正確にピッチ調波構造を修復することができる。
【0033】
本発明の音声強調装置は、入力信号のパワスペクトルとノイズベースから信号対雑音比を算出するSNR推定手段を具備し、抑圧手段は、前記信号対雑音比から周波数分割スペクトルのノイズの抑圧量を決定する構成を採る。
【0034】
この構成によれば、修正コムフィルタの通過域と阻止域において、入力音声パワスペクトルからノイズベースを減算する量とノイズ減衰の度合いをSNR推定値の大きさに応じて調整することによって、異なるSNRの環境下でも適切なノイズ減衰を行い、音声歪と残留ノイズの少ない音声強調を実現できる。
【0035】
本発明の音声強調装置は、SNR推定手段は、音声成分のレベルを入力信号のパワスペクトルの移動平均値より算出し、雑音成分のレベルをノイズベースの推定値に各周波数成分別に重み計数を乗算した値より算出し、前記音声成分のレベルと前記雑音成分のレベルの比から信号対雑音比を算出する構成を採る。
【0036】
この構成によれば、入力音声パワスペクトルの移動平均値からノイズベースを減算して音声レベルの計算することにより、ノイズの影響を減少し、低SNRの環境下でも正確な音声レベルを計算することができる。また、ノイズベース推定値の各周波数成分に重み係数を乗算して計算することにより、異なるノイズに対して適切な減衰を行い、音声歪を低減することができる。
【0037】
本発明の音声強調装置は、信号対雑音比と前記信号対雑音比の移動平均値との偏差を算出し、前記偏差を用いて前記信号対雑音比の移動平均値を更新する変動抑圧手段を具備し、抑圧手段は、変動抑圧手段において更新された前記信号対雑音比の移動平均値から周波数分割スペクトルのノイズの抑圧量を決定する構成を採る。
【0038】
この構成によれば、SNR推定値とSNR推定値の長期移動平均値の偏差を計算し、SNR推定値の長期移動平均値と前記偏差の一部を加算してSNR推定値として用いることによって、SNRの変動を有効に抑制し、安定的にSNRの大きさに応じてノイズ減衰のレベル調整を行うことができる。
【0039】
本発明の音声強調装置は、所定の時間単位で更新速度の異なる二つのノイズベースの移動平均値を算出し、第一移動平均値より更新速度の速い第二移動平均値で第一移動平均値の更新条件を変更し、第一移動平均値をノイズベース推定値として出力するノイズベース更新手段を具備する構成を採る。
【0040】
この構成によれば、更新速度の速い移動平均係数を用いてノイズベースの推定を行うことによって、音声区間においても雑音レベルの急激な変動を追跡することができる。また、更新速度の遅いノイズベースの更新は、更新速度の速いノイズベースに基づいて行うことによって、正確にノイズベースの推定を行うことができ、雑音レベルの急激な変動によるノイズベース更新の停止を防止することができる。
【0041】
本発明の無線通信装置は、上記いずれかに記載の音声強調装置を具備する構成を採る。
【0042】
この構成によれば、音声信号のスペクトルから音声ピークである可能性の高いピークを取り出して音声ピッチを推定するコムフィルタを作成し、このコムフィルタから正確な音声ピッチ情報を取得し、また、できる限り多くの音声情報を取り出して力信号の抑圧を行うコムフィルタを作成し、このコムフィルタを用いて雑音に埋もれた音声スペクトルのピークを抑圧しないことにより、正しい音声ピッチ情報に基づいて欠落した音声ピッチ調波構造を補ったコムフィルタを作成することができ、このコムフィルタを用いてノイズ信号を抑圧することにより、音声歪みの少ない音声強調を行うことができる。
【0053】
本発明の音声強調方法は、入力信号のスペクトルを所定の周波数単位で分割した周波数分割スペクトルを出力する周波数分割ステップと、周波数分割スペクトルに基づいて無音と判定した周波数領域の信号を減衰する第一コムフィルタを作成する第一コムフィルタ作成ステップと、周波数分割スペクトルに基づいて第一コムフィルタより多くの雑音のピークを取り除いたフィルタである第二コムフィルタを作成する第二コムフィルタ作成ステップと、前記周波数分割スペクトルから音声ピッチを推定するピッチ推定ステップと、前記第二コムフィルタと前記音声ピッチに基づいてピッチ調波構造を表すピッチ調波修復コムフィルタを作成するピッチ調波構造修復ステップと、前記ピッチ調波修復コムフィルタの通過域と重複する第一コムフィルタの通過域のみを通過域とするように前記第一コムフィルタを修正するコムフィルタ修正ステップと、前記修正された第一コムフィルタを用いて前記周波数分割スペクトルのノイズを抑圧する抑圧ステップと、ノイズを抑圧した前記周波数分割スペクトルを周波数領域で連続したスペクトル信号に合成する音声周波数合成ステップと、を具備するようにした。
【0054】
この方法によれば、音声信号のスペクトルから音声ピークである可能性の高いピークを取り出して音声ピッチを推定するコムフィルタを作成し、このコムフィルタから正確な音声ピッチ情報を取得し、また、できる限り多くの音声情報を取り出して力信号の抑圧を行うコムフィルタを作成し、このコムフィルタを用いて雑音に埋もれた音声スペクトルのピークを抑圧しないことにより、正しい音声ピッチ情報に基づいて欠落した音声ピッチ調波構造を補ったコムフィルタを作成することができ、このコムフィルタを用いて音声信号を抑圧することにより、音声歪みの少ない音声強調を行うことができる。
【0057】
本発明の音声強調プログラムは、入力信号のスペクトルを所定の周波数単位で分割した周波数分割スペクトルを出力する周波数分割ステップと、周波数分割スペクトルに基づいて無音と判定した周波数領域の信号を減衰する第一コムフィルタを作成する第一コムフィルタ作成ステップと、周波数分割スペクトルに基づいて第一コムフィルタより多くの雑音のピークを取り除いたフィルタである第二コムフィルタを作成する第二コムフィルタ作成ステップと、前記周波数分割スペクトルから音声ピッチを推定するピッチ推定ステップと、前記第二コムフィルタと前記音声ピッチに基づいてピッチ調波構造を表すピッチ調波修復コムフィルタを作成するピッチ調波構造修復ステップと、前記ピッチ調波修復コムフィルタの通過域と重複する第一コムフィルタの通過域のみを通過域とするように前記第一コムフィルタを修正するコムフィルタ修正ステップと、前記修正された第一コムフィルタを用いて前記周波数分割スペクトルのノイズを抑圧する抑圧ステップと、ノイズを抑圧した前記周波数分割スペクトルを周波数領域で連続したスペクトル信号に合成する音声周波数合成ステップと、をコンピュータに実行させる構成を採る。
【0058】
この構成によれば、音声信号のスペクトルから音声ピークである可能性の高いピークを取り出して音声ピッチを推定するコムフィルタを作成し、このコムフィルタから正確な音声ピッチ情報を取得し、また、できる限り多くの音声情報を取り出してノイズ信号の抑圧を行うコムフィルタを作成し、このコムフィルタを用いて雑音に埋もれた音声スペクトルのピークを抑圧しないことにより、正しい音声ピッチ情報に基づいて欠落した音声ピッチ調波構造を補ったコムフィルタを作成することができ、このコムフィルタを用いてノイズ信号を抑圧することにより、音声歪みの少ない音声強調を行うことができる。
【0061】
本発明のサーバ装置は、入力信号のスペクトルを所定の周波数単位で分割した周波数分割スペクトルを出力する周波数分割ステップと、周波数分割スペクトルに基づいて無音と判定した周波数領域の信号を減衰する第一コムフィルタを作成する第一コムフィルタ作成ステップと、周波数分割スペクトルに基づいて第一コムフィルタより多くの雑音のピークを取り除いたフィルタである第二コムフィルタを作成する第二コムフィルタ作成ステップと、前記周波数分割スペクトルから音声ピッチを推定するピッチ推定ステップと、前記第二コムフィルタと前記音声ピッチに基づいてピッチ調波構造を表すピッチ調波修復コムフィルタを作成するピッチ調波構造修復ステップと、前記ピッチ調波修復コムフィルタの通過域と重複する第一コムフィルタの通過域のみを通過域とするように前記第一コムフィルタを修正するコムフィルタ修正ステップと、前記修正された第一コムフィルタを用いて前記周波数分割スペクトルのノイズを抑圧する抑圧ステップと、ノイズを抑圧した前記周波数分割スペクトルを周波数領域で連続したスペクトル信号に合成する音声周波数合成ステップと、をコンピュータに実行させることを特徴とする音声強調プログラムを記憶し、要求に応じて前記音声強調プログラムを出力する構成を採る。
【0062】
この構成によれば、音声信号のスペクトルから音声ピークである可能性の高いピークを取り出して音声ピッチを推定するコムフィルタを作成し、このコムフィルタから正確な音声ピッチ情報を取得し、また、できる限り多くの音声情報を取り出して力信号の抑圧を行うコムフィルタを作成し、このコムフィルタを用いて雑音に埋もれた音声スペクトルのピークを抑圧しないことにより、正しい音声ピッチ情報に基づいて欠落した音声ピッチ調波構造を補ったコムフィルタを作成することができ、このコムフィルタを用いてノイズ信号を抑圧することにより、音声歪みの少ない音声強調を行うことができる。
【0065】
【発明の実施の形態】
本発明の骨子は、音声信号の周波数分割スペクトルに基づいて音声抑圧に用いるコムフィルタより多くの雑音のピークを取り除いたコムフィルタを生成し、このコムフィルタを用いて音声信号のピッチ情報を取得し、コムフィルタの音声ピッチを補うことである。
【0066】
以下、本発明の実施の形態について図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係る音声強調装置の構成を示すブロック図である。図1において、音声強調装置100は、時間分割部101と、窓掛け部102と、FFT部103と、周波数分割部104と、ノイズベース推定部105と、第一音声/非音声識別部106と、第二音声/非音声識別部107と、第一コムフィルタ生成部108と、第二コムフィルタ生成部109と、有声/無声判別部110と、ピッチ推定部111と、ピッチ調波構造修復部112と、コムフィルタ修正部113と、音声分離係数計算部114と、乗算部115と、音声周波数合成部116と、IFFT部117と、から主に構成される。
【0067】
時間分割部101は、入力された音声信号から所定時間単位で区切られたフレームを構成し、窓掛け部102に出力する窓掛け部102は、時間分割部101から出力されたフレームにハニングウインドウ等を利用した窓掛け処理を行ってFFT部103に出力する。FFT部103は、窓掛け部102から出力された音声信号にFFT(Fast Fourier Transform)を行い、音声スペクトル信号を周波数分割部104に出力する。
【0068】
周波数分割部104は、FFT部103から出力された音声スペクトルを各周波数成分に分割して、周波数成分毎に分割された音声スペクトルSf(k)(ただし、kは周波数成分を特定する番号)をノイズベース推定部105、第一音声/非音声識別部106、第二音声/非音声識別部107、及び乗算部115に出力する。なお、周波数成分は、所定の周波数単位で分割された音声スペクトルの最小単位を示すものである。Sf(k)は式(1)で示される。
【0069】
【数1】
Figure 0003960834
ここで、Re{Df(k)}2は、FFT変換後の入力音声信号のスペクトルの実数部を示し、Im{Df(k)}2は、FFT変換後の入力音声信号のスペクトルの虚数部を示す。
【0070】
ノイズベース推定部105は、フレームに音声成分が含まれていない判定結果が出力された場合、周波数分割部104から出力された音声スペクトルの周波数成分毎の短時間パワスペクトルを用いてノイズベースを更新する。
【0071】
具体的には、式(2)を用いて各周波数成分におけるノイズベースを推定し、推定されたノイズベースを音声/非音声識別部106と音声/非音声識別部107に出力する。
【0072】
【数2】
Figure 0003960834
ここで、Pbase(n−1、k)はノイズベース、nは処理を行うフレームを特定する番号、kは周波数成分を特定する番号を示す。また、Θbaseは音声とノイズを判別する閾値、αは移動平均係数を示す。
【0073】
第一音声/非音声識別部106と第二音声/非音声識別部107は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定する。
【0074】
そして、第一音声/非音声識別部106は、判定結果を第一コムフィルタ生成部108に出力し、第二音声/非音声識別部107は、判定結果を第二コムフィルタ生成部109に出力する。
【0075】
第一コムフィルタ生成部108は、音声ピッチ調波情報を多く抽出するように、第一音声/非音声識別部106の閾値を低く設定して、各周波数成分における音声成分の有無に基づいて音声ピッチ調波構造を強調するコムフィルタを生成して、このコムフィルタ結果をコムフィルタ修正部113に出力する。
【0076】
具体的には、以下の式(3)を用いて第一コムフィルタCOMB_low(k)を生成する。
【0077】
【数3】
Figure 0003960834
ここでΘlowは第1コムフィルタ用閾値である。また、HBは、FFT変換長つまり高速フーリエ変換を行うデータ数であり、例えばHB=512とする。
【0078】
第二コムフィルタ生成部109は、雑音情報に影響されないように、第二音声/非音声識別部107の閾値を高く設定して、各周波数成分における音声成分の有無に基づいて音声ピッチ調波構造を修復する基準コムフィルタとして生成して、このコムフィルタの結果を有声/無声判別部110およびピッチ調波構造修復部112に出力する。具体的には、以下の式(4)を用いて第二コムフィルタを生成する。
【数4】
Figure 0003960834
ここでΘhighは第2コムフィルタ用閾値であり、ΘhighはΘlowより大きい値である。
【0079】
有声/無声判別部110は、第二コムフィルタ生成部109から出力された結果に基づいて有声と無声を判別し、判別結果をピッチ推定部111に出力する。
【0080】
具体的には、以下の式(5)と式(6)を用いて入力音声信号の低周波数領域と高周波数領域に分けて、第二コムフィルタの通過域(すなわち、COMB_high(k)=1)の周波数成分の個数を加算する。
【0081】
【数5】
Figure 0003960834
【0082】
【数6】
Figure 0003960834
ここで、式(5)と式(6)共に設定された閾値より大きい場合、または式(5)は設定された閾値より大きく、かつ式(6)は設定された閾値より小さい場合は有声と判別し、それ以外の場合は無声と判別する。
【0083】
有声と判別した場合は音声ピッチの推定と音声ピッチ調波構造の修復を行い、無声と判別した場合は音声ピッチの推定と音声ピッチ調波構造の修復を行わない。
【0084】
ピッチ推定部111は、周波数分割部104から出力された音声スペクトルから音声ピッチ周期を推定し、推定結果をピッチ調波構造修復部112に出力する。
【0085】
ピッチ調波構造修復部112は、ピッチ推定部111から出力された推定結果と第二コムフィルタ生成部109の結果に基づいてピッチの修復を行い、その結果をコムフィルタ修正部113に出力する。
【0086】
具体的には、音声ピッチ調波構造の修復は以下のステップで行う。第1のステップでは、第二コムフィルタCOMB_high(k)の通過域毎の音声スペクトルのパワのピークを抽出し、全ての通過域からピッチ調波構造修復の基準となるピッチ基準コムフィルタCOMB_int(k)を生成する。
【0087】
第2のステップでは、ピッチ基準コムフィルタのピークとピークの間隔を計算し、所定の閾値(例えば1.5倍のピッチ周期)を超えたら、ピッチ推定の結果に基づいて欠落したピッチ調波の挿入を行い、ピッチ調波挿入コムフィルタCOMB_rec(k)を生成する。
【0088】
第3のステップでは、ピッチ周期の値に応じてピッチ調波挿入コムフィルタの櫛、すなわち通過域の幅を広くするピッチ調波修復コムフィルタCOMB_ext(k)を生成する。
【0089】
コムフィルタ修正部113は、ピッチ調波構造修復部112から出力された推定結果と第一コムフィルタ生成部108から出力された結果を組み合せてコムフィルタの修正を行い、その結果を音声分離係数計算部114に出力する。
【0090】
具体的には、ピッチ調波修復コムフィルタCOMB_ext(k)の通過域と第一コムフィルタCOMB_low(k)の通過域を比較して、重複する部分があれば、第一コムフィルタの通過域を修正後のコムフィルタの通過域とし、それ以外の部分は修正後のコムフィルタの阻止域とすることによって修正後のコムフィルタCOMB_res(k)を生成する。
【0091】
音声分離係数計算部114は、コムフィルタ修正部113において生成されたコムフィルタに、周波数特性に基づいた分離係数を乗算して、周波数成分毎に入力信号の分離係数の設定を行い、各周波数成分の分離係数を乗算部115に出力する。
【0092】
例えば、以下の式(7)から分離係数seps(k)を算出して入力信号に乗算することもできる。
【0093】
【数7】
Figure 0003960834
ここでgcは定数、kは周波数成分を特定する変数、γはノイズベースの減算量を調整する係数である。また、PMAX(n)は、Pbase(n、k)の最大値を示す。また、gc・PMAX(n)/Pbase(n、k)はフレーム毎にノイズベース推定値の正規化を行い、その逆数を利用した減衰係数であり、COMB_res(k)はコムフィルタの修正結果である。
【0094】
図2及び図3は本発明の音声強調結果の一例であり、上記のコムフィルタの生成、ピッチ調波構造の修復、コムフィルタの修正の各過程および音声分離係数(減衰係数)を示す。図2は、本実施の形態にかかる音声強調装置で作成されるコムフィルタの例を示す図である。図2において、縦軸はスペクトルのパワ及び、フィルタの減衰度を示し、横軸は周波数を示す。
【0095】
コムフィルタは、S1に示す減衰特性を持ち、減衰特性は、周波数成分毎に設定される。第一コムフィルタ生成部108は、音声成分を含まない周波数領域の信号を減衰し、音声信号を含む周波数領域の信号を減衰しない減衰特性のコムフィルタを作成する。
【0096】
雑音成分を含む音声スペクトルS2は、S1の減衰特性を持つコムフィルタをかけることにより、雑音成分を含む周波数領域の信号が減衰されてパワが小さくなり、音声信号を含む部分は減衰されずパワが変化しない。得られた音声スペクトルは、雑音成分の周波数領域がより低くなりピークが失われずに強調されたスペクトル形状となり、ピッチ調波情報が失われない雑音を抑圧した音声スペクトルS3が出力される。
【0097】
図3に、本実施の形態にかかる音声処理装置におけるコムフィルタの修復の例を示す。図3において、縦軸は減衰度を示し、横軸は、周波数成分を示す。具体的には、横軸には、256の周波数成分があり、0kHzから4kHzの領域を示す。
【0098】
C1は生成されたコムフィルタを、C2はコムフィルタC1にピッチの修復を行ったコムフィルタを、C3は、コムフィルタC2にピッチの幅を修正したコムフィルタを示す。
【0099】
コムフィルタC1は、100から140までの周波数成分でピッチ情報が失われている。ピッチ調波構造修復部112は、ピッチ推定部111において推定されたピッチ周期情報に基づいてコムフィルタC1の100から140までの周波数成分にあるピッチ調波情報を補う。これによりコムフィルタC2が得られる。
【0100】
次に、ピッチ調波構造修復部112は、周波数分割部104から出力された音声スペクトルに基づいてコムフィルタC2のピッチ調波の幅を修正する。これによりコムフィルタC3が得られる。
【0101】
乗算部115は、周波数分割部104から出力された音声スペクトルに音声分離係数計算部114から出力された分離係数を周波数成分毎に乗算する。そして、乗算した結果を音声周波数合成部116に出力する。
【0102】
音声周波数合成部116は、乗算部115から出力された各周波数成分のスペクトルを所定の処理時間単位で周波数領域の連続する音声スペクトルに合成してIFFT部117に出力する。
【0103】
IFFT部117は、音声周波数合成部116から出力された音声スペクトルにIFFT(Inverse Fast Fourier Transform)を行って音声信号に変換した信号を出力する。
【0104】
このように、本実施の形態の音声強調装置によれば、音声信号のスペクトルから音声ピークである可能性の高いピークを取り出して音声ピッチを推定するコムフィルタを作成し、このコムフィルタから正確な音声ピッチ情報を取得し、また、できる限り多くの音声情報を取り出してノイズ信号の抑圧を行うコムフィルタを作成し、このコムフィルタを用いて雑音に埋もれた音声スペクトルのピークを抑圧しないことにより、正しい音声ピッチ情報に基づいて欠落した音声ピッチ調波構造を補ったコムフィルタを作成することができ、このコムフィルタを用いてノイズ信号を抑圧することにより、音声歪みの少ない音声強調を行うことができる。
【0105】
具体的には、本発明の実施の形態の音声強調装置によれば、周波数成分毎のノイズベースの推定及び音声/非音声識別を行うことによって周波数領域において、音声ピッチ調波情報を抽出する第一コムフィルタを生成することができる。
【0106】
また、第二コムフィルタはピッチ調波の基本構造を提供することによって、ピッチ推定誤差による音声の高調波成分がコムフィルタの通過域からはずれることはない。
【0107】
また、第二コムフィルタの生成結果に基づいて有声/無声の判別を行い、ピッチ調波構造を持つ有声の場合のみ音声ピッチの推定を行い、その結果に基づいて欠落したピッチ調波構造を修復することにより、雑音に埋もれた音声情報の復元が可能となり、音声ピッチ調波欠落による音声歪を減少することができる。また、修正後のコムフィルタの結果に基づいて周波数成分毎に音声スペクトルの減衰を行うかどうかを決めるので、減衰を大きくしても音声歪の少ない音声強調を行うことができる。
【0108】
また、第一音声/非音声識別閾値を低く設定して第一コムフィルタを生成することによって、音声情報をより多く抽出することができる。一方、第二音声/非音声識別閾値を高く設定して第二コムフィルタを生成することによって、雑音情報の影響を受け難いコムフィルタを生成することができる。その結果に基づいて正確に音声ピッチ調波構造の修復を行うことができる。
【0109】
また、第二コムフィルタの生成結果に基づいて有声と無声の判別を行うことによって、少ない演算量で簡単に有声と無声を判別することができる。また、無声区間の場合は音声ピッチ推定と音声ピッチ調波構造の修復を行わないことによって、ピッチ調波構造を持たない無声区間にも対応できる。
【0110】
また、音声ピッチ推定結果に基づいてピッチ調波を挿入することによって、音声ピッチ調波を修復することができる。また、ピッチ調波の幅はピッチの推定結果によって自動的に調整することによって、音声ピッチ推定誤差による影響を低減し、より確実に音声ピッチ調波構造を修復することができる。更に、音声ピッチ調波構造修復の結果と第一コムフィルタの結果を比較し、重複する部分があれば、第一コムフィルタの通過域を修正後のコムフィルタの通過域とし、それ以外は修正後のコムフィルタの阻止域とすることによって、音声ピッチ調波情報のみ抽出し、ピッチ調波間のノイズ情報を抑圧することができる。
【0111】
(実施の形態2)
図4は実施の形態2にかかる音声強調装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
【0112】
図4の音声強調装置300は、音声/雑音フレーム検出部301を具備し、第一コムフィルタと第二コムフィルタとから音声スペクトルに音声成分が含まれているか否か判定し、この判定が音声成分を含まない結果である場合、前記第一コムフィルタに各周波数成分で信号を減衰する修正をする点が図1の音声強調装置と異なる。
【0113】
具体的には、図4の音声強調装置300は、第一コムフィルタの通過域における入力音声パワスペクトルの和と第一コムフィルタの阻止域における入力音声パワスペクトルの和の比を第1結果とし、第二コムフィルタの通過域における入力音声パワスペクトルの和と第二コムフィルタの阻止域における入力音声パワスペクトルの和の比を第2結果として、それが所定の閾値より大きい場合は第1結果と第2結果を加算し、所定の閾値より小さい場合は第2結果を用いることによって音声/雑音フレームを検出する点が、図1の音声強調装置と異なる。
【0114】
図4において、第一コムフィルタ生成部108と第二コムフィルタ生成部109から出力された結果および入力音声パワスペクトルを音声/雑音フレーム検出部301に入力し、音声/雑音フレーム検出部301で計算した音声/雑音フレーム検出結果をコムフィルタ修正部113に出力する。
【0115】
具体的には、まず、以下の式(8)と式(9)を用いて第一コムフィルタと第二コムフィルタに基づく音声と雑音のSN比を計算する。
【0116】
【数8】
Figure 0003960834
【0117】
【数9】
Figure 0003960834
次に、以下の式(10)により当該フレームのSN比(SNR_frame(n))を算出する。
【0118】
【数10】
Figure 0003960834
ここで、Θsnは閾値である。そして、SNR_frame(n)とΘsnの比較により音声/雑音フレームの検出を行う。音声/雑音フレームの検出結果が雑音フレーム(すなわち、SNR_frame(n)<Θsn)であれば、修正コムフィルタCOMB_res(k)の各周波数成分をすべて阻止域にする。
【0119】
このように、本実施の形態の音声強調装置によれば、第一コムフィルタと第二コムフィルタとから音声スペクトルに音声成分が含まれているか否か判定し、この判定が音声成分を含まない結果である場合、前記第一コムフィルタに各周波数成分で信号を減衰する修正をすることにより、突発的に発生するノイズを抑圧することができる。
【0120】
具体的には、本実施の形態の音声強調装置によれば、音声/非音声識別閾値の低い第一コムフィルタの結果に基づいて音声とノイズのSN比を計算することによって、音声と雑音をより検出しやすくなる。一方、音声/非音声識別閾値の高い第二コムフィルタの結果に基づいて音声と雑音のSN比を計算することによって、突発ノイズによる誤検出を少なくすることができる。上記音声/雑音フレーム検出を用いれば、両方の長所を活かすことができ、より確実に音声/雑音フレームを検出し、突発ノイズによる音声/雑音フレームの検出への影響を最小限にすることができる。
【0121】
(実施の形態3)
図5は実施の形態3にかかる音声強調装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
【0122】
図5の音声強調装置400は、局部最小値計算部401を具備し、入力信号のパワスペクトルの極小値から所定の範囲を阻止域とするコムフィルタを作成する点が図1の音声強調装置と異なる。
【0123】
具体的には、図5の音声強調装置400は、所定の周波数領域において、入力音声パワスペクトルの局部最小値を第一コムフィルタの阻止域とし、それ以外の周波数成分を通過域とすることによって第一コムフィルタを生成する点が、図1の音声強調装置と異なる。
【0124】
図5において、入力音声スペクトルを局部最小値計算部401に入力し、局部最小値計算部401の出力は第一音声/非音声識別部106により設定された閾値と共に第一コムフィルタ生成部108に入力し、第一コムフィルタ生成部108の結果をコムフィルタ修正部113に出力する。
【0125】
局部最小値計算部401は入力された音声パワスペクトルに基づいて、所定の周波数領域における局部最小値に位置する周波数成分を第一コムフィルタの通過域と阻止域の変換点の周波数成分とする。具体的には、所定の周波数領域において、以下の手順で第一コムフィルタを生成する。
【0126】
周波数成分毎に分割された音声スペクトルSf(k)(ただし、kは周波数成分を特定する番号)について、隣接する周波数成分Sf(k−1)及びSf(k+1)の両方のパワより小さい場合、第一コムフィルタを阻止域とし、上記条件を満たさない場合、第一コムフィルタを通過域とする。所定の周波数領域以外の周波数領域に対しては、実施の形態1と同じ手段で第一コムフィルタを生成する。
【0127】
このように、本実施の形態の音声強調装置によれば、入力信号のパワスペクトルの極小値から所定の範囲を阻止域とするコムフィルタを作成し、このコムフィルタを用いて入力信号を抑圧することにより、音声とノイズのレベル差が少ない場合でも、音声ピッチ調波構造を抽出して修復して音声歪を低減することができる。
【0128】
具体的には、本実施の形態の音声強調装置によれば、所定の周波数領域(特に、低域の周波数帯域帯域)において、局部最小値を抽出し、局部最小値の周波数成分を第一コムフィルタの阻止域とし、それ以外の周波数成分を通過域とすることによって、音声がノイズに埋もれやすい低SN比の環境下でも音声ピッチ調波構造をより確実に抽出して修復することができ、音声ピッチ調波構造の欠落による音声歪を低減することができる。
【0129】
(実施の形態4)
図6は、実施の形態4にかかる音声強調装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
【0130】
図6の音声強調装置500は、ノイズベース減算部501を具備し、入力信号のパワスペクトルからノイズベースを減算し、減算結果の自己相関関数に基づいて音声ピッチを推定し、推定した音声ピッチで第一コムフィルタに含まれる音声ピッチ調波構造を修正する点が図1の音声強調装置と異なる。
【0131】
具体的には、図6の音声強調装置500は、入力音声のパワスペクトルからノイズベースを減算して自己相関関数を計算し、周波数領域で入力音声のパワスペクトルの自己相関関数に基づいてピッチ推定値を計算する方法を採る点が、図1の音声強調装置と異なる。
【0132】
図6において、入力音声パワスペクトルとノイズベース推定部105により推定されたノイズベースの推定値をノイズベース減算部501に入力し、ノイズベース減算部501は入力音声パワスペクトルからノイズベースの推定値を減算し、その結果をピッチ推定部111に入力する。また、有声/無声判別部110から出力されたピッチ推定を行うかどうかの信号もピッチ推定部111に入力する。ピッチ推定部111で推定されたピッチ周期はピッチ調波構造修復部112に出力する。
【0133】
ピッチ推定部111は入力音声パワスペクトルからノイズベースを減算した結果を用いて自己相関関数を計算し、自己相関関数の最大値に対応する遅延をピッチ周期とする。
【0134】
具体的には、以下の式(11)を用いて入力音声パワスペクトルからノイズベースを減算し、式(12)を用いて自己相関関数を計算する。
【0135】
【数11】
Figure 0003960834
【0136】
【数12】
Figure 0003960834
ここでKMは周波数の上限である。式(12)で計算された自己相関関数の最大値に対応するτをピッチ周期とする。
【0137】
このように、本実施の形態の音声強調装置によれば、入力信号のパワスペクトルからノイズベースを減算し、減算結果の自己相関関数に基づいて音声ピッチを推定し、推定した音声ピッチで第一コムフィルタに含まれる音声ピッチ調波構造を修正することにより、ピッチ調波構造の修復を行うことができ、音声歪みの少ない音声強調を行うことができる。
【0138】
具体的には、本実施の形態の音声強調装置によれば、ピッチ推定部111は入力音声パワスペクトルからノイズベースを減算した結果を用いて自己相関関数を計算することによって、ノイズによるピッチ推定誤差を減少し、より正確にピッチ調波構造の修復を行うことができる。
【0139】
(実施の形態5)
図7は、実施の形態5にかかる音声強調装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
【0140】
図7の音声強調装置600は、入力信号のパワスペクトルからノイズベースを減算した結果に直流成分に所定のパワを持つ擬似ピークを生成し、直流成分を生成したスペクトルの自己相関関数に基づいて音声ピッチを推定し、推定した音声ピッチでコムフィルタの音声ピッチを修正する点が図1の音声強調装置と異なる。
【0141】
具体的には、図7の音声強調装置600は、直流成分生成部601を具備し、自己相関関数を計算するとき、適当なエネルギを持つ擬似パワスペクトルを直流成分として生成し、それに基づいて自己相関関数を計算する点が図1の音声強調装置と異なる。
【0142】
図7において、直流成分生成部601は直流成分に適当なエネルギを持つパワスペクトルを生成し、ピッチ推定部111に入力する。また、有声/無声判別部110によりピッチ推定を行うかどうかの信号もピッチ推定部111に入力する。ピッチ推定部111で推定されたピッチ周期はピッチ調波構造修復部112に出力する。
【0143】
具体的には、第一音声ピッチ調波のパワスペクトルと同じエネルギを持つ擬似パワスペクトルを直流成分として付加した入力スペクトルを用いて自己相関関数を計算し、その結果に基づいてピッチ周期を推定する。
【0144】
このように、本実施の形態の音声強調装置によれば、入力信号のパワスペクトルからノイズベースを減算した結果に直流成分に所定のパワを持つ擬似ピークを生成し、直流成分を生成したスペクトルの自己相関関数に基づいて音声ピッチを推定し、推定した音声ピッチでピッチ調波構造を修復することにより、ピッチ調波の一部がノイズに埋もれても、ピッチ情報を得てピッチ調波構造の修復を行うことができ、音声歪みの少ない音声強調を行うことができる。
【0145】
具体的には、本実施の形態の音声強調装置によれば、入力音声信号は直流成分が含まれなくても、周波数領域において、直流成分はピッチ調波の基点として利用することができる。直流成分に適当なエネルギを持つ擬似パワスペクトルを生成することによって、参照となるピッチ調波は一つが増える。それを利用して自己相関関数を計算すれば、より正確にピッチ推定を行うことができる。特に第一音声ピッチ調波のエネルギが大きく高次ピッチ調波のエネルギが小さい場合、あるいは低周波数領域における雑音レベルが高いときにピッチ推定の誤差を減少するために非常に有効である。
【0146】
なお、実施の形態5は、実施の形態4と組み合せることができる。すなわち、図7の音声強調装置に実施の形態4に記載のノイズベース減算部501を用いれば、実施の形態4の効果も得ることができる。
【0147】
(実施の形態6)
図8は実施の形態6にかかる音声強調装置の構成の例を示すブロック図である。但し、図1または図4と共通する構成については図1または図4と同一番号を付し、詳しい説明を省略する。
【0148】
図8の音声強調装置700は、第三音声/非音声識別部701と、第三コムフィルタ生成部702と、ノイズ特性推定部703とを具備し、入力信号のノイズ分散値を推定し、第三コムフィルタの通過域における周波数成分の個数の移動平均を計算し、その値が大きい場合はノイズの分散値が大きいと判断し、逆にノイズの分散値が小さいと判断し、その結果に基づいて第二コムフィルタを生成するときの音声/非音声識別閾値を設定する点が、図1の音声強調装置と異なる。
【0149】
具体的には、図8の音声強調装置700は、ノイズの特性を推定する第三コムフィルタを周波数領域で生成し、雑音フレームにおいて、第三コムフィルタの通過域の周波数成分の個数を加算し、その移動平均値に基づいて第二音声/非音声の識別閾値を決定する点が、図1の音声強調装置と異なる。
【0150】
第三音声/非音声識別部701は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部105から出力されるノイズベースの値の差が所定の閾値以上である場合、通過域と判定し、それ以外の場合、阻止域と判定する。判定結果を第三コムフィルタ生成部702に出力する。
【0151】
第三コムフィルタ生成部702は、第三音声/非音声識別部701から出力された音声/非音声識別結果に基づいてコムフィルタの通過域/阻止域を生成し、その結果をノイズ特性推定部703に出力する。ノイズ特性推定部703は、音声/雑音フレーム検出部301から検出された雑音フレームにおいて、第三コムフィルタの通過域における周波数成分の個数を加算し、所定のフレーム数に渡って平均値を計算し、その結果を第二音声/非音声識別部107に出力する。具体的には、以下の式(13)を用いてノイズ特性の推定を行う。
【0152】
【数13】
Figure 0003960834
ここで、COMB_var(k)は第三コムフィルタ、NS_var(n)はノイズ特性の推定結果、αVは移動平均係数である。
【0153】
そして、第二音声/非音声識別閾値をNS_var(n)で適応的に制御するようにし、NS_var(n)の値が大きければ、雑音の特性として分散が大きいと判断し、第二音声/非音声識別閾値を高く設定し、逆に、その値が小さければ、雑音の特性として分散が小さいと判断し、第二音声/非音声識別閾値を低く設定する。
【0154】
このように、本実施の形態の音声強調装置によれば、入力信号のノイズレベルの分布を検出し、この分布に基づいて音声スペクトルからコムフィルタを生成する基準を決定し、ノイズの種類に対応して雑音を抑圧することができ、音声歪みの少ない音声強調を行うことができる。
【0155】
具体的には、本実施の形態の音声強調装置によれば、ノイズの特性を推定するための第三コムフィルタを設けることによって、簡単な計算で間接的にノイズの分散値を推定することができ、その結果に基づいて第二音声/非音声識別閾値を設定すれば、第二コムフィルタを生成するとき、分散値の大きいノイズによる偽のピッチ調波の混入を減少することができる。また、分散値の小さいノイズの場合は、より多くの音声ピッチ調波情報を残すことができる。
【0156】
(実施の形態7)
図9は、実施の形態7にかかる音声強調装置の構成の例を示すブロック図である。但し、図1及び図4と共通する構成については図1及び図4と同一番号を付し、詳しい説明を省略する。
【0157】
図9の音声強調装置800は、周波数領域選択部801を具備し、音声ピッチ調波構造の修復を行うとき、第三コムフィルタの結果に基づいて第二コムフィルタの所定の周波数領域における周波数成分をすべて阻止域に変換する点が、図1の音声強調装置と異なる。
【0158】
図9において、ノイズ特性推定部703は、第三コムフィルタ生成部702から出力された結果に基づいてノイズの特性を推定し、その結果を周波数領域選択部801に出力する。周波数領域選択部801は、ノイズ特性の推定結果に基づいて第二コムフィルタを阻止域にする中間周波数領域を決定し、その結果を第二コムフィルタ生成部109に出力する。
【0159】
具体的には、ノイズ特性推定部703により計算されたノイズ特性の移動平均値がある閾値を越えたら、分散値の大きいノイズと判断し、第二コムフィルタの中間周波数領域、例えば1kHz〜2kHz間の周波数成分をすべて阻止域に変換する。
【0160】
このように、本実施の形態の音声強調装置によれば、ノイズ特性の推定結果に基づいて周波数成分を選択し、第二コムフィルタにおいて、選択された周波数領域をすべて阻止域に変換することによって、分散値の大きいノイズにより生成した偽のピッチ調波を減少し、偽のピッチ調波を生じにくい低周波数領域におけるピッチ調波を基準に、実施の形態1に記載したピッチ調波構造の修復を行えば、正確にピッチ調波構造を修復することができる。
【0161】
なお、実施の形態7は、実施の形態6と組み合せることができる。すなわち、図9の音声強調装置に実施の形態6に記載のノイズ特性推定部703を用いれば、実施の形態6の効果も得ることができる。
【0162】
(実施の形態8)
図10は、実施の形態8にかかる音声強調装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
【0163】
図10の音声強調装置900は、SNR推定部901を具備し、音声分離係数計算手段において、ノイズの減衰量をSNR推定値の大きさに応じて調整する点が、図1の音声強調装置と異なる。
【0164】
図10において、SNR推定部901は入力音声パワスペクトルおよびノイズベース推定部105から出力されたノイズベースの推定値に基づいて音声レベルと雑音レベルの比を計算し、その結果を音声分離係数計算部114に出力する。音声分離係数計算部114はSNR推定値の大きさに応じて周波数成分毎のノイズの減衰量を計算し、乗算部115で入力音声スペクトルと乗算する。具体的には、以下の式(14)〜(16)を用いてSNRを計算する。
【0165】
【数14】
Figure 0003960834
【0166】
【数15】
Figure 0003960834
【0167】
【数16】
Figure 0003960834
ここで、Sp(n)は音声レベルの移動平均値を、Ns(n)はノイズの移動平均値を、αSは移動平均係数を示す。
【0168】
SNRの値に応じて、修正コムフィルタの通過域と阻止域において、音声分離係数(ノイズの減衰量)は以下の式(17)を用いて計算する。
【0169】
【数17】
Figure 0003960834
ここで、γ(n)はノイズベースを減算する量を示す係数で、gc(n)はノイズ減衰の度合い係数である。異なるSN比の環境に対応できるように、γ(n)とgc(n)の値をSNRの推定値より自動的に調整できるようにする。例えば、γ(n)の大きさはSNR(n)の値に正比例し、gc(n)の大きさはSNR(n)の値に反比例するように自動的に調整する。
【0170】
このように、本実施の形態の音声分離装置によれば、修正コムフィルタの通過域と阻止域において、入力音声パワスペクトルからノイズベースを減算する量とノイズ減衰の度合いをSNR推定値の大きさに応じて調整することによって、異なるSNRの環境下でも適切なノイズ減衰を行い、音声歪と残留ノイズの少ない音声強調を実現できる。
【0171】
(実施の形態9)
図11は、実施の形態9にかかる音声強調装置の構成の例を示すブロック図である。但し、図1及び図10と共通する構成については図1及び図10と同一番号を付し、詳しい説明を省略する。
【0172】
図11の音声強調装置1000は、ノイズベース減算部1001と、重み係数計算部1002とを具備し、音声成分のレベルを入力信号のパワスペクトルの移動平均値より算出し、雑音成分のレベルをノイズベースの推定値に各周波数成分別に重み計数を乗算した値より算出し、前記音声成分のレベルと前記雑音成分のレベルの比から信号対雑音比を算出する点が、図1の音声強調装置と異なる。
【0173】
図11において、ノイズベース推定部105はノイズベースを推定し、その結果をノイズベース減算部1001と重み係数計算部1002に出力する。ノイズベース減算部1001は入力音声パワスペクトルの移動平均値を計算し、移動平均値からノイズベースの推定値を減算してSNR推定部901に出力する。重み係数計算部1002はノイズベース推定値の各周波数成分に重み係数を計算し、その結果をSNR推定部901に出力する。SNR推定部901は音声レベルと雑音レベルの比を計算し、その結果を音声分離係数計算部114に出力する。具体的には、以下の式(18)〜式(20)を用いてSNRを計算する。
【0174】
【数18】
Figure 0003960834
【0175】
【数19】
Figure 0003960834
【0176】
【数20】
Figure 0003960834
ここで、βはノイズベースを減算する量を示す係数で、δ(k)は重み係数である。重み係数δ(k)は音声の特性を利用して設定する。例えば、中間周波数領域における音声スペクトルのエネルギが小さいが音声の明瞭性に与える影響が大きいので、中間周波数領域におけるノイズに対して重み係数の値を増やして雑音レベルを計算すれば、異なるノイズに対して適切な減衰を行うことができる。
【0177】
このように、本実施の形態の音声強調装置によれば、入力音声パワスペクトルの移動平均値からノイズベースを減算して音声レベルの計算することにより、ノイズの影響を減少し、低SNRの環境下でも正確な音声レベルを計算することができる。また、ノイズベース推定値の各周波数成分に重み係数を乗算して計算することにより、異なるノイズに対して適切な減衰を行い、音声歪を低減することができる。
【0178】
なお、実施の形態9は、実施の形態8と組み合せることができる。すなわち、図11の音声強調装置に実施の形態8に記載のSNR推定部901を用いれば、実施の形態8の効果も得ることができる。
【0179】
(実施の形態10)
図12は、実施の形態10にかかる音声強調装置の構成の例を示すブロック図である。但し、図1、図10及び図11と共通する構成については図1、図10及び図11と同一番号を付し、詳しい説明を省略する。
【0180】
図12の音声強調装置1100は、SNRの変動を抑えるSNR変動抑圧部1101を具備し、SNR変動抑圧部1101は、SNR推定値とSNR推定値の長期移動平均値の結果に基づいてSNRの変動を抑圧する点が、図1の音声強調装置と異なる。
【0181】
図12において、SNR推定部901は音声レベルと雑音レベルの比を計算し、その結果をSNR変動抑圧部1101に出力する。SNR変動抑圧部1101はSNR推定値に基づいてSNRの長期移動平均値を計算し、その結果とSNR推定値の偏差を計算し、SNR推定値の長期移動平均値と前記偏差の一部を加算してSNR変動抑圧結果として用いる。そして、変動が抑圧されたSNR推定値を音声分離係数計算部114に出力する。
【0182】
具体的には、以下の式(21)を用いてSNRの長期移動平均値を計算し、式(22)を用いてSNRの変動を抑圧するSNRの推定値を計算する。
【0183】
【数21】
Figure 0003960834
【0184】
【数22】
Figure 0003960834
ここで、αrは移動平均係数で、μは加算する偏差の大きさを決める係数である。
【0185】
このように、本実施の形態の音声強調装置によれば、SNR推定値とSNR推定値の長期移動平均値の偏差を計算し、SNR推定値の長期移動平均値と前記偏差の一部を加算してSNR推定値として用いることによって、SNRの変動を有効に抑制し、安定的にSNRの大きさに応じてノイズ減衰のレベル調整を行うことができる。
【0186】
なお、実施の形態10は、実施の形態8あるいは実施の形態9と組み合せることができる。すなわち、図12の音声強調装置に実施の形態8に記載のSNR推定部901を用いれば、実施の形態8の効果も得ることができ、図12の音声強調装置に実施の形態9に記載のノイズベース減算と重み係数計算手段を用いてSNRの推定を行えば、実施の形態9の効果も得ることができる。
【0187】
(実施の形態11)
図13は、実施の形態11にかかる音声強調装置の構成の例を示すブロック図である。但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
【0188】
図13の音声強調装置1200は、更新速度の速いノイズベース更新部1201を具備し、音声区間においてもノイズベースの追跡を行うことができる点が、図1の音声強調装置と異なる。
【0189】
図13において、ノイズベース更新部1201は、入力音声パワスペクトルに基づいて更新速度の速い移動平均係数を用いてノイズベースを推定し、その結果をノイズベース推定部105に出力する。ノイズベース推定部105は、更新速度の遅い移動平均係数を用いてノイズベースを推定し、その結果を第一音声/非音声識別部106および第二音声/非音声識別部107に出力する。
【0190】
具体的には、以下の式(23)と式(24)を用いて更新速度の速いノイズベースと更新速度の遅いノイズベースを推定する。
【0191】
【数23】
Figure 0003960834
【0192】
【数24】
Figure 0003960834
ここで、αfとαsはそれぞれ速い更新係数と遅い更新係数であり、Θfastは音声と雑音を識別する閾値である。
【0193】
このように、本実施の形態の音声強調装置によれば、更新速度の速い移動平均係数を用いてノイズベースの推定を行うことによって、音声区間においても雑音レベルの急激な変動を追跡することができる。また、更新速度の遅いノイズベースの更新は、更新速度の速いノイズベースに基づいて行うことによって、正確にノイズベースの推定を行うことができ、雑音レベルの急激な変動によるノイズベース更新の停止を防止することができる。
【0194】
(実施の形態12)
図14は、本発明の実施の形態12に係る雑音分離装置の構成を示すブロック図である。本実施の形態の雑音分離装置1300は、雑音を含む音声信号から雑音信号を分離、抽出するものである。
【0195】
図14において、雑音分離装置1300は、時間分割部101と、窓掛け部102と、FFT部103と、周波数分割部104と、ノイズベース推定部105と、音声/非音声識別部1301と、雑音コムフィルタ生成部1302と、実数虚数分離部1303と、雑音分離係数計算部1304と、乗算部1305と、雑音周波数合成部1306と、IFFT部1307と、から主に構成される。
【0196】
ここで、但し、図1と共通する構成については図1と同一番号を付し、詳しい説明を省略する。
【0197】
音声/非音声識別部1301は、周波数分割部104から出力された音声スペクトル信号とノイズベース推定部105から出力されたノイズベースの推定値の差が所定の閾値以上である場合、音声成分を含む有音部分と判定し、それ以外の場合、音声成分を含まない雑音のみの無音部分であると判定し、その結果を雑音コムフィルタ生成部1302に出力する。雑音コムフィルタ生成部1302は、音声/非音声識別部1301の結果に基づいて雑音分離コムフィルタを生成して、このコムフィルタを実数虚数分離部1303に出力する。
【0198】
具体的には、雑音コムフィルタ生成部1302は、音声情報を抑制するように音声/非音声識別の閾値を低く設定して以下の式(25)を用いて雑音分離コムフィルタを生成する。
【0199】
【数25】
Figure 0003960834
ここでΘnosは雑音分離用閾値である。
【0200】
実数虚数分離部1303は、入力音声スペクトルの実数部と虚数部を分離し、その結果を雑音分離係数計算部1304に出力する。雑音分離係数計算部1304は、雑音分離コムフィルタの通過域と阻止域に対して、周波数成分毎に別々の分離係数を計算し、その結果を乗算部1305に出力する。
【0201】
具体的には、以下の式(26)と式(27)を用いて、雑音分離コムフィルタの阻止域において、雑音分離係数は1とし、雑音分離コムフィルタの通過域において、雑音分離係数は入力音声スペクトルの実数部と虚数部に対して、別々の乱数とノイズベースの推定値を乗算する。
【0202】
【数26】
Figure 0003960834
【0203】
【数27】
Figure 0003960834
ここでrdre(i)は、実数部に用いられるランダム関数で均一分布の乱数により構成され、rdim(i)は、虚数部に用いられるランダム関数で均一分布の乱数により構成される。
【0204】
乗算部1305は、周波数分割部104から出力された音声スペクトルに雑音分離係数計算部1304から出力された分離係数を周波数成分毎に乗算する。そして、乗算の結果得られた雑音スペクトルを雑音周波数合成部1306に出力する。
【0205】
雑音周波数合成部1306は、乗算部1305から出力された周波数成分のスペクトルを所定の処理時間単位で、周波数領域で連続する雑音スペクトルに合成してIFFT部1307に出力する。
【0206】
IFFT部1307は、雑音周波数合成部1306から出力された雑音スペクトルにIFFT(Inverse Fast Fourier Transform)を行って雑音信号に変換した信号を出力する。
【0207】
このように、本実施の形態の雑音分離装置によれば、雑音専用コムフィルタを生成することにより、雑音の特性を最大限に抽出することができる。また、雑音分離コムフィルタの阻止域において、雑音成分を減衰せず、雑音分離コムフィルタの通過域において、入力音声スペクトルの実数部と虚数部に対して、別々の乱数とノイズベースの推定値を乗算することによって、雑音成分の実数部と虚数部の振幅と位相はすべてランダム化され、良好な雑音分離特性を得ることができる。
【0208】
(実施の形態13)
図15は、実施の形態13に係る雑音分離装置の構成の例を示すブロック図である。但し、図1及び図14と共通する構成については図1及び図14と同一番号を付し、詳しい説明を省略する。
【0209】
図15の雑音分離装置は、雑音成分保存部1401を具備し、雑音分離用コムフィルタの阻止域における入力音声のスペクトル成分をメモリに保存し、その値を雑音分離用コムフィルタの通過域に用いる点が、図14と異なる。
【0210】
図15において、雑音成分保存部1401は、雑音コムフィルタ生成部1302から出力された雑音コムフィルタの阻止域において入力音声スペクトルを保存し、雑音コムフィルタの通過域において雑音成分保存結果を雑音分離係数計算部1304に出力する。
【0211】
具体的には、例えば所定数のメモリを用意して雑音コムフィルタの阻止域における入力音声スペクトルを低周波数領域から高周波数領域まで順次に保存し、雑音コムフィルタの通過域において同じ低周波数領域から高周波数領域までの順で、最新の保存されたデータかつもっとも近い周波数成分を有するものを選択して雑音コムフィルタの通過域における入力音声スペクトルとして用いる。
【0212】
このように、本実施の形態の雑音分離装置によれば、雑音分離用コムフィルタの阻止域における入力音声のスペクトル成分をメモリに保存し、その値を雑音分離用コムフィルタの通過域に用いることにより、実際の雑音と特性の近い擬似雑音を再構成することができ、良好な雑音分離特性を得ることができる。
【0213】
なお、実施の形態13は、実施の形態12と組み合せることができる。すなわち、図15の雑音分離装置に実施の形態12に雑音分離係数計算部1304を用いれば、実施の形態12の効果も得ることができる。
【0214】
なお、本発明は上記実施の形態に限定されず、複数の実施の形態を組み合わせる、または種々変更して実施することが可能である。例えば、上記実施の形態では、音声強調装置または雑音抑圧装置として行う場合について説明しているが、これに限られるものではなく、この音声強調方法または雑音抑圧方法をソフトウェアとして行うことも可能である。
【0215】
例えば、上記音声強調方法または雑音抑圧方法を実行するプログラムを予めROM(Read Only Memory)に格納しておき、そのプログラムをCPU(Central Processor Unit)によって動作させるようにしても良い。
【0216】
また、上記音声強調方法または雑音抑圧方法を実行するプログラムをコンピュータで読み取り可能な記憶媒体に格納し、記憶媒体に格納されたプログラムをコンピュータのRAM(Random Access memory)に記録して、コンピュータをそのプログラムにしたがって動作させるようにしても良い。
【0217】
また、上記音声強調または雑音抑圧を行うプログラムをサーバに格納し、サーバに格納されたプログラムをクライアントに転送して、クライアント上でそのプログラムを実行させてもよい。このような場合においても、上記実施の形態と同様の作用及び効果を呈する。
【0218】
また、上記いずれかの実施の形態に係る音声強調装置または雑音抑圧装置は、無線通信装置、通信端末、基地局装置等に搭載することもできる。この結果、通信時の音声を音声強調または雑音抽出できる。
【0219】
【発明の効果】
以上説明したように、本発明の音声強調装置及び音声強調方法によれば、音声信号の周波数分割スペクトルに基づいて音声抑圧に用いるコムフィルタより多くの雑音のピークを取り除いたコムフィルタを生成し、このコムフィルタを用いて音声信号のピッチ情報を取得し、コムフィルタの音声ピッチを補うことにより、音声の歪みが少なくかつ雑音を十分に除去することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1に係る音声強調装置の構成を示すブロック図
【図2】上記実施の形態にかかる音声強調装置で作成されるコムフィルタの例を示す図
【図3】上記実施の形態にかかる音声処理装置におけるコムフィルタの修復の例を示す図
【図4】本発明の実施の形態2に係る音声強調装置の構成を示すブロック図
【図5】本発明の実施の形態3に係る音声強調装置の構成を示すブロック図
【図6】本発明の実施の形態4に係る音声強調装置の構成を示すブロック図
【図7】本発明の実施の形態5に係る音声強調装置の構成を示すブロック図
【図8】本発明の実施の形態6に係る音声強調装置の構成を示すブロック図
【図9】本発明の実施の形態7に係る音声強調装置の構成を示すブロック図
【図10】本発明の実施の形態8に係る音声強調装置の構成を示すブロック図
【図11】本発明の実施の形態9に係る音声強調装置の構成を示すブロック図
【図12】本発明の実施の形態10に係る音声強調装置の構成を示すブロック図
【図13】本発明の実施の形態11に係る音声強調装置の構成を示すブロック図
【図14】本発明の実施の形態12に係る雑音分離装置の構成を示すブロック図
【図15】本発明の実施の形態13に係る雑音分離装置の構成を示すブロック図
【符号の説明】
103 FFT部
104 周波数分割部
105 ノイズベース推定部
106 第一音声/非音声識別部
107 第二音声/非音声識別部
108 第一コムフィルタ生成部
109 第二コムフィルタ生成部
110 有音/無声判別部
111 ピッチ推定部
112 ピッチ調波構造修復部
113 コムフィルタ修正部
114 音声分離係数計算部
115、1305 乗算部
116 音声周波数合成部
117 IFFT部
301 音声/雑音フレーム検出部
401 局部最小値計算部
501、1001 ノイズベース減算部
601 直流成分生成部
701 第3音声/非音声識別部
702 第三コムフィルタ生成部
703 ノイズ特性推定部
801 周波数領域選択部
901 SNR推定部
1002 重み係数計算部
1101 SNR変動抑圧部
1201 ノイズベース更新部
1301 音声/非音声識別部
1302 雑音コムフィルタ生成部
1303 実数虚数分離部
1304 雑音分離係数計算部
1306 雑音周波数合成部
1401 雑音成分保存部

Claims (16)

  1. 入力信号のスペクトルを所定の周波数単位で分割した周波数分割スペクトルを出力する周波数分割手段と、周波数分割スペクトルに基づいて無音と判定した周波数領域の信号を減衰する第一コムフィルタを作成する第一コムフィルタ作成手段と、周波数分割スペクトルに基づいて第一コムフィルタより多くの雑音のピークを取り除いたフィルタである第二コムフィルタを作成する第二コムフィルタ作成手段と、前記周波数分割スペクトルから音声ピッチを推定するピッチ推定手段と、前記第二コムフィルタと前記音声ピッチに基づいてピッチ調波構造を表すピッチ調波修復コムフィルタを作成するピッチ調波構造修復手段と、前記ピッチ調波修復コムフィルタの通過域と重複する第一コムフィルタの通過域のみを通過域とするように前記第一コムフィルタを修正するコムフィルタ修正手段と、前記コムフィルタ修正手段において修正された第一コムフィルタを用いて前記周波数分割スペクトルのノイズを抑圧する抑圧手段と、ノイズを抑圧した前記周波数分割スペクトルを周波数領域で連続したスペクトル信号に合成する音声周波数合成手段と、を具備することを特徴とする音声強調装置。
  2. 第一コムフィルタと第二コムフィルタとから音声スペクトルに音声成分が含まれているか否か判定する音声/雑音フレーム検出手段を具備し、コムフィルタ修正手段は、前記音声/雑音フレーム検出手段の判定が音声成分を含まない結果である場合、前記第一コムフィルタに各周波数成分で信号を減衰する修正をすることを特徴とする請求項1に記載の音声強調装置。
  3. 前記音声/雑音フレーム検出手段は、第一コムフィルタの通過域における入力信号のパワスペクトルの和と第一コムフィルタの阻止域における入力信号のパワスペクトルの和の比を第一結果とし、第二コムフィルタの通過域における入力信号のパワスペクトルの和と第二コムフィルタの阻止域における入力信号のパワスペクトルの和の比を第二結果とし、第一結果と第二結果を加算した結果が所定の閾値より大きい場合、前記加算結果を用い、前記加算結果が所定の閾値以下である場合、第二結果を用いて音声スペクトルに音声が含まれるか否か判定することを特徴とする請求項2に記載の音声強調装置。
  4. 第一コムフィルタ生成手段は、入力信号のパワスペクトルの極小値から所定の範囲を阻止域とする第一コムフィルタを作成することを特徴とする請求項1から請求項3のいずれかに記載の音声強調装置。
  5. 入力信号のパワスペクトルからノイズベースを減算し、減算結果の自己相関関数を用いて音声ピッチを推定するピッチ推定手段を具備し、コムフィルタ修正手段は、前記ピッチ推定手段において推定した音声ピッチで前記第一コムフィルタに含まれる音声ピッチ調波構造を修正することを特徴とする請求項1から請求項4のいずれかに記載の音声強調装置。
  6. 入力信号のパワスペクトルからノイズベースを減算した結果に、直流成分に所定のパワを持つ擬似ピークを生成する直流成分生成手段を具備し、ピッチ推定手段は、前記直流成分生成手段において擬似ピークを生成した前記パワスペクトルから音声ピッチを推定することを特徴とする請求項5に記載の音声強調装置。
  7. 入力信号のパワスペクトルからノイズベースを減算した結果において、パワが所定の閾値以上である周波数領域の数の移動平均を算出するノイズ特性推定手段を具備し、第二コムフィルタ作成手段は、前記移動平均から入力信号に音声が含まれるか否か判断した結果より第二コムフィルタを作成することを特徴とする請求項1から請求項6のいずれかに記載の音声強調装置。
  8. 入力信号のパワスペクトルからノイズベースを減算した結果において、パワが所定の閾値以上である周波数領域の数の移動平均を算出するノイズ特性推定手段を具備し、第二コムフィルタ作成手段は、ノイズ特性推定手段において算出された移動平均が所定の値以下である場合、所定の周波数領域を阻止域とする第二コムフィルタを作成することを特徴とする請求項1から請求項7のいずれかに記載の音声強調装置。
  9. 入力信号のパワスペクトルとノイズベースから信号対雑音比を算出するSNR推定手段を具備し、抑圧手段は、前記信号対雑音比から周波数分割スペクトルのノイズの抑圧量を決定することを特徴とする請求項1から請求項8のいずれかに記載の音声強調装置。
  10. SNR推定手段は、音声成分のレベルを入力信号のパワスペクトルの移動平均値より算出し、雑音成分のレベルをノイズベースの推定値に各周波数成分別に重み計数を乗算した値より算出し、前記音声成分のレベルと前記雑音成分のレベルの比から信号対雑音比を算出することを特徴とする請求項9に記載の音声強調装置。
  11. 信号対雑音比と前記信号対雑音比の移動平均値との偏差を算出し、前記偏差を用いて前記信号対雑音比の移動平均値を更新する変動抑圧手段を具備し、抑圧手段は、変動抑圧手段において更新された前記信号対雑音比の移動平均値から周波数分割スペクトルのノイズの抑圧量を決定することを特徴とする請求項9または請求項10に記載の音声強調装置。
  12. 所定の時間単位で更新速度の異なる二つのノイズベースの移動平均値を算出し、第一移動平均値より更新速度の速い第二移動平均値で第一移動平均値の更新条件を変更し、第一移動平均値をノイズベース推定値として出力するノイズベース更新手段を具備することを特徴とする請求項1から請求項11のいずれかに記載の音声強調装置。
  13. 請求項1から請求項12のいずれかに記載の雑音抑圧装置を具備することを特徴とする無線通信装置。
  14. 入力信号のスペクトルを所定の周波数単位で分割した周波数分割スペクトルを出力する周波数分割ステップと、周波数分割スペクトルに基づいて無音と判定した周波数領域の信号を減衰する第一コムフィルタを作成する第一コムフィルタ作成ステップと、周波数分割スペクトルに基づいて第一コムフィルタより多くの雑音のピークを取り除いたフィルタである第二コムフィルタを作成する第二コムフィルタ作成ステップと、前記周波数分割スペクトルから音声ピッチを推定するピッチ推定ステップと、前記第二コムフィルタと前記音声ピッチに基づいてピッチ調波構造を表すピッチ調波修復コムフィルタを作成するピッチ調波構造修復ステップと、前記ピッチ調波修復コムフィルタの通過域と重複する第一コムフィルタの通過域のみを通過域とするように前記第一コムフィルタを修正するコムフィルタ修正ステップと、前記修正された第一コムフィルタを用いて前記周波数分割スペクトルのノイズを抑圧する抑圧ステップと、ノイズを抑圧した前記周波数分割スペクトルを周波数領域で連続したスペクトル信号に合成する音声周波数合成ステップと、を具備することを特徴とする音声強調方法
  15. 入力信号のスペクトルを所定の周波数単位で分割した周波数分割スペクトルを出力する周波数分割ステップと、周波数分割スペクトルに基づいて無音と判定した周波数領域の信号を減衰する第一コムフィルタを作成する第一コムフィルタ作成ステップと、周波数分割スペクトルに基づいて第一コムフィルタより多くの雑音のピークを取り除いたフィルタである第二コムフィルタを作成する第二コムフィルタ作成ステップと、前記周波数分割スペクトルから音声ピッチを推定するピッチ推定ステップと、前記第二コムフィルタと前記音声ピッチに基づいてピッチ調波構造を表すピッチ調波修復コムフィルタを作成するピッチ調波構造修復ステップと、前記ピッチ調波修復コムフィルタの通過域と重複する第一コムフィルタの通過域のみを通過域とするように前記第一コムフィルタを修正するコムフィルタ修正ステップと、前記修正された第一コムフィルタを用いて前記周波数分割スペクトルのノイズを抑圧する抑圧ステップと、ノイズを抑圧した前記周波数分割スペクトルを周波数領域で連続したスペクトル信号に合成する音声周波数合成ステップと、をコンピュータに実行させることを特徴とする音声強調プログラム。
  16. 入力信号のスペクトルを所定の周波数単位で分割した周波数分割スペクトルを出力する周波数分割ステップと、周波数分割スペクトルに基づいて無音と判定した周波数領域の信号を減衰する第一コムフィルタを作成する第一コムフィルタ作成ステップと、周波数分割スペクトルに基づいて第一コムフィルタより多くの雑音のピークを取り除いたフィルタである第二コムフィルタを作成する第二コムフィルタ作成ステップと、前記周波数分割スペクトルから音声ピッチを推定するピッチ推定ステップと、前記第二コムフィルタと前記音声ピッチに基づいてピッチ調波構造を表すピッチ調波修復コムフィルタを作成するピッチ調波構造修復ステップと、前記ピッチ調波修復コムフィルタの通過域と重複する第一コムフィルタの通過域のみを通過域とするように前記第一コムフィルタを修正するコムフィルタ修正ステップと、前記修正された第一コムフィルタを用いて前記周波数分割スペクトルのノイズを抑圧する抑圧ステップと、ノイズを抑圧した前記周波数分割スペクトルを周波数領域で連続したスペクトル信号に合成する音声周波数合成ステップと、をコンピュータに実行させることを特徴とする音声強調プログラムを記憶し、要求に応じて前記音声強調プログラムを出力することを特徴とするサーバ装置。
JP2002077327A 2002-03-19 2002-03-19 音声強調装置及び音声強調方法 Expired - Lifetime JP3960834B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002077327A JP3960834B2 (ja) 2002-03-19 2002-03-19 音声強調装置及び音声強調方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002077327A JP3960834B2 (ja) 2002-03-19 2002-03-19 音声強調装置及び音声強調方法

Publications (2)

Publication Number Publication Date
JP2003280696A JP2003280696A (ja) 2003-10-02
JP3960834B2 true JP3960834B2 (ja) 2007-08-15

Family

ID=29227943

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002077327A Expired - Lifetime JP3960834B2 (ja) 2002-03-19 2002-03-19 音声強調装置及び音声強調方法

Country Status (1)

Country Link
JP (1) JP3960834B2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005266797A (ja) * 2004-02-20 2005-09-29 Sony Corp 音源信号分離装置及び方法、並びにピッチ検出装置及び方法
EP1755111B1 (en) 2004-02-20 2008-04-30 Sony Corporation Method and device for detecting pitch
JPWO2005124739A1 (ja) * 2004-06-18 2008-04-17 松下電器産業株式会社 雑音抑圧装置および雑音抑圧方法
US20070299658A1 (en) * 2004-07-13 2007-12-27 Matsushita Electric Industrial Co., Ltd. Pitch Frequency Estimation Device, and Pich Frequency Estimation Method
WO2006032760A1 (fr) * 2004-09-16 2006-03-30 France Telecom Procede de traitement d'un signal sonore bruite et dispositif pour la mise en œuvre du procede
JP4519169B2 (ja) * 2005-02-02 2010-08-04 富士通株式会社 信号処理方法および信号処理装置
KR101248353B1 (ko) * 2005-06-09 2013-04-02 가부시키가이샤 에이.지.아이 피치 주파수를 검출하는 음성 해석 장치, 음성 해석 방법,및 음성 해석 프로그램
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
JPWO2008001779A1 (ja) * 2006-06-27 2009-11-26 国立大学法人豊橋技術科学大学 基本周波数推定法および音響信号推定システム
JP5124768B2 (ja) * 2006-09-27 2013-01-23 国立大学法人九州大学 放送装置
WO2008081920A1 (ja) * 2007-01-05 2008-07-10 Kyushu University, National University Corporation 音声強調処理装置
JP5046233B2 (ja) * 2007-01-05 2012-10-10 国立大学法人九州大学 音声強調処理装置
CN101465122A (zh) * 2007-12-20 2009-06-24 株式会社东芝 语音的频谱波峰的检测以及语音识别方法和系统
JP4869420B2 (ja) * 2010-03-25 2012-02-08 株式会社東芝 音情報判定装置、及び音情報判定方法
US8798985B2 (en) * 2010-06-03 2014-08-05 Electronics And Telecommunications Research Institute Interpretation terminals and method for interpretation through communication between interpretation terminals
JP6143887B2 (ja) 2013-12-26 2017-06-07 株式会社東芝 方法、電子機器およびプログラム
JP7461192B2 (ja) * 2020-03-27 2024-04-03 株式会社トランストロン 基本周波数推定装置、アクティブノイズコントロール装置、基本周波数の推定方法及び基本周波数の推定プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01257224A (ja) * 1988-04-06 1989-10-13 Ono Sokki Co Ltd 時系列信号の処理方法
JP2588004B2 (ja) * 1988-09-19 1997-03-05 日本電信電話株式会社 後処理フィルタ
JP2751262B2 (ja) * 1988-11-19 1998-05-18 ソニー株式会社 信号記録方法及び装置
JP2830276B2 (ja) * 1990-01-18 1998-12-02 松下電器産業株式会社 信号処理装置
JPH04230796A (ja) * 1990-05-28 1992-08-19 Matsushita Electric Ind Co Ltd 音声信号処理装置
JP3916834B2 (ja) * 2000-03-06 2007-05-23 独立行政法人科学技術振興機構 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法

Also Published As

Publication number Publication date
JP2003280696A (ja) 2003-10-02

Similar Documents

Publication Publication Date Title
US7286980B2 (en) Speech processing apparatus and method for enhancing speech information and suppressing noise in spectral divisions of a speech signal
JP3960834B2 (ja) 音声強調装置及び音声強調方法
JP3591068B2 (ja) 音声信号の雑音低減方法
AU2009278263B2 (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
EP2546831B1 (en) Noise suppression device
JP3574123B2 (ja) 雑音抑圧装置
US8930184B2 (en) Signal bandwidth extending apparatus
JP4173641B2 (ja) 音声活動に基づくゲイン制限による音声強化
US20080140395A1 (en) Background noise reduction in sinusoidal based speech coding systems
US20080140396A1 (en) Model-based signal enhancement system
WO2005124739A1 (ja) 雑音抑圧装置および雑音抑圧方法
US20130070939A1 (en) Signal processing apparatus
JP2005165021A (ja) 雑音低減装置、および低減方法
US20140177853A1 (en) Sound processing device, sound processing method, and program
JPWO2010046954A1 (ja) 雑音抑圧装置および音声復号化装置
JP2010102199A (ja) 雑音抑圧装置及び雑音抑圧方法
JP4445460B2 (ja) 音声処理装置及び音声処理方法
JP2006126859A5 (ja)
JP4006770B2 (ja) ノイズ推定装置、ノイズ削減装置、ノイズ推定方法、及びノイズ削減方法
JPH11265199A (ja) 送話器
JP5840087B2 (ja) 音声信号復元装置および音声信号復元方法
JP2006201622A (ja) 帯域分割型雑音抑圧装置及び帯域分割型雑音抑圧方法
JP4173525B2 (ja) 雑音抑圧装置及び雑音抑圧方法
EP1635331A1 (en) Method for estimating a signal to noise ratio
JP2002175099A (ja) 雑音抑制方法および雑音抑制装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070515

R150 Certificate of patent or registration of utility model

Ref document number: 3960834

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110525

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110525

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120525

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120525

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130525

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130525

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term