JP5153886B2

JP5153886B2 - 雑音抑圧装置および音声復号化装置

Info

Publication number: JP5153886B2
Application number: JP2010534608A
Authority: JP
Inventors: 訓古田; 裕久田崎
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2008-10-24
Filing date: 2008-10-24
Publication date: 2013-02-27
Anticipated expiration: 2028-10-24
Also published as: CN102150206A; WO2010046954A1; EP2346032A1; JPWO2010046954A1; EP2346032A4; EP2346032B1; US20110125490A1; CN102150206B

Description

この発明は、音声・音響信号に混入した雑音を抑圧する雑音抑圧装置および雑音抑圧装置を備えた音声復号化装置に関するものである。

雑音が混入した入力信号から目的外信号である雑音を抑圧することで、目的信号である音声信号などを強調する雑音抑圧処理の代表的な手法として、例えば、ＳＳ（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ）法がある。ＳＳ法は、振幅スペクトルから別途推定した平均的な雑音スペクトルを減算することにより雑音抑圧を行うものである（例えば、非特許文献１参照）。

ＳＳ法などの雑音抑圧処理を行った場合、雑音スペクトルの推定誤差が雑音抑圧処理後の信号に歪として残留し、これが処理前の信号と大きく異なる特性を持つ上、耳障りな雑音（人工的な雑音、ミュージカルトーンとも呼ばれる）として出現するので、出力信号の主観品質を大きく劣化させることがあった。

また、音声および楽音などの音声音響符号化方式の圧縮率を高めていくと、符号化時の量子化雑音および符号モデル化に伴うスペクトル歪が次第に増大し、出力信号の主観品質が大きく劣化してしまった。とりわけ、音声音響信号に騒音が混入する場合および入力信号に騒音だけが存在する場合には、符号化方式が利用している音声モデルと、背景騒音のモデルが大きく異なるために、その劣化は顕著なものとなっていた。なお、背景騒音区間でのこれらの劣化感は「シュルシュル」といった水流音のようであり、ウォーターフローノイズ（ＷａｔｅｒＦｌｏｗＮｏｉｓｅ）と称される場合がある。

上記のような主観的な劣化感を抑制する従来の方法としては、例えば、特許文献１に開示されているものがある。
特許文献１の音信号加工方法は、雑音抑圧処理や、低ビットレート音声符号化処理によって発生する歪感を聴感的に軽減することを目的としており、入力信号と、入力信号を平滑化した加工信号を、音声・雑音状態判別手段によって求められた信号中の雑音比率の推定値に基づいて重み付け加算を行うことで、背景騒音など劣化成分が多く含まれる区間を中心に主観品質を改善するようにしたものである。

ＳｔｅｖｅｎＦ．Ｂｏｌｌ"ＳｕｐｐｒｅｓｓｉｏｎｏｆＡｃｏｕｓｔｉｃｎｏｉｓｅｉｎｓｐｅｅｃｈｕｓｉｎｇｓｐｅｃｔｒａｌｓｕｂｔｒａｃｔｉｏｎ"，ＩＥＥＥＴｒａｎｓ．ＡＳＳＰ，Ｖｏｌ．ＡＳＳＰ−２７，Ｎｏ．２，Ａｐｒｉｌ１９７９特開２００４−２７２２９２号公報（第１４頁〜第１６頁、図４）

従来の雑音抑圧装置は以上のように構成されているので、入力信号と加工信号の重み付け加算制御が音声・雑音状態判別手段に依存しており、音声区間検出に失敗して音声を含む区間で加工を行うと、エコー感（反響感）や雑音感が発生して著しく品質劣化する課題があった。

なお従来の雑音抑圧装置では、区間判定誤りの影響を軽減するために、連続量の区間判定評価値を用いる改良策も挙げられているが、評価値自体は時間領域における分析結果に基づくものであって、周波数領域に対しては一定値である。そのため、例えば、低域に雑音パワーが集中するような自動車走行騒音が混入した音声信号では、低域の騒音の劣化感を抑制するように評価値の閾値を調整すると、相対的に騒音信号よりパワーが大きい高域の音声信号を誤って加工してしまって品質劣化し、逆に、高域の音声信号の歪が発現しないような調整をすると、改善効果がほとんど得られない課題があった。

また、従来の雑音抑圧装置では、重み付け加算をスペクトル領域で周波数成分毎に制御しているものの、制御要因が入力信号の振幅スペクトル成分の大きさだけであって、周波数成分毎に音声か雑音かどうか判定しておらず、結局のところ、入力信号が音声（あるいは楽音）かどうかは時間領域における区間判定評価値に大きく依存しており、その区間判定を誤れば品質劣化する状況は変わらない。

この発明は、かかる課題を解決するためになされたもので、聴感上好ましい雑音抑圧が可能かつ高雑音下でも品質劣化の少ない雑音抑圧装置およびこの雑音抑圧装置を備えた高品質な音声復号化装置を提供することを目的とする。

この発明に係る雑音抑圧装置は、入力信号を周波数成分である入力信号スペクトルに変換する時間・周波数変換部と、入力信号から推定雑音スペクトルを推定する雑音スペクトル推定部と、推定雑音スペクトルに基づいて入力信号スペクトルの雑音抑圧を行い、雑音抑圧スペクトルを生成する雑音スペクトル抑圧部と、雑音抑圧スペクトルと推定雑音スペクトルに基づく比に応じて雑音抑圧スペクトルを変形すると共に平滑化した加工スペクトルを生成する信号変形部と、雑音抑圧スペクトルに加工スペクトルを加算して、当該雑音抑圧スペクトルに含まれる劣化成分を抑圧する信号加算部とを備えるようにしたものである。

このことによって、区間判定誤りによるエコー感および雑音感の発生がなく、スペクトル成分毎に主観品質を改善できる効果がある。

また、この発明に係る音声復号化装置は、所定の符号データを復号化して復号信号を生成する音声復号部と、復号信号を周波数成分である復号信号スペクトルに変換する時間・周波数変換部と、復号信号から推定雑音スペクトルを推定する雑音スペクトル推定部と、復号信号スペクトルと推定雑音スペクトルに基づく比に応じて復号信号スペクトルを変形すると共に平滑化した加工スペクトルを生成する信号変形部と、復号信号スペクトルに加工スペクトルを加算して、当該復号信号スペクトルに含まれる劣化成分を抑圧する信号加算部とを備えるようにしたものである。

この発明の実施の形態１に係る雑音抑圧装置の全体構成図である。この発明の実施の形態１に記載の信号加工部における一連の処理内容を示す動作説明図であり、ある周波数の振幅スペクトルと位相スペクトルをベクトル化して表現したものである。この発明の実施の形態１に記載の信号加工部における一連の処理を説明するグラフであり、典型的な場合のスペクトルを示す。この発明の実施の形態１に記載の信号加工部における一連の処理内容を示す動作説明図であり、図３の領域Ｂの周波数の振幅スペクトルと位相スペクトルをベクトル化して表現したものを示す。この発明の実施の形態１に記載の信号加工部における一連の処理内容を示す動作説明図であり、図３の領域Ｃの周波数の振幅スペクトルと位相スペクトルをベクトル化して表現したものを示す。この発明の実施の形態２に係る雑音抑圧装置の全体構成図である。この発明の実施の形態２に記載の信号加工部における一連の処理内容を示す動作説明図であり、ある周波数の振幅スペクトルと位相スペクトルをベクトル化して表現したものである。この発明の実施の形態４に係る雑音抑圧装置の全体構成図である。この発明の実施の形態５に係る音声復号化装置の全体構成図である。この発明の実施の形態６に係る音声復号化装置の全体構成図である。この発明の実施の形態８に係る雑音抑圧装置の全体構成図である。この発明の実施の形態９に係る音声復号化装置の全体構成図である。この発明の実施の形態１０に係る音声復号化装置の全体構成図である。

以下、この発明をより詳細に説明するために、この発明を実施するための最良の形態について、添付の図面に従って説明する。
実施の形態１．
図１は本実施の形態による雑音抑圧装置１００の全体構成を示したものである。
図１に示す雑音抑圧装置１００は、時間・周波数変換部２、雑音抑圧部３、信号加工部４、周波数・時間変換部５で構成されている。雑音抑圧部３は、雑音スペクトル抑圧部７と、音声・雑音判定部９および雑音スペクトル更新部１０からなる雑音スペクトル推定部８とで構成されている。信号加工部４は、信号加算部１１と、振幅平滑部１２と、加工成分算出部１４および位相擾乱部１５からなる信号変形部１３とで構成されている。

以下、図１に基づいて雑音抑圧装置１００の動作原理について説明する。
まず、所定のサンプリング周波数（例えば、８ｋＨｚ）でサンプリングされ、所定のフレーム周期（例えば、２０ｍｓｅｃ）にフレーム分割された入力信号１が、雑音抑圧装置１００内の時間・周波数変換部２と、後述説明する雑音スペクトル推定部８内部の音声・雑音判定部９に入力される。

時間・周波数変換部２は、上記のフレーム周期に分割された入力信号１に対して、窓掛け処理を行い、窓掛け後の信号に対して、例えば２５６ポイントのＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ：高速フーリエ変換）を用いて、周波数毎のスペクトル成分である入力信号スペクトル１６に変換する。時間・周波数変換部２はこの入力信号スペクトル１６を雑音抑圧部３内部の雑音スペクトル抑圧部７と雑音スペクトル推定部８、信号加工部４内部の振幅平滑部１２へそれぞれ出力する。窓掛け処理には、例えばハニング窓、台形窓など公知の手法を用いることができる。また、ＦＦＴは周知の手法であるので説明は省略する。

雑音抑圧部３では、雑音スペクトル抑圧部７が、時間・周波数変換部２より入力された入力信号スペクトル１６に対して、後述説明する雑音スペクトル推定部８より入力された推定雑音スペクトル１７を用いて雑音抑圧処理し、得られた結果を雑音抑圧スペクトル１８として、信号加工部４内部の信号加算部１１と加工成分算出部１４に出力する。

ここで、雑音スペクトル抑圧部７における雑音抑圧処理の手法としては、例えば非特許文献１に記載されているようなスペクトル減算に基づくもの、および入力信号スペクトル１６と推定雑音スペクトル１７の周波数毎の信号対雑音比（ＳＮ比）に基づいて、スペクトル成分毎に減衰量を与えるスペクトル振幅抑圧などの公知の方法の他、スペクトル減算とスペクトル振幅抑圧を組み合わせた手法（例えば、特許第３４５４１９０号「雑音抑圧装置および方法」に記載の方法）などを用いることが可能である。

信号加工部４は、雑音抑圧後の入力信号スペクトルである雑音抑圧スペクトル１８と推定雑音スペクトル１７の様態に応じ、聴感的に好ましいように雑音抑圧スペクトル１８中の劣化成分の加工処理を行う。具体的には、雑音スペクトル抑圧部７が出力する雑音抑圧スペクトル１８と、雑音スペクトル推定部８が出力する推定雑音スペクトル１７とを用いて、信号変形部１３が加工スペクトル１９を生成し、信号加算部１１が雑音スペクトル１８に加工スペクトル１９を加算して加算スペクトル２０とする。そして、振幅平滑部１２が加算スペクトル２０を時間方向および周波数方向に平滑化し、聴感的に好ましいように平滑化加工された平滑化雑音抑圧スペクトル２１として周波数・時間変換部５に出力する。信号加工部４の処理については後ほど詳述する。

周波数・時間変換部５は、信号加工部４から入力された平滑化雑音抑圧スペクトル２１に対して逆ＦＦＴ処理を行うことで時間領域信号に戻し、前後フレームとの滑らかな接続のための窓掛け処理を行いつつ連接を行い、得られた信号を出力信号６として出力する。

雑音スペクトル推定部８は、入力信号１中の平均的な雑音スペクトルの推定を行う。まず、音声・雑音判定部９が、入力信号１と、時間・周波数変換部２が出力する入力信号スペクトル１６と、過去のフレームから推定した推定雑音スペクトル１７とを用いて音声らしさ信号ＶＡＤの算出を行う。音声らしさ信号ＶＡＤは、現フレームの入力信号１が、音声あるいは雑音であるかどうかの度合いを表すものであり、例えば、音声の可能性が高い場合には大きな評価値を取り、音声の可能性が低い場合には小さな評価値を取る信号である。

音声・雑音判定部９は音声らしさ信号ＶＡＤの算出方法として、例えば、入力信号１の自己相関分析の最大値、および入力信号１のパワーと推定雑音スペクトル１７のパワーの比から算出できるフレームＳＮ比を、それぞれ単独あるいは組み合わせて用いることが可能である。ここで、入力信号１の自己相関分析結果の最大値ＡＣＦ_ｍａｘは式（１）、フレームＳＮ比ＳＮＲ_ｆｒについては式（２）でそれぞれ算出できる。

ここで、ｘ（ｔ）は時間ｔにおけるフレーム分割された入力信号１、Ｎは自己相関分析区間長、Ｓ（ｋ）は入力信号スペクトル１６の第ｋ番目の成分、Ｎ（ｋ）は推定雑音スペクトル１７の第ｋ番目の成分、ＭはＦＦＴポイント数である。

上記式（１）で求められた自己相関分析の最大値ＡＣＦ_ｍａｘと、式（２）で求められたフレームＳＮ比ＳＮＲ_ｆｒから、音声らしさ信号ＶＡＤは例えば次式（３）によって算出できる。
ＶＡＤ＝ｗ_ＡＣＦ・ＡＣＦ_ｍａｘ＋ｗ_ＳＮＲ・ＳＮＲ_ｆｒ・ＳＮＲ_ｎｏｒｍ（３）

ここで、ＳＮＲ_ｎｏｒｍはＳＮＲ_ｆｒの値を０〜１の範囲内に正規化するための所定の値、ｗ_ＡＣＦおよびｗ_ＳＮＲは重み付けのための所定の値であり、それぞれ騒音の種類または騒音のパワーに応じて、音声らしさ信号ＶＡＤが好適に判定できるように予め調整すればよい。なおＡＣＦ_ｍａｘは、上記式（１）の性質から、０〜１の範囲の値を取る。音声・雑音判定部９は、以上示した処理によって算出した、雑音スペクトル推定のための音声らしさ信号ＶＡＤを雑音スペクトル更新部１０へ出力する。

また、上記式（３）において、ｗ_ＡＣＦあるいはｗ_ＳＮＲの値のどちらかを０に設定することにより、０以外に設定した方のパラメータ単独で音声らしさ信号ＶＡＤを算出することも可能である。具体的には、ｗ_ＳＮＲを０にした場合には、自己相関分析の最大値ＡＣＦ_ｍａｘのみで音声らしさ信号ＶＡＤを求めることとなる。

また一方、音声らしさ信号ＶＡＤの算出において、上記式（３）に示した指標・値以外の分析パラメータを追加することも可能である。例えば、音声・雑音判定部９が入力信号スペクトル１６と推定雑音スペクトル１７とを用いて、周波数毎のスペクトル成分のＳＮ比を算出し、その周波数毎のスペクトル成分のＳＮ比の総和を取った値（総和が大きいほど、音声の可能性が高い）、または周波数毎のスペクトル成分のＳＮ比の分散（分散が大きいほど、音声の調波構造が現れていることとなり、音声の可能性が高い）を利用するなど、様々な改良、変更を加えることが可能である。

雑音スペクトル更新部１０は、音声・雑音判定部９の出力である音声らしさ信号ＶＡＤを参照し、現フレームの入力信号１の様態が雑音の可能性が高い場合、現フレームの入力信号スペクトル１６を用いて、内部メモリ等に格納してある過去のフレームから推定された推定雑音スペクトル１７の更新を行う。雑音スペクトル更新部１０は、例えば次式（４）に従って入力信号スペクトル１６を推定雑音スペクトル１７に反映することで更新を行う。

ここで、ｎはフレーム番号、Ｎ（ｎ−１，ｋ）は更新前の推定雑音スペクトル１７、Ｓ_{ｎｏｉｓｅ}（ｎ，ｋ）は雑音の可能性が高いと判断された現フレームの入力信号スペクトル１６、Ｎチルダ（ｎ，ｋ）（電子出願の関係上、〜記号の付いたアルファベット文字をアルファベットチルダと表記する）は更新後の推定雑音スペクトル１７である。また、α（ｋ）は０〜１の値を取る所定の更新速度係数であり、比較的０に近い値を設定すると良い。また、α（ｋ）は高域になるに従って係数値をやや大きくした方が良い場合があり、雑音の種類などに応じて調整することも可能である。

以上、雑音スペクトル更新部１０は式（４）の右辺を計算し、左辺のＮチルダ（ｎ，ｋ）を新しい推定雑音スペクトル１７とすることで更新を行う。雑音スペクトル更新部１０は得られた推定雑音スペクトル１７を、前述の雑音スペクトル抑圧部７、音声・雑音判定部９、加工成分算出部１４および振幅平滑部１２にそれぞれ出力する。ここで、音声・雑音判定部９に出力された推定雑音スペクトル１７は、次フレームの音声らしさ評価において適用されることとなる。

なお、この推定雑音スペクトル１７の更新方法については、更に推定精度や推定追従性を向上させるために、例えば、音声らしさ信号ＶＡＤの値に応じて複数の更新速度係数を適用したり、フレーム間での入力信号パワーや推定雑音パワーの変動性を参照し、これらの変動が大きい場合には更新速度を速めるような更新速度係数を適用したり、ある一定時間において、最もパワーが小さい、あるいは音声らしさ信号ＶＡＤが最も小さいフレームの入力信号スペクトル１６で推定雑音スペクトル１７を置き換える（リセットする）など、様々な変形、改良が可能である。また、音声らしさ信号ＶＡＤの値が十分大きい場合、すなわち、現フレームの入力信号１が確率的に音声の可能性が高い場合には、雑音スペクトル更新部１０は推定雑音スペクトル１７の更新を行わなくても良い。

続いて、信号加工部４について説明する。
信号変形部１３は、雑音スペクトル抑圧部７が出力する雑音抑圧スペクトル１８と、雑音スペクトル推定部８が出力する推定雑音スペクトル１７とを用いて、加工スペクトル１９を生成する。まず、加工成分算出部１４は、推定雑音スペクトル１７の周波数成分毎に、その振幅値に所定値を乗算した値（後述する変形推定雑音スペクトル）を得て、その得られた値と同じ振幅値を持つように雑音抑圧スペクトル１８を変形し、変形雑音抑圧スペクトル１８ａとして位相擾乱部１５へ出力する。なお、推定雑音スペクトル１７に乗算する所定値としては、例えば雑音抑圧処理における最大抑圧量近傍の値が好適である。例えば、最大抑圧量が−１２ｄＢであれば、所定値は０．２５〜０．２程度で設定すればよく、雑音の種類、雑音抑圧方法、劣化の度合い、または使用者の好みに合わせて予め調整すれば良い。また、複数の値をメモリ等に保持しておき、加工成分算出部１４が雑音の種類および雑音パワーなどに応じて好適な値に切り替えることなども可能である。

位相擾乱部１５は、平滑化の一種としての位相擾乱を行う。位相擾乱部１５は加工成分算出部１４で算出された変形雑音抑圧スペクトル１８ａに対し、周波数毎にその位相成分に擾乱を与え、擾乱後のスペクトルを加工スペクトル１９として信号加算部１１に出力する。各位相成分に擾乱を与える方法としては、乱数を用いて所定範囲の位相角を生成し、それを元々の位相角に加算すれば良い。位相角生成の範囲の制限を設けない場合には、位相擾乱部１５は、各位相成分を乱数で生成した値に置換すれば良い。

なお、位相角生成範囲の制限について、例えば騒音パワーが非常に大きく雑音抑圧スペクトル１８の劣化が大きい場合には範囲の制限を設けないこととする、あるいは騒音パワーの大きさまたは周波数毎のスペクトルのＳＮ比に応じて例えば騒音パワーまたはＳＮ比が低くなる場合には範囲を大きくするなど、位相擾乱部１５は位相角生成範囲を適応的に制御することが可能である。また、位相擾乱部１５は、擾乱の範囲の制限を、高域になるに従って擾乱の範囲を大きくしたり、低域は位相擾乱を止めたりするなど、周波数軸方向に重み付けしても良い。

信号加算部１１は、加工スペクトル１９を雑音抑圧スペクトル１８に加算して雑音抑圧スペクトル１８に含まれる劣化成分を抑圧し、得られた加算スペクトル２０を振幅平滑部１２へ出力する。

図２は、信号変形部１３と信号加算部１１における一連の処理内容を示す動作説明図であり、ある周波数の振幅スペクトルと位相スペクトルをベクトル化して表現したものである。
図２（ａ）は雑音抑圧スペクトル１８と推定雑音スペクトル１７との関係の一例を図示したものであり、雑音抑圧スペクトル１８のベクトル１０１、推定雑音スペクトル１７のベクトル１０２、推定雑音スペクトル１７の振幅に所定値を乗算したスカラ値１０３、スカラ値１０３と同じ振幅値となるようにベクトル１０１を変形した、変形雑音抑圧スペクトル１８ａのベクトル１０４により表現される。
また、図２（ｂ）は雑音抑圧スペクトル１８、加工スペクトル１９および加算スペクトル２０の関係の一例を図示したものであり、雑音抑圧スペクトル１８のベクトル１０１、変形雑音抑圧スペクトル１８ａのベクトル１０４、変形雑音抑圧スペクトル１８ａを位相擾乱して得た加工スペクトル１９のベクトル１０５、加算スペクトル２０のベクトル１０６により表現される。またθはベクトル１０４を位相擾乱するための位相角である。位相擾乱の範囲（加工スペクトル１９の存在範囲）Ａを点線円で示す。

また、図３は、より具体的な例を挙げて信号変形部１３と信号加算部１１の一連の処理を説明するグラフであり、典型的な場合のスペクトルを示す。図３において、縦軸は振幅スペクトルのパワー、横軸は周波数である。点線は推定雑音スペクトル１７、および推定雑音スペクトル１７に１より小さい所定の正値を乗算して変形した変形推定雑音スペクトル１７ａを表し、実線は雑音抑圧スペクトル１８および平滑化雑音抑圧スペクトル２１を表す。また、一点鎖線の領域Ｂは、雑音抑圧スペクトル１８の振幅値に対して変形推定雑音スペクトル１７ａの振幅値が近い場合の一例を図示したものであり、領域Ｃは、雑音抑圧スペクトル１８の振幅値に対して変形推定雑音スペクトル１７ａの振幅値が小さい場合の一例を図示したものである。なお、図３の変形推定雑音スペクトル１７ａは、図２の推定雑音スペクトル１７の振幅に所定値を乗算したスカラ値１０３に相当する。

図４は、図３の領域Ｂ，Ｃに対する信号変形部１３と信号加算部１１の一連の処理内容を示す動作説明図であり、図４（ａ）に図３の領域Ｂの周波数の振幅スペクトルと位相スペクトルをベクトル化して表現し、図４（ｂ）に図３の領域Ｃの周波数の振幅スペクトルと位相スペクトルをベクトル化して表現している。なお図４において図２と同一の構成要素に関しては同一符号を付与している。

図４（ａ）のように、雑音抑圧スペクトル１８の振幅値（ベクトル１０１に相当する）に対して変形推定雑音スペクトル１７ａの振幅値（スカラ値１０３に相当する）が近い場合には、推定雑音スペクトル１７に乗算する所定値が最大抑圧量近傍に設定されているので、雑音抑圧スペクトル１８のスペクトル成分は最大抑圧量に近い抑圧量で雑音抑圧されていると見なすことができる。換言すれば、このスペクトル成分は雑音であることを表している。またこの場合は、図３の領域Ｂに示すように、雑音抑圧スペクトル１８には雑音抑圧処理において抑圧し切れなかった雑音が残留する可能性が高くなり（とりわけ、高域に成る程、即ち周波数が高くなる程）、雑音抑圧スペクトル１８中の劣化成分である残留雑音Ｄは、加工スペクトル１９により大きな信号加工を受けることとなる。

一方、図４（ｂ）のように、雑音抑圧スペクトル１８の振幅値に対して、変形推定雑音スペクトル１７ａの振幅値が小さい場合には、雑音抑圧スペクトル１８のスペクトル成分は音声である可能性が高いが、図３の領域Ｃに示すように、雑音抑圧スペクトル１８が優勢的であるために、加工スペクトル１９による信号加工を受けても影響は小さく、聴感的な影響はほとんど無い。

再び雑音抑圧装置１００の動作原理に説明を戻す。図１に示す振幅平滑部１２は、信号加算部１１から入力された加算スペクトル２０に対して、周波数毎のスペクトルの振幅成分の平滑化処理を行い、平滑化後のスペクトルを平滑化雑音抑圧スペクトル２１として、周波数・時間変換部５に出力する。ここで、平滑化処理には周波数軸方向、時間軸方向（フレーム間平滑）のいずれか、あるいは両方を組み合わせて用いることが可能である。本実施の形態における好適な例として、振幅平滑部１２は、例えば次式（５）および（６）に示すような周波数軸および時間軸両方の平滑化処理を行うことができる。
Ｘ（ｎ，０）＝Ｓ_ＡＤＤ（ｎ，０）
Ｘ（ｎ，ｋ）＝（１−β（ｋ））・Ｓ_ＡＤＤ（ｎ，ｋ−１）
＋β（ｋ）・Ｓ_ＡＤＤ（ｎ，ｋ）
ただし、ｋ＝１，．．．，Ｍ（５）
Ｙ（ｎ，ｋ）＝（１−γ（ｋ））・Ｙ（ｎ−１，ｋ）＋γ（ｋ）・Ｘ（ｎ，ｋ）
ただし、ｋ＝０，．．．，Ｍ（６）

ここで、上記式（５）は周波数軸方向の平滑化処理、式（６）は時間軸方向の平滑化を示し、ｎはフレーム番号、ｋはスペクトル成分番号、Ｓ_ＡＤＤ（ｎ，ｋ）は加算スペクトル２０、Ｘ（ｎ，ｋ）は周波数軸方向の平滑化後の加算スペクトル、Ｙ（ｎ，ｋ）は周波数軸・時間軸両方の平滑化後の加算スペクトル、すなわち、平滑化雑音抑圧スペクトル２１である。また、β（ｋ）およびγ（ｋ）は、それぞれ周波数軸方向、時間軸方向の平滑化係数であり、０〜１の値を持つ所定値である。平滑化係数β（ｋ）およびγ（ｋ）は、フレーム長や解消したい劣化音の程度によって最適値は異なるが、本実施の形態の構成においては、それぞれ０．９５程度、０．２〜０．４程度の値が好適である。また、雑音の種類によっては、平滑化係数の周波数方向の重み付けを行った方がよく、例えば、低域にパワーが偏在する自動車走行騒音などでは、低域部の平滑化を強めるような調整をすればよいし、風切り音やタービンノイズなど「キーン」というような中〜高域に局在する雑音に対しては、その帯域の周波数方向の平滑化を強め、逆にその帯域の時間軸方向の平滑化は弱めるような調整も可能であり、騒音種類に特化して平滑化の効果を高めることができる。

更に、振幅平滑部１２は上記の振幅平滑化処理において、入力信号スペクトル１６と推定雑音スペクトル１７に応じて、例えば、平滑化処理方法を変更または制御したり、平滑化係数を変更したりすることが可能である。本実施の形態では、振幅平滑部１２が入力信号スペクトル１６と推定雑音スペクトル１７の周波数毎のＳＮ比（入力信号スペクトル１６をＳ、推定雑音スペクトル１７をＮとしたスペクトルＳＮ比）を用いて、例えば、スペクトルＳＮ比が０．７５ｄＢ未満の場合には、周波数軸方向と時間軸方向両方の平滑化を行い、スペクトルＳＮ比が０．７５ｄＢ以上、１．５ｄＢ未満の場合には、時間軸方向だけの平滑化を行い、スペクトルＳＮ比が１．５ｄＢ以上の場合は平滑化処理を止める、とした場合に出力音声６の品質が良かった。また、振幅平滑部１２は、入力信号スペクトル１６の代わりに、雑音抑圧スペクトル１８を用いてもよい。雑音抑圧スペクトル１８と推定雑音スペクトル１７の比は、図３の説明にて前述しているように残留雑音の良い指標となり得るので、振幅平滑部１２が平滑化処理をより効率的に動作させることができ、更なる主観品質改善を奏効することができる。

また、振幅平滑部１２は、平滑化処理後のスペクトル成分に対し、音声信号に影響が無い程度（例えば、１ｄＢの振幅）で、例えば、Ｈｏｔｈスペクトル特性を持ったノイズ、ブラウンノイズ、あるいは白色ノイズに入力信号中の雑音スペクトルの周波数特性（傾斜など）を付与した雑音などの擬似雑音を重畳しても良い。

この実施の形態１によれば、雑音抑圧装置１００は、入力信号１を周波数成分である入力信号スペクトル１６に変換する時間・周波数変換部２と、入力信号１から推定雑音スペクトル１７を推定する雑音スペクトル推定部８と、推定雑音スペクトル１７に基づいて入力信号スペクトル１６の雑音抑圧を行い、雑音抑圧スペクトル１８を生成する雑音スペクトル抑圧部７と、雑音抑圧スペクトル１８と推定雑音スペクトル１７に基づく比に応じて雑音抑圧スペクトル１８を変形すると共に平滑化（位相擾乱）した加工スペクトル１９を生成する信号変形部１３と、雑音抑圧スペクトル１８に加工スペクトル１９を加算して、雑音抑圧スペクトル１８に含まれる劣化成分を抑圧する信号加算部１１とを備えるように構成した。
そのため、雑音抑圧処理等によって劣化した雑音抑圧スペクトル１８に対して信号加工部４が所定の加工処理を行うにあたり、雑音抑圧スペクトル１８の周波数成分の値と、推定雑音スペクトル１７の周波数成分の値に基づいて、雑音抑圧スペクトル１８に含まれる劣化成分を主観的に気にならないようにした平滑化成分である加工スペクトル１９を求めて、雑音抑圧スペクトル１８の周波数成分に加算し、劣化成分を抑圧することができる。この結果、従来の方法では必要であった音声・雑音区間判定が要らなくなり、この結果、区間判定誤りによるエコー感や雑音感の発生無しに主観品質を改善できる効果がある。

また、信号加工部４が周波数領域にてスペクトル成分毎に、きめ細やかな加工成分の生成および加工処理を行うようにした。そのため、例えば、低域に雑音パワーが集中するような自動車走行騒音が混入した音声信号でも、低域の騒音の劣化感を主観的に改善しつつ、高域の音声成分は加工しないような劣化成分の加工処理が行えるので、更に主観品質を改善できる効果がある。

また、信号加工部４が、入力信号である雑音抑圧スペクトル１８と、推定雑音スペクトル１７の両者に基づいてスペクトル成分毎に加工成分を生成するようにした。そのため、各スペクトル成分に応じた加工制御が可能となり、例えば、ある帯域に局所的に劣化成分が生じている信号などに対しても、主観品質を改善できる効果がある。

また、信号加工部４の加工処理として、振幅スペクトル成分の平滑化と、位相スペクトル成分の擾乱を行うようにした。そのため、劣化成分が持つ人工的な振幅成分および位相成分に対して、それら成分の不安定な挙動を良好に抑圧したり、擾乱を与えたりすることができ、更に主観品質を改善できる効果がある。

なお、上記実施の形態１では、雑音抑圧スペクトル１８に対して実施する処理を、位相擾乱部１５と振幅平滑部１２の両者で行う構成としたが、例えば、雑音抑圧装置１００が位相擾乱部１５のみを備えて位相擾乱処理のみ実施するなど、どちらか一方の処理だけ実施する構成でも構わない。

また、上記実施の形態１では、推定雑音スペクトル１７の推定に、音声・雑音判定部９、雑音スペクトル更新部１０を使用したが、雑音スペクトルを得る手段としては、この構成に限ったものではなく、例えば、雑音スペクトルの更新速度を非常にゆっくりとすることで音声・雑音判定部９を省略したり、推定雑音スペクトル１７の推定を入力信号１から行わずに、雑音のみが入力される雑音推定用の入力信号から別途分析・推定したりする方法を取っても良い。

実施の形態２．
図５は、本実施の形態による雑音抑圧装置１００の全体構成を示したものであり、上記実施の形態１の雑音抑圧装置１００に信号減算部２２を追加した構成である。以下の実施の形態の説明において、先立って説明した実施の形態１（図１）の構成要素と同一または相当するものには同一の符号を付し、説明を省略する。

加工成分算出部１４は、推定雑音スペクトル１７の周波数成分毎に、その振幅値に所定値を乗算した値（変形推定雑音スペクトル）を求め、その値と同じ振幅値を持つように、雑音抑圧スペクトル１８を周波数成分毎に変形して変形雑音抑圧スペクトル１８ａとして位相擾乱部１５へ出力するとともに、信号減算部２２へも出力する、なお、推定雑音スペクトル１７に乗算する所定値としては、実施の形態１と同様に、雑音の種類、雑音抑圧方法、劣化音の程度、または使用者の好みに合わせて予め調整すればよい。

信号減算部２２は、雑音スペクトル抑圧部７が出力する雑音抑圧スペクトル１８から変形雑音抑圧スペクトル１８ａを減算する減算処理を行い、得られたスペクトル成分を信号加算部１１へ出力する。

図６は、信号変形部１３と信号減算部２２と信号加算部１１における一連の処理内容を示す動作説明図であり、ある周波数の振幅スペクトルと位相スペクトルをベクトル化して表現したものである。図６において図２と同一または相当の部分については同一の符号を付し説明を省略する。
図６（ａ）は、図２（ａ）と同様に、雑音抑圧スペクトル１８と推定雑音スペクトル１７との関係の一例を図示したものであり、雑音抑圧スペクトル１８のベクトル１０１、推定雑音スペクトル１７のベクトル１０２、推定雑音スペクトル１７の振幅に所定値を乗算したスカラ値１０３、変形雑音抑圧スペクトル１８ａのベクトル１０４、雑音抑圧スペクトル１８から変形雑音抑圧スペクトル１８ａを減算したスペクトルの成分ベクトル１０７により表現される。
また、図６（ｂ）は、図２（ｂ）と同様に、雑音抑圧スペクトルと、図６（ａ）にて得られた加工スペクトル、および加算スペクトルとの関係の一例を図示したものであり、雑音抑圧スペクトル１８のベクトル１０１、変形雑音抑圧スペクトル１８ａのベクトル１０４、加工スペクトル１９のベクトル１０５、雑音抑圧スペクトル１８から変形雑音抑圧スペクトル１８ａを減算したスペクトルの成分ベクトル１０７、加算スペクトル２０のベクトル１０８により表現される。

図６において、図２と異なる点は、加工スペクトル１９のベクトル１０５を雑音抑圧スペクトル１８のベクトル１０１に加算処理する前に、変形雑音抑圧スペクトル１８ａのベクトル１０４を減算する点である。このことから、信号加算部１１において劣化成分抑圧のために加工スペクトル１９を加算する処理を行っても雑音抑圧スペクトル１８の振幅が増加しないという利点がある。

振幅平滑部１２は、上記実施の形態１と同様に、加算スペクトル２０に対して振幅平滑化処理を行う。振幅平滑部１２はまた、平滑化処理後のスペクトル成分に対し、音声信号に影響が無い程度（例えば、１ｄＢの振幅）で、例えば、Ｈｏｔｈスペクトル特性を持ったノイズ、ブラウンノイズ、あるいは白色ノイズに入力信号中の雑音スペクトルの周波数特性（傾斜など）を付与した雑音などの擬似雑音を重畳しても良い。

この実施の形態２によれば、雑音抑圧装置１００において、雑音抑圧スペクトル１８と推定雑音スペクトル１７に基づく比に応じて雑音抑圧スペクトル１８を変形した変形雑音抑圧スペクトル１８ａを生成すると共に、変形雑音抑圧スペクトル１８ａを平滑化（位相擾乱）した加工スペクトル１９を生成する信号変形部１３と、雑音抑圧スペクトル１８から変形雑音抑圧スペクトル１８ａを減算する信号減算部２２と、信号減算部２２により変形雑音抑圧スペクトル１８ａが減算された雑音抑圧スペクトル１８に加工スペクトル１９を加算して、雑音抑圧スペクトル１８に含まれる劣化成分を抑圧する信号加算部１１を備えるように構成した。
信号加工部４が雑音抑圧スペクトル１８に対し、変形雑音抑圧スペクトル１８ａを減算すると共に加工スペクトル１９を加算するようにしたので、上記実施の形態１にて述べた効果に加えて、出力信号６の雑音感の増加を抑制しつつ、更に主観品質を改善できる効果がある。

なお、上記実施の形態２では、図５に示すように、信号減算部２２の減算処理を行った後、信号加算部１１の加算処理を行っているが、この順番を逆、即ち、雑音抑圧スペクトル１８に加工スペクトル１９を加算してから、変形雑音抑圧スペクトル１８ａを減算しても同じ効果が得られるのは言うまでもない。

また、上記実施の形態２では、雑音抑圧装置１００が振幅平滑部１２を備える構成としたが、振幅平滑部１２を備えず振幅平滑化処理を省略する構成であっても構わない。

また、上記実施の形態２では、推定雑音スペクトル１７の推定に、音声・雑音判定部９、雑音スペクトル更新部１０を使用したが、上記実施の形態１と同様に雑音スペクトルを得る手段はこの構成に限ったものではなく、例えば、雑音スペクトルの更新速度を非常にゆっくりとすることで音声・雑音判定部９を省略したり、推定雑音スペクトル１７の推定を入力信号１から行わずに、雑音のみが入力される雑音推定用の入力信号から別途分析・推定したりする方法を取っても良い。

実施の形態３．
上記実施の形態１および２では、信号変形部１３内部の加工成分算出部１４の処理において、推定雑音スペクトル１７の周波数毎に乗算する所定値として、雑音抑圧処理における最大抑圧量近傍の値を用いる構成であった。本実施の形態では、推定雑音スペクトル１７の周波数毎に乗算する所定値に、例えば低周波数では大きい値、高周波数では小さい値というような、周波数軸方向の重み付けを行う構成とする。本実施の形態の雑音抑圧装置の構成は、図１に示す上記実施の形態１または図５に示す実施の形態２の雑音抑圧装置１００の構成と図面上では同様であり、加工成分算出部１４の処理のみが異なる。

なお、加工成分算出部１４は、周波数重み付けに用いる重み付け係数を、例えば、１つ以上複数のテーブル（プログラムにて記載する場合には定数配列となる）から、雑音の種類または使用者の好みに合わせて選択しても良いし、雑音パワーまたは推定雑音スペクトル１７の低域成分パワーと高域成分パワーとの比から算出できるスペクトル傾斜量等を入力として、重み付け係数を生成出力する関数を予め定義しておき、フレーム毎にその関数から生成して逐次適用しても良い。

この実施の形態３によれば、加工成分算出部１４が、推定雑音スペクトル１７の周波数毎に乗算するための所定値に周波数方向の重み付けを行うようにした。そのため、上記実施の形態１および２にて述べた効果に加えて、周波数方向に劣化の度合いが異なるような信号に対しても、主観品質を改善できる効果がある。

実施の形態４．
上記実施の形態１では、雑音抑圧処理を周波数領域（またはスペクトル領域と言う）にて実施していたが、必ずしもこの構成である必要は無く、時間領域に実施しても構わない。図７は、本実施の形態による雑音抑圧装置１００の全体構成を示したものであり、上記実施の形態１の雑音スペクトル抑圧部７に代えて雑音抑圧フィルタ部２３と時間・周波数変換部２４とを備える構成である。以下の実施の形態の説明において、先立って説明した実施の形態１（図１）の構成要素と同一または相当するものには同一の符号を付し、説明を省略する。

図７に示す雑音抑圧フィルタ部２３は、入力信号１を入力して時間領域での雑音抑圧処理を行う。具体的には、雑音抑圧フィルタ部２３は、入力信号１に対して例えばカルマンフィルタなどの時間軸処理に対応する雑音抑圧処理を行い、雑音抑圧信号として時間・周波数変換部２４へ出力する。

時間・周波数変換部２４は雑音抑圧フィルタ部２３が出力する雑音抑圧信号を周波数領域の信号に変換する。具体的には、時間・周波数変換部２４は、雑音抑圧信号のＦＦＴを行い、得られたスペクトル成分を雑音抑圧スペクトル１８として、信号加算部１１と加工成分算出部１４に出力する。なお、時間・周波数変換部２４のＦＦＴポイント数と、既に説明した時間・周波数変換部２のＦＦＴポイント数は同一であることが望ましく、時間・周波数変換部２４が雑音抑圧スペクトル１８を出力する際に、時間・周波数変換部２とＦＦＴポイント数が同一になるようにすれば良い。すなわち時間・周波数変換部２４は、時間・周波数変換部２のＦＦＴポイント数と比較して自身のＦＦＴポイント数の方が大きい場合には例えばスペクトル成分を間引きあるいは平均化して出力し、小さい場合には例えばスペクトル成分を補間して出力すれば良い。ただし、時間・周波数変換部２，２４のＦＦＴポイント数は必ずしも同じである必要は無い。

この実施の形態４によれば、雑音抑圧処理の手法として周波数領域、時間領域を問わず、処理対象の信号の主観品質を改善できる効果がある。

なお、上記実施の形態４の構成は、上記実施の形態２および３に対しても容易に適応可能であり、その構成の場合にも、雑音抑圧処理の手法として周波数領域、時間領域を問わず、処理対象の信号の主観品質を改善できる効果がある。

実施の形態５．
実施の形態１の雑音抑圧装置１００を変形して、本実施の形態に示す音声復号化装置２００を構成してもよい。図８は、本実施の形態による音声復号化装置２００の全体構成を示すものである。音声復号化装置２００は、入力信号に代えて符号データ２５が入力されるものとし、符号データ２５を復号化処理する音声復号部２６を新たに備える。図８において図１と同一または相当の部分については同一の符号を付す。

まず、符号データ２５が、例えば不図示の有線もしくは無線通信路、またはメモリなどの記憶手段などを介して音声復号化装置２００内の音声復号部２６に入力される。なお、符号データ２５は、別途、不図示の音声符号化部が音声音響信号を符号化した結果である。

音声復号部２６は、符号データ２５に対して前記音声符号化部の符号化処理に対応する所定の復号化処理を行い、復号信号２７を時間・周波数変換部２および音声・雑音判定部９に出力する。

時間・周波数変換部２は、入力信号１の代わりに復号信号２７に対して、上記実施の形態１と同様にフレーム分割および窓掛け処理を行い、窓掛け後の信号に対して例えばＦＦＴを行う。そして、時間・周波数変換部２は、周波数毎のスペクトル成分である復号信号スペクトル２８を信号加工部４および雑音スペクトル推定部８へ出力する。

雑音スペクトル推定部８では、まず、音声・雑音判定部９が、入力された復号信号２７と復号信号スペクトル２８とを用いて、現フレームの音声らしさ信号を算出する。続いて、雑音スペクトル更新部１０が、復号信号スペクトル２８中の平均的な雑音スペクトルを推定し、推定雑音スペクトル１７として出力する。なお、この雑音スペクトル推定部８内の構成と各処理については、上記実施の形態１と同様なものを用いることが可能である。

信号加工部４内の信号変形部１３は、復号信号スペクトル２８と、雑音スペクトル推定部８が出力する推定雑音スペクトル１７とを用いて、加工スペクトル１９を生成する。まず、加工成分算出部１４では、推定雑音スペクトル１７の周波数成分毎に、その振幅値に所定値を乗算した値を得て、その得られた値と同じ振幅値を持つように、復号信号スペクトル２８を周波数成分毎に変形し、変形復号信号スペクトル２８ａとして位相擾乱部１５へ出力する。なお、実施の形態１とは異なり本実施の形態では雑音抑圧処理は行わないので、推定雑音スペクトル１７に乗算する所定値は、最大抑圧量近傍の値ではなく、例えば、１もしくは１よりやや小さい値に設定したもの、または音声符号化方法、復号信号２７の劣化度合いもしくは使用者の好みに合わせて予め調整したものを用いれば良い。また、複数の値をメモリ等に保持しておき、加工成分算出部１４が音声符号化方法の種類などに応じて好適な値に切り替えることも可能である。

位相擾乱部１５は、加工成分算出部１４で算出された変形復号信号スペクトル２８ａに対し、周波数毎にその位相成分に擾乱を与え、擾乱後のスペクトルを加工スペクトル１９として信号加算部１１に出力する。各位相成分に擾乱を与える方法および位相擾乱範囲の制御方法は、実施の形態１と同様なものを用いることが可能である。

信号加算部１１は、復号信号スペクトル２８に加工スペクトル１９を加算し、得られた加算スペクトル２０を振幅平滑部１２へ出力する。

振幅平滑部１２は、信号加算部１１から入力された加算スペクトル２０に対して、周波数毎のスペクトルの振幅成分の平滑化処理を行い、平滑化後のスペクトルを平滑化復号信号スペクトル２９として、周波数・時間変換部５に出力する。なお、この振幅平滑部１２の構成、処理および平滑化制御方法などについては、実施の形態１と同様のものを用いることができ、各パラメータ等については、例えば、音声符号化方法または復号信号２７の劣化度合いに合わせて予め調整すれば良い。

また、振幅平滑部１２は、平滑化処理後のスペクトル成分に対し、音声信号に影響が無い程度（例えば、１ｄＢの振幅）で、例えば、Ｈｏｔｈスペクトル特性を持ったノイズ、ブラウンノイズ、あるいは白色ノイズに入力信号中の雑音スペクトルの周波数特性（傾斜など）を付与した雑音など、人工的に生成した擬似雑音を重畳しても良い。

周波数・時間変換部５は、信号加工部４から入力された平滑化復号信号スペクトル２９に対して、逆ＦＦＴ処理を行うことで時間領域信号に戻し、前後フレームとの滑らかな接続のための窓掛け処理を行いつつ連接を行い、得られた信号を出力信号６として出力する。

この実施の形態５によれば、音声復号化装置２００は、所定の符号データ２５を復号化して復号信号２７を生成する音声復号部２６と、復号信号２７を周波数成分である復号信号スペクトル２８に変換する時間・周波数変換部２と、復号信号２７から推定雑音スペクトル１７を推定する雑音スペクトル推定部８と、復号信号スペクトル２８と推定雑音スペクトル１７に基づく比に応じて復号信号スペクトル２８を変形すると共に平滑化（位相擾乱）した加工スペクトル１９を生成する信号変形部１３と、復号信号スペクトル２８に加工スペクトル１９を加算して、復号信号スペクトル２８に含まれる劣化成分を抑圧する信号加算部１１とを備えるように構成した。
そのため、音声符号化処理によって劣化した復号信号スペクトル２８に対して信号加工部４が所定の加工処理を行うにあたり、復号信号スペクトル２８の周波数成分の値と、推定雑音スペクトル１７の周波数成分の値に基づいて、復号信号スペクトル２８に含まれる劣化成分を主観的に気にならないようにした平滑化成分である加工スペクトル１９を求めて、復号信号スペクトル２８の周波数成分に加算し、劣化成分を抑圧することができる。この結果、従来の方法では必要であった音声・雑音区間判定が要らなくなり、この結果、区間判定誤りによるエコー感や雑音感の発生無しに主観品質を改善できる効果がある。

また、信号加工部４が周波数領域にてスペクトル成分毎に、きめ細やかな加工成分の生成および加工処理を行うようにした。そのため、例えば、低域に雑音パワーが集中するような自動車走行騒音が混入した音声信号でも、低域の騒音の劣化感を主観的に改善しつつ、高域の音声成分は加工しないような劣化成分の抑圧処理が行えるので、更に主観品質を改善できる効果がある。

また、信号加工部４が、入力信号である復号信号スペクトル２８と、推定雑音スペクトル１７の両者に基づいてスペクトル成分毎に加工成分を生成するようにした。そのため、各スペクトル成分に応じた加工制御が可能となり、例えば、ある帯域に局所的に劣化成分が生じている信号などに対しても、主観品質を改善できる効果がある。

なお、上記実施の形態５では、復号信号スペクトル２８に対して実施する処理を、位相擾乱部１５と振幅平滑部１２の両者で行う構成としたが、例えば、音声復号化装置２００が位相擾乱部１５のみを備えて位相擾乱処理のみ実施するなど、どちらか一方の処理だけ実施する構成でも構わない。

また、上記実施の形態５では、推定雑音スペクトル１７の推定に、音声・雑音判定部９、雑音スペクトル更新部１０を使用したが、上記実施の形態１と同様に雑音スペクトルを得る手段はこの構成に限ったものではなく、例えば、雑音スペクトルの更新速度を非常にゆっくりとすることで音声・雑音判定部９を省略したり、推定雑音スペクトル１７の推定を復号信号２７から行わずに、雑音のみが入力される雑音推定用の入力信号から別途分析・推定したりする方法を取っても良い。

実施の形態６．
上記実施の形態５と同様に、上記実施の形態２の雑音抑圧装置１００を変形して、本実施の形態に示すような音声復号化装置２００を構成してもよい。図９は、本実施の形態による音声復号化装置２００の全体構成を示すものである。図９において図５または図８と同一または相当の部分については同一の符号を付し説明を省略する。

加工成分算出部１４は、推定雑音スペクトル１７の周波数成分毎に、その振幅値に所定値を乗算した値を得て、その得られた値と同じ振幅値を持つように、復号信号スペクトル２８を周波数成分毎に変形し、変形復号信号スペクトル２８ａとして位相擾乱部１５へ出力するとともに、信号減算部２２へも出力する。なお、推定雑音スペクトル１７に乗算する所定値は、上記実施の形態５と同様に、例えば、１もしくは１よりやや小さい値に設定したもの、または音声符号化方法、復号信号２７の劣化度合いもしくは使用者の好みに合わせて予め調整したものを用いれば良い。また、複数の値をメモリ等に保持しておき、加工成分算出部１４が音声符号化方法の種類などに応じて好適な値に切り替えることも可能である。

信号減算部２２は、時間・周波数変換部２が出力する復号信号スペクトル２８から、変形復号信号スペクトル２８ａを減算する減算処理を行い、得られたスペクトル成分を信号加算部１１へ出力する。

振幅平滑部１２は、上記実施の形態５と同様に、加算スペクトル２０に対して振幅平滑化処理を行う。振幅平滑部１２はまた、平滑化処理後のスペクトル成分に対し、音声信号に影響が無い程度（例えば、１ｄＢの振幅）で、例えば、Ｈｏｔｈスペクトル特性を持ったノイズ、ブラウンノイズ、あるいは白色ノイズに入力信号中の雑音スペクトルの周波数特性（傾斜など）を付与した雑音など、人工的に生成した擬似雑音を重畳しても良い。

この実施の形態６によれば、音声復号化装置２００は、復号信号スペクトル２８と推定雑音スペクトル１７に基づく比に応じて復号信号スペクトル２８を変形した変形復号信号スペクトル２８ａを生成すると共に、変形復号信号スペクトル２８ａを平滑化（位相擾乱）した加工スペクトル１９を生成する信号変形部１３と、復号信号スペクトル２８から変形復号信号スペクトル２８ａを減算する信号減算部２２と、信号減算部２２により変形復号信号スペクトル２８ａが減算された復号信号スペクトル２８に加工スペクトル１９を加算して、復号信号スペクトル２８に含まれる劣化成分を抑圧する信号加算部１１とを備えるように構成した。
信号加工部４が復号信号スペクトル２８に対し、変形復号信号スペクトル２８ａを減算すると共に加工スペクトル１９を加算するようにしたので、上記実施の形態５にて述べた効果に加えて、出力信号６の雑音感の増加を抑制しつつ、更に主観品質を改善できる効果がある。

なお、上記実施の形態６では、図９に示すように、信号減算部２２の減算処理を行った後、信号加算部１１の加算処理を行っているが、この順番を逆、即ち、復号信号スペクトル２８に加工スペクトル１９を加算してから、変形復号信号スペクトル２８ａを減算しても同じ効果が得られるのは言うまでもない。

また、上記実施の形態６では、音声復号化装置２００が振幅平滑部１２を備える構成としたが、振幅平滑部１２を備えず振幅平滑化処理を省略する構成であっても構わない。

また、上記実施の形態６では、推定雑音スペクトル１７の推定に、音声・雑音判定部９、雑音スペクトル更新部１０を使用したが、上記実施の形態１と同様に雑音スペクトルを得る手段はこの構成に限ったものではなく、例えば、雑音スペクトルの更新速度を非常にゆっくりとすることで音声・雑音判定部９を省略したり、推定雑音スペクトル１７の推定を復号信号２７から行わずに、雑音のみが入力される雑音推定用の入力信号から別途分析・推定したりする方法を取っても良い。

実施の形態７．
上記実施の形態５および６では、信号変形部１３内部の加工成分算出部１４の処理において、推定雑音スペクトル１７の周波数毎に乗算する所定値として、周波数軸方向に一定の値を用いる構成であった。本実施の形態では、推定雑音スペクトル１７の周波数毎に乗算する所定値に、例えば低周波数では大きな値、高周波数では小さい値というような、周波数軸方向の重み付けを行う構成とする。本実施の形態の音声復号化装置２００の構成は、図８に示す実施の形態５または図９に示す実施の形態６の音声復号化装置２００の構成と図面上では同様であり、加工成分算出部１４の処理のみが異なる。

なお、加工成分算出部１４は、周波数重み付けに用いる重み付け係数を、例えば、１つ以上複数のテーブル（プログラムにて記載する場合には定数配列となる）から、音声符号化方法の種類または使用者の好みに合わせて選択しても良いし、雑音パワーまたは推定雑音スペクトル１７の低域成分パワーと高域成分パワーとの比から算出できるスペクトル傾斜量等を入力として、重み付け係数を生成出力する関数を予め定義しておき、フレーム毎に重み付け係数を生成して逐次適用しても良い。

この実施の形態７によれば、加工成分算出部１４が、推定雑音スペクトル１７の周波数毎に乗算するための所定値に周波数方向の重み付けを行うようにした。そのため、上記実施の形態５および６にて述べた効果に加えて、周波数方向に劣化の度合いが異なるような信号に対しても、主観品質を改善できる効果がある。

実施の形態８．
上記実施の形態１では、信号加工部４が推定雑音スペクトル１７と雑音抑圧スペクトル１８に基づく比に応じて加工スペクトル１９を生成する構成であったが、本実施の形態では推定雑音スペクトル１７と雑音抑圧スペクトル１８に基づく比に応じて雑音抑圧スペクトル１８の位相擾乱の幅を制御する構成とする。

図１０は、本実施の形態による雑音抑圧装置１００の全体構成を示すものである。図１０に示す雑音抑圧装置１００の信号加工部４は、図１に示す上記実施の形態１の信号加工部４とは異なり、位相擾乱部３０、位相制御部３１および振幅平滑部１２から構成されている。なお、図１０において図１と同一または相当の部分については同一の符号を付し説明を省略する。

位相制御部３１は、雑音抑圧スペクトル１８と推定雑音スペクトル１７が入力されると、例えば、雑音抑圧スペクトル１８と推定雑音スペクトル１７との周波数毎のＳＮ比（雑音抑圧スペクトル１８をＳ、推定雑音スペクトル１７をＮとしたスペクトルＳＮ比）を算出する。続いて位相制御部３１は、算出したスペクトルＳＮ比に応じて位相擾乱の幅を制御するための位相制御信号３２を算出し、位相擾乱部３０に出力する。

位相擾乱の範囲の制御方法としては、例えば、スペクトルＳＮ比が小さい場合には位相擾乱の範囲が大きくなるように、逆にスペクトルＳＮ比が大きい場合にはその範囲が小さくなるように制御する方法がある。位相擾乱の範囲を指示する位相制御信号３２の設定方法としては、例えば、スペクトルＳＮ比に対応する所定値をテーブル等に複数記憶させておき、位相制御部３１が、算出したスペクトルＳＮ比に最も近いテーブル上のスペクトルＳＮ比に対応する所定値を位相制御信号３２として出力する方法がある。または、スペクトルＳＮ比を入力とし位相制御信号３２を出力する所定の関数を予め定義しておき、位相制御部３１がその関数を用いて位相制御信号３２を算出しても良い。いずれの方法を用いる場合でも、雑音の種類、雑音抑圧方法、劣化の度合いまたは使用者の好みに合わせて予め調整すれば良い。

また、位相擾乱の範囲の制御において、位相制御部３１は例えば、高域になるに従って擾乱の範囲を大きくし、低域は位相擾乱を止めるなど、周波数軸方向に重み付けしても良い。位相制御部３１は、周波数重み付けに用いる重み付け係数を、例えば、１つ以上複数のテーブル（プログラムにて記載する場合には定数配列となる）から、雑音抑圧方法の種類または使用者の好みに合わせて選択しても良いし、雑音パワーまたは推定雑音スペクトル１７の低域成分パワーと高域成分パワーとの比から算出できるスペクトル傾斜量等を入力として、重み付け係数を生成出力する関数を予め定義しておき、フレーム毎に重み付け係数を生成して逐次適用しても良い。

なお、上記位相擾乱の範囲の制御要因として、説明を簡単にするためにスペクトルＳＮ比を例示して用いているが、この構成に限る必要は無く、例えば、雑音抑圧スペクトル１８の全帯域パワーと推定雑音スペクトル１７の全帯域パワーの比、および推定雑音スペクトル１７の低域成分パワーと高域成分パワーとの比から算出できるスペクトル傾斜量等を制御要因として組み合わせて用いても良い。これら制御要因を追加することで、位相制御部３１は更に精度良く位相擾乱の範囲を制御することが可能となり、更に主観品質を改善できる。

位相擾乱部３０は、位相制御部３１が出力する位相擾乱の幅を制御するための位相制御信号３２に従って雑音抑圧スペクトル１８の位相擾乱を行い、位相擾乱スペクトル３３として出力する。なお、位相擾乱部３０の代わりに、図１に示す上記実施の形態１に記載の位相擾乱部１５の構成を用いても同様の効果を奏する。

振幅平滑部１２は、位相擾乱部３０から入力された位相擾乱スペクトル３３に対して、周波数毎のスペクトルの振幅成分の平滑化処理を行い、平滑化後のスペクトルを平滑化雑音抑圧スペクトル２１として、周波数・時間変換部５に出力する。なお、この振幅平滑部１２の構成、処理および平滑化制御方法などについては、実施の形態１と同様のものを用いることができ、各パラメータ等については、例えば、雑音抑圧方法の種類または信号の劣化度合いに合わせて予め調整すれば良い。

この実施の形態８によれば、雑音抑圧装置１００は、雑音抑圧処理等によって劣化した雑音抑圧スペクトル１８に対して信号加工部４が所定の加工処理を行うにあたり、入力信号である雑音抑圧スペクトル１８の周波数成分の値と、推定雑音スペクトル１７の周波数成分の値に基づいて、雑音抑圧スペクトル１８に含まれる劣化成分を主観的に気にならないように位相擾乱するようにした。そのため、従来の方法では必要であった音声・雑音区間判定が要らなくなり、この結果、区間判定誤りによるエコー感や雑音感の発生無しに主観品質を改善できる効果がある。

また、信号加工部４が周波数領域にてスペクトル成分毎に、きめ細やかな加工処理を行うようにした。そのため、例えば、低域に雑音パワーが集中するような自動車走行騒音が混入した音声信号でも、低域の騒音の劣化感を主観的に改善しつつ、高域の音声成分は加工しないような劣化成分の加工処理が行えるので、更に主観品質を改善できる効果がある。

また、信号加工部４が、入力信号である雑音抑圧スペクトル１８と、推定雑音スペクトル１７の両者に基づいてスペクトル成分毎に加工処理を行うようにした。そのため、各スペクトル成分に応じた加工制御が可能となり、例えば、ある帯域に局所的に劣化成分が生じている信号などに対しても、主観品質を改善できる効果がある。

なお、上記実施の形態８では、雑音抑圧装置１００が振幅平滑部１２を備える構成としたが、振幅平滑部１２を備えず振幅平滑化処理を省略する構成であっても構わない。

また、上記実施の形態８では、推定雑音スペクトル１７の推定に、音声・雑音判定部９、雑音スペクトル更新部１０を使用したが、上記実施の形態１と同様に雑音スペクトルを得る手段はこの構成に限ったものではなく、例えば、雑音スペクトルの更新速度を非常にゆっくりとすることで音声・雑音判定部９を省略したり、推定雑音スペクトル１７の推定を入力信号１から行わずに、雑音のみが入力される雑音推定用の入力信号から別途分析・推定したりする方法を取っても良い。

また、上記実施の形態８では、雑音抑圧処理を周波数領域にて実施していたが、必ずしもこの構成である必要は無く、上記実施の形態８と上記実施の形態４の構成を組み合わせることで、時間領域の雑音抑圧処理についても実施可能である。具体的には、実施の形態４の信号加工部４を、実施の形態８の信号加工部４に置き換える。
この構成の場合には、雑音抑圧処理の手法として周波数領域および時間領域を問わず、その主観品質を改善できる効果がある。

実施の形態９．
上記実施の形態８と同様に、上記実施の形態５の音声復号化装置２００を変形して、信号加工部４が復号信号スペクトル２８と推定雑音スペクトル１７に基づく比に応じて加工スペクトル１９を生成する代わりに、復号信号スペクトル２８と推定雑音スペクトル１７に基づく比に応じて復号信号スペクトル２８の位相擾乱の幅を制御してもよい。

図１１は、本実施の形態による音声復号化装置２００の全体構成を示すものである。図１１に示す音声復号化装置２００の信号加工部４は、図８に示す上記実施の形態５の信号加工部４とは異なり、位相擾乱部３０、位相制御部３１および振幅平滑部１２から構成されている。図１１において図５または図８と同一または相当の部分については同一の符号を付し説明を省略する。

位相制御部３１は、復号信号スペクトル２８と推定雑音スペクトル１７が入力されると、例えば、復号信号スペクトル２８と推定雑音スペクトル１７との周波数毎のＳＮ比（復号信号スペクトル２８をＳ、推定雑音スペクトル１７をＮとしたスペクトルＳＮ比）を算出する。続いて位相制御部３１は、算出したスペクトルＳＮ比に応じて位相擾乱の幅を制御するための位相制御信号３２を算出し、位相擾乱部３０に出力する。

位相擾乱の範囲の制御方法としては、例えば、スペクトルＳＮ比が小さい場合には位相擾乱の範囲が大きくなるように、逆にスペクトルＳＮ比が大きい場合にはその範囲が小さくなるように制御する方法がある。位相擾乱の範囲を指示する位相制御信号３２の設定方法、擾乱の範囲の制御、および制御要因としては、実施の形態８での処理と同様な手法を用いることが可能であり、音声符号化方法の種類、劣化の度合いまたは使用者の好みに合わせて予め調整すれば良い。

位相擾乱部３０は、位相制御部３１が出力する位相制御信号３２に従って復号信号スペクトル２８の位相擾乱を行い、位相擾乱スペクトル３３として出力する。なお、位相擾乱部３０の代わりに、図１に示す上記実施の形態１に記載の位相擾乱部１５の構成を用いても同様の効果を奏する。

振幅平滑部１２は、位相擾乱部３０から入力された位相擾乱スペクトル３３に対して、周波数毎のスペクトルの振幅成分の平滑化処理を行い、平滑化後のスペクトルを平滑化復号信号スペクトル２９として、周波数・時間変換部５に出力する。なお、この振幅平滑部１２の構成、処理および平滑化制御方法などについては、上記実施の形態５と同様のものを用いることができ、各パラメータ等については、例えば、音声符号化方法の種類または信号の劣化度合いに合わせて予め調整すれば良い。

この実施の形態９によれば、音声復号化装置２００は、音声符号化処理によって劣化した復号信号スペクトル２８に対して信号加工部４が所定の加工処理を行うにあたり、入力信号である復号信号スペクトル２８の周波数成分の値と、推定雑音スペクトル１７の周波数成分の値に基づいて、復号信号スペクトル２８に含まれる劣化成分を主観的に気にならないように位相擾乱するようにした。そのため、従来の方法では必要であった音声・雑音区間判定が要らなくなり、この結果、区間判定誤りによるエコー感や雑音感の発生無しに主観品質を改善できる効果がある。

また、信号加工部４が、入力信号である復号信号スペクトル２８と、推定雑音スペクトル１７の両者に基づいてスペクトル成分毎に加工処理を行うようにした。そのため、各スペクトル成分に応じた加工制御が可能となり、例えば、ある帯域に局所的に劣化成分が生じている信号などに対しても、主観品質を改善できる効果がある。

なお、上記実施の形態９では、音声復号化装置２００が振幅平滑部１２を備える構成としたが、振幅平滑部１２を備えず振幅平滑化処理を省略する構成であっても構わない。

また、上記実施の形態９では、推定雑音スペクトル１７の推定に、音声・雑音判定部９、雑音スペクトル更新部１０を使用したが、上記実施の形態１と同様に雑音スペクトルを得る手段はこの構成に限ったものではなく、例えば、雑音スペクトルの更新速度を非常にゆっくりとすることで音声・雑音判定部９を省略したり、推定雑音スペクトル１７の推定を復号信号２７から行わずに、雑音のみが入力される雑音推定用の入力信号から別途分析・推定したりする方法を取っても良い。

実施の形態１０．
上記実施の形態５〜７および９では、信号加工部４は復号信号スペクトル２８を加工対象にして加工処理を実施する構成としたが、図１２に示すように、雑音スペクトル抑圧部７が復号信号２７の雑音抑圧処理を行った後で信号加工部４が信号加工を行う構成であっても良い。図１２は本実施の形態による音声復号化装置２００の全体構成を示したものである。図１２では、雑音抑圧処理を行うために雑音スペクトル抑圧部７を備える構成を示すが、雑音スペクトル抑圧部７に代えて雑音抑圧フィルタ部２３および時間・周波数変換部２４（図７）を備える構成にしてもよい。なお、図１２において図１〜１１と同一または相当の部分については同一の符号を付し説明を省略する。

本実施の形態の雑音抑圧処理としては、上記実施の形態１にて述べたような雑音スペクトル抑圧部７による周波数領域での雑音抑圧方法、または上記実施の形態４にて述べたような雑音抑圧フィルタ部２３による時間領域での雑音抑圧方法を用いることができる。このとき、復号信号スペクトル２８には、音声符号化処理に伴う劣化に加えて、雑音抑圧処理に伴う劣化が新たに加わるが、劣化度合いに応じて、信号加工部４内の不図示の信号変形部１３、振幅平滑部１２、位相制御部３１の制御方法および各種パラメータを適宜調整すれば良い。

さらに、音声復号部２６の後段に接続する処理として、雑音抑圧処理を例示して説明したが、例えば、フォルマント強調や聴覚マスキング処理などのポストフィルタ処理、振幅ダイナミックレンジ圧縮処理など、他の信号加工処理に置き換えることも可能である。

この実施の形態１０によれば、音声符号化処理起因以外の劣化成分を含む信号に対しても、主観的に好ましい信号に加工することができ、主観品質を改善できる効果がある。

実施の形態１１．
上記実施の形態１〜１０では、時間・周波数変換部２がＦＦＴによってスペクトル成分を算出し、周波数・時間変換部５が加工処理の実施されたスペクトル成分を逆ＦＦＴ処理によって時間領域の信号に戻す構成としているが、ＦＦＴの代わりにバンドパスフィルタ群の各出力に対して、加工処理を実施し、帯域別信号の加算によって出力信号を得る構成も可能であるし、ウェーブレット（Ｗａｖｅｌｅｔ）変換等の変換関数を用いることも可能である。

この実施の形態１１によれば、フーリエ変換を使用しない構成でも、実施の形態１〜１０にて述べたのと同様の効果が得られる。

なお、上記実施の形態１〜１１において、位相擾乱部１５の構成の代わりに位相擾乱部３０（および位相制御部３１）の構成を用いてもよく、また、位相擾乱部３０（および位相制御部３１）の構成の代わりに位相擾乱部１５の構成を用いてもよい。

以上のように、この発明に係る雑音抑圧装置および音声復号化装置は、音声・音響信号などの目的信号以外の雑音を抑圧することで、音質の改善および音声認識率などの向上を行うことのできる雑音抑圧装置および音声復号化装置としたので、種々の雑音環境下で用いられる、携帯電話およびインターフォンなどの音声通信システム、ハンズフリー通話システム、テレビ会議システム、監視システム、音声蓄積システム、音声認識システムなどに用いるのに適している。

Claims

入力信号を周波数成分である入力信号スペクトルに変換する時間・周波数変換部と、
前記入力信号から推定雑音スペクトルを推定する雑音スペクトル推定部と、
前記推定雑音スペクトルに基づいて前記入力信号スペクトルの雑音抑圧を行い、雑音抑圧スペクトルを生成する雑音スペクトル抑圧部と、
前記雑音抑圧スペクトルと前記推定雑音スペクトルに基づく比に応じて前記雑音抑圧スペクトルを変形すると共に平滑化した加工スペクトルを生成する信号変形部と、
前記雑音抑圧スペクトルに前記加工スペクトルを加算して、当該雑音抑圧スペクトルに含まれる劣化成分を抑圧する信号加算部とを備える雑音抑圧装置。
信号変形部は、周波数軸方向の重み付けをした加工スペクトルを生成することを特徴とする請求項１記載の雑音抑圧装置。
入力信号を周波数成分である入力信号スペクトルに変換する時間・周波数変換部と、
前記入力信号から推定雑音スペクトルを推定する雑音スペクトル推定部と、
前記推定雑音スペクトルに基づいて前記入力信号スペクトルの雑音抑圧を行い、雑音抑圧スペクトルを生成する雑音スペクトル抑圧部と、
前記雑音抑圧スペクトルと前記推定雑音スペクトルに基づく比に応じて前記雑音抑圧スペクトルを変形した変形雑音抑圧スペクトルを生成すると共に、当該変形雑音抑圧スペクトルを平滑化した加工スペクトルを生成する信号変形部と、
前記雑音抑圧スペクトルから前記変形雑音抑圧スペクトルを減算する信号減算部と、
前記信号減算部により前記変形雑音抑圧スペクトルが減算された前記雑音抑圧スペクトルに前記加工スペクトルを加算して、当該雑音抑圧スペクトルに含まれる劣化成分を抑圧する信号加算部とを備える雑音抑圧装置。
信号変形部は、周波数軸方向の重み付けをした加工スペクトルを生成することを特徴とする請求項３記載の雑音抑圧装置。
入力信号を周波数成分である入力信号スペクトルに変換する時間・周波数変換部と、
前記入力信号から推定雑音スペクトルを推定する雑音スペクトル推定部と、
前記推定雑音スペクトルに基づいて前記入力信号スペクトルの雑音抑圧を行い、雑音抑圧スペクトルを生成する雑音スペクトル抑圧部と、
前記雑音抑圧スペクトルと前記推定雑音スペクトルに基づく比に応じた度合いで、前記雑音抑圧スペクトルの位相を擾乱する位相擾乱部とを備える雑音抑圧装置。
位相擾乱部は、周波数軸方向の重み付けをした位相擾乱の度合いを求めることを特徴とする請求項５記載の雑音抑圧装置。
所定の符号データを復号化して復号信号を生成する音声復号部と、
前記復号信号を周波数成分である復号信号スペクトルに変換する時間・周波数変換部と、
前記復号信号から推定雑音スペクトルを推定する雑音スペクトル推定部と、
前記復号信号スペクトルと前記推定雑音スペクトルに基づく比に応じて前記復号信号スペクトルを変形すると共に平滑化した加工スペクトルを生成する信号変形部と、
前記復号信号スペクトルに前記加工スペクトルを加算して、当該復号信号スペクトルに含まれる劣化成分を抑圧する信号加算部とを備える音声復号化装置。
信号変形部は、周波数軸方向の重み付けをした加工スペクトルを生成することを特徴とする請求項７記載の音声復号化装置。
所定の符号データを復号化して復号信号を生成する音声復号部と、
前記復号信号を周波数成分である復号信号スペクトルに変換する時間・周波数変換部と、
前記復号信号から推定雑音スペクトルを推定する雑音スペクトル推定部と、
前記復号信号スペクトルと前記推定雑音スペクトルに基づく比に応じて前記復号信号スペクトルを変形した変形復号信号スペクトルを生成すると共に、当該変形復号信号スペクトルを平滑化した加工スペクトルを生成する信号変形部と、
前記復号信号スペクトルから前記変形復号信号スペクトルを減算する信号減算部と、
前記信号減算部により前記変形復号信号スペクトルが減算された前記復号信号スペクトルに前記加工スペクトルを加算して、当該復号信号スペクトルに含まれる劣化成分を抑圧する信号加算部とを備える音声復号化装置。
信号変形部は、周波数軸方向の重み付けをした加工スペクトルを生成することを特徴とする請求項９記載の音声復号化装置。
所定の符号データを復号化して復号信号を生成する音声復号部と、
前記復号信号を周波数成分である復号信号スペクトルに変換する時間・周波数変換部と、
前記復号信号から推定雑音スペクトルを推定する雑音スペクトル推定部と、
前記復号信号スペクトルと前記推定雑音スペクトルに基づく比に応じた度合いで、前記復号信号スペクトルの位相を擾乱する位相擾乱部とを備える音声復号化装置。
位相擾乱部は、周波数軸方向の重み付けをした位相擾乱の度合いを求めることを特徴とする請求項１１記載の音声復号化装置。