JP5153886B2 - 雑音抑圧装置および音声復号化装置 - Google Patents

雑音抑圧装置および音声復号化装置 Download PDF

Info

Publication number
JP5153886B2
JP5153886B2 JP2010534608A JP2010534608A JP5153886B2 JP 5153886 B2 JP5153886 B2 JP 5153886B2 JP 2010534608 A JP2010534608 A JP 2010534608A JP 2010534608 A JP2010534608 A JP 2010534608A JP 5153886 B2 JP5153886 B2 JP 5153886B2
Authority
JP
Japan
Prior art keywords
spectrum
noise
signal
unit
noise suppression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010534608A
Other languages
English (en)
Other versions
JPWO2010046954A1 (ja
Inventor
訓 古田
裕久 田崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2010046954A1 publication Critical patent/JPWO2010046954A1/ja
Application granted granted Critical
Publication of JP5153886B2 publication Critical patent/JP5153886B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

この発明は、音声・音響信号に混入した雑音を抑圧する雑音抑圧装置および雑音抑圧装置を備えた音声復号化装置に関するものである。
雑音が混入した入力信号から目的外信号である雑音を抑圧することで、目的信号である音声信号などを強調する雑音抑圧処理の代表的な手法として、例えば、SS(Spectral Subtraction)法がある。SS法は、振幅スペクトルから別途推定した平均的な雑音スペクトルを減算することにより雑音抑圧を行うものである(例えば、非特許文献1参照)。
SS法などの雑音抑圧処理を行った場合、雑音スペクトルの推定誤差が雑音抑圧処理後の信号に歪として残留し、これが処理前の信号と大きく異なる特性を持つ上、耳障りな雑音(人工的な雑音、ミュージカルトーンとも呼ばれる)として出現するので、出力信号の主観品質を大きく劣化させることがあった。
また、音声および楽音などの音声音響符号化方式の圧縮率を高めていくと、符号化時の量子化雑音および符号モデル化に伴うスペクトル歪が次第に増大し、出力信号の主観品質が大きく劣化してしまった。とりわけ、音声音響信号に騒音が混入する場合および入力信号に騒音だけが存在する場合には、符号化方式が利用している音声モデルと、背景騒音のモデルが大きく異なるために、その劣化は顕著なものとなっていた。なお、背景騒音区間でのこれらの劣化感は「シュルシュル」といった水流音のようであり、ウォーターフローノイズ(Water Flow Noise)と称される場合がある。
上記のような主観的な劣化感を抑制する従来の方法としては、例えば、特許文献1に開示されているものがある。
特許文献1の音信号加工方法は、雑音抑圧処理や、低ビットレート音声符号化処理によって発生する歪感を聴感的に軽減することを目的としており、入力信号と、入力信号を平滑化した加工信号を、音声・雑音状態判別手段によって求められた信号中の雑音比率の推定値に基づいて重み付け加算を行うことで、背景騒音など劣化成分が多く含まれる区間を中心に主観品質を改善するようにしたものである。
Steven F.Boll"Suppression of Acoustic noise in speech using spectral subtraction",IEEE Trans.ASSP,Vol.ASSP−27,No.2,April 1979 特開2004−272292号公報(第14頁〜第16頁、図4)
従来の雑音抑圧装置は以上のように構成されているので、入力信号と加工信号の重み付け加算制御が音声・雑音状態判別手段に依存しており、音声区間検出に失敗して音声を含む区間で加工を行うと、エコー感(反響感)や雑音感が発生して著しく品質劣化する課題があった。
なお従来の雑音抑圧装置では、区間判定誤りの影響を軽減するために、連続量の区間判定評価値を用いる改良策も挙げられているが、評価値自体は時間領域における分析結果に基づくものであって、周波数領域に対しては一定値である。そのため、例えば、低域に雑音パワーが集中するような自動車走行騒音が混入した音声信号では、低域の騒音の劣化感を抑制するように評価値の閾値を調整すると、相対的に騒音信号よりパワーが大きい高域の音声信号を誤って加工してしまって品質劣化し、逆に、高域の音声信号の歪が発現しないような調整をすると、改善効果がほとんど得られない課題があった。
また、従来の雑音抑圧装置では、重み付け加算をスペクトル領域で周波数成分毎に制御しているものの、制御要因が入力信号の振幅スペクトル成分の大きさだけであって、周波数成分毎に音声か雑音かどうか判定しておらず、結局のところ、入力信号が音声(あるいは楽音)かどうかは時間領域における区間判定評価値に大きく依存しており、その区間判定を誤れば品質劣化する状況は変わらない。
この発明は、かかる課題を解決するためになされたもので、聴感上好ましい雑音抑圧が可能かつ高雑音下でも品質劣化の少ない雑音抑圧装置およびこの雑音抑圧装置を備えた高品質な音声復号化装置を提供することを目的とする。
この発明に係る雑音抑圧装置は、入力信号を周波数成分である入力信号スペクトルに変換する時間・周波数変換部と、入力信号から推定雑音スペクトルを推定する雑音スペクトル推定部と、推定雑音スペクトルに基づいて入力信号スペクトルの雑音抑圧を行い、雑音抑圧スペクトルを生成する雑音スペクトル抑圧部と、雑音抑圧スペクトルと推定雑音スペクトルに基づく比に応じて雑音抑圧スペクトルを変形すると共に平滑化した加工スペクトルを生成する信号変形部と、雑音抑圧スペクトルに加工スペクトルを加算して、当該雑音抑圧スペクトルに含まれる劣化成分を抑圧する信号加算部とを備えるようにしたものである。
このことによって、区間判定誤りによるエコー感および雑音感の発生がなく、スペクトル成分毎に主観品質を改善できる効果がある。
また、この発明に係る音声復号化装置は、所定の符号データを復号化して復号信号を生成する音声復号部と、復号信号を周波数成分である復号信号スペクトルに変換する時間・周波数変換部と、復号信号から推定雑音スペクトルを推定する雑音スペクトル推定部と、復号信号スペクトルと推定雑音スペクトルに基づく比に応じて復号信号スペクトルを変形すると共に平滑化した加工スペクトルを生成する信号変形部と、復号信号スペクトルに加工スペクトルを加算して、当該復号信号スペクトルに含まれる劣化成分を抑圧する信号加算部とを備えるようにしたものである。
このことによって、区間判定誤りによるエコー感および雑音感の発生がなく、スペクトル成分毎に主観品質を改善できる効果がある。
この発明の実施の形態1に係る雑音抑圧装置の全体構成図である。 この発明の実施の形態1に記載の信号加工部における一連の処理内容を示す動作説明図であり、ある周波数の振幅スペクトルと位相スペクトルをベクトル化して表現したものである。 この発明の実施の形態1に記載の信号加工部における一連の処理を説明するグラフであり、典型的な場合のスペクトルを示す。 この発明の実施の形態1に記載の信号加工部における一連の処理内容を示す動作説明図であり、図3の領域Bの周波数の振幅スペクトルと位相スペクトルをベクトル化して表現したものを示す。 この発明の実施の形態1に記載の信号加工部における一連の処理内容を示す動作説明図であり、図3の領域Cの周波数の振幅スペクトルと位相スペクトルをベクトル化して表現したものを示す。 この発明の実施の形態2に係る雑音抑圧装置の全体構成図である。 この発明の実施の形態2に記載の信号加工部における一連の処理内容を示す動作説明図であり、ある周波数の振幅スペクトルと位相スペクトルをベクトル化して表現したものである。 この発明の実施の形態4に係る雑音抑圧装置の全体構成図である。 この発明の実施の形態5に係る音声復号化装置の全体構成図である。 この発明の実施の形態6に係る音声復号化装置の全体構成図である。 この発明の実施の形態8に係る雑音抑圧装置の全体構成図である。 この発明の実施の形態9に係る音声復号化装置の全体構成図である。 この発明の実施の形態10に係る音声復号化装置の全体構成図である。
以下、この発明をより詳細に説明するために、この発明を実施するための最良の形態について、添付の図面に従って説明する。
実施の形態1.
図1は本実施の形態による雑音抑圧装置100の全体構成を示したものである。
図1に示す雑音抑圧装置100は、時間・周波数変換部2、雑音抑圧部3、信号加工部4、周波数・時間変換部5で構成されている。雑音抑圧部3は、雑音スペクトル抑圧部7と、音声・雑音判定部9および雑音スペクトル更新部10からなる雑音スペクトル推定部8とで構成されている。信号加工部4は、信号加算部11と、振幅平滑部12と、加工成分算出部14および位相擾乱部15からなる信号変形部13とで構成されている。
以下、図1に基づいて雑音抑圧装置100の動作原理について説明する。
まず、所定のサンプリング周波数(例えば、8kHz)でサンプリングされ、所定のフレーム周期(例えば、20msec)にフレーム分割された入力信号1が、雑音抑圧装置100内の時間・周波数変換部2と、後述説明する雑音スペクトル推定部8内部の音声・雑音判定部9に入力される。
時間・周波数変換部2は、上記のフレーム周期に分割された入力信号1に対して、窓掛け処理を行い、窓掛け後の信号に対して、例えば256ポイントのFFT(Fast Fourier Transform:高速フーリエ変換)を用いて、周波数毎のスペクトル成分である入力信号スペクトル16に変換する。時間・周波数変換部2はこの入力信号スペクトル16を雑音抑圧部3内部の雑音スペクトル抑圧部7と雑音スペクトル推定部8、信号加工部4内部の振幅平滑部12へそれぞれ出力する。窓掛け処理には、例えばハニング窓、台形窓など公知の手法を用いることができる。また、FFTは周知の手法であるので説明は省略する。
雑音抑圧部3では、雑音スペクトル抑圧部7が、時間・周波数変換部2より入力された入力信号スペクトル16に対して、後述説明する雑音スペクトル推定部8より入力された推定雑音スペクトル17を用いて雑音抑圧処理し、得られた結果を雑音抑圧スペクトル18として、信号加工部4内部の信号加算部11と加工成分算出部14に出力する。
ここで、雑音スペクトル抑圧部7における雑音抑圧処理の手法としては、例えば非特許文献1に記載されているようなスペクトル減算に基づくもの、および入力信号スペクトル16と推定雑音スペクトル17の周波数毎の信号対雑音比(SN比)に基づいて、スペクトル成分毎に減衰量を与えるスペクトル振幅抑圧などの公知の方法の他、スペクトル減算とスペクトル振幅抑圧を組み合わせた手法(例えば、特許第3454190号「雑音抑圧装置および方法」に記載の方法)などを用いることが可能である。
信号加工部4は、雑音抑圧後の入力信号スペクトルである雑音抑圧スペクトル18と推定雑音スペクトル17の様態に応じ、聴感的に好ましいように雑音抑圧スペクトル18中の劣化成分の加工処理を行う。具体的には、雑音スペクトル抑圧部7が出力する雑音抑圧スペクトル18と、雑音スペクトル推定部8が出力する推定雑音スペクトル17とを用いて、信号変形部13が加工スペクトル19を生成し、信号加算部11が雑音スペクトル18に加工スペクトル19を加算して加算スペクトル20とする。そして、振幅平滑部12が加算スペクトル20を時間方向および周波数方向に平滑化し、聴感的に好ましいように平滑化加工された平滑化雑音抑圧スペクトル21として周波数・時間変換部5に出力する。信号加工部4の処理については後ほど詳述する。
周波数・時間変換部5は、信号加工部4から入力された平滑化雑音抑圧スペクトル21に対して逆FFT処理を行うことで時間領域信号に戻し、前後フレームとの滑らかな接続のための窓掛け処理を行いつつ連接を行い、得られた信号を出力信号6として出力する。
雑音スペクトル推定部8は、入力信号1中の平均的な雑音スペクトルの推定を行う。まず、音声・雑音判定部9が、入力信号1と、時間・周波数変換部2が出力する入力信号スペクトル16と、過去のフレームから推定した推定雑音スペクトル17とを用いて音声らしさ信号VADの算出を行う。音声らしさ信号VADは、現フレームの入力信号1が、音声あるいは雑音であるかどうかの度合いを表すものであり、例えば、音声の可能性が高い場合には大きな評価値を取り、音声の可能性が低い場合には小さな評価値を取る信号である。
音声・雑音判定部9は音声らしさ信号VADの算出方法として、例えば、入力信号1の自己相関分析の最大値、および入力信号1のパワーと推定雑音スペクトル17のパワーの比から算出できるフレームSN比を、それぞれ単独あるいは組み合わせて用いることが可能である。ここで、入力信号1の自己相関分析結果の最大値ACFmaxは式(1)、フレームSN比SNRfrについては式(2)でそれぞれ算出できる。
Figure 0005153886
ここで、x(t)は時間tにおけるフレーム分割された入力信号1、Nは自己相関分析区間長、S(k)は入力信号スペクトル16の第k番目の成分、N(k)は推定雑音スペクトル17の第k番目の成分、MはFFTポイント数である。
上記式(1)で求められた自己相関分析の最大値ACFmaxと、式(2)で求められたフレームSN比SNRfrから、音声らしさ信号VADは例えば次式(3)によって算出できる。
VAD=wACF・ACFmax+wSNR・SNRfr・SNRnorm (3)
ここで、SNRnormはSNRfrの値を0〜1の範囲内に正規化するための所定の値、wACFおよびwSNRは重み付けのための所定の値であり、それぞれ騒音の種類または騒音のパワーに応じて、音声らしさ信号VADが好適に判定できるように予め調整すればよい。なおACFmaxは、上記式(1)の性質から、0〜1の範囲の値を取る。音声・雑音判定部9は、以上示した処理によって算出した、雑音スペクトル推定のための音声らしさ信号VADを雑音スペクトル更新部10へ出力する。
また、上記式(3)において、wACFあるいはwSNRの値のどちらかを0に設定することにより、0以外に設定した方のパラメータ単独で音声らしさ信号VADを算出することも可能である。具体的には、wSNRを0にした場合には、自己相関分析の最大値ACFmaxのみで音声らしさ信号VADを求めることとなる。
また一方、音声らしさ信号VADの算出において、上記式(3)に示した指標・値以外の分析パラメータを追加することも可能である。例えば、音声・雑音判定部9が入力信号スペクトル16と推定雑音スペクトル17とを用いて、周波数毎のスペクトル成分のSN比を算出し、その周波数毎のスペクトル成分のSN比の総和を取った値(総和が大きいほど、音声の可能性が高い)、または周波数毎のスペクトル成分のSN比の分散(分散が大きいほど、音声の調波構造が現れていることとなり、音声の可能性が高い)を利用するなど、様々な改良、変更を加えることが可能である。
雑音スペクトル更新部10は、音声・雑音判定部9の出力である音声らしさ信号VADを参照し、現フレームの入力信号1の様態が雑音の可能性が高い場合、現フレームの入力信号スペクトル16を用いて、内部メモリ等に格納してある過去のフレームから推定された推定雑音スペクトル17の更新を行う。雑音スペクトル更新部10は、例えば次式(4)に従って入力信号スペクトル16を推定雑音スペクトル17に反映することで更新を行う。
Figure 0005153886
ここで、nはフレーム番号、N(n−1,k)は更新前の推定雑音スペクトル17、Snoise(n,k)は雑音の可能性が高いと判断された現フレームの入力信号スペクトル16、Nチルダ(n,k)(電子出願の関係上、〜記号の付いたアルファベット文字をアルファベットチルダと表記する)は更新後の推定雑音スペクトル17である。また、α(k)は0〜1の値を取る所定の更新速度係数であり、比較的0に近い値を設定すると良い。また、α(k)は高域になるに従って係数値をやや大きくした方が良い場合があり、雑音の種類などに応じて調整することも可能である。
以上、雑音スペクトル更新部10は式(4)の右辺を計算し、左辺のNチルダ(n,k)を新しい推定雑音スペクトル17とすることで更新を行う。雑音スペクトル更新部10は得られた推定雑音スペクトル17を、前述の雑音スペクトル抑圧部7、音声・雑音判定部9、加工成分算出部14および振幅平滑部12にそれぞれ出力する。ここで、音声・雑音判定部9に出力された推定雑音スペクトル17は、次フレームの音声らしさ評価において適用されることとなる。
なお、この推定雑音スペクトル17の更新方法については、更に推定精度や推定追従性を向上させるために、例えば、音声らしさ信号VADの値に応じて複数の更新速度係数を適用したり、フレーム間での入力信号パワーや推定雑音パワーの変動性を参照し、これらの変動が大きい場合には更新速度を速めるような更新速度係数を適用したり、ある一定時間において、最もパワーが小さい、あるいは音声らしさ信号VADが最も小さいフレームの入力信号スペクトル16で推定雑音スペクトル17を置き換える(リセットする)など、様々な変形、改良が可能である。また、音声らしさ信号VADの値が十分大きい場合、すなわち、現フレームの入力信号1が確率的に音声の可能性が高い場合には、雑音スペクトル更新部10は推定雑音スペクトル17の更新を行わなくても良い。
続いて、信号加工部4について説明する。
信号変形部13は、雑音スペクトル抑圧部7が出力する雑音抑圧スペクトル18と、雑音スペクトル推定部8が出力する推定雑音スペクトル17とを用いて、加工スペクトル19を生成する。まず、加工成分算出部14は、推定雑音スペクトル17の周波数成分毎に、その振幅値に所定値を乗算した値(後述する変形推定雑音スペクトル)を得て、その得られた値と同じ振幅値を持つように雑音抑圧スペクトル18を変形し、変形雑音抑圧スペクトル18aとして位相擾乱部15へ出力する。なお、推定雑音スペクトル17に乗算する所定値としては、例えば雑音抑圧処理における最大抑圧量近傍の値が好適である。例えば、最大抑圧量が−12dBであれば、所定値は0.25〜0.2程度で設定すればよく、雑音の種類、雑音抑圧方法、劣化の度合い、または使用者の好みに合わせて予め調整すれば良い。また、複数の値をメモリ等に保持しておき、加工成分算出部14が雑音の種類および雑音パワーなどに応じて好適な値に切り替えることなども可能である。
位相擾乱部15は、平滑化の一種としての位相擾乱を行う。位相擾乱部15は加工成分算出部14で算出された変形雑音抑圧スペクトル18aに対し、周波数毎にその位相成分に擾乱を与え、擾乱後のスペクトルを加工スペクトル19として信号加算部11に出力する。各位相成分に擾乱を与える方法としては、乱数を用いて所定範囲の位相角を生成し、それを元々の位相角に加算すれば良い。位相角生成の範囲の制限を設けない場合には、位相擾乱部15は、各位相成分を乱数で生成した値に置換すれば良い。
なお、位相角生成範囲の制限について、例えば騒音パワーが非常に大きく雑音抑圧スペクトル18の劣化が大きい場合には範囲の制限を設けないこととする、あるいは騒音パワーの大きさまたは周波数毎のスペクトルのSN比に応じて例えば騒音パワーまたはSN比が低くなる場合には範囲を大きくするなど、位相擾乱部15は位相角生成範囲を適応的に制御することが可能である。また、位相擾乱部15は、擾乱の範囲の制限を、高域になるに従って擾乱の範囲を大きくしたり、低域は位相擾乱を止めたりするなど、周波数軸方向に重み付けしても良い。
信号加算部11は、加工スペクトル19を雑音抑圧スペクトル18に加算して雑音抑圧スペクトル18に含まれる劣化成分を抑圧し、得られた加算スペクトル20を振幅平滑部12へ出力する。
図2は、信号変形部13と信号加算部11における一連の処理内容を示す動作説明図であり、ある周波数の振幅スペクトルと位相スペクトルをベクトル化して表現したものである。
図2(a)は雑音抑圧スペクトル18と推定雑音スペクトル17との関係の一例を図示したものであり、雑音抑圧スペクトル18のベクトル101、推定雑音スペクトル17のベクトル102、推定雑音スペクトル17の振幅に所定値を乗算したスカラ値103、スカラ値103と同じ振幅値となるようにベクトル101を変形した、変形雑音抑圧スペクトル18aのベクトル104により表現される。
また、図2(b)は雑音抑圧スペクトル18、加工スペクトル19および加算スペクトル20の関係の一例を図示したものであり、雑音抑圧スペクトル18のベクトル101、変形雑音抑圧スペクトル18aのベクトル104、変形雑音抑圧スペクトル18aを位相擾乱して得た加工スペクトル19のベクトル105、加算スペクトル20のベクトル106により表現される。またθはベクトル104を位相擾乱するための位相角である。位相擾乱の範囲(加工スペクトル19の存在範囲)Aを点線円で示す。
また、図3は、より具体的な例を挙げて信号変形部13と信号加算部11の一連の処理を説明するグラフであり、典型的な場合のスペクトルを示す。図3において、縦軸は振幅スペクトルのパワー、横軸は周波数である。点線は推定雑音スペクトル17、および推定雑音スペクトル17に1より小さい所定の正値を乗算して変形した変形推定雑音スペクトル17aを表し、実線は雑音抑圧スペクトル18および平滑化雑音抑圧スペクトル21を表す。また、一点鎖線の領域Bは、雑音抑圧スペクトル18の振幅値に対して変形推定雑音スペクトル17aの振幅値が近い場合の一例を図示したものであり、領域Cは、雑音抑圧スペクトル18の振幅値に対して変形推定雑音スペクトル17aの振幅値が小さい場合の一例を図示したものである。なお、図3の変形推定雑音スペクトル17aは、図2の推定雑音スペクトル17の振幅に所定値を乗算したスカラ値103に相当する。
図4は、図3の領域B,Cに対する信号変形部13と信号加算部11の一連の処理内容を示す動作説明図であり、図4(a)に図3の領域Bの周波数の振幅スペクトルと位相スペクトルをベクトル化して表現し、図4(b)に図3の領域Cの周波数の振幅スペクトルと位相スペクトルをベクトル化して表現している。なお図4において図2と同一の構成要素に関しては同一符号を付与している。
図4(a)のように、雑音抑圧スペクトル18の振幅値(ベクトル101に相当する)に対して変形推定雑音スペクトル17aの振幅値(スカラ値103に相当する)が近い場合には、推定雑音スペクトル17に乗算する所定値が最大抑圧量近傍に設定されているので、雑音抑圧スペクトル18のスペクトル成分は最大抑圧量に近い抑圧量で雑音抑圧されていると見なすことができる。換言すれば、このスペクトル成分は雑音であることを表している。またこの場合は、図3の領域Bに示すように、雑音抑圧スペクトル18には雑音抑圧処理において抑圧し切れなかった雑音が残留する可能性が高くなり(とりわけ、高域に成る程、即ち周波数が高くなる程)、雑音抑圧スペクトル18中の劣化成分である残留雑音Dは、加工スペクトル19により大きな信号加工を受けることとなる。
一方、図4(b)のように、雑音抑圧スペクトル18の振幅値に対して、変形推定雑音スペクトル17aの振幅値が小さい場合には、雑音抑圧スペクトル18のスペクトル成分は音声である可能性が高いが、図3の領域Cに示すように、雑音抑圧スペクトル18が優勢的であるために、加工スペクトル19による信号加工を受けても影響は小さく、聴感的な影響はほとんど無い。
再び雑音抑圧装置100の動作原理に説明を戻す。図1に示す振幅平滑部12は、信号加算部11から入力された加算スペクトル20に対して、周波数毎のスペクトルの振幅成分の平滑化処理を行い、平滑化後のスペクトルを平滑化雑音抑圧スペクトル21として、周波数・時間変換部5に出力する。ここで、平滑化処理には周波数軸方向、時間軸方向(フレーム間平滑)のいずれか、あるいは両方を組み合わせて用いることが可能である。本実施の形態における好適な例として、振幅平滑部12は、例えば次式(5)および(6)に示すような周波数軸および時間軸両方の平滑化処理を行うことができる。
X(n,0)=SADD(n,0)
X(n,k)=(1−β(k))・SADD(n,k−1)
+β(k)・SADD(n,k)
ただし、k=1,...,M (5)
Y(n,k)=(1−γ(k))・Y(n−1,k)+γ(k)・X(n,k)
ただし、k=0,...,M (6)
ここで、上記式(5)は周波数軸方向の平滑化処理、式(6)は時間軸方向の平滑化を示し、nはフレーム番号、kはスペクトル成分番号、SADD(n,k)は加算スペクトル20、X(n,k)は周波数軸方向の平滑化後の加算スペクトル、Y(n,k)は周波数軸・時間軸両方の平滑化後の加算スペクトル、すなわち、平滑化雑音抑圧スペクトル21である。また、β(k)およびγ(k)は、それぞれ周波数軸方向、時間軸方向の平滑化係数であり、0〜1の値を持つ所定値である。平滑化係数β(k)およびγ(k)は、フレーム長や解消したい劣化音の程度によって最適値は異なるが、本実施の形態の構成においては、それぞれ0.95程度、0.2〜0.4程度の値が好適である。また、雑音の種類によっては、平滑化係数の周波数方向の重み付けを行った方がよく、例えば、低域にパワーが偏在する自動車走行騒音などでは、低域部の平滑化を強めるような調整をすればよいし、風切り音やタービンノイズなど「キーン」というような中〜高域に局在する雑音に対しては、その帯域の周波数方向の平滑化を強め、逆にその帯域の時間軸方向の平滑化は弱めるような調整も可能であり、騒音種類に特化して平滑化の効果を高めることができる。
更に、振幅平滑部12は上記の振幅平滑化処理において、入力信号スペクトル16と推定雑音スペクトル17に応じて、例えば、平滑化処理方法を変更または制御したり、平滑化係数を変更したりすることが可能である。本実施の形態では、振幅平滑部12が入力信号スペクトル16と推定雑音スペクトル17の周波数毎のSN比(入力信号スペクトル16をS、推定雑音スペクトル17をNとしたスペクトルSN比)を用いて、例えば、スペクトルSN比が0.75dB未満の場合には、周波数軸方向と時間軸方向両方の平滑化を行い、スペクトルSN比が0.75dB以上、1.5dB未満の場合には、時間軸方向だけの平滑化を行い、スペクトルSN比が1.5dB以上の場合は平滑化処理を止める、とした場合に出力音声6の品質が良かった。また、振幅平滑部12は、入力信号スペクトル16の代わりに、雑音抑圧スペクトル18を用いてもよい。雑音抑圧スペクトル18と推定雑音スペクトル17の比は、図3の説明にて前述しているように残留雑音の良い指標となり得るので、振幅平滑部12が平滑化処理をより効率的に動作させることができ、更なる主観品質改善を奏効することができる。
また、振幅平滑部12は、平滑化処理後のスペクトル成分に対し、音声信号に影響が無い程度(例えば、1dBの振幅)で、例えば、Hothスペクトル特性を持ったノイズ、ブラウンノイズ、あるいは白色ノイズに入力信号中の雑音スペクトルの周波数特性(傾斜など)を付与した雑音などの擬似雑音を重畳しても良い。
この実施の形態1によれば、雑音抑圧装置100は、入力信号1を周波数成分である入力信号スペクトル16に変換する時間・周波数変換部2と、入力信号1から推定雑音スペクトル17を推定する雑音スペクトル推定部8と、推定雑音スペクトル17に基づいて入力信号スペクトル16の雑音抑圧を行い、雑音抑圧スペクトル18を生成する雑音スペクトル抑圧部7と、雑音抑圧スペクトル18と推定雑音スペクトル17に基づく比に応じて雑音抑圧スペクトル18を変形すると共に平滑化(位相擾乱)した加工スペクトル19を生成する信号変形部13と、雑音抑圧スペクトル18に加工スペクトル19を加算して、雑音抑圧スペクトル18に含まれる劣化成分を抑圧する信号加算部11とを備えるように構成した。
そのため、雑音抑圧処理等によって劣化した雑音抑圧スペクトル18に対して信号加工部4が所定の加工処理を行うにあたり、雑音抑圧スペクトル18の周波数成分の値と、推定雑音スペクトル17の周波数成分の値に基づいて、雑音抑圧スペクトル18に含まれる劣化成分を主観的に気にならないようにした平滑化成分である加工スペクトル19を求めて、雑音抑圧スペクトル18の周波数成分に加算し、劣化成分を抑圧することができる。この結果、従来の方法では必要であった音声・雑音区間判定が要らなくなり、この結果、区間判定誤りによるエコー感や雑音感の発生無しに主観品質を改善できる効果がある。
また、信号加工部4が周波数領域にてスペクトル成分毎に、きめ細やかな加工成分の生成および加工処理を行うようにした。そのため、例えば、低域に雑音パワーが集中するような自動車走行騒音が混入した音声信号でも、低域の騒音の劣化感を主観的に改善しつつ、高域の音声成分は加工しないような劣化成分の加工処理が行えるので、更に主観品質を改善できる効果がある。
また、信号加工部4が、入力信号である雑音抑圧スペクトル18と、推定雑音スペクトル17の両者に基づいてスペクトル成分毎に加工成分を生成するようにした。そのため、各スペクトル成分に応じた加工制御が可能となり、例えば、ある帯域に局所的に劣化成分が生じている信号などに対しても、主観品質を改善できる効果がある。
また、信号加工部4の加工処理として、振幅スペクトル成分の平滑化と、位相スペクトル成分の擾乱を行うようにした。そのため、劣化成分が持つ人工的な振幅成分および位相成分に対して、それら成分の不安定な挙動を良好に抑圧したり、擾乱を与えたりすることができ、更に主観品質を改善できる効果がある。
なお、上記実施の形態1では、雑音抑圧スペクトル18に対して実施する処理を、位相擾乱部15と振幅平滑部12の両者で行う構成としたが、例えば、雑音抑圧装置100が位相擾乱部15のみを備えて位相擾乱処理のみ実施するなど、どちらか一方の処理だけ実施する構成でも構わない。
また、上記実施の形態1では、推定雑音スペクトル17の推定に、音声・雑音判定部9、雑音スペクトル更新部10を使用したが、雑音スペクトルを得る手段としては、この構成に限ったものではなく、例えば、雑音スペクトルの更新速度を非常にゆっくりとすることで音声・雑音判定部9を省略したり、推定雑音スペクトル17の推定を入力信号1から行わずに、雑音のみが入力される雑音推定用の入力信号から別途分析・推定したりする方法を取っても良い。
実施の形態2.
図5は、本実施の形態による雑音抑圧装置100の全体構成を示したものであり、上記実施の形態1の雑音抑圧装置100に信号減算部22を追加した構成である。以下の実施の形態の説明において、先立って説明した実施の形態1(図1)の構成要素と同一または相当するものには同一の符号を付し、説明を省略する。
加工成分算出部14は、推定雑音スペクトル17の周波数成分毎に、その振幅値に所定値を乗算した値(変形推定雑音スペクトル)を求め、その値と同じ振幅値を持つように、雑音抑圧スペクトル18を周波数成分毎に変形して変形雑音抑圧スペクトル18aとして位相擾乱部15へ出力するとともに、信号減算部22へも出力する、なお、推定雑音スペクトル17に乗算する所定値としては、実施の形態1と同様に、雑音の種類、雑音抑圧方法、劣化音の程度、または使用者の好みに合わせて予め調整すればよい。
信号減算部22は、雑音スペクトル抑圧部7が出力する雑音抑圧スペクトル18から変形雑音抑圧スペクトル18aを減算する減算処理を行い、得られたスペクトル成分を信号加算部11へ出力する。
図6は、信号変形部13と信号減算部22と信号加算部11における一連の処理内容を示す動作説明図であり、ある周波数の振幅スペクトルと位相スペクトルをベクトル化して表現したものである。図6において図2と同一または相当の部分については同一の符号を付し説明を省略する。
図6(a)は、図2(a)と同様に、雑音抑圧スペクトル18と推定雑音スペクトル17との関係の一例を図示したものであり、雑音抑圧スペクトル18のベクトル101、推定雑音スペクトル17のベクトル102、推定雑音スペクトル17の振幅に所定値を乗算したスカラ値103、変形雑音抑圧スペクトル18aのベクトル104、雑音抑圧スペクトル18から変形雑音抑圧スペクトル18aを減算したスペクトルの成分ベクトル107により表現される。
また、図6(b)は、図2(b)と同様に、雑音抑圧スペクトルと、図6(a)にて得られた加工スペクトル、および加算スペクトルとの関係の一例を図示したものであり、雑音抑圧スペクトル18のベクトル101、変形雑音抑圧スペクトル18aのベクトル104、加工スペクトル19のベクトル105、雑音抑圧スペクトル18から変形雑音抑圧スペクトル18aを減算したスペクトルの成分ベクトル107、加算スペクトル20のベクトル108により表現される。
図6において、図2と異なる点は、加工スペクトル19のベクトル105を雑音抑圧スペクトル18のベクトル101に加算処理する前に、変形雑音抑圧スペクトル18aのベクトル104を減算する点である。このことから、信号加算部11において劣化成分抑圧のために加工スペクトル19を加算する処理を行っても雑音抑圧スペクトル18の振幅が増加しないという利点がある。
振幅平滑部12は、上記実施の形態1と同様に、加算スペクトル20に対して振幅平滑化処理を行う。振幅平滑部12はまた、平滑化処理後のスペクトル成分に対し、音声信号に影響が無い程度(例えば、1dBの振幅)で、例えば、Hothスペクトル特性を持ったノイズ、ブラウンノイズ、あるいは白色ノイズに入力信号中の雑音スペクトルの周波数特性(傾斜など)を付与した雑音などの擬似雑音を重畳しても良い。
この実施の形態2によれば、雑音抑圧装置100において、雑音抑圧スペクトル18と推定雑音スペクトル17に基づく比に応じて雑音抑圧スペクトル18を変形した変形雑音抑圧スペクトル18aを生成すると共に、変形雑音抑圧スペクトル18aを平滑化(位相擾乱)した加工スペクトル19を生成する信号変形部13と、雑音抑圧スペクトル18から変形雑音抑圧スペクトル18aを減算する信号減算部22と、信号減算部22により変形雑音抑圧スペクトル18aが減算された雑音抑圧スペクトル18に加工スペクトル19を加算して、雑音抑圧スペクトル18に含まれる劣化成分を抑圧する信号加算部11を備えるように構成した。
信号加工部4が雑音抑圧スペクトル18に対し、変形雑音抑圧スペクトル18aを減算すると共に加工スペクトル19を加算するようにしたので、上記実施の形態1にて述べた効果に加えて、出力信号6の雑音感の増加を抑制しつつ、更に主観品質を改善できる効果がある。
なお、上記実施の形態2では、図5に示すように、信号減算部22の減算処理を行った後、信号加算部11の加算処理を行っているが、この順番を逆、即ち、雑音抑圧スペクトル18に加工スペクトル19を加算してから、変形雑音抑圧スペクトル18aを減算しても同じ効果が得られるのは言うまでもない。
また、上記実施の形態2では、雑音抑圧装置100が振幅平滑部12を備える構成としたが、振幅平滑部12を備えず振幅平滑化処理を省略する構成であっても構わない。
また、上記実施の形態2では、推定雑音スペクトル17の推定に、音声・雑音判定部9、雑音スペクトル更新部10を使用したが、上記実施の形態1と同様に雑音スペクトルを得る手段はこの構成に限ったものではなく、例えば、雑音スペクトルの更新速度を非常にゆっくりとすることで音声・雑音判定部9を省略したり、推定雑音スペクトル17の推定を入力信号1から行わずに、雑音のみが入力される雑音推定用の入力信号から別途分析・推定したりする方法を取っても良い。
実施の形態3.
上記実施の形態1および2では、信号変形部13内部の加工成分算出部14の処理において、推定雑音スペクトル17の周波数毎に乗算する所定値として、雑音抑圧処理における最大抑圧量近傍の値を用いる構成であった。本実施の形態では、推定雑音スペクトル17の周波数毎に乗算する所定値に、例えば低周波数では大きい値、高周波数では小さい値というような、周波数軸方向の重み付けを行う構成とする。本実施の形態の雑音抑圧装置の構成は、図1に示す上記実施の形態1または図5に示す実施の形態2の雑音抑圧装置100の構成と図面上では同様であり、加工成分算出部14の処理のみが異なる。
なお、加工成分算出部14は、周波数重み付けに用いる重み付け係数を、例えば、1つ以上複数のテーブル(プログラムにて記載する場合には定数配列となる)から、雑音の種類または使用者の好みに合わせて選択しても良いし、雑音パワーまたは推定雑音スペクトル17の低域成分パワーと高域成分パワーとの比から算出できるスペクトル傾斜量等を入力として、重み付け係数を生成出力する関数を予め定義しておき、フレーム毎にその関数から生成して逐次適用しても良い。
この実施の形態3によれば、加工成分算出部14が、推定雑音スペクトル17の周波数毎に乗算するための所定値に周波数方向の重み付けを行うようにした。そのため、上記実施の形態1および2にて述べた効果に加えて、周波数方向に劣化の度合いが異なるような信号に対しても、主観品質を改善できる効果がある。
実施の形態4.
上記実施の形態1では、雑音抑圧処理を周波数領域(またはスペクトル領域と言う)にて実施していたが、必ずしもこの構成である必要は無く、時間領域に実施しても構わない。図7は、本実施の形態による雑音抑圧装置100の全体構成を示したものであり、上記実施の形態1の雑音スペクトル抑圧部7に代えて雑音抑圧フィルタ部23と時間・周波数変換部24とを備える構成である。以下の実施の形態の説明において、先立って説明した実施の形態1(図1)の構成要素と同一または相当するものには同一の符号を付し、説明を省略する。
図7に示す雑音抑圧フィルタ部23は、入力信号1を入力して時間領域での雑音抑圧処理を行う。具体的には、雑音抑圧フィルタ部23は、入力信号1に対して例えばカルマンフィルタなどの時間軸処理に対応する雑音抑圧処理を行い、雑音抑圧信号として時間・周波数変換部24へ出力する。
時間・周波数変換部24は雑音抑圧フィルタ部23が出力する雑音抑圧信号を周波数領域の信号に変換する。具体的には、時間・周波数変換部24は、雑音抑圧信号のFFTを行い、得られたスペクトル成分を雑音抑圧スペクトル18として、信号加算部11と加工成分算出部14に出力する。なお、時間・周波数変換部24のFFTポイント数と、既に説明した時間・周波数変換部2のFFTポイント数は同一であることが望ましく、時間・周波数変換部24が雑音抑圧スペクトル18を出力する際に、時間・周波数変換部2とFFTポイント数が同一になるようにすれば良い。すなわち時間・周波数変換部24は、時間・周波数変換部2のFFTポイント数と比較して自身のFFTポイント数の方が大きい場合には例えばスペクトル成分を間引きあるいは平均化して出力し、小さい場合には例えばスペクトル成分を補間して出力すれば良い。ただし、時間・周波数変換部2,24のFFTポイント数は必ずしも同じである必要は無い。
この実施の形態4によれば、雑音抑圧処理の手法として周波数領域、時間領域を問わず、処理対象の信号の主観品質を改善できる効果がある。
なお、上記実施の形態4の構成は、上記実施の形態2および3に対しても容易に適応可能であり、その構成の場合にも、雑音抑圧処理の手法として周波数領域、時間領域を問わず、処理対象の信号の主観品質を改善できる効果がある。
実施の形態5.
実施の形態1の雑音抑圧装置100を変形して、本実施の形態に示す音声復号化装置200を構成してもよい。図8は、本実施の形態による音声復号化装置200の全体構成を示すものである。音声復号化装置200は、入力信号に代えて符号データ25が入力されるものとし、符号データ25を復号化処理する音声復号部26を新たに備える。図8において図1と同一または相当の部分については同一の符号を付す。
まず、符号データ25が、例えば不図示の有線もしくは無線通信路、またはメモリなどの記憶手段などを介して音声復号化装置200内の音声復号部26に入力される。なお、符号データ25は、別途、不図示の音声符号化部が音声音響信号を符号化した結果である。
音声復号部26は、符号データ25に対して前記音声符号化部の符号化処理に対応する所定の復号化処理を行い、復号信号27を時間・周波数変換部2および音声・雑音判定部9に出力する。
時間・周波数変換部2は、入力信号1の代わりに復号信号27に対して、上記実施の形態1と同様にフレーム分割および窓掛け処理を行い、窓掛け後の信号に対して例えばFFTを行う。そして、時間・周波数変換部2は、周波数毎のスペクトル成分である復号信号スペクトル28を信号加工部4および雑音スペクトル推定部8へ出力する。
雑音スペクトル推定部8では、まず、音声・雑音判定部9が、入力された復号信号27と復号信号スペクトル28とを用いて、現フレームの音声らしさ信号を算出する。続いて、雑音スペクトル更新部10が、復号信号スペクトル28中の平均的な雑音スペクトルを推定し、推定雑音スペクトル17として出力する。なお、この雑音スペクトル推定部8内の構成と各処理については、上記実施の形態1と同様なものを用いることが可能である。
信号加工部4内の信号変形部13は、復号信号スペクトル28と、雑音スペクトル推定部8が出力する推定雑音スペクトル17とを用いて、加工スペクトル19を生成する。まず、加工成分算出部14では、推定雑音スペクトル17の周波数成分毎に、その振幅値に所定値を乗算した値を得て、その得られた値と同じ振幅値を持つように、復号信号スペクトル28を周波数成分毎に変形し、変形復号信号スペクトル28aとして位相擾乱部15へ出力する。なお、実施の形態1とは異なり本実施の形態では雑音抑圧処理は行わないので、推定雑音スペクトル17に乗算する所定値は、最大抑圧量近傍の値ではなく、例えば、1もしくは1よりやや小さい値に設定したもの、または音声符号化方法、復号信号27の劣化度合いもしくは使用者の好みに合わせて予め調整したものを用いれば良い。また、複数の値をメモリ等に保持しておき、加工成分算出部14が音声符号化方法の種類などに応じて好適な値に切り替えることも可能である。
位相擾乱部15は、加工成分算出部14で算出された変形復号信号スペクトル28aに対し、周波数毎にその位相成分に擾乱を与え、擾乱後のスペクトルを加工スペクトル19として信号加算部11に出力する。各位相成分に擾乱を与える方法および位相擾乱範囲の制御方法は、実施の形態1と同様なものを用いることが可能である。
信号加算部11は、復号信号スペクトル28に加工スペクトル19を加算し、得られた加算スペクトル20を振幅平滑部12へ出力する。
振幅平滑部12は、信号加算部11から入力された加算スペクトル20に対して、周波数毎のスペクトルの振幅成分の平滑化処理を行い、平滑化後のスペクトルを平滑化復号信号スペクトル29として、周波数・時間変換部5に出力する。なお、この振幅平滑部12の構成、処理および平滑化制御方法などについては、実施の形態1と同様のものを用いることができ、各パラメータ等については、例えば、音声符号化方法または復号信号27の劣化度合いに合わせて予め調整すれば良い。
また、振幅平滑部12は、平滑化処理後のスペクトル成分に対し、音声信号に影響が無い程度(例えば、1dBの振幅)で、例えば、Hothスペクトル特性を持ったノイズ、ブラウンノイズ、あるいは白色ノイズに入力信号中の雑音スペクトルの周波数特性(傾斜など)を付与した雑音など、人工的に生成した擬似雑音を重畳しても良い。
周波数・時間変換部5は、信号加工部4から入力された平滑化復号信号スペクトル29に対して、逆FFT処理を行うことで時間領域信号に戻し、前後フレームとの滑らかな接続のための窓掛け処理を行いつつ連接を行い、得られた信号を出力信号6として出力する。
この実施の形態5によれば、音声復号化装置200は、所定の符号データ25を復号化して復号信号27を生成する音声復号部26と、復号信号27を周波数成分である復号信号スペクトル28に変換する時間・周波数変換部2と、復号信号27から推定雑音スペクトル17を推定する雑音スペクトル推定部8と、復号信号スペクトル28と推定雑音スペクトル17に基づく比に応じて復号信号スペクトル28を変形すると共に平滑化(位相擾乱)した加工スペクトル19を生成する信号変形部13と、復号信号スペクトル28に加工スペクトル19を加算して、復号信号スペクトル28に含まれる劣化成分を抑圧する信号加算部11とを備えるように構成した。
そのため、音声符号化処理によって劣化した復号信号スペクトル28に対して信号加工部4が所定の加工処理を行うにあたり、復号信号スペクトル28の周波数成分の値と、推定雑音スペクトル17の周波数成分の値に基づいて、復号信号スペクトル28に含まれる劣化成分を主観的に気にならないようにした平滑化成分である加工スペクトル19を求めて、復号信号スペクトル28の周波数成分に加算し、劣化成分を抑圧することができる。この結果、従来の方法では必要であった音声・雑音区間判定が要らなくなり、この結果、区間判定誤りによるエコー感や雑音感の発生無しに主観品質を改善できる効果がある。
また、信号加工部4が周波数領域にてスペクトル成分毎に、きめ細やかな加工成分の生成および加工処理を行うようにした。そのため、例えば、低域に雑音パワーが集中するような自動車走行騒音が混入した音声信号でも、低域の騒音の劣化感を主観的に改善しつつ、高域の音声成分は加工しないような劣化成分の抑圧処理が行えるので、更に主観品質を改善できる効果がある。
また、信号加工部4が、入力信号である復号信号スペクトル28と、推定雑音スペクトル17の両者に基づいてスペクトル成分毎に加工成分を生成するようにした。そのため、各スペクトル成分に応じた加工制御が可能となり、例えば、ある帯域に局所的に劣化成分が生じている信号などに対しても、主観品質を改善できる効果がある。
また、信号加工部4の加工処理として、振幅スペクトル成分の平滑化と、位相スペクトル成分の擾乱を行うようにした。そのため、劣化成分が持つ人工的な振幅成分および位相成分に対して、それら成分の不安定な挙動を良好に抑圧したり、擾乱を与えたりすることができ、更に主観品質を改善できる効果がある。
なお、上記実施の形態5では、復号信号スペクトル28に対して実施する処理を、位相擾乱部15と振幅平滑部12の両者で行う構成としたが、例えば、音声復号化装置200が位相擾乱部15のみを備えて位相擾乱処理のみ実施するなど、どちらか一方の処理だけ実施する構成でも構わない。
また、上記実施の形態5では、推定雑音スペクトル17の推定に、音声・雑音判定部9、雑音スペクトル更新部10を使用したが、上記実施の形態1と同様に雑音スペクトルを得る手段はこの構成に限ったものではなく、例えば、雑音スペクトルの更新速度を非常にゆっくりとすることで音声・雑音判定部9を省略したり、推定雑音スペクトル17の推定を復号信号27から行わずに、雑音のみが入力される雑音推定用の入力信号から別途分析・推定したりする方法を取っても良い。
実施の形態6.
上記実施の形態5と同様に、上記実施の形態2の雑音抑圧装置100を変形して、本実施の形態に示すような音声復号化装置200を構成してもよい。図9は、本実施の形態による音声復号化装置200の全体構成を示すものである。図9において図5または図8と同一または相当の部分については同一の符号を付し説明を省略する。
加工成分算出部14は、推定雑音スペクトル17の周波数成分毎に、その振幅値に所定値を乗算した値を得て、その得られた値と同じ振幅値を持つように、復号信号スペクトル28を周波数成分毎に変形し、変形復号信号スペクトル28aとして位相擾乱部15へ出力するとともに、信号減算部22へも出力する。なお、推定雑音スペクトル17に乗算する所定値は、上記実施の形態5と同様に、例えば、1もしくは1よりやや小さい値に設定したもの、または音声符号化方法、復号信号27の劣化度合いもしくは使用者の好みに合わせて予め調整したものを用いれば良い。また、複数の値をメモリ等に保持しておき、加工成分算出部14が音声符号化方法の種類などに応じて好適な値に切り替えることも可能である。
信号減算部22は、時間・周波数変換部2が出力する復号信号スペクトル28から、変形復号信号スペクトル28aを減算する減算処理を行い、得られたスペクトル成分を信号加算部11へ出力する。
振幅平滑部12は、上記実施の形態5と同様に、加算スペクトル20に対して振幅平滑化処理を行う。振幅平滑部12はまた、平滑化処理後のスペクトル成分に対し、音声信号に影響が無い程度(例えば、1dBの振幅)で、例えば、Hothスペクトル特性を持ったノイズ、ブラウンノイズ、あるいは白色ノイズに入力信号中の雑音スペクトルの周波数特性(傾斜など)を付与した雑音など、人工的に生成した擬似雑音を重畳しても良い。
この実施の形態6によれば、音声復号化装置200は、復号信号スペクトル28と推定雑音スペクトル17に基づく比に応じて復号信号スペクトル28を変形した変形復号信号スペクトル28aを生成すると共に、変形復号信号スペクトル28aを平滑化(位相擾乱)した加工スペクトル19を生成する信号変形部13と、復号信号スペクトル28から変形復号信号スペクトル28aを減算する信号減算部22と、信号減算部22により変形復号信号スペクトル28aが減算された復号信号スペクトル28に加工スペクトル19を加算して、復号信号スペクトル28に含まれる劣化成分を抑圧する信号加算部11とを備えるように構成した。
信号加工部4が復号信号スペクトル28に対し、変形復号信号スペクトル28aを減算すると共に加工スペクトル19を加算するようにしたので、上記実施の形態5にて述べた効果に加えて、出力信号6の雑音感の増加を抑制しつつ、更に主観品質を改善できる効果がある。
なお、上記実施の形態6では、図9に示すように、信号減算部22の減算処理を行った後、信号加算部11の加算処理を行っているが、この順番を逆、即ち、復号信号スペクトル28に加工スペクトル19を加算してから、変形復号信号スペクトル28aを減算しても同じ効果が得られるのは言うまでもない。
また、上記実施の形態6では、音声復号化装置200が振幅平滑部12を備える構成としたが、振幅平滑部12を備えず振幅平滑化処理を省略する構成であっても構わない。
また、上記実施の形態6では、推定雑音スペクトル17の推定に、音声・雑音判定部9、雑音スペクトル更新部10を使用したが、上記実施の形態1と同様に雑音スペクトルを得る手段はこの構成に限ったものではなく、例えば、雑音スペクトルの更新速度を非常にゆっくりとすることで音声・雑音判定部9を省略したり、推定雑音スペクトル17の推定を復号信号27から行わずに、雑音のみが入力される雑音推定用の入力信号から別途分析・推定したりする方法を取っても良い。
実施の形態7.
上記実施の形態5および6では、信号変形部13内部の加工成分算出部14の処理において、推定雑音スペクトル17の周波数毎に乗算する所定値として、周波数軸方向に一定の値を用いる構成であった。本実施の形態では、推定雑音スペクトル17の周波数毎に乗算する所定値に、例えば低周波数では大きな値、高周波数では小さい値というような、周波数軸方向の重み付けを行う構成とする。本実施の形態の音声復号化装置200の構成は、図8に示す実施の形態5または図9に示す実施の形態6の音声復号化装置200の構成と図面上では同様であり、加工成分算出部14の処理のみが異なる。
なお、加工成分算出部14は、周波数重み付けに用いる重み付け係数を、例えば、1つ以上複数のテーブル(プログラムにて記載する場合には定数配列となる)から、音声符号化方法の種類または使用者の好みに合わせて選択しても良いし、雑音パワーまたは推定雑音スペクトル17の低域成分パワーと高域成分パワーとの比から算出できるスペクトル傾斜量等を入力として、重み付け係数を生成出力する関数を予め定義しておき、フレーム毎に重み付け係数を生成して逐次適用しても良い。
この実施の形態7によれば、加工成分算出部14が、推定雑音スペクトル17の周波数毎に乗算するための所定値に周波数方向の重み付けを行うようにした。そのため、上記実施の形態5および6にて述べた効果に加えて、周波数方向に劣化の度合いが異なるような信号に対しても、主観品質を改善できる効果がある。
実施の形態8.
上記実施の形態1では、信号加工部4が推定雑音スペクトル17と雑音抑圧スペクトル18に基づく比に応じて加工スペクトル19を生成する構成であったが、本実施の形態では推定雑音スペクトル17と雑音抑圧スペクトル18に基づく比に応じて雑音抑圧スペクトル18の位相擾乱の幅を制御する構成とする。
図10は、本実施の形態による雑音抑圧装置100の全体構成を示すものである。図10に示す雑音抑圧装置100の信号加工部4は、図1に示す上記実施の形態1の信号加工部4とは異なり、位相擾乱部30、位相制御部31および振幅平滑部12から構成されている。なお、図10において図1と同一または相当の部分については同一の符号を付し説明を省略する。
位相制御部31は、雑音抑圧スペクトル18と推定雑音スペクトル17が入力されると、例えば、雑音抑圧スペクトル18と推定雑音スペクトル17との周波数毎のSN比(雑音抑圧スペクトル18をS、推定雑音スペクトル17をNとしたスペクトルSN比)を算出する。続いて位相制御部31は、算出したスペクトルSN比に応じて位相擾乱の幅を制御するための位相制御信号32を算出し、位相擾乱部30に出力する。
位相擾乱の範囲の制御方法としては、例えば、スペクトルSN比が小さい場合には位相擾乱の範囲が大きくなるように、逆にスペクトルSN比が大きい場合にはその範囲が小さくなるように制御する方法がある。位相擾乱の範囲を指示する位相制御信号32の設定方法としては、例えば、スペクトルSN比に対応する所定値をテーブル等に複数記憶させておき、位相制御部31が、算出したスペクトルSN比に最も近いテーブル上のスペクトルSN比に対応する所定値を位相制御信号32として出力する方法がある。または、スペクトルSN比を入力とし位相制御信号32を出力する所定の関数を予め定義しておき、位相制御部31がその関数を用いて位相制御信号32を算出しても良い。いずれの方法を用いる場合でも、雑音の種類、雑音抑圧方法、劣化の度合いまたは使用者の好みに合わせて予め調整すれば良い。
また、位相擾乱の範囲の制御において、位相制御部31は例えば、高域になるに従って擾乱の範囲を大きくし、低域は位相擾乱を止めるなど、周波数軸方向に重み付けしても良い。位相制御部31は、周波数重み付けに用いる重み付け係数を、例えば、1つ以上複数のテーブル(プログラムにて記載する場合には定数配列となる)から、雑音抑圧方法の種類または使用者の好みに合わせて選択しても良いし、雑音パワーまたは推定雑音スペクトル17の低域成分パワーと高域成分パワーとの比から算出できるスペクトル傾斜量等を入力として、重み付け係数を生成出力する関数を予め定義しておき、フレーム毎に重み付け係数を生成して逐次適用しても良い。
なお、上記位相擾乱の範囲の制御要因として、説明を簡単にするためにスペクトルSN比を例示して用いているが、この構成に限る必要は無く、例えば、雑音抑圧スペクトル18の全帯域パワーと推定雑音スペクトル17の全帯域パワーの比、および推定雑音スペクトル17の低域成分パワーと高域成分パワーとの比から算出できるスペクトル傾斜量等を制御要因として組み合わせて用いても良い。これら制御要因を追加することで、位相制御部31は更に精度良く位相擾乱の範囲を制御することが可能となり、更に主観品質を改善できる。
位相擾乱部30は、位相制御部31が出力する位相擾乱の幅を制御するための位相制御信号32に従って雑音抑圧スペクトル18の位相擾乱を行い、位相擾乱スペクトル33として出力する。なお、位相擾乱部30の代わりに、図1に示す上記実施の形態1に記載の位相擾乱部15の構成を用いても同様の効果を奏する。
振幅平滑部12は、位相擾乱部30から入力された位相擾乱スペクトル33に対して、周波数毎のスペクトルの振幅成分の平滑化処理を行い、平滑化後のスペクトルを平滑化雑音抑圧スペクトル21として、周波数・時間変換部5に出力する。なお、この振幅平滑部12の構成、処理および平滑化制御方法などについては、実施の形態1と同様のものを用いることができ、各パラメータ等については、例えば、雑音抑圧方法の種類または信号の劣化度合いに合わせて予め調整すれば良い。
また、振幅平滑部12は、平滑化処理後のスペクトル成分に対し、音声信号に影響が無い程度(例えば、1dBの振幅)で、例えば、Hothスペクトル特性を持ったノイズ、ブラウンノイズ、あるいは白色ノイズに入力信号中の雑音スペクトルの周波数特性(傾斜など)を付与した雑音など、人工的に生成した擬似雑音を重畳しても良い。
この実施の形態8によれば、雑音抑圧装置100は、雑音抑圧処理等によって劣化した雑音抑圧スペクトル18に対して信号加工部4が所定の加工処理を行うにあたり、入力信号である雑音抑圧スペクトル18の周波数成分の値と、推定雑音スペクトル17の周波数成分の値に基づいて、雑音抑圧スペクトル18に含まれる劣化成分を主観的に気にならないように位相擾乱するようにした。そのため、従来の方法では必要であった音声・雑音区間判定が要らなくなり、この結果、区間判定誤りによるエコー感や雑音感の発生無しに主観品質を改善できる効果がある。
また、信号加工部4が周波数領域にてスペクトル成分毎に、きめ細やかな加工処理を行うようにした。そのため、例えば、低域に雑音パワーが集中するような自動車走行騒音が混入した音声信号でも、低域の騒音の劣化感を主観的に改善しつつ、高域の音声成分は加工しないような劣化成分の加工処理が行えるので、更に主観品質を改善できる効果がある。
また、信号加工部4が、入力信号である雑音抑圧スペクトル18と、推定雑音スペクトル17の両者に基づいてスペクトル成分毎に加工処理を行うようにした。そのため、各スペクトル成分に応じた加工制御が可能となり、例えば、ある帯域に局所的に劣化成分が生じている信号などに対しても、主観品質を改善できる効果がある。
また、信号加工部4の加工処理として、振幅スペクトル成分の平滑化と、位相スペクトル成分の擾乱を行うようにした。そのため、劣化成分が持つ人工的な振幅成分および位相成分に対して、それら成分の不安定な挙動を良好に抑圧したり、擾乱を与えたりすることができ、更に主観品質を改善できる効果がある。
なお、上記実施の形態8では、雑音抑圧装置100が振幅平滑部12を備える構成としたが、振幅平滑部12を備えず振幅平滑化処理を省略する構成であっても構わない。
また、上記実施の形態8では、推定雑音スペクトル17の推定に、音声・雑音判定部9、雑音スペクトル更新部10を使用したが、上記実施の形態1と同様に雑音スペクトルを得る手段はこの構成に限ったものではなく、例えば、雑音スペクトルの更新速度を非常にゆっくりとすることで音声・雑音判定部9を省略したり、推定雑音スペクトル17の推定を入力信号1から行わずに、雑音のみが入力される雑音推定用の入力信号から別途分析・推定したりする方法を取っても良い。
また、上記実施の形態8では、雑音抑圧処理を周波数領域にて実施していたが、必ずしもこの構成である必要は無く、上記実施の形態8と上記実施の形態4の構成を組み合わせることで、時間領域の雑音抑圧処理についても実施可能である。具体的には、実施の形態4の信号加工部4を、実施の形態8の信号加工部4に置き換える。
この構成の場合には、雑音抑圧処理の手法として周波数領域および時間領域を問わず、その主観品質を改善できる効果がある。
実施の形態9.
上記実施の形態8と同様に、上記実施の形態5の音声復号化装置200を変形して、信号加工部4が復号信号スペクトル28と推定雑音スペクトル17に基づく比に応じて加工スペクトル19を生成する代わりに、復号信号スペクトル28と推定雑音スペクトル17に基づく比に応じて復号信号スペクトル28の位相擾乱の幅を制御してもよい。
図11は、本実施の形態による音声復号化装置200の全体構成を示すものである。図11に示す音声復号化装置200の信号加工部4は、図8に示す上記実施の形態5の信号加工部4とは異なり、位相擾乱部30、位相制御部31および振幅平滑部12から構成されている。図11において図5または図8と同一または相当の部分については同一の符号を付し説明を省略する。
位相制御部31は、復号信号スペクトル28と推定雑音スペクトル17が入力されると、例えば、復号信号スペクトル28と推定雑音スペクトル17との周波数毎のSN比(復号信号スペクトル28をS、推定雑音スペクトル17をNとしたスペクトルSN比)を算出する。続いて位相制御部31は、算出したスペクトルSN比に応じて位相擾乱の幅を制御するための位相制御信号32を算出し、位相擾乱部30に出力する。
位相擾乱の範囲の制御方法としては、例えば、スペクトルSN比が小さい場合には位相擾乱の範囲が大きくなるように、逆にスペクトルSN比が大きい場合にはその範囲が小さくなるように制御する方法がある。位相擾乱の範囲を指示する位相制御信号32の設定方法、擾乱の範囲の制御、および制御要因としては、実施の形態8での処理と同様な手法を用いることが可能であり、音声符号化方法の種類、劣化の度合いまたは使用者の好みに合わせて予め調整すれば良い。
位相擾乱部30は、位相制御部31が出力する位相制御信号32に従って復号信号スペクトル28の位相擾乱を行い、位相擾乱スペクトル33として出力する。なお、位相擾乱部30の代わりに、図1に示す上記実施の形態1に記載の位相擾乱部15の構成を用いても同様の効果を奏する。
振幅平滑部12は、位相擾乱部30から入力された位相擾乱スペクトル33に対して、周波数毎のスペクトルの振幅成分の平滑化処理を行い、平滑化後のスペクトルを平滑化復号信号スペクトル29として、周波数・時間変換部5に出力する。なお、この振幅平滑部12の構成、処理および平滑化制御方法などについては、上記実施の形態5と同様のものを用いることができ、各パラメータ等については、例えば、音声符号化方法の種類または信号の劣化度合いに合わせて予め調整すれば良い。
また、振幅平滑部12は、平滑化処理後のスペクトル成分に対し、音声信号に影響が無い程度(例えば、1dBの振幅)で、例えば、Hothスペクトル特性を持ったノイズ、ブラウンノイズ、あるいは白色ノイズに入力信号中の雑音スペクトルの周波数特性(傾斜など)を付与した雑音など、人工的に生成した擬似雑音を重畳しても良い。
この実施の形態9によれば、音声復号化装置200は、音声符号化処理によって劣化した復号信号スペクトル28に対して信号加工部4が所定の加工処理を行うにあたり、入力信号である復号信号スペクトル28の周波数成分の値と、推定雑音スペクトル17の周波数成分の値に基づいて、復号信号スペクトル28に含まれる劣化成分を主観的に気にならないように位相擾乱するようにした。そのため、従来の方法では必要であった音声・雑音区間判定が要らなくなり、この結果、区間判定誤りによるエコー感や雑音感の発生無しに主観品質を改善できる効果がある。
また、信号加工部4が周波数領域にてスペクトル成分毎に、きめ細やかな加工処理を行うようにした。そのため、例えば、低域に雑音パワーが集中するような自動車走行騒音が混入した音声信号でも、低域の騒音の劣化感を主観的に改善しつつ、高域の音声成分は加工しないような劣化成分の加工処理が行えるので、更に主観品質を改善できる効果がある。
また、信号加工部4が、入力信号である復号信号スペクトル28と、推定雑音スペクトル17の両者に基づいてスペクトル成分毎に加工処理を行うようにした。そのため、各スペクトル成分に応じた加工制御が可能となり、例えば、ある帯域に局所的に劣化成分が生じている信号などに対しても、主観品質を改善できる効果がある。
また、信号加工部4の加工処理として、振幅スペクトル成分の平滑化と、位相スペクトル成分の擾乱を行うようにした。そのため、劣化成分が持つ人工的な振幅成分および位相成分に対して、それら成分の不安定な挙動を良好に抑圧したり、擾乱を与えたりすることができ、更に主観品質を改善できる効果がある。
なお、上記実施の形態9では、音声復号化装置200が振幅平滑部12を備える構成としたが、振幅平滑部12を備えず振幅平滑化処理を省略する構成であっても構わない。
また、上記実施の形態9では、推定雑音スペクトル17の推定に、音声・雑音判定部9、雑音スペクトル更新部10を使用したが、上記実施の形態1と同様に雑音スペクトルを得る手段はこの構成に限ったものではなく、例えば、雑音スペクトルの更新速度を非常にゆっくりとすることで音声・雑音判定部9を省略したり、推定雑音スペクトル17の推定を復号信号27から行わずに、雑音のみが入力される雑音推定用の入力信号から別途分析・推定したりする方法を取っても良い。
実施の形態10.
上記実施の形態5〜7および9では、信号加工部4は復号信号スペクトル28を加工対象にして加工処理を実施する構成としたが、図12に示すように、雑音スペクトル抑圧部7が復号信号27の雑音抑圧処理を行った後で信号加工部4が信号加工を行う構成であっても良い。図12は本実施の形態による音声復号化装置200の全体構成を示したものである。図12では、雑音抑圧処理を行うために雑音スペクトル抑圧部7を備える構成を示すが、雑音スペクトル抑圧部7に代えて雑音抑圧フィルタ部23および時間・周波数変換部24(図7)を備える構成にしてもよい。なお、図12において図1〜11と同一または相当の部分については同一の符号を付し説明を省略する。
本実施の形態の雑音抑圧処理としては、上記実施の形態1にて述べたような雑音スペクトル抑圧部7による周波数領域での雑音抑圧方法、または上記実施の形態4にて述べたような雑音抑圧フィルタ部23による時間領域での雑音抑圧方法を用いることができる。このとき、復号信号スペクトル28には、音声符号化処理に伴う劣化に加えて、雑音抑圧処理に伴う劣化が新たに加わるが、劣化度合いに応じて、信号加工部4内の不図示の信号変形部13、振幅平滑部12、位相制御部31の制御方法および各種パラメータを適宜調整すれば良い。
さらに、音声復号部26の後段に接続する処理として、雑音抑圧処理を例示して説明したが、例えば、フォルマント強調や聴覚マスキング処理などのポストフィルタ処理、振幅ダイナミックレンジ圧縮処理など、他の信号加工処理に置き換えることも可能である。
この実施の形態10によれば、音声符号化処理起因以外の劣化成分を含む信号に対しても、主観的に好ましい信号に加工することができ、主観品質を改善できる効果がある。
実施の形態11.
上記実施の形態1〜10では、時間・周波数変換部2がFFTによってスペクトル成分を算出し、周波数・時間変換部5が加工処理の実施されたスペクトル成分を逆FFT処理によって時間領域の信号に戻す構成としているが、FFTの代わりにバンドパスフィルタ群の各出力に対して、加工処理を実施し、帯域別信号の加算によって出力信号を得る構成も可能であるし、ウェーブレット(Wavelet)変換等の変換関数を用いることも可能である。
この実施の形態11によれば、フーリエ変換を使用しない構成でも、実施の形態1〜10にて述べたのと同様の効果が得られる。
なお、上記実施の形態1〜11において、位相擾乱部15の構成の代わりに位相擾乱部30(および位相制御部31)の構成を用いてもよく、また、位相擾乱部30(および位相制御部31)の構成の代わりに位相擾乱部15の構成を用いてもよい。
以上のように、この発明に係る雑音抑圧装置および音声復号化装置は、音声・音響信号などの目的信号以外の雑音を抑圧することで、音質の改善および音声認識率などの向上を行うことのできる雑音抑圧装置および音声復号化装置としたので、種々の雑音環境下で用いられる、携帯電話およびインターフォンなどの音声通信システム、ハンズフリー通話システム、テレビ会議システム、監視システム、音声蓄積システム、音声認識システムなどに用いるのに適している。

Claims (12)

  1. 入力信号を周波数成分である入力信号スペクトルに変換する時間・周波数変換部と、
    前記入力信号から推定雑音スペクトルを推定する雑音スペクトル推定部と、
    前記推定雑音スペクトルに基づいて前記入力信号スペクトルの雑音抑圧を行い、雑音抑圧スペクトルを生成する雑音スペクトル抑圧部と、
    前記雑音抑圧スペクトルと前記推定雑音スペクトルに基づく比に応じて前記雑音抑圧スペクトルを変形すると共に平滑化した加工スペクトルを生成する信号変形部と、
    前記雑音抑圧スペクトルに前記加工スペクトルを加算して、当該雑音抑圧スペクトルに含まれる劣化成分を抑圧する信号加算部とを備える雑音抑圧装置。
  2. 信号変形部は、周波数軸方向の重み付けをした加工スペクトルを生成することを特徴とする請求項1記載の雑音抑圧装置。
  3. 入力信号を周波数成分である入力信号スペクトルに変換する時間・周波数変換部と、
    前記入力信号から推定雑音スペクトルを推定する雑音スペクトル推定部と、
    前記推定雑音スペクトルに基づいて前記入力信号スペクトルの雑音抑圧を行い、雑音抑圧スペクトルを生成する雑音スペクトル抑圧部と、
    前記雑音抑圧スペクトルと前記推定雑音スペクトルに基づく比に応じて前記雑音抑圧スペクトルを変形した変形雑音抑圧スペクトルを生成すると共に、当該変形雑音抑圧スペクトルを平滑化した加工スペクトルを生成する信号変形部と、
    前記雑音抑圧スペクトルから前記変形雑音抑圧スペクトルを減算する信号減算部と、
    前記信号減算部により前記変形雑音抑圧スペクトルが減算された前記雑音抑圧スペクトルに前記加工スペクトルを加算して、当該雑音抑圧スペクトルに含まれる劣化成分を抑圧する信号加算部とを備える雑音抑圧装置。
  4. 信号変形部は、周波数軸方向の重み付けをした加工スペクトルを生成することを特徴とする請求項3記載の雑音抑圧装置。
  5. 入力信号を周波数成分である入力信号スペクトルに変換する時間・周波数変換部と、
    前記入力信号から推定雑音スペクトルを推定する雑音スペクトル推定部と、
    前記推定雑音スペクトルに基づいて前記入力信号スペクトルの雑音抑圧を行い、雑音抑圧スペクトルを生成する雑音スペクトル抑圧部と、
    前記雑音抑圧スペクトルと前記推定雑音スペクトルに基づく比に応じた度合いで、前記雑音抑圧スペクトルの位相を擾乱する位相擾乱部とを備える雑音抑圧装置。
  6. 位相擾乱部は、周波数軸方向の重み付けをした位相擾乱の度合いを求めることを特徴とする請求項5記載の雑音抑圧装置。
  7. 所定の符号データを復号化して復号信号を生成する音声復号部と、
    前記復号信号を周波数成分である復号信号スペクトルに変換する時間・周波数変換部と、
    前記復号信号から推定雑音スペクトルを推定する雑音スペクトル推定部と、
    前記復号信号スペクトルと前記推定雑音スペクトルに基づく比に応じて前記復号信号スペクトルを変形すると共に平滑化した加工スペクトルを生成する信号変形部と、
    前記復号信号スペクトルに前記加工スペクトルを加算して、当該復号信号スペクトルに含まれる劣化成分を抑圧する信号加算部とを備える音声復号化装置。
  8. 信号変形部は、周波数軸方向の重み付けをした加工スペクトルを生成することを特徴とする請求項7記載の音声復号化装置。
  9. 所定の符号データを復号化して復号信号を生成する音声復号部と、
    前記復号信号を周波数成分である復号信号スペクトルに変換する時間・周波数変換部と、
    前記復号信号から推定雑音スペクトルを推定する雑音スペクトル推定部と、
    前記復号信号スペクトルと前記推定雑音スペクトルに基づく比に応じて前記復号信号スペクトルを変形した変形復号信号スペクトルを生成すると共に、当該変形復号信号スペクトルを平滑化した加工スペクトルを生成する信号変形部と、
    前記復号信号スペクトルから前記変形復号信号スペクトルを減算する信号減算部と、
    前記信号減算部により前記変形復号信号スペクトルが減算された前記復号信号スペクトルに前記加工スペクトルを加算して、当該復号信号スペクトルに含まれる劣化成分を抑圧する信号加算部とを備える音声復号化装置。
  10. 信号変形部は、周波数軸方向の重み付けをした加工スペクトルを生成することを特徴とする請求項9記載の音声復号化装置。
  11. 所定の符号データを復号化して復号信号を生成する音声復号部と、
    前記復号信号を周波数成分である復号信号スペクトルに変換する時間・周波数変換部と、
    前記復号信号から推定雑音スペクトルを推定する雑音スペクトル推定部と、
    前記復号信号スペクトルと前記推定雑音スペクトルに基づく比に応じた度合いで、前記復号信号スペクトルの位相を擾乱する位相擾乱部とを備える音声復号化装置。
  12. 位相擾乱部は、周波数軸方向の重み付けをした位相擾乱の度合いを求めることを特徴とする請求項11記載の音声復号化装置。
JP2010534608A 2008-10-24 2008-10-24 雑音抑圧装置および音声復号化装置 Active JP5153886B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/003021 WO2010046954A1 (ja) 2008-10-24 2008-10-24 雑音抑圧装置および音声復号化装置

Publications (2)

Publication Number Publication Date
JPWO2010046954A1 JPWO2010046954A1 (ja) 2012-03-15
JP5153886B2 true JP5153886B2 (ja) 2013-02-27

Family

ID=42119013

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010534608A Active JP5153886B2 (ja) 2008-10-24 2008-10-24 雑音抑圧装置および音声復号化装置

Country Status (5)

Country Link
US (1) US20110125490A1 (ja)
EP (1) EP2346032B1 (ja)
JP (1) JP5153886B2 (ja)
CN (1) CN102150206B (ja)
WO (1) WO2010046954A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8725506B2 (en) * 2010-06-30 2014-05-13 Intel Corporation Speech audio processing
JP5183828B2 (ja) 2010-09-21 2013-04-17 三菱電機株式会社 雑音抑圧装置
US9531344B2 (en) 2011-02-26 2016-12-27 Nec Corporation Signal processing apparatus, signal processing method, storage medium
CN103137133B (zh) * 2011-11-29 2017-06-06 南京中兴软件有限责任公司 非激活音信号参数估计方法及舒适噪声产生方法及系统
US9137600B2 (en) 2012-02-16 2015-09-15 2236008 Ontario Inc. System and method for dynamic residual noise shaping
US20150271439A1 (en) * 2012-07-25 2015-09-24 Nikon Corporation Signal processing device, imaging device, and program
GB2520048B (en) * 2013-11-07 2018-07-11 Toshiba Res Europe Limited Speech processing system
US9721580B2 (en) * 2014-03-31 2017-08-01 Google Inc. Situation dependent transient suppression
CN105338148B (zh) * 2014-07-18 2018-11-06 华为技术有限公司 一种根据频域能量对音频信号进行检测的方法和装置
JP6379839B2 (ja) * 2014-08-11 2018-08-29 沖電気工業株式会社 雑音抑圧装置、方法及びプログラム
US9953661B2 (en) * 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
JP6669277B2 (ja) * 2016-12-20 2020-03-18 三菱電機株式会社 音声ノイズ検出装置、デジタル放送受信装置、及び音声ノイズ検出方法
US11282531B2 (en) * 2020-02-03 2022-03-22 Bose Corporation Two-dimensional smoothing of post-filter masks

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134287A (ja) * 1999-11-10 2001-05-18 Mitsubishi Electric Corp 雑音抑圧装置
JP2003101445A (ja) * 2001-09-20 2003-04-04 Mitsubishi Electric Corp エコー処理装置
JP3454190B2 (ja) * 1999-06-09 2003-10-06 三菱電機株式会社 雑音抑圧装置および方法
JP2005258158A (ja) * 2004-03-12 2005-09-22 Advanced Telecommunication Research Institute International ノイズ除去装置
JP2008076975A (ja) * 2006-09-25 2008-04-03 Fujitsu Ltd 音信号補正方法、音信号補正装置及びコンピュータプログラム

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
JP3259759B2 (ja) * 1996-07-22 2002-02-25 日本電気株式会社 音声信号伝送方法及び音声符号復号化システム
JP4230414B2 (ja) 1997-12-08 2009-02-25 三菱電機株式会社 音信号加工方法及び音信号加工装置
KR100341044B1 (ko) * 1997-12-08 2002-07-13 다니구찌 이찌로오, 기타오카 다카시 음성 신호 가공 방법 및 음성 신호 가공 장치
US6088668A (en) * 1998-06-22 2000-07-11 D.S.P.C. Technologies Ltd. Noise suppressor having weighted gain smoothing
WO2000046789A1 (fr) * 1999-02-05 2000-08-10 Fujitsu Limited Detecteur de la presence d'un son et procede de detection de la presence et/ou de l'absence d'un son
EP1376539B8 (en) * 2001-03-28 2010-12-15 Mitsubishi Denki Kabushiki Kaisha Noise suppressor
JP3457293B2 (ja) * 2001-06-06 2003-10-14 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
US20030055645A1 (en) * 2001-09-18 2003-03-20 Meir Griniasty Apparatus with speech recognition and method therefor
JP4162604B2 (ja) * 2004-01-08 2008-10-08 株式会社東芝 雑音抑圧装置及び雑音抑圧方法
US7492889B2 (en) * 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
GB2422237A (en) * 2004-12-21 2006-07-19 Fluency Voice Technology Ltd Dynamic coefficients determined from temporally adjacent speech frames
US20080243496A1 (en) * 2005-01-21 2008-10-02 Matsushita Electric Industrial Co., Ltd. Band Division Noise Suppressor and Band Division Noise Suppressing Method
US20060184363A1 (en) * 2005-02-17 2006-08-17 Mccree Alan Noise suppression
JP4670483B2 (ja) * 2005-05-31 2011-04-13 日本電気株式会社 雑音抑圧の方法及び装置
US8566086B2 (en) * 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
CN101336451B (zh) * 2006-01-31 2012-09-05 西门子企业通讯有限责任两合公司 音频信号编码的方法和装置
ATE425532T1 (de) * 2006-10-31 2009-03-15 Harman Becker Automotive Sys Modellbasierte verbesserung von sprachsignalen
JP2008148179A (ja) * 2006-12-13 2008-06-26 Fujitsu Ltd 音声信号処理装置および自動利得制御装置における雑音抑圧処理方法
US9966085B2 (en) * 2006-12-30 2018-05-08 Google Technology Holdings LLC Method and noise suppression circuit incorporating a plurality of noise suppression techniques
JP5018193B2 (ja) * 2007-04-06 2012-09-05 ヤマハ株式会社 雑音抑圧装置およびプログラム
KR101437830B1 (ko) * 2007-11-13 2014-11-03 삼성전자주식회사 음성 구간 검출 방법 및 장치
US20110178800A1 (en) * 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3454190B2 (ja) * 1999-06-09 2003-10-06 三菱電機株式会社 雑音抑圧装置および方法
JP2001134287A (ja) * 1999-11-10 2001-05-18 Mitsubishi Electric Corp 雑音抑圧装置
JP2003101445A (ja) * 2001-09-20 2003-04-04 Mitsubishi Electric Corp エコー処理装置
JP2005258158A (ja) * 2004-03-12 2005-09-22 Advanced Telecommunication Research Institute International ノイズ除去装置
JP2008076975A (ja) * 2006-09-25 2008-04-03 Fujitsu Ltd 音信号補正方法、音信号補正装置及びコンピュータプログラム

Also Published As

Publication number Publication date
CN102150206A (zh) 2011-08-10
WO2010046954A1 (ja) 2010-04-29
EP2346032A1 (en) 2011-07-20
JPWO2010046954A1 (ja) 2012-03-15
EP2346032A4 (en) 2012-10-24
EP2346032B1 (en) 2014-05-07
US20110125490A1 (en) 2011-05-26
CN102150206B (zh) 2013-06-05

Similar Documents

Publication Publication Date Title
JP5153886B2 (ja) 雑音抑圧装置および音声復号化装置
JP5300861B2 (ja) 雑音抑圧装置
RU2329550C2 (ru) Способ и устройство для улучшения речевого сигнала в присутствии фонового шума
JP3591068B2 (ja) 音声信号の雑音低減方法
CN111899752B (zh) 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端
KR101120679B1 (ko) 이득-제한된 잡음 억제
US5706394A (en) Telecommunications speech signal improvement by reduction of residual noise
JP4836720B2 (ja) ノイズサプレス装置
JP6169849B2 (ja) 音響処理装置
JP5245714B2 (ja) 雑音抑圧装置及び雑音抑圧方法
WO2008121436A1 (en) Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate
JPWO2006046293A1 (ja) 雑音抑圧装置
JP2008216720A (ja) 信号処理の方法、装置、及びプログラム
JP5526524B2 (ja) 雑音抑圧装置及び雑音抑圧方法
JP2003280696A (ja) 音声強調装置及び音声強調方法
JP5840087B2 (ja) 音声信号復元装置および音声信号復元方法
RU2707144C2 (ru) Аудиокодер и способ для кодирования аудиосигнала
JP5131149B2 (ja) 雑音抑圧装置及び雑音抑圧方法
Esch et al. Wideband noise suppression supported by artificial bandwidth extension techniques
JP6559576B2 (ja) 雑音抑圧装置、雑音抑圧方法及びプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121204

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5153886

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250