JP4965891B2

JP4965891B2 - 信号処理装置およびその方法

Info

Publication number: JP4965891B2
Application number: JP2006121270A
Authority: JP
Inventors: フィリップガーナー
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2006-04-25
Filing date: 2006-04-25
Publication date: 2012-07-04
Anticipated expiration: 2026-04-25
Also published as: JP2007293059A; US20070250312A1; US7890319B2

Description

本発明は、例えば音声信号のような信号の信号処理に関する。

多くのディジタル信号処理(DSP)システムは、入力信号の周波数領域の情報を得るために、FFT (Fast Fourier Transform)、または、それに類似する処理を実行する。FFTの場合、情報は、複素ベクトル値として得られる。そして、複素ベクトル値の実部と虚部の二乗和をとることで、ピリオドグラム(periodogram)として知られるベクトル値が得られる。ピリオドグラムは、PSD (Power Spectral Density)とも言われる。ここでは、簡潔な表現であるPSDを用いる。もし、信号が二つの独立した信号の和であれば、PSDも二つの独立したPSDの和として近似することができ、利用し易い信号表現である。

オーディオディジタル信号処理において、入力信号は、二つの信号から構成されることが多い。一方は人が話す音声であり、他方は電子回路が発生する雑音(circuit noise)や機械や自動車などが発生する背景雑音(background noise)である。信号全体から雑音を除去し、クリーンな音声信号を取り出す方法の応用には、次の二つの代表的なアプリケーションがある。

一つ目は自動音声認識(automatic speach recognition: ASR)である。ASRは、ユーザが発声した音声を認識し、その音声を基に何らかの操作を行うことを目標とする。例えば、演説、会話、発言(speech)などの書き起こし(transcribe)や、発声命令に基づく機械の操作である。ASRシステムは、通常、クリーンな音声だけを受け入れる。もし、雑音で劣化した音声をASRシステムに適用した場合、その性能は大きく低下する。

二つ目は音声強調(speech enhancement)である。音声強調は、雑音が載った音声信号から、クリーンで聞き取り可能な音声信号を生成することを目標とする。例えば、騒々しい機械の傍で電話をすると、電話相手は、音声とともに機械の騒音も聞くことになる。しかし、電話相手は、機械の騒音を除いた相手の音声のみを聞きたい筈である。音声強調は、これを達成しようとする。

上記のASRや音声強調には、スペクトルサブトラクション(spectral subtraction: SS)として知られる処理が、信号から雑音を除去するためにしばしば用いられる。これは、音声と雑音のPSDは加法的で、音声は、雑音の推定量を単純に減算することで復元できるという基本的な前提に基づく。

以下では、典型的なSSを図1を参照して説明する。なお、図1はSSを行う音声認識処理の前処理部分の構成を示すブロック図である。

まず、フレーム処理された入力信号をハートレー変換(Hartley transform)部16により、周波数領域の情報に変換する。そして、ピリオドグラム計算部17により、入力信号のPSDを計算する。

次に、雑音推定部32により、人が音声を発声していない、雑音だけが存在する無音区間(silence)において、複数フレームに亘り平均雑音PSDを計算する。

そして、SS部33により、各フレームのPSDから平均雑音PSDを減算し、雑音を除去したクリーンな音声PSDを得る。

ASRにおいては、メルスケール化フィルタ(mel-scaled filter) 18により、クリーンな音声PSDをフィルタ処理して、元のPSDより次数の小さいPSDベクトルを生成する。そして、隠れマルコフモデル(hidden Markov model: HMM)のようなパターン認識アルゴリズムが使用する特徴量として、対数演算部19により、メルスケール化されたPSDの対数を計算する。なお、対数演算部19の出力を離散コサイン変換したものを特徴量としてもよい。

一方、音声強調においては、雑音が除去された音声PSDは、雑音PSDと組み合わされ、例えばウィナーフィルタ(Weiner filter)処理される。ウィナーフィルタは、複素数のFFTの結果に重み付けをするために用いられる。さらに、この結果は、逆FFT(IFFT)により逆変換される。最後に、オーバラップおよび加算処理を行い、復元された音声信号を得る。

上記の処理の主要な問題は、雑音推定部32およびSS部33の不完全さにある。雑音推定部32における推定値は、有限のPSDフレームから計算する。もし、雑音の計算に少数のフレームしか利用できなければ、推定値は正確とは言えない。これは、もう一つの、これとは独立した次の問題にも影響する。

PSDはランダムに変動するので、SS処理はときどき、クリーンな音声PSDの結果として零または負を与える。PSDの値は、定義により正でなくてはならないから、何らかの訂正が必要になる。単純に、負の値を零にフロアリングする方法はうまく働かないことが知られている。ASRの場合、次は対数演算であり、零付近の値は負の無限に近付き、特徴量の通常の範囲を遥かに超えてしまう。音声強調では、小さい値はミュージカル雑音現象をもたらし、信号に音楽のような音を混入する。

ゼロPSD問題の対策として、二つの異なる解決方法を一般に用いる。

フロアリング：ASRでは、SSの結果がフロアリング値より小さくなることを認めず、通常、SS処理前のPSDの縮尺を変更した値にする方法を用いる。

時間方向フィルタ処理：音声強調では、SS値は零にフロアリングされた後、前フレームの値とSS処理された値の線形変換により求まる最終的な値を得る時間方向のフィルタを施す。発明者らは、このフィルタ処理が、ASRに有効ではないことを見出している。

先行技術文献としては次のようなものがある。

音声強調の概念、ウィナ−フィルタ処理、SSは周知技術であり、例えば非特許文献1に記載されている。ASRおよびメルフィルタ処理の概念は周知技術であり、例えば非特許文献2に記載されている。カルマンフィルタ処理(Kalman filitering)は周知技術であり、非特許文献3に記載されている。

特許文献1は、音声強調において、時間方向と周波数方向の両方向でスムージング処理を施す方法を記載する。周波数方向のスムージング処理では、再帰的なフィルタ処理ではなく、FIR処理を用いており、PSDの位置に依存して決まる方法ではなく、固定の係数となるフィルタを用いる。

特許文献2と非特許文献4は、隣接するスペクトルビン(spectral bins)に依存するスペクトルフィルタを用いることを記載する。しかし、係数はPSDの位置に依存しない。この場合のスペクトルフィルタは時間方向のものであり、以下で説明するが、PSDの時間的フィルタ処理を避けようとする本発明とは異なる。

特許文献3は、最新のASR用の雑音除去システムを記載する。このシステムは、例えばウィナーフィルタ処理のような付加的な技術を用いる。しかし、カルマンフィルタのような再帰的フィルタを用いず、実現には多くの計算量を要する。

Quatieri「Discrete Time Speech Signal Processing」ISBN 0-13-242942-X Rabiner and Juang「Fundamentals of Speech Recognition」ISBN 0-13-015157-2 Scharf「Statistical Signal Processing ? Detection, Estimation and Time Series Analysis」ISBN 0-201-19038-9 ICASSP 2005 volume I 1081頁米国特許6,931,292号国際出願公開02/095732号米国特許出願公開2003/0018471号

本発明は、音声信号から雑音を除去することを目的とする。

本発明は、前記の目的を達成する一手段として、以下の構成を備える。

本発明にかかる信号処理は、音声信号のパワースペクトル密度を平滑化する際に、音声信号の複数のフレームのパワースペクトル密度を取得し、前記取得したパワースペクトル密度に基づき、雑音のパワースペクトル密度の推定値を推定し、前記音声信号の各フレームのパワースペクトル密度から前記推定値を減算して、前記音声信号の各フレームのパワースペクトル密度のスペクトルサブトラクションを決定し、前記音声信号の各フレームのパワースペクトル密度のスペクトルサブトラクションに第一のカルマンフィルタ処理と第二のカルマンフィルタ処理を施し、前記第一のカルマンフィルタ処理結果の信号と前記第二のカルマンフィルタ処理結果の信号を線形結合して、前記音声信号の各フレームのパワースペクトル密度の平滑化スペクトルサブトラクションを決定し、前記第一のカルマンフィルタ処理は前記パワースペクトラム密度の最低周波数から最高周波数に向かって処理を進め、前記第二のカルマンフィルタ処理は前記パワースペクトラム密度の前記最高周波数から前記最低周波数に向かって処理を進め、前記第一および第二のカルマンフィルタ処理は、前記パワースペクトラム密度の前記最低周波数と前記最高周波数の間に含まれる各フレームの周波数に依存する複数のフィルタ係数を使用することを特徴とする。

本発明によれば、音声信号から雑音を除去することができる。

以下、本発明にかかる実施例の情報処理を図面を参照して詳細に説明する。

［概要］
SSにおける本質的な問題は、極めて少ないデータ量からPSDの統計的な推定値を得なければならないことにある。未処理のSS PSD(raw SS PSD)の場合、各推定用に、たった一つの(PSD)値を使用する。より耐性のある推定を得るには、より多くのデータを用いて推定する必要がある。

本発明は、以下の二つの仮定に基づく。

一つ目は、フレームサイズが信号が安定とみなせる最小期間に設定される。言い換えると、連続するフレームには相関がないと仮定する。これは、HMMの仮定に非常に近い。

二つ目は、PSDのベクトルのサイズが非常に大きい。つまり、実際の音声スペクトルは、PSD値の数よりも遥かに小さい自由度をもつ。そして、隣接するPSD値は非常に高い相関をもつ。

上記の仮定からは、PSD値の時間方向のフィルタ処理は回避すべきで、（単一フレーム内のPSDベクトルに沿う）周波数方向のフィルタ処理が有効であると考えられる。発明者らは、これが、先行技術寄りも有効な方法であることを見出した。

本発明の特徴は、周波数を適用したカルマンフィルタの形態にある。カルマンフィルタ自体は周知技術である。しかし、本実施例が用いる再帰計算式は通常の式とは異なる。フィルタは、二つの単極再帰フィルタを構成する。一つ目のフィルタは、ベクトルの最初のPSD値によって初期化され、高次のインデックス値に向かってPSDベクトルをフィルタ処理する。二つ目のフィルタは、高次のインデックスPSD値から最初のPSD値に向かう以外は、一つ目のフィルタとほぼ同様である。フィルタ処理された二つの信号は線形に結合され、単一のカルマン平滑化PSDを与える。

［SS処理］
次に、本発明のSS処理の概要を説明する。

まず、複数の雑音フレームのPSDを合計し、カルマンフィルタにより、合計したPSDを平滑化する。各フィルタの係数は、合計を正規化するように選択する。フィルタの出力は、改良された雑音PSDの推定値となっている。

次に、後に続く各フレームのPSDから雑音PSDの推定値を減算し、負の値は零にフロアリングして、SS PSDを得る。

そして、カルマンフィルタを使用してSS PSDを平滑化し、平滑化したクリーンな音声PSDを得る。フィルタ係数は、フロアリング値を含むように、適宜、変更される。

ASRにおいては、フィルタ係数は、次の工程のメルフィルタ処理を必要としないように選択する。サイズを小さくしたメルPSDは、全PSDから単にサンプリングするだけで構成することができる。これは、図2に示す、応答ピークを中央に設定した16のインパルスのカルマンフィルタの非正規化インパルス応答に示される。図3は、同位置に中央を設定した従来のメルビン(mel bins)を示す。

また、音声強調の場合は、全PSDを用いて、例えばウィナーフィルタによって音声信号の再構成を行う。

［特徴抽出処理］
次に、ASRにおける特徴抽出処理を説明するが、当業者であれば、同等または類似の方法により、音声強調を実行することができる。

図4は通常のASRの前処理におけるデータの流れを示すブロック図である。

最初は、通常のASRの前処理と同じ処理を行う。例えばマイクによって入力される音声信号10は、PCMサンプラ13によって例えば11.025 kHzでサンプリングされる。そして、プリエンファシス14のフィルタ処理により、直流(DC)成分が除去され、高域強調（または低域低減）が施される。本実施例では下式を用いる。
x_t' = x_t - x_t-1 …(1)
ここで、x_tは時間tの音声信号のサンプル値

フィルタ処理された信号は、ハミング窓(Hamming window)によるウィンドウ処理部15により、256サンプルのフレームに分割される。新フレームは110サンプルごとに開始される。これは、フレームが互いに重なっていること、および、一秒当り100フレームになることを意味する。

その後、各フレームは、ハートレー変換部16により変換処理される。ハートレー変換部16によって得られる同一の周波数に対応する二つの出力は、PSD生成部34により、未処理のPSD (raw PSD)を形成するために二乗和される。ハートレー変換の出力を、このように利用すれば、FFTやDFT (discrete Fourier transform)を使用する場合と同じ結果が得られることは周知である。ここで、raw PSDベクトルをpとし、pのk番目の値をp_kと表す。PSDベクトルはK個の値をもち、本実施例ではK = 129とする。

ここからは通常のASRの前処理とは異なる処理になる。図5はSS部35の構成（つまり、通常のASRとは異なる構成）を示すブロック図である。

図5に示す雑音加算部42は、雑音PSD推定値を形成するために、最初のNフレームを合計する。なお、本実施例ではN = 9である。カルマンフィルタ43は、合計されたベクトルを、下式の第一の再帰フィルタによりフィルタ処理する。
d_k = {a_k/(a_k + N)}d_k-1 + {1/(a_k + N)}Σ_f=1 ^Np_{f, k} …(2)

式(2)において、詳細は後述するが、Σ演算はf番目のPSDフレームのk番目の要素の総和を表す。第一の再帰フィルタは、PSDの最低周波数から処理を始めて、最高周波数に向かって処理を進める。最低周波数フィルタの値は次式で初期化される。
d₁ = (1/N)Σ_f=1 ^Np_{f, 1} …(3)

また、カルマンフィルタ43は、合計されたベクトルを、下式に示す第二の再帰フィルタによりフィルタ処理する。
e_k = {a_k/(a_k + N)}e_k+1 + {1/(a_k + N)}Σ_f=1 ^Np_{f, k} …(4)

第二の再帰フィルタは、PSDの最高周波数から処理を始めて、最低周波数に向かって処理を進める。最高周波数フィルタの値は次式で初期化される。
e_K = (1/N)Σ_f=1 ^Np_{f, K} …(5)

そして、カルマンフィルタ43は、平滑化した雑音PSD推定値を得るために、第一と第二の再帰フィルタ処理の結果を線形に結合する。
n_k = {1/(2a_k + N)}(d_k-1 + e_k+1) + {a_k/(2a_k + N)}Σ_f=1 ^Np_{f, k} …(6)
ただし、最低周波数は次式で計算する
n₁ = {1/(a₁ + N)}e₂ + {a₁/(a₁ + N)}Σ_f=1 ^Np_{f, 1} …(7)
また、最高周波数は次式で計算する
n_K = {1/(a_K + N)}d_K-1 + {a_K/(a_K + N)}Σ_f=1 ^Np_{f, K} …(8)

次に、各フレームの正規化SS PSD推定値を計算するために、SS部44により、各PSDフレームから雑音PSD推定値を減算したraw SS PSDを計算する。
s_k = p_k - n_k …(9)

なお、SS部44は、すべての負のSS PSD値を零に置換する。また、平滑化PSDのフロアリング値cを下式で計算する。
c_k = p_k/16 …(10)
ここで、数値16は、経験的に求めた定数

カルマンフィルタ45は、雑音推定と同様に、SS PSDベクトルを下式の第一の再帰フィルタによりフィルタ処理する。
g_k = {a_k/(a_k+b+1)}g_k-1 + {1/(a_k+b+1)}s_k + {b/(a_k+b+1)}c_k …(11)

なお、本実施例ではb=2とする。第一の再帰フィルタは、PSDの最低周波数から処理を始めて、最高周波数に向かって処理を進める。最低周波数フィルタの値は次式で初期化される。
g₁ = {1/(b+1)}s₁ + {b/(b+1)}c₁ …(12)

また、カルマンフィルタ45は、SS PSDベクトルを下式の第二の再帰フィルタによりフィルタ処理する。
h_k = {a_k/(a_k+b+1)}h_k+1 + {1/(a_k+b+1)}s_k + {b/(a_k+b+1)}c_k …(13)

第二の再帰フィルタは、PSDの最高周波数から処理を始めて、最低周波数に向かって処理を進める。最高周波数フィルタの値は次式で初期化される。
h_K = {1/(b+1)}s_K + {b/(b+1)}c_K …(14)

そして、カルマンフィルタ45は、平滑化したSS PSD推定値を得るために、第一と第二の再帰フィルタ処理の結果を線形に結合する。
q_k = {1/(2a_k+b+1)}(g_k-1+h_k+1) + {a_k/(2a_k+b+1)}s_k + {b/(2a_k+b+1)}c_k …(15)
ただし、最低周波数は次式で計算される
q₁ = {1/(a₁+b+1)}h₂ + {a₁/(a₁+b+1)}s₁ + {b/(a₁+b+1)}c₁ …(16)
また、最高周波数は次式で計算される
q_K = {1/(a_K+b+1)}g_K-1 + {a_K/(a_K+b+1)}s_K + {b/(a_K+b+1)}c_K …(17)

上記の計算式で用いたa_kを求めるため、a_Kをメル三角形の幅(width of mel triangle)の半分になるように定義する。それは、メルフィルタを用いる場合のPSDの kの位置になる場所に相当する。この値は、次式によって計算する。
a_k = {700 + (k - 1)r/2K}K/(1127W・r) …(18)
ここで、rはサンプリングレート（本実施例では11025）
Wはメル三角形をメル尺度で測ったときの幅に相当

なお、本実施例では、300Hz（401.97メル）と5000Hz（2363.5メル）の間を、等間隔に32メル三角形で分割したものと等価になるようにシミュレートし、次式によってWを定義した。
W = (2363.5 - 401.97)/33 …(19)

このうように、カルマンフィルタ45の処理の中で、a_kの係数を用いてメルフィルタ処理することにより、カルマンフィルタ処理（平滑化）したSS PSD推定値を計算した後、改めてメルフィルタ処理を行う必要はない。

本実施例では、平滑化したSS PSDベクトルから、メル尺度上で等間隔になるような位置の32個の値をサンプリングする。サンプリング位置は図3に示す頂点の位置に相当する（ただし、図3には横軸のPSDインデクスの数が16の三角形しか記載していない）。

以降は、通常のASRの前処理に戻る。32個のメル値は、対数演算部19によって対数化される。そして、メル周波数ケプストラム係数(Mel frequencey cepstrum coefficient: MFCC)の特徴であるMFCC特徴21を求めるため、DCT部20によって離散コサイン変換される。MFCC特徴21は、より好ましくは、ケプストラム平均減算(cepstrum mean substraction: CMS)により正規化される。CMSは、よく知られた技術であり、ここでは改めて説明しない。

［変形例］
上記の実施例では、オーディオ信号を処理する例を説明した。しかし、本発明は、ソナーやレーダなどのサンプルされた形式の信号であれば、何れの信号にも適用可能である。

プリエンファシス部14やウィンドウ処理部15は、典型的なASR用の処理で、必須ではない。同様に、対数演算部19やDCT部20もASR用の典型的な処理で、必須ではない。これらの工程は、本発明の本質を阻害することなく、削除したり、あるいは、他の処理と置き換えることができる。

メル尺度は典型的なASRに用いられる。しかし、他の線形または非線形のワーピング（例えばバーク尺度(Bark scale)）などに、本発明の本質を阻害することなく、置き換えることできる。

FFT、DFTやハートレー変換はよく知られた技術であり、同じ算術結果を得ることができる。これらは、計算の複雑度が異なるに過ぎない。周波数変換を行う方法としては、よく知られた他の方法もあり、これらの方法も、本発明の本質を阻害することなく利用することが可能である。

本実施例では、雑音PSD推定値は一度のみ計算する。しかし、背景雑音の変化を追跡し更新するために、連続、あるいは、音声信号中のポーズ区間から雑音を推定することが可能である。

このうように、性能と計算量をより改良した信号処理により、サンプリングされた信号から雑音を推定することができる。そして、雑音の推定結果に基づき、サンプリングされた信号から雑音を除去することができる。

［他の実施例］
なお、本発明は、複数の機器（例えばホストコンピュータ、インタフェイス機器、リーダ、プリンタなど）から構成されるシステムに適用しても、一つの機器からなる装置（例えば、複写機、ファクシミリ装置など）に適用してもよい。

また、本発明の目的は、上記実施例の機能を実現するソフトウェアを記録した記憶媒体（記録媒体）をシステムまたは装置に供給し、そのシステムまたは装置のコンピュータ（CPUやMPU）が前記ソフトウェアを実行することでも達成される。この場合、記憶媒体から読み出されたソフトウェア自体が上記実施例の機能を実現することになり、そのソフトウェアを記憶した記憶媒体は本発明を構成する。

また、前記ソフトウェアの実行により上記機能が実現されるだけでなく、そのソフトウェアの指示により、コンピュータ上で稼働するオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、それによって上記機能が実現される場合も含む。

また、前記ソフトウェアがコンピュータに接続された機能拡張カードやユニットのメモリに書き込まれ、そのソフトウェアの指示により、前記カードやユニットのCPUなどが実際の処理の一部または全部を行い、それによって上記機能が実現される場合も含む。

本発明を前記記憶媒体に適用する場合、その記憶媒体には、先に説明したフローチャートに対応するソフトウェアが格納される。

SSを行う音声認識処理の前処理部分の構成を示すブロック図、メルサンプル位置におけるカルマン平滑化重み係数を示す図（重み係数はメルbinとの関係を強調するために正規化されていない）、従来のメルビン(mel bins)を示す図、通常のASRの前処理におけるデータの流れを示すブロック図、カルマン平滑化スペクトルサブトラクションを行うようにした通常の音声認識の前処理部である。

Claims

音声信号のパワースペクトル密度を平滑化する信号処理装置であって、
音声信号の複数のフレームのパワースペクトル密度を取得する取得手段と、
前記取得したパワースペクトル密度に基づき、雑音のパワースペクトル密度の推定値を推定する推定手段と、
前記音声信号の各フレームのパワースペクトル密度から前記推定値を減算して、前記音声信号の各フレームのパワースペクトル密度のスペクトルサブトラクションを決定する減算手段と、
前記音声信号の各フレームのパワースペクトル密度のスペクトルサブトラクションに第一のカルマンフィルタ処理と第二のカルマンフィルタ処理を施し、前記第一のカルマンフィルタ処理結果の信号と前記第二のカルマンフィルタ処理結果の信号を線形結合して、前記音声信号の各フレームのパワースペクトル密度の平滑化スペクトルサブトラクションを決定する決定手段とを有し、
前記第一のカルマンフィルタ処理は前記パワースペクトラム密度の最低周波数から最高周波数に向かって処理を進め、前記第二のカルマンフィルタ処理は前記パワースペクトラム密度の前記最高周波数から前記最低周波数に向かって処理を進め、
前記第一および第二のカルマンフィルタ処理は、前記パワースペクトラム密度の前記最低周波数と前記最高周波数の間に含まれる各フレームの周波数に依存する複数のフィルタ係数を使用することを特徴とする信号処理装置。
音声認識処理または音声強調処理を行う装置に組み込まれることを特徴とする請求項1に記載された信号処理装置。
取得手段、推定手段、減算手段、決定手段を有し、音声信号のパワースペクトル密度を平滑化する信号処理装置の信号処理方法であって、
前記取得手段が、音声信号の複数のフレームのパワースペクトル密度を取得し、
前記推定手段が、前記取得したパワースペクトル密度に基づき、雑音のパワースペクトル密度の推定値を推定し、
前記減算手段が、前記音声信号の各フレームのパワースペクトル密度から前記推定値を減算して、前記音声信号の各フレームのパワースペクトル密度のスペクトルサブトラクションを決定し、
前記決定手段が、前記音声信号の各フレームのパワースペクトル密度のスペクトルサブトラクションに第一のカルマンフィルタ処理と第二のカルマンフィルタ処理を施し、前記第一のカルマンフィルタ処理結果の信号と前記第二のカルマンフィルタ処理結果の信号を線形結合して、前記音声信号の各フレームのパワースペクトル密度の平滑化スペクトルサブトラクションを決定し、
前記第一のカルマンフィルタ処理は前記パワースペクトラム密度の最低周波数から最高周波数に向かって処理を進め、前記第二のカルマンフィルタ処理は前記パワースペクトラム密度の前記最高周波数から前記最低周波数に向かって処理を進め、
前記第一および第二のカルマンフィルタ処理は、前記パワースペクトラム密度の前記最低周波数と前記最高周波数の間に含まれる各フレームの周波数に依存する複数のフィルタ係数を使用することを特徴とする信号処理方法。
請求項3に記載された信号処理をコンピュータに実行させるためのプログラム。