JP2007241104A - 適応線形予測器、音声強調装置、及び音声強調システム - Google Patents
適応線形予測器、音声強調装置、及び音声強調システム Download PDFInfo
- Publication number
- JP2007241104A JP2007241104A JP2006066278A JP2006066278A JP2007241104A JP 2007241104 A JP2007241104 A JP 2007241104A JP 2006066278 A JP2006066278 A JP 2006066278A JP 2006066278 A JP2006066278 A JP 2006066278A JP 2007241104 A JP2007241104 A JP 2007241104A
- Authority
- JP
- Japan
- Prior art keywords
- variance
- unit
- signal
- noise
- normalized lms
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】リアルタイム処理が可能でしかも音質が劣化することのない音声強調装置を提供する。
【解決手段】 雑音付加音声信号である入力信号x(n)を、1サンプリング時間遅延する遅延回路21と、遅延回路21に接続された有限長フィルタ回路11と、有限長フィルタ回路11のγ−正規化LMS係数を調整するγ正規化LMS係数調整部12bと、入力信号x(n)から有限長フィルタ回路11の出力信号y(n)を減算し、減算結果をγ正規化LMS係数調整部12bにフィードバックする減算回路13と、入力信号x(n)から白色雑音の分散を推定し、γ正規化LMS係数調整部12bに白色雑音の分散を出力する雑音推定部14とを備える。
【選択図】 図2
【解決手段】 雑音付加音声信号である入力信号x(n)を、1サンプリング時間遅延する遅延回路21と、遅延回路21に接続された有限長フィルタ回路11と、有限長フィルタ回路11のγ−正規化LMS係数を調整するγ正規化LMS係数調整部12bと、入力信号x(n)から有限長フィルタ回路11の出力信号y(n)を減算し、減算結果をγ正規化LMS係数調整部12bにフィードバックする減算回路13と、入力信号x(n)から白色雑音の分散を推定し、γ正規化LMS係数調整部12bに白色雑音の分散を出力する雑音推定部14とを備える。
【選択図】 図2
Description
本発明は、雑音付加音声信号から雑音信号を低減し、音声信号を強調する音声強調システム、この音声強調システムに使用可能な音声強調装置、この音声強調装置の基礎となる適応線形予測器に関する。
音声に雑音が付加された観測信号(雑音付加音声信号)から雑音信号を低減し、音声信号を強調する方法として、スペクトル引き算法(SS法)が知られている。SS法は、雑音付加音声信号のパワースペクトル|X(f)|2から雑音信号のパワースペクトル|N(f)|2を引き去る方法であり、通常、雑音信号は無音声区間で推定され、それが以降の雑音付加音声区間にて適用される。そのため,SS法は雑音の時間的な変化に対応できない。
一方、音響の分野でも適応フィルタを用いた雑音抑制等のリアルタイム処理技術が試みられるようになってきた。図12は、従来の適応フィルタを用いた適応線スペクトル強調器のブロック図である(非許文献1参照。)。図12に示す適応線スペクトル強調器は、雑音付加音声信号である入力信号x(n)が入力する遅延回路20と、遅延回路20に接続され、2次音源として機能する有限長フィルタ回路11cと、有限長フィルタ回路11cの正規化最小平均自乗(LMS)係数を調整する正規化LMS係数調整部12cと、入力信号x(n)から2次音源(有限長フィルタ回路)11cの出力信号y(n)を減算する減算回路13cを備える。減算回路13cの出力である誤差信号e(n)=x(n)−y(n)は、正規化LMS係数調整部12cを介して、有限長フィルタ回路11cにフィードバックされ、有限長フィルタ回路11cにより誤差信号e(n)が最小になるように調整される。誤差信号e(n)には雑音成分が含まれるので、誤差信号e(n)を最小にすることにより、雑音が付加された入力信号x(n)に対し,出力信号y(n)として雑音が抑制された強調信号を得ることができる。
正規化LMSアルゴリズムは、LMSアルゴリズムをパワーで正規化したものであり、可変の係数(タップ重み)を有する有限長フィルタ回路11cの係数を、誤差信号e(n)の自乗誤差Σe2(n)が最小になるように、正規化LMS係数調整部12cにより随時決定していく。したがって、有限長フィルタ回路11cでは、正規化LMSアルゴリズムによって、正規化LMS係数と雑音付加音声信号である入力信号x(n)との畳み込み演算と、係数更新とを同時に行い、正規化LMS係数を定められた周期で繰り返し更新していく。
図12に示す従来の適応線スペクトル強調器では、遅延回路20の遅延量Dは、図13に示すような音声信号のピッチ周期Tに適合するように設定する必要がある。しかしながら、過去に多くの遅延量設定についての研究が行われているが、遅延量Dのリアルタイムでの設定は困難である。なぜなら、図13に示すピッチ周期Tは、一定でなく、時間と共にランダムに変化するためである。
M.R.サンバー(Sambur),「音声信号のための適応フィルタを用いた雑音除去(Adaptive Noise Cancelling for Speech Signals)」,米国電子電気学会(IEEE),音響学、言語、及び信号処理に関する学会論文集(Transactions on Acoustics, Speech and Signal Processing),第ASSP-26巻,第5号,1978年10月,p.419−423
M.R.サンバー(Sambur),「音声信号のための適応フィルタを用いた雑音除去(Adaptive Noise Cancelling for Speech Signals)」,米国電子電気学会(IEEE),音響学、言語、及び信号処理に関する学会論文集(Transactions on Acoustics, Speech and Signal Processing),第ASSP-26巻,第5号,1978年10月,p.419−423
上述したSS法は、フレーム処理が終了するまで30ms、或いはそれ以上の処理時間の遅延が避けられないためリアルタイム処理は不可能である。又、処理波形の歪みから音質が劣化するという欠点もあり、雑音低減能力も優れていない。これらは元来,SS法自体が一括処理であるために生じると考えられる。
一方、従来の適応フィルタを用いた方法は、リアルタイム処理が可能である。しかし、処理すべき音声信号のピッチ周期Tがリアルタイムに要求され、この処理の実現が困難なため、音質は劣化してしまう。
上記問題を鑑み、本発明は、リアルタイム処理が可能でしかも音質が劣化することのない音声強調システム、この音声強調システムに使用可能な音声強調装置、この音声強調装置の基礎となる適応線形予測器を提供することを目的とする。
上記目的を達成するために、本発明の態様は、(イ)入力信号を、1サンプリング時間遅延する遅延回路と、(ロ)この遅延回路に接続された有限長フィルタ回路と、(ハ)この有限長フィルタ回路の正規化LMS係数を調整する正規化LMS係数調整部と、(ニ)入力信号から有限長フィルタ回路の出力信号を減算し、減算結果を正規化LMS係数調整部にフィードバックする減算回路とを備える適応線形予測器あることを特徴とする。
本発明の他の態様は、(イ)雑音付加音声信号である入力信号を、1サンプリング時間遅延する遅延回路と、(ロ)この遅延回路に接続され、2次音源として機能する有限長フィルタ回路と、(ハ)この有限長フィルタ回路のγ−正規化LMS係数を調整するγ正規化LMS係数調整部と、(ニ)入力信号から有限長フィルタ回路の出力信号を減算し、減算結果をγ正規化LMS係数調整部にフィードバックする減算回路と、(ホ)入力信号から白色雑音の分散を推定し、γ正規化LMS係数調整部に白色雑音の分散を出力し、γ正規化LMS係数調整部にγ−正規化LMSアルゴリズムのγパラメータを補正させる雑音推定部とを備える音声強調装置であることを特徴とする。
本発明の更に他の態様は、(イ)時間領域の雑音付加音声信号のデータを周波数領域のデータに変換する高速フーリエ変換装置と、(ロ)高速フーリエ変換装置にそれぞれ接続され、周波数領域のデータを、時間領域の信号に再変換する複数の高速逆フーリエ変換装置と、(ハ)この複数の高速逆フーリエ変換装置にそれぞれ接続された複数の音声強調装置と、(ニ)この複数の音声強調装置との出力を加算する加算器とを備えた音声強調システムであることを特徴とする。この更に他の態様における音声強調システムに用いる複数の音声強調装置のそれぞれは、各周波数領域毎に再変換された時間領域の信号を、1サンプリング時間遅延する遅延回路と、この遅延回路に接続され、2次音源として機能する有限長フィルタ回路と、この有限長フィルタ回路のγ−正規化LMS係数を調整するγ正規化LMS係数調整部と、再変換された時間領域の信号から有限長フィルタ回路の出力信号を減算し、減算結果をγ正規化LMS係数調整部にフィードバックする減算回路と、再変換された時間領域の信号から白色雑音の分散を推定し、γ正規化LMS係数調整部に白色雑音の分散を出力し、γ正規化LMS係数調整部にγ−正規化LMSアルゴリズムのγパラメータを補正させる雑音推定部とを備える。
本発明によれば、リアルタイム処理が可能でしかも音質が劣化することのない音声強調システム、この音声強調システムに使用可能な音声強調装置、この音声強調装置の基礎となる適応線形予測器を提供できる。
次に、図面を参照して、本発明の第1及び第2の実施の形態を説明する。以下の図面の記載において、同一又は類似の部分には同一又は類似の符号を付している。但し、図面は模式的なものであり、厚みと平面寸法との関係、各層の厚みの比率等は現実のものとは異なることに留意すべきである。したがって、具体的な厚みや寸法は以下の説明を参酌して判断すべきものである。又、図面相互間においても互いの寸法の関係や比率が異なる部分が含まれていることは勿論である。
又、以下に示す第1及び第2の実施の形態は、本発明の技術的思想を具体化するための装置や方法を例示するものであって、本発明の技術的思想は、構成部品の材質、形状、構造、配置等を下記のものに特定するものでない。本発明の技術的思想は、特許請求の範囲に記載された技術的範囲内において、種々の変更を加えることができる。
(第1の実施の形態)
上述したように、従来の適応線スペクトル強調器では、ピッチ周期Tが変化するため,その設定が困難である。このため、本発明の第1の実施の形態に係る音声強調装置では,遅延回路の遅延量Dを1サンプリング時間と固定し,フィルタの係数更新時に雑音補性を行う(「1サンプリング時間」は、システムのサンプリング周波数で決定されるサンプリングの単位ステップに要する時間である。)。これにより,第1の実施の形態に係る音声強調装置に用いる適応線スペクトル強調器は、「適応線形予測器(Adaptive Linear Predictor:ALP)」とみなすことができる。
上述したように、従来の適応線スペクトル強調器では、ピッチ周期Tが変化するため,その設定が困難である。このため、本発明の第1の実施の形態に係る音声強調装置では,遅延回路の遅延量Dを1サンプリング時間と固定し,フィルタの係数更新時に雑音補性を行う(「1サンプリング時間」は、システムのサンプリング周波数で決定されるサンプリングの単位ステップに要する時間である。)。これにより,第1の実施の形態に係る音声強調装置に用いる適応線スペクトル強調器は、「適応線形予測器(Adaptive Linear Predictor:ALP)」とみなすことができる。
図1は、第1の実施の形態に係る音声強調装置の基礎となる適応線形予測器のブロック図である。図1に示す適応線形予測器は、雑音付加音声信号である入力信号x(n)が入力する遅延量D=1(サンプリング時間)の遅延回路(第1の遅延回路)21と、遅延回路(第1の遅延回路)21に接続され2次音源として機能する有限長フィルタ回路11と、有限長フィルタ回路11の正規化LMS係数を調整する正規化LMS係数調整部12aと、入力信号x(n)から有限長フィルタ回路11の出力信号y(n)を減算する減算回路13を備える。
有限長フィルタ回路11は、遅延回路(第1の遅延回路)21の出力x(n−1)を入力する遅延量D=1(サンプリング時間)の第2の遅延回路22と、正規化LMS係数調整部12aの出力w1(n)と遅延回路(第1の遅延回路)21の出力x(n−1)とを乗算する第1の乗算器23と、正規化LMS係数調整部12aの出力w2(n)と第2の遅延回路22の出力x(n−2)とを乗算する第2の乗算器24と、第1の乗算器23の出力と、第2の乗算器24の出力とを加算する加算器25とを備え、加算器25から、出力信号y(n)が出力される。
減算回路13の出力である誤差信号e(n)=x(n)−y(n)は、正規化LMS係数調整部12aを介して、有限長フィルタ回路11にフィードバックされ、有限長フィルタ回路11により誤差信号e(n)が最小になるように調整される。この結果、雑音が付加された入力信号x(n)に対し,出力信号y(n)として雑音が抑制された強調信号を得ることができる。可変の係数(タップ重み)を有する有限長フィルタ回路11の係数(フィルタ係数)は、正規化LMS係数調整部12aにより随時決定していくアルゴリズムが採用され、このアルゴリズムによって、フィルタ係数(正規化LMS係数)は定められた周期で繰り返し更新されていく。
図2に示すように、本発明の第1の実施の形態に係る音声強調装置は、雑音付加音声信号である入力信号x(n)が入力する遅延量D=1(サンプリング時間)の遅延回路(第1の遅延回路)21と、遅延回路(第1の遅延回路)21に接続された有限長フィルタ回路11と、有限長フィルタ回路11のγ−正規化LMS係数を調整するγ正規化LMS係数調整部12bと、雑音付加音声信号である入力信号x(n)から有限長フィルタ回路11の出力信号y(n)を減算する減算回路13、雑音付加音声信号である入力信号x(n)から白色雑音の分散σ2を推定し、γ正規化LMS係数調整部12bに白色雑音の分散σ2を出力する雑音推定部14とを備える。有限長フィルタ回路11は、γ−最小平均自乗(LMS)アルゴリズムを、正規型に拡張したγ−正規化LMSアルゴリズムを採用している。可変の係数(タップ重み)を有する有限長フィルタ回路11の係数(フィルタ係数)は、γ正規化LMS係数調整部12bにより随時決定され、このアルゴリズムによって、γ−正規化LMS係数は定められた周期で繰り返し更新されていく。γ正規化LMS係数調整部12bは、雑音推定部14が推定した雑音の分散σ2を、有限長フィルタ回路11のフィルタ係数の更新に組み入れ、雑音補正の効果を与える。
図1と同様に、有限長フィルタ回路11は、遅延回路(第1の遅延回路)21の出力x(n−1)を入力する遅延量D=1(サンプリング時間)の第2の遅延回路22と、γ正規化LMS係数調整部12bの出力w1(n)と遅延回路(第1の遅延回路)21の出力x(n−1)とを乗算する第1の乗算器23と、γ正規化LMS係数調整部12bの出力w2(n)と第2の遅延回路22の出力x(n−2)とを乗算する第2の乗算器24と、第1の乗算器23の出力と、第2の乗算器24の出力とを加算する加算器25とを備え、加算器25から、出力信号y(n)が出力される。
減算回路13の出力である誤差信号e(n)=x(n)−y(n)は、γ正規化LMS係数調整部12bを介して、有限長フィルタ回路11にフィードバックされ、有限長フィルタ回路11により誤差信号e(n)が最小になるように調整される。この結果、雑音が付加された入力信号x(n)に対し,出力信号y(n)として雑音が抑制された強調信号を得ることができる。
γ−正規化LMSアルゴリズムは:
ζ(n)=α/(β+X(n)T X(n)) ・・・・・(1)
として:
W M(n+1)=γW M(n)+ζ(n)e(n)X(n)・・・・・(2)
と与えられる。ここで、Wは、有限長フィルタ回路11のフィルタ係数を与える係数ベクトル,αはステップサイズ,βは安定化パラメータ,eは誤差信号,Xは入力ベクトル,Tは転置を示す。又、白色雑音の分散をσ2とすると、γは:
γ=1+(ασ2)/(β+X n T X n) ・・・・・(3)
となる。
ζ(n)=α/(β+X(n)T X(n)) ・・・・・(1)
として:
W M(n+1)=γW M(n)+ζ(n)e(n)X(n)・・・・・(2)
と与えられる。ここで、Wは、有限長フィルタ回路11のフィルタ係数を与える係数ベクトル,αはステップサイズ,βは安定化パラメータ,eは誤差信号,Xは入力ベクトル,Tは転置を示す。又、白色雑音の分散をσ2とすると、γは:
γ=1+(ασ2)/(β+X n T X n) ・・・・・(3)
となる。
図3は、図2に示した雑音推定部14の一例を説明するブロック図で、雑音付加音声信号である入力信号x(n)を入力する有音/無音判定部41と、有音/無音判定部41に接続された分散計算部42とを備える。有音/無音判定部41は、入力信号x(n)に対し有音と無音を判定するが、有音の場合は、無処理とし、無音の場合は、入力信号x(n)を分散計算部42に送り、分散計算部42において、入力信号x(n)に含まれる白色雑音の分散σ2を計算し、分散σ2をγ正規化LMS係数調整部12bに送る。γ正規化LMS係数調整部12bは、式(3)を用いて分散σ2を、有限長フィルタ回路11のフィルタ係数の更新に組み入れ、雑音補正の効果を与える。
図4は、図2に示した雑音推定部14の他の一例を説明するブロック図で、雑音付加音声信号である入力信号x(n)を入力する離散フーリエ変換(DFT)部43と、離散フーリエ変換(DFT)部43に接続された絶対値計算部44と、絶対値計算部44に接続された特定周波数域パワー計算部45とを備える。離散フーリエ変換(DFT)部43により入力信号x(n)は、周波数領域のデータX(f)に変換され、絶対値計算部44により、周波数領域における入力信号X(f)の自乗|X(f)|2を計算し、図5(b)の破線で示すような雑音付加音のパワースペクトルを得る。図5(a)の実線は、雑音が付加されていない、とみなされる音声のパワースペクトル|S(f)|2である。一般に、図5(a)に示すように、音声のパワースペクトル|S(f)|2は、2kHz程度以上の高域側では、無音声区間とみなすことが可能なスペクトルとなる。そして、特定周波数域パワー計算部45により、図5に斜線の領域として例示したように、高域側の無音声区間とみなせる周波数領域、例えば周波数f1とf2との間で、パワーの差|X(f)|2−|S(f)|2=|N(f)|2を積分し、その平均値を求めて白色雑音の分散σ2とし、分散σ2をγ正規化LMS係数調整部12bに送る。γ正規化LMS係数調整部12bは、式(3)を用いて分散σ2を、有限長フィルタ回路11のフィルタ係数の更新に組み入れ、雑音補正の効果を与える。
ここでγ−正規化LMSアルゴリズムのγパラメータについて考える。式(2)において、
κ=ζ(n)e(n)X(n) ・・・・・(4)
とおき、時間において展開すると:
W(n+1)=γW(n)+κ
=γ(γW(n−1)+κ)+κ
=γ2 W(n−1)+γκ+κ
=γ2(γW(n−2)+κ)+γκ+κ
=γ3 W(n−2)+(γ2+γ+1)κ
・・・・・
・・・・・
=γn+1 W(0)+(γn+γn-1+・・・・・+γ+1)κ
・・・・・(5)
となる。ここでγ≠1ならば、式(5)は:
W(n+1)=γn+1 W(0)+((γn−1)/(γ−1))κ
・・・・・(6)
と示される。式(6)より以下のことが分かる:
(イ)|γ|>1の場合、有限長フィルタ回路11のフィルタ係数が+∞もしくは−∞となり、出力信号y(n)が発散する;
(ロ)0<|γ|<1の場合、有限長フィルタ回路11のフィルタ係数は、数値的に安定し発散は起こらない。
κ=ζ(n)e(n)X(n) ・・・・・(4)
とおき、時間において展開すると:
W(n+1)=γW(n)+κ
=γ(γW(n−1)+κ)+κ
=γ2 W(n−1)+γκ+κ
=γ2(γW(n−2)+κ)+γκ+κ
=γ3 W(n−2)+(γ2+γ+1)κ
・・・・・
・・・・・
=γn+1 W(0)+(γn+γn-1+・・・・・+γ+1)κ
・・・・・(5)
となる。ここでγ≠1ならば、式(5)は:
W(n+1)=γn+1 W(0)+((γn−1)/(γ−1))κ
・・・・・(6)
と示される。式(6)より以下のことが分かる:
(イ)|γ|>1の場合、有限長フィルタ回路11のフィルタ係数が+∞もしくは−∞となり、出力信号y(n)が発散する;
(ロ)0<|γ|<1の場合、有限長フィルタ回路11のフィルタ係数は、数値的に安定し発散は起こらない。
第1の実施の形態に係る音声強調装置では、γ−LMSアルゴリズムを正規化に拡張しているため、ステップサイズαにマイナス値を用いることは好ましくないと考えられる。そこで、第1の実施の形態に係る音声強調装置のγ正規化LMS係数調整部12bでは、γパラメータを:
γ=1−ζ(n)σ2 ・・・・・(7)
と設定し、0<|γ|<1の範囲でγ−正規化LMSアルゴリズムを取り扱う。
γ=1−ζ(n)σ2 ・・・・・(7)
と設定し、0<|γ|<1の範囲でγ−正規化LMSアルゴリズムを取り扱う。
再びここで、式(7)のγについて考える。γは抑制するバイアスの量を決定するパラメータであった。そこで,第1の実施の形態に係る音声強調装置では、更に雑音低減のために、γ正規化LMS係数調整部12bにおいて、以下のようにγパラメータに、重みパラメータfを付加する。
γ=1−fζ(n)σ2 ・・・・・(8)
以上説明したように、本発明の第1の実施の形態に係る音声強調装置によれば、上記式(1)〜式(7)の一連の処理をリアルタイムに実行し、しかも音質が劣化することのない音声強調装置、を提供できる。
(第2の実施の形態)
図6に示すように、本発明の第2の実施の形態に係る音声強調システムは、時間領域の入力信号x(n)のデータを周波数領域のデータx(f1),x(f2),・・・・・x(fn)に変換する高速フーリエ変換(FFT)装置29と、周波数領域のデータx(f1),x(f2),・・・・・x(fn)のそれぞれに重み付けをする第1の重み付け回路(W1)301、第2の重み付け回路(W2)302、・・・・・・、第nの重み付け回路(Wn)30nと、第1の重み付け回路301、第2の重み付け回路302、・・・・・・、第nの重み付け回路30nにそれぞれ接続され、重み付けされた周波数領域のデータx(f1),x(f2),・・・・・x(fn)を、時間領域の入力信号x1(n),x2(n),・・・・・,xn(n)に変換する第1の高速逆フーリエ変換装置(IFFT1)311,第2の高速逆フーリエ変換装置(IFFT2)312,・・・・・,第nの高速逆フーリエ変換装置(IFFTn)31nと、第1の高速逆フーリエ変換装置311,第2の高速逆フーリエ変換装置312,・・・・・,第nの高速逆フーリエ変換装置31nにそれぞれ接続され、時間領域の入力信号x1(n),x2(n),・・・・・,xn(n)のそれぞれに含まれる雑音を抑制しながら音声信号を強調する第1の音声強調装置(ALP1)321,第2の音声強調装置(ALP2)322,・・・・・,第nの音声強調装置(ALPn)32nと、第1の音声強調装置321,第2の音声強調装置322,・・・・・,第nの音声強調装置32nとの出力を加算する加算器33を備えるフィルタバンク構成の適応音声強調システムである。
以上説明したように、本発明の第1の実施の形態に係る音声強調装置によれば、上記式(1)〜式(7)の一連の処理をリアルタイムに実行し、しかも音質が劣化することのない音声強調装置、を提供できる。
(第2の実施の形態)
図6に示すように、本発明の第2の実施の形態に係る音声強調システムは、時間領域の入力信号x(n)のデータを周波数領域のデータx(f1),x(f2),・・・・・x(fn)に変換する高速フーリエ変換(FFT)装置29と、周波数領域のデータx(f1),x(f2),・・・・・x(fn)のそれぞれに重み付けをする第1の重み付け回路(W1)301、第2の重み付け回路(W2)302、・・・・・・、第nの重み付け回路(Wn)30nと、第1の重み付け回路301、第2の重み付け回路302、・・・・・・、第nの重み付け回路30nにそれぞれ接続され、重み付けされた周波数領域のデータx(f1),x(f2),・・・・・x(fn)を、時間領域の入力信号x1(n),x2(n),・・・・・,xn(n)に変換する第1の高速逆フーリエ変換装置(IFFT1)311,第2の高速逆フーリエ変換装置(IFFT2)312,・・・・・,第nの高速逆フーリエ変換装置(IFFTn)31nと、第1の高速逆フーリエ変換装置311,第2の高速逆フーリエ変換装置312,・・・・・,第nの高速逆フーリエ変換装置31nにそれぞれ接続され、時間領域の入力信号x1(n),x2(n),・・・・・,xn(n)のそれぞれに含まれる雑音を抑制しながら音声信号を強調する第1の音声強調装置(ALP1)321,第2の音声強調装置(ALP2)322,・・・・・,第nの音声強調装置(ALPn)32nと、第1の音声強調装置321,第2の音声強調装置322,・・・・・,第nの音声強調装置32nとの出力を加算する加算器33を備えるフィルタバンク構成の適応音声強調システムである。
図6に示す第1の音声強調装置321,第2の音声強調装置322,・・・・・,第nの音声強調装置32nは、一旦、各周波数領域に分離され、再度時間領域の信号に変換された入力信号x1(n),x2(n),・・・・・,xn(n)のそれぞれに対し、第1の実施の形態と同様に、γ−正規化LMSアルゴリズムを用いて音声強調を行う。最後にすべての信号を加算器33で加算する。第2の実施の形態に係る音声強調システムはフィルタバンクを用いているが,リアルタイム処理の特徴を失うことなく、適応処理形態を保持し、より音質を改善することが可能である。
音声信号はその振幅値が激しく変動するため,第1の実施の形態で説明した音声強調装置のみでは、十分に追従できない場合が生じる。そこで、第2の実施の形態に係る音声強調システムのように、音声信号を正弦波の集まりとみなし,フィルタバンクを用いて、音声信号を単純な波形に分離させることによって、更に雑音低減が可能となる。
図6に示すフィルタバンク構成において、図7に示すように分割値を10とし,0〜5kHzの区間を当間隔に10分割した場合の劣化平均オピニオン評点(DMOS)を用いた試聴実験の結果を、図8及び図9に示す。DMOSでは、残留雑音量と音声の歪みに着目して試聴実験を行い、評価対象サンプルの品質を、表1に示すように、「劣化が全く認められない」、「劣化が認められるが気にならない」、「劣化がわずかに気になる」、「劣化が気になる」、「劣化が非常に気になる」の5段階で評価してもらう。評点のそれぞれに評点5から評点1までを対応させ、全評価者の評点を平均したのがDMOSになる。
図8及び図9に示すDMOS試聴実験は、NTTアドバンステクノロジ株式会社の「多言語音声データベース1994」を用い、日本人女性の話者1と話者2、日本人男性の話者3と話者4を発声者として、5秒間の音声データを採用した。被験者の数はそれぞれ20人である。
試聴実験には、第2の実施の形態に係るフィルタバンクを用いた音声強調システムの他に、第1の実施の形態で説明した正規化LMS音声強調装置,重みパラメータφ=1としたγ−正規化LMS音声強調装置,重みパラメータφ=5としたγ−正規化LMS音声強調装置,重みパラメータφ=10としたγ−正規化LMS音声強調装置の4つと、更に従来技術に係るSS法を加え、合計6つの音声強調装置を比較している。正規化LMSアルゴリズム及びγ−正規化LMSアルゴリズムに用いるステップサイズα=0.013,安定化パラメータβ=0.01を採用し、サンプリング周波数は10kHzである。
図8は残留雑音の量に着目したとき、図9は出力音声の歪みに着目したときのDMOSの男女それぞれ2人の平均値を示している。図8から、第1の実施の形態で説明した3つの音声強調装置(重みパラメータφ=1,5,10)を含めて、γ−正規化LMSアルゴリズムによる音声強調装置が、従来技術に係るSS法に比して、高い雑音抑制能力を有することが確認できる。
又、図9からは,第2の実施の形態に係るフィルタバンクを用いた音声強調システムが、雑音を低減しつつ出力音声の歪みを抑制することが可能で、したがって、従来技術に係るSS法に比して、十分高い音質を得ることが可能であることが分かる。
(その他の実施の形態)
上記のように、本発明は第1及び第2の実施の形態によって記載したが、この開示の一部をなす論述及び図面は本発明を限定するものであると理解すべきではない。この開示から当業者には様々な態様や代替実施の形態、実施例及び運用技術が明らかとなろう。
上記のように、本発明は第1及び第2の実施の形態によって記載したが、この開示の一部をなす論述及び図面は本発明を限定するものであると理解すべきではない。この開示から当業者には様々な態様や代替実施の形態、実施例及び運用技術が明らかとなろう。
更に、図10に示すように、第2の実施の形態に係るフィルタバンクを用いた音声強調システム(又は第1の実施の形態で説明した音声強調装置)1aをゲーム機101の音声認識システム部2の前段に用いれば、音声入力でコマンドを入力するゲーム機101における高い音質での音声認識が可能となる。図10に示すゲーム機101では、音声強調システム1aが、マイク等(図示省略)に入力された音声入力が、音声強調システム1aにより、雑音を低減しつつ且つ出力音声の歪みを抑制し、十分高い音質で音声認識システム部2に送られ、その結果、音声認識システム部2から必要なコマンドがゲーム機101の各回路に出力される。
或いは、図11に示すように、第2の実施の形態に係る音声強調システム(又は第1の実施の形態で説明した音声強調装置)1bを携帯電話102に採用すれば、十分高い音質での通信が可能となる。図11に示す携帯電話102では、音声強調システム1bがマイク3に接続され、マイク3に入力された音声入力が、音声強調システム1bにより、雑音を低減しつつ出力音声の歪みを抑制し、十分高い音質で音声通信部4に送られ、音声通信部4から電波信号として出力され、音質の良好な通信が可能となる。
このように、本発明はここでは記載していない様々な態様や実施の形態等を含むことは勿論である。したがって、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。
1a,1b…音声強調システム
2…音声認識システム部
3…マイク
4…音声通信部
11,11c…有限長フィルタ回路
12a,12b,12c…係数調整部
13,13c…減算回路
14…雑音推定部
20…遅延回路
22…第2の遅延回路
23…第1の乗算器
24…第2の乗算器
25,33…加算器
29…高速フーリエ変換(FFT)装置
301,302,・・・・・・,30n…重み付け回路
311,312,・・・・・・,31n…高速逆フーリエ変換(IFFT)装置
321,322,・・・・・・,32n…音声強調装置(ALP)
41…有音/無音判定部
42…分散計算部
43…離散フーリエ変換(DFT)部
44…絶対値計算部
45…特定周波数域パワー計算部
101…ゲーム機
102…携帯電話
2…音声認識システム部
3…マイク
4…音声通信部
11,11c…有限長フィルタ回路
12a,12b,12c…係数調整部
13,13c…減算回路
14…雑音推定部
20…遅延回路
22…第2の遅延回路
23…第1の乗算器
24…第2の乗算器
25,33…加算器
29…高速フーリエ変換(FFT)装置
301,302,・・・・・・,30n…重み付け回路
311,312,・・・・・・,31n…高速逆フーリエ変換(IFFT)装置
321,322,・・・・・・,32n…音声強調装置(ALP)
41…有音/無音判定部
42…分散計算部
43…離散フーリエ変換(DFT)部
44…絶対値計算部
45…特定周波数域パワー計算部
101…ゲーム機
102…携帯電話
Claims (8)
- 入力信号を、1サンプリング時間遅延する遅延回路と、
該遅延回路に接続された有限長フィルタ回路と、
該有限長フィルタ回路の正規化LMS係数を調整する正規化LMS係数調整部と、
前記入力信号から前記有限長フィルタ回路の出力信号を減算し、減算結果を前記正規化LMS係数調整部にフィードバックする減算回路
とを備えることを特徴とする適応線形予測器。 - 雑音付加音声信号である入力信号を、1サンプリング時間遅延する遅延回路と、
該遅延回路に接続され、2次音源として機能する有限長フィルタ回路と、
該有限長フィルタ回路のγ−正規化LMS係数を調整するγ正規化LMS係数調整部と、
前記入力信号から前記有限長フィルタ回路の出力信号を減算し、減算結果を前記γ正規化LMS係数調整部にフィードバックする減算回路と、
前記入力信号から白色雑音の分散を推定し、前記γ正規化LMS係数調整部に前記白色雑音の分散を出力し、前記γ正規化LMS係数調整部にγ−正規化LMSアルゴリズムのγパラメータを補正させる雑音推定部
とを備えることを特徴とする音声強調装置。 - 前記雑音推定部は、
前記入力信号を入力する有音/無音判定部と、
該有音/無音判定部に接続された分散計算部
とを備え、前記有音/無音判定部は、前記入力信号に対し有音と無音を判定し、有音の場合は無処理とし、無音の場合は、前記入力信号を前記分散計算部に送り、前記分散計算部において、前記入力信号に含まれる前記白色雑音の分散を計算し、前記分散を前記γ正規化LMS係数調整部に送ることを特徴とする請求項2に記載の音声強調装置。 - 前記雑音推定部は、
前記入力信号を入力する離散フーリエ変換部と、
該離散フーリエ変換部に接続された絶対値計算部と、
該絶対値計算部に接続された特定周波数域パワー計算部
とを備え、前記離散フーリエ変換部により前記入力信号を周波数領域のデータに変換し、前記絶対値計算部により雑音付加音のパワースペクトルを得て、前記特定周波数域パワー計算部により、無音声区間とみなせる周波数領域で前記白色雑音の分散を計算し、前記分散を前記γ正規化LMS係数調整部に送ることを特徴とする請求項2に記載の音声強調装置。 - 時間領域の雑音付加音声信号のデータを周波数領域のデータに変換する高速フーリエ変換装置と、
高速フーリエ変換装置にそれぞれ接続され、前記周波数領域のデータを、時間領域の信号に再変換する複数の高速逆フーリエ変換装置と、
該複数の高速逆フーリエ変換装置にそれぞれ接続された複数の音声強調装置と、
該複数の音声強調装置との出力を加算する加算器とを備え、
前記複数の音声強調装置のそれぞれは、
各周波数領域毎に再変換された前記時間領域の信号を、1サンプリング時間遅延する遅延回路と、
該遅延回路に接続され、2次音源として機能する有限長フィルタ回路と、
該有限長フィルタ回路のγ−正規化LMS係数を調整するγ正規化LMS係数調整部と、
再変換された前記時間領域の信号から前記有限長フィルタ回路の出力信号を減算し、減算結果を前記γ正規化LMS係数調整部にフィードバックする減算回路と、
再変換された前記時間領域の信号から白色雑音の分散を推定し、前記γ正規化LMS係数調整部に前記白色雑音の分散を出力し、前記γ正規化LMS係数調整部にγ−正規化LMSアルゴリズムのγパラメータを補正させる雑音推定部
とを備えることを特徴とする音声強調システム。 - 前記高速フーリエ変換装置には、前記周波数領域のデータのそれぞれに重み付けをする複数の重み付け回路が接続され、各周波数領域毎に、前記複数の重み付け回路にそれぞれ前記複数の高速逆フーリエ変換装置が接続されることを特徴とする請求項5に記載の音声強調システム。
- 前記複数の音声強調装置のそれぞれの前記雑音推定部は、
対応する各周波数領域毎に再変換された前記時間領域の信号を入力する有音/無音判定部と、
該有音/無音判定部に接続された分散計算部
とを備え、前記有音/無音判定部は、再変換された前記時間領域の信号に対し有音と無音を判定し、有音の場合は無処理とし、無音の場合は、再変換された前記時間領域の信号を前記分散計算部に送り、前記分散計算部において、再変換された前記時間領域の信号に含まれる前記白色雑音の分散を計算し、前記分散を前記γ正規化LMS係数調整部に送ることを特徴とする請求項5又は6に記載の音声強調システム。 - 前記複数の音声強調装置のそれぞれの前記雑音推定部は、
対応する各周波数領域毎に再変換された前記時間領域の信号を入力する離散フーリエ変換部と、
該離散フーリエ変換部に接続された絶対値計算部と、
該絶対値計算部に接続された特定周波数域パワー計算部
とを備え、前記離散フーリエ変換部により再変換された前記時間領域の信号を周波数領域のデータに変換し、前記絶対値計算部により雑音付加音のパワースペクトルを得て、前記特定周波数域パワー計算部により、無音声区間とみなせる周波数領域で前記白色雑音の分散を計算し、前記分散を前記γ正規化LMS係数調整部に送ることを特徴とする請求項5又は6に記載の音声強調システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006066278A JP2007241104A (ja) | 2006-03-10 | 2006-03-10 | 適応線形予測器、音声強調装置、及び音声強調システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006066278A JP2007241104A (ja) | 2006-03-10 | 2006-03-10 | 適応線形予測器、音声強調装置、及び音声強調システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007241104A true JP2007241104A (ja) | 2007-09-20 |
Family
ID=38586680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006066278A Pending JP2007241104A (ja) | 2006-03-10 | 2006-03-10 | 適応線形予測器、音声強調装置、及び音声強調システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007241104A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012527148A (ja) * | 2009-05-11 | 2012-11-01 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオノイズのキャンセリング |
KR101324607B1 (ko) | 2012-10-05 | 2013-11-08 | 전자부품연구원 | 기저선 잡음 제거를 위한 필터링 장치 및 방법 |
JP2019185062A (ja) * | 2018-09-10 | 2019-10-24 | 百度在線網絡技術(北京)有限公司 | 音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04227338A (ja) * | 1990-05-28 | 1992-08-17 | Matsushita Electric Ind Co Ltd | 音声信号処理装置 |
JP2001175298A (ja) * | 1999-12-13 | 2001-06-29 | Fujitsu Ltd | 騒音抑圧装置 |
WO2005024787A1 (ja) * | 2003-09-02 | 2005-03-17 | Nec Corporation | 信号処理方法および装置 |
WO2005112849A2 (en) * | 2004-05-10 | 2005-12-01 | Trustees Of Dartmouth College | Tuned feedforward lms filter with feedback control |
JP2007327980A (ja) * | 2005-05-11 | 2007-12-20 | Toa Corp | デジタルフィルタ、周期性騒音低減装置および騒音低減装置 |
-
2006
- 2006-03-10 JP JP2006066278A patent/JP2007241104A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04227338A (ja) * | 1990-05-28 | 1992-08-17 | Matsushita Electric Ind Co Ltd | 音声信号処理装置 |
JP2001175298A (ja) * | 1999-12-13 | 2001-06-29 | Fujitsu Ltd | 騒音抑圧装置 |
WO2005024787A1 (ja) * | 2003-09-02 | 2005-03-17 | Nec Corporation | 信号処理方法および装置 |
WO2005112849A2 (en) * | 2004-05-10 | 2005-12-01 | Trustees Of Dartmouth College | Tuned feedforward lms filter with feedback control |
JP2007327980A (ja) * | 2005-05-11 | 2007-12-20 | Toa Corp | デジタルフィルタ、周期性騒音低減装置および騒音低減装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012527148A (ja) * | 2009-05-11 | 2012-11-01 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオノイズのキャンセリング |
US9165549B2 (en) | 2009-05-11 | 2015-10-20 | Koninklijke Philips N.V. | Audio noise cancelling |
KR101324607B1 (ko) | 2012-10-05 | 2013-11-08 | 전자부품연구원 | 기저선 잡음 제거를 위한 필터링 장치 및 방법 |
JP2019185062A (ja) * | 2018-09-10 | 2019-10-24 | 百度在線網絡技術(北京)有限公司 | 音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体 |
US11176938B2 (en) | 2018-09-10 | 2021-11-16 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, device and storage medium for controlling game execution using voice intelligent interactive system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8447596B2 (en) | Monaural noise suppression based on computational auditory scene analysis | |
US8010355B2 (en) | Low complexity noise reduction method | |
US8560308B2 (en) | Speech sound enhancement device utilizing ratio of the ambient to background noise | |
CN117831559A (zh) | 用于信号增强的信号处理器和相关方法 | |
US20120197638A1 (en) | Method and Device for Noise Reduction Control Using Microphone Array | |
US10043533B2 (en) | Method and device for boosting formants from speech and noise spectral estimation | |
JP4957810B2 (ja) | 音処理装置、音処理方法及び音処理プログラム | |
US9532149B2 (en) | Method of signal processing in a hearing aid system and a hearing aid system | |
US9454956B2 (en) | Sound processing device | |
JP4738213B2 (ja) | 利得調整方法及び利得調整装置 | |
US11380312B1 (en) | Residual echo suppression for keyword detection | |
Zheng et al. | A deep learning solution to the marginal stability problems of acoustic feedback systems for hearing aids | |
Westerlund et al. | Speech enhancement for personal communication using an adaptive gain equalizer | |
Bederna et al. | Adaptive Compressive Onset-Enhancement for Improved Speech Intelligibility in Noise and Reverberation. | |
JP2007241104A (ja) | 適応線形予測器、音声強調装置、及び音声強調システム | |
JP3756828B2 (ja) | 反響消去方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
US20060089836A1 (en) | System and method of signal pre-conditioning with adaptive spectral tilt compensation for audio equalization | |
JP5466581B2 (ja) | 反響消去方法、反響消去装置及び反響消去プログラム | |
JP2002140100A (ja) | 騒音抑圧装置 | |
RU2589298C1 (ru) | Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке | |
CN111968663B (zh) | 一种回声残留判断方法 | |
JP2004349796A (ja) | 音響エコー消去方法、その装置、プログラム及びその記録媒体 | |
JP2003044087A (ja) | 騒音抑圧装置、騒音抑圧方法、音声識別装置、通信機器および補聴器 | |
JP2008129077A (ja) | ノイズ除去装置 | |
EP3837621B1 (en) | Dual-microphone methods for reverberation mitigation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100209 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100706 |