JP2007241104A

JP2007241104A - 適応線形予測器、音声強調装置、及び音声強調システム

Info

Publication number: JP2007241104A
Application number: JP2006066278A
Authority: JP
Inventors: Tetsuya Shimamura; 徹也島村; Takafumi Tanaka; 啓文田中
Original assignee: Saitama University NUC
Current assignee: Saitama University NUC
Priority date: 2006-03-10
Filing date: 2006-03-10
Publication date: 2007-09-20

Abstract

【課題】リアルタイム処理が可能でしかも音質が劣化することのない音声強調装置を提供する。
【解決手段】雑音付加音声信号である入力信号ｘ（ｎ)を、１サンプリング時間遅延する遅延回路２１と、遅延回路２１に接続された有限長フィルタ回路１１と、有限長フィルタ回路１１のγ−正規化ＬＭＳ係数を調整するγ正規化ＬＭＳ係数調整部１２ｂと、入力信号ｘ（ｎ)から有限長フィルタ回路１１の出力信号ｙ（ｎ)を減算し、減算結果をγ正規化ＬＭＳ係数調整部１２ｂにフィードバックする減算回路１３と、入力信号ｘ（ｎ)から白色雑音の分散を推定し、γ正規化ＬＭＳ係数調整部１２ｂに白色雑音の分散を出力する雑音推定部１４とを備える。
【選択図】図２

Description

本発明は、雑音付加音声信号から雑音信号を低減し、音声信号を強調する音声強調システム、この音声強調システムに使用可能な音声強調装置、この音声強調装置の基礎となる適応線形予測器に関する。

音声に雑音が付加された観測信号（雑音付加音声信号）から雑音信号を低減し、音声信号を強調する方法として、スペクトル引き算法（ＳＳ法）が知られている。ＳＳ法は、雑音付加音声信号のパワースペクトル|Ｘ(ｆ)|²から雑音信号のパワースペクトル|Ｎ(ｆ)|²を引き去る方法であり、通常、雑音信号は無音声区間で推定され、それが以降の雑音付加音声区間にて適用される。そのため，ＳＳ法は雑音の時間的な変化に対応できない。

一方、音響の分野でも適応フィルタを用いた雑音抑制等のリアルタイム処理技術が試みられるようになってきた。図１２は、従来の適応フィルタを用いた適応線スペクトル強調器のブロック図である（非許文献１参照。）。図１２に示す適応線スペクトル強調器は、雑音付加音声信号である入力信号ｘ（ｎ)が入力する遅延回路２０と、遅延回路２０に接続され、２次音源として機能する有限長フィルタ回路１１ｃと、有限長フィルタ回路１１ｃの正規化最小平均自乗（ＬＭＳ）係数を調整する正規化ＬＭＳ係数調整部１２ｃと、入力信号ｘ（ｎ)から２次音源（有限長フィルタ回路）１１ｃの出力信号ｙ（ｎ)を減算する減算回路１３ｃを備える。減算回路１３ｃの出力である誤差信号ｅ（ｎ)＝ｘ（ｎ)−ｙ（ｎ)は、正規化ＬＭＳ係数調整部１２ｃを介して、有限長フィルタ回路１１ｃにフィードバックされ、有限長フィルタ回路１１ｃにより誤差信号ｅ（ｎ)が最小になるように調整される。誤差信号ｅ（ｎ)には雑音成分が含まれるので、誤差信号ｅ（ｎ)を最小にすることにより、雑音が付加された入力信号ｘ（ｎ)に対し，出力信号ｙ（ｎ)として雑音が抑制された強調信号を得ることができる。

正規化ＬＭＳアルゴリズムは、ＬＭＳアルゴリズムをパワーで正規化したものであり、可変の係数（タップ重み）を有する有限長フィルタ回路１１ｃの係数を、誤差信号ｅ（ｎ)の自乗誤差Σｅ²（ｎ)が最小になるように、正規化ＬＭＳ係数調整部１２ｃにより随時決定していく。したがって、有限長フィルタ回路１１ｃでは、正規化ＬＭＳアルゴリズムによって、正規化ＬＭＳ係数と雑音付加音声信号である入力信号ｘ（ｎ)との畳み込み演算と、係数更新とを同時に行い、正規化ＬＭＳ係数を定められた周期で繰り返し更新していく。

図１２に示す従来の適応線スペクトル強調器では、遅延回路２０の遅延量Ｄは、図１３に示すような音声信号のピッチ周期Ｔに適合するように設定する必要がある。しかしながら、過去に多くの遅延量設定についての研究が行われているが、遅延量Ｄのリアルタイムでの設定は困難である。なぜなら、図１３に示すピッチ周期Ｔは、一定でなく、時間と共にランダムに変化するためである。
Ｍ．Ｒ．サンバー（Sambur），「音声信号のための適応フィルタを用いた雑音除去(Adaptive Noise Cancelling for Speech Signals)」，米国電子電気学会（IEEE），音響学、言語、及び信号処理に関する学会論文集（Transactions on Acoustics, Speech and Signal Processing），第ASSP-26巻，第５号，１９７８年１０月，ｐ．４１９−４２３

上述したＳＳ法は、フレーム処理が終了するまで３０ｍｓ、或いはそれ以上の処理時間の遅延が避けられないためリアルタイム処理は不可能である。又、処理波形の歪みから音質が劣化するという欠点もあり、雑音低減能力も優れていない。これらは元来，ＳＳ法自体が一括処理であるために生じると考えられる。

一方、従来の適応フィルタを用いた方法は、リアルタイム処理が可能である。しかし、処理すべき音声信号のピッチ周期Ｔがリアルタイムに要求され、この処理の実現が困難なため、音質は劣化してしまう。

上記問題を鑑み、本発明は、リアルタイム処理が可能でしかも音質が劣化することのない音声強調システム、この音声強調システムに使用可能な音声強調装置、この音声強調装置の基礎となる適応線形予測器を提供することを目的とする。

上記目的を達成するために、本発明の態様は、（イ）入力信号を、１サンプリング時間遅延する遅延回路と、（ロ）この遅延回路に接続された有限長フィルタ回路と、（ハ）この有限長フィルタ回路の正規化ＬＭＳ係数を調整する正規化ＬＭＳ係数調整部と、（ニ）入力信号から有限長フィルタ回路の出力信号を減算し、減算結果を正規化ＬＭＳ係数調整部にフィードバックする減算回路とを備える適応線形予測器あることを特徴とする。

本発明の他の態様は、（イ）雑音付加音声信号である入力信号を、１サンプリング時間遅延する遅延回路と、（ロ）この遅延回路に接続され、２次音源として機能する有限長フィルタ回路と、（ハ）この有限長フィルタ回路のγ−正規化ＬＭＳ係数を調整するγ正規化ＬＭＳ係数調整部と、（ニ）入力信号から有限長フィルタ回路の出力信号を減算し、減算結果をγ正規化ＬＭＳ係数調整部にフィードバックする減算回路と、（ホ）入力信号から白色雑音の分散を推定し、γ正規化ＬＭＳ係数調整部に白色雑音の分散を出力し、γ正規化ＬＭＳ係数調整部にγ−正規化ＬＭＳアルゴリズムのγパラメータを補正させる雑音推定部とを備える音声強調装置であることを特徴とする。

本発明の更に他の態様は、（イ）時間領域の雑音付加音声信号のデータを周波数領域のデータに変換する高速フーリエ変換装置と、（ロ）高速フーリエ変換装置にそれぞれ接続され、周波数領域のデータを、時間領域の信号に再変換する複数の高速逆フーリエ変換装置と、（ハ）この複数の高速逆フーリエ変換装置にそれぞれ接続された複数の音声強調装置と、（ニ）この複数の音声強調装置との出力を加算する加算器とを備えた音声強調システムであることを特徴とする。この更に他の態様における音声強調システムに用いる複数の音声強調装置のそれぞれは、各周波数領域毎に再変換された時間領域の信号を、１サンプリング時間遅延する遅延回路と、この遅延回路に接続され、２次音源として機能する有限長フィルタ回路と、この有限長フィルタ回路のγ−正規化ＬＭＳ係数を調整するγ正規化ＬＭＳ係数調整部と、再変換された時間領域の信号から有限長フィルタ回路の出力信号を減算し、減算結果をγ正規化ＬＭＳ係数調整部にフィードバックする減算回路と、再変換された時間領域の信号から白色雑音の分散を推定し、γ正規化ＬＭＳ係数調整部に白色雑音の分散を出力し、γ正規化ＬＭＳ係数調整部にγ−正規化ＬＭＳアルゴリズムのγパラメータを補正させる雑音推定部とを備える。

本発明によれば、リアルタイム処理が可能でしかも音質が劣化することのない音声強調システム、この音声強調システムに使用可能な音声強調装置、この音声強調装置の基礎となる適応線形予測器を提供できる。

次に、図面を参照して、本発明の第１及び第２の実施の形態を説明する。以下の図面の記載において、同一又は類似の部分には同一又は類似の符号を付している。但し、図面は模式的なものであり、厚みと平面寸法との関係、各層の厚みの比率等は現実のものとは異なることに留意すべきである。したがって、具体的な厚みや寸法は以下の説明を参酌して判断すべきものである。又、図面相互間においても互いの寸法の関係や比率が異なる部分が含まれていることは勿論である。

又、以下に示す第１及び第２の実施の形態は、本発明の技術的思想を具体化するための装置や方法を例示するものであって、本発明の技術的思想は、構成部品の材質、形状、構造、配置等を下記のものに特定するものでない。本発明の技術的思想は、特許請求の範囲に記載された技術的範囲内において、種々の変更を加えることができる。

（第１の実施の形態）
上述したように、従来の適応線スペクトル強調器では、ピッチ周期Ｔが変化するため，その設定が困難である。このため、本発明の第１の実施の形態に係る音声強調装置では，遅延回路の遅延量Ｄを１サンプリング時間と固定し，フィルタの係数更新時に雑音補性を行う（「１サンプリング時間」は、システムのサンプリング周波数で決定されるサンプリングの単位ステップに要する時間である。）。これにより，第１の実施の形態に係る音声強調装置に用いる適応線スペクトル強調器は、「適応線形予測器(Adaptive Linear Predictor:ＡＬＰ)」とみなすことができる。

図１は、第１の実施の形態に係る音声強調装置の基礎となる適応線形予測器のブロック図である。図１に示す適応線形予測器は、雑音付加音声信号である入力信号ｘ（ｎ)が入力する遅延量Ｄ＝１（サンプリング時間）の遅延回路（第１の遅延回路）２１と、遅延回路（第１の遅延回路）２１に接続され２次音源として機能する有限長フィルタ回路１１と、有限長フィルタ回路１１の正規化ＬＭＳ係数を調整する正規化ＬＭＳ係数調整部１２ａと、入力信号ｘ（ｎ)から有限長フィルタ回路１１の出力信号ｙ（ｎ)を減算する減算回路１３を備える。

有限長フィルタ回路１１は、遅延回路（第１の遅延回路）２１の出力ｘ（ｎ−１）を入力する遅延量Ｄ＝１（サンプリング時間）の第２の遅延回路２２と、正規化ＬＭＳ係数調整部１２ａの出力ｗ₁（ｎ)と遅延回路（第１の遅延回路）２１の出力ｘ（ｎ−１）とを乗算する第１の乗算器２３と、正規化ＬＭＳ係数調整部１２ａの出力ｗ₂（ｎ)と第２の遅延回路２２の出力ｘ（ｎ−２）とを乗算する第２の乗算器２４と、第１の乗算器２３の出力と、第２の乗算器２４の出力とを加算する加算器２５とを備え、加算器２５から、出力信号ｙ（ｎ)が出力される。

減算回路１３の出力である誤差信号ｅ（ｎ)＝ｘ（ｎ)−ｙ（ｎ)は、正規化ＬＭＳ係数調整部１２ａを介して、有限長フィルタ回路１１にフィードバックされ、有限長フィルタ回路１１により誤差信号ｅ（ｎ)が最小になるように調整される。この結果、雑音が付加された入力信号ｘ（ｎ)に対し，出力信号ｙ（ｎ)として雑音が抑制された強調信号を得ることができる。可変の係数（タップ重み）を有する有限長フィルタ回路１１の係数（フィルタ係数）は、正規化ＬＭＳ係数調整部１２ａにより随時決定していくアルゴリズムが採用され、このアルゴリズムによって、フィルタ係数（正規化ＬＭＳ係数）は定められた周期で繰り返し更新されていく。

図２に示すように、本発明の第１の実施の形態に係る音声強調装置は、雑音付加音声信号である入力信号ｘ（ｎ)が入力する遅延量Ｄ＝１（サンプリング時間）の遅延回路（第１の遅延回路）２１と、遅延回路（第１の遅延回路）２１に接続された有限長フィルタ回路１１と、有限長フィルタ回路１１のγ−正規化ＬＭＳ係数を調整するγ正規化ＬＭＳ係数調整部１２ｂと、雑音付加音声信号である入力信号ｘ（ｎ)から有限長フィルタ回路１１の出力信号ｙ（ｎ)を減算する減算回路１３、雑音付加音声信号である入力信号ｘ（ｎ)から白色雑音の分散σ²を推定し、γ正規化ＬＭＳ係数調整部１２ｂに白色雑音の分散σ²を出力する雑音推定部１４とを備える。有限長フィルタ回路１１は、γ−最小平均自乗（ＬＭＳ）アルゴリズムを、正規型に拡張したγ−正規化ＬＭＳアルゴリズムを採用している。可変の係数（タップ重み）を有する有限長フィルタ回路１１の係数（フィルタ係数）は、γ正規化ＬＭＳ係数調整部１２ｂにより随時決定され、このアルゴリズムによって、γ−正規化ＬＭＳ係数は定められた周期で繰り返し更新されていく。γ正規化ＬＭＳ係数調整部１２ｂは、雑音推定部１４が推定した雑音の分散σ²を、有限長フィルタ回路１１のフィルタ係数の更新に組み入れ、雑音補正の効果を与える。

図１と同様に、有限長フィルタ回路１１は、遅延回路（第１の遅延回路）２１の出力ｘ（ｎ−１）を入力する遅延量Ｄ＝１（サンプリング時間）の第２の遅延回路２２と、γ正規化ＬＭＳ係数調整部１２ｂの出力ｗ₁（ｎ)と遅延回路（第１の遅延回路）２１の出力ｘ（ｎ−１）とを乗算する第１の乗算器２３と、γ正規化ＬＭＳ係数調整部１２ｂの出力ｗ₂（ｎ)と第２の遅延回路２２の出力ｘ（ｎ−２）とを乗算する第２の乗算器２４と、第１の乗算器２３の出力と、第２の乗算器２４の出力とを加算する加算器２５とを備え、加算器２５から、出力信号ｙ（ｎ)が出力される。

減算回路１３の出力である誤差信号ｅ（ｎ)＝ｘ（ｎ)−ｙ（ｎ)は、γ正規化ＬＭＳ係数調整部１２ｂを介して、有限長フィルタ回路１１にフィードバックされ、有限長フィルタ回路１１により誤差信号ｅ（ｎ)が最小になるように調整される。この結果、雑音が付加された入力信号ｘ（ｎ)に対し，出力信号ｙ（ｎ)として雑音が抑制された強調信号を得ることができる。

γ−正規化ＬＭＳアルゴリズムは：
ζ（ｎ)＝α／(β＋Ｘ(ｎ)^T Ｘ(ｎ)）・・・・・（１）
として：
Ｗ _M(ｎ＋１)＝γＷ _M(ｎ)＋ζ（ｎ)ｅ(ｎ)Ｘ(ｎ)・・・・・（２）
と与えられる。ここで、Ｗは、有限長フィルタ回路１１のフィルタ係数を与える係数ベクトル，αはステップサイズ，βは安定化パラメータ，ｅは誤差信号，Ｘは入力ベクトル，^Tは転置を示す。又、白色雑音の分散をσ²とすると、γは：
γ＝１＋(ασ²)／(β＋Ｘ _n ^T Ｘ _n）・・・・・（３）
となる。

図３は、図２に示した雑音推定部１４の一例を説明するブロック図で、雑音付加音声信号である入力信号ｘ（ｎ)を入力する有音／無音判定部４１と、有音／無音判定部４１に接続された分散計算部４２とを備える。有音／無音判定部４１は、入力信号ｘ（ｎ)に対し有音と無音を判定するが、有音の場合は、無処理とし、無音の場合は、入力信号ｘ（ｎ)を分散計算部４２に送り、分散計算部４２において、入力信号ｘ（ｎ)に含まれる白色雑音の分散σ²を計算し、分散σ²をγ正規化ＬＭＳ係数調整部１２ｂに送る。γ正規化ＬＭＳ係数調整部１２ｂは、式（３）を用いて分散σ²を、有限長フィルタ回路１１のフィルタ係数の更新に組み入れ、雑音補正の効果を与える。

図４は、図２に示した雑音推定部１４の他の一例を説明するブロック図で、雑音付加音声信号である入力信号ｘ（ｎ)を入力する離散フーリエ変換（ＤＦＴ）部４３と、離散フーリエ変換（ＤＦＴ）部４３に接続された絶対値計算部４４と、絶対値計算部４４に接続された特定周波数域パワー計算部４５とを備える。離散フーリエ変換（ＤＦＴ）部４３により入力信号ｘ（ｎ)は、周波数領域のデータＸ(ｆ)に変換され、絶対値計算部４４により、周波数領域における入力信号Ｘ(ｆ)の自乗|Ｘ(ｆ)|²を計算し、図５（ｂ）の破線で示すような雑音付加音のパワースペクトルを得る。図５（ａ）の実線は、雑音が付加されていない、とみなされる音声のパワースペクトル|Ｓ(ｆ)|²である。一般に、図５（ａ）に示すように、音声のパワースペクトル|Ｓ(ｆ)|²は、２ｋＨｚ程度以上の高域側では、無音声区間とみなすことが可能なスペクトルとなる。そして、特定周波数域パワー計算部４５により、図５に斜線の領域として例示したように、高域側の無音声区間とみなせる周波数領域、例えば周波数ｆ₁とｆ₂との間で、パワーの差|Ｘ(ｆ)|²−|Ｓ(ｆ)|²＝|Ｎ(ｆ)|²を積分し、その平均値を求めて白色雑音の分散σ²とし、分散σ²をγ正規化ＬＭＳ係数調整部１２ｂに送る。γ正規化ＬＭＳ係数調整部１２ｂは、式（３）を用いて分散σ²を、有限長フィルタ回路１１のフィルタ係数の更新に組み入れ、雑音補正の効果を与える。

ここでγ−正規化ＬＭＳアルゴリズムのγパラメータについて考える。式（２）において、
κ＝ζ（ｎ)ｅ(ｎ)Ｘ(ｎ) ・・・・・（４）
とおき、時間において展開すると：
Ｗ(ｎ＋１)＝γＷ(ｎ)＋κ
＝γ(γＷ(ｎ−１)＋κ)＋κ
＝γ² Ｗ(ｎ−１)＋γκ＋κ
＝γ²(γＷ(ｎ−２)＋κ)＋γκ＋κ
＝γ³ Ｗ(ｎ−２)＋（γ²＋γ＋１)κ
・・・・・
・・・・・
＝γⁿ⁺¹ Ｗ(０)＋（γ^ｎ＋γ^ｎ-1＋・・・・・＋γ＋１)κ
・・・・・（５）
となる。ここでγ≠１ならば、式（５）は：
Ｗ(ｎ＋１)＝γⁿ⁺¹ Ｗ(０)＋((γ^ｎ−１）／(γ−１))κ
・・・・・（６）
と示される。式（６）より以下のことが分かる：
（イ）|γ|＞１の場合、有限長フィルタ回路１１のフィルタ係数が＋∞もしくは−∞となり、出力信号ｙ（ｎ)が発散する；
（ロ）０＜|γ|＜１の場合、有限長フィルタ回路１１のフィルタ係数は、数値的に安定し発散は起こらない。

第１の実施の形態に係る音声強調装置では、γ−ＬＭＳアルゴリズムを正規化に拡張しているため、ステップサイズαにマイナス値を用いることは好ましくないと考えられる。そこで、第１の実施の形態に係る音声強調装置のγ正規化ＬＭＳ係数調整部１２ｂでは、γパラメータを：
γ＝１−ζ（ｎ)σ² ・・・・・（７）
と設定し、０＜|γ|＜１の範囲でγ−正規化ＬＭＳアルゴリズムを取り扱う。

再びここで、式（７）のγについて考える。γは抑制するバイアスの量を決定するパラメータであった。そこで，第１の実施の形態に係る音声強調装置では、更に雑音低減のために、γ正規化ＬＭＳ係数調整部１２ｂにおいて、以下のようにγパラメータに、重みパラメータfを付加する。

γ＝１−fζ（ｎ)σ² ・・・・・（８）
以上説明したように、本発明の第１の実施の形態に係る音声強調装置によれば、上記式（１）〜式（７）の一連の処理をリアルタイムに実行し、しかも音質が劣化することのない音声強調装置、を提供できる。
（第２の実施の形態）
図６に示すように、本発明の第２の実施の形態に係る音声強調システムは、時間領域の入力信号ｘ（ｎ)のデータを周波数領域のデータｘ（ｆ₁），ｘ（ｆ₂），・・・・・ｘ（ｆ_n）に変換する高速フーリエ変換（ＦＦＴ）装置２９と、周波数領域のデータｘ（ｆ₁），ｘ（ｆ₂），・・・・・ｘ（ｆ_n）のそれぞれに重み付けをする第１の重み付け回路（Ｗ₁）３０₁、第２の重み付け回路（Ｗ₂）３０₂、・・・・・・、第ｎの重み付け回路（Ｗ_n）３０_nと、第１の重み付け回路３０₁、第２の重み付け回路３０₂、・・・・・・、第ｎの重み付け回路３０_nにそれぞれ接続され、重み付けされた周波数領域のデータｘ（ｆ₁），ｘ（ｆ₂），・・・・・ｘ（ｆ_n）を、時間領域の入力信号ｘ₁（ｎ)，ｘ₂（ｎ)，・・・・・，ｘ_n（ｎ)に変換する第１の高速逆フーリエ変換装置（ＩＦＦＴ₁）３１₁，第２の高速逆フーリエ変換装置（ＩＦＦＴ₂）３１₂，・・・・・，第ｎの高速逆フーリエ変換装置（ＩＦＦＴ_n）３１_nと、第１の高速逆フーリエ変換装置３１₁，第２の高速逆フーリエ変換装置３１₂，・・・・・，第ｎの高速逆フーリエ変換装置３１_nにそれぞれ接続され、時間領域の入力信号ｘ₁（ｎ)，ｘ₂（ｎ)，・・・・・，ｘ_n（ｎ)のそれぞれに含まれる雑音を抑制しながら音声信号を強調する第１の音声強調装置（ＡＬＰ₁）３２₁，第２の音声強調装置（ＡＬＰ₂）３２₂，・・・・・，第ｎの音声強調装置（ＡＬＰ_n）３２_nと、第１の音声強調装置３２₁，第２の音声強調装置３２₂，・・・・・，第ｎの音声強調装置３２_nとの出力を加算する加算器３３を備えるフィルタバンク構成の適応音声強調システムである。

図６に示す第１の音声強調装置３２₁，第２の音声強調装置３２₂，・・・・・，第ｎの音声強調装置３２_nは、一旦、各周波数領域に分離され、再度時間領域の信号に変換された入力信号ｘ₁（ｎ)，ｘ₂（ｎ)，・・・・・，ｘ_n（ｎ)のそれぞれに対し、第１の実施の形態と同様に、γ−正規化ＬＭＳアルゴリズムを用いて音声強調を行う。最後にすべての信号を加算器３３で加算する。第２の実施の形態に係る音声強調システムはフィルタバンクを用いているが，リアルタイム処理の特徴を失うことなく、適応処理形態を保持し、より音質を改善することが可能である。

音声信号はその振幅値が激しく変動するため，第１の実施の形態で説明した音声強調装置のみでは、十分に追従できない場合が生じる。そこで、第２の実施の形態に係る音声強調システムのように、音声信号を正弦波の集まりとみなし，フィルタバンクを用いて、音声信号を単純な波形に分離させることによって、更に雑音低減が可能となる。

図６に示すフィルタバンク構成において、図７に示すように分割値を１０とし，０〜５ｋＨｚの区間を当間隔に１０分割した場合の劣化平均オピニオン評点（ＤＭＯＳ）を用いた試聴実験の結果を、図８及び図９に示す。ＤＭＯＳでは、残留雑音量と音声の歪みに着目して試聴実験を行い、評価対象サンプルの品質を、表１に示すように、「劣化が全く認められない」、「劣化が認められるが気にならない」、「劣化がわずかに気になる」、「劣化が気になる」、「劣化が非常に気になる」の５段階で評価してもらう。評点のそれぞれに評点５から評点１までを対応させ、全評価者の評点を平均したのがＤＭＯＳになる。

図８及び図９に示すＤＭＯＳ試聴実験は、ＮＴＴアドバンステクノロジ株式会社の「多言語音声データベース１９９４」を用い、日本人女性の話者１と話者２、日本人男性の話者３と話者４を発声者として、５秒間の音声データを採用した。被験者の数はそれぞれ２０人である。

試聴実験には、第２の実施の形態に係るフィルタバンクを用いた音声強調システムの他に、第１の実施の形態で説明した正規化ＬＭＳ音声強調装置，重みパラメータφ＝１としたγ−正規化ＬＭＳ音声強調装置，重みパラメータφ＝５としたγ−正規化ＬＭＳ音声強調装置，重みパラメータφ＝１０としたγ−正規化ＬＭＳ音声強調装置の４つと、更に従来技術に係るＳＳ法を加え、合計６つの音声強調装置を比較している。正規化ＬＭＳアルゴリズム及びγ−正規化ＬＭＳアルゴリズムに用いるステップサイズα＝０．０１３，安定化パラメータβ＝０．０１を採用し、サンプリング周波数は１０ｋＨｚである。

図８は残留雑音の量に着目したとき、図９は出力音声の歪みに着目したときのＤＭＯＳの男女それぞれ２人の平均値を示している。図８から、第１の実施の形態で説明した３つの音声強調装置（重みパラメータφ＝１，５，１０）を含めて、γ−正規化ＬＭＳアルゴリズムによる音声強調装置が、従来技術に係るＳＳ法に比して、高い雑音抑制能力を有することが確認できる。

又、図９からは，第２の実施の形態に係るフィルタバンクを用いた音声強調システムが、雑音を低減しつつ出力音声の歪みを抑制することが可能で、したがって、従来技術に係るＳＳ法に比して、十分高い音質を得ることが可能であることが分かる。

（その他の実施の形態）
上記のように、本発明は第１及び第２の実施の形態によって記載したが、この開示の一部をなす論述及び図面は本発明を限定するものであると理解すべきではない。この開示から当業者には様々な態様や代替実施の形態、実施例及び運用技術が明らかとなろう。

更に、図１０に示すように、第２の実施の形態に係るフィルタバンクを用いた音声強調システム（又は第１の実施の形態で説明した音声強調装置）１ａをゲーム機１０１の音声認識システム部２の前段に用いれば、音声入力でコマンドを入力するゲーム機１０１における高い音質での音声認識が可能となる。図１０に示すゲーム機１０１では、音声強調システム１ａが、マイク等（図示省略）に入力された音声入力が、音声強調システム１ａにより、雑音を低減しつつ且つ出力音声の歪みを抑制し、十分高い音質で音声認識システム部２に送られ、その結果、音声認識システム部２から必要なコマンドがゲーム機１０１の各回路に出力される。

或いは、図１１に示すように、第２の実施の形態に係る音声強調システム（又は第１の実施の形態で説明した音声強調装置）１ｂを携帯電話１０２に採用すれば、十分高い音質での通信が可能となる。図１１に示す携帯電話１０２では、音声強調システム１ｂがマイク３に接続され、マイク３に入力された音声入力が、音声強調システム１ｂにより、雑音を低減しつつ出力音声の歪みを抑制し、十分高い音質で音声通信部４に送られ、音声通信部４から電波信号として出力され、音質の良好な通信が可能となる。

このように、本発明はここでは記載していない様々な態様や実施の形態等を含むことは勿論である。したがって、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。

本発明の第１の実施の形態に係る音声強調装置の基礎となる適応線形予測器の概略構成を説明するブロック図である。本発明の第１の実施の形態に係る音声強調装置の概略構成を説明するブロック図である。図２に示した雑音推定部の構造の一例を説明するブロック図である。図２に示した雑音推定部の構造の他の一例を説明するブロック図である。図５（ｂ）の破線は、図４に示した雑音推定部の絶対値計算部により計算された、雑音付加音のパワースペクトル|Ｘ(ｆ)|²で、図５（ａ）の実線は、雑音が付加されていない、とみなされる音声のパワースペクトル|Ｓ(ｆ)|²である。本発明の第２の実施の形態に係る音声強調システムの概略構成を説明するブロック図である。本発明の第２の実施の形態に係る音声強調システムのフィルタバンク構成において、周波数分割値を１０とし、０〜５ｋＨｚの区間を当間隔に１０分割した場合の振幅−周波数特性を示す模式図である。第２の実施の形態に係るフィルタバンクを用いた音声強調システムの他に、第１の実施の形態で説明した正規化ＬＭＳ音声強調装置，重みパラメータφ＝１としたγ−正規化ＬＭＳ音声強調装置，重みパラメータφ＝５としたγ−正規化ＬＭＳ音声強調装置，重みパラメータφ＝１０としたγ−正規化ＬＭＳ音声強調装置の４つと、更に従来技術に係るＳＳ法を加え、合計６つの音声強調装置を比較して、残留雑音の量に着目したときのＤＭＯＳ試聴実験の結果を示す図である。第２の実施の形態に係るフィルタバンクを用いた音声強調システムの他に、第１の実施の形態で説明した正規化ＬＭＳ音声強調装置，重みパラメータφ＝１としたγ−正規化ＬＭＳ音声強調装置，重みパラメータφ＝５としたγ−正規化ＬＭＳ音声強調装置，重みパラメータφ＝１０としたγ−正規化ＬＭＳ音声強調装置の４つと、更に従来技術に係るＳＳ法を加え、合計６つの音声強調装置を比較して、出力音声の歪みに着目したときのＤＭＯＳ試聴実験の結果を示す図である。本発明の他の実施の形態に係り、音声強調システムをゲーム機に応用する場合の構造の一例を説明する模式的なブロック図である。本発明の更に他の実施の形態に係り、音声強調システムを携帯電話に応用する場合の構造の一例を説明する模式的なブロック図である。従来の適応フィルタを用いた適応線スペクトル強調器のブロック図である。音声信号のピッチ周期Ｔを説明する模式図である。

符号の説明

１ａ，１ｂ…音声強調システム
２…音声認識システム部
３…マイク
４…音声通信部
１１，１１ｃ…有限長フィルタ回路
１２ａ，１２ｂ，１２ｃ…係数調整部
１３，１３ｃ…減算回路
１４…雑音推定部
２０…遅延回路
２２…第２の遅延回路
２３…第１の乗算器
２４…第２の乗算器
２５，３３…加算器
２９…高速フーリエ変換（ＦＦＴ）装置
３０₁，３０₂，・・・・・・，３０_n…重み付け回路
３１₁，３１₂，・・・・・・，３１_n…高速逆フーリエ変換（ＩＦＦＴ）装置
３２₁，３２₂，・・・・・・，３２_n…音声強調装置（ＡＬＰ）
４１…有音／無音判定部
４２…分散計算部
４３…離散フーリエ変換（ＤＦＴ）部
４４…絶対値計算部
４５…特定周波数域パワー計算部
１０１…ゲーム機
１０２…携帯電話

Claims

入力信号を、１サンプリング時間遅延する遅延回路と、
該遅延回路に接続された有限長フィルタ回路と、
該有限長フィルタ回路の正規化ＬＭＳ係数を調整する正規化ＬＭＳ係数調整部と、
前記入力信号から前記有限長フィルタ回路の出力信号を減算し、減算結果を前記正規化ＬＭＳ係数調整部にフィードバックする減算回路
とを備えることを特徴とする適応線形予測器。
雑音付加音声信号である入力信号を、１サンプリング時間遅延する遅延回路と、
該遅延回路に接続され、２次音源として機能する有限長フィルタ回路と、
該有限長フィルタ回路のγ−正規化ＬＭＳ係数を調整するγ正規化ＬＭＳ係数調整部と、
前記入力信号から前記有限長フィルタ回路の出力信号を減算し、減算結果を前記γ正規化ＬＭＳ係数調整部にフィードバックする減算回路と、
前記入力信号から白色雑音の分散を推定し、前記γ正規化ＬＭＳ係数調整部に前記白色雑音の分散を出力し、前記γ正規化ＬＭＳ係数調整部にγ−正規化ＬＭＳアルゴリズムのγパラメータを補正させる雑音推定部
とを備えることを特徴とする音声強調装置。
前記雑音推定部は、
前記入力信号を入力する有音／無音判定部と、
該有音／無音判定部に接続された分散計算部
とを備え、前記有音／無音判定部は、前記入力信号に対し有音と無音を判定し、有音の場合は無処理とし、無音の場合は、前記入力信号を前記分散計算部に送り、前記分散計算部において、前記入力信号に含まれる前記白色雑音の分散を計算し、前記分散を前記γ正規化ＬＭＳ係数調整部に送ることを特徴とする請求項２に記載の音声強調装置。
前記雑音推定部は、
前記入力信号を入力する離散フーリエ変換部と、
該離散フーリエ変換部に接続された絶対値計算部と、
該絶対値計算部に接続された特定周波数域パワー計算部
とを備え、前記離散フーリエ変換部により前記入力信号を周波数領域のデータに変換し、前記絶対値計算部により雑音付加音のパワースペクトルを得て、前記特定周波数域パワー計算部により、無音声区間とみなせる周波数領域で前記白色雑音の分散を計算し、前記分散を前記γ正規化ＬＭＳ係数調整部に送ることを特徴とする請求項２に記載の音声強調装置。
時間領域の雑音付加音声信号のデータを周波数領域のデータに変換する高速フーリエ変換装置と、
高速フーリエ変換装置にそれぞれ接続され、前記周波数領域のデータを、時間領域の信号に再変換する複数の高速逆フーリエ変換装置と、
該複数の高速逆フーリエ変換装置にそれぞれ接続された複数の音声強調装置と、
該複数の音声強調装置との出力を加算する加算器とを備え、
前記複数の音声強調装置のそれぞれは、
各周波数領域毎に再変換された前記時間領域の信号を、１サンプリング時間遅延する遅延回路と、
該遅延回路に接続され、２次音源として機能する有限長フィルタ回路と、
該有限長フィルタ回路のγ−正規化ＬＭＳ係数を調整するγ正規化ＬＭＳ係数調整部と、
再変換された前記時間領域の信号から前記有限長フィルタ回路の出力信号を減算し、減算結果を前記γ正規化ＬＭＳ係数調整部にフィードバックする減算回路と、
再変換された前記時間領域の信号から白色雑音の分散を推定し、前記γ正規化ＬＭＳ係数調整部に前記白色雑音の分散を出力し、前記γ正規化ＬＭＳ係数調整部にγ−正規化ＬＭＳアルゴリズムのγパラメータを補正させる雑音推定部
とを備えることを特徴とする音声強調システム。
前記高速フーリエ変換装置には、前記周波数領域のデータのそれぞれに重み付けをする複数の重み付け回路が接続され、各周波数領域毎に、前記複数の重み付け回路にそれぞれ前記複数の高速逆フーリエ変換装置が接続されることを特徴とする請求項５に記載の音声強調システム。
前記複数の音声強調装置のそれぞれの前記雑音推定部は、
対応する各周波数領域毎に再変換された前記時間領域の信号を入力する有音／無音判定部と、
該有音／無音判定部に接続された分散計算部
とを備え、前記有音／無音判定部は、再変換された前記時間領域の信号に対し有音と無音を判定し、有音の場合は無処理とし、無音の場合は、再変換された前記時間領域の信号を前記分散計算部に送り、前記分散計算部において、再変換された前記時間領域の信号に含まれる前記白色雑音の分散を計算し、前記分散を前記γ正規化ＬＭＳ係数調整部に送ることを特徴とする請求項５又は６に記載の音声強調システム。
前記複数の音声強調装置のそれぞれの前記雑音推定部は、
対応する各周波数領域毎に再変換された前記時間領域の信号を入力する離散フーリエ変換部と、
該離散フーリエ変換部に接続された絶対値計算部と、
該絶対値計算部に接続された特定周波数域パワー計算部
とを備え、前記離散フーリエ変換部により再変換された前記時間領域の信号を周波数領域のデータに変換し、前記絶対値計算部により雑音付加音のパワースペクトルを得て、前記特定周波数域パワー計算部により、無音声区間とみなせる周波数領域で前記白色雑音の分散を計算し、前記分散を前記γ正規化ＬＭＳ係数調整部に送ることを特徴とする請求項５又は６に記載の音声強調システム。