JP5275748B2

JP5275748B2 - 動的ノイズ低減

Info

Publication number: JP5275748B2
Application number: JP2008273648A
Authority: JP
Inventors: リーシュエマン; ノンピウルラジェーブ; エー．ヘザーリントンフィリップ
Original assignee: キューエヌエックスソフトウェアシステムズリミテッド
Priority date: 2007-10-24
Filing date: 2008-10-23
Publication date: 2013-08-28
Anticipated expiration: 2028-10-23
Also published as: US8015002B2; US20090112584A1; EP2056296A2; JP2009104140A; US20120035921A1; EP2056296A3; US8326616B2; JP2012177950A; EP2056296B1

Description

本開示は、音声強調に関し、さらに詳細には、高ノイズ条件において音声の明瞭度と音声の質とを向上させることに関する。

車両における音声強調は困難である。一部のシステムは、干渉の影響を受けやすい。干渉は、エンジン、ファン、道路のノイズ、および雨を含む多くのソースに由来し得る。反響およびエコーもまた、特に車両環境における音声強調システムにおいて干渉し得る。

一部のノイズ抑制システムは、知覚可能な周波数帯域の多くの周波数にわたって均等にノイズを減衰させる。高ノイズ環境において、特に低周波数において、均等な量のノイズ抑制がスペクトルにわたって適用されたときに、高レベルの残余ノイズが生成され得、該高レベルの残余ノイズは、所望の信号の明瞭度と質とを低下させ得る。

一部の方法は、第１のフォルマントを犠牲にして第２のフォルマントの周波数を強調し得る。これらの方法は、第２のフォルマントの周波数が第１のフォルマントよりも音声の明瞭度に貢献するということを想定し得る。残念ながら、これらの方法は、ユーザが予期し得る信号の鮮明度と質とを低減させる低周波数帯域の大部分を減衰させ得る。高感度であり、かつ正確であり、待ち時間が最も少なく、知覚可能な周波数帯域にわたって音声を強調するシステムに対する必要性が存在する。

音声強調システムは、音声の質と、音声信号の明瞭度とを改善する。システムは、時間周波数コンバータを含み、該時間周波数コンバータは、音声信号のセグメントを周波数帯域に変換する。信号検出器は、各音声セグメントの周波数帯域の信号パワーを測定する。バックグラウンドノイズ推定器は、音声信号において検出されたバックグラウンドノイズを測定する。動的ノイズ低減コントローラは、音声信号におけるバックグラウンドノイズを動的にモデリングする。音声の強調は、音声信号のスペクトルの一部分において生じたノイズの一部分を動的に減衰させることによって、聴取者にとって知覚的に心地良い音声信号を表現する。

他のシステム、方法、特徴、および利点が、以下の図面と詳細な記述とを考察すると、当業者に明確であるか、または明確になる。全てのかかる追加的なシステム、方法、特徴、および利点が、この記述の範囲内に含まれ、本発明の範囲内に含まれ、そして、添付の特許請求の範囲によって保護されるということが意図されている。

本発明はさらに以下を提供する
（項目１）
音声の質を改善するシステムであって、該システムは、
時間変化する信号を周波数領域に、デジタル化して変換するように構成される、スペクトルコンバータと、
バックグラウンドノイズ推定器であって、該時間変化する信号に存在し、かつノイズレシーバの近傍で検出されるバックグラウンドノイズを測定するように構成される、バックグラウンドノイズ推定器と、
該スペクトルコンバータおよび該バックグラウンドノイズ推定器と通信するスペクトルセパレータであって、音声セグメントのパワースペクトルを分割するように構成される、スペクトルセパレータと、
該スペクトルセパレータと通信するモデラであって、実質的に線形の複数の関数を該音声セグメントの様々な部分に適合させる、モデラと、
動的ノイズ調節器であって、該音声セグメントのノイジーな部分に対応する動的調整係数を指定することによって、該音声セグメントの該ノイジーな部分のスペクトルの大きさを指定するようにプログラムされる、動的ノイズ調節器と、
動的ノイズプロセッサであって、該音声セグメントの１つ以上の部分において検出された該ノイズの一部分を減衰させるようにプログラムされる、動的ノイズプロセッサと
を備える、システム。

（項目２）
上記モデラは、複数の線形関係を近似するように構成される、項目１に記載の音声の質を改善するシステム。

（項目３）
上記モデラは、直線を聴覚スペクトルの中間周波数の部分から低周波数部分に適合させ、かつ直線を該聴覚スペクトルの高周波数部分に適合させるように構成される、項目２に記載の音声の質を改善するシステム。

（項目４）
バックグラウンドノイズ推定器は、バックグラウンドノイズ推定器を備える、項目１に記載の音声の質を改善するシステム。

（項目５）
車両内で聴取される変化するノイズ条件に適応する音声強調システムであって、該音声強調システムは、
周波数帯域において音声セグメントの複数の部分を変換する時間周波数コンバータと、
該音声セグメントの該周波数帯域の信号パワーを測定するように構成される信号検出器と、
車両内で検出された聴覚バックグラウンドノイズを測定するように構成されるバックグラウンドノイズ推定器と、
動的ノイズ低減コントローラであって、該音声セグメントのスペクトルの低周波数部分において発生する該ノイズの一部分の動的な減衰を介して、快く知覚される音声セグメントにするために、該車両内の該聴覚バックグラウンドノイズを動的にモデリングするように構成される、動的ノイズ低減コントローラと
を備える、音声強調システム。

（項目６）
アナログ音声セグメントをデジタル信号に変換するように構成されるアナログデジタル変換器をさらに備える、項目５に記載の音声強調システム。

（項目７）
上記時間周波数コンバータは、短時間フーリエ変換コントローラを備える、項目６に記載の音声強調システム。

（項目８）
上記バックグラウンドノイズ推定器は、上記周波数帯域のそれぞれにおいて音響パワーを平均するように構成されるパワー検出器を備える、項目７に記載の音声強調システム。

（項目９）
上記測定されたバックグラウンドノイズが所定の閾値を超えている場合に、上記バックグラウンドノイズ推定器を無効にするように構成される過渡検出器をさらに備える、項目８に記載の音声強調システム。

（項目１０）
上記動的ノイズ低減コントローラは、周波数スペクトルの２つ以上の間隔を区別するように構成される、項目９に記載の音声強調システム。

（項目１１）
上記動的ノイズ低減コントローラは、上記音声セグメントのスペクトルの一部分において発生する上記ノイズの一部分を減衰させるようにプログラムされる、項目９に記載の音声強調システム。

（項目１２）
上記動的ノイズ低減コントローラは、上記音声セグメントの周波数が実質的に事前に指定された周波数以上である場合に、実質的に均一な抑制を適用するように構成される、項目９に記載の音声強調システム。

（項目１３）
上記動的ノイズ低減コントローラは、上記音声セグメントの周波数ビンが事前に指定されたビンより小さい場合に、可変の抑制を適用するように構成される、項目１２に記載の音声強調システム。

（項目１４）
空気を動かすことによって生成された上記ノイズを抑制する上記動的ノイズ低減コントローラと通信する風抑制システムをさらに備える、項目９に記載の音声強調システム。

（項目１５）
車両内で記録された信号に適用される減衰ゲインを動的に制御するシステムであって、該システムは、
サウンドセグメントにおいて該信号パワーをリアルタイムで測定するように構成されるパワープロセッサと、
該サウンドセグメントにおいて検出されたバックグラウンドノイズをリアルタイムで測定するように構成されるバックグラウンドノイズプロセッサと、
複数の線形関係を処理することによって、該測定されたバックグラウンドノイズをモデリングするように構成される動的ノイズ低減プロセッサと、
該測定されたバックグラウンドノイズの該モデルに応答して調整されたノイズ抑制ゲインを有する動的ノイズ抑制フィルタと
を備える、システム。

（項目１６）
上記動的ノイズ抑制フィルタは、上記サウンドセグメントの第１の指定された部分と、該サウンドセグメントの第２の指定された部分との間の勾配の差に基づき、抑制ゲインを適用するように構成される、項目１５に記載の信号に適用される減衰ゲインを動的に制御するシステム。

（項目１７）
上記第１の指定された部分は、上記サウンドセグメントの低周波数部分を含む、項目１６に記載の信号に適用される減衰ゲインを動的に制御するシステム。

（項目１８）
上記第２の指定された部分は、上記サウンドセグメントの高周波数部分を含む、項目１７に記載の信号に適用される減衰ゲインを動的に制御するシステム。

（項目１９）
音声セグメントの音声の質および明瞭度を改善する方法であって、該方法は、
サウンドセグメントを別々の周波数帯域に変換することであって、各帯域は、小さな周波数範囲にわたって振幅および位相を識別する、ことと、
各周波数帯域において測定された音響パワーを平均することによって、信号のバックグラウンドノイズを推定することと、
周波数スペクトルの高い部分と周波数スペクトルの低い部分とを区別することと、
該スペクトルの高周波数部分に適用される実質的に一定の減衰と、該周波数スペクトルの低い部分に適用される可変の減衰とを決定することによって、バックグラウンドノイズスペクトルをモデリングすることと、
該一定の減衰と該可変の減衰とを適用することによって、該サウンドセグメントから該バックグラウンドノイズの複数の部分を減衰させることと
を包含する、方法。

（項目２０）
上記周波数スペクトルの高い部分と該周波数スペクトルの低い部分との間の分離を指定する所定の周波数帯域を指定することをさらに包含する、項目１９に記載の音声セグメントの音声の質および明瞭度を改善する方法。

（項目２１）
過渡ノイズが検出される場合に、上記バックグラウンドノイズを推定する動作を無効にすることをさらに包含する、項目１９に記載の音声セグメントの音声の質を改善する方法。

（項目２２）
上記サウンドセグメントをパワー領域に変換することをさらに包含する、項目１９に記載の音声セグメントの音声の質を改善する方法。

（項目２３）
可変の減衰レベルは、複数のモデリングされた直線座標切片に基づく、項目１９に記載の音声セグメントの音声の質を改善する方法。

（項目２４）
バックグラウンドノイズをモデリングすることによって、音声の質を改善するソフトウェアを保持するコンピュータ読み取り可能な媒体であって、該媒体は、
コンピュータ読み取り可能な媒体であって、プロセッサによって処理されるようにアクセス可能であり、かつそのように構成される信号推定ロジック、モデリングロジック、および減衰ロジックを保持する、媒体を備え、
該信号推定ロジックは、入力信号において所望される信号の信号パワーを決定し、
該モデリングロジックは、複数の実質的に線形のモデルを介して、該入力信号から検出された複数のバックグラウンドノイズを表し、
該減衰ロジックは、該モデリングロジックの出力に応答して、該入力信号に適用される抑制のレベルを近似する、コンピュータ読み取り可能な媒体。

（項目２５）
上記複数の実質的に線形のモデルを保持するようにプログラムされるメモリをさらに備える、項目２４に記載のコンピュータ読み取り可能な媒体。

（摘要）
音声強調システムは、音声の質と、音声信号の明瞭度とを改善する。システムは、時間周波数コンバータを含み、該時間周波数コンバータは、音声信号のセグメントを周波数帯域に変換する。信号検出器は、各音声セグメントの周波数帯域の信号パワーを測定する。バックグラウンドノイズ推定器は、音声信号において検出されたバックグラウンドノイズを測定する。動的ノイズ低減コントローラは、音声信号におけるバックグラウンドノイズを動的にモデリングする。音声の強調は、音声信号のスペクトルの一部分において生じたノイズの一部分を動的に減衰させることによって、聴取者にとって知覚的に心地良い音声信号を表現する。

システムは、以下の図面と記述とを参照してさらに良く理解され得る。図面中のコンポーネントは、必ずしもサイズに比例しておらず、その代わりに、本発明の原理を例示することに重きを置いている。さらに、図面においては、同様な参照番号は、異なる図面全体にわたって対応する部分を示している。

ハンズフリーシステムと、通信デバイスと、車両または筐体内の電話とは、ノイズに影響されやすい。ノイズの空間的特性、線形特性、および非線形特性が、音声を抑制したり、歪ませたりし得る。音声強調システムは、聞き取られ得るバックグラウンドノイズを動的に減衰させることによって音声の質と明瞭度とを改善する。動的ノイズ低減システムは、第１のフォルマントの周辺のより低周波数においてより多くの減衰を提供し、第２のフォルマントの周辺においてより少ない減衰を提供し得る。システムは、第２のフォルマントの周波数を強調しながら、第１のフォルマントの音声信号を排除しないことがあり得る。この強調が、開示されたシステムの一部における音声の明瞭度を改善し得る。

バックグラウンドノイズが、低い強度であったり、中間の強度を下回ったりしたときには、一部の静的ノイズ抑制システム（ＳＮＳＳ）が、所望の音声の質および清澄度を達成し得る。ノイズレベルが中間レベルを超過したり、ノイズが一部の音調（ｔｏｎａｌ）特性または過渡特性を有したりするときには、静的抑制システムは、変化するノイズ条件に順応しないことがあり得る。一部の用途において、静的ノイズ抑制システムは、高レベルの残余散乱ノイズ、音調ノイズ、および／または過渡ノイズを生成する。これらの残余ノイズは、音声の質および明瞭度を低下させ得る。残余干渉が、聴取者に疲労をもたらし得、そして、自動音声認識（ＡＳＲ）システムの性能を低下させ得る。

相加性ノイズモデルにおいて、ノイジーな音声は、方程式１によって記述され得る。
ｙ（ｔ）＝ｘ（ｔ）＋ｄ（ｔ）（１）
ここで、ｘ（ｔ）とｄ（ｔ）とは、音声信号とノイズ信号とをそれぞれ示す。方程式２において、

は、ノイジーな音声の短時間のスペクトルの大きさを示し、

は、鮮明な音声の短時間のスペクトルの大きさを示し、

は、ノイズの短時間のスペクトルの大きさを示し、Ｇ_ｎ，ｋは、ｎ番目のフレームとｋ番目の周波数ビンとにおける短時間のスペクトル抑制ゲインを示す。このように、推定された鮮明な音声のスペクトルの大きさは、方程式２によって記述され得る。

一部の静的抑制システムは、処理された信号において、楽音を作り出すので、処理された信号の質は低下し得る。音来のノイズを最小化したり、マスキングしたりするために、抑制ゲインは、方程式３によって記述されるように制限され得る。
Ｇ_ｎ，ｋ＝ｍａｘ（σ，Ｇ_ｎ，ｋ）（３）
方程式３におけるパラメータσは、一定のノイズフロアであり、該一定のノイズフロアは、各周波数ビンに適用されるノイズの減衰の量を確立する。一部の用途において、例えば、σが約０．３に設定されたときには、システムは、周波数ビンｋにおいて約１０ｄＢだけノイズを減衰させ得る。

スペクトルゲインに基づいたノイズ低減システムは、通常のノイズ条件の下では良好な性能を有し得る。低周波数のバックグラウンドノイズ条件が、過大であるときには、かかるシステムは、処理された信号に残る高レベルの残余ノイズの影響をこうむり得る。

図１および図２は、中間レベルおよび高レベルの車両ノイズの条件それぞれにおいて記録された音声信号のスペクトログラムである。図３および図４は、音声が静的ノイズ抑制システムによって処理されたあとの、図１および図２に示された音声信号のスペクトログラムに対応するスペクトログラムを示す。図１〜図４において、縦座標は、周波数で測定され、横座標は、時間（例えば、秒）で測定される。図の暗度によって示されているように、静的ノイズ抑制システムは、中間レベル（および、示されていないが、低レベル）のバックグラウンドノイズを効果的に抑制する（図３を参照）。逆に、音声が、強いノイズを受けている車両内で記録されたときには、音声のうちの一部は、残余ノイズによって損なわれたり、マスキングされたりしたように現れる（例えば、図４を参照）。

一部の静的ノイズ抑制システムは、全ての周波数にわたって実質的に同じ量のノイズ抑制を加えるので、音声が強調されるときに、ノイズの形状は、変化しないままであり得る。図５および図６は、中間レベルまたは高レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、静的ノイズ抑制システムによって処理された中間レベルまたは高レベルのバックグラウンドノイズのパワースペクトル密度のグラフとである。例示的な静的ノイズ抑制システムは、異なるノイズのタイプまたは異なるノイズ条件に対して減衰を適応させないことがあり得る。図４および図６に示されたもののような高ノイズ条件においては、高レベルの残余ノイズが、処理された信号に残る。

図７は、リアルタイムまたは遅延音声強調方法７００の流れ図であり、該リアルタイムまたは遅延音声強調方法７００は、変化するノイズ条件に適応する。連続的な信号が記録されたときに、連続的な信号は、所定のサンプリングレートでサンプリングされ、アナログデジタルコンバータによってデジタル化され得る（デジタル信号として受信された場合には、任意である）。信号に対する複素スペクトルが、短時間フーリエ変換（ＳＴＦＴ）によって獲得され得、該短時間フーリエ変換（ＳＴＦＴ）は、離散時間信号を周波数ビンに変換し、各ビンは、動作７０２において小さな周波数範囲にわたって大きさと位相とを識別する。

７０４において、各周波数ビンに対する信号パワーが測定され、バックグラウンドノイズが７０６において推定される。バックグラウンドノイズの推定は、各周波数ビンにおける音響パワーの平均を含み得る。過渡中の偏ったバックグラウンドノイズの推定を防止するために、ノイズ推定プロセスは、代替の方法において、検出されたパワーの異常な増加または予測不可能な増加の間には無効にされ得る。瞬間的なバックグラウンドノイズが、所定のデシベルレベルよりも多く、所定のバックグラウンドノイズまたは平均バックグラウンドノイズを超過したときには、過渡の検出プロセスは、バックグラウンドノイズの推定を無効にし得る。

７０８において、バックグラウンドノイズスペクトルがモデリングされる。モデルは、高周波数範囲と低周波数範囲との間を区別し得る。線形のモデルまたは実質的に線形のモデルが使用されたときに、周波数ビンが所定の周波数ビンとほぼ等しかったり、所定の周波数ビンを上回ったりしたときには、定常な抑制係数または均一な抑制係数が適用され得る。周波数ビンが所定の周波数ビンを下回ったときには、修正された抑制係数または可変抑制係数が適用される。一部の方法において、所定の周波数ビンは、高周波数のスペクトルと中間周波数のスペクトルとの間（または高周波数範囲と中間周波数範囲から低周波数範囲までとの間）の境界を指示したり、その境界を近似したりし得る。

抑制係数は、７１０において複素信号スペクトルに適用され得る。次に、処理されたスペクトルは、（所望された場合には）任意的な動作７１２において時間領域に再構築されたり、変換されたりし得る。一部の方法は、短時間逆フーリエ変換（ＳＴＩＦＴ）または逆サブバンドフィルタリング方法（ｉｎｖｅｒｓｅｓｕｂ−ｂａｎｄｆｉｌｔｅｒｉｎｇｍｅｔｈｏｄ）によって、処理された信号を再構築したり、変換したりし得る。

図８は、代替のリアルタイムまたは遅延音声強調方法８００の流れ図であり、該代替のリアルタイムまたは遅延音声強調方法８００は、車両内の変化するノイズ条件に適応する。連続的な信号が記録されたときには、連続的な信号は、所定のサンプリングレートでサンプリングされ、アナログデジタルコンバータによってデジタル化され得る（デジタル信号として受信された場合には、任意である）。信号に対する複素スペクトルが、短時間フーリエ変換（ＳＴＦＴ）によって獲得され得、該短時間フーリエ変換（ＳＴＦＴ）は、動作８０２において、離散時間信号を周波数ビンに変換する。

バックグラウンドノイズのパワースペクトルが、８０４において、ｎ番目のフレームにおいて推定され得る。各フレームＢ_ｎのバックグラウンドノイズのパワースペクトルが、方程式４によって記述されるように、ｄＢ領域に変換され得る。
φ_ｎ＝１０ｌｏｇ_１０Ｂ_ｎ（４）
ｄＢパワースペクトルが、８０６において、低周波数部分と高周波数部分とに分割され得る。分割は、カットオフ周波数などの所定の周波数ｆ_０において生じ得、このことが、８０８と８１０とにおいて、複数の線形の回帰モデルを分離し得る。例示的なプロセスは、方程式５および方程式６によって記述されている２つの実質的に線形のモデルまたは線形の回帰モデルを適用し得る。
Ｙ_Ｌ＝ａ_ＬＸ_Ｌ＋ｂ_Ｌ（５）
Ｙ_Ｈ＝ａ_ＨＸ_Ｈ＋ｂ_Ｈ（６）
方程式５および方程式６において、Ｘは周波数であり、ＹはバックグラウンドノイズのｄＢパワーであり、ａ_Ｌ、ａ_ＨはｄＢノイズパワースペクトルの低周波数部分と高周波数部分との勾配であり、ｂ_Ｌ、ｂ_Ｈは周波数がゼロに設定されたときの２つの直線の切片である。

所定の周波数ｆ_０（ｋ_０ビン）またはカットオフ周波数を下回る所与の周波数に対する動的抑制係数が、方程式７によって記述され得る。

あるいは、所定の周波数またはカットオフ周波数ビンｋ_０を下回る各ビンに対して、動的抑制係数が、方程式８によって記述され得る。

動的調節係数または動的ノイズフロアが、均一なノイズフロアまたは均一な閾値を変更することによって記述され得る。変動性は、方程式９によって記述されているように、所定のビンを含むビンに対するビンの相対位置に基づき得る。

音声強調方法は、動的調節Ｇ_{ｄｙｎａｍｉｃ，ｎ，ｋ}を指定することによってノイジーな音声セグメントのスペクトルの大きさを最小化したり、最大化したりし得、該動的調節Ｇ_{ｄｙｎａｍｉｃ，ｎ，ｋ}は、８１２において、ｎ番目のフレームとｋ番目の周波数ビンとにおける短時間スペクトル抑制ゲインを指示する。
Ｇ_{ｄｙｎａｍｉｃ，ｎ，ｋ}＝ｍａｘ（η（ｋ），Ｇ_ｎ，ｋ）（１０）
ノイジーな音声スペクトルの大きさは、動的ゲインＧ_{ｄｙｎａｍｉｃ，ｎ，ｋ}によって処理されることにより、８１４において、方程式１１によって記述されているように音声セグメントを鮮明にし得る。

一部の音声強調方法において、鮮明な音声セグメントが、（所望される場合には）時間領域に変換され得る。一部の方法が、短時間逆フーリエ変換（ＳＴＩＦＴ）によって処理された信号を再構築したり、変換したりし得る。一部の方法は、逆サブバンドフィルタリング方法を使用し得、そして、一部の方法は、他の方法を使用し得る。

図８において、ノイズ低減音声信号の質が改善される。動的ノイズ低減の量は、低周波数のノイズスペクトルと高周波数のノイズスペクトルとの間の勾配の差によって決定され得る。ノイズパワースペクトルの低周波数部分（例えば、第１の指定部分）が、高周波数分（例えば、第２の指定部分）と同様な勾配を有するときには、動的ノイズフロアは、実質的に均一または実質的に一定であり得る。ノイズスペクトルの低周波数部分（例えば、第１の指定部分）の負の勾配が、高周波数部分（例えば、第２の指定部分）の負の勾配よりも大きいときには、より積極的なまたは可変のノイズ低減方法が、より低い周波数において適用され得る。

図７および図８の方法および記述は、信号伝達媒体、メモリなどのコンピュータ読み取り可能な媒体内に符号化され得、該コンピュータ読み取り可能な媒体は、１つ以上の集積回路などのデバイスの中にプログラムされたり、コントローラまたはコンピュータによって処理されたりした一体のロジックまたは別個のロジックを備え得る。方法が、ソフトウェアによって行われる場合には、ソフトウェアまたはロジックは、１つ以上のプロセッサまたはコントローラ、ワイヤレス通信インタフェース、ワイヤレスシステム、車両の娯楽および／または快適度コントローラに存在したり、インタフェースされたりしているメモリ、または音声強調システムにインタフェースされたり、存在したりしている不揮発性または揮発性のタイプのメモリ内にあり得る。メモリは、論理機能を実装するための実行可能な命令の順序付けられたリストを含む。論理機能は、デジタル回路、ソースコード、アナログ回路網、またはアナログ電気信号もしくはオーディオ信号などのアナログソースによって実装され得る。ソフトウェアは、図１７に示されたハンズフリーシステムもしくは通信システムまたはオーディオシステムに存在する命令を実行可能なシステム、装置、デバイスによって使用するために、またはそれらと共に使用するために、任意のコンピュータ読み取り可能な媒体または信号伝達媒体において体現され得、図１６に示されているように車両の中にもあり得る。かかるシステムは、コンピュータベースのシステム、プロセッサを含むシステム、または任意のハードウェアまたはワイヤレス自動車通信プロトコルまたは他の有線またはワイヤレスの通信プロトコルによって自動車またはワイヤレス通信バスと通信し得る入出力インタフェースを含む別のシステムを含み得る。

「コンピュータ読み取り可能な媒体」、「機械読み取り可能な媒体」、「伝搬された信号」媒体、および／または「信号伝達媒体」は、命令を実行可能なシステム、装置、またはデバイスによって使用するために、あるいはそれらと共に使用するためにソフトウェアを含んだり、格納したり、通信したり、伝搬したり、運んだりする任意の手段を含み得る。機械読み取り可能な媒体は、限定するものではないが、選択的に、電子、磁気、光学、電磁、赤外線または半導体のシステム、装置、デバイス、または伝搬媒体であり得る。機械読み取り可能な媒体の網羅的ではない例は、１つ以上のワイヤを有する電気接続「電子機器」、ポータブルの磁気ディスクもしくは光学ディスク、ランダムアクセスメモリ「ＲＡＭ」などの揮発性メモリ（電子機器）、読み取り専用メモリ「ＲＯＭ」（電子機器）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）（電子機器）または光ファイバ（光学機器）を含む。機械読み取り可能な媒体は、ソフトウェアが画像としてまたは他のフォーマット（例えば、光学スキャン）によって電子的に格納され、次に、コンパイルされ、および／または解釈されたり、処理されたりするとき、ソフトウェアが印刷される有形の媒体も含み得る。処理された媒体は、次に、コンピュータおよび／または機械メモリに格納され得る。

図９は、音声強調システム９００であり、該音声強調システム９００は、変化するノイズ条件に適応する。連続的な信号が記録されたときに、連続的な信号は、所定のサンプリングレートでサンプリングされ、アナログデジタルコンバータによって（修正されていない信号がデジタルフォーマットで受信された場合には、任意のデバイスによって）デジタル化され得る。信号の複素スペクトルが、時間周波数トランスフォーマ９０２によって獲得され得、該時間周波数トランスフォーマ９０２は、短時間フーリエ変換（ＳＴＦＴ）コントローラまたはサブバンドフィルタを備え得、該短時間フーリエ変換（ＳＴＦＴ）コントローラまたは該サブバンドフィルタは、デジタル化された信号を周波数ビンまたはサブバンドに分離する。

各周波数ビンまたはサブバンドに対する信号パワーが、信号検出器９０４によって測定され得、バックグラウンドノイズが、バックグラウンドノイズ推定器９０６によって推定され得る。バックグラウンドノイズ推定器９０６は、レシーバの近傍で生じる連続的なノイズまたは周囲ノイズを測定し得る。バックグラウンドノイズ推定器９０６は、パワー検出器を備え、該パワー検出器は、音声が検出されていないときに、各周波数帯域または選択された周波数帯域における音響パワーを平均する。過渡における偏ったノイズの推定を防止するために、代替のバックグラウンドノイズ推定器が、任意の過渡検出器と通信し、該任意の過渡検出器は、パワーの異常な増加または予測不可能な増加の間、代替のバックグラウンドノイズ推定器を無効にする。瞬間的なバックグラウンドノイズＢ（ｆ，ｉ）が選択されたデシベルレベル「ｃ」よりも多く、平均バックグラウンドノイズＢ（ｆ）_Ａｖｅを超過したときには、過渡検出器は、代替のバックグラウンド推定器を無効にし得る。この関係が方程式１２によって表現され得る。
Ｂ（ｆ，ｉ）＞Ｂ（ｆ）_Ａｖｅ＋ｃ（１２）
動的バックグラウンドノイズ低減コントローラ９０８は、バックグラウンドノイズを動的にモデリングし得る。モデルは、周波数スペクトルの２つ以上の間隔の間を区別し得る。複数のモデルが使用されるとき、例えば、２つ以上の実質的に線形のモデルが使用されるときに、周波数ビンが、事前に指定されたビンまたは周波数とほぼ等しかったり、それよりも大きかったりしたときには、定常な抑制または均一な抑制が、ノイジーな信号に適用され得る。あるいは、周波数ビンが、事前に指定された周波数ビンまたは周波数を下回ったときには、修正された抑制係数または可変抑制係数が適用される。一部のシステムにおいて、所定の周波数ビンは、聴覚範囲において、高周波数のスペクトルと中間周波数のスペクトルとの間（または高周波数範囲と中間周波数範囲から低周波数範囲までとの間）の境界を指示したり、その境界を近似したりし得る。

モデルに基づいて、動的バックグラウンドノイズ低減コントローラ９０８は、低周波数スペクトルにおいて生じたノイズを積極的に減衰させることによって、音声を、聴取者にとってより知覚的に心地良くなるようにする。次に、処理されたスペクトルは、（所望される場合には）周波数時間コンバータ９１０によって時間領域に変換され得る。一部の周波数時間スペクトルコンバータ９１０は、短時間逆フーリエ変換（ＳＴＩＦＴ）コントローラまたは逆サブバンドフィルタによって、処理された信号を再構築したり、変換したりする。

図１０は、代替の音声強調システム１０００であり、該代替の音声強調システム１０００は、処理された音声の知覚的質を改善し得る。システムは、人間の聴覚器官の特性から利益を受け得、該システムは、事実上聞き取ることができないノイズを積極的に抑制することなく、音声を、耳にとってより知覚的に心地良くなるようにする。その代わりに、システムは、より可聴周波数範囲に集中し得る。音声強調は、スペクトルコンバータ１００２によって達成され得、該スペクトルコンバータ１００２は、時間領域信号を周波数領域にデジタル化して変換し、次に、該周波数領域は、パワー領域に変換される。バックグラウンドノイズ推定器９０６は、レシーバの近傍で生じる連続的なノイズまたは周囲のノイズを測定する。バックグラウンドノイズ推定器９０６は、パワー検出器を備え、該パワー検出器は、音声がほとんど検出されなかったり、全く検出されなかったりしたときに、各周波数ビンにおける音響パワーを平均する。過渡中の偏ったノイズの推定を防止するために、過渡検出器は、一部の代替の音声強調システムにおいて、パワーの異常な増加または予測不可能な増加の間、バックグラウンドノイズ推定器９０６を無効にし得る。

スペクトルセパレータ１００４は、パワースペクトルを低周波数部分と高周波数部分とに分割し得る。分割は、カットオフ周波数などの所定の周波数または指定された周波数ビンにおいて生じ得る。

必要とされるノイズ抑制を決定するために、モデラ１００６は、ノイジーな音声スペクトルの選択された部分に別々の直線を適合させ得る。例えば、モデラ１００６は、ある直線を低周波数スペクトルおよび／または中間周波数スペクトルの一部分に適合させ得、別の直線をスペクトルの高周波数の部分の一部分に適合させ得る。回帰によって、最も適合する直線が、スペクトルの複数の部分における車両のノイズの激しさをモデリングし得る。

動的ノイズ調節器１００８は、各フレームまたは選択されたフレームと各周波数ビンまたは選択されたｋ番目の周波数ビンにおける短時間スペクトル抑制ゲインに対する動的調整係数を指定することによってノイジーな音声セグメントのスペクトルの大きさを指定し得る。動的調整係数は、一部のシステムにおいて、ゲイン係数の知覚的非線形の重み付けを含み得る。次に、動的ノイズプロセッサ１０１０が、スペクトルにおけるノイズのうちの一部を減衰させ得る。

図１１は、動的ノイズ低減ロジックまたは記述された方法を包含するソフトウェアを用いてプログラムされ得るプログラマブルフィルタである。プログラマブルフィルタは、受信された信号の信号対ノイズ比に基づいた周波数応答を有し得、例えば、再帰的ウィーナーフィルタである。例示的なウィーナーフィルタの抑制ゲインは、方程式１３によって記述され得る。

は、方程式１４によって記述されるアプリオリなＳＮＲ推定である。

は、方程式１５によって記述される経験的ＳＮＲ推定である。

ここで、

はノイズの大きさの推定である。

は、ノイジーな音声の短時間スペクトルの大きさである。

フィルタの抑制ゲインは、方程式１０によって記述された動的ノイズフロアを含むことにより、ゲイン係数を推定し得る。
Ｇ_{ｄｙｎａｍｉｃ，ｎ，ｋ}＝ｍａｘ（η（ｋ），Ｇ_ｎ，ｋ）（１０）
均一なフロアまたは一定のフロアがまた使用されることにより、方程式１６によって記述されているように、再帰を制限し、かつ、音声の歪みを低減させ得る。

楽音ノイズを最小化させるために、フィルタがプログラムされることにより、方程式１７によって記述されるように、

を平滑化し得る。

ここで、βは、約０と約１との間の係数であり得る。

図１２と図１３とは、動的ノイズ低減を用いて強調された音声信号のスペクトログラムを示す。動的ノイズ低減は、中間の強度（例えば、図１と比較）の車両ノイズを減衰させることにより、図１２に示された音声信号を生成する。動的ノイズ低減は、高い強度（例えば、図２と比較）の車両ノイズを減衰させることにより、図１３に示された音声信号を生成する。

図１４は、中間レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、静的抑制システムによって処理された中間レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、動的ノイズ抑制システムによって処理された中間レベルのバックグラウンドノイズのパワースペクトル密度のグラフとである。図１５は、高レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、静的抑制システムによって処理された高レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、動的ノイズ抑制システムによって処理された高レベルのバックグラウンドノイズのパワースペクトル密度のグラフとである。これらの図は、どのように、動的ノイズ抑制システムが、より低い周波数において、一部の静的抑制システムによって生成されたノイズフロアよりも低いノイズフロアを生成するかを示す。

音声強調システムは、音声の明瞭度および／または音声の質とを改善する。ゲインの調節は、車両のマイクロフォンなどの入力デバイスから受信された信号に基づいてリアルタイム（または用途または所望の結果に依存した遅延の後）で行われ得る。システムは、追加の補償デバイスとインタフェースし得、そして、例えば、有声信号または無声信号からの風ノイズなどの特定のノイズを抑制するシステムと通信し得、例えば、本明細書において参考として援用される２００３年１０月１６日出願の「ＳｙｓｔｅｍｆｏｒＳｕｒｐｒｅｓｓｉｎｇＷｉｎｄＮｏｉｓｅ」と題される、米国代理人整理番号第１１３３６／５９２（Ｐ０３１３１ＵＳＰ）に基づく米国特許出願第１０／６８８，８０２号に記述されたシステムと通信し得る。

システムは、筐体またはハンズフリーシステムなどの自動車通信デバイスにおいて検出された信号に適用される減衰ゲインを動的に制御し得る。代替のシステムにおいて、信号パワーが、パワープロセッサによって測定され、バックグラウンドノイズが、バックグラウンドノイズプロセッサによって測定または推定され得る。バックグラウンドノイズプロセッサの出力に基づいて、バックグラウンドノイズの複数の線形の関係が、動的ノイズ低減プロセッサによってモデリングされ得る。ノイズ抑制ゲインが、コントローラ、増幅器またはプログラマブルフィルタによって表現され得る。デバイスは、待ち時間が少なく、計算の複雑度が低くなり得る。

他の代替の音声強調システムは、上に記述されたり、図面のそれぞれにおいて示されたりした構造および機能の組み合わせを含む。これらの音声強調システムは、上に記述されたり、図面に例示されたりした構造および機能の任意の組み合わせから形成される。ロジックは、ソフトウェアまたはハードウェア内に実装され得る。ハードウェアは、プロセッサまたは揮発性および／または不揮発性のメモリを有するコントローラを含み、該プロセッサまたはコントローラは、ワイヤレス媒体または有線の媒体を介して周辺デバイスにインタフェースする。高ノイズ条件または低ノイズ条件において、元々の信号のスペクトルが調節されるので、明瞭度と信号の質とが改善され得る。

本発明の様々な実施形態が記述されてきたが、本発明の範囲内において、さらに多くの実施形態および実装が可能であることが、当業者には明らかである。したがって、本発明は、添付の特許請求の範囲およびその均等物を踏まえたものを除いては制限されない。

図１は、音声信号と、中間の強度の車両ノイズとのスペクトログラムである。図２は、音声信号と、高強度の車両ノイズとのスペクトログラムである。図３は、強調された音声信号と、静的ノイズ抑制方法によって処理された中間の強度の車両ノイズとのスペクトログラムである。図４は、強調された音声信号と、静的ノイズ抑制方法によって処理された高強度の車両ノイズとのスペクトログラムである。図５は、中間レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、静的ノイズ抑制方法によって処理された中間レベルのバックグラウンドノイズのパワースペクトル密度のグラフとである。図６は、高レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、静的ノイズ抑制方法によって処理された高レベルのバックグラウンドノイズのパワースペクトル密度のグラフとである。図７は、音声強調システムの流れ図である。図８は、音声強調システムの第２の流れ図である。図９は、例示的な動的ノイズ低減システムである。図１０は、代替の例示的な動的ノイズ低減システムである。図１１は、動的ノイズ低減ロジックを用いてプログラムされたフィルタである。図１２は、中間の強度の車両ノイズを減衰させる動的ノイズ低減を用いて強調された音声信号のスペクトログラムである。図１３は、高強度の車両ノイズを減衰させる動的ノイズ低減を用いて強調された音声信号のスペクトログラムである。図１４は、中間レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、静的抑制方法によって処理された中間レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、動的ノイズ抑制方法によって処理された中間レベルのバックグラウンドノイズのパワースペクトル密度のグラフとである。図１５は、高レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、静的抑制方法によって処理された高レベルのバックグラウンドノイズのパワースペクトル密度のグラフと、動的ノイズ抑制方法によって処理された高レベルのバックグラウンドノイズのパワースペクトル密度のグラフとである。図１６は、車両と統合された音声強調システムである。図１７は、ハンズフリー通信デバイス、通信システム、またはオーディオシステムと統合された音声強調システムである。

符号の説明

７００リアルタイムまたは遅延音声強調方法
７０２周波数領域
７０４信号推定
７０６ノイズ推定
７０８モデリング
７１０ノイズ抑制
７１２時間領域

Claims

音声の質を改善するシステムであって、該システムは、
第１の直線を音声セグメントの第１の周波数部分のノイズスペクトルに適合させ、第２の直線を該音声セグメントの第２の周波数部分のノイズスペクトルに適合させるように構成されるモデラであって、該第２の周波数部分は、該第１の周波数部分よりも周波数が高い、モデラと、
該第１の直線と該第２の直線との間の勾配または切片における差を計算し、該差に基づいて動的調整係数を計算するようにプログラムされる動的ノイズ調節器と、
該動的調整係数に基づいて、該音声セグメントにおいて検出されたノイズを減衰させるようにプログラムされる動的ノイズプロセッサと
を備え、
該動的ノイズプロセッサは、該動的調整係数を用いて該第１の周波数部分を減衰させ、異なる調整係数を用いて該第２の周波数部分を減衰させるように構成されている、システム。
前記モデラは、複数の線形関係を近似するように構成され、前記差は、前記第１の直線と前記第２の直線との間の勾配における差である、請求項１に記載の音声の質を改善するシステム。
前記第１の周波数部分は、聴覚スペクトルの中間周波数部分から所定の周波数より低い該聴覚スペクトルの低周波数部分までを含み、前記第２の周波数部分は、該所定の周波数より高い該聴覚スペクトルの高周波数部分を含む、請求項２に記載の音声の質を改善するシステム。
変化するノイズ条件に適応する音声強調システムであって、該音声強調システムは、
車両内で検出された聴覚バックグラウンドノイズを測定するように構成されるバックグラウンドノイズ推定器と、
該車両内の該聴覚バックグラウンドノイズを動的にモデリングし、第１の音声セグメントにおけるノイズの減衰によって音声セグメントを減衰させるように構成される動的ノイズ低減コントローラと
を備え、
該動的ノイズ低減コントローラは、第１の直線を所定の周波数より低い該第１の音声セグメントの低周波数部分のノイズスペクトルに適合させることと、第２の直線を該所定の周波数より高い該第１の音声セグメントの高周波数部分のノイズスペクトルに適合させることと、該第１の直線と該第２の直線との間の勾配または切片における差を計算することと、該差に基づいて該減衰に対する減衰量を計算することとを行うように構成されており、
該動的ノイズ低減コントローラは、該計算された減衰量を用いて該低周波数部分を減衰させ、異なる減衰量を用いて該高周波数部分を減衰させるように構成されている、音声強調システム。
アナログ音声セグメントをデジタル信号に変換するように構成されるアナログデジタル変換器をさらに備える、請求項４に記載の音声強調システム。
短時間フーリエ変換コントローラを備える時間周波数コンバータをさらに備え、該短時間フーリエ変換コントローラは、前記デジタル信号から周波数帯域を生成するように構成される、請求項５に記載の音声強調システム。
前記バックグラウンドノイズ推定器は、前記周波数帯域のそれぞれにおいて音響パワーを平均するように構成されるパワー検出器を備える、請求項６に記載の音声強調システム。
前記測定されたバックグラウンドノイズが所定の閾値を超えている場合に、前記バックグラウンドノイズ推定器を無効にするように構成される過渡検出器をさらに備える、請求項７に記載の音声強調システム。
前記動的ノイズ低減コントローラは、前記第１の音声セグメントの前記高周波数部分に対して均一な抑制を適用するように構成される、請求項４に記載の音声強調システム。
前記動的ノイズ低減コントローラと通信する風抑制システムをさらに備え、該風抑制システムは、空気を動かすことによって生成されるノイズを抑制する、請求項８に記載の音声強調システム。
車両内で記録された信号に適用される減衰ゲインを動的に制御するシステムであって、該システムは、
サウンドセグメントにおいて検出されたバックグラウンドノイズをリアルタイムで測定するように構成されるバックグラウンドノイズプロセッサと、
該測定されたバックグラウンドノイズをモデリングするように構成される動的ノイズ低減プロセッサであって、該動的ノイズ低減プロセッサは、第１の直線を該サウンドセグメントの第１の周波数部分のノイズスペクトルに適合させることと、第２の直線を該サウンドセグメントの第２の周波数部分のノイズスペクトルに適合させることと、該第１の直線と該第２の直線との間の勾配または切片における差を計算することと、該差に基づいてノイズ抑制ゲインを計算することとを行うように構成され、該第２の周波数部分は、該第１の周波数部分よりも周波数が高い、動的ノイズ低減プロセッサと、
該ノイズ抑制ゲインを該サウンドセグメントに対して適用するように構成される動的ノイズ抑制フィルタと
を備え、
該動的ノイズ抑制フィルタは、該ノイズ抑制ゲインを用いて該第１の周波数部分を減衰させ、異なる抑制ゲインを用いて該第２の周波数部分を減衰させるように構成されている、システム。
前記動的ノイズ低減プロセッサは、前記第１の直線と前記第２の直線との間の勾配における差に基づいて、前記ノイズ抑制ゲインを計算するように構成される、請求項１１に記載の信号に適用される減衰ゲインを動的に制御するシステム。
前記第１の周波数部分は、所定の周波数より低い前記サウンドセグメントの低周波数部分を含む、請求項１２に記載の信号に適用される減衰ゲインを動的に制御するシステム。
前記第２の周波数部分は、前記所定の周波数より高い前記サウンドセグメントの高周波数部分を含む、請求項１３に記載の信号に適用される減衰ゲインを動的に制御するシステム。
音声セグメントの音声の質および明瞭度を改善する方法であって、該方法は、
第１の直線を所定の周波数より低いサウンドセグメントの低周波数部分のノイズスペクトルに適合させることと、
第２の直線を該所定の周波数より高い該サウンドセグメントの高周波数部分のノイズスペクトルに適合させることと、
該第１の直線と該第２の直線との間の勾配または切片における差を計算することと、
バックグラウンドノイズスペクトルをモデリングすることであって、該モデリングすることは、該スペクトルの該高周波数部分に適用されるべき実質的に一定の減衰と、該スペクトルの該低周波数部分に適用されるべき可変の減衰とを決定することによる、ことと、
該第１の直線と該第２の直線との間の該差に基づいて、該可変の減衰に対するレベルを計算することと、
該一定の減衰と該可変の減衰とを適用することによって、該サウンドセグメントからのバックグラウンドノイズを減衰させることと、
該一定の減衰を用いて該高周波数部分を減衰させることと、
該可変の減衰を用いて該低周波数部分を減衰させることと
を包含する、方法。
過渡ノイズが検出される場合に、バックグラウンドノイズ推定を無効にすることをさらに包含する、請求項１５に記載の音声セグメントの音声の質を改善する方法。
前記差は、前記第１の直線と前記第２の直線との間の勾配における差である、請求項１５に記載の音声セグメントの音声の質を改善する方法。
バックグラウンドノイズをモデリングすることによって、音声の質を改善するソフトウェアを保持するコンピュータ読み取り可能な媒体であって、
プロセッサによってアクセス可能であり、かつプロセッサによって処理されるように構成される信号推定ロジック、モデリングロジック、および減衰ロジックを保持するコンピュータ読み取り可能な媒体を備え、
該信号推定ロジックは、入力信号内の所望される信号の信号パワーを決定し、
該モデリングロジックは、複数の線形のモデルによって、該入力信号から検出された複数のバックグラウンドノイズを表し、該モデリングロジックは、該複数の線形のモデルのうちの第１の直線を該入力信号の第１の周波数部分のノイズスペクトルに適合させ、かつ該複数の線形のモデルのうちの第２の直線を該入力信号の第２の周波数部分のノイズスペクトルに適合させ、該第２の周波数部分は、該第１の周波数部分よりも周波数が高く、
該減衰ロジックは、該モデリングロジックの出力に応答して、該入力信号に適用されるべき抑制のレベルを近似し、該減衰ロジックは、該第１の直線と該第２の直線との間の勾配または切片における差を計算し、該差に基づいて、該抑制のレベルを計算し、
該減衰ロジックは、該差に基づく該抑制のレベルを用いて該第１の周波数部分を減衰させ、異なる抑制のレベルを用いて該第２の周波数部分を減衰させる、コンピュータ読み取り可能な媒体。
前記複数の線形のモデルを保持するようにプログラムされるメモリをさらに備える、請求項１８に記載のコンピュータ読み取り可能な媒体。