JP6436934B2

JP6436934B2 - 動的閾値を用いた周波数帯域圧縮

Info

Publication number: JP6436934B2
Application number: JP2016134973A
Authority: JP
Inventors: ジェイ．シーフェルドット，アラン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2013-04-29
Filing date: 2016-07-07
Publication date: 2018-12-12
Anticipated expiration: 2034-04-14
Also published as: HK1215108A1; US20160072467A1; JP2016195439A; US9762198B2; CN108365827B; WO2014179021A1; CN108365827A; EP2992605B1; EP2992605A1; HK1222478A1; CN105164918A; HK1258837A1; JP2016518788A; JP5969727B2; CN105164918B

Description

関連出願への相互参照
本願は2013年4月29日に出願されたAlan J. Seefedtによる「歪み可聴性モデルに基づく動的閾値を用いた、歪み低減マルチ帯域圧縮器」という名称の本願と同時係属中であり同一被譲渡者の米国仮特許出願第61/817,175号（代理人整理番号D13064USP1）の優先権を主張するものである。同出願の内容は参照により、あらゆる目的についてその全体において組み込まれる。

技術分野
本特許開示は概括的にはオーディオ呈示に、詳細には呈示の際の歪み低減に関する。

スマートフォンおよびタブレットのようないくつかのオーディオ再生装置は限られた出力能力をもつ増幅器およびスピーカーを含む。そのような装置では、オーディオ再生は知覚的に歪められることがあり、呈示中に再生レベルが上げられるとしばしば鋭く歪められることがある。歪みの特性はしばしば再生装置にとって周波数依存である。たとえば、テレビジョン・キャビネットは特定の周波数で共鳴応答を示すことがある。この共鳴応答は、その特定の周波数における出力信号が特定のレベルに達するかそれを超えるときに励起され、わずらわしいガタガタ音を生じる。

歪みを低減し、再生装置での再生レベルを最大化しようとするために、マルチ帯域圧縮が再生前のオーディオ信号に適用されることができる。信号の各周波数帯域について歪み閾値が指定される。圧縮器は、各帯域における信号レベルが対応する歪み閾値を超えないことを保証するよう、各帯域に独立な利得を適用する。

入力オーディオ信号に応じて圧縮器の閾値を動的に調整する技法を実装するシステム、装置、方法およびコンピュータ可読記憶媒体のいくつかの例が開示される。いくつかの実装では、いくつかの周波数帯域成分をもつ入力信号が処理される。それらの周波数帯域成分に応じて、時間変化する閾値が決定されることができる。各時間変化する閾値は一般に、それぞれの周波数帯域成分に対応する。圧縮器が、各周波数帯域成分に対して、前記対応する時間変化する閾値をもつ圧縮動作を実行して、いくつかの利得を生成する。ここで、各利得はそれぞれの周波数帯域成分に対応する。各利得は、遅延された対応する周波数帯域成分に適用されて、いくつかの処理された帯域成分を生成し、それらの処理された帯域成分は加算されて出力信号を生成する。

いくつかの実装では、出力信号の知覚されるスペクトルの時間変化する推定値が決定される。また、知覚されるスペクトル推定値によって誘起される歪みスペクトルの時間変化する推定値が、たとえば歪みモデルの応答に従って決定される。知覚されるスペクトル推定値の存在における歪みスペクトル推定値の可聴性指標が予測される。時間変化する閾値は、予測された可聴性指標に従って調整されることができる。

いくつかの実装では、可聴性指標を予測することは、知覚されるスペクトル推定値からマスキング閾値を計算し；歪みスペクトル推定値とマスキング閾値との間の差を決定し；決定された差の正の値を合計して予測された可聴性指標を生成することを含む。マスキング閾値は、知覚されるスペクトル推定値に基づくトーン性スペクトルを参照して計算されることができる。トーン性スペクトルは、トーン的な周波数帯域成分からノイズ的な周波数帯域成分を区別するトーン性値を含む。合計される、決定された差の正の値は、一つまたは複数の上の周波数帯域成分および一つまたは複数の下の周波数帯域成分が、該上および下の帯域成分の間の周波数帯域成分より低い重みをもつよう重み付けされることができる。

いくつかの実装では、時間変化する閾値は、少なくとも部分的には、固定された名目閾値に従って決定される。このように、各時間変化する閾値は、対応する周波数帯域成分に従ってかつそれぞれの固定した閾値に従って決定されることができる。これらの実装において、歪みの予測される可聴性指標は規格化されることができる。時間変化する閾値は、一つまたは複数の固定した閾値を参照して、かつオフセット値に適用される規格化された可聴性指標に従って上げられたり下げられたりすることができる。

いくつかの実装では、入力オーディオ信号に応答して圧縮閾値を動的に調整する装置は、上記の動作の一部または全部を実行させるよう動作可能な一つまたは複数のコントローラを含む。さらに、そのような装置は、前記入力信号をフィルタリングして前記周波数帯域成分を生成することができるフィルタリング・モジュールおよびいくつかの帯域通過フィルタを含むマルチ帯域フィルタを含むことができる。ここで、各帯域通過フィルタはそれぞれの周波数帯域成分に対応する。本装置は、前記出力信号を受領し、増幅して増幅された出力信号を生成するよう結合された一つまたは複数の増幅器と、増幅された出力信号を受領して再生するよう結合された一つまたは複数のスピーカーとを含むこともできる。

いくつかの実装では、上記の動作の一部または全部を実行させるようコンピューティング装置によって実行可能な命令を記憶する非一時的なコンピュータ可読記憶媒体。コンピューティング装置の限定しない例は、サーバーおよびデスクトップ・コンピュータならびにスマートフォン、タブレット、携帯型音楽プレーヤーなどといった携帯型ハンドヘルド装置を含む。いくつかの事例では、一つまたは複数のサーバーが、クラウド・ベースのサービスの一部として、開示される技法の一つまたは複数を使って入力オーディオ信号を処理し、処理された出力信号をインターネットを通じてユーザーの装置にストリーミングするよう構成されることができる。

含まれる図面は例解目的のためであり、開示される発明のシステム、装置、方法およびコンピュータ可読記憶媒体についての可能な構造および動作の例を提供するだけのものである。これらの図面はいかなる意味でも、開示される実装の精神および範囲から外れることなく当業者によってなされうる形および細部におけるいかなる変化をも制限するものではない。
いくつかの実装に基づく、入力オーディオ信号に応じて圧縮器の閾値を動的に調整する歪み可聴性モデル（DAM: distortion audibility model）を組み込む圧縮器１００の例を示している。いくつかの実装に基づいて実行される、入力オーディオ信号に応じて圧縮器の閾値を動的に調整する方法２００の例を示す図である。いくつかの実装に基づいて実行される、入力オーディオ信号に応じて圧縮器の閾値を動的に調整する方法３００の別の例を示す図である。いくつかの実装に基づいて実行される、知覚されるスペクトル推定値の存在において歪みスペクトル推定値の可聴性指標を予測する方法４００の例を示す図である。Ａは、いくつかの実装に基づく、表示装置に表示される入力オーディオ信号の周波数帯域成分のエネルギー・レベルのグラフィック表現５００Ａの例を示す。Ｂは、いくつかの実装に基づく、表示装置に表示される、聴取者によって知覚される推定された出力信号スペクトルの対応するエネルギー・レベルのグラフィック表現５００Ｂの例を示す。いくつかの実装に基づく、オーディオ信号を呈示するための圧縮器１００を組み込む再生システム６００の例を示す図である。

入力オーディオ信号に応じて圧縮器の閾値を動的に調整する技法を実装するシステム、装置、方法およびコンピュータ可読記憶媒体のいくつかの例が開示される。開示される技法のいくつかは、マルチ帯域圧縮器によって適用されることのできる動的閾値を決定するための歪み可聴性モデルを組み込む。歪み可聴性モデルは、動的な信号依存の仕方で、入力信号の存在におけるその入力信号によって誘起される歪みの知覚される可聴性を予測するよう構成される。この予測される可聴性は、圧縮器の閾値を動的に修正するために使用されることができる。こうして、開示される技法を組み込むいくつかの装置およびシステムは、最小限の知覚される歪みをもって増大した再生レベルに対応できる。

いくつかの実装では、歪み可聴性モデルは、聴取者に聞こえる信号スペクトルの時間変化する推定値およびその信号によって誘起される歪みスペクトルの時間変化する推定値を予測するよう構成される。その際、歪み可聴性モデルは、信号スペクトル推定値の存在における、この歪みスペクトル推定値の可聴性を予測する。このようにして、圧縮器の一つまたは複数の時間変化する閾値がしかるべく動的に変調されることができる。

圧縮閾値の動的な調整のための開示される技法は、他の圧縮プロセスとの関連で使われてもよく、スマートフォン、タブレット、ラップトップ・コンピュータ、携帯型音楽プレーヤー、テレビジョン、モニタおよびサーバー・ベースのシステムといったさまざまな装置およびシステムにおいて実装されることができる。

開示される技法を実装するいくつかの装置およびシステムは、音色、つまり等しいラウドネスおよびピッチの二つの音が異なるように知覚されうる聴取者知覚の属性を知覚できるほどに変えてしまう通常のマルチ帯域圧縮器に対して改善する。ある種の周波数が歪み閾値に達し、他の周波数が達しないとき、いくつかの通常の圧縮器は、これらの周波数の間の相対バランスを変更することによって不都合を導入してしまう。結果として得られる音は、異常なものとして現われ、不自然な聴取体験につながる。

さらに、利得が積極的すぎる場合には、再生レベルは不必要に低減されることがある。各帯域における閾値が、その帯域を中心とする狭帯域信号についての知覚される歪みをなくすよう設定されれば、広帯域信号が圧縮器を通過することから帰結する減衰はしばしば、任意の誘起される歪みを知覚的に消去するために必要とされるよりも強い。これは、広帯域信号は、該広帯域信号が誘起する歪みの一部を有意にマスクすることがありうる一方、狭帯域信号はその誘起される歪みをマスクする効果がずっと弱いことがありうるという事実のためである。

図１は、入力オーディオ信号に応じて圧縮器の閾値を動的に調整するための歪み可聴性モデル（DAM）を組み込む圧縮器１００の例を示している。図１では、フィルタバンク１０４の形のフィルタリング・モジュールが入力オーディオ信号x[n]を受領する。フィルタバンク１０４は、入力信号x[n]をフィルタリングして入力信号x[n]をいくつかの周波数帯域成分x₁[n]〜x_B[n]に分離するよう構成されている。いくつかの実装では、フィルタバンク１０４は、B個の帯域通過フィルタとして実装されるマルチ帯域フィルタとして構成される。ここで、各帯域通過フィルタがそれぞれの周波数帯域成分に対応する。たとえば、フィルタバンク１０４の各帯域bは、式(1)
x_b[n]＝h_b[n]*x[n] b＝1…B (1)
に表わされるように入力信号x[n]を帯域通過フィルタ応答h_b[n]と畳み込みしたものとして計算される周波数帯域成分x_b[n]を出力するよう構成されることができる。

図１において、DAM １０８はフィルタバンク１０４から出力される周波数帯域成分x₁[n]〜x_B[n]を受領するよう結合された入力をもつ。DAM １０８に提供される各周波数帯域成分x_b[n]は、図１に示されるように、それぞれの固定した圧縮閾値L_bと対にされる。DAM １０８は、時間変化する閾値D₁[n]〜D_B[n]を計算して出力するよう構成される。いくつかの実装では、時間変化する閾値D_b[n]は、それぞれの周波数帯域成分x_b[n]の関数として計算される。いくつかの他の実装では、各帯域について独立に計算されるのではなく、各時間変化する閾値D_b[n]は、式(2)
D_b[n]＝DAM({x_i[n],L_i|i＝1…B}) (2)
に表わされるように、諸帯域b＝1…Bにわたるすべての周波数帯域成分x₁[n]〜x_B[n]および固定した閾値L_bの関数として計算される。

各周波数帯域成分x_b[n]は、それぞれの時間変化する閾値D_b[n]とともに圧縮関数（CF: compression function）１１２に入力として与えられる。該時間変化する閾値は、それより上でその帯域bにおける信号が歪みを生じはじめるレベルを表わす。各圧縮関数１１２bは、式(3)
g_b[n]＝CF(x_b[n],D_b[n]) (3)
に表わされるように、周波数帯域成分x_b[n]および時間変化する閾値D_b[n]を処理して時間変化する利得g_b[n]を生成するよう構成される。これは、帯域bをその限界閾値L_bより下に保つための利得を表わす。

周波数帯域成分x₁[n]〜x_B[n]全部の遅延されたバージョンにそれらの対応する利得信号g₁[n]〜g_B[n]を乗算したものを合計することによって、処理された出力信号y[n]が計算される。図１では、乗算器ユニット１１６は利得信号を遅延された周波数帯域成分に乗算して（y_b[n]＝g_b[n]x_b[n−d]）処理された帯域成分y₁[n]〜y_B[n]を生成するよう構成されている。これらの処理された帯域成分が次いで加算ユニット１２０において合計されて出力信号y[n]を生じる。たとえば、遅延dは、利得信号の計算に関連する任意の処理遅延を考慮に入れるよう設計されることができる。式(4)は、処理された信号y[n]の生成の表現を表わしている。

図２は、いくつかの実装に基づいて実行される、入力オーディオ信号に応じて圧縮器の閾値を動的に調整する方法２００の例を示している。図２は、図１の例を参照して記述される。図２の２０４において、上記で説明したように、周波数帯域成分x₁[n]〜x_B[n]がDAM １０８への入力として受領される。２０８では、DAM １０８が周波数帯域成分x₁[n]〜x_B[n]に従って時間変化する閾値D₁[n]〜D_B[n]を決定する。２１２では、各CF １１２bは、対応する時間変化する閾値D_b[n]を使って対応する周波数帯域成分x_b[n]に対して圧縮動作を実行して利得g₁[n]〜g_B[n]を生成するよう構成される。２１６では、各利得g_b[n]は、たとえば乗算器ユニット１１６を使って、対応する周波数帯域成分x_b[n]の遅延されたバージョンに適用され、処理された帯域成分y₁[n]〜y_B[n]を生成する。２２０では、処理された帯域成分y₁[n]〜y_B[n]は加算ユニット１２０において加算されて出力信号y[n]を生成する。次いでこれがメモリ装置に記憶されるおよび／または追加的な処理モジュールに提供されることができる。

図３は、いくつかの実装に基づいて実行される、入力オーディオ信号に応じて圧縮器の閾値を動的に調整する方法３００のもう一つの例を示している。方法３００の動作３０４〜３２０は上記の方法２００の動作２０４〜２２０と実質的に同じである。図３では、出力信号y[n]の生成に続いて、３２４において、聴取者に聞こえる出力信号y[n]のパワースペクトルの時間変化する推定値が推定されることができる。この目的に向け、平滑化動作が処理された帯域成分y₁[n]〜y_B[n]に適用されることができる。たとえば、各処理された帯域成分y_b[n]＝g_b[n]x_b[n−d]が高速アタック／低速リリース一極平滑化器（fast-attack/slow-release one pole smoother）を用いて平滑化されることができる。s_b[n]は、聴取者によって知覚される出力信号スペクトルの推定値を表わし、式(5)において計算される。

圧縮閾値のその後の変調から生じるアーチファクトを軽減するために、いくつかの事例では、利得g₁[n]〜g_B[n]のアタックおよびリリースを支配するために式(5)において使われるものよりやや速いアタックおよびやや遅いリリースを利用することが望ましいことがある。そのような事例では、聴取者によって知覚される推定された出力信号スペクトルは、式(6)
S_b[n]＝10log₁₀(s_b[n]) (6)
に示されるように、デシベル（dB）で表わされることができる。

図３では、３２８において、知覚されるスペクトル推定値s_b[n]によって誘起される歪みスペクトルの時間変化する推定値が決定される。たとえば、s_b[n]によって再生システムにおいて誘起される歪みは、s_b[n]を歪み生成モデルに入力することによって推定できる。そのようなモデルは、個々の再生システムを測定し、特徴付けることによって生成されてもよい。いくつかの場合には、小型スピーカーをもつ装置についての一般化されたモデルが十分であり、帯域bにおける信号が、bを含めb以上のすべての帯域に、帯域bにおける信号レベルより何らかの固定オフセットだけ下のレベルで歪みを誘起すると想定する。

いくつかの実装では、任意の所与の帯域における歪みスペクトル推定値は、その帯域中に生成される歪みの、すべての帯域にわたる最大によって与えられる。こうして、第一の周波数帯域成分の第一の推定された歪みは、第一の周波数帯域成分中におよび前記第一の周波数帯域成分より高い周波数の周波数帯域成分の少なくとも一部に誘起される歪みの最大として決定されることができる。これは、任意の単一の帯域が一般に、当該帯域を含む当該帯域以上の諸帯域に歪みを生成するからである。図１および図２との関係で上記したように時間変化する閾値のはたらきをする歪みスペクトル推定値D₁[n]〜D_B[n]は、最低帯域から始まって最高帯域まで逐次的な仕方で計算されうる。これは式(7)に例解される。ここで、固定オフセットD_offsetについての値の例は40dBである。

図３では、３３２において、知覚されるスペクトル推定値s_b[n]の存在における歪みスペクトル推定値D_b[n]の可聴性指標が、たとえば図１のDAM １０８を使って予測される。後述する図４は、この可聴性指標を予測するための技法の例を示す。

図３では、３３６において、時間変化する閾値の一つまたは複数が、予測された可聴性指標A[n]に従って調整される。いくつかの実装では、予測された可聴性指標A[n]は規格化され、時間変化する閾値D_b[n]の一つまたは複数が、固定した諸閾値L_bの一つまたは複数を参照して、かつオフセット値に適用される規格化された可聴性指標に従って、上げられたり下げられたりする。たとえば、予測された可聴性指標は、時間変化する閾値D₁[n]〜D_B[n]を変調するために利用される前に、式(8)に示されるように、0と1の間に規格化されることができる。

式(8)の例において、規格化限界は、規格化された予測された可聴性指標A_norm[n]が0に等しいときは誘起される歪みが出力信号によってよくマスクされ、A_norm[n]が1に等しいときは歪みが可聴性の縁にあるよう、選ばれる。したがって、A_norm[n]が0に等しいときは、時間変化する閾値D₁[n]〜D_B[n]はよりラウドな再生を許容するよう上げられることができるが、A_norm[n]が1に等しいときは、閾値D₁[n]〜D_B[n]はそれらの名目値のままとなる。よって、閾値D₁[n]〜D_B[n]は
D_b[n]＝L_b＋(1−A_norm[n])L_offset (9)
に従って固定した閾値L_bから計算できる。

式(9)において、A_norm[n]が0に等しいときは、閾値D_b[n]はL_offset dBだけその名目値より上に上げられる。ある事例では、L_offsetを6dBの範囲に設定すると、歪みの知覚される増大はなしに、広帯域の信号についての知覚されるラウドネスにおける知覚的な実質的な増大を与えた。他の事例では、L_offsetは特定の再生装置に合わせて調整された。

図４は、いくつかの実施形態に基づいて実行される、知覚されるスペクトル推定値の存在において歪みスペクトル推定値の可聴性指標を予測する方法４００の例を示している。４０４では、マスキング閾値M_b[n]が知覚されるスペクトル推定値s_b[n]から計算される。マスキング閾値M_b[n]についての一つのモデルは、知覚されるスペクトル推定値より固定オフセットM_offset低いというものである。これは式(10)
M_b[n]＝S_b[n]−M_offset (10)
において示される。ここで、M_offsetについての値の例は10dBである。

あるいはまた、マスキング信号のトーン性の関数としてのマスキングの可変性を考慮に入れるマスキング・モデルが使用されてもよい。トーン的な信号のマスキング能力はノイズ的な信号より有意に低いことが一般に知られている。よって、マスキング閾値M_b[n]は、s_b[n]に基づいてトーン性スペクトルを参照して計算されることができる。トーン性スペクトルは、ノイズ的な周波数帯域成分をトーン的な周波数帯域成分から区別するトーン性値を含む。各帯域におけるs_b[n]のトーン性を、トーン性スペクトルT_b[n]を生成するための既知の技法を使って特徴付けてもよい。ここで、T_b[n]は0から1まで変わる。0はノイズ的な信号を示し、1はトーン的な信号を示す。このトーン性スペクトルを利用して、マスキング閾値は式(11)
M_b[n]＝S_b[n]−(T_b[n]M_tone＋(1−T_b[n])M_noise) (11)
に表わされるように計算されてもよい。

ある試験事例において、M_tone＝30dBおよびM_noise＝10dBが適切な値の例であった。これはノイズ的信号よりトーン性信号について20dB低いマスキングを与える。

図４では、４０８において、諸帯域にわたって歪みスペクトル推定値D_b[n]がマスキング閾値M_b[n]と比較され、D_b[n]とM_b[n]との間の差があればそれを決定する。４１２では、決定された差のあらゆる正の値が加算されて、予測された可聴性指標A[n]を生成する。いくつかの実装では、A[n]は、式(12)に示されるように、D_b[n]とM_b[n]との間の差の正の値の重み付けされた和として計算される。

式(12)において、いくつかの実装では、重み付けW_bは知覚的に動機付けされて、高周波数帯域および低周波数帯域が中間周波数帯域より低く重み付けされてもよい。

いくつかの他の実装では、明示的な歪み生成およびマスキング・モデルを利用するのではなく、歪み可聴性の指標が信号スペクトルS_b[n]の関数から推定されてもよい。一つのそのような例は、式(13)に示されるような、諸帯域にわたるこのスペクトルの標準偏差である。

標準偏差が小さいときは、すべての帯域の値はほぼ同じである。つまり、S_b[n]は大まかに広帯域である。この場合、S_b[n]は歪みをそこそこよくマスクするはずである。標準偏差が比較的大きい場合には、S_b[n]の値は有意に変動するということであり、スペクトルにおける、歪みが可聴となる「穴」の可能性を示す。結果として、式(13)における値A[n]はごく大まかに、式(12)での値の振る舞いに一致する。式(13)からの可聴性値は次いで、歪み生成およびマスキング・モデルで使われたのとは異なる規格化限界をもって式(8)に従って規格化され、次いで式(9)におけるように、閾値D_b[n]を変調するために利用されてもよい。

図５のＡは、いくつかの実装に基づく、表示装置に表示される、入力オーディオ信号の周波数帯域成分のエネルギー・レベルのグラフィック表現５００Ａの例を示す。図５のＢは、いくつかの実装に基づく、表示装置に表示される、聴取者によって知覚される推定された出力信号スペクトルの対応するエネルギー・レベルのグラフィック表現５００Ｂの例を示す。

図５のＡおよびＢの例では、図１の圧縮器１００は上記のように入力オーディオ信号x[n]を処理する。図５のＡでは、入力信号の20個の周波数帯域成分x₁[n]〜x₂₀[n]が図１のフィルタバンク１０４によって生成され、人間の聴覚の知覚的な分解能を模倣するよう離間される。図１の圧縮関数１１２の入力となる各周波数帯域成分x_b[n]の信号エネルギーは、図５のＡにおけるバー５０４によって表わされる。上記のように計算された各周波数帯域成分についての時間変化する閾値D₁[n]〜D₂₀[n]はクリアなセグメント５０８によって表わされる。圧縮関数１１２から出力される利得g₁[n]〜g₂₀[n]はセグメント５１２によって描かれる。

図５のＢでは知覚されるスペクトル推定値S₁[n]〜S₂₀[n]のエネルギー・レベルがバー５１４によって表わされる。上記のように知覚されるスペクトル推定値s_b[n]から計算されたマスキング閾値M₁[n]〜M₂₀[n]は図５のＢではセグメント５１６によって表わされる。図１のDAM １０８によって生成された時間変化する閾値D₁[n]〜D₂[n]は図５のＢにおけるクリアなセグメント５２０によって表わされる。図１では、DAM １０８は図５のＢの時間変化する閾値D₁[n]〜D₂₀[n] ５２０を、圧縮器１００を通じて再生されるオーディオ信号の存在において聴取者によって知覚される何らかの誘起された歪みが生じる前に、可能な最大レベルまで増大させる。一般に、広帯域信号については、時間変化する閾値D₁[n]〜D₂₀[n]は、それらの名目上設定されたレベルL_bより上まで増大させられる。誘起される歪みがあったとしてもそのかなりの部分を信号自身がマスクするからである。狭帯域信号については、時間変化する閾値はそれらの名目レベルの近くに留まる可能性が高い。何らかの誘起される歪みに対して信号がほとんどマスキングをもたらさないからである。

図６は、いくつかの実装に基づく、オーディオ信号を呈示するための圧縮器１００を組み込む再生システム６００の例を示す図である。図６では、コントローラ６０４が上記の圧縮器１００を実装するよう構成される。たとえば、図２〜図４を参照して上記した動作の一つまたは複数がコントローラ６０４によって実行されることができるまたはコントローラ６０４によって実行されるようにされることができる。コントローラ６０４は、下記でより詳細に説明するように幅広い多様な異なる構成をもつことができる。さらに、コントローラ６０４は、図６の場合におけるようにユーザー装置上に実装されることができるし、あるいは場合によっては一つまたは複数のサーバー上に実装されることができる。

図６に示したものに対する代替例として、コントローラ６０４を実装するサーバーが、オーディオをユーザーの装置に、好適なネットワークを通じてストリーミングすることができる。当業者は、そのようなネットワークがサーバーと、スマートフォンまたはタブレットのようなユーザー装置との間の通信を提供することを理解するはずである。ネットワークは、たとえば、TCP/IPベースのネットワーク、テレコミュニケーション・ネットワーク、無線ネットワーク、ケーブル・ネットワーク、公共ネットワーク、私設ネットワーク、広域ネットワーク、ローカル・エリア・ネットワーク、インターネット、ワールドワイドウェブ、イントラネット、エクストラネットなどを含む幅広い多様なネットワーク環境の任意の部分集合または組み合わせであることができる。

図６に戻ると、再生システム６００は、圧縮器１００から出力信号y[n]を受領してy[n]をアナログ信号に変換するよう結合されたデジタル‐アナログ変換器（DAC）６０８を含む。DAC ６０８はこの例ではコントローラ６０４の一つの処理モジュールとして実装されているが、当業者はDAC ６０８がコントローラ６０４とは別個のユニットとして、場合によってはコントローラ６０４が位置しているサーバーまたはユーザーの装置から別個の装置として構築されることができることを理解するはずである。

図６では、前置増幅器６１２が、DAC ６０８によって出力されるアナログ信号の信号強度を受領し、ブーストするよう結合されている。電流感応前置増幅器、寄生容量前置増幅器、電荷感応前置増幅器またはそれらの何らかの組み合わせといったさまざまな型の前置増幅器が使用されることができる。当業者は、いくつかの代替例では前置増幅器６１２がシステム６００から省略できることを理解するはずである。

図６では、電力増幅器６１６は前置増幅器６１２からのブーストされた信号を受領し、増幅して、一つまたは複数のスピーカー６２０を駆動するのに好適な増幅された出力信号を生成するよう結合されている。前置増幅器６１２がシステム６００から省略される状況では、電力増幅器６１６が、統合された増幅器で置換されてもよい。システム６００の増幅器およびスピーカーは、上記のようなユーザーの装置のコンポーネントであることができる。いくつかの実装では、ユーザーの装置と一体のまたはユーザーの装置に接続された別個の装置の形のディスプレイが制御されて、図５のＡおよびＢに呈示した情報のような、前記出力信号の諸周波数帯域および前記信号を特徴付ける他の情報を示すグラフィック・データを表示することができる。他のいくつかのシナリオでは、図６の増幅器６１２およびスピーカー６２０は公共アナウンス（PA: public address）システム、劇場もしくはコンサート・サウンド・システムまたはステレオもしくはホームシアター・システムのような家庭システムの一部である。

本稿に記載した技法は、一つまたは複数のコンピューティング装置によって実装されることができる。たとえば、特殊目的コンピューティング装置のコントローラが、開示される動作を実行するようまたはそのような動作を実行させるよう固定結線されてもよく、動作を実行するまたは動作を実行させるよう持続的にプログラムされた一つまたは複数の特定用途向け集積回路（ASIC）またはフィールド・プログラマブル・ゲート・アレイ（FPGA）のようなデジタル電子回路を含んでいてもよい。いくつかの実装では、カスタムの固定結線論理、ASICおよび／またはFPGAでカスタム・プログラミングをもつものが組み合わされて上記技法を達成する。

他のいくつかの実装では、汎用コンピューティング装置が、ファームウェア、メモリ、他の記憶またはその組み合わせの中のプログラム命令に従って開示される動作の一つまたは複数を実行させるようプログラムされたコントローラを含むことができる。汎用コンピューティング装置の例は、サーバー、ネットワーク装置およびスマートフォン、タブレット、ラップトップ、デスクトップ・コンピュータ、携帯型メディアプレーヤー、他のさまざまな携帯型ハンドヘルド装置のようなユーザー装置ならびに開示される動作を実装するまたは該動作を実装および実行させるデータ処理ハードウェアおよび／またはプログラム論理を組み込む他の任意の装置を含む。コンピューティング装置は、モニタ、プリンタまたは本稿で言及される結果の任意のものをユーザーに提供するための他の好適なディスプレイを含んでいてもよい。

本稿での用法では、用語「記憶媒体」および「記憶メディア」は、コンピュータまたは機械の型に特定の仕方で動作させるデータおよび／または命令を記憶する任意の媒体を指す。本稿に記載されるモデル、モジュール、ユニット、エンジンおよび動作の任意のものは、任意の好適なコンピュータ言語を使ってコントローラのプロセッサによって実行可能なソフトウェア・コードとして実装されてもよいし、そのようなソフトウェア・コードによって実装されるようにされてもよい。ソフトウェア・コードは、記憶および／または伝送のためのコンピュータ可読媒体上の一連の命令またはコマンドとして記憶されてもよい。好適なコンピュータ可読媒体の例は、ランダム・アクセス・メモリ（RAM）、読み出し専用メモリ（ROM）、ハードドライブまたはフロッピーディスクのような磁気媒体、コンパクトディスク（CD）またはDVD（デジタル多用途ディスク）のような光学式媒体、半導体ドライブ、フラッシュ・メモリおよび他の任意のメモリ・チップまたはカートリックを含む。コンピュータ可読媒体は、そのような記憶デバイスの任意の組み合わせであってもよい。ソフトウェア／プログラム・コードをエンコードされたコンピュータ可読媒体は、上記のようなユーザー装置またはサーバーのような互換な装置と一緒にパッケージングされてもよいし、あるいは他の装置とは別個に提供されてもよい。任意のそのようなコンピュータ可読媒体は、単一のコンピューティング装置の上もしくは中にまたはコンピュータ・システム全体の上または中に存在してもよく、システムまたはネットワーク内の他にもあるコンピュータ可読媒体のうちのものであってもよい。

記憶媒体は、伝送媒体とは異なるが、伝送媒体との関連で使われてもよい。伝送媒体は記憶媒体の間で情報を転送することに参加する。たとえば、伝送媒体は同軸ケーブル、銅線および光ファイバーを含む。伝送媒体は、音響波または光波、たとえば電波および赤外線データ通信の際に生成されるものの形を取ることもできる。

本稿において具体的なコンピューティング・パラダイムおよびソフトウェア・ツールを参照したにもかかわらず、開示される技法はハードウェアおよびソフトウェアのいかなる特定の組み合わせにも、コンピューティング装置またはデータ処理装置によって実行される命令のいかなる特定の源にも限定されない。さまざまな実装のベースとなるプログラム命令は幅広い多様なプログラミング言語、ソフトウェア・ツールおよびデータ・フォーマットの任意のものに対応してもよく、任意の型の非一時的なコンピュータ可読記憶媒体もしくはメモリ・デバイス（単数または複数）に記憶されてもよく、多様なコンピューティング・モデルに従って実行されてもよい。コンピューティング・モデルは、たとえば、クライアント／サーバー・モデル、ピアツーピア・モデル、スタンドアローン・コンピューティング装置上またはさまざまな機能が異なる位置で実施されるまたは用いられる分散コンピューティング・モデルに従うことを含む。さらに、本稿における具体的なプロトコルへの言及は、単に例である。当業者に既知の好適な代替が用いられてもよい。

本稿での用法での用語「スピーカー」は、単に例として、エンクロージャー内に設けられた直接放射型エレクトロダイナミック・ドライバを組み込むラウドスピーカー、ホーン・ラウドスピーカー、圧電型スピーカー、磁歪スピーカー、静電ラウドスピーカー、リボン型および平面型ラウドスピーカー、屈曲波ラウドスピーカー、フラット・パネル・ラウドスピーカー、分散モード・ラウドスピーカー、ハイル（Heil）空気動トランスデューサ、プラズマ・アーク・スピーカー、デジタル・スピーカーおよびそれらの任意の組み合わせを含むことができる。

本願の主題はその個別的な実装を参照して具体的に示され、記述されてきたが、当業者は、本開示の精神および範囲から外れることなく開示される実装の形および詳細における変更ができることを理解するであろう。これらの実装のいくつかの例は付属の図面に示されており、その十全な理解を与えるために個別的な詳細が記載されている。こうした個別的な詳細の一部または全部なしでも実装が実施されうることは注意しておくべきである。さらに、よく知られた特徴は明確さを増進するために詳細には記述されなかったことがある。最後に、本稿でいくつかの実装を参照して利点が論じられているが、範囲はそのような利点への言及によって限定されるべきではないことは理解されるであろう。むしろ、範囲は、付属の請求項を参照して決定されるべきである。

いくつかの態様を記載しておく。
〔態様１〕
入力オーディオ信号に応じて圧縮器の閾値を動的に調整する方法であって：
複数の周波数帯域成分をもつ入力オーディオ信号を受領する段階と：
前記複数の周波数帯域成分に応じて、複数の時間変化する閾値を決定する段階であって、各時間変化する閾値はそれぞれの周波数帯域成分に対応する、段階と；
圧縮器によって、各周波数帯域成分に対して、前記対応する時間変化する閾値をもつ圧縮動作を実行して、複数の利得を生成する段階であって、各利得はそれぞれの周波数帯域成分に対応する、段階と；
各利得を、遅延された対応する周波数帯域成分に適用して、複数の処理された帯域成分を生成する段階と；
前記処理された帯域成分を加算して出力信号を生成する段階とを含む、
方法。
〔態様２〕
前記出力信号の知覚されるスペクトルの時間変化する推定値を決定する段階と；
前記知覚されるスペクトル推定値によって誘起される歪みスペクトルの時間変化する推定値を決定する段階と；
前記知覚されるスペクトル推定値の存在における前記歪みスペクトル推定値の可聴性指標を予測する段階と；
前記時間変化する閾値の一つまたは複数を、予測された可聴性指標に従って調整する段階とをさらに含む、
態様１記載の方法。
〔態様３〕
前記歪みスペクトル推定値は、前記知覚されるスペクトル推定値に対する歪みモデルの応答に従って決定される、態様２記載の方法。
〔態様４〕
前記歪みスペクトル推定値は、第一の周波数帯域成分の第一の推定された歪みを含み、前記第一の推定された歪みは、前記第一の周波数帯域成分におよび前記第一の周波数帯域成分より高い周波数の周波数帯域成分の少なくとも一部に誘起される歪みの最大として決定される、態様３記載の方法。
〔態様５〕
前記知覚されるスペクトル推定値の決定は：
前記処理された帯域成分に平滑化処理を適用することを含む、
態様２ないし４のうちいずれか一項記載の方法。
〔態様６〕
前記知覚されるスペクトル推定値の存在における前記歪みスペクトル推定値の可聴性指標を予測する段階が、
前記知覚されるスペクトル推定値からマスキング閾値を計算し；
前記歪みスペクトル推定値と前記マスキング閾値との間の差を決定し；
決定された差の正の値を合計して前記の予測された可聴性指標を生成することを含む、
態様２ないし５のうちいずれか一項記載の方法。
〔態様７〕
前記マスキング閾値は、前記知覚されるスペクトル推定値に基づくトーン性スペクトルを参照して計算され、前記トーン性スペクトルは、トーン的な周波数帯域成分からノイズ的な周波数帯域成分を区別するトーン性値を含む、態様６記載の方法。
〔態様８〕
合計される、決定された差の正の値は、一つまたは複数の上の周波数帯域成分および一つまたは複数の下の周波数帯域成分が、該上および下の帯域成分の間の周波数帯域成分より低い重みをもつよう重み付けされる、態様６または７記載の方法。
〔態様９〕
前記出力信号の知覚されるスペクトルの標準偏差として歪みの可聴性指標を予測し；
前記予測された可聴性指標に従って前記時間変化する閾値の一つまたは複数を調整することをさらに含む、
態様１記載の方法。
〔態様１０〕
前記時間変化する閾値はさらに、複数の固定閾値に従って決定される、態様１ないし８のうちいずれか一項記載の方法。
〔態様１１〕
各時間変化する閾値は、周波数帯域成分に従ってかつ前記複数の固定閾値に従って決定される、態様１０記載の方法。
〔態様１２〕
各時間変化する閾値は、前記対応する周波数帯域成分に従ってかつ対応する固定閾値に従って決定される、態様１０記載の方法。
〔態様１３〕
歪みの可聴性指標を予測し；
予測された可聴性指標を規格化し；
前記固定閾値の一つまたは複数を参照して、かつオフセット値に適用される前記の規格化された可聴性指標に従って、前記時間変化する閾値の一つまたは複数を上げるまたは下げることを含む、
態様１０記載の方法。
〔態様１４〕
前記出力信号のデータを記憶媒体上に記憶する段階をさらに含む、
態様１ないし１３のうちいずれか一項記載の方法。
〔態様１５〕
態様１記載の動作を実行させるよう動作可能な一つまたは複数のコントローラを有する、入力オーディオ信号に応じて圧縮閾値を動的に調整する装置。
〔態様１６〕
前記一つまたは複数のコントローラが、態様２ないし１４のうち一つまたは複数に記載の動作の一つまたは複数を実行させるようさらに動作可能である、態様１５記載の装置。
〔態様１７〕
前記入力オーディオ信号をフィルタリングして前記複数の周波数帯域成分を生成することができるフィルタリング・モジュールをさらに有する、
態様１５または１６記載の装置。
〔態様１８〕
前記フィルタリング・モジュールが、複数の帯域通過フィルタを有するマルチ帯域フィルタを有し、各帯域通過フィルタはそれぞれの周波数帯域成分に対応する、態様１７記載の装置。
〔態様１９〕
前記出力信号を受領するよう結合された一つまたは複数の増幅器をさらに有し、前記一つまたは複数の増幅器は、前記出力信号を増幅して、増幅された出力信号を生成することができる、態様１５ないし１８のうちいずれか一項記載の装置。
〔態様２０〕
前記出力信号または前記増幅された出力信号を受領するよう結合されたディスプレイ装置をさらに有し、前記ディスプレイ装置は、前記受領された信号に関連するグラフィック・データを表示することができる、態様１９記載の装置。
〔態様２１〕
入力オーディオ信号に応じて圧縮器の閾値を動的に調整するために方法を実行させるようコンピューティング装置によって実行可能な命令を記憶しており、前記方法が態様１記載の動作を含む、非一時的なコンピュータ可読記憶媒体。
〔態様２２〕
前記方法がさらに、態様２ないし１４のうち一つまたは複数に記載の一つまたは複数の動作を含む、態様２１記載の非一時的なコンピュータ可読記憶媒体。

Claims

入力オーディオ信号に応じて圧縮器の閾値を動的に調整する方法であって：
複数の周波数帯域成分をもつ入力オーディオ信号を受領する段階と：
前記複数の周波数帯域成分に応じて、複数の閾値を決定する段階であって、各閾値はそれぞれの周波数帯域成分に対応する、段階と；
各周波数帯域成分に対して、前記対応する閾値を使って動作を実行して、複数の利得を生成する段階であって、各利得はそれぞれの周波数帯域成分に対応する、段階と；
各利得を、対応する周波数帯域成分に適用して、複数の処理された周波数帯域成分を生成する段階と；
前記処理された周波数帯域成分の知覚されるスペクトルの時間変化する推定値を決定する段階と；
前記知覚されるスペクトル推定値によって誘起される歪みスペクトルの時間変化する推定値を決定する段階と；
前記知覚されるスペクトル推定値の存在における前記歪みスペクトル推定値の可聴性指標を予測する段階と；
前記閾値の一つまたは複数を、予測された可聴性指標に従って調整する段階とを含む、
方法。
前記歪みスペクトル推定値は、前記知覚されるスペクトル推定値に対する歪みモデルの応答に従って決定される、請求項１記載の方法。
前記歪みスペクトル推定値は、第一の周波数帯域成分の第一の推定された歪みを含み、前記第一の推定された歪みは、前記第一の周波数帯域成分におよび前記第一の周波数帯域成分より高い周波数の周波数帯域成分の少なくとも一部に誘起される歪みの最大として決定される、請求項２記載の方法。
前記知覚されるスペクトル推定値の決定は：
前記処理された周波数帯域成分に平滑化処理を適用することを含む、
請求項１ないし３のうちいずれか一項記載の方法。
前記知覚されるスペクトル推定値の存在における前記歪みスペクトル推定値の可聴性指標を予測する段階が、
前記知覚されるスペクトル推定値からマスキング閾値を計算し；
前記歪みスペクトル推定値と前記マスキング閾値との間の差を決定し；
決定された差の正の値を合計して前記の予測された可聴性指標を生成することを含む、
請求項１ないし４のうちいずれか一項記載の方法。
前記マスキング閾値は、前記知覚されるスペクトル推定値に基づくトーン性スペクトルを参照して計算され、前記トーン性スペクトルは、トーン的な周波数帯域成分からノイズ的な周波数帯域成分を区別するトーン性値を含む、請求項５記載の方法。
合計される、決定された差の正の値は、一つまたは複数の上の周波数帯域成分および一つまたは複数の下の周波数帯域成分が、該上および下の帯域成分の間の周波数帯域成分より低い重みをもつよう重み付けされる、請求項５または６記載の方法。
前記閾値は時間変化する閾値である、請求項１ないし７のうちいずれか一項記載の方法。
各時間変化する閾値は、周波数帯域成分に従ってかつ対応する固定閾値に従って決定される、請求項８記載の方法。
各時間変化する閾値は、前記対応する周波数帯域成分に従ってかつ対応する固定閾値に従って決定される、請求項９記載の方法。
歪みの可聴性指標を予測し；
予測された可聴性指標を規格化し；
前記固定閾値の一つまたは複数を参照して、かつオフセット値に適用される前記の規格化された可聴性指標に従って、前記時間変化する閾値の一つまたは複数を上げるまたは下げることを含む、
請求項８記載の方法。
前記出力信号のデータを記憶媒体上に記憶する段階をさらに含む、
請求項１ないし１１のうちいずれか一項記載の方法。
請求項１記載の方法を実行するよう構成された装置。
請求項２ないし１２のうちいずれか一項記載の方法を実行するよう構成された装置。
前記入力オーディオ信号をフィルタリングして前記複数の周波数帯域成分を生成することができるフィルタリング・モジュールをさらに有する、
請求項１３または１４記載の装置。
前記フィルタリング・モジュールが、複数の帯域通過フィルタを有するマルチ帯域フィルタを有し、各帯域通過フィルタはそれぞれの周波数帯域成分に対応する、請求項１５記載の装置。
前記出力信号を受領するよう結合された一つまたは複数の増幅器をさらに有し、前記一つまたは複数の増幅器は、前記出力信号を増幅して、増幅された出力信号を生成することができる、請求項１３ないし１６のうちいずれか一項記載の装置。
前記出力信号または前記増幅された出力信号を受領するよう結合されたディスプレイ装置をさらに有し、前記ディスプレイ装置は、前記受領された信号に関連するグラフィック・データを表示することができる、請求項１７記載の装置。
コンピューティング装置に請求項１記載の方法を実行させるための命令を記憶している非一時的なコンピュータ可読記憶媒体。
コンピューティング装置に請求項２ないし１２のうちいずれか一項記載の方法を実行させるための命令を記憶している非一時的なコンピュータ可読記憶媒体。