JP2021530933A

JP2021530933A - シーン切り換え解析器にガイドされる歪み可聴性モデルに基づく動的閾値を有する歪み低減マルチバンド・コンプレッサー

Info

Publication number: JP2021530933A
Application number: JP2021516933A
Authority: JP
Inventors: マー，ユエンシーン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2018-09-28
Filing date: 2019-09-26
Publication date: 2021-11-11
Anticipated expiration: 2039-09-26
Also published as: EP3662468A1; EP3662468B1; US20210343308A1; CN112640301B; JP7019099B2; WO2020069120A1; US11282533B2; CN112640301A; WO2020069120A9

Abstract

本願は、入力オーディオ信号に応答してコンプレッサーの閾値を動的に調整する方法、システムおよびコンピュータ・プログラム製品に関する。シーン切り換え解析器は、複数の周波数帯域成分を有する入力オーディオ信号を受領する。シーン切り換え解析器は、入力オーディオ信号においてシーン切り換えが発生したかどうかを判定する。入力オーディオ信号の周波数帯域成分が処理される。シーン切り換えが発生していないことと判定するのに応答して、歪み可聴性システムが、周波数帯域成分のコンプレッサー閾値に緩慢な平滑化を適用する。シーン切り換えが発生したと判定するのに応答して、歪み可聴性システムは、周波数帯域成分のコンプレッサー閾値に高速平滑化または平滑化なしを適用する。

Description

関連出願への相互参照
本願は、2018年9月28日に出願された国際特許出願第PCT/CN2018/108287号、2019年1月29日に出願された米国仮特許出願第62/798,149号、および2019年2月4日に出願された欧州特許出願第19155298.3号の優先権の利益を主張するものであり、これらのすべては、その全体が参照により本明細書に組み込まれる。

技術分野
本願の開示は、概括的には、オーディオ提示に関し、特に、提示中の歪みの低減に関する。

多くのオーディオ再生システムは、限られた出力能力の増幅器およびスピーカーを含んでいる。携帯電話およびタブレットは、装置の寸法および電力要件によって設計が厳密に制限される2つの極端な例である。そのようなシステムでは、再生レベルが増加するにつれてオーディオが歪むことが一般的であり、この歪みの特性は周波数に依存することが多い。したがって、再生前にオーディオ信号にマルチバンド圧縮を適用して歪みを低減し、再生装置上での再生レベルを最大化しようとするのが一般的慣行である。信号の各周波数帯域について歪み閾値が指定され、各帯域における信号レベルが対応する歪み閾値を超えないことを保証するために、コンプレッサーが、各帯域に独立した利得を適用する。そのようなコンプレッサーの問題は、歪み低減の目的で適用される利得がコンテンツに依存することがあるということである。狭帯域信号についての知覚された歪みを除去するために設定される閾値は、しばしば広帯域信号について要求されるものよりも大きい。広帯域信号自体が、それが誘起する歪みの一部を有意にマスクしうるからである。狭帯域信号は、その誘起される歪みをマスクするのに、はるかに効果的でないことがありうる。この問題に対処するため、出願人は、図1に示されるように、最小限の知覚された歪みで最大の再生レベルを達成するためにコンプレッサーの閾値を動的に修正するために利用される、可聴性指標を与える歪み可聴性モデルで補強されたマルチバンド・コンプレッサーを提案した。

本願は、歪み可聴性モデルをガイドするために、入力オーディオ信号中にシーン切り換えが発生したかどうかを判定するシーン切り換え解析器を導入する。このシーン切り換え解析器は、コンプレッサー閾値の急激な変化はシーン切り換えと同時に起こるだけであることを確実にし、より自然な経験を与える。一般に、シーン切り換えは、コンテンツのあるパラグラフが狭帯域信号で構成され、次のパラグラフが広帯域信号で構成される、あるいはその逆の場合に発生する。たとえば、ピアノソロの後にボーカルが入る場合、それはシーン切り換えとみなされ、よって、歪みの可聴性指標が変化するので、コンプレッサー閾値は急速に変化しうる。シーン切り換えは、コンテンツのあるピースが狭帯域信号で構成され、プレイリスト内のコンテンツの次のピースが広帯域信号で構成される、あるいはその逆の場合にも発生する。たとえば、低品質の狭帯域ユーザー生成コンテンツ（user-generated content、UGC）に、プロの広帯域コンテンツが続く。

よって、入力オーディオ信号にシーン切り換えがない場合、動的コンプレッサー閾値がゆっくりと変化するよう、動的コンプレッサー閾値の緩慢な平滑化が適用される。これは、平滑化のために使用される一極平滑器の大きなアタック時定数および／またはリリース時定数を使用することによって得ることができる。シーン切り換えが検出されると、平滑器の、より小さなアタック時定数および／またはリリース時定数を使用することにより、コンプレッサー閾値の急速な変化を許容する、高速な平滑化が適用される。

いくつかの実装では、シーン切り換え解析器は、複数の周波数帯域成分を有する入力オーディオ信号を受領する。シーン切り換え解析器は、入力オーディオ信号においてシーン切り換えが発生したかどうかを判定する。入力オーディオ信号の周波数帯域成分が処理される。シーン切り換えが発生していないと判定することに応答して、歪み可聴性モデルは、周波数帯域成分のコンプレッサー閾値に対して緩慢な平滑化を適用する。シーン切り換えが発生したと判定することに応答して、歪み可聴性モデルは、周波数帯域成分のコンプレッサー閾値に対して高速平滑化または平滑化なしを適用する。

いくつかの実装では、シーン切り換えは、広帯域信号と狭帯域信号との間の、あるいはその逆の切り換えを含む。広帯域信号は、ボーカルサウンドまたはプロの映画コンテンツに対応し、狭帯域信号は、楽器音、たとえばピアノの音または低品質の狭帯域UGCコンテンツに対応する。

いくつかの実装では、シーン切り換えが入力オーディオ信号中に発生したかどうかを判定することは、入力オーディオ信号の全周波数帯域成分に基づく。たとえば、シーン切り換えが入力オーディオ信号に発生したかどうかを判定することは、各周波数帯域成分信号を平滑化することによって、信号パワースペクトルの重心の時間変動する推定または信号パワースペクトルのカットオフ帯域の推定に基づく。具体的には、シーン切り換え解析器は、信号パワースペクトル重心の時間変化する推定を計算する。これは、各周波数帯域成分信号を平滑化することによって信号パワースペクトルを推定し、推定された信号パワースペクトルを用いて信号パワースペクトルの重心を決定することを含む動作を実行することによる。入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することは、次の動作を含むことができる：重心を平滑化し；重心と平滑化された重心との間の差を決定し；差が閾値を満たすかどうかに基づいてシーン切り換えが発生したかどうかを判定する。さらに、シーン切り換え解析器は、各周波数帯域成分信号を平滑化することによって信号パワースペクトルを推定し、推定された信号パワースペクトルを用いて信号パワースペクトルのカットオフ帯域を決定することを含む動作を少なくとも実行することによって、信号パワースペクトルのカットオフ帯域の推定を計算する。入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することは、次の動作を含むことができる：カットオフ帯域を平滑化し；カットオフ帯域と平滑化されたカットオフ帯域との差を決定し；差が閾値を満たしているかどうかに基づいてシーン切り換えが発生したかどうかを判定する。

いくつかの実装では、シーン切り換え解析器は、シーン切り換えが発生したかどうかを判定した後、入力オーディオ信号の周波数帯域成分のコンプレッサー閾値に対する平滑化をガイドするために、歪み可聴性モデルに一つまたは複数の制御信号を提供する。加えて、いくつかの実装では、一つまたは複数の制御信号が、アタック時定数および／またはリリース時定数を含む時定数の変化をガイドする。いくつかの実装では、一つまたは複数の制御信号の関数は、ステップ関数またはシグモイド関数でありえ、範囲[0,1]にマッピングされる。

いくつかの実装では、入力オーディオ信号においてシーン切り換えが発生したかどうかを判定するためのシーン切り換え解析器は、上述した動作の一部または全部を実行させるように動作可能な一つまたは複数の計算装置を含む。

いくつかの実装では、コンピュータ読み取り可能媒体が、一つまたは複数のプロセッサによって実行可能な命令を格納し、上述した動作の一部または全部を実行させる。

含まれる図は、説明のためのものであり、単に、開示される発明の方法、システムおよびコンピュータ読み取り可能媒体のための可能な動作の例を提供するためのものである。これらの図は、開示される実装の精神および範囲から逸脱することなく、当業者によってなされうる形および詳細の変更を決して制限しない。
入力オーディオ信号に応答してコンプレッサーの閾値を動的に調整するための歪み可聴性モデル（DAM）を組み込んだ従来のコンプレッサーの概略図を示す。いくつかの実装による、入力オーディオ信号に応答してコンプレッサーの閾値を動的に調整する歪み可聴性モデル（DAM）をガイドするために、シーン切り換え解析器（SSA）を組み込んだコンプレッサー100の概略図を示す。いくつかの実装に従って実行される、本明細書に開示されるコンプレッサー100によるオーディオ信号処理の方法200のフローチャートを示す。いくつかの実装に従って実行される、入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することに基づいて、入力オーディオ信号に応答してコンプレッサーの閾値を動的に調整する方法300の例を示す。いくつかの実装に従って実行される、入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することに基づいて、入力オーディオ信号に応答してコンプレッサーの閾値を動的に調整する方法400の別の例を示す。 AおよびBは、いくつかの実装による、一つまたは複数の制御信号の関数の2つの例、すなわち、ステップ関数およびシグモイド関数をそれぞれ示す。

上述したように、ここでは、歪み可聴性モデルで補強されたマルチバンド・コンプレッサーが可聴性指標を与えるために使用され、次いで、可聴性指標が、コンプレッサーの閾値を動的に修正し、最小限の知覚される歪みで最大の再生レベルを達成するために使用される。複数の動的（時間変化する）閾値が、複数の周波数帯域成分に従って決定され、各時間変化する閾値は、それぞれの周波数帯域成分に対応する。次いで、コンプレッサーは、各周波数帯域成分に対して圧縮演算を実行する。ここで、圧縮は、各周波数帯域成分についての利得を生成するための、対応する時間変化する閾値を有する。しかしながら、そのような歪み可聴性モデルで補強されたコンプレッサーの問題は、寸法が厳密に制限されているモバイル装置に適用された場合、狭帯域信号についての知覚される歪みをなくすのがより困難であり、よって狭帯域信号について設定された閾値は、しばしば広帯域信号について要求されるものよりもはるかに低いということである。このことは、歪み可聴性指標のわずかな変化が、大きな閾値変化を引き起こし、結果としてかなりの出力ボリューム変化をもたらすことを意味する。急激かつ顕著な変化が予期せぬ瞬間に起きる場合、それは聴取経験に対してマイナスの影響を与える。

この問題に対処するために、本願は、マルチバンド・コンプレッサーによって適用されうる動的（時間変化する）閾値を平滑化する歪み可聴性モデルをガイドするように構成されたシーン切り換え解析器を組み込む技術を開示する。入力オーディオ信号に応答してコンプレッサーの閾値を動的に調整するための前記技術を実装する方法、システムおよびコンピュータ可読媒体のいくつかの例が、以下のように開示される。

図2は、いくつかの実装による、入力オーディオ信号に応答してコンプレッサーの閾値を動的に調整する歪み可聴性モデル（distortion audibility model、DAM）をガイドするためにシーン切り換え解析器（scene switch analyzer、SSA）を組み込んだマルチバンド・コンプレッサー100を示す。図2において、フィルタバンク104の形のフィルタリング・モジュールは、入力信号x[n]を受領する。フィルタバンク104は、入力信号x[n]をフィルタリングして、入力信号x[n]を複数の周波数帯域成分x₁[n]〜x_B[n]に分離するように構成される。

いくつかの実装では、フィルタバンク104は、B個の帯域通過フィルタとして実装されるマルチバンドフィルタとして構成され、各帯域通過フィルタは、それぞれの周波数帯域成分に対応する。たとえば、各帯域bの出力は、式(1)で表わされるように、入力信号x[n]を帯域通過フィルタ応答h_b[n]と畳み込みしたものとして計算されうる：

図2において、シーン切り換え解析器108は、フィルタバンク104から出力される周波数帯域成分x₁[n]〜x_B[n]を受領し、その解析に基づいて、シーン切り換え解析器108は、一つまたは複数の制御信号C_k[n]を生成する。いくつかの実装では、C_k[n]は、潜在的に、式(2)に表わされるように、諸帯域b＝1,…,Bを通じたすべての帯域信号x_b[n]の関数として計算される。

次に、一つまたは複数の制御信号C_k[n]が歪み可聴性モデル112に供給され、式(3)に表わされるように、諸帯域b＝1,…,Bを通じたすべての周波数帯域成分x₁[n]〜x_B[n]および固定された閾値L_bに基づいて、それぞれの時間変化する閾値D_b[n]を計算するように歪み可聴性モデル112をガイドする。

いくつかの実装では、シーン切り換え解析器108は、すべての周波数帯域成分x₁[n]〜x_B[n]についてすべての時間変化する閾値D_b[n]を計算することをガイドするために、1つの制御信号のみを生成することができる；いくつかの他の実装では、シーン切り換え解析器108は、1つの制御信号のみではなく、すべての周波数帯域成分x₁[n]〜x_B[n]についてすべての時間変化する閾値D_b[n]を計算することをガイドするために、複数の制御信号を生成することができ、たとえば、制御信号の数は、周波数帯域成分の数に対応する。次に、各周波数帯域成分は、式(4)で表わされるように、時間変化する利得g_b[n]を生成するために、限界閾値D_b[n]とともに圧縮関数116に渡される:

最後に、処理された出力信号y[n]が、周波数帯域成分x₁[n]〜x_B[n]すべての遅延されたバージョンに、それらの対応する利得g₁[n]〜g_B[n]を乗算したものを総和することによって計算される。図2においては、複数のユニット120が、利得を遅延された周波数帯域成分に乗算して、処理された帯域成分y₁[n]〜y_B[n]を生成するように構成されており、該処理された帯域成分が総和ユニット124において加算されて出力信号y[n]を生成する。たとえば、遅延dは、利得の計算に関連する任意の処理遅延を考慮に入れるように設計できる。式(5)は、処理された信号y[n]の生成の表現を示す。

図3は、いくつかの実装に従って実行される、本明細書に開示されるコンプレッサー100によるオーディオ信号処理の方法200のフローチャートを示す。図3は、図2の例を用いて記載される。図3の204において、周波数帯域成分x₁[n]〜x_B[n]が、上記で説明したようにSSA 108への入力として受領される。208では、SSA 108は、周波数帯域成分x₁[n]〜x_B[n]すべてに基づいて一つまたは複数の制御信号C_k[n]を生成する。212では、DAM 112は、制御信号C_k[n]に従って、すべての周波数帯域成分x₁[n]〜x_B[n]および諸帯域にわたる固定された諸閾値に基づいて、時間変化する閾値D_b[n]を計算する。216では、各圧縮関数116は、対応する時間変化する閾値D_b[n]を用いて対応する周波数帯域成分x₁[n]〜x_B[n]に対して圧縮演算を実行し、利得g₁[n]〜g_B[n]を生成するように構成される。220では、各利得g_b[n]は、たとえば乗算器ユニット120を使用して、各対応する周波数帯域成分x_b[n]の遅延されたバージョンに適用され、処理された帯域成分y₁[n]〜y_B[n]を生成する。224では、処理された帯域成分y₁[n]〜y_B[n]は、総和ユニット124において合計され、出力信号y[n]を生成する。

よって、DAMのみによって決定されるのではなく、SSAも周波数帯域成分x₁[n]〜x_B[n]を受け、その解析に基づいて、D_b[n]に対する平滑化をガイドするようDAMを制御するための一つまたは複数の制御信号C_k[n]を与える。たとえば、C_k[n]は、時定数の変化をガイドし、それにより、シーン切り換え中にはより小さな時定数を与えることができ、それにより急速な変化を許容し、シーン切り換えが存在しないときにはより大きな時定数を与え、それによりゆらぎを平滑化する。なぜなら、従来のコンプレッサーによって適用されるD_b[n]についての典型的な高速アタック／緩慢リリース一極平滑器のアタックおよびリリース時定数は固定であろうからである。

図4は、いくつかの実装に従って実行される、入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することに基づいて、入力オーディオ信号に応答してコンプレッサーの閾値を動的に調整する方法300の例を示す。好ましくは、信号パワースペクトルの重心は、特に、ピアノソロの後にボーカルが入ってくる、またはその逆のような場合、シーン切り換えケースの良好なインジケータでありうることが見出される。よって、この例示的な実施形態では、シーン切り換え解析器108は、信号パワースペクトル重心の時間変化する推定値を計算することによって動作する。304では、信号パワースペクトルs_b[n]は、式(6)で表わされるように、高速アタック／緩慢リリース一極平滑器を用いて、帯域ごとの信号、すなわち各周波数帯域成分信号x_b[n]を平滑化することによって推定されてもよい。

ここで、α_Aはアタック時定数、α_Rは高速アタック／緩慢リリース一極平滑器のリリース時定数である。すると、この信号パワースペクトルs_b[n]は、dBで、式(7)で表わされる。

次に、308では、式(8)で表わされるように、信号パワースペクトルの重心C[n]が、推定された信号パワースペクトルによって決定される。

ここで、f_bは帯域の中心周波数であり、好ましくは、一般に−130dBよりも大きいすべての潜在的に可聴名信号が信号パワースペクトルに算入されるよう、固定されたオフセット130dBが選ばれる。次いで、312において、式(9)で表わされるように、信号パワースペクトルの重心も、高速アタック／緩慢リリース一極平滑器で平滑化されて、平滑化されたバージョンの重心C_s[n]を得る。

次に、316では、重心C[n]と平滑化された重心C_s[n]との間の差が決定され、次いで閾値と比較される。好ましくは、シーン切り換えの発生を示すのに有効な500Hzの閾値が選ばれる。それにより、式(10)で表わされるように、一つまたは複数の制御信号C_k[n]を生成する。制御信号は範囲[0,1]にマッピングされることができる。

320では、C_k[n]は、式(11)で表わされるように、アタック時定数α_Aのような時定数の変化をガイドする。

ここで、α_Afastおよびα_Aslowは、複数の異なる値に設定されることができ、たとえば、各帯域についてわずかに異なる値または同じ値に設定されることができる。ここで、好ましくは、α_Afastは、α_Aslowの半分、またはさらに小さい値に設定され、劇的なシーン切り換えの間に、潜在的にはより自然な聴取経験を作り出す。

次に、324では、式(11)におけるアタック時定数α_Aのような時定数が適用されて、それぞれ式(12)および式(13)で表わされるように、D_b[n]に対する平滑化をガイドする。

ここで、d_b[n]は、DAMにおいて生成された、平滑化されていない帯域当たりの限界閾値である。いくつかの実装では、式(12)は、D_b[n]に対する通常の高速アタック／緩慢リリース平滑化を示している。さらに、最も急速な変更が必要な場合には、α_Aおよびα_Afastはゼロに設定することもできる。この場合、DAMは、式(13)で表わされるように、d_b[n]のアタック中にシーン切り換えが検出されたときには、平滑化を適用しないようにガイドされる。

図4に表わされるように重心を利用することに加えて、またはその代わりに、入力信号スペクトルの他の特性も、シーン切り換えの検出を支援するために利用できる。図5は、いくつかの実装に従って実行される、入力オーディオ信号においてシーン切り換えが発生したかどうかに基づいて、入力オーディオ信号に応答してコンプレッサーの閾値を動的に調節する方法400の別の例を示している。この例示的な実施形態では、信号パワースペクトルのカットオフ帯域が、シーン切り換えケースの代替的なインジケータであることができ、好ましくは、カットオフ帯域は、種々の帯域幅を備える楽器の導入の良好なインジケータでありうる。

404では、信号パワースペクトルは、式(6)で表わされるのと同様にして、高速アタック／緩慢リリース一極平滑器で帯域ごとの信号を平滑化することによって推定され、次いで、dBで表わされてもよい。
次に、408において、信号パワースペクトルのカットオフ帯域b_cutoff[n]は、推定された信号パワースペクトルによって、式(14)で表わされるように決定される。

次いで、412では、式(9)で表わされるのと同様にして、信号パワースペクトルのカットオフ帯域も、高速アタック／緩慢リリース一極平滑器で平滑化されて、平滑化されたバージョンのカットオフ帯域b_cutoff[n]を得る。次に、416では、カットオフ帯域と平滑化されたカットオフ帯域との間の差が決定され、次いで、閾値と比較され、式(10)で表わされるのと同様にして、一つまたは複数の制御信号C_k[n]を生成する。420では、式(11)で表わされるのと同様にして、C_k[n]は時定数の変化をガイドする。次に、424では、式(12)および(13)で表わされるのと同様にして、D_b[n]に対する平滑化をガイドするために、それらの時定数が適用されることができる。

図6Aおよび図6Bは、いくつかの実装による、一つまたは複数の制御信号C_k[n]の関数の2つの例、すなわちステップ関数およびシグモイド関数をそれぞれ示す。一般に、制御信号C_k[n]の関数は、[0,1]の範囲にマッピングされることができる。図6Aに示されるある実施形態では、マッピング関数は、非常に単純な例、すなわち、式(15)に示されるようなステップ関数であろう。

ここで、x_Thは閾値である。さらに、図6Bに示されるような他の好ましい実施形態では、マッピング関数は、式(16)に示されるようなシグモイド関数であろう。

ここで、x_Thは閾値であり、f(・)はスケール因子である。図6Bはさらに、スケール因子がそれぞれ1、2および10に設定されたシグモイド関数の3つの具体的な実施形態を示す。シグモイド関数を使用することは、潜在的に、語長が異なる浮動小数点および固定小数点プラットフォームを通じて、より一貫性のあるオーディオ出力を生成することを支援できる。

アタック時定数をガイドする代わりに、ある代替では、上記の304/404〜320/420の生成ステップに従うことによって、リリース時定数α_Rなどの他のパラメータをガイドするために一つまたは複数の制御信号C_k[n]が生成されることができる。ここで、304/404〜320/420の諸ステップで使用されるパラメータのいくつかは変更されることができ、たとえば、312/412で信号パワースペクトルS_b[n]の平滑化方式を、使用される時定数を変更することによって変更すること、または316/416でマッピング関数を変更することなどによる。

本明細書に記載されるシーン切り換え解析器の技術は、一つまたは複数の計算装置によって実装することができる。たとえば、特殊目的計算装置のコントローラが、開示された動作を実行するために、またはそのような動作を実行させるために、固定配線されてもよく、また、動作を実行するために、または動作を実行させるために永続的にプログラムされた、一つまたは複数の特定用途向け集積回路（ASIC）またはフィールド・プログラマブル・ゲート・アレイ（FPGA）のようなデジタル電子回路を含んでいてもよい。いくつかの実装では、カスタムの固定配線の論理、ASICおよび／またはカスタムプログラミングを有するFPGAが組み合わされて、本技術が達成される。

いくつかの他の実装では、汎用計算装置は、ファームウェア、メモリ、他の記憶、またはそれらの組み合わせにおけるプログラム命令に従って、開示された動作の一つまたは複数を実行させるようにプログラムされた中央処理ユニット（CPU）を組み込んだコントローラを含むことができる。

本明細書で使用される用語「コンピュータ読み取り可能記憶媒体」は、コンピュータまたはタイプの機械を特定の仕方で動作させる命令および／またはデータを記憶する任意の媒体を指す。本明細書に記載されるモデル、解析器、および動作のいずれも、好適なコンピュータ言語を使用するコントローラのプロセッサによって実行可能なソフトウェア・コードとして実装されてもよく、または実装させられてもよい。ソフトウェア・コードは、一連の命令として、記憶のためのコンピュータ読み取り可能媒体に記憶されてもよい。好適なコンピュータ読み取り可能記憶媒体の例には、ランダムアクセスメモリ（RAM）、読み出し専用メモリ（ROM）、磁気媒体、光学媒体、ソリッドステートドライブ、フラッシュメモリ、および任意の他のメモリチップまたはカートリッジを含む。コンピュータ読み取り可能記憶媒体は、そのような記憶装置の任意の組み合わせであってもよい。そのようなコンピュータ読み取り可能記憶媒体は、単一の計算装置またはコンピュータ・システム全体の上または内部に存在してもよく、システムまたはネットワーク内の他のコンピュータ読み取り可能記憶媒体のうちにあってもよい。

本願の主題は、その実装を参照して具体的に示され、説明されてきたが、本開示の精神または範囲から逸脱することなく、開示される実装の形態および詳細の変更ができることは、当業者には理解されるであろう。これらの実装のいくつかの例は、添付の図面に示されており、その十全な理解を提供するために、具体的な詳細が記載されている。実装が、これらの舞台的な詳細の一部または全部なしに実施されうることに注意しておくべきである。さらに、明確性を促進するために、周知の構成は詳細に記載されていないことがある。最後に、いくつかの実装を参照して利点が本明細書で論じられてきたが、そのような利点を参照することによって範囲が限定されるべきではないことが理解されるであろう。むしろ、範囲は添付の特許請求の範囲を参照して決定されるべきである。

本発明のさまざまな側面は、以下の箇条書き例示的実施形態（enumerated example embodiment、EEE）から理解されうる。
〔EEE１〕
入力オーディオ信号に応答してコンプレッサーの閾値を動的に調節する方法であって：
シーン切り換え解析器によって、複数の周波数帯域成分を有する入力オーディオ信号を受領する段階と；
シーン切り換え解析器によって、前記入力オーディオ信号においてシーン切り換えが発生したかどうかを判定する段階と；
前記入力オーディオ信号の周波数帯域成分を処理する段階であって：
シーン切り換えが発生していないと判定することに応答して、前記周波数帯域成分のコンプレッサー閾値に緩慢な平滑化を適用し；
シーン切り換えが発生したと判断することに応答して、前記周波数帯域成分のコンプレッサー閾値に高速平滑化を適用するまたは平滑化を適用しない、
段階とを含む、方法。
〔EEE２〕
前記シーン切り換えが、広帯域信号と狭帯域信号との間の、またはその逆の切り換えを含む、EEE１に記載の方法。
〔EEE３〕
前記広帯域信号がボーカル音に対応し、前記狭帯域信号が楽器音に対応する、EEE２に記載の方法。
〔EEE４〕
前記楽器音がピアノ音である、EEE３に記載の方法。
〔EEE５〕
前記広帯域信号がプロの映画コンテンツに対応し、前記狭帯域信号が低品質の狭帯域UGCコンテンツに対応する、EEE２に記載の方法。
〔EEE６〕
前記入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することは、入力オーディオ信号のすべての周波数帯域成分に基づく、EEE１ないし５のうちいずれかに記載の方法。
〔EEE７〕
前記入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することは、信号パワースペクトル重心の時間変化する推定に基づく、EEE６に記載の方法。
〔EEE８〕
前記シーン切り換え解析器は、少なくとも、
各周波数帯域成分信号を平滑化することによって信号パワースペクトルを推定し；
推定された信号パワースペクトルを用いて該信号パワースペクトルの重心を決定する
ことを含む動作を実行することによって、前記信号パワースペクトル重心の時間変化する推定を計算する、EEE７に記載の方法:
〔EEE９〕
前記入力オーディオ信号において前記シーン切り換えが発生したかどうかを判定することは：
前記重心を平滑化し；
前記重心と平滑化された重心との差を決定し；
前記シーン切り換えが発生したかどうかを、前記差が閾値を満たしているかどうかに基づいて判定することを含む、
EEE８に記載の方法。
〔EEE１０〕
前記入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することは、前記信号パワースペクトルのカットオフ帯域の推定に基づく、EEE６ないし９のうちいずれかの方法。
〔EEE１１〕
前記シーン切り換え解析器は、少なくとも、
各周波数帯域成分信号を平滑化することによって信号パワースペクトルを推定し；
推定された信号パワースペクトルを用いて前記信号パワースペクトルの前記カットオフ帯域を決定する
ことを含む動作を実行することによって、前記信号パワースペクトルのカットオフ帯域の推定を計算する、EEE１０に記載の方法。
〔EEE１２〕
前記入力オーディオ信号において前記シーン切り換えが発生したかどうかを判定することが：
前記カットオフ帯域を平滑化し；
前記カットオフ帯域と平滑化されたカットオフ帯域との差を決定し；
前記シーン切り換えが発生したかどうかを、前記差が閾値を満たしているかどうかに基づいて判定することを含む、
EEE１１に記載の方法。
〔EEE１３〕
前記シーン切り換え解析器は、前記シーン切り換えが発生したかどうかを判定した後に、前記入力オーディオ信号の周波数帯域成分のコンプレッサー閾値に対する前記平滑化をガイドするために、前記歪み可聴性モデルに一つまたは複数の制御信号を提供する、EEE１ないし１２のうちいずれかに記載の方法。
〔EEE１４〕
一つまたは複数の制御信号が、アタック時定数および／またはリリース時定数を含む時定数の変化をガイドする、EEE１３に記載の方法。
〔EEE１５〕
一つまたは複数の制御信号の関数が[0,1]の範囲にマッピングされる、EEE１３または１４に記載の方法。
〔EEE１６〕
前記マッピング関数がステップ関数またはシグモイド関数である、EEE１５に記載の方法。
〔EEE１７〕
一つまたは複数の計算装置と；
一つまたは複数のプロセッサによって実行されると、該一つまたは複数のプロセッサにEEE１ないし１６のうちいずれかに記載の動作を実行させる命令を記憶しているコンピュータ可読記憶媒体とを有する、
シーン切り換え解析器。
〔EEE１８〕
一つまたは複数の計算装置によって実行されると、該一つまたは複数の計算装置にEEE１ないし１６のうちいずれかに記載の動作を実行させる命令を記憶しているコンピュータ可読記憶媒体。
〔EEE１９〕
計算装置またはシステムによって実行されると、該計算装置またはシステムにEEE１ないし１６のうちいずれかに記載の方法を実行させる命令を有する、コンピュータ・プログラム製品。

Claims

入力オーディオ信号に応答してコンプレッサーの閾値を動的に調節する方法であって：
シーン切り換え解析器によって、複数の周波数帯域成分を有する入力オーディオ信号を受領する段階と；
前記シーン切り換え解析器によって、前記入力オーディオ信号においてシーン切り換えが発生したかどうかを判定する段階であって、前記入力オーディオ信号が広帯域信号であることから狭帯域信号であることに、またはその逆に遷移するときにシーン切り換えが発生したと判定される、段階と；
前記シーン切り換え解析器によって、平滑器のアタック時定数および／またはリリース時定数の変化をガイドすることによって前記周波数帯域成分のコンプレッサー閾値に対する平滑化をガイドするために、歪み可聴性モデルに一つまたは複数の制御信号を提供する段階と；
前記入力オーディオ信号の前記周波数帯域成分を処理する段階であって：
シーン切り換えが発生していないと判定することに応答して、前記制御信号は、大きな時定数を使用し、それにより前記周波数帯域成分のコンプレッサー閾値に緩慢な平滑化を適用することを指示し；
シーン切り換えが発生したと判断することに応答して、前記一つまたは複数の制御信号は、小さなまたは値がゼロの時定数を使用し、それにより前記周波数帯域成分の前記コンプレッサー閾値に高速平滑化を適用するまたは平滑化を適用しないことを指示することを含む、段階とを含む、
方法。
前記広帯域信号がボーカル音またはプロの映画コンテンツに対応し、前記狭帯域信号が楽器音または低品質の狭帯域ユーザー生成コンテンツ（UGC）に対応する、請求項１に記載の方法。
前記入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することは、入力オーディオ信号のすべての周波数帯域成分に基づく、請求項１または２に記載の方法。
前記入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することは、信号パワースペクトル重心の時間変化する推定に基づく、請求項３に記載の方法。
前記シーン切り換え解析器は、少なくとも、
各周波数帯域成分信号を平滑化することによって信号パワースペクトルを推定し；
推定された信号パワースペクトルを用いて該信号パワースペクトルの重心を決定する
ことを含む動作を実行することによって、
前記信号パワースペクトル重心の時間変化する推定を計算する、請求項４に記載の方法。
前記入力オーディオ信号において前記シーン切り換えが発生したかどうかを判定することは：
前記重心を平滑化し；
前記重心と平滑化された重心との差を決定し；
前記シーン切り換えが発生したかどうかを、前記差が閾値を満たしているかどうかに基づいて判定することを含む、
請求項５に記載の方法。
前記入力オーディオ信号においてシーン切り換えが発生したかどうかを判定することは、前記信号パワースペクトルのカットオフ帯域の推定に基づく、請求項３ないし６のうちいずれか一項に記載の方法。
前記シーン切り換え解析器は、少なくとも、
各周波数帯域成分信号を平滑化することによって信号パワースペクトルを推定し；
推定された信号パワースペクトルを用いて前記信号パワースペクトルの前記カットオフ帯域を決定する
ことを含む動作を実行することによって、
前記信号パワースペクトルのカットオフ帯域の推定を計算する、請求項７に記載の方法。
前記入力オーディオ信号において前記シーン切り換えが発生したかどうかを判定することが：
前記カットオフ帯域を平滑化し；
前記カットオフ帯域と平滑化されたカットオフ帯域との差を決定し；
前記シーン切り換えが発生したかどうかを、前記差が閾値を満たしているかどうかに基づいて判定することを含む、
請求項８に記載の方法。
前記アタック時定数および／または前記リリース時定数の変化をガイドするための一つまたは複数の制御信号の関数が、[0,1]の範囲にマッピングされ、前記アタック時定数および／または前記リリース時定数は前記関数を乗算されることによって変化させられる、請求項１ないし９のうちいずれか一項に記載の方法。
前記コンプレッサーによって、各周波数帯域成分に対して、対応する閾値を有する圧縮演算を実行して複数の利得を生成する段階であって、各利得はそれぞれの周波数帯域成分に対応する、段階をさらに含む、
請求項１ないし１０のうちいずれか一項に記載の方法。
一つまたは複数の計算装置と；
一つまたは複数のプロセッサによって実行されると、該一つまたは複数のプロセッサに請求項１ないし１１のうちいずれか一項に記載の動作を実行させる命令を記憶しているコンピュータ可読記憶媒体とを有する、
シーン切り換え解析器。
一つまたは複数の計算装置によって実行されると、該一つまたは複数の計算装置に請求項１ないし１１のうちいずれか一項に記載の動作を実行させる命令を記憶しているコンピュータ可読記憶媒体。