JP2013507842A

JP2013507842A - 録音の適応的ダイナミックレンジ強化

Info

Publication number: JP2013507842A
Application number: JP2012533365A
Authority: JP
Inventors: マーティンウォルシュ; エドワードシュタイン; ジャン−マルクジョット
Original assignee: DTS Inc
Current assignee: DTS Inc
Priority date: 2009-10-09
Filing date: 2010-10-08
Publication date: 2013-03-04
Anticipated expiration: 2030-10-08
Also published as: EP2486654A1; US8879750B2; BR112012008257A2; KR101732208B1; CN102668374B; HK1167527A1; WO2011044521A1; JP5730881B2; EP2486654B1; HK1173274A1; EP2486654A4; TWI505263B; PL2486654T3; CA2777182A1; US20110085677A1; KR20120093934A; TW201137862A; CN102668374A; CA2777182C

Abstract

オーディオ信号を調整する方法及び装置を提供する。本発明の１つの態様によれば、オーディオ信号の調整方法が含められ、この方法は、一連の時間にわたる複数のフレームに各々がセグメント化された少なくとも１つのチャネルを各々が有する少なくとも１つのオーディオ信号を受け取るステップと、複数の連続する時間セグメントについてオーディオ信号の動的偏位の少なくとも１つの量を計算するステップと、オーディオ信号を、少なくとも１つが個々のフレームを表す複数のサブバンドにフィルタ処理するステップと、連続する時間セグメントから動的利得係数を導出するステップと、フレームの少なくとも１つのサブバンドを解析してフレーム内に過渡が存在するかどうかを判断するステップと、過渡を有する各フレームに動的利得係数を適用するステップとを含む。
【選択図】図２

Description

〔関連出願との相互参照〕
本発明は、発明者であるＷａｌｓｈ他に付与された２００９年１０月９日に出願された録音の適応的ダイナミックレンジ強化という名称の米国仮特許出願第６１／２５０，３２０号、及び発明者であるＷａｌｓｈ他に付与された２０１０年９月１０日に出願された適応的ダイナミックレンジ強化という名称の米国仮特許出願第６１／３８１，８６０号の優先権を主張する。米国仮特許出願第６１／２１７，５６２号及び第６１／３８１，８６０号は、引用により本明細書に組み入れられる。

〔連邦政府が支援する研究又は開発に関する記述〕
適用なし

本発明は、一般にオーディオ信号処理に関し、より詳細には、オーディオストリーム及び録音を、これらのダイナミックレンジを回復又は強調することによって強化することに関する。

「音は大きいほど良い」という格言に従い、レコード業界では、より高いラウドネスレベルでレコーディングしたものをマスタリングしてリリースすることが常套手段になってきた。ＣＤなどのデジタルメディアフォーマットの出現により、音楽は、符号化信号を表すために使用できるビット数により定義される最大ピークレベルで符号化されるようになった。ＣＤの最大振幅に達すると、マルチバンドダイナミックレンジ圧縮、ピーク制限及びイコライゼーションなどの信号処理技術を通じてラウドネス知覚をさらに高めることができる。音響技師達は、このようなデジタルマスターツールを使用して、（ドラムの打音のような）一時的ピークを圧縮し、結果として得られる信号の利得を増加させることにより、平均信号レベルを最大化することができる。ダイナミックレンジ圧縮を極端に使用すると、録音波形にクリッピング及びその他の可聴歪が生じる恐れがある。従って、このような極端なダイナミックレンジ圧縮を使用する現代のアルバムでは、ラウドネスのために音楽再生の質が犠牲になっている。音楽リリースのラウドネスを高めて競合リリースに対抗することにより、２つの効果がもたらされる。（再生スピーカ及び増幅器によってラウドネスが制限される再生とは対照的に）最大ラウドネスレベルを録音に利用できるので、楽曲又はトラックの全体的なラウドネスを高めると、最終的に最初から最後まで最大かつ一様に音の大きな作品が生み出される。これにより、ダイナミックレンジの狭い（すなわち、音の大きな部分と静かな部分の差がほとんどない）音楽が生み出され、このような効果は、疲れを感じさせるとともにアーティストの独創的表現に欠けたものと見なされることが多い。

もう一方の考えられる効果は歪みである。デジタル領域では、通常、これをクリッピングという。デジタル媒体は、デジタルフルスケールよりも高い信号を出力できないので、信号のピークがこのポイントを過ぎたときには、いつでも波形にクリッピングが発生する。クリッピングが発生すると、可聴クリック音が生じることがある。しかしながら、ドラムの打音のようないくつかの音は、ピークに達している時間が非常に短く、このピークの方が他の信号よりもはるかに大きな場合には、このクリック音は聞こえない。多くの場合、ドラムの打音のピークにはクリッピングが発生するが、何気なく聴いている聴取者はこれに気付かない。

図１ａ及び図１ｂは、有害なマスタリング技術の視覚表現である。図１ａ及び図１ｂに示す録音波形は、最初にマスタリングしたトラックと、同じトラックを異なる技術を使用してマスタリングしたバージョンを表す。図１ａは、元々のレコーディングを表し、数多くのピークが存在することで、元々の演奏内に存在する動特性の種類を表す高ダイナミックレンジが示されている。このレコーディングでは、ドラムの打音などの特定の打楽器の響きが力強くクリアに聞こえるので、活気に満ちた聴取体験が得られる。対照的に、図１ｂに示すレコーディングは、より大きな音の商用ＣＤリリースのためにリマスターしたものである。元々のレコーディング内に存在するピークの大半は圧縮され、さらにはクリッピングが発生し、結果的にレコーディングのダイナミックレンジが損なわれてしまっている。このように、商用音楽のマスタリング段階においてますます積極的にダイナミックレンジ圧縮を使用することにより、消費者、プロデューサー及びアーティストから多くの反発が起きている。

オーディオ業界で議論されているこの問題に対処する方法は、事の根本にあるマスタリング技術を取り上げることに焦点を置いている。１つのこのような例が、ＢｏｂＫａｔｚ著、オーディオのマスタリング（ＭａｓｔｅｒｉｎｇＡｕｄｉｏ）、第２版、ＴｈｅＡｒｔａｎｄｔｈｅＳｃｉｅｎｃｅに記載されている。Ｋａｔｚは、処理信号のモニタリングを較正したものを使用し、より控えめな圧縮パラメータを使用して、最終結果を歪めないラウドネスのためにいかにしてレコーディングをマスタリングできるかについて説明している。ほとんどのマスタリング技術者はＫａｔｚの方法に賛同するであろうが、多くの場合、この方法よりもスタジオ管理の要求が優先する。たとえ、より控えめなマスタリング技術が新たな基準になったとしても、既にマスタリングされてエンドユーザに販売された多くの既存のレコーディングの問題が解決されるわけではない。

当技術では、録音の動特性を修正するための既存の処理技術が知られている。１つのこのような処理に、異なる程度のダイナミックレンジ圧縮を受けた音響材料間の知覚されるラウドネスの違いをある所定のレベルに正規化するラウドネスレベリングがある。しかしながら、これらの方法は、様々なソースから再生される連続トラックの平均ラウドネスを正規化するために使用されるものであり、過度にダイナミックレンジを圧縮したコンテンツのダイナミックレンジを回復しようとするものではない。この結果、より低い所定の聴取レベルで圧縮媒体を再生した場合、余計に動的表現を欠いているように聞こえることがある。

別の公知の技術は、Ｂｅｎｃｈに付与された動的エキスパンダ（ＤｙｎａｍｉｃＥｘｐａｎｄｅｒ）という名称の米国特許第３，９７８，４２３号に記載されるようなアップワードエキスパンダを適用することである。アップワードエキスパンダは、規定の「膨張曲線」に従ってオーディオ信号に時変利得を適用し、出力信号レベルが、選択された閾値よりも高い入力レベルを上回るようにするものである。この結果、音源信号のより大きな音の部分の振幅が増加する。しかしながら、この結果、元々の動的サウンドトラックの出力信号の過渡が強調され過ぎることがある。

別の公知の技術には、過渡を検出した場合に低周波数帯域と高周波数帯域を押し上げる動的スペクトルイコライゼーションがある。この結果、より動的な出力が得られるようになる。動的スペクトルイコライゼーションについては、ＸＲｏｄｅｔ、ＦＪａｉｌｌｅｔ著、高速立ち上がり過渡時間の検出及びモデル化（ＤｅｔｅｃｔｉｏｎａｎｄＭｏｄｅｌｉｎｇｏｆＦａｓｔＡｔｔａｃｋＴｒａｎｓｉｅｎｔｓ）（２００１年）、国際コンピュータ音楽会議議事録、Ｇｏｏｄｗｉｎ他に付与された、オーディオ信号における過渡検出及び修正（ＴｒａｎｓｉｅｎｔＤｅｔｅｃｔｉｏｎａｎｄＭｏｄｉｆｉｃａｔｉｏｎｉｎＡｕｄｉｏＳｉｇｎａｌｓ）という名称の米国特許第７，３５３，１６９号、及びＡｖｅｎｄａｎｏ他に付与された、オーディオ信号の強化方法（ＭｅｔｈｏｄｆｏｒＥｎｈａｎｃｉｎｇＡｕｄｉｏＳｉｇｎａｌｓ）という名称の米国特許出願第１１／７４４，４６５号に記載されている。それまでの方法とは異なり、これらの動的強化技術は、信号の過渡にのみ影響を与えるものである。しかしながら、この技術は、全ての信号の過渡、既に高い動特性を示している部分にまで影響を与える。一般に、動的スペクトルイコライゼーションは、必要であるかどうかに関わらず全てのオーディオ信号コンテンツに処理を適用する。この結果、オーディオコンテンツの種類によっては、出力が過度に動的処理されることがある。

Ｈｉｌｐｅｒｔ他に付与された米国特許第６，４５３，２８２号には、離散時間音響領域における過渡検出方法が概説されている。このような時間領域法は、信号を全体として見たときに過渡が分かりにくくなることに起因して、ダイナミックレンジがエネルギーの変化として大きく圧縮された材料を解析する場合の信頼度が低い。これにより過渡信号が誤判別され、結果として偽陽性が生じる。

米国特許第３，９７８，４２３号明細書米国特許第７，３５３，１６９号明細書米国特許出願第１１／７４４，４６５号明細書米国特許第６，４５３，２８２号明細書

ＢｏｂＫａｔｚ著、オーディオのマスタリング（ＭａｓｔｅｒｉｎｇＡｕｄｉｏ）、第２版、ＴｈｅＡｒｔａｎｄｔｈｅＳｃｉｅｎｃｅＸＲｏｄｅｔ、ＦＪａｉｌｌｅｔ著、高速立ち上がり時間の検出及びモデル化（ＤｅｔｅｃｔｉｏｎａｎｄＭｏｄｅｌｉｎｇｏｆＦａｓｔＡｔｔａｃｋＴｒａｎｓｉｅｎｔｓ）（２００１年）、国際コンピュータ音楽会議議事録Ｊ．Ｊｏｈｎｓｔｏｎ著、「知覚ノイズ基準を使用したオーディオ信号の変換符号化（Ｔｒａｎｓｆｏｒｍｃｏｄｉｎｇｏｆａｕｄｉｏｓｉｇｎａｌｓｕｓｉｎｇｐｅｒｃｅｐｔｕａｌｎｏｉｓｅｃｒｉｔｅｒｉａ）」、ＩＥＥＥＪｏｕｒｎａｌｏｎＳｅｌｅｃｔｅｄＡｒｅａｓｉｎＣｏｍｍｕｎｉｃａｔｉｏｎｓ、第６巻、第２号、３１４〜３２３頁、１９９８年２月

録音の実施を改善することに対する関心が高まり続けていることを考慮すれば、当技術では、改善されたオーディオ処理が必要とされている。

本発明では、オーディオ信号を調整する方法及び装置を提供する。本発明は、特に有害なマスタリング技術を受けたオーディオ信号に対し、オーディオ信号のダイナミックレンジに強制的な強化を行う。

本発明の１つの態様によれば、オーディオ信号の調整方法が含められ、この方法は、一連の時間にわたる複数のフレームに各々がセグメント化された少なくとも１つのチャネルを各々が有する少なくとも１つのオーディオ信号を受け取るステップと、複数の連続する時間セグメントについてオーディオ信号の動的偏位の少なくとも１つの量を計算するステップと、オーディオ信号を、少なくとも１つが個々のフレームを表す複数のサブバンドにフィルタ処理するステップと、連続する時間セグメントから動的利得係数を導出するステップと、フレームの少なくとも１つのサブバンドを解析してフレーム内に過渡が存在するかどうかを判断するステップと、過渡を有する各フレームに動的利得係数を適用するステップとを含む。

動的偏位の量は、時間セグメントの波高率によって表すことができる。フレーム内のオーディオ信号の平均的な信号の大きさの関数に対するピーク信号の大きさの関数の比率をとることにより、個々の連続する時間セグメントの波高率を計算することができる。この方法は、少なくとも１つのサブバンドのサブバンド相対エネルギー関数を計算するステップをさらに含むことができる。

フレーム又はこのフレームの一部の各サブバンド内のサブバンド過渡エネルギーを相対エネルギー閾値と比較し、この相対エネルギー閾値を超えるサブバンドの数を合計することにより、各フレームの全体的なサブバンド過渡エネルギーを計算することができる。過渡は、相対エネルギー閾値を超えるサブバンドの数が解析中の全サブバンドの所定の比率を上回るフレーム内に存在することができる。例えば、過渡は、相対エネルギー閾値を超えるサブバンドの数が解析中の全サブバンドの１／４を上回るフレーム内に存在することができる。

この方法は、解析中のサブバンドの総数に対する閾値を超えるサブバンドの数に基づいて動的利得重み係数を計算することにより継続する。動的利得係数は、この重み係数に従ってフレームごとに重み付けされる。あるフレームについて過渡が検出されなかった場合、指数減衰曲線を使用して、このフレームの以前の動的利得を１の値に低減することができる。最終的な動的利得を入力信号に適用する前に、入力信号内に存在する強い音調の可聴変調を避けるために、音調様の音声の有無をチェックすることができる。あるサブバンド内で強い音調が検出された場合、そのフレーム周期のそのサブバンドには追加の利得が適用されず、そのサブバンドの動的利得は、前のフレームの動的利得値に基づいて減衰し続ける。

本発明の別の態様によれば、オーディオ信号処理装置が提供される。このオーディオ信号処理装置は、一連の時間にわたる複数のフレームに各々がセグメント化された少なくとも１つのチャネルを各々が有する少なくとも１つのオーディオ信号を受け取るための受信要素と、複数の連続する時間セグメントについてオーディオ信号の動的偏位の少なくとも１つの量を計算するための計算要素と、オーディオ信号を、少なくとも１つが個々のフレームを表す複数のサブバンドにフィルタ処理するためのフィルタ処理要素と、動的偏位の量から動的利得を導出し、フレームの少なくとも１つのサブバンドを解析してフレーム内に過渡が存在するかどうかを判断し、過渡を有する各フレームに動的利得を適用するための導出要素とを備える。

以下の説明、及び全体を通じて同じ数字が同じ部分を示す図面を参照すれば、本明細書で開示する様々な実施形態のこれらの及びその他の特徴及び利点がより良く理解されるであろう。

原録音波形の斜視図である。ダイナミックレンジが過度に圧縮されたリマスターした録音波形の斜視図である。本発明の実施形態による、マルチチャネルスピーカ又はヘッドホンを通じた再生に適応的動的強化を使用する聴取環境の概略図である。本発明の実施形態による、適応性動特性強化プロセッサよりも前の任意のラウドネスレベリング処理ブロックを示すフローチャートである。本発明の１つの実施形態による、適応的動的強化処理中に行われる、過渡を検出し、これに応じて利得を適用するためのステップを示すフローチャートである。本発明の１つの実施形態による、適応的動的強化処理中に行われる、過渡を検出し、既知の閾値に照らして過渡を評価し、これに応じて適応的ＥＱ曲線を適用するためのステップを示すフローチャートである。

添付図面に関連して以下に記載する詳細な説明は、現在のところ好ましい本発明の実施形態の説明として意図するものであり、本発明を構築又は利用できる唯一の形態を表すことを意図するものではない。この説明では、本発明を展開して動作させるための機能及びステップのシーケンスを、例示の実施形態との関連で記載する。しかしながら、異なる実施形態によって同じ又は同等の機能及びシーケンスを実現することもでき、これらの実施形態も本発明の思想及び範囲に含まれることが意図されていると理解されたい。第１の、及び第２のなどの関係語の使用については、このようなエンティティ間の実際のこのような関係又は順序を必ずしも必要とせずに又は暗示せずにエンティティ同士を区別するために使用しているにすぎないことをさらに理解されたい。

本発明の目的は、ダイナミックレンジ圧縮アルゴリズムの積極的な適用を使用して可能な限り音が大きくなるように録音をマスタリングする有害なレコーディング技術に対処することである。これらのレコーディング信号内の過渡の動的偏位は、あるべき姿よりも非常に低い。この結果、適度なレベルで聴いたときの再生が、弱く、鈍く、又は活気が無いように知覚される。

本発明では、録音の動特性を解析して、有害なマスタリングを行った証拠を示す過渡を強化する。本発明は、音源の録音信号のラウドネス及び動特性の解析によって促進されるスマートな／適応的処理を使用して設計される。必要でなければ、原録音信号の動特性の修正は行わない。しかしながら、いずれかのレコーディングの動特性をより切れのある又は「より力強い」音に向けて誇張できるように、或いはよりわずかな強化に向けて低減できるように、追加の動特性処理のデフォルト量をユーザが調整することもできる。本発明を使用して、いずれかの媒体ソースから導出した、及びいずれかの聴取環境におけるいずれかの音楽、映画又はゲームのサウンドトラックの過渡の動特性を強化することができる。

ここで図２を参照すると、複数の実施形態の実施構成を示す概略図を示している。図２は、動的に強化された録音を、スピーカ又はヘッドホンを通じて再生するためのオーディオ聴取環境を示す図である。このオーディオ聴取環境は、ＤＶＤ又はＢＤプレーヤ、ＴＶチューナ、ＣＤプレーヤ、ハンドヘルドプレーヤ、インターネットオーディオ／ビデオ装置、ゲーム機などの少なくとも１つの家電装置１０を含む。家電装置１０は、あらゆる有害なマスタリング技術を補償するように動的に強化された音源録音を実現する。

この実施形態では、家電装置１０が、オーディオ再生システム１２に接続される。オーディオ再生システム１２は、録音を動的に強化する適応的動的強化処理（ＡＤＥ）を通じて録音を処理する。別の実施形態では、独立型家電装置１０が、ＡＤＥ処理を通じて録音を強化することができる。

オーディオ再生システムユニット１２は、ＩＢＭＰｏｗｅｒＰＣ、ＩｎｔｅｌＰｅｎｔｉｕｍ（×８６）プロセッサなどの１又はそれ以上の従来の種類のこのようなプロセッサを表すことができる中央処理装置（ＣＰＵ）を含む。このＣＰＵが行ったデータ処理動作の結果は、ランダムアクセスメモリ（ＲＡＭ）に一時的に記憶され、このＲＡＭは、通常は専用メモリチャネルを介してＣＰＵに相互接続される。オーディオ再生システム１２は、ｉ／ｏバスを介してやはりＣＰＵと通信するハードドライブなどの永久記憶装置を含むこともできる。テープドライブ、光学ディスクドライブなどの他の種類の記憶装置を接続することもできる。ＣＰＵにはビデオバスを介してグラフィックカードも接続され、このグラフィックカードは、表示データを表す信号をディスプレイモニタへ送信する。オーディオ再生システムには、ＵＳＢポートを介してキーボード又はマウスなどの外部周辺データ入力装置を接続することができる。このＵＳＢポートに接続された外部周辺機器のために、ＵＳＢコントローラが、ＣＰＵへの又はＣＰＵからのデータ及び命令を翻訳する。オーディオ再生システム１２には、プリンタ、マイク、スピーカなどの追加装置を接続することもできる。

オーディオ再生システム１２は、ワシントン州レドモンドのＭｉｃｒｏｓｏｆｔ社製のＷＩＮＤＯＷＳ、カリフォルニア州クパチーノのＡｐｐｌｅ社製ＭａｃＯＳ、Ｘ−Ｗｉｎｄｏｗｓウィンドウシステムを含む様々なバージョンのＵＮＩＸなどの、グラフィカルユーザインターフェイス（ＧＵＩ）を有するオペレーティングシステムを利用することができる。オーディオ再生システム１２は、１又はそれ以上のコンピュータプログラムを実行する。一般に、オペレーティングシステム及びコンピュータプログラムは、ハードドライブを含む固定式及び／又は着脱式データ記憶装置の１又はそれ以上などのコンピュータ可読媒体内で有形的に具体化される。これらのオペレーティングシステム及びコンピュータプログラムは、いずれもＣＰＵによる実行のために上述のデータ記憶装置からＲＡＭにロードすることができる。コンピュータプログラムは、これをＣＰＵが読み込んで実行したときに、本発明のステップ又は機能を実行するためのステップをＣＰＵに実行させる命令を含むことができる。

上述したオーディオ再生システム１２は、本発明の態様を実現するのに適した１つの例示的な装置を表すものにすぎない。オーディオ再生システム１２は、多くの異なる構成及びアーキテクチャを有することができる。あらゆるこのような構成又はアーキテクチャは、本発明の範囲から逸脱することなく容易に置き換えることができる。当業者であれば、コンピュータ可読媒体では上述のシーケンスが最も一般的に利用されているが、本発明の範囲から逸脱することなく代用できる他の既存のシーケンスも存在することを認識するであろう。

ＡＤＥ処理の１つの実施形態の要素は、ハードウェア、ファームウェア、ソフトウェア、又はこれらのあらゆる組み合わせによって実現することができる。ハードウェアとして実現する場合、ＡＤＥ処理を１つのオーディオ信号プロセッサ上で使用しても、或いは様々な処理要素に分配してもよい。ソフトウェア内で実現する場合、基本的に、本発明の実施形態の要素は、必要なタスクを行うためのコードセグメントとなる。ソフトウェアは、本発明の１つの実施形態で説明する動作を実行するための実際のコード、又は動作をエミュレート又はシミュレートするコードを含むことが好ましい。これらのプログラム又はコードセグメントを、プロセッサアクセス可能媒体又は機械アクセス可能媒体に記憶し、或いは搬送波内で具体化されるコンピュータデータ信号又は搬送体により変調された信号によって、伝送媒体を介して送信することができる。この「プロセッサ可読又はアクセス可能媒体」又は「機械可読又はアクセス可能媒体」は、情報を記憶、送信、又は転送できるあらゆる媒体を含むことができる。プロセッサ可読媒体の例には、電子回路、半導体メモリ素子、読み取り専用メモリ（ＲＯＭ）、フラッシュメモリ、消去可能ＲＯＭ、フロッピディスケット、コンパクトディスク（ＣＤ）ＲＯＭ、光ディスク、ハードディスク、光ファイバメディア、高周波（ＲＦ）リンクなどがある。コンピュータデータ信号としては、電子ネットワークチャネル、光ファイバ、無線リンク、電磁リンク、ＲＦリンクなどの伝送媒体を介して伝搬できるあらゆる信号を挙げることができる。コードセグメントは、インターネット、イントラネットなどのコンピュータネットワークを介してダウンロードすることができる。機械アクセス可能媒体は、製造の物品内で具体化することができる。機械アクセス可能媒体は、機械によってアクセスされたときに、以下で説明する動作を機械に実行させるデータを含むことができる。ここでは、「データ」という用語は、機械が読み取りできるように符号化されたあらゆる種類の情報を意味する。従って、このデータは、プログラム、コード、データ、ファイルなどを含むことができる。

本発明の実施形態の全部又は一部を、ソフトウェアによって実施することもできる。ソフトウェアは、互いに結合されたいくつかのモジュールを有することができる。１つのソフトウェアモジュールは、別のモジュールに結合されて、変数、パラメータ、引数、ポインタなどを受け取り、及び／又は結果、更新した変数、ポインタなどを生成し又は受け渡す。ソフトウェアモジュールは、プラットフォーム上で実行されるオペレーティングシステムと相互作用するためのソフトウェアドライバ又はインターフェイスであってもよい。ソフトウェアモジュールは、データを構成し、設定し、初期化し、ハードウェア装置との間で送受信するためのハードウェアドライバであってもよい。

本発明の１つの実施形態は、通常はフローチャート、フロー図、構造図又はブロック図として示されるプロセスとして説明することができる。ブロック図には、動作を逐次プロセスとして記載することがあるが、これらの動作の多くは、平行して又は同時に行うことができる。また、動作の順序を並べ直すこともできる。プロセスは、動作が完了したときに終了する。プロセスは、方法、プログラム、手順などに対応することができる。図２は、ヘッドホン１４又はスピーカ１６を介して再生を行うためのオーディオ再生システム１２を示す概略図である。オーディオ再生システム１２は、様々なオーディオ又はオーディオ／ビデオソース１０からデジタル又はアナログ音源信号を受け取ることができる。音源信号は、モノラル信号、（音楽トラック又はＴＶ放送などの）２チャネル信号、又は（映画のサウンドトラックなどの）マルチチャネル信号とすることができる。オーディオ信号は、現実世界の音又は人工的に作られた音などの、あらゆる知覚される又は知覚されない音とすることができる。

オーディオ再生システム１２は、アナログ音源又はデジタル音声入力インターフェイスを接続するためのアナログ／デジタル変換器を含むことができる。オーディオ再生システム１２は、オーディオ信号を処理するためのデジタル信号プロセッサと、処理済み出力信号を変換器（ヘッドホン１４又はスピーカ１６）へ送られる電気信号に変換するためのデジタル／アナログ変換器及び信号増幅器とを含むこともできる。オーディオ再生システム１２は、オーディオ及び／又はビデオ信号の選択、処理及びルーティングを専門的に行うホームシアタ受信機又は自動車オーディオシステムであってもよい。或いは、オーディオ再生システム１２及びオーディオ信号ソースの１又はいくつかを、ポータブルメディアプレーヤ、テレビ、ラップトップコンピュータなどの家電装置１０にまとめて組み込むことができる。テレビ又はラップトップコンピュータと同じように、スピーカ１６を同じ機器に組み込むこともできる。

図３は、ＡＤＥ処理環境を示す高レベルフローチャートである。このフローチャートは、ステップ３００において入力信号を受け取ることにより開始する。この入力信号は、デジタルオーディオ信号である。本実施形態では、ステップ３１０において、この入力信号をラウドネスレベリングアルゴリズムによって処理し、これにより着信入力信号の利得が、時間とともに実質的に一定の平均ラウドネスレベル（例えば、０ｄＢのフルスケールに対して−２０ｄＢ）を有するようにする。ラウドネスレベルアルゴリズムは任意の特徴であり、ＡＤＥ処理を実行するために必須ではない。その後、３２０において、上流利得正規化アルゴリズムが存在する場合、ＡＤＥ処理は、信号波形のクリッピングによって生じる可能性のある可聴アーチファクトを引き起こすことなく着信信号の利得を拡大するために必要とされる基準利得レベルを、利用可能な無歪限界に織り込むことができる。この通信を破線矢印によって示す。ＡＤＥの無歪限界要件では、入力主利得及び入力信号コンテンツの利得を織り込むこともできる。適用する動特性強化の量は、動特性強化レベルによって記述されるユーザパラメータを使用してスケール調整することができる。出力リミッタを使用して、必要な動的ＥＱを入力信号に適用した結果として出力飽和が起きないことを確実にする。

ここで図４を参照すると、ＡＤＥ処理の１つの実施形態を示すフロー図を示している。ＡＤＥ処理は、ステップ４００において、録音を表す入力信号を受け取ることにより開始する。この入力信号は、少なくとも１つのチャネルのデジタルオーディオ信号である。この入力信号は、電子信号に変換され、アナログ／デジタル変換によりデジタル形式に変換されて適切に前処理された有形の物理的現象、すなわち音を表す。通常は、当技術で公知のように、下流のエイリアシング、飽和、又はその他の信号処理エラーを最小限に抑えるために、アナログフィルタ処理、デジタルフィルタ処理、及びその他の前処理が適用される。オーディオ信号は、ＰＣＭ符号化などの従来の線形法によって表すことができる。ステップ４１０において、好適に一連の相補的直交ミラーフィルタとすることができるマルチタップマルチバンド解析フィルタバンクにより、入力信号をフィルタ処理する。或いは、多相フィルタバンクなどの疑似直交ミラーフィルタ（ＰＱＭＦ）を使用することもできる。このフィルタバンクは、複数のサブバンド信号出力を生成する。本実施形態では、このようなサブバンド出力のうちの６４個を使用する。しかしながら、当業者であれば、入力信号をあらゆる数のサブバンドにフィルタ処理できることを容易に認識するであろう。フィルタ処理機能の一部として、フィルタバンクは、各サブバンド内のサブバンド信号を決定的に減らすこと、すなわち各サブバンド信号を、各サブバンド内の信号を完全に表すのにちょうど十分な、より少ない数のサンプル／秒に減らす（「臨界サンプリング」）ことが好ましい。このサブバンドサンプリングは、ヒトの聴覚の生理を模倣することもできる。

フィルタ処理後、ステップ４２０において、過渡検出のためにサブバンドを解析する。周波数によっては、過渡を有している可能性が低いものもあることが分かっているので、過渡のために全てのサブバンドを解析するわけではないことが想定される。本実施形態では、周波数帯域全体にわたるエネルギーの加重和を計算する過渡検出アルゴリズムを使用して過渡を検出する。通常、信号のエネルギーは、より低い周波数で優位になるので、追加の重み付けを使用して、過渡がより顕著な信号のエネルギーを強化する。これにより、過渡の識別中の「偽陽性」の可能性が減少する。

式中、ＴＥ_HF（ｍ，ｃ）は、瞬間的な高周波重み付けした過渡エネルギーであり、ｋは周波数帯域指数であり、ｍは解析フレーム指数であり、ｃはチャネル指数を表し、ｗ（ｋ）は、ｋ番目の周波数重み付けフィルタ係数に相当し、｜Ｇ（ｋ，ｍ，ｃ）｜は、ｃ番目のチャネルのｍ番目の解析フレームのｋ番目の帯域の絶対利得を表す。当業者であれば、本発明によって様々な過渡検出アルゴリズムを適用することができ、上記の例は一例として示すものであり、本発明の範囲を限定するものと解釈すべきではないことを理解するであろう。

瞬間的な過渡エネルギー関数を、以前の過渡エネルギーの時間平均と比較する。この比較により、起こり得る過渡イベントが示され、この場合、瞬間的な過渡エネルギーは平均過渡エネルギーよりもはるかに大きいはずである。平均過渡エネルギーＴＥ_avは、各周波数帯域内で漏れのある積分器フィルタを適用することにより計算することができる。
ＴＥ_av（ｍ，ｃ）＝（１−α_TE）ＴＥ_av（ｍ−１，ｃ）＋α_TEＴＥ_HF（ｍ，ｃ）（２）
式中、α_TEは、過渡エネルギーの減衰係数に相当し、ｍはフレーム指数を表し、ｃはチャネル指数を表す。

過渡の開始は、

の場合に誘発され、式中、Ｇ_TRANSは、ある所定の過渡閾値に相当する。通常は、Ｇ_TRANSの値が２〜３の場合に良好な結果が得られるが、音源材料によっては閾値を変更することもできる。その後、ステップ４４０において、６４個の解析帯域の各々における以前の信号レベルの時間平均に対するピーク信号レベルの比率をとることにより、マルチバンド波高率値ＣＦ（ｋ，ｍ，ｃ）を計算する。

ピーク信号レベル及び平均信号レベルは、いずれも異なるアタックタイム定数及びリリースタイム定数を有する漏れのある積分器を使用して導出される。平均信号レベルを計算する別の方法は、システムメモリに記憶された過去の周波数サブバンドのいくつかの「フレーム」にわたって平均化を行うステップを含む。この実施形態におけるピーク及び平均利得の計算には、漏れのある積分器フィルタを使用する。
Ｇ（ｋ，ｍ，ｃ）＞Ｇ_peak（ｋ，ｍ−１，ｃ）の場合、
Ｇ_peak（ｋ，ｍ，ｃ）＝（１−α_{peak_att}）Ｇ_peak（ｋ，ｍ−１，ｃ）＋α_{peak_att}Ｇ（ｋ，ｍ，ｃ）（４）
Ｇ（ｋ，ｍ，ｃ）≦Ｇ_peak（ｋ，ｍ−１，ｃ）の場合、
Ｇ_peak（ｋ，ｍ，ｃ）＝（１−α_{peak_rel}）Ｇ_peak（ｋ，ｍ−１，ｃ）＋α_{peak_rel}（ｋ，ｍ，ｃ）（５）
Ｇ_av（ｋ，ｍ，ｃ）＝（１−α_av）Ｇ_av（ｋ，ｍ−１，ｃ）＋α_avＧ（ｋ，ｍ，ｃ）（６）

導出される波高率は、利得の比率に基づく。この結果、導出される波高率は、入力信号のレベルとは無関係である。従って、システムの主利得又は元々のレコーディングのレコーディングレベルに関わらず、結果は同じになる。方程式（３）を見ると、パーカッションの打音などの特徴的な過渡は、より安定した状態又は音調様信号よりも高い波高率値を有するはずである。ある信号が、逆の波高率値を示す過渡の開始を含む場合、この信号は、レコーディング後のダイナミックレンジ圧縮、又はその周波数帯域における制限を強く示すものである。この場合、元々の信号は、予想波高率値を生じるために短時間の利得上昇から恩恵を得る可能性があり、この場合の短時間とは、検出された過渡の開始及び減衰時間に類似する開始及び減衰時間を意味する。

この結果、ＡＤＥ処理では、過渡の開始が検出されたときにはいつでも波高率を評価する。ステップ４６０において、波高率を評価し、これが（アルゴリズムの調整及び／又はユーザの好みを組み合わせたものを通じて決定される）目標波高率閾値よりも低い場合、そのサブバンド内の利得を高めて所望の波高率値が達成されるようにする。この利得は、所定の又は動的に評価された無歪限界量内にとどまるように制限することができる。

式中、Ｇ_eq（ｋ，ｍ，ｃ）は、適用する利得関数を表し、Ｇ_{eq_max}は、最大許容利得（通常は、割り当てられるアルゴリズムの無歪限界に相当する）を表し、α_attackは、急速な利得変動により生じたアーチファクトが発見された場合に、１に近い何らかの値に調整できる利得アタック減衰関数である。この減衰関数の値は、異なる周波数範囲に関して異なる速度で利得ランピングが生じるようにするために、周波数に依存することができる。ＣＦ_Targetは目標波高率値を表し、ＣＦ（ｋ，ｍ，ｃ）は、周波数ｋ及びフレームｍ及びチャネルｃにおいて測定された波高率値を表す。

過渡の開始が検出されなかった場合、或いは波高率が目標波高率値以上となる場合、典型的な過渡ヒットの動特性を模倣するエンベロープを使用して、適用する動的ＥＱ利得を１の値へ向けて後退させる。利得低減の速度には、高い周波数利得の方が低い周波数利得よりも速く低減するように重み付けする。
Ｇ_eq（ｋ，ｍ，ｃ）＝ｍａｘ（１、α_decay（ｋ，ｍ）Ｇ_eq（ｋ，ｍ−１，ｃ））（８）
式中、α_decay（ｋ，ｍ）は、周波数に依存する減衰の減衰係数を表す。この実施形態では、α_decay（ｋ，ｍ）が、周波数全体において境界を１及び０とする高い値から低い値へ指数関数的に減少する６４点関数によって表される。

ステップ４８０において、「動特性強化レベル」（ＤＥＬ）によって表されるユーザパラメータにより、目標波高率を０．０〜１．０の値だけスケール調整する。ＤＥＬ値が０．０の場合、波高率閾値が常に達成され、従って原信号に強化が行われないことを意味する。ＤＥＬ値が０．５の場合、これはデフォルトの解析閾値を表し、「妥当な」波高率予想を表す。この値では、圧縮された信号が強化される一方で、十分な動特性を有する信号は、動特性強化をほとんど又は全く受けない。ＤＥＬ値が１．０の場合、これは「妥当な」波高率予想を上回ることを表し、必要であるかどうかに関わらず大部分の過渡の動特性が強化されるようになる。

出力は、サブバンドの入力信号成分に強化利得から導出される時変ＥＱ曲線を乗算することにより導出される。アーチファクトを避けるために、これらの利得を周波数全体にわたって平滑化する。元々の複雑な入力信号データにＥＱ曲線を適用し、その後、結果として得られる複雑な帯域係数を再結合し、６４帯域の合成バンク又は同等の周波数−時間領域フィルタを使用して時間領域出力サンプルブロックに変換する。最後に、合成フィルタ帯域の時間領域出力をソフトリミッタ（又は同等物）に通して、利用可能な無歪限界を越える信号レベルの増加によって生じたと考えられる時折発生するレベルのオーバーシュートを全て解消する。

この入力／出力プロセスを解析フレームごとに繰り返す。ＥＱ曲線の利得は、各フレームの解析により動的に変化する。上述の実施形態では、周波数領域において乗算を行った後に出力合成によって入力合成ブロックを補完することにより、導出した利得曲線を原信号に適用した。他の実施形態では、解析及び合成方法が異なる場合がある。例えば、上述したように、周波数領域において解析を行い、所望の利得曲線が計算されたら、ＦＩＲ及び／又はＩＩＲフィルタを使用して、この所望の周波数応答を表すフィルタを時間領域で実施することができる。時間領域フィルタの係数は、各入力データフレームの解析によって変化する。或いは、時間領域において、その全体の波高率及び過渡の開始の検出を解析することもできる。

上述した解析及び合成では、均一に離間した周波数帯域を使用する。ヒトの聴力の心理音響学により良く一致する対数的に離れた帯域にわたって解析を行うことが好ましい。

ここで図５を参照すると、ＡＤＥ処理の好ましい実施形態を示すフローチャートを示している。このフローチャートは、ステップ５００において、６４帯域のオーバーサンプリングした多相解析フィルタバンクを使用して、入力信号を複雑な周波数領域表現に変換することにより開始する。他の種類のフィルタバンクを使用することもできる。異なる数のフィルタバンクを使用することもできる。ここで説明する実施構成では、解析フィルタバンクが、６４個の時間領域入力サンプルのブロックごとに６４個の周波数領域サンプルのブロックを抽出してサブバンドオーディオ信号を形成する。

ステップ５１０において、入力信号内に存在する動特性の量を評価するために、周波数に依存しないフレーム当たりの波高率をチャネルごとに導出する。

入力データのｃ番目のチャネルのｍ番目のフレームのｋ個の周波数帯域の大きさの合計をＨ_sum（ｍ，ｃ）と定義した場合、

となる。

Ｈ_sum（ｍ，ｃ）＞Ｈ_{sum_pk}（ｍ−１，ｃ）の場合、ピーク合計関数は、
Ｈ_{sum_pk}（ｍ，ｃ）＝Ｈ_sum（ｍ，ｃ））
と定義され、そうでない場合、
Ｈ_{sum_pk}（ｍ）＝（１−α_{pk_rel}）Ｈ_{sum_pk}（ｍ−１）＋α_{pk_rel}Ｈ_sum（ｍ）と定義される。

平均合計関数は、漏れのある積分器関数により定義される。
Ｈ_{sum_av}（ｍ，ｃ）＝（１−α_avg）Ｈ_{sum_av}（ｍ−１，ｃ）＋α_avgＨ_sum（ｍ，ｃ）
式中、α_{pk_rel}はピークリリース係数を表し、α_avgは平均平滑化係数を表す。

フレーム当たりの波高率は、平均的な信号の大きさに対するピーク信号の大きさの比率と定義される。

式中、ＣＦ（ｍ）は、入力データのｃ番目のチャネルのｍ番目のフレームの波高率を表す。波高率をエネルギー総和の観点で記述できることも想定される。

フレーム当たりの波高率は、入力信号内に存在するダイナミックレンジの量を示す。過渡が検出された場合、この波高率は、何らかの予想目標値以上になるはずである。過渡の存在下でフレーム当たりの波高率が低すぎる場合、入力信号フレームに短時間利得を適用して、測定された波高率を予想よりも高い値に増加させるが、この場合の短時間とは、検出された過渡の開始及び減衰時間に類似する開始及び減衰時間を意味する。

ステップ５２０において、所定の目標波高率ＣＦ_Tの比率をとることによってフレーム当たりの動的利得Ｇ_DYN（ｍ，ｃ）を導出し、測定された波高率ＣＦ（ｍ，ｃ）は、所望のレベルの動的偏位を達成するために必要な利得の量を表す。

ＣＦ_Tの値は、例えば１４ｄＢなどの、動的材料の妥当な波高率を表すと見なされる。この所定の目標波高率を、動的強化レベル（ＤＥＬ）というユーザ制御可能な利得によって修正し、これにより適用する強化の量に間接的に影響を与えることもできる。

測定された波高率よりも目標波高率の方が高い場合、Ｇ_DYN（ｍ，ｃ）は１未満となる。この利得値が認められた場合、最終的に入力内の過渡イベントのレベルが減少するようになる。しかしながら、本実施形態では、Ｇ_DYN（ｍ，ｃ）が１以上になるように制限される。

この段階では、Ｇ_DYN（ｍ，ｃ）を入力信号に適用することはしない。むしろ、他の２つの条件が満たされた場合にのみ適用する。
１．現在のフレームで過渡が検出された。又は、
２．利得を適用するサブバンドが、強い音調のコンテンツを有していない。

ステップ５４０において、現在のフレーム内の過渡を検出する。サブバンド信号を解析し、サブバンド当たりの相対エネルギー関数を計算する過渡検出アルゴリズムを使用して過渡を検出する。この関数の値は、サブバンド内でエネルギーの大幅な増加が検出されたときに急激に増加する。存在するサブバンドが多ければ、同時の増加が示唆され、所与のフレーム内で過渡が検出された可能性が高いことがさらに示される。相対エネルギー関数は、以下のように定義することができる。

式中、Ｅ_inst（ｋ，ｍ，ｃ）は、ｃ番目のチャネルのｍ番目のフレームのｋ番目のサブバンドにおいて測定されたエネルギーを表し、Ｅ_av（ｋ，ｍ，ｃ）は、ｃ番目のチャネルのｍ番目のフレームのｋ番目のサブバンドにおいて測定された平均エネルギーを表す。サブバンド当たりの平均化は、漏れのある積分器関数に基づく。
Ｅ_av（ｋ，ｍ，ｃ）＝（１−ε_av）Ｅ_av（ｋ，ｍ−１，ｃ）＋ε_avＥ_inst（ｋ，ｍ，ｃ）

サブバンド相対エネルギー関数ごとに、現在値を何らかの相対エネルギー閾値ＲＥ_TRESHと比較する。あるサブバンド内で、相対エネルギー関数閾値を上回った場合、過渡を示すエネルギーの増加があるものとしてこのサブバンドにタグ付けする。その後、相対エネルギー閾値を超えるサブバンドの数を合計することにより、全体的なフレーム当たりの過渡エネルギー関数を計算する。

ここで、ＴＥ（ｍ，ｃ）は、解析に使用したサブバンドの総数をＫとする０〜Ｋの間の整数値である。なお、Ｋは、フレーム内の総帯域数未満とすることができる。例えば、過渡の検出を大きなエネルギーが検出されたサブバンド帯域に集中させる方がより望ましいと考えられる。

相対エネルギー閾値を上回るサブバンドの割合が大きければ、過渡を表すエネルギーが広帯域で増加したことが示唆される。しかしながら、正確なサブバンドの数を肯定的な結果と相関付けて過渡を具体的に定義することは困難である。状況によっては、平均信号レベルが高すぎて、多くの帯域において相対エネルギー閾値が低いままとなる場合もある。このことを考慮するのに必要な肯定的な結果を有するサブバンドの数を減らすことはできるが、これにより「偽陽性」の過渡が検出される恐れがある。従って、フレーム当たりの過渡エネルギー関数は、過渡の可能性の推量を導出するための閾値である。さらに、ＲＥ_TRESHを上回るサブバンドの数に比例する一連の利得重み付け関数を計算する。例えば、
ＴＥ（ｍ，ｃ）＞Ｋ／２の場合、Ｗ_T（ｍ，ｃ）＝１
ＴＥ（ｍ，ｃ）＞Ｋ／３の場合、Ｗ_T（ｍ，ｃ）＝０．７５、
ＴＥ（ｍ，ｃ）＞Ｋ／４の場合、Ｗ_T（ｍ，ｃ）＝０．５となり、
式中、Ｋは解析中の総サブバンド数を表す。
そうでない場合、
Ｗ_T（ｍ，ｃ）＝０となる。

正のサブバンド閾値及び関連する重み付け利得には、他の値を使用することもできる。ステップ５５０において、どちらかの入力チャネル上のＷ_T（ｍ，ｃ）＞０となるいずれかの値が過渡の開始を表すと判断する。その後、重み係数によって動的利得を修正する。
Ｇ_{DYN_MOD}（ｍ，ｃ）＝ｍａｘ（１，Ｇ_DYN（ｍ，ｃ）＊Ｗ_T（ｍ，ｃ））

境界チェックを適用して、１未満の利得が適用されないことを確実にする。その後、この利得を現在のデータフレームの全てのサブバンドに適用することができる。しかしながら、著しい音調様成分を有するサブバンドでは、利得が急増すると可聴信号が変調される可能性があるので、このことが望ましくない場合もある。このシナリオを避けるために、強い音調の存在を求めて各サブバンドを解析する。音調様成分は、その性質から相対的に低いピーク対平均値比（すなわちサブバンド波高率）を有する。従って、いわゆる音調閾値未満であることが測定された波高率を有するサブバンドに適用されるさらなる利得は存在せず、これらのサブバンドは、これらの元々の減衰軌道に基づいて減衰し続ける。

ステップ５３０において、解析帯域の各々における時間平均利得に対するピーク利得レベルの比率をとることにより、サブバンド当たりの波高率値を計算する。

漏れのある積分器を使用して、ピークフィルタ及び平均フィルタの両方を実施する。
Ｇ_peak（ｋ，ｍ，ｃ）＞Ｇｐｅａｋ（ｋ，ｍ−１，ｃ）の場合、Ｇ_peak（ｋ，ｍ，ｃ）＝Ｇ（ｋ，ｍ，ｃ）となり、
式中、Ｇ（ｋ，ｍ，ｃ）は、ｃ番目のチャネルのｍ番目のフレームのｋ番目のサブバンドの大きさを表す。そうでない場合、
Ｇ_peak（ｋ，ｍ，ｃ）＝（１−β_{peak_rel}）Ｇ_peak（ｋ，ｍ−１，ｃ）＋β_{Gpeak_rel}（ｋ，ｍ，ｃ）
Ｇ_av（ｋ，ｍ，ｃ）＝（１−β_av）Ｇ_av（ｋ，ｍ−１，ｃ）＋β_avＧ（ｋ，ｍ，ｃ）となり、
式中、β_{peak_rel}は、サブバンド当たりのピークリリース関数を表し、β_avは、平均平滑化関数を表す。

過渡の開始が検出されたフレームでは、サブバンド当たりの波高率を所定の閾値γＴＯＮＥと比較し、これによりそのサブバンド内に音調様成分が存在するかどうかを判断する。サブバンド波高率がこの閾値未満である場合、音調様成分が検出されて、そのフレームのそのサブバンドには利得を適用しないと仮定する。Ｊ．Ｊｏｈｎｓｔｏｎ著、「知覚ノイズ基準を使用したオーディオ信号の変換符号化（Ｔｒａｎｓｆｏｒｍｃｏｄｉｎｇｏｆａｕｄｉｏｓｉｇｎａｌｓｕｓｉｎｇｐｅｒｃｅｐｔｕａｌｎｏｉｓｅｃｒｉｔｅｒｉａ）」、ＩＥＥＥＪｏｕｒｎａｌｏｎＳｅｌｅｃｔｅｄＡｒｅａｓｉｎＣｏｍｍｕｎｉｃａｔｉｏｎｓ、第６巻、第２号、３１４〜３２３頁、１９９８年２月、に記載されるような音調係数などの様々な音調尺度を使用することができる。ＥＱ_DYN（ｋ，ｍ，ｃ）として記述される最終的なサブバンド当たりの動的利得を、直ちに以下の値に更新する。
ＣＦ（ｋ，ｍ，ｃ）＞γ_TONEの場合、ＥＱ_DYN（ｋ，ｍ，ｃ）＝Ｇ_{DYN_MOD}（ｍ，ｃ）。

ステップ５６０において、過渡が検出されなかった場合、又はサブバンド内で音調様成分が検出された場合、関連するＥＱ_DYN（ｋ，ｍ，ｃ）のサブバンド値は、典型的な過渡減衰関数をモデル化した周波数に依存する指数曲線を使用して、１の値（処理なし）へ向けて減衰すると判断される。
ＥＱ_DYN（ｋ，ｍ，ｃ）＝ｍａｘ（ＥＱ_DYN（ｋ，ｍ，ｃ）＊σ_decay（ｋ），１）
式中、σ_decay（ｋ）は、低周波数の過渡が高周波数の過渡よりもどのように緩やかに減衰するかを模倣するために周波数の増加とともに減少するサブバンド当たりの減衰係数関数を表す。境界チェックを適用して、１未満の利得が適用されないことを確実にする。

ステップ５７０において、出力飽和を避けるために、ＥＱ_DYN（ｋ，ｍ，ｃ）を以下のように制限範囲内に抑制する。
ＥＱ_DYN（ｋ，ｍ，ｃ）＊｜Ｘ（ｋ，ｍ，ｃ）|＞Ｙ_maxの場合、

式中、｜Ｘ（ｋ，ｍ，ｃ）｜は、ｃ番目のチャネルのｍ番目のフレームのｋ番目のビンの入力データの大きさを表し、Ｙ_maxは、全てのチャネルの全てのフレームの全てのサブバンドの最大許容出力値を表す。ＥＱ_DYN（ｋ，ｍ，ｃ）の最終版が保証されている場合、これを周波数全体にわたって平滑化してアーチファクトを避けることができる。

ステップ５８０において、各帯域内の複雑な入力係数にＥＱ_DYN（ｋ，ｍ，ｃ）を乗算することにより、適当な入力チャネルに所定の強化を適用する。
Ｙ（ｋ，ｍ，ｃ）＝ＥＱ_DYN（ｋ，ｍ，ｃ）Ｘ（ｋ，ｍ，ｃ）
式中、Ｘ（ｋ，ｍ，ｃ）は、ｃ番目のチャネルのｍ番目のフレームのｋ番目のビンの入力データを表し、Ｙ（ｋ，ｍ，ｃ）は、ｃ番目のチャネルのｍ番目のフレームのｋ番目のビンの出力データを表す。

結果として得られる複雑な帯域係数を再結合し、６４帯域の合成バンク又は同等の周波数−時間領域フィルタを使用して時間領域出力サンプルブロックに変換する。

上述した入力／出力プロセス（ステップ５００〜５８０）を入力サンプルブロックごとに繰り返す。ＥＱ曲線の利得は、各入力信号ブロックの解析により動的に変化する。

ＥＱ曲線の利得は、各入力信号フレームの解析により動的に変化する。上述の実施形態では、周波数領域において乗算を行った後に出力合成によって入力合成ブロックを補完することにより、導出した利得曲線を原信号に適用した。他の実施形態では、解析及び合成方法が異なる場合がある。

上述した解析及び合成では、均一に離間した周波数帯域を使用する。しかしながら、ヒトの聴力の心理音響学により良く一致する対数的に離れた帯域にわたって解析を行うことが好ましい。

本明細書の事項は、本発明の実施形態の一例として、及び例示的な説明を目的として示したものであり、本発明の原理及び概念的側面の最も有用かつ容易に理解される説明であると思われるものを提供するために示したものである。この点に関し、本発明の基本的な理解に必要とされる以上に本発明の事項を詳細に示そうとはしておらず、図面とともに行った説明は、本発明のいくつかの形態をいかにして実際に具体化できるかを当業者に対して明らかにするものである。

１０家電装置
１２オーディオ再生システム
１４ヘッドホン
１６スピーカ

Claims

オーディオ信号の調整方法であって、
一連の時間にわたる複数のフレームに各々がセグメント化された少なくとも１つのチャネルを各々が有する少なくとも１つのオーディオ信号を受け取るステップと、
複数の連続する時間セグメントについて前記オーディオ信号の動的偏位の少なくとも１つの量を計算するステップと、
前記オーディオ信号を、少なくとも１つが個々のフレームを表す複数のサブバンドにフィルタ処理するステップと、
前記動的偏位の量から動的利得を導出するステップと、
前記フレームの少なくとも１つのサブバンドを解析して前記フレーム内に過渡が存在するかどうかを判断するステップと、
前記過渡を有する各フレームに前記動的利得を適用するステップと、
を含むことを特徴とする方法。
前記動的偏位の量が、前記時間セグメントの波高率である、
ことを特徴とする請求項１に記載の方法。
個々の連続する時間セグメントの前記波高率が、前記フレーム内の前記オーディオ信号の平均的な信号の大きさの関数に対するピーク信号の大きさの関数の比率をとることにより計算される、
ことを特徴とする請求項２に記載の方法。
前記解析段階が、少なくとも１つのサブバンドのサブバンド相対エネルギー関数を計算するステップをさらに含み、該サブバンド相対エネルギー関数が、
ｃ番目のチャネルのｍ番目のフレームのｋ番目のサブバンドで測定したサブバンド相対エネルギーをＲＥ（ｋ，ｍ，ｃ）とし、
前記ｃ番目のチャネルの前記ｍ番目のフレームの前記ｋ番目のサブバンドで測定した瞬間エネルギーをＥ_inst（ｋ，ｍ，ｃ）とし、
前記ｃ番目のチャネルの前記ｍ番目のフレームの前記ｋ番目のサブバンドで測定した平均エネルギーをＥ_av（ｋ，ｍ，ｃ）とする、

として表される、
ことを特徴とする請求項１に記載の方法。
前記フレームの各サブバンド内の前記サブバンド相対エネルギーを閾値と比較し、前記閾値を超えるサブバンドの数を合計することにより、各フレームについて全体的なサブバンド過渡エネルギーが計算され、該全体的なサブバンド過渡エネルギーが、
前記ｃ番目のチャネルの前記ｍ番目のフレームで測定した前記全体的なサブバンド過渡エネルギーをＴＥ（ｍ，ｃ）とし、
前記ｃ番目のチャネルの前記ｍ番目のフレームの前記ｋ番目のサブバンドで測定した前記サブバンド相対エネルギーをＲＥ（ｋ，ｍ，ｃ）とし、
前記閾値相対エネルギー値をＲＥ_threshとする、

として表される、
ことを特徴とする請求項４に記載の方法。
前記過渡が、前記閾値を超えるサブバンドの数が解析中の全サブバンドの所定の比率を上回るフレーム内に存在する、
ことを特徴とする請求項５に記載の方法。
各フレームの前記閾値を超えるサブバンドの数に基づいて重み係数を計算するステップをさらに含む、
ことを特徴とする請求項５に記載の方法。
前記動的利得が、前記重み係数に従ってフレームごとに重み付けされる、
ことを特徴とする請求項７に記載の方法。
各フレーム内の各サブバンドのサブバンド利得を導出するステップと、
各サブバンドに前記サブバンド利得を適用するステップと、
をさらに含むことを特徴とする請求項１に記載の方法。
時間平均利得に対するピーク利得レベルの比率を求めることにより、各サブバンドについてサブバンド波高率が計算され、該サブバンド波高率が、
ｃ番目のチャネルのｍ番目のフレームのｋ番目のサブバンドのサブバンド波高率値をＣＦとし、
前記ｃ番目のチャネルの前記ｍ番目フレームの前記ｋ番目のサブバンドのピーク利得レベルをＧ_peakとし、
前記ｃ番目のチャネルの前記ｍ番目のフレームの前記ｋ番目のサブバンドの時間平均利得をＧ_avとする、

として表される、
ことを特徴とする請求項９に記載の方法。
前記サブバンド波高率が所定の音調閾値と比較され、前記サブバンド波高率が前記所定の音調閾値を下回る場合、前記サブバンド利得がさらに修正されることはない、
ことを特徴とする請求項１０に記載の方法。
前記所定の音調閾値を下回るサブバンド波高率を有する各サブバンドについて過渡が検出されなかった場合、前記適用するサブバンド利得が、指数減衰曲線を使用して低減される、
ことを特徴とする請求項１１に記載の方法。
前記所定の音調閾値を下回るサブバンド波高率を有する各サブバンドについて音調成分が検出されなかった場合、前記適用するサブバンド利得が、指数減衰曲線を使用して低減される、
ことを特徴とする請求項１１に記載の方法。
一連の時間にわたる複数のフレームに各々がセグメント化された少なくとも１つのチャネルを各々が有する少なくとも１つのオーディオ信号を受け取るための受取要素と、
複数の連続する時間セグメントについて前記オーディオ信号の動的偏位の少なくとも１つの量を計算するための計算要素と、
前記オーディオ信号を、少なくとも１つが個々のフレームを表す複数のサブバンドにフィルタ処理するためのフィルタ処理要素と、
前記動的偏位の量から動的利得を導出し、前記フレームの少なくとも１つのサブバンドを解析して前記フレーム内に過渡が存在するかどうかを判断し、前記過渡を有する各フレームに前記動的利得を適用するための導出要素と、
を備えることを特徴とするオーディオ信号処理装置。
前記動的偏位の量が、前記時間セグメントの波高率である、
ことを特徴とする請求項１４に記載のオーディオ信号処理装置。
個々の連続する時間セグメントの前記波高率が、前記フレーム内の前記オーディオ信号の平均的な信号の大きさの関数に対するピーク信号の大きさの関数の比率をとることにより計算される、
ことを特徴とする請求項１５に記載のオーディオ信号処理装置。
少なくとも１つのサブバンドのサブバンド相対エネルギー関数が計算され、該サブバンド相対エネルギー関数が、
ｃ番目のチャネルのｍ番目のフレームのｋ番目のサブバンドで測定したサブバンド相対エネルギーをＲＥ（ｋ，ｍ，ｃ）とし、
前記ｃ番目のチャネルの前記ｍ番目のフレームの前記ｋ番目のサブバンドで測定した瞬間エネルギーをＥ_inst（ｋ，ｍ，ｃ）とし、
前記ｃ番目のチャネルの前記ｍ番目のフレームの前記ｋ番目のサブバンドで測定した平均エネルギーをＥ_av（ｋ，ｍ，ｃ）とする、

として表される、
ことを特徴とする請求項１６に記載のオーディオ信号処理装置。
前記フレームの各サブバンド内の前記サブバンド過渡エネルギーを閾値と比較し、前記閾値を超えるサブバンドの数を合計することにより、各フレームについて全体的なサブバンド過渡エネルギーが計算され、該全体的なサブバンド過渡エネルギーが、
前記ｃ番目のチャネルの前記ｍ番目のフレームで測定した前記全体的なサブバンド過渡エネルギーをＴＥ（ｍ，ｃ）とし、
前記ｃ番目のチャネルの前記ｍ番目のフレームの前記ｋ番目のサブバンドで測定した前記サブバンド相対エネルギーをＲＥ（ｋ，ｍ，ｃ）とし、
前記閾値相対エネルギー値をＲＥ_threshとする、

として表される、
ことを特徴とする請求項１７に記載の方法。
前記過渡が、前記閾値を超えるサブバンドの数が全サブバンドの１／４を上回るフレーム内に存在する、
ことを特徴とする請求項１８に記載のオーディオ信号処理装置。
各フレームの前記閾値を超えるサブバンドの数に基づいて重み係数が計算される、
ことを特徴とする請求項１９に記載のオーディオ信号処理装置。
前記動的利得が、前記重み係数に従ってフレームごとに重み付けされる、
ことを特徴とする請求項２０に記載のオーディオ信号処理装置。
前記解析要素が、前記フレーム内の各サブバンドのサブバンド利得を計算し、各サブバンドに前記サブバンド利得を適用する、
ことを特徴とする請求項１４に記載のオーディオ信号処理装置。
時間平均利得に対するピーク利得レベルの比率を求めることにより、各サブバンドについてサブバンド波高率が計算され、該サブバンド波高率が、
ｃ番目のチャネルのｍ番目のフレームのｋ番目のサブバンドのサブバンド波高率値をＣＦとし、
前記ｃ番目のチャネルの前記ｍ番目フレームの前記ｋ番目のサブバンドのピーク利得レベルをＧ_peakとし、
前記ｃ番目のチャネルの前記ｍ番目のフレームの前記ｋ番目のサブバンドの時間平均利得をＧ_avとする、

として表される、
ことを特徴とする請求項２２に記載のオーディオ信号処理装置。
前記サブバンド波高率が所定の音調閾値と比較され、前記サブバンド波高率が前記所定の音調閾値を下回る場合、前記サブバンド利得がさらに修正されることはない、
ことを特徴とする請求項２３に記載のオーディオ信号処理装置。
前記所定の音調閾値を下回るサブバンド波高率を有する各サブバンドについて過渡が検出されなかった場合、前記適用するサブバンド利得が、指数減衰曲線を使用して低減される、
ことを特徴とする請求項２３に記載のオーディオ信号処理装置。
前記所定の音調閾値を下回るサブバンド波高率を有する各サブバンドについて音調成分が検出されなかった場合、前記適用するサブバンド利得が、指数減衰曲線を使用して低減される、
ことを特徴とする請求項２３に記載のオーディオ信号処理装置。