JP2013507842A - 録音の適応的ダイナミックレンジ強化 - Google Patents

録音の適応的ダイナミックレンジ強化 Download PDF

Info

Publication number
JP2013507842A
JP2013507842A JP2012533365A JP2012533365A JP2013507842A JP 2013507842 A JP2013507842 A JP 2013507842A JP 2012533365 A JP2012533365 A JP 2012533365A JP 2012533365 A JP2012533365 A JP 2012533365A JP 2013507842 A JP2013507842 A JP 2013507842A
Authority
JP
Japan
Prior art keywords
subband
frame
gain
audio signal
transient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012533365A
Other languages
English (en)
Other versions
JP5730881B2 (ja
Inventor
マーティン ウォルシュ
エドワード シュタイン
ジャン−マルク ジョット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DTS Inc
Original Assignee
DTS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DTS Inc filed Critical DTS Inc
Publication of JP2013507842A publication Critical patent/JP2013507842A/ja
Application granted granted Critical
Publication of JP5730881B2 publication Critical patent/JP5730881B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/12Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers having semiconductor devices
    • H03G9/18Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers having semiconductor devices for tone control and volume expansion or compression
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/025Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Abstract

オーディオ信号を調整する方法及び装置を提供する。本発明の1つの態様によれば、オーディオ信号の調整方法が含められ、この方法は、一連の時間にわたる複数のフレームに各々がセグメント化された少なくとも1つのチャネルを各々が有する少なくとも1つのオーディオ信号を受け取るステップと、複数の連続する時間セグメントについてオーディオ信号の動的偏位の少なくとも1つの量を計算するステップと、オーディオ信号を、少なくとも1つが個々のフレームを表す複数のサブバンドにフィルタ処理するステップと、連続する時間セグメントから動的利得係数を導出するステップと、フレームの少なくとも1つのサブバンドを解析してフレーム内に過渡が存在するかどうかを判断するステップと、過渡を有する各フレームに動的利得係数を適用するステップとを含む。
【選択図】図2

Description

〔関連出願との相互参照〕
本発明は、発明者であるWalsh他に付与された2009年10月9日に出願された録音の適応的ダイナミックレンジ強化という名称の米国仮特許出願第61/250,320号、及び発明者であるWalsh他に付与された2010年9月10日に出願された適応的ダイナミックレンジ強化という名称の米国仮特許出願第61/381,860号の優先権を主張する。米国仮特許出願第61/217,562号及び第61/381,860号は、引用により本明細書に組み入れられる。
〔連邦政府が支援する研究又は開発に関する記述〕
適用なし
本発明は、一般にオーディオ信号処理に関し、より詳細には、オーディオストリーム及び録音を、これらのダイナミックレンジを回復又は強調することによって強化することに関する。
「音は大きいほど良い」という格言に従い、レコード業界では、より高いラウドネスレベルでレコーディングしたものをマスタリングしてリリースすることが常套手段になってきた。CDなどのデジタルメディアフォーマットの出現により、音楽は、符号化信号を表すために使用できるビット数により定義される最大ピークレベルで符号化されるようになった。CDの最大振幅に達すると、マルチバンドダイナミックレンジ圧縮、ピーク制限及びイコライゼーションなどの信号処理技術を通じてラウドネス知覚をさらに高めることができる。音響技師達は、このようなデジタルマスターツールを使用して、(ドラムの打音のような)一時的ピークを圧縮し、結果として得られる信号の利得を増加させることにより、平均信号レベルを最大化することができる。ダイナミックレンジ圧縮を極端に使用すると、録音波形にクリッピング及びその他の可聴歪が生じる恐れがある。従って、このような極端なダイナミックレンジ圧縮を使用する現代のアルバムでは、ラウドネスのために音楽再生の質が犠牲になっている。音楽リリースのラウドネスを高めて競合リリースに対抗することにより、2つの効果がもたらされる。(再生スピーカ及び増幅器によってラウドネスが制限される再生とは対照的に)最大ラウドネスレベルを録音に利用できるので、楽曲又はトラックの全体的なラウドネスを高めると、最終的に最初から最後まで最大かつ一様に音の大きな作品が生み出される。これにより、ダイナミックレンジの狭い(すなわち、音の大きな部分と静かな部分の差がほとんどない)音楽が生み出され、このような効果は、疲れを感じさせるとともにアーティストの独創的表現に欠けたものと見なされることが多い。
もう一方の考えられる効果は歪みである。デジタル領域では、通常、これをクリッピングという。デジタル媒体は、デジタルフルスケールよりも高い信号を出力できないので、信号のピークがこのポイントを過ぎたときには、いつでも波形にクリッピングが発生する。クリッピングが発生すると、可聴クリック音が生じることがある。しかしながら、ドラムの打音のようないくつかの音は、ピークに達している時間が非常に短く、このピークの方が他の信号よりもはるかに大きな場合には、このクリック音は聞こえない。多くの場合、ドラムの打音のピークにはクリッピングが発生するが、何気なく聴いている聴取者はこれに気付かない。
図1a及び図1bは、有害なマスタリング技術の視覚表現である。図1a及び図1bに示す録音波形は、最初にマスタリングしたトラックと、同じトラックを異なる技術を使用してマスタリングしたバージョンを表す。図1aは、元々のレコーディングを表し、数多くのピークが存在することで、元々の演奏内に存在する動特性の種類を表す高ダイナミックレンジが示されている。このレコーディングでは、ドラムの打音などの特定の打楽器の響きが力強くクリアに聞こえるので、活気に満ちた聴取体験が得られる。対照的に、図1bに示すレコーディングは、より大きな音の商用CDリリースのためにリマスターしたものである。元々のレコーディング内に存在するピークの大半は圧縮され、さらにはクリッピングが発生し、結果的にレコーディングのダイナミックレンジが損なわれてしまっている。このように、商用音楽のマスタリング段階においてますます積極的にダイナミックレンジ圧縮を使用することにより、消費者、プロデューサー及びアーティストから多くの反発が起きている。
オーディオ業界で議論されているこの問題に対処する方法は、事の根本にあるマスタリング技術を取り上げることに焦点を置いている。1つのこのような例が、Bob Katz著、オーディオのマスタリング(Mastering Audio)、第2版、The Art and the Scienceに記載されている。Katzは、処理信号のモニタリングを較正したものを使用し、より控えめな圧縮パラメータを使用して、最終結果を歪めないラウドネスのためにいかにしてレコーディングをマスタリングできるかについて説明している。ほとんどのマスタリング技術者はKatzの方法に賛同するであろうが、多くの場合、この方法よりもスタジオ管理の要求が優先する。たとえ、より控えめなマスタリング技術が新たな基準になったとしても、既にマスタリングされてエンドユーザに販売された多くの既存のレコーディングの問題が解決されるわけではない。
当技術では、録音の動特性を修正するための既存の処理技術が知られている。1つのこのような処理に、異なる程度のダイナミックレンジ圧縮を受けた音響材料間の知覚されるラウドネスの違いをある所定のレベルに正規化するラウドネスレベリングがある。しかしながら、これらの方法は、様々なソースから再生される連続トラックの平均ラウドネスを正規化するために使用されるものであり、過度にダイナミックレンジを圧縮したコンテンツのダイナミックレンジを回復しようとするものではない。この結果、より低い所定の聴取レベルで圧縮媒体を再生した場合、余計に動的表現を欠いているように聞こえることがある。
別の公知の技術は、Benchに付与された動的エキスパンダ(Dynamic Expander)という名称の米国特許第3,978,423号に記載されるようなアップワードエキスパンダを適用することである。アップワードエキスパンダは、規定の「膨張曲線」に従ってオーディオ信号に時変利得を適用し、出力信号レベルが、選択された閾値よりも高い入力レベルを上回るようにするものである。この結果、音源信号のより大きな音の部分の振幅が増加する。しかしながら、この結果、元々の動的サウンドトラックの出力信号の過渡が強調され過ぎることがある。
別の公知の技術には、過渡を検出した場合に低周波数帯域と高周波数帯域を押し上げる動的スペクトルイコライゼーションがある。この結果、より動的な出力が得られるようになる。動的スペクトルイコライゼーションについては、XRodet、F Jaillet著、高速立ち上がり過渡時間の検出及びモデル化(Detection and Modeling of Fast Attack Transients)(2001年)、国際コンピュータ音楽会議議事録、Goodwin他に付与された、オーディオ信号における過渡検出及び修正(Transient Detection and Modification in Audio Signals)という名称の米国特許第7,353,169号、及びAvendano他に付与された、オーディオ信号の強化方法(Method for Enhancing Audio Signals)という名称の米国特許出願第11/744,465号に記載されている。それまでの方法とは異なり、これらの動的強化技術は、信号の過渡にのみ影響を与えるものである。しかしながら、この技術は、全ての信号の過渡、既に高い動特性を示している部分にまで影響を与える。一般に、動的スペクトルイコライゼーションは、必要であるかどうかに関わらず全てのオーディオ信号コンテンツに処理を適用する。この結果、オーディオコンテンツの種類によっては、出力が過度に動的処理されることがある。
Hilpert他に付与された米国特許第6,453,282号には、離散時間音響領域における過渡検出方法が概説されている。このような時間領域法は、信号を全体として見たときに過渡が分かりにくくなることに起因して、ダイナミックレンジがエネルギーの変化として大きく圧縮された材料を解析する場合の信頼度が低い。これにより過渡信号が誤判別され、結果として偽陽性が生じる。
米国特許第3,978,423号明細書 米国特許第7,353,169号明細書 米国特許出願第11/744,465号明細書 米国特許第6,453,282号明細書
Bob Katz著、オーディオのマスタリング(Mastering Audio)、第2版、The Art and the Science XRodet、F Jaillet著、高速立ち上がり時間の検出及びモデル化(Detection and Modeling of Fast Attack Transients)(2001年)、国際コンピュータ音楽会議議事録 J.Johnston著、「知覚ノイズ基準を使用したオーディオ信号の変換符号化(Transform coding of audio signals using perceptual noise criteria)」、IEEE Journal on Selected Areas in Communications、第6巻、第2号、314〜323頁、1998年2月
録音の実施を改善することに対する関心が高まり続けていることを考慮すれば、当技術では、改善されたオーディオ処理が必要とされている。
本発明では、オーディオ信号を調整する方法及び装置を提供する。本発明は、特に有害なマスタリング技術を受けたオーディオ信号に対し、オーディオ信号のダイナミックレンジに強制的な強化を行う。
本発明の1つの態様によれば、オーディオ信号の調整方法が含められ、この方法は、一連の時間にわたる複数のフレームに各々がセグメント化された少なくとも1つのチャネルを各々が有する少なくとも1つのオーディオ信号を受け取るステップと、複数の連続する時間セグメントについてオーディオ信号の動的偏位の少なくとも1つの量を計算するステップと、オーディオ信号を、少なくとも1つが個々のフレームを表す複数のサブバンドにフィルタ処理するステップと、連続する時間セグメントから動的利得係数を導出するステップと、フレームの少なくとも1つのサブバンドを解析してフレーム内に過渡が存在するかどうかを判断するステップと、過渡を有する各フレームに動的利得係数を適用するステップとを含む。
動的偏位の量は、時間セグメントの波高率によって表すことができる。フレーム内のオーディオ信号の平均的な信号の大きさの関数に対するピーク信号の大きさの関数の比率をとることにより、個々の連続する時間セグメントの波高率を計算することができる。この方法は、少なくとも1つのサブバンドのサブバンド相対エネルギー関数を計算するステップをさらに含むことができる。
フレーム又はこのフレームの一部の各サブバンド内のサブバンド過渡エネルギーを相対エネルギー閾値と比較し、この相対エネルギー閾値を超えるサブバンドの数を合計することにより、各フレームの全体的なサブバンド過渡エネルギーを計算することができる。過渡は、相対エネルギー閾値を超えるサブバンドの数が解析中の全サブバンドの所定の比率を上回るフレーム内に存在することができる。例えば、過渡は、相対エネルギー閾値を超えるサブバンドの数が解析中の全サブバンドの1/4を上回るフレーム内に存在することができる。
この方法は、解析中のサブバンドの総数に対する閾値を超えるサブバンドの数に基づいて動的利得重み係数を計算することにより継続する。動的利得係数は、この重み係数に従ってフレームごとに重み付けされる。あるフレームについて過渡が検出されなかった場合、指数減衰曲線を使用して、このフレームの以前の動的利得を1の値に低減することができる。最終的な動的利得を入力信号に適用する前に、入力信号内に存在する強い音調の可聴変調を避けるために、音調様の音声の有無をチェックすることができる。あるサブバンド内で強い音調が検出された場合、そのフレーム周期のそのサブバンドには追加の利得が適用されず、そのサブバンドの動的利得は、前のフレームの動的利得値に基づいて減衰し続ける。
本発明の別の態様によれば、オーディオ信号処理装置が提供される。このオーディオ信号処理装置は、一連の時間にわたる複数のフレームに各々がセグメント化された少なくとも1つのチャネルを各々が有する少なくとも1つのオーディオ信号を受け取るための受信要素と、複数の連続する時間セグメントについてオーディオ信号の動的偏位の少なくとも1つの量を計算するための計算要素と、オーディオ信号を、少なくとも1つが個々のフレームを表す複数のサブバンドにフィルタ処理するためのフィルタ処理要素と、動的偏位の量から動的利得を導出し、フレームの少なくとも1つのサブバンドを解析してフレーム内に過渡が存在するかどうかを判断し、過渡を有する各フレームに動的利得を適用するための導出要素とを備える。
以下の説明、及び全体を通じて同じ数字が同じ部分を示す図面を参照すれば、本明細書で開示する様々な実施形態のこれらの及びその他の特徴及び利点がより良く理解されるであろう。
原録音波形の斜視図である。 ダイナミックレンジが過度に圧縮されたリマスターした録音波形の斜視図である。 本発明の実施形態による、マルチチャネルスピーカ又はヘッドホンを通じた再生に適応的動的強化を使用する聴取環境の概略図である。 本発明の実施形態による、適応性動特性強化プロセッサよりも前の任意のラウドネスレベリング処理ブロックを示すフローチャートである。 本発明の1つの実施形態による、適応的動的強化処理中に行われる、過渡を検出し、これに応じて利得を適用するためのステップを示すフローチャートである。 本発明の1つの実施形態による、適応的動的強化処理中に行われる、過渡を検出し、既知の閾値に照らして過渡を評価し、これに応じて適応的EQ曲線を適用するためのステップを示すフローチャートである。
添付図面に関連して以下に記載する詳細な説明は、現在のところ好ましい本発明の実施形態の説明として意図するものであり、本発明を構築又は利用できる唯一の形態を表すことを意図するものではない。この説明では、本発明を展開して動作させるための機能及びステップのシーケンスを、例示の実施形態との関連で記載する。しかしながら、異なる実施形態によって同じ又は同等の機能及びシーケンスを実現することもでき、これらの実施形態も本発明の思想及び範囲に含まれることが意図されていると理解されたい。第1の、及び第2のなどの関係語の使用については、このようなエンティティ間の実際のこのような関係又は順序を必ずしも必要とせずに又は暗示せずにエンティティ同士を区別するために使用しているにすぎないことをさらに理解されたい。
本発明の目的は、ダイナミックレンジ圧縮アルゴリズムの積極的な適用を使用して可能な限り音が大きくなるように録音をマスタリングする有害なレコーディング技術に対処することである。これらのレコーディング信号内の過渡の動的偏位は、あるべき姿よりも非常に低い。この結果、適度なレベルで聴いたときの再生が、弱く、鈍く、又は活気が無いように知覚される。
本発明では、録音の動特性を解析して、有害なマスタリングを行った証拠を示す過渡を強化する。本発明は、音源の録音信号のラウドネス及び動特性の解析によって促進されるスマートな/適応的処理を使用して設計される。必要でなければ、原録音信号の動特性の修正は行わない。しかしながら、いずれかのレコーディングの動特性をより切れのある又は「より力強い」音に向けて誇張できるように、或いはよりわずかな強化に向けて低減できるように、追加の動特性処理のデフォルト量をユーザが調整することもできる。本発明を使用して、いずれかの媒体ソースから導出した、及びいずれかの聴取環境におけるいずれかの音楽、映画又はゲームのサウンドトラックの過渡の動特性を強化することができる。
ここで図2を参照すると、複数の実施形態の実施構成を示す概略図を示している。図2は、動的に強化された録音を、スピーカ又はヘッドホンを通じて再生するためのオーディオ聴取環境を示す図である。このオーディオ聴取環境は、DVD又はBDプレーヤ、TVチューナ、CDプレーヤ、ハンドヘルドプレーヤ、インターネットオーディオ/ビデオ装置、ゲーム機などの少なくとも1つの家電装置10を含む。家電装置10は、あらゆる有害なマスタリング技術を補償するように動的に強化された音源録音を実現する。
この実施形態では、家電装置10が、オーディオ再生システム12に接続される。オーディオ再生システム12は、録音を動的に強化する適応的動的強化処理(ADE)を通じて録音を処理する。別の実施形態では、独立型家電装置10が、ADE処理を通じて録音を強化することができる。
オーディオ再生システムユニット12は、IBM PowerPC、Intel Pentium(×86)プロセッサなどの1又はそれ以上の従来の種類のこのようなプロセッサを表すことができる中央処理装置(CPU)を含む。このCPUが行ったデータ処理動作の結果は、ランダムアクセスメモリ(RAM)に一時的に記憶され、このRAMは、通常は専用メモリチャネルを介してCPUに相互接続される。オーディオ再生システム12は、i/oバスを介してやはりCPUと通信するハードドライブなどの永久記憶装置を含むこともできる。テープドライブ、光学ディスクドライブなどの他の種類の記憶装置を接続することもできる。CPUにはビデオバスを介してグラフィックカードも接続され、このグラフィックカードは、表示データを表す信号をディスプレイモニタへ送信する。オーディオ再生システムには、USBポートを介してキーボード又はマウスなどの外部周辺データ入力装置を接続することができる。このUSBポートに接続された外部周辺機器のために、USBコントローラが、CPUへの又はCPUからのデータ及び命令を翻訳する。オーディオ再生システム12には、プリンタ、マイク、スピーカなどの追加装置を接続することもできる。
オーディオ再生システム12は、ワシントン州レドモンドのMicrosoft社製のWINDOWS、カリフォルニア州クパチーノのApple社製Mac OS、X−Windowsウィンドウシステムを含む様々なバージョンのUNIXなどの、グラフィカルユーザインターフェイス(GUI)を有するオペレーティングシステムを利用することができる。オーディオ再生システム12は、1又はそれ以上のコンピュータプログラムを実行する。一般に、オペレーティングシステム及びコンピュータプログラムは、ハードドライブを含む固定式及び/又は着脱式データ記憶装置の1又はそれ以上などのコンピュータ可読媒体内で有形的に具体化される。これらのオペレーティングシステム及びコンピュータプログラムは、いずれもCPUによる実行のために上述のデータ記憶装置からRAMにロードすることができる。コンピュータプログラムは、これをCPUが読み込んで実行したときに、本発明のステップ又は機能を実行するためのステップをCPUに実行させる命令を含むことができる。
上述したオーディオ再生システム12は、本発明の態様を実現するのに適した1つの例示的な装置を表すものにすぎない。オーディオ再生システム12は、多くの異なる構成及びアーキテクチャを有することができる。あらゆるこのような構成又はアーキテクチャは、本発明の範囲から逸脱することなく容易に置き換えることができる。当業者であれば、コンピュータ可読媒体では上述のシーケンスが最も一般的に利用されているが、本発明の範囲から逸脱することなく代用できる他の既存のシーケンスも存在することを認識するであろう。
ADE処理の1つの実施形態の要素は、ハードウェア、ファームウェア、ソフトウェア、又はこれらのあらゆる組み合わせによって実現することができる。ハードウェアとして実現する場合、ADE処理を1つのオーディオ信号プロセッサ上で使用しても、或いは様々な処理要素に分配してもよい。ソフトウェア内で実現する場合、基本的に、本発明の実施形態の要素は、必要なタスクを行うためのコードセグメントとなる。ソフトウェアは、本発明の1つの実施形態で説明する動作を実行するための実際のコード、又は動作をエミュレート又はシミュレートするコードを含むことが好ましい。これらのプログラム又はコードセグメントを、プロセッサアクセス可能媒体又は機械アクセス可能媒体に記憶し、或いは搬送波内で具体化されるコンピュータデータ信号又は搬送体により変調された信号によって、伝送媒体を介して送信することができる。この「プロセッサ可読又はアクセス可能媒体」又は「機械可読又はアクセス可能媒体」は、情報を記憶、送信、又は転送できるあらゆる媒体を含むことができる。プロセッサ可読媒体の例には、電子回路、半導体メモリ素子、読み取り専用メモリ(ROM)、フラッシュメモリ、消去可能ROM、フロッピディスケット、コンパクトディスク(CD)ROM、光ディスク、ハードディスク、光ファイバメディア、高周波(RF)リンクなどがある。コンピュータデータ信号としては、電子ネットワークチャネル、光ファイバ、無線リンク、電磁リンク、RFリンクなどの伝送媒体を介して伝搬できるあらゆる信号を挙げることができる。コードセグメントは、インターネット、イントラネットなどのコンピュータネットワークを介してダウンロードすることができる。機械アクセス可能媒体は、製造の物品内で具体化することができる。機械アクセス可能媒体は、機械によってアクセスされたときに、以下で説明する動作を機械に実行させるデータを含むことができる。ここでは、「データ」という用語は、機械が読み取りできるように符号化されたあらゆる種類の情報を意味する。従って、このデータは、プログラム、コード、データ、ファイルなどを含むことができる。
本発明の実施形態の全部又は一部を、ソフトウェアによって実施することもできる。ソフトウェアは、互いに結合されたいくつかのモジュールを有することができる。1つのソフトウェアモジュールは、別のモジュールに結合されて、変数、パラメータ、引数、ポインタなどを受け取り、及び/又は結果、更新した変数、ポインタなどを生成し又は受け渡す。ソフトウェアモジュールは、プラットフォーム上で実行されるオペレーティングシステムと相互作用するためのソフトウェアドライバ又はインターフェイスであってもよい。ソフトウェアモジュールは、データを構成し、設定し、初期化し、ハードウェア装置との間で送受信するためのハードウェアドライバであってもよい。
本発明の1つの実施形態は、通常はフローチャート、フロー図、構造図又はブロック図として示されるプロセスとして説明することができる。ブロック図には、動作を逐次プロセスとして記載することがあるが、これらの動作の多くは、平行して又は同時に行うことができる。また、動作の順序を並べ直すこともできる。プロセスは、動作が完了したときに終了する。プロセスは、方法、プログラム、手順などに対応することができる。図2は、ヘッドホン14又はスピーカ16を介して再生を行うためのオーディオ再生システム12を示す概略図である。オーディオ再生システム12は、様々なオーディオ又はオーディオ/ビデオソース10からデジタル又はアナログ音源信号を受け取ることができる。音源信号は、モノラル信号、(音楽トラック又はTV放送などの)2チャネル信号、又は(映画のサウンドトラックなどの)マルチチャネル信号とすることができる。オーディオ信号は、現実世界の音又は人工的に作られた音などの、あらゆる知覚される又は知覚されない音とすることができる。
オーディオ再生システム12は、アナログ音源又はデジタル音声入力インターフェイスを接続するためのアナログ/デジタル変換器を含むことができる。オーディオ再生システム12は、オーディオ信号を処理するためのデジタル信号プロセッサと、処理済み出力信号を変換器(ヘッドホン14又はスピーカ16)へ送られる電気信号に変換するためのデジタル/アナログ変換器及び信号増幅器とを含むこともできる。オーディオ再生システム12は、オーディオ及び/又はビデオ信号の選択、処理及びルーティングを専門的に行うホームシアタ受信機又は自動車オーディオシステムであってもよい。或いは、オーディオ再生システム12及びオーディオ信号ソースの1又はいくつかを、ポータブルメディアプレーヤ、テレビ、ラップトップコンピュータなどの家電装置10にまとめて組み込むことができる。テレビ又はラップトップコンピュータと同じように、スピーカ16を同じ機器に組み込むこともできる。
図3は、ADE処理環境を示す高レベルフローチャートである。このフローチャートは、ステップ300において入力信号を受け取ることにより開始する。この入力信号は、デジタルオーディオ信号である。本実施形態では、ステップ310において、この入力信号をラウドネスレベリングアルゴリズムによって処理し、これにより着信入力信号の利得が、時間とともに実質的に一定の平均ラウドネスレベル(例えば、0dBのフルスケールに対して−20dB)を有するようにする。ラウドネスレベルアルゴリズムは任意の特徴であり、ADE処理を実行するために必須ではない。その後、320において、上流利得正規化アルゴリズムが存在する場合、ADE処理は、信号波形のクリッピングによって生じる可能性のある可聴アーチファクトを引き起こすことなく着信信号の利得を拡大するために必要とされる基準利得レベルを、利用可能な無歪限界に織り込むことができる。この通信を破線矢印によって示す。ADEの無歪限界要件では、入力主利得及び入力信号コンテンツの利得を織り込むこともできる。適用する動特性強化の量は、動特性強化レベルによって記述されるユーザパラメータを使用してスケール調整することができる。出力リミッタを使用して、必要な動的EQを入力信号に適用した結果として出力飽和が起きないことを確実にする。
ここで図4を参照すると、ADE処理の1つの実施形態を示すフロー図を示している。ADE処理は、ステップ400において、録音を表す入力信号を受け取ることにより開始する。この入力信号は、少なくとも1つのチャネルのデジタルオーディオ信号である。この入力信号は、電子信号に変換され、アナログ/デジタル変換によりデジタル形式に変換されて適切に前処理された有形の物理的現象、すなわち音を表す。通常は、当技術で公知のように、下流のエイリアシング、飽和、又はその他の信号処理エラーを最小限に抑えるために、アナログフィルタ処理、デジタルフィルタ処理、及びその他の前処理が適用される。オーディオ信号は、PCM符号化などの従来の線形法によって表すことができる。ステップ410において、好適に一連の相補的直交ミラーフィルタとすることができるマルチタップマルチバンド解析フィルタバンクにより、入力信号をフィルタ処理する。或いは、多相フィルタバンクなどの疑似直交ミラーフィルタ(PQMF)を使用することもできる。このフィルタバンクは、複数のサブバンド信号出力を生成する。本実施形態では、このようなサブバンド出力のうちの64個を使用する。しかしながら、当業者であれば、入力信号をあらゆる数のサブバンドにフィルタ処理できることを容易に認識するであろう。フィルタ処理機能の一部として、フィルタバンクは、各サブバンド内のサブバンド信号を決定的に減らすこと、すなわち各サブバンド信号を、各サブバンド内の信号を完全に表すのにちょうど十分な、より少ない数のサンプル/秒に減らす(「臨界サンプリング」)ことが好ましい。このサブバンドサンプリングは、ヒトの聴覚の生理を模倣することもできる。
フィルタ処理後、ステップ420において、過渡検出のためにサブバンドを解析する。周波数によっては、過渡を有している可能性が低いものもあることが分かっているので、過渡のために全てのサブバンドを解析するわけではないことが想定される。本実施形態では、周波数帯域全体にわたるエネルギーの加重和を計算する過渡検出アルゴリズムを使用して過渡を検出する。通常、信号のエネルギーは、より低い周波数で優位になるので、追加の重み付けを使用して、過渡がより顕著な信号のエネルギーを強化する。これにより、過渡の識別中の「偽陽性」の可能性が減少する。
Figure 2013507842
式中、TEHF(m,c)は、瞬間的な高周波重み付けした過渡エネルギーであり、kは周波数帯域指数であり、mは解析フレーム指数であり、cはチャネル指数を表し、w(k)は、k番目の周波数重み付けフィルタ係数に相当し、|G(k,m,c)|は、c番目のチャネルのm番目の解析フレームのk番目の帯域の絶対利得を表す。当業者であれば、本発明によって様々な過渡検出アルゴリズムを適用することができ、上記の例は一例として示すものであり、本発明の範囲を限定するものと解釈すべきではないことを理解するであろう。
瞬間的な過渡エネルギー関数を、以前の過渡エネルギーの時間平均と比較する。この比較により、起こり得る過渡イベントが示され、この場合、瞬間的な過渡エネルギーは平均過渡エネルギーよりもはるかに大きいはずである。平均過渡エネルギーTEavは、各周波数帯域内で漏れのある積分器フィルタを適用することにより計算することができる。
TEav(m,c)=(1−αTE)TEav(m−1,c)+αTETEHF(m,c)(2)
式中、αTEは、過渡エネルギーの減衰係数に相当し、mはフレーム指数を表し、cはチャネル指数を表す。
過渡の開始は、
Figure 2013507842
の場合に誘発され、式中、GTRANSは、ある所定の過渡閾値に相当する。通常は、GTRANSの値が2〜3の場合に良好な結果が得られるが、音源材料によっては閾値を変更することもできる。その後、ステップ440において、64個の解析帯域の各々における以前の信号レベルの時間平均に対するピーク信号レベルの比率をとることにより、マルチバンド波高率値CF(k,m,c)を計算する。
Figure 2013507842
ピーク信号レベル及び平均信号レベルは、いずれも異なるアタックタイム定数及びリリースタイム定数を有する漏れのある積分器を使用して導出される。平均信号レベルを計算する別の方法は、システムメモリに記憶された過去の周波数サブバンドのいくつかの「フレーム」にわたって平均化を行うステップを含む。この実施形態におけるピーク及び平均利得の計算には、漏れのある積分器フィルタを使用する。
G(k,m,c)>Gpeak(k,m−1,c)の場合、
peak(k,m,c)=(1−αpeak_att)Gpeak(k,m−1,c)+αpeak_attG(k,m,c) (4)
G(k,m,c)≦Gpeak(k,m−1,c)の場合、
peak(k,m,c)=(1−αpeak_rel)Gpeak(k,m−1,c)+αpeak_rel(k,m,c) (5)
av(k,m,c)=(1−αav)Gav(k,m−1,c)+αavG(k,m,c) (6)
導出される波高率は、利得の比率に基づく。この結果、導出される波高率は、入力信号のレベルとは無関係である。従って、システムの主利得又は元々のレコーディングのレコーディングレベルに関わらず、結果は同じになる。方程式(3)を見ると、パーカッションの打音などの特徴的な過渡は、より安定した状態又は音調様信号よりも高い波高率値を有するはずである。ある信号が、逆の波高率値を示す過渡の開始を含む場合、この信号は、レコーディング後のダイナミックレンジ圧縮、又はその周波数帯域における制限を強く示すものである。この場合、元々の信号は、予想波高率値を生じるために短時間の利得上昇から恩恵を得る可能性があり、この場合の短時間とは、検出された過渡の開始及び減衰時間に類似する開始及び減衰時間を意味する。
この結果、ADE処理では、過渡の開始が検出されたときにはいつでも波高率を評価する。ステップ460において、波高率を評価し、これが(アルゴリズムの調整及び/又はユーザの好みを組み合わせたものを通じて決定される)目標波高率閾値よりも低い場合、そのサブバンド内の利得を高めて所望の波高率値が達成されるようにする。この利得は、所定の又は動的に評価された無歪限界量内にとどまるように制限することができる。
Figure 2013507842
式中、Geq(k,m,c)は、適用する利得関数を表し、Geq_maxは、最大許容利得(通常は、割り当てられるアルゴリズムの無歪限界に相当する)を表し、αattackは、急速な利得変動により生じたアーチファクトが発見された場合に、1に近い何らかの値に調整できる利得アタック減衰関数である。この減衰関数の値は、異なる周波数範囲に関して異なる速度で利得ランピングが生じるようにするために、周波数に依存することができる。CFTargetは目標波高率値を表し、CF(k,m,c)は、周波数k及びフレームm及びチャネルcにおいて測定された波高率値を表す。
過渡の開始が検出されなかった場合、或いは波高率が目標波高率値以上となる場合、典型的な過渡ヒットの動特性を模倣するエンベロープを使用して、適用する動的EQ利得を1の値へ向けて後退させる。利得低減の速度には、高い周波数利得の方が低い周波数利得よりも速く低減するように重み付けする。
eq(k,m,c)=max(1、αdecay(k,m)Geq(k,m−1,c)) (8)
式中、αdecay(k,m)は、周波数に依存する減衰の減衰係数を表す。この実施形態では、αdecay(k,m)が、周波数全体において境界を1及び0とする高い値から低い値へ指数関数的に減少する64点関数によって表される。
ステップ480において、「動特性強化レベル」(DEL)によって表されるユーザパラメータにより、目標波高率を0.0〜1.0の値だけスケール調整する。DEL値が0.0の場合、波高率閾値が常に達成され、従って原信号に強化が行われないことを意味する。DEL値が0.5の場合、これはデフォルトの解析閾値を表し、「妥当な」波高率予想を表す。この値では、圧縮された信号が強化される一方で、十分な動特性を有する信号は、動特性強化をほとんど又は全く受けない。DEL値が1.0の場合、これは「妥当な」波高率予想を上回ることを表し、必要であるかどうかに関わらず大部分の過渡の動特性が強化されるようになる。
出力は、サブバンドの入力信号成分に強化利得から導出される時変EQ曲線を乗算することにより導出される。アーチファクトを避けるために、これらの利得を周波数全体にわたって平滑化する。元々の複雑な入力信号データにEQ曲線を適用し、その後、結果として得られる複雑な帯域係数を再結合し、64帯域の合成バンク又は同等の周波数−時間領域フィルタを使用して時間領域出力サンプルブロックに変換する。最後に、合成フィルタ帯域の時間領域出力をソフトリミッタ(又は同等物)に通して、利用可能な無歪限界を越える信号レベルの増加によって生じたと考えられる時折発生するレベルのオーバーシュートを全て解消する。
この入力/出力プロセスを解析フレームごとに繰り返す。EQ曲線の利得は、各フレームの解析により動的に変化する。上述の実施形態では、周波数領域において乗算を行った後に出力合成によって入力合成ブロックを補完することにより、導出した利得曲線を原信号に適用した。他の実施形態では、解析及び合成方法が異なる場合がある。例えば、上述したように、周波数領域において解析を行い、所望の利得曲線が計算されたら、FIR及び/又はIIRフィルタを使用して、この所望の周波数応答を表すフィルタを時間領域で実施することができる。時間領域フィルタの係数は、各入力データフレームの解析によって変化する。或いは、時間領域において、その全体の波高率及び過渡の開始の検出を解析することもできる。
上述した解析及び合成では、均一に離間した周波数帯域を使用する。ヒトの聴力の心理音響学により良く一致する対数的に離れた帯域にわたって解析を行うことが好ましい。
ここで図5を参照すると、ADE処理の好ましい実施形態を示すフローチャートを示している。このフローチャートは、ステップ500において、64帯域のオーバーサンプリングした多相解析フィルタバンクを使用して、入力信号を複雑な周波数領域表現に変換することにより開始する。他の種類のフィルタバンクを使用することもできる。異なる数のフィルタバンクを使用することもできる。ここで説明する実施構成では、解析フィルタバンクが、64個の時間領域入力サンプルのブロックごとに64個の周波数領域サンプルのブロックを抽出してサブバンドオーディオ信号を形成する。
ステップ510において、入力信号内に存在する動特性の量を評価するために、周波数に依存しないフレーム当たりの波高率をチャネルごとに導出する。
入力データのc番目のチャネルのm番目のフレームのk個の周波数帯域の大きさの合計をHsum(m,c)と定義した場合、
Figure 2013507842
となる。
sum(m,c)>Hsum_pk(m−1,c)の場合、ピーク合計関数は、
sum_pk(m,c)=Hsum(m,c))
と定義され、そうでない場合、
sum_pk(m)=(1−αpk_rel)Hsum_pk(m−1)+αpk_relsum(m)と定義される。
平均合計関数は、漏れのある積分器関数により定義される。
sum_av(m,c)=(1−αavg)Hsum_av(m−1,c)+αavgsum(m,c)
式中、αpk_relはピークリリース係数を表し、αavgは平均平滑化係数を表す。
フレーム当たりの波高率は、平均的な信号の大きさに対するピーク信号の大きさの比率と定義される。
Figure 2013507842
式中、CF(m)は、入力データのc番目のチャネルのm番目のフレームの波高率を表す。波高率をエネルギー総和の観点で記述できることも想定される。
Figure 2013507842
フレーム当たりの波高率は、入力信号内に存在するダイナミックレンジの量を示す。過渡が検出された場合、この波高率は、何らかの予想目標値以上になるはずである。過渡の存在下でフレーム当たりの波高率が低すぎる場合、入力信号フレームに短時間利得を適用して、測定された波高率を予想よりも高い値に増加させるが、この場合の短時間とは、検出された過渡の開始及び減衰時間に類似する開始及び減衰時間を意味する。
ステップ520において、所定の目標波高率CFTの比率をとることによってフレーム当たりの動的利得GDYN(m,c)を導出し、測定された波高率CF(m,c)は、所望のレベルの動的偏位を達成するために必要な利得の量を表す。
Figure 2013507842
CFTの値は、例えば14dBなどの、動的材料の妥当な波高率を表すと見なされる。この所定の目標波高率を、動的強化レベル(DEL)というユーザ制御可能な利得によって修正し、これにより適用する強化の量に間接的に影響を与えることもできる。
Figure 2013507842
測定された波高率よりも目標波高率の方が高い場合、GDYN(m,c)は1未満となる。この利得値が認められた場合、最終的に入力内の過渡イベントのレベルが減少するようになる。しかしながら、本実施形態では、GDYN(m,c)が1以上になるように制限される。
Figure 2013507842
この段階では、GDYN(m,c)を入力信号に適用することはしない。むしろ、他の2つの条件が満たされた場合にのみ適用する。
1.現在のフレームで過渡が検出された。又は、
2.利得を適用するサブバンドが、強い音調のコンテンツを有していない。
ステップ540において、現在のフレーム内の過渡を検出する。サブバンド信号を解析し、サブバンド当たりの相対エネルギー関数を計算する過渡検出アルゴリズムを使用して過渡を検出する。この関数の値は、サブバンド内でエネルギーの大幅な増加が検出されたときに急激に増加する。存在するサブバンドが多ければ、同時の増加が示唆され、所与のフレーム内で過渡が検出された可能性が高いことがさらに示される。相対エネルギー関数は、以下のように定義することができる。
Figure 2013507842
式中、Einst(k,m,c)は、c番目のチャネルのm番目のフレームのk番目のサブバンドにおいて測定されたエネルギーを表し、Eav(k,m,c)は、c番目のチャネルのm番目のフレームのk番目のサブバンドにおいて測定された平均エネルギーを表す。サブバンド当たりの平均化は、漏れのある積分器関数に基づく。
av(k,m,c)=(1−εav)Eav(k,m−1,c)+εavinst(k,m,c)
サブバンド相対エネルギー関数ごとに、現在値を何らかの相対エネルギー閾値RETRESHと比較する。あるサブバンド内で、相対エネルギー関数閾値を上回った場合、過渡を示すエネルギーの増加があるものとしてこのサブバンドにタグ付けする。その後、相対エネルギー閾値を超えるサブバンドの数を合計することにより、全体的なフレーム当たりの過渡エネルギー関数を計算する。
Figure 2013507842
ここで、TE(m,c)は、解析に使用したサブバンドの総数をKとする0〜Kの間の整数値である。なお、Kは、フレーム内の総帯域数未満とすることができる。例えば、過渡の検出を大きなエネルギーが検出されたサブバンド帯域に集中させる方がより望ましいと考えられる。
相対エネルギー閾値を上回るサブバンドの割合が大きければ、過渡を表すエネルギーが広帯域で増加したことが示唆される。しかしながら、正確なサブバンドの数を肯定的な結果と相関付けて過渡を具体的に定義することは困難である。状況によっては、平均信号レベルが高すぎて、多くの帯域において相対エネルギー閾値が低いままとなる場合もある。このことを考慮するのに必要な肯定的な結果を有するサブバンドの数を減らすことはできるが、これにより「偽陽性」の過渡が検出される恐れがある。従って、フレーム当たりの過渡エネルギー関数は、過渡の可能性の推量を導出するための閾値である。さらに、RETRESHを上回るサブバンドの数に比例する一連の利得重み付け関数を計算する。例えば、
TE(m,c)>K/2の場合、WT(m,c)=1
TE(m,c)>K/3の場合、WT(m,c)=0.75、
TE(m,c)>K/4の場合、WT(m,c)=0.5となり、
式中、Kは解析中の総サブバンド数を表す。
そうでない場合、
T(m,c)=0となる。
正のサブバンド閾値及び関連する重み付け利得には、他の値を使用することもできる。ステップ550において、どちらかの入力チャネル上のWT(m,c)>0となるいずれかの値が過渡の開始を表すと判断する。その後、重み係数によって動的利得を修正する。
DYN_MOD(m,c)=max(1,GDYN(m,c)*WT(m,c))
境界チェックを適用して、1未満の利得が適用されないことを確実にする。その後、この利得を現在のデータフレームの全てのサブバンドに適用することができる。しかしながら、著しい音調様成分を有するサブバンドでは、利得が急増すると可聴信号が変調される可能性があるので、このことが望ましくない場合もある。このシナリオを避けるために、強い音調の存在を求めて各サブバンドを解析する。音調様成分は、その性質から相対的に低いピーク対平均値比(すなわちサブバンド波高率)を有する。従って、いわゆる音調閾値未満であることが測定された波高率を有するサブバンドに適用されるさらなる利得は存在せず、これらのサブバンドは、これらの元々の減衰軌道に基づいて減衰し続ける。
ステップ530において、解析帯域の各々における時間平均利得に対するピーク利得レベルの比率をとることにより、サブバンド当たりの波高率値を計算する。
Figure 2013507842
漏れのある積分器を使用して、ピークフィルタ及び平均フィルタの両方を実施する。
peak(k,m,c)>Gpeak(k,m−1,c)の場合、Gpeak(k,m,c)=G(k,m,c)となり、
式中、G(k,m,c)は、c番目のチャネルのm番目のフレームのk番目のサブバンドの大きさを表す。そうでない場合、
peak(k,m,c)=(1−βpeak_rel)Gpeak(k,m−1,c)+βGpeak_rel(k,m,c)
av(k,m,c)=(1−βav)Gav(k,m−1,c)+βavG(k,m,c)となり、
式中、βpeak_relは、サブバンド当たりのピークリリース関数を表し、βavは、平均平滑化関数を表す。
過渡の開始が検出されたフレームでは、サブバンド当たりの波高率を所定の閾値γTONEと比較し、これによりそのサブバンド内に音調様成分が存在するかどうかを判断する。サブバンド波高率がこの閾値未満である場合、音調様成分が検出されて、そのフレームのそのサブバンドには利得を適用しないと仮定する。J.Johnston著、「知覚ノイズ基準を使用したオーディオ信号の変換符号化(Transform coding of audio signals using perceptual noise criteria)」、IEEE Journal on Selected Areas in Communications、第6巻、第2号、314〜323頁、1998年2月、に記載されるような音調係数などの様々な音調尺度を使用することができる。EQDYN(k,m,c)として記述される最終的なサブバンド当たりの動的利得を、直ちに以下の値に更新する。
CF(k,m,c)>γTONEの場合、EQDYN(k,m,c)=GDYN_MOD(m,c)。
ステップ560において、過渡が検出されなかった場合、又はサブバンド内で音調様成分が検出された場合、関連するEQDYN(k,m,c)のサブバンド値は、典型的な過渡減衰関数をモデル化した周波数に依存する指数曲線を使用して、1の値(処理なし)へ向けて減衰すると判断される。
EQDYN(k,m,c)=max(EQDYN(k,m,c)*σdecay(k),1)
式中、σdecay(k)は、低周波数の過渡が高周波数の過渡よりもどのように緩やかに減衰するかを模倣するために周波数の増加とともに減少するサブバンド当たりの減衰係数関数を表す。境界チェックを適用して、1未満の利得が適用されないことを確実にする。
ステップ570において、出力飽和を避けるために、EQDYN(k,m,c)を以下のように制限範囲内に抑制する。
EQDYN(k,m,c)*|X(k,m,c)|>Ymaxの場合、
Figure 2013507842
式中、|X(k,m,c)|は、c番目のチャネルのm番目のフレームのk番目のビンの入力データの大きさを表し、Ymaxは、全てのチャネルの全てのフレームの全てのサブバンドの最大許容出力値を表す。EQDYN(k,m,c)の最終版が保証されている場合、これを周波数全体にわたって平滑化してアーチファクトを避けることができる。
ステップ580において、各帯域内の複雑な入力係数にEQDYN(k,m,c)を乗算することにより、適当な入力チャネルに所定の強化を適用する。
Y(k,m,c)=EQDYN(k,m,c)X(k,m,c)
式中、X(k,m,c)は、c番目のチャネルのm番目のフレームのk番目のビンの入力データを表し、Y(k,m,c)は、c番目のチャネルのm番目のフレームのk番目のビンの出力データを表す。
結果として得られる複雑な帯域係数を再結合し、64帯域の合成バンク又は同等の周波数−時間領域フィルタを使用して時間領域出力サンプルブロックに変換する。
上述した入力/出力プロセス(ステップ500〜580)を入力サンプルブロックごとに繰り返す。EQ曲線の利得は、各入力信号ブロックの解析により動的に変化する。
EQ曲線の利得は、各入力信号フレームの解析により動的に変化する。上述の実施形態では、周波数領域において乗算を行った後に出力合成によって入力合成ブロックを補完することにより、導出した利得曲線を原信号に適用した。他の実施形態では、解析及び合成方法が異なる場合がある。
上述した解析及び合成では、均一に離間した周波数帯域を使用する。しかしながら、ヒトの聴力の心理音響学により良く一致する対数的に離れた帯域にわたって解析を行うことが好ましい。
本明細書の事項は、本発明の実施形態の一例として、及び例示的な説明を目的として示したものであり、本発明の原理及び概念的側面の最も有用かつ容易に理解される説明であると思われるものを提供するために示したものである。この点に関し、本発明の基本的な理解に必要とされる以上に本発明の事項を詳細に示そうとはしておらず、図面とともに行った説明は、本発明のいくつかの形態をいかにして実際に具体化できるかを当業者に対して明らかにするものである。
10 家電装置
12 オーディオ再生システム
14 ヘッドホン
16 スピーカ

Claims (26)

  1. オーディオ信号の調整方法であって、
    一連の時間にわたる複数のフレームに各々がセグメント化された少なくとも1つのチャネルを各々が有する少なくとも1つのオーディオ信号を受け取るステップと、
    複数の連続する時間セグメントについて前記オーディオ信号の動的偏位の少なくとも1つの量を計算するステップと、
    前記オーディオ信号を、少なくとも1つが個々のフレームを表す複数のサブバンドにフィルタ処理するステップと、
    前記動的偏位の量から動的利得を導出するステップと、
    前記フレームの少なくとも1つのサブバンドを解析して前記フレーム内に過渡が存在するかどうかを判断するステップと、
    前記過渡を有する各フレームに前記動的利得を適用するステップと、
    を含むことを特徴とする方法。
  2. 前記動的偏位の量が、前記時間セグメントの波高率である、
    ことを特徴とする請求項1に記載の方法。
  3. 個々の連続する時間セグメントの前記波高率が、前記フレーム内の前記オーディオ信号の平均的な信号の大きさの関数に対するピーク信号の大きさの関数の比率をとることにより計算される、
    ことを特徴とする請求項2に記載の方法。
  4. 前記解析段階が、少なくとも1つのサブバンドのサブバンド相対エネルギー関数を計算するステップをさらに含み、該サブバンド相対エネルギー関数が、
    c番目のチャネルのm番目のフレームのk番目のサブバンドで測定したサブバンド相対エネルギーをRE(k,m,c)とし、
    前記c番目のチャネルの前記m番目のフレームの前記k番目のサブバンドで測定した瞬間エネルギーをEinst(k,m,c)とし、
    前記c番目のチャネルの前記m番目のフレームの前記k番目のサブバンドで測定した平均エネルギーをEav(k,m,c)とする、
    Figure 2013507842
    として表される、
    ことを特徴とする請求項1に記載の方法。
  5. 前記フレームの各サブバンド内の前記サブバンド相対エネルギーを閾値と比較し、前記閾値を超えるサブバンドの数を合計することにより、各フレームについて全体的なサブバンド過渡エネルギーが計算され、該全体的なサブバンド過渡エネルギーが、
    前記c番目のチャネルの前記m番目のフレームで測定した前記全体的なサブバンド過渡エネルギーをTE(m,c)とし、
    前記c番目のチャネルの前記m番目のフレームの前記k番目のサブバンドで測定した前記サブバンド相対エネルギーをRE(k,m,c)とし、
    前記閾値相対エネルギー値をREthreshとする、
    Figure 2013507842
    として表される、
    ことを特徴とする請求項4に記載の方法。
  6. 前記過渡が、前記閾値を超えるサブバンドの数が解析中の全サブバンドの所定の比率を上回るフレーム内に存在する、
    ことを特徴とする請求項5に記載の方法。
  7. 各フレームの前記閾値を超えるサブバンドの数に基づいて重み係数を計算するステップをさらに含む、
    ことを特徴とする請求項5に記載の方法。
  8. 前記動的利得が、前記重み係数に従ってフレームごとに重み付けされる、
    ことを特徴とする請求項7に記載の方法。
  9. 各フレーム内の各サブバンドのサブバンド利得を導出するステップと、
    各サブバンドに前記サブバンド利得を適用するステップと、
    をさらに含むことを特徴とする請求項1に記載の方法。
  10. 時間平均利得に対するピーク利得レベルの比率を求めることにより、各サブバンドについてサブバンド波高率が計算され、該サブバンド波高率が、
    c番目のチャネルのm番目のフレームのk番目のサブバンドのサブバンド波高率値をCFとし、
    前記c番目のチャネルの前記m番目フレームの前記k番目のサブバンドのピーク利得レベルをGpeakとし、
    前記c番目のチャネルの前記m番目のフレームの前記k番目のサブバンドの時間平均利得をGavとする、
    Figure 2013507842
    として表される、
    ことを特徴とする請求項9に記載の方法。
  11. 前記サブバンド波高率が所定の音調閾値と比較され、前記サブバンド波高率が前記所定の音調閾値を下回る場合、前記サブバンド利得がさらに修正されることはない、
    ことを特徴とする請求項10に記載の方法。
  12. 前記所定の音調閾値を下回るサブバンド波高率を有する各サブバンドについて過渡が検出されなかった場合、前記適用するサブバンド利得が、指数減衰曲線を使用して低減される、
    ことを特徴とする請求項11に記載の方法。
  13. 前記所定の音調閾値を下回るサブバンド波高率を有する各サブバンドについて音調成分が検出されなかった場合、前記適用するサブバンド利得が、指数減衰曲線を使用して低減される、
    ことを特徴とする請求項11に記載の方法。
  14. 一連の時間にわたる複数のフレームに各々がセグメント化された少なくとも1つのチャネルを各々が有する少なくとも1つのオーディオ信号を受け取るための受取要素と、
    複数の連続する時間セグメントについて前記オーディオ信号の動的偏位の少なくとも1つの量を計算するための計算要素と、
    前記オーディオ信号を、少なくとも1つが個々のフレームを表す複数のサブバンドにフィルタ処理するためのフィルタ処理要素と、
    前記動的偏位の量から動的利得を導出し、前記フレームの少なくとも1つのサブバンドを解析して前記フレーム内に過渡が存在するかどうかを判断し、前記過渡を有する各フレームに前記動的利得を適用するための導出要素と、
    を備えることを特徴とするオーディオ信号処理装置。
  15. 前記動的偏位の量が、前記時間セグメントの波高率である、
    ことを特徴とする請求項14に記載のオーディオ信号処理装置。
  16. 個々の連続する時間セグメントの前記波高率が、前記フレーム内の前記オーディオ信号の平均的な信号の大きさの関数に対するピーク信号の大きさの関数の比率をとることにより計算される、
    ことを特徴とする請求項15に記載のオーディオ信号処理装置。
  17. 少なくとも1つのサブバンドのサブバンド相対エネルギー関数が計算され、該サブバンド相対エネルギー関数が、
    c番目のチャネルのm番目のフレームのk番目のサブバンドで測定したサブバンド相対エネルギーをRE(k,m,c)とし、
    前記c番目のチャネルの前記m番目のフレームの前記k番目のサブバンドで測定した瞬間エネルギーをEinst(k,m,c)とし、
    前記c番目のチャネルの前記m番目のフレームの前記k番目のサブバンドで測定した平均エネルギーをEav(k,m,c)とする、
    Figure 2013507842
    として表される、
    ことを特徴とする請求項16に記載のオーディオ信号処理装置。
  18. 前記フレームの各サブバンド内の前記サブバンド過渡エネルギーを閾値と比較し、前記閾値を超えるサブバンドの数を合計することにより、各フレームについて全体的なサブバンド過渡エネルギーが計算され、該全体的なサブバンド過渡エネルギーが、
    前記c番目のチャネルの前記m番目のフレームで測定した前記全体的なサブバンド過渡エネルギーをTE(m,c)とし、
    前記c番目のチャネルの前記m番目のフレームの前記k番目のサブバンドで測定した前記サブバンド相対エネルギーをRE(k,m,c)とし、
    前記閾値相対エネルギー値をREthreshとする、
    Figure 2013507842
    として表される、
    ことを特徴とする請求項17に記載の方法。
  19. 前記過渡が、前記閾値を超えるサブバンドの数が全サブバンドの1/4を上回るフレーム内に存在する、
    ことを特徴とする請求項18に記載のオーディオ信号処理装置。
  20. 各フレームの前記閾値を超えるサブバンドの数に基づいて重み係数が計算される、
    ことを特徴とする請求項19に記載のオーディオ信号処理装置。
  21. 前記動的利得が、前記重み係数に従ってフレームごとに重み付けされる、
    ことを特徴とする請求項20に記載のオーディオ信号処理装置。
  22. 前記解析要素が、前記フレーム内の各サブバンドのサブバンド利得を計算し、各サブバンドに前記サブバンド利得を適用する、
    ことを特徴とする請求項14に記載のオーディオ信号処理装置。
  23. 時間平均利得に対するピーク利得レベルの比率を求めることにより、各サブバンドについてサブバンド波高率が計算され、該サブバンド波高率が、
    c番目のチャネルのm番目のフレームのk番目のサブバンドのサブバンド波高率値をCFとし、
    前記c番目のチャネルの前記m番目フレームの前記k番目のサブバンドのピーク利得レベルをGpeakとし、
    前記c番目のチャネルの前記m番目のフレームの前記k番目のサブバンドの時間平均利得をGavとする、
    Figure 2013507842
    として表される、
    ことを特徴とする請求項22に記載のオーディオ信号処理装置。
  24. 前記サブバンド波高率が所定の音調閾値と比較され、前記サブバンド波高率が前記所定の音調閾値を下回る場合、前記サブバンド利得がさらに修正されることはない、
    ことを特徴とする請求項23に記載のオーディオ信号処理装置。
  25. 前記所定の音調閾値を下回るサブバンド波高率を有する各サブバンドについて過渡が検出されなかった場合、前記適用するサブバンド利得が、指数減衰曲線を使用して低減される、
    ことを特徴とする請求項23に記載のオーディオ信号処理装置。
  26. 前記所定の音調閾値を下回るサブバンド波高率を有する各サブバンドについて音調成分が検出されなかった場合、前記適用するサブバンド利得が、指数減衰曲線を使用して低減される、
    ことを特徴とする請求項23に記載のオーディオ信号処理装置。
JP2012533365A 2009-10-09 2010-10-08 録音の適応的ダイナミックレンジ強化 Active JP5730881B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US25032009P 2009-10-09 2009-10-09
US61/250,320 2009-10-09
US38186010P 2010-09-10 2010-09-10
US61/381,860 2010-09-10
PCT/US2010/052088 WO2011044521A1 (en) 2009-10-09 2010-10-08 Adaptive dynamic range enhancement of audio recordings

Publications (2)

Publication Number Publication Date
JP2013507842A true JP2013507842A (ja) 2013-03-04
JP5730881B2 JP5730881B2 (ja) 2015-06-10

Family

ID=43854856

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012533365A Active JP5730881B2 (ja) 2009-10-09 2010-10-08 録音の適応的ダイナミックレンジ強化

Country Status (11)

Country Link
US (1) US8879750B2 (ja)
EP (1) EP2486654B1 (ja)
JP (1) JP5730881B2 (ja)
KR (1) KR101732208B1 (ja)
CN (1) CN102668374B (ja)
BR (1) BR112012008257A2 (ja)
CA (1) CA2777182C (ja)
HK (2) HK1167527A1 (ja)
PL (1) PL2486654T3 (ja)
TW (1) TWI505263B (ja)
WO (1) WO2011044521A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018131513A1 (ja) * 2017-01-13 2018-07-19 ソニー株式会社 情報処理装置および方法、並びにプログラム

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9408010B2 (en) * 2011-05-26 2016-08-02 Koninklijke Philips N.V. Audio system and method therefor
EP2530956A1 (en) * 2011-06-01 2012-12-05 Tom Van Achte Method for generating a surround audio signal from a mono/stereo audio signal
CN104025192B (zh) * 2012-01-06 2018-12-18 索尼移动通信株式会社 智能自动音频录制调平器
EP2624449B1 (en) * 2012-02-01 2016-12-07 Harman Becker Automotive Systems GmbH Peak detection when adapting a signal gain based on signal loudness
ITTO20120530A1 (it) * 2012-06-19 2013-12-20 Inst Rundfunktechnik Gmbh Dynamikkompressor
US20140358556A1 (en) * 2013-05-08 2014-12-04 Max Sound Corporation Audio decompress program
WO2015038475A1 (en) 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
US9276544B2 (en) 2013-12-10 2016-03-01 Apple Inc. Dynamic range control gain encoding
US9608588B2 (en) 2014-01-22 2017-03-28 Apple Inc. Dynamic range control with large look-ahead
TWI543638B (zh) * 2014-01-28 2016-07-21 宏達國際電子股份有限公司 聲音產生系統和其音頻放大的方法
WO2016149085A2 (en) * 2015-03-13 2016-09-22 Psyx Research, Inc. System and method for dynamic recovery of audio data and compressed audio enhancement
US10109288B2 (en) 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters
GB2548321B (en) * 2016-01-26 2019-10-09 Melville Wernick William Percussion instrument and signal processor
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
IL297445B2 (en) 2017-10-17 2024-03-01 Magic Leap Inc Spatial audio for mixed reality
CN111713091A (zh) 2018-02-15 2020-09-25 奇跃公司 混合现实虚拟混响
FR3080728B1 (fr) * 2018-04-26 2020-11-20 Claude Carpentier Nouveau procede d'amelioration de la reproduction des basses frequences musicales
EP3804132A1 (en) 2018-05-30 2021-04-14 Magic Leap, Inc. Index scheming for filter parameters
CN108834037B (zh) * 2018-06-12 2019-09-13 广州酷狗计算机科技有限公司 播放音频数据的方法和装置
WO2020014517A1 (en) * 2018-07-12 2020-01-16 Dolby International Ab Dynamic eq
CN114586382A (zh) 2019-10-25 2022-06-03 奇跃公司 混响指纹估计
CN111451118B (zh) * 2020-05-14 2021-05-11 郑州科技学院 实现音乐房之间音乐交互的装置
CN117079657B (zh) * 2023-10-16 2024-01-26 中国铁塔股份有限公司 压限处理方法、装置、电子设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5921136A (ja) * 1982-06-04 1984-02-03 ミルズ―ラルストン,インコーポレイテッド 信号コンデシヨニング装置
JP2003509941A (ja) * 1999-09-16 2003-03-11 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 高音量伸張器回路
US20070270988A1 (en) * 2006-05-20 2007-11-22 Personics Holdings Inc. Method of Modifying Audio Content

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3978423A (en) 1974-08-19 1976-08-31 B-Cubed Engineering, Inc. Dynamic expander
US4811404A (en) 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
US7353169B1 (en) * 2003-06-24 2008-04-01 Creative Technology Ltd. Transient detection and modification in audio signals
US8750538B2 (en) 2006-05-05 2014-06-10 Creative Technology Ltd Method for enhancing audio signals
US8036903B2 (en) * 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
DE102006050068B4 (de) * 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
CN101308656A (zh) * 2007-05-17 2008-11-19 展讯通信(上海)有限公司 音频暂态信号的编解码方法
US8126172B2 (en) 2007-12-06 2012-02-28 Harman International Industries, Incorporated Spatial processing stereo system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5921136A (ja) * 1982-06-04 1984-02-03 ミルズ―ラルストン,インコーポレイテッド 信号コンデシヨニング装置
JP2003509941A (ja) * 1999-09-16 2003-03-11 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 高音量伸張器回路
US20070270988A1 (en) * 2006-05-20 2007-11-22 Personics Holdings Inc. Method of Modifying Audio Content

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018131513A1 (ja) * 2017-01-13 2018-07-19 ソニー株式会社 情報処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
EP2486654A1 (en) 2012-08-15
US8879750B2 (en) 2014-11-04
BR112012008257A2 (pt) 2017-06-06
KR101732208B1 (ko) 2017-05-02
CN102668374B (zh) 2015-09-09
HK1167527A1 (zh) 2012-11-30
WO2011044521A1 (en) 2011-04-14
JP5730881B2 (ja) 2015-06-10
EP2486654B1 (en) 2016-09-21
HK1173274A1 (zh) 2013-05-10
EP2486654A4 (en) 2014-06-04
TWI505263B (zh) 2015-10-21
PL2486654T3 (pl) 2017-07-31
CA2777182A1 (en) 2011-04-14
US20110085677A1 (en) 2011-04-14
KR20120093934A (ko) 2012-08-23
TW201137862A (en) 2011-11-01
CN102668374A (zh) 2012-09-12
CA2777182C (en) 2016-11-08

Similar Documents

Publication Publication Date Title
JP5730881B2 (ja) 録音の適応的ダイナミックレンジ強化
JP6328627B2 (ja) 雑音検出及びラウドネス低下検出によるラウドネスコントロール
US7848531B1 (en) Method and apparatus for audio loudness and dynamics matching
JP5602309B2 (ja) オーディオ信号の臨界周波数帯域における歪みを制御する方法とシステム
US8750538B2 (en) Method for enhancing audio signals
JP6177798B2 (ja) バスエンハンスメントシステム
US7970144B1 (en) Extracting and modifying a panned source for enhancement and upmix of audio signals
TWI489774B (zh) 緩級與速級音訊峰值限制技術
US10374564B2 (en) Loudness control with noise detection and loudness drop detection
EP2172930B1 (en) Audio signal processing device and audio signal processing method
JP2013102411A (ja) 音声信号処理装置、および音声信号処理方法、並びにプログラム
JP2013521539A (ja) 単一再生モードにおいてラウドネス測定値を合成するシステム
JP2013512474A (ja) 音響通信のための装置及び方法
CN101667437A (zh) 音频电信系统和方法
US20050147262A1 (en) Method for decreasing the dynamic range of a signal and electronic circuit
US10382857B1 (en) Automatic level control for psychoacoustic bass enhancement
US20170353170A1 (en) Intelligent Method And Apparatus For Spectral Expansion Of An Input Signal
EP2828853B1 (en) Method and system for bias corrected speech level determination
KR20240014462A (ko) 공간 오디오 객체의 동적 범위 조정
CN116964964A (zh) 音频信号处理系统、扬声器和电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130926

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140630

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140930

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20141007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141031

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150408

R150 Certificate of patent or registration of utility model

Ref document number: 5730881

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250