JP6846397B2 - オーディオ信号ダイナミックレンジ圧縮 - Google Patents

オーディオ信号ダイナミックレンジ圧縮 Download PDF

Info

Publication number
JP6846397B2
JP6846397B2 JP2018210888A JP2018210888A JP6846397B2 JP 6846397 B2 JP6846397 B2 JP 6846397B2 JP 2018210888 A JP2018210888 A JP 2018210888A JP 2018210888 A JP2018210888 A JP 2018210888A JP 6846397 B2 JP6846397 B2 JP 6846397B2
Authority
JP
Japan
Prior art keywords
attack
audio signal
gain
response time
gain response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018210888A
Other languages
English (en)
Other versions
JP2020005239A (ja
Inventor
ユリ ヨウ,
ユリ ヨウ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoguang Electric Co Ltd
Original Assignee
Guoguang Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=64316343&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP6846397(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Guoguang Electric Co Ltd filed Critical Guoguang Electric Co Ltd
Publication of JP2020005239A publication Critical patent/JP2020005239A/ja
Application granted granted Critical
Publication of JP6846397B2 publication Critical patent/JP6846397B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/002Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、とりわけ、(例えば、信号の最小レベルから最大レベルまでの)オーディオ信号のダイナミックレンジの圧縮に関するシステム、方法および技術に関し、例えば、スピーカやヘッドホンなどの出力デバイスの可聴歪みおよび/またはダメージをより良く防止または制限しながら、また、一般的にリスニング体験を向上させながら、オーディオ信号の音量を増大させるのに使用されうる。
スピーカなど使用される出力デバイスが正確または明瞭に生成できる範囲よりも音声部分のダイナミックレンジの方がかなり広い場合がある。例えば、再生される音声は、音声信号が低ければ聞き取れず、音声信号が高ければクリップされるか過負荷になる可能性がある。映画を観ている人は、音の大きなシーンではボリュームを下げ、静かなシーンではボリュームを上げる必要がある。
ダイナミックレンジ・コンプレッションは、これらの問題に対処しようと試みるものである。これは、再生装置および/または状況要件に適合するようにオーディオ信号のダイナミックレンジを低減する技術の一種を指す。そのような技術の総説は、D. Giannoulis, M. Massberg, J. Reiss., “Digital Dynamic Range Compressor Design - A Tutorial and Analysis,” Journal of Audio Engineering Society 60: pp. 399-408, 2012年(以下「Giannoulis 2012」という。)に開示されている。
1つの従来例は、図1に示すダイナミックレンジ・コンプレッサ(DRC)5である。ここで、Absモジュール10は絶対値演算を実行し、Logモジュール12は対数関数を実行する。より具体的な実現例では、Logモジュール12は、入力値を以下のようにデシベルに変換する。
Figure 0006846397
ただし、x(n)は入力信号を表し、XG(n)はn番目のサンプリング周期で変換された信号を表す。
次に、ゲイン計算部14は、例えば以下のように、スタティックレンジ・コンプレッションを行う(Giannoulis 2012より)。
Figure 0006846397
ただし、T、R、Wは、それぞれ、特定の閾値、圧縮比、ニー(knee)幅である。本明細書で使用するように、「スタティック」という用語は、他の入力値(すなわち、他の時点の入力値)を参照することなく個々の入力値を修正することをいう。例えばエキスパンダやリミッタを上記のコンプレッサと組み合わせることを含む、Rane Corporation, 2005, "Dynamic Processors-Technology & Application Tips"(以下「Rane 2005」という。)に記載されているような、ゲイン計算部14の他の実現例も可能である。
次に、図1に示すように、ゲイン計算部14の出力は減算器15においてゲイン計算部14の入力から減算され、次の負のゲイン信号が得られる。
Figure 0006846397
これは、信号レベルの滑らかな表現を得るために本質的にXLに平滑化演算を適用するためにレベル検出部16に入力される。Giannoulis 2012に記載されているものも含み、レベル検出部16には多くの可能な実現例がある。1つの特定の例では、レベル検出部16は以下の演算を実行する。
Figure 0006846397
ここで、Y1は内部状態であり、αAおよびαRはそれぞれ、1次無限インパルス応答(IIR)フィルタのアタック極およびリリース極である。これらの極は、YL(n)の滑らかさのレベルを制御し、または、YL(n)がXL(n)の変化にどのくらい速く反応するかを制御する。それぞれは、次式で示されるように、対応する時定数(TC)であるτに関連する。
Figure 0006846397
ただし、fsはサンプリング周波数である。すなわち、τAおよびτRをそれぞれ、アタックTCおよびリリースTCとすると、次式のようになる。
Figure 0006846397
レベル検出部16において平滑化された後、加算器18において、平滑化された負のゲインの負の値にメイクアップゲイン19(M)が加算され、その結果が指数関数モジュール20によって例えば次のように線形スケールに変換される。
Figure 0006846397
この線形ゲインは、乗算器21において、(選択的に遅延された)入力信号に適用されて、次のような出力信号が生成される。
Figure 0006846397
ここで、τは、ゲイン計算サイドチェーン30における遅延と一致させるため、および/または、サイドチェーン30に「さらに先を見る(look even further ahead)」(例えば、強力なアタックに対処するためにDRC 5に「提供(prime)」する)ことを可能にするために使用されうる任意の遅延部22によって提供される任意の遅延である。しかし、いくつかの実施形態では、遅延部22は完全に省略されている。
上記の説明から容易に理解されるように、DRCは通常、入力信号に時間と共に変化するゲインを乗算するので、信号に歪みを与える動作を実行することになる。このような歪みを低く抑え、理想的には聞こえないようにするには、ゲインがゆっくり変化するように大きなTCを使用する必要がある。このような大きなTCは、オーディオ信号の準定常部分に対してはうまく機能するが、通常、トランジェント・アタックや、打楽器や破裂音などの突発的で強力な音のバーストなどの問題が発生する。このような強力なアタックが到来した場合には、TCが大きいと、ゲイン変化が緩く、十分速やかにゲインを減少させてアタックが所望の範囲の上端を超えないようにすることができない。その結果、オーディオ信号がデジタル領域でクリップされ(歪みの原因となる)、パワーアンプが過負荷になり(損傷する可能性がある)、および/または、スピーカのボイスコイルがバックプレートに衝突する可能性がある(スピーカーが損傷する可能性がある)。これらの状況のすべてが厄介な音をもたらし、場合によっては損傷を引き起こす可能性がある。したがって、例えば、(1)強力なアタックの間に迅速なゲイン低減を可能にし、(2)準定常区間ではゲインが緩やかに変化するように、TCを入力信号のダイナミックな変化特性に適合させることが望まれる。
この点に関していくつかの試みがなされている。例えば、D. Giannoulis, M. Massberg, J. Reiss, “Parameter Automation in a Dynamic Range Compressor”, 2013年(以下「Giannoulis 2013」という。)では、トランジェント検出器またはアタック検出器を用いて入力信号のトランジェント区間と準定常区間とを区別し、トランジェント区間には短いTCを、準定常区間には長いTCを使用する。通常、そのような従来の手法は、準定常区間の間には、「標準的な」アタックTCおよびリリースTCを使用する。例えば、準定常区間の間では、アタックTCは50〜100ミリ秒(ms)であり、リリースTCは(およそ10倍の)500〜1000msであうりる。その後、トランジェントが検出されると、これらの値は一般的には約10分の1に低減される。すなわち、アタックTCが5〜10msに低減され、リリースTCが50〜100msに低減される。
トランジェントアタック中は短いアタックTCおよびリリースTCを使用し、準定常区間中は長いアタックTCおよびリリースTCを使用する従来の直接的なアプローチは、直感的には論理的であるように思えるかもしれないが、本発明者は、このようなアプローチが行き過ぎると実際には良い結果が得られないことを見出した。本発明は、過去に行われてきたのとは異なり、例えば、TC、あるいは、ゲインをどの程度速く変化させることができるかの他の尺度(「ゲイン応答時間」ともいう。)を調整することによって、この問題に対処する。
したがって、本発明の一実施形態は、オーディオ信号のダイナミックレンジを圧縮することに関し、例えば、入力オーディオ信号が取得され、入力オーディオ信号および所望の出力範囲に基づいて時変ゲイン信号が供給され、入力オーディオ信号に時変ゲイン信号が適用されて、出力オーディオ信号が提供される。この実施形態における時変ゲイン信号の提供は、(i)前記入力オーディオ信号にトランジェントが生じているか否かの指標を求めて提供するステップと、(ii)前記入力オーディオ信号にトランジェントが生じているか否かの前記指標に基づいてアタックゲイン応答時間(例えばアタック指数関数時定数)およびリリースゲイン応答時間(例えばリリース指数関数時定数)を提供するステップと、(iii)前記アタックゲイン応答時間および前記リリースゲイン応答時間をフィルタリングパラメータとして用いて、前記入力オーディオ信号に基づく信号をローパスフィルタリングするステップとを含む。前記入力オーディオ信号にトランジェントが生じているとの判定に応答して、前記アタックゲイン応答時間は減少され、前記リリースゲイン応答時間は増加される。好ましくは、前記アタックゲイン応答時間は、前記入力オーディオ信号の強度の急激な増加に応答して前記出力オーディオ信号の強度をどの程度速く増加させることが許されるかを主に制御し、前記リリースゲイン応答時間は、前記入力オーディオ信号の強度の急激な低下に応答して前記出力オーディオ信号の強度をどの程度速く低下させることが許されるかを主に制御する。
後述するように、前記入力オーディオ信号にトランジェントが生じているか否かの前記指標は、好ましくはアタック関数の値として提供されるが、これは、検出されたトランジェントの強度の尺度をも示す。好ましくは、検出されたトランジェントの強度の尺度が大きい結果として、前記アタックゲイン応答時間をより減少させ、前記リリースゲイン応答時間をより増加させる。
本発明に係るアタック関数は、以下のいずれか1つまたは任意の組み合わせを含む、さまざまな方法で実施することができる。(1)ピーク値を用いる波高率検出部に基づくもの。(2)所定の閾値との比較における前記入力オーディオ信号の強度に基づくもの。および/または、(3)先ず暫定アタック値を求め、次に前記暫定アタック値のうちの過去の値と前記暫定アタック値のうちの現在の値との間の変化量として増分値を計算することにより、その増分値とするもの。前記入力オーディオ信号はフレームベースであり、例えば、前記入力オーディオ信号にトランジェントが生じているか否かの前記指標が前記入力オーディオ信号の個々のフレームごとに求めることができる。あるいは、フレームベースではなく、トランジェントが生じているか否かを、サンプルごとに求めてもよい。
好ましい実施形態において、前記時変ゲイン信号の生成は、(例えば、入力オーディオ信号値の区分線形写像を用いて)所望のスタティックレンジ圧縮を達成するためのゲインを特定することも含む。
上記の概要は、本発明の特定の態様の簡単な説明を提供することを意図したものにすぎない。本発明のより完全な理解は、特許請求の範囲および添付の図面に関連する好ましい実施形態の以下の詳細な説明を参照することによって得ることができる。
以下の開示において、添付の図面を参照して本発明は説明される。ただし、図面は、本発明の特定の代表的な実施形態および特徴を単に示すだけであり、本発明の範囲を限定するものではないことを理解されたい。以下は、添付図面それぞれの簡単な説明である。
従来のダイナミックレンジ・コンプレッション装置(DRC)のブロック図。 本発明に係るDRCのブロック図。 本発明に係るレベル検出部のブロック図。 本発明に係るレベル検出部において使用される時定数の決定の例を示すフローチャート。
参照を容易にするために、本開示は複数のセクションに分割されている。各セクションの一般的な主題は、そのセクションの見出しによって示される。ただし、それらの見出しは、読みやすさを容易にする目的のためだけに含まれているものであり、いかなる形であれ本発明の範囲を限定することを意図したものではない。
好適な実施形態の一般的な構造
図2に、本発明によるDRC100の一例を示す。図示されているように、DRC100は、x(n)で示される信号101を入力する。オプションとして、入力信号101が、例えば、上記した従来のモジュール10および12の組み合わせによって実現される機能と類似または同一であり得る対数化機能を受けることによって前処理されるモジュール110に結合される。これに代えて、またはこれに加えて、任意の他の前処理を、前処理モジュール110で行うことができる。例えば、別の実施形態では、対数変換は行わず、代わりに、入力信号101は、例えば計算負荷を低減するために線形領域で処理される。入力信号101(オプションの前処理110の有りまたは無し)は、典型的には、(例えば、式1に示される特定のスタティックゲイン・コンプレッションのような、ゲイン計算部14に関連して上述したような)その範囲を所望の出力範囲に適合させるためにスタティックゲイン・コンプレッションを提供することによって入力信号(XG(n)として示される)を処理するゲイン計算部114に結合される。ゲイン計算部114の出力は、好ましくは、所望のレンジ・コンプレッションを達成するために各対応する時点(通常は離散時間)に適用されうる瞬時ゲインを示す暫定ゲイン信号115である。例えば、上述した従来例と同様に、実施形態では、ゲイン計算部114の出力(暫定ゲイン信号115)が負のゲイン信号であるように、ゲイン計算部114も式2と同様の演算を実行する。他の実施形態では、ゲイン計算部114は正のゲイン信号を提供する。いずれにせよ、XL(n)として指定された暫定ゲイン信号115は、平滑化のため、およびある実施形態では(例えば、以下でさらに詳細に説明するような)他の調整のために、レベル検出部116に結合され、そこでYL(n)として示される平滑化ゲイン信号117が生成される。
その後、例えば、1つまたは複数の入力パラメータ119(集合的にMとして示される)に基づいて、オプションのモジュール118において、平滑化ゲイン信号117(YL(n))に対して、オプションの追加的な調整が行われる。パラメータ119が提供される場合、それは手動で入力されてもよく、および/または別の自動システムによって提供されてもよい。モジュール118は、使用される場合、加算関数(通常は対数値が含まれる場合)または乗算関数(通常は線形値が含まれる場合)を実装することができる。最後に、モジュール120において、K(n)で示される線形ゲインファクタを提供するための所望の後処理(通常、モジュール110に適用されたものと逆)が適用される。K(n)は、入力信号101、または信号101が(例えば、遅延素子22を参照して上述したのと同じ考察、およびこのセクションで論じる追加の考慮事項を有する)オプションの遅延素子122内で遅延された後の信号を乗算するのに使用される。すなわち、乗算器121は、好ましくは、平滑化ゲインを反映する時間変化するファクタによって元の入力信号101を乗算する。したがって、その演算は、そのような入力信号101を直接乗算することによって実施することができる。別の実施形態では、入力信号101に対して対数演算が実行され、乗算器121は、対数ゲインを入力してそれを入力信号101の対数に加算するか、あるいは、入力信号101から対数ゲインを減算する。更に別の実施形態では、サイドチェーン130で求められた瞬時ゲインが、様々な他の方法のいずれか(例えば、ゲイン信号の性質に依存する方法)により、入力信号101に適用される。
この実施形態では、乗算器121の出力135は、y(n)で示される所望のダイナミックレンジ・コンプレッションがされた出力信号であり、これは、典型的には、直接的または間接的に(例えば、典型的には少なくともデジタル-アナログ変換を含む追加的な処理モジュールを介して)出力装置140(スピーカ等)に結合される。DRC100は、本発明によるDRCの一例であるが、以下の説明から容易に明らかであるように、本発明に従って、種々の他のDRC構造のいずれを使用してもよい。
本発明の本実施形態の重要な一側面は、入力オーディオ信号101の瞬時特性に一層良く適応させるために暫定ゲイン信号115を(例えば、レベル検出部116において)調整し、結果の改善と歪の低減を共に得るための方法にある。従来のシステム5(上述)を改良した実施形態において、このような調整は、オーディオ信号(115)の異なる部分に対して(例えば、レベル検出部116内で)使用されるTCをよりよく制御することによって達成されることが好ましい。本明細書の他の箇所でも述べるように、別の実施形態では、入力信号に基づいてゲインを決定する前に入力信号101のバージョンに平滑化が適用されるように、レベル検出部116とゲイン計算部114とを入れ替えてもよい。
いずれにしても、本発明の前述の側面は、ゲインが急速に変化しうる短いゲイン応答時間とゲインが緩やかに変化するだけの長いゲイン応答時間の、所望のゲイン応答時間(すなわち、指数関数時定数に関係するかどうかにかかわらず)をより良好に制御する技術に関する。以下の議論は、主に、上述した従来のシステムの改善に焦点を当てており、従って、しばしばTCについて言及することになる。しかし、本明細書における1つまたは複数のTCに対するいずれの言及も、何らかの他のゲイン応答時間に対する言及によって置き換えることができることを理解されたい。すなわち、本明細書で論じられるアプローチは、TCに限定されるものではなく、定義される他のゲイン応答時間の設定に直接的に適用されうる。
上述したレベル検出部16と幾分類似しているが、本発明によるレベル検出部116は、好ましくは図3に示すように構成される。図示されるように、入力信号101は、レベル検出部116のアタック検出モジュール151に結合される。以下で詳細に説明するように、モジュール151において、好ましくは、入力信号101の各サンプルについて、アタックの潜在的な存在、より好ましくは、潜在的なアタックの強さ(例えば、強度の測定値)を示すアタック値a(n)が決定される。このアタック値は、好ましくは、以下でさらに詳細に説明するように、それに基づいてアタックTCおよびリリースTCを生成するゲイン応答時間(例えば、TC)生成モジュール152の入力に結合される。好ましい実施形態では、アタックTCは、入力信号101の強度の急激な増加に応答して出力オーディオ信号(例えば、出力信号135)の強度をどのくらい迅速に増加させるか(例えば、トランジェント・アタックの見かけ上の存在において、システムが入力信号101の抑制をどれほど迅速にランプアップさせるか)に影響を与える(例えば、主に制御する)主要なファクタである。これに対し、リリースTCは、入力オーディオ信号の強度の急激な低下に応答して出力オーディオ信号の強度をどのくらい迅速に低下させるか(例えば、トランジェントが終了した後、システムが準定常ゲインにどれくらい早く戻すか)に影響を与える(例えば、主に制御する)主要なファクタである。
そのようなTCは、好ましくは、暫定ゲイン信号115に結合された別の入力を有するフィルタ153に結合され、それによって使用される。好ましい実施形態では、フィルタ153は、例えば、上記の式3で定義されるようなフィルタリング動作を実施するローパスフィルタであり、ゲイン応答時間生成モジュール152によって出力されたTCによって制御される可変伝達関数を有する。したがって、本発明の他の(より具体的な)重要な側面は、(1)TCが生成される方法、および、(2)そのようなTCがそれらに基づいているために、アタック値がどのように決定されるか、である。したがって、以下の説明の重要な部分は、これら2つの特徴に焦点を当てている。
フィルタ153によって実行されるフィルタリング演算に関して、短いアタックTCは急速なゲイン低減を可能にし、それによって強力なアタックが指定の最大値を超えるのを防止する。しかし、オーディオ信号のアタックは、通常、振幅が増加する正弦波サイクルの最初の立ち上がり四分の一周期でピークパワーに達することはなく、振幅が減少する少なくとも1つの立ち下がり四分の一周期が続く。その後、大きさ(magnitude)はその後の四分の一周期で再び増加し始める。従来のアプローチを使用する場合には、これが問題になる可能性がある。例えば、式3からわかるように、上記した背景技術の欄で述べた例に関して、大きさが投影された内部状態Y1(n)より小さいときはいつでも、リリースメカニズムがキックインし、これはゲインを増加させる。その結果、その後の四分の一周期に到来する強力なアタックに対処するために必要なゲインの削減はすでに打ち消されている。リリースTCが短いほど、この打ち消し効果は大きくなる。したがって、1つの態様において、本発明は、以下を使用することによってこの打ち消し効果を軽減する。
●トランジェント・アタック中はリリースTCを長くする。
●準定常区間中はリリースTCを短くまたは通常にする。
より好ましくは、本発明によるシステム100は、図4に示すような、(好ましくは、レベル検出部116のゲイン応答時間生成モジュール152内の対応するTCの生成を介して選択される)2つの動作モードを含む処理180を実施する。これは例えば以下のとおりである。
●(ステップ181で、例えば、検出部151によって提供されたアタック値160に基づいて)トランジェント・アタックが発生していると判定された期間中は、DRCは、(準定常区間と比べて)短いアタックTC(ショートアタックTC)と長いリリースTC(ロングリリースTC)が使用されるアタックモード(Attack Mode)に入る(ステップ182)。
●他の期間(例えば、検出部151によって提供されたアタック値160に基づいて、ステップ181で決定された準定常区間)中は、DRCは、(トランジェント区間と比べて)長いアタックTC(ロングアタックTC)と短いリリースTC(ショートリリースTC)または通常のリリースTC(ノーマルリリースTC)が使用される準定常モード(Quasi-Stationary Mode)に入る(ステップ183)。
既に述べたように、これらのモード182および183は、分離されてはっきりと区別される必要はないが、代わりに特定の実施形態では、例えばアタック関数が連続的な値である閾値のみによって区別される連続体の異なる部分を表すことができる。
すなわち、アタックTCとリリースTCの両方が同じ方向に(アタック時には短く、準定常時にはより長く)移動する従来のアプローチとは異なり、本発明の好ましい実施形態では、それらは反対方向に移動する(アタックTCは、トランジェントが検出された場合は短くなり、準定常区間の場合は長くなるが、リリースTCは、トランジェントが検出された場合は長くなり、準定常区間の場合は短くなる)。したがって、上記の背景技術の欄で説明した従来技術と幾分類似しているが、本発明によるアプローチは、アタックTCを、準定常区間中の50〜100msから、トランジェントが検出された区間の0〜5または0〜10msに低減することができる。しかし、従来技術とはかなり対照的に、本発明による手法は、リリースTCを、準定常区間中の50〜1000msから、トランジェントが検出された区間の少なくとも500ms、1秒、2秒、4秒または無限(すなわち、少なくとも5,10,20,40、またはさらには無限大のファクタによって)にまで増加させることができる。
この目的のために、トランジェントがいつ発生しているかを決定することが、最初は望ましい。本実施形態は、この点に関していくつかの異なる実施形態を考えている。しかし、一般に、この目的に使用される機能(すなわちアタック関数)は、以下の要件を満たすことが好ましい。
Figure 0006846397
ここで、a(n)はアタック関数であり、a(n)の値が大きいほど強い(または大きい)トランジェント状態を示す。
このようなアタック関数の一例は、Giannoulis 2013に示されている波高率検出部に基づくが、RMS値の使用をピーク値に置き換えると、次の波高率検出部が導かれる。
Figure 0006846397
ここで、c(n)はクレストファクタ(波高率: crest factor)(これは例えばa(n)として直接使用されうる)であり、αcは式4を用いてTCτcから導出できる極である。好ましくは、τcは、通常のアタックTCに基づいて選択される。例えば、通常のアタックTC = 20msである場合、τcも20msに選択することができる。
アタック関数a(n)の値が決定されると、τA(n)TCおよびτR(n)TCを決定することができる。これを行うための1つのアプローチは次のとおりである。
Figure 0006846397
ここで、Taは、好ましくはアタック関数に依存し、リスニングテストを用いて実験的に選択される特定の閾値である。上記のように、通常はリリースTCはアタックTCよりもはるかに長いため、上記のショートリリースTC(τR Short)はロングアタックTC(τA Long)よりもずっと長くなる可能性がある。時定数τA Long、τA Short、τR short、τR Longの具体的な値は、本発明について上で議論した範囲から選択することが好ましいが、特定の状況のために他の値を選択することもできる。
あるいは、連続的に変動するTCが望ましい場合は、以下のような軟判定メカニズムを使用して判定してもよい。
Figure 0006846397
ここで、τA maxは最大(準定常)アタックTCであり、τR minは最小(準定常)リリースTCであり、そのような定数は、例えば上記の範囲内にあることができる(50≦τA max≦100msおよび100≦τR min ≦1000ms)。しかし、代わりに、a(n)が増加するとτA(n)を減少させτR(n)を増加させる他の関数を使用してもよい。そのような関数またはa(n)のいずれかの変化が、対象TCが特定の強度を有するアタックにどれくらい迅速に応答するかに影響を及ぼしうるため、好ましくは、使用される特定の関数は、a(n)がどのように定義されるかに依存する。
前述の議論は主に本発明の特定の実施形態に関する。しかし、本開示を通して論じられるように、多くの異なる実施形態が可能である。各々は、典型的には、アタックおよびリリースゲイン応答時間(例えば、時定数)を使用して時変ゲイン信号を生成し、その後、入力オーディオ信号(例えば、入力信号101)に印加されて、出力オーディオ信号(例えば、出力信号135)を提供する。そのようなゲイン信号は、異なる実施形態(例えば、正または負のゲインのいずれかを反映し、線形ゲインまたは対数ゲインとして定義される等)において異なる特性を有する(すなわち、異なる方法で生成される)ので、ゲイン信号が入力信号に適用される方法は、それに応じて変化することになる。
以下のセクションでは、例えば異なるアタック関数を使用する種々の代替実施形態について論じる。
パワーベースのアタック関数
本発明で使用することができる別のタイプのアタック関数a(n)は、入力信号のパワーに基づく。例えば、信号のパワー(power)(または、より一般的には強度(strength))が式1で使用される閾値Tのような特定の閾値より高いかの判定に基づいて(すなわち、特定の閾値との比較における入力信号101の強度の比較に基づいて)アタックモードに入るかどうかを決定する。最も単純なパワー検出部は、入力信号の絶対値をみる。例えば、式5に従うために、そのようなアタック関数は、以下のように定義することができる。
Figure 0006846397
ここで、TPは、コンプレッション・スレッショルドに関連する閾値である。L^1ノルムが上式で使用されているが、代わりの実施形態では、L^2ノルムおよび/または別のノルムが代わりに(または一緒に)使用される。上述したように、本明細書における信号に関して「パワー(power)」または「エネルギー(energy)」という用語を使用しても、そのような用語が使用される特定の文脈において明確に示されない限り、特定の定義を意味するものではなく、様々な異なる方法(例えば絶対値、絶対値の二乗、あるいは、前述の種々の関数のいずれか)のいずれかで測定することができる信号の「強度(strength)」である。
前述のアタック関数の値が各サンプルと共に変化することから1つの問題が生じうる。結果として、TCは時々サンプル間で急激に変化しうる。これは通常、(例えば、レベル検出部116が存在するために)問題は生じないが、アタック関数それ自体にある程度の平滑化が適用されうる。例えば、通常の1極フィルタをこの目的のために使用することができる。
Figure 0006846397
ここで、s(n)は平滑化パワー検出部であり、アタック関数を提供する式9における|x(n)|の代わりに使用することができる。しかし、そのような平滑化動作は、遅延ブロック122で適応されることが好ましい追加の遅延を生じる。
式6のクレストファクタが使用され、入力サンプルの絶対値がパワー検出部として使用される場合、式10は式6の第2式と同じになる。したがって、YAbs(n)は、例えば以下のようにアタック関数を構築するために直接使用されうる。
Figure 0006846397
式2で定義される負のゲインXL(n)は常に0dB以上であり、その計算にはスレッショルディングメカニズムが含まれるので、それは直接、アタック関数として使用することができる。
Figure 0006846397
それの平滑化されたバージョンYL(n)は、平滑化が望まれる状況である。すなわち、次式のとおりである。
Figure 0006846397
XL(n)およびYL(n)が上記で使用されているが、任意の他の形態の負のコンプレッション・ゲインがDRCの任意の形態で代わりに使用されうることに留意されたい。
インクリメンタル・アタック関数
上述のアタック関数の1つの潜在的な問題は、アタックのピークが経過した後、すなわちアタック関数が最大に達して減少し始めた後でも、DRCがまだアタックモードにあることである。この問題は、次のようなインクリメンタル・アタック関数を使用して解決できる。
Figure 0006846397
これは、本明細書で説明する他のアタック関数のいずれかに基づくことができ、アタック関数がアタックの立ち上がり側でのみ1より大きいことを保証する。
パワーゲート・クレストファクタ
式6からわかるように、クレストファクタは入力信号のパワーに依存しない。したがって、DRCが直接それをアタック関数として使用すると、信号パワーが低すぎてDRCがコンプレッションを受けることができない状況でも、DRCがアタックモードに入ってしまう。これを防止するために、パワー検出部を追加して、信号パワーが低いときには、アタック関数値を修正する(例えば、それを1にリセットする)ことができる。(インクリメンタル・クレストファクタを使用する)具体例は次のとおりである。
Figure 0006846397
ここで、a'(n)は、上述したパワーベースのアタック関数のいずれかのような、パワーベースのアタック関数である。
あるいは、上記のようなインクリメンタル・クレストファクタを使用するのではなく、インクリメンタル・パワー・スレッショルドを使用して、DRCがアタックの立ち上がりエッジでのみアタックモードに入ることを保証することができる。
Figure 0006846397
ここで、TPDは、最小パワー増分に対応する特定の閾値である。式12または式13がパワー検出部a'(n)として使用される場合、パワー・スレッショルディング(a'(n)>TP)は、式1で実行され、したがって、上式からはなくなって、次のようになる。
Figure 0006846397
フレームベース・アタック関数
フレームベースの処理は、音声処理アルゴリズムを実装するために広く使用されている。アルゴリズムテストと意思決定がフレーム内の固定数のサンプルに基づいている場合、よりロバストな結果が得られることが多い。
フレーム内のサンプル数をNとすると、サンプルインデックスnは、
n = kN + m
で表される。
ここで、kはフレームインデックス、mはフレーム内のサンプルインデックスであり、その結果、以下の表現が得られる。
Figure 0006846397
フレーム内の変数の最大、平均、中央値、または他の統計的尺度が、その変数のフレーム全体を表す値として選択されうる。一例として、最大値を使用する場合、k番目のフレームに対するアタック関数およびクレストファクタの値は、次式で表される。
Figure 0006846397
特定の実施形態では、これらの値を使用して、フレーム全体のアタックモードに入るか準定常モードに入るかを決定し、フレーム内のすべてのサンプルのそれぞれのTCを決定する。
例えば、フレームベースのシステムにおけるk番目のフレームに対して、式14のインクリメンタル・アタック関数は、以下のように修正されうる。
Figure 0006846397
ak(n)のアタック関数値の計算に平滑化演算が含まれる場合、Ak-1は、次のように、前のフレームのアタック関数の最後のサンプルで置き換えることができる。
Figure 0006846397
式6で与えられるクレストファクタと式13におけるアタック関数は、このような定義に適している。
式13のYL(n)は、式12のXL(n)の平滑化バージョンであるため、式18のAkは、フレーム内のXL(n)の最大値で置き換えることができる。
Figure 0006846397
式15で定義されたパワーゲート・インクリメンタル・クレストファクタは、次式で表される。
Figure 0006846397
ここで、Akは、好ましくは、式9〜13のいずれかから導出されるようなパワーベース・アタック関数を使用して決定される。式16で定義されるパワーゲート・インクリメンタル・クレストファクタは次式で表される。
Figure 0006846397
式12または式13がエネルギー検出部(A')として使用される場合、パワー・スレッショルディング(A'k>TP)が式1で実行されるので、上式は次のように簡略化されうる。
Figure 0006846397
式13のエネルギー検出部は式12の平滑化バージョンであるため、これらを組み合わせて次のパワーゲート・クレストファクタを形成することができる。
Figure 0006846397
上記で得られたアタック関数を用いて、DRCがフレーム全体に対してアタックモードまたは準定常モードに入るかどうかを決定し、フレーム内のすべてのサンプルについてそれぞれのTCを決定することができる。例えば、式7は、フレームベースの処理のために以下のように修正することができる。
Figure 0006846397
τA kとτR kは、フレーム内のすべてのサンプルに適用される。同様に、式8は次のように修正される。
Figure 0006846397
追加的な実現例
TCが各入力サンプルで変化するので、式4の指数関数は、好ましくは、各入力サンプルのアタック極とリリース極の両方について評価される。これは、特にMCUやDSPのような低コストのプロセッサでは、計算上の負担が大きくなる。この問題を回避するために、いくつかの実施形態では、式4の指数関数は、その短縮型テーラー展開によって近似される。例えば、式4の一次展開は、次式で表される。
Figure 0006846397
この式を式8に代入すると次式が得られる。
Figure 0006846397
フレームベースの処理では、フレーム内のすべてのサンプルに対してアタック極とリリース極が1回だけ計算されるため、上記の単純化は一般にあまり価値はない。
式3の1極IIRフィルタは、極端な場合には次のように簡略化することができる。
Figure 0006846397
これはDRCがアタックモードにある場合にのみ生じる。式4のために、上記2つの式から、それぞれ、次式が得られる。
Figure 0006846397
および
Figure 0006846397
式19を使用すると、式3の第2の部分は次のようになる。
Figure 0006846397
そうすると、式3の全体は次のようになる。
Figure 0006846397
このようなゼロのアタックTCから非ゼロTCに切り替えるとき、式21は、好ましくは、式3の内部状態Y1を設定するために使用される。
同様に、式20を使用すると、式3の第1の部分は次のように簡略化される。
Figure 0006846397
式19および式20の両方が使用される場合、式3の全体は次のように簡略化される。
Figure 0006846397
ここでも、このようなゼロのアタックTCから非ゼロTCに切り替えるとき、式21は、好ましくは、式3の内部状態Y1を設定するために使用される。
システム環境
一般的に言えば、ここに記載されたシステム、方法、モジュール、コンポーネント、機能および技術のすべては、1つまたは複数のプログラマブル汎用コンピューティングデバイスを使用して実施することができる。このようなデバイス(例えば、本明細書で言及される電子デバイスのいずれかを含む)は、例えば、共通バスを介して、例えば、互いに結合された以下のコンポーネントの少なくともいくつかを含む。(1)1つ以上の中央処理装置(CPU)、(2)読み出し専用メモリ(ROM)、(3)ランダムアクセスメモリ(RAM)、(4)その他の統合または装着された記憶装置、(5)(例えば、シリアルポート、パラレルポート、USB接続またはFireWire接続などの有線接続を使用するか、または、RFID(radio-frequency identification)、任意の他の近距離通信(NFC)プロトコル、ブルートゥース(登録商標)、または802.11プロトコルなどの無線プロトコルを使用して)他のデバイスとのインタフェースとなる入力/出力ソフトウェアおよび回路、(6)イーサネット(登録商標)カードなどの有線接続を用いて、または、コード分割多重アクセス(CDMA)、GSM(登録商標)、ブルートゥース、802.11プロトコル、その他セルラーベースもしくは非セルラーベースのシステムを用いて、本発明の多くの実施形態において、インターネットまたは他のネットワークに接続する、1つまたは複数のネットワークに接続するためのソフトウェアおよび回路、(7)ディスプレイ(例えば、CRTディスプレイ、液晶ディスプレイ、有機発光ディスプレイ、ポリマー発光ディスプレイまたは他の薄膜ディスプレイ)、(8)他の出力装置(1つまたは複数のスピーカー、ヘッドホンセット、レーザーまたは他の光プロジェクターおよび/またはプリンターなど)、(9)1つ以上の入力装置(マウス、1つ以上の物理的スイッチまたは可変コントロール、タッチパッド、タブレット、タッチセンシティブディスプレイまたは他のポインティングデバイス、キーボード、キーパッド、マイクロホンおよび/またはカメラまたはスキャナ)、(10)大容量記憶装置(ハードディスクドライブまたはソリッドステートドライブなど)、(11)実時間クロック、(12)フラッシュメモリ、半導体メモリ、磁気ディスク、磁気テープ、光磁気ディスク、光ディスクなどを利用する他の任意の携帯型ドライブなどのリムーバブルストレージ読み取り/書き込みデバイス、および/または、(13)(例えば、ファクシミリを送信するため、または、インターネットその他のコンピュータネットワークに接続するための)モデム。動作中、このような汎用コンピュータによって実行される程度まで、上記の方法および機能性を実現するための処理ステップは、通常、最初に大容量記憶装置(例えば、ハードディスクまたはソリッドステートドライブ)に格納され、RAMにロードされ、RAMからCPUによって実行される。ただし、処理ステップが最初からRAMまたはROMに記憶されている、および/または、大容量記憶装置から直接実行される態様もありうる。
本発明を実施するために、使用に適した汎用プログラマブルデバイスは、様々なベンダーから入手することができる。様々な実施形態では、タスクのサイズおよび演算量に応じて異なるタイプのデバイスが使用される。このようなデバイスは、例えば、メインフレームコンピュータ、マルチプロセッサコンピュータ、1つ以上のサーバボックス、ワークステーション、パーソナル(例えばデスクトップ、ラップトップ、タブレットまたはスレート)コンピュータ、および/または、パーソナルデジタルアシスタント(PDA)、無線電話(例えばスマートホン)、その他のプログラマブル装置またはプログラマブルデバイスのような小さなコンピュータであってもよく、これらは、スタンドアローンであってもよいし、ネットワークに有線で接続されていてもよいし、ネットワークに無線で接続されていてもよい。
さらに、汎用プログラマブルデバイスが上記で説明されたが、代替の実施形態では、1つまたは複数の専用プロセッサまたはコンピュータが代わりに(または加えて)使用される。一般に、特に明記されている場合を除いて、上述した機能のいずれかは、ソフトウェアおよび/またはファームウェアを実行する汎用プロセッサ、専用(例えば、論理ベース)ハードウェア、または任意のこれらのアプローチの組み合わせであり、特定の実装は既知のエンジニアリング上のトレードオフに基づいて選択される。より具体的には、上記の任意の処理および/または機能性が、固定された、所定のおよび/または論理的な態様で実施される場合、プログラミング(例えば、ソフトウェアまたはファームウェア)を実行するプロセッサ、論理コンポーネント(ハードウェア)の適切な配置、またはこれら2つの任意の組み合わせによって実現されうることを、当業者は容易に理解するであろう。言い換えれば、論理演算および/または算術演算を、プロセッサ内でそのような演算を実行するための命令および/またはそのような演算を実行するための論理ゲート構成に変換する方法はよく理解されている。コンパイラは通常、両方の種類の変換に使用される。
本発明はまた、方法および機能を実行するための、および/または、本発明のモジュールおよび構成要素を実現するための、ソフトウェアまたはファームウェアプログラム命令(すなわち、コンピュータ実行可能なプロセス命令)が記憶された機械読み取り可能な有形(または非一時的)媒体にも関連することを理解すべきである。そのような媒体には、例として、磁気ディスク、磁気テープ、CDおよびDVDなどの光学的に読み取り可能な媒体、または様々なタイプのメモリカード、USBフラッシュメモリデバイス、ソリッドステートドライブなどの半導体メモリが含まれる。いずれの場合も、媒体は、小型ディスクドライブまたは小型ディスク、ディスケット、カセット、カートリッジ、カード、スティックなどの可搬型アイテムの形態をとってもよく、または、ハードディスクドライブ、コンピュータまたは他の装置に設けられたROMまたはRAMなどの、比較的大きなまたはより移動性のないアイテムとして実現することができる。本明細書中で使用される場合、特に明記しない限り、コンピュータ読み取り可能な媒体または機械読み取り可能な媒体上に格納されたコンピュータで実行可能な処理ステップへの言及は、そのような処理ステップが単一媒体上に記憶される状況だけでなく複数の媒体に別れて記憶されている状況にも適用できることを意図している。
前述の説明は、主に電子コンピュータおよび電子装置を強調している。しかし、基本的な論理および/または算術演算を実行することができる電子的、光学的、生物学的および化学的処理の任意の組み合わせを利用するデバイスのような、他の任意のコンピューティングまたは他のタイプのデバイスを代わりに使用できることを理解されたい。
さらに、本開示が、プロセッサ、コンピュータ、サーバ、サーバ装置、コンピュータ読み取り可能な媒体または他の記憶装置、クライアント装置、または任意の他の種類の装置または装置を指す場合、そのような参照は、コンピュータ装置、サーバ、サーバ装置、コンピュータ読み取り可能な媒体または他の記憶装置、クライアント装置、または任意の他のそのような装置または装置を含むが、これらに限定されない。例えば、サーバは、一般に、適切な負荷分散を用いて、単一デバイスまたはサーバデバイスのクラスタ(ローカルまたは地理的に分散された)を使用して実装することができる(および、しばしば実施する)。同様に、サーバ装置およびクライアント装置は、例えば、そのような装置のそれぞれが、そのような処理ステップの一部およびそれ自身のプロセッサを格納する独自の記憶装置を有し、完全な方法の処理ステップを実行する際に協働し、これらの処理ステップを実行する。
その他の検討事項
本発明の技術は、オーディオ信号全体に適用されるものとして説明したが、代替の実施形態では、オーディオ信号を複数の周波数帯域に分割し、そのような技術のいずれかまたはすべてを、1つまたは複数の帯域に別々に適用してもよい。
本明細書で使用される場合、用語「結合された(coupled)」または任意の他の形態の単語は、例えば前処理の目的で、直接に接続、または、1つまたは複数の他の要素または処理ブロックを介して接続されることを意味することを意図している。個々のステップ、モジュールまたは処理ブロックが互いに直接接続されているように示され、かつ/または説明されている図面および/またはそれらの説明において、そのような接続は、追加のステップ、モジュール、要素および/または処理ブロックを含むことができる。本明細書中の信号への言及は、本明細書中の信号の処理されたバージョンまたは未処理のバージョンを意味する。すなわち、本明細書で議論および/または特許請求の範囲に記載される特定の処理ステップは、排他的であることを意図するものではなく、むしろ、本明細書で明示的に議論され又は特許請求の範囲に記載される任意の2つの処理ステップ間で中間の処理が実行されてもよい。
前述の説明では、用語「オペレータ(operators)」、「オペレーション(operations)」、「ファンクション(functions)」および類似の用語は、特定の実現例/実施形態に応じた、処理ステップまたはハードウェアコンポーネントを指す。
一方で、本明細書に明示的に記載された開示と他方では参照により本明細書に組み込まれる資料との間に矛盾または矛盾が生じた場合には、本開示が優先される。本書に引用されている出願または特許の開示間に矛盾または矛盾が生じた場合は、直近で追加または変更された開示が優先されるものとする。
明確に指示されていない限り、上記の議論において、「最適」、「最適化」、「最大化」、「最小化」、「最善」、ならびに同様の単語および比較を示す他の単語および接尾辞などの単語は、それらの絶対的な意味では使用されていない。むしろ、そのような用語は、通常、ユーザ指定の制約および目的、ならびにコストおよび処理または製造上の制約など、他の潜在的な制約を考慮して理解されるべきものである。
上記の説明では、特定の方法は、特定の順序で列挙されたステップに分解して説明した。同様に、ある順序で並べられたモジュールを表示して記述することによって、ある処理が行われた。しかし、そのようなそれぞれの場合において、逆のことが明確に示されているか、又は実際の考慮事項(例えば、あるステップの結果が別のステップを実行するために必要である場合など)によって義務づけられている場合を除いて、説明したステップおよび/またはモジュールを並べ替えおよび/または2つ以上のそのようなステップ(またはそのようなモジュールの2つ以上の中の処理)を並行して実行できることを理解されたい。例えば、(図2に示す)システム100では、ゲイン計算部114がレベル検出部116の前にある。しかし、別の実施形態では、レベル検出部116がゲイン計算部114の前にあってもよい。より一般的には、(図2には示されるか示されないかにかかわらず)潜在的に付加的な機能と共に、ゲイン計算部114の機能(例えば、スタティック・ゲイン・コンプレッション)およびレベル検出部116(例えば、平滑化またはローパスフィルタリング)を含む、より大きな適応ゲイン生成モジュール132を定義することができ、そのような機能性は様々な異なる方法で配置されうることは、当業者には容易に理解されるであろう。例えば、周知のように、線形時間不変の演算は通常、任意の所望の順序で配列することができる。
ここでは、処理ステップ、他の動作、処理ステップまたは動作の主題をトリガし、制限し、フィルタリングし、または他の方法で影響を及ぼすことを意図した「基準(creterion)」、「複数の基準(multiple creteria)」、「条件(condition, conditions)」については、単数形または複数形が使用されているかどうかにかかわらず、「1つ以上」を意味するものとする。例えば、任意の基準または条件は、動作、イベントおよび/または発生(すなわち、複数部分の基準または条件)の任意の組み合わせ(例えば、ブールの組み合わせ)を含むことができる。
同様に、上記の説明では、機能は、特定のモジュールまたはコンポーネントに起因することがある。しかし、機能は、一般に、任意の異なるモジュールまたはコンポーネントの間で所望のように再分配されてもよく、特定のコンポーネントまたはモジュールの必要性が全くない、および/または、新たなコンポーネントまたはモジュールの追加が必要な場合もありうる。機能性の正確な配分は、好ましくは、当業者に理解されるように、本発明の特定の実施形態を参照して、公知の工学的なトレードオフに従って行われる。
上記の議論において、「含む(include, includes, including)」および他のすべての形態の単語は限定として理解されるべきではなく、そのような単語に続く特定の事項は単なる例示であると理解されるべきである。
本発明のいくつかの異なる実施形態は、上記および/または本明細書に引用により組み込まれる任意の文献に記載されており、そのような各実施形態は特定の特徴を含むものとして記載される。しかし、任意の単一の実施形態の説明に関連して説明された特徴は、その実施形態に限定されず、他の実施形態のいずれかにおいて様々な組み合わせで含まれ、および/または、配置されてもよいことが意図されていることは、当業者には明らかである。
したがって、本発明は、その例示的な実施形態および添付の図面に関して詳細に説明されているが、当業者には、本発明の様々な適応化や変更が、本発明の意図および範囲から逸脱することなく達成され得ることは明らかである。したがって、本発明は、図面に示されかつ上に記載された厳密な実施形態に限定されるものない。むしろ、本発明の意図から逸脱しないあらゆる変形が添付の特許請求の範囲によってのみ限定された範囲内に含まれるとみなされるべきである。

Claims (21)

  1. オーディオ信号のダイナミックレンジを圧縮する方法であって、
    (a)入力オーディオ信号を取得するステップと、
    (b)前記入力オーディオ信号および所望の出力範囲に基づいて時変ゲイン信号を提供するステップと、
    (c)前記入力オーディオ信号に前記時変ゲイン信号を適用して、出力オーディオ信号を提供するステップと、
    を有し、
    前記ステップ(b)は、(i)前記入力オーディオ信号が準定常状態であるかトランジェント状態であるかの指標を求めて提供するステップと、(ii)記指標に基づいてアタックゲイン応答時間およびリリースゲイン応答時間を提供するステップと、(iii)前記アタックゲイン応答時間および前記リリースゲイン応答時間をフィルタリングパラメータとして用いて、前記入力オーディオ信号に基づく信号をローパスフィルタリングするステップとを含み、
    前記入力オーディオ信号が前記トランジェント状態であるとの判定に応答して、前記入力オーディオ信号が前記準定常状態である場合と比べて、第1のフィルタリングパラメータである前記アタックゲイン応答時間を減少させ、第2のフィルタリングパラメータである前記リリースゲイン応答時間を増加させることを特徴とする方法。
  2. 記指標は、検出されたトランジェントの強度の尺度を示すことを特徴とする請求項1に記載の方法。
  3. 検出されたトランジェントの強度の尺度が大きい結果として、前記アタックゲイン応答時間をより減少させ、前記リリースゲイン応答時間をより増加させることを特徴とする請求項2に記載の方法。
  4. 記指標は、ピーク値を用いる波高率検出部に基づくことを特徴とする請求項1乃至3のいずれか1項に記載の方法。
  5. 記指標は、所定の閾値との比較における前記入力オーディオ信号の強度に更に基づくことを特徴とする請求項4に記載の方法。
  6. 記指標は、所定の閾値との比較における前記入力オーディオ信号の強度に基づくことを特徴とする請求項1乃至3のいずれか1項に記載の方法。
  7. 先ず暫定アタック値を求め、次に前記暫定アタック値のうちの過去の値と前記暫定アタック値のうちの現在の値との間の変化量として増分値を計算することにより、記指標が、前記増分値として計算されることを特徴とする請求項1乃至6のいずれか1項に記載の方法。
  8. 前記入力オーディオ信号はフレームベースであり、記指標は、前記入力オーディオ信号の個々のフレームごとに求められることを特徴とする請求項1乃至7のいずれか1項に記載の方法。
  9. 前記ステップ(b)は、所望のスタティックレンジ圧縮を達成するためのゲインを特定するステップを更に含むことを特徴とする請求項1乃至8のいずれか1項に記載の方法。
  10. 前記アタックゲイン応答時間および前記リリースゲイン応答時間のそれぞれは、指数関数的な時定数であることを特徴とする請求項1乃至9のいずれか1項に記載の方法。
  11. 前記アタックゲイン応答時間は、トランジェントイベントの始まりにおける前記出力オーディオ信号の強度増加率を決める時定数であり、前記リリースゲイン応答時間は、前記トランジェントイベントの終わりにおける前記出力オーディオ信号の強度低下率を決める時定数であることを特徴とする請求項1乃至10のいずれか1項に記載の方法。
  12. オーディオ信号のダイナミックレンジを圧縮するシステムであって、
    (a)入力オーディオ信号を受信するシステム入力部と、
    (b)前記システム入力部に結合された入力部と、前記入力オーディオ信号および所望の出力範囲に基づいて時変ゲイン信号を提供する出力部とを有する適応ゲイン生成モジュールと、
    (c)前記システム入力部に結合された第1入力部と、前記適応ゲイン生成モジュールの出力部に結合された第2入力部と、前記第1入力部からの前記入力オーディオ信号に前記第2入力部からの前記時変ゲイン信号を乗算して得られる出力オーディオ信号を提供する出力部とを有する乗算部と、
    を有し、
    前記適応ゲイン生成モジュールは、入力部および出力部を有するゲイン計算部およびレベル検出部を含み、
    前記レベル検出部は、(i)前記入力オーディオ信号が準定常状態であるかトランジェント状態であるかの指標を求めて提供するアタック検出モジュールと、(ii)前記アタック検出モジュールによって提供された記指標に基づいてアタックゲイン応答時間およびリリースゲイン応答時間を提供するゲイン応答時間生成部と、(iii)前記アタックゲイン応答時間および前記リリースゲイン応答時間をフィルタリングパラメータとして用いて、前記レベル検出部に入力された信号をローパスフィルタリングするフィルタと、を含み、
    前記ゲイン応答時間生成部は、前記アタック検出モジュールにより前記入力オーディオ信号が前記トランジェント状態であると判定されたことに応答して、前記入力オーディオ信号が前記準定常状態である場合と比べて、第1のフィルタリングパラメータである前記アタックゲイン応答時間を減少させ第2のフィルタリングパラメータである前記リリースゲイン応答時間を増加させることを特徴とするシステム。
  13. 前記アタック検出モジュールによって提供される記指標は、検出されたトランジェントの強度の尺度を示すことを特徴とする請求項12に記載のシステム。
  14. 検出されたトランジェントの強度の尺度が大きい結果として、前記アタックゲイン応答時間をより減少させ、前記リリースゲイン応答時間をより増加させることを特徴とする請求項13に記載のシステム。
  15. 記指標は、ピーク値を用いる波高率検出部に基づくことを特徴とする請求項12乃至14のいずれか1項に記載のシステム。
  16. 記指標は、所定の閾値との比較における前記入力オーディオ信号の強度に更に基づくことを特徴とする請求項15に記載のシステム。
  17. 記指標は、所定の閾値との比較における前記入力オーディオ信号の強度に基づくことを特徴とする請求項12乃至14のいずれか1項に記載のシステム。
  18. 先ず暫定アタック値を求め、次に前記暫定アタック値のうちの過去の値と前記暫定アタック値のうちの現在の値との間の変化量として増分値を計算することにより、記指標が、前記増分値として計算されることを特徴とする請求項12乃至17のいずれか1項に記載のシステム。
  19. 前記ゲイン計算部は、所望の出力範囲に適応するためのスタティックレンジ圧縮を生成するゲインを特定することを特徴とする請求項12乃至18のいずれか1項に記載のシステム。
  20. 前記アタックゲイン応答時間は、トランジェントイベントの始まりにおける前記出力オーディオ信号の強度増加率を決める時定数であり、前記リリースゲイン応答時間は、前記トランジェントイベントの終わりにおける前記出力オーディオ信号の強度低下率を決める時定数であることを特徴とする請求項12乃至19のいずれか1項に記載のシステム。
  21. コンピュータに、請求項1乃至11のいずれか1項に記載の方法の各ステップを実行させるためのプログラム。
JP2018210888A 2018-06-29 2018-11-08 オーディオ信号ダイナミックレンジ圧縮 Active JP6846397B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/022,819 2018-06-29
US16/022,819 US11011180B2 (en) 2018-06-29 2018-06-29 Audio signal dynamic range compression

Publications (2)

Publication Number Publication Date
JP2020005239A JP2020005239A (ja) 2020-01-09
JP6846397B2 true JP6846397B2 (ja) 2021-03-24

Family

ID=64316343

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018210888A Active JP6846397B2 (ja) 2018-06-29 2018-11-08 オーディオ信号ダイナミックレンジ圧縮

Country Status (4)

Country Link
US (1) US11011180B2 (ja)
EP (1) EP3588776B1 (ja)
JP (1) JP6846397B2 (ja)
CN (1) CN110728985B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11444590B2 (en) * 2019-12-16 2022-09-13 Synaptics Incorporated Class-G control system with low latency signal path
CN114125658B (zh) * 2020-08-25 2023-12-19 上海艾为电子技术股份有限公司 动态范围控制电路、音频处理芯片及其音频处理方法
CN114095832A (zh) * 2020-08-25 2022-02-25 上海艾为电子技术股份有限公司 多段动态范围控制电路、音频处理芯片及音频处理方法
CZ2021188A3 (cs) * 2021-04-15 2022-08-24 KV2 Audio International spol. s.r.o. Kompresor dynamického rozsahu audiosignálu

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2179809B (en) * 1983-09-21 1987-10-21 British Broadcasting Corp Dynamic range control of a signal
AU4380393A (en) 1992-09-11 1994-04-12 Goldberg, Hyman Electroacoustic speech intelligibility enhancement method and apparatus
JPH06164275A (ja) 1992-11-27 1994-06-10 Sanyo Electric Co Ltd 信号処理装置
US5832444A (en) 1996-09-10 1998-11-03 Schmidt; Jon C. Apparatus for dynamic range compression of an audio signal
US6380726B1 (en) * 1998-05-08 2002-04-30 Tektronix, Inc. Smart auto-ranging RMS measurement method and apparatus
US6757396B1 (en) 1998-11-16 2004-06-29 Texas Instruments Incorporated Digital audio dynamic range compressor and method
JP3497813B2 (ja) * 1999-09-27 2004-02-16 テキサス インスツルメンツ インコーポレイテツド デジタル・オーディオ・ダイナミックレンジ圧縮装置
US7027981B2 (en) 1999-11-29 2006-04-11 Bizjak Karl M System output control method and apparatus
KR101261212B1 (ko) * 2004-10-26 2013-05-07 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 신호 처리 방법 및 장치
EP1869948B1 (en) * 2005-03-29 2016-02-17 GN Resound A/S Hearing aid with adaptive compressor time constants
EP2011234B1 (en) 2006-04-27 2010-12-29 Dolby Laboratories Licensing Corporation Audio gain control using specific-loudness-based auditory event detection
EP1923994B1 (en) 2006-11-17 2008-11-19 AKG Acoustics GmbH Audio compressor
EP2009786B1 (en) 2007-06-25 2015-02-25 Harman Becker Automotive Systems GmbH Feedback limiter with adaptive control of time constants
CN101964190B (zh) * 2009-07-24 2014-05-21 敦泰科技(深圳)有限公司 扬声器截止频率以下信号还原原声的方法和装置
EP2418770A1 (en) 2010-07-29 2012-02-15 Nxp B.V. Automatic gain control
US9685921B2 (en) * 2012-07-12 2017-06-20 Dts, Inc. Loudness control with noise detection and loudness drop detection
US9559651B2 (en) * 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
WO2015111084A2 (en) * 2014-01-27 2015-07-30 Indian Institute Of Technology Bombay Dynamic range compression with low distortion for use in hearing aids and audio systems
ES2627227T3 (es) * 2014-01-30 2017-07-27 Huawei Technologies Co., Ltd. Un compresor digital para comprimir una señal de audio
GB201406574D0 (en) * 2014-04-11 2014-05-28 Microsoft Corp Audio Signal Processing
GB2527126B (en) * 2014-06-13 2019-02-06 Elaratek Ltd Noise cancellation with dynamic range compression
CN106504766B (zh) * 2016-11-28 2019-11-26 湖南国科微电子股份有限公司 一种数字音频信号的动态范围压缩方法

Also Published As

Publication number Publication date
US11011180B2 (en) 2021-05-18
JP2020005239A (ja) 2020-01-09
US20200005802A1 (en) 2020-01-02
EP3588776A1 (en) 2020-01-01
CN110728985A (zh) 2020-01-24
CN110728985B (zh) 2022-07-19
EP3588776B1 (en) 2022-07-20

Similar Documents

Publication Publication Date Title
JP6846397B2 (ja) オーディオ信号ダイナミックレンジ圧縮
US20180269841A1 (en) Method and apparatus for processing an audio signal based on an estimated loudness
US9171552B1 (en) Multiple range dynamic level control
CN111149370B (zh) 会议系统中的啸叫检测
JP6290429B2 (ja) 音声処理システム
US8352052B1 (en) Adjusting audio volume
JP2011509010A (ja) オーディオ信号の知覚ラウドネスを調節するシステム
US11888450B2 (en) Power limiter configuration for audio signals
US10755722B2 (en) Multiband audio signal dynamic range compression with overshoot suppression
CN111782859A (zh) 一种音频可视化方法、装置和存储介质
GB2536727A (en) A speech processing device
CN114157254A (zh) 音频处理方法和音频处理装置
JP6716933B2 (ja) 雑音推定装置、プログラム及び方法、並びに、音声処理装置
JP6695256B2 (ja) 仮想低音(bass)のオーディオ信号への付加
KR101701396B1 (ko) 오디오 신호 처리 장치 및 방법
CN116057626A (zh) 使用机器学习的降噪
CN113470621A (zh) 语音检测方法、装置、介质及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190319

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210301

R150 Certificate of patent or registration of utility model

Ref document number: 6846397

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250