JP4486646B2 - オーディオ信号の感知音量を計算し調整する方法、装置及びコンピュータプログラム - Google Patents

オーディオ信号の感知音量を計算し調整する方法、装置及びコンピュータプログラム Download PDF

Info

Publication number
JP4486646B2
JP4486646B2 JP2006533502A JP2006533502A JP4486646B2 JP 4486646 B2 JP4486646 B2 JP 4486646B2 JP 2006533502 A JP2006533502 A JP 2006533502A JP 2006533502 A JP2006533502 A JP 2006533502A JP 4486646 B2 JP4486646 B2 JP 4486646B2
Authority
JP
Japan
Prior art keywords
volume
audio signal
signal
specific volume
gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006533502A
Other languages
English (en)
Other versions
JP2007503796A5 (ja
JP2007503796A (ja
Inventor
シーフェルド、アラン・ジェフリー
スミサズ、マイケル・ジェイ
クロキト、ブレト・グレイアム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of JP2007503796A publication Critical patent/JP2007503796A/ja
Publication of JP2007503796A5 publication Critical patent/JP2007503796A5/ja
Application granted granted Critical
Publication of JP4486646B2 publication Critical patent/JP4486646B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/005Tone control or bandwidth control in amplifiers of digital signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/025Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Television Receiver Circuits (AREA)
  • Circuits Of Receivers In General (AREA)

Description

本発明は、オーディオ信号の計測と、このような計測に応答するオーディオ信号の音量を制御する装置、方法及びコンピュータプログラムに関する。
音量は、サウンドを静寂から大音響までの範囲での尺度で並べることができる聴覚の属性であると主観的に認識されている。音量はリスナーにより感知される感覚なので、物理的に直接計測することに適せず、それゆえ定量化することが難しい。音量を知覚する器官により、「正常な」聴覚を持ったリスナーが同じサウンドに対して異なった認識を持つことがある。個人の聴覚差によるばらつきを抑制しオーディオ素材の音量の一般的計測に到達する唯一の方法は、リスナーのグループを作り、音量の値又は音量の順位を統計的に導き出すことである。標準的な日常の音量計測において、このような方法は明らかに実用的ではない。
音量を計測する十分客観的な方法を開発する試みは何度もなされてきた。フレッチャーとマンソンは、人間の聴覚は中間周波より低周波又は高周波において感度が鈍くなることを1933年に明らかにした。彼らはまた、サウンドのレベルが上がってゆくにつれて感度が相対的に下がってゆくことも発見した。初期のサウンドレベルメータは、マイクロフォン、増幅器、及び、低サウンドレベル、中間サウンドレベル、及び高サウンドレベルにおける聴覚の周波数応答を大雑把に模倣するよう組み合わせたフィルターにより構成されていた。
このような装置が単一で孤立したトーンの一定レベルの音量の計測を行なうが、もっと複雑なサウンドの計測においては、音量の主観的な印象とうまく合致しなかった。このタイプのサウンドレベルメータは標準化されているが、工業的なノイズの監視と制御のような特定の目的にのみ使われる。
1950年代前半、ツビッカーとスチーブンスが、フレッチャーとマンソンの研究を拡張して音量認識プロセスのより現実的なモデルを開発した。スチーブンスは、1956年に、Journal of the Acoustical Society of Americaに、「複合ノイズの音量の測定」方法を発表し、ツビッカーは、1956年に、Acousticaに、彼の「音量の心理的理論」の論文を発表した。1959年にツビッカーは、音量計算の図式的な手順を発表し、そのすぐ後いくつかの類似の論文を発表した。スチーブンスとツビッカーの方法は、ISO 532の(それぞれ)パートA及びパートBとして規格化された。両方法は、クリティカル帯域化や周波数マスクや特定ラウドネスのような音響心理学的現象を盛り込んでいる。これらの方法は、周波数の「クリティカル帯域」に落とし込んだ複合したサウンドの一部分に基づき、ある信号成分が他の信号成分をマスクし、特定ラウドネスを各クリティカル帯域に追加することによりサウンドの全体的な音量に到達するようにする。
オーストラリア放送局(ABA)により証明された最近の研究「広告における音量の調査」(2002年7月)では、多くの広告(及び一部のプログラム)は他のプログラムと比較して音量が大きすぎ、それによりリスナーに非常に迷惑がられていることが分かった。ABAの調査は、事実上全ての放送素材及び全ての国で長年存在していた問題に対処するほんのつい最近の一試みである。その結果、もし信頼性が高くて矛盾のないプログラムの音量の計測ができ、それを迷惑な音量の変動を削減するために用いることができるなら、プログラム素材による音量の相違に起因する聴衆の不快感は、軽減もしくは削減が可能であることが分かった。
バークスケールは、最近のクリティカル帯域の概念に使われる計測単位である。クリティカル帯域スケールは、人間の聴覚は広域スペクトルを小さなクリティカルサブ帯域に対応する部分に分解して検知するという事実に基づいている。低いクリティカル帯域の上限が次のそれより高いクリティカル帯域の下限になるような方法でクリティカル帯域を次のクリティカル帯域に付加することによりクリティカル帯域比のスケールが導かれる。もしクリティカル帯域がこのような方法で加えられていけば、特定の周波数は各つなぎ目に対応する。第1番目のクリティカル帯域は0から100Hzまでとなり、第2番目は、100から200Hzまでとなり、第3番目は200から300Hzまでというようにして500Hzまで各クリティカル帯域の範囲が増加する。0から16kHz間での可聴周波数範囲は、周波数が増えてゆくにしたがって帯域幅が増加する24の隣接するクリティカル帯域に分割される。クリティカル帯域は0から20まで番号がつけられ、バークスケールにより定義される「バーク」の単位を持つ。クリティカル帯域比と周波数との関係は人間の耳の特性を理解する上で重要である。例えば、E.ツビッカーとH.ファステルによる「音響心理学‐実際とモデル」1990年ベルリン、を参照のこと。
等価直角帯域幅(Equivalent Rectangular Bandwidth)(ERB)スケールは、バークスケールに類似する人間の聴覚に対する周波数計測の方法である。ムーア、グラスバーグ及びベーアにより、ツビッカーの音量についての成果の改良がなされた。ムーア、グラスバーグ及びベーアの(B. C. J. Moore, B. Glasberg, T. Baer, 「閾値音量と部分音量の予想のためのモデル」Journal of the Audio Engineering Society, Vol. 45, No. 4, 1997年4月, 224〜240ページ)参照のこと。そのような低周波数では人間の聴覚システムの効率と感度が急速に減少するため、500Hz以下のクリティカル帯域の計測は難しい。聴覚フィルター帯域幅の計測を改良することによりERB比のスケールが導かれた。このような計測は、聴覚フィルター帯域幅を計測するための刻み目のあるマスカーとして用いられる。一般に、ERBスケールのために、聴覚フィルター帯域幅(ERB単位で表現される)はバークスケールより小さい。この差は低周波になるにしたがって大きくなる。
人間の聴覚システムの周波数選択特性は、サウンドの強度をクリティカル帯域に入る部分に分割することにより近似することができる。このような近似により、クリティカル帯域の強度が導かれる。傾きが無限大の仮想的なクリティカル帯域フィルターの代わりに人間の聴覚システムにおける実際の傾きを考慮すると、このような手順によりエキサイテーションと呼ばれる中間的な強度値が導かれる。多くは、このような値は線形値としてではなく音圧レベルに似た対数値として用いられる。クリティカル帯域とエキサイテーションレベルは、多くのモデルにおいて中間値として重要な役割を果たす値に対応する。(上記「音響心理学‐実際とモデル」参照のこと)
音量レベルは「フォン」の単位で計測してもよい。1フォンは、1dBの音圧レベル (SPL)で演奏した純粋な1kHzの正弦波に対して感知する音量であり、圧力2×10‐5パスカルの2乗平均平方根に相当する。Nフォンは、1kHzの音色でNdB(SPL)で演奏に対して感知する音量である。1kHz以外の音色での音量を1kHzの音色での音量と比較することで、フォンで与えられたレベルの音量が等しくなる曲線を決定することができる。図7は、20Hzと12.5kHzとの間の周波数、及び、4.2フォン(聴覚の閾値を考慮した)から120フォン(IS0226:1987(E)、「音質‐標準等音量レベル曲線」)までのフォンレベルにおける等音量レベルの曲線を示す。
音量レベルはまた単位「ソーン」で計測することもできる。図7に示すようにフォン単位とソーン単位との間で1対1に対応づけることができる。1ソーンは1kHzの純粋な正弦波で40dB(SPL)の音量で定義され、40フォンと同等である。ソーン単位は感知する音量が2倍になったときソーン単位で2倍になるような単位である。例えば、4ソーンは2ソーンの2倍の大きさで感知される。このようにソーンで音量レベルを表現することはより参考になる。
ソーンはオーディオ信号の音量単位なので、特定音量は単に周波数ごとの音量である。したがって、バーク周波数スケールを用いるとき、特定音量は、バーク毎にソーン単位を持ち、同様にERB周波数スケールを用いるとき、単位はソーン/ERBとなる。
本明細書全般を通して、「フィルター」又は「フィルターバンク」の語は、IIRフィルター又は変換のように、本質的に再帰的フィルター処理や非再帰的フィルター処理のようなどのような形態も含まれ、「フィルターされた」情報は、このようなフィルターを適用した結果に用いられる。以下に記載の実施形態では、IIRフィルター及び変換に組み込まれたフィルターバンクを採用する。
本発明の特徴によれば、オーディオ信号を処理する方法であって、前記オーディオ信号に応答して、エキサイテーション信号を作るステップと、前記エキサイテーション信号と前記オーディオ信号の特性を示す測度に応答してオーディオ信号の感知音量を計算するステップとを具備し、前記計算するステップでは、2以上の特定音量モデル関数のグループから、1つの特定音量モデル関数又は2以上の特定音量モデル関数の1つの組み合わせを選択し、この選択は、入力オーディオ信号の特性を示す測度により制御される。
本発明の他の特徴によれば、オーディオ信号を処理する方法であって、前記オーディオ信号に応答して、エキサイテーション信号を作るステップと、少なくとも前記エキサイテーション信号に応答して、ゲイン値G[t]を計算するステップとを具備し、前記ゲイン値は、前記オーディオ信号に適用した場合、参照音量と実質的に同じ感知音量となり、前記計算するステップには、少なくとも1つの非線形処理を含む反復的処理ループが含まれる。
さらに本発明の他の特徴によれば、複数のオーディオ信号を処理する方法であって複数の処理を含み、各処理では前記オーディオ信号のそれぞれ1つを受け取るステップを具備し、各処理において、前記それぞれのオーディオ信号に応答して、エキサイテーション信号を作り、少なくとも前記エキサイテーション信号に応答して、ゲイン値G[t]を計算し、前記ゲイン値は、前記オーディオ信号に適用した場合、参照音量と実質的に同じ感知音量となり、前記計算するステップには、少なくとも1つの非線形処理を含む反復的処理ループが含まれており、その結果前記それぞれのオーディオ信号の感知音量が参照音量と実質的に同じとなり、前記同じ参照音量を前記複数の処理の各々に適用するように、前記ゲイン値G[t]でそれぞれのオーディオ信号の振幅を制御する。
前記発明の特徴で採用される実施の形態において、信号処理のための方法又は装置は入力オーディオ信号を受け取る。前記信号は、人間の外耳及び中耳の特性を模擬するフィルター又はフィルター機能により、そして、前記フィルターされた信号を内耳基底膜にそって発生するエキサイテーションパターンを模擬する周波数帯域に分割するフィルターバンク又はフィルターバンク機能により直線的にフィルターされる。各周波数帯域に対して、特定音量は1以上の特定音量機能又はモデルを用いて計算され、機能又はモデルの選択は、前記入力オーディオ信号から抽出される特性又は特徴により制御される。各周波数帯域における前記特定音量は、広帯域の入力オーディオ信号を代表する音量指標として統合される。前記音量指標の1つの値は前記入力信号の有限時間範囲で計算してもよく、又は、前記音量指標は、前記入力オーディオ信号の時間間隔又は時間ブロックにおいて繰り返し計算してもよい。
前記発明の特徴で採用される他の実施形態において、信号処理のための方法又は装置は入力オーディオ信号を受け取る。前記信号は、人間の外耳及び中耳の特性を模擬するフィルター又はフィルター機能により、そして、前記フィルターされた信号を内耳基底膜にそって発生するエキサイテーションパターンを模擬する周波数帯域に分割するフィルターバンク又はフィルターバンク機能により直線的にフィルターされる。各周波数帯域に対して、特定音量は1以上の特定音量機能又はモデルを用いて計算され、機能又はモデルの選択は、前記入力オーディオ信号から抽出される特性又は特徴により制御される。各周波数帯域における前記特定音量は、広帯域の入力オーディオ信号を代表する音量の測度として統合される。前記音量の測度は、参照音量値と比較され、その差が先に特定音量計算に入力していた周波数帯域化した信号の縮小又はゲイン調整に用いられる。前記特定音量計算は、音量と参照音量とが実質的に等しくなるまで音量計算と参照音量との比較が繰り返される。このようにして、周波数帯域化した信号に適用したゲインは、入力オーディオ信号に適用したとき入力オーディオ信号の感知音量が参照音量と実質的に同じになるようなゲインを表すようになる。前記音量の測度の1つの値は前記入力信号の有限時間範囲で計算してもよく、又は、前記音量の測度は、前記入力オーディオ信号の時間間隔又は時間ブロックにおいて繰り返し計算してもよい。音量計測処理の構成上の理由と同様に、感知音量が非線形特性を持つことから、ゲインの再帰的適用が好ましい。
本発明のさまざまな態様及びその好ましい実施の形態は、以下の開示と、いくつかの図面において同様の参照番号は同様の構成要素を意味する添付図を参照することにより、よく理解できるであろう。種々の装置や処理を示す図面は、本発明を理解する手助けとなる主な構成要素を示す。分かりやすくするために、実際の実施の形態に必要であって本技術分野の当業者によく知られているが、本発明の概念を理解する上で重要でない多くの要素は省略した。本発明を実施するための信号処理は、マイクロプロセッサ、ディジタル信号プロセッサ、ロジックアレー、及び他の計算回路形態により実行されるプログラムを含む広くさまざまな方法で実行することができる
以下に詳細を示すように、本発明の第1の実施の形態は、図1に示すように、入力オーディオ信号の特性を分析し抽出する特定音量制御装置又は特定音量制御機能(「特定音量制御」)124を具備する。このオーディオ特性は、特定音量変換装置又は特定音量変換機能(「特定音量」)におけるパラメータを制御するために用いられる。信号特性として用いられる特定音量パラメータを調整することにより、本発明の客観的音量計測技術は、多数のリスナーに用いられた統計的な音量計測により形成される主観的音量にさらに厳密に一致するであろう。信号特性を音量パラメータの制御に用いることにより、信号音量がリスナーに不快感を与える結果となるような不適切な計測値の発生を減少させることができる。
以下に詳細を示すように、本発明の第2の特徴による実施の形態では、図2に示すように、ゲイン装置又はゲイン機能(「反復ゲイン更新」)が追加されている。これは、図2における関連づけられた音量223が図2の230での好ましい参照音量と一致するまで入力オーディオ信号から導き出された時間平均されたエキサイテーション信号のゲインを反復的に調整することを目的とする。感知音量の客観的な計測は本質的に非線形処理を必要とするため、入力オーディオ信号の音量が好ましい参照音量と一致するような適切なゲインを決定するために、反復ループを採用することが有利となる。しかし、反復ゲインループは、全体の音量計測システムにかかわっているので、ゲイン調整が元の各音量の反復で用いられるオーディオ信号入力に適用されため、反復ゲインループを長期的な音量の正確な測度を生成させるために必要な時間的積分に用いることは高価となる。一般に、このような構成において、時間積分では、反復計算における各ゲインの変化に対して再計算が必要となる。しかし以下に説明するように、図2さらには図3及び図10〜12の実施の形態に示した本発明の特徴によれば、時間積分は、反復ゲインループの一部を構成する非線形処理を行なう、及び/又は、非線形処理に従う線形処理経路で行なうことができる。線形処理経路は反復ループの一部を構成する必要はない。したがって、例えば図2の実施の形態に示すように、入力201から特定音量変換装置又は特定音量変換機能(「特定音量」)220までの音量計測経路は、線形であり、時間平均機能(「時間平均化」)206を具備する。したがって、ゲイン反復は、音量計測装置又は音量計測機能にのみ縮減されて適用され、時間積分を含む必要がなくなる。図2の実施の形態において、伝達フィルター又は、伝達フィルター機能(「伝達フィルター」)202、フィルターバンク又はフィルターバンク機能(「フィルターバンク」)204、時間平均化装置又は時間平均化機能(「時間平均化」)206及び特定音量制御装置又は特定音量制御機能(「特定音量制御」)224は反復ループの一部とはならず、反復ゲイン制御を効率的かつ正確なリアルタイムシステムに組み込むことができる。
再度図1を参照すると、本発明の第1の特徴による音量計測又は音量計測処理100の実施の形態の機能ブロック図が示されている。音量計測を行なうべきオーディオ信号が音量計測装置又は音量計測処理100の入力101に入力される。この入力は2つの経路に送られる。第1の(主)経路は、内耳の基底膜に沿って生じるエキサイテーションパターンの周波数帯域を模擬する、複数の周波数帯域の各々の特定音量を計算する経路であり、第2の(副)経路は、主経路で用いられる特定音量機能又は特定音量モデルを線選択する特定音量制御装置を有する経路である。
好ましい実施の形態において、オーディオの処理はディジタル領域で行なわれる。したがって、オーディオ入力信号は、サンプリング周波数fでオーディオ源からサンプリングした離散時間数列x[n]で表される。数列x[n]は、以下の式のデシベルで与えられるx[n]のrmsパワーが、リスナーが聞くdB単位のサウンド音圧レベルに等しくなるように適切にスケーリングされる。
Figure 0004486646
さらに、オーディオ信号は説明を簡単にするためにモノラルであると仮定する。本実施の形態ではしかしながら後で説明するように複数チャンネルオーディオに適用される。
伝達フィルター102
主経路において、オーディオ入力信号は伝達フィルター又は伝達フィルター機能(「伝達フィルター」)102に入力され、その出力は、フィルターされたオーディオ信号となる。伝達フィルター102は、線形フィルターP(z)を適用することにより外耳と中耳を通るオーディオ伝達の効果を模擬する。図4に示すように、P(z)の1つの適切な振幅周波数応答は、1kHz以下では一様となり1kHz以上では、1kHzにおいて一様に正規化された閾値を持つIS0226規格に記載された聴覚の閾値の逆数に従う。伝達フィルターを適用することにより、音量計測工程で処理されるオーディオが、人間の聴覚で感知されるオーディオにさらに厳密に類似するようになり、これにより客観的な音量計測が改善される。したがって、伝達フィルター102の出力は時間領域での入力オーディオサンプルx[n]の周波数に依存してスケーリングされたものとなる。
フィルターバンク104
フィルターされたオーディオ信号は、フィルターバンク又はフィルターバンク機能(「フィルターバンク」)104(図1)に入力される。フィルターバンク104は内耳の基底膜に沿って生じるエキサイテーションパターンを模擬するように設計する。フィルターバンク104は、ムーア、グラスバーグ及びベーアの(B. C. J. Moore, B. Glasberg, T. Baer, 「閾値音量と部分音量の予想のためのモデル」前出)により定義された等価直角帯域幅(Equivalent Rectangular Bandwidth)(ERB)周波数スケールにおいて、その帯域幅と間隔が一定である1組の線形フィルターを具備することができる。
ERB周波数スケールがより厳密に人間の聴覚と一致し、主観的音量の効果と一致する客観的音量計測値を生成するための効率の改善を示していたとしても、バーク周波数は効率の低減を伴う。
ヘルツで表した周波数fに対して、ヘルツで表したERB帯域の幅は以下のように近似される。

ERB(f) = 24.7 (4.37f/1000+1) (1)

この関係から歪ませた周波数スケールは、歪ませたスケールのどの点においても、歪ませたスケールのユニットにおいて対応するERBは等しいと定義される。ヘルツで表した線形周波数からこのERB周波数スケールへの変換のための関数は、式(1)の逆数を積分することにより得られる。
Figure 0004486646
式(2a)をfについて解く事によりERBスケールから線形周波数スケールに戻す関数を表現することは有益なことである。
Figure 0004486646
ここで、eはERBスケールのユニットである。図5は、ERBスケールとヘルツで表した周波数との関係を示す。
フィルターバンク104に対する聴覚フィルターの応答は、標準的なIIRフィルターを用いることで特徴づけ、実施することができる。もっと具体的には、フィルターバンク104で実施されるヘルツで表した中心周波数fにおける個々の聴覚フィルターは、12次のIIR伝達関数により定義することができる。
Figure 0004486646
ここで
Figure 0004486646
はヘルツで表したサンプリング周波数であり、Gは、各フィルターが周波数応答のピークにおいて確実に一様なゲインを持つようにした正規化定数であり、以下のように選択される。
Figure 0004486646
フィルターバンク104に、ERBスケールに沿って一様な間隔を持った中央周波数fc[1]...fc[M]において参照される帯域である聴覚フィルターMを含ませてもよい。もっと具体的には、
fc「1」=fmin (5a)
fc[m]=fc[m-1]+ERBToHz(HzToERB(fc[m-1])+Δ) m=2...M (5b)
fc[M]<fmax (5c)
ここでΔはフィルターバンク104における好ましいERBの間隔であり、fmin及びfmaxは、それぞれ中央周波数の好ましい最小値と最大値である。Δ=1を選択することができ、人間の耳が感知できる周波数範囲を考慮して、fmin=50Hzと、またfmax=20,000Hzと設定することができる。このようなパラメータを用いて、例えば、式(5a)〜(5c)を適用することでM=40の聴覚フィルターが作られる。このようなMの聴覚フィルターの大きさは、ERBスケールのクリティカル帯域に近似し、図6に示される。
あるいは、フルレート実施と呼ばれるようなオーディオ信号のサンプリングレートでのフィルター処理の実施を行なうことは正確な音量計測に必要とする以上の時間分解能を与えると考えられているので、一般に短時間離散フーリエ変換(STDFT)と呼ばれる有限長の離散フーリエ変換を用いてフィルター処理を適切に近似させてもよい。フルレート実施の代わりにSTDFTを用いることで、効率の向上と計算の複雑さの軽減が達成される。
入力オーディオ信号x[n]は以下で定義される。
Figure 0004486646
ここでkは周波数指数、tは時間ブロック指数、NはDFTサイズ、Tはホップサイズ(hop size)、x[n]は、下式となるように正規化された長さNの窓である。
Figure 0004486646
ここで、式(6)における変数tは、秒単位の時間計測と対立するSTDFTの時間ブロックを表す離散的な指数である点に留意すべきである。tの各増加は信号x[n]でのTサンプル分のホップを表す。したがって、指数tもこの定義によるとみなされる。実施の形態の詳細に応じて異なった変数の設定と窓の形式を用いることができ、f=44100Hzで、N=4096、T=2048そしてw[n]に対して、ハミング窓は優れた結果を残した。上述のSTDFTは、高速フーリエ変換を用いることによりもっと効率がよくなる。
入力オーディオ信号の音量を計算するために、フィルターバンク104の各フィルターにおけるオーディオ信号のエネルギーの計測が必要である。各フィルターバンク104の短時間エネルギー出力は、周波数領域におけるフィルターの応答と入力信号のパワースペクトルとを乗算することにより近似することができる。
Figure 0004486646
ここで、mは帯域数、tはブロック数、そしてPは伝達フィルターである。ここで、式(3)で指定されたものとは異なる聴覚フィルターの振幅応答に対する形式として、同様の結果を得るため式(8)を使うこともできることに留意すべきである。例えば、ムーアとグラスバーグは、式(3)と同様なことを行なう指数関数で記述されたフィルターの形態を提案している。加えて、少し性能は低下するが、1つのERBの帯域幅を持つレンガ壁(brick-wall)帯域通過フィルターとして各フィルターを近似することもでき、さらなる近似として、伝達フィルターPを総和演算から外すことができる。この場合式(8)は以下のように簡単化される。
Figure 0004486646
このようにして、フィルターバンク104のエキサイテーション出力は時間周期t毎のそれぞれのERB帯域mにおけるエネルギーEの周波数領域での表現となる。
マルチチャンネル
入力オーディオ信号が各チャンネルに1つづつある多数のラウドスピーカを通して聞くようなマルチチャンネルである場合、個々のチャンネルに対するエキサイテーションを上述のように最初に計算してもよい。引き続いて全てのチャンネルを統合して感知される音量を計算するために、個々のエキサイテーションは共に加算して、リスナーの耳に到達するエキサイテーションに近似する単一のエキサイテーションにすることができる。
時間平均化106
音響心理学的及び主観的音量の試験における研究結果から、さまざまなオーディオ信号を比較するとき、リスナーは、比較に使うための長時間感知音量の値にするために短時間又は「瞬間的な」信号の音量に対して一種の時間積分を行なうことが示唆されている。音量認知のモデルを構築するとき、この時間積分は、エキサイテーションを非線形のものから特定音量へと変換した後に実行すべきであるとの提案がなされている。しかしながら、本発明の発明者は、特定音量へと変換する前にエキサイテーションに線形補間を行なうことによってこの時間積分が適切にモデル化できることを見出した。本発明の特徴によれば、特定音量の計算に先立って平滑化を行なうことにより、先に説明した方法でその計測された音量を調整するために信号に適用する必要のあるゲインの計算において顕著な利点が実現する。さらに以下に説明するように、ゲインは、エキサイテーションの計算を除外しただけではなく、このような時間積分も除外した反復ループを用いて計算することができる。このようにして、この反復ループにより、時間積分の全時間間隔に依存する計算とは反対に、ゲインを計算するために現在の時間フレームのみに依存する計算を通してゲインを算出することができる。その結果は、処理時間とメモリーの節約となる。反復ループを用いたゲインの計算を行なう実施形態には、図2、3及び10〜12に関連して以下に説明する内容が含まれる。
図1の説明に戻って、エキサイテーションの線形補間は、さまざまな方法で実施される。例えば、以下の方程式を採用する時間平均装置又は時間平均機能(「時間平均化」)106を用いて再帰的に平滑化を行なってもよい。
Figure 0004486646
ここで初期条件は
Figure 0004486646
Figure 0004486646
である。平滑フィルター独自の特徴は、平滑パラメータλmを変化させ、平滑化されたエネルギー
Figure 0004486646
は、E[m,t]の実時間平均からE[m,t]の消失メモリー平均(fading memory average)までの間で変動する。もしλ=1ならば式(10b)から
Figure 0004486646
で、
Figure 0004486646
は時間ブロック0からtまでに対してE[m,t]の実時間平均に等しくなることが分かるであろう。もし0≦λ<1ならば、t→∞で
Figure 0004486646
となり、
Figure 0004486646
は単に、E[m,t]に1つのポールスムーザー(pole smoother)を適用した結果となる。有限長のオーディオセグメントの長期音量を描写する単一の数値が要求される応用例では、λ=1を全てのmに設定してもよい。連続オーディオストリームの時間的に変動する長期音量を実時間で追求するような実時間的応用例においては、0≦λ<1で、λを全てのmで同じ値に設定してもよい。
E[m,t]の時間平均を計算する場合において、「静か過ぎる」と考えられ且つ感知音量に寄与しないと考えられる短時間セグメントを除外することが好ましいかもしれない。これを達成するために、第2の限界スムーザーは式(10)のスムーザーと平行して走らせてもよい。この第2のスムーザーは、もしE[m,t]が
Figure 0004486646
と比較して小さければ現在値を保持する。
Figure 0004486646
ここでtdBはデシベルで定義される相対的な閾値である。本発明にとって決定的ではないが、tdB=−24の値で良い結果が得られることが分かっている。もし第2のスムーザーが平行して走らない場合は、
Figure 0004486646
となる。
Figure 0004486646
特定音量制御装置124/特定音量120
複合モデル
1つの特徴において、本発明は、帯域化されたエキサイテーションを帯域化された特定音量に変換するため、ブロック120に複数のモデルを用いる。入力オーディオ信号から副経路の特定音量制御124を経て得られた制御情報は、モデルを選択するか又は、モデルが特定音量に寄与する程度を制御する。ブロック124において、1以上の特定音量モデルをこれらの変数から選択するのに役に立つ特徴又は特性がオーディオから抽出される。どのモデル又はモデルの組み合わせを用いるべきかを示す制御信号が、抽出された特徴又は特性から作られる。2以上のモデルを用いることが好ましい場合は、この制御信号にはこのようなモデルをどのように結合するかを示す情報もまた含まれる。
例えば、特定音量N’[m,t]の帯域毎に、各モデルN’q[m,t]の帯域毎の線形結合として表現することができる。
Figure 0004486646
ここで、Qはモデルの総数を示し、制御情報α[m,t]は各モデルに対する重み付け又は寄与を意味する。重み付けの総和は、用いられるモデルによって、1に等しくしてもしなくても良い。
本発明はこれらに限定されないが、2つのモデルが的確な結果を与えることを見つけている。1つのモデルは、オーディオ信号が狭帯域として特徴づけられるときに最良となり、もう1つは、オーディオ信号が広帯域として特徴づけられるときに最良となる。
最初に、特定音量の計算において、
Figure 0004486646
の各帯域のエキサイテーションレベルを、伝達フィルターP(z)(図8)により正規化されたIS0226(図7)の等音量曲線により定義された1kHzでの等価エキサイテーションレベルに変換することができる。
Figure 0004486646
ここでL1kHz(E,f)は、1kHzでのレベルを発生する関数であり、周波数fでレベルEに等しい音量である。実際にはL1kHz(E,f)は、伝達フィルターにより正規化された等音量曲線の参照テーブルの補間として組み込まれる。1kHzにおける等価レベルへの変換は以下の特定音量の計算により簡単化される。
次に、各帯域における特定音量は以下のように計算することができる。

N'[m, t] = α[m, t]N'NB[m,t]+(1-α[m,t])N'WB[m,t], (14)

ここで、N'NB[m,t]及びN'WB[m,t]は、それぞれ、狭帯域信号モデル及び広帯域信号モデルに基づく特定音量値である。α[m,t]は、オーディオ信号から計算される0と1の間にある補間係数であり、その詳細は以下に説明する。
狭帯域の特定音量値と広帯域の特定音量値、N'NB[m,t]及びN'WB[m,t]は、指数関数を用いて帯域化されたエキサイテーションから推定することができる。
Figure 0004486646
ここで、TQ1kHzは、1kHzのトーンに対して聞こえなくなる閾値でのエキサイテーションレベルである。等音量曲線(図7及び8)からTQ1kHzは4.3dBに等しい。ここで、これらの特定音量関数は両方とも、エキサイテーションが聞こえなくなる閾値に等しいときゼロに等しくなることに留意しなければならない。聞こえなくなる閾値より大きいエキサイテーションに対しては、両方の関数は、聴覚の強度についてのスティーブンスの原理にしたがうパワーの原理により単調に増加する。狭帯域の関数の指数は、広帯域の関数の指数より大きくなるよう選定され、狭帯域の関数を広帯域の関数より速く増大させる。狭帯域の場合と広帯域の場合の指数βとゲインGの具体的な選択については、以下に説明する。
音量122は、特定音量120の帯域化された特定の音量を、オーディオ信号の単一の音量の測度すなわち、知覚単位での音量値であるターミナル123での出力を作るために用いる。この音量の測度は、異なったオーディオ信号の音量を比較において、どちらが大きくどちらが小さいかを示す限りにおいて恣意的な単位を持つことができる。
ソーン単位で示される全体音量は、特定音量の全ての周波数帯域にわたる総計として計算することができる。
Figure 0004486646
ここで、Δは式(6b)で定義したERBの間隔である。式(15)での係数GNBとβNBとは、α[m,t]=1のとき、1kHzのトーンにおけるSPLに対するソーン単位のSのプロットが実質的にツビッカーにより提示された対応する実験データ(図9の丸印)(ツビッカー及びH.ファステル「音響心理学‐実際とモデル」前述)と一致するように選択される。式(15b)での係数GWBとβWBとは、α[m,t]=0のとき、ユニフォームエキサイティングノイズ(各ERBにおいて同一のパワーを持つノイズ)におけるSPLに対するソーン単位のNのプロットが実質的にツビッカーにより提示された対応する実験データ(図9の角印)と一致するように選択される。少なくともツビッカーのデータに一致する角印のデータから以下が生じる。

NB=0.0404 (17a)
βJB=0.279 (17b)
HB=0.058 (17c)
βNB=0.212 (17d)

図9(実線)は、ユニフォームエキサイティングノイズと1kHzのトーンの両方における音量を示す。
特定音量制御124
先に述べたように、実際の実施の形態(式(15a)及び(15b))において2つの特定音量のモデルが用いられ、1つは狭帯域信号にもう1つは広帯域信号に用いられる。副経路における特定音量制御124は、各帯域において入力信号が狭帯域又は広帯域のどちらかの側に付く程度を表す指標、α[m,t]を計算する。一般的な意味では、α[m,t]は、信号が帯域の中心周波数fc[m]に近い狭帯域のときは1に等しく、信号が帯域の中心周波数fc[m]に近い広帯域のときは0に等しい。このような特性の混合を変動させるため、制御は2つの極端な値を連続的に変動させる。簡単にするために、制御α[m,t]は、全帯域にわたって一定とし、この場合帯域の指標mは省略され、α[m,t]が続いてα[t]として参照される。したがって制御α[t]は、全ての帯域を通じて狭帯域の程度を示す測度を意味する。このような制御を行なわせる適切な方法は次に説明するが、この特別な方法は決定的なものではなく、他の適切な方法を採用しても良い。
制御α[t]は、信号x[n]の他の処理においてではなく、フィルターバンク104の出力にてエキサイテーションE[m,t]から計算することもできる。E[m,t]は、x[n]の「狭帯域性」と「広帯域性」とを計測するための適切な基準を提供し、その結果、計算をほとんど付加せずにα[t]を生成することができる。
「スペクトルの平坦性」は、α[t]を算出することができるE[m,t]の特徴である。ジェイアントとノルにより定義されたスペクトルの平坦性(N.S.Jayant,P.Noll,「波形のディジタルコーディング」、PrenticeHall,NewJersey,1984)は、周波数全般にわたって(E[m,t]の場合は指標mについて)取得した平均である算術的平均に対する幾何学的平均の比率となる。E[m,t]がm全般にわたって一定のとき、幾何学的平均は、算術的平均に等しくなり、スペクトルの平坦性は1に等しくなる。これは、広帯域の場合に対応する。E[m,t]がmと共に顕著に変動する場合、幾何学的平均は、算術的平均より顕著に小さくなり、スペクトルの平坦性は0に近づくこれは狭帯域の場合に対応する。1からスペクトルの平坦性を減算したとき1になった場合は、「狭帯域性」の測度を生成し、0になった場合は「広帯域性」の測度を生成し、0は広帯域に対応し1は狭帯域に対応する。具体的には、1から修正されたスペクトルの平坦性E[m,t]を減算する計算は以下のようになされる。
ここで、P[m]は、周波数ω=2πf[m]/fでサンプリングした伝達フィルターP(z)の周波数応答に等しい。伝達フィルターの適用により「狭帯域性」の指標を膨張させる傾向にあるE[m,t]における「バンプ(bump)」が導入されるので、伝達フィルターによるE[m,t]の正規化により、さらによい結果を得ることができる。加えて、E[m,t]の帯域のサブセット全般にわたってスペクトルの平坦性を計算することにより、さらによい結果を生み出すことができる。式(18)の下限及び上限、M[t]及びM[t]、は全てのM帯域より小さい領域を定義する。M[t]とM[t]は、エネルギーの大部分を含み、M[t]とM[t]で定義される範囲がERBスケールにおいて拡がった24単位以下であるE[m,t]の部分を有することが好ましい。もっと具体的には(f[m]がHzにおける帯域mの中心周波数であることを想起して)、下式の関係が好ましい。

HzToERB(fc[Mu[t]]) - HzToERB(fc[Ml[t]])≒24 (19a)

さらに下式を必要とする。

HzToERB(fc[Mu[t]])≧CT[t]≧HzToERB(fc[Ml[t]]) (19b)
HzToERB(fc[Ml[t]])≧HzToERB(fc[1]) (19c)
HzToERB(fc[Mu[t]])≦HzToERB(fc[M]) (19d)

ここで、CT[t]はERBスケールで計測したE[m,t]のスペクトルの重心である。
Figure 0004486646
理想的には、ERBスケールで計測した和の制限、M[t]とM[t]は、CT[t]付近に集中するが、CT[t]がその範囲の下限又は上限に近いとき、このとことは常に成り立つとは限らない。
次に、NB[t]は、式(11a)と同様の方法で時間的に平滑化することができる。
Figure 0004486646
ここで
Figure 0004486646
は、式(11b)で定義される、全てのmについてのσ[m,t]の最大値である。最後に、α[t]は、
Figure 0004486646
から以下のように計算される。
Figure 0004486646
ここで、

Φ{x}=12.2568x3 - 22.8320x2 + 14.5869x - 2.9594 (21b)

である。
Φ{x}の正確な形は決定的ではないが、式(21b)の多項式は、さまざまなオーディオ素材の主観的な計測値に対してα[t]を最適化することにより求められる。
図2は、本発明の第2の特徴による音量計測装置又は音量計測処理200の機能ブロック図を示す。図2の装置又は機能202,204,206,220,222,223,及び224は、図1の各々の装置又は機能102,104,106,120,122,123,及び124に対応する。
図1に実施の形態を示した本発明の第1の特徴によれば、音量計測装置又は音量計算は、知覚単位で音量値を算出する。入力信号の音量値を調整するために有益な尺度は、(例えば、以下に説明する図3の実施の形態に於けるような)入力信号x[n]と乗算したとき、その音量が参照音量レベルSrefに等しくなるようなゲインG[t]である。参照音量Srefは、任意に定義することもでき、あるいは、本発明の第1の特徴に係る他の装置又はプロセスにより、既知のオーディオ信号から計測することもできる。Ψ{x [n],tが音量S[t]を計算するために信号x[n]に対して行なう全ての計算を示すものとし、以下のようなG[t]を求めるものとする、

Sref=S[t]=Ψ{g[t]x[n],t (23)

Ψ{.で具体的に行なわれる処理は非線形なので、G[t]に対する解の近似式がなく、その代わり、反復計算により近似解を求めることができる。各反復計算iにおいて、Gを現在の推定値G[t]とする。全ての反復計算において、Gは、参照音量との差の絶対値を下げるために更新される。

|Sref-Ψ{Gix[n],t}|<|Sref-Ψ{Gi-1x[n],t}| (24)

上記差を小さくするためにGを更新するのに適した技法は多く存在する。その方法の1つが勾配法であり(Dimitri P. Bertseakas, Athena Scientific, Belmont, MA 1995による「非線形プログラミング」参照のこと)、それによれば、先の反復による差に比例した量でGiが更新される。

Gi=Gi-1+μ(Sref-Ψ{Gi-1x[n],t}) (25)

ここでμは、最初のステップサイズである。上記反復は、差の絶対値が閾値以下になるまで、又は、反復の回数が所定の最大値に到達するまで、又は、指定された時間が経過するまで続ける。その点においてG[t]はGと等しくなるよう設定される。
式(6)〜(8)に戻って、信号x[n]のエキサイテーションは、STDFTの強度の信号の平方、|X[k,t]|に対する線形計算により得られることに留意すべきである。これから、ゲインが補正された信号Gx[n]は、x[n]にGを乗算したエキサイテーションに等しいことが導かれる。さらに、長期知覚音量の推定に必要な時間積分は、エキサイテーションの線形時間平均を行なうことにより行なうことができるので、Gx[n]に対応する時間平均は、x[n]にG2を乗算した時間平均されたエキサイテーションに等しい。その結果、上述の反復処理において、Ψ{Gx[n],tの再推定のたびに全入力信号履歴にわたって、時間平均を再計算する必要がなくなる。代わりに、時間平均化したエキサイテーション
Figure 0004486646
をx[n]から一度だけ計算し、反復計算において、更新したゲインの二乗を直接
Figure 0004486646
に適用することにより音量の更新値を得ることができる。具体的には、S[t]を算出するために、時間平均化したエキサイテーション
Figure 0004486646
に対してなされる全ての処理に対して
Figure 0004486646
を代理させて、全体的な乗算ゲインGに対して以下の関係を保持させる。
Figure 0004486646
この関係を用いて、Ψ{G[n],t}を
Figure 0004486646
で置き換えることにより、反復処理を単純化することができる。時間積分において、特定音量の非線形変換の後に長期知覚音量の推定を行う必要があったのならば、このような単純化は可能ではなかったであろう。
G[t]を計算するための反復処理は図2に示されている。ターミナル223における出力音量S[t]は、減算結合装置又は減算結合機能231にてターミナル230における参照音量Srefから減算される。得られた差信号232は、反復計算における次のゲインGを算出する反復ゲイン更新装置又は反復ゲイン更新機能に送られる。このゲインの二乗G は、出力234にて乗算結合装置208にフィードバックされ、そこで、ブロック206からの時間平均化したエキサイテーション信号とG とを乗算する。次いで、ブロック220と222とにより、時間平均化したエキサイテーションから反復計算におけるS[t]の次の値が計算される。このループは、ターミナル235におけるゲインG[t]が最新の値Gに等しくなる時に、終了条件が満たされるまで繰り返される。最終値G[t]は、例えば、すべてのFFTフレームt、又は、エキサイテーションがオーディオ部分の全ての期間にわたって平均化された後のオーディオ部分の最後に一度だけ、上述の反復処理により計算することができる。
この反復処理と関連して、ゲインにより修正されない信号音量を計算したいばあいは、ゲインGは、各時間周期tでの各反復処理の開始時に1に初期化することができる。このようにして、ループで計算されたS[t]の最初の値は、元の信号音量を表し、そのように記録することができる。この値を記録したくなければ、しかしながら、Gをどのような値にも初期化することができる。G[t]を連続する時間フレームにわたって計算するときに、元の信号音量を記録したくない場合は、初期値Gは前の時間周期における値G[t]に等しくすることが好ましい。このように信号が前の時間周期における値と大きく異ならない場合は、値G[t]はおそらく実質的に同じになる。したがって、適切な値に収束させるまでほんの少しの反復計算を必要とするだけである。
反復計算が終了すると、G[t]は、修正された信号が参照信号と一致するように、外部装置によって201にて入力信号に適用されるゲインを表す。図3は、ゲインを調整した出力信号を出力させるための、電圧制御増幅器(VCA)236のような、信号レベル制御装置又は信号レベル制御機能の入力に、反復ゲイン更新233からゲインG[t]が適用される適切な構成を示す。図3のVCAは、ライン235上にあるゲインG[t]の視聴覚的表示に応答して操作員がゲイン調整装置を制御することで置き換えてもよい。視聴覚的表示は、例えば指示計により表示される。ゲインG[t]は時間平滑化(不図示)を受ける必要があるかもしれない。
いくつかの信号に対して、式(10)及び(11)に示した平滑化に代わるものが長期感知音量の計算に必要かもしれない。リスナーは信号の最も大きな部分と信号の長期音量とを関連づける傾向にある。その結果、式(10)及び(11)に示された平滑化では、長期の静寂が短期の大音量の素材で中断されるような信号が含まれている感知音量を過小評価してしまうかもしれない。このような信号は、長期の背景的ノイズの中に短いダイアログがあるようなフィルムのサウンドトラックにおいてしばしば見られる。式(11)に閾値があるとはいえ、そのような信号の静寂部分は時間平均化したエキサイテーション
Figure 0004486646
に対する寄与度が大きすぎる。
この問題を扱うために、本発明のさらなる特徴では、長期音量の計算に統計的な技術を採用することができる。まず、式(10)及び(11)の平滑時定数を非常に小さくし、
Figure 0004486646
が「瞬間的な」エキサイテーションを表現するようにtdBをマイナス無限大に設定する。この場合、平滑時定数λは、瞬間的な音量の感知具合が周波数によって変動するようなもっと正確なモデルにするために、帯域mにより変動するように選ばれる。しかし実際には、mの変化に対して一定なλを選択しても、満足できる結果を出力する。先に説明した手順の残りは、変化させないように動作し、式(16)に示すような瞬間的な音量信号S[t]となる。t < t < t の範囲にわたって、この範囲の内のpパーセントの時間はS[t]より大きく、この範囲の内の100−pパーセントの時間はS[t]より小さい値として長期音量S[t,t]が定義される。実験では、ほぼ90%にした設定値pは、主観的に感知される長期音量に一致する。この設定では、長期音量に影響を与えるためにはS[t]の値のほんの10%が顕著であることが必要である。他の90%は、比較的静寂であっても長期音量を下げることがないようにすることができる。
[t,t]の値は、S[t]、t≦t≦t、の値を昇順にソートして、リストSsort{i}、0≦i≦t−t、にすることにより計算することができる。長期音量は、全体のpパーセントの要素をリストにすることにより得られる。

Sp[t1,t2]=Ssort{round(p(t2-t1)/100)} (27)

上記計算は単純なものである。しかし、x[n]を乗算すると、参照音量Srefと等しいS[t,t]となるようなG[t,t]を計算したい場合は、この計算はさらに非常に複雑になる。先に説明したように反復計算が必要となるが、長期音量計測S[t,t]は、反復計算の各々においてGの更新と共に更新しなければならない値のS[t]、t≦t≦tに全範囲において依存する。これらの更新を計算するために、信号
Figure 0004486646
をt≦t≦tに全範囲において記憶させなければならない。加えて、S[t]のGへの依存性は非線形なので、S[t]、t≦t≦tの相対順位は各反復計算により変動するかもしれず、したがってSsort{i}も再計算しなければならない。反復計算における特定のゲインに対して聴覚の閾値よりスペクトルの小さい信号部分のソート時間を考えたとき、再ソートの必要性が簡単に明らかとなる。ゲインが増大するとき、大部分のスペクトルが可聴となり、先に可聴であった信号の他の狭帯域部分よりその部分のトータル音量は大きくなる。範囲t≦t≦tが広くなったとき、又は、ゲインG[t,t]をスライディング時間窓の関数として連続的に計算したいとき、反復処理における計算コスト及びメモリーコストは法外なものになるかもしれない。
S[t]がGの単調増加関数となることを実現することにより、計算とメモリーの大幅な削減が達成される。言い換えれば、Gの増大は常に各瞬間における短期音量の増大をもたらす。この知見に基づき、好ましいマッチングゲインG[t,t]が以下のように効率的に計算される。まず、範囲t≦t≦tにおけるtの全値に対して前述の反復計算を用いて
Figure 0004486646
から先に定義したマッチングゲインG[t]を計算する。ここで、各値tに対してG[t]は、1つの
Figure 0004486646
の値について反復することにより計算することに留意すべきである。次いで、値G[t]、t≦t≦t、を昇順にソートして、リストGsort{i}、0≦i≦t−t、にすることにより、長期マッチングゲインG[t,t]を計算し、そして、

Gp[t1,t2]=Gsort{round((100-P)(t2-t1)/100)} (28)

を設定する。
ここで、x[n]を乗算したとき、好ましい音量Srefに等しくなるようなS[t,t]との計算結果となるゲインに、G[t,t]が等しくなることについて説明する。ここで、式(28)から範囲t≦t≦tにおける時間値の100−pパーセントに対してG[t]<G[t,t]であり、他のpパーセントに対してG[t]>G[t,t]であることに留意しなければならない。G[t]<G[t,t]であるこれらの値G[t]について、もしG[t]ではなく対応する
Figure 0004486646
の値にG[t,t]を適用したとすると、その結果算出されるS[t]は、求める参照音量より大きくなることに留意しなければならない。S[t]はゲインの単調増加関数であるので、このことは事実である。同様に、もしG[t]>G[t,t]となるようなG[t]に対応する
Figure 0004486646
の値にG[t,t]を適用したとすると、その結果算出されるS[t]は、求める参照音量より小さくなることに留意しなければならない。したがって、G[t,t]をt≦t≦tの範囲で全ての
Figure 0004486646
に適用すると、100−pパーセントの時間は求める参照値より大きく、pパーセントの時間は求める参照値より小さいようなS[t]がその結果算出される。言い換えれば、S[t,t]が求める参照値に等しくなる。
マッチングゲインを計算するこの代替的な方法は、t≦t≦tの範囲にわたって
Figure 0004486646
とS[t]とを記憶させることを未然に防止する。G[t]のみを記憶する必要がある。加えて、S[t]を繰り返し再記憶させる必要がある先に説明した方法とは反対に、計算するG[t,t]の全ての値に対して、t≦t≦tの範囲にわたるG[t]のソートは一度行なえばよい。G[t,t]をある長さTのスライディング窓(すなわち、t=t−T,t=t)にわたって連続的に計算する場合は、リストGsort{i}は、新しい時間区間毎に単に1つの値を取り除きソートしたリストから1つの値を加えるだけで効率的に維持できる。範囲t1≦t≦t2が非常に長い(例えば、曲又はフィルムの全長さの)場合、G[t]を記憶するメモリーはなお法外なものとなるかもしれない。この場合、G[t,t]は、G[t]の離散化ヒストグラム(discretized histogram)から近似することができる。実際には、このヒストグラムはデシベル単位でG[t]から作ることができる。このヒストグラムは、以下のように、H[i]=t≦t≦tの範囲でのサンプルの数として計算することができる。
Figure 0004486646
ここで、ΔdBはヒストグラムの分解能でありdBminは、ヒストグラムの最小値である。マッチングゲインは、以下で近似される。

Gp[t1,t2]≒ΔdB+dBmin (30a)

ここで
Figure 0004486646
そして、Iは最大ヒストグラム指標である。この離散化ヒストグラムを用いると、Iの値のみを記憶する必要があり、新たなG[t]の値と共にG[t,t]が簡単に更新される。
G[t]からG[t,t]を近似する他の方法も考えられ、そのような技法も本発明に含まれる。本発明のこの部分の主要な特徴は、それからG[t,t]を反復計算により算定するための長期音量S[t,t]を生成するために短期音量S[t]を処理する代わりに、長期マッチングゲインG[t,t]を生成するためにマッチングゲインG[t]にある種の平滑化を行なうことである。
図10と11は、それぞれ図2と3に似たシステムを表しているが、ここでは、マッチングゲインG[t]の平滑化(装置又は機能237)が、平滑化されたゲイン信号G[t,t](信号238)を生成するために用いられる。
入力230(図2,3,10,11)における参照音量は、「固定」又は「可変」とすることができ、参照音量の発信元は本発明の実施の形態における構成の内部又は外部に置くことができる。例えば、参照音量はユーザーが設定することとしてもよく、この場合は、その発信源は外部となりユーザーによって再設定がなされるまでの期間設定は「固定」される。あるいは、参照音量は、図1の例に示した構成のような本発明による音量計測処理又は音量計測装置から導かれた他のオーディオ源の音量の測度としてもよい。
オーディオ発生装置の通常のボリューム制御は、図3又は図11の例のような、本発明の特徴に従った処理又は装置に置き換えることができる。この場合、ユーザーが操作するボリュームノブ、スライダー、その他は図3又は図11の230の参照音量を制御し、したがって、オーディオ発生装置は、ユーザーが調整したボリューム制御に相応した音量を発生することになる。
可変参照値の例を図12に示す。ここでは、参照音量Srefは、例えば、参照音量可変装置又は参照音量可変機能(「可変参照音量」)239を通った音量信号S[t]から計算される可変参照値Sref[t]に置き換えられる。この構成では、各期間tでの各反復計算の最初に、208でのエキサイテーションにゲインが適用される前に、補正されていない音量S[t]から可変参照値Sref[t]を計算することができる。参照音量可変機能を通して、Sref[t]とS[t]との関係はさまざまな効果を達成するためにさまざまな形式をとることができる。例えば、この関数は、元の音量に対して固定された比率の参照値を生成するために単に倍率をS[t]にかけるものでもよい。あるいは、この関数は、S[t]がある閾値以下のときS[t]以上の参照値を生成し、S[t]がある閾値以上のときS[t]以下の参照値を生成するようにしてもよく、このようにして、オーディオの感知音量のダイナミックレンジを減少させてもよい。この関数がどのような形であろうと、先に説明したG[t]を計算するための反復計算が以下のようになされる。
Figure 0004486646
マッチングゲインはG[t]は、求める知覚効果を達成するために先に説明したような技法又は他の適切な技法により平滑化される。最後に、オーディオ信号201とVCAブロック236との間の時間遅れ240が、ゲインの平滑化計算における待ち時間を補償するために導入される。このような時間遅れは図3及び11の構成においても用いられる。
図3のゲイン制御信号G[t]の構成及び図11の平滑化されたゲイン制御信号Gp[t,t]は、例えば、知覚音量がチャンネルごとに異なる放送されたテレビジョン又は衛星ラジオを含むさまざまな応用例に有用である。このような環境の下では、本発明の装置又は方法は、各チャンネルからのオーディオ信号を参照音量レベル(又は参照信号の音量)と比較することができる。オペレータ又は自動化された装置は、このゲインを各チャンネルの音量を調整するために使うことができる。このようにして全てのチャンネルが実質的に同じ感知音量を持つことになる。図13は、1からNまでの複数のテレビジョンチャンネル又はオーディオチャンネルからのオーディオが、各々図3又は11に示したような本発明の特徴に従うプロセス又は装置250,252の入力201として適用される構成例を示す。同じ参照音量レベルがプロセス又は装置250,252の各々に適用され、その結果、各出力236で1チャンネルからNチャンネルまでのオーディオが音量調整される。
計測及びゲイン調整技法は、入力オーディオ素材を監視し、主として人間のスピーチ信号が含まれているオーディオ内容を特定し、そして、スピーチ信号があらかじめ定義された参照レベルに実質的に一致するようにゲインを計算するようなリアルタイム計測装置に適用することもできる。オーディオ素材におけるスピーチを特定するために適した技法は、2002年8月30日に米国特許出願S.N.10/233,073として出願され、2004年3月4日にUS2004/0044525Alとして出願公開された出願に記載されている。上記出願は、その全体が参照として本出願に組み込まれる。オーディオ内容に対する聴衆の不快感は、プログラム素材のスピーチ部分に集中する傾向があるので、計測及びゲイン調整技法は、一般にテレビジョン、フィルム、及びミュージック素材に用いられるオーディオにおいて不快感のレベルの差異を大きく減少させる。
実施の形態
本発明は、ハードウェア又はソフトウェア又は両者の組み合わせ(例えば、プログラマブルロジックアレー)により実施することができる。特記なき場合は、本発明の一部として含まれるアルゴリズムは、特定のコンピュータ又は他の装置に本質的に関連するものではない。特に、ここでの開示にしたがって書かれたプログラムによりさまざまな汎用マシーンを使用してもよく、また、要求される方法を実行するために特別に作られた装置(例えば、集積回路)を作ることはもっと便利かもしれない。このように、各々が少なくとも1つのプロセッサ、少なくとも1つのデータ記憶システム(揮発性メモリー、不揮発性メモリー、及び/又は記憶素子を含む)、少なくとも1つの入力装置又は入力ポート、及び少なくとも1つの出力装置又は出力ポートからなる1以上のプログラム可能なコンピュータシステム上で動作する1以上のコンピュータプログラムにより本発明を実施することができる。プログラムコードは、本明細書に記載した機能を実行し出力情報を生成するために入力データにおいて適用される。出力情報は、既知の方法で、1以上の出力装置において適用される。
このようなプログラムの各々は、コンピュータシステムト通信するために好ましいどんなコンピュータ言語(機械語、アセンブリ言語、又は高級手続言語、ロジック言語、又はオブジェクト指向プログラム言語を含む)で実行してもよい。どの場合でも、言語はコンパイラでもインタプリタでもよい。
記憶媒体又は装置をコンピュータが読み出し、ここに記載した手続を実行させるために、このようなコンピュータプログラムは、汎用コンピュータ又は特定目的のプログラム可能なコンピュータで読み出し可能な記憶媒体又は装置(例えば、半導体メモリ又は媒体、又は次期媒体又は光学媒体)に記憶しておくことが好ましい。本発明のシステムは、コンピュータプログラムとして構成され、この記憶媒体がここに記載した機能を実行するために具体的かつあらかじめ定めた方法でコンピュータを動作させるよう構成されている、コンピュータで読み出し可能な記憶媒体として実施することも考えられる。
本発明の種々の実施の形態をここで説明した。しかしながら、本発明の思想や範囲から逸脱することなしにさまざまな変更を加えることが可能であることは了解されよう。例えば、上述の工程のいくつかはその順序に関係がなく、したがって、ここに説明したものとは異なる順序で実施することができる。したがって、他の実施の形態も以下の特許請求の範囲に含まれる。
本発明における一実施の形態の概略機能ブロックダイアグラムである。 本発明における他の実施の形態の概略機能ブロックダイアグラムである。 本発明におけるさらに他の実施の形態の概略機能ブロックダイアグラムである。 本発明の一実施の形態における伝達フィルターに適した線形フィルターP(z)の理想的な応答を示す。ここで垂直軸はデシベル(dB)単位で示した減衰で、水平軸はヘルツ(Hz)単位で示した底10の対数で示した周波数である。 ERB周波数スケール(垂直軸)とヘルツ(Hz)単位で示した周波数(水平軸)との関係を示す。 ERBスケールにおけるクリティカル帯域を近似した応答特性を持つ理想的な聴覚フィルターを示す。水平軸はヘルツ単位で示した周波数で、垂直軸はデシベル単位で示したレベルである。 IS0266の等音量曲線を示す。水平軸はヘルツ(Hz)単位で示した周波数であり(底10の対数)、垂直軸はデシベル単位で示した音圧レベルである 伝達フィルターP(z)により正規化されたIS0266の等音量曲線を示す。水平軸はヘルツ(Hz)単位で示した周波数であり(底10の対数)、垂直軸はデシベル単位で示した音圧レベルである。 ユニフォームエキサイティングノイズ(uniform-exciting noise)と1kHzトーンでの音量をプロットしたものを示し(実線)、実線は、パラメータをツビッカーの実験データ(四角及び丸)に適合するように選んだ本発明の実施の形態によるものである。垂直軸はソーン単位で示した音量(底10の対数)であり、水平軸はデシベル単位で示した音圧レベルである。 本発明におけるさらに他の実施の形態の概略機能ブロックダイアグラムである。 本発明におけるなおさらなる他の実施の形態の概略機能ブロックダイアグラムである。 本発明における別の1つの実施の形態の概略機能ブロックダイアグラムである。 本発明におけるさらに別の1つの実施の形態の概略機能ブロックダイアグラムである。

Claims (18)

  1. オーディオ信号を処理する方法であって、
    前記オーディオ信号に応答して、該オーディオ信号に乗算するとトータル音量と参照音量との差が閾値以下になるようなゲイン値を計算するステップであって、該ゲイン値を計算するステップの一部は、該ゲイン値の閉形式解が存在しないものに対する非線形処理であり、該計算するステップには、線形処理の過程で前記オーディオ信号から複数帯域のエキサイテーション信号を導き出すステップと、非線形処理の過程で該複数帯域のエキサイテーション信号から各帯域の特定音量とトータル音量とを導き出すステップとが含まれることを特徴とするステップと
    前記トータル音量と前記参照音量との差が閾値以下になるまで前記エキサイテーション信号の大きさを反復的に調整するステップであって、該反復的に調整するステップは、各帯域の特定音量を導き出すステップとトータル音量を導き出すステップとが含まれ前記エキサイテーション信号を導き出すステップが含まれないことを特徴とするステップと
    を具備することを特徴とする方法。
  2. 前記非線形処理には、2以上の前記特定音量モデル関数のグループから、1つの特定音量モデル関数又は2以上の前記特定音量モデル関数の1つの組み合わせを選択する特定音量計算が含まれ、前記選択は、入力オーディオ信号の特性を示す測度により制御されることを特徴とする請求項1に記載の方法。
  3. 前記エキサイテーション信号は時間的に平滑化されており、及び/又は、ゲイン値G[t]を時間的に平滑化するステップをさらに具備することを特徴とする請求項1に記載の方法。
  4. 前記エキサイテーション信号は、線形的に時間的に平滑化されていることを特徴とする請求項3に記載の方法。
  5. 前記方法は、ゲイン値G[t]を平滑化するステップをさらに具備し、前記平滑化するステップはヒストグラム技法を採用することを特徴とする請求項5に記載の方法。
  6. 前記反復的処理ループには、時間的に平滑化するステップが含まれることを特徴とする請求項1に記載の方法。
  7. 前記反復的に調整するステップは、最小化アルゴリズムに従うことを特徴とする請求項1に記載の方法。
  8. 前記最小化アルゴリズムは、最小化のための勾配法によることを特徴とする請求項7に記載の方法。
  9. 前記参照音量は、ユーザーにより設定されることを特徴とする請求項1乃至請求項8のいずれか1項に記載の方法。
  10. 前記参照音量は、前記オーディオ信号の、計算された感知音量の特性を示す測度から導き出されることを特徴とする請求項1乃至請求項9のいずれか1項に記載の方法。
  11. 前記参照音量は、前記オーディオ信号の、計算された感知音量に倍率を掛けたものであることを特徴とする請求項10に記載の方法。
  12. 前記参照音量は、計算された感知音量が閾値以下の場合は計算された感知音量より大きく、計算された感知音量が閾値以上の場合は計算された感知音量より小さいことを特徴とする請求項11に記載の方法。
  13. 複数のオーディオ信号を処理する方法であって複数の処理を含み、各処理では前記オーディオ信号のそれぞれ1つを受け取るステップを具備し、各処理において、
    前記それぞれのオーディオ信号に応答して、エキサイテーション信号を作り、
    少なくとも前記エキサイテーション信号に応答して、ゲイン値G[t]を計算し、前記ゲイン値を前記オーディオ信号に適用した場合、結果として生じた音量は参照音量と実質的に同じとなり、前記計算するステップには、少なくとも1つの非線形処理を含む反復的処理ループが含まれており、
    前記それぞれのオーディオ信号の結果として生じた音量が参照音量と実質的に同じとなるよう、前記ゲインG[t]でぞれぞれのオーディオ信号の強度を制御し、
    前記複数の処理の各々に同一の参照音量を適用する、
    ことを特徴とする方法。
  14. オーディオ信号を処理する方法であって、
    前記オーディオ信号に応答して、エキサイテーション信号を作るステップと、
    前記エキサイテーション信号と前記オーディオ信号の特性を示す測度に応答して前記オーディオ信号の音量を計算するステップとを具備し、前記計算するステップでは、2以上の特定音量モデル関数のグループから、1つの特定音量モデル関数又は2以上の特定音量モデル関数の1つの組み合わせを選択し、この選択は、入力オーディオ信号の特性を示す測度により制御されることを特徴とする方法。
  15. 前記オーディオ信号の特性を示す測度は、入力信号のスペクトル的に平坦な程度を示す測度であることを特徴とする請求項14に記載の方法。
  16. 前記計算するステップでは、2つの特定音量モデル関数からの選択、又は2つの特定音量モデル関数の組み合わせをおこない、ここで、第1の特定音量モデル関数は、スペクトル的に平坦でない入力信号から得られた特性を示す測度により選択されたものであり、第2の特定音量モデル関数は、スペクトル的に平坦な入力信号から得られた特性を示す測度により選択されたものであり、第1の特定音量モデル関数と第2の特定音量モデル関数の組み合わせは、一部がスペクトル的に平坦でなく一部がスペクトル的に平坦である入力信号から結果として得られた特性を示す測度により選択されたものであることを特徴とする、請求項14に記載の方法。
  17. 請求項1乃至請求項16のいずれか1項に記載の方法を実行するように作られた装置。
  18. 請求項1乃至請求項16のいずれか1項に記載の方法をコンピュータに実行させるためにコンピュータで読み込み可能な媒体に記憶させたコンピュータプログラム。
JP2006533502A 2003-05-28 2004-05-27 オーディオ信号の感知音量を計算し調整する方法、装置及びコンピュータプログラム Expired - Fee Related JP4486646B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US47407703P 2003-05-28 2003-05-28
PCT/US2004/016964 WO2004111994A2 (en) 2003-05-28 2004-05-27 Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal

Publications (3)

Publication Number Publication Date
JP2007503796A JP2007503796A (ja) 2007-02-22
JP2007503796A5 JP2007503796A5 (ja) 2010-02-25
JP4486646B2 true JP4486646B2 (ja) 2010-06-23

Family

ID=33551475

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006533502A Expired - Fee Related JP4486646B2 (ja) 2003-05-28 2004-05-27 オーディオ信号の感知音量を計算し調整する方法、装置及びコンピュータプログラム

Country Status (19)

Country Link
US (1) US8437482B2 (ja)
EP (1) EP1629463B1 (ja)
JP (1) JP4486646B2 (ja)
KR (1) KR101164937B1 (ja)
CN (2) CN1795490A (ja)
AT (1) ATE371246T1 (ja)
AU (1) AU2004248544B2 (ja)
BR (1) BRPI0410740A (ja)
CA (1) CA2525942C (ja)
DE (1) DE602004008455T2 (ja)
DK (1) DK1629463T3 (ja)
ES (1) ES2290764T3 (ja)
HK (2) HK1083918A1 (ja)
IL (1) IL172108A (ja)
IN (1) IN2010KN02913A (ja)
MX (1) MXPA05012785A (ja)
PL (1) PL1629463T3 (ja)
SG (1) SG185134A1 (ja)
WO (1) WO2004111994A2 (ja)

Families Citing this family (113)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7729497B2 (en) * 2004-01-13 2010-06-01 Koninklijke Philips Electronics N.V. Audio signal enhancement
ATE527654T1 (de) 2004-03-01 2011-10-15 Dolby Lab Licensing Corp Mehrkanal-audiodecodierung
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
CA2581810C (en) 2004-10-26 2013-12-17 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
KR100708123B1 (ko) * 2005-02-04 2007-04-16 삼성전자주식회사 자동으로 오디오 볼륨을 조절하는 방법 및 장치
TWI397903B (zh) 2005-04-13 2013-06-01 Dolby Lab Licensing Corp 編碼音訊之節約音量測量技術
US8280730B2 (en) 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
KR101251426B1 (ko) 2005-06-03 2013-04-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 디코딩 명령으로 오디오 신호를 인코딩하기 위한 장치 및방법
WO2007120452A1 (en) * 2006-04-04 2007-10-25 Dolby Laboratories Licensing Corporation Audio signal loudness measurement and modification in the mdct domain
CN101421781A (zh) * 2006-04-04 2009-04-29 杜比实验室特许公司 音频信号的感知响度和/或感知频谱平衡的计算和调整
TWI517562B (zh) * 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
CA2648237C (en) 2006-04-27 2013-02-05 Dolby Laboratories Licensing Corporation Audio gain control using specific-loudness-based auditory event detection
US11450331B2 (en) 2006-07-08 2022-09-20 Staton Techiya, Llc Personal audio assistant device and method
WO2008008730A2 (en) * 2006-07-08 2008-01-17 Personics Holdings Inc. Personal audio assistant device and method
RU2009108329A (ru) * 2006-08-10 2010-09-20 Конинклейке Филипс Электроникс Н.В. (Nl) Устройство и способ обработки аудиосигнала
RU2413357C2 (ru) 2006-10-20 2011-02-27 Долби Лэборетериз Лайсенсинг Корпорейшн Обработка динамических свойств аудио с использованием перенастройки
US20100046765A1 (en) 2006-12-21 2010-02-25 Koninklijke Philips Electronics N.V. System for processing audio data
US8194889B2 (en) * 2007-01-03 2012-06-05 Dolby Laboratories Licensing Corporation Hybrid digital/analog loudness-compensating volume control
CN101681618B (zh) 2007-06-19 2015-12-16 杜比实验室特许公司 利用频谱修改的响度测量
DE602008003236D1 (de) 2007-07-13 2010-12-09 Dolby Lab Licensing Corp Zeitvariierender tonsignalpegel unter verwendung vsdichte des pegels
CN101790758B (zh) 2007-07-13 2013-01-09 杜比实验室特许公司 用于控制音频信号的信号处理的设备和方法
DE102007035172A1 (de) 2007-07-27 2009-02-05 Siemens Medical Instruments Pte. Ltd. Hörsystem mit visualisierter psychoakustischer Größe und entsprechendes Verfahren
KR20100049590A (ko) * 2007-08-16 2010-05-12 디티에스, 인코포레이티드 압축 디지털 텔레비젼을 위한 오디오 처리 방법 및 장치
WO2009086174A1 (en) 2007-12-21 2009-07-09 Srs Labs, Inc. System for adjusting perceived loudness of audio signals
EP2373067B1 (en) * 2008-04-18 2013-04-17 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
US8538749B2 (en) * 2008-07-18 2013-09-17 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
CN102016995B (zh) * 2008-07-29 2013-07-10 Lg电子株式会社 用于处理音频信号的设备及其方法
ATE552690T1 (de) * 2008-09-19 2012-04-15 Dolby Lab Licensing Corp Upstream-signalverarbeitung für client- einrichtungen in einem drahtlosen kleinzellen- netz
WO2010033384A1 (en) * 2008-09-19 2010-03-25 Dolby Laboratories Licensing Corporation Upstream quality enhancement signal processing for resource constrained client devices
US9380385B1 (en) 2008-11-14 2016-06-28 That Corporation Compressor based dynamic bass enhancement with EQ
MX2011005132A (es) * 2008-11-14 2011-10-12 That Corp Control de volumen dinamico y proteccion de procesamiento multi-espacial.
JP5270006B2 (ja) 2008-12-24 2013-08-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 周波数領域におけるオーディオ信号ラウドネス決定と修正
US9202456B2 (en) * 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
US8761415B2 (en) 2009-04-30 2014-06-24 Dolby Laboratories Corporation Controlling the loudness of an audio signal in response to spectral localization
TWI503816B (zh) * 2009-05-06 2015-10-11 Dolby Lab Licensing Corp 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術
CN102422349A (zh) * 2009-05-14 2012-04-18 夏普株式会社 增益控制装置和增益控制方法、声音输出装置
WO2010138309A1 (en) 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Audio signal dynamic equalization processing control
WO2010138311A1 (en) 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Equalization profiles for dynamic equalization of audio data
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
DE112009005215T8 (de) * 2009-08-04 2013-01-03 Nokia Corp. Verfahren und Vorrichtung zur Audiosignalklassifizierung
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US9305550B2 (en) * 2009-12-07 2016-04-05 J. Carl Cooper Dialogue detector and correction
EP2367286B1 (en) * 2010-03-12 2013-02-20 Harman Becker Automotive Systems GmbH Automatic correction of loudness level in audio signals
US9998081B2 (en) 2010-05-12 2018-06-12 Nokia Technologies Oy Method and apparatus for processing an audio signal based on an estimated loudness
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
EP2673778B1 (en) 2011-02-10 2018-10-10 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
US20120263317A1 (en) * 2011-04-13 2012-10-18 Qualcomm Incorporated Systems, methods, apparatus, and computer readable media for equalization
WO2012161717A1 (en) * 2011-05-26 2012-11-29 Advanced Bionics Ag Systems and methods for improving representation by an auditory prosthesis system of audio signals having intermediate sound levels
US9117455B2 (en) 2011-07-29 2015-08-25 Dts Llc Adaptive voice intelligibility processor
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US9437213B2 (en) * 2012-03-05 2016-09-06 Malaspina Labs (Barbados) Inc. Voice signal enhancement
US9373341B2 (en) 2012-03-23 2016-06-21 Dolby Laboratories Licensing Corporation Method and system for bias corrected speech level determination
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
WO2013154868A1 (en) 2012-04-12 2013-10-17 Dolby Laboratories Licensing Corporation System and method for leveling loudness variation in an audio signal
EP2880655B8 (en) 2012-08-01 2016-12-14 Dolby Laboratories Licensing Corporation Percentile filtering of noise reduction gains
EP2693637A1 (en) * 2012-08-01 2014-02-05 Harman Becker Automotive Systems GmbH Automatic loudness control
US10043535B2 (en) 2013-01-15 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
US9559651B2 (en) 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
US9391576B1 (en) * 2013-09-05 2016-07-12 Cirrus Logic, Inc. Enhancement of dynamic range of audio signal path
US9831843B1 (en) 2013-09-05 2017-11-28 Cirrus Logic, Inc. Opportunistic playback state changes for audio devices
JP6151619B2 (ja) * 2013-10-07 2017-06-21 クラリオン株式会社 音場測定装置、音場測定方法および音場測定プログラム
US10045135B2 (en) 2013-10-24 2018-08-07 Staton Techiya, Llc Method and device for recognition and arbitration of an input connection
US9832562B2 (en) * 2013-11-07 2017-11-28 Gn Hearing A/S Hearing aid with probabilistic hearing loss compensation
DK2871858T3 (da) * 2013-11-07 2019-09-23 Gn Hearing As Et høreapparat med probabilistisk høretabskompensation
US10043534B2 (en) 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
BR112016015695B1 (pt) 2014-01-07 2022-11-16 Harman International Industries, Incorporated Sistema, mídia e método para tratamento de sinais de áudio comprimidos
US9525940B1 (en) 2014-03-05 2016-12-20 Cirrus Logic, Inc. Multi-path analog front end and analog-to-digital converter for a signal processing system
US9774342B1 (en) 2014-03-05 2017-09-26 Cirrus Logic, Inc. Multi-path analog front end and analog-to-digital converter for a signal processing system
US9503803B2 (en) 2014-03-26 2016-11-22 Bose Corporation Collaboratively processing audio between headset and source to mask distracting noise
US9306588B2 (en) 2014-04-14 2016-04-05 Cirrus Logic, Inc. Switchable secondary playback path
CN105336341A (zh) 2014-05-26 2016-02-17 杜比实验室特许公司 增强音频信号中的语音内容的可理解性
US10785568B2 (en) 2014-06-26 2020-09-22 Cirrus Logic, Inc. Reducing audio artifacts in a system for enhancing dynamic range of audio signal path
WO2016007947A1 (en) 2014-07-11 2016-01-14 Arizona Board Of Regents On Behalf Of Arizona State University Fast computation of excitation pattern, auditory pattern and loudness
US9337795B2 (en) 2014-09-09 2016-05-10 Cirrus Logic, Inc. Systems and methods for gain calibration of an audio signal path
US9596537B2 (en) 2014-09-11 2017-03-14 Cirrus Logic, Inc. Systems and methods for reduction of audio artifacts in an audio system with dynamic range enhancement
US9503027B2 (en) 2014-10-27 2016-11-22 Cirrus Logic, Inc. Systems and methods for dynamic range enhancement using an open-loop modulator in parallel with a closed-loop modulator
US9584911B2 (en) 2015-03-27 2017-02-28 Cirrus Logic, Inc. Multichip dynamic range enhancement (DRE) audio processing methods and apparatuses
US10109288B2 (en) * 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters
US9959856B2 (en) 2015-06-15 2018-05-01 Cirrus Logic, Inc. Systems and methods for reducing artifacts and improving performance of a multi-path analog-to-digital converter
KR102122004B1 (ko) * 2015-06-17 2020-06-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 코딩 시스템들에서 사용자 상호 작용을 위한 음량 제어
DE102015216822B4 (de) * 2015-09-02 2017-07-06 Sivantos Pte. Ltd. Verfahren zur Unterdrückung einer Rückkopplung in einem Hörgerät
US9590580B1 (en) * 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
DE102015217565A1 (de) 2015-09-15 2017-03-16 Ford Global Technologies, Llc Verfahren und Vorrichtung zur Verarbeitung von Audio-Signalen
US9955254B2 (en) 2015-11-25 2018-04-24 Cirrus Logic, Inc. Systems and methods for preventing distortion due to supply-based modulation index changes in an audio playback system
US9543975B1 (en) 2015-12-29 2017-01-10 Cirrus Logic, Inc. Multi-path analog front end and analog-to-digital converter for a signal processing system with low-pass filter between paths
US9880802B2 (en) 2016-01-21 2018-01-30 Cirrus Logic, Inc. Systems and methods for reducing audio artifacts from switching between paths of a multi-path signal processing system
US9998826B2 (en) 2016-06-28 2018-06-12 Cirrus Logic, Inc. Optimization of performance and power in audio system
US10545561B2 (en) 2016-08-10 2020-01-28 Cirrus Logic, Inc. Multi-path digitation based on input signal fidelity and output requirements
US10263630B2 (en) 2016-08-11 2019-04-16 Cirrus Logic, Inc. Multi-path analog front end with adaptive path
US9813814B1 (en) 2016-08-23 2017-11-07 Cirrus Logic, Inc. Enhancing dynamic range based on spectral content of signal
US9762255B1 (en) 2016-09-19 2017-09-12 Cirrus Logic, Inc. Reconfiguring paths in a multiple path analog-to-digital converter
US9780800B1 (en) 2016-09-19 2017-10-03 Cirrus Logic, Inc. Matching paths in a multiple path analog-to-digital converter
US9929703B1 (en) 2016-09-27 2018-03-27 Cirrus Logic, Inc. Amplifier with configurable final output stage
US9967665B2 (en) 2016-10-05 2018-05-08 Cirrus Logic, Inc. Adaptation of dynamic range enhancement based on noise floor of signal
US10321230B2 (en) 2017-04-07 2019-06-11 Cirrus Logic, Inc. Switching in an audio system with multiple playback paths
US10008992B1 (en) 2017-04-14 2018-06-26 Cirrus Logic, Inc. Switching in amplifier with configurable final output stage
US9917557B1 (en) 2017-04-17 2018-03-13 Cirrus Logic, Inc. Calibration for amplifier with configurable final output stage
CN107464563B (zh) * 2017-08-11 2020-08-04 广州迪宝乐电子有限公司 一种语音交互玩具
US10389323B2 (en) * 2017-12-18 2019-08-20 Tls Corp. Context-aware loudness control
US11894006B2 (en) 2018-07-25 2024-02-06 Dolby Laboratories Licensing Corporation Compressor target curve to avoid boosting noise
CN112437957B (zh) 2018-07-27 2024-09-27 杜比实验室特许公司 用于全面收听的强加间隙插入
CN109547848B (zh) * 2018-11-23 2021-02-12 北京达佳互联信息技术有限公司 响度调整方法、装置、电子设备以及存储介质
EP3949368B1 (en) 2019-04-03 2023-11-01 Dolby Laboratories Licensing Corporation Scalable voice scene media server
CN111640446B (zh) * 2020-06-24 2023-03-10 北京百瑞互联技术有限公司 一种基于音频编码器的响度均衡方法、编码器及蓝牙设备
US11916525B2 (en) * 2021-08-27 2024-02-27 Sennheiser Electronic Gmbh & Co. Kg Method for automatically controlling loudness of an audio signal, and device for automatically controlling loudness of an audio signal
WO2023122227A1 (en) * 2021-12-22 2023-06-29 University Of Maryland Audio control system

Family Cites Families (116)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2808475A (en) 1954-10-05 1957-10-01 Bell Telephone Labor Inc Loudness indicator
US4281218A (en) 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier
DE3314570A1 (de) 1983-04-22 1984-10-25 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zur einstellung der verstaerkung
US4739514A (en) 1986-12-22 1988-04-19 Bose Corporation Automatic dynamic equalizing
US4887299A (en) 1987-11-12 1989-12-12 Nicolet Instrument Corporation Adaptive, programmable signal processing hearing aid
US4953112A (en) 1988-05-10 1990-08-28 Minnesota Mining And Manufacturing Company Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model
US5027410A (en) 1988-11-10 1991-06-25 Wisconsin Alumni Research Foundation Adaptive, programmable signal processing and filtering for hearing aids
JPH02118322U (ja) 1989-03-08 1990-09-21
US5097510A (en) 1989-11-07 1992-03-17 Gs Systems, Inc. Artificial intelligence pattern-recognition-based noise reduction system for speech processing
US5369711A (en) 1990-08-31 1994-11-29 Bellsouth Corporation Automatic gain control for a headset
US5632005A (en) 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
SG49883A1 (en) 1991-01-08 1998-06-15 Dolby Lab Licensing Corp Encoder/decoder for multidimensional sound fields
DE69214882T2 (de) 1991-06-06 1997-03-20 Matsushita Electric Ind Co Ltd Gerät zur Unterscheidung von Musik und Sprache
US5278912A (en) 1991-06-28 1994-01-11 Resound Corporation Multiband programmable compression system
US5363147A (en) 1992-06-01 1994-11-08 North American Philips Corporation Automatic volume leveler
DE4335739A1 (de) 1992-11-17 1994-05-19 Rudolf Prof Dr Bisping Verfahren zur Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen
GB2272615A (en) 1992-11-17 1994-05-18 Rudolf Bisping Controlling signal-to-noise ratio in noisy recordings
US5548638A (en) 1992-12-21 1996-08-20 Iwatsu Electric Co., Ltd. Audio teleconferencing apparatus
US5457769A (en) 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals
US5706352A (en) 1993-04-07 1998-01-06 K/S Himpp Adaptive gain and filtering circuit for a sound reproduction system
US5434922A (en) 1993-04-08 1995-07-18 Miller; Thomas E. Method and apparatus for dynamic sound optimization
BE1007355A3 (nl) 1993-07-26 1995-05-23 Philips Electronics Nv Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
IN184794B (ja) 1993-09-14 2000-09-30 British Telecomm
JP2986345B2 (ja) 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
TW247390B (en) 1994-04-29 1995-05-11 Audio Products Int Corp Apparatus and method for adjusting levels between channels of a sound system
US5500902A (en) 1994-07-08 1996-03-19 Stockham, Jr.; Thomas G. Hearing aid device incorporating signal processing techniques
GB9419388D0 (en) 1994-09-26 1994-11-09 Canon Kk Speech analysis
US5548538A (en) * 1994-12-07 1996-08-20 Wiltron Company Internal automatic calibrator for vector network analyzers
US5682463A (en) 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
CA2167748A1 (en) 1995-02-09 1996-08-10 Yoav Freund Apparatus and methods for machine learning hypotheses
EP0661905B1 (de) 1995-03-13 2002-12-11 Phonak Ag Verfahren zur Anpassung eines Hörgerätes, Vorrichtung hierzu und Hörgerät
US5727119A (en) 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
US6301555B2 (en) 1995-04-10 2001-10-09 Corporate Computer Systems Adjustable psycho-acoustic parameters
WO1996032710A1 (en) 1995-04-10 1996-10-17 Corporate Computer Systems, Inc. System for compression and decompression of audio signals for digital transmission
US5601617A (en) 1995-04-26 1997-02-11 Advanced Bionics Corporation Multichannel cochlear prosthesis with flexible control of stimulus waveforms
JPH08328599A (ja) 1995-06-01 1996-12-13 Mitsubishi Electric Corp Mpegオーディオ復号器
US5663727A (en) 1995-06-23 1997-09-02 Hearing Innovations Incorporated Frequency response analyzer and shaping apparatus and digital hearing enhancement apparatus and method utilizing the same
US5712954A (en) 1995-08-23 1998-01-27 Rockwell International Corp. System and method for monitoring audio power level of agent speech in a telephonic switch
US6002776A (en) 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US5907622A (en) 1995-09-21 1999-05-25 Dougherty; A. Michael Automatic noise compensation system for audio reproduction equipment
US5822018A (en) 1996-04-02 1998-10-13 Farmer; James O. Method and apparatus for normalizing signal levels in a signal processing system
US6108431A (en) * 1996-05-01 2000-08-22 Phonak Ag Loudness limiter
US6327366B1 (en) 1996-05-01 2001-12-04 Phonak Ag Method for the adjustment of a hearing device, apparatus to do it and a hearing device
US6430533B1 (en) 1996-05-03 2002-08-06 Lsi Logic Corporation Audio decoder core MPEG-1/MPEG-2/AC-3 functional algorithm partitioning and implementation
JPH09312540A (ja) 1996-05-23 1997-12-02 Pioneer Electron Corp ラウドネスボリュームコントロール装置
JP3765622B2 (ja) 1996-07-09 2006-04-12 ユナイテッド・モジュール・コーポレーション オーディオ符号化復号化システム
EP0820212B1 (de) 1996-07-19 2010-04-21 Bernafon AG Lautheitsgesteuerte Verarbeitung akustischer Signale
JP2953397B2 (ja) 1996-09-13 1999-09-27 日本電気株式会社 ディジタル補聴器の聴覚補償処理方法及びディジタル補聴器
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US5862228A (en) 1997-02-21 1999-01-19 Dolby Laboratories Licensing Corporation Audio matrix encoding
US6125343A (en) 1997-05-29 2000-09-26 3Com Corporation System and method for selecting a loudest speaker by comparing average frame gains
US6272360B1 (en) 1997-07-03 2001-08-07 Pan Communications, Inc. Remotely installed transmitter and a hands-free two-way voice terminal device using same
US6185309B1 (en) * 1997-07-11 2001-02-06 The Regents Of The University Of California Method and apparatus for blind separation of mixed and convolved sources
KR100261904B1 (ko) 1997-08-29 2000-07-15 윤종용 헤드폰 사운드 출력장치
US6088461A (en) 1997-09-26 2000-07-11 Crystal Semiconductor Corporation Dynamic volume control system
US6404891B1 (en) * 1997-10-23 2002-06-11 Cardio Theater Volume adjustment as a function of transmission quality
US6233554B1 (en) 1997-12-12 2001-05-15 Qualcomm Incorporated Audio CODEC with AGC controlled by a VOCODER
US6298139B1 (en) 1997-12-31 2001-10-02 Transcrypt International, Inc. Apparatus and method for maintaining a constant speech envelope using variable coefficient automatic gain control
US6182033B1 (en) 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US6353671B1 (en) 1998-02-05 2002-03-05 Bioinstco Corp. Signal processing circuit and method for increasing speech intelligibility
US6311155B1 (en) 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
JP3505085B2 (ja) * 1998-04-14 2004-03-08 アルパイン株式会社 オーディオ装置
US6498855B1 (en) 1998-04-17 2002-12-24 International Business Machines Corporation Method and system for selectively and variably attenuating audio data
AU758242B2 (en) 1998-06-08 2003-03-20 Cochlear Limited Hearing instrument
EP0980064A1 (de) 1998-06-26 2000-02-16 Ascom AG Verfahren zur Durchführung einer maschinengestützten Beurteilung der Uebertragungsqualität von Audiosignalen
US6351731B1 (en) 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6823303B1 (en) 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6411927B1 (en) 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
FI113935B (fi) 1998-09-25 2004-06-30 Nokia Corp Menetelmä äänitason kalibroimiseksi monikanavaisessa äänentoistojärjestelmässä ja monikanavainen äänentoistojärjestelmä
DE19848491A1 (de) 1998-10-21 2000-04-27 Bosch Gmbh Robert Rundfunkempfänger zum Empfang von Radio-Daten und Verfahren zur Beeinflussung einer Klangcharakteristik eines wiederzugebenden Audiosignals in einem Rundfunkempfänger
US6314396B1 (en) 1998-11-06 2001-11-06 International Business Machines Corporation Automatic gain control in a speech recognition system
EP1089242B1 (en) 1999-04-09 2006-11-08 Texas Instruments Incorporated Supply of digital audio and video products
AU4278300A (en) 1999-04-26 2000-11-10 Dspfactory Ltd. Loudness normalization control for a digital hearing aid
US6263371B1 (en) 1999-06-10 2001-07-17 Cacheflow, Inc. Method and apparatus for seaming of streaming content
US6985594B1 (en) 1999-06-15 2006-01-10 Hearing Enhancement Co., Llc. Voice-to-remaining audio (VRA) interactive hearing aid and auxiliary equipment
US6442278B1 (en) 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
US6778966B2 (en) * 1999-11-29 2004-08-17 Syfx Segmented mapping converter system and method
FR2802329B1 (fr) 1999-12-08 2003-03-28 France Telecom Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames
US6351733B1 (en) 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
DE10018666A1 (de) 2000-04-14 2001-10-18 Harman Audio Electronic Sys Vorrichtung und Verfahren zum geräuschabhängigen Anpassen eines akustischen Nutzsignals
US6889186B1 (en) 2000-06-01 2005-05-03 Avaya Technology Corp. Method and apparatus for improving the intelligibility of digitally compressed speech
JP2002051392A (ja) * 2000-08-01 2002-02-15 Alpine Electronics Inc 車内会話補助装置
AUPQ952700A0 (en) * 2000-08-21 2000-09-14 University Of Melbourne, The Sound-processing strategy for cochlear implants
JP3448586B2 (ja) 2000-08-29 2003-09-22 独立行政法人産業技術総合研究所 聴覚障害を考慮した音の測定方法およびシステム
US6625433B1 (en) 2000-09-29 2003-09-23 Agere Systems Inc. Constant compression automatic gain control circuit
US6807525B1 (en) 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation
DE60029453T2 (de) 2000-11-09 2007-04-12 Koninklijke Kpn N.V. Messen der Übertragungsqualität einer Telefonverbindung in einem Fernmeldenetz
US7457422B2 (en) 2000-11-29 2008-11-25 Ford Global Technologies, Llc Method and implementation for detecting and characterizing audible transients in noise
FR2820573B1 (fr) 2001-02-02 2003-03-28 France Telecom Methode et dispositif de traitement d'une pluralite de flux binaires audio
DE10107385A1 (de) 2001-02-16 2002-09-05 Harman Audio Electronic Sys Vorrichtung zum geräuschabhängigen Einstellen der Lautstärken
US6915264B2 (en) 2001-02-22 2005-07-05 Lucent Technologies Inc. Cochlear filter bank structure for determining masked thresholds for use in perceptual audio coding
DK1290914T3 (da) 2001-04-10 2004-09-27 Phonak Ag Fremgangsmåde til tilpasning af et höreapparat til et individ
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
DE60209161T2 (de) 2001-04-18 2006-10-05 Gennum Corp., Burlington Mehrkanal Hörgerät mit Übertragungsmöglichkeiten zwischen den Kanälen
JP4681163B2 (ja) * 2001-07-16 2011-05-11 パナソニック株式会社 ハウリング検出抑圧装置、これを備えた音響装置、及び、ハウリング検出抑圧方法
CA2354755A1 (en) 2001-08-07 2003-02-07 Dspfactory Ltd. Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank
US7177803B2 (en) 2001-10-22 2007-02-13 Motorola, Inc. Method and apparatus for enhancing loudness of an audio signal
US7068723B2 (en) 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
US7155385B2 (en) 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
JP3832396B2 (ja) * 2002-07-17 2006-10-11 コニカミノルタフォトイメージング株式会社 駆動装置、位置制御装置およびカメラ
JP4257079B2 (ja) 2002-07-19 2009-04-22 パイオニア株式会社 周波数特性調整装置および周波数特性調整方法
DE10236694A1 (de) 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
US7454331B2 (en) 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
DE10308483A1 (de) 2003-02-26 2004-09-09 Siemens Audiologische Technik Gmbh Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät
US7551745B2 (en) 2003-04-24 2009-06-23 Dolby Laboratories Licensing Corporation Volume and compression control in movie theaters
US7617109B2 (en) 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
CA2581810C (en) 2004-10-26 2013-12-17 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US8265295B2 (en) 2005-03-11 2012-09-11 Rane Corporation Method and apparatus for identifying feedback in a circuit
WO2007120452A1 (en) 2006-04-04 2007-10-25 Dolby Laboratories Licensing Corporation Audio signal loudness measurement and modification in the mdct domain
CN101421781A (zh) 2006-04-04 2009-04-29 杜比实验室特许公司 音频信号的感知响度和/或感知频谱平衡的计算和调整
CA2648237C (en) 2006-04-27 2013-02-05 Dolby Laboratories Licensing Corporation Audio gain control using specific-loudness-based auditory event detection
US8194889B2 (en) 2007-01-03 2012-06-05 Dolby Laboratories Licensing Corporation Hybrid digital/analog loudness-compensating volume control

Also Published As

Publication number Publication date
IL172108A (en) 2010-11-30
CN101819771B (zh) 2012-04-11
WO2004111994A3 (en) 2005-08-11
MXPA05012785A (es) 2006-02-22
US20070092089A1 (en) 2007-04-26
CN1795490A (zh) 2006-06-28
HK1105711A1 (en) 2008-02-22
EP1629463A2 (en) 2006-03-01
CA2525942C (en) 2015-04-07
WO2004111994A2 (en) 2004-12-23
BRPI0410740A (pt) 2006-06-27
AU2004248544B2 (en) 2010-02-18
PL1629463T3 (pl) 2008-01-31
DE602004008455D1 (de) 2007-10-04
EP1629463B1 (en) 2007-08-22
US8437482B2 (en) 2013-05-07
IN2010KN02913A (ja) 2015-05-01
KR20060013400A (ko) 2006-02-09
SG185134A1 (en) 2012-11-29
ATE371246T1 (de) 2007-09-15
JP2007503796A (ja) 2007-02-22
CA2525942A1 (en) 2004-12-23
DK1629463T3 (da) 2007-12-10
KR101164937B1 (ko) 2012-07-12
DE602004008455T2 (de) 2008-05-21
AU2004248544A1 (en) 2004-12-23
HK1083918A1 (en) 2006-07-14
CN101819771A (zh) 2010-09-01
ES2290764T3 (es) 2008-02-16

Similar Documents

Publication Publication Date Title
JP4486646B2 (ja) オーディオ信号の感知音量を計算し調整する方法、装置及びコンピュータプログラム
AU2011244268B2 (en) Apparatus and method for modifying an input audio signal
CN101048935B (zh) 控制音频信号的单位响度或部分单位响度的方法和设备
EP2002429B1 (en) Controlling a perceived loudness characteristic of an audio signal
US8199933B2 (en) Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
AU2011244268A1 (en) Apparatus and method for modifying an input audio signal
US10128809B2 (en) Intelligent method and apparatus for spectral expansion of an input signal
EP1835487B1 (en) Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070524

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091224

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20091224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100323

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100326

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130402

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130402

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140402

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees