JP5185254B2 - Mdct領域におけるオーディオ信号音量測定と改良 - Google Patents

Mdct領域におけるオーディオ信号音量測定と改良 Download PDF

Info

Publication number
JP5185254B2
JP5185254B2 JP2009504218A JP2009504218A JP5185254B2 JP 5185254 B2 JP5185254 B2 JP 5185254B2 JP 2009504218 A JP2009504218 A JP 2009504218A JP 2009504218 A JP2009504218 A JP 2009504218A JP 5185254 B2 JP5185254 B2 JP 5185254B2
Authority
JP
Japan
Prior art keywords
volume
mdct
audio signal
time
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009504218A
Other languages
English (en)
Other versions
JP2009532738A (ja
Inventor
シーフェルト、アラン・ジェフリー
クロケット、ブレット・グラハム
スミサーズ、マイケル・ジョン
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2009532738A publication Critical patent/JP2009532738A/ja
Application granted granted Critical
Publication of JP5185254B2 publication Critical patent/JP5185254B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Spectrometry And Color Measurement (AREA)
  • Optical Radar Systems And Details Thereof (AREA)

Description

技術領域
本発明は、オーディオ信号処理に関する。特に本発明は、MDCT領域におけるオーディオ信号の音量の測定とオーディオ信号の音量の改良に関する。本発明は、方法だけではなく、付随するコンピュータプログラムと装置も含む。
[関連文献と参照による組込み]
本書で使用する「ドルビーデジタル」(「ドルビー」と「ドルビーデジタル」は、ドルビー・ラボラトリーズ・ライセンシング・コーポレーションの登録商標)は、「AC−3」としても知られているが、インターネット上でwww.atsc.orgで入手できるドキュメントA/52 A「デジタル・オーディオ圧縮規格AC−3(Digital Audio Compression Standard (AC-3))」アドバンスト・テレビジョン・システム協会(Advanced Television Systems Committee)2001年8月20日を含む種々の書物で説明されている。
本発明の特徴をよりよく理解するのに有用な感知 (心理オーディオ的音量)を測定し調整するあるテクニックは、アラン・ジェフリ・シーフェルト(Alan Jeffrey Seefeldt)らの2004年12月23日に公開された国際特許出願WO 2004/111994 A2、発明の名称「オーディオ信号の感知音量を計算し調整する方法、装置およびコンピュータプログラム(Method, Apparatus and Computer Program for Calculating and Adjusting the 感知 Loudness of an Audio Signal)」とアラン・シーフェルトらの「感知音量の新しい客観的測定(A New Objective Measure of Perceived Loudness)」オーディオ・エンジニアリング協会会議論文(Audio Engineering Society Convention Paper)6236、サンフランシスコ、2004年10月28日に紹介されている。前述のWO 2004/111994 A2出願と論文はその全てを、本書に参照して組込む。
本発明の特徴をよりよく理解するのに有用な感知 (心理オーディオ的音量)を測定し調整するある別のテクニックは、アラン・ジェフリ・シーフェルトの2005年10月25日出願の特許協力条約S.N. PCT/US2005/038579、国際公開番号WO 2006/047600で公開された、発明の名称「オーディオ信号の感知音量及び/又は感知スペクトルバランスの計算と調整(Calculating and Adjusting the 感知 Loudness and/or the Perceived Spectral Balance of an Audio Signal)」に紹介されている。前述の出願はその全てを、本書に参照して組込む。
オーディオ信号の感知音量を客観的に測定するには多くの方法がある。方法例としては、A、B、C重み付けパワー測定に加え、ISO532(1975年)の「音響−音量レベルの計算方法(Acoustics − Method for calculating loudness level)」などのような音量の心理オーディオ的モデルなどがある。重み付けパワー測定は、入力オーディオ信号を捉え、あまり感度よく感知できない周波数を低減する一方、より感度よく感知できる周波数を強調する既知のフィルタを適用し、所定の時間の長さにわたりフィルタされた信号のパワーを平均する。心理オーディオ的方法は、通常はより複雑で、ヒトの耳の作用をよりよくモデル化しようとする。信号を耳の周波数応答と感度によく似た複数の周波数帯域に分解し、信号強度の変化に伴い生ずる音量の非線形感知や、周波数および時間のマスキングのような心理オーディオ的現象を考慮してこれらの帯域を操作して積分する。全ての方法の目標は、オーディオ信号の主観的な印象とよく一致する数値的測定を導くことである。
多くの音量測定方法は、特に心理オーディオ的方法は、オーディオ信号のスペクトル解析を実施する。すなわち、オーディオ信号は、時間領域表現から周波数領域表現に変換される。これは一般的にそして最も効率的に、高速フーリエ変換(FFT)として通常実行される離散フーリエ変換(DFT)を用いて行なわれ、その特性、使用および制限はよく知られている。離散フーリエ変換の逆は、高速フーリエ逆変換(IFFT)として通常実行される離散フーリエ逆変換(IDFT)と呼ばれる。
フーリエ変換に似ている、もう一つの時間から周波数への変換は、修正離散コサイン変換(MDCT)として通常用いられる離散コサイン変換(DCT)である。この変換は、信号のよりコンパクトなスペクトル表現を提供し、ドルビーデジタルやMPEG2−AACのような低ビットレートオーディオコーディングあるいは圧縮システムで、MPEG2ビデオやJPEGなどの画像圧縮システムでも同様に、広く使われている。オーディオ圧縮アルゴリズムでは、オーディオ信号は、重複時間のセグメントに分けられ、各セグメントのMDCT変換はエンコーディングの間に量子化されビットストリームに圧縮される。デコーディングの間に、セグメントはそれぞれ解凍され、逆MDCT(IMDCT)変換を通じて時間領域信号に再生される。同様に、画像圧縮アルゴリズムでは、画像が空間セグメントに分けられ、各セグメントについて量子化されたDCTがビットストリームに圧縮される。
MDCT(および類似のDCT)の特性は、スペクトル解析と改良を実行するときにこの変換を使うと、困難を引き起こす。第1に、サインとコサインの直交成分の両方を含むDFTと違って、MDCTはコサイン成分だけを含む。逐次および重複MDCTを使って実質的に安定状態の信号を解析すると、逐次MDCT値は変動し、よって信号の安定状態の特質を正確に表現しない。第2に、MDCTは時間的エイリアシングを含み、逐次MDCTスペクトル値が大幅に変更されると時間的エイリアシングは完全にはキャンセルされない。さらなる詳細を以下に示す。
MDCT領域信号を直接処理することが難しいために、MDCT信号は、FFTおよびIFFTを使って、または直接時間領域法にて、処理が実行される時間領域に普通は変換し戻される。周波数領域の処理の場合には、追加の順FFTおよび逆FFTは計算の複雑さを大いに増大し、これらの計算をしないでMDCTスペクトルを直接処理することが有益であろう。たとえば、ドルビーデジタルのようなMDCTに基くオーディオ信号をデコードするとき、音量測定とスペクトルの改良を実行し、逆MDCTの前にFFTやIFFTの必要なしにMDCTスペクトル値で音量を直接調整することは有益であろう。
多くの有益な音量の客観的測定は信号のパワースペクトルから計算され、パワースペクトルはDFTから簡単に推定される。パワースペクトルの適切な推定はまた、MDCTから計算されることも示される。MDCTから生成した推定の正確さは、使用する平滑化時定数の関数であり、ヒトの音量感知の積分時間に見合う平滑化時定数を使用すると、ほとんどの音量測定用途に充分なだけ正確な推定を得る。測定に加え、MDCT領域でフィルタを用いてオーディオ信号の音量を改良したいかも知れない。一般的に、そのようなフィルタは処理されたオーディオ(音響)に人為的影響を生じるが、フィルタが周波数の全域で滑らかに変化するならば人為的影響は感知できる範囲では無視できることが示される。ここで提案の音量改良と関係するフィルタのタイプは、周波数全域で滑らかなものに限定され、したがってMDCT領域で用いられる。
「MDCTの特性」
長さNの複素信号xの角振動数ωでの離散時間フーリエ変換(DTFT)は次式で与えられる。
Figure 0005185254
実際には、DTFTは0と2πの間で一定間隔のN個の周波数でサンプリングされる。このサンプリングによる変換は離散フーリエ変換(DFT)として知られ、その演算に高速のアルゴリズム、高速フーリエ変換(FFT)があるために、その使用は広く行なわれている。より具体的には、ビンkでのDFTは次式で与えられる。
Figure 0005185254
DTFTは2分の1のビンをずらしてサンプリングされてもよく、シフト離散フーリエ変換(SDFT)となる。
Figure 0005185254
逆DFT(IDFT)は次式で与えられ、
Figure 0005185254
逆SDFT (ISDFT) は次式で与えられる。
Figure 0005185254
DFTもSDFTも次のように可逆であることが好ましい。
x[n]=xIDFT[n]=xISDFT[n]
実数信号xのN点修正離散コサイン変換(MDCT)は次式で与えられる。
Figure 0005185254
ここで、
Figure 0005185254
N点MDCTは実際は、N/2の特異点だけを有し、冗長である。次のように表される。
MDCT[k]=−XMDCT[N−k−1] (7)
逆MDCT(IMDCT)は次式で与えられる。
Figure 0005185254
DFTやSDFTと異なり、MDCTは完全には可逆、xIMDCT[n]≠x[n]ではない。代わりに、xIMDCT[n]はx[n]の時間エイリアシングされたものである。
Figure 0005185254
式(6)の操作の後、実数信号xのMDCTとSDFTの関係は、次式となる。
Figure 0005185254
別の表現をすれば、MDCTはSDFTの角度の関数であるコサインにより変調されたSDFTの振幅として表現される。
多くのオーディオ処理用途では、オーディオ信号xの逐次重複ウィンドウブロックのDFTを計算するのは有益である。この重複変換を短時間離散フーリエ変換(STDFT)と呼ぶこともある。信号xが変換長さNよりはるかに長いとすると、ビンkとブロックtでのSTDFTは次式で与えられる。
Figure 0005185254
ここで、w[n]は、長さNの解析ウィンドウであり、Mはブロックホップサイズである。短時間シフト離散フーリエ変換(STSDFT)と短時間修正離散コサイン変換(STMDCT)をSTDFTに類似して定義することも出来る。これらの変換を、それぞれXSDFT[k,t]、XMDCT[k,t]と呼ぶこともある。DFTとSDFTとは共に完全に可逆であるので、ウィンドウとホップサイズが適切に選定されるとして、STDFTとSTSDFTとは互いのブロックを反転して、次に重複して加算して反転するのが好ましい。MDCTが可逆でなくても、STMDCTはM=N/2で、サインウィンドウのように適当なウィンドウを選定することで、完全に可逆にすることが出来る。このような条件で、逐次反転ブロック間で式(9)で与えられるエイリアシングは、反転ブロックが重複され加えられると完全に除去される。この特性は、N点MDCTがN/2の特異点を含む事実と一緒に、重複でSTMDCTを完全再構成クリティカルサンプリングフィルタバンクにする。比較によれば、STDFTとSTSDFTは、同じホップサイズに対し係数2で過度にサンプルされる。結果として、STMDCTは感知オーディオコーディングで最も一般的に用いられる変換となる。
「パワースペクトル推定」
STDFTとSTSDFTの一つの一般的な使用は、多くのブロックtにわたりXDFT[k,t]あるいはXSDFT[k,t]の振幅の二乗を平均することで信号のパワースペクトルを推定することである。長さTのブロックの移動平均を計算して以下のように時間的に変動する推定を求めてもよい。
Figure 0005185254
これらのパワースペクトルの推定は、以下に説明するように、種々の客観的信号の音量測定で特に有益である。ある仮定にてXMDCT[k,t]からPSDFT[k,t]が推参されることをここで示す。ます、次式を定義する。
Figure 0005185254
式(10)の関係を用いると、次式が得られる。
Figure 0005185254
|XSDFT[k,t]|と
Figure 0005185254
がブロックtにわたり相対的に独立して共変すると、ほとんどのオーディオ信号で真となる仮定を以下のように得られる。
Figure 0005185254
合計でTブロックにわたり0と2πの間で
Figure 0005185254
が一様に分散するとさらに仮定すると、Tが比較的大きければ、一般的にオーディオに対し真となる別の仮定を以下のように得られる。
Figure 0005185254
なぜならば、一様に分布する位相角で二乗されたコサインの期待値は2分の1だからである。したがって、STMDCTから推定されたパワースペクトルはSTSDFTから推定された値の約半分に等しいことが分かる。
移動平均を用いてパワースペクトルを推定するよりも、次式のように単ポール平滑化フィルタを代わりに用いてもよい。
Figure 0005185254
ここで、変換ブロックの単位で測定される平滑化フィルタの2分の1減衰時間は次式で与えられる。
Figure 0005185254
この場合、Tが比較的大きいときには、PMDCT[k,t]≒(1/2)PSDFT[k,t]を同様に示すことが出来る。
実用的な実施では、MDCTからパワースペクトルの充分に正確な推定を得るのに、移動平均あるいは単ポールの場合に、どのくらいTが大きければいいのかを判断する。このため、与えられた値のTに対するPSDFT[k,t]と2PMDCT[k,t]間の誤差を見る。音量のように、感知に基く測定や改良を含む実施では、個々の変換ビンkの全てのこの誤差を調べるのは、実用的に有益ではない。代わりに、クリティカル帯域内の誤差を調べることがより大きな意義があり、特定の場所での内耳基底膜の応答に類似する。こうするために、パワースペクトルにクリティカル帯域フィルタを乗じて周波数にわたり積分することでクリティカル帯域パワースペクトルを計算する。
Figure 0005185254
ここで、C[k]は、変換ビンkに対応する周波数でサンプリングされたクリティカル帯域bに対するフィルタの応答を表す。図1は、ムアとグラスバーグ(B. C. J. Moore、 B. Glasberg、T. Baer「閾値、音量、部分音量の予想のためのモデル(A Model for the Prediction of Thresholds, Loudness, and Partial Loudness)」オーディオ工学協会誌(Journal of the Audio Engineering Society)45巻4号、1997年4月224〜240頁)に定義されたように、40帯域が等価直角帯域幅(Equivalent Rectangular Bandwidth)(ERB)スケールで均等な間隔とされたクリティカル帯域フィルタの応答のプロットを示す。各フィルタ形状は、ムアとグラスバーグが言うように、丸み付き指数関数で説明され、帯域はERBの間隔を用いて分布している。
ここで、パワースペクトルを計算する移動平均と単ポール技法の双方で種々の値のTに対し、
Figure 0005185254

Figure 0005185254
との誤差を調べる。図2aは、移動平均の場合のこの誤差を表す。特に、10秒の音楽のセグメントに対する40のクリティカル帯域のそれぞれに対するdBでの平均完全誤差(AAE)は、種々の平均ウィンドウ長さTに対して表される。オーディオは44100Hzの速さでサンプリングされ、変換サイズは1024サンプルに設定され、ホップサイズは512サンプルに設定された。プロットは、1秒から15ミリ秒の範囲のTの値を示す。各帯域に対し、Tが大きくなると誤差が減少し、MDCTパワースペクトルの正確さはかなり大きなTに依存することがわかる。また、Tの各値に対し、誤差はクリティカル帯域数が増えると減少する傾向にある。このことは、中心周波数を大きくするとクリティカル帯域が広がるという事実に因る。結果として、帯域でパワーを推定するのにより多くのビンkが一緒にまとめられ、それにより各ビンからの誤差が平均化される。参考点として、0.5dB未満のAAEが250ミリ秒以上の移動平均ウィンドウ長さの全帯域で得られることがわかる。0.5dBの差は、それ以下ではヒトが信頼性を持ってレベルの差を区別できなくなる閾値にほぼ等しい。
図2bは同じプロットを示すが、単ポールスムーザを用いて計算された
Figure 0005185254

Figure 0005185254
とに関するものである。移動平均の場合の傾向と同じAAEの傾向が見られるが、この場合の誤差は一様に小さくなる。これは、単ポールスムーザに関係する平均化ウィンドウが指数的減衰について無限だからである。いずれの帯域でも0.5dB未満のAAEは60ミリ秒以上の減衰時間Tで得られることがわかる。
音量測定と改良を含む実施では、パワースペクトル推定を計算するのに用いられる時定数は、ヒトの音量感知の積分時間より速い必要はない。ワトソン(Watson)とゲンゲル(Gengel)はこの積分時間が周波数を大きくすると減少することを示す実験を行なった。低周波数(125〜200Hzあるいは4〜6ERB)では150〜175ミリ秒の範囲内で、高周波数(3000〜4000Hzあるいは25〜27ERB)では40〜60ミリ秒の範囲内である。(チャールスS.ワトソン (Charles S. Watson)、ロイW.ゲンゲル(Roy W. Gengel)「聴覚感度に関する信号期間と信号周波数(Signal Duration and Signal Frequency in Relation to Auditory Sensitivity)アメリカ音響学会誌(Journal of the Acoustical Society of America)46巻4号(第2部)1969年989〜997頁)したがって、平滑化時定数が周波数に従って変化するパワースペクトル推定を有利に計算できる。図2bをよく観ると、そのような周波数で変化する時定数を利用して、各クリティカル帯域内で小さな平均誤差(0.25dB未満)を示すMDCTからパワースペクトル推定を生成することが示される。
「フィルタリング」
もう一つのSTDFTの一般的な使用は、オーディオ信号の時間的に変化するフィルタリングを効率よく行うことである。これは、STDFTの各ブロックに所望のフィルタの周波数応答を乗じることでなされ、フィルタされたSTDFTを生ずる。
DFT[k,t]=H[k,t]XDFT[k,t] (16)
DFT[k,t]の各ブロックのウィンドウで区切られたIDFTは、H[k,t]のIDFTで環状に畳み込まれた信号xの対応するウィンドウで区切られたセグメントに等しく、合成ウィンドウw[n]を乗じられる。
Figure 0005185254
ここで、演算子((*))は、モジュロNを示す。そして、フィルタされた時間領域信号yを、yIDFT[n,t]の重複加算合成により生成する。式(15)のhIDFT[n,t]がn>P(ここで、P<N)に対しゼロでw[n]がn>N−Pに対しゼロであると、式(17)の環状畳み込み合計は通常の畳み込みと等価になり、フィルタされたオーディオ信号yは人為的影響なしで音を出す。しかし、ゼロのつけ足し要求が満たされないとしても、環状畳み込みによる時間領域エイリアシングの結果としての効果は、十分にテーパされた解析(tapered analysis)および合成ウィンドウが用いられるならば通常聞き取れない。たとえば、解析と合成の双方に対しサインウィンドウで、通常十分である。
STMDCTを用いて類似のフィルタ操作が行われる。
MDCT[k,t]=H[k,t]XMDCT[k,t] (18)
しかしこの場合、スペクトル領域での乗算は、時間領域での環状畳み込みと等価ではなく、可聴の人為的影響が容易に導入される。このような人為的影響の原因を理解するために、STDFTおよびSTMDCTにフォワード変換、フィルタ応答での乗算、逆変換および重複加算の操作を、一連の行列の乗算として定式化することは有用である。yIDFT[n,t],n=0,・・・,N−1をN×1ベクトル
Figure 0005185254
およびx[n+Mt],n=0,・・・,N−1をN×1ベクトルxと表すと、次式のように表せる。
Figure 0005185254
ここで、
=対角成分がw[n]で、他はゼロのN×N行列
DFT=N×NのDFT行列
=対角成分がH[k,t]で、他はゼロのN×N行列
=対角成分がw[n]で、他はゼロのN×N行列
Figure 0005185254
ホップサイズをM=N/2に設定して、逐次ブロックの2番目の半分と1番目の半分とを加算し、最終信号yのN/2点を生成する。このことは、行列の乗算を使って以下のように表される。
Figure 0005185254
ここで、
I=(N/2×N/2)の恒等行列
0=(N/2×N/2)のゼロ行列
Figure 0005185254
MDCT領域でのフィルタ乗算と類似の行列式を、次のように表す。
Figure 0005185254
ここで、
SDFT=N×NのSDFT行列
I=N×Nの恒等行列
D=式(9)における時間エイリアシングに対応するN×N時間エイリアシング行列
Figure 0005185254
この表現は、以下の関係を通じて表現されるMDCTとSDFTの付加的関係を利用していることに注意を要する。
MDCT=ASDFT(I+D) (22)
ここで、Dは、左上の4分の1が−1で、左下の4分の1の対角成分以外が1のN×N行列である。この行列は、式(9)で示される時間エイリアシングを説明する。重複加算を組み込んだ行列
Figure 0005185254
は、
Figure 0005185254
と類似して定義される。
Figure 0005185254
ここで、MDCT領域でのフィルタリングから生ずる人為的影響を理解するために、特定のフィルタH[k,t]に対し行列
Figure 0005185254
Figure 0005185254
Figure 0005185254
Figure 0005185254
を調べてもよい。N=512で、ブロックtにわたって一定で、図3aに示すようなレンガ壁ローパスフィルタの形を取る、フィルタH[k,t]を考える。対応するインパルス応答hIDFT[n,t]は図1bに示される。
解析とサインウィンドウとして設定された合成ウィンドウとの双方で、図4aと図4bとは図1aに示すH[k,t]に対応する行列
Figure 0005185254

Figure 0005185254
とのグレースケール画像を示す。これらの画像では、x軸とy軸はそれぞれ行列の列と行とを表し、グレーの強さは画像の右に説明されたスケールに従った、特定の行/列の位置での行列の値を表す。行列
Figure 0005185254
は、行列
Figure 0005185254
の下半分と上半分とを重複加算することで形成される。行列
Figure 0005185254
の各行は、信号xで畳み込まれたインパルス応答として観察され、フィルタされた信号yの単一サンプルを生成する。理想的には、各行は、行列の対角成分に集中するようにシフトされたhIDFT[n,t]と大略等しい。図4bの目視観察によれば、この場合にそうであることが分かる。
図5aと図5bは、同じフィルタH[k,t]に対する行列
Figure 0005185254

Figure 0005185254
のグレースケール画像を表す。
Figure 0005185254
で、インパルス応答hIDFT[n,t]は、式(19)のエイリアシング行列Dに対応する上部および下部非対角成分に加え主対角成分に沿って折り返されることが分かる。結果として、主対角成分での応答とエイリアシング対角成分の応答との加算から干渉縞が形成される。
Figure 0005185254
の上半分と下半分が加算され、
Figure 0005185254
を生成し、エイリアシング対角成分からの主な太い部分は消去されるが、干渉縞は残る。したがって、
Figure 0005185254
の行は行列の対角成分に沿って折り返される同じインパルス応答を表さない。代わりに、インパルス応答は、迅速に時間的に変化する態様でサンプル毎に変化し、可聴な人為的影響をフィルタされた信号yに与える。
ここで、図6aに示すフィルタH[k,t]を考える。これは図1aと同じローパスフィルタであるが、遷移帯域が大幅に広がっている。対応するインパルス応答hIDFT[n,t]は、図6bに示され、図3bの応答より時間的にはるかにずっとコンパクトになっていることがわかる。このことは、周波数全体でより滑らかに変化する周波数応答は、時間的によりコンパクトなインパルス応答を有するという一般ルールを反映する。
図7aと図7bは、この滑らかな周波数応答に対応する行列
Figure 0005185254

Figure 0005185254
とを示す。これらの行列は、図4aと図4bに示す行列と同じ特性を示す。
図8aと図8bは、同じ滑らかな周波数応答の行列
Figure 0005185254

Figure 0005185254
とを示す。インパルス応答hIDFT[n,t]が時間的に非常にコンパクトであるので、行列
Figure 0005185254
は、干渉縞を示さない。ゼロより遥かに大きなhIDFT[n,t]の部分は、主対角成分あるいはエイリアシング対角成分から離れた位置には生じない。行列
Figure 0005185254
は、エイリアシング対角成分の消去が僅かに完全には至らない点を除いて、
Figure 0005185254
とほとんど一致し、結果として、フィルタされた信号yは顕著な可聴の人為的影響からは解放されている。
MDCT領域でのフィルタリングは、一般的に、感知される人為的影響を導入することが示されている。しかし、フィルタ応答が周波数全体で滑らかに変化するならば、人為的影響は無視できるようになる。多くのオーディオ用途では、周波数にわたって急に変化するフィルタを必要とする。しかし、典型的には、これらは感知改良のため以外の目的で信号を変化する用途である。たとえば、サンプルレート変換は、レンガ壁ローパスフィルタを必要とする。所望の感知できる変化をさせる目的のフィルタ操作は一般的に周波数にわたって急に変化する応答を有するフィルタを必要としない。結果として、そのようなフィルタ操作は客観的な感知できる人為的影響を導入することなくMDCT領域で利用される。特に、音量改良に利用される周波数応答のタイプは、以下に説明されるように、周波数にわたり滑らかでなければならず、よって、MDCT領域で有利に利用される。
本発明の特徴は、MDCT領域へ変換されたオーディオ信号の感知音量の測定を提供する。本発明のさらなる特徴は、MDCT領域に存在するオーディオ信号の感知音量の調整を提供する。
「MDCT領域での音量測定」
上記のように、STMDCTの特性により、オーディオ信号のSTMDCT表現を直接用いて、音量測定が可能となる。第1に、STMDCTから推定されたパワースペクトルはSTSDFTから推定されたパワースペクトルの約半分に等しい。第2に、フィルタのインパルス応答が時間的にコンパクトならばSTMDCTオーディオ信号のフィルタリングを実施できる。
したがって、STSDFTとSTDFTを用いてオーディオの音量を測定するのに使用される技法は、STMDCTに基づくオーディオ信号でも用いることができる。さらに、多くのSTDFTの方法が、時間領域の方法に相当する周波数領域の方法なので、多くの時間領域の方法が同等な周波数領域のSTMDCTの方法を有するということになる。
図9は、本発明の基本的特徴に従った音量測定器あるいは測定方法のブロック図を示す。連続的なSTMDCTスペクトル(901)からなるオーディオ信号は、時間サンプルの重複したブロックを示し、音量測定装置あるいはプロセス(「音量測定」)902へ送られる。そのアウトプットは音量値903である。
「音量測定902」
音量測定902は、重み付けパワー測定や心理オーディオに基づく測定などのいくつかの音量測定装置あるいはプロセスの1つを示す。以下の段落では、重み付けパワー測定について記載する。
図10aと図10bは、オーディオ信号の音量を客観的に測定する2つの一般的な技法のブロック図を示す。これらは、図9に示す音量測定902の機能についての異なった変形を表す。
図10aは、音量測定装置で一般的に用いられる重み付けパワー測定技法の構成の概略を示す。オーディオ信号1001はあまり感知されるのに敏感ではない周波数を重視せずより感知されるのに敏感な周波数を強調するようになされた重みフィルタ1002を通過する。フィルタされた信号1003のパワー1005が(パワー1004で)計算され、所定の時間長さで(平均1006で)平均化され、単一の音量値1007を生成する。多くの異なった標準的な重みフィルタがあり、図11に示される。実用的には、このプロセスの改良したものが使われることが多く、たとえば、静寂の時間は平均に含まれないようになされる。
音量を測定するのに、心理オーディオに基づく技法もよく使われる。図10bはそのような技法の一般化したブロック図を示す。オーディオ信号1001は、外耳と中耳の周波数で変化する強度応答を表す透過フィルタ1012によりフィルタされる。フィルタされた信号1013は次に、(聴覚フィルタバンク1014で)聴覚クリティカル帯域と同等か、より狭い周波数帯域に分けられる。次に、各帯域は、その帯域内でヒトの耳により経験される刺激あるいはエキサイテーションの合計を表すエキサイテーション信号1017へ(エキサイテーション1016で)変換される。次に感知音量あるいは各帯域に対する特定の音量が、刺激から(特定音量1018で)計算され、すべての帯域にわたる特定の音量が(合計1020で)合計され、音量の単一測定1007を生成する。合計のプロセスでは、たとえば周波数マスキングなど、種々の感知の影響を考慮する。この感知的方法の実用的実施では、透過フィルタと聴覚フィルタバンクに大きな計算リソースが必要である。
本発明の特徴により、そのような一般的な技法を改良して、既にSTMDCT領域にある信号の音量を測定する。
本発明の特徴により、図12aは図10a音量測定装置あるいはプロセスの改良版の例を示す。この例では、重みフィルタが、各帯域のSTMDCT値を増加あるいは減少させることにより周波数領域で利用される。そして、STMDCT信号のパワーは同等の時間領域またはSTDFT信号のパワーの約半分であることを考慮し、周波数重み付けSTMDCTのパワーが1204で計算される。次にパワー信号1205は時間全体で平均化され、アウトプットは客観的音量値903とされる。
本発明の特徴により、図12bは図10bの音量測定装置あるいはプロセスの改良版の例を示す。この例では、改良透過フィルタ1212が、各帯域のSTMDCT値を増加あるいは減少させることにより周波数領域で直接利用される。改良聴覚フィルタバンク1214はインプットとして線形周波数帯域間隔STMDCTスペクトルを受け入れ、これらの帯域をクリティカル帯域間隔フィルタバンクアウトプット1015に分割しあるいは組合せる。改良聴覚フィルタバンクもまた、STMDCT信号のパワーは同等の時間領域またはSTDFT信号のパワーの約半分であることを考慮する。次に各帯域は、帯域内でヒトの耳が体験する刺激あるいはエキサイテーションの総計を表すエキサイテーション信号1017へ(エキサイテーション1016で)変換される。次に、感知音量または各帯域に対する特定の音量はエキサイテーション1017から(特定音量1018で)計算され、全帯域にわたる特定の音量は(合計1020で)合計され、音量の単一の測定値903を生成する。
「重み付けパワー音量測定の実施の詳細」
前述のように、STMDCTを表すXMDCT[k,t]は、オーディオ信号xであり、ここで、kはビンインデックスであり、tはブロックインデックスである。重み付けパワー測定を計算するのに、STMDCT値は初め、図11に示すように適切な重み曲線(A、B、C)を用いてゲイン調整されあるいは重み付けされる。例としてA重みを用いると、離散周波数fdiscreteに対してA重みゲイン値を計算して離散A重み周波数値が得られ、ここで
Figure 0005185254

Figure 0005185254
であり、Fは1秒当たりのサンプル数単位でのサンプル周波数である。
各STMDCTブロックtに対する重み付けパワーは、それぞれ式(13a)と式(14c)で与えられる重みの値とSTMDCTパワースペクトル推定の2倍の積の二乗の周波数ビンkにわたっての合計として計算される。
Figure 0005185254
次に、重み付けパワーは、次式のようにdBの単位に変換される。
[t]=10・log10(P[t]) (26)
同様に、BとCでの重み付けも重みなし計算も実行される。重みなしの場合、重みの値は1.0に設定される。
「心理オーディオ的音量測定の実施の詳細」
また、心理オーディオに基づく音量測定を用いて、STMDCTオーディオ信号の音量を測定する。
シーフェルトらの前記のWO2004/111994 A2 出願は、とりわけ、心理オーディオ的モデルに基づく感知音量の客観的測定を開示する。STMDCT係数901から式(13a)と式(14c)を用いて導いたパワースペクトル値PMDCT[kt]は、他の同様な心理オーディオ的測定と同様に、オリジナルのPCMオーディオよりも、開示された装置やプロセスへのインプットとして役立つ。そのようなシステムは、図10bの例に示される。
前記のPCT出願からの用語と符号を取り入れると、時間ブロックtの間のクリティカル帯域bにおける内耳の基底膜でのエネルギ分布を近似するエキサイテーション信号E[b,t]は、STMDCTパワースペクトル値から以下のように概算される。
Figure 0005185254
ここで、T[k]は透過フィルタの周波数応答を表し、C[k]はクリティカル帯域bに対応する位置での基底膜の周波数応答を表し、両応答は、ビンkを変換したのに対応する周波数でサンプリングされる。フィルタC[k]は、図1で表したもののような形をとる。
等音量の曲線を使って、各帯域でのエキサイテーションを、1kHzで同じ音量を生ずるエキサイテーションレベルに変換する。次に、周波数と時間にわたって分散する感知音量の測定である、特定音量は、圧縮非線形を使って、変換されたエキサイテーションE1kHz[b,t]から計算される。
Figure 0005185254
ここで、TQ1kHzは1kHzで静寂な閾値であり、定数G、αは、音量の増大を説明する心理オーディオ的実験から生成したデータに釣り合うように選定される。最後に、単位ソーンで表される合計音量Lを特定の音量を帯域中で加算して計算する。
Figure 0005185254
オーディオ信号を調整する目的で、オーディオ信号に乗じられると、これまで説明した心理オーディオ的技法で測定したある基準音量LREFに調整したオーディオの音量を等しくするマッチングゲインGMatch[t]を計算しようとする。心理オーディオ的測定は、特定音量の計算に非線形性を含むので、GMatch[t]の閉形式解は存在しない。その代わり、前記のPCT出願で説明した繰り返し法を用いてもよく、マッチングゲインの二乗が調整され、対応する合計音量Lが基準音量LREFの許容範囲内になるまで全エキサイテーションE[b,t]を乗じられる。次に、オーディオの音量は、基準に関してdBで以下のように表現される。
Figure 0005185254
「音量測定に基づくSTMDCTの実施」
本発明の主たる長所の1つは、オーディオをPCMに完全にデコードする必要なく、低ビットレートのコード化オーディオ(MDCT領域で表される)の音量の測定と改良ができることである。デコードプロセスには、ビット割り当てや逆変換などの高価なプロセス工程が含まれる。デコード工程のいくつかを避けることで、プロセスが必要とする間接的な計算を減少できる。この方法は、音量測定が所望されるがデコードされたオーディオは必要ないときに有益である。実施には、たとえばスミサーズ(Smithers)らの2006年1月5日公開の米国特許出願2006/0002572 Al、発明の名称「オーディオ情報の再生音量及びダイナミックレンジに影響するメタデータの修正方法(Method for correcting metadata affecting the playback loudness and dynamic range of audio information)」に概説されているような音量ベリフィケーション・改良ツールを含み、しばしば、放送用記録および送信チェインで音量測定と修正が行われ、そこではデコードされたオーディオへのアクセスは必要ない。この発明により提供されるプロセス省力も、実時間で送信される多量の低ビットレートの圧縮オーディオ信号の音量測定とメタデータ修正(たとえば、ドルビーデジタルダイアルノームメタデーターパラメータを正しい値に変える)を実行するのに役立つ。しばしば多くの低ビットレートコード化オーディオ信号は、MPEGトランスポートストリームで多重送信されトランスポートされる。効率的な音量測定技法の存在が、音量測定を実行するのに圧縮オーディオ信号をPCMへ完全にデコードすることが必要であることに比べ、大量の圧縮オーディオ信号での音量測定を可能にする。
図13は、本発明の特徴を使わないで音量を測定する方法を示す。オーディオの(PCMへの)完全なデコードが行われ、オーディオの音量は既知の技法で測定される。より詳細には、低ビットレートコード化オーディオデータあるいは情報1301がまずデコーディング装置あるいはプロセス(「デコード」)1302で非圧縮のオーディオ信号1303へデコードされる。次にこの信号は音量測定装置あるいはプロセス(「音量測定」)へ送られ、結果としての音量値が1305としてアウトプットされる。
図14は、低ビットレートコード化オーディオ信号のデコードプロセス1302の例を示す。特に、ドルビーデジタルデコーダおよびドルビーEデコーダの双方に共通な構造を示す。コード化オーディオデータ1301のフレームは、装置あるいはプロセス1402にて指数データ1403、仮数データ1404およびその他種々のビット割り当て情報1407へ解凍される。指数データ1403は、装置あるいはプロセス1405で対数パワースペクトル1406に変換され、この対数パワースペクトルをビット割り当て装置あるいはプロセス1408で用いて信号1409を計算し、信号1409はビット単位で各量子化仮数の長さである。仮数1411は次に装置あるいはプロセス1410で解凍あるいは逆量子化され、指数1409と組み合わされ、逆フィルタバンク装置あるいはプロセス1412で時間領域に変換し戻される。逆フィルタバンクは、処理中の逆フィルタバンクの結果の部分を(時間で)前の逆フィルタバンクの結果と重複させ加算して、デコードされたオーディオ信号1303を生成する。実際のデコーダの実施では、ビット割り当て、逆量子化仮数および逆フィルタバンクプロセスを実行するには、大きなコンピュータリソースが必要である。デコードプロセスについてのさらなる詳細は、前に引用したドキュメントA/52にある。
図15は、本発明の特徴の簡単なブロック図を示す。この例では、コード化オーディオ信号1301が装置あるいはプロセス1502で部分的にデコードされてMDCT係数を回収し、部分的にデコードされた情報を用いて装置あるいはプロセス902で音量を測定する。どのように部分デコードが実行されるかによるが、結果としての音量測定903は、完全にデコードしたオーディオ信号1303から計算した音量測定1305と非常に類似するが、正確に同じではない。しかし、この測定はオーディオ信号の音量の使える推定を提供するのに十分なだけ近い。
図16は、本発明のおよび図15の例に示された特徴を具体化する部分デコード装置あるいはプロセスの例を示す。この例では、逆STMDCTは実行されず、STMDCT信号1303が音量測定装置あるいはプロセスで使われるようにアウトプットされる。
本発明の特徴によると、STMDCT領域の部分的デコードは、デコードがフィルタバンクプロセスを必要としないので、大きな計算省力となる。
感知コーダは、オーディオ信号の特定の特徴に関連して、ブロックサイズとも呼ばれる重複時間セグメントの長さを改変するようになされるのが普通である。たとえば、ドルビーデジタルは、主に安定したオーディオ信号用の512サンプルの長いブロックとより過渡的なオーディオ信号用の256サンプルの短いブロックとの2つのブロックサイズを用いる。結果は、周波数帯域の数とSTMDCT値の対応する数はブロック毎に変化することになる。ブロックサイズが512サンプルでは256帯域あり、ブロックサイズが256サンプルでは128帯域ある。
図13と図14の例が変化するブロックサイズを取り扱う多くの方法があり、各方法で類似の音量測定の結果となる。たとえば、逆量子化プロセスを変更して、複数の小ブロックを大ブロックに組合せあるいは平均化し、少数の帯域からのパワーを多数の帯域中に広げることで、一定のブロックレートで一定の数の帯域を常にアウトプットする。あるいは、音量測定方法が、変化するブロックサイズを許容し、たとえば時定数を調整することで、フィルタリング、エキサイテーション、特定音量、よって平均化および加算プロセスを調整する。
ドルビーデジタルとドルビーEストリームの音量を測定する本発明の代替は、より効率的であるが、僅かに正確性が下がる。この代替によれば、ビット割り当てと逆量子化仮数は実行されず、STMDCT指数データ1403だけを使ってMDCT値を再生する。指数はビットストリームから読まれ、結果としての周波数スペクトルは音量測定装置あるいはプロセスに渡される。このことにより、ビット割り当て、仮数逆量子化および逆変換の計算コストを回避できるが、全STMDCT値を用いることと比較すると音量測定の正確性が僅かに下がるという不利益がある。
標準の音量オーディオテスト材料を用いて行われた実験では、部分的にデコードされたSTMDCTデータだけを用いて計算した心理オーディオ的音量値は、オリジナルのPCMオーディオデータで同じ心理オーディオ的測定を用いて計算した値ととても近いことが示された。32個のオーディオテストピースのテストセットで、PCMを用いて計算したLdBと量子化ドルビーデジタル指数の平均絶対差は、0.54dBの最大絶対差でわずか0.093dBであった。このような値は、十分に実際的音量測定の正確性の範囲内である。
「他の感知オーディオコード」
MPEG2−AACを用いてコード化されたオーディオ信号もSTMDCT係数に部分的にデコードされ、結果は客観的音量測定装置あるいはプロセスに渡される。MPEG2−AACコード化オーディオは、主としてスケールファクタと量子化変換係数とからなる。スケールファクタはまず解凍され、量子化変換係数を解凍するのに使われる。スケールファクタも量子化変換係数もそれ自身ではオーディオ信号の粗い描写を推論するのに十分な情報を含んでいないので、両方を解凍し、組合せ、結果としてのスペクトルを音量測定装置あるいはプロセスに渡す。ドルビーデジタルやドルビーEと同様に、このことは逆フィルタバンクの計算コストを節約する。
基本的に、部分的にデコードされた情報がオーディオ信号のSTMDCTあるいはSTMDCTの近似を作り出す、いかなるコーディングシステムでも、図15に示す本発明の特徴は顕著な計算省力につながる。
「MDCT領域での音量改良」
本発明のさらなる特徴は、オーディオのSTMDCT表現から得られる音量の測定に基づいてそのSTMDCT表現を変更することによりオーディオの音量を改良することである。図17は、改良装置あるいはプロセスの例を描写する。図9の例のように、逐次STMDCTブロック(901)からなるオーディオ信号は、音量測定装置あるいはプロセス902に渡され、そこから音量値903が作成される。STMDCT信号と共にこの音量値は、音量値を利用して信号の音量を変化させる音量改良装置あるいはプロセス1704にインプットされる。音量が改良されるやり方は、システムのオペレータのような外部ソースから入力された音量改良パラメータ1705により、代替的にあるいは付加的にコントロールされてもよい。音量改良装置あるいはプロセスのアウトプットは、所望の音量改良を含んだ改良STMDCT信号1706である。最後に、改良STMDCT信号は、改良STMDCT信号の各ブロックにIMDCTを施し、次に逐次ブロックを重複加算することにより時間領域改良信号を合成する、逆MDCT装置あるいは機能1707でさらに処理される。
図17の例の1つの特定な実施の形態は、A重みのような重み付けパワー測定により駆動される自動ゲインコントロール(AGC)である。このような場合、音量値903は式(25)で与えられるA重み付けパワー測定として計算される。オーディオ信号の所望の音量を表す基準パワー測定
Figure 0005185254
は、音量改良パラメータ1705を介して供される。時間的に変化するパワー測定P[t]および基準パワー
Figure 0005185254
から、次式の改良ゲインを計算し
Figure 0005185254
改良ゲインにSTMDCT信号XMDCT[k,t]を乗じて次式の改良STMDCT信号を得る。
Figure 0005185254
この場合、改良STMDCT信号は、その平均音量が所望の基準
Figure 0005185254
にほぼ等しい、オーディオ信号に対応する。ゲインG[t]がブロックごとに変化するので、式(9)で特定されるMDCT変換の時間領域エイリアシングは、時間領域信号1708が式(33)の改良STMDCT信号から合成されると、完全には消去されないであろう。しかし、STMDCTからパワースペクトル推定を計算するのに使われる平滑化時定数が十分に大きいと、ゲインG[t]は、このエイリアシングの消去誤差が小さく聞こえないくらいゆっくりと変化するであろう。この場合、改良するゲインG[t]はすべての周波数ビンkで一定であり、よって、MDCT領域でフィルタすることに関して前述した課題は問題ではないことに留意されたい。
AGCに加え、他の音量改良技法が、重み付けパワー測定を用いて同様の方法で実行される。たとえば、P[t]が小さいときにオーディオ信号の音量が大きくなり、P[t]が大きいときに小さくし、よってオーディオのダイナミックレンジを低減するように、P[t]の関数としてのゲインG[t]を計算することにより、ダイナミックレンジコントロール(DRC)が実行される。そのようなDRCの用途では、パワースペクトル推定を計算するのに使われる時定数は、ゲインG[t]がオーディオ信号の音量における短期間の変化に反応するように、AGCの用途より典型的には小さく選ばる。
広帯域ゲインとして、式(32)に示されるように、改良ゲインG[t]を、全周波数ビンkで一定であるので、参照してもよい。オーディオ信号の音量を変更するのに広帯域ゲインを用いると、感知される多くの好ましくない人為的影響を導入してしまう。最も認識されるのは、スペクトルの一部分の音量の変化がスペクトルの無関係な別の部分を音響的に変調する、クロススペクトルポンピングである。たとえば、クラシック音楽を選ぶと、持続する弦楽器の響きが中心の高周波数を含む一方、低周波数には大きなとどろくようなティンパニの音を含む。上記のDRCの場合には、ティンパニをたたくときにはいつでも全体音量が増加し、DRCシステムはスペクトル全体を弱化させる。結果として、弦楽器は出力が低下するように、ティンパニで音量が増えるように聞こえる。典型的な解決策には、スペクトルの別の部分に別のゲインを適用することを含み、そのような解決策が本書で開示されるSTMDCT改良システムに適用される。たとえば、それぞれ違った領域のパワースペクトル(この場合には周波数ビンkのサブセット)から重み付けパワー測定のセットが計算され、次に各パワー測定をその後にスペクトルの対応する部分を乗じられる音量改良ゲインを計算するのに用いる。このような「複数帯域」ダイナミックプロセッサは、典型的には4つか5つのスペクトル帯域を用いる。この場合、ゲインは周波数により変化し、前述のように、人為的影響が導入されるのを避けるためにSTMDCTを乗じる前に、ビンkにわたりゲインを滑らかにするように注意しなければならない。
オーディオ信号の音量をダイナミックに変化させるための広帯域ゲインの使用に関係するもう一つのあまり認識されていない問題は、ゲインが変わると感知するオーディオのスペクトルバランス、すなわち音色が結果としてずれることである。この音色の感知できるずれは、周波数にわたるヒトの音量の感知の変化の副作用である。特に、等音量の曲線はヒトが中間レンジの周波数に比べ低いおよび高い周波数で敏感ではないことを示し、固定された信号レベルに対するこの周波数にわたる音量の変化は、信号レベルが小さくなると、よりはっきりする。したがって、広帯域ゲインを用いてオーディオ信号の音量を変更するときは、周波数間の相対音量が変化し、この音色のずれが、特にゲインが大きく変化すると、不自然にあるいは気障りに感知される。
前記の国際公開番号WO 2006/047600では、以前に説明された感知音量モデルをオーディオ信号の音量を測定するのと改良するのと両方に用いる。測定した音量の関数としてオーディオの音量をダイナミックに改良する、AGCやDRCなどのような用途については、音量が変化するので、感知するオーディオのスペクトルバランスを維持することにより前述の音色のずれ問題を解決する。このことは、式(28)に示すように、感知音量スペクトルすなわち特定音量を明確に測定し改良することにより行われる。さらに、そのシステムは本質的に複数帯域であり、したがって、広帯域ゲイン改良と関係するクロススペクトルポンピングの人為的影響を取り扱うように容易に構成できる。そのシステムは、詳細が前記特許出願に記載されているような、音量補償ボリュームコントロール、ダイナミック等化、ノイズ補償などのような他の音量改良アプリケーションと同様に、AGCやDRCを実施するように構成される。
前記国際公開番号WO 2006/047600に開示されているように、そこに説明されている発明の種々の特徴は、オーディオ信号の音量を測定するのと改良するのとの両方にSTDFTを用いる。その出願はこのシステムに関係する感知音量測定もSTMDCTを用いて実施されることを示し、ここでは同じSTMDCTが関連する音量改良に適用されることが分かる。式(28)は特定音量N[b,t]がエキサイテーションE[b,t]から計算される1つの方法を示す。一般的にこの関数をΨ{・}として次式のように表す。
N[b,t]=Ψ{E[b,t]} (33)
特定音量N[b,t]は図17の音量値903として機能し、次に音量改良プロセス1704に送り込まれる。所望の音量改良アプリケーションに適した音量改良パラメータに基づき、所望の目標特定音量
Figure 0005185254
は特定音量N[b,t]の関数F{・}として計算される。
Figure 0005185254
つぎに、そのシステムはゲインG[b,t]の解を求め、エキサイテーションが作用するとゲインは所望の目標と等しい特定音量となる。別の言い方をすると、ゲインは次の関係を満たすことが分かる。
Figure 0005185254
これらのゲインを見出すため前記の特許出願にはいくつかの技法が記載されている。最後に、ゲインG[b,t]を用いてSTMDCTを改良し、この改良STMDCTから測定される特定音量と所望の目標
Figure 0005185254
との差が低減するようにする。理想的には、差の絶対値はゼロに低減される。このことは、次式で改良STMDCTを計算することでなされる。
Figure 0005185254
ここで、S[k]は帯域bに関係する合成フィルタ応答で、式(27)の基底膜フィルタC[k]に等しくなるように設定される。式(36)はオリジナルのSTMDCTを時間的に変化するフィルタ応答H[k,t]で乗じるものと解され、H[k,t]は次式である。
Figure 0005185254
一般的なフィルタH[k,t]をSTDFTとは対照的にSTMDCTに適用すると人為的影響が導入されることは以前より示されていた。しかし、フィルタH[k,t]が周波数中で滑らかに変化するならばこれらの人為的影響は聴覚的に無視できるようになる。基底膜フィルタ応答C[k]に等しくなるように選定された合成フィルタS[k]と十分に細かくなるように選定された帯域b間の間隔とで、この滑らかさの制限は確保される。40帯域を組み込んだ好適な実施の形態で用いられる合成フィルタ応答をプロットした、図1に戻ると、各フィルタの形は周波数にわたって滑らかに変化し、隣接するフィルタでかなりの程度の重複があることが分かる。結果として、全合成フィルタS[k]の線形な合計であるフィルタ応答H[k,t]は、周波数にわたって滑らかに変化することになる。さらに、ほとんどの音量改良アプリケーションで生成されるゲインG[b,t]は帯域ごとに大きく変化することはなく、H[k,t]の滑らかさをさらに強く確かなものとする。
図18aは、オリジナルの特定な音量N[b,t]を0.33の一定な係数で縮小することで単純に目標特定音量
Figure 0005185254
が計算される音量改良に対応するフィルタ応答H[k,t]を描写する。図18bは、このフィルタに対応する行列
Figure 0005185254
のグレースケール画像を示す。画像の右に示されるグレースケールマップは、行列要素間の僅かな差を強調するのに不ぞろいとされていることに注意されたい。行列は、主対角成分に沿って折り返した単一のインパルス応答の所望の構造をよく近似している。
図19aは、オリジナルの特定な音量N[b,t]に複数帯域DRCを適用することで目標特定音量
Figure 0005185254
が計算される音量改良に対応するフィルタ応答H[k,t]を描写する。ここでも、応答は周波数にわたって滑らかに変化する。図19bは、これも不ぞろいなグレースケールマップでの対応する行列
Figure 0005185254
のグレースケール画像を示す。行列は、エイリアシングを有する対角成分の僅かに完全には消去されないという除外付きの所望の対角成分構造を表す。しかしこの誤差は、感知されない。
「実施」
本発明は、ハードウェアで、あるいはソフトウェアで、あるいは双方の組合せ(たとえば、プログラマブル・ロジック・アレイ)で実施される。特に規定しない限り、本発明の一部として含まれているアルゴリズムやプロセスは、特定のコンピュータや他の装置に本質的に関係するものではない。特に、種々の汎用機械装置が本書の教示にしたがって書かれたプログラムと共に使われ、あるいはより特化した装置(たとえば、集積回路)を作って必要な方法の工程を実行した方がより便利かもしれない。したがって、本発明は1つ以上のプログラム可能なコンピュータシステム上で実行される1つ以上のコンピュータプログラムで実施され、各コンピュータシステムは少なくとも1つのプロセッサと、少なくとも1つのデータ記憶システム(揮発性、不揮発性および/または記憶要素を含む)と、少なくとも1つのインプット装置あるいはポートと、少なくとも1つのアウトプット装置あるいはポートとを備える。インプットデータにプログラムコードが適用されて、本書で説明した機能が実施され、アウトプット情報を生成する。アウトプット情報は、既知の要領で1つ以上のアウトプット装置に適用される。
このようなコンピュータプログラムのそれぞれは、所望のコンピュータ言語(機械語、アセンブリ、あるいは高水準処理、論理、あるいはオブジェクト指向プログラム言語を含む)で実施され、コンピュータシステムとコミュニケーションする。どの場合でも、言語はコンパイルされたあるいはインタープリタ型言語である。
このようなコンピュータプログラムのそれぞれは、本書で説明した手順を実施するためにコンピュータシステムにより記憶媒体あるいは装置が読まれるときにコンピュータを構成し操作するように、汎用あるいは特殊目的プログラマブルコンピュータで読み込み可能な記憶媒体あるいは装置(たとえば、固体メモリあるいは装置、あるいは磁気若しくは光学媒体)で記憶されまたはダウンロードされるのが好ましい。本発明のシステムは、コンピュータプログラムで構成されたコンピュータ可読記憶媒体として実施されてもよいと考えられ、そのように構成された記憶媒体は、コンピュータシステムを特定の予め定めた方法で操作し本書で説明した機能を実施させる。
本発明の多くの実施の形態を説明した。それにもかかわらず、本発明の思想と範囲から逸脱することなく種々の改良がなされることが理解されよう。たとえば、本書で説明した工程のあるものは、実施順序は重要ではなく、よって説明された順序とは異なる順序で実施できる。
図1は、40帯域が等価直角帯域幅(Equivalent Rectangular Bandwidth)(ERB)スケールで均等な間隔とされたクリティカル帯域フィルタC[k]の応答のプロットを示す。 図2aは、種々の値のTに対する移動平均を用いて計算した
Figure 0005185254

Figure 0005185254
との間のdBでの平均絶対誤差(Average Absolute Error)(AAE)のプロットを示す。
図2bは、種々の値のTで1つのポールスムーザー(pole smoother)を用いて計算した
Figure 0005185254

Figure 0005185254
との間のdBでの平均絶対誤差(AAE)のプロットを示す。
図3aは、理想的レンガ壁ローパスフィルタである、フィルタ応答H[k,t]を示す。 図3bは、理想的インパルス応答hIDFT[n,t]を示す。 図4aは、図3aのフィルタ応答H[k,t]に対応する行列
Figure 0005185254
のグレースケール画像である。本書のこのグレースケールと他のグレースケールでは、x軸とy軸は行列の列と行にそれぞれ対応し、グレーの濃さは、画像の右に描かれたスケールによる、特定の行/列位置での行列の値を示す。
図4bは、図3aのフィルタ応答H[k,t]に対応する行列
Figure 0005185254
のグレースケール画像である。
図5aは、図3aのフィルタ応答H[k,t]に対応する行列
Figure 0005185254
のグレースケール画像である。
図5bは、図3aのフィルタ応答H[k,t]に対応する行列
Figure 0005185254
のグレースケール画像である。
図6aは、平滑化ローパスフィルタとしてのフィルタ応答H[k,t]を示す。 図6bは、時間圧縮インパルス応答hIDFT[n,t]を示す。 図7aは図6aのフィルタ応答H[k,t]に対応する行列
Figure 0005185254
のグレースケール画像である。図4aと比較すること。
図7bは図6aのフィルタ応答H[k,t]に対応する行列
Figure 0005185254
のグレースケール画像である。図4bと比較すること。
図8aは図6aのフィルタ応答H[k,t]に対応する行列
Figure 0005185254
のグレースケール画像である。
図8bは図6aのフィルタ応答H[k,t]に対応する行列
Figure 0005185254
のグレースケール画像である。
図9は、本発明の基本的特徴による音量測定方法のブロック図を示す。 図10aは、重み付けパワー測定装置または方法の模式的機能ブロック図である。 図10bは、心理オーディオに基く測定装置または方法の模式的機能ブロック図である。 図12aは、本発明の特徴による重み付けパワー測定装置またはプロセスの模式的機能ブロック図である。 図12bは、本発明の特徴による心理オーディオに基く測定装置またはプロセスの模式的機能ブロック図である。 図13は、たとえば低ビットレートコードオーディオのような、MDCT領域でエンコードされたオーディオの音量を測定する本発明の特徴を示す模式的機能ブロック図である。 図14は、図13の配列で用いられるデコードプロセスの例を示す模式的機能ブロック図である。 図15は、低ビットレートコードオーディオの部分的デコードから得られるSTMDCT係数が音量測定に用いられている本発明の特徴を示す模式的機能ブロック図である。 図16は、音量測定で使うための低ビットレートオーディオコーダで部分的デコードから得られるSTMDCT係数の使用例を示す模式的機能ブロック図である。 図17は、オーディオの音量が、そのSTMDCT表現から得られる音量の測定に基いて同じ表現を変更することで改良される、本発明の特徴の例を示す模式的機能ブロック図である。 図18aは、特定の音量の固定スケーリングに対応するフィルタ応答フィルタH[k,t]を示す。 図18bは、図18aに示す応答を有するフィルタに対応する行列のグレースケール画像を示す。 図19aは、特定の音量に適用されるDRCに対応するフィルタ応答H[k,t]を示す。 図19bは、図18aに示す応答を有するフィルタに対応する行列
Figure 0005185254
のグレースケール画像を示す。

Claims (5)

  1. 時間サンプルの連続的な複数のブロックの改良離散コサイン変換(MDCT)係数によって表される時間でサンプルされたオーディオ信号の感知音量改良する方法であって:
    時間でサンプルされたオーディオ信号の感知音量をMDCT領域で測定する工程であって、該測定する工程は、時間でサンプルされたオーディオ信号のパワースペクトルの推定を計算する工程を含み、前記測定する工程において、ヒトの音量感知あるいはそれよりも遅い積分時間に相応する平滑化時定数を有する時間平滑化が用いられて、前記パワースペクトルの推定の変動が低減される、前記測定する工程と;
    前記時間でサンプルされたオーディオ信号の感知音量を改良する工程であって、該改良する工程は、少なくとも部分的に前記測定する工程に応答するものであり、前記改良する工程は、時間及び周波数に依存するゲインG[b,t]を用いて、前記MDCT領域において、連続的な複数のブロックのMDCT係数をゲイン改良する工程を含み、該ゲイン改良する工程は、前記MDCT係数の複数の周波数帯域を周波数軸方向にフィルタする工程を含み、1つ以上の周波数帯域をゲイン改良するときに、前記フィルタする工程により生じる周波数帯域から周波数帯域へのゲインの変化が、クリティカル帯域フィルタの応答の滑らかさという意味において滑らかであり、前記MDCT係数をゲイン改良する工程により生成される人為的影響が低減される前記感知音量を改良する工程とを備える;
    方法。
  2. 前記感知音量を改良する工程は、基準パワーの関数でもある;
    請求項1に記載の方法。
  3. 前記平滑化時定数は周波数に依存する
    請求項1に記載の方法。
  4. 請求項1ないしのいずれか1項に記載の方法のすべての工程を実施するようになされた装置。
  5. 請求項1ないしのいずれか1項に記載の方法をコンピュータに実施させる、コンピュータ可読媒体に記憶されたコンピュータプログラム。
JP2009504218A 2006-04-04 2007-03-30 Mdct領域におけるオーディオ信号音量測定と改良 Expired - Fee Related JP5185254B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US78952606P 2006-04-04 2006-04-04
US60/789,526 2006-04-04
PCT/US2007/007945 WO2007120452A1 (en) 2006-04-04 2007-03-30 Audio signal loudness measurement and modification in the mdct domain

Publications (2)

Publication Number Publication Date
JP2009532738A JP2009532738A (ja) 2009-09-10
JP5185254B2 true JP5185254B2 (ja) 2013-04-17

Family

ID=38293415

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009504218A Expired - Fee Related JP5185254B2 (ja) 2006-04-04 2007-03-30 Mdct領域におけるオーディオ信号音量測定と改良

Country Status (8)

Country Link
US (1) US8504181B2 (ja)
EP (1) EP2002426B1 (ja)
JP (1) JP5185254B2 (ja)
CN (1) CN101410892B (ja)
AT (1) ATE441920T1 (ja)
DE (1) DE602007002291D1 (ja)
TW (1) TWI417872B (ja)
WO (1) WO2007120452A1 (ja)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101164937B1 (ko) 2003-05-28 2012-07-12 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 신호의 인식된 라우드니스를 계산 및 조정하는방법, 장치 및 컴퓨터 프로그램
AU2005299410B2 (en) 2004-10-26 2011-04-07 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
CN101410892B (zh) 2006-04-04 2012-08-08 杜比实验室特许公司 改进的离散余弦变换域中的音频信号响度测量及修改
DE602007011594D1 (de) 2006-04-27 2011-02-10 Dolby Lab Licensing Corp Tonverstärkungsregelung mit erfassung von publikumsereignissen auf der basis von spezifischer lautstärke
JP4940308B2 (ja) 2006-10-20 2012-05-30 ドルビー ラボラトリーズ ライセンシング コーポレイション リセットを用いるオーディオダイナミクス処理
US8521314B2 (en) 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
US8396574B2 (en) 2007-07-13 2013-03-12 Dolby Laboratories Licensing Corporation Audio processing using auditory scene analysis and spectral skewness
TWI350653B (en) * 2007-10-19 2011-10-11 Realtek Semiconductor Corp Automatic gain control device and method
US8300849B2 (en) * 2007-11-06 2012-10-30 Microsoft Corporation Perceptually weighted digital audio level compression
CN102017402B (zh) 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
US9159325B2 (en) * 2007-12-31 2015-10-13 Adobe Systems Incorporated Pitch shifting frequencies
EP2329492A1 (en) 2008-09-19 2011-06-08 Dolby Laboratories Licensing Corporation Upstream quality enhancement signal processing for resource constrained client devices
ES2385293T3 (es) 2008-09-19 2012-07-20 Dolby Laboratories Licensing Corporation Procesamiento de señales ascendentes para dispositivos clientes en una red inalámbrica de células pequeñas
ATE552651T1 (de) 2008-12-24 2012-04-15 Dolby Lab Licensing Corp Audiosignallautheitbestimmung und modifikation im frequenzbereich
TWI503816B (zh) * 2009-05-06 2015-10-11 Dolby Lab Licensing Corp 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8731216B1 (en) * 2010-10-15 2014-05-20 AARIS Enterprises, Inc. Audio normalization for digital video broadcasts
WO2012070866A2 (ko) * 2010-11-24 2012-05-31 엘지전자 주식회사 스피치 시그널 부호화 방법 및 복호화 방법
JP5304860B2 (ja) * 2010-12-03 2013-10-02 ヤマハ株式会社 コンテンツ再生装置およびコンテンツ処理方法
US9620131B2 (en) 2011-04-08 2017-04-11 Evertz Microsystems Ltd. Systems and methods for adjusting audio levels in a plurality of audio signals
US9135929B2 (en) 2011-04-28 2015-09-15 Dolby International Ab Efficient content classification and loudness estimation
JP5702666B2 (ja) * 2011-05-16 2015-04-15 富士通テン株式会社 音響装置および音量補正方法
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
JP6174129B2 (ja) * 2012-05-18 2017-08-02 ドルビー ラボラトリーズ ライセンシング コーポレイション パラメトリックオーディオコーダに関連するリバーシブルダイナミックレンジ制御情報を維持するシステム
EP2787746A1 (en) * 2013-04-05 2014-10-08 Koninklijke Philips N.V. Apparatus and method for improving the audibility of specific sounds to a user
KR101831286B1 (ko) * 2013-08-23 2018-02-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 엘리어싱 오류 신호를 사용하여 오디오 신호를 처리하기 위한 장치 및 방법
CN104681034A (zh) * 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
US9503803B2 (en) 2014-03-26 2016-11-22 Bose Corporation Collaboratively processing audio between headset and source to mask distracting noise
US9661435B2 (en) * 2014-08-29 2017-05-23 MUSIC Group IP Ltd. Loudness meter and loudness metering method
EP3518236B8 (en) 2014-10-10 2022-05-25 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
US9647624B2 (en) * 2014-12-31 2017-05-09 Stmicroelectronics Asia Pacific Pte Ltd. Adaptive loudness levelling method for digital audio signals in frequency domain
EP3089364B1 (en) 2015-05-01 2019-01-16 Nxp B.V. A gain function controller
EP3171614B1 (en) 2015-11-23 2020-11-04 Goodix Technology (HK) Company Limited A controller for an audio system
US10375131B2 (en) 2017-05-19 2019-08-06 Cisco Technology, Inc. Selectively transforming audio streams based on audio energy estimate
US11468144B2 (en) * 2017-06-15 2022-10-11 Regents Of The University Of Minnesota Digital signal processing using sliding windowed infinite fourier transform
WO2020167966A1 (en) 2019-02-13 2020-08-20 Dolby Laboratories Licensing Corporation Adaptive loudness normalization for audio object clustering
EP3840222A1 (en) * 2019-12-18 2021-06-23 Mimi Hearing Technologies GmbH Method to process an audio signal with a dynamic compressive system
CN113192528B (zh) * 2021-04-28 2023-05-26 云知声智能科技股份有限公司 单通道增强语音的处理方法、装置及可读存储介质
CN113178204B (zh) * 2021-04-28 2023-05-30 云知声智能科技股份有限公司 一种单通道降噪的低功耗方法、装置及存储介质
CN113449255B (zh) * 2021-06-15 2022-11-11 电子科技大学 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质
CN114302301B (zh) * 2021-12-10 2023-08-04 腾讯科技(深圳)有限公司 频响校正方法及相关产品

Family Cites Families (127)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2808475A (en) 1954-10-05 1957-10-01 Bell Telephone Labor Inc Loudness indicator
US4281218A (en) 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier
DE3314570A1 (de) 1983-04-22 1984-10-25 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zur einstellung der verstaerkung
US4739514A (en) 1986-12-22 1988-04-19 Bose Corporation Automatic dynamic equalizing
US4887299A (en) 1987-11-12 1989-12-12 Nicolet Instrument Corporation Adaptive, programmable signal processing hearing aid
US4953112A (en) 1988-05-10 1990-08-28 Minnesota Mining And Manufacturing Company Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model
US5027410A (en) 1988-11-10 1991-06-25 Wisconsin Alumni Research Foundation Adaptive, programmable signal processing and filtering for hearing aids
JPH02118322U (ja) 1989-03-08 1990-09-21
US5097510A (en) 1989-11-07 1992-03-17 Gs Systems, Inc. Artificial intelligence pattern-recognition-based noise reduction system for speech processing
US5369711A (en) 1990-08-31 1994-11-29 Bellsouth Corporation Automatic gain control for a headset
US5081687A (en) 1990-11-30 1992-01-14 Photon Dynamics, Inc. Method and apparatus for testing LCD panel array prior to shorting bar removal
WO1992012607A1 (en) 1991-01-08 1992-07-23 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
US5632005A (en) 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
EP0517233B1 (en) 1991-06-06 1996-10-30 Matsushita Electric Industrial Co., Ltd. Music/voice discriminating apparatus
US5278912A (en) 1991-06-28 1994-01-11 Resound Corporation Multiband programmable compression system
US5363147A (en) 1992-06-01 1994-11-08 North American Philips Corporation Automatic volume leveler
DE4335739A1 (de) 1992-11-17 1994-05-19 Rudolf Prof Dr Bisping Verfahren zur Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen
GB2272615A (en) 1992-11-17 1994-05-18 Rudolf Bisping Controlling signal-to-noise ratio in noisy recordings
US5548638A (en) 1992-12-21 1996-08-20 Iwatsu Electric Co., Ltd. Audio teleconferencing apparatus
US5457769A (en) 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals
US5706352A (en) 1993-04-07 1998-01-06 K/S Himpp Adaptive gain and filtering circuit for a sound reproduction system
US5434922A (en) 1993-04-08 1995-07-18 Miller; Thomas E. Method and apparatus for dynamic sound optimization
BE1007355A3 (nl) 1993-07-26 1995-05-23 Philips Electronics Nv Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
IN184794B (ja) 1993-09-14 2000-09-30 British Telecomm
JP2986345B2 (ja) 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
TW247390B (en) 1994-04-29 1995-05-11 Audio Products Int Corp Apparatus and method for adjusting levels between channels of a sound system
US5500902A (en) 1994-07-08 1996-03-19 Stockham, Jr.; Thomas G. Hearing aid device incorporating signal processing techniques
GB9419388D0 (en) 1994-09-26 1994-11-09 Canon Kk Speech analysis
US5548538A (en) * 1994-12-07 1996-08-20 Wiltron Company Internal automatic calibrator for vector network analyzers
US5682463A (en) * 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
CA2167748A1 (en) 1995-02-09 1996-08-10 Yoav Freund Apparatus and methods for machine learning hypotheses
DK0661905T3 (da) 1995-03-13 2003-04-07 Phonak Ag Fremgangsmåde til tilpasnning af et høreapparat, anordning hertil og høreapparat
US5727119A (en) 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
US6301555B2 (en) 1995-04-10 2001-10-09 Corporate Computer Systems Adjustable psycho-acoustic parameters
AU5663296A (en) 1995-04-10 1996-10-30 Corporate Computer Systems, Inc. System for compression and decompression of audio signals fo r digital transmission
US5601617A (en) 1995-04-26 1997-02-11 Advanced Bionics Corporation Multichannel cochlear prosthesis with flexible control of stimulus waveforms
JPH08328599A (ja) 1995-06-01 1996-12-13 Mitsubishi Electric Corp Mpegオーディオ復号器
US5663727A (en) 1995-06-23 1997-09-02 Hearing Innovations Incorporated Frequency response analyzer and shaping apparatus and digital hearing enhancement apparatus and method utilizing the same
US5712954A (en) 1995-08-23 1998-01-27 Rockwell International Corp. System and method for monitoring audio power level of agent speech in a telephonic switch
US6002776A (en) 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US5907622A (en) 1995-09-21 1999-05-25 Dougherty; A. Michael Automatic noise compensation system for audio reproduction equipment
US5872852A (en) * 1995-09-21 1999-02-16 Dougherty; A. Michael Noise estimating system for use with audio reproduction equipment
US6327366B1 (en) 1996-05-01 2001-12-04 Phonak Ag Method for the adjustment of a hearing device, apparatus to do it and a hearing device
US6108431A (en) 1996-05-01 2000-08-22 Phonak Ag Loudness limiter
US6430533B1 (en) 1996-05-03 2002-08-06 Lsi Logic Corporation Audio decoder core MPEG-1/MPEG-2/AC-3 functional algorithm partitioning and implementation
JPH09312540A (ja) 1996-05-23 1997-12-02 Pioneer Electron Corp ラウドネスボリュームコントロール装置
JP3765622B2 (ja) 1996-07-09 2006-04-12 ユナイテッド・モジュール・コーポレーション オーディオ符号化復号化システム
EP0820212B1 (de) 1996-07-19 2010-04-21 Bernafon AG Lautheitsgesteuerte Verarbeitung akustischer Signale
US5999012A (en) 1996-08-15 1999-12-07 Listwan; Andrew Method and apparatus for testing an electrically conductive substrate
JP2953397B2 (ja) 1996-09-13 1999-09-27 日本電気株式会社 ディジタル補聴器の聴覚補償処理方法及びディジタル補聴器
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
JP3328532B2 (ja) * 1997-01-22 2002-09-24 シャープ株式会社 デジタルデータの符号化方法
US5862228A (en) 1997-02-21 1999-01-19 Dolby Laboratories Licensing Corporation Audio matrix encoding
US6125343A (en) 1997-05-29 2000-09-26 3Com Corporation System and method for selecting a loudest speaker by comparing average frame gains
US6272360B1 (en) 1997-07-03 2001-08-07 Pan Communications, Inc. Remotely installed transmitter and a hands-free two-way voice terminal device using same
US6185309B1 (en) 1997-07-11 2001-02-06 The Regents Of The University Of California Method and apparatus for blind separation of mixed and convolved sources
KR100261904B1 (ko) 1997-08-29 2000-07-15 윤종용 헤드폰 사운드 출력장치
US6088461A (en) 1997-09-26 2000-07-11 Crystal Semiconductor Corporation Dynamic volume control system
JP3765171B2 (ja) * 1997-10-07 2006-04-12 ヤマハ株式会社 音声符号化復号方式
KR100281058B1 (ko) 1997-11-05 2001-02-01 구본준, 론 위라하디락사 액정표시장치
US6233554B1 (en) 1997-12-12 2001-05-15 Qualcomm Incorporated Audio CODEC with AGC controlled by a VOCODER
US6298139B1 (en) 1997-12-31 2001-10-02 Transcrypt International, Inc. Apparatus and method for maintaining a constant speech envelope using variable coefficient automatic gain control
US6182033B1 (en) 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US6353671B1 (en) 1998-02-05 2002-03-05 Bioinstco Corp. Signal processing circuit and method for increasing speech intelligibility
US6311155B1 (en) 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US6498855B1 (en) 1998-04-17 2002-12-24 International Business Machines Corporation Method and system for selectively and variably attenuating audio data
EP1086607B2 (en) 1998-06-08 2012-04-11 Cochlear Limited Hearing instrument
EP0980064A1 (de) 1998-06-26 2000-02-16 Ascom AG Verfahren zur Durchführung einer maschinengestützten Beurteilung der Uebertragungsqualität von Audiosignalen
GB2340351B (en) 1998-07-29 2004-06-09 British Broadcasting Corp Data transmission
US6351731B1 (en) 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6823303B1 (en) 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6411927B1 (en) 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
FI113935B (fi) 1998-09-25 2004-06-30 Nokia Corp Menetelmä äänitason kalibroimiseksi monikanavaisessa äänentoistojärjestelmässä ja monikanavainen äänentoistojärjestelmä
DE19848491A1 (de) 1998-10-21 2000-04-27 Bosch Gmbh Robert Rundfunkempfänger zum Empfang von Radio-Daten und Verfahren zur Beeinflussung einer Klangcharakteristik eines wiederzugebenden Audiosignals in einem Rundfunkempfänger
US6314396B1 (en) 1998-11-06 2001-11-06 International Business Machines Corporation Automatic gain control in a speech recognition system
EP1089242B1 (en) 1999-04-09 2006-11-08 Texas Instruments Incorporated Supply of digital audio and video products
AU4278300A (en) 1999-04-26 2000-11-10 Dspfactory Ltd. Loudness normalization control for a digital hearing aid
JP2000347697A (ja) * 1999-06-02 2000-12-15 Nippon Columbia Co Ltd 音声記録再生装置および記録媒体
US6263371B1 (en) 1999-06-10 2001-07-17 Cacheflow, Inc. Method and apparatus for seaming of streaming content
US6985594B1 (en) 1999-06-15 2006-01-10 Hearing Enhancement Co., Llc. Voice-to-remaining audio (VRA) interactive hearing aid and auxiliary equipment
US6442278B1 (en) 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
US6675125B2 (en) 1999-11-29 2004-01-06 Syfx Statistics generator system and method
FR2802329B1 (fr) * 1999-12-08 2003-03-28 France Telecom Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames
US6351733B1 (en) 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
DE10018666A1 (de) 2000-04-14 2001-10-18 Harman Audio Electronic Sys Vorrichtung und Verfahren zum geräuschabhängigen Anpassen eines akustischen Nutzsignals
US6889186B1 (en) 2000-06-01 2005-05-03 Avaya Technology Corp. Method and apparatus for improving the intelligibility of digitally compressed speech
JP3630082B2 (ja) * 2000-07-06 2005-03-16 日本ビクター株式会社 オーディオ信号符号化方法及びその装置
AUPQ952700A0 (en) 2000-08-21 2000-09-14 University Of Melbourne, The Sound-processing strategy for cochlear implants
JP3448586B2 (ja) 2000-08-29 2003-09-22 独立行政法人産業技術総合研究所 聴覚障害を考慮した音の測定方法およびシステム
US6625433B1 (en) 2000-09-29 2003-09-23 Agere Systems Inc. Constant compression automatic gain control circuit
US6807525B1 (en) 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation
EP1206104B1 (en) 2000-11-09 2006-07-19 Koninklijke KPN N.V. Measuring a talking quality of a telephone link in a telecommunications network
US7457422B2 (en) 2000-11-29 2008-11-25 Ford Global Technologies, Llc Method and implementation for detecting and characterizing audible transients in noise
FR2820573B1 (fr) 2001-02-02 2003-03-28 France Telecom Methode et dispositif de traitement d'une pluralite de flux binaires audio
DE10107385A1 (de) 2001-02-16 2002-09-05 Harman Audio Electronic Sys Vorrichtung zum geräuschabhängigen Einstellen der Lautstärken
US6915264B2 (en) 2001-02-22 2005-07-05 Lucent Technologies Inc. Cochlear filter bank structure for determining masked thresholds for use in perceptual audio coding
US7194100B2 (en) 2001-04-10 2007-03-20 Phonak Ag Method for individualizing a hearing aid
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
ATE318062T1 (de) 2001-04-18 2006-03-15 Gennum Corp Mehrkanal hörgerät mit übertragungsmöglichkeiten zwischen den kanälen
AUPR604201A0 (en) * 2001-06-29 2001-07-26 Hearworks Pty Ltd Telephony interface apparatus
US7177803B2 (en) 2001-10-22 2007-02-13 Motorola, Inc. Method and apparatus for enhancing loudness of an audio signal
US20040037421A1 (en) 2001-12-17 2004-02-26 Truman Michael Mead Parital encryption of assembled bitstreams
US7068723B2 (en) 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
JP3784734B2 (ja) * 2002-03-07 2006-06-14 松下電器産業株式会社 音響処理装置、音響処理方法およびプログラム
US7155385B2 (en) 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
JP4257079B2 (ja) 2002-07-19 2009-04-22 パイオニア株式会社 周波数特性調整装置および周波数特性調整方法
DE10236694A1 (de) 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
US7454331B2 (en) 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
ES2259158T3 (es) * 2002-09-19 2006-09-16 Matsushita Electric Industrial Co., Ltd. Metodo y aparato decodificador audio.
JP2004233570A (ja) * 2003-01-29 2004-08-19 Sharp Corp デジタルデータの符号化装置
DE10308483A1 (de) 2003-02-26 2004-09-09 Siemens Audiologische Technik Gmbh Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät
US7551745B2 (en) 2003-04-24 2009-06-23 Dolby Laboratories Licensing Corporation Volume and compression control in movie theaters
KR101164937B1 (ko) * 2003-05-28 2012-07-12 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 신호의 인식된 라우드니스를 계산 및 조정하는방법, 장치 및 컴퓨터 프로그램
JP2004361573A (ja) * 2003-06-03 2004-12-24 Mitsubishi Electric Corp 音響信号処理装置
JP4583781B2 (ja) * 2003-06-12 2010-11-17 アルパイン株式会社 音声補正装置
US7912226B1 (en) * 2003-09-12 2011-03-22 The Directv Group, Inc. Automatic measurement of audio presence and level by direct processing of an MPEG data stream
US7617109B2 (en) 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
AU2005299410B2 (en) * 2004-10-26 2011-04-07 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US8265295B2 (en) 2005-03-11 2012-09-11 Rane Corporation Method and apparatus for identifying feedback in a circuit
CN101410892B (zh) 2006-04-04 2012-08-08 杜比实验室特许公司 改进的离散余弦变换域中的音频信号响度测量及修改
JP4981123B2 (ja) 2006-04-04 2012-07-18 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ信号の知覚音量及び/又は知覚スペクトルバランスの計算と調整
DE602007011594D1 (de) 2006-04-27 2011-02-10 Dolby Lab Licensing Corp Tonverstärkungsregelung mit erfassung von publikumsereignissen auf der basis von spezifischer lautstärke
JP4938862B2 (ja) 2007-01-03 2012-05-23 ドルビー ラボラトリーズ ライセンシング コーポレイション ハイブリッドデジタル/アナログラウドネス補償音量調節

Also Published As

Publication number Publication date
US8504181B2 (en) 2013-08-06
JP2009532738A (ja) 2009-09-10
CN101410892B (zh) 2012-08-08
TWI417872B (zh) 2013-12-01
WO2007120452A1 (en) 2007-10-25
US20090304190A1 (en) 2009-12-10
ATE441920T1 (de) 2009-09-15
EP2002426A1 (en) 2008-12-17
EP2002426B1 (en) 2009-09-02
TW200746050A (en) 2007-12-16
CN101410892A (zh) 2009-04-15
DE602007002291D1 (de) 2009-10-15

Similar Documents

Publication Publication Date Title
JP5185254B2 (ja) Mdct領域におけるオーディオ信号音量測定と改良
KR101469339B1 (ko) 입력 오디오 신호를 수정하는 장치 및 방법
TWI397903B (zh) 編碼音訊之節約音量測量技術
JP6517723B2 (ja) 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法
RU2494477C2 (ru) Устройство и способ генерирования выходных данных расширения полосы пропускания
CN104378075B (zh) 频域中的音频信号响度确定和修改
EP2207170A1 (en) System for audio decoding with filling of spectral holes
AU2011244268A1 (en) Apparatus and method for modifying an input audio signal
EP1903558B1 (en) Audio signal interpolation method and device
ES2955964T3 (es) Extensión de banda de frecuencia mejorada en un decodificador de señales de audiofrecuencia
JP6289507B2 (ja) エネルギー制限演算を用いて周波数増強信号を生成する装置および方法
JP2002182695A (ja) 高能率符号化方法及び装置
Zölzer et al. Dynamic range control
Rucz Examination of lossy audio compression methods
Bayer Mixing perceptual coded audio streams

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110712

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111006

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111014

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20111025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111221

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120313

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120613

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120620

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120813

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130117

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160125

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees