JP2010508550A - スペクトル値の後処理用装置と方法及びオーディオ信号のエンコーダとデコーダ - Google Patents

スペクトル値の後処理用装置と方法及びオーディオ信号のエンコーダとデコーダ Download PDF

Info

Publication number
JP2010508550A
JP2010508550A JP2009534996A JP2009534996A JP2010508550A JP 2010508550 A JP2010508550 A JP 2010508550A JP 2009534996 A JP2009534996 A JP 2009534996A JP 2009534996 A JP2009534996 A JP 2009534996A JP 2010508550 A JP2010508550 A JP 2010508550A
Authority
JP
Japan
Prior art keywords
block
spectral
post
value
spectral values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009534996A
Other languages
English (en)
Other versions
JP5301451B2 (ja
Inventor
エドラー、バーント
ゲイガー、ラルフ
アーテル、クリスティアン
ヒルペルト、ヨハネス
ポップ、ハラルド
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2010508550A publication Critical patent/JP2010508550A/ja
Application granted granted Critical
Publication of JP5301451B2 publication Critical patent/JP5301451B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Error Detection And Correction (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

オーディオ信号をスペクトル表現に変換するための第1の変換アルゴリズムを基礎とするスペクトル値を後処理するために、オーディオ信号のサンプルのブロックシーケンスを表すスペクトル値のブロックシーケンスが出力される。この直後に、前記ブロックシーケンスのスペクトル値の重み付け加算が実行され、後処理されたスペクトル値のブロックシーケンスが得られる。結合は、周波数帯域及び持続時間に関する後処理されたスペクトル値の計算に際して、周波数帯域及び持続時間に関するブロックシーケンスのスペクトル値と、別の周波数帯域及び別の持続時間に関するスペクトル値とが使用されるように実行され、結合はさらに、後処理されたスペクトル値が、第1の変換アルゴリズムとは異なる第2の変換アルゴリズムを使用してオーディオ信号をスペクトル表現に変換することにより得られるスペクトル値への近似値であるような重み係数が使用されるように実行される。後処理されたスペクトル値は、具体的には、スケーラブルエンコーダ内での差分形成に、またはスケーラブルデコーダ内での加算に各々使用される。
【選択図】図1

Description

本発明は、音声の符号化/復号化に関し、具体的には、基本層と拡張層とを有するスケーラブルなエンコーダ/デコーダ概念に関する。
オーディオエンコーダ/デコーダは、長期にわたって知られている。具体的には、MP3規格としても知られる規格ISO/IEC11172−3に従って動作するオーディオエンコーダ/デコーダは、変換エンコーダと呼ばれる。このようなMP3エンコーダは、一連の時間サンプルを、ウィンドウ処理を受ける入力信号として受信する。ウィンドウ処理は、時間サンプルの順次ブロックをもたらし、これらは次にブロックごとにスペクトル表現へと変換される。MP3規格によれば、この場合の変換は所謂ハイブリッドフィルターバンクを使用して実行される。ハイブリッドフィルターバンクの第1段階は、32個の副帯信号を生成するための32個のチャンネルを有するフィルターバンクである。この第1段階の副帯フィルターは重なり合う通過帯域を備えるが、これは、このフィルタリングがエイリアシングを被りがちであるためである。第2段階は、32副帯信号を576個のスペクトル値に分割するMDCT段階である。これらのスペクトル値は次に、音響心理学的モデルを考慮して量子化され、続くハフマン符号化によって、最終的にハフマンコードワードのストリーム及び復号に必要なサイド情報を含むビットシーケンスが得られる。
デコーダ側では、次に、ハフマンコードワードが量子化指数に計算し戻される。再量子化によってもたらされるスペクトル値は、次に、解析フィルターバンクと同様に実施されるハイブリッド合成フィルターバンクへ供給され、符号化されかつ再度復号されたオーディオ信号の時間サンプルブロックが得られる。エンコーダ側及びデコーダ側の全てのステップは、MP3規格に提示されている。用語法に関しては、以下、「逆量子化」にも言及する点に留意されたい。量子化は、回復不能なデータ損失を伴うことから可逆性ではないが、逆量子化という表現は、先に提示した再量子化を指すものとしてしばしば使用される。
また、AAC(AAC=アドバンスト・オーディオ・コーディング)と呼ばれるオーディオエンコーダ/デコーダアルゴリズムも当該技術分野で知られている。国際標準ISO/IEC13818−7において規格化されているこのようなエンコーダも、オーディオ信号の時間サンプルに基づき再度動作する。オーディオ信号のこの時間サンプルも再度ウィンドウ処理され、ウィンドウ処理された時間サンプルの順次ブロックが得られる。ハイブリッドフィルターバンクが使用されるMP3エンコーダに対して、AACエンコーダでは、単一のMDCT変換が実行されてMDCTスペクトル値のブロックシーケンスが得られる。次に、これらのMDCTスペクトル値は、音響心理学的モデルに基づき再度量子化され、量子化されたスペクトル値は最終的にハフマン符号化される。デコーダ側の処理は相応的であり、ハフマンコードワードが復号され、次いでこれにより取得される量子化指数または量子化されたスペクトル値が各々再量子化または逆量子化されて最終的にスペクトル値が得られる。このスペクトル値は、最終的に符号化/復号化された時間サンプルを再び得るためにMDCT合成フィルターバンクへ供給されてもよい。
両方法は、専門家による刊行物、ベルント・エドラー著「コーディーランク・フォン・アォディオシグナーレン・ミット・ウーベルラッペンダー・トランスフォルマツィオーン・ウント・アダプティフェン・フェンスターフンクツィオーネン」フレークヴェンツ第43巻、252−256ページ、1989年、に記述されているように、重なり合うブロック及び適応的なウィンドウ関数を使用して動作する。
具体的には、遷移領域がオーディオ信号内で決定される場合、長いウィンドウ関数から短いウィンドウ関数への切換が実行され、より優れた時間分解能のための低減された周波数分解能が達成される。一連の短いウィンドウは開始ウィンドウによって導入され、一連の短いウィンドウは停止ウィンドウによって終了される。これにより、重なり合う長いウィンドウ関数から重なり合う短いウィンドウ関数への隙間のない遷移が達成され得る。実施状況に応じて、短いウィンドウによる重複面積は長いウィンドウによる重複面積より小さく、これは、遷移信号部分はオーディオ信号内に存在するという事実に関して妥当であるが、必ずしもそうである必要はない。従って、短いウィンドウのシーケンス並びに長いウィンドウのシーケンスは、50パーセントの重なりを有して実施されてもよい。しかしながら、具体的には、短いウィンドウの場合、遷移信号部分の符号化を向上させるために、50パーセントではなく例えば僅か10パーセントまたはそれ以下のような低減された重複幅が選択される場合もある。
MP3規格の場合もAAC規格の場合も共に、ウィンドウ処理は長いウィンドウ及び短いウィンドウを伴って存在し、開始ウィンドウまたは停止ウィンドウは各々、概して常に同じブロックラスタが保持され得るようにスケーリングされる。MP3規格の場合、これは、長いブロックの各々について576個のスペクトル値が生成され、かつ3つの短いブロックが1つの長いブロックに相当することを意味し、これは、1つの短いブロックが192個のスペクトル値を生成することを意味する。従って、重なりが50パーセントである場合、50パーセントオーバーラップの重複加算原理に起因して2つの時間サンプルブロックは常に1つのスペクトル値ブロックに繋がることから、ウィンドウ処理のために1152個の時間サンプルのウィンドウ長さが使用される。
MP3エンコーダの場合もAACエンコーダの場合も共に、ロスのある圧縮が生じる。ロスは、スペクトル値の量子化が実行されることによって導入される。スペクトル値は、具体的には、量子化により導入される量子化ノイズとも呼ばれる歪が音響心理学的マスキングしきい値より少ないエネルギーを有するように量子化される。
オーディオ信号の量子化が粗いほど、即ち、量子化器のステップサイズが大きいほど、量子化ノイズは高くなる。しかしながら、一方で、より粗い量子化の場合、考慮されるべき量子化器の出力値セットは少なくなり、よって、より粗く量子化される値は、より少数のビットを使用してエントロピー符号化される場合がある。これは、より粗い量子化はより高いデータ圧縮をもたらすが、同時により高い信号ロスに繋がることを意味する。
これらの信号ロスは、マスキングしきい値より低ければ問題にならない。仮に音響心理学的マスキングしきい値が僅かに超過されたとしても、おそらくはこれが未熟な聞き手に対して可聴妨害をもたらすことはない。しかしながら、何れにしても情報ロスが生じ、これは例えば所定の状況では可聴であり得るアーティファクトに起因して望ましくない場合がある。
具体的には、広帯域データ接続の場合、またはデータレートが決定的なパラメータでない場合、もしくは広帯域及び狭帯域データネットワークの双方が利用可能である場合は各々、ロスの多いものではなく、ロスレスまたはほぼロスレスであるオーディオ信号の圧縮表示を有することが望ましい場合がある。
図7に略示したこのようなスケーラブルエンコーダ及び図8に略示した関連のデコーダは、専門家による刊行物、ラルフ・ゲイガー、ユルゲン・ヘレ、ユルゲン・コーラー、カールハインツ・ブランデンブルグ共著「INTMDCT − ア・リンク・ビットウィーン・パーセプチュアル・アンド・ロスレス・オーディオ・コーディング」音響音声及び信号処理に関する国際会議(ICASSP)、2002年5月13日−17日、フロリダ州オーランド、から知られている。同様の技術は、欧州特許EP 1 495 464 B1に記述されている。図7において、要素71、72、73、74は、「知覚的に符号化されたビットストリーム」と呼ばれるロス有りの符号化されたビットストリームを生成するためのAACエンコーダを示す。このビットストリームは、基本層を表す。具体的には、図7におけるブロック71は、AAC規格に従った長いウィンドウ及び短いウィンドウによるウィンドウ処理を含む解析フィルターバンクを示す。ブロック73は、AAC規格に従った量子化/符号化を表し、ブロック74は、出力側のビットストリームが量子化されたスペクトル値のハフマンコードワードだけでなく、復号が実行されてもよいように例えばスケール係数等の必要なサイド情報も含むようなビットストリーム生成を示す。ブロック73におけるロス有りの量子化は、ここでは、図7において「知覚的モデル」72として示されている音響心理学的モデルによって制御される。
既に指摘したように、ブロック74の出力信号は、比較的少数のビットを必要とする基本スケーリング層であるが、単に元のオーディオ信号のロス有り表現であり、エンコーダアーティファクトを含む場合もある。ブロック75、76、77、78は、図7に示されているように、ロスレスまたは事実上ロスレスである拡張ビットストリームを生成するために必要とされる追加要素を表す。具体的には、ブロック75が示すように、元のオーディオ信号は入力70において整数MDCT(IntMDCT)の処理を受ける。さらに、ブロック73により生成される、エンコーダロスが既に導入されている量子化されたスペクトル値は、逆量子化及びこれに続く丸め処理を受け、丸められたスペクトル値が得られる。これらは差分形成器77へ供給されてスペクトル値に関する差が形成され、これは、次にブロック78においてエントロピー符号化処理を施され、図7におけるスケーリングスキームのロスレス強化ビットストリームが生成される。従って、ブロック77の出力における差分値のスペクトルは、ブロック73において音響心理学的量子化により導入される歪を表す。
デコーダ側では、ロス有りの符号化されたビットストリームまたは知覚的に符号化されたビットストリームがビットストリームデコーダ81へ供給される。ブロック81は、その出力側で量子化されたスペクトル値のブロックシーケンスを提供し、これらは次に、ブロック82において逆量子化処理を受ける。従って、ブロック82の出力側には、逆量子化されたスペクトル値が存在するが、これらは、ブロック82の入力における値とは違ってもはや量子化指数を表さず、この時点ではいわば「正しい」スペクトル値である。しかしながら、これらは、ロス有りの量子化に起因して、図7のブロック73における符号化より前のスペクトル値とは異なる。これらの量子化されたスペクトル値は、次にブロック83において各々合成フィルターバンクまたは逆MDCT変換(逆MDCT)へ供給され、音響心理学的に符号化されかつ再度復号されたオーディオ信号(知覚的オーディオ)が得られる。これは、図7のエンコーダにより導入される符号化誤差に起因して、図7の入力70における元のオーディオ信号とは異なる。ロス有り圧縮だけでなくロスレス圧縮をも達成するために、ブロック82のオーディオ信号は、ブロック84における丸め処理へ供給される。次に加算器85では、逆量子化されて丸められたスペクトル値が差分形成器77により生成された差分値へ加算される。この場合、ブロック86では、エントロピー復号化が実行され、拡張ビットストリームに含まれる、各々ロスレスまたは事実上ロスレスである情報を含むエントロピーコードワードが復号される。
従って、ブロック85の出力においては、最適な場合では図7に示すエンコーダのブロック75の出力におけるMDCTスペクトル値と同一であるIntMDCTスペクトル値が存在する。これは次に、逆整数MDCT(逆IntMDCT)処理を施され、ブロック87の出力において符号化されたロスレスオーディオ信号または事実上ロスレスであるオーディオ信号(ロスレスオーディオ)が得られる。
しかしながら、整数MDCT(IntMDCT)は、整数出力値を生成するMDCTの近似値であり、リフティングスキームを使用してMDCTから導出される。これは、具体的には、MDCTが所謂ギブンス回転に分割されるときに機能する。すると、結果的に、エンコーダ側のギブンス回転及びこれに続くDCT−IV、及びデコーダ側のDCT−IV及び下流の幾つかのギブンス回転による2段アルゴリズムが整数MDCTとして生じる。従って、図7及び図8のスキームでは、AACエンコーダにおいて生成される量子化されたMDCTスペクトルを使用して整数MDCTスペクトルが予測される。従って、整数MDCTは、概して、整数スペクトル値を生成しかつこの整数スペクトル値から丸め誤差によりロスが導入されることなしに再度時間サンプルを生成する整数変換の一例である。しかし、整数MDCT以外にも整数変換は存在する。
図7及び図8に示されているスケーリングスキームは、差分形成器77の出力における差が小さい場合に十分効率的である程度でしかない。図7に示すスキームでは、各々MDCT及び整数MDCTが類似し、かつブロック75におけるIntMDCTがブロック71においてMDCTから導出されることから、こうした状況が当てはまる。当てはまらなければ、多くの場合、差分値は元のMDCT値より大きく、または元のIntMDCT値よりも大きくなることから、これらの図に示されているスキームは適切ではなくなる。この場合、ブロック78により出力される拡張スケーリング層は基本スケーリング層に関して高い冗長性を有するので、図7におけるスケーリングスキームはその価値を失ってしまう。
基本層が幾つかのビットを備え、拡張層が幾つかのビットを備え、かつ基本層内のビット数と拡張層内のビット数との和が、基本層が既にロスレス符号化であれば得られるはずのビット数に等しい場合、スケーラビリティスキームは常に最適である。但し、実際のスケーラビリティスキームでは、拡張層に追加のシグナリングビットが必要であることから、この最適状況は絶対に達成されない。しかしながら、目標は、この最適状況を可能な限り実現することにある。図7では、ブロック71と75における変換が比較的似ていることから、図7に示す概念は最適に近い。
しかしながらMP3エンコーダは、図示されているように、フィルターバンクとして純粋なMDCTフィルターバンクを備えず、異なる副帯信号を生成するための第1のフィルターバンク段階と、これらの副帯信号をさらに分解するための下流MDCTとを有するハイブリッドフィルターバンクを備え、さらに、MP3規格にも指摘されているように、ハイブリッドフィルターバンクにエイリアシング相殺段階がさらに追加実施されているので、この単純なスケーラビリティ概念は、MP3エンコーダの出力信号に適用される類のものではない場合がある。図7のブロック75における整数MDCTには、MP3規格によるハイブリッドフィルターバンクとの類似性がほとんどないことから、図7に示す概念をMP3出力信号に直に適用すると、差分形成器77の出力において極めて高い差分値が生じることになり、結果的に、差分形成器77の出力における差分値を妥当に符号化するためには拡張層が膨大な数のビットを必要とするという理由により、極めて非効率的なスケーラビリティ概念が生じる。
MP3出力信号の拡張ビットストリームを生成する可能性を、エンコーダに関して図9に、かつデコーダに関して図10に示す。MP3エンコーダ90は、オーディオ信号を符号化して出力側に基本層91を与える。MP3符号化されたオーディオ信号は、次にMP3デコーダ92へ供給され、MP3デコーダ92は時間領域におけるロス有りオーディオ信号を出力する。次に、この信号は、原則的には図7におけるブロック75と同様にセットアップされてもよいIntMDCTへ供給され、このブロック75は次に、出力側にIntMDCTスペクトル値をもたらし、これが差分形成器77へ供給される。差分形成器77は、さらなる入力値として別のIntMDCTスペクトル値も有するが、これは、MP3復号化されたオーディオ信号によって生成されたものではなく、MP3エンコーダ90へ供給された元のオーディオ信号によって生成されたものである。
デコーダ側では、基本層が再度MP3デコーダ92へ供給され、出力100において、図8のブロック83の出力における信号に一致すると思われる復号されたロス有りオーディオ信号がもたらされる。この信号は次に、整数MDCT75の処理を施され、その後、差分形成器77の出力において生成された拡張層93と共に符号化される。すると、加算器102の出力側101にロスレススペクトルが存在することになり、これを単に逆IntMDCT103によって時間領域に変換するだけで、図8のブロック87の始まりにおける「ロスレスオーディオ」に一致するロスレスに復号されたオーディオ信号が得られる。
図9及び図10に示す概念は、図7及び8に示す概念と同様に比較的効率よく符号化される拡張層をもたらすが、各々エンコーダ側(図9)及びデコーダ側(図10)の双方において高価である。また、図7における概念と比較すると、完全なMP3デコーダ92及び追加的なIntMDCT75が必要である。
このスキームにおける別の欠点は、ビット精度の高いMP3デコーダが規定されなければならなくなることにある。しかしながら、MP3規格はビット精度の高い仕様を示さず、デコーダとしての「適合性」の範囲内での準拠を求めているだけであることから、これは意図されていない。
デコーダ側では、さらに、完全なIntMDCT75を追加することが要求される。これらの追加要素は共に演算オーバーヘッドを生じさせ、具体的には、チップ消費及び電流消費の双方の観点から、及び付随する遅延の観点からモバイル機器における使用に不利である。
要するに、図7及び図8に示す概念の優位点は、時間領域方法に比べて、符号化されたオーディオ適応信号の完全な復号化が不要であることと、追加的に符号化されるべき周波数領域の量子化誤差を表すことによって効率的な符号化が達成されることにある。従って、ISO/IEC MPEG4スケーラブルロスレス符号化(SLS)により標準化される方法は、R.ゲイガー、R.ユ、J.ヘレ、S.ラハルジャ、S.キム、X.リン、M.シュミット共著「ISO/IEC MPEG4・ハイディフィニション・スケーラブル・アドヴァンスト・オーディオ・コーディング」120回AES会議、2006年5月20−23日、フランス、パリ、事前印刷6791、に記述されているように、この手法を使用している。従って、MDCTをフィルターバンクとして使用する、例えばMPEG−2/4AACであるオーディオ符号化方法のバックワード互換ロスレス拡張が達成される。
しかしながら、この方法に使用されるハイブリッドフィルターバンクは、MDCTとは対照的にIntMDCTまたは別の整数変換と互換性がないことから、この手法は、広範に使用されている方法MPEG−1/2の層3(MP3)へ直接適用できない場合がある。従って、復号されたスペクトル値と対応するIntMDCT値との差分形成は概して小さい差分値には至らず、よって、差分値の効率的な符号化はもたらされない。この場合の問題点の核心は、IntMDCT及びMP3ハイブリッドフィルターバンクの対応する変調関数間の時間シフトにある。これらの時間シフトは、不利なケースでは、差分値がIntMDCT値より高い値を含むという事実にも繋がる位相シフトをもたらす。また、IntMDCTの根底にある、例えばリフティングスキームのような原理をMP3ハイブリッドフィルターバンクへ適用することは、ハイブリッドフィルターバンクは、MDCTとは対照的に、その基本的手法に関して完全な復元をもたらさないフィルターバンクであるので、問題がある。
本発明の目的は、オーディオデータを処理するための、かつ具体的には、オーディオデータを符号化または復号化するための効率的な概念を提供することにある。
この目的は、請求項1に記載されているスペクトル値を後処理するための装置、請求項17に記載されているエンコーダ、請求項22に記載されているデコーダまたは請求項23、24、25に記載されている方法もしくは請求項26に記載されているコンピュータプログラムによって達成される。
本発明は、例えばスケーリングスキームの基本層を表すスペクトル値、即ちMP3スペクトル値等は後処理を施され、この後処理から、代替変換アルゴリズムに従って得られる対応する値との互換性を有する値が得られる、という知見を基礎とする。従って、本発明によれば、このような後処理は、後処理の結果が、同じオーディオ信号のスペクトル表現への変換が第1の変換アルゴリズムではなく、本発明の好適な実施形態では整数変換アルゴリズムである第2の変換アルゴリズムによって行われる場合に達成される結果に可能な限り類似するように、スペクトル値の重み付け加算を使用して実行される。
従って、第1の変換アルゴリズムと第2の変換アルゴリズムとが著しく非互換的である場合でも、第1の変換アルゴリズムの所定のスペクトル値の重み付け加算によって、後処理された値と第2の変換の結果との間に、図9及び図10における概念による高価かつ延いては不利な符号化及び復号化を必要としない、差分値によって効率的な拡張層が形成され得るほどに優れた互換性が達成されることが発見されている。具体的には、重み付け加算は、後処理されたスペクトル値が第1の変換アルゴリズムの出力において1つのスペクトル値と隣接するスペクトル値との重み付け加算から生成されるように実行され、この場合、好適には、各々隣接する周波数領域からのスペクトル値及び隣接する時間ブロックまたは時間周期からのスペクトル値の双方が使用される。隣接するスペクトル値の重み付け加算によって、第1の変換アルゴリズムにおいては、フィルターバンクの隣接するフィルター同士が、事実上全てのフィルターバンクにおいてそうであるように重なり合うことが考えられる。時間的に隣接するスペクトル値の使用により、即ち、第1の変換のスペクトル値による後続の2ブロックからの(例えば、同じ周波数またはほんの僅かに異なる周波数の)スペクトル値を重み付け加算することにより、さらに、典型的には、ブロックの重なりを使用する変換アルゴリズムが使用されることが考えられる。
好適には、重み係数はエンコーダ側及びデコーダ側の双方で永久的にプログラムされ、よって、重み係数を変換する追加ビットは不要である。代わりに、重み係数は信号依存性ではなく、単に第1の変換アルゴリズム及び第2の変換アルゴリズムに依存するだけであるので、重み係数は一度だけ設定され、例えばテーブルとして格納され、もしくはハードウェア内に固定的に実装される。具体的には、重み係数は、第1の変換アルゴリズム及び後処理構造のインパルス応答が第2の変換アルゴリズムのインパルス応答に等しくなるように設定することが好適である。この点に関して、重み係数の最適化は手動で使用されてもよく、または既知の最適化方法を使用して、例えば所定の代表的な試験信号を使用して、もしくは、先に示したように結果的なフィルターのインパルス応答を直に使用してコンピュータ援用されてもよい。
この同じ後処理装置は、事実上不適合である第1の変換アルゴリズムのスペクトル値を第2の変換アルゴリズムのスペクトル値に適合させるためにエンコーダ側及びデコーダ側の双方に使用されてもよく、よって、双方のスペクトル値ブロックは、最終的に、例えば基本層におけるMP3符号化信号でありかつ拡張層としてロスレス拡張部を含むオーディオ信号のための拡張層を提供するために、差分形成処理を施されてもよい。
本発明がMP3と整数MDCTとの組合せに限定されないこと、但し、例えばオーディオエンコーダまたはオーディオデコーダにおける差分形成、加算または他の任意の組合せ演算を目的として事実上非互換的な変換アルゴリズム同士のスペクトル値を纏めて処理しなければならない場合には、本発明がどこでも使用されることは留意されるべきである。しかしながら、本発明に係る後処理デバイスの好適な使用法は、オーディオ信号が所定の品質で符号化される基本層のための拡張層を設けることにあり、この場合、拡張層は、基本層と共により高品質の復号化を達成するように機能する。このより高品質の復号化は、好適には既にロスレス復号化であるが、拡張層を使用して復号されたオーディオ信号の品質が基本層のみを使用する復号化よりも向上される限り、これは事実上のロスレス復号化であってもよい。
スペクトル値を後処理するための本発明に係る装置を示す。 本発明に係るエンコーダ概念のエンコーダ側を示す。 本発明に係るデコーダ概念のデコーダ側を示す。 長いブロックのための本発明に係る後処理及び差分形成の好適な実施形態を示す詳細図である。 第1の変形例による、短いブロックのための本発明に係る後処理の好適な実装を示す。 図5Aに示す概念において共に属する値ブロックを示す略図である。 図5Aに示す変形例のウィンドウシーケンスを示す。 本発明の第2の変形例による短いブロックのための本発明に係る後処理装置及び差分形成の好適な実装を示す。 図6Aに示す変形例の様々な値を示す図である。 図6Aに示す変形例のブロックラスタを示す。 スケーリングされたデータストリームを生成するための先行技術によるエンコーダを示す。 スケーリングされたデータストリームを処理するための先行技術によるデコーダを示す。 エンコーダの非効率的な変形例を示す。 デコーダの非効率的な変形例を示す。
以下、添付の図面を参照して、本発明の好適な実施形態をさらに詳しく説明する。
図1は、好適にはオーディオ信号のロス有り表現であるスペクトル値を後処理するための本発明に係る装置を示し、前記スペクトル値は、オーディオ信号を、それらがロス有りであるか否かという事実に関わらずスペクトル表現に変換するための基本的な第1の変換アルゴリズムを有する。図1に示す本発明に係る装置、または図1に略示している方法は各々、装置に関して、オーディオ信号サンプルのブロックシーケンスを示すスペクトル値のブロックシーケンスを出力するための手段12によって特徴づけられる。後述する本発明の好適な一実施形態では、手段12によって出力されるブロックシーケンスは、MP3フィルターバンクにより生成されるブロックシーケンスである。スペクトル値のこのブロックシーケンスは、本発明に係るな結合器13へ供給される。結合器は、スペクトル値のブロックシーケンスのスペクトル値重み付け加算を実行し、出力14が示すように出力側において後処理されたスペクトル値のブロックシーケンスを取得するように実施される。具体的には、結合器13は、周波数帯域及び時間周期用に後処理されたスペクトル値を計算するために、その周波数帯域及び時間周期のためのブロックシーケンスのスペクトル値と、隣接する周波数帯域及び/又は隣接する時間周期のスペクトル値とを使用するように実施される。さらに、結合器は、使用されるスペクトル値を加重するための重み係数を使用するように実装されることから、後処理されたスペクトル値は、オーディオ信号をスペクトル表現に変換するための第2の変換アルゴリズムにより取得されるスペクトル値の近似値である。しかしながら、この第2の変換アルゴリズムは第1の変換アルゴリズムとは異なる。
図1の底部の略図は、これを示す。第1の変換アルゴリズムは、参照符号16で示されている。結合器により実行される後処理は、参照符号13で示され、第2の変換アルゴリズムは参照符号17で示されている。ブロック16、13及び17のうちで、ブロック16及び17は固定的であり、典型的には、外部条件に起因して不可欠である。唯一、参照符号18で示される後処理手段13または結合器13の重み係数は、ユーザにより設定されてもよい。この関係性において、前記重み係数は信号依存性ではないが、第1の変換アルゴリズム及び第2の変換アルゴリズムに依存する。互いに結合させるべき、周波数に関して隣接するスペクトル値または時間的に隣接するスペクトル値の個数が、重み係数18によりさらに設定されてもよい。図4から図6を参照して後に説明するように、重み係数が0に設定されれば、この重み係数に関連づけられるスペクトル値はこの結合において考慮されない。
本発明の好適な実施形態では、各スペクトル値について、重み係数セットが準備される。従って、結果的にかなりの量の重み係数が生じる。しかしながら、重み係数は変換される必要がなく、エンコーダ側及びデコーダ側へ永久的にプログラムされるだけでよいので、これが問題になることはない。エンコーダ及びデコーダが、このようにして各スペクトル値に関する重み係数セットの点で一致すれば、かつ適用可能であれば、本発明では各時間周期、または後に示すように各サブブロックまたは順序づけ位置の各々について信号伝送をする必要がなく、よって、本本発明に係る概念は、追加情報を信号伝送することなく拡張層におけるデータレートの実質的低減を達成し、品質ロスも伴わない。
従って、本発明は、第1の変換アルゴリズムにより取得される周波数値と、第2の変換アルゴリズムにより取得される周波数値との間の位相シフトの補償を提供する。位相シフトのこの補償は、複素スペクトル表現によって提示されてもよい。この目的のために、明確を期して、実数部フィルターバンク出力値から虚数部を計算するために時間的及びスペクトル的に隣接するスペクトル値の一次結合が取得される、DE 10234130に記述されている概念が包含される。復号されたMP3スペクトル値にこの処置が使用されていれば、複素値のスペクトル表現が取得されることになる。次に、結果的に生じる複素スペクトル値の各々は、本発明に従って可能な限り第2の変換アルゴリズムに近い値、即ち好適には対応するIntMDCT値に近い値を得るように、かつ延いては差分形成に適するように、その位相位置において複素値補正係数による乗算によって修正されてもよい。さらに、本発明によれば、必要とされる可能性のある振幅補正も実行される。本発明によれば、各々複素値スペクトル表現の形成及び位相または和補正のためのこれらのステップは、第1の変換アルゴリズムを基礎とするスペクトル値と時間的及びスペクトル的近傍値との一次結合によって、差分を対応するIntMDCT値まで最小化する新しいスペクトル値が形成されるように集約される。本発明によれば、DE 10234130とは対照的に、実数部及び虚数部を取得するために重み係数を使用するフィルターバンク出力値の後処理は実行されない。代わりに、本発明によれば、後処理は、図1の底部に示したように、第1の変換アルゴリズム16と後処理13との結合が可能な限り第2の変換アルゴリズムに一致する結果をもたらすような重み係数によって設定される類の重み係数を使用して実行される。
図2及び図3は、スケーラブルエンコーダのエンコーダ側(図2)及びデコーダ側(図3)の双方における、図1に示す本発明に係る概念の好適な一使用分野を示す。第1の変換アルゴリズムによって取得されてもよいMP3ビットストリーム20、または概してビットストリームは、各々ブロック21へ供給され、ビットストリームから、例えばMP3スペクトル値であるスペクトル値が生成される。従って、ブロック21におけるスペクトル値の復号化は、典型的には、エントロピー復号化と逆量子化とを含む。
次に、ブロック10において近似値の計算が実行されるが、各々近似値または後処理されたスペクトル値ブロックの計算は、図1に示したようにして実行される。この直後、ブロック22において、ブロック23におけるIntMDCT変換により得られるIntMDCTスペクトル値を使用して差分形成が実行される。従って、ブロック23はオーディオ信号を入力信号として取得するが、入力20へ供給されるMP3ビットストリームは、このオーディオ信号から符号化により得られたものである。好適には、ブロック22によって取得される差分スペクトルは、例えばデルタ符号化、ハフマン符号化、算術符号化またはデータレートは低減されるが信号ロスは導入されない他の任意のエントロピー符号化を含むロスレス符号化24を施される。
デコーダ側において、MP3ビットストリーム20は、図2の入力20へ供給されたものと同様に、ここでもブロック21によってスペクトル値の復号化処理が施され、これは図2のブロック21に相当してもよい。この直後、ブロック21の出力において得られたMP3スペクトル値が再度図1またはブロック10に従って処理される。しかしながら、デコーダ側では、ブロック10により出力される後処理されたスペクトル値のブロックは加算段30へ供給される。加算段30は、別の入力において、図2におけるブロック24により出力されたロスレス拡張ビットストリームからロスレス復号化31により得られるIntMDCT差分値を取得する。次に、ブロック31により出力されるIntMDCT差分値と、ブロック10により出力される処理されたスペクトル値との加算により、加算段30の出力32において、元のオーディオ信号の、即ち図2のブロック23へ入力されたオーディオ信号のロスレス表現であるIntMDCTスペクトル値のブロックが取得される。次に、ブロック33により、ロスレスオーディオ出力信号が生成される。ブロック33は、ロスレスまたは事実上ロスレスであるオーディオ出力信号を得るために、逆IntMDCTを実行する。総体的に、ブロック33の出力におけるオーディオ出力信号は、ブロック21の出力信号がMP3合成ハイブリッドフィルターバンクによって処理されていれば取得されるはずのオーディオ信号より優れた品質を有する。従って、出力33におけるオーディオ出力信号は、実施状況に応じて、図2のブロック23へ入力されたオーディオ信号と同一の再生版、あるいは、このオーディオ信号と同一ではない、即ち完全にロスレスではないが、既に通常のMP3符号化オーディオ信号より優れた品質を有する表現であり得る。
この時点で、第1の変換アルゴリズムとしては、そのハイブリッドフィルターバンクを有するMP3変換アルゴリズムが好適であること、及び第2の変換アルゴリズムとしては、整数変換アルゴリズムのようなIntMDCTアルゴリズムが好適であることは留意されるべきである。しかしながら、本発明は既に、2つの変換アルゴリズムが互いに異なるあらゆる状況において効果的であり、この場合、2つの変換アルゴリズムは必ずしもIntMDCT変換の範囲内にある整数変換アルゴリズムである必要はない。これら2つの変換アルゴリズムはMDCTの範囲内で必ずしも可逆整数変換である必要はない通常の変換アルゴリズムであってもよい。しかしながら、本発明によれば、第1の変換アルゴリズムは非整数変換アルゴリズムであること、及び第2の変換アルゴリズムは整数変換アルゴリズムであることが好適であり、本発明による後処理は、特に、第1の変換アルゴリズムが、第2の変換アルゴリズムにより出力されるスペクトルに比べて位相シフトされかつ/またはその量が変更されたスペクトルを出力する場合に効果的である。具体的には、第1の変換アルゴリズムが完全な再構成性でない場合、一次結合を使用する単純な本発明による後処理は特に効果的であり、かつ効率的に使用される場合がある。
図4は、エンコーダ内部の結合器13の好適な実施を示す。しかしながら、デコーダ内での実装は、図4の場合のように加算器22が加算器22の上のマイナス符号で示される差分形成を実行しない場合、但し、図3のブロック30に示すような加算演算が実行される場合に、同一である。何れの場合も、入力40へ供給される値は、エンコーダ実施において図2の第2の変換アルゴリズム23によって取得される値であり、またはデコーダ実施において図3のブロック31により取得される値である。
本発明の好適な一実施形態では、結合器は3つのセクション41、42、43を含む。各セクションは3つの乗算器42a、42b、42cを含み、各乗算器は周波数指数k−1、kまたはk+1を有するスペクトル値に関連づけられる。従って、乗算器42aは周波数指数k−1に関連づけられ、乗算器42bは周波数指数kに関連づけられ、かつ乗算器42cは周波数指数k+1に関連づけられる。
従って、各分岐は、ブロック指数νまたは各々n+1、nまたはn−1を有する電流ブロックのスペクトル値に加重して、その電流ブロックの重み付けスペクトル値を得るように機能する。
従って、第2のセクション42は、時間的に先行するブロックまたは時間的に後続するブロックのスペクトル値に加重するように機能する。セクション41に関連して、セクション42は、ブロックn+1に時間的に続くブロックnのスペクトル値に加重するように機能し、かつセクション43は、ブロックnに続くブロックn−1に加重するように機能する。これを示すために、図4では遅延要素44が示されている。明確を期して、参照符号44により遅延要素「z-1」を1つだけ示す。
具体的には、各乗算器は、スペクトル指数依存重み係数c0(k)からc8(k)を有している。従って、本発明のこの好適な実施形態では、結果的に9個の重み付けスペクトル値が生成され、これらから、周波数指数k及び時間ブロックnに関して後処理されたスペクトル値y^が計算される。これらの9個の重み付けスペクトル値は、ブロック45において合計される。
従って、周波数指数k及び時間指数nに関して後処理されたスペクトル値は、時間的に先行するブロック(n−1)及び時間的に後続するブロック(n+1)の異なって加重される可能性のあるスペクトル値の加算によって、及び各々上方に(k+1)かつ下方に(k−1)隣接するスペクトル値を使用して計算される。しかしながら、より単純な実施では、周波数指数kのスペクトル値が同じブロックからの隣接する1つのスペクトル値k+1またはk−1のみと結合されるだけであってもよく、周波数指数kのスペクトル値と結合されるこのスペクトル値は、必ずしも直に隣接している必要はなく、そのブロックからの別のスペクトル値であってもよい。しかしながら、隣接する帯域同士の典型的な重なり合いに起因して、上側及び/又は下側の直に隣接するスペクトル値との結合を実行することが好適である。
さらに、或いは、または追加的に、異なる持続時間、即ち異なるブロック指数のスペクトル値を有する各スペクトル値は、ブロックnからの対応するスペクトル値と結合されてもよい。この場合、異なるブロックからのこのスペクトル値は、必ずしも同じ周波数指数を有する必要はなく、異なる、例えば隣接する周波数指数を有してもよい。しかしながら、好適には、少なくとも同じ周波数指数を有する異なるブロックからのスペクトル値が、その時点の関連ブロックからのスペクトル値と結合される。この異なるブロックもやはり、必ずしも時間的に直に隣接するものである必要はないが、MP3エンコーダまたはAACエンコーダの場合に典型的であるように、第1の変換アルゴリズム及び/又は第2の変換アルゴリズムがブロック重複特性を有する場合には、そうであることが特に好適である。
これは、図4の重み係数が考慮される場合、少なくとも重み係数c4(k)はゼロではなく、及び少なくとも第2の重み係数もゼロではないが、他の全ての重み係数がゼロであってもよいことを意味する。これにより、既に処理が施されている場合もあるが、この処理は、ゼロではない重み係数が少数であることに起因して、図1の下半分を考慮すれば、第2の変換アルゴリズムの比較的粗い概算でしかない場合がある。10個以上のスペクトル値を考慮するためには、さらに未来かつさらに過去のブロックへのさらなる分岐が追加されてもよい。また、スペクトル的にさらに離れて存在するスペクトル値のためのさらなる乗算器及び対応するさらなる重み係数が追加されて、図4の3×3のフィールドから4つ以上のライン及び/又は4つ以上のカラムを備えるフィールドが生成されてもよい。しかしながら、各スペクトル値に9個の重み係数が許容される場合は、これより少数の重み係数の場合に比べて実質的向上が達成されるが、重み係数の数が増えても、ブロック22の出力における差分値の低減に関してさらなる実質的向上は達成されず、よって、隣接するサブバンドフィルターの重なり合い及び隣接するブロックの時間的重なり合いを有する典型的な変換アルゴリズムによるより多くの重み係数は実質的な向上をもたらさないことが発見されている。
長いブロックのシーケンスに使用される50パーセントの重なりに関して、図5Cの略図における左側の45を参照する。45には、連続する2つの長いブロックが略示されている。従って、本発明によれば、図4に示す結合器の概念は、長いブロックのシーケンスが使用される場合に常に使用される。この場合、IntMDCTアルゴリズム23のブロック長さ及びIntMDCTアルゴリズムの重なり合いの程度は、MP3解析フィルターの重なり合いの度合い及びMP3分析フィルターのブロック長さに等しく設定される。概して、両変換アルゴリズムのブロックの重なり合い及びブロック長さは等しく設定されることが好適である。第2の変換アルゴリズム、即ち例えば図2のIntMDCT23はこれらのパラメータに関して容易に設定できるが、第1の変換アルゴリズムに関しては、特に第1の変換アルゴリズムがMP3の例に関連するものとして標準化され、かつ頻繁に使用され、よって変更されなくてもよい場合にこれらの設定が容易ではないので、これらの設定に関して特別な限定を提示しない。
図2及び図3を参照して既に示したように、図3における関連のデコーダは、図2のブロック22の出力において、または図3のブロック31の出力において再度同じ近似値、即ちIntMDCT差分値を加算することにより差分形成を逆転する。
従って、本発明によれば、この方法は、概して異なるフィルターバンクを使用して得られる、即ち第1の変換アルゴリズムを基礎とする1つのフィルターバンク/変換が第2の変換アルゴリズムを基礎とするフィルターバンク/変換とは異なる場合に得られるスペクトル表現間の差分形成に適用されてもよい。
具体的なアプリケーションの一例は、図4を参照して記述したような、「長いブロック」からのMP3スペクトル値をIntMDCTに関連して使用することである。この場合のハイブリッドフィルターバンクの周波数分解能は576であることから、IntMDCTも576の周波数分解能を備えることになり、よって、ウィンドウの長さは最大1152個の時間サンプルを備えてもよい。
次に説明する例では、時間的及びスペクトル的に直近の値しか使用されないが、一般的なケースでは、より遠くに離れた値も(または代替的に)使用されてもよい。
n番目のMP3ブロックにおけるk番目の帯域のスペクトル値がx(k,n)で示され、かつIntMDCTの対応するスペクトル値がy(k,n)で示されていれば、図4に示すように、d(k,n)について差分が計算される。y^(k,n)は、一次結合によって得られるy(k,n)の近似値であり、図4下部の長い式が示すようにして決定される。
ここで、576個の副帯の各々で位相差が異なることに起因して、明確な係数セットが要求される場合があることは留意されるべきである。実際の実現においては、図4に示すように、時間的に隣接するスペクトル値へアクセスするために、出力値が各々対応する先行ブロック内の入力値に一致する遅延44が使用される。従って、時間的に後続するスペクトル値へのアクセスを有効化するためには、やはり、入力40へ印加されるIntMDCTスペクトル値が遅延46によって遅延される。
図5Aは、MP3ハイブリッドフィルターバンクが、192個のスペクトル値により各々3つのサブブロックが生成される短いブロックを準備する場合の幾分修正された手順を示す。この場合、本発明によれば、図5Aの第1の変形例とは別に、図6Aにおける第2の変形例も好適である。
第1の変形例は、対応するスペクトル値ブロックを形成するための周波数分解能192を有するIntMDCTの三重のアプリケーションを基礎とする。この場合、近似値は、1つの周波数指数に属する3つの値及びそれらに対応するスペクトル近傍値から形成されてもよい。この場合、各サブブロックについて、明確な係数セットが要求される。従って、この手順を記述するために、サブブロック指数uを導入する。よって、uもまた、長さ576の完全なブロックの指数に一致する。従って、式に表すと、図5Aの式システムのようになる。このようなブロックシーケンスを、値に関して図5Bに、かつウィンドウに関して図5Cに示す。MP3エンコーダは、50において示すように短いMP3ブロックを準備する。第1の変形例も、図5Bにおける51に示すように、短いIntMDCTブロックy(u0)、y(u1)及びy(u2)を準備する。これにより、3つの短い差分ブロック52は、ブロック50、51及び52において周波数kにおける対応するスペクトル値の間に1:1表現が生じるように計算されてもよい。
図4とは対照的に、図5Aでは、遅延44が示されていないことに留意すべきである。これは、ブロックnの3つのサブブロック0、1、2が全て計算されている場合にのみ後処理を実行し得るという事実の結果である。指数0を有するサブブロックが時間的に最初のサブブロックであり、かつ指数1を有する次のサブブロックが時間的に後のブロックであり、かつ指数u=2が同じく時間的に後の短いブロックであれば、指数u=0の差分ブロックは、サブブロックu0、サブブロックu1及びサブブロックu2からのスペクトル値を使用して計算される。これは、指数0を有するその時点で計算されているサブブロックに関して、未来のサブブロック1及び2が使用されるが、過去のスペクトル値は使用されないことを意味する。これは、既知でありかつ例えば先に述べたエドラーによる専門家の刊行物において示されているように、オーディオ信号内に一時的結果が存在していて、短いブロックへの切換が実行されたので、実用的である。しかしながら、サブブロック指数1を有する差分値を得るために使用される指数1を有するサブブロックの後処理された値は、時間的に先行するサブブロック、その時点の現行サブブロック、かつ時間的に後続するサブブロックから計算される。一方で、指数2を有する第3のサブブロックの後処理されたスペクトル値は、未来のサブブロックを使用して計算されず、単に指数1及び指数0を有する過去のサブブロックを使用して計算される。これもまた、図5Cに示すように、長いウィンドウへのウィンドウ切換が停止ウィンドウによってやはり容易に開始され、よって、後に再度、図4に示す長いブロックのスキームへの直接的変更が実行され得る限りにおいて、技術的に実用的である。
従って、図5は、具体的には短いブロックの場合、しかし一般的に見ても、重み付け及び合計後に後処理されたスペクトル値をもたらすスペクトル値を得るためには、過去のみ、または未来のみを参照し、必ずしも、図4に示すように過去及び未来の双方を参照しないことが実用的であり得る点を明らかにしている。
以下、図6A、6B及び6Cを参照して、短いブロックの第2の変形例を示す。この第2の変形例でも、IntMDCTの周波数分解能は576であり、よって、スペクトル的に隣接する3つのIntMDCTスペクトル値は各々、1つのMP3スペクトル値の周波数領域内に存在する。従って、これらの3つのIntMDCTスペクトル値の各々について、差分形成を目的として、これらの時間的に連続する3つのサブブロックスペクトル値及びそのスペクトル的な近傍値から明確な一次結合が形成される。順位指数とも称される指数sは、この場合、3値よりなる各グループ内の位置を示す。従って、結果的に、図6Aにおいてブロック図の下に示した式が生じる。この第2の変形例は、IntMDCTにおいて重なり合う面積が小さいウィンドウ関数が使用される場合に、考慮される信号セクションが3つのサブブロックのそれに十分に一致することから、特に適切である。この場合は、第1の変形例の場合と同様に、先行または後続の長いブロックのIntMDCTのウィンドウの形を、各々完全な復元がもたらされるように適合化することが好適である。第1の変形例の対応するブロック図を、図5Cに示す。図6Cは、第2の変形例の対応するブロック図を示すが、この場合は、長いウィンドウ63によって唯一の長いIntMDCTブロックが生成される。この長いIntMDCTブロックは、ここではスペクトル値のk個の三重ブロックを備え、s=0、s=1及びs=2から結果的に生じるこのような三重ブロックの帯域幅は、図6Bにおける短いMP3ブロック60のブロックkの帯域幅に等しい。図6Aからは、指数kを有する三重ブロックに関する、s=0を有する第1のスペクトル値からの減算に際しても、現行のサブブロック、未来のサブブロック及びその次の未来のサブブロック0、1、2の値は使用されるが、過去の値は使用されないことが分かると思われる。しかしながら、三重グループの第2の値s=1に関して差分値を計算するためには、先行するサブブロック及び未来のサブブロックからのスペクトル値が使用され、一方で、順位指数s=2を有する差分スペクトル値を計算するためには、図6Aにおいて分岐43に対して過去である分岐41及び42が示すように、先行するサブブロックのみが使用される。
この時点で、全ての計算規定に従って、周波数領域の限界を超える項、即ち、例えば周波数指数−1または576または192が各々省略されることは留意されるべきである。従ってこれらの場合、図4から図6における一般例では、一次結合は9項ではなく6項に減らされる。
以下、図5C及び図6Cにおけるウィンドウシーケンスを詳細に参照する。これらのウィンドウシーケンスは、図4におけるシナリオによって処理される一連の長いブロックからなる。ここで、開始ウィンドウ56は、開始ウィンドウの始まりにおける長い重複領域から開始ウィンドウの終わりにおける短い重複領域へ「変換」されながら非対称形状を有して続く。これに類似して、やはり一連の短いブロックから一連の長いブロックへ変換され、よって始まりにおける短い重複領域と終わりにおける長い重複領域とを備える停止ウィンドウ57が存在する。
ウィンドウ切換は、先に述べたエドラーによる専門家の刊行物に示されているように、オーディオ信号における持続時間が、過渡信号を備えるエンコーダによって検出されれば選択される。
このようなシグナリングはMP3ビットストリーム内に位置づけられ、よって、IntMDCTが、図2に従って、かつ図5Cの第1の変形例に従って同じく短いブロックに切換すれば、明確な過渡検出は不要であり、MP3ビットストリーム内の短いウィンドウの認知のみに基づく過渡検出が行われる。開始ウィンドウにおいて値の後処理を行うためには、先行するウィンドウとの長い重複領域に起因して、先行するブロックの指数n−1を有するブロックを使用することが好適であり、後続ブロックの指数を有するブロックは、重複領域が短いので、僅かだけ加重されるか概して使用されない。これに類似して、後処理を行う停止ウィンドウは、現行ブロックnの値の他に未来のブロックの指数n+1を有する値しか考慮せず、過去の値に対しては単に軽い重み付けを実行するか0に等しい重み付けを実行し、即ち、過去の値、例えば第3の短いブロックは使用しない。
しかしながら、図6Cに示すように、IntMDCT23によって、即ち第2の変換アルゴリズムによって実行されるウィンドウのシーケンスは短いウィンドウへの切換を実行せず、選好的に使用されるウィンドウ切換を実行する場合は、各々図6Cにおける63により、また開始ウィンドウ56及び停止ウィンドウ57により示される短い重複を有するウィンドウを開始または停止することが好適である。
図6Cに示す実施形態では、図2のIntMDCTは短いウィンドウのモードへ変わらないが、MP3ビットストリーム内の短いウィンドウのシグナリングは、ともかくも開始ウィンドウ、図6Cに63で示される短い重複のウィンドウ及び停止ウィンドウとのウィンドウ切換を起動するために使用されてもよい。
さらに、具体的には、AAC規格に示される、各々長いブロック用の576個の値及び短いブロック用の192個の値よりなるMP3ブロック長さまたはMP3フィードに適合化されたウィンドウシーケンス、及び具体的には、そこに示される開始ウィンドウ及び停止ウィンドウが、本発明のブロック23におけるIntMDCTの実施に特に適することは留意されるべきである。
以下、第1の変換アルゴリズム及び後処理の近似値の精度を参照する。
ブロック内の位置0...575に各々1つのインパルスを有する576個の入力信号について、下記のステップを実行した。
−ハイブリッドフィルターバンク+近似値を計算する。
−MDCTを計算する。
−MDCTスペクトル成分の二乗和を計算する。
−MDCTスペクトル成分と近似値との偏差の二乗和を計算する。ここでは、576個の信号全てにわたる最大二乗偏差が決定される。
全ての位置に及ぶ最大相対二乗偏差は、下記の通りであった。
−図4による長いブロックを使用した場合、約3.3%。
−図6による短いブロック(ハイブリッド)及び長いブロック(MDCT)を使用した場合、約20.6%。
従って、2つの変換の入力にインパルスが存在する場合、第2の変換の近似値とスペクトル成分との偏差の二乗和は、入力ブロックにおけるインパルスの位置に関わらず、第2の変換のスペクトル成分の二乗和の30%以下(かつ好適には、各々25%または10%以下)であるべきであると言うことができる。二乗和を計算するためには、インパルスによって影響されるスペクトル成分の全てのブロックを考慮すべきである。
前述の誤差検査(MDCT対ハイブリッドFB+後処理)では、信号非依存性の相対誤差が常に考慮されたことは留意されるべきである。
しかしながら、IntMDCT(対MDCT)では、絶対誤差は信号非依存であり、丸められた整数値のほぼ−2から2までの範囲内に存在する。このことから、結果的に、相対誤差は信号依存になる。この信号依存性を排除するために、好適には、完全に制御されたインパルス(例えば、16ビットのPCMで値32767)を想定する。すると、これにより結果的に、約32767/平方根(576)=1365の平均振幅を有する事実上平坦なスペクトルが生じる(エネルギー保存)。よって、平均二乗誤差は約2^2/1365^2=0.0002%になり、即ち取るに足らないものとなる。
しかしながら、入力におけるインパルスが極めて小さいものであれば、誤差は絶大になる。振幅1または2のインパルスは、事実上、IntMDCT近似値誤差内で完全に失われる。
従って、近似値、即ち重み係数として望ましい値の精度に関する誤差基準は、完全に制御されたインパルスに関して指示されるときに最も比肩し得るものとなる。
状況に依存して、本発明による方法は、ハードウェアまたはソフトウェアで実施されてもよい。実施は、デジタル記憶媒体上で、具体的には、本発明が実行されるようにプログラム可能コンピュータシステムと協働し得る電子読取り可能な制御信号を有する磁気記録ディスクまたはCD上で行われてもよい。従って一般に、本発明は、コンピュータ上で起動された際、本発明による方法を実行するための機械読取り可能なキャリア上へ格納されるプログラムコードを有するコンピュータプログラム製品にも存する。従って言い換えれば、本発明は、コンピュータ上で実行されると本方法を実行するためのプログラムコードを有するコンピュータプログラムとして実現されてもよい。

Claims (29)

  1. オーディオ信号をスペクトル表現に変換するための第1の変換アルゴリズム(16)を基礎としてスペクトル値を後処理するための装置(10)であって、
    前記オーディオ信号のサンプルのブロックシーケンスを表すスペクトル値のブロックシーケンスを出力するための手段(12)と、
    後処理されたスペクトル値のブロックシーケンスを得るために、前記スペクトル値のブロックシーケンスのスペクトル値を重み付け加算するための結合器(13)と、
    を備え、
    前記結合器(13)は、周波数帯域及び持続時間に関して後処理されたスペクトル値を計算するために、前記周波数帯域及び前記持続時間に関する前記ブロックシーケンスのスペクトル値と、別の周波数帯域または別の持続時間に関するスペクトル値とを使用し、
    前記結合器(13)は、重み付け加算に際して、前記後処理されたスペクトル値が、前記オーディオ信号をスペクトル表現に変換するための第2の変換アルゴリズム(17)によって得られるスペクトル値の近似値となるような重み係数を使用し、
    前記第2の変換アルゴリズム(17)は前記第1の変換アルゴリズム(16)とは異なること、
    を特徴とする装置。
  2. 前記第1の変換アルゴリズム(16)は2つの段を有するハイブリッド変換アルゴリズムであり、かつ、前記第2の変換アルゴリズム(17)は一段変換アルゴリズムであること、を特徴とする請求項1記載の装置。
  3. 前記第1の変換アルゴリズム(16)は多相フィルターバンクと、修正離散余弦変換とを備え、前記第2の変換アルゴリズム(17)は整数MDCTであること、を特徴とする請求項1記載の装置。
  4. 前記第1の変換アルゴリズム(16)及び前記第2の変換アルゴリズム(17)は実出力信号を出力すること、を特徴とする請求項1記載の装置。
  5. 前記結合器(13)は、前記第1の変換アルゴリズム(16)及び前記結合器(13)により実行される後処理が共に、前記第2の変換アルゴリズム(17)のインパルス応答に近似するインパルス応答をもたらすような重み係数を使用するように実装されること、を特徴とする請求項1記載の装置。
  6. 前記第1の変換アルゴリズム及び後処理からの近似において、前記重み係数は、前記2つの変換の入力におけるインパルスによって、前記近似と前記第2の変換のスペクトル成分との偏差の二乗和が前記第2の変換のスペクトル成分の二乗和の30%以下であるように選択されること、を特徴とする請求項5記載の装置。
  7. 前記ブロックシーケンスを出力するための手段(12)は、前記オーディオ信号のロス有り表現であるブロックを出力すること、を特徴とする請求項1記載の装置。
  8. 周波数帯域kの後処理されたスペクトル値を計算するための前記結合器(13)は、
    現行ブロックの重み付けされたスペクトル値を得るために、周波数帯域k、周波数帯域k−1または周波数帯域k+1の現行ブロックのスペクトル値に加重するための第1のセクション(41、42、43)と、
    時間的に先行するブロック、または時間的に後続するブロックの重み付けされたスペクトル値を取得するために、時間的に先行するブロックk−1、または時間的に後続するブロックk+1のスペクトル値に加重するための第2のセクション(41、42、43)と、
    前記重み付けされたスペクトル値を加算して、後処理されたスペクトル値の現行ブロックまたは先行するブロックもしくは後続するブロックの前記周波数帯域kの後処理されたスペクトル値を得るための手段(45)と、
    を備えたこと、
    を特徴とする請求項1記載の装置。
  9. 先行するブロックのスペクトル値に加重するための第3のセクション(43)をさらに備え、前記第1のセクションは後続するブロックのスペクトル値に加重し、前記第2のセクション(42)は現行ブロックのスペクトル値に加重し、加算器(45)は、前記3つのセクションの重み付けされたスペクトル値を加算して、前記後処理されたスペクトル値の現行ブロックの後処理されたスペクトル値を得ること、を特徴とする請求項8記載の装置。
  10. 前記第1の変換アルゴリズムはブロック重複関数を備え、前記スペクトル値のブロックシーケンスの基礎である時間オーディオ信号のサンプルブロックは重なり合うこと、を特徴とする請求項1記載の装置。
  11. 前記結合器(13)は、各スペクトル値について、信号非依存の重み係数セットを使用すること、を特徴とする請求項1記載の装置。
  12. 前記スペクトル値のブロックシーケンスは、そのブロックセットに後続する、またはそのブロックセットに先行する長いスペクトル値ブロックより短いスペクトル値ブロックセットを備え、
    前記結合器(13)は、前記短いブロックセットのうちの幾つかのブロックから同じ周波数帯域または隣接する周波数帯域を使用して、前記スペクトル値ブロックセットの後処理されたスペクトル値を計算すること、
    を特徴とする請求項1記載の装置。
  13. 前記結合器(13)は、短いスペクトル値ブロックに起因して、短いブロックのスペクトル値のみを使用しかつ先行する長いブロックまたは後続する長いブロックのスペクトル値を使用せずに後処理されたスペクトル値を計算するように実装されること、を特徴とする請求項12記載の装置。
  14. 前記結合器(13)は、下記の式を実行し、
    Figure 2010508550
    y^(k,n)は、周波数指数k及び時間指数nに関する後処理されたスペクトル値であり、x(k,n)は、周波数指数k及び時間指数nを有するスペクトル値ブロックのスペクトル値であり、c0(k),...,c8(k)は周波数指数kに関連づけられる重み係数であり、k−1は減分された周波数指数であり、k+1は増分された周波数指数であり、n−1は減分された時間指数でありかつn+1は増分された時間指数であること、
    を特徴とする請求項1記載の装置。
  15. 前記結合器(13)は、下記の式を実行し、
    Figure 2010508550
    y^(k,n,u)は、周波数指数k及び時間指数n及びサブブロック指数uに関する後処理されたスペクトル値であり、x(k,n,u)は、周波数指数k及び時間指数n及びサブブロック指数uを有するスペクトル値ブロックのスペクトル値であり、c0(k),...,c8(k)は周波数指数kに関連づけられる重み係数であり、k−1は減分された周波数指数であり、k+1は増分された周波数指数であり、n−1は減分された時間指数であり、n+1は増分された時間指数であり、uはサブブロックシーケンスにおける1つのサブブロックの位置を示すサブブロック指数であり、前記時間指数は長いブロックを特定し、かつ前記サブブロック指数は比較的短いブロックを特定すること、
    を特徴とする請求項1記載の装置。
  16. 前記結合器(13)は、下記の式を実行し、
    Figure 2010508550
    y^(k,n)は、周波数指数k及び時間指数nに関する後処理されたスペクトル値であり、x(k,n,u)は、周波数指数k及び時間指数n及びサブブロック指数uを有するスペクトル値ブロックのスペクトル値であり、c0(k),...,c8(k)は周波数指数kに関連づけられる重み係数であり、k−1は減分された周波数指数であり、k+1は増分された周波数指数であり、n−1は減分された時間指数であり、n+1は増分された時間指数であり、sはサブブロックシーケンスにおける1つのサブブロックの位置を示す順位指数であり、前記時間指数は長いブロックを特定し、かつ前記サブブロック指数は比較的短いブロックを特定すること、
    を特徴とする請求項1記載の装置。
  17. オーディオ信号を符号化するためのエンコーダであって、
    請求項1記載のスペクトル値を後処理するための装置(10)と、
    前記第2の変換アルゴリズム(17)に従って前記オーディオ信号からスペクトル値のブロックシーケンスを計算するための手段(23)と、
    前記第2の変換アルゴリズムに起因するブロックシーケンスと、前記後処理されたスペクトル値のブロックシーケンスとの間のスペクトル値に関する差分を形成するための手段(22)と、
    を備えたことを特徴とするエンコーダ。
  18. スペクトル値に関する差分を形成するための前記手段(22)により生じる結果に起因して拡張ビットストリームを生成するための手段(24)をさらに備えたこと、を特徴とする請求項17記載のエンコーダ。
  19. 前記生成するための手段(24)はエントロピーエンコーダを備えたこと、を特徴とする請求項18記載のエンコーダ。
  20. 前記第1の変換アルゴリズム(16)に起因するブロックシーケンスはロス有り圧縮を基礎とし、前記第2の変換アルゴリズム(17)に起因するブロックシーケンスはロスレスまたは事実上ロスレスである圧縮を基礎とすること、を特徴とする請求項17記載のエンコーダ。
  21. 前記重み係数を格納するためのメモリを備え、前記重み係数は信号とは独立して格納可能であること、を特徴とする請求項17記載のエンコーダ。
  22. 前記第2の変換アルゴリズム(17)を使用してブロックシーケンスを生成するための手段(23)は、前記第1の変換アルゴリズム(16)に起因して与えられるスペクトル値のブロックシーケンスが基礎とするウィンドウシーケンスに依存するウィンドウシーケンスによってウィンドウ処理を実行すること、を特徴とする請求項17記載のエンコーダ。
  23. 前記第2の変換アルゴリズム(17)を使用してブロックシーケンスを出力するための手段(23)は、前記スペクトル値のブロックシーケンスにおいて、前記第1の変換アルゴリズム(16)に起因して短いウィンドウへの切換が生じると、長い重複領域を有する長いウィンドウから短い重複領域を有する1つの短いウィンドウまたは複数の短いウィンドウへ切り換えること、を特徴とする請求項22記載のエンコーダ。
  24. 符号化されたオーディオ信号を復号するためのデコーダであって、
    請求項1記載のスペクトル値を後処理するための装置と、
    前記第1の変換アルゴリズム(16)に起因する後処理されたスペクトル値のブロックシーケンスと前記第2の変換アルゴリズム(17)に起因するブロックシーケンスとの間のスペクトル値に関する差分値を出力するための手段(31)と、
    前記後処理されたスペクトル値のブロックシーケンスと前記差分値とを結合して、結合スペクトル値のブロックシーケンスを得るための手段(30)と、
    前記第2の変換アルゴリズム(17)に従って前記結合スペクトル値のブロックシーケンスを逆変換し、復号されたオーディオ信号を得るための手段(33)と、
    を備えたことを特徴とするデコーダ。
  25. オーディオ信号をスペクトル表現に変換するための第1の変換アルゴリズム(16)を基礎としてスペクトル値を後処理するための方法(10)であって、
    前記オーディオ信号のサンプルのブロックシーケンスを表す前記スペクトル値のブロックシーケンスを出力するステップ(12)と、
    後処理されたスペクトル値のブロックシーケンスを得るために、前記スペクトル値のブロックシーケンスのスペクトル値を重み付け加算するステップ(13)と、
    を備え、
    周波数帯域及び持続時間に関して後処理されたスペクトル値を計算するために、前記周波数帯域及び前記持続時間に関する前記ブロックシーケンスのスペクトル値と、別の周波数帯域または別の持続時間のスペクトル値とが使用され、前記重み係数は、重み付け加算に際して、前記後処理されたスペクトル値が、前記オーディオ信号をスペクトル表現に変換するための第2の変換アルゴリズム(17)によって得られるスペクトル値に近似するように使用され、前記第2の変換アルゴリズム(17)は前記第1の変換アルゴリズム(16)とは異なること、
    を特徴とする方法。
  26. オーディオ信号を符号化するための方法であって、
    請求項25に従ってスペクトル値を後処理するステップ(10)と、
    前記第2の変換アルゴリズム(17)に従って前記オーディオ信号からスペクトル値のブロックシーケンスを計算するステップ(23)と、
    前記第2の変換アルゴリズムに起因する前記スペクトル値のブロックシーケンスと、前記後処理されたスペクトル値のブロックシーケンスとの間のスペクトル値に関する差分を形成するステップ(22)と、
    を備えたことを特徴とする方法。
  27. 符号化されたオーディオ信号を復号するための方法であって、
    請求項25記載のスペクトル値を後処理するステップと、
    前記第1の変換アルゴリズム(16)に起因する後処理されたスペクトル値のブロックシーケンスと、前記第2の変換アルゴリズム(17)に起因するスペクトル値のブロックシーケンスとの間のスペクトル値に関する差分値を出力するステップ(31)と、
    前記後処理されたスペクトル値のブロックシーケンスと前記差分値とを結合して、結合スペクトル値のブロックシーケンスを得るステップ(30)と、
    前記第2の変換アルゴリズム(17)に従って前記結合スペクトル値のブロックシーケンスを逆変換し、復号されたオーディオ信号を得るステップ(33)と、
    を備えたことを特徴とする方法。
  28. コンピュータ上で起動された際、請求項25記載の方法を実行するためのプログラムコードを有することを特徴とするコンピュータプログラム。
  29. オーディオデコーダに入力するためのビットストリーム拡張層であって、前記ビットストリーム拡張層は差分値のブロックシーケンスを備え、差分値のブロックは、スペクトル値に関連して第2の変換アルゴリズム(17)から得られるスペクトル値のブロックと後処理されたスペクトル値のブロックとの間の差分を含み、前記後処理されたスペクトル値は、第1の変換アルゴリズム(16)から得られるブロックシーケンスのスペクトル値を重み付け加算することによって生成され、周波数帯域及び持続時間に関連して後処理されたスペクトル値を計算するために、前記周波数帯域及び前記持続時間に関する前記ブロックシーケンスのスペクトル値と、別の周波数帯域または別の持続時間のスペクトル値とが使用され、結合に際しては、前記後処理されたスペクトル値が前記第2の変換アルゴリズム(17)によって得られるスペクトル値への近似値を表すように重み係数が使用され、前記第2の変換アルゴリズム(17)は前記第1の変換アルゴリズム(16)とは異なること、を特徴とするビットストリーム拡張層。
JP2009534996A 2006-11-02 2007-09-28 スペクトル値の後処理用装置と方法及びオーディオ信号のエンコーダとデコーダ Active JP5301451B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102006051673.7 2006-11-02
DE102006051673A DE102006051673A1 (de) 2006-11-02 2006-11-02 Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
PCT/EP2007/008477 WO2008052627A1 (en) 2006-11-02 2007-09-28 Device and method for postprocessing spectral values and encoder and decoder for audio signals

Publications (2)

Publication Number Publication Date
JP2010508550A true JP2010508550A (ja) 2010-03-18
JP5301451B2 JP5301451B2 (ja) 2013-09-25

Family

ID=38962597

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009534996A Active JP5301451B2 (ja) 2006-11-02 2007-09-28 スペクトル値の後処理用装置と方法及びオーディオ信号のエンコーダとデコーダ

Country Status (22)

Country Link
US (1) US8321207B2 (ja)
EP (2) EP1964111B1 (ja)
JP (1) JP5301451B2 (ja)
KR (1) KR101090541B1 (ja)
CN (1) CN101553870B (ja)
AT (1) ATE489703T1 (ja)
AU (2) AU2007315373B2 (ja)
BR (1) BRPI0716308B1 (ja)
CA (1) CA2668056C (ja)
DE (2) DE102006051673A1 (ja)
ES (2) ES2354743T3 (ja)
HK (1) HK1120328A1 (ja)
IL (1) IL198192A (ja)
MX (1) MX2009004639A (ja)
MY (2) MY156427A (ja)
NO (2) NO341615B1 (ja)
PL (2) PL1964111T3 (ja)
PT (1) PT2264699T (ja)
RU (1) RU2423740C2 (ja)
TR (1) TR201903942T4 (ja)
TW (1) TWI350068B (ja)
WO (1) WO2008052627A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014515124A (ja) * 2011-04-28 2014-06-26 ドルビー・インターナショナル・アーベー 効率的なコンテンツ分類及びラウドネス推定

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0718738B1 (pt) 2006-12-12 2023-05-16 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Codificador, decodificador e métodos para codificação e decodificação de segmentos de dados representando uma corrente de dados de domínio de tempo
EP2099027A1 (en) * 2008-03-05 2009-09-09 Deutsche Thomson OHG Method and apparatus for transforming between different filter bank domains
AU2009267518B2 (en) * 2008-07-11 2012-08-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
ES2639646T3 (es) 2011-02-14 2017-10-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de posiciones de impulso de pistas de una señal de audio
MX2013009304A (es) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad.
ES2529025T3 (es) 2011-02-14 2015-02-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio decodificada en un dominio espectral
SG185519A1 (en) * 2011-02-14 2012-12-28 Fraunhofer Ges Forschung Information signal representation using lapped transform
TWI488177B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 使用頻譜域雜訊整形之基於線性預測的編碼方案
KR20150032614A (ko) * 2012-06-04 2015-03-27 삼성전자주식회사 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기
ES2634621T3 (es) 2013-02-20 2017-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para generar una señal de audio o imagen codificada o para descodificar una señal de audio o imagen codificada en presencia de transitorios utilizando una parte de superposición múltiple
EP2830058A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
CN105556601B (zh) 2013-08-23 2019-10-11 弗劳恩霍夫应用研究促进协会 用于使用交叠范围中的组合来处理音频信号的装置及方法
WO2015071173A1 (en) 2013-11-13 2015-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder for encoding an audio signal, audio transmission system and method for determining correction values
WO2015189533A1 (en) * 2014-06-10 2015-12-17 Meridian Audio Limited Digital encapsulation of audio signals
CN117238300A (zh) * 2016-01-22 2023-12-15 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
US10448053B2 (en) * 2016-02-15 2019-10-15 Qualcomm Incorporated Multi-pass non-separable transforms for video coding
US10390048B2 (en) 2016-02-15 2019-08-20 Qualcomm Incorporated Efficient transform coding using optimized compact multi-pass transforms
US10349085B2 (en) 2016-02-15 2019-07-09 Qualcomm Incorporated Efficient parameter storage for compact multi-pass transforms
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002504294A (ja) * 1998-04-09 2002-02-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 伝送システムの損失のない符号化/復号化
JP2002517019A (ja) * 1998-05-27 2002-06-11 マイクロソフト コーポレイション 信号の量子化変換係数をエントロピーエンコードするシステムと方法
JP2003233400A (ja) * 2002-02-08 2003-08-22 Ntt Docomo Inc 復号装置、符号化装置、復号方法、及び、符号化方法
JP2004094132A (ja) * 2002-09-03 2004-03-25 Sony Corp データレート変換方法及びデータレート変換装置
JP2005527851A (ja) * 2002-04-18 2005-09-15 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 時間離散オーディオ信号を符号化する装置と方法および符号化されたオーディオデータを復号化する装置と方法
WO2005106848A1 (ja) * 2004-04-30 2005-11-10 Matsushita Electric Industrial Co., Ltd. スケーラブル復号化装置および拡張レイヤ消失隠蔽方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE59008047D1 (de) * 1989-03-06 1995-02-02 Bosch Gmbh Robert Verfahren zur Datenreduktion bei digitalen Tonsignalen und zur genäherten Rückgewinnung der digitalen Tonsignale.
SE9700772D0 (sv) 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
US6131084A (en) 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
JP4263412B2 (ja) * 2002-01-29 2009-05-13 富士通株式会社 音声符号変換方法
US7275036B2 (en) * 2002-04-18 2007-09-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
JP4238535B2 (ja) * 2002-07-24 2009-03-18 日本電気株式会社 音声符号化復号方式間の符号変換方法及び装置とその記憶媒体
DE10234130B3 (de) * 2002-07-26 2004-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
US7318027B2 (en) 2003-02-06 2008-01-08 Dolby Laboratories Licensing Corporation Conversion of synthesized spectral components for encoding and low-complexity transcoding
JP4849466B2 (ja) * 2003-10-10 2012-01-11 エージェンシー フォー サイエンス, テクノロジー アンド リサーチ デジタル信号をスケーラブルビットストリームにエンコードする方法、及びスケーラブルビットストリームをデコードする方法
DE102004021403A1 (de) * 2004-04-30 2005-11-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalverarbeitung durch Modifikation in der Spektral-/Modulationsspektralbereichsdarstellung
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
EP1883067A1 (en) * 2006-07-24 2008-01-30 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
EP1903559A1 (en) * 2006-09-20 2008-03-26 Deutsche Thomson-Brandt Gmbh Method and device for transcoding audio signals
US20100114581A1 (en) * 2006-10-06 2010-05-06 Te Li Method for encoding, method for decoding, encoder, decoder and computer program products

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002504294A (ja) * 1998-04-09 2002-02-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 伝送システムの損失のない符号化/復号化
JP2002517019A (ja) * 1998-05-27 2002-06-11 マイクロソフト コーポレイション 信号の量子化変換係数をエントロピーエンコードするシステムと方法
JP2003233400A (ja) * 2002-02-08 2003-08-22 Ntt Docomo Inc 復号装置、符号化装置、復号方法、及び、符号化方法
JP2005527851A (ja) * 2002-04-18 2005-09-15 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 時間離散オーディオ信号を符号化する装置と方法および符号化されたオーディオデータを復号化する装置と方法
JP2004094132A (ja) * 2002-09-03 2004-03-25 Sony Corp データレート変換方法及びデータレート変換装置
WO2005106848A1 (ja) * 2004-04-30 2005-11-10 Matsushita Electric Industrial Co., Ltd. スケーラブル復号化装置および拡張レイヤ消失隠蔽方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014515124A (ja) * 2011-04-28 2014-06-26 ドルビー・インターナショナル・アーベー 効率的なコンテンツ分類及びラウドネス推定
US9135929B2 (en) 2011-04-28 2015-09-15 Dolby International Ab Efficient content classification and loudness estimation

Also Published As

Publication number Publication date
EP2264699A3 (en) 2012-10-10
EP2264699A2 (en) 2010-12-22
ES2354743T3 (es) 2011-03-17
PL2264699T3 (pl) 2019-06-28
BRPI0716308A2 (pt) 2015-05-19
AU2007315373A8 (en) 2009-06-11
CA2668056C (en) 2014-07-29
KR20090085047A (ko) 2009-08-06
NO343261B1 (no) 2019-01-14
RU2009117571A (ru) 2010-12-10
US20100017213A1 (en) 2010-01-21
AU2007315373B2 (en) 2011-03-17
AU2011200509B2 (en) 2011-12-08
IL198192A (en) 2014-05-28
US8321207B2 (en) 2012-11-27
EP2264699B1 (en) 2018-12-19
TW200836492A (en) 2008-09-01
MY156427A (en) 2016-02-26
PT2264699T (pt) 2019-04-02
TWI350068B (en) 2011-10-01
CN101553870B (zh) 2012-07-18
MY181471A (en) 2020-12-22
ES2720871T3 (es) 2019-07-25
EP1964111A1 (en) 2008-09-03
BRPI0716308A8 (pt) 2019-01-15
RU2423740C2 (ru) 2011-07-10
CN101553870A (zh) 2009-10-07
NO20092125L (no) 2009-05-29
NO20171179A1 (no) 2009-05-29
JP5301451B2 (ja) 2013-09-25
KR101090541B1 (ko) 2011-12-08
DE102006051673A1 (de) 2008-05-15
AU2011200509A1 (en) 2011-03-03
DE602007010721D1 (de) 2011-01-05
ATE489703T1 (de) 2010-12-15
TR201903942T4 (tr) 2019-04-22
PL1964111T3 (pl) 2011-05-31
BRPI0716308B1 (pt) 2020-10-06
AU2007315373A1 (en) 2008-05-08
MX2009004639A (es) 2009-06-26
CA2668056A1 (en) 2008-05-08
IL198192A0 (en) 2009-12-24
EP1964111B1 (en) 2010-11-24
WO2008052627A1 (en) 2008-05-08
NO341615B1 (no) 2017-12-11
HK1120328A1 (en) 2009-03-27

Similar Documents

Publication Publication Date Title
JP5301451B2 (ja) スペクトル値の後処理用装置と方法及びオーディオ信号のエンコーダとデコーダ
JP5551693B2 (ja) エイリアシングスイッチスキームを用いてオーディオ信号を符号化/復号化するための装置および方法
RU2608878C1 (ru) Регулировка уровня во временной области для декодирования или кодирования аудиосигналов
AU733156B2 (en) Audio coding method and apparatus
KR100852481B1 (ko) 양자화 스텝 사이즈 결정 장치 및 방법
JP2005535940A (ja) スケーラブルエンコーディングのための方法および装置ならびにスケーラブルデコーディングのための方法および装置
KR102392804B1 (ko) 인코딩된 다채널 신호를 광대역 필터에 의해 생성된 충전 신호를 사용하여 인코딩 또는 디코딩하는 장치
CN111344784A (zh) 控制编码器和/或解码器中的带宽
KR20230066547A (ko) 오디오 양자화기, 오디오 역양자화기 및 관련 방법들
JP4721355B2 (ja) 符号化データの符号化則変換方法および装置
RU2807462C1 (ru) Устройство квантования аудиоданных, устройство деквантования аудиоданных и соответствующие способы
RU2809981C1 (ru) Аудиодекодер, аудиокодер и связанные способы с использованием объединенного кодирования параметров масштабирования для каналов многоканального аудиосигнала
TWI841856B (zh) 音頻量化器和音頻去量化器及相關方法以及電腦程式
AU2021303726B2 (en) Audio quantizer and audio dequantizer and related methods
RU2799737C2 (ru) Устройство повышающего микширования звука, выполненное с возможностью работы в режиме с предсказанием или в режиме без предсказания
JP2007515672A (ja) オーディオ信号符号化

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111011

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120106

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121023

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130116

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130123

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130619

R150 Certificate of patent or registration of utility model

Ref document number: 5301451

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250