JP4934020B2 - 可逆マルチチャネル・オーディオ・コーデック - Google Patents

可逆マルチチャネル・オーディオ・コーデック Download PDF

Info

Publication number
JP4934020B2
JP4934020B2 JP2007505046A JP2007505046A JP4934020B2 JP 4934020 B2 JP4934020 B2 JP 4934020B2 JP 2007505046 A JP2007505046 A JP 2007505046A JP 2007505046 A JP2007505046 A JP 2007505046A JP 4934020 B2 JP4934020 B2 JP 4934020B2
Authority
JP
Japan
Prior art keywords
channel
channels
audio
correlated
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007505046A
Other languages
English (en)
Other versions
JP2007531012A (ja
Inventor
フェジゾ,ゾラン
Original Assignee
ディー・ティー・エス,インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ディー・ティー・エス,インコーポレーテッド filed Critical ディー・ティー・エス,インコーポレーテッド
Priority claimed from PCT/US2005/009275 external-priority patent/WO2005098823A2/en
Publication of JP2007531012A publication Critical patent/JP2007531012A/ja
Application granted granted Critical
Publication of JP4934020B2 publication Critical patent/JP4934020B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

本願は、米国特許法第119条(e)に基づき、2004年3月25日に出願された「Backward Compatible Lossless Audio Codec」と題される米国特許仮出願第60/566183号の優先権の利益を主張するものであり、その内容全体が参照により組み込まれる。
本発明は、可逆オーディオ・コーデックに関し、より詳細には、圧縮性能が改善された可逆マルチチャネル・オーディオ・コーデックに関する。
多数の低ビット・レートの不可逆オーディオ符号化システムが、広範囲の民生用及びプロ用のオーディオ再生の製品及びサービスで現在使用されている。例えば、ドルビー(登録商標)AC3(ドルビー(登録商標)・デジタル)オーディオ符号化システムは、640キロビット/秒までのビット・レートを使用する、レーザ・ディスク、NTSC符号化DVDビデオ及びATV用のステレオ及び5.1チャネル・オーディオ・サウンド・トラックを符号化するための世界標準である。MPEG I及びMPEG IIオーディオ符号化標準は、768キロビット/秒までのビット・レートで、PAL符号化DVDビデオ、ヨーロッパでの地上デジタル無線放送、及び米国での衛星放送をステレオ及びマルチチャネル・サウンド・トラック符号化するために広く使用されている。DTS(デジタル・シアター・システム)コヒーレント・アコースティックス・オーディオ符号化システムは、コンパクト・ディスク、DVDビデオ、ヨーロッパでの衛星放送、及びレーザ・ディスク用の、1536キロビット/秒までのビット・レートでの、スタジオ品質の5.1チャネル・オーディオ・サウンド・トラックに頻繁に使用される。
最近、多くの消費者が、こうしたいわゆる「可逆(lossless、ロスレス)」コーデックに興味を示してきている。「可逆」コーデックは、いかなる情報も破棄せずにデータを圧縮し、(デジタル化された)ソース信号と同一の復号信号を生成するアルゴリズムを用いる。そのようなコーデックでは典型的に不可逆コーデックよりも帯域幅を必要とし、データを圧縮する度合いが低い、という犠牲をこの実施は伴う。
図1は、単一オーディオ・チャネルを可逆圧縮するのに関与する動作を表現するブロック図である。マルチチャネル・オーディオにおける各チャネルは一般に独立ではないが、依存性は弱いことが多く、考慮するのは困難である。従って、各チャネルは典型的には別々に圧縮される。しかしながら、符号器によっては、単純な残差信号を形成し、符号化する(Ch1、Ch1−Ch2)ことによって、相関を除去しようと試みる。より高度な複雑な手法では、例えば、チャネル次元上の幾つかの連続する正射影ステップを行う。すべての技法は、まず信号から冗長性を除去し、次にその結果得られる信号を効率的なデジタル符号化方式を用いて符号化する、という原理に基づいている。可逆コーデックは、MLP(DVDオーディオ)、Monkey’s Audio(コンピュータ用途)、Apple Lossless、Windows(登録商標) Media Pro Lossless、AudioPak、DVD、LTAC、MUSICcompress、OggSquish、Philips、Shorten、Sonarc、及びWAを含む。こうしたコーデックのうちの多くに関する検討が、Mat Hans、Ronald Schaferの「Lossless Compression of Digital Audio」、Hewlett Packard、1999年で提供されている。
編集を可能にするためにフレーム化10が導入されるが、純粋にデータ量のために、編集される領域の前にある信号全体を繰り返して圧縮解除することはできない。オーディオ信号は、等しい持続時間(期間)の独立のフレームに分割される。この持続時間は、短すぎるべきではない。なぜなら、各フレームの先頭に付けられるヘッダによって、著しいオーバヘッドが生じることがあるからである。逆に、フレーム持続時間は、長すぎるべきではない。なぜなら、この持続時間が、時間的な適応性を制限し、編集をより困難にすることになるからである。多くの用途では、フレーム・サイズは、オーディオが転送される媒体のピーク・ビット・レートと、復号器のバッファ容量と、各フレームを独立に復号可能にさせることの望ましさとによって、制限される。
チャネル内無相関化12では、フレーム内の各チャネル中のオーディオ・サンプルを無相関化(decorrelate)することによって、冗長性を除去する。大部分のアルゴリズムは、何らかのタイプの、信号の線形予測モデリングによって、冗長性を除去する。この手法では、線形予測子(linear predictor)が、各フレーム内のオーディオ・サンプルに適用され、その結果、一連の予測誤差サンプルが得られる。第2の、より一般的ではない手法は、信号の低ビット・レート量子化の又は不可逆の表現を得て、次に不可逆バージョンと元のバージョンとの差を可逆圧縮する。エントロピー符号化14では、いかなる情報も失わずに、残差信号からの誤差から冗長性を除去する。典型的な方法は、ハフマン符号化、ランレングス符号化、及びライス符号化を含む。出力は、可逆再構築され得る圧縮信号である。
既存のDVD仕様及び暫定的なHD DVD仕様では、1データ・アクセス単位のサイズに対するハード・リミットを設定している。1データ・アクセス単位は、抽出された後に、完全に復号され得且つその再構築されたオーディオ・サンプルが出力バッファへ送信され得る、オーディオ・ストリームの一部を表す。可逆ストリームに関してこのことが意味するのは、各アクセス単位が表すことのできる時間量は、ピーク・ビット・レートの最悪のケースでも符号化されたペイロード(encoded payload、符号化ペイロード)がハード・リミットを超えないだけ、十分に小さい必要がある、ということである。ピーク・ビット・レートを増大させることになる、サンプリング・レートの増大及びチャネル数の増大のために、持続時間が低減される必要もある。
互換性を確保するために、こうした既存の符号器では、最悪のケースのチャネル/サンプリング周波数/ビット幅構成におけるハード・リミットを超えないように、フレーム全体の持続時間を十分短く設定する必要が生じる。大部分の構成では、これが過剰となり、圧縮性能を著しく低下させることがある。更に、この最悪のケースについての手法では、追加のチャネルとうまくスケーリングがなされない。
本発明は、独立に復号可能な各データ単位に対する最大サイズの制約に従って圧縮性能が最適化される、可逆オーディオ・コーデックを提供する。
可逆オーディオ・コーデックは、各セグメントが完全に復号可能であり且つ最大サイズ未満でなければならないという制約に従って、圧縮性能を高めるように、各フレーム内のオーディオ・データをセグメント化する。各フレームごとに、コーデックは、セグメント持続時間、及び各セグメントごとの符号化パラメータ、例えば、特定のエントロピー符号器及びそのパラメータを選択し、それにより、制約に従って、フレーム全体での符号化ペイロードを最小にする。各チャネルごとに、異なる組の符号化パラメータが選択されてよく、或いは、すべてのチャネルに対してグローバルな1組の符号化パラメータが選択されてもよい。Mチャネルのオーディオに対して、M/2個の無相関チャネルを形成することによって、圧縮性能が更に高められ得る。チャネル(基底、相関化、無相関化)の3つ組(トリプレット)は、圧縮性能を更に高めるために、セグメント化およびエントロピー符号化の最適化の時に考慮され得る可能な2つの対の組合せ「基底、相関化」及び「基底、無相関化」を提供する。チャネル対(チャネル・ペア)は、セグメントごと又はフレームごとに指定されてよい。
例示的な一実施形態では、符号器は、オーディオ・データをフレーム化し、次に、基底チャネル(basis channel)及び相関化チャネル(correlated channel、相関したチャネル)を含む順になったチャネル・ペアを抽出し、無相関化チャネル(decorrelated channel、相関していないチャネル)を生成して、少なくとも1つの三つ組(トリプレット)「基底、相関化、無相関化」を形成する。チャネル数が奇数の場合、追加の基底チャネルが処理される。各チャネルに、適応予測又は固定多項式予測が適用されて、残差信号を形成する。
符号器は、まずフレームを最大数の最小持続時間のセグメントに区分化(パーティション化)することによって、セグメント持続時間、フレームに対するチャネル・ペア(「基底、相関化」又は「基底、無相関化」)、並びに各セグメントごとの符号化パラメータの組(エントロピー符号選択及びパラメータ)を決定する。1又は複数のエントロピー符号器(2進、ライス、ハフマンなど)用のパラメータを計算し、各セグメントごとに各チャネル(基底、相関化、無相関化)についての最小の符号化ペイロードとなる符号器及びパラメータを選択することによって、現在のパーティションでの最適な符号化パラメータが決定される。各トリプレットに対して、最小の符号化ペイロードとなるチャネル・ペア「基底、相関化」又は「基底、無相関化」が選択される。選択されたチャネル・ペアを使用して、すべてのチャネルにわたって各セグメントごとに、グローバルな符号化パラメータの組が決定され得る。符号器は、グローバルな1組の符号化パラメータ又は異なる複数組の符号化パラメータを、どちらが最小の総符号化ペイロード(ヘッダ及びオーディオ・データ)を有するかに基づいて、選択する。
現在のパーティションに対する最適な符号化パラメータ組及びチャネル・ペアが決定された後、符号器は、すべてのチャネルにわたって各セグメント中の符号化ペイロードを計算する。最大セグメント・サイズに対する制約が満たされると仮定すると、符号器は、現在のパーティションに関するフレーム全体での総符号化ペイロードが、前のパーティションに関する現在の最適条件未満であるかどうかを判定する。真の場合、現在の符号化パラメータ組及び符号化ペイロードが記憶され、セグメント持続時間が増加される。このプロセスは、セグメント・サイズが最大サイズ制約に違反するまで、又はセグメント持続時間が増加してフレーム持続時間に達するまで、繰り返す。符号器は、選択されたチャネル・ペアの各オーディオ・チャネル及び対にされていないすべてのチャネル中の残差信号を、エントロピー符号化する(選択されたエントロピー符号器及びパラメータを使用する)。
本発明の上記及びその他の特徴及び利点は、添付の図面と併せて、好ましい実施形態の以下の詳細な説明から、当業者には明らかになるであろう。
本発明は、独立に復号可能な各データ単位に対する最大サイズの制約に従って圧縮性能が最適化される、可逆オーディオ・コーデックを提供する。オーディオ符号器は、マルチチャネル・オーディオでのチャネル数が増加し続けるにつれて、スケーリングを行う。
可逆オーディオ・コーデック
図2a及び図2bに示されているように、基本的な動作ブロックは、セグメント化及びエントロピー符号選択を除き、既存の可逆符号器及び復号器と同様である。マルチチャネルPCMオーディオ20は、分析ウィンドウ処理22にかけられ、この分析ウィンドウ処理では、フレーム内の各チャネル中のオーディオ・サンプルを無相関化することによって、一定の持続時間のフレームにデータをブロック化し、冗長性を除去する。残差信号を直接にエントロピー符号化する代わりに、本発明では、最適なセグメント化及びエントロピー符号選択プロセス24を実行する。このプロセスは、データを複数のセグメントにセグメント化し、セグメント持続時間、及び各セグメントごとの符号化パラメータ、例えば、特定のエントロピー符号器及びそのパラメータの選択を決定し、それにより、各セグメントが完全に復号可能であり且つ最大サイズ未満でなければならないという制約に従って、フレーム全体での符号化ペイロードを最小にする。それぞれの異なるチャネルに対して符号化パラメータの組が最適化され、また、グローバルな符号化パラメータの組に対して最適化されてもよい。次に、その特定の組の符号化パラメータに従って、各セグメントがエントロピー符号化26される。符号化されたデータ及びヘッダ情報は、ビット・ストリーム30へとパック28される。
図3に示されているように、ヘッダ32は、セグメント化及びエントロピー符号選択を実装するために、可逆コーデックに通常提供されるものに加えて追加の情報も含む。より具体的には、ヘッダは、セグメント数(NumSegments)や各セグメント中のサンプル数(NumSamplesInSegm)などの共通のヘッダ情報34、量子化無相関係数(QuantChDecorrCoeff[ ][ ])などのチャネル・セット・ヘッダ情報36及びそのチャネル・セットに関する現在のセグメント中のバイト数(ChSetByteCOns)などのセグメント・ヘッダ情報38、グローバル最適化フラグ(AllChSameParamFlag)、並びにライス符号化又は2進符号化のどちらが使用されるか及び符号化パラメータを示すエントロピー符号器フラグ(RiceCodeFlag[ ]、CodeParam[ ])を含む。
図2bに示されているように、復号動作を実施するために、ビット・ストリーム30がアンパック40されて、ヘッダ情報及び符号化データを抽出する。割り当てられた符号化パラメータに従って、各チャネルの各セグメントに対してエントロピー復号42が実行されて、残差信号を可逆再構築する。次に、これらの信号は、逆分析ウィンドウ処理44にかけられ、この処理では、予測と逆の処理(逆予測)を実行して、元のPCMオーディオ20を可逆再構築する。
分析ウィンドウ(analysis window)処理
図4a及び4bに示されているように、分析ウィンドウ処理22の例示的な一実施形態では、適応予測(adaptive prediction)46又は固定多項式予測(fixed polynomial prediction)48を選択して各チャネルを無相関化するが、これは、かなり一般的な手法である。後に図6を参照して詳細に述べるように、各チャネルごとに、最適な予測子次数(predictor order)が推定される。その次数(order)がゼロよりも大きい場合、適応予測が適用される。そうでない場合は、より単純な固定多項式予測が使用される。同様に、復号器では、逆分析ウィンドウ処理(分析ウィンドウ処理の逆の処理)44が、逆適応予測(適応予測の逆の処理)50又は逆固定多項式予測(固定多項式予測の逆の処理)52を選択して、残差信号からPCMオーディオを再構築する。適応予測子次数及び適応予測係数インデックス、並びに固定予測子次数が、チャネル・セット・ヘッダ情報へとパック53される。
相互チャネル(cross-channel)無相関化
本発明によれば、圧縮性能は、相互チャネル無相関化54を実施することによって、更に高められ得る。この相互チャネル無相関化は、M個の入力チャネルを、チャネル間の相関尺度に従って、チャネル・ペアに配列する。チャネルのうちの一方が、「基底(basis)」チャネルと呼ばれ、他方が「相関化(correlated)」チャネルと呼ばれる。それぞれのチャネル・ペアごとに無相関化チャネルが生成されて、「トリプレット」(基底、相関化、無相関化)を形成する。トリプレット(三つ組)を形成することで、更に圧縮性能を高めるために、セグメント化及びエントロピー符号化の最適化中に考慮され得る、可能な2つの対組合せ「基底、相関化」及び「基底、無相関化」を得る(図8a参照)。より単純であるがより効果の少ない手法としては、例えば、その差異が小さかった場合には、相関化チャネルを無相関化チャネルで置き換える手法がある。
元のMチャネルPCM 20及びM/2チャネル無相関化PCM 56は、どちらも適応予測及び固定多項式予測の処理に転送され、これらは、各チャネルごとに残差信号を生成する。図3に示されているように、ペアごとの無相関化プロセス中に実行されるソートの前のチャネルの元の順序を示すインデックス(OrigChOrder[ ])、及び量子化された無相関係数用の符号の存在を示す各チャネル・ペアごとのフラグPWChDecorrFlag[ ]が、図3のチャネル・セット・ヘッダ36に記憶される。
図4bに示されているように、逆分析ウィンドウ処理44の復号動作を実行するために、ヘッダ情報をアンパック58し、そして、ヘッダ情報、即ち、各チャネルごとの適応及び固定予測子次数に従って、残差が、逆固定多項式予測52又は逆適応予測50の処理を経由する。Mチャネル無相関化PCMオーディオ(M/2チャネルはセグメント化中に破棄される)は、逆相互チャネル無相関化(相互チャネル無相関化の逆)60の処理を経由し、この逆相互チャネル無相関化では、OrigChOrder[ ]インデックス及びPWChDecorrFlagg[ ]フラグをチャネル・セット・ヘッダから読み取り、MチャネルPCMオーディオ20を可逆に再構築する。
相互チャネル無相関化54を実行する例示的なプロセスが、図5に示されている。例を挙げると、PCMオーディオが、M=6個の異なるチャネルL、R、C、Ls、Rs、及びLFEとして提供され、これはまた、フレーム内に記憶された1つのチャネル・セット構成にも直接に対応する。その他のチャネル・セットは、例えば、7.1サラウンド・オーディオを生成するための、左のセンタ後方サラウンド及び右のセンタ後方サラウンドであり得る。このプロセスは、まず最初にフレーム・ループを開始し、チャネル・セット・ループを開始する(ステップ70)。各チャネルのゼロ遅延自己相関推定値(ステップ72)、及びチャネル・セット中のチャネル・ペアのすべての可能な組合せに対するゼロ遅延相互相関推定値(ステップ74)が、計算される。次に、チャネル・ペアごとの相関係数CORCOEFが、ゼロ遅延相互相関推定値を、その対中の関与するチャネルに関するゼロ遅延自己相関推定値の積で除算したものとして、概算される(ステップ76)。これらのCORCOEFは、最大の絶対値から最小の絶対値の順にソートされ、テーブルに記憶される(ステップ78)。テーブルの一番上から、すべてのペアが構成されるまで、対応するチャネル・ペア・インデックスが抽出される(ステップ80)。例えば、6つのチャネルが、それらのCORCOEFに基づいて、(L、R)、(Ls、Rs)、及び(C、LFE)として対にされ得る。
このプロセスでは、チャネル・ペア・ループを開始し(ステップ82)、より小さいゼロ遅延自己相関推定値をもつものとして「基底」チャネルを選択し、これは、より低いエネルギを示すものである(ステップ84)。この例では、L、Ls及びCチャネルが基底チャネルを形成する。チャネル・ペア無相関係数(ChPairDecorrCoeff)は、ゼロ遅延相互相関推定値を、基底チャネルのゼロ遅延自己相関推定値で除算したものとして計算される(ステップ86)。無相関化チャネルは、基底チャネル・サンプルにChPairDecorrCoeffを乗算し、その結果を、相関化チャネルの対応するサンプルから減算することによって、生成される(ステップ88)。チャネル・ペア及びそれらの関連した無相関化チャネルは、「トリプレット」(L、R、R−ChPairDecorrCoeff[1]*L)、(Ls、Rs、Rs−ChPairDecorrCoeff[2]*Ls)、(C、LFE、LFE−ChPairDecorrCoeff[3]*C)を定義する(ステップ89)。各チャネル・ペア(及び各チャネル・セット)のChPairDecorrCoeff[ ]と、ペア構成を定義するチャネル・インデックスとが、チャネル・セット・ヘッダ情報に記憶される(ステップ90)。このプロセスは、フレーム内の各チャネル・セットごとに、次いでウィンドウ化PCMオーディオ中の各フレームごとに、繰り返す(ステップ92)。
適応予測(adaptive prediction)
適応予測分析及び残差生成
線形予測では、オーディオ信号のサンプル間の相関を除去しようと試みる。線形予測の基本的原理は、前のサンプルs(n−1)、s(n−2)、...、を使用してサンプルs(n)の値を予測し、予測された値
Figure 0004934020
を元のサンプルs(n)から減算するものである。その結果得られる残差信号
Figure 0004934020
は理想的には、無相関となり、従って平坦な周波数スペクトルを有することになる。更に、残差信号は、より小さい差異を有することになり、その結果、元の信号は、そのデジタル表現のために必要なビットが少なくなることを示唆する。
オーディオ・コーデックの例示的な一実施形態では、FIR予測子モデルが次式で表される。
Figure 0004934020
上記の式で、Q{ }は量子化演算を表し、Mは予測子次数を表し、aは量子化予測係数である。可逆圧縮には特定の量子化Q{ }が必要である。なぜなら、元の信号は、様々な有限の精度のプロセッサ・アーキテクチャを使用して、復号側で再構築されるからである。Q{ }の定義は、符号器と復号器との両方に利用可能であり、元の信号の再構築は単に次式によって得られる。
Figure 0004934020
上記の式で、同じa量子化予測係数が、符号器と復号器との両方に利用可能であると仮定されている。各分析ウィンドウ(フレーム)ごとに新しい予測子パラメータの組が伝送され、それにより、この予測子が、時間変化するオーディオ信号構造に適合することが可能になる。
予測係数は、平均2乗予測残差を最小にするように設計される。量子化Q{ }により、予測子は非線形予測子になる。しかしながら、この例示的な実施形態では、量子化は24ビット精度で行われ、その結果得られる非線形効果は、予測子係数最適化中は無視されてよいと想定するのが妥当である。量子化Q{ }を無視すると、根底にある最適化問題は、信号自己相関シーケンスの遅延及び未知の予測子係数を伴う1次方程式の組として表され得る。この1組の1次方程式は、レビンソン−ダービン(LD)アルゴリズムを使用して効率的に解決され得る。
その結果得られる線形予測係数(LPC)は、符号化ストリームで効率的に伝送され得るように、量子化される必要がある。残念ながら、LPCの直接的な量子化は、最も効率的な手法ではない。なぜなら、小さい量子化誤差が、大きいスペクトル誤差を生じさせることがあるからである。LPCの代替表現が反射係数(RC)表現であり、これは、量子化誤差に対する感度が低い。また、この表現は、LDアルゴリズムからも得られ得る。LDアルゴリズムの定義により、RCは、1以下の大きさを有することが保証されている(数値的誤差は無視する)。RCの絶対値が1に近いときは、量子化RCに存在する量子化誤差に対する線形予測の感度が高くなる。その解決策は、1近くでより微細な量子化ステップを用いて、RCの非一様な量子化を行うことである。これは、以下の2つのステップで実施できる。
1)次のマッピング関数によって、RCを対数面積比(log-area ratio)(LAR)表現に変換する。
Figure 0004934020
ここで、logは、自然対数を表す。
2)LARを一様に量子化する。
RCからLARへの変換は、ステップ1及び2の結果が1付近で微細な量子化ステップを用いた非一様な量子化と同等になるように、パラメータの振幅スケールをラップ(wrap)させる。
図6aに示されているように、適応予測分析の例示的な一実施形態では、適応予測子パラメータを表現するために、量子化LARパラメータが使用され、符号化ビット・ストリームで伝送される。各入力チャネルのサンプルは互いに独立して処理され、従って、ここでの説明では、単一チャネルの処理についてのみ考慮することにする。
第1のステップでは、分析ウィンドウ(フレーム)の持続時間にわたって自己相関シーケンスを計算する(ステップ100)。フレーム境界での不連続によって生じるブロック化の影響を最小にするために、データがまずウィンドウ化される。指定された数の遅延(最大LP次数+1に等しい)に対する自己相関シーケンスが、ウィンドウ化されたデータ・ブロックから推定される。
1組の推定された自己相関遅延に、レビンソン−ダービン(LD)アルゴリズムが適用され、最大LP次数までの、1組の反射係数(RC)が計算される(ステップ102)。その(LD)アルゴリズムの中間結果は、最大LP次数までの、それぞれの線形予測次数ごとの予測残差の推定された分散(variance)の組である。次のブロックで、この1組の残差の分散を使用して、線形予測子(PrOr)次数が選択される(ステップ104)。
選択された予測子次数に対して、前述のマッピング関数を使用して、1組の反射係数(RC)が、1組の対数面積比パラメータ(LAR)に変換される(ステップ106)。0による除算を回避するために、変換前にRCの制限が導入される。
Figure 0004934020
ここで、Treshは、1に近いがそれ未満の数を表す。LARパラメータは、次のルールに従って量子化される(ステップ108)。
Figure 0004934020
ここで、QLARIndは、量子化されたLARインデックスを表し、
Figure 0004934020
は、x以下の最大の整数値を発見する演算を表し、qは、量子化ステップ・サイズを表す。例示的な実施形態では、領域[−8〜8]が、8ビット、即ち
Figure 0004934020
を使用して符号化され、従って、QLARIndが、次式に従って制限される。
Figure 0004934020
パック(ステップ110)する前に、次のマッピングを使用して、QLARIndが、符号付きの値から符号なしの値へと変換される。
Figure 0004934020
「RC LUT」ブロックでは、参照テーブルを使用して、単一ステップで、LARパラメータの量子化の逆の処理(逆量子化)及びRCパラメータへの変換が行われる(ステップ112)。参照テーブルは、次式によって与えられる、RCからLARへのマッピングの逆、即ち、LARからRCへのマッピングの量子化値からなる。
Figure 0004934020
参照テーブルは、0、1.5*q、2.5*q、...、127.5*qと等しいLARの量子化値で計算される。対応するRC値は、216のスケーリング後、16ビット符号なし整数に丸められ、Q16符号なし固定小数点数として128エントリのテーブルに記憶される。
そのテーブル及び量子化LARインデックスQLARIndから、量子化RCパラメータが、次式のように計算される。
Figure 0004934020
量子化RCパラメータQRCord(ord=1、...、PrOr)は、次のアルゴリズムに従って、量子化線形予測パラメータ(LPord(ord=1、...、PrOr))に変換される(ステップ114)。
For ord=0 to PrOr−1 do
For m=1 to ord do
ord+1,m=Cord,m+(QRCord+1*Cord,ord+1−m+(1<<15))>>16
end
ord+1,ord+1=QRCord+1
end
For ord=0 to PrOr−1 do
LPord+1=CPrOr,ord+1
end
量子化RC係数は、Q16符号付き固定小数点フォーマットで表現されたので、上記のアルゴリズムは、Q16符号付き固定小数点フォーマットでもLP係数を生成する。可逆復号器の計算経路は、24ビットの中間結果までサポートするように設計される。従って、Cord+1,mが計算されるたびに、飽和チェックを実行する必要がある。このアルゴリズムの何れかの段階で飽和が生じた場合、飽和フラグが設定され、特定のチャネルに対する適応予測子次数PrOrが、0にリセットされる(ステップ116)。PrOr=0であるこの特定のチャネルでは、適応予測の代わりに、固定係数予測が実行される(「固定係数予測」を参照)。符号なしLAR量子化インデックス(PackLARInd[n](n=1、...、PrOr[Ch]))は、PrOr[Ch]>0であるチャネルについてのみ、符号化ストリームにパックされることに留意されたい。
最後に、PrOr>0である各チャネルに対して適応線形予測が実行され、次式に従って、予測残差e(n)が計算される(ステップ118)。
Figure 0004934020
この例示的な実施形態における設計の目標は、すべてのフレームが「ランダム・アクセス点」となることなので、サンプル履歴は、フレーム間にわたって引き継がれない。その代わりに、予測は、フレーム内のPrOr+1サンプルにおいてのみ関わる。
適応予測残差e(n)は、更に、エントロピー符号化され、符号化ビット・ストリームへとパックされる。
復号側での逆適応予測
復号側において、適応予測の逆の処理(逆適応予測)を実行する最初のステップでは、ヘッダ情報をアンパックし、各チャネルCh=1、...、NumChについての適応予測次数PrOr[Ch]を抽出する(ステップ120)。次に、PrOr[Ch]>0であるチャネルに対して、符号なしバージョンのLAR量子化インデックス(PackLARInd[n](n=1、...、PrOr[Ch]))が抽出される。予測次数PrOr[Ch]>0である各チャネルChに対して、次のマッピングを使用して、符号なしPackLARInd[n]が、符号付き値QLARInd[n]にマッピングされる。
Figure 0004934020
上記の式で、「>>」は、整数の右シフト演算を表す。
Quant RC LUTを使用して、単一ステップで、LARパラメータの逆量子化及びRCパラメータへの変換が行われる(ステップ122)。これは、符号化側で定義されたのと同じ参照テーブルTABLE{ }である。各チャネルChごとの量子化反射係数(QRC[n](n=1、...、PrOr[Ch]))が、TABLE{ }及び量子化LARインデックスQLARInd[n]から、次式のように計算される。
Figure 0004934020
各チャネルChについて、次のアルゴリズムに従って、量子化RCパラメータQRCord(ord=1、...、PrOr[Ch])が、量子化線形予測パラメータ(LPord、ord=1、...、PrOr[Ch])に変換される(ステップ124)。
For ord=0 to PrOr−1 do
For m=1 to ord do
ord+1,m=Cord,m+(QRCord+1*Cord,ord+1−m+(1<<15))>>16
end
ord+1,ord+1=QRCord+1
end
For ord=0 to PrOr−1 do
LPord+1=CPrOr,ord+1
end
符号化側で、中間結果の飽和の可能性が除去される。従って、復号側では、各Cord+1,mの計算後に飽和チェックを行う必要はない。
最後に、PrOr[Ch]>0である各チャネルについて、適応線形予測の逆の処理(逆適応線形予測)が実行される(ステップ126)。予測残差e(n)が以前に抽出されてエントロピー復号されると仮定すると、再構築される元の信号s(n)は、次式に従って計算される。
Figure 0004934020
サンプル履歴はフレーム間で保持されないので、逆適応予測は、フレーム内の(PrOr[Ch]+1)サンプルから開始することになる。
固定係数予測
線形予測子の非常に単純な固定係数形態が、有用であるとわかった。固定予測係数は、Shortenによって最初に提案された、非常に単純な多項式近似方法(T.Robinson.SHORTENの「Simple lossless and near lossless waveform compression.」、Technical report 156、Cambridge University Engineering Department、Trumpington Street、Cambridge CB2 1PZ、UK、1994年12月)に従って得られる。このケースでは、予測係数は、p次多項式を最後のp個のデータ点に適合させることによって指定されるものである。4つの近似に対して詳しく述べると、次式のようになる。
Figure 0004934020
これらの多項式近似の興味深い特性は、その結果として得られる残差信号
Figure 0004934020
が、次の再帰的方式で効率的に実現され得ることである。
[n]=s[n]
[n]=e[n]−e[n−1]
[n]=e[n]−e[n−1]
[n]=e[n]−e[n−1]
固定係数予測分析は、フレームごとに適用され、前のフレーム(ek[−1]=0)で計算されたサンプルに依存しない。フレーム全体にわたる大きさ合計の最も小さい残差セットが、最良の近似と定義される。最適な残差次数が、各チャネルについて別々に計算され、固定予測次数(FPO[Ch])としてストリームにパックされる。現在のフレーム内の残差eFPO[Ch][n]が、更にエントロピー符号化され、ストリームにパックされる。
復号側での固定係数予測の逆のプロセスは、サンプリング例nでのk次残差の計算のための次の次数再帰式によって定義される。
[n]=ek+1[n]+e[n−1]
ここで、所望される元の信号s[n]は、次式
s[n]=e[n]
で与えられ、ここで、各k次残差に対して、e[−1]=0である。
一例として、3次固定係数予測の再帰が提示される。ここでは、残差e[n]が符号化され、ストリームで伝送され、復号側でアンパックされる。
[n]=e[n]+e[n−1]
[n]=e[n]+e[n−1]
[n]=e[n]+e[n−1]
s[n]=e[n]
セグメント化及びエントロピー符号選択
セグメント化及びエントロピー符号選択24の例示的な一実施形態が、図7及び図8に示されている。最適なセグメント持続時間、符号化パラメータ(エントロピー符号選択及びパラメータ)、及びチャネル・ペアを確定するために、複数の異なるセグメント持続時間に対して符号化パラメータ及びチャネル・ペアが決定され、それらの候補から、各セグメントが独立に復号可能であり且つ最大サイズを超えないという制約を満たす、1フレームあたりの最小符号化ペイロードをもつものが選択される。もちろん、「最適な」セグメント化、符号化パラメータ、及びチャネル・ペアは、符号化プロセスの制約及びセグメント・サイズに対する制約に従う。例えば、この例示的なプロセスでは、フレーム内のすべてのセグメントの持続時間が等しく、ダイアディック・グリッド(dyadic grid)に対して最適な持続時間の検索が行われ、フレーム全体にわたってチャネル・ペア選択が有効である。符号器の複雑化及びオーバヘッド・ビットの増加という犠牲を払うことで、持続時間は、フレーム内で変化させることが可能になり、最適な持続時間の検索をより細かくでき、チャネル・ペア選択をセグメントごとに行わせることもできる。
例示的なプロセスでは、まず、セグメント中の最小サンプル数、セグメントの最大許容サイズ、最大セグメント数、及び最大パーティション数などの、セグメント・パラメータを初期設定する(ステップ150)。その後、この処理では、0から、最大パーティション数−1のインデックスが付けられるパーティション・ループを開始し(ステップ152)、セグメント数、セグメント中のサンプル数、及びパーティション中で消費されるバイト数を含むパーティション・パラメータを、初期設定する(ステップ154)。この特定の実施形態では、セグメントは、等しい持続時間であり、セグメント数は2の累乗でスケーリングされ、各パーティションが繰返す。セグメント数は、好ましくは、最大値に初期設定され、従って最小持続時間となる。しかしながら、このプロセスでは、可変持続時間のセグメントを使用することもできる。これは、オーディオ・データをよりよく圧縮し得るがオーバヘッドが増すという犠牲を払う。更に、セグメント数は、必ずしも2の累乗に限定される必要はなく、また、最小持続時間から最大持続時間まで検索される必要もない。
初期設定された後、これらのプロセスでは、チャネル・セット・ループを開始し(ステップ156)、各セグメントについての最適なエントロピー符号化パラメータ及びチャネル・ペアの選択、並びに対応するバイト消費を決定する(ステップ158)。符号化パラメータPWChDecorrFlag[ ][ ]、AllChSameParamFlag[ ][ ]、RiceCodeFlag[ ][ ][ ]、CodeParam[ ][ ][ ]、及びChSetByteCons[ ][ ]が記憶される(ステップ160)。これは、チャネル・セット・ループが終了するまで、各チャネル・セットに対して繰り返される(ステップ162)。
このプロセスは、セグメント・ループを開始し(ステップ164)、すべてのチャネル・セットにわたって各セグメント中のバイト消費(SegmByteCons)を計算し(ステップ166)、バイト消費(ByteConsInPart)を更新する(ステップ168)。この時点で、セグメントのサイズは、最大サイズ制約と比較される(ステップ170)。制約に違反した場合、現在のパーティションが破棄される。更に、このプロセスは、最小持続時間と設定して開始するので、セグメント・サイズが大きすぎると、パーティション・ループは終了し(ステップ172)、その時点での最良の解(持続時間、チャネル・ペア、符号化パラメータ)が、ヘッダにパックされ(ステップ174)、このプロセスは次のフレームへ移る。最小セグメント・サイズに対する制約が満たされない場合(ステップ176)、最大サイズの制約を満たすことができないので、このプロセスは終了し、エラーを報告する(ステップ178)。制約が満たされると仮定すると、このプロセスは、セグメント・ループが終了するまで、現在のパーティション中の各セグメントに対して繰り返される(ステップ180)。
セグメント・ループが完了し、ByteConsinPartで表されるフレーム全体に対するバイト消費が計算された後、このペイロードは、前のパーティション繰返しからの現在の最小ペイロード(MinByteInPart)と比較される(ステップ182)。現在のパーティションが、改善されたことを表している場合、現在のパーティション(PartInd)が最適なパーティション(OptPartind)として記憶され、最小ペイロードが更新される(ステップ184)。これらのパラメータ及び記憶された符号化パラメータは、次に、現在の最適解として記憶される(ステップ186)。これは、パーティション・ループが終了する(ステップ172)まで繰り返され、その終了時点で、セグメント化情報及び符号化パラメータが、図3に示されるように、ヘッダにパックされる(ステップ150)。
現在のパーティションについてのチャネル・セットに対して最適な符号化パラメータ及び関連したビット消費を決定する(ステップ158)ための例示的な一実施形態が、図8a及び図8bに示されている。このプロセスではセグメント・ループ(ステップ190)及びチャネル・ループ(ステップ192)を開始し、このプロセスにおけるチャネルのここでの現在の例は下記のようである。
Ch1:L
Ch2:R
Ch3:R−ChPairDecorrCoeff[l]*L
Ch4:Ls
Ch5:Rs
Ch6:Rs−ChPairDecorrCoeff[2]*Ls
Ch7:C
Ch8:LFE
Ch9:LFE−ChPairDecorrCoeff[3]*C
このプロセスでは、基底及び相関化チャネルに関する、エントロピー符号のタイプ、対応する符号化パラメータ、及び対応するビット消費を決定する(ステップ194)。この例において、このプロセスでは、2進符号及びライス符号に対する最適な符号化パラメータを計算し、次に、チャネル及び各セグメントについてビット消費が最低のものを選択する(ステップ196)。一般に、最適化は、1つ、2つ、又はそれより多くの可能なエントロピー符号に対して行うことができる。2進符号では、ビット数は、現在のチャネルのセグメント中の全サンプルの最大絶対値から計算される。ライス符号化パラメータは、現在のチャネルのセグメント中の全サンプルの平均絶対値から計算される。選択に基づいて、RiceCodeFlagが設定され、BitConsが設定され、CodeParamが、NumBitsBinary又はRiceKParamに設定される(ステップ198)。
処理される現在のチャネルが相関されたチャネルである場合(ステップ200)、対応する無相関化チャネルに対して同じ最適化が繰り返され(ステップ202)、最良のエントロピー符号が選択され(ステップ204)、符号化パラメータが設定される(ステップ206)。このプロセスは、チャネル・ループが終了するまで繰り返し(ステップ208)、セグメント・ループが終了する(ステップ210)。
この時点で、各セグメントについて及び各チャネルについての最適な符号化パラメータが決定されている。これらの符号化パラメータ及びペイロードは、チャネル・ペア「基底、相関化」に対して、元のPCMオーディオから返されることができる。しかしながら、トリプレット中の、「基底、相関化」チャネルか「基底、無相関化」チャネルかを選択することによって、圧縮性能は改善され得る。
3つのトリプレットに対して、チャネル・ペア「基底、相関化」か「基底、無相関化」かを決定するために、チャネル・ペアループが開始され(ステップ211)、全体的なフレーム・ビット消費に対しての、各相関化チャネル(Ch2、Ch5、及びCh8)及び各無相関化チャネル(Ch3、Ch6、及びCh9)の寄与が計算される(ステップ212)。それぞれの相関化チャネルについてのフレーム消費寄与が、対応する無相関化チャネルについてのフレーム消費寄与と比較され、即ち、Ch2対Ch3、Ch5対Ch6、及びCh8対Ch9というように比較される(ステップ214)。無相関化チャネルの寄与が相関化チャネルよりも大きい場合、PWChDecorrrFlagが、偽に設定される(ステップ216)。そうでない場合は、相関化チャネルが無相関化チャネルで置き換えられ(ステップ218)、PWChDecorrrFlagが真に設定され、チャネル・ペアが「基底、無相関化」として構成される(ステップ220)。
これらの比較に基づいて、このアルゴリズムは以下の選択、即ち、
1.対応する基底チャネルCh1と対となるチャネルとしてCh2又はCh3の選択、
2.対応する基底チャネルCh4と対となるチャネルとしてCh5又はCh6の選択、
3.対応する基底チャネルCh7と対となるチャネルとしてCh8又はCh9の選択
を行う。
これらのステップは、ループが終了するまで、すべてのチャネル・ペアに対して繰り返される(ステップ222)。
この時点で、各セグメント及び異なる各チャネルについての最適な符号化パラメータ、並びに最適なチャネル・ペアが決定されている。それぞれの異なるチャネル・ペア及びペイロードに対してのこれらの符号化パラメータは、パーティション・ループへ返されることができる。しかしながら、すべてのチャネルにわたって各セグメントについて1組のグローバル符号化パラメータを計算することによって、圧縮性能の向上が可能となり得る。せいぜい、ペイロードの符号化データ部分は、各チャネルについての最適化された符号化パラメータと同じサイズにしかならず、おそらくは幾分大きくなる。しかしながら、オーバヘッド・ビットにおける低減は、データの符号化効率を相殺するより大きくなり得る。
同じチャネル・ペアを使用して、このプロセスでは、セグメント・ループを開始し(ステップ230)、異なる複数組の符号化パラメータを使用してすべてのチャネルに対するセグメントあたりのビット消費(ChSetByteCons[seg])を計算し(ステップ232)、ChSetByteCons[seg]を記憶する(ステップ234)。次に、すべてのチャネルにわたることを除いて以前のように、同じ2進符号計算及びライス符号計算を使用して、すべてのチャネルにわたるセグメントに対して、グローバルな符号化パラメータ(エントロピー符号選択及びパラメータ)の組が決定される(ステップ236)。最良のパラメータが選択され、バイト消費(SegmByteCons)が計算される(ステップ238)。SegmByteConsは、CHSetByteCons[seg]と比較される(ステップ240)。グローバル・パラメータを使用してもビット消費が低減しない場合、AllChSamParamFlag[seg]が偽に設定される(ステップ242)。そうでない場合、AllChSameParamFlag[seg]が真に設定され(ステップ244)、グローバル符号化パラメータ及び1セグメントあたりの対応するビット消費が保存される(ステップ246)。このプロセスは、セグメント・ループの終了に到達するまで、繰り返される(ステップ248)。プロセス全体は、チャネル・セット・ループが終了するまで繰り返す(ステップ250)。
符号化プロセスは、少数のフラグの制御によって異なる機能が無効化され得るように、構成される。例えば、一つのフラグは、ペアのチャネル無相関分析が実行されるか否かを、制御する。別のフラグは、適応予測(固定予測に関しては更に別のフラグ)分析が実行されるか否かを、制御する。更に、ある一つのフラグは、すべてのチャネルにわたるグローバル・パラメータの検索が実行されるか否かを、制御する。また、パーティション数及び最小セグメント持続時間を設定する(最も単純な形態では、所定のセグメント持続時間をもつ一つのパーティションとすることができる)ことによって、セグメント化も制御可能である。基本的に、符号器における少数のフラグを設定することにより、符号器は、単純なフレーム化及びエントロピー符号化にすることができる。
後方互換(バックワード・コンパチブル)可逆オーディオ・コーデック
可逆コーデックは、不可逆コア符号器と組み合わせて、「拡張符号器」として使用され得る。「不可逆(lossy)」コア符号ストリームが、コア・ビット・ストリームとしてパックされ、可逆符号化差信号が、別になった拡張ビット・ストリームとしてパックされる。拡張された可逆機能をもつ復号器で復号した後、不可逆及び可逆のストリームが組み合わせされて、可逆再構築信号を構築する。前の世代の復号器では、可逆ストリームが無視され、コア「不可逆」ストリームが復号されて、コアストリームの帯域幅及び信号対雑音比特性をもつ、高品質のマルチチャネル・オーディオ信号を提供した。
図9は、マルチチャネル信号の1つのチャネルに関する後方互換可逆符号器400のシステム・レベル図を示す。入力402で、デジタル化オーディオ信号、適切にはMビットPCMオーディオ・サンプルが提供される。好ましくは、デジタル化オーディオ信号は、改変された不可逆コア符号器404のものを超えるサンプリング・レート及び帯域幅を有する。一実施形態では、デジタル化オーディオ信号のサンプリング・レートは、96kHz(サンプリングされたオーディオについての48kHzの帯域幅に相当する)である。また、入力オーディオは、各チャネルが96kHzでサンプリングされるマルチチャネル信号とすることができ、それが好ましいことも、理解されるべきである。以下の議論は、一つのチャネルの処理に的を絞って行うが、多数のチャネルへの拡張は単純明快である。ノード406で入力信号が複製され、並列の枝路で処理される。信号経路の第1の枝路では、改変された不可逆の広帯域符号器404が、信号を符号化する。以下に詳述される改変されたコア符号器404は、符号化したコア・ビット・ストリーム408を生成し、このコア・ビット・ストリームは、パッカ又はマルチプレクサ410へと運ばれる。また、コア・ビット・ストリーム408は、改変されたコア復号器412へも伝達され、このコア復号器は、出力として、改変された再構築されたコア信号414を生成する。
一方、平行経路中の入力デジタル化オーディオ信号402は、再構築オーディオ・ストリームへもたらされる遅延と実質的に等しい補償遅延416を受け(改変符号器及び改変復号器による)、遅延されたデジタル化オーディオ・ストリームを生じさせる。加算ノード420で、遅延デジタル化オーディオ・ストリーム414から、オーディオ・ストリーム400が減算される。加算ノード420は、元の信号及び再構築コア信号を表す差信号422を生成する。純粋な「可逆」符号化を実現するためには、可逆符号化技法を用いて、差信号を符号化し、伝送する必要がある。従って、差信号422は可逆符号器424で符号化され、拡張ビット・ストリーム426はパッカ410でコア・ビット・ストリーム408とパックされて、出力ビット・ストリーム428が生成される。
可逆符号化では、可逆符号器の必要性に対応するために、可変ビット・レートである拡張ビット・ストリーム426を生成することに留意されたい。次に、パックされたストリームは、オプションで、チャネル符号化を含めた更なる複数層の符号化の処理を受け、次いで伝送されたり記録されたりする。この開示では、記録は、チャネルを介した伝送とみなされてもよいことに留意されたい。
コア符号器404は「改変」と記述されているが、これは、拡張された帯域幅を扱うことのできる実施形態では、コア符号器は改変(改造)を必要とすることになるからである。その符号器内の64帯域分析フィルタ・バンク430は、その出力データの半分を破棄し(432)、コア・サブバンド符号器434は、下位の32周波数帯域のみを符号化する。この破棄された情報は、何れにせよ信号スペクトルの上半分を再構築することはできないであろう従来からの復号器(legacy decoder、レガシー復号器)には、重要ではない。残りの情報は、未改変の符号器により符号化されて、後方互換性のコア出力ストリームを形成する。しかしながら、48kHzのサンプリング・レート以下で動作する別の実施形態では、コア符号器は、実質的に未改変の従来のコア符号器でもよい。同様に、レガシー復号器のサンプリング・レートを超える動作では、改変コア復号器412は、下位32サブバンドのサンプルを復号するコア・サブバンド復号器436を含む。改変コア復号器は、下位32サブバンドからサブバンド・サンプルをとり、上位32帯域に対して伝送されないサブバンド・サンプルをゼロにし(zero out、ゼロ・アウトし)(438)、64帯域QMF合成フィルタ440を使用して64帯域すべてを再構築する。従来のサンプリング・レート(例えば、48kHz以下)での動作では、コア復号器は、従来のコア復号器又は同等の物の、実質的に未改変のものとすることができる。実施形態によっては、サンプリング・レートの選択は、符号化の時点で行われてもよく、符号化モジュール及び復号モジュールは、その時点でソフトウェアによって所望されるように再構築されてもよい。
差信号を符号化するために可逆符号器が使用されているので、単純なエントロピー符号でも十分であるように思われる。しかしながら、既存の不可逆コア・コーデックに対するビット・レート制限があるので、可逆ビット・ストリームを提供するのに必要とされる相当な量の合計ビットが、なおも残る。更に、コア・コーデックの帯域幅制限があるので、差信号中の24kHzを超える情報内容は、なおも相関させられている(例えば、トランペット、ギター、トライアングルなどを含む多くの高調波成分は、30kHzをはるかに越える)。従って、圧縮性能を高める高性能の可逆コーデックは価値が高まる。更に、用途によっては、コア及び拡張ビット・ストリームは、復号可能な単位が最大サイズを超えてはならないという制約を、なおも満たさなければならない。本発明の可逆コーデックは、圧縮性能の改善と、これらの制約を満たすための柔軟性の改善との両方を提供する。
例を挙げると、8チャネルの24ビット96KHzPCMオーディオでは、18.5Mbpsを必要とする。可逆圧縮では、これを約9Mbpsまで低減させることができる。DTS Coherent Acoustics(DTSコヒーレント・アコースティックス)は、コアを1.5Mbpsで符号化し、7.5Mbpsの差信号を残しておく。最大2キロバイトのセグメント・サイズでは、平均セグメント持続時間は、2048*8/7500000=2.18ミリ秒、即ち、96kHzでおよそ209サンプルである。最大サイズを満たすための不可逆コアの典型的なフレーム・サイズは、10〜20ミリ秒である。
システム・レベルでは、既存の不可逆コーデックとの後方互換性を維持しつつ、拡張された帯域幅で追加のオーディオ・チャネルを可逆的に符号化するために、可逆コーデックと後方互換可逆コーデックとが組み合わされてもよい。例えば、18.5Mbpsでの8チャネルの96kHzのオーディオは、1.5Mbpsで5.1チャネルの48kHzのオーディオを含むように、可逆符号化され得る。コア+可逆符号器を使用して、5.1チャネルを符号化することになる。可逆符号器が使用されて、5.1チャネル中の差信号を符号化する。残りの2チャネルは、異なるチャネル・セットで可逆符号器を使用して符号化される。セグメント持続時間を最適化しようとするときには、すべてのチャネル・セットを考慮する必要があるので、すべての符号化ツールが何らかの方法で使用される。互換(コンパチブル)復号器は、8チャネルすべてを復号し、96kHzの18.5Mbpsオーディオ信号を可逆的に再構築する。旧来の復号器は、5.1チャネルのみを復号し、48kHzの1.5Mbpsを再構築することになる。
一般に、復号器の複雑さをスケーリングするために、1より多くの純粋な可逆チャネル・セットが提供され得る。例えば、10.2のオリジナル・ミックスでは、チャネル・セットは、以下のように編成され得る。
− CHSET1は、5.1(埋込まれた10.2から5.1へのダウン・ミックスを用いる)を搬送し、「コア+可逆」を使用して符号化される。
− CHSET1+CHSET2は、7.1(埋込まれた10.2から7.1へのダウン・ミックスを用いる)を搬送し、ここでCHSET2は可逆を使用して2チャネルを符号化する。
− CHSET1+CHSET2+CHSET3は、完全ディスクリートの10.2ミックスを搬送し、ここでCHSET3は、可逆のみ使用して残りの3.1チャネルを符号化する。
5.1丁度を復号することのできる復号器は、CHSET1のみの復号を行い、他のすべてのチャネル・セットを無視する。7.1丁度を復号することのできる復号器は、CHSET1+CHSET2を復号し、他のすべてのチャネル・セットを無視する。・・・。
更に、「不可逆+可逆コア」は、5.1だけに限定されない。現在の実装形態では、不可逆(コア+Xチャネル)及び可逆を使用して6.1までサポートし、任意のチャネル・セット数に編成される一般的なm.nチャネルをサポートすることもできる。不可逆符号化は、5.1後方互換コアを有することになり、不可逆コーデックを用いて符号化される他のすべてのチャネルは、XXチャネル拡張となることになる。これにより、追加のチャネルをサポートしながらも、既存の復号器との後方互換性を維持するための相当な設計柔軟性を伴って、全体的な可逆符号化がもたらされる。
本発明の幾つかの例示的な実施形態が示され、説明されているが、多くの変形形態及び代替実施形態が、当業者には想到されよう。そのような変形形態及び代替実施形態は、企図されており、特許請求の範囲に定義される本発明の趣旨及び範囲から逸脱することなく実施され得る。
図1は、上述のように、標準の可逆オーディオ符号器に関するブロック図である。 図2aは、本発明による可逆オーディオ符号器のブロック図である。 図2bは、本発明による可逆オーディオ復号器のブロック図である。 図3は、セグメント化及びエントロピー符号選択に関連したヘッダ情報の図である。 図4aは、分析ウィンドウ処理のブロック図である。 図4bは、分析ウィンドウ処理を逆にしたブロック図である。 図5は、相互チャネル無相関化の流れ図である。 図6aは、適応予測分析及び処理のブロック図である。 図6bは、適応予測処理を逆にしたブロック図である。 図7aおよび図7bは、最適なセグメント化及びエントロピー符号選択の流れ図である。 図7aおよび図7bは、最適なセグメント化及びエントロピー符号選択の流れ図である。 図8aおよび図8bは、チャネル・セットに対するエントロピー符号選択の流れ図である。 図8aおよび図8bは、チャネル・セットに対するエントロピー符号選択の流れ図である。 図9a及び9bは、コア+可逆拡張コーデックのブロック図である。

Claims (4)

  1. PCMオーディオ・データを可逆符号化する方法であって、
    前記マルチチャネル・オーディオを等しい持続時間のフレームへとブロック化するステップと、
    基底チャネル及び相関化チャネルを含むチャネル・ペアを配列するように前記マルチチャネル・オーディオを処理するステップと、
    を含み、チャネルがなくなるまで2つの最も相関したチャネルが最初のペア及びそれ以降のペアを形成し、奇数のチャネルが残っている場合には該チャネルが基底チャネルを形成し、
    さらに、当該方法は、
    前記チャネル・ペアについてゼロ遅延相互相関推定値を決定するステップと、
    前記基底チャネルについてゼロ遅延自己相関推定値を決定するステップと、
    前記ゼロ遅延相互相関推定値を前記基底チャネルの前記ゼロ遅延自己相関推定値で割ることにより無相関係数を決定するように、前記配列されたチャネルペアを処理するステップと、
    少なくとも1つの3つ組「基底、相関化、無相関化」を形成するように、各チャネル・ペアについて無相関化チャネルを生成するステップと、
    を含み、前記無相関化チャネルは、前記基底チャネルに前記無相関係数を掛け、その結果を相関化チャネルから引くことにより、生成されるものであり、
    前記基底及び相関化チャネルと、前記基底及び無相関化チャネルとの可能なチャネル・ペアの組合せに基づいて、符号化パラメータを選択するステップと、
    各前記3つ組から、チャネル・ペア「基底、相関化」又は「基底、無相関化」を選択するステップと、
    前記符号化パラメータに従って、選択された前記ペアの各チャネルをエントロピー符号化するステップと、
    符号化した前記オーディオ・データをビット・ストリームへとパックするステップと
    含むことを特徴とする方法。
  2. 請求項1に記載の方法であって、前記2つの最も相関した相関化チャネルが第1のペアを形成し、以下同様に、前記チャネルがなくなるまでペアが形成されてき、端数のチャネルが残る場合はそれが基底チャネルを形成する、方法。
  3. 請求項2に記載の方法であって、各ペアにおいて、より小さいゼロ遅延自己相関推定値を有する前記チャネルが前記基底チャネルである、方法。
  4. 請求項3に記載の方法であって、前記無相関化チャネルは、前記基底チャネルに無相関係数を乗算し、その結果を前記相関化チャネルから減算することによって生成される、方法。
JP2007505046A 2004-03-25 2005-03-21 可逆マルチチャネル・オーディオ・コーデック Active JP4934020B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US55618304P 2004-03-25 2004-03-25
US60/556,183 2004-03-25
US10/911,062 US7272567B2 (en) 2004-03-25 2004-08-04 Scalable lossless audio codec and authoring tool
US10/911,067 2004-08-04
US10/911,062 2004-08-04
US10/911,067 US7392195B2 (en) 2004-03-25 2004-08-04 Lossless multi-channel audio codec
PCT/US2005/009275 WO2005098823A2 (en) 2004-03-25 2005-03-21 Lossless multi-channel audio codec

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2011284818A Division JP5551677B2 (ja) 2004-03-25 2011-12-27 可逆マルチチャネル・オーディオ・コーデック

Publications (2)

Publication Number Publication Date
JP2007531012A JP2007531012A (ja) 2007-11-01
JP4934020B2 true JP4934020B2 (ja) 2012-05-16

Family

ID=38072128

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2007505046A Active JP4934020B2 (ja) 2004-03-25 2005-03-21 可逆マルチチャネル・オーディオ・コーデック
JP2011284818A Active JP5551677B2 (ja) 2004-03-25 2011-12-27 可逆マルチチャネル・オーディオ・コーデック
JP2013100133A Active JP5593419B2 (ja) 2004-03-25 2013-05-10 可逆マルチチャネル・オーディオ・コーデック
JP2013100134A Active JP5599913B2 (ja) 2004-03-25 2013-05-10 可逆マルチチャネル・オーディオ・コーデック

Family Applications After (3)

Application Number Title Priority Date Filing Date
JP2011284818A Active JP5551677B2 (ja) 2004-03-25 2011-12-27 可逆マルチチャネル・オーディオ・コーデック
JP2013100133A Active JP5593419B2 (ja) 2004-03-25 2013-05-10 可逆マルチチャネル・オーディオ・コーデック
JP2013100134A Active JP5599913B2 (ja) 2004-03-25 2013-05-10 可逆マルチチャネル・オーディオ・コーデック

Country Status (7)

Country Link
US (5) US7272567B2 (ja)
JP (4) JP4934020B2 (ja)
KR (1) KR101307693B1 (ja)
CN (2) CN1961351B (ja)
ES (3) ES2537820T3 (ja)
HK (2) HK1099597A1 (ja)
RU (2) RU2387022C2 (ja)

Families Citing this family (126)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7536305B2 (en) * 2002-09-04 2009-05-19 Microsoft Corporation Mixed lossless audio compression
US7378586B2 (en) * 2002-10-01 2008-05-27 Yamaha Corporation Compressed data structure and apparatus and method related thereto
JP4679049B2 (ja) 2003-09-30 2011-04-27 パナソニック株式会社 スケーラブル復号化装置
US7272567B2 (en) * 2004-03-25 2007-09-18 Zoran Fejzo Scalable lossless audio codec and authoring tool
US7536302B2 (en) * 2004-07-13 2009-05-19 Industrial Technology Research Institute Method, process and device for coding audio signals
US7930184B2 (en) * 2004-08-04 2011-04-19 Dts, Inc. Multi-channel audio coding/decoding of random access points and transients
DE102004042819A1 (de) * 2004-09-03 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals
EP1785985B1 (en) * 2004-09-06 2008-08-27 Matsushita Electric Industrial Co., Ltd. Scalable encoding device and scalable encoding method
US7466867B2 (en) * 2004-11-26 2008-12-16 Taiwan Imagingtek Corporation Method and apparatus for image compression and decompression
US8265929B2 (en) * 2004-12-08 2012-09-11 Electronics And Telecommunications Research Institute Embedded code-excited linear prediction speech coding and decoding apparatus and method
US20060235683A1 (en) * 2005-04-13 2006-10-19 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Lossless encoding of information with guaranteed maximum bitrate
US7991610B2 (en) * 2005-04-13 2011-08-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Adaptive grouping of parameters for enhanced coding efficiency
EP1876585B1 (en) * 2005-04-28 2010-06-16 Panasonic Corporation Audio encoding device and audio encoding method
DE602006011600D1 (de) * 2005-04-28 2010-02-25 Panasonic Corp Audiocodierungseinrichtung und audiocodierungsverfahren
US8170883B2 (en) * 2005-05-26 2012-05-01 Lg Electronics Inc. Method and apparatus for embedding spatial information and reproducing embedded signal for an audio signal
EP1908057B1 (en) * 2005-06-30 2012-06-20 LG Electronics Inc. Method and apparatus for decoding an audio signal
US8494667B2 (en) * 2005-06-30 2013-07-23 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
CA2613731C (en) 2005-06-30 2012-09-18 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US7830921B2 (en) * 2005-07-11 2010-11-09 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signal
JP4859925B2 (ja) * 2005-08-30 2012-01-25 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
JP4568363B2 (ja) * 2005-08-30 2010-10-27 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
ATE455348T1 (de) * 2005-08-30 2010-01-15 Lg Electronics Inc Vorrichtung und verfahren zur dekodierung eines audiosignals
US7788107B2 (en) * 2005-08-30 2010-08-31 Lg Electronics Inc. Method for decoding an audio signal
JP5478826B2 (ja) * 2005-10-03 2014-04-23 シャープ株式会社 表示装置
US7672379B2 (en) * 2005-10-05 2010-03-02 Lg Electronics Inc. Audio signal processing, encoding, and decoding
US7696907B2 (en) * 2005-10-05 2010-04-13 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
KR100878833B1 (ko) * 2005-10-05 2009-01-14 엘지전자 주식회사 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치
US7646319B2 (en) * 2005-10-05 2010-01-12 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
CN101283249B (zh) * 2005-10-05 2013-12-04 Lg电子株式会社 信号处理的方法和装置以及编码和解码方法及其装置
US7751485B2 (en) * 2005-10-05 2010-07-06 Lg Electronics Inc. Signal processing using pilot based coding
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
US7653533B2 (en) * 2005-10-24 2010-01-26 Lg Electronics Inc. Removing time delays in signal paths
US7752053B2 (en) * 2006-01-13 2010-07-06 Lg Electronics Inc. Audio signal processing using pilot based coding
US8260620B2 (en) * 2006-02-14 2012-09-04 France Telecom Device for perceptual weighting in audio encoding/decoding
US8306827B2 (en) * 2006-03-10 2012-11-06 Panasonic Corporation Coding device and coding method with high layer coding based on lower layer coding results
JP4193865B2 (ja) * 2006-04-27 2008-12-10 ソニー株式会社 デジタル信号切換え装置及びその切換え方法
EP1852848A1 (en) * 2006-05-05 2007-11-07 Deutsche Thomson-Brandt GmbH Method and apparatus for lossless encoding of a source signal using a lossy encoded data stream and a lossless extension data stream
EP1852849A1 (en) * 2006-05-05 2007-11-07 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
KR101322392B1 (ko) * 2006-06-16 2013-10-29 삼성전자주식회사 스케일러블 코덱의 부호화 및 복호화 방법 및 장치
EP1881485A1 (en) * 2006-07-18 2008-01-23 Deutsche Thomson-Brandt Gmbh Audio bitstream data structure arrangement of a lossy encoded signal together with lossless encoded extension data for said signal
US7907579B2 (en) * 2006-08-15 2011-03-15 Cisco Technology, Inc. WiFi geolocation from carrier-managed system geolocation of a dual mode device
CN1920947B (zh) * 2006-09-15 2011-05-11 清华大学 用于低比特率音频编码的语音/音乐检测器
US7471218B2 (en) * 2006-09-18 2008-12-30 National Semiconductor Corporation Methods and systems for efficiently storing and retrieving streaming data
JP4325657B2 (ja) * 2006-10-02 2009-09-02 ソニー株式会社 光ディスク再生装置、信号処理方法、およびプログラム
US8260070B1 (en) * 2006-10-03 2012-09-04 Adobe Systems Incorporated Method and system to generate a compressed image utilizing custom probability tables
US9053753B2 (en) * 2006-11-09 2015-06-09 Broadcom Corporation Method and system for a flexible multiplexer and mixer
US20080114478A1 (en) * 2006-11-09 2008-05-15 David Wu Method and System for Multi-Channel PCM Audio Grouping in Hardware
US7385532B1 (en) * 2007-02-16 2008-06-10 Xilinx, Inc. Extended bitstream and generation thereof for dynamically configuring a decoder
US7886303B2 (en) * 2007-05-18 2011-02-08 Mediatek Inc. Method for dynamically adjusting audio decoding process
JP5264901B2 (ja) * 2007-07-06 2013-08-14 フランス・テレコム デジタルオーディオ信号の階層符号化
KR101518507B1 (ko) * 2007-07-19 2015-05-11 한국전자통신연구원 영상신호 송수신 장치 및 방법
US9541658B2 (en) * 2007-08-02 2017-01-10 Westerngeco L. L. C. Dynamically allocating different numbers of bits to windows of a series representing a seismic trace
KR100912826B1 (ko) * 2007-08-16 2009-08-18 한국전자통신연구원 G.711 코덱의 음질 향상을 위한 향상 계층 부호화 및복호화 장치와 그 방법
KR101381602B1 (ko) * 2007-09-17 2014-04-04 삼성전자주식회사 계층적 부호화 및 복호화 방법 및 장치
CN101578655B (zh) * 2007-10-16 2013-06-05 松下电器产业株式会社 流合成装置、解码装置、方法
JP4893892B2 (ja) * 2007-12-04 2012-03-07 国立大学法人島根大学 可逆圧縮用符号化システム、情報記録媒体及び印刷媒体
US20090164223A1 (en) * 2007-12-19 2009-06-25 Dts, Inc. Lossless multi-channel audio codec
US8239210B2 (en) * 2007-12-19 2012-08-07 Dts, Inc. Lossless multi-channel audio codec
US8972247B2 (en) * 2007-12-26 2015-03-03 Marvell World Trade Ltd. Selection of speech encoding scheme in wireless communication terminals
US8548002B2 (en) * 2008-02-08 2013-10-01 Koolspan, Inc. Systems and methods for adaptive multi-rate protocol enhancement
US8386271B2 (en) 2008-03-25 2013-02-26 Microsoft Corporation Lossless and near lossless scalable audio codec
GB0817977D0 (en) * 2008-10-01 2008-11-05 Craven Peter G Improved lossy coding of signals
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
US20100191534A1 (en) * 2009-01-23 2010-07-29 Qualcomm Incorporated Method and apparatus for compression or decompression of digital signals
JP4784653B2 (ja) * 2009-01-23 2011-10-05 ソニー株式会社 音声データ送信装置、音声データ送信方法、音声データ受信装置および音声データ受信方法
WO2010140306A1 (ja) * 2009-06-01 2010-12-09 三菱電機株式会社 信号処理装置
KR20100136890A (ko) 2009-06-19 2010-12-29 삼성전자주식회사 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법
FR2947944A1 (fr) * 2009-07-07 2011-01-14 France Telecom Codage/decodage perfectionne de signaux audionumeriques
EP2323130A1 (en) * 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
JP2011109172A (ja) * 2009-11-12 2011-06-02 Hitachi Kokusai Electric Inc 映像符号化装置、および、そのデータ処理方法
UA102347C2 (ru) 2010-01-19 2013-06-25 Долби Интернешнл Аб Усовершенствованное гармоническое преобразование на основе блока поддиапазонов
US8649521B2 (en) * 2010-01-28 2014-02-11 Cleversafe, Inc. Obfuscation of sequenced encoded data slices
US8374858B2 (en) * 2010-03-09 2013-02-12 Dts, Inc. Scalable lossless audio codec and authoring tool
WO2011119111A1 (en) * 2010-03-26 2011-09-29 Agency For Science, Technology And Research Methods and devices for providing an encoded digital signal
WO2011132368A1 (ja) * 2010-04-19 2011-10-27 パナソニック株式会社 符号化装置、復号装置、符号化方法及び復号方法
CA2857849C (en) * 2010-04-23 2020-02-11 Soo Mi Oh Apparatus and method for encoding a moving picture
KR101676477B1 (ko) * 2010-07-21 2016-11-15 삼성전자주식회사 컨텍스트 기반의 무손실 부호화 장치 및 방법, 그리고 복호화 장치 및 방법
BR122021003688B1 (pt) 2010-08-12 2021-08-24 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Reamostrar sinais de saída de codecs de áudio com base em qmf
US9008811B2 (en) 2010-09-17 2015-04-14 Xiph.org Foundation Methods and systems for adaptive time-frequency resolution in digital data coding
JP6000854B2 (ja) 2010-11-22 2016-10-05 株式会社Nttドコモ 音声符号化装置および方法、並びに、音声復号装置および方法
EP2464146A1 (en) 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a pre-calculated reference curve
US8639494B1 (en) * 2010-12-28 2014-01-28 Intuit Inc. Technique for correcting user-interface shift errors
US9009036B2 (en) 2011-03-07 2015-04-14 Xiph.org Foundation Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding
WO2012122297A1 (en) * 2011-03-07 2012-09-13 Xiph. Org. Methods and systems for avoiding partial collapse in multi-block audio coding
US8838442B2 (en) 2011-03-07 2014-09-16 Xiph.org Foundation Method and system for two-step spreading for tonal artifact avoidance in audio coding
WO2013036972A1 (en) 2011-09-09 2013-03-14 Panamorph, Inc. Image processing system and method
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
US9165563B2 (en) * 2012-03-19 2015-10-20 Casio Computer Co., Ltd. Coding device, coding method, decoding device, decoding method, and storage medium
GB201210373D0 (en) * 2012-06-12 2012-07-25 Meridian Audio Ltd Doubly compatible lossless audio sandwidth extension
EP2717262A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
CA3076775C (en) 2013-01-08 2020-10-27 Dolby International Ab Model based prediction in a critically sampled filterbank
US9336791B2 (en) * 2013-01-24 2016-05-10 Google Inc. Rearrangement and rate allocation for compressing multichannel audio
PL3011555T3 (pl) * 2013-06-21 2018-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja ramki sygnału mowy
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
CN103346949B (zh) * 2013-07-25 2016-08-17 北京大学 基于嵌入式的双通道网络数据包的拆包和组包方法及系统
EP2863386A1 (en) 2013-10-18 2015-04-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for generating encoded audio output data and methods permitting initializing a decoder
AU2014339086B2 (en) 2013-10-22 2017-12-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for combined dynamic range compression and guided clipping prevention for audio devices
US11350015B2 (en) 2014-01-06 2022-05-31 Panamorph, Inc. Image processing system and method
US9564136B2 (en) * 2014-03-06 2017-02-07 Dts, Inc. Post-encoding bitrate reduction of multiple object audio
CN106471575B (zh) * 2014-07-01 2019-12-10 韩国电子通信研究院 多信道音频信号处理方法及装置
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
CN108140396B (zh) * 2015-09-22 2022-11-25 皇家飞利浦有限公司 音频信号处理
CN105512079B (zh) * 2015-12-12 2018-07-03 中国航空工业集团公司西安航空计算技术研究所 一种1394总线多通道流数据并行组包方法
KR101968456B1 (ko) 2016-01-26 2019-04-11 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 양자화
US10735794B2 (en) * 2016-03-28 2020-08-04 Sony Corporation Information processing device, information processing method, and information processing system
EP3264644A1 (en) 2016-07-01 2018-01-03 Nxp B.V. Multiple source receiver
US10936941B2 (en) * 2016-08-12 2021-03-02 Xilinx, Inc. Efficient data access control device for neural network hardware acceleration system
US10522155B2 (en) 2017-02-21 2019-12-31 Cirrus Logic, Inc. Pulse code modulation (PCM) data-marking
US10891960B2 (en) * 2017-09-11 2021-01-12 Qualcomm Incorproated Temporal offset estimation
CN107680605A (zh) * 2017-09-29 2018-02-09 湖南国科微电子股份有限公司 一种ape格式错误数据处理方法及系统
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
US10727858B2 (en) * 2018-06-18 2020-07-28 Qualcomm Incorporated Error resiliency for entropy coded audio data
CN109243471B (zh) * 2018-09-26 2022-09-23 杭州联汇科技股份有限公司 一种快速编码广播用数字音频的方法
WO2020232631A1 (zh) * 2019-05-21 2020-11-26 深圳市汇顶科技股份有限公司 一种语音分频传输方法、源端、播放端、源端电路和播放端电路
EP4002277A4 (en) * 2019-08-14 2023-02-22 LG Electronics Inc. POINT CLOUD DATA TRANSMITTING DEVICE, POINT CLOUD DATA TRANSMITTING METHOD, POINT CLOUD DATA RECEIVING DEVICE AND POINT CLOUD DATA RECEIVING METHOD
CN110827838A (zh) * 2019-10-16 2020-02-21 云知声智能科技股份有限公司 一种基于opus的语音编码方法及装置
WO2021232376A1 (zh) * 2020-05-21 2021-11-25 华为技术有限公司 一种音频数据传输方法及相关装置
CN111641416B (zh) * 2020-06-19 2023-04-07 重庆邮电大学 一种多归一化因子的低密度奇偶校验码译码方法
CN111768793B (zh) * 2020-07-11 2023-09-01 北京百瑞互联技术有限公司 一种lc3音频编码器编码优化方法、系统、存储介质
US20240205433A1 (en) * 2022-12-14 2024-06-20 Qualcomm Incorporated Truncation error signaling and adaptive dither for lossy bandwidth compression

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4833718A (en) * 1986-11-18 1989-05-23 First Byte Compression of stored waveforms for artificial speech
JPS6444499A (en) * 1987-08-12 1989-02-16 Fujitsu Ltd Forecast encoding system for voice
WO1992012607A1 (en) * 1991-01-08 1992-07-23 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
EP0649557B1 (en) * 1993-05-05 1999-08-25 Koninklijke Philips Electronics N.V. Transmission system comprising at least a coder
US5589830A (en) * 1994-11-02 1996-12-31 Advanced Micro Devices, Inc. Stereo audio codec
GB9509831D0 (en) * 1995-05-15 1995-07-05 Gerzon Michael A Lossless coding method for waveform data
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
WO1997029549A1 (fr) * 1996-02-08 1997-08-14 Matsushita Electric Industrial Co., Ltd. Codeur, decodeur, codeur-decodeur et support d'enregistrement de signal audio large bande
EP0798866A2 (en) * 1996-03-27 1997-10-01 Kabushiki Kaisha Toshiba Digital data processing system
US5839100A (en) * 1996-04-22 1998-11-17 Wegener; Albert William Lossless and loss-limited compression of sampled data signals
JP3622365B2 (ja) * 1996-09-26 2005-02-23 ヤマハ株式会社 音声符号化伝送方式
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
IL122714A (en) * 1997-04-02 2011-06-30 Samsung Electronics Co Ltd Digital data coding/decoding method and apparatus
KR100261253B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
US6016111A (en) * 1997-07-31 2000-01-18 Samsung Electronics Co., Ltd. Digital data coding/decoding method and apparatus
KR100251453B1 (ko) * 1997-08-26 2000-04-15 윤종용 고음질 오디오 부호화/복호화장치들 및 디지털다기능디스크
US6118392A (en) * 1998-03-12 2000-09-12 Liquid Audio Inc. Lossless data compression with low complexity
US6023233A (en) 1998-03-20 2000-02-08 Craven; Peter G. Data rate control for variable rate compression systems
US6360204B1 (en) * 1998-04-24 2002-03-19 Sarnoff Corporation Method and apparatus for implementing rounding in decoding an audio signal
TW366660B (en) * 1998-04-30 1999-08-11 Nat Science Council Method of degrouping a codeword in a computer system
US6029126A (en) * 1998-06-30 2000-02-22 Microsoft Corporation Scalable audio coder and decoder
JP3515903B2 (ja) * 1998-06-16 2004-04-05 松下電器産業株式会社 オーディオ符号化のための動的ビット割り当て方法及び装置
JP3344581B2 (ja) * 1998-10-13 2002-11-11 日本ビクター株式会社 音声符号化装置
JP2000134105A (ja) * 1998-10-29 2000-05-12 Matsushita Electric Ind Co Ltd オーディオ変換符号化に用いられるブロックサイズを決定し適応させる方法
US6226608B1 (en) * 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
US6370502B1 (en) * 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
US6226616B1 (en) * 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
US6446037B1 (en) * 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
EP1087557A3 (en) * 1999-09-22 2005-01-19 Matsushita Electric Industrial Co., Ltd. Apparatus for transmitting digital audio data and receiving apparatus for receiving the digital audio data
US6373411B1 (en) * 2000-08-31 2002-04-16 Agere Systems Guardian Corp. Method and apparatus for performing variable-size vector entropy coding
US6675148B2 (en) * 2001-01-05 2004-01-06 Digital Voice Systems, Inc. Lossless audio coder
EP1368898A2 (en) * 2001-03-05 2003-12-10 Koninklijke Philips Electronics N.V. Device and method for compressing a signal
JP3690591B2 (ja) * 2001-05-28 2005-08-31 シャープ株式会社 符号化装置
EP1292036B1 (en) * 2001-08-23 2012-08-01 Nippon Telegraph And Telephone Corporation Digital signal decoding methods and apparatuses
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
US20030231799A1 (en) 2002-06-14 2003-12-18 Craig Schmidt Lossless data compression using constraint propagation
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
US7742926B2 (en) * 2003-04-18 2010-06-22 Realnetworks, Inc. Digital audio signal compression method and apparatus
WO2004098066A1 (ja) * 2003-04-28 2004-11-11 Nippon Telegraph And Telephone Corporation 浮動小数点形式ディジタル信号可逆符号化方法、及び復号化方法と、その各装置、その各プログラム
EP1662667B1 (en) * 2003-09-02 2015-11-11 Nippon Telegraph And Telephone Corporation Floating point signal reversible encoding method, decoding method, device thereof, program, and recording medium thereof
US7009533B1 (en) * 2004-02-13 2006-03-07 Samplify Systems Llc Adaptive compression and decompression of bandlimited signals
US7272567B2 (en) * 2004-03-25 2007-09-18 Zoran Fejzo Scalable lossless audio codec and authoring tool
JP4324200B2 (ja) * 2004-10-15 2009-09-02 日本電信電話株式会社 情報符号化方法、復号化方法、共通乗数推定方法、これらの方法を利用した装置、プログラム及び記録媒体
EP1901432B1 (en) * 2005-07-07 2011-11-09 Nippon Telegraph And Telephone Corporation Signal encoder, signal decoder, signal encoding method, signal decoding method, program, recording medium and signal codec method

Also Published As

Publication number Publication date
RU2387022C2 (ru) 2010-04-20
KR101307693B1 (ko) 2013-09-11
KR20120116019A (ko) 2012-10-19
ES2537820T3 (es) 2015-06-12
US20050246178A1 (en) 2005-11-03
US20080021712A1 (en) 2008-01-24
JP2012078865A (ja) 2012-04-19
RU2006137573A (ru) 2008-04-27
US20100082352A1 (en) 2010-04-01
JP5593419B2 (ja) 2014-09-24
ES2363346T3 (es) 2011-08-01
RU2006137566A (ru) 2008-04-27
HK1105475A1 (en) 2008-02-15
US7392195B2 (en) 2008-06-24
JP2013190809A (ja) 2013-09-26
ES2363932T3 (es) 2011-08-19
CN101027717B (zh) 2011-09-07
JP5599913B2 (ja) 2014-10-01
JP5551677B2 (ja) 2014-07-16
US7668723B2 (en) 2010-02-23
JP2007531012A (ja) 2007-11-01
JP2013148935A (ja) 2013-08-01
CN1961351A (zh) 2007-05-09
CN101027717A (zh) 2007-08-29
US20110106546A1 (en) 2011-05-05
RU2387023C2 (ru) 2010-04-20
US20050216262A1 (en) 2005-09-29
HK1099597A1 (en) 2007-08-17
CN1961351B (zh) 2010-12-15
US7272567B2 (en) 2007-09-18

Similar Documents

Publication Publication Date Title
JP4934020B2 (ja) 可逆マルチチャネル・オーディオ・コーデック
TWI474316B (zh) 使用具隨機存取點及多重預測參數集合能力的適應性分段技術之無損多聲道音訊編解碼器
TWI515720B (zh) 壓縮數位化音訊信號之方法、解碼已編碼壓縮數位化音訊信號之方法、及機器可讀儲存媒體
KR101243412B1 (ko) 무손실의 다채널 오디오 코덱
US20090164223A1 (en) Lossless multi-channel audio codec
US8239210B2 (en) Lossless multi-channel audio codec
JP3964860B2 (ja) ステレオオーディオの符号化方法、ステレオオーディオ符号化装置、ステレオオーディオの復号化方法、ステレオオーディオ復号化装置及びコンピュータで読み取り可能な記録媒体
US20080234846A1 (en) Transform domain transcoding and decoding of audio data using integer-reversible modulated lapped transforms

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071129

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20081224

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20081224

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110131

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110427

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110801

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120113

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120213

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120217

R150 Certificate of patent or registration of utility model

Ref document number: 4934020

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150224

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250