JP2011516902A - ランダムアクセスポイント(rap)及び多重予測パラメータセット(mpps)機能を備えた適応セグメンテーションを使用する無損失マルチチャンネルオーディオコーデック - Google Patents

ランダムアクセスポイント(rap)及び多重予測パラメータセット(mpps)機能を備えた適応セグメンテーションを使用する無損失マルチチャンネルオーディオコーデック Download PDF

Info

Publication number
JP2011516902A
JP2011516902A JP2010544991A JP2010544991A JP2011516902A JP 2011516902 A JP2011516902 A JP 2011516902A JP 2010544991 A JP2010544991 A JP 2010544991A JP 2010544991 A JP2010544991 A JP 2010544991A JP 2011516902 A JP2011516902 A JP 2011516902A
Authority
JP
Japan
Prior art keywords
channel
segment
rap
frame
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010544991A
Other languages
English (en)
Other versions
JP5356413B2 (ja
JP2011516902A5 (ja
Inventor
ゾーラン フェイゾ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DTS Inc
Original Assignee
DTS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DTS Inc filed Critical DTS Inc
Publication of JP2011516902A publication Critical patent/JP2011516902A/ja
Publication of JP2011516902A5 publication Critical patent/JP2011516902A5/ja
Application granted granted Critical
Publication of JP5356413B2 publication Critical patent/JP5356413B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

無損失オーディオコーデック、特に、ランダムアクセスポイント(RAP)機能及び多重予測パラメータセット(MPPS)機能を備えた適応セグメンテーションを使用する無損失マルチチャンネルオーディオコーデックを提供する。無損失オーディオコーデックは、ランダムアクセスポイント(RAP)機能によって無損失可変ビットレート(VBR)ビットストリームを符号化/復号し、フレーム内の指定されたセグメントでの無損失復号、及び/又はトランジエント効果を軽減するために仕切られた多重予測パラメータセット(MPPS)機能を開始する。これは、フレームにおける望ましいRAP及び/又は検出されたトランジエントの存在によって課せられる制約に基づいてセグメント開始ポイントを固定し、各フレームにおける最適セグメント持続時間を選択し、RAP及びMPPSが特に適用可能である符号化セグメントペイロード制約を受ける符号化フレームペイロードを低減し、より長いフレーム持続時間に対する全体的な性能を改善する適応セグメンテーション技術によって達成される。
【選択図】図2a

Description

関連出願への相互参照
本出願は、全体が引用により本明細書に組み込まれる2004年8月4日出願の「無損失マルチチャンネルオーディオコーデック」という名称の米国特許出願第10/911、067号の一部継続出願(CIP)として35U.S..C.120の下で優先権の恩典を請求するものである。
本発明は、無損失オーディオコーデックに関し、より具体的に、ランダムアクセスポイント(RAP)機能及び多重予測パラメータセット(MPPS)機能を備えた適応セグメンテーションを使用する無損失マルチチャンネルオーディオコーデックに関する。
多くの低ビットレート損失性オーディオ符号化システムが、現在、広範囲の民生及び専門オーディオ再生製品及びサービスに使用されている。例えば、「Dolby AC3」(ドルビーデジタル)オーディオ符号化システムは、640kbit/sまでのビットレートを使用してレーザディスク、NTSC符号化DVDビデオ、及びATVのためのステレオ及び5.1チャンネルオーディオサウンドトラックを符号化するための世界的な規格である。MPEGI及びMPEGIIオーディオ符号化規格は、768kbit/sまでのビットレートでのPAL符号化DVDビデオ、ヨーロッパにおける地上デジタル無線ブロードキャスティング、及び米国における衛星ブロードキャスティングに対するステレオ及びマルチチャンネルサウンドトラック符号化のために広く使用されている。DTS(デジタルシアターシステム)コヒーレント音響オーディオ符号化システムは、コンパクトディスク、DVDビデオ、ヨーロッパにおける衛星ブロードキャスト、及びレーザディスクのためのスタジオ品質5.1チャンネルオーディオサウンドトラック、及び1536kbit/sまでのビットレートに対して頻繁に使用されている。
最近では、多くの消費者が、これらのいわゆる「無損失」コーデックに関心を示している。「無損失」コーデックは、いかなる情報も廃棄することなくデータを圧縮し、更に(デジタル化)ソース信号に同一の復号信号を生成するアルゴリズムに頼っている。この性能は、犠牲を伴い、すなわち、このようなコーデックは、一般的に、損失性コーデックよりも大きなバンド幅を必要とし、データをより小さい程度までしか圧縮しない。
図1は、単一オーディオチャンネルを無損失で圧縮することに伴う演算のブロック図表示である。マルチチャンネルオーディオのチャンネルは、一般的に独立していないが、依存性は、多くの場合に弱く、考慮に入れ難い。従って、チャンネルは、一般的に別々に圧縮される。しかし、一部の符号器は、単純な残留信号を形成して符号化することにより(Ch1、Ch1−CH2)、相関関係の除去を試みることになる。より高度な手法は、例えば、チャンネル方向にわたっていくつかの連続正投影段階を取る。全ての技術は、最初に信号から冗長性を取り除き、次に、効率的なデジタル符号化方式によって得られる信号を符号化する原理に基づいている。無損失コーデックは、MPL(DVDオーディオ)、Monkeyのオーディオ(コンピュータアプリケーション)、アップル無損失、ウィンドウズメディアプロ無損失、AudioPak、DVD、LTAC、MUSICcompress、OggSquish、Philips、Shorten、Sonarc、及びWAを含む。これらのコーデックのうちの多くのレビューは、Mat Hans、Ronald Schafer著「デジタルオーディオの無損失圧縮」、ヒューレットパッカード、1999年によって提供されている。
フレーミング10は、編集可能性を提供するために導入され、莫大な量のデータは、編集される領域に先行する信号全体のそれぞれの解凍を妨げる。オーディオ信号は、等しい持続時間の独立したフレームに仕切られる。有意なオーバヘッドが、各フレームの前に置かれるヘッダから生じる場合があるので、この持続時間は、短すぎてはいけない。逆に、フレーム持続時間は、これが、時間的な適応性を制限して編集をより困難にすると考えられるので、長すぎてもいけない。多くのアプリケーションにおいて、フレームサイズは、オーディオが転送されるメディアのピークビットレート、復号器のバッファ容量、及び各フレームを独立して復号可能にする望ましさによって制限される。
チャンネル内相関解除12は、フレーム内の各チャンネルにおけるオーディオサンプルを相関解除することによって冗長性を取り除く。多くのアルゴリズムは、何らかのタイプの信号の線形予測モデリングによって冗長性を取り除く。この手法では、線形予測子が、各フレームにおけるオーディオサンプルに適用され、予測エラーサンプルのシーケンスをもたらす。第2のあまり一般的でない手法は、信号の低ビットレート量子化又は損失性表現を取得し、次に、損失性バージョンとオリジナルバージョン間の差を無損失で圧縮することである。エントロピー符号化14は、いかなる情報も失うことなく残留信号からのエラーから冗長性を取り除く。典型的な方法は、Huffman符号化、実行長さ符号化、及びRice符号化を含む。出力は、無損失で再構成することができる圧縮信号である。
既存のDVD仕様及び予備的なHDのDVD仕様は、1データアクセスユニットのサイズに厳しい制限を設定しており、これは、オーディオストリームの一部が、抽出された状態で、完全に復号され、再構成されるオーディオサンプルを出力バッファに送信することができることを表している。これが無損失ストリームに対して意味することは、各アクセスユニットが表すことのできる時間の量が、ピークビットレートが最悪の場合に、符号化されたペイロードが厳しい制限値を超えないほど十分に小さくなければならないということである。持続時間も、ピークビットレートを増加させるサンプリング速度及びチャンネルの数の増大に対して低減しなくてはならない。
米国特許出願第10/911、067号
Mat Hans、Ronald Schafer著「デジタルオーディオの無損失圧縮」、ヒューレットパッカード、1999年 T.Robinson.SHORTEN著「簡単な無損失及び無損失に近い波形圧縮」、技術報告156、ケンブリッジ大学工学部、トランピントン通り、ケンブリッジ、CB21PZ、英国、1994年12月
互換性を保証するために、これらの既存の符号器は、フレーム全体の持続時間が最悪ケースのチャンネル/サンプリング周波数/ビット幅構成における厳しい制限値を超えないほど十分に短く設定しなくてはならないことになる。多くの構成では、これは、行き過ぎであることになり、圧縮性能を深刻に劣化させる場合がある。更に、この最悪ケース手法は、追加チャンネルで十分に拡張されない。
本発明は、フレーム内で指定されたセグメントで無損失復号を開始するランダムアクセスポイント(RAP)機能、及び/又はトランジエント効果を軽減するために仕切られた多重予測パラメータセット(MPPS)機能を備えた無損失可変ビットレート(VBR)ビットストリームを生成するオーディオコーデックを提供する。
これは、フレームにおける望ましいRAP及び/又は1つ又はそれよりも多くのトランジエントの存在によって課せられるセグメント上の境界制約を保証するためにセグメント開始ポイントを判断し、かつ符号化セグメントペイロード制約を受ける符号化フレームペイロードを低減するために各フレームにおける最適セグメント持続時間を選択する適応セグメンテーション技術によって達成される。一般的に、境界制約は、望ましいRAP又はトランジエントが、セグメントの開始のある一定数の分析ブロック内になくてはならないことを指定する。フレーム内のセグメントが、同じ持続時間であり、分析ブロック持続時間の2のべき乗である例示的な実施形態では、最大セグメント持続時間は、望ましい条件が満たされることを保証するように判断される。RAP及びMPPSは、より長いフレーム持続時間に対して全体性能を改善するように特に適用可能である。
例示的な実施形態では、無損失VBRオーディオビットストリームは、符号化器タイミングコードに設けられた望ましいRAPの指定された許容範囲内で整列したRAP(RAPセグメント)によって符号化される。各フレームは、1つ又はそれよりも多くの分析ブロックの持続時間に等しい持続時間を有する各セグメントによって分析ブロックのシーケンスにブロック化される。各連続フレームでは、1RAP分析ブロックまでが、タイミングコードから判断される。RAP分析ブロックのロケーション、及びRAP分析ブロックがRAPセグメントの開始のM分析ブロック内に入らなければならないという制約が、RAPセグメントの開始を固定する。MPSが有効にされ、トランジエントがチャンネルで検出された場合、予測パラメータは、フレーム、パラメータの2セット(1チャンネルにつき)に対して判断される。オーディオフレームにおけるサンプルは、圧縮され、予測は、RAPセグメントの開始に続く予測オーダーまで第1サンプルに対して無効にされる。適応セグメンテーションが、各セグメントに対するセグメント持続時間及びエントロピー符号化パラメータを判断してRAPセグメントの固定された開始及び符号化されたセグメントペイロード制約を受ける符号化フレームペイロードを最小にするために残留サンプルに用いられる。RAPセグメントの存在及びロケーションを指示するRAPパラメータ及びナビゲーションデータは、ヘッダに圧縮される。シーンのユーザ選択又はサーフィンのような再生を開始するためのナビゲーション指令に応答して、復号器は、RAPセグメントを含むフレームが検出されるまで、RAPパラメータを読み取るためにビットストリームにおける次のフレームのヘッダを解凍する。復号器は、RAPセグメントの開始にナビゲートするために、セグメント持続時間及びナビゲーションデータを抽出する。復号器は、予測履歴が再構成されるまで第1サンプルに対する予測を無効にし、次に、セグメントの残り及び次のフレームを順々に復号し、RAPセグメントが出現する毎に予測子を無効にする。この構成により、復号器は、サブ−フレーム解像度を有する符号化器指定RAPで又はその非常に近くで復号を開始することができる。これは、例えば、チャプターの始めでRAPを指定するビデオタイミングコードにオーディオ再生を同期しようとする時のより長いフレーム持続時間と共に特に有用である。
別の例示的な実施形態では、無損失VBRオーディオビットストリームは、検出されたトランジエントが、そのそれぞれのチャンネルにおけるセグメントの最初のL分析ブロック内に位置するように仕切られたMPPSによって符号化される。各連続のフレームでは、1チャンネルセットあたりのチャンネルあたり1トランジエントまでとフレーム内のそのロケーションとが検出される。予測パラメータは、トランジエントによって課せられるセグメント開始ポイントを考慮して各分割に対して判断される。各分割におけるサンプルは、それぞれのパラメータセットによって圧縮される。適応セグメンテーションは、各セグメントに対するセグメント持続時間及びエントロピー符号化パラメータを判断するために残留サンプルに用いられ、トランジエント(及びRAP)及び符号化セグメントペイロード制約によって課せられるセグメント開始制約を受ける符号化フレームペイロードを最小にする。第1トランジエントセグメント(チャンネルあたり)の存在及びロケーションを指示するトランジエントパラメータ及びナビゲーションデータが、ヘッダに圧縮される。復号器は、トランジエントパラメータ及び予測パラメータの付加的なセットを抽出するために、フレームヘッダを解凍する。チャンネルセットにおける各チャンネルに対して、復号器は、トランジエントセグメントが出現するまで予測パラメータの第1セットを使用し、セグメントの残りに対して第2セットに切り換える。フレームのセグメンテーションは、チャンネル及び複数のチャンネルセットにわたって同じであるが、トランジエントのロケーションは(あるとすれば)、セット間で及びセット内で変化することがある。この構成により、復号器は、サブ−フレーム解像度を備えた検出されたトランジエントの開始で又はこのごく近くで予測パラメータセットを切り換えることができる。これは、全体的な符号化効率を改善するより長いフレーム持続時間で特に有用である。
圧縮性能は、M−チャンネルオーディオに対してM/2非相関チャンネルを形成することによって更に強化される。チャンネルのトリプレット(ベース、相関、非相関)は、セグメンテーション及びエントロピー符号化最適化中に考えられる2つの可能な対組合せ(ベース、相関)及び(ベース、非相関)を提供し、圧縮性能を更に改善する。チャンネル対は、1つのセグメントあたり又は1つのフレームあたりで指定することができる。例示的な実施形態では、符号化器は、オーディオデータをフレーム化し、次に、ベースチャンネル及び相関チャンネルを含む順序付けられたチャンネル対を抽出し、かつ少なくとも1つのトリプレット(ベース、相関、非相関)を形成するために非相関チャンネルを生成する。チャンネルの数が奇数の場合、余分のベースチャンネルが処理される。適応又は固定多項式予測が、残留信号を形成するために各チャンネルに適用される。各トリプレットに対して、最も小さい符号化ペイロードを備えたチャンネル対(ベース、相関)又は(ベース、非相関)が選択される。選択されたチャンネル対を使用して、符号化パラメータのグローバルセットが、全てのチャンネルにわたって各セグメントに対して判断される。符号化器は、最も小さい総符号化ペイロード(ヘッダ及びオーディオデータ)を有するものに基づいて符号化パラメータのグローバルセット又は個別のセットを選択する。
いずれの手法においても、現在の分割(セグメント持続時間)に対する符号化パラメータ及びチャンネル対の最適セットが判断された状態で、符号化器は、全てのチャンネルにわたって各セグメントにおける符号化ペイロードを計算する。あらゆる望ましいRAP又は検出されたトランジエントに対するセグメント開始及び最大セグメントペイロードサイズにおける制約が満たされたと仮定すると、符号化器は、現在の分割に対するフレーム全体に対する総符号化ペイロードが、前の分割に対する現在の最適条件よりも小さいか否かを判断する。真である場合、符号化パラメータ及び符号化ペイロードの現在のセットが記憶され、セグメント持続時間が増加する。セグメンテーションアルゴリズムは、フレームを分析ブロックサイズに等しい最小セグメントサイズに分割することによって適切に開始し、各段階で2のべき乗によってセグメント持続時間を増加させる。この処理は、セグメントサイズが最大サイズ制約を破るか、又はセグメント持続時間が最大セグメント持続時間まで増加することのいずれかまで繰り返される。RAP又はMPPS特徴の使用可能性及びフレーム内の望ましいRAP又は検出されたトランジエントの存在により、適応セグメンテーションルーチンは、そうでなければ選ぶものよりも小さいセグメント持続時間を選択することができる。
本発明のこれらの及び他の特徴及び利点は、添付の図面を用いた好ましい実施形態の以下の詳細説明から当業者には明らかであろう。
上述のような標準的な無損失オーディオ符号化器を示すブロック図である。 本発明による無損失オーディオ符号化器を示すブロック図である。 本発明による無損失オーディオ復号器を示すブロック図である。 セグメンテーション及びエントロピーコード選択に関するヘッダ情報を示す図である。 分析ウィンドウ処理を示すブロック図である。 逆分析ウィンドウ処理を示すブロック図である。 クロスチャンネル非相関を示す流れ図である。 適応予測分析処理を示すブロック図である。 逆適応予測処理を示すブロック図である。 最適セグメンテーションを示す流れ図である。 エントロピーコード選択を示す流れ図である。 チャンネルセットに対するエントロピーコード選択を示す流れ図である。 チャンネルセットに対するエントロピーコード選択を示す流れ図である。 コアプラス無損失拡張コーデックを示すブロック図である。 各フレームがヘッダ及び複数のセグメントを含むビットストリームのフレームを示す図である。 RAP及びMPPSの規格に関する付加的なヘッダ情報を示す図である。 RAP及びMPPSの規格に関する付加的なヘッダ情報を示す図である。 望ましいRAP又は検出されたトランジエントに対するセグメント境界又は最大セグメント持続時間を判断するための流れ図である。 MPPSを判断するための流れ図である。 セグメント開始ポイント又は最大セグメント持続時間の選択を例示するフレームを示す図である。 RAPセグメント及びトランジエントでのビットストリーム及びビットストリームの復号を示す図である。 RAPセグメント及びトランジエントでのビットストリーム及びビットストリームの復号を示す図である。 最大セグメントペイロード及び最大セグメント持続時間制約に基づく適応セグメンテーションを示す図である。
本発明は、フレーム内で指定されたセグメントで無損失復号を開始するためのランダムアクセスポイント(RAP)機能及び/又はトランジエント影響を軽減するために仕切られた多重予測パラメータセット(MPPS)機能を備えた無損失可変ビットレート(VBR)ビットストリームを生成する適応セグメンテーションアルゴリズムを提供する。適応セグメンテーション技術は、セグメント開始ポイントを判断及び固定し、望ましいRAP及び/又は検出されたトランジエントによって課せられる境界条件が満たされることを保証し、更に、符号化セグメントペイロード制約及び固定されたセグメント開始ポイントの影響を受ける符号化フレームペイロードを低減するために、各フレームにおける最適セグメント持続時間を選択する。一般的に、境界制約は、望ましいRAP又はトランジエントが、セグメントの開始のある一定の数の分析ブロック内になくてはならないことを指定する。望ましいRAPは、セグメント開始から分析ブロックの数をプラス又はマイナスしたものにすることができる。トランジエントは、セグメントの最初の番号の分析ブロック内にある。フレーム内のセグメントが同じ持続時間であり、分析ブロック持続時間の2のべき乗である例示的な実施形態では、最大セグメント持続時間は、望ましい条件を保証するように判断される。RAP及びMPPSは、より長いフレーム持続時間に対する全体的な性能を改善するために特に利用可能である。
無損失オーディオコーデック
図2a及び2bに示すように、基本的な演算ブロックは、RAP及び/又はトランジエント及びセグメンテーション及びエントロピーコード選択に対するセグメント開始条件を設定するための分析ウィンドウ処理への修正の例外を有する既存の無損失符号化器及び復号器に類似である。分析ウィンドウプロセッサは、マルチチャンネルPCMオーディオ20をデータをある一定の持続時間のフレームにブロック化する分析ウィンドウ処理22にかけ、望ましいRAP及び/又は検出されたトランジエントに基づいてセグメント開始ポイントを固定し、フレーム内の各チャンネルにおけるオーディオサンプルを非相関にすることによって冗長性を取り除く。相関解除は、現在のオリジナルサンプルに対する値を推定して残りを判断するために、古い再構成オーディオサンプル(予測履歴)を使用するあらゆる処理に広義に定められる予測を使用して実行される。予測技術は、なかでも固定又は適応及び線形又は非線形を包含する。残留信号を直接エントロピー符号化する代わりに、適応セグメント化器は、データを複数のセグメントにセグメント化する最適セグメンテーション及びエントロピーコード選択処理24を実行し、セグメント持続時間及び符号化パラメータ、例えば、各セグメントに対して特定のエントロピー符号器及びそのパラメータの選択を判断し、各セグメントが、フレームサイズよりも小さいバイトの最大数よりも小さく、フレーム持続時間よりも短く、完全に無損失で復号可能にしなくてはならず、かついかなる望ましいRAP及び/又は検出されたトランジエントも、セグメントの開始から分析ブロックの指定された数(サブ−フレーム解像度)内になくてはならないという制約を受けるフレーム全体に対して符号化ペイロードを最小にする。符号化パラメータのセットは、各個別チャンネルに対して最適化され、符号化パラメータのグローバルセットに対して最適化することができる。エントロピー符号器エントロピーは、符号化パラメータのその特定のセットに従って各セグメントを符号化する(26)。圧縮器は、符号化されたデータ及びヘッダ情報をビットストリーム30に圧縮する(28)。
図2bに示すように、復号演算を実行するために、復号器は、例えば、ビデオシーン又はチャプターのユーザ選択又はユーザサーフィンに応答して、ビットストリーム30におけるポイントにナビゲートし、解凍器が、ヘッダ情報及び符号化データを抽出するためにビットストリームを解凍する(40)。復号器は、復号を始めることができる次のRAPセグメントを判断するために、ヘッダ情報を解凍する。次に、復号器は、RAPセグメントにナビゲートし、復号を開始する。復号器は、復号器が各RAPセグメントに遭遇した時にある一定の数のサンプルに対して予測を無効にする。復号器がフレームにおけるトランジエントの存在を検出した場合、復号器は、予測パラメータの第1セットを使用し、第1パーティションを復号し、次に、フレーム内で順方向にトランジエントから復号するために予測パラメータの第2セットを使用する。エントロピー復号器は、残留信号を無損失で再構成するために、割り当てられた符号化パラメータに従って各チャンネルの各セグメントにおいてエントロピー復号42を実行する。逆分析ウィンドウプロセッサは、これらの信号を逆分析ウィンドウ処理44にかけ、逆分析ウィンドウ処理44が、オリジナルPCMオーディオ20を無損失で再構成するために逆予測を実行する。
ビットストリームナビゲーション及びヘッダフォーマット
図10に示すように、ビットストリーム30におけるフレーム500は、ヘッダ502及び複数のセグメント504を含む。ヘッダ502は、同期506、共通ヘッダ508、1つ又はそれよりも多くのチャンネルセットに対するサブ−ヘッダ510、及びナビゲーションデータ512を含む。この実施形態では、ナビゲーションデータ512は、NAVIチャンク514及びエラー訂正コードCRC16(516)を含む。NAVIチャンクは、全ナビゲーションを可能にするために、ナビゲーションデータをビットストリームの最小部分に分解することが好ましい。チャンクは、各セグメントに対してNAVIセグメント518を含み、各NAVIセグメントは、各チャンネルセットに対してNAVIChセットペイロードサイズ520を含む。特に、それによって復号器は、あらゆる指定されたチャンネルセットに対してRAPセグメントの開始にナビゲートすることができるようなる。各セグメント504は、各チャンネルセットにおける各チャンネルに対してエントロピー符号化残余522(及び予測がRAPに対して無効の場合はオリジナルサンプル)を含む。
ビットストリームは、少なくとも1つの及び好ましくは複数の異なるチャンネルセットに対して、ヘッダ情報及び符号化データを含む。例えば、第1チャンネルセットは、2.0構成とすることができ、第2チャンネルセットは、5.1チャンネル呈示から成る付加的な4チャンネルとすることができ、第3チャンネルセットは、全体的に7.1チャンネル呈示から成る付加的な2サラウンドチャンネルとすることができる。8チャンネル復号器は、その出力で7.1チャンネル呈示を生成する全ての3チャンネルセットを抽出して復号する。6チャンネル復号器は、5.1チャンネル呈示を生成するチャンネルセット3を完全に無視し、チャンネルセット1及びチャンネルセット2を抽出して復号する。2チャンネル復号器は、チャンネルセット1だけを抽出して復号し、2チャンネル呈示を生成するチャンネルセット2及び3を無視する。この方法で構造化されたストリームを有することは、復号器の複雑さの拡張容易性を考慮するものである。
符号化中に、時間符号化器は、いわゆる「組込みダウン−ミクシング」を実行し、それによって7.1→5.1ダウン−ミックスが、チャンネルセット1及び2で符号化される5.1チャンネルにおいて容易に利用可能である。同様に、5.1→2.0ダウン−ミックスは、チャンネルセット1として符号化される2.0チャンネルにおいて容易に利用可能である。チャンネルセット1及び2を復号することにより、6チャンネル復号器は、符号化側で実行された5.1→2.0ダウン−ミックス組込みの演算を取り消した後に5.1ダウン−ミックスを取得する。同様に、全8チャンネル復号器は、チャンネルセット1、2、及び3を復号し、かつ符号化側で実行された7.1→5.1及び5.1→2.0ダウン−ミックス組込みの演算を取り消すことにより、オリジナル7.1呈示を取得する。
図3に示すように、ヘッダ32は、セグメンテーション及びエントロピーコード選択を実施するために無損失コーデックに本来提供されているものを超えた付加的な情報を含む。より具体的に、ヘッダは、セグメントの数(NumSegments)及び各セグメントにおけるサンプルの数(NumSamplesInSegm)のような共通ヘッダ情報34、量子化非相関係数(QuantChDecorrCoeff[][])のようなチャンネルセットヘッダ情報36、及びチャンネルセットに対する現在のセグメントにおけるバイトの数(ChSetByteCOns)のようなセグメントヘッダ情報38、Rice又はBinary符号化のいずれが使用されているかを指示するグローバル最適化フラグ(AllChSameParamFlag)及びエントロピー符号器フラグ(RiceCodeFlag[]、CodeParam[])、及び符号化パラメータを含む。この特定のヘッダ構成は、フレーム内の等しい持続時間のセグメント、及び分析ブロック持続時間の2のべき乗であるセグメントを仮定する。フレームのセグメンテーションは、チャンネルセット内のチャンネルにわたって及びチャンネルセットにわたって均一である。
図11aに示すように、ヘッダは、所定のフレーム内のRAPの存在及びロケーションを指定する共通ヘッダにおけるRAPパラメータ530を更に含む。この実施形態では、ヘッダは、RAPがプレゼントである場合には、RAPフラグ=真を含む。RAPのIDは、望ましいRAPでビットストリームにアクセスする場合に復号を開始するために、RAPセグメントのセグメント数を指定する。代替的に、RAP_MASKは、RAPでないセグメントを指示するために使用することができる。RAPは、全てのチャンネルセットにわたって一貫していることになる。
図11bに示すように、ヘッダは、全体のフレーム、又はトランジエントの場合にトランジエントの前のフレームの第1パーティションのいずれかにおけるチャンネルchに対するAdPredOrder[0][ch]=適応予測子のオーダー又はFixedPredOrder[0][ch]=固定予測子のオーダーを含む。適応予測が選択された(AdPredOrder[0][ch]>0)の場合、適応予測係数が符号化され、AdPredCodes[0][ch][AdPredOrder[0][ch]]に圧縮される。
MPPSの場合、ヘッダは、チャンネルセットヘッダ情報にトランジエントパラメータ532を更に含む。この実施形態では、各チャンネルセットヘッダは、トランジエントがチャンネルchで検出された場合、ExtraPredSetsPrsent[ch]フラグ=真、StartSegment[ch]=チャンネルchに対するトランジエント開始セグメントを指示する指標、及びAdPredOrder[1][ch]=適応予測子のオーダー又はFixedPredOrder[1][ch]=フレームポストにおける第2パーティションに利用可能でトランジエントを含むチャンネルchに対する固定予測子のオーダーを含む。適応予測が選択された(AdPredOrder[1][ch]>0)の場合、適応予測係数の第2セットが符号化され、AdPredCodes[1][ch][AdPredOrder[1][ch]]に圧縮される。トランジエントの存在及びロケーションは、チャンネルセット内のチャンネルにわたって及びチャンネルセットにわたって変えることができる。
分析ウィンドウ処理
図4a及び4bに示すように、分析ウィンドウ処理22の例示的な実施形態は、極めて一般的な手法である適応予測46又は固定多項式予測48のいずれかから選択し、各チャンネルを非相関にする。図6aに関して詳しく説明するように、最適予測子オーダーが、各チャンネルに対して推定される。オーダーがゼロよりも大きい場合、適応予測が加えられる。そうでなければ、より単純な固定多項式予測が使用される。同様に、復号器では、逆分析ウィンドウ処理44が、逆適応予測50又は逆固定多項式予測52のいずれかから選択し、残留信号からPCMオーディオを再構成する。適応予測子オーダー及び適応予測係数指標及び固定予測子オーダーは、チャンネルセットヘッダ情報に圧縮される(53)。
クロス−チャンネル非相関
本発明によると、圧縮性能は、チャンネル間の相関尺度に従ってM入力チャンネルをチャンネル対にオーダー化するクロスチャンネル非相関54を実施することによって更に拡張することができる(望ましいRAPポイントでのM分析ブロック制約とは異なる「M」)。チャンネルの1つは、「ベース」チャンネルとして指定されており、他は、「相関」チャンネルとして指定されている。非相関チャンネルは、「トリプレット」(ベース、相関、非相関)を形成するために、各チャンネル対に対して生成される。トリプレットの形成は、セグメンテーション及びエントロピー符号化最適化中に考えられる2つの可能な対組合せ(ベース、相関)及び(ベース、非相関)を提供し、圧縮性能を更に改善する(図8aを参照)。
(ベース、相関)と(ベース、非相関)の間の判断は、(何らかのエネルギ尺度に基づいて)適応セグメンテーションの前に又は適応セグメンテーションと統合して実行することができる。前者の手法は、複雑さを低減し、後者は、効率を上げる。「ハイブリッド」手法は、相関チャンネルよりもかなり小さな分散(閾値に基づいて)を備えた非相関チャンネルを有するトリプレットに対して使用することができ、適応セグメンテーションの前の非相関チャンネルによる相関チャンネルの単純な置換が使用され、同時に、全ての他のトリプレットに対して、符号化相関又は非相関チャンネルに関する判断が、適応セグメンテーション処理に委ねられる。これは、符号化効率を犠牲にすることなく適応セグメンテーション処理の複雑さを幾らか単純にする。
オリジナルM−chのPCM20及びM/2−ch非相関PCM56は、両方とも適応予測及び固定多項式予測演算に転送され、チャンネルの各々に対する残留信号を生成する。図3に示すように、対方式非相関処理中に実行される選別の前のチャンネルのオリジナルオーダーを指示する指標(OrigChOrder[])及び量子化非相関係数に対するコードの存在を指示する各チャンネル対に対するフラグPWChDecorrFlag[]が、図3のチャンネルセットヘッダ36に記憶される。
図4bに示すように、逆分析ウィンドウ処理44の復号演算を実行するために、ヘッダ情報は、解凍され(58)、残り(RAPセグメントの最初のオリジナルサンプル)は、ヘッダ情報、すなわち、各チャンネルに対する適応及び固定予測子オーダーに従って逆固定多項式予測52又は逆適応予測50のいずれかを通過する。チャンネルにおけるトランジエントの存在下では、チャンネルセットは、そのチャンネルに対する予測パラメータの2つの異なるセットを有することになる。M−チャンネル非相関PCMオーディオ(M/2チャンネルがセグメンテーション中に廃棄される)が、チャンネルセットヘッダからOrigChOrder[]指標及びPWChDecorrFlagg[]フラグを読み取る逆クロスチャンネル非相関60を通過させられ、M−チャンネルPCMオーディオ20を無損失で再構成する。
クロスチャンネル非相関54を実行するための例示的な処理が図5に示されている。一例として、PCMオーディオが、M=6の個別のチャンネル、L、R、C、Ls、Rs、及びLFEとして提供され、これは、フレームに記憶された1つのチャンネルセット構成に直接対応する。他のチャンネルセットは、例えば、中央左側後方サラウンド及び中央右側後方サラウンドとすることができ、7.1サラウンドオーディオを生成する。処理は、フレームループを開始し、チャンネルセットループを開始することによって始まる(段階70)。各チャンネルに対するゼロ−ラグ自己相関推定値(段階72)及びチャンネルセットにおけるチャンネル対の全ての可能な組合せに対するゼロ−ラグ相互相関推定値(段階74)が計算される。次に、チャンネル対方式相関係数CORCOEFは、対における包含されたチャンネルに対するゼロ−ラグ自己相関推定値の積によって割算されたゼロ−ラグ相互相関推定値として推定される(段階76)。CORCOEFは、最も大きな絶対値から最も小さな絶対値に分類され、テーブルに記憶される(段階78)。テーブルの最上位から開始して、対応するチャンネル対指標は、全ての対が構成されるまで抽出される(段階80)。例えば、6チャンネルは、(L、R)、(Ls、Rs)、及び(C、LFE)としてそのCORCOEFに基づいて対にすることができる。
処理は、チャンネル対ループを開始し(段階82)、低エネルギを指示する小さなゼロ−ラグ自己相関推定値を有するものとして「ベース」チャンネルを選択する(段階84)。この例では、L、Ls及びCチャンネルは、ベースチャンネルを形成する。チャンネル対非相関係数(ChPairDecorrCoeff)は、ベースチャンネルのゼロ−ラグ自己相関推定値によって割算されるゼロ−ラグ相互相関推定値として計算される(段階86)。非相関チャンネルが、ベースチャンネルサンプルをCHPairDecorrCoeffで乗算し、かつ相関チャンネルの対応するサンプルからその結果を減算することによって生成される(段階88)。チャンネル対及びその関連付けられた非相関チャンネルは、「トリプレット」を定める(L、R、R−ChPairDecorrCoeff[1]*L)、(Ls、Rs、Rs−ChPairDecorrCoeff[2]*Ls)、(C、LFE、LFE−ChPairDecorrCoeff[3] *C)(段階89)。各チャンネル対(及び各チャンネルセット)に対するChPairDecorrCoeff[]及び対構成を定めるチャンネル指標が、チャンネルセットヘッダ情報に記憶される(段階90)。この処理は、フレームにおける各チャンネルセットに対して、かつ次にウィンドウPCMオーディオにおける各フレームに対して繰り返される(段階92)。
RAP及びトランジエントに対するセグメント開始ポイントの判断
望ましいRAP及び/又は検出されたトランジエントに対応するために、セグメント開始及び持続時間制約を判断するための例示的な手法が、図12から14に示されている。処理されるオーディオデータの最小ブロックは、「分析ブロック」と呼ばれる。分析ブロックは、符号化器でのみ目に見え、復号器は、セグメントを処理するだけである。例えば、分析ブロックは、64分析ブロックを含む32msフレームにおけるオーディオデータの0.5msを表すことができる。セグメントは、1つ又はそれよりも多くの分析ブロックから成る。理想的には、フレームは、望ましいRAP又は検出されたトランジエントが、RAP又はトランジエントセグメントの第1分析ブロックに入るように仕切られる。しかし、望ましいRAP又はトランジエントのロケーションに応じて、この条件を保証するために、符号化フレームペイロードをあまりにも増加させるサブ最適セグメンテーション(非常に短いセグメント持続時間)を強いる場合がある。従って、トレードオフは、あらゆる望ましいRAPも、RAPセグメントの開始のM分析ブロック内(チャンネル非相関ルーチンにおけるMチャンネルとは異なる「M」)に入らなくてはならず、かついかなるトランジエントも、対応するチャンネルにおけるトランジエントセグメントの開始に続く最初のL分析ブロック内になくてはならないと指定することである。M及びLは、フレームにおける分析ブロックの総数よりも小さく、各条件に対する望ましいアラインメント許容範囲を保証するように選択される。例えば、フレームが64分析ブロックを含む場合、M及び/又はLは、1、2、4、8、又は16とすることができる。一般的に、総数よりも小さい2のべき乗及び一般的にその小さな部分(僅か25%)は、真のサブ−フレーム解像度を提供する。更に、フレーム内で変えることができるセグメント持続時間は、適応セグメンテーションアルゴリズムを有意に複雑にし、符号化効率における比較的小さな改善と共にヘッダオーバーヘッドビットを増加させる。この結果、一般的な実施形態は、セグメントをフレーム内の等しい持続時間及び分析ブロック持続時間の2のべき乗に等しい持続時間に制限し、例えば、P=0、1、2、4、8などである場合、セグメント持続時間=2P*分析ブロック持続時間である。より一般的なケースでは、アルゴリズムが、RAP又はトランジエントセグメントの開始を指定する。制約されたケースでは、アルゴリズムは、条件が満たされることを保証する各フレームに対する最大セグメント持続時間を指定する。
図12に示すように、チャプター又はシーンの開始を指定するビデオタイミングコードのような望ましいRAPを含む符号化タイミングコードは、アプリケーション層によって提供される(段階600)。上述のM及びLの最大値を指示するアラインメント許容範囲が提供される(段階602)。フレームは、複数の分析ブロックにブロック化され、望ましいRAPを分析ブロックに整列させるためにタイミングコードに同期化される(段階603)。望ましいRAPがフレーム内にある場合、符号化器は、RAP分析ブロックがRAPセグメントの開始前又は後のM分析ブロック内になくてはならない場合にRAPセグメントの開始を固定する(段階604)。望ましいRAPが、RAPセグメントの開始のM分析ブロック内のRAPセグメントに先行するセグメントに実際に入ることができる点に注意されたい。この手法は、適応/固定予測分析を開始し(段階605)、チャンネルセットループを開始し(段階606)、かつ図13に示されているルーチンを呼び出すことによってチャンネルセットにおける適応/固定予測分析を開始する(段階608)。チャンネルセットループは、ExtraPredSetsPresent[ ] =偽の場合に(AdPredOrder[0][]、FixedPredOrder[0][]、及びAdpredCodes[0][][])である予測パラメータの1つのセット、又はExtraPredSetsPresent[ ] =真の場合に(AdPredOrder[0][]、FixedPredOrder[0][]、AdpredCodes[0][][]、AdPredOrder[1][]、FixedPredOrder[1][]、及びAdPredCodes[1][][])である予測パラメータの2つのセット、チャンネルあたりのあらゆる検出されたトランジエントの残余及びロケーション(StartSegment[])(段階612)を戻すルーチンによって終了する(段階610)。段階608は、ビットストリームにおいて符号化される各チャンネルセットに対して繰り返される。各フレームに対するセグメント開始ポイントは、RAPセグメント開始ポイント及び/又は検出されたトランジエントセグメント開始ポイントから判断され、図16及び7a−7bの適応セグメンテーションアルゴリズムに送られる(段階614)。セグメント持続時間が均一かつ分析ブロック長の2のべき乗に制約される場合、最大セグメント持続時間は、固定開始ポイントに基づいて選択され、適応セグメンテーションアルゴリズムに送られる(段階616)。最大セグメント持続時間制約は、固定開始ポイントにプラスして持続時間における制約を加えて維持される。
チャンネルセットルーチンにおける開始適応/固定予測分析の例示的な実施形態(段階608)が、図13に示されている。ルーチンは、ch毎に指標付けされたチャンネルループを開始し(段階700)、フレームベースの予測係数及びパーティションベースの予測係数(トランジエントが検出された場合)を計算し、かつチャンネルあたり最良符号化効率を備えた手法を選択する。トランジエントが検出された場合でも、最も効率的な符号化は、トランジエントを無視することである。ルーチンは、あらゆる符号化トランジエントの予測パラメータセット、残余、及びロケーションも戻す。
より具体的には、ルーチンは、図6aに示す適応予測ルーチンを呼び出すことによってフレームベースの予測分析を実行し(段階702)、フレームベースの予測パラメータのセットを選択する(段階704)。パラメータのこの単一セットは、次に、フレームにおけるあらゆるRAPセグメントの開始も考察してオーディオサンプルのフレームに予測を実行するために使用される(段階706)。より具体的には、予測は、予測の順番まで第1サンプルに対してRAPセグメントの開始時に無効にされる。フレームベースの残余ノルムの尺度、例えば、残余エネルギは、残余値及び予測が無効にされたオリジナルサンプルから推定される。
並行して、ルーチンは、いずれかのトランジエントが現在のフレーム内の各チャンネルに対するオリジナル信号に存在するか否かを検出する(段階708)。閾値が、偽検出及び失敗検出の間の均衡を取るために使用される。トランジエントを包含する分析ブロックの指標が記録される。トランジエントが検出された場合、ルーチンは、トランジエントがセグメントの最初のL分析ブロック内に入るようにするために位置したトランジエントセグメントの開始ポイントを固定し(段階709)、更に、フレームは、第1及び第2パーティションに仕切られ、第2パーティションは、トランジエントセグメントの開始と一致する(段階710)。次に、ルーチンは、図6aに示す適応予測ルーチンを二度呼び出し(段階712)、第1及び第2パーティションに対してパーティションベースの予測パラメータの第1及び第2セットを選択する(段階714)。パラメータの2つのセットは、次に、フレームにおけるあらゆるRAPセグメントの開始も考察し、オーディオサンプルの第1及び第2パーティションそれぞれに予測を実行するために使用される(段階716)。パーティションベースの残余ノルムの尺度(例えば、残余エネルギ)は、予測が無効にされた場合、残余値及びオリジナルサンプルから推定される。
ルーチンは、各チャンネルに対する複数のパーティションに対して要求された増加したヘッダ情報を明らかにするために、フレームベースの残余ノルムを閾値によって乗算されたパーティションベースの残余ノルムと比較する(段階716)。フレームベースの残余エネルギが小さい場合、フレームベースの残余及び予測パラメータが戻され(段階718)、そうでなければ、パーティションベースの残余、予測パラメータの2つのセット、及び記録されたトランジエントの指標が、そのチャンネルに対して戻される(段階720)。チャンネル毎に指標付けされたチャンネルループ(段階722)及びチャンネルセットにおける適応/固定予測分析(段階724)は、終了の前に1つのセットにおけるチャンネル及びチャンネルセットの全てにわたって反復される。
単一のフレーム800に対するセグメント開始ポイント又は最大セグメント持続時間の判断が図14に示されている。フレーム800は、32msであり、持続時間において各々が0.5msの64の分析ブロック802を包含すると仮定する。ビデオタイミングコード804は、9番目の分析ブロック内に入る望ましいRAP806を指定する。トランジエント808及び810は、第5及び第18分析ブロック内にそれぞれ入るCH1及び2で検出される。制約されないケースでは、ルーチンは、分析ブロック5、9、及び18でセグメント開始ポイントを指定することができ、RAP及びトランジエントが、そのそれぞれのセグメントの第1分析ブロックに入るようにする。適応セグメンテーションアルゴリズムは、他の制約を満たすために更にフレームを分割し、これらの開始ポイントが維持される限りフレームペイロードを最小にすることができる。適応セグメンテーションアルゴリズムは、セグメント境界を変えることができ、かつ他の制約を満たすか又はペイロードをより最適化するために望ましいRAP又はトランジエントが指定された数の分析ブロック内に入るという条件を満たすことができる。
制約されるケースでは、ルーチンは、この実施例では、望ましいRAP及び2つのトランジエントの各々における条件を満たす最大セグメント持続時間を判断する。望ましいRAP806が第9分析ブロック内に入るので、RAPがRAPセグメントの第1分析ブロックに確実に入るようにする最大セグメント持続時間は、8x(分析ブロックの持続時間によってスケーリングされる)である。従って、許容可能なセグメントサイズ(分析ブロックの2の倍数として)は、1、2、4、及び8である。同様に、Ch1トランジエント808が第5分析ブロック内に入るので、最大セグメント持続時間は4である。CH2におけるトランジエント810は、第1分析ブロックで発生することを保証するために分析ブロックに等しいセグメント持続時間(1X)を必要とするのでより問題がある。しかし、トランジエントが第2分析ブロックに位置する場合、最大セグメント持続時間は16xである。これらの制約の下で、ルーチンは、4の最大セグメント持続時間を選択することができ、それによってフレームペイロードを最小にして他の制約を満足させるために、1x、2x、及び4xから適応セグメンテーションアルゴリズムが選択することを可能にする。
他の実施形態では、n番目毎のフレームの第1セグメントは、タイミングコードがそのフレームにおける異なるRAPセグメントを指定しない限り、デフォルトによってRAPセグメントとすることができる。デフォルトRAPは、例えば、ユーザが、ビデオタイミングコードによって指定されたRAPだけに制約されるのではなく、オーディオビットストリーム内をジャンプ又は「サーフィン」することを可能にするのに有用である場合がある。
適応予測
適応予測分析及び残余生成
線形予測は、オーディオ信号のサンプル間の相関関係を取り除こうとする。線形予測の基本原理は、前のサンプルs(n−1)、s(n−2)、...を使用してサンプルs(n)の値を予測し、オリジナルサンプルs(n)から予測された値:
Figure 2011516902
を差し引くことである。得られる残留信号:
Figure 2011516902
は、理想的には、非相関であり、この結果、平坦周波数スペクトルを有することになる。更に、残留信号は、より小さな分散を有することになり、オリジナル信号は、次に、より少ないビットがそのデジタル表現に必要であることを意味する。
オーディオコーデックの例示的な実施形態では、FIR予測子モデルは、以下の式によって表される:
Figure 2011516902
ここで、Q{}は、量子化演算を示し、Mは、予測子オーダーを示し、akは、量子化予測係数である。特定の量子化Q{}は、オリジナル信号が、様々な有限精度プロセッサアーキテクチャを使用して復号側において再構成されるので、無損失圧縮に必要である。Q{}の定義は、符号器及び復号器の両方に利用可能であり、オリジナル信号の再構成は、次式によって簡単に得られる:
Figure 2011516902
ここで、同じak量子化予測係数は、符号化器及び復号器の両方に利用可能であると仮定する。予測子パラメータの新しいセットは、各分析ウィンドウ(フレーム)に対して送信され、それによって予測子は、時間変化オーディオ信号構造に適応することができる。トランジエント検出のケースでは、予測パラメータの2つの新しいセットが、トランジエントが検出された各チャンネルに対するフレームに対して送信され、1つは、トランジエントの前の残余を復号するためであり、1つは、トランジエントを含みかつトランジエントの次の残余を復号するためである。
予測係数は、平均二乗予測残余を最小にするように設計されている。量子化Q{}は、予測子を非線形予測子にする。しかし、例示的な実施形態では、量子化は、24ビット精度によって行われ、得られる非線形効果が予測係数最適化中に無視されると仮定することが妥当である。量子化Q{}を無視して、元にある最適化問題は、信号自己相関シーケンスと未知の予測子係数のラグを伴う連立1次方程式として表される。この連立1次方程式は、レビンソン−ダービン(LD)アルゴリズムを使用して効率良く解くことができる。
得られる線形予測係数(LPC)は、量子化を必要とし、それによってこれらは、符号化ストリームで効率良く送信される。残念ながら、LPCの直接量子化は、小さな量子化エラーが大きなスペクトルエラーを引き起こす場合があるので、最も効率的な手法ではない。LPCの他の表現は、量子化エラーに対する感度をあまり示さない反射係数(RC)表現である。この表現は、LDアルゴリズムから取得することができる。LDアルゴリズムの定義により、RCは、マグニチュード≦1(数値エラーを無視する)を有することが保証される。RCの絶対値が1に近い場合、量子化RCに存在する量子化エラーへの線形予測の感度は高くなる。解法は、1付近の精密な量子化段階によってRCの不均一量子化を実行することである。これは、以下の2つの段階で達成することができる:
1)RCをマッピング関数によってログ−エリア比(LAR)表現に変換する:
Figure 2011516902
ここで、ログは、自然対数を示している。
2)LARを均一に量子化する。
RC→LAR変換は、パラメータの振幅スケールをワープし、それによって段階1及び2の結果は、1付近のより精密な量子化段階によって不均一量子化に同等である。
図6aに示すように、適応予測分析の例示的な実施形態では、量子化されたLARパラメータが、適応予測子パラメータを表すために使用され、符号化ビット−ストリームで送信される。各入力チャンネルにおけるサンプルは、互いに関係なく処理され、結果として、本説明は、単一チャンネルにおける処理のみを考慮することになる。
第1段階は、分析ウィンドウの持続時間にわたる自己相関シーケンスを計算することである(検出されたトランジエントの前及び後のフレーム全体又はパーティション)(段階100)。フレーム境界の不連続によって引き起こされるブロック効果を最小にするために、データは、最初にウィンドウに通される。ラグの指定された数(最大LPオーダー+1に等しい)に対する自己相関シーケンスは、ウィンドウに通されたデータのブロックから推定される。
レビンソン−ダービン(LD)アルゴリズムは、推定された自己相関ラグのセットに加えられ、最大LPオーダーまでの反射係数(RC)のセットが計算される(段階102)。(LD)アルゴリズムの中間結果は、最大LPオーダーまでの各線形予測オーダーに対する予測残余の推定される分散のセットである。次のブロックでは、残余分散のこのセットを使用して、線形予測子(AdPredOrder)オーダーが選択される(段階104)。
選択された予測子オーダーに対して、反射係数(RC)のセットが、上述のマッピング関数を使用してログ−エリア比パラメータ(LAR)のセットに変換される(段階106)。0による割算を避けるために、RCの制限が変換の前に導入される:
Figure 2011516902
ここで、Treshは、1に近いが1よりも小さい数を示している。LARパラメータは、以下の規則に従って量子化される(段階108):
Figure 2011516902
ここで、QLARIndは、量子化されたLAR指標を示し、[x]は、xよりも小さいか又は等しい最も大きな整数値を見つける演算を示し、qは、量子化段階サイズを示している。例示的な実施形態では、領域[−8から8]が、8ビットを使用して符号化される、すなわち、q=2*8/28、及び結果として、QLARIndは、次式に従って制限される:
Figure 2011516902
pQLARIndは、以下のマッピングを使用して符号付きから符号なしの値に変換される:
Figure 2011516902
「RC LUT」ブロックでは、LARパラメータの逆量子化及びRCパラメータへの変換が、ルック−アップテーブルを使用した単一段階で行われる(段階112)。ルック−アップテーブルは、逆RC→LARマッピング、すなわち、次式によって与えられるLAR→RCマッピングの量子化値から成る:
Figure 2011516902
ルックアップテーブルは、0、1.5*q、2.5*q、...127.5*qに等しいLARの量子化値で計算される。対応するRC値は、216によってスケーリングした後、16ビット符号なし整数に丸められ、128エントリテーブルにおいてQ16符号なし固定小数点数として記憶される。
量子化RCパラメータは、次式のようにテーブル及び量子化LAR指標QLARIndから計算される:
Figure 2011516902
ord=1、...AdPreOrderに対する量子化RCパラメータQRCordは、以下のアルゴリズムに従って量子化線形予測パラメータに変換される(ord=1、...AdPredOrderに対するLPord)(段階114):
Figure 2011516902
量子化RC係数がQ16符号つき固定小数点フォーマットで表されるので、上述のアルゴリズムは、Q16符号つき固定小数点フォーマットでLP係数を生成する。無損失復号器計算経路は、24ビット中間結果までサポートするように設計されている。従って、各Cord+1、mが計算された後に、飽和検査を実行する必要がある。飽和がアルゴリズムのいずれかのステージで発生する場合、飽和フラグが設定され、特定のチャンネルに対する適応予測子オーダーAdPredOrderが0にリセットされる(段階116)。AdpredOrder=0を備えたこの特定のチャンネルに対して、固定係数予測が、適応予測の代わりに行われる(固定係数予測を参照されたい)。符号なしLAR量子化指標(n=1、...AdPredOrder[Ch]に対するPackLARInd[n])は、AdPredOrder[Ch]>0を備えたチャンネルに対してのみ符号化ストリームに圧縮される。
最後に、AdPredOrder[Ch]>0を備えた各チャンネルに対して、適応線形予測が行われ、予測残余e(n)が、以下の式に従って計算される(段階118):
Figure 2011516902
例示的な実施形態における設計目標は、ある一定のフレームの特定のRAPセグメントが「ランダムアクセスポイント」であることなので、サンプル履歴は、先行セグメントからRAPセグメントに持ち越されない。代わりに、予測が、RAPセグメントにおけるAdPredOrder+1サンプルでのみ関わってくる。
適応予測残余e(n)は、更に、エントロピー符号化され、符号化ビットストリームに圧縮される。
復号側の逆適応予測
復号側では、逆適応予測を実行する場合の第1段階は、ヘッダ情報を解凍することである(段階120)。復号器が、再生タイミングコードに従って(例えば、チャプターのユーザ選択又はサーフィン)復号を開始しようにとする場合、復号器は、そのポイントの近くであるが前のオーディオビットストリームにアクセスし、フレームにおけるRAPセグメントの存在を指示するRAP_Flag=TRUEを見つけるまで、次のフレームのヘッダを検索する。次に、復号器は、RAPセグメントナンバー(RAP ID)及びナビゲーションデータ(NAVI)を抽出し、RAPセグメントの開始にナビゲートし、index>pred_orderになるまで予測を無効にし、かつ無損失復号を開始する。復号器は、フレーム及び次のフレームにおける残りのセグメントを復号し、RAPセグメントが出現する度に予測を無効にする。ExtraPredSetsPrsnt=TRUEが、チャンネルに対してフレームで出現した場合、復号器は、予測パラメータの第1及び第2セット及び第2セットに対する開始セグメントを抽出する。
各チャンネルCh=1、...NumChに対する適応予測オーダーAdPredOrder[Ch]が抽出される。次に、AdPredOrder[Ch]>0を有するチャンネルに対して、LAR量子化指標の符号なしバージョン(n=1、...AdPredOrder[Ch]に対するAdPredCodes[n])が抽出される。予測オーダーAdPredOrder[Ch]>0を有する各チャンネルChに対して、符号なしAdPredCodes[n]が、以下のマッピングを使用して符号付き値QLARInd[n]にマップされる:
Figure 2011516902
ここで、>>は、整数右方シフト演算を示している。
LARパラメータの逆量子化及びRCパラメータへの変換は、「Quant RC LUT」を使用した単一段階で行われる(段階122)。これは、符号化側で定められたのと同じルックアップテーブルTABLE{}である。各チャンネルChに対する量子化反射係数(n=1、...AdPredOrder[Ch]に対するQRC[n])が、次式の通りにTABLE{}及び量子化LAR指標QLARInd[n]から計算される:
Figure 2011516902
各チャンネルChに対して、ord=1、...AdPredOrder[Ch]に対する量子化RCパラメータQRCordは、以下のアルゴリズムに従って量子化線形予測パラメータ(ord=1、...AdPredOrder[Ch]に対するLPord)に変換される(段階124):
Figure 2011516902
中間結果の飽和のあらゆる可能性も、符号化側において取り除かれる。従って、復号側においては、各Cord+1、mの計算後に飽和検査を実行する必要はない。
最後に、AdPredOrder[Ch]>0を有する各チャンネルに対して、逆適応線形予測が行われる(段階126)。予測残余e(n)が以前に抽出及びエントロピー復号されていると仮定すると、再構成オリジナル信号s(n)は、以下の式に従って計算される:
Figure 2011516902
サンプル履歴がRAPセグメントで保持されないので、逆適応予測は、RAPセグメントにおける(AdPredOrder[Ch]+1)サンプルから開始することになる。
固定係数予測
線形予測の非常に単純な固定係数形式は、有用であることが見出されている。固定予測係数は、Shortenによって最初に提案された非常に単純な多項式近似法に従って得られる(T.Robinson.SHORTEN著「簡単な無損失及び無損失に近い波形圧縮」、技術報告156、ケンブリッジ大学工学部、トランピントン通り、ケンブリッジ、CB21PZ、英国、1994年12月)。このケースでは、予測係数は、p次多項式を最後のpデータポイントに当て嵌めることによって指定されるものである。以下の4つの近似に拡張する。
Figure 2011516902
これらの多項式近似の興味深い特性は、得られる残留信号:
Figure 2011516902
が、以下の再帰法で効率良く実施することができるということである。
Figure 2011516902
固定係数予測分析が、1フレームあたりに適用され、前のフレームで計算されたサンプル(ek[−1]=0)には頼らない。フレーム全体にわたって最小和マグニチュードを有する残余セットは、最良近似として定められる。最適残余オーダーは、各チャンネルに対して別々に計算され、固定予測オーダー(FPO[Ch])としてストリームに圧縮される。現在のフレームにおける残余eFPO[Ch][n]は、更にエントロピー符号化されストリームに圧縮される。
逆固定係数予測処理は、復号側において、サンプリングインスタンスnでのkオーダー残余の計算のためのオーダー再帰式によって定められる:
Figure 2011516902
ここで、望ましいオリジナル信号s[n]は、次式によって与えられる:
Figure 2011516902
ここで、各kオーダー残余に対してek[−1]=0である。一例として、第3オーダー固定係数予測に対する再帰は、残余e3[n]が符号化される場合に示され、ストリームで送信され、復号側において解凍される:
Figure 2011516902
段階126で行われる逆線形予測は、適応又は固定に関わらず、m+1セグメントがRAPセグメント900である場合について図15aに、及びm+1セグメントがトランジエントセグメント902である場合について図15bに示されている。5タップ予測子904は、無損失オーディオサンプルを再構成するのに使用される。一般的に、予測子は、現在のサンプル910を無損失で再構成するために現在の残余908に加えられる予測された値906を生成するために、5つの前の無損失で再構成されたサンプルを再結合する。RAP実施例では、圧縮オーディオビットストリーム912における最初の5サンプルは、圧縮されていないオーディオサンプルである。この結果、予測子は、前のサンプルからあらゆる履歴も必要とすることなくセグメントm+1での無損失復号を開始することができる。言い換えると、セグメントm+1は、ビットストリームのRAPである。トランジエントがセグメントm+1で検出された場合、セグメントm+1及びフレームの残余に対する予測パラメータは、セグメント1からmで使用されたものとは異なるものになる点に注意されたい。トランジエントの例では、セグメントm及びm+1におけるサンプルの全てが、残余であり、RAPではない。復号が開始され、予測子に対する予測履歴が利用可能である。図示のように、セグメントm及びm+1におけるオーディオサンプルを無損失で再構成するために、予測パラメータの異なるセットが使用される。セグメントm+1で第1無損失サンプル1を生成するために、予測子は、セグメントmから最後の5つの無損失で再構成されたサンプルを使用してセグメントm+1に対するパラメータを使用する。セグメントm+1がRAPセグメントである場合、セグメントm+1の最初の5つのサンプルは、オリジナルサンプルであり、残余ではない点に注意されたい。一般的に、所定のフレームは、RAP又はトランジエントのいずれも包含せず、実際に、これはより一般的な結果である。代替的に、フレームは、RAPセグメント又はトランジエントセグメント又は両方を含むことができる。1つのセグメントは、RAP及びトランジエントセグメントの両方とすることができる。
セグメント開始条件及び最大セグメント持続時間が、望ましいRAP又はセグメント内の検出されたトランジエントの許容可能なロケーションに基づいて設定されるので、最適セグメント持続時間の選択は、望ましいRAP又は検出されたトランジエントが、RAP又はトランジエントセグメントの次のセグメント内に実際に入るビットストリームを生成することができる。これは、境界M及びLが比較的大きく、かつ最適セグメント持続時間がM及びLよりも小さい場合に起こる場合がある。望ましいRAPは、実際には、RAPセグメントに先行するセグメントに入るが、指定された許容範囲にある場合がある。符号化側におけるアラインメント許容範囲の条件は、依然として維持され、復号器は、その差を知らない。復号器は、RAP及びトランジエントセグメントに単純にアクセスする。
セグメンテーション及びエントロピーコード選択
適応セグメンテーションアルゴリズムによって対処される制約された最適化問題が図16に示されている。問題は、各オーディオセグメントが、バイトの最大数よりも小さい符号化セグメントペイロードによって完全にかつ無損失で復号可能であるという制約に影響を受ける符号化フレームペイロードを最小にするような方法で、マルチチャンネルオーディオの1つ又はそれよりも多くのチャンネルセットをVBRビットストリームに符号化することである。バイトの最大数は、フレームサイズよりも小さく、一般的には、ビットストリームを読み取るための最大アクセスユニットサイズによって設定される。望ましいRAPが、RAPセグメントの開始のプラス又はマイナスM分析ブロック内に入らなくてはならず、かつトランジエントが、セグメントの最初のL分析ブロック内に入らなくてはならないようにセグメントが選択されることを要求することにより、ランダムアクセス及びトランジエントに対応するために問題が更に制約される。最大セグメント持続時間は、復号器出力バッファのサイズによって更に制約される。この実施例では、フレーム内のセグメントは、同じ長さ、及び分析ブロック持続時間の2のべき乗になるように制約される。
図16に示すように、符号化フレームペイロード930を最小にするための最適セグメント持続時間は、付加的なオーバヘッドビットのコストに対して多数のより短い持続時間セグメントに対する予測利得における改善を均衡させる。この実施例では、1フレームあたり4セグメントが、2又は8セグメントのいずれよりも小さいフレームペイロードを提供する。2セグメントソリューションは、第2セグメントに対するセグメントペイロードが最大セグメントペイロード制約932を超えるので、不適切である。2及び4セグメントパーティションの両方に対するセグメント持続時間は、例えば、復号器出力バッファサイズ、RAPセグメント開始ポイントのロケーション、及び/又はトランジエントセグメント開始ポイントのロケーションの何らかの組合せによって設定される最大セグメント持続時間934を超える。この結果、適応セグメンテーションアルゴリズムは、等しい持続時間の8セグメント936、及びそのパーティションに対して最適化された予測及びエントロピー符号化パラメータを選択する。
制約されたケース(均一セグメント、分析ブロック持続時間の2のべき乗)に対するセグメンテーション及びエントロピーコード選択24の例示的な実施形態が、図7a−b及び8a−bに示されている。最適セグメント持続時間を設定するために、符号化パラメータ(エントロピーコード選択及びパラメータ)及びチャンネル対、符号化パラメータ及びチャンネル対が、最大セグメント持続時間まで複数の異なるセグメント持続時間に対して判断され、これらの候補の中から、各セグメントが完全に及び無損失で復号可能であり、かつ最大サイズ(バイトの数)を超えないという制約を満たす1フレームあたり最小符号化ペイロードを有するものが選択される。「最適」セグメンテーション、符号化パラメータ、及びチャンネル対は、勿論、符号化処理の制約、並びにセグメントサイズにおける制約を受ける。例えば、例示的な処理では、フレームでの全てのセグメントの持続時間は等しく、最適持続時間に対する検索は、分析ブロック持続時間に等しく2のべき乗ずつ増加するセグメント持続時間で始まる2項グリッドで行われ、チャンネル対選択は、フレーム全体にわたって有効である。付加的な符号化器の複雑さ及びオーバーヘッドビットの代償として、持続時間は、フレーム内で変えることができ、最適持続時間の検索をより精密に解決することができ、かつチャンネル対選択を1セグメントあたりで実行することができる。この「制約された」ケースでは、いずれの望ましいRAP又は検出されたトランジエントも指定された解像度内のセグメントの開始に整列することを保証する制約が、最大セグメント持続時間に具現化される。
例示的な処理は、セグメントにおけるサンプルの最小数、セグメントの最大許容可能符号化ペイロードサイズ、セグメントの最大数及びパーティションの最大数、及び最大セグメント持続時間のようなセグメントパラメータを初期化すること(段階150)によって始まる。その後、処理は、0からパーティションの最大数マイナス1まで指標付けされているパーティションループを始め(段階152)、かつセグメントの数、セグメントにおけるnumサンプル、及びパーティションで消費されるバイトの数を含むパーティションパラメータを初期化する(段階154)。この特定的な実施形態では、セグメントは、等しい持続時間であり、セグメントの数は、各パーティション反復によって2のべき乗としてスケーリングされる。セグメントの数は、最大に初期化されるのが好ましく、従って、最小持続時間は、1つの分析ブロックに等しい。しかし、処理は、持続時間を変化させるセグメントを使用することができると考えられ、これは、RAP及びトランジエント条件を満足させるために、付加的なオーバヘッド及び付加的な複雑さになるが、オーディオデータの最適な圧縮を提供することができるであろう。更に、セグメントの数は、2のべき乗に制限する必要はなく、又は最小から最大の持続時間から検索される。このケースでは、望ましいRAP及び検出されたトランジエントによって判断されたセグメント開始ポイントは、適応セグメンテーションアルゴリズムにおける付加的な制約である。
初期化された状態で、処理は、チャンネルセットループを開始し(段階156)、各セグメントに対する最適エントロピー符号化パラメータ及びチャンネル対選択及び対応するバイト消費を判断する(段階158)。符号化パラメータPWChDecooFlag[][]、AllChSameParamFlag[][]、RiceCodeFlag[][][]、CodeParam[][][]、及びChSetByteCons[][]が記憶される(段階160)。これは、チャンネルセットループが終了するまで各チャンネルセットに対して繰り返される(段階162)。
処理は、セグメントループを開始し(段階164)、全てのチャンネルセットにわたって各セグメントにおけるバイト消費(SegmByteCons)を計算し(段階166)、かつバイト消費を更新する(ByteConsInPart)(段階168)。この時点で、セグメントのサイズ(バイトでの符号化セグメントペイロード)が、最大サイズ制約と比較される(段階170)。制約が侵された場合、現在のパーティションが廃棄される。更に、処理が最小持続時間から始まるので、セグメントサイズが大き過ぎた場合は、パーティションループが終了し(段階172)、そのポイントに対する最良ソリューション(持続時間、チャンネル対、符号化パラメータ)がヘッダに圧縮され(段階174)、かつ処理は、次のフレームに移る。制約が最小セグメントサイズに対して不足する場合(段階176)、次に、最大サイズ制約を満たすことができないので、処理は終了し、かつエラーを報告する(段階178)。制約が満たされたと仮定すると、この処理は、セグメントループが終了するまで現在のパーティションにおける各セグメントに対して繰り返される(段階180)。
セグメントループが完了し、ByteConsinPartによって表されるフレーム全体に対するバイト消費が計算された状態で、このペイロードは、前のパーティション反復からの現在の最小ペイロード(MinByteInPart)と比較される(段階182)。現在のパーティションが改善を表す場合、現在のパーティション(PartInd)は、最適パーティション(OptPartind)として記憶され、最小ペイロードが更新される(段階184)。これらのパラメータ及び記憶された符号化パラメータは、次に、現在の最適ソリューションとして記憶される(段階186)。これは、セグメンテーション情報及び符号化パラメータが図3及び11a及び11bに示すようにヘッダに圧縮されるポイントで(段階150)、最大セグメント持続時間によってパーティションループが終了するまで繰り返される(段階172)。
現在のパーティションに対するチャンネルセットのための最適符号化パラメータ及び関連のビット消費を判断する(段階158)ための例示的な実施形態が、図8a及び8bに示されている。処理は、セグメントループ(段階190)及びチャンネルループ(段階192)を開始し、ここで、本発明者による現在の実施例に対するチャンネルは以下の通りである。
Ch1:L、
Ch2:R
Ch3:R−ChPairDecorrCoeff[1]*
Ch4:Ls
Ch5:Rs
Ch6:Rs−ChPairDecorrCoeff[2]*Ls
Ch7:C
Ch8:LFE
Ch9:LFE−ChPairDecorrCoeff[3]*C)
処理は、ベースチャンネル及び相関チャンネルに対するエントロピーコードのタイプ、対応する符号化パラメータ、及び対応するビット消費を判断する(段階194)。この実施例では、処理は、バイナリコード及びRiceコードに対する最適符号化パラメータを計算し、次に、チャンネル及び各セグメントに対する最低ビット消費を有するものを選択する(段階196)。一般的に、最適化は、1、2、又はそれよりも多くの可能なエントロピーコードに対して実行することができる。バイナリコードでは、ビットの数は、現在のチャンネルのセグメントにおける全サンプルの最大絶対値から計算される。Rice符号化パラメータは、現在のチャンネルのセグメントにおける全サンプルの平均絶対値から計算される。選択に基づいて、RiceCodeFlagが設定され、BitConsが設定され、かつCodeParamが、NumBitsBinary又はRiceKParamのいずれかに設定される(段階198)。
処理される現在のチャンネルが相関チャンネルである場合(段階200)、同じ最適化が、対応する非相関チャンネルに対して繰り返され(段階202)、最良エントロピーコードが選択され(段階204)、かつ符号化パラメータが設定される(段階206)。処理は、チャンネルループが終了するまで繰り返され(段階208)、セグメントループは終了する(段階210)。
この時点で、各セグメント及び各チャンネルに対する最適符号化パラメータが判断される。これらの符号化パラメータ及びペイロードは、オリジナルPCMオーディオからチャンネル対(ベース、相関)に対して戻すことができる。しかし、圧縮性能は、トリプレットにおける(ベース、相関)と(ベース、非相関)チャンネル内で選択することによって改善することができる。
3つのトリプレットに対するチャンネル対(ベース、相関)又は(ベース、非相関)を判断するために、チャンネル対ループが開始され(段階211)、全体的なフレームビット消費への各相関チャンネル(Ch2、Ch5及びCh8)及び各非相関チャンネル(Ch3、Ch6及びCh9)の寄与が計算される(段階212)。各相関チャンネルに対するフレーム消費の寄与が、対応する非相関チャンネルに対するフレーム消費の寄与に対して、すなわち、Ch2対Ch3、Ch5対Ch6、及びCh8対Ch9(段階214)で比較される。非相関チャンネルの寄与が相関チャンネルよりも大きい場合、PWChDecorrrFlagは偽に設定される(段階216)。そうでなければ、相関チャンネルは、非相関チャンネルで置換され(段階218)、PWChDecorrrFlagは真に設定され、チャンネル対は、(ベース、非相関)として構成される(段階220)。
これらの比較に基づいて、アルゴリズムは以下を選択する:
1.対応するベースチャンネルCh1と対にされるチャンネルとしてCh2又はCh3のいずれか、
2.対応するベースチャンネルCh4と対にされるチャンネルとしてCh5又はCh6のいずれか、かつ
3.対応するベースチャンネルCh7と対にされるチャンネルとしてCh8又はCh9のいずれか。
これらの段階は、ループが終了するまで全てのチャンネル対に対して繰り返される(段階222)。
この時点で、各セグメント及び各個別チャンネルに対する最適符号化パラメータ及び最適チャンネル対が判断される。各個別チャンネル対及びペイロードに対するこれらの符号化パラメータは、パーティションループに戻すことができる。しかし、付加的な圧縮性能は、全てのチャンネルにわたる各セグメントに対するグローバル符号化パラメータのセットを計算することによって利用可能になる。高々、ペイロードの符号化データ部分は、各チャンネルに対して最適化された符号化パラメータと同じサイズ及び場合があるとすれば幾らか大きいものになる。しかし、オーバーヘッドビットにおける低減は、データの符号化効率のオフセット以上のものがあると考えられる。
同じチャンネル対を使用して、処理は、セグメントループを開始し(段階230)、符号化パラメータの個別のセットを使用してチャンネル全てに対する1セグメントあたりのビット消費(ChSetByteCons[seg])を計算し(段階232)、かつChSetByteCons[seg]を記憶する(段階234)。符号化パラメータのグローバルセット(エントロピーコード選択及びパラメータ)が、次に、全てのチャンネルをわたることを除いて従来通りに同じバイナリコード及びRiceコード計算を使用してチャンネルの全てにわたってセグメントに対して判断される(段階236)。最良パラメータが選択され、バイト消費(SegmByteCons)が計算される(段階238)。SegmBytesConsは、CHSetByteCons[seg]と比較される(段階240)。グローバルパラメータを使用することがビット消費を低減しない場合、AllChSamParamFlag[seg]が偽に設定される(段階242)。そうでなければ、AllChSameParamFlag[seg]は真に設定され(段階244)、グローバル符号化パラメータ及び1つのセグメントあたりの対応するビット消費が保存される(段階246)。この処理は、セグメントループの終わりに達するまで繰り返される(段階248)。全処理は、チャンネルセットループが終了するまで繰り返される(段階250)。
符号化処理は、異なる機能が少ないフラグの制御によって無効にすることができるように構成されている。例えば、1つの単一フラグは、対方式チャンネル非相関分析が実行されるか否かを制御する。別のフラグは、適応予測(固定予測に対する更に別のフラグ)分析が実行されるか否かを制御する。更に、単一フラグは、全てのチャンネルにわたるグローバルパラメータの検索が実行されるか否かを制御する。セグメンテーションは、パーティションの数及び最小セグメント持続時間(最も単純な形式では、所定のセグメント持続時間を有する単一パーティションとすることができる)を設定することによって制御可能である。フラグは、RAPセグメントの存在を指示し、別のフラグは、トランジエントの存在を指示する。基本的に、符号化器において少数のフラグを設定することにより、符号化器は、単純なフレーミング及びエントロピー符号化に崩すことができる。
後方互換性無損失オーディオコーデック
無損失コーデックは、損失性コア符号器と組み合わせて「拡張符号器」として使用することができる。「損失性」コアコードストリームは、コアビットストリームとして圧縮され、無損失で符号化された差信号は、別の拡張ビットストリームとして圧縮される。拡張された無損失機能による復号器における復号に応答して、損失性及び無損失ストリームは、無損失再構成信号を構成するために結合される。事前生成復号器では、無損失ストリームは無視され、コア「損失性」ストリームが、コアストリームのバンド幅及びSN比特性を提供するために、高品質マルチチャンネルオーディオ信号に復号される。
図9は、マルチチャンネル信号の1つのチャンネルに対する後方互換性無損失符号化器400のシステムレベルビューを示している。デジタル化オーディオ信号、適切には、M−ビットPCMオーディオサンプルが入力402で提供される。デジタル化オーディオ信号は、修正された損失性コア符号化器404を超えるサンプリング速度及びバンド幅を有することが好ましい。一実施形態では、デジタル化オーディオ信号のサンプリング速度は、96kHzである(サンプルオーディオに対する48kHzのバンド幅に対応する)。入力オーディオは、マルチチャンネル信号とすることができ、マルチチャンネル信号であるのが好ましく、ここでは、各チャンネルは96kHzでサンプリングされていることも理解すべきである。以下の説明は、単一チャンネルの処理に着目するが、マルチチャンネルへの拡張は分かり易いものである。入力信号は、ノード406で複製され、並行ブランチで処理される。信号経路の第1ブランチでは、修正損失性広帯域符号化器404が信号を符号化する。以下に詳しく説明する修正コア符号化器404は、圧縮器又はマルチプレクサ410に運ばれる符号化コアビットストリーム408を生成する。コアビットストリーム408は、修正コア復号器412に伝達され、修正コア復号器412が、出力として、修正再構成コア信号414を生成する。
一方、並行経路での入力デジタル化オーディオ信号402は、(修正符号化及び修正復号器により)再構成オーディオストリームに導入される遅延にほぼ等しい補償遅延416を受け、遅延デジタル化オーディオストリームを生成する。オーディオストリーム400は、加算ノード420で遅延デジタル化オーディオストリーム414から減算される。
加算ノード420は、オリジナル信号及び再構成コア信号を表す差信号422を生成する。純粋に「無損失」符号化を達成するために、無損失符号化技術によって差信号を符号化及び送信する必要がある。従って、差信号422は、無損失符号化器424によって符号化され、拡張ビットストリーム426が、圧縮器410でコアビットストリーム408と共に圧縮され、出力ビットストリーム428を生成する。
無損失符号化は、無損失符号器の必要性に対応するために、可変ビットレートである拡張ビットストリーム426を生成する。圧縮されたストリームは、次に、任意的に、チャンネル符号化を含む更に別の層の符号化を受け、次に、送信又は記録される。この開示の目的のために、記録は、チャンネルを通じた送信として考えることができる。
拡張バンド幅を処理することができる実施形態では、コア符号化器は修正を必要とするので、コア符号化器404は、「修正された」として説明される。符号化器内の64バンド分析フィルタバンク430は、その出力データ432の半分を廃棄し、コアサブバンド符号化器434は、より低い32周波数バンドだけを符号化する。この廃棄された情報は、いかなるケースでも信号スペクトルの上部半分を再構成できないレガシー復号器には関係ない。残りの情報は、後方互換性コア出力ストリームを形成するために未修正符号化器により符号化される。しかし、48kHzサンプリング速度又はこれより下で作動する別の実施形態では、コア符号化器は、以前のコア符号化器の実質的に修正されていないバージョンとすることができる。同様に、レガシー復号器のサンプリング速度より上の演算では、修正コア復号器412は、サンプルを低32サブバンドで復号するコアサブバンド復号器436を含む。修正コア復号器は、低32サブバンドからサブバンドサンプルを取り、上部32帯域438に対する送信されていないサブバンドサンプルを消去し、64帯域QMF合成フィルタ440を使用して全64バンドを再構成する。従来のサンプリング速度での演算(例えば、48kHz及びこれより下)では、コア復号器は、以前のコア復号器又は均等物の実質的に修正されていないバージョンとすることができる。一部の実施形態では、サンプリング速度の選択は、符号化時に行われ、符号化及び復号モジュールが、必要に応じてソフトウエアによってその時間に再構成される。
無損失符号化器が差信号を符号化するのに使用されるので、単純なエントロピーコードで十分であると考えられる。しかし、既存の損失性コアコーデックにおけるビットレート制限のために、無損失ビットストリームを提供するのに必要な総ビットのかなりの量が残っている。更に、コアコーデックのバンド幅制限のために、差信号における24kHzより上の情報コンテンツは、まだ相関付けられている。例えば、30kHzを遥かに超えるものに達するトランペット、ギター、トライアングル..を含むたくさんの高調波成分がある。従って、より高度な無損失コーデックは、圧縮性能及び価値を改善する。更に、一部のアプリケーションでは、コア及び拡張ビットストリームは、復号可能なユニットが最大サイズを超えてはならないという制約を満たさなくてはならない。本発明の無損失コーデックは、これらの制約を満足させるための改善した圧縮性能及び改善した柔軟性の両方を提供する。
一例として、24ビット96KhzPCMオーディオの8チャンネルは、18.5Mbpsを必要とする。無損失圧縮は、これを約9Mbpsまで低減することができる。DTSコヒーレントアコースティックは、7.5Mbpsの差信号をそのままにして、1.5Mbpsでコアを符号化する。2kバイト最大セグメントサイズに対して、平均セグメント持続時間は、96kHzで2048*8/7500000=2.18ミリ秒又は大体209サンプルである。最大サイズを満足させるための損失性コアの一般的なフレームサイズは、10及び20ミリ秒の間である。
システムレベルでは、無損失コーデック及び後方互換性無損失コーデックは、既存の損失性コーデックとの後方互換性を維持しながら拡張されたバンド幅で余分のオーディオチャンネルを無損失で符号化するために結合することができる。例えば、18.5Mbpsでの96kHzオーディオの8チャンネルは、1.5Mbpsでの48kHzオーディオの5.1チャンネルを含むために無損失で符号化することができる。コアプラス無損失符号化器は、5.1チャンネルを符号化するのに使用される。無損失符号化器は、5.1チャンネルにおける差信号を符号化するのに使用される。残りの2チャンネルは、無損失符号化器を使用して個別のチャンネルで符号化される。セグメント持続時間を最適化しようにとする場合に全てのチャンネルセットを考慮する必要があるので、符号化ツールの全ては、1つの方法又は別の方法で使用される。互換性復号器は、全ての8チャンネルを復号し、96kHz18.5Mbpsオーディオ信号を無損失で再構成する。古い復号器は、5.1チャンネルのみを復号し、48kHz1.5Mbpsを再構成する。
一般的に、1つよりも多い純粋な無損失チャンネルセットが、復号器の複雑さをスケーリングするために提供される。例えば、10.2オリジナルミックスに対して、チャンネルセットは、以下のように組織される:
−CHSET1は、5.1を運び(組込み10.2から5.1ダウンミックスにより)、かつコア+無損失を使用して符号化される。
−CHSET1及びCHSET2は、7.1を運び(組込み10.2から7.1ダウンミックスにより)、ここで、CHSET2は、無損失を使用して2チャンネルを符号化する。
−CHSET1+CHSET2+CHSET3は、全個別10.2ミックスを運び、ここで、CHSET3は、無損失のみを使用して残りの3.1チャンネルを符号化する。
5.1だけを復号することができる復号器は、CHSET1のみを復号し、全ての他のチャンネルセットを無視することになる。7.1だけを復号することができる復号器は、CHSET1及びCHSET2を復号し、全ての他のチャンネルセットを無視することになる。
更に、損失性プラス無損失コアは、5.1に制限されない。現在の実施例は、損失性(コア+XCh)及び無損失を使用して6.1までをサポートし、チャンネルセットのいずれの数でも組織される一般m.nチャンネルをサポートすることができる。損失性符号化は、5.1後方互換性コアを有し、損失性コーデックによって符号化された全ての他のチャンネルは、XXCh拡張に入る。これは、既存の復号器との後方互換性をそのままにし、同時に付加的なチャンネルをサポートするために、かなりの設計柔軟性を全体的な無損失符号化に提供する。
本発明のいくつかの例示的な実施形態を示して説明したが、多数の変形及び代替実施形態が当業者には想起されるであろう。このような変形及び代替実施形態は、想定されており、添付の特許請求の範囲に規定される本発明の精神及び範囲から逸脱することなく行うことができる。
20 マルチチャンネルPCMオーディオ
22 分析ウィンドウ処理
24 最適セグメンテーション及びエントロピーコード選択処理
30 ビットストリーム

Claims (50)

  1. ランダムアクセスポイント(RAP)を備えたマルチチャンネルオーディオを無損失可変ビットレート(VBR)オーディオビットストリームに符号化する方法であって、
    望ましいランダムアクセスポイント(RAP)を指定する符号化タイミングコードをオーディオビットストリームに受信する段階と、
    少なくとも1つのチャンネルセットを含むマルチチャンネルオーディオを各フレームがヘッダ及び複数のセグメントを含む等しい持続時間のフレームにブロック化する段階と、
    各前記セグメントが1つ又はそれよりも多くの分析ブロックの持続時間を有する等しい持続時間の複数の分析ブロックに各フレームをブロック化する段階と、
    望ましいRAPを分析ブロックに整列させるために前記符号化タイミングコードをフレームのシーケンスに同期させる段階と、
    を含み、
    各連続フレームに対して、
    前記符号化タイミングコードにおいて望ましいRAPに整列する1つのRAP分析ブロックまで判断する段階と、
    RAPセグメントの開始を固定し、それによって前記RAP分析ブロックが該開始のM分析ブロック内に入る段階と、
    前記チャンネルセットにおける各チャンネルに対して前記フレームのための予測パラメータの少なくとも1つのセットを判断する段階と、
    前記予測パラメータに従って前記チャンネルセットにおける各チャンネルに対する前記オーディオフレームを圧縮し、予測が、残余オーディオサンプルによって先行される及び/又はその後に続くオリジナルオーディオサンプルを生成するために、前記RAPセグメントの前記開始に続く予測オーダーまで最初のサンプルに対して無効にされる段階と、
    各セグメントが完全に及び無損失で復号可能であるべきであるという制約を受ける前記フレームの可変サイズ符号化ペイロードを低減し、前記フレーム持続時間よりも短い持続時間を有し、かつ前記フレームサイズよりも少ないバイトの最大数よりも少ない符号化セグメントペイロードを有するように、前記オリジナル及び残余オーディオサンプルから各セグメントに対するセグメント持続時間及びエントロピー符号化パラメータを判断する段階と、
    セグメント持続時間、前記RAPの存在及びロケーションを指示するRAPパラメータ、予測及びエントロピー符号化パラメータ、及びビットストリームナビゲーションデータを含むヘッダ情報を前記ビットストリームにおけるフレームヘッダ内に詰め込む段階と、
    各セグメントに対する前記圧縮されたかつエントロピー符号化されたオーディオデータを前記ビットストリームにおけるフレームセグメント内に詰め込む段階と、
    を含む、
    ことを特徴とする方法。
  2. 前記符号化タイミングコードは、ビデオ信号の特定の部分の開始に対応する望ましいRAPを指定するビデオタイミングコードであることを特徴とする請求項1に記載の方法。
  3. 前記オーディオビットストリームにおける前記RAPセグメントの前記開始のM分析ブロック内に前記RAP分析ブロックを配置する段階が、前記望ましいRAPの指定されたアラインメント許容範囲内の復号機能を保証することを特徴とする請求項1に記載の方法。
  4. Nフレーム毎の最初のセグメントが、望ましいRAPが該フレーム内に入らない限りデフォルトRAPセグメントであることを特徴とする請求項1に記載の方法。
  5. 前記チャンネルセットの1つ又はそれよりも多くのチャンネルに対する前記フレームにおける分析ブロック内のトランジエントの存在を検出する段階と、
    あらゆる検出されたトランジエントがそれらのそれぞれのチャンネルにおけるセグメントの最初のL分析ブロック内に位置するように前記フレームを仕切る段階と、
    検出されたトランジエントの前のかつそれを含まないセグメントに対する予測パラメータの第1セット、及び前記チャンネルセットにおける各チャンネルに対する該トランジエントを含みかつその後のセグメントに対する予測パラメータの第2セットを判断する段階と、
    RAP分析ブロックが、前記RAPセグメントの前記開始のM分析ブロック内に入らなければならず、かつトランジエントが、対応するチャンネルのセグメントの最初のL分析ブロック内に入らなければならない前記セグメント持続時間を判断する段階と、
    を更に含むことを特徴とする請求項1に記載の方法。
  6. 前記RAP分析ブロックが、前記RAPセグメントの前記開始のM分析ブロック内に入り、かつ前記トランジエントが、セグメントの最初のL分析ブロック内に入るように、該RAP分析ブロックのロケーション及び/又はトランジエントのロケーションを使用して分析ブロック持続時間の2のべき乗として最大セグメント持続時間を判断する段階、
    を更に含み、
    前記分析ブロック持続時間の2のべき乗であり、かつ前記最大セグメント持続時間を超えない均一セグメント持続時間が、前記制約を受ける符号化フレームペイロードを低減するように判断される、
    ことを特徴とする請求項5に記載の方法。
  7. 前記RAP分析ブロックが、前記RAPセグメントの前記開始のM分析ブロック内に入るように、該RAP分析ブロックのロケーションを使用して分析ブロック持続時間の2のべき乗として最大セグメント持続時間を判断する段階、
    を更に含み、
    前記分析ブロック持続時間の2のべき乗であり、かつ前記最大セグメント持続時間を超えない均一セグメント持続時間が、前記制約を受ける符号化フレームペイロードを低減するように判断される、
    ことを特徴とする請求項1に記載の方法。
  8. 前記最大セグメント持続時間は、復号器において利用可能な出力バッファサイズによって更に制約されることを特徴とする請求項7に記載の方法。
  9. 前記符号化セグメントペイロードに対するバイトの最大数が、前記オーディオビットストリームのアクセスユニットサイズ制約によって課せられることを特徴とする請求項1に記載の方法。
  10. 前記RAPパラメータは、RAPの存在を指示するRAPフラグと該RAPのロケーションを指示するRAPのIDとを含むことを特徴とする請求項1に記載の方法。
  11. 第1チャンネルセットが、5.1マルチチャンネルオーディオを含み、第2チャンネルセットが、少なくとも1つの付加的なオーディオチャンネルを含むことを特徴とする請求項1に記載の方法。
  12. ベース、相関チャンネル、及び非相関チャンネルを含むトリプレットを形成するためにチャンネルの対に対して非相関チャンネルを生成する段階、ベース及び相関チャンネルを含む第1チャンネル対又はベース及び非相関チャンネルを含む第2チャンネル対のいずれかを選択する段階、及び該選択されたチャンネル対における該チャンネルをエントロピー符号化する段階を更に含むことを特徴とする請求項1に記載の方法。
  13. 前記チャンネル対は、
    前記非相関チャンネルの分散が、閾値だけ前記相関チャンネルの分散よりも小さい場合に、セグメント持続時間を判断する前に前記第2チャンネル対を選択し、
    そうでなければ、どのチャンネル対が前記符号化ペイロードに対して最も少ないビットに寄与するかに基づくセグメント持続時間の判断まで前記第1又は第2チャンネルの選択を延期する、
    ことによって選択される、
    ことを特徴とする請求項12に記載の方法。
  14. 実行された時に請求項1に記載の方法を実施するコンピュータ実行可能命令、
    を含むことを特徴とする、1つ又はそれよりも多くのコンピュータ可読媒体。
  15. 請求項1に記載の方法を実施するように構成されたデジタル回路、
    を含むことを特徴とする、1つ又はそれよりも多くの半導体装置。
  16. ランダムアクセスポイント(RAP)で無損失可変ビットレート(VBR)マルチチャンネルオーディオビットストリームの復号を開始する方法であって、
    可変長フレームペイロードを有し、かつマルチチャンネルオーディオ信号に対する複数のオーディオチャンネルを含む少なくとも1つの独立に復号可能かつ無損失で再構成可能なチャンネルセットを含む複数のセグメントに仕切られたフレームのシーケンスとして無損失VBRマルチチャンネルオーディオビットストリームを受信し、各フレームが、セグメント持続時間、1つのRAPセグメントまでの存在及びロケーションを指示するRAPパラメータ、ナビゲーションデータ、各該チャンネルセットにおける各該チャンネルに対する予測係数を含むチャンネルセットヘッダ情報、及び少なくとも1つのエントロピーコードフラグ及び少なくとも1つのエントロピー符号化パラメータを含む各該チャンネルセットに対するセグメントヘッダ情報を含むヘッダ情報と、前記番号のセグメントに記憶されたエントロピー符号化圧縮マルチチャンネルオーディオ信号とを含む段階と、
    前記ビットストリームにおける次のフレームのヘッダを取り出して、RAPセグメントを有するフレームが検出されるまで前記RAPパラメータを抽出する段階と、
    前記選択されたフレームのヘッダを取り出して、前記セグメント持続時間及びナビゲーションデータを抽出し、前記RAPセグメントの開始にナビゲートする段階と、
    前記少なくとも1つの前記チャンネルセットに対するヘッダを取り出して、前記エントロピーコードフラグ及び符号化パラメータ及び前記エントロピー符号化圧縮マルチチャンネルオーディオ信号を抽出し、かつ該選択されたエントロピーコード及び符号化パラメータを使用して前記RAPセグメントにエントロピー復号を実施して該RAPセグメントに対する圧縮オーディオ信号を生成し、予測オーダーまでの該RAPセグメントの前記第1オーディオサンプルが解凍されている段階と、
    前記少なくとも1つの前記チャンネルセットのヘッダを取り出して予測係数を抽出し、かつ前記圧縮オーディオ信号を再構成し、予測が、前記RAPセグメントに対する該チャンネルセットにおける各オーディオチャンネルに対するPCMオーディオを無損失で再構成するために前記予測オーダーまで前記第1オーディオサンプルに対して無効にされる段階と、
    前記フレーム及びその後のフレームにおける前記セグメントの残余を順々に復号する段階と、
    を含むことを特徴とする方法。
  17. 前記符号化タイミングコードにおいて指定された望ましいRAPが、前記ビットストリームにおける前記RAPセグメントの前記開始のアラインメント許容範囲内に入ることを特徴とする請求項16に記載の方法。
  18. フレーム内の前記RAPセグメントのロケーションが、前記符号化器タイミングコードにおける前記望ましいRAPのロケーションに基づいて前記ビットストリームを通して変化することを特徴とする請求項17に記載の方法。
  19. 取り消し
  20. 別のRAPセグメントが次のフレームに出現した時に復号が開始された後で、前記予測は、無損失で前記PCMオーディオを再構成し続けるために前記予測オーダーまで最初のオーディオサンプルに対して無効にされることを特徴とする請求項16に記載の方法。
  21. 前記セグメント持続時間は、望ましいRAPが前記RAPセグメントの前記開始の指定された許容範囲内に整列するという制約を受ける前記フレームペイロードを低減し、各符号化セグメントペイロードは、前記フレームサイズよりも小さい最大ペイロードサイズよりも小さく、かつ前記セグメントが取り出された状態で完全に復号可能かつ無損失で再構成可能であることを特徴とする請求項16に記載の方法。
  22. セグメントの数及び持続時間は、前記符号化セグメントペイロードがバイトの最大数よりも小さく、無損失で再構成可能という制約を受ける各フレームの前記可変長ペイロードを最小にするために、フレーム毎に変化し、符号化タイミングコードにおいて指定された望ましいRAPが、前記RAPセグメントの前記開始のアラインメント許容範囲内に入ることを特徴とする請求項16に記載の方法。
  23. 各チャンネルにおけるトランジエントセグメントの存在及びロケーションを指示するトランジエントパラメータを含むヘッダ情報と、トランジエントが存在しない場合はフレームベースの予測係数の単一セット、及びトランジエントが各前記チャンネルセットに存在する場合はパーティションベースの予測係数の第1及び第2セットを含む各該チャンネルに対する予測係数とを含む各フレームを受信する段階と、
    前記少なくとも1つの前記チャンネルセットに対するヘッダを取り出して前記トランジエントパラメータを抽出し、該チャンネルセットにおける各チャンネルでのトランジエントセグメントの存在及びロケーションを判断する段階と、
    前記少なくとも1つの前記チャンネルセットに対するヘッダを取り出し、トランジエントの存在に応じて、各チャンネルに対するフレームベースの予測係数の単一セット又はパーティションベースの予測係数の第1及び第2セットを抽出する段階と、
    前記チャンネルセットにおける各チャンネルに対して、PCMオーディオを無損失で再構成するために、前記フレームにおける全セグメントに対する前記圧縮オーディオ信号に前記予測係数の単一セットを適用するか、又は第1セグメントで始まる前記圧縮オーディオ信号に前記予測係数の第1セットを適用し、かつ前記トランジエントセグメントで始まる前記圧縮オーディオ信号に前記予測係数の第2セットを適用するかのいずれかを行う段階と、
    を更に含むことを特徴とする請求項16に記載の方法。
  24. 前記ビットストリームは、対方式チャンネル非相関フラグ、オリジナルチャンネルオーダー、及び量子化チャンネル非相関係数を含むチャンネルセットヘッダ情報を更に含み、前記再構成は、非相関PCMオーディオを生成し、
    前記ヘッダを取り出して、前記オリジナルチャンネルオーダー、前記対方式チャンネル非相関フラグ、及び前記量子化チャンネル非相関係数を抽出し、かつ前記チャンネルセットにおける各オーディオチャンネルに対するPCMオーディオを再構成するために逆クロスチャンネル非相関を実施する段階、
    を更に含むことを特徴とする請求項16に記載の方法。
  25. 前記対方式チャンネル非相関フラグは、ベース及び相関チャンネルを含む第1チャンネル対、又は該ベース、相関及び非相関チャンネルを含むトリプレットに対して該ベース及び非相関チャンネルを含む第2チャンネル対のいずれが符号化されているかを指示し、
    前記フラグが第2チャンネル対を指示する場合に、前記ベースチャンネルを前記量子化チャンネル非相関係数によって乗算し、かつそれを前記非相関チャンネルに加えて前記相関チャンネルにおけるPCMオーディオを生成する段階、
    を更に含むことを特徴とする請求項24に記載の方法。
  26. 実行された時に請求項16に記載の方法を実施するコンピュータ実行可能命令、
    を含むことを特徴とする、1つ又はそれよりも多くのコンピュータ可読媒体。
  27. 請求項16に記載の方法を実施するように構成されたデジタル回路、
    を含むことを特徴とする、1つ又はそれよりも多くの半導体装置。
  28. マルチチャンネルオーディオを無損失可変ビットレート(VBR)オーディオビットストリームに符号化する方法であって、
    少なくとも1つのチャンネルセットを含むマルチチャンネルオーディオを、各フレームが、ヘッダ及び複数のセグメントを含み、各該セグメントが、1つ又はそれよりも多くの分析ブロックの持続時間を有する等しい持続時間のフレームにブロック化する段階、
    を含み、
    各連続フレームに対して、
    前記チャンネルセットの各チャンネルに対して前記フレームでのトランジエント分析ブロックにおけるトランジエントの存在を検出する段階と、
    あらゆるトランジエント分析ブロックがそれらの対応するチャンネルにおけるセグメントの最初のL分析ブロック内に位置するように前記フレームを仕切る段階と、
    前記トランジエント分析ブロックの前のかつそれを含まないセグメントに対する予測パラメータの第1セットと、前記チャンネルセットにおける各チャンネルに対する前記トランジエント分析ブロックを含みかつそれに続くセグメントに対する予測パラメータの第2セットとを判断する段階と、
    第1及び第2パーティションそれぞれに対して前記予測パラメータの第1及び第2セットを使用して前記オーディオデータを圧縮し、残余オーディオ信号を生成する段階と、
    前記残余オーディオサンプルから各セグメントに対するセグメント持続時間及びエントロピー符号化パラメータを判断して、各セグメントが、完全かつ無損失で復号可能であり、フレーム持続時間よりも少ない持続時間を有し、かつフレームサイズよりも少ないバイトの最大数よりも少ない符号化セグメントペイロードを有するべきであるという制約を受ける前記フレームの可変サイズ符号化ペイロードを低減する段階と、
    セグメント持続時間、前記トランジエントの存在及びロケーションを指示するトランジエントパラメータ、予測パラメータ、エントロピー符号化パラメータ、及びビットストリームナビゲーションデータを含むヘッダ情報を前記ビットストリームにおけるフレームヘッダに詰め込む段階と、
    各セグメントに対する前記圧縮かつエントロピー符号化されたオーディオデータを前記ビットストリームにおける前記フレームセグメントに詰め込む段階と、
    を含む、
    ことを特徴とする方法。
  29. 前記チャンネルセットにおける各チャンネルに対して、
    フレーム全体に対する予測パラメータの第3セットを判断する段階と、
    フレーム全体に対して前記予測パラメータの第3セットを使用して前記オーディオデータを圧縮し、残余オーディオ信号を生成する段階と、
    予測パラメータの第3セット又は第1及び第2セットのいずれかをそれらのそれぞれの残余オーディオ信号から符号化効率の尺度に基づいて選択する段階と、
    を更に含み、
    前記第3セットが選択された場合には、セグメントの開始のL分析ブロック内の前記トランジエントのロケーションに関するセグメント持続時間に対する前記制約を無効にする、
    ことを特徴とする請求項28に記載の方法。
  30. 望ましいランダムアクセスポイント(RAP)を指定するタイミングコードを前記オーディオビットストリームに受信する段階と、
    前記タイミングコードから前記フレーム内の1つのRAP分析ブロックまでを判断する段階と、
    前記RAP分析ブロックが前記開始のM分析ブロック内に入るようにRAPセグメントの開始を固定する段階と、
    前記フレームを仕切る時に前記RAPセグメントによって課せられるセグメント境界を考慮して、前記予測パラメータの第1及び第2セットを判断する段階と、
    前記RAPセグメントの前記開始に続く予測オーダーまで第1サンプルに対する該予測を無効にし、前記予測パラメータの前記第1及び第2、及び第3セットに対して残余オーディオサンプルによって先行される及び/又はその後に続くオリジナルオーディオサンプルを生成する段階と、
    RAP分析ブロックが、前記RAPセグメントの前記開始のM分析ブロックと共にあり、及び/又はトランジエント分析ブロックが、セグメントの最初のL分析ブロック内に入るべきであるという制約を満足させながら、符号化フレームペイロードを低減する前記セグメント持続時間を判断する段階と、
    前記RAPの存在及びロケーションを指示するRAPパラメータ及びビットストリームナビゲーションデータを前記フレームヘッダに詰め込む段階と、
    を更に含むことを特徴とする請求項28に記載の方法。
  31. 前記トランジエント分析ブロックの検出されたロケーションを使用して、前記トランジエントがセグメントの最初のL分析ブロック内に入るように前記分析ブロック持続時間の2のべき乗として最大セグメント持続時間を判断する段階、
    を更に含み、
    前記分析ブロック持続時間の2のべき乗であり、かつ前記最大セグメント持続時間を超えない均一セグメント持続時間が、前記制約を受ける符号化フレームペイロードを低減するように判断される、
    ことを特徴とする請求項28に記載の方法。
  32. 前記最大セグメント持続時間は、復号器で利用可能な出力バッファサイズによって更に制約されることを特徴とする請求項31に記載の方法。
  33. 前記符号化セグメントペイロードに対するバイトの最大数が、前記オーディオビットストリームのアクセスユニットサイズ制約によって課せられることを特徴とする請求項28に記載の方法。
  34. 前記ビットストリームは、第1及び第2チャンネルセットを含み、
    方法が、それぞれのチャンネルセットにおける少なくとも1つのチャンネルに対する様々なロケーションでのトランジエントの検出に基づいて、各チャンネルセットにおける各チャンネルに対する予測パラメータの第1及び第2セットを選択し、
    前記セグメント持続時間は、各前記トランジエントが該トランジエントが発生するセグメントの最初のL分析ブロック内に入るように判断される、
    ことを特徴とする請求項28に記載の方法。
  35. 前記第1チャンネルセットは、5.1マルチチャンネルオーディオを含み、前記第2チャンネルセットは、少なくとも1つの付加的なオーディオチャンネルを含むことを特徴とする請求項34に記載の方法。
  36. 前記トランジエントパラメータは、トランジエントの存在を指示するトランジエントフラグと、該トランジエントが発生するセグメント番号を指示するトランジエントIDとを含むことを特徴とする請求項28に記載の方法。
  37. チャンネルの対に対して非相関チャンネルを生成してベース、相関、及び非相関チャンネルを含むトリプレットを形成する段階、ベース及び相関チャンネルを含む第1チャンネル対、又はベース及び非相関チャンネルを含む第2チャンネル対のいずれかを選択する段階、及び該選択されたチャンネル対における該チャンネルをエントロピー符号化する段階を更に含むことを特徴とする請求項28に記載の方法。
  38. 前記チャンネル対は、
    前記非相関チャンネルの分散が、閾値だけ前記相関チャンネルの分散よりも小さい場合に、セグメント持続時間を判断する前に前記第2チャンネル対を選択し、
    そうでなければ、どのチャンネル対が前記符号化ペイロードに対して最も少ないビットに寄与するかに基づくセグメント持続時間の判断まで前記第1又は第2チャンネルの選択を延期する、
    ことによって選択される、
    ことを特徴とする請求項37に記載の方法。
  39. 実行された時に請求項28に記載の方法を実施するコンピュータ実行可能命令、
    を含むことを特徴とする、1つ又はそれよりも多くのコンピュータ可読媒体。
  40. 請求項28に記載の方法を実施するように構成されたデジタル回路、
    を含むことを特徴とする、1つ又はそれよりも多くの半導体装置。
  41. 無損失可変ビットレート(VBR)マルチチャンネルオーディオビットストリームを復号する方法であって、
    無損失VBRマルチチャンネルオーディオビットストリームを、可変長フレームペイロードを有し、かつマルチチャンネルオーディオ信号に対して複数のオーディオチャンネルを含む少なくとも1つの独立して復号可能でありかつ無損失で再構成可能なチャンネルセットを含む複数のセグメントに仕切られたフレームのシーケンスとして受信し、各フレームが、セグメント持続時間、各チャンネルにおけるトランジエントセグメントの存在及びロケーションを指示するトランジエントパラメータを含むチャンネルセットヘッダ情報、トランジエントが存在しない場合にフレームベースの予測係数の単一セット及びトランジエントが各該チャンネルセットに存在する場合にパーティションベースの予測係数の第1及び第2セットを含む各該チャンネルに対する予測係数、及び少なくとも1つのエントロピーコードフラグ及び少なくとも1つのエントロピー符号化パラメータを含む各該チャンネルセットに対するセグメントヘッダ情報を含むヘッダ情報と、前記番号のセグメントに記憶されたエントロピー符号化圧縮マルチチャンネルオーディオ信号とを含む段階と、
    前記ヘッダを取り出して、前記セグメント持続時間を抽出する段階と、
    前記少なくとも1つの前記チャンネルセットに対するヘッダを取り出して、各セグメントに対する前記エントロピーコードフラグ及び符号化パラメータ及び前記エントロピー符号化圧縮マルチチャンネルオーディオ信号を抽出し、かつ該選択されたエントロピーコード及び符号化パラメータを使用して各セグメントに対してエントロピー復号を実施し、各セグメントに対する圧縮オーディオ信号を生成する段階と、
    前記少なくとも1つの前記チャンネルセットに対するヘッダを取り出し、前記トランジエントパラメータを抽出して該チャンネルセットにおける各チャンネルでのトランジエントセグメントの存在及びロケーションを判断する段階と、
    前記少なくとも1つの前記チャンネルセットに対するヘッダを取り出し、トランジエントの存在に応じて、各チャンネルに対するフレームベースの予測係数の単一セット又はパーティションベースの予測係数の第1及び第2セットを抽出する段階と、
    前記チャンネルセットにおける各チャンネルに対して、PCMオーディオを無損失で再構成するために、前記フレームにおける全セグメントに対する前記圧縮オーディオ信号に前記予測係数の単一セットを適用するか、又は第1セグメントで始まる前記圧縮オーディオ信号に前記予測係数の第1セットを適用し、かつ前記トランジエントセグメントで始まる前記圧縮オーディオ信号に前記予測係数の第2セットを適用するかのいずれかを行う段階と、
    含むことを特徴とする方法。
  42. 前記ビットストリームは、対方式チャンネル非相関フラグ、オリジナルチャンネルオーダー、及び量子化チャンネル非相関係数を含むチャンネルセットヘッダ情報を更に含み、前記再構成は、非相関PCMオーディオを生成し、
    前記ヘッダを取り出して、前記オリジナルチャンネルオーダー、前記対方式チャンネル非相関フラグ、及び前記量子化チャンネル非相関係数を抽出し、かつ前記チャンネルセットにおける各オーディオチャンネルに対するPCMオーディオを再構成するために逆クロスチャンネル非相関を実施する段階、
    を更に含むことを特徴とする請求項41に記載の方法。
  43. 前記対方式チャンネル非相関フラグは、ベース及び相関チャンネルを含む第1チャンネル対、又は該ベース、相関及び非相関チャンネルを含むトリプレットに対して該ベース及び非相関チャンネルを含む第2チャンネル対のいずれが符号化されているかを指示し、
    前記フラグが第2チャンネル対を指示する場合に、前記ベースチャンネルを前記量子化チャンネル非相関係数によって乗算し、かつそれを前記非相関チャンネルに加えて前記相関チャンネルにおけるPCMオーディオを生成する段階、
    を更に含むことを特徴とする請求項42に記載の方法。
  44. 1つのRAPセグメントまでの存在及びロケーションを指示するRAPパラメータ及びナビゲーションデータを含むヘッダ情報を有するフレームを受信する段階と、
    RAPセグメントを有するフレームが検出されるまでその次のフレームに飛んでRAPでの復号を開始しようにとする場合に、前記RAPパラメータを抽出するために前記ビットストリームにおける該次のフレームのヘッダを取り出し、かつ該RAPセグメントの始まりにナビゲートするために前記ナビゲーションデータを使用する段階と、
    RAPセグメントが出現した時に、前記PCMオーディオを無損失で再構成するために予測オーダーまで第1オーディオサンプルに対する予測を無効にする段階と、
    を更に含むことを特徴とする請求項41に記載の方法。
  45. セグメントの数及び持続時間は、前記符号化セグメントペイロードが、フレームサイズよりも小さいバイトの最大数よりも小さく、かつ無損失で再構成可能であるという制約を受ける各フレームの可変長ペイロードを最小にするために、フレーム毎に変化することを特徴とする請求項41に記載の方法。
  46. 実行された時に請求項41に記載の方法を実施するコンピュータ実行可能命令、
    を含むことを特徴とする、1つ又はそれよりも多くのコンピュータ可読媒体。
  47. 請求項41に記載の方法を実施するように構成されたデジタル回路、
    を含むことを特徴とする、1つ又はそれよりも多くの半導体装置。
  48. ランダムアクセスポイント(RAP)で無損失可変ビットレート(VBR)マルチチャンネルオーディオビットストリームの復号を開始するためのマルチチャンネルオーディオ復号器であって、
    可変長フレームペイロードを有し、かつマルチチャンネルオーディオ信号に対する複数のオーディオチャンネルを含む少なくとも1つの独立に復号可能かつ無損失で再構成可能なチャンネルセットを含む複数のセグメントに仕切られたフレームのシーケンスとして無損失VBRマルチチャンネルオーディオビットストリームを受信して、各フレームが、セグメント持続時間、1つのRAPセグメントまでの存在及びロケーションを指示するRAPパラメータ、ナビゲーションデータ、各該チャンネルセットにおける各該チャンネルに対する予測係数を含むチャンネルセットヘッダ情報、及び少なくとも1つのエントロピーコードフラグ及び少なくとも1つのエントロピー符号化パラメータを含む各該チャンネルセットに対するセグメントヘッダ情報を含むヘッダ情報と、前記番号のセグメントに記憶されたエントロピー符号化圧縮マルチチャンネルオーディオ信号とを含み、
    前記ビットストリームにおける次のフレームのヘッダを取り出して、RAPセグメントを有するフレームが検出されるまで前記RAPパラメータを抽出し、
    前記選択されたフレームのヘッダを取り出して、前記セグメント持続時間及びナビゲーションデータを抽出し、前記RAPセグメントの開始にナビゲートし、
    前記少なくとも1つの前記チャンネルセットに対するヘッダを取り出して、前記エントロピーコードフラグ及び符号化パラメータ及び前記エントロピー符号化圧縮マルチチャンネルオーディオ信号を抽出し、かつ該選択されたエントロピーコード及び符号化パラメータを使用して前記RAPセグメントにエントロピー復号を実施して該RAPセグメントに対する圧縮オーディオ信号を生成し、予測オーダーまでの該RAPセグメントの前記第1オーディオサンプルが解凍されており、
    前記少なくとも1つの前記チャンネルセットのヘッダを取り出して予測係数を抽出し、かつ前記圧縮オーディオ信号を再構成し、予測が、前記RAPセグメントに対する該チャンネルセットにおける各オーディオチャンネルに対するPCMオーディオを無損失で再構成するために前記予測オーダーまで前記第1オーディオサンプルに対して無効にされ、かつ
    前記フレーム及びその後のフレームにおける前記セグメントの残余を順々に復号する、
    ように構成されていることを特徴とする復号器。
  49. 取り消し
  50. 無損失可変ビットレート(VBR)マルチチャンネルオーディオビットストリームを復号するためのマルチチャンネルオーディオ復号器であって、
    無損失VBRマルチチャンネルオーディオビットストリームを、可変長フレームペイロードを有し、かつマルチチャンネルオーディオ信号に対して複数のオーディオチャンネルを含む少なくとも1つの独立して復号可能でありかつ無損失で再構成可能なチャンネルセットを含む複数のセグメントに仕切られたフレームのシーケンスとして受信して、各フレームが、セグメント持続時間、各チャンネルにおけるトランジエントセグメントの存在及びロケーションを指示するトランジエントパラメータを含むチャンネルセットヘッダ情報、トランジエントが存在しない場合にフレームベースの予測係数の単一セット及びトランジエントが各該チャンネルセットに存在する場合にパーティションベースの予測係数の第1及び第2セットを含む各該チャンネルに対する予測係数、及び少なくとも1つのエントロピーコードフラグ及び少なくとも1つのエントロピー符号化パラメータを含む各該チャンネルセットに対するセグメントヘッダ情報を含むヘッダ情報と、前記番号のセグメントに記憶されたエントロピー符号化圧縮マルチチャンネルオーディオ信号とを含み、
    前記ヘッダを取り出して、前記セグメント持続時間を抽出し、
    前記少なくとも1つの前記チャンネルセットに対するヘッダを取り出して、各セグメントに対する前記エントロピーコードフラグ及び符号化パラメータ及び前記エントロピー符号化圧縮マルチチャンネルオーディオ信号を抽出し、かつ該選択されたエントロピーコード及び符号化パラメータを使用して各セグメントに対してエントロピー復号を実施し、各セグメントに対する圧縮オーディオ信号を生成し、
    前記少なくとも1つの前記チャンネルセットに対するヘッダを取り出し、前記トランジエントパラメータを抽出して該チャンネルセットにおける各チャンネルでのトランジエントセグメントの存在及びロケーションを判断し、
    前記少なくとも1つの前記チャンネルセットに対するヘッダを取り出し、トランジエントの存在に応じて、各チャンネルに対するフレームベースの予測係数の単一セット又はパーティションベースの予測係数の第1及び第2セットを抽出し、かつ
    前記チャンネルセットにおける各チャンネルに対して、PCMオーディオを無損失で再構成するために、前記フレームにおける全セグメントに対する前記圧縮オーディオ信号に前記予測係数の単一セットを適用するか、又は第1セグメントで始まる前記圧縮オーディオ信号に前記予測係数の第1セットを適用し、かつ前記トランジエントセグメントで始まる前記圧縮オーディオ信号に前記予測係数の第2セットを適用するかのいずれかを行う、
    ように構成されていることを特徴とする復号器。
JP2010544991A 2008-01-30 2009-01-09 ランダムアクセスポイント(rap)及び多重予測パラメータセット(mpps)機能を備えた適応セグメンテーションを使用する無損失マルチチャンネルオーディオコーデック Active JP5356413B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/011,899 2008-01-30
US12/011,899 US7930184B2 (en) 2004-08-04 2008-01-30 Multi-channel audio coding/decoding of random access points and transients
PCT/US2009/000124 WO2009097076A1 (en) 2008-01-30 2009-01-09 Lossless multi-channel audio codec using adaptive segmentation with random access point (rap) and multiple prediction parameter set (mpps) capability

Publications (3)

Publication Number Publication Date
JP2011516902A true JP2011516902A (ja) 2011-05-26
JP2011516902A5 JP2011516902A5 (ja) 2012-03-01
JP5356413B2 JP5356413B2 (ja) 2013-12-04

Family

ID=40913133

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010544991A Active JP5356413B2 (ja) 2008-01-30 2009-01-09 ランダムアクセスポイント(rap)及び多重予測パラメータセット(mpps)機能を備えた適応セグメンテーションを使用する無損失マルチチャンネルオーディオコーデック

Country Status (17)

Country Link
US (1) US7930184B2 (ja)
EP (2) EP3435375B1 (ja)
JP (1) JP5356413B2 (ja)
KR (1) KR101612969B1 (ja)
CN (1) CN101933009B (ja)
AU (1) AU2009209444B2 (ja)
BR (1) BRPI0906619B1 (ja)
CA (1) CA2711632C (ja)
ES (2) ES2700139T3 (ja)
HK (1) HK1147132A1 (ja)
IL (1) IL206785A (ja)
MX (1) MX2010007624A (ja)
NZ (2) NZ597101A (ja)
PL (2) PL2250572T3 (ja)
RU (1) RU2495502C2 (ja)
TW (1) TWI474316B (ja)
WO (1) WO2009097076A1 (ja)

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7068729B2 (en) 2001-12-21 2006-06-27 Digital Fountain, Inc. Multi-stage code generator and decoder for communication systems
US6307487B1 (en) 1998-09-23 2001-10-23 Digital Fountain, Inc. Information additive code generator and decoder for communication systems
US9240810B2 (en) 2002-06-11 2016-01-19 Digital Fountain, Inc. Systems and processes for decoding chain reaction codes through inactivation
CN100539439C (zh) 2002-10-05 2009-09-09 数字方敦股份有限公司 连锁反应码的系统编码和解码系统和方法
JP4431537B2 (ja) * 2003-06-16 2010-03-17 パナソニック株式会社 パケット処理装置及び方法
EP2722995B1 (en) * 2003-10-06 2023-04-19 QUALCOMM Incorporated Soft-Decision Decoding of Multi-Stage Chain Reaction Codes
KR101205758B1 (ko) 2004-05-07 2012-12-03 디지털 파운튼, 인크. 파일 다운로드 및 스트리밍 시스템
SG158868A1 (en) * 2005-01-11 2010-02-26 Agency Science Tech & Res Encoder, decoder, method for encoding/decoding, computer readable media and computer program elements
WO2006118178A1 (ja) * 2005-04-28 2006-11-09 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
JP4907522B2 (ja) * 2005-04-28 2012-03-28 パナソニック株式会社 音声符号化装置および音声符号化方法
CN101686107B (zh) * 2006-02-13 2014-08-13 数字方敦股份有限公司 使用可变fec开销和保护周期的流送和缓冲
US9270414B2 (en) 2006-02-21 2016-02-23 Digital Fountain, Inc. Multiple-field based code generator and decoder for communications systems
WO2007134196A2 (en) 2006-05-10 2007-11-22 Digital Fountain, Inc. Code generator and decoder using hybrid codes
US9419749B2 (en) 2009-08-19 2016-08-16 Qualcomm Incorporated Methods and apparatus employing FEC codes with permanent inactivation of symbols for encoding and decoding processes
US9178535B2 (en) 2006-06-09 2015-11-03 Digital Fountain, Inc. Dynamic stream interleaving and sub-stream based delivery
US9386064B2 (en) 2006-06-09 2016-07-05 Qualcomm Incorporated Enhanced block-request streaming using URL templates and construction rules
US9380096B2 (en) * 2006-06-09 2016-06-28 Qualcomm Incorporated Enhanced block-request streaming system for handling low-latency streaming
US9209934B2 (en) 2006-06-09 2015-12-08 Qualcomm Incorporated Enhanced block-request streaming using cooperative parallel HTTP and forward error correction
US9432433B2 (en) 2006-06-09 2016-08-30 Qualcomm Incorporated Enhanced block-request streaming system using signaling or block creation
CN101578656A (zh) * 2007-01-05 2009-11-11 Lg电子株式会社 用于处理音频信号的装置和方法
US9237101B2 (en) 2007-09-12 2016-01-12 Digital Fountain, Inc. Generating and communicating source identification information to enable reliable communications
US8301793B2 (en) 2007-11-16 2012-10-30 Divx, Llc Chunk header incorporating binary flags and correlated variable-length fields
KR101221918B1 (ko) * 2007-11-21 2013-01-15 엘지전자 주식회사 신호 처리 방법 및 장치
US8972247B2 (en) * 2007-12-26 2015-03-03 Marvell World Trade Ltd. Selection of speech encoding scheme in wireless communication terminals
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
US8380498B2 (en) * 2008-09-06 2013-02-19 GH Innovation, Inc. Temporal envelope coding of energy attack signal by using attack point location
US8311111B2 (en) * 2008-09-11 2012-11-13 Google Inc. System and method for decoding using parallel processing
EP2353121A4 (en) * 2008-10-31 2013-05-01 Divx Llc SYSTEM AND METHOD FOR REPRODUCING CONTENT ON CERTIFIED DEVICES
CN101609678B (zh) 2008-12-30 2011-07-27 华为技术有限公司 信号压缩方法及其压缩装置
CN101615394B (zh) * 2008-12-31 2011-02-16 华为技术有限公司 分配子帧的方法和装置
US9281847B2 (en) 2009-02-27 2016-03-08 Qualcomm Incorporated Mobile reception of digital video broadcasting—terrestrial services
KR20100115215A (ko) * 2009-04-17 2010-10-27 삼성전자주식회사 가변 비트율 오디오 부호화 및 복호화 장치 및 방법
US20100324913A1 (en) * 2009-06-18 2010-12-23 Jacek Piotr Stachurski Method and System for Block Adaptive Fractional-Bit Per Sample Encoding
CN101931414B (zh) 2009-06-19 2013-04-24 华为技术有限公司 脉冲编码方法及装置、脉冲解码方法及装置
US9288010B2 (en) 2009-08-19 2016-03-15 Qualcomm Incorporated Universal file delivery methods for providing unequal error protection and bundled file delivery services
EP2476113B1 (en) * 2009-09-11 2014-08-13 Nokia Corporation Method, apparatus and computer program product for audio coding
US9917874B2 (en) 2009-09-22 2018-03-13 Qualcomm Incorporated Enhanced block-request streaming using block partitioning or request controls for improved client-side handling
KR101777347B1 (ko) * 2009-11-13 2017-09-11 삼성전자주식회사 부분화에 기초한 적응적인 스트리밍 방법 및 장치
US8374858B2 (en) * 2010-03-09 2013-02-12 Dts, Inc. Scalable lossless audio codec and authoring tool
US9485546B2 (en) 2010-06-29 2016-11-01 Qualcomm Incorporated Signaling video samples for trick mode video representations
US8918533B2 (en) 2010-07-13 2014-12-23 Qualcomm Incorporated Video switching for streaming video data
US9185439B2 (en) 2010-07-15 2015-11-10 Qualcomm Incorporated Signaling data for multiplexing video components
US9596447B2 (en) 2010-07-21 2017-03-14 Qualcomm Incorporated Providing frame packing type information for video coding
US8489391B2 (en) * 2010-08-05 2013-07-16 Stmicroelectronics Asia Pacific Pte., Ltd. Scalable hybrid auto coder for transient detection in advanced audio coding with spectral band replication
US8806050B2 (en) 2010-08-10 2014-08-12 Qualcomm Incorporated Manifest file updates for network streaming of coded multimedia data
US8958375B2 (en) 2011-02-11 2015-02-17 Qualcomm Incorporated Framing for an improved radio link protocol including FEC
US9270299B2 (en) 2011-02-11 2016-02-23 Qualcomm Incorporated Encoding and decoding using elastic codes with flexible source block mapping
KR101748756B1 (ko) * 2011-03-18 2017-06-19 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 오디오 콘텐츠를 표현하는 비트스트림의 프레임들 내의 프레임 요소 배치
US9253233B2 (en) 2011-08-31 2016-02-02 Qualcomm Incorporated Switch signaling methods providing improved switching between representations for adaptive HTTP streaming
WO2013036972A1 (en) 2011-09-09 2013-03-14 Panamorph, Inc. Image processing system and method
US9843844B2 (en) 2011-10-05 2017-12-12 Qualcomm Incorporated Network streaming of media data
US9294226B2 (en) 2012-03-26 2016-03-22 Qualcomm Incorporated Universal object delivery and template-based file delivery
WO2013149027A1 (en) * 2012-03-28 2013-10-03 Crawford Terry Method and system for providing segment-based viewing of recorded sessions
US9591303B2 (en) * 2012-06-28 2017-03-07 Qualcomm Incorporated Random access and signaling of long-term reference pictures in video coding
US10199043B2 (en) * 2012-09-07 2019-02-05 Dts, Inc. Scalable code excited linear prediction bitstream repacked from a higher to a lower bitrate by discarding insignificant frame data
KR20140075466A (ko) * 2012-12-11 2014-06-19 삼성전자주식회사 오디오 신호의 인코딩 및 디코딩 방법, 및 오디오 신호의 인코딩 및 디코딩 장치
RU2728832C2 (ru) * 2013-02-05 2020-07-31 Телефонактиеболагет Л М Эрикссон (Пабл) Способ и устройство для управления маскировкой потери аудиокадров
KR101444655B1 (ko) * 2013-04-05 2014-11-03 국방과학연구소 파티션 컴퓨팅을 위한 tmo 확장 모델이 저장된 기록매체, 그리고 tmo 확장 모델의 2단계 스케줄링 구현 방법 및 그 방법을 기록한 컴퓨터로 읽을 수 있는 기록매체
TWI557727B (zh) 2013-04-05 2016-11-11 杜比國際公司 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品
US10614816B2 (en) 2013-10-11 2020-04-07 Qualcomm Incorporated Systems and methods of communicating redundant frame information
PL3058567T3 (pl) * 2013-10-18 2017-11-30 Telefonaktiebolaget Lm Ericsson (Publ) Kodowanie pozycji pików spektralnych
US11350015B2 (en) 2014-01-06 2022-05-31 Panamorph, Inc. Image processing system and method
US9564136B2 (en) * 2014-03-06 2017-02-07 Dts, Inc. Post-encoding bitrate reduction of multiple object audio
US9392272B1 (en) * 2014-06-02 2016-07-12 Google Inc. Video coding using adaptive source variance based partitioning
EP2980796A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
CN104217726A (zh) * 2014-09-01 2014-12-17 东莞中山大学研究院 一种无损音频压缩编码方法及其解码方法
SG11201706160UA (en) 2015-02-27 2017-09-28 Sonic Ip Inc Systems and methods for frame duplication and frame extension in live video encoding and streaming
CN106033671B (zh) * 2015-03-09 2020-11-06 华为技术有限公司 确定声道间时间差参数的方法和装置
CA3045515A1 (en) * 2016-01-03 2017-07-13 Auro Technologies Nv A signal encoder, decoder and methods using predictor models
WO2019206794A1 (en) * 2018-04-23 2019-10-31 Endeavour Technology Limited AN IoT QoS MONITORING SYSTEM AND METHOD
CN110020935B (zh) * 2018-12-18 2024-01-19 创新先进技术有限公司 一种数据处理、计算方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000500691A (ja) * 1996-09-26 2000-01-25 ミニメッド インコーポレイティド 珪素含有生体適合性膜
JP2002135131A (ja) * 2000-08-31 2002-05-10 Agere Systems Guardian Corp 可変サイズベクトルエントロピ符号化を実行するための方法および装置
JP2009500693A (ja) * 2005-07-11 2009-01-08 エルジー エレクトロニクス インコーポレイティド オーディオ信号のエンコーディング及びデコーディング装置及び方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6400996B1 (en) * 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
US5842033A (en) * 1992-06-30 1998-11-24 Discovision Associates Padding apparatus for passing an arbitrary number of bits through a buffer in a pipeline system
US8505108B2 (en) * 1993-11-18 2013-08-06 Digimarc Corporation Authentication using a digital watermark
GB9509831D0 (en) 1995-05-15 1995-07-05 Gerzon Michael A Lossless coding method for waveform data
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP4098364B2 (ja) * 1996-09-26 2008-06-11 メドトロニック ミニメッド,インコーポレイティド 珪素含有生体適合性膜
US6023233A (en) 1998-03-20 2000-02-08 Craven; Peter G. Data rate control for variable rate compression systems
KR100354531B1 (ko) 1998-05-06 2005-12-21 삼성전자 주식회사 실시간 복호화를 위한 무손실 부호화 및 복호화 시스템
US6499060B1 (en) * 1999-03-12 2002-12-24 Microsoft Corporation Media coding for loss recovery with remotely predicted data units
DE60006953T2 (de) * 1999-04-07 2004-10-28 Dolby Laboratories Licensing Corp., San Francisco Matrizierung für die verlustfreie kodierung und dekodierung von mehrkanaligen audiosignalen
DE69937189T2 (de) 1999-05-21 2008-06-26 Scientifi-Atlanta Europe Verfahren und Vorrichtung zur Komprimierung und/oder Übertragung und/oder Dekomprimierung eines digitalen Signals
US6370502B1 (en) 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
US6226616B1 (en) 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
US6675148B2 (en) * 2001-01-05 2004-01-06 Digital Voice Systems, Inc. Lossless audio coder
US7930170B2 (en) * 2001-01-11 2011-04-19 Sasken Communication Technologies Limited Computationally efficient audio coder
US7460993B2 (en) * 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
DE60214599T2 (de) 2002-03-12 2007-09-13 Nokia Corp. Skalierbare audiokodierung
US7536305B2 (en) * 2002-09-04 2009-05-19 Microsoft Corporation Mixed lossless audio compression
US7328150B2 (en) * 2002-09-04 2008-02-05 Microsoft Corporation Innovations in pure lossless audio compression
US7272567B2 (en) * 2004-03-25 2007-09-18 Zoran Fejzo Scalable lossless audio codec and authoring tool
EP2228791B1 (en) * 2004-03-25 2015-05-06 DTS, Inc. Scalable lossless audio codec and authoring tool
US8744862B2 (en) * 2006-08-18 2014-06-03 Digital Rise Technology Co., Ltd. Window selection based on transient detection and location to provide variable time resolution in processing frame-based data
US20070094035A1 (en) * 2005-10-21 2007-04-26 Nokia Corporation Audio coding
US20090164223A1 (en) * 2007-12-19 2009-06-25 Dts, Inc. Lossless multi-channel audio codec
US8239210B2 (en) * 2007-12-19 2012-08-07 Dts, Inc. Lossless multi-channel audio codec

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000500691A (ja) * 1996-09-26 2000-01-25 ミニメッド インコーポレイティド 珪素含有生体適合性膜
JP2002135131A (ja) * 2000-08-31 2002-05-10 Agere Systems Guardian Corp 可変サイズベクトルエントロピ符号化を実行するための方法および装置
JP2009500693A (ja) * 2005-07-11 2009-01-08 エルジー エレクトロニクス インコーポレイティド オーディオ信号のエンコーディング及びデコーディング装置及び方法
JP2009500690A (ja) * 2005-07-11 2009-01-08 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理装置及び方法
JP2009500682A (ja) * 2005-07-11 2009-01-08 エルジー エレクトロニクス インコーポレイティド オーディオ信号のエンコーディング及びデコーディング装置及び方法

Also Published As

Publication number Publication date
AU2009209444A1 (en) 2009-08-06
CN101933009A (zh) 2010-12-29
BRPI0906619B1 (pt) 2022-05-10
EP2250572B1 (en) 2018-09-19
CA2711632C (en) 2018-08-07
CN101933009B (zh) 2014-07-02
TWI474316B (zh) 2015-02-21
ES2792116T3 (es) 2020-11-10
US20080215317A1 (en) 2008-09-04
TW200935401A (en) 2009-08-16
KR20100106579A (ko) 2010-10-01
BRPI0906619A2 (pt) 2019-10-01
IL206785A0 (en) 2010-12-30
ES2700139T3 (es) 2019-02-14
HK1147132A1 (en) 2011-07-29
CA2711632A1 (en) 2009-08-06
JP5356413B2 (ja) 2013-12-04
WO2009097076A1 (en) 2009-08-06
AU2009209444B2 (en) 2014-03-27
EP3435375B1 (en) 2020-03-11
KR101612969B1 (ko) 2016-04-15
US7930184B2 (en) 2011-04-19
RU2010135724A (ru) 2012-03-10
NZ586566A (en) 2012-08-31
NZ597101A (en) 2012-09-28
RU2495502C2 (ru) 2013-10-10
PL3435375T3 (pl) 2020-11-02
PL2250572T3 (pl) 2019-02-28
MX2010007624A (es) 2010-09-10
IL206785A (en) 2014-04-30
EP2250572A4 (en) 2014-01-08
EP3435375A1 (en) 2019-01-30
EP2250572A1 (en) 2010-11-17

Similar Documents

Publication Publication Date Title
JP5356413B2 (ja) ランダムアクセスポイント(rap)及び多重予測パラメータセット(mpps)機能を備えた適応セグメンテーションを使用する無損失マルチチャンネルオーディオコーデック
KR101307693B1 (ko) 무손실의 다채널 오디오 코덱
EP2270775B1 (en) Lossless multi-channel audio codec
US20090164223A1 (en) Lossless multi-channel audio codec
US8239210B2 (en) Lossless multi-channel audio codec
EP2395505A1 (en) Method and apparatus for searching in a layered hierarchical bit stream followed by replay, said bit stream including a base layer and at least one enhancement layer

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120106

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120830

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121130

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130104

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130523

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130828

R150 Certificate of patent or registration of utility model

Ref document number: 5356413

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250