JP5820464B2 - オーディオまたはビデオエンコーダ、オーディオまたはビデオデコーダ、及び予測方向可変の予測を使用したマルチチャンネルオーディオまたはビデオ信号処理方法 - Google Patents

オーディオまたはビデオエンコーダ、オーディオまたはビデオデコーダ、及び予測方向可変の予測を使用したマルチチャンネルオーディオまたはビデオ信号処理方法 Download PDF

Info

Publication number
JP5820464B2
JP5820464B2 JP2013504181A JP2013504181A JP5820464B2 JP 5820464 B2 JP5820464 B2 JP 5820464B2 JP 2013504181 A JP2013504181 A JP 2013504181A JP 2013504181 A JP2013504181 A JP 2013504181A JP 5820464 B2 JP5820464 B2 JP 5820464B2
Authority
JP
Japan
Prior art keywords
signal
prediction
channel
combined
decoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013504181A
Other languages
English (en)
Other versions
JP2013528824A (ja
Inventor
ロビラール、ジュリアン
ノイシンガー、マティアス
ヘルムリッヒ、クリスチャン
ヒルペルト、ヨハネス
レットルバック、ニコラウス
ディッシュ、サシャ
エドラー、バーント
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2013528824A publication Critical patent/JP2013528824A/ja
Application granted granted Critical
Publication of JP5820464B2 publication Critical patent/JP5820464B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/156Availability of hardware or computational resources, e.g. encoding based on power-saving criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Stereophonic System (AREA)
  • Stereo-Broadcasting Methods (AREA)

Description

本発明はオーディオまたはビデオ処理に関し、特に、二つ以上のチャンネル信号を有するマルチチャンネル信号に対するマルチチャンネルオーディオまたはビデオ処理に関する。
マルチチャンネルまたはステレオ処理の分野において、いわゆるミッド/サイドステレオコーディングを適用することは公知である。この概念では、ミッドまたはモノ信号Mを得るために、左側または第1のオーディオチャンネル信号と右側または第2のオーディオチャンネル信号との結合物が形成される。さらに、サイド信号Sを得るために、左側または第1のオーディオチャンネル信号と右側または第2のオーディオチャンネル信号との間の差が形成される。このミッド/サイドコーディング方法において、左側の信号と右側の信号が互いによく似ている場合には、サイド信号は非常に小さくなるのでコーディング利得が非常に大きくなる。典型的には、量子化/エントロピー符号化されるべき値の範囲が狭くなると、量子化器/エントロピーエンコーダ段階でのコーディング利得はより高くなる。従って、PCMまたはハフマンに基づくまたは演算的なエントロピーエンコーダに関して、サイド信号が小さくなるとコーディング利得は大きくなる。しかし、ミッド/サイドコーディングがコーディング利得をもたらさない場合もある。これは、両方のチャンネルの信号が、互いに例えば90℃位相シフトされた場合に起こり得る。その場合、ミッド信号及びサイド信号がよく似た範囲にある可能性があり、それ故に、エントロピーエンコーダを使用したミッド及びサイド信号のコーディングはコーディング利得をもたらさず、ビットレートの増進という結果をさえもたらし得る。従って、帯域におけるミッド/サイドコーディングを停止させるために、周波数選択的なミッド/サイドコーディングを適用でき、例えばサイド信号は元の左側の信号に対してある程度まで小さくなることはない。
左側と右側の信号が全く同じである場合には、サイド信号は0になり、サイド信号が排除されることにより、最大のコーディング利得を得ることになる。しかし、ミッド信号とサイド信号が波形に関して全く同じであるが、これらの信号の唯一の違いは全体的な振幅である場合には、状況は異なる。この場合、さらにサイド信号のミッド信号への位相シフトが全く行われないと仮定すると、ミッド信号はその値の範囲に関してそれほど低下はしないが、サイド信号はかなり増大する。このような状況がある周波数帯域で起こった場合、コーディング利得の欠如により、ミッド/サイドコーディングを停止させるであろう。ミッド/サイドコーディングは周波数選択的に適用可能であり、あるいは時間領域で適用可能である。
これ以外にも、ミッド/サイドコーディングとしての一種の波形アプローチに依存せず、いくつかの両耳キューに基づくパラメータ処理に依存するマルチチャンネルコーディング技術がある。このような技術は、「両耳キューコーディング」、「パラメータステレオコーディング」または「MPEGサラウンドコーディング」という言葉で知られている。ここでは、いくつかのキューが複数の周波数帯域に関して計算される。これらのキューには、チャンネル間レベル差、チャンネル間コヒーレンス度、チャンネル間時間差及び/またはチャンネル間位相差が含まれる。これらのアプローチは、リスナーが感じるマルチチャンネルの印象は必ずしも二つのチャンネルの細かな波形に依存するわけではなく、周波数選択的に与えられる正確なキューまたはチャンネル間情報に依存するという前提によるものである。これは、機器を提供する際に、キューを正確に反映するマルチチャンネル信号を送るように気をつけなければならないが、波形は決定的な重要性を持つものではないということを意味している。
全てのチャンネルが一つの同じダウンミックスチャンネルから導き出されたものであるにもかかわらず、互いに相関関係のないステレオ信号を人工的に作り出すために、デコーダが非相関化処理を行わなければならない場合には、このアプローチは特に複雑である。この目的のための非相関化装置は、その実施態様に応じて複雑であり、特に過渡信号部分にアーチファクトを引き起こすかもしれない。さらに、波形コーディングと比較して、パラメータコーディングアプローチは損失の多いコーディングアプローチであり、典型的な量子化によりもたらされるだけではなく、特定の波形ではなく両耳キューを重要視することでもたらされる情報損失が必ず起こる。このアプローチは非常に低いビットレートをもたらすが、質の点での妥協が必要となるかもしれない。
スピーチとオーディオの統合的コーディング(USAC)のために最近開発されたものを図7Aに示す。主要デコーダ700は、701で入力される符号化されたステレオ信号(ミッド/サイドコーディングされている可能性がある)のデコーディング処理を行う。この主要デコーダはライン702でミッド信号を出力し、ライン703でサイドまたは残留信号を出力する。これらの信号はQMFフィルターバンク704,705によってQMF領域に変換される。そして、MPEGサラウンドデコーダ706により、左チャンネル信号707と右チャンネル信号708が生成される。これらの低帯域信号は次にスペクトル帯域複製(SBR)デコーダ709に導入され、このデコーダ709はライン710,711で広帯域の左信号と右信号を生成する。そして、これらの信号はQMF結合フィルターバンク712,713によって時間領域に変換され、広帯域左信号Lと広帯域右信号Rが得られる。
図7Bは、MPEGサラウンドデコーダ706がミッド/サイドデコーディングを行う状況を示している。あるいは、MPEGサラウンドデコーダブロック706は、一つのモノラルの主要デコーダ信号からステレオ信号を生成するために、両耳キューに基づくパラメータデコーディングを行うことも可能である。当然、MPEGサラウンドデコーダ706はまた、SBRデコーダブロック709に送られる複数の低域出力信号を、チャンネル間レベル差、チャンネル間コヒーレンス度などのパラメータ情報または他のこのようなチャンネル間情報パラメータを使用して生成することも可能である。
MPEGサラウンドデコーダブロック706が図7Bに示すミッド/サイドデコーディングを実行する際、実数値利得係数gが適用可能であり、DMX/RESとL/Rは、それぞれ、複素数ハイブリッドQMF領域で表されるダウンミックス/残留信号と左/右信号である。
この信号の複素数QMF表記はSBRデコーダの一部としてすでに入手可能であるので、ブロック706とブロック709の結合物の利用は、基本的にステレオデコーダを使用する場合と比較して、計算量はわずかに増加するだけである。しかし非SBR構造では、USACとの関連で提案されているようなQMFに基づくステレオコーディングは、計算量のかなりの増加を招くことになる。この例では、64帯域解析バンクと64帯域合成バンクを必要とするQMFバンクが必要となるからである。これらのフィルターバンクはステレオコーディングのためだけに付加的に設置されなければならない。
しかし、現在開発中のMPEG−USACシステムにおいては、SBRが通常では使用されないような高いビットレートでのコーディングモードも存在する。
本発明の目的は、高いコーディング利得が得られ、また、良好なオーディオまたはビデオ品質が得られる及び/または計算量を少なくできる改良オーディオまたはビデオ処理概念を提供することである。
この目的は、請求項1に係るオーディオまたはビデオデコーダ、請求項13に係るオーディオまたはビデオエンコーダ、請求項19に係るオーディオまたはビデオ復号方法、請求項18に係るオーディオまたはビデオ符号化方法、請求項19に係るコンピュータプログラムまたは請求項20に係る符号化されたマルチチャンネルオーディオまたはビデオ信号によって達成される。
本発明は、高品位波形コーディングアプローチのコーディング利得は、第1の結合信号を使用して第2の結合信号を予測することにより(どちらの結合信号も、ミッド/サイド結合ルールのような結合ルールを使用して、オリジナルのチャンネル信号から引き出される)非常に増大させることができるという発見に基づくものである。この予測情報はオーディオエンコーダ内の予測器により最適目標が達成されるように算出されるが、本発明の予測はそれでもなお波形に基づくコーディングであり、パラメータに基づくステレオまたはマルチチャンネルコーディングアプローチではないので、わずかなオーバーヘッドを被るだけであるが、オーディオ品質を全く損なわずにサイド信号に必要なビットレートをかなり低下させるということがわかった。計算量を減らすためには、周波数領域符号化を実行することが好ましく、周波数領域符号化においては、予測情報は周波数領域入力データから帯域選択方式で引き出される。時間領域表記をスペクトル表記に変換するための変換アルゴリズムは、修正離散余弦変換(MDCT)または修正離散正弦変換(MDST)のようなじっくりと抽出された処理であることが好ましい。修正離散余弦変換(MDCT)や修正離散正弦変換(MDST)では、複素数変換とは違い、実数または虚数のみが計算され、複素数変換では、スペクトルの実数と虚数が計算されるので、2倍のオーバーサンプリングという結果になる。
さらに、予測の方向を転換するという概念が最小限の計算量で予測利得の増大をもたらす。このために、エンコーダは、予測残留信号に関する予測方向を示す予測方向指標を決定する。一実施形態において、ミッド信号のような第1結合信号が、サイド信号のような第2結合信号を予測するために使用される。このアプローチは、ミッド信号のエネルギーがサイド信号のエネルギーよりも高い場合に有効である。しかし、サイド信号のような第2結合信号のエネルギーが第1結合信号のエネルギーよりも高い場合、つまり、サイド信号のエネルギーがミッド信号のエネルギーよりも高い場合には、予測方向が逆転され、ミッド信号を予測するのに、サイド信号が使用される。第1の場合、つまり、サイド信号予測のためにミッド信号が使用される場合には、ミッド信号と、残留信号と、予測情報と、この予測方向を示す予測方向指標がエンコーダからデコーダに送られる。第2の場合、つまり、ミッド信号予測のためにサイド信号が使用される場合のような、第1結合信号予測のために第2結合信号が使用される場合には、(ミッド信号よりもむしろ)サイド信号が、残留信号と、予測情報と、この逆の方向を示す予測方向指標と共に送られる。
この方法により、結果的に生じる量子化ノイズのマスキングが向上する。エネルギーのうちのほとんどがサイドチャンネルのような第2結合信号にある信号に関して、サイド信号Sからミッド信号のような第1結合信号を予測することにより、量子化ノイズの主要部分をオリジナルの音源に従いパニングすることが可能となる。これにより、最終的な出力信号におけるエラー配置が、感覚的により妥当なものとなる。
この方法には、効率的なマルチチャンネルのペアごとのコーディング、ちょうど2チャンネルの場合には効率的なステレオコーディングをもたらすという更なる利点がある。ミッド/サイド(M/S)コーディングのための信号に適合した予測方向選択により、主にサイド信号にエネルギーを有する信号に関して、計算量の増加を最小に抑えて予測利得を高くすることが可能になる。また、量子化ノイズの感覚として捉えられる空間的方向のパニングにより、結果的に生じた量子化ノイズをメイン信号の方向に対して感覚的により良く適合したマスキングを行うことができる。さらに、ビットストリームで送信されるべき予測係数の数値範囲が狭められ、これにより、予測情報/係数のコーディングがより効率的になる。この方法は、デュアルまたはマルチチャンネルオーディオまたはビデオ信号の結合変換コーディングのような全ての種類のステレオ処理の応用に有効である。
エイリアシングの導入と解消に基づく変換が使用されることが好ましい。特に、MDCTはこのような変換であり、デコーダ側での重複加算処理によって得られる周知の時間領域エイリアシング解消(TDAC)特性によるオーバーヘッドを被ることなく、連続するブロック間のクロスフェーディングが可能である。
エンコーダで算出され、デコーダに送られ、デコーダで使用される予測情報は、0°から360°の間で任意に選択された二つのオーディオ信号間の位相差を有利に反映することができる虚部を含むことが好ましい。実数値変換のみ、あるいは概して、実数スペクトルだけかまたは虚数スペクトルだけをもたらす変換が適用されると、計算量はかなり軽減される。左信号のある帯域と右信号の同じ帯域間の位相シフトを示すこの虚数予測情報を利用するために、変換の実施態様に応じて、第1結合信号から予測残留信号(この結合信号を相回転させたもの)を算出するための実数から虚数への(実数−虚数)変換器または虚数から実数への(虚数−実数)変換器がデコーダに備えられている。この相回転予測信号は、その後、サイド信号を再生成するためにビットストリームで送られた予測残留信号と結合され、最終的には、ある帯域の復号された左チャンネルとその帯域の復号された右チャンネルを得るためにミッド信号と結合され得る。
オーディオまたはビデオ品質向上のために、予測残留信号がエンコーダで算出される場合、デコーダ側で使用される実数−虚数変換器または虚数−実数変換器と同じものがエンコーダ側にも備えられている。
本発明は、同じビットレートまたは同じオーディオまたはビデオ品質を有するシステムと比較して、オーディオまたはビデオ品質の向上とビットレートの低下をもたらすという点で有益である。
また、高いビットレートのMPEG−USACシステム(通常SBRが使用されない)に有用な統合的ステレオコーディングの計算効率に関して有利である。これらのアプローチにおいては、複素数ハイブリッドQMF領域で信号を処理する代わりに、基本的なステレオ変換コーダーの固有のMDCT領域で残留に基づく予測ステレオコーディングを実行する。
本発明の一側面によれば、本発明はMDCT領域での複素数予測によりステレオ信号を生成する装置または方法を含み、これらの装置や方法においては、複素数予測は実数−複素数変換を使用してMDCT領域で行われ、このステレオ信号はエンコーダ側で符号化されたステレオ信号となるか、またはこのステレオ信号生成装置または方法がデコーダ側に適用される場合には、このステレオ信号は復号された/送信されたステレオ信号となり得る。
オーディオまたはビデオデコーダの好ましい一実施形態のブロック図である。 オーディオまたはビデオエンコーダの好ましい一実施形態のブロック図である。 図2のエンコーダ計算機の一実施例を示す。 図2のエンコーダ計算機の別の実施例を示す。 エンコーダ側で使用されるミッド/サイド結合ルールを示す。 図1のデコーダ計算機の一実施例を示す。 図1のデコーダ計算機のマトリクス計算機としての別の実施例を示す。 図3Cに示した結合ルールに対応するミッド/サイド逆結合ルールを示す。 好ましくは実数値周波数領域である周波数領域で動作するオーディオまたはビデオエンコーダの一実施形態を示す。 周波数領域で動作するオーディオまたはビデオデコーダの一実施形態を示す。 MDCT領域で動作し、実数−虚数変換を行うオーディオまたはビデオエンコーダの別の実施形態を示す。 MDCT領域で動作し、実数−虚数変換を行うオーディオまたはビデオデコーダを示す。 ステレオデコーダとその直後に接続されたSBRデコーダを使用するオーディオ後処理装置を示す。 ミッド/サイドアップミックスマトリクスを示す。 図6AのMDCTブロックの詳細を示す。 図6BのMDCT-1ブロックの詳細を示す。 MDCT出力に関して低分解能で動作する最適化装置の一実施例を示す。 MDCTスペクトル表記と、予測情報が算出される低分解能帯域を示す。 図6Aまたは図6Bの実数−虚数変換器の一実施例を示す。 図10Aの虚数スペクトル計算機の実施可能な例を示す。 予測方向が逆転可能であるオーディオエンコーダの好ましい一実施例を示す。 予測方向が逆転可能である予測によって生成された残留信号を処理する能力を有するオーディオまたはビデオデコーダの好ましい一実施を示す。 予測方向が逆転可能であるオーディオエンコーダの別の一実施例を示す。 予測方向指標によって制御されるオーディオまたはビデオデコーダの別の実施形態を示す。 予測指標フラグを示す。 予測方向指標に応じた、エンコーダ側での様々な予測ルールの一実施例を示す。 第1状態の予測方向指標に関するデコーダ側での計算ルールを示す。 第2状態の予測方向指標に関するデコーダ側での計算ルールを示す。 オーディオまたはビデオエンコーダまたはオーディオまたはビデオデコーダの実施形態で適用される複素数値乗算を示す。 予測方向指標を決定するための実施形態を示す。 予測方向指標を決定するための実施形態を示す。
以下、本発明の好ましい実施形態を、添付図面を参照しながら説明する。
図1は、入力ライン100で得た符号化されたマルチチャンネルオーディオ信号を復号するためのオーディオデコーダを示している。符号化されたマルチチャンネルオーディオ信号は、マルチチャンネルオーディオ信号を表す第1チャンネル信号と第2チャンネル信号とを結合するための結合ルールを用いて生成された符号化された第1結合信号と、符号化された予測残留信号と、予測情報とを含む。符号化されたマルチチャンネル信号は、多重形態で三つの成分を有するビットストリームのようなデータストリームであってもよい。さらに付加的なサイド情報がライン100の符号化されたマルチチャンネル信号に含まれていてもよい。この信号は入力インターフェース102に入力される。入力インターフェース102は、符号化された第1結合信号をライン104で出力し、符号化された残留信号をライン106で出力し、予測情報をライン108で出力するデータストリーム・デマルチプレクサーとして実施できる。予測情報は、0ではない実部及び/または0ではない虚部を有する係数である。符号化された結合信号と符号化された残留信号は、ライン112で復号された第1結合信号を得るために、第1結合信号を復号する信号デコーダ110に入力される。また、信号デコーダ110は、ライン114で復号された残留信号を得るために、符号化された残留信号を復号するように構成されている。オーディオエンコーダ側での符号化処理に応じて、信号デコーダは、ハフマンデコーダや演算デコーダなどのエントロピーデコーダまたは他の何らかのエントロピーデコーダと、その直後に接続され、関連するオーディオエンコーダにおける量子化処理に一致したデクオンタイゼーション処理を実行するデクオンタイゼーション段階を含む。ライン112,114の信号はデコーダ計算機115に入力され、このデコーダ計算機115はライン117で第1チャンネル信号を、ライン118で第2チャンネル信号を出力する。これら二つの信号はステレオ信号またはマルチチャンネルオーディオ信号の二つのチャンネルである。例えばマルチチャンネルオーディオ信号が五つのチャンネルを含む場合、これら二つの信号はこのマルチチャンネル信号のうちの二つのチャンネルである。このような五つのチャンネルを有するマルチチャンネル信号を完全に符号化するためには、図1に示すようなデコーダを二つ使用し、第1のデコーダは左チャンネルと右チャンネルを処理し、第2のデコーダは左サラウンドチャンネルと右サラウンドチャンネルを処理し、中央チャンネルのモノ符号化を行うために、第3のモノデコーダが使用されてもよい。別のグループ分けも可能であり、あるいは、波形コーダーとパラメータコーダーとの組み合わせも適用できる。三つ以上のチャンネルに対する予測スキームを一般化するための別の方法は、三つ(またはそれ以上)の信号を同時に処理する、例えば、MPEGサラウンドの「2個から3個への」モジュールとよく似ているが、二つの予測係数を用いて第1及び第2の信号から第3の結合信号を予測することである。
さらに、入力ライン100で得られる符号化されたマルチチャンネルオーディオ信号は、予測方向指標を含んでいる。予測方向フラグのような予測方向指標は、入力インターフェース102によって符号化されたマルチチャンネル信号から抽出され、デコーダ計算機116に送られる。そして、このデコーダ計算機は、入力インターフェース102によって与えられた予測情報と復号された第1(または第2)結合信号と予測方向指標に応じて、復号されたマルチチャンネル信号を算出する。
デコーダ計算機116は、復号された第1チャンネル信号117と復号された第2チャンネル信号118を有する復号されたマルチチャンネル信号を、復号された残留信号114と予測情報108と復号された第1結合信号112を用いて算出するよう構成されている。デコーダ計算機116は、特に、復号された第1チャンネル信号と復号された第2チャンネル信号が、対応するエンコーダへ入力されたマルチチャンネル信号の第1チャンネル信号と第2チャンネル信号(これらは、第1結合信号と予測残留信号を生成する際に、結合ルールにより結合されたものである)の少なくとも近似であるように演算するよう構成されている。詳しくは、ライン108の予測情報は、0ではない実部と及び/または0ではない虚部を含む。
デコーダ計算機116は、いくつかの異なる方法で実施可能である。図4Aにその第1実施例を示す。この実施例は、予測器1160と結合信号計算機1161と結合器1162を含む。予測器は復号された第1結合信号112と予測情報108を受け取り、予測信号1163を出力する。詳しくは、予測器1160は、予測情報108を復号された第1結合信号112または復号された第1結合信号から導き出された信号に適用するよう構成されている。予測情報108を適用すべき信号を導き出すための導出ルールは、実数−虚数変換または同じく虚数−実数変換、または重み付け処理、あるいは実施態様に応じて、位相シフト処理または重み付けと位相シフトの組み合わせ処理であってもよい。予測信号1163は、復号された第2結合信号1165を算出するために、復号された残留信号と共に結合信号計算機1161に入力される。信号112と信号1165はどちらも結合器1162に入力され、結合器1162は、復号された第1チャンネル信号と復号された第2チャンネル信号をそれぞれ出力ライン1166と1167で有する復号後のマルチチャンネルオーディオ信号を得るために、復号された第1結合信号と第2結合信号を結合する。あるいは、デコーダ計算機は、入力として、復号された第1結合信号または信号Mと、復号された残留信号または信号Dと、予測情報α108とを受信するマトリクス計算機1168として実施される。マトリクス計算機1168は、出力信号L(復号された第1チャンネル信号)とR(復号された第2チャンネル信号)を得るために、信号M,Dに対して1169で示されているような変換マトリクスを適用する。図4Bの表示は、左チャンネルLと右チャンネルRを有するステレオの表示と似ている。この表示は理解を簡単にするために用いられたものであるが、信号LとRは二つ以上のチャンネルの信号を有するマルチチャンネル信号における二つのチャンネル信号の結合であり得ることは、当業者には明らかである。マトリクス処理1169は図4Aのブロック1160,1161,1162での処理を一種の「一発」マトリクス計算に統合し、図4Aの回路への入力と図4Aの回路からの出力は、マトリクス計算機1168への入力またはマトリクス計算機1168からの出力と同じものである。
図4Cは図4Aの結合器1162によって用いられる逆結合ルールの一例を示す。特に、この結合ルールは、L=M+S、R=M−Sである公知のミッド/サイドコーディングにおけるデコーダ側での結合ルールと同様のものである。図4Cの逆結合ルールで使用される信号Sは、結合信号計算機によって算出される信号、つまりライン1163の予測信号とライン114の復号された残留信号との結合であると理解すべきである。この明細書において、ライン上の信号は、ラインに対する参照符号で示される場合もあり、それらの信号自身に対する参照符号で示される場合もあるが、これらの参照符号はラインに起因するものである。従って、ある信号を有するラインは信号そのものを示しているということである。ラインは、配線実施例においては物理的なラインであり得る。しかし、コンピュータの実施例では物理的な線は存在しないが、線によって示されている信号は一つの計算モジュールから他の計算モジュールへ送られる。
図11Bは、予測方向指標入力401で与えられた予測方向指標に応じて動作するデコーダ計算機の好ましい実施例を示している。予測方向指標の状態により、402で示される第1計算ルールまたは403で示される第2計算ルールのどちらかが適用される。第1計算ルール402は第1チャンネル信号と第2チャンネル信号を出力し、第1計算ルールは後述する図13Cに示すように実施することができる。第1結合信号がミッド信号であり、第2結合信号がサイド信号である実施形態において、予測方向指標は「0」の値を有していると、第1結合信号から第2結合信号への予測が行われる。この場合、入力404はミッド信号つまり第1結合信号である。しかし、予測方向指標の値が「1」である場合、スイッチ405は入力404を第2計算ルール装置403に接続する。この場合、サイド信号のような第2結合信号からミッド信号のような第1結合信号への予測が行われ、入力404はミッド信号ではなくサイド信号である。第2計算ルール装置403も第1チャンネル信号と第2チャンネル信号を出力するが、これら二つの信号、つまりステレオ実施形態の場合には左信号と右信号を算出するためのルールは違う。第2計算ルールの詳細な実施例は後述の図13Dに示されている。
図2は、二つ以上のチャンネル信号を有するマルチチャンネルオーディオ信号200を符号化するためのオーディオエンコーダを示し、第1チャンネル信号は201で示され、第2チャンネル信号は202で示されている。これらのどちらの信号もエンコーダ203に入力され、エンコーダ203は、第1チャンネル信号201と第2チャンネル信号202と予測情報206を使用して、第1結合信号204と予測残留信号205を算出する。そして、予測残留信号205が第1結合信号204と予測情報206から導き出された予測信号とに結合されると、第2結合信号となるが、第1結合信号と第2結合信号は、結合ルールを用いて第1チャンネル信号201と第2チャンネル信号202から導出可能である。
予測情報は、予測残留信号が最適化目標208を満たすように予測情報206を算出するための最適化装置207によって生成される。第1結合信号204と残留信号205は、符号化された第1結合信号210を得るために第1結合信号204を符号化し、符号化された残留信号211を得るために残留信号205を符号化するための信号エンコーダ209に入力される。これらの符号化された信号210,211のどちらも、符号化されたマルチチャンネル信号213を得るために、符号化された第1結合信号210を符号化された予測残留信号211と予測情報206に結合するための出力インターフェース212に入力される。この符号化されたマルチチャンネル信号213は、図1に示されているオーディオデコーダの入力インターフェース102に入力される符号化されたマルチチャンネル信号100と類似である。
実施態様に応じて、最適化装置207は、第1チャンネル信号201と第2チャンネル信号202を受信するか、または、ライン214と215で示されているように、図3Aの結合器2031から引き出された第1結合信号214と第2結合信号215を受信する。結合器2031については後述する。
好ましい最適化目標が図2に示されているが、これにより、コーディング利得が最大となり、つまり、ビットレートができる限り低減される。この最適化目標では、残留信号Dはαに関して最小化されている。これは、換言すれば、予測情報αは‖S−αM‖2が最小となるように選択されるということである。これは図2に示されているようなαの解をもたらす。信号S,Mはブロックごとに与えられ、スペクトル領域信号であることが好ましく、表記‖…‖は引数の2−ノルムを意味し、<…>は通常通りドット積を示す。第1チャンネル信号201と第2チャンネル信号202が最適化装置207に入力されると、最適化装置は結合ルールを適用しなければならない。結合ルールの一例を図3Cに示す。しかし、第1結合信号214と第2結合信号215が最適化装置207に入力された場合には、最適化装置207は自動的に結合ルールを実施する必要はない。
感覚的質には他の最適化目標が関係する場合もある。最適化目標は、感覚的な良質さが最大限に得られるようなものであってもよい。この場合、最適化装置は感覚的モデルからの付加的な情報を必要とするであろう。最適化目標の他の実施例は、最小限のまたは一定のビットレートを得ることに関連したものであってもよい。この場合、αが最小限のビットレートまたは一定のビットレートというような要件を満たすようなものとなるように、最適化装置207はいくつかのαの値のために必要なビットレートを決定するために量子化/エントロピー符号化を実行する。最適化目標の他の実施例は、エンコーダまたはデコーダの最小限の資料の使用に関係していてもよい。このような最適化目標の実施例では、ある最適化に必要な資料に関する情報は最適化装置207内で入手可能である。また、予測情報206を算出する最適化装置207を制御するために、これらの最適化目標や他の最適化目標の組み合わせを適用することもできる。
オーディオエンコーダは予測方向計算機219をさらに含み、予測方向計算機219は、図2のエンコーダ計算機203によって出力された予測残留信号205に関連する予測方向を示す予測方向指標を出力する。予測方向計算機219は様々な方法で実施でき、そのいくつかの例が図14に示されている。
図2のエンコーダ計算機203は様々な態様で実施することができる。明確な結合ルールが結合器2031で実行される第1実施例を図3Aに示す。別の実施例を図3Bに示すが、ここではマトリクス計算機2039が使用される。図3Aの結合器2031は図3Cに示す結合ルールを実行するよう構成されていてもよく、図3Cの結合ルールは、0.5の重み付け係数が全てのブランチに適用される公知のミッド/サイドエンコーディングルールを一例として挙げたものである。しかし、実施態様に応じて、他の重み付け係数を適用することも可能であり、あるいは、全く何の重み付け係数をも適用しなくもよい。さらに、他の線形結合ルールまたは非線形結合ルールのような他の結合ルールも、図4Aに示されているデコーダ結合器1162で適用可能であるそれに対応する逆結合ルールが存在する限り使用可能であり、デコーダ結合器1162は、エンコーダで適用された結合ルールの逆の結合ルールを使用する。本発明に係る予測により、波形への影響が予測により「平衡状態に保たれる」ので、可逆的予測ルールが使用できる。つまり、最適化装置207とエンコーダ計算機203によって実行される予測は波形保存処理であるので、送信された残留信号に何らかのエラーが含まれる。
結合器2031は第1結合信号204と第2結合信号2032を出力する。第1結合信号は予測器2033に入力され、第2結合信号2032は残留信号計算機2034に入力される。予測器2033は予測信号2035を出力し、この予測信号2035は第2結合信号2032と結合され、最終的に残留信号205を得る。特に、結合器2031は、第1結合信号204と第2結合信号2032を得るために、二つの異なる方法でマルチチャンネルオーディオ信号の二つのチャンネル信号201と202とを結合するよう構成されている。これら二つの異なる方法は図3Cの実施形態に示されている。予測器2033は、予測信号2035を得るために、予測情報を第1結合信号204または第1結合信号から導き出された信号に適用させるように構成されている。この結合信号から導き出された信号は、何らかの非線形または線形処理(実数−虚数変換または虚数−実数変換が好ましい)によって導き出すことができ、これは、いくつかの値の重み付け加算を行うFIRフィルターのような線形フィルターを使用して実施することができる。
図3Aの残留信号計算機2034は、第2結合信号から予測信号を差し引くように減算処理を行ってもよい。しかし、残留信号計算機において他の演算も可能である。それに対応して、図4Aの結合信号計算機1161は、第2結合信号1165を得るために、復号された残留信号1114と予測信号1163を合算する加算処理を実行してもよい。
図11Aはエンコーダ計算機の好ましい実施形態を示している。予測方向入力501に入力された予測方向指標に応じて、第1予測ルール502または第2予測ルール503のどちらかが選択スイッチ505によって選択される。第1予測ルールは図13Bの(1)に示されているようなものであってもよく、第2予測ルールは図13Bの(2)に示されているようなものであってもよい。ブロック502,503の出力つまり結合信号と残留信号は、出力インターフェースに、あるいは信号コーディングの場合には図2の信号エンコーダ209に送られてもよい。さらに、予測方向指標は、予測情報と符号化された残留信号と符号化された結合信号(予測方向指標が「0」である場合には第1結合信号であり、または予測方向指標が「1」である場合には第2結合信号であり得る)とともに、出力ビットストリームに入力される。
図5Aはオーディオエンコーダの好ましい実施例を示している。図3Aに示したオーディオエンコーダと比較して、第1チャンネル信号201は時間領域第1チャンネル信号55aのスペクトル表記である。それに対応して、第2チャンネル信号202は時間領域チャンネル信号55bのスペクトル表記である。時間領域からスペクトル表記への変換は、第1チャンネル信号については時間/周波数変換器50により、第2チャンネル信号については時間/周波数変換器51により実行される。スペクトル変換器50,51は実数値変換器であることが好ましいが、必ずしもそうである必要はない。変換アルゴリズムは、実部だけが使用される離散余弦変換やFFT変換であってもよく、あるいは実数スペクトル値を出力するMDCTや他の変換であってもよい。別の例では、これら両方の変換は、虚部だけが使用され、実部は無視されるMDSTやFFTなどの虚数変換として実施することもできる。虚数値だけを出力する他の変換も使用可能である。純粋に実数値のみの変換または純粋に虚数値のみの変換をすることの目的の一つは、計算量にある。各スペクトルに関して、大きさまたは実部のような一つの値、あるいは、位相または虚部のような一つの値だけを処理すればよいからである。FFTのような完全複素数変換においては、各スペクトルラインに関して二つの値、つまり実部と虚部が処理されなければならず、少なくとも2の係数で計算量が増加する。ここで実数値変換を使用する別の理由は、このような変換は通常じっくりと抽出され、従って信号量子化とエントロピー符号化(「MP3」、AACまたは類似のオーディオコーディングシステムで実施されている標準的な「感覚的オーディオコーディング」パラダイム)に適切な(そして一般的に使用されている)領域を与えるということである。
図5Aはさらに、その「プラス」入力でサイド信号を受け取り、その「マイナス」入力で予測器2033から出力された予測信号を受け取る加算器として、残留信号計算機2034を示している。また、図5Aは、予測制御情報が最適化装置から、符号化されたマルチチャンネルオーディオ信号を表す多重ビットストリームを出力するマルチプレクサー212へ送られている状態を示している。特に、図5Aの右側の式で示されているように、サイド信号がミッド信号から予測されるような方法で、予測演算が行われる。
図5Aは、MからSへの予測、つまり、サイド信号がミッド信号により予測される(予測方向指標が0の場合)ことを示しているが、予測方向指標が1の場合には逆の予測が適用され、SからMへの予測が行われる。これは、上側の出力がサイド信号となり下側の出力がミッド信号となるようにブロック2031の出力を交換することで示される。
予測制御情報206は、図3Bの右側に示されているような係数であることが好ましい。予測制御信号が複素数値αの実部または複素数値αの大きさというような実部のみを含み、この実部が0ではない係数に相当する実施形態において、ミッド信号とサイド信号がそれらの波形構造に関しては互いに似ているが、振幅が異なる場合には、かなりのコーディング利得が得られる。
予測制御情報が、複素数値係数の虚部(0ではない)または複素数値係数の位相情報(0ではない)であり得る第2部分のみを含む場合、本発明では、0°及び180°以外の値で互いに位相シフトし、その位相シフトとは関係なく、波形特徴と振幅関係が類似している信号に関して、かなりのコーディング利得を得ることができる。
予測制御情報は複素数値であることが好ましい。その場合、振幅が異なり、位相シフトしている信号に関して、かなりのコーディング利得が得られる。時間/周波数変換が複素数スペクトルをもたらす場合、演算2034は、予測制御情報の実部が複素数スペクトルMの実部に適用され、予測制御情報の虚部が複素数スペクトルの虚部に適用される複素数演算となる。この場合、加算器2034では、この予測演算の結果は予測実数スペクトルと予測虚数スペクトルであり、複素数残留スペクトルDを得るために、サイド信号S(帯域に関して)の実数スペクトルから予測実数スペクトルが減算され、サイド信号Sの虚数スペクトルから予測虚数スペクトルが減算される。
時間領域信号LとRは実数値信号であるが、周波数領域信号は実数値であっても複素数値であってもよい。周波数領域信号が実数値である場合、変換は実数値変換である。周波数領域信号が複素数値である場合、変換は複素数値変換である。これは、時間−周波数変換器に対する入力及び周波数−時間変換器からの出力は実数値であり、周波数領域信号は例えば複素数値QMF領域信号であり得るということを意味している。
図5Bは、図5Aに示したオーディオエンコーダに対応するオーディオデコーダを示している。図1のオーディオデコーダに関するものと同様の素子には、同様の参照符号が与えられている。
図5Aのビットストリームマルチプレクサー212によって出力されたビットストリームは、図5Bのビットストリームデマルチプレクサー102に入力される。ビットストリームデマルチプレクサー102は、ビットストリームをダウンミックス信号Mと残留信号Dとに分離する。ダウンミックス信号Mはデクオンタイザー110aに入力される。残留信号Dはデクオンタイザー110bに入力される。さらに、ビットストリームデマルチプレクサー102は、ビットストリームから予測制御情報108を分離し、それを予測器1160に入力する。予測器1160は予測サイド信号α・Mを出力し、結合器1161はデクオンタイザー110bによって出力された残留信号を予測サイド信号と結合し、最終的に再構築されたサイド信号Sを得る。この信号はその後、例えば、ミッド/サイドエンコーディングに関する図4Cに示されている和/差の処理を実行する結合器1162に入力される。詳しくは、ブロック1162は、左チャンネルの周波数領域表記と右チャンネルの周波数領域表記を得るために、(逆)ミッド/サイドデコーディングを実行する。周波数領域表記はその後、それぞれに対応する周波数/時間変換器52,53によって時間領域に変換される。
図5Bは、エンコーダにおいてミッド信号Mからサイド信号Sへの予測が行われた状態を示しており、これは0の予測方向指標によって示される。しかし、1の予測方向指標が例えば図5Aのエンコーダから図5Bのデコーダへ送られた場合、SからMへの逆予測が実行されなければならず、つまり、デコーダ計算ルールは、予測方向指標が0の場合とは反対の計算というよりも、MがSから算出されるようなものである。
システムの実施態様によるが、周波数領域表記が実数値表記の場合、周波数/時間変換器52,53は実数値周波数/時間変換器であり、周波数領域表記が複素数値表記の場合、周波数/時間変換器52,53は複素数値周波数/時間変換器である。
しかし、効率向上のためには、図6A(エンコーダ)と図6B(デコーダ)に示されている別の実施例のように、実数値変換を行うことの方が好ましい。実数値変換50,51はMDCTによって実施される。さらに、予測情報は、実部と虚部を有する複素数値として算出される。MとSのどちらのスペクトルも実数値スペクトルであり、従って、スペクトルの虚部は存在しないので、信号Mの実数値スペクトルから虚数スペクトル600を推定する実数−虚数変換器2070が設けられている。この実数−虚数変換器2070は最適化装置207の一部であり、ブロック2070によって推定された虚数スペクトル600は、予測情報206を得るために、実数スペクトルMと共にα最適化ステージ2071に入力される。そして、予測情報206は、2073で示されている実数値係数と2074で示されている虚数値係数を持つことになる。この実施形態においては、第1結合信号Mの実数値スペクトルには2073で示されている実部αRが掛けられ、これにより予測信号を得、その後、この予測信号は実数値サイド信号スペクトルから引き算される。また、さらに別の予測信号を得るために、虚数スペクトル600には2074で示されている虚部αIが掛けられ、この予測信号はその後、2034bで示されているように、実数値サイド信号から引き算される。そして、予測残留信号Dは量子化器209bで量子化され、Mの実数値スペクトルはブロック209aで量子化/符号化される。また、符号化された複素数値αを得るために、予測情報αを量子化器/エントロピーエンコーダ2072で量子化及び符号化することが好ましく、符号化された複素数値αは、例えば図5Aのビットストリームマルチプレクサー212に送られ、最終的に予測情報としてビットストリームに入れられる。
αのための量子化/符号化(Q/C)モジュール2072の位置に関して、マルチプレクサー2073,2074は、デコーダでも使用されることになるものと全く同じ(量子化された)αを使用することが好ましいことに留意すべきである。従って、2072を2071の出力の直後に位置させるか、または、αの量子化が2071での最適化処理で既に考慮されてもよい。
エンコーダ側で全ての情報が入手可能であるので、複素数スペクトルを計算することは可能であるが、図6Bに示されているデコーダに関しても同様の状態が生じるように、エンコーダ内のブロック2070で実数から複素数への変換が行われることが好ましい。デコーダは、第1結合信号の符号化された実数値スペクトルと符号化された残留信号の実数値スペクトル表記を受け取る。さらに、108で符号化された複素数予測信号が受け取られ、1160bで示されている実部αRと1160cで示されている虚部αIを得るために、ブロック65でエントロピー復号とデクオンタイゼーションが行われる。重み付け素子1160b,1160cによって出力されたミッド信号は、復号されデクオンタイズされた予測残留信号に加算される。詳しくは、重み付け器1160cに入力されたスペクトル値に関して、複素数予測係数の虚部が重み付け係数として使用されるが、これらのスペクトル値は、実数−虚数変換器1160aによって実数値スペクトルから引き出されたものである。実数−虚数変換器1160aは、エンコーダ側に関する図6Aのブロック2070と同じように実施されることが好ましい。デコーダ側ではミッド信号またはサイド信号の複素数値表記は入手不可能であり、これがエンコーダ側との大きな違いである。符号化された実数値スペクトルのみがエンコーダからデコーダへ送られる理由は、ビットレートと計算量にある。
図6A,6Bは、予測方向指標が0であり、MからSへの予測と、Mと複素数予測情報αとを使用してSの算出が行われる場合を示している。しかし、予測方向指標が1の場合、つまり、概して逆の予測方向を示している場合には、同じ回路が適用可能であるが、上側のラインがサイド信号Sとなり、下側のラインがミッド信号Mとなるように、ブロック2031の出力が転換される。デコーダ側でも、予測方向が逆の場合には、MがSから算出されるようにデコーダ計算ルールが変更され、これは、図6Bのブロック110aからの出力である上側のラインのミッド信号Mをサイド信号Sで置き換えることで示される。この場合、ブロック1161bの出力がミッド信号Mとなり、ブロック1162への上側の入力がサイド信号Sとなる。従って、ブロック1162によって使用されるルールがこの入力状況の違いに適合されるか、または、M/S信号がブロック1162に入力される前に交換されなければならない。後者の場合、つまり、信号交換が行われる場合には、ブロック1162はどちらの予測方向指標の値に対しても同じである。
図6Aの実数−虚数変換器1160aまたはそれに相当するブロック2070は、WO2004/013839A1またはWO2008/014853A1または米国特許6,980,933で開示されているように実施できる。信号または実施態様により、予測情報αは純粋な実数値または純粋な虚数値であるか、あるいは実部と虚部を有する複素数であり得る。しかし、実数値のみの予測が実施される場合、予測方向の逆転が既に、計算条件の非常にわずかな追加だけで、性能を向上させることができ、残留信号が小さいエネルギーを持つという事実により、低ビットレート化する結果となり、予測情報に関しても同じことが言える。従って、予測方向指標を送信するのに必要な追加的なビットレートは、残留信号と予測情報に必要なビットレートを低減させることになるので、最終的にかなりのビットが節約できる。従って、予測情報は0ではない実部及び/または0ではない虚部を含み得る。あるいは、この分野で公知である他のいかなる実施も適用可能である。図10A,10Bを参照して好ましい実施例を説明する。
特に、図10Aに示されているように、実数−虚数変換器1160aは虚数スペクトル計算機1001に接続されたスペクトルフレームセレクター1000を含む。スペクトルフレームセレクター1000は、入力1002で現在のフレームiの指標と、実施態様によるが、制御入力1003で制御情報を受け取る。例えば、ライン1002の指標が現在のフレームiに関する虚数スペクトルを算出すべきであることを示している場合や、制御情報1003がその計算には現在のフレームのみを使用すべきであることを示している場合には、スペクトルフレームセレクター1000は現在のフレームiだけを選択し、この情報を虚数スペクトル計算機に送る。そして、虚数スペクトル計算機は、現在のフレーム(ブロック1008)内に位置するライン(周波数に関して、現在のスペクトルラインk付近のライン)の重み付け結合を実行するのに、現在のフレームのスペクトルラインだけを使用する。現在のスペクトルラインkに関する虚数ラインは、図10Bに1004で示されているように算出される。しかし、スペクトルフレームセレクター1000が、先行のフレームi−1と後続のフレームi+1も虚数スペクトルの算出に使用されるべきであると示す制御情報1003を受け取った場合には、虚数スペクトル計算機はさらにフレームi−1とi+1から値を受け取り、フレームi−1に関しては1005で、フレームi+1に関しては1006で、対応するフレーム内のラインの重み付け結合を実行する。重み付け処理の結果はブロック1007で重み付け結合によって結合され、最終的にフレームfiの虚数ラインkが得られる。その後、素子1160cで、フレームfiの虚数ラインkに予測情報の虚部が掛けられ、このラインに関する予測信号が得られ、この予測信号は、その後、デコーダの加算器1161bでミッド信号の対応するラインに加算される。エンコーダで同様の処理が実行されるが、素子2034bでは減算が行われる。
制御情報1003はさらに、三つ以上の周囲のフレームを使用すること、あるいは、例えばシステムの遅延を抑えるために、現在のフレームと直前の一つまたは複数のフレームのみを使用し、「未来の」フレームを使用しないことを表示していてもよい。
また、図10Bに示されているステージごとの重み付け結合においては、第1の処理では一つのフレームからのラインが結合され、それに引き続き、これらのラインごとの結合処理の結果が結合されるが、このステージごとの重み付け結合は他の順序でも実行され得る。他の順序とは、第1のステップで、制御情報103によって示されている複数の隣接するフレームからの現在の周波数kに関するラインが、重み付け結合によって結合されることである。この重み付け結合は、虚数ラインを推定するのに使用されるべき隣接するラインの数に応じて、ラインk,k−1,k−2,k+1,k+2…に関して行われる。その後、これらの「時間ごとの」結合の結果は「周波数方向」で重み付け結合され、最終的にフレームfiの虚数ラインkを得る。重みは好ましくは−1と1の間の値に設定され、重み付けは、異なる周波数と異なるフレームからのスペクトルラインまたはスペクトル信号の線形結合を行う単純なFIRまたはIIRフィルターで実施可能である。
図6A,6Bに示すように、好ましい変換アルゴリズムは、図6Aにおける素子50,51の前進方向に適用され、スペクトル領域で動作する結合器1162での結合処理の次の素子52,53の後退方向に適用されるMDCT変換アルゴリズムである。
図8Aはブロック50または51のより詳細な実施例を示している。詳しくは、一連の時間領域オーディオサンプルがウィンドウ処理装置500に入力される。このウィンドウ処理装置500は、解析ウィンドウを使用してウィンドウ処理を行うが、特に、この処理をフレームごとではあるが、50%のストライドまたは重複で行う。解析ウィンドウ処理部の結果、つまり一連のフレームのウィンドウ処理後のサンプルはMDCT変換ブロック501に入力され、このブロック501は一連の実数値MDCTフレームを出力するが、これらのフレームはエイリアシングの影響を受けている。一例として、解析ウィンドウ処理部は2048個のサンプル長さを有する解析ウィンドウを適用する。そして、MDCT変換ブロック501は1024個の実数スペクトルラインまたはMDCT値を有するMDCTスペクトルを出力する。解析処理部500及び/またはMDCT変換器501は、例えば信号の過渡部に関してより良いコーディング結果を得るためにウィンドウ長さ/変換長さが短くなるように、ウィンドウ長さまたは変換長さ制御部502で制御可能であることが好ましい。
図8Bはブロック52,53で実行される逆MDCT処理を示している。一例として、ブロック52は、フレームごとの逆MDCT変換を行うブロック520を含む。例えばMDCT値の一つのフレームが1024個の値を有する場合、このMDCT逆変換の出力は2048個のエイリアシングの影響を受けた時間サンプルを有する。このようなフレームは合成ウィンドウ処理部521に送られ、この合成ウィンドウ処理部521は、この2048個のサンプルのフレームに合成ウィンドウ処理を行う。ウィンドウ処理後のフレームは、その後、重複/加算処理部522に送られ、重複/加算処理部522は、例えば二つの連続するフレーム間で50%の重複を適用し、2048個のサンプルが最終的にエイリアシングフリーの出力信号の1024個の新たなサンプルをもたらすようにサンプルごとの加算を実行する。ここでも、例えば523で示されているような符号化されたマルチチャンネル信号のサイド情報に送られる情報を使用して、ウィンドウ/変換長さの制御が行われることが好ましい。
α予測値はMDCTスペクトルのそれぞれのスペクトルラインに関して算出可能であった。しかし、これは不必要なことであり、予測情報の帯域ごとの計算を行うことにより莫大なサイド情報量が節約できることがわかった。換言すれば、図9に示すスペクトル変換器50は例えば図8に関して述べたようなMDCTプロセッサーであるが、これは図9Bに示すようないくつかのスペクトルラインを有する高周波分解能スペクトルを出力する。この高周波分解能スペクトルは、いくつかの帯域B1,B2,B3,…,BNを含む低周波分解能スペクトルを出力するスペクトルラインセレクター90によって使用される。この低周波分解能スペクトルは、各スペクトルラインではなく各帯域に対して予測情報が算出されるように予測情報を計算するための最適化装置207に送られる。このために、最適化装置207は帯域ごとにスペクトルラインを受け取り、同じ値のαがその帯域の全てのスペクトルラインに使用されるという前提で、最適化処理を行う。
図9Bに示すように、帯域は、低周波から高周波になるにつれて帯域幅が広くなるように、音響心理的に成形されていることが好ましい。別の例として、帯域幅が増加していく実施例ほど好ましくはないが、同じサイズの周波数帯域もまた使用でき、この場合、各周波数帯域は少なくとも2本またはそれ以上、典型的には少なくとも30本の周波数ラインを有している。一般的に、1024本のスペクトルラインを有するスペクトルに関して、30個未満であり好ましくは5個よりも多い複素数値αが算出される。1024本未満のスペクトルライン(例えば128本のライン)を有するスペクトルに関して、αのためにより少ない周波数帯域(例えば6個の周波数帯域)を使用することが好ましい。
α値を算出するのに、高分解能MDCTスペクトルは必ずしも必要ではない。別の例では、α値を算出するのに必要な分解能と同様の周波数分解能を有するフィルターバンクも使用できる。周波数とともに帯域幅が増大する実施例の場合、このフィルターバンクは異なる帯域幅を有していなければならない。しかし、低周波から高周波にかけて一定の帯域幅で十分な場合には、同じ帯域幅のサブバンドを有する従来のフィルターバンクが使用可能である。
実施態様に応じて、図3B,4Bに示すように、α値の符号を逆転させてもよい。しかし、一貫性を保持するためには、符号の逆転はエンコーダ側でもデコーダ側でも行われる必要がある。図6Aとは対照的に、図5Aはエンコーダを一般化した図を示し、2033は予測制御情報206によって制御される予測器であり、この予測制御情報206は装置207で決定され、ビットストリームのサイド情報として含まれているものである。ブロック50,51で使用されるMDCTの代わりに、図5Aでは、前述したような一般的な時間/周波数変換が用いられる。既に述べたように、図6Aは図6Bのデコーダ処理に対応するエンコーダ処理を示し、Lは左チャンネル、Rは右チャンネル、Mはミッド信号またはダウンミックス信号、Sはサイド信号、Dは残留信号を表している。あるいは、Lは第1チャンネル信号201、Rは第2チャンネル信号202、Mは第1結合信号204、Sは第2結合信号2032とも称される。
正確な波形コーディングを確実に行うためには、エンコーダ内のモジュール2070とデコーダ内のモジュール1160aは厳密に一致することが好ましい。これらのモジュールが不完全フィルターのような何らかの近似形態を使用する場合、または、三つのMDCTフレーム、つまりライン60上の現在のMDCTフレームとライン61上の先行するMDCTフレームとライン62上の次のMDCTフレームを使用する代わりに、一つまたは二つのMDCTフレームのみを使用する場合に、これが適用されることが好ましい。
さらに、デコーダ内の実数−虚数変換(R2I)モジュール1160aへの入力は量子化MDCTスペクトルしか可能ではないが、図6Aのエンコーダ内のモジュール2070は、非量子化MDCTスペクトルMを入力として使用することが好ましい。あるいは、エンコーダにおいてモジュール2070への入力として量子化MDCT係数が使用される実施態様も可能である。しかし、モジュール2070への入力として非量子化MDCTスペクトルを使用することは、感覚的な点において好ましいアプローチである。
以下に、本発明の実施形態のいくつかの側面を述べる。
USACシステムにおけるMEPGサラウンド(MPS)に基づくステレーコーディングのような標準的なパラメータステレオコーディングは、オーバーサンプリングされた複素数(混合)QMF領域の、エイリアシングアーチファクトをもたらさずに、時間及び周波数を変化させる感覚に基づく信号処理ができる可能性に頼っている。しかし、ダウンミックス/残留コーディング(ここで考慮されている高いビットレートに使用されるようなもの)の場合、それによる統合ステレオコーダーは波形コーダーとして動作する。これは、MDCT領域のようなじっくりとサンプリングされた領域での処理を可能にする。波形コーディングパラダイムは、確実にMDCT−IMDCT処理連鎖のエイリアシング解消特性を十分に保持するからである。
しかし、チャンネル間の差、時間差または位相差を有するステレオ信号の場合に、複素数値予測係数αによって達成できる改良コーディング効率を引き出すためには、ダウンミックス信号DMXの複素数値周波数領域表記が複素数値アップミックスマトリクスへの入力として必要である。これは、DMX信号に関するMDCT変換に加えてMDST変換も使用することで得られる。MDSTスペクトルは、MDCTスペクトルから(正確にまたは近似値として)算出できる。
さらに、アップミックスマトリクスのパラメータ化は、MPSパラメータの代わりに複素数予測係数αを送信することによって単純化できる。従って、三つ(ICCとCLDとIPD)ではなく、二つのパラメータ(αの実部と虚部)のみが送信される。ダウンミックス/残留コーディングの場合にはMPSパラメータ化における冗長性により、これが可能である。MPSパラメータ化はデコーダに加えられるべき非相関の相対量に関する情報(例えばRES信号とDMX信号とのエネルギー比)を含み、DMX信号及びRES信号が実際に送信される際にはこの情報は冗長である。
同じ理由により、利得係数はダウンミックス/残留コーディングにはもう使われていない。従って、複素数予測を伴うダウンミックス/残留コーディングのためのアップミックスマトリクスは今や以下のようなものである。
Figure 0005820464
図4Bの式1169と比較して、この式においてはαの符号が逆になっており、DMX=Mであり、RES=Dである。従って、これは図4Bに関する別の実施態様/表記である。
エンコーダで予測残留信号を算出するのに、二つの選択肢がある。一つはダウンミックスの量子化MDCTスペクトル値を使用することである。この場合、エンコーダとデコーダが予測を生成するのに同じ値を使用するので、M/Sコーディングと同様の量子化エラー分布となる。もう一つは非量子化MDCTスペクトル値を使用することである。これは、エンコーダとデコーダは予測を生成するのに同じデータを使用しないということであり、コーディング利得は幾分低下するが、信号の瞬間マスキング特性に応じたコーディングエラーの空間的再配分が可能となる。
上述したような三つの隣接するMDCTフレームの二次元的FIRフィルタリングによって、MDSTスペクトルを周波数領域で直接演算することが好ましい。後者は「実数から虚数への」(R2I)変換と考えられる。MDSTの周波数領域での演算の計算量は以下のような様々な方法で軽減させることができ、これはMDSTスペクトルの近似値を求めるだけでもよいということである。
・FIRフィルタータップの数を制限する。
・現在のMDCTフレームのみからMDSTを推定する。
・現在のMDCTフレームと前のMDCTフレームからMDSTを推定する。
エンコーダとデコーダで同じ近似値が使用される限り、波形コーディング特性は影響を受けない。しかし、このようなMDSTスペクトルの近似値は複素数予測によって得られるコーディング利得の低下をもたらす可能性がある。
基本的なMDCTコーダーがウィンドウ形状の切り替えを行う場合、MDSTスペクトルを計算するための二次元的FIRフィルターは実際のウィンドウ形状に適応していなければならない。現在のフレームのMDCTスペクトルに適用されるフィルター係数はウィンドウ全体によって決まる。つまり、全てのウィンドウタイプに関してまた全てのウィンドウ転移に関して、一組の係数が必要である。前の/次のフレームのMDCTスペクトルに適用されるフィルター係数は、現在のフレームと半分重なっているウィンドウによってのみ決まる。つまり、それぞれのウィンドウタイプに関してのみ一組の係数が必要である(転移に関しての係数は必要ではない)。
基本的なMDCTコーダーが変換長さの切り替えを行う場合、前の及び/または次のMDCTフレームを近似値に含ませると、異なる変換長さの間の転移辺りでより複雑化する。現在のフレームと前の/次のフレームとで異なる個数のMDCT係数を使用するので、この場合には二次元フィルタリングはより複雑になる。それぞれのフレームに関する近似計算の精密さは低下するが、計算量の増加と構造的複雑化を避けるためには、変換長さの転移の際に前の/次のフレームをフィルタリングから除外してもよい。
さらに、MDSTスペクトルの最低部分と最高部分(DCとfs/2に近い)に関しては特に注意を払う必要がある。これらの部分では、FIRフィルタリングのために入手可能な周辺MDCT係数の個数は、必要な数よりも少ない。そこで、MDSTスペクトルを正確に算出できるようにフィルタリング処理を適合させる必要がある。フィルタリング処理の適合は、欠落している係数のためにMDCTスペクトルの対称拡張を使用することにより(時間離散信号のスペクトルの周期に応じて)、またはこのようにフィルター係数を適合させることにより、行うことができる。MDSTスペクトルの境界近辺の精密さは低下するが、これらの特別な場合の処理はもちろん簡素化することも可能である。
デコーダにおいて、送信されたMDCTスペクトルから正確なMDSTスペクトルを算出することは、デコーダでの遅延を1フレーム分(ここでは1024個のサンプルであると仮定する)増大させる。入力として次のフレームのMDCTスペクトルを必要とはしないMDSTスペクトルの近似値を使用することにより、この遅延の増大を避けることができる。
以下に、QMFに基づく統合ステレオコーディングに対するMDCTに基づく統合ステレオコーディングの利点を要約する。
・計算量のほんのわずかな増大(SBRが使用されない場合)。
・MDCTスペクトルが量子化されない場合には、完全な再構築までの規模拡大。QMFに基づく統合ステレオコーディングの場合はこのようなものではない。
・M/Sコーディングと強度ステレオコーディングの自然な統合と拡張。
・ステレオ信号処理と量子化/符号化が密接に結びついていることによる、エンコーダチューニングを簡素化する明快な構造。QMFに基づく統合ステレオコーディングでは、MPEGサラウンドフレームとMDCTフレームは整列されてはいず、スケールファクターバンドとパラメータバンドとは一致していない。
・MPEGサラウンド(ICC、CLD、IPD)においては三つのパラメータが送信されなければならないが、二つのパラメータ(複素数α)のみを必要とすることによる、ステレオパラメータの効率的なコーディング。
・MDSTスペクトルが近似値として算出される場合(次のフレームを使用せずに)には、デコーダ遅延の増大はない。
一実施例の重要な特徴を以下に要約する。
a)MDSTスペクトルは、現在の、前の及び次のMDCTスペクトルから、二次元的FIRフィルタリングによって算出される。FIRフィルタータップの個数及び/または使用するMDCTフレームの個数を減らすことにより、MDST演算(推定)の際の計算量と質との間の種々のトレードオフが可能である。特に、送信の間のフレーム損失または変換長さの切り替えにより、隣接するフレームが入手不可である場合には、そのフレームはMDSTの推定から除外される。変換長さの切り替えの場合に関して、その除外はビットストリームで信号伝達される。
b)ICCとCLDとIPDの代わりに、二つのパラメータ、つまり複素数予測係数αの実部と虚部のみが送信される。αの実部と虚部は別々に処理されるが、[−3.0,3.0]の範囲に限られ、0.1の刻み幅で量子化される。どちらかのパラメータ(αの実部または虚部)がそのフレームで使用されていない場合には、このことがビットストリームで信号伝達され、その無意味なパラメータは送信されない。これらのパラメータは時間差分符号化または周波数差分符号化され、最終的に、スケールファクターコードブックを使用してハフマンコーディングが行われる。予測係数は、スケールファクターバンドの一つおきに更新され、これにより、MPEGサラウンドの場合と同様の周波数分解能となる。この量子化符号化スキームにおいて、96kb/sの目標ビットレートである一般的な構成では、ステレオサイド情報に関して約2kb/sの平均ビットレートとなる。
別の好ましい実施例は以下の詳細を含む。
c)αの二つのパラメータそれぞれに関して、フレームごとまたはストリームごとの非差分(PCM)または差分(DPCM)コーディングを選択してもよく、これはビットストリーム中の対応するビットで信号伝達される。DPCMコーディングとしては、時間差分または周波数差分コーディングが可能である。これも1ビットフラグで信号伝達されてもよい。
d)αパラメータ値を符号化するために、AACスケールファクターブックのような既定のコードブックを再利用する代わりに、専用で不変のまたは信号適応可能なコードブックを使用してもよく、あるいは、一定長さの(例えば4ビットの)符号なし符号語または二つの互いに補完的な符号語に戻ってもよい。
e)αのパラメータ値の範囲もパラメータ量子化の刻み幅も任意に選択でき、目前の信号の特徴に合わせて最適化してもよい。
f)アクティブなαパラメータバンドの個数とスペクトル幅及び/または時間幅は任意に選択でき、与えられた信号の特徴に合わせて最適化してもよい。特に、バンドの構成はフレームごとにまたはストリームごとに信号伝達されてもよい。
g)上記a)で述べたメカニズムに加えてあるいはその代わりに、ビットストリームの1フレームにつき1ビットで、MDSTスペクトルの近似値の算出には現在のフレームのMDCTスペクトルのみを使用すること、つまり、隣接するMDCTフレームは考慮しないということを明確に示してもよい。
実施形態は、MDCT領域での統合ステレオコーディングのための本発明のシステムに関するものである。それによると、高いビットレートでも(SBRを使用しない場合)計算量がそれほど増加することなく(QMFに基づくアプローチでは計算量がかなり増加する)、MPEG−USACシステムにおけるステレオコーディングの利点を活用することが可能になる。
以下の二つのリストは前述した好ましい構成を要約したものであるが、これらは互いに二者択一的にまたは他の態様に加えて使用することができる。
1a)一般概念:ミッドMDCTとMDSTからのサイドMDCTの複素数予測
1b)一つまたはそれ以上のフレームを使用して(3フレームの使用は遅延を生じさせる)周波数領域でのMDCTからMDSTの(R2I)算出/推定
1c)計算量軽減のためのフィルター切り捨て(1フレーム2タップ、つまり[−1 0 1]までへの切り捨ても可能)
1d)DCとfs/2の適切な処理
1e)ウィンドウ形状切り替えの適切な処理
1f)異なる変換サイズの場合の前の/次のフレームの不使用
1g)エンコーダにおける非量子化MDCTまたは量子化MDCT係数に基づく予測
2a)複素数予測係数の実部と虚部の直接的な(つまり、MEPGサラウンドパラメータ化を行わない)量子化及び符号化
2b)このための均一な量子化器(例えば0.1の刻み幅)の使用
2c)予測係数のための妥当な周波数分解能の使用(例えば二つのスケールファクターバンドに対し1個の係数)
2d)全ての予測係数が実数である場合の節約的な信号伝達
2e)1フレームのR2I演算(前の/次のフレームを使用しないで)を実行させるためのフレームごとの明示ビット
一実施形態において、エンコーダはさらに、2チャンネル信号の時間領域表記を、その2チャンネル信号に関するサブバンド信号を有する2チャンネル信号スペクトル表記に変換するためのスペクトル変換器(50,51)を含み、結合器(2031)、予測器(2033)及び残留信号計算機(2034)は、複数のサブバンドに関して第1結合信号と残留信号が得られるように各サブバンド信号を処理するよう構成され、出力インターフェース(212)は、複数のサブバンドに関して符号化された第1結合信号と符号化された残留信号とを結合するよう構成されている。
いくつかの態様を装置に関して説明してきたが、これらの態様は相応する方法として説明することもでき、このような方法においては、ブロックまたは装置は方法ステップまたは方法ステップの特徴に相応する。同様に、方法ステップに関して説明した態様は相応するブロックまたは素子あるいは相応する装置の特徴として説明することもできる。
本発明の一実施形態において、ウィンドウ形状切り替えに対して適切な処理が行われる。図10Aの場合には、ウィンドウ形状情報109が虚数スペクトル計算機1001に入力されてもよい。詳しくは、MDCTスペクトルのような実数値スペクトルの実数−虚数変換を行う虚数スペクトル計算機(図6Aの素子2070または図6Bの素子1160a)は、FIRまたはIIRフィルターとして実施可能である。この実数−虚数変換モジュール1001におけるFIRまたはIIR係数は、現在のフレームの左半分または右半分のウィンドウ形状によって決まる。このウィンドウ形状は、サインウィンドウであるかKBD(カイザー・ベッセル派生)ウィンドウであるかによって異なり、また、与えられたウィンドウシーケンスの構成により、ロングウィンドウ、スタートウィンドウ、ストップウィンドウ、ストップ−スタートウィンドウまたはショートウィンドウであり得る。実数−虚数変換モジュールは二次元的FIRフィルターを含んでいてもよく、そのうち一つの次元は二つの連続的なMDCTフレームがFIRフィルターに入力される時間次元であり、もう一つの次元はフレームの周波数係数が入力される周波数次元である。
以下の表は、ウィンドウの左半分と右半分の様々なウィンドウ形状と様々な実施例における、現在のウィンドウシーケンスのための様々なMDSTフィルター係数を示している。
Figure 0005820464
さらに、MDCTスペクトルからMDSTスペクトルを算出するのに、前のウィンドウが使用される場合、ウィンドウ形状情報109は前のウィンドウにウィンドウ形状情報を提供する。前のウィンドウのためのMDSTフィルター係数を以下の表に示す。
Figure 0005820464
従って、図10Aの虚数スペクトル計算機1001は、ウィンドウ形状情報109に基づき、様々なフィルター係数組を使用することで適応する。
デコーダ側で使用されるウィンドウ形状情報はエンコーダ側で算出され、エンコーダの出力信号と共に、サイド情報として送られる。デコーダ側では、ウィンドウ形状情報109はビットストリームデマルチプレクサー(例えば図5Bの102)によってビットストリームから抽出され、図10Aに示されているような虚数スペクトル計算機1001に送られる。
ウィンドウ形状情報109が、前のフレームが異なる変換サイズであったことを示している場合には、実数値スペクトルから虚数スペクトルを算出するのに、前のフレームを使用しないことが好ましい。ウィンドウ形状情報109を読み取ることで、次のフレームが異なる変換サイズであることがわかる場合も同様に、実数値スペクトルから虚数スペクトルを算出するのに、次のフレームを使用しないことが好ましい。例えば、前のフレームが現在のフレームとは違う変換サイズであり、次のフレームも現在のフレームとは違う変換サイズである場合には、現在のフレームのみ、つまり現在のウィンドウのスペクトル値のみが虚数スペクトルの推定に使用される。
エンコーダでの予測は、非量子化周波数係数またはMDCT係数のような量子化周波数係数に基づく。図3A中素子2033で示される予測が例えば非量子化データに基づくものである場合、残留信号計算機2034もまた非量子化データに基づき演算を行うことが好ましく、残留信号計算機の出力信号、つまり残留信号205は、エントロピー符号化されデコーダに送られる前に量子化される。あるいは別の実施形態においては、予測は量子化MDCT係数に基づき行われることが好ましい。そして、図3Aの結合器2031の前で量子化が行われてもよく、この場合、第1量子化チャンネルと第2量子化チャンネルが残留信号計算の基礎となる。あるいは、量子化は結合器2031の直後に行われてもよく、この場合、第1結合信号と第2結合信号が非量子化状態で算出され、残留信号計算の前に量子化される。さらに別の例では、予測器2033は非量子化領域で動作してもよく、予測信号2035は残留信号計算機に入力される前に量子化される。そして、第2結合信号2032(これもまた残留信号計算機2034に入力される)もまた、図6Aにおいて、残留信号計算機が残留信号を算出しデコーダ側で入手できるものと同じ量子化データで演算する前に量子化される(図3Aでは予測器2033内で実施されてもよい)ことが有効である。これにより、残留信号算出を行うためにエンコーダで推量されたMDSTスペクトルは、デコーダで逆予測を行うために、つまり残留信号からサイド情報を算出するために使用されるMDSTスペクトルと全く同じであることが保障される。このために、図6Aのライン204上の信号Mのような結合信号はブロック2070に入力される前に量子化される。そして、現在のフレームの量子化MDCTスペクトルを使用して算出されたMDSTスペクトルと、制御情報に応じて、前のまたは次の量子化MDCTスペクトルがマルチプレクサー2074に入力され、図6Aのマルチプレクサー2070の出力は再び非量子化スペクトルとなる。この非量子化スペクトルは加算器2034bへ入力されたスペクトルから差し引かれ、最終的に量子化器209bで量子化される。
一実施形態において、予測バンドごとの複素数予測係数の実部と虚部は、例えばMPEGサラウンドパラメータ化をしないで、直接量子化され、符号化される。この量子化は例えば0.1の刻み幅の均一量子化器を使用して行ってもよい。これは、対数量子化刻み幅のようなものは全く適用されず、何らかの線形刻み幅が適用されることを意味する。一実施例においては、複素数予測係数の実部と虚部の数値範囲は、−3〜3であり、これは、この実施例の詳細にもよるが、60または61個の量子化のステップが複素数予測係数の実部と虚部に使用されるということである。
図6Aのマルチプレクサー2073で使用される実部と図6Aのマルチプレクサー2074で使用される虚部は、そこで使用される前に量子化され、デコーダ側で入手可能であるのと同じ値がエンコーダ側での予測のために使用される。これにより、量子化予測係数がデコーダ側で使用されている間に、非量子化予測係数がエンコーダ側で使用された際に生じ得たいかなるエラーをも(量子化によって引き起こされたエラーは別にして)、予測残留信号が確実にカバーする。エンコーダ側とデコーダ側で、できる限り同じ状況と同じ信号が入手可能であるように、量子化が行われることが好ましい。従って、量子化器209aで適用されるのと同じ量子化方法を用いて、実数−虚数計算機2070への入力を量子化することが好ましい。また、素子2073と2074での掛け算のための予測係数αの実部と虚部を量子化することが好ましい。この量子化は、量子化器2072で行われるものと同じである。さらに、図6Aのブロック2031によって出力されるサイド信号もまた、加算器2034a,2034bの前に量子化され得る。しかし、これらの加算器が非量子化サイド信号を用いて加算を行った直後に、量子化器209bによって量子化を行っても問題はない。
本発明の別の実施形態において、全ての予測係数が実数である場合の節約的な信号伝達が適用される。ある一つのフレームつまりオーディオ信号の同じ時間部分のための予測係数が全て実数値として算出される場合がある。ミッド信号全体とサイド信号全体が互いに全くあるいはほとんど位相シフトしていない場合にこのような状況が起こり得る。ビットを節約するために、一つの実数値指標によってこの状況を示す。そして、予測係数の虚部は、ビットストリーム中で0の値を表す符号語で信号伝達される必要はない。デコーダ側では、ビットストリームデマルチプレクサーのようなビットストリームデコーダインターフェースはこの実数値指標を読み取り、虚部に関する符号語を検索せず、ビットストリームの相応する部分の全てのビットは実数値予測係数であると見なす。さらに、予測器2033がそのフレームの予測係数の全ての虚部は0であるという指標を受け取った場合、予測器2033は、実数値MDCTスペクトルからMDSTスペクトル、あるいは一般的には虚数スペクトルを算出する必要がない。従って、図6Bのデコーダ内の素子1160aの動作が停止され、図6Bのマルチプレクサー1160bで使用される実数値予測係数だけで逆予測が行われる。エンコーダ側でも同様に、素子2070の動作が停止され、マルチプレクサー2073のみを使用して予測が行われる。このサイド情報はフレームごとの付加的なビットとして使用されることが好ましく、デコーダは、実数−虚数変換器1160aをそのフレームのために作動すべきかどうかを決定するために、フレームごとにこのビットを読み取る。このように、この情報の提供は、一つのフレームに関する予測係数の全ての虚部が0であることをより効率的に信号伝達することにより、ビットストリームサイズの縮小化をもたらし、さらに、例えばモバイルのバッテリー駆動装置で使用されるこのようなプロセッサーのバッテリー消費量の削減という結果をもたらす。
本発明の好ましい実施形態に係る複素数ステレオ予測は、チャンネル間でレベル差及び/または位相差を有するチャンネル対の効率的なコーディングのためのツールである。複素数値パラメータαを使用して、左右のチャンネルが以下に示すマトリクスにより再構築される。dmxImは、ダウンミックスチャンネルdmxReのMDCTに相当するMDSTを示す。
Figure 0005820464
上記式は別の表記であり、αの実部と虚部に関して分けられ、一体化された予測/結合処理のための式を表すものであり、予測信号Sは必ずしも算出されない。
このツールのために、以下のデータ成分を使用することが好ましい。
cplx_pred_all
0:いくつかのバンドは、cplx_pred_used[]によって信号伝達されるように、L/Rコーディングを使用している。
1:全てのバンドは、複素数ステレオ予測を使用している。
cplx_pred_used[g][sfb]
ウィンドウグループg及びスケールファクターバンドsfb(予測バンドからのマッピング後)ごとの1ビットフラグであり、以下のことを示す
0:複素数予測は使用されず、L/Rコーディングが使用されている。
1:複素数予測が使用されている。
complex_coef
0:全ての予測バンドに関してαIm=0である(実数値のみの予測)。
1:全ての予測バンドに関してαImが送信される。
use_prev_frame
0:MDST推定のために現在のフレームのみを使用する。
1:MDST推定のために現在のフレームと前のフレームを使用する。
delta_code_time
0:予測係数の周波数差分コーディング
1:予測係数の時間差分コーディング
hcod_alpha_q_re
αReのハフマンコード
hcod_alpha_q_im
αImのハフマンコード
図13Aは、本発明が依存するさらに別のデータ成分、予測方向指標pred_dirを示している。このデータ成分は、図13Aの表に従い、予測の方向を示す。従って、「0」という第1の値はミッドからサイドチャンネルへの予測を意味し、「1」のような第2の値はサイドからミッドチャンネルへの予測を意味する。
これらのデータ成分はエンコーダで算出され、ステレオまたはマルチチャンネルオーディオ信号のサイド情報に入れられる。これらの成分はデコーダ側でサイド情報抽出器によりサイド情報から抽出され、デコーダ計算機に対応する処理を行わせるよう制御するのに使用される。
複素数ステレオ予測には、現在のチャンネル対のダウンミックスMDCTスペクトルが必要であり、complex_coef=1の場合には、さらに現在のチャンネル対のダウンミックスMDSTスペクトルの推定、つまりMDCTスペクトルの虚数対応部分の推定が必要である。ダウンミックスMDSTスペクトルの推定は現在のフレームのMDCTダウンミックスから算出され、use_prev_frame=1の場合、さらに前のフレームのMDCTダウンミックスからも計算される。ウィンドウグループgとグループウィンドウbの前のフレームのMDCTダウンミックスは、そのフレームの再構築された左右のスペクトルから得られる。
ダウンミックスMDST推定計算は、長さが均一で、ウィンドウシーケンスとfilter_coefとfilter_coef_prev(フィルターカーネルのアレイであり、前記表に基づき引き出される)に基づくMDCT変換が使用される。
全ての予測係数に関して、前の(時間に関してまたは周波数に関して)値に対する変化がハフマンコードブックを用いて符号化される。予測係数は、cplx_pred_used=0の場合には予測バンドに関して送信されない。
逆量子化予測係数alpha_reとalpha_imは以下によって与えられる。
alpha_re=alpha_q_re?0.1
alpha_im=alpha_q_im?0.1
予測方向の転換がなければ、サイド信号Sがダウンミックス信号Mに比べて高いエネルギーを持っている場合に問題が起こるかもしれない。このような場合、特に、Mが非常に低いレベルであり、従って主にノイズ成分から成っている場合には、Sに存在する信号の主要部分を予測することは困難になるかもしれない。
さらに、予測係数αの数値範囲は非常に広くなり、望ましくない増幅または量子化ノイズのパニング(例えば空間的脱マスキング効果)によるコーディングアーチファクトを引き起こす可能性がある。
一例として、わずかにパニングされたR=−0.9・Lの位相不一致の信号を考えると以下のようになる。
R=−0.9・L
M=0.5・(L+R)=0.05・L
S=0.5・(L−R)=0.95・L
RES=S−(α?M)
最適α:α=19
この場合、最適予測係数が19となり、かなり大きいものとなる。
本発明によれば、予測方向は転換され、これにより、最小の計算量と小さいα値で予測利得が増大する。
サイド信号Sがミッド信号Mと比較して高いエネルギーを有する場合、例えば図13B(2)に示すように、MがSの複素数値表記から予測されるように予測方向を逆転することが有利である。MがSから予測されるように予測方向を切り替えた場合、Sに関して追加的なMDSTが必要となるが、Mに関するMDSTは全く必要ではない。この場合には、さらに、図13B(1)に示すような第1の場合におけるミッド信号の代わりとして、(実数値)サイド信号が、残留信号と予測情報αとともにデコーダに送られなければならない。
予測方向の転換は、バンドごとや周波数ごとの切り替えができるように、フレームごとにつまり時間軸で、バンドごとにつまり周波数軸で、またはこれらの組み合わせで行われ得る。各フレーム及び各バンドに対して一つの予測方向指標(1ビット)が必要となるが、各フレームに対して一予測方向を可能とするためにこれが有効である。
この目的のために、図12Aに示されているような予測方向計算機219が備えられている。他の図と同様に、図12Aは、MDCT段階50/51、ミッド/サイドコーディング段階2031、実数−虚数変換器2070、予測信号計算機2072/2074及び最終残留信号計算機2034を示している。さらに、図11Aに示されている二つの異なる予測ルール502,503を実施可能とするための予測方向制御M/S交換器507が設置されている。第1予測ルールは、交換器507が第1状態にある場合、つまりMとSが交換されていない場合に実施される。第2予測ルールは、交換器507が交換状態にある場合、つまりMとSが入力と出力の間で交換された場合に実施される。この実施態様には、交換器507の後の回路全体がどちらの予測方向に関しても同じであるという利点がある。
同様に、異なるデコーディングルール402,403、つまり異なるデコーダ計算ルールもまた結合器1162の入力側で交換器407によって実施可能であり、交換器407は、図12Bの実施形態において逆のミッド/サイドコーディングを実行する。「予測スイッチ」とも呼ばれる交換器407は、その入力側でダウンミックス信号DMXと信号IPS(逆転予測信号)を受け取る。予測方向指標に応じて、交換器407は、図12Bの上部の表に示すように、DMXをMにそしてIPSをSに接続するか、あるいはDMXをSにそしてIPSをMに接続する。
図13Bは、図11Bの第1計算ルール、つまりブロック402によって示されているルールの一実施例を示している。第1実施例において、サイド信号が残留信号と送信されたミッド信号とから算出されるように、逆予測が明示的に行われる。次のステップでは、図13Cの明示的な逆予測式の右側の式により、LとRが算出される。別の実施例においては、暗黙の逆予測が行われ、ここでは、サイド信号は明示的に算出されるのではなく、左信号Lと右信号Rが送信されたM信号と送信された残留信号とから、予測情報αを使用して直接算出される。
図13Dは、もう一つの予測方向の場合、つまり、予測方向指標が1である場合の式を示している。ここでも、Mを得るための明示的な逆予測は送信された残留信号と送信されたサイド信号を使用して行われ、それに続くLとRの算出はミッド信号とサイド信号とを使用して行うことができる。あるいは、ミッド信号Mを明示的に算出することなく、送信された信号Sと残留信号と予測情報αとからLとRが算出されるように、暗黙の逆予測が行われ得る。
図13Bに関して以下の述べるように、全ての式においてαの符号は逆転可能である。αの符号が逆転された場合、図13Bの残留信号の計算において、二つの項を合算する。そして、明示的な逆予測は異なるものとなる。実施態様に応じて、図13B〜13Dに示された表記またはそれとは逆の表記が便利である。
図13Bから13Dの式において、いくつかの複素数乗算が起こり得る。これらの複素数乗算は、αが複素数である場合には、全てに関して起こり得る。そして、式に示されているように、MまたはSの複素数推定が必要となる。複素数乗算は、図13Eに示されているように、αだけまたは(1+α)の場合に関して、二つの係数の実部の実際の乗算と二つの係数の虚部の積との間に違いを生じさせるだろう。
予測方向計算機219は様々な方法で実施可能である。図14は、予測方向計算のための二つの基本的な方法を示している。一つは、フィードフォワード計算であり、信号Mと信号S(一般的には第1結合信号と第2結合信号である)がステップ550でエネルギー差の算出により比較される。そしてステップ551で、そのエネルギー差は閾値と比較されるが、この閾値は閾値入力ラインを介して設定されるか、またはプログラムに固定されていてもよい。しかし、何らかのヒステリシスがあることが好ましい。実際の予測方向の決定基準として、SとMの間のエネルギー差が推定されてもよい。最良の感覚的質を達成するためには、何らかのヒステリシスつまり直前のフレームの予測方向に基づくいくつかの異なる決定閾値を使用して、決定基準を安定化してもよい。別の予測決定基準として、入力チャンネルのチャンネル間位相差が考えられる。ヒステリシスに関して、ある一定期間に予測方向転換が何度も起こるよりも、この期間に予測方向転換がめったに起こらないように、閾値の制御が行われ得る。従って、ある閾値から始まり、予測方向転換に反応して閾値が上げられてもよい。そして、予測方向転換が全く行われない期間には、閾値はこの高い値から徐々に下げられてもよい。そして、閾値が前回の方向転換の前の値になった時、閾値はこのレベルに保たれ、システムは再度、予測方向転換できる状態となる。この方法により、SとMの間に非常に大きな差がある場合には、短期間内での転換が可能となり、MとSとの間のエネルギー差がそれほど大きくない場合には、転換頻度を低下させることが可能となる。
その代わりに、またはさらに付加的に、フィードバック計算が行われてもよく、両方の予測方向のための残留信号がステップ552で示されているように算出される。そしてステップ553で、残留信号の低下、残留信号またはダウンミックス信号のためのビット数の低減、全体的なビット数の低減、オーディオ信号の質の向上、または他の何らかの特定の状況をもたらす予測方向が算出される。このように、ある最適化目標をもたらす予測方向がフィードバック計算で選択される。
本発明は、ステレオ信号つまり二つだけのチャンネルを有するチャンネル信号だけでなく、5.1や7.1信号のような三つまたはそれ以上のチャンネルを有するマルチチャンネル信号のうちの二つのチャンネルに対しても応用可能であることを強調する。マルチチャンネル処理の実施形態は、複数の信号対の認識と、二つ以上の信号対のデータの計算と並行送信または記憶を含んでいてもよい。
オーディオデコーダの一実施形態において、符号化されたまたは復号された第1結合信号104と符号化されたまたは復号された予測残留信号106は、それぞれ、複数である第1の個数のサブバンド信号を含み、予測情報は複数である第2の個数の予測情報パラメータを含み、第2の個数は第1の個数よりも小さい。予測器1160は、復号された第1結合信号の少なくとも二つの異なるサブバンド信号に対して同じ予測パラメータを適用するよう構成され、デコーダ計算機116または結合信号計算機1161または結合器1162は、サブバンドごとの処理を行うよう構成されている。そして、このオーディオデコーダは、時間領域第1復号信号と時間領域第2復号信号を得るために、復号された第1結合信号と復号された第2結合信号のサブバンド信号を結合するための合成フィルターバンク52,53をさらに含む。
オーディオデコーダの一実施形態において、予測器1160は、ウィンドウ形状情報109を受け取り、虚数スペクトルを算出するための様々なフィルター係数を使用するよう構成され、様々なフィルター係数は、ウィンドウ形状情報109によって示される種々のウィンドウ形状によって決まる。
オーディオデコーダの一実施形態において、復号された第1結合信号は、符号化されたマルチチャンネル信号100に含まれる変換長さ指標によって示される様々な変換長さに関連し、予測器1160は、第1結合信号の現在のフレームに関する虚部を推定するのに、第1結合信号のうちの関連変換長さが同じである一つまたはそれ以上のフレームのみを使用するよう構成されている。
オーディオデコーダの一実施形態において、予測器1160は、第1結合信号の虚部を推定するのに、復号された第1結合信号のうちの周波数的に隣接した複数のサブバンドを使用するよう構成され、低周波または高周波の場合には、0以下の周波数に関連するサブバンドまたは現在のフレームの基礎であるサンプリング周波数の半分以上の周波数に関連するサブバンドのために、第1結合信号の現在のフレームの周波数の対称拡張が使用されるか、あるいは、予測器1160a内のフィルターのフィルター係数は、欠損するサブバンドに関しては存在するサブバンドとは異なる値に設定されている。
オーディオデコーダの一実施形態において、予測情報108は、符号化されたマルチチャンネル信号内に、量子化されエントロピー符号化された表記で含まれ、オーディオデコーダは、予測器1160によって使用される復号された予測情報を得るために、エントロピー復号またはデクオンタイズするための予測情報デコーダ65をさらに含む。または、符号化されたマルチチャンネルオーディオ信号は、予測器1160は、復号された第1結合信号の現在のフレームの虚部の推定のために、復号された第1結合信号の現在のフレームよりも時間的に先行するかまたは後続の少なくとも一つのフレームを使用すべきであることを第1状態で示し、復号された第1結合信号の一つのフレームのみを使用すべきであることを第2状態で示すデータユニットを含み、予測器1160は該データユニットの状態を感知し、それに応じて動作するよう構成されている。
オーディオデコーダの一実施形態において、予測情報108は、時間順次的複素数値間または周波数的に隣接する複素数値間の差分の符号語を含み、オーディオデコーダは、時間順次的な量子化された複素数予測値または隣接する周波数帯域に関する複素数予測値を得るために、エントロピー復号ステップと、それに引き続き、差分復号ステップを行うよう構成されている。
オーディオデコーダの一実施形態において、符号化されたマルチチャンネル信号は、サイド情報として、符号化されたマルチチャンネル信号の一つのフレームのための全ての予測係数は実数値であることを示す実数指標を含み、オーディオデコーダは、符号化されたマルチチャンネル信号100から実数指標を抽出するよう構成され、実数指標が実数値予測係数のみであることを示している場合には、デコーダ計算機116は、一つのフレームに関して虚数信号を計算しないよう構成されている。
オーディオエンコーダの一実施形態において、予測器2033は、一つまたはそれ以上の量子化された信号を得るために、第1チャンネル信号と第2チャンネル信号と第1結合信号または第2結合信号とを量子化するための量子化器を含み、予測器2033は量子化された信号を使用して残留信号を算出するよう構成されている。
オーディオエンコーダの一実施形態において、第1チャンネル信号は一つのサンプルブロックのスペクトル表記であり、第2チャンネル信号は一つのサンプルブロックのスペクトル表記であり、どちらのスペクトル表記も、純粋な実数スペクトル表記または純粋な虚数スペクトル表記である。最適化装置207は、予測情報206を、0ではない実数値係数として及び/または0ではない虚数値係数として算出するよう構成され、エンコーダ計算機203は、予測信号が実数値係数を使用して純粋な実数スペクトル表記または純粋な虚数スペクトル表記から導き出されるように、第1結合信号と予測残留信号を算出するよう構成されている。
本発明の符号化されたオーディオ信号はデジタル記憶媒体に保存可能であり、また、インターネットのような無線や有線の送信媒体上で送信可能である。
本発明は主にオーディオ処理に関して説明してきたが、本発明はビデオ信号のコーディングとデコーディングにも適用可能であることを強調する。方向転換可能な複素数予測は、例えば3Dステレオビデオ圧縮にも応用可能である。この特定の例では、2D−MDCTが使用される。この技術の一例はGoogleのWebM/VP8である。しかし、2D−MDCTを使用しない他の実施も可能である。
いくつかの態様を装置に関して説明してきたが、これらの態様は相応する方法として説明することもでき、このような方法においては、ブロックまたは装置は方法ステップまたは方法ステップの特徴に相応する。同様に、方法ステップに関して説明した態様は相応するブロックまたは素子あるいは相応する装置の特徴として説明することもできる。
実施条件により、本発明はハードウェアまたはソフトウェアで実施可能である。この実施形態は、例えばフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMやFLASHメモリーなどの、電子読み取り制御可能な信号が中に保存されたデジタル記憶媒体を使用して実施することができ、これらの電子読み取り制御可能な信号は、それぞれの方法が実行できるように、プログラム可能なコンピュータシステムと協働する(または協働可能である)。
本発明のいくつかの実施形態は、電子読み取り制御可能な信号を有する持続的または実体的なデータキャリアを含み、これらの電子読み取り制御可能な信号は、ここで説明した方法のうちの一つを実行できるように、プログラム可能なコンピュータシステムと協働可能である。
概して、本発明の実施形態は、プログラムコードを備えたコンピュータプログラム製品として実施でき、このプログラム製品がコンピュータで動作した際、このプログラムコードは前述の方法のうちの一つを実行するためのものである。このようなプログラムコードは、例えば機械読み取り可能なキャリアに保存されている。
他の実施形態は、ここで説明した方法のうちの一つを実行するためのものであり、機械読み取り可能なキャリアに保存されているコンピュータプログラムを含む。
つまり、本発明の方法の一実施形態は、コンピュータで動作した際、ここで説明した方法のうちの一つを実行するためのプログラムコードを有するコンピュータプログラムである。
本発明の方法の別の実施形態は、ここで説明した方法のうちの一つを実行するためのコンピュータプログラムが保存されているデータキャリア(またはデジタル記憶媒体またはコンピュータ読み取り可能な媒体)である。
本発明の方法のさらに別の実施形態は、ここで説明した方法のうちの一つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。このデータストリームまたは一連の信号は、例えばインターネットのようなデータ通信接続を介して送信されるように構成されていてもよい。
さらに別の実施形態は、ここで説明した方法のうちの一つを実行するよう構成されるか適合されたコンピュータなどの処理装置またはプログラム可能な論理装置を含む。
さらに別の実施形態は、ここで説明した方法のうちの一つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
いくつかの実施形態において、プログラム可能な論理装置(例えばフィールド・プログラマブル・ゲート・アレイ)を、ここで説明した方法のいくつかまたは全ての機能を実行するために使用してもよい。フィールド・プログラマブル・ゲート・アレイは、ここで説明した方法のうちの一つを実行するためにマイクロプロセッサーと協働してもよい。概して、これらの方法は何らかのハードウェア装置によって実行されることが好ましい。
上述の実施形態は単に本発明の原理を説明しているにすぎない。ここで説明した配置や詳細に関して様々な修正や変更が当業者には明らかであろう。従って、本発明は以下の特許請求項の範囲によってのみ制限され、上述の実施形態で示された詳細によっては制限されない。

Claims (20)

  1. マルチチャンネルオーディオまたはビデオ信号の第1チャンネルオーディオまたはビデオ信号と第2チャンネルオーディオまたはビデオ信号を結合するための結合ルールに基づき生成された符号化された第1結合信号と、ある方向に行われた予測処理のエラーを表す符号化された予測残留信号と、0ではない実部及び/又は0ではない虚部を含む予測情報(108)と予測方向指標(501)とを含む符号化されたマルチチャンネルオーディオまたはビデオ信号(100)を復号するためのオーディオまたはビデオデコーダであり、
    復号された第1結合信号(112)を得るために符号化された第1結合信号(104)を復号し、復号された予測残留信号(114)を得るために符号化された予測残留信号(106)を復号するための信号デコーダ(110)と、
    復号された予測残留信号(114)と、予測情報(108)と、復号された第1結合信号(112)と予測残留信号に関連する予測方向を示す予測方向指標(501)を使用して、復号された第1チャンネル信号(117)と復号された第2チャンネル信号(118)を有する復号されたマルチチャンネル信号を算出するためのデコーダ計算機(116)であり、復号された第1チャンネル信号(117)と復号された第2チャンネル信号(118)がマルチチャンネル信号の第1チャンネル信号と第2チャンネル信号の少なくとも近似であるように算出するデコーダ計算機(116)とを含む、
    オーディオまたはビデオデコーダ。
  2. 請求項1に記載のオーディオまたはビデオデコーダであり、
    予測方向指標(501)は符号化されたマルチチャンネル信号に含まれ、
    オーディオまたはビデオデコーダは、予測方向指標(501)を抽出し、予測方向指標をデコーダ計算機(116)に送るための入力インターフェース(102)をさらに含む。
  3. 請求項1または2に記載のオーディオまたはビデオデコーダであり、
    デコーダ計算機(116)は、予測方向指標(501)が第1状態のときは、復号されたマルチチャンネル信号を算出するための第1計算ルール(402)を使用し、予測方向指標(501)が第1状態とは異なる第2状態のときは、復号されたマルチチャンネル信号を算出するための第1計算ルールとは異なる第2計算ルール(403)を使用するよう構成されている。
  4. 請求項3に記載のオーディオまたはビデオデコーダであり、
    復号された第1結合信号はミッド信号(M)を含み、第1計算ルール(402)は復号された第1結合信号と復号された予測残留信号とからサイド信号(S)を算出することを含むか、または、
    復号された第1結合信号はサイド信号(S)を含み、第2計算ルール(403)は復号された第1結合信号と復号された予測残留信号とからミッド信号(M)を算出することを含む。
  5. 請求項3に記載のオーディオまたはビデオデコーダであり、
    復号された第1結合信号はミッド信号(M)を含み、第1計算ルール(402)は、ミッド信号(M)と予測情報(α)と復号された予測残留信号とを使用して、サイド信号の明示的な計算をせずに、復号された第1チャンネル信号を算出することと復号された第2チャンネル信号を算出することを含むか、または、
    復号された第1結合信号はサイド信号(S)を含み、第2計算ルール(403)は、サイド信号(S)と予測情報(α)と復号された予測残留信号とを使用して、ミッド信号の明示的な計算をせずに、復号された第1チャンネル信号を算出することと復号された第2チャンネル信号を算出することを含む。
  6. 請求項1、2、3、4または5に記載のオーディオまたはビデオデコーダであり、
    デコーダ計算機は予測情報(108)を使用するよう構成され、予測情報(108)は0ではない実部と0ではない虚部とを含む。
  7. 請求項1、2、3、4、5または6に記載のオーディオまたはビデオデコーダであり、デコーダ計算機(116)は、
    予測信号(1163)を得るために、予測情報(108)を、復号された第1結合信号(112)または復号された第1結合信号から導き出された信号(601)に適用するための予測器(1160)と、
    復号された予測残留信号(114)と予測信号(1163)とを結合することにより、第2結合信号(1165)を算出するための結合信号計算機(1161)と、
    復号された第1チャンネル信号(117)と復号された第2チャンネル信号(118)を有する復号されたマルチチャンネルオーディオまたはビデオ信号を得るために、復号された第1結合信号(112)と第2結合信号(1165)とを結合するための結合器(1162)とを含み、
    予測方向指標(501)が第1状態のとき、第1結合信号は和信号であり、第2結合信号は差信号であるか、または
    予測方向指標(501)が第2状態のとき、第1結合信号は差信号であり、第2結合信号は和信号である。
  8. 請求項1、2、3、4、5、6または7に記載のオーディオまたはビデオデコーダであり、
    符号化された第1結合信号(104)と符号化された予測残留信号(106)は、エイリアシングを発生させる時間−スペクトル変換を使用して生成されたものであり、
    デコーダは、
    時間−スペクトル変換のアルゴリズムに対応したスペクトル−時間変換アルゴリズムを使用して時間領域第1チャンネル信号と時間領域第2チャンネル信号とを生成するためのスペクトル−時間変換器(52,53)と、
    エイリアシングフリーの第1時間領域信号とエイリアシングフリーの第2時間信号とを得るために、時間領域第1チャンネル信号と時間領域第2チャンネル信号に対して重複加算処理を行うための重複/加算処理装置(522)とを含む。
  9. 請求項1、2、3、4、5、6、7または8に記載のオーディオまたはビデオデコーダであり、
    予測情報(108)は0ではない実数値係数を含み、
    予測器(1160)は、予測信号の第1部分を得るために、復号された第1結合信号に実数値係数を掛けるよう構成され、
    結合信号計算機は、復号された予測残留信号と予測信号の第1部分とを線形結合するよう構成されている。
  10. 請求項1、2、3、4、5、6、7、8または9に記載のオーディオまたはビデオデコーダであり、
    予測情報(108)は0ではない虚数値係数を含み、
    予測器(1160)は、復号された第1結合信号(112)を使用して復号された第1結合信号(112)の虚部を推定する(1160a)よう構成され、
    予測器(1160)は、予測信号の第2部分を得るために、復号された第1結合信号の虚部(601)に予測情報(108)の虚数値係数を掛けるよう構成され、
    結合信号計算機(1161)は、第2結合信号(1165)を得るために、予測信号の第1部分と予測信号の第2部分と復号された予測残留信号とを線形結合するよう構成されている。
  11. 請求項7に記載のオーディオまたはビデオデコーダであり、
    予測器(1160)は、第1結合信号の現在のフレームの推定虚部を得るために、線形フィルター(1004,1005,1006,1007)を使用して少なくとも二つの時間順次的なフレームをフィルタリングするよう構成され、この二つの時間順次的なフレームのうちの一つは第1結合信号の現在のフレームに先行するかまたは後続するものである。
  12. 請求項7に記載のオーディオまたはビデオデコーダであり、
    復号された第1結合信号は一連の実数値信号フレームを含み、
    予測器(1160)は、現在の実数値信号フレームだけを使用するか、現在の実数値信号フレームと、一つ以上の先行するまたは一つ以上の後続する実数値信号フレームのどちらかだけを使用するか、あるいは、現在の実数値信号フレームと、一つ以上の先行する実数値信号フレームと一つ以上の後続する実数値信号フレームの両方を使用して、現在の信号フレームの虚部を推定する(1160a)よう構成されている。
  13. 二つまたはそれ以上のチャンネル信号を有するマルチチャンネルオーディオまたはビデオ信号を符号化するためのオーディオまたはビデオエンコーダであり、
    第1チャンネル信号(201)と第2チャンネル信号(202)と予測情報(206)と予測残留信号に関連する予測方向を示す予測方向指標を使用して、第1結合信号(204)と予測残留信号(205)を算出するためのエンコーダ計算機(203)であり、予測残留信号が、第1結合信号から導き出された予測信号または第1結合信号と予測情報(206)とから導き出された信号と結合されて第2結合信号(2032)となり、第1結合信号(204)と第2結合信号(2032)は結合ルールを用いて第1チャンネル信号(201)と第2チャンネル信号(202)から導き出すことができるエンコーダ計算機(203)と、
    予測残留信号(205)が最適化目標(208)を満たすように予測情報(206)を計算するための最適化装置(207)であり、予測情報は0ではない実部及び/又は0ではない虚部を含み、予測残留信号は前記予測方向に行われた予測のエラーを示すものと、
    予測残留信号に関連した予測方向を示す予測方向指標を算出するための予測方向計算機(219)と、
    符号化された第1結合信号(210)と符号化された残留信号(211)を得るために、第1結合信号(204)と予測残留信号(205)を符号化するための信号エンコーダ(209)と、
    符号化されたマルチチャンネルオーディオまたはビデオ信号を得るために、符号化された第1結合信号(210)と符号化された予測残留信号(211)と予測情報(206)と予測方向指標を結合するための出力インターフェース(212)とを含む、
    オーディオまたはビデオエンコーダ。
  14. 請求項13に記載のオーディオまたはビデオエンコーダであり、エンコーダ計算機(203)は、
    第1結合信号(204)と第2結合信号(2032)を得るために、第1チャンネル信号(201)と第2チャンネル信号(202)を二つの異なる方法で結合する結合器(2031)と、
    予測信号(2035)を得るために、予測方向指標に応じて、予測情報(206)を第1結合信号(204)または第1結合信号(204)から導き出された信号(600)に適用するか、または、予測情報(206)を第2結合信号または第2結合信号から導き出された信号に適用する予測器(2033)と、
    予測方向指標に応じて、予測信号(2035)と第2結合信号(2032)を結合するか、または予測信号(2035)と第1結合信号(2032)を結合することにより、予測残留信号(205)を算出するための残留信号計算機(2034)とを含む。
  15. 請求項13または14に記載のオーディオまたはビデオエンコーダであり、
    第1チャンネル信号は一つのサンプルブロックのスペクトル表記であり、
    第2チャンネル信号は一つのサンプルブロックのスペクトル表記であり、
    どちらのスペクトル表記も、純粋な実数スペクトル表記または純粋な虚数スペクトル表記であり、
    最適化装置(207)は、予測情報(206)を、0ではない実数値係数として及び/または0ではない虚数値係数として算出するよう構成され、
    エンコーダ計算機(203)は、予測方向指標に応じて第1結合信号または第2結合信号から変換スペクトル表記を導き出す実数−虚数変換器(2070)または虚数−実数変換器を含み、
    エンコーダ計算機(203)は、予測方向指標に応じて第1結合信号(204)または第2結合信号を算出し、変換後のスペクトルと虚数値係数から予測残留信号(205)を算出するよう構成されている。
  16. 請求項13、14または15に記載のエンコーダであり、
    予測器(2033)は、予測信号の第1部分を得るために、第1結合信号(204)に予測情報(2073)の実部を掛けるよう構成され、
    第1結合信号(204)または第2結合信号を使用して、第1結合信号または第2結合信号の虚部(600)を推定し(2070)、
    予測信号の第2部分を得るために、第1または第2結合信号の虚部に予測情報(2074)の虚部を掛けるよう構成され、
    残留計算機(2034)は、予測残留信号(205)を得るために、予測信号の第1部分信号または予測信号の第2部分信号と第2結合信号または第1結合信号を線形結合するよう構成されている。
  17. マルチチャンネルオーディオまたはビデオ信号の第1チャンネルオーディオまたはビデオ信号と第2チャンネルオーディオまたはビデオ信号を結合するための結合ルールに基づき生成された符号化された第1結合信号と、ある方向に行われた予測処理のエラーを表す符号化された予測残留信号と、0ではない実部及び/又は0ではない虚部を含む予測情報(108)と予測方向指標(501)とを含む符号化されたマルチチャンネルオーディオまたはビデオ信号(100)を復号する方法であり、
    復号された第1結合信号(112)を得るために符号化された第1結合信号(104)を復号し(110)、復号された予測残留信号(114)を得るために符号化された予測残留信号(106)を復号することと、
    復号された予測残留信号(114)と、予測情報(108)と、復号された第1結合信号(112)と予測残留信号に関連する予測方向を示す予測方向指標(501)を使用して、復号された第1チャンネル信号(117)と復号された第2チャンネル信号(118)を有する復号されたマルチチャンネル信号を算出すること(116)であり、復号された第1チャンネル信号(117)と復号された第2チャンネル信号(118)がマルチチャンネル信号の第1チャンネル信号と第2チャンネル信号の少なくとも近似であるように算出するデコーダ計算機(116)とを含む、
    オーディオまたはビデオ信号復号方法。
  18. 二つまたはそれ以上のチャンネル信号を有するマルチチャンネルオーディオまたはビデオ信号を符号化する方法であり、
    第1チャンネル信号(201)と第2チャンネル信号(202)と予測情報(206)と予測残留信号に関連する予測方向を示す予測方向指標を使用して、第1結合信号(204)と予測残留信号(205)を算出すること(203)であり、予測残留信号が、第1結合信号から導き出された予測信号または第1結合信号と予測情報(206)とから導き出された信号と結合されて第2結合信号(2032)となり、第1結合信号(204)と第2結合信号(2032)は結合ルールを用いて第1チャンネル信号(201)と第2チャンネル信号(202)から導き出すことができる計算(203)と、
    予測残留信号(205)が最適化目標(208)を満たすように予測情報(206)を計算すること(207)であり、予測情報は0ではない実部及び/又は0ではない虚部を含み、予測残留信号は前記予測方向に行われた予測のエラーを示す、
    符号化された第1結合信号(210)と符号化された残留信号(211)を得るために、第1結合信号(204)と予測残留信号(205)を符号化すること(209)と、
    符号化されたマルチチャンネルオーディオまたはビデオ信号を得るために、符号化された第1結合信号(210)と符号化された予測残留信号(211)と予測情報(206)と予測方向指標を結合すること(212)とを含む、
    オーディオまたはビデオ信号符号化方法。
  19. コンピュータまたはプロセッサーで起動された際に、請求項17に記載の方法を実行するコンピュータプログラム。
  20. コンピュータまたはプロセッサーで起動された際に、請求項18に記載の方法を実行するコンピュータプログラム。
JP2013504181A 2010-04-13 2011-02-17 オーディオまたはビデオエンコーダ、オーディオまたはビデオデコーダ、及び予測方向可変の予測を使用したマルチチャンネルオーディオまたはビデオ信号処理方法 Active JP5820464B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US32368310P 2010-04-13 2010-04-13
US61/323,683 2010-04-13
PCT/EP2011/052354 WO2011128138A1 (en) 2010-04-13 2011-02-17 Audio or video encoder, audio or video decoder and related methods for processing multi-channel audio or video signals using a variable prediction direction

Publications (2)

Publication Number Publication Date
JP2013528824A JP2013528824A (ja) 2013-07-11
JP5820464B2 true JP5820464B2 (ja) 2015-11-24

Family

ID=44170568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013504181A Active JP5820464B2 (ja) 2010-04-13 2011-02-17 オーディオまたはビデオエンコーダ、オーディオまたはビデオデコーダ、及び予測方向可変の予測を使用したマルチチャンネルオーディオまたはビデオ信号処理方法

Country Status (19)

Country Link
US (9) US9398294B2 (ja)
EP (10) EP3779975B1 (ja)
JP (1) JP5820464B2 (ja)
KR (1) KR101430118B1 (ja)
CN (1) CN103052983B (ja)
AR (1) AR080866A1 (ja)
AU (1) AU2011240239B2 (ja)
BR (2) BR122020024855B1 (ja)
CA (1) CA2796292C (ja)
ES (6) ES2914474T3 (ja)
HK (1) HK1183740A1 (ja)
MX (1) MX2012011801A (ja)
MY (1) MY194835A (ja)
PL (6) PL3779977T3 (ja)
PT (2) PT3779978T (ja)
RU (1) RU2541864C2 (ja)
SG (1) SG184537A1 (ja)
TW (1) TWI466106B (ja)
WO (1) WO2011128138A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240283945A1 (en) * 2016-09-30 2024-08-22 The Mitre Corporation Systems and methods for distributed quantization of multimodal images

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
MX2012011532A (es) 2010-04-09 2012-11-16 Dolby Int Ab Codificacion a estereo para prediccion de complejos basados en mdct.
EP2544466A1 (en) * 2011-07-05 2013-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral subtractor
WO2013094135A1 (ja) * 2011-12-19 2013-06-27 パナソニック株式会社 音分離装置、および音分離方法
WO2013186344A2 (en) 2012-06-14 2013-12-19 Dolby International Ab Smooth configuration switching for multichannel audio rendering based on a variable number of received channels
JP6065452B2 (ja) 2012-08-14 2017-01-25 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
US9241142B2 (en) * 2013-01-24 2016-01-19 Analog Devices Global Descriptor-based stream processor for image processing and method associated therewith
RU2676242C1 (ru) * 2013-01-29 2018-12-26 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора
JP6146069B2 (ja) * 2013-03-18 2017-06-14 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
MY173644A (en) * 2013-05-24 2020-02-13 Dolby Int Ab Audio encoder and decoder
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP3503095A1 (en) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
EP3291233B1 (en) 2013-09-12 2019-10-16 Dolby International AB Time-alignment of qmf based processing data
WO2015036352A1 (en) 2013-09-12 2015-03-19 Dolby International Ab Coding of multichannel audio content
TWI634547B (zh) 2013-09-12 2018-09-01 瑞典商杜比國際公司 在包含至少四音訊聲道的多聲道音訊系統中之解碼方法、解碼裝置、編碼方法以及編碼裝置以及包含電腦可讀取的媒體之電腦程式產品
WO2015069177A1 (en) * 2013-11-07 2015-05-14 Telefonaktiebolaget L M Ericsson (Publ) Methods and devices for vector segmentation for coding
EP2916319A1 (en) * 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
CN106471575B (zh) * 2014-07-01 2019-12-10 韩国电子通信研究院 多信道音频信号处理方法及装置
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980801A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
US20160098245A1 (en) * 2014-09-05 2016-04-07 Brian Penny Systems and methods for enhancing telecommunications security
EP3067889A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for signal-adaptive transform kernel switching in audio coding
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
WO2017109865A1 (ja) * 2015-12-22 2017-06-29 三菱電機株式会社 データ圧縮装置、データ伸長装置、データ圧縮プログラム、データ伸長プログラム、データ圧縮方法及びデータ伸長方法
CN105719660B (zh) * 2016-01-21 2019-08-20 宁波大学 一种基于量化特性的语音篡改定位检测方法
CN107710323B (zh) 2016-01-22 2022-07-19 弗劳恩霍夫应用研究促进协会 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法
DE102016104665A1 (de) * 2016-03-14 2017-09-14 Ask Industries Gmbh Verfahren und Vorrichtung zur Aufbereitung eines verlustbehaftet komprimierten Audiosignals
RU2628198C1 (ru) * 2016-05-23 2017-08-15 Самсунг Электроникс Ко., Лтд. Способ межканального предсказания и межканальной реконструкции для многоканального видео, снятого устройствами с различными углами зрения
PT3539127T (pt) * 2016-11-08 2020-12-04 Fraunhofer Ges Forschung Dispositivo de downmix e método para executar o downmix de pelo menos dois canais e codificador multicanal e descodificador multicanal
MX2019005147A (es) * 2016-11-08 2019-06-24 Fraunhofer Ges Forschung Aparato y metodo para codificar o decodificar una se?al multicanal usando una ganancia lateral y una ganancia residual.
JP2018107580A (ja) * 2016-12-26 2018-07-05 富士通株式会社 動画像符号化装置、動画像符号化方法、動画像符号化用コンピュータプログラム、動画像復号装置及び動画像復号方法ならびに動画像復号用コンピュータプログラム
WO2019191611A1 (en) 2018-03-29 2019-10-03 Dts, Inc. Center protection dynamic range control
US11545165B2 (en) * 2018-07-03 2023-01-03 Panasonic Intellectual Property Corporation Of America Encoding device and encoding method using a determined prediction parameter based on an energy difference between channels
EP4220639A1 (en) * 2018-10-26 2023-08-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Directional loudness map based audio processing
CN113302688B (zh) * 2019-01-13 2024-10-11 华为技术有限公司 高分辨率音频编解码
JP2023553489A (ja) * 2020-12-15 2023-12-21 シング,インコーポレイテッド オーディオアップミキシングのためのシステムおよび方法

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8913758D0 (en) * 1989-06-15 1989-08-02 British Telecomm Polyphonic coding
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
BE1007617A3 (nl) 1993-10-11 1995-08-22 Philips Electronics Nv Transmissiesysteem met gebruik van verschillende codeerprincipes.
US5684920A (en) * 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
JP3594409B2 (ja) * 1995-06-30 2004-12-02 三洋電機株式会社 Mpegオーディオ再生装置およびmpeg再生装置
US5754733A (en) 1995-08-01 1998-05-19 Qualcomm Incorporated Method and apparatus for generating and encoding line spectral square roots
TW321810B (ja) * 1995-10-26 1997-12-01 Sony Co Ltd
US6012025A (en) * 1998-01-28 2000-01-04 Nokia Mobile Phones Limited Audio coding method and apparatus using backward adaptive prediction
US6353808B1 (en) 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
KR100367000B1 (ko) * 1999-06-29 2003-01-06 한국전자통신연구원 멀티미디어 처리용 가속 기능 및 입출력 기능을 갖는 피씨용 멀티채널 오디오/음성 및 데이터 코덱장치
US20020040299A1 (en) 2000-07-31 2002-04-04 Kenichi Makino Apparatus and method for performing orthogonal transform, apparatus and method for performing inverse orthogonal transform, apparatus and method for performing transform encoding, and apparatus and method for encoding data
KR100378796B1 (ko) * 2001-04-03 2003-04-03 엘지전자 주식회사 디지탈 오디오 부호화기 및 복호화 방법
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US7437299B2 (en) * 2002-04-10 2008-10-14 Koninklijke Philips Electronics N.V. Coding of stereo signals
DE10234130B3 (de) * 2002-07-26 2004-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals
JP4191503B2 (ja) * 2003-02-13 2008-12-03 日本電信電話株式会社 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US6980933B2 (en) 2004-01-27 2005-12-27 Dolby Laboratories Licensing Corporation Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients
US20080249765A1 (en) * 2004-01-28 2008-10-09 Koninklijke Philips Electronic, N.V. Audio Signal Decoding Using Complex-Valued Data
DE102004009954B4 (de) * 2004-03-01 2005-12-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals
US7733973B2 (en) * 2004-08-19 2010-06-08 The University Of Tokyo Multichannel signal encoding method, its decoding method, devices for these, program, and its recording medium
EP1851866B1 (en) * 2005-02-23 2011-08-17 Telefonaktiebolaget LM Ericsson (publ) Adaptive bit allocation for multi-channel audio encoding
CN101147191B (zh) * 2005-03-25 2011-07-13 松下电器产业株式会社 语音编码装置和语音编码方法
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
EP1912206B1 (en) * 2005-08-31 2013-01-09 Panasonic Corporation Stereo encoding device, stereo decoding device, and stereo encoding method
KR100866885B1 (ko) * 2005-10-20 2008-11-04 엘지전자 주식회사 멀티채널 오디오 신호의 부호화 및 복호화 방법과 그 장치
US20080004883A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Scalable audio coding
JP5021739B2 (ja) * 2006-07-12 2012-09-12 エルジー エレクトロニクス インコーポレイティド 信号処理方法及び装置
DE102006047197B3 (de) 2006-07-31 2008-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines reellen Subband-Signals zur Reduktion von Aliasing-Effekten
MX2009007412A (es) * 2007-01-10 2009-07-17 Koninkl Philips Electronics Nv Decodificador de audio.
KR101103699B1 (ko) * 2007-02-23 2012-01-11 니폰덴신뎅와 가부시키가이샤 영상 부호화 방법 및 복호 방법, 그들의 장치, 그들의 프로그램 및 프로그램을 기록한 기록매체
US8428142B2 (en) * 2007-03-05 2013-04-23 Stmicroelectronics International N.V. System and method for transcoding data from one video standard to another video standard
CN101067931B (zh) * 2007-05-10 2011-04-20 芯晟(北京)科技有限公司 一种高效可配置的频域参数立体声及多声道编解码方法与系统
US8265144B2 (en) * 2007-06-30 2012-09-11 Microsoft Corporation Innovations in video decoder implementations
US9648325B2 (en) * 2007-06-30 2017-05-09 Microsoft Technology Licensing, Llc Video decoding implementations for a graphics processing unit
US8254455B2 (en) * 2007-06-30 2012-08-28 Microsoft Corporation Computing collocated macroblock information for direct mode macroblocks
KR101253278B1 (ko) * 2008-03-04 2013-04-11 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 복수의 입력 데이터 스트림을 믹싱하는 장치 및 방법
KR101629862B1 (ko) * 2008-05-23 2016-06-24 코닌클리케 필립스 엔.브이. 파라메트릭 스테레오 업믹스 장치, 파라메트릭 스테레오 디코더, 파라메트릭 스테레오 다운믹스 장치, 파라메트릭 스테레오 인코더
US8369638B2 (en) * 2008-05-27 2013-02-05 Microsoft Corporation Reducing DC leakage in HD photo transform
US8452587B2 (en) * 2008-05-30 2013-05-28 Panasonic Corporation Encoder, decoder, and the methods therefor
KR101428487B1 (ko) * 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
WO2010042024A1 (en) * 2008-10-10 2010-04-15 Telefonaktiebolaget Lm Ericsson (Publ) Energy conservative multi-channel audio coding
KR101649376B1 (ko) * 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
US8504378B2 (en) * 2009-01-22 2013-08-06 Panasonic Corporation Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same
EP2237557A1 (en) * 2009-04-03 2010-10-06 Panasonic Corporation Coding for filter coefficients
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
US9161057B2 (en) * 2009-07-09 2015-10-13 Qualcomm Incorporated Non-zero rounding and prediction mode selection techniques in video encoding
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
MX2012011532A (es) * 2010-04-09 2012-11-16 Dolby Int Ab Codificacion a estereo para prediccion de complejos basados en mdct.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240283945A1 (en) * 2016-09-30 2024-08-22 The Mitre Corporation Systems and methods for distributed quantization of multimodal images

Also Published As

Publication number Publication date
PL2559027T3 (pl) 2022-08-08
EP3779975A1 (en) 2021-02-17
CA2796292C (en) 2016-06-07
AU2011240239B2 (en) 2014-06-26
PL3779981T3 (pl) 2023-10-23
EP3779978B1 (en) 2022-04-06
EP2559027A1 (en) 2013-02-20
USRE49492E1 (en) 2023-04-11
CA2796292A1 (en) 2011-10-20
EP3779975C0 (en) 2023-07-12
EP3779977A1 (en) 2021-02-17
EP3779978A1 (en) 2021-02-17
EP3779981A1 (en) 2021-02-17
MX2012011801A (es) 2012-12-17
EP3779977C0 (en) 2023-06-21
TW201205558A (en) 2012-02-01
EP4404560A3 (en) 2024-08-21
HK1183740A1 (zh) 2014-01-03
EP4404560A2 (en) 2024-07-24
PL3779979T3 (pl) 2024-01-15
AR080866A1 (es) 2012-05-16
RU2541864C2 (ru) 2015-02-20
KR20130008061A (ko) 2013-01-21
USRE49511E1 (en) 2023-04-25
EP2559027B1 (en) 2022-04-06
EP3779981B1 (en) 2023-06-07
USRE49549E1 (en) 2023-06-06
ES2953085T3 (es) 2023-11-08
EP3779981C0 (en) 2023-06-07
ES2958392T3 (es) 2024-02-08
KR101430118B9 (ko) 2023-04-21
USRE49717E1 (en) 2023-10-24
EP3779979C0 (en) 2023-08-02
BR122020024855B1 (pt) 2021-03-30
PL3779975T3 (pl) 2023-12-18
TWI466106B (zh) 2014-12-21
ES2950751T3 (es) 2023-10-13
MY194835A (en) 2022-12-19
CN103052983B (zh) 2015-11-25
RU2012148131A (ru) 2014-05-20
ES2914474T3 (es) 2022-06-13
BR112012026324B1 (pt) 2021-08-17
EP3779979A1 (en) 2021-02-17
EP4404559A2 (en) 2024-07-24
USRE49469E1 (en) 2023-03-21
PT3779978T (pt) 2022-06-27
EP4254951A2 (en) 2023-10-04
AU2011240239A1 (en) 2012-11-08
PL3779977T3 (pl) 2023-11-06
US9398294B2 (en) 2016-07-19
PT2559027T (pt) 2022-06-27
EP4404561A3 (en) 2024-08-21
USRE49453E1 (en) 2023-03-07
EP3779979B1 (en) 2023-08-02
EP3779975B1 (en) 2023-07-12
EP3779977B1 (en) 2023-06-21
ES2953084T3 (es) 2023-11-08
EP4404559A3 (en) 2024-08-21
PL3779978T3 (pl) 2022-08-08
US20230319301A1 (en) 2023-10-05
BR112012026324A2 (pt) 2017-08-22
EP4254951A3 (en) 2023-11-29
JP2013528824A (ja) 2013-07-11
SG184537A1 (en) 2012-11-29
ES2911893T3 (es) 2022-05-23
EP4404561A2 (en) 2024-07-24
KR101430118B1 (ko) 2014-08-18
USRE49464E1 (en) 2023-03-14
CN103052983A (zh) 2013-04-17
WO2011128138A1 (en) 2011-10-20
US20130121411A1 (en) 2013-05-16

Similar Documents

Publication Publication Date Title
USRE49464E1 (en) Audio or video encoder, audio or video decoder and related methods for processing multi-channel audio or video signals using a variable prediction direction
JP5705964B2 (ja) オーディオエンコーダ、オーディオデコーダ、及び複素数予測を使用したマルチチャンネルオーディオ信号処理方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140204

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140501

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150303

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150813

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150908

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151002

R150 Certificate of patent or registration of utility model

Ref document number: 5820464

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250