JP5608660B2 - エネルギ保存型マルチチャネルオーディオ符号化 - Google Patents

エネルギ保存型マルチチャネルオーディオ符号化 Download PDF

Info

Publication number
JP5608660B2
JP5608660B2 JP2011530989A JP2011530989A JP5608660B2 JP 5608660 B2 JP5608660 B2 JP 5608660B2 JP 2011530989 A JP2011530989 A JP 2011530989A JP 2011530989 A JP2011530989 A JP 2011530989A JP 5608660 B2 JP5608660 B2 JP 5608660B2
Authority
JP
Japan
Prior art keywords
energy
channel
representation
audio
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011530989A
Other languages
English (en)
Other versions
JP2012505429A (ja
Inventor
エリク ノルヴェル,
マルティン セールステッド,
アニッセ タレブ,
Original Assignee
テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2012505429A publication Critical patent/JP2012505429A/ja
Application granted granted Critical
Publication of JP5608660B2 publication Critical patent/JP5608660B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、オーディオ符号化方法及び対応するオーディオ復号化方法、並びに、オーディオエンコーダ及び対応するオーディオデコーダに関する。
パケット交換網を介して電気通信サービスを提供する必要性が急激に増加しており、今日ではかつてないほど高まっている。それと同時に、異なる帯域幅やモノラル音声及びステレオ音声、音声信号及び音楽信号を含む送信されるメディアコンテンツの多様性も増大している。ユーザへの混合コンンテンツの配信に対して柔軟で効率的なソリューションを定義するために種々の標準化団体において多大な努力がなされている。注目すべきは、2つの大きな課題が未だ解決されていないことである。第一に、導入されたネットワーク化技術及びユーザデバイスの多様性によって、異なるユーザに提供されるサービスが同一であっても、転送ネットワークの特性が異なるために、ユーザに知覚される品質が異なる可能性がある、ということである。このため、サービスを実際の転送特性に適応するために品質メカニズムの改善が必要となる。第二に、通信サービスは広範なメディアコンテンツを含まなければならない。現在、音声及び音楽の送信は未だに異なるパラダイムに属しており、あらゆる種類のオーディオ信号に高い品質を提供できるサービスを提供する段階には至っていない。
今日、スケーラブル・オーディオビジュアル・コーデックと一般にメディアコンテンツ・コーデックとが利用可能であり、実際、MPEGの初期の設計ガイドラインの1つには当初からスケーラビリティがあった。しかし、これらのコーデックはその機能性ゆえに魅力的であるものの、低ビットレートで動作させるには効率が悪いため、現在市場に大量に出回っている無線デバイスに対応していないのが実情である。無線通信が広く浸透するのに伴い、より高機能なスケーラブルコーデックが必要とされている。このことは既に認識されており、新しいコーデックが近い将来出現することが期待されている。
適応サービスやスケーラブルコーデックに多大な努力がなされているが、転送の問題により多くの配慮が払われない限り、スケーラブルサービスが発生することはないだろう。そのため、効率的なコーデックだけでなく、適切なネットワークアーキテクチャや転送フレームワークが、サービス配信においてスケーラビリティをフルに利用することが可能な技術であるとみなされなければならない。基本的に3つの例が考えられる。
・エンドポイントでの適応。すなわち、より低い伝送速度を選択しなければならない場合、送信側に通知されてスケーリングを行うか又はコーデックを変更する。
・中間ゲートウェイでの適応。ネットワークの一部が輻輳していたり、異なるサービス能力を有する場合、図1に例示するような専用ネットワークエンティティがサービスのトランスコーディングを行う。スケーラブルコーデックを使用すれば、これはメディアフレームを削減するか又は切り捨てるだけの単純なものになる。
・ネットワーク内での適応。ルータや無線インタフェースが輻輳すると、パケットを削減するか又は切り捨てることにより正確に問題箇所で適応が行われる。これは、サービストラフィックのバーストの取り扱いや無線リンクのチャネル品質の変動等の過渡的な問題に対する解決策としては望ましい。
以下に、従来技術による音声及びオーディオのスケーラブルコーデックの概要を示す。ステレオ符号化の概念に関する一般的な背景も示す。
スケーラブルオーディオ符号化
(非会話型ストリーミング/ダウンロード)
一般に、現在のオーディオ研究の傾向は低ビットレートでの圧縮効率を向上することである(32kbps未満のビットレートで十分に高いステレオ品質を提供することである)。最近の低ビットレートオーディオの改良点は、MPEGにおけるパラメトリックステレオ(PS)ツール開発の完成と、3GPPにおけるMixed CELP及び変換コーデックExtended AMR-WB(別名AMR-WB+)の標準化である。Spatial Audio Coding(サラウンド/5.1コンテンツ)の周辺でも進行中のMPEG標準化活動があり、第一の参照モデル(RM0)が選択されている(非特許文献4)。
スケーラブルオーディオ符号化に対し、MPEGにおける最近の標準化活動の結果、スケーラブルロスレス拡張ツールMPEG4−SLSが得られた。MPEG4−SLSは、0.4kbpsに低下した粒度ステップ (granularity step) で可逆になるまでコアAAC/BSACへの進歩的な拡張性を提供する。SLSのオーディオオブジェクトタイプ(AOT)はまだ定義されていない。更にMPEG内では、コールフォーインフォメーション(CfI)がスケーラブル音声及びオーディオ符号化の分野を対象にして2005年1月に発行された(非特許文献1)。CfIで取り扱った主要問題は、スケーラビリティ、複数のコンテンツ種類(例えば、音声及び音楽)を通じて一貫した性能及び低ビットレート(<24kbps)での符号化品質である。その後、スケーラブルな部分は切り捨てられ、現在はエンベデッド・スケーラビリティ無しで種々のビットレートで動作するコーデックを対象に研究が行われている。
<音声符号化(会話型モノラル)>
(概要)
一般の音声圧縮における最新の標準化活動は、8.55kbpsの最大レートでの動作もサポートするような3GPP2/VMR−WBコーデックの拡張である。ITU−TではマルチレートG.722.1オーディオ/ビデオ会議コーデックが、24、32、48kbpsで動作する超広帯域(14kHzオーディオ帯域幅、32kHzサンプリング)での能力を提供する2つの新しいモードで以前、更新されている。更なる標準化活動は、帯域幅を48kHzのフルバンド符号化に拡張する付加モードを追加することを目的としていた。最終結果は新しいスタンドアロン・コーデックG.719であり、これは16kbpsのステップで32〜128kbpsの低演算量のフルバンド符号化を提供する。
スケーラブル会話型音声符号化に対してITU−Tでは主要な標準化活動が行われている(作業部会3、研究委員会16)。ここで、G.729のスケーラブル拡張は2006年5月に標準化され、G.729.1と呼ばれている。この拡張は、12kbpsから2kbpsの粒度ステップで8〜32kbpsまでスケーラブルである。G.729.1の主な対象適用は共有/帯域幅制限xDSLリンクに対する会話型音声であり、すなわちスケーリングはVoIPパケットを特定の制御音声チャネル(Vc)を介して通過するデジタル住居用ゲートウェイで行われる可能性がある。また、ITU−Tは全く新しいスケーラブル会話型コーデックG.718の勧告を最近(2008年9月)承認した。このコーデックは、12.0、16.0及び24.0kbpsのスケーリングステップで8.0kbpsのコアレートと32kbpsの最大レートとを有する。G.718のコアはVMR−WBから継承したWB音声コーデックであるが、コアサンプルレートへのアップサンプリングによりNB入力信号も取り扱う。更に、超広帯域とステレオ能力(32kHzサンプリング/2チャネル)とをもたらすG.718とG.729.1との合同拡張はITU−Tにおいて現在標準化中である(作業部会3、研究委員会16、課題23)。この認定期間は2008年6月に終了した。
(SNRスケーラビリティ)
SNRスケーラビリティの原理は、ビットやレイヤの数が増すほどSNRが向上するというものである。上述の2つの音声コーデックG.729.1及びG.718はこの特徴を有する。一般に、これは先行するレイヤからの符号化残差を段階的に再符号化することで達成される。上位階層を単に破棄するだけでより低いビットレートを復号化できるため、エンベデッド階層化構造は魅力的である。しかし、より高いビットレートを考えるとエンベデッド階層化は最適ではなく、ビットレートが同じであれば階層コーデックは通常、固定ビットレートコーデックより劣る。ここで言及可能な他のコーデックとしてはSNRスケーラブルMPEG4−CELP及びG.727(エンベデッドADPCM)がある。
(帯域幅スケーラビリティ)
G.722(サブバンドADPCM)やG.729.1及びG.718等のビット量の増加に伴い帯域幅を増加できるコーデックもある。G.729.1は8及び12kpbsのビットレートでカスケード型CELPコーデックと共に動作するが、4kHz〜7kHzの範囲をカバーするために帯域幅拡張を使用して14kbpsでWB信号を提供する。帯域幅拡張では一般に、スペクトル折り返し又は他のマッピングでより低い帯域から励起信号を作成し、それは更にゲイン調整され、スペクトル包路で整形され、より高品質の周波数スペクトルをシミュレートする。このソリューションは良さそうに思われるが、拡張スペクトルはMSEの意味では入力信号と通常一致しない。SNRスケーラブルなコーデックについては、より低いレートで使用された帯域幅拡張はより高いレイヤの符号化コンンテンツと通常置換される。これは、スペクトルがサブバンドベースで符号化コンンテンツと徐々に置換されるG.729.1の場合である。G.718は同じ特徴を示し、8、12及び16kbpsのレートで6.4kHz〜7.0kHzの帯域幅拡張を使用する。24及び32kbpsのレートについては、帯域幅拡張は無効になり符号化スペクトルと置換される。SNR−スケーラブルであることに加え、MPEG4−CELPは8及び16kHzのサンプリング済み入力信号に対する帯域幅スケーラブル符号化システムを特定する。
(オーディオスケーラビリティ)
基本的にオーディオスケーラビリティは以下のように達成できる。
・信号の量子化の変更、すなわちSNRライクなスケーラビリティ。
・信号の帯域幅の拡張又は縮小。
・オーディオチャネルの削減(例えば、1チャネルのモノラル、2チャネルのステレオ、5チャネルのサラウンド)−(空間スケーラビリティ)。
現在利用可能な細粒度スケーラブルオーディオコーデックはAAC−BSAC(アドバンストオーディオ符号化−ビットスライス算術符号化)である。これはオーディオ符号化及び音声符号化の双方に使用可能であり、インクリメントが小さい場合でもビットレートスケーラビリティを可能にする。
それはビットストリームを生成し、ストリームのある部分が失われても復号化できる。ストリームの復号化を可能にするのに利用可能なデータ量に関して最低限の要求がある。これは基本レイヤと呼ばれる。残りのビット組は品質拡張に対応するため、拡張レイヤと呼ばれる。AAC−BSACは、オーディオ信号に対して1チャネル当たり約1kbit/s以下の拡張レイヤをサポートする。
「そのような細粒度のスケーラビリティを得るために、ビットスライス方式が量子化スペクトルデータに適用される。まず、量子化スペクトル値が周波数帯域にグループ化され、これらのグループの各々は2進表現の量子化スペクトル値を含む。その後、グループのビットは有意性及びスペクトルコンンテンツに応じてスライス状に処理される。これにより、グループ内の量子化値の最初の全ての最上位ビット(MSB)が処理され、これらのビットはあるスライス内で低い周波数から高い周波数に向かって処理される。これらのビットスライスは2進演算符号化方式を使用して符号化され、最小冗長度でエントロピー符号化が得られる。」(非特許文献1)
「デコーダが利用する拡張レイヤ数の増加に伴いより多くの最下位ビット(LSB)情報を提供することで量子化スペクトルデータを精緻化する。同時に、より高い周波数帯域のスペクトルデータのビットスライスを提供することでオーディオ帯域幅を拡張する。このようにして準連続スケーラビリティが達成できる。」(非特許文献1)
換言すれば、スケーラビリティは二次元空間で達成できる。ある信号帯域に対応する品質はより多くのLSBを送信することで拡張でき、又は信号の帯域幅はより多くのビットスライスを受信器に提供することで拡張できる。更に、スケーラビリティの第3の次元は復号化に利用可能なチャネル数を適応することで利用可能になる。例えば、サラウンドオーディオ(5チャネル)はステレオ(2チャネル)に縮小でき、他方、例えば転送条件が必要とすればモノラル(1チャネル)に縮小できる。
ステレオ符号化又はマルチチャネル符号化
マルチチャネル(すなわち、少なくとも2つの入力チャネル)符号化及び復号化を使用するオーディオ送信システムの一般例を図2に概略的に示す。システム全体は送信側のマルチチャネルオーディオエンコーダ100及び送信モジュール10と、受信側の受信モジュール20及びマルチチャネルオーディオデコーダ200とを基本的に具備する。
オーディオ信号のステレオ又はマルチチャネル符号化の最も単純な方法は、図3に示すように異なるチャネルの信号を個別の独立した信号に別々に符号化することである。しかし、これは複数のチャネル間の冗長性が除去されず、ビットレート要求がチャネル数に比例することを意味する。
ステレオFM無線伝送で使用され従来のモノラル無線受信機との互換性を保証する他の基本方法は、2つの関連チャネルの和信号(モノラル)と差信号(サイド)とを送信することである。
MPEG−1/2レイヤIIIやMPEG−2/4AAC等の最先端のオーディオコーデックは、いわゆるジョイントステレオ符号化を利用する。この技術によれば、異なるチャネルの信号が別々に処理されるのではなく、一緒に処理される。最も広く使用されているジョイントステレオ符号化技術は、「Mid/Side」(M/S)ステレオ符号化、及び、インテンシティステレオ符号化として知られている2つの符号化であり、これらは通常、符号化されるステレオ信号又はマルチチャネル信号のサブバンドに適用される。
M/Sステレオ符号化は、チャネルのサブバンドの和と差の信号を符号化して送信し、それによりチャネルのサブバンド間の冗長性を利用する点において、前述のステレオFMラジオの手順と類似している。M/Sステレオ符号化に基づくコーダの構成と動作については、例えば特許文献1に記載されている。
他方、インテンシティステレオは、ステレオの無関係さを使用することができる。インテンシティステレオでは、(異なるサブバンドの)チャネルの連結強度(joint intensity)を、チャネル間に信号の強度がどのように分布しているかを示す位置情報と共に送信する。インテンシティステレオでは、チャネルのスペクトル振幅情報だけを出力し、位相情報は伝達しない。このため及び、チャネル間時間情報(より具体的にはチャネル間時間差)は特に低周波数においては心理音響関連性が大きいことから、インテンシティステレオは、例えば2kHzを超える高い周波数でのみの使用とすることができる。インテンシティステレオ符号化方法は、例えば特許文献2に記載されている。
バイノーラルキュー符号化(BCC)と呼ばれる最近開発されたステレオ符号化方法が、Faller等による、「Binaural cue coding applied to stereo and multi-channel audio compression」(112th AES convention, 2002年5月, Munich, Germany)(非特許文献6)に記載されている。この方法はパラメトリック・マルチチャネル音声符号化方法である。そのようなパラメトリック技術の基本原理は、符号化側でN個のチャネルc1、c2、...、cNからの入力信号を結合して1つのモノラル信号mにすることである。モノラル信号は、何らかの従来のモノラルオーディオコーデックを使用してオーディオ符号化される。同時に、パラメータがマルチチャネル画像を記述するチャネル信号から導出される。パラメータは符号化され、オーディオビットストリームと共にデコーダに送信される。デコーダはまずモノラル信号m’を復号化し、マルチチャネル画像のパラメトリック記述に基づきチャネル信号c1’、c2’、...、cN’を再生成する。
バイノーラルキュー符号化法(BCC)(非特許文献2)の原理は、符号化モノラル信号及びいわゆるBCCパラメータとを送信することである。BCCパラメータには、原マルチチャネル入力信号のサブバンドに関する符号化されたチャネル間レベル差及び符号化されたチャネル間時間差が含まれる。デコーダは、BCCパラメータに基づき、モノラル信号のサブバンドに関するレベルと位相調整とを適用することで異なるチャネル信号を再生する。例えばM/Sステレオやインテンシティステレオよりも有利な点は、チャネル間時間情報を含むステレオ情報がより低いビットレートで送信されることである。
特許文献3に記載される別の技術は、モノラル信号及びサイド情報を符号化する同じ原理を使用する。この場合、サイド情報は予測フィルタとオプションとして残差信号とからなる。モノラル信号への適用時にLMSアルゴリズムで推定された予測フィルタによりマルチチャネルオーディオ信号の予測が可能になる。この技術によりマルチチャネル音源の非常に低いビットレートでの符号化を達成できるが、品質低下という犠牲を伴う。
パラメトリック・ステレオ符号化の基本原理を図4に示す。図4は、ダウンミキシングモジュール120、コア・モノラルコーデック130、230、ビットストリーム・マルチプレクサ/デマルチプレクサ150、250、パラメトリック・ステレオサイド情報エンコーダ/デコーダ140、240を備えるステレオコーデックの構成を示している。ダウンミキシングにより、マルチチャネル(この場合、ステレオ)信号がモノラル信号に変換される。パラメトリック・ステレオコーデックの目的は、再構成モノラル信号と追加ステレオパラメータとを与えられたデコーダでステレオ信号を再生することである。
特許文献4には、マルチチャネル符号化のための適応ビット割り当て技術が記載されている。ここでは少なくとも2つのエンコーダを使用し、第2のエンコーダはマルチステージエンコーダである。マルチチャネルオーディオ信号特性に基づいて、第2のマルチステージエンコーダの各ステージに符号化ビットが適応的に割り当てられる。
MPEGパラメトリックステレオで採用されたダウンミキシング技術が非特許文献3で説明されている。ここでは、ダウンミキシング手順でのチャネルキャンセルによるポテンシャルエネルギ損失が、スケーリング係数で補償される。
MPEGサラウンド(非特許文献4、5)では、オーディオ符号化が2つに分割される。すなわち、ドライ成分と呼ばれる予測/パラメトリック部と、ウェット成分と呼ばれる非予測/拡散部である。ドライ成分は別々に符号化及び復号化されたダウンミックス信号からのチャネル予測を使用して得られる。ウェット成分は以下の3つの内のいずれかである。すなわち、予測及び無相関フィルタから生成された合成拡散音声信号、予測部のゲイン調整バージョン又は単に符号化予測残差によるものである。
米国特許第5285498号 欧州特許第0497413号 米国特許第5434948号 国際公開第2006/091139号
ISO/IEC JTC 1, SC 29, WG 11/M11657, "Performance and functionality of existing MPEG-4 technology in the context of CfI on Scalable Speech and Audio Coding", 2005年1月 C. Faller & F. Baumgarte, "Binaural cue coding - Part I:Psychoacoustic fundamentals and design principles", IEEE Trans. Speech Audio Processing, vol. 11, 509-519ページ、2003年11月 Samsudin他, "A stereo to mono downmixing scheme for MPEG-4 parametric stereo encoder", ICASSP Proceedings, vol. 5, V-Vページ、2006年5月 J. Herre他、「The Reference Model Architecture for MPEG Spatial Audio Coding」、AES第118回コンベンション、論文6447、2005年5月 ISO/IEC JTC 1, SC 29, WG 11/N7806, "MPEG audio technologies - Part 1:MPEG Surround", 113-114ページ、2007年2月 C. Faller et al., "Binaural cue coding applied to stereo and multi-channel audio compression", 112th AES convention, 2002年5月, Munich, Germany.
オーディオコーデックの分野では多数の進展が見られるが、オーディオコーデック技術の改良に対する一般的な需要が未だにある。
一般的な目的は、改良されたオーディオ符号化及び/又は復号化技術を提供することである。
特定の目的は、改良されたオーディオ符号化方法を提供することである。
また、特定の目的は、改良されたオーディオ復号化方法を提供することである。
他の特定の目的は、改良されたオーディオ符号化装置を提供することである。
更に他の特定の目的は、改良されたオーディオ復号化装置を提供することである。
上記目的及びその他の目的は、添付の請求の範囲で定義されるように本発明によって達成される。
第一の態様において、少なくとも2つのチャネルを有するマルチチャネルオーディオ信号のオーディオ入力チャネル群の信号表現に作用する符号化手順全体に基づくオーディオ符号化方法が提供される。本オーディオ符号化方法によれば、前記オーディオ入力チャネル群のダウンミックス信号を含む第1の信号表現を符号化するための第1の符号化処理が行われる。前記第1の符号化処理に関連して局所合成が行われ、第1の符号化処理の符号化誤差の表現を含む局所復号化ダウンミックス信号を生成する。少なくとも前記局所復号化ダウンミックス信号を入力として使用し、前記オーディオ入力チャネル群の第2の表現を符号化するための第2の符号化処理が行われる。前記オーディオ入力チャネル群の入力チャネルエネルギが推定され、前記オーディオ入力チャネル群の少なくとも1つのエネルギ表現が前記オーディオ入力チャネル群の推定入力チャネルエネルギに基づき生成される。その後、1つ又は複数のエネルギ表現が符号化される。少なくとも前記第2の符号化処理を含む前記複数の符号化処理の少なくとも1つから残差誤差信号が生成され、第3の符号化処理において前記残差誤差信号の残差符号化が行われる。
このように出力チャネルがエネルギ及び/又は品質の点で入力チャネルと整合可能になることに加え、オーディオ入力を全体に効果的に符号化可能とする。
また、少なくとも2つのチャネルを有するマルチチャネルオーディオ信号のオーディオ入力チャネル群の信号表現に作用する対応オーディオ符号化装置が提供される。基本的に本オーディオ符号化装置は、第1の符号化処理において前記オーディオ入力チャネル群のダウンミックス信号を含む第1の表現を符号化する第1のエンコーダと、前記第1の符号化処理に関連して局所合成を行い、前記第1の符号化処理の符号化誤差の表現を含む局所復号化ダウンミックス信号を生成する局所合成器と、少なくとも前記局所復号化ダウンミックス信号を入力として使用し、第2の符号化処理において前記オーディオ入力チャネル群の第2の表現を符号化する第2のエンコーダとを備える。更に本オーディオ符号化装置は、前記オーディオ入力チャネル群の入力チャネルエネルギを推定するエネルギ推定器と、前記オーディオ入力チャネル群の推定入力チャネルエネルギに基づき前記オーディオ入力チャネル群の少なくとも1つのエネルギ表現を生成するエネルギ表現生成器と、1つ又は複数のエネルギ表現を符号化するエネルギ表現エンコーダとを備える。また本オーディオ符号化装置は、少なくとも前記第2の符号化処理を含む前記複数の符号化処理の少なくとも1つから残差誤差信号を生成する残差生成器と、第3の符号化処理において前記残差誤差信号の残差符号化を行う残差エンコーダとを備える。
第二の態様において、少なくとも2つのチャネルを有するマルチチャネルオーディオ信号を再構成する受信ビットストリームに作用する復号化手順全体に基づくオーディオ復号化方法が提供される。本オーディオ復号化方法によると、前記受信ビットストリームの第1の部分に基づき復号化ダウンミックス信号を含む少なくとも1つの第1の復号化チャネル表現を生成する第1の復号化処理が行われる。前記復号化ダウンミックス信号の推定エネルギとオーディオ入力チャネルの少なくとも1つのエネルギ表現を代表する前記受信ビットストリームの第2の部分とに基づき少なくとも1つの第2の復号化チャネル表現を生成する第2の復号化処理が行われる。前記復号化ダウンミックス信号の推定エネルギとオーディオ入力チャネルの少なくとも1つのエネルギ表現を代表する前記受信ビットストリームの前記第2の部分とに基づきオーディオ入力チャネルの入力チャネルエネルギが推定される。残差誤差信号情報を代表する前記受信ビットストリームの第3の部分に基づき第3の復号化処理で残差復号化が行われ、残差誤差信号を生成する。前記残差誤差信号と少なくとも前記第2の復号化処理を含む前記第1の復号化処理及び前記第2の復号化処理の少なくとも1つからの復号化チャネル表現とが結合され、前記マルチチャネルオーディオ信号を生成するための推定入力チャネルエネルギに少なくとも部分的に基づきチャネルエネルギ補償が行われる。
このように出力チャネルがエネルギ及び/又は品質の点で入力チャネルに近づくようにマルチチャネルオーディオ信号を効果的に再構成できる。
また、少なくとも2つのチャネルを有するマルチチャネルオーディオ信号を再構成するための受信ビットストリームに作用するオーディオ復号化装置が提供される。基本的に本オーディオ復号化装置は、前記受信ビットストリームの第1部分に基づき復号化ダウンミックス信号を含む少なくとも1つの第1の復号化チャネル表現を生成する第1のデコーダと、前記復号化ダウンミックス信号の推定エネルギとオーディオ入力チャネルの少なくとも1つのエネルギ表現を代表する前記受信ビットストリームの第2の部分とに基づき少なくとも1つの第2の復号化チャネル表現を生成する第2のデコーダとを備える。更に本オーディオ復号化装置は、前記復号化ダウンミックス信号の推定エネルギとオーディオ入力チャネルの少なくとも1つのエネルギ表現を代表する前記受信ビットストリームの前記第2の部分とに基づきオーディオ入力チャネルの入力チャネルエネルギを推定する推定器を備える。また本オーディオ復号化装置は、残差誤差信号情報を代表する前記受信ビットストリームの第3の部分に基づき第3の復号化処理で残差復号化を行い、残差誤差信号を生成する残差デコーダを備える。また本オーディオ復号化装置は、前記残差誤差信号と少なくとも前記第2の復号化処理を含む前記第1の復号化処理及び前記第2の復号化処理の少なくとも1つからの復号化チャネル表現とを結合し、前記マルチチャネルオーディオ信号を生成するために推定入力チャネルエネルギに少なくとも部分的に基づきチャネルエネルギ補償を行う手段とを含む。
本発明が提供する他の利点は、本発明の実施形態の下記の説明を読むことにより理解されるであろう。
添付の図面を参照して、以下の本発明の例示的な実施形態の詳細な説明を読めば、本発明は、その更なる目的及び利点とともに、よく理解されるであろう。
メディア適応のための専用ネットワークエンティティの一例を示す図。 マルチチャネル符号化及び復号化を使用するオーディオ送信システムの一般例を示す概略ブロック図。 異なるチャネルの信号をどのように個別の独立した信号に別々に符号化するかを示す概略図。 パラメトリックステレオ符号化の基本原理を示す概略ブロック図。 パラメトリック予測及び予測/パラメトリック残差符号化方式を使用する一般的なステレオエンコーダを示す概略ブロック図。 チャネルレベル差(CLD)とチャネルレベル和(CLS)との間の依存性を示す散布図。 本発明のエンコーダ動作の一例を示すフローチャート。この概要は実施形態A、B及びCで有効である。 実施形態Aのデコーダにおけるステレオ合成処理の一例を示すフローチャート。 実施形態Aのエンコーダ及びデコーダの動作の一例を示す概略ブロック図。 実施形態Bで有効なエンコーダ及びデコーダの動作の一例を示す概略ブロック図。 実施形態Cで有効なエンコーダ及びデコーダの動作の一例を示す概略ブロック図。 実施形態B及びCで有効なデコーダステレオ合成処理の一例を示すフローチャート。 正規化相互相関係数に対してどのようにチャネル予測係数(パニング係数)が変動するかを示すグラフ。 本発明のABテスト評価の結果を示す票決のヒストグラム。 マルチチャネルエンコーダのエンコーダ動作全体の一例を示すフローチャート。 マルチチャネル予測の前に受信信号のエネルギ測定を行うエンコーダ及びデコーダ処理の実現可能なマルチチャネル構成の例を示すブロック図。 マルチチャネル予測の前に復号化信号成分のエネルギを推定する場合のデコーダ動作全体の一例を示すフローチャート。 マルチチャネル予測の後に受信信号のエネルギ測定を行うエンコーダ及びデコーダ処理の実現可能なマルチチャネル構成の例を示すブロック図。 マルチチャネル予測の後に復号化信号成分のエネルギを推定する場合のデコーダ動作全体の一例を示すフローチャート。 オーディオ符号化方法の一例を示す概略フローチャート。 オーディオ復号化方法の一例を示す概略フローチャート。 オーディオ符号化装置の一例を示す概略ブロック図。 オーディオ復号化装置の一例を示す概略ブロック図。
本発明は、一般にオーディオアプリケーションにおけるマルチチャネル(すなわち、少なくとも2つのチャネル)符号化/復号化技術に関し、特にオーディオ送信システム及び/又はオーディオ記憶のためのステレオ符号化/復号化に関する。実施可能なオーディオアプリケーション例としては、電話会議システム、移動体通信システムにおけるステレオオーディオ送信、オーディオサービスを供給する種々のシステム、及びマルチチャネルホームシネマシステムがある。
本発明は、例えばG.729.1及びG.718のITU−T WP3/SG16/Q23 SWB/ステレオ拡張等の将来の規格に特に適用可能であるが、これらの規格に限定されないのは言うまでもない。
マルチチャネル及びステレオコーデック技術のいくつかの概念の説明から始めるのが有益であろう。
例えばステレオコーデックにおいては、ステレオ符号化及び復号化は通常、マルチステージで行われる。この処理の概要を図5に示す。まず、左右チャネルL及びRから、ダウンミックスのモノラル信号Mが形成される。モノラル信号はモノラルエンコーダに送られ、そこで局所合成^Mが抽出される。信号M、^M及び[L R]Tを用いて、パラメトリックステレオエンコーダは、入力チャネルへの第1の近似[^L ^R]Tを生成する。最終段では予測残差を算出して符号化し、更なる拡張を提供する。
チャネルダウンミックス
ダウンミキシングの標準的な方法は以下のように信号を単純に加算することである。
Figure 0005608660
この種のダウンミキシングはnでインデクスされた時間領域信号に直接適用できる。一般にダウンミックスとは、入力チャネル数pをより少ないダウンミックスチャネル数qに低減する処理のことである。ダウンミックスは、時間領域又は周波数領域で行われる入力チャネルの線形又は非線形組み合わせとすることができる。ダウンミックスは信号特性に適応できる。
他の種類のダウンミキシングでは左右チャネルの任意の組み合わせを使用し、この組み合わせは周波数依存でもよい。
本発明の例示的な実施形態では、ステレオ符号化及び復号化は周波数帯域又は変換係数群で行われると仮定している。ここでは、チャネルの処理は周波数帯域で行われると仮定する。周波数依存係数の任意のダウンミックスは以下のように表現できる。
Figure 0005608660
ただし、インデクスbは現在の帯域を表し、kはその帯域内のサンプルを表すインデクスである。本発明の主旨から逸脱せずに、適応的な時変重み係数α及びβと共に更に詳細なダウンミックス方式を使用してもよい。
モノラルチャネルが生成されると、下層のモノラルコーデックに送られる。ステレオエンコーダは局所復号化モノラル信号を使用してステレオ信号を生成する。
チャネル予測
ステレオ信号の2つのチャネルは非常に似ていることが多く、ステレオ符号化で予測技術を適用することは有用である。復号化モノラルチャネル^Mはデコーダでも利用可能なため、予測の目的は送信された量子化ステレオパラメータ^Ψと共にこの信号から左右チャネル対を再構成することである。
Figure 0005608660
この予測をエンコーダの原入力信号から減算することにより誤差信号対が以下のように生成される。
Figure 0005608660
MMSEの観点では、最適予測は誤差ベクトル[εL εRTを最小にすることで得られる。これは時変FIRフィルタを使用して時間領域で以下のように解ける。
Figure 0005608660
周波数領域での同等の動作は以下のように表現できる。
Figure 0005608660
ただし、HL(b,k)及びHR(b,k)は周波数帯域bの係数kに対するフィルタhL及びhRの周波数応答、^Lb(k)、^Rb(k)、^Mb(k)は、時間信号^l(n)、^r(n)、^m(n)の変換対応部である。
周波数領域処理の利点として、ステレオ知覚(非特許文献2)に関連する位相に対して明示的な制御を与えることがある。より低い周波数領域では位相情報は高い関連があるが、高周波数では破棄できる。これは、知覚的に関連する周波数分解能を与えるサブバンド分割を含むこともできる。周波数領域処理の欠点は、複雑性及び時間/周波数変換に対する遅延要求があることである。これらのパラメータが致命的な場合、時間領域でのアプローチが望ましい。
本発明の例示的な実施形態による対象コーデックについて、コーデックの最上層はMDCT領域のSNR拡張レイヤである。MDCTに対する遅延要求は下層で既に説明されており、処理の一部が再利用できる。このため、MDCT領域はステレオ処理のために選択される。それは変換符号化に十分適合されているが、明示的な位相制御を与えないため、ステレオ信号処理ではいくつかの欠点がある。更に、隣接フレームは本質的に依存しているため、MDCTの時間エイリアシング特性は予期せぬ結果をもたらすかもしれない。一方、それは周波数依存ビット割当てには高い柔軟性を与える。正確な位相表現のためにMDCTとMDSTとの組み合わせを使用できる。しかし、追加的なMDST信号表現は総コーデックビットレートと処理負荷とを増大させる。MDSTは多重フレームからのMDCTスペクトルを使用してMDCTから近似できることもある。
ステレオ処理のために周波数スペクトルは処理帯域に分割するのが好ましい。AACパラメトリックステレオでは、人間の聴覚の臨界帯域幅に一致するように処理帯域を選択する。利用可能なビットレートが低いので、選択された帯域はより少なく、より広くなるが、帯域幅は依然として臨界帯域に比例する。帯域をbで表すと、予測は以下のように表現できる。
Figure 0005608660
ただし、kは帯域bのMDCT係数のインデクス、mは時間領域フレームインデクスである。ここで、
Figure 0005608660
は非量子化パラメータwb(m)で得られる予測を表す。
平均二乗誤差の[LbbTに近いwb(m)の解は以下の通りである。
Figure 0005608660
ただし、E[.]は平均演算子であり、既定の時間周波数領域に対する平均としての任意の時間周波数変数に対する例として定義される。例えば、次式のように定義される。
Figure 0005608660
ただし、各周波数帯域bは大きさBW(b)を有する集合Band(b)のMDCTビンで表される。なお、周波数帯域は重複してもよい。
予測パラメータの導出において符号化モノラル信号^Mを使用することは、この計算で符号化誤差を含む。MMSEの観点から明らかであるが、これは知覚的に気になるステレオ画像の不安定性を引き起こす。このため、予測パラメータは未処理のモノラル信号に基づき、予測からモノラル誤差を排除する。
Figure 0005608660
ダウンミックス計算式M=(L+R)/2を使用することにより、ここでは左チャネルに対してこの表現を以下のように拡張できる。
Figure 0005608660
信号L、R、MはMDCT領域にあるため実数値であり、複素共役(*)を省略できる。
Figure 0005608660
同様に、右チャネル予測係数を以下のように表現できる。
Figure 0005608660
これらの表現E[Lb(m)Lb(m)]及びE[Rb(m)Rb(m)]はそれぞれ左右チャネルのエネルギに対応し、E[Lb(m)Rb(m)]は帯域bの相互相関を表す。更に、予測係数の合計は以下のように導出できる。
Figure 0005608660
チャネル予測係数の典型的な範囲は[0,2]であるが、強い負の相互相関に対してこれらの値はこれらの範囲を超えてもよい。式(14)の関係式によると、MMSEチャネル予測同士は関連があり、サブバンドコンテンツを左又は右チャネルにパンする単一のパラメータと見なせる。このため、チャネル予測はサブバンドパニングアルゴリズムと呼ぶこともできる。
ステレオ又はマルチチャネルオーディオ信号の空間オーディオ特性は時間と共に変化する可能性があるので、空間パラメータは可変ビットレート方式で符号化するのが好ましい。固定条件として、パラメータビットは最小値に低下し、保存ビットはSNR拡張等のコーデックの一部で使用できる。
残差符号化度合が変動する一方で合成チャネルエネルギを安定させ続けるようにチャネル予測係数及び入力チャネルエネルギを表現するのが望ましい。詳細は例示的な実施形態で更に説明する。
残差信号符号化
予測ステレオチャネルと入力チャネルとの間の差は、予測残差を形成する。
Figure 0005608660
残差信号は、モノラルダウンミックスチャネルと相関がなく予測によるモデル化ができない入力チャネルの部分を含む。更に、予測分解能が低いほど誤差が大きくなる可能性があるため、予測残差は予測関数の精度に依存する。最後に、予測は符号化モノラルダウンミックス信号に基づくため、モノラルエンコーダの不完全さもが残差誤差に加算される。残差誤差信号の成分は相関を示し、本願に組み込まれる国際特許出願第SE2008/000272号に記載されているように、誤差を符号化する際にこの相関を利用するのが有益である。
残差符号化の他の手段も適用できる。予測残差は、予測不能な拡散音場を表すことが多い。知覚の観点から、チャネル間相関(ICC)(非特許文献2、非特許文献3、非特許文献4)が重要である。この特性は、無相関フィルタのシステムと共に復号化ダウンミックス信号又は予測/アップミックス信号を使用してシミュレートできる。本発明の原理は予測残差のいかなる表現にも適用可能である。
実施形態の問題解析及び非限定例
本発明はオーディオコーデックの最新技術を綿密に分析し、そのようなコーデックの機能と性能とに関していくつかの有益な洞察を得た。マルチチャネルマルチステージエンコーダにおいて、信号は符号化ステージに対応する異なる成分から通常構成される。制限されたビットレート、変化する空間特性、更に送信条件によって、復号化成分の品質は時間と共に変動する可能性がある。資源が不足して信号を表現できなくなると、エネルギ損失を観察することになり、ステレオ画像が時間と共に変動すると不安定になる。
例えばMPEG PS(非特許文献3)で使用されるダウンミックス手順は、チャネルキャンセルによるダウンミックスでのエネルギ損失を補償するが、合成チャネルエネルギや予測係数に対する明示的な制御を提供しない。
MPEGサラウンド(非特許文献4、非特許文献5)の方法では、例えばパラメトリック部(ドライ成分)と組み合わせて予測残差(ウェット成分)の存在を取り扱う。ウェット成分は、1)ゲイン調整パラメトリック部、2)符号化予測残差、又は3)無相関フィルタを通過したパラメトリック部のいずれかでもよい。3)のソリューションは予測残差のパラメトリック表現とみなすことができる。しかし、このシステムでは変動比率でこれら3つが共存することはできず、従ってこの状況では合成チャネルエネルギの組込み制御を提供しない。
本発明を更に理解するために、図18及び図19の例示的なフローチャートを参照してオーディオ符号化/復号化技術の新しい分野の概念を導入するのは有益である。
図18は、オーディオ符号化方法の一例を示す概略フローチャートである。例示的なオーディオ符号化方法は、少なくとも2つのチャネルを有するマルチチャネルオーディオ信号のオーディオ入力チャネル群の信号表現に作用する符号化手順全体に基づく。ステップS1において、前記オーディオ入力チャネル群のダウンミックス信号を含む第1の信号表現を符号化するために第1の符号化処理が行われる。ステップS2において、第1の符号化処理に関連して局所合成が行われ、第1の符号化処理の符号化誤差の表現を含む局所復号化ダウンミックス信号を生成する。ステップS3において、少なくとも局所復号化ダウンミックス信号を入力として使用し、前記オーディオ入力チャネル群の第2の信号表現を符号化するために第2の符号化処理が行われる。ステップS4において、オーディオ入力チャネルの入力チャネルエネルギが推定される。ステップS5において、オーディオ入力チャネルの少なくとも1つのエネルギ表現が、前記オーディオ入力チャネルの推定入力チャネルエネルギに基づき生成される。ステップS6において、生成された1つ又は複数のエネルギ表現が符号化される。ステップS7において、少なくとも第2の符号化処理を含む前記複数の符号化処理の少なくとも1つから残差誤差信号が生成される。ステップS8において、残差誤差信号の残差符号化が第3の符号化処理において行われる。
このようにしてオーディオ入力チャネルの効果的な符号化全体が得られる。オーディオ入力チャネルのエネルギ表現により、復号化側の出力チャネルのエネルギが推定入力チャネルエネルギと一致可能になる。出力チャネルはエネルギ及び品質の双方の点で入力チャネルと一致するのが好ましい。
例示的な実施形態では、後からより詳細に例示するように、少なくとも1つのエネルギ表現を生成してエネルギ表現を符号化するステップは第2の符号化処理で行われる。
通常、符号化手順全体は比較的多数のオーディオフレームの各々に対して実行される。しかし、オーディオ入力チャネルエネルギの推定及び(好ましいエネルギ表現を介した)符号化等の符号化手順全体の各部は、1つ以上の選択可能な周波数帯域においてフレームの選択可能な部分集合に対して行われてもよい。実際には、例えば少なくとも1つのエネルギ表現を生成してエネルギ表現を符号化するステップは少なくとも1つの周波数帯域の多数のフレームの各々に対して行われてもよいことを意味する。
特定の例において第1の符号化処理はダウンミックス符号化処理であり、第2の符号化処理は1つ以上の予測チャネルを生成するチャネル予測に基づき、このため残差誤差信号は残差予測誤差信号を含む。この例示的な状況では、第2の予測ベースの符号化処理において推定入力チャネルエネルギとチャネル予測の予測パラメータとを一緒に表現して符号化することは特に有利であることが分かる。
更に、予測ベースの符号化と残差符号化とに組み合わされたダウンミックス符号化の例示的な状況では、各々特別な利点を有するエネルギ表現及びエネルギ符号化に対する多数の異なる実現例がある。以下、3つの異なる例示的な実現例を下記の表に簡単にまとめ、より詳細に後述する。
例A
エネルギ表現:
・チャネルエネルギレベル差を決定し、
・チャネルエネルギレベル和を決定し、
・第1の符号化処理に関連してチャネルエネルギレベル和と局所合成からの局所復号化ダウンミックス信号のエネルギとに基づきデルタエネルギ測度を決定する。
エネルギ符号化:
・チャネルエネルギレベル差を量子化し、
・デルタエネルギ測度を量子化する。
チャネル予測:
・非量子化チャネル予測パラメータに基づく。
例B
エネルギ表現:
・チャネルエネルギレベル差を決定し、
・チャネルエネルギレベル和を決定し、
・第1の符号化処理に関連してチャネルエネルギレベル和と局所合成からの局所復号化ダウンミックス信号のエネルギとに基づきデルタエネルギ測度を決定し、
・デルタエネルギ測度と局所復号化ダウンミックス信号のエネルギにより正規化された予測チャネルのエネルギとに基づき正規化エネルギ補償パラメータを決定する。
エネルギ符号化:
・チャネルエネルギレベル差を量子化し、
・正規化エネルギ補償パラメータを量子化する。
チャネル予測:
・量子化チャネルエネルギレベル差から導出された量子化チャネル予測パラメータに基づく。
例C
エネルギ表現:
・チャネルエネルギレベル差を決定し、
・エネルギ正規化入力チャネル相互相関パラメータを決定する。
エネルギ符号化:
・チャネルエネルギレベル差を量子化し、
・エネルギ正規化入力チャネル相互相関パラメータを量子化する。
チャネル予測:
・量子化チャネルエネルギレベル差から導出された量子化チャネル予測パラメータと量子化エネルギ正規化入力チャネル相互相関パラメータとに基づく。
図19は、オーディオ復号化方法の一例を示す概略フローチャートである。例示的なオーディオ復号化方法は、少なくとも2つのチャネルを有するマルチチャネルオーディオ信号を再構成する受信ビットストリームに作用する復号化手順全体に基づく。ステップS11において、第1の復号化処理が行われ、前記受信ビットストリームの第1の部分に基づき復号化ダウンミックス信号を含む少なくとも1つの第1の復号化チャネル表現を生成する。ステップS12において、第2の復号化処理が行われ、復号化ダウンミックス信号の推定エネルギとオーディオ入力チャネルの少なくとも1つのエネルギ表現を代表する受信ビットストリームの第2の部分とに基づき少なくとも1つの第2の復号化チャネル表現を生成する。ステップS13において、オーディオ入力チャネルの入力チャネルエネルギが、復号化ダウンミックス信号の推定エネルギとオーディオ入力チャネルの少なくとも1つのエネルギ表現を代表する受信ビットストリームの第2の部分とに基づき推定される。ステップS14において、残差復号化が残差誤差信号情報を代表する受信ビットストリームの第3の部分に基づき第3の復号化処理で行われ、残差誤差信号を生成する。ステップS15において、残差誤差信号と少なくとも第2の復号化処理を含む第1の復号化処理及び第2の復号化処理の少なくとも1つからの復号化チャネル表現とが結合され、マルチチャネルオーディオ信号を生成するための推定入力チャネルエネルギに少なくとも部分的に基づきチャネルエネルギ補償が行われる。
これは、出力チャネルがエネルギ及び/又は品質の点で入力チャネルに近づくようにマルチチャネルオーディオ信号を効果的に再構成できることを意味する。特にチャネルエネルギ補償は、マルチチャネルオーディオ信号の出力チャネルのエネルギが推定入力チャネルエネルギと一致するように行われてもよい。しかし、マルチチャネルオーディオ信号の出力チャネルがエネルギ及び品質の双方の点で符号化側の対応する入力チャネルと一致し、より高品質な信号がより低品質な信号よりも高い割合で表現されて出力チャネルの品質全体を向上するのが好ましい。
例示的な実施形態において、1つ以上の第2の復号化チャネル表現を生成する場合にチャネルエネルギ補償は第2の復号化処理に統合される。この状況では、復号化ダウンミックス信号のエネルギと残差誤差信号のエネルギとを推定し、復号化ダウンミックス信号のエネルギと残差誤差信号のエネルギとに基づき第2の復号化処理を行うことは有益である。
別の例示的な実施形態において、残差誤差信号と復号化チャネル表現とを結合した後にチャネルエネルギ補償が行われる。この状況では、残差誤差信号と第1の復号化処理及び第2の復号化処理の少なくとも1つからの復号化チャネル表現とが結合されてマルチチャネル合成になり、結合マルチチャネル合成のエネルギが推定される。次に、チャネルエネルギ補償が結合マルチチャネル合成の推定エネルギと推定入力チャネルエネルギとに基づき行われる。
特定の例において、少なくとも1つの第2の復号化チャネル表現を生成する第2の復号化処理は予測チャネルを合成することを含み、残差復号化は残差予測誤差信号を生成することを含む。この例示的な状況では、少なくとも1つの第2の復号化チャネル表現を生成する第2の復号化処理は、オーディオ入力チャネルの1つ以上のエネルギ表現を受信ビットストリームの第2の部分から導出し、エネルギ表現に少なくとも部分的に基づきチャネル予測パラメータを推定し、復号化ダウンミックス信号と推定チャネル予測パラメータとに基づき予測チャネルを合成することを含む。
以下、3つの異なる例示的な実現例を下記の表に簡単にまとめ、より詳細に後述する。下記の復号化例A〜Cは一般に上述の符号化例A〜Cに対応する。
例A
エネルギ表現の導出:
・チャネルエネルギレベル差とデルタエネルギ測度とを受信ビットストリームの第2の部分から導出する。
入力チャネルエネルギの推定:
・復号化ダウンミックス信号の推定エネルギとチャネルエネルギレベル差とデルタエネルギ測度とに基づく。
チャネル予測パラメータの推定:
・推定入力チャネルエネルギと復号化ダウンミックス信号の推定エネルギと残差誤差信号の推定エネルギとに基づく。
例B
エネルギ表現の導出:
・チャネルエネルギレベル差と正規化エネルギ補償パラメータとを受信ビットストリームの第2の部分から導出する。
入力チャネルエネルギの推定:
・復号化ダウンミックス信号の推定エネルギとチャネルエネルギレベル差と正規化エネルギ補償パラメータとに基づく。
チャネル予測パラメータの推定:
・チャネルエネルギレベル差に基づく。
予測チャネルの合成:
・復号化ダウンミックス信号と推定チャネル予測パラメータとに基づく。
結合:
・残差誤差信号と合成予測チャネルとを結合して結合マルチチャネル合成にする。
チャネルエネルギ補償(結合後):
・結合マルチチャネル合成のエネルギを推定し、
・推定入力チャネルエネルギと結合マルチチャネル合成の推定エネルギとに基づきエネルギ補正係数を決定し、
・エネルギ補正係数を結合マルチチャネル合成に適用してマルチチャネルオーディオ信号を生成する。
例C
エネルギ表現の導出:
・チャネルエネルギレベル差とエネルギ正規化入力チャネル相互相関パラメータとを受信ビットストリームの第2の部分から導出する。
入力チャネルエネルギの推定:
・復号化ダウンミックス信号の推定エネルギとチャネルエネルギレベル差とエネルギ正規化入力チャネル相互相関パラメータとに基づく。
チャネル予測パラメータの推定:
・チャネルエネルギレベル差とエネルギ正規化入力チャネル相互相関パラメータとに基づく。
予測チャネルの合成:
・復号化ダウンミックス信号と推定チャネル予測パラメータとに基づく。
結合:
・残差誤差信号と合成予測チャネルとを結合して結合マルチチャネル合成にする。
チャネルエネルギ補償(結合後):
・結合マルチチャネル合成のエネルギを推定し、
・推定入力チャネルエネルギと結合マルチチャネル合成の推定エネルギとに基づきエネルギ補正係数を決定し、
・エネルギ補正係数を結合マルチチャネル合成に適用してマルチチャネルオーディオ信号を生成する。
構造上の観点から、図20及び図21の例示的なブロック図を参照して例示するように、本発明はオーディオ符号化装置及び対応するオーディオ復号化装置に関する。
図20は、オーディオ符号化装置の一例を示す概略ブロック図である。オーディオ符号化装置100は、少なくとも2つのチャネルを有するマルチチャネルオーディオ信号のオーディオ入力チャネル群の信号表現に作用するように構成される。
基本的な符号化装置100は、第1のエンコーダ130と、第2のエンコーダ140と、エネルギ推定器142と、エネルギ表現生成器144と、エネルギ表現エンコーダ146と、残差生成器155と、残差エンコーダ160とを含む。最終符号化パラメータは、復号化側に転送するためにマルチプレクサ150により通常収集される。
第1のエンコーダ130は、第1の符号化処理においてオーディオ入力チャネルのダウンミックス信号を含む第1の表現を受信して符号化するように構成される。ダウンミックス部120は、好適な入力チャネル群をダウンミックス信号にダウンミキシングするために使用されてもよい。ダウンミックス部120は基本的な符号化装置100の一体部分とみなしてもよいし、「外部の」サポート部とみなしてもよい。
更に局所合成器132は、第1の符号化処理に関連して局所合成を行い、第1の符号化処理の符号化誤差の表現を含む局所復号化ダウンミックス信号を生成するように配置される。局所合成器132は第1のエンコーダと一体化されるのが好ましいが、第1のエンコーダに関連して符号化側で実現される別箇のデコーダとして提供されてもよい。
第2のエンコーダ140は、少なくとも局所復号化ダウンミックス信号を入力として使用し、第2の符号化処理において前記オーディオ入力チャネルの第2の表現を受信して符号化するように構成される。
エネルギ推定器142は、前記オーディオ入力チャネルの入力チャネルエネルギを推定するように構成され、エネルギ表現生成器144は、オーディオ入力チャネルの推定入力チャネルエネルギに基づきオーディオ入力チャネルの少なくとも1つのエネルギ表現を生成するように構成される。エネルギ表現エンコーダ146は、エネルギ表現を符号化するように構成される。このように入力チャネルエネルギが符号化側で推定され符号化されてもよい。
エネルギ推定器142は第2のエンコーダ140の一体部分として実現されてもよいし、第2のエンコーダの外部で専用器として配置されてもよい。例示的な実施形態において、後からより詳細に例示するように、エネルギ表現生成器144とエネルギ表現エンコーダ146とは第2のエンコーダ140内で実現されると都合がよい。別の実施形態において、エネルギ表現処理は第2のエンコーダの外部で提供されてもよい。
残差生成器155は、少なくとも第2の符号化処理を含む複数の符号化処理の少なくとも1つから残差誤差信号を生成するように構成され、残差エンコーダ160は、第3の符号化処理において残差誤差信号の残差符号化を行うように構成される。
エネルギ表現生成器144で生成され符号化されたエネルギ表現により、復号化側の出力チャネルのエネルギが推定入力チャネルエネルギと一致可能になる。あるいはエネルギ表現により、出力チャネルがエネルギ及び品質の双方の点で入力チャネルに一致可能になる。
エネルギ表現生成器144とエネルギ表現エンコーダ146とは、少なくとも1つの周波数帯域の多数のフレームの各々に対してエネルギ表現を生成して符号化するように構成されるのが好ましい。エネルギ推定器142は入力チャネルエネルギを連続して推定するように構成されてもよく、あるいはエネルギ表現生成器144とエンコーダ146との動作に適応された選択されたフレーム及び/又は周波数帯域群のみに対して構成されてもよい。
特定の例において、第1のエンコーダ130はダウンミックスエンコーダであり、第2のエンコーダ140は1つ以上の予測チャネルを生成するチャネル予測に基づき動作するように構成されたパラメトリックエンコーダであり、残差生成器155は残差予測誤差信号を生成するように構成される。この例示的な状況では、第2のエンコーダ140はチャネル予測パラメータと共に推定入力チャネルエネルギを一緒に表現して符号化するように構成されるのが好ましい。
予測ベースの符号化と残差符号化とに結合されたダウンミックス符号化の例示的な状況に対して3つの異なる例示的な実現例を下記にまとめる。更なる詳細は後述する。
例A
本例においてエネルギ表現生成器144は、チャネルエネルギレベル差を決定する決定部と、チャネルエネルギレベル和を決定する決定部と、第1の符号化処理に関連してチャネルエネルギレベル和と局所合成からの局所復号化ダウンミックス信号のエネルギとに基づき所謂デルタエネルギ測度を決定する決定部とを含む。エネルギ表現エンコーダ146は、チャネルエネルギレベル差を量子化する量子化器と、デルタエネルギ測度を量子化する量子化器とを含む。
例えば、第2のエンコーダ140が非量子化チャネル予測パラメータに基づきチャネル予測を行うことも有益である。
例B
本例においてエネルギ表現生成器144は、チャネルエネルギレベル差を決定する決定部と、チャネルエネルギレベル和を決定する決定部と、第1の符号化処理に関連してチャネルエネルギレベル和と局所合成からの局所復号化ダウンミックス信号のエネルギとに基づきデルタエネルギ測度を決定する決定部と、デルタエネルギ測度と局所復号化ダウンミックス信号のエネルギにより正規化された予測チャネルのエネルギとに基づき所謂正規化エネルギ補償パラメータを決定する決定部とを含む。エネルギ表現エンコーダ146は、チャネルエネルギレベル差を量子化する量子化器と、正規化エネルギ補償パラメータを量子化する量子化器とを含む。
例えば第2のエンコーダ140は、量子化チャネルエネルギレベル差から導出された量子化チャネル予測パラメータに基づきチャネル予測を行うように構成されてもよい。
例C
本例においてエネルギ表現生成器144は、チャネルエネルギレベル差を決定する決定部と、エネルギ正規化入力チャネル相互相関パラメータを決定する決定部とを含む。エネルギ表現エンコーダ146は、チャネルエネルギレベル差を量子化する量子化器と、エネルギ正規化入力チャネル相互相関パラメータを量子化する量子化器とを含む。
例えば第2のエンコーダ140は、量子化チャネルエネルギレベル差から導出された量子化チャネル予測パラメータと量子化エネルギ正規化入力チャネル相互相関パラメータとに基づきチャネル予測を行うように構成されてもよい。
図21は、オーディオ復号化装置の一例を示す概略ブロック図である。オーディオ復号化装置200は、少なくとも2つのチャネルを有するマルチチャネルオーディオ信号を再構成するための受信ビットストリームに作用するように構成される。受信ビットストリームは符号化側からビットストリームデマルチプレクサ250により通常受信され、ビットストリームデマルチプレクサ250は受信ビットストリームを受信ビットストリーム全体の関連部分集合又は部分に分割する。
基本的なオーディオ復号化装置200は、第1のデコーダ230と、第2のデコーダ240と、入力チャネルエネルギ推定器242と、残差デコーダ260と、結合/チャネルエネルギ補償手段270とを含む。
第1のデコーダ230は、受信ビットストリームの第1部分に基づき復号化ダウンミックス信号を含む1つ以上の復号化チャネル表現を生成するように構成される。
第2のデコーダ240は、復号化ダウンミックス信号の推定エネルギとオーディオ入力チャネルの少なくとも1つのエネルギ表現を代表する受信ビットストリームの第2の部分とに基づき1つ以上の第2の復号化チャネル表現を生成するように構成される。
入力チャネルエネルギ推定器242は、復号化ダウンミックス信号の推定エネルギとオーディオ入力チャネルの少なくとも1つのエネルギ表現を代表する受信ビットストリームの第2の部分とに基づきオーディオ入力チャネルの入力チャネルエネルギを推定するように構成される。
残差デコーダ260は、残差誤差信号情報を代表する受信ビットストリームの第3の部分に基づき第3の復号化処理で残差復号化を行い、残差誤差信号を生成するように構成される。
結合/チャネルエネルギ補償手段270は、残差誤差信号と少なくとも第2のデコーダ/復号化処理を含む第1のデコーダ/復号化処理及び第2のデコーダ/復号化処理の少なくとも1つからの復号化チャネル表現とを結合し、マルチチャネルオーディオ信号を生成するために推定入力チャネルエネルギに少なくとも部分的に基づきチャネルエネルギ補償を行うように構成される。
例えば、結合及びチャネルエネルギ補償を行う手段270は、マルチチャネルオーディオ信号の出力チャネルのエネルギを推定入力チャネルエネルギに一致させるように構成されてもよい。しかし、結合及びチャネルエネルギ補償を行う手段270は、出力チャネルをエネルギ及び品質の双方の点で符号化側の対応する入力チャネルに一致させるように構成し、より高品質な信号がより低品質な信号よりも高い割合で表現されて出力チャネルの品質全体を向上するのが好ましい。
後述の例示的な実施形態から理解されるように、結合/チャネルエネルギ補償の全体構造はいくつかの異なるやり方で実現できる。
例えば、チャネルエネルギ補償は第2のデコーダに統合されてもよい。本例において、第2のデコーダ240は復号化ダウンミックス信号のエネルギと残差誤差信号のエネルギとに基づき動作するように構成されるのが好ましく、これはオーディオ復号化装置200が復号化ダウンミックス信号のエネルギと残差誤差信号のエネルギとを推定する手段も具備することを意味する。
あるいは復号化装置は、残差誤差信号と関連復号化チャネル表現とを結合して結合マルチチャネル合成にする結合器と、チャネルエネルギ補償を結合マルチチャネル合成に適用してマルチチャネルオーディオ信号を生成するチャネルエネルギ補償器とを含む。本例において、オーディオ復号化装置は結合マルチチャネル合成のエネルギを推定する推定器を含むのが好ましく、チャネルエネルギ補償器は結合マルチチャネル合成の推定エネルギと推定入力チャネルエネルギとに基づきチャネルエネルギ補償を適用するように構成される。
特定の例において、第1のデコーダ230はダウンミックスデコーダであり、第2のデコーダ240は予測チャネルを合成するように構成されたパラメトリックデコーダであり、残差デコーダ260は残差予測誤差信号を生成するように構成される。この例示的な状況では第2のデコーダ240は、オーディオ入力チャネルのエネルギ表現を受信ビットストリームの第2の部分から導出する(又はそのように構成された)導出器241と、エネルギ表現に少なくとも部分的に基づきチャネル予測パラメータを推定する推定器と、復号化ダウンミックス信号と推定チャネル予測パラメータとに基づき予測チャネルを合成する合成器とを含んでもよい。
予測ベースの復号化及び残差復号化と組み合わされたダウンミックス復号化の例示的な状況に対して3つの異なる例示的な実現例を以下にまとめる。更なる詳細は後述する。
例A
本例において導出器241は、チャネルエネルギレベル差とデルタエネルギ測度とを受信ビットストリームの第2の部分から導出するように構成される。入力チャネルエネルギを推定する推定器242は、復号化ダウンミックス信号の推定エネルギと、チャネルエネルギレベル差と、デルタエネルギ測度とに基づき入力チャネルエネルギを推定するように構成される。チャネル予測パラメータを推定する推定器は、推定入力チャネルエネルギと、復号化ダウンミックス信号の推定エネルギと、残差誤差信号の推定エネルギとに基づきチャネル予測パラメータを推定するように構成されるのが好ましい。
例B
本例において導出器241は、チャネルエネルギレベル差と正規化エネルギ補償パラメータとを前記受信ビットストリームの第2の部分から導出するように構成される。入力チャネルエネルギを推定する推定器242は、復号化ダウンミックス信号の推定エネルギと、チャネルエネルギレベル差と、正規化エネルギ補償パラメータとに基づき入力チャネルエネルギを推定するように構成される。チャネル予測パラメータを推定する推定器は、チャネルエネルギレベル差に基づきチャネル予測パラメータを推定するように構成され、予測チャネルを合成する合成器は、復号化ダウンミックス信号と推定チャネル予測パラメータとに基づき予測チャネルを合成するように構成される。本例において、結合及びチャネルエネルギ補償を行う手段270は、残差誤差信号と合成予測チャネルとを結合して結合マルチチャネル合成にする結合器と、チャネルエネルギ補償器とを含む。チャネルエネルギ補償器は、結合マルチチャネル合成のエネルギを推定する推定器と、推定入力チャネルエネルギと結合マルチチャネル合成の推定エネルギとに基づきエネルギ補正係数を決定する決定器と、エネルギ補正係数を結合マルチチャネル合成に適用してマルチチャネルオーディオ信号を生成するエネルギ補正器とを含む。
例C
本例において導出器241は、チャネルエネルギレベル差とエネルギ正規化入力チャネル相互相関パラメータとを受信ビットストリームの第2の部分から導出するように構成される。入力チャネルエネルギを推定する推定器242は、復号化ダウンミックス信号の推定エネルギと、チャネルエネルギレベル差と、エネルギ正規化入力チャネル相互相関パラメータとに基づき入力チャネルエネルギを推定するように構成される。チャネル予測パラメータを推定する推定器は、チャネルエネルギレベル差とエネルギ正規化入力チャネル相互相関パラメータとに基づきチャネル予測パラメータを推定するように構成されるのが好ましい。予測チャネルを合成する合成器は、復号化ダウンミックス信号と推定チャネル予測パラメータとに基づき予測チャネルを合成するように構成される。本例において、結合及びチャネルエネルギ補償を行う手段270は、残差誤差信号と合成予測チャネルとを結合して結合マルチチャネル合成にする結合器と、チャネルエネルギ補償器とを含む。本例においてチャネルエネルギ補償器は、結合マルチチャネル合成のエネルギを推定する推定器と、推定入力チャネルエネルギと結合マルチチャネル合成の推定エネルギとに基づきエネルギ補正係数を決定する決定器と、エネルギ補正係数を結合マルチチャネル合成に適用してマルチチャネルオーディオ信号を生成するエネルギ補正器とを含む。
特定の例において、本発明は以下の2つの問題の内少なくとも1つ、好ましくは2つを解決することを目的とする。すなわち、最適なチャネル予測を得ること及び出力チャネルエネルギに対して明示的な制御を維持することである。信号成分を単純に加算するとエネルギ及び品質全体の点から不安定な印象になってしまうように、信号成分はエネルギ及び品質において個別の経時変動を示すかもしれない。エネルギ及び品質の変動には種々の理由があるが、この内いくつかを下記に示す。
・送信条件により信号成分が失われるか又は劣化する。
・損失エネルギはデコーダで回復されることが既知であるため、信号成分がエンコーダで故意に減衰される。そのような減衰は、例えば知覚重要性に基づいてもよい。
・信号の一部を表現するエンコーダ全体に対する制限があるため、信号の一部が失われる可能性がある。例えばビットレートやモデル化能力の制限のため、信号の一部がエンコーダ全体の範囲外になるかもしれない。一般的な観点から見ると、個別のエンコーダ及び関連したデコーダの処理の各々は、真の入力信号が投影される部分空間を表現している。最終残差又は符号化誤差は、エンコーダ及びデコーダ全体を表現する部分空間の合体に直交している。最終残差はこれらの部分空間では表現できないが、入力エネルギと受信部分空間成分のエネルギとが分かるか又は少なくとも推定できればそのエネルギは推定し補償できる。
これらの問題や他の問題に対する効率的な解決策は、例えば上述のように異なる成分の起こり得るエネルギ及び品質変動に対してロバスト性を有するようにエネルギと予測パラメータとの双方を一緒に表現して符号化することにより実現してもよい。
本発明は、一般に符号化手順全体と関連した復号化手順とに関する。符号化手順は、オーディオ入力チャネル群の信号表現に作用する少なくとも2つの信号符号化処理を含む。それは入力チャネルのエネルギを推定する専用プロセスも含む。本発明の基本概念は、第1の符号化処理に関連して局所合成を使用し、第1の符号化処理の符号化誤差の表現を含む局所復号化信号を生成し、この局所復号化信号を入力として第2の符号化処理に適用することである。符号化処理の流れは、符号化処理全体の改良ステップ又は信号の異なる特性の取り込みとみなすことができる。
例えば、第1の符号化処理はモノラル符号化処理又はより一般的にはダウンミックスエンコーダ等の主符号化処理であり、第2の符号化処理はステレオ符号化処理又は一般的なパラメトリック符号化処理等の補助符号化処理である。符号化手順全体は少なくとも2つ(多重)のオーディオ入力チャネルで動作し、より複雑なマルチチャネル符号化に加えてステレオ符号化を含む。
各符号化処理は復号化処理に関連付けられる。復号化手順全体において、出力チャネルがエネルギ及び品質の双方の点で入力チャネルに近づくように各符号化処理からの復号化信号を結合するのが好ましい。通常、エネルギ及び品質がデコーダにある信号で最適化されるように結合ステップは部分的に又は全体的に1つ以上の信号表現の起こり得る損失にも適合する。結合ステップにおいて、より高品質な信号がより低品質な信号よりも高い割合で表現されて出力チャネルの品質全体を向上するように信号成分の品質を考慮してもよい。
構造又は実現性の観点から、本発明はエンコーダ及び関連したデコーダに関する。エンコーダ全体は、入力チャネルの異なる表現を符号化するための少なくとも2つのエンコーダを基本的に具備する。第1のエンコーダに関連した局所合成は局所復号化信号を生成し、この局所復号化信号は入力として第2のエンコーダに適用される。エンコーダ全体は、入力チャネルのエネルギ表現も生成する。デコーダ全体は、エンコーダでの各符号化手順に関連した符号化手順を含む。更にデコーダは、復号化成分を安定したエネルギ及び品質と結合する結合ステップを含み、1つ以上の復号化信号の起こり得る部分又は総損失に直面する。
・本発明は以下の2つの問題の内少なくとも1つ、好ましくは2つを解決することを目的とする。すなわち、最適なチャネル予測を得ること及び出力チャネルエネルギに対して明示的な制御を維持することである。信号成分を単純に加算するとエネルギ及び品質全体の点から不安定な印象になってしまうように、信号の成分はエネルギ及び品質において個別の経時変動を示すかもしれない。
これらの問題や他の問題に対する解決策は、例えば異なる成分の起こり得るエネルギ及び品質変動に対してロバスト性を有するようにエネルギと予測パラメータとの双方を一緒に表現して符号化することにより実現してもよい。
以下、エネルギ保存を得る異なる方法の非限定例、すなわち実施形態A、B及びCを示す。これらの実施形態は単なる例であることを理解すべきである。例えば、これらの実施形態ではステレオアプリケーションに主に焦点を当てているが、3つ以上のオーディオチャネルを含むアプリケーションに対して一般化してもよい。これらの実施形態の共通点は、残差符号化において変動分解能で合成エネルギを保存することである。例示的な実施形態のいくつかの差異は更に後述する。
例示的なステレオの場合の概要を図7に示す。第1のステップS21において、エンコーダは入力信号に対してダウンミックスを行い、それをモノラルエンコーダに送り、ステップS22において局所復号化ダウンミックス信号を抽出する。ステップS23において、エンコーダは入力チャネルエネルギを推定して復号化する。次にステップS24において、チャネル予測パラメータが導出される。ステップS25において、予測/パラメトリックステレオの局所合成が作成され、入力信号から減算され、ステップS26において好適な方法で符号化される予測/パラメトリック残差を形成する。ステップS27において更なる符号化ステージが可能ならば、更に繰返し改良ステップを採用してもよい。これは、局所合成を行い、符号化予測残差を前回の繰返しからの予測残差から減算し、現在の繰返しの新しい残差を符号化することによりステップS28で実行される。図7に示す例示的なエンコーダ処理は、全ての実施形態A、B及びCで有効な概要を構成する。しかし、更に説明するように、図7に概要を示したステップの根底にある詳細は各実施形態で異なる。
例示的なデコーダは、エンコーダでの局所復号化ダウンミックス信号と同一の復号化ダウンミックス信号を再構成する。入力チャネルエネルギは、符号化エネルギ表現と共に復号化ダウンミックス信号を使用して推定される。チャネル予測パラメータが導出される。デコーダは更に合成信号のエネルギを分析し、これらのエネルギを推定入力チャネルエネルギに調節する。実施形態Aで説明するように、このステップはチャネル予測ステップに含まれてもよい。更に、より低品質の成分がより高品質の成分に対して抑制されるようにエネルギ調整処理は信号成分の品質を考慮してもよい。
非特許文献5に関して記したように、本発明を1チャネル当りの多重成分を可能にする予測ベースのアップミックスとみなしてもよく、更にエネルギベースアップミックスのエネルギ保存特性を有する。
用語「アップミックス」はMPEGサラウンドの文脈で一般に使用されるが、表現「チャネル予測」及び「パラメトリックマルチチャネル合成」と同義で以下に使用される。
符号化/復号化はフレーム単位で行わることが多いが、種々の大きさのフレームに対してビット割当てと符号化/復号化とを行うことができ、信号適応的最適化フレーム処理を可能にする。
以下の実施形態は単に例として挙げるのであり、本発明がこれらに限定されるものではないことを理解すべきである。
実施形態A
本非限定例において、エンコーダ及びデコーダはステレオ入力及び出力信号でそれぞれ動作する。本実施形態の概要を図9Aに示す。図9Aのエンコーダは、ステレオ入力信号からモノラル信号を作成するダウンミキサと、ダウンミックス信号を符号化して局所復号化ダウンミックス合成を生成するモノラルエンコーダとを基本的に含む。更にエンコーダは、局所復号化ダウンミックス信号を使用して入力ステレオチャネルの第1の表現を作成し、また入力チャネルエネルギを推定し、エネルギ表現を作成し、デコーダで使用されるこの表現を符号化するパラメトリックステレオエンコーダを含む。エンコーダは、残差エンコーダで符号化されるステレオ予測残差も作成する。図9Aのデコーダは、エンコーダの局所復号化ダウンミックス信号に対応する復号化ダウンミックス信号を作成するモノラルデコーダを含む。デコーダは、符号化ステレオ予測残差を復号化する残差デコーダも含む。最後に、デコーダはエネルギ測定部とパラメトリックステレオデコーダとを含む。
図8は、フローチャート形式でデコーダの動作を説明する。第1のステップS31においてモノラル復号化を行い、ステップS32において残差復号化を行う。ステップS33は残差信号エネルギのエネルギ測定を含む。ステップS34において統合エネルギ補償と共にパラメトリックステレオ合成を行い、ステップS35において復号化残差とパラメトリックステレオ合成との連結を行う。実施形態Aのエネルギ符号化及び復号化とチャネル予測とを更に詳細に説明する。
(エネルギ符号化及び復号化 − 実施形態A)
エネルギ符号化のために、まず入力チャネルエネルギを定義する。
ここでは、フレームインデクスmの周波数帯域bに対する入力チャネルのサンプル当りのエネルギを、
Figure 0005608660
で表す。
Figure 0005608660
エネルギ測定の実際の実現例では、帯域幅正規化は1つの帯域における全てのエネルギパラメータで等しいため省略できる。
左右チャネルのエネルギ差は知覚的に重要である(非特許文献2)。エネルギバランスに対する明示的な制御を得るために、チャネルレベル差(CLD)及びチャネルレベル和(CLS)を形成する。
Figure 0005608660
CLDのDb(m)は、CLD感度の知覚測度を考慮するコードブックを使用して対数領域で量子化するのが好ましい。CLSのSb(m)はダウンミックス信号
Figure 0005608660
のエネルギと強い相関を示す。復号化ダウンミックス信号はステレオデコーダで利用可能なため、この信号に対して以下のようにデルタエネルギ測度を形成する。
Figure 0005608660
更に、図6に例示するように、SとDは従属変数である。Dの値が大きいほどSの分布は狭くなり、異なるコードブックをCLDに応じて選択してもよい。CLDの極値に対してCLSは1つのチャネルに支配され、ゼロビットを使用した定数に設定できる。例えば、
Figure 0005608660
と仮定すると、
Figure 0005608660
となる。大きいCLDに対してCLSは4の値に収束し、これは図6で観察できる6dBレベルに対応する。6dB値からの偏差はモノラルダウンミックス信号における符号化雑音によるものである。左側のチャネルエネルギは、ダウンミックス係数が1/2であるためモノラルエネルギよりも低い単なる6dBである。この依存性を利用してCLSを量子化CLDに応じて異なる分解能で符号化する。CLSはエネルギ関係を表すため、このパラメータを対数領域で量子化する。
チャネルエネルギ[σb,L(m) σb,R(m)]Tは、変数Db(m)、ΔSb(m)及び
Figure 0005608660
を使用して、以下のように表現できる。
Figure 0005608660
デコーダでは量子化パラメータ^Db(m)及びΔ^Sb(m)を使用して推定チャネルエネルギ^σb 2を以下のように導出する。
Figure 0005608660
(チャネル予測 − 実施形態A)
エンコーダで使用されるチャネル予測パラメータw'b(m)は量子化せず、これにより予測残差が最小であることを保証する。予測パラメータの量子化からの誤差は予測残差に転送されない。
エネルギが符号化され、符号化ダウンミックス信号と共にデコーダに転送されたとすると、チャネル予測パラメータはエネルギから推定できる。完全ステレオ合成は以下のように表現できる。
Figure 0005608660
ただし、
Figure 0005608660
は、フレームインデクスmの帯域bの周波数ビンkの量子化残差信号、^wb(m)はチャネル予測係数である。対応するチャネルエネルギは以下の通りである。
Figure 0005608660
高レート仮定の下で予測誤差εは以下のように予測信号と無相関になる。
Figure 0005608660
この仮定を使用し、真の合成エネルギ
Figure 0005608660
を量子化近似
Figure 0005608660
で代替することにより^wについて上記の式を解く。
Figure 0005608660
なお、平方根の符号はエンコーダでは不明であり符号化される必要がある。しかし、典型的な入力に対して予測パラメータは範囲[0,2]内にあり、正符号はほとんどの信号に対して問題なく動作すると仮定する。この切捨ては、予測係数の1つを[0,2]に限定し、式(14)を使用して他の係数を得ることで達成できる。符号を符号化したい場合、負符号を有するチャネルはせいぜい1つであるという事実を単純な可変長コードを使用して利用する。
Figure 0005608660
表1:チャネル予測係数の符号を符号化する可変長コードブック。これは、同一帯域で2つの符号が負になることはないという事実に加え、2つの正符号の確率が高いことを利用する。
本実施形態を利用し、出力チャネルエネルギはチャネル予測係数を使用して補正される。復号化残差信号が真の残差に近ければ、チャネル予測係数はエンコーダで使用される最適予測係数に近くなる。例えば、低ビットレート符号化のために残差符号化エネルギが真の残差エネルギより低ければ、パラメトリックステレオからの寄与率を増加しエネルギ損失を補償する。残差符号化がゼロならば、アルゴリズムは本質的にデフォルトのインテンシティステレオ符号化になる。
実施形態B
第2の非限定例において、エンコーダ及びデコーダはステレオ信号で動作する。本実施形態の概要を図9Bに示し、ここで図9Bのエンコーダは、ステレオ入力信号からモノラル信号を作成するダウンミキサと、ダウンミックス信号を符号化して局所復号化ダウンミックス合成を生成するモノラルエンコーダとを基本的に含む。更にエンコーダは、局所復号化ダウンミックス信号を使用して入力ステレオチャネルの第1の表現を作成し、また入力チャネルエネルギを推定し、エネルギ表現を作成し、デコーダで使用されるこの表現を符号化するパラメトリックステレオエンコーダを含む。エンコーダは、残差エンコーダで符号化されるステレオ予測残差も作成する。図9Bのデコーダは、エンコーダの局所復号化ダウンミックス信号に対応する復号化ダウンミックス信号を作成するモノラルデコーダを含む。デコーダは、符号化ステレオ予測残差を復号化する残差デコーダも含む。更にデコーダは、パラメトリックステレオデコーダと、結合信号合成で動作するエネルギ測定部と、結合ステレオ合成を修正して最終ステレオ合成を作成するエネルギ補正部とを含む。図10のフローチャートはデコーダ動作のステップを記述する。ステップS41においてモノラル復号化を行い、その後ステップS42においてパラメトリックステレオ合成を行い、ステップS43においてステレオ残差復号化を行う。ステップS44において残差及びパラメトリックステレオ合成を連結し、ステップS45において結合合成エネルギを測定する。最後に、ステップS46は結合合成のエネルギ調整を含む。実施形態Bのエネルギ符号化及び復号化とチャネル予測とを更に詳細に説明する。
(エネルギ符号化及び復号化 − 実施形態B)
エネルギを符号化するオプションの戦略が導出できる。CLDのDb(m)は上述のように導出する。次に、CLDはチャネル予測係数の関係を与える残差符号化せずに予測ステレオ寄与率に保存すべきであると仮定する。
Figure 0005608660
式(14)を使用して、チャネル予測係数をCLDから以下のように計算できる。
Figure 0005608660
合成ステレオ信号の共通スケーリング係数Cb(m)はCDLに影響しない。残差符号化がないと再度仮定すれば、このスケーリング係数を合成に加えることで合成信号エネルギを一致させる。
Figure 0005608660
左又は右チャネルのいずれかを使用してCb(m)について式(26)は以下のように解ける。
Figure 0005608660
これら2つの式からは同一のCb(m)が得られる。より高い数値精度を与えるより高いエネルギチャネルの使用を選択する。
式(26)及び式(19)は入力チャネルエネルギに対して2つの表現を提供する。等式の右辺をとり、それらを等しく設定すると以下が得られる。
Figure 0005608660
上記式より以下を同定する。
Figure 0005608660
ただし、分母
Figure 0005608660
は、モノラルエネルギで正規化された予測チャネルのエネルギ和に等しい。この結果、このエネルギ表現は第1の表現と同等であり、CLSパラメータΔSb(m)及びCb 2(m)の正規化という点のみが異なる。CLDは実施形態Aのように符号化される。正規化エネルギ補償パラメータとも呼ばれるエネルギ補償パラメータCb 2(m)は、ΔSb(m)のように対数領域でも量子化されるが、スケーリングの違いにより異なるコードブック(実際には異なる対数値オフセット)を使用する。
デコーダは、近似チャネルエネルギ
Figure 0005608660
を、受信パラメータ^Cb 2(m)及び^Db(m)と測定された復号化モノラルエネルギ
Figure 0005608660
とから、以下のように導出する。
Figure 0005608660
(チャネル予測 − 実施形態B)
別の方式ではエンコーダで使用されるチャネル予測係数は量子化CLDから以下のように導出される。
Figure 0005608660
この場合、同一のチャネル予測係数がエンコーダとデコーダとで使用される。これにより予測チャネルと残差符号化との間の正しい一致が保証される。
(デコーダエネルギ補償 − 実施形態B)
残差符号化がないと仮定して
Figure 0005608660
を導出したので、残差符号化エネルギがデコーダで存在した場合にそれを補償しなければならない。まず、非拡縮ステレオ合成を以下のように行う。
Figure 0005608660
なお、異なる予測計数をエンコーダで使用したため、符号化残差
Figure 0005608660
は式(20)中の
Figure 0005608660
とは異なる。最終合成は、近似チャネルエネルギを復元するエネルギ補正係数を適用することにより以下のように生成される。
Figure 0005608660
残差符号化がゼロならば、エネルギ補正係数は1と評価される。この方法では、利用可能なビットレートが限定されている場合に高速仮定が保持されておらず且つ残差符号化が予測チャネルとの相関を示すという事実も補償する。
実施形態C
第3の非限定例もステレオエンコーダ及びデコーダの実施形態である。本実施形態の概要を図9Cに示し、ここで図9Cのエンコーダは、ステレオ入力信号からモノラル信号を作成するダウンミキサと、ダウンミックス信号を符号化して局所復号化ダウンミックス合成を生成するモノラルエンコーダとを基本的に含む。更にエンコーダは、局所復号化ダウンミックス信号を使用して入力ステレオチャネルの第1の表現を作成し、また入力チャネルエネルギを推定し、エネルギ表現を作成し、デコーダで使用されるこの表現を符号化するパラメトリックステレオエンコーダを含む。エンコーダは、残差エンコーダで符号化されるステレオ予測残差も作成する。図9Cのデコーダは、エンコーダの局所復号化ダウンミックス信号に対応する復号化ダウンミックス信号を作成するモノラルデコーダを含む。デコーダは、符号化ステレオ予測残差を復号化する残差デコーダも含む。更にデコーダは、パラメトリックステレオデコーダと、結合ステレオ合成で動作するエネルギ測定部と、結合ステレオ合成を修正して最終ステレオ合成を作成するエネルギ補正部とを含む。概要の観点から実施形態Cのデコーダ動作は実施形態Bのデコーダと同様であり、図10は2つの例のデコーダのステップを正確に記述する。実施形態Cのエネルギ符号化及び復号化とチャネル予測とを更に詳細に説明する。
(エネルギ符号化及び復号化 − 実施形態C)
式(12)及び式(13)よりチャネル予測係数は正規化相互相関という1つの項を共有するが、これはエネルギ正規化入力チャネル相互相関とも呼ばれ、以下のようにρと定義される。
Figure 0005608660
式(17)からのDb(m)の定義を使用して、代替チャネルエネルギ表現が以下のように形成できる。
Figure 0005608660
これは直線式に書き換えることができ、ρの増加に比例してエネルギが減少することを示す。
Figure 0005608660
モノラル符号化でエネルギが保存される、すなわち、
Figure 0005608660
と仮定すると、デコーダでの推定チャネルエネルギは以下のように表現できる。
Figure 0005608660
この方法により量子化CLD ^Db(m)は保存されることが保証されるが、^ρb(m)中の量子化雑音及び符号化モノラル^Mb(m,k)のためにエネルギが多少不安定になる。エネルギの急増はエネルギ損失よりも知覚的に不快であることが経験的に知られている。デコーダでエネルギを過大に推定しないようエンコーダでρの量子化を制約することによりこれに対処できる。
Figure 0005608660
Figure 0005608660
で示される制約で、式(33)からρb(m)に可能な限り近接する^ρb(m)を選択する。いずれのチャネルでもエネルギが過大に推定されることはない、すなわち式(37)の2つの条件を満たすことが保証される。ほぼ無音中のエネルギバーストは知覚的により不快なため、より低エネルギのチャネルでエネルギが過大に推定されることはないことを確認する他の戦略もある。式(35)よりρの増加に伴いエネルギ推定値が減少することが分かり、これは初期値が
Figure 0005608660
を満たさないならば式(33)で与えられる値で検索を開始しインクリメンタルサーチを行えることを意味する。モノラル符号化でエネルギ損失があるならば、
Figure 0005608660
を最小にするより小さなρを検索したいかもしれないが、これはチャネル予測パラメータに悪影響がある。変動するρを使用したチャネル予測への効果は更に後述する。
(チャネル予測 − 実施形態C)
ρとDとを使用して、MMSE最適チャネル予測係数は以下のように表現できる。
Figure 0005608660
同一の入力チャネルチャネルエネルギD=1の場合、チャネル予測係数はρとは無関係になる。図11において、チャネル予測パラメータは増加するρに対して中間に移動する。この結果、ρがわずかに増加してもチャネル漏洩はわずかに増加するのみでCLDは依然として保存されるという予測が得られるため、式(37)で概略が示された方法はチャネル予測パラメータに対して安全である。
更に非常に大きい負のρの場合、チャネル予測係数はDの影響を受けない。最小ビットレートでの歪みを小さくするためにこれらの変数間の依存性を利用できる。
符号化された^Db(m)と^ρb(m)とを仮定すると、エンコーダチャネル予測係数は以下のように導出される。
Figure 0005608660
実施形態Bのように同一のチャネル予測係数がエンコーダとデコーダの双方で使用される。実施形態Bとの違いは量子化MMSE最適チャネル予測係数を使用したことである。更に実施形態Bのように復号化残差と予測チャネルとの間のエネルギ関係が保存される。
(デコーダエネルギ補償 − 実施形態C)
実施形態Bのように予測符号化成分と残差符号化成分とを連結した後、出力チャネルエネルギが補正される。異なるパラメータがチャネル予測とエネルギ推定とで使用されるという点を除き、図10のデコーダフローチャートの記述全体は実施形態Cにも有効である。実施形態Cでは上述のように図9Cのブロック図を参照する。
実施形態A〜Cの相違点
上述の例示的な実施形態A、B、Cでは、合成ステレオ音声でCLDを表現する際に同一の正確さを付与していた。また残差符号化がない場合、これらの実施形態では同等の挙動となり、この場合デフォルトのインテンシティ・ステレオアルゴリズムになる。主な相違はチャネル予測パラメータがエンコーダで使用され、これらがデコーダでどのように導出されるかである。好適な実施形態は、種々のパラメータ、例えば利用可能なビットレートや符号化及び空間情報に対する入力信号の複雑さ等に応じて異なる。
実施形態Aにおいては、最適非量子化チャネル予測係数がエンコーダで使用される。ビットレートが高く、残差符号化が完全再構成に近づくならば、デコーダで使用されるチャネル予測係数は同一である。中間ビットレートではステレオの予測部分のみが拡大されることで残差のエネルギ損失を補償する。低ビットレート残差符号化等のために残差符号化が予測ステレオ成分より雑音が多ければ、高い比率で予測ステレオを使用することが望ましい。
実施形態Bにおいては、量子化チャネル予測係数がエンコーダで使用される。この予測はMMSEの意味では最適ではないが、予測信号及び符号化残差信号の拡張が一致することを保証する。モノラル信号の符号化誤差が支配的であり、残差が主にこの誤差を補正する場合、このことは重要である。
実施形態Cの利点は、チャネルエネルギ及びチャネル予測係数の双方のコンパクトな表現を付与することである。パラメータは符号化に利用可能な依存性を示す。モノラル符号化がモノラル信号のエネルギを保存するものでないならば、エネルギ増加に対する追加的な予防策を追加でき、パラメトリックステレオ予測性能への影響は予測可能である。
これらの戦略の内で最も有益なものは、利用可能なビットレート及び典型的な入力信号の観点から状況に応じる。しかし、G.718へのSWB/ステレオ拡張については実施形態Bが好適な結果をもたらしているが見出された。異なる周波数帯域に異なるアルゴリズムを使用することでこれらの方法は組み合わせることもできる。そのような組み合わせは適応的に行われ、この場合選択された戦略をデコーダに伝達する必要がある。既にデコーダに送信されたパラメータを使用して戦略が選択されるならば、追加的な伝達をせずに行うこともできる。
他の符号化方式も上述の方法と組み合わせ可能である。
本発明は、ステレオ画像知覚に対して重要なチャネルエネルギレベルを維持しながらスケーラビリティを達成する。残差符号化がない場合、システムはデフォルトのインテンシティ・ステレオアルゴリズムになる。残差符号化が増大するほど、チャネルエネルギとステレオ画像安定性を維持しながら合成出力は完全再構成へ拡張する。
ABリスニングテスト評価
一例として、例示的な方法Bをテストした。比較の基準としては、2.2kHz〜7.0kHzの範囲でCLDベースのチャネル予測(インテンシティステレオ)を使用した。2.2kHz未満に適用される方法についてはテストした候補に対しては同一であった。図12は票決のヒストグラムを示し、本発明に対する好みを表している。
オーディオ試料は、AMR−WB+選択テスト試料から抽出された7つのオーディオクリップである。
上述のように、本発明の原理は入力チャネル及び出力チャネルが3つ以上あるマルチチャネルシナリオにも適用可能である。
以下、p個の入力チャネルで動作する例示的なマルチチャネル実施形態の概要を最後に示す。
入力信号は、pチャネルを有する多重チャネル信号
Figure 0005608660
であるとする。エンコーダは、qチャネルのダウンミックス信号
Figure 0005608660
を作成する。ただし、p>qである。ダウンミックスの特性は、原マルチチャネル信号のチャネルとチャネルエネルギ及びチャネル予測係数の表現を効率化するのに利用できるダウンミックス信号のチャネルとの間の依存性を生成できる。そのようなマルチチャネルダウンミックスは、従来技術である非特許文献5に見られるようにマルチステージで行うことができる。対毎のチャネル結合が行われたならば、ステレオ実施形態からの原理を適用することができる。ダウンミックス信号はqチャネルで動作する第1ステージのエンコーダに送られ、局所復号化ダウンミックス信号
Figure 0005608660
がこの処理から抽出される。この信号はマルチチャネル予測又はアップミックスステップで使用され、入力マルチチャネル信号に対する第1の近似
Figure 0005608660
を作成する。この近似は原入力信号から減算されて、マルチチャネル予測残差又はパラメトリック残差を形成する。この残差は第2の符号化ステージに送られる。必要に応じて局所復号化残差信号を抽出して原残差信号から減算し、第2ステージの残差信号を作成できる。この符号化処理を繰り返し、原入力信号へ収束する更なる改良を提供するか又は信号の異なる特性を捕捉することができる。符号化予測、エネルギ及び残差パラメータはデコーダで使用されるように送信されるか又は記憶される。符号化処理の一例の概要を図13に示す。
例示的な実施形態において、デコーダ全体はエンコーダでの局所復号化ダウンミックス信号に対応するダウンミックス信号を復号化する。1つ又は複数の符号化残差は復号化される。送信済み予測及びエネルギパラメータを使用して、第1ステージのマルチチャネル予測又はアップミックスが行われる。マルチチャネル予測はエンコーダのマルチチャネル予測と異なっていてもよい。デコーダは、復号化ダウンミックス信号、予測マルチチャネル信号及び1つ又は複数の残差信号等の受信復号化信号のエネルギを測定する。入力チャネルエネルギのエネルギ推定値が計算され、復号化信号成分を結合してマルチチャネル出力信号とするのに使用される。図14及び図15に例示するように予測ステージの前にエネルギを測定してもよく、出力エネルギを予測と一緒に制御できる。図16及び図17に例示するように信号成分を連結した後にエネルギを測定し、最終ステージにおいて連結成分上で調整してもよい。
上述の実施形態は例示にすぎないものであり、本発明を限定するものではないことを理解すべきである。ここに開示され請求の範囲に記載された根底にある基本原理を保持する更なる変形、変更及び改良も、本発明の範囲に含まれるものである。
(略語)
AAC (Advanced Audio Coding):アドバンストオーディオ符号化
AAC-BSAC (Advanced Audio Coding - Bit-Sliced Arithmetic Coding):アドバンストオーディオ符号化−ビットスライス算術符号化
AMR (Adaptive Multi-Rate):適応マルチレート
AMR-WB (Adaptive Multi-Rate Wide Band):適応マルチレート広帯域
AOT (Audio Object Type):オーディオ・オブジェクトタイプ
BCC (Binaural cue coding):バイノーラルキュー符号化(非特許文献2)
BMLD (Binaural masking level difference):両耳マスキングレベル差
CELP (Code Excited Linear Prediction):符号励振線形予測
CfI (Call for Information):コールフォーインフォメーション
CLD (Channel level difference):チャネルレベル差
CLS (Channel level sum):チャネルレベル和
EV (Embedded VBR (Variable Bit Rate)):エンベデッドVBR(可変ビットレート)
ICC (Inter-channel correlation):チャネル間相関
ICP (Inter-channel prediction):チャネル間予測
ITU (International Telecommunication Union):国際電気通信連合
LSB (Least Significant Bit):最下位ビット
MDCT (Modified discrete cosine transform):変形離散コサイン変換
MDST (Modified discrete sinusoid transform):変形離散サイン変換
MMSE (Minimum mean squared error):最小平均二乗誤差
MPEG (Moving Picture Experts Group):動画像圧縮方式の標準化作業グループ
MPEG-SLS (MPEG-Scalable to Lossless):MPEG−スケーラブルロスレス
MSB (Most Significant Bit):最上位ビット
MSE (Mean Squared Error):平均二乗誤差
NB (Narrow Band (8 kHz samplerate)):狭帯域(8kHzサンプリングレート)
SNR (Signal-to-noise ratio):信号対雑音比
SWB (Super Wide Band (32 kHz samplerate)):超広帯域(32kHzサンプリングレート)
PS (Parametric Stereo):パラメトリックステレオ
VMR-WB (Variable Multi Rate-Wide Band):可変マルチレート広帯域
VoIP (Voice over Internet Protocol):ボイスオーバーインターネットプロトコル
WB (Wide Band (16 kHz samplerate)):広帯域(16kHzサンプリングレート)
xDSL (x Digital Subscriber Line):xデジタル加入者回線

Claims (28)

  1. 少なくとも2つのチャネルを有するマルチチャネルオーディオ信号のオーディオ入力チャネル群の信号表現に作用する符号化手順全体に基づくオーディオ符号化方法であって、
    前記オーディオ入力チャネル群のダウンミックス信号を含む第1の信号表現を符号化するための第1の符号化処理を行うステップ(S1)と、
    前記第1の符号化処理に関連して局所合成が行われ、前記第1の符号化処理の符号化誤差の表現を含む局所復号化ダウンミックス信号を生成するステップ(S2)と、
    少なくとも前記局所復号化ダウンミックス信号を入力として使用し、前記オーディオ入力チャネル群の第2の表現を符号化するための第2の符号化処理を行うステップ(S3)と、
    前記オーディオ入力チャネル群の入力チャネルエネルギを推定するステップ(S4)と、
    前記オーディオ入力チャネル群の推定入力チャネルエネルギに基づいて、前記オーディオ入力チャネル群の少なくとも1つのエネルギ表現を生成するステップ(S5)と、
    前記少なくとも1つのエネルギ表現を符号化するステップ(S6)と、
    少なくとも前記第2の符号化処理を含む前記複数の符号化処理の少なくとも1つから残差誤差信号を生成するステップ(S7)と、
    第3の符号化処理において前記残差誤差信号の残差符号化を行うステップ(S8)と、
    を有し、
    前記少なくとも1つのエネルギ表現を生成するステップ(S5)は、復号化側の出力チャネルのエネルギと前記推定入力チャネルエネルギとの整合が可能となるように、前記少なくとも1つのエネルギ表現を生成し、
    前記第1の符号化処理は、ダウンミックス符号化処理であり、
    前記第2の符号化処理は、少なくとも1つの予測チャネルを生成するチャネル予測に基づくものであり、
    前記残差誤差信号を生成するステップ(S7)は、残差予測誤差信号を生成するステップを含み、
    前記少なくとも1つのエネルギ表現を生成するステップ(S5)は、
    チャネルエネルギレベル差を決定するステップと、
    チャネルエネルギレベル和を決定するステップと、
    前記第1の符号化処理に関連して前記チャネルエネルギレベル和と前記局所合成からの前記局所復号化ダウンミックス信号のエネルギとに基づきデルタエネルギ測度を決定するステップと、
    を含み、
    前記少なくとも1つのエネルギ表現を符号化するステップ(S6)は、
    前記チャネルエネルギレベル差を量子化するステップと、
    前記デルタエネルギ測度を量子化するステップと、
    を含むことを特徴とするオーディオ符号化方法。
  2. 前記少なくとも1つのエネルギ表現を生成するステップ(S5)は、エネルギ及び品質の双方の点で、出力チャネルと入力チャネルとの整合が可能となるように、前記少なくとも1つのエネルギ表現を生成することを特徴とする請求項1に記載のオーディオ符号化方法。
  3. 前記少なくとも1つのエネルギ表現を生成するステップ(S5)及び前記少なくとも1つのエネルギ表現を符号化するステップ(S6)は、前記第2の符号化処理において実行されることを特徴とする請求項1に記載のオーディオ符号化方法。
  4. 前記少なくとも1つのエネルギ表現を生成するステップ(S5)及び前記少なくとも1つのエネルギ表現を符号化するステップ(S6)は、少なくとも1つの周波数帯域における複数フレームの各々に対して実行されることを特徴とする請求項に記載のオーディオ符号化方法。
  5. 前記推定入力チャネルエネルギ及び前記チャネル予測の予測パラメータは、前記第2の符号化処理において、一緒に表現され符号化されることを特徴とする請求項1に記載のオーディオ符号化方法。
  6. 前記チャネル予測は、非量子化チャネル予測パラメータに基づくものであることを特徴とする請求項1に記載のオーディオ符号化方法。
  7. 少なくとも2つのチャネルを有するマルチチャネルオーディオ信号のオーディオ入力チャネル群の信号表現に作用する符号化手順全体に基づくオーディオ符号化方法であって、
    前記オーディオ入力チャネル群のダウンミックス信号を含む第1の信号表現を符号化するための第1の符号化処理を行うステップ(S1)と、
    前記第1の符号化処理に関連して局所合成が行われ、前記第1の符号化処理の符号化誤差の表現を含む局所復号化ダウンミックス信号を生成するステップ(S2)と、
    少なくとも前記局所復号化ダウンミックス信号を入力として使用し、前記オーディオ入力チャネル群の第2の表現を符号化するための第2の符号化処理を行うステップ(S3)と、
    前記オーディオ入力チャネル群の入力チャネルエネルギを推定するステップ(S4)と、
    前記オーディオ入力チャネル群の推定入力チャネルエネルギに基づいて、前記オーディオ入力チャネル群の少なくとも1つのエネルギ表現を生成するステップ(S5)と、
    前記少なくとも1つのエネルギ表現を符号化するステップ(S6)と、
    少なくとも前記第2の符号化処理を含む前記複数の符号化処理の少なくとも1つから残差誤差信号を生成するステップ(S7)と、
    第3の符号化処理において前記残差誤差信号の残差符号化を行うステップ(S8)と、
    を有し、
    前記少なくとも1つのエネルギ表現を生成するステップ(S5)は、復号化側の出力チャネルのエネルギと前記推定入力チャネルエネルギとの整合が可能となるように、前記少なくとも1つのエネルギ表現を生成し、
    前記第1の符号化処理は、ダウンミックス符号化処理であり、
    前記第2の符号化処理は、少なくとも1つの予測チャネルを生成するチャネル予測に基づくものであり、
    前記残差誤差信号を生成するステップ(S7)は、残差予測誤差信号を生成するステップを含み、
    前記少なくとも1つのエネルギ表現を生成するステップ(S5)は、
    チャネルエネルギレベル差を決定するステップと、
    チャネルエネルギレベル和を決定するステップと、
    前記第1の符号化処理に関連して前記チャネルエネルギレベル和と前記局所合成からの前記局所復号化ダウンミックス信号のエネルギとに基づきデルタエネルギ測度を決定するステップと、
    前記デルタエネルギ測度と前記局所復号化ダウンミックス信号のエネルギにより正規化された前記予測チャネルのエネルギとに基づき正規化エネルギ補償パラメータを決定するステップと、
    を含み、
    前記少なくとも1つのエネルギ表現を符号化するステップ(S6)は、
    前記チャネルエネルギレベル差を量子化するステップと、
    前記正規化エネルギ補償パラメータを量子化するステップと、
    を含むことを特徴とするオーディオ符号化方法。
  8. 前記チャネル予測は、量子化チャネルエネルギレベル差から導出された量子化チャネル予測パラメータに基づくものであることを特徴とする請求項に記載のオーディオ符号化方法。
  9. 少なくとも2つのチャネルを有するマルチチャネルオーディオ信号のオーディオ入力チャネル群の信号表現に作用するオーディオ符号化装置(100)であって、
    第1の符号化処理において前記オーディオ入力チャネル群のダウンミックス信号を含む第1の表現を符号化する第1のエンコーダ(130)と、
    前記第1の符号化処理に関連して局所合成を行い、前記第1の符号化処理の符号化誤差の表現を含む局所復号化ダウンミックス信号を生成する局所合成器(132)と、
    少なくとも前記局所復号化ダウンミックス信号を入力として使用し、第2の符号化処理において前記オーディオ入力チャネル群の第2の表現を符号化する第2のエンコーダ(140)と、
    前記オーディオ入力チャネル群の入力チャネルエネルギを推定するエネルギ推定器(142)と、
    前記オーディオ入力チャネル群の推定入力チャネルエネルギに基づいて、前記オーディオ入力チャネル群の少なくとも1つのエネルギ表現を生成するエネルギ表現生成器(144)と、
    前記少なくとも1つのエネルギ表現を符号化するエネルギ表現エンコーダ(146)と、
    少なくとも前記第2の符号化処理を含む前記複数の符号化処理の少なくとも1つから残差誤差信号を生成する残差生成器(155)と、
    第3の符号化処理において前記残差誤差信号の残差符号化を行う残差エンコーダ(160)と、
    を有し、
    前記エネルギ表現生成器(144)は、復号化側の出力チャネルのエネルギと推定入力チャネルエネルギとの整合が可能となるように、少なくとも1つのエネルギ表現を生成し、
    前記第1のエンコーダ(130)は、ダウンミックスエンコーダであり、
    前記第2のエンコーダ(140)は、少なくとも1つの予測チャネルを生成するチャネル予測に基づいて動作するパラメトリックエンコーダであり、
    前記残差生成器(155)は、残差予測誤差信号を生成するように構成され、
    前記エネルギ表現生成器(144)は、
    チャネルエネルギレベル差を決定する決定器と、
    チャネルエネルギレベル和を決定する決定器と、
    前記第1の符号化処理に関連して前記チャネルエネルギレベル和と前記局所合成からの前記局所復号化ダウンミックス信号のエネルギとに基づきデルタエネルギ測度を決定する決定器と、
    を含み、
    前記エネルギ表現エンコーダ(146)は、
    前記チャネルエネルギレベル差を量子化する量子化器と、
    前記デルタエネルギ測度を量子化する量子化器と、
    を含むことを特徴とするオーディオ符号化装置。
  10. 前記エネルギ表現生成器(144)は、エネルギ及び品質の双方の点で、出力チャネルと入力チャネルとの整合が可能となるように、少なくとも1つのエネルギ表現を生成することを特徴とする請求項に記載のオーディオ符号化装置。
  11. 前記エネルギ表現生成器(144)及び前記エネルギ表現エンコーダ(146)は、前記第2のエンコーダ(140)において実現されることを特徴とする請求項に記載のオーディオ符号化装置。
  12. 前記エネルギ表現生成器(144)及び前記エネルギ表現エンコーダ(146)は、少なくとも1つの周波数帯域における複数フレームの各々に対して、前記少なくとも1つのエネルギ表現を生成して符号化することを特徴とする請求項1に記載のオーディオ符号化装置。
  13. 前記第2のエンコーダ(140)は、前記推定入力チャネルエネルギと前記チャネル予測の予測パラメータとを一緒に表現して符号化することを特徴とする請求項に記載のオーディオ符号化装置。
  14. 前記第2のエンコーダ(140)は、非量子化チャネル予測パラメータに基づくチャネル予測を行うことを特徴とする請求項に記載のオーディオ符号化装置。
  15. 少なくとも2つのチャネルを有するマルチチャネルオーディオ信号のオーディオ入力チャネル群の信号表現に作用するオーディオ符号化装置(100)であって、
    第1の符号化処理において前記オーディオ入力チャネル群のダウンミックス信号を含む第1の表現を符号化する第1のエンコーダ(130)と、
    前記第1の符号化処理に関連して局所合成を行い、前記第1の符号化処理の符号化誤差の表現を含む局所復号化ダウンミックス信号を生成する局所合成器(132)と、
    少なくとも前記局所復号化ダウンミックス信号を入力として使用し、第2の符号化処理において前記オーディオ入力チャネル群の第2の表現を符号化する第2のエンコーダ(140)と、
    前記オーディオ入力チャネル群の入力チャネルエネルギを推定するエネルギ推定器(142)と、
    前記オーディオ入力チャネル群の推定入力チャネルエネルギに基づいて、前記オーディオ入力チャネル群の少なくとも1つのエネルギ表現を生成するエネルギ表現生成器(144)と、
    前記少なくとも1つのエネルギ表現を符号化するエネルギ表現エンコーダ(146)と、
    少なくとも前記第2の符号化処理を含む前記複数の符号化処理の少なくとも1つから残差誤差信号を生成する残差生成器(155)と、
    第3の符号化処理において前記残差誤差信号の残差符号化を行う残差エンコーダ(160)と、
    を有し、
    前記エネルギ表現生成器(144)は、復号化側の出力チャネルのエネルギと推定入力チャネルエネルギとの整合が可能となるように、少なくとも1つのエネルギ表現を生成し、
    前記第1のエンコーダ(130)は、ダウンミックスエンコーダであり、
    前記第2のエンコーダ(140)は、少なくとも1つの予測チャネルを生成するチャネル予測に基づいて動作するパラメトリックエンコーダであり、
    前記残差生成器(155)は、残差予測誤差信号を生成するように構成され、
    前記エネルギ表現生成器(144)は、
    チャネルエネルギレベル差を決定する決定器と、
    チャネルエネルギレベル和を決定する決定器と、
    前記第1の符号化処理に関連して前記チャネルエネルギレベル和と前記局所合成からの前記局所復号化ダウンミックス信号のエネルギとに基づきデルタエネルギ測度を決定する決定器と、
    前記デルタエネルギ測度と前記局所復号化ダウンミックス信号のエネルギにより正規化された前記予測チャネルのエネルギとに基づき正規化エネルギ補償パラメータを決定する決定器と、
    を含み、
    前記エネルギ表現エンコーダ(146)は、
    前記チャネルエネルギレベル差を量子化する量子化器と、
    前記正規化エネルギ補償パラメータを量子化する量子化器と、
    を含むことを特徴とするオーディオ符号化装置。
  16. 前記第2のエンコーダ(140)は、量子化チャネルエネルギレベル差から導出された量子化チャネル予測パラメータに基づくチャネル予測を行うことを特徴とする請求項1に記載のオーディオ符号化装置。
  17. 少なくとも2つのチャネルを有するマルチチャネルオーディオ信号を再構成する受信ビットストリームに作用する復号化手順全体に基づくオーディオ復号化方法であって、
    前記受信ビットストリームの第1の部分に基づき復号化ダウンミックス信号を含む少なくとも1つの第1の復号化チャネル表現を生成する第1の復号化処理を行うステップ(S11)と、
    前記復号化ダウンミックス信号の推定エネルギとオーディオ入力チャネルの少なくとも1つのエネルギ表現を代表する前記受信ビットストリームの第2の部分とに基づき少なくとも1つの第2の復号化チャネル表現を生成する第2の復号化処理を行うステップ(S12)と、
    前記復号化ダウンミックス信号の推定エネルギとオーディオ入力チャネルの少なくとも1つのエネルギ表現を代表する前記受信ビットストリームの前記第2の部分とに基づきオーディオ入力チャネルの入力チャネルエネルギを推定するステップ(S13)と、
    残差誤差信号情報を代表する前記受信ビットストリームの第3の部分に基づき第3の復号化処理で残差復号化を行い、残差誤差信号を生成するステップ(S14)と、
    前記残差誤差信号と少なくとも前記第2の復号化処理を含む前記第1の復号化処理及び前記第2の復号化処理の少なくとも1つからの復号化チャネル表現とを結合し、前記マルチチャネルオーディオ信号を生成するための推定入力チャネルエネルギに少なくとも部分的に基づきチャネルエネルギ補償を行うステップ(S15)と、
    を有し、
    前記チャネルエネルギ補償は、前記マルチチャネルオーディオ信号の出力チャネルのエネルギと前記推定入力チャネルエネルギとが整合するように行われ、
    前記少なくとも1つの第2の復号化チャネル表現を生成する第2の復号化処理を行うステップ(S12)は、
    前記オーディオ入力チャネルの少なくとも1つのエネルギ表現を前記受信ビットストリームの前記第2の部分から導出するステップと、
    前記少なくとも1つのエネルギ表現に少なくとも部分的に基づきチャネル予測パラメータを推定するステップと、
    復号化ダウンミックス信号と推定チャネル予測パラメータとに基づき予測チャネルを合成するステップと、
    を含み、
    前記残差復号化を行うステップ(S14)は、残差予測誤差信号を生成するステップを含み、
    前記少なくとも1つのエネルギ表現を導出するステップは、チャネルエネルギレベル差とデルタエネルギ測度とを前記受信ビットストリームの前記第2の部分から導出するステップを含み、
    前記入力チャネルエネルギを推定するステップは、前記復号化ダウンミックス信号の推定エネルギと前記チャネルエネルギレベル差とデルタエネルギ測度とに基づいて行われ、
    前記チャネル予測パラメータを推定するステップは、前記推定入力チャネルエネルギと前記復号化ダウンミックス信号の推定エネルギと前記残差誤差信号の推定エネルギとに基づき行われる
    ことを特徴とするオーディオ復号化方法。
  18. エネルギ及び品質の双方の点で、前記マルチチャネルオーディオ信号の出力チャネルと符号化側の対応する入力チャネルとが整合し、これにより、低品質な信号よりも高品質な信号が高い割合で表現され出力チャネルの品質全体が向上することを特徴とする請求項17に記載のオーディオ復号化方法。
  19. 少なくとも1つの第2の復号化チャネル表現を生成する場合に、前記チャネルエネルギ補償は、前記第2の復号化処理に統合されることを特徴とする請求項1に記載のオーディオ復号化方法。
  20. 前記復号化ダウンミックス信号のエネルギと前記残差誤差信号のエネルギとが推定され、前記第2の復号化処理は、当該復号化ダウンミックス信号のエネルギと当該残差誤差信号のエネルギとに基づくものであることを特徴とする請求項19に記載のオーディオ復号化方法。
  21. 前記チャネルエネルギ補償は、前記残差誤差信号と前記復号化チャネル表現とを結合した後に実行されることを特徴とする請求項1に記載のオーディオ復号化方法。
  22. 前記残差誤差信号と前記第1の復号化処理及び前記第2の復号化処理の少なくとも1つからの復号化チャネル表現とが結合されてマルチチャネル合成になり、該マルチチャネル合成のエネルギが推定され、前記チャネルエネルギ補償は、該マルチチャネル合成の推定エネルギと推定入力チャネルエネルギとに基づいて実行されることを特徴とする請求項2に記載のオーディオ復号化方法。
  23. 少なくとも2つのチャネルを有するマルチチャネルオーディオ信号を再構成するための受信ビットストリームに作用するオーディオ復号化装置(200)であって、
    前記受信ビットストリームの第1部分に基づき復号化ダウンミックス信号を含む少なくとも1つの第1の復号化チャネル表現を生成する第1のデコーダ(230)と、
    前記復号化ダウンミックス信号の推定エネルギとオーディオ入力チャネルの少なくとも1つのエネルギ表現を代表する前記受信ビットストリームの第2の部分とに基づき少なくとも1つの第2の復号化チャネル表現を生成する第2のデコーダ(240)と、
    前記復号化ダウンミックス信号の推定エネルギとオーディオ入力チャネルの少なくとも1つのエネルギ表現を代表する前記受信ビットストリームの前記第2の部分とに基づきオーディオ入力チャネルの入力チャネルエネルギを推定する推定器(242)と、
    残差誤差信号情報を代表する前記受信ビットストリームの第3の部分に基づき第3の復号化処理で残差復号化を行い、残差誤差信号を生成する残差デコーダ(260)と、
    前記残差誤差信号と少なくとも前記第2の復号化チャネル表現を含む前記第1のデコーダ及び前記第2のデコーダの少なくとも1つからの復号化チャネル表現とを結合し、前記マルチチャネルオーディオ信号を生成するために推定入力チャネルエネルギに少なくとも部分的に基づきチャネルエネルギ補償を行う手段(270)と、
    を有し、
    前記結合及びチャネルエネルギ補償を行う手段(270)は、前記マルチチャネルオーディオ信号の出力チャネルのエネルギと前記推定入力チャネルエネルギとを整合させ、
    前記第1のデコーダ(230)は、ダウンミックスデコーダであり、
    前記第2のデコーダ(240)は、予測チャネルを合成するパラメトリックデコーダであり、
    前記残差デコーダ(260)は、残差予測誤差信号を生成し、
    前記第2のデコーダ(240)は、
    前記オーディオ入力チャネルの前記少なくとも1つのエネルギ表現を前記受信ビットストリームの前記第2の部分から導出する導出器(241)と、
    前記少なくとも1つのエネルギ表現に少なくとも部分的に基づきチャネル予測パラメータを推定する推定器と、
    復号化ダウンミックス信号と推定チャネル予測パラメータとに基づき予測チャネルを合成する合成器と
    を含み、
    前記導出器は、チャネルエネルギレベル差とデルタエネルギ測度とを、前記受信ビットストリームの前記第2の部分から導出し、
    前記入力チャネルエネルギを推定する前記推定器(242)は、前記復号化ダウンミックス信号の推定エネルギと前記チャネルエネルギレベル差とデルタエネルギ測度とに基づき入力チャネルエネルギを推定し、
    前記チャネル予測パラメータを推定する前記推定器は、推定入力チャネルエネルギと前記復号化ダウンミックス信号の推定エネルギと前記残差誤差信号の推定エネルギとに基づきチャネル予測パラメータを推定する
    ことを特徴とするオーディオ復号化装置。
  24. 前記結合及びチャネルエネルギ補償を行う手段(270)は、エネルギ及び品質の双方の点で、前記マルチチャネルオーディオ信号の出力チャネルと符号化側の対応する入力チャネルとを整合させ、これにより前記結合及びチャネルエネルギ補償を行う手段(270)は、低品質な信号よりも高い割合で高品質な信号が表現され、出力チャネルの品質全体を向上させることを特徴とする請求項2に記載のオーディオ復号化装置。
  25. 前記チャネルエネルギ補償は、前記第2のデコーダ(240)に統合されることを特徴とする請求項2に記載のオーディオ復号化装置。
  26. 前記オーディオ復号化装置(200)は、前記復号化ダウンミックス信号のエネルギと前記残差誤差信号のエネルギとを推定する手段を含み、
    前記第2のデコーダ(240)は、前記復号化ダウンミックス信号のエネルギと前記残差誤差信号のエネルギとに基づいて動作する
    ことを特徴とする請求項25に記載のオーディオ復号化装置。
  27. 前記結合及びチャネルエネルギ補償を行う手段(270)は、前記残差誤差信号と復号化チャネル表現とを結合して結合マルチチャネル合成にする結合器と、前記チャネルエネルギ補償を前記結合マルチチャネル合成に適用して前記マルチチャネルオーディオ信号を生成するチャネルエネルギ補償器とを含むことを特徴とする請求項2に記載のオーディオ復号化装置。
  28. 前記オーディオ復号化装置(200)は、結合マルチチャネル合成のエネルギを推定する推定器を含み、
    前記チャネルエネルギ補償器は、結合マルチチャネル合成の推定エネルギと推定入力チャネルエネルギとに基づき前記チャネルエネルギ補償を適用する
    ことを特徴とする請求項27に記載のオーディオ復号化装置。
JP2011530989A 2008-10-10 2009-09-25 エネルギ保存型マルチチャネルオーディオ符号化 Expired - Fee Related JP5608660B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10440408P 2008-10-10 2008-10-10
US61/104,404 2008-10-10
PCT/SE2009/051071 WO2010042024A1 (en) 2008-10-10 2009-09-25 Energy conservative multi-channel audio coding

Publications (2)

Publication Number Publication Date
JP2012505429A JP2012505429A (ja) 2012-03-01
JP5608660B2 true JP5608660B2 (ja) 2014-10-15

Family

ID=42100797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011530989A Expired - Fee Related JP5608660B2 (ja) 2008-10-10 2009-09-25 エネルギ保存型マルチチャネルオーディオ符号化

Country Status (5)

Country Link
US (1) US9330671B2 (ja)
EP (1) EP2345027B1 (ja)
JP (1) JP5608660B2 (ja)
CN (1) CN102177542B (ja)
WO (1) WO2010042024A1 (ja)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5608660B2 (ja) * 2008-10-10 2014-10-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) エネルギ保存型マルチチャネルオーディオ符号化
CN102292769B (zh) * 2009-02-13 2012-12-19 华为技术有限公司 一种立体声编码方法和装置
CN105225667B (zh) * 2009-03-17 2019-04-05 杜比国际公司 编码器系统、解码器系统、编码方法和解码方法
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
CN102157151B (zh) * 2010-02-11 2012-10-03 华为技术有限公司 一种多声道信号编码方法、解码方法、装置和系统
BR112012026324B1 (pt) * 2010-04-13 2021-08-17 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E. V Codificador de aúdio ou vídeo, decodificador de aúdio ou vídeo e métodos relacionados para o processamento do sinal de aúdio ou vídeo de múltiplos canais usando uma direção de previsão variável
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
CN102280107B (zh) * 2010-06-10 2013-01-23 华为技术有限公司 边带残差信号生成方法及装置
CN103069481B (zh) 2010-07-20 2014-11-05 华为技术有限公司 音频信号合成器
US9767822B2 (en) * 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and decoding a watermarked signal
EP2673771B1 (en) * 2011-02-09 2016-06-01 Telefonaktiebolaget LM Ericsson (publ) Efficient encoding/decoding of audio signals
US10121481B2 (en) 2011-03-04 2018-11-06 Telefonaktiebolaget Lm Ericsson (Publ) Post-quantization gain correction in audio coding
NO2669468T3 (ja) * 2011-05-11 2018-06-02
WO2013188562A2 (en) * 2012-06-12 2013-12-19 Audience, Inc. Bandwidth extension via constrained synthesis
JP6113282B2 (ja) * 2012-08-10 2017-04-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン パラメトリックオーディオオブジェクトコーディングのための残差コンセプトを採用するエンコーダ、デコーダ、システム、および方法
JP6065452B2 (ja) 2012-08-14 2017-01-25 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
WO2014046916A1 (en) 2012-09-21 2014-03-27 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
US9336791B2 (en) * 2013-01-24 2016-05-10 Google Inc. Rearrangement and rate allocation for compressing multichannel audio
JP6146069B2 (ja) * 2013-03-18 2017-06-14 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
WO2014161996A2 (en) 2013-04-05 2014-10-09 Dolby International Ab Audio processing system
US9530422B2 (en) 2013-06-27 2016-12-27 Dolby Laboratories Licensing Corporation Bitstream syntax for spatial voice coding
CN108198564B (zh) * 2013-07-01 2021-02-26 华为技术有限公司 信号编码和解码方法以及设备
EP2838086A1 (en) * 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
CN110634494B (zh) 2013-09-12 2023-09-01 杜比国际公司 多声道音频内容的编码
EP2996269A1 (en) 2014-09-09 2016-03-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio splicing concept
DE112015004185T5 (de) 2014-09-12 2017-06-01 Knowles Electronics, Llc Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
CN107004421B (zh) 2014-10-31 2020-07-07 杜比国际公司 多通道音频信号的参数编码和解码
CN107210824A (zh) 2015-01-30 2017-09-26 美商楼氏电子有限公司 麦克风的环境切换
EP3262638B1 (en) * 2015-02-27 2023-11-08 NewAuro BV Encoding and decoding digital data sets
EP3067887A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
EP3208800A1 (en) 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
CN106023999B (zh) * 2016-07-11 2019-06-11 武汉大学 用于提高三维音频空间参数压缩率的编解码方法及系统
EP3467824B1 (en) * 2017-10-03 2021-04-21 Dolby Laboratories Licensing Corporation Method and system for inter-channel coding
WO2019193173A1 (en) 2018-04-05 2019-10-10 Telefonaktiebolaget Lm Ericsson (Publ) Truncateable predictive coding
WO2020216459A1 (en) * 2019-04-23 2020-10-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating an output downmix representation
FR3101741A1 (fr) * 2019-10-02 2021-04-09 Orange Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés
CN111402906B (zh) * 2020-03-06 2024-05-14 深圳前海微众银行股份有限公司 语音解码方法、装置、引擎及存储介质
WO2022009505A1 (ja) * 2020-07-07 2022-01-13 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法、復号方法、及び、ハイブリッド符号化システム

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434948A (en) * 1989-06-15 1995-07-18 British Telecommunications Public Limited Company Polyphonic coding
NL9100173A (nl) 1991-02-01 1992-09-01 Philips Nv Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting.
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
DE19742655C2 (de) * 1997-09-26 1999-08-05 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals
JP3571890B2 (ja) 1997-10-23 2004-09-29 古河電気工業株式会社 光ファイバのコア観察装置
JP3609623B2 (ja) 1998-07-14 2005-01-12 古河電気工業株式会社 異径コアファイバ接続部の接続損失推定方法および異径コアファイバの接続方法
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
SE0200569L (sv) 2002-02-26 2003-10-23 Ericsson Telefon Ab L M Inriktning av PM-fibrer
KR101016251B1 (ko) 2002-04-10 2011-02-25 코닌클리케 필립스 일렉트로닉스 엔.브이. 스테레오 신호의 코딩
JP4431568B2 (ja) 2003-02-11 2010-03-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声符号化
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
SE527713C2 (sv) * 2003-12-19 2006-05-23 Ericsson Telefon Ab L M Kodning av polyfoniska signaler med villkorsbegränsade filter
MXPA06011396A (es) * 2004-04-05 2006-12-20 Koninkl Philips Electronics Nv Metodos de codificacion y decodificacion de senales estereofonicas y aparatos que utilizan los mismos.
EP1735774B1 (en) * 2004-04-05 2008-05-14 Koninklijke Philips Electronics N.V. Multi-channel encoder
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
ATE545131T1 (de) 2004-12-27 2012-02-15 Panasonic Corp Tonkodierungsvorrichtung und tonkodierungsmethode
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
JP4809370B2 (ja) * 2005-02-23 2011-11-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル音声符号化における適応ビット割り当て
US7751572B2 (en) 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
US8073702B2 (en) 2005-06-30 2011-12-06 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US7974287B2 (en) * 2006-02-23 2011-07-05 Lg Electronics Inc. Method and apparatus for processing an audio signal
US8027479B2 (en) 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
RU2551797C2 (ru) * 2006-09-29 2015-05-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
WO2009038512A1 (en) * 2007-09-19 2009-03-26 Telefonaktiebolaget Lm Ericsson (Publ) Joint enhancement of multi-channel audio
EP2082396A1 (en) * 2007-10-17 2009-07-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix
KR101428487B1 (ko) * 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
JP5608660B2 (ja) * 2008-10-10 2014-10-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) エネルギ保存型マルチチャネルオーディオ符号化

Also Published As

Publication number Publication date
EP2345027A1 (en) 2011-07-20
EP2345027B1 (en) 2018-04-18
EP2345027A4 (en) 2016-10-12
WO2010042024A1 (en) 2010-04-15
JP2012505429A (ja) 2012-03-01
CN102177542B (zh) 2013-01-09
US20110224994A1 (en) 2011-09-15
US9330671B2 (en) 2016-05-03
CN102177542A (zh) 2011-09-07

Similar Documents

Publication Publication Date Title
JP5608660B2 (ja) エネルギ保存型マルチチャネルオーディオ符号化
JP7140817B2 (ja) ステレオ音声信号をプライマリチャンネルおよびセカンダリチャンネルに時間領域ダウンミックスするために左チャンネルと右チャンネルとの間の長期相関差を使用する方法およびシステム
JP5363488B2 (ja) マルチチャネル・オーディオのジョイント強化
JP7280306B2 (ja) 改良されたミッド/サイド決定を持つ包括的なildを持つmdct m/sステレオのための装置および方法
US20210027794A1 (en) Method and system for decoding left and right channels of a stereo sound signal
Li et al. Efficient stereo bitrate allocation for fully scalable audio codec
Schmidt et al. On the Cost of Backward Compatibility for Communication Codecs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130215

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130416

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130729

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140221

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140901

R150 Certificate of patent or registration of utility model

Ref document number: 5608660

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees