JP2010540985A - マルチチャネル・オーディオのジョイント強化 - Google Patents

マルチチャネル・オーディオのジョイント強化 Download PDF

Info

Publication number
JP2010540985A
JP2010540985A JP2010525778A JP2010525778A JP2010540985A JP 2010540985 A JP2010540985 A JP 2010540985A JP 2010525778 A JP2010525778 A JP 2010525778A JP 2010525778 A JP2010525778 A JP 2010525778A JP 2010540985 A JP2010540985 A JP 2010540985A
Authority
JP
Japan
Prior art keywords
signal
encoding
residual
encoder
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010525778A
Other languages
English (en)
Other versions
JP5363488B2 (ja
JP2010540985A5 (ja
Inventor
エリック ノルベル,
アニッセ タレブ,
Original Assignee
テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2010540985A publication Critical patent/JP2010540985A/ja
Publication of JP2010540985A5 publication Critical patent/JP2010540985A5/ja
Application granted granted Critical
Publication of JP5363488B2 publication Critical patent/JP5363488B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

符号化手順全体と、関連する復号手順とを提案する。符号化手順には、オーディオ入力チャネル集合の信号表現について動作する少なくとも二つの信号符号化プロセス(S1、S4)が含まれる。第1の符号化プロセスに関連して局所合成(S2)を用いて、第1の符号化プロセスの符号化誤差の表現を含む局所復号された信号を生成する。この局所復号された信号が、第2の符号化プロセスへの入力(S3)として適用される。符号化プロセス全体が、少なくとも前記第2の符号化プロセスを含む符号化プロセスのうちの少なくとも一つからの少なくとも二つの残差符号化誤差信号(S5)を生成する。次いで、残差誤差信号は、好適には残差誤差信号間の相関に基づいて、さらなる符号化プロセスにおいて複合残差符号化(S6)を対象とする。

Description

本発明は一般に、オーディオ符号化および復号技術に関し、より詳細には、ステレオ符号化のようなマルチチャネル・オーディオ符号化に関する。
パケット交換ネットワーク上で通信サービスを提供する必要性が急激に増加してきており、現在ではかつてないほど強い。それと並行して、多様な帯域幅と、モノラル・サウンド及びステレオ・サウンドと、音声信号及び音楽信号の両方とを含む送信されるメディア・コンテンツの多様性が増している。混合されたコンテンツをユーザに配信するための柔軟で効率的な解決策を規定するため、さまざまな標準化団体では多大な努力が結集されている。特に、二つの主要な課題がなおも解決策を待っている。第1に、展開されるネットワーキング技術とユーザデバイスとの多様性により、同一のサービスが多様なユーザに提供されると、トランスポート・ネットワークの特性の違いが原因で、ユーザが知覚する品質が異なるかもしれないことが暗示される。それゆえ、実際のトランスポート特性にサービスを適応させるため、品質メカニズムを改良することが必要である。第2に、通信サービスは、幅広いメディア・コンテンツに対応しなければならない。現在、音声と音楽との送信は、いまだに異なるパラダイムに属しており、あらゆるタイプのオーディオ信号について良好な品質を提供できるサービスのため埋めるべき溝が存在する。
今日、スケーラブルなオーディオ・ビジュアル・コーデック及び一般的にはメディア・コンテンツ・コーデックが利用可能であり、実際に、MPEGの初期の設計ガイドラインの一つは当初からスケーラブルであった。しかし、これらのコーデックは、それらの機能が魅力的であるものの、低ビットレートで動作する効率に欠けており、そのため、現在のような大量市場の無線デバイスに実際に対応しているとはいえない。無線通信が広く普及したことにより、もっと高性能なスケーラブル・コーデックが必要となっている。この事実はすでに認識されており、近い将来、新しいコーデックが出現すると予想されている。
適応型サービスとスケーラブル・コーデックとに関して多大な努力が払われているにもかかわらず、トランスポートの問題にもっと注意が向けられない限り、スケーラブル・サービスは起こらないだろう。従って、サービス配信においてスケーラビリティを十分に活用するための実現技術として、効率的なコーデック以外に、適切なネットワーク・アーキテクチャとトランスポート・フレームワークとを検討しなければならない。基本的に、三つのシナリオが考えられ得る。
・エンドポイントでの適応。すなわち、より低い送信レートが選択されなければならない場合に、送信側に通知が行われ、送信側がスケーリング又はコーデックの変更を行う。
・中間ゲートウェイでの適応。ネットワークの一部が輻輳した場合に、又は異なるサービス能力を有する場合に、図1に示すような専用ネットワーク・エンティティが、サービスのトランスコーディングを行う。スケーラブル・コーデックを使えば、これはメディア・フレームを破棄したり、一部を切り取ったりするのと同じくらい単純でありうるだろう。
・ネットワーク内部での適応。ルータ又は無線インタフェースが輻輳した場合に、まさにその問題の場所でパケットを破棄するか又は一部を切り取ることによって適応が行われる。これは、無線リンクの深刻なトラヒック・バースト又はチャネル品質の変化の処理のような一時的な問題についての望ましい解決策である。
〔スケーラブル・オーディオ符号化〕
非会話型、ストリーミング/ダウンロード
一般に、現行のオーディオ研究の傾向は、低レートでの圧縮効率を改良する(32kbps未満のビットレートにおいて十分良好なステレオ品質を提供する)ことである。最近の低レート・オーディオの改良としては、MPEGにおけるパラメトリック・ステレオ(PS)ツール開発の完成と、3GPPにおけるCELPと変換コーデックである拡張AMR−WB(AMR−WB+とも知られる)との混合的な標準化とが挙げられる。また、空間的オーディオ符号化(サラウンド/5.1コンテンツ)の周辺でMPEG標準化の活動が進行中であり、最初の見本モデル(RM0)がすでに選択されている。
スケーラブル・オーディオ符号化に関しては、MPEGにおける最近の標準化作業の結果、スケーラブル可逆拡張ツールであるMPEG4−SLSが作成された。MPEG4−SLSは、可逆に至るまでずっと0.4kbpsという細かい粒度ステップを使って、コアAAC/BSACに漸進的な改良を提供する。SLSのためのオーディオ・オブジェクト・タイプ(AOT)は、まだ定義されていない。さらに、MPEGの中で、スケーラブルな音声・オーディオ符号化の領域を目標にして、2005年1月にコール・フォア・インフォメーション(CfI)(非特許文献1)が発表されたが、CfIで扱われる重要な課題は、スケーラビリティと、コンテンツ・タイプ全域(例えば音声と音楽)にわたる一貫した性能と、低ビットレート(<24kbps)での符号化品質とである。
音声符号化(会話モノラル)
概要
一般的な音声圧縮において、最新の標準化活動は、8.55kbpsの最大レートでの動作をもサポートする3GPP2/VMR−WBコーデックの拡張である。ITU−Tでは、以前、マルチレートG.722.1オーディオ/ビデオ会議コーデックが、24、32及び48kbpsで動作する超広帯域(14kHzオーディオ帯域幅、32kHzサンプリング)の能力を提供する2つの新規モードと共に更新された。帯域幅を48kHzのフルバンド符号化へと拡張するさらなるモードが、現在、標準化の最中である。
スケーラブルな会話型音声符号化に関して、主な標準化活動はITU−T(作業部会3、研究グループ16)で行われている。そこでG.729のスケーラブルな拡張についての要件が最近(2004年11月)定義され、適格性確認プロセスが2005年7月に終了した。この新たなG.729の拡張は、12kbpsから少なくとも2kbpsの粒度ステップで、8kbpsから32kbpsまでスケーラブルとなる予定である。G.729のスケーラブル拡張の主な対象用途は、共有され且つ帯域制限されたxDSLリンク上の会話型音声であり、すなわち、スケーリングは、特定の制御された音声チャネル(Vc’s)を通じてVoIPパケットを通過させるディジタル家庭用ゲートウェイにおいて行われる可能性が高い。またITU−Tは、完全に新しいスケーラブルな会話コーデックの要件を定義するプロセスをSG16/WP3/クエスチョン9で進めている。Q.9/エンベデッド可変レート(EV)コーデックの要件は、2006年7月に完成済みであり、現在、Q.9/EV要件は、8.0kbpsのコア・レートと32kbpsの最大レートとを提示している。Q.9/EV精細スケーラビリティの特定の要件は、まだ導入されているわけではなく、その代わりに所定の運用のポイントが評価される可能性があるが、精細スケーラビリティは依然として目標である。Q.9/EVコアは、G.729の拡張が予想されるように、狭帯域(8kHzサンプリング)に制限されておらず、すなわち、Q.9/EVは、コア・レイヤから前方への広帯域(16kHzサンプリング)を提供してもよい。さらに、超広帯域且つステレオ能力(32kHzサンプリング/2チャンネル)をそれに与えるだろう来るべきQ.9/EVコーデックの拡張の要件が、2006年11月に定義された。
SNRスケーラビリティ
ビット量/レイヤ数を増加させることでSNRを高めることのできるスケーラブルな会話型コーデックが複数存在する。例えば、MPEG4−CELP(非特許文献2)、G.727(エンベデッドADPCM)は、SNRがスケーラブルであり、追加レイヤの各々が、再構築された信号の再現性を高める。最近ではKovesi他が、所定のコア・レートから精細スケーラビリティを実現し、音声/オーディオ会議サーバ又はオープンループ・ネットワークの輻輳制御に適用可能なトランスポート帯域幅の精細最適化を可能にする柔軟なSNR及び帯域幅スケーラブルなコーデック(非特許文献3)を提案した。
帯域幅スケーラビリティ
ビット量を増加させることで帯域幅を増加させることができるコーデックも存在する。その例としては、G722(サブバンドADPCM)、3GPP WB音声コーデック競合に対するTI候補(非特許文献4)、そして、アカデミックなAMR−BWS(非特許文献5)コーデックなどがある。これらのコーデックについて、特定の帯域幅レイヤを追加すると、〜4kHzから〜7kHzまでの合成信号のオーディオ帯域幅を増加させる。帯域幅スケーラブル・コーダのもう1つの例は、非特許文献6の中で小石田によって記載されたG.729に基づく16kbps帯域幅スケーラブル・オーディオ・コーダである。また、SNRがスケーラブルであることに加えて、MPEG4−CELPは、8および16kHzでサンプルされた入力信号についてのSNRスケーラブル符号化システムを規定する(非特許文献3)。
チャネル・ロバスト性技術
会話型コーデックのチャネル・ロバスト性を改良することに関して、既存の標準及びコーデックについて様々な方法で行われてきた。以下に例をあげる。
・EVRC(1995)、部分的冗長符号化パラメータである差分遅延パラメータを送信して、チャネル削除の後で適応コードブック状態を再構築することを可能にし、従ってエラーリカバリを向上させる。EVRCの詳細な概要は、非特許文献7に見られる。
・AMR−NB(非特許文献8)において、GSMネットワークのために特定された音声サービスが、最大ソースレート適応原理で動作する。所与の総ビットレートについてのチャネル符号化とソース符号化との間のトレードオフが、GSMシステムによって連続的に監視されて調整され、そして、エンコーダ・ソースレートが、実現し得る最高の品質を提供するように構成される。ソースレートは、4.75kbpsから12.2kbpsまで変動してもよい。そして、チャネル総レートは、22.8kbpsか11.4kbpsかのいずれか一方である。
・最大ソースレートに加えて、上記の中点で述べた適応能力。AMR RTPペイロード・フォーマット(非特許文献9)によって、過去のフレーム全部の再送信が可能になり、ランダム・フレーム・エラーに対するロバスト性を大いに高める。非特許文献10には、全体的および部分的冗長性概念を適応的に用いるマルチモード適応AMRシステムについて記載されている。さらに、RTPペイロードによって、パケットのインタリービングが可能になり、従って、非会話アプリケーションのロバスト性が強化される。
・AMR−WBと組み合わせた複数記述符号化について非特許文献11に記載されており、加えて、低エラー条件についてはAMR−WBが用いられる適応コーデック・モード選択方式が提案されており、深刻なエラー条件の間は、ここに記載されたチャネル・ロバストMD−AMR(WB)コーダが用いられる。
・冗長データ送信技術に対するチャネル・ロバスト性技術の変形として、状態の依存関係を低減させるためにエンコーダ分析を調整する技術があり、これはAMR4.75符号化モードで行われる。AMR−WBについての同様のエンコーダ側分析技術の用途については、非特許文献12の中でLefebvre他によって記載された。
・非特許文献13では、Chen他が、総レートを適応させるためにマルチレート・オーディオ能力を用いるマルチメディア・アプリケーションと、低速の(1秒の)フィードバック・チャネルからの情報に基づく実際に用いられる圧縮方式とについて記述している。加えて、Chen他は、非常に深刻なエラー条件について音声合成を提供することができるように、冗長パラメータとしてテキストを用いる非常に低レートの基本レイヤを用いてオーディオ・アプリケーションを拡張する。
オーディオ・スケーラビリティ
基本的に、オーディオ・スケーラビリティは、以下によって達成することができる。
・信号の量子化、すなわち、SNRのようなスケーラビリティを変えること。
・信号の帯域幅を拡張又は縮小すること。
・オーディオ・チャネルを落とすこと(例えば、1チャネルで構成されるモノラル、2チャネルで構成されるステレオ、5チャンネルで構成されるサラウンド)−(空間的スケーラビリティ)
現時点で利用可能な精細なスケーラブル・オーディオ・コーデックは、AAC−BSAC(アドバンスド・オーディオ符号化−ビット・スライス算術符号化)である。これは、オーディオと音声との両方の符号化に用いることができ、また、少量ずつの増分によるビットレートのスケーラビリティも可能にする。
これはビットストリームを生成し、ストリームの所定の部分が欠落した場合に、それを復号することすら可能である。ストリームの復号を可能にするために利用可能でなければならない、データ量に関する最小限の要件が存在する。これは、基本レイヤと呼ばれる。残りのビット集合は、品質向上に対応しており、それゆえ、それらは拡張レイヤと呼ばれる。AAC−BSACは、1Kbit/s/チャネル付近で、又はオーディオ信号についてはより少ない値で、拡張レイヤをサポートする。
「そのような精細なスケーラビリティを得るために、量子化されたスペクトル・データにビット・スライシング方式が適用される。最初に、量子化されたスペクトル値が周波数帯でグループ分けされ、これらのグループの各々は、それらの2進法表現の中に量子化されたスペクトル値を含める。次いで、グループの各ビットが、それらの重みとスペクトル・コンテンツとに従って、スライスにおいて処理される。従って、最初に、グループの中の量子化された値の最上位ビット(MSB)がすべて処理され、そして、各ビットは、所与のスライスの範囲内で低周波数から高周波数へと処理される。次いで、これらのビット・スライスは、2進算術符号化方式を用いて符号化され、最小の冗長性を備えたエントロピー符号化が得られる。」(非特許文献1)
「デコーダによって利用される拡張レイヤの数が増加すると、提供するLSB情報を増やすことによって、量子化されたスペクトル・データが精緻化される。同時に、より高い周波数帯域でスペクトル・データのビット・スライスを提供すると、オーディオ帯域幅が増加する。このようにして、準連続的なスケーラビリティを達成することができる。」(非特許文献1)
言い換えると、スケーラビリティは2次元空間で達成することができる。より多くのLSBを送信することによって所定の信号の帯域幅に対応する品質を向上させることができ、又は、より多くのビット・スライスを受信器に提供することによって信号の帯域幅を拡張することもできる。さらに、復号に利用可能なチャネル数を適応させることによって、第3次元のスケーラビリティが利用可能である。例えば、サラウンド・ステレオ(5チャネル)は、ステレオ(2チャネル)へと縮小されてもよいだろうし、それが、他方では、例えばトランスポート条件によって必要とされる場合に、モノラル(1チャネル)へと縮小されてもよいだろう。
〔オーディオ符号化のための知覚モデル〕
オーディオ符号化システムについて所与のビットレートにおいて最良の知覚品質を達成するには、人間の聴覚系の性質を考慮しなければならない。その目的は、注意深く聞かれるだろう音の部分にリソースを集中させつつ、聴覚が鈍感なところではリソースを節約することである。人間の聴覚系の性質は、各種の聴覚検査で文書化されており、知覚モデルの導出にあたっては、それらの結果が用いられた。
オーディオ符号化における知覚モデルの応用は、多様な方法で実装されうる。一つの方法は、知覚的重要度に対応する方法で符号化パラメータのビット割当てを行うことである。例えばMPEG−1/2レイヤIIIのような変換領域コーデックでは、周波数領域において各ビットをそれらの知覚的重要度に従って相異なるサブバンドに割り当てることによって、これが実装される。別の方法は、信号の知覚的に重要な周波数を強調するために、知覚的重み付け又はフィルタリングを行うことである。強調は、標準的なMMSE符号化技術において、より多くのリソースが割り当てられるであろうことを保証する。さらに別の方法では、符号化後の残差誤差信号に知覚的重み付けを行うことである。知覚的に重み付けされた誤差を最小化することによって、このモデルに関する知覚品質は最大化される。この方法は、例えばCELP音声コーデックにおいて一般的に用いられている。
〔ステレオ符号化又はマルチチャネル符号化〕
マルチチャネル(すなわち、少なくとも二つの入力チャネル)符号化・復号を用いるオーディオ送信システムの一般的な例を図2に示す。システム全体は基本的に送信側にマルチチャネル・オーディオ・エンコーダ100と送信モジュール10とを備え、受信側に受信モジュール20とマルチチャネル・オーディオ・デコーダ200とを備える。
オーディオ信号のステレオ符号化又はマルチチャネル符号化の最も単純な方法は、図3に示すように、相異なるチャネルの信号を、個別の独立した信号として、別々に符号化することである。しかし、これは、複数のチャネル間の冗長性が除去されないことと、ビットレート要件がチャネル数に比例することになるであろうということとを意味する。
ステレオFMラジオ送信で用いられるとともに、旧式のモノラル・ラジオ受信器との互換性を保証する別の基本的な方法は、二つの関係チャネルの和信号(モノラル)と差信号(サイド)とを送信することである。
例えばMPEG−1/2レイヤIII及びMPEG−2/4AACのような最先端のオーディオ・コーデックは、いわゆるジョイント・ステレオ符号化を利用する。この技術によれば、相異なるチャネルの信号が、別々に個々にではなく、一緒に処理される。二つの最も一般的に用いられるジョイント・ステレオ符号化技術は、「ミッド/サイド」(M/S)ステレオ及びインテンシティ・ステレオ符号化として知られるものであり、それらは通常、符号化されるステレオ又はマルチチャネル信号のサブバンドに適用される。
M/Sステレオ符号化は、チャネル・サブバンドの和信号と差信号とを符号化して送信し、それによってチャネル・サブバンド間の冗長性を利用するという意味で、ステレオFMラジオにおける先述の手順と類似する。M/Sステレオ符号化に基づく符号器の構造と動作とは、例えばJ.D.Johnstonによる特許文献1の中に記載されている。
他方、インテンシティ・ステレオは、ステレオの無関係性を利用することができる。インテンシティ・ステレオは、チャネル間でどのように強度が分散されるかを示す何らかの位置情報と共に、(相異なるサブバンドの)各チャネルの連結強度を送信する。インテンシティ・ステレオは、チャネルのスペクトルの大きさの情報を提供するだけであり、一方で、位相情報は伝達されない。このような理由で、且つ、一時的なチャネル間情報(より具体的には、チャネル間の時間差)は、特に低周波数では心理音響に大きく関わるという理由で、インテンシティ・ステレオは例えば2kHzを上回る高周波数でのみ用いられうる。インテンシティ・ステレオ符号化の方法については、例えば、R.Veldhuis他による特許文献2に記述されている。
最近開発されたステレオ符号化の方法については、例えば、2002年5月のミュンヘン(ドイツ)での第112回AESコンベンションにおける、C.Faller他による「ステレオ及びマルチチャネル・オーディオ圧縮に適用されるバイノーラル・キュー符号化(Binaural cue coding applied to stereo and multi-channel audio compression)」と題された会議の論文に記述されている。この方法は、パラメトリック・マルチチャネル・オーディオ符号化方法である。そのようなパラメトリック技術の基本原理は、符号化側でN個のチャネルC1、C2、…CNからの入力信号が一つのモノラル信号mへと組み合わされることである。モノラル信号は、いずれかの従来型のモノラルのオーディオ・コーデックを用いてオーディオ符号化される。並行して、マルチチャネル・イメージについて記述する各パラメータがチャネル信号から導出される。各パラメータは、符号化されて、オーディオ・ビットストリームと共にデコーダへ送信される。デコーダは、最初にモノラル信号m’を復号し、次いで、マルチチャネル・イメージのパラメトリックな記述に基づいて、チャネル信号C1’、C2’、…CN’を再生する。
バイノーラル・キュー符号化(BCC、非特許文献14)の方法の原理は、符号化されたモノラル信号といわゆるBCCパラメータとを送信することである。BCCパラメータは、元のマルチチャネル入力信号のサブバンドについて、符号化されたチャネル間のレベル差とチャネル間の時間差とを含む。デコーダは、BCCパラメータに基づいてモノラル信号のサブバンドに関するレベル調整および位相調整を適用することによって、相異なるチャネル信号を再生する。例えばM/S又はインテンシティ・ステレオに対する利点は、一時的なチャネル間情報を含むステレオ情報がはるかに低いビットレートで送信されることである。
別の技術は、C.E.Holt他によって特許文献3の中で記載されたものだが、モノラル信号及びサイド情報の符号化という同じ原理を用いる。この場合に、サイド情報は、予測器フィルタと、場合によっては残差信号とから成る。LMSアルゴリズムによって推定される予測器フィルタは、モノラル信号に適用される場合に、マルチチャネルのオーディオ信号の予測を可能にする。この技術を使えば、マルチチャネルのオーディオ・ソースの非常な低ビットレートの符号化を行うことができるが、ただし、品質の低下を犠牲にすることになる。
パラメトリック・ステレオ符号化の基本原理を図4に示すが、図4はダウンミキシング・モジュール120と、コア・モノラル・コーデック130、230と、パラメトリック・ステレオ・サイド情報エンコーダ/デコーダ140、240とを備えたステレオ・コーデックのレイアウトを示す図である。ダウンミキシングは、マルチチャネル(この場合はステレオ)信号をモノラル信号へ変換する。パラメトリック・ステレオ・コーデックの目的は、再構築されたモノラル信号と追加のステレオパラメータとを所与として、デコーダでステレオ信号を再現することである。
特許文献4として公開された国際特許出願の中で、マルチチャネル符号化に関する適応ビット割当てのための技術が記載されている。これは、少なくとも二つのエンコーダを利用するものであり、第2のエンコーダはマルチステージ・エンコーダである。符号化ビットは、マルチチャネル・オーディオ信号特性に基づいて、第2のマルチステージ・エンコーダの相異なるステージに適応的に割り当てられる。
最後に、完全性のために、3Dオーディオにおいて用いられる技術について言及する。この技術は、サウンドソース信号をいわゆるヘッド関連フィルタでフィルタリングすることによって、左右のチャネル信号を合成する。しかし、この技術は、相異なるサウンドソース信号が分離されることを必要とし、従って、ステレオ又はマルチチャネル符号化に適用することが一般にはできない。
従来のパラメトリック・マルチチャネル又はステレオ符号化の解決策は、チャネル関係のパラメトリック表現を用いてモノラルのダウンミックス信号からステレオ又はマルチチャネル信号を再現することを目指している。符号化されたダウンミックス信号の品質が悪い場合に、ステレオ信号パラメータに費やされたリソースの量に関らず、これも最終結果に反映されるであろう。
米国特許第5285498号明細書 欧州特許第0497413号公報 米国特許第5434948号明細書 国際公開第2006/091139号パンフレット
ISO/IEC JTC1、SC29、WG11/M11657、「スケーラブル音声・オーディオ符号化に関するCfIについての既存のMPEG−4技術の性能及び機能(Performance and functionality of existing MPEG-4 technology in the context of CfI on Scalable Speech and Audio Coding)」、2005年1月 Herre、「MPEG−4オーディオの概要及びその移動体通信における応用(OVERVIEW OF MPEG-4 AUDIO AND ITS APPLICATIONS IN MOBILE COMMUNICATIONS)」、ICCT 2000 Kovesi、「連続したビットレート柔軟性を有するスケーラブル音声・オーディオ符号化方式(A SCALABLE SPEECH AND AUDIO CODING SCHEME WITH CONTINUOUS BITRATE FLEXIBILITY)」、ICASSP 2004 McCree他、「エンベデッド適応マルチレート広帯域音声コーダ(AN EMBEDDED ADAPTIVE MULTI‐RATE WIDEBAND SPEECH CODER)」、ICASSP 2001 Hui Dong Gibson、JD Kokes、MG、「SNR及び帯域幅スケーラブル音声符号化(SNR and bandwidth scalable speech coding)」、Circuits and Systems、2002年。ISCAS 2002 小石田 他、「G.729標準に基づく16KBIT/S帯域幅スケーラブル・オーディオ・コーダ(A 16-KBIT/S BANDWIDTH SCALABLE AUDIO CODER BASED ON THE G.729 STANDARD)」、ICASSP 2000 Recchione、「CDMAに対して改良された可変レート・コーダ・トール品質音声(The Enhanced Variable Rate Coder Toll Quality Speech For CDMA)」、Journal of Speech Technology、1999 Uvliden他、「セルラ無線通信品質に適応された適応マルチレートA音声サービス(Adaptive Multi-Rate-A Speech service adapted to Cellular Radio Network Quality)」、Asilomar、1998 Sjoberg他、「(適応マルチレート(AMR)及び適応マルチレート広帯域(AMR−WB)オーディオ・コーデックのためのリアルタイム・トランスポート・プロトコル(RTP)ペイロード・フォーマット及びファイル記憶フォーマット(Real-Time Transport Protocol(RTP)Payload Format and File Storage Format for the Adaptive Multi-Rate(AMR)and Adaptive Multi-Rate Wideband(AMR-WB)Audio Codecs)」、RFC 3267、IETF、2002年6月 Johansson他、「VoIPに対する帯域幅効率AMR動作(Bandwidth Efficient AMR Operation for VoIP)」、IEEE WS on SPC、2002年 H.Dong他、「移動体アドホック・ネットワークに対するAMR−WBに基づいた複数記述音声コーダ(Multiple description speech coder based on AMR-WB for Mobile ad-hoc networks)」、ICASSP 2004 Chibani,M;Gournay,P;Lefebvre,R、「制約最適化によるCELPベース・コーダのロバスト性の向上(Increasing the Robustness of CELP-Based Coders By Constrained Optimization)」、ICASSP 2005 Chen他、「マルチホップ無線ネットワーク上のエンドユーザ音声認識の改良のためのQoS適応に関する実験(Experiments on QoS Adaptation for Improving End User Speech Perception Over Multi-hop Wireless Networks)」、ICC、1999年 C.Faller、F.Baumgarte、「バイノーラル・キュー・符号化−パート1:心理音響的基礎及び設計原理(Binaural cue coding - Part I:Psychoacoustic fundamentals and design principles)」、IEEE Trans.Speech Audio Processing、vol.11、pp.509−519、2003年11月
本発明は、先行技術の装置のこれらの欠点およびその他の欠点を克服する。
本発明は一般に、符号化手順全体と、関連する復号手順とに関する。符号化手順は、オーディオ入力チャネル集合の信号表現について動作する少なくとも二つの信号符号化プロセスを含む。本発明の基本概念は、第1の符号化プロセスに関連する局所合成を用いて、第1の符号化プロセスの符号化誤差の表現を含む局所復号された信号を生成し、この局所復号された信号を第2の符号化プロセスへの入力として適用することである。符号化手順全体では、第1の符号化プロセスと第2の符号化プロセスとの一方又は両方から少なくとも二つの残差符号化誤差信号が生成され、それらは主として第2の符号化プロセスから生成されるが、場合によっては第1および第2の符号化プロセスから同時に生成される。次いで、残差誤差信号は、好適には残差誤差信号間の相関に基づいて、さらなる符号化プロセスにおいて複合残差符号化を対象とする。また、このプロセスでは、知覚尺度が考慮されてもよい。
局所復号された信号が第2の符号化プロセスへの入力として用いられるため、複合残差が第1と第2の符号化プロセスの両方の符号化誤差の表現を含むことが常に保証されうる。残差誤差信号間の相関を利用することによって、品質向上の可能性も備えたリソース効率が非常に高いオーディオ入力全体の符号化が達成できる。
ハードウェアの観点からは、本発明は、エンコーダと、関連するデコーダとに関する。エンコーダ全体は、基本的に、入力チャネルの相異なる表現を符号化するための少なくとも二つのエンコーダを備える。第1のエンコーダに関連する局所合成によって、局所復号された信号が生成され、そして、この局所復号された信号が、第2のエンコーダへの入力として適用される。また、エンコーダ全体は、第1及び/又は第2のエンコーダからの、主として第2のエンコーダからであるが、場合によっては第1と第2のエンコーダの両方からの少なくとも二つの残差符号化誤差信号を生成するために動作することも可能である。また、エンコーダ全体は、好適には残差誤差信号と変換とその後の量子化との間の相関に基づいて、残差誤差信号の複合誤差分析を行うための複合残差エンコーダを備える。
局所合成が第1のエンコーダから抽出できない場合に、符号化手順全体で局所合成を行うために、第1のエンコーダに対応するデコーダを符号化側に実装して使用することができる。これは、局所合成が、第1のエンコーダの中でか、又は、第1のエンコーダに関連して符号化側に実装された専用のデコーダによって内部的に達成できることを意味する。
より詳細には、復号メカニズムは基本的に、第1の復号プロセスと第2の復号プロセスとを含むマルチチャネル・オーディオ信号を再構築するために入来ビットストリームについて動作する少なくとも二つの復号プロセスを含む。次いで、さらなる復号プロセスにおいて、無相関残差誤差信号情報を表す入来残差ビットストリームに基づいて複合残差復号が行われ、相関残差誤差信号が生成される。次いで、相関残差誤差信号は、第1の復号プロセスと第2の復号プロセスとのうち第2の復号プロセスを含む少なくとも一方からの復号されたチャネル表現に加えられ、復号されたマルチチャネル出力信号が生成される。
さらに別の側面では、本発明は、提案されたオーディオ・エンコーダおよびデコーダに基づいたオーディオ送信システムの改良に関する。
本発明によって提供される他の利点は、下記の本発明の諸実施形態の記述を読めば認識されるであろう。
本発明及びそのさらなる目的と利点とは、添付の図面と共に下記の説明を参照することによって最も良く理解されるであろう。
メディア適応のための専用ネットワーク・エンティティの例を説明する。 マルチチャネル符号化・復号を用いたオーディオ送信システムの一般例を説明する概略ブロック図である。 個別且つ独立の信号として相異なるチャネルの信号がどのように別個に符号化されるかを説明する概略図である。 パラメトリック・ステレオ符号化の基本原理を説明する概略ブロック図である。 本発明の例示の実施形態に係るステレオ符号器の概略ブロック図である。 本発明の別の例示の実施形態に係るステレオ符号器の概略ブロック図である。 L/R平面においてステレオ・パンニングがどのように角度として表現されるかを説明する概略図である。 場合によってはより短いラップ・アラウンド・ステップが採られうる量子化器の境界がどのように用いられうるかを説明する概略図である。 八つの帯域を用いた特定のフレームについてのL/R信号平面における例示の散布図である。 図5のステレオ・エンコーダに対応するステレオ・デコーダの概観を説明する概略図である。 本発明の例示の実施形態に係るマルチチャネル・オーディオ・エンコーダの概略ブロック図である。 本発明の例示の実施形態に係るマルチチャネル・オーディオ・デコーダの概略ブロック図である。 本発明の例示の実施形態に係るマルチチャネル・オーディオ符号化方法の概略フロー図である。 本発明の例示の実施形態に係るマルチチャネル・オーディオ復号方法の概略フロー図である。
図面を通して、対応又は類似する要素には、同じ参照符号が用いられるだろう。
本発明は、オーディオ・アプリケーションにおけるマルチチャネル(すなわち、少なくとも二つのチャネル)符号化/復号技術に関し、特に、オーディオ送信システムにおける、及び/又はオーディオ記憶装置のためのステレオ符号化/復号に関する。取り得るオーディオ・アプリケーションの例には、電話会議システムと、移動体通信システムにおける立体音響オーディオ送信と、オーディオ・サービスを供給するための種々のシステムと、マルチチャネル・ホームシネマ・システムとが含まれる。
図13の例示的な概略フロー図を参照すると、本発明は好適は、第1の信号符号化プロセスにおいて入力チャネルの集合の第1の信号表現を符号化すること(S1)と、第2の信号符号化プロセスにおいて入力チャネルの少なくとも一部の少なくとも一つの追加信号表現を符号化すること(S4)と、という原理に依存することが見て取れる。簡潔に言えば、基本概念は、いわゆる局所復号された信号を、第1の符号化プロセスに関連する局所合成を通じて生成すること(S2)である。局所復号された信号は、第1の符号化プロセスの符号化誤差の表現を含む。局所復号された信号は、第2の符号化プロセスへの入力として適用される(S3)。符号化手順全体では、第1および第2の符号化プロセスの一方又は両方から、主として第2の符号化プロセスから、少なくとも二つの残差符号化誤差信号が生成される(S5)が、場合によっては第1および第2の符号化プロセスから一緒に生成される。次いで、残差誤差信号が、残差誤差信号間の相関に基づいて、複合誤差分析を含む複合残差符号化プロセス(S6)において処理される。
例えば、第1の符号化プロセスは、モノラル符号化プロセスのようなメインの符号化プロセスであってもよいし、第2の符号化プロセスは、ステレオ符号化プロセスのような補助的な符号化プロセスであってもよい。符号化手順全体は一般に、ステレオ符号化と、より複雑なマルチチャネル符号化とを含む少なくとも二つの(複数の)入力チャネル上で行われる。
本発明の好適な実施形態において、後で詳細に例示して説明されるように、複合残差符号化プロセスは、対応する無相関誤差成分を生成するための適切な変換による相関残差誤差信号の無相関化と、少なくとも一つの無相関誤差成分の量子化と、変換の表現の量子化とを含んでもよい。後で分かるであろうが、誤差成分(群)の量子化は、例えば、誤差成分の対応するエネルギー・レベルに基づいた無相関誤差成分間のビット割当てを含んでもよい。
図14の例示的な概略フロー図を参照すると、対応する復号プロセスは好適には、マルチチャネル・オーディオ信号の再構築のための入来ビットストリームで行われる第1の復号プロセス(S11)と第2の復号プロセス(S12)とを含む少なくとも二つの復号プロセスを含む。複合残差復号は、相関残差誤差信号を生成するために、無相関残差誤差信号情報を表す入来残差ビットストリームに基づいて、さらなる復号プロセスにおいて実行される(S13)。次いで、マルチチャネル・オーディオ信号を生成するために、第1と第2の復号プロセスのうち第2の復号プロセスを含む少なくとも一方から、復号されたチャネル表現に相関残差誤差信号が加えられる(S14)。
本発明の例示的で好適な実施形態において、複合残差復号は、相関残差誤差信号を生成するための、入来残差ビットストリームに基づく残差逆量子化と、入来変換ビットストリームに基づく直交信号置換および逆変換とを含んでもよい。
マルチチャネル又はステレオ信号の性質は、時間の経過と共に変化する可能性が高いということを本発明者らは認識した。信号の一部においてチャネル相関が高く、このことはステレオ・イメージが狭い(モノラルに類似する)か、左右への単純なパンニングで表現されうることを意味する。この状況は、例えばテレビ会議アプリケーションでは普通である。なぜなら、一度に話をしているのは一人だけである可能性が高いからである。そのような場合に、ステレオ・イメージを描写するのに必要なリソースは少なくなり、そして、余ったビットは、モノラル信号の品質を向上させるために費やされる方が良い。
本発明をより良く理解するには、ステレオ符号化および復号に関連して本発明の例を記載することから始め、後で、より一般的なマルチチャネルの記載を続けることが有益であろう。
図5は、本発明の例示する実施形態によるステレオ符号器の概略ブロック図である。
本発明は、一貫且つ統合された方法でダウンミックス品質だけでなくステレオ空間品質も暗示的に精緻化するという概念に基づく。図5に説明される本発明の実施形態は、ステレオ拡張レイヤとしてのスケーラブルな音声コーデックの一部であることが意図されている。図5の例示的なステレオ・エンコーダ100−Aは、基本的に、ダウンミキサ101−Aと、メイン・エンコーダ102−Aと、チャネル予測器105−Aと、複合残差エンコーダ106−Aと、インデックス多重化部107−Aとを含む。メイン・エンコーダ102−Aは、エンコーダ部103−Aと、局所合成器104−Aとを含む。メイン・エンコーダ102−Aは第1の符号化プロセスを実装し、チャネル予測器105−Aは第2の符号化プロセスを実装する。複合残差エンコーダ106−Aは、別の補助的な符号化プロセスを実装する。基礎となるコーデック・レイヤはモノラル信号を処理するが、それは、入力ステレオ・チャネルが単一のチャネルへとダウンミックスされなければならないことを意味する。ダウンミキシングの標準的な方法は、単に信号を足し合わせることである。
Figure 2010540985
このタイプのダウンミキシングは、nでインデックス付けされた時間領域信号に直接に適用される。一般に、ダウンミックスは、入力チャネル数pを、より少ないダウンミックス・チャネル数qへと低減するプロセスである。ダウンミックスは、時間領域又は周波数領域で行われる入力チャネルの任意の線形又は非線形の組み合わせであってもよい。ダウンミックスは信号特性に適応されうる。
他のタイプのダウンミキシングとして、左チャネルと右チャネルとの任意の組み合わせを用いるものがあり、この組み合わせも周波数依存であってもよい。
本発明の例示的な実施形態では、ステレオ符号化及び復号は、周波数帯又は変換係数のグループについて行われると想定されている。これは、チャネルの処理が周波数帯において行われることを想定する。周波数依存の係数を伴う任意のダウンミックスは、以下のように表すことができる。
Figure 2010540985
ここで、インデックスmは、周波数帯のサンプルをインデックス付けする。本発明の精神から逸脱することなく、適応型の時変重み係数αb及びβbと共に、もっと複雑なダウンミキシング方式が用いられてもよい。
これ以降、インデックスn、m又はbを伴わない信号L、R及びMに言及する場合に、典型的には、時間領域又は周波数領域の信号表現のいずれか一方を用いて実装されうる一般概念を記載する。しかし、時間領域の信号に言及する場合に、小文字を用いるのが一般的である。下記の記述で、例示的な時間領域信号にサンプル・インデックスnで明示的に言及する場合に、主に小文字l(n)、r(n)及びm(n)を用いるであろう。
モノラル・チャネルが生成されると、モノラル・チャネルは、一般にメイン・エンコーダ102−Aと呼ばれる下位レイヤのモノラル・コーデックへと供給される。メイン・エンコーダ102−Aは、エンコーダ部103−Aにおいて、量子化されたビットストリーム(Q0)を生成するために、入力信号Mを符号化し、そしてまた、局所復号されたモノラル信号
Figure 2010540985
を局所合成器104−Aにおいて生成する。次いで、ステレオ・エンコーダが、局所復号されたモノラル信号を用いてステレオ信号を生成する。
後続の処理ステージの前に、知覚的重み付けを採用することが有利である。そうすれば、信号のうち知覚的に重要な部分が自動的により高い解像度で符号化される。復号ステージで重み付けは反転されるであろう。この例示的な実施形態では、メイン・エンコーダは、局所復号されたモノラル信号用だけでなくステレオ入力チャネルL及びR用としても抽出されて再利用される知覚的重み付けフィルタを有すると想定される。知覚モデルのパラメータがメイン・エンコーダのビットストリームと共に送信されるため、知覚的重み付けのための追加ビットは必要ない。また、異なるモデル、例えばバイノーラル・オーディオ知覚を考慮に入れるモデルを用いることも可能である。一般に、そのステージの符号化の方法にとってそれが有利であるならば、各符号化ステージについて異なる重み付けを適用することができる。
ステレオ符号化方式/エンコーダは好適には二つのステージを有する。本明細書ではチャネル予測器105−Aと呼ばれる第1ステージは、局所復号されたモノラル信号
Figure 2010540985
を入力として使用しつつ、左チャネル
Figure 2010540985
及び
右チャネル
Figure 2010540985
の相関を推定して予測値を提供することによって、ステレオ信号の相関成分を処理する。プロセスにおいて、チャネル予測器105−Aは、量子化されたビットストリーム(Q1)を生成する。元の入力信号L及びRから予測値
Figure 2010540985
及び
Figure 2010540985
を差し引くことによって、各チャネルのステレオ予測誤差εL及びεRが算出される。予測値は、局所復号されたモノラル信号
Figure 2010540985
に基づくことから、予測残差はステレオ予測誤差とモノラル・コーデックからの符号化誤差との両方を含むだろう。本明細書では複合残差エンコーダ106−Aと呼ばれる次のステージにおいて、複合誤差信号がさらに分析されて量子化され(Q2)、それによってエンコーダは、ステレオ予測誤差とモノラル符号化誤差との相関を利用できるだけでなく、二つのエンティティ間のリソースを共有できるようになる。
量子化されたビットストリーム(Q0、Q1、Q2)は、復号側への送信のために、インデックス多重化部107−Aによって収集される。
ステレオ信号の二つのチャネルは、多くの場合、非常に良く似ており、従って、予測技術をステレオ符号化に適用することは有益である。復号されたモノラル・チャネル
Figure 2010540985
は、デコーダで利用可能であるだろうから、予測の目的は、この信号から左右のチャネルのペアを再構築することである。
Figure 2010540985
エンコーダでの元の入力信号から予測値を差し引くと、誤差信号のペア
Figure 2010540985
が形成されるだろう。
MMSEの観点では、誤差ベクトル[εL εRTを最小化することによって最適予測値が得られる。時変FIRフィルタ
Figure 2010540985
を用いることによって時間領域でこの解を求めることができる。
周波数領域における同様の算出は、次式のように書くことができる。
Figure 2010540985
ここで、HL(b,k)とHR(b,k)とは、周波数帯bの係数kについてのフィルタ
Figure 2010540985

Figure 2010540985
との周波数応答であり、
Figure 2010540985

Figure 2010540985

Figure 2010540985
とは、時間信号
Figure 2010540985

Figure 2010540985

Figure 2010540985
との変換後の相手方である。
周波数領域処理の利点には位相の明示的な制御を行うということが含まれるが、それはステレオ知覚に関連する(非特許文献14)。低周波数領域では位相情報は大いに関連するが、高周波数では不要でありうる。また、知覚的に関連する周波数の解決策を与えるサブバンド分割に適応させることもできる。周波数領域処理の欠点は、時間/周波数変換の複雑性及び遅延要件である。これらのパラメータがクリティカルである場合には、時間領域アプローチが望ましい。
本発明のこの例示的な実施形態によって対象とされるコーデックについて、コーデックの最上位レイヤは、MDCT領域にあるSNR拡張レイヤである。MDCTについての遅延要件は、すでに低レイヤにおいて明らかにされており、従って、処理の一部を再利用することができる。このため、MDCT領域がステレオ処理のために選択される。変換符号化には大いに適しているが、明示的な位相制御を行わないため、ステレオ信号処理には若干の欠点がある。さらに、隣接フレームが本質的に依存性であるため、MDCTの時間エイリアシング特性によって、予期せぬ結果がもたらされるかもしれない。他方、周波数依存のビット割当てについての柔軟性はやはり高い。
ステレオ処理については、周波数スペクトルは好適には処理帯域に分割される。AACパラメトリック・ステレオでは、処理帯域は、人間の聴覚のクリティカルな帯域幅に合致するように選択される。利用可能なビットレートが低いため、選択される帯域はより少なく且つより広くなるが、帯域幅は、やはりクリティカルな帯域幅に比例する。帯域幅をbで表すと、予測値は次式のように書ける。
Figure 2010540985
ここでkは帯域bにおけるMDCT係数のインデックスを表し、mは時間領域のフレーム・インデックスを表す。
平均2乗誤差の意味で[LbbTに近い、wb(m)についての解は次式ある。
Figure 2010540985
ここで、E[・]は、平均化演算子を表すとともに、任意の時間周波数変数の一例として、所定の時間周波数領域全体の平均化として定義される。例えば次式のようである。
Figure 2010540985
また、平均化は、周波数帯bを越えて拡張されてもよい。
予測パラメータを導出する際に符号化されたモノラル信号を利用することは、算出の際の符号化誤差を含む。MMSEの観点からは賢明ではあるけれども、これによって、知覚的に厄介なステレオ・イメージの不安定さが引き起こされる。このため、予測パラメータは、予測値からモノラル誤差を除外する未処理のモノラル信号に基づく。
Figure 2010540985
予測パラメータの低ビットレート符号化を容易にするために、さらなる簡略化を行う。符号化はMDCT領域で行われるため、信号は実数値となるであろうし、それゆえ、予測因子w’b(m)もそうであろう。複数の予測因子は、一つのパンニング角度ψb(m)へと結合される。
Figure 2010540985
この角度は、図7A、Bに説明されるように、L/R信号空間における解釈を有する。この角度は、[0,π/2]という範囲に限定される。[π/2,π]という範囲内の角度ならば、チャネルが相関防止されていることを意味するであろうが、それは大半のステレオ録音にとって、可能性が低い状況である。従って、ステレオ・パンニングは、L/R平面における角度として表されうる。
図7Bは、各ドットが所与の時間インスタンスn(L(n),R(n))におけるステレオ・サンプルを表す散布図である。この散布図は、所定の角度を成す太い線に沿って広がるサンプルを示している。チャネルがL=Rに等しい場合に、ドットは、ψ=π/4の角度で一本の線上に広がるであろう。ここでは、音がわずかに左側にパンニングされることから、点の分布はψのより小さい値の方へ傾く。
図6は、本発明の別の例示的な実施形態によるステレオ符号器の概略ブロック図である。図6の例示的なステレオ符号器100−Bは基本的に、ダウンミキサ101−Bと、メイン・エンコーダ102−Bと、いわゆるサイド予測器105−Bと、複合残差エンコーダ106−Bと、インデックス多重化部107−Bとを含む。メイン・エンコーダ102−Bは、エンコーダ部103−Bと、局所合成器104−Bとを含む。メイン・エンコーダ102−Bは第1の符号化プロセスを実装し、チャネル予測器105−Bは第2の符号化プロセスを実装する。複合残差エンコーダ106−Bは、別の補助的な符号化プロセスを実装する。ステレオ符号化では、チャネルは通常、左右の信号l(n)及びr(n)によって表される。しかし、等価な表現として、モノラル信号m(n)(メイン信号の特殊なケース)とサイド信号s(n)とがある。両方の表現は等価であり、通常、以下の従来の行列演算によって関係付けられる。
Figure 2010540985
図6に説明される特定の例において、サイド信号s(n)を推定値
Figure 2010540985
によって表現するために、いわゆるチャネル間予測(ICP)がサイド予測器105−Bにおいて採用されるが、これは以下の式のようにN個のフィルタ係数ht(i)を有する時変FIRフィルタH(z)を通じてモノラル信号m(n)をフィルタリングすることによって得られてもよい。
Figure 2010540985
エンコーダで導出されるICPフィルタは、例えば、サイド信号予測誤差の平均2乗誤差(MSE)か、関連する性能尺度、例えば、心理音響的に重み付けされた平均2乗誤差を最小化することによって推定されてもよい。MSEは典型的には、次式で与えられる。
Figure 2010540985
ここで、Lはフレームサイズであり、NはICPフィルタの長さ/次数/次元である。簡単に言えば、ICPフィルタの性能は、従ってMSEの大きさは、最終のステレオ分離を判定する主要な要因である。サイド信号は左右のチャネル間の差を記述するので、十分に広いステレオ・イメージを保証するためには、忠実なサイド信号の再構築が欠かせない。
モノラル信号m(n)は、メイン・エンコーダ102−Bのエンコーダ103−Bによって符号化されて量子化され(Q0)、通常通り復号側へ転送される。サイド信号予測のためのサイド予測器105−BのICPモジュールは、復号側への転送のために量子化される(Q1)FIRフィルタ表現H(z)を提供する。サイド信号予測誤差εSを符号化及び/又は量子化することによって(Q2)、さらなる品質が得られる。残差誤差が量子化される場合に、符号化は、もはや純粋なパラメトリックとは言及されず、従って、サイド・エンコーダはハイブリッド・エンコーダと呼ばれることに留意されたい。さらに、いわゆるモノラル信号符号化誤差εmは、複合残差エンコーダ106−Bにおいてサイド信号予測誤差εsと一緒に生成されて解析される。このエンコーダ・モデルは、多かれ少なかれ、図5に関連して記述したモデルと等価である。
複合誤差符号化
本発明の例示的な実施形態において、チャネル間相関又は他の信号依存性を抽出することを目指して、複合誤差信号に関して分析が行われる。分析結果は好適には、複合誤差のチャネルの無相関化/直交化を行う変換を導出するために用いられる。
例示的な実施形態において、誤差成分が直交化される際に、変換された誤差成分は個別に量子化されうる。好適には、変換された誤差「チャネル」のエネルギー・レベルがチャネル間のビット割当てを実行する際に用いられる。また、ビット割当ては、知覚重要度又は他の重み付け要因を考慮に入れてもよい。
元の入力信号からステレオ予測値を差し引いて、予測残差[εL εRTを生成する。この残差は、ステレオ予測誤差とモノラル符号化誤差との両方を含む。モノラル信号は、以下の式のように、元の信号と符号化雑音との合計として書かれうると想定する。
Figure 2010540985
次いで、帯域bについての予測誤差は、(フレーム・インデックスmと帯域係数kとを省略すると)以下のように書ける。
Figure 2010540985
ここでは、二つの誤差成分が識別されうる。第1に、ステレオ予測誤差
Figure 2010540985
である。これは、とりわけ、拡散音場成分、すなわち、モノラル信号とはまったく相関関係のない成分を有する。第2の成分は、モノラル符号化誤差に関するものであり、そして、モノラル信号についての符号化雑音に比例する。
Figure 2010540985
モノラル符号化誤差は、パンニング因子を用いて相異なるチャネルに分散されることに留意されたい。
これら二つの誤差のソースは、一見すると非依存で無相関であるように見えるけれども、左右のチャネルの二つの誤差
Figure 2010540985
を相関させるであろう。二つの誤差の相関行列は、次式として導出されうる。
Figure 2010540985
これは、究極的には、左右のチャネルの誤差が相関されることを示す。二つの信号が無相関でない限り、二つの誤差を別々に符号化することは最適ではないことが理解される。従って、相関ベースの複合誤差符号化を採用することが適切である。
好適且つ例示的な実施形態では、主成分分析(PCA)のような技術又は同様の変換技術をこのプロセスの中で用いることができる。
PCAは、分析のため多次元のデータ集合を低次元に縮小するのに用いられる技術である。応用分野によっては、離散カルーネン・レーブ変換(あるいはKLT)と呼ばれることもある。
KLTは、数学的には、データのいずれかの投影による最も大きい分散が第1の座標上に位置し(第1の主成分と呼ばれる)、2番目に大きい分散が第2の座標上に位置し、以下同様となるようにデータを新たな座標系に変換する直交線形変換と定義される。
KLTは、より低次の主成分を保持し、より高次の主成分を無視することにより、その分散に一番貢献するデータ集合のこれらの特性を維持することによって、データ集合における次元縮小に用いられうる。そのような低次の成分は、データの「最重要」側面を含むことが多い。しかし、用途によっては、これは必ずしもそうとは限らない。
上記のステレオ符号化の例で、残差誤差は、2×2カルーネン・レーブ(KLT)を用いることによって、無相関化/直交化されうる。これは、この2次元の場合の単純な演算である。従って、誤差は次式のように分解されうる。
Figure 2010540985
ここで、
Figure 2010540985
は、KLT変換(角度θb(m)を平面内で回転)であり、
Figure 2010540985
は、
Figure 2010540985
となる二つの無相関成分である。
この表現で、相関残差誤差を、一つが他の成分よりも大きいエネルギーを有するような誤差の二つの無相関ソースに暗示的に変換した。
この表現は、二つの成分を符号化するためのビット割当てを行う方法を暗示的に提供する。ビットは好適には、最大の分散を有する無相関成分に割り当てられる。第2の成分は、そのエネルギーが無視できるか又は非常に低い場合に、場合によっては無視されうる。これは、実際には、無相関誤差成分の一つだけを量子化することが可能であることを意味する。
二つの成分
Figure 2010540985
をどのようにして符号化するかの様々な方式が実装されうる。
例示的な実施形態では、最も大きい成分
Figure 2010540985
が、例えばスカラ量子化器又は格子量子化器を用いることによって、量子化されて符号化される。最も低い成分が無視される一方で、すなわち、そのエネルギー以外の第2の成分
Figure 2010540985
のゼロビット量子化が、この成分を人工的にシミュレートするために、デコーダにおいて必要であろう。言い換えると、ここで、量子化のための第1の誤差成分と第2の誤差成分のエネルギーの指標とを選択するために、エンコーダが構成される。
本実施形態は、トータルのビット割当量では、両方のKLT成分の適切な量子化が可能でない場合に有益である。
デコーダにおいて、
Figure 2010540985
の成分が復号され、一方で、適切なエネルギーで雑音注入を用いることによって
Figure 2010540985
の成分がシミュレートされ、受信されたレベルにレベルを調整する利得算出モジュールを用いることによってエネルギーが設定される。また、利得は、直接に量子化されることもできるし、利得量子化の任意の先行技術を用いてもよい。雑音注入は、(量子化された形式でデコーダにおいて利用可能な)
Figure 2010540985
によって無相関化されており、かつ、
Figure 2010540985
と同じエネルギーを有しているという制約を用いて雑音成分を生成する。二つの残差のエネルギー分散を維持するために、無相関化の制約が重要である。事実、雑音置換と
Figure 2010540985
との間のいかなる量の相関も、相関のミスマッチにつながるであろうし、二つの復号されたチャネル上の知覚バランスを阻害して、ステレオ幅に影響を及ぼすであろう。
従って、この特定の例において、いわゆる残差ビットストリームは、第1の量子化された無相関成分と、第2の無相関成分のエネルギー指標とを含み、いわゆる変換ビットストリームはKLT変換の表現を含み、第1の量子化された無相関成分は復号され、第2の無相関成分は示されたエネルギーにおいて雑音注入によってシミュレートされる。次いで、逆KLT変換は、第1の復号された無相関成分と、シミュレートされた第2の無相関成分と、KLT変換表現に基づいて相関残差誤差信号を生成する。
別の実施形態において、
Figure 2010540985
の両方の符号化は、低周波数帯で行われ、他方、高周波数帯については
Figure 2010540985
は破棄され、デコーダにおいて、高周波数帯についてだけ直交雑音注入が用いられる。
図9A〜Hは、八つの帯域を用いる特定のフレームについてのL/R信号平面における例示的な散布図である。低帯域では、サイド信号成分が誤差の大半を占める。これは、モノラル・コーデックとステレオ予測とが良好なステレオ・レンダリングを行ったことを示す。高帯域では、モノラル誤差が優勢である。楕円は、相関値を用いた推定サンプル分布を示す。
Figure 2010540985
を符号化する以外に、KLT行列(すなわち、二つのチャネルの場合のKLT回転角)が符号化される必要がある。実験的に、KLT角が以前に定義されたパンニング角ψb(m)に相関することが示された。これは、差分量子化を設計するために、すなわち、差θb(m)−ψb(m)を量子化するために、KLT角θb(m)を符号化する場合に有利である。
複合又は連結誤差空間の作成によって、さらなる適応と最適化とが可能になる。
・各周波数帯についてKLTのような非依存の変換を可能にすることによって、この方式は、様々な周波数について相異なる方針を適用することができる。メイン・(モノラル・)コーデックが、所定の周波数範囲について悪い性能を示す場合に、メイン・(モノラル・)コーデックが良い性能を有するようなステレオ・レンダリングに注目しつつ、その範囲を修正するためにリソースがリダイレクトされてもよい(図9A〜H)。
・バイノーラル・マスキング・レベル差(BMLD、非特許文献14)に依存する周波数重み付けを導入することによって。この周波数重み付けはさらに、人間の聴覚系のマスキング特性を利用するために、一方のKLT成分を他方に対して強調してもよい。
可変ビットレート・パラメータ符号化
本発明の例示的な実施形態において、好適にはデコーダへ送信されるパラメータは、二つの回転角、すなわちパンニング角ψbとKLT角θbとである。典型的には各サブバンドについて一組の角度が用いられ、パンニング角ψbのベクトルとKLT角θbのベクトルとが生成される。例えば、これらのベクトルの要素が共通のスカラ量子化器を用いて個別に量子化される。次いで、予測方式が量子化器のインデックスに適用されうる。この方式は好適には、評価されて選択された閉ループである二つのモードを有する。
1.時間予測。各帯域についての予測器は、前のフレームからのインデックスである。
2.周波数予測。各インデックスが中央値インデックスに対して量子化される。
モード1は、フレーム間の条件が安定している場合に、良い予測をもたらす。遷移時又は開始時には、モード2が、より良い予測を行うことがある。選択された方式は、1ビットを用いてデコーダへ送信される。予測に基づいてデルタ・インデックスの集合が算出される。
デルタ・インデックスはさらに、エントロピー符号の一種であるユニタリ符号を用いて符号化される。これは、より小さな値に対してより短い符号語を割り当てるもので、その結果、安定したステレオ条件が、より低いパラメータ・ビットレートを生じさせるであろう。
Figure 2010540985
デルタ・インデックスは量子化器の境界を用いることによって、図8に説明されるように、ラップ・アラウンド・ステップが考慮されてもよい。
図10は、図5のステレオ・エンコーダに対応するステレオ・デコーダの概要を説明するする概略図である。図10のステレオ・デコーダは、基本的に、インデックス逆多重化部201−Aと、モノラル・デコーダ202−Aと、予測部203−Aと、逆量子化(deQ)と雑音注入と直交化とオプションの利得算出と逆KLT変換(KLT−1)とに基づいて動作する残差誤差復号部204−Aと、残差追加部205−Aとを含む。残差誤差復号部204−Aの動作の例は上述した。モノラル・デコーダ202−Aは第1の復号プロセスを実装し、予測部203−Aは第2の復号プロセスを実装する。残差誤差復号部204−Aは、残差追加部205−Aと共に、左右のステレオ・チャネルを最終的に再構築する第3の復号プロセスを実装する。
すでに示したように、本発明は、ステレオ音響(2チャネル)符号化及び復号に適用できるだけでなく、一般に複数の(すなわち、少なくとも二つの)チャネルに適用できる。三つ以上のチャネルを備えた例は、5.1(前左、前中央、前右、後左、後右、及びサブウーファ)又は2.1(左、右、及び中央サブウーファ)マルチチャネル・サウンドの符号化/復号が含まれるが、これらに限定されない。
次に、例示的な実施形態に関してではあるが一般的なマルチチャネルの文脈で本発明を説明する概略図である図11を参照しよう。図11のマルチチャネル・エンコーダ100−C全体には基本的に、ダウンミキサ101−Cと、メイン・エンコーダ102−Cと、パラメトリック・エンコーダ105−Cと、残差算出部108−Cと、複合残差エンコーダ106−Cと、量子化ビットストリーム収集器107−Cとが含まれる。メイン・エンコーダ102−Cは典型的に、エンコーダ部103−Cと、局所合成器104−Cとを含む。メイン・エンコーダ102−Cは第1の符号化プロセスを実装し、パラメトリック・エンコーダ105−Cは(残差算出部108−Cと共に)第2の符号化プロセスを実装する。複合残差エンコーダ106−Cは、第3の補助的な符号化プロセスを実装する。
本発明は、ダウンミックス品質だけでなくステレオ空間品質も、一貫且つ統合された方法で暗示的に精緻化するという概念に基づく。
本発明は、チャネル数を削減するチャネルのダウンミキシングに基づいてマルチチャネル信号を符号化する方法及びシステムを提供する。ダウンミキサ101−Cにおけるダウンミックスは一般に、入力チャネル数pを、より少ないダウンミックス・チャネル数qへと削減するプロセスである。ダウンミックスは、時間的領域又は周波数領域で行われる入力チャネルの任意線形又は非線形の組み合わせであってもよい。ダウンミックスは信号特性に適応させることができる。
ダウンミックスされたチャネルは、メイン・エンコーダ102−Cによって、より詳細には、そのエンコーダ部103−Cによって符号化され、結果として生じる量子化されたビットストリームは通常、メイン・ビットストリーム(Q0)と呼ばれる。局所合成器モジュール104−Cからの局所復号されたダウンミックス後のチャネルは、パラメトリック・エンコーダ105−Cへ供給される。パラメトリック・マルチチャネル・エンコーダ105−Cは、典型的には、ダウンミックス・チャネルと元のマルチチャネル信号との間の相関の分析を行うように構成され、その結果として、元のマルチチャネル信号の予測を行う。結果として生じる量子化されたビットストリームは通常、予測器ビットストリーム(Q1)と呼ばれる。モジュール108−Cによる残差算出は、結果として、残差誤差信号の集合を生じる。
本明細書では複合残差エンコーダ106−Cと呼ぶ次の符号化ステージは、予測されたマルチチャネル信号と元のマルチチャネル信号との間の複合誤差の複合残差符号化を扱う。予測マルチチャネル信号は、局所復号されたダウンミックス・チャネルに基づくことから、複合予測残差は、空間予測誤差とメイン・エンコーダからの符号化雑音との両方を含むだろう。次の符号化ステージ106−Cでは、複合誤差信号が分析され、変換され、量子化されて(Q2)、本発明がマルチチャネル予測誤差と局所復号されたダウンミックス信号の符号化誤差との間の相関を利用できるようにするだけでなく、符号化されたダウンミックス・チャネルとマルチチャネル出力の空間知覚との両方を一様に精緻化するための利用可能なリソースを暗示的に共有できるようにする。複合誤差エンコーダ106−Cは基本的に、いわゆる量子化された変換ビットストリーム(Q2-A)と量子化された残差ビットストリーム(Q2-B)とを提供する。
メイン・エンコーダ102−Cのメイン・ビットストリームと、パラメトリック・エンコーダ105−Cの予測器ビットストリームと、残差誤差エンコーダ106−Cの変換ビットストリーム及び残差ビットストリームとは、復号側へ送信するための全ビットストリーム(Q)を提供するために収集器すなわち多重化器107−Cへ転送される。
提案される符号化方式の利点は、それが、信号特性に適応し、かつ、リソースが最も必要とされるところへリダイレクトされる可能性があることである。また、提案される符号化方式は、必要な量子化された情報に対する主観的ひずみを低くする可能性があり、追加の圧縮遅延をほとんど消費させない解決策を示す。
本発明はまた、マルチチャネル入力信号と類似したマルチチャネル出力信号を再構築するためにエンコーダにおいて抽出される情報を利用することができる複数のステージの復号手順を含むマルチチャネル・デコーダに関する。
図12の例で説明されるように、デコーダ200−B全体は、符号化側からの全ビットストリームを受信するための受信器部201−Bと、メイン・ビットストリームに応じて、対応するエンコーダにおいて局所復号されたダウンミックス信号と同じ(q個のチャネルを有する)復号されたダウンミックス信号を生成するメイン・デコーダ202−Bとを含む。復号されたダウンミックス信号は、マルチチャネル・エンコーダにおいて導出されて用いられた(予測器ビットストリームからの)パラメータと共に、パラメトリック・マルチチャネル・デコーダ203−Bへ入力される。パラメトリック・マルチチャネル・デコーダ203−Bは、エンコーダで予測されたチャネルと同じ、p個の予測されたチャネルの集合を再構築するために予測を行う。
残差誤差デコーダ204−Bの形式のデコーダの最終ステージは、ここでは変換ビットストリームと量子化された残差ビットストリームとの形式で提供されるエンコーダからの符号化された残差信号の復号を処理する。また、エンコーダがビットレートの制約に起因して残差におけるチャネル数を減少させたかもしれないこと、又は、一部の信号がそれほど重要ではないと考えられて、これらのn個のチャネルが符号化されず、それらのエネルギーだけがビットストリームを介して符号化された形式で送信されたことを考慮に入れる。マルチチャネル入力信号のエネルギーの一貫性とチャネル間相関とを維持するために、直交信号置換が行われてもよい。残差誤差デコーダ204−Bは、相関された残差誤差成分を再構築するために、残差逆量子化と、直交置換と、逆変換とに基づいて動作するように構成される。パラメトリック・マルチチャネル・デコーダ203−Bからの復号されたチャネルに対して相関残差誤差成分を残差追加部205−Bに追加させることによって、デコーダ全体の復号されたマルチチャネル出力信号が生成される。
符号化/復号は、フレーム毎に行われることが多いが、ビット割当てと符号化/復号とをサイズ可変フレーム上で行うことも可能であり、それによって、信号に適応して最適化されたフレーム処理が可能になる。
上記の実施形態は、単に例として与えられているのであって、本発明はそれらに限定されていないと考えられるべきである。
略語
AAC 先進的音響符号化(Advanced Audio Coding)
AAC−BSAC 先進的音響符号化−ビット・スライス算術符号化(Advanced Audio Coding-Bit-Sliced Audio Coding)
ADPCM 適応差分パルス符号変調(Adaptive Differential Pulse Code Modulation)
AMR 適応マルチレート(Adaptive Multi Rate)
AMR−NB 狭帯域適応マルチレート(AMR NarrowBand)
AMR−WB 広帯域適応マルチレート(AMR WideBand)
AMR−BWS AMR帯域幅スケーラブル(AMR-BandWidth Scalable)
AOT オーディオ・オブジェクト・タイプ(Audio Object Type)
BCC バイノーラル・キュー符号化(Binaural Cue Coding)
BMLD バイノーラル・マスキング・レベル差分(Binaural Masking Level Difference)
CELP 符号励振線形予測(Code Excited Linear Prediction)
EV エンベデッド可変ビットレート(Embedded VBR(Variable Bit Rate))
EVRC 拡張可変レートコーダ(Enhanced Variable Rate Coder)
FIR 有限インパルス応答(Finite Impulse Response)
GSM 移動体通信のための全世界システム(Groupe Special Mobile;Global System for Mobile communications)
ICP チャネル間予測(Inter Channel Prediction)
KLT カルーネン・レーベ変換(Karhunen-Loeve Transform)
LSB 最下位ビット(Least significant Bit)
MD−AMR マルチディスクリプションAMR(Multi Description AMR)
MDCT 修正離散コサイン変換(Modified Discrete Cosine Transform)
MPEG ムービング・ピクチャ・エキスパート・グループ(Moving Picture Experts Group)
MPEG−SLS MPEGスケーラブル・ロスレス(MPEG-Scalable to Lossless)
MSB 最上位ビット(Most Significant Bit)
MSE 平均2乗誤差(Mean Squared Error)
MMSE 最小平均2乗誤差(Minimum MSE)
PCA 主成分分析(Principal Components Analysis)
PS パラメトリック・ステレオ(Parametric Stereo)
RTP リアルタイムプロトコル(Real-Time Protocol)
SNR 信号対雑音比(Signal-to-Noise Ratio)
VMR 可変マルチレート(Variable Multi Rate)
VoIP IP音声(Voice over Internet Protocol)
xDSL xディジタル加入者線(x Digital Subscriber Line)

Claims (30)

  1. マルチチャネル・オーディオ信号のオーディオ入力チャネル集合の信号表現について動作し、第1の符号化プロセスと第2の符号化プロセスとを含む少なくとも二つの信号符号化プロセスを伴う符号化手順全体に基づくマルチチャネル・オーディオ符号化方法であって、
    前記第1の符号化プロセスの符号化誤差の表現を含む局所復号された信号を生成するために、前記第1の符号化プロセスに関連して局所合成を実行する工程と、
    少なくとも前記局所復号された信号を前記第2の符号化プロセスの入力として適用する工程と、
    前記符号化手順のうち前記第2の符号化プロセスを含む少なくとも一つから、少なくとも二つの残差符号化誤差信号を生成する工程と、
    前記残差誤差信号間の相関に基づいて、さらなる符号化プロセスにおいて前記残差誤差信号の複合残差符号化を実行する工程と
    を有することを特徴とするマルチチャネル・オーディオ符号化方法。
  2. 前記複合残差符号化を実行する工程は、
    対応する無相関誤差成分を生成する変換によって前記相関残差誤差信号を無相関化する工程と、
    前記無相関誤差成分の少なくとも一つを量子化する工程と、
    前記変換の表現を量子化する工程と
    を含むことを特徴とする請求項1に記載のマルチチャネル・オーディオ符号化方法。
  3. 前記無相関誤差成分の少なくとも一つを量子化する工程は、前記誤差成分のエネルギー・レベルに基づいて前記無相関誤差成分にビット割り当てを実行する工程を含むことを特徴とする請求項2に記載のマルチチャネル・オーディオ符号化方法。
  4. 前記変換はカルーネン・レーベ変換(KLT)であることを特徴とする請求項2に記載のマルチチャネル・オーディオ符号化方法。
  5. 前記変換の前記表現はKLT回転角の表現を含み、前記第2の符号化プロセスはパンニング角に加えられる予測パラメータを生成し、前記パンニング角と前記KLT回転角とは量子化されていることを特徴とする請求項4に記載のマルチチャネル・オーディオ符号化方法。
  6. 前記パンニング角と前記KLT回転角とは差分量子化によって一緒に量子化されていることを特徴とする請求項5に記載のマルチチャネル・オーディオ符号化方法。
  7. 前記少なくとも二つの残差符号化誤差信号は前記第2の符号化プロセスから生成されるを有することを特徴とする請求項1に記載のマルチチャネル・オーディオ符号化方法。
  8. 前記入力チャネル集合の第1の信号表現は前記第1の符号化プロセスにおいて符号化され、
    前記入力チャネルの少なくとも一部のうち、少なくとも一つの付加的な信号表現は、前記局所復号された信号を前記第2の符号化プロセスへの入力として用いつつ、前記第2の信号符号化プロセスにおいて符号化され、
    前記残差誤差信号は、前記残差信号間の相関に基づいて複合誤差分析を含む複合誤差符号化プロセスにおいて処理される
    ことを特徴とする請求項1に記載のマルチチャネル・オーディオ符号化方法。
  9. 前記第1の符号化プロセスはモノラル符号化プロセスのようなメイン符号化プロセスであり、前記第2の符号化プロセスはステレオ符号化プロセスのような補助的な符号化プロセスであることを特徴とする請求項1に記載のマルチチャネル・オーディオ符号化方法。
  10. マルチチャネル・オーディオ信号のオーディオ入力チャネル集合の信号表現について動作し、第1のエンコーダと第2のエンコーダとを含む少なくとも二つのエンコーダを備えるマルチチャネル・オーディオ符号化装置であって、
    前記第1のエンコーダの符号化誤差の表現を含む局所復号された信号を生成するために、前記第1のエンコーダに関連する局所合成のための手段と、
    少なくとも前記局所復号された信号を前記第2のエンコーダへの入力として適用する手段と、
    前記第1のエンコーダと前記第2のエンコーダとのうち前記第2のエンコーダを含む少なくとも一方から、少なくとも二つの残差符号化誤差信号を生成する手段と、
    前記残差誤差信号間の相関に基づいて、前記残差誤差信号の複合残差符号化のための複合残差エンコーダと
    を備えることを特徴とするマルチチャネル・オーディオ符号化装置。
  11. 前記複合残差エンコーダは、
    対応する無相関誤差成分を生成する変換を用いて前記相関残差誤差信号を無相関化する手段と、
    前記無相関誤差成分の少なくとも一つを量子化する手段と、
    前記変換の表現を量子化する手段と
    を含むことを特徴とする請求項10に記載のマルチチャネル・オーディオ符号化装置。
  12. 前記無相関誤差成分の少なくとも一つを量子化する手段は、前記誤差成分のエネルギー・レベルに基づいて前記無相関誤差成分にビット割り当てを実行するように構成されていることを特徴とする請求項11に記載のマルチチャネル・オーディオ符号化装置。
  13. 前記変換はカルーネン・レーベ変換(KLT)であることを特徴とする請求項11に記載のマルチチャネル・オーディオ符号化装置。
  14. 前記変換の前記表現はKLT回転角の表現を含み、前記第2のエンコーダはパンニング角に加えられる予測パラメータを生成するように構成されており、前記符号化装置は、前記パンニング角と前記KLT回転角とを量子化するように構成されていることを特徴とする請求項13に記載のマルチチャネル・オーディオ符号化装置。
  15. 前記パンニング角と前記KLT回転角とを差分量子化によって一緒に量子化するように構成されていることを特徴とする請求項14に記載のマルチチャネル・オーディオ符号化装置。
  16. 前記少なくとも二つの残差符号化誤差信号は前記第2のエンコーダから生成されることを特徴とする請求項10に記載のマルチチャネル・オーディオ符号化装置。
  17. 前記第1のエンコーダは、前記入力チャネル集合の第1の信号表現を符号化するように構成されており、
    前記第2のエンコーダは、前記局所復号された信号を前記第2のエンコーダへの入力として用いつつ、前記入力チャネルの少なくとも一部のうち、少なくとも一つの付加的な信号表現を符号化するように構成されており、
    前記複合残差エンコーダは、前記残差信号間の相関に基づいて複合誤差分析を含む前記残差誤差信号の処理を行うように構成されている
    ことを特徴とする請求項10に記載のマルチチャネル・オーディオ符号化装置。
  18. 前記第1のエンコーダはモノラル・エンコーダのようなメイン・エンコーダであり、前記第2のエンコーダはステレオ・エンコーダのような補助的なエンコーダであることを特徴とする請求項10に記載のマルチチャネル・オーディオ符号化装置。
  19. 前記複合残差エンコーダは、ステレオ予測誤差とモノラル符号化誤差との間の相関に基づいて動作するように構成されていることを特徴とする請求項18に記載のマルチチャネル・オーディオ符号化装置。
  20. マルチチャネル・オーディオ信号の再構築のための入来ビットストリームについて動作し、第1の復号プロセスと第2の復号プロセスとを含む少なくとも二つの信号復号プロセスを伴う復号手順全体に基づくマルチチャネル・オーディオ復号方法であって、
    相関残差誤差信号を生成するために、無相関残差誤差信号情報を表す入来残差ビットストリームに基づいて、さらなる復号プロセスにおいて複合残差復号を実行する工程と、
    マルチチャネル・オーディオ信号を生成するために、前記第1の復号プロセスと前記第2の復号プロセスとのうち前記第2の復号プロセスを含む少なくとも一方からの復号されたチャネル表現に前記相関残差誤差信号を加える工程と
    を有することを特徴とするマルチチャネル・オーディオ復号方法。
  21. 前記第1の復号プロセスは、入来メイン・ビットストリームに基づいて復号されたダウンミックス信号を生成するメイン・デコーダの復号プロセスであり、前記第2の復号プロセスは、前記復号されたダウンミックス信号と入来予測ビットストリームとに基づいて予測チャネル集合を再構築するパラメトリック・マルチチャネル・デコーダの復号プロセスであることを特徴とする請求項20に記載のマルチチャネル・オーディオ復号方法。
  22. 前記さらなる復号プロセスにおいて複合残差復号を実行する工程は、前記入来残差ビットストリームに基づいて残差逆量子化を実行する工程と、前記相関残差誤差信号を生成するために入来変換ビットストリームに基づいて直交信号置換及び逆変換を実行する工程とを含むことを特徴とする請求項20又は21に記載のマルチチャネル・オーディオ復号方法。
  23. 前記逆変換は逆カルーネン・レーベ変換(KLT)であることを特徴とする請求項22に記載のマルチチャネル・オーディオ復号方法。
  24. 前記入来残差ビットストリームは量子化された第1の無相関成分と第2の無相関成分のエネルギーの指標とを含み、前記変換ビットストリームは前記KLT変換の表現を含み、量子化された前記第1の無相関成分は復号されており、前記第2の無相関成分は前記示されたエネルギーで雑音注入を行うことによってシミュレートされ、前記逆KLT変換は前記第1の復号された無相関成分とシミュレートされた前記第2の無相関成分と前記KLT変換表現とに基づいて前記相関残差誤差信号を生成することを特徴とする請求項23に記載のマルチチャネル・オーディオ復号方法。
  25. マルチチャネル・オーディオ信号の再構築のための入来ビットストリームについて動作し、第1のデコーダと第2のデコーダとを含む少なくとも二つのデコーダを備えるマルチチャネル・オーディオ復号装置であって、
    相関残差誤差信号を生成するために、無相関残差誤差信号情報を表す入来残差ビットストリームに基づいて、複合残差復号を実行するように構成された複合残差デコーダと、
    マルチチャネル・オーディオ信号を生成するために、前記第1のデコーダと前記第2のデコーダとのうち前記第2のデコーダを含む少なくとも一方からの復号されたチャネル表現に前記相関残差誤差信号を加えるように構成された加算モジュールと
    を備えることを特徴とするマルチチャネル・オーディオ復号装置。
  26. 前記第1のデコーダは、入来メイン・ビットストリームに基づいて復号されたダウンミックス信号を生成するメイン・デコーダであり、前記第2のデコーダは、前記復号されたダウンミックス信号と入来予測ビットストリームとに基づいて予測チャネル集合を再構築するパラメトリック・マルチチャネル・デコーダであることを特徴とする請求項25に記載のマルチチャネル・オーディオ復号装置。
  27. 前記複合残差デコーダは、
    前記入来残差ビットストリームに基づいた残差逆量子化のための手段と、
    前記相関残差誤差信号を生成するための入来変換ビットストリームに基づいた直交信号置換及び逆変換のための手段と
    を含むことを特徴とする請求項25又は26に記載のマルチチャネル・オーディオ復号装置。
  28. 前記逆変換は逆カルーネン・レーベ変換(KLT)であることを特徴とする請求項27に記載のマルチチャネル・オーディオ復号装置。
  29. 前記入来残差ビットストリームは量子化された第1の無相関成分と第2の無相関成分のエネルギーの指標とを含み、前記変換ビットストリームは前記KLT変換の表現を含み、前記複合残差デコーダは量子化された前記第1の無相関成分を復号するとともに、前記第2の無相関成分を前記示されたエネルギーで雑音注入を行うことによってシミュレートするように構成されており、前記逆KLT変換は前記第1の復号された無相関成分とシミュレートされた前記第2の無相関成分と前記KLT変換表現とに基づいて前記相関残差誤差信号を生成することを特徴とする請求項28に記載のマルチチャネル・オーディオ復号装置。
  30. 請求項10乃至19のいずれか1項に記載のオーディオ符号化装置と請求項25乃至29のいずれか1項に記載のオーディオ復号装置とを備えるオーディオ送信システム。
JP2010525778A 2007-09-19 2008-04-17 マルチチャネル・オーディオのジョイント強化 Expired - Fee Related JP5363488B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US96017507P 2007-09-19 2007-09-19
US60/960,175 2007-09-19
PCT/SE2008/000272 WO2009038512A1 (en) 2007-09-19 2008-04-17 Joint enhancement of multi-channel audio

Publications (3)

Publication Number Publication Date
JP2010540985A true JP2010540985A (ja) 2010-12-24
JP2010540985A5 JP2010540985A5 (ja) 2011-05-12
JP5363488B2 JP5363488B2 (ja) 2013-12-11

Family

ID=40468142

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010525778A Expired - Fee Related JP5363488B2 (ja) 2007-09-19 2008-04-17 マルチチャネル・オーディオのジョイント強化

Country Status (7)

Country Link
US (1) US8218775B2 (ja)
EP (1) EP2201566B1 (ja)
JP (1) JP5363488B2 (ja)
KR (1) KR101450940B1 (ja)
CN (1) CN101802907B (ja)
PL (1) PL2201566T3 (ja)
WO (1) WO2009038512A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012141412A (ja) * 2010-12-28 2012-07-26 Fujitsu Ltd 符号器、符号化方法および符号化プログラム
JP2016529544A (ja) * 2013-07-22 2016-09-23 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. ジョイント符号化残留信号を用いたオーディオエンコーダ、オーディオデコーダ、方法、およびコンピュータプログラム
JP2022516374A (ja) * 2019-01-11 2022-02-25 ブームクラウド 360 インコーポレイテッド サウンドステージを保全するオーディオチャネルの加算
JP2022523414A (ja) * 2019-03-05 2022-04-22 オランジュ 回転の補間と量子化による空間化オーディオコーディング

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8452587B2 (en) * 2008-05-30 2013-05-28 Panasonic Corporation Encoder, decoder, and the methods therefor
EP2293292B1 (en) * 2008-06-19 2013-06-05 Panasonic Corporation Quantizing apparatus, quantizing method and encoding apparatus
US8644526B2 (en) 2008-06-27 2014-02-04 Panasonic Corporation Audio signal decoding device and balance adjustment method for audio signal decoding device
KR101428487B1 (ko) * 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
KR101756834B1 (ko) * 2008-07-14 2017-07-12 삼성전자주식회사 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
WO2010042024A1 (en) 2008-10-10 2010-04-15 Telefonaktiebolaget Lm Ericsson (Publ) Energy conservative multi-channel audio coding
WO2010091555A1 (zh) * 2009-02-13 2010-08-19 华为技术有限公司 一种立体声编码方法和装置
EP2224425B1 (en) * 2009-02-26 2012-02-08 Honda Research Institute Europe GmbH An audio signal processing system and autonomous robot having such system
US20100223061A1 (en) * 2009-02-27 2010-09-02 Nokia Corporation Method and Apparatus for Audio Coding
BRPI1009467B1 (pt) * 2009-03-17 2020-08-18 Dolby International Ab Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo
GB2470059A (en) 2009-05-08 2010-11-10 Nokia Corp Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter
CN101556799B (zh) * 2009-05-14 2013-08-28 华为技术有限公司 一种音频解码方法和音频解码器
WO2010140306A1 (ja) * 2009-06-01 2010-12-09 三菱電機株式会社 信号処理装置
US20120072207A1 (en) * 2009-06-02 2012-03-22 Panasonic Corporation Down-mixing device, encoder, and method therefor
KR101613975B1 (ko) * 2009-08-18 2016-05-02 삼성전자주식회사 멀티 채널 오디오 신호의 부호화 방법 및 장치, 그 복호화 방법 및 장치
KR101641684B1 (ko) * 2009-08-18 2016-07-21 삼성전자주식회사 디지털 멀티미디어 방송의 전송 장치 및 방법, 수신 장치 및 방법
EP2492911B1 (en) * 2009-10-21 2017-08-16 Panasonic Intellectual Property Management Co., Ltd. Audio encoding apparatus, decoding apparatus, method, circuit and program
US8942989B2 (en) * 2009-12-28 2015-01-27 Panasonic Intellectual Property Corporation Of America Speech coding of principal-component channels for deleting redundant inter-channel parameters
JP5299327B2 (ja) * 2010-03-17 2013-09-25 ソニー株式会社 音声処理装置、音声処理方法、およびプログラム
MX2012011532A (es) 2010-04-09 2012-11-16 Dolby Int Ab Codificacion a estereo para prediccion de complejos basados en mdct.
EP2572499B1 (en) * 2010-05-18 2018-07-11 Telefonaktiebolaget LM Ericsson (publ) Encoder adaption in teleconferencing system
CN102280107B (zh) * 2010-06-10 2013-01-23 华为技术有限公司 边带残差信号生成方法及装置
JP5581449B2 (ja) * 2010-08-24 2014-08-27 ドルビー・インターナショナル・アーベー Fmステレオ無線受信機の断続的モノラル受信の隠蔽
WO2012065081A1 (en) * 2010-11-12 2012-05-18 Polycom, Inc. Scalable audio in a multi-point environment
EP2661746B1 (en) * 2011-01-05 2018-08-01 Nokia Technologies Oy Multi-channel encoding and/or decoding
US9460729B2 (en) 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
CN105976824B (zh) * 2012-12-06 2021-06-08 华为技术有限公司 信号解码的方法和设备
US20150025894A1 (en) * 2013-07-16 2015-01-22 Electronics And Telecommunications Research Institute Method for encoding and decoding of multi channel audio signal, encoder and decoder
TWI634547B (zh) 2013-09-12 2018-09-01 瑞典商杜比國際公司 在包含至少四音訊聲道的多聲道音訊系統中之解碼方法、解碼裝置、編碼方法以及編碼裝置以及包含電腦可讀取的媒體之電腦程式產品
US9088447B1 (en) * 2014-03-21 2015-07-21 Mitsubishi Electric Research Laboratories, Inc. Non-coherent transmission and equalization in doubly-selective MIMO channels
KR101641645B1 (ko) * 2014-06-11 2016-07-22 전자부품연구원 오디오 소스 분리 방법 및 이를 적용한 오디오 시스템
EP3067885A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
US10499229B2 (en) * 2016-01-24 2019-12-03 Qualcomm Incorporated Enhanced fallback to in-band mode for emergency calling
EP3208800A1 (en) * 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
FR3048808A1 (fr) * 2016-03-10 2017-09-15 Orange Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal
US10057681B2 (en) 2016-08-01 2018-08-21 Bose Corporation Entertainment audio processing
US10217468B2 (en) * 2017-01-19 2019-02-26 Qualcomm Incorporated Coding of multiple audio signals
US10362332B2 (en) * 2017-03-14 2019-07-23 Google Llc Multi-level compound prediction
US11176954B2 (en) * 2017-04-10 2021-11-16 Nokia Technologies Oy Encoding and decoding of multichannel or stereo audio signals
CN107483194A (zh) * 2017-08-29 2017-12-15 中国民航大学 基于非零脉冲位置和幅度信息的g.729语音信息隐藏算法
CN114420139A (zh) * 2018-05-31 2022-04-29 华为技术有限公司 一种下混信号的计算方法及装置
CN118192925A (zh) 2018-08-21 2024-06-14 杜比国际公司 即时播放帧(ipf)的生成、传输及处理的方法、设备及系统
KR102501233B1 (ko) * 2018-10-22 2023-02-20 삼성에스디에스 주식회사 화상 회의 서비스 방법 및 이를 수행하기 위한 장치
JP7092050B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 多地点制御方法、装置及びプログラム
CN110718211B (zh) * 2019-09-26 2021-12-21 东南大学 一种基于混合压缩卷积神经网络的关键词识别系统
JPWO2022009505A1 (ja) * 2020-07-07 2022-01-13

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6629078B1 (en) * 1997-09-26 2003-09-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method of coding a mono signal and stereo information
JP2005522721A (ja) * 2002-04-10 2005-07-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ステレオ信号の符号化
WO2006070751A1 (ja) * 2004-12-27 2006-07-06 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
WO2006089570A1 (en) * 2005-02-22 2006-08-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Near-transparent or transparent multi-channel encoder/decoder scheme

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434948A (en) * 1989-06-15 1995-07-18 British Telecommunications Public Limited Company Polyphonic coding
NL9100173A (nl) 1991-02-01 1992-09-01 Philips Nv Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting.
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
US6125348A (en) * 1998-03-12 2000-09-26 Liquid Audio Inc. Lossless data compression with low complexity
US7231054B1 (en) * 1999-09-24 2007-06-12 Creative Technology Ltd Method and apparatus for three-dimensional audio display
SE519985C2 (sv) 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
SE519981C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
EP1500084B1 (en) * 2002-04-22 2008-01-23 Koninklijke Philips Electronics N.V. Parametric representation of spatial audio
EP1595247B1 (en) 2003-02-11 2006-09-13 Koninklijke Philips Electronics N.V. Audio coding
EP1851866B1 (en) 2005-02-23 2011-08-17 Telefonaktiebolaget LM Ericsson (publ) Adaptive bit allocation for multi-channel audio encoding
US9626973B2 (en) * 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
WO2006109113A2 (en) 2005-04-12 2006-10-19 Acol Technologies Sa Primary optic for a light emitting diode

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6629078B1 (en) * 1997-09-26 2003-09-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method of coding a mono signal and stereo information
JP2005522721A (ja) * 2002-04-10 2005-07-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ステレオ信号の符号化
WO2006070751A1 (ja) * 2004-12-27 2006-07-06 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
WO2006089570A1 (en) * 2005-02-22 2006-08-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Near-transparent or transparent multi-channel encoder/decoder scheme

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
VAN DER WAAL, R. G. ET. AL.: ""Subband coding of stereophonic digital audio signals"", ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 1991. ICASSP-91., 1991 INTERNATIONAL CONFERENCE ON, vol. 5, JPN6012052413, April 1991 (1991-04-01), pages 3601 - 3604, XP008146163, ISSN: 0002349313 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012141412A (ja) * 2010-12-28 2012-07-26 Fujitsu Ltd 符号器、符号化方法および符号化プログラム
JP2016529544A (ja) * 2013-07-22 2016-09-23 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. ジョイント符号化残留信号を用いたオーディオエンコーダ、オーディオデコーダ、方法、およびコンピュータプログラム
US9940938B2 (en) 2013-07-22 2018-04-10 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
US9953656B2 (en) 2013-07-22 2018-04-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
US10147431B2 (en) 2013-07-22 2018-12-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
US10741188B2 (en) 2013-07-22 2020-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
US11657826B2 (en) 2013-07-22 2023-05-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
JP2022516374A (ja) * 2019-01-11 2022-02-25 ブームクラウド 360 インコーポレイテッド サウンドステージを保全するオーディオチャネルの加算
JP7038921B2 (ja) 2019-01-11 2022-03-18 ブームクラウド 360 インコーポレイテッド サウンドステージを保全するオーディオチャネルの加算
JP2022523414A (ja) * 2019-03-05 2022-04-22 オランジュ 回転の補間と量子化による空間化オーディオコーディング
JP7419388B2 (ja) 2019-03-05 2024-01-22 オランジュ 回転の補間と量子化による空間化オーディオコーディング

Also Published As

Publication number Publication date
CN101802907B (zh) 2013-11-13
CN101802907A (zh) 2010-08-11
PL2201566T3 (pl) 2016-04-29
EP2201566B1 (en) 2015-11-11
EP2201566A1 (en) 2010-06-30
KR20100063099A (ko) 2010-06-10
WO2009038512A1 (en) 2009-03-26
US8218775B2 (en) 2012-07-10
EP2201566A4 (en) 2011-09-28
JP5363488B2 (ja) 2013-12-11
KR101450940B1 (ko) 2014-10-15
US20100322429A1 (en) 2010-12-23

Similar Documents

Publication Publication Date Title
JP5363488B2 (ja) マルチチャネル・オーディオのジョイント強化
JP5608660B2 (ja) エネルギ保存型マルチチャネルオーディオ符号化
CA2997331C (en) Method and system for encoding a stereo sound signal using coding parameters of a primary channel to encode a secondary channel
JP5536674B2 (ja) 入力データストリームのミキシング及びそこからの出力データストリームの生成
JP5171256B2 (ja) ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
JP5215994B2 (ja) 損失エンコ−ドされたデータ列および無損失拡張データ列を用いた、原信号の無損失エンコードのための方法および装置
JP5413839B2 (ja) 符号化装置および復号装置
JP5706445B2 (ja) 符号化装置、復号装置およびそれらの方法
JPWO2005106848A1 (ja) スケーラブル復号化装置および拡張レイヤ消失隠蔽方法
WO2008000901A1 (en) Scalable audio coding
Gayer et al. A guideline to audio codec delay
KR101462293B1 (ko) 고정된 배경 잡음의 평활화를 위한 방법 및 장치
US8930197B2 (en) Apparatus and method for encoding and reproduction of speech and audio signals
JPWO2008132826A1 (ja) ステレオ音声符号化装置およびステレオ音声符号化方法
JPWO2008090970A1 (ja) ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
Li et al. Efficient stereo bitrate allocation for fully scalable audio codec

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110317

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121005

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121205

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130405

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130430

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130716

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130812

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130905

R150 Certificate of patent or registration of utility model

Ref document number: 5363488

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees