JP2016523377A - オーディオ信号を符号化する方法及び装置並びにオーディオ信号を復号する方法及び装置 - Google Patents

オーディオ信号を符号化する方法及び装置並びにオーディオ信号を復号する方法及び装置 Download PDF

Info

Publication number
JP2016523377A
JP2016523377A JP2016517237A JP2016517237A JP2016523377A JP 2016523377 A JP2016523377 A JP 2016523377A JP 2016517237 A JP2016517237 A JP 2016517237A JP 2016517237 A JP2016517237 A JP 2016517237A JP 2016523377 A JP2016523377 A JP 2016523377A
Authority
JP
Japan
Prior art keywords
hoa
surround sound
bitstream
signal
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016517237A
Other languages
English (en)
Other versions
JP6377730B2 (ja
Inventor
ヤクス,ペーター
クルーガー,アレクサンダー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2016523377A publication Critical patent/JP2016523377A/ja
Application granted granted Critical
Publication of JP6377730B2 publication Critical patent/JP6377730B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)

Abstract

本発明は、HOAコンテンツの階層的な符号化のための新しい概念を導入する。階層的なオーディオビットストリームを符号化する方法は、HOA入力信号をサラウンドサウンドへとレンダリングするステップと、ベースレイヤ出力信号についてサラウンドサウンドを符号化するステップと、符号化されたサラウンドサウンドを復号して、再構成されたサラウンドサウンド信号を得るステップと、HOA入力信号に対して次元削減を実行するステップと、次元削減されたHOA信号と再構成されたサラウンドサウンド信号との間の残差を計算するステップと、残差を符号化するステップと、HOA入力信号に関する構造情報、符号化された残差、及び符号化されたサラウンドサウンドをビットストリームへと多重化して、階層的なオーディオビットストリームを得るステップとを有する。

Description

本発明は、オーディオ信号を符号化する方法、オーディオ信号を符号化する装置、オーディオ信号を復号する方法、及びオーディオ信号を復号する装置に関する。
高次アンビソニックス(HOA;Higher-Order Ambisonics)の圧縮は、科学文献において深く探求されていない。従って、本項目は、HOAコンテンツの自己完結型圧縮のための例となる最新のモノリシック・アーキテクチャを紹介する。このアーキテクチャは、中間レベル(例えば、256kbit/s)にある高分解能の空間音響シーンの高レベル(例えば、1.5Mbit/s)データレートへの高品質の符号化を可能にすることが、広範囲にわたる試験によって確認されている。本項目で与えられる背景情報は、このアーキテクチャを踏まえて階層的な概念を理解するのに必要である。
図1は、符号器側から見た自己完結型HOA圧縮についての概念を表す。図において与えられる数及びパラメータは例である点に留意されたい。例えば、コーデック・アーキテクチャは、ここでは、4次HOAコンテンツ(N=4)の符号化のために示されており、完全な3D表現のために(N+1)=25に等しいオーディオチャンネルを必要とする。同じ概念は、N=1以上のあらゆるHOA次数の符号化のために利用できる。同様に、次元削減(dimensionality reduction)の後の取り出された“オーディオチャンネル”の数8は、大きさの程度を明らかにするであろう例となる数である。なお、この8という数(平均して)は、次数N=4のHOAコンテンツを符号化する際に適切であることが分かっている。
符号化プロセスは、互いからある程度独立している2つの段に分けられる。第1の段10は、次元削減段である。それは、入力されたHOAコンテンツを解析し、それをより少ない数のドミナントサウンド成分へと分解することによって信号の次元を減らす。いささか抽象的な用語“サウンド成分(sound components)”は、結果として得られる信号が必ずしもサウンドオブジェクト、特定の空間方向又はアンビエンスに対応しないために使用される(なお、それらは、実際には、特別の場合にはそうすることができる。)。
情報理論から、少なくとも複雑なオーディオシーンについて、この段10の出力で提供される情報は、入力された情報よりも体系的に少ないことが知られている。次元削減段10は、(1)入力されたオーディオシーンの固有の冗長性を可能な限り利用することによって、情報損失が最小限にされるように、且つ、(2)無関連性が低減されるように、動作する。すなわち、出力信号は、入力されたコンテンツに対する再構成されたオーディオシーンの知覚的な差が最小限にされるほど十分な情報を依然として運ぶ。この段10は、時間により変化し且つ信号に適応した信号処理を利用する。その出力信号の数は、パラメータ化及び信号特性に応じて、同じく適応的であることができる。
第2の符号化段11は、モノラルオーディオ信号のための複数(この場合は、8つ)の並列な知覚符号器のバンクを有する。それらの符号器は、個々のドミナントサウンド成分を符号化し、時間−周波数符号化の原理(これは、1990年代以降に確立された。)を用いて動作する。例えば、MPEG−4アドバンスド・オーディオ・コーディング(AAC;Advanced Audio Coding)符号器のバンクが、第2の符号化段11で利用されてよい。符号器の実装は、全体的な符号器制御ブロックがそれらのコア・コーデックの特定のパラメータ(例えば、平均ビットレート、ウィンドウ切替動作、ビットリザーバ(bit reservoir)のサイズ、スペクトル帯域複製の挙動、等)に作用することを可能にするために、わずかに変更される必要がある。このアーキテクチャは、既存のコーデックの実装及び対応する最適化の再利用を最大限に促すことによって、HOAコーデックを実装するのに必要な設計労力を最小限とすることから、選択されてきた。
完全な符号器の動作は、符号器制御段12によって制御される。ここで、知覚オーディオシーン解析が実行され、他の信号処理段を駆動及び制御するために必要とされるパラメータを決定する。特に、この制御インスタンスは、データレートリソースの大域的最適化に関与し、そして、それは、全体として優れたレート歪み性能を達成するのに欠かせない。最後に、第2の符号化段11の結果として得られるビットストリーム、及び符号器制御段12からのサイド情報は、マルチプレクサ(MUX)13で単一の出力ビットストリームへと多重化される。
他/サラウンドサウンドフォーマットとの少なくとも基本的な互換性を可能にする方法でHOAコンテンツを符号化することが望ましい。図1に示されているアーキテクチャの1つの問題は、それがHOAフォーマット信号にしか適用可能でないことである。本発明は、サラウンドサウンドフォーマットと後方互換性があるビットストリームをもたらす、HOAコンテンツの階層的な符号化のための新しい概念、方法及び装置を導入する。
特に、本発明は、他の既存のサラウンドサウンド復号器と後方互換性がある階層的なビットストリームに含まれる高分解能の空間オーディオコンテンツを符号化する解決法を開示する。結果として得られるビットストリームは、従来のサラウンドサウンド復号器が利用される場合は従来のサラウンドサウンドへと復号し、一方、本発明の一実施形態に従う新しい高度な復号器は、その全く同じビットストリームを完全な3Dオーディオ(すなわち、サラウンドサウンドを超えるもの)へと復号することができる。原理上は、ビットストリームは、ベースレイヤ及びエンハンスメントレイヤを有する。符号化及び復号化の両方の間、サラウンドサウンド表現からの情報は、エンハンスメントレイヤの高品位オーディオ信号を符号化/復号するために利用される。
階層的なオーディオビットストリームを復号する方法は、請求項1において開示される。階層的なオーディオビットストリームを符号化する方法は、請求項4において開示される。階層的なオーディオビットストリームを復号する装置は、請求項7において開示される。階層的なオーディオビットストリームを符号化する装置は、請求項11において開示される。
一実施形態において、本発明は、コンピュータで実行される場合に、該コンピュータに、請求項1に記載の復号化方法を実行させる実行可能命令を記憶したコンピュータ可読記憶媒体に関する。一実施形態において、本発明は、コンピュータで実行される場合に、該コンピュータに、請求項4に記載の符号化方法を実行させる実行可能命令を記憶したコンピュータ可読記憶媒体に関する。
一実施形態において、本発明は、プロセッサ及びメモリを有し、前記メモリが、前記プロセッサで実行される場合に、該プロセッサに、請求項1に記載の復号化方法を実行させる実行可能命令を記憶しているデバイスに関する。一実施形態において、本発明は、プロセッサ及びメモリを有し、前記メモリが、前記プロセッサで実行される場合に、該プロセッサに、請求項4に記載の符号化方法を実行させる実行可能命令を記憶しているデバイスに関する。
一実施形態において、階層的なオーディオビットストリームを復号する方法は、埋込サラウンドサウンドビットストリーム及びセカンドレイヤHOAビットストリームを得るよう前記階層的なオーディオビットストリームを復調するステップであって、前記セカンドレイヤHOAビットストリームは第1及び第2のサイド情報並びに符号化された残差信号を含む、ステップと、復号されたサラウンドサウンドビットストリームを得るよう前記埋込サラウンドサウンドビットストリームを復号するステップと、前記セカンドレイヤHOAビットストリームを復号するステップとを有する。前記セカンドレイヤHOAビットストリームを復号するステップにおいて、再構成されたHOA信号は、前記復号されたサラウンドサウンドビットストリーム及び前記第1のサイド情報を用いてサウンド成分を予測するステップと、再構成されたサウンド成分を得るよう前記予測されたサウンド成分を復号された前記残差信号と重ね合わせるステップと、前記再構成されたサウンド成分及び前記第2のサイド情報を組み立て直すことによってHOAコンテンツを再構成するステップとによって得られる。
本発明の利点は、サラウンドサウンドフォーマットを含む他のフォーマットとの少なくとも基本的な互換性を可能にする方法でHOAコンテンツを符号化することを可能にする点である。
本発明に従う階層コーデックの完全な実装は、コア・コーデックのバンクのためのあらゆる利用可能な、変更可能な符号器及び復号器ブロックに依存してよく、後述されるものとは異なったコア・コーデックを使用してよいことが留意されるべきである。
本発明の有利な実施形態は、従属請求項、以下の説明及び図において開示される。
本発明の例となる実施形態は、添付の図面を参照して記載される。
HOA圧縮のための既知の符号器アーキテクチャの構造を示す。 埋込サラウンドサウンド・コーデック・ストリームを使用する階層的なHOA符号化のための例となるアーキテクチャを示す。 予測及び残差符号化による階層的なHOA符号化を示す。 知覚コア・コーデックのサイコ・アコースティック制御の変形を示す。 例となるHOA信号(“バンブルビー(Bumblebee)”)についての予測利得の時間依存挙動を示す。 様々な種類のHOAコンテンツについての大域的予測利得のヒストグラムを示す。 サラウンドサウンドデータが予め利用可能である階層的なHOA符号化の例となるアーキテクチャを示す。 階層的なHOA復号化のための例となる復号器アーキテクチャを示す。 符号化方法のフローチャートを示す。 復号化方法のフローチャートを示す。
本発明は、高次アンビソニックス(HOA)のための埋込符号化スキームのアプローチを提供する。かかるスキームの非常に魅力的な用途は、既存のサラウンドサウンド復号器と後方互換性があるビットストリームによる高分解能の空間オーディオコンテンツの分配/ブロードキャスティングである。このようなビットストリームは、既存のサラウンドサウンド復号器が利用される場合は従来のサラウンドサウンドへと復号し、一方、新しい高度な復号器は、その全く同じビットストリームから完全な3Dオーディオを復号することができる。それによって、新しいモノリシック(すなわち、自己完結)のコンテンツフォーマット及び対応する復号器の実装の大規模な展開を通常は大幅に減速させる“因果関係の分からない問題(chicken-egg problem)”は、回避され得る。コンテンツプロバイダは、現場で、すなわち、潜在的な顧客において設置された多数の復号器による下支えを有利なことに依然として享受する新しい品質のコンテンツを分配し始めることができる。
上記の用途は、階層的な符号化技術によって有効に対処される。埋込サラウンドサウンドビットストリームは、概して自己完結しているが、完全な3Dオーディオシーンに必要とされる“追加的な情報”も運ぶビットストリーム・コンテナとなる。そのような条件下での完全なオーディオシーンの高効率圧縮のための鍵は、完全な3Dオーディオシーンを所与の品質レベルで運ぶのに必要とされる総ビットレートを最小限とするために、最大量の情報が既存のサラウンドサウンド表現から利用されることである。
本発明は、HOAコンテンツの圧縮に特に注目しながら、かかる圧縮技術が如何にして働くことができるのかに関する概念及び評価を導入する。HOA表現は、費用効率が高い生産ワークフローが必要とされる用途において特に魅力的である。更には、HOA技術は、その固有のスケーラビリティと、記録又はラウドスピーカ構成への非依存性とにより、家庭への高効率配信と、顧客の家に存在し得る全ての種類の現実のラウドスピーカ構成へのフレキシブルなレンダリングとへの門戸を開く。
具体例として、1つには、ビットストリームのオーディオ部分のための総ビットレートが約128kbit/s(ステレオ)から384kbit/s(サラウンド)の範囲にあるTV放送が考えられ得る。かかるビットレートは、複雑な空間オーディオシーンが圧縮及び搬送されるべき場合に(例えば、4次のHOAコンテンツ)、早くも困難である。それらは、実際上同じ総データレートが、適当な品質においてサラウンドバージョンに加えて完全な空間オーディオシーンを運ぶために使用されるべき場合に、当然により一層困難である。本発明は、この課題を解決するために適用可能である概念を導入する。
先に簡単に紹介された自己完結型HOA圧縮のための例となる最新のアプローチは、本発明の新しい階層的概念を理解するためのシーンを設定する。
本明細書は、HOAフォーマットでそもそも記録されたコンテンツ(“原HOAコンテンツ”)の、効率的な圧縮及びレンダリングに対するその適合性に関する有利な特性のために、かかるコンテンツに注目する。とは言え、後述されるものと極めて類似した階層的な圧縮技術は、原の3Dオーディオシーン表現がチャンネル指向及び/又はオブジェクト指向のパラダイムを使用する用途のために同様に適用可能である。
以下で、HOAコンテンツの階層的な符号化についての概念が記載される。任意に、原のサウンドオブジェクトが更に入力されてよい。
提案される埋込符号化原理の実例が、図2に示されている。符号器は、2つの並列な信号経路、すなわち、入来するHOA信号からのサラウンド信号の生成及び符号化のための1つの信号経路と、HOAコンテンツの条件付き符号化のための他の信号経路とを使用する。下側の信号経路では、入来するHOA信号は、埋込サラウンド符号器(ENC;Embedded Surround Coder)21のラウドスピーカフォーマットへとレンダリング(20)される。このレンダリングは、非常にフレキシブルな様態において実施及び制御され得る。例えば、入来するHOAコンテンツの全自動レンダリングが実行されてよく、あるいは、サウンドミキサがアーティスティック・レンダリングを生成してよい。レンダリングは、時間によって変化しなくても、あるいは、時間によって変化してもよい。原理上は、サラウンド信号は、HOAコンテンツの当初のミキシングのために使用されるのとは全く異なったミキシングワークフローによっても生成され得る。なお、一般に、階層的圧縮スキームは、サラウンドサウンドビットストリームとHOAビットストリームとの間に少なくともある程度の相関関係が得られ、条件付き符号化ブロック22によって使用され得る場合にのみ、サラウンドサウンドビットストリーム及びHOAコンテンツの同時送信に対する幾らかのレート歪みの利点をもたらすことができる。これは、大半の場合に当てはまり、サラウンドサウンドビットストリームが入力されたHOAビットストリームから得られる場合に自明である。
サラウンドサウンド符号器21が埋込ビットストリームのために使用するサラウンドサウンドラウドスピーカフォーマットは、あらゆる既存の(又は新しい将来の)サラウンドフォーマット(例えば、従来の5.1サラウンド)、又は“適当な”スピーカ構成によるあらゆる雰囲気のサラウンドサウンド(例えば、異なった角度を使用する改良された5.1サラウンドサウンドフォーマット、又はあらゆる7.1フォーマット、等)に従うことができる。一般に、より独立したサウンド成分が埋込サラウンド信号に含まれことが期待され得るので、更なる効率性が、以下で紹介される条件付き符号化ブロック22から得られる。実現可能性の検討において、従来の5チャンネルサラウンド構成(チャンネル:レフト、センター、ライト、レフトサラウンド、ライトサラウンド)が使用された。
符号化されたサラウンドチャンネルは、それらがHOAコンテンツの条件付き符号化のためのサイド情報となることができるように、完全に又は部分的に復号される。簡単のために、このサラウンドチャンネル復号化は、図2には明示的に示されていない(なお、図3において以下で示される。)。条件付き符号化22は、HOAコンテンツの圧縮をより効率的にするために、サラウンドチャンネルとHOAコンテンツの間の可能な限り多くの相関関係を特定し利用する。具体的な課題及び如何にしてそれらが解決され得るかに関する更なる詳細は、以下で記載される。
条件付き符号化ブロック22によって供給される符号化されたサラウンドチャンネル及びセカンドレイヤ(エンハンスメントレイヤ)ビットストリームは、マルチプレクサ(MUX)23で多重化され、最終の出力ビットストリーム23qは、2つの符号化ブロック21及び22からの多重化されたサブビットストリームをスケーラブルな構成において有する。その中心には、埋込サラウンドサウンド符号器21のビットストリームがある。ビットストリームのこの部分は、後方互換可能な様態においてパッケージ化され、それにより、サラウンド・コーデックフォーマットに従う範囲内の如何なる既存の復号器も、HOAコーデックの余分のビットストリームを無視しながら、ビットストリームのこの部分を理解し復号することができる。加えて、出力ビットストリーム23qは、条件付きHOA符号器22によって生成されたビットストリームを含む。真に階層的な構成において、ビットストリームのこの部分は、完全なビットストリーム/コーデック・フォーマットを知っている本発明に従う復号器の実施によってのみ復号化可能である。
上記のスケーラブルな(単一)ビットストリームの定義の前提条件は、既存のサラウンド復号器によって無視されるべき新しいサブビットストリームを加えるために、改良されるサラウンド・コーデック・ビットストリームのフォーマット仕様がオープンであることである。すなわち、本発明は、そのような付加を可能にするサラウンドサウンドフォーマットに適用可能である。一般的な5.1サラウンドサウンド又は7.1サラウンドサウンドのような大部分のサラウンドフォーマットは、この条件を満たす。
図3は、埋込サラウンド信号から導出され得る情報を使用するHOA信号の符号化のための条件付き符号化スキームの一実施形態の略ブロック図を示す。図1に示されたスタンドアローンのHOA符号器に対する最も明白な変更は、サラウンドサウンド復号器37が経路間に加えられており、残差信号の予測及び計算のための新しいサブシステム35が次元削減ブロック34と後続のコア・コーデック(モノラルのコア符号器)36のバンクとの間に加えられていることである。このサブシステムは、この簡略図では、有意な性能向上を得るための鍵である。
原理上は、残差信号の予測及び計算のための新しいサブシステム35は、次元削減ブロック34によって生成されるドミナントサウンド成分を予測するために、埋込サラウンド信号からの情報を使用する予測器として働く。原ドミナントサウンド成分と予測された信号との間の差信号(以後、“残差”又は“残差信号”と称される。)は、次いで、並列なコア符号器36のバンクへ転送される。それらの符号器は、残差信号をサラウンドフォーマット(例えば、ドルビーデジタル又は5.1サラウンドサウンド)へと符号化する。あらゆる種類の線形又は非線型予測が利用されてよく、それによって、アルゴリズムの複雑性と信号の品質との間のフレキシブルなトレードオフを可能にする。予測がより良く働く場合に、残差信号は、信号エネルギが小さく、所与の品質レベルでの優れた圧縮のためにそれほど大きなデータレートを必要としない。上述されたように、ドミナントサウンド成分は、必ずしもサウンドオブジェクト、特定の空間方向又はアンビエンスに対応しない。
先に紹介された単なる予測の原理は、サラウンド信号の特性に関するサイド情報もコア符号器36のバンク内で条件付き符号化を介して(追加的に又は排他的に)利用されることから簡単にされ、このサイド情報は、ビット割り当てのために個々のコア・コーデック及び全体の符号器制御においても使用されるべきである。上記の予測のみのアプローチは、それがコア符号器の最小限の変更しか必要としないという利点を有する。
上記の予測及び残差符号化原理には、次のような善処すべき2、3の基本的な課題が存在する:
第1に、サラウンドサウンドチャンネルの次元は、通常は、HOAコンテンツの次元よりも低い。従って、情報理論の観点から、サラウンドチャンネルからのドミナントサウンド成分の完ぺきな予測は、両表現の固有の次元が、例えば、純粋に合成的にミックスされたコンテンツのために、制限される場合を除いて、実現可能であるように思われない。実際に得られる予測利得の量は、コンテンツの2つの典型的なシーケンスについて以下で評価される。
第2に、サラウンドサウンド・コーデック31、37は、HOAコンテンツの予測のために予測ブロック35へ入力されるサイド情報の基となる符号化ノイズを導入する。サラウンドチャンネルと対照的に、しかし、符号化ノイズは、サラウンドチャンネル間と同様に有用な信号と無相関であると考えられ得る。従って、符号化ノイズは、結局のところ残差信号になり、一方、残差の全体のレベルは、原のHOAコンテンツの全体のレベル以下である。それによって、残差のSNRは、サラウンドサウンド・コーデックの符号化ノイズに相当に悩まされ得る。
一例として、最新の知覚オーディオ符号化の典型的なSNRは、10〜20dBの範囲にあり、スペクトル帯域複製(SBR;Spectral Band Replication)のようなパラメトリック符号化スキームが適用されている場合には、より一層悪いということを考える。ノイズ付加の上記のメカニズムに従って、残差信号のSNRは、上記の範囲よりも相当に低い可能性がある。結果として、残差符号器は、有用な信号のためよりむしろ、サラウンドレイヤの符号化ノイズを符号化するためにデータレートを浪費する相当なリスクがある。
第3に、残差信号の知覚圧縮において、符号化された信号とマスキング信号との間の不一致が考慮されるべきである。残差信号は、次元削減によって供給される原のサウンド成分よりも低い信号レベルを有し、一方、それらのサウンド成分は、マスキング閾のサイコ・アコースティック・モデリングのための入力に依然としてなるべきである。このアーキテクチャの原理は、以下で更に説明されるように、図4で示されている。
更には、2種類の量子化ノイズ(1つは、上述されたように埋込サラウンド・コーデック31、37によって生成され、もう1つは、残差符号器の実際のバンク内の符号化動作の結果である。)は、コア・コーデック36のバンクによって最適化されるべきである。そのため、先に紹介された階層的概念は、コア・コーデックが、同じ知覚オーディオ符号化アルゴリズムのスタンドアローン適用に対して変更されることを必要とする。
後述される実現可能性の検討は、残差信号のフレーム単位でのエネルギレベルの最小化が予測ステップを適応させるための最適化基準であることにより得られた結果を示す。これは、データレートが十分に高く、且つ、電力分配が異なった周波数範囲にわたって実質的に一様であるという条件で、適切に働くむしろ率直な最適化基準である。特定の用途においてより良い代替の最適化戦略は、周波数又は変換領域において定式化された微分又は知覚エントロピーメトリックの最小化を含む。どのメトリックが成り立つかは、組み込まれたコア・コーデックのアーキテクチャに大いに依存する。
図4は、知覚コア・コーデックのサイコ・アコースティック制御の変形を示す。残差信号は、次元削減によって供給される原のサウンド成分よりも低い信号レベルを有し得るが、依然としてサウンド成分は、マスキング閾のサイコ・アコースティック・モデリングのための入力になるべきである。よって、夫々のドミナントサウンド成分についての個別的な知覚マスキング閾は、41で計算され、残差信号の知覚符号化42において使用される。このスキームは、知覚符号化において残差信号のエネルギ削減を利用するために、コア符号器36のバンクの全符号器エントリ内で実行されるべきである。
当然、予測スキームは、フレーム単位で適応され得るが、周波数依存のスキームも、残差信号の知覚オーディオ符号化のための予測の影響を最適化するために用いられ得る。かかる周波数依存のスキームは、異なった周波数バンドごとの異なったマトリクスによるフレーム単位でのマトリクス演算(時間領域における。)を使用するものである。このようにして、アルゴリズムの複雑性と、一方ではサイド情報(復号器における予測制御のため。)の量及び、他方では品質のレベルとの間のトレードオフは、調整され得る。
サイド情報に関して、次のことが考えられるべきである。
予測の概念により直接に得ることができる潜在的なビットレート節約に加えて、予測ブロックのパラメータは、復号器が圧縮されていないサウンド成分の回復のために全く同じ予測ステップを実行することができるように、ビットストリーム内でサイド情報として送信されるべきである。必要とされるデータレートの最悪の場合の評価は、次のとおりである:
図3に表されている例となる階層的なHOA符号化システムについて、予測システムは、予測を実行するために、例えば、5×8の係数マトリクスを使用してよい。マトリクスの係数は、48kHzのサンプルレートで1024個のサンプルのフレームごとに更新されている。すなわち、毎秒5×8×50=2000個の総数のパラメータが符号化され送信されるべきである。パラメータごとに8ビットによる量子化を考えると、結果として得られるサイド情報のデータレートは約16kbit/sとなり得る。
埋込サラウンドサウンドビットストリームを使用する階層的なHOA符号化の上記概念の実現可能性は、一連の実験を行うことによって確かめられてきた。以下では、根底にある制約及び前提が説明され、主たる結果は、2、3の代表的な例により明らかにされる。この目的のために、図3に表されている符号化システムのコアブロックは、実装及び/又はシミュレーションされている。5チャンネルサラウンドサウンド(レフト、センター、ライト、レフトサラウンド、ライトサラウンド)への入来するHOAコンテンツのレンダリングのために、不変のレンダリングマトリクスが利用された。それは、HOAコンテンツを直接にラウドスピーカへとレンダリングするためにも使用される。
サラウンドサウンドの符号化及び復号化の影響は、10dBの平均信号対ノイズ比(SNR)で無相関ノイズを付加することによりシミュレーションされた。このようにシミュレーションされた“符号化ノイズ”は、原のサラウンドサウンドチャンネルの周波数成分に従って適応されている線形予測フィルタによりフィルタをかけられた。結果として、符号化ノイズの周波数分布は、指定されたSNRに従って、より低い電力レベルであっても、サラウンド信号の電力スペクトラムに大まかに追随する。
予測スキームのために、線形ブロック予測が使用されている。それは、既知の信号(サラウンドサウンド)と未知の信号(ドミナントサウンド成分)との間の結合ベクトルの共分散マトリクスから求められ得る。この適応は、比較的簡単であり、平均二乗予測誤差の最小化のために調整されている。適応は、48kHzのサンプルレートでの1024個のサンプルのフレームアドバンスによりフレームごとに実行される。
客観的評価のメトリックとして、デシベルで表される成分単位での予測利得が特定された。このメトリックは、たとえ高データレート(以下参照)による適用についてのみであっても、よく知られている6dB/bitの経験則(rule-of-thumb)による対応するレート歪み改善を示すことができるという利点を備える。例えば、サウンド成分ごとに6dBの予測利得で、所与の品質によりその成分の残差を送信するために必要とされるデータレートは、原のサウンド成分の送信のためよりも1bit/sample低いことが期待され得る。この規則は、(例となる)8つの関連するサウンド成分の全てについて得られる平均予測利得に基づき現在の場合へと変換され得る。1dBの夫々の予測利得改善は、おおよそ64kbit/sまでの理論上のデータレート節約をもたらす。
結果は、代表的なシーケンスの組に基づきモンテカルロ法により決定された。予測利得は、種々の後処理ワークフローと組み合わせてアイゲンマイク(EigenMike)のようなマイクロホンアレイを用いて実施されている様々な記録とともに、異なる数のサウンドオブジェクトによる合成ミックスを有する2、3の典型的な種類のHOA信号について決定された。
たとえ上記の前提が妥当であるとしても、それらは、実際には、ある程度しか適用され得ないことが知られる。上記の前提が実際の実施において満足される可能性は、サラウンドサウンド・コーデック及びモノラル・コア・コーデックの両方の特性に大いに依存する。特定の適用のためのより正確な評価は、関与する実際のコーデックを用いて実行されてよい。
HOAシーケンス“バンブルビー”のための例となる評価結果は、図5において表されている。図5は、例となるHOA信号(“バンブルビー”)のための予測利得の時間依存挙動を示す。上の図は、夫々のフレーム(横軸)について得られる平均予測利得gmed、最小予測利得gmin及び最大予測利得gmaxに対応する3つの曲線を示す。下の図は、夫々のフレーム(横軸)について、8つのドミナントサウンドオブジェクト(夫々、縦軸上の1つの行に対応する。)の夫々についてのフレーム依存の予測利得を示す。低い利得(0dB)は暗く(すなわち、青色)、高い利得(20dB)は赤色である。マークを付された領域50a、50b、50c、50d、50eは主に赤色であり、すなわち、高い利得を示し、一方、暗い(青色)部分は低い利得を有する。他の領域では、中間の利得値が優位を占める。
それらの結果から明らかなように、予測利得は、時間により大いに変化し(しかし、常に正)、それは、符号化されるコンテンツ及び/又はドミナントサウンド成分のタイプに依存する。後者の所見は、図5の下側の図において異なるドミナントサウンド成分について観測され得る予測の根本的に異なった挙動において反映されている。
完全な“バンブルビー”シーケンスにわたって計算される全体平均の予測利得は、9.22dBである。面白いことには、9.22dBの絶対値は、埋込サラウンドサウンド・コーデックについて仮定された10dBのSNRに近い。
幾つかのHOA信号についての予測利得の統計的評価は、図6において集められている。7つのテストシーケンスの夫々について、得られた予測利得のヒストグラムは、0.5dB刻みで示されている。この評価は、異なるタイプのコンテンツごとに予測利得の異なる特性を明らかにする。例えば、コンテンツの非常に興味深い区間は、予測利得の3様のヒストグラムを示すシーケンス“Stadium 2”である。利得が全く達成され得ないも同然の多くのフレーム及び/又はドミナントサウンド成分が存在する一方で、2つの他のモードは、約3.5dB及び11.5dBの平均値を有して存在する。このヒストグラムは、このシーケンスのために使用される特定の記録及び後処理技術の結果である。それは、スポーツのスタジアムにおいて記録されたシーケンスであり、極めて拡散的である。すなわち、それは、多数の無相関の音源を有する。
実現可能性の検討の結果は、様々な種類の信号(マイクロホンアレイ記録、合成ミックス及びハイブリッド信号)について観測される5〜9dBの一貫した予測利得を示す。単一信号フレームの予測利得は、サラウンドサウンド・コーデックについてシミュレーションされたSNRよりも良い一方で、平均値のどれもが10dBの値を超えない。明らかに、サラウンドサウンド・コーデックのSNRは、達成され得る最大予測利得に対して制約を課す。この所見は、サラウンドサウンド・コーデックのシミュレーションされたSNRが同様の観測により変化したという経験によって支持される。
平均予測利得に加えて、評価結果から、予測利得は時間により大いに変化すること、及び予測の統計値は試験下の信号の種類に大いに依存することが明らかになった。実際の適用において、強力なビットリザーバ技術及びスマートな大域的ビットレート制御は、激しい時間変化に対処するのを助けるように思われる。語「ビットリザーバ技術」は、符号化される信号に応じて、利用可能なビットを時間にわたって分配する技術である。それは、信号の将来の部分のための予備にビットを取っておくことを必要とする。
高レートの想定の下で(すなわち、上記の6dBの前提が有効であるように、高ビットレートが利用可能であるとする。)、且つ、上記の経験則(予測利得のdBごとの64kbit/sのビットレート節約)によれば、特定されたレベルの予測利得は、予測なしの同時送信と比較して、最大で320〜576kbit/sまでの節約につながる。この結果は、その場合に高レートの想定が大体において有効であることから、順可逆圧縮用途にとって少なくとも有意義である。全てのHOA係数の可逆圧縮の評価については、“次元削減”ステップがこの場合には必要とされないので、別の検討が行われるべきである点に留意されたい。
低レートオーディオ圧縮は、高レート圧縮とは別なふうに働き、そのような要件の下で、同量のビットレート節約が上述されたように実現され得るとは考えられない。そのような低レートのシステムは、より正確な評価のために構築され得る。そのような低ビットレートの評価のために、特に、コア・コーデックのバンクにおいて2、3の変更を含めることが必須である。
とは言え、上記の結果は、階層的な符号化がサラウンドサウンド及びHOAコンテンツの同時送信に対して有意な利点を有すると考えることが妥当に思われることを示す。上記の予測利得及び関連する潜在的なデータレート低減は、総ビットレートがおおよそ500kbit/sの中間範囲内にある用途にとって特に有意義であると思われる。そのような用途では、潜在的なデータレート節約の量はとても重要であるが、依然として、我々は、極めて低いビットレートの用途についてよりも、高レートの想定に近い。
図7は、サラウンドサウンドデータが予め利用可能である階層的なHOA符号化の例となるアーキテクチャを示す。よって、HOA信号からサラウンドデータを導出することは起こり得ないか、あるいは、必要とされない。代わりに、芸術的な処理71が、利用可能なサラウンドサウンドデータに対して実行されてよい。例えば、付加音声、環境音、観客の拍手、等が加えられてよい。アップミックス72、73は、芸術的な処理71の前又は後のいずれかで、そのHOA表現(あるいは、二重のアップミックスが実行される場合には両方)を得るために実行されてよい。サラウンドサウンドは、サラウンドサウンド符号器74において符号化される。サラウンドサウンド符号器74は、サラウンドサウンドコンテンツから得られるサイド情報も供給する。HOA表現は、残差HOAコンテンツのセカンドレイヤビットストリームを得るよう、サイド情報に応じて、条件付きHOA符号器75において条件付き符号化される。最後に、符号化されたサラウンドサウンド76及び残差HOAコンテンツのセカンドレイヤビットストリーム77は、階層ビットストリームに、例えば、マルチプレクサ(MUX)78を用いて多重化された様態において、含められる。更なる詳細は、図3に示されたのと同様である。
図8は、階層的なHOA復号化のための例となる復号器アーキテクチャを示す。受け取られた階層ビットストリームは、デマルチプレクサ81へ入力される。デマルチプレクサは、2つのサブストリームに分ける。1つの出力81q1では、デマルチプレクサは、埋込サラウンドサウンドビットストリーム811を供給する。埋込サラウンドサウンドビットストリーム811は、従来の埋込サラウンドサウンドビットストリームである。他の出力81q2では、デマルチプレクサは、HOAコーデックのセカンドレイヤビットストリームについての残差812を供給する。セカンドレイヤビットストリームは、HOA復号化ブロック83を有さない従来の復号器では無視される。かかるHOA復号化ブロック83は、本発明に従う復号器において利用可能であり、セカンドレイヤHOAビットストリームを扱うことができる。HOA復号化ブロック83は、条件付きHOA復号器84を有する。条件付きHOA復号器84は、一実施形態では、予測のための第1のサイド情報841と、HOA再構成のための第2のサイド情報842と、復号された残差信号843とを供給する。符号化されたサラウンドサウンドビットストリームは、サラウンドサウンド復号器82へ入力される。サラウンドサウンド復号器82は、従来のサラウンドサウンド信号821を出力部へ供給する。
HOA復号化ブロック83において、従来のサラウンドサウンド信号821は、予測ブロック85においてサウンド成分を予測するために、第1のサイド情報841とともに使用される。予測ブロック85は、予測されたサウンド成分851を重ね合わせブロック86へ供給する。重ね合わせブロック86は、予測されたサウンド成分851と、条件付きHOA復号器84から伝来する復号された残差信号843との重ね合わせを実行し、再構成されたサウンド成分861をHOAコンテンツ再構成ブロック87へ供給する。HOAコンテンツ再構成ブロック87は、再構成されたサウンド成分861及び第2のサイド情報842から再構成されたHOA信号83qを生成し、再構成されたHOA信号83qをその出力部で出力する。この再構成されたHOA信号83qは、次いで、例えば、所与のラウドスピーカ配置に従って、送信され、記憶され、処理され、あるいは、HOA復号され得る。
図9は、一実施形態において、階層的なオーディオビットストリームを符号化するための方法90を示す。方法90は、HOA入力信号を受け取るステップ91と、HOA入力信号をサラウンドサウンドフォーマットへとレンダリングするステップ92であって、サラウンドサウンドミックスが得られるステップ92と、サラウンドサウンド符号器においてサラウンドサウンドミックスを符号化するステップ93であって、符号化されたサラウンドサウンドが得られるステップ93と、再構成されたサラウンドサウンド信号を得るよう、符号化されたサラウンドサウンドを復号するステップ94と、受け取られたHOA入力信号に対して次元削減95を実行するステップであって、ドミナントサウンド成分を有する次元削減されたHOA信号が得られるステップと、次元削減されたHOA信号と再構成されたサラウンドサウンド信号との間の差を計算するステップ96であって、残差信号が得られるステップ96と、モノラル符号器(すなわち、夫々の符号器がドミナントサウンド成分を符号化する複数の単一チャンネル符号器)のバンクにおいて残差信号を符号化するステップ97であって、符号化された残差が得られるステップ97と、符号器制御ブロックにおいてHOA入力信号に関する構造情報を得るステップ98と、階層的なオーディオビットストリームを得るよう、構造情報、符号化された残差、及び符号化されたサラウンドサウンドを多重化するステップ99とを有する。
図10は、一実施形態において、階層的なオーディオビットストリームを復号するための方法100を示す。方法100は、階層的なオーディオビットストリームを受け取って復調するステップ101であって、少なくとも埋込サラウンドサウンドビットストリーム及びセカンドレイヤHOAビットストリームが得られ、セカンドレイヤHOAビットストリームは第1及び第2のサイド情報並びに符号化された残差信号を有するステップ101と、復号されたサラウンドサウンドビットストリームを得るよう埋込サラウンドサウンドビットストリームを復号するステップ102と、セカンドレイヤHOAビットストリームを復号するステップ103とを有する。ステップ103において、再構成されたHOA信号は、復号されたサラウンドサウンドビットストリーム及び第1のサイド情報を用いてサウンド成分を予測するステップ105と、再構成されたサウンド成分を得るよう、予測されたサウンド成分を、復号された残差信号とを重ね合わせるステップ106(すなわち、原理上は、基本信号、すなわち、予測されたサウンド成分と、復号された残差信号を重ね合わせる又は足し合わせることによって、サウンド成分を再構成するステップ)と、再構成されたサウンド成分及び第2のサイド情報を組み立て直すことによってHOAコンテンツを再構成するステップ107であって、再構成されたHOAコンテンツが得られるステップ107とを有する。再構成されたHOAコンテンツは、エンハンスド・オーディオ信号を得るのに適しており、一方、サラウンド信号82qは、基本オーディオ信号である。原理上は、復号化は、図3の符号器又は図7の符号器のいずれかによって生成された如何なる階層ビットストリームにも適する。
図3、図7及び図8に示されている構造ブロック並びに上記の方法のステップは、ハードウェアユニットとして、ソフトウェアユニットとして、又はその複合体として実装されてよい。更に、図示されている構造ブロックのうちの2つ以上は、複数の機能を実行する単一の構造ブロックにまとめられてよい。
埋込サラウンドビットストリームを有するHOAコンテンツの階層圧縮の使用ケースが実施されており、適切な信号処理概念が更なる最適化に期待する。
旧来のサラウンド・コーデックとともにHOA圧縮を使用することにおける特定の利点は、その効率的な、後方互換可能な圧縮にある(固有のスケーラビリティ、フルサウンド場のコヒーレント表現、スキームが同様にサウンドオブジェクトを組み込むことができること)。おおよそ500kbit/sまでのデータレートの低減は、ある中間乃至高ビットレート用途及び特定の信号について期待され得る。
本発明は、単に一例として記載されてきたことが理解され、詳細の変更は、本発明の適用範囲から逸脱することなしに行われ得る。明細書並びに(必要に応じて)特許請求の範囲及び図面において記載される夫々の特徴は、独立して、又は如何なる適切な組み合わせにおいても、提供されてよい。特徴は、必要に応じて、ハードウェア、ソフトウェア、又はそれらの組み合わせにおいて実装されてよい。接続は、適用可能である場合に、無線接続又は有線(必ずしも直接的又は専用でない)接続として実装されてよい。特許請求の範囲において現れる参照符号は、単に例示にすぎず、特許請求の範囲の適用範囲を制限するものとして解釈されるべきではない。
本発明は、単に一例として記載されてきたことが理解され、詳細の変更は、本発明の適用範囲から逸脱することなしに行われ得る。明細書並びに(必要に応じて)特許請求の範囲及び図面において記載される夫々の特徴は、独立して、又は如何なる適切な組み合わせにおいても、提供されてよい。特徴は、必要に応じて、ハードウェア、ソフトウェア、又はそれらの組み合わせにおいて実装されてよい。接続は、適用可能である場合に、無線接続又は有線(必ずしも直接的又は専用でない)接続として実装されてよい。特許請求の範囲において現れる参照符号は、単に例示にすぎず、特許請求の範囲の適用範囲を制限するものとして解釈されるべきではない。
上記の実施形態に加えて、以下の付記を開示する。
(付記1)
階層的なオーディオビットストリームを復号する方法であって、
前記階層的なオーディオビットストリームを受け取って復調するステップであって、少なくとも埋込サラウンドサウンドビットストリーム及びセカンドレイヤHOAビットストリームが得られ、前記セカンドレイヤHOAビットストリームは第1及び第2のサイド情報並びに符号化された残差信号を含む、ステップと、
復号されたサラウンドサウンドビットストリームを得るよう前記埋込サラウンドサウンドビットストリームを復号するステップと、
前記セカンドレイヤHOAビットストリームを復号するステップであって、再構成されたHOA信号が、
前記復号されたサラウンドサウンドビットストリーム及び前記第1のサイド情報を用いてサウンド成分を予測するステップと、
再構成されたサウンド成分を得るよう前記予測されたサウンド成分を復号された前記残差信号と重ね合わせるステップと、
前記再構成されたサウンド成分及び前記第2のサイド情報を組み立て直すことによってHOAコンテンツを再構成するステップであって、再構成されたHOAコンテンツが得られるステップと
によって得られるステップと
を有する方法。
(付記2)
前記予測するステップは、適応予測を使用し、
前記残差信号のフレーム単位でのエネルギレベルの最小化は、前記予測を適応させるための最適化基準である、
付記1に記載の方法。
(付記3)
前記予測するステップは、周波数に依存した適応予測を使用し、異なる周波数バンドごとの異なるマトリクスによるフレーム単位でのマトリクス演算が使用される、
付記1又は2に記載の方法。
(付記4)
階層的なオーディオビットストリームを符号化する方法であって、
HOA入力信号を受け取るステップと、
前記HOA入力信号をサラウンドサウンドフォーマットへとレンダリングするステップであって、サラウンドサウンドミックスが得られるステップと、
サラウンドサウンド符号器において前記サラウンドサウンドミックスを符号化するステップであって、符号化されたサラウンドサウンドが得られるステップと、
再構成されたサラウンドサウンド信号を得るよう前記符号化されたサラウンドサウンドを復号するステップと、
前記受け取られたHOA入力信号に対して次元削減を実行するステップであって、次元削減されたHOA信号が得られるステップと、
前記次元削減されたHOA信号と前記再構成されたサラウンドサウンド信号との間の差を計算するステップであって、残差信号が得られるステップと、
複数のモノラル知覚符号器において前記残差信号を符号化するステップであって、符号化された残差が得られるステップと、
符号器制御ブロックにおいて前記HOA入力信号に関する構造情報を得るステップと、
階層的なオーディオビットストリームを得るよう前記構造情報、前記符号化された残差及び前記符号化されたサラウンドサウンドをビットストリームへと多重化するステップと
を有する方法。
(付記5)
前記複数のモノラル知覚符号器の夫々は、夫々のドミナントサウンド成分について個別的な知覚マスキング閾を計算する、
付記4に記載の方法。
(付記6)
更なるサウンドオブジェクトが、前記HOA入力をサラウンドサウンドフォーマットへとレンダリングするステップに入力される、
付記4又は5に記載の方法。
(付記7)
階層的なオーディオビットストリームを復号する装置であって、
前記階層的なオーディオビットストリームを逆多重化するデマルチプレクサであって、少なくとも埋込サラウンドサウンドビットストリーム及びセカンドレイヤHOAビットストリームが得られ、前記セカンドレイヤHOAビットストリームは第1及び第2のサイド情報並びに符号化された残差信号を含む、前記デマルチプレクサと、
復号されたサラウンドサウンドビットストリームを得るよう前記埋込サラウンドサウンドビットストリームを復号するサラウンドサウンド復号器と、
前記セカンドレイヤHOAビットストリームを復号する階層HOA復号器と
を有し、
前記階層HOA復号器は、
前記復号されたサラウンドサウンドビットストリーム及び前記第1のサイド情報を用いてサウンド成分を予測する予測ユニットと、
再構成されたサウンド成分を得るよう前記予測されたサウンド成分を復号された前記残差信号と重ね合わせる重ね合わせユニットと、
前記再構成されたサウンド成分及び前記第2のサイド情報を組み立て直すことによってHOAコンテンツを再構成するHOAコンテンツ再構成ユニットであって、再構成されたHOAコンテンツが得られる前記HOAコンテンツ再構成ユニットと
を有する、装置。
(付記8)
前記セカンドレイヤHOAビットストリームから第1のサイド情報、第2のサイド情報及び復号された残差信号を取り出す条件付きHOA復号器
を更に有する付記7に記載の装置。
(付記9)
前記予測ユニットは、適応予測を使用し、
前記残差信号のフレーム単位でのエネルギレベルの最小化は、前記予測を適応させるための最適化基準である、
付記7又は8に記載の装置。
(付記10)
前記予測ユニットは、周波数に依存した適応予測を使用し、異なる周波数バンドごとの異なるマトリクスによるフレーム単位でのマトリクス演算が使用される、
付記7乃至9のうちいずれか一つに記載の装置。
(付記11)
階層的なオーディオビットストリームを符号化する装置であって、
HOA入力信号をサラウンドサウンドフォーマットへとレンダリングするサラウンドサウンドレンダラブロックであって、サラウンドサウンドミックスが得られる前記サラウンドサウンドレンダラブロックと、
前記サラウンドサウンドミックスを符号化するサラウンドサウンド符号器であって、符号化されたサラウンドサウンドが得られる前記サラウンドサウンド符号器と、
再構成されたサラウンドサウンド信号を得るよう前記符号化されたサラウンドサウンドを復号するサラウンドサウンド復号器と、
前記HOA入力信号に対して次元削減を実行する次元削減ユニットであって、次元削減されたHOA信号が得られる前記次元削減ユニットと、
前記次元削減されたHOA信号と前記再構成されたサラウンドサウンド信号との間の差を計算する予測ユニットであって、残差信号が得られる前記予測ユニットと、
前記残差信号を符号化する複数のモノラル知覚符号器であって、該複数のモノラル知覚符号器の夫々は、前記次元削減により得られる特定のドミナント信号についての残差信号を符号化し、符号化された残差が得られる前記複数のモノラル知覚符号器と、
前記HOA入力信号に関する構造情報を得る符号器制御ブロックと、
階層的なオーディオビットストリームを得るよう前記構造情報、前記符号化された残差及び前記符号化されたサラウンドサウンドをビットストリームへと多重化するマルチプレクサと
を有する装置。
(付記12)
前記残差信号を符号化する前記複数のモノラル知覚符号器の夫々は、夫々のドミナントサウンド成分について、個別的に計算された知覚マスキング閾を使用する、
付記11に記載の装置。
(付記13)
1つ以上の更なるサウンドオブジェクトが、前記サラウンドサウンドレンダラブロックへ入力され、該サラウンドサウンドレンダラブロックは、前記HOA入力信号及び前記1つ以上の更なるサウンドオブジェクトをサラウンドサウンドフォーマットへとレンダリングする、
付記11又は12に記載の装置。
(付記14)
サラウンドサウンド符号器は、5.1サラウンドフォーマット、改良された5.1サラウンドサウンドフォーマット、ドルビーデジタル又は7.1サラウンドサウンドフォーマットを使用する、
付記7乃至13のうちいずれか一つに記載の装置。

本発明は、単に一例として記載されてきたことが理解され、詳細の変更は、本発明の適用範囲から逸脱することなしに行われ得る。明細書並びに(必要に応じて)特許請求の範囲及び図面において記載される夫々の特徴は、独立して、又は如何なる適切な組み合わせにおいても、提供されてよい。特徴は、必要に応じて、ハードウェア、ソフトウェア、又はそれらの組み合わせにおいて実装されてよい。接続は、適用可能である場合に、無線接続又は有線(必ずしも直接的又は専用でない)接続として実装されてよい。特許請求の範囲において現れる参照符号は、単に例示にすぎず、特許請求の範囲の適用範囲を制限するものとして解釈されるべきではない。
上記の実施形態に加えて、以下の付記を開示する。
(付記1)
階層的なオーディオビットストリームを復号する方法であって、
前記階層的なオーディオビットストリームを受け取って復調するステップであって、少なくとも埋込サラウンドサウンドビットストリーム及びセカンドレイヤHOAビットストリームが得られ、前記セカンドレイヤHOAビットストリームは第1及び第2のサイド情報並びに符号化された残差信号を含む、ステップと、
復号されたサラウンドサウンドビットストリームを得るよう前記埋込サラウンドサウンドビットストリームを復号するステップと、
前記セカンドレイヤHOAビットストリームを復号するステップであって、再構成されたHOA信号が、
前記復号されたサラウンドサウンドビットストリーム及び前記第1のサイド情報を用いてサウンド成分を予測するステップと、
再構成されたサウンド成分を得るよう前記予測されたサウンド成分を復号された前記残差信号と重ね合わせるステップと、
前記再構成されたサウンド成分及び前記第2のサイド情報を組み立て直すことによってHOAコンテンツを再構成するステップであって、再構成されたHOAコンテンツが得られるステップと
によって得られるステップと
を有する方法。
(付記2)
前記予測するステップは、適応予測を使用し、
前記残差信号のフレーム単位でのエネルギレベルの最小化は、前記予測を適応させるための最適化基準である、
付記1に記載の方法。
(付記3)
前記予測するステップは、周波数に依存した適応予測を使用し、異なる周波数バンドごとの異なるマトリクスによるフレーム単位でのマトリクス演算が使用される、
付記1又は2に記載の方法。
(付記4)
階層的なオーディオビットストリームを符号化する方法であって、
HOA入力信号を受け取るステップと、
前記HOA入力信号をサラウンドサウンドフォーマットへとレンダリングするステップであって、サラウンドサウンドミックスが得られるステップと、
サラウンドサウンド符号器において前記サラウンドサウンドミックスを符号化するステップであって、符号化されたサラウンドサウンドが得られるステップと、
再構成されたサラウンドサウンド信号を得るよう前記符号化されたサラウンドサウンドを復号するステップと、
前記受け取られたHOA入力信号に対して次元削減を実行するステップであって、次元削減されたHOA信号が得られるステップと、
前記次元削減されたHOA信号と前記再構成されたサラウンドサウンド信号との間の差を計算するステップであって、残差信号が得られるステップと、
複数のモノラル知覚符号器において前記残差信号を符号化するステップであって、符号化された残差が得られるステップと、
符号器制御ブロックにおいて前記HOA入力信号に関する構造情報を得るステップと、
階層的なオーディオビットストリームを得るよう前記構造情報、前記符号化された残差及び前記符号化されたサラウンドサウンドをビットストリームへと多重化するステップと
を有する方法。
(付記5)
前記複数のモノラル知覚符号器の夫々は、夫々のドミナントサウンド成分について個別的な知覚マスキング閾を計算する、
付記4に記載の方法。
(付記6)
更なるサウンドオブジェクトが、前記HOA入力をサラウンドサウンドフォーマットへとレンダリングするステップに入力される、
付記4又は5に記載の方法。
(付記7)
階層的なオーディオビットストリームを復号する装置であって、
前記階層的なオーディオビットストリームを逆多重化するデマルチプレクサであって、少なくとも埋込サラウンドサウンドビットストリーム及びセカンドレイヤHOAビットストリームが得られ、前記セカンドレイヤHOAビットストリームは第1及び第2のサイド情報並びに符号化された残差信号を含む、前記デマルチプレクサと、
復号されたサラウンドサウンドビットストリームを得るよう前記埋込サラウンドサウンドビットストリームを復号するサラウンドサウンド復号器と、
前記セカンドレイヤHOAビットストリームを復号する階層HOA復号器と
を有し、
前記階層HOA復号器は、
前記復号されたサラウンドサウンドビットストリーム及び前記第1のサイド情報を用いてサウンド成分を予測する予測ユニットと、
再構成されたサウンド成分を得るよう前記予測されたサウンド成分を復号された前記残差信号と重ね合わせる重ね合わせユニットと、
前記再構成されたサウンド成分及び前記第2のサイド情報を組み立て直すことによってHOAコンテンツを再構成するHOAコンテンツ再構成ユニットであって、再構成されたHOAコンテンツが得られる前記HOAコンテンツ再構成ユニットと
を有する、装置。
(付記8)
前記セカンドレイヤHOAビットストリームから第1のサイド情報、第2のサイド情報及び復号された残差信号を取り出す条件付きHOA復号器
を更に有する付記7に記載の装置。
(付記9)
前記予測ユニットは、適応予測を使用し、
前記残差信号のフレーム単位でのエネルギレベルの最小化は、前記予測を適応させるための最適化基準である、
付記7又は8に記載の装置。
(付記10)
前記予測ユニットは、周波数に依存した適応予測を使用し、異なる周波数バンドごとの異なるマトリクスによるフレーム単位でのマトリクス演算が使用される、
付記7乃至9のうちいずれか一つに記載の装置。
(付記11)
階層的なオーディオビットストリームを符号化する装置であって、
HOA入力信号をサラウンドサウンドフォーマットへとレンダリングするサラウンドサウンドレンダラブロックであって、サラウンドサウンドミックスが得られる前記サラウンドサウンドレンダラブロックと、
前記サラウンドサウンドミックスを符号化するサラウンドサウンド符号器であって、符号化されたサラウンドサウンドが得られる前記サラウンドサウンド符号器と、
再構成されたサラウンドサウンド信号を得るよう前記符号化されたサラウンドサウンドを復号するサラウンドサウンド復号器と、
前記HOA入力信号に対して次元削減を実行する次元削減ユニットであって、次元削減されたHOA信号が得られる前記次元削減ユニットと、
前記次元削減されたHOA信号と前記再構成されたサラウンドサウンド信号との間の差を計算する予測ユニットであって、残差信号が得られる前記予測ユニットと、
前記残差信号を符号化する複数のモノラル知覚符号器であって、該複数のモノラル知覚符号器の夫々は、前記次元削減により得られる特定のドミナント信号についての残差信号を符号化し、符号化された残差が得られる前記複数のモノラル知覚符号器と、
前記HOA入力信号に関する構造情報を得る符号器制御ブロックと、
階層的なオーディオビットストリームを得るよう前記構造情報、前記符号化された残差及び前記符号化されたサラウンドサウンドをビットストリームへと多重化するマルチプレクサと
を有する装置。
(付記12)
前記残差信号を符号化する前記複数のモノラル知覚符号器の夫々は、夫々のドミナントサウンド成分について、個別的に計算された知覚マスキング閾を使用する、
付記11に記載の装置。
(付記13)
1つ以上の更なるサウンドオブジェクトが、前記サラウンドサウンドレンダラブロックへ入力され、該サラウンドサウンドレンダラブロックは、前記HOA入力信号及び前記1つ以上の更なるサウンドオブジェクトをサラウンドサウンドフォーマットへとレンダリングする、
付記11又は12に記載の装置。
(付記14)
サラウンドサウンド符号器は、5.1サラウンドフォーマット、改良された5.1サラウンドサウンドフォーマット、ドルビーデジタル又は7.1サラウンドサウンドフォーマットを使用する、
付記7乃至13のうちいずれか一つに記載の装置。

Claims (14)

  1. 階層的なオーディオビットストリームを復号する方法であって、
    前記階層的なオーディオビットストリームを受け取って復調するステップであって、少なくとも埋込サラウンドサウンドビットストリーム及びセカンドレイヤHOAビットストリームが得られ、前記セカンドレイヤHOAビットストリームは第1及び第2のサイド情報並びに符号化された残差信号を含む、ステップと、
    復号されたサラウンドサウンドビットストリームを得るよう前記埋込サラウンドサウンドビットストリームを復号するステップと、
    前記セカンドレイヤHOAビットストリームを復号するステップであって、再構成されたHOA信号が、
    前記復号されたサラウンドサウンドビットストリーム及び前記第1のサイド情報を用いてサウンド成分を予測するステップと、
    再構成されたサウンド成分を得るよう前記予測されたサウンド成分を復号された前記残差信号と重ね合わせるステップと、
    前記再構成されたサウンド成分及び前記第2のサイド情報を組み立て直すことによってHOAコンテンツを再構成するステップであって、再構成されたHOAコンテンツが得られるステップと
    によって得られるステップと
    を有する方法。
  2. 前記予測するステップは、適応予測を使用し、
    前記残差信号のフレーム単位でのエネルギレベルの最小化は、前記予測を適応させるための最適化基準である、
    請求項1に記載の方法。
  3. 前記予測するステップは、周波数に依存した適応予測を使用し、異なる周波数バンドごとの異なるマトリクスによるフレーム単位でのマトリクス演算が使用される、
    請求項1又は2に記載の方法。
  4. 階層的なオーディオビットストリームを符号化する方法であって、
    HOA入力信号を受け取るステップと、
    前記HOA入力信号をサラウンドサウンドフォーマットへとレンダリングするステップであって、サラウンドサウンドミックスが得られるステップと、
    サラウンドサウンド符号器において前記サラウンドサウンドミックスを符号化するステップであって、符号化されたサラウンドサウンドが得られるステップと、
    再構成されたサラウンドサウンド信号を得るよう前記符号化されたサラウンドサウンドを復号するステップと、
    前記受け取られたHOA入力信号に対して次元削減を実行するステップであって、次元削減されたHOA信号が得られるステップと、
    前記次元削減されたHOA信号と前記再構成されたサラウンドサウンド信号との間の差を計算するステップであって、残差信号が得られるステップと、
    複数のモノラル知覚符号器において前記残差信号を符号化するステップであって、符号化された残差が得られるステップと、
    符号器制御ブロックにおいて前記HOA入力信号に関する構造情報を得るステップと、
    階層的なオーディオビットストリームを得るよう前記構造情報、前記符号化された残差及び前記符号化されたサラウンドサウンドをビットストリームへと多重化するステップと
    を有する方法。
  5. 前記複数のモノラル知覚符号器の夫々は、夫々のドミナントサウンド成分について個別的な知覚マスキング閾を計算する、
    請求項4に記載の方法。
  6. 更なるサウンドオブジェクトが、前記HOA入力をサラウンドサウンドフォーマットへとレンダリングするステップに入力される、
    請求項4又は5に記載の方法。
  7. 階層的なオーディオビットストリームを復号する装置であって、
    前記階層的なオーディオビットストリームを逆多重化するデマルチプレクサであって、少なくとも埋込サラウンドサウンドビットストリーム及びセカンドレイヤHOAビットストリームが得られ、前記セカンドレイヤHOAビットストリームは第1及び第2のサイド情報並びに符号化された残差信号を含む、前記デマルチプレクサと、
    復号されたサラウンドサウンドビットストリームを得るよう前記埋込サラウンドサウンドビットストリームを復号するサラウンドサウンド復号器と、
    前記セカンドレイヤHOAビットストリームを復号する階層HOA復号器と
    を有し、
    前記階層HOA復号器は、
    前記復号されたサラウンドサウンドビットストリーム及び前記第1のサイド情報を用いてサウンド成分を予測する予測ユニットと、
    再構成されたサウンド成分を得るよう前記予測されたサウンド成分を復号された前記残差信号と重ね合わせる重ね合わせユニットと、
    前記再構成されたサウンド成分及び前記第2のサイド情報を組み立て直すことによってHOAコンテンツを再構成するHOAコンテンツ再構成ユニットであって、再構成されたHOAコンテンツが得られる前記HOAコンテンツ再構成ユニットと
    を有する、装置。
  8. 前記セカンドレイヤHOAビットストリームから第1のサイド情報、第2のサイド情報及び復号された残差信号を取り出す条件付きHOA復号器
    を更に有する請求項7に記載の装置。
  9. 前記予測ユニットは、適応予測を使用し、
    前記残差信号のフレーム単位でのエネルギレベルの最小化は、前記予測を適応させるための最適化基準である、
    請求項7又は8に記載の装置。
  10. 前記予測ユニットは、周波数に依存した適応予測を使用し、異なる周波数バンドごとの異なるマトリクスによるフレーム単位でのマトリクス演算が使用される、
    請求項7乃至9のうちいずれか一項に記載の装置。
  11. 階層的なオーディオビットストリームを符号化する装置であって、
    HOA入力信号をサラウンドサウンドフォーマットへとレンダリングするサラウンドサウンドレンダラブロックであって、サラウンドサウンドミックスが得られる前記サラウンドサウンドレンダラブロックと、
    前記サラウンドサウンドミックスを符号化するサラウンドサウンド符号器であって、符号化されたサラウンドサウンドが得られる前記サラウンドサウンド符号器と、
    再構成されたサラウンドサウンド信号を得るよう前記符号化されたサラウンドサウンドを復号するサラウンドサウンド復号器と、
    前記HOA入力信号に対して次元削減を実行する次元削減ユニットであって、次元削減されたHOA信号が得られる前記次元削減ユニットと、
    前記次元削減されたHOA信号と前記再構成されたサラウンドサウンド信号との間の差を計算する予測ユニットであって、残差信号が得られる前記予測ユニットと、
    前記残差信号を符号化する複数のモノラル知覚符号器であって、該複数のモノラル知覚符号器の夫々は、前記次元削減により得られる特定のドミナント信号についての残差信号を符号化し、符号化された残差が得られる前記複数のモノラル知覚符号器と、
    前記HOA入力信号に関する構造情報を得る符号器制御ブロックと、
    階層的なオーディオビットストリームを得るよう前記構造情報、前記符号化された残差及び前記符号化されたサラウンドサウンドをビットストリームへと多重化するマルチプレクサと
    を有する装置。
  12. 前記残差信号を符号化する前記複数のモノラル知覚符号器の夫々は、夫々のドミナントサウンド成分について、個別的に計算された知覚マスキング閾を使用する、
    請求項11に記載の装置。
  13. 1つ以上の更なるサウンドオブジェクトが、前記サラウンドサウンドレンダラブロックへ入力され、該サラウンドサウンドレンダラブロックは、前記HOA入力信号及び前記1つ以上の更なるサウンドオブジェクトをサラウンドサウンドフォーマットへとレンダリングする、
    請求項11又は12に記載の装置。
  14. サラウンドサウンド符号器は、5.1サラウンドフォーマット、改良された5.1サラウンドサウンドフォーマット、ドルビーデジタル又は7.1サラウンドサウンドフォーマットを使用する、
    請求項7乃至13のうちいずれか一項に記載の装置。
JP2016517237A 2013-06-05 2014-05-27 オーディオ信号を符号化する方法及び装置並びにオーディオ信号を復号する方法及び装置 Active JP6377730B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13305756.2 2013-06-05
EP13305756 2013-06-05
PCT/EP2014/060959 WO2014195190A1 (en) 2013-06-05 2014-05-27 Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018139369A Division JP2018165841A (ja) 2013-06-05 2018-07-25 オーディオ信号を符号化する方法及び装置並びにオーディオ信号を復号する方法及び装置

Publications (2)

Publication Number Publication Date
JP2016523377A true JP2016523377A (ja) 2016-08-08
JP6377730B2 JP6377730B2 (ja) 2018-08-22

Family

ID=48672536

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016517237A Active JP6377730B2 (ja) 2013-06-05 2014-05-27 オーディオ信号を符号化する方法及び装置並びにオーディオ信号を復号する方法及び装置
JP2018139369A Pending JP2018165841A (ja) 2013-06-05 2018-07-25 オーディオ信号を符号化する方法及び装置並びにオーディオ信号を復号する方法及び装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2018139369A Pending JP2018165841A (ja) 2013-06-05 2018-07-25 オーディオ信号を符号化する方法及び装置並びにオーディオ信号を復号する方法及び装置

Country Status (6)

Country Link
US (1) US9691406B2 (ja)
EP (3) EP3923279B1 (ja)
JP (2) JP6377730B2 (ja)
KR (1) KR102228994B1 (ja)
CN (1) CN105264595B (ja)
WO (1) WO2014195190A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022137278A (ja) * 2015-10-08 2022-09-21 ドルビー・インターナショナル・アーベー 圧縮された音または音場表現のための層構成の符号化

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9716959B2 (en) 2013-05-29 2017-07-25 Qualcomm Incorporated Compensating for error in decomposed representations of sound fields
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9502045B2 (en) * 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
EP2922057A1 (en) * 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9847088B2 (en) 2014-08-29 2017-12-19 Qualcomm Incorporated Intermediate compression for higher order ambisonic audio data
US9875745B2 (en) * 2014-10-07 2018-01-23 Qualcomm Incorporated Normalization of ambient higher order ambisonic audio data
JP6355207B2 (ja) * 2015-07-22 2018-07-11 日本電信電話株式会社 伝送システム、符号化装置、復号装置、それらの方法及びプログラム
WO2017036609A1 (en) * 2015-08-31 2017-03-09 Dolby International Ab Method for frame-wise combined decoding and rendering of a compressed hoa signal and apparatus for frame-wise combined decoding and rendering of a compressed hoa signal
CN116312576A (zh) 2015-10-08 2023-06-23 杜比国际公司 声音或声场的压缩hoa表示的解码方法和装置
US9961475B2 (en) 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from object-based audio to HOA
US9961467B2 (en) * 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from channel-based audio to HOA
US10249312B2 (en) * 2015-10-08 2019-04-02 Qualcomm Incorporated Quantization of spatial vectors
TWI703558B (zh) 2015-10-08 2020-09-01 瑞典商杜比國際公司 解碼聲音或音場的壓縮高階環境立體聲聲音表徵的方法及設備
US9881628B2 (en) 2016-01-05 2018-01-30 Qualcomm Incorporated Mixed domain coding of audio
EP3220668A1 (en) * 2016-03-15 2017-09-20 Thomson Licensing Method for configuring an audio rendering and/or acquiring device, and corresponding audio rendering and/or acquiring device, system, computer readable program product and computer readable storage medium
CN107945810B (zh) * 2016-10-13 2021-12-14 杭州米谟科技有限公司 用于编码和解码hoa或多声道数据的方法和装置
WO2018081829A1 (en) * 2016-10-31 2018-05-03 Google Llc Projection-based audio coding
KR102128281B1 (ko) * 2017-08-17 2020-06-30 가우디오랩 주식회사 앰비소닉 신호를 사용하는 오디오 신호 처리 방법 및 장치
US10043530B1 (en) * 2018-02-08 2018-08-07 Omnivision Technologies, Inc. Method and audio noise suppressor using nonlinear gain smoothing for reduced musical artifacts
SG11202105719RA (en) 2018-12-07 2021-06-29 Fraunhofer Ges Forschung Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using low-order, mid-order and high-order components generators
BR112021013726A2 (pt) * 2019-01-13 2021-09-21 Huawei Technologies Co., Ltd. Método implementado por computador para realizar quantização residual, dispositivo eletrônico e meio legível por computador não transitório
CN110534120B (zh) * 2019-08-31 2021-10-01 深圳市友恺通信技术有限公司 一种移动网络环境下的环绕声误码修复方法
US11430451B2 (en) * 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects
CN113948097A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 多声道音频信号编码方法和装置
CN113948096A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 多声道音频信号编解码方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010507115A (ja) * 2006-10-16 2010-03-04 ドルビー スウェーデン アクチボラゲット 多チャネルダウンミックスされたオブジェクト符号化における強化された符号化及びパラメータ表現
JP2012133366A (ja) * 2010-12-21 2012-07-12 Thomson Licensing 二次元または三次元音場のアンビソニックス表現の一連のフレームをエンコードおよびデコードする方法および装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US7991272B2 (en) * 2005-07-11 2011-08-02 Lg Electronics Inc. Apparatus and method of processing an audio signal
KR101890229B1 (ko) * 2010-03-26 2018-08-21 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 사운드필드 표현을 디코딩하는 방법 및 장치
NZ587483A (en) * 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
CN102664970A (zh) * 2012-04-06 2012-09-12 中山大学 一种基于移动子网的分层移动IPv6的方法
US9288603B2 (en) * 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9883310B2 (en) * 2013-02-08 2018-01-30 Qualcomm Incorporated Obtaining symmetry information for higher order ambisonic audio renderers
US9685163B2 (en) * 2013-03-01 2017-06-20 Qualcomm Incorporated Transforming spherical harmonic coefficients
US9716959B2 (en) * 2013-05-29 2017-07-25 Qualcomm Incorporated Compensating for error in decomposed representations of sound fields

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010507115A (ja) * 2006-10-16 2010-03-04 ドルビー スウェーデン アクチボラゲット 多チャネルダウンミックスされたオブジェクト符号化における強化された符号化及びパラメータ表現
JP2012133366A (ja) * 2010-12-21 2012-07-12 Thomson Licensing 二次元または三次元音場のアンビソニックス表現の一連のフレームをエンコードおよびデコードする方法および装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ERIK HELLEROUD, ET AL.: "SPATIAL REDUNDANCY IN HIGHER ORDER AMBISONICS AND ITS USE FOR LOW DELAY LOSSLESS COMPRESSION", PROCEEDINGS OF THE 2009 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING(ICA, JPN6018023433, 19 April 2009 (2009-04-19), pages 269 - 272, ISSN: 0003822389 *
岩谷幸雄他: "球面調和解析による音場表現−高次アンビソニックス技術の可能性−", 日本音響学会誌, vol. 67巻,11号, JPN6018022197, 1 November 2011 (2011-11-01), pages 544 - 549, ISSN: 0003822388 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022137278A (ja) * 2015-10-08 2022-09-21 ドルビー・インターナショナル・アーベー 圧縮された音または音場表現のための層構成の符号化
JP7346676B2 (ja) 2015-10-08 2023-09-19 ドルビー・インターナショナル・アーベー 圧縮された音または音場表現のための層構成の符号化

Also Published As

Publication number Publication date
CN105264595B (zh) 2019-10-01
KR20160015245A (ko) 2016-02-12
KR102228994B1 (ko) 2021-03-17
US20160125890A1 (en) 2016-05-05
JP6377730B2 (ja) 2018-08-22
EP3503096B1 (en) 2021-08-04
EP3503096A1 (en) 2019-06-26
EP3923279B1 (en) 2023-12-27
EP3005354B1 (en) 2019-07-03
EP3923279A1 (en) 2021-12-15
WO2014195190A1 (en) 2014-12-11
CN105264595A (zh) 2016-01-20
EP3005354A1 (en) 2016-04-13
JP2018165841A (ja) 2018-10-25
US9691406B2 (en) 2017-06-27

Similar Documents

Publication Publication Date Title
JP6377730B2 (ja) オーディオ信号を符号化する方法及び装置並びにオーディオ信号を復号する方法及び装置
JP7378440B2 (ja) 圧縮されたhoa信号をデコードする方法および装置
JP6707604B2 (ja) 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置
TWI544479B (zh) 音訊解碼器、音訊編碼器、用以基於已編碼表示型態提供至少四音訊聲道信號的方法、用以基於至少四音訊聲道信號提供已編碼表示型態的方法、及使用頻寬擴展的電腦程式
JP7374969B2 (ja) 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置
JP2013174891A (ja) 高品質マルチチャネルオーディオ符号化および復号化装置

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20160826

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170516

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180626

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180725

R150 Certificate of patent or registration of utility model

Ref document number: 6377730

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250