JP6220082B2 - 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置 - Google Patents

高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置 Download PDF

Info

Publication number
JP6220082B2
JP6220082B2 JP2016557322A JP2016557322A JP6220082B2 JP 6220082 B2 JP6220082 B2 JP 6220082B2 JP 2016557322 A JP2016557322 A JP 2016557322A JP 2016557322 A JP2016557322 A JP 2016557322A JP 6220082 B2 JP6220082 B2 JP 6220082B2
Authority
JP
Japan
Prior art keywords
hoa
signal
representation
indices
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016557322A
Other languages
English (en)
Other versions
JP2017514160A (ja
Inventor
コルドン,スヴェン
クルーガー,アレクサンダー
ヴュエボボルト,オリヴァー
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2017514160A publication Critical patent/JP2017514160A/ja
Application granted granted Critical
Publication of JP6220082B2 publication Critical patent/JP6220082B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、高次アンビソニックス(HOA)信号を圧縮する方法、圧縮されたHOA信号を圧縮解除する方法、HOA信号を圧縮する装置および圧縮されたHOA信号を圧縮解除する装置に関する。
高次アンビソニックス(HOA: Higher Order Ambisonics)は三次元サウンドを表現する可能性をもたらす。他の既知の技法は波面合成(WFS: wave field synthesis)または22.2のようなチャネル・ベースの手法である。しかしながら、チャネル・ベースの方法とは対照的に、HOA表現は特定のラウドスピーカー・セットアップとは独立であるという利点をもたらす。しかしながら、この柔軟性は、特定のラウドスピーカー・セットアップでのHOA表現の再生のために必要とされるデコード・プロセスを代償とする。必要とされるラウドスピーカーの数が通例非常に多いWFS手法に比べ、HOAはほんの若干数のラウドスピーカーからなるセットアップにレンダリングされてもよい。HOAのさらなる利点は、同じ表現がヘッドフォンへのバイノーラル・レンダリングのためにも、いかなる修正もなしに用いることができるということである。
HOAは、打ち切られた球面調和関数(SH: Spherical Harmonics)展開による、複素調和平面波振幅(complex harmonic plane wave amplitudes)のいわゆる空間密度の表現に基づく。各展開係数は角周波数の関数であり、これは時間領域関数によって等価に表現できる。よって、一般性を失うことなく、完全なHOA音場表現は実際には、O個の時間領域関数からなると想定できる。ここで、Oは展開係数の数を表わす。これらの時間領域関数は、以下では、等価に、HOA係数シーケンスまたはHOAチャネルと称される。通例、x軸が正面位置を向き、y軸が左を向き、z軸が上方を向く球面座標系が使われる。空間内の位置x=(r,θ,φ)Tは動径r>0(すなわち、座標原点までの距離)、極軸zから測った傾斜角θ∈[0,π]およびxy平面においてx軸から反時計回りに測った方位角φ∈[0,2π[によって表現される。さらに、(・)Tは転置を表わす。
HOA符号化のより詳細な記述を下記に与える。
時間に対する音圧のフーリエ変換Ft(・)、すなわちωが角周波数を表わし、iが虚数単位を表わすとして、
Figure 0006220082
は、
Figure 0006220082
に従って球面調和関数の級数に展開されうる。ここで、csは音速を表わし、kは角波数を表わす。角波数は角周波数ωとk=ω/csによって関係付けられる。さらに、jn(・)は第一種の球面ベッセル関数を表わし、Sn m(θ,φ)は次数(order)nおよび陪数(degree)mの実数値の球面調和関数を表わす。展開係数An m(k)は角波数kのみに依存する。音圧が空間的に帯域制限されていることが暗黙的に想定されていることを注意しておく。よって、級数は次数インデックスnに関して上限Nで打ち切られる。このNはHOA符号化表現の次数と呼ばれる。音場が異なる角周波数ωの無限個の調和平面波の重ね合わせによって表現され、角タプル(θ,φ)によって指定されるすべての可能な方向から到来するとすると、それぞれの平面波複素振幅関数C(ω,θ,φ)は次の球面調和関数展開によって表わせる。
Figure 0006220082
ここで、展開係数Cn m(k)は展開係数An m(k)に、An m(k)=inCn m(k)によって関係付けられる。個々の係数Cn m(ω=kcs)が角周波数ωの関数であるとすると、逆フーリエ変換(F-1(・)によって表わされる)の適用は、各次数nおよび陪数mについて、時間領域関数
Figure 0006220082
を与える。これは
Figure 0006220082
によって単一のベクトルc(t)にまとめることができる。ベクトルc(t)内の時間領域関数cn m(t)の位置インデックスはn(n+1)+1+mによって与えられる。ベクトルc(t)内の全体的な要素数はO=(N+1)2によって与えられる。関数cn m(t)の離散時間バージョンはアンビソニックス係数シーケンスと称される。フレーム・ベースのHOA表現は、これらのシーケンスのすべてを、次のように、長さBおよびフレーム・インデックスkのフレームC(k)に分割することによって得られる。
Figure 0006220082
ここで、Tsはサンプリング期間を表わす。すると、フレームC(k)自身はその個々の行ci(k)、i=1,…,Oの合成として
Figure 0006220082
と表現できる。ここで、ci(k)は位置インデックスiをもつアンビソニックス係数シーケンスのフレームを表わす。
HOA表現の空間分解能は、展開の最大次数Nの増大とともに改善される。残念ながら、展開係数の数Oは次数Nとともに二次で、具体的にはO=(N+1)2として増大する。たとえば、次数N=4を使った典型的なHOA表現はO=25個のHOA(展開)係数を必要とする。これらの考察によれば、HOA表現の伝送のための全ビットレートは、所望される単一チャネル・サンプリング・レートfsおよびサンプル当たりのビット数Nbを与えられたとき、O・fs・Nbによって決定される。結果として、サンプル当たりNb=16ビットを用いてfs=48kHzのサンプリング・レートで次数N=4のHOA表現を伝送することは、19.2MBits/sのビットレートにつながる。これは、たとえばストリーミングのような多くの実際的な用途にとって非常に高い。このように、HOA表現の圧縮がきわめて望ましい。
これまで、HOA音場表現の圧縮は欧州特許出願EP2743922A、EP2665208AおよびEP2800401Aにおいて提案されている。これらの手法は、音場解析を実行し、与えられたHOA表現を方向性成分(directional component)と残差周囲成分(residual ambient component)に分解することで共通している。一方では、最終的な圧縮された表現は、いくつかの量子化された信号を有することが想定され、該量子化された信号は、方向性信号と周囲HOA成分(ambient HOA component)の関連する係数シーケンスとの知覚的符号化から帰結する。他方では、最終的な圧縮された表現は、量子化された信号に関係する追加的なサイド情報を含むと想定される。このサイド情報は、HOA表現の、その圧縮されたバージョンからの再構成のために必要である。
さらに、同様の方法は非特許文献1に記載されている。ここでは、方向性成分はいわゆる優勢音成分(predominant sound component)に拡張される。方向性成分として、優勢音成分は部分的には方向性信号、すなわち、その方向から聴取者に入射すると想定される対応する方向をもつモノラル信号に、それらの方向性信号からもとのHOA表現の諸部分を予測するためのいくつかの予測パラメータを合わせたものによって表現されると想定される。
さらに、優勢音成分は、いわゆるベクトル・ベースの信号によって表現されるとされる。つまり、ベクトル・ベースの信号の方向分布を定義する対応するベクトルをもつモノラル信号である。既知の圧縮されたHOA表現はI個の量子化されたモノラル信号および若干の追加的なサイド情報からなる。ここで、これらI個の量子化されたモノラル信号のうち固定数OMIN個は、周囲HOA成分CAMB(k−2)の最初のOMIN個の係数シーケンスの空間的に変換されたバージョンを表わす。残りのI−OMIN個の信号の型は、相続くフレームの間で変わることがあり、方向性、ベクトル・ベース、空または周囲HOA成分CAMB(k−2)の追加的な係数シーケンスを表わしているのいずれかであることができる。
HOA符号化係数シーケンスの入力時間フレーム(C(k))をもつHOA信号表現を圧縮するためのある既知の方法は、入力時間フレームの空間的HOAエンコードならびにその後の知覚的エンコードおよび源エンコードを含む。空間的HOAエンコードは、図1a)に示されるように、方向およびベクトル推定ブロック101においてHOA信号の方向およびベクトル推定処理を実行することを含む。ここでは、方向性信号のための第一のタプル集合MDIR(k)およびベクトル・ベースの信号についての第二のタプル集合MVEC(k)を含むデータが得られる。各第一のタプル集合は、方向性信号のインデックスおよびそれぞれの量子化された方向を含み、各第二のタプル集合は、ベクトル・ベースの信号のインデックスおよび信号の方向分布を定義するベクトルを含む。次のステップは、HOA係数シーケンスの各入力時間フレームを、複数の優勢音信号XPS(k−1)のフレームと、周囲HOA成分CAMB(k−1)のフレームとに分解する(103)。ここで、優勢音信号XPS(k−1)は前記方向性音信号および前記ベクトル・ベースの音信号を含む。分解はさらに、予測パラメータξ(k−1)および目標割り当てベクトル(target assignment vector)vA,T(k−1)を提供する。予測パラメータξ(k−1)は、優勢音信号XPS(k−1)内の方向性信号からどのようにして、優勢音HOA成分を豊かにするようHOA信号表現の諸部分を予測するかを記述する。目標割り当てベクトルvA,T(k−1)は、所与の数I個のチャネルに優勢音信号をどのようにして割り当てるかについての情報を含む。周囲HOA成分CAMB(k−1)は、目標割り当てベクトルvA,T(k−1)によって与えられる情報に従って修正される(104)。ここで、周囲HOA成分のどの係数シーケンスが所与の数I個のチャネルにおいて伝送されるべきかが、何個のチャネルが優勢音信号によって占められているかに依存して、決定される。修正された(modified)周囲HOA成分CM,A(k−2)および時間的に予測された(predicted)修正された周囲HOA成分CP,M,A(k−1)が得られる。また、目標割り当てベクトルvA,T(k−1)内の情報から、最終的な割り当てベクトルvA(k−2)も得られる。上記分解から得られた優勢音信号XPS(k−1)と、修正された周囲HOA成分CM,A(k−2)および時間的に予測された修正された周囲HOA成分CP,M,A(k−1)の決定された係数シーケンスが、最終的な割り当てベクトルvA(k−2)によって与えられる情報を使って、上記所与の数のチャネルに割り当てられる。ここで、トランスポート信号yi(k−2)、i=1,…,Iおよび予測されたトランスポート信号yP,i(k−2)、i=1,…,Iが得られる。次いで、トランスポート信号yi(k−2)および予測されたトランスポート信号yP,i(k−2)に対して利得制御(または正規化)が実行される。ここで、利得修正されたトランスポート信号zi(k−2)、指数ei(k−2)および例外フラグβi(k−2)が得られる。
図1b)に示されるように、知覚的エンコードおよび源エンコードは、利得修正されたトランスポート信号zi(k−2)の知覚的な符号化であって、知覚的にエンコードされたトランスポート信号
Figure 0006220082
が得られる符号化と、前記指数ei(k−2)および例外フラグβi(k−2)、前記第一および第二のタプル集合MDIR(k)、MVEC(k)、予測パラメータξ(k−1)および最終的な割り当てベクトルvA(k−2)を含むサイド情報のエンコードであって、エンコードされたサイド情報
Figure 0006220082
が得られるエンコードとを含む。最後に、知覚的にエンコードされたトランスポート信号
Figure 0006220082
およびエンコードされたサイド情報がビットストリーム中に多重化される。
EP12306569.0 EP12305537.8(EP2665208Aとして公開) EP133005558.2
ISO/IEC JTC1/SC29/WG11, N14264, "Working Draft 1-HOA Text of MPEG-H 3D audio", January 2014, San Jose
提案されるHOA圧縮方法の一つの欠点は、モノリシックな(すなわち非スケーラブルな)圧縮されたHOA表現を提供するということである。しかしながら、放送またはインターネット・ストリーミングのようなある種のアプリケーションについては、圧縮された表現を低品質基本層(BL)および高品質向上層(EL)に分割できることが望ましい。基本層は、向上層とは独立にデコードできる、HOA表現の低品質圧縮バージョンを提供するとされる。そのようなBLは典型的には、伝送誤りに対してきわめて堅牢であるべきであり、たとえ劣悪な伝送条件下でも圧縮解除されたHOA表現のある最小限の品質を保証するために低データ・レートで伝送されるべきである。ELは、圧縮解除されたHOA表現の品質を改善するための追加的な情報を含む。
本発明は、(低品質の)基本層および(高品質の)向上層を含む圧縮された表現を提供できるよう既存のHOA圧縮方法を修正するための解決策を提供する。さらに、本発明は、本発明に従って圧縮されている少なくとも低品質の基本層を含む圧縮された表現をデコードすることができるよう既存のHOA圧縮解除方法を修正するための解決策を提供する。
一つの改善は、自己完結の(低品質の)基本層を得ることに関する。本発明によれば、周囲HOA成分CAMB(k−2)の(一般性を失わずに)最初のOMIN個の係数シーケンスの空間的に変換されたバージョンを含むとされるOMIN個のチャネルが、基本層として使われる。基本をなすものとして最初のOMIN個のチャネルを選択することの利点は、その時間不変な型である。しかしながら、従来、それぞれの信号は、音場のために本質的である優勢音成分を全く欠いていた。このことは、周囲HOA成分CAMB(k−1)の従来の計算からも明らかである。それは、
CAMB(k−1)=C(k−1)−CPS(k−1) (1)
に従ってもとのHOA表現C(k−1)から優勢音HOA表現CPS(k−1)を減算することによって実行される。
したがって、本発明の一つの改善は、そのような優勢音成分を加えることに関する。本発明によれば、この問題への解決策は、低い空間分解能での優勢音成分を基本層に含めることである。この目的のために、本発明に基づく空間的HOAエンコーダにおけるHOA分解処理によって出力される周囲HOA成分CAMB(k−1)は、その修正バージョンによって置換される。修正された周囲HOA成分は、空間的に変換された形において常に伝送されるとされる最初のOMIN個の係数シーケンスにおいて、もとのHOA成分の係数シーケンスを含む。HOA分解処理のこの改善は、HOA圧縮を階層化モード(たとえば二層モード)で機能させるための初期動作と見ることができる。このモードは、たとえば、二つのビットストリームまたは基本層および向上層に分割できる単一のビットストリームを提供する。このモードを使うか使わないかは、全体ビットストリームの諸アクセス単位におけるモード指示ビット(たとえば単一のビット)によって信号伝達される。
ある実施形態では、基本層ビットストリーム
Figure 0006220082
は、知覚的にエンコードされた信号
Figure 0006220082
と、指数ei(k−2)および例外フラグβi(k−2)、i=1,…,OMINからなる対応する符号化された利得制御サイド情報とを含むだけである。残りの知覚的にエンコードされた信号
Figure 0006220082
およびエンコードされた残りのサイド情報は、向上層ビットストリームに含められる。ある実施形態では、基本層(base layer)ビットストリーム
Figure 0006220082
および向上層(enhancement layer)ビットストリーム
Figure 0006220082
は次いで、以前の全ビットストリーム
Figure 0006220082
の代わりに、合同して伝送される。
HOA係数シーケンスの時間フレームを有する高次アンビソニックス(HOA)信号表現を圧縮する方法が請求項1に開示される。HOA係数シーケンスの時間フレームを有する高次アンビソニックス(HOA)信号表現を圧縮する装置が請求項10に開示される。
HOA係数シーケンスの時間フレームを有する高次アンビソニックス(HOA)信号表現を圧縮解除する方法が請求項8に開示される。HOA係数シーケンスの時間フレームを有する高次アンビソニックス(HOA)信号表現を圧縮解除する装置が請求項18に開示される。
HOA係数シーケンスの時間フレームを有する高次アンビソニックス(HOA)信号表現を圧縮する方法をコンピュータに実行させるための実行可能な命令を有する非一時的なコンピュータ可読記憶媒体が請求項20に開示される。HOA係数シーケンスの時間フレームを有する高次アンビソニックス(HOA)信号表現を圧縮解除する方法をコンピュータに実行させるための実行可能な命令を有する非一時的なコンピュータ可読記憶媒体が請求項21に開示される。
本発明の有利な実施形態は従属請求項、以下の記述および図面において開示される。
本発明の例示的な実施形態が付属の図面を参照して記述される。
HOA圧縮器の通常のアーキテクチャの構造である。 HOA圧縮器の通常のアーキテクチャの構造である。 HOA圧縮解除器の通常のアーキテクチャの構造である。 本発明のある実施形態に基づくHOA圧縮器の空間的HOAエンコードおよび知覚的エンコードの部分のアーキテクチャの構造である。 本発明のある実施形態に基づくHOA圧縮器の源符号化器部分のアーキテクチャの構造である。 本発明のある実施形態に基づくHOA圧縮解除器の知覚的復号および源復号のアーキテクチャの構造である。 本発明のある実施形態に基づくHOA圧縮解除器の空間的HOAデコード部分のアーキテクチャの構造である。 周囲HOA信号から修正された周囲HOA信号へのフレーム変換である。 HOA信号を圧縮する方法のフローチャートである。 圧縮されたHOA信号を圧縮解除する方法のフローチャートである。 本発明のある実施形態に基づくHOA圧縮解除器の空間的HOAデコード部分のアーキテクチャの諸部分の詳細である。
理解を容易にするため、図1および図2の従来技術の解決策について以下で確認しておく。
図1は、HOA圧縮器の通常のアーキテクチャの構造を示している。非特許文献1に記載される方法では、方向性成分がいわゆる優勢音成分に拡張される。方向性成分として、優勢音成分は部分的には方向性信号、すなわち、その方向から聴取者に入射すると想定される対応する方向をもつモノラル信号に、それらの方向性信号からもとのHOA表現の諸部分を予測するためのいくつかの予測パラメータを合わせたものによって表現されると想定される。さらに、優勢音成分は、いわゆるベクトル・ベースの信号によって表現されるとされる。つまり、ベクトル・ベースの信号の方向分布を定義する対応するベクトルをもつモノラル信号である。非特許文献1において提案されるHOA圧縮器の全体的なアーキテクチャが図1に示されている。これは、図1aに描かれる空間的HOAエンコード部と、図1bに描かれる源エンコード部に細分できる。空間的HOAエンコーダは、I個の信号に、そのHOA表現をどのようにして生成するかを記述するサイド情報を合わせたものからなる第一の圧縮されたHOA表現を提供する。知覚的およびサイド情報源符号化器では、上述したI個の信号は知覚的にエンコードされ、上記サイド情報は源エンコードにかけられ、その後、二つの符号化された表現が多重化される。
通常、空間的エンコードは次のように機能する。
第一段階では、もとのHOA表現のk番目のフレームC(k)が方向およびベクトル推定処理ブロックに入力される。これは、タプル集合MDIR(k)およびMVEC(k)を与える。タプル集合MDIR(k)は、第一の要素が方向性信号のインデックスを表わし、第二の要素がそれぞれの量子化された方向を表わすタプルからなる。タプル集合MVEC(k)は、第一の要素がベクトル・ベースの信号のインデックスを示し、第二の要素が信号の方向分布、すなわち該ベクトル・ベースの信号のHOA表現がどのように計算されるかを定義するベクトルを表わすタプルからなる。
タプル集合MDIR(k)およびMVEC(k)の両方を使って、初期HOAフレームC(k)はHOA分解において、全優勢音(すなわち、方向性およびベクトル・ベース)信号のフレームXPS(k−1)のフレームと、周囲HOA成分のフレームCAMB(k−1)とに分解される。それぞれ一フレームぶんの遅延に注意されたい。これは、ブロッキング・アーチファクトを避けるための重複加算処理に起因する。さらに、HOA分解は、優勢音HOA成分を豊かにするために方向性信号からどのようにしてもとのHOA表現の諸部分を予測するかを記述するいくつかの予測パラメータξ(k−1)を出力するものと想定される。さらに、HOA分解処理ブロックにおいて決定された優勢音信号のI個の利用可能なチャネルへの割り当てについての情報を含む目標割り当てベクトル(target assignment vector)vA,T(k−1)が提供される。影響されるチャネルは占有されていると想定されることができる。つまり、それらはそれぞれの時間フレームにおいて周囲HOA成分のいかなる係数シーケンスを転送するためにも利用可能ではない。
周囲成分修正処理ブロックでは、周囲HOA成分のフレームCAMB(k−1)は、目標割り当てベクトルvA,T(k−1)によって与えられる情報に従って修正される。特に、周囲HOA成分のどの係数シーケンスが所与のI個のチャネルにおいて伝送されるべきかが、他の側面もあるが中でも、どのチャネルが利用可能であり、優勢音信号によってすでに占有されていないかについての情報(目標割り当てベクトルvA,T(k−1)に含まれる)に依存して、決定される。さらに、選ばれた係数シーケンスのインデックスが相続くフレームの間で変わる場合には、係数シーケンスのフェードインおよびフェードアウトが実行される。
さらに、周囲HOA成分CAMB(k−2)の最初のOMIN個の係数シーケンスは、常に、知覚的に符号化され伝送されるべく選ばれるものとする。ここで、OMIN=(NMIN+1)2であり、NMIN≦Nは典型的にはもとのHOA表現のものより小さな次数である。これらのHOA係数シーケンスを脱相関するために、これらを、いくつかのあらかじめ定義された方向ΩMIN,d、d=1,…,OMINから入射する方向性信号(すなわち、一般平面波関数)に変換することが提案される。修正された周囲HOA成分CAMB(k−1)とともに、合理的な先読みを許容するために、利得制御処理ブロックにおいてのちに使われるよう、時間的に予測された修正された周囲HOA成分CP,M,A(k−1)が計算される。
周囲HOA成分の修正についての情報は、すべての可能な型の信号の、利用可能なチャネルへの割り当てに直接関係している。割り当てについての最終的な情報は、最終的な割り当てベクトルvA(k−2)に含まれる。このベクトルを計算するために、目標割り当てベクトルvA,T(k−1)に含まれる情報が活用される。
チャネル割り当ては、割り当てベクトルvA(k−2)によって与えられる情報を用いて、XPS(k−2)に含まれる適切な信号およびCM,A(k−2)に含まれる適切な信号を、I個の利用可能なチャネルに割り当て、信号yi(k−2)、i=1,…,Iを与える。さらに、XPS(k−1)に含まれる適切な信号およびCP,AMB(k−1)に含まれる適切な信号も、I個の利用可能なチャネルに割り当てられて、信号yP,i(k−2)、i=1,…,Iを与える。信号yi(k−2)、i=1,…,Iのそれぞれは、最終的に利得制御によって処理される。ここでは、知覚的エンコーダに好適な値範囲を達成するよう信号利得がなめらかに修正される。予測された信号フレームyP,i(k−2)、i=1,…,Iは、相続くブロックの間の激しい利得変化を避けるために一種の先読みを許容する。利得修正は、空間的デコーダにおいては、指数ei(k−2)および例外フラグβi(k−2)、i=1,…,Iからなる利得制御サイド情報を用いて、反転されることが想定される。
図2は、非特許文献1において提案されるHOA圧縮解除器の通常のアーキテクチャの構造を示している。通常、HOA圧縮解除はHOA圧縮器コンポーネントの対応物からなり、それらの対応物は、当然、逆順に配列される。HOA圧縮解除は、図2a)に描かれる知覚的および源デコード部と、図2b)に描かれる空間的HOAデコード部に細分される。
知覚的およびサイド情報源デコーダにおいて、ビットストリームはまず、前記I個の信号の知覚的に符号化された表現と、そのHOA表現をどのようにして生成するかを記述する符号化されたサイド情報とに多重分離される。続いて、前記I個の信号の知覚的デコードおよび前記サイド情報のデコードが実行される。次いで、空間的HOAデコーダは前記I個の信号および前記サイド情報から、再構成されたHOA表現を生成する。
通常、空間的HOAデコードは次のように機能する。
空間的HOAデコーダでは、知覚的にデコードされた信号
Figure 0006220082
のそれぞれがまず、関連する利得補正指数ei(k)および利得補正例外フラグβi(k)と一緒に逆利得制御処理ブロックに入力される。i番目の逆利得制御処理は利得補正された信号フレーム
Figure 0006220082
〔^yi(k)〕を与える。
I個の利得補正された信号フレーム
Figure 0006220082
のすべては割り当てベクトルvAMB,ASSIGN(k)およびタプル集合MDIR(k+1)およびMVEC(k+1)と一緒にチャネル再割り当てに渡される。タプル集合MDIR(k+1)およびMVEC(k+1)は(空間的HOAエンコードについて)上記で定義されている。割り当てベクトルvAMB,ASSIGN(k)はI個の成分からなり、これらの成分は各伝送チャネルについて、周囲HOA成分の係数シーケンスを含んでいるかどうかおよびどの係数シーケンスを含んでいるかを示す。チャネル再割り当てにおいて、利得補正された信号フレーム^yi(k)は、すべての優勢音信号(すなわちすべての方向性およびベクトル・ベースの信号)のフレーム
Figure 0006220082
〔^XPS(k)〕および周囲HOA成分の中間表現のフレームCI,AMB(k)を再構成するために再分配される。さらに、k番目のフレームにおいてアクティブである、周囲HOA成分の係数シーケンスのインデックスの集合IAMB,ACT(k)と、(k−1)番目のフレームにおいて有効にされる、無効にされるまたはアクティブなままである必要がある周囲HOA成分の係数インデックスの集合IE(k−1)、ID(k−1)およびIU(k−1)とが提供される。
優勢音合成では、優勢音成分
Figure 0006220082
〔^CPS(k−1)〕のHOA表現が、すべての優勢音信号のフレーム^XPS(k)から、タプル集合MDIR(k+1)および予測パラメータの集合ζ(k+1)、タプル集合MVEC(k+1)および集合IE(k−1)、ID(k−1)およびIU(k−1)を使って計算される。
周囲合成では、周囲HOA成分フレーム
Figure 0006220082
〔^CAMB(k−1)〕が、周囲HOA成分の中間表現のフレームCI,AMB(k)から、k番目のフレームにおいてアクティブである周囲HOA成分の係数シーケンスのインデックスの集合IAMB,ACT(k)を使って生成される。一フレームぶんの遅延に注意されたい。これは優勢音HOA成分との同期に起因して導入されるものである。最後に、HOA合成において、周囲HOA成分フレーム^CAMB(k−1)および優勢音HOA成分のフレーム^CPS(k−1)が重畳されて、デコードされたHOAフレーム^C(k−1)を与える。
上記のHOA圧縮および圧縮解除方法の大雑把な記述から明らかになったように、圧縮された表現はI個の量子化されたモノラル信号およびいくらかの追加的なサイド情報からなる。これらのI個の量子化されたモノラル信号のうちの固定数OMIN個は、周囲HOA成分CAMB(k−2)の最初のOMIN個の係数シーケンスの空間的に変換されたバージョンを表わす。残りのI−OMIN個の信号の型は相続くフレームの間で変わることがあり、方向性、ベクトル・ベース、空または周囲HOA成分CAMB(k−2)の追加的な係数シーケンスを表わしているのいずれかであることができる。そのままでは、圧縮されたHOA表現はモノリシックであることが意図されている。特に、一つの問題は、いかにして記載された表現を低品質の基本層と向上層とに分割するかである。
開示される発明によれば、低品質基本層のための候補は、周囲HOA成分CAMB(k−2)の最初のOMIN個の係数シーケンスの空間的に変換されたバージョンを含むOMIN個のチャネルである。これらの(一般性を失うことなく、最初の)OMIN個のチャネルが低品質基本層をなすための良好な選択となるのは、その時間不変な型のためである。しかしながら、それぞれの信号は、音場のために本質的である優勢音成分を全く欠いている。このことは、周囲HOA成分CAMB(k−1)の計算においても見て取れる。それは、
CAMB(k−1)=C(k−1)−CPS(k−1) (1)
に従ってもとのHOA表現C(k−1)から優勢音HOA表現CPS(k−1)を減算することによって実行される。
この問題への解決策は、低い空間分解能での優勢音成分を基本層に含めることである。
HOA圧縮への提案される修正について、以下で述べる。
図3は、本発明のある実施形態に基づく、HOA圧縮器の空間的HOAエンコードおよび知覚的エンコード部分のアーキテクチャの構造を示している。低い空間分解能での優勢音成分をも基本層に含めるために、空間的HOAエンコーダにおけるHOA分解処理によって出力される周囲HOA成分CAMB(k−1)(図1a参照)が、修正バージョン
Figure 0006220082
によって置き換えられる。その要素は次式によって与えられる。
Figure 0006220082
換言すれば、空間的に変換された形において常に伝送されるとされる周囲HOA成分の最初のOMIN個の係数シーケンスは、もとのHOA成分の係数シーケンスによって置き換えられる。空間的HOAエンコーダの他の処理ブロックは不変のままであることができる。
HOA分解処理のこの変更は、HOA圧縮をいわゆる「デュアル層」または「二層」モードで機能させる初期動作として見ることができることを注意しておくことが重要である。このモードは、低品質の基本層と向上層とに分割できるビットストリームを提供する。このモードを使うか使わないかは、全体ビットストリームの諸アクセス単位における単一ビットにによって信号伝達されることができる。
基本層および向上層のためのビットストリームを提供するためのビットストリーム多重化の可能な結果的な修正が図3および図4に示されており、これについて下記でさらに述べる。
基本層ビットストリーム
Figure 0006220082
は、知覚的にエンコードされた信号
Figure 0006220082
と、指数ei(k−2)および例外フラグβi(k−2)、i=1,…,OMINからなる対応する符号化された利得制御サイド情報とを含むだけである。残りの知覚的にエンコードされた信号
Figure 0006220082
およびエンコードされた残りのサイド情報は、向上層ビットストリームに含められる。基本層(base layer)および向上層(enhancement layer)ビットストリーム
Figure 0006220082
は次いで、以前の全ビットストリーム
Figure 0006220082
の代わりに、合同して伝送される。
図3および図4では、HOA係数シーケンスの入力時間フレーム(C(k))をもつ入力HOA表現であるHOA信号を圧縮するための装置が示されている。当該装置は、入力時間フレームの空間的HOAエンコードならびにその後の知覚的エンコードのための、図3に示される空間的HOAエンコードおよび知覚的エンコード部と、源エンコードのための、図4に示される源符号化器部とを有する。空間的HOAエンコードおよび知覚的エンコード部は、方向およびベクトル推定ブロック301、HOA分解ブロック303、周囲成分修正ブロック304、チャネル割り当てブロック305および複数の利得制御ブロック306を有する。
方向およびベクトル推定ブロック301は、HOA信号の方向およびベクトル推定処理を実行するために適応されている。ここでは、方向性信号についての第一のタプル集合MDIR(k)およびベクトル・ベースの信号についての第二のタプル集合MVEC(k)を含むデータが得られる。各第一のタプル集合MDIR(k)は、方向性信号のインデックスおよびそれぞれの量子化された方向を含み、各第二のタプル集合MVEC(k)は、ベクトル・ベースの信号のインデックスおよび信号の方向分布を定義するベクトルを含む。
HOA分解ブロック303は、HOA係数シーケンスの各入力時間フレームを、複数の優勢音信号XPS(k−1)のフレームと、周囲HOA成分
Figure 0006220082
のフレームとに分解するために適応されている。ここで、優勢音信号XPS(k−1)は前記方向性音信号および前記ベクトル・ベースの音信号を含み、周囲HOA成分
Figure 0006220082
は、入力HOA表現と優勢音信号のHOA表現との間の残差を表わすHOA係数シーケンスを含む。分解はさらに、予測パラメータξ(k−1)および目標割り当てベクトル(target assignment vector)vA,T(k−1)を提供する。予測パラメータξ(k−1)は、優勢音信号XPS(k−1)内の方向性信号からどのようにして、優勢音HOA成分を豊かにするようHOA信号表現の諸部分を予測するかを記述する。目標割り当てベクトルvA,T(k−1)は、所与の数I個のチャネルに優勢音信号をどのようにして割り当てるかについての情報を含む。
周囲成分修正ブロック304は、周囲HOA成分CAMB(k−1)を、目標割り当てベクトルvA,T(k−1)によって与えられる情報に従って修正するために適応されている。ここで、周囲HOA成分CAMB(k−1)のどの係数シーケンスが所与の数I個のチャネルにおいて伝送されるべきかが、何個のチャネルが優勢音信号によって占められているかに依存して、決定される。修正された(modified)周囲HOA成分CM,A(k−2)および時間的に予測された(predicted)修正された周囲HOA成分CP,M,A(k−1)が得られる。また、目標割り当てベクトルvA,T(k−1)内の情報から、最終的な割り当てベクトルvA(k−2)が得られる。
チャネル割り当てブロック305は、上記分解から得られた優勢音信号XPS(k−1)と、修正された周囲HOA成分CM,A(k−2)および時間的に予測された修正された周囲HOA成分CP,M,A(k−1)の決定された係数シーケンスとを、最終的な割り当てベクトルvA(k−2)によって与えられる情報を使って、上記所与の数I個のチャネルに割り当てるために適応されている。ここで、トランスポート信号yi(k−2)、i=1,…,Iおよび予測されたトランスポート信号yP,i(k−2)、i=1,…,Iが得られる。
複数の利得制御ブロック306は、トランスポート信号yi(k−2)および予測されたトランスポート信号yP,i(k−2)に対して利得制御(805)を実行するために適応されている。ここで、利得修正されたトランスポート信号zi(k−2)、指数ei(k−2)および例外フラグβi(k−2)が得られる。
図4は、本発明のある実施形態に基づくHOA圧縮器の源符号化器部分のアーキテクチャの構造を示している。図4に示される源符号化器部分は、知覚的符号化器310と、二つの符号化器320、330すなわち基本層サイド情報源符号化器320および向上層サイド情報エンコーダ330をもつサイド情報源符号化器ブロックと、二つのマルチプレクサ340、350、すなわち基本層ビットストリーム・マルチプレクサ340および向上層ビットストリーム・マルチプレクサ350とを有する。サイド情報源符号化器は、単一のサイド情報源符号化器ブロックであってもよい。
知覚的符号化器310は、前記利得修正されたトランスポート信号zi(k−2)を知覚的に符号化806することを含み、知覚的にエンコードされたトランスポート信号
Figure 0006220082
が得られる。
サイド情報源符号化器320、330は、前記指数ei(k−2)および例外フラグβi(k−2)、前記第一のタプル集合MDIR(k)および第二のタプル集合MVEC(k)、前記予測パラメータξ(k−1)および前記最終的な割り当てベクトルvA(k−2)を含むサイド情報をエンコードするために適応されており、エンコードされたサイド情報
Figure 0006220082
が得られる。
マルチプレクサ340、350は、知覚的にエンコードされたトランスポート信号
Figure 0006220082
およびエンコードされたサイド情報
Figure 0006220082
を多重化データ・ストリーム
Figure 0006220082
中に多重化するために適応されている。ここで、上記分解において得られた周囲HOA成分〔チルダ付きのCAMB(k−1)〕は、入力HOA表現cn(k−1)の最初の諸HOA係数シーケンスをOMIN個の最低の位置(すなわち最低の諸インデックスをもつ位置)に、第二のHOA係数シーケンスCAMB,n(k−1)を残りのより高い位置に含む。式(4)〜(6)に関して下記で説明されるように、第二のHOA係数シーケンスは、入力HOA表現と優勢音信号のHOA表現との間の残差のHOA表現の一部である。さらに、最初のOMIN個の指数ei(k−2)、i=1,…,OMINおよび例外フラグβi(k−2)、i=1,…,OMINは基本層サイド情報源符号化器320においてエンコードされ、エンコードされた基本層サイド情報
Figure 0006220082
が得られる。ここで、OMIN=(NMIN+1)2であり、O=(N+1)2であり、NMIN≦NかつOMIN≦Iであり、NMINはあらかじめ定義された整数値である。最初のOMIN個の知覚的にエンコードされたトランスポート信号
Figure 0006220082
およびエンコードされた基本層サイド情報
Figure 0006220082
は基本層ビットストリーム・マルチプレクサ340(これは前記マルチプレクサの一つである)において多重化され、ここで、基本層ビットストリーム
Figure 0006220082
が得られる。基本層サイド情報源符号化器320は、前記サイド情報源符号化器の一つである、あるいはサイド情報源符号化器ブロック内にある。
残りのI−OMIN個の指数ei(k−2)、i=OMIN+1,…,Iおよび例外フラグβi(k−2)、i=OMIN+1,…,I、前記第一のタプル集合MDIR(k−1)および第二のタプル集合MVEC(k−1)、前記予測パラメータξ(k−1)および前記最終的な割り当てベクトルvA(k−2)は、向上層サイド情報エンコーダ330においてエンコードされ、ここで、エンコードされた向上層サイド情報
Figure 0006220082
が得られる。向上層サイド情報源符号化器330は、前記サイド情報源符号化器の一つである、あるいはサイド情報源符号化器ブロック内にある。
残りのI−OMIN個の知覚的にエンコードされたトランスポート信号
Figure 0006220082
およびエンコードされた向上層サイド情報
Figure 0006220082
は、向上層ビットストリーム・マルチプレクサ350(これも前記マルチプレクサの一つである)において多重化され、向上層ビットストリーム
Figure 0006220082
が得られる。さらに、モード指示LMFEがマルチプレクサまたは指示挿入ブロックにおいて追加される。モード指示LMFEは階層化モードの使用を信号伝達し、それは圧縮された信号の正しい圧縮解除のために使われる。
ある実施形態では、本エンコード装置はさらに、モードを選択するよう適応されたモード選択器を有する。モードは、モード指示LMFEによって示され、階層化モードおよび非階層化モードの一つである。非階層化モードでは、周囲HOA成分〔チルダ付きのCAMB(k−1)〕は、入力HOA表現と優勢音信号のHOA表現との間の残差を表わすHOA係数シーケンスのみを含む(すなわち、入力HOA表現の係数シーケンスを含まない)。
HOA圧縮解除の提案される修正について以下で述べる。
階層化モードでは、HOA圧縮における周囲HOA成分CAMB(k−1)の修正が、HOA合成を適切に修正することによって、HOA圧縮解除において考慮される。
HOA圧縮解除器では、基本層および向上層ビットストリームの多重分離およびデコードは、図5に従って実行される。基本層ビットストリーム
Figure 0006220082
は、基本層サイド情報の符号化された表現と、知覚的にエンコードされた信号とに多重分離される。その後、基本層サイド情報の符号化された表現および知覚的にエンコードされた信号はデコードされて、一方では指数ei(k)および例外フラグを与え、他方では知覚的にデコードされた信号を与える。同様に、向上層ビットストリームは多重分離およびデコードされて、知覚的にデコードされた信号および残りのサイド情報を与える(図5参照)。この階層化モードでは、空間的HOAエンコードにおける周囲HOA成分CAMB(k−1)の修正を考慮するために、空間的HOAデコード部も修正される必要がある。修正は、HOA合成において達成される。
具体的には、再構成されたHOA表現
Figure 0006220082
はその修正されたバージョン
Figure 0006220082
によって置き換えられる。その要素は次式で与えられる。
Figure 0006220082
つまり、最初のOMIN個の係数シーケンスについては、優勢音HOA成分は周囲HOA成分に加えられない。そこにすでに含まれているからである。HOA空間的デコーダの他のすべての処理ブロックは不変のままである。
以下では、純粋に低品質基本層ビットストリーム
Figure 0006220082
が存在するときのHOA圧縮解除について簡単に考察する。
ビットストリームはまず多重分離およびデコードされて、再構成された信号^zi(k)と、指数ei(k)および例外フラグβi(k)、i=1,…,OMINからなる対応する利得制御サイド情報とを与える。向上層がないときは、知覚的に符号化された信号
Figure 0006220082
は利用可能ではない。この状況に対処する可能な仕方は、信号
Figure 0006220082
を0と置くことである。これは、自動的に、再構成された優勢音成分CPS(k−1)を0にする。
次のステップでは、空間的HOAデコーダにおいて、最初のOMIN個の逆利得制御処理ブロックが、利得補正された信号フレーム
Figure 0006220082
を与える。これらのフレームは、チャネル再割り当てによって周囲HOA成分の中間表現のフレームCI,AMB(k)を構築するために使われる。k番目のフレームにおいてアクティブである周囲HOA成分の係数シーケンスのインデックスの集合IAMB,ACT(k)はインデックス1,2,…,OMINのみを含むことを注意しておく。周囲合成において、最初のOMIN個の係数シーケンスの空間的変換の逆が行なわれて、周囲HOA成分フレームCAMB(k−1)が与えられる。最後に、再構成されたHOA表現が式(6)に従って計算される。
図5および図6は、本発明のある実施形態に基づくHOA圧縮解除器のアーキテクチャの構造を示している。本装置は、図5に示される知覚的デコードおよび源デコード部と、図6に示される空間的HOAデコード部と、圧縮されたHOA信号が圧縮された基本層ビットストリーム
Figure 0006220082
および圧縮された向上層ビットストリームを含むことを示す階層化モード指示LMFDを検出するために適応されたモード検出器とを有する。
を有する。
図5は、本発明のある実施形態に基づくHOA圧縮解除器の知覚的デコードおよび源デコード部のアーキテクチャの構造を示している。知覚的デコードおよび源デコード部は、第一のデマルチプレクサ510、第二のデマルチプレクサ520、基本層知覚的デコーダ540および向上層知覚的デコーダ550、基本層サイド情報源デコーダ530および向上層サイド情報源デコーダ560を有する。
第一のデマルチプレクサ510は、圧縮された基本層ビットストリーム
Figure 0006220082
を多重分離するために適応されている。ここで、第一の知覚的にエンコードされたトランスポート信号
Figure 0006220082
および第一のエンコードされたサイド情報
Figure 0006220082
が得られる。第二のデマルチプレクサ520は、圧縮された向上層ビットストリーム
Figure 0006220082
を多重分離するために適応されている。ここで、第二の知覚的にエンコードされたトランスポート信号
Figure 0006220082
および第二のエンコードされたサイド情報
Figure 0006220082
が得られる。
基本層知覚的デコーダ540および向上層知覚的デコーダ550は、知覚的にエンコードされたトランスポート信号
Figure 0006220082
を知覚的にデコードする904ために適応されており、知覚的にデコードされたトランスポート信号
Figure 0006220082
が得られる。基本層知覚的デコーダ540では、基本層の前記第一の知覚的にエンコードされたトランスポート信号
Figure 0006220082
がデコードされて、第一の知覚的にデコードされたトランスポート信号
Figure 0006220082
が得られる。向上層知覚的デコーダ550では、向上層の前記第二の知覚的にエンコードされたトランスポート信号
Figure 0006220082
がデコードされて、第二の知覚的にデコードされたトランスポート信号
Figure 0006220082
が得られる。
基本層サイド情報源デコーダ530は、第一のエンコードされたサイド情報
Figure 0006220082
をデコード905するよう適応されている。ここで、第一の指数ei(i)、i=1,…,OMINおよび第一の例外フラグβi(k)、i=1,…,OMINが得られる。
向上層サイド情報源デコーダ560は、第二のエンコードされたサイド情報
Figure 0006220082
をデコードするよう適応されている。ここで、第二の指数ei(i)、i=OMIN+1,…,Iおよび第二の例外フラグβi(k)、i=OMIN+1,…,Iが得られ、さらなるデータが得られる。前記さらなるデータは、方向性信号についての第一のタプル集合MDIR(k+1)およびベクトル・ベースの信号についての第二のタプル集合MVEC(k+1)を含む。第一のタプル集合MDIR(k+1)の各タプルは、方向性信号のインデックスおよびそれぞれの量子化された方向を含み、第二のタプル集合MVEC(k+1)の各タプルは、ベクトル・ベースの信号のインデックスおよび該ベクトル・ベースの信号の方向分布を定義するベクトルを含む。さらに、予測パラメータξ(k+1)および周囲割り当てベクトルvAMB,ASSIGN(k)が得られる。ここで、周囲割り当てベクトルvAMB,ASSIGN(k)は、各伝送チャネルについて、周囲HOA成分の係数シーケンスを含んでいるかどうかおよびどの係数シーケンスを含んでいるかを示す成分を含む。
図6は、本発明のある実施形態に基づくHOA圧縮解除器の空間的HOAデコード部のアーキテクチャの構造を示している。空間的HOAデコード部は、複数の逆利得制御ユニット604、チャネル再割り当てブロック605、優勢音合成(Predominant Sound Synthesis)ブロック606および周囲合成(Ambient Synthesis)ブロック607、HOA合成(HOA Composition)ブロック608を有する。
複数の逆利得制御ユニット604は、逆利得制御を実行するよう適応されている。ここで、前記第一の知覚的にデコードされたトランスポート信号
Figure 0006220082
が、第一の指数ei(k)、i=1,…,OMINおよび第一の例外フラグβi(k)、i=1,…,OMINに従って、第一の利得補正された信号フレーム^yi(k)、i=1,…,OMINに変換され、前記第二の知覚的にデコードされたトランスポート信号
Figure 0006220082
が、第二の指数ei(k)、i=OMIN+1,…,Iおよび第二の例外フラグβi(k)、i=OMIN+1,…,Iに従って、第二の利得補正された信号フレーム^yi(k)、i=OMIN+1,…,Iに変換される。
チャネル再割り当てブロック605は、第一および第二の利得補正された信号フレーム^yi(k)、i=1,…,IをI個のチャネルに再分配するよう適応されている。ここで、優勢音信号のフレーム^XPS(k)が再構成され、該優勢音信号は方向性信号およびベクトル・ベースの信号を含み、修正された周囲HOA成分
Figure 0006220082
が得られ、割り当ては、前記周囲割り当てベクトルvAMB,ASSIGN(k)および前記第一および第二のタプル集合MDIR(k+1)、MVEC(k+1)内の情報に従ってなされる。
さらに、チャネル再割り当てブロック605は、k番目のフレームにおいてアクティブである、修正された周囲HOA成分の係数シーケンスのインデックスの第一の集合IAMB,ACT(k)と、(k−1)番目のフレームにおいて有効にされる、無効にされるまたはアクティブなままである必要がある修正された周囲HOA成分の係数シーケンスのインデックスの第二の集合IE(k−1)、ID(k−1)およびIU(k−1)とを生成するよう適応されている。
優勢音合成ブロック606は、優勢HOA音成分^CPS(k−1)のHOA表現を、前記優勢音信号^XPS(k)から合成する(912)よう適応されている。ここで、第一および第二のタプル集合MDIR(k+1)、MVEC(k+1)、予測パラメータζ(k+1)およびインデックスの第二の集合IE(k−1)、ID(k−1)、IU(k−1)が使用される。
周囲合成ブロック607は、周囲HOA成分
Figure 0006220082
を、修正された周囲HOA成分
Figure 0006220082
から合成する(913)よう適応されている。ここで、最初のOMIN個のチャネルについての逆空間的変換がなされ、インデックスの第一の集合IAMB,ACT(k)が使用される。該インデックスの第一の集合は、k番目のフレームにおいてアクティブである周囲HOA成分の係数シーケンスのインデックスである。
階層化モード指示LMFDが少なくとも二つの層をもつ階層化モードを示す場合、周囲HOA成分は、そのOMIN個の最低の位置(すなわち最低の諸インデックスをもつ位置)に、圧縮解除されたHOA信号^C(k−1)のHOA係数シーケンスを含み、残りのより高い位置に、残差のHOA表現の一部である係数シーケンスを含む。該残差は、圧縮解除されたHOA信号^C(k−1)と、914優勢HOA音成分^CPS(k−1)のHOA表現との間の残差である。
他方、階層化モード指示LMFDが単一層モードを示す場合には、圧縮解除されたHOA信号^C(k−1)のHOA係数シーケンスは含まれておらず、周囲HOA成分は、圧縮解除されたHOA信号^C(k−1)と、優勢HOA音成分^CPS(k−1)のHOA表現との間の残差である。
HOA合成ブロック608は、優勢音成分のHOA表現を周囲HOA成分に加えるよう適応されている。
Figure 0006220082
ここで、優勢音信号のHOA表現の係数および周囲HOA成分の対応する係数が加算され、圧縮解除されたHOA信号^C'(k−1)が得られる。ここで、
階層化モード指示LMFDが少なくとも二つの層をもつ階層化モードを示す場合、最高のI−OMIN個の係数チャネルだけが、優勢HOA音成分^CPS(k−1)と周囲HOA成分
Figure 0006220082
の加算によって得られ、圧縮解除されたHOA信号^C'(k−1)の低いほうからのOMIN個の係数チャネルは、周囲HOA成分
Figure 0006220082
からコピーされる。他方、階層化モード指示LMFDが単一層モードを示す場合には、圧縮解除されたHOA信号^C'(k−1)のすべての係数チャネルは、優勢HOA音成分^CPS(k−1)と周囲HOA成分
Figure 0006220082
の加算によって得られる。
図7は、周囲HOA信号から修正された周囲HOA信号へのフレームの変換を示している。
図8は、HOA信号を圧縮する方法のフローチャートを示している。
HOA係数シーケンスの入力時間フレームC(k)をもつ次数Nの入力HOA表現である高次アンビソニックス(HOA)信号を圧縮するための方法800は、入力時間フレームの空間的HOAエンコードならびにその後の知覚的エンコードおよび源エンコードを含む。
空間的HOAエンコードは、
方向およびベクトル推定ブロック301においてHOA信号の方向およびベクトル推定処理801を実行する段階であって、方向性信号についての第一のタプル集合MDIR(k)およびベクトル・ベースの信号についての第二のタプル集合MVEC(k)を含むデータが得られ、各第一のタプル集合MDIR(k)は、方向性信号のインデックスおよびそれぞれの量子化された方向を含み、各第二のタプル集合MVEC(k)は、ベクトル・ベースの信号のインデックスおよび信号の方向分布を定義するベクトルを含む、段階と;
HOA分解ブロック303において、HOA係数シーケンスの各入力時間フレームを、複数の優勢音信号XPS(k−1)のフレームと、周囲HOA成分
Figure 0006220082
のフレームとに分解802する段階であって、優勢音信号XPS(k−1)は前記方向性音信号および前記ベクトル・ベースの音信号を含み、前記周囲HOA成分
Figure 0006220082
は、前記入力HOA表現と前記優勢音信号のHOA表現との間の残差を表わすHOA係数シーケンスを含み、前記分解702はさらに、予測パラメータξ(k−1)および目標割り当てベクトル(target assignment vector)vA,T(k−1)を提供し、前記予測パラメータξ(k−1)は、優勢音信号XPS(k−1)内の方向性信号からどのようにして、優勢音HOA成分を豊かにするようHOA信号表現の諸部分を予測するかを記述し、前記目標割り当てベクトルvA,T(k−1)は、所与の数I個のチャネルに優勢音信号をどのようにして割り当てるかについての情報を含む、段階と;
周囲成分修正ブロック304において、周囲HOA成分CAMB(k−1)を、前記目標割り当てベクトルvA,T(k−1)によって与えられる情報に従って修正803する段階であって、周囲HOA成分CAMB(k−1)のどの係数シーケンスが所与の数I個のチャネルにおいて伝送されるべきかが、何個のチャネルが優勢音信号によって占められているかに依存して、決定され、修正された(modified)周囲HOA成分CM,A(k−2)および時間的に予測された(predicted)修正された周囲HOA成分CP,M,A(k−1)が得られ、前記目標割り当てベクトルvA,T(k−1)内の情報から、最終的な割り当てベクトルvA(k−2)が得られる、段階と;
チャネル割り当てブロック105において、上記分解から得られた優勢音信号XPS(k−1)と、修正された周囲HOA成分CM,A(k−2)および時間的に予測された修正された周囲HOA成分CP,M,A(k−1)の決定された係数シーケンスを、最終的な割り当てベクトルvA(k−2)によって与えられる情報を使って、上記所与の数I個のチャネルに割り当てる804段階であって、トランスポート信号yi(k−2)、i=1,…,Iおよび予測されたトランスポート信号yP,i(k−2)、i=1,…,Iが得られる、段階と;
複数の利得制御ブロック306において、前記トランスポート信号yi(k−2)および前記予測されたトランスポート信号yP,i(k−2)に対して利得制御805を実行する段階であって、利得修正されたトランスポート信号zi(k−2)、指数ei(k−2)および例外フラグβi(k−2)が得られる、段階とを含む。
前記知覚的エンコードおよび源エンコードは、
知覚的符号化器310において、前記利得修正されたトランスポート信号zi(k−2)を知覚的に符号化する806段階であって、知覚的にエンコードされたトランスポート信号
Figure 0006220082
が得られる、段階と;
一つまたは複数のサイド情報源符号化器320、330において、前記指数ei(k−2)および例外フラグβi(k−2)、前記第一のタプル集合MDIR(k)および第二のタプル集合MVEC(k)、前記予測パラメータξ(k−1)および前記最終的な割り当てベクトルvA(k−2)を含むサイド情報をエンコードする段階であって、エンコードされたサイド情報
Figure 0006220082
が得られる、段階と;
知覚的にエンコードされたトランスポート信号
Figure 0006220082
およびエンコードされたサイド情報
Figure 0006220082
を多重化808する段階であって、多重化されたデータ・ストリーム
Figure 0006220082
が得られる、段階とを含む。
上記分解する段階802において得られた周囲HOA成分〔チルダ付きのCAMB(k−1)〕は、入力HOA表現cn(k−1)の最初の諸HOA係数シーケンスをOMIN個の最低の位置(すなわち最低の諸インデックスをもつ位置)に、第二のHOA係数シーケンスCAMB,n(k−1)を残りのより高い位置に含む。第二のHOA係数シーケンスは、入力HOA表現と優勢音信号のHOA表現との間の残差のHOA表現の一部である。
最初のOMIN個の指数ei(k−2)、i=1,…,OMINおよび例外フラグβi(k−2)、i=1,…,OMINは基本層サイド情報源符号化器320においてエンコードされ、エンコードされた基本層サイド情報
Figure 0006220082
が得られる。ここで、OMIN=(NMIN+1)2であり、O=(N+1)2であり、NMIN≦NかつOMIN≦Iであり、NMINはあらかじめ定義された整数値である。
最初のOMIN個の知覚的にエンコードされたトランスポート信号
Figure 0006220082
およびエンコードされた基本層サイド情報
Figure 0006220082
は基本層ビットストリーム・マルチプレクサ340において多重化809され、ここで、基本層ビットストリーム
Figure 0006220082
が得られる。
残りのI−OMIN個の指数ei(k−2)、i=OMIN+1,…,Iおよび例外フラグβi(k−2)、i=OMIN+1,…,I、前記第一のタプル集合MDIR(k−1)および第二のタプル集合MVEC(k−1)、前記予測パラメータξ(k−1)および前記最終的な割り当てベクトルvA(k−2)(図面ではvAMB,ASSIGN(k)としても示される)は、向上層サイド情報エンコーダ330においてエンコードされ、ここで、エンコードされた向上層サイド情報
Figure 0006220082
が得られる。
残りのI−OMIN個の知覚的にエンコードされたトランスポート信号
Figure 0006220082
およびエンコードされた向上層サイド情報
Figure 0006220082
は、向上層ビットストリーム・マルチプレクサ350において多重化810され、向上層ビットストリーム
Figure 0006220082
が得られる。
上記のように、階層化モードの使用を信号伝達するモード指示が加えられる811。モード指示は、指示挿入ブロックまたはマルチプレクサによって加えられる。
ある実施形態では、本方法はさらに、基本層ビットストリーム
Figure 0006220082
と、向上層ビットストリーム
Figure 0006220082
と、モード指示とを単一のビットストリームに多重化する最終段階を含む。
ある実施形態では、前記優位方向(dominant direction)推定は、エネルギー的に優位なHOA成分の方向性パワー分布に依存する。
ある実施形態では、選ばれるHOA係数シーケンスのHOAシーケンス・インデックスが相続くフレーム間で変わる場合には、周囲HOA成分を修正する際、係数シーケンスのフェードインおよびフェードアウトが実行される。
ある実施形態では、周囲HOA成分を修正する際、周囲HOA成分CAMB(k−1)の部分的脱相関が実行される。
ある実施形態では、第一のタプル集合MDIR(k)に含まれる量子化方向は優位方向である。
図9は、圧縮されたHOA信号を圧縮解除する方法のフローチャートを示している。本発明のこの実施形態では、圧縮されたHOA信号を圧縮解除する方法900は、HOA係数シーケンスの出力時間フレーム^C(k−1)を得るために、知覚的なデコードおよび源デコードならびにその後の空間的HOAデコードを含む。本方法は、圧縮された高次アンビソニックス(HOA)信号が圧縮された基本層ビットストリーム
Figure 0006220082
および圧縮された向上層ビットストリーム
Figure 0006220082
を含むことを示す階層化モード指示LMFDを検出する901段階を含む。
前記知覚的デコードおよび源デコードは、
圧縮された基本層ビットストリーム
Figure 0006220082
を多重分離902する段階であって、第一の知覚的にエンコードされたトランスポート信号
Figure 0006220082
および第一のエンコードされたサイド情報
Figure 0006220082
が得られる、段階と;
圧縮された向上層ビットストリーム
Figure 0006220082
を多重分離903する段階であって、第二の知覚的にエンコードされたトランスポート信号
Figure 0006220082
および第二のエンコードされたサイド情報
Figure 0006220082
が得られる、段階と;
知覚的にエンコードされたトランスポート信号
Figure 0006220082
を知覚的にデコード904する段階であって、知覚的にデコードされたトランスポート信号
Figure 0006220082
が得られ、基本層知覚的デコーダ540において、基本層の前記第一の知覚的にエンコードされたトランスポート信号
Figure 0006220082
がデコードされて、第一の知覚的にデコードされたトランスポート信号
Figure 0006220082
が得られ、向上層知覚的デコーダ550において、向上層の前記第二の知覚的にエンコードされたトランスポート信号
Figure 0006220082
がデコードされて、第二の知覚的にデコードされたトランスポート信号
Figure 0006220082
が得られる、段階と;
基本層サイド情報源デコーダ530において、第一のエンコードされたサイド情報
Figure 0006220082
をデコード905する段階であって、第一の指数ei(i)、i=1,…,OMINおよび第一の例外フラグβi(k)、i=1,…,OMINが得られる、段階と;
向上層サイド情報源デコーダ560において、第二のエンコードされたサイド情報
Figure 0006220082
をデコード906する段階であって、第二の指数ei(i)、i=OMIN+1,…,Iおよび第二の例外フラグβi(k)、i=OMIN+1,…,Iが得られ、さらなるデータが得られ、前記さらなるデータは、方向性信号についての第一のタプル集合MDIR(k+1)およびベクトル・ベースの信号についての第二のタプル集合MVEC(k+1)を含み、第一のタプル集合MDIR(k+1)の各タプルは、方向性信号のインデックスおよびそれぞれの量子化された方向を含み、第二のタプル集合MVEC(k+1)の各タプルは、ベクトル・ベースの信号のインデックスおよび該ベクトル・ベースの信号の方向分布を定義するベクトルを含み、さらに、予測パラメータξ(k+1)および周囲割り当てベクトルvAMB,ASSIGN(k)が得られる、段階とを含む。周囲割り当てベクトルvAMB,ASSIGN(k)は、各伝送チャネルについて、周囲HOA成分の係数シーケンスを含んでいるかどうかおよびどの係数シーケンスを含んでいるかを示す成分を含む。
前記空間的HOAデコードは、
逆利得制御を実行910する段階であって、前記第一の知覚的にデコードされたトランスポート信号
Figure 0006220082
が、前記第一の指数ei(k)、i=1,…,OMINおよび前記第一の例外フラグβi(k)、i=1,…,OMINに従って、第一の利得補正された信号フレーム^yi(k)、i=1,…,OMINに変換され、前記第二の知覚的にデコードされたトランスポート信号
Figure 0006220082
が、前記第二の指数ei(k)、i=OMIN+1,…,Iおよび前記第二の例外フラグβi(k)、i=OMIN+1,…,Iに従って、第二の利得補正された信号フレーム^yi(k)、i=OMIN+1,…,Iに変換される、段階と;
チャネル再割り当てブロック605において、前記第一および第二の利得補正された信号フレーム^yi(k)、i=1,…,IをI個のチャネルに再分配911する段階であって、優勢音信号のフレーム^XPS(k)が再構成され、該優勢音信号は方向性信号およびベクトル・ベースの信号を含み、修正された周囲HOA成分
Figure 0006220082
が得られ、割り当ては、前記周囲割り当てベクトルvAMB,ASSIGN(k)および前記第一および第二のタプル集合MDIR(k+1)、MVEC(k+1)内の情報に従ってなされる、段階と;
チャネル再割り当てブロック605において、k番目のフレームにおいてアクティブである、修正された周囲HOA成分の係数シーケンスのインデックスの第一の集合IAMB,ACT(k)と、(k−1)番目のフレームにおいて有効にされる、無効にされるまたはアクティブなままである必要がある修正された周囲HOA成分の係数シーケンスのインデックスの第二の集合IE(k−1)、ID(k−1)、IU(k−1)とを生成911bする段階と;
優勢音合成ブロック606において、優勢HOA音成分^CPS(k−1)のHOA表現を、前記優勢音信号^XPS(k)から合成912する段階であって、前記第一および第二のタプル集合MDIR(k+1)、MVEC(k+1)、予測パラメータζ(k+1)およびインデックスの第二の集合IE(k−1)、ID(k−1)、IU(k−1)が使用される、段階と;
周囲合成ブロック607において、周囲HOA成分
Figure 0006220082
を、修正された周囲HOA成分
Figure 0006220082
から合成913する段階であって、最初のOMIN個のチャネルについての逆空間的変換がなされ、インデックスの第一の集合IAMB,ACT(k)が使用され、該インデックスの第一の集合は、k番目のフレームにおいてアクティブである周囲HOA成分の係数シーケンスのインデックスであり、周囲HOA成分は、階層化モード指示LMFDに依存して少なくとも二つの異なる構成のうちの一つをもつ、段階と;
HOA合成ブロック608において、優勢HOA音成分^CPS(k−1)および周囲HOA成分
Figure 0006220082
のHOA表現を加算914する段階であって、優勢音信号のHOA表現の係数と、周囲HOA成分の対応する係数とが加算され、圧縮解除されたHOA信号^C'(k−1)が得られ、下記の条件、すなわち:
階層化モード指示LMFDが少なくとも二つの層をもつ階層化モードを示す場合、最高のI−OMIN個の係数チャネルだけが、優勢HOA音成分^CPS(k−1)と周囲HOA成分
Figure 0006220082
の加算によって得られ、圧縮解除されたHOA信号^C'(k−1)の低いほうからのOMIN個の係数チャネルは、周囲HOA成分
Figure 0006220082
からコピーされ;他方、階層化モード指示LMFDが単一層モードを示す場合には、圧縮解除されたHOA信号^C'(k−1)のすべての係数チャネルは、優勢HOA音成分^CPS(k−1)と周囲HOA成分
Figure 0006220082
の加算によって得られる、という条件が適用される、段階とを含む。
階層化モード指示LMFDに依存しての周囲HOA成分の構成は次のようなものである。
階層化モード指示LMFDが少なくとも二つの層をもつ階層化モードを示す場合、周囲HOA成分は、そのOMIN個の最低位の位置に、圧縮解除されたHOA信号^C(k−1)のHOA係数シーケンスを含み、残りのより高位の位置に、圧縮解除されたHOA信号^C(k−1)と、優勢HOA音成分^CPS(k−1)のHOA表現との間の残差のHOA表現の一部である係数シーケンスを含む。
他方、階層化モード指示LMFDが単一層モードを示す場合には、周囲HOA成分は、圧縮解除されたHOA信号^C(k−1)と、優勢HOA音成分^CPS(k−1)のHOA表現との間の残差である。
ある実施形態では、圧縮されたHOA信号表現は多重化されたビットストリーム中にあり、圧縮されたHOA信号を圧縮解除する本方法はさらに、圧縮されたHOA信号表現を多重分離する初期段階であって、前記圧縮された基本層ビットストリーム
Figure 0006220082
と、前記圧縮された向上層ビットストリーム
Figure 0006220082
と、前記階層化モード指示LMFDとが得られる段階を有する。
図10は、本発明のある実施形態に基づく、HOA圧縮解除器の空間的HOAデコード部のアーキテクチャの諸部分の詳細を示している。
有利なことに、たとえばELが受領されない場合またはBL品質が十分である場合、BLだけをデコードすることが可能である。この場合、ELの信号はデコーダにおいて0に設定されることができる。すると、優勢音信号^XPS(k)のフレームは空なので、チャネル再割り当てブロック605において、第一および第二の利得補正された信号フレーム^yi(k)、i=1,…,IをI個のチャネルに再分配911することは非常に単純である。(k−1)番目のフレームにおいて有効にされる、無効にされるまたはアクティブなままである必要がある修正された周囲HOA成分の係数シーケンスのインデックスの第二の集合IE(k−1)、ID(k−1)およびIU(k−1)は0に設定される。したがって、優勢音合成ブロック606における優勢HOA音信号^XPS(k)からの優勢HOA音成分^CPS(k−1)のHOA表現の合成912はスキップでき、周囲合成ブロック607における修正された周囲HOA成分
Figure 0006220082
からの周囲HOA成分
Figure 0006220082
の合成913は、通常のHOA合成に対応する。
HOA圧縮のためのもとの(すなわちモノリシック、非スケーラブル、非階層化)モードも、低品質の基本層が必要とされない用途、たとえばファイル・ベースの圧縮のためには相変わらず有用でありうる。もとのHOA表現と方向性HOA表現との間の差である周囲HOA成分CAMBの空間的に変換された最初のOMIN個の係数シーケンスを、もとのHOA成分Cの空間的に変換された係数シーケンスの代わりに、知覚的に符号化することの利点は、前者の場合には、知覚的に符号化されるべきすべての信号間の相互相関が低下するということである。信号zi、i=1,…,Iの間のいかなる相互相関も、空間的デコード・プロセスの間に知覚的な符号化ノイズの建設的な重畳を引き起こしうる。一方で、同時に、ノイズのないHOA係数シーケンスは重畳で打ち消される。この現象は、知覚的ノイズ・マスキング解除(perceptual noise unmasking)として知られる。
階層化モードでは、信号zi、i=1,…,OMINのそれぞれの間に、また信号zi、i=1,…,OMINとzi、i=OMIN+1,…,Iの間に高い相互相関がある。というのも、周囲HOA成分
Figure 0006220082
の修正された係数シーケンスは、方向性HOA成分の信号を含むからである(式(3)参照)。逆に、これは、もとの非階層化モードでは成り立たない。したがって、階層化モードによって導入される伝送の堅牢さは、圧縮品質を代償としてもたらされることがあると結論できる。しかしながら、圧縮品質の低下は、伝送の堅牢さの増大に比べて小さい。上記で示したように、提案される階層化モードは、少なくとも上記の状況において有利である。
本発明の基本的な新規な特徴をその好ましい実施形態に適用した場合について図示し、説明し、指摘してきたが、本発明の精神から外れることなく、記載される装置および方法においてさまざまな省略、代替および変更が、開示されるデバイスの形および詳細ならびにその動作において、当業者によってなされてもよいことは理解されるであろう。実質的に同じ仕方で実質的に同じ機能を実行し、同じ結果を達成する要素のあらゆる組み合わせが本発明の範囲内であることはっきりと意図されている。ある記載された実施形態からの要素の、他の記載された実施形態への代用も完全に意図されており、考えられている。
本発明は、純粋に例として記述されたのであり、本発明の範囲から外れることなく詳細の修正をなすことができることは理解されるであろう。
本記述および(適切な場合には)請求項および図面において開示されている各特徴は、独立に、あるいは任意の適切な組み合わせにおいて提供されうる。特徴は、適宜、ハードウェア、ソフトウェアまたは両者の組み合わせにおいて実装されうる。接続は、該当する場合には、無線接続または有線の、必ずしも直接接続や専用接続ではない接続として実装されてもよい。
請求項に現われる参照符号は単に例であって、請求項の範囲に対する限定する効果はもたな
い。

Claims (15)

  1. 音または音場の圧縮された高次アンビソニックス(HOA)表現をデコードする方法であって、
    前記圧縮されたHOA表現を含むビットストリームを受領する段階と;
    前記圧縮されたHOA表現に関係する複数の層があるかどうかを判定する段階と;
    複数の層があるとの判定に基づいて、前記ビットストリームからの前記圧縮されたHOA表現をデコードして、デコードされたHOA表現のシーケンスを得る段階とを含み、
    デコードされたHOA表現の前記シーケンスの第一の部分集合はインデックスの第一の集合に対応し、デコードされたHOA表現の前記シーケンスの第二の部分集合はインデックスの第二の集合に対応し、
    インデックスの前記第一の集合はO MIN 個のチャネルに基づき、
    インデックスの前記第一の集合における各インデックスについては、前記第一の部分集合における対応するデコードされたHOA表現は、対応する周囲HOA成分のみに基づいて決定され、
    インデックスの前記第二の集合は、前記複数の層の少なくとも一つに基づいて決定される、
    方法。
  2. インデックスの前記第一の集合が1≦n≦O MIN の範囲にあり、インデックスの前記第二の集合がO MIN +1≦n≦Oの範囲にあり、nはエンコードされたHOA表現の次数が低いほど小さく、同じ次数についてはエンコードされたHOA表現の陪数が低いほど小さく、OはHOAチャネルの総数を表わし、O MIN は1からOまでの間の数を示す、請求項1記載の方法。
  3. インデックスnおよびフレームkについて、nがインデックスの前記第一の集合のうちであるときは、前記第一の部分集合は対応する周囲音成分
    Figure 0006220082
    に基づいて決定され、nがインデックスの前記第二の集合のうちであるときは、前記第二の部分集合は、対応する優勢音成分
    Figure 0006220082
    および対応する周囲音成分
    Figure 0006220082
    の加算に基づいて決定され、デコードされたHOA表現は少なくとも部分的には
    Figure 0006220082
    によって表わされる、請求項1または2記載の方法。
  4. インデックスの前記第一の集合はO MIN 個のHOAチャネルに基づき、Nが入力フレームのエンコードされたHOA表現の次数であり、N MIN ≦Nであるとして、O MIN =(N MIN +1) 2 である、請求項1ないし3のうちいずれか一項記載の方法。
  5. 複数の層を使っていることの指示が前記ビットストリームにおいて信号伝達される、請求項1ないし4のうちいずれか一項記載の方法。
  6. 前記複数の層が基本層および少なくとも一つの向上層を含み、前記基本層がインデックスの前記第一の集合に対応し、前記少なくとも一つの向上層がインデックスの前記第二の集合に対応する、請求項1ないし5のうちいずれか一項記載の方法。
  7. フレームkについて、デコードされたHOA表現の前記シーケンスが、周囲割り当てベクトル(v AMB,ASSIGN (k))と、方向性表現のインデックスおよびそれぞれの量子化された方向を含む第一のタプル集合M DIR (k+1)と、ベクトル・ベースの表現のインデックスおよび該ベクトル・ベースの表現の方向分布を定義するベクトルを含む第二のタプル集合M VEC (k)とに基づいて決定される、請求項1ないし6のうちいずれか一項記載の方法。
  8. 音または音場の圧縮された高次アンビソニックス(HOA)表現をデコードする装置であって、
    前記圧縮されたHOA表現を含むビットストリームを受領する受領器と;
    複数の層があるとの判定に基づいて、前記ビットストリームからの前記圧縮されたHOA表現をデコードして、デコードされたHOA表現のシーケンスを得るオーディオ・デコーダとを含み、
    デコードされたHOA表現の前記シーケンスの第一の部分集合はインデックスの第一の集合に対応し、デコードされたHOA表現の前記シーケンスの第二の部分集合はインデックスの第二の集合に対応し、
    インデックスの前記第一の集合はO MIN 個のチャネルに基づき、
    インデックスの前記第一の集合における各インデックスについては、前記第一の部分集合における対応するデコードされたHOA表現は、対応する周囲HOA成分のみに基づいて決定され、
    インデックスの前記第二の集合は、前記複数の層の少なくとも一つに基づいて決定される、
    装置。
  9. インデックスの前記第一の集合が1≦n≦O MIN の範囲にあり、インデックスの前記第二の集合がO MIN +1≦n≦Oの範囲にあり、nはエンコードされたHOA表現の次数が低いほど小さく、同じ次数についてはエンコードされたHOA表現の陪数が低いほど小さく、OはHOAチャネルの総数を表わし、O MIN は1からOまでの間の数を示す、請求項8記載の装置。
  10. インデックスnおよびフレームkについて、nがインデックスの前記第一の集合のうちであるときは、前記第一の部分集合は対応する周囲音成分
    Figure 0006220082
    に基づいて決定され、nがインデックスの前記第二の集合のうちであるときは、前記第二の部分集合は、対応する優勢音成分
    Figure 0006220082
    および対応する周囲音成分
    Figure 0006220082
    の加算に基づいて決定され、デコードされたHOA表現は少なくとも部分的には
    Figure 0006220082
    によって表わされる、請求項8または9記載の装置。
  11. インデックスの前記第一の集合はO MIN 個のHOAチャネルに基づき、Nが入力フレームのエンコードされたHOA表現の次数であり、N MIN ≦Nであるとして、O MIN =(N MIN +1) 2 である、請求項8ないし10のうちいずれか一項記載の装置。
  12. 複数の層を使っていることの指示が前記ビットストリームにおいて信号伝達される、請求項8ないし11のうちいずれか一項記載の装置。
  13. 前記複数の層が基本層および少なくとも一つの向上層を含み、前記基本層がインデックスの前記第一の集合に対応し、前記少なくとも一つの向上層がインデックスの前記第二の集合に対応する、請求項8ないし12のうちいずれか一項記載の装置。
  14. 前記オーディオ・デコーダが、フレームkについて、デコードされたHOA表現の前記シーケンスを、周囲割り当てベクトル(v AMB,ASSIGN (k))と、方向性表現のインデックスおよびそれぞれの量子化された方向を含む第一のタプル集合M DIR (k+1)と、ベクトル・ベースの表現のインデックスおよび該ベクトル・ベースの表現の方向分布を定義するベクトルを含む第二のタプル集合M VEC (k)とに基づいて決定するよう構成されている、請求項8ないし13のうちいずれか一項記載の装置。
  15. 前記オーディオ・デコーダがさらに、チャネル再割り当ての間に、フレームkにおいてアクティブである係数シーケンスのインデックスの第三の集合(I AMB,ACT (k))と、フレーム(k−1)においてそれぞれ有効にされる、無効にされるおよびアクティブなままである必要がある係数シーケンスのインデックスの第二の集合(I E (k−1)、I D (k−1)、I U (k−1))とを生成するよう構成されている、請求項8ないし14のうちいずれか一項記載の装置。
JP2016557322A 2014-03-21 2015-03-20 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置 Active JP6220082B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14305411.2 2014-03-21
EP14305411.2A EP2922057A1 (en) 2014-03-21 2014-03-21 Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
PCT/EP2015/055914 WO2015140291A1 (en) 2014-03-21 2015-03-20 Method for compressing a higher order ambisonics (hoa) signal, method for decompressing a compressed hoa signal, apparatus for compressing a hoa signal, and apparatus for decompressing a compressed hoa signal

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017187920A Division JP6416352B2 (ja) 2014-03-21 2017-09-28 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置

Publications (2)

Publication Number Publication Date
JP2017514160A JP2017514160A (ja) 2017-06-01
JP6220082B2 true JP6220082B2 (ja) 2017-10-25

Family

ID=50439305

Family Applications (6)

Application Number Title Priority Date Filing Date
JP2016557322A Active JP6220082B2 (ja) 2014-03-21 2015-03-20 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置
JP2017187920A Active JP6416352B2 (ja) 2014-03-21 2017-09-28 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置
JP2018188504A Active JP6707604B2 (ja) 2014-03-21 2018-10-03 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置
JP2020087855A Active JP6907383B2 (ja) 2014-03-21 2020-05-20 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置
JP2021109000A Active JP7174810B6 (ja) 2014-03-21 2021-06-30 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置
JP2022178231A Pending JP2023001241A (ja) 2014-03-21 2022-11-07 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置

Family Applications After (5)

Application Number Title Priority Date Filing Date
JP2017187920A Active JP6416352B2 (ja) 2014-03-21 2017-09-28 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置
JP2018188504A Active JP6707604B2 (ja) 2014-03-21 2018-10-03 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置
JP2020087855A Active JP6907383B2 (ja) 2014-03-21 2020-05-20 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置
JP2021109000A Active JP7174810B6 (ja) 2014-03-21 2021-06-30 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置
JP2022178231A Pending JP2023001241A (ja) 2014-03-21 2022-11-07 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置

Country Status (7)

Country Link
US (7) US9930464B2 (ja)
EP (3) EP2922057A1 (ja)
JP (6) JP6220082B2 (ja)
KR (7) KR102238609B1 (ja)
CN (5) CN111179949B (ja)
TW (3) TWI697893B (ja)
WO (1) WO2015140291A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4089674A1 (en) 2014-03-21 2022-11-16 Dolby International AB Method for decompressing a compressed hoa signal and apparatus for decompressing a compressed hoa signal
EP2922057A1 (en) * 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
US10140996B2 (en) 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
US9984693B2 (en) 2014-10-10 2018-05-29 Qualcomm Incorporated Signaling channels for scalable coding of higher order ambisonic audio data
CN116206615A (zh) * 2015-10-08 2023-06-02 杜比国际公司 用于压缩声音或声场表示的分层编解码
UA123055C2 (uk) * 2015-10-08 2021-02-10 Долбі Інтернешнл Аб Багаторівневе кодування стиснених представлень звуку або звукового поля
IL290796B2 (en) * 2015-10-08 2023-10-01 Dolby Int Ab Layered coding and data structure for compressed high-order sound or surround sound field representations
BR122019020650B1 (pt) 2015-10-08 2023-05-02 Dolby International Ab Método e aparelho para decodificar uma representação de som ambissônica de ordem superior (hoa) compactada de um som ou campo sonoro, e meio legível por computador
EA038833B1 (ru) * 2016-07-13 2021-10-26 Долби Интернэшнл Аб Многоуровневое кодирование сжатых представлений звука или звукового поля
US10332530B2 (en) * 2017-01-27 2019-06-25 Google Llc Coding of a soundfield representation
CN108550369B (zh) * 2018-04-14 2020-08-11 全景声科技南京有限公司 一种可变长度的全景声信号编解码方法
US10999693B2 (en) * 2018-06-25 2021-05-04 Qualcomm Incorporated Rendering different portions of audio data using different renderers
FI3891736T3 (fi) 2018-12-07 2023-04-14 Fraunhofer Ges Forschung Laite, menetelmä ja tietokoneohjelma koodausta, dekoodausta, kohtauksen prosessointia ja muita proseduureja varten liittyen dirac-pohjaiseen spatiaaliseen audiokoodaukseen käyttäen matalan asteen, keskiasteen ja korkean asteen komponenttigeneraattoreita
CN113393849B (zh) * 2019-01-29 2022-07-12 桂林理工大学南宁分校 一种双模块数据处理的对讲机系统
US11430451B2 (en) 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects
US20210409888A1 (en) * 2020-06-29 2021-12-30 Qualcomm Incorporated Sound field adjustment

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57107277A (en) 1980-12-24 1982-07-03 Babcock Hitachi Kk Brush removing type bolt cleaner
JPS6351748A (ja) 1986-08-21 1988-03-04 Nec Corp 交換回線接続方法
JPH0453956Y2 (ja) 1986-09-22 1992-12-18
JP3881943B2 (ja) * 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
KR100658222B1 (ko) * 2004-08-09 2006-12-15 한국전자통신연구원 3차원 디지털 멀티미디어 방송 시스템
JP5542306B2 (ja) * 2005-01-11 2014-07-09 コーニンクレッカ フィリップス エヌ ヴェ オーディオ信号のスケーラブル符号化及び復号
US8345899B2 (en) * 2006-05-17 2013-01-01 Creative Technology Ltd Phase-amplitude matrixed surround decoder
EP2154677B1 (en) 2008-08-13 2013-07-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a converted spatial audio signal
EP2306456A1 (en) * 2009-09-04 2011-04-06 Thomson Licensing Method for decoding an audio signal that has a base layer and an enhancement layer
KR101755531B1 (ko) * 2010-03-26 2017-07-07 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 사운드필드 표현을 디코딩하는 방법 및 장치
EP2395505A1 (en) * 2010-06-11 2011-12-14 Thomson Licensing Method and apparatus for searching in a layered hierarchical bit stream followed by replay, said bit stream including a base layer and at least one enhancement layer
EP2450880A1 (en) 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2469741A1 (en) 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
JP6088444B2 (ja) * 2011-03-16 2017-03-01 ディーティーエス・インコーポレイテッドDTS,Inc. 3次元オーディオサウンドトラックの符号化及び復号
EP2541547A1 (en) * 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
JP5912179B2 (ja) 2011-07-01 2016-04-27 ドルビー ラボラトリーズ ライセンシング コーポレイション 適応的オーディオ信号生成、コーディング、及びレンダリングのためのシステムと方法
EP2592845A1 (en) 2011-11-11 2013-05-15 Thomson Licensing Method and Apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field
EP2637427A1 (en) 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2688065A1 (en) 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for avoiding unmasking of coding noise when mixing perceptually coded multi-channel audio signals
EP2688066A1 (en) 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
TWI590234B (zh) * 2012-07-19 2017-07-01 杜比國際公司 編碼聲訊資料之方法和裝置,以及解碼已編碼聲訊資料之方法和裝置
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9516446B2 (en) 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2800401A1 (en) * 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
US11146903B2 (en) * 2013-05-29 2021-10-12 Qualcomm Incorporated Compression of decomposed representations of a sound field
EP3005354B1 (en) * 2013-06-05 2019-07-03 Dolby International AB Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals
US9489955B2 (en) * 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US20150243292A1 (en) * 2014-02-25 2015-08-27 Qualcomm Incorporated Order format signaling for higher-order ambisonic audio data
EP2922057A1 (en) * 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
KR102143037B1 (ko) * 2014-03-21 2020-08-11 돌비 인터네셔널 에이비 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
EP4089674A1 (en) 2014-03-21 2022-11-16 Dolby International AB Method for decompressing a compressed hoa signal and apparatus for decompressing a compressed hoa signal
US9847087B2 (en) * 2014-05-16 2017-12-19 Qualcomm Incorporated Higher order ambisonics signal compression
US9984693B2 (en) * 2014-10-10 2018-05-29 Qualcomm Incorporated Signaling channels for scalable coding of higher order ambisonic audio data
BR122019020650B1 (pt) 2015-10-08 2023-05-02 Dolby International Ab Método e aparelho para decodificar uma representação de som ambissônica de ordem superior (hoa) compactada de um som ou campo sonoro, e meio legível por computador
CN116206615A (zh) 2015-10-08 2023-06-02 杜比国际公司 用于压缩声音或声场表示的分层编解码

Also Published As

Publication number Publication date
EP3686887A1 (en) 2020-07-29
KR20180086512A (ko) 2018-07-31
JP6907383B2 (ja) 2021-07-21
US20170180902A1 (en) 2017-06-22
KR20180026568A (ko) 2018-03-12
US20220377481A1 (en) 2022-11-24
US10334382B2 (en) 2019-06-25
US10779104B2 (en) 2020-09-15
US20190342686A1 (en) 2019-11-07
JP2017227930A (ja) 2017-12-28
JP2017514160A (ja) 2017-06-01
JP2023001241A (ja) 2023-01-04
KR102238609B1 (ko) 2021-04-09
JP7174810B2 (ja) 2022-11-17
KR102428815B1 (ko) 2022-08-04
JP2018205783A (ja) 2018-12-27
TWI770522B (zh) 2022-07-11
CN111145766B (zh) 2022-06-24
CN106463123B (zh) 2020-03-03
US20240007813A1 (en) 2024-01-04
US10542364B2 (en) 2020-01-21
JP6416352B2 (ja) 2018-10-31
CN106463123A (zh) 2017-02-22
JP7174810B6 (ja) 2022-12-20
KR101838056B1 (ko) 2018-03-14
EP3120350B1 (en) 2020-02-19
EP2922057A1 (en) 2015-09-23
WO2015140291A1 (en) 2015-09-24
EP3686887B1 (en) 2024-02-28
US20180234785A1 (en) 2018-08-16
TW201933333A (zh) 2019-08-16
JP2021152681A (ja) 2021-09-30
KR20210040193A (ko) 2021-04-12
CN111179949A (zh) 2020-05-19
KR101882654B1 (ko) 2018-07-26
TWI697893B (zh) 2020-07-01
CN111179948A (zh) 2020-05-19
KR20230156453A (ko) 2023-11-14
CN111182442A (zh) 2020-05-19
US20200120436A1 (en) 2020-04-16
JP6707604B2 (ja) 2020-06-10
KR102600284B1 (ko) 2023-11-10
US20210058729A1 (en) 2021-02-25
US11722830B2 (en) 2023-08-08
KR20200097813A (ko) 2020-08-19
EP3120350A1 (en) 2017-01-25
JP2020160454A (ja) 2020-10-01
KR102144389B1 (ko) 2020-08-13
KR20160124422A (ko) 2016-10-27
US9930464B2 (en) 2018-03-27
US11395084B2 (en) 2022-07-19
TW201537562A (zh) 2015-10-01
CN111179949B (zh) 2022-03-25
TW202309877A (zh) 2023-03-01
TWI648729B (zh) 2019-01-21
CN111145766A (zh) 2020-05-12
TW202113805A (zh) 2021-04-01
CN111182442B (zh) 2021-08-27
KR20220113838A (ko) 2022-08-16

Similar Documents

Publication Publication Date Title
JP6416352B2 (ja) 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置
JP6599516B2 (ja) 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置
JP7374969B2 (ja) 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170928

R150 Certificate of patent or registration of utility model

Ref document number: 6220082

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250