JP2023153310A - 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置 - Google Patents
高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置 Download PDFInfo
- Publication number
- JP2023153310A JP2023153310A JP2023135299A JP2023135299A JP2023153310A JP 2023153310 A JP2023153310 A JP 2023153310A JP 2023135299 A JP2023135299 A JP 2023135299A JP 2023135299 A JP2023135299 A JP 2023135299A JP 2023153310 A JP2023153310 A JP 2023153310A
- Authority
- JP
- Japan
- Prior art keywords
- hoa
- signal
- representation
- component
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000005562 fading Methods 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 abstract description 44
- 239000010410 layer Substances 0.000 description 93
- 239000013598 vector Substances 0.000 description 85
- HLOPMQJRUIOMJO-SWOZAWMQSA-N L-2-amino-4-methoxy-cis-but-3-enoic acid Chemical compound CO\C=C/[C@H](N)C(O)=O HLOPMQJRUIOMJO-SWOZAWMQSA-N 0.000 description 20
- 230000015572 biosynthetic process Effects 0.000 description 19
- NTABMUJQZABQGD-UHFFFAOYSA-N dimethylindole red Chemical compound CC1(C)C2=CC=CC=C2N(C)\C1=C\C=C\C1=CC=[N+](CCCS([O-])(=O)=O)C2=CC=CC=C12 NTABMUJQZABQGD-UHFFFAOYSA-N 0.000 description 19
- 238000003786 synthesis reaction Methods 0.000 description 19
- 238000000354 decomposition reaction Methods 0.000 description 17
- 230000004048 modification Effects 0.000 description 15
- 238000012986 modification Methods 0.000 description 15
- 230000006835 compression Effects 0.000 description 13
- 238000007906 compression Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 8
- 230000006837 decompression Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 239000002356 single layer Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000002355 dual-layer Substances 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 230000005428 wave function Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Stereophonic System (AREA)
Abstract
【課題】HOA係数シーケンスの入力時間フレーム(C(k))をもつ入力HOA表現であるHOA信号を圧縮する方法。【解決手段】本方法が、入力時間フレームの空間的HOAエンコードならびにその後の知覚的エンコードおよび源エンコードを含む。各入力時間フレームは、優勢音信号(XPS(k-1))のフレームと、周囲HOA成分(CAMB(k-1))のフレームとに分解される(802)。周囲HOA成分(CAMB(k-1))は、階層化モードでは、低位の位置には入力HOA表現(cn(k-1))の最初の諸HOA係数シーケンスを、残りのより高位の位置には、第二のHOA係数シーケンス(CAMB,n(k-1))を含む。前記第二のHOA係数シーケンスは、前記入力HOA表現と前記優勢音信号の前記HOA表現との間の残差のHOA表現の一部である。【選択図】図5
Description
本発明は、高次アンビソニックス(HOA)信号を圧縮する方法、圧縮されたHOA信号を圧縮解除する方法、HOA信号を圧縮する装置および圧縮されたHOA信号を圧縮解除する装置に関する。
高次アンビソニックス(HOA: Higher Order Ambisonics)は三次元サウンドを表現する可能性をもたらす。他の既知の技法は波面合成(WFS: wave field synthesis)または22.2のようなチャネル・ベースの手法である。しかしながら、チャネル・ベースの方法とは対照的に、HOA表現は特定のラウドスピーカー・セットアップとは独立であるという利点をもたらす。しかしながら、この柔軟性は、特定のラウドスピーカー・セットアップでのHOA表現の再生のために必要とされるデコード・プロセスを代償とする。必要とされるラウドスピーカーの数が通例非常に多いWFS手法に比べ、HOAはほんの若干数のラウドスピーカーからなるセットアップにレンダリングされてもよい。HOAのさらなる利点は、同じ表現がヘッドフォンへのバイノーラル・レンダリングのためにも、いかなる修正もなしに用いることができるということである。
HOAは、打ち切られた球面調和関数(SH: Spherical Harmonics)展開による、複素調和平面波振幅(complex harmonic plane wave amplitudes)のいわゆる空間密度の表現に基づく。各展開係数は角周波数の関数であり、これは時間領域関数によって等価に表現できる。よって、一般性を失うことなく、完全なHOA音場表現は実際には、O個の時間領域関数からなると想定できる。ここで、Oは展開係数の数を表わす。これらの時間領域関数は、以下では、等価に、HOA係数シーケンスまたはHOAチャネルと称される。通例、x軸が正面位置を向き、y軸が左を向き、z軸が上方を向く球面座標系が使われる。空間内の位置x=(r,θ,φ)Tは動径r>0(すなわち、座標原点までの距離)、極軸zから測った傾斜角θ∈[0,π]およびxy平面においてx軸から反時計回りに測った方位角φ∈[0,2π[によって表現される。さらに、(・)Tは転置を表わす。
HOA符号化のより詳細な記述を下記に与える。
時間に対する音圧のフーリエ変換Ft(・)、すなわちωが角周波数を表わし、iが虚数単位を表わすとして、
は、
に従って球面調和関数の級数に展開されうる。ここで、csは音速を表わし、kは角波数を表わす。角波数は角周波数ωとk=ω/csによって関係付けられる。さらに、jn(・)は第一種の球面ベッセル関数を表わし、Sn
m(θ,φ)は次数(order)nおよび陪数(degree)mの実数値の球面調和関数を表わす。展開係数An
m(k)は角波数kのみに依存する。音圧が空間的に帯域制限されていることが暗黙的に想定されていることを注意しておく。よって、級数は次数インデックスnに関して上限Nで打ち切られる。このNはHOA符号化表現の次数と呼ばれる。音場が異なる角周波数ωの無限個の調和平面波の重ね合わせによって表現され、角タプル(θ,φ)によって指定されるすべての可能な方向から到来するとすると、それぞれの平面波複素振幅関数C(ω,θ,φ)は次の球面調和関数展開によって表わせる。
HOA表現の空間分解能は、展開の最大次数Nの増大とともに改善される。残念ながら、展開係数の数Oは次数Nとともに二次で、具体的にはO=(N+1)2として増大する。たとえば、次数N=4を使った典型的なHOA表現はO=25個のHOA(展開)係数を必要とする。これらの考察によれば、HOA表現の伝送のための全ビットレートは、所望される単一チャネル・サンプリング・レートfsおよびサンプル当たりのビット数Nbを与えられたとき、O・fs・Nbによって決定される。結果として、サンプル当たりNb=16ビットを用いてfs=48kHzのサンプリング・レートで次数N=4のHOA表現を伝送することは、19.2MBits/sのビットレートにつながる。これは、たとえばストリーミングのような多くの実際的な用途にとって非常に高い。このように、HOA表現の圧縮がきわめて望ましい。
これまで、HOA音場表現の圧縮は欧州特許出願EP2743922A、EP2665208AおよびEP2800401Aにおいて提案されている。これらの手法は、音場解析を実行し、与えられたHOA表現を方向性成分(directional component)と残差周囲成分(residual ambient component)に分解することで共通している。一方では、最終的な圧縮された表現は、いくつかの量子化された信号を有することが想定され、該量子化された信号は、方向性信号と周囲HOA成分(ambient HOA component)の関連する係数シーケンスとの知覚的符号化から帰結する。他方では、最終的な圧縮された表現は、量子化された信号に関係する追加的なサイド情報を含むと想定される。このサイド情報は、HOA表現の、その圧縮されたバージョンからの再構成のために必要である。
さらに、同様の方法は非特許文献1に記載されている。ここでは、方向性成分はいわゆる優勢音成分(predominant sound component)に拡張される。方向性成分として、優勢音成分は部分的には方向性信号、すなわち、その方向から聴取者に入射すると想定される対応する方向をもつモノラル信号に、それらの方向性信号からもとのHOA表現の諸部分を予測するためのいくつかの予測パラメータを合わせたものによって表現されると想定される。
さらに、優勢音成分は、いわゆるベクトル・ベースの信号によって表現されるとされる。つまり、ベクトル・ベースの信号の方向分布を定義する対応するベクトルをもつモノラル信号である。既知の圧縮されたHOA表現はI個の量子化されたモノラル信号および若干の追加的なサイド情報からなる。ここで、これらI個の量子化されたモノラル信号のうち固定数OMIN個は、周囲HOA成分CAMB(k-2)の最初のOMIN個の係数シーケンスの空間的に変換されたバージョンを表わす。残りのI-OMIN個の信号の型は、相続くフレームの間で変わることがあり、方向性、ベクトル・ベース、空または周囲HOA成分CAMB(k-2)の追加的な係数シーケンスを表わしているのいずれかであることができる。
HOA符号化係数シーケンスの入力時間フレーム(C(k))をもつHOA信号表現を圧縮するためのある既知の方法は、入力時間フレームの空間的HOAエンコードならびにその後の知覚的エンコードおよび源エンコードを含む。空間的HOAエンコードは、図1a)に示されるように、方向およびベクトル推定ブロック101においてHOA信号の方向およびベクトル推定処理を実行することを含む。ここでは、方向性信号のための第一のタプル集合MDIR(k)およびベクトル・ベースの信号についての第二のタプル集合MVEC(k)を含むデータが得られる。各第一のタプル集合は、方向性信号のインデックスおよびそれぞれの量子化された方向を含み、各第二のタプル集合は、ベクトル・ベースの信号のインデックスおよび信号の方向分布を定義するベクトルを含む。次のステップは、HOA係数シーケンスの各入力時間フレームを、複数の優勢音信号XPS(k-1)のフレームと、周囲HOA成分CAMB(k-1)のフレームとに分解する(103)。ここで、優勢音信号XPS(k-1)は前記方向性音信号および前記ベクトル・ベースの音信号を含む。分解はさらに、予測パラメータξ(k-1)および目標割り当てベクトル(target assignment vector)vA,T(k-1)を提供する。予測パラメータξ(k-1)は、優勢音信号XPS(k-1)内の方向性信号からどのようにして、優勢音HOA成分を豊かにするようHOA信号表現の諸部分を予測するかを記述する。目標割り当てベクトルvA,T(k-1)は、所与の数I個のチャネルに優勢音信号をどのようにして割り当てるかについての情報を含む。周囲HOA成分CAMB(k-1)は、目標割り当てベクトルvA,T(k-1)によって与えられる情報に従って修正される(104)。ここで、周囲HOA成分のどの係数シーケンスが所与の数I個のチャネルにおいて伝送されるべきかが、何個のチャネルが優勢音信号によって占められているかに依存して、決定される。修正された(modified)周囲HOA成分CM,A(k-2)および時間的に予測された(predicted)修正された周囲HOA成分CP,M,A(k-1)が得られる。また、目標割り当てベクトルvA,T(k-1)内の情報から、最終的な割り当てベクトルvA(k-2)も得られる。上記分解から得られた優勢音信号XPS(k-1)と、修正された周囲HOA成分CM,A(k-2)および時間的に予測された修正された周囲HOA成分CP,M,A(k-1)の決定された係数シーケンスが、最終的な割り当てベクトルvA(k-2)によって与えられる情報を使って、上記所与の数のチャネルに割り当てられる。ここで、トランスポート信号yi(k-2)、i=1,…,Iおよび予測されたトランスポート信号yP,i(k-2)、i=1,…,Iが得られる。次いで、トランスポート信号yi(k-2)および予測されたトランスポート信号yP,i(k-2)に対して利得制御(または正規化)が実行される。ここで、利得修正されたトランスポート信号zi(k-2)、指数ei(k-2)および例外フラグβi(k-2)が得られる。
図1b)に示されるように、知覚的エンコードおよび源エンコードは、利得修正されたトランスポート信号zi(k-2)の知覚的な符号化であって、知覚的にエンコードされたトランスポート信号
が得られる符号化と、前記指数ei(k-2)および例外フラグβi(k-2)、前記第一および第二のタプル集合MDIR(k)、MVEC(k)、予測パラメータξ(k-1)および最終的な割り当てベクトルvA(k-2)を含むサイド情報のエンコードであって、エンコードされたサイド情報
が得られるエンコードとを含む。最後に、知覚的にエンコードされたトランスポート信号
およびエンコードされたサイド情報がビットストリーム中に多重化される。
ISO/IEC JTC1/SC29/WG11, N14264, "Working Draft 1-HOA Text of MPEG-H 3D audio", January 2014, San Jose
提案されるHOA圧縮方法の一つの欠点は、モノリシックな(すなわち非スケーラブルな)圧縮されたHOA表現を提供するということである。しかしながら、放送またはインターネット・ストリーミングのようなある種のアプリケーションについては、圧縮された表現を低品質基本層(BL)および高品質向上層(EL)に分割できることが望ましい。基本層は、向上層とは独立にデコードできる、HOA表現の低品質圧縮バージョンを提供するとされる。そのようなBLは典型的には、伝送誤りに対してきわめて堅牢であるべきであり、たとえ劣悪な伝送条件下でも圧縮解除されたHOA表現のある最小限の品質を保証するために低データ・レートで伝送されるべきである。ELは、圧縮解除されたHOA表現の品質を改善するための追加的な情報を含む。
本発明は、(低品質の)基本層および(高品質の)向上層を含む圧縮された表現を提供できるよう既存のHOA圧縮方法を修正するための解決策を提供する。さらに、本発明は、本発明に従って圧縮されている少なくとも低品質の基本層を含む圧縮された表現をデコードすることができるよう既存のHOA圧縮解除方法を修正するための解決策を提供する。
一つの改善は、自己完結の(低品質の)基本層を得ることに関する。本発明によれば、周囲HOA成分CAMB(k-2)の(一般性を失わずに)最初のOMIN個の係数シーケンスの空間的に変換されたバージョンを含むとされるOMIN個のチャネルが、基本層として使われる。基本をなすものとして最初のOMIN個のチャネルを選択することの利点は、その時間不変な型である。しかしながら、従来、それぞれの信号は、音場のために本質的である優勢音成分を全く欠いていた。このことは、周囲HOA成分CAMB(k-1)の従来の計算からも明らかである。それは、
CAMB(k-1)=C(k-1)-CPS(k-1) (1)
に従ってもとのHOA表現C(k-1)から優勢音HOA表現CPS(k-1)を減算することによって実行される。
CAMB(k-1)=C(k-1)-CPS(k-1) (1)
に従ってもとのHOA表現C(k-1)から優勢音HOA表現CPS(k-1)を減算することによって実行される。
したがって、本発明の一つの改善は、そのような優勢音成分を加えることに関する。本発明によれば、この問題への解決策は、低い空間分解能での優勢音成分を基本層に含めることである。この目的のために、本発明に基づく空間的HOAエンコーダにおけるHOA分解処理によって出力される周囲HOA成分CAMB(k-1)は、その修正バージョンによって置換される。修正された周囲HOA成分は、空間的に変換された形において常に伝送されるとされる最初のOMIN個の係数シーケンスにおいて、もとのHOA成分の係数シーケンスを含む。HOA分解処理のこの改善は、HOA圧縮を階層化モード(たとえば二層モード)で機能させるための初期動作と見ることができる。このモードは、たとえば、二つのビットストリームまたは基本層および向上層に分割できる単一のビットストリームを提供する。このモードを使うか使わないかは、全体ビットストリームの諸アクセス単位におけるモード指示ビット(たとえば単一のビット)によって信号伝達される。
ある実施形態では、基本層ビットストリーム
は、知覚的にエンコードされた信号
と、指数ei(k-2)および例外フラグβi(k-2)、i=1,…,OMINからなる対応する符号化された利得制御サイド情報とを含むだけである。残りの知覚的にエンコードされた信号
およびエンコードされた残りのサイド情報は、向上層ビットストリームに含められる。ある実施形態では、基本層(base layer)ビットストリーム
および向上層(enhancement layer)ビットストリーム
は次いで、以前の全ビットストリーム
の代わりに、合同して伝送される。
HOA係数シーケンスの時間フレームを有する高次アンビソニックス(HOA)信号表現を圧縮する方法が請求項1に開示される。HOA係数シーケンスの時間フレームを有する高次アンビソニックス(HOA)信号表現を圧縮する装置が請求項10に開示される。
HOA係数シーケンスの時間フレームを有する高次アンビソニックス(HOA)信号表現を圧縮解除する方法が請求項8に開示される。HOA係数シーケンスの時間フレームを有する高次アンビソニックス(HOA)信号表現を圧縮解除する装置が請求項18に開示される。
HOA係数シーケンスの時間フレームを有する高次アンビソニックス(HOA)信号表現を圧縮する方法をコンピュータに実行させるための実行可能な命令を有する非一時的なコンピュータ可読記憶媒体が請求項20に開示される。HOA係数シーケンスの時間フレームを有する高次アンビソニックス(HOA)信号表現を圧縮解除する方法をコンピュータに実行させるための実行可能な命令を有する非一時的なコンピュータ可読記憶媒体が請求項21に開示される。
本発明の有利な実施形態は従属請求項、以下の記述および図面において開示される。
本発明の例示的な実施形態が付属の図面を参照して記述される。
HOA圧縮器の通常のアーキテクチャの構造である。
HOA圧縮器の通常のアーキテクチャの構造である。
HOA圧縮解除器の通常のアーキテクチャの構造である。
本発明のある実施形態に基づくHOA圧縮器の空間的HOAエンコードおよび知覚的エンコードの部分のアーキテクチャの構造である。
本発明のある実施形態に基づくHOA圧縮器の源符号化器部分のアーキテクチャの構造である。
本発明のある実施形態に基づくHOA圧縮解除器の知覚的復号および源復号のアーキテクチャの構造である。
本発明のある実施形態に基づくHOA圧縮解除器の空間的HOAデコード部分のアーキテクチャの構造である。
周囲HOA信号から修正された周囲HOA信号へのフレーム変換である。
HOA信号を圧縮する方法のフローチャートである。
圧縮されたHOA信号を圧縮解除する方法のフローチャートである。
本発明のある実施形態に基づくHOA圧縮解除器の空間的HOAデコード部分のアーキテクチャの諸部分の詳細である。
理解を容易にするため、図1および図2の従来技術の解決策について以下で確認しておく。
図1は、HOA圧縮器の通常のアーキテクチャの構造を示している。非特許文献1に記載される方法では、方向性成分がいわゆる優勢音成分に拡張される。方向性成分として、優勢音成分は部分的には方向性信号、すなわち、その方向から聴取者に入射すると想定される対応する方向をもつモノラル信号に、それらの方向性信号からもとのHOA表現の諸部分を予測するためのいくつかの予測パラメータを合わせたものによって表現されると想定される。さらに、優勢音成分は、いわゆるベクトル・ベースの信号によって表現されるとされる。つまり、ベクトル・ベースの信号の方向分布を定義する対応するベクトルをもつモノラル信号である。非特許文献1において提案されるHOA圧縮器の全体的なアーキテクチャが図1に示されている。これは、図1aに描かれる空間的HOAエンコード部と、図1bに描かれる源エンコード部に細分できる。空間的HOAエンコーダは、I個の信号に、そのHOA表現をどのようにして生成するかを記述するサイド情報を合わせたものからなる第一の圧縮されたHOA表現を提供する。知覚的およびサイド情報源符号化器では、上述したI個の信号は知覚的にエンコードされ、上記サイド情報は源エンコードにかけられ、その後、二つの符号化された表現が多重化される。
通常、空間的エンコードは次のように機能する。
第一段階では、もとのHOA表現のk番目のフレームC(k)が方向およびベクトル推定処理ブロックに入力される。これは、タプル集合MDIR(k)およびMVEC(k)を与える。タプル集合MDIR(k)は、第一の要素が方向性信号のインデックスを表わし、第二の要素がそれぞれの量子化された方向を表わすタプルからなる。タプル集合MVEC(k)は、第一の要素がベクトル・ベースの信号のインデックスを示し、第二の要素が信号の方向分布、すなわち該ベクトル・ベースの信号のHOA表現がどのように計算されるかを定義するベクトルを表わすタプルからなる。
タプル集合MDIR(k)およびMVEC(k)の両方を使って、初期HOAフレームC(k)はHOA分解において、全優勢音(すなわち、方向性およびベクトル・ベース)信号のフレームXPS(k-1)のフレームと、周囲HOA成分のフレームCAMB(k-1)とに分解される。それぞれ一フレームぶんの遅延に注意されたい。これは、ブロッキング・アーチファクトを避けるための重複加算処理に起因する。さらに、HOA分解は、優勢音HOA成分を豊かにするために方向性信号からどのようにしてもとのHOA表現の諸部分を予測するかを記述するいくつかの予測パラメータξ(k-1)を出力するものと想定される。さらに、HOA分解処理ブロックにおいて決定された優勢音信号のI個の利用可能なチャネルへの割り当てについての情報を含む目標割り当てベクトル(target assignment vector)vA,T(k-1)が提供される。影響されるチャネルは占有されていると想定されることができる。つまり、それらはそれぞれの時間フレームにおいて周囲HOA成分のいかなる係数シーケンスを転送するためにも利用可能ではない。
周囲成分修正処理ブロックでは、周囲HOA成分のフレームCAMB(k-1)は、目標割り当てベクトルvA,T(k-1)によって与えられる情報に従って修正される。特に、周囲HOA成分のどの係数シーケンスが所与のI個のチャネルにおいて伝送されるべきかが、他の側面もあるが中でも、どのチャネルが利用可能であり、優勢音信号によってすでに占有されていないかについての情報(目標割り当てベクトルvA,T(k-1)に含まれる)に依存して、決定される。さらに、選ばれた係数シーケンスのインデックスが相続くフレームの間で変わる場合には、係数シーケンスのフェードインおよびフェードアウトが実行される。
さらに、周囲HOA成分CAMB(k-2)の最初のOMIN個の係数シーケンスは、常に、知覚的に符号化され伝送されるべく選ばれるものとする。ここで、OMIN=(NMIN+1)2であり、NMIN≦Nは典型的にはもとのHOA表現のものより小さな次数である。これらのHOA係数シーケンスを脱相関するために、これらを、いくつかのあらかじめ定義された方向ΩMIN,d、d=1,…,OMINから入射する方向性信号(すなわち、一般平面波関数)に変換することが提案される。修正された周囲HOA成分CAMB(k-1)とともに、合理的な先読みを許容するために、利得制御処理ブロックにおいてのちに使われるよう、時間的に予測された修正された周囲HOA成分CP,M,A(k-1)が計算される。
周囲HOA成分の修正についての情報は、すべての可能な型の信号の、利用可能なチャネルへの割り当てに直接関係している。割り当てについての最終的な情報は、最終的な割り当てベクトルvA(k-2)に含まれる。このベクトルを計算するために、目標割り当てベクトルvA,T(k-1)に含まれる情報が活用される。
チャネル割り当ては、割り当てベクトルvA(k-2)によって与えられる情報を用いて、XPS(k-2)に含まれる適切な信号およびCM,A(k-2)に含まれる適切な信号を、I個の利用可能なチャネルに割り当て、信号yi(k-2)、i=1,…,Iを与える。さらに、XPS(k-1)に含まれる適切な信号およびCP,AMB(k-1)に含まれる適切な信号も、I個の利用可能なチャネルに割り当てられて、信号yP,i(k-2)、i=1,…,Iを与える。信号yi(k-2)、i=1,…,Iのそれぞれは、最終的に利得制御によって処理される。ここでは、知覚的エンコーダに好適な値範囲を達成するよう信号利得がなめらかに修正される。予測された信号フレームyP,i(k-2)、i=1,…,Iは、相続くブロックの間の激しい利得変化を避けるために一種の先読みを許容する。利得修正は、空間的デコーダにおいては、指数ei(k-2)および例外フラグβi(k-2)、i=1,…,Iからなる利得制御サイド情報を用いて、反転されることが想定される。
図2は、非特許文献1において提案されるHOA圧縮解除器の通常のアーキテクチャの構造を示している。通常、HOA圧縮解除はHOA圧縮器コンポーネントの対応物からなり、それらの対応物は、当然、逆順に配列される。HOA圧縮解除は、図2a)に描かれる知覚的および源デコード部と、図2b)に描かれる空間的HOAデコード部に細分される。
知覚的およびサイド情報源デコーダにおいて、ビットストリームはまず、前記I個の信号の知覚的に符号化された表現と、そのHOA表現をどのようにして生成するかを記述する符号化されたサイド情報とに多重分離される。続いて、前記I個の信号の知覚的デコードおよび前記サイド情報のデコードが実行される。次いで、空間的HOAデコーダは前記I個の信号および前記サイド情報から、再構成されたHOA表現を生成する。
通常、空間的HOAデコードは次のように機能する。
空間的HOAデコーダでは、知覚的にデコードされた信号
のそれぞれがまず、関連する利得補正指数ei(k)および利得補正例外フラグβi(k)と一緒に逆利得制御処理ブロックに入力される。i番目の逆利得制御処理は利得補正された信号フレーム
〔^yi(k)〕を与える。
I個の利得補正された信号フレーム
のすべては割り当てベクトルvAMB,ASSIGN(k)およびタプル集合MDIR(k+1)およびMVEC(k+1)と一緒にチャネル再割り当てに渡される。タプル集合MDIR(k+1)およびMVEC(k+1)は(空間的HOAエンコードについて)上記で定義されている。割り当てベクトルvAMB,ASSIGN(k)はI個の成分からなり、これらの成分は各伝送チャネルについて、周囲HOA成分の係数シーケンスを含んでいるかどうかおよびどの係数シーケンスを含んでいるかを示す。チャネル再割り当てにおいて、利得補正された信号フレーム^yi(k)は、すべての優勢音信号(すなわちすべての方向性およびベクトル・ベースの信号)のフレーム
〔^XPS(k)〕および周囲HOA成分の中間表現のフレームCI,AMB(k)を再構成するために再分配される。さらに、k番目のフレームにおいてアクティブである、周囲HOA成分の係数シーケンスのインデックスの集合IAMB,ACT(k)と、(k-1)番目のフレームにおいて有効にされる、無効にされるまたはアクティブなままである必要がある周囲HOA成分の係数インデックスの集合IE(k-1)、ID(k-1)およびIU(k-1)とが提供される。
優勢音合成では、優勢音成分
〔^CPS(k-1)〕のHOA表現が、すべての優勢音信号のフレーム^XPS(k)から、タプル集合MDIR(k+1)および予測パラメータの集合ζ(k+1)、タプル集合MVEC(k+1)および集合IE(k-1)、ID(k-1)およびIU(k-1)を使って計算される。
周囲合成では、周囲HOA成分フレーム
〔^CAMB(k-1)〕が、周囲HOA成分の中間表現のフレームCI,AMB(k)から、k番目のフレームにおいてアクティブである周囲HOA成分の係数シーケンスのインデックスの集合IAMB,ACT(k)を使って生成される。一フレームぶんの遅延に注意されたい。これは優勢音HOA成分との同期に起因して導入されるものである。最後に、HOA合成において、周囲HOA成分フレーム^CAMB(k-1)および優勢音HOA成分のフレーム^CPS(k-1)が重畳されて、デコードされたHOAフレーム^C(k-1)を与える。
上記のHOA圧縮および圧縮解除方法の大雑把な記述から明らかになったように、圧縮された表現はI個の量子化されたモノラル信号およびいくらかの追加的なサイド情報からなる。これらのI個の量子化されたモノラル信号のうちの固定数OMIN個は、周囲HOA成分CAMB(k-2)の最初のOMIN個の係数シーケンスの空間的に変換されたバージョンを表わす。残りのI-OMIN個の信号の型は相続くフレームの間で変わることがあり、方向性、ベクトル・ベース、空または周囲HOA成分CAMB(k-2)の追加的な係数シーケンスを表わしているのいずれかであることができる。そのままでは、圧縮されたHOA表現はモノリシックであることが意図されている。特に、一つの問題は、いかにして記載された表現を低品質の基本層と向上層とに分割するかである。
開示される発明によれば、低品質基本層のための候補は、周囲HOA成分CAMB(k-2)の最初のOMIN個の係数シーケンスの空間的に変換されたバージョンを含むOMIN個のチャネルである。これらの(一般性を失うことなく、最初の)OMIN個のチャネルが低品質基本層をなすための良好な選択となるのは、その時間不変な型のためである。しかしながら、それぞれの信号は、音場のために本質的である優勢音成分を全く欠いている。このことは、周囲HOA成分CAMB(k-1)の計算においても見て取れる。それは、
CAMB(k-1)=C(k-1)-CPS(k-1) (1)
に従ってもとのHOA表現C(k-1)から優勢音HOA表現CPS(k-1)を減算することによって実行される。
CAMB(k-1)=C(k-1)-CPS(k-1) (1)
に従ってもとのHOA表現C(k-1)から優勢音HOA表現CPS(k-1)を減算することによって実行される。
この問題への解決策は、低い空間分解能での優勢音成分を基本層に含めることである。
HOA圧縮への提案される修正について、以下で述べる。
図3は、本発明のある実施形態に基づく、HOA圧縮器の空間的HOAエンコードおよび知覚的エンコード部分のアーキテクチャの構造を示している。低い空間分解能での優勢音成分をも基本層に含めるために、空間的HOAエンコーダにおけるHOA分解処理によって出力される周囲HOA成分CAMB(k-1)(図1a参照)が、修正バージョン
によって置き換えられる。その要素は次式によって与えられる。
HOA分解処理のこの変更は、HOA圧縮をいわゆる「デュアル層」または「二層」モードで機能させる初期動作として見ることができることを注意しておくことが重要である。このモードは、低品質の基本層と向上層とに分割できるビットストリームを提供する。このモードを使うか使わないかは、全体ビットストリームの諸アクセス単位における単一ビットにによって信号伝達されることができる。
基本層および向上層のためのビットストリームを提供するためのビットストリーム多重化の可能な結果的な修正が図3および図4に示されており、これについて下記でさらに述べる。
基本層ビットストリーム
は、知覚的にエンコードされた信号
と、指数ei(k-2)および例外フラグβi(k-2)、i=1,…,OMINからなる対応する符号化された利得制御サイド情報とを含むだけである。残りの知覚的にエンコードされた信号
およびエンコードされた残りのサイド情報は、向上層ビットストリームに含められる。基本層(base layer)および向上層(enhancement layer)ビットストリーム
は次いで、以前の全ビットストリーム
の代わりに、合同して伝送される。
図3および図4では、HOA係数シーケンスの入力時間フレーム(C(k))をもつ入力HOA表現であるHOA信号を圧縮するための装置が示されている。当該装置は、入力時間フレームの空間的HOAエンコードならびにその後の知覚的エンコードのための、図3に示される空間的HOAエンコードおよび知覚的エンコード部と、源エンコードのための、図4に示される源符号化器部とを有する。空間的HOAエンコードおよび知覚的エンコード部は、方向およびベクトル推定ブロック301、HOA分解ブロック303、周囲成分修正ブロック304、チャネル割り当てブロック305および複数の利得制御ブロック306を有する。
方向およびベクトル推定ブロック301は、HOA信号の方向およびベクトル推定処理を実行するために適応されている。ここでは、方向性信号についての第一のタプル集合MDIR(k)およびベクトル・ベースの信号についての第二のタプル集合MVEC(k)を含むデータが得られる。各第一のタプル集合MDIR(k)は、方向性信号のインデックスおよびそれぞれの量子化された方向を含み、各第二のタプル集合MVEC(k)は、ベクトル・ベースの信号のインデックスおよび信号の方向分布を定義するベクトルを含む。
HOA分解ブロック303は、HOA係数シーケンスの各入力時間フレームを、複数の優勢音信号XPS(k-1)のフレームと、周囲HOA成分
のフレームとに分解するために適応されている。ここで、優勢音信号XPS(k-1)は前記方向性音信号および前記ベクトル・ベースの音信号を含み、周囲HOA成分
は、入力HOA表現と優勢音信号のHOA表現との間の残差を表わすHOA係数シーケンスを含む。分解はさらに、予測パラメータξ(k-1)および目標割り当てベクトル(target assignment vector)vA,T(k-1)を提供する。予測パラメータξ(k-1)は、優勢音信号XPS(k-1)内の方向性信号からどのようにして、優勢音HOA成分を豊かにするようHOA信号表現の諸部分を予測するかを記述する。目標割り当てベクトルvA,T(k-1)は、所与の数I個のチャネルに優勢音信号をどのようにして割り当てるかについての情報を含む。
周囲成分修正ブロック304は、周囲HOA成分CAMB(k-1)を、目標割り当てベクトルvA,T(k-1)によって与えられる情報に従って修正するために適応されている。ここで、周囲HOA成分CAMB(k-1)のどの係数シーケンスが所与の数I個のチャネルにおいて伝送されるべきかが、何個のチャネルが優勢音信号によって占められているかに依存して、決定される。修正された(modified)周囲HOA成分CM,A(k-2)および時間的に予測された(predicted)修正された周囲HOA成分CP,M,A(k-1)が得られる。また、目標割り当てベクトルvA,T(k-1)内の情報から、最終的な割り当てベクトルvA(k-2)が得られる。
チャネル割り当てブロック305は、上記分解から得られた優勢音信号XPS(k-1)と、修正された周囲HOA成分CM,A(k-2)および時間的に予測された修正された周囲HOA成分CP,M,A(k-1)の決定された係数シーケンスとを、最終的な割り当てベクトルvA(k-2)によって与えられる情報を使って、上記所与の数I個のチャネルに割り当てるために適応されている。ここで、トランスポート信号yi(k-2)、i=1,…,Iおよび予測されたトランスポート信号yP,i(k-2)、i=1,…,Iが得られる。
複数の利得制御ブロック306は、トランスポート信号yi(k-2)および予測されたトランスポート信号yP,i(k-2)に対して利得制御(805)を実行するために適応されている。ここで、利得修正されたトランスポート信号zi(k-2)、指数ei(k-2)および例外フラグβi(k-2)が得られる。
図4は、本発明のある実施形態に基づくHOA圧縮器の源符号化器部分のアーキテクチャの構造を示している。図4に示される源符号化器部分は、知覚的符号化器310と、二つの符号化器320、330すなわち基本層サイド情報源符号化器320および向上層サイド情報エンコーダ330をもつサイド情報源符号化器ブロックと、二つのマルチプレクサ340、350、すなわち基本層ビットストリーム・マルチプレクサ340および向上層ビットストリーム・マルチプレクサ350とを有する。サイド情報源符号化器は、単一のサイド情報源符号化器ブロックであってもよい。
サイド情報源符号化器320、330は、前記指数ei(k-2)および例外フラグβi(k-2)、前記第一のタプル集合MDIR(k)および第二のタプル集合MVEC(k)、前記予測パラメータξ(k-1)および前記最終的な割り当てベクトルvA(k-2)を含むサイド情報をエンコードするために適応されており、エンコードされたサイド情報
が得られる。
マルチプレクサ340、350は、知覚的にエンコードされたトランスポート信号
およびエンコードされたサイド情報
を多重化データ・ストリーム
中に多重化するために適応されている。ここで、上記分解において得られた周囲HOA成分〔チルダ付きのCAMB(k-1)〕は、入力HOA表現cn(k-1)の最初の諸HOA係数シーケンスをOMIN個の最低の位置(すなわち最低の諸インデックスをもつ位置)に、第二のHOA係数シーケンスCAMB,n(k-1)を残りのより高い位置に含む。式(4)~(6)に関して下記で説明されるように、第二のHOA係数シーケンスは、入力HOA表現と優勢音信号のHOA表現との間の残差のHOA表現の一部である。さらに、最初のOMIN個の指数ei(k-2)、i=1,…,OMINおよび例外フラグβi(k-2)、i=1,…,OMINは基本層サイド情報源符号化器320においてエンコードされ、エンコードされた基本層サイド情報
が得られる。ここで、OMIN=(NMIN+1)2であり、O=(N+1)2であり、NMIN≦NかつOMIN≦Iであり、NMINはあらかじめ定義された整数値である。最初のOMIN個の知覚的にエンコードされたトランスポート信号
およびエンコードされた基本層サイド情報
は基本層ビットストリーム・マルチプレクサ340(これは前記マルチプレクサの一つである)において多重化され、ここで、基本層ビットストリーム
が得られる。基本層サイド情報源符号化器320は、前記サイド情報源符号化器の一つである、あるいはサイド情報源符号化器ブロック内にある。
残りのI-OMIN個の指数ei(k-2)、i=OMIN+1,…,Iおよび例外フラグβi(k-2)、i=OMIN+1,…,I、前記第一のタプル集合MDIR(k-1)および第二のタプル集合MVEC(k-1)、前記予測パラメータξ(k-1)および前記最終的な割り当てベクトルvA(k-2)は、向上層サイド情報エンコーダ330においてエンコードされ、ここで、エンコードされた向上層サイド情報
が得られる。向上層サイド情報源符号化器330は、前記サイド情報源符号化器の一つである、あるいはサイド情報源符号化器ブロック内にある。
残りのI-OMIN個の知覚的にエンコードされたトランスポート信号
およびエンコードされた向上層サイド情報
は、向上層ビットストリーム・マルチプレクサ350(これも前記マルチプレクサの一つである)において多重化され、向上層ビットストリーム
が得られる。さらに、モード指示LMFEがマルチプレクサまたは指示挿入ブロックにおいて追加される。モード指示LMFEは階層化モードの使用を信号伝達し、それは圧縮された信号の正しい圧縮解除のために使われる。
ある実施形態では、本エンコード装置はさらに、モードを選択するよう適応されたモード選択器を有する。モードは、モード指示LMFEによって示され、階層化モードおよび非階層化モードの一つである。非階層化モードでは、周囲HOA成分〔チルダ付きのCAMB(k-1)〕は、入力HOA表現と優勢音信号のHOA表現との間の残差を表わすHOA係数シーケンスのみを含む(すなわち、入力HOA表現の係数シーケンスを含まない)。
HOA圧縮解除の提案される修正について以下で述べる。
階層化モードでは、HOA圧縮における周囲HOA成分CAMB(k-1)の修正が、HOA合成を適切に修正することによって、HOA圧縮解除において考慮される。
HOA圧縮解除器では、基本層および向上層ビットストリームの多重分離およびデコードは、図5に従って実行される。基本層ビットストリーム
は、基本層サイド情報の符号化された表現と、知覚的にエンコードされた信号とに多重分離される。その後、基本層サイド情報の符号化された表現および知覚的にエンコードされた信号はデコードされて、一方では指数ei(k)および例外フラグを与え、他方では知覚的にデコードされた信号を与える。同様に、向上層ビットストリームは多重分離およびデコードされて、知覚的にデコードされた信号および残りのサイド情報を与える(図5参照)。この階層化モードでは、空間的HOAエンコードにおける周囲HOA成分CAMB(k-1)の修正を考慮するために、空間的HOAデコード部も修正される必要がある。修正は、HOA合成において達成される。
ビットストリームはまず多重分離およびデコードされて、再構成された信号^zi(k)と、指数ei(k)および例外フラグβi(k)、i=1,…,OMINからなる対応する利得制御サイド情報とを与える。向上層がないときは、知覚的に符号化された信号
は利用可能ではない。この状況に対処する可能な仕方は、信号
を0と置くことである。これは、自動的に、再構成された優勢音成分CPS(k-1)を0にする。
次のステップでは、空間的HOAデコーダにおいて、最初のOMIN個の逆利得制御処理ブロックが、利得補正された信号フレーム
を与える。これらのフレームは、チャネル再割り当てによって周囲HOA成分の中間表現のフレームCI,AMB(k)を構築するために使われる。k番目のフレームにおいてアクティブである周囲HOA成分の係数シーケンスのインデックスの集合IAMB,ACT(k)はインデックス1,2,…,OMINのみを含むことを注意しておく。周囲合成において、最初のOMIN個の係数シーケンスの空間的変換の逆が行なわれて、周囲HOA成分フレームCAMB(k-1)が与えられる。最後に、再構成されたHOA表現が式(6)に従って計算される。
図5および図6は、本発明のある実施形態に基づくHOA圧縮解除器のアーキテクチャの構造を示している。本装置は、図5に示される知覚的デコードおよび源デコード部と、図6に示される空間的HOAデコード部と、圧縮されたHOA信号が圧縮された基本層ビットストリーム
および圧縮された向上層ビットストリームを含むことを示す階層化モード指示LMFDを検出するために適応されたモード検出器とを有する。
を有する。
を有する。
図5は、本発明のある実施形態に基づくHOA圧縮解除器の知覚的デコードおよび源デコード部のアーキテクチャの構造を示している。知覚的デコードおよび源デコード部は、第一のデマルチプレクサ510、第二のデマルチプレクサ520、基本層知覚的デコーダ540および向上層知覚的デコーダ550、基本層サイド情報源デコーダ530および向上層サイド情報源デコーダ560を有する。
第一のデマルチプレクサ510は、圧縮された基本層ビットストリーム
を多重分離するために適応されている。ここで、第一の知覚的にエンコードされたトランスポート信号
および第一のエンコードされたサイド情報
が得られる。第二のデマルチプレクサ520は、圧縮された向上層ビットストリーム
を多重分離するために適応されている。ここで、第二の知覚的にエンコードされたトランスポート信号
および第二のエンコードされたサイド情報
が得られる。
基本層知覚的デコーダ540および向上層知覚的デコーダ550は、知覚的にエンコードされたトランスポート信号
を知覚的にデコードする904ために適応されており、知覚的にデコードされたトランスポート信号
が得られる。基本層知覚的デコーダ540では、基本層の前記第一の知覚的にエンコードされたトランスポート信号
がデコードされて、第一の知覚的にデコードされたトランスポート信号
が得られる。向上層知覚的デコーダ550では、向上層の前記第二の知覚的にエンコードされたトランスポート信号
がデコードされて、第二の知覚的にデコードされたトランスポート信号
が得られる。
基本層サイド情報源デコーダ530は、第一のエンコードされたサイド情報
をデコード905するよう適応されている。ここで、第一の指数ei(i)、i=1,…,OMINおよび第一の例外フラグβi(k)、i=1,…,OMINが得られる。
向上層サイド情報源デコーダ560は、第二のエンコードされたサイド情報
をデコードするよう適応されている。ここで、第二の指数ei(i)、i=OMIN+1,…,Iおよび第二の例外フラグβi(k)、i=OMIN+1,…,Iが得られ、さらなるデータが得られる。前記さらなるデータは、方向性信号についての第一のタプル集合MDIR(k+1)およびベクトル・ベースの信号についての第二のタプル集合MVEC(k+1)を含む。第一のタプル集合MDIR(k+1)の各タプルは、方向性信号のインデックスおよびそれぞれの量子化された方向を含み、第二のタプル集合MVEC(k+1)の各タプルは、ベクトル・ベースの信号のインデックスおよび該ベクトル・ベースの信号の方向分布を定義するベクトルを含む。さらに、予測パラメータξ(k+1)および周囲割り当てベクトルvAMB,ASSIGN(k)が得られる。ここで、周囲割り当てベクトルvAMB,ASSIGN(k)は、各伝送チャネルについて、周囲HOA成分の係数シーケンスを含んでいるかどうかおよびどの係数シーケンスを含んでいるかを示す成分を含む。
図6は、本発明のある実施形態に基づくHOA圧縮解除器の空間的HOAデコード部のアーキテクチャの構造を示している。空間的HOAデコード部は、複数の逆利得制御ユニット604、チャネル再割り当てブロック605、優勢音合成(Predominant Sound Synthesis)ブロック606および周囲合成(Ambient Synthesis)ブロック607、HOA合成(HOA Composition)ブロック608を有する。
複数の逆利得制御ユニット604は、逆利得制御を実行するよう適応されている。ここで、前記第一の知覚的にデコードされたトランスポート信号
が、第一の指数ei(k)、i=1,…,OMINおよび第一の例外フラグβi(k)、i=1,…,OMINに従って、第一の利得補正された信号フレーム^yi(k)、i=1,…,OMINに変換され、前記第二の知覚的にデコードされたトランスポート信号
が、第二の指数ei(k)、i=OMIN+1,…,Iおよび第二の例外フラグβi(k)、i=OMIN+1,…,Iに従って、第二の利得補正された信号フレーム^yi(k)、i=OMIN+1,…,Iに変換される。
チャネル再割り当てブロック605は、第一および第二の利得補正された信号フレーム^yi(k)、i=1,…,IをI個のチャネルに再分配するよう適応されている。ここで、優勢音信号のフレーム^XPS(k)が再構成され、該優勢音信号は方向性信号およびベクトル・ベースの信号を含み、修正された周囲HOA成分
が得られ、割り当ては、前記周囲割り当てベクトルvAMB,ASSIGN(k)および前記第一および第二のタプル集合MDIR(k+1)、MVEC(k+1)内の情報に従ってなされる。
さらに、チャネル再割り当てブロック605は、k番目のフレームにおいてアクティブである、修正された周囲HOA成分の係数シーケンスのインデックスの第一の集合IAMB,ACT(k)と、(k-1)番目のフレームにおいて有効にされる、無効にされるまたはアクティブなままである必要がある修正された周囲HOA成分の係数シーケンスのインデックスの第二の集合IE(k-1)、ID(k-1)およびIU(k-1)とを生成するよう適応されている。
優勢音合成ブロック606は、優勢HOA音成分^CPS(k-1)のHOA表現を、前記優勢音信号^XPS(k)から合成する(912)よう適応されている。ここで、第一および第二のタプル集合MDIR(k+1)、MVEC(k+1)、予測パラメータζ(k+1)およびインデックスの第二の集合IE(k-1)、ID(k-1)、IU(k-1)が使用される。
周囲合成ブロック607は、周囲HOA成分
を、修正された周囲HOA成分
から合成する(913)よう適応されている。ここで、最初のOMIN個のチャネルについての逆空間的変換がなされ、インデックスの第一の集合IAMB,ACT(k)が使用される。該インデックスの第一の集合は、k番目のフレームにおいてアクティブである周囲HOA成分の係数シーケンスのインデックスである。
階層化モード指示LMFDが少なくとも二つの層をもつ階層化モードを示す場合、周囲HOA成分は、そのOMIN個の最低の位置(すなわち最低の諸インデックスをもつ位置)に、圧縮解除されたHOA信号^C(k-1)のHOA係数シーケンスを含み、残りのより高い位置に、残差のHOA表現の一部である係数シーケンスを含む。該残差は、圧縮解除されたHOA信号^C(k-1)と、914優勢HOA音成分^CPS(k-1)のHOA表現との間の残差である。
他方、階層化モード指示LMFDが単一層モードを示す場合には、圧縮解除されたHOA信号^C(k-1)のHOA係数シーケンスは含まれておらず、周囲HOA成分は、圧縮解除されたHOA信号^C(k-1)と、優勢HOA音成分^CPS(k-1)のHOA表現との間の残差である。
HOA合成ブロック608は、優勢音成分のHOA表現を周囲HOA成分に加えるよう適応されている。
階層化モード指示LMFDが少なくとも二つの層をもつ階層化モードを示す場合、最高のI-OMIN個の係数チャネルだけが、優勢HOA音成分^CPS(k-1)と周囲HOA成分
図7は、周囲HOA信号から修正された周囲HOA信号へのフレームの変換を示している。
図8は、HOA信号を圧縮する方法のフローチャートを示している。
HOA係数シーケンスの入力時間フレームC(k)をもつ次数Nの入力HOA表現である高次アンビソニックス(HOA)信号を圧縮するための方法800は、入力時間フレームの空間的HOAエンコードならびにその後の知覚的エンコードおよび源エンコードを含む。
空間的HOAエンコードは、
方向およびベクトル推定ブロック301においてHOA信号の方向およびベクトル推定処理801を実行する段階であって、方向性信号についての第一のタプル集合MDIR(k)およびベクトル・ベースの信号についての第二のタプル集合MVEC(k)を含むデータが得られ、各第一のタプル集合MDIR(k)は、方向性信号のインデックスおよびそれぞれの量子化された方向を含み、各第二のタプル集合MVEC(k)は、ベクトル・ベースの信号のインデックスおよび信号の方向分布を定義するベクトルを含む、段階と;
HOA分解ブロック303において、HOA係数シーケンスの各入力時間フレームを、複数の優勢音信号XPS(k-1)のフレームと、周囲HOA成分
のフレームとに分解802する段階であって、優勢音信号XPS(k-1)は前記方向性音信号および前記ベクトル・ベースの音信号を含み、前記周囲HOA成分
は、前記入力HOA表現と前記優勢音信号のHOA表現との間の残差を表わすHOA係数シーケンスを含み、前記分解702はさらに、予測パラメータξ(k-1)および目標割り当てベクトル(target assignment vector)vA,T(k-1)を提供し、前記予測パラメータξ(k-1)は、優勢音信号XPS(k-1)内の方向性信号からどのようにして、優勢音HOA成分を豊かにするようHOA信号表現の諸部分を予測するかを記述し、前記目標割り当てベクトルvA,T(k-1)は、所与の数I個のチャネルに優勢音信号をどのようにして割り当てるかについての情報を含む、段階と;
周囲成分修正ブロック304において、周囲HOA成分CAMB(k-1)を、前記目標割り当てベクトルvA,T(k-1)によって与えられる情報に従って修正803する段階であって、周囲HOA成分CAMB(k-1)のどの係数シーケンスが所与の数I個のチャネルにおいて伝送されるべきかが、何個のチャネルが優勢音信号によって占められているかに依存して、決定され、修正された(modified)周囲HOA成分CM,A(k-2)および時間的に予測された(predicted)修正された周囲HOA成分CP,M,A(k-1)が得られ、前記目標割り当てベクトルvA,T(k-1)内の情報から、最終的な割り当てベクトルvA(k-2)が得られる、段階と;
チャネル割り当てブロック105において、上記分解から得られた優勢音信号XPS(k-1)と、修正された周囲HOA成分CM,A(k-2)および時間的に予測された修正された周囲HOA成分CP,M,A(k-1)の決定された係数シーケンスを、最終的な割り当てベクトルvA(k-2)によって与えられる情報を使って、上記所与の数I個のチャネルに割り当てる804段階であって、トランスポート信号yi(k-2)、i=1,…,Iおよび予測されたトランスポート信号yP,i(k-2)、i=1,…,Iが得られる、段階と;
複数の利得制御ブロック306において、前記トランスポート信号yi(k-2)および前記予測されたトランスポート信号yP,i(k-2)に対して利得制御805を実行する段階であって、利得修正されたトランスポート信号zi(k-2)、指数ei(k-2)および例外フラグβi(k-2)が得られる、段階とを含む。
方向およびベクトル推定ブロック301においてHOA信号の方向およびベクトル推定処理801を実行する段階であって、方向性信号についての第一のタプル集合MDIR(k)およびベクトル・ベースの信号についての第二のタプル集合MVEC(k)を含むデータが得られ、各第一のタプル集合MDIR(k)は、方向性信号のインデックスおよびそれぞれの量子化された方向を含み、各第二のタプル集合MVEC(k)は、ベクトル・ベースの信号のインデックスおよび信号の方向分布を定義するベクトルを含む、段階と;
HOA分解ブロック303において、HOA係数シーケンスの各入力時間フレームを、複数の優勢音信号XPS(k-1)のフレームと、周囲HOA成分
周囲成分修正ブロック304において、周囲HOA成分CAMB(k-1)を、前記目標割り当てベクトルvA,T(k-1)によって与えられる情報に従って修正803する段階であって、周囲HOA成分CAMB(k-1)のどの係数シーケンスが所与の数I個のチャネルにおいて伝送されるべきかが、何個のチャネルが優勢音信号によって占められているかに依存して、決定され、修正された(modified)周囲HOA成分CM,A(k-2)および時間的に予測された(predicted)修正された周囲HOA成分CP,M,A(k-1)が得られ、前記目標割り当てベクトルvA,T(k-1)内の情報から、最終的な割り当てベクトルvA(k-2)が得られる、段階と;
チャネル割り当てブロック105において、上記分解から得られた優勢音信号XPS(k-1)と、修正された周囲HOA成分CM,A(k-2)および時間的に予測された修正された周囲HOA成分CP,M,A(k-1)の決定された係数シーケンスを、最終的な割り当てベクトルvA(k-2)によって与えられる情報を使って、上記所与の数I個のチャネルに割り当てる804段階であって、トランスポート信号yi(k-2)、i=1,…,Iおよび予測されたトランスポート信号yP,i(k-2)、i=1,…,Iが得られる、段階と;
複数の利得制御ブロック306において、前記トランスポート信号yi(k-2)および前記予測されたトランスポート信号yP,i(k-2)に対して利得制御805を実行する段階であって、利得修正されたトランスポート信号zi(k-2)、指数ei(k-2)および例外フラグβi(k-2)が得られる、段階とを含む。
前記知覚的エンコードおよび源エンコードは、
知覚的符号化器310において、前記利得修正されたトランスポート信号zi(k-2)を知覚的に符号化する806段階であって、知覚的にエンコードされたトランスポート信号
が得られる、段階と;
一つまたは複数のサイド情報源符号化器320、330において、前記指数ei(k-2)および例外フラグβi(k-2)、前記第一のタプル集合MDIR(k)および第二のタプル集合MVEC(k)、前記予測パラメータξ(k-1)および前記最終的な割り当てベクトルvA(k-2)を含むサイド情報をエンコードする段階であって、エンコードされたサイド情報
が得られる、段階と;
知覚的にエンコードされたトランスポート信号
およびエンコードされたサイド情報
を多重化808する段階であって、多重化されたデータ・ストリーム
が得られる、段階とを含む。
知覚的符号化器310において、前記利得修正されたトランスポート信号zi(k-2)を知覚的に符号化する806段階であって、知覚的にエンコードされたトランスポート信号
一つまたは複数のサイド情報源符号化器320、330において、前記指数ei(k-2)および例外フラグβi(k-2)、前記第一のタプル集合MDIR(k)および第二のタプル集合MVEC(k)、前記予測パラメータξ(k-1)および前記最終的な割り当てベクトルvA(k-2)を含むサイド情報をエンコードする段階であって、エンコードされたサイド情報
知覚的にエンコードされたトランスポート信号
上記分解する段階802において得られた周囲HOA成分〔チルダ付きのCAMB(k-1)〕は、入力HOA表現cn(k-1)の最初の諸HOA係数シーケンスをOMIN個の最低の位置(すなわち最低の諸インデックスをもつ位置)に、第二のHOA係数シーケンスCAMB,n(k-1)を残りのより高い位置に含む。第二のHOA係数シーケンスは、入力HOA表現と優勢音信号のHOA表現との間の残差のHOA表現の一部である。
最初のOMIN個の指数ei(k-2)、i=1,…,OMINおよび例外フラグβi(k-2)、i=1,…,OMINは基本層サイド情報源符号化器320においてエンコードされ、エンコードされた基本層サイド情報
が得られる。ここで、OMIN=(NMIN+1)2であり、O=(N+1)2であり、NMIN≦NかつOMIN≦Iであり、NMINはあらかじめ定義された整数値である。
最初のOMIN個の知覚的にエンコードされたトランスポート信号
およびエンコードされた基本層サイド情報
は基本層ビットストリーム・マルチプレクサ340において多重化809され、ここで、基本層ビットストリーム
が得られる。
残りのI-OMIN個の指数ei(k-2)、i=OMIN+1,…,Iおよび例外フラグβi(k-2)、i=OMIN+1,…,I、前記第一のタプル集合MDIR(k-1)および第二のタプル集合MVEC(k-1)、前記予測パラメータξ(k-1)および前記最終的な割り当てベクトルvA(k-2)(図面ではvAMB,ASSIGN(k)としても示される)は、向上層サイド情報エンコーダ330においてエンコードされ、ここで、エンコードされた向上層サイド情報
が得られる。
残りのI-OMIN個の知覚的にエンコードされたトランスポート信号
およびエンコードされた向上層サイド情報
は、向上層ビットストリーム・マルチプレクサ350において多重化810され、向上層ビットストリーム
が得られる。
上記のように、階層化モードの使用を信号伝達するモード指示が加えられる811。モード指示は、指示挿入ブロックまたはマルチプレクサによって加えられる。
ある実施形態では、前記優位方向(dominant direction)推定は、エネルギー的に優位なHOA成分の方向性パワー分布に依存する。
ある実施形態では、選ばれるHOA係数シーケンスのHOAシーケンス・インデックスが相続くフレーム間で変わる場合には、周囲HOA成分を修正する際、係数シーケンスのフェードインおよびフェードアウトが実行される。
ある実施形態では、周囲HOA成分を修正する際、周囲HOA成分CAMB(k-1)の部分的脱相関が実行される。
ある実施形態では、第一のタプル集合MDIR(k)に含まれる量子化方向は優位方向である。
図9は、圧縮されたHOA信号を圧縮解除する方法のフローチャートを示している。本発明のこの実施形態では、圧縮されたHOA信号を圧縮解除する方法900は、HOA係数シーケンスの出力時間フレーム^C(k-1)を得るために、知覚的なデコードおよび源デコードならびにその後の空間的HOAデコードを含む。本方法は、圧縮された高次アンビソニックス(HOA)信号が圧縮された基本層ビットストリーム
および圧縮された向上層ビットストリーム
を含むことを示す階層化モード指示LMFDを検出する901段階を含む。
前記知覚的デコードおよび源デコードは、
圧縮された基本層ビットストリーム
を多重分離902する段階であって、第一の知覚的にエンコードされたトランスポート信号
および第一のエンコードされたサイド情報
が得られる、段階と;
圧縮された向上層ビットストリーム
を多重分離903する段階であって、第二の知覚的にエンコードされたトランスポート信号
および第二のエンコードされたサイド情報
が得られる、段階と;
知覚的にエンコードされたトランスポート信号
を知覚的にデコード904する段階であって、知覚的にデコードされたトランスポート信号
が得られ、基本層知覚的デコーダ540において、基本層の前記第一の知覚的にエンコードされたトランスポート信号
がデコードされて、第一の知覚的にデコードされたトランスポート信号
が得られ、向上層知覚的デコーダ550において、向上層の前記第二の知覚的にエンコードされたトランスポート信号
がデコードされて、第二の知覚的にデコードされたトランスポート信号
が得られる、段階と;
基本層サイド情報源デコーダ530において、第一のエンコードされたサイド情報
をデコード905する段階であって、第一の指数ei(i)、i=1,…,OMINおよび第一の例外フラグβi(k)、i=1,…,OMINが得られる、段階と;
向上層サイド情報源デコーダ560において、第二のエンコードされたサイド情報
をデコード906する段階であって、第二の指数ei(i)、i=OMIN+1,…,Iおよび第二の例外フラグβi(k)、i=OMIN+1,…,Iが得られ、さらなるデータが得られ、前記さらなるデータは、方向性信号についての第一のタプル集合MDIR(k+1)およびベクトル・ベースの信号についての第二のタプル集合MVEC(k+1)を含み、第一のタプル集合MDIR(k+1)の各タプルは、方向性信号のインデックスおよびそれぞれの量子化された方向を含み、第二のタプル集合MVEC(k+1)の各タプルは、ベクトル・ベースの信号のインデックスおよび該ベクトル・ベースの信号の方向分布を定義するベクトルを含み、さらに、予測パラメータξ(k+1)および周囲割り当てベクトルvAMB,ASSIGN(k)が得られる、段階とを含む。周囲割り当てベクトルvAMB,ASSIGN(k)は、各伝送チャネルについて、周囲HOA成分の係数シーケンスを含んでいるかどうかおよびどの係数シーケンスを含んでいるかを示す成分を含む。
圧縮された基本層ビットストリーム
圧縮された向上層ビットストリーム
知覚的にエンコードされたトランスポート信号
基本層サイド情報源デコーダ530において、第一のエンコードされたサイド情報
向上層サイド情報源デコーダ560において、第二のエンコードされたサイド情報
前記空間的HOAデコードは、
逆利得制御を実行910する段階であって、前記第一の知覚的にデコードされたトランスポート信号
が、前記第一の指数ei(k)、i=1,…,OMINおよび前記第一の例外フラグβi(k)、i=1,…,OMINに従って、第一の利得補正された信号フレーム^yi(k)、i=1,…,OMINに変換され、前記第二の知覚的にデコードされたトランスポート信号
が、前記第二の指数ei(k)、i=OMIN+1,…,Iおよび前記第二の例外フラグβi(k)、i=OMIN+1,…,Iに従って、第二の利得補正された信号フレーム^yi(k)、i=OMIN+1,…,Iに変換される、段階と;
チャネル再割り当てブロック605において、前記第一および第二の利得補正された信号フレーム^yi(k)、i=1,…,IをI個のチャネルに再分配911する段階であって、優勢音信号のフレーム^XPS(k)が再構成され、該優勢音信号は方向性信号およびベクトル・ベースの信号を含み、修正された周囲HOA成分
が得られ、割り当ては、前記周囲割り当てベクトルvAMB,ASSIGN(k)および前記第一および第二のタプル集合MDIR(k+1)、MVEC(k+1)内の情報に従ってなされる、段階と;
チャネル再割り当てブロック605において、k番目のフレームにおいてアクティブである、修正された周囲HOA成分の係数シーケンスのインデックスの第一の集合IAMB,ACT(k)と、(k-1)番目のフレームにおいて有効にされる、無効にされるまたはアクティブなままである必要がある修正された周囲HOA成分の係数シーケンスのインデックスの第二の集合IE(k-1)、ID(k-1)、IU(k-1)とを生成911bする段階と;
優勢音合成ブロック606において、優勢HOA音成分^CPS(k-1)のHOA表現を、前記優勢音信号^XPS(k)から合成912する段階であって、前記第一および第二のタプル集合MDIR(k+1)、MVEC(k+1)、予測パラメータζ(k+1)およびインデックスの第二の集合IE(k-1)、ID(k-1)、IU(k-1)が使用される、段階と;
周囲合成ブロック607において、周囲HOA成分
を、修正された周囲HOA成分
から合成913する段階であって、最初のOMIN個のチャネルについての逆空間的変換がなされ、インデックスの第一の集合IAMB,ACT(k)が使用され、該インデックスの第一の集合は、k番目のフレームにおいてアクティブである周囲HOA成分の係数シーケンスのインデックスであり、周囲HOA成分は、階層化モード指示LMFDに依存して少なくとも二つの異なる構成のうちの一つをもつ、段階と;
HOA合成ブロック608において、優勢HOA音成分^CPS(k-1)および周囲HOA成分
のHOA表現を加算914する段階であって、優勢音信号のHOA表現の係数と、周囲HOA成分の対応する係数とが加算され、圧縮解除されたHOA信号^C'(k-1)が得られ、下記の条件、すなわち:
階層化モード指示LMFDが少なくとも二つの層をもつ階層化モードを示す場合、最高のI-OMIN個の係数チャネルだけが、優勢HOA音成分^CPS(k-1)と周囲HOA成分
の加算によって得られ、圧縮解除されたHOA信号^C'(k-1)の低いほうからのOMIN個の係数チャネルは、周囲HOA成分
からコピーされ;他方、階層化モード指示LMFDが単一層モードを示す場合には、圧縮解除されたHOA信号^C'(k-1)のすべての係数チャネルは、優勢HOA音成分^CPS(k-1)と周囲HOA成分
の加算によって得られる、という条件が適用される、段階とを含む。
逆利得制御を実行910する段階であって、前記第一の知覚的にデコードされたトランスポート信号
チャネル再割り当てブロック605において、前記第一および第二の利得補正された信号フレーム^yi(k)、i=1,…,IをI個のチャネルに再分配911する段階であって、優勢音信号のフレーム^XPS(k)が再構成され、該優勢音信号は方向性信号およびベクトル・ベースの信号を含み、修正された周囲HOA成分
チャネル再割り当てブロック605において、k番目のフレームにおいてアクティブである、修正された周囲HOA成分の係数シーケンスのインデックスの第一の集合IAMB,ACT(k)と、(k-1)番目のフレームにおいて有効にされる、無効にされるまたはアクティブなままである必要がある修正された周囲HOA成分の係数シーケンスのインデックスの第二の集合IE(k-1)、ID(k-1)、IU(k-1)とを生成911bする段階と;
優勢音合成ブロック606において、優勢HOA音成分^CPS(k-1)のHOA表現を、前記優勢音信号^XPS(k)から合成912する段階であって、前記第一および第二のタプル集合MDIR(k+1)、MVEC(k+1)、予測パラメータζ(k+1)およびインデックスの第二の集合IE(k-1)、ID(k-1)、IU(k-1)が使用される、段階と;
周囲合成ブロック607において、周囲HOA成分
HOA合成ブロック608において、優勢HOA音成分^CPS(k-1)および周囲HOA成分
階層化モード指示LMFDが少なくとも二つの層をもつ階層化モードを示す場合、最高のI-OMIN個の係数チャネルだけが、優勢HOA音成分^CPS(k-1)と周囲HOA成分
階層化モード指示LMFDに依存しての周囲HOA成分の構成は次のようなものである。
階層化モード指示LMFDが少なくとも二つの層をもつ階層化モードを示す場合、周囲HOA成分は、そのOMIN個の最低位の位置に、圧縮解除されたHOA信号^C(k-1)のHOA係数シーケンスを含み、残りのより高位の位置に、圧縮解除されたHOA信号^C(k-1)と、優勢HOA音成分^CPS(k-1)のHOA表現との間の残差のHOA表現の一部である係数シーケンスを含む。
他方、階層化モード指示LMFDが単一層モードを示す場合には、周囲HOA成分は、圧縮解除されたHOA信号^C(k-1)と、優勢HOA音成分^CPS(k-1)のHOA表現との間の残差である。
ある実施形態では、圧縮されたHOA信号表現は多重化されたビットストリーム中にあり、圧縮されたHOA信号を圧縮解除する本方法はさらに、圧縮されたHOA信号表現を多重分離する初期段階であって、前記圧縮された基本層ビットストリーム
と、前記圧縮された向上層ビットストリーム
と、前記階層化モード指示LMFDとが得られる段階を有する。
図10は、本発明のある実施形態に基づく、HOA圧縮解除器の空間的HOAデコード部のアーキテクチャの諸部分の詳細を示している。
有利なことに、たとえばELが受領されない場合またはBL品質が十分である場合、BLだけをデコードすることが可能である。この場合、ELの信号はデコーダにおいて0に設定されることができる。すると、優勢音信号^XPS(k)のフレームは空なので、チャネル再割り当てブロック605において、第一および第二の利得補正された信号フレーム^yi(k)、i=1,…,IをI個のチャネルに再分配911することは非常に単純である。(k-1)番目のフレームにおいて有効にされる、無効にされるまたはアクティブなままである必要がある修正された周囲HOA成分の係数シーケンスのインデックスの第二の集合IE(k-1)、ID(k-1)およびIU(k-1)は0に設定される。したがって、優勢音合成ブロック606における優勢HOA音信号^XPS(k)からの優勢HOA音成分^CPS(k-1)のHOA表現の合成912はスキップでき、周囲合成ブロック607における修正された周囲HOA成分
からの周囲HOA成分
の合成913は、通常のHOA合成に対応する。
HOA圧縮のためのもとの(すなわちモノリシック、非スケーラブル、非階層化)モードも、低品質の基本層が必要とされない用途、たとえばファイル・ベースの圧縮のためには相変わらず有用でありうる。もとのHOA表現と方向性HOA表現との間の差である周囲HOA成分CAMBの空間的に変換された最初のOMIN個の係数シーケンスを、もとのHOA成分Cの空間的に変換された係数シーケンスの代わりに、知覚的に符号化することの利点は、前者の場合には、知覚的に符号化されるべきすべての信号間の相互相関が低下するということである。信号zi、i=1,…,Iの間のいかなる相互相関も、空間的デコード・プロセスの間に知覚的な符号化ノイズの建設的な重畳を引き起こしうる。一方で、同時に、ノイズのないHOA係数シーケンスは重畳で打ち消される。この現象は、知覚的ノイズ・マスキング解除(perceptual noise unmasking)として知られる。
階層化モードでは、信号zi、i=1,…,OMINのそれぞれの間に、また信号zi、i=1,…,OMINとzi、i=OMIN+1,…,Iの間に高い相互相関がある。というのも、周囲HOA成分
の修正された係数シーケンスは、方向性HOA成分の信号を含むからである(式(3)参照)。逆に、これは、もとの非階層化モードでは成り立たない。したがって、階層化モードによって導入される伝送の堅牢さは、圧縮品質を代償としてもたらされることがあると結論できる。しかしながら、圧縮品質の低下は、伝送の堅牢さの増大に比べて小さい。上記で示したように、提案される階層化モードは、少なくとも上記の状況において有利である。
本発明の基本的な新規な特徴をその好ましい実施形態に適用した場合について図示し、説明し、指摘してきたが、本発明の精神から外れることなく、記載される装置および方法においてさまざまな省略、代替および変更が、開示されるデバイスの形および詳細ならびにその動作において、当業者によってなされてもよいことは理解されるであろう。実質的に同じ仕方で実質的に同じ機能を実行し、同じ結果を達成する要素のあらゆる組み合わせが本発明の範囲内であることはっきりと意図されている。ある記載された実施形態からの要素の、他の記載された実施形態への代用も完全に意図されており、考えられている。
本発明は、純粋に例として記述されたのであり、本発明の範囲から外れることなく詳細の修正をなすことができることは理解されるであろう。
本記述および(適切な場合には)請求項および図面において開示されている各特徴は、独立に、あるいは任意の適切な組み合わせにおいて提供されうる。特徴は、適宜、ハードウェア、ソフトウェアまたは両者の組み合わせにおいて実装されうる。接続は、該当する場合には、無線接続または有線の、必ずしも直接接続や専用接続ではない接続として実装されてもよい。
請求項に現われる参照符号は単に例であって、請求項の範囲に対する限定する効果はもたない。
Claims (3)
- 音または音場の圧縮された高次アンビソニックス(HOA)表現をデコードする方法であって、
圧縮されたHOA表現に関係する複数の層があるかどうかを判定する段階と;
複数の層があるとの前記判定に基づいて、ビットストリームからの前記圧縮されたHOA表現をデコードして、デコードされたHOA表現のシーケンスを得る段階とを含み、
デコードされたHOA表現の前記シーケンスの第一の部分集合はインデックスの第一の集合に対応し、デコードされたHOA表現の前記シーケンスの第二の部分集合はインデックスの第二の集合に対応し、
インデックスの前記第一の集合はOMIN個のチャネルに基づき、
インデックスの前記第一の集合の各インデックスについて、前記第一の部分集合における対応するデコードされたHOA表現は対応する周囲HOA成分のみに基づいて決定され、
インデックスの前記第二の集合は前記複数の層のうちの少なくとも一つに基づいて決定され、インデックスnおよびフレームkについて、
デコードされたHOA表現の前記シーケンスのHOA係数のフェードインおよびフェードアウトが、デコードされたHOA表現の前記シーケンスのインデックスが相続くフレームの間で変わる場合に実行される、
方法。 - 音または音場の圧縮された高次アンビソニックス(HOA)表現をデコードする装置であって、
複数の層があるとの判定に基づいて、ビットストリームからの圧縮されたHOA表現をデコードして、デコードされたHOA表現のシーケンスを得るオーディオ・デコーダとを有しており、
デコードされたHOA表現の前記シーケンスの第一の部分集合はインデックスの第一の集合に対応し、デコードされたHOA表現の前記シーケンスの第二の部分集合はインデックスの第二の集合に対応し、
インデックスの前記第一の集合はOMIN個のチャネルに基づき、
インデックスの前記第一の集合の各インデックスについて、前記第一の部分集合における対応するデコードされたHOA表現は対応する周囲HOA成分のみに基づいて決定され、
インデックスnおよびフレームkについて、
デコードされたHOA表現の前記シーケンスのHOA係数のフェードインおよびフェードアウトが、デコードされたHOA表現の前記シーケンスのインデックスが相続くフレームの間で変わる場合に実行される、
装置。 - プロセッサによって実行されたときに請求項1に記載の方法を実行する命令を含んでいる非一時的なコンピュータ可読記憶媒体。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14305413.8 | 2014-03-21 | ||
EP14305413 | 2014-03-21 | ||
JP2019087310A JP6949900B2 (ja) | 2014-03-21 | 2019-05-07 | 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置 |
JP2021153985A JP7374969B2 (ja) | 2014-03-21 | 2021-09-22 | 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021153985A Division JP7374969B2 (ja) | 2014-03-21 | 2021-09-22 | 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023153310A true JP2023153310A (ja) | 2023-10-17 |
Family
ID=50439307
Family Applications (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016557317A Active JP6243060B2 (ja) | 2014-03-21 | 2015-03-20 | 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置 |
JP2017215451A Active JP6526153B2 (ja) | 2014-03-21 | 2017-11-08 | 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置 |
JP2019087310A Active JP6949900B2 (ja) | 2014-03-21 | 2019-05-07 | 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置 |
JP2021153985A Active JP7374969B2 (ja) | 2014-03-21 | 2021-09-22 | 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置 |
JP2023135299A Pending JP2023153310A (ja) | 2014-03-21 | 2023-08-23 | 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置 |
Family Applications Before (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016557317A Active JP6243060B2 (ja) | 2014-03-21 | 2015-03-20 | 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置 |
JP2017215451A Active JP6526153B2 (ja) | 2014-03-21 | 2017-11-08 | 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置 |
JP2019087310A Active JP6949900B2 (ja) | 2014-03-21 | 2019-05-07 | 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置 |
JP2021153985A Active JP7374969B2 (ja) | 2014-03-21 | 2021-09-22 | 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置 |
Country Status (6)
Country | Link |
---|---|
US (5) | US9818413B2 (ja) |
EP (1) | EP3120353B1 (ja) |
JP (5) | JP6243060B2 (ja) |
KR (5) | KR101846373B1 (ja) |
CN (7) | CN106233755B (ja) |
WO (1) | WO2015140293A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2922057A1 (en) * | 2014-03-21 | 2015-09-23 | Thomson Licensing | Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal |
US10140996B2 (en) | 2014-10-10 | 2018-11-27 | Qualcomm Incorporated | Signaling layers for scalable coding of higher order ambisonic audio data |
US9984693B2 (en) | 2014-10-10 | 2018-05-29 | Qualcomm Incorporated | Signaling channels for scalable coding of higher order ambisonic audio data |
MY193124A (en) * | 2015-10-08 | 2022-09-26 | Dolby Int Ab | Layered coding for compressed sound or sound field representations |
UA123399C2 (uk) * | 2015-10-08 | 2021-03-31 | Долбі Інтернешнл Аб | Багаторівневе кодування стиснених представлень звуку або звукового поля |
AU2016335091B2 (en) * | 2015-10-08 | 2021-08-19 | Dolby International Ab | Layered coding and data structure for compressed higher-order Ambisonics sound or sound field representations |
IL276591B2 (en) * | 2015-10-08 | 2023-09-01 | Dolby Int Ab | Layered coding for voice or compressed sound field representations |
JP7455812B2 (ja) | 2018-08-21 | 2024-03-26 | ドルビー・インターナショナル・アーベー | 即時再生フレーム(ipf)の生成、輸送及び処理のための方法、装置及びシステム |
CN109036456B (zh) * | 2018-09-19 | 2022-10-14 | 电子科技大学 | 用于立体声的源分量环境分量提取方法 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
PL2154677T3 (pl) * | 2008-08-13 | 2013-12-31 | Fraunhofer Ges Forschung | Urządzenie do wyznaczania konwertowanego przestrzennego sygnału audio |
EP2450880A1 (en) * | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
EP2686654A4 (en) | 2011-03-16 | 2015-03-11 | Dts Inc | CODING AND PLAYING THREE-DIMENSIONAL AUDIOSPURES |
EP2592845A1 (en) * | 2011-11-11 | 2013-05-15 | Thomson Licensing | Method and Apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field |
EP2665208A1 (en) | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
EP2688066A1 (en) * | 2012-07-16 | 2014-01-22 | Thomson Licensing | Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction |
US9473870B2 (en) * | 2012-07-16 | 2016-10-18 | Qualcomm Incorporated | Loudspeaker position compensation with 3D-audio hierarchical coding |
EP2688065A1 (en) | 2012-07-16 | 2014-01-22 | Thomson Licensing | Method and apparatus for avoiding unmasking of coding noise when mixing perceptually coded multi-channel audio signals |
TWI590234B (zh) | 2012-07-19 | 2017-07-01 | 杜比國際公司 | 編碼聲訊資料之方法和裝置,以及解碼已編碼聲訊資料之方法和裝置 |
US9479886B2 (en) * | 2012-07-20 | 2016-10-25 | Qualcomm Incorporated | Scalable downmix design with feedback for object-based surround codec |
US9761229B2 (en) * | 2012-07-20 | 2017-09-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for audio object clustering |
EP2743922A1 (en) | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
EP2800401A1 (en) | 2013-04-29 | 2014-11-05 | Thomson Licensing | Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation |
US9466305B2 (en) * | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
US9489955B2 (en) * | 2014-01-30 | 2016-11-08 | Qualcomm Incorporated | Indicating frame parameter reusability for coding vectors |
KR102201726B1 (ko) * | 2014-03-21 | 2021-01-12 | 돌비 인터네셔널 에이비 | 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치 |
IL276591B2 (en) * | 2015-10-08 | 2023-09-01 | Dolby Int Ab | Layered coding for voice or compressed sound field representations |
MY193124A (en) * | 2015-10-08 | 2022-09-26 | Dolby Int Ab | Layered coding for compressed sound or sound field representations |
-
2015
- 2015-03-20 JP JP2016557317A patent/JP6243060B2/ja active Active
- 2015-03-20 CN CN201580015027.0A patent/CN106233755B/zh active Active
- 2015-03-20 CN CN201811371620.0A patent/CN109410962B/zh active Active
- 2015-03-20 CN CN201811371617.9A patent/CN109410960B/zh active Active
- 2015-03-20 KR KR1020167026020A patent/KR101846373B1/ko active IP Right Grant
- 2015-03-20 WO PCT/EP2015/055917 patent/WO2015140293A1/en active Application Filing
- 2015-03-20 KR KR1020207022528A patent/KR102201961B1/ko active IP Right Grant
- 2015-03-20 CN CN202311226000.9A patent/CN117253494A/zh active Pending
- 2015-03-20 CN CN201811371619.8A patent/CN109410961B/zh active Active
- 2015-03-20 KR KR1020187009293A patent/KR102143037B1/ko active IP Right Grant
- 2015-03-20 CN CN202311226031.4A patent/CN117198304A/zh active Pending
- 2015-03-20 US US15/127,526 patent/US9818413B2/en active Active
- 2015-03-20 EP EP15715181.2A patent/EP3120353B1/en active Active
- 2015-03-20 KR KR1020227026503A patent/KR20220113837A/ko not_active Application Discontinuation
- 2015-03-20 KR KR1020217000404A patent/KR102428794B1/ko active IP Right Grant
- 2015-03-20 CN CN201811371621.5A patent/CN109410963B/zh active Active
-
2017
- 2017-09-22 US US15/713,174 patent/US10089992B2/en active Active
- 2017-11-08 JP JP2017215451A patent/JP6526153B2/ja active Active
-
2018
- 2018-08-28 US US16/115,251 patent/US10192559B2/en active Active
- 2018-12-17 US US16/222,901 patent/US10388292B2/en active Active
-
2019
- 2019-05-07 JP JP2019087310A patent/JP6949900B2/ja active Active
- 2019-07-10 US US16/508,201 patent/US10629212B2/en active Active
-
2021
- 2021-09-22 JP JP2021153985A patent/JP7374969B2/ja active Active
-
2023
- 2023-08-23 JP JP2023135299A patent/JP2023153310A/ja active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7174810B2 (ja) | 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置 | |
JP7378440B2 (ja) | 圧縮されたhoa信号をデコードする方法および装置 | |
JP7374969B2 (ja) | 高次アンビソニックス(hoa)信号を圧縮する方法、圧縮されたhoa信号を圧縮解除する方法、hoa信号を圧縮する装置および圧縮されたhoa信号を圧縮解除する装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230823 |