JP2023082173A - 圧縮された高次アンビソニックス音または音場表現のための層構成の符号化およびデータ構造 - Google Patents
圧縮された高次アンビソニックス音または音場表現のための層構成の符号化およびデータ構造 Download PDFInfo
- Publication number
- JP2023082173A JP2023082173A JP2023060956A JP2023060956A JP2023082173A JP 2023082173 A JP2023082173 A JP 2023082173A JP 2023060956 A JP2023060956 A JP 2023060956A JP 2023060956 A JP2023060956 A JP 2023060956A JP 2023082173 A JP2023082173 A JP 2023082173A
- Authority
- JP
- Japan
- Prior art keywords
- layer
- hoa
- layers
- representation
- highest available
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 89
- 230000002708 enhancing effect Effects 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 82
- 230000015572 biosynthetic process Effects 0.000 claims description 29
- 238000003786 synthesis reaction Methods 0.000 claims description 29
- 230000010076 replication Effects 0.000 claims description 26
- 230000011664 signaling Effects 0.000 abstract description 10
- 239000010410 layer Substances 0.000 description 427
- 230000006837 decompression Effects 0.000 description 27
- 230000001419 dependent effect Effects 0.000 description 16
- 230000000295 complement effect Effects 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 12
- 239000002356 single layer Substances 0.000 description 10
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000012856 packing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/301—Automatic calibration of stereophonic sound system, e.g. with test microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【課題】音または音場の圧縮された高次アンビソニックス(HOA)表現のフレームの層構成のエンコードの方法を提供する。【解決手段】方法は、複数のトランスポート信号を階層をなす複数の層に割り当て、複数の層は基本層および一つまたは複数の階層式の向上層を含み、各層について、サイド情報を含むそれぞれのHOA拡張ペイロードを生成し、サイド情報は、それぞれの層および該それぞれの層よりも低い任意の層に割り当てられたトランスポート信号から得られる再構成されたHOA表現をパラメトリックに向上させるためのものであり、生成されたHOA拡張ペイロードをそれぞれの層に割り当て、生成されたHOA拡張ペイロードを出力ビットストリームにおいて信号伝達する。【選択図】図3
Description
関連出願への相互参照
本願は2015年10月15日に出願された欧州特許出願第15306653.5号の優先権を主張するものである。同出願の内容はここに参照によってその全体において組み込まれる。
本願は2015年10月15日に出願された欧州特許出願第15306653.5号の優先権を主張するものである。同出願の内容はここに参照によってその全体において組み込まれる。
技術分野
本稿は層構成のオーディオ符号化(layered audio coding)のための方法および装置に関する。特に、本稿は圧縮された高次アンビソニックス(HOA: Higher-Order Ambisonics)音(または音場)表現のフレームの層構成にされたオーディオ符号化のための方法および装置に関する。本稿はさらに、圧縮されたHOA音(または音場)表現のフレームを表現するためのデータ構造(たとえばビットストリーム)に関する。
本稿は層構成のオーディオ符号化(layered audio coding)のための方法および装置に関する。特に、本稿は圧縮された高次アンビソニックス(HOA: Higher-Order Ambisonics)音(または音場)表現のフレームの層構成にされたオーディオ符号化のための方法および装置に関する。本稿はさらに、圧縮されたHOA音(または音場)表現のフレームを表現するためのデータ構造(たとえばビットストリーム)に関する。
HOA層構成符号化の現在の定義では、特定のHOA表現を向上させるために、HOAデコード・ツールである空間的信号予測(Spatial Signal Prediction)、サブバンド方向性信号合成(Sub-band Directional Signal Synthesis)およびパラメトリック周囲音複製(PAR: Parametric Ambience Replication)デコーダのためのサイド情報が生成される。つまり、層構成のHOA符号化の現在の定義では、提供されるデータは最上層(たとえばいちばん高い向上層)のHOA表現を適正に拡張するだけである。基本層を含むより低い層については、これらのツールは部分的に再構成されたHOA表現を適正に向上させない。
サブバンド方向性信号合成およびパラメトリック周囲音複製デコーダのツールは、若干数のトランスポート信号だけが利用可能な低データレートのために特に設計されている。しかしながら、HOA層構成符号化では、(部分的に)再構成されたHOA表現の適正な向上は、特に基本層などの低ビットレートの層については可能ではない。これが低ビットレートでの音質の観点から望ましくないことは明らかである。
加えて、ベクトル・ベースの信号についてのエンコードされたVベクトル要素を扱う通常の仕方が、HOADecoderConfig()において1に等しいCodedVVecLengthが信号伝達される場合には(すなわち、ベクトル符号化モードがアクティブである場合には)、適切なデコードを与えないことが見出されている。このベクトル符号化モードでは、ContAddHoaCoeffの集合に含まれるHOA係数インデックスについてはVベクトル要素が伝送されない。この集合は、0に等しいAmbCoeffTransitionStateをもつすべてのHOA係数インデックスAmbCoeffIdx[i]を含む。通常、これらのインデックスのもとのHOA係数シーケンスが明示的に送られる(信号伝達される)ので、重み付けされたVベクトル信号をも加える必要はない。
しかしながら、層構成符号化モードでは、連続的なHOA係数インデックスの集合は、現在アクティブな層の一部であるトランスポート・チャネルに依存する。より上位の層で送られる追加的なHOA係数インデックスが、より低位の層では欠けていることがありうる。そして、ベクトル信号がHOA係数シーケンスに寄与しないはずであるという想定は、より高位の層に含まれるHOA係数シーケンスに属するHOA係数インデックスについては、誤りである。
結果として、層構成HOA符号化におけるVベクトル(V-vector)は、最上層より下のいずれの層のデコードのためにも好適でないことがありうる。
このように、音または音場の圧縮されたHOA表現の層構成の符号化に適応された符号化方式およびビットストリームが必要とされている。
本稿は上記の問題に取り組むものである。特に、圧縮されたHOA音または音場表現のフレームの層構成の符号化のための方法およびエンコーダ/デコーダならびに圧縮されたHOA音または音場表現のフレームを表現するためのデータ構造が記述される。
ある側面によれば、音または音場の圧縮された高次アンビソニックス(HOA)表現のフレームの層構成のエンコードの方法が記述される。圧縮されたHOA表現はドラフトMPEG-H 3Dオーディオ規格および他の任意の将来の採用されるまたはドラフトの規格に準拠する。圧縮されたHOA表現は、複数のトランスポート信号を含んでいてもよい。トランスポート信号は、たとえば優勢音(predominant sound)信号またはHOA表現の係数シーケンスのいずれかを表わす、モノラル信号に関係していてもよい。本方法は、前記複数のトランスポート信号を階層をなす複数の層に割り当てることを含んでいてもよい。たとえば、トランスポート信号は複数の層に分配されてもよい。前記複数の層は基本層および一つまたは複数の階層式の向上層を含んでいてもよい。前記複数の階層式の層は、基本層から、第一の向上層、第二の向上層などを経て、全体的な最高の向上層(全体的な最上位の層)まで、順序付けられてもよい。本方法はさらに、各層について、サイド情報(たとえば向上サイド情報)を含むそれぞれのHOA拡張ペイロードを生成することを含んでいてもよい。該サイド情報は、該それぞれの層および該それぞれの層よりも低い任意の層に割り当てられるトランスポート信号から得られる再構成されたHOA表現をパラメトリックに向上させるためのものである。本方法はさらに、生成されたHOA拡張ペイロードをそれぞれの層に割り当てることを含んでいてもよい。本方法はさらに、生成されたHOA拡張ペイロードを出力ビットストリームにおいて信号伝達することを含んでいてもよい。HOA拡張ペイロードは、HOAEnhFrame()ペイロードにおいて信号伝達されてもよい。こうして、サイド情報は、HOAFrame()からHOAEnhFrame()に移されてもよい。
上記のように構成されて、提案される方法は、層構成の符号化を、圧縮されたHOA表現(のフレーム)に適用する。たとえ低ビットレートであってもその高品質のデコードを可能にするためである。特に、提案される方法は、各層が、現在の層までの任意の層におけるトランスポート信号から得られる(部分的に)再構成された音表現を向上させるための好適なHOA拡張ペイロード(たとえば、向上サイド情報)を含むことを保証する。ここで、現在の層までの層とは、たとえば現在の層に至るまでの基本層、第一の向上層、第二の向上層などを含むものと理解される。ここで、現在の層までの層とは、たとえば現在の層に至るまでの基本層、第一の向上層、第二の向上層などを含むものと理解される。たとえば、デコーダは、基本層に割り当てられたHOA拡張ペイロードを参照して、基本層から得られる(部分的に)再構成された音表現を向上させることを可能にされる。通常の手法では、最上位の向上層の再構成されたHOA表現のみがHOA拡張ペイロードによって向上されることができる。こうして、実際の使用可能な最高の層(たとえば、まだ有効に受領されていない最低の層より下の層;使用可能な最高の層より下のすべての層および使用可能な最高の層自身は有効に受領されている)に関わりなく、(部分的に)再構成された音表現が完全な(たとえばフルの)音表現とは異なっていたとしても、デコーダは、再構成された音表現を改善するまたは向上させることを可能にされる。特に、実際の使用可能な最高の層に関わりなく、実際の最高の使用可能な層までの諸層に含まれるすべてのトランスポート信号に基づいて得ることのできる(部分的に)再構成された音表現を改善するまたは向上させるために、デコーダにとって、単一の層のみについて(すなわち、使用可能な最高の層について)HOA拡張ペイロードをデコードすることが十分である。より上位またはより低位の層のHOA拡張ペイロードのデコードは要求されない。他方、提案される方法は、層構成の符号化を適用するときに達成されうる所要帯域幅の低減の利点をフルに受けることを許容する。
諸実施形態において、本方法はさらに、前記複数の層についてのデータ・ペイロードを、誤り保護のそれぞれのレベルをもって伝送することを含んでいてもよい。データ・ペイロードはそれぞれのHOA拡張ペイロードを含んでいてもよい。基本層は、最も高い誤り保護を有していてもよく、前記一つまたは複数の向上層は順次低下する誤り保護を有していてもよい。それにより、上位の層に過剰な誤り保護を適用しないことによって全体的な要求される帯域幅を下げる一方で、少なくともいくつかの低位の層が信頼できる形で伝送されることが保証できる。
諸実施形態において、HOA拡張ペイロードは、HOA空間的信号予測デコード・ツールのためのビットストリーム要素を含んでいてもよい。追加的または代替的に、HOA拡張ペイロードは、HOAサブバンド方向性信号合成デコード・ツールのためのビットストリーム要素を含んでいてもよい。追加的または代替的に、HOA拡張ペイロードは、HOAパラメトリック周囲音複製デコード・ツールのためのビットストリーム要素を含んでいてもよい。
諸実施形態において、HOA拡張ペイロードは、ID_EXT_ELE_HOA_ENH_LAYERのusacExtElementTypeを有していてもよい。
諸実施形態において、本方法はさらに、HOA空間的信号予測デコード・ツール、HOAサブバンド方向性信号合成デコード・ツールおよび/またはHOAパラメトリック周囲音複製デコード・ツールを構成設定するためのビットストリーム要素を含むHOA構成設定拡張ペイロードを生成することを含んでいてもよい。HOA構成設定拡張ペイロードは、HOADecoderEnhConfig()に含まれていてもよい。本方法はさらに、出力ビットストリームにおいて、該HOA構成設定拡張ペイロードを信号伝達することを含んでいてもよい。
諸実施形態において、本方法はさらに、HOA拡張ペイロードの前記複数の層への割り当てを示す情報を含むHOAデコーダ構成設定ペイロードを生成することを含んでいてもよい。本方法はさらに、該HOAデコーダ構成設定ペイロードを出力ビットストリームにおいて信号伝達することを含んでいてもよい。
諸実施形態において、本方法はさらに、ベクトル符号化モードがアクティブであるかどうかを判定することを含んでいてもよい。本方法はさらに、ベクトル符号化モードがアクティブであれば、各層について、連続的HOA係数インデックスの集合を、それぞれの層に割り当てられたトランスポート信号に基づいて決定することを含んでいてもよい。前記連続的(continuous)HOA係数インデックスの集合におけるHOA係数インデックスは、集合ContAddHOACoeffに含まれるHOA係数インデックスであってもよい。本方法はさらに、各トランスポート信号について、それぞれのトランスポート信号が割り当てられている層についての連続的HOA係数インデックスの決定された集合に基づいて、Vベクトルを生成することを含んでいてもよい。ここで、生成されるVベクトルは、それぞれのトランスポート信号が割り当てられている層よりも高い諸層に割り当てられている任意のトランスポート信号についての要素を含む。本方法はさらに、生成されたVベクトルを出力ビットストリームにおいて信号伝達することを含んでいてもよい。
もう一つの側面によれば、音または音場の圧縮された高次アンビソニックス(HOA)表現のフレームの層構成のエンコードの方法が記述される。圧縮されたHOA表現は、複数のトランスポート信号を含んでいてもよい。トランスポート信号は、たとえば優勢音(predominant sound)信号またはHOA表現の係数シーケンスのいずれかを表わす、モノラル信号に関係していてもよい。本方法は、前記複数のトランスポート信号を階層をなす複数の層に割り当てることを含んでいてもよい。たとえば、トランスポート信号は複数の層に分配されてもよい。前記複数の層は基本層および一つまたは複数の階層式の向上層を含んでいてもよい。本方法はさらに、ベクトル符号化モードがアクティブであるかどうかを判定することを含んでいてもよい。本方法はさらに、ベクトル符号化モードがアクティブであれば、各層について、連続的HOA係数インデックスの集合を、それぞれの層に割り当てられたトランスポート信号に基づいて決定することを含んでいてもよい。前記連続的HOA係数インデックスの集合におけるHOA係数インデックスは、集合ContAddHOACoeffに含まれるHOA係数インデックスであってもよい。本方法はさらに、各トランスポート信号について、それぞれのトランスポート信号が割り当てられている層についての連続的HOA係数インデックスの決定された集合に基づいて、Vベクトルを生成することを含んでいてもよい。ここで、生成されるVベクトルは、それぞれのトランスポート信号が割り当てられている層よりも高い諸層に割り当てられている任意のトランスポート信号についての要素を含む。本方法はさらに、生成されたVベクトルを出力ビットストリームにおいて信号伝達することを含んでいてもよい。
このように構成されて、提案される方法は、ベクトル符号化モードにおいて、最高の使用可能な層までの諸層に属するすべてのトランスポート信号について好適なVベクトルが利用可能であることを保証する。具体的には、提案される方法は、上位の諸層におけるトランスポート信号に対応するVベクトルの要素が明示的に信号伝達されないケースを排除する。よって、最高の使用可能な層までの諸層に含まれる情報が、最高の使用可能な層までの諸層に属する任意のトランスポート信号をデコードするために十分となる。それにより、たとえ上位の諸層がデコーダによって有効に受領されていなかったとしても、低位の諸層(低ビットレートの層)についてそれぞれの再構成されたHOA表現の適切な圧縮解除がある。他方、提案される方法は、層構成の符号化を適用するときに達成されうる所要帯域幅の低減の利点をフルに受けることを許容する。
もう一つの側面によれば、音または音場の圧縮された高次アンビソニックス(HOA)表現のフレームをデコードする方法が記述される。圧縮されたHOA表現は複数の階層式の層でエンコードされていてもよい。前記複数の階層式の層は基本層および一つまたは複数の階層式の向上層を含んでいてもよい。本方法は、圧縮されたHOA表現のフレームに関係するビットストリームを受領することを含んでいてもよい。本方法はさらに、前記複数の層についてのペイロードを抽出することを含んでいてもよい。各ペイロードは、それぞれの層に割り当てられたトランスポート信号を含んでいてもよい。本方法はさらに、前記複数の層のうちデコードのための最高の使用可能な層を判別することを含んでいてもよい。本方法はさらに、最高の使用可能な層に割り当てられたHOA拡張ペイロードを抽出することを含んでいてもよい。このHOA拡張ペイロードは、最高の使用可能な層に対応する(部分的に)再構成されたHOA表現をパラメトリックに向上させるためのサイド情報を含んでいてもよい。最高の使用可能な層に対応する(部分的に)再構成されたHOA表現は、該最高の使用可能な層および該最高の使用可能な層より低い任意の諸層に割り当てられたトランスポート信号に基づいて得ることができてもよい。本方法はさらに、最高の使用可能な層に対応する(部分的に)再構成されたHOA表現を、該最高の使用可能な層および該最高の使用可能な層より低い任意の諸層に割り当てられたトランスポート信号に基づいて生成することを含んでいてもよい。本方法はさらに、最高の使用可能な層に割り当てられたHOA拡張ペイロードに含まれるサイド情報を使って、(部分的に)再構成されたHOA表現を向上させる(たとえばパラメトリックに向上させる)ことを含んでいてもよい。結果として、向上された再構成されたHOA表現が得られてもよい。
このように構成されて、提案される方法は、最終的な(たとえば向上された)再構成されたHOA表現が、利用可能な(たとえば有効に受領された)情報を最大限に使って、最適な品質をもつことを保証する。
諸実施形態において、HOA拡張ペイロードは、HOA空間的信号予測デコード・ツールのためのビットストリーム要素を含んでいてもよい。追加的または代替的に、HOA拡張ペイロードは、HOAサブバンド方向性信号合成デコード・ツールのためのビットストリーム要素を含んでいてもよい。追加的または代替的に、HOA拡張ペイロードは、HOAパラメトリック周囲音複製デコード・ツールのためのビットストリーム要素を含んでいてもよい。
諸実施形態において、HOA拡張ペイロードは、ID_EXT_ELE_HOA_ENH_LAYERのusacExtElementTypeを有していてもよい。
諸実施形態において、本方法はさらに、ビットストリームをパースすることにより、HOA構成設定拡張ペイロードを抽出することを含んでいてもよい。HOA構成設定拡張ペイロードは、HOA空間的信号予測デコード・ツール、HOAサブバンド方向性信号合成デコード・ツールおよび/またはHOAパラメトリック周囲音複製デコード・ツールを構成設定するためのビットストリーム要素を含んでいてもよい。
諸実施形態において、本方法はさらに、それぞれ前記複数の層に割り当てられたHOA拡張ペイロードを抽出することを含んでいてもよい。各HOA拡張ペイロードは、その割り当てられた層に対応する(部分的に)再構成されたHOA表現をパラメトリックに向上させるためのサイド情報を含んでいてもよい。それぞれの割り当てられた層に対応する(部分的に)再構成されたHOA表現は、その層およびその層より低い任意の諸層に割り当てられたトランスポート信号に基づいて得ることができてもよい。HOA拡張ペイロードのそれぞれの層への割り当ては、ビットストリームに含まれる構成設定情報から知られてもよい。
諸実施形態において、最高の使用可能な層を決定することは、まだ有効に受領されていない層を示す無効層インデックスの集合を判別することに関わっていてもよい。それはさらに、最高の使用可能な層を、無効層インデックスの集合における最小の(最も低い)インデックスによって示される層より一層下である層として決定することに関わっていてもよい。基本層は、最低の層インデックス(たとえば層インデックス1)を有していてもよく、階層式の向上層は順次、より高い層インデックスを有していてもよい。それにより、提案される方法は、最高の使用可能な層および該最高の使用可能な層より下の任意の諸層から(部分的に)再構成されたHOA表現をデコードするために要求されるすべての情報があるよう、最高の使用可能な層が選ばれることを保証する。
諸実施形態において、最高の使用可能な層を決定することは、まだ有効に受領されていない層を示す無効層インデックスの集合を判別することに関わっていてもよい。それはさらに、現在フレームに先行する前のフレームの最高の使用可能な層を判別することに関わっていてもよい。それはさらに、最高の使用可能な層を、前記前のフレームの最高の使用可能な層と、無効層インデックスの集合における最小のインデックスによって示される層より一層下である層とのうちの低いほうとして決定することに関わっていてもよい。それにより、たとえ現在フレームが前記前のフレームに対して差分的にエンコードされていたとしても、最高の使用可能な層および該最高の使用可能な層より下の任意の諸層から(部分的に)再構成されたHOA表現をデコードするために要求されるすべての情報が入手可能であるよう、現在フレームについての最高の使用可能な層が選ばれる。
諸実施形態において、本方法はさらに、現在フレームの最高の使用可能な層がが前記前のフレームの最高の使用可能な層より低い場合および現在フレームが前記前のフレームに対して差分的に符号化されている場合には、最高の使用可能な層に割り当てられたHOA拡張ペイロードに含まれるサイド情報を使った(部分的に)再構成された表現のパラメトリックな向上を実行しないことを決めることを含んでいてもよい。それにより、現在フレーム(最高の使用可能な層に割り当てられたHOA拡張ペイロードに含まれるサイド情報を含む)が前記前のフレームに対して差分的にエンコードされていた場合に、再構成されたHOA表現は、誤りなしにデコードされることができる。
諸実施形態において、無効層インデックスの前記集合は、対応するHOA拡張ペイロードの有効性フラグを評価することによって決定されてもよい。所与の層の層インデックスは、該それぞれの層に割り当てられたHOA拡張ペイロードについての有効性フラグがセットされていない場合に、無効層インデックスの前記集合に追加されてもよい。それにより、無効層インデックスの前記集合が、効率的な仕方で決定できる。
もう一つの側面によれば、音または音場の圧縮された高次アンビソニックス(HOA)表現のフレームを表わすデータ構造(たとえばビットストリーム)が記述される。圧縮されたHOA表現は、複数のトランスポート信号を含んでいてもよい。本データ構造は、複数の階層的な層のそれぞれの層に対応する複数のHOAフレーム・ペイロードを含んでいてもよい。HOAフレーム・ペイロードは、それぞれのトランスポート信号を含んでいてもよい。前記複数のトランスポート信号は、前記複数の層に割り当てられて(たとえば分配されて)もよい。前記複数の層は基本層および一つまたは複数の階層式の向上層を含んでいてもよい。本データ構造はさらに、各層について、それぞれの層および該それぞれの層よりも低い任意の層に割り当てられるトランスポート信号から得られる(部分的に)再構成されたHOA表現をパラメトリックに向上させるためサイド情報を含むそれぞれのHOA拡張ペイロードを含んでいてもよい。
諸実施形態において、前記複数の層についてのHOAフレーム・ペイロードおよびHOA拡張ペイロードが誤り保護のそれぞれのレベルをもって提供されてもよい。基本層は、最も高い誤り保護を有していてもよく、前記一つまたは複数の向上層は順次低下する誤り保護を有していてもよい。
諸実施形態において、HOA拡張ペイロードは、HOA空間的信号予測デコード・ツールのためのビットストリーム要素を含んでいてもよい。追加的または代替的に、HOA拡張ペイロードは、HOAサブバンド方向性信号合成デコード・ツールのためのビットストリーム要素を含んでいてもよい。追加的または代替的に、HOA拡張ペイロードは、HOAパラメトリック周囲音複製デコード・ツールのためのビットストリーム要素を含んでいてもよい。
諸実施形態において、HOA拡張ペイロードは、ID_EXT_ELE_HOA_ENH_LAYERというusacExtElementTypeを有していてもよい。
諸実施形態において、本データ構造はさらに、HOA空間的信号予測デコード・ツール、HOAサブバンド方向性信号合成デコード・ツールおよび/またはHOAパラメトリック周囲音複製デコード・ツールを構成設定するためのビットストリーム要素を含むHOA構成設定拡張ペイロードを含んでいてもよい。
諸実施形態において、本データ構造はさらに、HOA拡張ペイロードの前記複数の層への割り当てを示す情報を含むHOAデコーダ構成設定ペイロードを含んでいてもよい。
諸実施形態において、方法および装置は、音または音場の圧縮された高次アンビソニックス(HOA)表現をデコードすることに関する。装置は、下記の段階を実行するよう構成されてもよく、あるいは方法は下記の段階を含んでいてもよい:基本層および一つまたは複数の階層式の向上層を含む複数の階層式の層に対応する前記圧縮されたHOA表現を含むビットストリームを受領する段階であって、前記複数の層には前記音または音場の基本的な圧縮された音表現の成分が割り当てられており、それらの成分はそれぞれの成分グループにおいてそれぞれの層に割り当てられる、段階と、デコードのために前記複数の層のうちで最高の使用可能な層を判別する段階と;最高の使用可能な層に割り当てられたHOA拡張ペイロードを抽出する段階であって、HOA拡張ペイロードは、最高の使用可能な層に対応する再構成されたHOA表現をパラメトリックに向上させるためのサイド情報を含み、最高の使用可能な層に対応する再構成されたHOA表現は該最高の使用可能な層および該最高の使用可能な層より低い任意の諸層に割り当てられたトランスポート信号に基づいて得ることができる、段階と;最高の使用可能な層に対応する圧縮されたHOA表現を、層情報、最高の使用可能な層および最高の使用可能な層より低い任意の諸層に割り当てられたトランスポート信号に基づいてデコードする段階と;最高の使用可能な層に割り当てられたHOA拡張ペイロードに含まれるサイド情報を使って、デコードされたHOA表現をパラメトリックに向上させる段階。
前記HOA拡張ペイロードは、HOA空間的信号予測デコード・ツールについてのビットストリーム要素を含んでいてもよい。前記層情報は、向上層の現在フレームにおいて、いくつかのアクティブな方向性信号を示してもよい。
前記層情報は、向上層についての追加的な周囲音HOA係数の総数を示してもよい。層情報は、向上層についてのそれぞれの追加的な周囲音HOA係数についてHOA係数インデックスを含んでいてもよい。層情報は、空間的信号予測、サブバンド方向性信号合成およびパラメトリック周囲音複製デコーダのうちの少なくとも一つを含む向上情報を含んでいてもよい。圧縮されたHOA表現は、HOADecoderConfig()において1に等しいCodedVVecLengthが信号伝達される場合に、HOAベースのコンテンツについての層構成の符号化モードのために適応されている。さらに、ContAddHoaCoeffの集合に含まれる追加的なHOA係数のインデックスに等しいインデックスについては、vベクトル要素は伝送されなくてもよい。ContAddHoaCoeffの集合は、前記複数の階層式の層の各層について別個に定義されてもよい。層情報は、NumLayers要素を含み、各要素はi番目の層までのすべての層に含まれるトランスポート信号の数を示す。層情報は、k番目のフレームについて、すべての実際に使われる層のインジケータを含んでいてもよい。層情報は、優勢ベクトルについての係数のすべてが指定されることを示してもよい。層情報は、MinNumOfCoeffsForAmbHOAより多い数に対応する優勢ベクトルの係数が指定されることを示してもよい。層情報は、MinNumOfCoeffsForAmbHOAおよびContAddHoaCoeff[lay]において定義されるすべての要素が伝送されるのではないことを示してもよい。ここで、layは当該ベクトルに対応するベクトル・ベースの信号を含む層のインデックスである。
もう一つの側面によれば、音または音場表現の圧縮された高次アンビソニックス(HOA)表現のフレームの層構成のエンコードのためのエンコーダが記述される。圧縮されたHOA表現は複数のトランスポート信号を含んでいてもよい。本エンコーダは、第一に述べた上記の側面および第二に述べた上記の側面に基づく方法の方法段階の一部または全部を実行するよう構成されたプロセッサを含んでいてもよい。
もう一つの側面によれば、音または音場表現の圧縮された高次アンビソニックス(HOA)表現のフレームをデコードするためのデコーダが記述される。圧縮されたHOA表現は、基本層および一つまたは複数の階層式の向上層を含む複数の階層式の層においてエンコードされていてもよい。本デコーダは、第三に述べた上記の側面に基づく方法の方法段階の一部または全部を実行するよう構成されたプロセッサを含んでいてもよい。
もう一つの側面によれば、ソフトウェア・プログラムが記述される。本ソフトウェア・プログラムは、プロセッサ上での実行のために適応され、コンピューティング装置で実行されたときに本稿で概説される方法段階の一部または全部を実行するために適応されていてもよい。
さらにもう一つの側面によれば、記憶媒体が記述される。本記憶媒体は、プロセッサ上での実行のために適応され、コンピューティング装置で実行されたときに本稿で概説される方法段階の一部または全部を実行するために適応されているソフトウェア・プログラムを含んでいてもよい。
当業者は理解するだろうが、上記の側面のいずれかまたはその実施形態に関してなされる陳述は、他の側面またはその実施形態にも当てはまることが理解される。これらの陳述を一つ一つの側面または実施形態について繰り返すことは、簡潔のため、割愛した。
本稿で概説される好ましい実施形態を含む方法および装置は単体でまたは本稿で開示される他の方法およびシステムとの組み合わせにおいて使用されてもよいことを注意しておくべきである。さらに、本稿で概説される方法および装置のすべての側面は任意に組み合わされてもよい。特に、請求項の特徴は任意の仕方で他の特徴と組み合わされてもよい。
方法段階および装置特徴が多くの仕方で交換されてもよいことをさらに注意しておくべきである。特に、当業者は理解するだろうが、開示される方法の詳細は、方法の段階の一部または全部を実行するよう適応された装置として実装されることができ、その逆もできる。
本発明は、付属の図面を参照して例示的な仕方で下記で説明される。
エンコーダ側での基本層およびM-1個の向上層へのペイロードの割り当てを概略的に示すブロック図である。
受領器および圧縮解除段の例を概略的に示すブロック図である。
本開示の実施形態に基づく、圧縮されたHOA表現のフレームの層構成エンコードの方法の例を示すフローチャートである。
本開示の実施形態に基づく、圧縮されたHOA表現のフレームの層構成エンコードの方法のもう一つの例を示すフローチャートである。
本開示の実施形態に基づく、圧縮されたHOA表現のフレームをデコードする方法の例を示すフローチャートである。
本開示の実施形態に基づくエンコーダのハードウェア実装の例を概略的に示すブロック図である。
本開示の実施形態に基づくデコーダのハードウェア実装の例を概略的に示すブロック図である。
まず、本開示に基づく方法およびエンコーダ/デコーダが適用可能でありうる圧縮された音(または音場)表現について述べる。
時間変動する条件をもつ伝送チャネルを通じた圧縮された音(または音場)表現のストリーミングについて、層構成の符号化は、受領される音表現の品質を伝送条件に適合させ、特に望まれない信号脱落を回避する手段である。
層構成の符号化のためには、圧縮された音(または音場)表現は通例、比較的小さなサイズの高優先度の基本層と、デクリメントする優先度および任意のサイズをもつ追加的な向上層とに細分される。各向上層は典型的には、圧縮された音(または音場)表現の品質を改善するために、より低位のすべての層の情報を補完するためのインクリメンタルな情報を含むと想定される。その際、発想は、個々の層の伝送のための誤り保護の量を、それらの優先度に基づいて制御するというものである。特に、基本層は、高い誤り保護を提供され、これはその小さなサイズのため、合理的であり、受け入れ可能である。
以下では、完全な圧縮された音(または音場)表現は一般に、次の三つの成分からなることが想定される。
1.それ自身いくつかの相補的な成分からなる基本的な圧縮された音(または音場)表現。これは、完全な圧縮された音(または音場)表現の突出して最大な割合をなす。
2.基本的な圧縮された音表現をデコードするために必要とされる基本サイド情報。これは、基本的な圧縮された音(または音場)表現に比べてずっと小さなサイズであると想定される。これはさらに、その大半は、以下の成分からなると想定される。その両方は、基本的な圧縮された音表現の一つの特定の成分のみの圧縮解除を指定する:
a)第一の成分は、基本的な圧縮された音(または音場)表現の個々の相補的な成分を、他の相補的な成分とは独立に記述するサイド情報を含む。
b)第二の(任意的な)成分は、基本的な圧縮された音(または音場)表現の個々の相補的な成分を、他の相補的な成分に依存〔従属〕して記述するサイド情報を含む。特に、依存性は次の属性をもつ:
・基本的な圧縮された音(または音場)表現のそれぞれの個別の相補的な成分についての従属サイド情報は、基本的な圧縮された音(または音場)表現に他のある種の相補的な成分が含まれない場合に、最大範囲を達成する。
・基本的な圧縮された音(または音場)表現に追加的なある種の相補的な成分が追加される場合には、考えている個別の相補的な成分についての従属サイド情報はもとのものの部分集合になり、それによりそのサイズを減らす。
a)第一の成分は、基本的な圧縮された音(または音場)表現の個々の相補的な成分を、他の相補的な成分とは独立に記述するサイド情報を含む。
b)第二の(任意的な)成分は、基本的な圧縮された音(または音場)表現の個々の相補的な成分を、他の相補的な成分に依存〔従属〕して記述するサイド情報を含む。特に、依存性は次の属性をもつ:
・基本的な圧縮された音(または音場)表現のそれぞれの個別の相補的な成分についての従属サイド情報は、基本的な圧縮された音(または音場)表現に他のある種の相補的な成分が含まれない場合に、最大範囲を達成する。
・基本的な圧縮された音(または音場)表現に追加的なある種の相補的な成分が追加される場合には、考えている個別の相補的な成分についての従属サイド情報はもとのものの部分集合になり、それによりそのサイズを減らす。
3.基本的な圧縮された音(または音場)表現を改善するための任意的な向上サイド情報。そのサイズも、基本的な圧縮された音(または音場)表現のサイズよりずっと小さいと想定される。
そのような型の完全な圧縮された音(または音場)表現の一つの顕著な例は、MPEG-H 3Dオーディオ規格の予備的バージョンによって規定される圧縮されたHOA音場表現によって与えられる。
1.その基本的な圧縮された音場表現は、いわゆる優勢音信号またはいわゆる周囲音HOA音場成分の係数シーケンスのいずれかを表わす、いくつかの量子化されたモノラル信号を用いて同定されることができる。
2.基本サイド情報は、中でも、これらのモノラル信号のそれぞれについて、それが音場に対して空間的にどのように寄与するかを記述する。この情報はさらに、次の二つの異なる成分に分離されうる:
(a)他のモノラル信号の存在とは独立な、特定の個別のモノラル信号に関係したサイド情報。そのようなサイド信号はたとえば、ある入射方向をもつ方向性信号(つまり一般的平面波)を表わすモノラル信号を指定してもよい。あるいはまた、モノラル信号は、あるインデックスをもつもとのHOA表現の係数シーケンスとして指定されてもよい。
(b)他のモノラル信号の存在に依存する、特定の個別のモノラル信号に関係したサイド情報。そのようなサイド信号はたとえば、モノラル信号がいわゆるベクトル・ベースの信号であると指定される、つまり音場内で方向性をもって分布していて方向分布がベクトルによって指定される場合に生じる。ある種のモード(すなわち、CodedVVecLength=1)では、このベクトルの特定の諸成分は暗黙的に0に設定され、圧縮されたベクトル表現の一部ではない。これらの成分は、もとのHOA表現の係数シーケンスのうちで、基本的な圧縮された音場表現の一部であるものに等しいインデックスをもつ成分である。つまり、ベクトルの個別の成分が符号化される場合、その総数は基本的な圧縮された音場表現に依存する、特に、もとのHOA表現のどの係数シーケンスを含んでいるかに依存する。
(a)他のモノラル信号の存在とは独立な、特定の個別のモノラル信号に関係したサイド情報。そのようなサイド信号はたとえば、ある入射方向をもつ方向性信号(つまり一般的平面波)を表わすモノラル信号を指定してもよい。あるいはまた、モノラル信号は、あるインデックスをもつもとのHOA表現の係数シーケンスとして指定されてもよい。
(b)他のモノラル信号の存在に依存する、特定の個別のモノラル信号に関係したサイド情報。そのようなサイド信号はたとえば、モノラル信号がいわゆるベクトル・ベースの信号であると指定される、つまり音場内で方向性をもって分布していて方向分布がベクトルによって指定される場合に生じる。ある種のモード(すなわち、CodedVVecLength=1)では、このベクトルの特定の諸成分は暗黙的に0に設定され、圧縮されたベクトル表現の一部ではない。これらの成分は、もとのHOA表現の係数シーケンスのうちで、基本的な圧縮された音場表現の一部であるものに等しいインデックスをもつ成分である。つまり、ベクトルの個別の成分が符号化される場合、その総数は基本的な圧縮された音場表現に依存する、特に、もとのHOA表現のどの係数シーケンスを含んでいるかに依存する。
もとのHOA表現の係数シーケンスが基本的な圧縮された音場表現に含まれない場合には、各ベクトル・ベースの信号についての従属的な基本サイド情報は、すべてのベクトル成分からなり、その最大サイズをもつ。もとのHOA表現の係数シーケンスであってあるインデックスをもつものが基本的な圧縮された音場表現に追加される場合、それらのインデックスをもつベクトル成分が、各ベクトル・ベースの信号についてのサイド情報から除去され、それによりベクトル・ベースの信号についての従属的な基本サイド情報のサイズを減らす。
3.向上サイド情報は次の成分からなる:
・方向性信号から音場の欠けている部分を(線形に)予測するためのいわゆる(ブロードバンド)空間的予測に関係したパラメータ。
・いわゆるサブバンド方向性信号合成およびパラメトリック周囲音複製に関係したパラメータ。サブバンド方向性信号合成およびパラメトリック周囲音複製は、これまでのところ空間的に不完全なまたは欠損のある圧縮されたHOA表現を補完するために空間的に分布させられるべき追加的なモノラル信号の周波数依存のパラメトリックな予測を許容する圧縮ツールである。予測は、基本的な圧縮された音場表現の係数シーケンスに基づく。重要な側面は、音場への上記の補完する寄与は、追加的な量子化された信号によってではなく、比較可能にずっと小さなサイズの追加的なサイド情報によって、圧縮されたHOA表現内で表現されるということである。よって、上述した二つの符号化ツールは、低データレートでのHOA表現の圧縮のために特に好適である。
・方向性信号から音場の欠けている部分を(線形に)予測するためのいわゆる(ブロードバンド)空間的予測に関係したパラメータ。
・いわゆるサブバンド方向性信号合成およびパラメトリック周囲音複製に関係したパラメータ。サブバンド方向性信号合成およびパラメトリック周囲音複製は、これまでのところ空間的に不完全なまたは欠損のある圧縮されたHOA表現を補完するために空間的に分布させられるべき追加的なモノラル信号の周波数依存のパラメトリックな予測を許容する圧縮ツールである。予測は、基本的な圧縮された音場表現の係数シーケンスに基づく。重要な側面は、音場への上記の補完する寄与は、追加的な量子化された信号によってではなく、比較可能にずっと小さなサイズの追加的なサイド情報によって、圧縮されたHOA表現内で表現されるということである。よって、上述した二つの符号化ツールは、低データレートでのHOA表現の圧縮のために特に好適である。
上述した構造をもつモノラル信号の圧縮された表現の第二の例は、次の成分からなっていてもよい:
1.ある上限周波数までの別個の諸周波数帯域についての何らかの符号化されたスペクトル情報。これは基本的な圧縮された表現と見なせる。
2.上記の符号化されたスペクトル情報を(たとえば符号化された周波数帯域の数および幅によって)指定する何らかの基本サイド情報。
3.いわゆるスペクトル帯域複製(SBR)のパラメータからなる何らかの向上サイド情報。これらのパラメータは、基本的な圧縮された表現から、どのようにして、基本的な圧縮された表現において考慮されていない、より高い周波数帯域についてのスペクトル情報をパラメトリックに再構成するかを記述する。
1.ある上限周波数までの別個の諸周波数帯域についての何らかの符号化されたスペクトル情報。これは基本的な圧縮された表現と見なせる。
2.上記の符号化されたスペクトル情報を(たとえば符号化された周波数帯域の数および幅によって)指定する何らかの基本サイド情報。
3.いわゆるスペクトル帯域複製(SBR)のパラメータからなる何らかの向上サイド情報。これらのパラメータは、基本的な圧縮された表現から、どのようにして、基本的な圧縮された表現において考慮されていない、より高い周波数帯域についてのスペクトル情報をパラメトリックに再構成するかを記述する。
次に、上述した構造をもつ完全な圧縮された音(または音場)表現の層構成の符号化のための方法について述べる。
圧縮は、一連の時間区間、たとえば等しいサイズの時間区間についての圧縮された表現を(たとえばデータ・パケット、あるいは等価だがフレーム・ペイロードの形で)与えるという意味で、フレーム・ベースであると想定される。これらのデータ・パケットは、実際の圧縮された表現のデータのほかに、有効性フラグ、そのサイズを示す値を含むと想定される。以下の記述を通じて、大半は単一のフレームの扱いに焦点を当てる。よって、フレーム・インデックスは省略される。
考えられている完全な圧縮された音(または音場)表現1100の各フレーム・ペイロードは、J個のデータ・パケットを含んでおり、各データ・パケットはBSRCj、j=1,…,Jと記される基本的な圧縮された音(または音場)表現の一つの成分1110-1、…、1110-Jについてであると想定される。さらに、各フレーム・ペイロードは、BSIIによって記される独立な(independent)基本サイド情報(basic side information)1120をもつパケットを含んでいると想定される。BSIIは、他の成分とは独立に基本的な圧縮された音表現の特定の諸成分BSRCjを指定する。任意的に、各フレーム・ペイロードはさらに、BSIDと記される従属の(dependent)基本サイド情報をもつパケットを含んでいると想定される。BSIDは、他の成分に依存して基本的な圧縮された音表現の特定の諸成分BSRCjを指定する。二つのデータ・パケットBSIIおよびBSID内に含まれる情報は、任意的に、単一のデータ・パケットBSIにグループ化されることができる。
最終的には、各フレーム・ペイロードは、完全な基本的な圧縮された表現からの再構成された音(または音場)をどのように改善するかの記述をもつ、ESIと記される向上サイド情報(enhancement side information)ペイロードを含む。
層構成の符号化のための記載される方式は、伝送のためのデータ・パケットのパッキングを含む圧縮部と、受領器および圧縮解除部との両方を可能にするための必要とされる諸段階に取り組む。各部については下記で詳細に述べる。
次に、伝送のための圧縮およびパッキングについて述べる。層構成の符号化(全部でM層、すなわち一つの基本層およびM-1個の向上層とする)の場合、完全な圧縮された音(または音場)表現1100の各成分は次のように扱われる。
・基本的な圧縮された音(または音場)表現が、個々の層に割り当てられる諸部分に細分される。一般性を失うことなく、グループ化はM+1個の数Jm、m=0,…,Mによって記述できる。ここで、J0=1、JM=J+1であり、BSRCjは、Jm-1≦j<Jmについて、m番目の層に割り当てられる。
・その小さなサイズのため、完全な基本サイド情報を基本層に割り当ててその無用な断片化を避けることが合理的である。独立基本サイド情報BSIIは割り当てのために不変のままにされる一方、従属基本サイド情報は、層構成の符号化については、受領器側で正しいデコードを許容し、かつ、伝送される従属サイド情報のサイズを減らすよう、特別に扱われる必要がある。従属基本サイド情報を、BSID,m、m=1,…,Mで記されるM個の部分1130-1、…、1130-Mに分解することが提案される。ここで、m番目の部分は、m番目の層に割り当てられる基本的な圧縮された音表現の成分BSRCj、Jm-1≦j<Jmのそれぞれについての従属サイド情報を、該従属サイド情報が存在すれば、含む。該従属サイド情報が存在しない場合には、BSID,mは空であると想定される。サイド情報BSID,mは、m番目の層までの層すべてに含まれるすべての成分BSRCj、1≦j<Jmに依存する。
・層構成の符号化の場合、予備的な圧縮解除された音(または音場)を向上させることが意図されているので、向上サイド情報が各層について余計に計算される必要があることを認識することが重要である。しかしながら、それは圧縮解除のための利用可能な層に依存する。よって、圧縮は、ESIm、m=1,…,Mで記されるM個の個別の向上サイド情報データ・パケット1140-1、…、1140-Mを提供する必要がある。ここで、m番目のデータ・パケットにおける向上サイド情報ESImは、基本層と、mより低いインデックスをもつ向上層とに含まれる全データから得られる音(または音場)表現を向上させるよう計算される。
まとめると、圧縮段では、次の組成をもつ、FRAMEと記されるフレーム・データ・パケットが提供される必要がある:
すでに述べた、個々のペイロードの基本層および向上層への割り当ては、いわゆるトランスポート層パッキング器によって達成され、概略的に図1に示される。
次に、受領および圧縮解除について述べる。対応する受領器および圧縮解除段は図2に示されている。
まず、個々の層のパケット1200、1300-1、…、1300-(M-1)が多重化されて、完全な圧縮された音(または音場)表現の受領されたフレーム・パケット
圧縮解除器2100において、受領されたフレーム・パケットがまず多重分離される。この目的のために、個々のペイロードのデータを通じて無用なパースをしていくことを避けるために、各ペイロードのサイズについての情報が活用されてもよい。
次の段階では、基本的な音表現の圧縮解除のために実際に使用される最高の層の番号NBが選択される。基本的な音表現の圧縮解除のために実際に使用される最高の向上層はNB-1によって与えられる。各層はちょうど一つの向上サイド情報ペイロードを含んでいるので、各向上サイド情報ペイロードから、含んでいる層が有効であるか否かがわかる。よって、前記選択は、すべての向上サイド情報ペイロードESIm、m=1,…,Mを使って達成できる。さらに、圧縮解除のために使われる向上サイド情報ペイロードのインデックスNEが決定される。これは常にNBに等しいか、0に等しい。つまり、向上は、常に基本的な音表現に従って達成されるか、まったく全く達成されないかである。選択についてのより詳細な記述はのちにさらに与える。
逐次的に、基本的な圧縮された音表現成分BSRC1、…、BSRCJのペイロードは、基本サイド情報ペイロード(すなわち、BSIIおよびBSID,m、m=1,…,M)のすべておよび値NBと一緒に、基本表現圧縮解除処理ユニット2200に渡される。基本表現圧縮解除処理ユニット2200は、最も低いNB個の層(すなわち基本層およびNB-1個の向上層)内に含まれる基本的な圧縮された音表現成分のみを使って、基本的な音(または音場)表現を再構成する。個々の層に基本的な圧縮された音(または音場)表現のどの成分が含まれるかについての必要とされる情報は、構成設定情報をもつデータ・パケットから、圧縮解除器2100には知られていると想定される。構成設定情報は、フレーム・データ・パケットより前に送受信されると想定される。それぞれの個別の従属基本サイド情報ペイロードBSID,m、m=1,…,NBの実際のデコードは、次のように二つの部分に分割できる。
1.各ペイロードBSID,m、m=1,…,NBの予備的なデコード。これは、エンコード段において想定された最初のm層に含まれる最初のJm-1個の基本的な圧縮された音表現成分BSRC1、…、BSRC(Jm)-1への依存性を活用することによる。
2.各ペイロードBSID,m、m=1,…,NBの逐次的な補正。これは、基本的な音成分が、予備的なデコードのために想定されたよりも多くの成分である最初のNB>m層に含まれる最初のJNB-1個の基本的な圧縮された音表現成分BSRC1、…、BSRC(JNB)-1から最終的に再構成されることを考慮することによる。よって、補正は、古くなった情報を破棄することによって達成できる。これが可能なのは、従属基本サイド情報の初期に想定された属性、つまり基本的な圧縮された音(または音場)表現にある種の相補的成分が追加されれば、それぞれの個別の相補的成分についての従属基本サイド情報がもとのものの部分集合になるという属性のためである。
最終的に、再構成された基本的な音(または音場)表現は、すべての向上サイド情報ペイロードESI1、…、ESIM、基本サイド情報ペイロードBSIIおよびBSID,m、m=1,…,Mおよび値NEと一緒に、向上表現圧縮解除処理ユニット2300に与えられる。向上表現圧縮解除処理ユニット2300は、向上サイド情報ペイロードESINEのみを使い、他のすべての向上サイド情報ペイロードを破棄して、最終的な向上された音(または音場)表現を計算する。NEの値が0に等しければ、すべての向上サイド情報ペイロードが破棄され、再構成された最終的な向上された音(または音場)表現は、再構成された基本的な音(または音場)表現と等しくなる。
次に、層選択について述べる。すべてのフレーム・データ・パケットが互いと独立して圧縮解除されうる場合には、基本的な音表現の圧縮解除のために実際に使われる最高の層の番号NBおよび圧縮解除のために使われる向上サイド情報ペイロードのインデックスNEはいずれも、有効な向上サイド情報ペイロードの最高の番号Lに設定される。L自身は、向上サイド情報ペイロード内の有効性フラグを評価することによって決定されうる。各向上サイド情報ペイロードのサイズの知識を活用することによって、有効性の判定のためにペイロードの実際のデータを通じて複雑なパースをしていくことは回避できる。
フレーム間依存性がある差分圧縮解除が用いられる場合には、前のフレームからの決定がさらに考慮される必要がある。差分圧縮解除では、独立フレーム・データ・パケットが規則的な時間間隔で伝送される。それらの時点から圧縮解除を開始することを許容するためである。独立フレーム・データ・パケットでは、値NBおよびNEの決定はフレーム独立になり、上記のように実行される。
フレーム依存の決定を詳細に説明するために、まずk番目のフレームについて、
・有効な向上サイド情報ペイロードの最高の番号をL(k)で、
・基本的な音表現の圧縮解除のために選択され、使用される最高の層番号をNB(k)で、
・圧縮解除のために使われる向上サイド情報ペイロードの番号をNE(k)で、表わす。
・有効な向上サイド情報ペイロードの最高の番号をL(k)で、
・基本的な音表現の圧縮解除のために選択され、使用される最高の層番号をNB(k)で、
・圧縮解除のために使われる向上サイド情報ペイロードの番号をNE(k)で、表わす。
この記法を使って、基本的な音表現の圧縮解除のために使用される最高の層番号NB(k)は次式に従って計算される。
圧縮解除のために使われる向上サイド情報ペイロードの番号NE(k)は次式に従って決定される。
あるいはまた、圧縮解除において、NE(k)までの番号をもつ向上サイド情報ペイロードの全部が並列に圧縮解除される場合、選択規則(4)は
NE(k)=NB(k) (5)
によって置き換えられてもよい。
NE(k)=NB(k) (5)
によって置き換えられてもよい。
最後に、差分圧縮解除については、最上位の使用される層の番号は独立フレーム・データ・パケットにおいてのみ増大でき、一方、減少はどのフレームでも可能であることを注意しておく。
次に、圧縮された音表現のフレームの層構成符号化およびエンコードされた圧縮された音表現のフレームを表わすデータ構造(たとえばビットストリーム)に関係する本開示の実施形態について、圧縮されたHOA表現の場合について述べる。特に、圧縮されたHOA表現の層構成符号化の方式への提案される変更について述べる。
HOAベースのコンテンツの層構成符号化モードの修正として、HOAデコード・ツールである空間的信号予測、サブバンド方向性信号合成およびパラメトリック周囲音複製(PAR)デコーダの構成設定およびフレーム・ペイロードを対応するHOA向上層に、よりよく適応させるために、新たなusacExtElementTypeが定義される。HOAベースのコンテンツについての層構成符号化モードがアクティブ化される場合、そのことはSingleLayer==0によって信号伝達され、これらのツールの対応するビットストリーム要素を、各層(基本層および一つまたは複数の向上層を含む)についての該新しい型の一つの追加的なHOA拡張ペイロードに移すことが提案される。
拡張する必要があるのは、これらのツールのためのサイド情報が、特定のHOA表現を向上させるために作成されているからである。層構成のHOA符号化の現在の定義では、提供されるデータは、最上位層のHOA表現を適正に拡張するだけである。より低位の層については、これらのツールは、部分的に再構成されたHOA表現を適正に向上させない。
よって、これらのツールのサイド情報を、各層について提供して、これらのツールを対応する層の再構成されたHOA表現に適合させるほうがよいであろう。
さらに、サブバンド方向性信号合成およびパラメトリック周囲音複製デコーダのツールは、若干数のトランスポート信号だけが利用可能な低データ・レートのために特に設計されている。よって、提案される拡張は、これらのツールのサイド情報を、層におけるトランスポート信号の数に最適に適応する能力を提供する。よって、低ビットレート層、たとえば基本層についての再構成されたHOA表現の音質は、既存の層構成のアプローチに比べて有意に高められることができる。
さらに、HOADecoderConfig()において1に等しいCodedVVecLengthが信号伝達される場合には、ベクトル・ベースの信号についてのエンコードされたVベクトル要素についてのビットストリーム・シンタックスがHOA層構成符号化のために適応される必要がある。このベクトル符号化モードでは、ContAddHoaCoeffの集合に含まれるHOA係数インデックスについてはVベクトル要素が伝送されない。この集合は、0に等しいAmbCoeffTransitionStateをもつすべてのHOA係数インデックスAmbCoeffIdx[i]を含む。これらのインデックスについてのもとのHOA係数シーケンスが明示的に送られるので、重み付けされたVベクトル信号をも加える必要はない。よって、通常のアプローチにおけるVベクトル要素は、これらのインデックスについては0に設定される。
しかしながら、層構成符号化モードでは、連続的なHOA係数インデックスの集合は、現在アクティブな層の一部であるトランスポート・チャネルに依存する。つまり、より上位の層で送られる追加的なHOA係数インデックスが、より低位の層では欠けている。そして、ベクトル信号がHOA係数シーケンスに寄与しないはずであるという想定は、より高位の層に含まれるHOA係数シーケンスに属するHOA係数インデックスについては、誤りである。そこで、これらの欠けている係数インデックスについてのVベクトル要素を(明示的に)信号伝達することが提案される。
結果として、各層についてContAddHoaCoeffの集合を定義し、アクティブなVベクトル要素の選択のために、Vベクトル信号が加えられる層(Vベクトル信号のトランスポート信号が属する層)の集合を使うことが提案される。にもかかわらず、Vベクトル・データはHOAFrame()に留まり、HOAEnhFrame()に移されないことが提案される。
次に、MPEG-Hビットストリーム・シンタックスへの統合について述べる。本開示の実施形態に基づく対応するエンコード方法(たとえば音または音場の圧縮されたHOA表現のフレームの層構成のエンコードの方法)について、図3を参照して述べる。MPEG-H 3Dビットストリームへの提案される変更については、のちに附属書において述べる。
層構成符号化モードでは、HOADecoderConfig()におけるフラグSingleLayerは非アクティブであり(SingleLyaer==0)、層の数およびそれらの層に割り当てられるHOAトランスポート信号の対応する数が定義される。一般に、圧縮されたHOA表現は複数のトランスポート信号を含んでいてもよい。
よって、図3のS3010において、複数のトランスポート信号が複数の階層式の層に割り当てられる。換言すれば、トランスポート信号は複数の層に分配される。各層は、その層に割り当てられたそれぞれのトランスポート信号を含むと言われてもよい。各層には、二つ以上のトランスポート信号が割り当てられていてもよい。前記複数の層は基本層および一つまたは複数の階層式の向上層を含んでいてもよい。それらの層は、基本層から、向上層を経て、全体的な最高の向上層(全体的な最上位の層)まで、順序付けられてもよい。
(基本層を含む)各HOA向上層について空間的信号予測、サブバンド方向性信号合成およびPARデコーダ・データの一つのペイロードを伝送するために、MPEG-Hビットストリームに、新たに定義されたusacExtElementType ID_EXT_ELE_HOA_ENH_LAYERをもつ追加的なHOA構成設定拡張ペイロードおよびHOAフレーム拡張ペイロードを追加することが提案される。これらの追加的なペイロードは、mpegh3daExtElementConfig()および対応してmpegh3daFrame()における型ID_EXT_ELE_HOAのペイロードの直後にくる。
よって、SingleLayer==0の場合、HOADecoderConfig()からの空間的信号予測、サブバンド方向性信号合成およびPARデコーダのための構成設定要素を新たに定義されたHOADecoderEnhConfig()に移し、対応して、HOAFrame()からのHOAPredictionInfo()、HOADirectionalPredictionInfo()およびHOAParInfo()を該新たに定義されたHOAEnhFrame()に移すことが提案される。
よって、S3020において、各層について、それぞれのHOA拡張ペイロードが生成される。生成されるHOA拡張ペイロードは、それぞれの層に割り当てられた(たとえば含まれる)トランスポート信号から得られる再構成されたHOA表現をパラメトリックに向上させるためのサイド情報を含んでいてもよい。上記に示されるように、HOA拡張ペイロードは、HOA空間的信号予測デコード・ツール、HOAサブバンド方向性信号合成デコード・ツールおよびHOAパラメトリック周囲音複製デコード・ツールのうちの一つまたは複数についてのビットストリーム要素を含んでいてもよい。さらに、HOA拡張ペイロードはID_EXT_ELE_HOA_ENH_LAYERというusacExtElementTypeを有していてもよい。
S3030では、生成されたHOA拡張ペイロードがそれぞれの層に割り当てられる。
さらに(図3には示さず)、HOA空間的信号予測デコード・ツール、HOAサブバンド方向性信号合成デコード・ツールおよび/またはHOAパラメトリック周囲音複製デコード・ツールを構成設定するためのビットストリーム要素を含むHOA構成設定拡張ペイロードが生成されてもよい。
さらに(図3には示さず)、前記複数の層へのHOA拡張ペイロードの割り当てを示す情報を含むHOAデコーダ構成設定ペイロードが生成されてもよい。
次に、層構成のビットストリーム(たとえばMPEG-Hビットストリーム)の伝送について述べる。MPEG-Hビットストリームのすべての拡張ペイロードはバイト整列され、そのサイズは明示的に信号伝達されるので、1に等しいelementLengthPresentフラグが想定されたとすると、パッキング解除器は、MPEG-Hビットストリームをパースして、1よりも高い層についてのペイロードを抽出し、それらのペイロードを種々の伝送チャネルを通じて別個に伝送することができる。基本層は、より上位の層を除くMPEG-Hビットストリームを含む(たとえば、それらのビットストリームからなる)。欠けている拡張ペイロードは、空または非アクティブとして信号伝達される。型ID_USAC_SCE、ID_USAC_CPEおよびID_USAC_LFEのペイロードについては、0というelementLengthによって空のペイロードが信号伝達される。ここで、elementLengthPresentは1に設定される必要がある。型ID_USAC_EXTの空のペイロードは、usacExtElementPresentフラグを0(偽)に設定することによって信号伝達されることができる。
よって、S3040では、生成されたHOA拡張ペイロードが出力ビットストリームにおいて信号伝達される(たとえば送信されるまたは出力される)。一般に、前記複数の層およびそれに割り当てられたペイロードが出力ビットストリームにおいて信号伝達される(たとえば送信されるまたは出力される)。さらに、HOAデコーダ構成設定ペイロードおよび/またはHOA構成設定拡張ペイロードが出力ビットストリームにおいて信号伝達(たとえば送信または出力)されてもよい。
HOA基本層(1に等しい層インデックス)は、最高の誤り保護をもって伝送され、比較的小さなビットレートをもつことが想定される。後続の層(一つまたは複数のHOA向上層)についての誤り保護は、向上層の増大していくビットレートに応じてどんどん下げられる。劣悪な伝送条件およびより低い誤り保護のため、より高い層の伝送は失敗することがあり、最悪の場合には、基本層のみが正しく伝送される。一つの層のすべてのペイロードについての組み合わされた誤り保護が適用されることが想定される。こうして、ある層の伝送が失敗すると、対応する層のすべてのペイロードが欠ける。
換言すれば、複数の層についてのデータ・ペイロードはそれぞれのレベルの誤り保護をもって伝送されてもよい。ここで、基本層が、最も高い誤り保護を有し、前記一つまたは複数の向上層は順次低下する誤り保護を有する。
段階がある別の段階を前提条件として要求するのでない限り、上述の諸段階は任意の順序で実行されてもよく、図3に示される例示的な順序は限定しないと理解される。
上記で示したように、HOADecoderConfig()において1に等しいCodedVVecLengthが信号伝達される場合には、ベクトル・ベースの信号についてのエンコードされたVベクトル要素についてのビットストリーム・シンタックスがHOA層構成符号化のために適応される必要がある。本開示の実施形態に基づく、対応するエンコードの方法(たとえば、音または音場の圧縮されたHOA表現のフレームの層構成のエンコードの方法)について、図4を参照して述べる。
図4のS4010では、複数のトランスポート信号が複数の階層式の層に割り当てられる。この段階は、上記のS3010と同じ仕方で実行されてもよい。
S4020では、ベクトル符号化モードがアクティブであるかどうかが判定される。これは、CodedVVecLength==1であるか否かを判定することに関わっていてもよい。
上記で示したように、ベクトル符号化モードにおける通常のアプローチでは、ContAddHoaCoeffの集合に含まれるHOA係数インデックスについてはVベクトル要素が伝送されない。この集合は、0に等しいAmbCoeffTransitionStateをもつすべてのHOA係数インデックスAmbCoeffIdx[i]を含む。これらのインデックスについてのもとのHOA係数シーケンスが明示的に送られるので、重み付けされたVベクトル信号をも追加する必要はない。よって、通常のアプローチにおけるVベクトル要素は、これらのインデックスについては0に設定される。
しかしながら、層構成符号化モードでは、連続的なHOA係数インデックスの集合は、現在アクティブな層の一部であるトランスポート・チャネルに依存する。つまり、より上位の層で送られる追加的なHOA係数インデックスが、より低位の層では欠けている。そして、ベクトル信号がHOA係数シーケンスに寄与しないはずであるという想定は、より高位の層に含まれるHOA係数シーケンスに属するHOA係数インデックスについては、誤りである。
そこで、ベクトル符号化モードがアクティブであれば、S4030において、各層について、連続的なHOA係数インデックス(たとえばContAddHoaCoeff)の集合が、それぞれの層に割り当てられたトランスポート信号に基づいて決定(たとえば定義)される。
ベクトル符号化モードがアクティブであれば、S4040において、各トランスポート信号について、該トランスポート信号が割り当てられている層についての連続的なHOA係数インデックスの決定された集合に基づいて、Vベクトルが生成される。各生成されたVベクトルは、当該トランスポート信号が割り当てられている層よりも高い層に割り当てられた任意のトランスポート信号についての要素を含んでいてもよい。この段階は、アクティブなVベクトル要素の選択のために、Vベクトル信号が加えられる層(Vベクトル信号のトランスポート信号が属する層)について決定された連続的なHOA係数インデックスの集合を使うことに関わってもよい。にもかかわらず、Vベクトル・データはHOAFrame()に留まり、HOAEnhFrame()に移されないことが提案される。
次いで、S4050において、生成されたVベクトル(Vベクトル信号)が出力ビットストリームにおいて信号伝達される。これは、上述した欠けている係数インデックスについてVベクトル要素を(明示的に)信号伝達することに関わっていてもよい。
図4の段階S4020ないしS4050は、図3に示されるエンコード方法のコンテキストにおいても、たとえばS3010の後に、用いられてもよい。この場合、S3040およびS4050は単一の信号伝達段階に組み合わされてもよい。
段階がある別の段階を前提条件として要求するのでない限り、上述の諸段階は任意の順序で実行されてもよく、図4に示される例示的な順序は限定しないと理解される。
受領器側で、MPEG-Hビットストリーム・パッキング器が、正しく受領されたペイロードを基本層MPEG-Hビットストリーム中に再挿入して、MPEG-H 3Dオーディオ・デコーダに渡すことができる。
次に、HOAデコード初期化(構成設定)について述べる。型ID_EXT_ELE_HOAおよびID_EXT_ELE_HOA_ENH_LAYERのHOA構成設定ペイロードは、バイト単位でのその対応するサイズとともに、HOAデコーダに、その初期化のために入力される。HOA符号化ツールは、型ID_EXT_ELE_HOAのペイロードからパースされるHOAConfig()において定義されているビットストリーム要素に従って構成設定される。さらに、該ペイロードは層構成符号化モードの使用、層の数および層ごとのトランスポート信号の対応する数を含む。次いで、層構成符号化がアクティブ化されている場合(SingleLyaer==0)、各層の対応する空間的信号予測、サブバンド方向性信号合成およびパラメトリック周囲音複製デコーダを構成設定するために、型ID_EXT_ELE_HOA_ENH_LAYERのペイロードからHOAEnhConfig()がパースされる。
HOAEnhConfig()からの要素LayerIdxは、mpegh3daExtElementConfig()における諸HOA向上層構成設定ペイロードの順序と一緒になって、諸HOA向上層の順序を示す。フレーム・ペイロードを対応する層に明瞭に割り当てるために、mpegh3daFrame()における型ID_EXT_ELE_HOA_ENH_LAYERのHOA向上層フレーム・ペイロードの順序は、mpegh3daExtElementConfig()における構成設定ペイロードの順序と同一である。
SingleLyaer==1(単一層符号化)の場合、型ID_EXT_ELE_HOA_ENH_LAYERのペイロードは無視され、空間的信号予測、サブバンド方向性信号合成およびパラメトリック周囲音複製デコーダはその構成設定のために、HOADecoderConfig()からの対応するデータを使う。
次に、層構成モードにおけるHOAフレーム・デコードについて述べる。本開示の実施形態に基づくデコードの対応する方法(たとえば、音または音場の圧縮されたHOA表現のフレームをデコードする方法)について、図5を参照して述べる。圧縮されたHOA表現(たとえば上記の図3または図4の方法の出力)は、基本層および一つまたは複数の階層式の向上層を含む複数の階層式の層でエンコードされていてもよいことが理解される。
図5のS5010では、圧縮されたHOA表現のフレームに関係するビットストリームが受領される。
3Dオーディオ・コア・デコーダは、正しく伝送されたHOAトランスポート信号をデコードし、トランスポート信号を生成する。ここで、対応する無効なペイロードについてはすべてのサンプルが0に等しい。デコードされたトランスポート信号は、型ID_EXT_ELE_HOAおよびID_EXT_ELE_HOA_ENH_LAYERのHOAペイロードのusacExtElementPresentフラグ、データおよびサイズとともに、HOAデコーダに入力される。型ID_USAC_EXTからの拡張ペイロードであってusacExtElementPresentフラグが偽に設定されているものは、欠けているペイロードとして、HOAデコーダに信号伝達される必要がある。対応する層へのペイロードの割り当てを保証するためである。
S5020では、複数の層のペイロードが抽出される。各ペイロードは、それぞれの層に割り当てられたトランスポート信号を含んでいてもよい。
この段階で、HOAデコーダは型ID_EXT_ELE_HOAのペイロードからHOAFrame()をパースしてもよい。
その後、型ID_EXT_ELE_HOA_ENH_LAYERの有効なペイロードおよび型ID_EXT_ELE_HOA_ENH_LAYERの無効なペイロードが、それらのペイロードの対応するusacExtElementPresentフラグを評価することによって判別される。ここで、無効なペイロードは偽に等しいusacExtElementPresentフラグによって示され、HOA向上ペイロードの向上層インデックスへの割り当てはHOAデコーダ構成設定から知られる。
S5030では、前記複数の層のうちデコードのための最高の使用可能な層が判別される。
層はトランスポート信号に関して互いに依存しているので、HOAデコーダは、より低いインデックスをもつすべての層が正しく受領されるときにのみ、層をデコードできる。最高の使用可能な層は、この段階において、該最高の使用可能な層までのすべての層が正しく受信されているように、選択されてもよい。この段階の詳細については後述する。
S5040では、最高の使用可能な層に割り当てられたHOA拡張ペイロードが抽出される。上記で示したように、HOA拡張ペイロードは、最高の使用可能な層に対応する再構成されたHOA表現をパラメトリックに向上させるためのサイド情報を含んでいてもよい。ここで、最高の使用可能な層に対応する再構成されたHOA表現は、該最高の使用可能な層および該最高の使用可能な層より低い任意の諸層に割り当てられたトランスポート信号に基づいて得ることができてもよい。
さらに、前記複数の層のうちの残りの層にそれぞれ割り当てられたHOA拡張ペイロードが抽出されてもよい。各HOA拡張ペイロードは、それぞれの割り当てられた層に対応する再構成されたHOA表現をパラメトリックに向上させるためのサイド情報を含んでいてもよい。それぞれの割り当てられた層に対応する再構成されたHOA表現は、その層およびその層より低い任意の諸層に割り当てられたトランスポート信号から得ることができてもよい。
さらに(図5には示さず)、本デコード方法は、HOA構成設定拡張ペイロードを抽出する段階を含んでいてもよい。これは、ビットストリームをパースすることによってなされてもよい。HOA構成設定拡張ペイロードは、HOA空間的信号予測デコード・ツール、HOAサブバンド方向性信号合成デコード・ツールおよび/またはHOAパラメトリック周囲音複製デコード・ツールを構成設定するためのビットストリーム要素を含んでいてもよい。
S5050では、最高の使用可能な層に対応する(部分的に)再構成されたHOA表現が、該最高の使用可能な層および該最高の使用可能な層より低い任意の諸層に割り当てられたトランスポート信号に基づいて生成される。
実際に使用されるトランスポート信号の数IADD,LAY(k)は最高の使用可能な層(のインデックスMLAY(k))に基づいて設定されてもよく、第一の予備的なHOA表現がHOAFrame()からおよびその層およびより低位の任意の層の対応するトランスポート信号からデコードされる。
次いで、S5060では、再構成されたHOA表現が、最高の使用可能な層に割り当てられたHOA拡張ペイロードに含まれるサイド情報に従って向上させられる(パラメトリックに向上させられる)。
すなわち、S5050で得られたHOA表現は次いで、空間的信号予測、サブバンド方向性信号合成およびパラメトリック周囲音複製デコーダによって向上される。現在アクティブな層MLAY(k)、すなわち最高の使用可能な層の型ID_EXT_ELE_HOA_ENH_LAYERのHOA向上層拡張ペイロードからパースされたHOAEnhFrame()データを使って向上させられる。
段階S5020~S5060において使用される情報は層情報として知られてもよい。
段階がある別の段階を前提条件として要求するのでない限り、上述の諸段階は任意の順序で実行されてもよく、図5に示される例示的な順序は限定しないと理解される。
次に、S5030における最高の使用可能な層の決定(たとえば選択)の詳細について述べる。
上記で示したように、層はトランスポート信号の点で互いに依存するので、HOAデコーダがある層をデコードできるのは、より低いインデックスをもつすべての層が正しく受領されるときのみである。
最高のデコード可能な層の選択のために、HOAデコーダは、無効な層インデックスの集合を作成できる。ここで、この集合からの最小インデックスから1を引いた結果が、最高のデコード可能な向上層のインデックスMLAYを与える。無効な層インデックスの集合は、対応するHOA拡張ペイロードの有効性フラグを評価することによって決定されうる。
換言すれば、最高の使用可能な層を決定することは、有効に受領されなかった層を示す無効層インデックスの集合を決定することに関わっていてもよい。それはさらに、最高の使用可能な層を、無効層インデックスの集合における最小インデックスによって示される層より一層下である層として決定することに関わっていてもよい。それにより、最高の使用可能な層より下のすべての層が有効に受領されたことが保証される。
フレームの差分エンコードの場合、前の(たとえば直前の)フレームの最高の使用可能な層のインデックスを考慮に入れる必要がある。まず、前の(たとえば直前の)フレームの最高の使用可能な層のインデックスが保持される状況について述べる。
現在フレームについての最高の使用可能な層(たとえば最高のデコード可能な層)のインデックスが前のフレームの層インデックスMLAY(k-1)に等しい場合、現在フレームの層インデックスMLAY(k)はMLAY(k-1)に設定される。
次いで、実際に使われるトランスポート信号の数IADD,LAY(k)がMLAY(k)に基づいて設定され、第一の予備的なHOA表現がHOAFrame()からおよびその層およびより低位の任意の層の対応するトランスポート信号からデコードされる。これについては上記で示した。このHOA表現が、次いで、上記で示したように、現在アクティブな層MLAY(k)の型ID_EXT_ELE_HOA_ENH_LAYERのHOA向上層拡張ペイロードからパースされたHOAEnhFrame()データを使って、空間的信号予測、サブバンド方向性信号合成およびパラメトリック周囲音複製デコーダによって向上させられる。
次に、前の(たとえば直前の)フレームの最高の使用可能な層のインデックスよりも低いインデックスに切り換えられる状況について述べる。つまり、現在フレームについての最高のデコード可能な層のインデックスが前のフレームの層のインデックスMLAY(k-1)より小さい場合、HOAデコーダは、MLAY(k)を現在フレームについての最高のデコード可能な層のインデックスに設定する。新しい層についての空間的信号予測、サブバンド方向性信号合成およびパラメトリック周囲音複製デコーダについてのペイロードのデコードは、1に等しいhoaIndependencyFlagをもつ次のHOAフレームにおいてのみ開始できる。そのようなHOAFrame()が受領されるまでは、インデックスMLAY(k)の層のHOA表現は、空間的信号予測、サブバンド方向性信号合成およびパラメトリック周囲音複製デコーダを実行することなく、再構成される。つまり、実際に使われるトランスポート信号の数IADD,LAY(k)がMLAY(k)に基づいて設定され、第一の予備的なHOA表現がHOAFrame()からおよびその層およびより低位の任意の層の対応するトランスポート信号からデコードされる。その後、1に等しいhoaIndependencyFlagをもつHOAFrame()が受領されたら、空間的信号予測、サブバンド方向性信号合成およびパラメトリック周囲音複製デコーダのためのペイロードがパースされ、予備的なHOA表現を向上させるためにデコードされる。それにより、このフレームについて現在アクティブな層の完全な品質が提供される。
このように、提案される方法は、現在フレームの最高の使用可能な層が前のフレームの最高の使用可能な層より低い場合(現在フレームが前のフレームに関して差分的に符号化されている場合において)、最高の使用可能な層に割り当てられたHOA拡張ペイロードに含まれるサイド情報を使っての再構成されたHOA表現のパラメトリックな向上を実行しないことを決定することを含んでいてもよい(図5には示さず)。
一般に、現在フレームについて最高の使用可能な層を決定することは、現在フレームについて有効に受領されていない層を示す無効層インデックスの集合を判別することに関わっていてもよい。それはさらに、現在フレームに先行する前のフレームの最高の使用可能な層を判別することを含んでいてもよい。それはさらに、最高の使用可能な層を、前記前のフレームの最高の使用可能な層と、無効層インデックスの集合における最小のインデックスによって示される層より一層下である層とのうちの低いほうとして決定することを含んでいてもよい(現在フレームが前のフレームに関して差分的に符号化されている場合)。
代替的な解決策は、すべての有効な向上層ペイロード(たとえばHOA拡張ペイロード)を、たとえ現在非アクティブであったとしても、常に並列にパースしてもよい。これは、完全な品質をもって、より低いインデックスをもつ層への直接切り換えを可能にする。空間的信号予測、サブバンド方向性信号合成およびパラメトリック周囲音複製(PAR)デコーダは切り換えられたフレームにおいて直接適用されることができる。
次に、前の(たとえば直前の)フレームの最高の使用可能な層のインデックスよりも高いインデックスに切り換えられる状況について述べる。より高いインデックスをもつ層へのこの切り換えは、mpegh3daFrame()が1に等しいusacIndependencyFlagをもつ場合(たとえばフレームが独立フレームである場合)にのみ適用できる。前のフレームのすべての対応するペイロードまたはデコード状態が欠けているからである。こうして、HOAデコーダは、より高いデコード可能な層のための有効なデータを含んでいる1に等しいusacIndependencyFlagをもつmpegh3daFrame()(たとえば独立フレーム)が受領されるまで、HOA層インデックスMLAY(k)をMLAY(k-1)に等しく保つ。次いで、MLAY(k)は現在フレームについての最高のデコード可能な層インデックスに設定され、よって、実際に使用されるトランスポート信号の数IADD,LAY(k)が決定される。その層の予備的なHOA表現はHOAFrame()および対応するトランスポート信号からデコードされ、現在アクティブな層MLAY(k)の型ID_EXT_ELE_HOA_ENH_LAYERのHOA向上層拡張ペイロードからパースされたHOAEnhFrame()を使って空間的信号予測、サブバンド方向性信号合成およびパラメトリック周囲音複製デコーダによって向上させられる。
圧縮された音表現の層構成のエンコードの提案される方法が、圧縮された音表現の層構成のエンコードのためのエンコーダによって実装されうることが理解される。そのようなエンコーダは、上記のそれぞれの段階を実行するよう適応されたそれぞれのユニットを有していてもよい。そのようなエンコーダ6000の例は図6に概略的に示されている。たとえば、そのようなエンコーダ6000は、上述したS3010を実行するよう適応されたトランスポート信号割り当てユニット6010と、上述したS3020を実行するよう適応されたHOA拡張層ペイロード生成ユニット6020と、上述したS3030を実行するよう適応されたHOA拡張ペイロード割り当てユニット6030と、上述したS3040を実行するよう適応された信号伝達ユニットまたは出力ユニット6040とを有していてもよい。さらに、そのようなエンコーダのそれぞれのユニットが、前記ユニットのそれぞれによって実行される処理を実行するよう適応された、すなわち図3に概略的に示した提案されるエンコード方法の上述した段階の一部または全部を実行するよう適応されているコンピューティング装置のプロセッサ6100によって具現されてもよいことが理解される。追加的または代替的に、プロセッサ6100は、図4に概略的に示されたエンコード方法の段階のそれぞれを実行するよう適応されていてもよい。この目的に向け、プロセッサ6100は、エンコーダのそれぞれのユニットを実装するよう適応されてもよい。エンコーダまたはコンピューティング装置はさらに、プロセッサ6100によってアクセス可能なメモリ6200を有していてもよい。
さらに、複数の階層式の層においてエンコードされている圧縮された音表現のデコードの提案される方法が、複数の階層式の層においてエンコードされている圧縮された音表現をデコードするためのデコーダによって実装されうることが理解される。そのようなデコーダは、上記のそれぞれの段階を実行するよう適応されたそれぞれのユニットを有していてもよい。そのようなデコーダ7000の例は図7に概略的に示されている。たとえば、そのようなデコーダ7000は、上述したS5010を実行するよう適応された受領ユニット7010と、上述したS5020を実行するよう適応されたペイロード抽出ユニット7020と、上述したS5030を実行するよう適応された最高使用可能層決定ユニット7030と、上述したS5040を実行するよう適応されたHOA拡張ペイロード抽出ユニット7040と、上述したS5050を実行するよう適応された再構成HOA表現生成ユニット7050と、上述したS5060を実行するよう適応された向上ユニット7060とを有していてもよい。さらに、そのようなデコーダのそれぞれのユニットが、前記ユニットのそれぞれによって実行される処理を実行するよう適応された、すなわち提案されるデコード方法の上述した段階の一部または全部を実行するよう適応されているコンピューティング装置のプロセッサ7100によって具現されてもよいことが理解される。デコーダまたはコンピューティング装置はさらに、プロセッサ7100によってアクセス可能なメモリ7200を有していてもよい。
次に、層構成符号化モードにおける圧縮されたHOA表現を受け入れる(たとえば表現する)ためのデータ構造(たとえばビットストリーム)について述べる。そのようなデータ構造は、提案されるエンコード方法を用いることから生じてもよく、提案されるデコード方法によってデコード(たとえば圧縮解除)されてもよい。
データ構造は、複数の階層的な層のそれぞれの層に対応する複数のHOAフレーム・ペイロードを含んでいてもよい。前記複数のトランスポート信号は、前記複数の層に割り当てられていてもよい(たとえば属していてもよい)。本データ構造は、それぞれの層および該それぞれの層よりも低い任意の層に割り当てられるトランスポート信号から得られる再構成されたHOA表現をパラメトリックに向上させるためサイド情報を含むそれぞれのHOA拡張ペイロードを含んでいてもよい。上記で示したように、前記複数の層についてのHOAフレーム・ペイロードおよびHOA拡張ペイロードは誤り保護のそれぞれのレベルを用いて提供されてもよい。さらに、HOA拡張ペイロードは、上記で示したビットストリーム要素を含んでいてもよく、ID_EXT_ELE_HOA_ENH_LAYERのusacExtElementTypeを有していてもよい。本データ構造はさらに、上記で示したビットストリーム要素を含む、HOA構成設定拡張ペイロードおよび/またはHOAデコーダ構成設定ペイロードを含んでいてもよい。
本稿および図面は単に提案される方法および装置の原理を示すことを注意しておくべきである。よって、本稿で明示的に記述または図示されていなくても、本発明の原理を具現し、その精神および範囲内に含まれるさまざまな構成を当業者が考案できるであろうことは理解される。さらに、本稿に記載されるすべての例は、主として提案される方法および装置の原理および発明者によって当該技術の進歩に寄与される概念を理解することにおいて読者を助ける教育目的のためにのみ明確に意図されており、そのような個別的に記載される例および条件への限定なしに解釈される。さらに、本発明の原理、側面および実施形態を記載する本稿におけるあらゆる陳述ならびにその個別的な例は、その等価物を包含することが意図されている。
本稿に記載される方法および装置は、ソフトウェア、ファームウェアおよび/またはハードウェアとして実装されてもよい。ある種のコンポーネントはたとえばデジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントはたとえば、ハードウェアとしておよびまたは特定用途向け集積回路として実装されてもよい。記載される方法および装置において出てくる信号は、ランダムアクセスメモリまたは光記憶媒体のような媒体上に記憶されてもよく、電波ネットワーク、衛星ネットワーク、無線ネットワークまたは有線ネットワーク、たとえばインターネットのようなネットワークを介して転送されてもよい。
附属書:
提案されるMPEG-H 3Dビットストリームの変更
変更はグレーのハイライトでマークされる。
提案されるMPEG-H 3Dビットストリームの変更
変更はグレーのハイライトでマークされる。
注:SingleLayer==1であれば、NumLayers=1と設定する。
NumOfDirSigsPerLayer[lay] この要素は、HOA向上層layにおいて実際に使われる、現在のHOAFrame()中のアクティブな方向性信号の数を決定する。
AddHoaCoeffPerLayer[lay] この配列はHOA向上層layにおいて実際に使われるそれぞれの追加的な周囲音HOA係数についてのHOA係数インデックスを含む。
NumOfAddHoaChansPerLayer[lay] この要素は、HOA向上層layにおいて実際に使われる追加的な周囲音HOA係数の総数を信号伝達する。
このテーブルを追加。
このテーブルを更新。
HOALyaerChBits この要素はcodedLayerChを読むためのビット数を示す。
NumLayers この要素は(HOADecoderConfig()を読んだあと)ビットストリーム内の層の総数を示す。
NumHOAChannelsLayer この要素は、NumLayers個の要素からなる配列であり、i番目の要素はi番目の層までのすべての層に含まれるトランスポート信号の数を示す。
12.4.1.x フレームおよびユーザー依存パラメータ
MLAY(k) デコーダ側でのk番目のフレーム(後述)についてのすべての実際に使用される層の数。層構成符号化の場合(SingleLayer==0によって示される)、この数はビットストリームに存在している層の総数以下でなければならない。すなわち、MLAY≦NumLayersである。単一層符号化の場合(SingleLyaer==1によって示される)には、MLAYは1と設定される。
MLAY(k) デコーダ側でのk番目のフレーム(後述)についてのすべての実際に使用される層の数。層構成符号化の場合(SingleLayer==0によって示される)、この数はビットストリームに存在している層の総数以下でなければならない。すなわち、MLAY≦NumLayersである。単一層符号化の場合(SingleLyaer==1によって示される)には、MLAYは1と設定される。
MLAY(k)の選択に依存して、空間的なHOAデコードのために実際に使われる追加的な(すなわち、暗黙的に常に使われるOMIN個のチャネルに対して追加的な)トランスポート・チャネルの数IADD,LAY(k)は次のように計算される。
codedVVecLengthは下記を示す:
0)完全なベクトル長さ(NumOfHoaCoeffs個の要素)。優勢ベクトルについての係数すべて(NumOfHoaCoeffs個)が指定されることを示す。
1)ベクトル要素1ないしMinNumOfCoeffsForAmbHOAおよびインデックスlay=0…NumLayers-1の現在アクティブなレイヤーのContAddHoaCoeff[lay]において定義されているすべての要素は伝送されない。単一層モードSingleLayer==1については、変数NumLayersは1に等しく設定される必要がある。MinNumOfCoeffsForAmbHOAより大きな数に対応する優勢ベクトルの係数のみが指定されることを示す。さらに、ContAddAmbHoaChan[lay]において同定されているそれらNumOfContAddAmbHoaChan[lay]個の係数が引かれる。リストContAddAmbHoaChan[lay]はオーダーContAddAmbHoaChan[lay]を超えるオーダーに対応する追加的なチャネルを指定する。
2)ベクトル要素1ないしMinNumOfCoeffsForAmbHOAは伝送されない。MinNumOfCoeffsForAmbHOAより大きい数に対応する優勢ベクトルの係数が指定されることを意味する。
codedVVecLength==1の場合は、VVecLength[i]配列およびVVecCoeffId[i][m]の2D配列の両方がインデックスiのVベクトルについて有効である。他の場合には、VVecLength要素およびVVecCoeffId[m]配列はHOAフレーム内の全VVectorについて有効である。下記の割り当てアルゴリズムのために、ヘルパー関数が次のように定義される。
12.4.1.X VVec要素への変換
Vベクトルの量子化解除の種類は語NbitsQによって信号伝達される。NbitsQ値4はベクトル量子化を示す。NbitsQが5に等しいときは、一様な8ビット・スカラー量子化解除が実行される。対照的に、6以上のNbitsQ値は、スカラー量子化されたVベクトルのハフマン復号の適用を示す。予測モードはPFlagとして表わされ、一方、CbFlagはハフマン・テーブル情報ビットを表わす。
Vベクトルの量子化解除の種類は語NbitsQによって信号伝達される。NbitsQ値4はベクトル量子化を示す。NbitsQが5に等しいときは、一様な8ビット・スカラー量子化解除が実行される。対照的に、6以上のNbitsQ値は、スカラー量子化されたVベクトルのハフマン復号の適用を示す。予測モードはPFlagとして表わされ、一方、CbFlagはハフマン・テーブル情報ビットを表わす。
Claims (7)
- 音または音場の圧縮された高次アンビソニックス(HOA)表現をデコードする方法であって:
前記圧縮されたHOA表現を含むビットストリームを受領する段階であって、前記ビットストリームは基本層および一つまたは複数の階層式の向上層を含む複数の階層式の層を含む、段階と;
デコードのために前記複数の階層式の層のうちで最高の使用可能な層を判別する段階と;
パラメータCodedVVecLength=2であることを判別し、この判別に基づいて、ベクトル要素1ないしMinNumOfCoeffsForAmbHOAが伝送されず、MinNumOfCoeffsForAmbHOAより大きい数に対応する優勢ベクトルの係数の係数が指定されることを判別する段階であって、VVecCoeffId配列がMinNumOfCoeffsForAmbHOAに基づいて決定される、段階と;
前記最高の使用可能な層に割り当てられたHOA拡張ペイロードを抽出する段階であって、前記HOA拡張ペイロードは、前記最高の使用可能な層に対応する再構成されたHOA表現をパラメトリックに向上させるためのサイド情報を含み、前記最高の使用可能な層に対応する前記再構成されたHOA表現は前記最高の使用可能な層および前記最高の使用可能な層より低い任意の諸層に割り当てられたトランスポート信号に基づいている、段階と;
前記最高の使用可能な層に対応する前記圧縮されたHOA表現を、層情報および前記VVecCoeffId配列に基づいてデコードする段階であって、前記層情報はアクティブな向上層を示し、前記アクティブな向上層は、該アクティブな向上層の現在フレームにおけるいくつかのアクティブな方向性信号を決定するために使用できる、段階と;
前記最高の使用可能な層に割り当てられた前記HOA拡張ペイロードに含まれるサイド情報を使って、デコードされたHOA表現をパラメトリックに向上させる段階とを含む、
方法。 - 前記層情報は、空間的信号予測、サブバンド方向性信号合成およびパラメトリック周囲音複製デコーダのうちの少なくとも一つを含む向上情報を含む、請求項1記載の方法。
- ContAddHoaCoeffの集合に含まれる追加的なHOA係数のインデックスに等しいインデックスについて伝送されないvベクトル要素をさらに含む、請求項1記載の方法。
- 前記層情報は、NumLayers要素を含み、各要素はi番目の層までのすべての層に含まれるトランスポート信号の数を示す、請求項1記載の方法。
- 前記層情報は、k番目のフレームについて、すべての実際に使われる層のインジケータを含む、請求項1記載の方法。
- プロセッサ上で実行されるときに該プロセッサに請求項1記載の方法を実行させるコンピュータ実行可能コードを担持する非一時的な担体媒体。
- 音または音場の圧縮された高次アンビソニックス(HOA)表現をデコードする装置であって、当該装置は:
前記圧縮されたHOA表現を含むビットストリームを受領するよう構成された受領器であって、前記ビットストリームは、基本層および一つまたは複数の階層式の向上層を含む複数の階層式の層を含む、受領器と;
デコーダであって:
デコードのために前記複数の階層式の層のうちで最高の使用可能な層を判別する段階と;
パラメータCodedVVecLength=2であることを判別し、この判別に基づいて、ベクトル要素1ないしMinNumOfCoeffsForAmbHOAが伝送されず、MinNumOfCoeffsForAmbHOAより大きい数に対応する優勢ベクトルの係数の係数が指定されることを判別する段階であって、VVecCoeffId配列がMinNumOfCoeffsForAmbHOAに基づいて決定される、段階と;
前記最高の使用可能な層に割り当てられたHOA拡張ペイロードを抽出する段階であって、前記HOA拡張ペイロードは、前記最高の使用可能な層に対応する再構成されたHOA表現をパラメトリックに向上させるためのサイド情報を含み、前記最高の使用可能な層に対応する前記再構成されたHOA表現は前記最高の使用可能な層および前記最高の使用可能な層より低い任意の諸層に割り当てられたトランスポート信号に基づいている、段階と;
前記最高の使用可能な層に対応する前記圧縮されたHOA表現を、層情報および前記VVecCoeffId配列に基づいてデコードする段階であって、前記層情報はアクティブな向上層を示し、前記アクティブな向上層は、該アクティブな向上層の現在フレームにおけるいくつかのアクティブな方向性信号を決定するために使用できる、段階と;
前記最高の使用可能な層に割り当てられた前記HOA拡張ペイロードに含まれるサイド情報を使って、デコードされたHOA表現をパラメトリックに向上させる段階とを実行するよう構成されたデコーダとを有する、
装置。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP15306591 | 2015-10-08 | ||
EP15306591.7 | 2015-10-08 | ||
US201662361863P | 2016-07-13 | 2016-07-13 | |
US62/361,863 | 2016-07-13 | ||
JP2018517503A JP6866362B2 (ja) | 2015-10-08 | 2016-10-07 | 圧縮された高次アンビソニックス音または音場表現のための層構成の符号化およびデータ構造 |
JP2021065162A JP7258072B2 (ja) | 2015-10-08 | 2021-04-07 | 圧縮された高次アンビソニックス音または音場表現のための層構成の符号化およびデータ構造 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021065162A Division JP7258072B2 (ja) | 2015-10-08 | 2021-04-07 | 圧縮された高次アンビソニックス音または音場表現のための層構成の符号化およびデータ構造 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023082173A true JP2023082173A (ja) | 2023-06-13 |
JP7508633B2 JP7508633B2 (ja) | 2024-07-01 |
Family
ID=
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7258072B2 (ja) | 圧縮された高次アンビソニックス音または音場表現のための層構成の符号化およびデータ構造 | |
JP2022137278A (ja) | 圧縮された音または音場表現のための層構成の符号化 | |
JP2022160602A (ja) | 圧縮された音または音場表現のための層構成の符号化 | |
JP7110304B2 (ja) | 圧縮された音または音場表現のための層構成の符号化 | |
JP7122359B2 (ja) | 圧縮された音または音場表現のための層構成の符号化 | |
OA18601A (en) | Layered coding and data structure for compressed higher-order ambisonics sound or sound field representations. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230404 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240411 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240521 |