JP6542269B2 - 圧縮hoa表現をデコードする方法および装置ならびに圧縮hoa表現をエンコードする方法および装置 - Google Patents

圧縮hoa表現をデコードする方法および装置ならびに圧縮hoa表現をエンコードする方法および装置 Download PDF

Info

Publication number
JP6542269B2
JP6542269B2 JP2016573839A JP2016573839A JP6542269B2 JP 6542269 B2 JP6542269 B2 JP 6542269B2 JP 2016573839 A JP2016573839 A JP 2016573839A JP 2016573839 A JP2016573839 A JP 2016573839A JP 6542269 B2 JP6542269 B2 JP 6542269B2
Authority
JP
Japan
Prior art keywords
hoa
subband
representation
directions
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016573839A
Other languages
English (en)
Other versions
JP2017523451A (ja
JP2017523451A5 (ja
Inventor
クルーガー,アレクサンダー
コルドン,スヴェン
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2017523451A publication Critical patent/JP2017523451A/ja
Publication of JP2017523451A5 publication Critical patent/JP2017523451A5/ja
Application granted granted Critical
Publication of JP6542269B2 publication Critical patent/JP6542269B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、所与の数の係数シーケンスを有する入力HOA信号のフレームをエンコードする方法、HOA信号をデコードする方法、所与の数の係数シーケンスを有する入力HOA信号のフレームをエンコードする装置、HOA信号をデコードする装置に関する。
高次アンビソニックス(HOA: Higher Order Ambisonics)は、波面合成(WFS: wave field synthesis)または22.2として知られるもののようなチャネル・ベースのアプローチのような他の技法もあるうちでの、三次元音を表現するための一つの可能性を提供する。チャネル・ベースの方法とは対照的に、HOA表現は特定のスピーカー・セットアップとは独立であるという利点をもたらす。この柔軟性は、特定のスピーカー・セットアップでのHOA表現の再生のために必要とされるデコード・プロセスの代償を伴う。必要とされるスピーカーの数が通例非常に多いWFSアプローチに比べ、HOAは少数のスピーカーのみからなるセットアップにレンダリングされてもよい。HOAのさらなる利点は、同じ表現を、いかなる修正もなしでヘッドフォンへのバイノーラル・レンダリングのために用いることもできるということである。
HOAは、複素調和平面波振幅のいわゆる空間密度の、打ち切りされた球面調和関数(SH)展開による表現に基づく。各展開係数は角周波数の関数であり、これは時間領域関数によって等価に表現できる。よって、一般性を失うことなく、完全なHOA音場表現は、実際に、O個の時間領域関数からなると理解できる。ここで、Oは展開係数の数を表わす。これらの時間領域関数は、以下では、等価だが、HOA係数シーケンスまたはHOAチャネルと称される。
HOA表現の空間分解能は、展開の最大次数Nの増大とともに改善する。残念ながら、展開係数の数Oは次数Nとともに二次で、特にO=(N+1)2の形で増大する。たとえば、次数N=4を使う典型的なHOA表現はO=25個のHOA(展開)係数を必要とする。上記の考察によれば、HOA表現の伝送のための全ビットレートは、所望される単一チャネル・サンプリング・レートfSおよびサンプル当たりのビット数Nbを与えられて、O・fS・Nbによって決定される。結果として、たとえば次数N=4のHOA表現を、fS=48kHzのサンプリング・レートで、サンプル当たりNb=16ビットを用いて伝送することは、19.2MBits/sのビットレートにつながる。これは、たとえばストリーミングのような多くの実際的な用途にとって非常に高い。このように、HOA表現の圧縮がきわめて望ましい。
HOA音場表現の圧縮のためのさまざまな手法が特許文献4、5、6において提案されている。これらの手法は、音場解析を実行し、与えられたHOA表現を方向性成分(directional component)と残差周囲成分(residual ambient component)に分解することで共通している。一方では、最終的な圧縮された表現は、いくつかの量子化された信号を含み、該量子化された信号は、いわゆる方向性およびベクトル・ベースの信号と周囲HOA成分(ambient HOA component)の関連する係数シーケンスとの知覚的符号化から帰結する。他方では、最終的な圧縮された表現は、量子化された信号に関係する追加的なサイド情報を含む。このサイド情報は、HOA表現の、その圧縮されたバージョンからの再構成のために必要である。
欧州特許出願第13305558.2号。Alexander Krueger and Sven Kordon. Intelligent signal extraction and packing for compression of HOA sound field representations.(Technicolor Internal Reference: PD130015), filed 29. April 2013 欧州特許出願公開第2743922号。A. Krueger, S. Kordon, and J. Boehm. HOA compression by decomposition into directional and ambient components. (Technicolor Internal Reference: PD120055), December 2012 欧州特許出願公開第2665208号。Alexander Krueger, Sven Kordon, Johannes Boehm, and Jan-Mark Batke. Method and apparatus for compressing and decompressing a higher order ambisonics signal representation. (Technicolor Internal Reference: PD120015), May 2012 欧州特許出願公開第2738962号。Alexander Krueger. Method and apparatus for robust sound source direction tracking based on Higher Order Ambisonics. (Technicolor Internal Reference: PD120049), November 2012
J´er^ome Daniel. Repr´esentation de champs acoustiques, application `a la transmission et `a la reproduction de sc`enes sonores complexes dans un contexte multim´edia. PhD thesis, Universit´e Paris 6, 2001 J¨org Fliege and Ulrike Maier. A two-stage approach for computing cubature formulae for the sphere. Technical report, Fachbereich Mathematik, Universit¨at Dortmund, 1999. ノード数はhttp://www.mathematik.uni-dortmund.de/lsx/research/projects/fliege/nodes/nodes.htmlにある。 Sven Kordon and Alexander Krueger. Adaptive value range control for HOA signals. Patent application (Technicolor Internal Reference: PD130016), July 2013 Daniel D. Lee and H. Sebastian Seung. Learning the parts of objects by nonnegative matrix factorization. Nature, 401:788-791, 1999 ISO/IEC JTC 1/SC 29 N. Text of ISO/IEC 23008-3/CD, MPEG-H 3d audio, April 2014 Boaz Rafaely. Plane-wave decomposition of the sound field on a sphere by spherical convolution. J. Acoust. Soc. Am., 4(116):2149-2157, October 2004 Earl G. Williams. Fourier Acoustics, volume 93 of Applied Mathematical Sciences. Academic Press, 1999
特許文献4、5、6についての量子化された信号の合理的な最小数は8である。よって、これらの方法の一つでのデータ・レートは、個々の知覚的符号化器について32kbit/sのデータ・レートを想定すると、典型的には256kbit/sより低くはない。たとえばモバイル装置へのオーディオ・ストリーミングのようなある種の用途のためには、この全データ・レートは高すぎることがありうる。よって、たとえば128kbit/sのような顕著により低いデータ・レートに対処するHOA圧縮方法に対する需要がある。
音場の高次アンビソニックス(HOA)表現の低ビットレート圧縮のための新たな方法および装置が開示される。
音場のHOA表現のための低ビットレート圧縮方法の一つの主要な側面は、HOA表現を複数の周波数サブバンドに分解し、各周波数サブバンド(すなわちサブバンド)内の係数を、打ち切りされたHOA表現と、いくつかの予測された方向性サブバンド信号に基づく表現との組み合わせによって近似することである。
打ち切りされたHOA表現は少数の選択された係数シーケンスを含む。ここで、選択は時間とともに変わることが許容される。たとえば、フレーム毎に新たな選択がなされる。打ち切りされたHOA表現を表わす選択された係数シーケンスは知覚的に符号化され、最終的な圧縮されたHOA表現の一部となる。ある実施形態では、符号化効率を高め、レンダリングにおけるノイズ・マスキング解除(noise unmasking)の効果を低減するために、それらの選択された係数シーケンスは知覚的符号化の前に脱相関される。それらの選択されたHOA係数シーケンスのうちの所定数に対して空間的変換を適用することによって、部分的脱相関が達成される。圧縮解除のためには、脱相関は、再相関によって反転される。そのような部分的脱相関の大いなる利点は、圧縮解除に際して脱相関を反転させるために追加のサイド情報が必要とされないことである。
近似されたHOA表現の他方の成分は、対応する方向をもついくつかの方向性サブバンド信号によって表現される。これらは、打ち切りされたHOA表現の係数シーケンスからの予測を含むパラメトリック表現によって符号化される。ある実施形態では、それぞれの方向性サブバンド信号が、打ち切りされたHOA表現の係数シーケンスのスケーリングされた和によって予測(または表現)される。ここで、スケーリングは、一般的には複素数値である。圧縮解除のために方向性サブバンド信号のHOA表現を再合成することができるために、圧縮された表現は、方向の量子化されたバージョンとともに複素数値の予測スケーリング因子の量子化されたバージョンを含む。
ある実施形態では、所与の数の係数シーケンスを有する入力HOA信号のフレームをエンコードする(そしてそれにより圧縮する)方法であって、各係数シーケンスはインデックスをもつ、方法が、
打ち切りされたHOA表現に含まれるべきアクティブな係数シーケンスのインデックスの集合IC,ACT(k)を決定する段階と;
低減された数の0でない係数シーケンス(すなわち、入力HOA信号より少ない0でない係数シーケンス、よってより多くの0の係数シーケンス)をもつ打ち切りされたHOA表現CT(k)を計算する段階と;
前記入力HOA信号から、候補方向の第一の集合MDIR(k)を推定する段階と;
前記入力HOA信号を複数の周波数サブバンドに分割する段階であって、それらの周波数サブバンドの係数シーケンス
Figure 0006542269
が得られる、段階と;
各周波数サブバンドについて、方向の第二の集合MDIR(k,f1),…,MDIR(k,fF)を推定する段階であって、方向の前記第二の集合の各要素は第一および第二のインデックスをもつインデックスのタプルであり、前記第二のインデックスは現在の周波数サブバンドについてのアクティブな方向のインデックスであり、前記第一のインデックスは該アクティブな方向の軌跡インデックスであり、各アクティブな方向は前記入力HOA信号の候補方向の前記第一の集合MDIR(k)にも含まれるものであり(すなわち、方向の前記第二の集合におけるアクティブなサブバンド方向は、フルバンド方向の前記第一の集合のサブセット)、
各周波数サブバンドについて、その周波数サブバンドの係数シーケンス
Figure 0006542269
からそれぞれの周波数サブバンドの方向の前記第二の集合MDIR(k,f1),…,MDIR(k,fF)に従って、方向性サブバンド信号
Figure 0006542269
を計算する段階と;
各周波数サブバンドについて、それぞれの周波数サブバンドのアクティブな係数シーケンスのインデックスの前記集合IC,ACT(k)を使ってその周波数サブバンドの係数シーケンス
Figure 0006542269
から方向性サブバンド信号
Figure 0006542269
を予測するよう適応された予測行列A(k,f1),…,A(k,fF)を計算する段階と;
候補方向の前記第一の集合MDIR(k)、方向の前記第二の集合MDIR(k,f1),…,MDIR(k,fF)、前記予測行列A(k,f1),…,A(k,fF)および前記打ち切りされたHOA表現CT(k)をエンコードする段階とを含む。
方向の前記第二の集合は周波数サブバンドに関係する。候補方向の前記第一の集合はフル周波数帯域に関係する。有利なことに、サブバンド方向の前記第二の集合はフルバンド方向の前記第一の集合の部分集合なので、各周波数サブバンドについて方向の第二の集合を推定する段階において、周波数サブバンドの方向MDIR(k,f1)、…、MDIR(k,fF)は、フルバンドHOA信号の方向MDIR(k)のうちでのみ探索すればよい。ある実施形態では、各タプル内での前記第一および第二のインデックスの逐次順は入れ替えられてもよい。すなわち、前記第一のインデックスが現在の周波数サブバンドについてのアクティブな方向のインデックスとなり、前記第二のインデックスが前記アクティブな方向についての軌跡インデックスとなる。
完備なHOA信号は、複数の係数シーケンスまたは係数チャネルを含む。これらの係数シーケンスのうちの一つまたは複数が0に設定されているHOA信号は、本稿では打ち切りされたHOA表現と呼ばれる。打ち切りされたHOA表現を計算または生成することは、一般には、0に設定されるまたはされない係数シーケンスの選択を含む。この選択は、さまざまな基準に従って、たとえば、0に設定されない係数シーケンスとして、最大エネルギーを含む係数シーケンスまたは知覚的に最も有意である係数シーケンスを選択することによって、あるいは任意に係数シーケンスを選択することなどによって、できる。HOA信号を周波数サブバンドに分割することは、たとえば直交ミラー・フィルタ(QMF)を含む分解フィルタバンクによって実行されることができる。
ある実施形態では、打ち切りされたHOA表現CT(k)のエンコードは、打ち切りされたHOAチャネル・シーケンスの部分的な脱相関と、(相関したまたは脱相関された)打ち切りされたHOAチャネル・シーケンスy1(k),…,yI(k)をトランスポート・チャネルに割り当てるためのチャネル割り当てと、前記トランスポート・チャネルのそれぞれに対して利得制御を実行する段階であって、各トランスポート・チャネルについての利得制御サイド情報ei(k−1)、βi(k−1)が生成される、段階と、知覚的エンコーダにおいて、利得制御された打ち切りされたHOAチャネル・シーケンスz1(k),…,zI(k)をエンコードする段階と、前記利得制御サイド情報ei(k−1)、βi(k−1)、候補方向の前記第一の集合MDIR(k)、方向の前記第二の集合MDIR(k,f1)、…、MDIR(k,fF)および前記予測行列A(k,f1),…,A(k,fF)をサイド情報源符号化器においてエンコードする段階と、前記知覚的エンコーダおよび前記サイド情報源符号化器の出力を多重化して、エンコードされたHOA信号フレーム
Figure 0006542269
を得る段階とを含む。
ある実施形態では、コンピュータ可読媒体が、入力HOA信号のフレームをエンコードまたは圧縮するための前記方法をコンピュータに実行させるための実行可能命令を記憶している。
ある実施形態では、所与の数の係数シーケンスを有する入力HOA信号のフレームをフレームごとにエンコードする(そしてそれにより圧縮する)ための装置であって、各係数シーケンスがインデックスをもつ、装置が、プロセッサと、該プロセッサ上で実行されたときに、入力HOA信号のフレームをエンコードまたは圧縮するための上述した方法の段階を実行するソフトウェア・プログラムのためのメモリとを有する。
さらに、ある実施形態では、圧縮されたHOA表現をデコードする(そしてそれにより圧縮解除する)ための方法が、
前記圧縮されたHOA表現から、複数の打ち切りされたHOA係数シーケンス
Figure 0006542269
前記打ち切りされたHOA係数シーケンスのシーケンス・インデックスを示す(または含む)割り当てベクトルvAMB,ASSIGN(k)、サブバンドに関係した方向情報MDIR(k+1,f1),…,MDIR(k+1,fF)、複数の予測行列A(k+1,f1),…,A(k+1,fF)および利得制御サイド情報e1(k),β1(k),…,eI(k),βI(k)を抽出する段階と;
前記複数の打ち切りされたHOA係数シーケンス
Figure 0006542269
前記利得制御サイド情報e1(k),β1(k),…,eI(k),βI(k)および前記割り当てベクトルvAMB,ASSIGN(k)から打ち切りされたHOA表現
Figure 0006542269
を再構成する段階と;
分解フィルタバンクにおいて、前記再構成された打ち切りされたHOA表現
Figure 0006542269
を複数F個の周波数サブバンドについての周波数サブバンド表現
Figure 0006542269
に分解する段階と;
各周波数サブバンド表現について方向性サブバンド合成ブロックにおいて、前記再構成された打ち切りされたHOA表現の前記それぞれの周波数サブバンド表現
Figure 0006542269
と、前記サブバンドに関係した方向情報MDIR(k+1,f1),…,MDIR(k+1,fF)と、前記予測行列A(k+1,f1),…,A(k+1,fF)とから、予測された方向性HOA表現
Figure 0006542269
を合成する段階と;
前記F個の周波数サブバンドのそれぞれについてサブバンド組成ブロックにおいて、係数シーケンス
Figure 0006542269
をもつデコードされたサブバンドHOA表現
Figure 0006542269
を組成する段階であって、該係数シーケンスは、該係数シーケンスが前記割り当てベクトルvAMB,ASSIGN(k)に含まれる(すなわちその要素である)インデックスnをもつ場合には前記打ち切りされたHOA表現
Figure 0006542269
の係数シーケンスから得られ、それ以外の場合には前記方向性サブバンド合成ブロックの一つによって与えられる前記予測された方向性HOA成分
Figure 0006542269
の係数シーケンスから得られる、段階と;
合成フィルタバンクにおいて、前記デコードされたサブバンドHOA表現
Figure 0006542269
を合成して、デコードされたHOA表現
Figure 0006542269
を得る段階とを含む。
ある実施形態では、前記抽出する段階は、前記圧縮されたHOA表現を多重分離して、知覚的に符号化された部分とエンコードされたサイド情報部分とを取得することを含む。ある実施形態では、知覚的に符号化された部分は、知覚的にエンコードされた打ち切りされたHOA係数シーケンス
Figure 0006542269
を含み、前記抽出する段階は、知覚的デコーダにおいて、知覚的にエンコードされた打ち切りされたHOA係数シーケンス
Figure 0006542269
をデコードして前記打ち切りされたHOA係数シーケンス
Figure 0006542269
を得ることを含む。ある実施形態では、前記抽出する段階は、サイド情報源デコーダにおいて、前記エンコードされたサイド情報部分をデコードして、前記サブバンド関係方向MDIR(k+1,f1),…,MDIR(k+1,fF)、予測行列A(k+1,f1),…,A(k+1,fF)、利得制御サイド情報e1(k),β1(k),…,eI(k),βI(k)および割り当てベクトルvAMB,ASSIGN(k)を得ることを含む。
ある実施形態では、コンピュータ可読媒体が、優勢な方向性信号の方向のデコードのための前記方法をコンピュータに実行させるための実行可能命令を記憶している。
ある実施形態では、圧縮されたHOA表現をフレームごとにデコードする(そしてそれにより圧縮解除する)ための装置が、プロセッサと、該プロセッサ上で実行されたときに、入力HOA信号のフレームをデコードまたは圧縮解除するための上述した方法の段階を実行するソフトウェア・プログラムのためのメモリとを有する。
ある実施形態では、HOA信号をデコードする装置が、デコードされるべきHOA信号表現についての最大数の方向Dのインデックスを受領するよう構成された第一モジュールと、デコードされるべきHOA信号表現の最大数の方向Dの方向を再構成するよう構成された第二モジュールと、サブバンド毎にアクティブな方向性信号のインデックスを受領するよう構成された第三モジュールと、デコードされるべきHOA信号表現のそれらの再構成された方向Dからサブバンド毎にアクティブな方向性信号を再構成するよう構成された第四モジュールと、諸サブバンドの諸方向性信号を予測するよう構成された第五モジュールとを有し、あるサブバンドの現在フレームにおける方向性信号の前記予測は、そのサブバンドの先行フレームの諸方向性信号を決定することを含み、その方向性信号のインデックスが前記先行フレームにおいて0であり、現在フレームにおいて0でなければ、新たな方向性信号が生成され、その方向性信号のインデックスが前記先行フレームにおいて0でなく、現在フレームにおいて0であれば、前の方向性信号が取り消され、その方向性信号のインデックスが第一の方向から第二の方向に変わる場合には、方向性信号の方向は前記第一の方向から前記第二の方向に動かされる。
サブバンドは一般に、複素数値のフィルタバンクから得られる。前記割り当てベクトルの一つの目的は、送信/受信される、よって打ち切りされたHOA表現に含まれる係数シーケンスのシーケンス・インデックスを示し、それによりこれらの係数シーケンスの最終的なHOA信号への割り当てを可能にすることである。換言すれば、割り当てベクトルは、打ち切りされたHOA表現の各係数シーケンスについて、それが最終的なHOA信号におけるどの係数シーケンスに対応するかを示す。たとえば、打ち切りされたHOA表現が四つの係数シーケンスを含み、最終的なHOA信号が九つの係数シーケンスをもつ場合、割り当てベクトルは(原理的に)[1,2,5,7]であってもよい。これにより、打ち切りされたHOA表現の第一、第二、第三および第四の係数シーケンスが実際には最終的なHOA信号における第一、第二、第五および第七の係数シーケンスであることを示す。
本発明のさらなる目的、特徴および利点は、添付の図面との関連で参酌されるときの以下の記述および付属の請求項を考慮することから明白となるであろう。
本発明の例示的実施形態が、付属の図面を参照して記述される。
空間的HOAエンコーダのアーキテクチャを示す図である。 方向推定ブロックのアーキテクチャを示す図である。 知覚的サイド情報源エンコーダを示す図である。 知覚的サイド情報源デコーダを示す図である。 空間的HOAデコーダのアーキテクチャを示す図である。 球面座標系を示す図である。 方向推定処理ブロックを示す図である。 打ち切りされたHOA表現の方向、軌跡インデックス集合および係数を示す図である。 MPEGにおいて使われる通常のオーディオ・エンコーダである。 MPEGにおいて使用できる改善されたオーディオ・エンコーダである。 MPEGにおいて使われる通常のオーディオ・デコーダである。 MPEGにおいて使用できる改善されたオーディオ・デコーダである。 エンコード方法のフローチャートである。 デコード方法のフローチャートである。
音場のHOA表現のための提案される低ビットレート圧縮方法の一つの主要な発想は、もとのHOA表現をフレームごとおよび周波数サブバンドごとに、すなわち各HOAフレームの個々の周波数サブバンド内で、二つの部分の組み合わせによって近似するということである。二つの部分とは、打ち切りされたHOA表現と、いくつかの予測された方向性サブバンド信号に基づく表現である。HOAの基本の概要を下記でさらに与えておく。
近似されたHOA表現の第一の部分は、少数の選択された係数シーケンスからなる打ち切りされたHOAバージョンであり、該選択は時間とともに(たとえばフレーム毎に)変わることが許容される。打ち切りされたHOAバージョンを表わすための選択されたそれらの係数シーケンスは、次いで、知覚的に符号化され、最終的な圧縮されたHOA表現の一部となる。符号化効率を高め、レンダリングにおけるノイズ・マスキング解除(noise unmasking)の効果を低減するために、それらの選択された係数シーケンスを、知覚的符号化の前に脱相関することが有利である。それらの選択されたHOA係数シーケンスのうちの所定数に対して空間的変換、つまり所与の数の仮想スピーカー信号へのレンダリングを適用することによって、部分的脱相関が達成される。かかる部分的脱相関の大いなる利点は、圧縮解除に際して脱相関を反転させるために追加のサイド情報が必要とされないことである。
近似されたHOA表現の第二の部分は、対応する方向をもついくつかの方向性サブバンド信号によって表現される。しかしながら、これらは従来は符号化されない。その代わり、これらは前記第一の部分、すなわち打ち切りされたHOA表現の係数シーケンスからの予測によってパラメトリック表現として符号化される。具体的には、各方向性サブバンド信号は、打ち切りされたHOA表現の係数シーケンスのスケーリングされた和によって予測される。ここで、スケーリングは一般的には複素数値である。両方の部分が合わさって、HOA信号の圧縮された表現をなし、よって低ビットレートを達成する。圧縮解除のために方向性サブバンド信号のHOA表現を再合成することができるために、圧縮された表現は、方向の量子化されたバージョンとともに複素数値の予測スケーリング因子の量子化されたバージョンを含む。
このコンテキストにおいて特に重要な側面は、方向および複素数値の予測スケーリング因子の計算ならびにいかにしてそれらを効率的に符号化するかである。
低ビットレートHOA圧縮
提案される低ビットレートHOA圧縮のために、低ビットレートHOA圧縮器は空間的HOAエンコード部と、知覚的および源エンコード部とに細分されることができる。空間的HOAエンコード部の例示的なアーキテクチャが図1に示されており、知覚的および源エンコード部の例示的なアーキテクチャが図3に示されている。空間的HOAエンコーダ10は、I個の信号を含む第一の圧縮されたHOA表現を、そのHOA表現をどのように生成するかを記述するサイド情報とともに提供する。知覚的およびサイド情報源符号化器30では、これらI個の信号が知覚的符号化器31において知覚的にエンコードされ、サイド情報はサイド情報源符号化器32における源エンコードにかけられる。サイド情報源符号化器32は、符号化されたサイド情報
Figure 0006542269
を提供する。次いで、知覚的符号化器31およびサイド情報源符号化器32によって提供された二つの符号化された表現は、マルチプレクサ33において多重化されて、低ビットレートの圧縮されたHOAデータ・ストリーム
Figure 0006542269
が得られる。
空間的HOAエンコード
図1に示される空間的HOAエンコーダは、フレームごとの処理を実行する。フレームはO個の時間連続的なHOA係数シーケンスの諸部分として定義される。たとえば、エンコードされるべき入力HOA表現のk番目のフレームC(k)は、時間連続的なHOA係数シーケンスのベクトルc(t)(式(46)参照)に関して次のように定義される。
Figure 0006542269
ここで、kはフレーム・インデックスを表わし、Lはフレーム長(サンプル単位)を表わし、O=(N+1)2はHOA係数シーケンスの数を表わし、TSはサンプリング周期を表わす。
打ち切りされたHOA表現の計算
図1に示されるように、打ち切りされたHOA表現の計算における第一段階は、もとのHOAフレームC(k)から、打ち切りされたバージョンCT(k)を計算する(11)ことを含む。このコンテキストにおける打ち切りとは、入力HOA表現のO個の係数シーケンスのうちI個の特定の係数シーケンスを選択し、他のすべての係数シーケンスを0に設定することを意味する。係数シーケンスの選択のためのさまざまな解決策が、特許文献4、5、6から知られている。たとえば、最大のパワーまたは人間の知覚に関して最高の有意性をもつものの選択である。選択された係数シーケンスは、打ち切りされたHOAバージョンを表わす。選択された係数シーケンスのインデックスを含むデータ・セットIC,ACT(k)が生成される。次いで、のちにさらに述べるように、打ち切りされたHOAバージョンCT(k)は部分的に脱相関され(12)、部分的に脱相関された打ち切りされたHOAバージョンCI(k)はチャネル割り当て13を受ける。ここで、選ばれた係数シーケンスが、利用可能なI個のトランスポート・チャネルに割り当てられる。のちにさらに述べるように、これらの係数シーケンスは、次いで知覚的にエンコードされ(30)、最終的に、圧縮された表現の一部になる。チャネル割り当て後に知覚的エンコードのためのなめらかな信号を得るために、k番目のフレームでは選択されているがk+1番目のフレームでは選択されていない係数シーケンスが判別される。あるフレームでは選択されるが次のフレームでは選択されなくなる係数シーケンスは、フェードアウトされる。それらのインデックスは、データ・セットIC,ACT(k)の部分集合であるデータ・セットIC,ACT,OUT(k)に含まれる。同様に、k番目のフレームでは選択されるがk−1番目のフレームでは選択されていなかった係数シーケンスは、フェードインされる。それらのインデックスは、やはりデータ・セットIC,ACT(k)の部分集合であるデータ・セットIC,ACT,IN(k)に含まれる。フェードのためには、窓関数wOA(l)、l=1,…,2L(のちにたとえば式(39)で導入されるようなもの)が使われてもよい。
ひっくるめると、打ち切りされたバージョンCT(k)のHOAフレームkがO個の個々の係数シーケンス・フレームのL個のサンプルから
Figure 0006542269
によって構成されるとすると、打ち切りは、係数シーケンス・インデックスn=1,…,Oおよびサンプル・インデックスl=1,…,Lについて、
Figure 0006542269
によって表現されることができる。
係数シーケンスの選択のための基準についてはいくつかの可能性がある。たとえば、一つの有利な解決策は、信号パワーの大半を表わす係数シーケンスを選択することである。もう一つの有利な解決策は、人間の知覚に関して最も有意な係数シーケンスを選択することである。後者の場合、有意性は、たとえば、異なる仕方で打ち切りされた表現を仮想スピーカー信号にレンダリングし、それらの信号ともとのHOA表現に対応する仮想スピーカー信号との間の誤差を決定し、最後に、音マスキング効果を考慮しつつ誤差の有意性を解釈することによって、決定されてもよい。
集合IC,ACT(k)内のインデックスを選択するための合理的な戦略は、ある実施形態では、常に最初のOMIN個のインデックス1,…,OMINを選択するというものである。ここで、OMIN=(NMIN+1)2≦Iであり、NMINは、打ち切りされたHOA表現の所与の最小フル次数を表わす。次いで、上述した基準のうちの一つに従って集合{OMIN+1,…,OMAX}の残りI−OMIN個のインデックスを選択する。ここで、OMAX=(NMAX+1)2≦Oであり、NMAXは、選択のために考慮されるHOA係数シーケンスの最大次数を表わす。OMAXはサンプル当たりの転送可能な係数の最大数であり、これは係数の総数O以下であることを注意しておく。この戦略によれば、打ち切り処理ブロック11は、いわゆる割り当てベクトル
Figure 0006542269
をも提供する。該割り当てベクトルの要素vA,i(k)、i=1,…,I−OMIN
Figure 0006542269
に従って設定される。ここで、n(ただしn≧OMIN+1)は、のちにi番目のトランスポート信号yi(k)に割り当てられる、C(k)の追加的に選択されたHOA係数シーケンスのHOA係数シーケンス・インデックスを表わす。yi(k)の定義は下記の式(10)において与えられる。よって、CT(k)の最初のOMIN行は、デフォルトにより、HOA係数シーケンス1,…,OMINを含み、CT(k)の続くO−OMIN個の(またはO=OMAXならOMAX−OMIN個の)行のうち、割り当てベクトルvA(k)にインデックスが格納されている、フレームごとに変化するHOA係数シーケンスを含むI−OMIN個の行がある。最後に、CT(k)の残りの行は0を含む。結果として、後述するように、利用可能なI個のトランスポート信号のうち最初の(または式(10)のように最後の)OMIN個はデフォルトによりHOA係数シーケンス1,…,OMINに割り当てられ、残りのI−OMIN個のトランスポート信号は、割り当てベクトルvA(k)にインデックスが格納されている、フレームごとに変化するHOA係数シーケンスに割り当てられる。
部分的脱相関
第二段階では、その後の知覚的エンコードの効率を高めるとともに、レンダリングにおける選択されたHOA係数シーケンスの行列処理後に生じる符号化ノイズ・マスキング解除を避けるために、選択されたHOA係数シーケンスの部分的脱相関12が実行される。例示的な部分的脱相関12は、最初のOMIN個の選択されたHOA係数シーケンスに空間的変換を適用することによって達成される。これは、OMIN個の仮想スピーカー信号へのレンダリングを意味する。それぞれの仮想スピーカー位置は、図6に示される球面座標系によって表わされる。ここで、各位置は単位球上にある、すなわち動径1をもつと想定される。よって、これらの位置は等価に方向Ωj=(θjj)によって表わされることができる。ここで、1≦j≦OMINであり、θjおよびφjはそれぞれ傾斜角および方位角を表わす(球面座標系の定義については下記参照)。これらの方向は、単位球上にできるだけ一様に分散されるべきである(個別的な方法の計算についてはたとえば非特許文献2を参照)。HOAは一般にNMINに依存して方向を定義するので、本稿でΩjが書かれているところでは実際にはΩj (NMIN)が意図されることを注意しておく。
以下では、すべての仮想スピーカー信号のフレームは
Figure 0006542269
によって表わされる。ここで、wj(k)はj番目の仮想スピーカー信号のk番目のフレームを表わす。さらに、ΨMINは仮想スピーカー方向Ωjに関するモード行列を表わす。ここで、1≦j≦ΩMINである。モード行列は次式によって定義される。
Figure 0006542269
ここで、
Figure 0006542269
は仮想方向Ωiに関するモード・ベクトルを示す。その要素Sn m(・)のそれぞれは、のちに定義する(式(48)参照)実数値の球面調和関数を表わす。この記法を使うと、レンダリング・プロセスは次の行列乗算によって定式化できる。
Figure 0006542269
よって、部分的脱相関12の出力である中間表現CI(k)の信号は
Figure 0006542269
によって与えられる。
チャネル割り当て
中間表現CI(k)のフレームを計算したのち、その個々の信号cI,n(k)(ここでn∈IC,ACT(k))は、利用可能なI個のチャネルに割り当てられて(13)、知覚的エンコードのためのトランスポート信号yi(k)、i=1,…,Iを与える。割り当て13の一つの目的は、相続くフレームの間で選択が変化する場合に起こりうる、知覚的にエンコードされるべき信号の不連続を避けることである。割り当ては、
Figure 0006542269
によって表わすことができる。
利得制御
トランスポート信号yi(k)のそれぞれは、利得制御ユニット14によって最終的に処理される。ここで、信号利得は、知覚的エンコーダに好適な値範囲を達成するためになめらかに修正される。利得修正は、相続くブロックの間での深刻な利得変化を避けるために、一種の先読みを必要とし、よって一フレームの遅延を導入する。各トランスポート信号yi(k)について、利得制御ユニット14は、遅延されたフレームyi(k−1)、i=1,…,Iを受領または生成する。利得制御後の修正された信号フレームは、zi(k−1)、i=1,…,Iと表わされる。さらに、何らかの修正がなされた場合に空間的デコーダにおいて反転できるために、利得制御サイド情報が提供される。利得制御サイド情報は、指数ei(k−1)および例外フラグβi(k−1)、i=1,…,Iを含む。利得制御のより詳細な説明については、たとえば非特許文献9、C.5.2.5節または非特許文献3で得られる。このように、打ち切りされたHOAバージョン19は、利得制御された信号フレームzi(k−1)および利得制御サイド情報ei(k−1)、βi(k−1)、i=1,…,Iを含む。
分解フィルタバンク
上述したように、近似されたHOA表現は二つの部分から構成される。すなわち、打ち切りされたHOAバージョン19と、打ち切りされたHOA表現の係数シーケンスから予測される、対応する方向をもつ方向性のサブバンド信号によって表わされる成分とである。よって、第二の部分のパラメトリック表現を計算するために、もとのHOA表現の個々の係数シーケンスの各フレームcn(k)、n=1,…,Oがまず個々のサブバンド信号
Figure 0006542269
のフレームに分解される。これは、一つまたは複数の分解フィルタバンク15においてなされる。各サブバンドfj、j=1,…,Fについて、個々のHOA係数シーケンスのサブバンド信号のフレームがサブバンドHOA表現
Figure 0006542269
にまとめられてもよい。分解フィルタバンク15は、方向性サブバンド信号計算のために、このサブバンドHOA表現を方向推定処理ブロック16および一つまたは複数の計算ブロック17に与える。
原理的には、任意の型のフィルタ(すなわち、任意の複素数値のフィルタバンク、たとえばQMF、FFT)が分解フィルタバンク15において使用されうる。分解フィルタバンクと対応する合成フィルタバンクの相続く適用が遅延された恒等関数を与えることは要求されない。そのような恒等関数を与える性質は完璧再構成属性として知られるものである。HOA係数シーケンスcn(k)とは対照的に、それらのサブバンド表現
Figure 0006542269
は一般には複素数値である。さらに、これらのサブバンド信号
Figure 0006542269
は一般に、もとの時間領域信号に比べて時間的に間引きされている。結果として、フレーム
Figure 0006542269
内のサンプル数は通例、時間領域信号フレームcn(k)内のサンプル数(これはL)より顕著に少ない。
ある実施形態では、処理を人間の聴覚系の属性によりよく適合させるために、二つ以上のサブバンド信号がサブバンド信号グループに組み合わされる。各グループの帯域幅は、そのサブバンド信号の数によって、たとえばよく知られたバーク尺度に適合されることができる。すなわち、特に高周波では、二つ以上のグループが一つに組み合わされることができる。この場合、各サブバンド・グループが一組のHOA係数シーケンス
Figure 0006542269
からなり、抽出されるパラメータの数は単一のサブバンドについてと同じであることを注意しておく。ある実施形態では、グループ化は、分解フィルタバンク・ブロック15に組み込まれてもよい一つまたは複数のサブバンド信号グループ化ユニット(明示的には図示していない)において実行される。
方向推定
方向推定処理ブロック16は、入力HOA表現を解析し、各周波数サブバンドfj、j=1,…,Fについて、音場に主要な寄与を加えるサブバンド一般平面波関数の方向の集合MDIR(k,fj)を計算する。このコンテキストにおいて、「主要な寄与」という用語は、信号パワーが他の方向から入射するサブバンド一般平面波の信号パワーより高いことを指しうる。また、人間の知覚に関して高い有意性を指すこともある。サブバンド・グループ化が使われる場合には、MDIR(k,fj)の計算のために、単一のサブバンドの代わりに、サブバンド・グループが使われることもできることを注意しておく。
圧縮解除の間、相続くフレームの間での推定される方向および予測係数の変化のため、予測される方向性サブバンド信号におけるアーチファクトが生じることがある。そのようなアーチファクトを避けるためには、エンコードの間の方向推定および方向性サブバンド信号の予測は、連結された長フレームに対して実行される。連結された長フレームは、現在フレームおよびその先行フレームからなる。圧縮解除のためには、これらの長フレームに対して推定された量は、予測された方向性のサブバンド信号を用いた重複加算処理を実行するために使われる。
方向推定のための素直なアプローチは、各サブバンドを別個に扱うことであろう。方向探索のために、ある実施形態では、たとえば特許文献7において提案される技法が適用されてもよい。このアプローチは、個々の各サブバンドについて、方向推定値のなめらかな時間的軌跡を提供し、急峻な方向変化または開始を捕捉できる。しかしながら、この既知のアプローチには二つの欠点がある。第一に、各サブバンドにおける独立した方向推定は、フルバンドの一般平面波(たとえばある方向からの過渡的なドラム・ビート)が存在する場合に、個々のサブバンド方向における推定誤差が、足し合わせても単一の方向からの所望されるフルバンド・バージョンにならない種々の方向からのサブバンド一般平面波につながりうるという、望まれない効果につながることがありうる。特に、ある諸方向からの過渡信号がぼかされる。
第二に、低ビットレート圧縮を得るという意図を考えると、サイド情報から帰結する全ビットレートを念頭に置く必要がある。以下では、そのような素朴なアプローチのためのビットレートがかなり高くなることを例によって示す。例示的に、サブバンドの数Fは10であると想定され、各サブバンドについての方向の数(これは各集合MDIR(k,fj)における要素の数に対応する)は4であると想定される。さらに、非特許文献9で提案されているように、各サブバンドについて、Q=900個の潜在的な方向候補の格子上で探索を実行するとする。これは、単一の方向の単純な符号化のために┌log2(Q)┐=10ビットを要求する。毎秒約50フレームのフレーム・レートを想定すると、結果として得られる全体的なデータ・レートは、方向の符号化された表現だけのために、
(10ビット/方向)・(4方向/帯域)・(10帯域/フレーム)・(50フレーム/秒)=20kbit/s
となる。たとえ毎秒25フレームのフレーム・レートを想定するとしても、結果として得られるデータ・レート10kbit/sはまだかなり高い。
改善として、ある実施形態では、方向推定ブロック20において、方向推定のための以下の方法が使われる。一般的な発想は図2に示されている。第一段階では、フルバンド方向推定ブロック21が、Q個の試験方向ΩTEST,q、q=1,…,Qからなる方向格子上で、連結された長フレーム
Figure 0006542269
を使って、予備的なフルバンド方向推定または探索を実行する。ここで、C(k)およびC(k−1)はフルバンドのもとのHOA表現の現在および前の入力フレームである。この方向探索は、D(k)≦D個の方向候補ΩCAND,d(k)、d=1,…,D(k)を提供し、これらが集合MDIR(k)に含まれる。すなわち、
MDIR(k)={ΩCAND,1(k),…,ΩCAND,D(k)(k)} (13)
となる。
フレーム毎の方向候補の最大数についての典型的な値はD=16である。方向推定は、たとえば特許文献7において提案されている方法によって達成されることができる。発想は、入力HOA表現の方向性パワー分布から得られる情報を、方向のベイジアン推定についての単純な源動きモデルと組み合わせるというものである。
第二段階では、方向探索が、サブバンド(またはサブバンド・グループ)毎に、サブバンド方向推定ブロック22によって個々の各サブバンドについて実行される。しかしながら、サブバンドについてのこの方向探索は、Q個の試験方向からなる初期のフルの方向格子を考える必要はなく、各サブバンドについてD(k)個の方向のみを含む候補集合MDIR(k)のみを考えればよい。fj番目のサブバンド、j=1,…,Fについての方向の数DSB(k,fj)は、DSBより大きくなく、DSBは典型的にはDより顕著に小さく、たとえばDSB=4である。フルバンド方向探索と同様に、サブバンドに関係した方向探索も、前のフレームと現在フレームからなる、サブバンド信号の長い連結されたフレーム
Figure 0006542269
に対して実行される。原理的には、フルバンドに関係した方向探索についてと同じベイジアン推定方法が、サブバンド関係の方向探索のために適用されてもよい。
特定の音源の方向は時間とともに変化してもよい(だが変化する必要はない)。特定の音源の方向の時間的シーケンスは本稿では「軌跡」と呼ばれる。各サブバンド関係の方向または軌跡は曖昧さのないインデックスを得て、それにより異なる軌跡の混同が防止され、連続的な方向性サブバンド信号が与えられる。このことは、方向性サブバンド信号の後述する予測のために重要である。これは特に、さらに下記で定義される相続く予測係数行列A(k,fj)の間の時間的依存性を活用することを許容する。したがって、fj番目のサブバンドのための方向推定は、タプルの集合MDIR(k,fj)を提供する。各タプルは、個々の(アクティブな)方向軌跡を同定するインデックスd∈IDIR(k,fj)⊆{1,…,DSB}と、それぞれの推定される方向ΩSB,d(k,fj)とからなる。すなわち、
Figure 0006542269
サブバンド方向探索は上述したように現在フレームの方向候補ΩCAND,d(k)、d=1,…,D(k)の間でのみ実行されるので、定義により、集合{(ΩSB,d(k,fj)|d∈IDIR(k,fj))}は各j=1,…,FについてのMDIR(k)の部分集合である。各インデックスはQ個ではなくD(k)個の候補方向のうちの一つの方向を定義し、D(k)≦Qであるので、これは、方向に関するサイド情報のより効率的な符号化を許容する。インデックスdは、軌跡を生成するためにその後のフレームにおいて方向を追跡するために使われる。図2に示され、上記したように、方向推定処理ブロック16はある実施形態では、フルバンド方向推定ブロック21と、各サブバンドもしくはサブバンド・グループについてのサブバンド方向推定ブロック22とを有する方向推定ブロック20を備える。これはさらに、図7に示されるように上述した長フレームを方向推定ブロック20に提供する長フレーム生成ブロック23を有していてもよい。長フレーム生成ブロック23は、たとえば一つまたは複数のメモリを使って、それぞれLサンプルの長さをもつ二つの相続く入力フレームから長フレームを生成する。長フレームは、本稿では ̄によって、またk−1およびkの二つのインデックスをもつことによって示される。他の実施形態では、長フレーム生成ブロック23は、図1に示されるエンコーダ内の別個のブロックであってもよく、あるいは他のブロックに組み込まれてもよい。
方向性サブバンド信号の計算
図1に戻ると、分解フィルタバンク15によって提供されるサブバンドHOA表現フレーム
Figure 0006542269
は、一つまたは複数の方向性サブバンド信号計算ブロック17にも入力される。方向性サブバンド信号計算ブロック17では、すべてのDSB個の潜在的な方向性サブバンド信号の長フレーム
Figure 0006542269

Figure 0006542269
のように行列に配列される。
さらに、非アクティブな方向性サブバンド信号のフレーム、すなわちインデックスdが集合IDIR(k,fj)内に含まれない長い信号フレーム
Figure 0006542269
は0に設定される。
残りの長い信号フレーム
Figure 0006542269
すなわち、インデックスd∈IDIR(k,fj)をもつものは、行列
Figure 0006542269
内に集められる。それに含まれるアクティブな方向性サブバンド信号を計算するための一つの可能性は、そのHOA表現ともとの入力サブバンドHOA表現との間の誤差を最小にすることである。解は
Figure 0006542269
によって与えられる。ここで、(・)+はムーア・ペンローズの擬似逆行列を表わし、
Figure 0006542269
は、集合{(ΩSB,d(k,fj)|d∈IDIR(k,fj))}内の方向推定値に関するモード行列を表わす。サブバンド・グループの場合、方向性サブバンド信号
Figure 0006542269
の集合は、グループのすべてのHOA表現
Figure 0006542269
に一つの列(ΨSB(k,fj))+を乗算することから計算されることを注意しておく。長フレームは、上記したものと同様の一つまたは複数のさらなる長フレーム生成ブロックによって生成されることができることを注意しておく。同様に、長フレームは、長フレーム分解ブロックにおいて、正規長さのフレームに分解されることができる。ある実施形態では、方向性サブバンドの計算のための諸ブロック17は、それらの出力において、長フレーム
Figure 0006542269
を、方向性サブバンド予測ブロック18に提供する。
方向性サブバンド信号の予測
上述したように、近似的なHOA表現は、アクティブな方向性サブバンド信号によって部分的に表現される。だが、これは従来は符号化されないものである。従来と違って、現在記載される実施形態では、符号化された表現の伝送のための全データ・レートを低く保つために、パラメトリック表現が使われる。パラメトリック表現では、それぞれのアクティブな方向性サブバンド信号
Figure 0006542269
すなわちインデックスd∈IDIR(k,fj)をもつものが、打ち切りされたサブバンドHOA表現
Figure 0006542269
の係数シーケンスの重み付けされた和によって予測される。ここで、n∈IC,ACT(k−1)であり、重みは一般に複素数値である。
よって、
Figure 0006542269

Figure 0006542269
の予測されたバージョンを表わすとすると、予測は
Figure 0006542269
として行列乗算によって表わされる。ここで、
Figure 0006542269
はサブバンドfjについてのすべての重み付け因子(あるいは等価だが予測係数)をもつ行列である。予測行列A(k,fj)の計算は、一つまたは複数の方向性サブバンド予測ブロック18において実行される。ある実施形態では、図1に示されるように、サブバンド毎に一つの方向性サブバンド予測ブロック18が使われる。別の実施形態では、複数またはすべてのサブバンドのために単一の方向性サブバンド予測ブロック18が使われる。サブバンド・グループの場合には、各グループについて一つの行列A(k,fj)が計算されるが、それはグループのそれぞれのHOA表現
Figure 0006542269
を乗算され、グループ毎に一組の行列
Figure 0006542269
を生成する。構築法により、インデックスd∈IDIR(k,fj)をもつもの以外のA(k,fj)のすべての行は0であることを注意しておく。つまり、アクティブな方向性サブバンド信号のみが予測される。さらに、インデックスn∈IC,ACT(k−1)をもつもの以外のA(k,fj)のすべての列も0である。つまり、予測のためには、伝送され、HOA圧縮解除の間に予測のために利用可能であるHOA係数シーケンスのみが考慮される。
予測行列A(k,fj)の計算のために、以下の諸側面が考慮される必要がある。
第一に、もとの打ち切りされたサブバンドHOA表現
Figure 0006542269
は一般に、HOA圧縮解除において利用可能ではない。その代わり、その知覚的にデコードされたバージョン
Figure 0006542269
が利用可能であり、方向性サブバンド信号の予測のために使われる。低ビットレートでは、典型的なオーディオ・コーデック(たとえばAACまたはUSAC)は、スペクトルの低周波数および中程度の周波数は通常通り符号化されるが、高周波数内容(たとえば5kHz以降)は高周波数包絡についての追加のサイド情報を使って低周波数および中程度の周波数から複製されるスペクトル帯域複製(SBR)を使う。そのため、知覚的デコード後の打ち切りされたHOA成分
Figure 0006542269
の再構成されたサブバンド係数シーケンスの大きさは、もとの
Figure 0006542269
のものに似る。しかしながら、これは位相については成り立たない。よって、高周波数サブバンドについては、複素数値の予測係数を使うことによる予測のために何らかの位相関係を活用することは意味がない。その代わり、実数値の予測係数のみを使うほうが合理的である。特に、fj番目のサブバンドがSBRの開始周波数を含むようインデックスjSBRを定義して、予測係数の型を次のように設定することが有利である。
Figure 0006542269
換言すれば、ある実施形態では、より低いサブバンドについての予測係数は複素数値であり、一方、より高いサブバンドについての予測係数は実数値である。
第二に、ある実施形態では、行列A(k,fj)の計算の戦略は、その型に適合される。特に、SBRによって影響されない低周波数サブバンドfj、1≦j<jSBRについては、
Figure 0006542269
とその予測されたバージョン
Figure 0006542269
との間の誤差のユークリッド・ノルムを最小化することによって、A(k,fj)の0でない要素を決定することが可能である。知覚的符号化器31は、jSBR(図示せず)を定義し、提供する。このようにして、関係する信号の位相関係が予測のために明示的に活用される。サブバンド・グループについては、グループのすべての方向性信号に対する予測誤差のユークリッド・ノルムが最小化されるべきである(すなわち、最小二乗予測誤差)。SBRによって影響される高周波数サブバンドfj、jSBR≦j≦Fについては、打ち切りされたHOA成分
Figure 0006542269
の再構成されたサブバンド係数シーケンスの位相は、もとのサブバンド係数シーケンスの位相にいささかも似ていると想定することができないため、上述した基準は合理的ではない。
この場合、一つの解決策は、位相を無視し、その代わりに予測のためには信号パワーのみに集中することである。予測係数の決定のための合理的な基準は次の誤差を最小化することである。
Figure 0006542269
ここで、演算|・|2は要素ごとに行列に適用されると想定される。換言すれば、予測係数は、打ち切りされたHOA成分のすべての重み付けされたサブバンドまたはサブバンド・グループの係数シーケンスのパワーの和が、方向性サブバンド信号のパワーを最もよく近似するように、選ばれる。この場合、この最適化問題を解いて予測行列A(k,fj)、j=1,…,Fの予測係数を得るために、非負行列因子分解(NMF: Nonnegative Matrix Factorization)技法(たとえば非特許文献8参照)を使うことができる。これらの行列は、次いで、知覚的および源エンコード段30に提供される。
知覚的および源エンコード
上記の空間的HOA符号化後、k−1番目のフレームについての結果として得られる利得適応されたトランスポート信号zi(k−1)、i=1,…,Iは符号化されて、それらの符号化された表現
Figure 0006542269
が得られる。これは、図3に示される知覚的および源エンコード段30における知覚的符号化器31によって実行される。さらに、集合MDIR(k)、MDIR(k,fj)、f=1,…,F、予測係数行列A(k,fj)∈CO×DSB、j=1,…,F、利得制御パラメータei(k−1)およびβi(k−1)、i=1,…,Iおよび割り当てベクトルvA(k−1)に含まれる情報が、効率的な記憶または伝送のために冗長性を除去するために源エンコードにかけられる。これは、サイド情報源符号化器32によって実行される。結果として得られる符号化された表現
Figure 0006542269
はマルチプレクサ33において、符号化されたトランスポート信号表現
Figure 0006542269
と一緒に多重化されて、最終的な符号化されたフレーム
Figure 0006542269
を生成する。
原理的には、利得制御パラメータの源符号化および割り当ては非特許文献9と同様に実行できるので、本稿は方向および予測パラメータの符号化のみに焦点を当て、それについて以下で詳述する。
方向の符号化
個々のサブバンド方向の符号化のために、上記に基づく非有意性削減を活用して、選ばれるべき個々のサブバンド方向を制約することができる。前述したように、これら個々のサブバンド方向は、あらゆる可能な試験方向ΩTEST,q、q=1,…,Qから選ばれるのではなく、フルバンドHOA表現の各フレームについて決定される少数の候補から選ばれる。例示的に、サブバンド方向の源符号化のための可能な仕方は、下記のアルゴリズム1においてまとめられる。
Figure 0006542269
アルゴリズム1の第一段階では、サブバンド方向として実際に生起するすべてのフルバンド方向候補の集合MFB(k)が決定される。すなわち、
Figure 0006542269
NoOfGlobalDirs(k)によって表わされるこの集合の要素数は、方向の符号化された表現の第一の部分である。MFB(k)は定義によりMDIR(k)の部分集合なので、NoOfGlobalDirs(k)は┌log2(D)┐ビットで符号化できる。さらなる記述を明確にするために、集合MFB(k)内の方向はΩFB,d(k)、d=1,…,NoOfGlobalDirs(k)によって表わされる。すなわち、
Figure 0006542269
第二段階では、集合MFB(k)内の方向が、ここで格子(grid)と称される可能な試験方向ΩTEST,qのインデックスq=1,…,Qによって符号化される。各方向ΩFB,d(k)、d=1,…,NoOfGlobalDirs(k)について、それぞれの格子インデックスは、┌log2(Q)┐ビットのサイズをもつ配列要素GlobalDirGridIndices(k)[d]において符号化される。すべての符号化されたフルバンド方向を表わす全配列GlobalDirGridIndices(k)はNoOfGlobalDirs(k)個の要素からなる。
第三段階では、各サブバンドまたはサブバンド・グループfj、j=1,…,Fについて、d番目の方向性サブバンド信号(d=1,…,DSB)がアクティブであるか否か、すなわちd∈IDIR(k,fj)であるかどうかの情報が、配列要素bSubBandDirIsActive(k,fj)[d]において符号化される。全配列bSubBandDirIsActive(k,fj)はDSB個の要素からなる。d∈IDIR(k,fj)であれば、それぞれのサブバンド方向ΩSB,d(k,fj)はそれぞれのフルバンド方向ΩFB,i(k)のインデックスiによって、DSB(k,fj)個の要素からなる配列RelDirIndices(k,fj)に符号化される。
この方向エンコード方法の効率を示すために、上記の例に基づく方向の符号化された表現についての最大データ・レートが計算される:F=10サブバンド、DSB(k,fj)=DSB=サブバンド毎に4方向、Q=900個の潜在的な試験方向および毎秒25フレームのフレーム・レートが想定される。通常の符号化方法では、必要とされるデータ・レートは10kbit/sであった。ある実施形態に基づくこの改善された符号化方法では、フルバンド方向の数がNoOfGlobalDirs(k)=D=8であるとすれば、GlobalDirGridIndices(k)を符号化するためにフレーム当たりD・┌log2(Q)┐=80ビットが、bSubBandDirIsActive(k,fj)を符号化するためにDSB・F=40ビットが、RelDirIndices(k,fj)を符号化するためにDSB・F・┌log2(NoOfGlobalDirs(k))┐=120ビットが必要とされる。その結果、(240ビット/フレーム)・(25フレーム/秒)=6kbit/sのデータ・レートとなり、これは10kbit/sより顕著に小さい。フルバンド方向のより多くの数NoOfGlobalDirs(k)=D=16についてでさえも、たった7kbit/sのデータ・レートで十分である。
予測係数行列の符号化
予測係数行列の符号化のためには、方向軌跡、よって方向性サブバンド信号のなめらかさのために相続くフレームの予測係数の間には高い相関があるという事実を活用できる。さらに、各予測係数行列A(k,fj)についてフレーム毎に(DSB(k,fj)・MC,ACT(k−1))個の潜在的な0でない要素の比較的多くの数がある。ここで、MC,ACT(k−1)は集合IC,ACT(k−1)内の要素数を表わす。サブバンド・グループが使われなければ、全部で、フレーム当たり符号化されるべきF個の行列がある。サブバンド・グループが使われる場合には、フレーム当たりに符号化されるべき行列は相応してF個より少なくなる。
ある実施形態では、各予測係数のためのビット数を低く保つために、各複素数値の予測係数はその絶対値とその偏角によって表現され、次いで偏角および絶対値が相続くフレームの間で異なる仕方で、行列A(k,fj)のそれぞれの特定の要素について独立に、符号化される。絶対値が区間[0,1]内にあると想定される場合、絶対値の差は区間[−1,1]内にある。複素数の偏角の差は区間[−π,π]内にあると想定されてもよい。絶対値および偏角の差の両方の量子化のために、それぞれの区間は等しいサイズのたとえば2NQ個の部分区間に細分されることができる。その場合、それぞれの絶対値および偏角の差について、素直な符号化だとNQビットを必要とする。さらに、相続くフレームの予測係数の間の上述した相関のため、個々の差の生起確率はきわめて非一様に分布していることが実験的に見出されている。特に、絶対値および偏角における小さな差は、より大きな差よりも有意に高頻度で生起する。よって、たとえばハフマン符号化のような、符号化されるべき個々の値の事前確率に基づく符号化方法が、予測係数毎の平均ビット数を有意に減らすために活用できる。換言すれば、予測行列A(k,fj)の実部および虚部の代わりに、予測行列A(k,fj)における値の絶対値および位相を異なる仕方でエンコードすることが通例は有利である。しかしながら、実部および虚部の使用が受け入れ可能な状況も生じるかもしれない。
ある実施形態では、非差分的に符号化された行列係数を含む特別なアクセス・フレームが、ある間隔(用途固有、たとえば毎秒一回)において送られる。これは、デコーダがこれらの特殊なアクセス・フレームから差分デコードを再開することを許容し、よってデコードのためのランダムな入場を可能にする。
以下では、上記のように構築された低ビットレート圧縮されたHOA表現の圧縮解除を記述する。圧縮解除もフレーム毎に機能する。
原理的には、ある実施形態に基づく低ビットレートHOAデコーダは、上記の低ビットレートHOAエンコーダ・コンポーネントの、逆順に配列された対応物を有する。特に、低ビットレートHOAデコーダは、図4に描かれるような知覚的および源デコード部と、図6に示されるような空間的HOAデコード部とに細分できる。
知覚的および源デコード
図4は、ある実施形態における、知覚的およびサイド情報源デコーダ40を示している。知覚的およびサイド情報源デコーダ40において、低ビットレート圧縮されたHOAビットストリーム
Figure 0006542269
はまず多重分離されて(41)、I個の信号の知覚的に符号化された表現
Figure 0006542269
およびどのようにしてHOA表現を生成するかを記述する符号化されたサイド情報
Figure 0006542269
を生じる。次いで、I個の信号の知覚的デコードおよびサイド情報のデコードが実行される。
知覚的デコーダ42はI個の信号
Figure 0006542269
を知覚的にデコードされた信号
Figure 0006542269
にデコードする。
サイド情報源デコーダ43は、符号化されたサイド情報
Figure 0006542269
をタプル集合MDIR(k+1,fj)、j=1,…,F、各サブバンドまたはサブバンド・グループfj(j=1,…,F)についての予測係数行列A(k+1,fj)、利得補正指数ei(k)および利得補正例外フラグβi(k)ならびに割り当てベクトルvAMB,ASSIGN(k)にデコードする。
アルゴリズム2は、符号化されたサイド情報
Figure 0006542269
からどのようにしてタプル集合MDIR(k,fj)、j=1,…,Fを生成するかを例示的にまとめている。サブバンド方向のデコードは下記で詳細に記述される。
Figure 0006542269
第一に、符号化されたサイド情報
Figure 0006542269
からフルバンド方向の数NoOfGlobalDirs(k)が抽出される。上記のように、これらはサブバンド方向としても使われる。それは┌log2(D)┐ビットで符号化される。
第二段階では、NoOfGlobalDirs(k)個の要素からなる配列GlobalDirGridIndices(k)が抽出される。各要素は┌log2(Q)┐ビットによって符号化される。この配列は、フルバンド方向ΩFB,d(k)、d=1,…,NoOfGlobalDirs(k)を表わす格子インデックスを含み、
ΩFB,d(k)=ΩTEST,GlobalDirGridIndices(k)[d] (23)
となる。
次いで、各サブバンドまたはサブバンド・グループfj、j=1,…,Fについて、DSB個の要素からなる配列bSubBandDirIsActive(k,fj)が抽出される。ここで、d番目の要素bSubBandDirIsActive(k,fj)[d]は、d番目のサブバンド方向がアクティブであるか否かを示す。さらに、アクティブなサブバンド方向の総数DSB(k,fj)が計算される。
最後に、各サブバンドまたはサブバンド・グループfj、j=1,…,Fについて、タプルの集合MDIR(k,fj)が計算される。これは、個々の(アクティブな)サブバンド方向軌跡を同定するインデックスd∈IDIR(k,fj)⊆{1,DSB}およびそれぞれの推定される方向ΩSB(k,fj)からなる。
次に、各サブバンドまたはサブバンド・グループfj、j=1,…,Fについて、予測係数行列A(k+1,fj)が、符号化されたフレーム
Figure 0006542269
から再構成される。ある実施形態では、再構成は、サブバンドまたはサブバンド・グループfj毎に以下のステップを含む:第一に、各行列係数の偏角および絶対値の差がエントロピー復号によって得られる。次いで、エントロピー復号された偏角および絶対値の差が、それらの符号化のために使われたビット数NQに従って実際の値範囲に再スケーリングされる。最後に、現在の予測係数行列A(k+1,fj)が、再構成された偏角および絶対値の差を、最新の係数行列A(k,fj)、すなわち直前フレームの係数行列の係数に加えることによって、構築される。
このように、現在の行列A(k+1,fj)のデコードのためには直前の行列A(k,fj)が知られている必要がある。ある実施形態では、ランダム・アクセスを可能にするために、特別なアクセス・フレームがある間隔で受領される。該特別なアクセス・フレームは、これらのフレームから差分デコードを再開するために、非差分的に符号化された行列係数を含む。
知覚的およびサイド情報源デコーダ40は、知覚的にデコードされた信号
Figure 0006542269
と、タプル集合MDIR(k+1,fj)、j=1,…,Fと、予測係数行列A(k+1,fj)と、利得補正指数ei(k)と、利得補正例外フラグβi(k)と、割り当てベクトルvAMB,ASSIGN(k)とをその後の空間的HOAデコーダ50に出力する。
空間的HOAデコード
図5は、ある実施形態における例示的な空間的HOAデコーダ50を示している。空間的HOAデコーダ50は、I個の信号
Figure 0006542269
およびサイド情報デコーダ43によって与えられる上記のサイド情報から、再構成されたHOA表現を生成する。空間的HOAデコーダ50内の個々の処理ユニットについて下記で詳細に述べる。
逆利得制御
空間的HOAデコーダ50において、知覚的デコードされた信号
Figure 0006542269
は、関連付けられた利得補正指数ei(k)および利得補正例外フラグβi(k)と一緒に、まず一つまたは複数の逆利得制御処理ブロック51に入力される。逆利得制御処理ブロックは、利得補正された信号フレーム
Figure 0006542269
を与える。ある実施形態では、I個の信号
Figure 0006542269
のそれぞれは、図5と同様に別個の逆利得制御処理ブロック51に入力され、i番目の逆利得制御処理ブロックが利得補正された信号フレーム
Figure 0006542269
を与える。逆利得制御のより詳細な記述は、たとえば非特許文献9の節11.4.2.1から知られている。
打ち切りされたHOA再構成
打ち切りされたHOA再構成ブロック52では、I個の利得補正された信号フレーム
Figure 0006542269
が、割り当てベクトルVAMB,ASSIGN(k)によって与えられる情報に従ってHOA係数シーケンス行列に再分配(すなわち、再割り当て)される。それにより、打ち切りされたHOA表現
Figure 0006542269
が再構成される。割り当てベクトルVAMB,ASSIGN(k)は、各伝送チャネルについて、もとのHOA成分のどの係数シーケンスを含んでいるかを示すI個の成分を有する。さらに、割り当てベクトルの要素は、k番目のフレームについてのすべての受領された係数シーケンスのインデックス(もとのHOA成分を指すインデックス)の集合IC,ACT(k)
IC,ACT(k)={vAMB,ASSIGN,i(k)|i=1,…,I} (24)
をなす。
打ち切りされたHOA表現
Figure 0006542269
の再構成は以下のステップを含む。
第一に、デコードされた中間表現
Figure 0006542269
の個々の成分
Figure 0006542269
は、割り当てベクトル内の情報に依存して、0に設定されるか、利得補正された信号フレーム
Figure 0006542269
の対応する成分によって置き換えられる。すなわち、
Figure 0006542269
つまり、上述したように、割り当てベクトルのi番目の要素(式(26)ではn)は、i番目の係数
Figure 0006542269
が、デコードされた中間表現行列(式(25))のn番目の行における
Figure 0006542269
を置換することを示す。
第二に、
Figure 0006542269
内の最初のOMIN個の信号の再相関が、逆空間的変換を適用することによって実行され、フレーム
Figure 0006542269
を与える。ここで、モード行列ΨMINは式(6)において定義されたとおりである。モード行列は、各OMINまたはNMINについてあらかじめ定義されている所与の諸方向に依存し、よってエンコーダおよびデコーダの両方において独立して構築されることができる。OMIN(またはNMIN)も慣習上あらかじめ定義される。
最後に、再構成された打ち切りされたHOA表現
Figure 0006542269
が再相関された信号
Figure 0006542269
および中間表現の信号
Figure 0006542269
から
Figure 0006542269
に従って組成される。
分解フィルタバンク
予測された方向性サブバンド信号によって表わされる第二のHOA成分をさらに計算するために、圧縮解除された打ち切りされたHOA表現
Figure 0006542269
の個々の係数シーケンスnの各フレーム
Figure 0006542269
がまず、一つまたは複数の分解フィルタバンク53において、個々のサブバンド信号のフレーム
Figure 0006542269
に分解される。各サブバンドfj、j=1,…,Fについて、個々のHOA係数シーケンスのサブバンド信号のフレームは、サブバンドHOA表現
Figure 0006542269
にまとめられてもよい。
HOA空間的デコード段において適用される前記一つまたは複数の分解フィルタバンク53は、HOA空間的エンコード段における一つまたは複数の分解フィルタバンク15と同じであり、サブバンド・グループについては、HOA空間的エンコード段からのグループ化が適用される。このように、ある実施形態では、グループ化情報がエンコードされた信号に含められる。グループ化情報についてのさらなる詳細は後述する。
ある実施形態では、HOA圧縮段における打ち切りされたHOA表現の計算のために最大次数NMAXが考慮され(上記の式(4)付近を参照)、HOA圧縮器および圧縮解除器の分解フィルタバンク15、53の適用は、インデックスn=1,…,OMAXをもつHOA係数シーケンス
Figure 0006542269
のみに制約される。インデックスn=OMAX+1,…,Oをもつサブバンド信号フレーム
Figure 0006542269
は0に設定されることができる。
方向性サブバンドHOA表現の合成
各サブバンドまたはサブバンド・グループについて、方向性サブバンドもしくはサブバンド・グループHOA表現
Figure 0006542269
が、一つまたは複数の方向性サブバンド合成ブロック54において合成される。ある実施形態では、相続くフレームの間での方向および予測係数の変化に起因するアーチファクトを避けるために、方向性サブバンドHOA表現の計算は、重複加算の概念に基づく。よって、ある実施形態では、fj番目のサブバンド、j=1,…,Fに関係したアクティブな方向性サブバンド信号のHOA表現
Figure 0006542269
は、フェードアウトされる成分とフェードインされる成分との和として計算される:
Figure 0006542269
第一段階では、二つの個々の成分を計算するために、フレームk1∈{k,k+1}についての予測係数行列A(k1,fj)とk番目のフレームについての打ち切りされたサブバンドHOA表現
Figure 0006542269
とに関係したすべての方向性サブバンド信号
Figure 0006542269
の瞬時フレームが、
Figure 0006542269
によって計算される。
サブバンド・グループについては、各グループについてのHOA表現
Figure 0006542269
が固定した行列A(k1,fj)を乗算されて、そのグループのサブバンド信号
Figure 0006542269
を生成する。
第二段階では、方向ΩSB,d(k,fj)に関する方向性サブバンド信号
Figure 0006542269
の瞬時サブバンドHOA表現
Figure 0006542269

Figure 0006542269
として得られる。ここで、ψ(ΩSB,d(k,fj))∈ROは、方向ΩSB,d(k,fj)に関する(式(7)におけるモード・ベクトルのような)モード・ベクトルを表わす。サブバンド・グループについては、式(32)はグループのすべての信号について実行され、行列ψ(ΩSB,d(k,fj))は各グループについて固定されている。
行列
Figure 0006542269
がそのサンプルから
Figure 0006542269
によって構成されるとすると、アクティブな方向性サブバンド信号のHOA表現のフェードアウトされる成分およびフェードインされる成分のサンプル値は最終的に
Figure 0006542269
によって決定される。ここで、ベクトル
Figure 0006542269
は重複加算の窓関数を表わす。窓関数の例は、周期的ハン窓によって与えられ、その要素は
Figure 0006542269
によって定義される。
サブバンドHOA組成(composition)
各サブバンドまたはサブバンド・グループfj、j=1,…,Fについて、デコードされたサブバンドHOA表現
Figure 0006542269
の係数シーケンス
Figure 0006542269
は、以前に伝送されていれば打ち切りされたHOA表現
Figure 0006542269
の係数シーケンスに設定され、そうでなければ方向性サブバンド合成ブロック54の一つによって与えられる方向性HOA成分
Figure 0006542269
の係数シーケンスに設定される。すなわち、
Figure 0006542269
このサブバンド組成は、一つまたは複数のサブバンド組成ブロック55によって実行される。ある実施形態では、各サブバンドまたはサブバンド・グループについて、よって前記一つまたは複数の方向性サブバンド合成ブロック54のそれぞれについて、別個のサブバンド組成ブロック55が使われる。ある実施形態では、方向性サブバンド合成(Directional Subband Synthesis)ブロック54およびその対応するサブバンド組成ブロック(Subband Composition Block)55は、単一のブロックに統合される。
合成フィルタバンク
最終段階では、デコードされたHOA表現が、すべてのデコードされたサブバンドHOA表現
Figure 0006542269
から合成される。圧縮解除されたHOA表現
Figure 0006542269
の個々の時間領域係数シーケンス
Figure 0006542269
は、一つまたは複数の合成フィルタバンク56によって対応するサブバンド係数シーケンス
Figure 0006542269
から合成される。該一つまたは複数の合成フィルタバンク56は、圧縮解除されたHOA表現
Figure 0006542269
を最終的に出力する。
合成された時間領域係数シーケンスは通例、分解および合成フィルタバンク53、56の相続く適用のため、遅延をもつことを注意しておく。
図8は、単一の周波数サブバンドf1について、一組のアクティブな方向の候補、それらの選ばれた軌跡および対応するタプル集合を例示的に示している。フレームkでは、四つの方向が周波数サブバンドf1においてアクティブである。これらの方向はそれぞれの軌跡T1、T2、T3およびT5に属する。前のフレームk−2およびk−1では、異なる方向、すなわちそれぞれT1、T2、T6およびT1〜T4がアクティブであった。フレームkにおけるアクティブな方向の集合MDIR(k)は、フルバンドに関係し、いくつかのアクティブな方向の候補を含む。たとえば、MDIR(k)={Ω3852101229446581}である。各方向は任意の仕方で、たとえば二つの角度によってまたはあらかじめ定義されたテーブルのインデックスとして、表現できる。アクティブなフルバンドの方向の集合から、サブバンドおよびその対応する軌跡において実際にアクティブである方向が、各周波数サブバンドについて別個に、タプル集合MDIR(k,fj)、j=1,…,Fに集められる。たとえば、フレームkの第一の周波数サブバンドでは、アクティブな方向はΩ352229581であり、その関連する軌跡はそれぞれT3、T1、T2およびT5である。第二の周波数サブバンドf2では、アクティブな方向は例示的にΩ52およびΩ229のみであり、その関連する軌跡はそれぞれT1およびT2である。
下記は、例示的な集合IC,ACT(k)={1,2,4,6}における係数シーケンスに対応する例示的な打ち切りされたHOA表現CT(k)の係数行列の一部である。
Figure 0006542269
IC,ACT(k)によれば、行1、2、4、6の係数のみが0に設定されない(とはいえ、信号によっては0になることもある)。行列CT(k)の各列は、サンプルを指し、該行列の各行は係数シーケンスである。圧縮は、すべての係数シーケンスではなく、いくつかの選択された係数シーケンス、すなわちインデックスがそれぞれIC,ACT(k)および割り当てベクトルvA(k)に含まれている係数シーケンスのみがエンコードされ伝送されることを含む。デコーダでは、それらの係数は圧縮解除されて、再構成された打ち切りされたHOA表現の正しい行列行に配置される。それらの行についての情報は、割り当てベクトルvAMB,ASSIGN(k)から得られる。vAMB,ASSIGN(k)は、それぞれの伝送される係数シーケンスについて使われるトランスポート・チャネルをさらに与える。残りの係数シーケンスは0で満たされ、のちに、受領された(通例は0でない)係数から、受領されたサイド情報、たとえばサブバンドもしくはサブバンド・グループに関係した予測行列および方向に従って予測される。
サブバンド・グループ化
ある実施形態では、使用される諸サブバンドは、人間の聴覚の音響心理学的属性に適合された異なる帯域幅をもつ。あるいはまた、分解フィルタバンク53からのいくつかのサブバンドが組み合わされて、異なる帯域幅をもつサブバンドをもつ適応されたフィルタバンクをなす。分解フィルタバンク53からの隣接するサブバンドのグループが同じパラメータを使って処理される。組み合わされたサブバンドのグループが使われる場合、エンコーダ側で適用される対応するサブバンド構成がデコーダ側に知られていなければならない。ある実施形態では、構成情報が伝送され、デコーダによって合成フィルタバンクをセットアップするために使われる。ある実施形態では、構成情報は、(たとえばリスト内の)複数のあらかじめ定義された既知の構成のうちの一つについての識別子を含む。
もう一つの実施形態では、サブバンド構成を定義するための必要とされるビット数を減らす次の柔軟な解決策が使われる。サブバンド構成の効率的なエンコードのために、最初、最後から二番目および最後のサブバンド・グループのデータが、他のサブバンド・グループとは異なる仕方で扱われる。さらに、サブバンド・グループ帯域幅差分値がエンコードにおいて使われる。原理的には、サブバンド・グループ化情報符号化方法は、オーディオ信号の一つまたは複数のフレームについて有効なサブバンド・グループについてサブバンド構成データを符号化するために好適である。ここで、各サブバンド・グループは一つまたは複数の隣接するもとのサブバンドの組み合わせであり、もとのサブバンドの数はあらかじめ定義されている。ある実施形態では、次のサブバンド・グループの帯域幅は、現在サブバンド・グループの帯域幅以上である。この方法は、NSB個のサブバンド・グループを、NSB−1を表わす固定数のビットを用いて符号化することを含み、NSB>1であれば、最初のサブバンド・グループg1について、帯域幅値BSB[1]を、BSB[1]−1を表わす単進符号を用いて符号化することを含む。NSB=3であれば、固定数のビットをもつ帯域幅差分値ΔBSB[2]=BSB[2]−BSB[1]が、第二のサブバンド・グループg2について符号化される。NSB>3であれば、対応する数の帯域幅差分値ΔBSB[g]=BSB[g]−BSB[g−1]が、サブバンド・グループg2,…,gNSB-2について単進符号を用いて符号化され、帯域幅差分値ΔBSB[NSB−1]=BSB[NSB−1]−BSB[NSB−2]が最後のサブバンド・グループgNSB-1について固定数のビットを用いて符号化される。サブバンド・グループについての帯域幅値は、隣接するもとのサブバンドの数として表現される。最後のサブバンド・グループgSBについては、符号化されるサブバンド構成データに対応する値が含められる必要はない。
図9は、通常のMPEG-H 3Dオーディオ・エンコーダのHOAエンコード経路の一般化されたブロック図を示している。二つの型の優勢音信号が抽出される:方向性音抽出(Directional Sound Extraction)ブロックDSEにおける方向性信号と、VVec音抽出(VVec Sound Extraction)ブロックVSEにおけるベクトル・ベースの信号VVecである。ベクトル・ベースの信号VVec(Vベクトル)に属するベクトルは、対応するベクトル・ベースの信号についての音場の空間的分布を表わす。さらに、残差/周囲音用計算器(Calculator for Residuum/Ambience)CRAにおいて周囲成分もエンコードされる。CRAにより、方向性音抽出ブロックDSEおよびVVec音抽出ブロックVSEからの出力データのいずれか一方または両方が使われてもよく、あるいはどちらも使われなくてもよい。周囲信号は空間分解能低減(Spatial Resolution Reduction)ブロックSRR、部分的脱相関(partial decorrelation)PDおよび利得制御GCAにかけられる。四角内のブロックは音シーン解析(Sound Scene Analysis)SSAによって制御される。統合音声音響符号化器USAC3Dに入力される前に、優勢音信号もそれぞれの利得制御ブロックGCD、GCVによって処理される。最後に、USAC3DエンコーダENCc&HEPcがHOA空間的サイド情報をHOA拡張ペイロード中にパッキングする。
図10は、ある実施形態に基づく、MPEGにおいて使用可能な改善されたオーディオ・エンコーダを示している。開示される技術は、現行のMPEG-H 3Dオーディオのシステムを、低帯域幅のためのビットストリームが既知のMPEG-H 3Dオーディオのフォーマットの真の上位集合であるような仕方で修正する。図9に比べると、音シーン解析SSAにおいて、二つの新たなブロックを含む経路が追加されている。これらは、周囲信号に適用されるQMF分解(QMF Analysis)フィルタバンクQAcと、方向性サブバンド信号のパラメータの計算のための方向性サブバンド計算(Directional Subband Calculation)ブロックDSCcである。これらのパラメータは、伝送された周囲信号に基づいて方向性信号を合成することを許容する。さらに、欠けている周囲信号を再生することを許容するパラメータが計算される。合成プロセスについてのサイド情報パラメータはUSAC3DエンコーダENC&HEPに渡され、それにより圧縮された出力信号HOAc,oのHOA拡張ペイロード中にパッキングされる。有利なことに、圧縮は、図9の構成で達成される通常の圧縮より効率的である。
図11は、通常のMPEG-H 3Dオーディオ・デコーダの一般化されたブロック図を示している。まず、圧縮された入力ビットストリームHOAC,IからHOAサイド情報が抽出され、USAC3DおよびHOA拡張ペイロード・デコーダDECc&HEPcが伝送チャネル波形信号を再生する。これらは対応する逆利得制御ブロックIGCD、IGCV、IGCAに入力される。ここで、エンコーダにおいて適用された正規化が打ち消される。対応する伝送チャネルは、サイド情報とともに、それぞれHOA方向性音合成(Directional Sound Synthesis)ブロックDSSよび/またはVVec音合成(VVec Sound Synthesis)ブロックVSSにおいて優勢音信号(方向性および/またはベクトル・ベース)を合成するために使われる。第三の経路では、周囲成分が逆部分的脱相関(Inverse Partial Decorrelation)IPDブロックおよびHOA周囲音合成(HOA Ambience Synthesis)HASブロックによって再生される。続くHOA組成(HOA Composition)ブロックHCcは、優勢音成分と周囲音を組み合わせて、デコードされたHOA信号を構築する。これはHOAレンダラー(HOA renderer)HRに入力されて、出力信号HOA'D,O、すなわち最終的なスピーカー・フィードを生成する。
図12は、ある実施形態に基づく、MPEGにおいて使用可能な改善されたオーディオ・デコーダを示している。エンコーダと同様に、経路が加わっている。それは、サブバンド信号の計算のためのデコーダ側QMF分解(QMF Analysis)ブロックQADと、パラメトリックにエンコードされた方向性サブバンド信号の合成のための方向性サブバンド信号合成(Directional Subband signal Synthesis)ブロックDSCDとを有する。計算されたサブバンド信号は、対応する伝送されたサイド情報とともに、方向性信号のHOA表現を合成するために使われる。その後、合成された信号成分はQMF合成(QMF synthesis)フィルタバンクQSを使って時間領域に変換される。その出力信号はさらに、向上されたHOA組成ブロックHCに入力される。デコードされたHOA出力信号HOAD,Oを提供するための、続くHOAレンダリング・ブロックHRは変更なしとされる。
以下では、高次アンビソニックスのいくつかの基本的な特徴が説明される。
高次アンビソニックス(HOA)は、音源がないと想定されるコンパクトな関心領域内の音場の記述に基づく。その場合、関心領域内の位置xおよび時刻tにおける音圧の空間時間的挙動p(t,x)は、斉次の波の式(homogeneous wave equation)によって物理的に完全に決定される。以下では、図6に示される球面座標系を想定する。この座標系では、x軸は前方位置を向き、y軸は左を向き、z軸は上を向く。空間内の位置x=(r,θ,φ)Tは動径r>0(すなわち、座標原点までの距離)、極軸z(!)から測った傾斜角θ∈[0,π]およびxy平面においてx軸から反時計回りに測った方位角φ∈[0,2π[によって表現される。さらに、(・)Tは転置を表わす。
すると、ωが角周波数を表わし、iは虚数単位を示すものとして、Ft(・)によって表わされる時間に関する音圧のフーリエ変換、すなわち
Figure 0006542269
は、
Figure 0006542269
に従って球面調和関数級数に展開されうることが示せる(非特許文献11)。式(42)において、csは音速を表わし、kは角波数を表わす。角波数は角周波数ωに、k=ω/csによって関係付けられる。さらに、jn(・)は第一種の球面ベッセル関数を表わし、Sn m(θ,φ)は次数(order)n、陪数(degree)mの実数値の球面調和関数を表わす。展開係数An m(k)は角波数kのみに依存する。音圧が空間的に帯域制限されていることが暗黙的に想定されていることを注意しておく。よって、級数は次数インデックスnに関して上限Nで打ち切られる。このNはHOA符号化表現の次数と呼ばれる。
音場が異なる角周波数ωの無限個の調和平面波の重ね合わせによって表現され、角タプル(θ,φ)によって指定されるすべての可能な方向から到来するとすると、それぞれの平面波複素振幅関数C(ω,θ,φ)は次の球面調和関数展開によって表わせることを示せる(非特許文献10)。
Figure 0006542269
ここで、展開係数Cn m(k)は展開係数An m(k)に、
An m(k)=inCn m(k) (44)
によって関係付けられる。個々の係数Cn m(k=ω/cs)が角周波数ωの関数であるとすると、逆フーリエ変換(F-1(・)によって表わされる)の適用は、各次数nおよび陪数mについて、時間領域関数
Figure 0006542269
を与える。これらの時間領域関数はここでは連続時間HOA係数シーケンスと称され、これは
Figure 0006542269
によって単一のベクトルc(t)にまとめることができる。
ベクトルc(t)内のHOA係数シーケンスcn m(t)の位置インデックスは
n(n+1)+1+m
によって与えられる。
ベクトルc(t)内の全体的な要素数はO=(N+1)2によって与えられる。
最終的なアンビソニックス・フォーマットは、サンプリング周波数fsを使って、c(t)のサンプリングされたバージョンを、
Figure 0006542269
として与える。ここで、Ts=1/fsはサンプリング周期を表わす。c(lTs)の要素はここでは離散時間HOA係数シーケンスと称される。これは常に実数値であることが示せる。この属性は、連続時間バージョンcn m(t)についても成り立つ。
実数値の球面調和関数の定義
実数値の球面調和関数Sn m(θ,φ)(SN3D規格化(非特許文献1、3.1章)を想定)は次式によって与えられる。
Figure 0006542269
ルジャンドル陪関数Pn,m(x)は次式によって定義される。
Figure 0006542269
ここで、ルジャンドル多項式Pn(x)を用いているが、非特許文献11とは異なり、コンドン・ショートリー(Condon-Shortley)位相項(−1)mは使っていない。
ある実施形態では、(複素数値のフィルタバンクから得られた)HOA信号表現のサブバンドまたはサブバンド・グループ内の優勢な方向性信号の方向をフレームごとに決定し、効率的にエンコードする方法は、
各現在フレームkについて:HOA信号におけるフルバンド方向候補の集合MDIR(k)、集合MDIR(k)における要素数NoOfGlobalDirsおよび該要素数をエンコードするために必要とされる数D(k)=log2(NoOfGlobalDirs)を決定する段階であって、各フルバンド方向候補は、Q個の可能な方向のあらかじめ定義されたフル集合に関係するグローバル・インデックスq(q∈[1,…,Q])をもつ、段階と;
現在フレームkの各サブバンドまたはサブバンド・グループjについて、集合MDIR(k)内のフルバンド方向候補のうちどの方向がアクティブなサブバンド方向として現われるかを判別する段階と;
前記サブバンドまたはサブバンド・グループのいずれかにおいてアクティブなサブバンド方向として現われる、使用されるフルバンド方向候補の集合MFB(k)(みなHOA信号中のフルバンド方向候補の集合MDIR(k)に含まれる)および使用されるフルバンド方向候補の集合MFB(k)内の要素数NoOfGlobalDirs(k)を決定する段階と;
現在フレームkの各サブバンドまたはサブバンド・グループjについて:集合MDIR(k)内のフルバンド方向候補のうちのd個(d∈[1,…,D])までの方向のどの方向がアクティブなサブバンド方向であるかを判別し;アクティブなサブバンド方向のそれぞれについて軌跡および軌跡インデックスを決定し;前記軌跡インデックスをそれぞれのアクティブなサブバンド方向に割り当てる段階と;
現在のサブバンドまたはサブバンド・グループj内のアクティブなサブバンド方向のそれぞれをD(k)ビットをもつ相対インデックスによってエンコードする段階とを含む。
ある実施形態では、コンピュータ可読媒体が、コンピュータに、優勢な方向性信号の方向をフレームごとに決定し、効率的にエンコードするためのこの方法を実行させる実行可能命令を記憶している。
さらに、ある実施形態では、HOA信号表現のサブバンド内の優勢な方向性信号の方向をデコードする方法が、
デコードされるべきHOA信号表現について最大数の方向Dの諸インデックスを受領する段階と;デコードされるべきHOA信号表現の最大数の方向Dの諸方向を再構成する段階と;サブバンド毎のアクティブな諸方向信号の諸インデックスを受領する段階と;デコードされるべきHOA信号表現の再構成された諸方向Dおよびサブバンド毎のアクティブな方向信号の諸インデックスからサブバンド毎のアクティブな諸方向を再構成する段階と;諸サブバンドの方向性信号を予測する段階とを含み、サブバンドの現在フレームにおける方向性信号の前記予測は、そのサブバンドの先行フレームの方向性信号を決定することを含み、前記方向性信号のインデックスが前記先行フレームにおいて0であり現在フレームにおいて0でない場合には新たな方向性信号が生成され、前記方向性信号のインデックスが前記先行フレームにおいて0でなく現在フレームにおいて0である場合には前の方向性信号がキャンセルされ、方向性信号のインデックスが第一の方向から第二の方向に変わる場合には、該方向性信号の方向が該第一の方向から該第二の方向に動かされる。
ある実施形態では、図1および図3に示され、上記で論じたように、所与の数の係数シーケンスをもつ入力HOA信号のフレームをエンコードするための装置であって、各係数シーケンスはインデックスをもつ、装置が、少なくとも一つのハードウェア・プロセッサと、少なくとも一つのソフトウェア・コンポーネントを有体に具現する非一時的な有体なコンピュータ可読記憶媒体とを有する。前記ソフトウェア・コンポーネントは、前記少なくとも一つのハードウェア・プロセッサ上で実行されるときに、前記ハードウェア・プロセッサに、
低減された数の0でない係数シーケンスをもつ打ち切りされたHOA表現CT(k)を計算する段階11と、
打ち切りされたHOA表現に含まれているアクティブな係数シーケンスのインデックスの集合IC,ACT(k)を決定する段階11と、
前記入力HOA信号から、候補方向の第一の集合MDIR(k)を推定する段階16と;
前記入力HOA信号を複数の周波数サブバンドf1,…,fFに分割する段階15であって、それらの周波数サブバンドの係数シーケンス
Figure 0006542269
が得られる、段階と、
それらの周波数サブバンドのそれぞれについて、方向の第二の集合MDIR(k,f1)、…、MDIR(k,fF)を推定する段階16であって、方向の前記第二の集合の各要素は第一および第二のインデックスをもつインデックスのタプルであり、前記第二のインデックスは現在の周波数サブバンドについてアクティブな方向のインデックスであり、前記第一のインデックスは該アクティブな方向の軌跡インデックスであり、各アクティブな方向は前記入力HOA信号の候補方向の前記第一の集合MDIR(k)にも含まれる、段階と、
前記周波数サブバンドのそれぞれについて、それぞれの周波数サブバンドの方向の前記第二の集合MDIR(k,f1)、…、MDIR(k,fF)に応じてその周波数サブバンドの係数シーケンス
Figure 0006542269
から方向性サブバンド信号
Figure 0006542269
を計算する段階17と、
前記周波数サブバンドのそれぞれについて、それぞれの周波数サブバンドのアクティブな係数シーケンスのインデックスの前記集合IC,ACT(k)を使ってその周波数サブバンドの係数シーケンス
Figure 0006542269
から方向性サブバンド信号
Figure 0006542269
を予測するよう適応された予測行列A(k,f1),…,A(k,fF)を計算する段階18と、
候補方向の前記第一の集合MDIR(k)、方向の前記第二の集合MDIR(k,f1)、…、MDIR(k,fF)、前記予測行列A(k,f1),…,A(k,fF)および前記打ち切りされたHOA表現CT(k)をエンコードする段階とを実行させる。
ある実施形態では、図4および図5に示され、上記で論じたように、圧縮されたHOA表現をデコードするための装置が、少なくとも一つのハードウェア・プロセッサと、少なくとも一つのソフトウェア・コンポーネントを有体に具現する非一時的な有体なコンピュータ可読記憶媒体とを有する。前記ソフトウェア・コンポーネントは、前記少なくとも一つのハードウェア・プロセッサ上で実行されるときに、前記ハードウェア・プロセッサに、
前記圧縮されたHOA表現から、複数の打ち切りされたHOA係数シーケンス
Figure 0006542269
前記打ち切りされたHOA係数シーケンスのシーケンス・インデックスを示すまたは含む割り当てベクトルvAMB,ASSIGN(k)、サブバンドに関係した方向情報MDIR(k+1,f1),…,MDIR(k+1,fF)、複数の予測行列A(k+1,f1),…,A(k+1,fF)および利得制御サイド情報e1(k),β1(k),…,eI(k),βI(k)を抽出する段階41、42、43と;
前記複数の打ち切りされたHOA係数シーケンス
Figure 0006542269
前記利得制御サイド情報e1(k),β1(k),…,eI(k),βI(k)および前記割り当てベクトルvAMB,ASSIGN(k)から、打ち切りされたHOA表現
Figure 0006542269
を再構成する段階51、52と;
分解フィルタバンク53において、前記再構成された打ち切りされたHOA表現
Figure 0006542269
を複数F個の周波数サブバンドについての周波数サブバンド表現
Figure 0006542269
に分解する段階と;
各周波数サブバンド表現について方向性サブバンド合成ブロック54において、前記再構成された打ち切りされたHOA表現の前記それぞれの周波数サブバンド表現
Figure 0006542269
と、前記サブバンドに関係した方向情報MDIR(k+1,f1),…,MDIR(k+1,fF)と、前記予測行列A(k+1,f1),…,A(k+1,fF)とから、予測された方向性HOA表現
Figure 0006542269
を合成する段階54と;
前記F個の周波数サブバンドのそれぞれについてサブバンド組成ブロック55において、係数シーケンス
Figure 0006542269
をもつデコードされたサブバンドHOA表現
Figure 0006542269
を組成する段階55であって、該係数シーケンスは、該係数シーケンスが前記割り当てベクトルvAMB,ASSIGN(k)に含まれるインデックスnをもつ場合には前記打ち切りされたHOA表現
Figure 0006542269
の係数シーケンスから得られ、あるいはそれ以外の場合には前記方向性サブバンド合成ブロック54の一つによって与えられる前記予測された方向性HOA成分
Figure 0006542269
の係数シーケンスから得られる、段階と;
一つまたは複数の合成フィルタバンク56において、前記デコードされたサブバンドHOA表現
Figure 0006542269
を合成して、デコードされたHOA表現
Figure 0006542269
を得る段階56とを実行させる。
ある実施形態では、所与の数の係数シーケンスをもつ入力HOA信号のフレームをエンコードするための装置10であって、各係数シーケンスはインデックスをもつ、装置が、
低減された数の0でない係数シーケンスをもつ打ち切りされたHOA表現CT(k)を計算するよう構成され、打ち切りされたHOA表現に含まれているアクティブな係数シーケンスのインデックスの集合IC,ACT(k)を決定するさらに構成された計算および決定モジュール11と;
前記入力HOA信号を複数の周波数サブバンドf1,…,fFに分割するよう構成された分解フィルタバンク・モジュール15であって、それらの周波数サブバンドの係数シーケンス
Figure 0006542269
が得られる、分解フィルタバンク・モジュールと;
前記入力HOA信号から、候補方向の第一の集合MDIR(k)を推定するよう構成され、前記周波数サブバンドのそれぞれについて、方向の第二の集合MDIR(k,f1)、…、MDIR(k,fF)を推定するようさらに構成された方向推定モジュール16であって、方向の前記第二の集合の各要素は第一および第二のインデックスをもつインデックスのタプルであり、前記第二のインデックスは現在の周波数サブバンドについてアクティブな方向のインデックスであり、前記第一のインデックスは該アクティブな方向の軌跡インデックスであり、各アクティブな方向は前記入力HOA信号の候補方向の前記第一の集合MDIR(k)にも含まれる、方向推定モジュールと;
前記周波数サブバンドのそれぞれについて、それぞれの周波数サブバンドの方向の前記第二の集合MDIR(k,f1)、…、MDIR(k,fF)に応じてその周波数サブバンドの係数シーケンス
Figure 0006542269
から方向性サブバンド信号
Figure 0006542269
を計算するよう構成された少なくとも一つの方向性サブバンド計算モジュール17と;
前記周波数サブバンドのそれぞれについて、それぞれの周波数サブバンドのアクティブな係数シーケンスのインデックスの前記集合IC,ACT(k)を使ってその周波数サブバンドの係数シーケンス
Figure 0006542269
から方向性サブバンド信号
Figure 0006542269
を予測するよう適応された予測行列A(k,f1),…,A(k,fF)を計算するよう構成された少なくとも一つの方向性サブバンド予測モジュール18と;
候補方向の前記第一の集合MDIR(k)、方向の前記第二の集合MDIR(k,f1)、…、MDIR(k,fF)、前記予測行列A(k,f1),…,A(k,fF)および前記打ち切りされたHOA表現CT(k)をエンコードするよう構成されたエンコード・モジュール30とを有する。
ある実施形態では、前記装置はさらに、前記打ち切りされたHOAチャネル・シーケンスを部分的に脱相関するよう構成された部分的脱相関器12と;前記打ち切りされたHOAチャネル・シーケンスy1(k),…,yI(k)をトランスポート・チャネルに割り当てるよう構成されたチャネル割り当てモジュール13と;前記トランスポート・チャネルに対して利得制御を実行するよう構成された少なくとも一つの利得制御ユニット14であって、各トランスポート・チャネルについての利得制御サイド情報ei(k−1)、βi(k−1)が生成される、ユニットとをさらに有する。
ある実施形態では、エンコード・モジュール30は、利得制御された打ち切りされたHOAチャネル・シーケンスz1(k),…,zI(k)をエンコードするよう構成された知覚的エンコーダと;前記利得制御サイド情報ei(k−1)、βi(k−1)、候補方向の前記第一の集合MDIR(k)、方向の前記第二の集合MDIR(k,f1)、…、MDIR(k,fF)および前記予測行列A(k,f1),…,A(k,fF)をエンコードするよう構成されたサイド情報源符号化器32と;前記知覚的エンコーダ31および前記サイド情報源符号化器32の出力を多重化して、エンコードされたHOA信号フレーム
Figure 0006542269
を得るよう構成されたマルチプレクサ33とを有する。
ある実施形態では、HOA信号をデコードする装置50が、
前記圧縮されたHOA表現から、複数の打ち切りされたHOA係数シーケンス
Figure 0006542269
前記打ち切りされたHOA係数シーケンスのシーケンス・インデックスを示すまたは含む割り当てベクトルvAMB,ASSIGN(k)、サブバンドに関係した方向情報MDIR(k+1,f1),…,MDIR(k+1,fF)、複数の予測行列A(k+1,f1),…,A(k+1,fF)および利得制御サイド情報e1(k),β1(k),…,eI(k),βI(k)を抽出するよう構成された抽出モジュール40と;
前記複数の打ち切りされたHOA係数シーケンス
Figure 0006542269
前記利得制御サイド情報e1(k),β1(k),…,eI(k),βI(k)および前記割り当てベクトルvAMB,ASSIGN(k)から、打ち切りされたHOA表現
Figure 0006542269
を再構成するよう構成された再構成モジュール51、52と;
前記再構成された打ち切りされたHOA表現
Figure 0006542269
を複数F個の周波数サブバンドについての周波数サブバンド表現
Figure 0006542269
に分解するよう構成された分解フィルタバンク・モジュール53と;
各周波数サブバンドについて、前記再構成された打ち切りされたHOA表現の前記それぞれの周波数サブバンド表現
Figure 0006542269
と、前記サブバンドに関係した方向情報MDIR(k+1,f1),…,MDIR(k+1,fF)と、前記予測行列A(k+1,f1),…,A(k+1,fF)とから、予測された方向性HOA表現
Figure 0006542269
を合成するよう構成された少なくとも一つの方向性サブバンド合成モジュール54と;
前記F個の周波数サブバンドのそれぞれについて、係数シーケンス
Figure 0006542269
をもつデコードされたサブバンドHOA表現
Figure 0006542269
を組成するよう構成された少なくとも一つのサブバンド組成モジュール55であって、該係数シーケンスは、該係数シーケンスが前記割り当てベクトルvAMB,ASSIGN(k)に含まれるインデックスnをもつ場合には前記打ち切りされたHOA表現
Figure 0006542269
の係数シーケンスから得られ、あるいはそれ以外の場合には前記方向性サブバンド合成モジュール54の一つによって与えられる前記予測された方向性HOA成分
Figure 0006542269
の係数シーケンスから得られる、モジュールと;
前記デコードされたサブバンドHOA表現
Figure 0006542269
を合成して、デコードされたHOA表現
Figure 0006542269
を得るよう構成された合成フィルタバンク・モジュール56とを有する。
前記抽出モジュール40は少なくとも、エンコードされたサイド情報部分と知覚的に符号化された部分とを取得するためのデマルチプレクサ41であって、該知覚的に符号化された部分は、エンコードされた打ち切りされたHOA係数シーケンス
Figure 0006542269
を含む、デマルチプレクサと;
前記エンコードされた打ち切りされたHOA係数シーケンス
Figure 0006542269
を知覚的にデコードして前記打ち切りされたHOA係数シーケンス
Figure 0006542269
を得るよう構成された知覚的デコーダ42と;前記エンコードされたサイド情報部分をデコードして(s43)、前記サブバンド関係方向情報MDIR(k+1,f1),…,MDIR(k+1,fF)、予測行列A(k+1,f1),…,A(k+1,fF)、利得制御サイド情報e1(k),β1(k),…,eI(k),βI(k)および割り当てベクトルvAMB,ASSIGN(k)を得るよう構成されたサイド情報源デコーダ43とを有する。
図13は、ある実施形態における、低ビットレートのエンコード方法のフローチャートを示している。所与の数の係数シーケンスを有する入力HOA信号のフレームを低ビットレート・エンコードする方法であって、各係数シーケンスはインデックスをもつ、方法が、
打ち切りされたHOA表現に含まれるアクティブな係数シーケンスのインデックスの集合IC,ACT(k)を決定する段階s111と;
前記入力HOA信号から、候補方向の第一の集合MDIR(k)を推定する段階s16と;
前記入力HOA信号を複数の周波数サブバンドf1,…fFに分割する段階s15であって、それらの周波数サブバンドの係数シーケンス
Figure 0006542269
が得られる、段階と;
各周波数サブバンドについて、方向の第二の集合MDIR(k,f1),…,MDIR(k,fF)を推定する段階s161であって、方向の前記第二の集合の各要素は第一および第二のインデックスをもつインデックスのタプルであり、前記第二のインデックスは現在の周波数サブバンドについてのアクティブな方向のインデックスであり、前記第一のインデックスは該アクティブな方向の軌跡インデックスであり、各アクティブな方向は前記入力HOA信号の候補方向の前記第一の集合MDIR(k)にも含まれるものであり、
各周波数サブバンドについて、その周波数サブバンドの係数シーケンス
Figure 0006542269
からそれぞれの周波数サブバンドの方向の前記第二の集合MDIR(k,f1),…,MDIR(k,fF)に従って、方向性サブバンド信号
Figure 0006542269
を計算する段階s17と;
各周波数サブバンドについて、それぞれの周波数サブバンドのアクティブな係数シーケンスのインデックスの前記集合IC,ACT(k)を使ってその周波数サブバンドの係数シーケンス
Figure 0006542269
から方向性サブバンド信号
Figure 0006542269
を予測するよう適応された予測行列A(k,f1),…,A(k,fF)を計算する段階s18と;
候補方向の前記第一の集合MDIR(k)、方向の前記第二の集合MDIR(k,f1),…,MDIR(k,fF)、前記予測行列A(k,f1),…,A(k,fF)および前記打ち切りされたHOA表現CT(k)をエンコードする段階s19とを含む。
ある実施形態では、前記打ち切りされたHOA表現CT(k)のエンコードは、前記打ち切りされたHOAチャネル・シーケンスの部分的な脱相関s12と、前記打ち切りされたHOAチャネル・シーケンスy1(k),…,yI(k)をトランスポート・チャネルに割り当てるためのチャネル割り当てs13と、前記トランスポート・チャネルのそれぞれに対して利得制御を実行する段階s14であって、各トランスポート・チャネルについての利得制御サイド情報ei(k−1)、βi(k−1)が生成される、段階と、知覚的エンコーダ31において、利得制御された打ち切りされたHOAチャネル・シーケンスz1(k),…,zI(k)をエンコードする段階s31と、前記利得制御サイド情報ei(k−1)、βi(k−1)、候補方向の前記第一の集合MDIR(k)、方向の前記第二の集合MDIR(k,f1)、…、MDIR(k,fF)および前記予測行列A(k,f1),…,A(k,fF)をサイド情報源符号化器32においてエンコードする段階s32と、前記知覚的エンコーダ31および前記サイド情報源符号化器32の出力を多重化s33して、エンコードされたHOA信号フレーム
Figure 0006542269
を得る段階とを含む。
ある実施形態では、所与の数の係数シーケンスを有する入力HOA信号のフレームをフレームごとにエンコードする装置であって、各係数シーケンスがインデックスをもつ、装置が、プロセッサと、該プロセッサによって実行されたときに、該プロセッサに請求項8の段階を実行させる命令を記憶しているメモリとを有する。
図14は、ある実施形態におけるデコード方法のフローチャートを示している。低ビットレート圧縮されたHOA表現をデコードするための本方法は、
前記圧縮されたHOA表現から、複数の打ち切りされたHOA係数シーケンス
Figure 0006542269
前記打ち切りされたHOA係数シーケンスのシーケンス・インデックスを示すまたは含む割り当てベクトルvAMB,ASSIGN(k)、サブバンドに関係した方向情報MDIR(k+1,f1),…,MDIR(k+1,fF)、複数の予測行列A(k+1,f1),…,A(k+1,fF)および利得制御サイド情報e1(k),β1(k),…,eI(k),βI(k)を抽出する段階と;
前記複数の打ち切りされたHOA係数シーケンス
Figure 0006542269
前記利得制御サイド情報e1(k),β1(k),…,eI(k),βI(k)および前記割り当てベクトルvAMB,ASSIGN(k)から打ち切りされたHOA表現
Figure 0006542269
を再構成する段階s51、s52と;
分解フィルタバンク53において、前記再構成された打ち切りされたHOA表現
Figure 0006542269
を複数F個の周波数サブバンドについての周波数サブバンド表現
Figure 0006542269
に分解する段階s53と;
各周波数サブバンド表現について方向性サブバンド合成ブロック54において、前記再構成された打ち切りされたHOA表現の前記それぞれの周波数サブバンド表現
Figure 0006542269
と、前記サブバンドに関係した方向情報MDIR(k+1,f1),…,MDIR(k+1,fF)と、前記予測行列A(k+1,f1),…,A(k+1,fF)とから、予測された方向性HOA表現
Figure 0006542269
を合成する段階s54と;
前記F個の周波数サブバンドのそれぞれについてサブバンド組成ブロック55において、係数シーケンス
Figure 0006542269
をもつデコードされたサブバンドHOA表現
Figure 0006542269
を組成する段階s55であって、該係数シーケンスは、該係数シーケンスが前記割り当てベクトルvAMB,ASSIGN(k)に含まれるインデックスnをもつ場合には前記打ち切りされたHOA表現
Figure 0006542269
の係数シーケンスから得られ、それ以外の場合には前記方向性サブバンド合成ブロック54の一つによって与えられる前記予測された方向性HOA成分
Figure 0006542269
の係数シーケンスから得られる、段階と;
合成フィルタバンク56において、前記デコードされたサブバンドHOA表現
Figure 0006542269
を合成して、デコードされたHOA表現
Figure 0006542269
を得る段階とを含む。
ある実施形態では、前記抽出する段階は、前記圧縮されたHOA表現を多重分離s41して、知覚的に符号化された部分とエンコードされたサイド情報部分とを取得し、前記エンコードされた打ち切りされたHOA係数シーケンスを知覚的にデコードs42し、サイド情報源デコーダ43において、前記エンコードされたサイド情報をデコードs43することを含む。ある実施形態では、前記複数の打ち切りされたHOAシーケンスから打ち切りされたHOA表現
Figure 0006542269
を再構成することは、逆利得制御s51を実行することおよび前記打ち切りされたHOA表現
Figure 0006542269
を再構成s52することの一つまたは複数を含む。
ある実施形態では、コンピュータ可読媒体が、優勢な方向性信号の方向のデコードのための前記方法をコンピュータに実行させるための実行可能命令を記憶している。
ある実施形態では、圧縮されたHOA表現をデコードするための装置が、プロセッサと、該プロセッサによって実行されたときに、前記プロセッサに請求項1記載の段階を実行させる命令を記憶しているメモリとを有する。
実質的に同じ機能を実質的に同じ仕方で実行して同じ結果を達成する要素のあらゆる組み合わせは本発明の範囲内であること、本稿および(適切な場合には)請求項および図面に開示される各事項は、独立してまたは任意の適切な組み合わせにおいて設けられてもよいことが明確に意図されている。特徴は、適切な場合には、ハードウェア、ソフトウェアまたは両者の組み合わせにおいて実装されうる。接続は、該当する場合には、無線の接続または有線の必ずしも直接もしくは専用ではない接続として実装されてもよい。ある実施形態では、抽出モジュール、利得制御ユニット、サブバンド信号グループ化ユニット、処理ユニットその他といった上述したモジュールまたはユニットのそれぞれは、少なくとも一つのシリコン・コンポーネントを使って少なくとも部分的にハードウェアで実装される。

Claims (24)

  1. 圧縮されたHOA表現をデコードする本方法であって、
    ・前記圧縮されたHOA表現から、複数の打ち切りされたHOA係数シーケンス、前記打ち切りされたHOA係数シーケンスのシーケンス・インデックスを示すまたは含む割り当てベクトル、サブバンドに関係した方向情報、複数の予測行列および利得制御サイド情報を抽出する段階と;
    ・前記複数の打ち切りされたHOA係数シーケンス、前記利得制御サイド情報および前記割り当てベクトルから打ち切りされたHOA表現を再構成する段階と;
    ・分解フィルタバンクにおいて、前記再構成された打ち切りされたHOA表現を複数F個の周波数サブバンドについての周波数サブバンド表現に分解する段階と;
    ・各周波数サブバンド表現について方向性サブバンド合成ブロックにおいて、前記再構成された打ち切りされたHOA表現のそれぞれの周波数サブバンド表現と、前記サブバンドに関係した方向情報と、前記予測行列とから、予測された方向性HOA表現を合成する段階と;
    ・前記F個の周波数サブバンドのそれぞれについてサブバンド組成ブロックにおいて、係数シーケンスをもつデコードされたサブバンドHOA表現を組成する段階であって、該係数シーケンスは、該係数シーケンスが前記割り当てベクトルに含まれるインデックスnをもつ場合には前記打ち切りされたHOA表現の係数シーケンスから得られ、それ以外の場合には前記方向性サブバンド合成ブロックの一つによって与えられる前記予測された方向性HOA成分の係数シーケンスから得られる、段階と;
    ・合成フィルタバンクにおいて、前記デコードされたサブバンドHOA表現を合成して、デコードされたHOA表現を得る段階とを含む、
    方法。
  2. 前記抽出する段階が、エンコードされた打ち切りされたHOA係数シーケンスを含む知覚的に符号化された部分を取得することを含み、知覚的デコーダにおいて、前記エンコードされた打ち切りされたHOA係数シーケンスを知覚的にデコードして、前記打ち切りされたHOA係数シーケンスを取得することをさらに含む、請求項記載の方法。
  3. 前記抽出する段階が、エンコードされたサイド情報部分を取得することを含み、サイド情報源デコーダにおいて、前記エンコードされたサイド情報部分をデコードして、前記サブバンドに関係した方向情報、予測行列、利得制御サイド情報および割り当てベクトルを取得することをさらに含む、請求項記載の方法。
  4. 前記サブバンドに関係した方向情報は、アクティブな方向の集合(MDIR(k))と、第一および第二のインデックスをもつインデックスのタプルを含むタプル集合(MDIR(k,f1),…,MDIR(k,fF))とを含み、前記第二のインデックスは、現在の周波数サブバンドについてのアクティブな方向の前記集合内のアクティブな方向のインデックスであり、前記第一のインデックスはそのアクティブな方向の軌跡インデックスであり、軌跡とは特定の音源の方向の時間的シーケンスである、請求項記載の方法。
  5. 少なくとも一つの周波数サブバンド表現が二つ以上の周波数サブバンドのサブバンド・グループを含む、請求項記載の方法。
  6. サブバンド・グループ構成情報が前記圧縮されたHOA表現から受領または抽出され、前記サブバンド・グループ構成情報が前記合成フィルタバンクをセットアップするために使われる、請求項記載の方法。
  7. 所与の数の係数シーケンスを有する入力HOA信号のフレームをエンコードする方法であって、各係数シーケンスはインデックスをもち、当該方法が、
    ・打ち切りされたHOA表現に含まれるべきアクティブな係数シーケンスのインデックスの集合を決定する段階と;
    ・低減された数の0でない係数シーケンスもつ前記打ち切りされたHOA表現を計算する段階と;
    ・前記入力HOA信号から、候補方向の第一の集合を推定する段階と;
    ・前記入力HOA信号を複数の周波数サブバンドに分割する段階であって、それらの周波数サブバンドの係数シーケンスが得られる、段階と;
    ・各周波数サブバンドについて、方向の第二の集合を推定する段階であって、方向の前記第二の集合の各要素は第一および第二のインデックスをもつインデックスのタプルであり、前記第二のインデックスは現在の周波数サブバンドについてのアクティブな方向のインデックスであり、前記第一のインデックスは該アクティブな方向の軌跡インデックスであり、各アクティブな方向は前記入力HOA信号の候補方向の前記第一の集合にも含まれるものであり、
    ・各周波数サブバンドについて、その周波数サブバンドの係数シーケンスからそれぞれの周波数サブバンドの方向の前記第二の集合に従って、方向性サブバンド信号を計算する段階と;
    ・各周波数サブバンドについて、それぞれの周波数サブバンドのアクティブな係数シーケンスのインデックスの前記集合を使ってその周波数サブバンドの係数シーケンスから方向性サブバンド信号を予測するよう適応された予測行列を計算する段階と;
    ・候補方向の前記第一の集合、方向の前記第二の集合、前記予測行列および前記打ち切りされたHOA表現をエンコードする段階とを含む、
    方法。
  8. 二つ以上のサブバンドの少なくとも一つのグループが生成され、前記少なくとも一つのグループが単一のサブバンドの代わりに使われ、単一のサブバンドと同じように扱われる、請求項記載の方法。
  9. 前記打ち切りされたHOA表現のエンコードは、
    ・前記打ち切りされたHOAチャネル・シーケンスの部分的な脱相関と;
    ・前記打ち切りされたHOAチャネル・シーケンスをトランスポート・チャネルに割り当てるためのチャネル割り当てと;
    ・前記トランスポート・チャネルのそれぞれに対して利得制御を実行する段階であって、各トランスポート・チャネルについての利得制御サイド情報が生成される、段階と;
    ・知覚的エンコーダにおいて、利得制御された打ち切りされたHOAチャネル・シーケンスをエンコードする段階と;
    ・前記利得制御サイド情報、候補方向の前記第一の集合、方向の前記第二の集合および前記予測行列をサイド情報源符号化器においてエンコードする段階と;
    ・前記知覚的エンコーダおよび前記サイド情報源符号化器の出力を多重化して、エンコードされたHOA信号フレームを得る段階とを含む、
    請求項記載の方法。
  10. 各周波数サブバンドについて方向の第二の集合を推定する前記段階において、周波数サブバンドの方向は、フルバンドHOA信号の方向(MDIR(k))のうちでのみ探索される、請求項記載の方法。
  11. アクティブな方向の軌跡を決定する段階をさらに含み、アクティブな方向とは音源の方向であり、軌跡とは特定の音源の方向の時間的なシーケンスである、請求項記載の方法。
  12. 打ち切りされたHOA表現とは、一つまたは複数の係数シーケンスが0に設定されているHOA信号である、請求項記載の方法。
  13. HOA信号をデコードする装置であって、
    ・前記圧縮されたHOA表現から、複数の打ち切りされたHOA係数シーケンス、前記打ち切りされたHOA係数シーケンスのシーケンス・インデックスを示すまたは含む割り当てベクトル、サブバンドに関係した方向情報、複数の予測行列および利得制御サイド情報を抽出するよう構成された抽出モジュールと;
    ・前記複数の打ち切りされたHOA係数シーケンス、前記利得制御サイド情報および前記割り当てベクトルから、打ち切りされたHOA表現を再構成するよう構成された再構成モジュールと;
    ・前記再構成された打ち切りされたHOA表現を複数F個の周波数サブバンドについての周波数サブバンド表現に分解するよう構成された分解フィルタバンク・モジュールと;
    ・各周波数サブバンドについて、前記再構成された打ち切りされたHOA表現のそれぞれの周波数サブバンド表現と、前記サブバンドに関係した方向情報と、前記予測行列とから、予測された方向性HOA表現を合成するよう構成された少なくとも一つの方向性サブバンド合成モジュールと;
    ・前記F個の周波数サブバンドのそれぞれについて、係数シーケンスをもつデコードされたサブバンドHOA表現を組成するよう構成された少なくとも一つのサブバンド組成モジュール55であって、該係数シーケンスは、該係数シーケンスが前記割り当てベクトルに含まれるインデックスnをもつ場合には前記打ち切りされたHOA表現の係数シーケンスから得られ、あるいはそれ以外の場合には前記方向性サブバンド合成モジュールの一つによって与えられる前記予測された方向性HOA成分の係数シーケンスから得られる、モジュールと;
    ・前記デコードされたサブバンドHOA表現を合成して、デコードされたHOA表現を得るよう構成された合成フィルタバンク・モジュールとを有する、
    装置。
  14. 前記抽出モジュールが、少なくとも、
    ・エンコードされたサイド情報部分と、エンコードされた打ち切りされたHOA係数シーケンスを含む知覚的に符号化された部分とを取得するためのデマルチプレクサと;
    ・前記エンコードされた打ち切りされたHOA係数シーケンスを知覚的にデコードして前記打ち切りされたHOA係数シーケンスを得るよう構成された知覚的デコーダと;
    ・前記エンコードされたサイド情報部分をデコードして、前記サブバンドに関係した方向情報、予測行列、利得制御サイド情報および割り当てベクトルを得るよう構成されたサイド情報源デコーダとを有する、
    請求項13記載の装置。
  15. 前記抽出モジュールが、エンコードされたサイド情報部分を取得し、さらに、前記エンコードされたサイド情報部分をデコードして、前記サブバンドに関係した方向情報、予測行列、利得制御サイド情報および割り当てベクトルを取得するよう構成された
    サイド情報源デコーダを有する、請求項13記載の装置。
  16. 前記サブバンドに関係した方向情報は、アクティブな方向の集合(MDIR(k))と、第一および第二のインデックスをもつインデックスのタプルを含むタプル集合(MDIR(k,f1),…,MDIR(k,fF))とを含み、前記第二のインデックスは、現在の周波数サブバンドについてのアクティブな方向の前記集合内のアクティブな方向のインデックスであり、前記第一のインデックスはそのアクティブな方向の軌跡インデックスであり、軌跡とは特定の音源の方向の時間的シーケンスである、請求項13記載の装置。
  17. 少なくとも一つの周波数サブバンド表現が二つ以上の周波数サブバンドのサブバンド・グループを含む、請求項13記載の装置。
  18. サブバンド・グループ構成情報が前記圧縮されたHOA表現から受領または抽出され、前記サブバンド・グループ構成情報が前記合成フィルタバンクをセットアップするために使われる、請求項17記載の装置。
  19. 所与の数の係数シーケンスをもつ入力HOA信号のフレームをエンコードするための装置であって、各係数シーケンスはインデックスをもち、当該装置が、
    ・低減された数の0でない係数シーケンスをもつ打ち切りされたHOA表現を計算するよう構成され、前記打ち切りされたHOA表現に含まれているアクティブな係数シーケンスのインデックスの集合を決定するさらに構成された計算および決定モジュールと;
    ・前記入力HOA信号を複数の周波数サブバンドに分割するよう構成された分解フィルタバンク・モジュールであって、それらの周波数サブバンドの係数シーケンスが得られる、分解フィルタバンク・モジュールと;
    ・前記入力HOA信号から、候補方向の第一の集合を推定するよう構成され、前記周波数サブバンドのそれぞれについて、方向の第二の集合を推定するようさらに構成された方向推定モジュールであって、方向の前記第二の集合の各要素は第一および第二のインデックスをもつインデックスのタプルであり、前記第二のインデックスは現在の周波数サブバンドについてアクティブな方向のインデックスであり、前記第一のインデックスは該アクティブな方向の軌跡インデックスであり、各アクティブな方向は前記入力HOA信号の候補方向の前記第一の集合にも含まれる、方向推定モジュールと;
    ・前記周波数サブバンドのそれぞれについて、それぞれの周波数サブバンドの方向の前記第二の集合に応じてその周波数サブバンドの係数シーケンスから方向性サブバンド信号を計算するよう構成された少なくとも一つの方向性サブバンド計算モジュールと;
    ・前記周波数サブバンドのそれぞれについて、それぞれの周波数サブバンドのアクティブな係数シーケンスのインデックスの前記集合を使ってその周波数サブバンドの係数シーケンスから方向性サブバンド信号を予測するよう適応された予測行列を計算するよう構成された少なくとも一つの方向性サブバンド予測モジュールと;
    ・候補方向の前記第一の集合、方向の前記第二の集合、前記予測行列および前記打ち切りされたHOA表現をエンコードするよう構成されたエンコード・モジュールとを有する、
    装置。
  20. 二つ以上のサブバンドの少なくとも一つのグループが生成され、前記少なくとも一つのグループが単一のサブバンドの代わりに使われ、単一のサブバンドと同じように扱われる、請求項19記載の装置。
  21. ・前記打ち切りされたHOAチャネル・シーケンスを部分的に脱相関させるよう構成された部分的脱相関器と;
    ・前記打ち切りされたHOAチャネル・シーケンスをトランスポート・チャネルに割り当てるよう構成されたチャネル割り当てモジュールと;
    ・前記トランスポート・チャネルに対して利得制御を実行するよう構成された少なくとも一つの利得制御ユニットであって、各トランスポート・チャネルについての利得制御サイド情報が生成される、ユニットとをさらに有しており、
    前記エンコード・モジュールが、
    ・利得制御された打ち切りされたHOAチャネル・シーケンスをエンコードするよう構成された知覚的エンコーダと;
    ・前記利得制御サイド情報、候補方向の前記第一の集合、方向の前記第二の集合および前記予測行列をエンコードするよう構成されたサイド情報源符号化器と;
    ・前記知覚的エンコーダおよび前記サイド情報源符号化器の出力を多重化して、エンコードされたHOA信号フレームを得るよう構成されたマルチプレクサとを有する、
    請求項19記載の装置。
  22. 前記方向推定モジュールが、各周波数サブバンドについて方向の第二の集合を推定するときに、周波数サブバンドの方向を、フルバンドHOA信号の方向(MDIR(k))のうちでのみ探索する、請求項19記載の装置。
  23. アクティブな方向の軌跡を決定するよう構成された軌跡決定モジュールをさらに有しており、アクティブな方向とは音源の方向であり、軌跡とは特定の音源の方向の時間的なシーケンスである、請求項19記載の装置。
  24. 打ち切りされたHOA表現とは、一つまたは複数の係数シーケンスが0に設定されているHOA信号である、請求項19記載の装置。
JP2016573839A 2014-07-02 2015-07-02 圧縮hoa表現をデコードする方法および装置ならびに圧縮hoa表現をエンコードする方法および装置 Active JP6542269B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP14306080 2014-07-02
EP14306080.4 2014-07-02
EP14194186.4A EP2963949A1 (en) 2014-07-02 2014-11-20 Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation
EP14194186.4 2014-11-20
PCT/EP2015/065086 WO2016001356A1 (en) 2014-07-02 2015-07-02 Method and apparatus for decoding a compressed hoa representation, and method and apparatus for encoding a compressed hoa representation

Publications (3)

Publication Number Publication Date
JP2017523451A JP2017523451A (ja) 2017-08-17
JP2017523451A5 JP2017523451A5 (ja) 2018-08-09
JP6542269B2 true JP6542269B2 (ja) 2019-07-10

Family

ID=51220514

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016573839A Active JP6542269B2 (ja) 2014-07-02 2015-07-02 圧縮hoa表現をデコードする方法および装置ならびに圧縮hoa表現をエンコードする方法および装置

Country Status (7)

Country Link
US (1) US9774975B2 (ja)
EP (2) EP2963949A1 (ja)
JP (1) JP6542269B2 (ja)
KR (1) KR102296067B1 (ja)
CN (1) CN106663432B (ja)
TW (1) TWI657434B (ja)
WO (1) WO2016001356A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7224302B2 (ja) 2017-05-09 2023-02-17 ドルビー ラボラトリーズ ライセンシング コーポレイション マルチチャネル空間的オーディオ・フォーマット入力信号の処理
CN109521731B (zh) * 2017-09-19 2021-07-30 沈阳高精数控智能技术股份有限公司 一种基于公差带的G2连续Bézier刀具轨迹平滑算法
EP3740950B8 (en) 2018-01-18 2022-05-18 Dolby Laboratories Licensing Corporation Methods and devices for coding soundfield representation signals
CN118197326A (zh) * 2018-02-01 2024-06-14 弗劳恩霍夫应用研究促进协会 使用混合编码器/解码器空间分析的音频场景编码器、音频场景解码器及相关方法
WO2020039734A1 (ja) * 2018-08-21 2020-02-27 ソニー株式会社 オーディオ再生装置、オーディオ再生方法及びオーディオ再生プログラム
CN110476960B (zh) * 2019-09-19 2021-06-15 河北省农林科学院植物保护研究所 噻虫胺薄膜缓释型种子处理悬浮剂及其制备方法与应用
CN115376527A (zh) * 2021-05-17 2022-11-22 华为技术有限公司 三维音频信号编码方法、装置和编码器
CN115376530A (zh) * 2021-05-17 2022-11-22 华为技术有限公司 三维音频信号编码方法、装置和编码器
CN115881140A (zh) * 2021-09-29 2023-03-31 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序产品
CN115546323B (zh) * 2022-08-31 2023-06-09 广东工业大学 一种基于球坐标主成分分析的图像压缩重构方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5075880A (en) * 1988-11-08 1991-12-24 Wadia Digital Corporation Method and apparatus for time domain interpolation of digital audio signals
JP3531178B2 (ja) * 1993-05-27 2004-05-24 ソニー株式会社 ディジタル信号処理装置及び方法
US6931370B1 (en) * 1999-11-02 2005-08-16 Digital Theater Systems, Inc. System and method for providing interactive audio in a multi-channel audio environment
JP3995383B2 (ja) * 2000-02-15 2007-10-24 三洋電機株式会社 水素吸蔵合金電極の製造方法
JP4676140B2 (ja) * 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
WO2005036528A1 (en) * 2003-10-10 2005-04-21 Agency For Science, Technology And Research Method for encoding a digital signal into a scalable bitstream; method for decoding a scalable bitstream.
US7599840B2 (en) * 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding
CN101202043B (zh) * 2007-12-28 2011-06-15 清华大学 音频信号的编码方法和装置与解码方法和装置
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US9288603B2 (en) * 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
EP2738962A1 (en) 2012-11-29 2014-06-04 Thomson Licensing Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
EP2824661A1 (en) 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals

Also Published As

Publication number Publication date
KR102296067B1 (ko) 2021-09-01
WO2016001356A1 (en) 2016-01-07
KR20170024581A (ko) 2017-03-07
EP3165005A1 (en) 2017-05-10
CN106663432B (zh) 2021-02-02
JP2017523451A (ja) 2017-08-17
EP2963949A1 (en) 2016-01-06
CN106663432A (zh) 2017-05-10
US20170164131A1 (en) 2017-06-08
TW201603004A (zh) 2016-01-16
US9774975B2 (en) 2017-09-26
EP3165005B1 (en) 2018-11-28
TWI657434B (zh) 2019-04-21

Similar Documents

Publication Publication Date Title
JP6542269B2 (ja) 圧縮hoa表現をデコードする方法および装置ならびに圧縮hoa表現をエンコードする方法および装置
JP6585094B2 (ja) Hoa信号表現のサブバンド内の優勢な方向性信号の方向のエンコード/デコードのための方法および装置
CN106471579B (zh) 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置
JP6585095B2 (ja) 圧縮hoa表現をデコードする方法および装置ならびに圧縮hoa表現をエンコードする方法および装置
CN106463131B (zh) 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180626

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190612

R150 Certificate of patent or registration of utility model

Ref document number: 6542269

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250