JP2024520456A - オーディオ指向性コーディング - Google Patents

オーディオ指向性コーディング Download PDF

Info

Publication number
JP2024520456A
JP2024520456A JP2023572920A JP2023572920A JP2024520456A JP 2024520456 A JP2024520456 A JP 2024520456A JP 2023572920 A JP2023572920 A JP 2023572920A JP 2023572920 A JP2023572920 A JP 2023572920A JP 2024520456 A JP2024520456 A JP 2024520456A
Authority
JP
Japan
Prior art keywords
audio
predicted
prediction
adjacent
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023572920A
Other languages
English (en)
Inventor
ユルゲン・ヘル
フローリン・ギド
Original Assignee
フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. filed Critical フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ.
Publication of JP2024520456A publication Critical patent/JP2024520456A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

ストリームを予測的に符号化および復号するための技法の例が開示される。ビットストリームに符号化されたオーディオ信号を復号するための装置が提案され、オーディオ信号は異なる方向に従って異なるオーディオ値を有し、方向は単位球面における離散位置と関連付けられ、単位球面における離散位置は、赤道から第1の極に向かい赤道から第2の極に向かって平行線に従ってずらされており、装置は、ビットストリームからの符号化されたオーディオ信号の予測残差値を読み取るように構成されるビットストリーム読取器と、予測によって、および符号化されたオーディオ信号の予測残差値から、オーディオ信号を取得するように構成される予測セクションとを含み、予測セクションは、隣接離散位置の線に沿った、少なくとも1つの初期予測シーケンスであって、同じ初期予測シーケンスの中の直前のオーディオ値のオーディオ値に基づいてオーディオ値を予測する、初期予測シーケンスと、複数のサブシーケンスに分けられる、少なくとも1つの後続の予測シーケンスであって、各サブシーケンスは、平行線に沿って移動し、以前に予測された平行線に隣接しており、処理されている平行線に沿ったオーディオ値は、同じサブシーケンスの中の隣接離散位置のオーディオ値、および以前に予測された隣接する平行線のオーディオ値の補間されたバージョンであって、以前に予測された隣接する平行線の各々の補間されたバージョンは、処理されている平行線の同数の離散位置を有する、補間されたバージョンに少なくとも基づいて予測されるようなものである、後続の予測シーケンスとを含む、複数の予測シーケンスを使用する。

Description

指向性を有するオーディオ信号を符号化および復号するための装置および方法がここで開示される。
指向性は、たとえば没入感のある再生環境における、音源の重要な音響的特性である。指向性は周波数依存であり、オクターブまたは1/3オクターブ周波数グリッド上の離散周波数で測定され得る。所与の周波数について、指向性は単位球面上で定義されるスカラー値である。推定は、球面上に均一に分布する多数のマイクロフォンを用いて行われ得る。そして、測定結果は後処理され、細かい、または非常に細かい球面グリッド上で正確に補間される。値は、SOFAファイル(非特許文献1)といった、利用可能な互換ファイルフォーマットの1つに保存される。これらのファイルは非常に大きく、最大で数メガバイトであり得る。
しかしながら、送信のためにビットストリームへと含めるには、周波数帯域の数および再構築に望まれる正確さ(たとえば、モバイルデバイスではより低い正確さ)に応じて、サイズが数百バイトから最大でも数キロバイトの次元に縮小されるような、より一層コンパクトな表現が必要とされる。
SOFA(非特許文献1)およびOpenDAFF(非特許文献2)のような、指向性データをサポートするいくつかのファイルフォーマットがあるが、それらの主な目標は、非常にフレキシブルな相互交換フォーマットであること、また、データがどのように生成されたか、および測定に何の機器が使用されたかのような、大量の追加のメタデータを保存することである。一部のファイルフォーマットは多数の異種のデータタイプを許容するので、この追加のメタデータは、研究用途でデータを自動的に解釈してロードするのをより簡単にする。その上、通常定義される球面グリッドは、細かいか、または非常に細かいので、2次元補間の代わりに、最近傍探索を使用するというはるかにより簡単な手法が使用され得る。
Piotr Majdak他、「Spatially Oriented Format for Acoustics: A Data Exchange Format Representing Head-Related Transfer Functions」、134th Convention of the Audio Engineering Society、convention paper 8880、2013年5月 Frank Wefers、「OpenDAFF: A free, open-source software package for directional audio data」、DAGA 2010、2010年3月
よりコンパクトな表現を取得するためのシステムが追求される。
ビットストリームに符号化されたオーディオ信号を復号するための装置が提案され、オーディオ信号は異なる方向に従って異なるオーディオ値を有し、方向は単位球面における離散位置と関連付けられ、単位球面における離散位置は、赤道から第1の極に向かい赤道から第2の極に向かって平行線に従ってずらされており、装置は、
ビットストリームからの符号化されたオーディオ信号の予測残差値を読み取るように構成されるビットストリーム読取器と、
予測によって、および符号化されたオーディオ信号の予測残差値から、オーディオ信号を取得するように構成される予測セクションとを含み、予測セクションは、
隣接離散位置の線に沿った、少なくとも1つの初期予測シーケンスであって、同じ初期予測シーケンスの中の直前のオーディオ値のオーディオ値に基づいてオーディオ値を予測する、初期予測シーケンスと、
複数のサブシーケンスに分けられる、少なくとも1つの後続の予測シーケンスであって、各サブシーケンスは、平行線に沿って移動し、以前に予測された平行線に隣接しており、処理されている平行線に沿ったオーディオ値は、
同じサブシーケンスの中の隣接離散位置のオーディオ値、および
以前に予測された隣接する平行線のオーディオ値の補間されたバージョンであって、以前に予測された隣接する平行線の各々の補間されたバージョンは、処理されている平行線の同数の離散位置を有する、補間されたバージョン
に少なくとも基づいて予測されるようなものである、後続の予測シーケンスと
を含む、複数の予測シーケンスを使用する。
オーディオ信号を符号化するための装置も提案され、オーディオ信号は、異なる方向に従って異なるオーディオ値を有し、方向は単位球面における離散位置と関連付けられ、単位球面における離散位置は、赤道から2つの極に向かって平行線に従ってずらされており、装置は、
隣接離散位置の線に沿った、少なくとも1つの初期予測シーケンス(10)であって、同じ初期予測シーケンスの中の直前のオーディオ値のオーディオ値に基づいてオーディオ値を予測することによる、初期予測シーケンスと、
複数のサブシーケンスに分けられる、少なくとも1つの後続の予測シーケンスであって、各サブシーケンスは、平行線に沿って移動し、以前に予測された平行線に隣接しており、オーディオ値は、
同じサブシーケンスの中の隣接離散位置のオーディオ値、および
以前に予測された隣接する平行線のオーディオ値の補間されたバージョンであって、各々の補間されたバージョンは、平行線の同数の離散位置を有する、補間されたバージョン
に少なくとも基づいて予測されるようなものである、後続の予測シーケンスと
を含む、複数の予測シーケンスを行うように構成される予測器ブロックと、
予測された値をオーディオ信号(102)の実際の値と比較して予測残差値(122)を生成するように構成される、予測残差生成器(120)と、
ビットストリーム(104)に、予測残差値(122)またはその処理されたバージョンを書き込むように構成される、ビットストリーム書込器(130)と
を含む。
エンコーダの例を示す図である。 エンコーダの例を示す図である。 エンコーダの例を示す図である。 エンコーダの例を示す図である。 エンコーダの例を示す図である。 エンコーダの例を示す図である。 デコーダの例を示す図である。 デコーダの例を示す図である。 予測がどのように行われ得るかを示す図である。 復号方法の例を示す図である。 符号化動作の例を示す図である。 予測の例を示す図である。 予測の例を示す図である。
エンコーダおよびエンコーダ方法
図1fはエンコーダ100の例を示す。エンコーダ100は、オーディオ信号101(たとえば、それらの処理されたバージョン102の中の)からの予測(たとえば、10、20、30、40、以下参照)を行って、予測された値112を取得し得る。予測残差生成器120は、予測された値112の予測残差値122を生成し得る。予測残差生成器120の動作の例は、オーディオ信号値102から予測された値112を差し引くことであり得る(たとえば、信号102の隣接する値と予測された値112との差分)。ここで、オーディオ信号102は、以下、「カバー」とも称される。予測器ブロック110および予測残差生成器120は、予測セクション110'を構成し得る。予測残差値122は、ビットストリーム104を生成するためにビットストリーム書込器130に入力され得る。ビットストリーム書込器130は、たとえばエントロピーコーダを含み得る。
オーディオ信号102は、(たとえば、プリプロセッサ105によって出力されるような)オーディオ信号101の前処理されたバージョンであり得る。プリプロセッサ105は、たとえば、
1)線形スケールから対数スケール(たとえば、デシベルスケール)にオーディオ信号101を変換すること、
2)異なる周波数帯域にオーディオ信号を分解すること
のうちの少なくとも1つを行い得る。
プリプロセッサ105は、異なる周波数帯域にオーディオ信号101を分解し得るので、前処理されたオーディオ信号102は、複数の帯域幅(たとえば、最も低い周波数帯域から最も高い周波数帯域)を含む。予測器ブロック110、予測残差生成器120(またはより一般には予測セクション110')、および/またはビットストリーム書込器130における動作は、各帯域について繰り返され得る。
どのタイプ(たとえば、順序)の予測が行われるべきかを決めるために予測選択を行うことも可能であることが示される(以下を参照されたい)。
図1cは、微分生成器105aが先行する周波数帯域に関する微分残差105a'を生成する(これは最初の最も低い周波数帯域に対して行われ得ない)、図1fの変形を示す。前処理されたオーディオ信号102は、微分残差105aを生成するために、微分残差生成器105aにおいて微分されてもよい。予測セクション110'は、予測された値112を生成するために、信号102について予測を行ってもよい。
図5は、符号化動作500の例を示す。ステップの少なくとも一部は、エンコーダ100、100a、100b、100d、100e、100fによって行われ得る。
第1の符号化動作502(第1の段階)は、それに従って指向性信号が取得されるサンプリング動作であり得る。しかしながら、サンプリング動作502は、方法500において、またはエンコーダ100、100a、100bによって必ずしも行われるものではなく、たとえば、外部デバイスによって行われ得る(および、したがってオーディオ信号101はストレージに記憶されてもよく、またはエンコーダ100、100a、100bに送信されてもよい)。
ステップ504は、取得された値のデシベルもしくは他の対数スケールへの変換、および/または、オーディオ信号101を異なる周波数帯域へと分解することを含む。したがって、後続のステップ508~514は、各帯域に対して、たとえば対数(たとえば、デシベル)領域において行われ得る。
ステップ508において、微分の第3の段階が行われ得る(たとえば、各周波数帯域に対して微分値を取得するために)。このステップは、微分生成器105aによって行われてもよく、いくつかの例(たとえば、図1f)では飛ばされてもよい。
ステップ504および508(第2および第3の段階)の少なくとも1つは、プリプロセッサ105またはブロック10dによって行われてもよく、たとえば、オーディオ信号101の処理されたバージョン102を提供してもよい(処理されたバージョンについて予測が行われてもよい)。しかしながら、ステップ504および508がエンコーダ100、100a、100b、100d、100e、100fによって行われることは必須ではない。いくつかの例では、ステップ504および/または508は外部デバイスによって行われてもよく、オーディオ信号101の処理されたバージョン102が予測のために使用されてもよい。
ステップ509および510において、(たとえば、各周波数帯域に対する)オーディオ値を予測する第4の段階が、(たとえば、予測器ブロック110によって)行われる。予測を選択するという任意選択の状態509が行われ、行われることになる様々な予測(たとえば、様々な順序の予測)をシミュレートし、シミュレーションに従って、最良の予測効果をもたらす予測を使用すると決定することによって、行われ得る。たとえば、最良の予測効果は、予測残差を最小にするもの、および/またはビットストリーム104の長さを最小にするものであり得る。ステップ510において、予測が行われる(ステップ509が行われている場合、予測はステップ509において選ばれる予測であり、それ以外の場合、予測はあらかじめ決められている)。
ステップ512において、予測残差計算ステップが行われ得る。これは、予測残差生成器120(またはより一般的には予測セクション110')によって行われ得る。たとえば、オーディオ信号101(またはその処理されたバージョン102)間の予測残差112が、ビットストリームに符号化されるように、計算され得る。
ステップ514において、ビットストリームの書込みという第5の段階が、たとえばビットストリーム書込器130によって行われ得る。ビットストリーム104のビット長を最小にするために、ビットストリームの書込み514は、たとえば予測残差112を符号で置き換えることによって、たとえば圧縮を受けてもよい。
図1a(および、残差生成器105aのない対応する図1d)はエンコーダ100a(それぞれ100d)を示し、これは図1のエンコーダ100の代わりに使用され得る。オーディオ信号101は、前処理ブロック105aにおいて前処理および/または量子化される。したがって、前処理されたオーディオ信号102が取得され得る。前処理されたオーディオ信号102は、予測された値112を取得するために、予測器ブロック110(またはより一般的には予測セクション110')において予測のために使用され得る。微分残差生成器105a(図1a~図1cにはあるが、図1d~図1eにはない)は、微分残差105a'を出力し得る。予測残差生成器120は、微分残差105a'から予測の結果112を差し引くことによって、予測残差102を生成することができる。図1d~図1eの例では、残差122は、予測された値112と実際の値102との差分によって生成される。予測残差122は、ビットストリーム書込器130においてコーディングされ得る。ビットストリーム書込器130は、各コードの確率を推定する、他の還元的確率推定132を有し得る。この確率は、フィードバック線133により見られるように更新され得る。レンジコーダ134が、それらの確率に従ったコードとしてビットストリーム104に挿入され得る。
図1b(および残差生成器105aのない対応する図1e)は、エンコーダ100b(それぞれ100e)の図1aの例に似た例を示す。図1aの例との違いは、予測器選択ブロック109a(予測セクション110'の一部)が、たとえば、どの順序の予測を使用するかを決定するために(予測の順序は図6および図7において開示される、以下を参照されたい)、予測109a'(選択された予測ステップ509において行われ得る)を行ってもよい。
異なる周波数帯域が同じ空間分解能を有してもよい。
デコーダおよび復号方法
図2aおよび図2bは、デコーダ200a、200の例を各々示す(2つのデコーダの違いは、図2aのデコーダ200には積分器205aがないということであり、積分器には図1a~図1cの微分ブロック105aとは逆の役割がある)。デコーダ200は、ビットストリーム104(たとえば、エンコーダ100、100b、100c、100e、100f、100dによって生成されるようなビットストリーム)を読み取り得る。ビットストリーム読取器230は、ビットストリーム104から復号されたような値222を提供し得る。値222は、エンコーダの予測残差値122を表し得る。予測残差値上述したように、予測残差値222は、異なる周波数帯域に対して異なり得る。値222は、予測器ブロック210および積分器205aに入力され得る。予測器ブロック210は、エンコーダの予測器ブロック110と同じ方法で、しかし異なる入力を用いて、予測される値122を予測し得る。
予測残差加算器220の出力は、予測されることになる値212であり得る。予測されることになるオーディオ信号の値は、予測器ブロック210に出される。予測値212が取得され得る。
一般的な用語では、予測器210および加算器220(もし設けられれば、積分器ブロック205aも)は、予測セクション210'の一部である。
次いで、値202が、たとえば対数(デシベル)領域を線形領域へと変換することによって、異なる周波数帯域を分解することによって、ポストプロセッサ205に通され得る。
図4は、たとえばデコーダ200によって行われ得る、復号方法800の例を示す。ステップ815において、ビットストリーム104を読み取るための、ビットストリーム読取りの動作があり得る。ステップ810において、予測の動作があり得る(たとえば、以下を参照されたい)。ステップ812において、たとえば予測残差加算器220において、予測残差を適用する動作がある。ステップ808(任意選択)において、たとえばブロック205aにおいて、逆微分(たとえば、加算、積分)の動作があり得る。ステップ804において、対数領域(デシベル)から線形領域への変換、および/または周波数帯域の再合成の動作があり得る。ステップ802において、レンダリング動作があり得る。
異なる周波数帯域が、同じ空間分解能を有し得る。
単位球面における座標
図3は、オーディオ信号101(102)を符号化するために使用される座標系の例を示す。オーディオ信号101(102)は、異なる方向が原則として異なるオーディオ値(これはデシベルなどの対数領域にあってもよい)を有するという意味で、指向性がある。異なる方向に対するオーディオ値を提供するために、単位球面1が座標基準として使用される(図3)。座標基準は、人の聴取者が球面の中心にいると想像して、音の方向を表すために使用される。音源の異なる方向は、単位球面1における異なる位置と関連付けられる。単位球面1における位置は離散的であり、それは、各々のあり得る方向(これは理論的には無限にある)に対して値を有することが可能ではないからである。単位球面1における離散位置(これは以下のいくつかの部分では「点」とも呼ばれる)は、普通は地球のために使用される地理的座標系と似ている座標系(聴取者が地球の中心に位置する)、または天文学的な座標に従ってずらされ得る。ここで、北極4(聴取者の上)および南極2(聴取者の下)が定義される。聴取者の高さに、赤道も存在する(図3の線20に対応する)。赤道は、単位球面1の直径を直径として有する円周である。複数の平行線(円周)が、赤道と2つの極の各々との間で定義される。したがって、赤道から北極4に向かって、単調に減少する直径とともに複数の平行線が定義され、北半球を覆う。同じことが、赤道から南極2に向かって完全な他の平行線の連続について当てはまり、南半球を覆う。したがって、赤道は、オーディオ信号の異なる高度(仰角)に関連付けられる。平行線(赤道を含む)と、南極2および北極4は、単位球面1の全体を覆うことが理解され得る。したがって、各平行線および各極は、1つの固有の仰角に関連付けられる(たとえば、赤道は仰角0°に関連付けられ、北極は90°に関連付けられ、仰角が0°と90°の間である平行線が北半球にあり、南極は-90°に関連付けられ、仰角が-90°と0°の間である平行線が南半球にある)。さらに、少なくとも1つの子午線が定義され得る(図3では、1つの子午線は参照番号10に対応するものとして示されている)。少なくとも1つの子午線は、南極2から北極4に向かう円周の円弧として理解され得る。少なくとも1つの子午線は、極から極への、単位球面1における最大の円周の円弧(たとえば、半円周)を表し得る。子午線の円周上の延長は、赤道の円周上の延長の半分であり得る。北極4および南極2を子午線の一部であると見なしてもよい。少なくとも1つの子午線が定義され、互いに揃っている離散位置によって形成されていることに留意されたい。しかしながら、隣接する平行線の離散位置の間で方位角が整列していないことにより、単位球面1の表面全体にわたって他の子午線があることは保証されない。これは問題ではなく、それは、互いに揃っている(異なる平行線からとられた)離散位置によって形成される、単一の子午線が特定されれば十分であるからである。離散位置は、基準方位角0°に関する方位角によって、各平行線について測定され得る。子午線は、基準方位角0°にあってもよいので、方位角の測定のための基準子午線として使用されてもよい。したがって、各方向は、特定の仰角をもつ平行線または極、および子午線(特定の方位角を通る)に関連付けられ得る。
例では、座標は、角度ではなくインデックスに関して、以下のように表現されてもよい。
1)仰角インデックスei(現在予測される離散位置の平行線を示し、ei=0を有する赤道は仰角0°に対応し、南極および南半球の平行線は負の数のインデックスを有し、北極および北半球の平行線は正の数のインデックスを有する)
2)方位角インデックスai(現在予測される離散位置の方位角を示し、ai=0を有する基準子午線は方位角=0°に対応し、後続の離散位置は順番に番号を付けられる)
3)よって、値(cover[ei][ai]と表現されることがある)は、予測されると、離散位置における予測される値を示す
エンコーダにおける前処理および微分
一部の前処理(たとえば、504)および微分(たとえば、508)が、たとえばプリプロセッサ105を通じて、処理されたバージョン102を取得するために、および/または、たとえば微分残差生成器105aを通じて、微分残差バージョン105a'を取得するために、オーディオ信号101に対して行われ得る。
たとえば、オーディオ信号101は、(504において)異なる周波数帯域に分解され得る。各予測プロセス(たとえば、510における)が、特定の周波数帯域について、続いて行われ得る。したがって、符号化されたビットストリーム104には、異なる周波数帯域に対する異なる予測残差が符号化されていることがある。したがって、いくつかの例では、予測に関する以下の検討(予測シーケンス、予測サブシーケンス球面単位など)は、各周波数帯域に対して有効であり、他の周波数帯域について繰り返されてもよい。さらに、オーディオ値は、デシベル領域などの対数スケールへと変換されてもよい(たとえば、504において)。仰角および/または方位角について、粗い量子化ステップ(たとえば、1.25dBから6dB)の中から選ぶことが可能である。
単位球面1の異なる位置でのオーディオ値は、微分を受け得る。たとえば、単位球面1の特定の離散位置における微分オーディオ値105a'は、オーディオ隣接離散位置(これはすでに微分された離散位置であり得る)のオーディオ値についてその特定の離散位置におけるオーディオ値を差し引くことによって取得され得る。異なるオーディオ値について微分するために、所定の経路が行われ得る。たとえば、特定の最初の点は微分により与えられないことがあるが(たとえば、南極)、あらかじめ定められた経路に沿ってすべての残りの微分が行われ得る。例では、予測のための同じシーケンスであり得る、シーケンスが定義され得る。いくつかの例では、異なる周波数帯域に従ってオーディオ信号の周波数を分離し、各周波数帯域のための予測を行うことが可能である。
予測器ブロック110は一般に、微分残差105a'によってではなく、前処理されたオーディオ信号102によって入力されることに留意されたい。続いて、予測残差生成器120が予測残差値122を生成する。
上記の技法は互いに組み合わせられてもよい。最初の周波数帯域(たとえば、最も低い周波数帯域)は、同じ周波数の隣接離散位置から微分することによって取得されてもよいが、残りの周波数(たとえば、より高い周波数)については、直前の隣接周波数帯域からの微分を行うことが可能である。
エンコーダおよびデコーダにおける予測
エンコーダの予測器ブロック110およびデコーダの予測器ブロック210としての予測の、またはステップ510において行われるような予測の説明についてここで検討する。
予測がエンコーダにおいて行われるとき、入力は前処理されたオーディオ信号102であることに留意されたい。
単位球面1全体にわたるオーディオ値の予測が、複数の予測シーケンスに従って行われ得る。例では、少なくとも1つの初期予測シーケンスおよび少なくとも1つの後続の予測シーケンスが行われ得る。少なくとも1つの初期予測シーケンス(2つの初期予測シーケンス10、20によって具現化され得る)は、同じ初期予測シーケンスにおける直前のオーディオ値のオーディオ値に基づいてオーディオ値を予測することによって、隣接離散位置の線(たとえば、子午線)に沿って延び得る。たとえば、少なくとも1つの子午線に沿って、南極2から北極4に向かって延びる少なくとも第1のシーケンス10(これは子午線の初期予測シーケンスであり得る)があり得る。したがって、予測値は、基準子午線(方位角=0°)に沿って伝播され得る。南極2(第1のシーケンスの開始位置)において、予測されない値が挿入され得るが、後続の予測値は北極4に向かって子午線を通って伝播されることが示されるだろう。
第2の初期予測シーケンス20は、赤道に沿って定義され得る。ここで、隣接離散位置の線は赤道によって形成され(赤道円周)、オーディオ値は、あらかじめ定められた円周方向に従って、たとえば最小の正の方位角(0°に最も近い)から最大の方位角(360°に近い)に向かって予測される。特に、第2のシーケンス20は、予測された子午線(第1のシーケンス10において予測される)と赤道の交点における値で開始する。その位置は、第2のシーケンス20の開始位置20aである(そして、方位角0°および仰角0°での値であり得る)。したがって、第2の予測シーケンス20の後、少なくとも1つの子午線(たとえば、基準子午線)についての少なくとも1つの離散位置および各平行線についての少なくとも1つの離散位置が行われる。
少なくとも1つの後続の予測シーケンス30は、たとえば、赤道と北極4との間の、北半球における離散位置を予測するための、第3のシーケンス30を含み得る。第4のシーケンス40は、赤道と南極2との間の、南半球における位置を予測し得る(第2のシーケンス20において予測されるような子午線におけるすでに予測されている位置は一般に、後続の予測シーケンス30、40において予測されない)。
そして、後続の予測シーケンス(第3の予測シーケンス30、第4の予測シーケンス40)の各々は、複数のサブシーケンスへと細分され得る。各サブシーケンスは、以前に予測された平行線に隣接する1つの平行線に沿って移動し得る。たとえば、図2は、北半球における第3のシーケンス30の第1のサブシーケンス31、第2のサブシーケンス32、および他のサブシーケンス33を示す。図に見られるように、サブシーケンス31、32、33の各々は、1つの平行線に沿って移動し、先行する平行線よりも短い円周の長さを有する(すなわち、サブシーケンスが北極に近いほど、平行な離散位置の数は少なく、予測されることになるオーディオ値は少ない)。第1のサブシーケンス31は第2のサブシーケント32の前に行われ、そして第2のサブシーケンス32は、第3のシーケンス30のすぐ隣のサブシーケンスの前に行われ、赤道から北極4に向かって移動する。各サブシーケンス(31、32、33)は、特定の仰角と関連付けられ(サブシーケンスは単一の平行線における位置しか予測しないので)、大きくなる方位角に沿って移動する。各サブシーケンス(31、32、33)は、オーディオ値が、同じサブシーケンスにおける直前の離散位置のオーディオ値(そのオーディオ値はすでに予測されているものとする)、および隣接する直前の予測された平行線のオーディオ値に少なくとも基づいて予測されるようなものである。各サブシーケンス31、32、33は、開始位置(31a、32a、33a)から開始し、あらかじめ定められた円周方向に沿って(たとえば、0に最も近い方位角から360°に最も近い方位角に向かって)広がる。開始位置(31a、32a、33a)は基準子午線の中にあってもよく、基準子午線は子午線初期予測シーケンス10において予測されている。赤道が第2のシーケンス20においてすでに予測されているという事実により、第3のシーケンス30の第1のサブシーケンス31は、赤道にあるオーディオ離散位置におけるすでに予測されたオーディオ値に依拠することによっても予測され得る。このため、第2のシーケンス20において予測されるオーディオ値は、第3のシーケンス30の第1のサブシーケンス31を予測するために使用される。したがって、第3のシーケンス30の第1のサブシーケンス31において行われる予測は、赤道初期予測シーケンスにおける第2のシーケンス20とは異なる。第2の予測シーケンス20では、予測は赤道におけるオーディオ値にのみ基づいていたが、第1のサブシーケンス31における予測は、同じ平行線におけるすでに予測されたオーディオ値だけではなく、赤道における以前に予測されたオーディオ値にも基づいてもよい。
赤道(円周)は、第1のサブシーケンス31が処理される平行線より長いので、第1のサブシーケンス31が行われる平行線における離散位置と赤道における離散位置との間には厳密な対応関係はない(すなわち、赤道の離散位置と平行線の離散位置は互いに整列していない)。しかしながら、赤道の補間されたバージョンに到達するために、平行線の同数の離散位置を用いて、赤道のオーディオ値を補間することが可能であることが理解されている。
同じ半球の残りのサブシーケンスについて、平行線ごとに同じことが繰り返される。いくつかの例では、
1)第3のサブシーケンス30の各サブシーケンス(31、32、33)が、子午線初期予測シーケンス10においてすでに予測されている基準子午線における開始位置(31a、32a、33a)から開始し得る。
2)すでに予測された開始位置(31a、32a、33a)の後で、各サブシーケンス(31、32、33)の各々の決定された離散位置は、
a. 同じサブシーケンスの中の以前に予測された直前の離散位置
b. (場合によっては、直前の離散位置に隣接するが、決定された離散位置に隣接しない、同じ決定された離散位置におけるすでに予測された第2の直前のオーディオ値からも)
c. 直前の平行線におけるオーディオ値の隣接する補間されたバージョン
d. (場合によっては、同じ決定された離散位置における、しかし以前の周波数帯域において取得されたすでに予測されたオーディオ値からも)
に依拠することによって予測される。
第2のシーケンス30は、赤道から北極4に向かって移動し、北半球においてオーディオ値を伝播するが、第4のシーケンス40は、赤道から南極2に向かって移動し、南半球においてオーディオ値を伝播する。それ以外は、第3のシーケンス30と第4のシーケンスは互いに似ている。
予測の異なる順序が定義され得る。図6および図7はそれらのいくつかの例を示す。第1のシーケンス10および第2のシーケンス20に関して、第1の順序が定義され得る(第1の順序に従うと、特定の離散位置は、現在予測されている離散位置のすぐ前の、かつそれに隣接する位置における、すでに予測されたオーディオ値から予測される)。第2の順序に従うと、特定の離散位置は、
1)現在予測されている離散位置のすぐ前の、かつそれに隣接する位置における、第1のすでに予測されたオーディオ値、
2)第1のすでに予測されたオーディオ値の離散位置のすぐ前の、かつそれに隣接する位置における、第2のすでに予測されたオーディオ値
の両方から予測される。
図6において例が提供される。図6のセクションa)において、第1のシーケンス10および第2のシーケンス20のための第1の順序が示される。
1)第1のシーケンス10が、方位角インデックスai=0および極から極に移動する仰角インデックスを伴って、基準子午線に沿って移動する。
a. 離散位置601(仰角インデックスeiを有する)において予測されることになるオーディオ値は、
i. 仰角インデックスei-1を有する隣接位置602におけるすでに予測されたオーディオ値
だけから取得される。
2)第2のシーケンス20は、開始点20a(ei=0、ai=0)から移動する方位角および赤道に沿って移動する仰角インデックスを伴って、赤道に沿って移動する。
a. 離散位置701(仰角インデックスei=0および方位角インデックスaiを有する)において予測されることになるオーディオ値は、
i. 方位角インデックスai-1を有する隣接位置702におけるすでに予測された値オーディオ値
だけから取得される。
ここで、図6のセクションb)に示される第2の順序に従って、第1のシーケンス10および第2のシーケンス20について検討しよう。
1)第1のシーケンス10が、方位角インデックスai=0および極から極に移動する仰角インデックスeiを伴って、基準子午線に沿って移動する。
a. 離散位置601(仰角インデックスeiおよび方位角インデックスai=0を有する)において予測されることになるオーディオ値は、
i. 現在処理されている位置601に隣接する、第1の位置602(仰角インデックスei-1および方位角インデックスai=0を有する)におけるすでに予測されたオーディオ値、および
ii. 第1の位置602に隣接する、第2の位置605(仰角インデックスei-2および方位角インデックスai=0を有する)におけるすでに予測されたオーディオ値
の両方だけから予測される。
b. 予測値は識別情報の予測であってもよく、すなわち、pred_v[ei+1]=cover[ei-1][0](ここで、「cover」は予測の前のオーディオ信号101または102の値を指す)である。
2)第2のシーケンス20が、開始点20a(ei=0、ai=0)から移動する方位角a1および仰角インデックスei=0を伴って、赤道に沿って移動する。
a. 離散位置701(仰角インデックスei=0および方位角インデックスaiを有する)において予測されることになるオーディオ値は、
i. 現在処理されている位置601に隣接する、第1の位置702(仰角インデックスei=0および方位角インデックスai-1を有する)におけるすでに予測された値オーディオ値、および
ii. 第2の位置に隣接する、隣接位置705(仰角インデックスei=0および方位角インデックスai-2を有する)におけるすでに予測された値オーディオ値
の両方だけから予測される。
b. 予測は、予測された値pred_vがpred_v[ei][0]=2*cover[ei-1][0]-cover[ei-2][0]として取得されるようなものであり得る。
ここで、図7の第3のシーケンス30および第4のシーケンス40について検討しよう(第3のシーケンスへの、および特に、第2のサブシーケンス31の後に行われる第2のサブシーケンス32への言及が行われる)。
たとえば、以下のあらかじめ定められた順序の少なくとも1つが定義され得る(記号および参照番号は完全に一般的であり、理解を助けるためだけのものにすぎない)。
1)位置501(仰角ei、方位角ai)におけるオーディオ値がそれに従って、
a. 同じサブシーケンス32におけるすぐ隣の離散位置502(ei、ai-1)における以前に予測されたオーディオ値、
b. 以前に予測された平行線31の補間されたバージョン31'(ei、ai-1)における隣接位置503における補間されたオーディオ値、
c. たとえば、式pred_v=cover[ei-1][0]に従うこと(たとえば、識別情報の予測)
から予測される、第1の順序(図7のセクションa)において示される順序1)。
2)(サブシーケンス32において)位置501において予測されることになるオーディオ値がそれに従って、
a. 同じサブシーケンス32における隣接離散位置502における予測されたオーディオ値、
b. 同じサブシーケンスにおける位置502に隣接する位置505における1つの第1の補間されたオーディオ値、
c. たとえば式pred_v=2*cover[ei-1][0]-cover[ei-2][0]に従うこと
から取得される、第2の順序(図7のセクションb)において示される順序2)(直前の仰角および直前の2つの方位角を使用する)。
3)位置501において予測されることになるオーディオ値がそれに従って、
a. 同じサブシーケンス32における隣接離散位置502における以前に予測されたオーディオ値、
b. 以前に予測された平行線31'の補間されたバージョン31'における隣接位置503における補間されたオーディオ値、
c. 第1の補間されたオーディオ値の位置503に隣接し、予測されることになる値501の同じサブシーケンス32における隣接離散位置502におけるオーディオ値に隣接する、位置506における1つの第2の補間されたオーディオ値、
d. たとえば、式
に従うこと、ここで、
は位置502における予測された値であり、
は503における予測された補間された値であり、
は506における予測された補間された値である
から取得される、第3の順序(図7のセクションc)において示される順序3)(直前の仰角値と直前の方位角の両方を使用する)。
4)(サブシーケンス32における)位置501において予測されることになるオーディオ値がそれに従って、
a. 同じサブシーケンス32における隣接位置502における予測されたオーディオ値、
b. 同じサブシーケンス32における位置502に隣接する隣接位置505における1つの第1の補間されたオーディオ値、
c. 以前に予測された平行線31の補間されたバージョン31'における隣接位置503における1つの第1の補間されたオーディオ値、
d. 第1の補間されたオーディオ値の位置503に隣接し、同じサブシーケンスにおいて隣接する位置502にも隣接する、位置506における1つの第2の補間されたオーディオ値、
e. たとえば式
に従うこと、ここで、
は位置502における予測された値であり、
は位置505における予測された値であり、
は503における予測された補間された値であり、
は506における予測された補間された値である
から取得される、第4の順序(図7のセクションd)に示される順序4)(直前の仰角値、直前の2つの方位角値(ai-1およびai-2)を使用する)。
サブシーケンス32への言及が行われたとしても、これは第2のシーケンス30および第4のシーケンス40に対して汎用的である。
順序付けのタイプがビットストリーム104においてシグナリングされ得る。デコーダは、ビットストリームでシグナリングされる同じ予測を採用する。
以下で検討する予測順序は、各予測シーケンスのために(たとえば、ブロック109aによって、およびまたはステップ509において)選択的に選ばれ得る(たとえば、初期の予測シーケンス10および20に対して1つの選択、後続の予測シーケンス30および40に対して1つの選択)。たとえば、第1の初期シーケンス10および第2の初期シーケンス20が順序1または順序2で行われることになることがシグナリングされてもよく、第3のシーケンス30および第4のシーケンス40が1、2、3、および4の中から選択された順序で行われるべきであることがシグナリングされてもよい。デコーダは、シグナリングを読み取り、選択された順序に従って予測を行う。順序1および2(図7、セクションa)およびb))は、予測が前の平行にも基づくことを必要としないことに留意されたい。予測順序5は、図1a~図1cおよび図2aにおいて示されるものであり得る。
基本的に、エンコーダは(たとえば、ブロック109aおよびまたはステップ509において)、たとえばシミュレーションに基づいて、平行線に沿って、以前に予測された平行線に隣接して移動することによって、少なくとも1つの後続の予測シーケンス(30、40)を行うことを選択してもよく、それにより、処理されている平行線に沿ったオーディオ値は、同じサブシーケンス(31、32、33)における隣接離散位置のオーディオ値だけに基づいて予測される。デコーダは、ビットストリーム104をシグナリングしたことに基づいてエンコーダの選択に従い、たとえば選択された順序に従って、要求されるように予測を行う。
予測器ブロック210によって行われる予測の後、予測された値212は、信号202を取得するために、予測残差値222と(加算器220において)加算され得ることに留意されたい。
デコーダ200または200aに関して、予測セクション210'は、残差値(または積分器205aによって生成される積分された信号105a')を予測された値212に加算するために、予測器210および加算器200を含むと考えられ得る。そして、取得された値が後処理され得る。
上記に関して、第1のシーケンス10は、ビットストリームから取得された値(たとえば、南極における値)で(たとえば、南極において)開始し得ることに留意されたい。エンコーダおよび/またはデコーダでは、この値は残差ではなくてもよい。
エンコーダにおける残差生成器およびビットストリーム書込器
図1d~図1fに関して、予測された値112を信号102から差し引き予測残差値122を生成することによって、減算が予測残差生成器120によって行われ得る。
図1a~図1cに関して、予測された値112を信号105a'から差し引き予測残差値122を生成することによって、減算が予測残差生成器120によって行われ得る。
ビットストリーム書込器は、予測残差値122をビットストリーム104に書き込み得る。ビットストリーム書込器は、場合によっては、1段階符号化を使用することによってビットストリーム104を符号化し得る。例では、より頻度の高い予測されたオーディオ値(たとえば、112)、またはその処理されたバージョン(たとえば、122)が、より頻度の低い予測されたオーディオ値、またはその処理されたバージョンより短い長さのコードと関連付けられる。
場合によっては、2段階符号化を行うることが可能である。
デコーダにおけるビットストリーム読取器
ビットストリーム読取器230によって行われることになる読み取りは、ビットストリーム104を符号化することについて説明された規則に実質的に従うので、詳しくは繰り返されない。
ビットストリーム読取器230は、場合によっては、1段階復号を使用してビットストリーム104を読み取り得る。例では、より頻度の高い予測されたオーディオ値(たとえば、112)、またはその処理されたバージョン(たとえば、122)が、より頻度の低い予測されるオーディオ値、またはその処理されたバージョンより短い長さのコードと関連付けられる。
場合によっては、2段階復号を行うことが可能である。
デコーダにおける後処理およびレンダリング
一部の後処理は、レンダリングされることになるオーディオ信号の処理されたバージョン201を取得するために、オーディオ信号201または202に対して行われ得る。ポストプロセッサ205が使用され得る。たとえば、オーディオ信号201が再合成されてもよく、周波数帯域を再合成する。
さらに、オーディオ値が、デシベル領域などの対数スケールから線形領域に再変換され得る。
単位球面1の異なる位置にわたるオーディオ値(これらは微分値として定義され得る)は、たとえば、直前の隣接離散位置の値を加算すること(微分ではないことがある、たとえば南極における第1の値を除く)によって、再合成され得る。あらかじめ定められる順序が定められ、これは、エンコーダ200のプリプロセッサ205がたどるものと同じである(順序は予測のためにたどられる順序と同じであってもよく、たとえば、最初に第1のシーケンス10、次に第2のシーケンス20、次に第3のシーケンス30、最後に第4のシーケンス40)。
復号の例
特にデコーダ200から見て、この例をどのように行うかをここで具体的になる。
オーディオ要素の指向性の特性を可聴化するために、指向性が使用される。これを行うために、指向性ツールは、指向性データのコーディング、および指向性データのレンダリングという2つの構成要素からなる。指向性は、カバーの数として表現され、各カバーは算術的にコーディングされる。指向性のレンダリングは、どのRIが指向性を使用するかを確認し、指向性からのフィルタ利得係数をとり、EQをRIのメタデータに適用することによって行われる。
以下では、「点」への言及は、上で定義された「離散位置」を指す。
データ要素および変数:
covers このアレイはすべての復号された指向性カバーを保持する。
dbStepIdx これはデシベル量子化範囲のインデックスである。
dbStep この数は値が量子化された際のデシベルステップである。
intPer90 この整数はカバーの赤道の周りの90度当たりの方位角点の間隔である。
elCnt この整数はカバー上の仰角点の数である。
aziCntPerEI このアレイの中の各要素は仰角点当たりの方位角点の数を表す。
coverWidth この数は赤道の周りの最大の方位角点である。
minPosVal この数はコーディングされ得る最小の可能なデシベル値である。
maxPosVal この数はコーディングされ得る最大の可能なデシベル値である。
minVal この数はコーディングされたデータに実際に存在する最小のデシベル値である。
maxVal この数はコーディングされたデータに実際に存在する最大のデシベル値である。
valAlphabetSize これは復号するためのアルファベット単位のシンボルの数である。
predictionOrder この数はこのカバーのための予測順序を表す。これは、存在する場合、カバーが前の残差データを使用してどのように再構築されるかに影響する。
cover この2次元行列は所与の周波通帯域のためのカバーを表す。第1のインデックスは仰角であり、第2のインデックスは方位角である。この値はその方位角および仰角のための逆量子化されたデシベル値である。方位角点の長さは変数であることに留意されたい。
coverResiduals この2次元行列はカバーのための残差圧縮データを表す。それはカバーと同じデータ構造を反映するが、値はデシベル値自体ではなく残差データである。
freq これはヘルツ単位の最終的な逆量子化された周波数値である。
freqIdx これは元の値を引き出すために逆量子化される必要のある周波数のインデックスである。
freq1oIdxMin これはオクターブ量子化モードにおける最小の可能なインデックスである。
freq1oIdxMax これはオクターブ量子化モードにおける最大の可能なインデックスである。
freq3oIdxMin これは1/3オクターブ量子化モードにおける最小の可能なインデックスである。
freq3oIdxMax これは1/3オクターブ量子化モードにおける最大の可能なインデックスである。
freq6oIdxMin これは1/6オクターブ量子化モードにおける最小の可能なインデックスである。
freq6oIdxMax これは1/6オクターブ量子化モードにおける最大の可能なインデックスである。
定義:
球面グリッド 単位球面の表面上の点の準一様グリッド。
vei,ai vは現在のカバーであり、eiは仰角インデックスであり、aiは方位角インデックスである。
は現在のカバーの固定された線形予測器であり、eiは仰角インデックスであり、aiは方位角インデックスである。
は円弧補間された現在のカバーであり、eiは仰角インデックスであり、aiは方位角インデックスである。
nは仰角当たりの球面グリッドの中の方位角点の数であり、eiは仰角インデックスである。
復号プロセス
指向性ペイロードがレンダラによって受信されると、指向性段階の初期化の前に、復号プロセスが始まる。各カバーは関連する周波数を有する。direcFreqQuantTypeは、どのように周波数が復号されるかを示し、すなわち、readQuantFreq()において行われる周波数帯域の幅を決定する。変数dbStepは、利得係数のための量子化されたステップサイズを決定し、その値は0.5というインクリメントで0.5と3.0の間の範囲にある。intPer90は、赤道の四分円の周りの方位角点の数であり、球面グリッドの生成のために使用される重要な変数である(この整数はカバー上の仰角点の数である)。direcUseRawBaslineは、2つの復号モードのどちらが利得係数のために選ばれるかを決定する。利用可能な復号モードは、「基本モード」または「最適化モード」のいずれかである。基本モードは、一様な確率分布を使用して各デシベルインデックスを算術的に単純にコーディングする。一方、最適化モードは、5つの異なる予測順序で適応確率推定器とともに残差圧縮を使用する。最後に、復号の完了後、指向性がシーン状態(Scene State)に渡され、そこで他のシーンオブジェクト(Scene Object)が指向性を参照することができる。
球面グリッドの生成
球面グリッドはカバーの空間分解能を決定し、これはカバーにわたって異なり得る。カバーの球面グリッドは、多数の異なる点を有する。赤道にわたって、少なくとも4つの点があり、intPer90の値によってはより多くの点がある可能性がある。北極および南極には、1つだけの点がある。異なる仰角において、点の数は赤道にわたる点の数以下であり、仰角が極に近付くにつれて減少する。各仰角層では、第1の方位角点は常に0°であり、南極から赤道への、そして最終的に北極への、一様に離隔された点の線を生み出す。この性質は、様々な仰角にわたる残りの方位角点について保証されない。
以下は疑似コードフォーマットでの記述である。
generateSphereGrid(intPer90)
{
piOver180 = acos(-1) / 180; // 1度
degStep = 90 / intPer90; // intPer90は赤道の四分円の周りの方位角点の数である
elCnt = 2 * intPer90 + 1; // (整数)カバー上の仰角点の数
azCnt[elCnt] = { 0 };
coverWidth = 4 * intPer90; //(赤道における)方位角点の最大の数
for (ei = 0; ei < elCnt; ei++)
{
elAng = (ei - intPer90) * degStep;
elLen = cos(elAng * piOver180);
azCnt[ei] = max(round(elLen * 4 * intPer90), 1);
}
return elCnt, aziCntPerEl, coverWidth
}
基本モード
基本モードは、確率分布が一様であるレンジデコーダを使用して、量子化されたデシベル値を復号する。記憶され得る最大および最小の可能な値(すなわち、maxPosVal、minPosVal)はそれぞれ、-128.0および127である。dbStepおよび実際の最大および最小の可能な値(maxVal、minVal)を使用して、アルファベットサイズが求められ得る。デシベルを復号した後、実際のdB値を求めるために簡単な再スケーリングが行われる。これは表において見られ得る。
最適化モード
最適化モードの復号は逐次予測方式を使用し、これは特別な順序でカバーを走査する。この方式はpredictionOrderによって決定され、その値は両端を含めて1と5の間の整数であり得る。predictionOrderは、どの線形予測順序(1または2)を使用するかを規定する。predictionOrder == 1 || predictionOrder == 3であるとき、線形予測順序は1であり、predictionOrder == 2 || predictionOrder == 4であるとき、線形予測順序は2である。走査は4つの異なるシーケンスからなる。
第1のシーケンスは、南極における値から北極に向かって、すべて方位角0で垂直方向に進む。南極におけるシーケンスの第1の値(coverResiduals[0][0])は予測されない。この値は、残りの値がそれから予測される基礎としての役割を果たす。この予測は、順序1または2のいずれかの線形予測を使用する。1の予測順序を使用することは前の仰角値を使用し、2の予測順序は予測の基礎として前の2つの仰角値を使用する。
第2のシーケンスは、赤道において、方位角0度における値(これは第1のシーケンスの間にすでに予測された)の隣の値から、360度に近い方位角における値の前の値まで、水平方向に進む。値は、やはり順序1または2の線形予測を使用して、前の値から予測される。シーケンス1と同様に、1の予測順序を使用することは前の方位角値を使用し、2の予測を使用することは予測の基礎として前の2つの方位角値を使用する。
第3のシーケンスは、各仰角に対して順番に、赤道の隣の値から開始して北極に向かい北極の前の値まで、水平方向に進む。水平方向の各サブシーケンスは、方位角0度における値(これは第1のシーケンスの間にすでに予測された)の隣の値から開始して、360度の近くの方位角における値の前の値まで進む。(predictionOrder == 1 || predictionOrder == 2 || predictionOrder == 3 || predictionOrder == 4)であるとき、上で説明されたように、値は順序1または2のいずれかの線形予測を使用して前の値から予測される。さらに、(predictionOrder == 3 || predictionOrder == 4)であるとき、現在のカバー上の前の値に加えて、以前に予測された仰角からの値も使用される。以前に予測された仰角ei-1における球面グリッド上の点の数
は、現在予測されている仰角eiにおける点の数
と異なるので、方位角点の数は、球面グリッドにおいて仰角にわたって一致しない。したがって、以前に予測された仰角ei-1における点
は、円弧補間されて
個の新しい点を生み出し、aiは方位角インデックスであり、vはカバーを表す2次元ベクトルである。たとえば、現在の仰角における点の数が24であり、前の仰角における点の数が27である場合、それらは円弧補間されて24個の新しい点を生み出す。補間は単調性を保つために線形である。予測されることになる所与の点の値
について、水平方向の前の点の値
および対応する前の点の値
および円弧補間された新しい点(これらは前の仰角レベルから導出される)での現在の点の値
が、3つの線形予測係数を伴う予測器を作るための独立変数として使用される。固定された線形予測器が使用され、すなわち
であり、これはdB領域において完全に2次元の線形勾配を予測する。
第4のシーケンスも、各仰角について順番に、第3のシーケンスとまったく同じように、しかし、赤道の隣の値から開始して南極に向かい南極の前の値まで、水平方向に進む。
以下の疑似コードは前述のアルゴリズムを記述する。
unpredict(predOrder, coverRes, prevCover)
{
if (predOrder == 5) {
for (ei = 0; ei < elCnt; ei++) {
for (ai = 0; ai < aziCntPerEl[ei]; ai++) {
i = ei * coverWidth + ai;
cover[ei][ai] = coverRes[ei][ai] + prevCover[ei][ai];
}
}
return;
}
// 南極における元の値をコピーする
// coverRes[0]、これは予測されない
cover[0] = coverRes[0];
// 南極の後の値から北極に、方位角0において
// 垂直方向に予測する 第1のシーケンス
for (int ei = 1; ei < elCnt; ++ei) {
if ((predOrder == 1) || (ei == 1) || (predOrder == 3)) {
pred_v = cover[ei - 1][0];
}
else if ((predOrder == 2) || (predOrder == 4)) {
pred_v = 2 * cover[ei - 1][0] - cover[ei - 2][0];
}
cover[ei][0] = coverRes[ei][0] + pred_v;
// 赤道では真の順序1または真の順序2の水平予測を常に使用する
if (((predOrder == 3) || (predOrder == 4)) && (ei != intPer90)) {
continue;
}
// 方位角0から最大の方位角まで水平方向に予測する(第2のシーケンス)
for (int ai = 1; ai < aziCntPerEl[ei]; ++ai) {
if ((predOrder == 1) || (ai == 1) || (predOrder == 3)) {
pred_h = cover[ei][ai - 1];
}
else if ((predOrder == 2) || (predOrder == 4)) {
pred_h = 2 * cover[ei][ai - 1] - cover[ei][ai - 2];
}
cover[ei][ai] = coverRes[ei][ai] + pred_h;
}
}
if ((predOrder == 3) || (predOrder == 4)) { (THIRD SE-QUENCE)
cResample[coverWidth] = { 0 };
// 各仰角に対して水平方向に予測する
// 赤道の後の値から南極まで
for (int ei = intPer90 - 1; ei >= 1; --ei) {
input = cover;
start = (ei + 1) * coverWidth;
count = aziCntPerEl[ei + 1];
newCount = aziCntPerEl[ei];
output = cResample;
circularResample(input, start, count, newCount, output);
for (int ai = 1; ai < aziCntPerEl[ei]; ++ai) {
pred_h = cover[ei][ai - 1] + (cResample[ai] - cResample[ai - 1]);
cover[ei][ai] = coverRes[ei][ai] + pred_h;
}
}
// 各仰角に対して水平方向に予測する
// 赤道の後の値から北極まで(第4のシーケンス)
for (int ei = intPer90 + 1; ei < elCnt - 1; ++ei) {
input = cover;
start = (ei - 1) * coverWidth;
count = aziCntPerEl[ei - 1];
newCount = aziCntPerEl[ei];
output = cResample;
circularResample(input, start, count, newCount, output);
for (int ai = 1; ai < aziCntPerEl [ei]; ++ai) {
pred_h = cover[ei][ai - 1] + (cResample[ai] - cResample[ai - 1]);
cover[ei][ai] = coverRes[ei][ai] + pred_h;
}
}
}
}
段階の説明
段階は、更新スレッドの中のすべてのRIにわたって反復し、指向性が適用されることが可能であるかどうかを確認し、可能である場合、段階は聴取者とRIとの間の相対的な位置をとり、フィルタ係数の指向性を問い合わせる。最後に、段階は、これらのフィルタ利得係数を、EQ段階において最終的に可聴化されることになる、RIの中央EQメタデータフィールドに適用する。
更新スレッド処理
EQ段階によってEQ効果がオーディオ信号に適用される前に、すべてのEQ効果を累算する中央EQメタデータフィールドを使用することによって、objectSourceHasDirectivityおよびloudspeakerHasDirectivityのデータ要素において真という値をもつすべてのRIに(かつ早期の反射および回折の段階においてそのようなRIから導出された二次的なRIによって)、指向性が適用される。極座標でのRIに対する聴取者の相対的な位置が、指向性を問い合わせるために必要とされる。これは、たとえば、直交座標から極座標への変換、同次行列変換、または四元数を使用して行われ得る。二次的なRIの場合、それらの親の相対的な位置が、指向性を正しく可聴化するために使用されなければならない。周波数分解能を一貫したものにするために、指向性データは、メタデータフィールドのEQ帯域と一致するように線形補間され、これは、ビットストリーム圧縮構成によっては、ビットストリーム表現と異なり得る。各周波数帯域に対して、指向性(directiveness)(objectSourceDirectivenessまたはloudspeakerDirectivenessから利用可能)が式Ceq=exp(d logm)に従って適用され、ここでdは指向性値であり、mは要求された周波数帯域に隣接するカバーから導出される補間された大きさであり、CeqはEQのために使用される係数である。
オーディオスレッド処理
指向性段階には、オーディオスレッドにおける追加の処理はない。フィルタ係数の適用はEQ段階で行われる。
ビットストリームシンタックス
バイト整列を必要とする環境では、長さが整数のバイトではないMPEG-I没入オーディオ構成要素またはペイロード要素が、整数のバイト数を達成するように最後にパディングされる。これは関数ByteAlign()によって示される。
(ビットストリーム104に挿入されることになる)レンダラペイロードシンタックス
directivitiesCount: この整数はペイロードに存在するソース指向性の数を表す
directivityId: この整数はこのソース指向性の識別子である
directivityCodedLength: この整数はコーディングされたソース指向性データのバイト単位のサイズを表す
direcCoverCount: この整数は利用可能なカバーの数を表す
direcFreqQuantType: この整数はあらゆるカバーに対する周波数の量子化タイプを決定する
direcFreqQuantType: この整数はあらゆるカバーに対する周波数の量子化タイプを決定する
minVal: この数はコーディングされたデータに実際に存在する最も低いデシベル値である
minPosVal: この数はコーディングされ得る最も低い可能なデシベル値である
valAlphabetSize: これは復号のためのアルファベット単位のシンボルの数である
考察
この新しい手法は、5つの主要な段階からなる。第1の段階は、エンコーダが選択可能な密度を使用して、単位球面の準一様な覆いを生成する。第2の段階は、値をdBスケールに変換し、エンコーダが選択可能な精度を使用してそれらを量子化する。第3の段階は、値を前の周波数に対する差分に変換することによって、連続する周波数間に存在し得る冗長性を取り除くために使用され、これは、特により低い周波数において、および比較的粗い球面の覆いを使用するときに有用である。第4の段階は逐次的な予測方式であり、特別な順序で球面の覆いを走査する。第5の段階は予測残差のエントロピーコーディングであり、分布の適応推定器を使用し、レンジエンコーダを使用してそれを最適にコーディングする。
この新しい手法の第1の段階は、指向性ファイルにおいて利用可能な細かい、または非常に細かい球面グリッドにわたるさらなる補間を使用して、多数の点(離散位置)を使用して単位球面1を準一様にサンプリングすることであり得る。エンコーダが選択可能な密度を使用する、準一様な球面の覆いには、仰角0が常に存在する(赤道)、存在するあらゆる仰角レベルにおいて方位角0における球面点がある、最も近い球面点を決定することと双線形補間を行うことの両方が所与の任意の仰角および方位角に対して一定の時間に行われ得るという、いくつかの望ましい性質がある。球面の覆いの密度を制御するパラメータは、赤道上の2つの連続する点の間の角度である、度数ステップである。望ましい性質により課される制約により、度数ステップは90度の約数でなければならない。度数ステップが90度である、最も粗い球面の覆いは、極において2つの点および赤道において4つの点という、全体で6つの球面点に対応する。その対極として、2度の度数ステップは、全体で10318個の球面点に対応し、赤道上に180個の点がある。この球面の覆いは、より制約が少ないということを除き、IVASにおけるDirAC方向メタデータのための方位角および仰角の量子化に使用されるものと非常に似ている。比較すると、赤道におけるもの以外のあらゆる仰角レベルにおける点の数が4の倍数であるという要件はなく、この要件は、90度、180度、および270度の方位角において常に球面点があることを確実にするためにDirACにおいて選ばれた。図1a~図1fでは、この第1の段階は示されていないが、それはオーディオ信号101を提供する。
第2の段階は、正であるが1という最大値に制限されない線形領域の値を、dB領域に変換し得る。指向性のために選ばれる正規化の取り決めによっては(すなわち、球面上の平均の値は1である、方位角0における赤道上の値は1であるなど)、値は1より大きくなり得る。量子化は、エンコーダが選択可能な精度を使用して、典型的には0.25dBにおける非常に細かいものから6dBにおける非常に粗いものまでの量子化ステップサイズを使用して、dB領域において線形に行われる。図1a~図1fでは、この第2の段階はエンコーダ100のプリプロセッサ105によって行われてもよく、その逆の機能がデコーダ200のポストプロセッサ205によって行われる。
第3の段階(微分)は、連続する周波数間に存在し得る冗長性を取り除くために使用され得る。これは、現在の周波数に対する球面の覆いの上での値を、前の周波数の球面の覆いの上での値に対する差分に変換することによって行われる。この手法は、所与の仰角および方位角に対する周波数にわたる変動が高い周波数の場合より小さい傾向にある、より低い周波数では特に有利である。加えて、たとえば度数ステップが22.5度以上の、非常に粗い球面の覆いを使用するとき、連続する周波数にわたる相関と比較して、隣り合う連続する球面点の間で利用可能な相関はより少ない。図1a~図1fにおいて、この第3の段階は、エンコーダ100のプリプロセッサ105によって行われてもよく、その逆の機能がデコーダ200のポストプロセッサ205によって行われる。
第4の段階は逐次予測方式であり、これは特別な順序で1つの周波数について球面の覆いを走査する。この順序は、以前に予測された値の近隣に基づいて、値の予測可能性を高めるように選ばれた。それは、4つの異なるシーケンス10、20、30、40からなる。第1のシーケンス10は、たとえば南極における値から北極に、すべて方位角0°で垂直方向に進む。南極2におけるシーケンスの第1の値は予測されず、残りは順序1または2の線形予測を使用して前の値から予測される。第2のシーケンス20は、赤道において、方位角0度における値(これは第1のシーケンスの間にすでに予測された)の隣の値から、360度に近い方位角における値の前の値まで、水平方向に進む。値は、やはり順序1または2の線形予測を使用して、前の値から予測される。1つの選択肢は、固定された線形予測係数を使用することであり、エンコーダは最良の予測順序を選択し、最良の予測順序は予測誤差(予測残差)のエントロピーが最小になるものである。
第3のシーケンス30は、各仰角に対して順番に、赤道の隣の値から開始して北極に向かい北極の前の値まで、水平方向に進む。水平方向の各サブシーケンスは、方位角0度における値(これは第1のシーケンスの間にすでに予測された)の隣の値から開始して、360度に近い方位角における値の前の値まで進む。値は、順序1もしくは2のいずれかの線形予測を使用して、または、以前に予測された仰角において利用可能な値も使用する特別予測モードを使用して、前の値から予測される。前の予測された仰角ei-1における点の数
は、現在予測されている仰角eiにおける点の数
とは異なるので、それらの方位角は一致しない。したがって、以前に予測された仰角ei-1における点
は、円弧補間されて
個の新しい点を生み出す。たとえば、現在の仰角における点の数が24であり、前の仰角における点の数が27である場合、それらは円弧補間されて24個の新しい点を生み出す。補間は普通は単調性を保つために線形である。予測されることになる所与の点の値
について、水平方向の前の点の値
および対応する前の点の値
および円弧補間された新しい点(これらは前の仰角レベルから導出される)での現在の点の値
が、3つの線形予測係数を伴う予測器を作るための独立変数として使用される。1つの選択肢は、
のような固定された線形予測器を使用することであり、これはdB領域において完全に2次元の線形勾配を予測する。
第4のシーケンス40も、各仰角について順番に、第3のシーケンス30とまったく同じように、しかし、赤道の隣の値から開始して南極2に向かい南極2の前の値まで、水平方向に進む。第3のシーケンス30および第4のシーケンス40について、エンコーダ100は、順序1の予測、順序2の予測、および特別な予測から最良の予測モードを選択してもよく、最良の予測モードは予測誤差(予測残差)のエントロピーが最小になるものである。
図1a~図1fでは、この第4の段階はエンコーダ100の予測器ブロック120によって行われてもよく、その逆の機能がデコーダ200の予測器ブロック210によって行われる。
第5の段階は予測残差のエントロピーコーディングであり、その分布の適応確率推定器を使用し、レンジエンコーダを使用してそれを最適にコーディングする。小さい度数ステップから中程度の度数ステップ、すなわち5度から15度では、典型的な指向性の予測誤差(予測残差は)通常、{-4,…,4}のような非常に小さいアルファベット範囲を有する。この非常に小さいアルファベットサイズにより、予測誤差(予測残差)の任意の確率分布と最適に調和するように、適応確率推定器を直接使用することが可能になる。大きい度数ステップから非常に大きい度数ステップ、すなわち18度から30度では、アルファベットサイズがより大きくなり、実質的なアルファベットサイズを小さく保ちながら、予測誤差の確率分布の全体的な形状と調和するように、0を中心とする奇数の整数サイズの等しいビンが任意選択で使用され得る。値は2段階でコーディングされ、まずビンインデックスが適応確率推定器を使用してコーディングされ、次いでビンの内部の位置が一様な確率分布を使用してコーディングされる。エンコーダは、全体のエントロピーが最小になる、最適なビンサイズを選択することができる。たとえば、3というビンサイズは、あるビンでは値-4、-3、-2をグループ化し、他のビンでは値-1、0、1をグループ化し、以下同様である。図1a~図1cにおいて、この第5の段階はエンコーダ100のビットストリーム書込器120によって行わされてもよく、その逆の機能がデコーダ200のビットストリーム読取器230によって行われてもよい。
さらなる実施形態
前に論じられたようなすべての代替形態または態様、および以下の特許請求の範囲における独立請求項により定義されるようなすべての態様は、個別に、すなわち、企図される代替形態、目的、または独立請求項以外のどのような代替形態または目的も伴わずに、使用され得ることがここで言及されるべきである。しかしながら、他の実施形態では、代替形態または態様または独立請求項の2つ以上が互いに組み合わせられてもよく、他の実施形態では、すべての態様または代替形態およびすべての独立請求項が互いに組み合わせられてもよい。
本発明により符号化された信号は、デジタル記憶媒体もしくは非一時的記憶媒体に記憶されてもよく、または、インターネットなどの、ワイヤレス送信媒体もしくは有線送信媒体などの送信媒体で送信されてもよい。
いくつかの態様が装置の文脈で説明されたが、これらの態様は対応する方法の説明も表すことが明らかであり、ブロックまたはデバイスは方法ステップまたは方法ステップの特徴に相当する。同様に、方法ステップの文脈で説明された態様も、対応する装置の対応するブロックまたはアイテムまたは特徴の説明を表す。
いくつかの実装要件によっては、本発明の実施形態は、ハードウェアまたはソフトウェアで実装され得る。実装形態は、それぞれの方法が行われるようにプログラム可能コンピュータシステムと協働する(または協働することが可能な)電子的に読み取り可能な制御信号が記憶されているデジタル記憶媒体、たとえば、フロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROM、またはFLASHメモリを使用して行われ得る。
本発明によるいくつかの実施形態は、本明細書で説明された方法の1つが行われるように、プログラム可能コンピュータシステムと協働することが可能な、電子的に読み取り可能な制御信号を有するデータ担体を含む。
一般に、本発明の実施形態は、プログラムコードを伴うコンピュータプログラム製品として実装されてもよく、このプログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されると、方法の1つを行うように動作可能である。プログラムコードは、たとえば機械可読担体に記憶され得る。
他の実施形態は、本明細書で説明される方法の1つを行うための、機械可読担体または非一時的記憶媒体に記憶されたコンピュータプログラムを含む。
言い換えると、本発明の方法の実施形態は、したがって、コンピュータプログラムがコンピュータで実行されるとき、本明細書で説明される方法の1つを行うためのプログラムコードを有するコンピュータプログラムである。
本発明の方法のさらなる実施形態は、したがって、本明細書で説明される方法の1つを行うためのコンピュータプログラムが記録されたデータ担体(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。
したがって、本発明の方法のさらなる実施形態は、本明細書で説明される方法の1つを行うためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、たとえば、データ通信接続を介して、たとえばインターネットを介して移されるように構成され得る。
さらなる実施形態は、本明細書で説明される方法の1つを行うように構成または適合される処理手段、たとえばコンピュータまたはプログラム可能論理デバイスを含む。
さらなる実施形態は、本明細書で説明される方法の1つを行うためのコンピュータプログラムがインストールされたコンピュータを含む。
いくつかの実施形態では、プログラム可能論理デバイス(たとえば、フィールドプログラマブルゲートアレイ)が、本明細書で説明される方法の機能の一部またはすべてを行うために使用され得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書で説明される方法の1つを行うために、マイクロプロセッサと協働し得る。一般に、方法は好ましくはあらゆるハードウェア装置によって行われる。
上で説明された実施形態は、本発明の原理を例示するものにすぎない。本明細書で説明される配置および詳細の修正と変形が、当業者には明らかであろうことが理解される。したがって、本明細書の実施形態の記述と説明として提示される具体的な詳細によってではなく、以下の特許請求の範囲によってのみ限定されることが意図される。
1 単位球面
2 南極
4 北極
10 第1の予測シーケンス
20 第2の予測シーケンス
30 第3の予測シーケンス
40 第4の予測シーケンス
100 エンコーダ
101 オーディオ信号
102 カバー、前処理されたオーディオ信号
104 ビットストリーム
105 プリプロセッサ
105a 微分生成器
105a' 微分残差
110 予測器ブロック
110' 予測セクション
112 予測された値
120 予測残差生成器
122 予測残差値
130 ビットストリーム書込器
132 適応確率推定器
134 レンジコーダ
200 デコーダ
201 オーディオ信号
202 オーディオ値
205 ポストプロセッサ
205a 積分器
210 予測器
210' 予測セクション
212 予測された値
220 加算器
222 予測残差値
230 ビットストリーム読取器
601 離散位置
602 離散位置
605 離散位置
701 離散位置
702 離散位置
705 離散位置
図1cは、微分生成器105aが先行する周波数帯域に関する微分残差105a'を生成する(これは最初の最も低い周波数帯域に対して行われ得ない)、図1fの変形を示す。前処理されたオーディオ信号102は、微分残差105a'を生成するために、微分残差生成器105aにおいて微分されてもよい。予測セクション110'は、予測された値112を生成するために、信号102について予測を行ってもよい。
ステップ504および508(第2および第3の段階)の少なくとも1つは、プリプロセッサ105によって行われてもよく、たとえば、オーディオ信号101の処理されたバージョン102を提供してもよい(処理されたバージョンについて予測が行われてもよい)。しかしながら、ステップ504および508がエンコーダ100、100a、100b、100d、100e、100fによって行われることは必須ではない。いくつかの例では、ステップ504および/または508は外部デバイスによって行われてもよく、オーディオ信号101の処理されたバージョン102が予測のために使用されてもよい。
ステップ509および510において、(たとえば、各周波数帯域に対する)オーディオ値を予測する第4の段階が、(たとえば、予測器ブロック110によって)行われる。予測を選択するという任意選択のステップ509は、行われることになる様々な予測(たとえば、様々な順序の予測)をシミュレートし、シミュレーションに従って、最良の予測効果をもたらす予測を使用すると決定することによって、行われ得る。たとえば、最良の予測効果は、予測残差を最小にするもの、および/またはビットストリーム104の長さを最小にするものであり得る。ステップ510において、予測が行われる(ステップ509が行われている場合、予測はステップ509において選ばれる予測であり、それ以外の場合、予測はあらかじめ決められている)。
図1a(および、残差生成器105aのない対応する図1d)はエンコーダ100a(それぞれ100d)を示し、これは図1のエンコーダ100の代わりに使用され得る。オーディオ信号101は、前処理ブロック105aにおいて前処理および/または量子化される。したがって、前処理されたオーディオ信号102が取得され得る。前処理されたオーディオ信号102は、予測された値112を取得するために、予測器ブロック110(またはより一般的には予測セクション110')において予測のために使用され得る。微分残差生成器105a(図1a~図1cにはあるが、図1d~図1eにはない)は、微分残差105a'を出力し得る。予測残差生成器120は、微分残差105a'から予測の結果112を差し引くことによって、予測残差122を生成することができる。図1d~図1eの例では、残差122は、予測された値112と実際の値102との差分によって生成される。予測残差122は、ビットストリーム書込器130においてコーディングされ得る。ビットストリーム書込器130は、各コードの確率を推定する、他の還元的確率推定132を有し得る。この確率は、フィードバック線133により見られるように更新され得る。レンジコーダ134が、それらの確率に従ったコードとしてビットストリーム104に挿入され得る。
デコーダおよび復号方法
図2aおよび図2bは、デコーダ200a、200の例を各々示す(2つのデコーダの違いは、図2bのデコーダ200には積分器205aがないということであり、積分器には図1a~図1cの微分ブロック105aとは逆の役割がある)。デコーダ200は、ビットストリーム104(たとえば、エンコーダ100、100b、100c、100e、100f、100dによって生成されるようなビットストリーム)を読み取り得る。ビットストリーム読取器230は、ビットストリーム104から復号されたような値222を提供し得る。値222は、エンコーダの予測残差値122を表し得る。上述したように、予測残差値222は、異なる周波数帯域に対して異なり得る。値222は、予測器ブロック210および積分器205aに入力され得る。予測器ブロック210は、エンコーダの予測器ブロック110と同じ方法で、しかし異なる入力を用いて、予測される値122を予測し得る。
そして、後続の予測シーケンス(第3の予測シーケンス30、第4の予測シーケンス40)の各々は、複数のサブシーケンスへと細分され得る。各サブシーケンスは、以前に予測された平行線に隣接する1つの平行線に沿って移動し得る。たとえば、図3は、北半球における第3のシーケンス30の第1のサブシーケンス31、第2のサブシーケンス32、および他のサブシーケンス33を示す。図に見られるように、サブシーケンス31、32、33の各々は、1つの平行線に沿って移動し、先行する平行線よりも短い円周の長さを有する(すなわち、サブシーケンスが北極に近いほど、平行な離散位置の数は少なく、予測されることになるオーディオ値は少ない)。第1のサブシーケンス31は第2のサブシーケン32の前に行われ、そして第2のサブシーケンス32は、第3のシーケンス30のすぐ隣のサブシーケンスの前に行われ、赤道から北極4に向かって移動する。各サブシーケンス(31、32、33)は、特定の仰角と関連付けられ(サブシーケンスは単一の平行線における位置しか予測しないので)、大きくなる方位角に沿って移動する。各サブシーケンス(31、32、33)は、オーディオ値が、同じサブシーケンスにおける直前の離散位置のオーディオ値(そのオーディオ値はすでに予測されているものとする)、および隣接する直前の予測された平行線のオーディオ値に少なくとも基づいて予測されるようなものである。各サブシーケンス31、32、33は、開始位置(31a、32a、33a)から開始し、あらかじめ定められた円周方向に沿って(たとえば、0に最も近い方位角から360°に最も近い方位角に向かって)広がる。開始位置(31a、32a、33a)は基準子午線の中にあってもよく、基準子午線は子午線初期予測シーケンス10において予測されている。赤道が第2のシーケンス20においてすでに予測されているという事実により、第3のシーケンス30の第1のサブシーケンス31は、赤道にあるオーディオ離散位置におけるすでに予測されたオーディオ値に依拠することによっても予測され得る。このため、第2のシーケンス20において予測されるオーディオ値は、第3のシーケンス30の第1のサブシーケンス31を予測するために使用される。したがって、第3のシーケンス30の第1のサブシーケンス31において行われる予測は、赤道初期予測シーケンスにおける第2のシーケンス20とは異なる。第2の予測シーケンス20では、予測は赤道におけるオーディオ値にのみ基づいていたが、第1のサブシーケンス31における予測は、同じ平行線におけるすでに予測されたオーディオ値だけではなく、赤道における以前に予測されたオーディオ値にも基づいてもよい。
第2のシーケンス20は、赤道から北極4に向かって移動し、北半球においてオーディオ値を伝播するが、第4のシーケンス40は、赤道から南極2に向かって移動し、南半球においてオーディオ値を伝播する。それ以外は、第3のシーケンス30と第4のシーケンスは互いに似ている。
図6において例が提供される。図6のセクションa)において、第1のシーケンス10および第2のシーケンス20のための第1の順序が示される。
1)第1のシーケンス10が、方位角インデックスai=0および極から極に移動する仰角インデックスを伴って、基準子午線に沿って移動する。
a. 離散位置601(仰角インデックスeiを有する)において予測されることになるオーディオ値は、
i. 仰角インデックスei-1を有する隣接位置602におけるすでに予測されたオーディオ値
だけから取得される。
2)第2のシーケンス20は、開始点20a(ei=0、ai=0)から移動する方位角および赤道に沿って移動する仰角インデックスを伴って、赤道に沿って移動する。
a. 離散位置701(仰角インデックスei=0および方位角インデックスaiを有する)において予測されることになるオーディオ値は、
i. 方位角インデックスai-1を有する隣接位置702におけるすでに予測されたオーディオ値
だけから取得される。
ここで、図6のセクションb)に示される第2の順序に従って、第1のシーケンス10および第2のシーケンス20について検討しよう。
1)第1のシーケンス10が、方位角インデックスai=0および極から極に移動する仰角インデックスeiを伴って、基準子午線に沿って移動する。
a. 離散位置601(仰角インデックスeiおよび方位角インデックスai=0を有する)において予測されることになるオーディオ値は、
i. 現在処理されている位置601に隣接する、第1の位置602(仰角インデックスei-1および方位角インデックスai=0を有する)におけるすでに予測されたオーディオ値、および
ii. 第1の位置602に隣接する、第2の位置605(仰角インデックスei-2および方位角インデックスai=0を有する)におけるすでに予測されたオーディオ値
の両方だけから予測される。
b. 予測値は識別情報の予測であってもよく、すなわち、pred_v[ei+1]=cover[ei-1][0](ここで、「cover」は予測の前のオーディオ信号101または102の値を指す)である。
2)第2のシーケンス20が、開始点20a(ei=0、ai=0)から移動する方位角a1および仰角インデックスei=0を伴って、赤道に沿って移動する。
a. 離散位置701(仰角インデックスei=0および方位角インデックスaiを有する)において予測されることになるオーディオ値は、
i. 現在処理されている位置701に隣接する、第1の位置702(仰角インデックスei=0および方位角インデックスai-1を有する)におけるすでに予測されたオーディオ値、および
ii. 第2の位置に隣接する、隣接位置705(仰角インデックスei=0および方位角インデックスai-2を有する)におけるすでに予測されたオーディオ値
の両方だけから予測される。
b. 予測は、予測された値pred_vがpred_v[ei][0]=2*cover[ei-1][0]-cover[ei-2][0]として取得されるようなものであり得る。
ここで、図7の第3のシーケンス30および第4のシーケンス40について検討しよう(第3のシーケンスへの、および特に、第1のサブシーケンス31の後に行われる第2のサブシーケンス32への言及が行われる)。
サブシーケンス32への言及が行われたとしても、これは第2のシーケンス20および第4のシーケンス40に対して汎用的である。
以下で検討する予測順序は、各予測シーケンスのために(たとえば、ブロック109aによって、およびまたはステップ509において)選択的に選ばれ得る(たとえば、初期の予測シーケンス10および20に対して1つの選択、後続の予測シーケンス30および40に対して1つの選択)。たとえば、第1の初期シーケンス10および第2の初期シーケンス20が順序1または順序2で行われることになることがシグナリングされてもよく、第3のシーケンス30および第4のシーケンス40が1、2、3、および4の中から選択された順序で行われるべきであることがシグナリングされてもよい。デコーダは、シグナリングを読み取り、選択された順序に従って予測を行う。順序1および2(図7、セクションa)およびb))は、予測が前の平行にも基づくことを必要としないことに留意されたい。予測順序5は、図1a~図1cおよび図2aにおいて示されるものであり得る。
デコーダにおける後処理およびレンダリング
一部の後処理は、レンダリングされることになるオーディオ信号の処理されたバージョン201を取得するために、オーディオ信号201または202に対して行われ得る。ポストプロセッサ205が使用され得る。たとえば、オーディオ信号201が周波数帯域を再合成してもよい
オーディオ要素の指向性の特性を可聴化するために、指向性が使用される。これを行うために、指向性ツールは、指向性データのコーディング、および指向性データのレンダリングという2つの構成要素からなる。指向性は、カバーの数として表現され、各カバーは算術的にコーディングされる。指向性のレンダリングは、どのレンダーアイテム(RI)が指向性を使用するかを確認し、指向性からのフィルタ利得係数をとり、イコライザ(EQ)をRIのメタデータに適用することによって行われる。

Claims (59)

  1. ビットストリーム(104)において符号化されたオーディオ信号を復号するための装置(200、200a)であって、前記オーディオ信号は異なる方向に従って異なるオーディオ値を有し、前記方向は単位球面(1)における離散位置と関連付けられ、前記単位球面(1)における前記離散位置は、赤道から第1の極(2)に向かい前記赤道から第2の極(4)に向かって平行線に従ってずらされており、前記装置は、
    前記ビットストリーム(104)から前記符号化されたオーディオ信号の予測残差値を読み取るように構成されるビットストリーム読取器(130)と、
    予測によって、および前記符号化されたオーディオ信号(104)の予測残差値から、前記オーディオ信号(101、102)を取得するように構成される予測セクション(210')とを含み、前記予測セクション(210')は、
    隣接離散位置(10)の線に沿った、少なくとも1つの初期予測シーケンス(10、20)であって、前記同じ初期予測シーケンス(10)の中の直前のオーディオ値のオーディオ値に基づいて前記オーディオ値を予測する、初期予測シーケンスと、
    複数のサブシーケンス(31、32、33)に分けられる、少なくとも1つの後続の予測シーケンス(30、40)であって、各サブシーケンス(31、32、33)は、平行線に沿って移動し、以前に予測された平行線に隣接しており、処理されている平行線に沿ったオーディオ値は、
    前記同じサブシーケンス(31、32、33)の中の前記隣接離散位置のオーディオ値、および
    前記以前に予測された隣接する平行線の前記オーディオ値の補間されたバージョン(31')であって、前記以前に予測された隣接する平行線の各々の補間されたバージョン(31')は、処理されている前記平行線の同数の離散位置を有する、補間されたバージョン
    に少なくとも基づいて予測されるようなものである、後続の予測シーケンスと
    を含む、複数の予測シーケンス(10、20、30,40)を使用する、装置。
  2. 前記少なくとも1つの初期予測シーケンスは、前記単位球面(1)の子午線に沿った子午線初期予測シーケンス(10)を含み、
    前記複数のサブシーケンス(31、32、33)の少なくとも1つは、前記すでに予測された少なくとも1つの子午線初期予測シーケンス(10)の離散位置(31a、32a、33a)から開始する、請求項1に記載の装置。
  3. 前記少なくとも1つの初期予測シーケンスは、前記子午線初期予測シーケンス(10)の後に行われることになる、前記単位球面(1)の前記赤道に沿った赤道初期予測シーケンス(20)を含み、前記赤道初期予測シーケンス(20)は、前記すでに予測された少なくとも1つの子午線初期予測シーケンス(10)の離散位置(20a)から開始する、請求項2に記載の装置。
  4. 前記複数のサブシーケンスの第1のサブシーケンス(31)は、前記赤道に隣接する平行線に沿って行われ、前記複数のサブシーケンスの前記さらなるサブシーケンス(32、33)は、極(4)に向かって次々に行われる、請求項3に記載の装置。
  5. 前記予測セクション(220')は、少なくとも1つの初期予測シーケンス(10、20)において、隣接離散位置(602、702)における1つのすでに予測された信号オーディオ値からの線形予測によって少なくとも1つのオーディオ値(601、701)を予測するように構成される、請求項1から4のいずれか一項に記載の装置。
  6. 前記線形予測は、前記予測シーケンスの少なくとも1つにおいて、または少なくとも1つのサブシーケンスにおいて、前記予測されたオーディオ値が前記隣接離散位置における前記単一のオーディオ値と同じであるような、識別情報の予測である、請求項5に記載の装置。
  7. 前記予測セクション(120)は、少なくとも1つの初期予測シーケンス(10、20)において、第1の隣接離散位置(602、702)における1つだけのすでに予測されたオーディオ値および前記第1の隣接離散位置に隣接する第2の離散位置(605、705)における1つのすでに予測されたオーディオ値からの予測によって少なくとも1つのオーディオ値(601、701)を予測するように構成される、請求項1から6のいずれか一項に記載の装置。
  8. 前記予測は線形である、請求項7に記載の装置。
  9. 前記予測は、前記第1の隣接離散位置(601、701)における前記すでに予測されたオーディオ値が、前記第1の隣接離散位置(601、701)に隣接する前記第2の離散位置(605、705)における前記すでに予測されたオーディオ値の少なくとも2倍重み付けられるようなものである、請求項7または8に記載の装置。
  10. 前記予測セクション(210')は、少なくとも1つのサブシーケンス(31、32、33)において、
    前記同じサブシーケンス(32)における前記隣接離散位置(502)における直前のオーディオ値、および
    前記以前に予測された平行線(31)の前記補間されたバージョン(31')における隣接位置(503)における少なくとも1つの第1の補間されたオーディオ値
    に基づいて、少なくとも1つのオーディオ値(501)を予測するように構成される、請求項1から9のいずれか一項に記載の装置。
  11. 前記予測セクション(210')は、少なくとも1つのサブシーケンス(31、32、33)において、
    前記第1の補間されたオーディオ値の前記位置(503)に隣接し前記同じサブシーケンスにおける前記隣接離散位置(502)に隣接する、位置(506)における少なくとも1つの第2の補間されたオーディオ値
    にも基づいて少なくとも1つのオーディオ値を予測するように構成される、請求項10に記載の装置。
  12. 前記補間において、
    前記以前に予測された平行線(31)の前記補間されたバージョン(31')における前記隣接位置(503)における前記第1の補間されたオーディオ値、および
    前記第1の補間されたオーディオ値の前記位置(503)に隣接し前記同じサブシーケンス(32)における前記隣接位置(502)における前記以前に予測されたオーディオ値に隣接する、前記位置(506)における前記少なくとも1つの第2の補間されたオーディオ値
    に同じ重みが与えられる、請求項11に記載の装置。
  13. 前記予測セクション(210')は、少なくとも1つのサブシーケンス(31~33)において、線形予測を通じて前記少なくとも1つのオーディオ値を予測するように構成される、請求項1から12のいずれか一項に記載の装置。
  14. 前記直前に予測された平行線(31)の前記補間されたバージョン(31')は、予測されることになる前記平行線(32)における離散位置の数と一致するように前記以前に予測された平行線(31)の離散位置の数を減らす処理を通じて引き出される、請求項1から13のいずれか一項に記載の装置。
  15. 前記直前に予測された平行線の前記補間されたバージョン(31')は、円弧補間を通じて引き出される、請求項1から14のいずれか一項に記載の装置。
  16. 前記ビットストリーム(104)におけるシグナリングに基づいて、処理されている平行線に沿ったオーディオ値が前記同じサブシーケンス(31、32、33)における前記隣接離散位置のオーディオ値のみに基づいて予測されるように、前記平行線に沿って、かつ以前に予測された平行線に隣接して移動することによって、前記少なくとも1つの後続の予測シーケンス(30、40)を行うことを選ぶように構成される、請求項1から15のいずれか一項に記載の装置。
  17. 前記予測セクションは、前記予測された値(212)と前記予測残差値(222)を加算するための加算器(222)を含む、請求項1から16のいずれか一項に記載の装置。
  18. 異なる周波数帯域に従って前記オーディオ信号の周波数を分離し、各周波数帯域のための予測を行うように構成される、請求項1から17のいずれか一項に記載の装置。
  19. 前記単位球面(1)の空間分解能は、より高い周波数帯域およびより低い周波数帯域に対して同じである、請求項18に記載の装置。
  20. 前記ビットストリームにおける選択された空間分解能のシグナリングに基づいて、複数のあらかじめ定められた空間分解能の中から前記単位球面の前記空間分解能を選択するように構成される、請求項1から19のいずれか一項に記載の装置。
  21. 前記予測されたオーディオ値(202)を対数領域に変換するように構成される、請求項1から20のいずれか一項に記載の装置。
  22. 前記予測されたオーディオ値はデシベル値である、請求項1から21のいずれか一項に記載の装置。
  23. 各微分オーディオ信号を隣接する非微分オーディオ信号に反復的に加算することによって、前記オーディオ信号を微分オーディオ信号から非微分オーディオ信号へと再定義するように構成される、ポストプロセッサ(205)を含む、請求項1から22のいずれか一項に記載の装置。
  24. 特定の離散位置における非微分オーディオ値(201)は、あらかじめ定められた順序に従って前記特定の離散位置における前記オーディオ値を隣接離散位置のオーディオ値から差し引くことによって取得される、請求項23に記載の装置。
  25. 各周波数帯域のための予測を行い、
    異なる周波数帯域に従って前記オーディオ信号の前記周波数を合成する(205)ように構成される、請求項23または24に記載の装置。
  26. 前記ビットストリーム読取器(230)は、一段階復号を使用して前記ビットストリーム(104)を読み取るように構成され、前記一段階復号に従って、
    より頻度の高い予測されたオーディオ値は、より頻度の低い予測されたオーディオ値より短い長さのコードと関連付けられる、請求項1から25のいずれか一項に記載の装置。
  27. オーディオ信号(102)を符号化するための装置(100)であって、前記オーディオ信号は異なる方向に従って異なるオーディオ値を有し、前記方向は単位球面(1)における離散位置と関連付けられ、前記単位球面における前記離散位置は、赤道から2つの極(2、4)に向かって平行線に従ってずらされており、前記装置は、
    隣接離散位置(10)の線に沿った、少なくとも1つの初期予測シーケンス(10、20)であって、前記同じ初期予測シーケンスの中の直前のオーディオ値のオーディオ値に基づいて前記オーディオ値を予測することによる、少なくとも1つの初期予測シーケンス(10、20)と、
    複数のサブシーケンス(31~33)に分けられる、少なくとも1つの後続の予測シーケンス(30、40)であって、各サブシーケンス(31~33)は、平行線に沿って移動し、以前に予測された平行線に隣接しており、オーディオ値は、
    前記同じサブシーケンスの中の前記隣接離散位置のオーディオ値、および
    前記以前に予測された隣接する平行線の前記オーディオ値の補間されたバージョンであって、各々の補間されたバージョンは前記平行線の同数の離散位置を有する、補間されたバージョン
    に少なくとも基づいて予測されるようなものである、後続の予測シーケンスと
    を含む、複数の予測シーケンス(10、20、30)を行うように構成される予測器ブロック(110)と、
    前記予測された値を前記オーディオ信号(102)の実際の値と比較して予測残差値(122)を生成するように構成される予測残差生成器(120)と、
    ビットストリーム(104)に、前記予測残差値(122)またはその処理されたバージョンを書き込むように構成されるビットストリーム書込器(130)とを含む、装置。
  28. 前記少なくとも1つの初期予測シーケンスは、前記単位球面(1)の子午線に沿った子午線初期予測シーケンス(10)を含み、
    前記複数のサブシーケンス(31、32、33)の少なくとも1つは、前記すでに予測された少なくとも1つの子午線初期予測シーケンス(10)の離散位置(31a、32a、33a)から開始する、請求項27に記載の装置。
  29. 前記少なくとも1つの初期予測シーケンスは、前記子午線初期予測シーケンス(10)の後に行われることになる、前記単位球面(1)の前記赤道に沿った赤道初期予測シーケンス(20)を含み、前記赤道初期予測シーケンス(20)は、前記すでに予測された少なくとも1つの子午線初期予測シーケンス(10)の離散位置(20a)から開始する、請求項28に記載の装置。
  30. 前記複数のサブシーケンスの第1のサブシーケンス(31)は、前記赤道に隣接する平行線に沿って行われ、前記複数のサブシーケンスの前記さらなるサブシーケンス(32、33)は、極(4)に向かって次々に行われる、請求項29に記載の装置。
  31. 前記予測器ブロック(120)は、少なくとも1つの初期予測シーケンス(10、20)において、前の隣接離散位置における単一のオーディオ値からの線形予測によって少なくとも1つのオーディオ値を予測するように構成される、請求項27から30のいずれか一項に記載の装置。
  32. 前記線形予測は、前記予測シーケンスの少なくとも1つにおいて、または少なくとも1つのサブシーケンスにおいて、前記予測されたオーディオ値が前記隣接離散位置における前記単一のオーディオ値と同じであるような、識別情報の予測である、請求項31に記載の装置。
  33. 前記予測器ブロック(120)は、少なくとも1つの初期予測シーケンス(10、20)において、第1の隣接離散位置における1つだけのオーディオ値および前記第1の隣接離散位置に隣接する第2の離散位置における第2のオーディオ値からの予測によって少なくとも1つのオーディオ値を予測するように構成される、請求項27から32のいずれか一項に記載の装置。
  34. 前記予測は線形である、請求項33に記載の装置。
  35. 前記予測は、前記第1の隣接離散位置における前記オーディオ値が、前記第1の隣接離散位置に隣接する前記第2の離散位置における前記第2のオーディオ値の少なくとも2倍重み付けられるようなものである、請求項33または34に記載の装置。
  36. 前記予測器ブロック(120)は、少なくとも1つのサブシーケンス(31、32、33)において、
    前記同じサブシーケンス(31)における前記隣接離散位置(502)における前記オーディオ値、および
    前記以前に予測された平行線(31)の前記補間されたバージョンにおける隣接位置(503)における少なくとも1つの第1の補間されたオーディオ値
    に基づいて、少なくとも1つのオーディオ値(501)を予測するように構成される、請求項27から35のいずれか一項に記載の装置。
  37. 前記予測器ブロック(120)は、少なくとも1つのサブシーケンス(31、32、33)において、
    前記以前に予測された平行線(31)の前記補間されたバージョン(31')における、前記第1の補間されたオーディオ値の前記位置(503)に隣接し、前記同じサブシーケンス(32)において予測されている前記離散位置(501)に隣接する前記位置(502)に隣接する、位置における、少なくとも1つの第2の補間されたオーディオ値(506)
    にも基づいて少なくとも1つのオーディオ値(501)を予測するように構成される、請求項36に記載の装置。
  38. 前記補間において、
    前記同じサブシーケンスにおける前記隣接離散位置における前記直前のオーディオ値、
    前記以前に予測された平行線の前記補間されたバージョンにおける前記隣接位置における前記第1の補間されたオーディオ値、および
    前記第1の補間されたオーディオ値の前記位置に隣接し前記同じサブシーケンスにおける前記隣接離散位置における前記オーディオ値に隣接する、前記位置における前記少なくとも1つの第2の補間されたオーディオ値
    に同じ重みが与えられる、請求項37に記載の装置。
  39. 前記予測器ブロック(120)は、少なくとも1つのサブシーケンス(31~33)において、線形予測を通じて前記少なくとも1つのオーディオ値を予測するように構成される、請求項27から38のいずれか一項に記載の装置。
  40. 前記直前に予測された平行線の前記補間されたバージョンは、予測されることになる前記平行線における離散位置の数と一致するように前記以前に予測された平行線の離散位置の数を減らす処理を通じて引き出される、請求項27から39のいずれか一項に記載の装置。
  41. 前記直前に予測された平行線の前記補間されたバージョンは、円弧補間を通じて引き出される、請求項27から40のいずれか一項に記載の装置。
  42. シミュレーションに基づいて、処理されている平行線に沿ったオーディオ値が前記同じサブシーケンス(31、32、33)における前記隣接離散位置のオーディオ値のみに基づいて予測されるように、前記平行線に沿って、かつ以前に予測された平行線に隣接して移動することによって、前記少なくとも1つの後続の予測シーケンス(30、40)を行うことを選択するように構成される、請求項1から41のいずれか一項に記載の装置。
  43. 異なる周波数帯域に従って前記オーディオ信号の周波数を分離し、各周波数帯域のための予測を行うように構成される、請求項27から42のいずれか一項に記載の装置。
  44. 前記単位球面(1)の空間分解能は、より高い周波数帯域およびより低い周波数帯域に対して同じである、請求項43に記載の装置。
  45. 前記、請求項43または44に記載の装置。
  46. 複数のあらかじめ定められた空間分解能の中から前記単位球面の前記空間分解能を選択し、前記選択された空間分解能を前記ビットストリームでシグナリングするように構成される、請求項27から45のいずれか一項に記載の装置。
  47. 前記予測の上流で、前記オーディオ値を対数領域に変換するように構成される、請求項27から46のいずれか一項に記載の装置。
  48. 前記オーディオ値はデシベル値である、請求項27から47のいずれか一項に記載の装置。
  49. 前記予測の上流で、前記オーディオ値を量子化するように構成される、請求項27から48のいずれか一項に記載の装置。
  50. 前記オーディオ値が微分オーディオ値であるように、前記オーディオ信号(102)を微分オーディオ信号として再定義するように構成される、請求項27から49のいずれか一項に記載の装置。
  51. 特定の離散位置における微分オーディオ値は、隣接離散位置のオーディオ値から前記特定の離散位置における前記オーディオ値を差し引くことによって取得される、請求項50に記載の装置。
  52. 異なる周波数帯域に従って前記オーディオ信号の周波数を分離し、各周波数帯域に対する予測を行うように構成され、
    特定の離散位置における微分オーディオ値は、前記特定の離散位置における前記オーディオ値をある前記直ちに周波数における前記同じ離散位置のオーディオ値から差し引くことによって取得される、請求項50または51に記載の装置。
  53. 前記ビットストリーム書込器(130)は、一段階符号化を使用して前記ビットストリームを符号化するように構成され、前記一段階符号化に従って、
    より頻度の高い予測されたオーディオ値(112)、またはその処理されたバージョン(122)は、より頻度の低い予測されたオーディオ値、またはその処理されたバージョンより短い長さのコードと関連付けられる、請求項27から52のいずれか一項に記載の装置。
  54. より頻度の高い予測されたオーディオ値またはその処理されたバージョンを一緒にグループ化し、より頻度の低い予測されたオーディオ値またはその処理されたバージョンを一緒にグループ化するように構成される、請求項53に記載の装置。
  55. 請求項1026に従属するとき、二段階符号化を使用することおよび一段階符号化を使用することからの選択を行い、前記選択を前記ビットストリームでシグナリングするように構成される、請求項54に記載の装置。
  56. 前記分解能が閾値より細かい場合、前記一段階符号化が選択され、
    前記分解能が前記閾値より粗い場合、前記二段階符号化が選択される
    ように、前記単位球面の前記分解能と前記閾値との比較に基づいて前記選択を行うように構成される、請求項55に記載の装置。
  57. ビットストリーム(104)に符号化されたオーディオ信号を復号するための方法であって、前記オーディオ信号は異なる方向に従って異なるオーディオ値を有し、前記方向は単位球面(1)における離散位置と関連付けられ、前記単位球面(1)における前記離散位置は、赤道から第1の極(2)に向かい前記赤道から第2の極(4)に向かって平行線に従ってずらされており、前記方法は、
    前記ビットストリーム(104)から前記符号化されたオーディオ信号の予測残差値を読み取るステップと、
    前記予測残差値および複数の予測シーケンス(10、20、30、40)からの予測された値(202)を使用して前記オーディオ信号を復号するステップとを含み、前記複数の予測シーケンスは、
    隣接離散位置(10)の線に沿った、少なくとも1つの初期予測シーケンス(10、20)であって、前記同じ初期予測シーケンス(10)の中の直前のオーディオ値のオーディオ値に基づいて前記オーディオ値を予測する、初期予測シーケンスと、
    複数のサブシーケンス(31、32、33)に分けられる、少なくとも1つの後続の予測シーケンス(30、40)であって、各サブシーケンス(31、32、33)は、平行線に沿って移動し、以前に予測された平行線に隣接しており、処理されている平行線に沿ったオーディオ値は、
    前記同じサブシーケンス(31、32、33)の中の前記隣接離散位置の前記オーディオ値、および
    前記以前に予測された隣接する平行線の前記オーディオ値の補間されたバージョンであって、前記以前に予測された隣接する平行線の各々の補間されたバージョンは、処理されている前記平行線の同数の離散位置を有する、補間されたバージョン
    に少なくとも基づいて予測されるようなものである、後続の予測シーケンスと
    を含む、方法。
  58. プロセッサによって実行されると、前記プロセッサに請求項57に記載の方法を行わせる命令を記憶する、非一時的記憶ユニット。
  59. オーディオ信号のための圧縮された描写を表すビットストリーム(104)であって、
    異なる方向に従って分布する予測オーディオ値(122)は符号化され、前記方向は単位球面(1)における離散位置と関連付けられ、前記単位球面(1)における前記離散位置は、赤道から第1の極(2)に向かい前記赤道から第2の極(4)に向かって平行線に従ってずらされている、ビットストリーム。
JP2023572920A 2021-05-27 2022-05-25 オーディオ指向性コーディング Pending JP2024520456A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP21176342.0 2021-05-27
EP21176342 2021-05-27
PCT/EP2022/064343 WO2022248632A1 (en) 2021-05-27 2022-05-25 Audio directivity coding

Publications (1)

Publication Number Publication Date
JP2024520456A true JP2024520456A (ja) 2024-05-24

Family

ID=76305726

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023572920A Pending JP2024520456A (ja) 2021-05-27 2022-05-25 オーディオ指向性コーディング

Country Status (7)

Country Link
US (1) US20240096339A1 (ja)
EP (1) EP4348637A1 (ja)
JP (1) JP2024520456A (ja)
KR (1) KR20240025550A (ja)
CN (1) CN117716424A (ja)
BR (1) BR112023024605A2 (ja)
WO (1) WO2022248632A1 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8964994B2 (en) * 2008-12-15 2015-02-24 Orange Encoding of multichannel digital audio signals
JP2022539217A (ja) * 2019-07-02 2022-09-07 ドルビー・インターナショナル・アーベー 離散指向性情報の表現、符号化、および復号化のための方法、装置、およびシステム

Also Published As

Publication number Publication date
BR112023024605A2 (pt) 2024-02-20
EP4348637A1 (en) 2024-04-10
WO2022248632A1 (en) 2022-12-01
US20240096339A1 (en) 2024-03-21
CN117716424A (zh) 2024-03-15
KR20240025550A (ko) 2024-02-27

Similar Documents

Publication Publication Date Title
RU2763313C2 (ru) Устройство и способ кодирования или декодирования параметров направленного кодирования аудио с использованием различных частотно-временных разрешений
JP6262820B2 (ja) 広義知覚類似性(wide−sense perceptual similarity)を使用するデジタルメディアスペクトルデータの効率的な復号
KR101343267B1 (ko) 주파수 세그먼트화를 이용한 오디오 코딩 및 디코딩을 위한 방법 및 장치
KR101330362B1 (ko) 오디오 인코딩 방법, 오디오 디코딩 방법 및 오디오 인코더 디바이스
CN106133828B (zh) 编码装置和编码方法、解码装置和解码方法及存储介质
ES2378393T3 (es) Utilización selectiva de múltiples modelos para codificación y descodificación adaptativa
AU2007208482B2 (en) Complex-transform channel coding with extended-band frequency coding
KR100552710B1 (ko) 위치 인터폴레이터 부호화/복호화 방법 및 장치
US20020016161A1 (en) Method and apparatus for compression of speech encoded parameters
KR101067514B1 (ko) 버퍼 조정을 이용하는 예측 코딩 데이터의 디코딩
KR20070085982A (ko) 광대역 부호화 장치, 광대역 lsp 예측 장치, 대역스케일러블 부호화 장치 및 광대역 부호화 방법
JP7405962B2 (ja) 空間オーディオパラメータ符号化および関連する復号化の決定
WO2016001355A1 (en) Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation
KR20240022588A (ko) 신경망 및 벡터 양자화기를 사용하여 오디오 파형 압축
Kim et al. Learning continuous representation of audio for arbitrary scale super resolution
US20110135007A1 (en) Entropy-Coded Lattice Vector Quantization
JP2024520456A (ja) オーディオ指向性コーディング
US20160019900A1 (en) Method and apparatus for lattice vector quantization of an audio signal
CN115038027B (zh) Hoa系数的获取方法和装置
US20110112841A1 (en) Apparatus
CN117616499A (zh) 优化的球面向量量化
Moreau Tools for Signal Compression: Applications to Speech and Audio Coding
CN110291583A (zh) 用于音频编解码器中的长期预测的系统和方法
CN117616498A (zh) 使用神经网络和向量量化器压缩音频波形
JPH08275163A (ja) 画像処理装置およびその方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240123

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240123