JP6605725B2 - 複数の遷移の間の高次アンビソニック係数のコーディング - Google Patents

複数の遷移の間の高次アンビソニック係数のコーディング Download PDF

Info

Publication number
JP6605725B2
JP6605725B2 JP2018519046A JP2018519046A JP6605725B2 JP 6605725 B2 JP6605725 B2 JP 6605725B2 JP 2018519046 A JP2018519046 A JP 2018519046A JP 2018519046 A JP2018519046 A JP 2018519046A JP 6605725 B2 JP6605725 B2 JP 6605725B2
Authority
JP
Japan
Prior art keywords
indication
frame
foreground
vector
bitstream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018519046A
Other languages
English (en)
Other versions
JP2018534617A5 (ja
JP2018534617A (ja
Inventor
ペータース、ニルス・ギュンター
セン、ディパンジャン
キム、ム・ユン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2018534617A publication Critical patent/JP2018534617A/ja
Publication of JP2018534617A5 publication Critical patent/JP2018534617A5/ja
Application granted granted Critical
Publication of JP6605725B2 publication Critical patent/JP6605725B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

[0001] 本出願は、その内容全体が参照により本明細書に組み込まれる、2015年10月14日に出願された「CODING HIGHER−ORDER AMBISONIC COEFFICIENTS DURING MULTIPLE TRANSITIONS」と題する米国仮出願第62/241,665号の利益を主張する。
[0002] 本開示はオーディオデータに関し、より詳細には、高次アンビソニックオーディオデータの圧縮に関する。
[0003] 高次アンビソニックス(HOA:higher-order ambisonics)信号(複数の球面調和係数(SHC:spherical harmonic coefficient)または他の階層的要素によって表されることが多い)は、音場の3次元表現である。このHOA表現またはSHC表現は、SHC信号からレンダリングされるマルチチャネルオーディオ信号を再生するために使用されるローカルスピーカー幾何学的配置に依存しない方法で音場を表し得る。SHC信号は、5.1オーディオチャネルフォーマットまたは7.1オーディオチャネルフォーマットのようなよく知られており広く採用されているマルチチャネルフォーマットにレンダリングされ得るので、SHC信号はまた、後方互換性を容易にし得る。従って、SHC表現は、後方互換性にも対応する、音場のより良い表現を可能にし得る。
[0004] 概して、高次アンビソニックスオーディオデータの圧縮のための技法が説明される。高次アンビソニックスオーディオデータは、1よりも大きい次数を有する球面調和基底関数(spherical harmonic basis function)に対応する少なくとも1つの球面調和係数を備え得る。
[0005] 一態様では、高次アンビソニック(HOA)オーディオデータを表すビットストリームを復号するように構成されたデバイスであって、本デバイスは、フォアグラウンドオーディオ信号(foreground audio signal)が遷移中であるときの、ビットストリームの同じフレームの間に、環境HOA係数(ambient HOA coefficient)が遷移中であるかどうかの複数遷移指示(multi-transition indication)を取得することと、複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、ベクトルと、対応するフォアグラウンドオーディオ信号の両方がHOAオーディオデータから分解され(decomposed)ている、を行うように構成された1つまたは複数のプロセッサを備える。本デバイスは、1つまたは複数のプロセッサに結合され、ベクトルを記憶するように構成されたメモリも備える。
[0006] 別の態様では、高次アンビソニック(HOA)オーディオデータを表すビットストリームを復号する方法であって、本方法は、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得することと、複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、ベクトルと、対応するフォアグラウンドオーディオ信号の両方がHOAオーディオデータから分解されている、を備える。
[0007] 別の態様では、非一時的コンピュータ可読記憶媒体が、実行されると、1つまたは複数のプロセッサに、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得することと、複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、ベクトルと、対応するフォアグラウンドオーディオ信号の両方がHOAオーディオデータから分解されている、を行わせる命令を記憶している。
[0008] 別の態様では、高次アンビソニック(HOA)オーディオデータを表すビットストリームを復号するためのデバイスであって、本デバイスは、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得するための手段と、複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得するための手段と、ベクトルと、対応するフォアグラウンドオーディオ信号の両方がHOAオーディオデータから分解されている、を備える。
[0009] 本技法の1つまたは複数の態様の詳細は、添付の図面および以下の説明に記載される。本技法の他の特徴、目的、および利点は、説明および図面から、並びに特許請求の範囲から明らかになろう。
様々な次数および副次数の球面調和基底関数を示す図。 本開示で説明される技法の様々な態様を行い得るシステムを示す図。 本開示で説明される技法の様々な態様を行い得る図2の例に示されるオーディオ符号化デバイスの一例をより詳細に示すブロック図。 図2のオーディオ復号デバイスをより詳細に示すブロック図。 同じフレームの間に複数の遷移が起きたときのビットストリーム中のフレームのシグナリングを示す図。 本開示で説明される技法の様々な態様による、同じフレームの間に複数の遷移が起きたときのビットストリーム中のフレームのシグナリングを示す図。 本開示で説明される技法の様々な態様を行う際の図2に示されるオーディオ符号化デバイスの例示的な動作を示すフローチャート。 本開示で説明される技法の様々な態様を行う際の図2に示されるオーディオ符号化デバイスの例示的な動作を示すフローチャート。 本開示で説明される技法の様々な態様を行う際の図2に示されるオーディオ符号化デバイスの例示的な動作を示すフローチャート。 本開示で説明される技法の様々な態様を行う際の図2に示されるオーディオ符号化デバイスの例示的な動作を示すフローチャート。 本開示で説明される技法の様々な態様を行う際の図2に示されるオーディオ復号デバイスの例示的な動作を示すフローチャート。 本開示で説明される技法の様々な態様を行う際の図2に示されるオーディオ復号デバイスの例示的な動作を示すフローチャート。 本開示で説明される技法の様々な態様を行う際の図2に示されるオーディオ復号デバイスの例示的な動作を示すフローチャート。 本開示で説明される技法の様々な態様を行う際の図2に示されるオーディオ復号デバイスの例示的な動作を示すフローチャート。
[0018] サラウンドサウンドの発展は、昨今娯楽のために多くの出力フォーマットを利用可能にしている。そのような消費者向けのサラウンドサウンドフォーマットの例は、ある幾何学的な座標にあるラウドスピーカーへのフィードを暗黙のうちに指定するという点で、大半が「チャネル」ベースである。消費者向けのサラウンドサウンドフォーマットは、普及している5.1フォーマット(これは、次の6つのチャネル、すなわち、フロントレフト(FL)と、フロントライト(FR)と、センターまたはフロントセンターと、バックレフトまたはサラウンドレフトと、バックライトまたはサラウンドライトと、低周波効果(LFE:low frequency effects)とを含む)、発展中の7.1フォーマット、7.1.4フォーマットおよび22.2フォーマット(例えば、超高精細度テレビジョン規格(Ultra High Definition Television standard)とともに使用するための)のようなハイトスピーカー(height speakers)を含む様々なフォーマットを含む。消費者向けでないフォーマットは、「サラウンドアレイ」としばしば呼ばれる(対称な、および非対称な幾何学的配置の)任意の数のスピーカーに及び得る。そのようなアレイの一例は、切頂20面体(truncated icosahedron)の角の座標に配置された32個のラウドスピーカーを含む。
[0019] 将来のMPEGエンコーダへの入力は、場合によっては、次の3つの可能なフォーマット、すなわち、(i)あらかじめ指定された位置においてラウドスピーカーを通じて再生されることが意図される、(上記で説明された)従来のチャネルベースオーディオ、(ii)(情報の中でも)ロケーション座標を含んでいる関連するメタデータをもつ単一オーディオオブジェクトのための離散的なパルス符号変調(PCM)データを伴うオブジェクトベースオーディオ、並びに(iii)球面調和基底関数の係数(「球面調和係数」すなわちSHC、「高次アンビソニックス」すなわちHOA、および「HOA係数」とも呼ばれる)を使用して音場を表すことを伴うシーンベースオーディオのうちの1つである。将来のMPEGエンコーダは、2013年1月にスイスのジュネーブで発表された、http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zipにおいて入手可能な、国際標準化機構/国際電気標準会議(ISO)/(IEC)JTC1/SC29/WG11/N13411による「Call for Proposals for 3D Audio」と題する文書においてより詳細に説明され得る。
[0020] 市場には様々な「サラウンドサウンド」チャネルベースフォーマットがある。これらフォーマットは、例えば、5.1ホームシアタシステム(リビングルームに進出するという点でステレオ以上に最も成功した)からNHK(Nippon Hoso Kyokaiすなわち日本放送協会)によって開発された22.2システムに及ぶ。コンテンツ作成者(例えば、ハリウッドスタジオ)は、一度に映画のサウンドトラックを作成することを望み、各スピーカー構成のためにサウンドトラックをリミックスする努力を行うことを望まない。最近では、規格開発組織が、規格化されたビットストリームへの符号化と、スピーカーの幾何学的配置(と数)および(レンダラを伴う)再生のロケーションにおける音響条件に適応可能でありそれらにアグノスティック(agnostic)な後続の復号とを提供するための方法を検討している。
[0021] コンテンツ作成者にそのような柔軟性を提供するために、音場を表すための要素の階層セットが使用され得る。要素の階層セットは、モデル化された音場の完全な表現をより低次の要素の基本セットが提供するように要素が順序付けられる、要素のセットを指し得る。セットがより高次の要素を含むように拡張されると、表現はより詳細になり、分解能は向上する。
[0022] 要素の階層セットの一例は、球面調和係数(SHC)のセットである。次の式は、SHCを使用する音場の記述または表現を示す。
[0023] この式は、時間tにおける音場の任意の点{rr,θr,φr}における圧力piが、SHC、
によって一意に表され得ることを示す。ここで、
であり、cは、音速(約343m/s)であり、{rr,θr,φr}は、基準点(または観測点)であり、jn(・)は、次数nの球ベッセル関数であり、
は、次数nおよび副次数mの球面調和基底関数である。角括弧内の項が、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、またはウェーブレット変換のような、様々な時間−周波数変換によって概算され得る信号(すなわち、S(ω,rr,θr,φr))の周波数領域表現であることが認識され得る。階層セットの他の例としては、ウェーブレット変換係数のセットおよび多分解能基底関数の係数の他のセットがある。
[0024] 図1は、0次(n=0)から4次(n=4)までの球面調和基底関数を示す図である。理解できるように、各次数について、説明を簡単にするために図示されているが図1の例では明示的に示されていない副次数mの拡張が存在する。
[0025] SHC
は、様々なマイクロフォンアレイ構成によって物理的に取得(例えば、録音)され得るか、または代替的に、それらは音場のチャネルベースもしくはオブジェクトベースの記述から導出され得る。SHCはシーンベースオーディオを表し、ここで、SHCは、より効率的な送信または記憶を促し得る符号化されたSHCを取得するために、オーディオエンコーダに入力され得る。例えば、(1+4)2個の(25個の、従って4次の)係数を伴う4次表現が使用され得る。
[0026] 上述されたように、SHCは、マイクロフォンアレイを使用するマイクロフォン録音から導出され得る。SHCがマイクロフォンアレイからどのように導出され得るかの様々な例は、Poletti,M、「Three−Dimensional Surround Sound Systems Based on Spherical Harmonics」、J.Audio Eng. Soc.、Vol. 53、No. 11、2005年11月、1004〜1025ページにおいて説明されている。
[0027] SHCがどのようにオブジェクトベースの記述から導出され得るかを例示するために、次の式を考える。個々のオーディオオブジェクトに対応する音場についての係数
は、
と表され得、ここで、iは
であり、
は、次数nの(第二種の)球ハンケル関数(spherical Hankel function)であり、{rs,θs,φs}は、オブジェクトのロケーションである。周波数の関数として(例えば、PCMストリームに対して高速フーリエ変換を行うなど、時間−周波数分析技法を使用して)オブジェクトソースエネルギーg(ω)を知ることで、各PCMオブジェクトと対応するロケーションとをSHC
に変換できる。さらに、各オブジェクトの
係数は、(上記が線形および直交分解であるので)加法的であることが示され得る。このようにして、多数のPCMオブジェクトは
係数によって(例えば、個々のオブジェクトについての係数ベクトルの和として)表され得る。本質的に、これらの係数は、音場についての情報(3D座標の関数としての圧力)を含んでおり、上記は、観測点{rr,θr,φr}の近傍における、音場全体の表現への個々のオブジェクトからの変換を表す。残りの図は、以下でオブジェクトベースおよびSHCベースのオーディオコーディングのコンテキストで説明される。
[0028] 図2は、本開示で説明される技法の様々な態様を行い得るシステム10を示す図である。図2の例に示されているように、システム10は、コンテンツ作成者デバイス(content creator device)12と、コンテンツ消費者デバイス(content consumer device)14とを含む。コンテンツ作成者デバイス12およびコンテンツ消費者デバイス14のコンテキストで説明されているが、本技法は、オーディオデータを表すビットストリームを形成するために、(HOA係数とも呼ばれ得る)SHCまたは音場の任意の他の階層的表現が符号化される任意のコンテキストで実施され得る。
[0029] その上、コンテンツ作成者デバイス12は、いくつか例を挙げると、ハンドセット(もしくはセルラーフォン)、タブレットコンピュータ、スマートフォン、またはデスクトップコンピュータを含む、本開示で説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを代表し得る。同様に、コンテンツ消費者デバイス14は、いくつか例を挙げると、ハンドセット(またはセルラーフォン)、タブレットコンピュータ、スマートフォン、セットトップボックス、テレビジョン(いわゆる「スマートテレビジョン」を含む)、受信機(オーディオ/ビジュアル、すなわちAV、受信機のような)、メディアプレーヤ(デジタルビデオディスクプレーヤ、ストリーミングメディアプレーヤなどのような)、またはデスクトップコンピュータを含む、本開示で説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを代表し得る。
[0030] コンテンツ消費者デバイス14がテレビジョンを表すとき、コンテンツ消費者デバイス14は、統合されたラウドスピーカーを含み得る。この事例において、コンテンツ消費者デバイス14は、ラウドスピーカーフィードを生成するために、再構成されたHOA係数をレンダリングし、統合されたラウドスピーカーを駆動するためにラウドスピーカーフィードを出力し得る。
[0031] コンテンツ消費者デバイス14が受信機またはメディアプレーヤを表すとき、コンテンツ消費者デバイス14は、ラウドスピーカーに(電気的またはワイヤレスのいずれかで)結合し得る。コンテンツ消費者デバイス14は、この事例において、ラウドスピーカーフィードを生成するために、再構成されたHOA係数をレンダリングし、ラウドスピーカーを駆動するためにラウドスピーカーフィードを出力し得る。
[0032] コンテンツ作成者デバイス12は、コンテンツ消費者デバイス14のような、コンテンツ消費者の操作者による消費のためのマルチチャネルオーディオコンテンツを生成し得る、映画スタジオまたは他のエンティティによって操作され得る。いくつかの例において、コンテンツ作成者デバイス12は、HOA係数11を圧縮することを望み得る個人ユーザによって操作され得る。多くの場合、コンテンツ作成者は、ビデオコンテンツとともにオーディオコンテンツを生成する。コンテンツ消費者デバイス14は、個人によって操作され得る。コンテンツ消費者デバイス14は、マルチチャネルオーディオコンテンツとしての再生のためにSHCをレンダリングすることが可能な任意の形態のオーディオ再生システムを指し得る、オーディオ再生システム16を含み得る。
[0033] コンテンツ作成者デバイス12は、オーディオ編集システム18を含む。コンテンツ作成者デバイス12は、(HOA係数として直接含む)様々なフォーマットのライブ録音7とオーディオオブジェクト9とを取得し、コンテンツ作成者デバイス12は、オーディオ編集システム18を使用してこれらを編集し得る。コンテンツ作成者は、編集プロセス中に、オーディオオブジェクト9からのHOA係数11をレンダリングし、さらなる編集を必要とする音場の様々な態様を識別しようとして、レンダリングされたスピーカーフィードを聞き得る。コンテンツ作成者デバイス12は、次いで、(潜在的に、上記で説明された方法でソースHOA係数がそれから導出され得るオーディオオブジェクト9のうちの様々なオブジェクトの操作を通じて間接的に)HOA係数11を編集し得る。コンテンツ作成者デバイス12は、HOA係数11を生成するためにオーディオ編集システム18を採用し得る。オーディオ編集システム18は、オーディオデータを編集し、このオーディオデータを1つまたは複数のソース球面調和係数として出力することが可能な任意のシステムを表す。
[0034] 編集プロセスが完了すると、コンテンツ作成者デバイス12は、HOA係数11に基づいてビットストリーム21を生成し得る。すなわち、コンテンツ作成者デバイス12は、ビットストリーム21を生成するために、本開示で説明される技法の様々な態様に従って、HOA係数11を符号化またはさもなければ圧縮するように構成されたデバイスを表す、オーディオ符号化デバイス20を含む。オーディオ符号化デバイス20は、一例として、ワイヤードチャネルまたはワイヤレスチャネルであり得る送信チャネル、データ記憶デバイスなどを介した送信のために、ビットストリーム21を生成し得る。ビットストリーム21は、HOA係数11の符号化されたバージョンを表し得、主要ビットストリームと、サイドチャネル情報と呼ばれることがある別のサイドビットストリームとを含み得る。
[0035] 図2において、コンテンツ消費者デバイス14に直接送信されるものとして示されているが、コンテンツ作成者デバイス12は、コンテンツ作成者デバイス12とコンテンツ消費者デバイス14との間に配置された中間デバイスにビットストリーム21を出力し得る。中間デバイスは、ビットストリームを要求し得るコンテンツ消費者デバイス14に後で配信するために、ビットストリーム21を記憶し得る。中間デバイスは、ファイルサーバ、ウェブサーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルフォン、スマートフォン、または後でのオーディオデコーダによる取出しのためにビットストリーム21を記憶することが可能な任意の他のデバイスを備え得る。中間デバイスは、ビットストリーム21を要求する、コンテンツ消費者デバイス14のような、加入者にビットストリーム21を(場合によっては対応するビデオデータビットストリームを送信するとともに)ストリーミングすることが可能なコンテンツ配信ネットワーク内に存在し得る。
[0036] 代替的に、コンテンツ作成者デバイス12は、コンパクトディスク、デジタルビデオディスク、高精細度ビデオディスクまたは他の記憶媒体のような記憶媒体にビットストリーム21を記憶し得、記憶媒体の大部分はコンピュータによって読み取り可能であり、従って、コンピュータ可読記憶媒体または非一時的コンピュータ可読記憶媒体と呼ばれることがある。このコンテキストにおいて、送信チャネルは、これらの媒体に記憶されたコンテンツが送信されるチャネルを指すことがある(および、小売店と他の店舗ベースの配信機構とを含み得る)。従って、いずれにしても、本開示の技法は、この点に関して図2の例に限定されるべきでない。
[0037] 図2の例にさらに示されているように、コンテンツ消費者デバイス14はオーディオ再生システム16を含む。オーディオ再生システム16は、マルチチャネルオーディオデータを再生することが可能な任意のオーディオ再生システムを表し得る。オーディオ再生システム16は、いくつかの異なるレンダラ22を含み得る。レンダラ22はそれぞれ、異なる形態のレンダリングを提供し得、ここで、異なる形態のレンダリングは、ベクトルベース振幅パンニング(VBAP:vector-base amplitude panning)を行う様々な方法のうちの1つもしくは複数、および/または音場合成を行う様々な方法のうちの1つもしくは複数を含み得る。本明細書で使用される場合、「Aおよび/またはB」は、「AまたはB」、または「AとB」の両方を意味する。
[0038] オーディオ再生システム16は、オーディオ復号デバイス24をさらに含み得る。オーディオ復号デバイス24は、ビットストリーム21からHOA係数11’を復号するように構成されたデバイスを表し得、ここで、HOA係数11’は、HOA係数11と同様であり得るが、損失のある演算(例えば、量子化)および/または送信チャネルを介した送信に起因して異なり得る。
[0039] オーディオ再生システム16は、ビットストリーム21を復号してHOA係数11’を取得した後に、および、ラウドスピーカーフィード25を出力するためにHOA係数11’をレンダリングし得る。ラウドスピーカーフィード25は、(説明を簡単にするために図2の例には示されていない)1つまたは複数のラウドスピーカーを駆動し得る。
[0040] 適切なレンダラを選択するために、またはいくつかの事例において、適切なレンダラを生成するために、オーディオ再生システム16は、ラウドスピーカーの数および/またはラウドスピーカーの空間的な幾何学的配置を示すラウドスピーカー情報13を取得し得る。いくつかの事例において、オーディオ再生システム16は、基準マイクロフォンを使用し、ラウドスピーカー情報13を動的に決定するような方法でラウドスピーカーを駆動して、ラウドスピーカー情報13を取得し得る。他の事例において、またはラウドスピーカー情報13の動的決定とともに、オーディオ再生システム16は、オーディオ再生システム16とインターフェースをとりラウドスピーカー情報13を入力するようにユーザに促し得る。
[0041] オーディオ再生システム16は、次いで、ラウドスピーカー情報13に基づいてオーディオレンダラ22のうちの1つを選択し得る。いくつかの事例において、オーディオ再生システム16は、オーディオレンダラ22のいずれもが、ラウドスピーカー情報13において指定されたものに対して(ラウドスピーカー幾何学的配置に関する)何らかのしきい値類似性測度内にないとき、ラウドスピーカー情報13に基づいてオーディオレンダラ22のうちの1つを生成し得る。オーディオ再生システム16は、いくつかの事例において、オーディオレンダラ22のうちの既存の1つを選択することを最初に試みることなく、ラウドスピーカー情報13に基づいてオーディオレンダラ22のうちの1つを生成し得る。1つまたは複数のスピーカー3は、次いで、レンダリングされたラウドスピーカーフィード25を再生し得る。
[0042] 図3は、本開示で説明される技法の様々な態様を行い得る図2の例に示されるオーディオ符号化デバイス20の一例をより詳細に示すブロック図である。オーディオ符号化デバイス20は、コンテンツ分析ユニット26と、ベクトルベース分解ユニット27と、方向ベース分解ユニット28とを含む。
[0043] 以下で手短に説明されるが、ベクトルベース分解ユニット27、およびHOA係数を圧縮する様々な態様に関するより多くの情報は、2014年5月29に出願された「INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD」と題する国際特許出願公開第WO2014/194099号において入手可能である。さらに、以下で要約されるベクトルベース分解の論述を含む、MPEG−H 3Dオーディオ規格によるHOA係数の圧縮の様々な態様のさらなる詳細は、
2014年7月25日付けのISO/IEC JTC 1/SC 29/WG 11による「Information technology − High efficiency coding and media delivery in heterogeneous environments − Part 3:3D audio」と題するISO/IEC DIS 23008-3文書(http://mpeg.chiariglione.org/standards/mpeg−h/3d−audio/dis−mpeg−h−3d−audioにおいて入手可能であり、以下で「MPEG−H 3Dオーディオ規格のフェーズI」と呼ばれる)、
2015年7月25日付けのISO/IEC JTC 1/SC 29/WG 11による「Information technology − High efficiency coding and media delivery in heterogeneous environments − Part 3:3D audio, AMENDMENT 3:MPEG−H 3D Audio Phase 2」と題するISO/IEC DIS 23008−3:2015/PDAM 3文書(http://mpeg.chiariglione.org/standards/mpeg−h/3d−audio/text−isoiec−23008−3201xpdam−3−mpeg−h−3d−audio−phase−2において入手可能であり、以下で「MPEG−H 3Dオーディオ規格のフェーズII」と呼ばれる)、および
2015年8月付けのIEEE Journal of Selected Topics in Signal ProcessingのVol. 9、No. 5で発表された、Jurgen Herreらの「MPEG−H 3D Audio − The New Standard for Coding of Immersive Spatial Audio」に見出せる。
[0044] コンテンツ分析ユニット26は、HOA係数11がライブ録音から生成されたコンテンツを表すか、オーディオオブジェクトから生成されたコンテンツを表すかを識別するために、HOA係数11のコンテンツを分析するように構成されたユニットを表す。コンテンツ分析ユニット26は、HOA係数11が実際の音場の録音から生成されたか、人工的なオーディオオブジェクトから生成されたかを決定し得る。いくつかの事例において、フレーム化されたHOA係数11が録音から生成されたとき、コンテンツ分析ユニット26は、HOA係数11をベクトルベース分解ユニット27に渡す。いくつかの事例において、フレーム化されたHOA係数11が合成オーディオオブジェクトから生成されたとき、コンテンツ分析ユニット26は、HOA係数11を方向ベース合成ユニット28に渡す。方向ベース合成ユニット28は、方向ベースビットストリーム21を生成するためにHOA係数11の方向ベース合成を行うように構成されたユニットを表し得る。
[0045] 図3の例に示されるように、ベクトルベース分解ユニット27は、線形可逆変換(LIT)ユニット30と、パラメータ計算ユニット32と、並べ替えユニット34と、フォアグラウンド選択ユニット36と、エネルギー補償ユニット38と、聴覚心理オーディオコーダユニット40と、ビットストリーム生成ユニット42と、音場分析ユニット44と、係数低減ユニット46と、バックグラウンド(BG)選択ユニット48と、空間時間的補間ユニット50と、量子化ユニット52とを含み得る。
[0046] 線形可逆変換(LIT)ユニット30は、HOAチャネルの形態でHOA係数11を受信し、各チャネルは、球面基底関数の所与の次数、副次数に関連する係数(HOA[k]と示され得、ここで、kはサンプルの現在のフレームまたはブロックを示し得る)のブロックまたはフレームを表す。HOA係数11の行列は、次元D:M×(N+1)2を有し得る。
[0047] LITユニット30は、特異値分解(singular value decomposition)と呼ばれる形態の分析を行うように構成されたユニットを表し得る。SVDに関して説明されるが、本開示で説明される技法は、線形的に無相関な、エネルギー圧縮された出力のセットを提供する任意の同様の変換または分解に対して行われ得る。また、本開示における「セット」への言及は、概して、別段に特に明記されていない限り、非0のセットを指すものであり、いわゆる「空集合(empty set)」を含む集合の古典的な数学的定義を指すことは意図されない。代替的な変換は、「PCA」としばしば呼ばれる、主成分分析(principal component analysis)を備え得る。コンテキストに応じて、PCAは、いくつかの例を挙げれば、離散カルーネンレーベ変換(discrete Karhunen-Loeve transform)、ホテリング変換(Hotelling transform)、固有直交分解(POD:proper orthogonal decomposition)、および固有値分解(EVD:eigenvalue decomposition)のような、いくつかの異なる名前によって呼ばれることがある。オーディオデータを圧縮するという背後にある目標につながるそのような演算の特性は、マルチチャネルオーディオデータの「エネルギー圧縮(energy compaction)」および「無相関化(decorrelation)」である。
[0048] いずれにしても、LITユニット30が、例として、特異値分解(やはり「SVD」と呼ばれることがある)を行うと仮定すると、LITユニット30は、HOA係数11を、変換されたHOA係数の2つ以上のセットに変換し得る。変換されたHOA係数の「セット」は、変換されたHOA係数のベクトルを含み得る。図3の例において、LITユニット30は、いわゆるV行列と、S行列と、U行列とを生成するために、HOA係数11に関してSVDを行い得る。SVDは、線形代数学において、y×zの実または複素行列(real or complex matrix)X(ここで、Xは、HOA係数11のようなマルチチャネルオーディオデータを表し得る)の因数分解を以下の形で表し得る。
X=USV*
Uはy×yの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、Uのy個の列は、マルチチャネルオーディオデータの左特異ベクトル(left-singular vectors)として知られる。Sは、対角線上に非負実数(non-negative real numbers)をもつy×zの矩形対角行列(rectangular diagonal matrix)を表し得、ここで、Sの対角線値(diagonal values)は、マルチチャネルオーディオデータの特異値(singular values)として知られる。V*(Vの共役転置(conjugate transpose)を示し得る)は、z×zの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、V*のz個の列は、マルチチャネルオーディオデータの右特異ベクトル(right-singular vectors)として知られる。
[0049] いくつかの例において、上で参照されたSVD数式中のV*行列は、複素数を備える行列にSVDが適用され得ることを反映するために、V行列の共役転置行列として示される。実数のみを備える行列に適用されるとき、V行列の複素共役(すなわち、言い換えれば、V*行列)は、V行列の転置であると見なされ得る。以下では、説明を簡単にするために、HOA係数11が実数を備え、その結果、V*行列でなくV行列がSVDによって出力されると仮定される。その上、本開示においてV行列として示されるが、V行列への言及は、適切な場合にはV行列の転置を指すものとして理解されるべきである。V行列であると仮定されているが、本技法は、同様の方式で、複素係数を有するHOA係数11に適用され得、ここで、SVDの出力はV*行列である。従って、本技法は、この点について、V行列を生成するためにSVDの適用を提供することのみに限定されるべきでなく、V*行列を生成するために複素成分を有するHOA係数11へのSVDの適用を含み得る。
[0050] このようにして、LITユニット30は、次元D:M×(N+1)2を有するUS[k]ベクトル33(SベクトルとUベクトルとの組み合わされたバージョンを表し得る)と、次元D:(N+1)2×(N+1)2を有するV[k]ベクトル35とを出力するために、HOA係数11に関してSVDを行い得る。US[k]行列中の個々のベクトル要素はXps(k)とも呼ばれることがあり、一方、V[k]行列の個々のベクトルはv(k)とも呼ばれることがある。
[0051] U行列、S行列、およびV行列の分析は、それらの行列がXによって上で表される背後の音場の空間的および時間的特性(spatial and temporal characteristics)を伝え、または表すということを明らかにし得る。(M個のサンプルの長さの)Uの中のN個のベクトルの各々は、(M個のサンプルによって表される時間期間の間は)時間の関数として、互いに直交しておりあらゆる空間特性(方向情報(directional information)とも呼ばれ得る)とは切り離されている、正規化された分離されたオーディオ信号を表し得る。空間的形状および位置(r、シータ、ファイ)を表す空間的特性は、代わりに、(各々が(N+1)2の長さの)V行列中の個々のi番目のベクトル、v(i)(k)によって表され得る。
[0052] v(i)(k)ベクトルの各々の個々の要素は、関連するオーディオオブジェクトについての音場の(幅を含む)形状と位置とを記述するHOA係数を表し得る。U行列中のベクトルとV行列中のベクトルの両方が、それらの2乗平均平方根(root-mean-square)のエネルギーが1に等しくなるように正規化される。従って、Uの中のオーディオ信号のエネルギーは、Sの中の対角線要素によって表される。従って、US[k](個々のベクトル要素XPS(k)を有する)を形成するために、UとSとを乗算することは、エネルギーを有するオーディオ信号を表す。(Uにおける)オーディオ時間信号と、(Sにおける)それらのエネルギーと、(Vにおける)それらの空間的特性とを切り離すSVD分解の能力は、本開示で説明される技法の様々な態様をサポートし得る。さらに、背後のHOA[k]係数XをUS[k]とV[k]とのベクトル乗算によって合成するモデルは、本文書全体で使用される、「ベクトルベース分解(vector-based decomposition)」という用語を生じさせる。
[0053] HOA係数11に関して直接行われるものとして説明されるが、LITユニット30は、線形可逆変換(linear invertible transform)をHOA係数11の派生物に適用し得る。例えば、LITユニット30は、HOA係数11から導出された電力スペクトル密度行列(power spectral density matrix)に関してSVDを適用し得る。HOA係数自体でなくHOA係数の電力スペクトル密度(PSD)に関してSVDを行うことによって、LITユニット30は、場合によっては、プロセッササイクルおよび記憶空間のうちの1つまたは複数に関してSVDを行う計算の複雑さを低減しつつ、SVDがHOA係数に直接適用されたかのように同じソースオーディオ符号化効率を達成し得る。
[0054] パラメータ計算ユニット32は、相関パラメータ(R)、方向特性パラメータ(θ、φ、r)、およびエネルギー特性(e)のような、様々なパラメータを計算するように構成されたユニットを表す。現在のフレームのためのパラメータの各々は、R[k]、θ[k]、φ[k]、r[k]およびe[k]として示され得る。パラメータ計算ユニット32は、パラメータを識別するために、US[k]ベクトル33に関してエネルギー分析および/または相関(もしくはいわゆる相互相関)を行い得る。パラメータ計算ユニット32はまた、以前のフレームのためのパラメータを決定し得、ここで、以前のフレームパラメータは、US[k−1]ベクトルおよびV[k−1]ベクトルの以前のフレームに基づいて、R[k−1]、θ[k−1]、φ[k−1]、r[k−1]およびe[k−1]と示され得る。パラメータ計算ユニット32は、現在のパラメータ37と以前のパラメータ39とを並べ替えユニット34に出力し得る。
[0055] パラメータ計算ユニット32によって計算されるパラメータは、オーディオオブジェクトの自然な評価または時間的な継続性を表すようにオーディオオブジェクトを並べ替えるために、並べ替えユニット34によって使用され得る。並べ替えユニット34は、第1のUS[k]ベクトル33からのパラメータ37の各々を、第2のUS[k−1]ベクトル33のためのパラメータ39の各々に対して順番ごとに比較し得る。並べ替えユニット34は、並べ替えられたUS[k]行列33’(数学的には
として示され得る)と、並べ替えられたV[k]行列35’(数学的には
として示され得る)とをフォアグラウンド音声(または支配的音声(predominant sound)−PS)選択ユニット36(「フォアグラウンド選択ユニット36」)およびエネルギー補償ユニット38に出力するために、現在のパラメータ37および以前のパラメータ39に基づいて、US[k]行列33およびV[k]行列35内の様々なベクトルを(一例として、ハンガリアンアルゴリズム(Hungarian algorithm)を使用して)並べ替え得る。
[0056] 音場分析ユニット44は、ターゲットビットレート41を潜在的に達成するために、HOA係数11に関して音場分析(soundfield analysis)を行うように構成されたユニットを表し得る。音場分析ユニット44は、その分析および/または受信されたターゲットビットレート41に基づいて、聴覚心理コーダのインスタンス化(psychoacoustic coder instantiations)の総数(環境またはバックグラウンドチャネルの総数(BGTOT)と、フォアグラウンドチャネル、または言い換えれば支配チャネルの数との関数であり得るを決定し得る。聴覚心理コーダのインスタンス化の総数は、numHOATransportChannelsとして示され得る。
[0057] 音場分析ユニット44はまた、やはり目標ビットレート41を潜在的に達成するために、フォアグラウンドチャネルの総数(nFG)45と、バックグラウンド(または言い換えれば環境)音場の最小次数(NBG、または代替的にはMinAmbHOAorder)と、バックグラウンド音場の最小次数を表す実際のチャネルの対応する数(nBGa=(MinAmbHOAorder+1)2)と、送るべき追加のBG HOAチャネルのインデックス(i)(図3の例ではバックグラウンドチャネル情報43として総称的に示され得る)とを決定し得る。バックグラウンドチャネル情報42は、環境チャネル情報43とも呼ばれ得る。numHOATransportChannels−nBGaで残るチャネルの各々は、「追加のバックグラウンド/環境チャネル(additional background/ambient channel)」、「アクティブなベクトルベースの支配的チャネル(active vector-based predominant channel)」、「アクティブな方向ベースの支配的信号(active directional based predominant signal)」、または「完全に非アクティブ(completely inactive)」のいずれかであり得る。一態様において、チャネルタイプは、2ビットによって(「ChannelType」として)示されたシンタックス要素であり得る(例えば、00:方向ベースの信号、01:ベクトルベースの支配的信号、10:追加の環境信号、11:非アクティブな信号)。バックグラウンド信号または環境信号の総数、nBGaは、(MinAmbHOAorder+1)2+(上記の例における)インデックス10がそのフレームのためのビットストリームにおいてチャネルタイプとして現れる回数によって与えられ得る。
[0058] 音場分析ユニット44は、ターゲットビットレート41に基づいて、バックグラウンド(または言い換えれば環境)チャネルの数と、フォアグラウンド(または言い換えれば支配的)チャネルの数とを選択し、ターゲットビットレート41が比較的高いとき(例えば、ターゲットビットレート41が512Kbps以上であるとき)はより多くのバックグラウンドチャネルおよび/またはフォアグラウンドチャネルを選択し得る。一態様で、ビットストリームのヘッダセクションにおいて、numHOATransportChannelsは8に設定され得るが、一方で、MinAmbHOAorderは1に設定され得る。このシナリオでは、各フレームにおいて、音場のバックグラウンド部分または環境部分を表すために4つのチャネルが確保され得るが、一方で、他の4つのチャネルは、フレームごとに、チャネルのタイプに応じて変化してよく、例えば、追加のバックグラウンド/環境チャネルまたはフォアグラウンド/支配的チャネルのいずれかとして使用され得る。フォアグラウンド/支配的信号は、上記で説明されたように、ベクトルベースの信号または方向ベースの信号のいずれか1つであり得る。
[0059] いくつかの事例において、フレームのためのベクトルベースの支配的信号の総数は、そのフレームのビットストリームにおいてChannelTypeインデックスが01である回数によって与えられ得る。上記の態様では、(例えば、10のChannelTypeに対応する)追加のバックグラウンド/環境チャネルごとに、(最初の4つ以外の)可能なHOA係数のうちのどれがという対応する情報がそのチャネルにおいて表され得る。この情報は、4次HOAコンテンツについて、HOA係数5〜25を示すためのインデックスであり得る。最初の4つの環境HOA係数1〜4は、minAmbHOAorderが1に設定されるときは常に送られ得、従って、オーディオ符号化デバイスは、5〜25のインデックスを有する追加の環境HOA係数のうちの1つを示すことのみが必要であり得る。その情報は従って、「CodedAmbCoeffIdx」として示され得る、(4次コンテンツのための)5ビットのシンタックス要素を使用して送られ得る。いずれの場合も、音場分析ユニット44は、バックグラウンドチャネル情報43とHOA係数11とをバックグラウンド(BG)選択ユニット36に、バックグラウンドチャネル情報43を係数低減ユニット46およびビットストリーム生成ユニット42に、並びにnFG45をフォアグラウンド選択ユニット36に出力する。
[0060] バックグラウンド選択ユニット48は、バックグラウンドチャネル情報(例えば、バックグラウンド音場(NBG)と、送るべき追加のBG HOAチャネルの数(nBGa)およびインデックス(i))に基づいてバックグラウンドまたは環境HOA係数47を決定するように構成されたユニットを表し得る。例えば、NBGが1に等しいとき、バックグラウンド選択ユニット48は、1以下の次数を有するオーディオフレームの各サンプルのHOA係数11を選択し得る。バックグラウンド選択ユニット48は次いで、この例において、インデックス(i)のうちの1つによって識別されるインデックスを有するHOA係数11を、追加のBG HOA係数として選択でき、ここで、nBGaは、図2および図4の例に示されるオーディオ復号デバイス24のような、オーディオ復号デバイスがビットストリーム21からバックグラウンドHOA係数47を解析することを可能にするために、ビットストリーム21において指定されるために、ビットストリーム生成ユニット42に提供される。バックグラウンド選択ユニット48は次いで、環境HOA係数47をエネルギー補償ユニット38に出力し得る。環境HOA係数47は、次元D:M×[(NBG+1)2+nBGa]を有し得る。環境HOA係数47はまた、環境HOA係数47の各々が、聴覚心理オーディオコーダユニット40によって符号化されるべき別個の環境HOAチャネル47に対応する「環境HOA係数47」と呼ばれることもある。
[0061] フォアグラウンド選択ユニット36は、(フォアグラウンドベクトルを識別する1つまたは複数のインデックスを表し得る)nFG45に基づいて、音場のフォアグラウンド成分または明確な成分を表す、並べ替えられたUS[k]行列33’と、並べ替えられたV[k]行列35’とを選択するように構成されたユニットを表し得る。フォアグラウンド選択ユニット36は、(並べ替えられたUS[k]1,...,nFG49、FG1,...,nfG[k]49、または
として示され得る)nFG信号49を、聴覚心理オーディオコーダユニット40に出力でき、ここで、nFG信号49は次元D:M×nFGを有し、モノラルオーディオオブジェクトを各々表し得る。フォアグラウンド選択ユニット36はまた、音場のフォアグラウンド成分に対応する並べ替えられたV[k]行列35’(またはv(1..nFG)(k)35’)を空間時間的補間ユニット50に出力し得、ここで、フォアグラウンド成分に対応する並べ替えられたV[k]行列35’のサブセットは、次元D:(N+1)2×nFGを有するフォアグラウンドV[k]行列51kとして示され得る(これは、
として数学的に示され得る)。
[0062] エネルギー補償ユニット38は、バックグラウンド選択ユニット48によるHOAチャネルの様々なチャネルの除去によるエネルギー損失を補償するために、環境HOA係数47に関してエネルギー補償を行うように構成されたユニットを表し得る。エネルギー補償ユニット38は、並べ替えられたUS[k]行列33’、並べ替えられたV[k]行列35’、nFG信号49、フォアグラウンドV[k]ベクトル51kおよび環境HOA係数47のうちの1つまたは複数に関してエネルギー分析を行い、次いで、エネルギー補償された環境HOA係数47’を生成するためにそのエネルギー分析に基づいてエネルギー補償を行い得る。エネルギー補償ユニット38は、エネルギー補償された環境HOA係数47’を聴覚心理オーディオコーダユニット40に出力し得る。
[0063] 空間時間的補間ユニット50は、k番目のフレームのためのフォアグラウンドV[k]ベクトル51kと、以前のフレームのための(従ってk−1という表記である)フォアグラウンドV[k−1]ベクトル51k-1とを受信し、補間されたフォアグラウンドV[k]ベクトルを生成するために空間時間的補間を行うように構成されたユニットを表し得る。空間時間的補間ユニット50は、並べ替えられたフォアグラウンドHOA係数を復元するために、nFG信号49をフォアグラウンドV[k]ベクトル51kと再び組み合わせ得る。空間時間的補間ユニット50は、次いで、補間されたnFG信号49’を生成するために、補間されたV[k]ベクトルによって、並べ替えられたフォアグラウンドHOA係数を分割し得る。空間時間的補間ユニット50はまた、オーディオ復号デバイス24のような、オーディオ復号デバイスが補間されたフォアグラウンドV[k]ベクトルを生成しそれによってフォアグラウンドV[k]ベクトル51kを復元し得るように、補間されたフォアグラウンドV[k]ベクトルを生成するために使用されたフォアグラウンドV[k]ベクトル51kを出力し得る。補間されたフォアグラウンドV[k]ベクトルを生成するために使用されたフォアグラウンドV[k]ベクトル51kは、残りのフォアグラウンドV[k]ベクトル53として示される。同じV[k]およびV[k−1]がエンコーダおよびデコーダにおいて(補間されたベクトルV[k]を作成するために)使用されることを保証するために、ベクトルの量子化/逆量子化されたバージョンがエンコーダおよびデコーダにおいて使用され得る。空間時間的補間ユニット50は、補間されたnFG信号49’を聴覚心理オーディオコーダユニット46に出力し、補間されたフォアグラウンドV[k]ベクトル51kを係数低減ユニット46に出力し得る。
[0064] 係数低減ユニット46は、低減されたフォアグラウンドV[k]ベクトル55を量子化ユニット52に出力するために、バックグラウンドチャネル情報43に基づいて残りのフォアグラウンドV[k]ベクトル53に関して係数低減を行うように構成されたユニットを表し得る。低減されたフォアグラウンドV[k]ベクトル55は、次元D:[(N+1)2−(NBG+1)2−BGTOT]×nFGを有し得る。係数低減ユニット46は、この点において、残りのフォアグラウンドV[k]ベクトル53における係数の数を低減するように構成されたユニットを表し得る。言い換えれば、係数低減ユニット46は、方向情報をほとんどまたはまったく有しない(残りのフォアグラウンドV[k]ベクトル53を形成する)フォアグラウンドV[k]ベクトルにおける係数を除去するように構成されたユニットを表し得る。いくつかの例において、(NBGと示され得る)1次および0次の基底関数に対応する、明確な、または言い換えればフォアグラウンドV[k]ベクトルの係数は、方向情報をほとんど提供せず、従って、(「係数低減(coefficient reduction)」と呼ばれ得るプロセスを通じて)フォアグラウンドVベクトルから除去され得る。この例では、対応する係数NBGを識別するだけでなく、(変数TotalOfAddAmbHOAChanによって示され得る)追加のHOAチャネルを[(NBG+1)2+1,(N+1)2]のセットから識別するために、より大きい柔軟性が与えられ得る。
[0065] 量子化ユニット52は、コーディングされたフォアグラウンドV[k]ベクトル57を生成するために低減されたフォアグラウンドV[k]ベクトル55を圧縮するための任意の形態の量子化を行い、コーディングされたフォアグラウンドV[k]ベクトル57をビットストリーム生成ユニット42に出力するように構成されたユニットを表し得る。動作において、量子化ユニット52は、音場の空間成分、すなわちこの例における低減されたフォアグラウンドV[k]ベクトル55のうちの1つまたは複数を圧縮するように構成されたユニットを表し得る。量子化ユニット52は、低減されたフォアグラウンドV[k]ベクトル55の各々に関して、ベクトル量子化、スカラー量子化、またはハフマンコーディング(Huffman coding)を伴うスカラー量子化を行い得る。量子化ユニット52は、ビットストリーム21の各フレームに関して、異なる形態の量子化を行い得る。言い換えれば、量子化ユニット52は、フレームごとに、異なる形態の量子化の間を切り替え得る。
[0066] また、量子化ユニット52は、前述のタイプの量子化モードのいずれかの量子化モードの予測されたバージョンを行うこともでき、以前のフレームのVベクトルの要素(またはベクトル量子化が行われるときの重み)と、現在のフレームのVベクトルの要素(またはベクトル量子化が行われるときの重み)との間の差が決定される。量子化ユニット52は、その際、現在のフレーム自体のVベクトルの要素の値でなく、現在のフレームの要素または重みと、以前のフレームの要素または重みとの間の差を量子化し得る。
[0067] 量子化ユニット52は、低減されたフォアグラウンドV[k]ベクトル55の複数の符号化されたバージョンを取得するために、低減されたフォアグラウンドV[k]ベクトル55の各々に対して複数の形態の量子化を行い得る。量子化ユニット52は、符号化されたフォアグラウンドV[k]ベクトル57として、低減されたフォアグラウンドV[k]ベクトル55の符号化されたバージョンのうちの1つまたは複数を選択し得る。量子化ユニット52は、言い換えれば、本開示で説明する基準の任意の組合せに基づいて、出力切替えされ量子化されたVベクトルとして使用するために、予測されないベクトル量子化されたVベクトル、予測されベクトル量子化されたVベクトル、ハフマンコーディングされないスカラー量子化されたVベクトル、およびハフマンコーディングされスカラー量子化されたVベクトルのうちの1つを選択し得る。いくつかの例において、量子化ユニット52は、ベクトル量子化モードと1つまたは複数のスカラー量子化モードとを含む、量子化モードのセットから量子化モードを選択し、選択されたモードに基づいて(または従って)、入力Vベクトルを量子化し得る。量子化ユニット52は次いで、(例えば、重み値またはそれを示すビットに関して)予測されないベクトル量子化されたVベクトル、(例えば、誤差値またはそれを示すビットに関して)予測されベクトル量子化されたVベクトル、ハフマンコーディングされないスカラー量子化されたVベクトル、およびハフマンコーディングされスカラー量子化されたVベクトルのうちの選択されたものを、コーディングされたフォアグラウンドV[k]ベクトル57としてビットストリーム生成ユニット42に与え得る。量子化ユニット52はまた、量子化モードを示すシンタックス要素(例えば、NbitsQシンタックス要素)と、Vベクトルを逆量子化またはさもなければ再構成するために使用される任意の他のシンタックス要素とを与え得る。
[0068] オーディオ符号化デバイス20内に含まれる聴覚心理オーディオコーダユニット40は、聴覚心理オーディオコーダの複数のインスタンスを表し得、これらの各々は、エネルギー補償された環境HOA係数47’および補間されたnFG信号49’の各々の様々なオーディオオブジェクトまたはHOAチャネルを符号化して、符号化された環境HOA係数59と符号化されたnFG信号61とを生成するために使用される。聴覚心理オーディオコーダユニット40は、符号化された環境HOA係数59と、符号化されたnFG信号61とをビットストリーム生成ユニット42に出力し得る。
[0069] オーディオ符号化デバイス20内に含まれるビットストリーム生成ユニット42は、(復号デバイスによって知られているフォーマットを指し得る)既知のフォーマットに適合するようにデータをフォーマットし、それによってベクトルベースのビットストリーム21を生成するユニットを表す。ビットストリーム21は、言い換えれば、上記で説明された方法で符号化されている、符号化されたオーディオデータを表し得る。ビットストリーム生成ユニット42は、いくつかの例においてマルチプレクサを表し得、マルチプレクサは、コーディングされたフォアグラウンドV[k]ベクトル57と、符号化された環境HOA係数59と、符号化されたnFG信号61と、バックグラウンドチャネル情報43とを受信し得る。ビットストリーム生成ユニット42は、次いで、コーディングされたフォアグラウンドV[k]ベクトル57と、符号化された環境HOA係数59と、符号化されたnFG信号61と、バックグラウンドチャネル情報43とに基づいてビットストリーム21を生成し得る。このようにして、ビットストリーム生成ユニット42は、それにより、図7の例に関して以下により詳細に説明されるように、ビットストリーム21を取得するために、ビットストリーム21内のベクトル57を指定し得る。ビットストリーム21は、主要またはメインビットストリームと、1つまたは複数のサイドチャネルビットストリームとを含み得る。
[0070] 図3の例には示されないが、オーディオ符号化デバイス20はまた、現在のフレームが方向ベース合成を使用して符号化されるべきであるかベクトルベース合成を使用して符号化されるべきであるかに基づいて、オーディオ符号化デバイス20から出力されるビットストリームを(例えば、方向ベースのビットストリーム21とベクトルベースのビットストリーム21との間で)切り替える、ビットストリーム出力ユニットを含み得る。ビットストリーム出力ユニットは、(HOA係数11が合成オーディオオブジェクトから生成されたことを検出した結果として)方向ベース合成が行われたか、(HOA係数が録音されたことを検出した結果として)ベクトルベース合成が行われたかを示す、コンテンツ分析ユニット26によって出力されるシンタックス要素に基づいて、切替えを行い得る。ビットストリーム出力ユニットは、ビットストリーム21の各々とともに現在のフレームのために使用される切替えまたは現在の符号化を示すために、正しいヘッダシンタックスを指定し得る。
[0071] その上、上述されたように、音場分析ユニット44は、フレームごとに変化し得るBGTOT環境HOA係数47を識別し得る(が、時々、BGTOTは、2つ以上の(時間的に)隣接するフレームにわたって一定または同じままであり得る)。BGTOTにおける変化は、低減されたフォアグラウンドV[k]ベクトル55において表された係数への変化を生じさせ得る。BGTOTにおける変化は、フレームごとに変化する(「環境HOA係数」と呼ばれることもある)バックグラウンドHOA係数を生じさせ得る(が、この場合も時々、BGTOTは、2つ以上の(時間的に)隣接するフレームにわたって一定または同じままであり得る)。この変化は、追加の環境HOA係数の追加または除去と、対応する、低減されたフォアグラウンドV[k]ベクトル55からの係数の除去または低減されたフォアグラウンドV[k]ベクトル55に対する係数の追加とによって表される、音場の態様のためのエネルギーの変化を生じさせることが多い。
[0072] その結果、音場分析ユニット44は、いつ環境HOA係数がフレームごとに変化するかをさらに決定し、音場の環境成分を表すために使用されることに関して、環境HOA係数への変化を示すフラグまたは他のシンタックス要素を生成し得る(ここで、この変化は、環境HOA係数の「遷移」または環境HOA係数の「遷移」と呼ばれることもある)。特に、係数低減ユニット46は、(AmbCoeffTransitionフラグまたはAmbCoeffIdxTransitionフラグとして示され得る)フラグを生成し、そのフラグが(場合によってはサイドチャネル情報の一部として)ビットストリーム21中に含まれ得るように、そのフラグをビットストリーム生成ユニット42に与え得る。
[0073] 係数低減ユニット46はまた、環境係数遷移フラグを指定することに加えて、低減されたフォアグラウンドV[k]ベクトル55が生成される方法を修正し得る。一例において、環境HOA環境係数のうちの1つが現在のフレームの間に遷移中であると決定すると、係数低減ユニット46は、遷移中の環境HOA係数に対応する低減されたフォアグラウンドV[k]ベクトル55のVベクトルの各々について、(「ベクトル要素」または「要素」と呼ばれることもある)ベクトル係数を指定し得る。この場合も、遷移中の環境HOA係数は、BGTOTからバックグラウンド係数の総数を追加または除去し得る。従って、バックグラウンド係数の総数において生じた変化は、環境HOA係数がビットストリーム中に含まれるか含まれないか、および、Vベクトルの対応する要素が、上記で説明された第2の構成モードおよび第3の構成モードにおいてビットストリーム中で指定されたVベクトルのために含まれるかどうかに影響を及ぼす。係数低減ユニット46が、エネルギーの変化を克服するために、低減されたフォアグラウンドV[k]ベクトル55を指定し得る方法に関するより多くの情報は、2015年1月12日に出願された「TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS」と題する米国出願第14/594,533号において提供されている。
[0074] いくつかの例において、ビットストリーム生成ユニット42は、例えば、デコーダ起動遅延を補償するために、即時プレイアウトフレーム(IPF:Immediate Play-out Frame)を含めるように、ビットストリーム21を生成する。場合によっては、ビットストリーム21は、動的適応ストリーミングオーバーHTTP(DASH:Dynamic Adaptive Streaming over HTTP)または単方向トランスポートによるファイル配信(FLUTE:File Delivery over Unidirectional Transport)のようなインターネットストリーミング規格とともに採用され得る。DASHは、ISO/IEC23009−1、「Information technology−Dynamic adaptive streaming over HTTP (DASH)」2012年4月において記載されている。FLUTEは、IETF RFC6726、「FLUTE−File Delivery over Unidirectional Transport」、2012年11月において記載されている。前述のFLUTEおよびDASHのようなインターネットストリーミング規格は、指定されたストリームアクセスポイント(SAP)において即時プレイアウトを可能にすること、並びに、ストリームの任意のSAPにおいて、ビットレートおよび/または有効化されたツールにおいて異なるストリームの表現間でプレイアウトを切り替えることによって、フレーム損失/劣化を補償し、ネットワークトランスポートリンク帯域幅に適応する。言い換えれば、オーディオ符号化デバイス20は、(例えば、第1のビットレートにおいて指定された)コンテンツの第1の表現から(例えば、第2のより高いまたはより低いビットレートにおいて指定された)コンテンツの第2の異なる表現に切り替えるような方法で、フレームを符号化し得る。オーディオ復号デバイス24は、フレームを受信し、コンテンツの第1の表現からコンテンツの第2の表現に切り替えるために、フレームを独立して復号し得る。オーディオ復号デバイス24は、コンテンツの第2の表現を取得するために、後続のフレームを復号し続け得る。
[0075] 即時プレイアウト/切替えの場合、フレームを正確に復号するために必須の内部状態を確立するために、ストリームフレームのためのプリロールは復号されておらず、ビットストリーム生成ユニット42は、即時プレイアウトフレーム(IPF)を含めるように、ビットストリーム21を符号化し得る。IPFおよびIPFをサポートするためのオーディオデータの符号化に関するより多くの情報は、2015年1月29日に出願された、「CODING INDEPENDENT FRAM(登録商標)ES OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS」と題する米国特許出願第14/609,208号に見出せる。上記の米国特許出願第14/609,208号において、ビットストリーム生成ユニット42は、第1のフレームが、ビットストリームの第2のフレームを参照することなく第1のフレームが復号されることを可能にする独立フレームであるかどうかの指示を(例えば、第1のフレーム用のビットストリーム21のChannelSideInfoData部分中のhoaIndependencyFlagシンタックス要素を指定することによって)指定し得る。hoaIndependencyFlagが1にセットされると、第1のフレームは、一例として、独立フレーム(または、言い換えれば、およびIPF)としてシグナリングされる。IPFとしてシグナリングされた結果として、ビットストリーム生成ユニット42は、フレームがIPFであるものとして示されないとき、そうでなければシグナリングされない追加基準情報もシグナリングする。
[0076] いくつかのコーディング状況において、上述の米国特許出願第14/594,533号および米国特許出願第14/609,208号において論じられるオーディオ符号化デバイス20は、冗長情報を指定していた。例えば、環境HOA係数(例えば、上記のエネルギー補償されたHOA係数47’のうちの1つ)が、フォアグラウンドオーディオ信号(例えば、上記の補間されたnFGオーディオ信号49’)がフェードインされていたときの同じ第1のフレームの間にフェードインされていたとき、係数低減ユニット46は、環境HOA係数47’に対応するフォアグラウンドV[k]ベクトル53についてのVベクトル要素を含んでおり、Vベクトル要素を2回(1回は実際のVベクトル要素として、および再度、環境HOA係数47’として組み合わされた形で)、効果的に指定する。
[0077] 本開示で説明される技法は、冗長情報を指定することを避け得るためのやり方を提供する。冗長情報を削除した結果、本技法は、コーディング効率を促進するのに加え、音場再生を改善し得る可能性があり、というのは、冗長情報により、Vベクトル要素に対応するHOA係数を再構成するときのエネルギーが倍になる場合があるからである。以下に、同じフレーム中の、環境HOA係数47’のうちの1つと、補間されたnFGオーディオ信号49’のうちの1つの、両方のフェードインに関して説明するが、本技法は、同じフレーム中の、環境HOA係数47’のうちの1つと、補間されたnFGオーディオ信号49’のうちの1つの、両方のフェードアウトについて行われてもよい。
[0078] 図5Aは同じフレームの間に複数の遷移が起きたときのビットストリーム中のフレームのシグナリングを示す図である。図5Aの例において、ビットストリーム生成ユニット42は、4のインデックスを有する、環境HOA係数47’のうちの1つを含む第1のバックグラウンドチャネル800Aを指定し得る。ビットストリーム生成ユニット42は、補間されたnFGオーディオ信号49’のうちの1つを含むフォアグラウンドチャネル800Bも指定し得る。ビットストリーム生成ユニット42は、2のインデックスを有する環境HOA係数47’のうちの1つを含む別のバックグラウンドチャネル800Cも指定し得る。ビットストリーム生成ユニット42は、対応するチャネル800A〜800Cが環境HOA係数47’のうちの1つそれとも補間されたnFG信号49’のうちの1つを含むかを示す、チャネル800A〜800Cの各々についてのタイプの指示(例えば、ChannelTypeシンタックス要素)を指定し得る。
[0079] 図5Aの例に示されるフレーム10〜12では、チャネル800A〜800Cのうちのどれも、遷移を経ない。言い換えれば、オーディオ符号化デバイス20は、チャネル800Aおよび800Cの各々が環境HOA係数47’のうちの同じものを含み、チャネル800Bが、補間されたnFG信号49’のうちの同じものを含むと決定する。ただし、フレーム13中に、音場分析ユニット44は、バックグラウンドチャネル800Aおよび800Cに含まれる環境HOA係数47’の両方が、フレーム14中で、nFGオーディオ信号49’のうちの新しいものおよび環境HOA係数47’のうちの新しいもの(この例では、5のインデックスによって識別される)で置き換えられるべきであると決定する。フレーム14中に、オーディオ符号化デバイス20は、ビットストリーム21中で、バックグラウンドチャネル800Aがフォアグラウンドチャネル800Dになることと、バックグラウンドチャネル800Cはバックグラウンドチャネルのままであるが環境HOA係数47’のうちの新しいものを含むこととをシグナリングする。
[0080] 図5Aの例において、従来のオーディオエンコーダ(上述の米国特許出願第14/594,533号および米国特許出願第14/609,208号において論じられる)は、フォアグラウンドチャネル800D用に全ての25個の要素がシグナリングされたことを示している。この点において、従来のオーディオエンコーダは、全ての25個のvベクトル要素(Vvec要素=25)がバックグラウンドチャネル800E中で追加環境HOA係数として完全なHOA形態でシグナリングされる間、そのような要素を指定する際に、冗長情報を指定することになる。従来のオーディオエンコーダは、フレーム15中で、次いで、バックグラウンドチャネル800E中で指定された追加環境HOA係数に対応するvベクトル要素をフェードアウトさせ、24個のVvec要素のみを生じる、
[0081] 従来のオーディオデコーダ(上述の米国特許出願第14/594,533号および米国特許出願第14/609,208号において論じられる)は、バックグラウンドチャネル800Eからの追加環境HOA係数とともに、フォアグラウンドチャネル800Dを介して、全ての25個のvベクトル要素を受信した。HOA係数を再構成する際、従来のオーディオデコーダは、フォアグラウンドHOA係数を取得するために、全ての25個のvベクトル要素を利用し、次に、フォアグラウンドHOA係数を冗長追加環境HOA係数と組み合わせ、結果として、HOA係数を再構成するときに冗長情報が2回利用されることから、エネルギー増幅が生じる。
[0082] 図5Bは本開示で説明される技法の様々な態様による、同じフレームの間に複数の遷移が起きたときのビットストリーム中のフレームのシグナリングを示す図である。バックグラウンドチャネル800E中に含まれる環境HOA係数47’のうちの1つに関連付けられたVベクトル要素を指定するのを避けるために、音場分析ユニット44は、以下のHOAFrame()シンタックス表に示されるように、(例えば、NumOfNewAddHoaChans変数の形での)新しい追加環境HOA係数の数の指示を追跡するか、またはさもなければ取得し得る。HOAFrame()シンタックス表は復号の観点から規定されているが、音場分析ユニット44は、オーディオ復号デバイス24がビットストリーム21を解析し、復号し得ることを確実にする適切なシンタックス要素を生成するように、オーディオ復号デバイス24によって説明された方法と同様の方法で動作し得る。
[0083] HOAFrame()のシンタックス:
[0084] 上のHOAFrame()シンタックス表中のイタリック体の項目は、本開示で説明される技法の様々な態様を許容するための、シンタックスへの追加を示す。音場分析ユニット44は、上記HOAFrame()シンタックス表に示されるように、各フレームのコーディングを始めるとき、環境HOA係数47’の新しい追加係数の数の指示(例えば、NumOfNewAddHoaChans変数)をゼロに初期化し得る。言い換えれば、音場分析ユニット44は、ビットストリームの第1のフレームの間に遷移している環境HOA係数の数の指示を取得でき、環境HOA係数は、HOAオーディオデータによって表される音場の環境成分を記述する。環境HOA係数47’の追加係数は、最小環境HOA係数の指示によって識別されない環境HOA係数47’(例えば、MPEG−H 3Dオーディオコーディング規格のフェーズIのHOADecoderConfig()シンタックス表中で指定されるMinAmbHoaOrderシンタックス要素)を指し得る。環境HOA係数47’の追加係数はまた、MPEG−H 3Dオーディオコーディング規格のフェーズIにより2のタイプを示す、チャネルのタイプの指示(例えば、ChannelTypeシンタックス要素)によって識別される。
[0085] この点において、チャネルのタイプが2であるとき、音場分析ユニット44は、上記シンタックス表中のケース2に切り替わり、遷移状態が1に等しい(この例では遷移を示し、フェードインまたはフェードアウトのいずれかを意味する)ときを決定し得る。音場分析ユニット44が、バックグラウンドチャネル800Aがフォアグラウンドチャネル800Dに遷移するべきであると決定すると、音場分析ユニット44は、環境HOA係数のうちのどれがビットストリームのフレームの間に遷移しているかを示す指示を(例えば、NewAddHoaCeff[NumOfNewAddHoaChans]変数の形で)取得し得る。音場分析ユニット44はまた、NumOfNewAddHoaChansを1だけ増分し得る(すなわち、上記の例示的なシンタックス表ではNumOfNewAddHoaChans++として示される)。
[0086] 音場分析ユニット44は、上述の指示を、バックグラウンドチャネル情報43の一部として係数低減ユニット43に与え得る。いくつかの例において、係数低減ユニット46は、(音場分析ユニット44ではなく)、上で指定されたバックグラウンドチャネル情報43に基づいて上記指示を取得し得る。係数低減ユニット46は、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第1のフレームの間に、環境HOA係数が遷移中であるかどうかの指示を、NumOfNewAddHoaChans変数に基づいて取得し得る。
[0087] 係数低減ユニット46はまた、フォアグラウンドオーディオ信号49’のうちの1つがビットストリームの第1のフレーム(例えば、図5Bの例ではフレーム14)中に遷移中であるかどうかのフォアグラウンド指示を決定でき、フォアグラウンドオーディオ信号は、HOAオーディオデータ11によって表されるとともにHOAオーディオデータ11から分解された音場のフォアグラウンド成分を記述する。係数低減ユニット46は、ChannelSideInfoData()シンタックス表に示される方法と同様の方法で、フォアグラウンド指示を取得し得る。やはり、以下のシンタックス表は復号の観点から規定されているが、係数低減ユニット46は、オーディオ復号デバイス24がビットストリーム21を解析し、復号し得ることを確実にする適切なシンタックス要素を生成するように、オーディオ復号デバイス24によって説明された方法と同様の方法で動作し得る。
[0088] ChannelSideInfoData()のシンタックス:
[0089] やはり、上のシンタックス表中のイタリック体の項目は、本開示で説明される技法の様々な態様を許容するための、シンタックスへの追加を示す。フォアグラウンド指示は、ChannelSideInfo()シンタックス表において、bNewChannelTypeOne(k)[i]シンタックス要素として示される。bNewChannelTypeOneシンタックス要素はまた、ChannelSideInfoDataシンタックス表のいくつかのインスタンスにおいて、「NewChannelTypeOne」として示される場合があり、「NewChannelTypeOne」項の前の文字「b」を削除している。係数低減ユニット46は、先行フレーム13のトランスポートチャネル800Aのタイプの指示(すなわち、上記の例示的なシンタックス表ではChannelTypeシンタックス要素として示される)に基づいて、フォアグラウンド指示を取得し得る。
[0090] より具体的には、係数低減ユニット46は、フォアグラウンド指示を以下の擬似コードに従って取得し得る。
bNewChannelTypeOne(k)[i]=(1!=ChannelType(k−1)[i])。
擬似コードにおいて、係数低減ユニット46は、フレーム14(第1のフレームと呼ばれ得る)についてのフォアグラウンド指示を、フレーム13(第2のフレーム、先行フレーム、または直接先行フレームと呼ばれ得る)のトランスポートチャネル800Aについてのタイプに基づいて取得し得る。上記擬似コードに従って、係数低減ユニット46は、第1のフレームについてのフォアグラウンド指示を、第2のフレームについてのChannelTypeシンタックス要素が1に等しくないときは1に等しいものとして、第2のフレームについてのChannelTypeシンタックス要素が1に等しいときはゼロに等しいものとして取得し得る。
[0091] この点において、フォアグラウンド指示(bNewChannelTypeOne[i])は、以前のフレーム(k−1)中で、トランスポートチャネルがベクトルベースの信号として初期化されていなかった(または、言い換えれば、補間されたnFGオーディオ信号49’のうちの1つを含んでいなかった)かどうかを示すフラグを表す。図5Bの例において、係数低減ユニット46は、フォアグラウンドチャネル800DについてのbNewChannelTypeOneシンタックス要素がフレーム14について1に等しいと決定し得る。フォアグラウンド指示は、この点において、第2のフレームの同じトランスポートチャネルが、高次アンビソニックオーディオデータから分解されたフォアグラウンドオーディオ信号を含むかどうかを示し得る。言い方を変えれば、フォアグラウンド指示は、フォアグラウンドオーディオ信号がビットストリームの第1のフレームの間に遷移中であるかどうかを示し得る。
[0092] 上記ChannelSideInfo()シンタックス表に示されるように、係数低減ユニット46は、いくつかの例において、フェードインされている、補間されたnFGオーディオ信号49’のうちの1つに対応するVベクトルについてのコーディングモードが1にセットされている(1にセットされている指示CodedVVecLengthシンタックス要素によって示されるように)ときのみ、フォアグラウンド指示を取得し得る。1にセットされているCodedVVecLengthシンタックス要素によって識別されるコーディングモードにより、係数低減ユニット46は、低減されたVベクトルを送ることになり、低減されたVベクトルは、上記米国特許出願に記載されるように、最小環境HOA係数および追加環境HOA係数に対応する要素が削除されているVベクトルを指し得る。
[0093] 係数低減ユニット46は、いくつかの例において、バックグラウンド指示(NumOfNewAddHoaChans変数を参照するための別のやり方であり得る)、フォアグラウンド指示(bNewChannelTypeOne[i]シンタックス要素を参照するための別のやり方であり得、変数iはトランスポートチャネルのインデックスを示す)、またはバックグラウンド指示とフォアグラウンド指示の両方に基づいて、フォアグラウンドオーディオ信号49’のうちの1つが遷移中であるときの、ビットストリームの同じ第1のフレームの間に環境HOA係数47’のうちの1つが遷移中であるかどうかの複数遷移指示を取得し得る。バックグラウンド指示は、環境指示とも呼ばれ得る。フォアグラウンド指示は、支配的指示とも呼ばれ得る。係数低減ユニット46は、複数遷移指示を、バックグラウンド指示で乗算されたフォアグラウンド指示(bNewChannelTypeOne[i]*NumOfNewAddHoaChansとして示され得る)として決定し得る。
[0094] 係数低減ユニット46は次いで、トランスポートチャネルを通して、nFGオーディオ信号49’のうちの1つがフェードインされるときの同じ第1のフレームの間に、新しい追加環境HOA係数47’のうちのどれがフェードインされているかを決定することを繰り返し得る。係数低減ユニット46は次いで、別のフォアグラウンドチャネル(例えば、フォアグラウンドチャネル800D)が同じフレーム(例えば、図5Bではフレーム14)の間にフェードインされると、フェードインされている環境HOA係数47’のうちの新しいものに対応するVベクトル要素(例えば、図5Bではバックグラウンドチャネル800Eとして示される)を削除し得る。
[0095] 図5Bの例において、係数低減ユニット46は、(バックグラウンドチャネル800E中に示される)第5のインデックスによって識別される、環境HOA係数47’のうちの1つに関連付けられたVベクトル要素を削除し得る。従って、フォアグラウンドチャネル800Dは、合計25個のvベクトル要素を有する、4次表現用の24個のベクトル要素のみを含む(図5Bの例において、Vvec要素=24によって示される)。係数低減ユニット46は、以前のフレーム中でV−vec要素[5]が指定されているので、上で参照された米国特許出願において論じられるように、5のインデックスによって識別される、環境HOA係数47’のうちの1つに対応するV−vec要素[5]をフェードアウトさせる。図5Bに示される残りのWasFadedIn、TransitionModeおよびTransition項目も、上記の米国特許出願においてより詳しく説明されている。
[0096] このようにして、係数低減ユニット46は、複数遷移指示に基づいて、低減されたV[k]ベクトル55のうちの1つ(補間されたnFGオーディオ信号49’のうちの対応する1つの空間的特性を記述するベクトルを表し得る)を取得でき、ベクトルと、対応するHOAオーディオ信号の両方は、上述したように、HOAオーディオデータから分解される。
[0097] いくつかの実施形態において、ビットストリーム生成ユニット42は、上述したように、第1のフレームが、ビットストリームの第2のフレームを参照することなく第1のフレームが復号されることを可能にする独立フレームであるかどうかの指示(すなわち、hoaIndependencyFlagシンタックス要素)を指定し得る。上記ChannelSideInfo()シンタックス表により、ビットストリーム生成ユニット42は、hoaIndependencyFlagが、第1のフレームが独立フレームであることを示すとき(すなわち、上記の例示的なシンタックス表における、hoaIndependencyFlagが1に等しいことを意味する「if(hoaIndpendencyFlag)」)、フォアグラウンド指示を指定し得る。ビットストリーム生成ユニット42は、フレームが他のどのフレームまたは別のフレームからの他のどのシンタックス要素も参照することなく復号されなければならないので、第1のフレームが独立フレームであるとき、フォアグラウンド指示を指定し得る。フォアグラウンド指示が以前のフレーム(k−1)についてのChannelTypeに基づいて決定されることから、ビットストリーム生成ユニット42は、第1のフレームが独立フレームであるとき、フォアグラウンド指示を指定する。オーディオ符号化デバイス20に関して上述したが、オーディオ復号デバイス24は、オーディオ符号化デバイス20の動作と逆の動作を行い得る。オーディオ復号デバイス24によって行われる逆の動作は、図4の例に関して以下でより詳しく説明される。
[0098] 図4は、図2のオーディオ復号デバイス24をより詳細に示すブロック図である。図4の例に示されているように、オーディオ復号デバイス24は、抽出ユニット72と、方向ベース再構成ユニット90と、ベクトルベース再構成ユニット92とを含み得る。以下で説明されるが、オーディオ復号デバイス24、およびHOA係数を解凍またはさもなければ復号する様々な態様に関するより多くの情報は、2014年5月29日に出願された「INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD」という名称の国際特許出願公開第WO2014/194099号において入手可能である。
[0099] 抽出ユニット72は、ビットストリーム21を受信し、HOA係数11の様々な符号化されたバージョン(例えば、方向ベースの符号化されたバージョンまたはベクトルベースの符号化されたバージョン)を抽出するように構成されたユニットを表し得る。抽出ユニット72は、HOA係数11が様々な方向ベースのバージョンを介して符号化されたか、ベクトルベースのバージョンを介して符号化されたかを示す、上述のシンタックス要素から決定し得る。方向ベース符号化が行われたとき、抽出ユニット72は、HOA係数11の方向ベースのバージョンと、符号化されたバージョンに関連付けられたシンタックス要素(図4の例では方向ベース情報91として示される)とを抽出し、方向ベース情報91を方向ベース再構成ユニット90に渡し得る。方向ベース再構成ユニット90は、方向ベース情報91に基づいてHOA係数11’の形態でHOA係数を再構成するように構成されたユニットを表し得る。
[0100] HOA係数11がベクトルベース合成を使用して符号化されたことをシンタックス要素が示すとき、抽出ユニット72は、コーディングされたフォアグラウンドV[k]ベクトル57(コーディングされた重み57および/もしくはインデックス63またはスカラー量子化されたVベクトルを含み得る)と、符号化された環境HOA係数59と、対応するオーディオオブジェクト61(符号化されたnFG信号61と呼ばれる場合もある)とを抽出し得る。オーディオオブジェクト61はそれぞれベクトル57のうちの1つに対応する。抽出ユニット72は、コーディングされたフォアグラウンドV[k]ベクトル57をVベクトル再構成ユニット74に渡し、符号化された環境HOA係数59を符号化されたnFG信号61とともに聴覚心理復号ユニット80に渡し得る。
[0101] 抽出ユニット72はまた、HOAFrameシンタックス表およびChannelSideInfo()シンタックス表に関して上述した様々なシンタックス要素および変数のセットを取得するために、オーディオ符号化デバイス20に関して上述したように動作し得る。抽出ユニット72は、バックグラウンド指示、フォアグラウンド指示、独立フレーム指示(上記hoaIndependencyFlagを指し得る)、および複数遷移指示の任意の組合せを取得し得る。
[0102] 抽出ユニット72は、バックグラウンド指示、フォアグラウンド指示、独立フレーム指示(上記hoaIndependencyFlagを指し得る)、および複数遷移指示のうちのいずれか1つに基づいて、コーディングされたフォアグラウンドV[k]ベクトル57をビットストリーム21から取得し得る。抽出ユニット72は、CodedVVecLengthシンタックス要素が1のコーディングモードを示すとき、コーディングされたフォアグラウンドV[k]ベクトル57を抽出するために、以下の擬似コードに従って動作し得る。
[0103] 上記擬似コード中の上記太字イタリック体の項目は、フェーズIもしくはIIまたは3Dオーディオコーディング規格に対する更新を示す。上記の擬似コードは、抽出ユニット72が、複数遷移指示(例えば、フォアグラウンド指示、例えば、バックグラウンド指示、例えば、NumOfNewAddHoaChansで乗算されたbNewChannelTypeOne[i])に基づいて、コーディングされたフォアグラウンドV[k]ベクトル57の要素の数を決定し得ることを示す。抽出ユニット72は、この点において、図3および図5Bの例に関して本開示で説明される技法を行うとき、オーディオ符号化デバイス20が説明されるのとは逆のように作用し得る。
[0104] 図5Bの例に関して、抽出ユニット72は、複数遷移指示に基づいて、24個のvベクトル要素のみがフレーム14および15中にあると決定し得る。従って、抽出ユニット72は、本開示で説明される技法を行わないときに従来のオーディオデコーダが抽出する25個のvベクトル要素でなく、24個のvベクトル要素のみをフォアグラウンドチャネル800Dから抽出し得る。従って、抽出ユニット72は冗長情報を抽出しなくてよく、そうすることによって、HOA係数を再構成するときに冗長情報を含めることにより生じる、上述した増幅を避け得る。
[0105] この点において、オーディオ復号デバイス24は、第1の例において、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第1のフレームの間に環境HOA係数が遷移中であるかどうかの複数遷移指示を取得でき、複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得し、ベクトルと、対応するHOAオーディオ信号の両方がHOAオーディオデータから分解される。
[0106] 第1の例のオーディオ復号デバイス24は、第2の例において、ビットストリームの第1のフレームの間に遷移中である環境HOA係数の数のバックグラウンド指示を取得でき、複数遷移指示を取得することは、バックグラウンド指示に基づいて複数遷移指示を取得することを備える。
[0107] 第1および第2の例の任意の組合せのオーディオ復号デバイス24は、第3の例において、ビットストリームのフレームの間にフォアグラウンドオーディオ信号が遷移中であるかどうかのフォアグラウンド指示を取得でき、複数遷移指示を取得することは、フォアグラウンド指示に基づいて複数遷移指示を取得することを備える。
[0108] 第1〜第3の例の任意の組合せのオーディオ復号デバイス24は、第4の例において、ビットストリームのフレームの間に遷移中である環境HOA係数の数のバックグラウンド指示を取得し、ビットストリームのフレームの間にフォアグラウンドオーディオ信号が遷移中であるかどうかのフォアグラウンド指示を取得でき、複数遷移指示を取得することは、フォアグラウンド指示およびバックグラウンド指示に基づいて複数遷移指示を取得することを備える。
[0109] 第1〜第4の例の任意の組合せのオーディオ復号デバイス24は、第5の例において、環境HOA係数のうちの1つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を取得し得る。
[0110] 第1〜第5の例の任意の組合せのオーディオ復号デバイス24は、第6の例において、環境HOA係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を取得し得る。
[0111] 第1〜第6の例の任意の組合せのオーディオ復号デバイス24は、第7の例において、フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリームの第2のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得し得る。
[0112] 第1〜第7の例の任意の組合せのオーディオ復号デバイス24は、第8の例において、ビットストリームの第1のフレームから、第1のフレームが、第1のフレームがビットストリームの第2のフレーム(または、言い換えれば、異なるフレーム)を参照することなく復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を取得し得る。
[0113] 第1〜第8の例の任意の組合せのオーディオ復号デバイス24は、第9の例において、第1のフレームが独立フレームであることを示す独立フレーム指示に応答して、ビットストリームから、フォアグラウンド指示を取得し得る。
[0114] 第1〜第9の例の任意の組合せのオーディオ復号デバイス24は、第10の例において、第1のフレームが独立フレームでないことを示す独立フレーム指示に応答して、第2のフレームのトランスポートチャネルについてのタイプの指示を取得し得る。
[0115] 第1〜第10の例の任意の組合せのオーディオ復号デバイス24は、第11の例において、第2のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得し得る。
[0116] 第1〜第11の例の任意の組合せのオーディオ復号デバイス24は、第12の例において、フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第2のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得し得る。
[0117] 第1〜第12の例の任意の組合せのオーディオ復号デバイス24は、第13の例において、フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについての独立フレーム指示を取得し得る。
[0118] 上記の第1〜第13の例の任意の組合せにおいて、ベクトルは、第14の例において、HOAオーディオデータから分解される。
[0119] 上記の第1〜第14の例の任意の組合せにおいて、複数遷移指示は、第15の例において、フォアグラウンドオーディオ信号がフェードインされるときの、ビットストリームの同じ第1のフレームの間に環境HOA係数がフェードインされるかどうかを示す。
[0120] 上記の第1〜第15の例の任意の組合せにおいて、複数遷移指示は、第16の例において、フォアグラウンドオーディオ信号がフェードアウトされるときの、ビットストリームの同じ第1のフレームの間に環境HOA係数がフェードアウトされるかどうかを示す。
[0121] Vベクトル再構成ユニット74は、符号化されたフォアグラウンドV[k]ベクトル57からVベクトルを再構成するように構成されたユニットを表し得る。Vベクトル再構成ユニット74は、量子化ユニット52の場合とは逆の方法で動作し得る。
[0122] 聴覚心理復号ユニット80は、符号化された環境HOA係数59と符号化されたnFG信号61とを復号し、それによってエネルギー補償された環境HOA係数47’と補間されたnFG信号49’(補間されたnFGオーディオオブジェクト49’とも呼ばれ得る)とを生成するために、図3の例に示される聴覚心理オーディオコーダユニット40とは逆の方法で動作し得る。聴覚心理復号ユニット80は、エネルギー補償された環境HOA係数47’をフェードユニット770に渡し、nFG信号49’をフォアグラウンド編成ユニット78に渡し得る。
[0123] 空間時間的補間ユニット76は、空間時間的補間ユニット50に関して上記で説明された方法と同様の方法で動作し得る。空間時間的補間ユニット76は、低減されたフォアグラウンドV[k]ベクトル55kを受信し、また、補間されたフォアグラウンドV[k]ベクトル55k’’を生成するために、フォアグラウンドV[k]ベクトル55kおよび低減されたフォアグラウンドV[k−1]ベクトル55k-1に関して空間時間的補間を行い得る。空間時間的補間ユニット76は、補間されたフォアグラウンドV[k]ベクトル55k’’をフェードユニット770に転送し得る。
[0124] 抽出ユニット72はまた、いつ環境HOA係数のうちの1つが遷移中であるかを示す信号757をフェードユニット770に出力し得、フェードユニット770は、次いで、SCHBG47’(ここで、SCHBG47’は「環境HOAチャネル47’」または「環境HOA係数47’」と呼ばれることもある)および補間されたフォアグラウンドV[k]ベクトル55k’’の要素のうちのいずれがフェードインまたはフェードアウトのいずれかを行われるべきであるかを決定し得る。いくつかの例において、フェードユニット770は、環境HOA係数47’および補間されたフォアグラウンドV[k]ベクトル55k’’の要素の各々に関して、反対に動作し得る。すなわち、フェードユニット770は、環境HOA係数47’のうちの対応する1つに関して、フェードインもしくはフェードアウト、またはフェードインもしくはフェードアウトの両方を行い得、一方で、補間されたフォアグラウンドV[k]ベクトル55k’’の要素のうちの対応する1つに関して、フェードインもしくはフェードアウト、またはフェードインとフェードアウトの両方を行い得る。フェードユニット770は、調整された環境HOA係数47’’をHOA係数編成ユニット82に出力し、調整されたフォアグラウンドV[k]ベクトル55k’’’をフォアグラウンド編成ユニット78に出力し得る。この点において、フェードユニット770は、HOA係数またはそれの派生物の様々な態様に関して、例えば、環境HOA係数47’および補間されたフォアグラウンドV[k]ベクトル55k’’の要素の形態で、フェード演算を行うように構成されたユニットを表す。
[0125] フォアグラウンド編成ユニット78は、フォアグラウンドHOA係数65を生成するために、調整されたフォアグラウンドV[k]ベクトル55k’’’および補間されたnFG信号49’に関して行列乗算を行うように構成されたユニットを表し得る。この点において、フォアグラウンド編成ユニット78は、HOA係数11’のフォアグラウンド態様、または言い換えれば、支配的態様を再構成するために、(補間されたnFG信号49’を示すための別の方法である)オーディオオブジェクト49’をベクトル55k’’’と組み合わせ得る。フォアグラウンド編成ユニット78は、調整されたフォアグラウンドV[k]ベクトル55k’’’によって、補間されたnFG信号49’の行列乗算を行い得る。
[0126] HOA係数編成ユニット82は、HOA係数11’を取得するために、フォアグラウンドHOA係数65を調整された環境HOA係数47’’に組み合わせるように構成されたユニットを表し得る。プライム表記法は、HOA係数11’がHOA係数11と同様であるが同じでないことがあることを反映している。HOA係数11とHOA係数11’との間の差分は、損失のある送信媒体を介した送信、量子化、または他の損失のある演算が原因の損失に起因し得る。
[0127] 図6〜図9は、本開示で説明される技法の様々な態様を行う際のオーディオ符号化デバイス20の例示的な動作を示すフローチャートである。図6の例において、オーディオ符号化デバイス20は、最初にHOAオーディオデータを取得し得る(200)。オーディオ符号化デバイス20は、HOAオーディオデータをキャプチャするか、またはさもなければ取得するために、1つまたは複数のマイクロフォンに結合し得る。オーディオ符号化デバイス20は、次に、上述したように、HOAオーディオデータを、ベクトルおよび対応するフォアグラウンドオーディオオブジェクトに分解し得る(202)。オーディオ符号化デバイス20は、ビットストリームの第1のフレーム中で、対応するフォアグラウンドオーディオオブジェクトを指定し得る。
[0128] オーディオ符号化デバイス20は、上述したように、ビットストリームの第1のフレーム中で、第1のフレームが、ビットストリームの第2のフレームを参照することなく第1のフレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を指定し得る(204)。オーディオ符号化デバイス20はまた、ビットストリームの第1のフレーム中で、および第1のフレームが独立フレームであることを示す独立フレーム指示に応答して、第1のフレームのトランスポートチャネルについてのフォアグラウンド指示を指定し得る(206)。上述したように、フォアグラウンド指示は、第2のフレームの同じトランスポートチャネルが、高次アンビソニックオーディオデータから分解されたフォアグラウンドオーディオ信号を含むかどうかを示し得る。オーディオ符号化デバイス20は、ビットストリームの第1のフレーム中で、少なくとも1つの環境HOA係数、ベクトルのうちの少なくとも1つ、および対応するフォアグラウンドオーディオオブジェクトのうちの少なくとも1つ、のうちの1つまたは複数を指定し得る(208)。
[0129] 本技法は、図6に示される項1Aの態様を行うように構成されたオーディオ符号化デバイス20が、以下の従属項に従って動作することを可能にし得る。
[0130] 項2A。第1のフレームが独立フレームでないことを示す独立フレーム指示に応答して、第2のフレームのトランスポートチャネルについてのタイプの指示を指定するようにさらに構成された、項1Aに記載のデバイス(例えば、図6の例に関して説明された技法の様々な態様に従って動作するように構成されたオーディオコーディングデバイス20)。
[0131] 項3A。第2のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについてのフォアグラウンド指示を指定するように構成される、項2Aに記載のデバイス。
[0132] 項4A。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第2のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについてのフォアグラウンド指示を指定するように構成される、項2Aに記載のデバイス。
[0133] 項5A。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについての独立フレーム指示を指定するように構成される、項1Aに記載のデバイス。
[0134] 項6A。ベクトルはHOAオーディオデータから分解される、項4Aおよび5Aの任意の組合せに記載のデバイス。
[0135] 項7A。ビットストリームの第1のフレームの間に遷移中である環境HOA係数の数のバックグラウンド指示を指定し、バックグラウンド指示に基づいて、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第1のフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を指定するようにさらに構成された、項1Aに記載のデバイス。
[0136] 項8A。フォアグラウンド指示、バックグラウンド指示またはフォアグラウンド指示とバックグラウンド指示の両方に基づいて、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第1のフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を指定するようにさらに構成された、項1Aまたは7Aに記載のデバイス。
[0137] 項9A。環境HOA係数のうちの1つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を指定するように構成される、項7Aまたは8Aに記載のデバイス。
[0138] 項10A。環境HOA係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を指定するように構成される、項7Aまたは8Aに記載のデバイス。
[0139] 項11A。ビットストリームのフォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第2のフレームのトランスポートチャネルについてのタイプの指示に基づいて、フォアグラウンド指示を指定するように構成される、項8Aに記載のデバイス。
[0140] 項12A。複数遷移指示は、フォアグラウンドオーディオ信号がフェードインされるときの、ビットストリームの同じ第1のフレームの間に環境HOA係数がフェードアウトされるかどうかを示す、項7A〜11Aのうちのいずれかに記載のデバイス。
[0141] 項13A。複数遷移指示は、フォアグラウンドオーディオ信号がフェードアウトされるときの、ビットストリームの同じ第1のフレームの間に環境HOA係数がフェードアウトされるかどうかを示す、項7A〜11Aのうちのいずれかに記載のデバイス。
[0142] 項14A。複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを指定するようにさらに構成され、ベクトルと、対応するHOAオーディオ信号の両方がHOAオーディオデータから分解される、請求項7A〜13Aの任意の組合せに記載のデバイス。
[0143] 図7の例において、オーディオ符号化デバイス20は、最初にHOAオーディオデータを取得し得る(220)。オーディオ符号化デバイス20は、HOAオーディオデータをキャプチャするか、またはさもなければ取得するために、1つまたは複数のマイクロフォンに結合し得る。オーディオ符号化デバイス20は、次に、上述したように、HOAオーディオデータを、ベクトルおよび対応するフォアグラウンドオーディオオブジェクトに分解し得る(222)。オーディオ符号化デバイス20は、ビットストリームの第1のフレーム中で、対応するフォアグラウンドオーディオオブジェクトを指定し得る。
[0144] オーディオ符号化デバイス20はまた、上述したように、フォアグラウンドオーディオオブジェクトが遷移中であるときの、ビットストリームのフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得し得る(224)。オーディオ符号化デバイス20はまた、複数遷移指示に基づいて、ベクトル(上述したように、対応するフォアグラウンドオーディオ信号の空間的特性を表す)を取得し得る(226)。上述したように、ベクトルと、対応するフォアグラウンドオーディオ信号の両方がHOAオーディオデータから分解され得る。オーディオ符号化デバイス20は、ビットストリームのフレーム中で、取得されたベクトルを指定し得る(228)。
[0145] 本技法は、図7に示される項1Bの態様を行うように構成されたオーディオ符号化デバイス20が、以下の従属項に従って動作することを可能にし得る。
[0146] 項2B。ビットストリームの第1のフレームの間に遷移中である環境HOA係数の数のバックグラウンド指示を取得するようにさらに構成され、バックグラウンド指示に基づいて複数遷移指示を取得するように構成される、項1Bに記載のデバイス(例えば、図7の例に関して説明された技法の様々な態様に従って動作するように構成されたオーディオコーディングデバイス20)。
[0147] 項3B。ビットストリームのフレームの間にフォアグラウンドオーディオ信号が遷移中であるかどうかのフォアグラウンド指示を取得するようにさらに構成され、フォアグラウンド指示に基づいて複数遷移指示を取得するように構成される、項1Bに記載のデバイス。
[0148] 項4B。ビットストリームのフレームの間に遷移中である環境HOA係数の数のバックグラウンド指示を取得し、ビットストリームのフレームの間にフォアグラウンドオーディオ信号が遷移中であるかどうかのフォアグラウンド指示を取得するようにさらに構成され、フォアグラウンド指示およびバックグラウンド指示に基づいて複数遷移指示を取得するように構成される、項1Bに記載のデバイス。
[0149] 項5B。環境HOA係数のうちの1つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を取得するように構成される、項2Bまたは4Bに記載のデバイス。
[0150] 項6B。環境HOA係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を取得するように構成される、項2Bまたは4Bに記載のデバイス。
[0151] 項7B。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリームの第2のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項3Bまたは4Bに記載のデバイス。
[0152] 項8B。第1のフレームが、ビットストリームの第2のフレームを参照することなく第1のフレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を取得するようにさらに構成された、項3Bまたは4Bに記載のデバイス。
[0153] 項9B。第1のフレームが独立フレームであることを示す独立フレーム指示に応答して、フォアグラウンド指示を取得するように構成される、項8Bに記載のデバイス。
[0154] 項10B。第1のフレームが独立フレームでないことを示す独立フレーム指示に応答して、およびビットストリーム中で、第2のフレームのトランスポートチャネルについてのタイプの指示を指定するようにさらに構成された、項8Bに記載のデバイス。
[0155] 項11B。第2のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項10Bに記載のデバイス。
[0156] 項12B。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリーム中の第1のフレームのトランスポートチャネルについてのフォアグラウンド指示を指定するように構成され、フォアグラウンド指示は、第2のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、項10Bに記載のデバイス。
[0157] 項13B。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについての独立フレーム指示を取得するように構成される、項10Bに記載のデバイス。
[0158] 項14B。ベクトルはHOAオーディオデータから分解される、項12Bまたは13Bに記載のデバイス。
[0159] 項15B。複数遷移指示は、フォアグラウンドオーディオ信号がフェードインされるときの、ビットストリームの同じ第1のフレームの間に環境HOA係数がフェードインされるかどうかを示す、項1B〜14Bのうちのいずれかに記載のデバイス。
[0160] 項16B。複数遷移指示は、フォアグラウンドオーディオ信号がフェードアウトされるときの、ビットストリームの同じ第1のフレームの間に環境HOA係数がフェードアウトされるかどうかを示す、項1B〜14Bのうちのいずれかに記載のデバイス。
[0161] 図8の例において、オーディオ符号化デバイス20は、最初にHOAオーディオデータを取得し得る(240)。オーディオ符号化デバイス20は、HOAオーディオデータをキャプチャするか、またはさもなければ取得するために、1つまたは複数のマイクロフォンに結合し得る。オーディオ符号化デバイス20は、次に、上述したように、HOAオーディオデータを、ベクトルおよび対応するフォアグラウンドオーディオオブジェクトに分解し得る(242)。オーディオ符号化デバイス20は、ビットストリームの第1のフレーム中で、対応するフォアグラウンドオーディオオブジェクトを指定し得る。
[0162] オーディオ符号化デバイス20はまた、ビットストリームのフレームの間に遷移中である環境HOA係数の数のバックグラウンド指示を取得し得る(244)。オーディオ符号化デバイス20は、バックグラウンド指示に基づいて、フレーム中で、少なくとも1つの環境HOA係数、ベクトルのうちの少なくとも1つ、およびフォアグラウンドオーディオオブジェクトのうちの少なくとも1つ、のうちの1つまたは複数を指定し得る(246)。
[0163] 本技法は、図8に示される項1Cの態様を行うように構成されたオーディオ符号化デバイス20が、以下の従属項に従って動作することを可能にし得る。
[0164] 項2C。環境HOA係数のうちの1つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を取得するように構成される、項1Cに記載のデバイス。
[0165] 項3C。環境HOA係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を取得するように構成される、項1Cに記載のデバイス。
[0166] 項4C。バックグラウンド指示に基づいて、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じフレームの間に環境HOA係数が遷移中であるかどうかの複数遷移指示を取得するようにさらに構成された、項1Cに記載のデバイス。
[0167] 項5C。フォアグラウンドオーディオ信号がビットストリームの第1のフレームの間に遷移中であるかどうかのフォアグラウンド指示を取得するようにさらに構成され、フォアグラウンドオーディオ信号は、HOAオーディオデータによって表されるとともにHOAオーディオデータから分解された音場のフォアグラウンド成分を記述する、項1Cに記載のデバイス。
[0168] 項6C。ビットストリームの第2のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項5Cに記載のデバイス。
[0169] 項7C。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリームの第2のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項5Cに記載のデバイス。
[0170] 項8C。ビットストリームの第1のフレーム中で、第1のフレームが、ビットストリームの第2のフレームを参照することなく第1のフレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を指定するようにさらに構成された、項5Cに記載のデバイス。
[0171] 項9C。第1のフレームが独立フレームであることを示す独立フレーム指示に応答して、ビットストリーム中で、フォアグラウンド指示を指定するように構成される、項8Cに記載のデバイス。
[0172] 項10C。第1のフレームが独立フレームでないことを示す独立フレーム指示に応答して、第2のフレームのトランスポートチャネルについてのタイプの指示を取得するようにさらに構成された、項8Cに記載のデバイス。
[0173] 項11C。第2のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項10Cに記載のデバイス。
[0174] 項12C。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第2のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項10Cに記載のデバイス。
[0175] 項13C。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについての独立フレーム指示を取得するように構成される、項10Cに記載のデバイス。
[0176] 項14C。ベクトルはHOAオーディオデータから分解される、項12Cおよび13Cに記載のデバイス。
[0177] 項15C。フォアグラウンドオーディオ信号がビットストリームの第1のフレームの間に遷移中であるかどうかのフォアグラウンド指示を取得することと、フォアグラウンドオーディオ信号は、HOAオーディオデータによって表されるとともにHOAオーディオデータから分解された音場のフォアグラウンド成分を記述する、フォアグラウンド指示に基づいて、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第1のフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得することとを行うようにさらに構成された、項1Cに記載のデバイス。
[0178] 項16C。フォアグラウンド指示、バックグラウンド指示またはフォアグラウンド指示とバックグラウンド指示の両方に基づいて、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第1のフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得するようにさらに構成された、項1Cまたは15Cに記載のデバイス。
[0179] 項17C。項15Cまたは16Cに記載のデバイスは、環境HOA係数のうちの1つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を取得するように構成され始める。
[0180] 項18C。環境HOA係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を取得するように構成される、請求項15Cまたは16Cに記載のデバイス。
[0181] 項19C。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリームの第2のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項16Cに記載のデバイス。
[0182] 項20C。複数遷移指示は、フォアグラウンドオーディオ信号がフェードインされるときの、ビットストリームの同じ第1のフレームの間に環境HOA係数がフェードインされるかどうかを示す、項4C〜19Cのうちのいずれかに記載のデバイス。
[0183] 項21C。複数遷移指示は、フォアグラウンドオーディオ信号がフェードアウトされるときの、ビットストリームの同じ第1のフレームの間に環境HOA係数がフェードアウトされるかどうかを示す、項4C〜19Cのうちのいずれかに記載のデバイス。
[0184] 項22C。複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得するようにさらに構成され、ベクトルと、対応するHOAオーディオ信号の両方がHOAオーディオデータから分解される、項1C〜21Cの任意の組合せに記載のデバイス。
[0185] 図9の例において、オーディオ符号化デバイス20は、最初にHOAオーディオデータを取得し得る(260)。オーディオ符号化デバイス20は、HOAオーディオデータをキャプチャするか、またはさもなければ取得するために、1つまたは複数のマイクロフォンに結合し得る。オーディオ符号化デバイス20は、次に、上述したように、HOAオーディオデータを、ベクトルおよび対応するフォアグラウンドオーディオオブジェクトに分解し得る(262)。オーディオ符号化デバイス20は、ビットストリームの第1のフレーム中で、対応するフォアグラウンドオーディオオブジェクトを指定し得る。
[0186] オーディオ符号化デバイス20はまた、ビットストリームのフレームの間にフォアグラウンドオーディオオブジェクトが遷移中であるかどうかのフォアグラウンド指示を取得し得る(264)。オーディオ符号化デバイス20は、フォアグラウンド指示に基づいて、フレーム中で、少なくとも1つの環境HOA係数、ベクトルのうちの少なくとも1つ、およびフォアグラウンドオーディオオブジェクトのうちの少なくとも1つ、のうちの1つまたは複数を指定し得る(266)。
[0187] 本技法は、図9に示される項1Dの態様を行うように構成されたオーディオ符号化デバイス20が、以下の従属項に従って動作することを可能にし得る。
[0188] 項2D。ビットストリームの第2のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項1Dに記載のデバイス。
[0189] 項3D。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリームの第2のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項1Dに記載のデバイス。
[0190] 項4D。ビットストリームの第1のフレーム中で、第1のフレームが、ビットストリームの第2のフレームを参照することなく第1のフレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を指定するようにさらに構成された、項1Dに記載のデバイス。
[0191] 項5D。第1のフレームが独立フレームであることを示す独立フレーム指示に応答して、ビットストリーム中で、フォアグラウンド指示を指定するように構成される、項4Dに記載のデバイス。
[0192] 項6D。第1のフレームが独立フレームでないことを示す独立フレーム指示に応答して、第2のフレームのトランスポートチャネルについてのタイプの指示を取得するようにさらに構成された、項4Dに記載のデバイス。
[0193] 項7D。第2のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項6Dに記載のデバイス。
[0194] 項8D。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第2のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項6Dに記載のデバイス。
[0195] 項9D。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについての独立フレーム指示を取得するようにさらに構成される、項6Dに記載のデバイス。
[0196] 項10D。ベクトルはHOAオーディオデータから分解される、項8Dまたは9Dに記載のデバイス。
[0197] 項11D。ビットストリームの第1のフレームの間に遷移中である環境HOA係数の数のバックグラウンド指示を取得するようにさらに構成され、環境HOA係数は、HOAオーディオデータによって表される音場の環境成分を記述する、項1Dに記載のデバイス。
[0198] 項12D。環境HOA係数のうちの1つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を取得するように構成される、項11Dに記載のデバイス。
[0199] 項13D。環境HOA係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を取得するように構成される、項11Dに記載のデバイス。
[0200] 項14D。バックグラウンド指示、フォアグラウンド指示またはバックグラウンド指示とフォアグラウンド指示の両方に基づいて、環境HOA係数が、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第1のフレームの間に遷移中であるかどうかの複数遷移指示を取得するようにさらに構成された、項1Dまたは11Dに記載のデバイス。
[0201] 項15D。複数遷移指示は、フォアグラウンドオーディオ信号がフェードインされるときの、ビットストリームの同じ第1のフレームの間に環境HOA係数がフェードインされるかどうかを示す、項14Dに記載のデバイス。
[0202] 項16D。複数遷移指示は、フォアグラウンドオーディオ信号がフェードアウトされるときの、ビットストリームの同じ第1のフレームの間に環境HOA係数がフェードアウトされるかどうかを示す、項14Dに記載のデバイス。
[0203] 項17D。複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得するようにさらに構成され、ベクトルと、対応するHOAオーディオ信号の両方がHOAオーディオデータから分解される、項14D〜16Dの任意の組合せに記載のデバイス。
[0204] 図10〜図13は、本開示で説明される技法の様々な態様を行う際のオーディオ復号デバイス24の例示的な動作を示すフローチャートである。図10の例において、オーディオ復号デバイス24は、ビットストリームの第1のフレームから、第1のフレームが、ビットストリームの第2のフレームを参照することなく第1のフレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を取得し得る(300)。オーディオ復号デバイス24はまた、第1のフレームが独立フレームであることを示す独立フレーム指示に応答して、第1のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得し得る(302)。上述したように、フォアグラウンド指示は、第2のフレームの同じトランスポートチャネルが、高次アンビソニックオーディオデータから分解されたフォアグラウンドオーディオ信号を含むかどうかを示し得る。
[0205] オーディオ復号デバイス24は、次に、フォアグラウンド指示(上述したように、HOAオーディオデータから分解され得る)に基づいて、第1のフレームから、フォアグラウンドオーディオ信号を取得し得る(304)。オーディオ復号デバイス24は、フォアグラウンドオーディオ信号に基づいてHOAオーディオデータを再構成し、HOAオーディオデータをラウドスピーカーフィードにレンダリングし、1つまたは複数のラウドスピーカーを駆動するためにラウドスピーカーフィードを出力し得る(306〜310)。オーディオ復号デバイス24は、ラウドスピーカーを含むか、またはさもなければラウドスピーカーに結合し得る。
[0206] 本技法は、図10に示される項1AAの態様を行うように構成されたオーディオ復号デバイス24が、以下の従属項に従って動作することを可能にし得る。
[0207] 項2AA。第1のフレームが独立フレームでないことを示す独立フレーム指示に応答して、第2のフレームのトランスポートチャネルについてのタイプの指示を取得するようにさらに構成された、項1AAに記載のデバイス。
[0208] 項3AA。第2のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項2AAに記載のデバイス。
[0209] 項4AA。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第2のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項2AAに記載のデバイス。
[0210] 項5AA。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについての独立フレーム指示を取得するように構成される、項1AAに記載のデバイス。
[0211] 項6AA。ベクトルはHOAオーディオデータから分解される、項4AAおよび5AAに記載のデバイス。
[0212] 項7AA。ビットストリームの第1のフレームの間に遷移中である環境HOA係数の数のバックグラウンド指示を取得し、バックグラウンド指示に基づいて、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第1のフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得するようにさらに構成された、請求項1AAに記載のデバイス。
[0213] 項8AA。フォアグラウンド指示、バックグラウンド指示またはフォアグラウンド指示とバックグラウンド指示の両方に基づいて、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第1のフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得するようにさらに構成された、項1AAまたは7AAに記載のデバイス。
[0214] 項9A。環境HOA係数のうちの1つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を取得するように構成される、項7AAまたは8AAに記載のデバイス。
[0215] 項10AA。環境HOA係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を取得するように構成される、項7AAまたは8AAに記載のデバイス。
[0216] 項11AA。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリームの第2のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項8AAに記載のデバイス。
[0217] 項12AA。複数遷移指示は、フォアグラウンドオーディオ信号がフェードインされるときの、ビットストリームの同じ第1のフレームの間に環境HOA係数がフェードアウトされるかどうかを示す、項7AA〜11AAの任意の組合せに記載のデバイス。
[0218] 項13AA。複数遷移指示は、フォアグラウンドオーディオ信号がフェードアウトされるときの、ビットストリームの同じ第1のフレームの間に環境HOA係数がフェードアウトされるかどうかを示す、項7AA〜11AAの任意の組合せに記載のデバイス。
[0219] 項14AA。複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得するようにさらに構成され、ベクトルと、対応するHOAオーディオ信号の両方が、HOAオーディオデータから分解される、項7AA〜13AAの任意の組合せに記載のデバイス。
[0220] 図11の例において、オーディオ復号デバイス24は、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得し得る(320)。オーディオ復号デバイス24はまた、複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得し得る(322)。上述したように、ベクトルと、対応するHOAオーディオ信号の両方が、HOAオーディオデータから分解され得る。
[0221] オーディオ復号デバイス24は、ベクトルに基づいてHOAオーディオデータを再構成し、HOAオーディオデータをラウドスピーカーフィードにレンダリングし、1つまたは複数のラウドスピーカーを駆動するためにラウドスピーカーフィードを出力し得る(324〜328)。オーディオ復号デバイス24は、ラウドスピーカーを含むか、またはさもなければラウドスピーカーに結合し得る。
[0222] 本技法は、図11に示される項1BBの態様を行うように構成されたオーディオ復号デバイス24が、以下の従属項に従って動作することを可能にし得る。
[0223] 項2BB。ビットストリームの第1のフレームの間に遷移中である環境HOA係数の数のバックグラウンド指示を取得するようにさらに構成され、バックグラウンド指示に基づいて複数遷移指示を取得するように構成される、項1BBに記載のデバイス。
[0224] 項3BB。ビットストリームのフレームの間にフォアグラウンドオーディオ信号が遷移中であるかどうかのフォアグラウンド指示を取得するようにさらに構成され、フォアグラウンド指示に基づいて複数遷移指示を取得するように構成される、項1BBに記載のデバイス。
[0225] 項4BB。ビットストリームのフレームの間に遷移中である環境HOA係数の数のバックグラウンド指示を取得し、ビットストリームのフレームの間にフォアグラウンドオーディオ信号が遷移中であるかどうかのフォアグラウンド指示を取得するようにさらに構成され、フォアグラウンド指示およびバックグラウンド指示に基づいて複数遷移指示を取得するように構成される、項1BBに記載のデバイス。
[0226] 項5BB。環境HOA係数のうちの1つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を取得するように構成される、項2BBまたは4BBに記載のデバイス。
[0227] 項6BB。環境HOA係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を取得するように構成される、項2BBまたは4BBに記載のデバイス。
[0228] 項7BB。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリームの第2のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項3BBまたは4BBに記載のデバイス。
[0229] 項8BB。ビットストリームの第1のフレームから、第1のフレームが、ビットストリームの第2のフレームを参照することなく第1のフレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を取得するようにさらに構成された、項3BBまたは4BBに記載のデバイス。
[0230] 項9BB。第1のフレームが独立フレームであることを示す独立フレーム指示に応答して、ビットストリームから、フォアグラウンド指示を取得するように構成される、項8BBに記載のデバイス。
[0231] 項10BB。第1のフレームが独立フレームでないことを示す独立フレーム指示に応答して、第2のフレームのトランスポートチャネルについてのタイプの指示を取得するようにさらに構成された、項8BBに記載のデバイス。
[0232] 項11BB。第2のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項10BBに記載のデバイス。
[0233] 項12BB。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第2のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項10BBに記載のデバイス。
[0234] 項13B。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについての独立フレーム指示を取得するように構成される、項10BBに記載のデバイス。
[0235] 項14BB。ベクトルはHOAオーディオデータから分解される、項12BBまたは13BBに記載のデバイス。
[0236] 項15BB。複数遷移指示は、フォアグラウンドオーディオ信号がフェードインされるときの、ビットストリームの同じ第1のフレームの間に環境HOA係数がフェードインされるかどうかを示す、項1BB〜14BBの任意の組合せに記載のデバイス。
[0237] 項16BB。複数遷移指示は、フォアグラウンドオーディオ信号がフェードアウトされるときの、ビットストリームの同じ第1のフレームの間に環境HOA係数がフェードアウトされるかどうかを示す、項1BB〜14BBの任意の組合せに記載のデバイス。
[0238] 図12の例において、オーディオ復号デバイス24は、ビットストリームの第1のフレームの間に遷移中であるという環境HOA係数の数のバックグラウンド指示を取得し得る(340)。上述したように、環境HOA係数は、HOAオーディオデータによって表される音場の環境成分を記述し得る。オーディオ復号デバイス24は、バックグラウンド指示に基づいて、第1のフレームから、少なくとも1つの環境HOA係数、少なくとも1つのベクトル、および少なくとも1つのフォアグラウンドオーディオ信号のうちの1つまたは複数を取得し得る(342)。
[0239] 少なくとも1つの環境HOA係数、少なくとも1つのベクトル、および少なくとも1つのフォアグラウンドオーディオ信号のうちの1つまたは複数に基づいて、オーディオ復号デバイス24は、HOAオーディオデータを再構成し得る(344)。オーディオ復号デバイス24は、HOAオーディオデータをラウドスピーカーフィードにレンダリングし、1つまたは複数のラウドスピーカーを駆動するためにラウドスピーカーフィードを出力し得る(346、348)。やはり、オーディオ復号デバイス24は、ラウドスピーカーを含むか、またはさもなければラウドスピーカーに結合し得る。
[0240] 本技法は、図12に示される項1CCの態様を行うように構成されたオーディオ復号デバイス24が、以下の従属項に従って動作することを可能にし得る。
[0241] 項2CC。環境HOA係数のうちの1つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を取得するように構成される、項1CCに記載のデバイス。
[0242] 項3CC。環境HOA係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を取得するように構成される、項1CCに記載のデバイス。
[0243] 項4CC。バックグラウンド指示に基づいて、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得するようにさらに構成された、項1CCに記載のデバイス。
[0244] 項5CC。フォアグラウンドオーディオ信号がビットストリームの第1のフレームの間に遷移中であるかどうかのフォアグラウンド指示を取得するようにさらに構成され、フォアグラウンドオーディオ信号は、HOAオーディオデータによって表されるとともにHOAオーディオデータから分解された音場のフォアグラウンド成分を記述する、項1CCに記載のデバイス。
[0245] 項6CC。ビットストリームの第2のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項5CCに記載のデバイス。
[0246] 項7CC。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリームの第2のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項5CCに記載のデバイス。
[0247] 項8CC。ビットストリームの第1のフレームから、第1のフレームが、ビットストリームの第2のフレームを参照することなく第1のフレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を取得するようにさらに構成された、項5CCに記載のデバイス。
[0248] 項9CC。第1のフレームが独立フレームであることを示す独立フレーム指示に応答して、ビットストリームから、フォアグラウンド指示を取得するように構成される、項8CCに記載のデバイス。
[0249] 項10CC。第1のフレームが独立フレームでないことを示す独立フレーム指示に応答して、第2のフレームのトランスポートチャネルについてのタイプの指示を取得するようにさらに構成された、項8CCに記載のデバイス。
[0250] 項11CC。第2のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項10CCに記載のデバイス。
[0251] 項12CC。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第2のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するである、項10CCに記載のデバイス。
[0252] 項13CC。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについての独立フレーム指示を取得するように構成される、項10CCに記載のデバイス。
[0253] 項14CC。ベクトルはHOAオーディオデータから分解される、項12CCまたは13CCに記載のデバイス。
[0254] 項15CC。フォアグラウンドオーディオ信号がビットストリームの第1のフレームの間に遷移中であるかどうかのフォアグラウンド指示を取得することと、フォアグラウンドオーディオ信号は、HOAオーディオデータによって表されるとともにHOAオーディオデータから分解された音場のフォアグラウンド成分を記述する、フォアグラウンド指示に基づいて、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第1のフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得することとを行うようにさらに構成された、項1CCに記載のデバイス。
[0255] 項16CC。フォアグラウンド指示、バックグラウンド指示またはフォアグラウンド指示とバックグラウンド指示の両方に基づいて、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第1のフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得するようにさらに構成された、項1CCまたは15CCに記載のデバイス。
[0256] 項17CC。環境HOA係数のうちの1つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を取得するように構成される、項15CCまたは16CCに記載のデバイス。
[0257] 項18CC。環境HOA係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を取得するように構成される、項15CCまたは16CCに記載のデバイス。
[0258] 項19CC。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリームの第2のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項16CCに記載のデバイス。
[0259] 項20CC。複数遷移指示は、フォアグラウンドオーディオ信号がフェードインされるときの、ビットストリームの同じ第1のフレームの間に環境HOA係数がフェードインされるかどうかを示す、項4CC〜19CCの任意の組合せに記載のデバイス。
[0260] 項21CC。複数遷移指示は、フォアグラウンドオーディオ信号がフェードアウトされるときの、ビットストリームの同じ第1のフレームの間に環境HOA係数がフェードアウトされるかどうかを示す、項4CC〜19CCの任意の組合せに記載のデバイス。
[0261] 項22CC。複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得するようにさらに構成され、ベクトルと、対応するHOAオーディオ信号の両方が、HOAオーディオデータから分解される、項1CC〜21CCの任意の組合せに記載のデバイス。
[0262] 図13の例において、オーディオ復号デバイス24はまた、ビットストリームのフレームの間にフォアグラウンドオーディオ信号が遷移中であるかどうかのフォアグラウンド指示を取得し得る(360)。オーディオ復号デバイス24は、フォアグラウンド指示に基づいて、フレームから、少なくとも1つの環境HOA係数、ベクトルのうちの少なくとも1つ、およびフォアグラウンドオーディオオブジェクトのうちの少なくとも1つ、のうちの1つまたは複数を取得し得る(362)。
[0263] 少なくとも1つの環境HOA係数、少なくとも1つのベクトル、および少なくとも1つのフォアグラウンドオーディオ信号のうちの1つまたは複数に基づいて、オーディオ復号デバイス24は、HOAオーディオデータを再構成し得る(364)。オーディオ復号デバイス24は、HOAオーディオデータをラウドスピーカーフィードにレンダリングし、1つまたは複数のラウドスピーカーを駆動するためにラウドスピーカーフィードを出力し得る(366、368)。やはり、オーディオ復号デバイス24は、ラウドスピーカーを含むか、またはさもなければラウドスピーカーに結合し得る。
[0264] 本技法は、図13に示される項1DDの態様を行うように構成されたオーディオ復号デバイス24が、以下の従属項に従って動作することを可能にし得る。
[0265] 項2DD。ビットストリームの第2のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項1DDに記載のデバイス。
[0266] 項3DD。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリームの第2のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項1DDに記載のデバイス。
[0267] 項4DD。ビットストリームの第1のフレームから、第1のフレームが、ビットストリームの第2のフレームを参照することなく第1のフレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を取得するようにさらに構成された、項1DDに記載のデバイス。
[0268] 項5DD。第1のフレームが独立フレームであることを示す独立フレーム指示に応答して、ビットストリームから、フォアグラウンド指示を取得するように構成される、項4DDに記載のデバイス。
[0269] 項6DD。第1のフレームが独立フレームでないことを示す独立フレーム指示に応答して、第2のフレームのトランスポートチャネルについてのタイプの指示を取得するようにさらに構成された、項4DDに記載のデバイス。
[0270] 項7DD。第2のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項6DDに記載のデバイス。
[0271] 項8DD。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第2のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項6DDに記載のデバイス。
[0272] 項9DD。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第2のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第1のフレームのトランスポートチャネルについての独立フレーム指示を取得するように構成される、項6DDに記載のデバイス。
[0273] 項10DD。ベクトルはHOAオーディオデータから分解される、項8DDまたは9DDに記載のデバイス。
[0274] 項11DD。ビットストリームの第1のフレームの間に遷移中である環境HOA係数の数のバックグラウンド指示を取得するようにさらに構成され、環境HOA係数は、HOAオーディオデータによって表される音場の環境成分を記述する、項1DDに記載のデバイス。
[0275] 項12DD。環境HOA係数のうちの1つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を取得するように構成される、項11DDに記載のデバイス。
[0276] 項13DD。環境HOA係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を取得するように構成される、項11DDに記載のデバイス。
[0277] 項14DD。バックグラウンド指示、フォアグラウンド指示またはバックグラウンド指示とフォアグラウンド指示の両方に基づいて、環境HOA係数が、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第1のフレームの間に遷移中であるかどうかの複数遷移指示を取得するようにさらに構成された、項1DDまたは11DDに記載のデバイス。
[0278] 項15DD。複数遷移指示は、フォアグラウンドオーディオ信号がフェードインされるときの、ビットストリームの同じ第1のフレームの間に環境HOA係数がフェードインされるかどうかを示す、項14DDに記載のデバイス。
[0279] 項16DD。複数遷移指示は、フォアグラウンドオーディオ信号がフェードアウトされるときの、ビットストリームの同じ第1のフレームの間に環境HOA係数がフェードアウトされるかどうかを示す、項14DDに記載のデバイス。
[0280] 項17DD。複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得するようにさらに構成され、ベクトルと、対応するHOAオーディオ信号の両方が、HOAオーディオデータから分解される、項14DD〜16DDの任意の組合せに記載のデバイス。
[0281] 本技法の追加態様は、上述の3Dオーディオコーディング規格のフェーズIまたはIIを参照する様々な表およびセクション番号をもつ以下の項目を対象とし得る。以下の下線付きイタリック体項目は、上述の3Dオーディオコーディング規格のフェーズIまたはIIに対する追加を示す。
HOA行列エンコーダ/デコーダ
ビットストリーム中でHOAレンダリング行列をシグナリングするために、HOAレンダリング行列は、重み付け値ごとに最大0.125dBの精度で量子化される。ただし、所望のレンダリング行列が、エネルギー正規化されるように意図的に設計されている場合、この量子化ノイズは、復号されたHOAレンダリング行列を、それ以上エネルギー正規化されないようにさせる。従って、逆量子化されたレンダリング行列を、その元のエネルギー正規化された状態に再正規化するための選択肢を提案する。
表23−Syntax of HOARenderingMatrix()において、
で置き換える。
サブクローズ5.3.6 HOA Rendering Matrix Data Elementsにおいて、precisionLevelの前に、
を追加する。
表24 5.4.3.3 Decoding of HOA Rendering Matrix Coefficientsにおいて、
この場合、左ラウドスピーカーについての個々の行列要素を復号するためのコードワードは、相応に低減されるか、または完全に省かれる。
の後に、
ビットフィールドisNormalizedが1にセットされた場合、非LFEラウドスピーカーに関連付けられた、HOAレンダリング行列のL個の行中の各重み付け値を、非LFEラウドスピーカーに関連付けられた行列のL個の行から計算された、行列のフロベニウスノルム
で除算することによって、最終HOAレンダリング行列Dが作成される。
を追加する。
サブクローズ12.4.1.10.2において、
ベクトルコードブックのサイズは、値NumVvecIndicesに、およびHOA次数に依存する。変数NumVvecIndicesが1にセットされている場合、付属書類Fから導出されたHOA拡張係数を含むベクトルコードブックが使われる。NumVvecIndicesが1よりも大きい場合、Oベクトルをもつベクトルコードブックが、256×8個の重み付け値(付属書類F.12中の表)と組み合わせて使われる。HOA次数4の場合、付属書類F.6中の表から導出される32個のエントリをもつベクトルコードブックが使われる。
を、
ベクトルコードブックのサイズは、値CodebkIdx(k)[i]に、値NumVvecIndices(k)[i]に、およびHOA次数に依存する。NumVvecIndicesが1よりも大きい場合、(付属書類F.12中の表)256×8個の重み付け値が使用される。NumVvecIndicesが8よりも大きい場合、256×8個の重み付け値(付属書類F.12中の表)の最後の2列が、モジュール演算子とともに繰り返し使用される。
CodebkIdx(k)[i]が0にセットされている場合、付属書類Fから導出されるHOA拡張係数を含むコードブックが使われる。
CodebkIdx(k)[i]が1にセットされている場合、Vベクトルコードブックが、表94中のラウドスピーカー位置(第2および第3の列)に基づいて生成され、スケーリングとともに使用される。CodebkIdx(k)[i]が2にセットされている場合、表94中のラウドスピーカー位置(第2および第3の列)に基づくVベクトルコードブックが生成され、さらなるスケーリングなしに使用される。
CodebkIdx(k)[i]が7にセットされている場合、Oベクトルをもつベクトルが使われる。HOA次数4の場合、付属書類F.6中の表から導出される32個のエントリをもつベクトルコードブックが使われる。
で置き換える。
サブクローズ12.4.1.10.2において、
を、
で置き換える。
サブクローズ12.4.1.10.5 Conversion of VVec elementsにおいて、
を、
で置き換える。
サブクローズ12.4.1.10.5 Conversion of VVec elementsにおいて、
を、
で置き換える。サブクローズ12.4.1.10.6 Tuple set MVEC(k)の前に、
を追加する。
付属書類F.XXX34 distributed Positions in Spherical Coordinatesとして、
を追加する。
サブクローズ12.4.2.4.4.2 Spatio−temporal interpolation of V−vectorsにおいて、
−第kのフレーム(そのインデックスがセットIE(k)中に含まれる)中で明示的にさらに送信され、フェードインされる環境HOA成分の係数シーケンスがある場合、HOA表現のそれぞれの係数シーケンス
は、ウィンドウwDIRのフェードアウト部を使用してフェードアウトされなければならない。
を、
−第kのフレーム(そのインデックスがセットIE(k)中に含まれる)中で明示的にさらに送信され、フェードインされる環境HOA成分の係数シーケンスがある場合、HOA表現のそれぞれの係数シーケンス
は、ウィンドウwDIRのフェードアウト部を使用してフェードアウトされなければならない。
中のそれぞれのvベクトル要素は、それらをゼロにセットすることによって、以下のフレームk+1における時空間的補間から破棄される。
で置き換える。
[0282] 上記の技法は、任意の数の異なるコンテキストおよびオーディオエコシステムに関して行われ得る。いくつかの例示的なコンテキストが以下で説明されるが、本技法はそれらの例示的なコンテキストに限定されるべきでない。1つの例示的なオーディオエコシステムは、オーディオコンテンツと、映画スタジオと、音楽スタジオと、ゲーミングオーディオスタジオと、チャネルベースオーディオコンテンツと、コーディングエンジンと、ゲームオーディオステムと、ゲームオーディオコーディング/レンダリングエンジンと、配信システムとを含み得る。
[0283] 映画スタジオ、音楽スタジオ、およびゲーミングオーディオスタジオは、オーディオコンテンツを受信し得る。いくつかの例において、オーディオコンテンツは、獲得物の出力を表し得る。映画スタジオは、デジタルオーディオワークステーション(DAW)を使用することなどによって、(例えば、2.0、5.1、および7.1の)チャネルベースオーディオコンテンツを出力し得る。音楽スタジオは、DAWを使用することなどによって、(例えば、2.0、および5.1の)チャネルベースオーディオコンテンツを出力し得る。いずれの場合も、コーディングエンジンは、配信システムによる出力のために、チャネルベースオーディオコンテンツベースの1つまたは複数のコーデック(例えば、AAC、AC3、ドルビートゥルーHD、ドルビーデジタルプラス、およびDTSマスタオーディオ)を受信し符号化し得る。ゲーミングオーディオスタジオは、DAWを使用することなどによって、1つまたは複数のゲームオーディオステムを出力し得る。ゲームオーディオコーディング/レンダリングエンジンは、配信システムによる出力のために、オーディオステムをチャネルベースオーディオコンテンツへとコーディングおよびまたはレンダリングし得る。本技法が行われ得る別の例示的なコンテキストは、放送録音オーディオオブジェクトと、プロフェッショナルオーディオシステムと、消費者向けオンデバイスキャプチャと、HOAオーディオフォーマットと、オンデバイスレンダリングと、消費者向けオーディオと、TV、およびアクセサリと、カーオーディオシステムとを含み得る、オーディオエコシステムを備える。
[0284] 放送録音オーディオオブジェクト、プロフェッショナルオーディオシステム、および消費者向けオンデバイスキャプチャは全て、HOAオーディオフォーマットを使用してそれらの出力をコーディングし得る。このようにして、オーディオコンテンツは、オンデバイスレンダリング、消費者向けオーディオ、TV、およびアクセサリ、並びにカーオーディオシステムを使用して再生され得る単一の表現へと、HOAオーディオフォーマットを使用してコーディングされ得る。言い換えれば、オーディオコンテンツの単一の表現は、オーディオ再生システム16のような、汎用的なオーディオ再生システムにおいて(すなわち、5.1、7.1のような特定の構成を必要とすることとは対照的に)再生され得る。
[0285] 本技法が行われ得るコンテキストの他の例には、獲得要素と再生要素とを含み得るオーディオエコシステムがある。獲得要素は、ワイヤードおよび/またはワイヤレス獲得デバイス(例えば、Eigenマイクロフォン)と、オンデバイスサラウンドサウンドキャプチャと、モバイルデバイス(例えば、スマートフォンおよびタブレット)とを含み得る。いくつかの例において、ワイヤードおよび/またはワイヤレス獲得デバイスは、ワイヤードおよび/またはワイヤレス通信チャネルを介してモバイルデバイスに結合され得る。
[0286] 本開示の1つまたは複数の技法によれば、モバイルデバイスは、音場を獲得するために使用され得る。例えば、モバイルデバイスは、ワイヤードおよび/もしくはワイヤレス獲得デバイス、並びに/またはオンデバイスサラウンドサウンドキャプチャ(例えば、モバイルデバイスに統合された複数のマイクロフォン)を介して、音場を獲得し得る。モバイルデバイスは、次いで、再生要素のうちの1つまたは複数による再生のために、獲得された音場をHOA係数へとコーディングし得る。例えば、モバイルデバイスのユーザは、ライブイベント(例えば、会合、会議、劇、コンサートなど)を録音し(ライブイベントの音場を獲得し)、録音をHOA係数へとコーディングし得る。
[0287] モバイルデバイスはまた、HOAコーディングされた音場を再生するために、再生要素のうちの1つまたは複数を利用し得る。例えば、モバイルデバイスは、HOAコーディングされた音場を復号し、再生要素のうちの1つまたは複数に信号を出力し得、それにより、再生要素のうちの1つまたは複数は音場を再作成することになる。一例として、モバイルデバイスは、1つまたは複数のスピーカー(例えば、スピーカーアレイ、サウンドバーなど)に信号を出力するためにワイヤレスおよび/またはワイヤレス通信チャネルを利用し得る。別の例として、モバイルデバイスは、1つもしくは複数のドッキングステーション並びに/または1つもしくは複数のドッキングされたスピーカー(例えば、スマートカーおよび/もしくはスマートホーム内のサウンドシステム)に信号を出力するために、ドッキングソリューションを利用し得る。別の例として、モバイルデバイスは、ヘッドフォンのセットに信号を出力するために、例えばリアルなバイノーラルサウンドを作成するために、ヘッドフォンレンダリングを利用し得る。
[0288] いくつかの例において、特定のモバイルデバイスは、3D音場を獲得することと、より後の時間に同じ3D音場を再生することの両方を行い得る。いくつかの例において、モバイルデバイスは、3D音場を獲得し、3D音場をHOAへと符号化し、符号化された3D音場を再生のために1つまたは複数の他のデバイス(例えば、他のモバイルデバイスおよび/または他の非モバイルデバイス)に送信し得る。
[0289] 本技法が行われ得るまた別のコンテキストは、オーディオコンテンツと、ゲームスタジオと、コーディングされたオーディオコンテンツと、レンダリングエンジンと、配信システムとを含み得る、オーディオエコシステムを含む。いくつかの例において、ゲームスタジオは、HOA信号の編集をサポートし得る1つまたは複数のDAWを含み得る。例えば、1つまたは複数のDAWは、1つまたは複数のゲームオーディオシステムとともに動作する(例えば、機能する)ように構成され得るHOAプラグインおよび/またはツールを含み得る。いくつかの例において、ゲームスタジオは、HOAをサポートする新しいステムフォーマットを出力し得る。いずれの場合も、ゲームスタジオは、配信システムによる再生のために音場をレンダリングし得るレンダリングエンジンに、コーディングされたオーディオコンテンツを出力し得る。
[0290] 本技法はまた、例示的なオーディオ獲得デバイスに関して行われ得る。例えば、本技法は、3D音場を録音するようにまとめて構成された複数のマイクロフォンを含み得る、Eigenマイクロフォンに関して行われ得る。いくつかの例において、Eigenマイクロフォンの複数のマイクロフォンは、約4cmの半径を伴う実質的に球状の球体の表面に配置され得る。いくつかの例において、オーディオ符号化デバイス20は、ビットストリーム21をマイクロフォンから直接出力するために、Eigenマイクロフォンに統合され得る。
[0291] 別の例示的なオーディオ獲得コンテキストは、1つまたは複数のEigenマイクロフォンのような、1つまたは複数のマイクロフォンから信号を受信するように構成され得る、製作トラックを含み得る。製作トラックはまた、図3のオーディオエンコーダ20のような、オーディオエンコーダを含み得る。
[0292] モバイルデバイスはまた、いくつかの場合には、3D音場を録音するようにまとめて構成される複数のマイクロフォンを含み得る。言い換えれば、複数のマイクロフォンは、X、Y、Zのダイバーシティを有し得る。いくつかの例において、モバイルデバイスは、モバイルデバイスの1つまたは複数の他のマイクロフォンに関してX、Y、Zのダイバーシティを提供するように回転され得るマイクロフォンを含み得る。モバイルデバイスはまた、図3のオーディオエンコーダ20のような、オーディオエンコーダを含み得る。
[0293] 耐衝撃性のビデオキャプチャデバイスは、3D音場を録音するようにさらに構成され得る。いくつかの例において、耐衝撃性のビデオキャプチャデバイスは、ある活動に関与するユーザのヘルメットに取り付けられ得る。例えば、耐衝撃性のビデオキャプチャデバイスは、急流下りをしているユーザのヘルメットに取り付けられ得る。このようにして、耐衝撃性のビデオキャプチャデバイスは、ユーザの周り全ての活動(例えば、ユーザの後ろでくだける水、ユーザの前で話している別の乗員など)を表す3D音場をキャプチャし得る。
[0294] 本技法はまた、3D音場を録音するように構成され得る、アクセサリで増強されたモバイルデバイスに関して行われ得る。いくつかの例において、モバイルデバイスは、上記で説明されたモバイルデバイスと同様であり得るが、1つまたは複数のアクセサリが追加されている。例えば、Eigenマイクロフォンが、アクセサリで増強されたモバイルデバイスを形成するために、上述のモバイルデバイスに取り付けられ得る。このようにして、アクセサリで増強されたモバイルデバイスは、アクセサリで増強されたモバイルデバイスと一体のサウンドキャプチャ構成要素をただ使用するよりも高品質なバージョンの3D音場をキャプチャし得る。
[0295] 本開示で説明される技法の様々な態様を行い得る例示的なオーディオ再生デバイスが、以下でさらに説明される。本開示の1つまたは複数の技法によれば、スピーカーおよび/またはサウンドバーは、あらゆる任意の構成で配置され得るが、一方で、依然として3D音場を再生する。その上、いくつかの例では、ヘッドフォン再生デバイスが、ワイヤード接続またはワイヤレス接続のいずれかを介してデコーダ24に結合され得る。本開示の1つまたは複数の技法によれば、音場の単一の汎用的な表現が、スピーカー、サウンドバー、およびヘッドフォン再生デバイスの任意の組合せで音場をレンダリングするために利用され得る。
[0296] また、いくつかの異なる例示的なオーディオ再生環境は、本開示で説明される技法の様々な態様を行うために好適であり得る。例えば、5.1スピーカー再生環境、2.0(例えば、ステレオ)スピーカー再生環境、フルハイトフロントラウドスピーカーを伴う9.1スピーカー再生環境、22.2スピーカー再生環境、16.0スピーカー再生環境、自動車スピーカー再生環境、およびイヤバッド再生環境を伴うモバイルデバイスは、本開示で説明される技法の様々な態様を行うために好適な環境であり得る。
[0297] 本開示の1つまたは複数の技法によれば、音場の単一の汎用的な表現が、上記の再生環境のいずれかにおいて音場をレンダリングするために利用され得る。加えて、本開示の技法は、レンダードが、上記で説明されたもの以外の再生環境での再生のために、汎用的な表現から音場をレンダリングすることを可能にする。例えば、設計上の考慮事項が、7.1スピーカー再生環境に従ったスピーカーの適切な配置を妨げる場合(例えば、右側のサラウンドスピーカーを配置することが可能でない場合)、本開示の技法は、再生が6.1スピーカー再生環境で達成され得るように、レンダーが他の6つのスピーカーで補償することを可能にする。
[0298] その上、ユーザは、ヘッドフォンを装着しながらスポーツの試合を見得る。本開示の1つまたは複数の技法によれば、スポーツの試合の3D音場が獲得され得(例えば、1つまたは複数のEigenマイクロフォンが野球場の中および/または周りに配置され得)、3D音場に対応するHOA係数が取得されデコーダに送信され得、デコーダはHOA係数に基づいて3D音場を再構成して、再構成された3D音場をレンダラに出力し得、レンダラは、再生環境のタイプ(例えば、ヘッドフォン)についての指示を取得し、再構成された3D音場を、ヘッドフォンにスポーツの試合の3D音場の表現を出力させる信号へとレンダリングし得る。
[0299] 上記で説明された様々な事例の各々において、オーディオ符号化デバイス20は、ある方法を行い、またはさもなければ、オーディオ符号化デバイス20が行うものとして上述した方法の各ステップを行うための手段を備え得ることを理解されたい。いくつかの事例において、これらの手段は1つまたは複数のプロセッサを備え得る。いくつかの事例において、1つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成された専用プロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、1つまたは複数のプロセッサに、オーディオ符号化デバイス20が行うように構成されている方法を行わせる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。
[0300] 1つまたは複数の例において、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実施され得る。ソフトウェアで実施される場合、機能は、1つまたは複数の命令またはコードとして、コンピュータ可読媒体上に記憶されるか、またはコンピュータ可読媒体を介して送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体のような有形媒体に対応するコンピュータ可読記憶媒体を含み得る。データ記憶媒体は、本開示で説明される技法の実施のための命令、コードおよび/またはデータ構造を取り出すために、1つもしくは複数のコンピュータまたは1つもしくは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。
[0301] 同様に、上記で説明された様々な事例の各々において、オーディオ復号デバイス24は、ある方法を行い、またはさもなければ、オーディオ復号デバイス24が行うように構成された方法の各ステップを行うための手段を備え得ることを理解されたい。いくつかの事例において、これらの手段は1つまたは複数のプロセッサを備え得る。いくつかの事例において、1つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成された専用プロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、1つまたは複数のプロセッサに、オーディオ復号デバイス24が行うように構成されている方法を行わせる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。
[0302] 限定でなく例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM(登録商標)、CD−ROMもしくは他の光ディスクストレージ、磁気ディスクストレージ、もしくは他の磁気ストレージデバイス、フラッシュメモリ、または命令もしくはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備えることができる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含むのでなく、代わりに、非一時的な有形記憶媒体を対象とすることを理解されたい。本明細書で使用するディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)およびBlu−ray(登録商標)ディスク(disc)を含み、ディスク(disk)は通常、データを磁気的に再生し、ディスク(disc)は、データをレーザーで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。
[0303] 命令は、1つもしくは複数のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブル論理アレイ(FPGA)、または他の等価な集積回路もしくはディスクリート論理回路のような、1つまたは複数のプロセッサによって実行され得る。従って、本明細書で使用される「プロセッサ」という用語は、前述の構造、または、本明細書で説明された技法の実施に好適な任意の他の構造のいずれかを指し得る。加えて、いくつかの態様において、本明細書で説明される機能は、符号化および復号のために構成された専用のハードウェアおよび/もしくはソフトウェアモジュール内で与えられ、または複合コーデックに組み込まれ得る。また、本技法は、1つまたは複数の回路または論理要素で十分に実施され得る。
[0304] 本開示の技法は、ワイヤレスハンドセット、集積回路(IC)またはICのセット(例えば、チップセット)を含む、多種多様なデバイスまたは装置で実施され得る。様々な構成要素、モジュール、またはユニットは、開示された技法を行うように構成されたデバイスの機能的態様を強調するように本開示において記載されているが、異なるハードウェアユニットによる実現を必ずしも必要としない。むしろ、上記で説明されたように、様々なユニットが、好適なソフトウェアおよび/またはファームウェアとともに、上記で説明された1つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わせられるか、または相互動作可能なハードウェアユニットの集合によって与えられ得る。
[0305] 本開示の様々な態様が説明された。本技法のこれらの態様および他の態様は、以下の特許請求の範囲内に入る。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1] 高次アンビソニック(HOA)オーディオデータを表すビットストリームを復号するように構成されたデバイスであって、
フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得することと、
前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、前記ベクトルと、前記対応するフォアグラウンドオーディオ信号の両方が前記HOAオーディオデータから分解されている、を行うように構成された1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサに結合され、前記ベクトルを記憶するように構成されたメモリとを備えるデバイス。
[C2] 前記1つまたは複数のプロセッサは、前記ビットストリームの前記フレームの間に遷移中である環境HOA係数の数のバックグラウンド指示を取得するようにさらに構成され、
前記1つまたは複数のプロセッサは、前記バックグラウンド指示に基づいて前記複数遷移指示を取得するように構成される、C1に記載のデバイス。
[C3] 前記1つまたは複数のプロセッサは、前記環境HOA係数のうちの1つに関して遷移が起きたことを示す指示に応答して、前記バックグラウンド指示を取得するように構成される、C2に記載のデバイス。
[C4] 前記1つまたは複数のプロセッサは、前記環境HOA係数のうちのどれが前記ビットストリームの前記フレームの間に遷移中であるかを示す指示を取得するように構成される、C2に記載のデバイス。
[C5] 前記1つまたは複数のプロセッサは、フォアグラウンドオーディオ信号が前記ビットストリームの前記フレームの間に遷移中であるかどうかのフォアグラウンド指示を取得するようにさらに構成され、
前記1つまたは複数のプロセッサは、前記フォアグラウンド指示に基づいて前記複数遷移指示を取得するように構成される、C1に記載のデバイス。
[C6] 前記複数遷移指示は、前記フォアグラウンドオーディオ信号がフェードインされるときの前記ビットストリームの前記同じフレームの間に前記環境HOA係数がフェードインされるかどうかを示す、C1に記載のデバイス。
[C7] 前記複数遷移指示は、前記フォアグラウンドオーディオ信号がフェードアウトされるときの前記ビットストリームの前記同じフレームの間に前記環境HOA係数がフェードアウトされるかどうかを示す、C1に記載のデバイス。
[C8] 前記1つまたは複数のプロセッサは、
前記ベクトルに基づいて前記HOAオーディオデータを再構成し、
前記HOAオーディオデータに基づいて、1つまたは複数のラウドスピーカーフィードをレンダリングするようにさらに構成される、C1に記載のデバイス。
[C9] 1つまたは複数のラウドスピーカーをさらに備え、
前記1つまたは複数のプロセッサは、前記1つまたは複数のラウドスピーカーを駆動するために、前記1つまたは複数のラウドスピーカーフィードを出力するようにさらに構成される、C8に記載のデバイス。
[C10] 前記デバイスはテレビジョンを備え、前記テレビジョンは、1つまたは複数の統合されたラウドスピーカーを含み、
前記1つまたは複数のプロセッサは、前記1つまたは複数のラウドスピーカーを駆動するために、前記1つまたは複数のラウドスピーカーフィードを出力するようにさらに構成される、C8に記載のデバイス。
[C11] 前記デバイスは受信機を備え、前記受信機は、1つまたは複数のラウドスピーカーに結合され、
前記1つまたは複数のプロセッサは、前記1つまたは複数のラウドスピーカーを駆動するために、前記1つまたは複数のラウドスピーカーフィードを出力するようにさらに構成される、C8に記載のデバイス。
[C12] 高次アンビソニック(HOA)オーディオデータを表すビットストリームを復号する方法であって、
フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得することと、
前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、前記ベクトルと、前記対応するフォアグラウンドオーディオ信号の両方が前記HOAオーディオデータから分解されている、を備える方法。
[C13] 前記ビットストリームの前記フレームの間に遷移中である環境HOA係数の数のバックグラウンド指示を取得することと、
フォアグラウンドオーディオ信号が前記ビットストリームの前記フレームの間に遷移中であるかどうかのフォアグラウンド指示を取得することとをさらに備え、
前記複数遷移指示を取得することは、前記フォアグラウンド指示および前記バックグラウンド指示に基づいて前記複数遷移指示を取得することを備える、C12に記載の方法。
[C14] 前記バックグラウンド指示を取得することは、前記環境HOA係数のうちの1つに関して遷移が起きたことを示す指示に応答して前記バックグラウンド指示を取得することを備える、C13に記載の方法。
[C15] 前記環境HOA係数のうちのどれが前記ビットストリームの前記フレームの間に遷移中であるかを示す指示を取得することをさらに備える、C13に記載の方法。
[C16] 前記フォアグラウンド指示を取得することは、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記ビットストリームの異なるフレームのトランスポートチャネルについてのタイプの指示に基づいて、前記フォアグラウンド指示を取得することを備える、C13に記載の方法。
[C17] 前記ビットストリームの前記フレームから、第1のフレームが、前記ビットストリームの異なるフレームを参照することなく前記フレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を取得することをさらに備える、C13に記載の方法。
[C18] 前記フォアグラウンド指示を取得することは、前記第1のフレームが独立フレームであることを示す前記独立フレーム指示に応答して、前記ビットストリームから、前記フォアグラウンド指示を取得することを備える、C17に記載の方法。
[C19] 前記第1のフレームが独立フレームでないことを示す前記独立フレーム指示に応答して、前記異なるフレームの前記トランスポートチャネルについてのタイプの指示を取得することをさらに備える、C17に記載の方法。
[C20] 前記フォアグラウンド指示を取得することは、前記異なるフレームの前記トランスポートチャネルについての前記タイプの前記指示に基づいて、前記異なるフレームの同じトランスポートチャネルが前記ベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記フォアグラウンド指示を取得することを備える、C19に記載の方法。
[C21] 前記フォアグラウンド指示を取得することは、前記フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記異なるフレームの前記トランスポートチャネルについての前記タイプの前記指示に基づいて、前記異なるフレームの同じトランスポートチャネルが前記ベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記フォアグラウンド指示を取得することを備える、C19に記載の方法。
[C22] 前記独立フレーム指示を取得することは、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記異なるフレームの同じトランスポートチャネルが前記ベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記独立フレーム指示を取得することを備える、C19に記載の方法。
[C23] 前記方法は、1つまたは複数のラウドスピーカーに結合されたデバイスによって行われ、
前記方法は、
前記ベクトルに基づいて前記HOAオーディオデータを再構成することと、
前記HOAオーディオデータに基づいて、1つまたは複数のラウドスピーカーフィードをレンダリングすることと、
前記1つまたは複数のラウドスピーカーを駆動するために前記1つまたは複数のラウドスピーカーフィードを出力することとをさらに備える、C12に記載の方法。
[C24] 前記デバイスはテレビジョンを備え、
前記1つまたは複数のラウドスピーカーは、前記テレビジョン内に統合された1つまたは複数のラウドスピーカーを備える、C23に記載の方法。
ここにおいて、前記1つまたは複数のプロセッサは、前記1つまたは複数のラウドスピーカーを駆動するために、前記1つまたは複数のラウドスピーカーフィードを出力するようにさらに構成される。
[C25] 前記デバイスは受信機を備える、C23に記載の方法。
[C26] 実行されると、1つまたは複数のプロセッサに、
フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得することと、
前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、前記ベクトルと、前記対応するフォアグラウンドオーディオ信号の両方が前記HOAオーディオデータから分解されている、を行わせる命令を記憶した非一時的コンピュータ可読記憶媒体。
[C27] 高次アンビソニック(HOA)オーディオデータを表すビットストリームを復号するためのデバイスであって、
フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得するための手段と、
前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得するための手段と、前記ベクトルと、前記対応するフォアグラウンドオーディオ信号の両方が前記HOAオーディオデータから分解されている、を備えるデバイス。
[C28] 高次アンビソニック(HOA)オーディオデータを表すビットストリームを符号化するように構成されたデバイスであって、
フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得することと、
前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、前記ベクトルと、前記対応するフォアグラウンドオーディオ信号の両方が前記HOAオーディオデータから分解されている、を行うように構成された1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサに結合され、前記ベクトルを記憶するように構成されたメモリとを備えるデバイス。
[C29] 前記1つまたは複数のプロセッサは、前記環境HOA係数のうちの1つに関して遷移が起きたことを示す指示に応答して、前記ビットストリームの前記フレームの間に遷移中である環境HOA係数の数のバックグラウンド指示を取得するようにさらに構成され、
前記1つまたは複数のプロセッサは、前記バックグラウンド指示に基づいて前記複数遷移指示を取得するように構成される、C28に記載のデバイス。
[C30] 前記1つまたは複数のプロセッサは、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、および前記ビットストリームの異なるフレームのトランスポートチャネルについてのタイプの指示に基づいて、フォアグラウンドオーディオ信号が前記ビットストリームの前記フレームの間に遷移中であるかどうかのフォアグラウンド指示を取得するようにさらに構成され、
前記1つまたは複数のプロセッサは、前記フォアグラウンド指示に基づいて前記複数遷移指示を取得するように構成される、C28に記載のデバイス。
[C31] 前記複数遷移指示は、前記フォアグラウンドオーディオ信号がフェードインされるときの前記ビットストリームの前記同じフレームの間に前記環境HOA係数がフェードインされるかどうかを示す、C28に記載のデバイス。
[C32] 前記複数遷移指示は、前記フォアグラウンドオーディオ信号がフェードアウトされるときの前記ビットストリームの前記同じフレームの間に前記環境HOA係数がフェードアウトされるかどうかを示す、C28に記載のデバイス。
[C33] 前記HOAオーディオデータまたはその表現をキャプチャするように構成されたマイクロフォンをさらに備える、C28に記載のデバイス。
[C34] 高次アンビソニック(HOA)オーディオデータを表すビットストリームを符号化する方法であって、
フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得することと、
前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、前記ベクトルと、前記対応するフォアグラウンドオーディオ信号の両方が前記HOAオーディオデータから分解されている、を備える方法。
[C35] 前記環境HOA係数のうちの1つに関して遷移が起きたことを示す指示に応答して、前記ビットストリームの前記フレームの間に遷移中である環境HOA係数の数のバックグラウンド指示を取得することと、
前記ビットストリーム中で、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、および前記ビットストリームの異なるフレームのトランスポートチャネルについてのタイプの指示に基づいて、フォアグラウンドオーディオ信号が前記ビットストリームの前記フレームの間に遷移中であるかどうかのフォアグラウンド指示を指定することとをさらに備え、
前記複数遷移指示を取得することは、前記フォアグラウンド指示および前記バックグラウンド指示に基づいて前記複数遷移指示を取得することを備える、C34に記載の方法。
[C36] 前記フォアグラウンド指示を取得することは、前記ビットストリーム中で、および前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記フォアグラウンド指示を指定することを備える、C35に記載の方法。
[C37] 前記ビットストリームの前記フレーム中で、前記フレームが、前記ビットストリームの異なるフレームを参照することなく前記フレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を指定することをさらに備える、C35に記載の方法。
[C38] 前記フォアグラウンド指示を取得することは、前記フレームが独立フレームであることを示す前記独立フレーム指示に応答して、前記ビットストリームから、前記フォアグラウンド指示を取得することを備える、C37に記載の方法。
[C39] 前記フレームが独立フレームでないことを示す前記独立フレーム指示に応答して、前記異なるフレームの前記トランスポートチャネルについてのタイプの指示を取得することをさらに備える、C37に記載の方法。
[C40] 前記フォアグラウンド指示を取得することは、前記異なるフレームの前記トランスポートチャネルについての前記タイプの前記指示に基づいて、前記異なるフレームの同じトランスポートチャネルが前記ベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記フォアグラウンド指示を取得することを備える、C37に記載の方法。
[C41] 前記フォアグラウンド指示を取得することは、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記異なるフレームの前記トランスポートチャネルについての前記タイプの前記指示に基づいて、前記異なるフレームの同じトランスポートチャネルが前記ベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記フォアグラウンド指示を取得することを備える、C40に記載の方法。
[C42] 前記独立フレーム指示を取得することは、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記異なるフレームの同じトランスポートチャネルが前記ベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記独立フレーム指示を取得することを備える、C40に記載の方法。
[C43] 前記方法は、マイクロフォンに結合されたデバイスによって行われ、
前記方法は、前記マイクロフォンで、前記HOAオーディオデータまたはその表現をキャプチャすることをさらに備える、C34に記載の方法。
[C44] 実行されると、1つまたは複数のプロセッサに、
フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得することと、
前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、前記ベクトルと、前記対応するフォアグラウンドオーディオ信号の両方が前記HOAオーディオデータから分解されている、を行わせる命令を記憶した非一時的コンピュータ可読記憶媒体。
[C45] 高次アンビソニック(HOA)オーディオデータを表すビットストリームを符号化するためのデバイスであって、
フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得するための手段と、
前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得するための手段と、前記ベクトルと、前記対応するフォアグラウンドオーディオ信号の両方が前記HOAオーディオデータから分解されている、を備えるデバイス。

Claims (51)

  1. 高次アンビソニック(HOA)オーディオデータを表すビットストリームを復号するように構成されたデバイスであって、
    フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得することと、
    前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、前記ベクトルは、球面調和領域において定義される、
    前記ベクトルに基づいて、1つまたは複数のスピーカーフィードをレンダリングすることと、
    前記1つまたは複数のスピーカーに前記1つまたは複数のスピーカーフィードを出力することと
    を行うように構成された1つまたは複数のプロセッサと、
    前記1つまたは複数のプロセッサに結合され、前記ベクトルを記憶するように構成されたメモリと
    を備えるデバイス。
  2. 前記1つまたは複数のプロセッサは、前記ビットストリームの前記フレームの間に遷移中である環境HOA係数の数のバックグラウンド指示を取得するようにさらに構成され、
    前記1つまたは複数のプロセッサは、前記バックグラウンド指示に基づいて前記複数遷移指示を取得するように構成される、
    請求項1に記載のデバイス。
  3. 前記1つまたは複数のプロセッサは、前記環境HOA係数のうちの1つに関して遷移が起きたことを示す指示に応答して、前記バックグラウンド指示を取得するように構成される、請求項2に記載のデバイス。
  4. 前記1つまたは複数のプロセッサは、前記環境HOA係数のうちのどれが前記ビットストリームの前記フレームの間に遷移中であるかを示す指示を取得するように構成される、請求項2に記載のデバイス。
  5. 前記1つまたは複数のプロセッサは、フォアグラウンドオーディオ信号が前記ビットストリームの前記フレームの間に遷移中であるかどうかのフォアグラウンド指示を取得するようにさらに構成され、
    前記1つまたは複数のプロセッサは、前記フォアグラウンド指示に基づいて前記複数遷移指示を取得するように構成される、請求項1に記載のデバイス。
  6. 前記複数遷移指示は、前記フォアグラウンドオーディオ信号がフェードインされるときの前記ビットストリームの前記同じフレームの間に前記環境HOA係数がフェードインされるかどうかを示す、請求項1に記載のデバイス。
  7. 前記複数遷移指示は、前記フォアグラウンドオーディオ信号がフェードアウトされるときの前記ビットストリームの前記同じフレームの間に前記環境HOA係数がフェードアウトされるかどうかを示す、請求項1に記載のデバイス。
  8. 前記デバイスはテレビジョンを備え、前記テレビジョンは、1つまたは複数の統合されたスピーカーとして前記1つまたは複数のスピーカーを含む、請求項1に記載のデバイス。
  9. 前記デバイスは受信機を備え、前記受信機は、前記1つまたは複数のスピーカーに結合される、請求項1に記載のデバイス。
  10. 高次アンビソニック(HOA)オーディオデータを表すビットストリームを復号する方法であって、
    1つまたは複数のプロセッサによって、フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得することと、
    前記1つまたは複数のプロセッサによって、前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、両方の前記ベクトルは、球面調和領域において定義される、
    1つまたは複数のプロセッサによっておよび前記ベクトルに基づいて、1つまたは複数のスピーカーフィードをレンダリングすることと、
    1つまたは複数のプロセッサによって、前記1つまたは複数のスピーカーに前記1つまたは複数のスピーカーフィードを出力することと
    を備える方法。
  11. 前記ビットストリームの前記フレームの間に遷移中である環境HOA係数の数のバックグラウンド指示を取得することと、
    フォアグラウンドオーディオ信号が前記ビットストリームの前記フレームの間に遷移中であるかどうかのフォアグラウンド指示を取得することと
    をさらに備え、
    前記複数遷移指示を取得することは、前記フォアグラウンド指示および前記バックグラウンド指示に基づいて前記複数遷移指示を取得することを備える、請求項10に記載の方法。
  12. 前記バックグラウンド指示を取得することは、前記環境HOA係数のうちの1つに関して遷移が起きたことを示す指示に応答して、前記バックグラウンド指示を取得することを備える、請求項11に記載の方法。
  13. 前記環境HOA係数のうちのどれが前記ビットストリームの前記フレームの間に遷移中であるかを示す指示を取得することをさらに備える、請求項11に記載の方法。
  14. 前記フォアグラウンド指示を取得することは、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記ビットストリームの異なるフレームのトランスポートチャネルについてのタイプの指示に基づいて、前記フォアグラウンド指示を取得することを備える、請求項11に記載の方法。
  15. 前記ビットストリームの前記フレームから、第1のフレームが、前記ビットストリームの異なるフレームを参照することなく前記フレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を取得することをさらに備える、請求項11に記載の方法。
  16. 前記フォアグラウンド指示を取得することは、前記第1のフレームが独立フレームであることを示す前記独立フレーム指示に応答して、前記ビットストリームから、前記フォアグラウンド指示を取得することを備える、請求項15に記載の方法。
  17. 前記第1のフレームが独立フレームでないことを示す前記独立フレーム指示に応答して、前記異なるフレームのトランスポートチャネルについてのタイプの指示を取得することをさらに備える、請求項15に記載の方法。
  18. 前記フォアグラウンド指示を取得することは、前記異なるフレームの前記トランスポートチャネルについての前記タイプの前記指示に基づいて、前記異なるフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記フォアグラウンド指示を取得することを備える、請求項17に記載の方法。
  19. 前記フォアグラウンド指示を取得することは、前記フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記異なるフレームの前記トランスポートチャネルについての前記タイプの前記指示に基づいて、前記異なるフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記フォアグラウンド指示を取得することを備える、請求項17に記載の方法。
  20. 前記独立フレーム指示を取得することは、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記異なるフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記独立フレーム指示を取得することを備える、請求項17に記載の方法。
  21. 前記方法は、前記1つまたは複数のスピーカーに結合されたデバイスによって行われる、請求項10に記載の方法。
  22. 前記デバイスはテレビジョンを備え、
    前記1つまたは複数のスピーカーは、前記テレビジョン内に統合された1つまたは複数のスピーカーを備える、請求項21に記載の方法。
  23. 前記デバイスは受信機を備える、請求項21に記載の方法。
  24. 実行されると、1つまたは複数のプロセッサに、
    フォアグラウンドオーディオ信号が遷移中であるときのビットストリームの同じフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得することと、
    前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、前記ベクトルは、球面調和領域において定義される、
    前記ベクトルに基づいて、1つまたは複数のスピーカーフィードをレンダリングすることと、
    前記1つまたは複数のスピーカーに前記1つまたは複数のスピーカーフィードを出力することと
    を行わせる命令を記憶した非一時的コンピュータ可読記憶媒体。
  25. 高次アンビソニック(HOA)オーディオデータを表すビットストリームを復号するためのデバイスであって、
    フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得するための手段と、
    前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得するための手段と、前記ベクトルは、球面調和領域において定義される、
    前記ベクトルに基づいて、1つまたは複数のラウドスピーカーフィードをレンダリングするための手段と、
    1つまたは複数のラウドスピーカーに前記1つまたは複数のスピーカーフィードを出力するための手段と
    を備えるデバイス。
  26. 高次アンビソニック(HOA)オーディオデータを表すビットストリームを符号化するように構成されたデバイスであって、
    マイクロフォンによってキャプチャされたオーディオ信号に基づいて、前記HOAオーディオデータを取得することと、
    フォアグラウンドオーディオ信号と、前記フォアグラウンドオーディオ信号の空間成分を示すベクトルとを取得するために、前記HOAオーディオデータの少なくとも一部分を分解することと、前記ベクトルは、球面調和領域において定義される、
    前記フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得することと、
    前記複数遷移指示に基づいて、前記ベクトルの要素を取得することと、
    前記ビットストリームにおいて、前記ベクトルの前記取得された要素を指定することと
    を行うように構成された1つまたは複数のプロセッサと、
    前記1つまたは複数のプロセッサに結合され、前記ベクトルを記憶するように構成されたメモリと
    を備えるデバイス。
  27. 前記1つまたは複数のプロセッサは、前記環境HOA係数のうちの1つに関して遷移が起きたことを示す指示に応答して、前記ビットストリームの前記フレームの間に遷移中である環境HOA係数の数のバックグラウンド指示を取得するようにさらに構成され、
    前記1つまたは複数のプロセッサは、前記バックグラウンド指示に基づいて前記複数遷移指示を取得するように構成される、
    請求項26に記載のデバイス。
  28. 前記1つまたは複数のプロセッサは、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、および前記ビットストリームの異なるフレームのトランスポートチャネルについてのタイプの指示に基づいて、フォアグラウンドオーディオ信号が前記ビットストリームの前記フレームの間に遷移中であるかどうかのフォアグラウンド指示を取得するようにさらに構成され、
    前記1つまたは複数のプロセッサは、前記フォアグラウンド指示に基づいて前記複数遷移指示を取得するように構成される、
    請求項26に記載のデバイス。
  29. 前記複数遷移指示は、前記フォアグラウンドオーディオ信号がフェードインされるときの前記ビットストリームの前記同じフレームの間に前記環境HOA係数がフェードインされるかどうかを示す、請求項26に記載のデバイス。
  30. 前記複数遷移指示は、前記フォアグラウンドオーディオ信号がフェードアウトされるときの前記ビットストリームの前記同じフレームの間に前記環境HOA係数がフェードアウトされるかどうかを示す、請求項26に記載のデバイス。
  31. 前記オーディオ信号をキャプチャするように構成された前記マイクロフォンをさらに備える、請求項26に記載のデバイス。
  32. 高次アンビソニック(HOA)オーディオデータを表すビットストリームを符号化する方法であって、
    1つまたは複数のプロセッサによっておよびマイクロフォンによってキャプチャされたオーディオ信号に基づいて、前記HOAオーディオデータを取得することと、
    フォアグラウンドオーディオ信号と、前記フォアグラウンドオーディオ信号の空間成分を示すベクトルとを取得するために、前記1つまたは複数のプロセッサによって、前記HOAオーディオデータの少なくとも一部分を分解することと、
    前記1つまたは複数のプロセッサによって、前記フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得することと、
    前記1つまたは複数のプロセッサによって、前記複数遷移指示に基づいて、前記ベクトルの要素を取得することと、
    前記1つまたは複数のプロセッサによっておよび前記ビットストリームにおいて、前記ベクトルの前記取得された要素を指定することと
    を備える方法。
  33. 前記環境HOA係数のうちの1つに関して遷移が起きたことを示す指示に応答して、前記ビットストリームの前記フレームの間に遷移中である環境HOA係数の数のバックグラウンド指示を取得することと、
    前記ビットストリーム中で、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、および前記ビットストリームの異なるフレームのトランスポートチャネルについてのタイプの指示に基づいて、フォアグラウンドオーディオ信号が前記ビットストリームの前記フレームの間に遷移中であるかどうかのフォアグラウンド指示を指定することと
    をさらに備え、
    前記複数遷移指示を取得することは、前記フォアグラウンド指示および前記バックグラウンド指示に基づいて前記複数遷移指示を取得することを備える、
    請求項32に記載の方法。
  34. 前記フォアグラウンド指示を取得することは、前記ビットストリーム中で、および前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記フォアグラウンド指示を指定することを備える、請求項33に記載の方法。
  35. 前記ビットストリームの前記フレーム中で、前記フレームが、前記ビットストリームの異なるフレームを参照することなく前記フレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を指定することをさらに備える、請求項33に記載の方法。
  36. 前記フォアグラウンド指示を取得することは、前記フレームが独立フレームであることを示す前記独立フレーム指示に応答して、前記ビットストリームから、前記フォアグラウンド指示を取得することを備える、請求項35に記載の方法。
  37. 前記フレームが独立フレームでないことを示す前記独立フレーム指示に応答して、前記異なるフレームの前記トランスポートチャネルについてのタイプの指示を取得することをさらに備える、請求項35に記載の方法。
  38. 前記フォアグラウンド指示を取得することは、前記異なるフレームの前記トランスポートチャネルについての前記タイプの前記指示に基づいて、前記異なるフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記フォアグラウンド指示を取得することを備える、請求項35に記載の方法。
  39. 前記フォアグラウンド指示を取得することは、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記異なるフレームの前記トランスポートチャネルについての前記タイプの前記指示に基づいて、前記異なるフレームの同じトランスポートチャネルが前記ベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記フォアグラウンド指示を取得することを備える、請求項38に記載の方法。
  40. 前記独立フレーム指示を取得することは、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記異なるフレームの同じトランスポートチャネルが前記ベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記独立フレーム指示を取得することを備える、請求項38に記載の方法。
  41. 前記1つまたは複数のプロセッサは、マイクロフォンに結合され、
    前記方法は、前記マイクロフォンで、前記オーディオ信号をキャプチャすることをさらに備える、請求項32に記載の方法。
  42. 実行されると、1つまたは複数のプロセッサに、
    マイクロフォンによってキャプチャされたオーディオ信号に基づいて、高次アンビソニック(HOA)オーディオデータを取得することと、
    フォアグラウンドオーディオ信号と、前記フォアグラウンドオーディオ信号の空間成分を示すベクトルとを取得するために、前記HOAオーディオデータの少なくとも一部分を分解することと、
    フォアグラウンドオーディオ信号が遷移中であるときのビットストリームの同じフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得することと、
    前記複数遷移指示に基づいて、前記ベクトルの要素を取得することと、
    前記ビットストリームにおいて、前記ベクトルの前記取得された要素を指定することと
    を行わせる命令を記憶した非一時的コンピュータ可読記憶媒体。
  43. 高次アンビソニック(HOA)オーディオデータを表すビットストリームを符号化するためのデバイスであって、
    マイクロフォンによってキャプチャされたオーディオ信号に基づいて、前記HOAオーディオデータを取得するための手段と、
    フォアグラウンドオーディオ信号と、前記フォアグラウンドオーディオ信号の空間成分を示すベクトルとを取得するために、前記HOAオーディオデータの少なくとも一部分を分解するための手段と、
    前記フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境HOA係数が遷移中であるかどうかの複数遷移指示を取得するための手段と、
    前記複数遷移指示に基づいて、前記ベクトルの要素を取得するための手段と、
    前記ビットストリームにおいて、前記ベクトルの前記取得された要素を指定するための手段と
    を備えるデバイス。
  44. 前記1つまたは複数のプロセッサは、前記ベクトルに基づいて、前記HOAオーディオデータを再構成するように構成され、
    前記1つまたは複数のプロセッサは、前記再構成されたHOAオーディオデータに基づいて、前記1つまたは複数のスピーカーフィードをレンダリングするように構成される、
    請求項1に記載のデバイス。
  45. 前記1つまたは複数のプロセッサは、前記ベクトルに基づいて、1つまたは複数のバイノーラルオーディオヘッドフォンフィードをレンダリングするように構成され、
    前記1つまたは複数のスピーカーは、1つまたは複数のヘッドフォンスピーカーを備える、
    請求項1に記載のデバイス。
  46. 前記デバイスは、ヘッドフォンを備え、前記ヘッドフォンは、1つまたは複数の統合されたヘッドフォンスピーカーとして前記1つまたは複数のヘッドフォンスピーカーを含む、請求項45に記載のデバイス。
  47. 前記デバイスは、自動車を備え、前記自動車は、1つまたは複数の統合されたスピーカーとして前記1つまたは複数のスピーカーを含む、請求項1に記載のデバイス。
  48. 前記1つまたは複数のプロセッサは、前記ベクトルと、前記対応するフォアグラウンドオーディオ信号とに基づいて、前記1つまたは複数のスピーカーフィードをレンダリングするように構成される、請求項1に記載のデバイス。
  49. 前記方法は、前記ベクトルに基づいて、前記HOAオーディオデータを再構成することをさらに備え、
    前記1つまたは複数のスピーカーフィードをレンダリングすることは、前記再構成されたHOAオーディオデータに基づいて、前記1つまたは複数のスピーカーフィードをレンダリングすることを備える、
    請求項10に記載の方法。
  50. 前記1つまたは複数のスピーカーフィードをレンダリングすることは、前記ベクトルに基づいて、1つまたは複数のバイノーラルオーディオヘッドフォンフィードをレンダリングすることを備え、
    前記1つまたは複数のスピーカーは、1つまたは複数のヘッドフォンスピーカーを備える、
    請求項10に記載の方法。
  51. 前記1つまたは複数のスピーカーフィードをレンダリングすることは、前記ベクトルと、前記対応するフォアグラウンドオーディオ信号とに基づいて、前記1つまたは複数のスピーカーフィードをレンダリングすることを備える、請求項10に記載の方法。
JP2018519046A 2015-10-14 2016-10-12 複数の遷移の間の高次アンビソニック係数のコーディング Active JP6605725B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562241665P 2015-10-14 2015-10-14
US62/241,665 2015-10-14
US15/290,229 2016-10-11
US15/290,229 US9959880B2 (en) 2015-10-14 2016-10-11 Coding higher-order ambisonic coefficients during multiple transitions
PCT/US2016/056625 WO2017066312A1 (en) 2015-10-14 2016-10-12 Coding higher-order ambisonic coefficients during multiple transitions

Publications (3)

Publication Number Publication Date
JP2018534617A JP2018534617A (ja) 2018-11-22
JP2018534617A5 JP2018534617A5 (ja) 2019-04-25
JP6605725B2 true JP6605725B2 (ja) 2019-11-13

Family

ID=57178550

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018519046A Active JP6605725B2 (ja) 2015-10-14 2016-10-12 複数の遷移の間の高次アンビソニック係数のコーディング

Country Status (8)

Country Link
US (1) US9959880B2 (ja)
EP (1) EP3363213B1 (ja)
JP (1) JP6605725B2 (ja)
KR (1) KR102077412B1 (ja)
CN (1) CN108141690B (ja)
BR (1) BR112018007574A2 (ja)
CA (1) CA2999289C (ja)
WO (1) WO2017066312A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9959880B2 (en) * 2015-10-14 2018-05-01 Qualcomm Incorporated Coding higher-order ambisonic coefficients during multiple transitions
WO2019197404A1 (en) 2018-04-11 2019-10-17 Dolby International Ab Methods, apparatus and systems for 6dof audio rendering and data representations and bitstream structures for 6dof audio rendering
GB2582748A (en) * 2019-03-27 2020-10-07 Nokia Technologies Oy Sound field related rendering
US20200402522A1 (en) * 2019-06-24 2020-12-24 Qualcomm Incorporated Quantizing spatial components based on bit allocations determined for psychoacoustic audio coding

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2374123B1 (fr) 2008-12-15 2019-04-10 Orange Codage perfectionne de signaux audionumeriques multicanaux
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US9082198B2 (en) * 2012-10-19 2015-07-14 Qualcomm Technologies, Inc. Method for creating automatic cinemagraphs on an imagine device
US9502044B2 (en) 2013-05-29 2016-11-22 Qualcomm Incorporated Compression of decomposed representations of a sound field
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US9959880B2 (en) * 2015-10-14 2018-05-01 Qualcomm Incorporated Coding higher-order ambisonic coefficients during multiple transitions

Also Published As

Publication number Publication date
CA2999289A1 (en) 2017-04-20
BR112018007574A2 (pt) 2018-10-23
WO2017066312A1 (en) 2017-04-20
CA2999289C (en) 2021-10-19
KR20180068974A (ko) 2018-06-22
CN108141690B (zh) 2021-03-02
EP3363213A1 (en) 2018-08-22
KR102077412B1 (ko) 2020-02-13
CN108141690A (zh) 2018-06-08
US9959880B2 (en) 2018-05-01
EP3363213B1 (en) 2021-09-29
US20170110140A1 (en) 2017-04-20
JP2018534617A (ja) 2018-11-22

Similar Documents

Publication Publication Date Title
JP6542297B2 (ja) フレームパラメータ再使用可能性を示すこと
JP6449455B2 (ja) 高次アンビソニック(hoa)バックグラウンドチャネル間の相関の低減
JP6612337B2 (ja) 高次アンビソニックオーディオデータのスケーラブルコーディングのためのレイヤのシグナリング
CN106575506B (zh) 用于执行高阶立体混响音频数据的中间压缩的装置和方法
KR102329373B1 (ko) 고차 앰비소닉 오디오 신호들로부터 분해된 코딩 벡터들에 대한 코드북들 선택
KR102077375B1 (ko) Hoa 콘텐츠의 스크린 관련된 적응
JP6293930B2 (ja) 高次アンビソニック係数においてスカラー量子化とベクトル量子化との間で決定すること
JP2017516149A (ja) 高次アンビソニックスオーディオ信号から分解されたベクトルをコード化すること
JP2017513053A (ja) 音場の記述へのオーディオチャンネルの挿入
JP2017534910A (ja) 高次アンビソニックオーディオデータのスケーラブルコーディングのためのチャネルのシグナリング
JP6297721B2 (ja) 高次アンビソニックオーディオレンダラのための希薄情報を取得すること
JP2017519417A (ja) 高次アンビソニック信号の間のクロスフェージング
JP6605725B2 (ja) 複数の遷移の間の高次アンビソニック係数のコーディング
JP2017520785A (ja) 高次アンビソニック係数の閉ループ量子化
JP6423009B2 (ja) 高次アンビソニックオーディオレンダラのためのシンメトリ情報を取得すること

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190311

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190311

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190311

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190416

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191016

R150 Certificate of patent or registration of utility model

Ref document number: 6605725

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250