JP2016524726A - 球面調和係数に対して空間マスキングを実行すること - Google Patents

球面調和係数に対して空間マスキングを実行すること Download PDF

Info

Publication number
JP2016524726A
JP2016524726A JP2016516797A JP2016516797A JP2016524726A JP 2016524726 A JP2016524726 A JP 2016524726A JP 2016516797 A JP2016516797 A JP 2016516797A JP 2016516797 A JP2016516797 A JP 2016516797A JP 2016524726 A JP2016524726 A JP 2016524726A
Authority
JP
Japan
Prior art keywords
audio data
channel audio
spatial
generate
spherical harmonic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2016516797A
Other languages
English (en)
Inventor
セン、ディパンジャン
モッレル、マーティン・ジェームス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2016524726A publication Critical patent/JP2016524726A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

概して、球面調和係数に対して空間マスキングを実行する技法について説明する。一例として、プロセッサを備えるオーディオ符号化デバイスは、本技法の様々な態様を実行し得る。プロセッサは、空間マスキングしきい値を識別するために、3次元音場を記述する球面調和係数に基づいて空間解析を実行するように構成され得る。プロセッサは、複数の球面調和係数からマルチチャンネルオーディオデータをレンダリングし、ビットストリームを生成するために、識別された空間マスキングしきい値に基づいてマルチチャンネルオーディオデータを圧縮するようにさらに構成され得る。【選択図】図13

Description

[0001]本出願は、2013年5月28日に出願された米国仮出願第61/828,132号の利益を主張する。
[0002] 本技法はオーディオデータに関し、より詳細には、オーディオデータのコーディングに関する。
[0003] 高次アンビソニックス(HOA:higher order ambisonics)信号(しばしば複数の球面調和係数(SHC:spherical harmonic coefficients)または他の階層要素hierarchical elementsによって表される)は、音場の3次元表現(three-dimensional representation)である。このHOA表現またはSHC表現は、このSHC信号からレンダリングされるマルチチャンネルオーディオ信号を再生するために使用されるローカルスピーカー幾何学的配置(local speaker geometry)に依存しない方法で、この音場を表し得る。このSHC信号はまた、このSHC信号が、5.1オーディオチャンネルフォーマットまたは7.1オーディオチャンネルフォーマットなどの、よく知られており広く採用されているマルチチャンネルフォーマットにレンダリングされ得るので、後方互換性を可能にし得る。従って、SHC表現は、後方互換性にも適応する、音場のより優れた表現を可能にし得る。
[0004] 概して、(高次アンビソニック(HOA:higher-order ambisonic)係数とも呼ばれ得る)球面調和係数に対して空間マスキングを実行するための技法について説明する。空間マスキングは、比較的大きい音がより静かな音に空間的に近接したロケーションで生じると、ヒトの聴覚系がより静かな音を検出できないことを活用し得る。本開示で説明する技法は、比較的大きい(またはエネルギーが多い)音によってマスクされ得るこれらのより静かな(またはエネルギーが少ない)音を識別するために、オーディオコーディングデバイスが球面調和係数によって表される音場を評価することを可能にし得る。次いで、オーディオコーディングデバイスは、より静かな音をコーディングするためにより多くのビットを割り当てるとともに、より大きい音をコーディングするためにより多くのビットを割り当て(またはいくつかのビットを維持し)得る。この点において、本開示で説明する技法は球面調和係数のコーディングを容易にし得る。
[0005] 一態様では、方法が、定義されたスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第1のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号することと、複数の球面調和係数を生成するために、生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行することと、複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第2のマルチチャンネルオーディオデータをレンダリングすることとを備える。
[0006] 別の態様では、オーディオ復号デバイスが、第1のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第1のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号し、複数の球面調和係数を生成するために、生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行し、複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第2のマルチチャンネルオーディオデータをレンダリングするように構成された1つまたは複数のプロセッサを備える。
[0007] 別の態様では、オーディオ復号デバイスが、第1のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第1のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号するための手段と、複数の球面調和係数を生成するために、生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行するための手段と、複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第2のマルチチャンネルオーディオデータをレンダリングするための手段とを備える。
[0008] 別の態様では、非一時的コンピュータ可読記憶媒体が、実行されると、オーディオ復号デバイスの1つまたは複数のプロセッサに、第1のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第1のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号させ、複数の球面調和係数を生成するために、生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行させ、複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第2のマルチチャンネルオーディオデータをレンダリングさせる命令を記憶している。
[0009] 別の態様では、オーディオデータを圧縮する方法が、空間マスキングしきい値を識別するために、3次元音場を記述する複数の球面調和係数に基づいて空間解析(spatial analysis)を実行することと、ビットストリームを生成するために、識別された空間マスキングしきい値に基づいてオーディオデータを圧縮することとを備える。
[0010] 別の態様では、デバイスが、空間マスキングしきい値を識別するために、3次元音場を記述する複数の球面調和係数に基づいて空間解析を実行し、ビットストリームを生成するために、識別された空間マスキングしきい値に基づいてオーディオデータを圧縮するように構成された1つまたは複数のプロセッサを備える。
[0011] 別の態様では、デバイスが、空間マスキングしきい値を識別するために、3次元音場を記述する複数の球面調和係数に基づいて空間解析を実行するための手段と、ビットストリームを生成するために、識別された空間マスキングしきい値に基づいてオーディオデータを圧縮するための手段とを備える。
[0012] 別の態様では、非一時的コンピュータ可読記憶媒体が、実行されると、1つまたは複数のプロセッサに、空間マスキングしきい値を識別するために、3次元音場を記述する複数の球面調和係数に基づいて空間解析を実行させ、ビットストリームを生成するために、識別された空間マスキングしきい値に基づいてオーディオデータを圧縮させる命令を記憶している。
[0013] 別の態様では、オーディオを圧縮する方法が、マルチチャンネルオーディオデータを生成するために、3次元でオーディオの音場を記述する複数の球面調和係数をレンダリングすることと、空間マスキングしきい値を識別するために、マルチチャンネルオーディオデータに対して空間解析を実行することと、ビットストリームを生成するために、識別された空間マスキングしきい値に基づいてマルチチャンネルオーディオデータを圧縮することとを備える。
[0014] 別の態様では、デバイスが、マルチチャンネルオーディオデータを生成するために、3次元でオーディオの音場を記述する複数の球面調和係数をレンダリングし、空間マスキングしきい値を識別するために、マルチチャンネルオーディオデータに対して空間解析を実行し、ビットストリームを生成するために、識別された空間マスキングしきい値に基づいてマルチチャンネルオーディオデータを圧縮するように構成された1つまたは複数のプロセッサを備える。
[0015] 別の態様では、デバイスが、マルチチャンネルオーディオデータを生成するために、3次元でオーディオの音場を記述する複数の球面調和係数をレンダリングするための手段と、空間マスキングしきい値を識別するために、マルチチャンネルオーディオデータに対して空間解析を実行するための手段と、ビットストリームを生成するために、識別された空間マスキングしきい値に基づいてマルチチャンネルオーディオデータを圧縮するための手段とを備える。
[0016] 別の態様では、非一時的コンピュータ可読記憶媒体が、実行されると、1つまたは複数のプロセッサに、マルチチャンネルオーディオデータを生成するために、3次元でオーディオの音場を記述する複数の球面調和係数をレンダリングさせ、空間マスキングしきい値を識別するために、マルチチャンネルオーディオデータに対して空間解析を実行させ、ビットストリームを生成するために、識別された空間マスキングしきい値に基づいてマルチチャンネルオーディオデータを圧縮させる命令を記憶している。
[0017] 別の態様では、オーディオデータを圧縮する方法が、圧縮されたオーディオデータを表すビットストリームのターゲットビットレートを決定することと、空間マスキングしきい値を識別するために、3次元でオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行することと、圧縮されたオーディオデータを表すビットストリームを生成するために、ターゲットビットレートに基づいて、i)パラメトリックチャンネル間オーディオ符号化(parametric inter-channel audio encoding)および空間マスキングしきい値を使用した空間マスキング、またはii)パラメトリックチャンネル間オーディオ符号化を実行することなしに、空間マスキングしきい値を使用した空間マスキングのいずれかを実行することとを備える。
[0018] 別の態様では、デバイスが、圧縮されたオーディオデータを表すビットストリームのターゲットビットレートを決定し、空間マスキングしきい値を識別するために、3次元でオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行し、圧縮されたオーディオデータを表すビットストリームを生成するために、ターゲットビットレートに基づいて、i)パラメトリックチャンネル間オーディオ符号化および空間マスキングしきい値を使用した空間マスキング、またはii)パラメトリックチャンネル間オーディオ符号化を実行することなしに、空間マスキングしきい値を使用した空間マスキングのいずれかを実行するように構成された1つまたは複数のプロセッサを備える。
[0019] 別の態様では、デバイスが、圧縮されたオーディオデータを表すビットストリームのターゲットビットレートを決定するための手段と、空間マスキングしきい値を識別するために、3次元でオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行するための手段と、圧縮されたオーディオデータを表すビットストリームを生成するために、ターゲットビットレートに基づいて、i)パラメトリックチャンネル間オーディオ符号化および空間マスキングしきい値を使用した空間マスキング、またはii)パラメトリックチャンネル間オーディオ符号化を実行することなしに、空間マスキングしきい値を使用した空間マスキングのいずれかを実行するための手段とを備える。
[0020] 別の態様では、非一時的コンピュータ可読記憶媒体が、実行されると、1つまたは複数のプロセッサに、圧縮されたオーディオデータを表すビットストリームのターゲットビットレートを決定させ、空間マスキングしきい値を識別するために、3次元でオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行させ、圧縮されたオーディオデータを表すビットストリームを生成するために、ターゲットビットレートに基づいて、i)パラメトリックチャンネル間オーディオ符号化および空間マスキングしきい値を使用した空間マスキング、またはii)パラメトリックチャンネル間オーディオ符号化を実行することなしに、空間マスキングしきい値を使用した空間マスキングのいずれかを実行させる命令を記憶している。
[0021] 別の態様では、マルチチャンネルオーディオデータを圧縮する方法であって、本方法が、空間マスキングしきい値を識別するために、3次元でマルチチャンネルオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行することと、マルチチャンネルオーディオデータを生成するために、球面調和係数をレンダリングすることと、空間マスキングしきい値を使用して、マルチチャンネルオーディオデータの1つまたは複数のベースチャンネルに対して空間マスキングを実行することと、ビットストリームを生成するために、マルチチャンネルオーディオデータの空間的にマスクされた1つまたは複数のベースチャンネルを含め、マルチチャンネルオーディオデータに対してパラメトリックチャンネル間オーディオ符号化を実行することとを備える。
[0022] 別の態様では、デバイスが、空間マスキングしきい値を識別するために、3次元でマルチチャンネルオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行し、マルチチャンネルオーディオデータを生成するために、球面調和係数をレンダリングし、空間マスキングしきい値を使用して、マルチチャンネルオーディオデータの1つまたは複数のベースチャンネルに対して空間マスキングを実行し、ビットストリームを生成するために、マルチチャンネルオーディオデータの空間的にマスクされた1つまたは複数のベースチャンネルを含め、マルチチャンネルオーディオデータに対してパラメトリックチャンネル間オーディオ符号化を実行するための1つまたは複数のプロセッサを備える。
[0023] 別の態様では、デバイスが、空間マスキングしきい値を識別するために、3次元でマルチチャンネルオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行するための手段と、マルチチャンネルオーディオデータを生成するために、球面調和係数をレンダリングするための手段と、空間マスキングしきい値を使用して、マルチチャンネルオーディオデータの1つまたは複数のベースチャンネルに対して空間マスキングを実行するための手段と、ビットストリームを生成するために、マルチチャンネルオーディオデータの空間的にマスクされた1つまたは複数のベースチャンネルを含め、マルチチャンネルオーディオデータに対してパラメトリックチャンネル間オーディオ符号化を実行するための手段とを備える。
[0024] 別の態様では、非一時的コンピュータ可読記憶媒体が、実行されると、1つまたは複数のプロセッサに、空間マスキングしきい値を識別するために、3次元でマルチチャンネルオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行させ、マルチチャンネルオーディオデータを生成するために、球面調和係数をレンダリングさせ、空間マスキングしきい値を使用して、マルチチャンネルオーディオデータの1つまたは複数のベースチャンネルに対して空間マスキングを実行させ、ビットストリームを生成するために、マルチチャンネルオーディオデータの空間的にマスクされた1つまたは複数のベースチャンネルを含め、マルチチャンネルオーディオデータに対してパラメトリックチャンネル間オーディオ符号化を実行させる命令を記憶している。
[0025] 別の態様では、オーディオデータを圧縮する方法であって、本方法が、空間マスキングしきい値を識別するために、3次元でオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行することと、空間マスキングしきい値を使用して、複数の球面調和係数に対して空間マスキングを実行することと、複数の空間的にマスクされた球面調和係数を含むビットストリームを生成することとを備える。
[0026] 別の態様では、デバイスが、空間マスキングしきい値を識別するために、3次元でオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行し、空間マスキングしきい値を使用して、複数の球面調和係数に対して空間マスキングを実行し、複数の空間的にマスクされた球面調和係数を含むビットストリームを生成するための1つまたは複数のプロセッサを備える。
[0027] 別の態様では、デバイスが、空間マスキングしきい値を識別するために、3次元でオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行するための手段と、空間マスキングしきい値を使用して、複数の球面調和係数に対して空間マスキングを実行するための手段と、複数の空間的にマスクされた球面調和係数を含むビットストリームを生成するための手段とを備える。
[0028] 別の態様では、非一時的コンピュータ可読記憶媒体が、実行されると、1つまたは複数のプロセッサに、空間マスキングしきい値を識別するために、3次元でオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行させ、空間マスキングしきい値を使用して、複数の球面調和係数に対して空間マスキングを実行させ、複数の空間的にマスクされた球面調和係数を含むビットストリームを生成させる命令を記憶している。
[0029] 本技法の1つまたは複数の態様の詳細は、添付の図面および以下の説明に記載される。これらの技法の他の特徴、目的、および利点は、説明および図面から、並びに特許請求の範囲から、明らかになろう。
様々な次数および副次数の球面調和基底関数を示す図である。 様々な次数および副次数の球面調和基底関数を示す図である。 様々な次数および副次数の球面調和基底関数を示す図である。 2次元または3次元音場を記述する球面調和係数をコーディングするために本開示で説明する技法の様々な態様を実行し得る、例示的なオーディオ符号化デバイスを示すブロック図である。 2次元または3次元音場を記述する球面調和係数をコーディングするために本開示で説明する技法の様々な態様を実行し得る、例示的なオーディオ符号化デバイスを示すブロック図である。 2次元または3次元音場を記述する球面調和係数を復号するために本開示で説明する技法の様々な態様を実行し得る、例示的なオーディオ復号デバイスを示すブロック図である。 図4Aの例に示すオーディオ符号化ユニットの例示的な変形形態をより詳細に示すブロック図である。 図4Aの例に示すオーディオ符号化ユニットの例示的な変形形態をより詳細に示すブロック図である。 図4Aの例に示すオーディオ符号化ユニットの例示的な変形形態をより詳細に示すブロック図である。 図2のオーディオ復号ユニットの一例をより詳細に示すブロック図である。 図5の例に示すオーディオレンダリングユニットをより詳細に示すブロック図である。 本開示で説明する技法の様々な態様を実行する際のオーディオ符号化デバイスの例示的な動作を示すフローチャートである。 本開示で説明する技法の様々な態様を実行する際のオーディオ復号デバイスの例示的な動作を示すフローチャートである。 本開示で説明する空間マスキング技法の様々な態様を示す図である。 本開示で説明する技法の様々な態様に従って、ビットストリームを生成する異なる形態が実行され得る、図4Aの例に示すオーディオ符号化デバイスの変形形態を示すブロック図である。 本開示で説明する技法の様々な態様を実行し得る例示的なオーディオ符号化デバイスを示すブロック図である。
[0041] サラウンド音の発展は、現今では娯楽のための多くの出力フォーマットを利用可能にしている。そのようなサラウンド音フォーマットの例は、(以下の6つのチャンネル、すなわち、フロントレフト(FL)と、フロントライト(FR)と、センターまたはフロントセンターと、バックレフトまたはサラウンドレフトと、バックライトまたはサラウンドライトと、低周波効果(LFE)とを含む)一般的な5.1フォーマット、発展中の7.1フォーマット、および(たとえば、超高精細テレビジョン規格で使用するための)来るべき22.2フォーマットを含む。さらなる例は、球面調和アレイのためのフォーマットを含む。
[0042] 将来のMPEGエンコーダへの入力は、オプションとして3つの考えられるフォーマット、すなわち、(i)事前指定された位置にあるラウドスピーカーを通じて再生されるように意図されている、従来のチャンネルベースのオーディオ、(ii)(他の情報の中でも)ロケーション座標を含む関連付けられたメタデータを有する単一オーディオオブジェクトのための離散パルスコード変調(PCM)データを含む、オブジェクトベースのオーディオ、および(iii)球面調和基底関数(spherical harmonic basis functions)の係数(「球面調和係数(spherical harmonic coefficients)」またはSHCとも呼ばれる)を使用して音場を表すことを含む、シーンベースのオーディオのうちの1つである。
[0043] 市場には様々な「サラウンド音」フォーマットがある。これらのフォーマットは、たとえば、5.1ホームシアターシステム(リビングルームへの進出を行うという点でステレオ以上に最も成功した)からNHK(Nippon Hoso Kyokaiすなわち日本放送協会)によって開発された22.2システムに及ぶ。コンテンツ作成者(たとえば、ハリウッドスタジオ)は、一度に映画のサウンドトラックを作成することを望み、スピーカー構成ごとにサウンドトラックをリミックス(remix)することに労力を費やすことを望まない。最近では、標準化委員会が、標準化されたビットストリームへの符号化と、スピーカー幾何学的配置およびレンダラのロケーションにおける音響条件に適合可能でありそれらに依存しない後続の復号とを提供するための方法を考えている。
[0044] コンテンツ作成者にそのような柔軟性を提供するために、階層的な要素のセット(hierarchical set of elements)が音場を表すために使用され得る。階層的な要素のセットは、より低次の要素の基本セット(basic set of lower-ordered elements)がモデル化された音場の完全な表現を提供するように要素が順序付けられる、要素のセットを指し得る。このセットはより高次の要素(higher-order elements)を含むように拡張されるので、表現はより詳細なものになる。
[0045] 階層的な要素のセットの一例は、SHCのセットである。次の式は、SHCを使用した音場の記述または表現を示す。
Figure 2016524726
[0046] この式は、音場の任意の点{rr,θr,φr}における圧力pi
Figure 2016524726
によって一意的に表され得ることを示す。ここで、
Figure 2016524726
であり、cは、音速(約343m/s)であり、{rr,θr,φr}は、基準点(または観測点)であり、Jn(・)は、次数nの球ベッセル関数であり、
Figure 2016524726
は、次数nおよび副次数mの球面調和基底関数である。角括弧内の項は、離散フーリエ変換(DFT: discrete cosine transform)、離散コサイン変換(DCT)、またはウェーブレット変換(wavelet transform)などの、様々な時間周波数変換によって近似され得る信号の周波数領域表現(すなわち、S(ω,rr,θr,φr))であることが、認識され得る。階層的なセットの他の例は、ウェーブレット変換係数のセット、および多重分解能基底関数の係数の他のセット(other sets of coefficients of multiresolution basis functions)を含む。
[0047] 図1は、0次球面調和基底関数(第1の行)と、1次球面調和基底関数(第2の行)と、2次球面調和基底関数(第3の行)とを示す図である。次数(n)は表の行によって識別され、第1の行は0次を指し、第2の行は1次を指し、第3の行は2次を指す。副次数(m)は表の列によって識別され、これらの列は図3により詳細に示されている。0次球面調和基底関数に対応するSHCは、音場のエネルギーを指定するものと考えられ得るが、残りのより高次の球面調和基底関数に対応するSHCは、そのエネルギーの方向を指定し得る。
[0048] 図2は、0次(n=0)から4次(n=4)までの球面調和基底関数を示す図である。わかるように、各次数に対して、図示されているが説明を簡単にするために図2の例では明示的に述べられていない副次数mという拡張がある。
[0049] 図3は、0次(n=0)から4次(n=4)までの球面調和基底関数を示す別の図である。図3では、球面調和基底関数が、示される次数と副次数の両方を伴う3次元座標空間において示される。
[0050] いずれの場合も、
Figure 2016524726
は、様々なマイクロフォンアレイ構成によって物理的に取得(たとえば、記録)され得るか、または別法として、音場のチャンネルベースの記述またはオブジェクトベースの記述から導出され得る。前者は、エンコーダへのシーンベースのオーディオ入力を表す。たとえば、1+24個の(25個の、従って4次)係数を伴う4次表現が使用され得る。
これらのSHCがどのようにオブジェクトベースの記述から導出され得るかを例示するために、次の式を考える。個々のオーディオオブジェクトに対応する音場の係数
Figure 2016524726

Figure 2016524726
と表され得、ここで、iは
Figure 2016524726
であり、
Figure 2016524726
は次数nの(第2の種類の)球ハンケル関数であり、{rs,θs、φs}はオブジェクトのロケーションである。周波数の関数として(たとえば、PCMストリームに対して高速フーリエ変換を実行するなど、時間周波数解析技法を使用して)ソースエネルギーg(ω)を知ることで、各PCMオブジェクトとそのロケーションとを
Figure 2016524726
に変換できる。さらに、各オブジェクトに対する
Figure 2016524726
係数は、(上式は線形であり直交方向の分解であるので)加法的であることが示され得る。このようにして、多数のPCMオブジェクトが
Figure 2016524726
係数によって(たとえば、個々のオブジェクトに対する係数ベクトルの和として)表され得る。基本的に、これらの係数は、音場についての情報(3D座標の関数としての圧力)を含み、上式は、観測点{rr,θr,φr}の近傍における、音場全体の表現への個々のオブジェクトからの変換を表す。残りの図について、オブジェクトベースおよびSHCベースのオーディオコーディングのコンテキストにおいて以下で説明する。
[0051] 図4Aおよび図4Bは各々、2次元または3次元音場を記述する球面調和係数をコーディングするために本開示で説明する技法の様々な態様を実行し得る、例示的なオーディオ符号化デバイス10を示すブロック図である。図4Aの例では、オーディオ符号化デバイス10が概して、デスクトップコンピュータ、ラップトップコンピュータ、ワークステーション、タブレットもしくはスレートコンピュータ、専用のオーディオ記録デバイス、セルラーフォン(いわゆる「スマートフォン」を含む)、パーソナルメディアプレーヤデバイス、パーソナルゲーミングデバイス、またはオーディオデータを符号化することが可能な任意の他のタイプのデバイスなど、オーディオデータを符号化することが可能な任意のデバイスを表す。
[0052] 単一のデバイス、すなわち、図4Aの例におけるデバイス10として示されているが、デバイス10内に含まれるものとして以下で言及される様々な構成要素またはユニットは、実際には、デバイス10の外にある別個のデバイスを形成し得る。言い換えれば、単一のデバイス、すなわち、図4Aの例におけるデバイス10によって実行されるものとして本開示で説明しているが、本技法は、複数のデバイスを備えるシステムによって実装されるか、またはさもなければ実行され得、これらのデバイスの各々は各々、以下でより詳細に説明する様々な構成要素またはユニットのうちの1つまたは複数を含み得る。従って、本技法は、図4Aの例に限定されるべきではない。
[0053] 図4Aの例に示すように、オーディオ符号化デバイス10は、時間周波数解析ユニット12と、オーディオレンダリングユニット14と、オーディオ符号化ユニット16と、空間解析ユニット18とを備える。時間周波数解析ユニット12は、球面調和係数(SHC)20Aを時間領域から周波数領域に変換するためにSHC20Aの時間周波数解析を実行するように構成されたユニットを表し得る。時間周波数解析ユニット12はSHC20Bを出力し得、SHC20Bは周波数領域において表されるSHC20Aを示し得る。時間周波数解析ユニット12に関して説明しているが、本技法は、周波数領域に変換されたSHC20Bに対して実行されるのではなく、時間領域に残されたSHC20Aに対して実行され得る。
[0054] SHC20Aは、1つまたは複数の球面調和に関連付けられた係数を指し得る。これらの球面調和は、フーリエ級数の三角基底関数(trigonometric basis functions of a Fourier series)に類似していてもよい。すなわち、球面調和は、フーリエ級数の三角関数がどのようにストリングの振動の基本モードを表し得るかに類似した、マイクロフォンの周りの球体の振動の基本モードを表し得る。これらの係数は、これらの球面調和の使用を必要とする、球面座標における波動方程式を解くことによって、導出され得る。この意味で、SHC20Aは、対応する球面調和のボリューム乗数を示す係数を有する一連の球面調和として、マイクロフォンを取り囲む3D音場を表し得る。
[0055] 低次アンビソニックス(1次アンビソニックスとも呼ばれ得る)は、音情報をW、X、YおよびZで示される4つのチャンネルに符号化し得る。この符号化フォーマットは、しばしば「Bフォーマット」と呼ばれる。Wチャンネルは、全指向性マイクロフォンの出力に対応するキャプチャされた音信号の無指向性モノ構成要素を指す。X、YおよびZチャンネルは、3次元における指向性構成要素である。X、YおよびZチャンネルは典型的に、3つの8の字マイクロフォンの出力に対応し、それぞれ、1つ目は前方を向き、2つ目は左側を向き、3つ目は上方を向く。これらのBフォーマット信号は通常、音場の球面調和分解(spherical harmonic decomposition of the soundfield)に基づき、圧力(W)と、空間内のある点における3つの構成要素の圧力勾配(X、YおよびZ)とに対応する。ともに、これらの4つのBフォーマット信号(すなわち、W、X、YおよびZ)はマイクロフォンの周りの音場に近似する。形式上、これらのBフォーマット信号は多重極展開の1次打切り(first-order truncation of the multipole expansion)を表し得る。
[0056] 高次アンビソニックスは、元の1次Bフォーマットよりも精細なモーダル構成要素(finer modal components)を表す、より多くのチャンネルを使用する音場を表す形態を指す。結果として、高次アンビソニックスはかなり多くの空間情報をキャプチャし得る。「高次アンビソニックス」という用語の「高次」は、球面調和に関して球体上の関数のマルチモーダル展開のさらなる項を指す。高次アンビソニックスによって空間情報を増加させることにより、球体への圧力としてのキャプチャされた音のより良い表現が得られ得る。SHC20Aを生成するために高次アンビソニックスを使用することは、オーディオデコーダに存在するスピーカーによるキャプチャされた音のより良い再生を可能にし得る。
[0057] オーディオレンダリングユニット14は、SHC20Bを1つまたは複数のチャンネル22A〜22N(「スピーカーフィード22A〜22N」とも呼ばれ得る「チャンネル22」)にレンダリングするように構成されたユニットを表す。代替的に、SHC20AをSHC20Bに変換しないとき、オーディオレンダリングユニット14は、SHC20Aから1つまたは複数のチャンネル22A〜22Nをレンダリングするように構成されたユニットを表し得る。場合によっては、オーディオレンダリングユニット14は、SHC20Bを、高密度T設計(dense T-design)の幾何学的配置で配置された32個のスピーカーに対応する32個のチャンネル(図4の例においてチャンネル22として示す)にレンダリングし得る。オーディオレンダリングユニット14は、デコーダにおけるSHC20Bの復元を容易にするために、SHC20Bを、高密度T設計で配置された32個のスピーカーに対応する32個のチャンネルにレンダリングし得る。すなわち、SHC20Bを、この高密度T設計で配置された32個のスピーカーに対応するこれらの32個のチャンネルにレンダリングするのに関係する数式は、可逆である行列を含み、その結果、逆行列(R-1として示され得る)を乗じたこの行列(変数Rによって示され得る)は、単位行列(Iとして示され、数式全体はRR-1=Iである)に等しい。上記の数式は、オーディオデコーダにおいてSHC32Bを復元するときに損失がない(または、言い換えれば、ほとんどまたはまったく誤差がもたらされない)ことを暗に示す。
[0058] オーディオ符号化ユニット16は、チャンネル22をビットストリーム24に圧縮するために何らかの形態のオーディオ符号化を実行するように構成されたユニットを表し得る。いくつかの例では、オーディオ符号化ユニット16が、国際標準化機構(ISO:International Organization for Standardization)/国際電気標準会議(IEC:International Electrotechnical Commission)23003−1で規定されたムービングピクチャエキスパーツグループ(MPEG:Moving Picture Experts Group)サラウンドまたはMPEG−D Part 1(「空間オーディオコーディング(Spatial Audio Coding)」または「SAC」とも呼ばれ得る)またはMPEG−2規格(ISO/IEC 13818−7:1997としても知られている)のPart 7とMPEG−4規格(ISO/IEC 14496−3:1999としても知られている)のPart 3内のSubpart 4の両方で規定されたMPEGアドバンストオーディオコーディング(AAC:Advanced Audio Coding)などの既知の空間オーディオ符号化規格に準拠するオーディオエンコーダの変更バージョンを含み得る。
[0059] 空間解析ユニット18は、SHC20Aの空間解析を実行するように構成されたユニットを表し得る。空間解析ユニット18は、音場における比較的高いおよび低い圧力密度(しばしば、方位角、角度、仰角および半径(または同等のデカルト座標)のうちの1つまたは複数の関数として表される)のエリアを識別するために、この空間解析を実行し得、空間プロパティ26を識別するためにSHC20Aを解析する。これらの空間プロパティ26は、ある一定の特性を有するSHC20Aの様々な部分の方位角、角度、仰角および半径のうちの1つまたは複数を指定し得る。空間解析ユニット18は、オーディオ符号化ユニット16によるオーディオ符号化を容易にするために空間プロパティ26を識別し得る。すなわち、空間解析ユニット18は空間プロパティ26をオーディオ符号化ユニット16に提供し得、オーディオ符号化ユニット16は、SHC20Aによって表される音場の心理音響空間または位置マスキング(psychoacoustic spatial or positional masking)と他の空間特性(other spatial characteristics)とを利用するように変更され得る。
[0060] 空間マスキングは、高エネルギーの音響エネルギーが音場に存在するときにヒトの聴覚系が音場の隣接する空間部分(または3Dセグメント)をマスクする傾向を活用し得る。すなわち、音場の高エネルギー部分はヒトの聴覚系を圧倒し得るので、ヒトの聴覚系によってエネルギーの部分(しばしば、低エネルギーの隣接エリア)を検出する(または判別する)ことができない。結果として、SHC20Aによって画定された音場の隣接するエリアにおいて高エネルギー部分が検出されたときにヒトの聴覚系が音を検出する(または判別する)ことができない可能性がある場合、オーディオ符号化ユニット18は、より少ないビット数(または同等に、より高い量子化雑音)が空間のこれらのいわゆる「マスクされた」セグメントにおいて音場を表すことを可能にし得る。これは、より低い精度を有する(雑音がより高い可能性があることを意味する)それらの「マスクされた」空間領域において音場を表すことに類似している。
[0061] 動作の際、オーディオ符号化デバイス10は、音場の空間プロパティ26を識別するために、3次元音場を記述するSHC20Aに対して空間解析を実行することに対して、最初に空間解析ユニット18を呼び出すことによって、本開示で説明する技法の様々な態様を実施し得る。次いで、オーディオ符号化デバイス10は、SHC20A(上記で述べたように、時間周波数解析が実行されないとき)またはSHC20B(時間周波数解析が実行されるとき)のいずれかから(「マルチチャンネルオーディオデータ22」とも呼ばれ得る)チャンネル22をレンダリングするために、オーディオレンダリングユニット14を呼び出し得る。レンダリングこのマルチチャンネルオーディオデータ22の後またはそれと同時に、オーディオ符号化デバイス10は、識別された空間プロパティ26に基づいてマルチチャンネルオーディオデータ22を符号化して、ビットストリーム24を生成するために、オーディオ符号化ユニット16を呼び出し得る。上記で述べたように、オーディオ符号化ユニット16は、空間プロパティ26を活用するために(たとえば、上記で説明した空間マスキングを実行するために)様々な方法で変更されている、規格に準拠した形態のオーディオ符号化を実行し得る。
[0062] このようにして、本技法は、以下でより詳細に説明するように、図5の例に示すオーディオ復号デバイス30などのオーディオ復号デバイスがSHC20Aを復元し得るように、SHC20Aを効果的に符号化し得る。(時間周波数解析が実行されるかどうかに応じて)SHC20AまたはSHC20Bを、高密度T設計で配置された32個のスピーカーにレンダリングすることを選択することによって、数式は可逆であり、このことは、レンダリングのせいで正確さを失うことがほとんどまたはまったくないことを意味する。通常デコーダに存在するよりも多くのスピーカーを含む高密度スピーカー幾何学的配置を選択することによって、本技法は音場の良好な再合成を実現する。言い換えれば、高密度スピーカー幾何学的配置を想定してマルチチャンネルオーディオデータをレンダリングすることによって、マルチチャンネルオーディオデータは、音場を記述する十分な量のデータを含み、その結果、オーディオ復号デバイス30においてSHC20Aを再構成すると、オーディオ復号デバイス30は、最善ではないスピーカー幾何学的配置で構成されたデコーダ−ローカルスピーカーを使用して、十分な忠実度を有する音場を再合成し得る。「最適なスピーカー幾何学的配置」という句は、様々な普及しているサラウンド音規格によって定義されたものなど、規格によって指定されたもの、および/または、高密度T設計の幾何学的配置またはプラトン立体の幾何学的配置など、いくつかの幾何学的配置に忠実であるスピーカー幾何学的配置を指し得る。
[0063] 場合によっては、この空間マスキングは、同時マスキングなどの他のタイプのマスキングとともに実行され得る。空間マスキングによく似た同時マスキングは、ヒトの聴覚系の現象を伴い、他の音と同時に(およびしばしば少なくとも部分的に同時に)生成された音がその他の音をマスクする。典型的に、マスキング音はその他の音よりも高いボリュームで生成される。マスキング音はまた、周波数において、マスクされた音の近くで類似していてもよい。従って、単独で実行されるものとして本開示で説明しているが、空間マスキング技法は、上述の同時マスキングなどの他の形態のマスキングとともにまたはそれと同時に実行され得る。
[0064] 図4Bは、図4Aの例に示すオーディオ符号化デバイス10の変形形態を示すブロック図である。図4Bの例では、オーディオ符号化デバイス10の変形形態が、「オーディオ符号化デバイス11」として示されている。オーディオ符号化デバイス11は、オーディオ符号化デバイス11も時間周波数解析ユニット12と、オーディオレンダリングユニット14と、オーディオ符号化ユニット16と、空間解析ユニット18とを含むという点で、オーディオ符号化デバイス10に類似していてもよい。しかしながら、オーディオ符号化デバイス11の空間解析ユニット18は、SHC20A上で動作するのではなく、(空間マスキングしきい値を含み得る)空間パラメータ26を識別するためにチャンネル22を処理し得る。この点において、オーディオ符号化デバイス11の空間解析ユニット18は、空間領域ではなくチャンネル領域において空間解析を実行し得る。
[0065] このようにして、本技法は、オーディオ符号化デバイス11が、(図4Bの例においてチャンネル22として示されている)マルチチャンネルオーディオデータを生成するために、3次元でオーディオの音場を記述する複数の球面調和係数20Bをレンダリングすることを可能にし得る。次いで、オーディオ符号化デバイス11は、空間マスキングしきい値を識別するために、マルチチャンネルオーディオデータに対して空間解析を実行し、ビットストリームを生成するために、識別された空間マスキングしきい値に基づいてマルチチャンネルオーディオデータを圧縮し得る。
[0066] 場合によっては、オーディオデータを圧縮するとき、オーディオ符号化デバイス11は、空間マスキングしきい値に基づいて、マルチチャンネルオーディオデータの時間ベース表現またはマルチチャンネルオーディオデータの周波数ベース表現のいずれかについてビットストリーム中にビットを割り振り得る。
[0067] 場合によっては、オーディオデータを圧縮するとき、オーディオ符号化デバイス11は、空間マスキングしきい値と時間マスキングしきい値とに基づいて、マルチチャンネルオーディオデータの時間ベース表現またはマルチチャンネルオーディオデータの周波数ベース表現のいずれかについてビットストリーム中にビットを割り振り得る。
[0068] 場合によっては、オーディオデータを圧縮するとき、オーディオ符号化デバイス11は、ビットストリームを生成するために、マルチチャンネルオーディオデータに対してパラメトリックチャンネル間オーディオ符号化(MPEGサラウンドオーディオ符号化など)を実行し得る。
[0069] 場合によっては、オーディオデータを圧縮するとき、オーディオ符号化デバイス11は、ビットストリームを生成するために、空間マスキングしきい値に基づいてマルチチャンネルオーディオデータを表すためのビットを割り振ること得る。
[0070] 場合によっては、オーディオ符号化デバイス11は、マルチチャンネルオーディオデータを空間領域から時間領域に変換し得る。次いで、オーディオデータを圧縮するとき、オーディオ符号化デバイス11は、ビットストリームを生成するために、空間マスキングしきい値に基づいて、変換されたマルチチャンネルオーディオデータの様々な周波数ビン(various frequency bins)を表すためのビットを割り振り得る。
[0071] 図5は、3次元音場を記述する球面調和係数を復号するために本開示で説明する技法の様々な態様を実行し得る、例示的なオーディオ復号デバイス10を示すブロック図である。オーディオ復号デバイス30は概して、デスクトップコンピュータ、ラップトップコンピュータ、ワークステーション、タブレットもしくはスレートコンピュータ、専用のオーディオ記録デバイス、セルラーフォン(いわゆる「スマートフォン」を含む)、パーソナルメディアプレーヤデバイス、パーソナルゲーミングデバイス、またはオーディオデータを復号することが可能な任意の他のタイプのデバイスなど、オーディオデータを復号することが可能な任意のデバイスを表す。
[0072] 概して、オーディオ復号デバイス30は、空間解析を実行することを除いて、オーディオ符号化デバイス10によって実行されるオーディオ符号化プロセスの逆であるオーディオ復号プロセスを実行し、空間解析は典型的に、外部からの無関係のデータ(たとえば、マスクされるか、またはヒトの聴覚系によって知覚されることが不可能であるデータ)の除去を容易にするために、オーディオ符号化デバイス10によって使用される。言い換えれば、オーディオ符号化デバイス10はオーディオデータ表現の精度を低下させる可能性があり、これは、典型的なヒトの聴覚系(human auditory system)がこれらのエリア(たとえば、上述したような時間と空間の両方における「マスクされた」エリア)における精度の欠如を判別することができないことがあるためである。このオーディオデータが無関係であるとすれば、オーディオ復号デバイス30は、そのような外部からのオーディオデータを再挿入するために空間解析を実行する必要がない。
[0073] 単一のデバイス、すなわち、図5の例におけるデバイス30として示されているが、デバイス30内に含まれるものとして以下で言及される様々な構成要素またはユニットは、デバイス30の外にある別個のデバイスを形成し得る。言い換えれば、単一のデバイス、すなわち、図5の例におけるデバイス30によって実行されるものとして本開示で説明しているが、本技法は、複数のデバイスを備えるシステムによって実装されるか、またはさもなければ実行され得、これらのデバイスの各々は各々、以下でより詳細に説明する様々な構成要素またはユニットのうちの1つまたは複数を含み得る。従って、本技法は、図5の例に限定されるべきではない。
[0074] 図5の例に示すように、オーディオ復号デバイス30は、オーディオ復号ユニット32と、逆オーディオレンダリングユニット34と、逆時間周波数解析ユニット36と、オーディオレンダリングユニット38とを備える。オーディオ復号ユニット16は、ビットストリーム24を圧縮解除してチャンネル22を復元するために何らかの形態のオーディオ復号を実行するように構成されたユニットを表し得る。いくつかの例では、オーディオ復号ユニット32が、MPEG SACまたはMPEG ACCなどの既知の空間オーディオ符号化規格に準拠するオーディオデコーダの変更バージョンを含み得る。
[0075] 逆オーディオレンダリングユニット34は、SHC20Bを復元するためにオーディオ符号化デバイス10のオーディオレンダリングユニット14によって実行されるレンダリングプロセスの逆であるレンダリングプロセスを実行するように構成されたユニットを表し得る。逆オーディオレンダリングユニット34は、上記で説明した逆変換行列R-1を適用し得る。代替的に、SHC20Bを生成するためにSHC20Aが変換されなかったとき、逆オーディオレンダリングユニット34は、逆行列R-1の適用によってチャンネル22からSHC20Aをレンダリングするように構成されたユニットを表し得る。場合によっては、逆オーディオレンダリングユニット34は、上記で説明した理由で、高密度T設計で配置された32個のスピーカーに対応する32個のチャンネルからSHC20Bをレンダリングし得る。
[0076] 逆時間周波数解析ユニット36は、球面調和係数(SHC)20Bを周波数領域から時間領域に変換するためにSHC20Bの逆時間周波数解析を実行するように構成されたユニットを表し得る。逆時間周波数解析ユニット36はSHC20Aを出力し得、SHC20Aは時間領域において表されるSHC20Bを示し得る。逆時間周波数解析ユニット36に関して説明しているが、本技法は、周波数領域におけるSHC20Bに対して実行されるのではなく、時間領域におけるSHC20Aに対して実行され得る。
[0077] オーディオレンダリングユニット38は、チャンネル40A〜40N(一般に「マルチチャンネルオーディオデータ40」または「ラウドスピーカーフィード40」とも呼ばれ得る「チャンネル40」)をレンダリングするように構成されたユニットを表す。オーディオレンダリングユニット38は、(しばしば行列の形態で表される)変換をSHC20Aに適用し得る。SHC20Aは3次元で音場を記述するので、SHC20Aは、(マルチチャンネルオーディオデータ40を再生するスピーカーの幾何学的配置を指し得る)大半のデコーダ−ローカルスピーカー幾何学的配置に適応することが可能な方法でマルチチャンネルオーディオデータ40のレンダリングを容易にするオーディオフォーマットを表す。さらに、SHC20Aを、オーディオ符号化デバイス10において高密度T設計で配置された32個のスピーカーに対するチャンネルにレンダリングすることによって、本技法は、オーディオレンダリングユニット38がキャプチャされたオーディオデータをデコーダ−ローカルスピーカー幾何学的配置を使用して十分な忠実度および正確さで再生することを可能にするために、デコーダにおいて(SHC20Aの形態の)十分なオーディオ情報を提供する。マルチチャンネルオーディオデータ40のレンダリングについてのさらなる情報について、図8に関して以下に説明する。
[0078] 動作の際、オーディオ復号デバイス30は、ビットストリーム24を復号して、第1のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第1のマルチチャンネルオーディオデータ22を生成するために、オーディオ復号ユニット32を呼び出し得る。この第1のスピーカー幾何学的配置は上述の高密度T設計を備え得、一例として、スピーカーの数は32であってもよい。32個のスピーカーを含むものとして本開示で説明しているが、高密度T設計のスピーカー幾何学的配置は、いくつかの代替例を実現するために、64個または128個のスピーカーを含み得る。次いで、オーディオ復号デバイス30は、生成されたザ第1のマルチチャンネルオーディオデータ22に対して逆レンダリングプロセスを実行して、SHC20B(時間周波数変換が実行されるとき)またはSHC20A(時間周波数解析が実行されないとき)を生成するために、逆オーディオレンダリングユニット34を呼び出し得る。オーディオ復号デバイス30はまた、時間周波数解析がオーディオ符号化デバイス10によって実行されたときに、SHC20Bを周波数領域から時間領域に変換し直してSHC20Aを生成するために、逆時間周波数解析ユニット36を呼び出し得る。いずれの場合も、次いで、オーディオ復号デバイス30は、符号化−復号された(encoded-decoded)SHC20Aに基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第2のマルチチャンネルオーディオデータ40をレンダリングするために、オーディオレンダリングユニット38を呼び出し得る。
[0079] 図6A〜図6Cは各々、図4Aの例に示すオーディオ符号化ユニット16の異なる例示的な変形形態をより詳細に示すブロック図である。図4Aの例では、オーディオ符号化ユニット16が、サラウンドエンコーダ50A〜50N(「サラウンドエンコーダ50」)と、オーディオエンコーダ52A〜52N(「オーディオエンコーダ52」)とを含む。サラウンドエンコーダ50の各々は、(サラウンド音オーディオ符号化マルチチャンネルオーディオデータと呼ばれ得るマルチチャンネルオーディオデータのサラウンド音符号化バージョンを生成するようにマルチチャンネルオーディオデータを符号化するために、ある形態のオーディオサラウンド符号化を実行するように構成されたユニットを表し得る。オーディオエンコーダ52の各々は、(図4Aの例に示すビットストリーム24の一部分を指し得る)ビットストリーム24Aを生成するために、サラウンド音オーディオ符号化マルチチャンネルオーディオデータをオーディオ符号化するように構成されたユニットを表し得る。
[0080] サラウンドエンコーダ50の各々は、マルチチャンネルオーディオデータを符号化するために、上記で言及したMPEGサラウンドの変更バージョンを実行し得る。この変更バージョンは、(図1の例に示す)空間解析モジュール18によって決定された空間プロパティ26に基づいてマルチチャンネルオーディオデータ22を符号化するMPEGサラウンドのバージョンを表し得る。サラウンドエンコーダ50の各々は、空間パラメータ推定ユニット54A〜54N(「空間パラメータ推定ユニット54」)のうちの対応する1つを含み得る。オーディオエンコーダ52のうちの対応する1つは、チャンネル22の対応するサブセットの1つを詳細に符号化し得る。しかしながら、チャンネル22の対応するサブセットのこの1つを詳細に符号化する前に、それぞれの空間パラメータ推定ユニット54の各々は、チャンネル22の対応するサブセットの1つに対するチャンネル22の対応するサブセットの残りを符号化し得る。すなわち、空間パラメータ推定ユニット54の各々は、チャンネル22の対応するサブセットの1つとチャンネル22の対応するサブセットの残りとの間の差分を反映する空間パラメータを決定するか、または、場合によっては、推定し得る。これらの空間パラメータは、いくつかの例を挙げると、チャンネル間レベル、チャンネル間時間、およびチャンネル間相関を含み得る。空間パラメータ推定ユニット54は各々、(やはり、図4Aの例に示すビットストリーム24の一部分を指し得る)ビットストリーム24Bとして、これらの空間パラメータを出力し得る。
[0081] 場合によっては、空間パラメータ推定ユニット54は各々、空間解析ユニット18によって決定された空間プロパティ26に少なくとも部分的に基づいてこれらの空間パラメータを決定するように変更され得る。例示すると、空間パラメータ推定ユニット54の各々は、チャンネル間のデルタまたは差分を計算し、それによって、空間プロパティ26に基づいて(チャンネル間レベルと、チャンネル間時間と、チャンネル間相関とを含み得る)空間パラメータを決定し得る。たとえば、空間プロパティ26に基づいて、空間パラメータ推定ユニット54は、空間パラメータを指定するための正確さ(または、言い換えれば、多くのエネルギーが存在しないときにパラメータを量子化するのにどの程度荒いか)を決定し得る。
[0082] いずれの場合も、サラウンドエンコーダ50の各々は、チャンネル22の対応するサブセットの1つをオーディオエンコーダ52の対応する1つに出力し、オーディオエンコーダ52の対応する1つは、チャンネル22の対応するサブセットのこの1つをモノオーディオ信号として符号化する。すなわち、オーディオエンコーダ52の各々は、モノオーラルオーディオエンコーダ52を表す。オーディオエンコーダ52は、エントロピーエンコーダ56A〜56N(「エントロピーエンコーダ56」)のうちの対応する1つを含み得る。エントロピーエンコーダ56の各々は、チャンネル22の対応するサブセットの1つを符号化するために、ハフマンコーディングなどのある形態のロスレス統計コーディング(一般に誤称の「エントロピーコーディング」と呼ばれる)を実行し得る。場合によっては、エントロピーエンコーダ56は各々、空間プロパティ26に基づいて、このエントロピーコーディングを実行し得る。エントロピーエンコーダ56の各々は、マルチチャンネルオーディオデータの符号化バージョンを出力し得、この符号化バージョンは、ビットストリーム24を形成するために、マルチチャンネルオーディオデータの他の符号化バージョンおよび空間パラメータ24Bと多重化され得る。
[0083] 図6Bの例では、オーディオエンコーダ52の各々が別個のエントロピーエンコーダ56を含むのではなく、オーディオ符号化ユニット16が、オーディオエンコーダ52の出力の各々をエントロピー符号化する(「統計ロスレスコーディングする」とも呼ばれ得る)単一のエントロピーエンコーダ56を含む。ほとんど全ての他の方法では、図6Bの例に示すオーディオ符号化ユニット16が、図6Cの例に示すオーディオ符号化ユニット16に類似していてもよい。図6Bの例には示されていないが、オーディオ符号化ユニット16は、単一のビットストリームを形成するためにオーディオエンコーダ52の各々の出力を併合するまたはさもなければ結合する混合器または混合ユニットを含み得、このビットストリームに対して、エントロピーエンコーダ56は、このビットストリームを圧縮しビットストリーム24Aを形成するために、統計ロスレスコーディングを実行し得る。
[0084] 図6Cの例では、オーディオ符号化ユニット16が、エントロピーエンコーダ56を含まないオーディオエンコーダ52A〜52Nを含む。図6Cの例に示すオーディオ符号化ユニット16は、オーディオデータを符号化するためのいかなる形態のエントロピー符号化も含まない。代わりに、このオーディオ符号化ユニット16は、本開示で説明する空間マスキング技法を実行し得る。場合によっては、図6Cのオーディオ符号化デバイス16は、いかなる形態のエントロピー符号化も実行することなしに、(以下でより詳細に説明するように、時間的にまたは空間にのいずれかで、あるいは時間的にと空間的にの両方で)マスキングを実行するだけである。
[0085] 図7は、図5のオーディオ復号ユニット32の一例をより詳細に示すブロック図である。最初に図7の例を参照すると、オーディオ復号ユニット32の第1の変形形態は、オーディオデコーダ70A〜70N(「オーディオデコーダ70」)と、サラウンドデコーダ72A〜72N(「サラウンドデコーダ72」)とを含む。オーディオデコーダ70の各々は、図6Aの例に関して上記で説明したオーディオエンコーダ50によって実行されるプロセスの逆であるモノオーラルオーディオ復号プロセスを実行し得る。説明を簡単にするために図7の例には示されていないが、オーディオデコーダ70の各々は、エントロピー符号化ユニット16の図6A〜図6Cに関して上記で説明した変形形態に類似したエントロピーデコーダを含んでもよく、含まなくてもよい。オーディオデコーダ70の各々は、図7の例において部分24Aとして示される、ビットストリーム24のそれぞれの部分を受信し、チャンネル22の対応するサブセットの1つを出力するために部分24Aのそれぞれを復号し得る。ビットストリーム24の部分24Aおよびビットストリーム24の部分24Bは、説明を簡単にするために図7の例には示されていないデマルチプレクサを使用して逆多重化され得る。
[0086] サラウンドデコーダ72Aは、空間パラメータに基づいて、ビットストリーム部分24Bとして示されるチャンネル22の対応するサブセットの残りを再合成するように構成されたユニットを表し得る。サラウンドデコーダ72は各々、チャンネル22の対応するサブセットの復号された1つとこれらの空間パラメータとを受信する、音合成ユニット76A〜76N(「音合成ユニット76」)のうちの対応する1つを含み得る。空間パラメータに基づいて、音合成ユニット76の各々は、チャンネル22の対応するサブセットの残りを再合成し得る。このようにして、オーディオ復号ユニット32は、マルチチャンネルオーディオデータ22を生成するために、ビットストリーム24を復号し得る。
[0087] 図8は、図5の例に示すオーディオ復号ユニット32のオーディオレンダリングユニット38をより詳細に示すブロック図である。概して、図8はSHC20Aからデコーダ−ローカルスピーカー幾何学的配置と適合するマルチチャンネルオーディオデータ40への変換を示す。(やはり、デコーダにおけるスピーカー幾何学的配置を指し得る)いくつかのローカルスピーカー幾何学的配置の場合、可逆性を保証するいくつかの変換は、望ましいとは言えない音像の質を生じることがある。すなわち、音再生は、キャプチャされているオーディオと比較されたとき、必ずしも音の正しい定位を生じるとは限らないことがある。この望ましいとは言えない像の質を補正するために、本技法は、「仮想スピーカー」と呼ばれ得る概念を導入するようにさらに拡張され得る。1つまたは複数のラウドスピーカーが、上述のITU−R BS.775−1などの規格によって指定されたいくつかの角度トレランスを有する特定のまたは定義された空間領域中で再配置または配置されることを必要とするのではなく、上記のフレームワークは、ベクトルベース振幅パンニング(VBAP:vector base amplitude panning)、距離ベースの振幅パンニング、または他の形態のパンニングなど、何らかの形態のパンニングを含むように変更され得る。説明のためにVBAPに焦点を当てると、VBAPは、「仮想スピーカーvirtual speakers」として特徴付けられ得るものを効果的に導入し得る。VBAPは、概して、1つまたは複数のラウドスピーカーが、仮想スピーカーをサポートする1つまたは複数のラウドスピーカーのロケーションおよび/または角度のうちの少なくとも1つと異なるロケーションおよび角度のうちの1つまたは複数において仮想スピーカーから発生するように思われる音を効果的に出力するように、これらの1つまたは複数のラウドスピーカーへのフィードを変更し得る。
[0088] 例示すると、SHCに関してラウドスピーカーフィードを決定するための上記の式は、次のように変更され得る。
Figure 2016524726
[0089] 上記の式において、VBAP行列はM行×N列のサイズであり、ただし、Mはスピーカーの数を示し(上記の式では5に等しくなるはずであり)、Nは仮想スピーカーの数を示す。VBAP行列は、聴取者の定義されたロケーションからスピーカーの位置の各々へのベクトルと、聴取者の定義されたロケーションから仮想スピーカーの位置の各々へのベクトルとの関数として計算され得る。上記の式中のD行列はN行×(order+1)2列のサイズであり得、ただし、orderはSH関数の次数を指し得る。D行列は次の行列を表し得る。
Figure 2016524726
[0090] g行列(または、単一の列しかないとすればベクトル)は、デコーダ−ローカル幾何学的配置で配置されたスピーカーに対するスピーカーフィードの利得を表し得る。この式において、g行列はMのサイズである。A行列(または、単一の列しかないとすればベクトル)はSHC20Aを示し得、(Order+1)(Order+1)のサイズであり、これは(Order+1)2としても示され得る。
[0091] 事実上、VBAP行列は、スピーカーのロケーションと仮想スピーカーの位置とを考慮する「利得調整」と呼ばれ得るものを提供するM×N行列である。このようにしてパンニングを導入することにより、ローカルスピーカー幾何学的配置によって再生されたとき、より良質の像を生じるマルチチャンネルオーディオのより良い再生がもたらされ得る。さらに、この式にVBAPを組み込むことによって、本技法は、様々な規格において指定されたスピーカー幾何学的配置とは整合しない劣悪なスピーカー幾何学的配置を克服し得る。
[0092] 実際には、この式は、反転させられ、SHC20Aを、本開示ではやはりデコーダ−ローカル幾何学的配置と呼ばれ得るラウドスピーカーの特定の幾何学的配置または構成のためのマルチチャンネルフィード40に変換し直すために使用され得る。すなわち、この式は、g行列について解くために反転させられ得る。反転させられた式は次のようになり得る。
Figure 2016524726
[0093] g行列は、この例において、5.1スピーカー構成における5つのラウドスピーカーの各々についてのスピーカー利得を表し得る。この構成において使用される仮想スピーカーロケーションは、5.1マルチチャンネルフォーマット仕様または規格において定義されているロケーションに対応し得る。これらの仮想スピーカーの各々をサポートし得るラウドスピーカーのロケーションは、任意の数の知られているオーディオ定位技法を使用して決定され得、それらの多くは、(オーディオ/ビデオ受信機(A/V受信機)、テレビジョン、ゲーミングシステム、デジタルビデオディスクシステム、または他のタイプのヘッドエンドシステムなどの)ヘッドエンドユニットに対して各ラウドスピーカーのロケーションを決定するために特定の周波数を有するトーンを再生することを伴う。代替的に、ヘッドエンドユニットのユーザが、ラウドスピーカーの各々のロケーションを手動で指定し得る。いずれの場合も、これらの知られているロケーションと考えられる角度とを鑑みて、ヘッドエンドユニットは、利得について解き、VBAPを介して仮想ラウドスピーカーの理想的な構成を仮定し得る。
[0094] この点において、本技法は、デバイスまたは装置が、デコーダ−ローカル幾何学的配置におけるスピーカーを駆動して、異なるローカル幾何学的配置で構成された仮想スピーカーから発生するように思われる音を出す複数のチャンネルを生成するために、複数の仮想チャンネルに対してベクトルベース振幅パンニングまたは他の形態のパンニングを実行することを可能にし得る。従って、本技法は、オーディオ復号ユニット32が、複数のチャンネルを生成するためにSHC20Aなどの複数の球面調和係数に対して変換を実行することを可能にし得る。複数のチャンネルの各々は、対応する異なる空間領域に関連付けられ得る。さらに、複数のチャンネルの各々は、複数の仮想チャンネルを備え得、複数の仮想チャンネルは、対応する異なる空間領域に関連付けられ得る。本技法は、場合によっては、デバイスが、マルチチャンネルオーディオデータ40の複数のチャンネルを生成するために仮想チャンネルに対してベクトルベース振幅パンニングを実行することを可能にし得る。
[0095] 図9は、本開示で説明する技法の様々な態様を実行する際の、図4の例に示すオーディオ符号化デバイス10などのオーディオ符号化デバイスの例示的な動作を示すフローチャートである。動作の際、オーディオ符号化デバイス10は、音場の空間プロパティ26を識別するために、3次元音場を記述するSHC20Aに対して空間解析を実行する(90)ことに対して、最初に空間解析ユニット18を呼び出すことによって、本開示で説明する技法の様々な態様を実施し得る。次いで、オーディオ符号化デバイス10は、SHC20A(上記で述べたように、時間周波数解析が実行されないとき)またはSHC20B(時間周波数解析が実行されるとき)のいずれかから(「マルチチャンネルオーディオデータ22」とも呼ばれ得る)マルチチャンネルオーディオデータ22をレンダリングする(92)ために、オーディオレンダリングユニット14を呼び出し得る。レンダリングこのマルチチャンネルオーディオデータ22の後またはそれと同時に、オーディオ符号化デバイス10は、識別された空間プロパティ26に基づいてマルチチャンネルオーディオデータ22を符号化して、ビットストリーム24を生成する(94)ためにオーディオ符号化ユニット16を呼び出し得る。上記で述べたように、オーディオ符号化ユニット16は、空間プロパティ26を活用するために(たとえば、上記で説明した空間マスキングを実行するために)様々な方法で変更されている、規格に準拠した形態のオーディオ符号化を実行し得る。
[0096] 図10は、本開示で説明する技法の様々な態様を実行する際の、図5の例に示すオーディオ復号デバイス30などのオーディオ復号デバイスの例示的な動作を示すフローチャートである。動作の際、オーディオ復号デバイス30は、ビットストリーム24を復号して、第1のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第1のマルチチャンネルオーディオデータ22を生成する(100)ために、オーディオ復号ユニット32を呼び出し得る。この第1のスピーカー幾何学的配置は上述の高密度T設計を備え得、一例として、スピーカーの数は32であってもよい。概して、デコーダローカルスピーカー幾何学的配置によるオーディオデータの再生中の高忠実度を実現するために、第1のスピーカー幾何学的配置におけるスピーカーの数は、デコーダ−ローカルスピーカー幾何学的配置におけるスピーカーの数を越えるべきである。
[0097] 次いで、オーディオ復号デバイス30は、生成されたザ第1のマルチチャンネルオーディオデータ22に対して逆レンダリングプロセスを実行して、SHC20B(時間周波数変換が実行されるとき)またはSHC20A(時間周波数解析が実行されないとき)を生成する(102)ために、逆オーディオレンダリングユニット34を呼び出し得る。オーディオ復号デバイス30はまた、時間周波数解析がオーディオ符号化デバイス10によって実行されたときに、SHC20Bを周波数領域から時間領域に変換し直してSHC20Aを生成するために、逆時間周波数解析ユニット36を呼び出し得る。いずれの場合も、次いで、オーディオ復号デバイス10は、SHC20Aに基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第2のマルチチャンネルオーディオデータ40をレンダリングする(104)ために、オーディオレンダリングユニット38を呼び出し得る。
[0098] このようにして、本技法は、既存のオーディオコーダを使用し(SHCからの空間情報に適応させるためにオーディオコーダの様々な態様を変更し)得る。そうするために、本技法はSH係数を取り、(レンダラR1を使用して)SH係数を、任意であるが高密度のラウドスピーカーのセットにレンダリングし得る。これらのラウドスピーカーの幾何学的配置は、逆レンダラ(R1_inv)がSH信号を再生成できるようなものであり得る。いくつかの例では、レンダラが単に単一の行列(周波数に依存しない)であり、R1×R1_inv=単位行列となるような、対応する逆の行列(inverse counter-part matrix)を有するものであり得る。これらのレンダラは、T設計またはプラトン立体によって記述される幾何学的配置のために存在する。レンダラ(R1)によって生成されたラウドスピーカーフィードは、SHCから収集/解析された空間情報によって変更される「オフザシェルフ」オーディオコーダを使用してコーディングされ得る。場合によっては、本技法は通常のオーディオコーディング手法を取ってもよく、それによって、スピーカーフィード間のチャンネル間レベル/時間/相関のうちの1つまたは複数が維持される。圧縮は、より多くのチャンネルを単一のチャンネル用に割り振られたビットにパックするためなどに使用される。
[0099] デコーダにおいて、本技法は、デコーダがスピーカーフィードを復元し、スピーカーフィードをINVERSE−RENDERER(R1_inv)にかけて元のSHCを取り出すことを可能にし得る。これらのSHCは、ローカルスピーカー幾何学的配置の要求に応えることが意図されている別のレンダラ(R2)に供給され得る。典型的に、本技法は、R1の出力において生成されたスピーカーフィードの数が、常にレンダラR2の出力にある可能性があるスピーカーの数に対して高密度であることを実現する。言い換えれば、第1のマルチチャンネルオーディオデータをレンダリングするとき、常にR2レンダラの出力にある可能性があるスピーカーの実際の数よりもはるかに多いスピーカーの数が想定される。
[0100] 例に応じて、本明細書で説明する技法のうちのいずれかの、いくつかの動作またはイベントは、異なるシーケンスで実行され得、全体的に追加、併合、または除外され得ることが、認識されるべきである(たとえば、説明する動作またはイベントの全てが、本技法の実施のために必要であるとは限らない)。さらに、いくつかの例では、動作またはイベントが、連続的にではなく、同時に、たとえば、マルチスレッド処理、割込み処理、または複数のプロセッサを通じて実行され得る。
[0101] 図11は、本開示で説明する空間マスキング技法の様々な態様を示す図である。図11の例では、グラフ110が、SHCとして表される音場内の3次元区間における点を示すx軸を含む。グラフ110のy軸は、利得をデシベルで示す。グラフ110は、ある所与の周波数(たとえば、周波数f1)における点2(P2)について空間マスキングしきい値がどのように計算されるかを図示している。空間マスキングしきい値は、(P2の観点からの)他の全ての点のエネルギーの合計として計算され得る。すなわち、破線はP2の観点からの点1(P1)および点3(P3)のマスキングエネルギーを表す。エネルギーの総量は、空間マスキングしきい値を表し得る。P2が空間マスキングしきい値よりも大きいエネルギーを有しない限り、P2のSHCを送るか、またはさもなければ符号化する必要がない。数学的に、空間マスキング(SMth)しきい値は、以下の式に従って計算され得る。
Figure 2016524726
上式で、
Figure 2016524726
は、点Piにおけるエネルギーを示す。空間マスキングしきい値は、各点の観点からその点について、また、各周波数(または周波数帯を表し得る周波数ビン)について計算され得る。
[0102] 図4Aの例に示す空間解析ユニット18は、一例として、得られたビットストリームのサイズを潜在的に減少させるように、上記の式に従って空間マスキングしきい値を計算し得る。場合によっては、空間マスキングしきい値を計算するために実行されるこの空間解析は、チャンネル22上の別個のマスキングブロックを用いて実行され、オーディオ符号化ユニット16にフィードバックされ得る。グラフ110はdB領域を図示しているが、本技法は空間領域でも実行され得る。
[0103] いくつかの例では、空間マスキングしきい値が時間(または、言い換えれば、同時)マスキングしきい値とともに使用され得る。しばしば、空間マスキングしきい値は、総マスキングしきい値を生成するために時間マスキングしきい値に加えられ得る。場合によっては、総マスキングしきい値を生成するときに、空間マスキングしきい値と時間マスキングしきい値とに重みが適用される。これらのしきい値は、(信号対雑音比(SNR)などの)比の関数として表され得る。総しきい値は、ビットを各周波数ビンに割り振るときに、ビットアロケータによって使用され得る。図4Aのオーディオ符号化ユニット16は、一形態において、空間マスキングしきい値、時間マスキングしきい値または総マスキングしきい値のうちの1つまたは複数を使用してビットを周波数ビンに割り振るビットアロケータを表し得る。
[0104] 図12は、本開示で説明する技法の様々な態様に従ってビットストリーム24を生成する異なる形態が実行され得る、図4Aの例に示すオーディオ符号化デバイスの変形形態を示すブロック図である。図12の例に示すように、オーディオ符号化デバイス10の変形形態は、オーディオ符号化デバイス10’として示されている。オーディオ符号化デバイス10’は、オーディオ符号化デバイス10’が類似のユニット、すなわち、図12の例における時間周波数解析ユニット12と、オーディオレンダリングユニット14と、オーディオ符号化ユニット16と、空間解析ユニット18とを含むという点で、図4Aのオーディオ符号化デバイス10に類似している。
[0105] しかしながら、オーディオ符号化デバイス10’は、チャンネル22を符号化する前にSHC20Bをレンダリングするか、または最初にSHC20Bをチャンネル22にレンダリングすることなしにSHC20Bを直接オーディオ符号化ユニット16に送信するかを決定するユニットを表す、モードセレクタユニット150も含む。モードセレクタユニット150は、ユーザ、別のデバイスからの入力として、またはターゲットビットレート152が入力され得る任意の他の方法を介して、ターゲットビットレート152を受信し得る。ターゲットビットレート152は、ビットストリーム24のビットレートまたは圧縮のレベルを定義するデータを表し得る。
[0106] 一例で、ビットレート152によって指定されたより高いビットレートの場合、モードセレクタユニット150は、SHC20Bが、本開示で説明する技法の空間マスキング態様を使用して、オーディオ符号化ユニット16によって直接オーディオ符号化されるべきであると決定し得る。より高いビットレートの一例は、256キロビット毎秒(Kbps)以上のビットレートであり得る。従って、256Kbps、512Kbpsおよび/または1.2メガビット毎秒(Mbps)などのビットレート(ただし、256Kbpsは、この例で、より低いビットレートからより高いビットレートを決定するために使用されるしきい値ビットレートを表し得る)の場合、オーディオ符号化ユニット16はSHC20B上で直接動作し得、SHC20Bはオーディオレンダリングユニット14によってチャンネル22にレンダリングされない。
[0107] ビットレート152によって指定されたより低いビットレートの場合、モードセレクタユニット150は、SHC20Bがチャンネル22を生成するためにオーディオレンダリングユニット14によって最初にレンダリングされ、次いで、その後でオーディオ符号化ユニット16によって符号化されるべきであると決定し得る。この事例で、オーディオ符号化ユニット16は、第1のチャンネルに対して空間マスキング技法を実行し得るが、残りのチャンネルは、MPEGサラウンド方式および他のパラメトリックチャンネル間符号化方式に従って実行されるものなどのパラメトリック符号化を受ける。
[0108] オーディオ符号化ユニット16は、ビットストリーム24を生成するときにパラメトリックチャンネル間符号化が実行されたかどうかを復号デバイスが決定し得るように、ビットストリームにおけるモードセレクタユニット150によって選択されたモードを(符号化形態または非符号化形態のいずれかで)指定し得る。詳細に示されていないが、オーディオ復号デバイス30は、オーディオ符号化デバイス10’の方法と同様の方法で変更され得る(ただし、そのようなオーディオ復号デバイス30はオーディオ復号デバイス30’と呼ばれ得る)。同様に、このオーディオ復号デバイス30’は、チャンネル22を逆オーディオレンダリングユニット34に出力するか、またはSHC20Bを逆時間周波数解析ユニット36に出力するかを決定する、モードセレクタユニット150に類似したモードセレクタユニットを含み得る。場合によっては、このモードは、ビットストリーム24が対応するターゲットビットレート152から推論され得る(ただし、このターゲットビットレート152はビットストリーム24において指定され得、事実上、オーディオ復号デバイス30’がこのモードをターゲットビットレート152から推論し得るとした場合のモードを表す)。
[0109] この点において、本開示で説明する技法は、オーディオ符号化デバイス10’がオーディオデータを圧縮する方法を実行することを可能にし得る。この方法を実行する際、オーディオ符号化デバイス10’は、圧縮されたオーディオデータを表すビットストリームのターゲットビットレートを決定し、空間マスキングしきい値を識別するために、3次元でオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行し得る。ターゲットビットレートに基づいて、オーディオ符号化デバイス10’は、圧縮されたオーディオデータを表すビットストリームを生成するために、i)パラメトリックチャンネル間オーディオ符号化および空間マスキングしきい値を使用した空間マスキング、またはii)パラメトリックチャンネル間オーディオ符号化を実行することなしに、空間マスキングしきい値を使用した空間マスキングのいずれかを実行し得る。
[0110] 場合によっては、i)パラメトリックチャンネル間オーディオ符号化および空間マスキングしきい値を使用した空間マスキング、またはii)パラメトリックチャンネル間オーディオ符号化を実行することなしに、空間マスキングしきい値を使用した空間マスキングのいずれかを実行するとき、オーディオ符号化デバイス10’は、ターゲットビットレートがしきい値ビットレートを下回ると決定し、ターゲットビットレートがしきい値ビットレートを下回ると決定したことに応答して、ビットストリームを生成するために、パラメトリックチャンネル間オーディオ符号化および空間マスキングしきい値を使用した空間マスキングを実行し得る。しきい値ビットレートは、たとえば、256キロビット毎秒(Kbps)に等しくてもよい。
[0111] 場合によっては、i)パラメトリックチャンネル間オーディオ符号化および空間マスキングしきい値を使用した空間マスキング、またはii)パラメトリックチャンネル間オーディオ符号化を実行することなしに、空間マスキングしきい値を使用した空間マスキングのいずれかを実行するとき、オーディオ符号化デバイス10’は、ターゲットビットレートがしきい値ビットレートに等しいか、またはしきい値ビットレートを超えると決定し、ターゲットビットレートがしきい値ビットレートに等しいか、またはしきい値ビットレートを超えると決定したことに応答して、ビットストリームを生成するために、パラメトリックチャンネル間オーディオ符号化を実行することなしに、空間マスキングしきい値を使用した空間マスキングを実行し得る。
[0112] 場合によっては、オーディオ符号化デバイス10’はさらに、複数の球面調和係数をマルチチャンネルオーディオデータにレンダリングし得る。i)パラメトリックチャンネル間オーディオ符号化および空間マスキングしきい値を使用した空間マスキング、またはii)パラメトリックチャンネル間オーディオ符号化を実行することなしに、空間マスキングしきい値を使用した空間マスキングのいずれかを実行するとき、オーディオ符号化デバイス10’は、ターゲットビットレートがしきい値ビットレートを下回ると決定し、ターゲットビットレートがしきい値ビットレートを下回ると決定したことに応答して、ビットストリームを生成するために、マルチチャンネルオーディオデータの1つまたは複数のベースチャンネルに対して空間マスキングしきい値を使用した空間マスキングを実行し、マルチチャンネルオーディオデータに対してパラメトリックチャンネル間オーディオ符号化を実行し得る。やはり、しきい値ビットレートは256キロビット毎秒(Kbps)に等しくてもよい。
[0113] 場合によっては、オーディオ符号化デバイス10’はまた、空間マスキングしきい値に基づいて、オーディオデータの時間ベース表現またはオーディオデータの周波数ベース表現のいずれかについてビットストリーム中にビットを割り振り得る。
[0114] 場合によっては、パラメトリックチャンネル間オーディオ符号化は、ムービングピクチャエキスパーツグループ(MPEG)サラウンドを備える。
[0115] さらに、本開示で説明する技法は、オーディオ符号化デバイス10’がマルチチャンネルオーディオデータを圧縮する方法を実行することを可能にし得る。この方法を実行する際、オーディオ符号化デバイス10’は、空間マスキングしきい値を識別するために、3次元でマルチチャンネルオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行し、マルチチャンネルオーディオデータを生成するために、球面調和係数をレンダリングし得る。オーディオ符号化デバイス10’はまた、ビットストリームを生成するために、空間マスキングしきい値を使用してマルチチャンネルオーディオデータの1つまたは複数のベースチャンネルに対して空間マスキングを実行し、マルチチャンネルオーディオデータの空間的にマスクされた1つまたは複数のベースチャンネルを含め、マルチチャンネルオーディオデータに対してパラメトリックチャンネル間オーディオ符号化を実行し得る。
[0116] 場合によっては、オーディオ符号化デバイス10’は、マルチチャンネルオーディオデータをビットストリームとして符号化するためのターゲットビットレートを決定し得る。このコンテキストでは、空間マスキングとパラメトリックチャンネル間オーディオ符号化とを実行するとき、オーディオ符号化デバイス10’は、ターゲットビットレートがしきい値ビットレート未満である場合、ビットストリームを生成するために、マルチチャンネルオーディオデータの1つまたは複数のベースチャンネルに対して空間マスキングを実行し、マルチチャンネルオーディオデータの空間的にマスクされた1つまたは複数のベースチャンネルを含め、マルチチャンネルオーディオデータに対してパラメトリックチャンネル間オーディオ符号化を実行すること。
[0117] 場合によっては、しきい値ビットレートは256キロビット毎秒(Kbps)に等しい。場合によっては、このしきい値ビットレートはユーザまたはアプリケーションによって指定される。すなわち、このしきい値ビットレートは構成可能であり得るか、または静的に設定され得る。場合によっては、ターゲットビットレートは128キロビット毎秒(Kbps)に等しい。場合によっては、パラメトリックチャンネル間オーディオ符号化は、ムービングピクチャエキスパーツグループ(MPEG)サラウンドを備える。
[0118] 場合によっては、オーディオ符号化デバイス10’はまた、時間マスキングしきい値を使用して、マルチチャンネルオーディオデータに対して時間マスキングを実行する。
[0119] 加えて、本技法の様々な態様はさらに(または代替的に)、オーディオ符号化デバイス10’がオーディオデータを圧縮する方法を実行することを可能にし得る。この方法を実行する際、オーディオ符号化デバイス10’は、空間マスキングしきい値を識別するために、3次元でオーディオデータの音場を記述する複数の球面調和係数に基づいて空間解析を実行し、空間マスキングしきい値を使用して複数の球面調和係数に対して空間マスキングを実行し、複数の空間的にマスクされた球面調和係数を含むビットストリームを生成し得る。
[0120] オーディオ符号化デバイス10’は、場合によっては、マルチチャンネルオーディオデータをビットストリームとして符号化するためのターゲットビットレートを決定し得る。空間マスキングを実行するとき、オーディオ符号化デバイス10’は、ターゲットビットレートがしきい値ビットレート以上である場合、複数の球面調和係数に対して空間マスキングを実行し得る。場合によっては、しきい値ビットレートは256キロビット毎秒(Kbps)に等しい。これらの事例では、ターゲットビットレートが256キロビット毎秒(Kbps)以上である。
[0121] 場合によっては、オーディオ符号化デバイス10’はさらに、時間マスキングしきい値を使用して、複数の球面調和係数に対して時間マスキングを実行し得る。
[0122] 球面調和係数に対して空間マスキング解析を実行するものとして上記で説明したが、図12の例に関して上記で説明した本技法はまた、いわゆる「チャンネル領域」で、空間解析が図4Bのオーディオ符号化デバイス11によってチャンネル領域でどのように実行されるかに類似して実行される。従って、本技法は、この点において、図12の例に限定されるべきではない。
[0123] 図13は、本開示で説明する技法の様々な態様を実行し得る例示的なオーディオ符号化デバイス160を示すブロック図である。図13の例に示すように、オーディオ符号化デバイス160は、時間周波数解析ユニット162と、同時マスキングユニット164と、空間マスキングユニット166と、ビット割振りユニット168とを含み得る。時間周波数ユニット162は、図4Aの例に示すオーディオ符号化デバイス10の時間周波数解析ユニット12に類似しているか、または実質的に類似していてもよい。時間周波数ユニット162は、SHC170Aを受信し、SHC170Aを時間領域から周波数領域に変換し得る(ただし、SHC170Aの周波数領域バージョンは「SHC170B」として示される)。
[0124] 同時マスキングユニット164は、1つまたは複数の同時マスキングしきい値172を決定するために、SHC170Bの(「時間解析」とも呼ばれ得る)同時解析を実行するユニットを表す。同時マスキングユニット164は、一例として、同時ではあるが別個の音を識別するために、SHC170Bによって記述される音場を評価し得る。2つの同時の音の間の利得に大きい差分がある場合、典型的には、(最も大きいエネルギーを有する音を表し得る)最も大きい音のみが正確に表される必要とするが、同程度のより静かな音はあまり正確でなく表されることがある(これは典型的には、より少ないビットを同程度の静かな音に割り振ることによって行われる)。いずれの場合も、同時メイキングユニット164は、(しばしば、周波数ビンごとに周波数ビン上で指定される)1つまたは複数の同時マスキングしきい値172を出力し得る。
[0125] 空間マスキングユニット166は、(同様に、周波数ビンごとに周波数ビン上で指定され得る)1つまたは複数の空間マスキングしきい値174を決定するために、SHC170Bに対しておよび上記で説明した本技法の様々な態様に従って空間解析を実行するユニットを表し得る。空間マスキングユニット166は、総マスキングしきい値178を形成するために結合器176によって時間マスキングしきい値172と結合される空間マスキングしきい値174を出力し得る。結合器176は、総マスキングしきい値178を生成するために時間マスキングしきい値172を空間マスキングしきい値174と結合するための任意の他の形態の数学演算を追加または実行し得る。
[0126] ビット割振りユニット168は、総マスキングしきい値178などのしきい値に基づいて、オーディオデータを表すビットストリーム180中にビットを割り振ることが可能な任意のユニットを表す。ビット割振りユニット168は、より多くのまたはより少ないビットを割り振るときを識別するために、様々なしきい値178を使用してビットを割り振り得る。通常、ビット割振りユニット168は複数のいわゆる「パス」において動作し、ビット割振りユニット168は、第1の初期ビット割振りパスの間に、ビットストリーム180中にSHC170Bを表すためのビットを割り振る。ビット割振りユニット168は、(ターゲットビットレートに対応し得る)ビットバジェットを超えないように、この第1のパスの間に、控えめにビットを割り振り得る。第2のおよび場合によっては後続のビット割振りパスの間に、ビット割振りユニット168は、SHC170Bの様々な周波数ビンがビットストリーム180中でどのように表されるかをさらに洗練するために、(ターゲットビットレートに対応し得る)ビットバジェット(bit budget)に残っている任意のビットを割り振り得る。総マスキングしきい値178に基づいてビットを割り振るものとして説明したが、ビット割振りユニット168は、空間マスキングしきい値174、時間マスキングしきい値172および総マスキングしきい値178のうちのいずれか1つまたは複数に基づいてビットを割り振り得る。
[0127] 図14は、本開示で説明する技法の様々な態様を実行する際の、図13の例に示すオーディオ符号化デバイス160などのオーディオ復号デバイスの例示的な動作を示すフローチャートである。動作の際、オーディオ復号の時間周波数ユニット162はSHC170Aを受信し(200)、SHC170Aを時間領域から周波数領域に変換し得る(202)(ただし、SHC170Aの周波数領域バージョンは、「SHC170B」として示される)。
[0128] 次いで、オーディオ符号化デバイス160の同時マスキングユニット164は、1つまたは複数の同時マスキングしきい値172を決定するために、SHC170Bの(「時間解析」とも呼ばれ得る)同時解析を実行し得る(204)。同時メイキングユニット164は、(しばしば、周波数ビンごとに周波数ビン上で指定される)1つまたは複数の同時マスキングしきい値172を出力し得る。
[0129] オーディオ符号化デバイス160の空間マスキングユニット166は、(同様に、周波数ビンごとに周波数ビン上で指定され得る)1つまたは複数の空間マスキングしきい値174を決定するために、SHC170Bに対しておよび上記で説明した本技法の様々な態様に従って空間解析を実行し得る(206)。空間マスキングユニット166は、総マスキングしきい値178を形成するために結合器176によって(「時間マスキングしきい値172」とも呼ばれ得る)同時マスキングしきい値172と結合される空間マスキングしきい値174を出力し得る(208)。結合器176は、総マスキングしきい値178を生成するために時間マスキングしきい値172を空間マスキングしきい値174と結合するための任意の他の形態の数学演算を追加または実行し得る。
[0130] ビット割振りユニット168は、総マスキングしきい値178などのしきい値に基づいて、オーディオデータを表すビットストリーム180中にビットを割り振ることが可能な任意のユニットを表す。ビット割振りユニット168は、上記で説明した方法で、より多くのまたはより少ないビットを割り振るときを識別するために、様々なしきい値178を使用してビットを割り振り得る(210)。やはり、総マスキングしきい値178に基づいてビットを割り振るものとして説明したが、ビット割振りユニット168は、空間マスキングしきい値174、時間マスキングしきい値172および総マスキングしきい値178のうちのいずれか1つまたは複数に基づいてビットを割り振り得る。
[0131] 1つまたは複数の例では、説明した機能が、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、1つまたは複数の命令またはコードとして、コンピュータ可読媒体上で記憶されるか、またはコンピュータ可読媒体を介して送信され得、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応するコンピュータ可読記憶媒体、またはコンピュータプログラムの、ある場所から別の場所への、たとえば、通信プロトコルによる転送を容易にする任意の媒体を含む通信媒体を含み得る。このようにして、コンピュータ可読媒体は、概して、(1)非一時的である有体のコンピュータ可読記憶媒体または(2)信号もしくは搬送波などの通信媒体に相当し得る。データ記憶媒体は、本開示で説明する技法の実装のための命令、コードおよび/またはデータ構造を取り出すために1つもしくは複数のコンピュータまたは1つもしくは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。
[0132] 限定ではなく例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM(登録商標)、CD−ROMもしくは他の光ディスクストレージ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、フラッシュメモリ、または、命令もしくはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備えることができる。また、任意の接続がコンピュータ可読媒体と適切に呼ばれる。たとえば、命令が、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用してウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含まないが、代わりに非一時的な有形記憶媒体を対象とすることを理解されたい。本明細書で使用するディスク(disk)およびディスク(disc)は、コンパクトディスク(CD)と、レーザーディスク(登録商標)と、光ディスクと、デジタル多用途ディスク(DVD)と、フロッピー(登録商標)ディスクと、ブルーレイ(登録商標)ディスクとを含み、ディスク(disk)は、通常、磁気的にデータを再生し、ディスク(disc)は、レーザーを用いてデータを光学的に再生する。上記の組合せも、コンピュータ可読媒体の範囲内に含められるべきである。
[0133] 命令は、1つまたは複数のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルロジックアレイ(FPGA)、または他の等価な集積回路もしくはディスクリート論理回路などの1つまたは複数のプロセッサによって実行され得る。従って、本明細書で使用する「プロセッサ」という用語は、前述の構造または本明細書で説明する技法の実装形態に適した任意の他の構造のいずれかを指し得る。加えて、いくつかの態様では、本明細書で説明する機能が、符号化および復号のために構成された専用のハードウェアモジュールおよび/またはソフトウェアモジュール内に与えられるか、あるいは複合コーデックに組み込まれ得る。また、本技法は、1つまたは複数の回路または論理要素において完全に実施され得る。
[0134] 本開示の技法は、ワイヤレスハンドセット、集積回路(IC)、またはICのセット(たとえば、チップセット)を含む多種多様なデバイスまたは装置において実施され得る。開示する技法を実行するように構成されたデバイスの機能的態様を強調するために、様々な構成要素、モジュール、またはユニットについて本開示で説明したが、それらの構成要素、モジュール、またはユニットは、必ずしも異なるハードウェアユニットによる実現を必要とするとは限らない。むしろ、上記で説明したように、様々なユニットは、適切なソフトウェアおよび/またはファームウェアとともに、上記で説明した1つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わされるか、または相互動作ハードウェアユニットの集合によって提供され得る。
[0135] 本技法の様々な実施形態について説明した。本技法のこれらおよび他の態様は以下の特許請求の範囲の範疇にある。
[0135] 本技法の様々な実施形態について説明した。本技法のこれらおよび他の態様は以下の特許請求の範囲の範疇にある。
以下に、出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
マルチチャンネルオーディオデータを圧縮する方法であって、
空間マスキングしきい値を識別するために、3次元音場を記述する複数の球面調和係数に基づいて空間解析を実行することと、
前記複数の球面調和係数から前記マルチチャンネルオーディオデータをレンダリングすることと、
ビットストリームを生成するために、前記識別された空間マスキングしきい値に基づいて前記マルチチャンネルオーディオデータを圧縮することとを備える方法。
[C2]
前記ビットストリームのターゲットビットレートを決定することをさらに備え、
前記マルチチャンネルオーディオデータを圧縮することは、前記圧縮されたオーディオデータを表すビットストリームを生成するために、前記ターゲットビットレートに基づいて、i)パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した空間マスキング、またはii)前記パラメトリックチャンネル間オーディオ符号化を実行することなしに、前記空間マスキングしきい値を使用した前記空間マスキングのいずれかを実行することを備える、C1に記載の方法。
[C3]
i)前記パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した前記空間マスキング、またはii)前記パラメトリックチャンネル間オーディオ符号化を実行することなしに、前記空間マスキングしきい値を使用した前記空間マスキングのいずれかを実行することは、
前記ターゲットビットレートがしきい値ビットレートを下回ると決定することと、
前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記ビットストリームを生成するために、前記パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した前記空間マスキングを実行することとを備える、C2に記載の方法。
[C4]
i)前記パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した前記空間マスキング、またはii)前記パラメトリックチャンネル間オーディオ符号化を実行することなしに、前記空間マスキングしきい値を使用した前記空間マスキングのいずれかを実行することは、
前記ターゲットビットレートがしきい値ビットレートを下回ると決定することと、
前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記ビットストリームを生成するために、前記マルチチャンネルオーディオデータの1つまたは複数のベースチャンネルに対して前記空間マスキングしきい値を使用した前記空間マスキングを実行し、前記マルチチャンネルオーディオデータに対して前記パラメトリックチャンネル間オーディオ符号化を実行することとを備える、C2に記載の方法。
[C5]
前記球面調和係数から前記マルチチャンネルオーディオデータをレンダリングすることは、前記球面調和係数から32個のスピーカーに対する前記マルチチャンネルオーディオデータの32個のチャンネルをレンダリングすることを備える、C1に記載の方法。
[C6]
前記球面調和係数から前記マルチチャンネルオーディオデータをレンダリングすることは、前記球面調和係数から高密度T設計で配置された32個のスピーカーに対応する前記マルチチャンネルオーディオデータの32個のチャンネルをレンダリングすることを備える、C1に記載の方法。
[C7]
前記マルチチャンネルオーディオデータを圧縮することは、前記空間マスキングしきい値に基づいて、前記マルチチャンネルオーディオデータの時間ベース表現または前記マルチチャンネルオーディオデータの周波数ベース表現のいずれかについて前記ビットストリーム中にビットを割り振ることを備える、C1に記載の方法。
[C8]
前記マルチチャンネルオーディオデータを圧縮することは、前記空間マスキングしきい値と時間マスキングしきい値とに基づいて、前記マルチチャンネルオーディオデータの時間ベース表現または前記マルチチャンネルオーディオデータの周波数ベース表現のいずれかについて前記ビットストリーム中にビットを割り振ることを備える、C1に記載の方法。
[C9]
前記マルチチャンネルオーディオデータを圧縮することは、前記識別された空間マスキングしきい値に基づいてエントロピー符号化を実行することを備える、C1に記載の方法。
[C10]
変換された複数の球面調和係数を生成するために、前記複数の球面調和係数を時間領域から周波数領域に変換することをさらに備え、
前記マルチチャンネルオーディオデータをレンダリングすることは、前記変換された複数の球面調和係数から前記マルチチャンネルオーディオデータをレンダリングすることを備える、C1に記載の方法。
[C11]
空間マスキングしきい値を識別するために、3次元音場を記述する複数の球面調和係数に基づいて空間解析を実行し、前記複数の球面調和係数からマルチチャンネルオーディオデータをレンダリングし、ビットストリームを生成するために、前記識別された空間マスキングしきい値に基づいて前記マルチチャンネルオーディオデータを圧縮するように構成された1つまたは複数のプロセッサを備えるオーディオ符号化デバイス。
[C12]
前記1つまたは複数のプロセッサは、前記ビットストリームのターゲットビットレートを決定するようにさらに構成され、
前記1つまたは複数のプロセッサは、前記圧縮されたオーディオデータを表すビットストリームを生成するために、前記ターゲットビットレートに基づいて、i)パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した空間マスキング、またはii)前記パラメトリックチャンネル間オーディオ符号化を実行することなしに、前記空間マスキングしきい値を使用した前記空間マスキングのいずれかを実行するように構成される、C11に記載のオーディオ符号化デバイス。
[C13]
前記1つまたは複数のプロセッサは、前記ターゲットビットレートがしきい値ビットレートを下回ると決定し、前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記ビットストリームを生成するために、前記パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した前記空間マスキングを実行するように構成される、C12に記載のオーディオ符号化デバイス。
[C14]
前記1つまたは複数のプロセッサは、前記ターゲットビットレートがしきい値ビットレートを下回ると決定し、前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記ビットストリームを生成するために、前記マルチチャンネルオーディオデータの1つまたは複数のベースチャンネルに対して前記空間マスキングしきい値を使用した前記空間マスキングを実行し、前記マルチチャンネルオーディオデータに対して前記パラメトリックチャンネル間オーディオ符号化を実行するように構成される、C12に記載のオーディオ符号化デバイス。
[C15]
前記1つまたは複数のプロセッサは、前記球面調和係数から32個のスピーカーに対する前記マルチチャンネルオーディオデータの32個のチャンネルをレンダリングするようにさらに構成される、C11に記載のオーディオ符号化デバイス。
[C16]
前記1つまたは複数のプロセッサは、前記球面調和係数から高密度T設計で配置された32個のスピーカーに対応する前記マルチチャンネルオーディオデータの32個のチャンネルをレンダリングするようにさらに構成される、C11に記載のオーディオ符号化デバイス。
[C17]
前記1つまたは複数のプロセッサは、前記空間マスキングしきい値に基づいて、前記マルチチャンネルオーディオデータの時間ベース表現または前記マルチチャンネルオーディオデータの周波数ベース表現のいずれかについて前記ビットストリーム中にビットを割り振るようにさらに構成される、C11に記載のオーディオ符号化デバイス。
[C18]
前記1つまたは複数のプロセッサは、前記空間マスキングしきい値と時間マスキングしきい値とに基づいて、前記マルチチャンネルオーディオデータの時間ベース表現または前記マルチチャンネルオーディオデータの周波数ベース表現のいずれかについて前記ビットストリーム中にビットを割り振るようにさらに構成される、C11に記載のオーディオ符号化デバイス。
[C19]
前記1つまたは複数のプロセッサは、前記識別された空間マスキングしきい値に基づいてエントロピー符号化を実行するようにさらに構成される、C11に記載のオーディオ符号化デバイス。
[C20]
前記1つまたは複数のプロセッサは、変換された複数の球面調和係数を生成するために、前記複数の球面調和係数を時間領域から周波数領域に変換し、前記マルチチャンネルオーディオデータをレンダリングするときに、前記変換された複数の球面調和係数から前記マルチチャンネルオーディオデータをレンダリングするようにさらに構成される、C11に記載のオーディオ符号化デバイス。
[C21]
空間マスキングしきい値を識別するために、3次元音場を記述する複数の球面調和係数に基づいて空間解析を実行するための手段と、
前記複数の球面調和係数からマルチチャンネルオーディオデータをレンダリングするための手段と、
ビットストリームを生成するために、前記識別された空間マスキングしきい値に基づいて前記マルチチャンネルオーディオデータを圧縮するための手段とを備えるオーディオ符号化デバイス。
[C22]
実行されると、オーディオ符号化デバイスの1つまたは複数のプロセッサに、
空間マスキングしきい値を識別するために、3次元音場を記述する複数の球面調和係数に基づいて空間解析を実行させ、
前記複数の球面調和係数からマルチチャンネルオーディオデータをレンダリングさせ、
ビットストリームを生成するために、前記識別された空間マスキングしきい値に基づいて前記マルチチャンネルオーディオデータを圧縮させる命令を記憶した非一時的コンピュータ可読記憶媒体。
[C23]
定義されたスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第1のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号することと、
複数の球面調和係数を生成するために、前記生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行することと、
前記複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第2のマルチチャンネルオーディオデータをレンダリングすることとを備える方法。
[C24]
前記ビットストリームのターゲットビットレートを決定することをさらに備え、
前記ビットストリームを復号することは、前記ターゲットビットレートに基づいて、前記第1のマルチチャンネルオーディオデータを生成するために、前記ビットストリームに対してパラメトリックチャンネル間オーディオ復号を実行することを備える、C23に記載の方法。
[C25]
前記パラメトリックチャンネル間オーディオ復号を実行することは、
前記ターゲットビットレートがしきい値ビットレートを下回ると決定することと、
前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記第1のマルチチャンネルオーディオデータを生成するために、前記ビットストリームに対して前記パラメトリックチャンネル間オーディオ復号を実行することとを備える、C24に記載の方法。
[C26]
前記しきい値ビットレートは24−2キロビット毎秒(Kbps)に等しい、C25に記載の方法。
[C27]
前記逆レンダリングプロセスを実行することは、前記複数の球面調和係数を生成するために、23個のスピーカーに対応する前記第1のマルチチャンネルオーディオデータの23個のチャンネルに対して前記逆レンダリングプロセスを実行することを備える、C23に記載の方法。
[C28]
前記逆レンダリングプロセスを実行することは、前記複数の球面調和係数を生成するために、高密度T設計で配置された23個のスピーカーに対応する前記第1のマルチチャンネルオーディオデータの23個のチャンネルに対して前記逆レンダリングプロセスを実行することを備える、C23に記載の方法。
[C29]
変換された複数の球面調和係数を生成するために、前記複数の球面調和係数を周波数領域から時間領域に変換することをさらに備え、
前記第2のマルチチャンネルオーディオデータをレンダリングすることは、前記変換された複数の球面調和係数に基づいて、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記複数のチャンネルを有する前記第2のマルチチャンネルオーディオデータをレンダリングすることを備える、C23に記載の方法。
[C30]
前記第2のマルチチャンネルオーディオデータをレンダリングすることは、前記複数の球面調和係数に基づいて、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記複数のチャンネルを有する前記第2のマルチチャンネルオーディオデータを生成するために、前記複数の球面調和係数に対して変換を実行することを備える、C23に記載の方法。
[C31]
前記第2のマルチチャンネルオーディオデータの前記複数のチャンネルは、前記ローカルスピーカー幾何学的配置とは異なる幾何学的配置で配置された仮想スピーカーに対応する複数の仮想チャンネルを備え、
前記第2のマルチチャンネルオーディオデータをレンダリングすることは、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記第2のマルチチャンネルオーディオデータの前記複数のチャンネルを生成するために、前記複数の仮想ラウドスピーカーチャンネルに対してパンニングを実行することをさらに備える、C30に記載の方法。
[C32]
パンニングを実行することは、前記第2のマルチチャンネルオーディオデータの前記複数のチャンネルを生成するために、前記複数の仮想チャンネルに対してベクトルベース振幅パンニングを実行することを備える、C31に記載の方法。
[C33]
前記複数の仮想チャンネルの各々は、対応する異なる定義された空間領域に関連付けられる、C32に記載の方法。
[C34]
前記異なる定義された空間領域は、オーディオフォーマット仕様およびオーディオフォーマット規格のうちの1つまたは複数で定義される、C33に記載の方法。
[C35]
第1のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第1のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号し、複数の球面調和係数を生成するために、前記生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行し、前記複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第2のマルチチャンネルオーディオデータをレンダリングするように構成された1つまたは複数のプロセッサを備えるオーディオ復号デバイス。
[C36]
前記1つまたは複数のプロセッサは、前記ビットストリームのターゲットビットレートを決定するようにさらに構成され、
前記1つまたは複数のプロセッサは、前記ターゲットビットレートに基づいて、前記第1のマルチチャンネルオーディオデータを生成するために、前記ビットストリームに対してパラメトリックチャンネル間オーディオ復号を実行するように構成される、C35に記載のオーディオ復号デバイス。
[C37]
前記1つまたは複数のプロセッサは、前記ターゲットビットレートがしきい値ビットレートを下回ると決定し、前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記第1のマルチチャンネルオーディオデータを生成するために、前記ビットストリームに対して前記パラメトリックチャンネル間オーディオ復号を実行するように構成される、C36に記載のオーディオ復号デバイス。
[C38]
前記しきい値ビットレートは24−2キロビット毎秒(Kbps)に等しい、C37に記載のオーディオ復号デバイス。
[C39]
前記1つまたは複数のプロセッサは、前記逆レンダリングプロセスを実行するときに、前記複数の球面調和係数を生成するために、23個のスピーカーに対応する前記第1のマルチチャンネルオーディオデータの23個のチャンネルに対して前記逆レンダリングプロセスを実行するように構成される、C35に記載のオーディオ復号デバイス。
[C40]
前記1つまたは複数のプロセッサは、前記逆レンダリングプロセスを実行するときに、前記複数の球面調和係数を生成するために、高密度T設計で配置された23個のスピーカーに対応する前記第1のマルチチャンネルオーディオデータの23個のチャンネルに対して前記逆レンダリングプロセスを実行するように構成される、C35に記載のオーディオ復号デバイス。
[C41]
前記1つまたは複数のプロセッサは、変換された複数の球面調和係数を生成するために、前記複数の球面調和係数を周波数領域から時間領域に変換するように構成され、
前記1つまたは複数のプロセッサは、前記第2のマルチチャンネルオーディオデータをレンダリングするときに、前記変換された複数の球面調和係数に基づいて、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記複数のチャンネルを有する前記第2のマルチチャンネルオーディオデータをレンダリングするように構成される、C35に記載のオーディオ復号デバイス。
[C42]
前記1つまたは複数のプロセッサは、前記第2のマルチチャンネルオーディオデータをレンダリングするときに、前記複数の球面調和係数に基づいて、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記複数のチャンネルを有する前記第2のマルチチャンネルオーディオデータを生成するために、前記複数の球面調和係数に対して変換を実行するように構成される、C35に記載のオーディオ復号デバイス。
[C43]
前記第2のマルチチャンネルオーディオデータの前記複数のチャンネルは、前記ローカルスピーカー幾何学的配置とは異なる幾何学的配置で配置された仮想スピーカーに対応する複数の仮想チャンネルを備え、
前記1つまたは複数のプロセッサは、前記第2のマルチチャンネルオーディオデータをレンダリングするときに、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記第2のマルチチャンネルオーディオデータの前記複数のチャンネルを生成するために、前記複数の仮想ラウドスピーカーチャンネルに対してパンニングを実行するように構成される、C42に記載のオーディオ復号デバイス。
[C44]
前記1つまたは複数のプロセッサは、パンニングを実行するときに、前記第2のマルチチャンネルオーディオデータの前記複数のチャンネルを生成するために、前記複数の仮想チャンネルに対してベクトルベース振幅パンニングを実行するように構成される、C43に記載のオーディオ復号デバイス。
[C45]
前記複数の仮想チャンネルの各々は、対応する異なる定義された空間領域に関連付けられる、C44に記載のオーディオ復号デバイス。
[C46]
前記異なる定義された空間領域は、オーディオフォーマット仕様およびオーディオフォーマット規格のうちの1つまたは複数で定義される、C45に記載のオーディオ復号デバイス。
[C47]
第1のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第1のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号するための手段と、
複数の球面調和係数を生成するために、前記生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行するための手段と、
前記複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第2のマルチチャンネルオーディオデータをレンダリングするための手段とを備えるオーディオ復号デバイス。
[C48]
実行されると、オーディオ復号デバイスの1つまたは複数のプロセッサに、
第1のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第1のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号させ、
複数の球面調和係数を生成するために、前記生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行させ、
前記複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第2のマルチチャンネルオーディオデータをレンダリングさせる、命令を記憶した非一時的コンピュータ可読記憶媒体。

Claims (48)

  1. マルチチャンネルオーディオデータを圧縮する方法であって、
    空間マスキングしきい値を識別するために、3次元音場を記述する複数の球面調和係数に基づいて空間解析を実行することと、
    前記複数の球面調和係数から前記マルチチャンネルオーディオデータをレンダリングすることと、
    ビットストリームを生成するために、前記識別された空間マスキングしきい値に基づいて前記マルチチャンネルオーディオデータを圧縮することと
    を備える方法。
  2. 前記ビットストリームのターゲットビットレートを決定することをさらに備え、
    前記マルチチャンネルオーディオデータを圧縮することは、前記圧縮されたオーディオデータを表すビットストリームを生成するために、前記ターゲットビットレートに基づいて、i)パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した空間マスキング、またはii)前記パラメトリックチャンネル間オーディオ符号化を実行することなしに、前記空間マスキングしきい値を使用した前記空間マスキングのいずれかを実行することを備える、
    請求項1に記載の方法。
  3. i)前記パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した前記空間マスキング、またはii)前記パラメトリックチャンネル間オーディオ符号化を実行することなしに、前記空間マスキングしきい値を使用した前記空間マスキングのいずれかを実行することは、
    前記ターゲットビットレートがしきい値ビットレートを下回ると決定することと、
    前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記ビットストリームを生成するために、前記パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した前記空間マスキングを実行することと
    を備える、請求項2に記載の方法。
  4. i)前記パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した前記空間マスキング、またはii)前記パラメトリックチャンネル間オーディオ符号化を実行することなしに、前記空間マスキングしきい値を使用した前記空間マスキングのいずれかを実行することは、
    前記ターゲットビットレートがしきい値ビットレートを下回ると決定することと、
    前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記ビットストリームを生成するために、前記マルチチャンネルオーディオデータの1つまたは複数のベースチャンネルに対して前記空間マスキングしきい値を使用した前記空間マスキングを実行し、前記マルチチャンネルオーディオデータに対して前記パラメトリックチャンネル間オーディオ符号化を実行することと
    を備える、請求項2に記載の方法。
  5. 前記球面調和係数から前記マルチチャンネルオーディオデータをレンダリングすることは、前記球面調和係数から32個のスピーカーに対する前記マルチチャンネルオーディオデータの32個のチャンネルをレンダリングすることを備える、請求項1に記載の方法。
  6. 前記球面調和係数から前記マルチチャンネルオーディオデータをレンダリングすることは、前記球面調和係数から高密度T設計で配置された32個のスピーカーに対応する前記マルチチャンネルオーディオデータの32個のチャンネルをレンダリングすることを備える、請求項1に記載の方法。
  7. 前記マルチチャンネルオーディオデータを圧縮することは、前記空間マスキングしきい値に基づいて、前記マルチチャンネルオーディオデータの時間ベース表現または前記マルチチャンネルオーディオデータの周波数ベース表現のいずれかについて前記ビットストリーム中にビットを割り振ることを備える、請求項1に記載の方法。
  8. 前記マルチチャンネルオーディオデータを圧縮することは、前記空間マスキングしきい値と時間マスキングしきい値とに基づいて、前記マルチチャンネルオーディオデータの時間ベース表現または前記マルチチャンネルオーディオデータの周波数ベース表現のいずれかについて前記ビットストリーム中にビットを割り振ることを備える、請求項1に記載の方法。
  9. 前記マルチチャンネルオーディオデータを圧縮することは、前記識別された空間マスキングしきい値に基づいてエントロピー符号化を実行することを備える、請求項1に記載の方法。
  10. 変換された複数の球面調和係数を生成するために、前記複数の球面調和係数を時間領域から周波数領域に変換することをさらに備え、
    前記マルチチャンネルオーディオデータをレンダリングすることは、前記変換された複数の球面調和係数から前記マルチチャンネルオーディオデータをレンダリングすることを備える、
    請求項1に記載の方法。
  11. 空間マスキングしきい値を識別するために、3次元音場を記述する複数の球面調和係数に基づいて空間解析を実行し、前記複数の球面調和係数からマルチチャンネルオーディオデータをレンダリングし、ビットストリームを生成するために、前記識別された空間マスキングしきい値に基づいて前記マルチチャンネルオーディオデータを圧縮するように構成された1つまたは複数のプロセッサ
    を備えるオーディオ符号化デバイス。
  12. 前記1つまたは複数のプロセッサは、前記ビットストリームのターゲットビットレートを決定するようにさらに構成され、
    前記1つまたは複数のプロセッサは、前記圧縮されたオーディオデータを表すビットストリームを生成するために、前記ターゲットビットレートに基づいて、i)パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した空間マスキング、またはii)前記パラメトリックチャンネル間オーディオ符号化を実行することなしに、前記空間マスキングしきい値を使用した前記空間マスキングのいずれかを実行するように構成される、
    請求項11に記載のオーディオ符号化デバイス。
  13. 前記1つまたは複数のプロセッサは、前記ターゲットビットレートがしきい値ビットレートを下回ると決定し、前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記ビットストリームを生成するために、前記パラメトリックチャンネル間オーディオ符号化および前記空間マスキングしきい値を使用した前記空間マスキングを実行するように構成される、請求項12に記載のオーディオ符号化デバイス。
  14. 前記1つまたは複数のプロセッサは、前記ターゲットビットレートがしきい値ビットレートを下回ると決定し、前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記ビットストリームを生成するために、前記マルチチャンネルオーディオデータの1つまたは複数のベースチャンネルに対して前記空間マスキングしきい値を使用した前記空間マスキングを実行し、前記マルチチャンネルオーディオデータに対して前記パラメトリックチャンネル間オーディオ符号化を実行するように構成される、請求項12に記載のオーディオ符号化デバイス。
  15. 前記1つまたは複数のプロセッサは、前記球面調和係数から32個のスピーカーに対する前記マルチチャンネルオーディオデータの32個のチャンネルをレンダリングするようにさらに構成される、請求項11に記載のオーディオ符号化デバイス。
  16. 前記1つまたは複数のプロセッサは、前記球面調和係数から高密度T設計で配置された32個のスピーカーに対応する前記マルチチャンネルオーディオデータの32個のチャンネルをレンダリングするようにさらに構成される、請求項11に記載のオーディオ符号化デバイス。
  17. 前記1つまたは複数のプロセッサは、前記空間マスキングしきい値に基づいて、前記マルチチャンネルオーディオデータの時間ベース表現または前記マルチチャンネルオーディオデータの周波数ベース表現のいずれかについて前記ビットストリーム中にビットを割り振るようにさらに構成される、請求項11に記載のオーディオ符号化デバイス。
  18. 前記1つまたは複数のプロセッサは、前記空間マスキングしきい値と時間マスキングしきい値とに基づいて、前記マルチチャンネルオーディオデータの時間ベース表現または前記マルチチャンネルオーディオデータの周波数ベース表現のいずれかについて前記ビットストリーム中にビットを割り振るようにさらに構成される、請求項11に記載のオーディオ符号化デバイス。
  19. 前記1つまたは複数のプロセッサは、前記識別された空間マスキングしきい値に基づいてエントロピー符号化を実行するようにさらに構成される、請求項11に記載のオーディオ符号化デバイス。
  20. 前記1つまたは複数のプロセッサは、変換された複数の球面調和係数を生成するために、前記複数の球面調和係数を時間領域から周波数領域に変換し、前記マルチチャンネルオーディオデータをレンダリングするときに、前記変換された複数の球面調和係数から前記マルチチャンネルオーディオデータをレンダリングするようにさらに構成される、請求項11に記載のオーディオ符号化デバイス。
  21. 空間マスキングしきい値を識別するために、3次元音場を記述する複数の球面調和係数に基づいて空間解析を実行するための手段と、
    前記複数の球面調和係数からマルチチャンネルオーディオデータをレンダリングするための手段と、
    ビットストリームを生成するために、前記識別された空間マスキングしきい値に基づいて前記マルチチャンネルオーディオデータを圧縮するための手段と
    を備えるオーディオ符号化デバイス。
  22. 実行されると、オーディオ符号化デバイスの1つまたは複数のプロセッサに、
    空間マスキングしきい値を識別するために、3次元音場を記述する複数の球面調和係数に基づいて空間解析を実行させ、
    前記複数の球面調和係数からマルチチャンネルオーディオデータをレンダリングさせ、
    ビットストリームを生成するために、前記識別された空間マスキングしきい値に基づいて前記マルチチャンネルオーディオデータを圧縮させる
    命令を記憶した非一時的コンピュータ可読記憶媒体。
  23. 定義されたスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第1のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号することと、
    複数の球面調和係数を生成するために、前記生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行することと、
    前記複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第2のマルチチャンネルオーディオデータをレンダリングすることと
    を備える方法。
  24. 前記ビットストリームのターゲットビットレートを決定することをさらに備え、
    前記ビットストリームを復号することは、前記ターゲットビットレートに基づいて、前記第1のマルチチャンネルオーディオデータを生成するために、前記ビットストリームに対してパラメトリックチャンネル間オーディオ復号を実行することを備える、
    請求項23に記載の方法。
  25. 前記パラメトリックチャンネル間オーディオ復号を実行することは、
    前記ターゲットビットレートがしきい値ビットレートを下回ると決定することと、
    前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記第1のマルチチャンネルオーディオデータを生成するために、前記ビットストリームに対して前記パラメトリックチャンネル間オーディオ復号を実行することと
    を備える、請求項24に記載の方法。
  26. 前記しきい値ビットレートは24−2キロビット毎秒(Kbps)に等しい、請求項25に記載の方法。
  27. 前記逆レンダリングプロセスを実行することは、前記複数の球面調和係数を生成するために、23個のスピーカーに対応する前記第1のマルチチャンネルオーディオデータの23個のチャンネルに対して前記逆レンダリングプロセスを実行することを備える、請求項23に記載の方法。
  28. 前記逆レンダリングプロセスを実行することは、前記複数の球面調和係数を生成するために、高密度T設計で配置された23個のスピーカーに対応する前記第1のマルチチャンネルオーディオデータの23個のチャンネルに対して前記逆レンダリングプロセスを実行することを備える、請求項23に記載の方法。
  29. 変換された複数の球面調和係数を生成するために、前記複数の球面調和係数を周波数領域から時間領域に変換することをさらに備え、
    前記第2のマルチチャンネルオーディオデータをレンダリングすることは、前記変換された複数の球面調和係数に基づいて、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記複数のチャンネルを有する前記第2のマルチチャンネルオーディオデータをレンダリングすることを備える、
    請求項23に記載の方法。
  30. 前記第2のマルチチャンネルオーディオデータをレンダリングすることは、前記複数の球面調和係数に基づいて、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記複数のチャンネルを有する前記第2のマルチチャンネルオーディオデータを生成するために、前記複数の球面調和係数に対して変換を実行することを備える、請求項23に記載の方法。
  31. 前記第2のマルチチャンネルオーディオデータの前記複数のチャンネルは、前記ローカルスピーカー幾何学的配置とは異なる幾何学的配置で配置された仮想スピーカーに対応する複数の仮想チャンネルを備え、
    前記第2のマルチチャンネルオーディオデータをレンダリングすることは、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記第2のマルチチャンネルオーディオデータの前記複数のチャンネルを生成するために、前記複数の仮想ラウドスピーカーチャンネルに対してパンニングを実行することをさらに備える、
    請求項30に記載の方法。
  32. パンニングを実行することは、前記第2のマルチチャンネルオーディオデータの前記複数のチャンネルを生成するために、前記複数の仮想チャンネルに対してベクトルベース振幅パンニングを実行することを備える、請求項31に記載の方法。
  33. 前記複数の仮想チャンネルの各々は、対応する異なる定義された空間領域に関連付けられる、請求項32に記載の方法。
  34. 前記異なる定義された空間領域は、オーディオフォーマット仕様およびオーディオフォーマット規格のうちの1つまたは複数で定義される、請求項33に記載の方法。
  35. 第1のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第1のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号し、複数の球面調和係数を生成するために、前記生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行し、前記複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第2のマルチチャンネルオーディオデータをレンダリングするように構成された1つまたは複数のプロセッサを備える
    オーディオ復号デバイス。
  36. 前記1つまたは複数のプロセッサは、前記ビットストリームのターゲットビットレートを決定するようにさらに構成され、
    前記1つまたは複数のプロセッサは、前記ターゲットビットレートに基づいて、前記第1のマルチチャンネルオーディオデータを生成するために、前記ビットストリームに対してパラメトリックチャンネル間オーディオ復号を実行するように構成される、
    請求項35に記載のオーディオ復号デバイス。
  37. 前記1つまたは複数のプロセッサは、前記ターゲットビットレートがしきい値ビットレートを下回ると決定し、前記ターゲットビットレートが前記しきい値ビットレートを下回ると決定したことに応答して、前記第1のマルチチャンネルオーディオデータを生成するために、前記ビットストリームに対して前記パラメトリックチャンネル間オーディオ復号を実行するように構成される、請求項36に記載のオーディオ復号デバイス。
  38. 前記しきい値ビットレートは24−2キロビット毎秒(Kbps)に等しい、請求項37に記載のオーディオ復号デバイス。
  39. 前記1つまたは複数のプロセッサは、前記逆レンダリングプロセスを実行するときに、前記複数の球面調和係数を生成するために、23個のスピーカーに対応する前記第1のマルチチャンネルオーディオデータの23個のチャンネルに対して前記逆レンダリングプロセスを実行するように構成される、請求項35に記載のオーディオ復号デバイス。
  40. 前記1つまたは複数のプロセッサは、前記逆レンダリングプロセスを実行するときに、前記複数の球面調和係数を生成するために、高密度T設計で配置された23個のスピーカーに対応する前記第1のマルチチャンネルオーディオデータの23個のチャンネルに対して前記逆レンダリングプロセスを実行するように構成される、請求項35に記載のオーディオ復号デバイス。
  41. 前記1つまたは複数のプロセッサは、変換された複数の球面調和係数を生成するために、前記複数の球面調和係数を周波数領域から時間領域に変換するように構成され、
    前記1つまたは複数のプロセッサは、前記第2のマルチチャンネルオーディオデータをレンダリングするときに、前記変換された複数の球面調和係数に基づいて、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記複数のチャンネルを有する前記第2のマルチチャンネルオーディオデータをレンダリングするように構成される、
    請求項35に記載のオーディオ復号デバイス。
  42. 前記1つまたは複数のプロセッサは、前記第2のマルチチャンネルオーディオデータをレンダリングするときに、前記複数の球面調和係数に基づいて、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記複数のチャンネルを有する前記第2のマルチチャンネルオーディオデータを生成するために、前記複数の球面調和係数に対して変換を実行するように構成される、請求項35に記載のオーディオ復号デバイス。
  43. 前記第2のマルチチャンネルオーディオデータの前記複数のチャンネルは、前記ローカルスピーカー幾何学的配置とは異なる幾何学的配置で配置された仮想スピーカーに対応する複数の仮想チャンネルを備え、
    前記1つまたは複数のプロセッサは、前記第2のマルチチャンネルオーディオデータをレンダリングするときに、前記ローカルスピーカー幾何学的配置で配置された前記スピーカーに対応する前記第2のマルチチャンネルオーディオデータの前記複数のチャンネルを生成するために、前記複数の仮想ラウドスピーカーチャンネルに対してパンニングを実行するように構成される、
    請求項42に記載のオーディオ復号デバイス。
  44. 前記1つまたは複数のプロセッサは、パンニングを実行するときに、前記第2のマルチチャンネルオーディオデータの前記複数のチャンネルを生成するために、前記複数の仮想チャンネルに対してベクトルベース振幅パンニングを実行するように構成される、請求項43に記載のオーディオ復号デバイス。
  45. 前記複数の仮想チャンネルの各々は、対応する異なる定義された空間領域に関連付けられる、請求項44に記載のオーディオ復号デバイス。
  46. 前記異なる定義された空間領域は、オーディオフォーマット仕様およびオーディオフォーマット規格のうちの1つまたは複数で定義される、請求項45に記載のオーディオ復号デバイス。
  47. 第1のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第1のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号するための手段と、
    複数の球面調和係数を生成するために、前記生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行するための手段と、
    前記複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第2のマルチチャンネルオーディオデータをレンダリングするための手段と
    を備えるオーディオ復号デバイス。
  48. 実行されると、オーディオ復号デバイスの1つまたは複数のプロセッサに、
    第1のスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第1のマルチチャンネルオーディオデータを生成するために、ビットストリームを復号させ、
    複数の球面調和係数を生成するために、前記生成されたマルチチャンネルオーディオデータに対して逆レンダリングプロセスを実行させ、
    前記複数の球面調和係数に基づいて、ローカルスピーカー幾何学的配置で配置されたスピーカーに対応する複数のチャンネルを有する第2のマルチチャンネルオーディオデータをレンダリングさせる、
    命令を記憶した非一時的コンピュータ可読記憶媒体。
JP2016516797A 2013-05-28 2014-05-28 球面調和係数に対して空間マスキングを実行すること Ceased JP2016524726A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361828132P 2013-05-28 2013-05-28
US61/828,132 2013-05-28
US14/288,219 US9412385B2 (en) 2013-05-28 2014-05-27 Performing spatial masking with respect to spherical harmonic coefficients
US14/288,219 2014-05-27
PCT/US2014/039860 WO2014194001A1 (en) 2013-05-28 2014-05-28 Performing spatial masking with respect to spherical harmonic coefficients

Publications (1)

Publication Number Publication Date
JP2016524726A true JP2016524726A (ja) 2016-08-18

Family

ID=51985122

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016516797A Ceased JP2016524726A (ja) 2013-05-28 2014-05-28 球面調和係数に対して空間マスキングを実行すること

Country Status (6)

Country Link
US (1) US9412385B2 (ja)
EP (1) EP3005357B1 (ja)
JP (1) JP2016524726A (ja)
KR (1) KR20160012215A (ja)
CN (1) CN105247612B (ja)
WO (1) WO2014194001A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020171049A1 (ja) * 2019-02-19 2020-08-27 公立大学法人秋田県立大学 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8483853B1 (en) 2006-09-12 2013-07-09 Sonos, Inc. Controlling and manipulating groupings in a multi-zone media system
US9202509B2 (en) 2006-09-12 2015-12-01 Sonos, Inc. Controlling and grouping in a multi-zone media system
US8788080B1 (en) 2006-09-12 2014-07-22 Sonos, Inc. Multi-channel pairing in a media system
US8923997B2 (en) 2010-10-13 2014-12-30 Sonos, Inc Method and apparatus for adjusting a speaker system
US11265652B2 (en) 2011-01-25 2022-03-01 Sonos, Inc. Playback device pairing
US11429343B2 (en) 2011-01-25 2022-08-30 Sonos, Inc. Stereo playback configuration and control
US8938312B2 (en) 2011-04-18 2015-01-20 Sonos, Inc. Smart line-in processing
US9042556B2 (en) 2011-07-19 2015-05-26 Sonos, Inc Shaping sound responsive to speaker orientation
US8811630B2 (en) 2011-12-21 2014-08-19 Sonos, Inc. Systems, methods, and apparatus to filter audio
US9084058B2 (en) 2011-12-29 2015-07-14 Sonos, Inc. Sound field calibration using listener localization
US9729115B2 (en) 2012-04-27 2017-08-08 Sonos, Inc. Intelligently increasing the sound level of player
US9524098B2 (en) 2012-05-08 2016-12-20 Sonos, Inc. Methods and systems for subwoofer calibration
USD721352S1 (en) 2012-06-19 2015-01-20 Sonos, Inc. Playback device
US9668049B2 (en) 2012-06-28 2017-05-30 Sonos, Inc. Playback device calibration user interfaces
US9219460B2 (en) 2014-03-17 2015-12-22 Sonos, Inc. Audio settings based on environment
US9690271B2 (en) 2012-06-28 2017-06-27 Sonos, Inc. Speaker calibration
US9690539B2 (en) 2012-06-28 2017-06-27 Sonos, Inc. Speaker calibration user interface
US9106192B2 (en) 2012-06-28 2015-08-11 Sonos, Inc. System and method for device playback calibration
US9706323B2 (en) 2014-09-09 2017-07-11 Sonos, Inc. Playback device calibration
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9473870B2 (en) * 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
US8930005B2 (en) 2012-08-07 2015-01-06 Sonos, Inc. Acoustic signatures in a playback system
US8965033B2 (en) 2012-08-31 2015-02-24 Sonos, Inc. Acoustic optimization
US9008330B2 (en) 2012-09-28 2015-04-14 Sonos, Inc. Crossover frequency adjustments for audio speakers
USD721061S1 (en) 2013-02-25 2015-01-13 Sonos, Inc. Playback device
US9226087B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
US9226073B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
US9264839B2 (en) 2014-03-17 2016-02-16 Sonos, Inc. Playback device configuration based on proximity detection
CN104934034B (zh) * 2014-03-19 2016-11-16 华为技术有限公司 用于信号处理的方法和装置
US9367283B2 (en) 2014-07-22 2016-06-14 Sonos, Inc. Audio settings
USD883956S1 (en) 2014-08-13 2020-05-12 Sonos, Inc. Playback device
US9910634B2 (en) 2014-09-09 2018-03-06 Sonos, Inc. Microphone calibration
US10127006B2 (en) 2014-09-09 2018-11-13 Sonos, Inc. Facilitating calibration of an audio playback device
US9891881B2 (en) 2014-09-09 2018-02-13 Sonos, Inc. Audio processing algorithm database
US9952825B2 (en) 2014-09-09 2018-04-24 Sonos, Inc. Audio processing algorithms
US9973851B2 (en) 2014-12-01 2018-05-15 Sonos, Inc. Multi-channel playback of audio content
US10664224B2 (en) 2015-04-24 2020-05-26 Sonos, Inc. Speaker calibration user interface
WO2016172593A1 (en) 2015-04-24 2016-10-27 Sonos, Inc. Playback device calibration user interfaces
USD886765S1 (en) 2017-03-13 2020-06-09 Sonos, Inc. Media playback device
USD906278S1 (en) 2015-04-25 2020-12-29 Sonos, Inc. Media player device
USD768602S1 (en) 2015-04-25 2016-10-11 Sonos, Inc. Playback device
US20170085972A1 (en) 2015-09-17 2017-03-23 Sonos, Inc. Media Player and Media Player Design
USD920278S1 (en) 2017-03-13 2021-05-25 Sonos, Inc. Media playback device with lights
US10248376B2 (en) 2015-06-11 2019-04-02 Sonos, Inc. Multiple groupings in a playback system
US10091506B2 (en) * 2015-06-11 2018-10-02 Sony Corporation Data-charge phase data compression architecture
US9729118B2 (en) 2015-07-24 2017-08-08 Sonos, Inc. Loudness matching
US9538305B2 (en) 2015-07-28 2017-01-03 Sonos, Inc. Calibration error conditions
US9736610B2 (en) 2015-08-21 2017-08-15 Sonos, Inc. Manipulation of playback device response using signal processing
US9712912B2 (en) 2015-08-21 2017-07-18 Sonos, Inc. Manipulation of playback device response using an acoustic filter
JP6437695B2 (ja) 2015-09-17 2018-12-12 ソノズ インコーポレイテッド オーディオ再生デバイスのキャリブレーションを容易にする方法
US9693165B2 (en) 2015-09-17 2017-06-27 Sonos, Inc. Validation of audio calibration using multi-dimensional motion check
US9743207B1 (en) 2016-01-18 2017-08-22 Sonos, Inc. Calibration using multiple recording devices
US10003899B2 (en) 2016-01-25 2018-06-19 Sonos, Inc. Calibration with particular locations
US11106423B2 (en) 2016-01-25 2021-08-31 Sonos, Inc. Evaluating calibration of a playback device
US9886234B2 (en) 2016-01-28 2018-02-06 Sonos, Inc. Systems and methods of distributing audio to one or more playback devices
US9864574B2 (en) 2016-04-01 2018-01-09 Sonos, Inc. Playback device calibration based on representation spectral characteristics
US9860662B2 (en) 2016-04-01 2018-01-02 Sonos, Inc. Updating playback device configuration information based on calibration data
US9763018B1 (en) 2016-04-12 2017-09-12 Sonos, Inc. Calibration of audio playback devices
CN109219847B (zh) * 2016-06-01 2023-07-25 杜比国际公司 将多声道音频内容转换成基于对象的音频内容的方法及用于处理具有空间位置的音频内容的方法
US9860670B1 (en) 2016-07-15 2018-01-02 Sonos, Inc. Spectral correction using spatial calibration
US9794710B1 (en) 2016-07-15 2017-10-17 Sonos, Inc. Spatial audio correction
US10372406B2 (en) 2016-07-22 2019-08-06 Sonos, Inc. Calibration interface
US10459684B2 (en) 2016-08-05 2019-10-29 Sonos, Inc. Calibration of a playback device based on an estimated frequency response
CN107731238B (zh) * 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
USD827671S1 (en) 2016-09-30 2018-09-04 Sonos, Inc. Media playback device
USD851057S1 (en) 2016-09-30 2019-06-11 Sonos, Inc. Speaker grill with graduated hole sizing over a transition area for a media device
US10412473B2 (en) 2016-09-30 2019-09-10 Sonos, Inc. Speaker grill with graduated hole sizing over a transition area for a media device
US10712997B2 (en) 2016-10-17 2020-07-14 Sonos, Inc. Room association based on name
EP3777245A1 (en) 2018-04-11 2021-02-17 Dolby International AB Methods, apparatus and systems for a pre-rendered signal for audio rendering
BR112020016912A2 (pt) * 2018-04-16 2020-12-15 Dolby Laboratories Licensing Corporation Métodos, aparelhos e sistemas para codificação e decodificação de fontes de som direcionais
US11133891B2 (en) 2018-06-29 2021-09-28 Khalifa University of Science and Technology Systems and methods for self-synchronized communications
US10951596B2 (en) * 2018-07-27 2021-03-16 Khalifa University of Science and Technology Method for secure device-to-device communication using multilayered cyphers
US11206484B2 (en) 2018-08-28 2021-12-21 Sonos, Inc. Passive speaker authentication
US10299061B1 (en) 2018-08-28 2019-05-21 Sonos, Inc. Playback device calibration
US11968268B2 (en) 2019-07-30 2024-04-23 Dolby Laboratories Licensing Corporation Coordination of audio devices
US10734965B1 (en) 2019-08-12 2020-08-04 Sonos, Inc. Audio calibration of a portable playback device
CN113593585A (zh) * 2020-04-30 2021-11-02 华为技术有限公司 音频信号的比特分配方法和装置
US11521623B2 (en) 2021-01-11 2022-12-06 Bank Of America Corporation System and method for single-speaker identification in a multi-speaker environment on a low-frequency audio recording
CN117041856A (zh) * 2021-03-05 2023-11-10 华为技术有限公司 Hoa系数的获取方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012133366A (ja) * 2010-12-21 2012-07-12 Thomson Licensing 二次元または三次元音場のアンビソニックス表現の一連のフレームをエンコードおよびデコードする方法および装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
KR100636144B1 (ko) * 2004-06-04 2006-10-18 삼성전자주식회사 오디오 신호 부호화/복호화 장치 및 방법
JP2005352396A (ja) * 2004-06-14 2005-12-22 Matsushita Electric Ind Co Ltd 音響信号符号化装置および音響信号復号装置
DE102005010057A1 (de) * 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
WO2009067741A1 (en) 2007-11-27 2009-06-04 Acouity Pty Ltd Bandwidth compression of parametric soundfield representations for transmission and storage
US8219409B2 (en) * 2008-03-31 2012-07-10 Ecole Polytechnique Federale De Lausanne Audio wave field encoding
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
TWI505262B (zh) * 2012-05-15 2015-10-21 Dolby Int Ab 具多重子流之多通道音頻信號的有效編碼與解碼
KR101726205B1 (ko) * 2012-11-07 2017-04-12 돌비 인터네셔널 에이비 감소된 복잡성 변환기 snr 계산
US9736609B2 (en) * 2013-02-07 2017-08-15 Qualcomm Incorporated Determining renderers for spherical harmonic coefficients
US9959875B2 (en) * 2013-03-01 2018-05-01 Qualcomm Incorporated Specifying spherical harmonic and/or higher order ambisonics coefficients in bitstreams
EP2800401A1 (en) * 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012133366A (ja) * 2010-12-21 2012-07-12 Thomson Licensing 二次元または三次元音場のアンビソニックス表現の一連のフレームをエンコードおよびデコードする方法および装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020171049A1 (ja) * 2019-02-19 2020-08-27 公立大学法人秋田県立大学 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置
JPWO2020171049A1 (ja) * 2019-02-19 2021-11-25 公立大学法人秋田県立大学 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置
JP7232546B2 (ja) 2019-02-19 2023-03-03 公立大学法人秋田県立大学 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置

Also Published As

Publication number Publication date
US9412385B2 (en) 2016-08-09
CN105247612B (zh) 2018-12-18
EP3005357B1 (en) 2019-10-23
US20140355768A1 (en) 2014-12-04
EP3005357A1 (en) 2016-04-13
CN105247612A (zh) 2016-01-13
KR20160012215A (ko) 2016-02-02
WO2014194001A1 (en) 2014-12-04

Similar Documents

Publication Publication Date Title
US9412385B2 (en) Performing spatial masking with respect to spherical harmonic coefficients
US11664035B2 (en) Spatial transformation of ambisonic audio data
JP6449455B2 (ja) 高次アンビソニック(hoa)バックグラウンドチャネル間の相関の低減
RU2661775C2 (ru) Передача сигнальной информации рендеринга аудио в битовом потоке
US9875745B2 (en) Normalization of ambient higher order ambisonic audio data
US10412522B2 (en) Inserting audio channels into descriptions of soundfields
US9984693B2 (en) Signaling channels for scalable coding of higher order ambisonic audio data
JP2016510905A (ja) ビットストリームにおける球面調和係数および/または高次アンビソニックス係数の指定
US10075802B1 (en) Bitrate allocation for higher order ambisonic audio data
US9466302B2 (en) Coding of spherical harmonic coefficients
US11062713B2 (en) Spatially formatted enhanced audio data for backward compatible audio bitstreams

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170508

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180626

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181127

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20190326