CN113994425A - 基于为心理声学音频编解码确定的比特分配对空间分量进行量化 - Google Patents
基于为心理声学音频编解码确定的比特分配对空间分量进行量化 Download PDFInfo
- Publication number
- CN113994425A CN113994425A CN202080044574.2A CN202080044574A CN113994425A CN 113994425 A CN113994425 A CN 113994425A CN 202080044574 A CN202080044574 A CN 202080044574A CN 113994425 A CN113994425 A CN 113994425A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- spatial
- audio
- audio data
- foreground
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 292
- 238000000034 method Methods 0.000 claims abstract description 128
- 238000013139 quantization Methods 0.000 claims description 152
- 238000009826 distribution Methods 0.000 claims description 46
- 230000003068 static effect Effects 0.000 claims description 35
- 238000004458 analytical method Methods 0.000 claims description 27
- 230000003595 spectral effect Effects 0.000 claims description 23
- 238000007906 compression Methods 0.000 claims description 17
- 230000006835 compression Effects 0.000 claims description 17
- 238000009877 rendering Methods 0.000 claims description 17
- 238000001228 spectrum Methods 0.000 claims description 17
- 230000002441 reversible effect Effects 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 230000006837 decompression Effects 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 description 49
- 238000004891 communication Methods 0.000 description 45
- 230000005540 biological transmission Effects 0.000 description 35
- 238000003860 storage Methods 0.000 description 30
- 101150036464 aptx gene Proteins 0.000 description 29
- 230000008569 process Effects 0.000 description 27
- 230000006870 function Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 9
- 230000008447 perception Effects 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 9
- 238000000354 decomposition reaction Methods 0.000 description 6
- NQTSTBMCCAVWOS-UHFFFAOYSA-N 1-dimethoxyphosphoryl-3-phenoxypropan-2-one Chemical compound COP(=O)(OC)CC(=O)COC1=CC=CC=C1 NQTSTBMCCAVWOS-UHFFFAOYSA-N 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 5
- 238000000101 transmission high energy electron diffraction Methods 0.000 description 5
- 102100022340 SHC-transforming protein 1 Human genes 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000003032 molecular docking Methods 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000282693 Cercopithecidae Species 0.000 description 1
- 101100365689 Homo sapiens SHC1 gene Proteins 0.000 description 1
- 240000004760 Pimpinella anisum Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010899 nucleation Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 229920002239 polyacrylonitrile Polymers 0.000 description 1
- 201000006292 polyarteritis nodosa Diseases 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/61—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
- H04L65/612—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for unicast
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/70—Media network packetisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/752—Media network packet handling adapting media to network capabilities
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
Abstract
一般而言,描述了用于基于为心理声学音频编解码确定的比特分配来量化空间分量的技术。包括存储器和一个或多个处理器的设备可以执行这些技术。存储器可以存储包括经编码的前景音频信号和对应的经量化的空间分量的比特流。一个或多个处理器可以针对经编码的前景音频信号执行心理声学音频解码,以获得前景音频信号,并且当执行心理声学音频解码时,确定经编码的前景音频信号的第一比特分配。一个或多个处理器还可以基于第一比特分配,确定第二比特分配,并且基于第二比特分配,对经量化的空间分量进行反量化,以获得空间分量。一个或多个处理器可以基于前景音频信号和空间分量来重构基于场景的音频数据。
Description
本申请要求于2020年6月22日提交的标题为“QUANTIZING SPATIAL COMPONENTSBASED ON BIT ALLOCATIONS DETERMINED FOR PSYCHOACOUSTIC AUDIO CODING”的美国专利申请第16/907,934号的优先权,该申请要求于2019年6月24日提交的标题为“QUANTIZINGSPATIAL COMPONENTS BASED ON BIT ALLOCATIONS DETERMINED FOR PSYCHOACOUSTICAUDIO CODING”的美国临时申请第62/865,853号的权益,其全部内容以引用方式并入本文,就如同全文阐述一样。
技术领域
本公开涉及音频数据,并且更具体地,涉及音频数据的编解码(coding)。
背景技术
心理声学音频编解码是指使用心理声学模型压缩音频数据的过程。考虑到由于空间掩蔽(例如,在同一位置的两个音频源,其中一个听觉源在响度方面掩蔽了另一听觉源)、时间掩蔽(例如,其中一个音频源在响度方面掩蔽了另一听觉源)等而出现的限制,心理声学音频编解码可以利用人类听觉系统中的限制来压缩音频数据。心理声学模型可以尝试对人类听觉系统建模以识别被掩蔽的声场或声场中冗余的、被掩蔽的或在其他方面无法被人类听觉系统感知的其他部分。心理声学音频编解码还可以通过对音频数据进行熵编码来执行无损压缩。
发明内容
一般而言,描述了用于基于为心理声学音频编解码确定的比特分配来量化空间分量的技术。
在一个示例中,该技术的各个方面涉及一种被配置为对基于场景的音频数据进行编码的设备,该设备包括:存储器,该存储器被配置为存储基于场景的音频数据;以及一个或多个处理器,该一个或多个处理器被配置为:针对(with respect to)基于场景的音频数据执行空间音频编码,以获得前景音频信号和对应的空间分量,该空间分量定义前景音频信号的空间特征;针对前景音频信号执行心理声学音频编码,以获得经编码的前景音频信号;当针对前景音频信号执行心理声学音频编码时,确定前景音频信号的第一比特分配;基于前景音频信号的第一比特分配,确定空间分量的第二比特分配;基于空间分量的第二比特分配,对空间分量进行量化,以获得经量化的空间分量;以及在比特流中指定经编码的前景音频信号和经量化的空间分量。
在另一示例中,该技术的各个方面涉及一种对基于场景的音频数据进行编码的方法,该方法包括:针对基于场景的音频数据执行空间音频编码,以获得前景音频信号和对应的空间分量,该空间分量定义前景音频信号的空间特征;针对前景音频信号执行心理声学音频编码,以获得经编码的前景音频信号;当针对前景音频信号执行心理声学音频编码时,确定前景音频信号的第一比特分配;基于前景音频信号的第一比特分配,确定空间分量的第二比特分配;基于空间分量的第二比特分配,对空间分量进行量化,以获得经量化的空间分量;以及在比特流中指定经编码的前景音频信号和经量化的空间分量。
在另一示例中,该技术的各个方面涉及一种被配置为对基于场景的音频数据进行编码的设备,该设备包括:用于针对基于场景的音频数据执行空间音频编码以获得前景音频信号和对应的空间分量的部件,该空间分量定义前景音频信号的空间特征;用于针对前景音频信号执行心理声学音频编码以获得经编码的前景音频信号的部件;用于当针对前景音频信号执行心理声学音频编码时确定前景音频信号的第一比特分配的部件;用于基于前景音频信号的第一比特分配来确定空间分量的第二比特分配的部件;用于基于空间分量的第二比特分配对空间分量进行量化以获得经量化的空间分量的部件;以及用于在比特流中指定前景音频信号和经量化的空间分量的部件。
在另一示例中,该技术的各个方面针对一种其上存储有指令的非暂时性计算机可读存储介质,该指令在被执行时使一个或多个处理器:针对基于场景的音频数据执行空间音频编码,以获得前景音频信号和对应的空间分量,该空间分量定义前景音频信号的空间特征;针对前景音频信号执行心理声学音频编码,以获得经编码的前景音频信号;当针对前景音频信号执行心理声学音频编码时,确定前景音频信号的第一比特分配;基于前景音频信号的第一比特分配,确定空间分量的第二比特分配;基于空间分量的第二比特分配,对空间分量进行量化,以获得经量化的空间分量;以及在比特流中指定前景音频信号和经量化的空间分量。
在另一示例中,该技术的各个方面涉及一种被配置为对表示经编码的基于场景的音频数据的比特流进行解码的设备,该设备包括:被配置为存储该比特流的存储器,该比特流包括经编码的前景音频信号和对应的经量化的空间分量,该空间分量定义前景音频信号的空间特征;以及一个或多个处理器,该一个或多个处理器被配置为:针对经编码的前景音频信号执行心理声学音频解码,以获得前景音频信号;当针对经编码的前景音频信号执行心理声学音频解码时,确定经编码的前景音频信号的第一比特分配;基于经编码的前景音频信号的第一比特分配,确定经量化的空间分量的第二比特分配;基于经量化的空间分量的第二比特分配,对经量化的空间分量进行反量化(dequantize),以获得空间分量;以及基于前景音频信号和空间分量来重构基于场景的音频数据。
在另一示例中,该技术的各个方面涉及一种对表示基于场景的音频数据的比特流进行解码的方法,该方法包括:从该比特流中获得经编码的前景音频信号和对应的经量化的空间分量,该经量化的空间分量定义经编码的前景音频信号的空间特征;针对经编码的前景音频信号执行心理声学音频解码以获得前景音频信号;当针对经编码的前景音频信号执行心理声学音频解码时,确定经编码的前景音频信号的第一比特分配;基于经编码的前景音频信号的第一比特分配,确定经量化的空间分量的第二比特分配;基于经量化的空间分量的第二比特分配,对经量化的空间分量进行反量化,以获得空间分量;以及基于前景音频信号和空间分量来重构基于场景的音频数据。
在另一示例中,该技术的各个方面涉及一种被配置为对表示经编码的基于场景的音频数据的比特流进行解码的设备,该设备包括:用于从该比特流中获得经编码的前景音频信号和对应的经量化的空间分量的部件,该经量化的空间分量定义经编码的前景音频信号的空间特征;用于针对经编码的前景音频信号执行心理声学音频解码,以获得前景音频信号的部件;用于当针对经编码的前景音频信号执行心理声学音频解码时,确定经编码的前景音频信号的第一比特分配的部件;用于基于经编码的前景音频信号的第一比特分配,确定经量化的空间分量的第二比特分配的部件;用于基于经量化的空间分量的第二比特分配,对经量化的空间分量进行反量化,以获得空间分量的部件;以及用于基于前景音频信号和空间分量来重构基于场景的音频数据的部件。
在另一示例中,该技术的各个方面涉及一种其上存储有指令的非暂时性计算机可读存储介质,该指令在被执行时使一个或多个处理器:从表示基于场景的音频数据的比特流中获得经编码的前景音频信号和对应的经量化的空间分量,该经量化的空间分量定义经编码的前景音频信号的空间特征;针对经编码的前景音频信号执行心理声学音频解码,以获得前景音频信号;当针对经编码的前景音频信号执行心理声学音频解码时,确定经编码的前景音频信号的第一比特分配;基于经编码的前景音频信号的第一比特分配,确定经量化的空间分量的第二比特分配;基于经量化的空间分量的第二比特分配,对经量化的空间分量进行反量化,以获得空间分量;以及基于前景音频信号和空间分量来重构基于场景的音频数据。
这些技术的一个或多个方面的细节在附图和以下描述中阐述。通过说明书和附图以及权利要求书,这些技术的其他特征、目的和优点将是显而易见的。
附图说明
图1是示出可以执行本公开中描述的技术的各个方面的系统的图。
图2是示出可以执行本公开中描述的技术的各个方面的系统的另一示例的图。
图3A和图3B是更详细地示出图1和图2的示例中所示的心理声学音频编码器的示例的框图。
图4A和图4B是更详细地示出图1和图2的心理声学音频解码器的示例的框图。
图5是示出图2的示例中所示的源设备的示例性组件的框图。
图6是示出图2的示例中所示的宿设备的示例性组件的框图。
图7是示出图1中所示的音频编码器在执行本公开中所描述的技术的各个方面时的示例性操作的流程图。
图8是示出图1中所示的音频解码器在执行本公开中所描述的技术的各个方面时的示例性操作的流程图。
具体实施方式
存在不同类型的音频格式,包括基于通道(channel)、基于对象和基于场景的格式。基于场景的格式可以使用环绕声技术。环绕声技术允许使用分层元素集合来表示声场,这些元素可以渲染到针对大多数扬声器配置的扬声器馈送。
分层元素集合的一个示例是球谐(spherical harmonic)系数(SHC)集合。以下表达式演示了使用SHC对声场的描述或表示:
该表达式表明在时间t声场任意点处的压力pi可以由SHC唯一表示。此处,c是声速(约343m/s),是参考点(或观测点),jn(·)是n阶球贝塞尔函数,并且是n阶和m子阶的球谐基函数(也可以称为作为球基函数)。可以看出,方括号中的项是信号的频域表示(即,),其可以通过各种时频变换来近似,诸如离散傅里叶变换(DFT)、离散余弦变换或小波变换。分层集合的其他示例包括小波变换系数集和多分辨率基函数的其他系数集合。
SHC可以通过各种麦克风阵列配置物理地采集(例如,记录),或者,可替代地,它们可以从声场的基于通道或基于对象的描述导出(例如,脉冲编解码调制(PCM)音频对象,包括音频对象和定义音频对象在声场内的位置的元数据)。SHC(也可以称为环绕声系数)表示基于场景的音频,其中SHC可以被输入到音频编码器以获得可以利于更有效传输或存储的经编码的SHC。例如,可以使用涉及(1+4)2个(25,因此是四阶)系数的四阶表示。
如上所述,SHC可以从使用麦克风阵列的麦克风记录导出。在Poletti,M.的“基于球谐的三维环绕声系统(Three-Dimensional Surround Sound Systems Based onSpherical Harmonics)”(《J.Audio Eng.Soc.》,第53卷,第11期,2005年11月,第1004-1025页)中描述了可以如何从麦克风阵列导出SHC的各种示例。
其中i为 是(第二类的)n阶球汉克尔函数,并且是对象的位置。了解作为频率函数的对象源能量g(ω)(例如,使用时频分析技术,诸如对PCM流执行快速傅立叶变换)允许我们将每个PCM对象和对应的位置转换为SHC此外,可以证明(因为以上是线性和正交分解)每个对象的个系数是可加的。以这种方式,多个PCM对象(其中PCM对象是音频对象的一个示例)可以由个系数表示(例如,作为单独对象的系数向量的总和)。本质上,系数包含有关声场的信息(随着3D坐标函数的压力),并且以上表示从单独对象到观测点附近的整个声场表示的转换。下面在基于SHC的音频编码的上下文中描述以下附图。
图1是示出可以执行本公开中描述的技术的各个方面的系统10的图。如图1的示例所示,系统10包括内容创建者系统12和内容消费者14。虽然在内容创建者系统12和内容消费者14的上下文中进行了描述,但是这些技术可以在其中SHC(也可以称为环绕声系数)或声场的任何其他分层表示被编码为形成表示音频数据的比特流的任何上下文中实施。
此外,内容创建者系统12可以表示包括能够实施本公开中描述的技术的任何形式的计算设备中的一个或多个的系统,包括手持机(或蜂窝电话,包括所谓的“智能手机”,或者换言之,移动电话或手持机)、平板计算机、笔记本计算机、台式计算机、扩展现实(XR)设备(其可以指虚拟现实(VR)设备、增强现实(AR)设备、混合现实(MR)设备等中的任何一个或多个)、游戏系统、光盘播放器、接收器(诸如音频/视频(A/V)接收器)或专用硬件,以提供一些示例。
同样,内容消费者14可以表示能够实施本公开中描述的技术的任何形式的计算设备,包括手持机(或蜂窝电话,包括所谓的“智能手机”,或者换言之,移动收集或电话)、XR设备、平板计算机、电视(包括所谓的“智能电视”)、机顶盒、笔记本计算机、游戏系统或控制台、手表(包括所谓的智能手表)、无线耳机(包括所谓的“智能耳机”)或台式计算机,以提供一些示例。
内容创建者系统12可以表示可以生成音频内容和可能的视频内容以供内容消费者(诸如内容消费者14)消费的任何实体。内容创建者系统12可以在诸如体育赛事的事件中捕获现场音频数据,同时还将各种其他类型的附加音频数据(诸如评论音频数据、商业音频数据、介绍或退出音频数据等)插入到现场音频内容。
内容消费者14表示拥有或可以访问音频播放系统16的个人,该音频播放系统可以指能够将高阶环绕声音频数据(其包括高阶音频系数,其同样也可以被称为球谐系数)渲染到扬声器馈送以作为音频内容播放的任何形式的音频播放系统。在图1的示例中,内容消费者14包括音频播放系统16。
环绕声音频数据可以在球谐域中定义,并从球谐域渲染或以其他方式变换到空间域,从而得到以一个或多个扬声器馈送形式的音频内容。环绕声音频数据可以表示“基于场景的音频数据”的一个示例,其使用环绕声系数描述音频场景。基于场景的音频数据与基于对象的音频数据的区别在于(在球谐域中)描述整个场景,而不是像基于对象的音频数据中常见的(在空间域中)描述离散对象。基于场景的音频数据与基于通道的音频数据的不同之处在于,基于场景的音频数据存在于球谐域中,与基于通道的音频数据的空间域不同。
在任何情况下,内容创建者系统12包括麦克风18,其以各种格式记录或以其他方式获得现场记录(包括直接作为环绕声系数和音频对象)。当麦克风阵列18(其也可以称为“麦克风18”)直接获得现场音频作为环绕声系数时,麦克风18可以包括转码器,诸如图1的示例中所示的环绕声转码器20。
换言之,虽然被示为与麦克风5分离,但环绕声转码器20可以包括在每个麦克风5内的分离实例,以便将捕获的馈送转码为环绕声系数21。然而,当未包括在麦克风18内时,环绕声转码器20可以将从麦克风18输出的实时馈送转码为环绕声系数21。就这一点而言,环绕声转码器20可以表示被配置为将麦克风馈送和/或音频对象转码为环绕声系数21的单元。因此,内容创建者系统12包括与麦克风18集成的环绕声转码器20、作为与麦克风18分离的转码器或其某种组合。
内容创建者系统12还可以包括音频编码器22,其被配置为压缩环绕声系数21以获得比特流31。音频编码器22可以包括空间音频编码设备24和心理声学音频编码设备26。空间音频编码设备24可以表示能够针对环绕声系数21执行压缩以获得中间格式化音频数据25(当内容创建者系统12表示如下更详细描述的广播网络时,其也可以被称为“夹层格式化音频数据25”)的设备。中间格式化音频数据25可以表示使用空间音频压缩进行压缩但尚未经历心理声学音频编码(例如,诸如AptX或高级音频编码(AAC),或其他类似类型的心理声学音频编码,包括各种增强AAC(eAAC),诸如高效AAC(HE-AAC)HE-AACv2,其也称为eAAC+等)的音频数据。
空间音频编码设备24可以被配置为压缩环绕声系数21。也就是说,空间音频编码设备24可以使用涉及应用线性可逆变换(LIT)的分解来压缩环绕声系数21。线性可逆变换的一个示例被称为“奇异值分解”(“SVD”)、主成分分析(“PCA”)或特征值分解,它们可以表示线性可逆分解的不同示例。
在该示例中,空间音频编码设备24可以对环绕声系数21应用SVD以确定环绕声系数21的分解版本。环绕声系数21的分解版本可以包括一个或多个主要(predominant)音频信号和描述相关联的主要音频信号的空间特征(例如,方向、形状和宽度)的一个或多个对应空间分量。如此以来,空间音频编码设备24可以将对环绕声系数21应用分解以将(如主要音频信号所表示的)能量与(如空间分量所表示的)空间特征解耦。
空间音频编码设备24可以分析环绕声系数21的分解版本以识别各种参数,这可以有利于环绕声系数21的分解版本的重新排序。空间音频编码设备24可以基于识别的参数对环绕声系数21的分解版本重新排序,其中这种重新排序可以提高编码效率,假定变换可以跨(across)环绕声系数的帧(其中帧通常包括环绕声系数21的分解版本的M个样本,并且在一些示例中M被设置为1024)对环绕声系数重新排序。
在对环绕声系数21的分解版本重新排序之后,空间音频编码设备24可以选择环绕声系数21的一个或多个分解版本作为声场的前景(或换言之,明显的、主要的或显著的)分量。空间音频编码设备24可以指定表示前景分量(其也可以称为“主要声音信号”、“主要音频信号”或“主要声音分量”)和相关联的方向信息(也可以称为“空间分量”,或者在某些情况下,称为识别对应音频对象的空间特征的所谓“V向量”)的环绕声系数21的分解版本。空间分量可以表示具有多个不同元素的向量(就向量而言,其可以被称为“系数”)并且由此可以被称为“多维向量”。
空间音频编码设备24接下来可以针对环绕声系数21执行声场分析,以便至少部分地识别表示声场的一个或多个背景(或换言之,环境)分量的环绕声系数21。背景分量也可以称为“背景音频信号”或“环境音频信号”。空间音频编码设备24可以针对背景音频信号执行能量补偿,假定在一些示例中,背景音频信号可能仅包括环绕声系数21的任何给定样本的子集(例如,诸如对应于零阶和一阶球基函数,而不是对应于二阶或更高阶球基函数的那些)。当执行降阶时,换言之,空间音频编码设备24可以增强环绕声系数21的剩余背景环绕声系数(例如,向其添加能量/从其减去能量)以补偿由于执行降阶而导致的总能量的变化。
空间音频编码设备24接下来可以针对前景方向信息(这是参考空间分量的另一种方式)执行一定形式的内插,然后针对经内插的前景方向信息执行降阶以生成经降阶的前景方向信息。在一些示例中,空间音频编码设备24可以针对经降阶的前景方向信息进一步执行量化,从而输出经编码的前景方向信息。在一些情况下,这种量化可以包括可能采用向量量化形式的标量(scalar)/熵量化。空间音频编码设备24然后可以输出中间格式化音频数据25作为背景音频信号、前景音频信号和经量化的前景方向信息。
在任何情况下,在一些示例中,背景音频信号和前景音频信号可以包括传输通道。也就是说,空间音频编码设备24可以为包括背景音频信号中的相应一个的环绕声系数21的每一帧(例如,对应于零或一阶球基函数的环绕声系数21之一的M个样本)和前景音频信号的每一帧(例如,从环绕声系数21分解的音频对象的M个样本)输出传输通道。空间音频编码设备24还可以输出包括与每个前景音频信号对应的经量化的空间分量的边信息(其也可以称为“边带信息”)。
总的来说,传输通道和边信息可以在图1的示例中表示为环绕声传输格式(ATF)音频数据25(其是指代中间格式化音频数据的另一种方式)。换言之,AFT音频数据25可以包括传输通道和边信息(其也可以称为“元数据”)。作为一个示例,ATF音频数据25可以符合HOA(高阶环绕声)传输格式(HTF)。有关HTF的更多信息可以在欧洲电信标准协会(ETSI)标题为“高阶环绕声(HOA)传输格式”的技术规范(TS)中找到(ETSITS103589V1.1.1,日期为2018年6月(2018-06))。如此以来,ATF音频数据25可以被称为HTF音频数据25。
空间音频编码设备24然后可以将ATF音频数据25发送或以其他方式输出到心理声学音频编码设备26。心理声学音频编码设备26可以针对ATF音频数据25执行心理声学音频编码以生成比特流31。心理声学音频编码设备26可以根据标准化的、开源的或专有的音频编码过程来操作。例如,心理声学音频编码设备26可以根据AptXTM、各种其他版本的AptX(例如,增强型AptX(E-AptX)、AptX live、AptX立体声和AptX高清晰度(AptX-HD))或高级音频编码(AAC)及其衍生物来执行心理声学音频编码。内容创建者系统12然后可以经由传输通道将比特流31传输到内容消费者14。
在一些示例中,心理声学音频编码设备26可以表示心理声学音频编解码器的一个或多个实例,每个实例用于对ATF音频数据25的传输通道进行编码。在一些情况下,该心理声学音频编码设备26可以表示AptX编码单元的一个或多个实例(如上所述)。在一些情况下,心理声学音频编解码器单元26可以对于ATF音频数据25的每个传输通道调用AptX编码单元的实例。
在一些示例中,为了使用环绕声系数(其同样是音频数据21的一个示例)生成声场的不同表示,音频编码器22可以使用对于声场的环绕声表示的编码方案,称为混合阶环绕声(MOA),如2017年8月8日提交的标题为“MIXED-ORDER AMBISONICS(MOA)AUDIO DATA FORCOMPUTER-MEDIATED REALITY SYSTEMS”美国专利申请序列号15/672,058中更详细讨论的,该申请作为美国专利公开号2019/0007781于2019年1月3日公布。
为了生成声场的特定MOA表示,音频编码器22可以生成完整环绕声系数集合的部分子集。例如,由音频编码器22生成的每个MOA表示可以提供关于声场的一些区域的精度,但在其他区域中提供较低的精度。在一个示例中,声场的MOA表示可以包括环绕声系数的八(8)个未压缩环绕声系数,而同一声场的三阶环绕声表示可以包括环绕声系数的十六(16)个未压缩环绕声系数。如此以来,被生成为环绕声系数的部分子集的声场的每个MOA表示可能为相比于由环绕声系数生成的相同声场的对应的三阶环绕声表示,存储密集度和带宽密集度更低(如果并且当作为比特流31的一部分通过所示出的传输通道被发送时)。
尽管关于MOA表示进行了描述,但是本公开的技术也可以针对全阶环绕声(FOA)表示来执行,其中给定阶N的所有环绕声系数被用于表示声场。换言之,声场表示生成器302可以使用给定阶N的所有环绕声系数来表示声场,而不是使用环绕声系数的部分、非零子集来表示声场,从而得到总共等于(N+1)2的环绕声系数。
就这一点而言,高阶环绕声音频数据(其是在MOA表示或FOA表示中指代环绕声系数的另一种方式)可以包括与阶数为1或更少的球基函数相关联的高阶环绕声系数(其可以被称为“一阶环绕声音频数据”)、与具有混合阶和子阶的球基函数相关联的高阶环绕声系数(其可以被称为上文讨论的“MOA表示”),或与阶数大于1的球基函数相关联的高阶环绕声系数(以上被称为“FOA表示”)。
此外,虽然在图1中示出为直接发送到内容消费者14,但是内容创建者系统12可以将比特流31输出到位于内容创建者系统12和内容消费者14之间的中间设备。中间设备可以存储比特流31以供稍后传送给请求该比特流的内容消费者14。中间设备可以包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话或能够存储比特流31以供音频解码器稍后检索的任何其他设备。中间设备可以存在于能够将比特流31(并且可能结合传输相应的视频数据比特流)流式传输到请求比特流31的订户(诸如内容消费者14)的内容交付网络中。
可替代地,内容创作者系统12可以将比特流31存储到存储介质,诸如光盘、数字视频盘、高清晰度视频盘或其他存储介质,其中大部分能够被计算机读取并因此可以被称为计算机可读存储介质或非暂时性计算机可读存储介质。在此上下文中,传输通道可以指通过其发送存储到这些介质的内容的那些通道(并且可以包括零售商店和其他基于商店的交付机制)。在任何情况下,本公开的技术不应因此在这方面限于图1的示例。
如图1的示例中进一步所示,内容消费者14包括音频播放系统16。音频播放系统16可以表示任何能够播放多通道音频数据的音频播放系统。音频播放系统16还可以包括音频解码设备32。音频解码设备32可以表示被配置为从比特流31解码环绕声系数11’的设备,其中环绕声系数11’可以类似于环绕声系数11但是由于有损操作(例如,量化)和/或经由传输通道的传输而不同。
音频解码设备32可以包括心理声学音频解码设备34和空间音频解码设备36。心理声学音频解码设备34可以表示被配置为与心理声学音频编码设备26相反地操作以由比特流31重构ATF音频数据25’的单元。同样,关于从心理声学音频解码设备34输出的ATF音频数据25的撇号表示由于在ATF音频数据25的压缩期间执行的有损操作或其他操作,ATF音频数据25’可能与ATF音频数据25略有不同。心理声学音频解码设备34可以被配置为根据标准化的、开源的或专有的音频编码处理(诸如上面提到的AptX、AptX的变体、AAC、AAC的变体等)来执行解压缩。
虽然下面主要关于AptX进行了描述,但这些技术也可以应用于其他心理声学音频编解码器。其他心理声学音频编解码器的示例包括音频编解码器3(AC-3)、Apple无损音频编解码器(ALAC)、MPEG-4音频无损流式传输(ALS)、增强AC-3、自由无损音频编解码(FLAC)、Monkey’s Audio、MPEG-1音频层II(MP2)、MPEG-1音频层III(MP3)、Opus以及视窗媒体音频(WMA)。
在任何情况下,心理声学音频解码设备34可以针对比特流31中指定的前景音频对象和表示比特流31中指定的背景音频信号的经编码的环绕声系数执行心理声学解码。以此方式,心理声学音频解码设备34可以获得ATF音频数据25’并将ATF音频数据25’输出到空间音频解码设备36。
空间音频解码设备36可以表示被配置为与空间音频编码设备24相反地操作的单元。也就是说,空间音频解码设备36可以对比特流31中指定的前景方向信息进行反量化。空间音频解码设备36还可以对经量化的前景方向信息进行反量化以获得经解码的前景方向信息。空间音频解码设备36接下来可以针对经解码的前景方向信息执行内插,然后基于经解码的前景音频信号和内插的前景方向信息来确定表示前景分量的环绕声系数。空间音频解码设备36然后可以基于所确定的表示前景音频信号的环绕声系数和表示背景音频信号的经解码的环绕声系数来确定环绕声系数11’。
音频播放系统16可以在解码比特流31以获得环绕声系数11’之后,渲染环绕声系数11’以输出扬声器馈送39。音频播放系统16可以包括多个不同的音频渲染器38。音频渲染器38可以各自提供不同形式的渲染,其中不同形式的渲染可以包括执行基于向量的幅度平移(VBAP)的各种方式中的一种或多种、执行双耳渲染的各种方式中的一种或多种(例如,与头部相关的传递函数(HRTF)、双耳房间脉冲响应(BRIR)等),和/或执行声场合成的各种方式中的一种或多种。
音频播放系统16可以将扬声器馈送39输出到一个或多个扬声器40。扬声器馈送39可以驱动扬声器40。扬声器40可以表示扩音器(例如,放置在机柜或其他外壳中的换能器)、耳机扬声器或能够基于电信号发出声音的任何其他类型的换能器。
为了选择适当的渲染器或在一些情况下生成适当的渲染器,音频播放系统16可以获得指示扬声器40的数量和/或扬声器40的空间几何形状的扩音器信息41。在一些情况下,音频播放系统16可以使用参考麦克风并驱动扬声器40来获得扩音器信息41,以此方式动态地确定扬声器信息41。在其他情况下,或者结合扬声器信息41的动态确定,音频播放系统16可以提示用户与音频播放系统16交互并输入扬声器信息41。
音频播放系统16可以基于扬声器信息41选择音频渲染器38中的一个。在一些情况下,当音频渲染器38中没有一个在扬声器信息41中指定的某个阈值相似性度量(就扩音器几何形状而言)之内时,音频播放系统16可以基于扬声器信息41生成音频渲染器38中的一个。在一些情况下,音频播放系统16可以基于扬声器信息41生成音频渲染器38中的一个,而无需首先尝试选择音频渲染器38中的现有一个。
虽然关于扬声器馈送39进行了描述,但音频播放系统16可以从扬声器馈送39或直接从环绕声系数11’渲染耳机馈送,从而将耳机馈送输出到耳机扬声器。耳机馈送可以表示双耳音频扬声器馈送,音频播放系统16使用双耳音频渲染器来渲染该双耳音频扬声器馈送。
如上所述,音频编码器22可以调用空间音频编码设备24来对环绕声音频数据21执行空间音频编码(或以其他方式压缩),从而获得ATF音频数据25。在对环绕声音频数据21应用空间音频编码期间,空间音频编码设备24可以获得前景音频信号和对应的空间分量,它们以编码形式分别指定为传输通道和伴随的元数据(或边带信息)。
如上所述,空间音频编码设备24可以关于空间分量并且在将空间分量指定为AFT音频数据25中的元数据之前应用向量量化。心理声学音频编码设备26可以独立于由空间音频编码设备24执行的对空间分量的量化来量化ATF音频数据25的每个传输通道。由于空间分量提供了对应的前景音频信号的空间特征,独立的量化可能会导致空间分量与前景音频信号之间存在不同的误差,这可能导致播放时出现音频伪影,诸如对上述音频信号在重构的声场内的错误定位、较高质量前景音频信号的较差空间分辨率、以及可能导致声场的再现期间的干扰或明显不准确的其他异常情况。
根据本公开中描述的技术的各个方面,空间音频编码设备24和心理声学音频编码设备26被集成,因为心理声学音频编码设备26可以合并空间分量量化器(SCQ)46,从而从空间音频编码设备24卸载量化。SCQ 46可以基于为传输通道指定的比特分配来针对空间分量执行量化,从而更紧密地集成空间音频编码设备24和心理声学音频编码设备26。对准或以其他方式集成两个设备24和26可以允许更均匀的量化,这可以减少或以其他方式消除上述音频伪影,从而提高音频编码器22本身的性能。
在操作中,空间音频编码设备24可以针对基于场景的音频数据21执行空间音频编码以获得前景音频信号和对应的空间分量。然而,由空间音频编码设备24执行的空间音频编码省略了空间分量的上述量化,因为再次将量化卸载到心理声学音频编码设备26。空间音频编码设备24可以将ATF音频数据25输出到心理声学音频编码设备26。
音频编码器22调用心理声学音频编码设备26以针对前景音频信号执行心理声学音频编码以获得经编码的前景音频信号。在一些示例中,心理声学音频编码设备26可以根据AptX压缩算法来执行心理声学音频编码,包括上面列出的各种版本中的AptX的任何一个。AptX压缩算法大体上关于图5至图8的示例进行描述。
心理声学音频编码设备26可以在针对前景音频信号执行心理声学音频编码时确定前景音频信号的第一比特分配。心理声学音频编码设备26可以基于前景音频信号的第一比特分配来确定空间分量的第二比特分配。由于第二比特分配是基于第一比特分配确定的,因此心理声学音频编码设备26更充分地集成跨前景音频信号和空间分量的量化。心理声学音频编码设备26可以调用SCQ 46,将第二比特分配传递给SCQ 46。SCQ46可以应用量化(诸如向量量化)来为空间分量实现满足或超过第二比特分配的比特分配。心理声学音频编码设备26然后可以在比特流31中指定经编码的前景音频信号和经量化的空间分量。
如上所述,音频解码器32可以与音频编码器22相反地操作。如此以来,音频解码器32可以获得比特流31并调用心理声学音频解码设备34以针对经编码的前景音频信号执行心理声学音频解码,以获得前景音频信号。如上所述,心理声学音频解码设备34可以根据AptX解压缩算法执行心理声学音频解码。同样,关于AptX解压缩算法的更多信息在下面关于图5至图8的示例进行描述。
在任何情况下,当针对前景音频信号执行心理声学音频编码时,心理声学音频解码设备34可以确定经编码的前景音频信号的第一比特分配。心理声学音频解码设备34还可以基于经编码的前景音频信号的第一比特分配来确定经量化的空间分量的第二比特分配。心理声学音频解码设备34可以调用空间分量反量化器(SCD)54,其可以基于空间分量的第二比特分配对经量化的空间分量进行反量化以获得空间分量。心理声学音频解码设备34可以基于前景音频信号和空间分量来重构ATF音频数据25’。空间音频解码设备36然后可以基于前景音频信号和空间分量来重构基于场景的音频数据21’。
图2是示出可以执行本公开中描述的技术的各个方面的系统的另一示例的图。图2的系统110可以表示图1的示例中所示的系统10的一个示例。如图2的示例所示,系统110包括源设备112和宿设备114,其中源设备112可以表示内容创建者系统12的示例并且宿设备114可以表示内容消费者14和/或音频播放系统16的示例。
尽管关于源设备112和宿设备114进行了描述,但是在一些情况下,源设备112可以作为宿设备来操作,并且在这些和其他情况下,宿设备114可以作为源设备来操作。如此以来,图2中所示的系统110的示例仅仅是说明本公开中描述的技术的各个方面的一个示例。
在任何情况下,如上所述,源设备112可以表示能够实施本公开中描述的技术的任何形式的计算设备,包括手持机(或蜂窝电话,包括所谓的“智能电话”)、平板计算机、所谓的智能电话、遥控飞行器(诸如所谓的“无人机”)、机器人、台式计算机、接收器(诸如音频/视频(AV)接收器)、机顶盒、电视(包括所谓的“智能电视”)、媒体播放器(诸如数字视频光盘播放器、流媒体播放器、蓝光光盘TM播放器等)或能够经由个人局域网(PAN)将音频数据无线传达到宿设备的任何其他设备。出于例示说明的目的,假设源设备112表示智能电话。
宿设备114可以表示能够实施本公开中描述的技术的任何形式的计算设备,包括手持机(或者换言之,蜂窝电话、移动电话、移动手持机等)、平板计算机、智能电话、台式计算机、无线耳机(其可以包括带或不带麦克风的无线耳机,以及包括诸如健康监测之类的附加功能的所谓智能无线耳机、机载音乐存储和/或播放、专用蜂窝功能等)、无线扬声器(包括所谓的“智能扬声器”)、手表(包括所谓的“智能手表”)或能够基于经由PAN无线传送的音频数据再现声场任何其他设备。此外,出于例示说明的目的,假设宿设备114表示无线耳机。
如图2的示例中所示,源设备112包括一个或多个应用(“app”)118A-118N(“app118”)、混合单元120、音频编码器122(其包括空间音频编码设备(SAED)124和心理声学音频编码设备(PAED)126),以及无线连接管理器128。尽管未在图2的示例中示出,源设备112可以包括支持app 118的操作的多个其他元件,包括操作系统、各种硬件和/或软件界面(诸如用户界面,包括图形用户界面)、一个或多个处理器、存储器、存储设备等。
app 118中的每一个表示软件(诸如存储到非暂时性计算机可读介质的指令的集合),其配置系统110以在由源设备112的一个或多个处理器执行时提供某些功能。举几个示例,app 118可以提供消息发送功能(诸如访问电子邮件、文本消息发送和/或视频消息发送)、语音呼叫功能、视频会议功能、日历功能、音频流式传输功能、指导功能、映射功能、游戏功能。app 118可以是由设计和销售由源设备112执行的操作系统的同一公司设计和开发的第一方应用(并且通常预安装在源设备112上)或可经由所谓“应用商店”访问或可能预安装在源设备112上的第三方应用。每个app 118在被执行时可以相应地输出音频数据119A-119N(“音频数据119”)。
在一些示例中,音频数据119可以从连接到源设备112的麦克风(未图示,但类似于图1的示例中所示的麦克风5)生成。音频数据119可以包括与以上关于图1的示例讨论的环绕声音频数据21类似的环绕声系数,其中这种环绕声音频数据可以被称为“基于场景的音频数据”。如此以来,音频数据119也可以被称为“基于场景的音频数据119”或“环绕声音频数据119”。
尽管关于环绕声音频数据进行了描述,但可以关于不一定包括对应于所谓的“高阶”球基函数(例如,阶数大于1的球基函数)的系数的环绕声音频数据执行这些技术。因此,可以关于包括仅对应于零阶球基函数或仅对应于零阶和一阶球基函数的系数的环绕声音频数据执行这些技术。
混合单元120表示被配置为混合由app 118输出的一个或多个音频数据119(以及由操作系统输出的其他音频数据-诸如警报或其他音调,包括键盘按键音、铃声等)以生成混合音频数据121的单元。音频混合可以指将(如音频数据119中阐述的)多个声音组合到一个或多个通道内的过程。在混合期间,混合单元120还可以操纵和/或增强环绕声音频数据119的音量水平(其也可以称为“增益水平”)、频率内容和/或全景位置。在通过无线PAN会话流式传输环绕声音频数据119的上下文中,混合单元120可以将混合音频数据121输出到音频编码器122。
音频编码器122可以与以上图1的示例中描述的音频编码器22类似(如果不是基本上类似的话)。也就是说,音频编码器122可以表示被配置为对混合音频数据121进行编码从而获得以比特流131形式的经编码的音频数据的单元。在一些示例中,音频编码器122可以对音频数据119中的各个音频数据进行编码。
出于例示说明目的参考PAN协议的一个示例,提供了多种不同类型的音频编解码器(其是由“编码”和“解码”这两个词组合而成的词),并且可扩展以包括供应商特定的音频编解码器。的高级音频分发配置文件(A2DP)表明对A2DP的支持需要支持A2DP中指定的子带编解码器。A2DP还支持MPEG-1Part 3(MP2)、MPEG-2Part 3(MP3)、MPEG-2Part 7(高级音频编解码-AAC)、MPEG-4Part 3(高效率-AAC(HE-AAC))和自适应变换声学编解码(ATRAC)中阐述的编解码器。此外,如上所述,的A2DP支持供应商特定的编解码器,诸如aptXTM和各种其他版本的aptX(例如,增强型aptX(E-aptX)、aptX live和aptX高清(aptX-HD))。
音频编码器122可以与上面列出的音频编解码器中的一个或多个以及上面未列出的音频编解码器中的一个或多个一致地操作,但是其进行操作以对混合音频数据121进行编码以获得经编码的音频数据131(其为指代比特流131的另一种方式)。音频编码器122可以首先调用SAED 124,其可以与图1的示例中所示的SAED 24类似(如果不是基本上类似的话)。SAED 124可以针对混合音频数据执行上述空间音频压缩,以获得ATF音频数据125(其与图1的示例中所示的ATF音频数据25类似(如果不是基本上类似的话))。SAED 124可以将ATF音频数据25输出到PAED 126。
PAED 126可以与图1的示例中所示的PAED 26类似(如果不是基本上类似的话)。PAED 126可以根据任何前述编解码器(包括AptX及其变体)执行心理声学音频编码,以获得比特流131。音频编码器122可以将经编码的音频数据131输出到由无线连接管理器128管理的无线通信单元130中的一个(例如,无线通信单元130A)。
无线连接管理器128可以表示被配置为将可用频谱的某些频率内的带宽分配给无线通信单元130中不同无线通信单元的单元。例如,通信协议在2.5GHz频谱范围内运行,这与各种WLAN通信协议使用的频谱范围重叠。无线连接管理器128可以在给定时间期间将带宽的某些部分分配给协议并且在不同时间期间将带宽的不同部分分配给重叠的WLAN协议。带宽和其他的分配由方案129定义。无线连接管理器128可以暴露各种应用程序接口(API),通过这些应用程序接口来调整带宽分配和通信协议的其他方面,以便实现指定的服务质量(QoS)。也就是说,无线连接管理器128可以提供API来调整方案129,通过该方案来控制无线通信单元130的操作以实现指定的QoS。
换言之,无线连接管理器128可以管理在相同频谱内操作的多个无线通信单元130的共存,诸如如上所述的某些WLAN通信协议和一些PAN协议。无线连接管理器128可以包括共存方案129(在图2中示出为“方案129”),其指示无线通信单元130中的每一个何时(例如,间隔)可以发送分组和发送多少分组、发送的分组的大小,等等。
无线通信单元130可以各自表示根据一个或多个通信协议来操作以经由传输通道将比特流131传达到宿设备114的无线通信单元130。在图2的示例中,出于例示说明的目的,假设无线通信单元130A根据通信协议套件进行操作。进一步假设无线通信单元130A根据A2DP操作以建立PAN链路(通过传输通道)以允许将比特流131从源设备112传送到宿设备114。
有关通信协议套件的更多信息,请参见2016年12月6日发布的标题为“蓝牙核心规范5.0版本(Bluetooth Core Specification v 5.0)”的文档,其可从以下网址获取:www.bluetooth.org/en-us/specification/adopted-specifications。有关A2DP的更多信息,请参见2015年7月14日发布的标题为“高级音频分发配置文件规范(AdvancedAudio Distribution Profile Specification)”(1.3.1版本)的文档。
无线通信单元130A可以经由传输通道将比特流131输出到宿设备114,传输通道在蓝牙的示例中被假设为无线信道。虽然在图2中被示为被直接发送到宿设备114,但是源设备112可以将比特流131输出到位于源设备112和宿设备114之间的中间设备。中间设备可以存储比特流131以供稍后传送到可以请求比特流131的宿设备14。中间设备可以包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话或能够存储比特流131以供音频解码器稍后检索的任何其他设备。该中间设备可以存在于能够将比特流131(并且可能结合传输相应的视频数据比特流)流式传输到请求比特流131的订户(诸如宿设备114)的内容交付网络中。
可替代地,源设备112可以将比特流131存储到存储介质,诸如光盘、数字视频盘、高清晰度视频盘或其他存储介质,其中大部分能够被计算机读取并因此可以被称为计算机可读存储介质或非暂时性计算机可读存储介质。在此上下文中,传输通道可以指通过其发送存储到这些介质的内容的那些通道(并且可以包括零售商店和其他基于商店的交付机制)。在任何情况下,本公开的技术不应因此在这方面限于图2的示例。
如图2的示例中进一步所示,宿设备114包括根据方案151管理无线通信单元152A-152N(“无线通信单元152”)中的一个或多个的无线连接管理器150、音频解码器132(包括心理声学音频解码设备(PADD)134和空间音频解码设备(SADD)136),以及一个或多个扬声器140A-140N(“扬声器140”,其可以类似于图1的示例中所示的扬声器40)。无线连接管理器150可以以类似于以上关于无线连接管理器128描述的方式来操作,暴露API以调整方案151,无线通信单元152的操作通过该方案来实现指定的QoS。
无线通信单元152在操作中可以类似于无线通信单元130,除了无线通信单元152与无线通信单元130相反地操作以经由传输通道接收比特流131之外。假设无线通信单元152中的一个(例如,无线通信单元152A)根据通信协议套件并且与无线通信协议相反地操作。无线通信单元152A可以将比特流131输出到音频解码器132。
音频解码器132可以以与音频编码器122相反的方式来操作。音频解码器132可以与上面列出的音频编解码器中的一个或多个以及上面未列出的音频编解码器中的一个或多个一致地操作,但是其进行操作以对经编码的音频数据131进行解码以获得混合音频数据121’。同样,关于“混合音频数据121”的撇号表示可能由于在音频编码器122进行编码期间发生的量化操作或其他有损操作而存在一些损失。
音频解码器132可以调用PADD 134来针对比特流131执行心理声学音频解码,以获得ATF音频数据125’,PADD 134可以将其输出到SADD 136。SADD 136可以执行空间音频解码以获得混合音频数据121’。尽管为了便于例示说明的目的在图2的示例中没有示出渲染器(类似于图1的渲染器38),但是音频解码器132可以将混合音频数据121’渲染到扬声器馈送(使用任何渲染器,诸如上面关于图1的示例讨论的渲染器38)并且将扬声器馈送输出到一个或多个扬声器140。
每个扬声器140表示被配置为从扬声器馈送再现声场的换能器。如图2的示例中所示,换能器可以集成在宿设备114内,或者可以通信地耦接到宿设备114(经由有线或无线)。扬声器140可以表示任何形式的扬声器,诸如扩音器、耳机扬声器或耳塞中的扬声器。此外,尽管关于换能器进行了描述,但是扬声器140可以表示其他形式的扬声器,诸如骨传导耳机中使用的“扬声器”,其将振动发送到上颌,这在人类听觉系统中感应出声音。
如上所述,PAED 126可以执行上面关于PAED 26描述的量化技术的各个方面,以基于空间分量的前景音频信号相关比特分配来量化空间分量。PADD 134还可以执行上面关于PADD 34描述的量化技术的各个方面,以基于空间分量的前景音频信号相关比特分配对经量化的空间分量进行反量化。关于图3A和图3B的示例提供了关于PAED 126的更多信息,而关于图4A和图4B的示例提供了关于PADD 134的更多信息。
图3A是更详细地示出图1和图2的示例中所示的心理声学音频编码器的示例的框图。PAED 326A可以表示PAED 26和126的一个示例,其中PAED326A可以被配置为对音频数据进行编码,以便通过PAN(例如,)或任何其他形式的无线通信(诸如蜂窝无线通信所谓的3G、4G和/或5G无线通信、WiFiTM等)进行传输。然而,由音频编码器326A执行的本公开的技术可以用于需要压缩音频数据的任何上下文中。在一些示例中,音频编码器326A可以被配置为根据aptXTM音频编解码器对音频数据25进行编码,包括例如增强aptX(E-aptX)、aptXlive和aptX高清晰度。然而,本公开的技术可以用于任何音频编解码器。如下文将更详细地解释的,音频编码器326A可以被配置为根据本公开中描述的技术的各个方面来执行感知音频编码的各个方面。
在图3A的示例中,音频编码器326A可以被配置为使用增益-形状向量量化编码过程对音频数据25进行编码。在增益-形状向量量化编码过程中,音频编码器326A被配置为分别对频域音频数据的子带的增益(例如,能量级别)和形状(例如,由变换系数定义的残差向量)两者进行编码。频域音频数据的每个子带表示音频数据25的特定帧的某频率范围。通常,贯穿本公开,术语“子带”表示频率范围、频带等。
音频编码器326A可以首先调用变换编解码器328,其表示被配置为处理音频数据25的单元。变换单元328可以被配置为通过至少部分地对音频数据25的帧应用变换并由此将音频数据25从时域变换到频域以产生频域音频数据329,来处理音频数据25。
音频数据25的帧可以由音频数据的预定数量的样本来表示。在一个示例中,音频数据25的一帧可以是1024个样本宽。可以基于正在使用的频率变换和所需的压缩量来选择不同的帧宽度。频域音频数据329可以表示为变换系数,其中每个变换系数的值表示频域音频数据329在特定频率下的能量。
在一个示例中,变换单元328可以被配置为使用修改的离散余弦变换(MDCT)将音频数据25变换为频域音频数据329。MDCT是基于类型IV离散余弦变换的“重叠”变换。MDCT被认为是“重叠的”,因为它可以处理来自多个帧的数据。也就是说,为了使用MDCT执行变换,变换单元328可以将百分之五十重叠窗口包括到音频数据的后续帧中。MDCT的重叠特性可能对数据压缩技术(诸如音频编码)有用,因为它可以减少帧边界处编码的伪影。变换单元328不必限于使用MDCT而是可以使用其他频域变换技术来将音频数据25变换成频域音频数据329。
尽管未在图3A的示例中示出,PAED 326A接下来可以调用子带滤波器,其可以表示被配置为将频域音频数据329分离成子带的单元。每个子带包括在特定频率范围内的频域音频数据329的变换系数。例如,子带滤波器可以将频域音频数据329分离成二十个不同的子带。在一些示例中,子带滤波器可以被配置为将频域音频数据329分离成具有均匀频率范围的子带。在其他示例中,子带滤波器可以被配置为将频域音频数据329分离成具有非均匀频率范围的子带。
例如,子带滤波器可以被配置为根据巴克标度(Bark scale)将频域音频数据329分离成子带。通常,巴克标度的子带具有感知上距离相等的频率范围。也就是说,巴克标度的子带在频率范围方面不相等,而是在人类听觉感知方面相等。一般而言,较低频率下的子带将具有较少的变换系数,因为较低的频率更容易被人类听觉系统感知。
如此以来,与较高频率子带相比,子带中较低频率子带中的频域音频数据329被PAED 326A更少地压缩。同样,子带中较高频率的子带可以包括更多变换系数,因为较高频率更难被人类听觉系统感知。因此,与较低频率子带相比,子带的较高频率子带中的数据中的频域音频329可以被PAED 326A更多地压缩。
PAED 326A可以被配置为使用子带处理单元处理每个子带。也就是说,子带处理单元可以被配置为单独处理每个子带。子带处理单元可以被配置为执行增益-形状向量量化过程。
增益-形状分析单元330可以接收子带作为输入。对于每个子带,增益-形状分析单元330可以确定每个子带的能量级别331A。也就是说,每个子带具有相关联的能量级别331A。能量级别331A是以分贝(dB)为单位的标量值,其表示子带中的特定子带的变换系数中的能量总量(也称为增益)。增益-形状分析单元330可以从子带的变换系数中分离子带中的一个的能量级别331A,以产生残差向量331B。残差向量331B表示子带的所谓“形状”。子带的形状也可以称为子带的频谱。
为了执行增益-形状分析,PAED 326A可以调用频谱感知分析单元324,其可以表示被配置为分析频域音频数据329以识别每个子带相对于其他声音频带(可能同时在时间上和在同一时间段的子带之间)的感知重要性的单元。频谱感知分析单元324可以识别哪些子带应该经过增益-形状分析,从而向增益-形状分析单元330和静态空间比特重新分布单元352输出指示325。增益-形状分析单元330然后可以基于指示325来执行上面关于子带讨论的增益-形状分析。
向量量化器332可以表示被配置为对残差向量331B进行量化的单元。在一个示例中,向量量化器332可以使用量化过程对残差向量进行量化,以产生残差ID 333。代替单独量化每个样本(例如,标量量化),向量量化器332可以被配置为对包括在残差向量332(例如,形状向量)中的样本块进行量化。
在一些示例中,PAED 326A可以动态地分配用于对能量级别331A和残差向量331B进行编码的比特。也就是说,对于每个子带,PAED 326A可以调用动态比特分配单元334,其可以表示被配置为确定被分配用于能量量化(例如,由能量量化器336)的比特数和被分配用于向量量化(例如,由向量量化器332)的比特数。
动态比特分配单元334可以根据心理声学模型335A(“PM 335A”)为每个形状向量331B分配比特,该心理声学模型可以尝试对人类听觉系统建模,从而识别冗余的、不可感知的、掩蔽的和/或无法感知的声场的其他方面。动态比特分配单元334然后可以根据PM 335A来分配比特,从而减少或消除用于人类听觉系统不能感知的或声场内冗余的声场分量的比特。分配用于能量量化的总比特数可以被称为能量指定比特。然后可以在粗略量化过程和精细量化过程以及向量量化过程之间分配所分配的比特。
动态比特分配单元334可以从加法器342获得重构能量,其可以基于粗略能量339和精细能量341来重构(经由加法)能量331A’。动态比特分配单元334可以将PM 335A应用于重构能量331A’以获得比特分配337。动态比特分配单元334可以将比特分配337输出到形状向量量化器332、动态空间比特重新分布单元350以及能量量化器336(尽管在图3A的示例中未示出)。
能量量化器336可以接收子带的能量级别331A并将子带的能量级别336量化为粗略能量339和精细能量341。本公开将描述对于一个子带的量化过程,但是应当理解,能量量化器336可以对一个或多个子带(包括每个子带)执行能量量化。
如图3A的示例中所示,能量量化器336可以包括粗略增益量化(“CGQ”)单元338、精细增益量化(“FGQ”)单元340和加法器342。尽管未在图3A的示例中示出,能量量化器336还可以包括预测差分(P/D)单元,其可以预测或以其他方式识别对于音频数据的同一帧的一个子带与另一子带(其可以被称为频率域中的空间预测)或对于来自不同帧的子带中的一个相同(或可能不同)子带的能量级别331A之间的差(其可以被称为时间预测)。P/D单元可以以此方式分析能量级别331A以获得每个子带的预测能量级别(“PEL”)。P/D单元可以将预测的能量级别输出到粗略量化单元338。
CGQ单元338可以表示被配置为针对预测的能量级别执行粗略量化以获得经量化的粗略能量339的单元。CGQ单元338可以将经量化的粗略能量339输出到比特流编码器344和加法器342。CGQ单元338还可以获得经量化的粗略能量339与预测能量级别的差。CGQ单元338可以向FGQ单元340输出该差作为误差343(其也可以称为“残差343”)。
FGQ单元340可以表示被配置为针对误差343执行精细量化的单元。相对于由粗略量化单元338执行的粗略量化,精细量化可以被认为是“精细的”。也就是说,精细量化单元340可以根据比执行粗略量化时使用的步长大小具有更高分辨率的步长大小进行量化,从而进一步量化误差343。FGQ单元340可以获得对于每个子带的经量化的精细能量341,作为针对误差343执行精细量化的结果。精细量化单元340可以将经量化的精细能量341输出到比特流编码器344。
一般而言,能量量化器336可以执行多步量化过程。能量量化器336可以首先使用用于粗略量化过程的第一数量的比特来量化能量级别338,以生成粗略能量339。能量量化器336可以使用用于量化的预定能量级别范围(例如,由最大和最小能量级别定义的范围)来生成粗略能量。粗略能量339接近能量级别331A的值。
能量量化器336然后可以确定粗略能量339和预测能量级别之间的差。该差有时称为量化误差(或残差)。能量量化器336然后可以在精细量化过程中使用第二数量的比特来量化量化误差,以产生精细能量341。用于精细量化比特的比特数由所分配能量的比特总数减去用于粗略量化过程的比特数来确定。当加在一起时,粗略能量339和精细能量341表示能量级别331A的总量化值。
PAED 326A还可以被配置为使用比特流编码器344对粗略能量339、精细能量341和残差ID 333进行编码,以创建经编码的音频数据31。比特流编码器344可以被配置为使用上述熵编码过程中的一个或多个来进一步压缩粗略能量339、精细能量341以及残差ID 333。
能量量化器336(和/或其组件,诸如FGQ单元340)可以实施分层速率控制机制以提供更大程度的可扩展性并实现无缝或基本上无缝的实时流式传输。例如,根据本公开的方面,FGQ单元340可以实施分层精细量化方案。在一些示例中,FGQ单元340调用复用器(或“MUX”)来实施对分层速率控制的选择操作。
术语“粗略量化”是指上述两步粗略-精细量化过程的组合操作。FGQ单元340可以针对从CGQ单元338接收的误差343执行精细量化的一个或多个附加迭代。FGQ单元340可以使用复用器在各种(较)精细能量级别之间切换和遍历。
分层速率控制可以指基于树的精细量化结构或级联精细量化结构。当被视为基于树的结构时,现有的两步量化操作形成树的根节点,并且根节点被描述为具有一(1)的分辨率深度。根据用于进一步精细量化的比特的可用性,复用器可以选择精细粒度量化的(多个)附加级别。关于表示本公开的多级别精细量化技术的基于树的结构,由复用器选择的任何这种后续精细量化级别表示二(2)、三(3)等的分辨率深度。
FGQ单元340可以提供关于无线PAN中的无缝实时流式传输场景的改进的可扩展性和控制。例如,FGQ单元340可以在更高层级别层次上复制分层精细量化方案和量化复用树,在更一般的决策树的粗量化点处播种。此外,FGQ单元340可以使PAED 326能够实现无缝或基本上无缝的实时压缩和流式传输导航。例如,FGQ单元340可以执行关于多级别精细量化的多根分层决策结构,从而使能量量化器336能够利用总可用比特来实施精细量化的潜在数次迭代。
FGQ单元340可以以多种方式实施分层速率控制过程。FGQ单元340可以在每个子带的基础上调用复用器以针对属于每个子带的误差343信息独立地复用(并由此选择相应的基于树的量化方案)。也就是说,在这些示例中,FGQ单元340独立于针对子带中任何其他子带的量化机制选择,为每个相应子带执行基于复用的分层量化机制选择。在这些示例中,FGQ单元340根据仅关于相应子带指定的目标比特率来量化每个子带。在这些示例中,PAED326A可以作为经编码的音频数据31的一部分用信号发送对于每个子带的特定分层量化方案的细节。
在其他示例中,FGQ单元340可以仅调用复用器一次,并由此为属于所有子带的误差343信息选择单个基于复用的量化方案。也就是说,在这些示例中,FGQ单元340根据相同的目标比特率对属于所有子带的误差343信息进行量化,该目标比特率是一次性选择的并且为所有子带统一定义。在这些示例中,PAED 326A可以作为经编码的音频数据31的一部分用信号发送在所有子带上应用的单个分层量化方案的细节。
如图3A的示例中进一步所示,CGQ单元338可以向静态空间比特重新分布单元352输出粗略能量339的比特分配349。比特分配349可以定义分配给粗略增益339的比特数。FGQ单元340可以将一个或多个精细能量341中的每一个的比特分配351输出到动态空间比特重新分布单元350。比特分配351可以定义分配给一个或多个精细增益341中的每一个的比特数。
静态空间比特重新分布(“SBR”)单元352可以表示一种单元,其被配置为基于频谱感知重要性的指示325(来自频谱感知分析单元324)和粗略能量339的比特分配349,对不同子带的不同粗略能量之间的比特339进行重新分布以实现目标比特率(其通常在编码之前定义或基于各种操作条件确定,诸如通信链路带宽、通信链路信噪比(SNR)、电池电量或其他条件)。静态SBR单元352可以向时空比特分布器354输出比特重新分布359(其也可以被称为“静态空间比特分布359”)。
动态SBR单元350可以表示被配置为基于动态比特分配337和精细能量341的比特分配351在不同子带之间重新分布比特的单元。动态SBR单元350可以根据与PM 335A类似或基本类似的PM 335B来操作,以获得比特重新分布361(其也可以被称为“动态空间比特分布351”)。动态SBR单元350可以将比特重新分配361输出到时空比特分布器354。
时空比特分布器354然后可以基于比特分布361和359确定时空比特分布355。时空比特分布355既是空间也是时间的,因为空间分量定义前景音频信号随时间的空间特征。时空比特分布器354可以确定时空比特分布355以实现目标比特率。时空比特分布器354可以将时空比特分布355输出到ATF比特分配单元356。
ATF比特分配单元356可以表示被配置为基于时空比特分布355来确定空间分量比特分配357的单元。ATF比特分配单元356可以基于目标比特率来确定空间分量比特分配357,将一些比特分配给前景音频信号和背景音频信号,并将剩余比特分配给空间分量。ATF比特分配单元356可以将空间分量比特分配357输出到空间分量量化器46,空间分量量化器可以如上所述进行操作,以基于空间分量比特分配357对空间分量45进行量化,以获得经量化的空间分量47。
就这一点而言,PAED 326A可以调用增益-形状分析单元330来针对(由频域音频数据329表示的)前景音频信号执行形状和增益分析,以获得表示前景音频信号的形状331B和增益331A。PAED 326A然后可以针对增益331A执行量化,以获得粗略增益339和一个或多个精细残差341。PAED 326A可以调用动态SBR单元350和静态SBR单元352来(分别)确定比特分配361和359,时空比特分布器354可以对其进行处理以获得时空比特分布355。基于时空比特分布355,ATF比特分配单元356可以确定空间分量比特分布357。
接下来参考图3B的示例,PAED 326B可以表示图1和图2的示例中所示的PAED 26和/或126的另一示例。如此以来,PAED 326B可以类似于PAED326A,除了PAED 326B不包括增益-形状分析单元330、形状向量量化器332和分层粗略-精细增益量化单元336(包括粗略增益量化单元338、精细增益量化单元340和加法器342)之外。
相反,PAED 326B包括通用量化器380,其量化频域音频数据329以产生经量化的音频数据381,该经量化的音频数据被输出到动态比特分配单元334和比特流编码器344。量化器380可以执行任何形式的量化,无论是粗量化/精细量化、分层量化、多步量化、单步量化、动态量化和/或静态量化。量化器380还向动态SBR单元350、静态SBR单元352和比特流编码器344输出比特分配。
图4A和图4B是更详细地示出图1和图2的心理声学音频解码器的示例的框图。在图4A的示例中,PADD 434A表示图1和图2的示例中所示的PADD 34和PADD 134的另一示例。PADD 434A可以表示被配置为根据AptX解压缩算法来执行心理声学音频解码的音频解码器。
如图4A的示例中进一步所示,PADD 434A包括比特流解码器436、形状向量反量化器438、能量反量化器440(包括粗略增益反量化器442、精细增益反量化器444、加法器446)、增益-形状合成单元448和逆变换编解码器450。比特流解码器436可以表示被配置为从经编码的音频数据31中提取粗略能量339、精细能量341和残差ID 333的单元。比特流解码器436可以基于粗略能量比特分配349和精细能量比特分配351来提取粗略能量339、精细能量341和残差ID 333中的一个或多个。比特流解码器436可以将粗略能量339输出到粗略增益反量化器442,将经量化的精细能量341输出到精细增益反量化器444,并将残差ID 333输出到形状向量反量化器438。
能量反量化器440可以表示被配置为以与图3A所示的能量量化器336执行的量化相反的方式执行反量化的单元。能量反量化器336可以针对粗略能量339和精细能量441执行反量化,以获得预测/差(difference)能量级别,能量反量化器336可以执行逆预测或差计算,以获得能量级别331A’。能量反量化器440可以将能量级别331A’输出到增益-形状合成单元448。
如果经编码的音频数据31包括设置为指示精细能量349被分层量化的值的语法元素,则能量反量化器440可以分层地对精细能量341进行反量化。在一些示例中,经编码的音频数据31可以包括指示经分层量化的精细能量349是在所有子带上使用相同分层量化结构形成的还是使用关于每个子带分别确定的相应分层量化结构形成的语法元素。基于语法元素的值,能量反量化器440可以在所有子带上应用相同的分层反量化结构,如精细能量341所表示的,或者可以在对精细能量341进行反量化时,在每个子带的基础上更新分层反量化结构。
在操作中,比特流解码器436可以从比特流31中解析粗略能量339的比特分配349,并且将比特分配349提供给粗略增益反量化器442。粗略增益反量化器442可以表示被配置为基于比特分配349针对粗略增益339执行反量化,以获得经反量化的粗略能量443的单元。粗略增益反量化器442可以将经反量化的粗能量443输出到加法器446。
比特流解码器436可以从比特流31解析精细能量341的比特分配351,并将比特分配351提供给精细增益反量化器444。精细增益反量化器444可以表示被配置为基于比特分配351针对精细增益341执行反量化以获得经反量化的精细能量445的单元。精细增益反量化器444可以将经反量化的精细能量445输出到加法器446。
加法器446可以表示被配置为将经反量化的粗略增益443与经反量化的精细增益445求和或换言之相加,以获得能量级别331A’,其中撇号表示由于有损量化操作,能量级别331A’可能不同于能量级别331A。加法器446可以将能量级别331A’输出到增益-形状合成单元448。
如上所述,比特流解码器436可以将残差ID 333解析到形状向量反量化器438,该形状向量反量化器可以表示被配置为以与由形状向量量化器332执行的向量量化相反的方式执行向量反量化的单元。形状向量反量化器438可以针对残差ID 333执行向量反量化,以获得残差向量331B’。形状向量反量化器438可以将残差向量331B’输出到增益-形状合成单元448,其中同样,残差向量331B’的撇号表示由于有损量化操作,残差向量331B’可能不同于残差向量331B。
形状向量反量化器438可以基于动态确定的比特分配337来执行向量反量化。如图4A的示例中进一步所示,PADD 434A包括动态比特分配单元452,其可以表示被配置为将PM335A应用于经反量化的能量级别331A’以获得动态比特分配337的单元。动态比特分配单元452可以以与上文关于图3A的示例描述的动态比特分配单元334类似(如果不是基本类似的话)的方式来操作。动态比特分配单元452可以将动态比特分配337输出到形状向量反量化器438和动态SBR单元454。
增益-形状合成单元448可以表示被配置为以与(图3A的)增益-形状分析单元330相反的方式操作以重构频域音频数据329’的单元。增益-形状合成单元448可以基于能量级别331A’和残差向量331B’来重构频域音频数据329’,其中同样,频域音频数据329’的撇号可以表示由于有损量化操作,频域音频数据329’和频域音频数据329之间存在微小差异。增益-形状合成单元448可以将频域音频数据329’输出到逆变换编解码器450和频谱感知分析单元456。
PADD 434A可以包括频谱感知分析单元456,该频谱感知分析单元可以表示被配置为以与上面关于图3A的示例描述的频谱感知分析单元324类似(如果不是基本类似的话)的方式来操作的单元。频谱感知分析单元456可以针对频域音频数据329’执行频谱感知分析,以确定(由频域音频数据329’表示的)经编码的前景音频信号相对于由ATF音频数据25’表示的声场的频谱感知重要性。空间感知分析单元456可以向逆变换编解码器450和静态SBR单元458输出频谱感知重要性的指示325。
逆变换编解码器450可以表示被配置为以与变换编解码器328相反的方式操作的单元。如此以来,逆变换编解码器450可以对频域音频数据329应用逆变换以获得传输通道451,其可以表示表示前景音频信号(以及潜在的背景音频信号)的时域音频信号。逆变换可以将频域音频信号329’从频域变换到时域,其中时域音频信号表示传输通道451。逆变换编解码器450可以将传输通道451输出到ATF编解码器466。
如图4A的示例中进一步所示,PADD 434A可以包括动态SBR单元454和静态SBR单元458。动态SBR单元454可以表示被配置为以与动态SBR单元350类似(如果不是基本类似的话)的方式来操作的单元。动态SBR单元454可以将PM 335B应用于动态比特分配337和精细比特分配351,以获得动态比特重新分布361。动态SBR单元454可以将动态比特重新分布361输出到时空比特分布器460。
静态SBR单元458可以表示被配置为以与静态SBR单元352类似(如果不是基本来似的话)的方式来操作的单元。静态SBR单元458处理指示325和粗略比特分配349,以获得静态比特重新分布359。静态SBR单元458可以将静态比特重新分布359输出到时空比特分布器460。
如图4A的示例中所示,PADD 434A可以进一步包括时空比特分布器460、ATF比特分配单元462和空间分量反量化器54。时空比特分布器460可以表示被配置为以与上文关于图3A的示例描述的时空比特分布器354类似(如果不是基本类似的话)的方式来操作的单元。时空比特分布器460可以处理动态比特重新分布361和静态比特重新分布359,以获得时空比特分布355。时空比特分布器460可以将时空比特分布355输出到ATF比特分配单元462。
ATF比特分配单元462可以表示被配置为以与上文关于图3A的示例描述的ATF比特分配单元356类似(如果不是基本上类似的话)的方式来操作的单元。ATF比特分配单元462可以处理时空比特分配355,以获得空间分量比特分配357。ATF比特分配单元462可以将空间分量比特分配357输出到空间分量反量化器54。
空间分量反量化器54可以表示被配置为以与上文关于图3A的示例描述的空间分量量化器46相反的方式操作的单元。空间分量反量化器54可以基于空间分量比特分配357对空间分量47进行反量化,以获得经反量化的空间分量45’。空间分量反量化器54可以将经反量化的空间分量45’输出到ATF编解码器466。
ATF编解码器466可以表示被配置为基于传输通道451和经反量化的空间分量45’来重构ATF音频数据25’的单元。ATF编解码器466可以复用传输通道451和经反量化的空间分量45’以制定ATF音频数据25’(诸如根据上述的HTF)。如上所述,ATF编解码器466可以将ATF音频数据25’输出到SADD136。
接下来参考图4B的示例,PADD 434B可以类似于图4A的示例中所示的PADD 434A,除了PADD 434B不包括形状向量反量化器438和增益-形状合成单元448之外。此外,PADD434B的能量反量化器440不包括粗略/精细量化并且可以执行任何形式的反量化,无论是粗略/精细反量化、分层反量化、多步反量化、单步反量化、动态反量化和/或静态反量化。如此以来,PADD434B可以与图3B的示例中所示的PAED 326B相反地操作。
图5是示出图2的示例中所示的源设备的示例性组件的框图。在图11的示例中,源设备112包括处理器412、图形处理单元(GPU)414、系统存储器416、显示处理器418、一个或多个集成扬声器140、显示器103、用户接口420、天线421和收发器模块422。在源设备112是移动设备的示例中,显示处理器418是移动显示处理器(MDP)。在一些示例中,诸如在源设备112是移动设备的示例中,处理器412、GPU 414和显示处理器418可以被形成为集成电路(IC)。
例如,IC可以被认为是芯片封装内的处理芯片并且可以是片上系统(SoC)。在一些示例中,处理器412、GPU 414和显示处理器418中的两个可以一起容纳在同一IC中,并且另一个可以容纳在不同的集成电路中(即,不同的芯片封装),或者所有三个可以容纳在不同的IC中或在同一IC上。然而,在源设备12是移动设备的示例中,处理器412、GPU 414和显示处理器418可以都容纳在不同的集成电路中。
处理器412、GPU 414和显示处理器418的示例包括但不限于一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其他等效的集成或分立逻辑电路。处理器412可以是源设备12的中央处理单元(CPU)。在一些示例中,GPU 414可以是专用硬件,其包括为GPU 414提供适合图形处理的大规模并行处理能力的集成和/或分立逻辑电路在一些情况下,GPU 414还可以包括通用处理能力,并且在实施通用处理任务(即,非图形相关任务)时可以被称为通用GPU(GPGPU)。显示处理器418也可以是专门的集成电路硬件,其被设计为从系统存储器416检索图像内容、将图像内容组合成图像帧,以及将图像帧输出到显示器103。
处理器412可以执行各种类型的应用20。应用20的示例包括网络浏览器、电子邮件应用、电子表格、视频游戏、生成用于显示的可视对象的其他应用程序或以上更详细列出的任何应用类型。系统存储器416可以存储用于执行应用20的指令。在处理器412上执行应用20中的一个使处理器412产生要显示的图像内容的图形数据和要播放的音频数据21(可能经由集成扬声器105)。处理器412可以将图像内容的图形数据传输到GPU 414,以及用于基于处理器412发送到GPU 414的指令或命令进行进一步处理。
处理器412可以根据特定应用处理接口(API)与GPU 414通信。这种API的示例包括的API、Khronos组的或以及OpenCLTM;然而,本公开的各方面不限于DirectX、OpenGL或OpenCL的API,并且可以扩展到其他类型的API。此外,本公开中描述的技术不需要根据API起作用,并且处理器412和GPU 414可以利用任何技术进行通信。
系统存储器416可以是用于源设备12的存储器。系统存储器416可以包括一个或多个计算机可读存储介质。系统存储器416的示例包括但不限于随机存取存储器(RAM)、电可擦除可编程只读存储器(EEPROM)、闪存存储器或可以用于携载或存储以可以由计算机或处理器访问的指令和/或数据结构形式的期望程序代码的其他介质。
在一些示例中,系统存储器416可以包括使处理器412、GPU 414和/或显示处理器418执行本公开中归于处理器412、GPU 414和/或显示处理器418的功能的指令。因此,系统存储器416可以是其上存储有指令的计算机可读存储介质,指令在被执行时使一个或多个处理器(例如,处理器412、GPU 414和/或显示处理器418)执行各种功能。
系统存储器416可以包括非暂时性存储介质。术语“非暂时性”表示存储介质以载波或传播信号体现。然而,术语“非暂时性”不应被解释为表示系统存储器416是不可移动的或其内容是静态的。作为一个示例,系统存储器416可以从源设备12移除并且移动到另一设备。作为另一示例,(基本上类似于系统存储器416的)存储器可以被插入到源设备12中。在某些示例中,非暂时性存储介质可以存储可以随时间改变的数据(例如,在RAM中)。
用户接口420可以表示一个或多个硬件或虚拟(意味着硬件和软件的组合)用户接口,用户可以通过这些用户接口与源设备12交互。用户接口420可以包括物理按钮、开关、触发开关(toggles)、灯或其虚拟版本。用户接口420还可以包括物理或虚拟键盘、触摸界面(诸如触摸屏)、触觉反馈等。
处理器412可以包括一个或多个硬件单元(包括所谓的“处理核心”),其被配置为执行上面关于混合单元120、音频编码器122、无线连接管理器128和无线通信单元130中的一个或多个所讨论的全部或部分操作。天线421和收发器模块422可以表示被配置为在源设备12和宿设备114之间建立和维持无线连接的单元。天线421和收发器模块422可以表示能够根据一种或多种无线通信协议进行无线通信的一个或多个接收器和/或一个或多个发送器。也就是说,收发器模块422可以表示单独的发送器、单独的接收器、单独的发送器和单独的接收器两者或组合的发送器和接收器。天线421和收发器422可以被配置为接收已经根据本公开的技术编码的经编码的音频数据。同样,天线421和收发器422可以被配置为发送已经根据本公开的技术编码的经编码的音频数据。收发器模块422可以执行无线连接管理器128和无线通信单元130中的一个或多个的全部或部分操作。
图6是示出图2的示例中所示的宿设备的示例性组件的框图。尽管宿设备114可以包括类似于上面关于图5的示例更详细讨论的源设备112的组件的组件,但是在某些情况下,宿设备14可以仅包括上面关于源设备112讨论的组件的子集。
在图6的示例中,宿设备114包括一个或多个扬声器802、处理器812、系统存储器816、用户接口820、天线821和收发器模块822。处理器812可以类似于或基本上类似于处理器812。在一些情况下,处理器812可以在总处理能力方面不同于处理器412或者可以针对低功耗进行定制(tailored)。系统存储器816可以类似于或基本上类似于系统存储器416。扬声器140、用户接口820、天线821和收发器模块822可以类似于或基本上类似于相应的扬声器440、用户接口420和收发器模块422。宿设备114还可以可选地包括显示器800,尽管显示器800可以表示通过其传达有限的信息的低功率、低分辨率(可能是黑白LED)显示器,其可以由处理器812直接驱动。
处理器812可以包括一个或多个硬件单元(包括所谓的“处理核心”),其被配置为执行上文关于无线连接管理器150、无线通信单元152和音频解码器132中的一个或多个所讨论的全部或部分操作。天线821和收发器模块822可以表示被配置为在源设备112和宿设备114之间建立和维持无线连接的单元。天线821和收发器模块822可以表示能够根据一种或多种无线通信协议进行无线通信的一个或多个接收器和一个或多个发送器。天线821和收发器822可以被配置为接收已经根据本公开的技术编码的经编码的音频数据。同样,天线821和收发器822可以被配置为发送已经根据本公开的技术编码的经编码的音频数据。收发器模块822可以执行无线连接管理器150和无线通信单元152中的一个或多个的全部或部分操作。
图7是示出图1中所示的音频编码器在执行本公开中所描述的技术的各个方面时的示例性操作的流程图。音频编码器22可以首先调用空间音频编码设备24以针对基于场景的音频数据21执行空间音频编码,并由此获得前景音频信号和对应的空间分量(700)。然而,由空间音频编码设备24执行的空间音频编码省略了空间分量的上述量化,因为再次将量化卸载到心理声学音频编码设备26。空间音频编码设备24可以将表示前景音频信号和对应的空间分量的ATF音频数据25输出到心理声学音频编码设备26。
音频编码器22调用心理声学音频编码设备26以针对前景音频信号执行心理声学音频编码,以获得经编码的前景音频信号(702)。当针对前景音频信号执行心理声学音频编码时,心理声学音频编码设备26可以确定前景音频信号的第一比特分配(704)。心理声学音频编码设备26可以基于前景音频信号的第一比特分配来确定空间分量的第二比特分配(706)。由于第二比特分配是基于第一比特分配确定的,因此,心理声学音频编码设备26更充分地集成跨前景音频信号和空间分量的量化。心理声学音频编码设备26可以调用SCQ46,将第二比特分配传递给SCQ 46。
SCQ 46可以应用量化(诸如向量量化)来实现对于空间分量的满足或超过第二比特分配的比特分配。如此以来,SCO 46可以基于空间分量的第二比特分配来量化空间分量,以获得经量化的空间分量(708)。心理声学音频编码设备26然后可以在比特流31中指定经编码的前景音频信号和经量化的空间分量(710)。
图8是示出图1中所示的音频解码器在执行本公开中所描述的技术的各个方面时的示例性操作的流程图。如上所述,音频解码器32可以与音频编码器22相反地操作。如此以来,音频解码器32可以从比特流31获得经编码的前景音频信号和对应的经量化的空间分量(720)。音频解码器32可以调用心理声学音频解码设备34以针对经编码的前景音频信号执行心理声学音频解码,以获得前景音频信号(722)。
当针对前景音频信号执行心理声学音频编码时,心理声学音频解码设备34可以确定经编码的前景音频信号的第一比特分配(724)。心理声学音频解码设备34还可以基于经编码前景音频信号的第一比特分配来确定经量化的空间分量的第二比特分配(726)。心理声学音频解码设备34可以调用空间分量反量化器(SCD)54,其可以基于空间分量的第二比特分配对经量化的空间分量进行反量化,以获得空间分量(728)。心理声学音频解码设备34可以基于前景音频信号和空间分量来重构ATF音频数据25’。空间音频解码设备36然后可以基于前景音频信号和空间分量来重构基于场景的音频数据21’(730)。
这些技术的前述方面可以实现根据以下条款的实施方式。
条款1B.一种被配置为对基于场景的音频数据进行编码的设备,该设备包括:存储器,该存储器被配置为存储基于场景的音频数据;以及一个或多个处理器,该一个或多个处理器被配置为:针对基于场景的音频数据执行空间音频编码,以获得前景音频信号和对应的空间分量,该空间分量定义前景音频信号的空间特征;针对前景音频信号执行心理声学音频编码,以获得经编码的前景音频信号;当针对前景音频信号执行心理声学音频编码时,确定前景音频信号的第一比特分配;基于前景音频信号的第一比特分配,确定空间分量的第二比特分配;基于空间分量的第二比特分配,对空间分量进行量化,以获得经量化的空间分量;以及在比特流中指定经编码的前景音频信号和经量化的空间分量。
条款2B.根据条款1B所述的设备,其中一个或多个处理器被配置为针对前景音频信号根据AptX压缩算法执行心理声学音频编码,以获得经编码的前景音频信号。
条款3B.根据条款1B和2B的任意组合的设备,其中一个或多个处理器被配置为:针对前景音频信号执行形状和增益分析,以获得表示前景音频信号的形状和增益;针对增益执行量化,以获得粗略量化增益和一个或多个精细量化残差;以及基于分配给粗略量化增益和一个或多个精细量化残差中的每一个的比特数,确定第二比特分配。
条款4B.根据条款1B至3B的任意组合的设备,其中一个或多个处理器被配置为:确定前景音频信号相对于由基于场景的音频数据表示的声场的频谱感知重要性;以及基于频谱感知重要性,确定第一比特分配。
条款5B.根据条款4B所述的设备,其中一个或多个处理器被配置为:基于频谱感知重要性和分配给粗略量化增益的比特数,确定静态空间比特分布;基于分配给一个或多个精细量化残差中的每一个的比特数,确定动态空间比特分布;以及基于静态空间比特分布和动态空间比特分布,确定第二比特分配。
条款6B.根据条款1B至5B的任意组合的设备,其中一个或多个处理器被配置为针对基于场景的音频数据执行线性可逆变换,以获得前景音频信号和对应的空间分量。
条款7B.根据条款1B至6B的任意组合的设备,其中基于场景的音频数据包括与大于1的阶相对应的环绕声系数。
条款8B.根据条款1B至6B的任意组合的设备,其中基于场景的音频数据包括与大于零的阶相对应的环绕声系数。
条款9B.根据条款1B至8B的任意组合的设备,其中基于场景的音频数据包括在球谐域中定义的音频数据。
条款10B.根据条款1B至9B的任意组合的设备,其中前景音频信号包括在球谐域中定义的前景音频信号,并且其中,空间分量包括在球谐域中定义的空间分量。
条款11B.根据条款1B至10B的任意组合的设备,其中基于场景的音频数据包括混合阶环绕声音频数据。
条款12B.一种对基于场景的音频数据进行编码的方法,该方法包括:针对基于场景的音频数据执行空间音频编码,以获得前景音频信号和对应的空间分量,该空间分量定义前景音频信号的空间特征;针对前景音频信号执行心理声学音频编码,以获得经编码的前景音频信号;当针对前景音频信号执行心理声学音频编码时,确定前景音频信号的第一比特分配;基于前景音频信号的第一比特分配,确定空间分量的第二比特分配;基于空间分量的第二比特分配,对空间分量进行量化,以获得经量化的空间分量;以及在比特流中指定经编码的前景音频信号和经量化的空间分量。
条款13B.根据条款12B所述的方法,其中执行心理声学音频编码包括:针对前景音频信号根据AptX压缩算法执行心理声学音频编码,以获得经编码的前景音频信号。
条款14B.根据条款12B和13B的任意组合的方法,其中确定第一比特分配包括:针对前景音频信号执行形状和增益分析,以获得表示前景音频信号的形状和增益;针对增益执行量化,以获得粗略量化增益和一个或多个精细量化残差;以及基于分配给粗略量化增益和一个或多个精细量化残差中的每一个的比特数,确定第二比特分配。
条款15B.根据条款12B至14B的任意组合的方法,其中确定第一比特分配包括:确定前景音频信号相对于由基于场景的音频数据表示的声场的频谱感知重要性;以及基于频谱感知重要性,确定第一比特分配。
条款16B.根据条款15B所述的方法,其中确定第二比特分配包括:基于频谱感知重要性和分配给粗略量化增益的比特数,确定静态空间比特分布;基于分配给一个或多个精细量化残差中的每一个的比特数,确定动态空间比特分布;以及基于静态空间比特分布和动态空间比特分布,确定第二比特分配。
条款17B.根据条款12B至16B的任意组合的方法,其中执行空间音频编码包括:针对基于场景的音频数据执行线性可逆变换,以获得前景音频信号和对应的空间分量。
条款18B.根据条款12B至17B的任意组合的方法,其中基于场景的音频数据包括与大于1的阶相对应的环绕声系数。
条款19B.根据条款12B至17B的任意组合的方法,其中基于场景的音频数据包括与大于零的阶相对应的环绕声系数。
条款20B.根据条款12B至19B的任意组合的方法,其中基于场景的音频数据包括在球谐域中定义的音频数据。
条款21B.根据条款12B至20B的任意组合的方法,其中前景音频信号包括在球谐域中定义的前景音频信号,并且其中,空间分量包括在球谐域中定义的空间分量。
条款22B.根据条款12B至21B的任意组合的方法,其中基于场景的音频数据包括混合阶环绕声音频数据。
条款23B.一种被配置为对基于场景的音频数据进行编码的设备,该设备包括:用于针对基于场景的音频数据执行空间音频编码以获得前景音频信号和对应的空间分量的部件,该空间分量定义前景音频信号的空间特征;用于针对前景音频信号执行心理声学音频编码以获得经编码的前景音频信号的部件;用于当针对前景音频信号执行心理声学音频编码时确定前景音频信号的第一比特分配的部件;用于基于前景音频信号的第一比特分配来确定空间分量的第二比特分配的部件;用于基于空间分量的第二比特分配对空间分量进行量化以获得经量化的空间分量的部件;以及用于在比特流中指定前景音频信号和经量化的空间分量的部件。
条款24B.根据条款23B所述的设备,其中用于执行心理声学音频编码的部件包括用于针对前景音频信号根据AptX压缩算法执行心理声学音频编码以获得经编码的前景音频信号的部件。
条款25B.根据条款23B和24B的任意组合的设备,其中用于确定第一比特分配的部件包括:用于针对前景音频信号执行形状和增益分析以获得表示前景音频信号的形状和增益的部件;用于针对增益执行量化以获得粗略量化增益和一个或多个精细量化残差的部件;以及用于基于分配给粗略量化增益和一个或多个精细量化残差中的每一个的比特数来确定第二比特分配的部件。
条款26B.根据条款23B至25B的任意组合的设备,其中用于确定第一比特分配的部件包括:用于确定前景音频信号相对于由基于场景的音频数据表示的声场的频谱感知重要性的部件;以及用于基于频谱感知重要性来确定第一比特分配的部件。
条款27B.根据条款26B所述的设备,其中用于确定第二比特分配的部件包括:用于基于频谱感知重要性和分配给粗略量化增益的比特数来确定静态空间比特分布的部件;用于基于分配给一个或多个精细量化残差中的每一个的比特数来确定动态空间比特分布的部件;以及用于基于静态空间比特分布和动态空间比特分布来确定第二比特分配的部件。
条款28B.根据条款23B至27B的任意组合的设备,其中用于执行空间音频编码的部件包括用于针对基于场景的音频数据执行线性可逆变换以获得前景音频信号和对应的空间分量的部件。
条款29B.根据条款23B至28B的任意组合的设备,其中基于场景的音频数据包括与大于1的阶相对应的环绕声系数。
条款30B.根据条款23B至29B的任意组合的设备,其中基于场景的音频数据包括与大于零的阶相对应的环绕声系数。
条款31B.根据条款23B至30B的任意组合的设备,其中基于场景的音频数据包括在球谐域中定义的音频数据。
条款32B.根据条款23B至31B的任意组合的设备,其中前景音频信号包括在球谐域中定义的前景音频信号,并且其中,空间分量包括在球谐域中定义的空间分量。
条款33B.根据条款23B至32B的任意组合的设备,其中基于场景的音频数据包括混合阶环绕声音频数据。
条款34B.一种其上存储有指令的非暂时性计算机可读存储介质,该指令在被执行时使一个或多个处理器:针对基于场景的音频数据执行空间音频编码,以获得前景音频信号和对应的空间分量,该空间分量定义前景音频信号的空间特征;针对前景音频信号执行心理声学音频编码,以获得经编码的前景音频信号;当针对前景音频信号执行心理声学音频编码时,确定前景音频信号的第一比特分配;基于前景音频信号的第一比特分配,确定空间分量的第二比特分配;基于空间分量的第二比特分配,对空间分量进行量化,以获得经量化的空间分量;以及在比特流中指定前景音频信号和经量化的空间分量。
条款1C.一种被配置为对表示经编码的基于场景的音频数据的比特流进行解码的设备,该设备包括:存储器,该存储器被配置为存储该比特流,该比特流包括经编码的前景音频信号和对应的经量化的空间分量,该空间分量定义前景音频信号的空间特征;以及一个或多个处理器,该一个或多个处理器被配置为:针对经编码的前景音频信号执行心理声学音频解码,以获得前景音频信号;当针对经编码的前景音频信号执行心理声学音频解码时,确定经编码的前景音频信号的第一比特分配;基于经编码的前景音频信号的第一比特分配,确定经量化的空间分量的第二比特分配;基于经量化的空间分量的第二比特分配,对经量化的空间分量进行反量化,以获得空间分量;以及基于前景音频信号和空间分量来重构基于场景的音频数据。
条款2C.根据条款1C所述的设备,其中一个或多个处理器被配置为针对经编码的前景音频信号根据AptX解压缩算法执行心理声学音频解码,以获得前景音频信号。
条款3C.根据条款1C和2C的任意组合的设备,其中一个或多个处理器被配置为:从比特流获得分配给粗略量化增益和一个或多个精细量化残差中的每一个的比特数,粗略量化增益和一个或多个精细量化残差表示前景音频信号的增益;以及基于分配给粗略量化增益和一个或多个精细量化残差中的每一个的比特数,确定第二比特分配。
条款4C.根据条款1C至3C的任意组合的设备,其中一个或多个处理器被配置为:确定经编码的前景音频信号相对于由基于场景的音频数据表示的声场的频谱感知重要性;以及基于频谱感知重要性,确定第一比特分配。
条款5C.根据条款4C所述的设备,其中一个或多个处理器被配置为:基于频谱感知重要性和分配给粗略量化增益的比特数,确定静态空间比特分布;基于分配给一个或多个精细量化残差中的每一个的比特数,确定动态空间比特分布;以及基于静态空间比特分布和动态空间比特分布,确定第二比特分配。
条款6C.根据条款1C至5C的任意组合的设备,其中基于场景的音频数据包括与大于1的阶相对应的环绕声系数。
条款7C.根据条款1C至5C的任意组合的设备,其中基于场景的音频数据包括在球谐域中定义的音频数据。
条款8C.根据条款1C至7C的任意组合的设备,其中前景音频信号包括在球谐域中定义的前景音频信号,并且其中,空间分量包括在球谐域中定义的空间分量。
条款9C.根据条款1C至8C的任意组合的设备,其中一个或多个处理器还被配置为:将基于场景的音频数据渲染到一个或多个扬声器馈送;以及基于扬声器馈送,再现由基于场景的音频数据表示的声场。
条款10C.根据条款1C至8C的任意组合的设备,其中一个或多个处理器还被配置为:将基于场景的音频数据渲染到一个或多个扬声器馈送,并且其中,该设备包括一个或多个扬声器,该一个或多个扬声器被配置为基于扬声器馈送,再现由基于场景的音频数据表示的声场。
条款11C.根据条款1C至10C的任意组合的设备,其中基于场景的音频数据包括混合阶环绕声音频数据。
条款12C.一种对表示基于场景的音频数据的比特流进行解码的方法,该方法包括:从该比特流获得经编码的前景音频信号和对应的经量化的空间分量,该经量化的空间分量定义经编码的前景音频信号的空间特征;针对经编码的前景音频信号执行心理声学音频解码,以获得前景音频信号;当针对经编码的前景音频信号执行心理声学音频解码时,确定经编码的前景音频信号的第一比特分配;基于经编码的前景音频信号的第一比特分配,确定经量化的空间分量的第二比特分配;基于经量化的空间分量的第二比特分配,对经量化的空间分量进行反量化,以获得空间分量;以及基于前景音频信号和空间分量来重构基于场景的音频数据。
条款13C.根据条款12C所述的方法,其中执行心理声学音频解码包括针对经编码的前景音频信号根据AptX解压缩算法执行心理声学音频解码,以获得前景音频信号。
条款14C.根据条款12C和13C的任意组合的方法,其中确定第二比特分配包括:从比特流获得分配给粗略量化增益和一个或多个精细量化残差中的每一个的比特数,粗略量化增益和一个或多个精细量化残差表示前景音频信号的增益;以及基于分配给粗略量化增益和一个或多个精细量化残差中的每一个的比特数,确定第二比特分配。
条款15C.根据条款12C至14C的任意组合的方法,其中确定第一比特分配包括:确定经编码的前景音频信号相对于由基于场景的音频数据表示的声场的频谱感知重要性;以及基于频谱感知重要性,确定第一比特分配。
条款16C.根据条款15C所述的方法,其中确定第二比特分配包括:基于频谱感知重要性和分配给粗略量化增益的比特数,确定静态空间比特分布;基于分配给一个或多个精细量化残差中的每一个的比特数,确定动态空间比特分布;以及基于静态空间比特分布和动态空间比特分布,确定第二比特分配。
条款17C.根据条款12C至16C的任意组合的方法,其中基于场景的音频数据包括与大于1的阶相对应的环绕声系数。
条款18C.根据条款12C至16C的任意组合的方法,其中基于场景的音频数据包括在球谐域中定义的音频数据。
条款19C.根据条款12C至18C的任意组合的方法,其中前景音频信号包括在球谐域中定义的前景音频信号,并且其中,空间分量包括在球谐域中定义的空间分量。
条款20C.根据条款12C至19C的任意组合的方法,还包括:将基于场景的音频数据渲染到一个或多个扬声器馈送;以及基于扬声器馈送,再现由基于场景的音频数据表示的声场。
条款21C.根据条款12C至20C的任意组合的方法,其中基于场景的音频数据包括混合阶环绕声音频数据。
条款22C.一种被配置为对表示经编码的基于场景的音频数据的比特流进行解码的设备,该设备包括:用于从该比特流获得经编码的前景音频信号和对应的经量化的空间分量的部件,该经量化的空间分量定义经编码的前景音频信号的空间特征;用于针对经编码的前景音频信号执行心理声学音频解码以获得前景音频信号的部件;用于当针对经编码的前景音频信号执行心理声学音频解码时确定经编码的前景音频信号的第一比特分配的部件;用于基于经编码的前景音频信号的第一比特分配来确定经量化的空间分量的第二比特分配的部件;用于基于经量化的空间分量的第二比特分配对经量化的空间分量进行反量化以获得空间分量的部件;以及用于基于前景音频信号和空间分量来重构基于场景的音频数据的部件。
条款23C.根据条款22C所述的设备,其中用于执行心理声学音频解码的部件包括用于针对经编码的前景音频信号根据AptX解压缩算法执行心理声学音频解码以获得前景音频信号的部件。
条款24C.根据条款22C和23C的任意组合的设备,其中用于确定第二比特分配的部件包括:用于从比特流获得分配给粗略量化增益和一个或多个精细量化残差中的每一个的比特数的部件,粗略量化增益和一个或多个精细量化残差表示前景音频信号的增益;以及用于基于分配给粗略量化增益和一个或多个精细量化残差中的每一个的比特数来确定第二比特分配的部件。
条款25C.根据条款22C至24C的任意组合的设备,其中用于确定第一比特分配的部件包括:用于确定经编码的前景音频信号相对于由基于场景的音频数据表示的声场的频谱感知重要性的部件;以及用于基于频谱感知重要性来确定第一比特分配的部件。
条款26C.根据条款25C所述的设备,其中用于确定第二比特分配的部件包括:用于基于频谱感知重要性和分配给粗略量化增益的比特数来确定静态空间比特分布的部件;以及用于基于分配给一个或多个精细量化残差中的每一个的比特数来确定动态空间比特分布的部件;以及基于静态空间比特分布和动态空间比特分布,确定第二比特分配。
条款27C.根据条款22C至26C的任意组合的设备,其中基于场景的音频数据包括与大于1的阶相对应的环绕声系数。
条款28C.根据条款22C至26C的任意组合的设备,其中基于场景的音频数据包括在球谐域中定义的音频数据。
条款29C.根据条款22C至28C的任意组合的设备,其中前景音频信号包括在球谐域中定义的前景音频信号,并且其中,空间分量包括在球谐域中定义的空间分量。
条款30C.根据条款22C至29C的任意组合所述的设备,还包括:用于将基于场景的音频数据渲染到一个或多个扬声器馈送的部件;以及用于基于扬声器馈送再现由基于场景的音频数据表示的声场的部件。
条款31C.根据条款22C至30C的任意组合的设备,其中基于场景的音频数据包括混合阶环绕声音频数据。
条款32C.一种存储有指令的非暂时性计算机可读存储介质,该指令在被执行时使一个或多个处理器:从表示基于场景的音频数据的比特流获得经编码的前景音频信号和对应的经量化的空间分量,该经量化的空间分量定义经编码的前景音频信号的空间特征;针对经编码的前景音频信号执行心理声学音频解码,以获得前景音频信号;当针对经编码的前景音频信号执行心理声学音频解码时,确定经编码的前景音频信号的第一比特分配;基于经编码的前景音频信号的第一比特分配,确定经量化的空间分量的第二比特分配;基于经量化的空间分量的第二比特分配,对经量化的空间分量进行反量化,以获得空间分量;以及基于前景音频信号和空间分量来重构基于场景的音频数据。
在一些上下文中,诸如广播上下文,音频编码设备可以分为空间音频编码器和心理声学音频编码器26,空间音频编码器针对环绕声表示执行一定形式的中间压缩,包括增益控制,心理声学音频编码器(其也被称为“感知音频编码器26”)执行感知音频压缩以减少增益归一化传输通道之间的数据冗余。
此外,上述技术可以针对任意数量的不同上下文和音频生态系统执行,并且不应限于上述任何上下文或音频生态系统。下面描述了若干示例性上下文,尽管这些技术应该限于示例性上下文。一个示例性音频生态系统可能包括音频内容、电影工作室、音乐工作室、游戏音频工作室、基于通道的音频内容、编码引擎、游戏音频词干(game audio stems)、游戏音频编码/渲染引擎和传输系统。
电影工作室、音乐工作室和游戏音频工作室可以接收音频内容。在一些示例中,音频内容可以表示采集的输出。电影工作室可以诸如通过使用数字音频工作站(DAW)输出基于通道的音频内容(例如,2.0、5.1和7.1)。音乐工作室可以诸如通过使用DAW输出基于通道的音频内容(例如,2.0和5.1)。在任一情况下,编码引擎可以基于一个或多个编解码器(例如,AAC、AC3、杜比真HD、杜比数字Plus和DTS主体音频)接收和编码基于通道的音频内容,以供传输系统输出。游戏音频工作室可以输出一个或多个游戏音频词干,诸如通过使用DAW。游戏音频编码/渲染引擎可以将音频词干编码和/或渲染成基于通道的音频内容以供传输系统输出。可以在其中执行这些技术的另一示例性上下文包括音频生态系统,该音频生态系统可以包括广播记录音频对象、专业音频系统、消费者设备上捕获、环绕声音频格式、设备上渲染、消费者音频、电视和配件,以及汽车音响系统。
广播记录音频对象、专业音频系统和消费者设备上捕获都可以使用环绕声音频格式对其输出进行编码。以这种方式,音频内容可以使用环绕声音频格式编码成单个表示,该单个表示可以使用设备上渲染、消费者音频、电视和配件以及汽车音响系统进行播放。换言之,音频内容的单个表示可以在通用音频播放系统(即,与需要诸如5.1、7.1等的特定配置相反),诸如音频播放系统16中播放。
可以在其中执行这些技术的上下文的其他示例包括可以包括获取元件和播放元件的音频生态系统。获取元件可以包括有线和/或无线获取设备(例如,本征(Eigen)麦克风)、设备上环绕声捕获和移动设备(例如,智能电话和平板电脑)。在一些示例中,有线和/或无线获取设备可以经由(多个)有线和/或无线通信信道耦接到移动设备。
根据本公开的一种或多种技术,移动设备可用于获取声场。例如,移动设备可以经由有线和/或无线采集设备和/或设备上环绕声捕获(例如,集成到移动设备中的多个麦克风)来获取声场。移动设备然后可以将所获取的声场编码为环绕声系数以供播放元件中的一个或多个播放。例如,移动设备的用户可以记录(获取其声场)现场事件(例如,会面、会议、戏剧、音乐会等),并将记录编码为环绕声系数。
移动设备还可以利用一个或多个播放元件来播放环绕声编码的声场。例如,移动设备可以对环绕声编码的声场进行解码并且将信号输出到一个或多个播放元件,该信号使播放元件中的一个或多个重新创建声场。作为一个示例,移动设备可以利用无线和/或无线通信信道将信号输出到一个或多个扬声器(例如,扬声器阵列、条形音箱等)。作为另一示例,移动设备可以利用对接(docking)解决方案将信号输出到一个或多个对接站和/或一个或多个对接扬声器(例如,智能汽车和/或家庭中的音响系统)。作为另一示例,移动设备可以利用耳机渲染来将信号输出到一组耳机,例如,以创建逼真的双耳声音。
在一些示例中,特定移动设备既可以获取3D声场又可以稍后播放相同的3D声场。在一些示例中,移动设备可以获取3D声场,将3D声场编码为HOA,并且将经编码的3D声场发送到一个或多个其他设备(例如,其他移动设备和/或其他非移动设备)以用于播放。
可以在其中执行这些技术的又一个上下文包括音频生态系统,该音频生态系统可以包括音频内容、游戏工作室、经编码的音频内容、渲染引擎和传输系统。在一些示例中,游戏工作室可以包括可以支持环绕声信号的编辑的一个或多个DAW。例如,一个或多个DAW可以包括环绕声插件和/或工具,它们可以被配置为与一个或多个游戏音频系统一起操作(例如,一起工作)。在一些示例中,游戏工作室可能会输出支持HOA的新词干格式。在任何情况下,游戏工作室都可以将经编码的音频内容输出到渲染引擎,渲染引擎可以渲染声场以供传输系统播放。
还可以针对示例性音频获取设备来执行这些技术。例如,可以关于本征麦克风来执行这些技术,本征麦克风可以包括被共同配置为记录3D声场的多个麦克风。在一些示例中,本征麦克风的多个麦克风可以位于半径大约为4cm的基本上球形的球的表面上。在一些示例中,音频编码设备20可以被集成到本征麦克风中,以便直接从麦克风输出比特流21。
另一示例性音频获取上下文可以包括可以被配置为从一个或多个麦克风(诸如一个或多个本征麦克风)接收信号的制作车(production truck)。制作车还可以包括音频编码器,诸如图1的空间音频编码设备24。
在一些情况下,移动设备还可以包括被共同配置为记录3D声场的多个麦克风。换言之,多个麦克风可以具有X、Y、Z分集。在一些示例中,移动设备可以包括可以被旋转以提供针对移动设备的一个或多个其他麦克风的X、Y、Z分集的麦克风。移动设备还可以包括音频编码器,诸如图1的音频编码器22。
加强的视频捕获设备可以进一步配置为记录3D声场。在一些示例中,加强的视频捕获设备可以附接到从事活动的用户的头盔。例如,加强的视频捕获设备可以附接到用户激流漂流的头盔上。以这种方式,加强的视频捕获设备可以捕获表示用户周围动作(例如,水在用户身后撞击,另一筏夫在用户面前说话,等等)的3D声场。
还可以针对附件增强型移动设备执行这些技术,该设备可以被配置为记录3D声场。在一些示例中,移动设备可以类似于上面讨论的移动设备,但增加了一个或多个附件。例如,本征麦克风可以被附接到上述移动设备,以形成附件增强型移动设备。以此方式,与仅使用与附件增强型移动设备集成的声音捕获组件相比,该附件增强型移动设备可以捕获更高质量版本的3D声场。
下面进一步讨论可以执行本公开中描述的技术的各个方面的示例性音频播放设备。根据本公开的一种或多种技术,扬声器和/或条形音箱可以以任何任意配置布置,同时仍然播放3D声场。此外,在一些示例中,耳机播放设备可以经由有线或无线连接耦接到解码器32(其为指代图1的音频解码设备32的另一种方式)。根据本公开的一种或多种技术,声场的单个通用表示可以用于在扬声器、条形音箱和耳机播放设备的任何组合上渲染声场。
许多不同的示例性音频播放环境也可以适合于执行本公开中描述的技术的各个方面。例如,5.1扬声器播放环境、2.0(例如立体声)扬声器播放环境、具有全高前置扬声器的9.1扬声器播放环境、22.2扬声器播放环境、16.0扬声器播放环境、汽车扬声器播放环境以及具有耳塞播放环境的移动设备可以是用于执行本公开中描述的技术的各个方面的合适环境。
根据本公开的一种或多种技术,可以利用声场的单个通用表示来在前述回放环境中的任一个上渲染声场。此外,本公开的技术使得渲染器能够从通用表示渲染声场,以便在除上述环境之外的播放环境中播放。例如,如果设计考虑因素不准许根据7.1扬声器播放环境正确放置扬声器(例如,如果不可能放置右环绕扬声器),则本公开的技术使渲染器能够用其他6个扬声器进行补偿,从而使得可以在6.1扬声器播放环境中实现播放。
此外,用户可能戴着耳机观看体育比赛。根据本公开的一种或多种技术,可以获取体育比赛的3D声场(例如,一个或多个本征麦克风可以放置在棒球场中和/或周围),可以获得对应于3D声场的环绕声系数并将其发送到解码器,解码器可以基于环绕声系数来重构3D声场并将重构的3D声场输出到渲染器,渲染器可以获得关于播放环境类型的指示(例如,耳机)并将重构的3D声场渲染成使耳机输出体育比赛的3D声场表示的信号。
在上述各种实例的每一个中,应当理解,音频编码设备22可以执行一种方法或以其他方式包括用于执行音频编码设备22被配置为执行的方法的每个步骤的部件。在一些实例中,部件可以包括一个或多个处理器。在一些实例中,一个或多个处理器可以表示通过存储到非暂时性计算机可读存储介质的指令而配置的专用处理器。换言之,每个编码示例集合中的技术的各个方面可以提供其上存储有指令的非暂时性计算机可读存储介质,指令在被执行时使一个或多个处理器执行音频编码设备20已经被配置为执行的方法。
在一个或多个示例中,所描述的功能可以以硬件、软件、固件或其任何组合来实施。如果以软件来实施,则功能可以作为一个或多个指令或代码存储在计算机可读介质或通过计算机可读介质发送并由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质,其对应于诸如数据存储介质之类的有形介质。数据存储介质可以是可由一个或多个计算机或一个或多个处理器访问以检索用于实施本公开中所述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可以包括计算机可读介质。
以举例的方式而非限制,这种计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储装置、磁盘存储装置或其他磁性存储设备、闪存存储器,或者可以用于存储采用指令或数据结构形式的所需程序代码并且可以通过计算机访问的任何其他介质。然而,应当理解,计算机可读存储介质和数据存储介质不包括连接、载波、信号或其他暂时性介质,而是涉及非暂时性、有形存储介质。如本文所使用的,磁盘和光盘包括光碟(CD)、激光光盘、光学光盘、数字化通用光盘(DVD)、软盘以及蓝光光盘,其中磁盘通常磁性地复制数据,而光盘利用激光光学地复制数据。以上的组合同样应当包含在计算机可读介质的范围内。
指令可以由一个或多个处理器执行,诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他等效的集成或分离逻辑电路。因此,如本文所使用的术语“处理器”可以指任何前述结构或适合于实施本文所述的技术的任何其他结构。此外,在一些方面,本文描述的功能可以在被配置用于编码和解码的专用硬件和/或软件模块内提供,或者并入到组合编解码器中。此外,这些技术可以在一个或多个电路或逻辑元件中完全实施。
本公开的技术可以在各种各样的设备或装置中实施,包括无线手持机、集成电路(IC)或一组IC(例如,芯片集)。本公开中描述了各种组件、模块或单元以强调被配置为执行所公开的技术的设备的功能方面,但不一定需要由不同的硬件单元来实现。相反,如上所述,各种单元可以结合在编解码硬件单元中或由包括如上所述的一个或多个处理器的互操作硬件单元的集合结合合适的软件和/或固件来提供。
此外,如本文所使用的,“A和/或B”是指“A或B”,或“A和B”。
已经描述了该技术的各个方面。该技术的这些和其他方面在所附权利要求的范围内。
Claims (27)
1.一种被配置为对基于场景的音频数据进行编码的设备,所述设备包括:
存储器,其被配置为存储基于场景的音频数据;以及
一个或多个处理器,其被配置为:
针对所述基于场景的音频数据执行空间音频编码,以获得前景音频信号和对应的空间分量,所述空间分量定义所述前景音频信号的空间特征;
针对所述前景音频信号执行心理声学音频编码,以获得经编码的前景音频信号;
当针对所述前景音频信号执行心理声学音频编码时,确定所述前景音频信号的第一比特分配;
基于所述前景音频信号的所述第一比特分配,确定所述空间分量的第二比特分配;
基于所述空间分量的所述第二比特分配,对所述空间分量进行量化,以获得经量化的空间分量;以及
在比特流中指定所述经编码的前景音频信号和所述经量化的空间分量。
2.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:针对所述前景音频信号,根据压缩算法执行所述心理声学音频编码,以获得所述经编码的前景音频信号。
3.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:
针对所述前景音频信号执行形状和增益分析,以获得表示所述前景音频信号的形状和增益;
针对所述增益执行量化,以获得粗略量化增益和一个或多个精细量化残差;以及
基于分配给所述粗略量化增益和一个或多个精细量化残差中的每一个的比特数,确定所述第二比特分配。
4.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:
确定所述前景音频信号相对于由所述基于场景的音频数据表示的声场的频谱感知重要性;以及
基于所述频谱感知重要性,确定所述第一比特分配。
5.根据权利要求4所述的设备,其中,所述一个或多个处理器被配置为:
基于所述频谱感知重要性和分配给所述粗略量化增益的比特数,确定静态空间比特分布;
基于分配给所述一个或多个精细量化残差中的每一个的比特数,确定动态空间比特分布;以及
基于所述静态空间比特分布和所述动态空间比特分布,确定所述第二比特分配。
6.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:针对所述基于场景的音频数据执行线性可逆变换,以获得所述前景音频信号和对应的空间分量。
7.根据权利要求1所述的设备,其中,所述基于场景的音频数据包括与大于1的阶相对应的环绕声系数。
8.根据权利要求1所述的设备,其中,所述基于场景的音频数据包括与大于零的阶相对应的环绕声系数。
9.根据权利要求1所述的设备,其中,所述基于场景的音频数据包括在球谐域中定义的音频数据。
10.根据权利要求1所述的设备,
其中,所述前景音频信号包括在球谐域中定义的前景音频信号,并且
其中,所述空间分量包括在所述球谐域中定义的空间分量。
11.根据权利要求1所述的设备,其中,所述基于场景的音频数据包括混合阶环绕声音频数据。
12.根据权利要求1所述的设备,还包括被配置为捕获所述基于场景的音频数据的麦克风。
13.一种对基于场景的音频数据进行编码的方法,所述方法包括:
针对所述基于场景的音频数据执行空间音频编码,以获得前景音频信号和对应的空间分量,所述空间分量定义所述前景音频信号的空间特征;
针对所述前景音频信号执行心理声学音频编码,以获得经编码的前景音频信号;
当针对所述前景音频信号执行心理声学音频编码时,确定所述前景音频信号的第一比特分配;
基于所述前景音频信号的所述第一比特分配,确定所述空间分量的第二比特分配;
基于所述空间分量的所述第二比特分配,对所述空间分量进行量化,以获得经量化的空间分量;以及
在比特流中指定所述经编码的前景音频信号和所述经量化的空间分量。
14.一种被配置为对表示经编码的基于场景的音频数据的比特流进行解码的设备,所述设备包括:
存储器,其被配置为存储所述比特流,所述比特流包括经编码的前景音频信号和对应的经量化的空间分量,所述空间分量定义所述前景音频信号的空间特征;以及
一个或多个处理器,其被配置为:
针对所述经编码的前景音频信号执行心理声学音频解码,以获得前景音频信号;
当针对所述经编码的前景音频信号执行所述心理声学音频解码时,确定所述经编码的前景音频信号的第一比特分配;
基于所述经编码的前景音频信号的所述第一比特分配,确定所述经量化的空间分量的第二比特分配;
基于所述经量化的空间分量的所述第二比特分配,对所述经量化的空间分量进行反量化,以获得空间分量;以及
基于所述前景音频信号和所述空间分量来重构所述基于场景的音频数据。
15.根据权利要求14所述的设备,其中,所述一个或多个处理器被配置为:针对所述经编码的前景音频信号,根据解压缩算法执行所述心理声学音频解码,以获得所述前景音频信号。
16.根据权利要求14所述的设备,其中,所述一个或多个处理器被配置为:
从所述比特流获得分配给粗略量化增益和一个或多个精细量化残差中的每一个的比特数,所述粗略量化增益和所述一个或多个精细量化残差表示所述前景音频信号的增益;以及
基于分配给所述粗略量化增益和一个或多个精细量化残差中的每一个的比特数,确定所述第二比特分配。
17.根据权利要求14所述的设备,其中,所述一个或多个处理器被配置为:
确定所述经编码的前景音频信号相对于由所述基于场景的音频数据表示的声场的频谱感知重要性;以及
基于所述频谱感知重要性,确定所述第一比特分配。
18.根据权利要求17所述的设备,其中,所述一个或多个处理器被配置为:
基于所述频谱感知重要性和分配给所述粗略量化增益的比特数,确定静态空间比特分布;
基于分配给所述一个或多个精细量化残差中的每一个的比特数,确定动态空间比特分布;以及
基于所述静态空间比特分布和所述动态空间比特分布,确定所述第二比特分配。
19.根据权利要求14所述的设备,其中,所述基于场景的音频数据包括与大于1的阶相对应的环绕声系数。
20.根据权利要求14所述的设备,其中,所述基于场景的音频数据包括在球谐域中定义的音频数据。
21.根据权利要求14所述的设备,
其中,所述前景音频信号包括在球谐域中定义的前景音频信号,并且
其中,所述空间分量包括在所述球谐域中定义的空间分量。
22.根据权利要求14所述的设备,其中,所述一个或多个处理器还被配置为:
将所述基于场景的音频数据渲染到一个或多个扬声器馈送;以及
基于所述扬声器馈送,再现由所述基于场景的音频数据表示的声场。
23.根据权利要求14所述的设备,
其中,所述一个或多个处理器还被配置为将所述基于场景的音频数据渲染到一个或多个扬声器馈送,并且
其中,所述设备包括一个或多个扬声器,所述一个或多个扬声器被配置为:基于所述扬声器馈送,再现由所述基于场景的音频数据表示的声场。
24.根据权利要求14所述的设备,其中,所述基于场景的音频数据包括混合阶环绕声音频数据。
25.根据权利要求14所述的设备,其中,所述一个或多个处理器还被配置为:
将所述基于场景的音频数据渲染到一个或多个扬声器馈送;以及
将所述扬声器馈送输出到一个或多个扬声器,以基于所述扬声器馈送,再现由所述基于场景的音频数据表示的声场。
26.根据权利要求14所述的设备,
其中,所述一个或多个处理器还被配置为将所述基于场景的音频数据渲染到一个或多个扬声器馈送,并且
其中,所述设备包括一个或多个扬声器,所述一个或多个扬声器被配置为基于所述扬声器馈送,再现由所述基于场景的音频数据表示的声场。
27.一种对表示基于场景的音频数据的比特流进行解码的方法,所述方法包括:
从所述比特流获得经编码的前景音频信号和对应的经量化的空间分量,所述经量化的空间分量定义所述经编码的前景音频信号的空间特征;
针对所述经编码的前景音频信号执行心理声学音频解码,以获得前景音频信号;
当针对所述经编码的前景音频信号执行心理声学音频解码时,确定所述经编码的前景音频信号的第一比特分配;
基于所述经编码的前景音频信号的所述第一比特分配,确定所述经量化的空间分量的第二比特分配;
基于所述经量化的空间分量的所述第二比特分配,对所述经量化的空间分量进行反量化,以获得空间分量;以及
基于所述前景音频信号和所述空间分量来重构所述基于场景的音频数据。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962865853P | 2019-06-24 | 2019-06-24 | |
US62/865,853 | 2019-06-24 | ||
US16/907,934 US20200402522A1 (en) | 2019-06-24 | 2020-06-22 | Quantizing spatial components based on bit allocations determined for psychoacoustic audio coding |
US16/907,934 | 2020-06-22 | ||
PCT/US2020/039162 WO2020263846A1 (en) | 2019-06-24 | 2020-06-23 | Quantizing spatial components based on bit allocations determined for psychoacoustic audio coding |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113994425A true CN113994425A (zh) | 2022-01-28 |
Family
ID=74038995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080044574.2A Pending CN113994425A (zh) | 2019-06-24 | 2020-06-23 | 基于为心理声学音频编解码确定的比特分配对空间分量进行量化 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20200402522A1 (zh) |
EP (1) | EP3987513B1 (zh) |
CN (1) | CN113994425A (zh) |
TW (1) | TW202109507A (zh) |
WO (1) | WO2020263846A1 (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102089808A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 音频编码器、音频解码器、用于编码及解码音频信号的方法、音频流与计算机程序 |
CN102124517A (zh) * | 2008-07-11 | 2011-07-13 | 弗朗霍夫应用科学研究促进协会 | 具有共用预处理的低比特率音频编码/解码方案 |
US20140219459A1 (en) * | 2011-03-29 | 2014-08-07 | Orange | Allocation, by sub-bands, of bits for quantifying spatial information parameters for parametric encoding |
WO2015000819A1 (en) * | 2013-07-05 | 2015-01-08 | Dolby International Ab | Enhanced soundfield coding using parametric component generation |
CN104285451A (zh) * | 2012-03-12 | 2015-01-14 | 捷豹路虎有限公司 | 音频系统 |
CN105593931A (zh) * | 2013-07-22 | 2016-05-18 | 弗劳恩霍夫应用研究促进协会 | 使用联合编码残余信号的音频编码器、音频解码器、方法及计算机程序 |
CN106463129A (zh) * | 2014-05-16 | 2017-02-22 | 高通股份有限公司 | 选择码簿以用于译码从高阶立体混响音频信号分解的向量 |
CN108141690A (zh) * | 2015-10-14 | 2018-06-08 | 高通股份有限公司 | 在多个转变期间译码高阶立体混响系数 |
US10075802B1 (en) * | 2017-08-08 | 2018-09-11 | Qualcomm Incorporated | Bitrate allocation for higher order ambisonic audio data |
US20190103118A1 (en) * | 2017-10-03 | 2019-04-04 | Qualcomm Incorporated | Multi-stream audio coding |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10405126B2 (en) | 2017-06-30 | 2019-09-03 | Qualcomm Incorporated | Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems |
-
2020
- 2020-06-22 US US16/907,934 patent/US20200402522A1/en active Pending
- 2020-06-23 TW TW109121370A patent/TW202109507A/zh unknown
- 2020-06-23 WO PCT/US2020/039162 patent/WO2020263846A1/en unknown
- 2020-06-23 CN CN202080044574.2A patent/CN113994425A/zh active Pending
- 2020-06-23 EP EP20739817.3A patent/EP3987513B1/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102089808A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 音频编码器、音频解码器、用于编码及解码音频信号的方法、音频流与计算机程序 |
CN102124517A (zh) * | 2008-07-11 | 2011-07-13 | 弗朗霍夫应用科学研究促进协会 | 具有共用预处理的低比特率音频编码/解码方案 |
US20140219459A1 (en) * | 2011-03-29 | 2014-08-07 | Orange | Allocation, by sub-bands, of bits for quantifying spatial information parameters for parametric encoding |
CN104285451A (zh) * | 2012-03-12 | 2015-01-14 | 捷豹路虎有限公司 | 音频系统 |
WO2015000819A1 (en) * | 2013-07-05 | 2015-01-08 | Dolby International Ab | Enhanced soundfield coding using parametric component generation |
CN105593931A (zh) * | 2013-07-22 | 2016-05-18 | 弗劳恩霍夫应用研究促进协会 | 使用联合编码残余信号的音频编码器、音频解码器、方法及计算机程序 |
CN106463129A (zh) * | 2014-05-16 | 2017-02-22 | 高通股份有限公司 | 选择码簿以用于译码从高阶立体混响音频信号分解的向量 |
CN108141690A (zh) * | 2015-10-14 | 2018-06-08 | 高通股份有限公司 | 在多个转变期间译码高阶立体混响系数 |
US10075802B1 (en) * | 2017-08-08 | 2018-09-11 | Qualcomm Incorporated | Bitrate allocation for higher order ambisonic audio data |
US20190103118A1 (en) * | 2017-10-03 | 2019-04-04 | Qualcomm Incorporated | Multi-stream audio coding |
Also Published As
Publication number | Publication date |
---|---|
WO2020263846A1 (en) | 2020-12-30 |
US20200402522A1 (en) | 2020-12-24 |
EP3987513A1 (en) | 2022-04-27 |
EP3987513B1 (en) | 2024-06-26 |
EP3987513C0 (en) | 2024-06-26 |
TW202109507A (zh) | 2021-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10499176B2 (en) | Identifying codebooks to use when coding spatial components of a sound field | |
US20150127354A1 (en) | Near field compensation for decomposed representations of a sound field | |
CN113488064A (zh) | 高阶立体混响音频数据的优先级信息 | |
US10972851B2 (en) | Spatial relation coding of higher order ambisonic coefficients | |
EP3987516B1 (en) | Coding scaled spatial components | |
US20200120438A1 (en) | Recursively defined audio metadata | |
US11538489B2 (en) | Correlating scene-based audio data for psychoacoustic audio coding | |
US20190392846A1 (en) | Demixing data for backward compatible rendering of higher order ambisonic audio | |
CN112424862B (zh) | 在向后兼容音频比特流中嵌入增强的音频传输 | |
EP3987515B1 (en) | Performing psychoacoustic audio coding based on operating conditions | |
US12073842B2 (en) | Psychoacoustic audio coding of ambisonic audio data | |
US10762910B2 (en) | Hierarchical fine quantization for audio coding | |
US10559315B2 (en) | Extended-range coarse-fine quantization for audio coding | |
EP3987513B1 (en) | Quantizing spatial components based on bit allocations determined for psychoacoustic audio coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |