CN112219237A - 空间音频参数的量化 - Google Patents
空间音频参数的量化 Download PDFInfo
- Publication number
- CN112219237A CN112219237A CN201980037571.3A CN201980037571A CN112219237A CN 112219237 A CN112219237 A CN 112219237A CN 201980037571 A CN201980037571 A CN 201980037571A CN 112219237 A CN112219237 A CN 112219237A
- Authority
- CN
- China
- Prior art keywords
- elevation
- azimuth
- component
- indexed
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013139 quantization Methods 0.000 title claims description 24
- 230000005236 sound signal Effects 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims description 57
- 238000000034 method Methods 0.000 claims description 45
- 238000004458 analytical method Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 11
- 239000000203 mixture Substances 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 9
- 230000001419 dependent effect Effects 0.000 description 8
- 238000013461 design Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 239000004065 semiconductor Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012732 spatial analysis Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/60—General implementation details not specific to a particular type of compression
- H03M7/6011—Encoder aspects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/006—Systems employing more than two channels, e.g. quadraphonic in which a plurality of audio signals are transformed in a combination of audio signals and modulated signals, e.g. CD-4 systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Abstract
特别公开了一种用于空间音频信号编码的装置,该装置确定至少一个空间音频参数,该空间音频参数包括具有仰角分量和方位角分量的方向参数。进而,该方向参数的仰角分量和方位角分量被转换成索引值。
Description
技术领域
本申请涉及用于声场相关的参数编码的装置和方法,但并不排他地涉及用于针对音频编码器和解码器的时频域方向相关的参数编码的装置和方法。
背景技术
参数空间音频处理是音频信号处理的一个领域,其中使用一组参数来描述声音的空间方面。例如,在从麦克风阵列进行参数化空间音频捕获时,从麦克风阵列信号估计一组参数是一种典型且有效的选择,该组参数诸如是频带中声音的方向、以及频带中被捕获声音的定向与非定向部分的比率。众所周知,这些参数很好地描述了在麦克风阵列的位置处的被捕获声音的感知空间特性。这些参数可相应地在空间声音的合成中使用,以用于双耳式耳机、扬声器、或诸如全景环绕声(Ambisonics)的其他格式。
因此,频带中的方向和直接总能量比(direction and direct-to-total energyratio)是对空间音频捕获特别有效的参数化。
包括频带中的方向参数和频带中的能量比参数(指示声音的定向性)的参数集也可被用作用于音频编解码器的空间元数据。例如,这些参数可从麦克风阵列捕获的音频信号来估计,并且例如可从麦克风阵列信号生成立体声信号以与空间元数据一起传达。立体声信号例如可用AAC编码器来编码。解码器可将音频信号解码成PCM信号,并(使用空间元数据)处理频带中的声音以获得空间输出,例如,双耳输出。
前述的解决方案尤其适用于编码来自麦克风阵列(例如,在移动电话、VR相机、独立麦克风阵列中)的被捕获空间声音。然而,可期望这种编码器除了麦克风阵列捕获的信号之外还具有其他输入类型,例如,扬声器信号、音频对象信号、或全景环绕声信号。
分析一阶全景环绕声(FOA)输入用于空间元数据提取已经在与定向音频编码(DirAC)和谐波平面波展开(Harpex)有关的科学文献中进行了详尽的记录。这是因为存在直接提供FOA信号(更准确地:其变形,B格式信号)的麦克风阵列,并且因此分析这种输入已经成为该领域的研究重点。
编码器的另一输入也是多通道扬声器输入,诸如5.1或7.1通道环绕声输入。
然而,关于可包括所得到的方向的仰角、方位角(以及扩散性)的元数据的方向分量,对于每个所考虑的时间/频率子带,分别沿着方位角和仰角分量(当这两个参数分别被添加到元数据时)实现均匀粒度的量化和/或编码会导致量化和编码状态分布不均。例如,针对这两者的统一方法分别导致在更接近方向球体的“极点”(换句话说,在轨迹或参考位置的正上方或正下方)具有更高密度的编码方案。
发明内容
根据第一方面,提供一种用于空间音频信号编码的方法,包括:对于两个或更多个音频信号,确定用于提供空间音频再现的至少一个空间音频参数,该至少一个空间音频参数包括具有仰角分量和方位角分量的方向参数;将方向参数的仰角分量和方位角分量转换成索引值。
将方向参数的仰角分量和方位角分量转换成索引值可以包括:将仰角分量索引到第一索引仰角值,并将方位角分量索引到依赖于第一索引仰角值的第一索引方位角值;将仰角分量索引到至少第二索引仰角值,并将方位角分量索引到依赖于第二索引仰角值的至少第二索引方位角值;以及选择以下中的一个作为索引仰角分量和索引方位角分量:第一索引仰角值和第一索引方位角值;或至少一个第二索引仰角值和至少一个第二索引方位角值。
上述选择可以包括:确定在由仰角分量和方位角分量给定的球体上的点与在由第一索引仰角值和第一索引方位角值给定的球体上的点之间的第一距离;确定在由仰角分量和方位角分量给定的球体上的点与在由至少一个第二索引仰角值和至少一个第二索引方位角值给定的球体上的点之间的至少一个第二距离;以及根据第一距离和第二距离中的最小值,选择以下中的一个作为索引仰角分量和索引方位角分量:第一索引仰角值和第一索引方位角值;或至少一个第二索引仰角值和至少一个第二索引方位角值。
第一距离和所述第二距离可以分别是在球体上的两点之间测量的L2范数距离。
仰角分量和方位角分量可以被索引到球体网格上的点,其中,该球体网格包括以球体的形式布置的多个点。
球体网格可以是通过用更小球体覆盖该球体而形成的,其中,这些更小球体定义该球体网格的点。
仰角分量和方位角分量可以各自被索引到包括多个索引仰角值和索引方位角值的码本。
码本内的每个索引仰角值可以与多个索引方位角值相关联。
进行索引可以包括标量量化为索引值。
仰角分量和方位角分量可以是方位角/仰角向量的分量,其中,将方向参数的仰角分量和方位角分量转换成索引值进而可以包括:确定方位角/仰角向量与来自包括多个方位角/仰角码向量的向量码本的第一方位角/仰角码向量之间的第一距离度量,并确定方位角/仰角向量与来自该向量码本的至少第二方位角/仰角码向量之间的至少第二距离度量;从第一距离度量和至少第二距离度量中选择最小距离度量;以及将索引值指定为与该最小距离度量相关联的方位角/仰角码向量的索引。
如上所述,第一距离和第二距离可以分别是在球体上的两点之间测量的L2范数距离。
上述球体是单一球体,并且其中,该单一球体上的两点之间的L2范数采用-(sin(θ1)sin(θ2)+cos(θ1)cos(θ2)cos(φ1-φ2))的形式,其中,θ1和θ2是这两点中的第一点和第二点的仰角值,其中,φ1和φ2是这两点中的第一点和第二点的方位角值。
根据第二方面,提供了一种用于空间音频信号编码的装置,包括:用于对于两个或更多个音频信号,确定用于提供空间音频再现的至少一个空间音频参数的部件,其中该至少一个空间音频参数包括具有仰角分量和方位角分量的方向参数;用于将方向参数的仰角分量和方位角分量转换成索引值的部件。
用于将方向参数的仰角分量和方位角分量转换成索引值的部件可以包括:用于将仰角分量索引到第一索引仰角值,并将方位角分量索引到依赖于第一索引仰角值的第一索引方位角值的部件;用于将仰角分量索引到至少第二索引仰角值,并将方位角分量索引到依赖于第二索引仰角值的至少第二索引方位角值的部件;以及用于选择以下中的一个作为索引仰角分量和索引方位角分量的部件:第一索引仰角值和第一索引方位角值;或至少一个第二索引仰角值和至少一个第二索引方位角值。
用于选择的部件可以包括:确定在由仰角分量和方位角分量给定的球体上的点与在由第一索引仰角值和第一索引方位角值给定的球体上的点之间的第一距离;确定在由仰角分量和方位角分量给定的球体上的点与在由至少一个第二索引仰角值和至少一个第二索引方位角值给定的球体上的点之间的至少一个第二距离;以及根据第一距离和第二距离中的最小值,选择以下中的一个作为索引仰角分量和索引方位角分量:第一索引仰角值和第一索引方位角值;或至少一个第二索引仰角值和至少一个第二索引方位角值。
第一距离和所述第二距离可以分别是在球体上的两点之间测量的L2范数距离。
仰角分量和方位角分量可以被索引到球体网格上的点,其中,该球体网格包括以球体的形式布置的多个点。
球体网格可以是通过用更小球体覆盖该球体而形成的,其中,这些更小球体定义该球体网格的点。
仰角分量和方位角分量可以各自被索引到包括多个索引仰角值和索引方位角值的码本。
码本内的每个索引仰角值可以与多个索引方位角值相关联。
用于进行索引的部件可以包括用于标量量化为索引值的部件。
仰角分量和方位角分量可以是方位角/仰角向量的分量,其中,将方向参数的仰角分量和方位角分量转换成索引值进而可以包括:确定方位角/仰角向量与来自包括多个方位角/仰角码向量的向量码本的第一方位角/仰角码向量之间的第一距离度量,并确定方位角/仰角向量与来自该向量码本的至少第二方位角/仰角码向量之间的至少第二距离度量;从第一距离度量和至少第二距离度量中选择最小距离度量;以及将索引值指定为与该最小距离度量相关联的方位角/仰角码向量的索引。
如上所述,第一距离和第二距离可以分别是在球体上的两点之间测量的L2范数距离。
上述球体是单一球体,并且其中,该单一球体上的两点之间的L2范数距离采用-(sin(θ1)sin(θ2)+cos(θ1)cos(θ2)cos(φ1-φ2))的形式,其中,θ1和θ2是这两点中的第一点和第二点的仰角值,其中,φ1和φ2是这两点中的第一点和第二点的方位角值。
根据另一方面,提供了一种装置,包括至少一个处理器和包括计算机程序代码的至少一个存储器,该至少一个存储器和计算机程序代码被配置为与该至少一个处理器一起使得该装置:对于两个或更多个音频信号,确定用于提供空间音频再现的至少一个空间音频参数,该至少一个空间音频参数包括具有仰角分量和方位角分量的方向参数;将方向参数的仰角分量和方位角分量转换成索引值。
被使得将方向参数的仰角分量和方位角分量转换成索引值的该装置可以被使得:将仰角分量索引到第一索引仰角值,并将方位角分量索引到依赖于第一索引仰角值的第一索引方位角值;将仰角分量索引到至少第二索引仰角值,并将方位角分量索引到依赖于第二索引仰角值的至少第二索引方位角值;以及选择以下中的一个作为索引仰角分量和索引方位角分量:第一索引仰角值和第一索引方位角值;或至少一个第二索引仰角值和至少一个第二索引方位角值。
被使得进行选择的该装置可以被使得:确定在由仰角分量和方位角分量给定的球体上的点与在由第一索引仰角值和第一索引方位角值给定的球体上的点之间的第一距离;确定在由仰角分量和方位角分量给定的球体上的点与在由至少一个第二索引仰角值和至少一个第二索引方位角值给定的球体上的点之间的至少一个第二距离;以及根据第一距离和第二距离中的最小值,选择以下中的一个作为索引仰角分量和索引方位角分量:第一索引仰角值和第一索引方位角值;或至少一个第二索引仰角值和至少一个第二索引方位角值。
第一距离和所述第二距离可以分别是在球体上的两点之间测量的L2范数距离。
仰角分量和方位角分量可以被索引到球体网格上的点,其中,该球体网格包括以球体的形式布置的多个点。
球体网格可以是通过用更小球体覆盖该球体而形成的,其中,这些更小球体定义该球体网格的点。
仰角分量和方位角分量可以各自被索引到包括多个索引仰角值和索引方位角值的码本。
码本内的每个索引仰角值可以与多个索引方位角值相关联。
被使得进行索引的该装置可以被使得标量量化为索引值。
仰角分量和方位角分量可以是方位角/仰角向量的分量,其中,被使得将方向参数的仰角分量和方位角分量转换成索引值的该装置进而可以被使得:确定方位角/仰角向量与来自包括多个方位角/仰角码向量的向量码本的第一方位角/仰角码向量之间的第一距离度量,并确定方位角/仰角向量与来自该向量码本的至少第二方位角/仰角码向量之间的至少第二距离度量;从第一距离度量和至少第二距离度量中选择最小距离度量;以及将索引值指定为与该最小距离度量相关联的方位角/仰角码向量的索引。
如上所述,第一距离和第二距离可以分别是在球体上的两点之间测量的L2范数距离。
上述球体是单一球体,并且其中,该单一球体上的两点之间的L2范数距离采用-(sin(θ1)sin(θ2)+cos(θ1)cos(θ2)cos(φ1-φ2))的形式,其中,θ1和θ2是这两点中的第一点和第二点的仰角值,其中,φ1和φ2是这两点中的第一点和第二点的方位角值。
一种计算机程序,包括用于使计算机执行如上所描述的方法的程序指令。
一种在介质上存储的计算机程序产品,可以使装置执行如本文所描述的方法。
一种电子设备,可以包括如本文所描述的装置。
一种芯片组,可以包括如本文所描述的装置。
本申请的实施例旨在解决与现有技术相关联的问题。
附图说明
为了更好地理解本申请,现在将通过示例的方式参考附图,其中:
图1示意性地示出适合于实现一些实施例的装置的系统;
图2示意性地示出根据一些实施例的如图1所示的分析处理器。
图3a示意性地示出根据一些实施例的如图1所示的元数据编码器/量化器;
图3b示意性地示出根据一些实施例的如图1所示的元数据提取器;
图3c至3e示意性地示出根据一些实施例的如在图3a和图3b所示的元数据编码器/量化器和元数据提取器中使用的示例性球体位置配置;
图4示出根据一些实施例的如图1所示的系统的操作的流程图;
图5示出根据一些实施例的如图2所示的分析处理器的操作的流程图;
图6更详细地示出基于输入方向参数来生成方向索引的流程图;
图7更详细地示出量化方向参数以获得方向索引的示例性操作的流程图;
图8更详细地示出基于输入方向索引来生成量化方向参数的流程图;
图9更详细地示出从方向索引转换量化方向参数的示例性操作的流程图;
图10示意性地示出适合于实现所示出的装置的示例性设备。
具体实施方式
下面更详细地描述用于提供用于多通道输入格式音频信号的有效空间分析导出的元数据参数的合适装置和可能机制。在下面的讨论中,将关于多通道麦克风实现来讨论多通道系统。然而,如上所述,输入格式可以是任何合适的输入格式,诸如多通道扬声器、全景环绕声(FOA/HOA)等。应理解,在一些实施例中,通道位置是基于麦克风的位置的,或者是基于虚拟位置或方向的。此外,示例性系统的输出是多通道扬声器布置。然而,应理解,该输出可经由除了扬声器以外的手段渲染给用户。此外,多通道扬声器信号可被概括为两个或更多个播放音频信号。
如前面所讨论的,频带中的空间元数据参数,诸如方向和直接总能量比(或扩散比(diffuseness-ratio)、绝对能量、或指示在给定时频间隔处的声音的定向性/非定向性的任何合适表达)参数特别适合于表达自然声场的感知特性。诸如5.1扬声器混音的合成声音场景通常利用音频效果和幅度平移方法,其提供不同于自然声场中发生的声音的空间声音。特别地,5.1或7.1混音可被配置以使它包含从多个方向播放的相干声音。例如,通常在正面直接感知的5.1混音的一些声音不是由中央(通道)扬声器产生的,而是例如从左前和右前(通道)扬声器,并且还可能从中央(通道)扬声器相干地产生的。诸如方向和能量比(direction and energy ratio)的空间元数据参数没有准确地表达这种空间相干特征。如此,可从音频信号的分析中确定诸如相干性参数的其他元数据参数,以表达通道之间的音频信号关系。
如上所述,将方向信息并入元数据的示例是使用所确定的方位角和仰角值。然而,常规的均匀方位角和仰角采样产生非均匀的方向分布。
因此,该概念是尝试确定用于空间元数据的方向参数并基于实际的基于球体覆盖的方向分布来索引该参数,以便定义更均匀的方向分布。
所提出的元数据索引然后可以与下混合信号(“通道”)一起使用,以定义例如可用于沉浸式语音和音频服务(IVAS)编解码器的参数化沉浸式格式。可替代地以及附加地,可以在编解码器中使用球形网格格式以量化方向。
此外,该概念讨论了这种所索引的方向参数的解码以产生量化的方向参数,该量化的方向参数可以在基于声场相关的参数化(频带中的方向和比率)的空间音频合成中使用。
关于图1,示出了用于实现本申请的实施例的示例性装置和系统。系统100被示出具有“分析”部分121和“合成”部分131。“分析”部分121是从接收多通道扬声器信号直到元数据和下混合信号的编码的部分,“合成”部分131是从编码元数据和下混合信号的解码到(例如,以多通道扬声器形式)呈现重新生成的信号的部分。
系统100和“分析”部分121的输入是多通道信号102。在下面的示例中描述了麦克风通道信号输入,然而,在其他实施例中可实现任何合适的输入(或合成多通道)格式。
多通道信号被传递到下混合器103和分析处理器105。
在一些实施例中,下混合器103被配置为接收多通道信号、将信号下混合为确定数量的通道、以及输出下混合信号104。例如,下混合器103可被配置为生成多通道信号的2个音频通道下混合。所确定的通道数量可以是任何合适的通道数量。在一些实施例中,下混合器103是可选的,并且多通道信号以与下混合信号在该示例中相同的方式未经处理地被传递到编码器107。
在一些实施例中,分析处理器105也被配置为接收多通道信号,并分析该信号以产生与多通道信号相关联并因此与下混合信号104相关联的元数据106。分析处理器105可被配置为生成元数据,对于每个时频分析间隔,该元数据可包括方向参数108、能量比参数110、相干性参数112、以及扩散性参数114。在一些实施例中,方向参数、能量比参数和扩散性参数可被认为是空间音频参数。换句话说,空间音频参数包括旨在表征由多通道信号(或者一般地,两个或更多个播放音频信号)创建的声场的参数。相干性参数可被认为是旨在表征多通道信号之间的关系的信号关系音频参数。
在一些实施例中,所生成的参数可在频带与频带之间不同。因此,例如,在频带X中,所有的参数被生成和发送,而在频带Y中,仅其中一个参数被生成和发送,此外,在频带Z中,没有参数被生成或发送。这种情况的实际示例可能是对于诸如最高频带的一些频带,出于感知方面原因而不需要一些参数。下混合信号104和元数据106可被传递到编码器107。
编码器107可以包括INAS立体声核心109,其被配置为接收下混合(或其他)信号104并生成这些音频信号的合适的编码。在一些实施例中,编码器107可以是计算机(运行存储在存储器上和至少一个处理器上的合适的软件),或者可替代地可以是例如利用FPGA或ASIC的特定设备。编码可以使用任何合适的方案来实现。此外,编码器107可包括被配置为接收元数据并输出编码或压缩形式的信息的元数据编码器或量化器109。在一些实施例中,在图1中由虚线所示的传输或存储之前,编码器107可进一步交织、复用到单个数据流或将元数据嵌入编码的下混合信号内。复用可使用任何合适的方案来实现。
在解码器侧,所接收或获取的数据(流)可由解码器/解复用器133来接收。解码器/解复用器133可以对编码流进行解复用,并将音频编码流传递到被配置为对音频信号进行解码以获得下混合信号的下混合提取器135。类似地,解码器/解复用器133可以包括被配置为接收编码元数据并生成元数据的元数据提取器137。在一些实施例中,解码器/解复用器133可以是计算机(运行存储在存储器上和在至少一个处理器上的合适的软件),或者可替代地可以是例如利用FPGA或ASIC的特定设备。
解码元数据和下混合音频信号可被传递到合成处理器139。
系统100的“合成”部分131还示出了合成处理器139,合成处理器139被配置为接收下混合和元数据,并基于下混合信号和元数据以任何合适的格式重新创建采用多通道信号110形式的合成空间音频(根据使用情况,这些合成空间音频可以是多通道扬声器格式,或者在一些实施例中可以是诸如双耳或环绕立体声信号的任何合适的输出格式)。
关于图4,示出了图1所示的概况的示例性流程图。
首先,如在图4中由步骤401所示,系统(分析部分)被配置为接收多通道音频信号。
然后,如在图4中由步骤403所示,系统(分析部分)被配置为生成多通道信号的下混合。
此外,如在图4中由步骤405所示,系统(分析部分)被配置为分析信号以生成元数据,诸如方向参数;能量比参数;扩散性参数;以及相干性参数。
然后,如在图4中由步骤407所示,系统被配置为对下混合信号和元数据进行编码以用于存储/发送。
在这之后,如在图4中由步骤409所示,系统可存储/发送编码的下混合和元数据。
如在图4中由步骤411所示,系统可获取/接收编码的下混合和元数据。
然后,如在图4中由步骤413所示,系统被配置为从编码的下混合和元数据参数中提取下混合和元数据,例如,对编码的下混和元数据参数进行解复用和解码。
如在图4中由步骤415所示,系统(合成部分)被配置为基于所提取的多通道音频信号的下混合和具有相干性参数的元数据,合成输出多通道音频信号。
关于图2更详细地描述了根据一些实施例的示例性分析处理器105(如图1中所示)。在一些实施例中,分析处理器105包括时频域变换器201。
在一些实施例中,时频域变换器201被配置为接收多通道信号102,并应用诸如短时间傅立叶变换(STFT)的合适的时频域变换,以便将输入时域信号转换成合适的时频信号。这些时频信号可被传递到方向分析器203和信号分析器205。
因此,例如,时频信号202可在时频域表示中被表示为:
si(b,n)
其中,b是频率区间(frequency bin)索引,n是帧索引,i是通道索引。在另一个表达中,n可被认为是具有比原始时域信号的采样率低的采样率的时间索引。这些频率区间可被分组成多个子带,这些子带将一个或多个区间分组成频带索引k=0,…,K-1。每个子带k具有最低区间bk,low和最高区间bk,high,并且该子带包含从bk,low到bk,high的所有区间。子带的宽度可近似于任何合适的分布。例如,等效矩形带宽(ERB)尺度或Bark尺度。
在一些实施例中,分析处理器105包括方向分析器203。方向分析器203可被配置为接收时频信号202,并基于这些信号估计方向参数108。方向参数可基于任何基于音频的“方向”确定来确定。
例如,在一些实施例中,方向分析器203被配置为用两个或更多个信号输入来估计方向。这表示用于估计“方向”的最简单配置,更复杂的处理可以用甚至更多个信号来执行。
在一些实施例中,除了方向参数之外,方向分析器203还被配置为确定能量比参数110。能量比可被认为是对可被认为是从一方向到达的音频信号的能量的确定。直接总能量比r(k,n)可例如使用定向估计的稳定性度量、或者使用任何相关性度量、或者任何其他用于获得比率参数的合适的方法来估计。
所估计的方向参数108可被输出(并被传递到编码器)。所估计的能量比参数110可被传递到信号分析器205。
在一些实施例中,分析处理器105包括信号分析器205。信号分析器205被配置为从方向分析器203接收参数方向(诸如方位角和仰角θ(k,n)108和直接总能量比r(k,n)110)。信号分析器205可进一步被配置为从时频域变换器201接收时频信号(si(b,n))202。所有这些是在时频域中;b是频率区间索引,k是频带索引(每个带可包括若干区间b),n是时间索引,i是通道。
虽然在此方向和比率针对每个时间索引n进行表达,但在一些实施例中,参数可在若干时间索引上进行组合。如已表达的,同样适用于频率轴,若干频率区间b的方向可由包括若干频率区间b的带k中的一个方向参数来表达。这同样适用于本文中所有所讨论的空间参数。
信号分析器205被配置为产生多个信号参数。在以下公开中,存在两个参数:相干性和扩散性,它们都在时频域中进行分析。另外,在一些实施例中,信号分析器205被配置为修改所估计的能量比(r(k,n))。信号分析器205被配置为基于任何合适的已知方法来生成相干性和扩散性参数。
关于图5,示出了总结分析处理器105的操作的流程图。
如在图5中由步骤501所示,第一操作是接收时域多通道(扬声器)音频信号。
接下来,如在图5中由步骤503所示,应用时域到频域变换(例如,STFT)以生成合适的时频域信号以用于分析。
然后,在图5中由步骤505示出了应用方向分析以确定方向和能量比率参数。
然后,如在图5中由步骤507示出了应用分析以确定相干性参数(诸如环绕参数和/或扩展相干性参数)和扩散性参数。在一些实施例中,在该步骤中还可基于所确定的相干性参数来修改能量比率。
在图5中由步骤509示出了输出所确定的参数的最终操作。
关于图3a,示出了根据一些实施例的示例性元数据编码器,并且尤其示出了方向元数据编码器300。
在一些实施例中,方向元数据编码器300包括量化输入302。量化输入(也可被称为编码输入)被配置为定义围绕参考位置或地点而设置的球体的粒度,方向参数是根据该参考位置或地点而确定的。在一些实施例中,量化输入是预定义或固定值。
在一些实施例中,方向元数据编码器300包括球体定位器303。球体定位器被配置为基于量化输入值来配置球体布置。所提出的球形网格使用如下的构思:用更小球体来覆盖一球体,并将更小球体的中心视为定义几乎等距离的方向的网格的点,以使得球体网格包括以球体形式布置的多个点。
如本文所示出的概念是相对于参考位置来定义球体。该球体可被可视化为一系列的圆(或交点),并且对于每个圆交点,在圆的圆周处存在定义数量的(更小)球体。这例如关于图3c至3e被示出。例如,图3c示出了示例性“赤道横截面”或第一主圆370,其半径被定义为“主球体半径”。在图3c还示出了更小球体(被示出为圆横截面)371、373、375、377和379,其被放置以使得每个更小球体的圆周在一个点接触主球体圆周,并且在至少另一点接触至少另一更小球体圆周。因此,如图3c所示,更小球体371接触主球体370以及更小球体373,更小球体373接触主球体370以及更小球体371和375,更小球体375接触主球体370以及更小球体373和377,更小球体377接触主球体370以及更小球体375和379,更小球体379接触主球体370以及更小球体377。
图3d示出了示例性“热带横截面”或另一主圆380以及更小球体(被示出为圆横截面)381、383、385,其被放置以使得每个更小球体的圆周在一个点接触主球体(圆)圆周,并且在至少另一点接触至少另一更小球体圆周。因此,如图3d所示,更小球体381接触主球体380以及更小球体383,更小球体383接触主球体380以及更小球体381和385,更小球体385接触主球体380以及更小球体383。
图3e示出了示例性球体和横截面370、380,以及与横截面370相关联的更小球体(横截面)371、与横截面380相关联的更小球体381、以及其他更小球体392、393、394、395、397、398。在该示例中,仅仅绘制了起始方位角值为0的圆。
因此,在一些实施例中,球体定位器303被配置为执行以下操作以定义与覆盖球体相对应的方向:
输入:量化输入(在“赤道”上的点的数量,n(0)=M)
输出:圆的数量Nc、以及在每个圆上的点的数量n(i),i=0,Nc-1
1.n(0)=M
3.R(0)=1(在赤道处的圆的半径)
4.θ(0)=0(仰角)
6.φ(0)=0
8.R(1)=R(0)cos p
9.i=1
10.While n(i-1)>1
b.θ(i)=p·i
d.R(i+1)=R(i)cos((i+1)·p)
e.If i is odd
f.Else
i.φ0(i)=0
g.End if
h.i=i+1
11.End while
12.Nc=i+1
步骤5也可以被替换为:
其中,因子k控制沿仰角的点的分布。对于k=4,仰角分辨率约为1度。对于更小的k,分辨率相应地更小。
圆i上的每个点的仰角由θ(i)的值给出。对于在赤道上方的每个圆,在赤道下方存在对应的圆。
在一个圆上的每个方向点可以以关于方位角递增的顺序来索引。每个圆中的第一个点的索引由可从每个圆上的点的数量n(i)推断出的偏移给出。为了获得这些偏移,对于所考虑的圆的顺序,这些偏移被计算为对于给定顺序的圆上累积的点的数量,从值0开始作为第一偏移。
一个可能的圆的顺序可以是从赤道开始,接着是在赤道上方的第一个圆,然后是在赤道下方的第一个圆,在赤道上方的第二个圆,依此类推。
另一个选择是从赤道开始,然后是在赤道上方大约45度仰角的圆,然后是在赤道下方的对应的圆,然后是备选顺序中的其他圆。以此方式,对于某些更简单的扬声器定位,仅使用那些第一个圆,从而减少了用于发送信息的比特数量。
在其他实施例中,还可使用其他的圆的顺序。
在一些实施例中,球体网格还可以通过考虑经线0而不是赤道或任何其他经线来生成。
已经确定了多个圆和圆的数量Nc、在每个圆上的点的数量n(i),i=0,Nc-1以及索引顺序的球体定位器可被配置为将此类信息传递到EA到DI转换器305。
在一些实施例中,方向元数据编码器300包括方向参数输入108。方向参数输入可定义仰角和方位角值D=(θ,φ)。
在以下段落中提供了从(仰角/方位角)(EA)到方向索引(DI)以及反向的转换过程。在此考虑了替代的圆的顺序。
方向元数据编码器300包括仰角-方位角到方向索引(EA-DI)转换器305。在一些实施例中,仰角-方位角到方向索引转换器305被配置为接收方向参数输入108和球体定位器信息,并通过量化仰角-方位角值来将来自方向参数输入108的仰角-方位角值转换成方向索引。
关于图6,示出了根据一些实施例的用于生成方向索引的示例性方法。
在图6中由步骤601示出了量化输入的接收。
然后,如在图6中由步骤603所示,该方法可基于该量化输入来确定球体定位。
如在图6中由步骤602所示,该方法还可包括接收方向参数。
如在图6中由步骤605所示,在已接收到方向参数和球体定位信息后,该方法可包括基于球体定位信息将方向参数转换成方向索引。
然后,如在图6中由步骤607所示,该方法可输出方向索引。
在一些实施例中,仰角-方位角到方向索引(EA-DI)转换器305被配置为根据以下算法来执行该转换:
输出:Id
在一些实施例中,Sθ可采取具有N个离散条目的索引码本的形式,对于i=O:N-1,每个条目θi对应于仰角值。另外,对于每个离散的仰角值θi,该码本还包括一组离散的方位角值φj,其中,该组中的方位角值的数量依赖于仰角θi。换句话说,对于每个仰角条目θi,对于j=0:f(θi),可以有不同数量的离散方位角值φj,其中,f(θi)表示与仰角值θi相关联的该组方位角值中的方位角值的数量是仰角值θi的函数。
在其他实施例中,仰角-方位角值的索引可不使用上述码本结构来存储离散的仰角和方位角值。相反,可以使用线性量化,其中,可以使用由球体定位器提供的圆数Nc和粒度p以将仰角范围在从-π/2到π/2均匀地进行划分。在该仰角范围上的位置给出了圆索引,并且方位角离散点的数量及对应的偏移量off(i)是已知的。
3.方向索引是Id=off(i)+j
EA-DI索引方法的说明将基于上述码本结构进行。然而,应理解,以下方法同等地适用于其中仰角范围沿着尺度-π/2至π/2而被划分的均匀量化器结构。
关于图7,示出了在图6中由步骤605所示的用于将仰角-方位角转换成方向索引(EA-DI)的示例性方法。
量化仰角-方位角值的第一步骤可以包括通过查找最接近的码本条目θi来标量量化仰角值θ以给出第一量化仰角值可以通过查找下一最接近的码本条目来再次标量量化仰角值θ。这可作为码本条目θi+1或θi-1中的任一项给出,具体取决于哪个更接近θ,由此,产生第二量化仰角值
将仰角值θ标量量化为最接近的索引仰角值θi,以及附加地标量量化为下一最接近的索引仰角值θi+1或θi-1的处理步骤分别被示出为处理步骤701和703。
对于每个量化仰角值和可以找到对应的标量量化方位角值。换句话说,可以通过从与第一量化仰角值的索引仰角值θi相关联的一组方位角值中查找最接近的方位角值来确定与对应的第一标量量化方位角值。与第一量化仰角值对应的第一标量量化方位角值可以被表示为类似地,还可以确定与对应的第二标量量化方位角值,并将其表示为这可以通过重新量化方位角值φ来执行,然而,这次使用与第二标量量化仰角值的索引相关联的一组方位角值。
标量量化对应于最接近的索引仰角值θi的方位角值φ,以及附加地标量量化对应于下一最接近的索引仰角值θi+1或θi-1的方位角值的处理步骤分别被示出为处理步骤705和707。
一旦已经确定了第一仰角-方位角标量量化值对和第二仰角-方位角标量量化值对,就可以针对每对计算出在单一球体上的距离度量。可以通过采用在单一球体上的两点之间的L2范数距离来考虑距离度量,因此,对于第一标量量化仰角-方位角对距离d被计算为在单一球体上第一标量量化仰角-方位角对与未量化的仰角-方位角对(θ,φ)之间的距离。类似地,对于第二标量量化仰角-方位角对距离d′被计算为在单一球体上第二标量量化仰角-方位角对与未量化的仰角-方位角对(θ,φ)之间的距离。
应理解,在实施例中,可以根据‖x-y‖2考虑单一球体上的两点x与y之间的L2范数距离,其中,x和y是三维空间中的球坐标。当使用仰角-方位角对(θ,φ)时,该球坐标可被表示为x=(rcos(θ)cos(φ),rcos(θ)sin(φ),rsin(θ)),而对于仰角-方位角对该球坐标对应于当考虑单一球体时,半径r=1,距离d可被简化为计算其中可以看出距离d仅依赖于角的值。
最后,选择具有最小距离度量的标量量化仰角-方位角对,作为仰角-方位角(θ,φ)的量化仰角-方位角值。进而,与所选择的量化仰角和方位角对相关联的对应的索引继续形成方向索引Id。
查找最小距离的处理步骤被示出为图7中的713。
应理解,即使已经在单一球体方面定义了上述球形量化方案,其他实施例也可以基于半径不等于1的通用球体来部署上述量化方案。在这样的实施例中,上述查找最小距离的步骤仍然成立,因为与第一标量量化仰角-方位角对和第二标量量化仰角-方位角对对应的最小距离计算与半径r无关。
应注意,已经在优选实施例方面使用仰角值θ的第一和第二量化标量值描述了用于查找与仰角-方位角对(θ,φ)的所选择的量化值对应的方向索引Id的上述处理步骤。然而,其他实施例可以从使用仰角θ的两个以上不同的标量量化值的位置开始。在这样的实施例中,可以选择与仰角值θ最接近的码本条目作为正在进行的计算所基于的量化仰角值。因此,在这样的实施例中,将对应数量的距离度量与标量量化的仰角-方位角对进行最终比较,其中标量量化的仰角-方位角对产生被选择为仰角-方位角(θ,φ)的量化仰角-方位角值的最小距离。
应理解,上述进行索引操作可以涉及以下操作:将量化值指定为参数的特定值,然后使用索引来指代或引用量化的参数值。表示量化的参数值的索引可以作为编码比特流的一部分被存储或发送。
应进一步理解,基于在单一球体上的两点之间的距离的上述距离度量可被用于使用仰角值和方位角值作为向量分量的任何方向分量量化方案。为此,在其他实施例中,可以使用包括多个仰角/方位角码向量的向量码本来量化仰角/方位角向量。可以使用最接近相邻搜索例程来搜索向量码本,其中,具有最小距离度量的仰角/方位角码向量被选择为与仰角/方位角向量最接近的码向量。在该实施例中,方向索引然后被确定为最接近仰角/方位角码向量的索引。注意,用于向量码本的最接近相邻搜索例程的距离度量可以与在上面针对球体网格的情况而描述的在球体上的两点x与y之间的L2范数距离相同。也就是说,对于仰角-方位角对(θ,φ),球坐标可被表示为x=(rcos(θ)cos(φ),rcos(θ)sin(φ),rsin(θ)),对于仰角/方位角码向量球坐标对应于因此,对于单一球体,仰角/方位角向量与来自向量码本的仰角/方位角码向量之间的距离度量可以被简化为计算
可以输出方向索引Id 306。
关于图3b,示出了根据一些实施例的示例性元数据提取器137,并且尤其示出了方向元数据提取器350。
在一些实施例中,方向元数据提取器350包括量化输入352。在一些实施例中,该量化输入是从元数据编码器传递的,或者以其他方式与编码器商定的。量化输入被配置为定义围绕参考位置或地点而设置的球体的粒度。
在一些实施例中,方向元数据提取器350包括方向索引输入351。该方向索引输入可从编码器接收或者通过任何合适的手段获取。
在一些实施例中,方向元数据提取器350包括球体定位器353。球体定位器353被配置为接收量化输入作为输入,并以与在编码器中生成的相同的方式来生成球体布置。在一些实施例中,量化输入和球体定位器353是可选的,并且球体布置信息是从编码器传递的而不是在提取器中生成的。
方向元数据提取器350包括方向索引到仰角-方位角(DI-EA)转换器355。方向索引到仰角-方位角转换器355被配置为接收方向索引以及球体位置信息,并生成近似或量化的仰角-方位角输出。在一些实施例中,该转换根据以下算法来执行。
输入:Id
输出:(θ,φ)
1.找到圆索引i,以使得off(i)≤Id≤off(i+1)
关于图8,示出了根据一些实施例的用于提取方向参数(或生成量化的方向参数)的示例性方法。
在图8中由步骤801示出了量化输入的接收。
然后,如在图8中由步骤803所示,该方法可基于量化输入来确定球体定位。
如在图8中由步骤802所示,该方法还可包括接收方向索引。
如在图8中由步骤805所示,在已接收方向索引和球体定位信息后,该方法可包括基于球体定位信息将方向索引转换成采用量化的方向参数形式的方向参数。
然后,如在图8中由步骤807所示,该方法可输出量化的方向参数。
关于图9,示出了根据一些实施例的如在图8中由步骤805所示的用于将方向索引转换成量化的仰角-方位角(DI-EA)参数的示例性方法。
如在图9中由步骤901所示,在一些实施例中,该方法包括找到圆索引值i,以使得off(i)≤Id≤off(i+1)。
如在图9中由步骤903所示,在已确定圆索引后,下一操作是从球体定位信息计算半球体中的圆索引。
然后,如在图9中由步骤905所示,基于圆索引来确定量化的仰角。
如在图9中由步骤907所示,在已确定量化的仰角后,基于圆索引和仰角信息来确定量化的方位角。
虽然在整个文档中没有重复,但应当理解,空间音频处理通常且在该上下文中是在频带中发生的。那些频带例如可以是时频变换的频率区间,或者是组合若干频率区间的频带。该组合可使得近似于人类听力的特性,诸如Bark频率分辨率。换句话说,在一些情况下,我们可以在组合若干频率区间b和/或时间索引n的时频区域中测量和处理音频。为了简便起见,这些方面均未通过以上所有公式来表达。在组合多个时频样本的情况下,通常针对该时频区域来估计诸如一个方向的一个参数集,然后根据诸如该一个方向参数的该参数集来合成该区域内的所有时频样本。
在参数分析中使用与所应用的滤波器组的频率分辨率不同的频率分辨率是空间音频处理系统中的典型方法。
关于图10,示出了可用作分析或合成设备的示例性电子设备。该设备可以是任何合适的电子设备或装置。例如,在一些实施例中,设备1400是移动设备、用户设备、平板计算机、计算机、音频播放装置等。
在一些实施例中,设备1400包括至少一个处理器或中央处理单元1407。处理器1407可被配置为执行诸如本文所描述的方法的各种程序代码。
在一些实施例中,设备1400包括存储器1411。在一些实施例中,至少一个处理器1407被耦合到存储器1411。存储器1411可以是任何合适的存储部件。在一些实施例中,存储器1411包括,用于存储可在处理器1407上实现的程序代码的程序代码部分。此外,在一些实施例中,存储器1411还可包括用于存储数据(例如,根据本文所描述的实施例的已被处理或将要处理的数据)的存储数据部分。无论何时只要需要,处理器1407就可经由存储器-处理器耦合来获取存储在程序代码部分中的实现程序代码和存储在存储数据部分中的数据。
在一些实施例中,设备1400包括用户接口1405。在一些实施例中,用户接口1405可被耦合到处理器1407。在一些实施例中,处理器1407可控制用户接口1405的操作并从用户接口1405接收输入。在一些实施例中,用户接口1405可使得用户能够例如经由键盘将命令输入到设备1400。在一些实施例中,用户接口1405可使得用户能够从设备1400获得信息。例如,用户接口1405可包括被配置为将信息从设备1400显示给用户的显示器。在一些实施例中,用户接口1405可包括触摸屏或触摸界面,其能够使得信息被输入到设备1400并且还向设备1400的用户显示信息。在一些实施例中,用户接口1405可以是用于与如本文所描述的位置确定器通信的用户接口。
在一些实施例中,设备1400包括输入/输出端口1409。在一些实施例中,输入/输出端口1409包括收发机。在这种实施例中,收发机可被耦合到处理器1407并且被配置为使得能够例如经由无线通信网络与其他装置或电子设备进行通信。在一些实施例中,收发机或任何合适的收发机或发射机和/或接收机装置可被配置为经由有线或有线耦合与其他电子设备或装置通信。
收发机可通过任何合适的已知通信协议与其他装置通信。例如,在一些实施例中,收发机或收发机部件可使用合适的通用移动电信系统(UMTS)协议、诸如例如IEEE 802.X的无线局域网(WLAN)协议、诸如蓝牙的合适的短距离射频通信协议、或者红外数据通信路径(IRDA)。
收发机输入/输出端口1409可被配置为接收信号,并且在一些实施例中通过使用执行合适的代码的处理器1407来确定如本文所描述的参数。此外,设备可生成合适的下混合信号和参数输出以发送到合成设备。
在一些实施例中,装置1400可被作为合成设备的至少一部分。这样,输入/输出端口1409可被配置为接收下混合信号,并且在一些实施例中接收如本文所描述的在捕获设备或处理设备处确定的参数,以及通过使用执行合适的代码的处理器1407来生成合适的音频信号格式输出。输入/输出端口1409可被耦合到任何合适的音频输出,例如被耦合到多通道扬声器系统和/或耳机或类似物。
通常,本发明的各种实施例可以采用硬件或专用电路、软件、逻辑或其任何组合来实现。例如,一些方面可以采用硬件实现,而其他方面可以采用可由控制器、微处理器或其他计算设备执行的固件或软件实现,但是本发明不限于此。虽然本发明的各个方面可被示出并描述为框图、流程图或使用一些其他图示表示来示出或描述,但是应当充分理解,本文所描述的这些框、装置、系统、技术或方法可以作为非限制性的示例采用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备、或其一些组合来实现。
本发明的实施例可由计算机软件、或由硬件、或由软件和硬件的组合来实现,计算机软件是移动设备的数据处理器可执行的,诸如在处理器实体中。此外,在此方面,应当注意附图中的逻辑流程的任何框都可表示程序步骤、或互连的逻辑电路、块和功能、或程序步骤和逻辑电路、块和功能的组合。软件可存储在物理介质上,诸如存储器芯片、或在处理器内实现的存储器块、诸如硬盘或软盘的磁介质、以及诸如DVD及其数据变体、CD的光学介质。
存储器可以是适合于本地技术环境的任何类型,并且可使用任何合适的数据存储技术来实现,诸如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器、以及可移动存储器。数据处理器可以是适合于本地技术环境的任何类型,并且作为非限制性示例可包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路、以及基于多核处理器架构的处理器中的一个或多个。
本发明的实施例可在诸如集成电路模块的各种组件中实践。集成电路的设计基本上是高度自动化的过程。复杂且功能强大的软件工具可用于将逻辑级设计转换成准备在半导体衬底上蚀刻和形成的半导体电路设计。
程序可以使用完善的设计规则以及预先存储的设计模块库在半导体芯片上自动布线导体和定位元件。一旦完成了对半导体电路的设计,就可以将采用标准化电子格式(例如,Opus、GDSII等)的设计结果传送到半导体制造设备或“fab”以进行制造。
前面的描述已经通过示例性和非限制性示例提供了对本发明的示例性实施例的完整且信息丰富的描述。然而,当结合附图和所附权利要求进行阅读时,鉴于前面的描述,各种修改和调整对于相关领域技术人员而言将变得显而易见。然而,对本发明的教导的所有这些和类似的修改仍将落入所附权利要求中限定的本发明的范围内。
Claims (24)
1.一种用于空间音频信号编码的方法,包括:
对于两个或更多个音频信号,确定用于提供空间音频再现的至少一个空间音频参数,所述至少一个空间音频参数包括具有仰角分量和方位角分量的方向参数;以及
将所述方向参数的所述仰角分量和所述方位角分量转换成索引值。
2.根据权利要求1所述的方法,其中,将所述方向参数的所述仰角分量和所述方位角分量转换成索引值包括:
将所述仰角分量索引到第一索引仰角值,并将所述方位角分量索引到依赖于所述第一索引仰角值的第一索引方位角值;
将所述仰角分量索引到至少第二索引仰角值,并将所述方位角分量索引到依赖于所述第二索引仰角值的至少第二索引方位角值;以及
选择以下中的一个作为索引仰角分量和索引方位角分量:所述第一索引仰角值和所述第一索引方位角值;或所述至少一个第二索引仰角值和所述至少一个第二索引方位角值。
3.根据权利要求2所述的方法,其中,所述选择包括:
确定在由所述仰角分量和所述方位角分量给定的球体上的点与在由所述第一索引仰角值和所述第一索引方位角值给定的球体上的点之间的第一距离;
确定在由所述仰角分量和所述方位角分量给定的所述球体上的点与在由所述至少一个第二索引仰角值和所述至少一个第二索引方位角值给定的球体上的点之间的至少一个第二距离;以及
根据所述第一距离和所述第二距离中的最小值,选择以下中的一个作为所述索引仰角分量和所述索引方位角分量:所述第一索引仰角值和所述第一索引方位角值;或所述至少一个第二索引仰角值和所述至少一个第二索引方位角值。
4.根据权利要求2和3所述的方法,其中,所述第一距离和所述第二距离分别是在所述球体上的两点之间测量的L2范数距离。
5.根据权利要求1至4所述的方法,其中,所述仰角分量和所述方位角分量被索引到球体网格上的点,其中,所述球体网格包括以球体的形式布置的多个点。
6.根据权利要求5所述的方法,其中,所述球体网格是通过用更小球体覆盖所述球体而形成的,其中,所述更小球体定义所述球体网格的点。
7.根据权利要求1至6所述的方法,其中,所述仰角分量和所述方位角分量各自被索引到包括多个索引仰角值和索引方位角值的码本。
8.根据权利要求7所述的方法,其中,所述码本内的每个索引仰角值与多个索引方位角值相关联。
9.根据权利要求1至8所述的方法,其中,进行索引包括标量量化为索引值。
10.根据权利要求1所述的方法,其中,所述仰角分量和所述方位角分量是方位角/仰角向量的分量,其中,将所述方向参数的所述仰角分量和所述方位角分量转换成索引值包括:
确定所述方位角/仰角向量与来自包括多个方位角/仰角码向量的向量码本的第一方位角/仰角码向量之间的第一距离度量,并确定所述方位角/仰角向量与来自所述向量码本的至少第二方位角/仰角码向量之间的至少第二距离度量;
从所述第一距离度量和所述至少第二距离度量中选择最小距离度量;以及
将所述索引值指定为与所述最小距离度量相关联的方位角/仰角码向量的索引。
11.根据权利要求10所述的方法,其中,所述第一距离和所述第二距离分别是在球体上的两点之间测量的L2范数距离。
12.根据权利要求4至9和11所述的方法,其中,所述球体是单一球体,并且其中,所述单一球体上的所述两点之间的所述L2范数距离采用-(sin(θ1)sin(θ2)+cos(θ1)cos(θ2)cos(φ1-φ2))的形式,其中,θ1和θ2是所述两点中的第一点和第二点的仰角值,其中,φ1和φ2是所述两点中的所述第一点和所述第二点的方位角值。
13.一种用于空间音频信号编码的装置,包括:
用于对于两个或更多个音频信号,确定用于提供空间音频再现的至少一个空间音频参数的部件,其中所述至少一个空间音频参数包括具有仰角分量和方位角分量的方向参数;以及
用于将所述方向参数的所述仰角分量和所述方位角分量转换成索引值的部件。
14.根据权利要求13所述的装置,其中,用于将所述方向参数的所述仰角分量和所述方位角分量转换成索引值的所述部件包括:
用于将所述仰角分量索引到第一索引仰角值,并将所述方位角分量索引到依赖于所述第一索引仰角值的第一索引方位角值的部件;
用于将所述仰角分量索引到至少第二索引仰角值,并将所述方位角分量索引到依赖于所述第二索引仰角值的至少第二索引方位角值的部件;以及
用于选择以下中的一个作为索引仰角分量和索引方位角分量的部件:所述第一索引仰角值和所述第一索引方位角值;或所述至少一个第二索引仰角值和所述至少一个第二索引方位角值。
15.根据权利要求14所述的装置,其中,所述用于选择的部件包括:
确定在由所述仰角分量和所述方位角分量给定的球体上的点与在由所述第一索引仰角值和所述第一索引方位角值给定的球体上的点之间的第一距离;
确定在由所述仰角分量和所述方位角分量给定的所述球体上的点与在由所述至少一个第二索引仰角值和所述至少一个第二索引方位角值给定的球体上的点之间的至少一个第二距离;以及
根据所述第一距离和所述第二距离中的最小值,选择中的一个作为所述索引仰角分量和所述索引方位角分量:所述第一索引仰角值和所述第一索引方位角值;或所述至少一个第二索引仰角值和所述至少一个第二索引方位角值。
16.根据权利要求14和15所述的装置,其中,所述第一距离和所述第二距离分别是在所述球体上的两点之间测量的L2范数距离。
17.根据权利要求13至16所述的装置,其中,所述仰角分量和所述方位角分量被索引到球体网格上的点,其中,所述球体网格包括以球体的形式布置的多个点。
18.根据权利要求17所述的装置,其中,所述球体网格是通过用更小球体覆盖所述球体而形成的,其中,所述更小球体定义所述球体网格的点。
19.根据权利要求13至18所述的装置,其中,所述仰角分量和所述方位角分量各自被索引到包括多个索引仰角值和索引方位角值的码本。
20.根据权利要求19所述的装置,其中,所述码本内的每个索引仰角值与多个索引方位角值相关联。
21.根据权利要求13至20所述的装置,其中,用于进行索引的部件包括用于标量量化为索引值的部件。
22.根据权利要求13所述的装置,其中,所述仰角分量和所述方位角分量是方位角/仰角向量的分量,其中,用于将所述方向参数的所述仰角分量和所述方位角分量转换成索引值的部件包括:
确定所述方位角/仰角向量与来自包括多个方位角/仰角码向量的向量码本的第一方位角/仰角码向量之间的第一距离度量,并确定所述方位角/仰角向量与来自所述向量码本的至少第二方位角/仰角码向量之间的至少第二距离度量;
从所述第一距离度量和所述至少第二距离度量中选择最小距离度量;以及
将所述索引值指定为与所述最小距离度量相关联的方位角/仰角码向量的索引。
23.根据权利要求22所述的装置,其中,所述第一距离和所述第二距离分别是在球体上的两点之间测量的L2范数距离。
24.根据权利要求16至21和23所述的装置,其中,所述球体是单一球体,并且其中,所述单一球体上的所述两点之间的所述L2范数距离采用-(sin(θ1)sin(θ2)+cos(θ1)cos(θ2)cos(φ1-φ2))的形式,其中,θ1和θ2是所述两点中的第一点和第二点的仰角值,其中,φ1和φ2是所述两点中的所述第一点和所述第二点的方位角值。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1805833.9A GB2572761A (en) | 2018-04-09 | 2018-04-09 | Quantization of spatial audio parameters |
GB1805833.9 | 2018-04-09 | ||
PCT/FI2019/050264 WO2019197713A1 (en) | 2018-04-09 | 2019-04-02 | Quantization of spatial audio parameters |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112219237A true CN112219237A (zh) | 2021-01-12 |
Family
ID=62202862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980037571.3A Pending CN112219237A (zh) | 2018-04-09 | 2019-04-02 | 空间音频参数的量化 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11475904B2 (zh) |
EP (1) | EP3776545B1 (zh) |
KR (1) | KR102593235B1 (zh) |
CN (1) | CN112219237A (zh) |
GB (1) | GB2572761A (zh) |
WO (1) | WO2019197713A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112997248A (zh) * | 2018-10-31 | 2021-06-18 | 诺基亚技术有限公司 | 确定空间音频参数的编码和相关联解码 |
US12009001B2 (en) | 2018-10-31 | 2024-06-11 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2598773A (en) * | 2020-09-14 | 2022-03-16 | Nokia Technologies Oy | Quantizing spatial audio parameters |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104756187A (zh) * | 2012-10-30 | 2015-07-01 | 诺基亚技术有限公司 | 用于能复原的矢量量化的方法和装置 |
CN105325015A (zh) * | 2013-05-29 | 2016-02-10 | 高通股份有限公司 | 经旋转高阶立体混响的双耳化 |
CN105340299A (zh) * | 2013-06-18 | 2016-02-17 | 杜比实验室特许公司 | 用于生成环绕立体声声场的方法及其装置和程序产品 |
US20170103766A1 (en) * | 2015-10-08 | 2017-04-13 | Qualcomm Incorporated | Quantization of spatial vectors |
WO2017153697A1 (fr) * | 2016-03-10 | 2017-09-14 | Orange | Codage et décodage optimisé d'informations de spatialisation pour le codage et le décodage paramétrique d'un signal audio multicanal |
CN111316353A (zh) * | 2017-11-10 | 2020-06-19 | 诺基亚技术有限公司 | 确定空间音频参数编码和相关联的解码 |
CN114207713A (zh) * | 2019-07-31 | 2022-03-18 | 诺基亚技术有限公司 | 空间音频方向参数的量化 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6192336B1 (en) | 1996-09-30 | 2001-02-20 | Apple Computer, Inc. | Method and system for searching for an optimal codevector |
US8374365B2 (en) * | 2006-05-17 | 2013-02-12 | Creative Technology Ltd | Spatial audio analysis and synthesis for binaural reproduction and format conversion |
US7933770B2 (en) * | 2006-07-14 | 2011-04-26 | Siemens Audiologische Technik Gmbh | Method and device for coding audio data based on vector quantisation |
WO2009067741A1 (en) | 2007-11-27 | 2009-06-04 | Acouity Pty Ltd | Bandwidth compression of parametric soundfield representations for transmission and storage |
US9769588B2 (en) * | 2012-11-20 | 2017-09-19 | Nokia Technologies Oy | Spatial audio enhancement apparatus |
EP2860728A1 (en) * | 2013-10-09 | 2015-04-15 | Thomson Licensing | Method and apparatus for encoding and for decoding directional side information |
US20150332682A1 (en) * | 2014-05-16 | 2015-11-19 | Qualcomm Incorporated | Spatial relation coding for higher order ambisonic coefficients |
CN106471822B (zh) * | 2014-06-27 | 2019-10-25 | 杜比国际公司 | 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备 |
GB2542579A (en) * | 2015-09-22 | 2017-03-29 | Gregory Stanier James | Spatial audio generator |
US9800990B1 (en) * | 2016-06-10 | 2017-10-24 | C Matter Limited | Selecting a location to localize binaural sound |
TWI744341B (zh) * | 2016-06-17 | 2021-11-01 | 美商Dts股份有限公司 | 使用近場/遠場渲染之距離聲相偏移 |
CN109644030B (zh) | 2016-08-10 | 2021-05-04 | 华为技术有限公司 | 单位范数码本设计和量化 |
EP3711047B1 (en) | 2017-11-17 | 2022-10-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions |
ES2965395T3 (es) | 2017-12-28 | 2024-04-15 | Nokia Technologies Oy | Determinación de codificación de parámetros de audio espacial y decodificación asociada |
-
2018
- 2018-04-09 GB GB1805833.9A patent/GB2572761A/en not_active Withdrawn
-
2019
- 2019-04-02 US US17/043,024 patent/US11475904B2/en active Active
- 2019-04-02 KR KR1020207032046A patent/KR102593235B1/ko active IP Right Grant
- 2019-04-02 CN CN201980037571.3A patent/CN112219237A/zh active Pending
- 2019-04-02 EP EP19785175.1A patent/EP3776545B1/en active Active
- 2019-04-02 WO PCT/FI2019/050264 patent/WO2019197713A1/en unknown
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104756187A (zh) * | 2012-10-30 | 2015-07-01 | 诺基亚技术有限公司 | 用于能复原的矢量量化的方法和装置 |
CN105325015A (zh) * | 2013-05-29 | 2016-02-10 | 高通股份有限公司 | 经旋转高阶立体混响的双耳化 |
CN105340299A (zh) * | 2013-06-18 | 2016-02-17 | 杜比实验室特许公司 | 用于生成环绕立体声声场的方法及其装置和程序产品 |
US20160142851A1 (en) * | 2013-06-18 | 2016-05-19 | Dolby Laboratories Licensing Corporation | Method for Generating a Surround Sound Field, Apparatus and Computer Program Product Thereof |
US20170103766A1 (en) * | 2015-10-08 | 2017-04-13 | Qualcomm Incorporated | Quantization of spatial vectors |
CN108140389A (zh) * | 2015-10-08 | 2018-06-08 | 高通股份有限公司 | 空间向量的量化 |
WO2017153697A1 (fr) * | 2016-03-10 | 2017-09-14 | Orange | Codage et décodage optimisé d'informations de spatialisation pour le codage et le décodage paramétrique d'un signal audio multicanal |
CN111316353A (zh) * | 2017-11-10 | 2020-06-19 | 诺基亚技术有限公司 | 确定空间音频参数编码和相关联的解码 |
CN114207713A (zh) * | 2019-07-31 | 2022-03-18 | 诺基亚技术有限公司 | 空间音频方向参数的量化 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112997248A (zh) * | 2018-10-31 | 2021-06-18 | 诺基亚技术有限公司 | 确定空间音频参数的编码和相关联解码 |
US12009001B2 (en) | 2018-10-31 | 2024-06-11 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
Also Published As
Publication number | Publication date |
---|---|
US11475904B2 (en) | 2022-10-18 |
EP3776545B1 (en) | 2024-04-17 |
WO2019197713A1 (en) | 2019-10-17 |
EP3776545A4 (en) | 2022-01-05 |
GB201805833D0 (en) | 2018-05-23 |
EP3776545A1 (en) | 2021-02-17 |
GB2572761A (en) | 2019-10-16 |
KR20200140874A (ko) | 2020-12-16 |
US20210020185A1 (en) | 2021-01-21 |
KR102593235B1 (ko) | 2023-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111316353B (zh) | 确定空间音频参数编码和相关联的解码 | |
CN111542877B (zh) | 空间音频参数编码和相关联的解码的确定 | |
US20230129520A1 (en) | Selection of quantisation schemes for spatial audio parameter encoding | |
CN112639966A (zh) | 空间音频参数编码和关联解码的确定 | |
EP4082009A1 (en) | The merging of spatial audio parameters | |
JP7405962B2 (ja) | 空間オーディオパラメータ符号化および関連する復号化の決定 | |
CN112997248A (zh) | 确定空间音频参数的编码和相关联解码 | |
WO2020016479A1 (en) | Sparse quantization of spatial audio parameters | |
CN112219237A (zh) | 空间音频参数的量化 | |
CN114207713A (zh) | 空间音频方向参数的量化 | |
US20200413211A1 (en) | Spatial Audio Representation and Rendering | |
CN114556471A (zh) | 空间音频方向参数的量化 | |
CN114586096A (zh) | 空间音频方向参数的量化 | |
US20240185869A1 (en) | Combining spatial audio streams | |
US20240079014A1 (en) | Transforming spatial audio parameters | |
WO2023084145A1 (en) | Spatial audio parameter decoding | |
EP4315324A1 (en) | Combining spatial audio streams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |