CN112908348B - 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备 - Google Patents

针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备 Download PDF

Info

Publication number
CN112908348B
CN112908348B CN202110160696.4A CN202110160696A CN112908348B CN 112908348 B CN112908348 B CN 112908348B CN 202110160696 A CN202110160696 A CN 202110160696A CN 112908348 B CN112908348 B CN 112908348B
Authority
CN
China
Prior art keywords
hoa
representation
signal
data frame
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110160696.4A
Other languages
English (en)
Other versions
CN112908348A (zh
Inventor
斯文·科尔东
亚历山大·克鲁格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=51178839&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN112908348(B) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN112908348A publication Critical patent/CN112908348A/zh
Application granted granted Critical
Publication of CN112908348B publication Critical patent/CN112908348B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Abstract

本公开涉及针对HOA数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备。当对HOA数据帧表示进行压缩时,在每个通道信号被感知地编码(16)之前对其实施增益控制(15,151)。增益值作为边信息以差分的方式被传输。然而,为了开始对这样的流式压缩HOA数据帧表示进行解码,需要绝对增益值,应当以最小数量的比特对该绝对增益值进行编码。为了确定这样的最小整数比特量{βe),在空间域中将HOA数据帧表示(C(k))渲染为位于单位球体上的虚拟扬声器信号,随后对HOA数据帧表示(C(k))进行归一化。然后,将最小整数比特数设置为
Figure DDA0002935332370000011

Description

针对HOA数据帧表示的压缩确定表示非差分增益值所需的最 小整数比特数的方法和设备
本申请是申请号为201580035094.9、申请日为2015年6月22日、发明名称为“针对HOA数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备”的发明专利申请的分案申请。
技术领域
本发明涉及用于针对HOA数据帧表示的压缩而确定表示与所述HOA数据帧中的特定数据帧的通道信号相关联的非差分增益值所需的最小整数比特数的方法和设备。
背景技术
表示为HOA的高阶高保真度立体声响复制提供了表示三维声音的一种可能性。其他技术是波场合成(WFS)或如22.2的基于通道的方法。与基于通道的方法相比,HOA表示提供了与特定扬声器设置无关的优点。然而,这种灵活性是以在特定扬声器设置上回放HOA表示所需要的解码过程为代价的。与所需扬声器的数量通常很大的WFS方法相比,HOA也可以被呈现为仅包括几个扬声器的设置。HOA的另一个优点是还可以采用相同的表示而不必对耳机的双耳渲染进行任何修改。
HOA基于通过截断的球面谐波函数(SH)展开来表示复合谐波平面波幅度的空间密度。每个展开系数是角频率的函数,角频率可以由时域函数等效地表示。因此,在不失一般性的情况下,完整的HOA声场表示实际上可以被假设成由O个时域函数组成,其中,O表示展开系数的数量。这些时域函数在下文中将被等效地称为HOA系数序列或HOA通道。
HOA表示的空间解析度随着展开的最大阶数N的增长而提高。遗憾的是,展开系数O的数量随着阶数N呈二次方增长,特别地,O=(N+1)2。例如,使用阶数N=4的典型HOA表示需要O=25个HOA(展开)系数。假设期望的单声道采样率为fS并且每个采样的比特数为Nb,则用于传输HOA表示的总比特率由O·fS·Nb确定。以采用每采样Nb=16比特的fS=48kHz采样率传输阶数为N=4的HOA表示,导致19.2MBits/s的比特率,该比特率对于许多实际应用(例如流式传输)来说是非常高的。因此,对HOA表示进行压缩是非常可取的。
先前,在EP 2665208 A1、EP 2743922 A1、EP 2800401 A1中提出了HOA声场表示的压缩,参见2014年1月的MPEG-H 3D音频的ISO/IEC JTC1/SC29/WG11、N14264、WD1-HOA文本。这些方法的共同点在于:它们都执行声场分析并且将给定的HOA表示分解成方向分量和残余环境分量。一方面,最终压缩的表示被假设成由若干量化信号组成,这些量化信号由方向信号和基于向量的信号的感知编码以及环境HOA分量的相关系数序列产生。另一方面,最终压缩的表示包括与量化信号相关的附加边信息,根据其压缩版本重构HOA表示需要所述边信息。
在被传递至感知编码器之前,要求这些中间时域信号具有在[-1,1]的值范围内的最大幅度,这是为实现当前可用的感知编码器而产生的要求。为了当对HOA表示进行压缩时满足该要求,在感知编码器之前使用平滑地衰减或放大输入信号的增益控制处理单元(参见EP 2824661 A1和上面提到的ISO/IEC JTC1/SC29/WG11 N14264文献)。所产生的信号修改被假设成是可逆的并且被逐帧地应用,其中特别地,连续帧之间的信号幅度的变化被假设成“2”的幂。为了便于该信号修改在HOA解压缩器中的倒置,相应的归一化边信息包括在总边信息中。该归一化边信息可以由底数为“2”的指数构成,这些指数描述了两个连续帧之间的相对幅度变化。由于连续帧之间的较小幅度变化比较大幅度变化更有可能发生,因此根据上面提到的ISO/IEC JTCl/SC29/WG11 N14264文献利用游程运行长度编码(runlength code)对这些指数进行编码。
发明内容
例如,在从开始至结束没有任何时间跳跃地对单个文件解压缩的情况下,在HOA解压缩中使用差分编码的幅度变化来重构原始信号幅度是可行的。然而,为了便于随机访问,独立的访问单元必须存在于编码表示(其通常是比特流)中以使得能够与来自在先帧的信息无关地从期望的位置(或至少在其附近)开始解压缩。这种独立的访问单元必须包含由增益控制处理单元引起的从第一帧一直到当前帧的总绝对幅度变化(即,非差分增益值)。假设两个连续帧之间的幅度变化是“2”的幂,则通过底数为“2”的指数来描述总绝对幅度变化就足够了。为了对该指数进行高效编码,在应用增益控制处理单元之前了解信号的可能的最大增益是必要的。然而,该知识高度依赖于对要压缩的HOA表示的值范围的约束规范。遗憾的是,MPEG-H 3D音频文献ISO/IEC JTC1/SC29/WG11 N14264仅提供用于输入HOA表示的格式的描述,而没有对值范围设定任何约束。
本发明要解决的问题是提供表示非差分增益值所需的最小整数比特数。该问题通过权利要求1中公开的方法来解决。权利要求2中公开了使用该方法的设备。在相应的从属权利要求中公开了本发明的有利的附加实施方式。
本发明确立了输入HOA表示的值范围与信号在HOA压缩器中应用增益控制处理单元之前的可能的最大增益之间的相互关系。
基于该相互关系,针对输入HOA表示的值范围的给定规范、针对底数为“2”的指数的有效编码来确定所需比特的量,以在访问单元内描述由增益控制处理单元引起的从第一帧一直到当前帧的修改信号的总绝对幅度变化(即,非差分增益值)。
此外,一旦计算用于对指数编码的所需比特量的规则被确定,本发明就使用用于验证给定HOA表示是否满足所需值范围约束的处理,使得给定HOA表示能够被正确压缩。
原则上,本发明的方法适合于针对HOA数据帧表示的压缩而确定表示所述HOA数据帧中的特定HOA数据帧的通道信号的非差分增益值所需的最小整数比特数βe,其中,每个帧中的每个通道信号包括一组采样值,并且其中,给所述HOA数据帧中的每个HOA数据帧的每个通道信号分配一个差分增益值,并且这样的差分增益值引起当前HOA数据帧中的通道信号的采样值的幅度相对于前一HOA数据帧中的通道信号的采样值变化,并且其中,这样的增益调整的通道信号在编码器中被编码,
并且其中,所述HOA数据帧表示在空间域中被渲染为O个虚拟扬声器信号wj(t),其中,虚拟扬声器的位置位于单位球体上并且旨在均匀分布在该单位球体上,所述渲染通过矩阵乘法w(t)=(Ψ)-1·c(t)来表示,其中,w(t)是包含所有虚拟扬声器信号的向量,Ψ是虚拟扬声器位置模矩阵,并且c(t)是所述HOA数据帧表示的相应HOA系数序列的向量,
并且其中,所述HOA数据帧表示被归一化,使得
Figure BDA0002935332350000031
所述方法包括以下步骤:
-通过以下子步骤a)、b)、c)中的一个或更多个从所述归一化HOA数据帧表示中形成所述通道信号:
a)为了表示所述通道信号中的主要声音信号,将所述HOA系数序列c(t)的向量乘以混合矩阵A,混合矩阵A的欧几里德范数不大于“1”,其中,混合矩阵A表示所述归一化HOA数据帧表示的系数序列的线性组合;
b)为了表示所述通道信号中的环境分量cAMB(t)、从所述归一化HOA数据帧表示中减去所述主要声音信号,以及选择所述环境分量cAMB(t)的系数序列的至少一部分,其中,||cAMB(t)||2 2≤||c(t)||2 2,以及通过计算
Figure BDA0002935332350000041
对所得到的最小环境分量cAMB,MIN(t)进行变换,其中,
Figure BDA0002935332350000042
并且ΨMIN是所述最小环境分量cAMB,MIN(t)的模矩阵;
c)选择所述HOA系数序列c(t)的一部分,其中,所选择的系数序列与对其实施空间变换的环境HOA分量的系数序列相关,并且描述所选择的系数序列的数量的最小阶数NMIN为NMIN≤9;
-将表示所述通道信号的所述非差分增益值所需的所述最小整数比特数βe设置为
Figure BDA0002935332350000043
其中,
Figure BDA0002935332350000044
N是阶数,NMAX是感兴趣的最大阶数,
Figure BDA0002935332350000045
是所述虚拟扬声器的方向,O=(N+1)2是HOA系数序列的数量,以及K是所述模矩阵的欧几里德范数的平方||Ψ||2 2与O的比值。
原则上,本发明的设备适合于针对HOA数据帧表示的压缩而确定用于表示所述HOA数据帧中的特定HOA数据帧的通道信号的非差分增益值所需的最小整数比特数βe,其中,每个帧中的每个通道信号包括一组采样值,并且其中,给所述HOA数据帧中的每个HOA数据帧的每个通道信号分配差分增益值,并且这样的差分增益值引起当前HOA数据帧中的通道信号的采样值的幅度相对于前一HOA数据帧中的通道信号的采样值变化,并且其中,这样的增益调整的通道信号在编码器中被编码,
并且其中,所述HOA数据帧表示在空间域中被渲染为O个虚拟扬声器信号wj(t),其中,虚拟扬声器的位置位于单位球体上并且旨在均匀分布在该单位球体上,所述渲染通过矩阵乘法w(t)=(Ψ)-1·c(t)来表示,其中,w(t)是包含所有虚拟扬声器信号的向量,Ψ是虚拟扬声器位置模矩阵,并且c(t)是所述HOA数据帧表示的相应HOA系数序列的向量,
并且其中,所述HOA数据帧表示被归一化,使得
Figure BDA0002935332350000051
所述设备包括:
-通过以下操作a)、b)、c)中的一个或更多个从所述归一化HOA数据帧表示中形成所述通道信号的装置:
a)为了表示所述通道信号中的主要声音信号,将所述HOA系数序列c(t)的向量乘以混合矩阵A,混合矩阵A的欧几里德范数不大于“1”,其中,混合矩阵A表示所述归一化HOA数据帧表示的系数序列的线性组合;
b)为了表示所述通道信号中的环境分量cAMB(t)、从所述归一化HOA数据帧表示中减去所述主要声音信号以及选择所述环境分量cAMB(t)的系数序列的至少一部分,其中,||cAMB(t)||2 2≤||c(t)||2 2,以及通过计算
Figure BDA0002935332350000052
对所得到的最小环境分量cAMB,MIN(t)进行变换,其中,
Figure BDA0002935332350000053
并且ΨMIN是所述最小环境分量cAMB,MIN(t)的模矩阵;
c)选择所述HOA系数序列c(t)的一部分,其中,所选择的系数序列与对其实施空间变换的环境HOA分量的系数序列相关,并且描述所选择的系数序列的数量的最小阶数NMIN为NMIN≤9;
-将用于表示所述通道信号的所述非差分增益值所需的所述最小整数比特数βe设置为
Figure BDA0002935332350000061
的装置,
其中,
Figure BDA0002935332350000062
N是阶数,NMAX是感兴趣的最大阶数,
Figure BDA0002935332350000063
是所述虚拟扬声器的方向,O=(N+1)2是HOA系数序列的数量,以及K是所述模矩阵的欧几里德范数的平方||Ψ||2 2与O之间的比值。
附图说明
参考附图描述了本发明的示例性实施方式,在附图中示出了:
图1 HOA压缩器;
图2 HOA解压缩器;
图3虚拟方向Ωj (N)(1≤j≤O)关于HOA阶数(N=1,...,29)的缩放值K;
图4对于HOA阶数(NMIN=1,...,9),逆模矩阵Ψ-1关于虚拟方向ΩMIN,d(d=1,...,OMIN)的欧几里德范数;
图5虚拟扬声器在位置Ωj (N)(1≤j≤O,其中O=(N+1)2)处的信号的最大允许幅度γdB的确定;
图6球坐标系。
具体实施方式
即使没有明确描述,也可以在任何组合或子组合中使用以下实施方式。
在下文中,介绍HOA压缩和解压缩的原理以提供存在上述问题的更详细背景。该介绍的基础是在MPEG-H 3D音频文档ISO/IEC JTCl/SC29/WG11 N14264(也参见EP 2665208A1、EP 2800401 A1和EP 2743922 A1)中描述的处理。在N14264中,“方向分量”被扩展至“主要声音分量”。作为方向分量,主要声音分量被假设成部分地由方向信号连同用于根据方向信号预测原始HOA表示的多个部分的一些预测参数一起来表示,方向信号是指具有被假设为从其冲击听者的相应方向的单声道信号。另外,主要声音分量被假设为由“基于向量的信号”表示,基于向量的信号是指具有限定基于向量的信号的方向分布的相应向量的单声道信号。
HOA压缩
图1示出了在EP 2800401 A1中描述的HOA压缩器的总体架构。该HOA压缩器的总体架构具有图1A所示的空间HOA编码部以及图1B所示的感知编码部及源编码部。空间HOA编码器提供由I信号连同描述如何创建其HOA表示的边信息一起构成的第一压缩HOA表示。在对两个编码的表示进行多路复用之前,在感知编码器和边信息源编码器中对I信号进行感知编码,并且对边信息进行源编码。
空间HOA编码
在第一步骤中,将原始HOA表示的当前第k帧C(k)输入至方向和向量估计处理步骤或阶段11,该当前第k帧C(k)被假设成提供元组集
Figure BDA0002935332350000071
Figure BDA0002935332350000072
元组集
Figure BDA0002935332350000073
由其第一元素表示方向信号的索引并且第二元素表示相应的量化方向的元组构成。元组集
Figure BDA0002935332350000074
由其第一元素表示基于向量的信号的索引并且第二元素表示限定信号的方向分布的向量(即,如何计算基于向量的信号的HOA表示)的元组构成。
使用两个元组集
Figure BDA0002935332350000075
Figure BDA0002935332350000076
在HOA分解步骤或阶段12中将初始HOA帧C(k)分解成所有主要声音(即,方向的和基于向量的)信号的帧XPS(k-1)和环境HOA分量的帧CAMB(k-1)。注意由交叠相加处理引起的一个帧的延迟,以避免堵塞的假象。此外,HOA分解步骤/阶段12被假设成输出描述如何根据方向信号来预测原始HOA表示的多个部分的一些预测参数ζ(k-1),以丰富主要声音HOA分量。另外,假设提供了包含关于将在HOA分解处理步骤或阶段12中确定的主要声音信号分配给I个可用通道的信息的目标分配向量vA,T(k-1)。可以假设要占用受影响的通道,这意味着受影响的通道不能用于在相应的时间帧中传输环境HOA分量的任何系数序列。
在环境分量修改处理步骤或阶段13中,根据由目标分配向量vA,T(k-1)提供的信息来修改环境HOA分量的帧CAMB(k-1)。特别地,(在其他方面中)根据关于哪些通道可用并且还没有被主要声音信号占据的(包含在目标分配向量vA,T(k-1)中的)信息来确定要在给定的I个通道中传输环境HOA分量的哪些系数序列。
另外,如果所选择的系数序列的索引在连续帧之间变化,则执行系数序列的淡入淡出。
此外,假设环境HOA分量CAMB(k-2)的第一OMIN系数序列总是被选择成被感知地编码和传输,其中OMIN=(NMIN+1)2(NMIN≤N)的阶数通常比原始HOA表示的阶数更小。为了对这些HOA系数序列进行去相关,可以在步骤/阶段13中将它们变换为从一些预定义方向ΩMIN,d(d=1,...,OMIN)冲击的方向信号(即,一般平面波函数)。
暂时预测的已修改环境HOA分量CP,M,A(k-1)连同修改的环境HOA分量CM,A(k-1)一起在步骤/阶段13中被计算,并且被用于增益控制步骤或阶段15、151以实现合理的预见,其中关于环境HOA分量的修改的信息与在通道分配步骤或阶段14中将所有可能类型的信号分配给可用通道直接相关。关于该分配的最终信息被假设成包含在最终分配向量vA(k-2)中。为了在步骤/阶段13中计算该向量,利用包含在目标分配向量vA,T(k-1)中的信息。
步骤/阶段14中的通道分配利用由分配向量vA(k-2)提供的信息将包含在帧XPS(k-2)中和包含在帧CM,A(k-2)中的适当的信号分配给I个可用通道,从而得到信号帧yi(k-2),i=1,...,I。另外,还将包含在帧XPS(k-1)和帧CP,AMB(k-1)中的适当的信号分配给I个可用通道,从而得到预测的信号帧yP,i(k-1),i=1,...,I。
信号帧yi(k-2),i=1,...,I中的每一个最终通过增益控制步骤/阶段15、151来处理,以得到指数ei(k-2)和异常标记βi(k-2),i=1,...,I以及信号zi(k-2),i=1,...,I,其中信号增益被平滑地修改以实现适合于感知编码器步骤或阶段16的值范围。步骤/阶段16输出相应的编码信号帧
Figure BDA0002935332350000081
预测的信号帧yP,i(k-1),i=1,...,I实现了合理的预见以避免连续块之间的较大增益变化。在边信息源编码器步骤或阶段17中,对边信息数据
Figure BDA0002935332350000091
ei(k-2)、βi(k-2)、ζ(k-1)和vA(k-2)进行源编码,以得到经编码的边信息帧
Figure BDA0002935332350000092
在多路复用器18中,对帧(k-2)的编码信号
Figure BDA0002935332350000093
与该帧的已编码边信息数据
Figure BDA0002935332350000094
进行组合,以得到输出帧
Figure BDA0002935332350000095
在空间HOA解码器中,步骤/阶段15、151中的增益修改被假设成通过使用由指数ei(k-2)和异常标记βi(k-2),i=1,...,I构成的增益控制边信息来恢复。
HOA解压缩
图2示出了在EP 2800401 A1中描述的HOA解压缩器的总体架构。该总体架构由HOA压缩器部件的配对部件构成,所述配对部件以相反的顺序布置并且包括图2A所示的感知解码部和源解码部以及图2B所示的空间HOA解码部。
在感知解码部和源解码部(代表感知解码器和边信息源解码器)中,解复用步骤或阶段21从比特流接收输入帧
Figure BDA0002935332350000096
并且提供I个信号的感知编码的表示
Figure BDA0002935332350000097
i=1,...,I以及描述如何创建其HOA表示的已编码边信息数据
Figure BDA0002935332350000098
在感知解码器步骤或阶段22中对
Figure BDA0002935332350000099
信号进行感知解码,以得到解码信号
Figure BDA00029353323500000910
i=1,...,I。在边信息源解码器步骤或阶段23中对已编码边信息数据
Figure BDA00029353323500000911
进行解码,以得到数据集
Figure BDA00029353323500000912
Figure BDA00029353323500000913
指数ei(k)、异常标记βi(k)、预测参数ζ(k+1)和分配向量vAMB,ASSIGN(k)。关于vA与vAMB,ASSIGN之间的差别,参见上面提到的MPEG文献N14264。
空间HOA解码
在空间HOA解码部中,感知解码的信号
Figure BDA00029353323500000914
i=1,...,I中的每一个连同其关联的增益校正指数ei(k)以及增益校正异常标记βi(k)一起被输入至逆增益控制处理步骤或阶段24、241。第i个逆增益控制处理步骤/阶段提供了经增益校正的信号帧
Figure BDA00029353323500000915
全部I个经增益校正的信号帧
Figure BDA00029353323500000916
i=1,...,I连同分配向量vAMB,ASSIGN(k)以及元组集
Figure BDA00029353323500000917
Figure BDA00029353323500000918
一起被馈送至通道重分配步骤或阶段25,参见元组集
Figure BDA00029353323500000919
Figure BDA00029353323500000920
的上述定义。分配向量vAMB,ASSIGN(k)由I个分量构成,所述I个分量针对每个传输通道而指示其是否包含环境HOA分量的系数序列以及它包含哪个系数序列。在通道重分配步骤/阶段25中,经增益校正的信号帧
Figure BDA0002935332350000101
被重新分配以重构所有主要声音信号(即,所有方向信号和基于向量的信号)的帧
Figure BDA0002935332350000102
以及环境HOA分量的中间表示的帧CI,AMB(k)。另外,提供了在第k个帧中活跃的环境HOA分量的系数序列的索引的集合
Figure BDA0002935332350000103
以及在第(k-1)个帧中必须被启用、禁用及保持活跃的环境HOA分量的系数索引的数据集
Figure BDA0002935332350000104
Figure BDA0002935332350000105
在主要声音合成步骤或阶段26中,利用元组集
Figure BDA0002935332350000106
预测参数的集合ζ(k+1)、元组集
Figure BDA0002935332350000107
以及数据集
Figure BDA0002935332350000108
Figure BDA0002935332350000109
根据所有主要声音信号的帧
Figure BDA00029353323500001010
来计算主要声音分量
Figure BDA00029353323500001011
的HOA表示。
在环境合成步骤或阶段27中,利用在第k个帧中活跃的环境HOA分量的系数序列的索引的集合
Figure BDA00029353323500001012
根据环境HOA分量的中间表示的帧CI,AMB(k)来创建环境HOA分量帧
Figure BDA00029353323500001013
由于与主要声音HOA分量的同步而引入一个帧的延迟。
最后,在HOA组成步骤或阶段28中,将环境HOA分量帧
Figure BDA00029353323500001014
与主要声音HOA分量的帧
Figure BDA00029353323500001015
进行叠加,以提供已解码的HOA帧
Figure BDA00029353323500001016
此后,空间HOA解码器根据I个信号和边信息来创建重构的HOA表示。
在位于编码侧的情况下,环境HOA分量被变换为方向信号,在步骤/阶段27中在解码器侧进行该变换的逆变换。
在HOA压缩器内的增益控制步骤/阶段15、151之前,信号的可能最大增益十分依赖于输入HOA表示的值范围。因此,首先限定输入HOA表示的有意义的值范围,随后在进入增益控制步骤/阶段之前对信号的可能最大增益做出结论。
输入HOA表示的归一化
为了使用本发明的处理,要先执行对(总)输入HOA表示信号的归一化。对于HOA压缩,执行逐帧处理,其中关于在高阶高保真度立体声响复制的章节Basics中的公式(54)中指定的时间连续HOA系数序列的向量c(t),将原始输入HOA表示的第k个帧C(k)限定为
Figure BDA00029353323500001017
其中,k表示帧索引,L为(在采样中的)帧长度,O=(N+1)2为HOA系数序列的数量,以及TS表示采样周期。
如EP 2824661 A1中所提及的,从实际角度来看,HOA表示的有意义的归一化不是通过对个别HOA系数序列
Figure BDA0002935332350000111
的值范围施加约束来实现的,这是因为这些时域函数不是在渲染之后由扬声器实际播放的信号。相反,更方便的是考虑通过将HOA表示渲染为O个虚拟扬声器信号wj(t),1≤j≤O而获得的“等效空间域表示”。假设相应的虚拟扬声器位置借助于球坐标系来表示,其中假设每个位置位于单位球体上并且半径为“1”。因此,可以通过阶数相关方向Ωj (N)=(θj (N),φj (N)),1≤j≤O等效地表达位置,其中θj (N)和φj (N)分别表示倾斜度和方位角(也参见图6及其关于球坐标系定义的描述)。例如参见J.Fliege、U.Maier于1999年在多特蒙德大学的专业课范围数学技术报告″A two-stage approach forcomputing cubature formulae for the sphere〞,这些方向应当尽可能均匀地分布在单位球体上。在以下网址中可以找到用于特定方向的计算的节点数量:http://www.mathematik.uni-dortmund.de/lsx/research/projects/fliege/nodes/nodes.html。这些位置通常取决于“球上的均匀分布”的定义种类,因此是不明确的。
通过限定HOA系数序列的值范围来限定虚拟扬声器信号的值范围的优点在于:如常规扬声器信号假定PCM表示的情况那样,虚拟扬声器信号的值范围可以被直观地设置为等于区间[-1,1]。这导致空间上均匀分布的量化误差,使得在与实际聆听相关的域中有利地应用量化。该背景中的一个重要方面是每采样比特数可以被选择成与通常用于常规扬声器信号的比特数(即,16)一样低,与通常需要更高的每采样比特数(例如,24或甚至32)的HOA系数序列的直接量化相比,这提高了效率。
为了详细描述空间域中的归一化处理,所有虚拟扬声器信号以向量被概括为w(t):=[w1(t) ... wO(t)]T, (2)
其中,(·)T表示转置。用Ψ表示关于虚拟方向Ωj (N),1≤j≤O的模矩阵,Ψ被定义为
Figure BDA0002935332350000112
其中,
Figure BDA0002935332350000113
Figure BDA0002935332350000121
,渲染处理可以用公式表示为矩阵乘积
w(t)=(Ψ)-1·c(t)。 (5)
使用这些定义,对虚拟扬声器信号的合理要求是:
Figure BDA0002935332350000122
这意味着每个虚拟扬声器信号的幅度需要落入范围[-1,1]内。时间t的时刻由所述HOA数据帧的采样值的采样索引l和采样周期TS来表示。
扬声器信号的总的幂因此满足条件
Figure BDA0002935332350000123
HOA数据帧表示的渲染和归一化在图1A的输入C(k)的上游执行。
增益控制之前的信号值范围结果
假设输入HOA表示的归一化是根据输入HOA表示的归一化小节中的描述执行的,下面考虑被输入至HOA压缩器中的增益控制处理单元的信号yi,i=1,...,I的值范围。这些信号是通过向HOA系数序列或主要声音信号xPS,d,d=1,...,D和/或环境HOA分量cAMB,n,n=1,...,O的特定系数序列中的一个或更多个分配可用I个通道来创建的,对这些信号中的一部分实施空间变换。因此,在公式(6)中的归一化假设下,有必要分析所提及的这些不同信号类型的可能值范围。由于所有种类的信号是根据原始HOA系数序列而在中间计算出的,因此检查它们可能的值范围。
图1A和图2B中未描绘I个通道中包含仅一个或更多个HOA系数序列的情况,即,在这种情况下,不需要HOA分解、环境分量修改块和相应的合成块。
HOA表示的值范围结果
时间连续的HOA表示是通过c(t)=Ψw(t), (8)
从虚拟扬声器信号中获得的,公式(8)是公式(5)的逆运算。
因此,使用公式(8)和公式(7)来如下限制所有HOA系数序列的总的幂:
||c(lTS)||2 2≤||Ψ||2 2·||w(lTS)||2 2≤||Ψ||2 2·O (9)
在球面谐波函数的N3D归一化的假设下,模矩阵的欧几里德范数的平方可以写成:||Ψ||2 2=K·O, (10a)
其中,
Figure BDA0002935332350000131
表示模矩阵的欧几里德范数的平方与HOA系数序列的数量O之间的比值。该比值取决于特定HOA阶数N和特定虚拟扬声器方向
Figure BDA0002935332350000132
1≤j≤O,其可以通过向该比值附加相应参数列表来如下表示:
Figure BDA0002935332350000133
图3示出了根据上面提到的Fliege等人的文章的虚拟方向
Figure BDA0002935332350000134
1≤j≤O关于HOA阶数(N=1,...,29)的K的值。
结合所有先前的论证和考虑,提供如下HOA系数序列的幅度的上限:
Figure BDA0002935332350000135
其中,第一个不等式直接从范数定义得出。
重要的是注意:公式(6)中的条件意味着公式(11)中的条件,但是相反的情况不成立,即,公式(11)不意味着公式(6)。
另一个重要方面是:在虚拟扬声器位置近似均匀分布的假设下,模矩阵Ψ的表示关于虚拟扬声器位置的模向量的列向量几乎彼此正交并且每个都具有欧几里德范数N+1。该特性意味着:除了乘法常数之外,空间变换几乎保持欧几里德范数,即,
||c(lTS)||2≈(N+1)||w(lTS)||2。 (12)
真实的范数||c(lTS)||2与公式(12)中的近似值相差越多,就越违反对模向量的正交性假设。
主要声音信号的值范围结果
两种类型的(方向的和基于向量的)主要声音信号的共同点在于:它们对HOA表示的贡献由具有欧几里德范数N+1的单个向量
Figure BDA0002935332350000136
来描述,即,||v1||2=N+1。 (13)
在方向信号的情况下,该向量与关于某个信号源方向ΩS,1的模向量相对应,即,
v1=S(ΩS,1) (14)
Figure BDA0002935332350000141
该向量借助于HOA表示将方向束描述为信号源方向ΩS,1。在基于向量的信号的情况下,向量v1不限于关于任何方向的模向量,因此可以描述基于向量的单声道信号的更一般的方向分布。
下面考虑D个主要声音信号xd(t),d=1,...,D的一般情况,D个主要声音信号可以根据下式被集中在向量x(t)中
x(t)=[x1(t) x2(t) ... xD(t)]T (16)
这些信号必须基于以下矩阵来确定:
V:=[v1 v2 ... vD] (17)
该矩阵由表示单声道主要声音信号xd(t),d=1,...,D的方向分布的所有向量vd,d=1,...,D构成。
为了主要声音信号x(t)的有意义的提取,规定以下约束:
a)每个主要声音信号是作为原始HOA表示的系数序列的线性组合而获得的,即
x(t)=A·c(t), (18)
其中,
Figure BDA0002935332350000142
表示混合矩阵。
b)混合矩阵A应当被选择成使得其欧几里德范数不超过值“1”,即,
Figure BDA0002935332350000143
并且使得原始HOA表示与主要声音信号的HOA表示之间的残差的欧几里德范数的平方(或幂)不大于原始HOA表示的欧几里德范数的平方(或幂),即
Figure BDA0002935332350000144
通过将公式(18)代入公式(20)中,可以看出公式(20)与以下约束相当:
Figure BDA0002935332350000145
其中,I表示单位矩阵。
使用公式(18)、公式(19)和公式(11)根据公式(18)和公式(19)中的约束以及根据欧几里德矩阵与向量范数的兼容性,通过下式来限定主要声音信号的幅度上限:
||x(lTS)||≤||x(lTS)||2 (22)
≤||A||2||c(lTS)||2 (23)
Figure BDA0002935332350000151
因此,确保主要声音信号保持在与原始HOA系数序列相同的范围内(与公式(11)比较),即,
Figure BDA0002935332350000152
选择混合矩阵的示例
如何确定满足约束(20)的混合矩阵的示例是通过计算主要声音信号使得提取之后的残差的欧几里德范数最小来获得的,即,
x(t)=argminx(t)||V·x(t)-c(t)||2。 (26)
公式(26)中的最小化问题的解决方案由下式给出:
x(t)=V+c(t), (27)
其中,(·)+表示摩尔-彭罗斯(Moore-Penrose)广义逆。通过将公式(27)与公式(18)进行比较,由此得出,在这种情况下,混合矩阵等于矩阵V的摩尔-彭罗斯广义逆,即A=V+
然而,仍然必须选择矩阵V以满足约束(19),即,
Figure BDA0002935332350000153
在仅方向信号的情况下,其中,矩阵V是关于一些源信号方向ΩS,d,d=1,...,D的模矩阵,即
V=[S(ΩS,1) S(ΩS,2) ... S(ΩS,D)], (29)
可以通过选择源信号方向ΩS,d,d=1,...,D使得任何两个相邻方向的距离不是太小来满足约束(28)。
环境HOA分量的系数序列的值范围结果
环境HOA分量是通过从原始HOA表示中减去主要声音信号的HOA表示来计算的,即,cAMB(t)=c(t)-V·x(t)。 (30)
如果主要声音信号x(t)的向量是根据标准(20)确定的,则可以得出结论:
||cAMB(lTS)||||cAMB(lTS)||2 (31)
Figure BDA0002935332350000161
Figure BDA0002935332350000162
Figure BDA0002935332350000163
环境HOA分量的空间变换系数序列的值范围
EP 2743922 A1和上面提到的MPEG文献N14264中提出的HOA压缩处理的另一方面是:环境HOA分量的第一OMIN系数序列总是被选成被分配给传输通道,其中,OMIN=(NMIN+1)2,NMIN≤N通常是比原始HOA表示的阶数更小的阶数。为了对这些HOA系数序列去相关,可以将它们变换为从一些预定义方向ΩMIN,d,d=1,...,OMIN(类似于输入HOA表示的归一化小节中描述的概念)冲击的虚拟扬声器信号。
用cAMB,MIN(t)来定义阶数索引为n≤NMIN的环境HOA分量的所有系数序列的向量并且用ΨMIN来定义关于虚拟方向ΩMIN,d,d=1,...,OMIN的模矩阵,所有虚拟扬声器信号的向量(被定义为)wMIN(t)通过下式获得:
Figure BDA0002935332350000164
因此,使用欧几里德矩阵与向量范数的兼容性,
||wMIN(lTS)||≤||wMIN(lTS)||2 (36)
Figure BDA0002935332350000165
Figure BDA0002935332350000166
在上面提到的MPEG文献N14264中,根据上面提到的Fliege等人的文章来选择虚拟方向ΩMIN,d,d=1,...,OMIN。图4示出了模矩阵ΨMIN的逆矩阵针对阶数(NMIN=1,...,9)的相应欧几里德范数。可以看出:对于NMIN=1,...,9,
Figure BDA0002935332350000167
然而,这通常不适用于
Figure BDA0002935332350000168
的值通常远大于“1”的NMIN>9的情况。然而,至少对于1≤NMIN≤9,虚拟扬声器信号的幅度由下式限制:
Figure BDA0002935332350000171
通过限制输入HOA表示以满足条件(6),其中条件(6)要求根据该HOA表示创建的虚拟扬声器信号的幅度不超过值“1”,可以保证在以下条件下,信号在增益控制之前的幅度将不超过值
Figure BDA0002935332350000172
(参见公式(25)、公式(34)和公式(40)):
a)所有主要声音信号x(t)的向量是根据公式/限制(18)、(19)和(20)来计算的;
b)如果使用如上述Fliege等人的文章中限定的虚拟扬声器位置,则确定对其实施空间变换的环境HOA分量的第一系数序列的数量OMIN的最小阶数NMIN必须小于“9”。
可以进一步得出结论:对于高达感兴趣的最大阶数NMAX的任何阶数N,即1≤N≤NMAX,信号在增益控制之前的幅度将不超过值
Figure BDA0002935332350000173
其中,
Figure BDA0002935332350000174
特别地,从图3可以得出结论:如果假设用于初始空间变换的虚拟扬声器方向
Figure BDA0002935332350000175
1≤j≤O是根据Fliege等人的文章中的分布来选择的,并且如果另外假设感兴趣的最大阶数为NMAX=29(例如参见MPEG文献N14264),则信号增益控制之前的幅度将不超过值1.5O,这是因为在这种特殊情况下
Figure BDA0002935332350000176
即,可以选择
Figure BDA0002935332350000177
KMAX取决于感兴趣的最大阶数NMAX和虚拟扬声器方向
Figure BDA0002935332350000178
1≤j≤O,其可以由下式来表示:
Figure BDA0002935332350000179
因此,为确保感知编码之前的信号位于区间[-1,1]内而通过增益控制施加的最小增益由
Figure BDA00029353323500001711
给出,其中,
Figure BDA00029353323500001710
在信号在增益控制之前的幅度太小的情况下,在MPEG文献N14264中提出可以用高达
Figure BDA0002935332350000187
的因子来平滑地放大它们,其中,eMAX≥0作为编码HOA表示中的边信息被传输。
因此,在访问单元内描述由增益控制处理单元引起的从第一帧一直到当前帧的已修改信号的总绝对幅度变化的底数为“2”的每个指数,可以假设在区间[eMIN,eMAX]内的任何整数值。因此,编码所需的(最小整数)比特数βe由下式给出:
Figure BDA0002935332350000181
在信号在增益控制之前的幅度不太小的情况下,公式(42)可以简化为:
Figure BDA0002935332350000182
可以在增益控制步骤/阶段15,...,151的输入处计算该比特数βe
针对指数使用该比特数βe确保可以捕获由HOA压缩器增益控制处理单元引起的所有可能的绝对幅度变化,从而允许在压缩表示中的一些预定义入口点处开始解压缩。
当在HOA解压缩器中开始对压缩HOA表示进行解压缩时,被分配给一些数据帧的边信息并且除了所接收的数据流
Figure BDA0002935332350000186
之外从解复用器21接收到的、表示总绝对幅度变化的非差分增益值被用在逆增益控制步骤或阶段24,...,241中,从而以与在增益控制步骤/阶段15,...,151中执行的处理相反的方式实施正确的增益控制。
另外的实施方式
当实现如在章节HOA压缩、空间HOA编码、HOA解压缩和空间HOA解码中描述的特定HOA压缩/解压缩系统时,用于对指数编码的比特数βe必须依赖于缩放因子KMAX,DES根据公式(42)来设定,缩放因子KMAX,DES自身取决于要压缩的HOA表示的期望的最大阶数NMAX,DES和特定的虚拟扬声器方向
Figure BDA0002935332350000183
1≤N≤NMAX
例如,当假设NMAX,DES=29并且根据Fliege等人的文章来选择虚拟扬声器方向时,合理的选择是
Figure BDA0002935332350000184
在该情况下,保证对阶数为N(1≤N≤NMAX)的HOA表示进行正确的压缩,该HOA表示是利用相同的虚拟扬声器方向
Figure BDA0002935332350000185
根据章节输入HOA表示的归一化而被归一化的。然而,在以下HOA表示的情况下不能给出这种保证:该HOA表示还(出于效率原因)由PCM格式的虚拟扬声器信号等效地表示,但是其中虚拟扬声器的方向
Figure BDA0002935332350000191
1≤j≤O被选择成与在系统设计阶段假定的虚拟扬声器方向
Figure BDA0002935332350000192
不同。
由于虚拟扬声器位置的这种不同选择,即使这些虚拟扬声器信号的幅度在区间[-1,1]内,也不能再保证信号在增益控制之前的幅度将不超过值
Figure BDA0002935332350000193
因此,不能保证该HOA表示根据MPEG文献N14264中描述的处理而具有针对压缩的适当的归一化。
在这种情况下,具有以下系统是有利的:该系统基于虚拟扬声器位置的知识而提供虚拟扬声器信号的最大允许幅度以确保相应的HOA表示适合于根据在MPEG文献N14264中描述的处理的压缩。在图5中示出了这样的系统。它采用虚拟扬声器位置
Figure BDA0002935332350000194
1≤j≤O作为输入,其中,
Figure BDA0002935332350000195
并且提供虚拟扬声器信号的最大允许幅度γdB(其以分贝测量)作为输出。在步骤或阶段51中,根据公式(3)来计算关于虚拟扬声器位置的模矩阵Ψ。在随后的步骤或阶段52中,计算模矩阵的欧几里德范数||Ψ||2。在第三步骤或阶段53中,将幅度γ计算为“1”与下述值中的最小值:该值为虚拟扬声器位置数量的平方根和KMAX,DES的平方根的乘积与模矩阵的欧几里德范数的商,
Figure BDA0002935332350000196
以分贝为单位的值通过下式获得:γdB=20log10(γ)。 (44)
为了说明:从上面的推导可以看出,如果HOA系数序列的幅度不超过值
Figure BDA0002935332350000197
即,如果
Figure BDA0002935332350000198
则在增益控制处理单元之前的所有信号将相应地不超过该值,这是对适当的HOA压缩的要求。
从公式(9)发现HOA系数序列的幅度由下式限制
||c(lTS)||≤||c(lTS)||2≤||Ψ||2·||w(lTS)||2。 (46)
因此,如果γ是根据公式(43)设置的并且PCM格式的虚拟扬声器信号满足
||w(lTS)||≤γ, (47)
则从公式(7)得出
Figure BDA0002935332350000201
并且满足要求(45)。
即,公式(6)中的最大幅度值“1”由公式(47)中的最大幅度值γ代替。
高阶高保真度立体声响复制的基础
高阶高保真度立体声响复制(HOA)基于对感兴趣的密集区域内的声场的描述,其被假设为没有声源。在该情况下,在感兴趣的区域内的时间t和位置x处的声压p(t,x)的时空行为在物理上完全由齐次波动方程确定。在下文中,假设如图6所示的球坐标系。在所使用的坐标系中,x轴指向前面,y轴指向左侧,z轴指向顶部。空间中的位置x=(r,θ,φ)T由半径r>0(即,到坐标原点的距离)、从极轴z测量的倾斜角θ∈[0,π]以及在x-y平面内从x轴逆时针方向测量的方位角φ∈[0,2π[来表示。此外,(·)T表示转置。
然后,从“傅里叶声学”教科书中可以看出,声压关于时间的傅立叶变换由
Figure BDA0002935332350000202
表示,即,
Figure BDA0002935332350000203
其中,ω表示角频率,i表示虚数单位,根据下式可以将上述声压关于时间的傅里叶变换展开成球面谐波函数的级数
Figure BDA0002935332350000204
其中,cs表示声速,k表示角波数,其通过
Figure BDA0002935332350000205
而与角频率ω相关。此外,jn(·)表示第一类球贝塞尔函数,且
Figure BDA0002935332350000206
表示阶数为n且度数为m的实值球面谐波函数,在章节实值球面谐波函数的定义中对它们做出了定义。展开系数
Figure BDA0002935332350000207
仅取决于角波数k。注意,已经隐含地假设声压在空间上是频带受限的。因此,在称为HOA表示的阶数的上限N处关于阶数索引n截断该级数。
如果声场是通过从由角度元组(θ,φ)指定的所有可能方向到达的无限个具有不同角频率ω的谐波平面波进行叠加来表示的,则可以看出(参见B.Rafaely,“Plane-wavedecomposition of the sound field on a sphere by spherical convolution”,J.Acoust.Soc.Am,卷4(116),第2149至2157页,2004年10月),相应的平面波复幅度函数C(ω,θ,φ)可以由以下球面谐波函数展开式来表示
Figure BDA0002935332350000211
其中,展开系数
Figure BDA0002935332350000212
通过下式与展开系数
Figure BDA0002935332350000213
相关:
Figure BDA0002935332350000214
假设各个系数
Figure BDA0002935332350000215
是角频率ω的函数,则逆傅里叶变换(由
Figure BDA0002935332350000216
表示)的应用针对每个阶数n和度数m提供以下时域函数
Figure BDA0002935332350000217
这些时域函数在这里称为连续时间HOA系数序列,其可以通过下式被集中在单个向量c(t)中
Figure BDA0002935332350000218
向量c(t)内的HOA系数序列
Figure BDA0002935332350000219
的位置索引由n(n+1)+1+m给出。向量c(t)中的总元素数由O=(N+1)2给出。
最终的高保真度立体声响复制格式利用采样频率fS提供c(t)的如下采样版本
Figure BDA00029353323500002110
其中,TS=1/fS表示采样周期。元素c(lTS)称为离散时间HOA系数序列,其可以总是实值。该特性也适用于连续时间版本
Figure BDA00029353323500002113
实值球面谐波函数的定义
实值球面谐波函数
Figure BDA00029353323500002111
(假设根据以下文献的SN3D归一化:J.Daniel,“Représentation de champs acoustiques,application à latransmission et à lareproduction de scènes sonores complexes dans uncontexte multimédia”,博士论文,巴黎大学,2001年6月,3.1章)由下式给出
Figure BDA00029353323500002112
其中,
Figure BDA0002935332350000221
相关联的勒让德函数Pn,m(x)被定义为
Figure BDA0002935332350000222
其具有勒让德多项式Pn(x),并且与Academic Press1999年出版的AppliedMathematical Sciences第93卷E.G.Williams的“Fourier Acoustics”中的不同,其没有Condon-Shortley相位项(-1)m
本发明的处理可以由单个处理器或电子电路,或者由并行工作和/或在本发明的处理的不同部分中工作的若干处理器或电子电路执行。
用于操作一个或多个处理器的指令可以被存储在一个或更多个存储器中。

Claims (3)

1.一种用于对声音或声场的压缩的高阶高保真度立体声响复制(HOA)声音表示进行解码的方法,所述方法包括:
接收包含压缩的HOA表示的比特流,其中,所述比特流包括与压缩的HOA表示相对应的若干HOA系数,和
基于最小整数βe对压缩的HOA表示进行解码,其中,所述最小整数βe基于
Figure FDA0003651056100000011
确定,
其中,
Figure FDA0003651056100000012
N是阶数,NMAX是感兴趣的最大阶数,
Figure FDA0003651056100000013
是所述虚拟扬声器的方向,O=(N+1)2是HOA系数序列的数量,并且K是所述模矩阵的欧几里德范数的平方||Ψ||2 2与O的比值,
其中,
Figure FDA0003651056100000014
2.一种用于对声音或声场的压缩的高阶高保真度立体声响复制(HOA)声音表示进行解码的设备,所述设备包括:
处理器,被配置为接收包含压缩的HOA表示的比特流,其中,所述比特流包括与压缩的HOA表示相对应的若干HOA系数,并且所述处理器进一步配置为基于最小整数βe对压缩的HOA表示进行解码,其中,所述最小整数βe基于
Figure FDA0003651056100000015
确定,
其中,
Figure FDA0003651056100000016
N是阶数,NMAX是感兴趣的最大阶数,
Figure FDA0003651056100000017
是所述虚拟扬声器的方向,O=(N+1)2是HOA系数序列的数量,并且K是所述模矩阵的欧几里德范数的平方||Ψ||2 2与O的比值,
其中,
Figure FDA0003651056100000021
3.一种非暂时性计算机可读存储介质,包含指令,该指令在被处理器执行时实行根据权利要求1所述的方法。
CN202110160696.4A 2014-06-27 2015-06-22 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备 Active CN112908348B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP14306023.4 2014-06-27
EP14306023.4A EP2960903A1 (en) 2014-06-27 2014-06-27 Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
CN201580035094.9A CN106471580B (zh) 2014-06-27 2015-06-22 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备
PCT/EP2015/063912 WO2015197512A1 (en) 2014-06-27 2015-06-22 Method and apparatus for determining for the compression of an hoa data frame representation a lowest integer number of bits required for representing non-differential gain values

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201580035094.9A Division CN106471580B (zh) 2014-06-27 2015-06-22 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备

Publications (2)

Publication Number Publication Date
CN112908348A CN112908348A (zh) 2021-06-04
CN112908348B true CN112908348B (zh) 2022-07-15

Family

ID=51178839

Family Applications (4)

Application Number Title Priority Date Filing Date
CN202110160696.4A Active CN112908348B (zh) 2014-06-27 2015-06-22 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备
CN201580035094.9A Active CN106471580B (zh) 2014-06-27 2015-06-22 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备
CN202110160998.1A Pending CN112908349A (zh) 2014-06-27 2015-06-22 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备
CN202110160575.XA Pending CN112951254A (zh) 2014-06-27 2015-06-22 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备

Family Applications After (3)

Application Number Title Priority Date Filing Date
CN201580035094.9A Active CN106471580B (zh) 2014-06-27 2015-06-22 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备
CN202110160998.1A Pending CN112908349A (zh) 2014-06-27 2015-06-22 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备
CN202110160575.XA Pending CN112951254A (zh) 2014-06-27 2015-06-22 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备

Country Status (9)

Country Link
US (4) US10236003B2 (zh)
EP (3) EP2960903A1 (zh)
JP (3) JP6567571B2 (zh)
KR (3) KR102568636B1 (zh)
CN (4) CN112908348B (zh)
BR (2) BR122022022357B1 (zh)
RU (1) RU2725602C9 (zh)
TW (3) TWI749471B (zh)
WO (1) WO2015197512A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9794713B2 (en) * 2014-06-27 2017-10-17 Dolby Laboratories Licensing Corporation Coded HOA data frame representation that includes non-differential gain values associated with channel signals of specific ones of the dataframes of an HOA data frame representation
CN113793618A (zh) * 2014-06-27 2021-12-14 杜比国际公司 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法
EP2960903A1 (en) * 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
DE102016104665A1 (de) * 2016-03-14 2017-09-14 Ask Industries Gmbh Verfahren und Vorrichtung zur Aufbereitung eines verlustbehaftet komprimierten Audiosignals
KR102128281B1 (ko) * 2017-08-17 2020-06-30 가우디오랩 주식회사 앰비소닉 신호를 사용하는 오디오 신호 처리 방법 및 장치
AU2020299973A1 (en) * 2019-07-02 2022-01-27 Dolby International Ab Methods, apparatus and systems for representation, encoding, and decoding of discrete directivity data

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102547549A (zh) * 2010-12-21 2012-07-04 汤姆森特许公司 编码解码2或3维声场环绕声表示的连续帧的方法和装置
CN103313182A (zh) * 2012-03-06 2013-09-18 汤姆逊许可公司 用于回放更高阶立体混响音频信号的方法和设备
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757927A (en) 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
SE522453C2 (sv) 2000-02-28 2004-02-10 Scania Cv Ab Sätt och anordning för styrning av ett mekaniskt tillsatsaggregat i ett motorfordon
CN1677492A (zh) 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
WO2006091139A1 (en) 2005-02-23 2006-08-31 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
US7848280B2 (en) * 2007-06-15 2010-12-07 Telefonaktiebolaget L M Ericsson (Publ) Tunnel overhead reduction
US8788264B2 (en) 2007-06-27 2014-07-22 Nec Corporation Audio encoding method, audio decoding method, audio encoding device, audio decoding device, program, and audio encoding/decoding system
AU2011231565B2 (en) 2010-03-26 2014-08-28 Dolby International Ab Method and device for decoding an audio soundfield representation for audio playback
EP2450880A1 (en) 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2541547A1 (en) 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
US20130315402A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
EP2688066A1 (en) 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
US9502044B2 (en) * 2013-05-29 2016-11-22 Qualcomm Incorporated Compression of decomposed representations of a sound field
EP2824661A1 (en) 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
DE102013223201B3 (de) * 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
US10412522B2 (en) * 2014-03-21 2019-09-10 Qualcomm Incorporated Inserting audio channels into descriptions of soundfields
EP2960903A1 (en) * 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
US9794713B2 (en) * 2014-06-27 2017-10-17 Dolby Laboratories Licensing Corporation Coded HOA data frame representation that includes non-differential gain values associated with channel signals of specific ones of the dataframes of an HOA data frame representation
JP6641304B2 (ja) * 2014-06-27 2020-02-05 ドルビー・インターナショナル・アーベー 非差分的な利得値を表現するのに必要とされる最低整数ビット数をhoaデータ・フレーム表現の圧縮のために決定する装置
CN113793618A (zh) * 2014-06-27 2021-12-14 杜比国际公司 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102547549A (zh) * 2010-12-21 2012-07-04 汤姆森特许公司 编码解码2或3维声场环绕声表示的连续帧的方法和装置
CN103313182A (zh) * 2012-03-06 2013-09-18 汤姆逊许可公司 用于回放更高阶立体混响音频信号的方法和设备
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field

Also Published As

Publication number Publication date
US20170133020A1 (en) 2017-05-11
KR20170023017A (ko) 2017-03-02
US10872612B2 (en) 2020-12-22
TWI820530B (zh) 2023-11-01
JP2019185065A (ja) 2019-10-24
RU2016151121A (ru) 2018-06-26
US10236003B2 (en) 2019-03-19
JP6869296B2 (ja) 2021-05-12
BR122022022357B1 (pt) 2024-01-16
KR20220110615A (ko) 2022-08-08
RU2016151121A3 (zh) 2019-02-07
WO2015197512A1 (en) 2015-12-30
JP2017523456A (ja) 2017-08-17
BR122018012705A2 (zh) 2017-08-22
EP2960903A1 (en) 2015-12-30
TW202105364A (zh) 2021-02-01
US20220270620A1 (en) 2022-08-25
CN112951254A (zh) 2021-06-11
US11875803B2 (en) 2024-01-16
EP3161820A1 (en) 2017-05-03
KR102428370B1 (ko) 2022-08-02
TWI689916B (zh) 2020-04-01
TWI749471B (zh) 2021-12-11
US11322165B2 (en) 2022-05-03
KR20230124763A (ko) 2023-08-25
KR102568636B1 (ko) 2023-08-22
BR122018012705A8 (pt) 2022-09-13
EP3161820B1 (en) 2020-11-18
BR112016029978A2 (pt) 2017-08-22
CN106471580A (zh) 2017-03-01
CN112908349A (zh) 2021-06-04
US20210193156A1 (en) 2021-06-24
TW202238566A (zh) 2022-10-01
BR122023009299B1 (pt) 2023-12-26
JP2021103337A (ja) 2021-07-15
RU2725602C9 (ru) 2020-08-28
EP3809409A1 (en) 2021-04-21
RU2725602C2 (ru) 2020-07-02
JP6567571B2 (ja) 2019-08-28
CN112908348A (zh) 2021-06-04
RU2020115874A (ru) 2020-06-18
CN106471580B (zh) 2021-03-05
US20190214027A1 (en) 2019-07-11
TW201603000A (zh) 2016-01-16

Similar Documents

Publication Publication Date Title
JP7267340B2 (ja) 非差分的な利得値を表現するのに必要とされる最低整数ビット数をhoaデータ・フレーム表現の圧縮のために決定する装置
CN107077852B (zh) 包括与hoa数据帧表示的特定数据帧的通道信号关联的非差分增益值的编码hoa数据帧表示
CN112908348B (zh) 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备
JP7275191B2 (ja) 非差分的な利得値を表現するのに必要とされる最低整数ビット数をhoaデータ・フレーム表現の圧縮のために決定する装置
RU2802176C2 (ru) Способ и устройство для декодирования сжатого звукового представления звука или звукового поля с помощью hoa

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40045794

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant