CN114424282A

CN114424282A - 低时延低频率效应编译码器

Info

Publication number: CN114424282A
Application number: CN202080061951.3A
Authority: CN
Inventors: R·蒂亚吉; D·麦格拉思
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2019-09-03
Filing date: 2020-09-01
Publication date: 2022-04-29
Also published as: MX2022002323A; AU2020340937A1; AR125559A2; CA3153258A1; KR20220054645A; BR112022003440A2; AR125511A2; IL290684A; US20220293112A1; EP4026122A1; JP2022547038A; WO2021046060A1

Abstract

在一些实施方案中，一种对低频率效应(LFE)声道进行编码的方法包括：接收时域LFE声道信号；使用低通滤波器对所述时域LFE声道信号进行滤波；将所述经滤波的时域LFE声道信号转换成所述LFE声道信号的包含表示所述LFE声道信号的频谱的一定数目个系数的频域表示；将系数布置到与所述LFE声道信号的不同频带对应的一定数目个次频带群组中；根据所述低通滤波器的频率响应曲线将每一次频带群组中的系数量化；使用针对所述次频带群组调谐的熵译码器对每一次频带群组中的所述经量化系数进行编码；及产生包含所述经编码的经量化系数的位流；及将所述位流存储于存储装置上或将所述位流流式传输到下游装置。

Description

低时延低频率效应编译码器

相关申请案的交叉参考

此申请案主张2019年9月3日申请的美国临时专利申请案第62/895,049号及2020年8月24日申请的美国临时专利申请案第63/069,420号的优先权，上述申请案中的每一者以全文引用的方式并入本文中。

技术领域

本发明大体来说涉及音频信号处理，且确切来说，涉及处理低频率效应(LFE)声道。

背景技术

举例来说，沉浸式服务的标准化努力包含针对声音、多流电传会议、虚拟现实(VR)、用户产生的现场及非现场内容流式传输开发沉浸式声音与音频服务(IVAS)编译码器。IVAS标准的目标是开发音频质量出色、时延低、支持空间音频译码、具有恰当位速率范围、高质量错误恢复及实际实施复杂性的单个编译码器。为实现此目标，期望开发可基于能够进行IVAS的装置或能够处理LFE信号的任何其它装置来处置低时延LFE操作的IVAS编译码器。LFE声道用于范围为20Hz到120Hz的深度低音调声响，且通常发送到经设计以再生低频率音频内容的扬声器。

发明内容

揭示可配置低时延LFE编译码器的实施方案。

在一些实施方案中，一种对低频率效应(LFE)声道进行编码的方法包括：使用一或多个处理器接收时域LFE声道信号；使用低通滤波器对所述时域LFE声道信号进行滤波；使用所述一或多个处理器将所述经滤波的时域LFE声道信号转换成所述LFE声道信号的包含表示所述LFE声道信号的频谱的一定数目个系数的频域表示；使用所述一或多个处理器将系数布置到与所述LFE声道信号的不同频带对应的一定数目个次频带群组中；使用所述一或多个处理器根据所述低通滤波器的频率响应曲线将每一次频带群组中的系数量化；使用所述一或多个处理器使用针对每一次频带群组调谐的熵译码器对所述次频带群组中的所述经量化系数进行编码；及使用所述一或多个处理器产生包含所述经编码的经量化系数的位流；以及使用所述一或多个处理器将所述位流存储于存储装置上或将所述位流流式传输到下游装置。

在一些实施方案中，将每一次频带群组中的所述系数量化进一步包括：基于可用量化点的最大数目及所述系数的绝对值的和来产生缩放移位因数；及使用所述缩放移位因数将所述系数量化。

在一些实施方案中，如果经量化系数超过量化点的所述最大数目，那么将所述缩放移位因数减小且再次将所述系数量化。

在一些实施方案中，对于每一次频带群组来说，所述量化点是不同的。

在一些实施方案中，根据精细量化方案或粗略量化方案将每一次频带群组中的所述系数量化，其中与根据所述粗略量化方案指派给一或多个次频带群组的量化点相比，利用所述精细量化方案将更多量化点分配给所述相应次频带群组。

在一些实施方案中，所述系数的正负号位与所述系数分开译码。

在一些实施方案中，存在四个次频带群组，且第一次频带群组对应于0Hz到100Hz的第一频率范围，第二次频带群组对应于100Hz到200Hz的第二频率范围，第三次频带群组对应于200Hz到300Hz的第三频率范围，且第四次频带群组对应于300Hz到400Hz的第四频率范围。

在一些实施方案中，所述熵译码器是算术熵译码器。

在一些实施方案中，将所述经滤波的时域LFE声道信号转换成所述LFE声道信号的包含表示所述LFE声道信号的频谱的一定数目个系数的频域表示进一步包括：确定所述LFE声道信号的第一步长；基于所述第一步长指定窗函数的第一窗口大小；将所述第一窗口大小应用于所述时域LFE声道信号的一或多个帧；及将修改型离散余弦变换(MDCT)应用于所述经窗口化的帧以产生所述系数。

在一些实施方案中，所述方法进一步包括：确定所述LFE声道信号的第二步长；基于所述第二步长指定所述窗函数的第二窗口大小；及将所述第二窗口大小应用于所述时域LFE声道信号的所述一或多个帧。

在一些实施方案中，所述第一步长是N毫秒(ms)，N大于或等于5ms且小于或等于60ms，所述第一窗口大小高于或等于10ms，所述第二步长是5ms且所述第二窗口大小是10ms。

在一些实施方案中，所述第一步长是20毫秒(ms)，所述第一窗口大小是10ms或20ms或40ms，所述第二步长是10ms且所述第二窗口大小是10ms或20ms。

在一些实施方案中，所述第一步长是10毫秒(ms)，所述第一窗口大小是10ms或20ms，所述第二步长是5ms，且所述第二窗口大小是10ms。

在一些实施方案中，所述第一步长是20毫秒(ms)，所述第一窗口大小是10ms、20ms或40ms，所述第二步长是5ms且所述第二窗口大小是10ms。

在一些实施方案中，所述窗函数是具有可配置渐隐长度的凯撒-贝索导出(KBD)窗函数。

在一些实施方案中，所述低通滤波器是截止频率为约130Hz或低于130Hz的四阶巴特沃斯滤波低通滤波器。

在一些实施方案中，所述方法进一步包括：使用所述一或多个处理器确定所述LFE声道信号的帧的能量级是否低于阈值；根据所述能量级低于阈值级，产生静寂帧指示符以指示所述解码器；将所述静寂帧指示符插入到所述LFE声道位流的元数据中；及在检测到静寂帧时减小LFE声道位速率。

在一些实施方案中，一种对低频率效应(LFE)声道位流进行解码的方法包括：使用一或多个处理器接收LFE声道位流，所述LFE声道位流包含表示时域LFE声道信号的频谱的熵译码系数；使用所述一或多个处理器使用熵解码器将经量化系数解码；使用所述一或多个处理器将经逆量化系数逆量化，其中所述系数已根据用于在编码器中对所述时域LFE声道信号进行滤波的低通滤波器的频率响应曲线而在与频带对应的次频带群组中被量化；使用所述一或多个处理器将经逆量化的所述系数转换成时域LFE声道信号；使用所述一或多个处理器调整所述时域LFE声道信号的延迟；及使用低通滤波器对所述经延迟调整的LFE声道信号进行滤波。

在一些实施方案中，低通滤波器的阶数经配置以确保由于对包含所述LFE声道信号的多声道音频信号中的所述LFE声道进行编码及解码所致的第一总算法延迟小于或等于由于对其它声道进行编码及解码所致的第二总算法延迟。

在一些实施方案中，所述方法进一步包括：确定所述第二总算法延迟是否超过阈值；及根据所述第二总算法延迟超过所述阈值，将所述低通滤波器配置为N阶低通滤波器，其中N是大于或等于2的整数；及根据所述第二总算法延迟不超过所述阈值，将所述低通滤波器的所述阶数配置为小于N。

本文中所揭示的其它实施方案涉及系统、设备及计算机可读媒体。在随附图式及下文说明中陈述一或多个所揭示实施方案的细节。依据说明、图式及权利要求书明了其它特征、目标及优点。

本文中所揭示的特定实施例提供以下优点中的一或多者。所揭示的低时延LFE编译码器：1)主要针对LFE声道；2)主要针对20Hz到120Hz的频率范围，但在低/中等位速率情景中携载达300Hz的音频且在高位速率情景中携载达400Hz的音频；3)通过根据输入低通滤波器的频率响应曲线应用量化方案来实现低位速率；4)具有低算法时延且经设计而以20毫秒(ms)的步幅操作并且具有33msec的总算法时延(包含成帧)；5)可经配置到更小的步幅及更低的算法时延以支持其它情景，包含配置成低到5msec的步幅及13msec的总算法时延(包含成帧)；6)基于LFE编译码器可用的时延在解码器输出处自动地选择低通滤波器；7)具有在静寂期间具有50位/秒(bps)的低位速率的静寂模式；及8)在有效帧期间，位速率基于所使用的量化级而在2千位/秒(kbps)到4kbps之间波动，且在静寂帧期间位速率是50bps。

附图说明

在图式中，为易于说明起见展示示意性元件(例如，表示装置、单元、指令块及数据元件的元件)的具体布置或次序。然而，所属领域的技术人员应理解，图式中的示意性元件的具体次序或布置并不意在暗示需要特定处理次序或顺序或过程分离。此外，图式中包含示意性元件并不意在暗示在所有实施例中均需要此些元件，或并不意在暗示由此些元件表示的特征可不包含于一些实施方案中或与在一些实施方案中的其它元件组合。

此外，在图式中，使用连接元件(例如实线或虚线或箭头)图解说明两个或两个以上其它示意性元件之间或当中的连接、关系或关联性，不存在任何此些连接元件并不意在暗示连接、关系或关联性不可存在。换句话说，图式中未展示元件之间的一些连接、关系或关联性以免使本发明模糊。另外，为易于图解说明，使用单个连接元件来表示元件之间的多个连接、关系或关联性。举例来说，在连接元件表示信号、数据或指令的通信，所属领域的技术人员应理解此些元件视需要表示影响通信的一或多个信号路径。

图1图解说明根据一或多个实施方案的用于对IVAS及LFE位流进行编码及解码的IVAS编译码器。

图2A是图解说明根据一或多个实施方案的LFE编码的框图。

图2B是图解说明根据一或多个实施方案的LFE解码的框图。

图3是图解说明根据一或多个实施方案的具有130Hz的拐角截止点的四阶巴特沃斯低通滤波器的频率响应的曲线图。

图4是图解说明根据一或多个实施方案的菲尔德(Fielder)窗口的曲线图。

图5图解说明根据一或多个实施方案精细量化点随频率的变化。

图6图解说明根据一或多个实施方案粗略量化点随频率的变化。

图7图解说明根据一或多个实施方案在精细量化时经量化MDCT系数的概率分布。

图8图解说明根据一或多个实施方案在粗略量化时经量化MDCT系数的概率分布。

图9是根据一或多个实施方案的对修改型离散余弦变换(MDCT)系数进行编码的过程的流程图。

图10是根据一或多个实施方案的对修改型离散余弦变换(MDCT)系数进行解码的过程的流程图。

图11是根据一或多个实施方案的用于实施参考图1到10所描述的特征及过程的系统的框图。

各个种图式中使用相同参考符号来指示相似元件。

具体实施方式

在以下详细说明中，陈述众多具体细节以提供对各种所描述实施例的透彻理解。所属领域的技术人员应明了，可在不具有这些具体细节的情况下实践各种所描述的实施方案。在其它例子中，未详细描述众所周知的方法、过程、组件及电路以免使实施例的方面发生不必要模糊。下文描述可各自彼此独立地使用或与其它特征的任何组合使用的数个特征。

命名法

如本文中所使用，将术语“包含”及其变化形式解读为开放式术语，意指“包含但不限于”。将术语“或”解读为“及/或”，除非上下文另有明确指示。将术语“基于”解读为“至少部分地基于”。将术语“一个实例性实施方案”及“实例性实施方案”解读为“至少一个实例性实施方案”。将术语“另实施方案”解读为“至少一个其它实施方案”。将术语“经确定”或“确定”解读为获得、接收、运算、计算、估计、预测或导出。除非另有定义，否则本文所使用的所有技术术语及科学术语均具有与熟习本发明所属领域技术者通常所理解的相同的意义。

系统概述

图1图解说明根据一或多个实施方案的用于对IVAS位流(包含LFE声道位流)进行编码及解码的IVAS编译码器100。在编码时，IVAS编译码器100接收音频数据101的N+1个声道，其中音频数据101的N个声道输入到空间分析与降混单元102中，且一个LFE声道输入到LFE声道编码单元105中。音频数据101包含但不限于：单声道信号、立体声信号、双耳信号、空间音频信号(例如，多声道空间音频对象)、阶高保真度立体声响复制(FoA)、高阶高保真度立体声响复制(HoA)及任何其它音频数据。

在一些实施方案中，空间分析与降混单元102经配置以实施复杂先进耦合(CACPL)以用于对立体声音频数据进行分析/降混，及/或实施空间重构(SPAR)以用于对FoA音频数据进行分析/降混。在其它实施方案中，空间分析与降混单元102实施其它格式。空间分析与降混单元102的输出包含空间元数据及音频数据的1到N个声道。将空间元数据输入到空间元数据编码单元104中，空间元数据编码单元104经配置以对空间元数据进行量化及熵译码。在一些实施方案中，量化可包含精细、适度、粗略及额外粗略量化策略，且熵译码可包含霍夫曼或算术译码。

将音频数据的1到N个声道输入到主音频声道编码单元103中，主音频声道编码单元103经配置以将音频数据的1到N个声道编码成一或多个经增强声音服务(EVS)位流。在一些实施方案中，主音频声道编码单元103遵照3GPP TS 26.445且提供各种各样的功能性，例如为窄带(EVS-NB)及宽带(EVS-WB)语音服务增强质量与译码效率、使用超宽带(EVS-SWB)语音增强质量、在对话应用中增强混合内容与音乐的质量、包遗失及延迟抖动的稳健性以及与AMR-WB编译码器的反向兼容性。

在一些实施方案中，主音频声道编码单元103包含预处理与模式选择单元，所述预处理与模式选择单元基于模式/位速率控制以规定的位速率在用于对语音信号进行编码的语音译码器及用于对音频信号进行编码的感知译码器之间做出选择。在一些实施方案中，语音编码器是代数码激式线性预测(ACELP)的经改进变化形式，其针对不同语音类别而扩展出专门的基于LP的模式。

在一些实施方案中，音频编码器是修改型离散余弦变换(MDCT)编码器，其在低延迟/低位速率下效率得到提高且经设计以在语音编码器与音频编码器之间执行无缝且可靠切换。

如先前所描述，LFE声道信号用于范围为20Hz到120Hz的深度低音调声响，且通常发送到经设计以再生低频率音频内容的扬声器(例如，低音扬声器)。将LFE声道信号输入到LFE声道信号编码单元105中，LFE声道信号编码单元105经配置以按照参考图2A的描述对LFE声道信号进行编码。

在一些实施方案中，IVAS解码器包含：空间元数据解码单元106，其经配置以恢复空间元数据；及主音频声道解码单元107，其经配置以恢复1到N个声道音频信号。将所恢复的空间元数据及所恢复的1到N个声道音频信号输入到空间合成/升混/再现单元109中，空间合成/升混/再现单元109经配置以使用空间元数据将1到N个声道音频信号合成并再现为N个或N个以上声道输出音频信号以供在各种音频系统的扬声器上回放，包含但不限于：家庭影院系统、视频会议室系统、虚拟现实(VR)装备及能够再现音频的任何其它音频系统。LFE声道解码单元108接收LFE位流且经配置以对LFE位流进行解码，如参考图2B所描述。

尽管上文所描述的LFE编码/解码的实例性实施方案是通过IVAS编译码器来执行，但下文所描述的低时延LFE编译码器可以是独立LFE编译码器，或其可包含于在需要或期望低时延及可配置性的音频应用中对低频率信号进行编码及解码的任何专用或标准化音频编译码器。

图2A是图解说明根据一或多个实施例的图1中所展示的LFE声道编码单元105的功能组件的框图。图2B是图解说明根据一或多个实施例的图1中所展示的LFE声道解码器108的功能组件的框图。LFE声道解码器108包含熵解码与逆量化单元204、逆MDCT与窗口化单元205、延迟调整单元206及输出LPF 207。延迟调整单元206可位于LPF 207之前或之后，且执行延迟调整(例如，通过缓冲经解码LFE声道信号)以使经解码LFE声道信号与主编译码器经解码输出相匹配。在后文中，参考图2B所描述的LFE声道编码单元105及LFE声道解码单元108统称为LFE编译码器。

LFE声道编码单元105包含输入低通滤波器(LPF)201、窗口化与MDCT单元202以及量化与熵译码单元203。在实施例中，输入音频信号是经脉冲码调制(PCM)音频信号，且LFE声道编码单元105预期步幅为5毫秒、10毫秒或20毫秒的输入音频信号。内在地，LFE声道编码单元105对5毫秒或10毫秒子帧进行操作，且对这些子帧的组合执行窗口化及MDCT。在实施例中，LFE声道编码单元105以20毫秒输入步幅运行且内在地将此输入划分成相等长度的两个子帧。去往LFE的先前输入帧的最后子帧与去往LFE的当前输入帧的第一子帧级联且被窗口化。去往LFE的当前输入帧的第一子帧与去往LFE的当前输入帧的第二子帧级联且被窗口化。执行MDCT两次，每一经窗口化块上各一次。

在实施例中，算法延迟(不包含成帧延迟)等于8毫秒加上由输入LPF 103引致的延迟加上由输出LPF 207引致的延迟。在四阶输入LPF 201及四阶输出LPF 207的情况下，总系统时延是大约15毫秒。在四阶输入LPF 201及二阶输出LPF 207的情况下，总LFE编译码器时延是大约13毫秒。

图3是图解说明根据一或多个实施例的实例性输入LPF 201的频率响应的曲线图。在所展示的实例中，LPF 201是截止频率为130Hz的四阶巴特沃斯滤波器。其它实施例可使用具有相同或不同阶数以及相同或不同截止频率的不同类型的LPF(例如，契比雪夫(Chebyshev)、贝索(Bessel))。

图4是图解说明根据一或多个实施例的菲尔德窗口的曲线图。在实施例中，由窗口化与MDCT单元202应用的窗函数是渐隐长度为8毫秒的菲尔德窗函数。菲尔德窗口是alpha＝5的凯泽-贝索导出(KBD)窗，其是通过建构来满足MDCT的Princen-Bradley条件，且因此以先进音频译码(AAC)数字音频格式使用的窗口。也可使用其它窗函数。

量化及熵译码

在实施例中，量化与熵译码单元203实施符合输入LPF 201频率响应曲线的量化策略以更高效地将MDCT系数量化。在实施例中，将频率范围划分为表示4个频带的4个次频带群组：0Hz到100Hz、100Hz到200Hz、200Hz到300Hz及300Hz到400Hz。这些频带是实例，且更多或更少的频带可与相同或不同频率范围一起使用。更确切来说，MDCT系数是使用基于特定帧中的MDCT系数值动态地运算的缩放移位因数加以量化，且依据LPF频率响应曲线选择量化点，如图5到8中所展示。此量化策略有助于减少MDCT系数的属于100Hz到200Hz、200Hz到300Hz及300Hz到400Hz频带的量化点，而为主LFE频带0Hz到100Hz保留最佳量化点，0Hz到100Hz中将存在最低频率效应能量(例如，隆隆声)。

在实施例中，下文描述去往LFE声道编码单元105的F_len毫秒(ms)输入PCM步幅(输入帧长度)的量化策略，其中帧长度F_len可取由5*f ms给定的任何值，在此1<＝f<＝12。

首先，将输入PCM步幅划分成相等长度的N个子帧，每一子帧宽度(S_w)＝F_len/N ms。N应经选择以使得每一S_w是5ms的倍数(举例来说，如果F_len＝20ms，那么N可以是1、2或4；如果F_len＝10ms，那么N可以是1或2；且如果F_len＝5ms，那么N等于1)。使S_i是任何给定帧中的第i子帧，在此i是范围为0<＝i<＝N的整数，其中S₀对应于去往LFE编码单元105的先前输入帧中的最后子帧，且S₁到S_N是当前帧中的N个子帧。

接下来，将每一S_i及S_i+1子帧级联且利用菲尔德窗口(参见图4)来窗口化，且然后对这些经窗口化样本执行MDCT。此使得对每一帧进行总共N次MDCT。来自每一MDCT的MDCT系数的数目(num_coeffs)＝取样频率*S_w/1000。每一MDCT的频率分辨率(每一MDCT系数的宽度)(W_mdct)是大约1000/(2*S_w)Hz。鉴于低音扬声器通常具有大约100Hz到120Hz的LPF截止点，且在400Hz之后的后LPF能量通常非常低，将高达400Hz的MDCT系数量化且发送到LFE解码单元108，而将MDCT系数的其余部分量化为0。发送高达400Hz的MDCT系数确保在LFE解码单元108处高达120Hz的高质量重构。因此，用于量化及译码(N_quant)的MDCT系数的总数目等于N*400/W_mdct。

接下来，将MDCT系数布置于M个次频带群组中，其中每一次频带群组的宽度是W_mdct的倍数且所有次频带群组的宽度的和等于400Hz。使每一次频带的宽度是SBW_m Hz，其中m是范围为1<＝m<＝M的整数。在此宽度下，第m次频带群组中的系数的数目＝SN_quant＝N*SBW_m/W_mdct(即，来自每一MDCT的SBW_m/W_mdct系数)。然后，根据下文所描述的移位缩放因数(shift)来缩放每一次频带群组中的MDCT系数，所述移位缩放因数是由所有N_quant MDCT系数的绝对值的和或最大值确定。然后，在编码器输入处使用符合LPF曲线的量化方案单独地将每一次频带群组中的缩放MDCT系数量化及译码。利用熵译码器(例如，算术或霍夫曼译码器)对经量化MDCT系数进行译码。利用不同熵译码器来对每一次频带群组进行译码，且每一熵译码器使用恰当概率分布模型来高效地对相应次频带群组进行译码。

现在将描述具有20毫秒(ms)的步幅(F_len＝20ms)、2个子帧(N＝2)且取样频率＝48000的实例性量化策略。在此实例性输入配置下，子帧宽度S_w＝10ms且MDCT的数目＝N＝2。对20ms块执行第一MDCT。通过将先前20ms输入中的10ms到20ms子帧与当前20ms输入中的0ms到10ms子帧级联来形成此块，且然后对20ms长的菲尔德窗口进行窗口化(参见图4)。在N＝1且N＝4的情况下，相应地对菲尔德窗口进行缩放且渐隐长度改变为16/N ms。对通过利用20ms长菲尔德窗口将当前20ms输入帧窗口化所形成的20ms块执行第二MDCT。每一MDCT的MDCT系数数目(num_coeffs)＝480，每一MDCT系数的宽度W_mdct＝50Hz，量化及译码的系数的总数目N_quant＝16，且量化及译码的系数的总数目/MDCT＝16/N＝8。

接下来，将MDCT系数布置于4个次频带群组(M＝4)中，其中每一次频带群组对应于100Hz频带(0到100、100到200、200到300、300到400、SBW_m＝100Hz，每一次频带群组中的系数的数目＝SN_quant＝N*SBW_m/W_mdct＝4)。使a₁、a₂、a₃、a₄、a₅、a₆、a₇、a₈作为将从第一MDCT量化的前8个MDCT系数，且b₁、b₂、b₃、b₄、b₅、b₆、b₇、b₈作为将从第二MDCT量化的前8个MDCT系数。4个次频带群组经布置以具有以下系数：

次频带群组1＝{a₁,a₂,b₁,b₂}，

次频带群组2＝{a₃,a₄,b₃,b₄}，

次频带群组3＝{a₅,a₆,b₅,b₆}，

次频带群组4＝{a₇,a₈,b₇,b₈}，

其中每一次频带群组对应于100Hz频带。

增益为大约-30dB(或小于-30dB)的帧可具有值为大于10^-2或10^-1或更低的MDCT系数，而具有满量程增益的帧可具有值为20或高于20的MDCT系数。为满足此宽的值范围，基于可用的最大量化点(max_value)及MDCT系数(lfe_dct_new)的绝对值的和来运算缩放移位因数(shift)，如下：

shift＝floor(shifts_per_double*log2(max_value/sum(abs(lfe_dct_new))))。

在实施方案中，lfe_dct_new是16个MDCT系数的阵列，shifts_per_double是常数(例如4)，max_value是为精细量化(例如，63个量化值)及粗略量化(例如，31个量化值)而选择的整数，且在精细量化时移位仅限于从4到35的5位值，且在粗略量化时移位仅限于2到33的5位值。

然后，如下运算经量化MDCT系数：

vals＝round(lfe_dct_new*(2^(shift/shifts_per_double))),其中round()运算将结果四舍五入到最接近整数值。

如果经量化值(vals)超过最大允许的可用量化点数目(max_val)，那么减小缩放移位因数(shift)且再次计算经量化值(vals)。在其它实施方案中，代替和函数sum(abs(lfe_dct_new)))，可使用最大值函数max(abs(lfe_dct_new)))来运算缩放移位因数(shift)，但使用max()函数将量化值更分散，而使得设计高效的熵译码器更困难。

在上文所描述的量化步骤中，在一个循环中一起计算每一次频带群组的经量化值，但每一次频带群组的量化点是不同的。如果第一次频带群组超过允许的范围，那么减小缩放移位因数。如果其它次频带群组中的任一者超过允许的范围，那么将所述次频带群组删减为max_value。针对每一次频带群组单独地对所有MDCT系数的正负号位及经量化MDCT系数的绝对值进行译码。

图5图解说明根据一或多个实施方案精细量化点随频率的变化。在精细量化时，次频带群组1(0Hz到100Hz)具有64个量化点，次频带群组2(100Hz到200Hz)具有32个量化点，次频带群组3(200Hz到300Hz)具有8个量化点且次频带群组4(300Hz到400Hz)具有2个量化点。在实施例中，利用熵译码器(例如，算术或霍夫曼熵译码器)对每一次频带群组进行熵译码，其中每一熵译码器使用不同概率分布。因此，主0Hz到100Hz范围被分配的量化点最多。

注意，为次频带群组1到次频带群组4分配量化点是遵循LPF频率响应曲线的形状，所述LPF频率响应曲线在较低频率中所具有的信息多于在较高频率中的信息，且在截止频率的外无信息。为正确地重构高达130Hz的频率，也对与高于130Hz的频率对应的MDCT系数进行编码以避免或最小化混叠。在一些实施方案中，对高达400Hz的MDCT系数进行编码以使得可在解码单元处恰当地重构高达130Hz的频率。

图6图解说明根据一或多个实施方案粗略量化点随频率的变化。在粗略量化时，次频带群组1(0Hz到100Hz)具有32个量化点，次频带群组2(100Hz到200Hz)具有16个量化点，次频带群组3(200Hz到300Hz)具有4个量化点且次频带群组4(300Hz到400Hz)未经量化及熵译码。在实施例中，利用使用不同概率分布的单独熵译码器来对每一次频带群组进行熵译码。

图7图解说明根据一或多个实施方案在精细量化时经量化MDCT系数的概率分布。y轴是出现频率且x轴是量化点数目。Sg1是与0Hz到100Hz频带中的经量化MDCT系数对应的次频带群组1，Sg2是与100Hz到200Hz频带中的经量化MDCT系数对应的次频带群组2。Sg3是与200Hz到300Hz频带中的经量化MDCT系数对应的次频带群组3。Sg4是与频带300Hz到400Hz中的经量化MDCT系数对应的次频带群组4。

图8图解说明根据一或多个实施方案在粗略量化时经量化MDCT系数的概率分布。y轴是出现频率且x轴是量化点数目。Sg1是与0Hz到100Hz频带中的经量化MDCT系数对应的次频带群组1，Sg2是与100Hz到200Hz频带中的经量化MDCT系数对应的次频带群组2。Sg3是与200Hz到300Hz频带中的经量化MDCT系数对应的次频带群组3。Sg4是与频带300Hz到400Hz中的经量化MDCT系数对应的次频带群组4。

注意，主频带(0Hz到100Hz)是发现LFE效应最多的频带且因此分配更多量化点以达到更大分辨率。然而，在粗略量化中分配给主频带的位比精细量化少。在实施例中，针对MDCT系数的帧是使用精细量化还是粗略量化取决于由主音频声道编码器103设定的所期望目标位速率。主音频声道编码器103在初始化期间一次性设定此值，或基于对每一帧中的主音频声道进行编码所需或所使用的位而逐帧地动态设定此值。

静寂帧

在一些实施方案中，在LFE声道位流中添加信号以指示静寂帧。静寂帧是具有低于所规定阈值的能量的帧。在一些实施方案中，将1位包含于传输到解码器的LFE声道位流中(例如，插入于帧标头中)以指示静寂帧，且将LFE声道位流中的所有MDCT系数设定为0。在静寂帧期间此技术可将位速率减小到50bps。

解码器LPF

在LFE声道解码单元108的输出处提供实施LPF 207(参见图2B)的两个选项。基于可用延迟(其它音频声道的总延迟减去LFE渐隐延迟减去输入LPF延迟)选择LPF 207。注意，预期由主音频声道编码单元103/主音频声道解码单元107对其它声道进行编码/解码，且所述声道的延迟取决于主音频声道编码单元103/主音频声道解码单元107的算法延迟。

在实施方案中，如果可用延迟小于3.5ms，那么使用截止点为130Hz的二阶巴特沃斯LPF；否则使用截止点为130Hz的四阶巴特沃斯LPF。因此，在LFE声道解码单元108处，需在移除在截止频率以外的混叠能量与算法延迟之间做出折衷。在一些实施方案中，可完全移除LPF 207，因为低音扬声器通常具有LPF。LPF 207有助于减小LFE解码器输出自身的截止点以外的混叠能量，且可有助于高效后处理。

实例性过程

图9是根据一或多个实施方案的对MDCT系数进行编码的过程900的流程图。可使用例如参考图11所描述的系统1100来实施过程900。

过程900包含以下步骤：接收时域LFE声道信号(901)；使用低通滤波器对所述时域LFE声道信号进行滤波(902)；将经滤波时域LFE声道信号转换成LFE声道信号的包含表示LFE声道信号的频谱的一定数目个系数的频域表示(903)；将系数布置到与LFE声道信号的不同频带对应的一定数目个次频带群组中(904)；根据低通滤波器的频率响应曲线使用缩放移位因数将每一次频带群组中的系数量化(905)；使用针对次频带群组配置的熵译码器对每一次频带群组中的经量化系数进行编码(906)；产生包含经编码的经量化系数的位流(907)；及将位流存储于存储装置上或将位流流式传输到下游装置(908)。

图10是根据一或多个实施方案的对MDCT系数进行解码的过程1000的流程图。可使用例如参考图11所描述的系统1100来实施过程1000。

过程1000包含以下步骤：接收LFE声道位流(1001)，其中LFE声道位流包含表示时域LFE声道信号的频谱的经熵译码系数；对系数进行解码及逆量化(1002)，其中系数是使用缩放移位因数根据低通滤波器的频率响应曲线在与不同频带对应的次频带群组中被量化；将经解码且经逆量化系数转换成时域LFE声道信号(1003)；调整时域LFE声道信号的延迟(1004)；及使用低通滤波器对经延迟调整的LFE声道信号进行滤波(1005)。在实施例中，可基于可自用于对包含时域LFE声道信号的多声道音频信号的全频带宽度声道进行编码/解码的主编译码器得到的总算法延迟来对低通滤波器的阶数进行配置。在一些实施方案中，解码单元仅需要获悉编码单元是利用精细量化还是粗略量化对MDCT系数进行编码即可。可使用LFE位流标头中的位或任何其它适合的传信机制来指示量化类型。

在一些实施方案中，按照如下方式执行经逆量化系数到时域PCM样本的解码。将每一次频带群组中的经逆量化系数重新布置到N个群组中(N是在编码单元处运算的MDCT的数目)，其中每一群组具有与相应MDCT对应的系数。根据上文所描述的实例性实施方案，编码单元对以下4个次频带群组进行编码：

次频带群组1＝{a₁,a₂,b₁,b₂}，

次频带群组2＝{a₃,a₄,b₃,b₄}，

次频带群组3＝{a₅,a₆,b₅,b₆}，

次频带群组4＝{a₇,a₈,b₇,b₈}。

解码单元对4个次频带群组进行解码且将其重新布置回到{a₁,a₂,a₃,a₄,a₅,a₆,a₇,a₈}及{b₁,b₂,b₃,b₄,b₅,b₆,b₇,b₈}，且然后将零填补到群组以得到所期望的逆MDCT(iMDCT)输入长度。执行N次iMDCT以将每一群组中的MDCT系数逆变换成时域块。在此实例中，每一块是2*Sw ms宽，其中Sw是上文所界定的子帧宽度。接下来，由图4中所展示的LFE编码单元使用的同一菲尔德窗口来将此块窗口化。通过恰当地叠加先前iMDCT输出的经窗口化数据与当前iMDCT输出来重新建构每一子帧S_i(i是1<＝i<＝N之间的整数)。最后，通过级联所有N个子帧来重新建构(1003)的输出。

实例性系统架构

图11是根据一或多个实施方案的用于实施参考图1到10所描述的特征及过程的系统1100的框图。系统1100包含一或多个服务器计算机或任何客户端装置，包含但不限于：叫用服务器、用户装备、会议室系统、家庭影院系统、虚拟现实(VR)装备及沉浸式内容摄取装置。系统1100包含任何消费型装置，包含但不限于：智能电话、平板计算机、可穿戴计算机、车辆计算机、游戏主控台、环绕式系统、信息站等。

如所展示，系统1100包含中央处理单元(CPU)1101，中央处理单元1101能够根据存储于例如只读存储器(ROM)1102中的程序或从例如存储单元1108加载到随机存取存储器(RAM)1103的程序执行各种过程。在RAM 1103中也视需要存储当CPU 1101执行各种过程时所需的数据。CPU 1101、ROM 1102及RAM 1103经由总线1104彼此连接。输入/输出(I/O)接口1105也连接到总线1104。

以下组件连接到I/O接口1105：输入单元1106，其可包含键盘、鼠标等；输出单元1107，其可包含显示器，例如液晶显示器(LCD)及一或多个扬声器；存储单元1108，其包含硬盘或另一适合的存储装置；及通信单元1109，其包含网络接口卡，例如网络卡(例如，有线或无线)。

在一些实施方案中，输入单元1106包含处于不同位置中(取决于主机装置)且能够以各种格式俘获音频信号(例如，单声道、立体声、空间、沉浸式及其它适合的格式)的一或多个麦克风。

在一些实施方案中，输出单元1107包含具有各种数目个扬声器的系统。输出单元1107(取决于主机装置的能力)可以各种格式(例如，单声道、立体声、沉浸式、双声道及其它适合的格式)再现音频信号。

通信单元1109经配置以与其它装置进行通信(例如，经由网络)。驱动器1110也视需要连接到I/O接口1105。可装卸式媒体1111(例如磁盘、光盘、磁光盘、快闪驱动器或另一适合可装卸式媒体)安装于驱动器1110上，使得视需要将从可装卸式媒体1111读取的计算机程序安装到存储单元1108中。所属领域的技术人员应理解尽管系统1100被描述为包含上文所描述的组件，但在实际应用中，可添加、移除及/或替换这些组件中的一些组件且所有这些修改或更改全部处于本发明的范围内。

根据本发明的实例性实施例，上文所描述的过程可被实施为计算机软件程序或实施于计算机可读存储媒体上。举例来说，本发明的实施例包含计算机程序产品，所述计算机程序产品包含有形地体现于机器可读媒体上的计算机程序，所述计算机程序包含用于执行方法的程序代码。在此些实施例中，计算机程序可经由通信单元1309从网络下载且安装，及/或从可装卸式媒体1111安装。

通常，本发明的各种实例性实施例可被实施为硬件或专用电路(例如，控制电路系统)、软件、逻辑或其任何组合。举例来说，上文所论述的单元可由控制电路系统(例如，与图11的其它组件组合的CPU)执行，因此控制电路系统可执行本发明中所描述的动作。一些方面可被实施为硬件，而其它方面可被实施为可由控制器、微处理器或其它运算装置(例如，控制电路系统)执行的固件或软件。虽然本发明的实例性实施例的各种方面可被图解说明且描述为框图、流程图或使用某一其它图形表示，但应了解，本文中所描述的这些框、设备、系统、技术或方法可在(作为非限制性实例)硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或者其它计算装置或其某一组合中实施。

另外，流程图中所展示的各种块可被视为方法步骤及/或由计算机程序代码的操作实现的操作，及/或被视为经构造以施行相关联功能的多个耦合逻辑电路元件。举例来说，本发明的实施例包含计算机程序产品，所述计算机程序产品包含有形地体现于机器可读媒体上的计算机程序，所述计算机程序含有经配置以施行上文所描述的方法的程序代码。

在本发明的上下文中，机器/计算机可读媒体可以是可含有或存储由指令执行系统、设备或装置使用的程序或与指令执行系统、设备或装置结合的任何有形媒体。机器/计算机可读媒体可以是机器/计算机可读信号媒体或机器/计算机可读存储媒体。机器/计算机可读媒体可以是非暂时性的且可包含但不限于电子、磁性、光学、电磁、红外线或半导体系统、设备或装置或前述各项的任何适合的组合。机器/计算机可读存储媒体的更具体实例将包含具有一或多个配线的电连接、便携式计算机磁盘、硬盘、RAM、ROM、可抹除只读存储器(EPROM或快闪存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁性存储装置或前述各项的任何适合组合。

可以一或多种编程语言的任何组合撰写施行本发明方法的计算机程序代码。可将这些计算机程序代码提供给通用计算机、专用计算机的处理器或具有控制电路系统的其它可编程数据处理设备，以使得程序代码在由计算机或其它可编程数据处理设备的处理器执行时使得将实施在流程图及/或框图中所规定的功能/操作。程序代码可作为独立软件封装完全地在计算机上、部分地在计算机上执行，部分地在计算机上且部分地在远程计算机上执行，或者完全地在远程计算机或服务器上执行，也或者分布于一或多个远程计算机及/或服务器上。

虽然本文件含有许多具体实施方案细节，但此等细节不应被解释为对可主张内容的范围的限制，而是应被解释为可以是对特定实施例特有的特征的说明。本说明书中在单独实施例的上下文中所描述的特定特征也可以组合方式实施于单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可单独地或以任何适合子组合方式实施于多个实施例中。此外，尽管上文可将特征描述为以特定组合方式起作用且甚至最初如此主张，但来自所主张组合的一或多个特征在一些情形中可从所述组合去除，且所述所主张组合可针对于子组合或子组合的变化形式。图中所描绘的逻辑流程不需要所展示的特定次序或顺序次序来实现所期望结果。另外，可提供其它步骤，或可从所描述的流程清除步骤，且可为所描述的系统添加或从所描述的系统移除其它组件。因此，其它实施方案处于所附权利要求书的范围内。

Claims

1.一种对低频率效应(LFE)声道进行编码的方法，其包括：

使用一或多个处理器接收时域LFE声道信号；

使用低通滤波器对所述时域LFE声道信号进行滤波；

使用所述一或多个处理器将所述经滤波的时域LFE声道信号转换成所述LFE声道信号的包含表示所述LFE声道信号的频谱的一定数目个系数的频域表示；

使用所述一或多个处理器将系数布置到与所述LFE声道信号的不同频带对应的一定数目个次频带群组中；

使用所述一或多个处理器根据所述低通滤波器的频率响应曲线将每一次频带群组中的系数量化；

使用所述一或多个处理器使用针对每一次频带群组调谐的熵译码器对所述次频带群组中的所述经量化系数进行编码；及

使用所述一或多个处理器产生包含所述经编码的经量化系数的位流；及

使用所述一或多个处理器将所述位流存储于存储装置上或将所述位流流式传输到下游装置。

2.根据权利要求1所述的方法，其中将每一次频带群组中的所述系数量化进一步包括：

基于可用量化点的最大数目及所述系数的绝对值的和来产生缩放移位因数；及

使用所述缩放移位因数将所述系数量化。

3.根据权利要求2所述的方法，如果经量化系数超过量化点的所述最大数目，那么将所述缩放移位因数减小且再次将所述系数量化。

4.根据前述权利要求1到3中任一权利要求所述的方法，其中对于每一次频带群组来说，所述量化点是不同的。

5.根据前述权利要求1到4中任一权利要求所述的方法，其中根据精细量化方案或粗略量化方案将每一次频带群组中的所述系数量化，其中与根据所述粗略量化方案指派给一或多个次频带群组的量化点相比，利用所述精细量化方案将更多量化点分配给所述相应次频带群组。

6.根据前述权利要求1到5中任一权利要求所述的方法，其中所述系数的正负号位与所述系数分开译码。

7.根据前述权利要求1到6中任一权利要求所述的方法，其中存在四个次频带群组，且第一次频带群组对应于0Hz到100Hz的第一频率范围，第二次频带群组对应于100Hz到200Hz的第二频率范围，第三次频带群组对应于200Hz到300Hz的第三频率范围，且第四次频带群组对应于300Hz到400Hz的第四频率范围。

8.根据前述权利要求1到7中任一权利要求所述的方法，其中所述熵译码器是算术熵译码器。

9.根据前述权利要求1到8中任一权利要求所述的方法，其中将所述经滤波的时域LFE声道信号转换成所述LFE声道信号的包含表示所述LFE声道信号的频谱的一定数目个系数的频域表示进一步包括：

确定所述LFE声道信号的第一步长；

基于所述第一步长指定窗函数的第一窗口大小；

将所述第一窗口大小应用于所述时域LFE声道信号的一或多个帧；及

将修改型离散余弦变换(MDCT)应用于所述经窗口化的帧以产生所述系数。

10.根据权利要求9所述的方法，其进一步包括：

确定所述LFE声道信号的第二步长；

基于所述第二步长指定所述窗函数的第二窗口大小；及

将所述第二窗口大小应用于所述时域LFE声道信号的所述一或多个帧。

11.根据权利要求10所述的方法，其中：

所述第一步长是N毫秒(ms)；

N大于或等于5ms且小于或等于60ms；

所述第一窗口大小高于或等于10ms；

所述第二步长是5ms；且

所述第二窗口大小是10ms。

12.根据权利要求10所述的方法，其中：

所述第一步长是20毫秒(ms)；

所述第一窗口大小是10ms、20ms或40ms；

所述第二步长是10ms；且

所述第二窗口大小是10ms或20ms。

13.根据权利要求10所述的方法，其中：

所述第一步长是10毫秒(ms)；

所述第一窗口大小是10ms或20ms；

所述第二步长是5ms；且

所述第二窗口大小是10ms。

14.根据权利要求10所述的方法，其中：

所述第一步长是20毫秒(ms)；

所述第一窗口大小是10ms、20ms或40ms；

所述第二步长是5ms；且

所述第二窗口大小是10ms。

15.根据权利要求9所述的方法，其中所述窗函数是具有可配置渐隐长度的凯撒-贝索导出(KBD)窗函数。

16.根据前述权利要求1到15中任一权利要求所述的方法，其中所述低通滤波器是截止频率为约130Hz或低于130Hz的四阶巴特沃斯滤波低通滤波器。

17.根据权利要求1到16中任一权利要求所述的方法，其进一步包括：

使用所述一或多个处理器确定所述LFE声道信号的帧的能量级是否低于阈值；

根据所述能量级低于阈值级，

产生静寂帧指示符以指示所述解码器；

将所述静寂帧指示符插入到所述LFE声道位流的元数据中；及

在检测到静寂帧时减小LFE声道位速率。

18.一种对低频率效应(LFE)声道位流进行解码的方法，其包括：

使用一或多个处理器接收LFE声道位流，所述LFE声道位流包含表示时域LFE声道信号的频谱的熵译码系数；

使用所述一或多个处理器使用熵解码器对经量化系数进行解码；

使用所述一或多个处理器将经逆量化系数逆量化，其中所述系数已根据用于在编码器中对所述时域LFE声道信号进行滤波的低通滤波器的频率响应曲线而在与频带对应的次频带群组中被量化；

使用所述一或多个处理器将经逆量化的所述系数转换成时域LFE声道信号；

使用所述一或多个处理器调整所述时域LFE声道信号的延迟；及

使用低通滤波器对所述经延迟调整的LFE声道信号进行滤波。

19.根据权利要求18所述的方法，其中低通滤波器的阶数经配置以确保由于对所述LFE声道进行编码及解码所致的第一总算法延迟小于或等于由于对包含所述LFE声道信号的多声道音频信号中的其它声道进行编码及解码所致的第二总算法延迟。

20.根据权利要求19所述的方法，其进一步包括：

确定所述第二总算法延迟是否超过阈值；及

根据所述第二总算法延迟超过所述阈值，

将所述低通滤波器配置为N阶低通滤波器，其中N是大于或等于2的整数；及

根据所述第二总算法延迟不超过所述阈值，

将所述低通滤波器的所述阶数配置为小于N。