CN116830192A - 利用自适应下混策略的沉浸式语音和音频服务(ivas) - Google Patents
利用自适应下混策略的沉浸式语音和音频服务(ivas) Download PDFInfo
- Publication number
- CN116830192A CN116830192A CN202180091875.5A CN202180091875A CN116830192A CN 116830192 A CN116830192 A CN 116830192A CN 202180091875 A CN202180091875 A CN 202180091875A CN 116830192 A CN116830192 A CN 116830192A
- Authority
- CN
- China
- Prior art keywords
- downmix
- channel
- gain
- input
- main
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003044 adaptive effect Effects 0.000 title description 26
- 230000005236 sound signal Effects 0.000 claims abstract description 108
- 238000000034 method Methods 0.000 claims abstract description 92
- 238000013139 quantization Methods 0.000 claims description 31
- 239000013598 vector Substances 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000002596 correlated effect Effects 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 claims description 6
- 230000003111 delayed effect Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 description 58
- 230000006870 function Effects 0.000 description 32
- 230000008569 process Effects 0.000 description 17
- 238000002156 mixing Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 11
- 239000004973 liquid crystal related substance Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000012732 spatial analysis Methods 0.000 description 10
- 238000013459 approach Methods 0.000 description 7
- 238000009877 rendering Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000007423 decrease Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 238000012804 iterative process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
公开了一种音频信号编码/解码方法,该方法使用应用于编码器处的编码下混策略,该编码下混策略不同于应用于解码器处的解码重混/上混策略。基于下混编解码方案的类型,该方法包括:计算要被应用于输入音频信号的输入下混增益,以构造主下混通道;确定下混缩放增益,以缩放主下混通道;基于输入音频信号、输入下混增益和下混缩放增益生成预测增益;通过使用主下混通道和预测增益生成侧通道预测,并从侧通道中减去侧通道预测来确定来自侧通道的剩余通道;基于剩余通道中的能量确定解相关增益;编码主下混通道、剩余通道、预测增益和解相关增益;以及将比特流发送到解码器。
Description
相关申请的交叉引用
本申请要求2021年8月3日提交的第63/228,732号美国临时专利申请、2021年4月6日提交的第63/171,404号美国临时专利申请和2020年12月2日提交的第63/120,365号美国临时专利申请的优先权,所有这些都通过引用并入本文中。
技术领域
本发明一般涉及音频比特流编码和解码。
背景技术
语音和音频编码器/解码器(“编解码器”)标准开发最近专注于开发用于沉浸式语音和音频服务(IVAS)的编解码器。IVAS预计将支持一系列音频服务功能,包括但不限于单声道到立体声上混和完全沉浸式音频编码、解码和渲染。IVAS旨在由广泛的设备、端点和网络节点支持,包括但不限于:移动和智能手机、电子平板电脑、个人计算机、会议电话、会议室、虚拟现实(VR)和增强现实(AR)设备、家庭影院设备和其他合适的设备。
IVAS编解码器通过将输入下混入N_dmx个通道(其中N_dmx<=N)并生成侧信息(空间元数据)来有效地编解码包括Ambisonics输入的N通道多通道输入,然后这些N_dmx个通道由核心编解码器中的一个或多个实例编解码。然后,将核心编解码器比特连同编码的侧信息传输到IVAS解码器。IVAS解码器使用核心编解码器中的一个或多个实例来解码N_dmx个下混通道,然后使用所传输的侧信息和解相关器的一个或多个实例从N_dmx个通道重构多通道输入。
在各种比特率下,可以对不同数量的N_dmx进行编解码,例如,在32kbps下,只能对1个下混通道进行编解码。N_dmx个下混通道中的一个是N通道输入的主导特征信号(W’)(下文中,也称为“主下混通道”)的表示,并且剩余的下混通道可以导出为W’和多通道输入的函数。IVAS中有两种下混方案可用:被动下混方案和主动下混方案。在被动下混方案中,主导特征信号(W’)是中心通道或主输入通道(在Ambisonics输入的情况下为W通道)的延迟版本。在主动下混方案中,通过在N通道输入中缩放并添加一个或多个通道来获得特征信号(W’)。例如,对于一阶Ambisonics(FoA)输入,W’=s0W+s1Y+s2X+s3Z,其中s0-3是输入下混增益。因此,被动下混方案可以被视为其中s0=1、s1=0、s2=0和s3=0的主动下混方案的特例。
发明内容
公开了利用自适应下混策略的IVAS编解码(coding)的实施方式,其中自适应下混是被动下混、主动下混或被动和主动下混的组合。在一个实施例中,一种使用应用于编码器处的编码下混策略的音频信号编码方法,该编码下混策略不同于应用于解码器处的解码重混/上混策略,包括:利用至少一个处理器,获得输入音频信号,该输入音频信号表示输入音频场景并且包括主输入音频通道和侧通道;利用至少一个处理器,基于输入音频信号确定下混编解码方案的类型;基于下混编解码方案的类型:利用至少一个处理器,计算要被应用于输入音频信号的一个或多个输入下混增益,以构造主下混通道,其中确定输入下混增益以最小化侧通道上的总预测误差;利用至少一个处理器,确定一个或多个下混缩放增益以缩放主下混通道,其中下混缩放增益是通过最小化来自主下混通道的输入音频场景的重构的表示与输入音频信号之间的能量差来确定的;利用至少一个处理器,基于输入音频信号、输入下混增益和下混缩放增益生成预测增益;利用至少一个处理器,通过使用主下混通道和预测增益生成侧通道预测,然后从侧通道中减去侧通道预测,来确定来自输入音频信号中的侧通道的一个或多个剩余通道;利用至少一个处理器,基于剩余通道中的能量确定解相关增益;利用至少一个处理器,将主下混通道、零个或多个剩余通道和侧信息编码到比特流中,侧信息包括预测增益和解相关增益;以及利用至少一个处理器,将比特流发送到解码器。
在一个实施例中,该方法还包括:利用至少一个处理器,基于输入音频信号计算输入协方差;以及利用至少一个处理器,使用输入协方差确定总预测误差。
在一个实施例中,下混缩放增益的计算还包括:利用至少一个处理器,确定作为传输到解码器的侧信息的函数的上混缩放增益;利用至少一个处理器,通过将上混缩放增益应用于主下混通道,生成来自主下混通道和零个或多个剩余通道的输入音频场景的表示,使得保持输入音频场景的总能量;利用至少一个处理器,通过求解多项式的闭合形式解以保持输入音频场景的能量来确定下混缩放增益,其中,当将重构的输入音频场景的能量与输入音频场景的能量相匹配时,确定下混缩放增益。
在一个实施例中,用于从主下混通道和零个或多个剩余通道重构输入音频场景的表示的上混缩放增益是在侧信息中传输到解码器的预测增益和解相关增益的函数,使得主输入音频信号的重构的表示与主下混通道同相,并且该多项式是二次多项式。
在一个实施例中,用于从主下混通道重构输入音频场景的表示的上混缩放增益是传输到解码器的预测增益和解相关增益的函数,使得通过求解二次多项式获得的下混缩放增益在特定的量化范围内缩放预测增益和解相关增益。
在一个实施例中,上述方法还包括:在编码器处:利用至少一个编码器处理器,计算输入下混增益和下混缩放增益的组合,输入下混增益是要被应用于输入音频信号以生成主下混通道的,其中输入下混增益作为输入音频信号的输入协方差的函数进行计算;利用至少一个编码器处理器,基于输入音频信号和输入下混增益生成主下混通道;利用编码器处理器,基于输入音频信号和输入下混增益生成预测增益;利用至少一个编码器处理器,通过使用主下混通道和预测增益生成侧通道预测,然后从输入音频信号的侧通道中减去侧通道预测,来确定来自输入音频信号中的侧通道的剩余通道;利用至少一个编码器处理器,基于剩余通道中的能量确定解相关增益;利用至少一个编码器处理器,确定下混缩放增益以缩放主下混通道、预测增益和解相关增益,使得预测增益或解相关增益或两者都在特定的量化范围内;利用至少一个编码器处理器,将主下混通道、零个或多个剩余通道和包括缩放的预测增益和缩放的解相关增益的侧信息编码到比特流中;利用至少一个编码器处理器,将比特流发送到解码器;在解码器处:利用至少一个解码器处理器,解码主下混通道、零个或多个剩余通道以及包括缩放的预测增益和缩放的解相关增益的侧信息;利用至少一个解码器处理器,将上混缩放增益设置为预测增益和解相关增益的函数;利用至少一个解码器处理器,生成相对于主下混通道解相关的解相关的信号;以及利用至少一个解码器处理器,将上混缩放增益应用于主下混通道、零个或多个剩余通道和解相关的信号的组合,以重构输入音频场景的表示,使得保持输入音频场景的总能量。
在一个实施例中,要被应用于输入音频信号以生成主下混通道的输入下混增益作为归一化输入协方差的函数进行计算,使得该函数的分子是第一常数乘以主输入音频通道和侧通道之间的协方差,并且该函数的分母是第二常数乘以主输出音频通道的方差和输入音频信号的侧通道的方差之和的最大值;以及利用至少一个编码器处理器,通过最小化用于侧通道预测的预测误差并求解预测增益来生成线性多项式。
在一个实施例中,要被应用于输入音频信号以生成主下混通道的输入下混增益对应于被动下混编解码方案,使得主下混通道要么与主输入音频信号相同,要么与主输出音频信号的延迟版本相同,并且要被应用于输入音频信号以生成主下混通道的输入下混增益作为预测增益的函数进行计算。
在一个实施例中,计算要被应用于输入音频信号以生成主下混通道的输入下混增益包括:利用至少一个处理器,确定输入音频信号的主音频信号和侧通道之间的相关性;以及利用至少一个处理器,基于相关性选择输入下混增益计算方案。
在一个实施例中,要被应用于输入音频信号以生成主下混通道的输入下混增益的计算还包括:在编码器处,利用至少一个编码器处理器,基于被动下混编解码方案确定被动预测增益的集合;利用至少一个编码器处理器,比较该被动预测增益的集合与第一阈值;利用至少一个编码器处理器,确定该被动预测增益的集合是否小于或等于第一阈值,如果是,则计算输入下混增益的第一集合;利用至少一个编码器处理器,基于输入音频信号和输入下混增益生成预测增益的第一集合;利用至少一个编码器处理器,确定预测增益的第一集合是否高于第二阈值,如果是,则计算输入下混增益的第二集合;利用至少一个编码器处理器,基于输入音频信号和输入下混增益生成预测增益的第二集合;利用至少一个编码器处理器,通过使用主下混通道和预测增益的第二集合来确定来自输入音频信号中的侧通道的剩余通道;利用至少一个编码器处理器,基于未被传输到解码器的剩余通道能量确定解相关增益;利用至少一个编码器处理器,确定下混缩放增益以缩放主下混通道、预测增益的第二集合和解相关增益,使得预测增益或解相关增益或两者都在特定的量化范围内;利用至少一个编码器处理器,将主下混通道、零个或多个剩余通道以及包括缩放的预测增益和缩放的解相关增益的侧信息编码到比特流中;利用至少一个编码器处理器,将比特流发送到解码器;在解码器处:利用至少一个解码器处理器,解码主下混通道、零个或多个剩余通道以及包括缩放的预测增益和缩放的解相关增益的侧信息进行解码;利用至少一个解码器处理器,确定作为预测增益和解相关增益的函数的上混缩放增益;利用至少一个解码器处理器,生成相对于主下混通道解相关的解相关的信号;以及利用至少一个解码器处理器,将上混缩放增益应用于主下混通道、零个或多个剩余通道和解相关的信号的组合,以重构输入音频场景的表示,使得保持输入音频场景的总能量。
在一个实施例中,输入下混增益的第一集合对应于被动下混编解码方案。
在一个实施例中,输入下混增益的第一集合对应于主动下混方案,其中要被应用于输入音频信号以生成主下混通道的输入下混增益的第一集合作为归一化输入协方差的函数进行计算,使得函数中的分子是第一常数乘以主输入音频通道和侧通道的协方差并且函数中的分母是第二常数乘以主输入音频通道的方差和侧通道的方差之和的最大值。
在一个实施例中,输入下混增益的第二集合对应于主动下混编解码方案,其中通过将第二组输出下混增益应用于主输入音频通道和侧通道,然后将通道相加来获得主下混通道。
在一个实施例中,输入下混增益的第二集合是二次多项式的系数。
在一个实施例中,计算与预测增益进行比较的阈值,使得预测增益在特定的量化范围内。
在一个实施例中,计算要被应用于输入音频信号以生成下混通道的输入下混增益包括:计算缩放因子以缩放主输入音频信号;计算缩放的主输入音频信号的协方差;对缩放的主输入音频信号的协方差执行特征分析;选择对应于最大特征值的特征向量作为输入下混增益,使得主下混通道与主输入音频通道正相关;以及计算下混缩放增益以缩放主下混通道和侧信息,使得保持输入音频场景的总能量。
在一个实施例中,计算要被应用于输入音频信号以生成主下混通道的输入下混增益包括:计算缩放因子以缩放主输入音频通道;通过将输入下混增益设置为缩放的主输入音频通道的预测增益的函数,基于缩放的主输入通道计算输入下混增益;以及计算下混缩放增益以缩放主下混通道和侧信息,使得保持输入音频场景的总能量。
在一个实施例中,用于缩放主输入音频通道的缩放因子是主输入音频通道的方差与侧通道的方差的和的平方根的比率。
在一个实施例中,要被应用于输入音频信号以生成主下混通道的输入下混增益的计算还包括:利用至少一个编码器处理器,基于被动下混编解码方案确定预测增益;利用至少一个编码器处理器,计算第一下混缩放增益以缩放主下混通道和侧信息,使得在输入音频场景的重构的表示中保持输入音频场景的总能量;利用至少一个编码器处理器,确定第一下混缩放增益是否小于或等于第一阈值,并因此计算输入下混增益的第一集合;利用至少一个编码器处理器,确定第一下混缩放增益是否高于第二阈值,并因此计算输入下混增益的第二集合;以及利用至少一个编码器处理器,基于输入音频信号和第一或第二输入下混增益生成预测增益的第二集合;在解码器处:利用至少一个解码器处理器,解码主下混通道和包括缩放的预测增益的第二集合和缩放的解相关增益的侧信息;利用至少一个解码器处理器,确定作为预测增益的第二集合和解相关增益的函数的上混缩放增益;利用至少一个解码器处理器,生成相对于主下混通道解相关的解相关的信号;以及利用至少一个解码器处理器,将上混缩放增益应用于主下混通道和解相关的信号的组合,以重构输入音频场景的表示,使得保持输入音频场景的总能量。
在一个实施例中,输入下混增益的第一集合对应于被动下混编解码方案。
在一个实施例中,输入下混增益的第二集合对应于主动下混编解码方案,其中通过将输入下混增益应用于主输入音频通道和侧通道,然后将通道相加来获得主下混通道。
在一个实施例中,一种系统包括:一个或多个处理器;以及非暂时性计算机可读介质,存储在由一个或多个处理器执行时使得一个或多个处理器根据上述方法中的任一种执行操作的指令。
在一个实施例中,一种非暂时性计算机可读介质,存储在由一个或多个处理器执行时使得一个或多个处理器根据上述方法中的任一种执行操作的指令。
本文公开的其他实施方式涉及系统、装置和计算机可读介质。所公开的实施方式的细节在附图和下面的描述中阐述。从说明书、附图和权利要求书中可以明显看出其他特征、目的和优点。本文公开的特定实施方式提供以下一个或多个优点。在IVAS解码器处实施主动下混策略,以改善解码的音频信号(诸如四个FoA通道)的质量。所公开的主动下混技术可以与单个或多通道下混通道配置一起使用。与被动下混方案相比,主动下混编解码方案提供了用于在解码器处重构W通道的额外缩放项,可以利用该缩放项确保用于FoA通道的重构的参数(例如,空间元数据)的更优估计。
此外,还公开了单通道和多通道下混情况的潜在改进。在一个实施例中,自适应地操作主动下混编解码方案,其中一个可能的操作点是被动下混编解码方案。
附图说明
在附图中,为了便于描述,示出了示意性元素的特定排列或顺序,诸如表示设备、单元、指令块和数据元素的排列或顺序。然而,本领域技术人员应当理解,附图中示意性元素的特定顺序或排列并不意味着需要特定的处理顺序或次序,或者过程的分离。此外,在附图中包括示意性元素并不意味着在所有实施例中都需要这样的元素,或者在一些实施方式中,由这样的元素表示的特征不能包括在其他元素中,或者不能与其他元素组合。
此外,在附图中,使用连接元素(诸如实线或虚线或箭头)来说明两个或更多个其他示意性元素之间的连接、关系或关联的情况下,任何这样的连接元素的缺失并不意味着不存在连接、关系或关联。换句话说,元素之间的一些连接、关系或关联未在附图中示出,以避免掩盖本发明。此外,为了便于说明,使用单个连接元素来表示元素之间的多个连接、关系或关联。例如,在连接元素表示信号、数据或指令的通信的情况下,本领域技术人员应该理解,该元素表示可能需要的一个或多个信号路径以影响通信。
图1示出了根据实施例的IVAS编解码器的用例。
图2是根据实施例的用于编码和解码IVAS比特流的系统的框图。
图3是根据实施例的编码音频的过程的流程图。
图4A和4B是根据实施例的编码和解码音频的过程的流程图。
图5是根据实施例的在利用自适应下混方案的单通道下混模式下操作的SPAR FOA解码器的框图。
图6是根据实施例的在利用自适应下混方案的单通道下混模式下操作的SPAR FOA编码器的框图。
图7是根据实施例的示例设备架构的框图。
在各种附图中使用的相同参考符号表示相似的元素。
具体实施方式
在下面的详细描述中,阐述了许多具体细节,以提供对所描述的各种实施例的透彻理解。对于本领域的普通技术人员来说,显而易见的是,可以在没有这些特定细节的情况下实践各种所描述的实施方式。在其他实例中,尚未详细描述众所周知的方法、过程、组件和电路,以避免不必要地掩盖实施例的方面。下文描述了若干特征,每个特征都可以彼此独立使用或与其他特征的任何组合一起使用。
命名规则(Nomenclatur)
如本文所使用的,术语“包括”及其变体应理解为开放式术语,其含义是“包括但不限于”。除非上下文另有明确指示,否则术语“或”应理解为“和/或”。术语“基于”应理解为“至少部分地基于”。术语“一个示例实施方式”和“示例实施方式”应理解为由“至少一个示例实施”。术语“另一实施方式”应理解为“至少一个其他实施方式”。术语“确定(determined)”、“确定(determines)”或“确定(determining)”应理解为获得、接收、计算、运算、估计、预测或推导。此外,在以下描述和权利要求中,除非另有定义,否则本文使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常理解的相同含义。
IVAS用例示例
图1示出了根据一个或多个实施方式的IVAS编解码器100的用例100。在一些实施方式中,各种设备通过呼叫服务器102通信,呼叫服务器102被配置为从例如由PSTN/OTHERPLMN 104所示的公共交换电话网络(PSTN)或公共陆地移动网络设备(PLMN)接收音频信号。用例100支持仅以单声道渲染和捕获音频的传统设备106,包括但不限于:支持增强语音服务(EVS)、多速率宽带(AMR-WB)和自适应多速率窄带(AMR-NB)的设备。用例100还支持捕获和渲染立体声音频信号的用户设备(UE)108、114,或捕获单声道信号并将其二进制渲染为多声道信号的UE 110。用例100还支持分别由视频会议室系统116、118捕获和渲染的沉浸式和立体声信号。用例100还支持家庭影院系统120的立体声音频信号的立体声捕获和沉浸式渲染,以及用于虚拟现实(VR)设备122和沉浸式内容摄取124的音频信号的单声道捕获和沉浸式渲染的计算机112。
示例IVAS编解码器
图2是根据实施例的用于编码和解码IVAS比特流的IVAS编解码器200的框图。
IVAS编解码器200包括编码器和远端解码器。IVAS编码器包括空间分析和下混单元
202、量化和熵编码单元203、核心编码单元206和模式/比特率控制单元207。IVAS解码器包括量化和熵解码单元204、核心解码单元208、空间合成/渲染单元209和解相关器单元211。
空间分析和下混单元202接收表示音频场景的N通道输入音频信号201。输入音频信号201包括但不限于:单声道信号、立体声信号、双耳信号、空间音频信号(例如,多声道空间音频对象)、FoA、高阶Ambisonics(HoA)和任何其他音频数据。通过空间分析和下混单元202将N通道输入音频信号201下混到特定数量的下混通道(N_dmx)。在该示例中,N_dmx<=N。空间分析和下混单元202还生成可由远端IVAS解码器用于从N_dmx下混通道、空间元数据和解码器处生成的解相关的信号合成N通道输入音频信号201的侧信息(例如,空间元数据)。在一些实施例中,空间分析和下混单元202实施用于分析/下混立体声/FoA音频信号的复杂高级耦合(CACPL)和/或用于分析/下混FoA音频信号的空间重构(SPAR)。在其他实施例中,空间分析和下混单元202实施其他格式。
N_dmx个通道由包括在核心编码单元206(例如,EVS核心编码单元)中的单声道或一个或多个多通道核心编解码器的N_dmx个实例编码,并且侧信息(例如,空间元数据(MD))由量化和熵编码单元203量化和编码。然后将编码的比特分组(package)到比特流(例如,IVAS比特流)中,并发送到IVAS解码器。尽管在该示例中可以描述EVS编解码器之后的实施例和实施例,但任何单声道、立体声或多声道编解码器都可以用作IVAS编解码器200中的核心编解码器。
在一些实施例中,量化可以包括若干级别的愈发粗糙的量化(例如,精细、中等、粗糙和超粗糙量化),并且熵编解码可以包括Huffman或Arithmetic编解码。
在一些实施例中,核心编码单元206符合3GPP TS26.445,并提供广泛的功能,诸如窄带(EVS-NB)和宽带(EVS-WB)语音服务的增强质量和编码效率、使用超宽带(EVSSWB)语音的增强质量、会话应用中混合内容和音乐的增强质量、对分组丢失和延迟抖动的鲁棒性以及对AMR-WB编解码器的向后兼容性。
在一些实施例中,核心编码单元206包括预处理和模式/比特率控制单元207,其在用于编码语音信号的语音编解码器和用于基于模式/比特率控制单元207的输出以特定比特率编码音频信号的感知编解码器之间进行选择。在一些实施例中,语音编码器是代数码激励线性预测(ACELP)的改进变体,利用用于不同语音类别的基于专用线性预测(LP)的模式扩展。在一些实施例中,感知编码器是在低延迟/低比特率下具有更高效率的改进的离散余弦变换(MDCT)编码器,并且被设计为在语音和音频编码器之间执行无缝和可靠的切换。
在解码器处,由核心解码单元208中包括的单声道编解码器的相对应的N_dmx个实例来解码N_dmx个通道,并且由量化和熵解码单元204来解码侧信息。主下混通道(例如FoA信号格式中的W通道)被馈送到解相关器单元211,该解相关器单元211生成N-N_dmx个解相关通道。N_dmx个下混通道、N-N_dmx个解相关通道和侧信息被馈送到空间合成/渲染单元209,该空间合成/渲染单元209使用这些输入来合成或重新生成原始的N通道输入音频信号。在一个实施例中,N_dmx个通道由EVS单声道编解码器以外的单声道编码解码器解码。在其他实施例中,N_dmx个通道由一个或多个多通道核心编解码单元和一个或多个单通道核心编解码单元的组合来解码。
利用主动下混策略的IVAS编解码
1.0简介
下面的公开描述了用于改善解码的FoA通道的质量的主动下混策略。所提出的主动下混技术可以与单个或多通道下混通道配置一起使用。与被动下混方案相比,主动下混编解码方案提供了用于在解码器处重构W通道的额外缩放项,可以利用该缩放项来确保用于FoA通道的重构的参数(例如,空间元数据)的更优估计。
此外,还探索了一种主动下混编解码方案,并针对单通道和多通道下混情况提出了潜在的改进。在一个实施例中,主动下混方案可以自适应地执行,其中一个可能的操作点是被动下混编解码方案。
2.0术语和问题陈述
2.1.利用FoA输入的SPAR的被动下混的示例实施方式
当与FoA输入一起操作时,SPAR编码器将表示音频场景的FoA输入音频信号转换为一组下混通道和空间参数,用于在SPAR解码器处重新生成输入信号。下混信号可以在1到4个通道之间变化,并且参数包括预测参数P、交叉预测参数C和解相关参数d。这些参数是从特定数量的频带(例如,12个频带)中的加窗输入音频信号的输入协方差矩阵计算的。
SPAR参数提取的示例表示如下:
1.使用公式[1]从主音频信号W预测所有侧信号(Y、Z、X):
其中,作为示例,计算预测通道T′的预测系数,如方程[2]所示:
这里,normscale是归一化缩放因子,并且是0和1之间的常数,并且RYW=cov(Y,W)是对应于通道Y和W的输入协方差矩阵的元素。类似地,Z′和X′个剩余通道具有相对应的参数prZ和prX。P是预测参数P=[prY,prZ,prX]T的向量,在一些实施例中也称为[p1,p2,p3]T。上述下混也被称为被动W下混,其中W在下混过程期间要么根本不改变,要么只是延迟。
2.将W通道和预测的(Y′,Z′,X′)个通道从声学上最相关到最小相关进行重混,其中重混包括基于某种方法对通道进行重新排序或重新组合,如方程[4]所示:
注意,重混的一个实施例可以是将输入通道重新排序到W,Y′,X′,Z′,假设来自左侧和右侧的音频提示比从前到后以及最后的上下提示更重要。
3.计算4通道预测后和重混下混的协方差,如方程[5]和[6]所示:
Rpr=[remix][predict].R.[predict]H[remix]h, [5]
其中,dd表示W以外的额外下混通道(例如,第2到第N-dmx通道),而u表示需要完全重新生成的通道(例如,第(N_dmx+1)到第4通道)。
对于具有1-4个下混通道的WABC下混示例,d和u表示以下通道,其中占位符变量A、B、C可以是FoA中X、Y、Z通道的任意组合):
N | 剩余通道 | 预测的通道 |
1 | -- | A′,B′,C′ |
2 | A′ | B′,C′ |
3 | A′,B′ | C′ |
4 | A′,B′,C′ | -- |
4.从这些计算,确定是否可能从正在发送的剩余通道交叉预测全参数通道的任何剩余部分。所需的额外C系数为:
C=Rud(Rdd+Imax(∈,tr(Rdd)*0.005))-1。 [7]
因此,C具有用于3通道下混的形状(1x2),以及用于2通道下混的形状(2x1)。空间噪声填充的一种实施方式不需要这些C参数,并且这些参数可以被设置为0。空间噪声填充的替代实施方式也可以包括C参数。
5.计算必须由解相关器填充的参数化通道中的剩余能量。上混通道Resuu中的剩余能量是实际能量Ruu(预测后)和重新生成的交叉预测能量Reguu之间的差:
Reguu=CRddCH, [8]
Resuu=Ruu-Reguu, [9]
其中scale是归一化缩放因子。缩放可以是宽带值(例如,scale=0.01)或频率相关的,并且可以在不同的频带中采用不同的值(例如当频谱被划分为12个频带时,scale=linspace(0.5,0.01,12))。方程[11]中d中的参数指示在未预测和未混合之前,使用了多少W的解相关分量来重新创建A、B和C通道。
利用1通道被动下混配置,仅对W通道、P(p1,p2,p3)参数和d(d1,d2,d3)参数进行编解码并发送到解码器。
在被动下混编解码方案中,使用三个预测参数P在解码器处从所传输的下混W预测侧通道Y、X、Z。通过使用解相关参数d添加解相关的下混D(W)的缩放版本来填满侧通道中的丢失能量。对于被动下混,FoA输入的重构如下所示:
Upas=pW+dD(W), [12]
其中,p=[1 p1 p2 p3]T和d=[0 d1 d2 d3]T,以及D(W)描述了解相关器输出,W通道作为解相关器块的输入。注意,假设完美解相关且预测和解相关器参数没有量化,则该方案根据输入协方差矩阵实现完美重构。
由于不完美解相关器以及可用于预测参数和解相关器参数的量化范围有限,被动下混通常无法在具有较低下混通道配置的解码器输出处重构输入场景。因此,期望主动下混方案通过生成在期望量化范围内的更优的预测系数估计来减少总预测误差。
2.2现有的主动下混编解码方案
附录A标题1.IVAS中使用的主动预测器和2.基于规则3B的解决方案下描述了进行主动下混的现有解决方案。该解决方案旨在通过缩放和添加W,X,Y,Z输入通道来生成主导特征信号的表示。预测矩阵或下混矩阵由附录A中的方程(6)给出,如下所示:
下混通道W’计算如下:
W′=dmx×U, [14]
其中U是输入FoA信号,如下所示:
U=[W X Y Z]T, [15]
是被编码并发送到解码器的预测参数[p1、p2、p3],/>式单位向量,f是编码器和解码器两者都已知的常数(例如,0.5)。对于单通道下混,W’=W+fp1X+fp2Y+fp3Z通道与预测参数和解相关d参数一起被编码并发送到解码器。
解码器将上混矩阵应用于W’,如下所示:
其中d是解相关参数(d1、d2、d3),并且重构的FoA信号如下所示:
U′=umx×[W′ D1(W′) D2(W′) D2(W′)]T [17]
其中,D1(W’)、D2(W’)和D3(W’)是解相关器块的三个输出。
该解决方案通常在被动下混方案上提供更优的预测参数估计,将预测参数置于期望的量化范围内,并减少总预测误差。然而,该解决方案依赖于解相关器输出来从下混W’重构W通道,因此可能导致音频伪影。此外,假设输入下混增益与预测参数成正比,已经观察到,该解决方案提供了比期望的更高的预测参数估计,并且可能导致重构FoA输出中的空间失真。
2.3所提出的自适应下混编解码方案的示例实施例
2.3.1自适应下混编解码方案
下面描述的自适应下混策略(在这里也称为自适应主动下混策略)的目标是通过由各种方法计算[13]中给出的输入下混增益(在这里也称为主动下混系数)来提供预测参数p的更优估计。
在一些实施例中,计算输入下混增益,使得总平方预测误差最小化,其中预测波形误差如下所示:
E=pW′-U, [18]
以及均方预测误差(每个信号的预测误差)(4x1)如下所示:
Ep=diag(EET), [19]
其中,总平方预测误差如下所示:
其中p是逆预测矩阵。
在一些实施例中,计算输入下混增益,使得由附录A中的方程(10)中的给出的预测后协方差最小化。
在一些实施例中,计算输入下混增益,使得预测参数在期望的量化范围内。
已经观察到,对于低下混通道配置,利用所公开的主动下混编解码方案的SPAR编解码的音频质量比使用当前被动下混编解码策略的音频质量更优。然而,对于一些音频内容,利用被动下混方案的质量更优,建议主动下混编解码方案的自适应操作。
基于上述观察,下文公开了一种自适应下混方案,其取决于信号特性计算输入下混增益。对于每个处理的频带和音频帧,或者对于每个音频帧的所有频带,可以合并输入下混增益的这种依赖于信号的计算。
2.3.1.1基于最小误差选择输入下混增益
在一个实施例中,可以从计算每个可能f的总预测误差(方程[20])并选择具有最小的总预测误差的一个,导出[13]中给出的输入下混增益中的因子“f”的选择。注意,一旦输入协方差R可用,则可以在协方差域中有效地计算总预测误差。
2.3.1.2基于语声活动的自适应下混方案
已经观察到,对于语声信号,f的高值会在数据传输期间损害空间舒适性噪声的性能。语音信号中的背景噪声通常是扩散的,激进的主动W方案可能导致W下混通道从剩余X、Y和Z通道中获得比期望更多的能量。在全参数编解码中,舒适噪声解决方案解码器生成4个不相关的舒适噪声通道,其频谱形状与主动W下混通道相同。然后使用SPAR参数对这些不相关的通道进行整形。在不连续传输模式(DTX)帧期间,给定极低比特率、SPAR参数的粗略量化和全参数重构,其中对于当前参数重构,从未移除主动W通道中的额外能量,并且输出W通道是空间折叠的,高能量舒适噪声。
还期望在语声活动检测(VAD)活动帧和VAD非活动帧期间解码器处的重构的背景噪声连续。在一个实施例中,在VAD非活动帧期间的被动下混方案和在VAD活动帧期间的主动方案可能会损害IVAS编解码器的整体性能。然而,通过主观评估,观察到减小的f值(例如,0.25)通常对于非活动帧很好地工作,而高值f(例如,0.5)对于活动帧很好地工作。f的这种有条件应用也有助于保持活动帧和非活动帧之间的平滑过渡。
在一个实施例中,主动W配置中的SPAR基于VAD判决动态地选择不同的f值,其中VAD将FoA信号作为输入。当VAD活动时,可以选择较高的f值,而当VAD不活动时,则可以选择较低的f值。
2.3.1.3基于期望预测参数范围的自适应下混编解码方案
参考附录A(主动W方法的分析)描述了自适应下混策略的以下实施例。附录A中的方程参考放在括号内,以区别于不在附录A中的方程,这些方程放在方括号之间。
IVAS方法的第一变体(基于附录A中的规则3B)
在一个实施例中,如果f=0,则解码恢复到上面描述的被动下混方案,导致预测参数“g”可能是无界的问题。通过将f设置为较大的值(例如,f=0.5),方程[17]中正实值“g”的范围可以被约束为有一些证据表明,通过保持f较小,并且只有在需要防止g变得太大时才使用较大的f值,可以改善主动下混策略的稳定性。
在一个实施例中,主动下混策略的潜在变体是尽可能地设置f=0,只要这保持g<g′,其中g′是预测参数的期望范围,否则选择f使得g=g′。如果这导致g(如果g>g′)的值过大,则在方程(17)中设置g=g′,然后通过设置g=g′并求解f来求解二次方程Q(f)=(βg′3)f2+(2αg′2-βg′)f+wg′-α以找到f:
为了确保二次方程始终具有至少一个实解,并且最大实解位于的范围内,注意:
其中,α≥0,ω≥0,并且g′≥0,Q(0)=wg′-α<0因为并且在/>范围中存在正向过零。
g′的某些示例值可以是1.0(f[0 to 1])、1.414(f[0 to 0.5])和2(f[0 to0.25])。上述观察结果可以总结为方程[23]和[24]:
如果/>
否则
注意,上面的方程[23]和[24]违反了附录A中的规则1(保持f恒定),因此可能需要向解码器发送额外的元数据。通过使用第2.3.1.4章节中描述的缩放方法,可以避免发送额外的元数据来指示值“f”。
IVAS方法的第二变体(基于附录A中的规则3B)
观察到,当g较小时,需要较小的f值,当g较大时,较大的f值可以给出更优的结果。f和g之间可能存在一些线性关系,可以利用这些关系在所有情况下给出最优结果。例如,如果f=kg,其中k为常数为≤1.0(通常为0.5),
fun(g):βk2g5+2αkg3-βkg2+wg-α, [25]
并且该函数在以下情况下表现良好
fun(0)=-α,fun(0)≤0, [26]
fun(k-1/3)=α+wg,fun(k-1/3)≥0。 [27]
因此,在0和k-1/3之间至少有一个根。该函数的导数为:
fun′(g):5βk2g4+6αkg2-2βkg1+w, [28]
该多项式的导数在之后单调增加。如果/>则在 和/>之间只有一个根,其是最大的根,使得Newton Raphson或其他合适的解算器在适当设置初始条件的情况下更容易收敛到所需的根。如果/>则最大根在g=0和/>之间,并且在这种情况下,在g=0和/>之间可以有多个根。在一个实施例中,为了找到最大根,Newton Raphson可以用/>或/> 初始化,并且可以增加迭代次数,并且调整学习速率,从而避免发散,并且NewtonLaphson方法缓慢收敛到最大根。注意,利用k=0.5,g将在0到1.26之间,并且通过使用第2.3.1.4章节中描述的缩放方法,可以避免发送额外的元数据来指示值“f”。
2.3.1.4利用缩放的主动下混编解码
IVAS方法的变体(基于附录A中的规则3B)
附录A中的方程(8)的原始逆预测矩阵如下所示:
利用该逆预测矩阵,主通道W可以从W’、Y’、X’和Z’重构,其中W’、Y’、X’和Z’是预测之后的下混通道。但在参数重构的情况下,只有Ndmx个下混通道,其中Ndmx小于4。在这种情况下,使用下混通道和解相关的W’信号的频带能量估计来参数化重构丢失的下混通道。利用参数重构,[30]中给出的逆预测矩阵可能无法从W’重构W,并可能进一步损坏W。
在一个实施例中,下面说明了用于1通道下混的解决该问题的方法。
新的逆预测矩阵如下所示:
其中g’是g/r,其中r是应用于W’的缩放因子,使得逆预测的W通道输出是与到预测矩阵的W通道输入fs匹配的能量,是常数。
在一个实施例中,由方程[31]给出的逆预测矩阵中的“fs”的值是恒定值,该恒定值独立于在计算输入下混增益时在编码器处使用的因子“f”的值。在该实施例中,可以在不向解码器发送任何额外元数据的情况下计算输入下混增益。
新的预测矩阵如下所示:
预测后矩阵和逆预测后矩阵(也称为输出协方差矩阵)可以计算为:
postpredcov=Pred*incov*Pred′, [33]
其中“Pred”是方程[32]中给出的预测矩阵,incov是输入通道的协方差矩阵。输出协方差矩阵由下式给出:
outcov=InvPred*postpredcov*InvPred′, [34]
其中“InvPred”是方程[31]中给出的逆预测矩阵。
当r=1时,设w=incov(1,1)(即,输入W通道的方差)m=postpredcov(1,1)(即预测后W通道的方差)。
将来自方程[32]的“Pred”和来自方程[31]的“InvPred”替换为方程[33]和方程[34],给出:
为了匹配方差outcov(1,1)=w,
针对r可以求解给出:
其中和g通过求解附录A中的方程(17)或各种实施例中提到的任何其他方法来计算。
预测后,下混通道X’、Y’和Z’指示包含无法从W’预测的信号的剩余通道。在参数上混情况下,一个或多个剩余通道可以不被发送到解码器;相反,它们的能级的表示(也称为Pd或解相关参数)被编码并发送到解码器。解码器使用W’、解相关器块和Pd参数参数化地重新生成丢失的剩余通道。
d参数可以如下计算:
其中,“scale”参数是归一化缩放因子。在一个实施例中,根据方程[33],scale可以是宽带值(例如,scale=0.01)或频率相关的,并且可以在不同频带中取不同的值(例如当频谱被划分为12个频带时,scale=linspace(0.5,0.01,12)),RWW=mr2=postpredcov(1,1)并且Resuu是要在解码器处参数上混的剩余通道的协方差矩阵。对于1通道下混Resuu是由Resuu=postpredcov(2:4,2:4)给出的3x3协方差矩阵。
在一些实施方式中,下混缩放因子“r”可以是预测参数和解相关参数两者的函数,其中一个通道下混的解相关参数在方程[39]中定义。对于具有改进的缩放的1通道下混,逆预测矩阵变为:
这里,fs和fs′是常数,对于例如,fs=fs′=0.5,d′=d/r和g′=g/r,其中r=f(g,d),d=sqrt(sum(diag(Pd))),Pd根据方程[39]计算。
使用方程[33]和[34]求解r,
其中,和g通过求解附录A中的方程(17)或各种实施例中提到的任何其他方法来计算。Pd’=Diag(Pd/r),并被量化并发送到解码器,缩放确保未量化和缩放的解相关和预测参数在期望的范围内。
最终解码/上混输出如下所示:
[W″ Y″ X″ Z″]T=Upmix*[W′ D1(W′) D2(W′) D3(W′)]T, [42]
其中,
其中,x1[1x1]=(1-fg′2-f′d′2),并且x4[3x3]=diag(Pd′),W’是预测和缩放后的下混通道,D1(W’)、D2(W’′)和D3(W’)是W’的解相关的输出,W”、Y”、X”、Z”是解码的FoA通道。
2.3.1.5利用缩放的被动下混编解码
在被动下混方法中,存在“g”的问题,例如,预测参数的向量可能是无界的。这会导致参数上混配置的空间失真。在低比特率下,下混通道的数量可以小于4,并且剩余通道在解码器处参数上混。在量化时,“g”有界,这导致不完美的预测估计,并且上混依赖于更多的解相关能量来参数化地重新生成Y、X或Z通道。该问题通过下面描述的修改的被动方案来解决,该方案在下混过程期间对W通道应用动态缩放。计算缩放使得“g”永远不会超出界限,并且在参数上混期间,从W通道的可用表示而不是解相关的信号中导出更多能量。
下面是利用1通道下混的缩放的被动下混编解码方案的示例实施方式。
FoA输入由U=[W X Y Z]T给出。输入信号(4x4)协方差矩阵:R=UUT。默认情况下,被动方案预测参数被计算为其中p=[1 p1 p2 p3]T。下混预测矩阵如下所示:
其中并且/>被传输到解码器的预测参数被量化p1、p2、p3。被动编解码方案中的逆预测上混如下所示:
利用缩放,下混预测矩阵更改为:
其中,并且r是缩放因子,逆预测上混矩阵更改为:
其中,fs是常数(例如,0.5)。
将这些值放入方程[33]和[34]中,并等化outcov(1,1)=W,给出:
其中针对r求解给出:
利用缩放的被动下混方案,对传输到解码器的预测参数进行量化p1/r,p2/r,p3/r。由于缩放因子“r”是预测参数的函数,因此它将W中的能量提高到足以确保预测参数在所需范围内。缩放因子“r”可以是带的或宽带值。
在一些实施方式中,缩放因子“r”可以是预测参数和解相关参数两者的函数,如方程[41]所示。对于被动下混,该缩放因子为:
2.3.1.6利用缩放的自适应下混编解码
可以观察到,当在W和X、Y、Z通道之间存在高相关性时,缩放的主动W下混编解码方法工作得最优,而当相关性较低时,缩放的被动W下混编解码方法工作得最优。因此,在一些实施方式中,通过在缩放的被动和主动W编解码方案之间适当地切换,可以导出更鲁棒的解决方案。
在一个实施例中,主动W下混编解码方法可以基于第2.3.1.2章节中描述的解决方案,也可以根据附录A中描述的主动W下混编解码方法。应根据第2.3.1.4章节中所描述的解决方案执行主动W下混编解码方法的缩放,并且可以根据第2.3.1.5章节中描述的解决方案来执行被动W下混编解码方法的缩放。下面描述利用缩放的自适应下混的示例实施方式。
FoA输入由U=[W X Y Z]T给出。输入信号(4x4)协方差矩阵:R=UUT。计算被动预测系数因子gpred,其中
其中,p1、p2和p3面积计算如下:
其中,p=[1 p1 p2 p3]T. [51]
如果gpred≥thresh,则根据第2.3.1.4章节中的方程[31]到方程[41],计算主动W预测参数缩放因子“r”、预测矩阵、逆预测矩阵、下混和上混矩阵。
如果gpred<thresh,则根据第2.3.1.5章节中的方程[44]到方程[50],计算被动W预测参数缩放因子“r”、预测矩阵、逆预测矩阵、下混和上混矩阵。
由于解码器侧的逆预测矩阵对于方程[31]和方程[47]中给出的缩放的被动和主动W下混编解码方法是相同的,因此不需要额外的侧信息来用信号发送下混是用缩放的主动还是被动W下混编解码方法编码的。另一种方法基于最大缩放因子r,如第2.3.1.7章节所述。
2.3.1.7在缩放的被动和主动下混之间进行软切换
在该实施例中,只要所需的缩放因子r不超过上限,W信号的缩放版本(例如,无贡献来自Y、X、Z信号)就用作主动下混编解码方法中的下混。自适应缩放将预测和解相关器参数推入用于量化的良好范围,并且不将Y、X、Z信号贡献混合到下混中可以避免某些类型的信号的伪影。另一方面,下混缩放因子r的大变化也可能导致伪影。因此,如果每个频带的最大缩放因子超过上限(例如,通常为2.5),则可以使用下面描述的示例迭代过程来确定具有来自Y、X、Z信号的贡献的下混系数,使得缩放因子r在最大限制内。与原始主动W算法相比,附加的缩放因子r允许最优预测系数。
上述示例迭代过程描述如下:
1.定义下混系数:A=[1 0 0 0],
2.使用计算预测参数,
3.使用计算解相关器参数,Ep根据公式[19]计算,
4.使用来自方程[49]中的r=r1计算下混缩放因子,
5.按1/r缩放预测和解相关器参数,按W’=r*W缩放下混
6.定义单位向量
7.定义单位向量缩放h=0.1和最大缩放因子r_max=2.5,
8.在(r>r_max并且h<=0.5)时
a.定义下混系数A=[1 hU],
b.在不缩放的情况下计算主下混通道M,
c.使用计算预测参数,
d.使用计算解相关器参数,
e.使用来自方程[37]的r=r1计算下混缩放因子,
f.按1/r缩放预测和解相关器参数,按W’=r*M缩放下混
g.增量单位向量缩放:h=h+0.1
2.3.1.8基于特征信号的主动下混编解码方案
对于该实施例,术语定义如下:到编码器的输入信号=[W X Y Z]T,要传递到EVS编码器的编码器信号=[W’ X’ Y’ Z’]T(在EVS编码之前可能丢弃一些通道),在解码器中设置预测之前的EVS解码器输出=[W” X” Y” Z”]T(如果编码器丢弃一些通道,则仅存在该向量的子集),以及来自解码器的输出=[Wout Xout Yout Zout]T。
如果我们假设IVAS“核心编解码器”通过丢弃通道X’、Y’、Z’并且EVS编解码W’通道来工作,则:
如果解码器中用于从W生成输出信号的参数完全自由,则在一个实施例中,通过实施Kanade-Lucas-Tomasi(KLT)型E1编解码器来找到最小二乘最优解。在替代实施例中,主动W预测系统的目标被陈述为:向KLT方法添加一些约束,以减少经常出现的不连续性问题,并将约束保持在最小,以尽可能接近通过KLT方法实现的最优性能。
预测方法(被动和主动两者)通常基于下混信号(W′)应与原始W信号具有相当大的正相关性的概念。实现这一点的潜在方法是将KLT方法应用于增强的W通道集(例如,W通道已被缩放因子h放大的4个通道的集合),在下文中称为“增强的KLT”方法。设向量T表示该增强的W信号:
并且设Q为最大特征向量:T×T*
其中,特征向量被选择为使得并且q0>=0(因此,如果可能,确保我们的下混信号将与W正相关)。
注意,需要从一组候选中选择特征向量的事实源于这样一个事实,即如果Q是特征向量,那么λQ也是,其中丸是任何单位量复杂缩放因子,并且通过为丸选择一个值来进行选择,该值使得q0为非负实量。选择丸的行为可以是编解码器行为中的不连续性的来源,并且可以通过确保q0不接近零,并使增强因子h较大,使得增强的hw信号足够大,以形成E1信号的重要分量来避免这种不稳定的行为
E1形成为:
E1=QTX T=hq0W+q1X+q2Y+q3Z。 [55]
在解码器中,使用特征向量Q重构T的最小二乘最优估计,然后可以通过撤消增强的增益h来形成输出:
并且因此:
然而,通过使用传输的预测参数(p1、p2和p3)和常数fs,通过将缩放因子r应用于E1(该缩放因子要被应用于编码器中),可以实施方程[56]:
如果根据以下条件选择r,则方程[56]的所需的“增强KLT”行为可以通过方程[57]的方法实现:
然后计算:
并且/>
上述实施例总结如下。
编码步骤1:
给定输入信号的协方差Covu,使用二次项(W2、X2、Y2和Z2)来确定(但将h限于范围1≤h<10)。
编码步骤2:
形成增强的W信号的协方差:CovT=diag[h,1,1,1]×CovU×diag[h,1,1,1]。
编码步骤3:
确定主特征向量:Q=[q0,q1,q2,q3]T,使得并且q0≥0。
编码步骤4:
假设计算/>并因此计算解码器预测参数:/>
编码步骤5:
来自下混信号W′=r(hq0W+q1X+q2Y+q3Z)。
编码步骤6:
确定解相关增益系数d1、d2和d3,并根据公式[39]
解码:
给定EVS输出W″,假设并给定元数据{pi:i=1..3},计算输出信号:
Xout=p1W″+d1D1(W″),
Yout=p2W″+d2D2(W″)
Zout=p3W″+d3D3(W″)。
2.3.1.9基于W通道预缩放的缩放的主动下混编解码方案
在创建具有主动预测的主特征信号的表示(即,将来自X、Y和Z的分量混合到W中)时,挑战之一是获得主特征信号在时域中跨频谱和跨帧边界的平滑/连续表示。虽然前面描述的主动预测方法试图解决该问题,但仍然存在一些情况,其中从X、Y和Z通道到W的旋转(或混合)量过于激进,这导致不连续性(或其他音频伪影)或根本没有旋转(被动预测),其不能给出最优预测,并且更多地依赖于解相关器来填充不可预测的能量。因此,上述方法可能提供太激进或太弱的预测。在一个实施例中,在执行主动预测之前缩放W。本实施例背后的想法是,W通道的预缩放将确保主动预测后的W通道(或主特征信号的表示)包括大部分原始W。这意味着要与W混合的X、Y和Z的量减少,因此与附录A中描述的解决方案相比,导致较少攻击性的主动预测,同时,与上面描述的被动(或缩放的被动)方法相比,仍然导致更强的预测。预缩放量被确定为W通道和X、Y、Z通道的方差的函数,使得W在进行主动预测之前变得接近主导能量信号。
下面是利用1通道下混的预缩放W主动预测下混编解码方案的示例实施方式。设FoA输入为U=[W X Y Z]T,输入信号(4×4)协方差矩阵为:
其中,是3x1单位向量,R是X、Y和Z通道的3x3协方差矩阵,w是W通道的方差。
现在,在进行主动预测之前预缩放W通道。预缩放因子“h”是X、Y、Z和W的方差的函数,并按如下方式计算:
其中,h是预缩放因子,Hmax是常数(例如,4),它为预缩放设定了上限。
预缩放矩阵如下所示:
接下来,基于下面给出的缩放的协方差矩阵scale_cov[4x4]=Hscale*in_cov*Hscale′计算主动预测参数,并基于导致cubic(g)如下所示的缩放的输入协方差结果求解“g”(参考附录A中的方程(17)):
cubic(g)=(βf2)g3+(2fhα)g2+(h2w-βf)g-(hα)。 [63]
替代地,可以求解g和f,如下所示,参考附录A中的方程(24):
如果则/>否则fix g=g′并且求解f,则
或者
由于4βg′h(α-g′wh)>0,α>g′wh f可以写成:
其中C是一个正常数,并注意到(β-2αhg′)+abs(β-2αhg′)要么是0,要么总是随着he的增加而减少。
众所周知,如果4βg′h(α-g′wh)减少则C减少,如果α<g′w(2h+δ)则4βg′h(α-g′wh)随着h增加而减少,其中δ是h的值的增量。
因此,“f”的总值应随着“h”上午值的增加而减小,除非输入协方差太高,在这种情况下,可能不需要控制X、Y、Z混合到W中。
现在,使用预测前缩放“h”和预测后比例“r”,预测矩阵计算如下:
这导致预测后W信号为:
W’=(h*W+p1fY+p2fX+p3fZ)*r, [69]
其中(或[p1,p2,p3])是表示预测参数的3x1向量,r是用于缩放预测后的W的缩放因子,使得上混W的能量与输入W相同。
预测后缩放因子“r”的计算与第2.3.1.4章节中的方程[37]中给出的相同:
其中/>
并且g通过求解附录A中的方程(17)来计算。
现在,缩放的预测参数计算为:
解相关参数
在一个实施例中,下混(或预测后)W通道方差由下式给出:
解相关参数被计算为Y、X和Z通道中相对于预测后W通道的归一化非相关(或不可预测)能量。在示例实施方式中,利用预缩放的W主动下混编解码方案的解相关参数(Pd参数)可以从根据方程[62]缩放的缩放的协方差和如下给出的主动下混矩阵来计算:
PostP=Dmx[4x4]*scale-cov[4x4]*Dmx′[4x4], [74]
Res[3x3]=Postp(2:4,2:4), [75]
这里,公式[77]给出了要被编码并发送到解码器的解相关参数(3x1Pd矩阵或d1、d2和d3参数)。“m”是方程[72]中给出的方差,scale是0和1之间的常数。
解码器
在一个实施例中,解码器接收编码的W’PCM通道(由方程[69]给出)、编码的预测参数(由方程[11]给出)和编码的解相关参数(由公式[77]给出)。单声道通道解码器(例如,EVS)解码W’通道(例如,设解码的通道为W”),SPAR解码器然后将逆预测矩阵应用于W”通道,以重构原始W通道以及可以从W”通道预测的X、Y和Z元素的表示。
在一个实施例中,逆预测矩阵如下所示(参考附录A中的方程(8)):
SPAR应用逆预测矩阵和解相关参数来重构原始FoA信号的表示,其中FoA信号的重构如下所示:
Wout=W″(1-fsg′2), [79]
Xout=p1′W″+d1D1(W″), [80]
Yout=p2′W″+d2D2(W″)并且
Zout=p3′W″+d3D3(W″)。 [81]
这里,d1、d2和d3是解相关参数,并且D1(W″)、D2(W″)、D3(W″)是关于W”通道的三个解相关的通道。
2.3.1.10基于归一化协方差的缩放的主动下混方案
创建主导特征信号的表示的另一实施例是通过将FoA输入旋转为WX、WY和WZ通道的归一化协方差的函数。该实施例确保仅X、Y和Z通道中的相关分量被混合到W通道中,从而减少由于前面描述的方法的攻击性旋转(或混合)而可能出现的伪影,特别是当处理参数上混时,因为没有方法在解码器侧处撤消X、Y、Z到W的不完美混合。这种方法的另一个好处是,它简化了“g”(主动预测系数因子)的计算,从而得到“g”中的线性方程。
下面是利用1通道下混的主动预测下混编解码的示例实施方式,其中通过对输入FoA信号执行旋转(即归一化协方差因子的函数)来形成主导特征信号的表示。
设FoA输入被给定为U=[W X Y Z]T并且输入信号(4x4)协方差矩阵:
其中,是3x1单位向量,R是X、Y和Z通道之间的3x3协方差矩阵,w是W通道的方差。
设“F”是归一化的“α”的函数,该函数给出从X、Y、Z到W通道的混合量,以形成主导特征信号的表示。然后,主动预测矩阵可以如下给出(参考附录A中的方程(6)):α
在一个实施例中,选择计算“F”中的归一化项,使得其导致X、Y、Z到W的最优混合,即使在W中的能量与X、Y和Z通道相比太低或太高的拐角情况下也是如此。
在方程[83]中,“f”和“m”是常数,如f<=1和m>=1(例如,f=0.5和m=3),当W方差已经高于X、Y和Z通道方差时,可能需要具有较低的f值,因此在这种情况下,因子“m”有助于实现所需的归一化。
在一个实施例中,在将方程[83]中的预测矩阵应用于输入之后的预测后矩阵给出为:
Post_prediction[4x4]=Pred*in-cov*Pred′
其中,通过根据附录A中的方程(12)设置来最小化/>这导致g中的线性方程:
如果没有旋转(即,F=0),则g=α/w,这与被动预测系数因子相同。
当W和X、Y、Z通道之间的相关性非常低时,使得α≈0,则结果是F≈0,这意味着将从X、Y和Z到W进行零(或接近0)量的混合。相反,当W和X、Y、Z通道之间存在高相关性并且W的方差小于X、Y及Z通道时,这将导致所需的F的高值。主动预测后,仍然需要对预测后W进行缩放,以确保上混W的方差与输入W相同,并且还可以确保预测参数在期望的范围内。
在一个实施例中,1通道下混(缩放后)的实际预测矩阵如下所示:
其中,r是预测后缩放因子。
这导致预测后W’信号:
W’=(W+Fu1Y+Fu2X+Fu3Z)*r, [87]
其中,F在方程[83]中给出,(u1,u2,u3)是方程[82]中给出的单位向量。
预测后缩放因子“r”的计算与第2.3.1.4章节方程(37)中给出的相同,方法是通过使用方程[31]中给出的逆预测矩阵和方程[86]中给定的预测矩阵,并将它们代入方程[33]和方程[34]中:
其中,m是根据公式[33]的预测后的W方差,r=1。
缩放的预测参数由下式给出:
并且(或[p1,p2,p3])是要被编码并发送到解码器的3x1预测参数向量。
解相关参数
从方程[82]和[86],下混(或预测后的)W通道方差由下式给出:
m′=Pred[1x4]*incov[4x4]*Pred′[4x1]. [90]
在一个实施例中,解相关参数被计算为Y、X和Z通道中相对于预测后的W通道的归一化不相关(或不可预测)能量。
在一个实施例中,解相关参数(Pd参数)可以根据方程[84]中计算的Post_prediction[4x4]来计算:
Res[3x3]=Post_prediction(2:4,2:4), [91]
这里,公式[93]给出了要被编码并发送到解码器的解相关参数(3x1Pd矩阵或d1、d2和d3参数)。“m”是方程[90]中给出的方差,“scale”是0和1之间的常数。
解码器
在一个实施例中,解码器接收编码的W’PCM通道(由方程[87]给出)、编码的预测参数(由方程[09]给出)和编码的解相关参数(由公式[93]给出)。
在一个实施例中,单声道通道解码器(例如,EVS)对W’通道进行解码(设解码的通道为W”),然后SPAR解码器将逆预测矩阵应用于W”通道,以重构原始W通道以及可以从W’通道预测的X、Y和Z元素的表示。
逆预测矩阵与方程[31]中的相同:
在一个实施例中,SPAR应用逆预测矩阵和解相关参数来重构原始FoA信号的表示,其中FoA信号的重构如下所示:
Wout=W″(1-fsg′2), [95]
Xout=p1′W″+d1D1(W″), [96]
Yout=p2′W″+d2D2(W″)以及 [97]
Zout=p3′W″+d3D3(W″)。 [98]
这里,d1,d2和d3是解相关参数,并且D1(W″),D2(W″),D3(W″)是相对于W”通道的三个解相关的通道。
2.3.2被动下混编解码方案
在被动下混编解码方案中,可以选择任何下混用于传输,其使得能够使用N(例如,N=3)个预测参数和M(例如,M=3)个解相关器参数对FoA信号进行最优可能的重构。对于被动下混编解码方案,传输原始W,例如,不执行下混操作。这种方法的优点是,下混信号不容易出现信号自适应下混可能引入的任何不稳定问题。缺点是FoA信号X、Y、Z的重构(预测)是次优的。因此,下面描述了不同的下混策略,与传输W相比,它们减少了FoA信号的波形重构误差。在所有情况下,FoA信号X、Y、Z由单个预测参数每个预测,下混表示W。下混被缩放,使得下混的能量与W的能量匹配。也可以在主动下混编解码方案中应用下面描述的下混策略。
2.3.2.1提出自适应下混策略
2.3.2.1.1平滑化
对于所有自适应下混策略,当下混系数或缩放因子快速(适时)或跨频带变化时,存在引入时间不稳定性(伪影)的风险。此外,如果在下采样滤波器组域中执行下混,则太剧烈地修改信号会增加合成中的混叠失真。因此,系数应随时间和频率相对平滑地变化。建议通过一阶IIR滤波器或FIR滤波器来平滑下混系数随时间的变化。可以使用无延迟移动平均FIR滤波器来完成频带上的平滑。
替代地,自适应下混可以是宽带下混,例如,对于所有频带,时间帧自适应下混系数是相同的,而预测和解相关器参数依赖于频带。
2.3.2.1.2稳定的特征信号
在一个实施例中,基于输入协方差R从具有最高特征值的特征向量导出的主导特征信号被传输到解码器。这方面的问题是,特征信号可能是暂时不稳定的。根据第2.3.1.7章节中的方程[55],可以通过传输“增强的”特征信号来缓解该问题,其中W为强制主导(在导出特征向量之前增强),使得A=[hq0 q1 q2 q3],附加能量(W)保持缩放因子r。
2.3.2.1.3 Ad-Hoc启发式下混规则
这种方法基于观察,即下混应在某种程度上与要预测的信号相关。如果目标信号能量很大,因此在感知上很重要,则尤其如此。由于我们允许负值预测参数,因此应该注意将下混信号X、Y、Z相关地添加到W(例如,利用正确的符号)。
这些考虑导致以下下混规则(Matlab符号):
根据方程[87]进行能量缩放。在实验中,该下混策略的总预测误差显著小于标准被动下混。
2.3.2.1.4静态下混系数
不太容易出现不稳定伪影的是具有固定初始系数的经验推导的下混。一种可能的下混可能是:
A=[1 0.3 0.2 0.1]。
注意,即使系数是固定的,但当相对于W的能量进行缩放时,下混变得自适应。
2.3.2.1.5迭代调整
该策略通过将信号的贡献添加到W来迭代地减少总预测误差,W根据每次迭代测量的方程[86]生成最大的预测误差。当计算总预测误差时,可以考虑预测参数的量化限制。在一个实施例中,应用以下迭代处理:
·初始化A=[1,0,0,0],调节常数k=0.2
·运行迭代循环(类似于1、2、3或4的几次)
ο根据公式[91]计算每个信号的预测误差Ep
ο变体1
■找到预测误差最大的信号(id)
■增量下混系数:A(id)=A(id)+k sign(R(id,1))|A|
ο变体2(在每次迭代的一个步骤中增加所有系数)
■
ο对下混系数应用缩放(保持W能量)
ο计算预测参数,方程[84]
ο将预测参数限制到量化范围
图3是使用应用于编码器处的编码下混策略的音频信号编码过程300的流程图,该编码下混策略不同于应用于解码器处的解码下混策略。例如,如参考图7所述,过程300可以通过系统700来实施。
过程300包括获得表示输入音频场景并包括主输入音频通道和侧通道的输入音频信号(301),基于输入音频信号确定下混编解码方案的类型(302),基于下混编解码方案的类型:计算要被应用于输入音频信号的一个或多个输入下混增益以构造主下混通道(303),其中确定输入下混增益以最小化侧通道上的总预测误差,确定一个或多个下混缩放增益以缩放主下混通道(304),其中,通过最小化来自主下混通道的输入音频场景的重构的表示与输入音频信号之间的能量差来确定下混缩放增益,基于输入音频信号、输入下混增益和下混缩放增益生成预测增益(305);通过使用主下混通道和预测增益生成侧通道预测,然后从侧通道中减去侧通道预测来确定来自输入音频信号中的侧通道的一个或多个剩余通道(306);基于零个或多个剩余通道中的能量确定解相关增益(307);将主下混通道、零个或多个剩余通道和侧信息编码到比特流中,侧信息包括预测增益和解相关增益(308);以及将比特流发送到解码器(309)的步骤。在前面的部分中详细描述了每个步骤。
图4A和4B是根据实施例的用于编码和解码音频的过程400的流程图。例如,如参考图7所述,过程400可以通过系统700来实现。
参考图4A,在编码器处,过程400包括以下步骤:计算输入下混增益和下混缩放增益的组合,输入下混增益是要被应用于输入音频信号以生成主下混通道的,其中输入下混增益作为输入音频信号的输入协方差的函数进行计算(401);基于输入音频信号和输入下混增益生成主下混通道(402);基于输入音频信号和输入下混增益生成预测增益(403);通过使用主下混通道和预测增益生成侧通道预测,然后从输入音频信号的侧通道中减去侧通道预测来确定来自输入音频信号中的侧通道的剩余通道(406);基于剩余通道中的能量确定解相关增益(407);确定下混缩放增益以缩放主下混通道、预测增益和解相关增益,使得预测增益或解相关增益或两者都在特定的量化范围内(408);将主下混通道、零个或多个剩余通道和包括缩放的预测增益和缩放的解相关增益的侧信息编码到比特流中(409);将比特流发送到解码器(410)。
参考图4B,在解码器处,过程400通过解码主下混通道、零个或多个剩余通道和包括缩放的预测增益和缩放的解相关增益的侧信息来继续(411);将上混缩放增益设置为缩放的预测增益和缩放的解相关增益的函数(412);生成相对于主下混通道解相关的解相关的信号(413);以及将上混缩放增益应用于主下混通道、零个或多个剩余通道和解相关的信号的组合,以重构输入音频场景的表示,使得保持输入音频场景的总能量(414)。
图5是根据实施例的在利用自适应下混方案的一通道下混模式下操作的SPAR FOA解码器的框图。SPAR解码器500将SPAR比特流作为输入,并在解码器输出处重构输入FoA信号的表示,其中FoA输入信号包括主通道W和侧通道Y、Z和X,并且解码的输出由W”、Y”、Z”和X”通道给出。SPAR比特流被解分组为核心编解码比特和侧信息比特。核心编解码比特被发送到核心解码单元501,该核心解码单元501重构主下混通道W’。侧信息比特被发送到侧信息解码单元502,该侧信息解码部502对侧信息比特进行解码和逆量化,侧信息比特包括预测增益(p1、p2、p3)和解相关增益(d1、d2、d3)。
主下混通道W’被馈送到解相关器单元503,该解相关器单元503生成相对于W’解相关的3个输出。通过利用预测增益(p1、p2和p3)缩放W’通道来计算Y、Z和X通道预测,并且通过利用解相关增益(d1、d2和d3)缩放单元503的解相关的输出来计算Y,Z和X通道的剩余未相关信号分量。将预测分量和解相关的分量相加以获得解码器500的输出处的输出通道Y”、Z”和X”。
单元501的主通道下混W’输出和单元502的解码的侧信息输出被馈送到缩放计算单元504,该缩放计算单元504计算上混缩放增益以缩放W’通道以获得W”通道,使得W”通道的能量与编码器输入W通道的能量相同。在一个实施例中,解码器处FoA信号的重构由下式给出:
W”=(1-f*(p12+p22+p32))*W’, [100]
Y″=p1*W′+d1*D1(W′), [101]
Z″=p2*W′+d2*D2(W′),以及 [102]
X″=p3*W′+d3*D3(W′), [103]
其中f是常数(例如,f=0.5),D1(W’)、D2(W’)和D3(W’)是解相关器单元503的输出。在示例实施例中,核心解码单元501是EVS解码器,并且核心编解码比特包括EVS比特流。在其他实施例中,核心解码单元501可以是任何单声道通道编解码器。
图6是根据实施例的在利用自适应下混方案的一通道下混模式下操作的SPAR FOA编码器600的框图。SPAR编码器600将FoA信号作为输入,并生成可由图5中描述的SPAR解码器500解码的编码的比特流,其中FoA输入由W、Y、Z和X通道给出。FoA输入被馈送到空间分析/侧信息生成和量化单元601中,该空间分析/侧信息生成和量化单元601分析FoA输入,生成输入协方差估计,并基于协方差估计计算输入下混增益(s0、s1、s2和s3)和下混缩放增益(r)。在一个实施例中,输入下混增益s0等于1。
空间分析/侧信息生成和量化单元601基于输入协方差估计、输入下混增益和下混缩放增益来计算预测增益和解相关增益,使得预测增益和解相关增益在特定的量化范围内,然后对其进行量化。然后将包括预测增益和解相关增益的量化的侧信息发送到侧信息编解码单元603,该侧信息编解码单元603将侧信息编解码为比特流。将FoA输入、输入下混增益和下混缩放增益馈入下混单元602中,该下混单元602通过将输入下混增益和下混缩放增益应用于FoA输入来生成一通道下混W’(也称为主下混通道或主特征信号的表示)。然后,将下混单元602的W’输出馈入核心编解码单元604中,该核心编解码单元604将W’通道编解码为核心编解码比特流。通过比特分组单元605将核心编解码单元604和侧信息编解码单元603的输出分组到SPAR比特流中。
在一个实施例中,空间分析/侧信息生成和量化单元601计算解码器500的解码器输出W”的能量估计,并将其等同于编码器600的编码器输入W的能量估计,同时计算下混缩放增益、预测增益和解相关增益,从而保持能量。在示例实施例中,核心编解码单元604是EVS编码器,并且核心编解码比特包括EVS比特流。在其他实施例中,核心编解码单元604可以是任何单声道通道编解码器。
示例系统架构
图7示出了适用于实施本发明的示例实施例的示例系统700的框图。系统700包括一个或多个服务器计算机或任何客户端设备,包括但不限于图1所示的任何设备,诸如呼叫服务器102、传统设备106、用户设备108、114、会议室系统116、118、家庭影院系统、VR设备122和沉浸式内容摄取124。系统700包括任何消费设备,包括但不限于:智能手机、平板电脑、可穿戴电脑、车载电脑、游戏控制台、环绕系统、信息亭。
如图所示,系统700包括中央处理单元(CPU)701,其能够根据存储在例如只读存储器(ROM)702中的程序或从例如存储单元708加载到随机存取存储器(RAM)703的程序来执行各种处理。在RAM 703中,还根据需要存储CPU 701执行各种处理时所需的数据。CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出(I/O)接口705也连接到总线704。
以下组件连接到I/O接口705:输入单元706,其可以包括键盘、鼠标等;输出单元707,其可以包括诸如液晶显示器(LCD)的显示器和一个或多个扬声器;存储单元708,包括硬盘或另一适当的存储设备;以及包括诸如网卡(例如,有线或无线)的网络接口卡的通信单元709。
在一些实施方式中,输入单元706包括位于不同位置(取决于主机设备)的一个或多个麦克风,能够捕获各种格式(例如,单声道、立体声、空间、沉浸式和其他合适的格式)的音频信号。
在一些实施方式中,输出单元707包括具有各种数量的扬声器的系统。如图1所示,输出单元707(取决于主机设备的能力)可以以各种格式(例如,单声道、立体声、沉浸式、双耳和其他合适的格式)呈现音频信号。
通信单元709被配置为与其他设备通信(例如,经由网络)。驱动710还根据需要连接到I/O接口705。在驱动710上安装可移动介质711,诸如磁盘、光盘、磁光盘、闪存驱动或另一合适的可移动介质,使得根据需要将从中读取的计算机程序安装到存储单元708中。本领域技术人员将理解,尽管系统700被描述为包括上述组件,但在实际应用中,可以添加、移除和/或更换这些组件中的一些,并且所有这些修改或改变都属于本发明的范围。
根据本发明的示例实施例,上述过程可以实现为计算机软件程序或在计算机可读存储介质上。例如,本发明的实施例包括计算机程序产品,包括有形地体现在机器可读介质上的计算机程序,该计算机程序包括用于执行方法的程序代码。在这些实施例中,计算机程序可以经由通信单元709从网络下载和安装,和/或从可移动介质711安装,如图7所示。
通常,本发明的各种示例实施例可以在硬件或专用电路(例如,控制电路)、软件、逻辑或其任何组合中实施。例如,上面讨论的单元可以由控制电路(例如,CPU与图7的其他组件组合)执行,因此,控制电路可以执行本发明中描述的动作。一些方面可以在硬件中实施,而其他方面可以在固件或软件中实施,这些固件或软件可以由控制器、微处理器或其他计算设备(例如,控制电路)执行。虽然本发明的示例实施例的各个方面被示出并描述为框图、流程图或使用一些其他图示,但应理解,本文所描述的块、装置、系统、技术或方法可以作为非限制性示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或它们的某种组合中实施。
此外,流程图中所示的各种块可以被视为方法步骤和/或由计算机程序代码的操作产生的操作,和/或被构造为执行相关联功能的多个耦接的逻辑电路元件。例如,本发明的实施例包括一种计算机程序产品,该计算机程序产品包括有形地体现在机器可读介质上的计算机程序,所述计算机程序包含被配置为执行上述方法的程序代码。
在本发明的上下文中,机器可读介质可以是任何有形介质,其可以包含或存储供指令执行系统、装置或设备使用或与指令执行系统、装置或设备相关使用的程序。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以是非暂时性的,并且可以包括但不限于电子、磁性、光学、电磁、红外或半导体系统、装置或设备,或前述的任何适当组合。机器可读存储介质的更具体示例将包括具有一条或多条导线的电气连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、磁存储设备,或上述的任何适当组合。
用于执行本发明的方法的计算机程序代码可以用一种或多种编程语言的任何组合编写。这些计算机程序代码可以被提供给具有控制电路的通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得当程序代码由计算机的处理器或其他可编程数据处理装置执行时,使流程图和/或框图中特定的功能/操作得以实施。程序代码可以完全在计算机上,部分在计算机上,作为独立的软件包,部分在该计算机上,部分在远程计算机上,或者完全在远程计算机或服务器上,或者分布在一个或多个远程计算机和/或服务器上执行。
虽然本文档包含许多具体的实实施细节,但这些不应被解释为对可能要求保护的范围的限制,而是对可能特定于特定实施例的特征的描述。本说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反,在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独实施或在任何合适的子组合中实施。此外,尽管特征可以在上面描述为在某些组合中起作用,甚至最初声称是这样,但在某些情况下,可以从组合中删除来自所要求保护的组合的一个或多个特征,并且所要求的组合可以定向到子组合的子组合或变体。图中描述的逻辑流不需要所示的特定顺序或次序来实现所需的结果。此外,可以从所描述的流程中提供或消除其他步骤,并且可以将其他组件添加到所描述的系统中或从中移除。因此,其他实施方式在以下权利要求的范围内。
Claims (24)
1.一种使用应用于编码器处的编码下混策略的音频信号编码方法,所述编码下混策略不同于应用于解码器处的解码重混或上混策略,所述方法包括:
利用至少一个处理器,获得输入音频信号,所述输入音频信号表示输入音频场景,并且包括主输入音频通道和侧通道;
利用所述至少一个处理器,基于所述输入音频信号确定下混编解码方案的类型;
基于所述下混编解码方案的类型:
利用所述至少一个处理器,计算要被应用于所述输入音频信号以构建主下混通道的一个或多个输入下混增益,其中,确定所述输入下混增益以最小化所述侧通道上的总预测误差;
利用所述至少一个处理器,确定一个或多个下混缩放增益以缩放所述主下混通道,其中所述下混缩放增益是通过最小化来自所述主下混通道的所述输入音频场景的重构的表示与所述输入音频信号之间的能量差来确定的;
利用所述至少一个处理器,基于所述输入音频信号、所述输入下混增益和所述下混缩放增益生成预测增益;
利用所述至少一个处理器,通过使用所述主下混通道和所述预测增益生成侧通道预测,然后从所述侧通道中减去所述侧通道预测来确定来自所述输入音频信号中的所述侧通道的一个或多个剩余通道;
利用所述至少一个处理器,基于所述剩余通道中的能量确定解相关增益;
利用所述至少一个处理器,将所述主下混通道、零个或多个剩余通道和侧信息编码到比特流中,所述侧信息包括对应于所述一个或多个剩余通道的所述预测增益和所述解相关增益;以及
利用所述至少一个处理器,将所述比特流发送到解码器。
2.根据权利要求1所述的方法,还包括:
利用所述至少一个处理器,基于所述输入音频信号计算输入协方差;以及
利用所述至少一个处理器,使用所述输入协方差确定所述总预测误差。
3.根据权利要求2所述的方法,其中,所述下混缩放增益的计算还包括:
利用所述至少一个处理器,确定作为被传输到所述解码器的所述侧信息的函数的上混缩放增益;
利用所述至少一个处理器,通过将所述上混缩放增益应用于所述主下混通道,生成来自所述主下混通道和所述零个或多个剩余通道的所述输入音频场景的表示,使得保持所述输入音频场景的总能量;
利用所述至少一个处理器,通过求解多项式的闭合形式解来确定所述下混缩放增益,以保持所述输入音频场景的能量,其中,当将所重构的输入音频场景的能量与所述输入音频场景的能量相匹配时,确定所述下混缩放增益。
4.根据权利要求3所述的方法,其中,用于从所述主下混通道和所述零个或多个剩余通道重构所述输入音频场景的表示的所述上混缩放增益是在所述侧信息中被传输到所述解码器的所述预测增益和所述解相关增益的函数,使得所述主输入音频信号的所重构的表示与所述主下混通道同相,并且所述多项式是二次多项式。
5.根据权利要求4所述的方法,其中,用于从所述主下混通道重构所述输入音频场景的表示的所述上混缩放增益是被传输到所述解码器的所述预测增益和所述解相关增益的函数,使得通过求解所述二次多项式获得的所述下混缩放增益在特定的量化范围内缩放所述预测增益和所述解相关增益。
6.根据权利要求5所述的方法,还包括:
在所述编码器处:
利用至少一个编码器处理器,计算所述输入下混增益和所述下混缩放增益的组合,所述输入下混增益是要被应用于所述输入音频信号以生成所述主下混通道的,其中所述输入下混增益是作为输入音频信号的所述输入协方差的函数来计算的;
利用所述至少一个编码器处理器,基于所述输入音频信号和所述输入下混增益生成所述主下混通道;
利用编码器处理器,基于所述输入音频信号生成所述预测增益和输入下混增益;
利用所述至少一个编码器处理器,通过使用所述主下混通道和所述预测增益生成所述侧通道预测,然后从所述输入音频信号中的所述侧通道中减去所述侧通道预测来确定来自所述输入音频信号中的所述侧通道的剩余通道;
利用所述至少一个编码器处理器,基于所述剩余通道中的能量确定所述解相关增益;
利用所述至少一个编码器处理器,确定所述下混缩放增益以缩放所述主下混通道、所述预测增益和所述解相关增益,使得所述预测增益或所述解相关增益或两者都在所述特定的量化范围内;
利用所述至少一个编码器处理器,将所述主下混通道、所述零个或多个剩余通道和包括缩放的预测增益和缩放的解相关增益的所述侧信息编码到比特流中;
利用所述至少一个编码器处理器,将所述比特流发送到所述解码器;
在所述解码器处:
利用至少一个解码器处理器,解码所述主下混通道、所述零个或多个剩余通道以及包括缩放的预测增益和缩放的解相关增益的所述侧信息;
利用所述至少一个解码器处理器,将所述上混缩放增益设置为缩放的预测增益和缩放的解相关增益的函数;
利用所述至少一个解码器处理器,生成相对于所述主下混通道解相关的解相关的信号;以及
利用所述至少一个解码器处理器,将所述上混缩放增益应用于所述主下混通道、所述零个或多个剩余通道和解相关的信号的组合,以重构所述输入音频场景的表示,使得保持所述输入音频场景的总能量。
7.根据权利要求6所述的方法,其中,要被应用于所述输入音频信号以生成所述主下混通道的所述输入下混增益作为归一化输入协方差的函数进行计算,使得所述函数的分子是第一常数乘以所述主输入音频通道和所述侧通道之间的协方差,并且所述函数的分母是第二常数乘以所述主输出音频通道的方差和所述输入音频信号的所述侧通道的方差之和的最大值;以及
利用所述至少一个编码器处理器,通过最小化用于所述侧通道预测的预测误差并求解所述预测增益,生成线性多项式。
8.根据权利要求6到7中任一项所述的方法,其中,要被应用于所述输入音频信号以生成所述主下混通道的所述输入下混增益对应于被动下混编解码方案,使得所述主下混通道要么与所述主输入音频信号相同,要么与所述主输出音频信号的延迟版本相同。
9.根据权利要求6到8中任一项所述的方法,其中,要被应用于所述输入音频信号以生成所述主下混通道的所述输入下混增益作为所述预测增益的函数进行计算。
10.根据权利要求6到9中任一项所述的方法,其中,计算要被应用于所述输入音频信号以生成所述主下混通道的所述输入下混增益包括:
利用所述至少一个处理器,确定所述主音频信号和所述输入音频信号的所述侧通道之间的相关性;以及
利用所述至少一个处理器,基于所述相关性选择输入下混增益计算方案。
11.根据权利要求6到10中任一项所述的方法,其中,要被应用于所述输入音频信号以生成所述主下混通道的所述输入下混增益的计算还包括:
在所述编码器处:
利用所述至少一个编码器处理器,基于被动下混编解码方案确定被动预测增益的集合;
利用所述至少一个编码器处理器,将所述被动预测增益的集合与第一阈值进行比较;
利用所述至少一个编码器处理器,确定所述被动预测增益的集合是否小于或等于所述第一阈值,如果是,则计算输入下混增益的第一集合;
利用所述至少一个编码器处理器,基于所述输入音频信号和所述输入下混增益生成预测增益的第一集合;
利用所述至少一个编码器处理器,确定所述预测增益的第一集合是否高于第二阈值,如果是,则计算输入下混增益的第二集合;
利用所述至少一个编码器处理器,基于所述输入音频信号和所述输入下混增益生成预测增益的第二集合;
利用所述至少一个编码器处理器,通过使用所述主下混通道和所述预测增益的第二集合确定来自所述输入音频信号中的所述侧通道的所述剩余通道;
利用所述至少一个编码器处理器,基于未被传输到所述解码器的所述剩余通道能量确定所述解相关增益;
利用所述至少一个编码器处理器,确定所述下混缩放增益以缩放所述主下混通道、所述预测增益的第二集合和所述解相关增益,使得所述预测增益或所述解相关增益或两者都在所述特定的量化范围内;
利用所述至少一个编码器处理器,将所述主下混通道、所述零个或多个剩余通道以及包括缩放的预测增益和缩放的解相关增益的所述侧信息编码到比特流中;
利用所述至少一个编码器处理器,将所述比特流发送到所述解码器;
在解码器处:
利用所述至少一个解码器处理器,解码所述主下混通道、所述零个或多个剩余通道以及包括缩放的预测增益和缩放的解相关增益的所述侧信息;
利用所述至少一个解码器处理器,确定作为缩放的预测增益和缩放的解相关增益的函数的所述上混缩放增益;
利用所述至少一个解码器处理器,生成相对于所述主下混通道解相关的解相关的信号;以及
利用所述至少一个解码器处理器,将所述上混缩放增益应用于所述主下混通道、所述零个或多个剩余通道和解相关的信号的组合,以重构所述输入音频场景的表示,使得保持所述输入音频场景的总能量。
12.根据权利要求6到11中任一项所述的方法,其中,所述输入下混增益对应于被动下混编解码方案。
13.根据权利要求7或11所述的方法,其中,输入下混增益的第一集合对应于主动下混方案,其中要被应用于所述输入音频信号以生成所述主下混通道的所述输入下混增益的第一集合作为归一化输入协方差的函数进行计算,使得所述函数中的分子是第一常数乘以所述主输入音频通道和所述侧通道的协方差并且所述函数中的分母是第二常数乘以所述主输入音频通道的方差和所述侧通道的方差之和的最大值。
14.根据权利要求11所述的方法,其中,输入下混增益的第二集合对应于主动下混编解码方案,其中所述主下混通道是通过将所述输出下混增益的第二集合应用于所述主输入音频通道和所述侧通道,然后将通道相加来获得的。
15.根据权利要求9和14所述的方法,其中,所述输入下混增益的第二集合是二次多项式的系数。
16.根据权利要求11所述的方法,其中,计算用于与所述预测增益进行比较的阈值,使得所述预测增益在所述特定的量化范围内。
17.根据权利要求6所述的方法,其中,计算要被应用于所述输入音频信号以生成所述下混通道的所述输入下混增益包括:
计算缩放因子以缩放所述主输入音频信号;
计算缩放的主输入音频信号的协方差;
对缩放的主输入音频信号的协方差执行特征分析;
选择对应于最大特征值的特征向量作为所述输入下混增益,使得所述主下混通道与所述主输入音频通道正相关;以及
计算所述下混缩放增益以缩放所述主下混通道和所述侧信息,使得保持所述输入音频场景的总能量。
18.根据权利要求6所述的方法,其中,计算要被应用于所述输入音频信号以生成所述主下混通道的所述输入下混增益,包括:
计算缩放因子以缩放所述主输入音频通道;
通过将所述输入下混增益设置为缩放的主输入音频通道的所述预测增益的函数,基于缩放的主输入音频通道计算所述输入下混增益;以及
计算所述下混缩放增益以缩放所述主下混通道和所述侧信息,使得保持所述输入音频场景的总能量。
19.根据权利要求17或18所述的方法,其中,用于缩放所述主输入音频通道的所述缩放因子是所述主输入音频通道的方差与所述侧通道的方差之和的平方根的比率。
20.根据权利要求11所述的方法,其中,要被应用于所述输入音频信号以生成所述主下混通道的输入下混增益的计算还包括:
利用所述至少一个编码器处理器,基于被动下混编解码方案确定所述预测增益;
利用所述至少一个编码器处理器,计算第一下混缩放增益以缩放所述主下混通道和侧信息,使得在所述输入音频场景的重构的表示中保持所述输入音频场景的总能量;
利用所述至少一个编码器处理器,确定所述第一下混缩放增益是否小于或等于第一阈值,并因此计算输入下混增益的第一集合;
利用所述至少一个编码器处理器,确定所述第一下混缩放增益是否高于第二阈值,并因此计算输入下混增益的第二集合;以及
利用所述至少一个编码器处理器,基于所述输入音频信号和所述第一输入下混增益或所述第二输入下混增益生成预测增益的第二集合;
利用所述至少一个编码器处理器,通过使用所述主下混通道和所述预测增益的第二集合确定来自所述输入音频信号中的所述侧通道的所述剩余通道;
利用所述至少一个编码器处理器,基于未被传输到所述解码器的所述剩余通道能量确定所述解相关增益;
利用所述至少一个编码器处理器,将所述主下混通道、所述零个或多个剩余通道以及包括所述预测增益的第二集合和所述解相关增益的所述侧信息编码到比特流中;
利用所述至少一个编码器处理器,将所述比特流发送到所述解码器;
在解码器处:
利用所述至少一个解码器处理器,解码所述主下混通道、所述零个或多个剩余通道以及包括所述预测增益的第二集合和所述解相关增益的所述侧信息;
利用所述至少一个解码器处理器,确定作为所述预测增益的第二集合和所述解相关增益的函数的所述上混缩放增益;
利用所述至少一个解码器处理器,生成相对于所述主下混通道解相关的解相关的信号;以及
利用所述至少一个解码器处理器,将所述上混缩放增益应用于所述主下混通道、所述零个或多个剩余通道和解相关的信号的组合,以重构所述输入音频场景的表示,使得保持所述输入音频场景的总能量。
21.根据权利要求8或20所述的方法,其中,所述输入下混增益的第一集合对应于被动下混编解码方案。
22.根据权利要求14-16或20中任一项所述的方法,其中,所述输入下混增益的第二集合对应于主动下混编解码方案,其中所述主下混通道是通过将所述输入下混增益应用于所述主输入音频通道和所述侧通道,然后将通道相加来获得的。
23.一种系统,包括:
一个或多个处理器;以及
非暂时性计算机可读介质,存储在由所述一个或多个处理器执行时使得所述一个或多个处理器执行根据权利要求1-22中任一项所述的操作的指令。
24.一种非暂时性计算机可读介质,存储在由一个或多个处理器执行时使得所述一个或多个处理器执行根据权利要求1-22中任一项所述的操作的指令。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63/120,365 | 2020-12-02 | ||
US63/171,404 | 2021-04-06 | ||
US202163228732P | 2021-08-03 | 2021-08-03 | |
US63/228,732 | 2021-08-03 | ||
PCT/US2021/061671 WO2022120093A1 (en) | 2020-12-02 | 2021-12-02 | Immersive voice and audio services (ivas) with adaptive downmix strategies |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116830192A true CN116830192A (zh) | 2023-09-29 |
Family
ID=88139684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180091875.5A Pending CN116830192A (zh) | 2020-12-02 | 2021-12-02 | 利用自适应下混策略的沉浸式语音和音频服务(ivas) |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116830192A (zh) |
-
2021
- 2021-12-02 CN CN202180091875.5A patent/CN116830192A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7384893B2 (ja) | マルチシグナルエンコーダ、マルチシグナルデコーダ、および信号白色化または信号後処理を使用する関連方法 | |
US20240135937A1 (en) | Immersive voice and audio services (ivas) with adaptive downmix strategies | |
TWI762008B (zh) | 編碼及解碼浸入式語音及音訊服務位元流之方法、系統及非暫時性電腦可讀媒體 | |
CN107077861B (zh) | 音频编码器和解码器 | |
CN114175151A (zh) | Ivas比特流的编码和解码 | |
RU2821064C1 (ru) | Иммерсивные голосовые и аудиослужбы (ivas) со стратегиями адаптивного понижающего микширования | |
CN116830192A (zh) | 利用自适应下混策略的沉浸式语音和音频服务(ivas) | |
US20240105192A1 (en) | Spatial noise filling in multi-channel codec | |
TWI803998B (zh) | 使用參數轉換處理編碼音頻場景的裝置、方法或電腦程式 | |
TW202347317A (zh) | 用於方向性音訊寫碼空間重建音訊處理之方法、設備及系統 | |
TWI805019B (zh) | 使用參數平滑處理編碼音頻場景的裝置、方法或電腦程式 | |
RU2821284C1 (ru) | Распределение скоростей передачи битов в иммерсивных голосовых и аудиослужбах | |
CN116547748A (zh) | 多通道编解码器中的空间噪声填充 | |
TW202411984A (zh) | 用於具有元資料之參數化經寫碼獨立串流之不連續傳輸的編碼器及編碼方法 | |
BR122023022313A2 (pt) | Distribuição de taxa de bits em serviços de voz e áudio imersivos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40100108 Country of ref document: HK |