CN117059110A - 用于多声道编码中的立体声填充的装置和方法 - Google Patents
用于多声道编码中的立体声填充的装置和方法 Download PDFInfo
- Publication number
- CN117059110A CN117059110A CN202310980026.6A CN202310980026A CN117059110A CN 117059110 A CN117059110 A CN 117059110A CN 202310980026 A CN202310980026 A CN 202310980026A CN 117059110 A CN117059110 A CN 117059110A
- Authority
- CN
- China
- Prior art keywords
- channel
- channels
- decoded
- mch
- pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011049 filling Methods 0.000 title claims abstract description 175
- 238000000034 method Methods 0.000 title claims description 103
- 230000003595 spectral effect Effects 0.000 claims abstract description 309
- 238000012545 processing Methods 0.000 claims description 117
- 230000005236 sound signal Effects 0.000 claims description 35
- 238000013139 quantization Methods 0.000 claims description 30
- 238000002156 mixing Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012804 iterative process Methods 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 description 127
- 230000008569 process Effects 0.000 description 34
- 230000011664 signaling Effects 0.000 description 29
- 238000010586 diagram Methods 0.000 description 22
- 239000000945 filler Substances 0.000 description 15
- 230000002123 temporal effect Effects 0.000 description 15
- 238000001914 filtration Methods 0.000 description 14
- 239000000203 mixture Substances 0.000 description 11
- 238000005429 filling process Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000007792 addition Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000010076 replication Effects 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241000162682 Heterogen Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Peptides Or Proteins (AREA)
Abstract
提出一种用于对当前帧的编码的多声道信号进行解码以获得三个或更多个当前音频输出声道的装置。多声道处理器适于根据第一多声道参数从三个或更多个解码的声道中选择两个解码的声道。此外,多声道处理器适于基于所选声道生成第一组两个或更多个处理的声道。噪声填充模块适于针对所选声道中的至少一个声道来标识其内部所有谱线被量化为零的一个或多个频带,并且适于根据辅助信息使用已解码的三个或更多个先前音频输出声道的适当子集来生成混合声道,并且适于以使用所述混合声道的谱线生成的噪声来填充其内部所有谱线被量化为零的频带的谱线。
Description
本申请是申请日为2017年02月14日且题为“用于多声道编码中的立体声填充的装置和方法”的国际申请PCT/EP2017/053272所对应的中国国家申请(申请号:201780023524.4,进入中国国家阶段日期:2018年10月12日)的分案申请。
技术领域
本发明涉及音频信号编码,具体而言,涉及用于多声道编码中的立体声填充的装置和方法。
背景技术
音频编码属于压缩领域,涉及利用音频信号中的冗余和不相关性。
在MPEG USAC中(参见例如[3]),使用复数预测、MPS2-1-2或具有频带受限或全频带残余信号的统一立体声来执行两个声道的联合立体声编码。MPEG环绕(参见例如[4])分层地组合一对二(OTT)和二对三(TTT)框,用于多声道音频的联合编码,而无论有或没有残差信号的传输。
在MPEG-H中,四声道元素分层地应用MPS2-1-2立体声框,然后是复数预测/MS立体声框,构建固定的4×4再混合树(参见例如[1])。
AC4(参见例如[6])引入了新的3声道元素、4声道元素和5声道元素,其允许仅有发送的混合矩阵和随后的联合立体声编码信息来重新混合所发送的声道。此外,先前公开文献提出使用诸如Karhunen-Loeve变换(KLT)之类的正交变换用于增强型多声道音频编码(参见例如[7])。
例如,在3D音频情况下,扬声器声道分布在若干高度层,结果产生水平和垂直声道对。如在USAC中定义,仅两个声道的联合编码不足以考虑声道之间的空间和感知关系。在附加前处理/后处理步骤中应用MPEG环绕,在不可能进行联合立体声编码的情况下个体地发送残差信号,例如以利用左垂直残差信号和右垂直残差信号之间的相依性。在AC-4中引入了专用N-声道元素,其允许联合编码参数的有效编码,但未能用于针对新的沈浸式回放情境(7.1+4、22.2)所提出的具有较多声道的一般性扬声器设置。MPEG-H四声道元素也限于仅4个声道并且无法动态地应用于任意声道,而仅应用于预先配置且固定数量的声道。
MPEG-H多声道编码工具允许产生离散编码立体声框子(亦即联合编码声道对)的任意树,参考[2]。
音频信号编码中常见的问题是因量化(例如,频谱量化)而引起的。量化可能导致频谱空穴。例如,在特定频带中的所有频谱值可以在编码器侧被设置为零,作为量化结果。例如,这种谱线的确切值在量化之前可以相当低并且然后量化可能会导致如下情况,其中例如特定频带内的所有谱线的频谱值已被设置为零。当解码时,在解码器侧,这可能导致非期望的频谱空穴。
现代频域语音/音频编码系统(例如,IETF的Opus/Celt编解码器[9]、MPEG-4(HE-)AAC[10]、或特别地MPEG-D xHE-AAC(USAC)[11])提供了取决于信号的时间稳定性而使用一个长变换-长区块-或八个顺序短变换-短区块-来编码音频帧的手段。此外,对于低比特率编码,这些方案提供了使用相同声道的伪随机噪声或低频系数来重构声道的频率系数的工具。在xHE-AAC中,这些工具分别称作噪声填充和频谱带复制。
然而,对于非常有音调或瞬时的立体声输入,单独噪声填充和/或频谱带复制限制了在极低比特率下可以达到的编码质量,这主要是因为需要明确地发送两个声道的许多频谱系数。
MPEG-H立体声填充是参数工具,其通过使用先前帧的降混以改善在频域中因量化引起的频谱空穴的填充。类似噪声填充,立体声填充直接在MPEG-H核心编码器的MDCT域中操作,参考[1]、[5]、[8]。
然而,在MPEG-H中使用MPEG环绕和立体声填充受限于固定的声道对元素,因此无法利用时变声道间相依性。
MPEG-H中的多声道编码工具(MCT)允许适应各种声道间相依性,但由于典型操作配置中使用单个声道元素,因此不允许立体声填充。现有技术并未公开感知优化的方法以在时变的任意联合编码声道对的情况下生成先前帧的降混。组合MCT使用噪声填充作为立体声填充的替代以填充频谱空穴将导致噪声伪影,特别是对于调性信号尤为如此。
发明内容
本发明的目的是提出改善的音频编码构思。由根据本申请示例实施例的用于解码的装置、由根据本申请示例实施例的用于编码的装置、由根据本申请示例实施例的用于解码的方法、由根据本申请示例实施例的用于编码的方法、由根据本申请示例实施例的计算机程序并通过根据本申请示例实施例的编码的多声道信号来实现本发明的目的。
提出一种用于对当前帧的编码的多声道信号进行解码以获得三个或更多个当前音频输出声道的装置。多声道处理器适于根据第一多声道参数从三个或更多个解码的声道中选择两个解码的声道。此外,所述多声道处理器适于基于所述所选声道生成第一组两个或更多个处理的声道。噪声填充模块适于针对所述所选声道中的至少一个声道来标识其内部所有谱线被量化为零的一个或多个频带,并且适于根据辅助信息使用已解码的的三个或更多个先前音频输出声道的适当子集来生成混合声道,并且适于以使用所述混合声道的谱线生成的噪声来填充其内部所有谱线被量化为零的频带的谱线。
根据实施例,提出一种用于对先前帧的先前编码的多声道信号进行解码以获得三个或更多个先前音频输出声道并且用于对当前帧的当前编码的多声道信号进行解码以获得三个或更多个当前音频输出声道的装置。
所述装置包括接口、声道解码器、用于生成所述三个或更多个当前音频输出声道的多声道处理器、以及噪声填充模块。
所述接口适于接收所述当前编码的多声道信号,并且适于接收包括第一多声道参数的辅助信息。
所述声道解码器适于对所述当前帧的所述当前编码的多声道信号进行解码以获得所述当前帧的三个或更多个解码的声道集合。
所述多声道处理器适于根据所述第一多声道参数从所述三个或更多个解码的声道的集合中选择第一所选两个解码的声道对。
此外,所述多声道处理器适于基于所述第一所选两个解码的声道对生成第一组两个或更多个处理的声道,以获得更新后的三个或更多个解码的声道集合。
在所述多声道处理器基于所述第一所选两个解码的声道对生成所述第一对两个或更多个处理的声道之前,所述噪声填充模块适于针对所述第一所选两个解码的声道对的两个声道中的至少一个声道来标识其内部所有谱线被量化为零的一个或多个频带,并且适于使用所述三个或更多个先前音频输出声道中的两个或更多个但非所有声道生成混合声道,并且适于以使用所述混合声道的谱线生成的噪声来填充其内部所有谱线被量化为零的所述一个或多个频带的谱线,其中,所述噪声填充模块适于根据所述辅助信息从所述三个或更多个先前音频输出声道中选择用于生成所述混合声道的两个或更多个先前音频输出声道。
具体说明如何生成和填充噪声的噪声填充模块可以采用的实施例的具体构思被称作立体声填充。
此外,提出一种用于对具有至少三个声道的多声道信号进行编码的装置。
所述装置包括迭代处理器,适于在第一迭代步骤中,计算所述至少三个声道中的每对声道之间的声道间相关值,用于在所述第一迭代步骤中,选择具有最高值或具有高于阈值的值的声道对,并且用于使用多声道处理操作处理所选声道对,以导出所选声道对的初始多声道参数并导出第一处理的声道。
所述迭代处理器适于在第二迭代步骤中使用所述处理的声道中的至少一个处理的声道进行所述计算、所述选择和所述处理以导出其它的多声道参数和第二处理的声道。
此外,所述装置包括声道编码器,适于对通过所述迭代处理器执行的迭代处理所得的声道进行编码以获得编码的声道。
此外,所述装置包括输出接口,适于生成编码的多声道信号,所述编码的多声道信号具有所述编码的声道、所述初始多声道参数和所述其它的多声道参数,并且具有指示用于解码的装置是否须以基于先前解码的音频输出声道所生成的噪声填充其内部所有谱线被量化为零的一个或多个频带的谱线的信息,所述先前解码的音频输出声道先前已经被所述用于解码的装置解码。
此外,提出一种用于对先前帧的先前编码的多声道信号进行解码以获得三个或更多个先前音频输出声道并且用于对当前帧的当前编码的多声道信号进行解码以获得三个或更多个当前音频输出声道的方法。所述方法包括:
-接收所述当前编码的多声道信号,并且接收包括第一多声道参数的辅助信息。
-对所述当前帧的所述当前编码的多声道信号进行解码以获得所述当前帧的三个或更多个解码的声道集合。
-根据所述第一多声道参数从所述三个或更多个解码的声道的集合中选择第一所选两个解码的声道对。
-基于所述第一所选两个解码的声道对生成第一组两个或更多个处理的声道,以获得更新后的三个或更多个解码的声道集合。
在基于所述第一所选两个解码的声道对生成所述第一对两个或更多个处理的声道之前,进行以下步骤:
-针对所述第一所选两个解码的声道对的两个声道中的至少一个声道来标识其内部所有谱线被量化为零的一个或多个频带,并且使用所述三个或更多个先前音频输出声道中的两个或更多个但非所有声道生成混合声道,并且以使用所述混合声道的谱线生成的噪声来填充其内部所有谱线被量化为零的所述一个或多个频带的谱线,其中,根据所述辅助信息进行从所述三个或更多个先前音频输出声道中选择用于生成所述混合声道的两个或更多个先前音频输出声道。
此外,提出一种用于对具有至少三个声道的多声道信号进行编码的方法。所述方法包括:
-在第一迭代步骤中,计算所述至少三个声道中的每对声道之间的声道间相关值,用于在所述第一迭代步骤中,选择具有最高值或具有高于阈值的值的声道对,并且使用多声道处理操作处理所选声道对以导出用于所选声道对的初始多声道参数并导出第一处理的声道。
-在第二迭代步骤中,使用所述处理的声道中的至少一个声道进行所述计算、所述选择和所述处理以导出其它的多声道参数和第二处理的声道。
-对通过所述迭代处理器执行的迭代处理所得的声道进行编码以获得编码的声道。以及
-生成编码的多声道信号,所述编码的多声道信号具有所述编码的声道、所述初始多声道参数和所述其它的多声道参数,并且具有指示用于解码的装置是否须以基于先前解码的音频输出声道所生成的噪声填充其内部所有谱线被量化为零的一个或多个频带的谱线的信息,所述先前解码的音频输出声道先前已经被所述用于解码的装置解码。
此外,提出一种计算机程序,其中所述计算机程序中的每个被配置为当在计算机或信号处理器上执行时用于实施上述方法之一,使得通过所述计算机程序之一实施上述方法中的每种方法。
此外,提出一种编码的多声道信号。所述编码的多声道信号包括编码的声道和多声道参数以及指示所述用于解码的装置是否须以基于先前解码的音频输出声道所生成的频谱数据填充其内部所有谱线被量化为零的一个或多个频带的谱线的信息,所述先前解码的音频输出声道先前已经被所述用于解码的装置解码。
附图说明
下文中,将参照附图进一步详细描述本发明的实施例,在附图中:
图1a示出了根据一个实施例的用于解码的装置;
图1b示出了根据另一实施例的用于解码的装置;
图2示出了根据本申请的一个实施例的参数频域解码器的框图;
图3示出了示意图,其例示了形成多声道音频信号的声道的频谱图的频谱序列,以便易于理解对图2的解码器的描述;
图4示出了示意图,其例示了图3中示出的频谱图中的当前频谱,以帮助理解图2的描述;
图5a和图5b示出了根据替代实施例的参数频域音频解码器的框图,根据该替代实施例将先前帧的降混用作声道间噪声填充的基础;
图6示出了根据一个实施例参数频域音频编码器的框图;
图7示出了根据一个实施例的用于对具有至少三个声道的多声道信号进行编码的装置的示意性框图;
图8示出了根据一个实施例的用于对具有至少三个声道的多声道信号进行编码的装置的示意性框图;
图9示出了根据一个实施例的立体声框子的示意性框图;
图10示出了根据一个实施例的用于对具有编码的声道和至少两个多声道参数的编码的多声道信号进行解码的装置的示意性框图;
图11示出了根据一个实施例的用于对具有至少三个声道的多声道信号进行编码的方法的流程图;
图12示出了根据一个实施例的用于对具有编码的声道和至少两个多声道参数的编码的多声道信号进行解码的方法的流程图;
图13示出了根据一个实施例的系统;
图14示出了根据一个实施例的在情境(a)中在情境中针对第一帧对组合声道的生成,和在情境(b)中针对第一帧之后的第二帧对组合声道的生成;以及
图15示出了根据实施例的用于多声道参数的检索方案。
在下面的描述中用相同或等效附图标记表示相同或等效元素或具有相同或等效功能的元素。
具体实施方式
在下面的描述中,阐述了许多细节以提供对本发明的实施例更加透彻的解释。然而,对于本领域技术人员显而易见的是,可以在没有这些具体细节的情况下实践本发明的实施例。在其它情况下,公知结构和设备是以框图形式示出而非以细节示出,以免使本发明的实施例难以理解。此外,除非另外特别指出,否则下文描述的不同实施例的特征可以相互组合。
在描述图1a的用于解码的装置201之前,首先,描述用于多声道音频编码的噪声填充。在实施例中,图1a的噪声填充模块220例如可以被配置为进行下面针对用于多声道音频编码的噪声填充描述的技术中的一种或多种。
图2示出了根据本申请的一个实施例的频域音频解码器。解码器一般使用附图标记10指示并且包括比例因子带标识符12、解量化器14、噪声填充器16和逆变换器18以及谱线提取器20和比例因子提取器22。解码器10可以包括的可选的另外元素涵盖复数立体声预测器24、MS(中-侧)解码器26和逆时间噪声成形(TNS)滤波器工具28,其两个实例28a和28b在图2中示出。此外,下面使用附图标记30更详细地示出了降混提供器并且描绘了其轮廓。
图2的频域音频解码器10是支持噪声填充的参数解码器,根据其使用某个零量化比例因子带的比例因子用噪声填充该比例因子带,作为控制被填充在该比例因子带中的噪声的水平的手段。除此之外,图2的解码器10表示被配置为从输入数据流30重构多声道音频信号的多声道音频解码器。然而,图2侧重于对被编码成数据流30的多声道音频信号中的一个进行重构所涉及的解码器10的元素,并在输出端32处输出此(输出)声道。附图标记34指示解码器10可以包括另外的元素或可以包括负责重构多声道音频信号的其它声道的一些管线操作控制,其中下面的描述指示解码器10在输出端32处对感兴趣的声道的重构如何与其它声道的解码交互。
数据流30表示的多声道音频信号可以包括两个或更多个声道。在下文中,对本申请的实施例的描述集中在多声道音频信号只包括两个声道的立体声情况,但是原则上下面提出的实施例可以容易地转移到涉及包括多于两个声道的多声道音频信号及其编码的替代实施例。
根据如下对图2的描述将更加清楚的是,图2的解码器10是变换解码器。换言之,根据解码器10的编码技术,例如使用声道的重叠变换在变换域中对声道进行编码。此外,取决于音频信号的产生装置,存在仅仅因其间的微小或决定性变化而偏离彼此的时间相位(在其期间,音频信号的声道主要表示相同音频内容),该变化例如是不同的振幅和/或相位以便表示如下音频场景,其中声道之间的差异使得音频场景的音频源能够相对于与多声道音频信号的输出声道相关联的虚拟扬声器位置进行虚拟定位。然而,在一些其它时间相位,音频信号的不同声道可能或多或少彼此不相关并且甚至例如可以表示完全不同的音频源。
为了考虑音频信号的声道之间的可能的时变关系,图2的解码器10的音频编解码器允许对不同测量的时变使用以利用声道间冗余。例如,MS编码允许在以下两者之间切换:将立体声音频信号的左和右声道表示为其自身,或者将其表示为分别表示左和右声道的降混及其减半差的一对M(中)和S(侧)声道。换言之,存在连续地(就频谱时间意义而言)由数据流30发送的两个声道的频谱图,但这些(发送的)声道的意义可以分别随时间并且相对于输出声道而改变。
复数立体声预测(另一种声道间冗余利用工具)使得能够在频域中,使用一个声道的频谱上共同定位线来预测另一声道的频域系数或谱线。下面将描述与此有关的更多细节。
为了帮助理解后续对图2以及其中示出的组件的描述,图3针对由数据流30表示的立体声音频信号的示例性情况,示出了如何可以将两个声道的谱线的样本值编码成数据流30以便由图2的解码器10处理的可能的方法。特别地,虽然在图3的上半部分描绘了立体声音频信号的第一声道的频谱图示40,但图3的下半部分例示了立体声音频信号的另一声道的频谱图示42。而且,值得注意的是,频谱图示40和42的“含义”可随着时间的推移而改变,这是因为例如在MS编码域与非MS编码域之间的时变切换。在第一情况下,频谱图示40和42分别关于M和S声道,而在后一情况下,频谱图示40和42关于左和右声道。可以在数据流30中用信号通知MS编码域与非MS编码域之间的切换。
图3示出了可以以时变频谱时间分辨率将频谱图示40和42编码成数据流30。例如,(发送)声道两者可以以时间对齐方式被细分成使用大括号44指示的帧序列,这些帧可以同样长并且彼此邻接但不重叠。如前所述,频谱图示40和42在数据流30中表示的频谱分辨率可随着时间而改变。初始,假设对于频谱图示40和42,频谱时间分辨率随时间相同地改变,但此简化的扩展也可行,根据下面的描述这将变得显而易见。例如以帧44为单位在数据流30中用信号通知频谱时间分辨率的改变。换言之,频谱时间分辨率以帧44为单位改变。通过切换各个帧44内用于描述频谱图示40和42的变换的数量和变换长度来实现频谱图示40和42的频谱时间分辨率的改变。在图3的示例中,帧44a和44b示例性地说明了其中已经使用一个长变换对其中的音频信号的声道进行采样的帧,由此导致最高频谱分辨率,其中每个声道针对每一帧每个谱线一个谱线样本值。在图3中,使用框内的小十字指示谱线的样本值,其中这些框又排列成行和列,且表示频谱时间网格,每一行对应于一条谱线并且每一列对应于帧44的与形成频谱图示40和42所涉及的最短变换相对应的子间隔。特别地,图3例如针对帧44d例示了一帧可交替地经受较短长度的连续变换,由此针对诸如帧44d之类的这种帧,得到若干个时间上随后的降低频谱分辨率的频谱。针对帧44d示例性地使用八个短变换,结果导致在彼此隔开的谱线处在该帧42d内对频谱图示40和42的频谱时间采样,使得只有每隔七条谱线被填入,但是以用于变换帧44d的具有较短长度的八个变换窗口或变换中的每个的样本值填入。出于例示的目的,在图3中示出了用于一帧的其它数量的变换也是可行的,例如使用其变换长度例如是用于帧44a和44b的长变换的变换长度的一半的两个变换,由此得到频谱时间网格或频谱图示40和42的采样,其中每隔一条谱线获得两个谱线样本值,其中一个涉及首变换,另一个涉及尾变换。
使用重叠窗口状线将其中帧被细分的用于变换的变换窗口例示在图3中每个频谱图下方。时间重叠例如用于TDAC(时域混迭抵消)目的。
虽然下面描述的实施例也可以以另一种方式实施,但图3例示了以以下方式来执行针对个体帧44在不同频谱时间分辨率之间的切换的情况:使得对于每一帧44,频谱图示40和频谱图示42得到图3中由小十字指示的相同数量的谱线值,差异仅在于这些线频谱时间采样与相应帧44相对应的相应频谱时间片块(tile)的方式,其在时间上跨据相应帧44的时间,并且在频谱上跨据零频率至最大频率fmax。
使用图3中的箭头,图3针对帧44d例示了通过使一个声道的一帧内属于相同谱线但短变换窗口的谱线样本值,适当地分布于该帧内未被占据的(空的)谱线直到同一帧的下一个被占据的谱线,所有帧44可以获得类似的频谱。这种所得频谱在下文中称作“交织频谱”。在交织一个声道的一帧的n个变换时,例如,在频谱上随后的谱线的n个短变换的n个频谱上共同定位的谱线值的集合跟随其后之前,该n个短变换的n个频谱上共同定位的谱线值彼此跟随。交织的中间形式也可行:替代交织一帧的所有谱线系数,只交织帧44d的短变换的适当子集的谱线系数将可行。总而言之,每当讨论与频谱图示40和42相对应的两个声道的帧的频谱时,这些频谱可以指交织频谱或非交织频谱。
为了经由被发送到解码器10的数据流30有效地对表示频谱图示40和42的谱线系数进行编码,这些谱线系数被量化。为了频谱时间地控制量化噪声,经由在某个频谱时间网格中设置的比例因子来控制量化阶大小。特别地,在每个频谱图的每个频谱序列内,谱线被分组成频谱上连续的非重叠比例因子群组。图4在其上半部分示出了频谱图示40的频谱46,以及频谱图示42的共时频谱48。如图示出,频谱46和48沿频谱轴f被细分成比例因子带,以便将谱线分组成非重叠群组。在图4中用大括号50例示比例因子带。为了简单起见,假设比例因子带之间的边界在频谱46和48之间重合,但并非必须是这种情况。
即,通过以数据流30编码,频谱图示40和42均被细分成频谱的时间序列并且这些频谱中的每个在频谱上被细分成比例因子带,并且针对每个比例因子带,数据流30编码或传递有关与相应比例因子带相对应的比例因子的信息。使用相应比例因子对落入相应比例因子带50内的谱线系数进行量化,或考虑解码器10时,可以使用对应比例因子带的比例因子对其进行解量化。
在回到图2及其描述之前,在下文中假设经特别处理的声道,亦即,其解码涉及图2的解码器的特定元素(34除外)的声道,是频谱图示40的发送声道,如前文所述,该发送声道可以表示左和右声道、M声道或S声道中的一个,其中假设被编码成数据流30的多声道音频信号是立体声音频信号。
虽然谱线提取器20被配置为从数据流30提取谱线数据,亦即,帧44的谱线系数,但比例因子提取器22被配置为针对每一帧44提取对应的比例因子。为此,提取器20和22可使用熵解码。根据一个实施例,比例因子提取器22被配置为使用上下文适应性熵解码从数据流30顺序地提取例如图4中的频谱46的比例因子,亦即比例因子带50的比例因子。顺序解码的顺序可遵循在比例因子带中定义的例如从低频至高频的频谱顺序。比例因子提取器22可使用上下文适应性熵解码并且可取决于在当前提取的比例因子的频谱邻域中已提取的比例因子,诸如取决于紧邻在前比例因子带的比例因子,而确定每个比例因子的上下文。备选地,比例因子提取器22在基于先前已解码比例因子中的任何比例因子(例如,紧邻的先前比例因子)预测当前解码的比例因子的同时,例如,可以使用差分解码从数据流30预测地解码比例因子。值得注意的是,针对属于由零量化谱线排他地填充的或由其中的至少一个被量化至非零值的谱线填充的比例因子带的比例因子,该比例因子提取过程是不可知的。属于只由零量化谱线填充的比例因子带的比例因子可作为以下两者:可以用作对可能属于谱线(其中一个非零)填入的比例因子带的随后已解码比例因子的预测基础,且可以基于可能属于谱线(其中一个非零)填入的比例因子带的先前已解码比例因子进行预测。
仅仅是出于完整性,注意谱线提取器20提取谱线系数,同样例如使用熵编码和/或预测编码用所述谱线系数填入比例因子带50。熵编码可基于当前被解码的谱线系数的频谱时间邻域中的谱线系数使用上下文适应性,同样,预测可以是基于其频谱时间邻域中先前已解码的谱线系数预测当前被解码的谱线系数的频谱预测、时间预测、或频谱时间预测。为了提高编码效率,谱线提取器20可以被配置为以元组执行对谱线或线系数的解码,其沿频率轴收集或分组谱线。
因此,在谱线提取器20的输出端,谱线系数例如以诸如频谱46之类的频谱为单位提供,其收集例如对应帧的所有谱线系数,或备选地收集对应帧的某些短变换的所有谱线系数。在比例因子提取器22的输出端,转而输出相应频谱的对应比例因子。
比例因子带标识符12以及解量化器14具有耦合至谱线提取器20的输出端的谱线输入端,并且解量化器14和噪声填充器16具有耦合至比例因子提取器22的输出端的比例因子输入端。比例因子带标识符12被配置为标识在当前频谱46内的所谓零量化比例因子带,亦即,在其内部所有谱线被量化为零的比例因子带,例如图4中的比例因子带50c,和该频谱的在其内至少一条谱线被量化至非零的其余比例因子带。特别地,在图4中,使用图4中的影线区指示谱线系数。从该图中可见,在频谱46中,所有比例因子带(但比例因子带50b除外)具有至少一个谱线,其谱线系数被量化至非零值。稍后将变得清楚的是,诸如50d之类的零量化比例因子带形成了声道间噪声填充的对象,下文将进一步进行描述。在继续描述之前,注意比例因子带标识符12可将其标识只限于比例因子带50的适当子集,诸如限于高于某个开始频率52的比例因子带。在图4中,这将标识过程限于比例因子带50d、50e和50f。
比例因子带标识符12通知噪声填充器16关于作为零量化比例因子带的这些比例因子带。解量化器14使用与输入频谱46相关联的比例因子,以便根据相关联比例因子,亦即,与比例因子带50相关联的比例因子,解量化、或缩放频谱46的谱线的谱线系数。特别地,解量化器14使用与相应比例因子带相关联的比例因子来解量化和缩放落入相应比例因子带内的谱线系数。图4应解释为示出了谱线的解量化结果。
噪声填充器16获得与零量化比例因子带(其形成下面噪声填充的对象)、解量化频谱以及至少这些被标识为零量化比例因子带的比例因子带的比例因子和从当前帧的数据流30获得的揭示是否要针对当前帧执行声道间噪声填充的信号通知有关的信息。
下面的示例中描述的声道间噪声填充过程实际上涉及两种类型的噪声填充,亦即将已被量化为零的所有谱线(而与其潜在的成员无关)涉及的本底噪声54插入任何零量化比例因子带,以及实际声道间噪声填充过程。虽然在下文中描述了这种组合,但须强调的是,根据替代实施例可以省略本底噪声的插入。此外,涉及关于当前帧的噪声填充启动和关闭并且从数据流30获得的信号通知可只与声道间噪声填充有关,或者可一起控制两种噪声填充类型的组合。
至于本底噪声插入,噪声填充器16可如下操作。特别地,噪声填充器16可采用人工噪声生成,例如伪随机数生成器或一些其它随机源以便填充谱线,其谱线系数为零。可根据用于当前帧或当前频谱46的数据流30内的明确信令设置如此插入在零量化谱线处的本底噪声54的水平。可使用例如均方根(RMS)或能量测量来确定本底噪声54的“水平”。
因此本底噪声插入表示针对已被标识为零量化比例因子带的这些比例因子带(例如,图4中的比例因子带50d)的一种预填充。其还影响超出零量化比例因子带的其它比例因子带,但前者进一步经受以下声道间噪声填充。如下所述,声道间噪声填充过程用于填充零量化比例因子带直到经由相应零量化比例因子带的比例因子控制的水平。前者可以直接用于该目的,这是因为相应零量化比例因子带的所有谱线都被量化为零。尽管如此,数据流30可以针对每一帧或每个频谱46包含参数的附加信号通知,其通常被应用于对应帧或频谱46的所有零量化比例因子带的比例因子,且当通过噪声填充器16被应用于零量化比例因子带的比例因子上时,结果导致针对零量化比例因子带单独的相应填充水平。换言之,噪声填充器16可以针对频谱46的每个零量化比例因子带,利用相同的修改函数,使用用于当前帧的频谱46的在数据流30中包含的前述参数来修改相应比例因子带的比例因子,以便获得就能量或RMS进行测量的相应零量化比例因子带的填充目标水平,例如,声道间噪声填充过程应以(可选地)附加噪声(除了本底噪声54之外)填充相应零量化比例因子带所达到的水平。
具体地,为了执行声道间噪声填充56,噪声填充器16在已经大部分或完全解码的状态下获得另一声道的频谱48的频谱共同定位部分,并将频谱48的所获得部分复制到零量化比例因子带,对于其该部分在频谱上共同定位并以这样的方式缩放,即通过对相应比例因子带的谱线进行积分得出的在该零量化比例因子带内产生的总噪声水平等于从零量化比例因子带的比例因子获得的上述填充目标水平。通过这种措施,与人为产生的噪声(例如,形成噪声本底54的基础的噪声)相比,填充到相应零量化比例因子带中的噪声的音调得到改善,并且也优于从相同频谱46内的极低频率线的非受控频谱拷贝/复制46。
更准确地说,针对诸如50d之类的当前频带,噪声填充器16定位另一声道的频谱48内的频谱共同定位部分,根据零量化比例因子带50d以刚刚描述的可选地涉及包含在数据流30中的当前帧或频谱46的一些附加偏移或噪声因子参数的方式来缩放其谱线,使得其结果填充相应的零量化比例因子带50d直到由零量化比例因子带50d的比例因子定义的所需水平。在本实施例中,这意味着相对于本底噪声54以相加的方式完成填充。
根据简化的实施例,得到的噪声填充频谱46将被直接输入到逆变换器18的输入端,以便针对频谱46的谱线系数所属的每个变换窗口获得相应声道音频时间信号的时域部分,于是重叠相加过程可以组合这些时域部分(图2中未示出)。也就是说,如果频谱46是非交织频谱,其谱线系数仅属于一个变换,则逆变换器18进行该变换,从而产生一个时域部分,并且其前后端将经受重叠相加过程,其中通过对前后逆变换进行逆变换而获得前后时域部分,以实现例如时域混叠消除。然而,如果频谱46已经将其交织到多于一个连续变换的谱线系数中,则逆变换器18将对其进行单独的逆变换,以便每个逆变换获得一个时域部分,并且根据其中定义的时间顺序,这些时域部分将在其间经受重叠相加过程,对于其他频谱或帧的前后时域部分同样如此。
然而,为了完整起见,必须注意,可以对噪声填充的频谱执行进一步处理。如图2所示,逆TNS滤波器可以对噪声填充的频谱执行逆TNS滤波。也就是说,通过当前帧或频谱46的TNS滤波器系数来控制,到目前为止所获得的频谱沿着频谱方向进行线性滤波。
在有或没有逆TNS滤波的情况下,复数立体声预测器24可以将频谱视为声道间预测的预测残差。更具体地,声道间预测器24可以使用另一声道的频谱共同定位部分来预测频谱46或至少其比例因子带50的子集。关于比例因子带50b在图4中用虚线框58示出复数预测过程。也就是说,数据流30可以包含声道间预测参数,其控制例如比例因子带50中的哪个应当通过这种方式进行声道间预测而哪个不应以这种方式进行预测。此外,数据流30中的声道间预测参数还可以包括由声道间预测器24应用的复数声道间预测因子,以便获得声道间预测结果。这些因子可以分别包含在每个比例因子带的数据流30中,或者备选地分别包含在一个或多个比例因子带构成的每个组的数据流30中,其中针对每个组在数据流30中激活或用信号通知在数据流30中激活声道间预测。
如图4所示,声道间预测的源可以是另一声道的频谱48。更确切地说,声道间预测的源可以是频谱48的频谱共同定位部分,其共同定位到比例因子带50b以通过对其虚部的估计来扩展、进行声道间预测。可以基于频谱48本身的频谱共同定位部分60来执行对虚部的估计,和/或可以使用先前帧(即,紧接在频谱46所属的当前解码的帧之前的帧)的已解码的的声道的下混频。实际上,声道间预测器24将如刚刚描述的那样获得的预测信号加到要进行声道间预测的比例因子带,例如图4中的比例因子带50b。
如在前面的描述中已经指出的,频谱46所属的声道可以是MS编码声道,或者可以是与扬声器相关的声道,诸如立体声音频信号的左或右声道。因此,可选地,MS解码器26对可选的声道间预测频谱46进行MS解码,同样地,对每个谱线或频谱46执行与频谱48对应的另一声道的频谱对应谱线的加法或减法。例如,虽然图2中未示出,但是通过解码器10的部分34以类似于上面关于频谱46所属的声道的描述的方式获得了如图4所示的频谱48,并且MS解码模块26在执行MS解码时,使频谱46和48经受逐个谱线加法或逐个谱线减法,其中频谱46和48处于处理过程内的相同阶段,意味着,例如两者都已经通过声道间预测获得,或者两者都刚刚通过噪声填充或逆TNS滤波获得。
注意,可选地,可以以例如比例因子带50为单位可由数据流30单独激活或全局涉及整个频谱46的方式执行MS解码。换言之,MS解码可以使用数据流30中的相应信号,以例如帧或一些更精细的频谱时间分辨率(例如,单独地用于频谱图示40和/或42的频谱46和/或48的比例因子带)来启动或关闭,其中假设定义了两个声道的比例因子带的相同边界。
如图2所示,逆TNS滤波器28的逆TNS滤波也可以在任何声道间处理之后执行,例如声道间预测58或由MS解码器26进行的MS解码。在声道间处理之前或下游的性能可以通过数据流30中每一帧的相应信号通知固定或者控制,或者处于某个其他粒度水平。在执行逆TNS滤波的任何地方,存在于当前频谱46的数据流中的相应TNS滤波器系数控制TNS滤波器,即沿频谱方向运行的线性预测滤波器,以便对输入到相应的逆TNS滤波器模块28a和/或28b的频谱进行线性滤波。
因此,到达逆变换器18的输入端的频谱46可能已经如刚刚所述经受进一步处理。同样,上述描述并不意味着以这样的方式理解,即所有这些可选工具要么同时存在,要么不存在。这些工具可以部分地或共同地存在于解码器10中。
在任何情况下,在逆变换器输入端处产生的频谱表示声道输出信号的最终重构,并形成当前帧的上述下混频的基础,如关于复数预测58所描述的那样,其用作对要解码的下一帧的潜在虚部估计的基础。它还可以用作声道间预测另一声道的最终重构,而非图2中除34之外的元素所涉及的声道。
通过将该最终频谱46与频谱48的相应最终版本组合,由下混频提供器31形成相应下混频。后者,即频谱48的相应最终版本,形成预测器24中的复数声道间预测的基础。
图5a和图5b示出了相对于图2的替代方案,其中用于声道间噪声填充的基础由先前帧的频谱共同定位的谱线的下混频表示,使得在使用复数声道间预测的可选情况下,该复数声道间预测的源被使用两次,作为声道间噪声填充的源以及复数声道间预测中的虚部估计的源。图5a和图5b示出了解码器10,其包括与频谱46所属的第一声道的解码有关的部分70,以及上述另一部分34的内部结构,该另一部分34涉及包括频谱48的另一声道的解码。相同的附图标记一方面用于部分70的内部元素,另一方面用于34。可以看出,结构是一样的。在输出端32处,输出立体声音频信号的一个声道,并且在第二解码器部分34的逆变换器18的输出端处,产生立体声音频信号的另一(输出)声道,其中该输出端用附图标记74指示。同样,上述实施例可以容易地转移到使用两个以上声道的情况。
下混频提供器31由部分70和34共同使用,并且接收频谱图示40和42的时间上共同定位的频谱48和46,以便通过以谱线为基础在谱线上对这些频谱进行求和,可能通过将每个谱线处的和除以下混频的声道数(即,在图5a和图5b的情况下为2个声道)来形成其平均值,来形成基于其的下混频。在下混频提供器31的输出端处,通过该测量得到先前帧的下混频。在这方面注意到,先前前帧在频谱图示40和42中的任一个中包含多于一个频谱的情况下,关于在该情况下下混频提供器31如何操作存在不同可能性。例如,在该情况下,下混频提供器31可以使用当前帧的尾变换的频谱,或者可以使用交织频谱图示40和42的当前帧的所有谱线系数的交织结果。在图5a和图5b被示出为连接到下混频提供器31的输出端的延迟元素74,表明在下混频提供器31的输出端处如此提供的下混频形成先前帧76的下混频(参见图4,分别关于声道间噪声填充56和复预测58)。因此,延迟元素74的输出端一方面连接到解码器部分34和70的声道间预测器24的输入端,另一方面连接到解码器部分70和34的噪声填充器16的输入端。
即,虽然在图2中,噪声填充器16接收同一当前帧的另一个声道最终重构的时间上共同定位的频谱48作为声道间噪声填充的基础,但是在图5a和图5b中,而是基于由下混频提供器31提供的先前帧的下混频来执行声道间噪声填充。执行声道间噪声填充的方式保持不变。也就是说,声道间噪声填充器16从当前帧的另一声道的频谱的相应频谱中(在图2的情况下),并且从表示先前帧的下混频的先前帧中获得的被大部分或完全解码的最终频谱中(在图5a和图5b的情况下),抓取频谱共同定位的部分,并且将相同的“源”部分加到要根据由相应比例因子带的比例因子确定的目标噪声水平缩放的、进行噪声填充的(例如,图4中的50d)比例因子带内的谱线。
结束以上对描述音频解码器中的声道间噪声填充的实施例的讨论,对于本领域技术人员显而易见的是,在将“源”频谱的抓取的频谱或时间上共同定位的部分加到“目标”比例因子带的谱线之前,可以将某些预处理应用于“源”谱线,而不偏离声道间填充的总体构思。特别地,可能有益的是,将滤波操作(例如,频谱平坦化或倾斜去除)应用于要被加到“目标”比例因子带(如图4中的50d)的“源”区域的谱线,以便提高声道间噪声填充过程的音频质量。同样地,并且作为大部分(而不是完全)解码的频谱的示例,上述“源”部分可以从尚未用可用的逆(即,合成)TNS滤波器进行滤波的频谱中获得。
因此,上述实施例涉及声道间噪声填充的构思。在下文中,描述了如何以半后向兼容的方式将上述声道间噪声填充的构思应用于现有编解码器(即,xHE-AAC)的可能性。具体地,在下文中,描述了上述实施例的优选实施方式,根据该实施方式,立体声填充工具以半后向兼容信令方式应用于基于xHE-AAC的音频编解码器。通过使用下面进一步描述的实施方式,对于某些立体声信号,基于MPEG-DxHE-AAC(USAC)的音频编解码器中的两个声道中的任一个中的变换系数的立体声填充是可行的,由此提高尤其在低比特率下的某些音频信号的编码质量。以半后向兼容的方式用信号通知立体声填充工具,使得传统的xHE-AAC解码器可以解析和解码比特流而没有明显的音频错误或丢失。如上所述,如果音频编码器可以使用两个立体声声道的先前解码/量化的系数的组合来重构当前解码的声道中的任何一个的零量化(非发送)系数,则可以获得更好的整体质量。因此,除了频谱带复制(从低频到高频声道系数)和音频编码器(尤其是xHE-AAC或基于其的编码器)中的噪声填充(从不相关的伪随机源)之外,期望允许这种立体声填充(从先前到现在的声道系数)。
为了允许传统xHE-AAC解码器读取和解析具有立体声填充的编码的比特流,应以半后向兼容的方式使用所需的立体声填充工具:其存在不应导致传统解码器停止或者甚至不启动解码。xHE-AAC基础结构对比特流的可读性也可以促进市场采用。
为了在xHE-AAC或其潜在衍生物的情况下实现针对立体声填充工具的半向后兼容性的上述愿望,以下实施方式涉及立体声填充的功能以及在实际上与噪声填充有关的数据流中通过语法用信号通知其的能力。立体声填充工具将按照以上描述工作。在具有共同窗口配置的声道对中,当立体声填充工具被激活时,零量化比例因子带的系数作为噪声填充的替代(或者,如上所述,加上噪声填充),通过两个声道中任何一个声道(优选地,右声道)中先前帧的系数的和或差被重构。与噪声填充类似地执行立体声填充。将通过xHE-AAC的噪声填充信令完成信令。通过8位噪声填充辅助信息传送立体声填充。这是可行的,这是因为MPEG-D USAC标准[3]规定即使要应用的噪声水平为零,也要发送所有的8比特。在这种情况下,一些噪声填充比特可以重复用于立体声填充工具。
关于传统xHE-AAC解码器进行的比特流解析和回放的半后向兼容性确保如下。通过包含立体声填充工具的辅助信息以及丢失的噪声水平的在五个非零比特(传统上表示噪声偏移)之后的零噪声水平(即,全都具有零值的前三个噪声填充比特)用信号通知立体声填充。由于传统的xHE-AAC解码器在3比特噪声水平为零的情况下忽略5比特噪声偏移的值,因此立体声填充工具信令的存在仅影响传统解码器中的噪声填充:噪声填充由于前三比特为零而被关闭,并且解码操作的其余部分按预期运行。特别地,不执行立体声填充,这是因为它类似于停用的噪声填充过程而操作。因此,传统解码器仍然提供对增强的比特流30的“优雅”解码,这是因为它不需要使输出信号静音或甚至在到达启动立体声填充的帧时中止解码。然而,自然地,与通过能够适当地处理新的立体声填充工具的适当解码器的解码相比,无法提供对经立体声填充的线系数的正确的预期的重构,导致受影响的帧的质量恶化。尽管如此,假设立体声填充工具按预期使用,即仅用于低比特率的立体声输入,通过xHE-AAC解码器的质量应该好于受影响的帧由于静音而丢失或导致其他明显的回放错误的情况。
在下文中,将详细描述如何将立体声填充工具构建到xHE-AAC编解码器中作为扩展。
当构建到标准中时,立体声填充工具可以描述如下。具体地,这种立体声填充(SF)工具将表示MPEG-H 3D音频的频域(FD)部分中的新工具。根据上述讨论,这种立体声填充工具的目的是以低比特率进行MDCT谱系数的参数重构,类似于根据[3]中描述的标准的第7.2节已经可以通过噪声填充实现的。然而,与采用伪随机噪声源来生成任何FD声道的MDCT频谱值的噪声填充不同,SF也可用于使用先前帧的左和右MDCT频谱的下混频来重构经联合编码的立体声声道对的右声道的MDCT值。根据下面阐述的实施方式,通过可以由传统MPEG-DUSAC解码器正确地解析的噪声填充辅助信息来半向后兼容地用信号通知SF。
工具描述可以如下。当SF在联合立体声FD帧中是激活的时,右(第二)声道(例如,50d)的空(即,完全零量化)比例因子带的MDCT系数被先前帧的相应解码的的左和右声道的MDCT系数和或差替换(如果是FD)。如果传统噪声填充对于第二声道是激活的,则伪随机值也被加到每个系数。然后缩放每个比例因子带的所得系数,使得每个频带的RMS(平均系数平方的根)与通过该频带的比例因子发送的值匹配。参见[3]中的标准的第7.3节。
可以为MPEG-D USAC标准中的新SF工具的使用提供一些操作约束。例如,SF工具可以仅可用于公共FD声道对的右FD声道中,即,用common_window==1发送StereoCoreToolInfo()的声道对元素。此外,由于半后向兼容信令,SF工具可以仅在语法容器UsacCoreConfig()中的noiseFilling==1时使用。如果该对中的任一声道处于LPDcore_mode,则即使右声道处于FD模式,也不可以使用SF工具。
下文使用以下术语和定义,以便更清楚地描述[3]中描述的标准的扩展。
具体地,就数据元素而言,新引入了以下数据元素:
stereo_filling 二进制标志,指示在当前帧和声道中是否使用SF
此外,还引入了新的帮助元素:
noise_offset 噪声填充偏移,用于修改零量化频带的比例因子(第7.2节)
noise_level 噪声填充水平,表示加上的频谱噪声的幅度(第7.2节)
downmix_prev[] 先前帧的左和右声道的下混频(即,和或差)
sf_index[g][sfb] 窗口组g和频宽sfb的比例因子索引(即,发送的整数)
将以下列方式扩展标准的解码过程。具体地,在激活SF工具的情况下对经联合立体声编码的FD声道的解码按照以下三个连续步骤执行:
首先,将进行stereo_filling标志的解码。
stereo_filling不表示独立的比特流元素,而是从UsacChannelPairElement()中的噪声填充元素noise_offset和noise_level以及StereoCoreToolInfo()中的common_window标志导出的。如果noiseFilling==0或common_window==0或当前声道是元素中的左(第一)声道,则stereo_filling为0,立体声填充过程结束。否则,
if((noiseFilling!=0)&&(common_window!=0)&&(noise_level==0)){
stereo_filling=(noise_offset&16)/16;
noise_level=(noise_offset&14)/2;
noise_offset=(noise_offset&1)*16;
}
else{
stereo_filling=0;
}
换言之,如果noise_level==0,则noise_offset包含stereo_filling标志,其后是4比特噪声填充数据,其然后将重新排列。由于此操作改变了noise_level和noise_offset的值,因此需要在第7.2节的噪声填充过程之前执行。此外,上述伪代码不在UsacChannelPairElement()或任何其他元素的左(第一)声道中执行。
然后,将进行downmix_prev的计算。
downmix_prev[],将用于立体声填充的频谱下混频,与用于复数立体声预测中的MDST频谱估计的dmx_re_prev[]相同(参见第7.7.2.3节)。这意味着
·如果以其执行下混频的元素和帧(即,当前解码的帧之前的帧)的任何声道使用core_mode==1(LPD)或声道使用不相等的变换长度(split_transform==1或仅在一个声道中区块切换到window_sequence==EIGHT_SHORT_SEQUENCE)或usacIndependencyFlag==1,则downmix_prev[]的所有系数必须为零。
·如果在当前元素中声道的变换长度从最后一帧变为当前帧(即,split_transform==1之前是split_transform==0,或者window_sequence==EIGHT_SHORT_SEQUENCE之前是window_sequence!=EIGHT_SHORT_SEQUENCE,反之亦然),则在立体声填充过程中所有downmix_prev[]的系数必须为零。
·如果先前前帧或当前帧的声道中应用变换分割,则downmix_prev[]表示逐行交织的频谱下混频。详细信息,请参见变换分割工具。
·如果当前帧和元素中未使用复数立体声预测,则pred_dir等于0。
因此,先前下混频只需要针对两个工具计算一次,从而降低了复杂性。第7.7.2节中的downmix_prev[]和dmx_re_prev[]之间的唯一区别是在当前未使用复数立体声预测时,或者在它是激活的但use_prev_frame==0时的表现。在这种情况下,根据第7.7.2.3节计算downmix_prev[]用于立体声填充解码,即使复数立体声预测解码不需要dmx_re_prev[]而因此其未定义/为零。
此后,将执行空比例因子带的立体声填充。
如果stereo_filling==1,则在噪声填充过程之后在max_sf_ste之下的所有初始空比例因子带sfb[](即,其中所有MDCT谱线都被量化为零的所有频带)中执行以下过程。首先,通过谱线平方和来计算给定sfb[]的能量和downmix_prev[]中的对应谱线。于是,给定sfbWidth包含每个sfb[]的谱线数量,
if(energy[sfb]<sfbwidth[sfb]){/*noise level isn’t maximum,or bandstarts below
noise-fill region*/
facDmx=sqrt((sfbwidth[sfb]-energy[sfb])/energy_dmx[sfb]);
factor=0.0;
/*if the previous downmix isn′t empty,add the scaled downmix linessuch that band reaches unity
energy*/
for(index=swb_offset[sfb];index<swb_offset[sfb+1];index++){
spectrum[window][index]+=downmix_prev[window][index]*facDmx;
factor+=spectrum[window][index]*spectrum[window][index];
}
if((factor!=sfbwidth[sfb])&&(factor>0)){/*unity energyisn′treached,so
modify band*/
factor=sqrt(sfbwidth[sfb]/(factor+le-8));
for(index=swb-offset[sfb];index<swb-offset[sfb+1];index++){
spectrum[window][index]*=factor;
}
}
}
对于每组窗口的频谱。然后将比例因子应用于所得的频谱,如第7.3节所述,其中空频带的比例因子像常规比例因子一样处理。
xHE-AAC标准的上述扩展的替代方案将使用隐式半后向兼容信令方法。
xHE-AAC代码框架中的上述实施方式描述了一种方法,该方法使用比特流中的一个比特根据图2用信号通知解码器对stereo_filling中包含的新立体声填充工具的使用。更准确地说,这种信令(让我们称之为显式半后向兼容信令)允许以下传统比特流数据(在此是噪声填充辅助信息)独立于SF信号通知而使用:在本实施例中,噪声填充数据不依赖于立体声填充信息,反之亦然。例如,可以发送由全零(noise_level=noise_offset=0)组成的噪声填充数据,而stereo_filling可以用信号通知任何可能的值(是二进制标志,0或1)。
在传统比特流数据与本发明的比特流数据之间不需要严格独立并且本发明的信号是二元决策的情况下,可以避免信令比特的显式发送,并且可以通过存在或不存在可以被称为隐式半后向兼容信令的内容来用信号通知所述二元决策。再次以上述实施例为例,可以通过简单地采用新信令来发送对立体声填充的使用:如果noise_level为零,并且同时noise_offset不为零,则stereo_filling标志被设置为等于1。noise_level和noise_offset都不为零,stereo_filling等于0。当noise_level和noise_offset都为零时,发生该隐式信号对传统噪声填充信号的依赖。在这种情况下,不清楚使用了传统的还是新的SF隐式信令。为了避免这种歧义,必须事先定义stereo_filling的值。在本示例中,如果噪声填充数据由全零组成,则定义stereo_filling=0是合适的,这是因为当未在帧中应用噪声填充时,这是没有立体声填充能力的传统编码器用信号通知的内容。
在隐式半后向兼容信令的情况下仍待解决的问题是如何同时用信号通知stereo_filling==1并且没有噪声填充。如上所述,噪声填充数据不能全为零,并且如果要求零噪声幅度,则nosie_level((noise_offset&14)/2,如上所述)必须等于0。这样只剩下noise_offset((noise_offset&1)*16,如上所述)大于0作为解决方案。然而,即使noise_level为零,当应用比例因子时在立体声填充的情况下也会考虑noise_offset。幸运的是,编码器可以通过改变受影响的比例因子,使得在比特流写入时,它们以noise_offset包含解码器中撤消的偏移,来补偿可能无法发送为零的noise_offset的事实。这允许上述实施例中的所述隐式信令以比例因子数据速率的潜在增加为代价。因此,可以如下改变上述描述的伪代码中的立体声填充的信令,使用保存的SF信令比特来发送2比特(4个值)而不是1比特的noise_offset:
if((noiseFilling)&&(common_window)&&(noise_level==0)&&
(noise_offset>0)){
stereo-filling=1;
noise_level=(noise-offset&28)/4;
noise-offset=(noise-offset&3)*8;
}
else{
stereo-filliing=0;
}
为了完整起见,图6示出了根据本申请的实施例的参数音频编码器。首先,通常使用附图标记90表示的图6的编码器包括变换器92,用于执行在图2的输出端32处重构的音频信号的原始非失真版本的变换。如关于图3所述的,可以使用重叠变换,其中以帧为单位在不同变换长度以及对应的变换窗口之间的切换。不同变换长度和对应变换窗口在图3中使用附图标记104示出。以类似于图2的方式,图6侧重于编码器90中负责编码多声道音频信号的一个声道的部分,而解码器90的另一声道域部分通常使用图6中的附图标记96表示。
在变换器92的输出端,谱线和比例因子是未量化的,并且基本上没有发生编码损失。由变换器92输出的频谱图进入量化器98,该量化器98被配置为逐个频谱地对变换器92输出的频谱图的谱线进行量化、设置和使用比例因子带的初始比例因子。也就是说,在量化器98的输出端处,得到初始比例因子和对应的谱线系数,并且一系列的噪声填充器16′、可选的逆TNS滤波器28a′、声道间预测器24′、MS解码器26′和逆TNS滤波器28b′被顺序地连接,以便为图6的编码器90提供在下混频提供器的输入端处获得如在解码器侧可获得的当前频谱的经重构最终版本的能力(参见图2)。在使用声道间预测24′和/或在使用先前帧的下混频形成声道间噪声的版本中使用声道间噪声填充的情况下,编码器90还包括下混频提供器31′以便形成多声道音频信号的声道的频谱的经重构的最终版本的下混频。当然,为了节省计算,代替最终版本,下混频提供器31′可以将声道的所述频谱的原始的未量化的版本用于形成下混频。
编码器90可以使用与频谱的可用的重构的最终版本有关的信息,以便执行帧间频谱预测,例如使用虚部估计执行声道间预测的上述可能版本,和/或以便执行速率控制,即以便在速率控制环路中确定在速率/失真最佳意义上设置由编码器90最终编码成数据流30的可能参数。
例如,对于由标识符12'标识的每个零量化比例因子带,在编码器90的这种预测环路和/或速率控制环路中设置的一个这样的参数是相应比例因子带的比例因子,其仅仅由量化器98初始设置。在编码器90的预测和/或速率控制环路中,在一些心理声学或速率/失真最佳意义上设置零量化比例因子带的比例因子,以便确定上述目标噪声水平以及如上所述也由对应帧的数据流向解码器侧传送的可选修改参数。应当注意,可以仅使用其所属的频谱和声道(即,如前所述的“目标”频谱)来计算该比例因子,或者备选地,可以使用“目标”声道频谱的谱线以及此外从下混频提供器31'获得的来自先前帧的下混频谱(即,如前所述的“源”频谱)或另一声道频谱的谱线两者的谱线来确定该比例因子。特别地,为了稳定目标噪声水平并减少应用了声道间噪声填充的解码的音频声道中的时间水平波动,可以使用“目标”比例因子带中的谱线的能量测量与对应“源”区域中共同定位的谱线的能量测量之间的关系来计算目标比例因子。最后,如上所述,该“源”区域可以源自另一声道的经重构的最终版本或先前帧的下混频,或者如果要降低编码器复杂度,则可以源自该另一声道的初始的未量化的版本或先前帧的频谱的初始的未量化的版本的下混频。
在下文中,解释了根据实施例的多声道编码和多声道解码。在实施例中,用于图1a的解码的装置201的多声道处理器204可以例如被配置为进行以下关于噪声多声道解码所描述的技术中的一种或多种技术。
然而,首先,在描述多声道解码之前,参考图7至图9解释根据实施例的多声道编码,然后参考图10和图12解释多声道解码。
现在,参考图7至图9和图11解释根据实施例的多声道编码:
图7示出了用于对具有至少三个声道CH1至CH3的多声道信号101进行编码的装置(编码器)100的示意性框图。
装置100包括迭代处理器102、声道编码器104和输出接口106。
迭代处理器102被配置为在第一迭代步骤中计算至少三个声道CH1至CH3中的每对声道之间的声道间相关值,以在第一迭代步骤中选择具有最高值或具有高于阈值的值的声道对,并且使用多声道处理操作处理所选择的声道对,以导出所选声道对的多声道参数MCH_PAR1并导出第一处理的声道P1和P2。在下文中,这种处理的声道P1和这种处理的声道P2也可以分别被称为组合声道P1和组合声道P2。此外,迭代处理器102被配置为使用处理的声道P1或P2中的至少一个在第二迭代步骤中执行计算、选择和处理,以导出多声道参数MCH_PAR2和第二处理的声道P3和P4。
例如,如图7所示,迭代处理器102可以在第一迭代步骤中计算:至少三个声道CH1至CH3中的第一对之间的声道间相关值,第一对由第一声道CH1和第二声道CH2组成;至少三个声道CH1至CH3中的第二对之间的声道间相关值,第二对由第二声道CH2和第三声道CH3组成;以及至少三个声道CH1至CH3中的第三对之间的声道间相关值,第三对由第一声道CH1和第三声道CH3组成。
在图7中,假设在第一迭代步骤中,由第一声道CH1和第三声道CH3组成的第三对包括最高声道间相关值,使得迭代处理器102在第一迭代步骤中选择具有最高声道间相关值的第三对对并使用多声道处理操作处理所选择的声道对(即,第三对),以导出所选声道对的多声道参数MCH_PAR1并导出第一处理的声道P1和P2。
此外,迭代处理器102可以被配置为在第二迭代步骤中计算至少三个声道CH1至CH3和处理的声道P1和P2的每对之间的声道间相关值,以在第二迭代步骤中选择具有最高声道间相关值或具有高于阈值的值的声道对。由此,迭代处理器102可以被配置为在第二迭代步骤(或在任何另外的迭代步骤)中不选择第一迭代步骤的所选声道对。
参考图7中所示的示例,迭代处理器102还可以计算由第一声道CH1和第一处理的声道P1组成的第四声道对之间的声道间相关值,由第一声道CH1和第二处理的声道P2组成的第五声道对之间的声道间相关值,由第二声道CH2和第一处理的声道P1组成的第六声道对之间的声道间相关值,由第二声道CH2和第二处理的声道P2组成的第七声道对之间的声道间相关值,由第三声道CH3和第一处理的声道P1组成的第八声道对之间的声道间相关值,由第三声道CH3和第二处理的声道P2组成的第九声道对之间的声道间相关值,以及由第一处理的声道P1和第二处理的声道P2组成的第十声道对之间的声道间相关值。
在图7中,假设在第二迭代步骤中,由第二声道CH2和第一处理的声道P1组成的第六声道对包括最高声道间相关值,使得迭代处理器102在第二迭代步骤中选择第六声道对并使用多声道处理操作来处理所选声道对(即,第六对),以导出所选声道对的多声道参数MCH_PAR2并导出第二处理的声道P3和P4。
迭代处理器102可以被配置为仅在声道对的水平差小于阈值时选择该声道对,该阈值小于40dB、25dB、12dB或小于6dB。因此,25dB或40dB的阈值对应于3或0.5度的旋转角度。
迭代处理器102可以被配置为计算标准化的整数相关值,其中迭代处理器102可以被配置为当整数相关值大于例如0.2或优选地0.3时选择声道对。
此外,迭代处理器102可以向声道编码器104提供通过多声道处理所得的声道。例如,参考图7,迭代处理器102可以向声道编码器104提供通过在第二迭代步骤中执行的多声道处理所得的第三处理的声道P3和第四处理的声道P4,以及通过在第一迭代步骤中执行的多声道处理所得的第二处理的声道P2。因此,迭代处理器102可以仅向声道编码器104提供在随后的迭代步骤中未(进一步)处理的那些处理的声道。如图7所示,未向声道编码器104提供第一处理的声道P1,这是因为它在第二迭代步骤中被进一步处理。
声道编码器104可以被配置为对通过迭代处理器102执行的迭代处理(或多声道处理)所得的声道P2至P4进行编码,以获得编码的声道E1至E3。
例如,声道编码器104可以被配置为使用单声道编码器(或单声道框或单声道工具)120_1至120_3对通过迭代处理(或多声道处理)所得的声道P2至P4进行编码。单声道框可以被配置为对声道进行编码,使得与对具有较多能量(或较高幅度)的声道进行编码相比,对具有较少能量(或较小幅度)的声道进行编码所需的比特较少。单声道框120_1至120_3可以是例如基于变换的音频编码器。此外,声道编码器104可以被配置为使用立体声编码器(例如,参数化立体声编码器或有损立体声编码器)对通过迭代处理(或多声道处理)所得的声道P2到P4进行编码。
输出接口106可以被配置为生成具有编码的声道E1至E3和多声道参数MCH_PAR1和MCH_PAR2的编码的多声道信号107。
例如,输出接口106可以被配置为生成编码的多声道信号107作为串行信号或串行比特流,并且使得多声道参数MCH_PAR2在编码的信号107中位于多声道参数MCH_PAR1之前。因此,解码器(其实施例将在后面参考图10描述)将在多声道参数MCH-PAR1之前接收多声道参数MCH_PAR2。
在图7中,迭代处理器102示例性地执行两个多声道处理操作,第一迭代步骤中的多声道处理操作和第二迭代步骤中的多声道处理操作。当然,迭代处理器102还可以在随后的迭代步骤中执行另外的多声道处理操作。由此,迭代处理器102可以被配置为执行迭代步骤,直到达到迭代终止标准为止。迭代终止标准可以是最大迭代步数等于多声道信号101的声道总数或者比多声道信号101的声道总数大2,或者其中迭代终止标准是当声道间相关值不具有大于阈值的值时,该阈值优选地大于0.2或该阈值优选地为0.3。在另外的实施例中,迭代终止标准可以是最大迭代步数等于或高于多声道信号101的声道总数,或者其中迭代终止标准是当声道间相关值不具有大于阈值的值时,该阈值优选地大于0.2或该阈值优选地为0.3。
出于说明目的,迭代处理器102在第一迭代步骤和第二迭代步骤中执行的多声道处理操作在图7中由处理框110和112示例性地示出。处理框110和112可以用硬件或软件实现。例如,处理框110和112可以是立体声框。
由此,可以通过分层地应用已知的联合立体声编码工具来利用声道间信号相依性。与先前的MPEG方法相反,要处理的信号对不是由固定信号路径(例如,立体声编码树)预先确定的,而是可以动态地改变以适应输入信号特性。实际立体声框的输入可以是(1)未处理的声道,例如声道CH1至CH3,(2)前一立体声框的输出,例如处理的信号P1至P4,或(3)未处理的声道和前一立体声框的输出的组合声道。
立体声框110和112内部的处理可以是基于预测的(如USAC中的复数预测框)或基于KLT/PCA(输入声道在编码器中旋转(例如,通过2×2旋转矩阵)以最大化能量压缩,即,将信号能量集中到一个声道中,在解码器中,经旋转信号将被重新变换为原始输入信号方向)。
在编码器100的可能实施方式中,(1)编码器计算每个声道对之间的声道间相关性,并从输入信号中选择一个合适的信号对,并将立体工具应用于所选声道;(2)编码器重新计算所有声道(未处理的声道以及处理的的中间输出声道)之间的声道间相关性,并从输入信号中选择一个合适的信号对,并将立体工具应用于所选声道;(3)编码器重复步骤(2)直到所有声道间相关性低于阈值或者如果应用了最大数量的变换。
如已经提及的,要由编码器100,或者更确切地说是迭代处理器102,处理的信号对不是由固定信号路径(例如,立体声编码树)预先确定的,而是可以动态地改变以适应输入信号特性。由此,编码器100(或迭代处理器102)可以被配置为根据多声道(输入)信号101的至少三个声道CH1至CH3来构造立体声树。换言之,编码器100(或迭代处理器102)可以被配置为基于声道间相关性来构建立体声树(例如,通过在第一迭代步骤中计算至少三个声道CH1至CH3中的每对之间的声道间相关值,以在第一迭代步骤中,选择具有最高值或高于阈值的值的声道对,并且通过在第二迭代步骤中计算至少三个声道中的每对和先前处理的声道之间的声道间相关值,以在第二迭代步骤中选择具有最高值或高于阈值的值的声道对)。根据一步方法,可以针对可能的每次迭代计算相关矩阵,其包含先前迭代中的所有可能处理的声道的相关。
如上所述,迭代处理器102可以被配置为在第一迭代步骤中导出用于所选声道对的多声道参数MCH_PAR1,并且在第二迭代步骤中导出用于所选声道对的多声道参数MCH_PAR2。多声道参数MCH_PAR1可以包括标识(或信令)在第一迭代步骤中选择的声道对的第一声道对标识(或索引),其中多声道参数MCH_PAR2可以包括标识(或者信令)在第二迭代步骤中选择的声道对的第二声道对标识(或索引)。
在下文中,描述了输入信号的有效索引。例如,可以依据声道的总数使用每个声道对的唯一索引来有效地信令声道对。例如,六个声道的声道对的索引可以如下表所示:
例如,在上表中,索引5可以用信号通知由第一声道和第二声道组成的声道对。类似地,索引6可以用信号通知由第一声道和第三声道组成的声道(。
n个声道的可能的声道对索引的总数可以计算为:
numPairs=numChannels*(numChannels-1)/2
因此,用信号通知一个声道对所需的比特数量为:
numBits=floor(log2(numPairs-1))+1
此外,编码器100可以使用声道掩码。多声道工具的配置可以包含指示对于哪个声道该工具处于激活状态的声道掩码。因此,可以从声道对索引中去除LFE(LFE=低频效果/增强声道),从而允许更高效的编码。例如,对于11.1设置,这将声道对索引的数量从12*11/2=66减少到11*10/2=55,允许以6比特而不是7比特用信号通知。该机制还可用于排除旨在为单声道对象的声道(例如,多语言音轨)。在声道掩码(channelMask)的解码时,可以生成声道映射(channelMap)以允许将声道对索引重新映射到解码器声道。
此外,迭代处理器102可以被配置为针对第一帧导出多个所选声道对指示,其中输出接口106可以被配置为针对第一帧之后的第二帧在多声道信号107中包括保持指示符,指示第二帧具有与第一帧相同的多个所选声道对指示。
保持指示符或保持树标志可用于用信号通知未发送新树,但应使用最后一个立体声树。如果声道相关属性保持固定不变较长时间,则这可以用于避免相同立体声树配置的多次发送。
图8示出了立体声框110、112的示意性框图。立体声框110、112包括用于第一输入信号I1和第二输入信号I2的输入端,以及用于第一输出信号O1和第二输出信号O2的输出端。如图8所示,输出信号O1和O2与输入信号I1和I2的相关性可以用s参数S1至S4描述。
迭代处理器102可以使用(或包括)立体声框110、112,以便对输入声道和/或处理的声道执行多声道处理操作,以便导出经(进一步)处理的声道。例如,迭代处理器102可以被配置为使用基于通用预测的或基于KLT(Karhunen-Loève变换)的旋转立体声框110、112。
通用编码器(或编码器侧立体声框)可以被配置为基于以下等式对输入信号I1和I2进行编码以获得输出信号O1和O2:
声道屏蔽(channelMask)的解码上,可生成声道对映(channelMap)
通用解码器(或解码器侧立体声框)可以被配置为对输入信号I1和I2进行解码,以基于以下等式获得输出信号O1和O2:
基于预测的编码器(或编码器侧立体声框)可以被配置为对输入信号I1和I2进行编码以基于以下等式获得输出信号O1和O2:
其中p是预测系数。
基于预测的解码器(或解码器侧立体声框)可以被配置为对输入信号I1和I2进行解码以基于以下等式获得输出信号O1和O2:
基于KLT的旋转编码器(或编码器侧立体声框)可以被配置为对输入信号I1和I2进行解码以基于以下等式获得输出信号O1和O2:
基于KLT的旋转解码器(或解码器侧立体声框)可以被配置为对输入信号I1和I2进行解码,以基于以下等式(逆旋转)获得输出信号O1和O2:
在下文中,描述了基于KLT的旋转的旋转角度α的计算。
基于KLT的旋转的旋转角度α可以定义为:
xy是非标准化的相关矩阵的条目,其中,c11、c22是声道能量。
这可以使用atan2函数来实现,以便允许区分分子中的负相关和分母中的负能量差:
alpha=0.5*atan2(2*correlation[ch1][ch2],
(correlation[ch1][ch1]-correlation[ch2][ch2]));
此外,迭代处理器102可以被配置为使用包括多个频带的每个声道的帧来计算声道间相关,从而获得多个频带的单个声道间相关值,其中迭代处理器102可以被配置为对多个频带中的每个频带执行多声道处理,使得从多个频带中的每个频带获得多声道参数。
由此,迭代处理器102可以被配置为在多声道处理中计算立体声参数,其中迭代处理器102可以被配置为仅在频带中执行立体声处理,其中立体声参数高于由立体声量化器(例如,基于KLT的旋转编码器)定义的量化为零的阈值。立体声参数可以是例如MS开/关或旋转角度或预测系数)。
例如,迭代处理器102可以被配置为在多声道处理中计算旋转角度,其中迭代处理器102可以被配置为仅在频带中执行旋转处理,在所述频带中旋转角度高于由旋转角度量化器(例如,基于KLT的旋转编码器)定义的量化为零的阈值。
因此,编码器100(或输出接口106)可以被配置为发送变换/旋转信息作为完整频谱的一个参数(全频带框)或者作为频谱的一部分的多个频率相关参数。
编码器100可以被配置为基于以下表格生成比特流107:
表1-mpegh3daExtElementConfig()的语法
表2-MCCConfig()的语法
表3-MultichannelCodingBoxBandWise()的语法
表4-MultichannelCodingBoxFullband()的语法
表5-MultichannelCodingFrame()的语法
表6-usacExtElementType的值
表7-对用于扩展负载解码的数据块的解释
图9示出了根据实施例的迭代处理器102的示意性框图。在图9所示的实施例中,多声道信号101是具有六个声道的5.1声道信号:左声道L,右声道R,左环绕声道Ls,右环绕声道Rs,中心声道C和低频效应声道LFE。
如图9所示,迭代处理器102不处理LFE声道。这可能是这种情况,因为LFE声道与其他五个声道L、R、Ls、Rs和C中的每个声道之间的声道间相关值太小,或者因为声道掩码指示不处理LFE声道,这将在下面假设。
在第一迭代步骤中,迭代处理器102计算五个声道L、R、Ls、Rs和C中的每对之间的声道间相关值,以在第一迭代步骤中选择具有最高值或者具有高于阈值的值的声道对。在图9中,假设左声道L和右声道R具有最高值,使得迭代处理器102使用执行多声道操作处理操作的立体声框(或立体声工具)110处理左声道L和右声道R,以导出第一处理的声道P1和第二处理的声道P2。
在第二迭代步骤中,迭代处理器102计算五个声道L、R、Ls、Rs和C和处理的声道P1和P2中的每对之间的声道间相关值,以在第二迭代步骤中选择具有最高值或具有高于阈值的值的声道对。在图9中,假设左环绕声道Ls和右环绕声道Rs具有最高值,使得迭代处理器102使用立体声框(或立体声工具)112处理左环绕声道Ls和右环绕声道Rs,以导出第三处理的声道P3和第四处理的声道P4。
在第三迭代步骤中,迭代处理器102计算五个声道L、R、Ls、Rs和C和处理的声道P1至P4中的每对之间的声道间相关值,以在第三迭代步骤中选择具有最高值或具有高于阈值的值的声道对。在图9中,假设第一处理的声道P1和第三处理的声道P3具有最高值,使得迭代处理器102使用立体声框(或立体声工具)114处理第一处理的声道P1和第三处理的声道P3,以导出第五处理的声道P5和第六处理的声道P6。
在第四迭代步骤中,迭代处理器102计算五个声道L、R、Ls、Rs和C和处理的声道P1至P6中的每对之间的声道间相关值,以在第四迭代步骤中选择具有最高值或具有高于阈值的值的声道对。在图9中,假设第五处理的声道P5和中心声道C具有最高值,使得迭代处理器102使用立体声框(或立体工具)115处理第五处理的声道P5和中心声道C,以导出第七处理的声道P7和第八处理的声道P8。
立体声框110至116可以是MS立体声框,即被配置为提供中间声道和侧声道的中/侧立体声框。中间声道可以是立体声框的输入声道的总和,其中侧声道可以是立体声框的输入声道之间的差。此外,立体声框110和116可以是旋转框或立体声预测框。
在图9中,第一处理的声道P1、第三处理的声道P3和第五处理的声道P5可以是中间声道,其中第二处理的声道P2、第四处理的声道P4和第六处理的声道P6可以是侧声道。
此外,如图9所示,迭代处理器102可以被配置为使用输入声道L、R、Ls、Rs和C以及处理的声道中的(仅)中间声道P1、P3和P5在第二迭代步骤,并且如果适用的话,在任何另外的迭代步骤中执行计算、选择和处理。换言之,迭代处理器102可以被配置为在第二迭代步骤中,并且如果适用的话,在任何另外的迭代步骤中的计算、选择和处理中不使用处理的声道中的侧声道P1、P3和P5。
图11示出了用于对具有至少三个声道的多声道信号进行编码的方法300的流程图。方法300包括:步骤302,在第一迭代步骤中计算至少三个声道中的每对之间的声道间相关值,在第一迭代步骤中选择具有最高值或具有高于阈值的值的声道对,并使用多声道处理操作来处理所选声道对,以导出所选声道对的多声道参数MCH_PAR1并导出第一处理的声道;步骤304,使用至少一个处理的声道,在第二次迭代步骤中执行计算、选择和处理,以导出多声道参数MCH_PAR2和第二处理的声道;步骤306,对通过迭代处理器所执行的迭代处理所得的声道进行编码,以获得编码的声道;以及步骤308,生成具有编码的声道和第一和多声道参数MCH_PAR2的编码的多声道信号。
在下文中,解释了多声道解码。
图10示出了用于对具有编码的声道E1至E3和至少两个多声道参数MCH_PAR1和MCH_PAR2的编码的多声道信号107进行解码的__装置(解码器)200的示意性框图。
装置200包括声道解码器202和多声道处理器204。
声道解码器202被配置为对编码的声道E1至E3进行解码以获得解码的声道D1至D3。
例如,声道解码器202可以包括至少三个单声道解码器(或单声道框或单声道工具)206_1至206_3,其中单声道解码器206_1至206_3中的每个可以被配置为对至少三个编码的声道E1至E3中的一个进行解码,以获得相应的解码的声道E1到E3。单声道解码器206_1至206_3可以是例如基于变换的音频解码器。
多声道处理器204被配置用于使用由多声道参数MCH_PAR2标识的第二对解码的声道并使用多声道参数MCH_PAR2来执行多声道处理以获得处理的声道,并且被配置用于使用多声道参数MCH_PAR1标识的第一声道对并使用多声道参数MCH_PAR1执行进一步的多声道处理,其中第一声道对包括至少一个处理的声道。
如图10中以举例的方式所示,多声道参数MCH_PAR2可以指示(或用信号通知)第二解码的声道对由第一解码的声道D1和第二解码的声道D2组成。因此,多声道处理器204使用由第一解码的声道D1和第二解码的声道D2组成的第二解码的声道对(用多声道参数MCH_PAR2标识)并且使用多声道参数MCH_PAR2执行多声道处理,以获得处理的声道P1*和P2*。多声道参数MCH_PAR1可以指示由第一处理的声道P1*和第三解码的声道D3组成的第一解码的声道对。因此,多声道处理器204使用由第一处理的声道P1*和第三解码的声道D3组成的第一解码的声道对(用多声道参数MCH_PAR1标识)并且使用多声道参数MCH_PAR1执行进一步的多声道处理,以获得处理的声道P3*和P4*。
此外,多声道处理器204可以提供第三处理的声道P3*作为第一声道CH1,提供第四处理的声道P4*作为第三声道CH3,提供第二处理的声道P2*作为第二声道CH2。
假设图10中所示的解码器200从图7中所示的编码器100接收到编码的多声道信号107,则解码器200的第一解码的声道D1可以等同于编码器100的第三处理的声道P3,其中解码器200的第二解码的声道D2可以等同于编码器100的第四处理的声道P4,并且其中解码器200的第三解码的声道D3可以等同于编码器100的第二处理的声道P2。此外,解码器200的第一处理的声道P1*可以等同于编码器100的第一处理的声道P1。
此外,编码的多声道信号107可以是串行信号,其中在多声道参数MCH_PAR1之前在解码器200处接收到多声道参数MCH_PAR2。在这种情况下,多声道处理器204可以被配置为按顺序处理解码的声道,其中解码器接收多声道参数MCH_PAR1和MCH_PAR2。在图10所示的示例中,解码器在多声道参数MCH_PAR1之前接收到多声道参数MCH_PAR2,并且因此在使用由多声道参数MCH_PAR1标识的第一解码的声道对(由第一处理的声道P1*和第三解码的声道D3组成)执行多声道处理之前,使用由多声道参数MCH_PAR2标识的第二解码的声道对(由第一解码的声道D1和第二解码的声道D2组成)执行多声道处理。
在图10中,多声道处理器204示例性地执行两个多声道处理操作。出于说明目的,由多声道处理器204执行的多声道处理操作在图10中用处理框208和210示出。处理框208和210可以用硬件或软件实现。处理框208和210可以是例如立体声框,如上面参考编码器100所讨论的,该编码器100例如是通用解码器(或解码器侧立体声框)、基于预测的解码器(或解码器侧立体声框)或基于KLT的旋转解码器(或解码器侧立体声框)。
例如,编码器100可以使用基于KLT的旋转编码器(或编码器侧立体声框)。在这种情况下,编码器100可以导出多声道参数MCH_PAR1和MCH_PAR2,使得多声道参数MCH_PAR1和MCH_PAR2包括旋转角度。可以对旋转角度差分地编码。因此,解码器200的多声道处理器204可以包括差分解码器,用于对旋转角度进行差分编码。
装置200还可以包括输入接口212,其被配置为接收和处理编码的多声道信号107,以向声道解码器202提供编码的声道E1至E3,并向多声道处理器204提供多声道参数MCH_PAR1和MCH_PAR2。
如前所述,可以使用保持指示符(或保持树标志)用信号通知未发送新树,但是应该使用最后的立体树。如果声道相关属性保持不变达较长时间,则这可以用于避免相同立体声树配置的多次发送。
因此,当编码的多声道信号107针对第一帧包括多声道参数MCH_PAR1和MCH_PAR2并且针对第一帧之后的第二帧包括保持指示符,多声道处理器204可以被配置为在第二帧中对第一帧中所使用的相同的第二声道对或相同的第一声道对执行多声道处理或进一步的多声道处理。
多声道处理和进一步的多声道处理可以包括使用立体声参数的立体声处理,其中对于解码的声道D1至D3的各个比例因子带或比例因子带组,第一立体声参数包括在多声道参数MCH_PAR1中并且第二立体声参数包括在多声道参数MCH_PAR2中。由此,第一立体声参数和第二立体声参数可以是相同类型,例如旋转角度或预测系数。当然,第一立体声参数和第二立体声参数可以是不同类型的。例如,第一立体声参数可以是旋转角度,其中第二立体声参数可以是预测系数,反之亦然。
此外,多声道参数MCH_PAR1和MCH_PAR2可以包括多声道处理掩码,其指示哪些比例因子带经多声道处理以及哪些比例因子带未经多声道处理。由此,多声道处理器204可以被配置为不在多声道处理掩码所指示的比例因子带中执行多声道处理。
多声道参数MCH_PAR1和MCH_PAR2可以均包括声道对标识(或索引),其中多声道处理器204可以被配置为使用预定义的解码规则或编码的多声道信号中指示的解码规则来对声道对标识(或索引)。进行解码。
例如,如上面参考编码器100所描述的,可以依据声道的总数使用每对的唯一索引来有效地用信号通知声道对。
此外,解码规则可以是Huffman解码规则,其中多声道处理器204可以被配置为执行对声道对标识的Huffman解码。
编码的多声道信号107还可以包括多声道处理允许指示符,其仅指示允许进行多声道处理的解码的声道的子组,并且指示不允许进行多声道处理的至少一个解码的声道。由此,多声道处理器204可以被配置为不对如多声道处理允许指示符所指示的不允许进行多声道处理的至少一个解码的声道执行任何多声道处理。
例如,当多声道信号是5.1声道信号时,多声道处理允许指示符可以指示多声道处理仅被允许用于5个声道,即右R、左L、右环绕Rs、左环绕LS和中心C,其中,LFE声道不允许进行多声道处理。
对于解码过程(对声道对索引的解码),可以使用以下c代码。由此,对于所有声道对,需要具有有效KLT处理的声道的数量(nChannels)以及当前帧的声道对的数量(numPairs)。
为了对非逐频带角度的预测系数进行解码,可使用如下c-代码。
为了对非逐频带KLT角度的预测系数进行解码,可使用如下c-代码。
为了避免不同平台上三角函数的浮点差,须使用用于将角指数直接转换成sin/cos的下列询查表:
tabIndexToSinAlpha[64]={
-1.000000f,-0.998795f,-0.995185f,-0.989177f,-0.980785f,-0.970031f,-0.956940f,-0.941544f,
-0.923880f,-0.903989f,-0.881921f,-0.857729f,-0.831470f,-0.803208f,-0.773010f,-0.740951f,
-0.707107f,-0.671559f,-0.634393f,-0.595699f,-0.555570f,-0.514103f,-0.471397f,-0.427555f,
-0.382683f,-0.336890f,-0.290285f,-0.242980f,-0.195090f,-0.146730f,-0.098017f,-0.049068f,
0.000000f,0.049068f,0.098017f,0.146730f,0.195090f,0.242980f,0.290285f,0.336890f,
0.382683f,0.427555f,0.471397f,0.514103f,0.555570f,0.595699f,0.634393f,0.671559f,
0.707107f,0.740951f,0.773010f,0.803208f,0.831470f,0.857729f,0.881921f,0.903989f,
0.923880f,0.941544f,0.956940f,0.970031f,0.980785f,0.989177f,0.995185f,0.998795f
};
tabIndexToCosAlpha[64]={
0.000000f,0.049068f,0.098017f,0.146730f,0.195090f,0.242980f,0.290285f,0.336890f,
0.382683f,0.427555f,0.471397f,0.514103f,0.555570f,0.595699f,0.634393f,0.671559f,
0.707107f,0.740951f,0.773010f,0.803208f,0.831470f,0.857729f,0.881921f,0.903989f,
0.923880f,0.941544f,0.956940f,0.970031f,0.980785f,0.989177f,0.995185f,0.998795f,
1.000000f,0.998795f,0.995185f,0.989177f,0.980785f,0.970031f,0.956940f,0.941544f,
0.923880f,0.903989f,0.881921f,0.857729f,0.831470f,0.803208f,0.773010f,0.740951f,
0.707107f,0.671559f,0.634393f,0.595699f,0.555570f,0.514103f,0.471397f,0.427555f,
0.382683f,0.336890f,0.290285f,0.242980f,0.195090f,0.146730f,0.098017f,0.049068f
};
针对多声道编码的解码,如下c-代码可用于KLT旋转的方法。
针对逐频带处理,可使用如下c-代码。
针对KLT旋转的应用,可使用如下c-代码。
图12示出了用于对具有编码的声道和至少两个多声道参数MCH_PAR1、MCH_PAR2的编码的多声道信号进行解码的方法400的流程图。方法400包括:步骤402,对编码的声道进行解码以获得解码的声道;步骤404,使用由多声道参数MCH_PAR2标识的第二解码的声道对并使用多声道参数MCH_PAR2执行多声道处理,以获得处理的声道,并使用由多声道参数MCH_PAR1标识的第一声道对并使用多声道参数MCH_PAR1进行进一步的多声道处理,其中第一声道对包括至少一个处理的声道。
在下文中,解释了根据实施例的多声道编码中的立体声填充:
如已经概述的,频谱量化的不期望的影响可能是量化可能导致频谱空穴。例如,作为量化的结果,特定频带中的所有频谱值可以在编码器侧被设置为零。例如,在量化之前这些谱线的确切值可能相对较低,于是量化可能导致这样的情况,其中例如在特定频带内的所有谱线的频谱值已被设置为零。在解码器侧,当解码时,这可能导致不期望的频谱空穴。
MPEG-H中的多声道编码工具(MCT)允许适应不同的声道间相依性,但由于在典型操作配置中使用单声道元素,因此不允许立体声填充。
从图14中可以看出,多声道编码工具组合了以分层方式编码的三个或更多个声道。然而,多声道编码工具(MCT)在编码时如何组合不同声道的方式根据声道的当前信号属性因帧而异。
例如,在图14的(a)情形下,为了生成第一编码的音频信号帧,多声道编码工具(MCT)可以组合第一声道Ch1和第二声道CH2以获得第一组合声道(处理的声道)P1和第二组合声道P2。然后,多声道编码工具(MCT)可以组合第一组合声道P1和第三声道CH3以获得第三组合声道P3和第四组合声道P4。然后,多声道编码工具(MCT)可以对第二组合声道P2、第三组合声道P3和第四组合声道P4进行编码以生成第一帧。
然后,例如,在图14的(b)情形下,为了在第一编码的音频信号帧之后(时间上)生成第二编码的音频信号帧,多声道编码工具(MCT)可以组合第一声道CH1'和第三声道CH1',以获得第一组合声道P1'和第二组合声道P2'。然后,多声道编码工具(MCT)可以组合第一组合声道P1'和第二声道CH2'以获得第三组合声道P3'和第四组合声道P4'。然后,多声道编码工具(MCT)可以对第二组合声道P2'、第三组合声道P3'和第四组合声道P4'进行编码以生成第二帧。
从图14中可以看出,在图14的(a)的情形下生成第一帧的第二组合声道、第三组合声道和第四组合声道的方式与在图14的(b)的情形下生成第二帧的第二组合声道、第三组合声道和第四组合声道的方式显著不同,这是因为使用不同的声道组合以分别生成相应的组合声道P2、P3和P4以及P2'、P3'、P4'。
特别地,本发明的实施例基于以下发现:
如在图7和图14中可以看到的,组合声道P3、P4和P2(或图14的(b)情形下的P2'、P3'和P4')被馈送到声道编码器104中。除此之外,声道编码器104可以例如进行量化,使得声道P2、P3和P4的频谱值可以由于量化而被设置为零。可以将频谱相邻的频谱样本编码为频谱带,其中每个频谱带可以包括多个频谱样本。
对于不同的频带,频带的频谱样本的数量可以是不同的。例如,与较高频率范围中的频带(其可以例如包括16个频率样本)相比,具有较低频率范围的频带可以例如包括较少的频谱样本(例如,4个频谱样本)。例如,Bark标度临界频带可以定义所使用的频带。
当在量化之后频带的所有频谱样本被设置为零时,可能出现特别不希望的情况。如果出现这种情况,根据本发明,建议进行立体声填充。此外,本发明基于以下发现:至少不仅应生成(伪)随机噪声。
作为添加(伪)随机噪声的替代或补充,根据本发明的实施例,如果例如在图14的(b)情形下,已经将声道P4'的频带的所有频谱值设置为零,则以与声道P3'相同或相似的方式生成的组合声道将是用于生成用于填充已被量化为零的频带的噪声的非常适当的基础。
然而,根据本发明的实施例,优选的是不使用当前帧/当前时间点的P3'组合声道的频谱值作为填充P4'组合声道(其仅包括为零的频谱值)的频带的基础,这是因为组合声道P3'以及组合声道P4'都是基于声道P1'和P2'生成的,因此使用当前的时间点的P3'组合声道将导致仅仅平移。
例如,如果P3'是P1'和P2'的中间声道(例如,P3'=0.5*(P1'+P2')),并且P4'如果是P1'和P2'的侧声道(例如,P4'=0.5*(P1'-P2')),则例如将P3'的衰减的频谱值引入P4'的频带中将仅仅导致平移。
相反,使用先前时间点的声道来生成用于填充当前P4'组合声道中的频谱空穴的频谱值将是优选的。根据本发明的发现,与当前帧的P3'组合声道相对应的先前帧的声道组合将是生成用于填充P4'的频谱空穴的频谱样本的理想基础。
然而,先前前帧的图14的(a)的情形下生成的组合声道P3不对应于当前帧的组合声道P3',这是因为已经以与当前帧的组合声道P3'不同的方式生成了先前帧的组合声道P3。
根据本发明的实施例的发现,应该在解码器侧基于先前帧的重构声道生成P3'组合声道的近似。
图14的(a)示出了编码器情形,其中通过生成E1、E2和E3针对先前帧对声道CH1、CH2和CH3进行编码。解码器接收声道E1、E2和E3,并重构已编码的声道CH1、CH2和CH3。可能已经发生了一些编码损失,但是,所生成的近似CH1、CH2和CH3的声道CH1*、CH2*和CH3*将与原始声道CH1、CH2和CH3非常相似,因此CH1*≈CH1、CH2*≈CH2并且CH3*≈CH3。根据实施例,解码器将针对先前帧生成的声道CH1*、CH2*和CH3*保持在缓冲器中以将它们用于当前帧中的噪声填充。
现在更详细地描述其中示出了根据实施例的用于解码的装置201的图1a:
图1a的装置201适于对先前帧的先前编码的多声道信号进行解码以获得三个或更多个先前音频输出声道,并且被配置为对当前帧的当前编码的多声道信号107进行解码以获得三个或更多个当前音频输出声道。
该装置包括接口212、声道解码器202、用于生成三个或更多个当前音频输出声道CH1、CH2、CH3的多声道处理器204、以及噪声填充模块220。
接口212适于接收当前编码的多声道信号107,并接收包括第一多声道参数MCH_PAR2的辅助信息。
声道解码器202适于对当前帧的当前编码的多声道信号进行解码,以获得当前帧的三个或更多个解码的声道D1、D2、D3的集合。
多声道处理器204适于根据第一多声道参数MCH_PAR2从三个或更多个解码的声道D1、D2、D3的集合中选择第一所选两个解码的声道对D1、D2。
作为示例,这在图1a中由被馈送到(可选的)处理框208中的两个声道D1、D2示出。
此外,多声道处理器204适于基于所述第一所选两个解码的声道对D1、D2生成第一组两个或更多个处理的声道P1*、P2*,以获得三个或更多个解码的声道D3、P1*、P2*的更新集合。
在该示例中,其中两个声道D1和D2被馈送到(可选的)框208中,从两个所选择的声道D1和D2生成两个处理的声道P1*和P2*。然后,三个或更多个解码的声道的更新集合包括剩下的未经修改的声道D3,并且还包括已经从D1和D2生成的P1*和P2*。
在多声道处理器204基于所述第一所选两个解码的声道对D1、D2生成第一对两个或更多个处理的声道P1*、P2*之前,噪声填充模块220适于标识所述第一所选两个解码的声道对D1、D2的两个声道中的至少一个声道、其中所有谱线被量化为零的一个或多个频带,并且适于使用三个或更多个先前音频输出声道中的两个或更多个但不是全部声道来生成混合声道,并且适于以使用混合声道的谱线生成的噪声来填充其中所有谱线被量化为零的一个或多个频带的谱线,其中噪声填充模块220适于根据辅助信息从三个或更多个先前音频输出声道中选择用于生成混合声道的两个或更多个先前音频输出声道。
因此,噪声填充模块220分析是否存在仅具有零值的频谱的频带,并且进一步用所生成的噪声填充找到的空频带。例如,频带可以例如具有4或8或16个谱线,并且当频带的所有谱线已经量化为零时,则噪声填充模块220填充所生成的噪声。
指定如何生成和填充噪声的噪声填充模块220可以采用的实施例的特定构思被称为立体声填充。
在图1a的实施例中,噪声填充模块220与多声道处理器204交互。例如,在实施例中,当噪声填充模块想要例如通过处理框处理两个声道时,它向噪声填充模块220馈送这些声道,并且噪声填充模块220检查频带是否已被量化为零,并且如果检测到,则填充这些频带。
在图1b所示的另一实施例中,噪声填充模块220与声道解码器202交互。例如,已经当声道解码器对编码的多声道信号进行解码以获得三个或更多个解码的声道D1、D2和D3时,噪声填充模块例如可以检查频带是否已经被量化为零,并且例如如果检测到,则填充这些频带。在该实施例中,多声道处理器204可以通过填充噪声确保所有频谱空穴之前已经闭合。
在另外的实施例(未示出)中,噪声填充模块220可以与声道解码器和多声道处理器交互。例如,当声道解码器202生成解码的声道D1、D2和D3时,噪声填充模块220可能刚好在声道解码器202生成频带之后已经检查了它们是否已被量化为零,但是当多声道处理器204真正处理这些声道时,可能仅生成噪声并填充相应的频带。
例如,随机噪声、计算廉价的操作可以被插入到已被量化为零的任何频带中,但是只有当多声道处理器204真的对其进行处理时,噪声填充模块可以填充从先前生成的音频输出声道生成的噪声。然而,在该实施例中,在插入随机噪声之前,应该在插入随机噪声之前检测是否存在频谱空穴,并且应该将该信息保存在存储器中,这是因为在插入随机噪声之后,由于插入了随机噪声,各个频带于是将具有不等于零的频谱值。
在实施例中,除了基于先前音频输出信号生成的噪声之外,将随机噪声插入已被量化为零的频带中。
在一些实施例中,接口212可以例如适于接收当前编码的多声道信号107,并且适于接收包括第一多声道参数MCH_PAR2和第二多声道参数MCH_PAR1的辅助信息。
多声道处理器204可以例如适于根据第二多声道参数MCH_PAR1从三个或更多个解码的声道D3、P1*,P2*的更新集合中选择第二所选两个解码的声道对P1*、D3,其中第二所选两个解码的声道对(P1*、D3)中的至少一个声道P1*是第一对两个或更多个处理的声道P1*、P2*中的一个声道。
多声道处理器204可以例如适于基于所述第二所选两个解码的声道对P1*、D3生成第二组两个或更多个处理的声道P3*、P4*,以进一步更新三个或更多个解码的声道的更新集合。
在图1a和图1b中可以看到该实施例的示例,在图1a和图1b中,(可选的)处理框210接收声道D3和处理的声道P1*并对其进行处理以获得处理的声道P3*和P4*,使得三个解码的声道的进一步更新的集合包括未处理的框210修改的P2*以及所生成的P3*和P4*。
处理框208和210在图1a和图1b中被标记为可选的。这表明尽管可以使用处理框208和210来实现多声道处理器204,但是关于确切地如何实现多声道处理器204存在各种其他可能性。例如,代替针对两个(或更多个)声道的每个不同处理使用不同的处理框208、210,可以再使用相同的处理框,或者多声道处理器204可以实现两个声道的处理而完全不使用处理框208、210(作为多声道处理器204的子单元)。
根据另一实施例,多声道处理器204可以例如适于通过基于所述第一所选两个解码的声道对D1、D2生成第一组恰好两个处理的声道P1*、P2*来生成第一组两个或更多个处理的声道P1*、P2*。多声道处理器204可以例如适于用第一组恰好两个处理的声道P1*、P2*替换三个或更多个解码的声道D1、D2、D3的集合中的所述第一所选两个解码的声道对D1、D2,来获得三个或更多个解码的声道D3、P1*、P2*的更新集合。多声道处理器204可以例如适于通过基于所述第二所选两个解码的声道对P1*、D3生成第二组恰好两个处理的声道P3*、P4*来生成第二组两个或更多个处理的声道P3*、P4*。此外,多声道处理器204可以例如适于用第二组恰好两个处理的声道P3*、P4*替换三个或更多个解码的声道D3、P1*、P2*的更新集合中的所述第二所选两个解码的声道对P1*、D3,以进一步更新三个或更多个解码的声道的更新集合。
在该实施例中,从两个所选择的声道(例如,处理框208或210的两个输入声道)生成恰好两个处理的声道,并且这些恰好两个处理的声道替换三个或更多个解码的声道的集合中的所选声道。例如,多声道处理器204的处理框208用P1*和P2*替换所选择的声道D1和D2。
然而,在其他实施例中,可以在装置201中进行上混频以用于解码,并且可以从两个所选声道生成多于两个处理的声道,或者可以不从解码的声道的更新集合中删除所有所选声道。
另一个问题是如何生成用于生成由噪声填充模块220生成的噪声的混合声道。
根据一些实施例,噪声填充模块220可以例如适于使用三个或更多个先前音频输出声道中的恰好两个声道作为三个或更多个先前音频输出声道中的两个或更多个声道来生成混合声道;其中,噪声填充模块220可以例如适于根据辅助信息从三个或更多个先前音频输出声道中选择恰好两个先前音频输出声道。
仅使用三个或更多个先前输出声道中的两个声道有助于降低计算混合声道的计算复杂度。
然而,在其他实施例中,先前音频输出声道中的两个以上声道用于生成混合声道,但是考虑的先前音频输出声道的数量小于三个或更多先前音频输出声道的总数量。
在仅考虑先前输出声道中的两个声道的实施例中,混合声道可以例如如下计算:
在实施例中,噪声填充模块220适于基于公式
或基于公式
使用恰好两个先前音频输出声道来生成混合声道,其中Dch是混合声道;其中是该恰好两个先前音频输出声道中的第一声道;其中是该恰好两个先前音频输出声道中的第二声道,其不同于该恰好两个先前音频输出声道中的第一声道,并且其中d是实数正标量。
在典型情况下,中间声道可以是适当的混合声道。该方法计算混合声道作为所考虑的两个先前音频输出声道的中间声道。
然而,在一些情形下,当应用时,例如当时,可能出现混合声道接近零。于是,例如可能优选地是使用作为混合信号。因此,于是使用侧声道(用于异相位输入信号)。
根据备选办法,噪声填充模块220适于基于公式
或基于公式
使用恰好两个先前音频输出声道来生成混合声道,其中是混合声道;其中是该恰好两个先前音频输出声道中的第一声道;其中是该恰好两个先前音频输出声道中的第二声道,其不同于该恰好两个先前音频输出声道中的第一声道,并且其中α是旋转角度。
该方法通过进行对所考虑的两个先前音频输出声道的旋转来计算混合声道。
旋转角度α例如可以在如下范围内:-90°<α<90°。
在实施例中,旋转角度例如可以在如下范围内:30°<α<60°。
此外,在典型情况下,声道可以是适当的混合声道。该方法计算混合声道作为所考虑的两个先前音频输出声道的中间声道。
然而,在一些情形下,当应用时,例如当时,可能出现混合声道接近零。于是,例如可能优选的是使用作为混合信号。
根据特定实施例,辅助信息可以例如是被分配给当前帧的当前辅助信息,其中接口212可以例如适于接收被分配给先前帧的先前辅助信息,其中先前辅助信息包括先前角度;其中,接口212可以例如适于接收包括当前角度的当前辅助信息,并且其中,噪声填充模块220可以例如适于使用当前辅助信息的当前角度作为旋转角度α,并且适于不使用先前辅助信息的先前角度作为旋转角度α。
因此,在该实施例中,即使基于先前音频输出声道计算混合声道,在辅助信息中发送的当前角度依然被用作旋转角度,而不是先前接收的旋转角度,尽管基于先前音频输出声道来计算混合声道,该先前音频输出声道是基于先前帧生成的。
本发明的一些实施例的另一方面涉及比例因子。
例如,频带可以是比例因子带。
根据一些实施例,在多声道处理器204基于所述第一所选两个解码的声道对(D1,D2)生成第一对两个或更多个处理的声道P1*、P2*之前,噪声填充模块(220)可以例如适于针对所述第一所选两个解码的声道对D1、D2的两个声道中的至少一个声道标识一个或多个比例因子带,其是其中所有谱线被量化为零的一个或多个频带,并且可以例如适于使用三个或更多个先前音频输出声道中的所述两个或更多个但不是全部声道来生成混合声道,并且适于根据其中所有谱线被量化为零的一个或多个比例因子带中的每个的比例因子,以使用混合声道的谱线生成的噪声填充其中所有谱线被量化为零的一个或多个比例因子带的谱线。
在这些实施例中,比例因子可以例如被分配给每个比例因子带,并且当使用混合声道生成噪声时考虑该比例因子。
在特定实施例中,接收接口212可以例如被配置为接收所述一个或多个比例因子带中的每个的比例因子,并且所述一个或多个比例因子带中的每个的比例因子指示在量化之前所述比例因子带的谱线的能量。噪声填充模块220可以例如适于生成噪声用于其中所有谱线被量化为零的一个或多个比例因子带中的每个,使得在将噪声加到一个频带中之后谱线的能量对应于由所述比例因子带的比例因子指示的能量。
例如,混合声道可以指示其中应插入噪声的比例因子带的四个谱线的谱值,并且这些谱值可以例如是:0.2;0.3;0.5;0.1。
混合声道的比例因子带的能量可以例如如下计算:
(0.2)2+(0.3)2+(0.5)2+(0.1)2=0.39
但是,其中应填充噪声的声道的比例因子带的比例因子可以是例如仅0.0039。
衰减因子可以例如如下计算:
因此,在如上示例中,
在实施例中,将用作噪声的混合声道的比例因子带的每个频谱值与衰减因子相乘:
因此,上述示例的比例因子带的四个频谱值中的每个都乘以衰减因子,并且得到衰减的频谱值:
0.2·0.01=0.002
0.3·0.01=0.003
0.5·0.01=0.005
0.1·0.01=0.001
然后,可以将这些衰减的频谱值插入要填充噪声的声道的比例因子带。
通过用对应的对数运算替换上述运算,例如通过用加法替换乘法等,上述示例同样适用于对数值。
此外,除了上面提供的特定实施例的描述之外,噪声填充模块220的其他实施例适用参考图2至图6描述的一个、一些或所有构思。
本发明的实施例的另一方面涉及这样的问题,基于该问题,选择来自先前音频输出声道的信息声道用于生成混合声道以获得要插入的噪声。
根据实施例,根据噪声填充模块220的装置可以例如适于根据第一多声道参数MCH_PAR2从三个或更多个先前音频输出声道中选择恰好两个先前音频输出声道。
因此,在该实施例中,控制选择哪个声道进行处理的第一多声道参数也控制先前音频输出声道中的哪个声道用于生成混合声道以生成要插入的噪声。
在实施例中,第一多声道参数MCH_PAR2可以例如指示三个或更多个解码的声道的集合中的两个解码的声道D1、D2;并且多声道处理器204适于通过选择由第一多声道参数MCH_PAR2指示的两个解码的声道D1、D2从三个或更多个解码的声道D1、D2、D3的集合中选择第一所选两个解码的声道对D1、D2。此外,第二多声道参数MCH_PAR1可以例如指示三个或更多个解码的声道的更新集合中的两个解码的声道P1*、D3。多声道处理器204可以例如适于通过选择由第二多声道参数MCH_PAR1指示的两个解码的声道P1*、D3从三个或更多个解码的声道D3、P1*、P2*的更新集合中选择第二所选两个解码的声道对P1*、D3。
因此,在该实施例中,被选择进行第一处理(例如,图1a或图1b中的处理框208的处理)的声道不仅取决于第一多声道参数MCH_PAR2。除此之外,在第一多声道参数MCH_PAR2中明确指定这两个所选声道。
同样,在该实施例中,被选择进行第二处理(例如图1a或图1b中的处理框210的处理)的声道不仅取决于第二多声道参数MCH_PAR1。除此之外,在第二多声道参数MCH_PAR1中明确指定这两个所选声道。
本发明的实施例介绍了用于多声道参数的复杂索引方案,参考图15对其进行解释。
图15的(a)示出了编码器侧的五个声道的编码,该五个声道即为左声道、右声道、中心声道、左环绕声道和右环绕声道。图15的(b)示出了对编码的声道E0、E1、E2、E3、E4的解码,以重构左声道、右声道、中心声道、左环绕声道和右环绕声道。
假设索引被分配给左声道、右声道、中心声道、左环绕声道和右环绕声道这五个声道中的每个,即
在图15的(a)中,在编码器侧,进行的第一操作可以是例如在处理框192中混合声道0(左声道)和声道3(左环绕声道)以获得两个处理的声道。可以假设处理的声道之一是中间声道而另一声道是侧声道。然而,也可以应用形成两个处理的声道的其他构思,例如,通过进行旋转操作来确定两个处理的声道。
现在,两个所生成的处理的声道获得与用于处理的声道的索引相同的索引。即,处理的声道中的第一声道具有索引0,并且处理的声道中的第二声道具有索引3。用于该处理的所确定的多声道参数可以例如是(0;3)。
在编码器侧进行的第二操作可以是例如在处理框194中混合声道1(右声道)和声道4(右环绕声道)以获得两个进一步处理的声道。同样,两个进一步生成的处理的声道获得与用于处理的声道的索引相同的索引。即,进一步处理的声道中的第一声道具有索引1,并且处理的声道中的第二声道具有索引4。用于该处理的所确定的多声道参数可以例如是(1;4)。
在编码器侧进行的第三操作可以是例如在处理框196中混合处理的声道0和处理的声道1以获得另外两个处理的声道。同样,这两个所生成的处理的声道获得与用于处理的声道的索引相同的索引。即,进一步处理的声道中的第一声道具有索引0,并且处理的声道中的第二声道具有索引1。用于该处理的所确定的多声道参数可以例如是(0;1)。
编码的声道E0、E1、E2、E3和E4通过它们的索引来区分,即,E0具有索引0,E1具有索引1,E2具有索引2,等等。
编码器侧的三个操作得到三个多声道参数:
(0;3),(1;4),(0;1)。
由于用于解码的装置须以相反的顺序执行编码器操作,所以例如在向用于解码的装置发送多声道参数时可以将多声道参数的顺序反转,从而得到多声道参数:
(0;1),(1;4),(0;3)。
对于用于解码的装置,(0;1)可以被称为第一多声道参数,(1;4)可以被称为第二多声道参数,并且(0;3)可以被称为第三多声道参数。
在图15的(b)所示的解码器侧,从接收到第一多声道参数(0;1),用于解码的装置得出结论,作为解码器侧的第一处理操作,应处理声道0(E0)和1(E1)。这在图15的(b)的框296中进行。两个所生成的处理的声道都继承了用于生成它们的声道E0和E1的索引,因此,所生成的处理的声道也具有索引0和1。
从接收到第二多声道参数(1;4),用于解码的装置得出结论,作为解码器侧的第二处理操作,应处理处理的声道1和声道4(E4)。这在图15的(b)的框294中进行。两个所生成的处理的声道都继承了用于生成它们的声道1和4的索引,因此,所生成的处理的声道也具有索引1和4。
从接收到第三多声道参数(0;3),用于解码的装置得出结论,作为解码器侧的第三处理操作,应处理处理的声道0和声道3(E3)。这在图15的(b)的框292中进行。两个所生成的处理的声道都继承了用于生成它们的声道0和3的索引,因此,所生成的处理的声道也具有索引0和3。
作为用于解码的装置的处理的结果,重构了左声道(索引0)、右声道(索引1)、中心声道(索引2)、左环绕声道(索引3)和右环绕声道(索引4)。
让我们假设在解码器侧,由于量化,某个比例因子带内的声道E1(索引1)的所有值已被量化为零。当用于解码的装置想要在框296中进行处理时,期望经噪声填充的声道1(声道E1)。
如已经概述的,实施例现在使用两个先前音频输出信号对声道1的频谱空穴进行噪声填充。
在特定实施例中,如果要进行操作的声道具有被量化为零的比例因子带,则两个先前音频输出声道用于生成具有与应进行处理的两个声道相同的索引号的噪声。在该示例中,如果在处理框296中的处理之前检测到声道1的频谱空穴,则具有索引0(先前左声道)和具有索引1(先前右声道)的先前音频输出声道用于生成噪声以在解码器侧填充声道1的频谱空穴。
由于索引始终由处理产生的处理的声道继承,因此可以假设先前输出声道将起到生成参与解码器侧的实际处理的声道的作用,如果先前音频输出声道将是当前音频输出声道。因此,可以实现对被量化为零的比例因子带的良好估计。
根据实施例,该装置可以例如适于将来自标识符集合的标识符分配给三个或更多个先前音频输出声道中的每个先前音频输出声道,使得三个或更多个先前音频输出声道中的每个先前音频输出声道被分配给标识符集合中的恰好一个标识符,并且使得标识符集合中的每个标识符被分配给三个或更多个先前音频输出声道中的恰好一个先前音频输出声道。此外,该装置可以例如适于将来自所述标识符集合的标识符分配给三个或更多个解码的声道的集合中的每个声道,使得三个或更多个解码的声道的集合中的每个声道被分配给标识符集合中的恰好一个标识符,并且使得标识符集合中的每个标识符被分配给三个或更多个解码的声道的集合中的恰好一个声道。
此外,第一多声道参数MCH_PAR2可以例如指示三个或更多个标识符集合中的第一对两个标识符。多声道处理器204可以例如适于通过选择被分配给第一对两个标识符的两个标识符的两个解码的声道D1、D2,从三个或更多个解码的声道D1、D2、D3的集合中选择第一所选两个解码的声道对D1、D2。
该装置可以例如适于将第一对两个标识符的两个标识符中的第一标识符分配给第一组恰好两个处理的声道P1*、P2*中的第一处理的声道。此外,该装置可以例如适于将第一对两个标识符的两个标识符中的第二标识符分配给第一组恰好两个处理的声道P1*、P2*中的第二处理的声道。
该标识符集合可以例如是索引集合,例如,非负整数集合(例如,包括标识符0;1;2;3和4的集合)。
在特定实施例中,第二多声道参数MCH_PAR1可以例如指示三个或更多个标识符集合中的第二对两个标识符。多声道处理器204可以例如适于通过选择被分配给第二对两个标识符的两个标识符的两个解码的声道(D3、P1*),从三个或更多个解码的声道D3、P1*、P2*的更新集合中选择第二所选两个解码的声道对P1*、D3。此外,该装置可以例如适于将第二对两个标识符的两个标识符中的第一标识符分配给第二组恰好两个处理的声道P3*、P4*的第一处理的声道。此外,该装置可以例如适于将第二对两个标识符的两个标识符中的第二标识符分配给第二组恰好两个处理的声道P3*、P4*的第二处理的声道。
在特定实施例中,第一多声道参数MCH_PAR2可以例如指示三个或更多个标识符集合中的所述第一对两个标识符。噪声填充模块220可以例如适于通过选择被分配给所述第一对两个标识符的两个标识符的两个先前音频输出声道,从三个或更多个先前音频输出声道中选择恰好两个先前音频输出声道。
如已经概述的,图7示出了根据实施例的用于对具有至少三个声道(CH1:CH3)的多声道信号101进行编码的装置100。
该装置包括迭代处理器102,其适于在第一迭代步骤中计算至少三个声道(CH:CH3)中的每对之间的声道间相关值,用于在第一迭代步骤中选择具有最高值或具有高于阈值的值的声道对,并且用于使用多声道处理操作110、112处理所选声道对,以导出用于所选声道对的初始多声道参数MCH_PAR1并导出第一处理的声道P1、P2。
迭代处理器102适于使用至少一个处理的声道P1在第二迭代步骤中执行计算、选择和处理,以导出另外的多声道参数MCH_PAR2和第二处理的声道P3、P4。
此外,该装置包括声道编码器,该声道编码器适于对通过迭代处理器104执行的迭代处理所得的声道(P2:P4)进行编码,以获得编码的声道(E1:E3)。
此外,该装置包括输出接口106,其适于生成具有编码的声道(E1:E3)、初始多声道参数和另外的多声道参数MCH_PAR1、MCH_PAR2的编码的多声道信号107。
此外,该装置包括输出接口106,其适于生成编码的多声道信号107,以包括指示用于解码的装置是否应该用基于先前已解码的音频输出声道生成的噪声来填充其中所有谱线被量化为零的一个或多个频带的谱线的信息,所述先前已解码的音频输出声道先前已被用于解码的装置解码。
因此,用于编码的装置能够用信号通知用于解码的装置是否应该用基于先前已解码的音频输出声道生成的噪声来填充其中所有谱线被量化为零的一个或多个频带的谱线,所述先前已解码的音频输出声道先前已被用于解码的装置解码。
根据实施例,初始多声道参数和另外的多声道参数MCH_PAR1、MCH_PAR2中的每个指示恰好两个声道,恰好两个声道中的每个是编码的声道(E1:E3)之一或者是第一或第二处理的声道P1、P2、P3、P4之一或者是至少三个声道(CH1:CH3)之一。
输出接口106可以例如适于生成编码的多声道信号107,使得指示用于解码的装置是否应该填充其中所有谱线被量化为零的一个或多个频带的谱线的信息,包括针对初始和多声道参数MCH_PAR1、MCH_PAR2中的每个参数,指示对于由初始和另外的多声道参数MCH_PAR1、MCH_PAR2中的所述参数指示的恰好两个声道中的至少一个声道,用于解码的装置是否应该用基于先前已解码的音频输出声道生成的频谱数据来填充其中所有谱线被量化为零的一个或多个频带的谱线,其中所述先前已解码的音频输出声道先前被用于解码的装置解码。
下面进一步描述特定实施例,其中使用hasStereoFilling[pair]值发送这些信息,该值指示是否应当在当前处理的MCT声道对中应用立体声填充。
图13示出了根据实施例的系统。
该系统包括如上所述的用于编码的装置100、以及根据上述实施例之一的用于解码的装置201。
用于解码的装置201被配置为从用于编码的装置100接收由用于编码的装置100生成的编码的多声道信号107。
此外,提供编码的多声道信号107。
编码的多声道信号包括
-编码的声道(E1:E3),和
-多声道参数MCH_PAR1、MCH_PAR2,和
-指示用于解码的装置是否应该用基于先前已解码的音频输出声道生成的频谱数据来填充其中所有谱线被量化为零的一个或多个频带的谱线,其中所述先前已解码的音频输出声道先前被用于解码的装置解码。
根据实施例,编码的多声道信号可以例如包括作为多声道参数MCH_PAR1、MCH_PAR2两个或更多个多声道参数。
两个或更多个多声道参数MCH_PAR1、MCH_PAR2中的每个可以例如指示恰好两个声道,恰好两个声道中的每个是编码的声道(E1:E3)之一或者是多个处理的声道P1、P2、P3、P4之一或者是至少三个初始(例如,未处理)声道(CH:CH3)之一。
指示用于解码的装置是否应填充其中所有谱线被量化为零的一个或多个频带的谱线的信息,可以例如包括针对两个或更多个多声道参数MCH_PAR1、MCH_PAR2中的每个参数,指示对于由两个或更多个多声道参数MCH_PAR1、MCH_PAR2中的所述参数指示的恰好两个声道中的至少一个声道,用于解码的装置是否应该用基于先前已解码的音频输出声道生成的频谱数据来填充其中所有谱线被量化为零的一个或多个频带的谱线,其中所述先前已解码的音频输出声道先前被用于解码的装置解码。
如下面进一步概述的,描述了特定实施例,其中使用hasStereoFilling[pair]值发送这些信息,该值指示是否应该在当前处理的MCT声道对中应用立体声填充。
在下文中,更详细地描述了一般概念和特定实施例。
实施例实现了参数化低比特率编码模式,其具有使用任意立体声树(立体声填充和MCT的组合)的灵活性。
通过分层地应用已知的联合立体声编码工具来利用声道间信号相依性。为了较低比特率,实施例扩展MCT以使用分立立体声编码框和立体声填充框的组合。因此,可以对例如具有相似内容的声道(即,具有最高相关性的声道对)应用半参数化编码,而不同声道可以单独编码或通过非参数化表示编码。因此,MCT比特流语法扩展为能够用信号通知是否允许立体声填充以及何处它是激活的。
实施例实现了用于任意立体声填充对的先前下混频的生成。
立体声填充依赖于使用先前帧的下混频来改善对频域中因量化引起的频谱空穴的填充。然而,结合MCT,现在允许联合编码立体声对的集合是时变的。因此,两个联合编码的声道可能尚未先前前帧中被联合编码,即当树配置已改变时。
为了估计先前下混频,先前已解码的输出声道被保存并用逆立体声操作进行处理。对于给定的立体声框,这是使用当前帧的参数以及与处理的立体声框的声道索引相对应的先前帧的解码的输出声道来完成的。
如果例如由于独立帧(在不考虑先前帧数据的情况下可以解码的帧)或变换长度改变而导致先前输出声道信号不可用,则对应声道的先前声道缓冲器被设置为零。因此,只要至少一个先前声道信号可用,仍然可以计算非零的先前下混频。
如果MCT被配置为使用基于预测的立体声框,则用针对立体声填充对指定的逆MS操作,优选地使用基于预测方向标志(MPEG-H语法中的pred_dir)的以下两个等式之一来计算先前下混频。
其中,d是任意实数正标量。
如果MCT被配置为使用基于旋转的立体声框,则使用具有负旋转角度的旋转计算先前下混频。
因此,对于如下给出的旋转:
逆旋转计算为:
其中,是先前输出声道和的期望的先前下混频。
实施例实现了立体声填充在MCT中的应用。
在[1]、[5]中描述了立体声填充在单个立体声框中的应用。对于单个立体声框,立体声填充被应用于给定MCT声道对的第二声道。
特别地,结合MCT的立体声填充的区别如下:
MCT树配置每帧扩展一个信令比特,以便能够用信号通知当前帧中是否允许立体声填充。
在优选实施例中,如果在当前帧中允许立体声填充,则针对每个立体声框发送用于激活立体声框中的立体声填充的一个附加比特。这是优选实施例,因为它允许编码器侧控制应该通过哪些框在解码器中应用立体声填充。
在第二实施例中,如果在当前帧中允许立体声填充,则在所有立体声框中允许立体声填充,并且不针对每个个体立体声框发送附加比特。在这种情况下,解码器控制在各个MCT框中选择性地应用立体声填充。
以下描述了另外的构思和详细的实施例:
实施例提高了低比特率多声道操作点的质量。
在频域(FD)编码的声道对元素(CPE)中,MPEG-H 3D音频标准允许使用[1]的子节5.5.5.4.9中描述的立体声填充工具,以感知上改善对由编码器中非常粗略的量化引起的频谱空穴的填充。该工具被证明特别对于以中和低比特率编码的双声道立体声是有益的。
引入了在[2]的第7节中描述的多声道编码工具(MCT),该工具实现了以每帧为基础的联合编码声道对的灵活的信号自适应定义,以利用多声道设置中的时变声道间相依性。当用于多声道设置(其中每个声道驻留在其个体单声道元素(SCE)中)的高效动态联合编码时,MCT的优点特别显著,这是因为与必须先验地建立的传统CPE+SCE(+LFE)配置不同,它允许联合声道编码从一帧到下一帧级联和/或重新配置。
在不使用CPE的情况下对多声道环绕声进行编码目前的缺点是,仅在CPE中可用的联合立体声工具-预测性M/S编码和立体声填充-不能被利用,这在中低比特率下尤其不利。MCT可以替代M/S工具,但目前无法替代立体声填充工具。
实施例允许通过用相应的信令比特扩展MCT比特流语法并且通过将立体声填充的应用推广至任意声道对而不管其声道元素类型来在MCT的声道对内使用立体声填充工具。
例如,一些实施例可以在MCT中实现立体声填充的信令,如下:
在CPE中,在第二声道的FD噪声填充信息中用信号通知立体声填充工具的使用,如在[1]的子节5.5.5.4.9.4中所述。当利用MCT时,每个声道都可能是“第二声道”(由于跨元素声道对的可能性)。因此,提出通过每个MCT编码的声道对一个附加比特来明确地用信号通知立体声填充。当在特定MCT“树”实例的任何声道对中都未采用立体声填充时,为了避免需要该附加比特,使用MultichannelCodingFrame()中的MCTSignalingType元素的两个当前保留条目[2]来用信号通知每个声道对存在上述附加比特。
下面提供详细描述。
一些实施例可以例如实现如下的先前下混频的计算:
CPE中的立体声填充通过加上先前帧的下混频的相应MDCT系数来填充第二声道的某些“空”比例因子带,所述系数根据对应频带的所发送比例因子(其否则未被使用,这是因为所述频带完全被量化为零)被缩放。使用目标声道的比例因子带控制的加权相加的过程可以在MCT的情况下相同地使用。立体声填充的源频谱,即先前帧的下混频,必须以与CPE内不同的方式计算,特别是因为MCT“树”配置可能是时变的。
在MCT中,可以使用当前帧的给定联合声道对的MCT参数从最后一帧的解码的输出声道(在MCT解码之后存储)导出先前下混频。对于应用基于预测性M/S的联合编码的声道对,先前下混频,如在CPE立体声填充中,取决于当前帧的方向指示符而等于适当声道频谱的和或差。对于使用基于Karhunen-Loève旋转的联合编码的立体声对,先前下混频表示用当前帧的旋转角度计算的逆旋转。同样,下面提供了详细描述。
复杂性评估表明,作为中低比特率工具的MCT中的立体声填充,在低/中比特率和高比特率下测量时,预计不会增加最坏情况的复杂性。此外,使用立体声填充通常与被量化为零的较多频谱系数一致,由此降低基于上下文的算术解码器的算法复杂性。假设在N声道环绕配置中使用最多N/3个立体声填充声道,并且每次执行立体声填充时使用附加的0.2WMOPS,当编码器采样率为48kHz并且IGF工具仅在12kHz以上工作时,对于5.1声道而言峰值复杂性仅增加0.4WMOPS,对于11.1声道而言峰值复杂性增加0.8WMOPS。这相当于解码器总复杂性的不到2%。
实施例实现MultichannelCodingFrame()元素如下:
根据一些实施例,MCT中的立体声填充可以如下实现:
与[1]的子节5.5.5.4.9中描述的声道对元素中的IGF立体声填充一样,多声道编码工具(MCT)中的立体声填充使用先前帧的输出频谱的下混频来填充处于噪声填充开始频率或高于其的“空”比例因子带(完全量化为零)。
当立体声填充在MCT联合声道对中激活时(表AMD4.4中hasStereoFilling[pair]≠0),使用先前帧的对应输出频谱的下混频(在MCT应用之后)将该声道对的第二声道的噪声填充区域(即,始于noiseFillingStartOffset或高于其)中的所有“空”比例因子带填充至特定目标能量。这是在FD噪声填充之后(参见ISO/IEC 23003-3:2012中的子节7.2)并且在比例因子和MCT联合立体声应用之前完成的。完成MCT处理后的所有输出频谱将被保存以用于在下一帧中进行潜在的立体声填充。
操作约束例如可能是,如果第二声道相同,hasStereoFilling[pair]≠0的任何后续MCT立体声对不支持第二声道的空频带中的立体声填充算法(hasStereoFilling[pair]≠0)的级联执行。在声道对元素中,根据[1]的子节5.5.5.4.9,第二(残差)声道中激活的IGF立体声填充优先于-并且因此禁用-同一帧的同一声道中的任何后续MCT立体声填充的应用。
术语和定义可以例如定义如下:
hasStereoFilling[pair] 指示当前处理的MCT声道对中对立体声填充的使用
ch1,ch2 当前处理的MCT声道对中的声道的索引
spectral_data[][] 当前处理的MCT声道对中声道的频谱系数
spectrum_data_prev[][] 先前帧中完成MCT处理之后的输出频谱
downmix_prev[][] 具有当前处理的MCT声道对给出的索引的先前帧的输出声道的估计的下 混频
num_swb 比例因子带的总数,见ISO/IEC23003-3第6.2.9.4子节
ccfl coreCoderFrameLength,变换长度,见ISO/IEC 23003-3第6.1子节
noiseFillingStartOffset 噪声填充起始线,根据ISO/IEC 23003-3表109中的ccfl定义
igf_WhiteningLevel IGF中的频谱白化,参见ISO/IEC 23008-3第5.5.5.4.7子节
seed[] randomSign()使用的噪声填充种子,参见ISO/IEC 23003-3第7.2子节
对于一些特定实施例,解码过程可以例如描述如下:
使用四个连续操作执行MCT立体声填充,如下所述:
步骤1:为立体声填充算法准备第二声道的频谱
如果给定MCT声道对的立体声填充指示符hasStereoFilling[pair]等于零,则不使用立体声填充,并且不执行以下步骤。否则,如果先前将比例因子应用于该声道对的第二声道频谱spectral_data[ch2],则会撤消比例因子应用。
步骤2:为给定的MCT声道对生成先前下混频谱
根据在应用MCT处理之后存储的先前帧的输出信号spectral_data_prev[][]估计先前下混频。如果先前输出声道信号不可用,例如由于单独的帧(indepFlag>0),变换长度变化或core_mode==1,对应声道的前一声道缓冲器应设置为零。
对于预测立体声对,即MCTSignalingType==0,先前下混频根据先前输出声道计算为[1]的第5.5.5.4.9.4子节的步骤2中定义的downmix_prev[][],其中spectrum[window][]由spectral_data[][window]表示。
对于旋转立体声对,即MCTSignalingType==1,通过反转在[2]的第5.5.X.3.7.1子节中定义的旋转操作,根据先前输出声道计算先前下混频。
使用先前帧的L=spectral_data_prev[ch1][]、R=spectral_data_prev[ch2][]、dmx=downmix_prev[],并使用当前帧和MCT对的Idx、nSamples。
步骤3:在第二声道的空频带中执行立体声填充算法
立体声填充应用于MCT对的第二声道,如[1]的第5.5.5.4.9.4子节的步骤3中,其中spectrum[window]由spectral_data[ch2][window]表示并且max_sfb_ste由num_swb给出。
步骤4:比例因子应用和噪声填充种子的自适应同步。
在[1]的第5.5.5.4.9.4子节的步骤3之后,比例因子应用于所得的频谱,如在ISO/IEC 23003-3的7.3中,其中空频带的比例因子像常规比例因子一样被处理。在未定义比例因子的情况下,例如因为其位于max_sfb之上,则其值应等于零。如果使用IGF,在任何第二声道的片块中igf_WhiteningLevel等于2,并且两个声道都不采用八个短变换,在执行decode_mct()之前,在从索引noiseFillingStartOffset到索引ccfl/2-1的范围内计算MCT声道对中两个声道的谱能量。如果计算的第一声道的能量比第二声道的能量大8倍以上,则将第二声道的种子[ch2]设置为等于第一声道的种子[ch1]。
尽管已经在装置的上下文中描述了一些方面,但是显然这些方面也表示对应方法的描述,其中块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面还表示对应装置的对应块或项目或特征的描述。一些或所有方法步骤可以由(或使用)硬件装置执行,例如微处理器、可编程计算机或电子电路。在一些实施例中,可以用这样的装置执行一个或多个最重要的方法步骤。
根据某些实施方式要求,可以用硬件或软件实现、或者至少部分地用硬件实现、或至少部分地用软件实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质来执行该实施方式,该数字存储介质例如是软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器,该电子可读控制信号与可编程计算机系统协作(或能够与其协作),从而执行相应方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作,从而执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,该程序代码可操作用于,当计算机程序产品在计算机上运行时,执行这些方法之一。该程序代码可以例如存储在机器可读载体上。
其他实施例包括被存储在机器可读载体上的用于执行本文所述方法之一的计算机程序。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于,当计算机程序在计算机上运行时,执行本文所述方法之一
因此,本发明方法的另一实施例是数据载体(或数字存储介质,或计算机可读介质),包括记录在其上的用于执行本文所述方法之一的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非暂时性的。
因此,本发明方法的另一实施例是表示用于执行本文所述方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接,例如经由互联网,进行传送。
另一实施例包括被配置为或适于执行本文所述方法之一的处理装置,例如计算机或可编程逻辑设备。
另一实施例包括其上安装有用于执行本文所述方法之一的计算机程序的计算机。
根据本发明的另一实施例包括一种装置或系统,被配置为向接收器传送(例如,电子地或光学地)用于执行本文所述方法之一的计算机程序。接收器可以是例如计算机、移动设备、存储设备等。该装置或系统可以例如包括用于向接收器传送计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可用于执行本文所述方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作,以便执行本文所述方法之一。通常,优选地由任何硬件装置执行该方法。
这里所述装置可以使用硬件装置、或使用计算机、或使用硬件装置和计算机的组合来实现。
本文所述的方法可以使用硬件装置、或使用计算机、或使用硬件装置和计算机的组合来执行。
上述实施例仅用于说明本发明的原理。应理解,本文所述的布置和细节的修改和变型对于本领域技术人员而言将是显而易见的。因此,旨在仅由专利的所附权利要求的范围限定,而并非由以描述和解释本文实施例的方式呈现的具体细节限定。
实施方式1:一种用于对先前帧的先前编码的多声道信号进行解码以获得三个或更多个先前音频输出声道并且用于对当前帧的当前编码的多声道信号(107)进行解码以获得三个或更多个当前音频输出声道的装置(201),
其中,所述装置(201)包括接口(212)、声道解码器(202)、用于生成所述三个或更多个当前音频输出声道的多声道处理器(204)、以及噪声填充模块(220),
其中,所述接口(212)适于接收所述当前编码的多声道信号(107),并且适于接收包括第一多声道参数(MCH_PAR2)的辅助信息,
其中,所述声道解码器(202)适于对所述当前帧的所述当前编码的多声道信号进行解码以获得所述当前帧的三个或更多个解码的声道(D1、D2、D3)的集合,
其中,所述多声道处理器(204)适于根据所述第一多声道参数(MCH_PAR2)从所述三个或更多个解码的声道(D1、D2、D3)的集合中选择两个解码的声道(D1、D2)的第一所选对,
其中,所述多声道处理器(204)适于基于所述两个解码的声道(D1、D2)的第一所选对生成第一组两个或更多个处理的声道(P1*、P2*),以获得更新后的三个或更多个解码的声道(D3、P1*、P2*)的集合,
其中,在所述多声道处理器(204)基于所述两个解码的声道(D1、D2)的第一所选对生成所述两个或更多个处理的声道(P1*、P2*)的第一对声道之前,所述噪声填充模块(220)适于针对所述两个解码的声道(D1、D2)的第一所选对的两个声道中的至少一个声道来标识其内部所有谱线被量化为零的一个或多个频带,并且适于使用所述三个或更多个先前音频输出声道中的两个或更多个但非所有声道来生成混合声道,并且适于以使用所述混合声道的谱线生成的噪声来填充其内部所有谱线被量化为零的所述一个或多个频带的谱线,其中,所述噪声填充模块(220)适于根据所述辅助信息从所述三个或更多个先前音频输出声道中选择用于生成所述混合声道的两个或更多个先前音频输出声道。
实施方式2:根据实施方式1所述的装置(201),
其中,所述噪声填充模块(220)适于使用所述三个或更多个先前音频输出声道中的恰好两个先前音频输出声道作为所述三个或更多个先前音频输出声道中的所述二个或更多个先前音频输出声道来生成所述混合声道;
其中,所述噪声填充模块(220)适于根据所述辅助信息从所述三个或更多个先前音频输出声道中选择所述恰好两个先前音频输出声道。
实施方式3:根据实施方式2所述的装置(201),
其中,所述噪声填充模块(220)适于基于以下等式
或基于以下等式
使用恰好两个先前音频输出声道生成所述混合声道,
其中,Dch是所述混合声道,
其中,是所述恰好两个先前音频输出声道中的第一声道,
其中,是所述恰好两个先前音频输出声道中的第二声道,所述第二声道与所述恰好两个先前音频输出声道中的所述第一声道不同,并且
其中,d是实数正标量。
实施方式4:根据实施方式2所述的装置(201),
其中,所述噪声填充模块(220)适于基于以下等式
或基于以下等式
使用恰好两个先前音频输出声道来生成所述混合声道,
其中,是所述混合声道,
其中,是所述恰好两个先前音频输出声道中的第一声道,
其中,是所述恰好两个先前音频输出声道中的第二声道,所述第二声道与所述恰好两个先前音频输出声道中的所述第一声道不同,并且
其中,α是旋转角度。
实施方式5:根据实施方式4所述的装置(201),
其中,所述辅助信息为被分配给所述当前帧的当前辅助信息,
其中,所述接口(212)适于接收被分配给先前帧的先前辅助信息,其中,所述先前辅助信息包括先前角度,
其中,所述接口(212)适于接收包括当前角度的所述当前辅助信息,并且
其中,所述噪声填充模块(220)适于使用所述当前辅助信息的所述当前角度作为所述旋转角度α,并且适于不使用所述先前辅助信息的所述先前角度作为所述旋转角度α。
实施方式6:根据实施方式2至5中任一项所述的装置(201),其中,所述噪声填充模块(220)适于根据所述第一多声道参数(MCH_PAR2)从所述三个或更多个先前音频输出声道中选择所述恰好两个先前音频输出声道。
实施方式7:根据实施方式2-6中任一项所述的装置(201),
其中,所述接口(212)适于接收所述当前编码的多声道信号(107),并且适于接收包括所述第一多声道参数(MCH_PAR2)和第二多声道参数(MCH_PAR1)的所述辅助信息,
其中,所述多声道处理器(204)适于根据所述第二多声道参数(MCH_PAR1)从所述更新后的三个或更多个解码的声道(D3、P1*、P2*)的集合中选择两个解码的声道(P1*、D3)的第二所选对,所述两个解码的声道(P1*、D3)的第二所选对中的至少一个声道(P1*)是所述两个或更多个处理的声道(P1*、P2*)的第一对声道中的一个声道,并且
其中,所述多声道处理器(204)适于基于所述两个解码的声道(P1*、D3)的第二所选对生成第二组两个或更多个处理的声道(P3*、P4*),以进一步更新所述更新后的三个或更多个解码的声道的集合。
实施方式8:根据实施方式7所述的装置(201),
其中,所述多声道处理器(204)适于通过基于所述两个解码的声道(D1、D2)的第一所选对生成第一组恰好两个处理的声道(P1*、P2*)来生成所述第一组两个或更多个处理的声道(P1*、P2*);
其中,所述多声道处理器(204)适于用所述第一组恰好两个处理的声道(P1*、P2*)替换所述三个或更多个解码的声道(D1、D2、D3)的集合中的所述两个解码的声道(D1、D2)的第一所选对,以获得所述更新后的三个或更多个解码的声道(D3、P1*、P2*)的集合;
其中,所述多声道处理器(204)适于通过基于所述两个解码的声道(P1*、D3)的第二所选对生成第二组恰好两个处理的声道(P3*、P4*)来生成所述第二组两个或更多个处理的声道(P3*、P4*),并且
其中,所述多声道处理器(204)适于用所述第二组恰好两个处理的声道(P3*、P4*)替换所述更新后的三个或更多个解码的声道(D3、P1*、P2*)的集合中的所述两个解码的声道(P1*、D3)的第二所选对,以进一步更新所述更新后的三个或更多个解码的声道的集合。
实施方式9:根据实施方式8所述的装置(201),
其中,所述第一多声道参数(MCH_PAR2)指示所述三个或更多个解码的声道的集合中的两个解码的声道(D1、D2);
其中,所述多声道处理器(204)适于通过选择由所述第一多声道参数(MCH_PAR2)指示的所述两个解码的声道(D1、D2)来从所述三个或更多个解码的声道(D1、D2、D3)的集合中选择所述两个解码的声道(D1、D2)的第一所选对;
其中,所述第二多声道参数(MCH_PAR1)指示所述更新后的三个或更多个解码的声道的集合中的两个解码的声道(P1*、D3);
其中,所述多声道处理器(204)适于通过选择由所述第二多声道参数(MCH_PAR1)指示的所述两个解码的声道(P1*、D3)来从所述更新后的三个或更多个解码的声道(D3、P1*、P2*)的集合中选择所述两个解码的声道(P1*、D3)的第二所选对。
实施方式10:根据实施方式9所述的装置(201),
其中,所述装置(201)适于向所述三个或更多个先前音频输出声道中的每个先前音频输出声道分配标识符集合中的标识符,使得所述三个或更多个先前音频输出声道中的每个先前音频输出声道被分配所述标识符集合中的恰好一个标识符,并且使得所述标识符集合中的每个标识符被分配给所述三个或更多个先前音频输出声道中的恰好一个先前音频输出声道,
其中,所述装置(201)适于向所述三个或更多个解码的声道(D1、D2、D3)的集合中的每个声道分配所述标识符集合中的标识符,使得所述三个或更多个解码的声道集合中的每个声道被分配所述标识符集合中的恰好一个标识符,并且使得所述标识符集合中的每个标识符被分配给所述三个或更多个解码的声道(D1、D2、D3)的集合中的恰好一个声道,
其中,所述第一多声道参数(MCH_PAR2)指示三个或更多个标识符的集合中的第一对两个标识符,
其中,所述多声道处理器(204)适于通过选择被分配所述第一对两个标识符的两个标识符的两个解码的声道(D1、D2)来从所述三个或更多个解码的声道(D1、D2、D3)的集合中选择所述两个解码的声道(D1、D2)的第一所选对;
其中,所述装置(201)适于向所述第一组恰好两个处理的声道(P1*、P2*)中的第一处理的声道分配所述第一对两个标识符的两个标识符中的第一标识符,并且其中,所述装置(210)适于向所述第一组恰好两个处理的声道(P1*、P2*)中的第二处理的声道分配所述第一对两个标识符的两个标识符中的第二标识符。
实施方式11:根据实施方式10所述的装置(201),
其中,所述第二多声道参数(MCH_PAR1)指示所述三个或更多个标识符的集合中的第二对两个标识符,
其中,所述多声道处理器(204)适于通过选择被分配所述第二对两个标识符的两个标识符的两个解码的声道(D3、P1*)来从所述更新后的三个或更多个解码的声道(D3、P1*、P2*)的集合中选择所述两个解码的声道(P1*、D3)的第二所选对;
其中,所述装置(201)适于向所述第二组恰好两个处理的声道(P3*、P4*)中的第一处理的声道分配所述第二对两个标识符的两个标识符中的第一标识符,并且其中,所述装置(201)适于向所述第二组恰好两个处理的声道(P3*、P4*)中的第二处理的声道分配所述第二对两个标识符的两个标识符中的第二标识符。
实施方式12:根据实施方式10或11所述的装置(201),
其中,所述第一多声道参数(MCH_PAR2)指示所述三个或更多个标识符的集合中的所述第一对两个标识符,并且
其中,所述噪声填充模块(220)适于通过选择被分配所述第一对两个标识符的两个标识符的两个先前音频输出声道来从所述三个或更多个先前音频输出声道中选择所述恰好两个先前音频输出声道。
实施方式13:根据前述实施方式中任一项所述的装置(201),其中,在所述多声道处理器(204)基于所述两个解码的声道(D1、D2)的第一所选对生成所述两个或更多个处理的声道(P1*、P2*)的第一对声道之前,所述噪声填充模块(220)适于针对所述两个解码的声道(D1、D2)的第一所选对的两个声道中的至少一个声道来标识其内部所有谱线被量化为零的一个或多个比例因子带,所述一个或多个比例因子带是所述一个或多个频带,并且适于使用所述三个或更多个先前音频输出声道中的所述两个或更多个但非所有声道来生成所述混合声道,并且适于根据其内部所有谱线被量化为零的所述一个或多个比例因子带中的每个比例因子带的比例因子,以使用所述混合声道的谱线生成的噪声来填充其内部所有谱线被量化为零的所述一个或多个比例因子带的谱线。
实施方式14:根据实施方式13所述的装置(201),
其中,所述接收接口(212)被配置为接收所述一个或多个比例因子带中的每个比例因子带的比例因子,并且
其中,所述一个或多个比例因子带中的每个比例因子带的比例因子指示在量化之前所述比例因子带的谱线的能量,并且
其中,所述噪声填充模块(220)适于针对其内部所有谱线被量化为零的所述一个或多个比例因子带中的每个比例因子带生成所述噪声,使得在将所述噪声加到所述频带中的一个频带之后所述谱线的能量对应于所述比例因子带的比例因子指示的能量。
实施方式15:一种用于对具有至少三个声道(CH1:CH3)的多声道信号(101)进行编码的装置(100),其中,所述装置包括:
迭代处理器(102),适于在第一迭代步骤中计算所述至少三个声道(CH1:CH3)中的每对声道之间的声道间相关值,以用于在所述第一迭代步骤中选择具有最高值或具有高于阈值的值的声道对,并且用于使用多声道处理操作(110、112)处理所选声道对从而导出所选声道对的初始多声道参数(MCH_PAR1)并导出第一处理的声道(P1、P2),
其中,所述迭代处理器(102)适于在第二迭代步骤中使用所述处理的声道中的至少一个处理的声道(P1)执行所述计算、所述选择和所述处理,以导出其它的多声道参数(MCH_PAR2)和第二处理的_声道(P3、P4);
声道编码器,适于对通过所述迭代处理器(104)执行的迭代处理得到的声道(P2:P4)进行编码以获得编码的声道(E1:E3);以及
输出接口(106),适于生成编码的多声道信号(107),所述编码的多声道信号(107)具有所述编码的声道(E1:E3)、所述初始多声道参数和所述其它的多声道参数(MCH_PAR1、MCH_PAR2),并且具有指示用于解码的装置是否须以基于先前解码的音频输出声道所生成的噪声来填充其内部所有谱线被量化为零的一个或多个频带的谱线的信息,所述先前解码的音频输出声道先前已经被所述用于解码的装置所解码。
实施方式16:根据实施方式15所述的装置(100),
其中,所述初始多声道参数和所述其它的多声道参数(MCH_PAR1、MCH_PAR2)中的每个参数指示恰好两个声道,所述恰好两个声道中的每个声道是所述编码的声道(E1:E3)中的一个声道或者是所述第一处理的声道或所述第二处理的声道(P1、P2、P3、P4)中的一个声道或者是所述至少三个声道(CH1:CH3)中的一个声道,并且
其中,所述输出接口(106)适于生成所述编码的多声道信号(107),使得指示用于解码的装置是否须填充其内部所有谱线被量化为零的一个或多个频带的谱线的所述信息包括指示如下内容的信息:对于所述初始多声道参数和所述其它的多声道参数(MCH_PAR1、MCH_PAR2)中的每个参数,针对所述初始多声道参数和所述其它的多声道参数(MCH_PAR1、MCH_PAR2)中的所述参数所指示的恰好两个声道中的至少一个声道,所述用于解码的装置是否须以基于先前解码的音频输出声道所生成的频谱数据来填充其内部所有谱线被量化为零的一个或多个频带的谱线,所述先前解码的音频输出声道先前已经被所述用于解码的装置所解码。
实施方式17:一种系统,包括:
根据实施方式15或16所述的用于编码的装置(100),以及
根据实施方式1至14中任一项所述的用于解码的装置(201),
其中,所述用于解码的装置(201)被配置为从所述用于编码的装置(100)接收所述用于编码的装置(100)生成的编码的多声道信号(107)。
实施方式18:一种用于对先前帧的先前编码的多声道信号进行解码以获得三个或更多个先前音频输出声道、并且用于对当前帧的当前编码的多声道信号(107)进行解码以获得三个或更多个当前音频输出声道的方法,其中,所述方法包括:
接收所述当前编码的多声道信号(107),并且接收包括第一多声道参数(MCH_PAR2)的辅助信息;
对所述当前帧的所述当前编码的多声道信号进行解码以获得所述当前帧的三个或更多个解码的声道(D1、D2、D3)的集合;
根据所述第一多声道参数(MCH_PAR2)从所述三个或更多个解码的声道(D1、D2、D3)的集合中选择两个解码的声道(D1、D2)的第一所选对;
基于所述两个解码的声道(D1、D2)的第一所选对生成第一组两个或更多个处理的声道(P1*、P2*),以获得更新后的三个或更多个解码的声道(D3、P1*、P2*)的集合;
其中,在基于所述两个解码的声道(D1、D2)的第一所选对生成所述两个或更多个处理的声道(P1*、P2*)的第一对声道之前,进行以下步骤:
针对所述两个解码的声道(D1、D2)的第一所选对的两个声道中的至少一个声道来标识其内部所有谱线被量化为零的一个或多个频带,并且使用所述三个或更多个先前音频输出声道中的两个或更多个但非所有声道生成混合声道,并且以使用所述混合声道的谱线生成的噪声来填充其内部所有谱线被量化为零的所述一个或多个频带的谱线,其中,根据所述辅助信息进行从所述三个或更多个先前音频输出声道中选择用于生成所述混合声道的两个或更多个先前音频输出声道。
实施方式19:一种用于对具有至少三个声道(CH1:CH3)的多声道信号(101)进行编码的方法,其中,所述方法包括:
在第一迭代步骤中计算所述至少三个声道(CH1:CH3)中的每对声道之间的声道间相关值,以用于在所述第一迭代步骤中选择具有最高值或具有高于阈值的值的声道对,并且使用多声道处理操作(110、112)来处理所选声道对从而导出所选声道对的初始多声道参数(MCH_PAR1)并导出第一处理的声道(P1、P2);
在第二迭代步骤中,使用所述处理的声道中的至少一个声道(P1)执行所述计算、所述选择和所述处理,以导出其它的多声道参数(MCH_PAR2)和第二处理的声道(P3、P4);
对通过所述迭代处理器(104)执行的迭代处理得到的声道(P2:P4)进行编码,以获得编码的声道(E1:E3);以及
生成编码的多声道信号(107),所述编码的多声道信号(107)具有所述编码的声道(E1:E3)、所述初始多声道参数和所述其它的多声道参数(MCH_PAR1、MCH_PAR2),并且具有指示用于解码的装置是否须以基于先前解码的音频输出声道所生成的噪声来填充其内部所有谱线被量化为零的一个或多个频带的谱线的信息,所述先前解码的音频输出声道先前已经被所述用于解码的装置所解码。
实施方式20:一种计算机程序,当在计算机或信号处理器上执行时用于实施根据实施方式18或19所述的方法。
实施方式21:一种编码的多声道信号(107),包括:
编码的声道(E1:E3),
多声道参数(MCH_PAR1、MCH_PAR2);以及
指示用于解码的装置是否须以基于先前解码的音频输出声道所生成的噪声来填充其内部所有谱线被量化为零的一个或多个频带的谱线的信息,所述先前解码的音频输出声道先前已经被所述用于解码的装置所解码。
实施方式22:根据实施方式21所述的编码的多声道信号(107),
其中,所述编码的多声道信号包括两个或更多个多声道参数(MCH_PAR1、MCH_PAR2)作为所述多声道参数(MCH_PAR1、MCH_PAR2),
其中,所述两个或更多个多声道参数(MCH_PAR1、MCH_PAR2)中的每个参数指示恰好两个声道,所述恰好两个声道中的每个声道是所述编码的声道(E1:E3)中的一个声道或者是多个处理的声道(P1、P2、P3、P4))中的一个声道或者是至少三个初始声道(CH:CH3)中的一个声道,并且
其中,指示用于解码的装置是否须填充其内部所有谱线被量化为零的一个或多个频带的谱线的所述信息包括指示如下内容的信息:对于所述两个或更多个多声道参数(MCH_PAR1、MCH_PAR2)中的每个参数,针对所述两个或更多个多声道参数中的所述参数指示的所述恰好两个声道中的至少一个声道,所述用于解码的装置是否须以基于先前解码的音频输出声道所生成的频谱数据来填充其内部所有谱线被量化为零的一个或多个频带的谱线,所述先前解码的音频输出声道先前已经被所述用于解码的装置所解码。
参考文献
[1]ISO/IEC international standard 23008-3:2015,“Informationtechnology-High efficiency coding and media deliverly in heterogen的usenvironments-Part 3:3D audio,”March 2015
[2]ISO/IEC amendment 23008-3:2015/PDAM3,“Information technology-Highefficiency coding and media delivery in heterogeneous environments-Part 3:3Daudio,Amendment 3:MPEG-H 3D Audio Phase 2,”July 2015
[3]Internatonal organization for Standardization,ISO/IEC 23003-3:2012,“Information Technology-MPEG audio-Part 3:Unified speech and audiocoding,”Gereva,Jan.2012
[4]ISO/IEC 23003-1:2007-Information technology-MPEG audiotechnologies Part 1:MPEG Surround
[5]C.R.Helmrich,A.Niedermeier,S.Bayer,B.Edler,“Low-Complexity Semi-Parametric Joint-Stereo Audio Transform Coding,”in Proc.EUSIPCO,Nice,September 2015
[6]ETSI TS 103 190 V1.1.1(2014-04)-Digital Audio Compression(AG-4)Standard
[7]Yang,Dai and Ai,Hongmei and Kyriakakis,Chris and Kuo,C.-C.Jay,2001:Adaptive Karhunen-Loewe Transform for Enhanced Multichannel AudioCoding,http://ict.usc.edu/pubs/Adaptive%20Karhunen-Loeve%20Transform%20for%20Enhanced%20Multichannel%20Audio%20Coding.pdf
[8]European Patent Application,Publication EP 2 830 060 A1:“Noisefilling in multichannel audio coding”,published on 28January 2015
[9]Internet Engineering Task Force(IETF),RFC 6716,“Definition of theOpus Audio Codec,”I4t.Standard,sep.2012.Available online at:http://tools.ieft.org/html/rfc6716
[10]Intemational organization for Standardization,ISO/IEC 14496-3:2009,“Information Technology-Coding of audio-visual objects-Part 3:Audio,”Geneva,Switzerland,Aug.2009
[11]M.Neuendorf et al.,“MPEG Unified Speech and Audio Coding-The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Typos,”inProc.132ndAES Convention,Budapest,Hungary,Apr.2012.Also to appear in theJournal of the AES,2013
Claims (22)
1.一种用于对先前帧的先前编码的多声道信号进行解码以获得三个或更多个先前音频输出声道并且用于对当前帧的当前编码的多声道信号(107)进行解码以获得三个或更多个当前音频输出声道的装置(201),
其中,所述装置(201)包括接口(212)、声道解码器(202)、用于生成所述三个或更多个当前音频输出声道的多声道处理器(204)、以及噪声填充模块(220),
其中,所述接口(212)适于接收所述当前编码的多声道信号(107),并且适于接收包括第一多声道参数(MCH_PAR2)的辅助信息,
其中,所述声道解码器(202)适于对所述当前帧的所述当前编码的多声道信号进行解码以获得所述当前帧的三个或更多个解码的声道(D1、D2、D3)的集合,
其中,所述多声道处理器(204)适于根据所述第一多声道参数(MCH_PAR2)从所述三个或更多个解码的声道(D1、D2、D3)的集合中选择两个解码的声道(D1、D2)的第一所选对,
其中,所述多声道处理器(204)适于基于所述两个解码的声道(D1、D2)的第一所选对生成第一组两个或更多个处理的声道(P1*、P2*),以获得更新后的三个或更多个解码的声道(D3、P1*、P2*)的集合,
其中,在所述多声道处理器(204)基于所述两个解码的声道(D1、D2)的第一所选对生成所述两个或更多个处理的声道(P1*、P2*)的第一对声道之前,所述噪声填充模块(220)适于针对所述两个解码的声道(D1、D2)的第一所选对的两个声道中的至少一个声道来标识其内部所有谱线被量化为零的一个或多个频带,并且适于使用所述三个或更多个先前音频输出声道中的两个或更多个但非所有声道来生成混合声道,并且适于以使用所述混合声道的谱线生成的噪声来填充其内部所有谱线被量化为零的所述一个或多个频带的谱线,其中,所述噪声填充模块(220)适于根据所述辅助信息从所述三个或更多个先前音频输出声道中选择用于生成所述混合声道的两个或更多个先前音频输出声道。
2.根据权利要求1所述的装置(201),
其中,所述噪声填充模块(220)适于使用所述三个或更多个先前音频输出声道中的恰好两个先前音频输出声道作为所述三个或更多个先前音频输出声道中的所述二个或更多个先前音频输出声道来生成所述混合声道;
其中,所述噪声填充模块(220)适于根据所述辅助信息从所述三个或更多个先前音频输出声道中选择所述恰好两个先前音频输出声道。
3.根据权利要求2所述的装置(201),
其中,所述噪声填充模块(220)适于基于以下等式
或基于以下等式
使用恰好两个先前音频输出声道生成所述混合声道,
其中,Dch是所述混合声道,
其中,是所述恰好两个先前音频输出声道中的第一声道,
其中,是所述恰好两个先前音频输出声道中的第二声道,所述第二声道与所述恰好两个先前音频输出声道中的所述第一声道不同,并且
其中,d是实数正标量。
4.根据权利要求2所述的装置(201),
其中,所述噪声填充模块(220)适于基于以下等式
或基于以下等式
使用恰好两个先前音频输出声道来生成所述混合声道,
其中,是所述混合声道,
其中,是所述恰好两个先前音频输出声道中的第一声道,
其中,是所述恰好两个先前音频输出声道中的第二声道,所述第二声道与所述恰好两个先前音频输出声道中的所述第一声道不同,并且
其中,α是旋转角度。
5.根据权利要求4所述的装置(201),
其中,所述辅助信息为被分配给所述当前帧的当前辅助信息,
其中,所述接口(212)适于接收被分配给先前帧的先前辅助信息,其中,所述先前辅助信息包括先前角度,
其中,所述接口(212)适于接收包括当前角度的所述当前辅助信息,并且
其中,所述噪声填充模块(220)适于使用所述当前辅助信息的所述当前角度作为所述旋转角度α,并且适于不使用所述先前辅助信息的所述先前角度作为所述旋转角度α。
6.根据权利要求2至5中任一项所述的装置(201),其中,所述噪声填充模块(220)适于根据所述第一多声道参数(MCH_PAR2)从所述三个或更多个先前音频输出声道中选择所述恰好两个先前音频输出声道。
7.根据权利要求2-6中任一项所述的装置(201),
其中,所述接口(212)适于接收所述当前编码的多声道信号(107),并且适于接收包括所述第一多声道参数(MCH_PAR2)和第二多声道参数(MCH_PAR1)的所述辅助信息,
其中,所述多声道处理器(204)适于根据所述第二多声道参数(MCH_PAR1)从所述更新后的三个或更多个解码的声道(D3、P1*、P2*)的集合中选择两个解码的声道(P1*、D3)的第二所选对,所述两个解码的声道(P1*、D3)的第二所选对中的至少一个声道(P1*)是所述两个或更多个处理的声道(P1*、P2*)的第一对声道中的一个声道,并且
其中,所述多声道处理器(204)适于基于所述两个解码的声道(P1*、D3)的第二所选对生成第二组两个或更多个处理的声道(P3*、P4*),以进一步更新所述更新后的三个或更多个解码的声道的集合。
8.根据权利要求7所述的装置(201),
其中,所述多声道处理器(204)适于通过基于所述两个解码的声道(D1、D2)的第一所选对生成第一组恰好两个处理的声道(P1*、P2*)来生成所述第一组两个或更多个处理的声道(P1*、P2*);
其中,所述多声道处理器(204)适于用所述第一组恰好两个处理的声道(P1*、P2*)替换所述三个或更多个解码的声道(D1、D2、D3)的集合中的所述两个解码的声道(D1、D2)的第一所选对,以获得所述更新后的三个或更多个解码的声道(D3、P1*、P2*)的集合;
其中,所述多声道处理器(204)适于通过基于所述两个解码的声道(P1*、D3)的第二所选对生成第二组恰好两个处理的声道(P3*、P4*)来生成所述第二组两个或更多个处理的声道(P3*、P4*),并且
其中,所述多声道处理器(204)适于用所述第二组恰好两个处理的声道(P3*、P4*)替换所述更新后的三个或更多个解码的声道(D3、P1*、P2*)的集合中的所述两个解码的声道(P1*、D3)的第二所选对,以进一步更新所述更新后的三个或更多个解码的声道的集合。
9.根据权利要求8所述的装置(201),
其中,所述第一多声道参数(MCH_PAR2)指示所述三个或更多个解码的声道的集合中的两个解码的声道(D1、D2);
其中,所述多声道处理器(204)适于通过选择由所述第一多声道参数(MCH_PAR2)指示的所述两个解码的声道(D1、D2)来从所述三个或更多个解码的声道(D1、D2、D3)的集合中选择所述两个解码的声道(D1、D2)的第一所选对;
其中,所述第二多声道参数(MCH_PAR1)指示所述更新后的三个或更多个解码的声道的集合中的两个解码的声道(P1*、D3);
其中,所述多声道处理器(204)适于通过选择由所述第二多声道参数(MCH_PAR1)指示的所述两个解码的声道(P1*、D3)来从所述更新后的三个或更多个解码的声道(D3、P1*、P2*)的集合中选择所述两个解码的声道(P1*、D3)的第二所选对。
10.根据权利要求9所述的装置(201),
其中,所述装置(201)适于向所述三个或更多个先前音频输出声道中的每个先前音频输出声道分配标识符集合中的标识符,使得所述三个或更多个先前音频输出声道中的每个先前音频输出声道被分配所述标识符集合中的恰好一个标识符,并且使得所述标识符集合中的每个标识符被分配给所述三个或更多个先前音频输出声道中的恰好一个先前音频输出声道,
其中,所述装置(201)适于向所述三个或更多个解码的声道(D1、D2、D3)的集合中的每个声道分配所述标识符集合中的标识符,使得所述三个或更多个解码的声道集合中的每个声道被分配所述标识符集合中的恰好一个标识符,并且使得所述标识符集合中的每个标识符被分配给所述三个或更多个解码的声道(D1、D2、D3)的集合中的恰好一个声道,
其中,所述第一多声道参数(MCH_PAR2)指示三个或更多个标识符的集合中的第一对两个标识符,
其中,所述多声道处理器(204)适于通过选择被分配所述第一对两个标识符的两个标识符的两个解码的声道(D1、D2)来从所述三个或更多个解码的声道(D1、D2、D3)的集合中选择所述两个解码的声道(D1、D2)的第一所选对;
其中,所述装置(201)适于向所述第一组恰好两个处理的声道(P1*、P2*)中的第一处理的声道分配所述第一对两个标识符的两个标识符中的第一标识符,并且其中,所述装置(210)适于向所述第一组恰好两个处理的声道(P1*、P2*)中的第二处理的声道分配所述第一对两个标识符的两个标识符中的第二标识符。
11.根据权利要求10所述的装置(201),
其中,所述第二多声道参数(MCH_PAR1)指示所述三个或更多个标识符的集合中的第二对两个标识符,
其中,所述多声道处理器(204)适于通过选择被分配所述第二对两个标识符的两个标识符的两个解码的声道(D3、P1*)来从所述更新后的三个或更多个解码的声道(D3、P1*、P2*)的集合中选择所述两个解码的声道(P1*、D3)的第二所选对;
其中,所述装置(201)适于向所述第二组恰好两个处理的声道(P3*、P4*)中的第一处理的声道分配所述第二对两个标识符的两个标识符中的第一标识符,并且其中,所述装置(201)适于向所述第二组恰好两个处理的声道(P3*、P4*)中的第二处理的声道分配所述第二对两个标识符的两个标识符中的第二标识符。
12.根据权利要求10或11所述的装置(201),
其中,所述第一多声道参数(MCH_PAR2)指示所述三个或更多个标识符的集合中的所述第一对两个标识符,并且
其中,所述噪声填充模块(220)适于通过选择被分配所述第一对两个标识符的两个标识符的两个先前音频输出声道来从所述三个或更多个先前音频输出声道中选择所述恰好两个先前音频输出声道。
13.根据前述权利要求中任一项所述的装置(201),其中,在所述多声道处理器(204)基于所述两个解码的声道(D1、D2)的第一所选对生成所述两个或更多个处理的声道(P1*、P2*)的第一对声道之前,所述噪声填充模块(220)适于针对所述两个解码的声道(D1、D2)的第一所选对的两个声道中的至少一个声道来标识其内部所有谱线被量化为零的一个或多个比例因子带,所述一个或多个比例因子带是所述一个或多个频带,并且适于使用所述三个或更多个先前音频输出声道中的所述两个或更多个但非所有声道来生成所述混合声道,并且适于根据其内部所有谱线被量化为零的所述一个或多个比例因子带中的每个比例因子带的比例因子,以使用所述混合声道的谱线生成的噪声来填充其内部所有谱线被量化为零的所述一个或多个比例因子带的谱线。
14.根据权利要求13所述的装置(201),
其中,所述接收接口(212)被配置为接收所述一个或多个比例因子带中的每个比例因子带的比例因子,并且
其中,所述一个或多个比例因子带中的每个比例因子带的比例因子指示在量化之前所述比例因子带的谱线的能量,并且
其中,所述噪声填充模块(220)适于针对其内部所有谱线被量化为零的所述一个或多个比例因子带中的每个比例因子带生成所述噪声,使得在将所述噪声加到所述频带中的一个频带之后所述谱线的能量对应于所述比例因子带的比例因子指示的能量。
15.一种用于对具有至少三个声道(CH1:CH3)的多声道信号(101)进行编码的装置(100),其中,所述装置包括:
迭代处理器(102),适于在第一迭代步骤中计算所述至少三个声道(CH1:CH3)中的每对声道之间的声道间相关值,以用于在所述第一迭代步骤中选择具有最高值或具有高于阈值的值的声道对,并且用于使用多声道处理操作(110、112)处理所选声道对从而导出所选声道对的初始多声道参数(MCH_PAR1)并导出第一处理的声道(P1、P2),
其中,所述迭代处理器(102)适于在第二迭代步骤中使用所述处理的声道中的至少一个处理的声道(P1)执行所述计算、所述选择和所述处理,以导出其它的多声道参数(MCH_PAR2)和第二处理的声道(P3、P4);
声道编码器,适于对通过所述迭代处理器(104)执行的迭代处理得到的声道(P2:P4)进行编码以获得编码的声道(E1:E3);以及
输出接口(106),适于生成编码的多声道信号(107),所述编码的多声道信号(107)具有所述编码的声道(E1:E3)、所述初始多声道参数和所述其它的多声道参数(MCH_PAR1、MCH_PAR2),并且具有指示用于解码的装置是否须以基于先前解码的音频输出声道所生成的噪声来填充其内部所有谱线被量化为零的一个或多个频带的谱线的信息,所述先前解码的音频输出声道先前已经被所述用于解码的装置所解码。
16.根据权利要求15所述的装置(100),
其中,所述初始多声道参数和所述其它的多声道参数(MCH_PAR1、MCH_PAR2)中的每个参数指示恰好两个声道,所述恰好两个声道中的每个声道是所述编码的声道(E1:E3)中的一个声道或者是所述第一处理的声道或所述第二处理的声道(P1、P2、P3、P4)中的一个声道或者是所述至少三个声道(CH1:CH3)中的一个声道,并且
其中,所述输出接口(106)适于生成所述编码的多声道信号(107),使得指示用于解码的装置是否须填充其内部所有谱线被量化为零的一个或多个频带的谱线的所述信息包括指示如下内容的信息:对于所述初始多声道参数和所述其它的多声道参数(MCH_PAR1、MCH_PAR2)中的每个参数,针对所述初始多声道参数和所述其它的多声道参数(MCH_PAR1、MCH_PAR2)中的所述参数所指示的恰好两个声道中的至少一个声道,所述用于解码的装置是否须以基于先前解码的音频输出声道所生成的频谱数据来填充其内部所有谱线被量化为零的一个或多个频带的谱线,所述先前解码的音频输出声道先前已经被所述用于解码的装置所解码。
17.一种系统,包括:
根据权利要求15或16所述的用于编码的装置(100),以及
根据权利要求1至14中任一项所述的用于解码的装置(201),
其中,所述用于解码的装置(201)被配置为从所述用于编码的装置(100)接收所述用于编码的装置(100)生成的编码的多声道信号(107)。
18.一种用于对先前帧的先前编码的多声道信号进行解码以获得三个或更多个先前音频输出声道、并且用于对当前帧的当前编码的多声道信号(107)进行解码以获得三个或更多个当前音频输出声道的方法,其中,所述方法包括:
接收所述当前编码的多声道信号(107),并且接收包括第一多声道参数(MCH_PAR2)的辅助信息;
对所述当前帧的所述当前编码的多声道信号进行解码以获得所述当前帧的三个或更多个解码的声道(D1、D2、D3)的集合;
根据所述第一多声道参数(MCH_PAR2)从所述三个或更多个解码的声道(D1、D2、D3)的集合中选择两个解码的声道(D1、D2)的第一所选对;
基于所述两个解码的声道(D1、D2)的第一所选对生成第一组两个或更多个处理的声道(P1*、P2*),以获得更新后的三个或更多个解码的声道(D3、P1*、P2*)的集合;
其中,在基于所述两个解码的声道(D1、D2)的第一所选对生成所述两个或更多个处理的声道(P1*、P2*)的第一对声道之前,进行以下步骤:
针对所述两个解码的声道(D1、D2)的第一所选对的两个声道中的至少一个声道来标识其内部所有谱线被量化为零的一个或多个频带,并且使用所述三个或更多个先前音频输出声道中的两个或更多个但非所有声道生成混合声道,并且以使用所述混合声道的谱线生成的噪声来填充其内部所有谱线被量化为零的所述一个或多个频带的谱线,其中,根据所述辅助信息进行从所述三个或更多个先前音频输出声道中选择用于生成所述混合声道的两个或更多个先前音频输出声道。
19.一种用于对具有至少三个声道(CH1:CH3)的多声道信号(101)进行编码的方法,其中,所述方法包括:
在第一迭代步骤中计算所述至少三个声道(CH1:CH3)中的每对声道之间的声道间相关值,以用于在所述第一迭代步骤中选择具有最高值或具有高于阈值的值的声道对,并且使用多声道处理操作(110、112)来处理所选声道对从而导出所选声道对的初始多声道参数(MCH_PAR1)并导出第一处理的声道(P1、P2);
在第二迭代步骤中,使用所述处理的声道中的至少一个声道(P1)执行所述计算、所述选择和所述处理,以导出其它的多声道参数(MCH_PAR2)和第二处理的声道(P3、P4);
对通过所述迭代处理器(104)执行的迭代处理得到的声道(P2:P4)进行编码,以获得编码的声道(E1:E3);以及
生成编码的多声道信号(107),所述编码的多声道信号(107)具有所述编码的声道(E1:E3)、所述初始多声道参数和所述其它的多声道参数(MCH_PAR1、MCH_PAR2),并且具有指示用于解码的装置是否须以基于先前解码的音频输出声道所生成的噪声来填充其内部所有谱线被量化为零的一个或多个频带的谱线的信息,所述先前解码的音频输出声道先前已经被所述用于解码的装置所解码。
20.一种计算机程序,当在计算机或信号处理器上执行时用于实施根据权利要求18或19所述的方法。
21.一种编码的多声道信号(107),包括:
编码的声道(E1:E3),
多声道参数(MCH_PAR1、MCH_PAR2);以及
指示用于解码的装置是否须以基于先前解码的音频输出声道所生成的噪声来填充其内部所有谱线被量化为零的一个或多个频带的谱线的信息,所述先前解码的音频输出声道先前已经被所述用于解码的装置所解码。
22.根据权利要求21所述的编码的多声道信号(107),
其中,所述编码的多声道信号包括两个或更多个多声道参数(MCH_PAR1、MCH_PAR2)作为所述多声道参数(MCH_PAR1、MCH_PAR2),
其中,所述两个或更多个多声道参数(MCH_PAR1、MCH_PAR2)中的每个参数指示恰好两个声道,所述恰好两个声道中的每个声道是所述编码的声道(E1:E3)中的一个声道或者是多个处理的声道(P1、P2、P3、P4))中的一个声道或者是至少三个初始声道(CH:CH3)中的一个声道,并且
其中,指示用于解码的装置是否须填充其内部所有谱线被量化为零的一个或多个频带的谱线的所述信息包括指示如下内容的信息:对于所述两个或更多个多声道参数(MCH_PAR1、MCH_PAR2)中的每个参数,针对所述两个或更多个多声道参数中的所述参数指示的所述恰好两个声道中的至少一个声道,所述用于解码的装置是否须以基于先前解码的音频输出声道所生成的频谱数据来填充其内部所有谱线被量化为零的一个或多个频带的谱线,所述先前解码的音频输出声道先前已经被所述用于解码的装置所解码。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16156209.5A EP3208800A1 (en) | 2016-02-17 | 2016-02-17 | Apparatus and method for stereo filing in multichannel coding |
EP16156209.5 | 2016-02-17 | ||
CN201780023524.4A CN109074810B (zh) | 2016-02-17 | 2017-02-14 | 用于多声道编码中的立体声填充的装置和方法 |
PCT/EP2017/053272 WO2017140666A1 (en) | 2016-02-17 | 2017-02-14 | Apparatus and method for stereo filling in multichannel coding |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780023524.4A Division CN109074810B (zh) | 2016-02-17 | 2017-02-14 | 用于多声道编码中的立体声填充的装置和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117059110A true CN117059110A (zh) | 2023-11-14 |
Family
ID=55361430
Family Applications (6)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310976535.1A Pending CN117116272A (zh) | 2016-02-17 | 2017-02-14 | 用于多声道编码中的立体声填充的装置和方法 |
CN201780023524.4A Active CN109074810B (zh) | 2016-02-17 | 2017-02-14 | 用于多声道编码中的立体声填充的装置和方法 |
CN202310980026.6A Pending CN117059110A (zh) | 2016-02-17 | 2017-02-14 | 用于多声道编码中的立体声填充的装置和方法 |
CN202310973606.2A Pending CN117059109A (zh) | 2016-02-17 | 2017-02-14 | 用于多声道编码中的立体声填充的装置和方法 |
CN202310970975.6A Pending CN117059108A (zh) | 2016-02-17 | 2017-02-14 | 用于多声道编码中的立体声填充的装置和方法 |
CN202310973621.7A Pending CN117153171A (zh) | 2016-02-17 | 2017-02-14 | 用于多声道编码中的立体声填充的装置和方法 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310976535.1A Pending CN117116272A (zh) | 2016-02-17 | 2017-02-14 | 用于多声道编码中的立体声填充的装置和方法 |
CN201780023524.4A Active CN109074810B (zh) | 2016-02-17 | 2017-02-14 | 用于多声道编码中的立体声填充的装置和方法 |
Family Applications After (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310973606.2A Pending CN117059109A (zh) | 2016-02-17 | 2017-02-14 | 用于多声道编码中的立体声填充的装置和方法 |
CN202310970975.6A Pending CN117059108A (zh) | 2016-02-17 | 2017-02-14 | 用于多声道编码中的立体声填充的装置和方法 |
CN202310973621.7A Pending CN117153171A (zh) | 2016-02-17 | 2017-02-14 | 用于多声道编码中的立体声填充的装置和方法 |
Country Status (19)
Country | Link |
---|---|
US (3) | US10733999B2 (zh) |
EP (4) | EP3208800A1 (zh) |
JP (4) | JP6735053B2 (zh) |
KR (1) | KR102241915B1 (zh) |
CN (6) | CN117116272A (zh) |
AR (1) | AR107617A1 (zh) |
AU (1) | AU2017221080B2 (zh) |
BR (5) | BR122023025319A2 (zh) |
CA (1) | CA3014339C (zh) |
ES (1) | ES2773795T3 (zh) |
MX (3) | MX2018009942A (zh) |
MY (1) | MY194946A (zh) |
PL (1) | PL3417452T3 (zh) |
PT (1) | PT3417452T (zh) |
RU (1) | RU2710949C1 (zh) |
SG (1) | SG11201806955QA (zh) |
TW (1) | TWI634548B (zh) |
WO (1) | WO2017140666A1 (zh) |
ZA (1) | ZA201805498B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10037750B2 (en) * | 2016-02-17 | 2018-07-31 | RMXHTZ, Inc. | Systems and methods for analyzing components of audio tracks |
EP3208800A1 (en) * | 2016-02-17 | 2017-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for stereo filing in multichannel coding |
EP3497944A1 (en) * | 2016-10-31 | 2019-06-19 | Google LLC | Projection-based audio coding |
WO2018201113A1 (en) * | 2017-04-28 | 2018-11-01 | Dts, Inc. | Audio coder window and transform implementations |
EP3467824B1 (en) * | 2017-10-03 | 2021-04-21 | Dolby Laboratories Licensing Corporation | Method and system for inter-channel coding |
EP3740950B8 (en) | 2018-01-18 | 2022-05-18 | Dolby Laboratories Licensing Corporation | Methods and devices for coding soundfield representation signals |
IL313348A (en) | 2018-04-25 | 2024-08-01 | Dolby Int Ab | Combining high-frequency restoration techniques with reduced post-processing delay |
IL278223B2 (en) | 2018-04-25 | 2023-12-01 | Dolby Int Ab | Combining high-frequency audio reconstruction techniques |
EP3588495A1 (en) | 2018-06-22 | 2020-01-01 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Multichannel audio coding |
SG11202007629UA (en) | 2018-07-02 | 2020-09-29 | Dolby Laboratories Licensing Corp | Methods and devices for encoding and/or decoding immersive audio signals |
EP3719799A1 (en) * | 2019-04-04 | 2020-10-07 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation |
GB2589091B (en) * | 2019-11-15 | 2022-01-12 | Meridian Audio Ltd | Spectral compensation filters for close proximity sound sources |
TWI750565B (zh) * | 2020-01-15 | 2021-12-21 | 原相科技股份有限公司 | 真無線多聲道揚聲裝置及其多音源發聲之方法 |
CN113948097A (zh) * | 2020-07-17 | 2022-01-18 | 华为技术有限公司 | 多声道音频信号编码方法和装置 |
CN114023338A (zh) * | 2020-07-17 | 2022-02-08 | 华为技术有限公司 | 多声道音频信号的编码方法和装置 |
CN113948096A (zh) * | 2020-07-17 | 2022-01-18 | 华为技术有限公司 | 多声道音频信号编解码方法和装置 |
TWI744036B (zh) | 2020-10-14 | 2021-10-21 | 緯創資通股份有限公司 | 聲音辨識模型訓練方法及系統與電腦可讀取媒體 |
CN113242546B (zh) * | 2021-06-25 | 2023-04-21 | 南京中感微电子有限公司 | 音频转发方法、设备和存储介质 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102005010057A1 (de) * | 2005-03-04 | 2006-09-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms |
RU2406164C2 (ru) * | 2006-02-07 | 2010-12-10 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Устройство и способ для кодирования/декодирования сигнала |
JP5363488B2 (ja) * | 2007-09-19 | 2013-12-11 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | マルチチャネル・オーディオのジョイント強化 |
CN100555414C (zh) * | 2007-11-02 | 2009-10-28 | 华为技术有限公司 | 一种dtx判决方法和装置 |
US7820321B2 (en) | 2008-07-07 | 2010-10-26 | Enervault Corporation | Redox flow battery system for distributed energy storage |
EP4407610A1 (en) * | 2008-07-11 | 2024-07-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program |
CN102089814B (zh) * | 2008-07-11 | 2012-11-21 | 弗劳恩霍夫应用研究促进协会 | 对编码的音频信号进行解码的设备和方法 |
JP5608660B2 (ja) * | 2008-10-10 | 2014-10-15 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | エネルギ保存型マルチチャネルオーディオ符号化 |
WO2010053287A2 (en) * | 2008-11-04 | 2010-05-14 | Lg Electronics Inc. | An apparatus for processing an audio signal and method thereof |
US20100324915A1 (en) * | 2009-06-23 | 2010-12-23 | Electronic And Telecommunications Research Institute | Encoding and decoding apparatuses for high quality multi-channel audio codec |
SI2510515T1 (sl) | 2009-12-07 | 2014-06-30 | Dolby Laboratories Licensing Corporation | Dekodiranje večkanalnih avdio kodiranih bitnih prenosov s pomočjo adaptivne hibridne transformacije |
EP2375409A1 (en) | 2010-04-09 | 2011-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction |
CA3097372C (en) | 2010-04-09 | 2021-11-30 | Dolby International Ab | Mdct-based complex prediction stereo coding |
WO2012122297A1 (en) * | 2011-03-07 | 2012-09-13 | Xiph. Org. | Methods and systems for avoiding partial collapse in multi-block audio coding |
TWI606441B (zh) * | 2011-05-13 | 2017-11-21 | 三星電子股份有限公司 | 解碼裝置 |
CN102208188B (zh) * | 2011-07-13 | 2013-04-17 | 华为技术有限公司 | 音频信号编解码方法和设备 |
CN103971689B (zh) * | 2013-02-04 | 2016-01-27 | 腾讯科技(深圳)有限公司 | 一种音频识别方法及装置 |
WO2014210284A1 (en) * | 2013-06-27 | 2014-12-31 | Dolby Laboratories Licensing Corporation | Bitstream syntax for spatial voice coding |
EP2830045A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
EP2830060A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise filling in multichannel audio coding |
EP2830061A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
TWI847206B (zh) * | 2013-09-12 | 2024-07-01 | 瑞典商杜比國際公司 | 多聲道音訊系統中之解碼方法、解碼裝置、包含用於執行解碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置的音訊系統 |
EP3208800A1 (en) | 2016-02-17 | 2017-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for stereo filing in multichannel coding |
-
2016
- 2016-02-17 EP EP16156209.5A patent/EP3208800A1/en not_active Withdrawn
-
2017
- 2017-02-14 KR KR1020187026841A patent/KR102241915B1/ko active IP Right Grant
- 2017-02-14 CN CN202310976535.1A patent/CN117116272A/zh active Pending
- 2017-02-14 EP EP17704485.6A patent/EP3417452B1/en active Active
- 2017-02-14 MX MX2018009942A patent/MX2018009942A/es unknown
- 2017-02-14 MY MYPI2018001455A patent/MY194946A/en unknown
- 2017-02-14 BR BR122023025319-1A patent/BR122023025319A2/pt unknown
- 2017-02-14 CA CA3014339A patent/CA3014339C/en active Active
- 2017-02-14 WO PCT/EP2017/053272 patent/WO2017140666A1/en active Application Filing
- 2017-02-14 AR ARP170100361A patent/AR107617A1/es active IP Right Grant
- 2017-02-14 JP JP2018543213A patent/JP6735053B2/ja active Active
- 2017-02-14 ES ES17704485T patent/ES2773795T3/es active Active
- 2017-02-14 PL PL17704485T patent/PL3417452T3/pl unknown
- 2017-02-14 BR BR122023025314-0A patent/BR122023025314A2/pt unknown
- 2017-02-14 RU RU2018132731A patent/RU2710949C1/ru active
- 2017-02-14 AU AU2017221080A patent/AU2017221080B2/en active Active
- 2017-02-14 BR BR122023025322-1A patent/BR122023025322A2/pt unknown
- 2017-02-14 PT PT177044856T patent/PT3417452T/pt unknown
- 2017-02-14 SG SG11201806955QA patent/SG11201806955QA/en unknown
- 2017-02-14 BR BR122023025309-4A patent/BR122023025309A2/pt unknown
- 2017-02-14 CN CN201780023524.4A patent/CN109074810B/zh active Active
- 2017-02-14 BR BR122023025300-0A patent/BR122023025300A2/pt unknown
- 2017-02-14 EP EP19209185.8A patent/EP3629326B1/en active Active
- 2017-02-14 EP EP24188661.3A patent/EP4421803A2/en active Pending
- 2017-02-14 TW TW106104736A patent/TWI634548B/zh active
- 2017-02-14 CN CN202310980026.6A patent/CN117059110A/zh active Pending
- 2017-02-14 CN CN202310973606.2A patent/CN117059109A/zh active Pending
- 2017-02-14 CN CN202310970975.6A patent/CN117059108A/zh active Pending
- 2017-02-14 CN CN202310973621.7A patent/CN117153171A/zh active Pending
-
2018
- 2018-08-16 MX MX2021009735A patent/MX2021009735A/es unknown
- 2018-08-16 ZA ZA2018/05498A patent/ZA201805498B/en unknown
- 2018-08-16 MX MX2021009732A patent/MX2021009732A/es unknown
- 2018-08-17 US US15/999,260 patent/US10733999B2/en active Active
-
2020
- 2020-07-01 US US16/918,812 patent/US11727944B2/en active Active
- 2020-07-08 JP JP2020117752A patent/JP7122076B2/ja active Active
-
2022
- 2022-08-06 JP JP2022125967A patent/JP7528158B2/ja active Active
-
2023
- 2023-07-11 US US18/220,693 patent/US20230377586A1/en active Pending
-
2024
- 2024-07-24 JP JP2024118284A patent/JP2024133390A/ja active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109074810B (zh) | 用于多声道编码中的立体声填充的装置和方法 | |
US11594235B2 (en) | Noise filling in multichannel audio coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40101658 Country of ref document: HK |