CN112639967A - 使用信号白化作为预处理的多信号音频编码 - Google Patents

使用信号白化作为预处理的多信号音频编码 Download PDF

Info

Publication number
CN112639967A
CN112639967A CN201980056603.4A CN201980056603A CN112639967A CN 112639967 A CN112639967 A CN 112639967A CN 201980056603 A CN201980056603 A CN 201980056603A CN 112639967 A CN112639967 A CN 112639967A
Authority
CN
China
Prior art keywords
signal
processing
signals
joint
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980056603.4A
Other languages
English (en)
Inventor
埃伦尼·福托普楼
马库斯·马特拉斯
萨沙·迪克
戈兰·马尔科维奇
帕拉维·马本
斯里坎斯·科塞
斯特凡·拜尔
萨沙·迪施
于尔根·赫勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN112639967A publication Critical patent/CN112639967A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

用于编码至少三个音频信号的多信号编码器包括:信号预处理器(100),用于单独地预处理每个音频信号以获得至少三个经预处理的音频信号,其中,预处理被执行为使得经预处理的音频信号相对于预处理之前的信号被白化;自适应联合信号处理器(200),用于对该至少三个经预处理的音频信号执行处理,以获得至少三个经联合处理的信号或者未处理的信号和至少两个经联合处理的信号;信号编码器(300),用于对每个信号进行编码以获得一个或多个经编码的信号;以及输出接口(400),用于发送或存储经编码的多信号音频信号,该经编码的多信号音频信号包括该一个或多个经编码的信号、与所述预处理相关的边信息和与所述处理相关的边信息。

Description

使用信号白化作为预处理的多信号音频编码
技术领域
背景技术
实施例涉及具有信号自适应联合声道处理的基于MDCT的多信号编码和解码系统,其中,信号可以是声道,并且多信号是多声道信号,或者备选地,音频信号是声场描述的分量,例如环境立体声(Ambisonics)分量,即一阶环境立体声中的W、X、Y、Z或高阶环境立体声描述中的任何其他分量。信号也可以是声场的A格式或B格式或任何其他格式描述的信号。
·在MPEG USAC[1]中,使用复杂预测、MPS 2-1-2或具有频段受限或全频段残余信号的统一立体声对两个声道执行联合立体声编码。
·MPEG环绕[2]分层地组合OTT和TTT盒,以用于在有残余信号的传输或没有残余信号的传输的情况下对多声道音频进行联合编码。
·MPEG-H四声道元素[3]分层地应用MPS2-1-2立体声盒,随后为构建“固定的”4x4重混树(remixing tree)的复杂预测/MS立体声盒。
·AC4[4]引入了新的3声道、4声道和5声道元素,其允许经由所发送的混合矩阵和随后的联合立体声编码信息来重新混合所发送的声道。
·先前的出版物建议将如Karhunen-Loeve变换(KLT)的正交变换用于增强的多声道音频编码[5]。
·多声道编码工具(MCT)[6],其支持两个以上声道的联合编码,实现在MDCT域中灵活且信号自适应的联合声道编码。这是通过立体声编码技术(例如实值复杂立体声预测以及两个指定声道的旋转立体声编码(KLT))的迭代组合和级联实现的。
在3D音频上下文中,扬声器声道分配在若干高度层中,导致水平与垂直声道对。在USAC中定义的仅两个声道的联合编码不足以考虑声道之间的空间和感知关系。在额外的预处理/后期处理步骤中应用MPEG环绕,残余信号被单独发送而没有可能联合立体声编码以例如利用左右垂直残余信号之间的依赖性。引入了在AC-4中专用的N声道元素,其允许联合编码参数的有效编码,但没有具有更多声道(这是针对新的沉浸式回放场景(7.1+4,22.2)提出的)的通用扬声器设置。MPEG-H四声道元素也仅限于4个声道,并且不能动态应用于任意声道,而只能应用于预先配置且固定数量的声道。MCT引入了任意声道的信号自适应联合声道编码的灵活性,但是立体声处理是在经加窗和变换的非归一化(非白化)信号上进行的。此外,在每个频带中针对每个立体声盒的预测系数或角度的编码需要大量的比特。
发明内容
本发明的目的是提供一种用于多信号编码或解码的改进且更灵活的构思。
该目的通过权利要求1的多信号编码器、权利要求32的多信号解码器、权利要求44的用于执行多信号编码的方法、权利要求45的用于执行多信号解码的方法、权利要求46的计算机程序或权利要求47的经编码的信号来实现。
本发明基于以下发现:通过不对原始信号而是对经预处理的音频信号执行自适应联合信号处理来显著增强多信号编码效率,其中该预处理被执行为使得经预处理的音频信号相对于预处理前的信号被白化。关于解码器侧,这意味着在联合信号处理之后执行后期处理以获得至少三个经处理的解码信号。根据经编码的信号中包括的边信息,对这至少三个经处理的解码信号进行后期处理,其中,以使得经后期处理的信号比后期处理前的信号白化较少的方式来执行后期处理。经后期处理的信号最终直接地或在进一步的信号处理操作之后表示经解码的音频信号,即经解码的多信号。
尤其是对于沉浸式3D音频格式,获得利用多个信号的属性的有效多声道编码,以减少传输数据量,同时保留总体感知音频质量。在优选实施方式中,使用在感知上白化并且附加地经过声道间水平差(ILD)补偿的频谱来执行多声道系统内的信号自适应联合编码。优选地使用简单的每频带M/S变换决定来执行联合编码,该决定是基于用于熵编码器的所估计数量的比特来驱动的。
用于编码至少三个音频信号的多信号编码器包括信号预处理器,该信号预处理器用于单独地预处理每个音频信号以获得至少三个经预处理的音频信号,其中,预处理被执行为使得经预处理的音频信号相对于预处理之前的信号被白化。执行该至少三个经预处理的音频信号的自适应联合信号处理以获得至少三个经联合处理的信号。该处理在经白化的信号上操作。预处理导致提取某些信号特性(例如频谱包络),或使得如果不提取,则将会降低联合信号处理(例如联合立体声或联合多声道处理)的效率。此外,为了提高联合信号处理效率,对该至少三个经预处理的音频信号执行宽带能量归一化,使得每个经预处理的音频信号具有归一化能量。将该宽带能量归一化发信号通知到经编码的音频信号中来作为边信息,使得在逆联合立体声或联合多声道信号处理之后,该宽带能量归一化可在解码器侧被逆转。借助于该优选的附加宽带能量归一化过程,可提高自适应联合信号处理效率,使得与左/右处理(双单声道处理)相比,可经受中/边处理的频带的数量或甚至完整帧的数量得到实质提高。整个立体声编码过程的效率越来越高,经受通常的立体声或多声道处理(例如中/边处理)的频带或甚至完整帧的数量就变得越多。
从立体声处理的角度来看,针对频带或针对帧,当自适应联合信号处理器必须自适应地决定该频带或帧要由“双单声道”或左/右处理来处理时,将会获得最低的效率。这里,左声道和右声道被按原样处理,但是自然是在经白化和能量归一化的域中进行。然而,当自适应联合信号处理器自适应地针对某个频带或帧确定执行中/边处理时,通过将第一声道和第二声道相加来计算中信号,并通过计算声道对中的第一声道与第二声道的差来计算边信号。通常,关于其值范围,中信号与第一声道和第二声道之一相当,但边信号将通常是能量较小的信号,其可以被高效的编码,或甚至在最优选的情况下,边信号为零或接近于零,使得边信号的频谱区域甚至可以被量化为零,并因此以高效的方式进行熵编码。该熵编码是由信号编码器执行的,用于对每个信号进行编码以获得一个或多个经编码的信号,并且多信号编码器的输出接口发送或存储经编码的多信号音频信号,该经编码的多信号音频信号包括该一个或多个经编码的信号、与预处理相关的边信息、以及与自适应联合信号处理相关的边信息。
在解码器侧,通常包括熵解码器的信号解码器通常依赖于优选包括的比特分配信息来解码该至少三个经编码的信号。该比特分配信息作为边信息被包括在经编码的多信号音频信号中,并且例如可以在编码器侧通过查看信号(熵)编码器的输入处的信号的能量来导出。多信号解码器内的信号解码器的输出被输入到联合信号处理器中,用于根据经编码的信号中包括的边信息来执行联合信号处理,以获得至少三个经处理的解码信号。该联合信号处理器优选地撤销在编码器侧执行的联合信号处理,并且通常执行逆立体声或逆多声道处理。在优选实施方式中,联合信号处理器应用处理操作以从中/边信号计算左/右信号。然而,当联合信号处理器从边信息中确定针对某个声道对已经存在双单声道处理时,将注意该情况并将其用于解码器中以进行进一步处理。
如同编码器侧的自适应联合信号处理器,解码器侧的联合信号处理器可以是以级联声道对树或简化树的模式操作的处理器。简化树还表示某种级联处理,但是简化树与级联声道对树的不同之处在于,经处理的对的输出不能作为另一个要被处理对的输入。
可能的情况是,关于由多信号解码器侧的联合信号处理器使用以开始联合信号处理的第一声道对,作为在编码器侧处理的最后一个声道对的该第一声道对具有针对某个频带的边信息,该边信息指示双单声道,但是这些双单声道信号可以稍后在声道对处理中作为中信号或边信号来使用。通过与成对处理相关的对应边信息来对此进行发信号通知,该成对处理被执行以获得要在解码器侧解码的该至少三个经单独编码的声道。
实施例涉及具有信号自适应联合声道处理的基于MDCT的多信号编码和解码系统,其中,信号可以是声道,并且多信号是多声道信号,或者备选地,音频信号是声场描述的分量,例如环境立体声(Ambisonics)分量,即一阶环境立体声中的W、X、Y、Z或高阶环境立体声描述中的任何其他分量。信号也可以是声场的A格式或B格式或任何其他格式描述的信号。
随后指出优选实施例的其他优点。编解码器通过引入[7]中针对联合立体声编码描述的概念,使用新概念来融合[6]中描述的任意声道的信号自适应联合编码的灵活性。这些新概念是:
a)使用在感知上白化的信号,以用于进一步的编码(类似于他们在语音编码器中使用的方式)。这具有若干优点:
·简化编解码器架构
·噪声成形特性/屏蔽阈值的紧凑表示(例如,作为LPC系数)
·统一变换和语音编解码器架构,并因此实现组合的音频/语音编码
b)使用任意声道的ILD参数以有效地编码平移(panned)源
c)基于能量在经处理的声道之间的灵活比特分配。
此外,编解码器使用频域噪声成形(FDNS)以通过在[8]中描述的速率回路结合在[9]中描述的频谱包络扭曲来在感知上白化信号。编解码器使用ILD参数进一步将经FDNS白化的频谱朝平均能量水平归一化。以[6]中描述的自适应方式选择用于联合编码的声道对,其中立体声编码由频带方式(bandwise)M/S与L/R决定的对比组成。当如[7]中描述的在L/R和M/S模式下进行编码时,频带方式M/S决定基于每个频带中的估计比特率。经频带方式M/S处理的声道之间的比特率分配基于能量。
附图说明
随后将参照附图说明本发明的优选实施例,在附图中:
图1示出了优选实施方式中的单个声道预处理的框图;
图2示出了多信号编码器的框图的优选实施方式;
图3示出了图2的互相关向量和声道对选择过程的优选实施方式;
图4示出了优选实施方式中的声道对的索引方案;
图5a示出了根据本发明的多信号编码器的优选实施方式;
图5b示出了经编码的多声道音频信号帧的示意表示;
图6示出了由图5a的自适应联合信号处理器执行的过程;
图7示出了由图8的自适应联合信号处理器执行的优选实施方式;
图8示出了由图5的自适应联合信号处理器执行的另一优选实施方式;
图9示出了用于执行要由图5的量化编码处理器使用的比特分配的另一过程;
图10示出了多信号解码器的优选实施方式的框图;
图11示出了由图10的联合信号处理器执行的优选实施方式;
图12示出了图10的信号解码器的优选实施方式;
图13示出了在带宽扩展或智能间隙填充(IGF)的上下文中联合信号处理器的另一优选实施方式;
图14示出了图10的联合信号处理器的另一优选实施方式;
图15a示出了由图10的信号解码器和联合信号处理器执行的优选处理框;以及
图15b示出了用于执行去白化操作和可选的其他过程的后期处理器的实施方式。
具体实施方式
图5示出了用于对至少三个音频信号进行编码的多信号编码器的优选实施方式。该至少三个音频信号被输入到信号处理器100中,以单独地预处理每个音频信号来获得至少三个经预处理的音频信号180,其中预处理被执行为使得经预处理的音频信号相对于在预处理之前的对应信号被白化。该至少三个经预处理的音频信号180被输入到自适应联合信号处理器200,该自适应联合信号处理器200被配置为执行对该至少三个经预处理的音频信号的处理以获得至少三个经联合处理的信号,或者在实施例中,获得未处理的信号和至少两个经联合处理的信号,如稍后将说明的。多信号编码器包括信号编码器300,该信号编码器300连接到自适应联合信号处理器200的输出并且被配置为对自适应联合信号处理器200输出的每个信号进行编码以获得一个或多个经编码的信号。信号编码器300的输出处的这些经编码的信号被转发给输出接口400。输出接口400被配置用于发送或存储经编码的多信号音频信号500,其中输出接口400的输出处的经编码的多信号音频信号500包括由信号编码器300生成的该一个或多个经编码的信号、与信号预处理器200执行的预处理相关的边信息520(即,白化信息),并且附加地,经编码的多信号音频信号还包括与自适应联合信号处理器200执行的处理相关的边信息530(即,与自适应联合信号处理相关的边信息)。
在优选实施方式中,信号编码器300包括速率回路处理器,该速率回路处理器由比特分配信息536控制,该比特分配信息536由自适应联合信号处理器200生成并且不仅被从框200转发到框300,而且还在边信息530内被转发给输出接口400,并因此转发到经编码的多信号音频信号中。经编码的多信号音频信号500通常以逐帧的方式生成,其中,成帧(framing)以及通常对应的加窗和时频转换在信号预处理器100内执行。
在图5b中示出了经编码的多信号音频信号500的帧的示例性图示。图5b示出了针对于由框300生成的经单独编码的信号的比特流部分510。框520针对于由框100生成并转发给输出接口400的预处理边信息。此外,联合处理边信息530由图5a的自适应联合信号处理器200生成,并被引入到图5b所示的经编码的多信号音频信号帧中。在图5b的图示的靠右处,经编码的多信号音频信号的下一帧将被写入串行比特流中,同时在图5b的图示的靠左处,经编码的多信号音频信号的早期的帧将被写入。
如稍后将说明的,预处理包括时间噪声成形处理和/或频域噪声成形处理或LTP(长期预测)处理或加窗处理操作。对应的预处理边信息550可以包括时间噪声成形(TNS)信息、频域噪声成形(FDNS)信息、长期预测(LTP)信息或者加窗或窗口信息中的至少一种。
时间噪声成形包括在频率上对频谱帧的预测。使用具有较低频率的频谱值的加权组合来预测具有较高频率的频谱值。TNS边信息包括加权组合的权重,也称为通过频率上的预测导出的LPC系数。经白化的频谱值是预测残差值,即,针对每个频谱值,原始频谱值和预测频谱值之间的差。在解码器侧,执行LPC合成滤波的逆预测,以便撤消在编码器侧的TNS处理。
FDNS处理包括使用针对对应频谱值的加权因子来对帧的频谱值进行加权,其中加权值是根据从经加窗的时域信号的块/帧计算出的LPC系数导出的。FDNS边信息包括从时域信号导出的LPC系数的表示。
对于本发明也有用的另一种白化过程是使用缩放因子的频谱均衡,使得经均衡的频谱表示比未均衡的版本更白化的版本。边信息将是用于加权的缩放因子,并且逆过程包括使用所发送的缩放因子在解码器侧撤销均衡。
另一种白化过程包括使用逆滤波器对频谱执行逆滤波,该逆滤波器由在语音编码领域中已知的、从时域帧导出的LPC系数控制。边信息是逆滤波器信息,并且使用所发送的边信息在解码器中撤消该逆滤波。
另一种白化过程包括在时域中执行LPC分析并计算时域残差值,该时域残差值然后被转换到频谱范围。通常,因此获得的频谱值类似于通过FDNS获得的频谱值。在解码器侧,后期处理包括使用所发送的LPC系数表示来执行LPC合成。
在优选实施方式中,联合处理边信息530包括成对处理边信息532、能量缩放信息534和比特分配信息536。成对处理边信息可以包括以下至少之一:声道对边信息比特、全中/边或双单声道或频带方式中/边信息、以及在频带方式中/边指示的情况下的中/边掩码,其中,中/边掩码针对帧中的每个带宽指示该频带是通过中/边处理还是L/R处理来处理。成对处理边信息可以附加地包括智能间隙填充(IGF)或诸如SBR(频谱带复制)信息的其他带宽扩展信息等。
针对每个经白化(即,经预处理)的信号180,能量缩放信息534可以包括能量缩放值和指示能量缩放是放大还是缩小的标志。例如,在八个声道的情况下,框534将包括八个缩放值(例如,八个经量化的ILD值)和八个标志,该八个标志针对该八个声道中的每一个指示:在编码器内是完成放大还是缩小,或在解码器内是必须完成放大还是缩小。当帧中某个经预处理的声道的实际能量低于所有声道内针对该帧的平均能量时,编码器中的放大是必要的,而当帧中某个声道的实际能量高于帧内所有声道的平均能量时,缩小是必要的。联合处理边信息可以包括针对经联合处理的信号中的每一个或者针对未处理的信号(如果可用)和每个经联合处理的信号的比特分配信息,并且该比特分配信息被信号编码器300使用(如图5a所示)并且相应地被图10所示的信号解码器使用,该信号解码器经由输入接口从经编码的信号接收该比特流信息。
图6示出了自适应联合信号处理器的优选实施方式。自适应联合信号处理器200被配置为对该至少三个经预处理的音频信号执行宽带能量归一化,使得每个经预处理的音频信号都具有归一化的能量。输出接口400被配置为包括针对每个经预处理的音频信号的宽带能量归一化值来作为进一步的边信息,其中该值对应于图5b的能量缩放信息534。图6示出了宽带能量归一化的优选实施方式。在步骤211中,计算每个声道的宽带能量。进入框211的输入由经预处理(经白化)的声道组成。结果是Ctotal个声道中每个声道的宽带能量值。在框212中,通常通过将各个值相加并且将该各个值除以声道数来计算平均宽带能量。然而,可以执行其他平均计算过程,例如几何平均等。
在步骤213中,对每个声道进行归一化。为此,确定缩放因子或值以及放大或缩小信息。因此,框213被配置为输出在534a处指示的针对每个声道的缩放标志。在框214中,执行对在框212中确定的缩放比例的实际量化,并且在534b处针对每个声道输出该经量化的缩放比例。该经量化的缩放比例还被指示为声道间水平差
Figure BDA0002954401420000091
即,对于某个声道k,相对于具有平均能量的参考声道。在框215中,使用经量化的缩放比例来缩放每个声道的频谱。框215中的缩放操作由框213的输出控制,即,由关于是要执行放大还是执行缩小的信息来控制。框215的输出表示针对每个声道的经缩放的频谱。
图7示出了自适应联合信号处理器200相对于级联的对处理的优选实施方式。自适应联合信号处理器200如框221所指示的被配置为计算每个可能的声道对的互相关值。框229示出了选择具有最高互相关值的对,并且在框232a中,针对该对确定联合立体声处理模式。联合立体声处理模式可以包括针对完整帧的中/边编码、频带方式的中/边编码,即,针对多个频带中的每个频带确定:该频带将要以中/边模式还是以L/R模式处理,或者对于实际的帧,是否要针对正在考虑的该特定的对执行全频带双单声道处理。在框232b中,实际使用如框232a中确定的模式来执行针对所选择对的联合立体声处理。
在框235、框238中,继续利用完整树或简化树处理的级联处理或继续非级联处理,直到某个终止标准。在该某个终止标准处,生成例如由框229输出的对指示和由框232a输出的立体声模式处理信息,并在关于图5b说明的成对处理边信息532中将该对指示和该立体声模式处理信息输入到比特流中。
图8示出了用于准备由图5a的信号编码器300执行的信号编码的自适应联合信号处理器的优选实施方式。为此,在框282中,自适应联合信号处理器200计算每个经立体声处理的信号的信号能量。框282接收经联合立体声处理的信号作为输入,并且在因为声道未被发现与任何其他声道具有足够的互相关性以形成有用的声道对而导致该声道未经受立体声处理的情况下,该声道以逆转的或修改的或非归一化的能量输入到框282中。这通常被指示为“能量恢复原状的信号”,但是在图6的框215中执行的能量归一化不一定要被完全恢复原状。存在用于处理尚未被发现与另一声道一起用于声道对处理的声道信号的某些备选方案。一个过程是逆转最初在图6的框215中执行的缩放。视情况而定,另一过程是仅部分地逆转缩放,或者另一过程是以某种不同的方式来加权经缩放的声道。
在框284中,计算由自适应联合信号处理器200输出的所有信号中的总能量。在框286中,基于每个立体声经处理信号或者(如果可用)能量恢复原状的或能量加权的信号的信号能量,并基于框284输出的总能量,来针对每个信号计算比特分配信息。在一个方面,由框286生成的该边信息536被转发给图5a的信号编码器300,并且附加地经由逻辑连接530转发给输出接口400,使得该比特分配信息被包括在图5a或图5b的经编码的多信号音频信号500中。
在优选实施例中,基于图9所示的过程执行实际的比特分配。在第一过程中,指派用于非LFE(低频增强)声道的最小数量的比特,并且,如果可用,指派低频增强声道比特。信号编码器300需要这些最小数量的比特,而与某个信号内容无关。根据图8的框286生成并输入到框291中的比特分配信息536指派剩余的比特。该指派是基于经量化的能量比来完成的,并且优选地使用经量化的能量比而不是非经量化的能量。
在步骤292中,执行精炼。当量化使得剩余比特被指派并且结果高于可用比特数时,必须对在框291中指派的比特执行减法。然而,当能量比的量化导致框291中的指派过程使得仍有比特要被进一步指派时,在精炼步骤292中可以附加地给定或分配这些比特。如果在精炼步骤之后,仍然存在信号编码器要使用的任何比特,则执行最终捐赠步骤293,并且对具有最大能量的声道完成最终捐赠。在步骤293的输出处,针对每个信号所指派的比特预算是可用的。
在步骤300中,使用通过步骤290、291、292、293的过程生成的所指派的比特预算来对每个信号执行量化和熵编码。基本上,通过与较低能量的声道/信号相比更精确地量化较高能量的声道/信号的这种方式来执行比特分配。重要的是,不使用原始信号或经白化的信号来进行比特分配,而是使用自适应联合信号处理器200的输出处的信号来进行比特分配,该信号的能量由于联合声道处理而不同于输入到自适应联合信号处理中的信号的能量。在该上下文中,还应注意,尽管声道对处理是优选的实施方式,但是可以借助于互相关来选择和处理其他声道组。例如,可以借助于自适应联合信号处理器形成三个或甚至四个声道的组,并且以级联的完整过程或具有简化树的级联过程或在非级联的过程内相应地进行处理。
借助于图10的信号解码器700,使用从经编码的多信号音频信号500中提取的分配信息536,以相同的方式在解码器侧执行框290、291、292、293中所示的比特分配。
优选实施例
在该实施方式中,编解码器通过引入[7]中针对联合立体声编码描述的概念,使用新概念来融合[6]中描述的任意声道的信号自适应联合编码的灵活性。这些新概念是:
a)使用在感知上白化的信号,以用于进一步的编码(类似于他们在语音编码器中使用的方式)。这具有若干优点:
·简化编解码器架构
·噪声成形特性/屏蔽阈值的紧凑表示(例如,作为LPC系数)
·统一变换和语音编解码器架构,并因此实现组合的音频/语音编码
b)使用任意声道的ILD参数以有效地编码平移(panned)源
c)基于能量在经处理的声道之间的灵活比特分配。
编解码器使用频域噪声成形(FDNS)以通过在[8]中描述的速率回路结合在[9]中描述的频谱包络扭曲来在感知上白化信号。编解码器使用ILD参数进一步将经FDNS白化的频谱朝平均能量水平归一化。以[6]中描述的自适应方式选择用于联合编码的声道对,其中立体声编码由频带方式(bandwise)M/S与L/R决定的对比组成。当如[7]中描述的在L/R和M/S模式下进行编码时,频带方式M/S决定基于每个频带中的估计比特率。经频带方式M/S处理的声道之间的比特率分配基于能量。
实施例涉及具有信号自适应联合声道处理的基于MDCT的多信号编码和解码系统,其中,信号可以是声道,并且多信号是多声道信号,或者备选地,音频信号是声场描述的分量,例如环境立体声(Ambisonics)分量,即一阶环境立体声中的W、X、Y、Z或高阶环境立体声描述中的任何其他分量。信号也可以是声场的A格式或B格式或任何其他格式描述的信号。因此,对于多信号音频信号的“分量”或其他“信号”而言,针对“声道”给出的相同公开也是有效的。
取决于经白化的频谱的编码器单个声道处理
按照如图1的框图所示的处理步骤,对每个单个声道进行分析并变换为经白化的MDCT域频谱。
在[8]中描述了时域瞬态检测器、加窗、MDCT、MDST和OLA的处理框。MDCT和MDST形成调制复数交叠变换(MCLT);分别执行MDCT和MDST等同于执行MCLT;“MCLT至MDCT”表示仅采用MCLT的MDCT部分,并丢弃MDST。
时间噪声成形(TNS)类似于[8]中的描述来完成,且TNS和频域噪声成形(FDNS)的顺序是自适应的。在图中存在2个TNS框将被理解为有可能改变FDNS和TNS的顺序。TNS和FDNS的顺序决定可以是例如[9]中描述的决定。
频域噪声成形(FDNS)以及FDNS参数的计算类似于[9]中描述的过程。一个区别是,根据MCLT频谱来计算TNS未被激活的帧的FDNS参数。在TNS被激活的帧中,根据MDCT频谱估计MDST频谱。
图1示出了信号处理器100的优选实施方式,该信号处理器对至少三个音频信号执行白化以获得被单独预处理的经白化的信号180。信号预处理器100包括用于声道k的时域输入信号的输入。该信号被输入到加窗器102、瞬态检测器104和LTP参数计算器106。瞬态检测器104检测输入信号的当前部分是否是瞬态的,并且在确认输入信号的当前部分是瞬态的情况下,瞬态检测器104控制加窗器102设置较小的窗口长度。窗口指示(即,已经选择了哪个窗口长度)也被包括在边信息中,并且具体地被包括在图5b的预处理边信息520中。此外,由框106计算的LTP参数也被引入到边信息框中,并且这些LTP参数可以例如用于执行某种类型的经解码信号的后期处理或本领域中已知的其他过程。加窗器140生成加窗的时域帧,其被引入到时间到频谱转换器108中。时间到频谱转换器108优选地执行复数交叠变换。如框112所指示的,从该复数交叠变换中,可以导出实部以获得MDCT变换的结果。框112的结果(即,MDCT频谱)被输入到TNS框114a和随后连接的FDNS框116中。备选地,仅执行FDNS而没有TNS框114a,或反之亦然,或在FDNS处理之后执行TNS处理,如框114b所指示的。通常,存在框114a或框114b。在框114b的输出处(当不存在框114a时)或在框116的输出处(当不存在框114b)时,针对每个声道k获得经白化的单独处理的信号,即,经预处理的信号。TNS框114a或114b和FDNS框116生成预处理信息并将其转发到边信息520中。
在任何情况下,都不必要在框108内进行复数变换。此外,对于某些应用,时间到频谱转换器仅执行MDCT也是足够的,且如果需要该变换的虚部,则视情况也可以根据实部来估计该虚部。TNS/FDNS处理的特征是,在TNS是未被激活的情况下,FDNS参数是从复数频谱(即,从MCLT频谱)计算的,而在TNS是激活的帧中,MDST频谱是从MDCT频谱估计的,使得对于频域噪声成形操作而言,始终具有可用的完整复数频谱。
联合声道编码系统描述
在所描述的系统中,在将每个声道变换到经白化的MDCT域之后,基于[6]中描述的算法,应用用于联合编码的对任意声道之间的变化中的相似性的信号自适应利用。通过该过程,可以检测并选择将要使用频带方式M/S变换来进行联合编码的各个声道对。
图2给出了编码系统的概述。为简单起见,框箭头表示单个声道处理(即,将处理框应用于每个声道),并且图1中详细表示了框“MDCT域分析”。
在以下段落中,将详细描述针对每帧应用的算法的各个步骤。图3给出了所描述算法的数据流程图。
应当注意,在系统的初始配置中,存在声道掩码,声道掩码指示多声道联合编码工具对哪些声道是激活的。因此,对于存在LFE(低频效果/增强)声道的输入,在工具的处理步骤中不会考虑这些LFE声道。
所有声道的朝向平均能量的能量归一化
如果存在ILD,也就是说如果声道被平移,则M/S变换并不高效。我们通过将所有声道的在感知上白化的频谱的幅度归一化为平均能量水平
Figure BDA0002954401420000141
来避免该问题。
ο针对每个声道计算能量Ek,k=0,...,Ctotal
Figure BDA0002954401420000151
其中N是频谱系数的总数。
ο计算平均能量
Figure BDA0002954401420000152
ο将每个声道的频谱归一化为平均能量
如果
Figure BDA0002954401420000153
(缩小)
Figure BDA0002954401420000154
其中a是缩放比例。该缩放比例被均匀地量化并作为边信息比特发送给解码器。
Figure BDA0002954401420000155
其中ILDRANGE=1<<ILDbits
然后通过以下公式给出经量化的缩放比例,以该经量化的缩放比例来对频谱进行最终缩放
Figure BDA0002954401420000156
如果
Figure BDA0002954401420000157
(放大)
Figure BDA0002954401420000161
以及
Figure BDA0002954401420000162
其中
Figure BDA0002954401420000163
如先前的情况进行计算.
为了在解码器处区别我们进行了缩小还是放大并且为了使归一化恢复原状,除了针对每个声道的
Figure BDA0002954401420000164
直外,发送1比特标志(0=缩小/1=放大)。ILDRANGE指示用于所发送的经量化的缩放值
Figure BDA0002954401420000165
的比特数,并且该值对于编码器和解码器是已知的,且不必在经编码的音频信号中发送。
计算所有可能的声道对的归一化声道间互相关值
在该步骤中,为了决定和选择哪个声道对具有最高程度的相似度且因此适合被选择作为用于立体声联合编码的对,计算每个可能声道对的声道间归一化互相关值。每个声道对的归一化互相关值由互频谱(cross-spectrum)给出,如下所示:
Figure BDA0002954401420000166
其中
Figure BDA0002954401420000167
N是每帧频谱系数的总数,XMDCT和YMDCT是所考虑的声道对的相应频谱。
每个声道对的归一化互相关值被存储在以下互相关向量中
Figure BDA0002954401420000168
其中P=(Ctotal*(Ctotal-1))/2是可能的对的最大数量。
如图1所示,取决于瞬态检测器,我们可以具有不同的框大小(例如,10或20ms窗口框大小)。因此,假设两个声道的频谱分辨率相同,计算声道间互相关。否则,将该值设置为0,从而确保不选择这种声道对来用于联合编码。
使用唯一表示每个声道对的索引方案。在图4中示出了用于索引六个输入声道的这种方案的示例。
在整个算法中保持相同的索引方案,其也被用于将声道对发信号通知给解码器。发信号通知一个声道对数量所需的比特数为
Figure BDA0002954401420000171
声道对选择和联合编码立体声处理
在计算互相关向量之后,要考虑用于联合编码的第一声道对是具有最高互相关值并且高于优选地为0.3的最小值阈值的相应声道对。
所选择的声道对用作立体声编码过程(即,频带方式M/S变换)的输入。对于每个频谱带,对声道将使用M/S编码还是使用离散L/R编码进行编码的决定取决于针对每种情况估计的比特率。选择在比特方面要求不高的编码方法。该过程在[7]中详细描述。
该过程的输出导致所选择声道对中的每个声道的更新的频谱。此外,创建需要与解码器共享的有关该声道对的信息(边信息),即,选择了哪种立体声模式(全M/S、双单声道或频带方式M/S)以及如果频带方式M/S是所选择的模式,以及对是选择M/S编码(1)还是选择L/R(0)进行指示的相应掩码。
对于接下来的步骤,该算法有两种变体:
ο级联声道对树
对于该变体,针对受所选择声道对的所改变频谱(如果我们用M/S变换)影响的声道对来更新互相关向量。例如,在有6个声道的情况下,如果选择并处理的声道对是图4中索引为0的声道对,则意味着声道0与声道1的编码,然后在立体声处理之后,我们将需要针对受影响的声道对(即索引0、1、2、3、4、5、6、7、8)来重新计算互相关。
然后,该过程如前所述的继续:选择具有最大互相关的声道对,确认其在最小阈值以上,并应用立体声操作。这意味着可以重新选择作为先前声道对的一部分的声道来用作新声道对的输入,称为“级联”。当声道对的输出与表示空间域中不同方向的另一任意声道之间仍可存在剩余相关时,这可能会发生。当然,不应将同一声道对选择两次。
当达到最大允许迭代次数(绝对最大值为P)时,或者在更新互相关向量后,没有任何声道对值超过阈值0.3(在任意声道之间不存在相关),则过程继续。
ο简化树
级联声道对树过程在理论上是最佳的,因为它试图移除所有任意声道的相关并提供最大的能量压缩。另一方面,它相当复杂,因为所选择声道对的数量可能比
Figure BDA0002954401420000181
更多,导致附加的计算复杂度(来自立体声操作的M/S决定过程)且还导致需要针对每个声道对发送给接收机的附加元数据。
对于简化树变体,不允许“级联”。这确保了,当从上述过程开始,在更新互相关向量时,不会重新计算先前声道对立体声操作的受影响声道对的值,而是将其设置为0。因此,不可能选择其声道之一已经是现有声道对的一部分的声道对。
这是描述图2中“自适应联合声道处理”框的变体。
这种情况导致与具有预定义声道对(例如,L和R、后L和后R)的系统类似的复杂度,因为可以选择的最大声道对为
Figure BDA0002954401420000182
应该注意的是,可能存在所选择声道对的立体声操作不会改变声道的频谱的情况。这当M/S决定算法决定编码模式应为“双单声道”时会发生。在这种情况下,所涉及的任意声道不再被视为声道对,因为它们将被分开编码。此外,更新互相关向量将没有效果。为了继续该过程,考虑具有下一个最高值的声道对。在这种情况下的步骤如上所述的继续。
保留先前帧的声道对选择(立体声树)
在许多情况下,在帧与帧之间,任意声道对的归一化互相关值可能是接近的,并且因此选择可以经常在该接近值之间切换。这可导致频繁的声道对树切换,可能导致输出系统的可听到的不稳定。因此,选择使用稳定机制,其中仅在信号发生显著改变且任意声道之间的相似性改变时才选择新的一组声道对。为了检测这一点,比较当前帧与先前帧的互相关向量,并且当差异大于某个阈值时,则允许选择新的声道对。
互相关向量在时间上的变化计算如下:
Figure BDA0002954401420000191
如果Cdiff>t,则允许选择要被联合编码的新声道对(如先前步骤所述)。所选择的阈值由下式给出
t=0.15Ctot(Ctot-1)/2
另一方面,如果差异很小,则使用与先前帧相同的声道对树。对于每个给定的声道对,如先前所述地应用频带方式M/S操作。然而,如果给定声道对的归一化互相关值不超过阈值0.3,则发起对创建新树的新声道对的选择。
使单个声道的能量恢复原状
在用于声道对选择的迭代过程终止之后,可能存在不是任何声道/对的一部分且因此被分开编码的声道。对于那些声道,将能量水平朝平均能量水平的初始归一化恢复回到其原始能量水平。取决于发信号通知放大或缩小的标志,使用经量化的缩放比例的倒数
Figure BDA0002954401420000192
来使这些声道的能量恢复原状。
用于多声道处理的IGF
关于IGF分析,在立体声声道对的情况下,应用附加的联合立体声处理(在[10]中对其进行了完整描述)。这是必要的,因为对于IGF频谱中的某个目的地范围,信号可以是高度相关的平移声源。在针对该特定区域选择的源区域没有很好地相关的情况下,尽管对于目的地区域而言能量是匹配的,但是空间图像可由于不相关的源区域而受到影响。
因此,如果核心区域的立体声模式不同于IGF区域的立体声模式,或者如果核心的立体声模式标记为频带方式M/S,则对每个声道对应用立体声IGF。如果这些条件不适用,则执行单个声道IGF分析。如果存在没有在声道对中被联合编码的单个的声道,则这些单个的声道还将经历单个声道IGF分析。
对用于编码每个声道的频谱的可用比特的分配
在联合声道对立体声处理的过程之后,每个声道被量化并且由熵编码器分开编码。因此,对于每个声道,应给出可用的比特数。在该步骤中,使用经处理的声道的能量来将总可用比特分配给每个声道。
由于联合处理,每个声道的频谱可能已改变,因此重新计算每个声道的能量(对其的计算在上面归一化步骤中描述)。新能量表示为
Figure BDA0002954401420000201
作为第一步骤,基于能量的比例(将使用其来分配比特)被计算为:
Figure BDA0002954401420000202
这里应注意的是,在输入组成也来自LFE声道的情况下,比例计算不考虑该输入。对于LFE声道,仅当该声道具有非零内容时,才指派最小数量的比特bitsLFE。该比例被均匀地量化:
Figure BDA0002954401420000203
rtRANGE=1<<rtbits
经量化的比例
Figure BDA0002954401420000204
被存储在比特流中,将被解码器使用来向每个声道指派相同量的比特,以读取所发送的声道频谱系数。
比特分配方案在以下描述:
ο针对每个声道指派熵编码器所需的最小量的比特bitsmin
ο剩余比特,即,
Figure BDA0002954401420000211
Figure BDA0002954401420000212
被使用经量化的比例
Figure BDA0002954401420000213
来划分:
Figure BDA0002954401420000214
ο因为该经量化的比例,比特被大致地分配,并且因此其可以
Figure BDA0002954401420000215
因此,在第二精炼步骤中,差异bitsdiff=bitssplit-bitstotal被按比例地从声道比特bitsk中减去:
Figure BDA0002954401420000216
ο在精炼步骤之后,如果与bitstotal相比仍存在bitssplit不一致,则该差异(通常为很少的比特数)被捐赠给具有最大能量的声道。
解码器遵循完全相同的过程,以便确定要读取的比特数,来解码每个声道的频谱系数。rtRANGE指示用于比特分配信息bitsk的比特数,并且该值对于编码器和解码器是已知的,且不必在经编码的音频信号中发送。
每个声道的量化和编码
量化、噪声填充和熵编码,包括速率回路,如[8]中所述。可以使用所估计的Gest来使速率回路最佳化。功率频谱P(MCLT的幅值)用于如[8]中描述的量化和智能间隙填充(IGF)中的音调/噪声测量。由于经白化和频带方式M/S处理的MDCT频谱被用于功率频谱,因此必须在MDST频谱上完成相同的FDNS和M/S处理。必须针对MDST频谱完成与针对MDCT所完成的相同的基于ILD的归一化缩放。对于TNS被激活的帧,用于功率频谱计算的MDST频谱从经白化和M/S处理的MDCT频谱中估计。
图2示出了编码器并且具体地图2的自适应联合信号处理器200的优选实施方式的框图。所述至少三个经预处理的音频信号180都被输入到能量归一化框210中,该能量归一化框210在其输出处生成声道能量比边比特534,该声道能量比边比特534一方面包括经量化的比例,且另一方面包括针对每个声道指示放大或缩小的标志。然而,也可以执行其他没有针对放大或缩小的显式标志的过程。
经归一化的声道被输入到框220中,以执行互相关向量计算和声道对选择。基于框220中的过程,该过程优选地是使用级联全树或级联简化树处理的迭代过程,或者备选地是非迭代非级联处理,在框240中执行对应的立体声操作,框240可以执行全频带或频带方式中/边处理或任何其他对应的立体声处理操作,例如旋转、缩放、任何加权或非加权的线性或非线性组合等。
在框240的输出处,可以执行立体声智能间隙填充(IGF)处理或任何其他带宽扩展处理,例如频谱带复制处理或谐波带宽处理。各个声道对的处理是经由声道对边信息比特发信号通知的,并且尽管在图2中未示出,由框260生成的IGF或通用带宽扩展参数也被写入到用于图5b的联合处理边信息530并且具体地成对处理边信息532的比特流中。
图2的最后阶段是声道比特分配处理器280,该声道比特分配处理器280计算比特分配比例,如例如关于图9所说明的。图2示出了作为量化器和编码器的信号编码器300的示意表示(该信号编码器300由声道比特率边信息530控制),并且附加地示出了输出接口400或比特流写入器400的示意表示,其将信号编码器300的结果与图5b的所有所需边信息比特520、530组合。
图3示出了由框210、220、240执行的实质过程的优选实施方式。在该过程开始之后,如图2或图3中的210处所指示地执行ILD归一化。在步骤221中,计算互相关向量。互相关向量由针对框210输出的从0到N的声道的每个可能声道对的归一化互相关值组成。对于图4中的示例,其中有六个声道,可以检查从0到14的15个不同的可能性。互相关向量的第一个元素具有声道0和声道1之间的互相关值,并且例如,互相关向量的索引为11的元素具有声道2和声道5之间的互相关。
在步骤222中,执行计算以确定是否要维持针对先前帧确定的树。为此,计算互相关向量在时间上的变化,并且优选地,计算互相关向量的各个差异的总和以及具体地计算差异的幅值。在步骤223中,确定差异的总和是否大于阈值。如果是这种情况,则在步骤224中,将标志keepTree设置为0,这意味着不保留该树,而是计算新树。然而,当确定总和小于阈值时,框225将标志keepTree设置为1,使得从先前帧确定的树也被应用于当前帧。
在步骤226中,检查迭代终止标准。在确定未达到最大声道对(CP)数量的情况下(当然,这是第一次访问框226的情况),并且当如框228所确定的将标志keepTree设置为0时,过程继续进行框229,以选择具有互相关向量中的最大互相关的声道对。然而,当维持早期帧的树时,即,如在框225中已检查的,keepTree等于1时,框230确定“强制”声道对的互相关是否大于阈值。如果不是这种情况,则过程继续步骤227,这意味着尽管框223中的过程确定了相反结论,但是仍然要确定新树。框230中的评估以及框227中的对应结果可以推翻框223和225中的确定。
在框231中,确定具有最大互相关的声道对是否高于0.3。如果是这种情况,则执行框232中的立体声操作,在图2中也将其指示为240。当在框233中确定立体声操作是双单声道时,在框234中设置值keepTree等于0。然而,当确定立体声模式不同于双单声道时,由于已经执行了中/边操作并且立体声操作框240(或232)的输出由于该处理而不同,因此必须重新计算互相关向量235。当实际上存在中/边立体声操作或通常不同于双单声道的立体声操作时,才必须更新CC向量235。
然而,当在框226中的检查或在框231中的检查导致“否”答案,控制进行到框236,以检查是否存在单个声道。如果是这种情况,即,如果发现在声道对处理中未与另一个声道一起处理的单个声道,则在框237中逆转ILD归一化。备选地,框237中的逆转只能是部分逆转,或者可以是某种加权。
在迭代完成的情况下并且在框236和237也完成的情况下,过程结束并且所有声道对都已被处理,并且在自适应联合信号处理器的输出处,在框236导致“否”答案的情况下存在至少三个经联合处理的信号,或当框236已导致“是”答案时,存在至少两个联合处理的信号和与“单个声道”相对应的未处理信号。
解码系统描述
解码过程开始于对经联合编码的声道的频谱进行解码和逆量化,然后是噪声填充,如[11]或[12]中的6.2.2“MDCT based TCX”中所述的。分配给每个声道的比特数是基于在比特流中编码的窗口长度、立体声模式和比特率比例
Figure BDA0002954401420000241
确定的。在完全解码比特流之前,必须知道分配给每个声道的比特数。
在智能间隙填充(IGF)框中,在频谱的某个范围(称为目标块)内被量化为零的线被填充了来自频谱的不同范围(称为源块)的已处理内容。由于频带方式立体声处理,对于源块和目标块,立体声表示(即,L/R或M/S)可能会有所不同。为了确保良好的质量,如果源块的表示与目标块的表示不同,则在解码器中的间隙填充之前将源块处理以将其变换为目标块的表示。在[10]中已经描述了该过程。与[11]和[12]相反,IGF本身被应用在经白化的频谱域而不是原始频谱域。与已知的立体声编解码器(例如,[10])相比,IGF被应用在经白化的、ILD补偿的频谱域中。
从比特流信令中,还知道是否存在被联合编码的声道对。逆处理应从在编码器中形成的最后一个声道对开始,特别是针对级联声道对树,以便转换回每个声道的原始的经白化频谱。对于每个声道对,基于立体声模式和频带方式M/S决定来应用逆立体声处理。
对于在声道对中涉及并被联合编码的所有声道,基于从编码器发送的
Figure BDA0002954401420000242
值,频谱被去归一化为原始能量水平。
图10示出了用于对经编码的信号500进行解码的多信号解码器的优选实施方式。多信号解码器包括输入接口600、用于解码由输入接口600输出的至少三个经编码的信号的信号解码器700。多信号解码器包括联合信号处理器800,用于根据经编码的信号中包括的边信息执行联合信号处理,以获得至少三个经处理的解码信号。该多信号解码器包括后期处理器900,用于根据包括在经编码的信号中的边信息来对该至少三个经处理的解码信号进行后期处理。特别地,以使得经后期处理的信号比后期处理之前的信号白化较少的方式来执行后期处理。经后期处理的信号直接或间接地表示经解码的音频信号1000。
由输入接口600提取并转发给联合信号处理器800的边信息是图5b所示的边信息530,并且由输入接口600从经编码的多信号音频信号中提取的边信息(其被转发给后期处理器900以用于执行去白化操作),是关于图5b示出和说明的边信息520。
联合信号处理器800被配置为从输入接口600提取或接收针对每个经联合立体声解码的信号的能量归一化值。该针对每个经联合立体声解码的信号的能量归一化值对应于图5b的能量缩放信息530。自适应联合信号处理器200被配置为使用联合立体声边信息或如由包括在经编码的音频信号500中的联合立体声边信息532所指示的联合立体声模式,对解码信号进行成对处理820,以在框820的输出处获得经联合立体声解码的信号。在框830中,使用能量归一化值执行经联合立体声解码的信号的重新缩放操作以及具体地能量重新缩放,以在图10的框800的输出处获得经处理的解码信号。
为了确保声道已接收到如在框237中关于图3说明的逆转ILD归一化,联合信号处理器800被配置为检查从经编码的信号中提取的针对特定信号的能量归一化值是否具有预定义的值。如果是这种情况,则在能量归一化值具有该预定义值的情况下,不执行能量重新缩放,或仅执行对特定信号的减小的能量重新缩放,或者对该单独声道执行任何其他加权操作。
在实施例中,信号解码器700被配置为从输入接口600接收如框620所指示的每个经编码的信号的比特分配值。在图12中的536处示出的该比特分配值被转发给框720,使得信号解码器700确定所使用的比特分配。优选地,为了图12的框720中确定所使用的比特分配,通过信号解码器700来执行与关于图6和图9中的编码器侧说明的步骤(即,步骤290、291、292、293)相同的步骤。在框710/730中,执行单独的解码以便获得到图10的联合信号处理器800的输入。
使用边信息框532中包括的某些边信息,联合信号处理器800具有频带复制、带宽扩展或智能间隙填充处理功能。该边信息被转发给框810,并且框820使用框810所应用的带宽扩展过程的结果来执行联合立体声(解码器)处理。在框810中,智能间隙填充过程被配置为:当带宽扩展或IGF处理的目的地范围被指示为具有另一立体声表示时,将源范围从一个立体声表示变换为该另一立体声表示。当目的地范围被指示为具有中/边立体声模式时,并且当源范围被指示为具有L/R立体声模式时,L/R源范围立体声模式将被变换为中/边源范围立体声模式,并且然后以源范围的中/边立体声模式表示来执行IGF处理。
图14示出了联合信号处理器800的优选实施方式。联合信号处理器被配置为提取有序信号对信息,如框630所示。该提取可以由输入接口600来执行,或者联合信号处理器可以从输入接口的输出中提取该信息,或者可以在没有特定输入接口的情况下直接提取该信息,这也是关于联合信号处理器或信号解码器描述的其他提取过程的情况。
在框820中,联合信号处理器从最后一个信号对开始执行优选级联的逆处理,其中术语“最后一个”是指由编码器确定和执行的处理顺序。在解码器中,“最后一个”信号对是最先处理的信号对。框820接收边信息532,针对在框630中示出的信号对信息所指示的以及例如以如关于图4说明的方式实现的每个信号对,该边信息指示特定对是否是双单声道、全MS或具有相关联的MS掩码的频带方式MS过程。
在框820中的逆处理之后,在框830中再次依赖于指示每个声道的归一化信息的边信息534来执行声道对中所涉及的信号的去归一化。关于图14中的框830示出的去归一化优选地是使用能量归一化值的重新缩放,当标志534a具有第一值时为缩小,并且当标志534a具有第二值(与第一个值不同)时执行作为放大的重新缩放。
图15a示出了作为图10的信号解码器和联合信号处理器的框图的优选实施方式,并且图15b示出了图10的后期处理器900的优选实施方式的框图表示。
信号解码器700包括用于经编码的信号500中包括的频谱的解码器和解量化器级710。信号解码器700包括比特分配器720,该比特分配器720优选地接收针对每个经编码的信号的窗口长度、某个立体声模式和比特分配信息来作为边信息。在优选的实施方式中,比特分配器720具体使用步骤290、291、292、293来执行比特分配,其中在步骤291中使用每个经编码的信号的比特分配信息,并且其中,在框290或291中使用关于窗口长度和立体声模式的信息。
在框730中,还对频谱中的被量化为零且不在IGF范围内的范围执行也优选地使用噪声填充边信息的噪声填充。噪声填充优选地限于框710输出的信号的低频带部分。在框810中,并且使用某些边信息,执行智能间隙填充或通常的带宽扩展处理,重要的是,其是对经白化的频谱操作的。
在框820中,并使用边信息,逆立体声处理器执行用于撤消在图2的项目240中执行的处理的过程。使用边信息中包括的每个声道的所发送的经量化的ILD参数来执行最终的解缩放。框830的输出被输入到后期处理器的框910,该后期处理器执行逆TNS处理和/或逆频域噪声成形处理或任何其他去白化操作。框910的输出是简单频谱,该频谱被频率到时间转换器920转换到时域。根据某个编码或解码规则,将框920的针对相邻帧的输出在重叠相加处理器930中进行重叠相加,以最终从重叠操作中获得多个(multiplicity of)的经解码的音频信号,或者一般地,经解码的音频信号1000。该信号1000可以由各个声道组成,或者可以由诸如环境立体声分量的声场描述的分量组成,或者可以由高阶环境立体声描述的任何其他分量组成。该信号也可以是声场的A格式或B格式或任何其他格式描述的信号。所有这些备选方案在图15b中统称为经解码的音频信号1000。
随后指出优选实施例的其他优点和特定特征。
本发明的范围是为处理在感知上白化和ILD补偿的信号时提供针对[6]中的原理的解决方案。
ο具有如[8]中所述的速率回路结合如[9]中所述的频谱包络扭曲的FDNS,提供了分离量化噪声的感知成形和速率回路的简单但非常有效的方式。
ο对经FDNS白化的频谱的所有声道使用平均能量水平,允许简单且有效的方式来决定是否存在如[7]中所述的针对被选择用于联合编码的每个声道对的M/S处理的优点。
ο对于所描述的系统,针对每个声道编码单个宽带ILD足够了,并且因此与已知方法相比,实现了比特节省。
ο通过选择具有高度互相关的信号的声道对来用于联合编码通常导致全频谱M/S变换,由于针对每个频带来发信号通知M/S或L/R大部分被发信号通知全M/S变换的单个比特所取代,因此节省了额外的平均比特。
ο基于经处理的声道的能量的灵活而简单的比特分配。
优选实施例的特征
如先前段落所述,在该实施方式中,编解码器通过引入[7]中针对联合立体声编码描述的概念,使用新方法来融合[6]中描述的任意声道的信号自适应联合编码的灵活性。所提出的发明的新颖性归纳为以下差异:
ο关于全局ILD补偿,针对每个声道对的联合处理与[6]中描述的多声道处理有所不同。在选择声道对并进行M/S决定和处理之前,全局ILD均衡声道的水平,并因此实现更有效的特别是平移源的立体声编码。
ο关于全局ILD补偿,针对每个声道对的联合处理与[7]中描述的立体声处理有所不同。在所提出的系统中,不存在针对每个声道对的全局ILD补偿。为了能够将[7]中所述的M/S决定机制用于任意声道,将所有声道归一化到单个能量水平,即平均能量水平。该归一化发生在选择用于联合处理的声道对之前。
ο在自适应声道对选择过程之后,如果存在不是用于联合处理的声道对的一部分的声道,则该声道的能量水平将反转为初始能量水平。
ο用于熵编码的比特分配没有如[7]中所述的在每个声道对上实现。作为替代,考虑所有声道的能量,并如本文档中相应段落中所描述的分配比特。
ο存在[6]中描述的自适应声道对选择的显式“低复杂度”模式,其中不允许将作为迭代声道对选择过程期间声道对的一部分的单个声道作为该声道对选择过程期间另一声道对的一部分。
ο通过我们使用[6]的信号自适应声道对选择的事实,增强了将简单频带方式M/S用于每个声道并因此减少了需要在比特流中发送的信息量的优点。通过选择高度相关的声道进行联合编码,对于大多数情况,宽带M/S转换是最佳的,即M/S编码用于所有频带。这可以用单个比特来发信号通知,并因此与频带方式M/S决定相比,需要少得多的信令信息。它显著减少了需要针对所有声道对发送的信息比特的总量。
本发明的实施例涉及具有在感知上白化和ILD补偿频谱的多声道系统的信号自适应联合编码,其中联合编码由基于针对熵编码器的所估计的比特数的简单每频带M/S变换决定组成。
虽然已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示对应方法的描述,其中,框或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤上下文中描述的方面也表示对对应框或项目或者对应装置的特征的描述。可以由(或使用)硬件设备(诸如,微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中,可以由这种装置来执行最重要方法步骤中的某一个或多个方法步骤。
新颖的编码音频信号可以存储在数字存储介质上,或者可以在诸如无线传输介质或有线传输介质(例如,互联网)等的传输介质上传输。
取决于某些实现要求,可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现,该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,其能够与可编程计算机系统协作以便执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬时性的。
因此,本发明方法的另一实施例是因此表示计算机程序的数据流或信号序列,该计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传送。
另一实施例包括处理装置,例如,计算机或可编程逻辑设备,该处理装置被配置为或适于执行本文所述的方法之一。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
根据本发明的另一实施例包括被配置为向接收机(例如,以电子方式或以光学方式)传送计算机程序的装置或系统,该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收机传送计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
本文描述的装置可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来实现。
本文描述的方法可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来执行。
上述实施例对于本发明的原理仅是说明性的。应当理解的是,本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。
参考文献(全部通过引用整体并入本文)
[1]″Information technology-MPEG audio technologies Part 3:Unifiedspeech and audio coding,″ISO/IEC 23003-3,2012.
[2]″Information technology-MPEG audio technologies Part 1:MPEGSurround,″ISO/IEC 23003-1,2007.
[3]J.Herre,J.Hilpert,K.Achim and J.Plogsties,″MPEG-H 3D Audio-The NewStandard for Coding of Immersive Spatial Audio,″Journal of Selected Topics inSignal Processing,vol.5,no.9,pp.770-779,August 2015.
[4]″Digital Audio Compression(AC-4)Standard,″ETSI TS 103 190 V1.1.1,2014-04.
[5]D.Yang,H.Ai,C.Kyriakakis and C.Kuo,″High-fidelity multichannelaudio coding with Karhunen-Loeve transform,″Transactions on Speech and AudioProcessing,vol.11,no.4,pp.365-380,July 2003.
[6]F.Schuh,S.Dick,R.Füg,C.R.Helmrich,N.Rettelbach and T.Schwegler,″Efficient Multichannel Audio Transform Coding with Low Delay and Complexity,″in AES Convention,Los Angeles,September 20,2016.
[7]G.Markovic,E.Fotopoulou,M.Multrus,S.Bayer,G.Fuchs,J.Herre,E.Ravelli,M.Schnell,S.Doehla,W.Jaegers,M.Dietz and C.Helmrich,″Apparatus andmethod for mdct m/s stereo with global ild with improved mid/side decision″.International Patent WO2017125544A1,27July 2017.
[8]3GPP TS 26.445,Codecfor Enhanced Voice Services(EVS);Detailedalgorithmic description.
[9]G.Markovic,F.Guillaume,N.Rettelbach,C.Helmrich and B.Schubert,″Linear prediction based coding scheme using spectral domain noise shaping″.EUPatent 2676266B1,14February 2011.
[10]S.Disch,F.Nagel,R.Geiger,B.N.Thoshkahna,K.Schmidt,S.Bayer,C.Neukam,B.Edler and C.Helmrich,″Audio Encoder,Audio Decoder and RelatedMethods Using Two-Channel Processing Within an Intelligent Gap FillingFramework″.International Patent PCT/EP2014/065106,15072014.
[11]″Codec for Encanced Voice Services(EVS);Detailed algorithmicdescription,″3GPP TS 26.445 V 12.5.0,December 2015.
[12]″Codec for Encanced Voice Services(EVS);Detailed algorithmicdescription,″3GPP TS 26.445V 13.3.0,September 2016.
[13]Sascha Dick,F.Schuh,N.Rettelbach,T.Schwegler,R.Fueg,J.Hilpert andM.Neusinger,″APPARATUS AND METHOD FOR ENCODING OR DECODING A MULTI-CHANNELSIGNAL″.Inernational Patent PCT/EP2016/054900,08 March 2016。

Claims (46)

1.一种用于编码至少三个音频信号的多信号编码器,包括:
信号预处理器(100),用于单独地预处理每个音频信号以获得至少三个经预处理的音频信号,其中,所述预处理被执行为使得经预处理的音频信号相对于预处理之前的信号被白化;
自适应联合信号处理器(200),用于对所述至少三个经预处理的音频信号执行处理,以获得至少三个经联合处理的信号或者未处理的信号和至少两个经联合处理的信号;
信号编码器(300),用于对每个信号进行编码以获得一个或多个经编码的信号;以及
输出接口(400),用于发送或存储经编码的多信号音频信号,所述经编码的多信号音频信号包括所述一个或多个经编码的信号、与所述预处理相关的边信息和与所述处理相关的边信息。
2.根据权利要求1所述的多信号编码器,其中,所述自适应联合信号处理器(200)被配置为对所述至少三个经预处理的音频信号执行宽带能量归一化(210),使得每个经预处理的音频信号都具有归一化的能量,以及
其中,所述输出接口(400)被配置为包括每个经预处理的音频信号的宽带能量归一化值(534)来作为进一步的边信息。
3.根据权利要求2所述的多信号编码器,其中,所述自适应联合信号处理器(200)被配置为:
计算(212)关于经预处理的音频信号的平均能量的信息;
计算(211)关于每个经预处理的音频信号的能量的信息,以及
基于所述关于平均能量的信息和关于特定的经预处理的音频信号的能量的信息,计算(213、214)所述能量归一化值。
4.根据前述权利要求中的一项所述的多信号编码器,
其中,所述自适应联合信号处理器(200)被配置为根据平均能量和特定的经预处理的音频信号的能量来计算(213、214)该经预处理的音频信号的缩放比例(534b),以及
其中,所述自适应联合信号处理器(200)被配置用于确定标记(534a),所述标记指示所述缩放比例是用于放大还是缩小,并且其中,每个信号的标记被包括在经编码的信号中。
5.根据权利要求4所述的多信号编码器,
其中,所述自适应联合信号处理器(200)被配置为将所述缩放比例量化(214)到相同的量化范围,而与缩放是放大还是缩小无关。
6.根据前述权利要求中的一项所述的多信号编码器,其中,所述自适应联合信号处理器(200)被配置为:
相对于参考能量来对每个经预处理的音频信号进行归一化(210)以获得至少三个归一化信号;
计算(220)所述至少三个归一化信号中的每个可能的归一化信号对的互相关值;
选择(229)具有最高互相关值的信号对;
确定(232a)所选择的信号对的联合立体声处理模式;以及
根据所确定的联合立体声处理模式来对所选择的信号对进行联合立体声处理(232b),以获得经处理的信号对。
7.根据权利要求6所述的多信号编码器,其中,所述自适应联合信号处理器(200)被配置为应用级联信号对预处理,或者其中,所述自适应联合信号处理器(200)被配置为应用非级联信号对处理,
其中,在所述级联信号对预处理中,经处理的信号对中的信号在进一步的迭代步骤中是可选择的,所述进一步的迭代步骤由以下操作组成:计算更新的互相关值,选择具有最高互相关值的信号对,确定所选择的信号对的联合立体声处理模式,以及根据所确定的联合立体声处理模式对所选择的信号对进行联合立体声处理,或者
其中,在所述非级联信号对处理中,经处理的信号对中的信号在以下操作中是不可选择的:附加选择具有最高互相关值的信号对,确定所选择的信号对的联合立体声处理模式,以及根据所确定的联合立体声处理模式对所选择的信号对进行联合立体声处理。
8.根据前述权利要求中的一项所述的多信号编码器,
其中,所述自适应联合信号处理器(200)被配置为确定作为在成对处理过程之后剩余的信号而要被单独地编码的信号,以及
其中,所述自适应联合信号处理器(200)被配置为在执行所述成对处理过程之前修改应用于该信号的能量归一化,例如在执行所述成对处理过程之前使应用于该信号的能量归一化恢复原状(237)或者至少部分地恢复原状。
9.根据前述权利要求中的一项所述的多信号编码器,
其中,所述自适应联合信号处理器(200)被配置为针对要由所述信号编码器(300)处理的每个信号确定比特分配信息(536),其中,所述输出接口(400)被配置为将每个信号的比特分配信息(536)引入到经编码的信号中。
10.根据前述权利要求中的一项所述的多信号编码器,
其中,所述自适应联合信号处理器(200)被配置用于计算(282)要由所述信号编码器(300)处理的每个信号的信号能量信息,
计算(284)要由所述信号编码器(300)编码的所述多个信号的总能量;
基于所述信号能量信息和所述总能量信息来计算(286)每个信号的比特分配信息(536),以及
其中,所述输出接口(400)被配置为针对每个信号将所述比特分配信息引入到经编码的信号中。
11.根据权利要求10所述的多信号编码器,
其中,所述自适应联合信号处理器(200)被配置为:可选地向每个信号指派(290)初始数量的比特,基于所述比特分配信息指派(291)多个比特,可选地执行(292)进一步的精炼步骤,或可选地执行(292)最终捐赠步骤,以及
其中,所述信号编码器(300)被配置为使用每个信号的所指派的比特来执行信号编码。
12.根据前述权利要求中的一项所述的多信号编码器,其中,所述信号预处理器(100)被配置为针对每个音频信号执行:
时间到频谱的转换操作(108、110、112),以获得每个音频信号的频谱;
针对每个信号频谱的时间噪声成形操作(114a,114b)和/或频域噪声成形操作(116),以及
其中,所述信号预处理器(100)被配置为在所述时间噪声成形操作和/或所述频域噪声成形操作之后将信号频谱馈送给所述自适应联合信号处理器(200),以及
其中,所述自适应联合信号处理器(200)被配置为对接收到的信号频谱执行联合信号处理。
13.根据前述权利要求中的一项所述的多信号编码器,其中,所述自适应联合信号处理器(200)被配置为
针对所选择的信号对中的每个信号,确定:用于诸如L/R的全频带分离编码模式的必要比特率或用于诸如M/S的全频带联合编码模式的必要比特率,或者用于诸如M/S的频带方式联合编码模式的比特率加上用于诸如M/S掩码的频带方式信令的必要比特,
针对信号对的所有频带,将分离编码模式或联合编码模式确定为特定模式,这是当大部分频带已经被确定用于所述特定模式,而少于所有频带的10%的少部分频带已经被确定为该另一编码模式时的情况;或者确定需要最少量比特的编码模式,以及
其中,所述输出接口(400)被配置为将指示包括到经编码的信号中,所述指示指出将所述特定模式用于帧的所有频带,而不是将编码模式掩码用于所述帧。
14.根据前述权利要求中的一项所述的多信号编码器,
其中,所述信号编码器(300)包括用于每个单独信号或跨两个或更多个信号的速率回路处理器,所述速率回路处理器被配置用于接收和使用针对特定信号或针对两个或更多个信号的比特分配信息(536)。
15.根据前述权利要求中的一项所述的多信号编码器,
其中,所述自适应联合信号处理器(200)被配置为自适应地选择用于联合编码的信号对,或者其中,所述自适应联合信号处理器(200)被配置用于针对每个所选择的信号对来确定频带方式中/边编码模式、全频带中/边编码模式或全频带左/右编码模式,并且其中,所述输出接口(400)被配置用于将所选择的编码模式作为边信息(532)指示在所述经编码的多信号音频信号中。
16.根据前述权利要求中的一项所述的多信号编码器,
其中,所述自适应联合信号处理器(200)被配置用于:当以中/边模式或以左/右模式进行编码时,基于每个频带中的估计比特率来形成频带方式中/边决定与左/右决定的对比,并且其中,最终联合编码模式是基于频带方式中/边与左/右决定的对比的结果确定的。
17.根据前述权利要求中的一项所述的多信号编码器,其中,所述自适应联合信号处理器(200)被配置用于执行(260)频谱带复制处理或智能间隙填充处理,以用于确定用于所述频谱带复制处理或所述智能间隙填充处理的参数化边信息,并且其中,所述输出接口(400)被配置用于将频谱带复制或智能间隙填充边信息(532)作为附加边信息包括在经编码的信号中。
18.根据权利要求18所述的多信号编码器,
其中,所述自适应联合信号处理器(200)被配置用于对经编码的信号对执行立体声智能间隙填充处理,并且附加地,对要被单独地编码的至少一个信号执行单信号智能间隙填充处理。
19.根据前述权利要求中的一项所述的多信号编码器,
其中,所述至少三个音频信号包括低频增强信号,并且其中,所述自适应联合信号处理器(200)被配置为应用信号掩码,所述信号掩码指示自适应联合信号处理器(200)将针对哪些信号是激活的,并且其中,所述信号掩码指示所述低频增强信号将不会在所述至少三个经预处理的音频信号的成对处理中使用。
20.根据权利要求1至5中一项所述的多信号编码器,其中,所述自适应联合信号处理器(200)被配置为计算信号的MDCT频谱的能量来作为关于该信号的能量的信息,或者
计算所述至少三个经预处理的音频信号的MDCT频谱的平均能量来作为关于所述至少三个经预处理的音频信号的平均能量的信息。
21.根据权利要求1至5中的一项所述的多信号编码器,
其中,所述自适应联合信号处理器(200)被配置用于基于特定信号的能量信息和关于所述至少三个音频信号的平均能量的能量信息来计算(213)每个信号的缩放因子,
其中,所述自适应联合信号处理器(200)被配置用于量化(214)所述缩放比例,以获得经量化的缩放比例值,所述经量化的缩放比例值被用来导出用于包括在经编码的信号中的每个信号的缩放比例的边信息,以及
其中,所述自适应联合信号处理器(200)被配置为从所述经量化的缩放比例值中导出经量化的缩放比例,其中,在被用于经缩放的信号与另一对应缩放的信号的成对处理之前,经预处理的音频信号使用所述经量化的缩放比例进行缩放。
22.根据前述权利要求中的一项所述的多信号编码器,
其中,所述自适应联合信号处理器(200)被配置用于计算(221)可能的信号对的归一化信号间互相关值,以便决定和选择哪个信号对具有最高程度的相似度,并且因此适用于被选择作为所述至少三个经预处理的音频信号中用于成对处理的一对,
其中,每个信号对的归一化互相关值被存储在互相关向量中,以及
其中,所述自适应联合信号处理器(200)被配置用于通过将先前帧的互相关向量与当前帧的互相关向量进行比较(222、223)来确定是否要保留一个或多个先前帧的信号对选择,并且其中,在当前帧的互相关向量与先前帧的互相关向量之间的差小于预定义阈值时,保留(225)先前帧的信号对选择。
23.根据前述权利要求中的一项所述的多信号编码器,
其中,所述信号预处理器(100)被配置用于使用从多个不同窗口长度中选择的某个窗口长度来执行时频转换,
其中,所述自适应联合信号处理器(200)被配置为在比较经预处理的音频信号以确定要成对处理的信号对时,确定所述信号对是否具有相同的关联窗口长度,以及
其中,所述自适应联合信号处理器(200)被配置为:仅当两个信号已经与所述信号预处理器(100)应用的相同窗口长度相关联时,才允许所述两个信号的成对处理。
24.根据前述权利要求中的一项所述的多信号编码器,
其中,所述自适应联合信号处理器(200)被配置为应用非级联信号对处理,在所述非级联信号对处理中,经处理的信号对中的信号在进一步的信号对处理中是不可选择的,其中,所述自适应联合信号处理器(200)被配置用于基于用于成对处理的信号对之间的互相关来选择信号对,并且其中,若干所选择的信号对的成对处理是并行执行的。
25.根据权利要求25所述的多信号编码器,
其中,所述自适应联合信号处理器(200)被配置为针对所选择的信号对来确定立体声编码模式,并且其中,当将所述立体声编码模式确定为双单声道模式时,该信号对中涉及的信号被至少部分地重新缩放并被指示为要被单独编码的信号。
26.根据权利要求18和19中的一项所述的多信号编码器,
其中,所述自适应联合信号处理器(200)被配置用于:如果核心区域的立体声模式不同于智能间隙填充I GF区域的立体声模式,或如果核心的立体声模式被标记为频带方式中/边编码,则针对经成对处理的信号对执行立体声IGF操作,或者
其中,所述自适应联合信号处理器(200)被配置为:如果核心区域的立体声模式没有不同于IGF区域的立体声模式,或核心的立体声模式未被标记为频带方式中/边编码模式,则针对经成对处理的信号对中的信号应用单信号IGF分析。
27.根据前述权利要求中的一项所述的多信号编码器,
其中,所述自适应联合信号处理器(200)被配置用于:在由所述信号编码器(300)单独编码所述IGF操作的结果之前,执行智能间隙填充操作,
其中,将功率频谱用于量化和智能间隙填充IGF中的音调/噪声确定,并且其中,所述信号预处理器(100)被配置用于针对MDST频谱执行与已应用于MDCT频谱的频域噪声成形相同的频域噪声成形,以及
其中,所述自适应联合信号处理器(200)被配置用于对经预处理的MDST频谱执行相同的中/边处理,使得在由所述信号编码器(300)执行的量化内或在由所述自适应联合信号处理器(200)执行的智能间隙填充处理内使用经处理的MDST频谱的结果,或者
其中,所述自适应联合信号处理器(200)被配置用于基于用于所述MDST频谱的全频带缩放向量来应用相同的归一化缩放,这与使用相同的经量化的缩放向量对所述MDCT频谱进行的缩放一样。
28.根据前述权利要求中的一项所述的多信号编码器,其中,所述自适应联合信号处理器(200)被配置用于对所述至少三个经预处理的音频信号执行成对处理,以获得所述至少三个经联合处理的信号或者要被单独编码的信号和至少两个经联合处理的信号。
29.根据前述权利要求中的一项所述的多信号编码器,其中,所述至少三个音频信号中的音频信号是音频声道,或者
其中,所述至少三个音频信号中的音频信号是声场描述的音频分量信号,所述声场描述例如是环境立体声声场描述、B格式描述、A格式描述或其他任何声场描述,例如相对于参考位置来描述声场的声场描述。
30.根据前述权利要求中的一项所述的多信号编码器,
其中,所述信号编码器(300)被配置用于对每个信号进行单独编码以获得至少三个经单独编码的信号,或者用于对多于一个信号执行(熵)编码。
31.一种用于解码经编码的信号的多信号解码器,包括:
信号解码器(700),用于解码至少三个经编码的信号;
联合信号处理器(800),用于根据经编码的信号中包括的边信息执行联合信号处理,以获得至少三个经处理的解码信号;以及
后期处理器(900),用于根据在经编码的信号中包括的边信息来对所述至少三个经处理的解码信号进行后期处理,其中,执行所述后期处理使得经后期处理的信号比后期处理之前的信号白化较少,并且其中,所述经后期处理的信号表示经解码的音频信号。
32.根据权利要求32所述的多信号解码器,其中,所述联合信号处理器(800):
被配置为从经编码的信号中提取(610)每个经联合立体声解码的信号的能量归一化值;
被配置为使用由经编码的信号中的边信息指示的联合立体声模式来对经解码的信号进行成对处理(820),以获得经联合立体声解码的信号;以及
被配置为使用所述能量归一化值对所述经联合立体声解码的信号进行能量重新缩放(830),以获得经处理的解码信号。
33.根据权利要求32所述的多信号解码器,
其中,所述联合信号处理器(800)被配置为检查从经编码的信号中提取的用于特定信号的能量归一化值是否具有预定义值,以及
其中,所述联合信号处理器(800)被配置为:当所述能量归一化值具有所述预定义值时,不对所述特定信号执行能量重新缩放或对所述特定信号仅执行减少的能量重新缩放。
34.根据权利要求32至34中的一项所述的多信号解码器,其中,所述信号解码器(700)被配置为
从经编码的信号中提取(620)每个经编码的信号的比特分配值,
使用信号的比特分配值、针对所有信号的剩余比特数以及可选地进一步的精炼步骤或可选地最终捐赠步骤来确定(720)针对该信号的所使用的比特分配;以及
基于针对每个信号的所使用的比特分配来执行(710、730)单独解码。
35.根据权利要求32至35中的一项所述的多信号解码器,其中,所述联合信号处理器(800)被配置为
使用经编码的信号中的边信息对经单独解码的信号执行(820)频带复制或智能间隙填充处理,以获得频谱增强的单独信号;以及
使用所述频谱增强的单独信号,根据联合处理模式来执行联合处理(820)。
36.根据权利要求36所述的多信号解码器,
其中,所述联合信号处理器(800)被配置为:当目的地范围被指示为具有另一立体声表示时,将源范围从一个立体声表示变换为所述另一立体声表示。
37.根据权利要求32至37中的一项所述的多信号解码器,其中,所述联合信号处理器(800)被配置为
从经编码的信号中提取每个经联合立体声解码的信号的能量归一化值(534b),并附加地提取标志(534a),所述标志(534a)指示所述能量归一化值是放大值还是缩小值,以及
使用所述能量归一化值执行(830)重新缩放,当所述标志具有第一值时所述重新缩放为缩小,并且当所述标志具有不同于所述第一值的第二值时所述重新缩放为放大。
38.根据权利要求32至38中的一项所述的多信号解码器,其中,所述联合信号处理器(800)被配置为
从经编码的信号中提取(630)对由联合编码操作产生的信号对进行指示的边信息,
从最后一个信号对开始执行(820)逆立体声或多声道处理以获得经编码的信号,以便转换回到每个信号的原始的经预处理的频谱,并且基于经编码的信号的边信息(532)中指示的立体声模式和/或频带方式中/边决定来执行逆立体声处理。
39.根据权利要求32至39中的一项所述的多信号解码器,
其中,所述联合信号处理器(800)被配置为基于针对每个单独信号包括的经量化的能量缩放信息,将信号对中涉及的所有信号去归一化(830)为对应的原始能量水平,并且其中,信号对处理中未涉及的其他信号并未如同信号对处理中涉及的信号一样被去归一化。
40.根据权利要求32至40中的一项所述的多信号解码器,
其中,所述后期处理器(900)被配置为针对每个经单独处理的解码信号执行时间噪声成形操作(910)或频域噪声成形操作(910)以及从频谱域到时域的转换(920)和经后期处理的信号的后续时间帧之间的后续重叠/相加操作(930)。
41.根据权利要求32至41中的一项所述的多信号解码器,
其中,所述联合信号处理器(800)被配置为从经编码的信号中提取指示是否要使用中/边或左/右编码来对信号对的时间帧的若干频带进行逆处理的标志,并且其中,所述联合信号处理器(800)被配置为使用该标志来使该信号对的对应频带根据该标志的值而全部遭受中/边处理或左/右处理,以及
其中,对于相同信号对的不同时间帧或在相同时间帧处的不同信号对,从经编码的信号的边信息中提取针对每个单独频带指示单独编码模式的编码模式掩码,并且其中,所述联合信号处理器(800)被配置为:按照针对与对应频带相关联的比特所指示的,将逆中/边处理或左/右处理应用于该频带。
42.根据权利要求32至42中的一项所述的多信号解码器,其中,经编码的信号是经编码的多声道信号,其中,所述多信号解码器是多声道解码器,其中,经编码的信号是经编码的多声道信号,其中,所述信号解码器(700)是声道解码器,其中,经编码的信号是经编码的声道,其中,所述联合信号处理是联合声道处理,其中,所述至少三个经处理的解码信号是至少三个经处理的解码信号,其中,所述经后期处理的信号是声道,或者
其中,经编码的信号是经编码的多分量信号,所述经编码的多分量信号表示声场描述的音频分量信号,所述声场描述例如是环境立体声声场描述、B格式描述、A格式描述或其他任何声场描述,例如相对于参考位置描述声场的声场描述,其中,所述多信号解码器是多分量解码器,其中,经编码的信号是经编码的多分量信号,其中,所述信号解码器(700)是分量解码器,其中,经编码的信号是经编码的分量,其中,所述联合信号处理是联合分量处理,其中,所述至少三个经处理的解码信号是至少三个经处理的解码分量,并且其中,所述经后期处理的信号是分量音频信号。
43.一种用于对至少三个音频信号执行多信号编码的方法,包括:
单独地预处理每个音频信号以获得至少三个经预处理的音频信号,其中,所述预处理被执行为使得经预处理的音频信号相对于预处理之前的信号被白化;
对所述至少三个经预处理的音频信号执行处理,以获得至少三个经联合处理的信号或者要被单独编码的信号和至少两个经联合处理的信号;
对每个信号进行编码以获得一个或多个经编码的信号;以及
发送或存储经编码的多信号音频信号,所述经编码的多信号音频信号包括所述一个或多个经编码的信号、与所述预处理相关的边信息和与所述处理相关的边信息。
44.一种用于对经编码的信号进行多信号解码的方法,包括:
单独地解码至少三个经编码的信号;
根据经编码的信号中包括的边信息执行联合信号处理,以获得至少三个经处理的解码信号;以及
根据在经编码的信号中包括的边信息来对所述至少三个经处理的解码信号进行后期处理,其中,执行所述后期处理使得经后期处理的信号比后期处理之前的信号白化较少,并且其中,所述经后期处理的信号表示经解码的音频信号。
45.一种计算机程序,当运行在计算机或处理器上时,用于执行根据权利要求44所述的方法或根据权利要求45所述的方法。
46.一种经编码的信号,包括:
至少三个经单独编码的信号(510);
与为了获得所述三个经单独编码的信号而执行的预处理相关的边信息(520);以及
与用于获得所述至少三个经单独编码的信号而执行的成对处理相关的边信息(532),以及
其中,针对通过多信号编码获得的所述至少三个经编码的信号中的每一个,所述经编码的信号包括能量缩放值(534),或者针对经单独编码的信号中的每一个,所述经编码的信号包括比特分配值(536)。
CN201980056603.4A 2018-07-04 2019-06-27 使用信号白化作为预处理的多信号音频编码 Pending CN112639967A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18181767 2018-07-04
EP18181767.7 2018-07-04
PCT/EP2019/067256 WO2020007719A1 (en) 2018-07-04 2019-06-27 Multisignal audio coding using signal whitening as preprocessing

Publications (1)

Publication Number Publication Date
CN112639967A true CN112639967A (zh) 2021-04-09

Family

ID=62985884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980056603.4A Pending CN112639967A (zh) 2018-07-04 2019-06-27 使用信号白化作为预处理的多信号音频编码

Country Status (15)

Country Link
US (1) US20210104249A1 (zh)
EP (2) EP4336497A3 (zh)
JP (2) JP7384893B2 (zh)
KR (1) KR102606259B1 (zh)
CN (1) CN112639967A (zh)
AR (1) AR116665A1 (zh)
AU (1) AU2019298307A1 (zh)
BR (1) BR112020026967A2 (zh)
CA (1) CA3105508C (zh)
MX (1) MX2020014077A (zh)
RU (1) RU2769788C1 (zh)
SG (1) SG11202012936VA (zh)
TW (1) TWI720530B (zh)
WO (1) WO2020007719A1 (zh)
ZA (1) ZA202100719B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022258036A1 (zh) * 2021-06-11 2022-12-15 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11664037B2 (en) * 2020-05-22 2023-05-30 Electronics And Telecommunications Research Institute Methods of encoding and decoding speech signal using neural network model recognizing sound sources, and encoding and decoding apparatuses for performing the same
CN114023338A (zh) * 2020-07-17 2022-02-08 华为技术有限公司 多声道音频信号的编码方法和装置
CN113948095A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 多声道音频信号的编解码方法和装置
CN113948097A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 多声道音频信号编码方法和装置
CN113948096A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 多声道音频信号编解码方法和装置
KR20220151953A (ko) * 2021-05-07 2022-11-15 한국전자통신연구원 부가 정보를 이용한 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기
WO2023113490A1 (ko) * 2021-12-15 2023-06-22 한국전자통신연구원 복소수 데이터를 이용한 오디오 처리 방법 및 그를 수행하는 장치
WO2023153228A1 (ja) * 2022-02-08 2023-08-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、及び、符号化方法
GB2624890A (en) * 2022-11-29 2024-06-05 Nokia Technologies Oy Parametric spatial audio encoding

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101115051A (zh) * 2006-07-25 2008-01-30 华为技术有限公司 音频信号处理方法、系统以及音频信号收发装置
CN104471641A (zh) * 2012-07-19 2015-03-25 汤姆逊许可公司 用于改善对多声道音频信号的呈现的方法和设备
US20150287417A1 (en) * 2013-07-22 2015-10-08 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
US20170256267A1 (en) * 2014-07-28 2017-09-07 Fraunhofer-Gesellschaft zur Förderung der angewand Forschung e.V. Audio encoder and decoder using a frequency domain processor with full-band gap filling and a time domain processor

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2676266A (en) 1951-03-10 1954-04-20 California Inst Res Found Cloud chamber
US7716043B2 (en) * 2005-10-24 2010-05-11 Lg Electronics Inc. Removing time delays in signal paths
US7831434B2 (en) 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
EP2469741A1 (en) 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
BR112013020587B1 (pt) 2011-02-14 2021-03-09 Fraunhofer-Gesellschaft Zur Forderung De Angewandten Forschung E.V. esquema de codificação com base em previsão linear utilizando modelagem de ruído de domínio espectral
US9401153B2 (en) * 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
JP2015011076A (ja) 2013-06-26 2015-01-19 日本放送協会 音響信号符号化装置、音響信号符号化方法、および音響信号復号化装置
SG11201600466PA (en) * 2013-07-22 2016-02-26 Fraunhofer Ges Forschung Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
JP6392353B2 (ja) * 2013-09-12 2018-09-19 ドルビー・インターナショナル・アーベー マルチチャネル・オーディオ・コンテンツの符号化
TWI671734B (zh) * 2013-09-12 2019-09-11 瑞典商杜比國際公司 在包含三個音訊聲道的多聲道音訊系統中之解碼方法、編碼方法、解碼裝置及編碼裝置、包含用於執行解碼方法及編碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置及編碼裝置的音訊系統
EP3067887A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
EP3067885A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
EP3067889A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for signal-adaptive transform kernel switching in audio coding
JP6721977B2 (ja) * 2015-12-15 2020-07-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声音響信号符号化装置、音声音響信号復号装置、音声音響信号符号化方法、及び、音声音響信号復号方法
SG11201806256SA (en) * 2016-01-22 2018-08-30 Fraunhofer Ges Forschung Apparatus and method for mdct m/s stereo with global ild with improved mid/side decision
US10622003B2 (en) * 2018-07-12 2020-04-14 Intel IP Corporation Joint beamforming and echo cancellation for reduction of noise and non-linear echo

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101115051A (zh) * 2006-07-25 2008-01-30 华为技术有限公司 音频信号处理方法、系统以及音频信号收发装置
CN104471641A (zh) * 2012-07-19 2015-03-25 汤姆逊许可公司 用于改善对多声道音频信号的呈现的方法和设备
US20150287417A1 (en) * 2013-07-22 2015-10-08 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
US20170256267A1 (en) * 2014-07-28 2017-09-07 Fraunhofer-Gesellschaft zur Förderung der angewand Forschung e.V. Audio encoder and decoder using a frequency domain processor with full-band gap filling and a time domain processor

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022258036A1 (zh) * 2021-06-11 2022-12-15 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序

Also Published As

Publication number Publication date
KR20210040974A (ko) 2021-04-14
BR112020026967A2 (pt) 2021-03-30
EP3818520C0 (en) 2024-01-24
AU2019298307A1 (en) 2021-02-25
CA3105508A1 (en) 2020-01-09
CA3105508C (en) 2024-03-26
RU2769788C1 (ru) 2022-04-06
TW202016924A (zh) 2020-05-01
MX2020014077A (es) 2021-03-09
JP7384893B2 (ja) 2023-11-21
EP4336497A2 (en) 2024-03-13
EP4336497A3 (en) 2024-03-20
EP3818520B1 (en) 2024-01-24
AR116665A1 (es) 2021-06-02
JP2024010207A (ja) 2024-01-23
EP3818520A1 (en) 2021-05-12
JP2021529354A (ja) 2021-10-28
KR102606259B1 (ko) 2023-11-29
TWI720530B (zh) 2021-03-01
SG11202012936VA (en) 2021-01-28
WO2020007719A1 (en) 2020-01-09
ZA202100719B (en) 2022-08-31
US20210104249A1 (en) 2021-04-08
AU2022235537A1 (en) 2022-10-13

Similar Documents

Publication Publication Date Title
JP7384893B2 (ja) マルチシグナルエンコーダ、マルチシグナルデコーダ、および信号白色化または信号後処理を使用する関連方法
JP6144773B2 (ja) 時間雑音/パッチ整形を用いる符号化オーディオ信号の符号化および復号化装置および方法
US20230386487A1 (en) Apparatus and method for generating an enhanced signal using independent noise-filling
CN109074812B (zh) 用于具有全局ild和改进的中/侧决策的mdct m/s立体声的装置和方法
CN109074810A (zh) 用于多声道编码中的立体声填充的装置和方法
CN110998721B (zh) 用于使用宽频带滤波器生成的填充信号对已编码的多声道信号进行编码或解码的装置
CN109427338B (zh) 立体声信号的编码方法和编码装置
US11527252B2 (en) MDCT M/S stereo

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination