CN107592938B - 对编码音频信号解码的解码器和编码音频信号的编码器 - Google Patents

对编码音频信号解码的解码器和编码音频信号的编码器 Download PDF

Info

Publication number
CN107592938B
CN107592938B CN201680026851.0A CN201680026851A CN107592938B CN 107592938 B CN107592938 B CN 107592938B CN 201680026851 A CN201680026851 A CN 201680026851A CN 107592938 B CN107592938 B CN 107592938B
Authority
CN
China
Prior art keywords
transform
channel
symmetry
signal
cores
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680026851.0A
Other languages
English (en)
Other versions
CN107592938A (zh
Inventor
克里斯汀·赫姆瑞希
贝恩德·埃德勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to CN202110100367.0A priority Critical patent/CN112786061B/zh
Publication of CN107592938A publication Critical patent/CN107592938A/zh
Application granted granted Critical
Publication of CN107592938B publication Critical patent/CN107592938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

示出了用于对编码音频信号4进行解码的解码器2的示意框图。解码器包括自适应频谱时间转换器6和重叠相加处理器8。自适应频谱时间转换器例如通过频率时间变换将连续的频谱值块4’转换成连续的时间值块10。此外,自适应频谱时间转换器6接收控制信息12,并且响应于控制信息12,在第一组变换核中的变换核与第二组变换核中的变换核之间进行切换,其中第一组变换核包括在核的侧面具有不同对称性的一个或多个变换核,第二组变换核包括在变换核的侧面具有相同对称性的一个或多个变换核。此外,重叠相加处理器8将连续的时间值块10重叠相加,以获得可以作为解码音频信号的经解码的音频值14。

Description

对编码音频信号解码的解码器和编码音频信号的编码器
技术领域
本发明涉及用于对编码音频信号进行解码的解码器和用于对音频信号进行编码的编码器。
背景技术
实施例示出了用于音频编码中的信号自适应变换核切换的方法和装置。换句话说,本发明涉及音频编码,具体地,涉及通过交叠变换(lapped transform)(例如,改进的离散余弦变换(MDCT)[1])的感知音频编码。
目前所有的感知音频编解码器(包括MP3、Opus(Celt)、HE-AAC系列以及新的MPEG-H 3D音频和3GPP增强语音服务(EVS)编解码器)都采用MDCT对一个或多个通道波形进行频域量化和编码。该交叠变换的合成版本使用长度M的频谱spec[]由下式给出:
Figure GDA0002778882460000011
其中,M=N/2,N是时间窗长度。在加窗之后,通过重叠相加(OLA)过程将时间输出xi,n与前一个时间输出xi-1,n进行组合。C可以是大于0或者小于或等于1的常数参数,例如,2/N。
虽然(1)的MDCT对于各种比特率的任意多个通道的高质量音频编码是有效的,但是存在编码质量可能不足的两种情况。这些情况是例如:
·具有某些基频的高次谐波信号,其经由MDCT被采样,使得每个谐波由多于一个MDCT段(bin)表示。这导致频谱域中的次优能量压缩,即低编码增益。
·通道的MDCT段之间具有大约90度相移的立体声信号,其不能被传统的基于M/S立体声的联合通道编码所利用。可以例如使用HE-AAC的参数立体声或MPEG环绕声来实现涉及通道间相位差(IPD)的编码的更复杂的立体声编码,但是这样的工具在单独的滤波器组域中操作,这增加了复杂度。
有几篇科学论文和文章提到了MDCT或类似MDST的操作,有时也被称为例如“交叠正交变换(LOT)”、“扩展交叠变换(ELT)”或“调制交叠变换(MLT)”。只有[4]同时提到了几个不同的交叠变换,但是并没有克服上述MDCT的缺陷。
因此,需要一种改进的方法。
发明内容
本发明的目的是提供一种用于处理音频信号的改善构思。该目的通过独立权利要求的主题来解决。
本发明基于以下发现:变换核的信号自适应改变或替换可以克服当前MDCT编码的上述问题。根据实施例,本发明通过将MDCT编码原理一般化为包括三个其他类似变换来解决关于常规变换编码的上述两个问题。按照(1)的合成公式,所提出的一般化应被定义为
Figure GDA0002778882460000021
请注意,1/2常数已被k0常数替代,并且cos(...)函数已被cs(...)函数替代。以信号和上下文自适应的方式选择k0和cos(...)。
根据实施例,所提出的MDCT编码范例的修改可以适于针对每帧的瞬时输入特性,使得例如先前描述的问题或情况得到解决。
实施例示出了一种用于对编码音频信号进行解码的解码器。解码器包括自适应频谱时间转换器,用于例如通过频率时间变换将连续的频谱值块转换成连续的时间值块。解码器还包括重叠相加处理器,用于将连续的时间值块重叠相加以获得经解码的音频值。自适应频谱时间转换器被配置为接收控制信息,并且响应于所述控制信息,在第一组变换核中的变换核与第二组变换核中的变换核之间进行切换,所述第一组变换核包括在核的侧面具有不同对称性的一个或多个变换核,所述第二组变换核包括在变换核的侧面具有相同对称性的一个或多个变换核。第一组变换核可以包括在变换核的左侧具有奇对称性并且在变换核的右侧具有偶对称性的一个或多个变换核,反之亦然,例如,逆MDCT-IV或逆MDST-IV变换核。第二组变换核可以包括在变换核的两侧具有偶对称性或在变换核的两侧具有奇对称性的变换核,例如逆MDCT-II或逆MDST-II变换核。以下将更详细地描述变换核类型II和IV。
因此,对于具有至少几乎等于变换的频率分辨率的整数倍的音高(其可以是频谱域中的一个变换段的带宽)的高次谐波信号,与使用经典的MDCT对信号进行编码相比,使用第二组变换核中的变换核(例如MDCT-II或MDST-II)对信号进行编码是有利的。换句话说,与MDCT-IV相比,使用MDCT-II或MDST-II中的一个有利于对接近变换的频率分辨率的整数倍的高次谐波信号进行编码。
其他实施例示出了解码器被配置为对多通道信号(例如立体声信号)进行解码。对于立体声信号,例如,中/侧(M/S)立体声处理通常比经典的左/右(L/R)立体声处理更好。然而,如果两个信号的相移为90°或270°,则该方法不起作用或至少较差。根据实施例,使用基于MDST-IV的编码对两个通道中的一个进行编码并且仍然使用经典的MDCT-IV编码对第二通道进行编码是有利的。这导致通过对音频通道的90°或270°相移进行补偿的编码方案来吸收(incorporate)这两个通道之间的90°相移。
其他实施例示出了用于对音频信号进行编码的编码器。编码器包括自适应时间频谱转换器,用于将重叠的时间值块转换为连续的频谱值块。编码器还包括控制器,用于控制时间频谱转换器以在第一组变换核中的变换核与第二组变换核中的变换核之间进行切换。因此,自适应时间频谱转换器接收控制信息,并且响应于控制信息,在第一组变换核中的变换核与第二组变换核中的变换核之间进行切换,第一组变换核包括在核的侧面具有不同对称性的一个或多个变换核,第二组变换核包括在变换核的侧面具有相同对称性的一个或多个变换核。编码器可以被配置为关于音频信号的分析来应用不同的变换核。因此,编码器可以以已经关于解码器描述的方式应用变换核,其中根据实施例,编码器应用MDCT或MDST操作,并且解码器应用相关的逆变换,即IMDCT或IMDST变换。下面将详细描述不同的变换核。
根据另一实施例,编码器包括用于产生编码音频信号的输出接口,所述编码音频信号具有当前帧的控制信息,所述控制信息对用于生成当前帧的变换核的对称性加以指示。输出接口可以产生用于使解码器能够用正确的变换核对编码音频信号进行解码的控制信息。换句话说,解码器必须应用编码器用于对每个帧和通道中的音频信号进行编码所使用的变换核的逆变换核。该信息可以存储在控制信息中,并且例如使用编码音频信号的帧的控制数据部分从编码器发送到解码器。
附图说明
随后将参考附图讨论本发明的实施例,其中:
图1示出了用于对编码音频信号进行解码的解码器的示意框图;
图2示出了说明根据实施例的解码器中的信号流的示意框图;
图3示出了根据实施例的用于对音频信号进行编码的编码器的示意框图;
图4A示出了由示例性MDCT编码器获得的示意性频谱值块序列;
图4B示出了输入到示例性MDCT编码器的时域信号的示意表示;
图5A示出了根据实施例的示例性MDCT编码器的示意框图;
图5B示出了根据实施例的示例性MDCT解码器的示意框图;
图6示意性地示出了所描述的四个交叠变换的隐式折出(fold-out)属性和对称性;
图7示意性地示出了将信号自适应变换核切换逐帧应用于变换核同时允许理想重构的用例的两个实施例;
图8示出了根据实施例的用于对多通道音频信号进行解码的解码器的示意框图;
图9示出了根据实施例的被扩展到多通道处理的图3的编码器的示意框图;
图10示出了根据实施例的用于对具有两个或更多个通道信号的多通道音频信号进行编码的示意性音频编码器;
图11A示出了根据实施例的编码器计算器的示意框图;
图11B示出了根据实施例的备选的编码器计算器的示意框图;
图11C示出了根据实施例的组合器中的第一通道和第二通道的示例性组合规则的示意图;
图12A示出了根据实施例的解码器计算器的示意框图;
图12B示出了根据实施例的矩阵计算器的示意框图;
图12C示出了根据实施例的图11C的组合规则的示例性逆组合规则的示意图;
图13A示出了根据实施例的音频编码器的实现的示意框图;
图13B示出了根据实施例的与图13A所示的音频编码器相对应的音频解码器的示意框图;
图14A示出了根据实施例的音频编码器的另一实现的示意框图;
图14B示出了根据实施例的与图14A所示的音频编码器相对应的音频解码器的示意框图;
图15示出了对编码音频信号进行解码的方法的示意框图;
图16示出了对音频信号进行编码的方法的示意框图。
在下文中,将进一步详细描述本发明的实施例。各个附图中示出的具有相同或相似功能的元件将具有与其相关联的相同附图标记。
具体实施方式
图1示出了用于对编码音频信号4进行解码的解码器2的示意框图。解码器包括自适应频谱时间转换器6和重叠相加处理器8。自适应频谱时间转换器例如通过频率时间变换将连续的频谱值块4’转换成连续的时间值块10。此外,自适应频谱时间转换器6接收控制信息12,并且响应于控制信息12,在第一组变换核中的变换核与第二组变换核中的变换核之间进行切换,其中第一组变换核包括在核的侧面具有不同对称性的一个或多个变换核,第二组变换核包括在变换核的侧面具有相同对称性的一个或多个变换核。此外,重叠相加处理器8将连续的时间值块10重叠相加,以获得可以作为解码音频信号的经解码的音频值14。
根据实施例,控制信息12可以包括对当前帧的当前对称性加以指示的当前比特,其中,自适应频谱时间转换器6被配置为当当前比特指示与在前一帧中使用的对称性相同的对称性时,不从第一组切换到第二组。换句话说,如果例如控制信息12指示针对前一帧使用第一组的变换核,并且如果当前帧和前一帧包括相同的对称性(例如,这在当前帧的当前比特和前一帧具有相同的状态的情况下被指示),则应用第一组的变换核,这意味着自适应频谱时间转换器不会从第一组变换核切换到第二组变换核。反过来,即停留在第二组或不从第二组切换到第一组,对当前帧的当前对称性加以指示的当前比特指示与在前一帧中使用的对称性不同的对称性。换句话说,如果当前对称性和前一个对称性相同,并且如果使用来自第二组的变换核对前一帧进行编码,则使用第二组的逆变换核对当前帧进行解码。
此外,如果对当前帧的当前对称性加以指示的当前比特指示与在前一帧中使用的对称性不同的对称性,则自适应频谱时间转换器6被配置为从第一组切换到第二组。更具体地,自适应频谱时间转换器6被配置为:当对当前帧的当前对称性加以指示的当前比特指示与在前一帧中使用的对称性不同的对称性时,将第一组切换到第二组。此外,当对当前帧的当前对称性加以指示的当前比特指示与在前一帧中使用的对称性相同的对称性时,自适应频谱时间转换器6可以将第二组切换到第一组。更具体地,如果当前帧和前一帧包括相同的对称性,并且如果使用第二组变换核中的变换核对前一帧进行编码,则可以使用第一组变换核中的变换核来对当前帧进行解码。控制信息12可以从编码音频信号4中导出,或者经由单独的传输通道或载波信号接收,如下文中将阐述的。此外,对当前帧的当前对称性加以指示的当前比特可以是变换核的右侧的对称性。
Princen和Bradley在1986年的文章[2]中描述了采用三角函数(余弦函数或正弦函数)的两个交叠变换。在该文章中,将第一交叠变换称为“基于DCT”,其可以通过设置cs()=coS()和k0=0使用(2)来获得,并且将第二交叠变换称为“基于DST”,其通过当cs()=sin()和k0=1时使用(2)来定义。由于它们各自与图像编码中常用的DCT-II和DST-II的相似性,所以在本文中,通用公式(2)的这些特定情况将分别被称为“MDCT型II”和“MDST型II”变换。Princen和Bradley在1987年的论文[3]中继续进行研究,他们提出了在cs()=cos()且k0=0.5的情况下(2)的通用情况,这在(1)中被介绍并且通常被称为“MDCT”。为了澄清,也是由于其与DCT-IV的关系,该变换在本文中将被称为“MDCT型IV”。善于观察的读者将会识别出剩余可能组合,称为“MDST型IV”,其基于DST-IV并且在cs()=sin()and k0=0.5的情况下使用(2)来获得。实施例描述了何时以及如何在这四种变换之间以信号自适应的方式切换。
有必要定义关于如何实现四种不同变换核之间的创造性切换的一些规则,使得保留如[1-3]所述的理想重构属性(在分析和合成变换之后对输入信号的相同重构,而不存在频谱量化或引入其它失真)。为此,研究根据(2)的合成变换的对称扩展属性是有用的,这将参考图6来说明。
·MDCT-IV在其左侧呈现奇对称性,并且在其右侧呈现偶对称性;在该变换的信号折出期间,合成信号在其左侧被反转。
·MDST-IV在其左侧呈现偶对称性,并且在其右侧呈现奇对称性;在该变换的信号折出期间,合成信号在其右侧被反转。
·MDCT-II在其左侧呈现偶对称性,并且在其右侧呈现偶对称性;在该变换的信号折出期间,合成信号在任意一侧都不反转。
·MDST-II在其左侧呈现奇对称性,并且在其右侧呈现奇对称性;在该变换的信号折出期间,合成信号在两侧都反转。
此外,描述了用于在解码器中导出控制信息12的两个实施例。控制信息可以包括例如k0和cs()的值以指示上述四种变换之一。因此,自适应频谱时间转换器可以从编码音频信号中读取前一帧的控制信息,并且在前一帧之后的当前帧的控制数据部分中从编码音频信号中读取当前帧的控制信息。可选地,自适应频谱时间转换器6可以从当前帧的控制数据部分中读取控制信息12,并从前一帧的控制数据部分或从应用于前一帧的解码器设置中获取前一帧的控制信息。换句话说,可以直接从当前帧的控制数据部分(例如在首部中)或者从前一帧的解码器设置中导出控制信息。
在下文中,描述了根据优选实施例的在编码器和解码器之间交换的控制信息。这部分描述了侧信息(即控制信息)可以如何在编码比特流中发信号通知,并且用于以鲁棒(例如,抗帧丢失)的方式导出和应用适当的变换核。
根据优选实施例,本发明可以被集成到MPEG-D USAC(扩展HE-AAC)或MPEG-H 3D音频编解码器中。所确定的侧信息可以在所谓的fd_channel_stream元素内发送,该元素可用于每个频域(FD)通道和帧。更具体地,一比特的currAliasingSymmetry标志刚好在scale_factor_data()比特流元素之前或之后被(编码器)写入并且被(解码器)读取。如果给定的帧是独立帧,即indepFlag==1,则写入并读取另一个比特prevAliasingSymmetry。这确保了即使前一帧在比特流传输期间丢失,也可以在解码器中识别(并且正确地解码)左侧和右侧的对称性和要在所述帧和通道内使用的所得到的变换核。如果帧不是独立帧,则不写入和读取prevAliasingSymmetry,而是将其设置为等于前一帧中的currAliasingSymmetry所具有的值。根据其他实施例,可以使用不同的比特或标志来指示控制信息(即侧信息)。
接下来,如表1所规定的,根据标记currAliasingSymmetry和prevAliasingSymmetry导出cs()和k0的相应值,其中,currAliasingSymmetry缩写为symmi,prevAliasingSymmetry缩写为symmi-1。换句话说,symmi是索引为i的当前帧的控制信息,symmi-1是索引为i-1的前一帧的控制信息。表1示出了基于传输和/或其它方式导出的关于对称性的侧信息来指定k0的值和cs(...)的值的解码器侧决策矩阵。因此,自适应频谱时间转换器可以基于表1来应用变换核。
Figure GDA0002778882460000081
Figure GDA0002778882460000091
表1
最后,一旦在解码器中确定了cs()和k0,就可以使用等式(2),用适当的核对给定帧和通道执行逆变换。在该合成变换之前和之后,解码器也可以如现有技术那样操作,关于加窗也如现有技术那样操作。
图2示出了根据实施例的解码器中的信号流的示意框图,其中,实线指示信号,虚线指示侧信息,i指示帧索引,xi指示帧时间-信号输出。比特流解复用器16接收连续的频谱值块4’和控制信息12。根据实施例,连续的频谱值块4’和控制信息12被复用为公共信号,其中,比特流解复用器被配置为从公共信号中导出连续的频谱值块和控制信息。连续的频谱值块可以进一步被输入到频谱解码器18。此外,当前帧12和前一帧12’的控制信息被输入到映射器20以应用表1所示的映射。根据实施例,前一帧12’的控制信息可以从编码音频信号(即前一频谱值块)中或使用应用于前一帧的解码器的当前预设置来导出。经频谱解码的连续的频谱值块4”和经处理的包含参数cs和k0的控制信息12’被输入到逆核自适应交叠变换器,其可以是来自图1的自适应频谱时间转换器6。输出可以是连续的时间值块10,可以可选地例如在将连续的时间值块10输入到重叠相加处理器8以执行重叠相加算法从而导出经解码的音频值14之前使用合成窗7对连续的时间值块10进行处理,以便克服连续的时间值块的边界处的不连续性。映射器20和自适应频谱时间转换器6可以进一步移动到所述音频信号的解码的另一个位置。因此,这些块的位置仅是提议。此外,可以使用相应的编码器来计算控制信息,其实施例例如参考图3进行描述。
图3示出了根据实施例的用于对音频信号进行编码的编码器的示意框图。编码器包括自适应时间频谱转换器26和控制器28。自适应时间频谱转换器26将重叠的时间值块30(例如包括块30’和30”)转换为连续的频谱值块4’。此外,自适应时间频谱转换器26接收控制信息12a,并且响应于控制信息,在第一组变换核中的变换核与第二组变换核中的变换核之间进行切换,第一组变换核包括在核的侧面具有不同对称性的一个或多个变换核,第二组变换核包括在变换核的侧面具有相同对称性的一个或多个变换核。此外,控制器28被配置为控制时间频谱转换器以在第一组变换核中的变换核与第二组变换核中的变换核之间进行切换。可选地,编码器22可以包括用于产生编码音频信号的输出接口32,所述编码音频信号具有当前帧的控制信息12,所述控制信息12对用于生成当前帧的变换核的对称性加以指示。当前帧可以是连续的频谱值块中的当前块。在当前帧是独立帧的情况下,输出接口可以将当前帧和前一帧的对称性信息包括在当前帧的控制数据部分中,或者当当前帧是从属帧时,仅将当前帧的对称性信息包括在当前帧的控制数据部分中,而不将前一帧的对称性信息包括在当前帧的控制数据部分中。独立帧包括例如独立帧首部,这确保可以在不知道前一帧的情况下读取当前帧。从属帧出现在例如具有可变比特率切换的音频文件中。因此,只能在知道一个或多个先前帧的情况下读取从属帧。
控制器可以被配置为例如针对至少接近变换的频率分辨率的整数倍的基频对音频信号24进行分析。因此,控制器可以导出控制信息12,从而向自适应时间频谱转换器26以及可选地向输出接口32馈送该控制信息12。控制信息12可以指示第一组变换核或第二组变换核中的适合的变换核。第一组变换核可以具有在核的左侧具有奇对称性并且在核的右侧具有偶对称性的一个或多个变换核,反之亦然。第二组变换核可以包括在核的两侧都具有偶对称性或者在核的两侧都具有奇对称性的一个或多个变换核。换句话说,第一组变换核可以包括MDCT-IV变换核或MDST-IV变换核,或者第二组变换核可以包括MDCT-II变换核或MDST-II变换核。为了对编码音频信号进行解码,解码器可以将相应的逆变换应用于编码器的变换核。因此,解码器的第一组变换核可以包括逆MDCT-IV变换核或逆MDST-IV变换核,或者第二组变换核可以包括逆MDCT-II变换核或逆MDST-II变换核。
换句话说,控制信息12可以包括对当前帧的当前对称性加以指示的当前比特。此外,当当前比特指示与在前一帧中使用的对称性相同的对称性时,自适应频谱时间转换器6可以被配置为不从第一组变换核切换到第二组变换核,并且其中当当前比特指示与在前一帧中使用的对称性不同的对称性时,自适应频谱时间转换器被配置为从第一组变换核切换到第二组变换核。
此外,当当前比特指示与在前一帧中使用的对称性不同的对称性时,自适应频谱时间转换器6可以被配置为不从第二组变换核切换到第一组变换核,并且其中当当前比特指示与在前一帧中使用的对称性相同的对称性时,自适应频谱时间转换器被配置为从第二组变换核切换到第一组变换核。
随后,参考图4A和图4B,以便说明(编码器或分析侧上或解码器或合成侧上的)时间部分与块的关系。
图4B示出了第0时间部分至第3时间部分的示意性表示,并且这些后续时间部分中的每个时间部分具有特定的重叠范围170。基于这些时间部分,通过参考图5A(其示出了引入混迭的变换操作的分析侧)更详细讨论的处理,来产生表示重叠的时间部分的块序列中的块。
具体地,当图4B应用于分析侧时,通过应用分析窗的图5A的加窗器2010来对图4B所示的时域信号加窗。因此,为了获得例如第0时间部分,加窗器将分析窗应用于例如2048个样本(具体地,应用于样本1至样本2048)。因此,N等于1024并且窗的长度为2N个样本(在该示例中,为2048)。然后,加窗器应用另一分析操作,但并非将样本2049作为该块的第一样本,而是将样本1025作为该块中的第一样本,以便获得第一时间部分。因此,获得第一重叠范围170,所述第一重叠范围的长度是1024个样本,其是50%重叠的。附加地,针对第二时间部分和第三时间部分应用该过程,但是始终在重叠的情况下,以便获得特定的重叠范围170。
应强调,重叠未必必须为50%重叠,重叠还可以更高和更低,甚至可以存在多重叠(即,多于两个窗的重叠),使得时域音频信号的样本并非仅有助于两个窗和由此的频谱值块,而且样本还有助于甚至多于两个窗/频谱值块。另一方面,本领域技术人员还应理解,存在可以由图5A的加窗器2010应用的其他窗形状,所述其他窗形状具有0部分和/或具有单位1值的部分。对于这种具有单位1值的部分,似乎这种部分通常与在先窗或后续窗的0部分重叠,因此位于具有单位1值的窗的恒定部分中的特定音频样本仅有助于单个频谱值块。
然后,将由图4B获得的加窗的时间部分转发至用于执行迭入操作的折叠器2020。这种迭入操作可以例如执行迭入,使得在折叠器2020的输出处,仅存在针对每个块具有N个样本的采样值块。然后,在折叠器2020执行的折叠操作之后,应用时间-频率转换器,所述时间-频率转换器例如是将输入处的针对每个块的N个样本转换为时间-频率转换器2030的输出处的N个频谱值的DCT-IV转换器。
因此,图4A示出了在块2030的输出处获得的频谱值块序列,具体地示出了具有图5B的1020处所示的相关联的第一修改值的第一块191和具有图5B所示的相关联的第二修改值(例如,1040)的第二块192。自然地,如所示的,该序列在第二块之前或甚至在第一块之前具有更多块193或194。第一块191和第二块192是例如由图5A的时间-频率转换器2030通过以下方式获得的:对图4B的加窗的第一时间部分进行变换以获得第一块,并且对图4B的加窗的第二时间部分进行变换来获得第二块。因此,频谱值块序列中在时间上相邻的两个频谱值块表示覆盖第一时间部分和第二时间部分的重叠范围。
随后,讨论图5B以便说明对图5A的编码器或分析侧处理的结果进行的合成侧或解码器侧处理。将由图5A的频率转换器2030输出的频谱值块序列输入到修改器2110。如所概述的,对于图4A至图5B所示的示例,每个频谱值块具有N个频谱值(注意,这与使用M的等式(1)和(2)不同)。每个块具有其相关联的修改值,例如图5B所示的1020、1040。然后,在典型的IMDCT操作或冗余减少合成变换中,执行由频率时间转换器2120、用于折出的折叠器2130、用于应用合成窗的加窗器2140所示的操作以及由块2150所示的重叠/加法器操作,以便获得重叠范围中的时域信号。在该示例中,针对每个块具有2N个值,使得在每个重叠相加运算之后,如果修改值1020、1040随着时间或频率不可变,则获得N个新的无混迭的时域样本。然而,如果这些值随着时间和频率可变化,则块2150的输出信号不是无混迭的,但是可以通过在图1的上下文中讨论的和在本说明书中的其它附图的上下文中讨论的本发明的第一方面和第二方面来解决该问题。
随后,给出由图5A和图5B中的块执行的过程的进一步说明。
参考MDCT来例示所述说明,但是可以以类似及相似方式来处理其他引入混迭的变换。作为交叠变换,MDCT相比于其他傅里叶相关变换是略微不同的,其原因在于它的输出是输入的一半(而非相同数目)。具体地,它是线性函数F:R2N→RN(其中R表示实数集)。根据下式,2N个实数x0,...,x2N-1被变换为N个实数X0,...,XN-1:
Figure GDA0002778882460000131
(这种变换前面的归一化系数(这里是单位1)是任意的约定,其在处理之间是不同的。下文仅约束MDCT和IMDCT的归一化的乘积。)
逆MDCT被称为IMDCT。因为存在不同数目的输入和输出,所以乍看之下可能认为MDCT不应是可逆的。然而,通过将时间相邻的重叠块的重叠IMDCT相加实现了理想可逆性,从而消除了误差且获取了原始数据;该技术也称为时域混叠消除(TDAC)
IMDCT根据下式将N个实数X0、......、XN-1变换成2N个实数y0、......、y2N-1:
Figure GDA0002778882460000132
(与DCT-IV、正交变换相似,逆变换与正变换具有相同形式。)
在具有一般窗归一化的加窗的MDCT的情况下(参见下文),应将IMDCT前面的归一化系数乘以2(即,变成2/N)。
在典型的信号压缩应用中,通过使用与上述MDCT和IMDCT公式中的xn和yn相乘的窗函数wn(n=0,...,2N-1)来进一步改善变换特性,以便通过使该函数在n=0及2N的点处平滑地归零,来避免在这些点的边界处的不连续性。(也就是说,可以在MDCT之前和IMDCT之后对数据进行加窗。)原则上,x和y可以具有不同的窗函数,且所述窗函数还可以随着块而改变(尤其是在对不同大小的数据块进行组合的情况下),但是为了简单起见,考虑针对大小相等的块使用相同窗函数的常见情况。
对于对称窗wn=w2N-1-n,只要w满足Princen-Bradley条件,变换仍然是可逆的(即TDAC有效):
Figure GDA0002778882460000141
各种窗函数被使用。产生被称为调制交叠变换的形式的窗由下式给出:
Figure GDA0002778882460000142
并且用于MP3和MPEG-2 AAC,以及由下式给出:
Figure GDA0002778882460000143
用于Vorbis。AC-3使用Kaiser-Bessel导出(KBD)窗,且MPEG-4AAC也可以使用KBD窗。
应注意,应用于MDCT的窗与针对一些其他类型的信号分析所使用的窗不同,这是由于所述窗必须满足Princen-Bradley条件。这种区别的原因之一是将MDCT窗应用了两次,即,用于MDCT(分析)和IMDCT(合成)两者。
通过检查定义可以看出,对于偶数N,MDCT实质上等同于DCT-IV,其中将输入移位N/2并且一次对两个N数据块进行变换。通过更仔细地检查这种等同,可以容易地导出诸如TDAC的重要特性。
为了定义与DCT-IV的精确关系,必须认识到DCT-IV对应于交替的偶/奇边界条件(即,对称条件):在其左边界(大约n=-1/2)为偶,在其右边界(大约n=N-1/2)为奇,以此类推(而不是如DFT那样的周期性边界)。其满足恒等式
Figure GDA0002778882460000144
以及
Figure GDA0002778882460000151
因此,如果其输入是长度为N的阵列x,则可以想到将该阵列扩展为(x、-xR、-x、xR......)等,其中xR表示按逆序的x。
考虑具有2N个输入和N个输出的MDCT,其中将输入划分为四个块(a,b,c,d),每个块具有N/2的大小。如果将这些块向右移位N/2(在MDCT定义中,从+N/2项起),则(b,c,d)扩展越过N个DCT-IV输入的端部,因此必须根据上文所述的边界条件来将它们“折叠”回去。
因此,2N个输入(a,b,c,d)的MDCT刚好等同于N个输入(-cR-d,a-bR)的DCT-IV,其中R表示如上所述的反转(reversal)。
针对图5A中的窗函数202例示出这种情况,a是部分204b、b是部分205a、c是部分205b且d是部分206a。
(这样,可以将用于计算DCT-IV的任何算法一般地(trivially)应用于MDCT。)
类似地,上述IMDCT公式恰好是DCT-IV(其是自身的逆)的1/2,其中输出被扩展(经由边界条件)至长度为2N且向左移位回N/2。根据上述过程,逆DCT-IV将仅恢复输入(-cR-d,a-bR)。当经由边界条件对其进行扩展和移位时,将得到:
IMDCT(MDCT(a,b,c,d))=(a-bR,b-aR,c+dR,d+cR)/2。
因此,一半的IMDCT输出是冗余的,这是由于b-aR=-(a-bR)R,且对于最后两项同样也是如此。如果将输入分组成大小为N的更大块A、B,其中A=(a,b)且B=(c,d),则可以以更简单的方式写出该结果:
IMDCT(MDCT(A,B))=(A-AR,B+BR)/2
现在可以理解TDAC是如何工作的。假设计算时间相邻、50%重叠的2N块(B,C)的MDCT。那么与上文类似地将得到IMDCT:(B-BR,C+CR)/2。当将该结果以一半重叠的方式与前一IMDCT结果相加时,相反项抵消且仅获得B,从而恢复原始数据。
现在清楚术语“时域混迭消除”的由来。使用延伸超出逻辑DCT-IV的边界的输入数据使数据以相同的方式(相对于扩展对称性)被混叠,其中,超出奈奎斯特频率的频率被混叠到较低的频率,不同之处是该混叠在时域而不是频域发生。不能区分a和bR对(a,b,c,d)的MDCT的贡献,或者等同地,对IMDCT(MDCT(a,b,c,d))=(a-bR,b-aR,c+dR,d+cR)/2这一结果的贡献。当将组合c-dR等相加时,所述组合等恰好具有正确的符号使组合抵消。
对于奇数N(实际上很少使用),N/2不是整数,所以MDCT并不简单地是对DCT-IV的移位置换(shift permutation)。在这种情况下,附加移位半个样本意味着MDCT/IMDCT变得等同于DCT-III/II,且分析与上文相似。
从上文已经看出:2N个输入(a,b,c,d)的MDCT等同于N个输入(-cR-d,a-bR)的DCT-IV。DCT-IV是针对如下情况设计的:右边界处的函数是奇函数,因此靠近右边界的值接近于0。如果输入信号是平滑的,则情况如下:a和bR的最右侧分量在输入序列(a,b,c,d)中是连续的,因此它们的差较小。观察区间的中部:如果将以上表述重写为(-cR-d,a-bR)=(-d,a)-(b,c)R,则第二项(b,c)R在中部给出平滑转变。然而,在第一项(-d,a)中,存在-d的右端与a的左端之间的可能的不连续性。这是使用窗函数的原因,窗函数将输入序列(a,b,c,d)的边界附近的分量减少到0。
在上文中,已经针对普通MDCT证明了TDAC特性,其示出了将时间相邻块的IMDCT以其一半重叠的方式相加恢复原始数据。加窗的MDCT的这种逆特性的推导仅略微复杂。
针对大小为N的块A、B、C,考虑两个重叠的具有2N个输入(A,B)和(B,C)的连续集合。回想上文,当(A,B)和(B,c)被输入到MDCT、IMDCT并且以一半重叠的方式相加时,获得(B+BR)/2+(B-BR)/2=B,即,原始数据。
现在假设将MDCT输入和IMDCT输出两者都乘以长度为2N的窗函数。如上文所述的,假设对称窗函数,其具有(W,WR)的形式,其中W是长度为N的向量,R如前表示反转。则Princen-Bradley条件可以写成
Figure GDA0002778882460000171
其中逐个元素进行平方和相加。
因此,不执行MDCT(A,B),现在逐个元素地执行MDCTs(WA,WRB),全部进行乘法。当其被输入到IMDCT中并再次(逐个元素)与窗函数相乘时,后半个部分(长度N)成为:
WR·(WRB+(WRB)R)=WR·(WRB+WBR)=WR 2B+WWRBR
(注意,由于IMDCT归一化乘在加窗的情况下相差了因子2,因此不再乘以1/2)
类似地,(B,C)的加窗的MDCT和IMDCT在其前半个部分(长度N)得到:
W·(WB-WRBR)=W2B-WWRBR
当将这两个半部分相加在一起时,恢复原始数据。当两个重叠窗的一半满足Princen-Bradley条件时,在窗切换的情况下,重构仍是有可能的。在这种情况下,可以以与上文所述方式完全相同的方式进行混叠消除。对于具有多重叠的变换,使用所有涉及的增益值,将需要多于两个的分支。
上文已经描述了MDCT,更具体地,MDCT-IV的对称性或边界条件。该描述对于本文中提到的其他变换核,即MDCT-II、MDST-II和MDST-IV也是有效的。然而,必须注意的是,必须考虑其他变换核的不同对称性或边界条件。
图6示意性地示出了所描述的四个交叠变换的隐式折出属性和对称性(即边界条件)。对于四个变换中的每一个,通过第一合成基函数根据(2)导出变换。幅值随时间样本的示意图中示出了IMDCT-IV 34a、IMDCT-II 34b、IMDST-IV 34c和IMDST-II 34d。图6清楚地表示在如上所述的变换核之间的对称轴35(即折叠点)处的变换核的偶对称性和奇对称性。
时域混叠消除(TDAC)属性表明,当在OLA(重叠相加)处理期间将偶对称扩展和奇对称扩展相加时,这种混叠被消除。换句话说,具有奇右侧对称性的变换应后接具有偶左侧对称性的变换,反之亦然,以使TDAC发生。因此,可以声明:
(逆)MDCT-IV应后接(逆)MDCT-IV或(逆)MDST-II。
(逆)MDST-IV应后接(逆)MDST-IV或(逆)MDCT-II。
(逆)MDCT-II应后接(逆)MDCT-IV或(逆)MDST-II。
(逆)MDST-II应后接(逆)MDST-IV或(逆)MDCT-II。
图7a、7b示意性地示出了将信号自适应变换核切换逐帧应用于变换核同时允许理想重构的用例的两个实施例。换句话说,在图7中例示了上述变换序列的两个可能序列。其中,实线(例如线38c)指示变换窗,虚线38a指示变换窗的左侧混叠对称性,点线38b指示变换窗的右侧混叠对称性。此外,对称性峰值指示偶对称性,对称性谷值指示奇对称性。在图7a中,帧i 36a和帧i+1 36b是MDCT-IV变换核,其中在帧i+2 36c中,使用MDST-II作为到在帧i+3 36d中使用的MDCT-II变换核的过渡。帧i+4 36e再次使用MDST-II,例如,导致帧i+5中的MDST-IV或再次地MDCT-II,图7a中未示出。然而,图7a清楚地指示虚线38a和点线38b补偿随后的变换核。换句话说,将当前帧的左侧混叠对称性和前一帧的右侧混叠对称性相加,得到极好的时域混叠消除(TDAC),这是因为虚线和点线之和等于0。左侧和右侧的混叠对称性(或边界条件)涉及例如图5A和图5B中所述的折叠属性,并且是根据包括2N个样本的输入产生包括N个样本的输出的MDCT的结果。
图7b类似于图7a,只是针对帧i至帧i+4使用变换核的不同序列。对于帧i 36a,使用MDCT-IV,其中帧i+1 36b使用MDST-II作为到在帧i+2 36c中使用的MDST-IV的过渡。帧i+3使用MDCT-II变换核作为从帧i+2 36d中使用的MDST-IV变换核到帧i+4 36e中的MDCT-IV变换核的过渡。
表1中示出了与变换序列相关的决策矩阵。
实施例进一步示出了可以如何在诸如HE-AAC的音频编解码器中有利地采用所提出的自适应变换核切换以最小化或者甚至避免开始时提到的两个问题。随后将解决由经典MDCT次优编码的高次谐波信号。编码器可以基于例如输入信号的基频执行到MDCT-II或MDST-II的自适应过渡。更具体地,当输入信号的音高正好是或非常接近于变换的频率分辨率(即频谱域中的一个变换段的带宽)的整数倍时,MDCT-II或MDST-II可以用于受影响的帧和通道。然而,从MDCT-IV到MDCT-II变换核的直接过渡是不可能的,或至少不能保证时域混叠消除(TDAC)。因此,在这种情况下,应使用MDCT-II作为两者之间的过渡变换。相反,对于从MDST-II到传统MDCT-IV的转换(即切换回传统的MDCT编码),中间MDCT-II是有利的。
迄今为止,针对单个音频信号描述了所提出的自适应变换核切换,因为它增强了高次谐波音频信号的编码。此外,它可以容易地适用于多通道信号,例如立体声信号。这里,例如,如果多通道信号中的两个或更多个通道彼此具有大约±90°的相移,则自适应变换核切换也是有利的。
对于多通道音频处理,针对一个音频通道使用MDCT-IV编码并且针对第二音频通道使用MDST-IV编码可能是合适的。特别是如果两个音频通道在编码之前包括大约±90度的相移,则这个构思是有利的。由于MDCT-IV和MDST-IV在相互比较时对编码信号施加90度的相移,所以在编码之后对音频信号的两个通道之间±90度的相移进行补偿,即,通过MDCT-IV的余弦基函数与MDST-IV的正弦基函数之间的90度相位差将所述±90度的相移转换为0或180度的相移。因此,通过使用例如M/S立体声编码,音频信号的两个通道都可以编码在中间信号中,其中,在上述转换为0度相移的情况下,只有最小残差信息需要编码在侧信号中,或者在转换为180度相移的情况下,反之亦然(中间信号中的最小信息),从而实现最大的通道压缩。与两个音频通道的经典MDCT-IV编码同时仍然使用无损编码方案相比,这可以实现高达50%的带宽降低。此外,可以考虑将MDCT立体声编码与复立体声预测结合使用。两种方法都对来自音频信号的两个通道的残差信号进行计算、编码和传输。此外,复预测计算预测参数以对音频信号进行编码,其中解码器使用传输的参数对音频信号进行解码。然而,M/S编码如上所述的使用例如MDCT-IV和MDST-IV对两个音频通道进行编码,仅应当传输关于所使用的编码方案(MDCT-II、MDST-II、MDCT-IV或MDST-IV)的信息以使解码器能够应用相关的编码方案。由于应使用相当高的分辨率对复立体声预测参数进行量化,所以可以用例如4个比特来对关于所使用的编码方案的信息进行编码,这是因为理论上可以使用四种不同的编码方案之一对第一通道和第二通道中的每一个进行编码,这导致16种不同的可能状态。
因此,图8示出了用于对多通道音频信号进行解码的解码器2的示意框图。与图1的解码器相比,该解码器还包括多通道处理器40,用于接收表示第一多通道和第二多通道的频谱值块4a”’和4b”’,并且根据联合多通道处理技术对所接收的块进行处理以获得所述第一多通道和所述第二多通道的经处理的频谱值块4a’和4b’,并且其中,自适应频谱时间处理器被配置为使用第一多通道的控制信息12a对第一多通道的经处理的块4a’进行处理,并且使用第二多通道的控制信息12b对第二多通道的经处理的块4b’进行处理。多通道处理器40可以应用例如左/右立体声处理或者中/侧立体声处理,或者多通道处理器使用与表示第一多通道和第二多通道的频谱值块相关联的复预测控制信息来应用复预测。因此,多通道处理器可以包括固定的预设置或例如从控制信息获得信息,所述信息指示使用哪种处理对音频信号进行编码。除了控制信息中的单独比特或字之外,多通道处理器还可以从当前控制信息获得该信息,例如,通过不存在或存在多通道处理参数。换句话说,多通道处理器40可以对在编码器中执行的多通道处理应用逆操作以恢复多通道信号的单独通道。参考图10至图14描述其他多通道处理技术。此外,附图标记适用于多通道处理,其中,以字母“a”扩展的附图标记指示第一多通道,并且以字母“b”扩展的附图标记指示第二多通道。此外,多通道不限于两个通道或立体声处理,而是可以通过扩展所描述的两个通道的处理来应用于三个或更多个通道。
根据实施例,解码器的多通道处理器可以根据联合多通道处理技术对接收的块进行处理。此外,接收的块可以包括第一多通道的表示和第二多通道的表示的编码残差信号。此外,多通道处理器可以被配置为使用残差信号和另一编码信号来计算第一多通道信号和第二多通道信号。换句话说,残差信号可以是M/S编码音频信号的侧信号,或者是音频信号的通道和当使用例如复立体声预测时基于音频信号的另一通道的通道预测之间的残差。因此,多通道处理器可以将M/S或复预测音频信号转换为L/R音频信号以进一步处理,例如,应用逆变换核。因此,当使用复预测时,多通道处理器可以使用残差信号和另一编码音频信号(其可以是音频信号的M/S编码音频信号或(例如MDCT编码)通道的中间信号)。
图9示出了扩展到多通道处理的图3的编码器22。尽管附图预期控制信息12被包括在编码音频信号4中,但是还可以使用例如单独的控制信息通道对控制信息12进行传输。多通道编码器的控制器28可以分析具有第一通道和第二通道的音频信号的重叠的时间值块30a和30b,以确定第一通道的帧和第二通道的相应帧的变换核。因此,控制器可以尝试变换核的每个组合,以导出将例如M/S编码或复预测的残差信号(或M/S编码方面的侧信号)最小化的变换核的选择。最小化的残差信号是例如与剩余残差信号相比具有最低能量的残差信号。例如,如果当与量化更大的信号相比时残差信号的另一量化使用较少的比特来量化小信号,则这是有利的。此外,控制器28可以确定被输入到应用前述变换核之一的自适应时间频谱转换器26的第一通道的第一控制信息12a和第二通道的第二控制信息12b。因此,时间频谱转换器26可以被配置为对多通道信号的第一通道和第二通道进行处理。此外,多通道编码器还可以包括多通道处理器42,用于使用联合多通道处理技术(例如左/右立体声编码、中/侧立体声编码或复预测)来处理第一通道和第二通道的连续的频谱值块4a’、4b’,以获得经处理的频谱值块40a””、40b””。编码器还可以包括编码处理器46,用于对经处理的频谱值块进行处理以获得编码通道40a”’、40b”’。编码处理器可以使用例如有损音频压缩或无损音频压缩方案(例如频谱线的标量量化、熵编码、霍夫曼编码、通道编码、块码或卷积码)对音频信号进行编码,或应用前向纠错或自动重传请求。此外,有损音频压缩可以指使用基于心理声学模型的量化。
根据其他实施例,第一经处理的频谱值块表示联合多通道处理技术的第一编码表示,并且第二经处理的频谱值块表示联合多通道处理技术的第二编码表示。因此,编码处理器46可以被配置为使用量化和熵编码来处理第一经处理的块以形成第一编码表示,并且使用量化和熵编码来处理第二经处理的块以形成第二编码表示。第一编码表示和第二编码表示可以形成在表示编码音频信号的比特流中。换句话说,第一经处理的块可以包括M/S编码音频信号的中间信号或使用复立体声预测的编码音频信号的(例如MDCT)编码通道的中间信号。此外,第二经处理的块可以包括用于复预测的参数或残差信号或M/S编码音频信号的侧信号。
图10示出了用于对具有两个或更多个通道信号的多通道音频信号200进行编码的音频编码器,其中在201示出了第一通道信号,在202示出了第二通道。两个信号被输入到编码器计算器203中,编码器计算器203用于使用第一通道信号201、第二通道信号202和预测信息206计算第一组合信号204和预测残差信号205,使得预测残差信号205在与从第一组合信号204导出的预测信号和预测信息206组合时得到第二组合信号,其中第一组合信号和第二组合信号可以使用组合规则从第一通道信号201和第二通道信号202导出。
预测信息由用于计算预测信息206的优化器207生成,使得预测残差信号满足优化目标208。第一组合信号204和残差信号205被输入到信号编码器209,信号编码器209对第一组合信号204进行编码以获得编码的第一组合信号210,并且对残差信号205进行编码以获得编码的残差信号211。两个编码信号210、211被输入到输出接口212,输出接口212用于将编码的第一组合信号210、编码的预测残差信号211和预测信息206组合以获得编码的多通道信号213。
根据实施方式,优化器207接收第一通道信号201和第二通道信号202中任一个,或者如线214和215所示,接收从图11A的组合器2031导出的第一组合信号214和第二组合信号215,稍后将对此进行进一步讨论。
在图10中示出了优化目标,其中编码增益被最大化,即尽可能地减小比特率。在该优化目标中,关于α使残差信号D最小化。换句话说,这意味着预测信息α被选择为使得||S-αM||2被最小化。这得到图10所示的α的解。信号S、M以块的方式给出,并且是频谱域信号,其中标记||...||是指参数的2范数,而<...>如通常那样表示点积。当第一通道信号201和第二通道信号202被输入到优化器207中时,优化器将必须应用组合规则,其中在图11C中示出了示例性组合规则。然而,当第一组合信号214和第二组合信号215被输入到优化器207时,优化器207不需要亲自执行组合规则。
其他优化目标可能与感知质量有关。优化目标可以是获得最大感知质量。然后,优化器将需要来自感知模型的附加信息。优化目标的其他实施方式可以与获得最小或固定比特率有关。然后,优化器207将被实现为执行量化/熵编码操作,以确定某些α值所必需的比特率,使得可以将α设置为满足诸如最小比特率(或者备选地,固定比特率)的要求。优化目标的其他实施方式可以与编码器或解码器资源的最小使用有关。在该优化目标的实施方式的情况下,关于特定优化所必需的资源的信息将在优化器207中可用。此外,可以应用这些优化目标或其他优化目标的组合来控制计算预测信息206的优化器207。
图10中的编码器计算器203可以以不同的方式实现,其中在图11A中示出了示例性的第一实施方式,其中在组合器2031中执行显式组合规则。图11B中示出了备选的示例性实施方式,其中使用矩阵计算器2039。图11A中的组合器2031可以实现为执行图11C所示的组合规则,该组合规则是示例性的公知的中/侧编码规则,其中对所有分支应用加权因子0.5。然而,根据实施方式,可以实现其他加权因子或根本不使用加权因子。此外,应当注意,可以应用其他组合规则,例如其他线性组合规则或非线性组合规则,只要存在可以在图12A所示的解码器组合器1162中应用的相应的逆组合规则即可,所解码器组合器1162应用与编码器应用的组合规则相反的组合规则。由于联合立体声预测,因此可以使用任何可逆的预测规则,这是因为对波形的影响被该预测“平衡”,即,由于优化器207与编码器计算器203相结合所执行的预测操作是波形保持处理,所以任何误差都被包括在传输的残差信号中。
组合器2031输出第一组合信号204和第二组合信号2032。第一组合信号被输入到预测器2033中,并且第二组合信号2032被输入到残差计算器2034中。预测器2033计算预测信号2035,该预测信号2035与第二组合信号2032组合,以最终获得残差信号205。特别地,组合器2031被配置为以两种不同的方式组合多通道音频信号的两个通道信号201和202,以获得第一组合信号204和第二组合信号2032,其中在图11C的示例性实施例中示出了两种不同的方式。预测器2033被配置为将预测信息应用于第一组合信号204或从第一组合信号导出的信号,以获得预测信号2035。从组合信号导出的信号可以通过任何非线性或线性操作来导出,其中实虚变换/虚实变换是有利的,其可以使用诸如对某些值执行加权加法的FIR滤波器等的线性滤波器来实现。
图11A中的残差计算器2034可以执行减法运算,使得从第二组合信号中减去预测信号2035。然而,残差计算器中的其他操作是可能的。相应地,图12A中的组合信号计算器1161可以执行加法运算,其中将解码的残差信号114和预测信号1163相加以获得第二组合信号1165。
可以以不同的方式实现解码器计算器116。图12A中示出了第一实施方式。该实施方式包括预测器1160、组合信号计算器1161和组合器1162。预测器接收经解码的第一组合信号112和预测信息108,并输出预测信号1163。具体地,预测器1160被配置为将预测信息108应用于解码的第一组合信号112或从解码的第一组合信号导出的信号。用于导出被应用预测信息108的信号的导出规则可以是实虚变换或者等同的虚实变换或加权操作,或者根据实施方式,可以是相移操作或组合的加权/相移操作。预测信号1163与解码的残差信号一起被输入到组合信号计算器1161中,以便计算解码的第二组合信号1165。信号112和1165都输入到组合器1162中,组合器1162将解码的第一组合信号和第二组合信号组合,以获得具有分别在输出线1166和1167上的解码的第一通道信号和解码的第二通道信号的解码的多通道音频信号。备选地,解码器计算器被实现为矩阵计算器1168,其接收解码的第一组合信号或信号M、解码的残差信号或信号D以及预测信息α108作为输入。矩阵计算器1168对信号M、D应用如1169所示的变换矩阵,以获得输出信号L、R,其中L是解码的第一通道信号,R是解码的第二通道信号。图12B中的标记类似于具有左通道L和右通道R的立体声标记。已经应用了这种标记以提供更容易的理解,但是本领域技术人员将清楚的是,信号L、R可以是具有多于两个通道信号的多通道信号中的两个通道信号的任何组合。矩阵操作1169将图12A的块1160、1161和1162中的操作统一为一种“单次”矩阵计算,并且图12A的电路的输入和图12A的电路的输出分别与矩阵计算器1168的输入和矩阵计算器1168的输出相同。
图12C示出了由图12A中的组合器1162应用的逆组合规则的示例。特别地,组合规则类似于公知的中/侧编码中的解码器侧组合规则,其中L=M+S,并且R=M-S。应当理解,图12C中的逆组合规则所使用的信号S是由组合信号计算器计算的信号,即线1163上的预测信号与线114上的解码的残差信号的组合。应当理解,在本说明书中,线上的信号有时由线的附图标记来命名,或者有时由附图标记本身来指示,其已被认为属于这些线。因此,该标记使得具有某一信号的线指示该信号本身。线可以是硬连线实施方式中的实体线路。然而,在计算机化实施方式中,实体线路不存在,但线所表示的信号从一个计算模块传输到另一个计算模块。
图13A示出了音频编码器的实施方式。与图11A所示的音频编码器相比,第一通道信号201是时域第一通道信号55a的频谱表示。相应地,第二通道信号202是时域通道信号55b的频谱表示。从时域到频谱表示的转换由用于第一通道信号的时间/频率转换器50和用于第二通道信号的时间/频率转换器51执行。频谱转换器50、51有利地但不一定被实现为实值转换器。转换算法可以是仅使用实部的离散余弦变换、FFT变换、MDCT或提供实值频谱值的任何其它变换。备选地,两个变换都可以实现为虚变换,例如DST、MDST或FFT,其仅使用虚部并且丢弃实部。也可以使用仅提供虚值的任何其它变换。使用纯实值变换或纯虚变换的一个目的是计算复杂度,这是因为对于每个频谱值,仅必须处理诸如幅值或实部的单个值,或者备选地,仅必须处理相位或虚部。相反,对于诸如FFT的全复变换,必须处理两个值,即每个频谱线的实部和虚部,这至少将计算复杂度增加了2倍。在这里使用实值变换的另一个原因是,即使在存在变换间重叠的情况下,这样的变换序列通常被临界采样,因此,提供了用于信号量化和熵编码(在“MP3”、AAC或类似音频编码系统中实现的标准“感知音频编码”范例)的合适(常用)域。
图13A还示出了作为加法器的残差计算器2034,其在其“正”输入处接收侧信号,并且在其“负”输入处接收由预测器2033输出的预测信号。此外,图13A示出了将预测器控制信息从优化器转发到复用器212的情况,所述复用器212输出表示编码的多通道音频信号的复用比特流。特别地,以从中间信号预测侧信号的方式执行预测操作,如图13A右侧等式所示。
预测器控制信息206是如图11B右侧所示的因子。在预测控制信息仅包括实部(例如,复值α的实部或复值α的幅值)的实施例中,其中该实部与不同于零的因子对应,当中间信号和侧信号由于它们的波形结构而彼此相似、但是具有不同的幅值时,可以获得大编码增益。
然而,当预测控制信息仅包括可以是复值因子的虚部或复值因子的相位信息的第二部分时,其中虚部或相位信息不同于零,本发明对彼此间相移不同于0°或180°的值并且除了相移外具有相似的波形特征和相似的幅值关系的信号实现大编码增益。
预测控制信息是复值。然后,对于幅值不同且存在相移的信号,可以获得大编码增益。在时间/频率变换提供复频谱的情况下,操作2034将是复操作,其中预测器控制信息的实部被应用于复频谱M的实部,并且复预测信息的虚部被应用于复频谱的虚部。然后,在加法器2034中,该预测操作的结果是预测的实频谱和预测的虚频谱,并且从侧信号S的实频谱中(以频带的方式)减去预测的实频谱,并从S的频谱的虚部中减去预测的虚频谱,以获得复残差谱D。
时域信号L和R是实值信号,但是频域信号可以是实值或复值。当频域信号是实值时,变换是实值变换。当频域信号是复值的时,变换是复值变换。这意味着时间频率变换的输入和频率时间变换的输出是实值的,而频域信号可以是例如复值QMF域信号。
图13B示出了与图13A所示的音频编码器对应的音频解码器。
由图13A中的比特流复用器212输出的比特流被输入到图13B中的比特流解复用器102。比特流解复用器102将比特流解复用为下混合信号M和残差信号D。下混合信号M被输入到去量化器110a中。残差信号D被输入到去量化器110b中。另外,比特流解复用器102从比特流中解复用预测器控制信息108,并将其输入到预测器1160。预测器1160输出预测的侧信号α·M,并且组合器1161将去量化器110b输出的残差信号与预测的侧信号进行组合,以便最终获得重构的侧信号S。然后,侧信号被输入到组合器1162中,组合器1162针对中/侧编码执行例如和/差处理,如图12C所示。特别地,块1162执行(逆)中/侧解码以获得左通道的频域表示和右通道的频域表示。然后,频域表示被相应的频率/时间转换器52和53转换成时域表示。
根据系统的实施方式,频率/时间转换器52、53在频域表示是实值表示时是实值频率/时间转换器,或者在频域表示是复值表示时是复值频率/时间转换器。
然而,为了提高效率,执行实值变换是有利的,如图14A中针对编码器和图14B中针对解码器的另一实施方式中所示。实值变换50和51由MDCT(即MDCT-IV)实现,或者备选地,根据本发明,由MDCT-II或MDST-II或MDST-IV实现。此外,预测信息被计算为具有实部和虚部的复值。由于频谱M、S二者都是实值频谱并且因为频谱的虚部不存在,所以提供了一种实虚转换器2070,其根据信号M的实值频谱来计算估计的虚频谱600。该实虚变换器2070是优化器207的一部分,并且由块2070估计的虚频谱600与实频谱M一起被输入到α优化器级2071,以便计算预测信息206,所述预测信息206现在具有2073所示的实值因子和2074所示的虚因子。现在,根据本实施例,将第一组合信号M的实值频谱乘以实部αR 2073,以获得预测信号,然后从实值侧频谱中减去该预测信号。此外,虚频谱600乘以2074所示的虚部αI,以获得另一预测信号,然后从2034b所示的实值侧频谱中减去该预测信号。然后,在量化器209b中对预测残差信号D进行量化,而在块209a中对M的实值频谱进行量化/编码。此外,有利地,在量化器/熵编码器2072中对预测信息α进行量化和编码,以获得编码的复α值,其例如转发到图13A的比特流复用器212并且最终作为预测信息输入到比特流中。
关于量化/编码(Q/C)模块2072对于α的位置,注意,乘法器2073和2074使用完全相同的(量化)α,其也将在解码器中使用。因此,可以将2072直接移动到2071的输出,或者可以认为在2071的优化过程中已经考虑了α的量化。
尽管可以在编码器侧计算复频谱,但是由于所有信息都可用,所以在编码器中的块2070中执行实数复数变换是有利的,使得产生关于图14B所示的解码器的相似条件。解码器接收第一组合信号的实值编码频谱和编码残差信号的实值频谱表示。另外,在108处获得编码的复预测信息,并且在块65中执行熵解码和去量化,以获得1160b所示的实部αR和1160c所示的虚部αI。将加权元件1160b和1160c输出的中间信号与经解码和去量化的预测残差信号相加。特别地,由实虚转换器1160a从实值频谱M导出被输入到加权器1160c的频谱值,其中,复预测因子的虚部被用作加权因子,所述实虚转换器1160a与关于编码器侧的附图14A中的块2070相同的方式来实现。在解码器侧,中间信号或侧信号的复值表示不可用,这与编码器侧相反。原因是,由于比特率和复杂性原因,只有编码的实值频谱从编码器传输到解码器。
图14A的实虚变换器1160a或相应块2070可以如WO2004/013839A1或WO2008/014853A1或美国专利号6,980,933中公开的那样实现。备选地,可以应用本领域已知的任何其它实施方式。
实施例进一步示出了可以如何在诸如HE-AAC的音频编解码器中有利地采用所提出的自适应变换核切换以最小化甚至避免在“技术问题”部分中提到的两个问题。以下将解决具有大约90度的通道间相移的立体声信号。这里,可以在两个通道之一中采用切换到基于MDST-IV的编码,而在另一通道中可以使用老式的MDCT-IV编码。备选地,可以在一个通道中使用MDCT-II编码,而在另一通道中可以使用MDST-II编码。鉴于余弦和正弦函数是彼此的90度相移变形(cos(x)=sin(x+π/2))),输入通道频谱之间的相应相移可以以这种方式转换成0度或180度相移,其可以通过传统的基于M/S的联合立体声编码非常高效地编码。如上文由经典MDCT进行次优编码的高次谐波信号的情况中一样,中间过渡变换在受影响的通道中可能是有利的。
在这两种情况下,对于具有大约90°的通道间相移的高次谐波信号和立体声信号,编码器针对每个变换选择4个核之一(也参见图7)。应用本发明的变换核切换的相应解码器可以使用相同的核,因此其可以正确地重构信号。为了使这样的解码器知道要在给定帧中在一个或多个逆变换中使用哪个变换核,对变换核的选择进行描述的侧信息,或者备选地,左右侧对称性的信息,应该由相应的编码器针对每一帧发送至少一次。下一部分描述向MPEG-H 3D音频编解码器进行预想的整合(即修改)。
其他实施例涉及音频编码,具体地,涉及通过交叠变换(例如,改进离散余弦变换(MDCT))进行的低速率感知音频编码。实施例通过将MDCT编码原理一般化为包括三个其他类似变换来提及关于常规变换编码的两个具体问题。实施例进一步示出了在每个编码通道或帧中在这四个变换核之间进行信号和上下文自适应切换或者在每个编码通道或帧中单独地针对每个变换进行信号和上下文自适应切换。为了向相应的解码器发信号通知该核选择,可以在编码比特流中发送相应的侧信息。
图15示出了对编码音频信号进行解码的方法1500的示意框图。方法1500包括:步骤1505,将连续的频谱值块转换成重叠的连续的时间值块;步骤1510,将连续的时间值块重叠相加以获得解码的音频值;以及步骤1515,接收控制信息,并且在进行转换时,响应于控制信息,在第一组变换核中的变换核与第二组变换核中的变换核之间进行切换,第一组变换核包括在核的侧面具有不同对称性的一个或多个变换核,第二组变换核包括在变换核的侧面具有相同对称性的一个或多个变换核。
图16示出了对音频信号进行编码的方法1600的示意框图。方法1600包括:步骤1605,将重叠的时间值块转换成连续的频谱值块;步骤1610,控制时间频谱转换以在第一组变换核中的变换核与第二组变换核中的变换核之间进行切换;以及步骤1615,接收控制信息,并且在进行转换时,响应于控制信息,在第一组变换核中的变换核与第二组变换核中的变换核之间进行切换,第一组变换核包括在核的侧面具有不同对称性的一个或多个变换核,第二组变换核包括在变换核的侧面具有相同对称性的一个或多个变换核。
应当理解,在本说明书中,线上的信号有时由线的附图标记来命名,或者有时由附图标记自身来表示,其已属于这些线。因此,该标记使得具有某一信号的线指示信号本身。线可以是硬连线实施方式中的实体线路。然而,在计算机化实施方式中,实体线路不存在,但线所表示的信号从一个计算模块传输到另一个计算模块。
尽管已在框图的上下文(其中,所述块表示真实的或逻辑的硬件组件)下描述了本发明,但本发明也可以由计算机实施方法来实现。在后一种情况下,块表示相应方法步骤,其中这些步骤代表由对应逻辑或实体硬件块执行的功能性。
虽然已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示对应方法的描述,其中,块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对相应块或项或者相应装置的特征的描述。可以由(或使用)硬件装置(诸如,微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中,可以由这种装置来执行最重要方法步骤中的某一个或多个方法步骤。
本发明的经传输或编码的信号可以存储在数字存储介质上或可以在诸如无线传输介质的传输介质或诸如因特网的有线传输介质上传输。
取决于某些实现要求,可以在硬件中或在软件中实现本发明的实施例。可以通过使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、蓝光、CD、ROM、PROM和EPROM、EEPROM或闪存)来执行所述实现方案,所述控制信号与可编程计算机系统合作(或能够与之合作),使得执行各个方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一实施例是数据载体(或诸如数字存储介质或计算机可读介质的非暂时性存储介质),其包含记录于其上的用于执行本文所述方法之一的计算机程序。数据载体、数字存储介质或记录的介质通常是有形的和/或非暂时性的。
因此,本发明方法的另一实施例是表示用于执行本文所述的方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传送。
另一实施例包括处理装置,例如,计算机或可编程逻辑器件,所述处理装置被配置为或适于执行本文所述的方法之一。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
根据本发明的另一实施例包括被配置为(例如,以电子方式或以光学方式)向接收机传送计算机程序的装置或系统,该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收机传送计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
上述实施例对于本发明的原理仅是说明性的。应当理解的是:本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。
参考文献
[1]H.S:Malvar,Signal Processing with Lapped Transforms,Norwood:ArtechHouse,1992.
[2]J.P.Princen and A.B.Bradley,“Analysis/Synthesis Filter BankDesignBased on Time Domain Aliasing Cancellation,”IEEE Trans.Acoustics,Speech,andSignal Proc.,1986.
[3]J.P.Princen,A.W.Johnson,and A.B.Bradley,“Subband/transform codingusing filter bank design based on time domain aliasing cancellation,”in IEEEICASSP,vol.12,1987.
[4]H.S:Malvar,“Lapped Transforms for Efficient Transform/SubbandCoding,”IEEE Trans.Acoustics,Speech,and Signal Proc.,1990.
[5]http://en.wikipedia.org/wiki/Modified_discrete_cosine_transform.

Claims (19)

1.一种用于对编码音频信号(4)进行解码的解码器(2),所述解码器包括:
自适应频谱时间转换器(6),用于将连续的频谱值块(4’、4”)转换成连续的时间值块(10);以及
重叠相加处理器(8),用于将连续的时间值块(10)重叠相加以获得解码的音频值(14),
其中所述自适应频谱时间转换器(6)被配置为:接收控制信息(12),并且响应于所述控制信息(12),在第一组变换核中的变换核与第二组变换核中的变换核之间进行切换,其中所述第一组变换核包括在变换核的侧面具有不同对称性的一个或多个变换核,所述第二组变换核包括在变换核的侧面具有相同对称性的一个或多个变换核,
其中,所述第一组和所述第二组中的变换核基于下式:
Figure FDA0002715559520000011
其中所述第一组中的至少一个变换核基于以下参数:
cs()=cos()且k0=0.5,或
cs()=sin()且k0=0.5,或
其中所述第二组中的至少一个变换核基于以下参数:
cs()=cos()且k0=0;或
cs()=sin()且k0=1,
其中xi,n是时域输出,C是常数参数,N是时间窗长度,spec是针对一个块具有M个值的频谱值,M等于N/2,i是时间块索引,k是指示频谱值的频谱索引,n是对块i中的时间值加以指示的时间索引,并且n0是作为整数或零的常数参数,并且
其中,所述自适应频谱时间转换器(6)被配置为:基于下表来应用变换核:
Figure FDA0002715559520000012
Figure FDA0002715559520000021
其中,symmi是索引为i的当前帧的控制信息(12),并且symmi-1是索引为i-1的前一帧的控制信息(12)。
2.根据权利要求1所述的解码器(2),
其中,所述第一组变换核具有在变换核的左侧具有奇对称性并且在变换核的右侧具有偶对称性或者与之相反的一个或多个变换核,或者所述第二组变换核具有在变换核的两侧具有偶对称性或在变换核的两侧具有奇对称性的一个或多个变换核。
3.根据权利要求1所述的解码器(2),
其中,所述第一组变换核包括逆MDCT-IV变换核或逆MDST-IV变换核,或者所述第二组变换核包括逆MDCT-II变换核或逆MDST-II变换核,
其中,MDCT-IV在其左侧呈现奇对称性,并且在其右侧呈现偶对称性,在所述变换的信号折出期间,合成信号在MDCT-IV的左侧被反转,
其中,MDST-IV在其左侧呈现偶对称性,并且在其右侧呈现奇对称性,在所述变换的信号折出期间,合成信号在MDST-IV的右侧被反转,
其中,MDCT-II在其左侧呈现偶对称性,并且在其右侧呈现偶对称性,在所述变换的信号折出期间,合成信号在任一侧都不反转,或者
其中,MDST-II在其左侧呈现奇对称性,并且在其右侧呈现奇对称性,在所述变换的信号折出期间,合成信号在两侧都反转。
4.根据权利要求1所述的解码器(2),其中,所述控制信息(12)包括对所述当前帧的当前对称性加以指示的当前比特,以及
其中,所述自适应频谱时间转换器(6)被配置为:当所述当前比特指示与在所述前一帧中使用的对称性相同的对称性时,不从所述第一组切换到所述第二组,以及
其中,所述自适应频谱时间转换器(6)被配置为:当所述当前比特指示与在所述前一帧中使用的对称性不同的对称性时,从所述第一组切换到所述第二组。
5.根据权利要求1所述的解码器(2),
其中,所述自适应频谱时间转换器(6)被配置:当对所述当前帧的当前对称性加以指示的当前比特指示与在所述前一帧中使用的对称性相同的对称性时,将所述第二组切换到所述第一组,以及
其中,所述自适应频谱时间转换器(6)被配置为:当所述当前比特指示所述当前帧的当前对称性具有与在所述前一帧中使用的对称性不同的对称性时,不从所述第二组切换到所述第一组。
6.根据权利要求1所述的解码器(2),
其中,所述自适应频谱时间转换器(6)被配置为:从所述编码音频信号(4)中读取所述前一帧的控制信息(12),并且在所述前一帧之后的所述当前帧的控制数据部分中从编码音频信号中读取所述当前帧的控制信息(12),或者
其中,所述自适应频谱时间转换器(6)被配置为:从所述当前帧的所述控制数据部分中读取控制信息(12),并且从所述前一帧的控制数据部分或从应用于所述前一帧的解码器设置中获取所述前一帧的控制信息(12)。
7.根据权利要求1所述的解码器(2),还包括多通道处理器(40),用于接收表示第一多通道和第二多通道的频谱值块,并且根据联合多通道处理技术对所接收的块进行处理以获得所述第一多通道和所述第二多通道的经处理的频谱值块,并且所述自适应频谱时间转换器(6)被配置为:使用所述第一多通道的控制信息对所述第一多通道的经处理的块进行处理,并且使用所述第二多通道的控制信息对所述第二多通道的经处理的块进行处理。
8.根据权利要求7所述的解码器(2),其中,所述多通道处理器被配置为:使用与表示所述第一多通道和所述第二多通道的频谱值块相关联的复预测控制信息来应用复预测。
9.根据权利要求7所述的解码器,其中,所述多通道处理器被配置为:根据所述联合多通道处理技术对所接收的块进行处理,其中所接收的块包括所述第一多通道的表示和所述第二多通道的表示的编码残差信号,并且所述多通道处理器被配置为:使用所述编码残差信号和编码信号来计算所述第一多通道的经处理的频谱值块和所述第二多通道的经处理的频谱值块,或者
其中,多通道处理是指对多于两个通道进行的联合立体声处理或联合处理,并且多通道信号具有两个通道或多于两个通道。
10.一种用于对音频信号(24)进行编码的编码器(22),所述编码器包括:
自适应时间频谱转换器(26),用于将重叠的时间值块(30)转换为连续的频谱值块(4’、4”);以及
控制器(28),用于控制所述自适应时间频谱转换器(26)以在第一组变换核中的变换核与第二组变换核中的变换核之间进行切换,
其中所述自适应时间频谱转换器(26)被配置为:接收控制信息(12),并且响应于所述控制信息(12),在第一组变换核中的变换核与第二组变换核中的变换核之间进行切换,所述第一组变换核包括在变换核的侧面具有不同对称性的一个或多个变换核,所述第二组变换核包括在变换核的侧面具有相同对称性的一个或多个变换核,
其中,所述第一组变换核包括MDCT-IV变换核或MDST-IV变换核,或者所述第二组变换核包括MDCT-II变换核或MDST-II变换核,并且
其中,所述控制器(28)被配置为使得所述MDCT-IV变换核后接所述MDST-II变换核,或者所述MDST-IV变换核后接所述MDCT-II变换核,或者所述MDCT-II变换核后接所述MDCT-IV变换核,或者所述MDST-II变换核后接所述MDST-IV变换核。
11.根据权利要求10所述的编码器(22),还包括输出接口(32),用于产生编码音频信号(4),所述编码音频信号(4)具有当前帧的控制信息(12),所述控制信息对用于生成所述当前帧的变换核的对称性加以指示。
12.根据权利要求11所述的编码器(22),其中,所述输出接口(32)被配置为:当所述当前帧是独立帧时,将所述当前帧和前一帧的对称性信息包括在所述当前帧的控制数据部分中,或者当所述当前帧是从属帧时,仅将所述当前帧的对称性信息包括在所述当前帧的所述控制数据部分中而不将所述前一帧的对称性信息包括在所述当前帧的所述控制数据部分中。
13.根据权利要求10所述的编码器(22),其中,所述第一组变换核具有在左侧具有奇对称性并且在右侧具有偶对称性或者与之相反的一个或多个变换核,或者所述第二组变换核具有在两侧具有偶对称性或在两侧具有奇对称性的一个或多个变换核,或者
其中,MDCT-IV在其左侧呈现奇对称性,并且在其右侧呈现偶对称性,在所述变换的信号折出期间,合成信号在MDCT-IV的左侧被反转,
其中,MDST-IV在其左侧呈现偶对称性,并且在其右侧呈现奇对称性,在所述变换的信号折出期间,合成信号在MDST-IV的右侧被反转,
其中,MDCT-II在其左侧呈现偶对称性,并且在其右侧呈现偶对称性,在所述变换的信号折出期间,合成信号在任一侧都不反转,或者
其中,MDST-II在其左侧呈现奇对称性,并且在其右侧呈现奇对称性,在所述变换的信号折出期间,合成信号在两侧都反转。
14.根据权利要求10所述的编码器(22),
其中所述控制器(28)被配置为对具有第一通道和第二通道的重叠的时间值块(30)进行分析,以确定所述第一通道的帧和所述第二通道的相应帧的变换核。
15.根据权利要求10所述的编码器(22),其中,所述自适应时间频谱转换器(26)被配置为:对多通道信号的第一通道和第二通道进行处理,并且所述编码器(22)还包括多通道处理器(40)和编码处理器(46),所述多通道处理器(40)用于使用联合多通道处理技术对所述第一通道和所述第二通道的连续的频谱值块进行处理,以获得经处理的频谱值块,所述编码处理器(46)用于对经处理的频谱值块进行处理以获得经编码的通道。
16.根据权利要求10所述的编码器(22),其中,第一经处理的频谱值块表示联合多通道处理技术的第一编码表示,并且第二经处理的频谱值块表示所述联合多通道处理技术的第二编码表示,其中编码处理器(46)被配置为:使用量化和熵编码对第一经处理的块进行处理以形成第一编码表示,所述编码处理器(46)被配置为使用量化和熵编码对第二经处理的块进行处理以形成第二编码表示,并且所述编码处理器(46)被配置为:使用所述第一编码表示和所述第二编码表示形成编码音频信号的比特流,或者
其中,多通道处理是指对多于两个通道进行的联合立体声处理或联合处理,并且多通道信号具有两个通道或多于两个通道。
17.一种对编码音频信号进行解码的方法(1500),所述方法包括:
将连续的频谱值块频谱时间转换成连续的时间值块(10);以及
将连续的时间值块(10)重叠相加以获得解码的音频值,
接收控制信息(12),并且在进行频谱时间转换时,响应于所述控制信息(12),在第一组变换核中的变换核与第二组变换核中的变换核之间进行切换,所述第一组变换核包括在变换核的侧面具有不同对称性的一个或多个变换核,所述第二组变换核包括在变换核的侧面具有相同对称性的一个或多个变换核,
其中,所述第一组和所述第二组中的变换核基于下式:
Figure FDA0002715559520000061
其中所述第一组中的至少一个变换核基于以下参数:
cs()=cos()且k0=0.5,或
cs()=sin()且k0=0.5,或
其中所述第二组中的至少一个变换核基于以下参数:
cs()=cos()且k0=0;或
cs()=sin()且k0=1,
其中xi,n是时域输出,C是常数参数,N是时间窗长度,spec是针对一个块具有M个值的频谱值,M等于N/2,i是时间块索引,k是指示频谱值的频谱索引,n是对块i中的时间值加以指示的时间索引,并且n0是作为整数或零的常数参数,并且
其中,所述转换包括:基于下表来应用变换核:
Figure FDA0002715559520000071
其中,symmi是索引为i的当前帧的控制信息(12),并且symmi-1是索引为i-1的前一帧的控制信息(12)。
18.一种对音频信号进行编码的方法(1600),所述方法包括:
将重叠的时间值块(10)时间频谱转换成连续的频谱值块;以及
控制所述时间频谱转换以在第一组变换核中的变换核与第二组变换核中的变换核之间进行切换,
接收控制信息(12),并且在进行时间频谱转换时,响应于所述控制信息(12),在第一组变换核中的变换核与第二组变换核中的变换核之间进行切换,所述第一组变换核包括在变换核的侧面具有不同对称性的一个或多个变换核,所述第二组变换核包括在变换核的侧面具有相同对称性的一个或多个变换核,
其中,所述第一组变换核包括MDCT-IV变换核或MDST-IV变换核,或者所述第二组变换核包括MDCT-II变换核或MDST-II变换核,并且
其中,所述控制被配置为使得所述MDCT-IV变换核后接所述MDST-II变换核,或者所述MDST-IV变换核后接所述MDCT-II变换核,或者所述MDCT-II变换核后接所述MDCT-IV变换核,或者所述MDST-II变换核后接所述MDST-IV变换核。
19.一种存储介质,其上存储有计算机程序,所述计算机程序用于当在计算机或处理器上运行时执行根据权利要求17或18所述的方法。
CN201680026851.0A 2015-03-09 2016-03-08 对编码音频信号解码的解码器和编码音频信号的编码器 Active CN107592938B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110100367.0A CN112786061B (zh) 2015-03-09 2016-03-08 对编码音频信号解码的解码器和编码音频信号的编码器

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP15158236 2015-03-09
EP15158236.8 2015-03-09
EP15172542.1 2015-06-17
EP15172542.1A EP3067889A1 (en) 2015-03-09 2015-06-17 Method and apparatus for signal-adaptive transform kernel switching in audio coding
PCT/EP2016/054902 WO2016142376A1 (en) 2015-03-09 2016-03-08 Decoder for decoding an encoded audio signal and encoder for encoding an audio signal

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202110100367.0A Division CN112786061B (zh) 2015-03-09 2016-03-08 对编码音频信号解码的解码器和编码音频信号的编码器

Publications (2)

Publication Number Publication Date
CN107592938A CN107592938A (zh) 2018-01-16
CN107592938B true CN107592938B (zh) 2021-02-02

Family

ID=52692422

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201680026851.0A Active CN107592938B (zh) 2015-03-09 2016-03-08 对编码音频信号解码的解码器和编码音频信号的编码器
CN202110100367.0A Active CN112786061B (zh) 2015-03-09 2016-03-08 对编码音频信号解码的解码器和编码音频信号的编码器

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202110100367.0A Active CN112786061B (zh) 2015-03-09 2016-03-08 对编码音频信号解码的解码器和编码音频信号的编码器

Country Status (15)

Country Link
US (5) US10236008B2 (zh)
EP (3) EP3067889A1 (zh)
JP (3) JP6728209B2 (zh)
KR (1) KR102101266B1 (zh)
CN (2) CN107592938B (zh)
AR (1) AR103859A1 (zh)
AU (1) AU2016231239B2 (zh)
CA (1) CA2978821C (zh)
ES (1) ES2950286T3 (zh)
MX (1) MX2017011185A (zh)
PL (1) PL3268962T3 (zh)
RU (1) RU2691231C2 (zh)
SG (1) SG11201707347PA (zh)
TW (1) TWI590233B (zh)
WO (1) WO2016142376A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2834083T3 (es) * 2016-11-08 2021-06-16 Fraunhofer Ges Forschung Aparato y método para la mezcla descendente o mezcla ascendente de una señal multicanal usando compensación de fase
US10224045B2 (en) * 2017-05-11 2019-03-05 Qualcomm Incorporated Stereo parameters for stereo decoding
US10535357B2 (en) * 2017-10-05 2020-01-14 Qualcomm Incorporated Encoding or decoding of audio signals
US10839814B2 (en) * 2017-10-05 2020-11-17 Qualcomm Incorporated Encoding or decoding of audio signals
EP3588495A1 (en) 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
KR20200000649A (ko) 2018-06-25 2020-01-03 네이버 주식회사 오디오 병렬 트랜스코딩을 위한 방법 및 시스템
CN115132214A (zh) 2018-06-29 2022-09-30 华为技术有限公司 立体声信号的编码、解码方法、编码装置和解码装置
RU2769788C1 (ru) * 2018-07-04 2022-04-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер, многосигнальный декодер и соответствующие способы с использованием отбеливания сигналов или постобработки сигналов
TWI681384B (zh) * 2018-08-01 2020-01-01 瑞昱半導體股份有限公司 音訊處理方法與音訊等化器
CN110830884B (zh) * 2018-08-08 2021-06-25 瑞昱半导体股份有限公司 音频处理方法与音频均衡器
WO2020185522A1 (en) * 2019-03-14 2020-09-17 Boomcloud 360, Inc. Spatially aware multiband compression system with priority
US11032644B2 (en) * 2019-10-10 2021-06-08 Boomcloud 360, Inc. Subband spatial and crosstalk processing using spectrally orthogonal audio components
CN110855673B (zh) * 2019-11-15 2021-08-24 成都威爱新经济技术研究院有限公司 一种复杂多媒体数据传输及处理方法
KR20220018271A (ko) * 2020-08-06 2022-02-15 라인플러스 주식회사 딥러닝을 이용한 시간 및 주파수 분석 기반의 노이즈 제거 방법 및 장치
US20240120941A1 (en) * 2021-02-18 2024-04-11 Telefonaktiebolaget Lm Ericsson (Publ) Encoding and decoding complex data
CN113314130B (zh) * 2021-05-07 2022-05-13 武汉大学 一种基于频谱搬移的音频对象编解码方法
CN116032901B (zh) * 2022-12-30 2024-07-26 北京天兵科技有限公司 多路音频数据信号采编方法、装置、系统、介质和设备

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
FR2680924B1 (fr) 1991-09-03 1997-06-06 France Telecom Procede de filtrage adapte d'un signal transforme en sous-bandes, et dispositif de filtrage correspondant.
JP2642546B2 (ja) * 1991-10-15 1997-08-20 沖電気工業株式会社 視覚特性の算出方法
US5890106A (en) 1996-03-19 1999-03-30 Dolby Laboratories Licensing Corporation Analysis-/synthesis-filtering system with efficient oddly-stacked singleband filter bank using time-domain aliasing cancellation
US6199039B1 (en) * 1998-08-03 2001-03-06 National Science Council Synthesis subband filter in MPEG-II audio decoding
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6496795B1 (en) 1999-05-05 2002-12-17 Microsoft Corporation Modulated complex lapped transform for integrated signal enhancement and coding
SE0004818D0 (sv) * 2000-12-22 2000-12-22 Coding Technologies Sweden Ab Enhancing source coding systems by adaptive transposition
US6963842B2 (en) * 2001-09-05 2005-11-08 Creative Technology Ltd. Efficient system and method for converting between different transform-domain signal representations
US7006699B2 (en) 2002-03-27 2006-02-28 Microsoft Corporation System and method for progressively transforming and coding digital data
US20030187528A1 (en) 2002-04-02 2003-10-02 Ke-Chiang Chu Efficient implementation of audio special effects
DE10234130B3 (de) 2002-07-26 2004-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals
CN100492492C (zh) 2002-09-19 2009-05-27 松下电器产业株式会社 音频解码设备和方法
JP4966013B2 (ja) 2003-10-30 2012-07-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号のエンコードまたはデコード
US6980933B2 (en) 2004-01-27 2005-12-27 Dolby Laboratories Licensing Corporation Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients
US20050265445A1 (en) * 2004-06-01 2005-12-01 Jun Xin Transcoding videos based on different transformation kernels
CN101025919B (zh) * 2006-02-22 2011-04-20 上海奇码数字信息有限公司 音频解码中的合成子带滤波方法和合成子带滤波器
DE102006047197B3 (de) 2006-07-31 2008-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines reellen Subband-Signals zur Reduktion von Aliasing-Effekten
EP2015293A1 (en) 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
RU2451998C2 (ru) * 2007-09-19 2012-05-27 Квэлкомм Инкорпорейтед Эффективный способ проектирования набора фильтров для mdct/imdct в приложениях для кодирования речи и аудиосигналов
WO2009100021A2 (en) * 2008-02-01 2009-08-13 Lehigh University Bilinear algorithms and vlsi implementations of forward and inverse mdct with applications to mp3 audio
PT3002750T (pt) * 2008-07-11 2018-02-15 Fraunhofer Ges Forschung Codificador e descodificador de áudio para codificar e descodificar amostras de áudio
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
ES2683077T3 (es) * 2008-07-11 2018-09-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada
CN101751926B (zh) * 2008-12-10 2012-07-04 华为技术有限公司 信号编码、解码方法及装置、编解码系统
JP5597968B2 (ja) 2009-07-01 2014-10-01 ソニー株式会社 画像処理装置および方法、プログラム、並びに記録媒体
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
JP5814340B2 (ja) * 2010-04-09 2015-11-17 ドルビー・インターナショナル・アーベー Mdctベース複素予測ステレオ符号化
JP5820464B2 (ja) * 2010-04-13 2015-11-24 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオまたはビデオエンコーダ、オーディオまたはビデオデコーダ、及び予測方向可変の予測を使用したマルチチャンネルオーディオまたはビデオ信号処理方法
WO2012039920A1 (en) * 2010-09-22 2012-03-29 Dolby Laboratories Licensing Corporation Efficient implementation of phase shift filtering for decorrelation and other applications in an audio coding system
WO2013107602A1 (en) 2012-01-20 2013-07-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio encoding and decoding employing sinusoidal substitution
GB2509055B (en) 2012-12-11 2016-03-23 Gurulogic Microsystems Oy Encoder and method
JP6089878B2 (ja) * 2013-03-28 2017-03-08 富士通株式会社 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置

Also Published As

Publication number Publication date
EP4235656A3 (en) 2023-10-11
EP3268962A1 (en) 2018-01-17
KR20170133378A (ko) 2017-12-05
US20200372923A1 (en) 2020-11-26
US11335354B2 (en) 2022-05-17
JP2020184083A (ja) 2020-11-12
JP7126328B2 (ja) 2022-08-26
MX2017011185A (es) 2018-03-28
RU2017134619A (ru) 2019-04-04
JP2022174061A (ja) 2022-11-22
AR103859A1 (es) 2017-06-07
EP3268962C0 (en) 2023-06-14
ES2950286T3 (es) 2023-10-06
US20220238125A1 (en) 2022-07-28
RU2691231C2 (ru) 2019-06-11
JP6728209B2 (ja) 2020-07-22
US20190172473A1 (en) 2019-06-06
KR102101266B1 (ko) 2020-05-15
RU2017134619A3 (zh) 2019-04-04
CA2978821C (en) 2020-08-18
US10706864B2 (en) 2020-07-07
WO2016142376A1 (en) 2016-09-15
JP7513669B2 (ja) 2024-07-09
AU2016231239B2 (en) 2019-01-17
CN112786061A (zh) 2021-05-11
US11854559B2 (en) 2023-12-26
PL3268962T3 (pl) 2023-10-23
CN112786061B (zh) 2024-05-07
US10236008B2 (en) 2019-03-19
CA2978821A1 (en) 2016-09-15
SG11201707347PA (en) 2017-10-30
US20240096336A1 (en) 2024-03-21
TWI590233B (zh) 2017-07-01
BR112017019179A2 (pt) 2018-04-24
AU2016231239A1 (en) 2017-09-28
EP3067889A1 (en) 2016-09-14
JP2018511826A (ja) 2018-04-26
CN107592938A (zh) 2018-01-16
US20170365266A1 (en) 2017-12-21
EP3268962B1 (en) 2023-06-14
EP4235656A2 (en) 2023-08-30
TW201701271A (zh) 2017-01-01

Similar Documents

Publication Publication Date Title
CN107592938B (zh) 对编码音频信号解码的解码器和编码音频信号的编码器
CA2804907C (en) Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
RU2492530C2 (ru) Устройство и способ кодирования/декодирования звукового сигнала посредством использования схемы переключения совмещения имен
EP4404560A2 (en) Audio decoding method for processing stereo audio signals using a variable prediction direction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant