CN105745703B

CN105745703B - 信号编码方法和装置以及信号解码方法和装置

Info

Publication number: CN105745703B
Application number: CN201480062625.9A
Authority: CN
Inventors: 成昊相
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2013-09-16
Filing date: 2014-09-16
Publication date: 2019-12-10
Anticipated expiration: 2034-09-16
Also published as: CN110634495B; CN105745703A; CN110867190B; EP3046104A1; JP2018049284A; CN110634495A; US10811019B2; EP3614381A1; JP6495420B2; JP2016538602A; EP3046104B1; US20210020184A1; CN110867190A; PL3046104T3; US11705142B2; JP6243540B2; US20190189139A1; EP3046104A4

Abstract

一种频谱编码方法可包括：基于每个频带，针对归一化的频谱选择重要频谱分量，以及基于在每个频带的基础上选择的重要频谱分量的数量、位置、大小和符号来对所述重要频谱分量的信息进行编码。一种频谱解码方法可包括：从比特流获得编码频谱的基于每个频带的重要频谱分量的信息，以及基于所述重要频谱分量的数量、位置、大小和符号，对获得的基于每个频带的重要频谱分量的信息进行解码。

Description

信号编码方法和装置以及信号解码方法和装置

技术领域

一个或多个示例性实施例涉及对音频或语音信号的编码和解码，更特别地，涉及用于在频域中对频谱系数进行编码和解码的方法和设备。

背景技术

已经提出基于各种方案的量化器用于在频域中对频谱系数进行有效编码。例如，已经使用了基于网格编码量化(TCQ)、统一标量量化(USQ)、阶乘脉冲编码(FPC)、代数矢量量化(AVQ)和金字塔矢量量化(PVQ)等的量化器。因此，也已经实现了针对每个量化器优化的无损编码器。

发明内容

技术问题

一个或多个示例性实施例包括用于在频域中针对各种比特率或各种子频带的大小自适应地对频谱系数进行编码或解码的方法和设备。

一个或多个示例性实施例包括存储用于执行信号编码方法或信号解码方法的程序的非暂态计算机可读记录介质。

一个或多个示例性实施例包括使用信号编码方法或信号解码方法的多媒体设备。

技术方案

根据一个或多个示例性实施例，一种信号编码方法包括：针对归一化的频谱以频带为单位选择重要频谱分量；以及以频带为单位，基于所述重要频谱分量的数量、位置、大小和符号对选择的重要频谱分量的信息进行编码。

根据一个或多个示例性实施例，一种频谱解码方法包括：以频带为单位从比特流获得编码频谱的重要频谱分量的信息；以及以频带为单位，基于所述重要频谱分量的数量、位置、大小和符号对获得的重要频谱分量的信息进行解码。

有益效果

根据以上示例性实施例中的一个或更多个示例性实施例，针对各种比特率或各种子频带大小自适应地对频谱系数进行编码或解码。

附图说明

图1a和图1b分别是根据示例性实施例的音频编码设备和音频解码设备的框图。

图2a和图2b分别是根据另一个示例性实施例的音频编码设备和音频解码设备的框图。

图3a和图3b分别是根据另一个示例性实施例的音频编码设备和音频解码设备的框图。

图4a和图4b分别是根据另一个示例性实施例的音频编码设备和音频解码设备的框图。

图5是根据示例性实施例的频域音频编码设备的框图。

图6是根据示例性实施例的频域音频解码设备的框图。

图7是根据示例性实施例的频谱编码设备的框图。

图8示出子频带划分的示例。

图9是根据示例性实施例的频谱量化和编码设备的框图。

图10是重要频谱分量(ISC)收集操作的示图。

图11示出应用于示例性实施例的TCQ的示例。

图12是根据示例性实施例的频域音频解码设备的框图。

图13是根据示例性实施例的频谱解码设备的框图。

图14是根据示例性实施例的频谱解码和反量化设备的框图。

图15是根据示例性实施例的多媒体装置的框图。

图16是根据另一个示例性实施例的多媒体装置的框图。

图17是根据又一个示例性实施例的多媒体装置的框图。

具体实施方式

由于发明构思可具有各种修改实施例，因此优选实施例在附图中示出并且在对发明构思的详细描述中描述。然而，这并不将发明构思限于特定实施例内，应该理解，发明构思涵盖发明构思的思路和技术范围内的所有修改形式、等同形式和替换形式。此外，将排除与已知功能或构造相关的详细描述，从而不会不必要地模糊发明构思的主题。

应该理解，尽管在这里使用术语“第一”和“第二”来描述各种元件，但这些元件不应该受这些术语限制。术语只是用于将一个组件与其他组件区分开。

在下面的描述中，技术术语仅用于说明特定的示例性实施例，而没有限制发明构思。已经在考虑发明构思的功能的情况下将目前广泛使用的通用术语选为发明构思中使用的术语，但可根据本领域普通技能的操作人员的意图、常规实践、或引入新技术来改变这些术语。另外，如果存在申请人在特定情况下任意选择的术语，则在这种情况下，将在发明构思的对应描述部分中详细地描述术语的含义。因此，术语应该基于本说明书的整体内容来定义，而非基于各术语的简称来定义。

除非相反表示，否则单数形式的术语可包括复数形式。“包括”、“包含”或“具有”的含义指明了属性、区域、固定数量、步骤、过程、元件和/或组件，但不排除其他属性、区域、固定数量、步骤、过程、元件和/或组件。

下文中，将参照附图详细地描述示例性实施例。在对附图的整个描述中，相同的标号表示相同的元件，不提供对相同元件的重复描述。

图1a中示出的音频编码设备110可包括预处理器112、频域编码器114 和参数编码器116。这些组件可被集成在至少一个模块中并且可被实现为至少一个处理器(未示出)。

在图1a中，预处理器112可对输入信号执行滤波、下采样等，但不限于此。输入信号可包括语音信号、音乐信号、或语音和音乐的混合信号。下文中，为了方便说明，输入信号被称为音频信号。

频域编码器114可对预处理器112提供的音频信号执行时间-频率变换，选择与信道数量、编码频带、音频信号的比特率对应的编码工具，并且使用所选择的编码工具对音频信号进行编码。时间-频率变换可使用修正离散余弦变换(MDCT)、调制重叠变换(MLT)或快速傅里叶变换(FFT)，但不限于此。当给定比特的数量足够时，可向整个频带应用一般的变换编码方案，而当给定比特的数量不够时，可向部分频带应用频带宽扩展方案。当音频信号是立体声通道或多通道时，如果给定比特的数量足够，则针对每个通道执行编码，而如果给定比特的数量不够，则可应用向下混合方案。由频域编码器 114产生编码的频谱系数。

参数编码器116可从由频域编码器114提供的编码的频谱系数中提取参数并且对提取出的参数进行编码。该参数可以例如针对每个子频带被提取，并且可具有反映临界频带的统一长度或非统一长度，其中，子频带是将频谱系数分组的单元。当每个子频带具有非统一长度时，相比于高频频带中存在的子频带，低频频带中存在的子频带可具有相对短的长度。1帧中包括的子频带的数量和长度根据编解码算法而变化并且可影响编码性能。该参数可包括例如缩放因子、功率、平均能量或范数(Norm)，但不限于此。作为编码结果得到的频谱系数和参数形成比特流，比特流可被存储在存储介质中或者可通过信道以例如分组的形式进行发送。

图1b中示出的音频解码设备130可包括参数解码器132、频域解码器134 和后处理器136。频域解码器134可包括帧错误隐藏算法或分组丢失隐藏算法。这些组件可被集成在至少一个模块中并且可被实现为至少一个处理器(未示出)。

在图1b中，参数解码器132可从接收到的比特流中解码参数，并且从解码出的参数检查是否在帧单元中出现了错误(诸如，擦除或丢失)。可使用各种已知的方法进行错误检查，并且将关于当前帧是好帧还是擦除或丢失帧的信息提供到频域解码器134。下文中，为了方便说明，擦除或丢失帧被称为错误帧。

在当前帧是好帧时，频域解码器134可通过一般的变换解码处理执行解码来产生合成的频谱系数。在当前帧是错误帧时，通过帧错误隐藏算法或分组丢失隐藏算法，频域解码器134可通过对错误帧重复先前好帧(PGF)的频谱系数或者通过用回归分析对PGF的频谱系数进行缩放并随后对错误帧重复缩放后的PGF的频谱系数来产生合成的频谱系数。频域解码器134可通过对合成的频谱系数执行频率-时间变换来产生时域信号。

后处理器136可针对从频域解码器134提供的时域信号执行滤波、上采样等以提高声音质量，但不限于此。后处理器136提供重构后的音频信号作为输出信号。

图2a和图2b分别是根据另一个示例性实施例的具有切换功能的音频编码设备和音频解码设备的框图。

图2a中示出的音频编码设备210可包括预处理器单元212、模式确定器 213、频域编码器214、时域编码器215和参数编码器216。这些组件可被集成在至少一个模块中并且可被实现为至少一个处理器(未示出)。

在图2a中，由于预处理器212与图1a的预处理器112基本上相同，因此不重复对其的描述。

模式确定器213可通过参照输入信号的特性来确定编码模式。模式确定器213可根据输入信号的特性来确定适合于当前帧的编码模式是语音模式还是音乐模式，并且还可确定对于当前帧有效的编码模式是时域模式还是频域模式。可通过使用帧的短期特性或多个帧的长期特性来感知输入信号的特性，但不限于此。例如，如果输入信号对应于语言信号，则可确定编码模式是语言模式或时域模式，而如果输入信号对应于除了语言信号之外的信号(即，音乐信号或混合信号)，则可确定编码模式是音乐模式或频域模式。模式确定器213可在输入信号的特性对应于音乐模式或频域模式时将预处理器212的输出信号提供到频域编码器214，并且可在输入信号的特性对应于语言模式或时域模式时将预处理器212的输出信号提供到时域编码器215。

由于频域编码器214与图1a的频域编码器114基本上相同，因此不重复对其的描述。

时域编码器215可对从预处理器212提供的音频信号执行码激励线性预测(CELP)编码。详细地，可将代数CELP用于CELP编码，但CELP编码不限于此。可由时域编码器215产生编码的频谱系数。

参数编码器216从频域编码器214或时域编码器215提供的编码的频谱系数中提取参数并对提取出的参数进行编码。由于参数编码器216与图1a的参数编码器116基本上相同，因此不重复对其的描述。作为编码结果得到的频谱系数和参数可与编码模式信息一起形成比特流，并且比特流可通过信道以分组形式进行发送或者可被存储在存储介质中。

图2b中示出的音频解码设备230可包括参数解码器232、模式确定器 233、频域解码器234、时域解码器235和后处理器236。频域解码器234和时域解码器235中的每一个可包括每个对应域中的帧错误隐藏算法或分组丢失隐藏算法。这些组件可被集成在至少一个模块中并且可被实现为至少一个处理器(未示出)。

在图2b中，参数解码器232可从以分组形式发送的比特流中解码参数，并从解码出的参数检查是否在帧单元中出现了错误。可使用各种已知的方法进行错误检查，并且将关于当前帧是好帧还是错误帧的信息提供到频域解码器234或时域解码器235。

模式确定器233可检查比特流中包括的编码模式信息，并将当前帧提供到频域解码器234或时域解码器235。

频域解码器234可在编码模式是音乐模式或频域模式时进行操作，并且在当前帧是好帧时，通过一般的变换解码处理执行解码来产生合成的频谱系数。在当前帧是错误帧并且先前帧的编码模式是音乐模式或频域模式时，通过帧错误隐藏算法或分组丢失隐藏算法，频域解码器234可通过对错误帧重复先前好帧(PGF)的频谱系数或者通过用回归分析来缩放PGF的频谱系数并随后对错误帧重复缩放后的PGF频谱系数来产生合成的频谱系数。频域解码器234可通过对合成的频谱系数执行频率-时间变换来产生时域信号。

时域解码器235可在编码模式是语言模式或时域模式时进行操作，并且在当前帧是正常帧时，通过一般的CELP解码处理执行解码来产生时域信号。在当前帧是错误帧并且先前帧的编码模式是语言模式或时域模式时，时域解码器235可执行时域中的帧错误隐藏算法或分组丢失隐藏算法。

后处理器236可对从频域解码器234或时域检测器235提供的时域信号执行滤波、上采样等，但不限于此。后处理器236提供重构后的音频信号作为输出信号。

图3a中示出的音频编码设备310可包括预处理器312、线性预测(LP) 分析器313、模式确定器314、频域激励编码器315、时域激励编码器316和参数编码器317。这些组件可被集成在至少一个模块中并且可被实现为至少一个处理器(未示出)。

在图3a中，由于预处理器312与图1a的预处理器112基本上相同，因此不重复对其的描述。

LP分析器313可通过对输入信号执行LP分析来提取LP系数，并从提取出的LP系数产生激励信号。可根据编码模式将激励信号提供到频域激励编码单元315和时域激励编码器316中的一个。

由于模式确定器314与图2a的模式确定器213基本上相同，因此不重复对其的描述。

频域激励编码器315可在编码模式是音乐模式或频域模式时进行操作，并且由于除了输入信号是激励信号之外，频域激励编码器315与图1a的频域编码器114基本上相同，因此不重复对其的描述。

时域激励编码器316可在编码模式是语言模式或时域模式时进行操作，并且由于时域激励编码器单元316与图2a的时域编码器215基本上相同，因此不重复对其的描述。

参数编码器317可从频域激励编码器315或时域激励编码器316提供的编码的频谱系数中提取参数，并对提取出的参数进行编码。由于参数编码器 317与图1a的参数编码器116基本上相同，因此不重复对其的描述。作为编码结果得到的频谱系数和参数可与编码模式信息一起形成比特流，并且比特流可通过信道以分组形式进行发送或者可被存储在存储介质中。

图3b中示出的音频解码设备330可包括参数解码器332、模式确定器 333、频域激励解码器334、时域激励解码器335、LP合成器336和后处理器 337。频域激励解码器334和时域激励解码器335中的每一个可包括每个对应域中的帧错误隐藏算法或分组丢失隐藏算法。这些组件可被集成在至少一个模块中并且可被实现为至少一个处理器(未示出)。

在图3b中，参数解码器332可从以分组形式发送的比特流中解码参数，并从解码出的参数检查是否在帧单元中出现了错误。可使用各种已知的方法进行错误检查，并且将关于当前帧是好帧还是错误帧的信息提供到频域激励解码器334或时域激励解码器335。

模式确定器333可检查比特流中包括的编码模式信息，并将当前帧提供到频域激励解码器334或时域激励解码器335。

频域激励解码器334可在编码模式是音乐模式或频域模式时进行操作，并且在当前帧是好帧时，通过一般的变换解码处理执行解码来产生合成的频谱系数。在当前帧是错误帧并且先前帧的编码模式是音乐模式或频域模式时，通过帧错误隐藏算法或分组丢失隐藏算法，频域激励解码器334可通过对错误帧重复先前好帧(PGF)的频谱系数或者通过用回归分析来缩放PGF的频谱系数并随后对错误帧重复缩放后的PGF的频谱系数来产生合成的频谱系数。频域激励解码器334可通过对合成的频谱系数执行频率-时间变换来产生作为时域信号的激励信号。

时域激励解码器335可在编码模式是语言模式或时域模式时进行操作，并且在当前帧是好帧时，通过一般的CELP解码处理执行解码来产生作为时域信号的激励信号。在当前帧是错误帧并且先前帧的编码模式是语言模式或时域模式时，时域激励解码器335可执行时域中的帧错误隐藏算法或分组丢失隐藏算法。

LP合成器336可通过对从频域激励解码器334或时域激励解码器335提供的激励信号执行LP合成来产生时域信号。

后处理器337可对从LP合成器336提供的时域信号执行滤波、上采样等，但不限于此。后处理器337提供重构后的音频信号作为输出信号。

图4a和图4b分别是根据另一个示例性实施例的具有切换结构的音频编码设备和音频解码设备的框图。

图4a中示出的音频编码设备410可包括预处理器312、模式确定器413、频域编码器414、LP分析器415、频域激励编码器416、时域激励编码器417 和参数编码器418。这些组件可被集成在至少一个模块中并且可被实现为至少一个处理器(未示出)。由于可认为图4a中示出的音频编码设备410是通过组合图2a的音频编码设备210和图3a的音频编码设备310而获得的，因此不重复对共同部件的操作的描述，现在将描述模式模式确定单元413的操作。

模式确定器413可通过参照输入信号的特性和比特率来确定输入信号的编码模式。模式确定器413可基于当前帧根据输入信号的特性是语言模式还是音乐模式并且基于对于当前帧有效的编码模式是时域模式还是频域模式来确定编码模式是CELP模式或另一种模式。模式确定器413可在输入信号的特性对应于语言模式时确定编码模式是CELP模式，在输入信号的特性对应于音乐模式和高比特率时确定编码模式是频域模式，并且在输入信号的特性对应于音乐模式和低比特率时确定编码模式是音频模式。模式确定器413可在编码模式是频域模式时将输入信号提供到频域编码器414，在编码模式是音频模式时经由LP分析器415将输入信号提供到频域激励编码器416，并且在编码模式是CELP模式时经由LP分析器415将输入信号提供到时域激励编码器417。

频域编码器414可对应于图1a的音频编码设备110中的频域编码器114 或图2a的音频编码设备210中的频域编码器214，并且频域激励编码器416 或时域激励编码器417可对应于图3a的音频编码设备310中的频域激励编码器315或时域激励编码器316。

图4b中示出的音频解码设备430可包括参数解码器432、模式确定器 433、频域解码器434、频域激励解码器435、时域激励解码器436、LP分析器437和后处理器438。频域解码器434、频域激励解码器435和时域激励解码器436中的每一个可包括每个对应域中的帧错误隐藏算法或分组丢失隐藏算法。这些组件可被集成在至少一个模块中并且可被实现为至少一个处理器 (未示出)。由于可认为图4b中示出的音频解码设备430是通过组合图2b的音频解码设备230和图3b的音频解码设备330而获得的，因此不重复对共同部件的操作的描述，现在将描述模式确定器433的操作。

模式确定器433可检查比特流中包括的编码模式信息，并将当前帧提供到频域解码器434、频域激励解码器435或时域激励解码器436。

频域解码器434可对应于图1b的音频解码设备130中的频域解码器134 或图2b的音频解码设备230中的频域解码器234，并且频域激励解码器435 或时域激励解码器436可对应于图3b的音频解码设备330中的频域激励解码器334或时域激励解码器335。

图5是根据示例性实施例的频域音频编码设备的框图。

图5中示出的频域音频编码设备510可包括瞬态检测器511、变换器512、信号分类器513、能量编码器514、频谱归一化器515、比特分配器516、频谱编码器517和复用器518。这些组件可被集成在至少一个模块中并且可被实现为至少一个处理器(未示出)。频域音频编码设备510可执行图2a中示出的频域音频编码器214的所有功能和参数编码器216的部分功能。除了信号分类器513之外，可用ITU-T G.719标准中公开的编码器的配置来替换频域音频编码设备510，并且变换器512可使用重叠持续时间达50％的变换窗。另外，除了瞬态检测器511和信号分类器513之外，可用ITU-T G.719标准中公开的编码器的配置来替换频域音频编码设备510。在每种情况下，尽管未示出，但如ITU-T G.719标准中一样，还可在频谱编码器517的后端包括噪声等级估计单元，以估计在比特分配过程中没有被分配比特的频谱系数的噪声等级并且将估计的噪声等级插入到比特流中。

参照图5，瞬态检测器511可通过分析输入信号来检测表现出瞬态特性的持续时间，并响应于检测结果针对每个帧产生瞬态信令信息。可使用各种已知方法来检测瞬态持续时间。根据示例性实施例，瞬态检测器511可首先确定当前帧是否是瞬态帧，其次验证被确定是瞬态帧的当前帧。瞬态信令信息可由复用器518包括在比特流中并且可被提供到变换器512。

变换器512可根据瞬态持续时间的检测结果来确定将用于变换的窗口大小，并基于确定的窗口大小来执行时间-频率变换。例如，短窗口可应用于被检测出瞬态持续时间的子频带，长窗口可应用于没有被检测出瞬态持续时间的子频带。又如，短窗口可应用于包括瞬态持续时间的帧。

信号分类器513可以以帧为单位分析从变换器512提供的频谱，以确定每个帧是否对应于谐波帧。可使用各种已知方法来确定谐波帧。根据示例性实施例，信号分类器513可将从变换器512提供的频谱划分成多个子频带并且获得每个子频带的峰值能量和平均能量值。此后，信号分类器513可针对每个帧获得峰值能量比平均能量值大预定比率或更大的子频带的数量，并确定所得到的子频带的数量大于或等于预定值的帧是谐波帧。可通过实验或仿真来预先确定所述预定比率和所述预定值。谐波信令信息可由复用器518包括在比特流中。

能量编码器514可获得每个子频带单元中的能量并且对能量进行量化和无损编码。根据实施例，可将与每个子频带单元中的平均频谱能量对应的范数值用作能量，并且还可使用缩放因子或功率，但能量不限于此。每个子频带的范数值可被提供到频谱归一化器515和比特分配器516，并且可由复用器518包括在比特流中。

频谱归一化器515可通过使用每个子频带单元中获得的范数值对频谱进行归一化。

比特分配器516可通过使用每个子频带单元中获得的范数值，以整数为单位或以分数为单位来分配比特。另外，比特分配器516可通过使用每个子频带单元中获得的范数值来计算掩蔽阈值，并通过使用掩蔽方法来估计感知上需要的比特数，即，可容许的比特数。比特分配器516可限制被分配的比特数不超过每个子频带所容许的比特数。比特分配器516可从具有较大范数值的子频带开始顺序地分配比特，并且根据每个子频带的感知重要性对每个子频带的范数值进行加权以调节被分配的比特数，使得更多比特数被分配到在感知上重要的子频带。从能量编码器514提供到比特分配器516的量化范数值可在预先调整以考虑如ITU-T G.719标准中的心理声学加权和掩蔽效应之后用于进行比特分配。

频谱编码器517可通过使用分配给每个子频带的比特数来对归一化的频谱进行量化，并对量化结果进行无损编码。例如，可使用TCQ、USQ、FPC、 AVQ和PVQ或它们的组合和针对每个量化器被优化的无损编码器进行频谱编码。另外，还可使用网格编码进行频谱编码，但频谱编码不限于此。此外，还可根据用于对应编解码器被使用的环境或用户需求来使用各种频谱编码方法。关于由频谱编码器517编码的频谱的信息可由复用器518包括在比特流中。

图6是根据示例性实施例的频域音频编码设备的框图。

图6中示出的频域音频编码设备600可包括预处理器610、频域编码器 630、时域编码器650和复用器670。频域编码器630可包括瞬态检测器631、变换器633和频谱编码器635。这些组件可被集成在至少一个模块中并且可被实现为至少一个处理器(未示出)。

参照图6，预处理器610可对输入信号执行滤波、下采样等，但不限于此。预处理器610可根据信号特性来确定编码模式。预处理器610可根据信号特性来确定适合于当前帧的编码模式是语言模式还是音乐模式，并且还可确定对于当前帧有效的编码模式是时域模式还是频域模式。可通过使用帧的短期特性或多个帧的长期特性来感知信号特性，但不限于此。例如，如果输入信号对应于语言信号，则可确定编码模式是语言模式或时域模式，而如果输入信号对应于除了语言信号外的信号(即，音乐信号或混合信号)，则可确定编码模式是音乐模式或频域模式。预处理器610可在信号特性对应于音乐模式或频域模式时将输入信号提供到频域编码器630，并且可在信号特性对应于语言模式或时域模式时将输入信号提供到时域编码器660。

频域编码器630可基于变换编码方案来处理从预处理器610提供的音频信号。详细地，瞬态检测器631可从音频信号检测瞬态分量，并确定当前帧是否对应于瞬态帧。变换器633可基于帧类型(即，从瞬态检测器631提供的瞬态信息)来确定变换窗口的长度或形状，并且可基于确定的变换窗口将音频信号变换成频域。可使用修正离散余弦变换(MDCT)、快速傅里叶变换 (FFT)或调制重叠变换(MLT)作为变换工具的示例。一般地，短变换窗口可应用于包括瞬态分量的帧。频谱编码器635可对被变换成频域的音频频谱执行编码。以下，将参照图7和图9更详细地描述频谱编码器635。

时域编码器650可对从预处理器610提供的音频信号执行码激励线性预测(CELP)编码。详细地，可使用代数CELP进行CELP编码，但CELP编码不限于此。

复用器670可对作为在频域编码器630或时域编码器650中进行编码的结果而产生的频谱分量或信号分量以及可变索引进行复用，以产生比特流。比特流可被存储在存储介质中或者可通过信道以分组形式进行发送。

图7是根据示例性实施例的频谱编码设备的框图。图7中示出的频谱编码设备可对应于图6的频谱编码器635，可被包括在另一个频域编码设备中，或者可独立地实现。

图7中示出的频谱编码设备可包括能量估计器710、能量量化和编码单元720、比特分配器730、频谱归一化器740、频谱量化和编码单元750和噪声填充器760。

参照图7，能量估计器710可将原始频谱系数划分成多个子频带并且估计每个子频带的能量(例如，范数值)。每个子频带可在帧中具有统一长度。当每个子频带具有非统一长度时，从低频频带向高频频带，子频带中包括的频谱系数的数量会增加。

能量量化和编码单元720可对估计的每个子频带的范数值进行量化和编码。范数值可通过可变工具(诸如，矢量量化(VQ)、标量量化(SQ)、网格编码量化(TCQ)、点阵矢量量化(LVQ)等)被量化。能量量化和编码单元720可额外执行无损编码，以进一步增加编码效率。

比特分配器730可基于量化的每个子频带的范数值，在考虑到帧的可容许的比特的情况下分配编码所需的比特。

频谱归一化器740可基于针对每个子频带所获得的范数值对频谱进行归一化。

频谱量化和编码单元750可基于分配给每个子频带的比特对归一化的频谱进行量化和编码。

噪声填充器760可将噪声添加到在频谱量化和编码单元750中由于可容许的比特的限制而被量化成零的分量中。

图8示出子频带划分的示例。

参照图8，当输入信号使用48KHz的采样频率并且具有20ms的帧长度时，每个帧的待处理的样点数量是960个。也就是说，当通过使用50％重叠的MDCT来对输入信号进行变换时，获得960个频谱系数。可根据编码方案可变地设置重叠的比率。在频域中，理论上可处理高达24KHz的频带，并且在考虑到可听范围的情况下可表现高达20KHz的频带。在0至3.2KHz的低频带中，子频带包括8个频谱系数。在3.2至6.4KHz的频带中，子频带包括 16个频谱系数。在6.4至13.6KHz的频带中，子频带包括24个频谱系数。在13.6至20KHz的频带中，子频带包括32个频谱系数。对于编码设备中设置的预定频带，可执行基于范数值的编码，对于高于所述预定频带的高频带，可应用基于可变方案(诸如，频带扩展)的编码。

图9是根据示例性实施例的频谱量化和编码设备900的框图。图9的频谱量化和编码设备900可对应于图7的频谱量化和编码单元750，可被包括在另一个频域编码设备中，或者可被独立地实现。

图9的频谱量化和编码设备900可包括编码方法选择器910、零编码器 930、系数编码器950、量化分量重构器970和逆缩放器990。系数编码器950 可包括缩放器951、重要频谱分量(ISC)选择器952、位置信息编码器953、 ISC收集器954、大小信息编码器955和符号信号编码器956。

参照图9，编码方法选择器910可基于分配给每个频带的比特来选择编码方法。可基于针对每个频带选择的编码方法将归一化的频谱提供到零编码器930或系数编码器950。

零编码器930可针对分配的比特是0的频带，将所有样点编码成0。

系数编码器950可通过使用针对分配的比特不是0的频带所选择的量化器来执行编码。详细地，系数编码器950可针对归一化的频谱以频带为单位选择重要频谱分量，并且基于数量、位置、大小和符号来对针对每个频带选择的重要频谱分量的信息进行编码。可通过与对数量、位置和符号进行编码的方案不同的方案对重要频谱分量的大小进行编码。例如，可通过使用从USQ 和TCQ中选择的一种来对重要频谱分量的大小进行量化和算术编码，并且可通过算术编码对重要频谱分量的数量、位置和符号进行编码。当确定特定频带包括重要信息时，可使用USQ，否则可使用TCQ。根据示例性实施例，可基于信号特性，选择TCQ和USQ中的一种。这里，信号特性可包括每个频带的长度或分配给每个频带的比特数。例如，当被分配给频带中包括的每个样点的平均比特数等于或大于阈值(例如，0.75)时，可确定对应频带包括非常重要的信息，因此，可使用USQ。另外，在频带的长度短的低频带中，可根据此情况来使用USQ。

缩放器951可基于分配给频带的比特数对归一化的频谱执行缩放，以控制比特率。缩放器951可通过考虑对每个频谱系数(即，频带中包括的每个样点)的平均比特分配来执行缩放。例如，随着平均比特分配变大，可执行更多缩放。

ISC选择器952可基于预定基准，从缩放后的频谱中选择ISC以控制比特率。ISC选择器952可从缩放后的频谱分析缩放度，并且获得实际非零位置。这里，ISC可对应于缩放之前的实际非零频谱系数。ISC选择器952可基于对每个频带的比特分配，在考虑到频谱系数的分布和方差的情况下，选择将要编码的频谱系数(即，非零位置)。可使用TCQ来选择ISC。

位置信息编码器953可对通过ISC选择器952选择的ISC的位置信息 (即，非零频谱系数的位置信息)进行编码。位置信息可包括所选择的ISC 的数量和位置。可使用算术编码对位置信息进行编码。

ISC收集器954可收集所选择的ISC来构造新缓冲器。在收集ISC时将零频带和未选择的频谱排除在外。

大小信息编码器955可对新构造的ISC的大小信息执行编码。在这种情况下，可通过使用从TCQ和USQ选择的一种来执行量化，并且可额外执行算术编码。为了提高算术编码的效率，可使用ISC的非零位置信息和数量进行算术编码。

符号信息编码器956可对所选择的ISC的符号信息执行编码。可使用算术编码对符号信息进行编码。

量化分量重构器970可基于与ISC的位置、大小和符号有关的信息来恢复真实量化的分量。这里，0可被分配给零位置，即，编码成0的频谱系数。

逆缩放器990可对重构的量化分量执行逆缩放，以输出具有与归一化的频谱的级别相同的级别的量化频谱系数。缩放器951和逆缩放器990可使用相同缩放因子。

图10是示出ISC收集操作的示图。首先，将零频带(即，将被量化成0 的频带)排除在外。接下来，可通过使用从非零频带中存在的频谱分量之中选择的ISC来构造新缓冲器。可以以频带为单位对新构造的ISC执行USQ或 TCQ，并且可执行对应于此的无损编码。

图11示出应用于示例性实施例的TCQ的示例，并且对应于具有2个零级别(2-Zerolevel)的8状4陪集网格结构。在第7,605,727号美国专利中公开了对TCQ的详细描述。

图12是根据示例性实施例的频域音频解码设备的框图。

图12中示出的频域音频解码设备1200可包括帧错误检测器1210、频域解码器1230、时域解码器1250和后处理器1270。频域解码器1230可包括频谱解码器1231、存储器更新单元1233、逆变换器1235和重叠相加(OLA) 单元1237。这些组件可被集成在至少一个模块中并且可被实现为至少一个处理器(未示出)。

参照图12，帧错误检测器1210可从接收到的比特流检测是否出现了帧错误。

频域解码器1230可在编码模式是音乐模式或频域模式时进行操作，并且在没有出现帧错误时，通过一般的变换解码处理来产生时域信号，而在出现帧错误时，通过帧错误隐藏算法或分组丢失隐藏算法来产生时域信号。详细地，频谱解码器1231可通过基于解码后的参数执行频谱解码来合成频谱系数。以下，将参照图13和图14更详细地描述频谱解码器1033。

存储器更新单元1233可针对下一帧，相对于作为好帧的当前帧来更新合成的频谱系数、使用解码的参数而获得的信息、截至目前已经连续出现的错误帧的数量、关于每个帧的信号特性或帧类型的信息等。信号特性可包括瞬态特性或稳态特性，帧类型可包括瞬态帧、稳态帧或谐波帧。

逆变换器1235可通过对合成的频谱系数执行时间-频率逆变换来产生时域信号。

OLA单元1237可通过使用先前帧的时域信号来执行OLA处理，作为 OLA处理的结果产生当前帧的最终时域信号，并且将最终时域信号提供到后处理器1270。

时域解码器1250可在编码模式是语言模式或时域模式时进行操作，在没有出现帧错误时，通过执行一般的CELP解码处理来产生时域信号，而在出现帧错误时，通过执行帧错误隐藏算法或分组丢失隐藏算法来产生时域信号。

后处理器1270可针对从频域解码器1230或时域解码器1250提供的时域信号执行滤波、上采样等，但不限于此。后处理器1270提供重构后的音频信号作为输出信号。

图13是根据示例性实施例的频谱解码设备的框图。

图13中示出的频谱解码设备1300可包括能量解码和反量化单元1310、比特分配器1330、频谱解码和反量化单元1350、噪声填充器1370和频谱成形单元1390。噪声填充器1370可在频谱成形单元1390的后端。这些组件可被集成在至少一个模块中并且可被实现为至少一个处理器(未示出)。

参照图13，能量解码和反量化单元1310可对在编码过程中被执行无损失编码的参数(例如，诸如范数值的能量)执行无损解码并且对解码的范数值进行反量化。在编码过程中，可使用各种方法(例如，矢量量化(VQ)、标量量化(SQ)、网格编码量化(TCQ)、点阵矢量量化(LVQ)等)中的一种对范数值进行量化，在解码过程中，可使用对应方法对范数值进行反量化。

比特分配器1330可基于量化的范数值或反量化的范数值来分配子频带单元中所需的比特。在这种情况下，子频带单元中分配的比特数可与编码过程中分配的比特数相同。

频谱解码和反量化单元1350可通过基于子频带单元中分配的比特数对编码的频谱系数执行无损解码并对解码的频谱系数进行反量化来产生归一化的频谱系数。

噪声填充器1370可在归一化的频谱系数之中的需要在子频带单元中填充噪声的部分中填充噪声。

频谱成形单元1390可通过使用反量化的范数值将归一化的频谱系数成形。可通过频谱成形过程来获得最终解码的频谱系数。

图14是根据示例性实施例的频谱解码和反量化设备1400的框图。图14 的频谱解码和反量化设备1400可对应于图13的频谱解码和反量化设备1350，可被包括在另一个频域解码设备中，或者可被独立地实现。

图14的频谱解码和反量化设备1400可包括解码方法选择器1410、零解码器1430、系数解码器1450、量化分量重构器1470和逆缩放器1490。系数解码器1450可包括位置信息解码器1451、大小信息解码器1453和符号信号解码器1455。

参照图14，解码方法选择器1410可基于针对每个频带的比特分配来选择解码方法。可基于针对每个频带选择的解码方法将归一化的频谱提供到零解码器1430或系数解码器1450。

零解码器1430可针对分配的比特是0的频带，将所有样点解码成0。

系数解码器1450可通过使用针对分配的比特不是0的频带而选择的量化器来执行解码。系数解码器1450可针对编码的频谱以频带为单位获得重要频谱分量的信息，并且基于数量、位置、大小和符号对获得的重要频谱分量的信息进行解码。可通过与对数量、位置和符号进行解码的方案不同的方案来对重要频谱分量的大小进行解码。例如，可通过使用从USQ和TCQ中选择的一种来对重要频谱分量的大小进行算术解码和反量化，并且可针对重要频谱分量的数量、位置和符号执行算术解码。可通过使用与图9的系数编码器 950相同的结果来执行对反量化器的选择。系数解码器1450可通过使用从 USQ和TCQ中选择的一种来对分配的比特不是0的频带进行反量化。

位置信息解码器1451可对与比特流中包括的位置信息关联的索引进行解码，以恢复ISC的数量和位置。可使用算术解码来对位置信息进行解码。大小信息解码器1453可对与比特流中包括的大小信息关联的索引执行算术解码，并且通过使用从USQ和TCQ中选择的一种来对解码的索引进行反量化。可使用ISC的非零位置信息和数量来提高算术解码的效率。符号信息解码器1455可对与比特流中包括的符号信息关联的索引进行解码来恢复ISC的符号。可使用算术解码来对符号信息进行解码。根据示例性实施例，可估计非零频带所必需的脉冲的数量，并且可将该数量用于对大小信息或符号信息进行解码。

量化分量重构器1470可基于与恢复的ISC的位置、大小和符号有关的信息来恢复实际量化分量。这里，0可被分配到零位置，即，作为被解码成0 的频谱系数的未量化部分。

逆缩放器1490可对恢复的量化分量执行逆缩放，以输出具有与归一化的频谱的级别相同的级别的量化频谱系数。

图15是根据示例性实施例的包括编码模块的多媒体装置的框图。

参照图15，多媒体装置1500可包括通信单元1510和编码模块1530。另外，多媒体装置1500还可包括存储单元1550，其中，存储单元1550用于根据作为编码结果得到的音频比特流的使用来存储音频比特流。此外，多媒体装置1500还可包括麦克风1570。也就是说，可以可选地包括存储单元1550 和麦克风1570。多媒体装置1500还可包括任意解码模块(未示出)，例如，用于执行一般解码功能的解码模块或根据示例性实施例的解码模块。解码模块1530可通过与与多媒体装置1500中包括的其他组件(未示出)集成为一体而用至少一个处理器(未示出)来实现。

通信单元1510可接收从外部提供的音频信号或编码比特流中的至少一个，或者可发送重构的音频信号或作为在编码模块1530中编码的结果而获得的编码比特流中的至少一个。

通信单元1510被构造成通过无线网络(诸如，无线互联网、无线内联网、无线电话网、无线局域网(LAN)、Wi-Fi、Wi-Fi直连(WFD)、第三代(3G)、第四代(4G)、蓝牙、红外数据协会(IrDA)、射频识别(RFID)、超带宽(UWB)、 Zigbee或近场通信(NFC))或有线网络(诸如有线电话网或有线互联网)将数据发送到外部多媒体装置或服务器并且从外部媒体装置或服务器接收数据。

根据示例性实施例，编码模块1530可基于数量、位置、大小和符号，针对归一化频谱以频带为单位选择ISC，并对针对每个频带选择的重要频谱分量的信息进行编码。可通过与对数量、位置和符号进行编码的方案不通过的方案来对重要频谱分量的大小进行编码。例如，可通过使用从USQ和TCQ 中选择的一种来对重要频谱分量的大小进行量化和算术编码，并且可通过算术编码将重要频谱分量的数量、位置和符号进行编码。根据示例性实施例，编码模块1530可基于针对每个频带的比特分配来对归一化的频谱执行缩放，并从缩放后的频谱中选择ISC。

存储单元1550可存储由编码模块1530产生的编码的比特流。另外，存储单元1550存储操作多媒体装置1500所需的各种程序。

麦克风1570可将来自用户或外部的音频信号提供到编码模块1530。

图16是根据示例性实施例的包括解码模块的多媒体装置的框图。

参照图16，多媒体装置1600可包括通信单元1610和解码模块1630。另外，根据作为解码结果而获得的重构音频信号的使用，多媒体装置1600还可包括用于存储重构音频信号的存储单元1650。另外，多媒体装置1600还可包括扬声器1670。也就是说，可以可选地包括存储单元1650和扬声器1670。多媒体装置1600还可包括编码模块(未示出)，例如，用于执行一般编码功能的编码模块或根据示例性实施例的编码模块。解码模块1630可通过与多媒体装置1600中包括的其他组件(未示出)集成为一体而用至少一个处理器(未示出)来实现。

通信单元1610可接收从外部提供的音频信号或编码的比特流中的至少一个，或者可发送作为在解码模块1630中解码的结果而获得的重构的音频信号或作为编码结果而获得的音频比特流中的至少一个。可与图15的通信单元 1510基本上类似地实现通信单元1610。

根据示例性实施例，解码模块1630可接收通过通信单元1610提供的比特流，并且针对编码的频谱以频带为单位获得重要频谱分量的信息，并基于数量、位置、大小和符号来对获得的重要频谱分量信息的信息进行解码。可通过与对数量、位置和符号进行解码的方案不同的方案来对重要频谱分量的大小进行解码。例如，可通过使用从USQ和TCQ中选择的一种来对重要频谱分量的大小进行算术解码和反量化，并且可针对重要频谱分量的数量、位置和符号执行算术解码。

存储单元1650可存储由解码模块1630产生的重构的音频信号。另外，存储单元1650可存储操作多媒体装置1600所需的各种程序。

扬声器1670可向外部输出由解码模块1630产生的重构的音频信号。

图17是根据示例性实施例的包括编码模块和解码模块的多媒体装置的框图。

参照图17，多媒体装置1700可包括通信单元1710、编码模块1720和解码模块1730。另外，多媒体装置1700还可包括存储单元1740，存储单元1740 用于根据作为编码的结果而获得的音频比特流或作为解码的结果而获得的重构的音频信号的使用来存储音频比特流或重构的音频信号。另外，多媒体装置1700还可包括麦克风1750和/或扬声器1760。编码模块1720和解码模块 1730可通过与多媒体装置1700中包括的其他组件(未示出)集成为一体而用至少一个处理器(未示出)来实现。

由于图17中示出的多媒体装置1700的组件对应于图15中示出的多媒体装置1500的组件或图16中示出的多媒体装置1600的组件，因此省略了对其的详细描述。

图15、图16和图17中示出的多媒体装置1500、1600和1700中的每一个可包括语音通信专用终端(诸如，电话或移动电话)、广播或音乐专用装置 (诸如，TV或MP3播放器)、或语音通信专用终端和广播或音乐专用装置的混合型终端装置，但不限于此。另外，可使用多媒体装置1500、1600和1700 中的每一个作为客户端、服务器、或布置在客户端和服务器之间的换能器。

当多媒体装置1500、1600或1700是例如移动电话时，尽管未示出，但多媒体装置1500、1600或1700还可包括用户输入单元(诸如，键盘)、用于显示通过用户接口或移动电话处理的信息的显示单元、以及用于控制移动电话的功能的处理器。另外，移动电话还可包括具有图像拾取功能的相机单元和用于执行移动电话所需的功能的至少一个组件。

当多媒体装置1500、1600或1700是例如TV时，尽管未示出，但多媒体装置1500、1600或1700还可包括用户输入单元(诸如，键盘)、用于显示接收到的广播信息的显示单元、以及用于控制TV的所有功能的处理器。另外，TV还可包括用于执行TV的功能的至少一个组件。

上述示例性实施例可被编写为计算机可执行程序并且可在使用非暂态计算机可读记录介质来执行程序的通用数字计算机中实现。另外，可在实施例中使用的数据结构、程序指令或数据文件可按各种方式被记录在非暂态计算机可读记录介质上。非暂态计算机可读记录介质是可存储此后可由计算机系统读取的数据的任何数据存储装置。非暂态计算机可读记录介质的示例包括专门被构造为存储和执行程序指令的磁性存储介质(诸如硬盘、软盘和磁带)、光学记录介质(诸如CD-ROM和DVD)、磁-光介质(诸如光盘)、以及硬件装置(诸如ROM、RAM和闪存存储器)。另外，非暂态计算机可读记录介质可以是用于传输指定程序指令、数据结构等的信号的传输介质。程序指令的示例可不仅包括由编译器创建的机器语言代码，而且包括计算机能使用翻译器等执行的高级语言代码。

虽然已经具体示出和描述了示例性实施例，但本领域的普通技术人员应该理解，可在不脱离由随附权利要求定义的本发明构思的精神和范围的情况下对实施例进行形式和细节上的各种改变。应该理解，这里描述的示例性实施例应该仅以描述含义考虑，而非出于限制的目的。对每个示例性实施例内的特征或方面的描述通常应该被视为可用于其他示例性实施例中的其他类似特征或方面。

Claims

1.一种音频信号的频谱编码方法，所述频谱编码方法包括：

如果对一频带的比特分配是非零，则选择归一化的频谱的所述频带中的至少一个重要频谱分量；以及

基于所述频带的选择的重要频谱分量的数量、位置、大小和符号，对所述选择的重要频谱分量的信息进行编码，

其中，所述选择的重要频谱分量的大小的信息是通过使用网格编码量化和统一标量量化中的一种进行量化并通过进行算术编码而被编码的，

其中，所述选择的重要频谱分量的数量、位置和符号的信息是通过算术编码而被编码的，

其中，如果对所述频带的比特分配是零，则所述频带中包括的所有样点被编码为零。

2.根据权利要求1所述的方法，还包括：基于对所述频带的比特分配来对所述归一化的频谱执行缩放，其中，选择的步骤包括：从缩放后的频谱选择重要频谱分量。

3.根据权利要求1所述的方法，其中，网格编码量化使用具有2个零级别的8态4陪集网格结构。

4.一种音频信号的频谱解码方法，包括：

如果对一频带的比特分配是非零，则从比特流获得与编码频谱的所述频带的至少一个重要频谱分量有关的信息；以及

基于所述至少一个重要频谱分量的数量、位置、大小和符号，对获得的所述至少一个重要频谱分量的信息进行解码，

其中，所述至少一个重要频谱分量的大小的信息是通过使用网格编码量化和统一标量量化中的一种进行反量化并通过进行算术解码而被解码的，

其中，所述至少一个重要频谱分量的数量、位置和符号的信息是通过算术解码而被解码的，以及

其中，如果对所述频带的比特分配是零，则所述频带中包括的所有样点被解码为零。

5.根据权利要求4所述的方法，其中，网格编码量化使用具有2个零级别的8态4陪集网格结构。