CN110291583B

CN110291583B - 用于音频编解码器中的长期预测的系统和方法

Info

Publication number: CN110291583B
Application number: CN201780066712.5A
Authority: CN
Inventors: E·奈米尔; Z·菲左; J·斯塔楚尔斯基; A·考克
Original assignee: DTS Inc
Current assignee: DTS Inc
Priority date: 2016-09-09
Filing date: 2017-09-08
Publication date: 2023-06-16
Anticipated expiration: 2037-09-08
Also published as: JP7123911B2; KR102569784B1; EP3510595A4; US11380340B2; US20180075855A1; JP2019531505A; KR20190045327A; CN110291583A; WO2018049279A1; EP3510595A1

Abstract

用于估计和应用最优长期预测器的频域长期预测系统和方法。该系统和方法的实施例包括使用具有基于频谱平坦度测度的最优化准则的频域分析来确定单抽头预测器的参数。该系统和方法的实施例还包括通过考虑矢量量化器在量化各子带中的性能来确定长期预测器的参数。在一些实施例中，还使用其他编码器度量(诸如信号音调)。该系统和方法的其他实施例包括通过考虑一些解码器操作来确定长期预测器的最优参数。该系统和方法的其他实施例包括通过将1抽头预测器与预置滤波器卷积并基于最小能量准则从这样的预置滤波器的表中进行选择，将1抽头预测器扩展到k阶预测器。

Description

用于音频编解码器中的长期预测的系统和方法

背景技术

通过利用音频信号的冗余来增加编码增益是音频编解码器中的基本概念。音频信号表现出不同程度的冗余，包括长期冗余(或周期性)和短期冗余，这主要在语音信号中找到。图1示出了音频信号的长期和短期预测背后的概念。去除或减少这种冗余导致对残留信号进行编码所需的比特数减少(与对原始信号进行编码相比)。语音编解码器通常包括预测器，以消除这两种类型的冗余并最大化编码增益。基于变换的编解码器是针对一般音频信号而设计的，并且通常不对其起源做出任何假设。它们主要关注长期冗余。在变换编解码器中，残差信号产生具有较低能量且较稀疏的变换矢量。这使得量化方案更容易高效地表示变换系数。

发明内容

提供本发明内容是为了以简化的形式介绍概念汇集，这些概念将在下面的具体实施方式中被进一步描述。本发明内容并不意图标识所要求保护的主题的关键特征或必要特征，也不意图被用于限制所要求保护的主题的范围。

本文描述的频域长期预测系统和方法的实施例包括用于在音频编解码器的上下文中估计和应用最优长期预测器的新颖技术。特别地，该系统和方法的实施例包括使用具有基于频谱平坦度测度的最优化准则的频域分析来确定单抽头预测器的参数(诸如滞后(Lag)和增益(Gain))。该系统和方法的实施例还包括通过考虑矢量量化器的在量化各个子带中的性能来确定长期预测器的参数。换句话说，通过将矢量量化误差与频谱平坦度组合。在一些实施例中，还使用其他编码器度量(诸如信号音调)。该系统和方法的其他实施例包括通过考虑一些解码器操作(例如预测器和合成滤波器的重构误差)来确定长期预测器的最优参数。在一些实施例中，这是替代全分析合成(如在一些经典方法中)而执行的。该系统和方法的其他实施例包括通过将1抽头预测器与预置滤波器卷积并基于最小能量准则从这样的预置滤波器的表中进行选择来将1抽头预测器扩展到k阶预测器。

实施例包括用于对音频信号进行编码的音频编码系统。该系统包括长期线性预测器，该长期线性预测器具有用于对音频信号进行滤波的自适应滤波器和由自适应滤波器使用的自适应滤波器系数。基于音频信号的加窗时间信号的分析来确定自适应滤波器系数。该系统的实施例还包括：频率变换单元，其在频域中表示加窗时间信号以获得音频信号的频率变换；以及最优长期预测器估计单元，其基于频率变换的分析和频域中的最优化准则来估计最优长期线性预测器。该系统的实施例还包括量化单元，其对要编码的加窗帧的频率变换系数进行量化，以生成经量化的频率变换系数；以及包含经量化的频率变换系数的编码信号。编码信号是音频信号的表示。

实施例还包括用于对音频信号进行编码的方法。该方法包括使用长期线性预测器对音频信号进行滤波，其中长期线性预测器是自适应滤波器，并且产生音频信号的频率变换。频率变换表示频域中的加窗时间信号。该方法还包括基于频率变换的分析和频域中的最优化准则来估计最优长期线性预测器，以及量化要编码的加窗帧的频率变换系数以产生经量化的频率变换系数。该方法还包括构建包含经量化的频率变换系数的编码信号，其中编码信号是音频信号的表示。

其他实施例包括用于在音频信号的编码期间将1抽头预测滤波器扩展到k阶预测滤波器的方法。此方法包括将1抽头预测滤波器与从包含预先计算的滤波器形状的预测滤波器形状表中选择的滤波器形状进行卷积，以获得所得到的k阶预测滤波器。该方法还包括在音频信号上运行所得到的k阶预测滤波器以获得输出信号，并且计算所得到的k阶预测滤波器的输出信号的能量。该方法还包括从所述表中选择最小化所述输出信号的能量的最优滤波器形状，并且将包含所述最优滤波器形状的所得到的k阶预测滤波器应用于音频信号。

应当注意，替代实施例是可能的，并且取决于特定实施例，可以改变、添加或消除这里讨论的步骤和元件。在不脱离本发明的范围的情况下，这些替代实施例包括可以使用的替代步骤和替代元件，以及可以进行的结构改变。

附图说明

现在参考附图，其中相同的附图标记表示相应的部件：

图1示出了音频信号的长期和短期预测背后的概念。

图2是示出开环方法的总体操作的框图。

图3是示出闭环方法的总体操作的框图。

图4是示出基于变换的音频编解码器中的长期预测器的示例性使用的框图。

图5示出了闭环架构的示例性示例。

图6示出了谐波音频信号的片段的时间和频率变换。

图7是频域长期预测系统和方法的实施例的总体框图。

图8是频域长期预测方法的实施例的总体流程图。

图9是频域长期预测方法的其他实施例的总体流程图，该方法使用基于频率的准则与其他编码器度量的组合。

图10示出了替代实施例，其中基于频率的频谱平坦度可以与考虑了解码器处的重构误差的其他因素组合。

图11示出了执行图10中所示实施例的一部分的操作的时间上连续的两个帧。

图12示出了将单抽头预测器转换为三阶预测器。

具体实施方式

在以下参考附图对频域长期预测系统和方法的实施例进行描述。这些附图通过图示的方式示出了如何实施频域长期预测系统和方法的实施例的具体示例。应当理解，在不背离所要求保护的主题的范围的情况下，可以利用其他实施例并且可以进行结构改变。

一、概述

在经典方法中，预测器系数通过时域分析被确定。这通常涉及最小化残差信号的能量。这转化为在给定分析时间窗口上搜索最大化归一化自相关函数的滞后(L)。求解矩阵方程组得到预测器增益。矩阵的大小是滤波器的阶数(k)的函数。为了减小矩阵的大小，通常假设侧抽头是对称的。例如，这会将矩阵大小从大小-3减小到大小-2或从大小-5减小到大小-3。

在实际的音频编解码器中，基于时域自相关方法估计滞后(或信号的周期性)需要特别小心。这些技术的一些常见问题是间距翻倍和间距减半。这些会对感知性能或编码增益产生重大影响。为了减轻这些缺陷，常常采用许多替代方法和启发法。包括，例如使用倒谱分析或穷举搜索所有可能的倍数。对于高阶预测器，估计多个抽头需要逆矩阵运算，但实际上并不能保证。因此，常常希望仅估计中心抽头(L)，然后找到基于某些最优化准则从有限集合中选择侧抽头的方法。

开环与闭环架构

在开环方法中，预测器的估计是通过分析原始(未编码)信号来完成的。图2是示出开环方法的总体操作的框图。该方法输入原始音频信号200并执行原始音频信号的分析(框210)。接下来，基于一些准则选择最优长期预测器(LTP)参数(框220)。这些所选参数被应用于信号(框230)，并且结果信号被编码并发送出去(框240)。结果信号是编码音频信号250，其是原始音频信号200的编码表示。

在闭环方法中，编码器复制解码器的一些或所有操作，并对于每个可能的参数选择重新合成信号。图3是示出闭环方法的总体操作的框图。类似于开环方法，闭环方法输入原始音频信号200并执行原始音频信号的分析(框300)。该分析包括模拟或模仿对应于编码器的解码器(框310)。基于一些准则选择最优长期预测器(LTP)参数(框320)，并且将这些所选参数应用于信号(框330)。最优长期预测器参数的选择基于哪些参数使得“解码”信号和原始音频信号200之间的感知加权误差最小。结果信号被编码并发送出去(框340)。结果信号是编码音频信号350，其是原始音频信号200的编码表示。

基于变换的音频编解码器中的长期预测器

基于变换的音频编解码器通常使用修正离散余弦变换(MDCT)或其他类型的频率变换来编码和量化给定的音频帧。这里使用的短语“基于变换”还包括基于子带或基于重叠变换的编解码器。如本领域技术人员将理解的，这些中的每一个都涉及某种形式的频率变换，但可以有或没有窗口重叠。

图4是示出基于变换的音频编解码器中的长期预测器的示例性使用的框图。在加窗和频率变换之前，将长期预测器应用于时域信号。参考图4，基于变换的音频编解码器400包括编码器405和解码器410。编码器405接收对应于音频信号的输入样本412。时间相关分析块415估计音频信号的周期性。可以对信号执行其他时域处理417，例如高通滤波。

基于时间相关分析块415的分析，通过最优参数估计块420估计长期预测器的最优参数。输出该估计的长期预测器422。长期预测器是滤波器，并且这些参数可以被应用于来自时域处理块417的数据。

加窗函数425和各种变换(诸如MDCT 427)被应用于信号。量化器430使用各种标量和矢量量化技术来量化预测器参数和MDCT系数。该量化数据被准备并被从编码器405输出作为比特流435。

比特流435被发送到解码器410，在解码器410中进行与编码器405相反的操作。解码器包括恢复量化数据的逆量化器440。这包括逆MDCT系数450和转换到时域的预测参数。加窗455被应用于信号，并且长期合成器460被应用于信号，长期合成器460是编码器405侧的长期预测器的逆滤波器。逆时域处理块465对由编码器405处的时域处理块417执行的任何滤波执行逆处理。解码器410的输出是对应于解码的输入音频信号的输出样本470。该解码的音频信号可以通过扬声器或耳机被回放。

在开环架构中，最优预测器的估计是基于对时间信号的一些分析并且可能考虑了来自编码器的其他度量而完成的。基于最大化原始时间信号的归一化自相关来估计滞后(L)。此外，预测滤波器包含2个抽头(B1和B2)，它们是基于L和L+1处的自相关值的函数被估计的。还可以提供各种其他细节，例如时间信号的中心削波等。

开环架构的另一个例子是使用术语前置滤波器和后置滤波器分别用于指代长期预测滤波器和合成滤波器。这种方法中的不同之处在于从编码器和解码器的其余部分中去除了长期预测器(估计和滤波两者)。因此，参数的估计独立于编码器的操作模式，并且仅基于原始时间信号的分析。长期预测滤波器(被称为前置滤波器)的输出被发送到编码器。编码器可以是任何类型并以任何比特率运行。类似地，解码器的输出被发送到长期预测合成滤波器(称为后置滤波器)，其独立于解码器操作模式操作。

在闭环体系结构中，解码器操作的一些(或全部)部分在编码器处被复制，以便提供成本函数或优化函数的更准确的估计。基于一些最大化准则来计算预测器系数。此外，使用反馈循环来基于综合分析方法改进选择。图5示出了闭环架构的一个示例。这种方法是在编码器处重新构件全部逆量化和逆频率变换，以便重新合成时间样本(解码器将产生的)。然后将这些样本用于LTP系数的最优估计。

参照图5，基于闭环架构的编解码器500。该编解码器包括编码器510和解码器520。模拟解码器525用于反馈循环中以在编码器510侧复制解码器520。该模拟解码器525包括生成频率系数的逆量化块530。然后，通过频率到时间块535将这些系数转换回时域。块535的输出是解码时间样本。最优参数估计块540将解码时间样本与输入时间样本550进行比较。然后，块540生成最优的一组长期预测器参数组555，其最小化输入时间样本540和解码时间样本之间的误差。

加窗函数560将窗口应用于时间信号，并且时间到频率块565将信号从时域变换到频域。量化块570使用各种标量和矢量量化技术来量化预测器参数和频率系数。该量化数据被准备并从编码器510输出。

解码器520包括恢复量化数据的逆量化块580。该量化数据(诸如频率系数和预测参数)由频率到时间块585转换到时域。长期合成器590被应用于该信号，该长期合成器590是针对编码器510侧的长期预测器的逆滤波器。

II.系统和操作概述

本文描述的频域长期预测系统和方法的实施例包括用于在音频编解码器的上下文中估计和应用最优长期预测器的技术。在变换编解码器中，频率变换(例如MDCT)的系数(而不是时域样本)是被矢量量化的系数。因此，适合在变换域中搜索最优预测器，并且基于改进这些系数的量化的准则。

频域长期预测系统和方法的实施例包括使用各个子带的频谱平坦度作为准则或测度。在典型的编解码器中，根据一些对称或感知尺度将频谱划分为频带，并且基于最小均方误差(或最小mse)准则对每个频带的系数进行矢量量化。

音调音频信号的频谱具有明显的谐波结构，在各种音调频率处具有峰值。图6示出了谐波音频信号的片段的时间和频率变换。参考图6，第一曲线图600是音调音频信号的窗口(或片段)。第二曲线图610示出了第一曲线图600中所示的音调音频信号的对应频域幅度谱。第二曲线图610中的垂直虚线示出了在音频编码中通常使用的感知尺度上的典型频带的边界。

当每次考虑一个频带时，除了一些非谐波较小值之外，还可能存在一个或两个主要峰值。因此，频带的平坦度测度低。基于最小均方误差的矢量量化将有利于高峰值，因为这些对于误差范数的贡献大于较低值。取决于可用比特，VQ可能错过该频带中的较小系数，从而导致高量化噪声。

频域长期预测系统和方法的一些实施例至少基于最大化频谱带上的平坦度测度来选择长期预测器的最优滞后。类似地，在一些实施例中，针对给定最优滞后的预测器的增益考虑了矢量量化器的量化误差。这是基于以下观察：大的预测增益可能导致显著削弱较弱的频率系数。在低比特率中，特别是对于强谐波信号，这可能导致一些较弱的谐波被矢量量化器完全遗漏，导致感知到的谐波失真。因此，预测器的增益是至少根据矢量量化器的量化误差而得到的。

频域长期预测系统和方法的实施例包括用于在音频编解码器的上下文中估计和应用最优长期预测器的技术，详述如下。一些实施例使用频域分析确定单抽头预测器的滞后和增益参数。在这些实施例中，最优化准则是基于频谱平坦度测度的。一些实施例通过考虑矢量量化器在量化各个子带中的性能来确定长期预测器参数。换句话说，这些实施例将矢量量化误差与频谱平坦度以及其他编码器度量(诸如信号音调)组合。该系统和方法的一些实施例通过考虑包括预测器和合成滤波器的重构误差的一些解码器操作来确定长期预测器的最优参数。这样避免了如一些经典方法中那样进行全综合分析。一些实施例通过将1抽头预测器与预置滤波器卷积并基于最小能量准则从这样的预置滤波器的表中进行选择，将1抽头预测器扩展到k阶预测器。

III、系统和操作细节

现在将讨论频域长期预测系统和方法的细节。应当注意，许多变化是可能的，并且本领域普通技术人员基于本文的公开内容将看到可以实现相同结果的许多其他方式。

定义

在其基本形式中，预测误差信号由下式给出：

d(n)＝s(n)-bs(n-L)，

其中“s(n)”是输入音频信号，“L”是信号周期(或滞后(L))，“b”是预测器增益。

预测器可以表示为其传递函数由下式给出的滤波器：

H_LT-pre(z)＝1-bz^-L。

任何阶次(K)的通用形式可表示为：

基于频率的最优化准则

图7是频域长期预测系统700和方法的实施例的总体框图。系统700包括编码器705和解码器710。应该注意，图7中所示的系统700是音频编解码器。然而，该方法的其他实现是可能的，包括不是音频编解码器的其他类型的编解码器。

如图7所示，编码器705包括生成长期预测器的长期预测(LTP)块715。LTP块715包括时频分析块720，其对输入音频信号的输入样本722执行时频分析。时频分析涉及应用频率变换，例如ODFT，然后基于该频谱的一些子带划分来计算ODFT幅度谱的平坦度测度。

第一时域(TD)处理块724还使用输入样本722来执行输入样本722的时域处理。在一些实施例中，时域处理涉及使用预加重滤波器。第一矢量量化器726用于确定长期预测器的最优增益。该第一矢量量化器与第二矢量量化器730并行使用以确定最优增益。

系统700还包括确定长期预测器的系数的最优参数估计块735。该过程如下所述。该估计的结果是长期预测器740，其是给定阶次K的实际长期预测滤波器。

比特分配块745确定赋予每个子带的比特数。第一加窗块750在变换到频域之前将各种窗口形状应用于时间信号。修正离散余弦变换(MDCT)块755是典型编解码器中使用的用于将时间信号变换到频域的一种频率变换的示例。第二矢量量化器730将MDCT系数的矢量表示为取自码本的矢量(或一些其他紧凑表示)。

熵编码块760获取参数并将它们编码成编码比特流765。编码比特流765被发送到解码器710以进行解码。熵解码块770从编码比特流765中提取所有参数。逆矢量量化块772倒转编码器705的第一量化器726和第二矢量量化器730的处理。逆DCT块775是编码器705处使用的DCT块755的逆变换。

第二加窗块780执行类似于编码器705中使用的第一加窗块750的加窗功能。长期合成器785是长期预测器740的逆滤波器。第二时域(TD)处理块790与在编码器705处应用的处理相反(例如去加重)。解码器710的输出是对应于经解码的输入音频信号的输出样本795。该经解码的音频信号可以通过扬声器或耳机被回放。

图8是频域长期预测方法的实施例的总体流程图。图8阐述了为了生成长期预测器的最优参数而执行的各种操作。参考图8，操作开始于接收输入音频信号的输入样本800。接下来，奇DFT(odd-DFT，ODFT)变换被应用(框810)于信号的跨越'N'个点的加窗部分。变换定义为：

其中'k'和'n'分别是频率和时间索引，'N'是序列的长度。在应用变换之前，正弦窗口[1]被应用于时间信号：

该方法然后执行峰值拾取(框820)。峰值拾取包括识别幅度谱中的峰值，该峰值对应于时间信号中的正弦分量的频率。一种简单的峰值拾取方案包括定位高于一定高度的局部极大值，并对与相邻峰值的相对关系施加一定条件。给定的区段′lο′被认为是峰值，如果它是一个拐点：

|X(lo-1)|≤|X(lo)|≥|X(lo+1) (3)

超过某个阈值

|X(lo)|＞Thr (4)

并高于其相邻值：

|X(lo)|＞β·max{|X(lo-1)|，|X(lo+1)|} (5)

搜索信号的对应于频率间隔[50Hz：3kHz]的峰值。可以相对于X(k)的最大值来选择′Thr′的值。

下一个操作是分频估计(块830)。时域中的滞后′L′可以由频域中的对应峰值表示。一旦识别了峰值(区段中的′lo′)，就需要估计分频(′dl′)。有多种方法可以做到这一点。一种可能的方案是假设产生这个峰值的正弦曲线在时域中被建模为：

然后，通过使用下式考虑区段′lo′周围的幅度的比率来估计频率峰值(lo)的分频：

其中G是常数，其可以设置为固定值，或者根据数据被计算。

落在频率间隔[50Hz：3kHz]内的所有滞后(lo+dl)被考虑(块840)，并且它们的归一化自相关被计算。此计算基于时域等效滞后(L)：

其中/>

其中，x(n)是输入时间信号。归一化相关值大于给定阈值的那些滞后被保留，并成为候选滞后集合。

该方法继续进行，在频域中构建频率滤波器(或预测滤波器)(块850)。为了将滤波器(对于给定的时间滞后'L'和增益'b')应用于ODFT幅度点，导出该滤波器的频率响应函数。考虑单抽头预测器的z变换：

h(z)＝1-bz^-L (9)

其中z＝e^jω且

得到：

对于给定的频率峰值(区段中的“lo”)及其分频(dl)，时间滞后'U'可以用频率单位表示为：

因此，基于该峰值的预测滤波器的幅度响应是：

接下来，将滤波器应用于ODFT频谱(块860)。具体地，然后将上面计算的滤波器直接应用于ODFT频谱S(k)点，以产生新的经滤波的ODFT频谱X(k)。

X(k)＝|h(k)|·S(k)k＝0，...，K-1 (13).

该方法然后计算频谱平坦度测度(块870)。在将候选滤波器应用于原始频谱之后，在经滤波的频谱的ODFT幅度谱上计算频谱平坦度测度。可以使用任何普遍接受的频谱平坦度测度。例如，可以使用基于熵的测度。频谱被划分为感知频带(例如根据巴克(Bark)尺度)，并且针对每个频带(n)计算平坦度测度：

其中区段'k'处的幅度的归一化值是：

'K'是频带中的总区段数。

接下来，该方法使用优化函数(块880)并迭代，以找到最小化优化函数(或成本函数)的长期预测器(或滤波器)。简单的优化函数由整个频谱的单个平坦度测度构成。然后在所有频带上将频谱平坦度测度的线性值F_n(X)进行平均，以产生单个测度：

其中'B'是频带的数量。W_n(X)是一种加权函数，它基于能量或简单地基于它们在频率轴上的顺序来相比于其他频带更加重某些频带。

使用基于组合频率的准则与其他编码器度量的实施例

图9是使用基于组合频率的准则与其他编码器度量频域长期预测方法的其他实施例的总体流程图。在这些替代实施例中，在确定优化函数时考虑VQ量化误差以及可能的其他度量，例如帧音调。这样做是为了考虑长期预测器(LTP)对VQ操作的影响。有许多方法可以将VQ误差与平坦度测度结合起来，详述如下。

在这些实施例中，首先将ODFT频谱转换为MDCT频谱。接下来，将VQ应用于MDCT频谱中的各个频带。从编码器中的另一个块导出所使用的比特分配。

参考图9，块810,820,830,840,850,860和870的操作在上文参考图8进行了讨论。块900概述了这些实施例中对于该方法的添加。块900包括执行的比特分配(框910)，其包括在编解码器中使用的用以基于各种准则在子带上分配比特的各种方案。

该方法然后执行ODFT到修正离散余弦变换(MDCT)的转换(框920)。具体而言，使用以下关系式将ODFT频谱转换为MDCT频谱：

并且X₀(k)是ODFT谱值。

接下来，该方法使用在编码器处计算的比特分配预算将矢量量化(框930)应用于MDCT频谱。每个子带被量化为矢量或一系列矢量。结果是量化误差(框940)。该方法然后将平坦度测度与VQ误差组合以应用优化函数(框950)。特别地，通过将平坦度测度与基于VQ误差的权重相结合来导出优化函数。该方法迭代进行以找到最小化该组合优化(或成本)函数的滤波器参数。

在一些实施例中，每个子带的VQ误差用作相比于其他频带更加重某些频带的加权函数。因此，平坦度被加权然后被平均：

其中W_n(X)是MDCT中第n个频带的VQ误差的函数。

在另一实施例中，VQ误差被用于选择最优增益。与给定滞后'L'相关联的增益是从归一化自相关函数NR(L)计算的。一旦确定了最优滞后(基于平坦度测度)，则迭代地以因子按比例缩小或增大相应的增益，以便最小化VQ(加权)量化误差。

在替代实施例中，VQ误差用于创建增益的上限。这是用于如下这样的实施例：其中非常高的增益可能导致频谱的某些部分低于VQ将量化它们的基值(floor)。这种情况发生在低比特率期间，当VQ误差很高时，并且在高音调内容中尤其明显。因此，帧'n'中的增益的上限根据帧音调和平均VQ误差被计算。在数学上，这被如下地给出：

GainLimit(n)＝Fct{Tondlity(n)，VOerr(n)}

具有优化准则和解码器重构的实施例

图10示出了替代实施例，其中基于频率的频谱平坦度可以与考虑了解码器处的重构误差的其他因素组合。例如，当2个或更多滞后可能具有相同的平坦度测度时，会发生这种情况。考虑额外的因素，即从前一帧中的先前滞后到当前帧中的每个可能滞后的过渡成本。

在图10所示的实施例中，LTP的滤波器系数被每帧估计一次。因此，滤波器(在编码器和解码器两者处)每10-20毫秒被加载一组不同的系数。这可能会导致听觉不连续。为了平滑化滤波器输出中的过渡，可以使用各种方案，例如同时淡入淡出方案。

参考图10，在搜索最优参数集期间，过滤器在时域中被构建并应用于输入(框1000)。类似地，在这些实施例中，在解码时，针对每个候选滞后来模拟解码器的逆滤波器(框1010)并且计算输出和输入之间的重构误差。然后将该误差与平坦度测度结合以得到优化函数(框1020)。

更具体地，图11示出了时间上连续的两个帧执行图10中的框1000和1010的操作。参照图11，在部分1100中，针对每个帧(帧N-1和帧N)示出了不同的候选滤波器系数集合。如部分1110中所示，为了平滑过渡，滤波器输出在时间Dn期间同时淡入淡出。在当前帧(帧N)中，可能有2个可能的滤波器集合供选择。每个集合被应用于当前滤波器，并且对编码器侧(在部分1110中示出)和解码器侧(在部分1120中示出)完成同时淡入淡出操作。将得到的输出与原始输出进行比较。基于最小化该重构误差来选择系数集合。

扩展到K阶预测器

对于高阶预测器，估计多个抽头需要逆矩阵运算，这实际上并不能得到保证。因此，通常希望仅估计中心(或单个)抽头(L)，然后基于一些最优化准则找到从有限集合中选择侧抽头的方法。实际系统中的一些常见解决方案是提供预先计算的滤波器形状表，并将其中之一与上面计算的单抽头滤波器进行卷积。例如，如果滤波器形状均为3个抽头，则这将得到3阶预测器，如图12所示。

图12示出了将单抽头预测器转换为三阶预测器。参考图12，单阶预测器与表1210中的一个可能滤波器形状进行卷积1200以产生三阶预测器。在这些实施例中，使用具有M个可能滤波器形状的表，并且基于最小化得到的残差的输出能量来完成选择。基于匹配各种音频内容的谱包络，离线创建具有M个形状的表。一旦如上所述确定了1抽头滤波器，则对M个滤波器形状中的每一个进行卷积以创建k阶滤波器。滤波器被应用于输入信号，并计算滤波器的残差(输出)的能量。选择最小化能量的形状作为最优形状。该决定例如通过使用迟滞而被进一步平滑，以便不引起信号能量的大的变化。

IV、替代实施例和示例性操作环境

频域长期预测系统和方法的替代实施例是可能的。本文所述的实施例之外的许多其他变型从本文档是显见的。例如，取决于实施例，本文描述的任何方法和算法的某些动作、事件或函数可被以不同的顺序执行，可以被添加、合并或一起省略(从而，不是所有描述的动作或事件是方法和算法实现所必需的)。此外，在某些实施例中，动作或事件可以同时执行，例如通过多线程处理、中断处理、或多个处理器或处理器核、或在其他并行架构上，而不是顺序执行。此外，可以由可以一起工作的不同机器和计算系统执行不同的任务或过程。

结合本文公开的实施例描述的各种说明性逻辑块、模块、方法和算法过程和序列可以实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，上文已经在功能方面对各种说明性组件、块、模块和处理动作进行了描述。这样的功能是实现为硬件还是软件取决于特定应用和施加于整个系统的设计约束。所描述的功能可以针对每个特定应用以不同方式实现，但是这种实现决策不应被解释为导致偏离本文档的范围。

结合本文公开的实施例描述的各种说明性逻辑块和模块可以由被设计用于执行本文所述的功能的机器实现或执行，机器为例如通用处理器，处理设备，具有一个或多个处理设备的计算设备，数字信号处理器(DSP)，专用集成电路(ASIC)，现场可编程门阵列(FPGA)或其他可编程逻辑器件，离散门或晶体管逻辑，分立硬件组件或其任何组合。通用处理器和处理设备可以是微处理器，但是在替代方案中，处理器可以是控制器，微控制器或状态机，它们的组合等。处理器还可以实现为计算设备的组合，诸如DSP和微处理器的组合，多个微处理器，一个或多个微处理器结合DSP内核，或任何其他这样的配置。

本文描述的频域长期预测系统和方法的实施例可在多种类型的通用或专用计算系统环境或配置中操作。通常，计算环境可以包括任何类型的计算机系统，包括但不限于基于一个或多个微处理器的计算机系统，大型计算机，数字信号处理器，便携式计算设备，个人组织器，设备控制器，设备内的计算引擎，移动电话，台式计算机，移动计算机，平板计算机，智能电话和具有嵌入式计算机的器具，仅举几例。

这种计算设备通常可被发现位于具有至少一些最小计算能力的设备中，包括但不限于个人计算机，服务器计算机，手持计算设备，膝上型或移动计算机，诸如蜂窝电话和PDA之类的通信设备，多处理器系统，基于微处理器的系统，机顶盒，可编程消费电子产品，网络PC，迷你计算机，大型计算机，音频或视频媒体播放器等等。在一些实施例中，计算设备将包括一个或多个处理器。每个处理器可以是专用微处理器，例如数字信号处理器(DSP)，超长指令字(VLIW)或其他微控制器，或者可以是具有一个或多个处理核(包括多核CPU中的专用的基于图形处理单元(GPU)的核)的常规中央处理单元(CPU)。

结合本文中所揭示的实施例而描述的方法，过程，块或算法的过程动作可直接体现于硬件中、由处理器执行的软件中或两者的任何组合中。该软件可以被包含在可以由计算设备访问的计算机可读介质中。计算机可读介质包括易失性和非易失性介质两者，其可移除，不可移除或它们的某种组合。计算机可读介质用于存储信息，诸如计算机可读或计算机可执行指令，数据结构，程序模块或其他数据。作为示例而非限制，计算机可读介质可包括计算机存储介质和通信介质。

计算机存储介质包括但不限于计算机或机器可读介质或存储设备，诸如蓝光盘(BD)，数字通用盘(DVD)，压缩盘(CD)，软盘，磁带驱动器，硬盘驱动器，光学驱动器，固态存储设备，RAM存储器，ROM存储器，EPROM存储器，EEPROM存储器，闪存或其他存储器技术，磁盒，磁带，磁盘存储器或其他磁存储设备，或可被用于存储所需信息并且可以由一个或多个计算设备访问的任何其他设备。

软件可以驻留在RAM存储器，闪存，ROM存储器，EPROM存储器，EEPROM存储器，寄存器，硬盘，可移动磁盘，CD-ROM或任何其他形式的非暂时性计算机可读存储介质，媒介，或本领域已知的物理计算机存储器中。示例性存储介质可以耦合到处理器，使得处理器可以从存储介质读取信息以及向存储介质写入信息。在替代方案中，存储介质可以与处理器集成。处理器和存储介质可以驻留在专用集成电路(ASIC)中。ASIC可以驻留在用户终端中。作为替代，处理器和存储介质可以作为分立组件驻留在用户终端中。

本文件中使用的短语“非暂时性”是指“持久或长久”。短语“非暂时性计算机可读介质”包括任何和所有计算机可读介质，唯一的例外是暂时性传播信号。作为示例而非限制，这包括诸如寄存器存储器、处理器高速缓存和随机存取存储器(RAM)的非暂时性计算机可读介质。

短语“音频信号”是表示物理声音的信号。通过捕捉物理声音来构造音频信号的一种方式。音频信号在回放设备上回放以产生物理声音，使得听众可以听到音频内容。回放设备可以是能够解释并转换电子信号为物理声音的任何设备。

诸如计算机可读或计算机可执行指令、数据结构、程序模块等的信息的保持也可以通过使用各种通信介质编码一个或多个调制数据信号，电磁波(例如载波)或其他传输机制或通信协议来实现，包括任何有线或无线信息传递机制。通常，这些通信介质指的是如下信号：该信号的一个或多个特征被以将信息或指令编码在信号中的方式设置或改变。例如，通信介质包括诸如承载一个或多个调制数据信号的有线网络或直接有线连接的有线介质，以及诸如声学，射频(RF)，红外，激光和用于发送、接收、或者发送和接收一个或多个调制数据信号或电磁波的其他无线介质的无线介质。上述任何组合也应包括在通信媒体的范围内。

此外，本文所述的具有能量平滑的基于变换的编解码器和方法的各种实施例中的一些或全部的软件、程序、计算机程序产品中的一个或任何组合或其部分可被以计算机可执行指令或其他数据结构的形式存储、接收、发送、或者从计算机或机器可读介质或存储设备和通信介质的任何期望组合中读取。

可以在计算机可执行指令(例如程序模块)由计算设备执行的一般上下文中进一步描述本文描述的频域长期预测系统和方法的实施例。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程，程序，对象，组件，数据结构等。这里描述的实施例还可以在分布式计算环境中实践，在分布式计算环境中，任务由一个或多个远程处理设备执行，或者在通过一个或多个通信网络链接的一个或多个设备的云内执行。在分布式计算环境中，程序模块可以位于包括媒体存储设备的本地和远程计算机存储介质中。更进一步地，上述指令可以部分或全部地实现为硬件逻辑电路，其可以包括或不包括处理器。

除非另有说明或者在所使用的上下文中以其他方式理解，否则本文使用的条件语言，例如“可以”，“可能”，“可”，“例如”等，通常意图传达某些实施例包括某些特征，元素和/或状态，而其他实施例不包括。因此，这种条件语言通常不意图暗示该特征、元素和/或状态以任何方式被一个或多个实施例需要，或者一个或多个实施例必须包括用于在有或没有作者输入或提示的情况下决定这些特征、元素和/或状态是否被包括在任何特定实施例中或将在任何特定实施例中执行的逻辑。术语“包括”，“包含”，“具有”等是同义的，并且以开放式方式被包含性地使用，并且不排除其他元件，特征，动作，操作等。此外，术语“或”在其包含意义上(而不是在其排他意义上)使用，因此当使用时，例如为了连接元素列表，术语“或”表示列表中的元素中的一个、一些或全部。

虽然以上详细描述已经示出，描述并指出了应用于各种实施例的新颖特征，但是应当理解，可以在不背离本公开的精神的情况下，可以做出作为所示的装置或算法的形式和细节的各种省略、替换和改变。如将认识到的，本文描述的本发明的某些实施例可被以不提供本文所述的所有特征和益处的形式来体现，因为一些特征可以与其他特征分开使用或实践。

此外，尽管用结构特征和方法动作专用的语言描述了本发明主题，但应理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上述具体特征和动作作为实现权利要求的示例形式被公开。

Claims

1.一种用于编码音频信号的音频编码系统，包括：

频率变换单元，在频域中表示加窗时间信号以获得音频信号的频率变换；

最优长期预测器估计单元，在频域中基于频率变换的分析和最优化准则来估计长期预测器系数；

长期线性预测器，在时域中对所述音频信号进行滤波，其中所述长期线性预测器是具有系数的自适应滤波器，所述系数是根据由所述最优长期预测器估计单元在频域中执行的分析而估计的所述长期预测器系数；

量化单元，对要编码的加窗帧的频率变换系数进行量化，以生成经量化的频率变换系数；以及

包含经量化的频率变换系数的编码信号，其中编码信号是所述音频信号的表示。

2.根据权利要求1所述的音频编码系统，其中，所述最优长期预测器估计单元还包括基于来自所述量化单元的量化误差的分析来估计最优长期线性预测器。

3.根据权利要求1所述的音频编码系统，还包括：

用于将1抽头长期线性预测器扩展为k阶长期线性预测器的预定滤波器形状的滤波器形状表；以及

估计选择单元，从所述滤波器形状表中选择最优滤波器形状。

4.根据权利要求3所述的音频编码系统，还包括通过最小化k阶长期线性预测器的输出的能量被选择的最优滤波器形状。

5.一种用于编码音频信号的方法，包括：

产生音频信号的频率变换，频率变换表示频域中的加窗时间信号；

在频域中基于频率变换的分析和最优化准则来估计长期预测器系数；

使用长期线性预测器在时域中对所述音频信号进行滤波，其中所述长期线性预测器是具有系数的自适应滤波器，所述系数是根据在频域中执行的分析而估计的所述长期预测器系数；

量化要编码的加窗帧的频率变换系数以产生经量化的频率变换系数；以及

构建包含所述经量化的频率变换系数的编码信号，其中编码信号是所述音频信号的表示。

6.根据权利要求5所述的方法，还包括：基于音频信号的加窗时间信号的频率分析，确定长期线性预测器的自适应滤波器系数。

7.根据权利要求5所述的方法，还包括：

基于频率变换的分析和来自频率变换系数的量化的量化误差两者估计最优长期线性预测器。

8.根据权利要求5所述的方法，还包括：

使用包含预定滤波器形状的预测滤波器形状表，将1抽头长期线性预测器扩展为k阶长期线性；以及

从所述预测滤波器形状表中选择最优滤波器形状，以用于最优长期线性预测器。

9.根据权利要求8所述的方法，其中，选择最优滤波器形状还包括从所述预测滤波器形状表中选择最小化k阶长期线性预测器的输出的能量的滤波器形状。

10.根据权利要求5所述的方法，其中，所述长期线性预测器是1抽头长期线性预测器，并且所述方法还包括估计所述1抽头长期线性预测器的滞后和增益参数。

11.根据权利要求10所述的方法，还包括：

确定与加窗时间信号中的主要谐波分量对应的频率幅度谱中的主要峰值，并计算每个主要峰值的分数频率；

基于主要峰值的子集在频域中构建一组候选滤波器，并将该组候选滤波器应用于所述频率幅度谱以生成得到的变换谱；以及

计算最优化准则。

12.根据权利要求11所述的方法，其中基于频率的最优化准则是在应用候选滤波器之后得到的频谱的频谱平坦度测度，所述方法还包括：

选择最大化最优化准则的最优滤波器形状；

将频率分析中确定的滞后和增益参数转换为时域等效值；并且

在时域中将包含所述滞后和增益参数的最优长期线性预测器应用于音频信号，其中最优滤波器形状包含所述滞后和增益参数。

13.根据权利要求11所述的方法，还包括：

使用标量或矢量量化器量化所得到的变换谱；

生成针对所选比特率的量化误差的测量；并且

基于量化误差的测量和频谱平坦度测度的组合来估计最优长期线性预测器。

14.根据权利要求13所述的方法，还包括：使用量化误差和帧音调测度对最优长期线性预测值的增益施加上限。

15.根据权利要求14所述的方法，还包括：基于最小化解码器处的重构信号误差来估计最优长期线性预测器。