CN1882983B

CN1882983B - 音频编码中基音轨迹量化的方法和系统

Info

Publication number: CN1882983B
Application number: CN200480034310XA
Authority: CN
Inventors: 安西·拉莫; 雅尼·尼尔米南; 萨卡里·伊马南; 阿里·埃基南
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2003-10-23
Filing date: 2004-09-29
Publication date: 2013-02-13
Anticipated expiration: 2024-09-29
Also published as: CN1882983A; WO2005041416A2; WO2005041416A3; US8380496B2; KR20060090996A; US20050091044A1; KR100923922B1; TW200525499A; ATE482448T1; TWI257604B; EP1676367A4; DE602004029268D1; US20080275695A1; EP1676367A2; EP1676367B1

Abstract

一种用于提供音频编码中的编码效率的方法和设备。根据一个或多个预选择标准，从音频信号的基音轨迹的基音值生成多个简化的基音轨迹段，从而近似基音轨迹。轨迹段可以是线性或非线性，每个轨迹段由第一终点和第二终点表示。如果该轨迹段是线性，则仅将关于终点的信息而不是基音值提供给解码器来重新生成音频信号。轨迹段可以具有固定的最大长度或可变长度，但是轨迹段和该段中的基音值之间的偏差受到最大值的限制。

Description

音频编码中基音轨迹量化的方法和系统

技术领域

本发明一般地涉及语音编码器，更具体地，涉及一种允许足够长的编码延时的语音编码器。

背景技术

在美国，当设计移动电话时，需要考虑到视觉上有缺陷的人。移动电话的制造商必须提供具有适用于视觉上有缺陷的用户的用户接口的电话。实践中，这意味着菜单除了显示在屏幕上以外还要“说出来”。将这些可以听见的消息存储在尽可能小的存储器中显然是有利的。通常，文字-语音(TTS)算法被考虑用于这种应用。但是，为了获得比较好的质量的TTS输出，需要宠大的数据库，因此，TTS并不是可用于移动终端的方便的方案。由于低的存储器使用率，所以不能接受当前TTS算法所提供的质量。

在TTS之外，语音编码器可用于对预先记录的消息进行压缩。在移动终端中对这个压缩后的信息进行保存和解码以生成输出语音。为了使得存储器消耗最低，期望非常低比特率的编码器。为了生成输入语音信号到编码系统，可以使用人工讲话或高质量(和高复杂度)的TTS算法。

在通常的语音编码器中，输入语音信号在称为帧的固定长度的段中进行处理。在当前语音编码器中，帧长通常为10-30ms，也可获得距离后续帧大约5-15ms的先行段。帧可以被进一步分为多个子帧。对于每个帧，编码器确定输入信号的参数表示。参数被量化，并且通过通信信道传输或存储在存储介质中。在接收端，解码器根据接收到的参数构成合成信号，如图1所示。

当语音编码的一个根本目的是在给定的编码率上获得可能的最佳质量时，在为某个应用开发语音编码器中还必须考虑其它的性能方面。在语音质量和比特率之外，下面详细描述的主要属性包括编码器延时(主要由帧大小加上可能的先行来定义)、编码器的复杂性和存储器要求、信道误差灵敏度、对有关听觉的背景噪声的鲁棒性以及编码语音的带宽。还有，语音编码器应当能够有效地复制带有不同能量电平和频率特性的输入信号。

基音轨迹(pitch contour)的量化是在几乎所有实际语音编码器中需要的任务。基音参数与语音的基本频率相关：在有声语音期间，基音对应于基本频率并且能够作为语音基音接收。在纯粹的无声语音期间，从物理角度而言没有基本频率，并且语音的概念是模糊的。然而，在大部分语音编码器中，在无声语音期间还需要“基音信息”。例如，在基于已知的码激励线性预测(CELP)方法的编码器中，在语音的无声部分期间还传输长期的预测滞后(大约对应于基音)

在通常的语音编码器中，以规则的间隔从信号估计基音参数。用于语音编码器中的基音估计器能够被粗略地分为以下类别：(ii)使用语音的时域属性的基音估计器，(ii)使用语音的频域属性的基音估计器，(iii)使用语音的时域属性和频域属性的基音估计器。

现有技术中最普遍的基音轨迹量化(以规则间隔估计的基音值)方案是使用标量量化。通常地，单个量化器用于所有的基音值，并且传输速率保持固定。还提供了可供选择的方案。例如，可使用标量量化器对每秒基音值进行量化，并且这些值之间的值可以用差分量化器进行编码。在现有的一些编码器中，量化器包括两个模式，无记忆模式和预测模式。当与基本方法比较时，这些技术具有一些优势，但是仅可以部分地使用冗余。

现有技术的主要缺陷是带有固定更新速率的常规量化技术本身是效率低的，这是因为在所传输的基音值中存在大量的冗余。基音参数量化中使用的固定更新速率通常很高(约为50到100Hz)，以便能够处理基音快速改变的情况。但是，基音轨迹中发生快速改变是比较少见的。因此，在大部分情况下可使用非常低的更新速率。

发明内容

本发明利用了这样的事实，即通常的基音轨迹的展开相当地平滑但是包括偶然的快速变化。因此，可以生成接近于初始轨迹的形状但是包括较少的将要编码的信息的片段基音轨迹。不用对基音轨迹的每个基音进行编码，仅对定义导数变化的片段基音轨迹的点进行量化。在无声语音期间，恒定的默认基音值可以用于编码器和解码器。片段基音轨迹上的段可以是线性或非线性。

因此，根据本发明的第一方面，提供一种提高音频编码的编码效率的方法，其中，对音频信号进行编码以提供指示所述音频信号的参数，所述参数包括基音轨迹数据，所述基音轨迹数据包括多个表示音频时间段的基音值。该方法包括以下步骤：

根据所述基音轨迹数据生成多个简化的基音轨迹段候选，每个候选对应于所述音频信号的子段；

测量每个简化的基音轨迹段候选和对应子段中的所述基音值之间的偏差；

根据所测量的偏差和一个或多个预选择的标准，选择一个所述候选；以及

使用所选择候选的特性对对应于所选择的候选的音频信号的子段中的基音轨迹数据进行编码。

根据本发明的一个实施例，音频时间段中的音频轨迹数据由多个对应于所述音频段中多个连续子段的所选择的候选进行近似，所述多个选择的候选中的每个候选由第一终点和第二终点定义，并且其中，所述编码包括提供指示所述终点的信息的步骤，从而允许所述解码器根据所述信息而非所述基音轨迹数据重新生成音频段中的所述音频信号。一些所述连续子段中的基音值的数量等于或大于3。

根据本发明的一个实施例，生成步骤受到预选择条件的限制，从而每个所述简化的基音轨迹段候选和相应子段中的每个所述基音值之间的偏差小于或等于预定的最大值。

根据本发明的一个实施例，所生成的段候选具有各种长度，并且所述选择基于段候选的长度，预选择的标准包括所选择的候选在段候选中具有最大长度。

根据本发明的一个实施例，选择步骤基于所述段候选的长度，所述预选择的标准包括所测量的偏差在一组具有相同长度的候选组中为最小。

根据本发明的一个实施例，每个简化的基音轨迹段候选具有始点和终点，所述生成步骤通过调节所述段候选的终点而执行。

音频信号包括语音信号。

根据本发明的第二方面，提供一种用于对包括基音轨迹数据的音频信号进行编码的编码设备，该基音轨迹数据包括多个表示音频时间段的基音值。该编码设备包括：

用于接收基音轨迹数据的输入端；

数据处理模块，响应于基音轨迹数据，生成多个简化的基音轨迹段候选，每个候选对应于音频信号的子段，其中处理模块包括：

用于测量每个所述简化的基音轨迹段候选和对应子段中的基音值之间的偏差的算法；以及

用于根据所测量的偏差和预选择的标准选择一个所述候选的算法；以及

量化模块，响应于所选择的候选，用于使用所选择候选的特性对对应于所选择候选的音频信号的子段中的基音轨迹数据进行编码。

根据本发明的一个实施例，所述量化模块提供表示所述子段中编码后的基音轨迹数据的音频数据。该编码设备还包括：

存储设备，工作地连接到量化模块以接收音频数据，用于将音频数据存储到存储介质中。

根据本发明的另一个实施例，该编码设备还包括输出端，工作地连接到存储介质，用于将编码后的基音轨迹数据提供给存储介质以便存储。

根据本发明的另一个实施例，该编码设备还包括输出端，用于将编码后的基音轨迹数据发送到解码器，从而允许解码器也根据编码后的基音轨迹数据重新生成音频信号。

根据本发明的第三方面，提供一种实施在电子可读介质中与音频编码设备一起使用的计算机软件产品，该音频编码设备提供表示音频信号的参数，该参数包括基音轨迹数据，基音轨迹数据包括多个表示音频时间段的基音值。该软件产品包括：

用于根据基音轨迹数据生成多个简化基音轨迹段候选的代码，每个候选对应于音频信号的子段；

用于测量每个简化的基音轨迹段候选和对应子段中的所述基音值之间的偏差的代码；以及

用于根据所测量的偏差和预选择的标准选择一个所述候选的代码，从而允许量化模化用所选择候选的特性对对应于所选择候选的音频信号的子段中的基音轨迹数据进行编码。

根据本发明的第四方面，提供一种用于重新生成音频信号的解码器，其中，对音频信号进行编码以提供指示所述音频信号的参数，该参数包括基音轨迹数据，基音轨迹数据包括多个表示音频时间段的基音值，并且其中，所述音频时间段中的所述基音轨迹数据由所述音频段中的多个连续子段近似，每个子段由第一终点和第二终点定义。该解码器包括：

输入端，用于接收表示定义所述子段的终点的音频数据；以及

根据所接收的音频数据重新生成音频段。

根据本发明的一个实施例，音频数据记录在电子介质上，并且解码器的输入端工作地连接到电子介质以接收音频数据。

根据本发明的另一个实施例，音频数据通过通信信道传输，并且解码器的输入端工作地连接到通信信道以接收音频数据。

根据本发明的第五方面，提供一种电子设备，包括：

用于重新生成音频信号的解码器，其中，对所述音频信号进行编码以提供指示所述音频信号的参数，所述参数包括基音轨迹数据，基音轨迹数据包括多个表示音频时间段的基音值，并且其中，音频时间段中的所述基音轨迹数据由音频段中的多个连续子段近似，每个所述子段由第一终点和第二终点定义，从而能够根据定义所述子段的终点生成所述音频段；以及

输入端，用于接收指示终点的音频数据并且将音频数据提供给解码器。

根据本发明的一个实施例，音频数据被记录在电子介质中，并且输入端工作地连接到电子介质以接收音频数据。

根据本发明的另一个实施例，音频数据通过通信信道传输，输入端工作地连接到通信信道以接收音频数据。

该电子设备可以为移动终端或终端模块。

根据本发明的第六方面，提供一种通信网络，包括：

多个基站；以及

多个与所述基站进行通信的移动站，其中，至少一个移动站包括：

用于重新生成音频信号的解码器，其中，对所述音频信号进行编码以提供指示音频信号的参数，该参数包括基音轨迹数据，基音轨迹数据包括多个表示音频时间段的基音值，并且其中，音频时间段中的基音轨迹数据由音频段中的多个连续子段近似，每个子段由第一终点和第二终点定义，从而能够根据定义子段的所述终点生成所述音频段；以及

输入端，用于从至少一个基站接收指示终点的音频数据来将音频数据提供给解码器。

在结合附图2到6阅读说明之后本发明将变得明显。

附图说明

图1为表示现有技术中语音编码系统的方框图；

图2为根据本发明的一个实施例的片段基音轨迹的示例；

图3为表示根据本发明的一个实施例的语音编码系统的方框图；

图4为描述用于生成片段基音轨迹的迭代处理示例的流程图；

图5为描述用于根据优选的简化模式生成片段基音轨迹的迭代处理示例的流程图；

图6为表示能够实施本发明的通信网络的示意图。

具体实施方式

使用片段线性基音轨迹，仅将存在导数改变的基音轨迹的那些点传输给解码器。因此，极大地降低了基音参数需要的更新速率。原则上，片段线性基音轨迹以这样的方式构成，即，使得导数改变的数量最小，而保持来自“真实基音轨迹”的导数低于预先规定的限制。为了获得全局的优化结果，预处理段应当非常长，并且优化将需要大量的计算。但是，用这部分所描述的非常简单的技术能够获得非常好的结果。该描述基于用于存储预先记录的音频消息的语音编码器中使用的实施。

用于构成片段线性基音轨迹的简单但有效的优化技术可以通过在某个时间对一个线性段进行处理获得。对于每个线性段，搜索最大长度的线(可以使得离真轨迹的偏差足够低)，而不用知道该线性段界限之外的轨迹。在这项优化技术中，必须考虑两种情况：第一线性段和其它线性段。

第一线性段的情况出现在当开始编码处理时的开始。另外，如果对于非活动的或无声的语音没有传送基音值，则在基音传输中的这些暂停之后第一段落入这个类别。在这两种情况中，可以优化该线的两个末端。其它的情况落入第二类中，其中线的始点已经固定，所以只能优化终点的位置。

在第一线性段的情况中，通过为到当时为止发现的线将第一个两个基音值选择为最佳终点开始处理。然后，通过考虑线的末端靠近第一和第三基音值的情况开始实际的迭代处理。线始点的候选为所有足够靠近第一起始基音值的量化基音值，从而满足所期望的准确度标准。类似地，终点的候选为足够靠近第三起始基音值的量化基音值。发现这些候选之后，对所有这些可能的始点和终点的组合进行试验：在每个起始基音位置上测量线性表示的准确度，如果在所有这些位置上满足准确度标准，则将该线接受为片段线性轨迹的一部分。另外，如果在当前线和起始基音轨迹之间的偏差小于与这个迭代处理步骤期间接受的其它线的任何一条线的偏差，则将当前线选择为到当时为止的最佳线。如果接受了至少一个所试验的线，则通过在取另外一个基音值到该段之后重复处理而继续迭代处理。如果没有供选方案是可接受的，则终止优化处理，并且将优化期间发现的最佳终点选择为片段线性基音轨迹的点。

在其它段的情况中，仅可以优化终点的位置。通过将固定的始点之后的第一基音值选择为到当时为止发现的线的最佳终点而开始处理。然后，通过考虑再一个基音值开始迭代处理。线终点的候选为在该位置上足够接近起始基音值的量化基音值，从而满足所期望的准确度标准。发现候选之后，所有这些候选都被作业终点进行试验。在每个起始基音位置上测量线性表示的准确度，如果在所有这些位置上满足正确度标准，则可以将候选线接受为片段线性轨迹的一部分。另外，如果与起始基音轨迹的偏差小于与在这个迭代处理步骤期间所试验的其它线，则终点候选被选择为到当时为止发发现的最佳终点。如果接受了至少一个所试验的线，则通过在将再一个基音值给该段之后重复处理继续迭代处理。如果没有供选方案是可接受的，则终止优化处理，并且将优化期间发现的最佳终点选择为片段线性基音轨迹的点。

在前面详细描述的两种情况中，迭代处理可以由于两个原因而过早结束。第一，如果没有更多的后续的基音值可用，则终止处理。这将发生在如果已经使用了整个预处理段、如果已经结束了语音编码或者如果在非活动或无声的语音期间基音传输已经暂停的情况下。第二，可对单个线性部分的最大长度进行限制，从而更加有效地对点位置进行编码。对于这两种情况，可以通过根据可用的基音值的数量和线末端之间的最大时间距离将限制i_max设置为迭代处理号i而考虑这个问题。迭代处理如图4中所示。

在发现片段线性基音轨迹的新的点之后，该点可以被编码进比特流中。对于每个点必须给出两个值：该点上的基音值以及轨迹的新点和前一个点之间的时间距离。自然对于轨迹的第一个点不是必须对时间距离进行编码。可以方便地使用标量量化器对基音值进行编码。在用于存储音频菜单的编码器中的实施中，使用「log₂(i_max)」比特对每个时间距离值进行编码。如果需要，也可对时间距离值使用例如霍夫曼编码的某种无损失编码。基音值使用标量量化进行编码。标量量化器包括了使用以下等式获得的32个层级(5比特)：

\begin{matrix} p (n) = p (n - 1) + \max (2, \frac{480 p (n - 1)}{8000}), 10 \end{matrix}

其中，n从2到32，p(1)＝19个取样。对于低基音频率允许更多的失真，以考虑人的听力的特征。还有，人的听觉系统的已知特征通过在对数域中的基音量化期间执行失真测量来进行开发。

图2中表示根据本发明的片段基音轨迹的一个例子以及初始的基音轨迹。如图2所示，每个线性片段为连接两个点的直线，这两个点即为始点和终点。例如，图2中所示的片段基音轨迹的第二个线片段为连接t＝1.22s的点和t＝1.29s的点的直线。从t＝1.22s到t＝1.29s的时间间隔中的基音值的数量为8，包括始点和终点。

为了实施本发明，语音编码系统具有用于生成片段基音轨迹的附加模块。如图3所示，语音编码系统1包括编码模块10，编码模块10具有用于对多个片段中的输入语音信号进行处理的参数语音编码器12。对于每个片段，编码器12确定输入信号的参数表示112。根据该语音编码系统，这些参数可以是初始参数的量化版本或非量化版本。响应于该参数表示，压缩模块20使用例如软件程序22将基音轨迹缩小为片段基音轨迹。然后由量化模块24将片段轨迹上的点编码为经过通信信道或存储在存储介质30中的比特流120。在接收器端，解码器40用于根据所接收到的比特流130中表示片段基音轨迹和其它语音参数的信息生成合成语音信号140。

片段基音轨迹生成模块20中的软件程序22包括根据图4中所示的流程图500对基音轨迹中的基音值进行处理的机器可读代码。流程图500表示用于对表示片段轨迹的线性片段的直线(见图2)进行选择的迭代处理过程。每个直线具有始点Q(p₀)和终点Q(p_i)。对于第一个线性片段，必须选择始点Q(p₀)和终点Q(p_i)。对于所有其它的线性片段，仅需选择终点Q(p_i)。在迭代处理的开始，选择覆盖包括三个基音值的时间间隔的线性段。因此，如果始点位于第一个时间点上而终点位于第二个时间点上，则在从第一个时间点到第二个时间点的时间间隔中存在三个基音值。因此，在步骤502设置i＝2。在步骤504，终点被选择为接近第二个时间点上的基音值的点或被选择为第二个时间点上的基音值的点。对于第一个线性段，始点被选择为接近第一个时间点上的基音值的点或被选择为第二个时间点上的基音值的点。在步骤506，对在从第一个时间点到第二个时间点的时间间隔中的每个基音值之间的偏差以及连接始点和终点的直线进行测量。可选择地，该偏差可以用某些间隔进行测量。在步骤508，将该偏差与预定的误差值进行比较，以便确定当前的直线是否可被接受为候选。如果该时间间隔中的一些基音值的偏差超过预定的误差值，则调整终点(如果该线性段是第一个片段，则一起调整始点)，并且该迭代处理循环返回步骤506直到不能进行调整为止。如果步骤508中确定当前直线能够被接受，则在步骤510中将其与稍早的结果进行比较从而确定它是否为到当时为止最好的直线。到当时为止最好的直线是指在具有已经获得的相同的i的直线中具有最小的绝对偏差总和的直线。在步骤512对到当时为止最好的线进行存储。在步骤520再次调整终点，直到不能进行调整。

当在步骤520中确定不再可能进行调整时，判断是否停止迭代处理并且使用在步骤512中存储的最佳线作为当前线的片段，或者进一步通过在步骤526中将i加1对线的片段进行扩展(除非在步骤524判断出当前i已经等于i_max)。在将i加1之后可能在步骤522确定没有扩展的线能够被接受。在这种情况下，具有先前i的最佳线被用作当前片段的直线。候选的数量可以例如通过设置终点能够与取样值不同的程度的最大限制进行限制。还可以对不同终点候选之间的间隔进行设置以限制可能候选的数量。

应当注意，在图2的片段基音轨迹中，第三个线性片段仅覆盖两个基音值，即在t＝1.29s和t＝1.30s处。这是因为t＝1.30s为分隔两个语音信号片段的时间点。

还应当注意，终点或始点的调整只能在步骤中执行。例如，Q(p_i)的调整可以通过由一个量化步骤增加或减少Q(p_i)的值来执行。但是，调整还可以在更小或更大的步骤中执行。还有，最长的线或者i_max的限制可以被设定为大数，例如64。在这种情况下，始点和终点之间的时间间隔(以及，i)变化很大。例如，第四个线段中的i等于5，而第五个线段中的i为23。但是，如果i_max被设定为例如5，则大部分或所有的线性段中的时间间隔(以及i)都相同。因此，当i为变量并且i_max为变量或固定数时，本发明可以实施。还有，片段候选和步骤510中用于选择到当时为止的最佳候选的基音值之间的测量偏差可以是绝对差之和或其它的偏差测量。片段候选的生成可以由某个标准限制，例如，每个基音值和片段候选中的相应点之间的预定的最大绝对差。例如，最大差可以为五个或十个量化步骤，但是它可以为更小或更大的数。

还有，可以对前面所述的本发明进行修改而不会偏离修改的基音轨迹量化的基本概念。首先，可以使用不同的量化技术。第二，修改的基音轨迹不是必须为片段线性，只要要传输的基音值的数量可以保持为低。第三，可以修改用于对基音值和时间距离进行编码的量化技术。第四，可以在基音估计期间构成已存在基音轨迹的替代。

还有，前面所述的实施例并非唯一的可选择的实施方式。例如，可以任意选择用于确定新的基音轨迹的优化技术。另外，新的基音轨迹不是必须为片段线性。例如，可以使用样条函数(spline)、多项式、离散余弦变换等。例如，非线性轨迹可以具有以下的一般形式：

Q(p)＝Q(p₀)+α₁[(Q(p_i)-Q(p₀)/(t_i-t₀)](t-t₀)

+α₂[(Q(p_i)-Q(p₀)/(t_i-t₀)]²(t-t₀)²+...t₁＞t≥t₀

在这种情况下，虽然根据需要对终点进行了更新，但是向解码器提供一次该算法就已足够。

一般讨论

寻找基音轨迹的优选简化模式可公式化为数学优化问题。用f(t)表示描述从0到t_max的范围中的初始基音轨迹的函数。还有，用g(t)表示简化的基音轨迹，d(f(t)，g(t))表示在时刻t两个轨迹之间的偏差。现在，要解决的优化问题是找到满足两个最优性条件的简化基音轨迹g(t)：

(I)使得描述轨迹g(t)所需的比特数最小化。

(I)对于所有的0≤t≤t_max，d(f(t)，g(t))≤h(f(t))

其中h(·)定义了与初始基音轨迹的最大允许偏差。使得总偏差最小化的轨迹函数作为最终简化轨迹从满足这两个条件的轨迹集中被选择，该轨迹函数为：

D = {&Integral;}_{t = 0}^{t_{\max}} d (f (t), g (t)),

(1)

一般地，上述优化问题是不能解决的。但是，如果通过固定基音轨迹模式降低它的一般性，则能够解决该问题。例如，在片段线性模式中，函数g(t)可以使用其中g(t)的导数改变的点进行描述。qn和tn表示第n个这种点的坐标(1≤n≤N，其中N为片段线性模式中这些点的数量)。简化的轨迹可以在N-1个线性片段中被定义为：

g (t) = q_{n} + \frac{t - t_{n}}{t_{n + 1} - t_{n}} (q_{n + 1} - q_{n}), t_{n} \leq t \leq t_{n + 1},

(2)

其中1≤n≤N-1。为了使得定义完整，要求t_n＜t_n+1，并且t₁＝0，t_N＝t_max。另外，要求所有q_n的值落入q_min到qmax的范围中。使用这种模式，优化问题简化为对描述满足条件(I)和(II)的轨迹g(t)并且使方程(1)中的总偏差最小化的点(t_n，q_n)的集合进行搜索。现在，通过合理地假定点的坐标可以仅用受限的分辨率表示，问题变得可解决，这是因为这些点位于具有有限数量的可能点位置的栅格中。这个假定没有降低公式的一般性，因为有限的正确性直接来自最优性条件(I)。

问题的解决方案

最后部分中公式化的优化问题能够以许多种方式解决。这里描述两个解决方案。第一个解决方案的计算负担较重但是它总是能够找到全局最佳条件，第二个解决方案非常简单但是仅能产生次优化的结果。在这两种方案中，我们假定使用具有编码簿C＝{c₁，c₂，...，c_M}的标量量化器将基音值q_n编码为比特，并且时标t_n为某个时间单T的整数倍。还有，我们假定C和T都以使得解决方案存在的方式被选择，并且进一步合理地假定，描述轨迹所需的比特数能够通过最小化N(定义简化轨迹所需的点的数量)进行最小化。

全局优化方法

全局优化方案可以使用下面的前向穷举(straightforward bruteforce algorithm)算法获得：

步骤1初始化。设定N＝1。

步骤2设定N＝N+1。用当前N是否能够找到合适的片段线性模式？如果是，前进到步骤3。否则，重复步骤2。

步骤3退出并对简化轨迹进行编码。如果有几个合适的轨迹候选，则选择使得方程1中的总偏差最小化的一个。

步骤2中的测试可以对照最优性条件(II检查所有合适的片段线性轨迹候选(用当前N)来执行。在第一次迭代中(N＝2)，候选是所有具有满足下面条件的终点(t₁，q₁)和(t₂，q₂)：

d(f(t_n)，q_n)≤h(f(t_n)).

(3)

在这种情况下，时标被固定为t₁＝0和t₂＝t_max。数值q₁和q₂从代码簿C中选择，因此只有限制数量的候选。在第二次迭代(N＝3)期间，轨迹候选具有两个(N-1)线性片段。第一个时标和第三个时标(t₁和t₃)被固定为0和t_max，而时标t2可以在具有间隔T的T到t_max-T的范围中进行调整。再次地，数值q_n从代码簿C选择。同样，使用某个任意N，简化轨迹包括N-1个线性片段，并且N-2个时标能够被调整。

容易看出，上面的算法已经找到了最优化的轨迹候选，因为步骤2中的检查考虑了条件(II)，迭代过程保证了条件(I)的满足，并且总偏差在步骤3中最小化。但是，也容易看出，这个算法的复杂性随着问题的大小变得特别的快。更准确地，我们可以知道在最坏的状态下该算法具有不同的轨迹候选。

g = Σ_{j = 0}^{m} \frac{b^{j + 2} m!}{j! (m - j)!}

(4)

在上面的等式中，b表示能够满足等式3的条件的代码簿条目的最大数，并且m＝(t_max/T)-1。

在实际的情形中，这些变量可以为例如b＝3，m＝62，在最坏的情况下具有大约1.9·10³⁸个轨迹候选。因此，可以得出这样的结论，即这个理论上的优化方法只能用于b和m的值很小的情况(例如，其中b＝3，m＝8，最坏情况下的候选数为589824)，因此这个方法不适用于大部分实际的实施中。

简单的次优化方法

正如前面所述的，如果目标是找到全局优化的片段线性轨迹，则优化处理可能需要大量的计算。但是，用这部分所描述的非常简单并且计算上有效率的技术(其中，复杂性仅随问题大小的增加线性的增加)能够取得非常好的结果。在简单之外，这个方法的一个好处是并不立即处理整个基音轨迹，而是仅需要相对小的预处理。

该简化方法中的主要思想是每次对一个线性片段进行优化处理。对于每个线性片段，对能够保持与真轨迹的偏差足够低的最大长度线进行搜索而不用知道该线性片段边界之外的轨迹。在这个优化技术中，有两种必须单独考虑的情况：第一个线性片段和其它线性片段。

第一个线性片段的情况在当开始编码处理的开始出现。另外，如果对于非活动或无声语音没有基音值被传输，则第一个线性片段在其在基音传输中暂停之后落入这个类别。在关于第一个线性片段的两种情况中，线的两端都被优化。其它的情况落入第二类别中，其中，线的始点已经在先前线性片段的优化中被固定，因此仅对终点的位置进行优化。

在第一个线性片段的情况中，处理通过将时标0和T处的量化基音值选择为到当时为止找到的最佳终点而开始。然后，实际的迭代处理通过考虑线的末端足够接近时标0和2T处的初始基音值的情况而开始。换句话说，始点的候选都是足够接近t₁＝0处的初始基音值的量化基音值，从而满足所期望的准确度标准(等式3中给出)。类似地，终点的候选为足够接近t₂＝2T处初始基音值的量化基音值。在找到候选之后，对所有可能的始点和终点的组合进行试验：以t₁和t₂之间的时间间隔测量线性表示的准确度，如果满足准确度标准，则候选线可以被接受为片段线性轨迹的一部分。另外，如果与初始基音轨迹的偏差小于在这个迭代处理步骤期间与其它线的偏差，则该线被选择为到当时为止的最佳线。如果接受了至少一个候选，则迭代处理通过对t₂每步增加大小T之后重复处理而继续。如果没有线被接受，则优化处理终止，并且先前迭代处理期间找到的最佳终点被选择为片段线性基音轨迹的第一个点。

在其它线性片段的情况中，只能优化终点位置，这是因为始点已经在先前的线性片段优化过程中被固定。处理通过将固定始点之后间隔T的量化基音值选择为到当时为止的线的最佳点而开始。((t_n-1，q_n-1)和(t_n，q_n)分别表示要优化的固定始点和终点。)然后，迭代处理通过考虑一个或多个时间步骤而开始，即t_n＝t_n-1+2T。线的终点候选为新的t_n处足够接近初始基音值的量化基音值，从而满足所期望的准确度的标准。找到候选之后，剩余处理类似于第一个线性片段的情况。

在前面详细描述的两种情况中，迭代处理可能会由于两个原因而过早结束。第一，如果t_n由于初始基音轨迹在t_n+T之前结束而不能增加，则处理终止。如果已经使用了整个预处理缓冲器，或者要编码的语音信号已经结束，或者如果基音传输已经在非活动语音或无声语音期间暂停，则这可能会发生。第二，为了更有效地对点的时标进行编码，可对单个线性部分的最大长度进行限制。对于这两种情况，通过基于可用基音轨迹的持续时间和线终端之间的最大时间距离设置限制t_nmax，可以对这些问题进行考虑。这个方法在图5中的流程图600中进行了描述，图5表示一个线性片段的优化处理。

流程图600表示用于选择表示片段基音轨迹的一个线性段的直线的迭代处理。直线具有始点Q(f(t_n-1))和终点Q(f(t_n))。对于第一个线性段，始点Q(f(t_n-1))和终点Q(f(t_n))必须被选择。对于所有其它的线性段，只有终点Q(f(t_n))必须被选择。在迭代处理开始，选择在t_n＝t_n-1+T开始的线性段。始点Q(f(t_n-1))和终点Q(f(t_n))被认为是到当时为止的最佳终点。因此，在步骤602，设定t_n＝t_n+T。在步骤604，终点被选择为接近f(t_n)的点。对于第一个线性段，始点接近f(t_n-1)。对于所有其它的段，始点是固定的。在步骤606，对t_n-1到t_n的时间段中的候选线和每个基音值之间的偏差进行测量。在步骤608，为了确定当前直线是否能够被接受为候选，将该偏差与预定的误差值进行比较。如果该时间段中的某些基音值的偏差超过了预定的误差值，则对终点(如果该线性段是第一个段，则和始点一起)进行调整，并且迭代处理返回步骤606直至没有可能调整。如果在步骤608中确定当前直线是可接受的，则在步骤610中将它与稍早的结果进行比较，从而确定它是否为到当时为止的最佳直线。到当时为止的最佳直线是到当时为止已经获得的具有相同i的直线中具有最小绝对偏差的直线。在步骤612中存储到当时为止的最佳线。在步骤620中再次对终点进行调整，直到不可能进行调整。

当步骤620中确定不再可能进行调整时，确定是否停止迭代处理并且使用步骤612中存储的最佳线作为当前线段，或者是否通过在步骤626中将t_n增加T以进一步伸展线段(除非步骤624中确定当前t_n已经等于t_max)。可能的情况是，在将t_n增加T之后，在步骤622中确定没有伸展的线可被接受。在这种情况下，具有先前t_n的最佳线被用作当前段的直线。候选的数量可以例如通过对终点能够与取样值不同的程度的最大限制进行设置来限制。不同终点候选之间的间隔也可以被设置以限制可能候选的数量。

实践中的实施

本说明书中引入的基音轨迹量化技术包括在为存储应用设计的实践中的语音编码器中。编码器以非常低的比特率(约为1kbps)工作，并且在可变持续时间(20ms到640ms之间)的段中对8kHz输入语音进行处理。在实践中的实施中，使用简单的次优化方法，并且在优化中只考虑位于当前段中的基音轨迹。在无声的或非活动段中，没有基音信息被编码。变量T被设置为10ms，等于基音估计间隔。另外，连续的基音轨迹使用估计的基音值p_k形成的离散轨迹进行近似(间隔为10ms)。因此，最优性条件(II)变为

d(p_k，g(kT))≤h(p_k)，对于所有的0≤k≤t_max/T.

(5)

另外，等式1中的总失真的最小化用下面等式的最小化来近似，

即

\tilde{D} = Σ_{k = 0}^{t_{\max}} d (p_{k}, g (kT)),

(6)

其中，函数d被定义为绝对误差，即d(x，y)＝|x-y|。

定义给定基音值的最大可允许编码误差的函数h确定为

h(p_k)＝max(2,480p_k/8000)

(7)

同样的函数也用于生成代码簿C中，该代码簿用于基音值q_n的标量量化中。32个层级(5比特)的条目使用c_j＝c_j-1+h(c_j-1)计算，其中c₁＝19。这个代码簿覆盖了用于编码器中的基音周期范围并且与实验发现相当一致。还有，如果假定人耳的频率分辨率随频率的增加而减小，则这个代码簿和函数h近似地遵循临界频带(critical band)理论。为了进一步增强知觉性能，在对数域中进行量化。

在某个时间使用差分量化对时标进行编码，除非由于t₁已经是()所以该标标对于每个段的第一个点根据没有被编码。在差分编码方案中，使用给定时标和先前时标之前的时间距离以大小为T的间隔对给定时标进行编码。更准确地，通过将((t_n-t_n-1)/T)-1转换为包括「log₂(i_max-1)」比特的二进制表达对给定值t_n进行编码，其中，i_max表示对于当前线性片段所允许的最大长度。在我们的实施中使用一个附加的手段以提高编码效率：如果将要编码的时标数超过段中即刻的基音估计的半数，则对“空”时标而不是时标t_n进行编码(一个比特用于指示使用了哪个编码方案)。然而，应当注意到，存储编码器实施中使用的分段处理使得能够使得这个手段有效。在连续的基于帧的处理的一般情况下，一种更好的方式将是直接在时标值上使用某个无损耗编码技术，例如霍夫曼编码。

前面描述的实施能够使用约为100bps的平均比特速率对基音轨迹进行编码，从而使得与初始轨迹的偏差保持在低于等式7中定义的最大允许偏差以下。尽管比特速率很低，但是编码后的基音轨迹非常接近初始轨迹。在99bps上平均绝对编码误差和最大绝对编码误差分别为1.16和5.12个取样。当由听测专家判断时，编码后的轨迹可以容易地从初始轨迹被辨别，但是编码误差并不是特别地烦人。还没有明确地用自然听测者对基音量化技术进行检测；但是，正式的听测检测显示包括所提议的基音轨迹技术的存储编码器在很大程度上优于1.2kbps现有技术参考编码器，尽管平均比特速率降低了超过200bps(对于单独的基音，降幅约为70bps)。

总之，本发明利用了这样的事实，即通常的基音轨迹的展开相当地平滑但是包括偶然的快速变化，以便生成接近于初始轨迹的形状但是包括较少的将要编码的信息的片段线性基音轨迹。例如，仅对其导数变化的片段线性基音轨迹的点进行量化。在无声语音期间，恒定的默认基音值可以用于编码器和解码器。另外，在基音频率低的情况中，通过允许在基音频率低的情况下与真实基音轨迹之间较大的偏差来利用人听觉的属性。本发明实质上降低了足够的感性量化准确度所需的比特速率：使用合适的量化技术，可以在大约100bps的平均比特速率上达到接近在500bps(5比特量化器，每秒100基音值)上工作的常规的基音量化器的准确度水平。如果无损耗压缩被用于对本发明报告中所描述的方法进行补充，则甚至可能进一步将比特速率降低到例如大约80bps。

本发明的主要益处包括：

一可能使用比采用现有技术低得多的平均更新速率。

一能够在解码器上重新生成片段线性基音轨迹，从而使其非常接近真实基音轨迹。

一本发明考虑了这样的事实，即当基音频率低的时候人耳对基音变化更加敏感。

一本技术能够相当大地降低比特速率。

一本发明能够作为附加功能块实施，该附加功能块能够与现有的语音编码器使用。

本发明适于存储应用并且已经成功地用在用于对音频消息进行预记录的语音编码器中。在目标应用中，音频消息(音频菜单)被记录在计算机上并被离线编码。然后，作为结果的低速率比特流能够在移动终端中进行存储并在本地进行解码。低速率比特流能够由如图6所示的通信网络中的元件提供。图6为根据本发明的能够用于预记录音频菜单和类似应用的编码器实施相关存储的通信网络的代表。如图中所示，该网络包括多个连接到交换子站(NSS)的基站(BS)，该交换子站还连接到其它网络。该网络还包括多个能够和基站进行通信的移动站(MS)。移动站可以是移动终端，通常称之为完整终端。移动站还可以是没有显示器、键盘、电池、盖子等的终端模块。移动站还可以是用于从压缩模块20接收比特流120的解码器40(见图3)。压缩模块20可以位于基站、交换子站或在另一个网络中。

虽然已经针对其优选实施例对本发明进行了描述，但是本领域的技术人员应当理解，可以进行前面及各种其它的改变、省略和形式和细节中的改变，这不脱离本发明的范围。

Claims

1.一种提高音频编码的编码效率的方法，其中，对音频信号进行编码以提供指示所述音频信号的参数，所述参数包括基音轨迹数据，所述基音轨迹数据包括多个表示音频时间段的基音值，所述方法的特征在于：

根据所述基音轨迹数据生成多个简化的基音轨迹段候选，每个候选对应于所述音频信号的子段，其中，每个子段具有始点基音值和终点基音值，每个候选具有始段点和终段点，并且其中，所述候选的始段点与对应子段的所述始点基音值足够接近，所述候选的终段点与对应子段的所述终点基音值足够接近，从而满足所期望的准确度标准；

根据所测量的偏差和一个或多个预选择的标准，在所述候选中选择多个连续的段候选来表示所述音频段；以及

使用所选择段候选的特性对对应于所选择的段候选的音频信号的子段中的基音轨迹数据进行编码。

2.根据权利要求1所述的方法，其特征在于，所述音频时间段中的所述音频轨迹数据由多个对应于所述音频段中多个连续的子段的选择的候选进行近似，所述多个选择的候选中的每个候选由第一终点和第二终点限定，并且其中，所述编码包括提供指示所述终点的信息的步骤，从而允许解码器根据所述信息而非所述基音轨迹数据重新生成音频段中的所述音频信号。

3.根据权利要求2所述的方法，其特征在于，一些所述连续子段中的基音值的数量等于或大于3。

4.根据权利要求1所述的方法，其特征在于，所述生成步骤受到预选择的条件的限制，从而每个所述简化的基音轨迹段候选和对应子段中的每个所述基音值之间的偏差小于或等于预定的最大值。

5.根据权利要求4所述的方法，其特征在于，所述生成的段候选具有各种长度，并且所述选择基于段候选的所述长度，所述预选择标准包括所选择的候选在所述段候选中具有最大长度。

6.根据权利要求4所述的方法，其特征在于，所述选择步骤基于所述段候选的长度，所述预选择的标准包括所测量的偏差在一组具有相同长度的候选组中为最小。

7.根据权利要求1所述的方法，其特征在于，所述生成步骤通过调节所述段候选的终段点而执行。

8.根据权利要求1所述的方法，其特征在于所述音频信号包括语音信号。

9.根据权利要求2所述的方法，其特征在于至少一个所选择的候选为线性段。

10.根据权利要求2所述的方法，其特征在于至少一个所选择的候选为非线性段。

11.一种用于对包括基音轨迹数据的音频信号进行编码的编码设备，所述基音轨迹数据包括多个表示音频时间段的基音值，所述编码设备的特征在于：

用于接收所述基音轨迹数据的输入端；以及

数据处理模块，响应于所述基音轨迹数据，用于生成多个简化的基音轨迹段候选，每个候选对应于所述音频信号的子段，其中，每个子段具有始点基音值和终点基音值，每个候选具有始段点和终段点，并且其中，所述候选的始段点与对应子段的所述始点基音值足够接近，所述候选的终段点与对应子段的所述终点基音值足够接近，从而满足所期望的准确度标准，其中所述处理模块包括：

用于测量每个所述简化的基音轨迹段候选和对应子段中的所述基音值之间的偏差的算法；以及

用于根据所测量的偏差和预选择的标准在所述候选中选择多个连续的段候选来表示所述音频段的算法。

12.根据权利要求11所述的编码设备，其进一步的特征在于：

量化模块，响应于所选择的候选，用于使用所选择段候选的特性对对应于所选择段候选的音频信号的子段中的基音轨迹数据进行编码。

13.根据权利要求12所述的编码设备，其特征在于，所述量化模块提供表示所述子段中编码后的基音轨迹数据的音频数据，所述编码设备的进一步的特征在于：

存储设备，工作地连接到所述量化模块以接收所述音频数据，用于将所述音频数据存储到存储介质中。

14.根据权利要求12所述的编码设备，其进一步的特征在于：

输出端，工作地连接到存储介质，用于将所述编码后的基音轨迹数据提供给所述存储介质以便存储。

15.根据权利要求12所述的编码设备，其进一步的特征在于：

输出端，用于将所述编码后的基音轨迹数据发送到所述解码器，从而允许所述解码器也根据所述编码后的基音轨迹数据重新生成所述音频信号。

16.一种用于重新生成音频信号的解码器，其中，对所述音频信号进行编码以提供指示所述音频信号的参数，所述参数包括基音轨迹数据，所述基音轨迹数据包括多个表示音频时间段的基音值，并且其中，所述音频时间段中的所述基音轨迹数据由多个连续的简化段近似，每个简化段对应于所述音频段中的子段，其中，每个子段具有始点基音值和终点基音值，每个所述简化段由第一终点和第二终点限定，并且其中，所述简化段的第一终点与对应子段的所述始点基音值足够接近，所述简化段的第二终点与对应子段的所述终点基音值足够接近，从而满足所期望的准确度标准，所述解码器的特征在于：

输入端，用于接收表示限定所述子段的终点的音频数据；以及

重新生成模块，用于根据所接收的音频数据重新生成所述音频段。

17.根据权利要求16所述的解码器，其特征在于，所述音频数据记录在电子介质上，并且其中，解码器的所述输入端工作地连接到电子介质以接收所述音频数据。

18.根据权利要求16所述的解码器，其特征在于，所述音频数据通过通信信道传输，并且解码器的所述输入端工作地连接到所述通信信道以接收所述音频数据。

19.一种电子设备，其特征在于：

用于重新生成音频信号的解码器，其中，对所述音频信号进行编码以提供指示所述音频信号的参数，所述参数包括基音轨迹数据，所述基音轨迹数据包括多个表示音频时间段的基音值，并且其中，所述音频时间段中的所述基音轨迹数据由多个连续的简化段近似，每个简化段对应于所述音频段中的子段，其中每个子段具有始点基音值和终点基音值，每个所述简化段由第一终点和第二终点限定，并且其中，所述简化段的第一终点与对应子段的所述始点基音值足够接近，所述简化段的第二终点与对应子段的所述终点基音值足够接近，从而满足所期望的准确度标准，从而能够根据限定所述简化段的终点生成所述音频段；以及

输入端，用于接收指示所述终点的音频数据并且将所述音频数据提供给解码器。

20.根据权利要求19所述的电子设备，其特征在于，所述音频数据被记录在电子介质中，并且所述输入端工作地连接到电子介质以接收所述音频数据。

21.根据权利要求19所述的电子设备，其特征在于，所述音频数据通过通信信道传输，所述输入端工作地连接到所述通信信道以接收所述音频数据。

22.根据权利要求19到21任意之一所述的电子设备，包括移动终端。

23.一种通信网络，其特征在于：

多个基站；以及

多个与所述基站进行通信的移动站，其中，至少一个所述移动站包括：

用于重新生成音频信号的解码器，其中，对所述音频信号进行编码以提供指示所述音频信号的参数，所述参数包括基音轨迹数据，所述基音轨迹数据包括多个表示音频时间段的基音值，并且其中，所述音频时间段中的基音轨迹数据由多个连续的简化段近似，每个简化段对应于所述音频段中的子段，其中，每个子段具有始点基音值和终点基音值，每个所述简化段由第一终点和第二终点限定，并且其中，所述简化段的第一终点与对应子段的始点基音值足够接近，所述简化段的第二终点与对应子段的终点基音值足够接近，从而满足所期望的准确度标准；以及

输入端，用于从至少一个所述基站接收指示所述终点的音频数据来将所述音频数据提供给解码器。