CN104025191A

CN104025191A - 用于自适应多速率编解码器的改进方法和设备

Info

Publication number: CN104025191A
Application number: CN201180074240.0A
Authority: CN
Inventors: S.布鲁恩; J.邝; J.王; C.张; S.赵
Original assignee: Ericsson China Communications Co Ltd
Current assignee: Ericsson China Communications Co Ltd
Priority date: 2011-10-18
Filing date: 2011-10-18
Publication date: 2014-09-03
Also published as: EP2761616A1; EP2761616A4; US20130096913A1; WO2013056388A1

Abstract

本发明提供用于对语音信号进行编码的设备和方法。编码包括：接收语音信号的多个当前样本；从当前样本外推多个前瞻样本；以及使用当前样本和外推的前瞻样本来执行线性预测分析。

Description

用于自适应多速率编解码器的改进方法和设备

技术领域

本申请涉及对语音信号进行编码的方法、用于对语音信号进行编码的设备以及计算机可读介质。

背景技术

许多语音编解码器采用代码激励线性预测(CELP)的框架。CELP要求使用线性预测(LP)分析。在一些语音编解码器中，在当前帧的LP分析期间利用下一帧中的语音样本。来自下一帧的所涉及样本称作前瞻样本。因为编码器必须等待前瞻样本被创建并且到达处理器，所以在当前样本的编码之前，前瞻过程固有地创建至少与前瞻样本跨越的时间期(其称作前瞻期)同样长的延迟。

例如，自适应多速率(AMR)编码模式的编码方案是代数代码激励线性预测(ACELP)。

AMR窄带(AMR-NB)的取样率为每秒8000个样本。编码比特率取决于模式。当前使用的编码模式为：4.75、5.15、5.90、6.70、7.40、7.95、10.2和12.2千比特/秒。在AMR-NB中，短期过滤系数使用每帧的分析窗口内的高通过滤语音样本计算。分析窗口的长度为240个样本。

在12.2千比特/秒模式中，两个不对称窗口用来生成每帧的两组LP系数。没有使用下一帧的样本(不存在前瞻)。在其它模式中，只有单个不对称窗口用来生成单组LP系数，并且这个窗口具有40样本前瞻，其意味着5 ms前瞻期。

在AMR宽带(AMR-WB)中，取样率为每秒16000个样本，但是处理速率降低到每秒12800个样本。编码比特率取决于模式。当前使用的编码模式为6.60、8.85、12.65、14.25、15.85、18.25、19.85、23.05和23.85千比特/秒。在AMR-WB中，分析窗口的长度为384个样本。对于所有模式，单个不对称窗口用来生成单组LP系数。这个窗口具有64样本前瞻，其要求在每秒12800个样本的处理速率下的5 ms前瞻期。

在上述示例中使用包括一些前瞻样本的窗口，因为与没有前瞻的窗口相比，所产生的编码语音的质量得到显著改进。

在AMR-NB的LP模型中，在对帧(当前帧)进行编码时，必须分析随后的帧的前40个样本。类似地，在AMR-WB的LP模型中，在对当前帧进行编码时，必须检查下一帧的前64个样本。在两种情况下，前瞻期均为5 ms。这个前瞻期引起延迟，其增加总传送延迟。这类延迟使语音通信的服务质量降级，并且可降低系统容量。

因此，5 ms的前瞻期是编码语音质量与传送延迟之间的折衷。需要用于AMR编解码器以及用于一般使用前瞻样本的编解码器的改进方法和设备。

在3GPP技术规范26.090 v10.0.0中描述了AMR语音编解码器和转码功能，其通过引用结合到本文中。在3GPP TS 26.190 v 10.0.0中描述了自适应多速率宽带(AMR-WB)语音编解码器和相应转码功能，其通过引用结合到本文中。AMR的进一步描述能够见于Information Technology：Coding and Computing (ITCC)，2004中发表的J.Makinen和J.Vainio的“Source signal based rate adaptation for GSM AMR speech codec”，其通过引用结合到本文中。关于线性预测的更多信息能够见于在IEEE ICASSP，Hong Kong，2003年4月中发表的W.C.Chu的“Gradient-Descent Based Window Optimization for Linear Prediction Analysis”，其通过引用结合到本文中。关于用于取样的窗口的更多信息能够见于在IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING，VOL. 11，NO. 6，2003年11月中发表的Wai C. Chu的“Window Optimization in Linear Prediction Analysis”。

发明内容

本文所述的方法和设备提供一种跳过前瞻期从而改进传送系统上的服务质量，而没有显著影响编码语音的质量的方式。这通过使用仍然要求前瞻样本的线性预测的取样窗口进行，而不是等待前瞻样本被创建并且到达处理器，前瞻样本从当前可用样本外推。外推样本替代线性预测分析中的前瞻样本。

已经发现本文所提供的方法和设备提供在使用不具有前瞻的取样窗口的系统上的显著改进的编码语音质量。

##权利要求## 采用斜体文本。

附图说明

现在将仅通过示例的方式参考附图来描述用于AMR编解码器以及一般使用前瞻样本的编解码器的改进方法和设备，其中：

图1是典型AMR编码器中使用的原始线性预测(LP)分析模型的流程图；

图2是示出可在线性预测分析的加窗和自相关过程中使用的窗口的图；

图3是本文提出的线性预测(LP)分析方法的流程图；

图4是本文所公开的方法的流程图，其中自相关用来从所接收的样本外推前瞻样本；

图5是本文所公开的方法的流程图，其中协方差用来从所接收的样本外推前瞻样本；

图6示出用于实现本文所述方法的设备；以及

图7示出在图6的设备中实现的方法。

具体实施方式

图1是典型AMR编码器中使用的原始线性预测(LP)分析模型的流程图。在110，接收输入语音信号，其经过预处理和取样。在预处理之后，在140，语音样本被加窗以计算自相关系数R[ ]。然后，在150，通过应用Levinson-Durbin算法并且使用自相关系数R[ ]来计算LP系数α_tmp。然后，在160，将LP系数α_tmp转换成线谱对(LSP)域用于量化和内插。

随后并且图1中未示出，内插量化的和未量化的过滤系数被转换回LP过滤系数(以便在每个子帧构造合成和加权过滤器)。在AMR-NB中，一个帧由160个样本组成并且因此具有20 ms的持续时间。每个帧由40个样本和持续时间5 ms的4个子帧组成。

图2示出图201，图201示出在线性预测分析的加窗和自相关过程中可使用的窗口的样本数量202与窗口权重203之间的关系。所示窗口是在较低比特率模式(除了12.2千比特/秒之外的所有模式)的AMR-NB中使用的窗口，并且在3GPP TS 26.090 v 10.0.0的第5.2.1节中描述。窗口跨越在编号为n-1(210)、n(220)、n+1(230)的3个帧上编号为0至239的240个样本。帧n 220是当前帧。每个帧由160个样本组成并且具有持续时间20 ms。每个帧由各具有40个样本和持续时间5 ms的4个子帧222组成。窗口使用来自当前帧220的样本、来自在前帧210的最后一个子帧的样本以及来自随后的帧230的第一子帧的样本。

图3是本文提出的线性预测(LP)分析方法的流程图。在310，接收输入语音信号，其经过预处理和取样。在预处理之后，在320，外推用来从所接收的样本得出前瞻样本。在332，尚未到达的原始前瞻样本由在320所产生的外推的前瞻样本替代。然后，LP分析可使用外推的前瞻样本继续进行，开始于340，其中适当的接收的和外推的语音样本被加窗以计算自相关系数R[ ]。然后，在350，通过应用Levinson-Durbin算法并且使用自相关系数R[ ]来计算LP系数α_tmp。然后，在360，将LP系数α_tmp转换成线谱对(LSP)域用于量化和内插。

按照AMR-NB算法，各子帧由40个样本组成，并且除了12.2千比特/秒模式之外的所有模式的前瞻为40个样本。因此，当本文所公开的方法应用于使用AMR-NB的系统时，40个前瞻样本从所接收的样本外推供线性预测分析中使用。这些外推的样本替代来自原始方法中使用的下一帧的样本，并且因此消除由等待这些所引起的5 ms延迟。

类似地，按照AMR-WB算法，各子帧为64个样本，并且线性预测分析的前瞻包括样本的一个子帧。因此，当本文所公开的方法应用于使用AMR-WB的系统时，64个前瞻样本从所接收的样本外推以供线性预测分析中使用。这些外推的样本替代来自原始方法中使用的下一帧的样本，并且因此消除由等待这些所引起的5 ms延迟。

图4是本文所公开方法的流程图，其中自相关用来从所接收的样本外推前瞻样本。在410，接收输入语音信号，其经过预处理和取样。在预处理之后，前瞻样本的外推在421以自相关和加窗开始。在421，自相关使用没有前瞻的窗口；该窗口仅包含当前帧的样本以及先前帧的最后两个子帧的样本。在421，对于由窗口所识别的样本计算自相关系数R[ ]。然后，在427，通过应用Levinson-Durbin算法并且使用自相关系数R[ ]来计算LP系数α_tmp。然后，LP系数α_tmp用来在428使用图4的框428中所示的公式来计算外推的前瞻样本s[n]。

在432，尚未接收的原始(或者“现实世界”)前瞻样本由在428所计算的外推的前瞻样本替代。然后，语音编码的LP分析可使用所接收的样本以及外推的前瞻样本（代替原始前瞻样本）继续进行。语音编码的LP分析开始于440，其中适当的当前样本和外推样本被加窗，并且计算所选择的样本的自相关系数R[ ]。然后，在450，通过应用Levinson-Durbin算法并且使用自相关系数R[]来计算这些样本的LP系数α_tmp。然后，在460，将LP系数α_tmp转换成线谱对(LSP)域用于量化和内插。然后，编码过程如上面描述的继续进行。

图5是本文所公开方法的流程图，其中协方差用来从所接收的样本外推前瞻样本。在510，接收输入语音信号，其经过预处理和取样。在预处理之后，前瞻样本的外推在522以协方差方法开始。在522，协方差使用无前瞻的窗口；该窗口仅包含当前帧的样本。在522，LU分解用来计算LP系数α_tmp。然后，LP系数α_tmp用来在528使用图5的框528中所示的公式来计算外推的前瞻样本s[n]。外推的前瞻样本的数量取决于LP分析的窗口。线性预测分析所需的样本的至少一些从所接收的样本外推。

在532，尚未接收的原始(或者“现实世界”)前瞻样本由在528所计算的外推的前瞻样本替代。然后，语音编码的LP分析可使用所接收的样本以及外推的前瞻样本（代替原始前瞻样本）继续进行。语音编码的LP分析开始于540，其中适当的当前样本和外推的样本被加窗，并且计算所选择的样本的自相关系数R[ ]。然后，在550，通过应用Levinson-Durbin算法并且使用自相关系数R[]来计算这些样本的LP系数α_tmp。然后，在560，将LP系数α_tmp转换成线谱对(LSP)域用于量化和内插。然后，编码过程如上面描述的继续进行。

图6示出用于实现本文所述方法的设备。该设备包括接收器610以及外推器620和编码器630。接收器610接收语音信号。接收器610执行预处理以创建多个样本。外推器620接收样本并且将外推方法应用于所接收的样本以创建外推的前瞻样本。然后编码器630逐帧对语音样本进行编码。作为编码过程的一部分，处理器620使用线性预测分析，具有关联的样本的至少一个窗口。在窗口包括前瞻样本的情况下，按常规来自随后的帧，外推的前瞻样本用来替代它们。

图6的设备中实现的通用方法在图7中示出。在710，接收语音样本。语音样本产生于输入语音信号的预处理。在720，前瞻样本从所接收的样本外推。外推可包括应用自相关方法、协方差方法或另一种外推方法。在730，对当前语音样本进行编码。编码使用所接收的语音样本以及外推的语音样本以执行关于语音样本的当前帧的线性预测分析。

线性预测分析给出LP系数，其转换成线谱对(LSP)域用于量化和内插。随后，内插的量化和未量化的过滤系数转换回LP过滤系数(以便在各子帧构造合成和加权过滤器)。

按照一些实施例，所有前瞻样本由从所接收的样本外推的外推样本替代。上述方法可同样适用于前瞻样本的一部分。例如，编码器可等待接收来自输入语音信号的前瞻样本的前一半，以及外推样本以替代后一半。在这个示例中，前瞻延迟减少一半。更一般地，前瞻延迟减少从所接收的样本外推的样本的部分。外推用来计算所需的前瞻样本的后面的部分。即，当已经接收到第一部分时还未接收到的那些。

已经发现，使用外推来跳过某个前瞻的上述方法对于AMR语音编解码器能够减少5 ms前瞻延迟，并且获得的语音质量接近于常规方法的语音质量。

对本领域技术人员将显而易见的是，在本文所述方法中实施的动作的确切顺序和内容可按照执行参数的特定集合的要求来改变。因此，描述和/或要求保护的动作所按照的顺序不是要被理解为对执行动作所按照的顺序的严格限制。

此外，虽然在特定通信标准的上下文中给出了示例，但是这些示例不是意在作为对所公开的方法和设备可适用的通信标准的限制。例如，虽然在AMR语音编码的上下文中给出了具体示例，但是本文所公开的原理也能够适用于使用前瞻样本作为编码过程的一部分的任何语音编码系统。

Claims

斜体文本仅用于发明内容部分

1.一种对语音信号进行编码的方法，所述方法包括：

接收所述语音信号的多个当前样本；

从所述当前样本外推多个前瞻样本；以及

使用所述当前样本和外推的前瞻样本来执行线性预测分析。
2.如权利要求1所述的方法，还包括：

接收语音信号；以及

预处理所述语音信号以创建当前样本。
3.如权利要求1或2所述的方法，其中所述线性预测分析用来为多个子帧中的每个构造线性预测过滤器。
4.如权利要求1、2或3所述的方法，其中使用自相关方法来执行所述线性预测分析。

这个部分指图5的上半部，其中使用自相关来计算所述前瞻样本。
5.如权利要求1至4中的任一项所述的方法，其中前瞻样本的所述外推使用自相关方法。
6.如权利要求5所述的方法，其中使用自相关方法的前瞻样本的所述外推包括从多个当前样本计算自相关。
7.如权利要求5或6所述的方法，其中窗口用来确定用于执行所述自相关的所述当前样本。

这个部分指图6的上半部，其中使用协方差来计算所述前瞻样本。
8.如权利要求1至4中的任一项所述的方法，其中，前瞻样本的所述外推使用协方差方法。
9.如权利要求8所述的方法，其中使用协方差方法的前瞻样本的所述外推包括从多个当前样本计算协方差。
10.如权利要求8或9所述的方法，其中预定的样本长度用来确定对其应用所述协方差方法的所述当前样本。
11.一种对语音信号进行编码的方法，所述方法包括使用前瞻值用于线性预测分析，所述方法特征在于所述前瞻样本从当前样本外推。
12.一种用于对语音信号进行编码的设备，所述设备包括：

接收器，布置成接收所述语音信号的多个当前样本；

外推器，布置成从所述当前样本外推多个前瞻样本；以及

编码器，布置成使用所述当前样本和外推的前瞻样本来执行线性预测分析。
13.如权利要求12所述的设备，其中所述处理器还布置成使用所述线性预测分析来为多个子帧中的每个构造线性预测过滤器。
14.如权利要求12或13所述的设备，其中所述处理器布置成使用自相关方法来执行所述线性预测分析。
15.如权利要求12至14中的任一项所述的设备，其中所述处理器还布置成使用自相关方法来生成用来外推所述多个前瞻样本的过滤器。
16.如权利要求15所述的设备，其中处理器还布置成从多个当前样本计算自相关。
17.如权利要求15或16所述的设备，其中所述处理器布置成使用窗口来确定对其应用所述自相关方法的所述当前样本。
18.如权利要求12至14中的任一项所述的设备，其中所述处理器还布置成使用协方差方法来外推所述多个前瞻样本。
19.如权利要求18所述的设备，其中所述处理器还布置成从多个当前样本计算协方差。
20.如权利要求18或19所述的设备，其中所述处理器布置成将预定数量的当前样本用于所述协方差方法。
21.一种用于对语音信号进行编码的设备，所述设备包括布置成将前瞻值用于线性预测分析的处理器，所述设备特征在于所述处理器还布置成从多个当前样本外推所述前瞻样本。
22.一种携带指令的计算机可读介质，所述指令在由计算机逻辑执行时促使所述计算机逻辑执行由权利要求1至11限定的方法中的任一方法。