CN100421370C

CN100421370C - 一种amr语音编码的源控制速率中降低sid帧传输速率的方法

Info

Publication number: CN100421370C
Application number: CNB2005100867440A
Authority: CN
Inventors: 邹丽恒; 张�林; 郭更生
Original assignee: Lianzhan Science And Technology (tianjin) Co Ltd
Current assignee: Lianzhan Science And Technology (tianjin) Co Ltd
Priority date: 2005-10-31
Filing date: 2005-10-31
Publication date: 2008-09-24
Anticipated expiration: 2025-10-31
Also published as: CN1767421A

Abstract

本发明涉及语音编码领域。本发明提出了一种在AMR语音编码的源控制速率中，降低静音帧传输速率的方法，它采用较低的速率模式的码本量化LSF(线谱频率)矢量，将LSF矢量子帧划分为8、8、7，减少静音帧的比特数，从而降低静音模式时的传输速率。本发明具有以下优点：使SID帧的传输速率由原来的1.8kb/s下降到1.6kb/s，下降幅度达11.1%，提高系统资源利用率，节省宝贵的无线带宽，进而提供系统容量，并且方法简便易行，不会增加系统的复杂度。

Description

一种AMR语音编码的源控制速率中降低SID帧传输速率的方法

技术领域

本发明涉及语音编码领域，具体的涉及在AMR语音编码的源控制速率中降低SID帧传输速率的方法。

背景技术

自适应多速率(AMR：Adaptive Multi Rate)语音编码是第三代移动通信标准化的伙伴项目(3GPP)制定的用于第三代移动通信WCDMA系统中的语音压缩编码技术。它与以前的移动通信语音编码方式区别之一在于，以前的移动通信语音编码采用的是固定的编码速率。但人类在进行语音通信时，大约有70％左右的空闲时间是没有讲话的，因此，始终用一个速率进行语音编码对信道资源是一种浪费。另外，随着移动通信的发展，尤其是第三代移动通信系统，对采用较低的编码速率进行语音编码，从而增加系统容量和获得较高的语音通话质量方面提出了更高的要求。因此，传统的移动语音编码技术，因为其单一的容错度的特点，所以很难同时满足这两个要求。

AMR声码器由以下几个部分组成：多速率语音编码器，源控制速率(SCR)方案(包括语音激励检测器和舒适噪声生成系统)，对抗传输错误和丢包带来的影响的差错隐藏机制。

其中，源控制速率(SCR)技术是AMR编码器的重要组成部分。该操作是针对输入信号仅为背景噪声的情况下，采用比通常情况低的比特速率(1.80kbps)进行编码，以节省用户设备的耗电量并降低整个网络的干扰与负载。

SCR机制要求：发射端的语音激励检测器(VAD)对背景噪声进行评价，并将特征参数发送给接收端；接收端接收相关信息，并以此生成舒适背景噪声(comfort noise)。如果发送端被关掉或接收端没有收到有效的语音信号，则接收端要生成舒适噪声。另外，如果接收端接收到的参数由于传输差错而严重恶化，则在接收端必须由替代的数据生成语音或舒适噪声，从而避免产生令人讨厌的效果。

在3GPP发布的技术规范26.093《源控制速率操作》中规定，接收方所有的SCR操作都是由接收方SCR控制器控制的，接收方SCR控制器包括了2个主要的模式：语音模式和舒适噪声模式，其中语音模式是它的初始模式。

SCR中，帧的内容包括信息比特、速率指示和发送类型，其中发送类型用于说明发送帧中的类型。它包括2种语音信息帧和3种静音帧(Silence Description，即SID)和1种空帧，其中，根据3GPP发布的技术规范26.101《AMR语音编解码器；帧结构》，如果接收方接收到SID_FIRST，SID_UPDATE或者SID_BAD帧，接收方SCR控制器会进入舒适噪声状态并且引起舒适噪声产生，其中SID_BAD帧会被替代或者静音处理。只要接收方SCR控制器在舒适噪声模式下，它将忽略所有无用的信息帧(譬如NO_DATA帧，SPEECH_BAD帧)，这样舒适噪声会一直产生。表1给出了6种帧的类型：

帧类型	识别信息和比特数
帧类型	识别信息和比特数	SPEECH_GOOD	语音帧。根据不同编码模式，从95到244比特不等
SPEECH_BAD	损坏的语音帧。根据不同编码模式，从95到244比特不等	SPEECH_GOOD	语音帧。根据不同编码模式，从95到244比特不等
SPEECH_BAD	损坏的语音帧。根据不同编码模式，从95到244比特不等	SID_FIRST	语音结束标志。共35比特的舒适背景噪声，均被置为0

SID_UPDATE	共35比特的舒适背景噪声
SID_UPDATE	共35比特的舒适背景噪声	SID_BAD	损坏的SID_UPDATE
NO_DATA	空。不含有效信息	SID_BAD	损坏的SID_UPDATE

表1

这些帧识别信息会随着帧信息在网络中传输。其中，SPEECH_GOOD帧表示当前帧是一个有效的语音信息被编码后的信息帧；SID_FIRST帧出现在语音结束之后，表示从当前帧开始处于静音模式；如果出现持续的静音时段，就会出现SID_UPDATE帧，并以每8个帧为周期重复出现，直到静音时段结束。

接收端通常在接到一个有效的SID帧后即合成舒适背景噪声。当语音帧被接收时，前7帧的LP(线性预测)参数和能量参数将被保存在寄存器中。解码端对从上一次SID帧进行更新以来经过帧的数目计数，来决定在语音尾端是否进行延迟保护。一旦接收到SID帧，译码端就开始产生舒适背景噪声。

根据3GPP发布的技术规范26.092《强制的语音编解码器语音处理功能；AMR语音编解码器；舒适噪声方面》，在发送端，舒适背景噪声估计算法是利用AMR算法中的非量化线性预测参数和12.2kb/s速率算法中的第二组未量化的LSF(线性谱频率)参数。进而计算出以下参数以产生舒适背景噪声：平均LSF矢量f^mean和帧能量的对数平均en_log ^mean。这些参数给出了背景噪声的能量和谱信息。这些信息被编码成静音帧(SID)，并传送到接收端，接收端以此生成舒适背景噪声。静音帧的比特分配见表2：

比特分配

说明

S1～S3	参考矢量索引号
S1～S3	参考矢量索引号	S4～S11	参考矢量第一个LSF子帧索引号
S12～S20	参考矢量第二个LSF子帧索引号	S4～S11	参考矢量第一个LSF子帧索引号
S12～S20	参考矢量第二个LSF子帧索引号	S21～S29	参考矢量第三个LSF子帧索引号
S30～S35	帧能量的对数形式索引号	S21～S29	参考矢量第三个LSF子帧索引号

表2

可见，SID帧每帧长为20ms，总比特数为35，因此SID速率为1.8kb/s。其中，量化帧能量的S30-S35这6个比特不能减少；参照LSF矢量的S1-S3这3个比特索引值也不可以。如果能减少其余的26个比特中的一部分信息，那么，从而获得一种可以降低SID帧传输速率的方法，是有可能实现的。

发明内容

(一)要解决的技术问题

本发明的目的是要克服目前现有技术的缺陷，提出一种AMR语音编码的源控制速率中，降低SID帧传输速率的方法，从而减少静音模式传输时对带宽的占用，有效的节约网络带宽资源。

(二)技术方案

本发明提出一种AMR语音编码的源控制速率中降低SID帧传输速率的方法，具体的说，在发送端采用5.15kb/s速率模式下的码本量化舒适噪声的线谱频率矢量。

本发明提出一种AMR语音编码的源控制速率中降低SID帧传输速率的方法，具体的说，在发送端采用4.75kb/s速率模式下的码本量化舒适噪声的线谱频率矢量。

(三)有益效果

采用本发明，具有以下优点：

使SID帧的传输速率由原来的1.8kb/s下降到1.6kb/s，下降幅度达11.1％，提高系统资源利用率，节省带宽占用，进而提供系统容量，并且方法简便易行，在接收端不需要任何额外的处理，不会增加系统的复杂度。

附图说明

图1为输入的语音样本的背景噪声部分的波形。

图2为现有技术产生的舒适背景噪声波形。

图3为采用本发明所述方法产生的舒适背景噪声波形。

图4为图1和图3的对比图，其中，黑色波形为输入的语音样本的背景噪音部分的波形，灰色波形为采用本发明所述的方法产生的舒适背景噪音波形。

具体实施方式

以下实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由各权利要求限定。

在源速率控制机制SCR中，可采取舒适背景噪声来解决背景噪声不连续的问题。即，在发送端对舒适背景噪声的参数进行估计，然后以一定速率发送到接收端。

在发送端，舒适背景噪声估计算法利用AMR算法中的非量化线性预测参数和12.2kb/s速率算法中的第二组未量化的LSF(线性谱频率)参数，计算出以下参数以产生舒适背景噪声：平均LSF矢量f^mean和帧能量的对数平均en_log ^mean。平均LSF矢量的计算公式是：

f^{mean} (i) = \frac{1}{8} Σ_{n = 0}^{7} f (i - n)

其中，f(i)为当前帧的LSF参数，f(i-n)为当前帧(n＝0)前面第n帧的LSF参数。可见在发送端，对LSF参数的量化精度要求并不高。

因此，可以采用较现有技术的更低的速率模式下的码本对LSF进行量化，从而减少SID帧的比特数。

因此，本实施例中以5.15kb/s速率模式下的码本对LSF进行量化。采用各种速率模式下的码本量化后的比特分配见表3：

速率模式	子矢量1	子矢量2	子矢量3
速率模式	子矢量1	子矢量2	子矢量3	10.2kb/s	8	9	9
7.95kb/s	9	9	9	10.2kb/s	8	9	9
7.95kb/s	9	9	9	7.4kb/s	8	9	9
6.7kb/s	8	9	9	7.4kb/s	8	9	9
6.7kb/s	8	9	9	5.9kb/s	8	9	9
5.15kb/s	8	8	7	5.9kb/s	8	9	9
5.15kb/s	8	8	7	4.75kb/s	8	8	7

表3

可见，在本实施例中，采用5.15kb/s速率模式的码本量化LSF矢量，其LSF矢量子帧划分为8、8、7。量化后的SID帧的总比特数从原有的35比特减少至32个比特，因此传输速率由现有技术的1.8kb/s下降到1.6kb/s。

因为LSF参数是短期分析得出的反应语音波形包络结构的频域采样点，其储存着关于语音信号的包络信息。对于高斯噪声，其频谱是平坦的，而精细结构是随机无序的。由于背景噪声近似于高斯噪声，其包络有些微起伏，因此要求SID帧只需要传送反应包络信息的LSF参数，而反映信号精细结构的固定码本激励不需要传送。

在接收端，在舒适背景噪声产生期间，舒适背景噪声的谱和能量是在新旧SID帧间进行内插而得到的。为使舒适背景噪声效果更好，在接收端对LSF矢量添加了一些噪声。先求前8帧的平均LSF矢量，然后将前8帧的每一帧LSF矢量减去这个平均LSF矢量，将这些残差组成一个新的矩阵，最后从这个矩阵随机抽取一个矢量，与内插的LSF矢量进行相加。产生舒适噪声的固定码本激励不从参数中获得，是由接收端随机产生的，SID的两个参数只决定产生舒适噪声的包络结构。也就是说，采用本发明的方法，在接收端方面，不需要现有技术以外的额外处理。

因此，在采用低速率模式的码本进行LSF量化，并不会很大的影响产生的舒适背景噪声的噪声质量，下面由仿真程序来进行验证。

本实施例的仿真程序由C语言编写，在MicroSoft Vitual C++6.0环境下执行。程序执行结果通过Microcal Origin 6.0得到各波形图。输入语音样本为DTX2.INP，而语音传输模式采用MR74(7.4kb/s)。

输入波形为图1所示的语音样本，对其LSF量化采用和7.40kb/s模式相同的码本，三个LSF子帧的比特分配如表3，子矢量分别为：8、9、9，SID帧总比特数为35，传输速率为1.8kb/s，则产生图2所示的舒适背景噪声波形；采用本发明的方法，LSF量化采用和5.15kb/s模式相同的码本，三个LSF子帧的比特分配如表3，子矢量分别为：8、8、7，SID帧总比特数为32，速率为1.6kb/s，产生图3所示的舒适背景噪声波形。

由图2和图3的比较，可以看到，采用5.15kb/s模式下量化LSF矢量的SID帧所产生的舒适背景噪声与在7.40kb/s模式下量化LSF矢量的SID帧所产生的舒适背景噪声波形图差别很小。

通过图1和图3的对比图——图4可以看出，采用5.15kb/s模式下量化后生成的舒适背景噪声与发送端原始的背景噪声匹配得比较好，其包络与发送端得背景噪声波形保持一致。

从本实施例中说明，可以通过在发送端采用较低速率模式下的码本来量化LSF矢量，达到缩减所发送的SID帧比特数，从而降低SID传送速率；并且在接收端不需要额外的处理，不增加任何系统负担。采用本发明的方法，能有效的减少对带宽资源的占用，而且对产生的舒适背景噪声质量影响几乎可以忽略。

Claims

1. 一种AMR语音编码的源控制速率中降低SID帧传输速率的方法，其特征在于，在发送端采用5.15kb/s速率模式下的码本量化舒适噪声的线谱频率矢量。

2. 一种AMR语音编码的源控制速率中降低SID帧传输速率的方法，其特征在于，在发送端采用4.75kb/s速率模式下的码本量化舒适噪声的线谱频率矢量。