CN100421370C - 一种amr语音编码的源控制速率中降低sid帧传输速率的方法 - Google Patents
一种amr语音编码的源控制速率中降低sid帧传输速率的方法 Download PDFInfo
- Publication number
- CN100421370C CN100421370C CNB2005100867440A CN200510086744A CN100421370C CN 100421370 C CN100421370 C CN 100421370C CN B2005100867440 A CNB2005100867440 A CN B2005100867440A CN 200510086744 A CN200510086744 A CN 200510086744A CN 100421370 C CN100421370 C CN 100421370C
- Authority
- CN
- China
- Prior art keywords
- rate
- frame
- transmission rate
- sid
- lsf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及语音编码领域。本发明提出了一种在AMR语音编码的源控制速率中,降低静音帧传输速率的方法,它采用较低的速率模式的码本量化LSF(线谱频率)矢量,将LSF矢量子帧划分为8、8、7,减少静音帧的比特数,从而降低静音模式时的传输速率。本发明具有以下优点:使SID帧的传输速率由原来的1.8kb/s下降到1.6kb/s,下降幅度达11.1%,提高系统资源利用率,节省宝贵的无线带宽,进而提供系统容量,并且方法简便易行,不会增加系统的复杂度。
Description
技术领域
本发明涉及语音编码领域,具体的涉及在AMR语音编码的源控制速率中降低SID帧传输速率的方法。
背景技术
自适应多速率(AMR:Adaptive Multi Rate)语音编码是第三代移动通信标准化的伙伴项目(3GPP)制定的用于第三代移动通信WCDMA系统中的语音压缩编码技术。它与以前的移动通信语音编码方式区别之一在于,以前的移动通信语音编码采用的是固定的编码速率。但人类在进行语音通信时,大约有70%左右的空闲时间是没有讲话的,因此,始终用一个速率进行语音编码对信道资源是一种浪费。另外,随着移动通信的发展,尤其是第三代移动通信系统,对采用较低的编码速率进行语音编码,从而增加系统容量和获得较高的语音通话质量方面提出了更高的要求。因此,传统的移动语音编码技术,因为其单一的容错度的特点,所以很难同时满足这两个要求。
AMR声码器由以下几个部分组成:多速率语音编码器,源控制速率(SCR)方案(包括语音激励检测器和舒适噪声生成系统),对抗传输错误和丢包带来的影响的差错隐藏机制。
其中,源控制速率(SCR)技术是AMR编码器的重要组成部分。该操作是针对输入信号仅为背景噪声的情况下,采用比通常情况低的比特速率(1.80kbps)进行编码,以节省用户设备的耗电量并降低整个网络的干扰与负载。
SCR机制要求:发射端的语音激励检测器(VAD)对背景噪声进行评价,并将特征参数发送给接收端;接收端接收相关信息,并以此生成舒适背景噪声(comfort noise)。如果发送端被关掉或接收端没有收到有效的语音信号,则接收端要生成舒适噪声。另外,如果接收端接收到的参数由于传输差错而严重恶化,则在接收端必须由替代的数据生成语音或舒适噪声,从而避免产生令人讨厌的效果。
在3GPP发布的技术规范26.093《源控制速率操作》中规定,接收方所有的SCR操作都是由接收方SCR控制器控制的,接收方SCR控制器包括了2个主要的模式:语音模式和舒适噪声模式,其中语音模式是它的初始模式。
SCR中,帧的内容包括信息比特、速率指示和发送类型,其中发送类型用于说明发送帧中的类型。它包括2种语音信息帧和3种静音帧(Silence Description,即SID)和1种空帧,其中,根据3GPP发布的技术规范26.101《AMR语音编解码器;帧结构》,如果接收方接收到SID_FIRST,SID_UPDATE或者SID_BAD帧,接收方SCR控制器会进入舒适噪声状态并且引起舒适噪声产生,其中SID_BAD帧会被替代或者静音处理。只要接收方SCR控制器在舒适噪声模式下,它将忽略所有无用的信息帧(譬如NO_DATA帧,SPEECH_BAD帧),这样舒适噪声会一直产生。表1给出了6种帧的类型:
帧类型 | 识别信息和比特数 |
SPEECH_GOOD | 语音帧。根据不同编码模式,从95到244比特不等 |
SPEECH_BAD | 损坏的语音帧。根据不同编码模式,从95到244比特不等 |
SID_FIRST | 语音结束标志。共35比特的舒适背景噪声,均被置为0 |
SID_UPDATE | 共35比特的舒适背景噪声 |
SID_BAD | 损坏的SID_UPDATE |
NO_DATA | 空。不含有效信息 |
表1
这些帧识别信息会随着帧信息在网络中传输。其中,SPEECH_GOOD帧表示当前帧是一个有效的语音信息被编码后的信息帧;SID_FIRST帧出现在语音结束之后,表示从当前帧开始处于静音模式;如果出现持续的静音时段,就会出现SID_UPDATE帧,并以每8个帧为周期重复出现,直到静音时段结束。
接收端通常在接到一个有效的SID帧后即合成舒适背景噪声。当语音帧被接收时,前7帧的LP(线性预测)参数和能量参数将被保存在寄存器中。解码端对从上一次SID帧进行更新以来经过帧的数目计数,来决定在语音尾端是否进行延迟保护。一旦接收到SID帧,译码端就开始产生舒适背景噪声。
根据3GPP发布的技术规范26.092《强制的语音编解码器语音处理功能;AMR语音编解码器;舒适噪声方面》,在发送端,舒适背景噪声估计算法是利用AMR算法中的非量化线性预测参数和12.2kb/s速率算法中的第二组未量化的LSF(线性谱频率)参数。进而计算出以下参数以产生舒适背景噪声:平均LSF矢量fmean和帧能量的对数平均enlog mean。这些参数给出了背景噪声的能量和谱信息。这些信息被编码成静音帧(SID),并传送到接收端,接收端以此生成舒适背景噪声。静音帧的比特分配见表2:
比特分配 | 说明 |
S1~S3 | 参考矢量索引号 |
S4~S11 | 参考矢量第一个LSF子帧索引号 |
S12~S20 | 参考矢量第二个LSF子帧索引号 |
S21~S29 | 参考矢量第三个LSF子帧索引号 |
S30~S35 | 帧能量的对数形式索引号 |
表2
可见,SID帧每帧长为20ms,总比特数为35,因此SID速率为1.8kb/s。其中,量化帧能量的S30-S35这6个比特不能减少;参照LSF矢量的S1-S3这3个比特索引值也不可以。如果能减少其余的26个比特中的一部分信息,那么,从而获得一种可以降低SID帧传输速率的方法,是有可能实现的。
发明内容
(一)要解决的技术问题
本发明的目的是要克服目前现有技术的缺陷,提出一种AMR语音编码的源控制速率中,降低SID帧传输速率的方法,从而减少静音模式传输时对带宽的占用,有效的节约网络带宽资源。
(二)技术方案
本发明提出一种AMR语音编码的源控制速率中降低SID帧传输速率的方法,具体的说,在发送端采用5.15kb/s速率模式下的码本量化舒适噪声的线谱频率矢量。
本发明提出一种AMR语音编码的源控制速率中降低SID帧传输速率的方法,具体的说,在发送端采用4.75kb/s速率模式下的码本量化舒适噪声的线谱频率矢量。
(三)有益效果
采用本发明,具有以下优点:
使SID帧的传输速率由原来的1.8kb/s下降到1.6kb/s,下降幅度达11.1%,提高系统资源利用率,节省带宽占用,进而提供系统容量,并且方法简便易行,在接收端不需要任何额外的处理,不会增加系统的复杂度。
附图说明
图1为输入的语音样本的背景噪声部分的波形。
图2为现有技术产生的舒适背景噪声波形。
图3为采用本发明所述方法产生的舒适背景噪声波形。
图4为图1和图3的对比图,其中,黑色波形为输入的语音样本的背景噪音部分的波形,灰色波形为采用本发明所述的方法产生的舒适背景噪音波形。
具体实施方式
以下实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由各权利要求限定。
在源速率控制机制SCR中,可采取舒适背景噪声来解决背景噪声不连续的问题。即,在发送端对舒适背景噪声的参数进行估计,然后以一定速率发送到接收端。
在发送端,舒适背景噪声估计算法利用AMR算法中的非量化线性预测参数和12.2kb/s速率算法中的第二组未量化的LSF(线性谱频率)参数,计算出以下参数以产生舒适背景噪声:平均LSF矢量fmean和帧能量的对数平均enlog mean。平均LSF矢量的计算公式是:
其中,f(i)为当前帧的LSF参数,f(i-n)为当前帧(n=0)前面第n帧的LSF参数。可见在发送端,对LSF参数的量化精度要求并不高。
因此,可以采用较现有技术的更低的速率模式下的码本对LSF进行量化,从而减少SID帧的比特数。
因此,本实施例中以5.15kb/s速率模式下的码本对LSF进行量化。采用各种速率模式下的码本量化后的比特分配见表3:
速率模式 | 子矢量1 | 子矢量2 | 子矢量3 |
10.2kb/s | 8 | 9 | 9 |
7.95kb/s | 9 | 9 | 9 |
7.4kb/s | 8 | 9 | 9 |
6.7kb/s | 8 | 9 | 9 |
5.9kb/s | 8 | 9 | 9 |
5.15kb/s | 8 | 8 | 7 |
4.75kb/s | 8 | 8 | 7 |
表3
可见,在本实施例中,采用5.15kb/s速率模式的码本量化LSF矢量,其LSF矢量子帧划分为8、8、7。量化后的SID帧的总比特数从原有的35比特减少至32个比特,因此传输速率由现有技术的1.8kb/s下降到1.6kb/s。
因为LSF参数是短期分析得出的反应语音波形包络结构的频域采样点,其储存着关于语音信号的包络信息。对于高斯噪声,其频谱是平坦的,而精细结构是随机无序的。由于背景噪声近似于高斯噪声,其包络有些微起伏,因此要求SID帧只需要传送反应包络信息的LSF参数,而反映信号精细结构的固定码本激励不需要传送。
在接收端,在舒适背景噪声产生期间,舒适背景噪声的谱和能量是在新旧SID帧间进行内插而得到的。为使舒适背景噪声效果更好,在接收端对LSF矢量添加了一些噪声。先求前8帧的平均LSF矢量,然后将前8帧的每一帧LSF矢量减去这个平均LSF矢量,将这些残差组成一个新的矩阵,最后从这个矩阵随机抽取一个矢量,与内插的LSF矢量进行相加。产生舒适噪声的固定码本激励不从参数中获得,是由接收端随机产生的,SID的两个参数只决定产生舒适噪声的包络结构。也就是说,采用本发明的方法,在接收端方面,不需要现有技术以外的额外处理。
因此,在采用低速率模式的码本进行LSF量化,并不会很大的影响产生的舒适背景噪声的噪声质量,下面由仿真程序来进行验证。
本实施例的仿真程序由C语言编写,在MicroSoft Vitual C++6.0环境下执行。程序执行结果通过Microcal Origin 6.0得到各波形图。输入语音样本为DTX2.INP,而语音传输模式采用MR74(7.4kb/s)。
输入波形为图1所示的语音样本,对其LSF量化采用和7.40kb/s模式相同的码本,三个LSF子帧的比特分配如表3,子矢量分别为:8、9、9,SID帧总比特数为35,传输速率为1.8kb/s,则产生图2所示的舒适背景噪声波形;采用本发明的方法,LSF量化采用和5.15kb/s模式相同的码本,三个LSF子帧的比特分配如表3,子矢量分别为:8、8、7,SID帧总比特数为32,速率为1.6kb/s,产生图3所示的舒适背景噪声波形。
由图2和图3的比较,可以看到,采用5.15kb/s模式下量化LSF矢量的SID帧所产生的舒适背景噪声与在7.40kb/s模式下量化LSF矢量的SID帧所产生的舒适背景噪声波形图差别很小。
通过图1和图3的对比图——图4可以看出,采用5.15kb/s模式下量化后生成的舒适背景噪声与发送端原始的背景噪声匹配得比较好,其包络与发送端得背景噪声波形保持一致。
从本实施例中说明,可以通过在发送端采用较低速率模式下的码本来量化LSF矢量,达到缩减所发送的SID帧比特数,从而降低SID传送速率;并且在接收端不需要额外的处理,不增加任何系统负担。采用本发明的方法,能有效的减少对带宽资源的占用,而且对产生的舒适背景噪声质量影响几乎可以忽略。
Claims (2)
1. 一种AMR语音编码的源控制速率中降低SID帧传输速率的方法,其特征在于,在发送端采用5.15kb/s速率模式下的码本量化舒适噪声的线谱频率矢量。
2. 一种AMR语音编码的源控制速率中降低SID帧传输速率的方法,其特征在于,在发送端采用4.75kb/s速率模式下的码本量化舒适噪声的线谱频率矢量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2005100867440A CN100421370C (zh) | 2005-10-31 | 2005-10-31 | 一种amr语音编码的源控制速率中降低sid帧传输速率的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2005100867440A CN100421370C (zh) | 2005-10-31 | 2005-10-31 | 一种amr语音编码的源控制速率中降低sid帧传输速率的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1767421A CN1767421A (zh) | 2006-05-03 |
CN100421370C true CN100421370C (zh) | 2008-09-24 |
Family
ID=36743053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2005100867440A Expired - Fee Related CN100421370C (zh) | 2005-10-31 | 2005-10-31 | 一种amr语音编码的源控制速率中降低sid帧传输速率的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100421370C (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101527140B (zh) * | 2008-03-05 | 2011-07-20 | 上海摩波彼克半导体有限公司 | 第三代移动通信系统amr计算量化平均对数帧能量的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020138260A1 (en) * | 2001-03-26 | 2002-09-26 | Dae-Sik Kim | LSF quantizer for wideband speech coder |
CN1509469A (zh) * | 2001-05-16 | 2004-06-30 | ��˹��ŵ�� | 语音编解码器中用于线频谱频率矢量量化的方法和系统 |
CN1622198A (zh) * | 2004-12-31 | 2005-06-01 | 清华大学 | 自适应帧选择线谱频率参数量化方法 |
-
2005
- 2005-10-31 CN CNB2005100867440A patent/CN100421370C/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020138260A1 (en) * | 2001-03-26 | 2002-09-26 | Dae-Sik Kim | LSF quantizer for wideband speech coder |
CN1509469A (zh) * | 2001-05-16 | 2004-06-30 | ��˹��ŵ�� | 语音编解码器中用于线频谱频率矢量量化的方法和系统 |
CN1622198A (zh) * | 2004-12-31 | 2005-06-01 | 清华大学 | 自适应帧选择线谱频率参数量化方法 |
Non-Patent Citations (8)
Title |
---|
A low bit rate codec for AMR standard. M.Foodeei, H.Zarrinkoub, R.Matmti,R.Rabipour, F.Gabin, S.Gosne.Speech Coding Proceedings, 1999 IEEE Workshop. 1999 |
A low bit rate codec for AMR standard. M.Foodeei, H.Zarrinkoub, R.Matmti,R.Rabipour, F.Gabin, S.Gosne.Speech Coding Proceedings, 1999 IEEE Workshop. 1999 * |
Interframe LSF quantization for noisy channels. Thomas Eriksson, Jan Linden, Jan Skoglund.Speech and Audio Processing, IEEE Transactions,Vol.7 No.5. 1999 |
Interframe LSF quantization for noisy channels. Thomas Eriksson, Jan Linden, Jan Skoglund.Speech and Audio Processing, IEEE Transactions,Vol.7 No.5. 1999 * |
New methods for adaptive noise suppression. Levent Arslan, Alan McCree, Vishu Viswanathan.Acoustics, Speech, and Signal Processing, 1995. ICASSP-95., 1995 International Conference,Vol.1 . 1995 |
New methods for adaptive noise suppression. Levent Arslan, Alan McCree, Vishu Viswanathan.Acoustics, Speech, and Signal Processing, 1995. ICASSP-95., 1995 International Conference,Vol.1 . 1995 * |
Single and double frame quantization of LSF parameters usingnoise feedback coding. A.R.Fazel, A.K.Khandani.Communications, 2001. ICC 2001. IEEE International Conference,Vol.8 . 2001 |
Single and double frame quantization of LSF parameters usingnoise feedback coding. A.R.Fazel, A.K.Khandani.Communications, 2001. ICC 2001. IEEE International Conference,Vol.8 . 2001 * |
Also Published As
Publication number | Publication date |
---|---|
CN1767421A (zh) | 2006-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1244907C (zh) | 宽带语音编解码器中的高频增强层编码方法和装置 | |
CA2722110C (en) | Apparatus and method for speech coding | |
CN1075692C (zh) | 通信系统中噪声抑制方法及装置 | |
CN1135759C (zh) | 语音译码器中计算挂起周期的方法、语音编码器和收发机 | |
US8060363B2 (en) | Audio signal encoding | |
CN103383846B (zh) | 改进语音丢包修补质量的语音编码方法 | |
CN102985969B (zh) | 编码装置、解码装置和编码方法、解码方法 | |
MXPA06012578A (es) | Codificacion de audio con distintos modelos de codificacion. | |
CN1692408A (zh) | 码分多址无线系统的可变比特率宽带语音编码中的有效带内半空白-突发序列信令及半速率最大操作的方法和装置 | |
US7016832B2 (en) | Voiced/unvoiced information estimation system and method therefor | |
CN104517612A (zh) | 基于amr-nb语音信号的可变码率编码器和解码器及其编码和解码方法 | |
WO2013096875A2 (en) | Adaptively encoding pitch lag for voiced speech | |
CN1728236A (zh) | 语音编码/解码方法及装置 | |
JP2003533902A (ja) | 符号化されたドメインのエコーの制御 | |
CN1244090C (zh) | 具备背景噪声再现的语音编码 | |
CN100421370C (zh) | 一种amr语音编码的源控制速率中降低sid帧传输速率的方法 | |
CN100499441C (zh) | 一种amr语音编码的源控制速率实现方法 | |
CN102254562B (zh) | 一种相邻高低速率编码模式间切换的变速率音频编码方法 | |
US8195469B1 (en) | Device, method, and program for encoding/decoding of speech with function of encoding silent period | |
CN101211561A (zh) | 音乐信号质量增强方法和装置 | |
US20130096913A1 (en) | Method and apparatus for adaptive multi rate codec | |
Gournay et al. | Performance analysis of a decoder-based time scaling algorithm for variable jitter buffering of speech over packet networks | |
CA2514249C (en) | A speech coding system using a dispersed-pulse codebook | |
Setiawan et al. | On the itu-t g. 729.1 silence compression scheme | |
Nieminen | Floating-Point Adaptive Multi-Rate Wideband Speech Codec |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20080924 Termination date: 20181031 |
|
CF01 | Termination of patent right due to non-payment of annual fee |