CN102254562B - 一种相邻高低速率编码模式间切换的变速率音频编码方法 - Google Patents

一种相邻高低速率编码模式间切换的变速率音频编码方法 Download PDF

Info

Publication number
CN102254562B
CN102254562B CN2011101800509A CN201110180050A CN102254562B CN 102254562 B CN102254562 B CN 102254562B CN 2011101800509 A CN2011101800509 A CN 2011101800509A CN 201110180050 A CN201110180050 A CN 201110180050A CN 102254562 B CN102254562 B CN 102254562B
Authority
CN
China
Prior art keywords
coding
signal
rate
speed
coding mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2011101800509A
Other languages
English (en)
Other versions
CN102254562A (zh
Inventor
王晶
杨果
孟凯
赵胜辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN2011101800509A priority Critical patent/CN102254562B/zh
Publication of CN102254562A publication Critical patent/CN102254562A/zh
Application granted granted Critical
Publication of CN102254562B publication Critical patent/CN102254562B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种相邻高低速率编码模式间切换的变速率音频编码方法,属于音频编码领域,特别是适合用于多速率的音频编码器。其技术特点是首先对每帧音频信号在高速率下进行编解码,将该速率下各种编码模式的编码输入信号和解码输出信号通过感知加权滤波器后计算平均分段信噪比,并选出使感知加权平均分段信噪比最大的编码模式,然后在临近高速率的低编码速率下选出使编码输入信号和解码输出信号的感知加权平均分段信噪比最大的编码模式,最后分别对于高、低速率下选出来的编码模式,计算编码输入信号和解码输出信号平均分段信噪比,如果低速率编码模式下的平均分段信噪比相比高速率编码模式下的偏大,则切换到低速率编码模式,反之则切换到高速率编码模式。本发明的方法对每帧音频信号根据输出信号相对输入信号的失真大小,在相邻的高低编码速率下的各编码模式间切换,从而在保持良好编码质量的同时,降低音频信号的平均编码速率,从而提高多速率音频编码器的编码效率。

Description

一种相邻高低速率编码模式间切换的变速率音频编码方法
技术领域
本发明涉及一种相邻高低速率编码模式间切换的变速率音频编码方法,尤其是适合于包含多种编码速率的音频编码器,属于音频编码领域。
背景技术
变速率的音频编码技术是根据输入音频信号的统计特性,或者通信链路质量,或者网络用户的需求来控制信息传输速率,从而降低传输的平均码率,提高传输效率,它相对于传统的固定速率编码方法能够更好的节省信道带宽,受到研究者的广泛重视。一般而言,变速率的语音编码算法可以分为信源控制的或信道控制的两大类,后者可以是信道或网络控制编码速率可变,通常是根据外部控制信号从一种速率切换为预定速率集合中的另一种速率,如AMR自适应多速率语音编码,也可以是可分级的编解码方式。信源控制的变速率编码方法则是根据输入信号的特性来动态的分配编码比特或采用不同的编码模式,其编码器的目的是为了确保输出信号质量的同时给每帧音频信号分配尽可能少的比特,如3GPP2标准中提出的SMV可选模式声码器。
目前变速率编码的方法大多用于基于线性预测和码本激励的语音编码器,例如我国专利申请号为200810210215(公开日:2009年03月18日)和申请专利号为200710153938(公开日:2009年02月04日)的发明专利提出了根据合成数字话音帧的话音激活检测结果或者清浊音检测结果来确定编码速率的变速率码激励线性预测编码器和编码方法。后期产生了多模式变速率方法,它是针对不同特性的输入信号帧设计最佳的编码模式和分配最低的编码速率,并使编码器能够保持较好的解码声音质量。通常有两种技术可以实现多模式变速率,一种是闭环方式,一种是开环方式。前者基于某种失真准则通过闭环搜索判断哪种模式最适合当前帧编码,当选择合适的失真准则时能够使得语音帧和编码模式达到最佳匹配,后者通常基于语音帧分类的方式,对不同类的语音帧采用不同的编码模式或编码速率,以达到编码比特有效分配的效果。开环方式的复杂度较低,但需要鲁棒性较高的语音帧分类算法,闭环的计算复杂度较高,但编码模式匹配效果较好。VAD话音激活检测技术是变速率语音编码器中常用的方法,它通过降低语音静默段的量化编码比特从而大大降低整体编码速率,但在音乐信号的编码中并不适用,音乐信号不像语音信号在通话过程中存在50%左右的静默段,可以利用VAD技术来降低静默段的编码速率。3GPP2标准中提出的EVRC增强型可变速率编码器和SMV可选模式声码器都是基于语音帧分类的方式来确定每帧的量化编码方式和编码速率,从而达到整体编码速率的降低。
而3GPP标准中的AMR-NB(TS 26.090)、AMR-WB(TS 26.190)则是根据信道传输的恶劣情况来从预定的多种速率中选择合适的编码速率传输窄带或宽带语音,AMR-WB+(TS26.290)则是一种在AMR-WB基础上发展的自适应多速率的语音和音乐混合编码方法,在编码之前首先确定编码速率,对于每帧音频信号再选择合适的ACELP(代数码本激励)或TCX(Transform Coded Excitation)变换码激励编码模式,ACELP倾向于编码语音帧,TCX倾向于编码音频帧,对于每帧输入音频信号,从26种ACELP/TCX组合编码模式中选择最佳的编码模式。我国AVS数字音视频编码标准工作组提出的AVS-P10是多速率的移动语音和音频混合的编解码器,与AMR-WB+的编解码原理相似,其核心模块的编码方式有所不同,AVS-P10核心模块采用ACELP/TVC(Transform Vector Coding,变换域矢量编码),两者的单声道编码速率都有8种速率,立体声编码速率都有16种速率,两者均是信道控制的变速率编码,而没有采用信源控制变速率编码方法,尤其对音乐信号未有合适的源控变速率方式。
发明内容
本发明的目的是为了进一步提高多速率音频编码器的编码效率,压缩编码带宽,利用闭环源控变速率的方式降低某些音频帧的编码速率,通过设计合适的闭环选择准则从而达到整体的平均编码速率的降低。
为了实现上述目的,本发明采用的技术方案是:首先对每帧音频信号在高速率下进行编解码,将该速率下各种编码模式的编码输入信号和解码输出信号通过感知加权滤波器后计算平均分段信噪比,并选出使感知加权平均分段信噪比最大的编码模式,然后在临近高速率的低编码速率下选出使编码输入信号和解码输出信号的感知加权平均分段信噪比最大的编码模式,最后分别对于高、低速率下选出来的编码模式,计算编码输入信号和解码输出信号平均分段信噪比,如果低速率编码模式下的平均分段信噪比相比高速率编码模式下的偏大,则切换到低速率编码模式,反之则切换到高速率编码模式。
本发明所用到的技术方案中涉及到的感知加权滤波器的表达式为:
H ( z ) = A ( z / &alpha; ) = 1 - &Sigma; i = 1 p &alpha; i a i z - i , 0 < &alpha; < 1 ,
其中α是感知加权系数,p是线性预测滤波器的阶数。
本发明所用到的技术方案中涉及到的输入信号相对于输出信号的平均分段信噪比是将一帧信号首先划分为子帧求子帧的分段信噪比,然后再求所有子帧的分段信噪比的均值。
有益效果
采用本发明所述的一种相邻高低速率编码模式间切换的变速率音频编码方法,能够使得每帧音频信号在预先设定的编码速率集合中的高速率和相邻的低速率编码模式间进行切换,采用闭环搜索的方法,根据相邻的高、低编码速率及其相应的编码模式下解码输出信号相对于编码输入信号的失真大小,确定最佳编码速率和编码模式,从而使得音频信号的平均编码速率相对高编码速率有较大降低,而整体编码质量保持不变或相近。本发明的方法能够进一步提高音频编码器的编码效率,节省音频传输带宽,尤其是适合用于多速率的音频编码器。
附图说明
本发明中相邻高低速率编码模式间切换的流程图
具体实施例
下面结合附图和实施例对本发明作进一步描述。
本发明实例基于AVS-P10多速率音频编码器进行改进,输入16kHz采样的单声道音频信号,16bit线性PCM编码,编码速率由高到低有8种:10.4kbps,12kbps,13.6kbps,15.2kbps,16.8kbps,19.2kbps,20.8kbps,24kbps,内部采样率选择25.6kHz,每个80ms超帧(本实例中提到的超帧相当于发明内容中提到的帧)的音频信号划分为4个20ms的帧(本实例中提到的帧相当于发明内容中提到的子帧),每帧编码模式包括ACELP256、TVC256、TVC512、TVC1024四种,每个超帧形成26种不同组合的编码模式。
选择16.8kbps和15.2kbps两种相邻的高、低编码速率,对于每个超帧的音频信号,高低速率编码模式切换的变速率编码过程如下:
(1)在较高的16.8kbps编码速率下,分别将ACELP/TVC组合的26种编码模式下的编码输入信号x(n)和解码输出信号
Figure GSB00000890358000031
分别通过如下的感知加权滤波器,加权输入信号xw(n)和加权输出信号
Figure GSB00000890358000032
H ( z ) = A ( z / &alpha; ) = 1 - &Sigma; i = 1 p &alpha; i a i z - i , 0 < &alpha; < 1 ,
其中α是感知加权系数,本实例中α=0.92,p是线性预测滤波器的阶数,本例中p=16;
(2)计算上述加权输入信号xw(n)和加权输出信号
Figure GSB00000890358000035
间的平均分段信噪比:
segSNR &OverBar; = 1 N SF &Sigma; i = 1 N SF seg SNR i , NSF=4是超帧中划分的帧的个数,其中
segSNR i = 20 log 10 ( &Sigma; n = 0 N - 1 x w 2 ( n ) &Sigma; n = 0 N - 1 ( x w ( n ) - x ^ w ( n ) ) 2 ) , i = 1 , . . . , N SF , N是每个帧的样点数;
(3)在16.8kbps编码速率下,从26种编码模式中选出使感知加权平均分段信噪比最大的编码模式,记为OH
(4)在上述步骤中对于选出来的16.8kbps下的编码模式OH,计算编码输入信号x(n)和解码输出信号
Figure GSB00000890358000041
的平均分段信噪比 S H = segSNR &OverBar; = 1 N SF &Sigma; i = 1 N SF seg SNR i , 其中 segSNR i = 20 log 10 ( &Sigma; n = 0 N - 1 x 2 ( n ) &Sigma; n = 0 N - 1 ( x ( n ) - x ^ ( n ) ) 2 ) ;
(5)同理,在较低的15.2kbps编码速率下,计算ACELP/TVC组合的26种编码模式下编码输入信号x(n)和解码输出信号
Figure GSB00000890358000044
间的感知加权平均分段信噪比,选出使之最大的编码模式,记为OL
(6)在15.2kbps编码速率下选出来的编码模式OL下,计算x(n)和解码输出信号
Figure GSB00000890358000045
的平均分段信噪比,记为SL
(7)比较16.8kbps和15.2kbps相邻高低编码速率下选出的编码模式OH和OL下的平均分段信噪比SH和SL,如果SL>SH,则从高速率编码模式OH切换到低速率编码模式OL,反之则从低速率编码模式切换到高速率编码模式OH
对于AVS-P10中的每个输入的音频超帧,依次进行上述过程的高低速率编码模式间的切换操作,并完成整个输入音频信号的编解码,从而形成每个超帧编码速率和编码模式可变的效果。本实施例选用6条单声道16kHz采样的音频信号进行实验,经过统计分析得到编码平均速率为16.0kbps;用宽带PESQ客观评估算法衡量输出音频信号质量,高速率16.8kbps下的MOS为3.40,变速率16.8kbps下的MOS为3.30,低速率15.2kbps下的MOS为3.26,变速率和高速率下的编码质量相近,相差0.1MOS。
实验结果显示相比高速率16.8kbps,本实施例中变速率音频编码传输带宽节省约5%,同理,对于多速率集合中的其它编码速率,用本发明提出的相邻高低速率编码模式间切换的变速率音频编码方法进行实验,结果显示,编码传输带宽可以节省5%~7%。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种相邻高低速率编码模式间切换的变速率音频编码方法,设置一个预先设定的编码速率集合和一个预先设定的编码模式集合,该编码速率集合涉及一组从高到低的不同编码速率,且至少包含两种编码速率,该编码模式集合涉及一组不同的音频信号编码模式,且至少包含两种编码模式,每帧音频信号将根据相邻的高、低编码速率及其相应的编码模式下解码输出信号相对于编码输入信号的失真大小选择最佳编码模式和编码速率;其特征在于,本发明是通过如下步骤实现的:
对于待处理的每帧音频信号:
(1)从编码速率集合{Ri,i=1,...,M,M是编码速率的个数}中选定一种编码速率Rh,h>1,在该编码速率下对于编码模式集合{Oi,i=1,...,N,N是编码模式的个数}中的每种编码模式,对该帧音频信号分别进行编解码;
(2)分别将步骤(1)中每种编码模式下得到的编码输入信号和解码输出信号通过感知加权滤波器得到加权输入信号和加权输出信号;
(3)分别计算步骤(2)中每个编码模式下得到的加权输入信号和加权输出信号间的平均分段信噪比,选出使平均分段信噪比最大的编码模式,记为OH
(4)在步骤(3)中选出来的高速率编码模式OH下,计算编码输入信号和解码输出信号间的平均分段信噪比,记为SH
(5)采用比编码速率Rh低一级的相邻编码速率Rl,l=h-1,对该帧音频信号进行编解码,并在每种编码模式下,将编码输入信号和解码输出信号分别通过感知加权滤波器后计算两者之间的平均分段信噪比,选出使平均分段信噪比最大的编码模式,记为OL
(6)在步骤(5)中选出来的低速率编码模式OL下,计算编码输入信号和解码输出信号间的平均分段信噪比,记为SL
(7)对上述步骤中选出来的高速率编码模式OH下的SH和低速率编码模式OL下的SL判断大小,如果SL>SH,则从高速率编码模式OH切换到低速率编码模式OL,反之则从低速率编码模式切换到高速率编码模式OH
2.如权利要求1所述的一种相邻高低速率编码模式间切换的变速率音频编码方法,其特征在于步骤(2)中所述的感知加权滤波器的表达式为:
H ( z ) = A ( z / &alpha; ) = 1 - &Sigma; i = 1 p &alpha; i a i z - i , 0 < &alpha; < 1 ,
其中α是感知加权系数,p是线性预测滤波器的阶数。
3.如权利要求1所述的一种相邻高低速率编码模式间切换的变速率音频编码方法,其特征在于输出信号
Figure FSB00000890357900021
相对于输入信号x(n)的平均分段信噪比的计算过程为:
a.将一帧信号划分为NSF个子帧,计算每个子帧的分段信噪比:
segSNR j = 20 log 10 ( &Sigma; n = 0 N - 1 x 2 ( n ) &Sigma; n = 0 N - 1 ( x ( n ) - x ^ ( n ) ) 2 ) , j = 1 , . . . , N SF , 其中N是每个子帧的长度;
b.计算该帧信号的平均分段信噪比:
segSNR &OverBar; = 1 N SF &Sigma; j = 1 N SF seg SNR j , NSF是帧中子帧的个数。
CN2011101800509A 2011-06-29 2011-06-29 一种相邻高低速率编码模式间切换的变速率音频编码方法 Expired - Fee Related CN102254562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101800509A CN102254562B (zh) 2011-06-29 2011-06-29 一种相邻高低速率编码模式间切换的变速率音频编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101800509A CN102254562B (zh) 2011-06-29 2011-06-29 一种相邻高低速率编码模式间切换的变速率音频编码方法

Publications (2)

Publication Number Publication Date
CN102254562A CN102254562A (zh) 2011-11-23
CN102254562B true CN102254562B (zh) 2013-04-03

Family

ID=44981771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101800509A Expired - Fee Related CN102254562B (zh) 2011-06-29 2011-06-29 一种相邻高低速率编码模式间切换的变速率音频编码方法

Country Status (1)

Country Link
CN (1) CN102254562B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107221334B (zh) * 2016-11-01 2020-12-29 武汉大学深圳研究院 一种音频带宽扩展的方法及扩展装置
CN114778884A (zh) * 2022-04-07 2022-07-22 善纳科技(苏州)有限公司 基于增量式编码器的速度测量方法、装置及电子设备
CN116348952A (zh) * 2023-02-09 2023-06-27 北京小米移动软件有限公司 一种音频信号处理、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002530706A (ja) * 1998-11-13 2002-09-17 クゥアルコム・インコーポレイテッド 閉ループ可変速度マルチモード予測スピーチコーダ
US6952669B2 (en) * 2001-01-12 2005-10-04 Telecompression Technologies, Inc. Variable rate speech data compression
CN101359978B (zh) * 2007-07-30 2014-01-29 向为 一种控制变速率多模式宽带编码速率的方法
CN101388214B (zh) * 2007-09-14 2012-07-04 向为 一种变速率的声码器及其编码方法

Also Published As

Publication number Publication date
CN102254562A (zh) 2011-11-23

Similar Documents

Publication Publication Date Title
CN1244907C (zh) 宽带语音编解码器中的高频增强层编码方法和装置
EP1747442B1 (en) Selection of coding models for encoding an audio signal
CN1954367B (zh) 支持音频编码器模式间的转换
CN100350453C (zh) 强壮语音分类方法和装置
CN105304090B (zh) 使用对齐的前瞻部分将音频信号编码及解码的装置与方法
EP1747554B1 (en) Audio encoding with different coding frame lengths
CN101263554B (zh) 在比特率分级和带宽分级的音频解码中的比特率切换方法
CN101494055B (zh) 用于码分多址无线系统的方法和装置
KR20080093074A (ko) 오디오신호들의 분류
WO2008067719A1 (fr) Procédé de détection d&#39;activité sonore et dispositif de détection d&#39;activité sonore
CN101320563A (zh) 一种背景噪声编码/解码装置、方法和通信设备
JP2006525533A (ja) 可変ビットレート広帯域通話符号化における利得量子化方法および装置
CN104025189A (zh) 编码语音信号的方法、解码语音信号的方法,及使用其的装置
MXPA06012578A (es) Codificacion de audio con distintos modelos de codificacion.
CN101281749A (zh) 可分级的语音和乐音联合编码装置和解码装置
CN107293311A (zh) 非常短的基音周期检测和编码
JP2014510303A (ja) 過渡検出及び品質結果を使用してオーディオ信号の一部分を符号化する装置及び方法
CN102254562B (zh) 一种相邻高低速率编码模式间切换的变速率音频编码方法
CN103680509B (zh) 一种语音信号非连续传输及背景噪声生成方法
CN101145343A (zh) 一种用于音频处理框架中的编码和解码方法
CN102760441B (zh) 一种背景噪声编码/解码装置、方法和通信设备
KR20070017379A (ko) 오디오 신호를 부호화하기 위한 부호화 모델들의 선택
KR20080091305A (ko) 서로 다른 코딩 모델들을 통한 오디오 인코딩
Xinfu et al. AMR vocoder and its multi-channel implementation based on a single DSP chip
Bao et al. A 8.32 kb/s embedded wideband speech coding candidate for ITU-t EV-VBR standardization.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130403

Termination date: 20160629