CN101145343B - 一种用于音频处理框架中的编码和解码方法 - Google Patents

一种用于音频处理框架中的编码和解码方法 Download PDF

Info

Publication number
CN101145343B
CN101145343B CN2006101161133A CN200610116113A CN101145343B CN 101145343 B CN101145343 B CN 101145343B CN 2006101161133 A CN2006101161133 A CN 2006101161133A CN 200610116113 A CN200610116113 A CN 200610116113A CN 101145343 B CN101145343 B CN 101145343B
Authority
CN
China
Prior art keywords
signal
noise
coding
extraction module
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2006101161133A
Other languages
English (en)
Other versions
CN101145343A (zh
Inventor
李昙
黄鹤云
林福辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Communications Shanghai Co Ltd
Original Assignee
Spreadtrum Communications Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Communications Shanghai Co Ltd filed Critical Spreadtrum Communications Shanghai Co Ltd
Priority to CN2006101161133A priority Critical patent/CN101145343B/zh
Publication of CN101145343A publication Critical patent/CN101145343A/zh
Application granted granted Critical
Publication of CN101145343B publication Critical patent/CN101145343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种用于音频处理框架中的编码方法,其特征是将噪声信号将直接进行1024T/F转换,并对转换后的频谱参数,及相关噪声因子、频谱增益进行量化,同时记录下噪声标志,编码后输出;非噪声信号仍然按照TCX、ACELP编码操作流程进行。以及一种对应于上述编码方法的解码方法,在输入码流通过码流解析后,根据是否具有所述的噪声标志来判断是否为噪声信号;若是噪声信号,则将信号进行1024F/T转换后即输出;非噪声信号仍然按照TCX、ACELP解码操作流程进行。通过本发明降低编、解码方法的复杂度,提高了编、解码方法的处理效率。

Description

一种用于音频处理框架中的编码和解码方法
技术领域
本发明涉及信号处理中的编、解码技术,特别是一种用于音频处理框架中的编码和解码方法。
背景技术
音频编解码技术主要包括可以很好利用心理声学模型的T/F(时/频)转换的方法,和对音频信号模型参数提取的方法。现有的音频处理框架中,AAC(Advance Audio Coding,高级音频编码)框架利用的是T/F转换的方法,而AMR-WB+(Extended Adaptive Multi-rate wideband Codec,多码率可调宽带扩展编解码)框架则同时利用了这两种方法从而对不同信号进行不同处理。
该AMR-WB+框架包括预处理,核心编解码,立体声处理,带宽扩展4个部分。其中,该核心编码方法流程如图1所示:预处理后的低频信号将将继续进行模式选择,该模式选择是对各TCX(Transform codedexcitation,变换编码激励)模式和ACELP(Algebraic Code ExcitedLinear Prediction,线性预测及代数码本激励)模式的选择;然后再对信号进行LPC(linear prediction coding,线性预测编码)分析,然后依据上述模式选择的结果进行TCX80、TCX40、TCX20、ACELP中某一种模式进行编码流程后将编码码流输出。该TCX20、TCX40、TCX80三种模式均依次包括加权滤波、T/F转换、参数量化步骤。再请参阅图2,它是对应于上述编码方法的解码方法。如图所示:该方法依次包括码流解析、TCX和ACELP模式选择、TCX80或TCX40或TCX20或ACELP解码流程后输出低频码流;其中,TCX80、TCX40、TCX20解码流程进一步包括F/T转换和LPC综合等步骤。
在上述AMR-WB+核心编码方法中,由于LPC分析主要考虑信号的前后相关特性,而对于噪声信号,信号的前后相关性较弱,因此对噪声进行LPC分析显得没有意义,既浪费时间,也占用有限的比特数。同时原有核心编码方法中使用了复杂的模式选择步骤,也就是说对噪声信号也进行复杂的模式选择操作,进一步降低了编码处理的效率。
发明内容
本发明的目的在于提供一种用于音频处理框架中的编码和解码方法,解决上述现有技术中所存在的技术问题,降低编、解码方法的复杂度,提高了编、解码方法的处理效率。
为解决上述问题,本发明是这样实现的:
一种用于音频处理框架中的编码方法,其特征是该方法步骤为:
A经过预处理后的低频信号将首先通过噪声检测模块进行噪声检测,若检测结果是噪声,则执行步骤C,否则,执行步骤B;
B信号将继续进行TCX和ACELP模式选择,对信号进行LPC分析,然后依据模式选择的结果进行TCX80、TCX40、TCX20、ACELP其中一种模式进行编码流程;在上述四种模式流程中,首先将使用LPC分析所得参数对信号进行LPC加权滤波步骤,再执行相应模式下的编码,最终将LPC系数、模式,及该模式下的编码参数一起编码后输出;
C信号将直接进行1024T/F转换,并对转换后的频谱参数,及相关噪声因子、频谱增益进行量化,同时记录下噪声标志,编码后输出。
该噪声检测模块由过零率提取模块、低频能量提取模块、总能量提取模块、加权能量提取模块和多边界判决模块组成;其中:
该过零率提取模块用于从输入信号中提取信号符号的变化率,从而获取信号的基本频率变化;
该低频能量提取模块用于从输入信号中提取信号低频部分的能量,从而获取了信号低频信息量;
该总能量提取模块用于从输入信号中获取信号总体能量大小,从而宏观的获取了信号包含的总信息量;
该加权能量提取模块用于获得根据输入信号的基本频谱特征加权后的能量;
该多边界判决模块用于根据上述四个模块获取的参数值与预先通过分析得到这四种参数的相关域值进行多边界判决,决策出输入是否是噪声信号。
该音频处理框架是AMR-WB+框架。
一种对应于如上所述编码方法的解码方法,其特征是该解码步骤为:
D输入码流通过码流解析后,根据是否具有所述的噪声标志来判断是否为噪声信号;若是噪声信号,则执行步骤F;否则,执行E步骤;
E信号依据解析的编码模式,LPC系数,编码参数进行相应的TCX80、TCX40、TCX20、ACELP解码流程后输出;该TCX解码流程包括F/T转换和LPC综合步骤;
F信号进行1024F/T转换后,即可输出。
藉由上述技术方案,本发明的有益效果是:
本发明编、解码方法中增加了一噪声检测模块进行噪声检测,且无需对噪声进行LPC分析和复杂的模式选择操作,因此,降低编、解码方法的复杂度,提高了编、解码方法的处理效率。
附图说明
图1是现有AMR-WB+框架编码方法流程示意图;
图2是现有AMR-WB+框架解码方法流程示意图;
图3是本发明方法的AMR-WB+框架编码方法实施例的流程示意图;
图4是AMR-WB+框架编码方法实施例中噪声检测模块的结构示意图;
图5是本发明方法的AMR-WB+框架解码方法实施例的流程示意图。
具体实施方式
以下结合图3-5,以及一基于AMR-WB+框架的编、解码方法实施例对本发明方法作进一步详细描述。
如图3所示,它是一种基于现有音频处理框架(AMR-WB+框架)的编码方法流程示意图。该编码方法包括如下步骤:
第一步:经过预处理后的低频信号将首先通过噪声检测模块进行噪声检测,若检测结果是噪声,则执行第三步,否则,执行第二步;
第二步:信号将继续进行TCX和ACELP模式选择,对信号进行LPC分析,然后依据模式选择的结果进行TCX80、TCX40、TCX20、ACELP其中一种模式进行编码流程;在上述四种模式流程中,首先将使用LPC分析所得参数对信号进行LPC加权滤波步骤,再执行相应模式下的编码,最终将LPC系数、模式,及该模式下的编码参数一起编码后输出;
第三步:信号将直接进行1024T/F转换,并对转换后的频谱参数,及相关噪声因子、频谱增益进行量化,同时记录下噪声标志,编码后输出。
上述编码方法中所使用的噪声检测模块结构,请参阅图4。如图所示:它由过零率提取模块、低频能量提取模块、总能量提取模块、加权能量提取模块和多边界判决模块组成;其中:该过零率提取模块用于从输入信号中提取信号符号的变化率,从而获取信号的基本频率变化;该低频能量提取模块用于从输入信号中提取信号低频部分的能量,从而获取了信号低频信息量;该总能量提取模块用于从输入信号中获取信号总体能量大小,从而宏观的获取了信号包含的总信息量;该加权能量提取模块用于获得根据输入信号的基本频谱特征加权后的能量;该多边界判决模块用于根据上述四个模块获取的参数值与预先通过分析得到这四种参数的相关域值进行多边界判决,决策出输入是否是噪声信号。
该噪声检测模块的功能是对输入原始信号(语音/音频)和随机噪声(环境噪声)进行分类。一般来说,输入的信号包括四大类:音频信号(有一定周期性)、元音语音信号(voiced speech,有一定周期性并且较好的符合线性预测模型)、非元音语音信号(unvoiced speech,有着随机性但是较好的符合线性预测模型)和随机噪声(具有随机性)。该噪声检测模块就可以区分出其中的随机噪声。
在上述的TCX信号处理中,信号FFT分析之前要对其加窗,IFFT之后要对信号加窗叠加。对于不同的模式,加窗的长度与叠加的数值都将有所不同。在AMR-WB+框架中定义了前一帧模式为ACELP,TCX20,TCX40,TCX80的情况下的加窗长度及叠加方法。本方法中对TCX模式到噪声信号的切换,叠加数据将使用前一帧信号LPC综合后的信号。对于噪声帧加窗采用TCX80模式下相同的方法。
在上述编码方法实施例中,由于LPC分析对噪声信号意义不大,因此噪声信号LPC系数所包含的信息量可以忽略。因此,对于高频处理及立体声处理模块中使用到低频段LPC系数的情况下,将忽略LPC系数的模块,使其利用低频段LPC处理的输出直接等于输入,不做任何操作,即A(z)=1。
以下是本编码实施例的算法复杂度分析:
由于噪声信号只需要做噪声检测和T/F转换,而省去了16阶的线性预测分析和模式选择(Mode Selection)部分。而对于非噪声信号则多做了噪声检测模块。通常来说,在正常通话中,大约有50%是没有语音信号存在,即只有噪声。在通常的音频序列里,也有20%左右的时候是没有音频信号存在的。通常的16阶线性预测分析和模式选择部分是非常耗时的。如果满足以下的式子,那么算法复杂度可以减少:噪声出现率-噪声检测模块复杂度/(16阶线性预测复杂度+模式选择复杂度)
此处,16阶线性预测复杂度为N2/2,模式选择有开环与闭环两种方法,对于开环模式选择复杂度为182N,闭环模式选择复杂度为910N,噪声检测模块复杂度将因具体算法的不同而不同,上述编码实施例中噪声检测模块复杂度为16N,其中N为帧长,这里取256。噪声出现率将因不同的信号而不同,这里取30%。
这样对于开环模式选择:
每帧减少复杂度=0.3-4096/(32768+46592)=0.3-0.05=0.25
对于闭环模式选择:
每帧减少复杂度=0.3-4096/(32768+232960)=0.3-0.015=0.285
由此可见对于30%的噪声出现率,系统复杂度可减少25%(开环模式选择)和28.5%(闭环模式选择)。
再请参阅图5,它是一种对应于上述AMR-WB+框架编码方法实施例的解码方法实施例。该解码步骤为:
第一步:输入码流通过码流解析后,根据是否具有所述的噪声标志来判断是否为噪声信号;若是噪声信号,则执行第三步;否则,执行第二步;
第二步:信号依据解析的编码模式,LPC系数,编码参数进行相应的TCX80、TCX40、TCX20、ACELP解码流程后输出;该TCX解码流程包括F/T转换和LPC综合步骤;
第三步:信号进行1024F/T转换后,即可输出。
经码流测试验证后表明:使用上述编、解码方法后输出码流与原AMR-WB+框架下编、解码后的输出码流主观质量一致。
另外,本发明的编、解码方法所应用的音频处理框架将不仅限于AMR-WB+框架,其它框架(如:AAC框架)亦可根据噪声信号检测结果对原有框架进行相应的改变以提高其对噪声信号的处理效率,降低处理的复杂度。
综上所述仅为本发明的较佳实施例而已,并非用来限定本发明的实施范围。即凡依本发明申请专利范围的内容所作的等效变化与修饰,都应为本发明的技术范畴。

Claims (3)

1.一种用于音频处理框架中的编码方法,其特征是该音频处理框架是AMR-WB+框架,该方法步骤为:
A经过预处理后的低频信号将首先通过噪声检测模块进行噪声检测,若检测结果是噪声,则执行步骤C,否则,执行步骤B;
B信号将继续进行TCX和ACELP模式选择,对信号进行LPC分析,然后依据模式选择的结果进行TCX80、TCX40、TCX20、ACELP其中一种模式进行编码流程;在上述四种模式流程中,首先将使用LPC分析所得参数对信号进行LPC加权滤波步骤,再执行相应模式下的编码,最终将LPC系数、模式及该模式下的编码参数一起编码后输出;
C信号将直接进行1024点时/频转换,并对转换后的频谱参数,及相关噪声因子、频谱增益进行量化,同时记录下噪声标志,编码后输出。
2.根据权利要求1中所述的用于音频处理框架中的编码方法,其特征是该噪声检测模块由过零率提取模块、低频能量提取模块、总能量提取模块、加权能量提取模块和多边界判决模块组成;其中:
该过零率提取模块用于从输入信号中提取信号符号的变化率,从而获取信号的基本频率变化;
该低频能量提取模块用于从输入信号中提取信号低频部分的能量,从而获取了信号低频信息量;
该总能量提取模块用于从输入信号中获取信号总体能量大小,从而宏观获取信号的总信息量;
该加权能量提取模块用于获得根据输入信号的基本频谱特征加权后的能量;
该多边界判决模块用于根据上述四个模块获取的参数值与预先通过分析得到这四种参数的相关域值进行多边界判决,决策出输入是否是噪声信号。
3.一种对应于如权利要求1或2所述编码方法的解码方法,其特征是该解码步骤为:
D输入码流通过码流解析后,根据是否具有所述的噪声标志来判断是否为噪声信号;若是噪声信号,则执行步骤F;否则,执行E步骤;
E信号依据解析的编码模式,LPC系数,编码参数进行相应的TCX80、TCX40、TCX20、ACELP解码流程后输出;该TCX解码流程包括频/时转换和LPC综合步骤;
F信号进行1024点频/时转换后,即可输出。
CN2006101161133A 2006-09-15 2006-09-15 一种用于音频处理框架中的编码和解码方法 Active CN101145343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2006101161133A CN101145343B (zh) 2006-09-15 2006-09-15 一种用于音频处理框架中的编码和解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006101161133A CN101145343B (zh) 2006-09-15 2006-09-15 一种用于音频处理框架中的编码和解码方法

Publications (2)

Publication Number Publication Date
CN101145343A CN101145343A (zh) 2008-03-19
CN101145343B true CN101145343B (zh) 2011-07-20

Family

ID=39207830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101161133A Active CN101145343B (zh) 2006-09-15 2006-09-15 一种用于音频处理框架中的编码和解码方法

Country Status (1)

Country Link
CN (1) CN101145343B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL3079152T3 (pl) 2010-07-02 2018-10-31 Dolby International Ab Dekodowanie audio z selektywnym późniejszym filtrowaniem
CN105096958B (zh) * 2014-04-29 2017-04-12 华为技术有限公司 音频编码方法及相关装置
CN106448688B (zh) 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置
CN108492837B (zh) * 2018-03-23 2020-10-13 腾讯音乐娱乐科技(深圳)有限公司 音频突发白噪声的检测方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1275228A (zh) * 1998-08-21 2000-11-29 松下电器产业株式会社 多模式语音编码装置及解码装置
CN1331826A (zh) * 1998-12-21 2002-01-16 高通股份有限公司 可变速率语音编码
CN1428953A (zh) * 2002-04-22 2003-07-09 西安大唐电信有限公司 一种多通道amr声码器的实现方法和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1275228A (zh) * 1998-08-21 2000-11-29 松下电器产业株式会社 多模式语音编码装置及解码装置
CN1331826A (zh) * 1998-12-21 2002-01-16 高通股份有限公司 可变速率语音编码
CN1428953A (zh) * 2002-04-22 2003-07-09 西安大唐电信有限公司 一种多通道amr声码器的实现方法和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Adil Benyassine et.al.ITU-T RECOMMENDATION G.729 ANNEX B:A SILENCE COMPRESSION SCHEME FOR USE WITH G.729 OPTIMIZED FOR V.70 DIGITAL SIMULTANEOUS VOICE AND DATA APPLICATIONS.《IEEE COMMUNICATIONS MAGAZINE》.1997,第35卷(第9期),第64-73页. *
Jari Makinen et.al.AMR-WB+:A NEW AUDIO CODING STANDARD FOR 3RD GENERATION MOBILE AUDIO SERVICES.《IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS,SPEECH,AND SIGNAL PROCESSING》.2005,第2卷第1109-1112页. *

Also Published As

Publication number Publication date
CN101145343A (zh) 2008-03-19

Similar Documents

Publication Publication Date Title
CN102089803B (zh) 用以将信号的不同段分类的方法与鉴别器
US9818411B2 (en) Apparatus for encoding and decoding of integrated speech and audio
EP1982329B1 (en) Adaptive time and/or frequency-based encoding mode determination apparatus and method of determining encoding mode of the apparatus
US10482892B2 (en) Very short pitch detection and coding
CN103493129B (zh) 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法
CN104025189A (zh) 编码语音信号的方法、解码语音信号的方法,及使用其的装置
KR101852749B1 (ko) 주파수 도메인에서의 시간적인 사전-형상화된 잡음의 삽입에 의한 오디오 대역폭 확장
US11393484B2 (en) Audio classification based on perceptual quality for low or medium bit rates
CN101836251A (zh) 使用mdct频谱的组合编码的可缩放的语音和音频编码
JP2009524100A (ja) 符号化/復号化装置及び方法
KR20080083719A (ko) 오디오 신호를 부호화하기 위한 부호화 모델들의 선택
CN1379899A (zh) 语音可变速率编码方法与设备
JP6170172B2 (ja) 符号化モード決定方法及び該装置、オーディオ符号化方法及び該装置、並びにオーディオ復号化方法及び該装置
CN101145343B (zh) 一种用于音频处理框架中的编码和解码方法
EP2051244A1 (en) Audio encoding device and audio encoding method
US20130096913A1 (en) Method and apparatus for adaptive multi rate codec
Anselam et al. QUALITY EVALUATION OF LPC BASED LOW BIT RATE SPEECH CODERS
Guerchi Bimodal Quantization of Wideband Speech Spectral Information.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180402

Address after: The 300456 Tianjin Tianjin FTA test area (Dongjiang Bonded Port) No. 6865 North Road, 1-1-1802-7 financial and trade center of Asia

Patentee after: Xinji Lease (Tianjin) Co.,Ltd.

Address before: Pudong Songtao road 201203 Shanghai City No. 696 3-5 floor

Patentee before: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20080319

Assignee: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Assignor: Xinji Lease (Tianjin) Co.,Ltd.

Contract record no.: 2018990000196

Denomination of invention: Encoding and decoding method for audio processing frame

Granted publication date: 20110720

License type: Exclusive License

Record date: 20180801

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221019

Address after: 201203 Shanghai city Zuchongzhi road Pudong New Area Zhangjiang hi tech park, Spreadtrum Center Building 1, Lane 2288

Patentee after: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Address before: 300456 1-1-1802-7, north area of financial and Trade Center, 6865 Asia Road, Tianjin pilot free trade zone (Dongjiang Bonded Port Area), Tianjin

Patentee before: Xinji Lease (Tianjin) Co.,Ltd.