CN104077505A - 一种提高16Kbps码率音频数据压缩编码音质方法 - Google Patents
一种提高16Kbps码率音频数据压缩编码音质方法 Download PDFInfo
- Publication number
- CN104077505A CN104077505A CN201410338191.2A CN201410338191A CN104077505A CN 104077505 A CN104077505 A CN 104077505A CN 201410338191 A CN201410338191 A CN 201410338191A CN 104077505 A CN104077505 A CN 104077505A
- Authority
- CN
- China
- Prior art keywords
- signal
- code check
- voice data
- 16kbps
- compressed encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013139 quantization Methods 0.000 claims abstract description 19
- 230000003044 adaptive effect Effects 0.000 claims description 29
- 238000007667 floating Methods 0.000 claims description 9
- 238000013461 design Methods 0.000 claims description 6
- 238000011002 quantification Methods 0.000 claims description 5
- 101100483843 Ustilago maydis (strain 521 / FGSC 9021) UPA1 gene Proteins 0.000 claims description 4
- 102100024348 Beta-adducin Human genes 0.000 claims description 3
- 101000689619 Homo sapiens Beta-adducin Proteins 0.000 claims description 3
- 101100483844 Ustilago maydis (strain 521 / FGSC 9021) UPA2 gene Proteins 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- HJVCHYDYCYBBQX-HLTLHRPFSA-N (2s,3s,4e,6e,8s,9s)-3-amino-9-methoxy-2,6,8-trimethyl-10-phenyldeca-4,6-dienoic acid Chemical compound OC(=O)[C@@H](C)[C@@H](N)/C=C/C(/C)=C/[C@H](C)[C@@H](OC)CC1=CC=CC=C1 HJVCHYDYCYBBQX-HLTLHRPFSA-N 0.000 claims 1
- PBLZLIFKVPJDCO-UHFFFAOYSA-N omega-Aminododecanoic acid Natural products NCCCCCCCCCCCC(O)=O PBLZLIFKVPJDCO-UHFFFAOYSA-N 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract description 5
- 230000008901 benefit Effects 0.000 abstract description 2
- 238000005056 compaction Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 208000010994 Lethal infantile mitochondrial myopathy Diseases 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种提高16Kbps码率音频数据压缩编码音质的方法。本方法是在G.726标准的基础上,添加了高码率部分,通过高码率部分和原码率部分的配合工作,旨在16Kbps码率的前提下,解决G.726标准音质较差的问题。本文提出的方法高码率部分采用4bit的量化电平数,可以产生更为准确的预测信号用于重建语音;低码率部分采用2bit的量化电平数,用于保持16Kbps码率的输出。本发明具有占用带宽少,节省存储空间和音质较好的特点,在语音传输和存储领域具有良好的应用前景。
Description
技术领域
本发明涉及一种16Kbps码率音频数据编码的方法,具体涉及数字多媒体系统中,一种提高16Kbps码率音频数据压缩编码音质的方法。
背景技术
人类交流沟通最基本的方式就是语音,语音可以实现人与人之间的信息交换功能。随着现代信息技术的高速发展,语音信号处理方向中,新的方法和技术也层出不穷。由于数字语音信号的数据量相当大,如果不进行压缩编码,庞大的数据量会给语音信号的传输、存储带来很大的压力,很难达到实用化。因此,语音信号压缩编码技术成为当今多媒体娱乐、数字通信和广播等领域中一项十分关键的共性技术。越来越多的人投入到了语音数据压缩技术的研究中,并逐渐形成了一套国际地区的标准。
早在1972年,国际电报电话咨询委员会CCITT就推出了G.711编码标准。其采样率为8KHz,每个采样值使用8 bit非线性A律或者μ律进行编码,即64Kbps的PCM编码。为了进一步节省带宽,在八十年代初期,CCITT推出了G.721标准,即32Kbps码率ADPCM编码算法。八十年代末,又推出了G.723标准。该标准在G.721标准的基础上,形成了40Kbps、32Kbps和24Kbps码率ADPCM编码算法。1990年,国际电信联盟推出了G.726标准,其结合了G.721标准和G.723标准,并添加了16Kbps码率ADPCM编码算法。G.726标准在数字无绳电话、网络通信等领域得到了广泛的应用。
在无线多媒体传感器网络的应用领域,需要对环境中的音频数据进行采集传输。但由于节点的性能和功耗受到限制,需要数据尽可能的节省带宽和存储空间,即需要使用低码率来实现的同时保持较好的音质。16Kbps码率G.726编码具有占用带宽少,可充分利用系统容量的特点,在数字电路倍增设备中的语音编码传输方面得到了广泛的应用。但是采用G.726标准获得的语音质量不高,有明显的噪声,声音比较尖锐,远远达不到长途电话的音质。因此,提出一种音质较好的16Kbps码率G.726编码方法不仅能够提高通信的质量,而且对通信信道还具备扩容的功能,有一定的实际应用价值。
发明内容
本发明的目的在于,提供一种提高16Kbps码率音频数据压缩编码音质的方法,解决目前16Kbps码率G.726标准算法音质较差的问题。
为了达到上述目的,本方法的技术方案如下:
一种提高16Kbps码率音频数据压缩编码音质的方法,利用相邻语音信号之间幅度的相关性,预测出下一个语音信号样本的输入值;所述方法包括:
步骤1,将原始线性PCM语音信号分别与原码率和高码率部分的预测信号相减,计算出差分信号;
步骤2,使用原码率和高码率部分的自适应量化器,根据步骤1求出的差分信号进行自适应量化,分别求出2 bit和4 bit的量化电平数;一方面将2 bit的ADPCM码作为编码模块的输出,另一方面将量化电平送入逆自适应量化器;
步骤3,使用原码率和高码率部分的逆自适应量化器,根据步骤2求出的量化电平和定标因子,分别进行逆量化,得到量化后的差分信号;
步骤4,使用原码率和高码率部分的重建信号计算器,根据步骤3求出的量化后的差分信号和步骤5求出的预测信号,得出重建信号;
步骤5,使用原码率和高码率部分的自适应预测器,根据步骤3求出的量化后的差分信号和步骤4求出的重建信号,得出预测信号。
优选的,所述自适应量化器包括:LOG,把差分信号从线性域转换到对数域中;SUBTB,通过缩减标度因子给差分信号的对数形式定标;QUAN,量化对数域中的差分信号。
优选的,所述逆自适应量化器,包括:RECONST,在对数域中重建量化差分信号;ADDA,把定标因子加到量化差分信号的对数形式;ANTILOG,把量化差分信号从对数域转换到线性域。
优选的,所述自适应预测器和重建信号计算器,包括六阶零点系统和二阶极点系统,所述六阶零点系统包括:ADDC,用于获得量化差分信号和零点预测信号相加后的符号位;ADDB,根据预测信号和量化差分信号,得出重建信号;FLOATB,将重建信号的二进制补码转换成浮点数,FLOATA,把量化差分信号转换为浮点数,XOR,用来实现差值信号与差值延迟信号符号位的异或,TRIGB,是预测器触发模块:UPB,用来计算出六阶零点的预测器系数:FMULT,用于实现两个浮点数之间的乘法运算;所述二阶极点系统中包括UPA1和UPA2,用于完成二阶极点系数的更新。
优选的,所述乘法器采用分时复用的模式设计。
进一步优选的,所述乘法器的输入端count_FMULT用来进行计数,当计数到3的时候,开始分时复用乘法器,分时复用共8次后,count_FMULT信号变为11,预测信号计算完成。
本发明所述的提高16Kbps码率音频数据压缩编码音质的方法,利用相邻语音信号之间幅度的相关性,预测出下一个语音信号样本的输入值,故本设计中只需要传送实际输入信号样本和预测信号样本之间的差值,采用自适应量化技术对差分信号进行量化,可以减小量化电平数,进而减小传输码率;采用自适应技术动态的调整预测系数,从而保证预测器始终处于最佳预测状态。本方法分成了原码率和高码率两个部分,在G.726标准的基础上,添加高码率部分,将自适应预测器量化电平数改进为4 bit,从而向原码率重建信号计算器提供更准确的预测信号,用于重建语音,从而解决G.726标准音质较差的问题,获得较好的音质;输出来自原码率部分的自适应量化器,采用2 bit的量化电平数,从而保持16Kbps码率的输出;采用分时复用的模式设计乘法器,通过这种方式可以节省带宽,充分利用存储空间和达到长途电话音质的优点,在语音传输和存储领域具有良好的应用前景。
附图说明
图1为本发明所述的16Kbps码率音频数据压缩编码方法的结构框图;
图2为本发明所述的16Kbps码率音频数据压缩编码方法中自适应量化器结构框图;
图3为本发明所述的16Kbps码率音频数据压缩编码方法中逆自适应预测器结构框图;
图4为本发明所述的16Kbps码率音频数据压缩编码方法中自适应预测器和重建信号计算器结构框图;
图5为本发明所述的16Kbps码率音频数据压缩编码方法中乘法器复用的结构图。
具体实施方式
下面结合附图对本发明作进一步的描述。
附图1是一种16Kbps码率音频数据压缩编码方法的结构框图,本方法分成了高码率和低码率两个部分,高码率部分采用4 bit的量化电平产生更为准确的预测信号用于重建语音,而原码率部分采用2 bit的量化电平数,保证16Kbps码率的输出。其中差分信号可以表示为: ,
, 其中、分别是输入信号和预测信号;
量化电平可以表示为:
,其中, 是定标因子,该量化电平一方面作为本方法的输出,另一方面作为逆自适应量化器的输入;
,其中是定标因子,该量化电平一方面作为本方法的输出,另一方面作为逆自适应量化器的输入;
于是,量化后的差分信号可以表示为:
预测信号可以表示为:
其中
上式中,短时平均值可以表示为:
长时平均值可以表示为:
单音检测单元可以表示为:
瞬变音检测单元可以表示为:
重建信号可以表示为:
附图2是一种16Kbps码率音频数据压缩编码方法中自适应量化器结构框图,作用是将差分信号量化成ADPCM码。其中LOG把差分信号从线性域转换到对数域中。首先,计算出 、指数和尾数:
然后将4位的指数和7位的尾数合并在一起:
QUAN的功能是量化对数域中的差分信号。
SUBTB通过缩减标度因子给差分信号的对数形式定标。
附图3是一种16Kbps码率音频数据压缩编码方法中逆自适应量化器结构框图,其作用是将自适应量化器的输出进行逆量化,得到量化后的差分信号。ADDA把定标因子加到量化差分信号的对数形式。
ANTILOG把量化差分信号从对数域转换到线性域。首先取的符号位:
然后分别计算4位的指数和7位的尾数,并将指数转换为线性格式:
最后,加上符号位,得到量化后的差分信号:
RECONST是在对数域中重建量化差分信号。
附图4是一种16Kbps码率音频数据压缩编码方法中自适应预测器和重建信号计算器结构框图,其根据输入的量化差分信号,计算出语音信号的预测值。图中上半部分是六阶零点系统,其中ADDC用于获得量化差分信号和零点预测信号相加后的符号位。
再加上符号位扩展:
ADDB根据预测信号和量化差分信号,得出重建信号。
加上符号位的扩展:
FLOATB将重建信号的二进制补码转换成浮点数。首先计算出幅值:
然后计算指数:
最后计算尾数,并将符号位、指数和尾数整合在一起:
FLOATA把量化差分信号转换为浮点数。首先计算幅值:
然后计算指数:
最后计算尾数,并将符号位、指数和尾数整合在一起:
XOR用来实现差值信号与差值延迟信号符号位的异或。
TRIGB是预测器触发模块:
UPB用来计算出六阶零点的预测器系数:
FMULT用于实现两个浮点数之间的乘法运算。
计算指数和尾数:
将浮点格式分为符号位、指数和尾数:
再进行浮点乘法运算:
下半部分的二阶极点系统中,UPA1和UPA2用于完成二阶极点系数的更新。以UPA1为例:
LIMC完成对二阶极点系数的限定。
LIMD用于完成二阶极点系数的限定。
首先计算出上限值:
然后计算出下限值:
ACCUM将预测器输出相加后组成预测信号。
附图5是为一种16Kbps码率音频数据压缩编码方法中乘法器模块设计框图,为了节省面积,本发明将乘法器设计成了分时复用的方式。信号count_FMULT用来进行计数,当计数到3的时候,开始分时复用乘法器,分时复用共8次后,count_FMULT信号变为11,预测信号计算完成。通过这种方式,八个乘法器就可以变成一个。
上述实例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人是能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种提高16Kbps码率音频数据压缩编码音质的方法,其特征在于,利用相邻语音信号之间幅度的相关性,预测出下一个语音信号样本的输入值;所述方法包括:
步骤1,将原始线性PCM语音信号分别与原码率和高码率部分的预测信号相减,计算出差分信号;
步骤2,使用原码率和高码率部分的自适应量化器,根据步骤1求出的差分信号进行自适应量化,分别求出2 bit和4 bit的量化电平数;一方面将2 bit的ADPCM码作为编码模块的输出,另一方面将量化电平送入逆自适应量化器;
步骤3,使用原码率和高码率部分的逆自适应量化器,根据步骤2求出的量化电平和定标因子,分别进行逆量化,得到量化后的差分信号;
步骤4,使用原码率和高码率部分的重建信号计算器,根据步骤3求出的量化后的差分信号和步骤5求出的预测信号,得出重建信号;
步骤5,使用原码率和高码率部分的自适应预测器,根据步骤3求出的量化后的差分信号和步骤4求出的重建信号,得出预测信号。
2.根据权利要求1所述的提高16Kbps码率音频数据压缩编码音质的方法,其特征在于:所述自适应量化器包括:
LOG,把差分信号从线性域转换到对数域中;
SUBTB,通过缩减标度因子给差分信号的对数形式定标;
QUAN,量化对数域中的差分信号。
3.根据权利要求1所述的提高16Kbps码率音频数据压缩编码音质的方法,其特征在于:所述逆自适应量化器,包括:
RECONST,在对数域中重建量化差分信号;
ADDA、把定标因子加到量化差分信号的对数形式;
ANTILOG,把量化差分信号从对数域转换到线性域。
4.根据权利要求1所述的提高16Kbps码率音频数据压缩编码音质的方法,其特征在于:所述自适应预测器和重建信号计算器,包括六阶零点系统和二阶极点系统,所述六阶零点系统包括:ADDC,用于获得量化差分信号和零点预测信号相加后的符号位;
ADDB,根据预测信号和量化差分信号,得出重建信号;
FLOATB,将重建信号的二进制补码转换成浮点数,
FLOATA,把量化差分信号转换为浮点数,
XOR,用来实现差值信号与差值延迟信号符号位的异或,
TRIGB,是预测器触发模块:
UPB,用来计算出六阶零点的预测器系数:
FMULT,用于实现两个浮点数之间的乘法运算;
所述二阶极点系统中包括UPA1和UPA2,用于完成二阶极点系数的更新。
5.根据权利要求1所述的提高16Kbps码率音频数据压缩编码音质的方法,其特征在于:所述乘法器采用分时复用的模式设计。
6.根据权利要求5所述的提高16Kbps码率音频数据压缩编码音质的方法,其特征在于:所述乘法器的输入端count_FMULT用来进行计数,当计数到3的时候,开始分时复用乘法器,分时复用共8次后,count_FMULT信号变为11,预测信号计算完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410338191.2A CN104077505A (zh) | 2014-07-16 | 2014-07-16 | 一种提高16Kbps码率音频数据压缩编码音质方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410338191.2A CN104077505A (zh) | 2014-07-16 | 2014-07-16 | 一种提高16Kbps码率音频数据压缩编码音质方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104077505A true CN104077505A (zh) | 2014-10-01 |
Family
ID=51598756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410338191.2A Pending CN104077505A (zh) | 2014-07-16 | 2014-07-16 | 一种提高16Kbps码率音频数据压缩编码音质方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104077505A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102291773A (zh) * | 2011-07-18 | 2011-12-21 | 电信科学技术研究院 | 一种数据压缩方法和设备 |
CN102436819A (zh) * | 2011-10-25 | 2012-05-02 | 杭州微纳科技有限公司 | 无线音频压缩、解压缩方法及音频编码器和音频解码器 |
CN103325375A (zh) * | 2013-06-05 | 2013-09-25 | 上海交通大学 | 一种极低码率语音编解码设备及编解码方法 |
US20130282382A1 (en) * | 2008-01-04 | 2013-10-24 | Dolby International Ab | Audio Encoder and Decoder |
-
2014
- 2014-07-16 CN CN201410338191.2A patent/CN104077505A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130282382A1 (en) * | 2008-01-04 | 2013-10-24 | Dolby International Ab | Audio Encoder and Decoder |
CN102291773A (zh) * | 2011-07-18 | 2011-12-21 | 电信科学技术研究院 | 一种数据压缩方法和设备 |
CN102436819A (zh) * | 2011-10-25 | 2012-05-02 | 杭州微纳科技有限公司 | 无线音频压缩、解压缩方法及音频编码器和音频解码器 |
CN103325375A (zh) * | 2013-06-05 | 2013-09-25 | 上海交通大学 | 一种极低码率语音编解码设备及编解码方法 |
Non-Patent Citations (2)
Title |
---|
潘桐: "《G.726语音压缩算法在低码率下的改进与实现》", 《微计算机应用》 * |
王晓亚 等: "《G.726语音压缩编码的实现》", 《无线电工程》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7953595B2 (en) | Dual-transform coding of audio signals | |
CN104838443A (zh) | 语音声响编码装置、语音声响解码装置、语音声响编码方法及语音声响解码方法 | |
JP2010538316A (ja) | 改良された音声及びオーディオ信号の変換符号化 | |
JP2018112759A (ja) | オーディオ/音声符号化方法およびオーディオ/音声符号化装置 | |
CN101421780B (zh) | 用于编码和解码时变信号的方法和设备 | |
CN104641414A (zh) | 立体声音频信号编码器 | |
CN103299548B (zh) | 执行增强的∑-δ调制 | |
KR101361933B1 (ko) | 오디오 인코딩에서 주파수 대역 신호 에너지를 기초로 한 주파수 대역 스케일 팩터 결정 | |
JP5446013B2 (ja) | 適応差分パルス符号変調の符号化装置及び復号化装置 | |
EP1569204A1 (en) | Parameter optimisation for encoding audio signals | |
CN102800318B (zh) | 音频数据流的发送、接收装置及方法 | |
CN100585700C (zh) | 语音编码装置及其方法 | |
KR20120070578A (ko) | 인터채널과 시간적 중복감소를 이용한 오디오 신호 인코딩 | |
CN101636785A (zh) | 用于增强语音编解码器的质量的设备和方法 | |
CN104077505A (zh) | 一种提高16Kbps码率音频数据压缩编码音质方法 | |
KR101389830B1 (ko) | 일정한 비트 레이트 애플리케이션들을 위한 최적의 비트 할당을 가지는 오디오 및 음성 프로세싱 | |
KR20160003264A (ko) | 신호 인코딩 및 디코딩 방법 및 장치 | |
Uddin et al. | Low bit rate speech coding using differential pulse code modulation | |
CN112992166A (zh) | 一种动态调整lc3音频编码速率的方法、装置及存储介质 | |
CN103035249B (zh) | 一种基于时频平面上下文的音频算术编码方法 | |
Tomić et al. | Modified BTC algorithm for audio signal coding | |
Kanawade et al. | Tree structured vector quantization based technique for speech compression | |
CN103474079A (zh) | 一种语音编码方法 | |
Perić et al. | Coding algorithm based on loss compression using scalar quantization switching technique and logarithmic companding | |
Talbi et al. | New Speech Compression Technique based on Filter Bank Design and Psychoacoustic Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20141001 |
|
RJ01 | Rejection of invention patent application after publication |