CN110767243A

CN110767243A - 一种音频编码方法、装置及设备

Info

Publication number: CN110767243A
Application number: CN201911067455.4A
Authority: CN
Inventors: 李强; 王尧; 叶东翔; 朱勇
Original assignee: Chongqing Bairui Internet Electronic Technology Co Ltd
Current assignee: Chongqing Bairui Internet Electronic Technology Co Ltd
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2020-02-07

Abstract

本发明公开了一种音频编码方法、装置及设备，属于通信技术领域。一种音频编码方法，根据音频信号的增益预测对音频信号进行分类，对含有瞬态信号的音频信号增加码率进行编码，对不含有瞬态信号的音频信号降低码率进行编码。一种音频编码装置的运行采用了此音频编码方法，该音频编码装置可进一步用于编解码器及含有此编解码器的蓝牙设备中。本发明对每一音频帧进行动态编码，这样可以在保持音质的前提下减少内存的占用，同时降低运算量，并兼容既有的标准解码器，从而降低在蓝牙设备上集成的难度，同时增加便携设备的使用时间。

Description

一种音频编码方法、装置及设备

技术领域

本发明涉及通信技术领域，特别是一种音频编码方法、装置及设备。

背景技术

目前主流的蓝牙音频编解码器有子带编码(SBC)、高级音频编码-低复杂度(AAC-LC)、aptX系列、LDAC。SBC的音质一般；aptX系列音质较好，但码率高，是高通公司独有的技术；LDAC音质较好，但码率高，是索尼公司独有的技术；AAC-LC音质较好且应用较为广泛，但与SBC相比，内存占用较大，且运算复杂度高，很多蓝牙设备都基于嵌入式平台，电池容量有限，处理器运算能力较差且内存有限。

基于感知音频编码技术的变换编解码器在处理瞬态信号时，瞬态信号在频域的量化噪声在时域的扩散会产生预回声(Pre-echo)，对音质有较大的影响。主流AAC-LC编解码器(见附图1)中采用了块及滤波器组切换技术和时域噪声整形(TNS)技术可以有效抑制Pre-echo，但存在以下缺点：

一、需要进行块及滤波器组切换，判断是否需要切换可以基于感知熵或短时能量变化率，需要占用一定的计算资源且可能产生误判，另外，由于需要同时支持长窗、开始窗、短窗和结束窗，及其对应长度的改进离散余弦变换(MDCT)/快速傅里叶变换(FFT)，代码量和数据量较大，且短窗时，每一帧数据需要计算并传输8个短窗的参数，更多的参数占用了有限的编码资源，降低了编码增益；

二、TNS模块的计算较为复杂，根据动态图象专家组(MPEG)4标准，每组MDCT的谱系数都需要一个TNS滤波器来滤波，当使用8个短窗时需要进行8次TNS的相关计算和滤波，另外，传输TNS数据也需要占用一定的带宽。

发明内容

本发明主要解决的技术问题是提供一种音频编码方法、装置及设备，在不影响音质的前提下减少内存的占用，同时降低运算量。

为了实现上述目的，本发明采用的第一个技术方案是：一种音频编码方法，其特征在于，

通过线性预测对音频信号计算预测增益；

根据所述预测增益的结果，将所述音频信号分为含瞬态信号的音频信号和不含瞬态信号的音频信号；

对所述含瞬态信号的音频信号在所述音频信号自身码率的基础上增加码率进行编码；以及

对所述不含瞬态信号的音频信号在所述音频信号自身码率的基础上降低码率进行编码。

优选的，还包括初始化设置预设码率，并对所述音频信号中的一音频帧进行如下处理：

所述一音频帧经过长滤波器组变换由时域信号变换为频域的谱系数；

根据所述谱系数的能量计算得到比例因子，根据所述比例因子的能量对所述谱系数加凯泽-贝塞尔窗；

计算所述谱系数的自相关系数，对所述自相关系数进行莱文森-德宾算法分析得到预测增益；

将所述预测增益的结果与第一门限比较，其中，

若所述预测增益的结果小于所述第一门限，判定所述一音频帧中没有所述瞬态信号，进而设定所述一音频帧码率为预设码率加第一码率；否则，

将所述预测增益的结果与第二门限比较，其中，

若所述预测增益的结果小于所述第二门限，则设定所述一音频帧码率为预设码率加第二码率；否则，

将所述预测增益的结果与第三门限比较，其中，

若所述预测增益的结果小于所述第三门限，则设定所述一音频帧码率为预设码率加第三码率，否则，设定所述一音频帧码率为预设码率加第四码率，

对所述音频信号中的下一音频帧进行所述一音频帧的所述处理，直至所述音频信号中的所有音频帧都经过了所述一音频帧的所述处理，

其中，所述第一门限小于所述第二门限，所述第二门限小于所述第三门限；

所述第一码率小于零，所述第二码率、所述第三码率及所述第四码率均大于零且所述第二码率、所述第三码率、所述第四码率依次增大。

优选的，所述第一门限值为1.15～1.3，所述第二门限值为1.35～1.45，所述第三门限值为1.8～2.2；

所述预设码率小于等于160kbps时，所述第一码率为-1kbps，所述第二码率为16kbps，所述第三码率为24kbps，所述第四码率为32kbps；

所述预设码率大于160kbps且小于等于200kbps时，所述第一码率为-2kbps，所述第二码率为8kbps，所述第三码率为16kbps，所述第四码率为32kbps；

所述预设码率大于200kbps且小于等于240kbps时，所述第一码率为-3kbps，所述第二码率为6kbps，所述第三码率为12kbps，所述第四码率为16kbps；

所述预设码率大于240kbps时，所述第一码率为-8kbps，所述第二码率为2kbps，所述第三码率为4kbps，所述第四码率为8kbps。

本发明采用的第二个技术方案是：一种音频编码装置，其特征在于，包括音频信号预测增益计算模块和音频信号编码模块，其中，

所述音频信号预测增益计算模块对所述音频信号进行预测增益的计算；

所述音频信号编码模块根据所述预测增益的结果，将所述音频信号分为含瞬态信号的音频信号和不含瞬态信号的音频信号，对所述含瞬态信号的音频信号在所述音频信号自身码率的基础上增加码率进行编码；以及

优选的，还包括：

初始化模块，其对所述音频信号设置预设码率；

所述音频信号预测增益计算模块，其采用长滤波器组将所述音频信号由时域信号变换为频域的谱系数，根据所述谱系数的能量计算得到比例因子，根据所述比例因子的能量对所述谱系数加凯泽-贝塞尔窗，计算所述谱系数的自相关系数，对所述自相关系数进行莱文森-德宾算法分析得到预测增益；

所述音频信号编码模块，其将所述预测增益结果和第一门限进行比较，其中，

若所述预测增益结果小于所述第一门限，判定所述音频信号中没有所述瞬态信号，因而设定所述音频信号码率为预设码率加第一码率；否则，

将所述预测增益结果和第二门限比较，其中，

若所述预测增益结果小于所述第二门限，则设定所述音频信号码率为预设码率加第二码率；否则，

将所述预测增益结果和第三门限比较，其中，

若所述预测增益结果小于所述第三门限，则设定所述音频信号码率为预设码率加第三码率；否则，设定所述音频信号码率为预设码率加第四码率，

本发明采用的第三个技术方案是：一种编解码器，含有技术方案二中的音频编码装置。

本发明采用的第四个技术方案是：一种蓝牙设备，含有技术方案三中的编解码器。

本发明采用的第五个技术方案是：一种计算机可读存储介质，其存储有计算机指令，该计算机指令被操作以执行方案一中的音频编码方法。

本发明采用的第六个技术方案是：一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，处理器操作所述计算机指令以执行方案一中的音频编码方法。

本发明的有益效果是：本发明的应用使得音频信号在编码过程中保持原有音质，减少内存的占用，同时降低运算量，并兼容既有的标准解码器，从而降低在蓝牙设备上集成的难度，同时增加便携设备的使用时间。

附图说明

图1是一种现有高级音频编码-低复杂度编解码器示意图；

图2是本发明一种音频编码方法流程示意图；

图3是本发明一种音频编码装置示意图；

图4是本发明一种改进的高级音频编码-低复杂度编解码器示意图；

图5是本发明一种蓝牙音频设备主体结构示意图；

图6是本发明对音频样本一音质测试结果；

注：图中处理从左到右依次为160kbps,192kbps,224kbps,256kbps

图7是本发明对音频样本一码率测试结果；

图8是本发明对音频样本二音质测试结果；

注：图中处理从左到右依次为160kbps,192kbps,224kbps,256kbps

图9是本发明对音频样本二码率测试结果。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

AAC-LC(ISO/IEC 13818-7)推出的初衷是为了替代mp3，在取得相似的音质时能有更低的码率。众所周知，双声道立体声音乐mp3的标准码率是128kbps，对应相似音质的AAC-LC的码率为96kbps。在经典/传统蓝牙音乐发射端，典型的码率可以为200kbps到600kbps，这为增加瞬时码率提供了保证。

本发明采用线性预测方法对音频信号进行增益预测，在不影响音频信号音质的前提下根据增益预测结果适当调整音频信号的码率，对于含有瞬态信号的音频信号根据预测增益的大小相应增加码率进行重新编码，对于不含有瞬态信号的音频信号适当降低码率进行重新编码。从而减少编码时的代码量、数据量及参数量。

下面以图2为例详细表述本发明对一段音频信号进行编码的过程：

初始化设置预设码率，对该音频信号中的一音频帧进行如下处理：

采用长滤波器组将该一音频帧由时域信号变换为频域的谱系数；

根据此谱系数的能量计算得到比例因子，根据比例因子的能量对谱系数加凯泽-贝塞尔窗；

计算谱系数的自相关系数，对自相关系数进行莱文森-德宾算法(Levision-Durbin)分析得到预测增益；

将预测增益结果和第一门限进行比较，其中，

若预测增益结果小于第一门限，此时输入的音频信号非常平稳，没有瞬态信号，进而设定音频信号码率为预设码率加第一码率；否则，

将预测增益结果和第二门限比较，其中，

若预测增益结果小于第二门限，此时显示可能检测到瞬态信号，进而设定音频信号码率为预设码率加第二码率；否则，

将预测增益结果和第三门限比较，其中，

若预测增益结果小于第三门限，此时显示检测到瞬态信号，进而设定音频信号码率为预设码率加第三码率；否则，

设定音频信号码率为预设码率加第四码率，

当预测增益结果大于等于第三门限时，显示不仅检测到瞬态信号，且变化很剧烈。

对当前处理的一音频帧编码完成后，继续对下一音频帧进行同样的处理，直到整段音频信号编码完成。

上述编码过程中的第一门限值、第二门限值、第三门限值依次增大。同时第一码率、第二码率、第三码率、第四码率也依次增大。具体值如表1和表2所示：

表1音频信号预设码率及增加码率

表2增益预测比较门限值

本发明一种音频编码装置，由三部分组成，分别为初始化模块、音频信号预测增益计算模块和音频信号编码模块。其运行时按照图2所示音频编码方法的流程进行。该音频编码装置可应用于不同的编解码器，如低复杂度通信编解码器(LC3)、高级音频编码-低复杂度(AAC-LC)编解码器、增强型语音通话服务(EVS)编解码器等。将该音频编码装置(见图3)应用于现有高级音频编码-低复杂度(AAC-LC)编解码器中，即得到一种改进的高级音频编码-低复杂度编解码器(见图4)。

本发明一种改进的高级音频编码-低复杂度(AAC-LC)编解码器可应用于基于蓝牙技术的耳机、播放器、移动电话、掌上电脑、笔记本等设备。图5所示为一种蓝牙音频设备主体结构。

本发明一种音频编码方法描述的各种说明性逻辑、逻辑块、模块可用经设计以执行本文音频编码方法的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行。通用处理器可以是微处理器，但在替代方案中，所述处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。

本发明一种音频编码方法可直接在硬件中、在由处理器执行的软件模块中或在所述两者的组合中实施。软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器，使得处理器可从存储介质读取信息和向存储介质写入信息。在替代方案中，存储介质可与处理器成一体式。处理器和存储介质可驻留在专用集成电路(ASIC)中。ASIC可驻留在用户终端中。在替代方案中，处理器和存储介质可作为离散组件驻留在用户终端中。

以下是两个音频信号应用本发明处理后的音质测试及码率变化情况：

对于音质测试采用了音频质量客观评价标准ITU-R BS.1387-1，符合此标准的PEAQ(Perceptual Evaluationof Audio Quality)算法对音频质量的评价相对准确，是客观音质评价的权威国际标准。

PEAQ算法通过模仿人耳的听觉系统，对参考信号和测试信号进行对比分析得出对应于音频质量的客观差异等级(Objective Difference Grade,ODG)，具体评价标准为：(1)如果ODG评分大于0，那么表明经过编解码的音频和原始音频的音质无法区分；(2)如果ODG评分小于0，那么分值越接近于0的表示音质越佳。

实施例1：使用ABBA_44.1k.wav样本测试音质和码率的变化

图6所示为不同目标码率下标准方法和本发明方法对音频信号音质的影响。

160kbps：本发明的方法与标准方法相比，本发明的方法ODG结果大于标准方法的ODG，同时两个结果都为负值，说明本发明方法的ODG评分更好，本发明方法处理的音质比标准方法的音质更佳；

192kbps/224kbps：本发明的方法与标准方法相比，ODG评分有轻微的下降，但下降幅度极低，小于0.006，这些音质的下降可以忽略；

256kbps：本发明的方法与标准方法的ODG值都为正值，说明两者的音质几乎没有区别；

图6的结果显示与标准方法相比，本发明处理音频信号更加有效。

图7所示为不同目标码率下本发明方法与标准方法比较码率变化，与标准方法相比，本发明在较低码率工作时，会稍稍增加平均码率(目标码率在160kbps时，会增加码率约7％)，对于蓝牙音乐播放系统来说，这个幅度的增加是可以接受的。随着目标码率的增加，本发明增加的码率会逐步降低，当目标码率达到或超过256kbps时，本发明也可能降低平均码率，从而尽量不占满经典蓝牙的峰值带宽，降低音乐卡顿的可能性。

实施例2：使用Eddie_Rabbit_44.1k.wav样本测试音质和码率的变换

图8所示为不同目标码率下标准方法和本发明方法对音频信号音质的影响。

160kbps/192kbps/224kbps：本发明的方法与标准方法相比，ODG评分有轻微的下降，但下降幅度很低，最大下降幅度也小于0.03，这些音质的下降可以忽略；

256kbps：本发明的方法与标准方法的ODG值都为正值，说明两者的音质几乎没有区别。

图8的结果显示与标准方法相比，本发明是一种有效的音频信号处理方法。

图9所示为不同目标码率下本发明方法与标准方法比较码率变化，与标准方法相比，本发明在较低码率工作时，会增加平均码率(目标码率在160kbps时，会增加码率约10％)，但对于蓝牙音乐播放系统来说，增加之后的码率仍然可以得到支持，不会对蓝牙音乐播放系统产生不利影响。经典蓝牙的基础带宽是3Mbps，另支持aptX-HD作为编码的系统需要的带宽为576kbps，而支持LDAC作为编码的系统默认带宽为660kbps，最大为990kbps。

相较于标准的AAC-LC编码方法，本发明只支持长窗及其滤波器组，删除了开始窗、结束窗、短窗及其滤波器组的处理；减少了相应窗函数相关的运算及常数表，从而节省了内存，降低了运算量。经过测试数据统计，在较高码率时(256kbps或以上)，可以节省10％～15％的内存(包括块切换、短窗及变换以及TNS代码和数据)，同时降低7％～10％的运算量；在一般码率时(160kbps～256kbps)，可以节省10％～15％的内存，降低7％～10％的运算量。但平均码率上升10kbps～20kbps左右，对于蓝牙发射端来说，相比于传统蓝牙提供的稳定的ACL信道基础带宽，这个幅度的码率上升可以忽略不计，对音频信号的音质没有显著的影响。

本发明的有益效果：本发明的应用使得音频信号在编码过程中保持原有音质，减少内存的占用，同时降低运算量，并兼容既有的标准解码器，从而降低在蓝牙设备上集成的难度，同时增加便携设备的使用时间。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种音频编码方法，其特征在于，

通过线性预测对音频信号计算预测增益；

2.如权利要求1所述的音频编码方法，其特征在于，还包括初始化设置预设码率，并对所述音频信号中的一音频帧进行如下处理：

将所述预测增益的结果与第一门限比较，其中，

将所述预测增益的结果与第二门限比较，其中，

将所述预测增益的结果与第三门限比较，其中，

其中，所述第一门限小于所述第二门限，所述第二门限小于所述第三门限；所述第一码率小于零，所述第二码率、所述第三码率及所述第四码率均大于零且所述第二码率、所述第三码率、所述第四码率依次增大。

3.如权利要求2所述的音频编码方法，其特征在于，

所述第一门限值为1.15～1.3中的任一数值，所述第二门限值为1.35～1.45中的任意数值，所述第三门限值为1.8～2.2中的任意数值；

4.一种音频编码装置，其特征在于，包括音频信号预测增益计算模块和音频信号编码模块，其中，

所述音频信号预测增益计算模块对所述音频信号进行预测增益；

5.如权利要求4所述的音频编码装置，其特征在于，还包括：

初始化模块，其对所述音频信号设置预设码率；

将所述预测增益结果和第二门限比较，其中，

将所述预测增益结果和第三门限比较，其中，

6.如权利要求5所述的音频编码装置，其特征在于，

所述第一门限值为1.15～1.3，所述第二门限值为1.35～1.45，所述第三门限值为1.8～2.2；

7.一种编解码器，其特征在于包括权利要求4至6任一项所述音频编码装置。

8.一种蓝牙设备，其特征在于包括权利要求7所述编解码器。

9.一种计算机可读存储介质，其存储有计算机指令，其特征在于所述计算机指令被操作以执行权利要求1-3任一项所述的音频编码方法。

10.一种计算机设备，其包括处理器和存储器，所述存储器存储有计算机指令，其特征在于：

所述处理器操作所述计算机指令以执行权利要求1-3任一项所述的音频编码方法。