CN110619881B

CN110619881B - 一种语音编码方法、装置及设备

Info

Publication number: CN110619881B
Application number: CN201910894548.8A
Authority: CN
Inventors: 李强; 叶东翔; 朱勇
Original assignee: Barrot Wireless Co Ltd
Current assignee: Barrot Wireless Co Ltd
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2022-04-15
Anticipated expiration: 2039-09-20
Also published as: CN110619881A

Abstract

本发明公开了一种语音编码方法、装置及设备，属于通信技术领域。一种语音编码方法，采用不同的码率对语音信号中的静音帧、浊音帧、清音/噪音帧分别进行相应编码。一种语音编码装置的运行采用了此语音编码方法，该语音编码装置可进一步用于编解码装置及含有此编解码装置的蓝牙设备中。本发明对每一语音帧进行动态判断并根据判断结果相应选择编码速率，这样可以在保持音质的前提下降低平均编码速率，从而降低带宽需求，同时可以降低蓝牙设备发射功率并减少相互空中干扰。

Description

一种语音编码方法、装置及设备

技术领域

本发明涉及通信技术领域，特别是一种语音编码方法、装置及设备。

背景技术

在下一代低功耗蓝牙音频编码中，针对语音编码，低复杂度通信编解码器(LC3)支持8k、16k和32k的采样率，与现有的连续可变斜率增量调制(CVSD)和高清语音技术(WBS)相比，在相同的采样率下降低了码率，同时提升了音质，但由于低复杂度通信编解码器基于波形编码技术，与传统的声码器(Vocoder)相比，压缩效率不高，举例来说，低复杂度通信编解码器在8k采样率时的码率为16kbps，但宽带码分多址(WCDMA)的自适应多速率编码(AMR-NB)最大码率仅为12.2kbps，平均码率10bps以下，应用于码分多址(CDMA)系统的增强型变速率编解码(EVRC-A)最大码率为8kbps，平均码率约为5kbps。低复杂度通信编解码器较高的码率占用了较大的带宽，需要更多的发射功率，在公共场合，蓝牙设备较多，相互之间会造成干扰，影响了用户体验，相互干扰的程度与占用的带宽、发射功率有很大关系。

发明内容

本发明主要解决的技术问题是提供一种语音编码方法、装置及设备，降低低复杂度通信编解码器的码率，进一步降低带宽，同时降低蓝牙设备发射功率并减少空中干扰。

为了实现上述目的，本发明采用的第一个技术方案是：一种语音编码方法，所述语音包含多个语音帧，所述语音帧为静音帧、噪音帧/清音帧、或浊音帧，所述浊音帧包括纯净浊音帧和带噪浊音帧，其特征在于，

采用第一码率对所述静音帧进行编码、采用第二码率对所述噪音帧/清音帧进行编码、采用第三码率对所述浊音帧进行编码，其中，所述第三码率大于所述第二码率，所述第二码率大于所述第一码率。

优选的，还包括：设定浊音延迟计数器初始值为零，并对所述多个语音帧中的一语音帧进行如下处理：

对所述一语音帧进行高通滤波、加汉明窗及短时能量计算，若所述短时能量计算的结果小于第一设定门限，则判断所述一语音帧为所述静音帧，否则，判断所述一语音帧为非静音帧；

对所述非静音帧进行短时自相关计算、归一化、及低通滤波；以及

将经过所述低通滤波后的所述非静音帧的归一化自相关最大值与第二设定门限比较，其中，

若所述归一化自相关最大值大于所述第二设定门限，则判定所述非静音帧为所述浊音帧，并根据所述浊音帧的长度重新设定所述浊音延迟计数器值，所述重新设定的浊音延迟计数器值大于零；

若所述归一化自相关最大值小于等于所述第二设定门限，且所述浊音延迟计数器值大于零，则判定所述非静音帧为所述浊音帧，并将所述浊音延迟计数器值减一；

若所述归一化自相关最大值小于等于所述第二设定门限，且所述浊音延迟计数器值为零，则判定所述非静音帧为所述噪音帧/清音帧；

对所述多个语音帧中的另一语音帧进行所述一语音帧的所述处理，直至所述多个语音帧中的所有语音帧都经过了所述一语音帧的所述处理。

优选的，所述高通滤波采用的截止频率为100～200Hz，所述低通滤波采用的截止频率为600～800Hz。

本发明采用的第二个技术方案是：一种语音编码装置，所述语音包含多个语音帧，所述语音帧为静音帧、噪音帧/清音帧、或浊音帧，所述浊音帧包括纯净浊音帧和带噪浊音帧，其特征在于，包括：

静音帧编码模块，其对所述静音帧采用第一码率进行编码；

噪音帧/清音帧编码模块，其对所述噪音帧/清音帧采用第二码率进行编码；

浊音帧编码模块，其对所述浊音帧采用第三码率进行编码；

其中，所述第三码率大于所述第二码率，所述第二码率大于所述第一码率。

优选的，还包括：

浊音延迟计数器，其对所述浊音帧进行记录，所述浊音延迟计数器初始值为零；

所述静音帧编码模块对所述语音帧进行高通滤波、加汉明窗及短时能量计算，若所述短时能量计算的结果小于第一设定门限，则判断所述语音帧为所述静音帧，否则，判断所述语音帧为非静音帧；

所述浊音帧编码模块对所述非静音帧进行短时自相关计算、归一化、及低通滤波；之后将经过所述低通波后的所述非静音帧的归一化自相关最大值与第二设定门限比较，其中，

所述噪音帧/清音帧编码模块对所述自相关归一化最大值小于等于所述第二设定门限，且所述浊音延迟计数器值为零的所述非静音帧判定为所述噪音帧/清音帧。

本发明采用的第三个技术方案是：一种编解码器，含有技术方案二中的语音编码装置。

本发明采用的第四个技术方案是：一种蓝牙设备，含有技术方案三中的编解码器。

本发明采用的第五个技术方案是：一种计算机可读存储介质，其存储有计算机指令，该计算机指令被操作以执行方案一中的语音编码方法。

本发明采用的第六个技术方案是：一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，处理器操作所述计算机指令以执行方案一中的语音编码方法。

本发明的有益效果是：本发明的应用使得语音信号在编码过程中保持原有语音音质，降低了编码速率，从而降低信号传输带宽，进一步降低蓝牙设备发射功率，减少蓝牙设备之间的空中干扰。

附图说明

图1是本发明一种编码方法流程示意图；

图2是本发明一种语音编码装置示意图；

图3是本发明一种改进的低复杂度通信编解码器示意图；

图4是本发明一种蓝牙耳机结构示意图；

图5是本发明一种动态码率计算模块对语音激活检测结果一；

图6是本发明一种动态码率计算模块对语音激活检测结果二；

图7是本发明编解码后的语音与原始带噪语音对比结果。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

本发明的原理是基于能量以及浊音和清音/噪声的自相关特性差异。语音的大部分能量集中在浊音部分，而浊音是准周期信号，其自相关函数也是准周期信号且具有准周期性，低通滤波后最大值变化不明显。而清音或噪音的自相关函数不具备准周期性，低通滤波后最大值显著降低。

语音包括静音帧、清音帧/噪声帧、或浊音帧(包括纯净浊音帧和带噪浊音帧)。对三种语音帧采用不同的码率分别进行编码，静音帧使用第一码率，清音帧/噪声帧使用第二码率，浊音帧使用第三码率，三种码率由低到高依次为第一码率、第二码率、第三码率，从而将语音编码的平均码率降低。

一段语音信号包含了多个语音帧，本发明的语音编码方法采用动态编码的方式对每一语音帧进行编码，编码结束进入另一语音帧的处理，直至所有语音帧编码完成。

下面以图1为例详细表述本发明对一段语音信号进行编码的过程：

设定浊音延迟计数器的初始值为零。

对一语音帧做截止频率为100～200Hz的高通滤波，滤除50/60Hz的交流以及可能存在的直流分量，加汉明窗。计算短时能量，并将计算结果与第一设定门限进行比较，若计算结果小于第一设定门限，则判断该语音帧为静音帧，否则，判断为非静音帧，对静音帧采用第一码率进行编码。

对非静音帧进行短时自相关计算，搜索计算结果的最大值并对自相关值做归一化，进行截止频率为600～800Hz低通滤波处理。搜索该非静音帧经低通滤波处理后的短时归一化自相关最大值，并将归一化自相关最大值与第二设定门限比较，

若归一化自相关最大值大于第二设定门限，判断为浊音帧，采用第三码率进行编码，同时根据该浊音帧的帧长重新设置浊音延迟计数器值，重新设定的浊音延迟计数器值大于零。

若归一化自相关最大值小于等于第二设定门限，且浊音延迟计数器值大于零，则判断为浊音帧，采用第三码率进行编码，并将浊音延迟计数器值减一。

若归一化自相关最大值小于等于第二设定门限，且浊音延迟计数器值为零，则判断为噪音帧/清音帧，采用第二码率进行编码。

采用上述一语音帧的处理流程对另一语音帧进行处理，直至所有语音帧都编码完成。

上述语音编码方法中的第一设定门限为短时能量的设定门限，其通过以下方式得到：选取包含静音段的语音和带噪的语音，以10ms的帧长为单位，计算每帧的短时能量，然后将这些样本的短时能量值进行统计学处理，得到判断静音帧的短时能量第一设定门限。

上述语音编码方法中的第二设定门限为短时自相关归一化最大值设定门限，其通过以下方式得到：选取男生/女生、汉语/英语、带噪语音/纯净语音等语音信号，进行低通滤波处理后，进行短时自相关函数的计算，搜索计算结果的最大值并对自相关值做归一化，将这些样本的归一化自相关最大值进行统计学处理，得到判断浊音或噪音/清音的第二设定门限。

在上述语音编码方法中，浊音延迟计数器用于记录判定的浊音帧，其数值根据运行该方法的编解码器使用帧长重新设定。

例如：

低复杂度通信编解码器(LC3)：使用10ms的帧长，浊音帧对应的浊音延迟计数器值设定为4～8；

改良的子带编解码器(mSBC)：使用8ms的帧长，浊音帧对应的浊音延迟计数器值设定为7；

OPUS:使用5ms的帧长时，浊音帧对应的浊音延迟计数器值设为10，

使用10ms的帧长时，浊音帧对应的浊音延迟计数器值设为5。

本发明一种语音编码装置，由四部分组成，分别为静音帧编码模块、清音帧/噪声帧编码模块、浊音帧编码模块、浊音延迟计数器。其运行时按照语音编码方法的流程进行。该语音编码装置可应用于不同的编解码器，如低复杂度通信编解码器(LC3)、改良的子带编解码器(mSBC)、OPUS等。将该语音编码装置(即图3中动态码率计算模块)应用于现有低复杂度通信编解码器(LC3)中，即得到一种改进的低复杂度通信编解码器(见图3)。

本发明一种改进的低复杂度通信编解码器可应用于基于蓝牙技术的耳机、播放器、移动电话、掌上电脑、笔记本等设备。图4所示为一种蓝牙耳机结构。

本发明一种语音编码方法描述的各种说明性逻辑、逻辑块、模块可用经设计以执行本文语音编码方法的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行。通用处理器可以是微处理器，但在替代方案中，所述处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。

本发明一种语音编码方法可直接在硬件中、在由处理器执行的软件模块中或在所述两者的组合中实施。软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器，使得处理器可从存储介质读取信息和向存储介质写入信息。在替代方案中，存储介质可与处理器成一体式。处理器和存储介质可驻留在专用集成电路(ASIC)中。ASIC可驻留在用户终端中。在替代方案中，处理器和存储介质可作为离散组件驻留在用户终端中。

图5、图6显示的是应用本发明一种语音编码方法进行的两个语音激活检测的结果，从图中可以看出，原始纯净语音经本发明处理，对每一帧信号可以准确的判断语音特性，原始带噪语音经本发明处理，也显示了类似的性能，说明本发明是一种有效的语音信号处理方法，且具有一定的抗噪性能。

图7是本发明编解码后的语音与原始带噪语音对比结果，三种语音从上到下依次为原始带噪语音、原始低复杂度通信编解码器编解码后的语音、改进的低复杂度通信编解码器编解码后的语音。从图7中可以看出，三种语音之间的波形高度匹配，进一步证实了本发明的语音处理效果。

图7中三种语音的码率为：原始带噪语音250KB，原始低复杂度通信编解码器编解码后的语音(32kbps定码率)32.8KB，改进的低复杂度通信编解码器编解码后的语音(标准码率32kbps，最低码率8kbps)24.5KB。

经过改进的低复杂度通信编解码器处理后的语音码率与原始低复杂度通信编解码器处理后的语音码率相比节省了25.3％。

根据统计，语音电话通话过程中，一方平均说话时间约为33％，按照目前的算法最大可以节省码率为：0.33×1+0.66×0.25＝0.495，理论上最大可以降低一半的编码速率。

本发明的有益效果：本发明的应用使得语音信号在保持原有语音音质的前提下降低编码速率，从而降低信号传输带宽，进一步降低蓝牙设备发射功率，减少蓝牙设备之间的空中干扰。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音编码方法,所述语音包含多个语音帧,所述语音帧为静音帧、噪音帧/清音帧、或浊音帧,所述浊音帧包括纯净浊音帧和带噪浊音帧,其特征在于,

采用第一码率对所述静音帧进行编码、采用第二码率对所述噪音帧/清音帧进行编码、采用第三码率对所述浊音帧进行编码,其中,所述第三码率大于所述第二码率,所述第二码率大于所述第一码率；以及

设定浊音延迟计数器初始值为零,并对所述多个语音帧中的一语音帧进行如下处理:

对所述一语音帧进行高通滤波、加汉明窗及短时能量计算,若所述短时能量计算的结果小于第一设定门限,则判断所述一语音帧为所述静音帧,否则，判断所述一语音帧为非静音帧；

将经过所述低通滤波后的所述非静音帧的归一化自相关最大值与第二设定门限比较,其中，

若所述归一化自相关最大值大于所述第二设定门限,则判定所述非静音帧为所述浊音帧，并根据所述浊音帧的长度重新设定所述浊音延迟计数器值,所述重新设定的浊音延迟计数器值大于零；

若所述归一化自相关最大值小于等于所述第二设定门限,且所述浊音延迟计数器值大于零,则判定所述非静音帧为所述浊音帧,并将所述浊音延迟计数器值减一；

若所述归一化自相关最大值小于等于所述第二设定门限,且所述浊音延迟计数器值为零,则判定所述非静音帧为所述噪音帧/清音帧；

对所述多个语音帧中的另一语音帧进行所述一语音帧的所述处理,直至所述多个语音帧中的所有语音帧都经过了所述一语音帧的所述处理。

2.如权利要求1所述的语音编码方法,其特征在于,所述高通滤波采用的截止频率为100～200Hz,所述低通滤波采用的截止频率为600～800Hz。

3.一种语音编码装置,所述语音包含多个语音帧,所述语音帧为静音帧、噪音帧/清音帧、或浊音帧,所述浊音帧包括纯净浊音帧和带噪浊音帧,其特征在于，包括:

静音帧编码模块,其对所述静音帧采用第一码率进行编码；

噪音帧/清音帧编码模块,其对所述噪音帧/清音帧采用第二码率进行编码；

浊音帧编码模块,其对所述浊音帧采用第三码率进行编码；以及

浊音延迟计数器,其对所述浊音帧进行记录,所述浊音延迟计数器初始值为零；

所述静音帧编码模块对所述语音帧进行高通滤波、加汉明窗及短时能量计算,若所述短时能量计算的结果小于第一设定门限,则判断所述语音帧为所述静音帧,否则，判断所述语音帧为非静音帧；

所述浊音帧编码模块对所述非静音帧进行短时自相关计算、归一化、及低通滤波；之后将经过所述低通滤波后的所述非静音帧的归一化自相关最大值与第二设定门限比较，其中，

若所述归一化自相关最大值小于等于所述第二设定门限,且所述浊音延迟计数器值大于零，则判定所述非静音帧为所述浊音帧,并将所述浊音延迟计数器值减一；

所述噪音帧/清音帧编码模块对所述自相关归一化最大值小于等于所述第二设定门限，且所述浊音延迟计数器值为零的所述非静音帧判定为所述噪音帧/清音帧；

其中,所述第三码率大于所述第二码率,所述第二码率大于所述第一码率。

4.如权利要求3所述的语音编码装置,其特征在于所述高通滤波采用的截止频率为100～200Hz,所述低通滤波采用的截止频率为600～800Hz。

5.一种编解码器,其特征在于包括权利要求3至4任一项所述语音编码装置。

6.一种蓝牙设备,其特征在于包括权利要求5所述编解码器。

7.一种计算机可读存储介质,其存储有计算机指令,其特征在于所述计算机指令被操作以执行权利要求1-2任一项所述的语音编码方法。

8.一种计算机设备,其包括处理器和存储器,所述存储器存储有计算机指令,其特征在于:

所述处理器操作所述计算机指令以执行权利要求1-2任一项所述的语音编码方法。