CN115083429A

CN115083429A - 语音降噪的模型训练方法、语音降噪方法、装置及介质

Info

Publication number: CN115083429A
Application number: CN202210669556.4A
Authority: CN
Inventors: 李强; 王尧; 叶东翔; 朱勇
Original assignee: Barrot Wireless Co Ltd
Current assignee: Barrot Wireless Co Ltd
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2022-09-20

Abstract

本申请公开了一种语音降噪的模型训练方法、语音降噪方法、装置及介质，属于语音编解码技术领域。该方法包括对预先获取的纯净语音与噪声进行声音混合，获取混合语音；对纯净语音与混合语音进行特征提取，获取理想子带增益与混合语音对应的倒谱系数；以及利用理想子带增益与倒谱系数对预设的神经网络进行训练，获取语音降噪模型。本申请提供一种语音降噪模型，通过将该语音降噪模型插入蓝牙编码器中，在编码过程中实现语音降噪的目的；在语音降噪的过程中，利用蓝牙编码器自身的时频转换模块获取谱系数，再进行后续的降噪步骤，使得本方案的降噪过程达到节省码率、减少系统的运算量、加快编码效率的效果。

Description

语音降噪的模型训练方法、语音降噪方法、装置及介质

技术领域

本申请涉及语音编解码技术领域，特别涉及一种语音降噪的模型训练方法、语音降噪方法、装置及介质。

背景技术

由于在蓝牙语音通信的过程中需要对语音信息进行降噪，以提高语音通信的音质与用户体验效果；在相关技术中，存在三种降噪方式，方法一：使用谱减法对语音信息进行降噪处理，其具体的实施方案为通过傅里叶变换对语音信息进行时频变换，将时域的语音信息转换为频域数据；在频域对数据进行噪声估计与消除，即在静音或纯噪声状态下，基于频谱系数估计噪声谱，并将噪声谱减去，得到更新的谱系数；再通过傅里叶逆变换转回时域；最后通过重叠相加的方式获得平滑的降噪语音信息，并将其输出。

方法二：在文献‘A Regression Approach to Speech Enhancement Based onDeep Neural Networks，Yong Xu,Jun Du,Li-Rong Dai,and Chin-Hui Lee’中，其基于深度神经网络DNN实现了降噪效果，此算法使用信号的幅度谱作为特征，以此学习带噪语音与纯净语音间的非线性映射关系，其降噪效果要明显优于传统的谱减法。

方法三：在文献‘A Hybrid DSP Deep Learning Approach to Real-Time Full-Band Speech Enhancement,Jean-Marc Valin’中，提出了一种更高效的基于循环神经网络RNN的降噪方法，基于循环神经网络可以有效地利用音频相邻帧之间的相关性，而且使用基于Bark子带的特征提取，将一帧信号的谱系数划分为22个子带，极大的降低了特征的数量，相应的降低了神经网络的复杂度。

然而，方法一的谱减法虽然对存在平稳噪声的语音数据具有很好的降噪效果，但却对存在非平稳噪声的语音数据无能为力。方法二的基于深度神经网络DNN的方法的不足之处在于，特征提取以频点为单位进行计算，使用了三层深度神经网络。语音信号的每一帧进行DFT(离散傅里叶变换)后被分为1024个频点，各频点对应的幅值被用作神经网络的输入特征。网络中的每个隐含层包含2048个节点，需要超过一千万个权重值。不仅需要占用很大的存储空间，而且运算量很大，较难部署在低功耗蓝牙设备。方法三的不足之处在于其时频变换的方式依旧是利用快速傅里叶变换与快速傅里叶逆变换，该方式的运算量与存储量都比较大不利于在低功耗嵌入式设备部署，并且该方式中对基因频率的分析与滤波、循环神经网络过程中均使得系统的复杂度提升。

基于上述的降噪方式，将其应用在蓝牙语音通信中时，典型的用法如图1所示，即是在音频编码前加入噪声消除的模块，先执行噪声消除，再进行音频编码，并通过蓝牙发射器发射出去，蓝牙接收器接收音频数据，并执行解码播放。

但是，上述几种方法共有的缺点是会增加系统端到端的延时，为了使得降噪后的语音帧与帧之间的数据比较平滑，上述噪声消除方法都采用了重叠相加法，以帧长10ms为例，其造成的算法延时也在10ms左右；然而，无论是经典蓝牙还是低功耗蓝牙，对于延迟的要求都比较高，上述增加的延时使得此方法在很多场景降低了用户体验，如直播、游戏等。

发明内容

本申请主要提供一种语音降噪的模型训练方法、语音降噪方法、装置及介质，用以解决现有技术存在的运算量大、存储量大以及增加系统端到端的延迟，使得用户体验降低的问题。

为了实现上述目的，本申请采用的一个技术方案是：提供一种语音降噪的模型训练方法，其包括：对预先获取的纯净语音与噪声进行声音混合，获取混合语音；对纯净语音与混合语音进行特征提取，获取理想子带增益与混合语音对应的倒谱系数；以及利用理想子带增益与倒谱系数对预设的神经网络进行训练，获取语音降噪模型。

本申请采用的另一个技术方案是：提供一种语音降噪方法，其包括：根据蓝牙发射端自身的编码器对蓝牙发射端采集到的语音信息进行特征提取，获取语音信息对应频域的语音谱系数；将语音谱系数输入预训练的语音降噪模型中，输出语音特征对应的降噪子带增益，其中语音降噪模型的预训练过程包括，对预先获取的纯净语音与噪声进行声音混合，获取混合语音，对纯净语音与混合语音进行特征提取，获取理想子带增益与混合语音对应的倒谱系数，利用理想子带增益与倒谱系数对预设的神经网络进行训练，获取语音降噪模型；根据降噪子带增益与语音谱系数计算语音信息对应的降噪谱系数；利用编码器对降噪谱系数进行剩余的编码步骤并发送至蓝牙接收端，利用蓝牙接收端对编码器输出的码流进行解码，获取降噪谱系数对应的降噪语音，其中蓝牙发射端与蓝牙接收端进行蓝牙连接。

本申请采用的另一个技术方案是：提供一种语音降噪装置，其包括：第一特征提取模块，其用于根据蓝牙发射端自身的编码器对蓝牙发射端采集到的语音信息进行特征提取，获取语音信息对应频域的语音谱系数；语音降噪模块，其用于将语音谱系数输入预训练的语音降噪模型中，输出语音特征对应的降噪子带增益，其中语音降噪模型的预训练过程包括，混合语音获取模块，其用于对预先获取的纯净语音与噪声进行声音混合，获取混合语音，第二特征提取模块，其用于对纯净语音与混合语音进行特征提取，获取理想子带增益与混合语音对应的倒谱系数，模型训练模块，其用于利用理想子带增益与倒谱系数对预设的神经网络进行训练，获取语音降噪模型；以及降噪谱系数获取模块，其用于根据降噪子带增益与语音谱系数计算语音信息对应的降噪谱系数；后续编解码模块，其用于利用编码器对降噪谱系数进行剩余的编码步骤并发送至蓝牙接收端，利用蓝牙接收端对编码器输出的码流进行解码，获取降噪谱系数对应的降噪语音，其中蓝牙发射端与蓝牙接收端进行蓝牙连接。

本申请采用的另一个技术方案是：提供一种计算机设备，其包括：至少一个处理器；以及与至少一个处理器进行通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的计算机指令，至少一个处理器操作计算机指令以执行方案一中的语音降噪的模型训练方法或方案三中的语音降噪方法。

本申请采用的另一个技术方案是：提供一种计算机可读存储介质，其存储有计算机指令，该计算机指令被操作以执行方案一中的语音降噪的模型训练方法或方案三中的语音降噪方法。

本申请的技术方案可以达到的有益效果是：本申请提供一种语音降噪模型，通过将该语音降噪模型插入蓝牙编码器中，在编码过程中实现语音降噪的目的；在语音降噪的过程中，利用蓝牙编码器自身的时频转换模块获取谱系数，再进行后续的降噪步骤，使得本方案的降噪过程在不增加算法延迟的情况下，达到节省码率、减少系统的运算量、加快编码效率的效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术中降噪方法的一个可选实施方式的示意图；

图2是本申请一种语音降噪的模型训练方法的一个可选实施方式的示意图；

图3是本申请一种语音降噪方法的一个可选实施方式的示意图；

图4是本申请一种语音降噪装置的一个可选实施方式的示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

下面结合附图对本申请的较佳实施例进行详细阐述，以使本申请的优点和特征能更易于被本领域技术人员理解，从而对本申请的保护范围做出更为清楚明确的界定。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

针对现有技术存在的运算量大、存储量大以及增加系统端到端的延迟，使得用户体验降低的问题，本申请主要提供一种语音降噪的模型训练方法、语音降噪方法、装置及介质。该语音降噪的模型训练方法包括：对预先获取的纯净语音与噪声进行声音混合，获取混合语音；对纯净语音与混合语音进行特征提取，获取理想子带增益与混合语音对应的倒谱系数；以及利用理想子带增益与倒谱系数对预设的神经网络进行训练，获取语音降噪模型。

本申请通过提供一种语音降噪模型，通过将该语音降噪模型插入蓝牙编码器中，在编码过程中实现语音降噪的目的；在语音降噪的过程中，利用蓝牙编码器自身的时频转换模块获取谱系数，再进行后续的降噪步骤，使得本方案的降噪过程在不增加算法延迟的情况下，达到节省码率、减少系统的运算量、加快编码效率的效果。

下面，以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面述及的具体的实施例可以相互结合形成新的实施例。对于在一个实施例中描述过的相同或相似的思想或过程，可能在其他某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2示出了本申请一种语音降噪的模型训练方法的一个具体实施方式。

在图2所示的具体实施方式中，一种语音降噪的模型训练方法，包括：步骤S201，对预先获取的纯净语音与噪声进行声音混合，获取混合语音。

在该具体实施方式中，由于本方案是在蓝牙语音通信过程中，对语音信息中的噪声进行降噪，因此模型训练的过程中将纯净语音与噪声进行混合，获取混合语音，将该混合语音模拟为蓝牙通信过程中的带噪声的语音，为后续的模型训练步骤提供基础。

在本申请的一个可选实施例中，对预先获取的纯净语音与噪声进行声音混合，获取混合语音，进一步包括：将纯净语音中的单帧纯净语音与噪声中的单帧噪声语音相加，获取单帧混合语音，其中混合语音包括单帧混合语音。

在该可选实施例中，本方案的混合过程为对纯净语音与噪声逐帧进行相加，即对纯净语音与噪声分别进行分帧，获取多个单帧纯净语音与多个单帧噪声，将单帧纯净语音与单帧噪声相加，获取单帧混合语音，以使得混合语音与蓝牙通信过程中的带噪声的语音更为相似，提高后续模型训练的精度。

在本申请的一个可选实例，设单帧噪声为n(m),单帧纯净语音为x(m)，根据下述公式计算获取单帧混合语音x_s(m)；其中公式为：

x_s(m)＝n(m)+x(m),m＝0,1,...,N_F-1

在图2所示的可选实施方式中，语音降噪的模型训练方法，还包括：步骤S202，对纯净语音与混合语音进行特征提取，获取理想子带增益与混合语音对应的倒谱系数。

在该可选实施方式中，由于前述的纯净语音、噪声以及混合语音均为时域的信息，因此首先需将纯净语音以及混合语音转换为频域的信息，以在频域对信息进行降噪处理，获取降噪过程所需的参数信息，为降噪过程提供基础。

在本申请的一个可选实施例中，对纯净语音与混合语音进行特征提取，获取理想子带增益与混合语音对应的倒谱系数，进一步包括：根据LC3编码器中自身的低延迟改进型离散余弦变换模块，对纯净语音与混合语音分别进行变换，获取纯净语音对应的纯净谱系数与混合语音对应的混合谱系数；分别对纯净谱系数与混合谱系数进行子带划分，并计算子带的子带能量，其中子带能量包括纯净子带能量与混合子带能量；根据纯净子带能量与混合子带能量，计算获取理想子带增益。

在该可选实施例中，本方案的特征提取过程包括：时频转换、子带能量的计算、子带增益的计算、对数转换以及离散余弦DCT变换步骤。其中对于纯净语音的特征提取为时频转换、子带能量的计算、子带增益的计算步骤，由于在降噪的过程中所需的参数为子带增益，即根据子带增益确定降噪的效果，因此纯净语音作为参考的标准语音，需利用其子带能量计算理想子带增益，其中理想子带增益为纯净语音的子带能量和带噪语音的子带能量之间的比值，将理想子带增益作为降噪过程中参考增益，以保证后续模型训练的精度。

需要说明的是，由于本方案应用场景为蓝牙通信过程中对语音信息进行降噪，因此上述的时频转换步骤可直接利用蓝牙通信过程中蓝牙编码器自身的低延迟改进型离散余弦变换模块实现时频转换的步骤，使得时域的纯净语音与混合语音均转换为频域的纯净谱系数与混合谱系数。

在本申请的一个可选实例中，在对纯净语音与混合语音进行时频转换的过程，为利用低延迟改进型离散余弦变换模块(LD-MDCT)获取纯净语音对应的纯净谱系数与混合语音对应的混合谱系数，其中计算公式为：

t(n)＝x_s(Z-N_F+n)，for n＝0...2·N_F-1-Z

t(2N_F-Z+n)＝0，for n＝0...Z-1

for k＝0...N_F-1

上述公式中的N_F为单帧谱系数的数量，x_s(n)为单帧的语音信息，X(k)为单帧的谱系数；利用上述公式即可获取纯净语音对应的纯净谱系数与混合语音对应的混合谱系数。

在本申请的一个可选实例中，在计算获取纯净语音的纯净子带能量与混合语音的混合子带能量之后，计算理想子带增益，其计算公式为：

上式中的Energy_{subband，clean}(b)为纯净子带能量，Energy_{subband，noise}(b)为混合子带能量，Gain_ideal(b)为理想子带增益。

在本申请的一个可选实施例中，对纯净语音与混合语音进行特征提取，获取理想子带增益与混合语音对应的倒谱系数，还包括：对混合子带能量进行对数变换获取混合子带能量对应的能量对数；将能量对数进行离散余弦变换获取倒谱系数。

在该可选实施例中，混合语音而言的特征提取为时频转换、子带能量的计算、子带增益的计算、对数转换以及离散余弦DCT变换步骤，由于本方案所使用的降噪方式为利用神经网络模型训练出语音降噪模型进行降噪，即由神经网络模型或语音降噪模型输出降噪子带增益，而前述获取的混合子带能量，不能直接输入模型中，在前述的子带能量的计算之后，还需要进行降噪的两个必要步骤即对数转换与离散余弦DCT变换步骤；以使得步骤完成后获取的数据能够符合神经网络模型或语音降噪模型的输入标准，为后续训练模型提供基础。

在本申请的一个可选实例中，首先对前述获取的混合子带能量进行对数变换，获取能量对数，其中计算公式为：

Energy_log(m)＝log(Energy_subband(m))，m＝0，1，...，20

上式中的Energy_subband(m)为混合子带能量，Energy_log(m)为能量对数；在对能量对数进行离散余弦DCT变换，获取倒谱系数，其计算公式为：

上式中的Energy_log(m)为能量对数，BFCC(k)为倒谱系数。

在本申请的一个可选实施例中，分别对纯净谱系数与混合谱系数进行子带划分，并计算子带的子带能量，进一步包括：根据预设频率分别对纯净谱系数与混合谱系数进行子带划分，获取纯净谱系数对应的多个纯净子带谱系数与混合谱系数对应的多个混合子带谱系数；分别计算纯净子带谱系数与混合子带谱系数对应的伪谱系数，其中伪谱系数包括纯净子带谱系数对应的纯净子带伪谱系数与混合子带谱系数对应的混合子带伪谱系数；根据伪谱系数分别计算纯净子带能量与混合子带能量。

在该可选实施例中，在子带能量的计算过程中，由于现有技术中通过傅里叶变换(FFT)进行降噪，对利用傅里叶变换(FFT)获取的谱系数与时域的语音信息的频率存在较为准确的对应的关系，对该谱系数进行计算得到的子带能量，与实际频率有较好的对应关系；而对利用低延迟改进型离散余弦变换获取的谱系数，该方式获取的谱系数与时域的语音信息的频率存在偏差，对该谱系数进行计算得到的子带能量，与实际频率的对应有一定的偏差，为了使得避免上述偏差，本方案加入伪谱，通过计算伪谱，以避免上述偏差，保证判断噪声的准确率。

因此，本方案在对纯净谱系数与混合谱系数进行子带划分后，添加计算伪谱系数的步骤，再计算伪谱系数的子带能量，从而获得纯净子带能量与混合子带能量。

在本申请的一个可选实例中，当语音的采样率为16kHz，帧长为10ms时，每帧输出480个谱系数，即N_F＝480，按照Bark频率划分为21子带(子带序号记为subband＝0，1，2，...，20)，每个子带拥有的谱系数个数如下：4，4，4，4，4，4，4，4，8，8，8，8，16，16，16，24，24，32，48，64，96；计算获取单帧的谱系数对应的伪谱，其计算公式如下：

其中，X(k)＝0，当k＝-１或N_F时，上述公式中的N_F为单帧的谱系数的数量，X(k)为单帧的谱系数，X_pseudo(k)为单帧的谱系数对应伪谱的伪谱系数。

根据上述获取的伪谱子带伪谱系数计算每一伪谱子带分别对应的伪谱能量，其计算如下：

Energy_subband(b)＝∑_k X_pseudo(k)

其中，上式中的Energy_subband(b)为单个伪谱子带的伪谱能量，X_pseudo(k)为伪谱子带数量，其中当b＝0时，其计算公式为：

Energy_subband(0)＝X_pseudo(0)+X_pseudo(1)+X_pseudo(2)+X_pseudo(3)

根据上述每个子带拥有的谱系数个数计算获取伪谱能量，其中伪谱能量即包括纯净子带能量、混合子带能量。

在图2所示的可选实施方式中，语音降噪的模型训练方法，还包括：步骤S203，利用理想子带增益与倒谱系数对预设的神经网络进行训练，获取语音降噪模型。

在该可选实施方式中，将理想子带增益作为参考增益，将倒谱系数输入神经网络模型中，由神经网络模型输出对应的降噪子带增益，完成语音降噪的目的。将上述的理想子带增益与倒谱系数输入神经网络模型对神经网络模型进行训练，根据理想子带增益与降噪子带增益的差值对该神经网络模型的相关参数进行调整，使得该神经网络模型能够输出无限接近于理想子带增益的降噪子带增益，进而获取语音降噪模型。其中本方案的神经网络模型包括但不限于深度神经网络、CNN、RNN、CRNN、LSTM。本方案对于神经网络模型的类型不做具体限制，只要能够实现语音降噪的功能即可。

在本申请的一个可选实施例中，利用理想子带增益与倒谱系数对预设的神经网络进行训练，获取语音降噪模型，进一步包括：将倒谱系数输入神经网络模型中，获取倒谱系数对应的降噪子带增益；计算降噪子带增益与理想子带增益之间的第N损失函数；若第N损失函数小于或等于预设损失阈值，则将神经网络模型确定为语音降噪模型；若第N损失函数大于预设损失阈值，则对神经网络模型中的相关参数进行调整，获取语音降噪模型。

在该可选实施例中，预先设置预设损失阈值，使得小于或等于预设损失阈值的第N损失函数对应的神经网络模型输出的降噪子带增益进行解码后输出的音频符合目标音频的标准，以达到语音降噪的目的，提高用户体验感。例如，当第一损失函数小于或等于预设损失阈值时，表示利用当前该神经网络模型输出的降噪子带增益进行解码后输出的音频符合目标音频的标准，因此将当前的神经网络模型确定为语音降噪模型；当第一损失函数大于预设损失阈值时，表示利用当前该神经网络模型输出的降噪子带增益进行解码后输出的音频不符合目标音频的标准，因此对神经网络模型中的相关参数进行调整，以使得神经网络模型输出音频的降噪子带增益进行解码后输出的音频符合目标音频的标准。

在本申请的一个可选实例中，在神经网络模型输出降噪子带增益后，根据公式：

计算降噪子带增益与理想子带增益之间的损失函数，其中上式中的Gain_est(b)为降噪子带增益，Gain_ideal(b)为理想子带增益。

根据前述的子带划分方式，获知第一个子带的4个谱系数分别为X(0)，X(1)，X(2)，X(3)，神经网络模型输出的第一个子带的增益为Gain_est(0)，则应用子带降噪增益：X′(0)＝X(0)*Gain_est(0)，X′(1)＝X(1)*Gain_est(0)，X′(2)＝X(2)*Gain_est(0)，X′(3)＝X(3)*Gain_est(0)；

其中，X′(0)，X′(1)，X′(2)和X′(3)为降噪后的谱系数。

在本申请的一个可选实施例中，对神经网络模型中的相关参数进行调整，获取语音降噪模型，进一步包括：根据第N损失函数对相关参数进行调整，获取第N更新神经网络模型；将倒谱系数输入第N更新神经网络模型，获取倒谱系数对应的第N+1降噪子带增益；计算第N+1降噪子带增益与理想子带增益之间的第N+1损失函数；若第N+1损失函数小于或等于预设损失阈值，则将N+1更新神经网络模型确定为语音降噪模型。

在该可选实施例中，在更新神经网络模型后，确定该第N更新神经网络模型是否能够成为语音降噪模型，即将倒谱系数输入该第N更新神经网络模型，由该第N更新神经网络模型对该倒谱系数进行降噪，输出第N+1降噪子带增益，通过计算该第N+1降噪子带增益与理想子带增益之间的第N+1损失函数，当第N+1损失函数小于或等于预设损失阈值，则表示该第N+1更新神经网络模型能够将原本的倒谱系数转换的第N+1降噪子带增益符合目标音频的标准，将此时的更新神经网络模型确定为语音降噪模型；当第N+1损失函数大于预设损失阈值，则表示该更新神经网络模型将原本的倒谱系数转换的第N+1降噪子带增益不符合目标音频的标准，继续对该第N更新神经网络模型的相关参数进行调整，直至该第N更新神经网络模型能够将原本的倒谱系数转换的第N+1降噪子带增益符合目标音频的标准为止。

在本申请的一个可选实例中，在前述的特征提取模块获取得倒谱系数共输出36个值，即除上述21个子带分别对应的倒谱系数外，还包括前述21个倒谱系数中前六个的时间差分，其中时间差分的计算公式为：

BFCC_diff(k)＝BFCC_curr(k)-BFCC_lastlast(k)，k＝0，1，2，3，4，5

以及前述21个倒谱系数中前六个的二阶时间差分，其中二阶时间差分的计算公式为：

BFCC_diff2(k)＝BFCC_curr(k)-2*BFCC_last(k)+BFCC_lastlast(k)，k

＝0，1，2，3，4，5

其中上述两个公式中的BFCC_diff(k)为时间差分，BFCC_diff2(k)为二阶时间差分，BFCC_curr(k)为当前帧的第k个倒谱系数，BFCC_last(k)为上一帧的第k个倒谱系数，BFCC_lastlast(k)为上上一帧的倒谱系数。其中前述计算的21个倒谱系数主要反映语音/噪声的静态特性，前述计算的一阶时间差分和二阶时间差分主要反映语音/噪声的动态特性，结合动态特性和静态特性有助于提高神经网络的降噪性能，提升语音降噪模型的降噪精度。

在蓝牙编码器编码过程中，LTPF模块(长期后置滤波器)输出的pitch_present、pitch_int、pitch_fr，其中pitch_present指示当前帧是否检测到有效基音，pitch_int为基音的整数值，pitch_fr为基音的小数值。前述的pitch_present、pitch_int、pitch_fr特征主要反映是否存在语音，尤其反映是否存在基因；因此在神经网络模型的训练过程中，将前述的三个特征一并输入神经网络模型，使得神经网络在降噪时优先考虑提升基音及其谐波的降噪性能。本方案重用蓝牙编解码器中已有的LTPF(长期后置滤波器)，对基音频率增强，提高了声音的主观音质，其中LC3编码器中的LTPF不用更新，正常执行即可，其会提取基音频率相关的参数供解码器使用，LC3解码器中，当处于降噪模式时，不论码率高低，一律不将滤波器系数置零，使得基音增强滤波正常执行。

本方案中的时频变换方式为蓝牙编码器中自身的LD-MDCT变换(低延迟改进型离散余弦)模块，代替了现有技术中的DFT或FFT(离散傅里叶变换、快速傅里叶变换)，使得在运行过程中避免增加相关运算的算力，避免增加相关的存储空间；并且使用蓝牙编码器中自身的重叠相加模块，避免了现有技术的算法延迟，因此‘蓝牙+降噪’引入的算法延迟是LC3算法固有的算法延迟，降噪没有引入新的延迟。

图3示出了本申请一种语音降噪方法的一个可选实施方式。

在图3所示的可选实施方式中，一种语音降噪方法主要包括：步骤S301，根据蓝牙发射端自身的编码器对蓝牙发射端采集到的语音信息进行特征提取，获取语音信息对应频域的语音谱系数；步骤S302，将语音谱系数输入预训练的语音降噪模型中，输出语音特征对应的降噪子带增益，其中语音降噪模型的预训练过程包括，步骤S3021，对预先获取的纯净语音与噪声进行声音混合，获取混合语音，步骤S3022，对纯净语音与混合语音进行特征提取，获取理想子带增益与混合语音对应的倒谱系数，步骤S3023，利用理想子带增益与倒谱系数对预设的神经网络进行训练，获取语音降噪模型；以及步骤S3023，根据降噪子带增益与语音谱系数计算语音信息对应的降噪谱系数；步骤S303，利用编码器对降噪谱系数进行剩余的编码步骤并发送至蓝牙接收端，利用蓝牙接收端对编码器输出的码流进行解码，获取降噪谱系数对应的降噪语音，其中蓝牙发射端与蓝牙接收端进行蓝牙连接。

在该可选实施方式中，步骤S301中的特征提取过程中与前述语音降噪的模型训练方法中对混合语音的特征提取的步骤一致，获取语音谱系数，并利用前述已经训练好的语音降噪模型输出该语音谱系数对应的降噪子带增益，再根据降噪子带增益与语音谱系数计算降噪谱系数，再继续完成其余编码模块，其中其余编码模块包括变换域噪声整形、时域噪声整形、量化、噪声电平估计、算术编码残差编码与码流封装，得到降噪后的码流；将码流通过蓝牙发射器发射出去；蓝牙接收器接收码流，执行标准解码，得到降噪后的语音信号，其中的LD-IMDCT即时频逆变换，与编码器中的LD-MDCT对应。

其中，在标准LC3编码时，若码率较高，则编码时会跳过LTPF的实质计算，而对本方案而言，为了取得最佳的降噪效果，当编码器处于降噪模式时，LTPF模块正常执行，以增强基音及其谐波成分，避免了现有技术中需要单独的基音及其谐波增强模块。

本申请提供的语音降噪方法，可用于执行上述任一实施例描述的语音降噪的模型训练方法，其实现原理和技术效果类似，在此不再赘述。

图4示出了本申请一种语音降噪装置的一个可选实施方式。

在图4所示的可选实施方式中，一种语音降噪装置主要包括：第一特征提取模块401，其用于根据蓝牙发射端自身的编码器对蓝牙发射端采集到的语音信息进行特征提取，获取语音信息对应频域的语音谱系数；语音降噪模块402，其用于将语音谱系数输入预训练的语音降噪模型中，输出语音特征对应的降噪子带增益，其中语音降噪模型的预训练过程包括，混合语音获取模块4021，其用于对预先获取的纯净语音与噪声进行声音混合，获取混合语音，第二特征提取模块4022，其用于对纯净语音与混合语音进行特征提取，获取理想子带增益与混合语音对应的倒谱系数，模型训练模块4023，其用于利用理想子带增益与倒谱系数对预设的神经网络进行训练，获取语音降噪模型；以及降噪谱系数获取模块403，其用于根据降噪子带增益与语音谱系数计算语音信息对应的降噪谱系数；后续编解码模块404，其用于利用编码器对降噪谱系数进行剩余的编码步骤并发送至蓝牙接收端，利用蓝牙接收端对编码器输出的码流进行解码，获取降噪谱系数对应的降噪语音，其中蓝牙发射端与蓝牙接收端进行蓝牙连接。

本申请提供的语音降噪装置，可用于执行上述任一实施例描述的语音降噪的模型训练方法或语音降噪方法，其实现原理和技术效果类似，在此不再赘述。

在本申请的一个具体实施例中，本申请一种语音降噪装置中各功能模块可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。

软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器，使得处理器可从存储介质读取信息和向存储介质写入信息。

处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)、现场可编程门阵列(英文：Field Programmable Gate Array，简称：FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器，但在替代方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中，存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中，处理器和存储介质可作为离散组件驻留在用户终端中。

在本申请的另一个可选实施方式中，一种计算机可读存储介质，其存储有计算机指令，计算机指令被操作以执行上述实施例中描述的语音降噪的模型训练方法或语音降噪方法。

在本申请的另一个可选实施方式中，一种计算机设备，其包括：至少一个处理器；以及与至少一个处理器进行通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的计算机指令，至少一个处理器操作计算机指令以执行上述实施例中描述的语音降噪的模型训练方法或语音降噪方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音降噪的模型训练方法，其特征在于，包括：

对预先获取的纯净语音与噪声进行声音混合，获取混合语音；

对所述纯净语音与所述混合语音进行特征提取，获取理想子带增益与所述混合语音对应的倒谱系数；以及

利用所述理想子带增益与所述倒谱系数对预设的神经网络进行训练，获取语音降噪模型。

2.根据权利要求1所述的语音降噪的模型训练方法，其特征在于，所述对预先获取的纯净语音与噪声进行声音混合，获取混合语音，进一步包括：

将所述纯净语音中的单帧纯净语音与所述噪声中的单帧噪声相加，获取单帧混合语音，其中所述混合语音包括单帧混合语音。

3.根据权利要求1所述的语音降噪的模型训练方法，其特征在于，所述对所述纯净语音与所述混合语音进行特征提取，获取理想子带增益与所述混合语音对应的倒谱系数，进一步包括：

根据LC3编码器中自身的低延迟改进型离散余弦变换模块，对所述纯净语音与所述混合语音分别进行变换，获取所述纯净语音对应的纯净谱系数与所述混合语音对应的混合谱系数；

分别对所述纯净谱系数与所述混合谱系数进行子带划分，并计算所述子带的子带能量，其中所述子带能量包括纯净子带能量与混合子带能量；

根据所述纯净子带能量与所述混合子带能量，计算获取所述理想子带增益。

4.根据权利要求3所述的语音降噪的模型训练方法，其特征在于，所述对所述纯净语音与所述混合语音进行特征提取，获取理想子带增益与所述混合语音对应的倒谱系数，还包括：

对所述混合子带能量进行对数变换获取所述混合子带能量对应的能量对数；

将所述能量对数进行离散余弦变换获取所述倒谱系数。

5.根据权利要求3或4所述的语音降噪的模型训练方法，其特征在于，所述分别对所述纯净谱系数与所述混合谱系数进行子带划分，并计算所述子带的子带能量，进一步包括：

根据预设频率分别对所述纯净谱系数与所述混合谱系数进行子带划分，获取所述纯净谱系数对应的多个纯净子带谱系数与所述混合谱系数对应的多个混合子带谱系数；

分别计算所述纯净子带谱系数与所述混合子带谱系数对应的伪谱系数，其中所述伪谱系数包括所述纯净子带谱系数对应的纯净子带伪谱系数与所述混合子带谱系数对应的混合子带伪谱系数；

根据所述伪谱系数分别计算所述纯净子带能量与所述混合子带能量。

6.根据权利要求3或4所述的语音降噪的模型训练方法，其特征在于，所述利用所述理想子带增益与所述倒谱系数对预设的神经网络进行训练，获取语音降噪模型，进一步包括：

将所述倒谱系数输入所述神经网络模型中，获取所述倒谱系数对应的降噪子带增益；

计算所述降噪子带增益与所述理想子带增益之间的第N损失函数；

若所述第N损失函数小于或等于预设损失阈值，则将所述神经网络模型确定为所述语音降噪模型；

若所述第N损失函数大于预设损失阈值，则对所述神经网络模型中的相关参数进行调整，获取所述语音降噪模型。

7.根据权利要求6所述的语音降噪的模型训练方法，其特征在于，所述对所述神经网络模型中的相关参数进行调整，获取所述语音降噪模型，进一步包括：

根据所述第N损失函数对所述相关参数进行调整，获取第N更新神经网络模型；

将所述倒谱系数输入所述第N更新神经网络模型，获取所述倒谱系数对应的第N+1降噪子带增益；

计算所述第N+1降噪子带增益与所述理想子带增益之间的第N+1损失函数；

若所述第N+1损失函数小于或等于所述预设损失阈值，则将所述N+1更新神经网络模型确定为所述语音降噪模型。

8.一种语音降噪方法，其特征在于，包括：

根据蓝牙发射端自身的编码器对所述蓝牙发射端采集到的语音信息进行特征提取，获取所述语音信息对应频域的语音谱系数；

将所述语音谱系数输入预训练的语音降噪模型中，输出所述语音特征对应的降噪子带增益，其中所述语音降噪模型的预训练过程包括，

对预先获取的纯净语音与噪声进行声音混合，获取混合语音，

对所述纯净语音与所述混合语音进行特征提取，获取理想子带增益与所述混合语音对应的倒谱系数，

利用所述理想子带增益与所述倒谱系数对预设的神经网络进行训练，获取语音降噪模型；以及

根据所述降噪子带增益与所述语音谱系数计算所述语音信息对应的降噪谱系数；

利用编码器对所述降噪谱系数进行剩余的编码步骤并发送至蓝牙接收端，利用所述蓝牙接收端对编码器输出的码流进行解码，获取所述降噪谱系数对应的降噪语音，其中所述蓝牙发射端与所述蓝牙接收端进行蓝牙连接。

9.一种语音降噪装置，其特征在于，包括：

第一特征提取模块，其用于根据蓝牙发射端自身的编码器对所述蓝牙发射端采集到的语音信息进行特征提取，获取所述语音信息对应频域的语音谱系数；

语音降噪模块，其用于将所述语音谱系数输入预训练的语音降噪模型中，输出所述语音特征对应的降噪子带增益，其中所述语音降噪模型的预训练过程包括，

混合语音获取模块，其用于对预先获取的纯净语音与噪声进行声音混合，获取混合语音，

第二特征提取模块，其用于对所述纯净语音与所述混合语音进行特征提取，获取理想子带增益与所述混合语音对应的倒谱系数，

模型训练模块，其用于利用所述理想子带增益与所述倒谱系数对预设的神经网络进行训练，获取语音降噪模型；以及

降噪谱系数获取模块，其用于根据所述降噪子带增益与所述语音谱系数计算所述语音信息对应的降噪谱系数；

后续编解码模块，其用于利用编码器对所述降噪谱系数进行剩余的编码步骤并发送至蓝牙接收端，利用所述蓝牙接收端对编码器输出的码流进行解码，获取所述降噪谱系数对应的降噪语音，其中所述蓝牙发射端与所述蓝牙接收端进行蓝牙连接。

10.一种计算机可读存储介质，其存储有计算机指令，其特征在于，所述计算机指令被操作以执行权利要求1-7中任一项所述的语音降噪的模型训练方法或权利要求8所述的语音降噪方法。