CN115691535A

CN115691535A - 基于rnn的高信噪比语音降噪方法、装置、设备及介质

Info

Publication number: CN115691535A
Application number: CN202211326640.2A
Authority: CN
Inventors: 韦伟才
Original assignee: Shenzhen Longxinwei Semiconductor Technology Co ltd
Current assignee: Shenzhen Longxinwei Semiconductor Technology Co ltd
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2023-02-03

Abstract

本发明涉及语音降噪技术领域，公开了一种基于RNN的高信噪比语音降噪方法、装置、设备及介质，该方法通过建立RNN循环网络模型，能够分离录入语音中的不同特征，同时循环网络模型的特性，利用时间信息快速提取同步关联语音在时间向量上的音频声噪特征，有利于快速提取滤波噪声阈值，能够实现对高信噪比语音的实时快速且关联性的语音降噪处理，满足对语音处理的连续性和实时性加强处理，有利于实现对语音的实时降噪处理。

Description

基于RNN的高信噪比语音降噪方法、装置、设备及介质

技术领域

本发明涉及语音降噪技术领域，尤其涉及基于RNN的高信噪比语音降噪方法、装置、设备及介质。

背景技术

在信息时代，数字通信系统得到广泛的应用，然而通信系统难免会受到外界噪声的干扰，噪声的形式多种多样，完全是随机无法预估的，无论在军事还是民用通信系统中回波噪声、工频干扰、随机噪声都将严重影响通信质量，强噪声甚至会给人类的身心带来极大的危害。在高噪声的环境下，如何稳定而准确地从被噪声下扰的信号中高效率地将噪声信息滤掉提取原有通信信号，并且保持优良通信信息清晰度，成为当前数字信号处理中一个重要的研究方向

信噪比是指一个电子设备或者电子系统中信号与噪声的比例，这里面的信号指的是来自设备外部需要通过这台设备进行处理的电子信号，噪声是指经过该设备后产生的原信号中并不存在的无规则的额外信号(或信息)，并且该种信号并不随原信号的变化而变化，设备的信噪比越高表明它产生的噪声越少。一般来说，信噪比越大，说明混在信号里的噪声越小，声音回放的音质量越高，否则相反。

在降噪时，通过对信号中噪声的信号进行快速傅里叶变化并绘制频谱后，观察频谱分析噪声的谐波频率分布，选择合适的滤波模块将噪声信息的谐波滤除，就能够得到去除噪声的语音，但由于高信噪比的语音的质量较高，谐波滤除处理的方式比较困难，影响到语音降噪的效率，并且缺乏对无效空白进行的识别处理能力，进而影响到信号噪声的降噪处理能力。

发明内容

本发明的主要目的在于解决由于高信噪比的语音的质量较高，谐波滤除处理的方式比较困难，影响到语音降噪的效率，并且缺乏对无效空白进行的识别处理能力问题。

本发明第一方面提供了一种基于RNN的高信噪比语音降噪方法，包括：

获取外部噪声信息；

基于预置快速傅里叶变化算法，将所述外部噪声信息进行处理，得到处理信息；

将不满足预置信噪比值的所述处理信息进行滤波处理，得到滤波信息；

根据预置空白噪声消除算法，将所述滤波信息的空白噪声进行去除，得到干净的滤波信息；

构建RNN网络模型，并基于RNN网络模型，将所述干净的滤波信息进行特征提取及异或，得到滤波阈值；

根据所述滤波阈值，将预置高斯白噪声对所述干净的滤波信息进行小波阈值降噪，得到降噪语音；

判断所述降噪语音的信噪比是否满足所述信噪比值；

若是，则完成降噪操作；

若不是，则将所述降噪语音重新返回执行所述将不满足预置信噪比值的所述处理信息进行滤波处理，得到滤波信息的步骤。

进一步地，在本发明第一方面的第二种实现方式中，所述获取外部噪声信息包括：

将所述外部噪声信息中的噪声频谱进行音频特征分离，得到不同特征的声音特征。

进一步地，在本发明第一方面的第三种实现方式中，所述所述声音特征包括声道设计、增强人声频率、环境噪声和器乐声音。

进一步地，在本发明第一方面的第四种实现方式中，所述根据预置空白噪声消除算法，将所述滤波信息的空白噪声进行去除，得到干净的滤波信息包括：

检测所述滤波信息中每一帧的信号强度，将所述滤波信息中低于预置强度阈值的一帧认定为空白噪声，并将所述空白噪声进行去除。

进一步地，在本发明第一方面的第五种实现方式中，所述构建RNN网络模型包括：

采集训练集数据，并采集优化后的训练集数据作为输出层的结果值；

向前计算神经元的输出值，并根据输入的训练集特征向量的维度和输出阈值的方向向量的维度，计算出阈值矩阵维度；

反向计算神经元的误差值，将所述误差值分别朝向上一层网络进行传递以及沿时间线正向传递至初始时刻，得到任意时刻的误差项；

将所述误差项沿时间线反向传播，将上一层网络的传递进行加权输入；

基于预置误差函数，对神经元的加权输入进行偏导数；

计算出每个神经元的权重的梯度以及所述误差函数对权重矩阵的梯度；

根据所述误差项和时刻循环层的输出值，计算权重矩阵时间的梯度，得到矩阵内各时刻的梯度之和；

基于预置随机梯度下降算法以更新所述权重；

循环上述步骤，直至构建出RNN网络模型。

进一步地，在本发明第一方面的第六种实现方式中，所述优化后的训练集数据包括：

对所述训练集进行预处理，并提取出多个特征文件；

对多个所述特征文件进行异或处理加权，得到数据特征。

进一步地，在本发明第一方面的第七种实现方式中，所述预处理包括加噪音、调低音量和调高音量、波形位移、波形拉伸、高音修正和倍速播放。

本发明第二方面提供了一种基于RNN的高信噪比语音降噪装置，所述基于RNN的高信噪比语音降噪装置包括：

获取模块，用于获取外部噪声信息；

处理模块，用于基于预置快速傅里叶变化算法，将所述外部噪声信息进行处理，得到处理信息；

滤波模块，用于将不满足预置信噪比值的所述处理信息进行滤波处理，得到滤波信息；

消除模块，用于根据预置空白噪声消除算法，将所述滤波信息的空白噪声进行去除，得到干净的滤波信息；

训练模块，用于构建RNN网络模型，并基于RNN网络模型，将所述干净的滤波信息进行特征提取，得到滤波阈值；

降噪模块，用于根据所述滤波阈值，将预置高斯白噪声对所述干净的滤波信息进行小波阈值降噪，得到降噪语音；

对比模块，用于判断所述降噪语音的信噪比是否满足所述信噪比值；

第一对比结果模块，用于若是，则完成降噪操作；

第二对比结果模块，用于若不是，则将所述降噪语音重新返回执行所述将不满足预置信噪比值的所述处理信息进行滤波处理，得到滤波信息的步骤。

本发明第三方面提供了一种基于RNN的高信噪比语音降噪设备，所述基于RNN的高信噪比语音降噪设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述设备执行上述基于RNN的高信噪比语音降噪方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述基于RNN的高信噪比语音降噪方法。

本发明的有益效果在于：

通过快速判断声音信噪比，实现对录入声音中空白噪声的干扰，并且通过对音频声道的分帧区间的定位，实现对区间内空白噪声的快速匹配定位，满足RNN网络的循环判断处理，并且通过设计的语音降噪系统，在声音降噪处理后，通过对剩余声道的人声和器乐声音的加强，提高声音降噪优化后的真实性；

在本实施例中，通过建立循环网络模型，能够分离录入语音中的不同特征，同时循环网络模型的特性，利用时间信息快速提取同步关联语音在时间向量上的音频声噪特征，有利于快速提取滤波噪声阈值，能够实现对高信噪比语音的实时快速且关联性的语音降噪处理，满足对语音处理的连续性和实时性加强处理，有利于实现对语音的实时降噪处理。实现对录入声音前后端空白噪声的干扰，并且通过对音频声道的分帧区间的定位，实现对区间内白噪声的快速匹配定位，满足循环神经网络的循环判断处理，并且通过设计的语音降噪系统，在声音降噪处理后，通过对剩余声道的人声和器乐声音的加强，提高声音降噪优化后的真实性。通过对训练集特征的预处理，能够将区别特征加入训练库中，在训练时直接通过对特征向量的提取，实现对训练集特征的扩容处理，进而能够有效提高对训练数据的多样化和特征化处理，提高训练效果，满足对输入特征提取时的提取效率。

附图说明

图1为本发明实施例中基于RNN的高信噪比语音降噪方法的第一个实施例示意图；

图2为本发明实施例中基于RNN的高信噪比语音降噪方法的第二个实施例示意图；

图3为本发明实施例中基于RNN的高信噪比语音降噪方法的第三个实施例示意图；

图4为本发明实施例中基于RNN的高信噪比语音降噪装置的第一个实施例示意图；

图5为本发明实施例中基于RNN的高信噪比语音降噪设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于RNN的高信噪比语音降噪方法、装置、设备及介质、装置、设备及介质。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1-3，本发明实施例中基于RNN的高信噪比语音降噪方法一个实施例，所述基于RNN的高信噪比语音降噪方法包括：

101、获取外部噪声信息；

进一步的，步骤101具体还可以执行：

1011、将所述外部噪声信息中的噪声频谱进行音频特征分离，得到不同特征的声音特征。

在本实施例中，声音特征包括声道设计、增强人声频率、环境噪声和器乐声音。

102、基于预置快速傅里叶变化算法，将所述外部噪声信息进行处理，得到处理信息；

103、将不满足预置信噪比值的所述处理信息进行滤波处理，得到滤波信息；

104、根据预置空白噪声消除算法，将所述滤波信息的空白噪声进行去除，得到干净的滤波信息；

105、构建RNN网络模型，并基于RNN网络模型，将所述干净的滤波信息进行特征提取及异或，得到滤波阈值；

进一步的，步骤105具体还可以执行：

1051、采集训练集数据，并采集优化后的训练集数据作为输出层的结果值；

1052、向前计算神经元的输出值，并根据输入的训练集特征向量的维度和输出阈值的方向向量的维度，计算出阈值矩阵维度；

1053、反向计算神经元的误差值，将所述误差值分别朝向上一层网络进行传递以及沿时间线正向传递至初始时刻，得到任意时刻的误差项；

1054、将所述误差项沿时间线反向传播，将上一层网络的传递进行加权输入；

1055、基于预置误差函数，对神经元的加权输入进行偏导数；

1056、计算出每个神经元的权重的梯度以及所述误差函数对权重矩阵的梯度；

1057、根据所述误差项和时刻循环层的输出值，计算权重矩阵时间的梯度，得到矩阵内各时刻的梯度之和；

1058、基于预置随机梯度下降算法以更新所述权重；

1059、循环上述步骤，直至构建出RNN网络模型。

进一步的，“优化后的训练集数据”具体还可以执行：

对所述训练集进行预处理，并提取出多个特征文件；

对多个所述特征文件进行异或处理加权，得到数据特征。

其中，预处理包括加噪音、调低音量和调高音量、波形位移、波形拉伸、高音修正和倍速播放。

在本实施例中，根据时间序列和输入的样本，记录样本在时间处的记忆后，根据输入的权重和样本的特征权重，输出对应的特征权，时间向前推进中，前述状态作用输入时间的状态参与下一状态的预测，得到最终权重共享以及过去记忆总；

设噪声特征Q为输入值，p为输出值及滤波阈值；

P＝Vn⁽¹⁾(O)+b；

V是跟偏差率b有关的权重矩阵，标识隐藏层的函数是n(1)，非线性函数，函数是以下式：

n⁽¹⁾(Q)＝σ(M⁽¹⁾Q+l⁽¹⁾)；

其中，M是与偏差向量l⁽¹⁾有关的权重矩阵，激活函数σ()在使用tanh。

为了使p更接近目标至p’，使||p-p’||²；

训练网络后取最小误差。

输入值X的长度不一样，输入维度很高，输入时采用多个输入框，通过连续循环后，输入框在时间序列上连续循环，将计算得到的输出值p’成为新的输入值，往复循环，提高计算效率；

在更新具有误差值时，误差损失通过交叉熵损失函数进行误差计算，并且通过梯度下降法进行更新，且n(1)权重的更新方法为每个更新时刻的偏差的偏导数之和。

106、根据所述滤波阈值，将预置高斯白噪声对所述干净的滤波信息进行小波阈值降噪，得到降噪语音；

107、判断所述降噪语音的信噪比是否满足所述信噪比值；

108、若是，则完成降噪操作；

109、若不是，则将所述降噪语音重新返回执行所述将不满足预置信噪比值的所述处理信息进行滤波处理，得到滤波信息的步骤。

上面对本发明实施例中基于RNN的高信噪比语音降噪方法进行了描述，下面对本发明实施例中基于RNN的高信噪比语音降噪装置进行描述，请参阅图4，本发明实施例中基于RNN的高信噪比语音降噪装置的一个实施例包括：

获取模块201，用于获取外部噪声信息；

处理模块202，用于基于预置快速傅里叶变化算法，将所述外部噪声信息进行处理，得到处理信息；

滤波模块203，用于将不满足预置信噪比值的所述处理信息进行滤波处理，得到滤波信息；

消除模块204，用于根据预置空白噪声消除算法，将所述滤波信息的空白噪声进行去除，得到干净的滤波信息；

训练模块205，用于构建RNN网络模型，并基于RNN网络模型，将所述干净的滤波信息进行特征提取，得到滤波阈值；

降噪模块206，用于根据所述滤波阈值，将预置高斯白噪声对所述干净的滤波信息进行小波阈值降噪，得到降噪语音；

对比模块207，用于判断所述降噪语音的信噪比是否满足所述信噪比值；

第一对比结果模块208，用于若是，则完成降噪操作；

第二对比结果模块209，用于若不是，则将所述降噪语音重新返回执行所述将不满足预置信噪比值的所述处理信息进行滤波处理，得到滤波信息的步骤。

本发明实施例中基于RNN的高信噪比语音降噪装置的另一个实施例中所述的基于RNN的高信噪比语音降噪装置包括：

获取模块201，用于获取外部噪声信息；

第一对比结果模块208，用于若是，则完成降噪操作；

其中，所示获取模块201具体还可以执行：

将所述外部噪声信息中的噪声频谱进行音频特征分离，得到不同特征的声音特征，其中，声音特征包括声道设计、增强人声频率、环境噪声和器乐声音。

其中，所述降噪模块206具体还可以执行：

检测所述滤波信息中每一帧的信号强度，将所述滤波信息中低于预置强度阈值的一帧认定为空白噪声，并将所述空白噪声进行去除，得到干净的滤波信息。

其中，所述训练模块205具体还可以执行：

基于预置误差函数，对神经元的加权输入进行偏导数；

基于预置随机梯度下降算法以更新所述权重；

循环上述步骤，直至构建出RNN网络模型。

其中，“优化后的训练集数据”具体包括：

对所述训练集进行预处理，并提取出多个特征文件；

对多个所述特征文件进行异或处理加权，得到数据特征。

上面附图4从模块化功能实体的角度对本发明实施例中基于RNN的高信噪比语音降噪装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于RNN的高信噪比语音降噪设备进行详细描述。

附图5是本发明实施例提供的一种基于RNN的高信噪比语音降噪设备的结构示意图，该基于RNN的高信噪比语音降噪设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessingunits，CPU)310(例如，一个或一个以上处理器)和存储器320，一个或一个以上存储应用程序333或数据332的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器320和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于RNN的高信噪比语音降噪设备300中的一系列指令操作。更进一步地，处理器310可以设置为与存储介质330通信，在基于RNN的高信噪比语音降噪设备300上执行存储介质330中的一系列指令操作。

基于RNN的高信噪比语音降噪设备300还可以包括一个或一个以上电源340，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口360，和/或，一个或一个以上操作系统331，例如WindowsServe，MacOSX，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的基于RNN的高信噪比语音降噪设备结构并不构成对基于RNN的高信噪比语音降噪设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于RNN的高信噪比语音降噪方法、装置、设备及介质的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-onlymemory，ROM)、随机存取存储器(randomaccessmemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于RNN的高信噪比语音降噪方法，其特征在于，包括：

获取外部噪声信息；

判断所述降噪语音的信噪比是否满足所述信噪比值；

若是，则完成降噪操作；

2.根据权利要求1所述的基于RNN的高信噪比语音降噪方法，其特征在于，所述获取外部噪声信息包括：

3.根据权利要求2所述的基于RNN的高信噪比语音降噪方法，其特征在于，所述声音特征包括声道设计、增强人声频率、环境噪声和器乐声音。

4.根据权利要求1所述的基于RNN的高信噪比语音降噪方法，其特征在于，所述根据预置空白噪声消除算法，将所述滤波信息的空白噪声进行去除，得到干净的滤波信息包括：

5.根据权利要求1所述的基于RNN的高信噪比语音降噪方法，其特征在于，所述构建RNN网络模型包括：

基于预置误差函数，对神经元的加权输入进行偏导数；

基于预置随机梯度下降算法以更新所述权重；

循环上述步骤，直至构建出RNN网络模型。

6.根据权利要求5所述的基于RNN的高信噪比语音降噪方法，其特征在于，所述优化后的训练集数据包括：

对所述训练集进行预处理，并提取出多个特征文件；

对多个所述特征文件进行异或处理加权，得到数据特征。

7.根据权利要求6所述的基于RNN的高信噪比语音降噪方法，其特征在于，所述预处理包括加噪音、调低音量和调高音量、波形位移、波形拉伸、高音修正和倍速播放。

8.一种基于RNN的高信噪比语音降噪装置，其特征在于，包括：

获取模块，用于获取外部噪声信息；

第一对比结果模块，用于若是，则完成降噪操作；

9.一种基于RNN的高信噪比语音降噪设备，其特征在于，所述基于RNN的高信噪比语音降噪设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于RNN的高信噪比语音降噪设备执行如权利要求1-7中任一项所述基于RNN的高信噪比语音降噪方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述基于RNN的高信噪比语音降噪方法。