CN112820309A

CN112820309A - 基于rnn的降噪处理方法及系统

Info

Publication number: CN112820309A
Application number: CN202011638332.4A
Authority: CN
Inventors: 安静波; 周晓强; 牟春伟
Original assignee: T&i Net Communication Co ltd
Current assignee: T&i Net Communication Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-18

Abstract

本发明提供了一种基于RNN的降噪处理方法及系统。该方法包括：利用降噪语音的训练数据对递归神经网络RNN进行训练；采用完成训练的RNN对语音数据进行降噪处理。本发明提供的基于RNN的降噪处理方法及系统能够实现对语音信号的精准降噪。

Description

基于RNN的降噪处理方法及系统

技术领域

本发明涉及语音降噪技术领域，特别是涉及一种基于RNN的降噪处理方法及系统。

背景技术

噪声一直在语音处理中是一个相当老的话题，至少可以追溯到70年代，顾名思义，该想法是获取噪声信号并消除尽可能多的噪声，同时使目标语音的失真最小。降噪实现途径多样，困难的部分是使其始终保持良好的性能，为了应对各种噪音就需要仔细的调整算法中的各个系数，针对各种场景进行大量和特殊情形的测试。

发明内容

本发明要解决的技术问题是提供一种基于RNN的降噪处理方法及系统，能够实现对语音信号的精准降噪。

为解决上述技术问题，本发明提供了一种基于RNN的降噪处理方法，所述方法包括：利用降噪语音的训练数据对递归神经网络RNN进行训练；采用完成训练的RNN对语音数据进行降噪处理。

在一些实施方式中，RNN包括：致密层及GRU层。

在一些实施方式中，RNN包括：语音端点探测网络、噪音频谱估计网络及频谱减法网络。

在一些实施方式中，语音端点探测网络包括：一个GRU层及两个致密层，并且，GRU层处于两个致密层之间，由第二个致密层输出语音端点探测结果数据。

在一些实施方式中，噪音频谱估计网络包括：一个用于噪音频谱估计的GRU层。

在一些实施方式中，用于噪音频谱估计的GRU层包括：48个GRU神经元。

在一些实施方式中，频谱减法网络包括：一个GRU层及一个致密层，且GRU层的输出被输入至致密层。

在一些实施方式中，RNN的前端连接有升采样网络，RNN的后端连接有降采样网络。

在一些实施方式中，升采样网络将采样率由8K转换为48K，降采样网络将采样率由48K转换为8K。

此外，本发明还提供了一种基于RNN的降噪处理系统，所述系统包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据前文所述的基于RNN的降噪处理方法。

采用这样的设计后，本发明至少具有以下优点：

本发明采用包含GRU的RNN进行语音的降噪处理，通过语音端点探测、噪音频谱估计及频谱减法的处理，实现对语音信号的精准降噪。

附图说明

上述仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，以下结合附图与具体实施方式对本发明作进一步的详细说明。

图1是门单元的结构示意图；

图2是RNN的网络结构示意图；

图3是voip降噪的流程示意图；

图4是重采样的流程示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

RNN(Recurrent neural networks:递归神经网络)在这里非常重要，因为他们使建模时间序列成为可能，而不是单独考虑输入和输出帧，这对于抑制噪音尤为重要，因为我们需要时间来很好的估计噪声。长期以来RNN的能力收到严重限制，因为他们无法长时间保存信息，并且由于在时间上反向传播时所涉及的梯度下降过程效率很低。门控单元的发明解决了这两个问题，例如LSTM(Long Short-Term Memory:长短期记忆)，GRU(Gatedrecurrent unit:门控循环单元)以及类似的变体。

我们使用GRU因为它性能比LSTM稍好，并且需要较少的资源(CPU(Centralprocessing unit:中央处理器)和内存方面)。与单循环单元相比，GRU具有额外两个门。复位门控制在计算新状态时是否使用状态(记忆)，而更新门根据新输入决定改变多少。当更新门关闭时可以使GRU长时间记住信息，这就是GRU(或LSTM)的性能比单循环单元好得多的原因。参考图1。

如图2所示，我们使用深度架构。大部分工作由3个GRU层完成。图片展示了我们怎么计算频带增益以及该架构如何映射到噪声抑制的传统步骤。该项目中使用神经网络的拓扑。每个方框代表一层神经元，括号中标出了单元数量。Dense(致密)层是完全链接的非循环层。该网络的一个输出是应用于不通频率的增益。另一个输出是语音端点探测结果，它不用于降噪，但是作为该网络的一个有用的副产品。

在voip主程序启动时，res_noise_reduction模块加载噪声抑制功能。首先定义变量datastore，初始化datastore->audiohook->type等于AUDIOHOOK_TYPE_MANIPULATE即操作音频，设置datastore->audiohook->manipulate_callback等于funciton：noise_reduction_cb(参考图2)。另外并且可以通过function:NOISE_REDUCTION实现针对某个通话实时开启或者关闭。

参见图3，当voip主程序读取某个channel(通道)的rtp流时，会触发hook:即调用function:noise_reduction_cb(采样率由8K转为48K，以匹配rnn要求的采样率，经rnn降噪，然后进行采样率转换，转为原有的8k采样率)达到降噪的目的。

参见图4，采样率转化通过ffmpeg实现，具体实施步骤如下：

1.首先检查handle->rnn_resample_handle(采样率由8k转化为48k)是否存在，若存在直接跳转到步骤5；

2.如果handle->rnn_resample_handle不存在，调用swr_alloc创建SwrContext对象；

3.调用av_opt_set_*()设置输入和输出音频信息；

4.调用swr_init根据步骤三初始化的音频信息初始化SwrContext；

5.调用swr_get_delay以及av_rescale_rnd计算重采样后输出采样数；

6.调用swr_convert进行重采样转换；

7.调用av_samples_get_buffer_size计算转化后占用的存储大小。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，本领域技术人员利用上述揭示的技术内容做出些许简单修改、等同变化或修饰，均落在本发明的保护范围内。

Claims

1.一种微服务间服务访问认证方法，其特征在于，包括：

利用降噪语音的训练数据对递归神经网络RNN进行训练；

采用完成训练的RNN对语音数据进行降噪处理。

2.根据权利要求1所述的微服务间服务访问认证方法，其特征在于，RNN包括：致密层及GRU层。

3.根据权利要求1所述的微服务间服务访问认证方法，其特征在于，RNN包括：语音端点探测网络、噪音频谱估计网络及频谱减法网络。

4.根据权利要求1或2所述的微服务间服务访问认证方法，其特征在于，语音端点探测网络包括：一个GRU层及两个致密层，并且，GRU层处于两个致密层之间，由第二个致密层输出语音端点探测结果数据。

5.根据权利要求1或2所述的微服务间服务访问认证方法，其特征在于，噪音频谱估计网络包括：一个用于噪音频谱估计的GRU层。

6.根据权利要求5所述的微服务间服务访问认证方法，其特征在于，用于噪音频谱估计的GRU层包括：48个GRU神经元。

7.根据权利要求1或2所述的微服务间服务访问认证方法，其特征在于，频谱减法网络包括：一个GRU层及一个致密层，且GRU层的输出被输入至致密层。

8.根据权利要求1所述的微服务间服务访问认证方法，其特征在于，RNN的前端连接有升采样网络，RNN的后端连接有降采样网络。

9.根据权利要求8所述的微服务间服务访问认证方法，其特征在于，升采样网络将采样率由8K转换为48K，降采样网络将采样率由48K转换为8K。

10.一种微服务间服务访问认证系统，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1至9任意一项所述的微服务间服务访问认证方法。