CN111223493B

CN111223493B - 语音信号降噪处理方法、传声器和电子设备

Info

Publication number: CN111223493B
Application number: CN202010016841.7A
Authority: CN
Inventors: 王之禹; 邱锋海
Original assignee: Beijing Sound+ Technology Co ltd
Current assignee: Beijing Sound+ Technology Co ltd
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2022-08-02
Anticipated expiration: 2040-01-08
Also published as: CN111223493A

Abstract

本申请提供一种语音信号降噪处理方法，属于语音处理技术领域，用于解决现有技术中的语音降噪处理方法难以在低功耗、低资源的硬件平台上运行的问题。该方法首先对待处理的带噪语音信号进行短时傅里叶变换，得到带噪频域信号；将带噪频域信号划分为多个子带，基于多个子带、带噪频域信号和带噪语音信号，提取多个信号特征，构成特征向量；将特征向量输入预先训练得到的神经网络模型，通过神经网络模型输出目标函数，根据目标函数和带噪频域信号，计算纯净语音频域信号；对纯净语音频域信号进行短时傅里叶逆变换，得到纯净语音信号。本申请通过减少网络特征输入维度降低运算量，可以在低功耗、低资源硬件平台上实时运行。

Description

语音信号降噪处理方法、传声器和电子设备

技术领域

本申请涉及语音处理技术领域，尤其涉及一种语音信号降噪处理方法、传声器和电子设备。

背景技术

传声器，即麦克风(microphone)，用于将声音信号转换为电信号的能量转换器件，是语音交互系统的必备硬件之一。传声器在拾取语音信号过程中，不可避免的会受到各种环境噪声的影响，比如警笛声、风噪声、周围人说话声等环境噪声，噪声会降低语音信号质量，同时降低设备唤醒率，降低命令词以及语音识别识别率等，从而严重影响此类语音交互系统性能，因此，对于传声器拾取的语音信号进行降噪，尤为必要。

受硬件成本以及设备便携性等因素影响，语音交互系统中多采用单个传声器来拾取语音信号。单通道语音降噪算法针对单个传声器设计，具有场景适应性强的特点，被广泛用于各种低成本、便携式、小型化语音交互系统中。单通道语音降噪算法中，噪声功率谱的估计通常采用语音端点检测或者给予最小统计特性方法进行估计，这种估计方式仅对平稳态噪声有较好的估计效果，对于非平稳态噪声估计不准，而在实际应用中，一般需要面临较多非平稳态噪声场景，传统的单通道语音降噪算法在这些非平稳态噪声场景中无法有效起到降噪作用，导致算法失效。

近年来，针对单通道非平稳态噪声降噪问题，出现了基于神经网络的解决方案，这类方案中，有的需要提取上千维度的特征作为神经网络的输入，高纬度的特征输入无疑增加了神经网络运算的复杂度和运算量，导致算法延时大，对实施运算的硬件设备要求较高，难以在低功耗、低资源的硬件平台上实时运行。

发明内容

本申请实施例提供了一种语音信号降噪处理方法、传声器和电子设备，用以解决现有技术中的语音信号降噪算法难以在低功耗、低资源硬件平台上实时运行的技术问题。

第一方面，本申请提供一种语音信号降噪处理方法，包括：

对待处理的带噪语音信号进行短时傅里叶变换，得到带噪频域信号；

将所述带噪频域信号划分为多个子带，基于所述多个子带、所述带噪频域信号和所述带噪语音信号，提取多个信号特征，构成特征向量，所述特征向量的维度小于或等于M，M为正整数，10≤M≤325；

将所述特征向量输入预先训练得到的神经网络模型，通过所述神经网络模型输出目标函数，所述目标函数用于表征所述带噪频域信号与纯净语音频域信号的相对函数关系；

根据所述目标函数和所述带噪频域信号，计算纯净语音频域信号；

对所述纯净语音频域信号进行短时傅里叶逆变换，得到纯净语音信号。

可选的，基于所述多个子带、所述带噪频域信号和所述带噪语音信号，提取多个信号特征，构成特征向量，具体包括：

针对所述带噪频域信号中的每一帧，执行以下操作：

基于所述带噪频域信号，计算当前一帧对应的多个子带对数谱能量、多个梅尔频率倒谱系数和不同频点间幅度谱的方差；

基于根据所述带噪语音信号确定当前一帧对应的基波周期，结合所述基波周期，计算基波周期特征；

将所述多个子带对数谱能量、所述多个梅尔频率倒谱系数、所述不同频点间幅度谱的方差以及所述比值，作为提取出的信号特征，构成所述当前一帧对应的特征向量。

可选的，将所述带噪语音信号划分为多个子带，具体包括：将所述带噪语音信号划分为Q个子带，1＜Q≤257；

计算当前一帧对应的多个梅尔频率倒谱系数，具体包括：计算当前一帧对应的T个梅尔频率倒谱系数和T个一阶梅尔频率倒谱系数、T个二阶梅尔频率倒谱系数，6≤T≤22。

可选的，将所述特征向量输入预先训练得到的神经网络模型之前，进一步包括：

构建神经网络模型的网络结构；

获取多个样本纯净语音信号和多个样本环境噪声信号，将所述样本纯净语音信号和所述样本环境噪声信号进行混合，得到样本带噪语音信号；

对待处理的样本带噪语音信号进行短时傅里叶变换，得到样本带噪频域信号，将所述样本带噪频域信号划分为多个子带，基于所述多个子带、所述样本带噪频域信号和所述样本带噪语音信号，提取多个信号特征，构成样本特征向量，所述样本特征向量的维度小于或等于M，M为正整数，10≤M≤325；

将所述样本特征向量作为所述神经网络模型的输入，将所述目标函数作为所述神经网络模型的输出，对所述神经网络模型进行训练，得到优化后的网络参数，所述网络参数包括权重和偏差；

采用所述优化后的网络参数对所述神经网络模型进行初始化，得到训练后的神经网络模型。

可选的，构建神经网络模型的网络结构，具体包括：

采用五层网络结构，输入层采用全连接层，所述输入层对应的激活函数为tanh函数；输出层采用全连接层，所述输出层对应的激活函数为sigmoid函数；

中间隐藏层采用循环神经网络GRU模型，所述中间隐藏层对应的激活函数采用relu函数以及sigmoid函数，不同的中间隐藏层之间的连接方式包括邻层连接和跨层连接。

第二方面，本申请还提供一种传声器，包括存储器和处理器，其中：

所述存储器存储有可执行指令；

所述处理器，用于读取并执行存储器中存储的可执行指令，以实现如下操作：

可选的，基于所述多个子带、所述带噪频域信号和所述带噪语音信号，提取多个信号特征，构成特征向量时，所述处理器，具体用于实现如下操作：

针对所述带噪频域信号中的每一帧，执行以下操作：

根据所述带噪语音信号确定当前一帧对应的基波周期，结合所述基波周期，计算基波周期特征；

第三方面，本申请提供一种电子设备，所述电子设备与传声器信号连接，所述电子设备包括存储器和处理器，其中：

所述存储器存储有可执行指令；

所述处理器，用于读取并执行存储器中存储的可执行指令，以实现如权利要求1-5任一项所述的方法。

在本申请实施例中，首先对待处理的带噪语音信号(一般为时域信号)进行短时傅里叶变换，将变换后的带噪频域信号划分为多个子带，并基于带噪语音信号和带噪频域信号以及划分后的多个子带提取出多个信号特征，以这些信号特征构成的特征向量作为神经网络模型的输入，通过神经网络模型输出目标函数，目标函数能够表征带噪频域信号与纯净语音频域信号之间的函数关系，因此，根据目标函数和带噪频域信号，可得到纯净语音频域信号，纯净语音频域信号即为降噪后的目标频域信号，对其进行短时傅里叶逆变换，即可得到时域的降噪后的纯净语音信号。其中，通过子带划分，输入的特征向量的维度不超过325，而现有技术中较多基于神经网络的降噪方案中，输入的特征向量最低也要达到上千维，本申请明显降低了神经网络输入的维度，进而减少了神经网络训练以及实际处理过程中的运算量，运算量的大幅降低使得本申请的降噪方案应用于低功耗、低资源的硬件平台成为可能，大量实验表明，本申请提出的降噪方案可在运算资源和存储资源受限(例如内存占用小于60kB，运算量小于60MIPS)的条件下，仍能实现对各种动态噪声以及平稳态噪声的有效抑制。

附图说明

图1a和图1b分别为本申请实施例中基础信号模型时域和频域的转换关系图；

图2为本申请实施例中语音信号降噪处理方法的整体框架示意图；

图3为本申请实施例中模型训练阶段的流程示意图；

图4为本申请实施例中神经网络模型的网络结构示意图；

图5为本申请实施例中神经网络GRU单元的结构示意图；

图6为本申请实施例中模型应用阶段的流程示意图；

图7为本申请实施例中传声器的结构示意图；

图8为本申请实施例中电子设备以及传声器的结构示意图；

图9a和图9b分别为本申请实施例中babble噪声干扰信号以及增强信号频谱图；

图10a和图10b分别为本申请实施例中马路摩托发动机噪声干扰信号以及增强信号频谱图。

具体实施方式

下面将结合附图详细描述本申请实施例的技术方案。

本申请实施例提供了一种语音信号降噪处理方法、传声器和电子设备，为便于理解本申请，首先介绍本申请方案采用的基础信号模型。

参阅图1a和图1b所示，图1a和图1b分别示出了基础信号模型在时域和频域的信号转换关系。一般而言，传声器接收到的单通道带噪信号y(n)可以表示为：

y(n)＝s(n)+v(n) (1)

其中，s(n)和v(n)分别为纯净语音信号(时域)和环境噪声信号(时域)，对式(1)两边做短时傅里叶变换(Short-time Fast Fourier Transform,STFT)，得到：

Y(l,k)＝S(l,k)+V(l,k) (2)

其中，Y(l,k)、S(l,k)和V(l,k)分别是y(n)、s(n)和v(n)STFT变换后的频域信号(或者说频谱)，k为频率索引，l表示帧索引。

在本申请实施例中，主要是在频域上对带噪语音信号进行处理，抑制噪声信号频谱V(l,k)，从而得到增强的纯净语音信号频谱S(l,k)，达到语音降噪的目的。

参阅图2所示，图2示出了本申请实施例提供的语音信号降噪处理方法的算法框架图。该算法主要包括模型训练和模型应用两个阶段。

其中，参阅图3所示，训练阶段可以包括如下流程：

S301：构建神经网络模型的网络结构。

在本申请实施例中，作为一种可实施方式，设置如下网络结构：

参阅图4所示，本申请实施例设置的网络结构包括输入层、输出层和中间隐藏层。其中，输入层采用全连接层，激活函数为tanh函数，输入层即图4中所示Dense(tanh)层；输出层采用全连接层，激活函数设置为sigmoid函数，输出层即图4中所示Dense(sigmoid)层；中间隐藏层采用循环神经网络GRU(Gated Recurrent Unit)模型，激活函数为relu以及sigmoid函数。不同的中间隐藏层之间的连接方式，可以是相邻的中间隐藏层(即图4中GRU层)直接连接，也可以跨层连接，具体连接方式有多种，不限于图4所示的连接方式。具体采用的连接方式以及每层网络节点(神经元)的个数可根据系统运算和存储资源相应调整。

其中，作为一种可实施方式，GRU单元的内部网络结构参见图5所示，由于内部存在反馈以及存储单元，对语音信号的长时特性能够很好建模。

作为一种实施方式，可以采用图4所示的5层神经网络，本领域技术人员也可根据实际的运算能力和存储资源适当增加或者删减中间隐藏层，并不限于图4所示的5层网络结构。

S302：构建训练样本数据集。

S301构建神经网络模型的网络结构与S302构建训练样本数据集在时序上并无明确的先后关系，二者可先后执行也可同时执行，图3仅示例性的示出了其中一种执行方式。

具体地，采用以下方式构建训练样本数据集：

获取多个样本纯净语音信号和多个样本环境噪声信号，加入到训练样本数据集中。训练样本数据集可以包括纯净语音数据集和噪声数据集，分别用于存储样本纯净语音信号和样本环境噪声信号。纯净语音数据集可以包括各种语言种类的数据集，不限于中文。

作为一种可实施方式，纯净语音数据集可以采用清华THCHS30中文数据集以及TIMIT英文数据集，但不限于此；噪声数据集可以在NOISE-92噪声数据集基础上，添加实际生产环境录制的噪声数据集，纯净语音数据集和噪声数据集的设置还可以有其他多种方式，本申请不逐一列举。

S303：将样本纯净语音信号和样本环境噪声信号进行混合。

S302之后，基于训练样本数据集，将样本纯净语音信号和样本环境噪声信号进行混合，得到样本带噪语音信号。作为一种可实施方式，可以采用如下随机混合方式：

从训练样本数据集中，随机选择一组样本纯净语音信号s′(n)，随机选择一组数据v′(n)信号。混合方式如下：

其中，s′(n)、v′(n)分别表示训练阶段样本纯净语音信号和样本环境噪声信号，L_s、L_n分别为s′(n)、v′(n)的数据长度，E_s、E_n分别为s′(n)、v′(n)的能量，SNR为指定的信噪比，在0dB到15dB范围随机取值；m为随机偏移量，最大值为|L_s-L_n|。混合后信号长度与样本纯净语音信号长度保持一致。

S304：对混合后的样本带噪语音信号，进行短时傅里叶变换。

在本申请实施例中，对随机混合后的样本带噪语音信号y′(n)进行加窗短时傅里叶变换，如下：

其中，Y′(l,k)表示变换后的第l帧、第k个频段样本带噪频域信号，w(*)为窗函数，P为帧移，N为帧长，例如P＝256、N＝512。窗函数应使用理想重构窗，优选使用汉宁窗，也可使用其他理想重构窗。

其中，P以及N的取值有多种，具体可根据系统所需要的采样率以及延时确定，例如，两种比较典型的取值包括：当采样率为16000Hz，即Fs＝16000Hz时，P＝240，N＝512，此时系统延时为20ms，一般应用于蓝牙通讯领域；当采样率Fs＝8000时，P＝120，N＝256，此时系统延时为10ms，一般应用于语音通信领域。

利用计算式(4)，可同样得到对样本纯净语音信号s′(n)进行短时傅里叶变换后得到的样本纯净语音频域信号S′(l,k)，不再赘述。

S305：将样本带噪语音信号划分为多个子带后，进行信号特征提取，构成特征向量。

本申请实施例中，语音信号中的一帧对应的信号特征包括：子带对数谱能量(Q维)、梅尔频率倒谱系数(T维)和当前一帧不同频点间幅度谱的方差(1维)，以及当前一帧对应的基波周期与最大基波周期的比值(1维)，即作为一种可实施方式，一共提取4类特征，分别如下：

第一类：子带特征。

子带划分原则为低频分辨率高，高频分辨率低。注意此处的分辨率表示子带划分的稀疏程度，并非是子带编码时的采样率，不可混淆。

例如，作为一种优选实施方式，本申请实施例中，共划分子带个数为22个。子带划分的数目不限于22个，将高分辨率频带进行合并减少子带数也应属于本申请保护范畴。具体地，子带数目为Q，Q为正整数，1＜Q≤257。

接下来，利用加窗短时傅里叶变换后得到的样本带噪频域信号Y′(l,k)，计算子带对数谱能量，将一个子带对数谱能量作为一个信号特征，相应的，当划分出22个子带时，提取出的子带对数谱能量特征维度为22。对应提取的信号特征的数目取值范围也为Q，1＜Q≤257。

具体地，可以采用如下方式计算子带对数谱能量：

P_s′(l,b)＝log(B_y′(l,b)) (6)

其中，B_y′(l,b)为子带能量，P_s′(l,b)为子带对数谱能量，l表示第l帧，b表示第b个子带，b_l、b_h分别为第b个子带的下限频率以及上限频率。

第二类：梅尔倒谱系数特征。

利用样本带噪频域信号Y′(l,k)计算梅尔倒谱系数计算梅尔倒谱系数的具体方法请结合参考文献[7]，此处不再赘述。

作为一种可实施方式，提取的梅尔倒谱系数为6个，连同一阶梅尔倒谱系数以及二阶梅尔倒谱系数，共18个信号特征。

同样需要说明的是，本申请实施例中，提取的梅尔倒谱系数的数目为T，T为正整数，6≤T≤22，即提取6到22个梅尔倒谱系数，连同一阶和二阶梅尔倒谱系数，一共是18-66个梅尔倒谱系数信号特征。

第三类：幅度谱方差特征。

利用样本带噪频域信号Y′(l,k)计算当前帧不同频点间幅度谱|Y′(l,k)|的方差，构成1维幅度谱方差特征参数，作为提取的第三类信号特征。

具体地，可以采用如下方式计算频点间幅度谱方差σ(l)：

其中，N表示帧长，k表示频率索引，E表示求期望。

第四类：基波周期特征。

利用变换前的样本带噪语音信号y′(n)确定语音信号谐波当前帧的基波周期T₀，基于基波周期T₀计算得到1维基波周期特征参数，作为提取的第四类信号特征。

具体地，可以采用如下方式计算基波周期特征ρ(l)：

其中，T₀为样本带噪语音信号y′(n)的基波周期，T_min、T_max分别为声源发出的最小基音周期以及最大基音周期。

其中，最大基音周期为发声声源所能够发出的语音被采集后形成的语音信号谐波的最大基音周期。发声声源为人类或者其他能够发出声音的声源体，即本申请中待处理的语音信号并不限于人类语音，还可以是其他物种发出的语音信号。

基于上述阐述，对应于语音信号中的每一帧，可提取出多个信号特征，将这些维特征参数作为向量中元素，即构成了第l帧对应的样本特征向量F′(l)。

例如，当子带数目取最低值2个，即划分出2个子带，且梅尔倒谱系数设为6个(不含一阶或者二阶系数)时，得到一共10个信号特征，当子带数目取最高值，即划分出257个子带时，梅尔倒谱系数(连同一阶和二阶系数)为22*3共66个时，则提取出的信号特征的数目为257+66+2＝325。因此，对应于语音信号中的一帧，可提取出10-325个信号特征，得到的特征向量的维度为10-325。其中，提取的信号特征的数量(也就是特征向量的维度)较低时，例如为10时，将伴随降噪性能的下降；而特征向量维度选择较高数值时，例如325时，运算量相对较大，增加了响应时延。

在本申请实施例中，将子带数目设置为18-26，梅尔倒谱系数为6个(连同一阶和二阶系数一共18个)时，能够达到降噪性能与响应时延的较佳状态。

S306：以样本特征向量为输入，以目标函数为输出，对构建的神经网络进行训练，得到优化后的网络参数。

在本申请实施例中，以理想浮值掩蔽函数(Ideal Ratio Mask，IRM)作为目标函数，计算如下：

其中，B_s′(l,b)、B_y′(l,b)分别为样本纯净语音信号s′(n)以及样本带噪语音信号y′(n)的子带能量。

以S305提取的特征向量F′(l)作为神经网络的输入参数，以目标函数IRM(l,b)作为神经网络的输出参数，对神经网络进行训练，将输出的目标函数与采集的样本纯净语音信号和样本带噪语音信号的实际比值作比较，不断优化网络参数。其中，网络参数包括权重和/或偏差。

采用训练得到的网络参数，对神经网络进行初始化，初始化后的神经网络模型即为训练后的神经网络模型。至此，模型训练阶段结束。

模型应用阶段，则是基于训练好的神经网络模型，对待处理带噪语音信号进行降噪处理，参阅图6所示，本申请实施例提供的语音信号降噪方法，包括以下流程：

S601：对待处理的带噪语音信号进行短时傅里叶变换，得到带噪频域信号。

具体变换方法同模型训练阶段，此处不再赘述。

S602：将带噪频域信号划分为多个子带，基于多个子带、带噪频域信号和带噪语音信号，提取多个信号特征，构成特征向量。

其中，同模型训练阶段，特征向量的维度小于或等于M，M为正整数，10≤M≤325。

特征向量的提取方法参见模型训练阶段，此处不再赘述。

S603：将特征向量输入预先训练得到的神经网络模型，通过神经网络模型输出目标函数，目标函数用于表征带噪频域信号与纯净语音频域信号的相对函数关系。

同模型训练阶段，目标函数选择IRM函数，此处不再赘述。

S604：根据目标函数和带噪频域信号，计算纯净语音频域信号。

具体地，可以按照如下方式计算纯净语音频域信号：

将目标函数IRM(l,b)恢复成全频带增益函数IRM(l,k)；将全频带增益函数IRM(l,k)乘以带噪频域信号Y(l,k)得到增强后(即降噪后)的纯净语音频域信号E(l,k)。

S605：对纯净语音频域信号进行短时傅里叶逆变换，得到纯净语音信号。

作为一种可实施方式，对E(l,k)进行短时傅里叶逆变换，并通过重叠相加(overlap-add)技术得到增强后(即降噪后)的纯净语音信号e(n)。

下面为进一步理解本申请，列举一个具体的优选实施例，加以说明：

首先，采集多个样本纯净语音信号和多个样本环境噪声信号。

将样本纯净语音信号和样本环境噪声信号进行混合。具体混合方式同S303，此处不再赘述。

对混合后的样本带噪语音信号，进行短时傅里叶变换，并基于变换后的样本带噪频域信号，划分出22个子带。

计算各个子带对应的对数谱能量，得到22维子带对数谱能量特征；

根据样本带噪频域信号，计算6个梅尔倒谱系数，以及基于这6个梅尔倒普系数，计算其一阶梅尔倒谱系数和二阶梅尔倒谱系数，得到18维梅尔倒谱系数特征；

根据样本带噪频域信号，计算当前帧不同频点间幅度谱的方差，得到1维幅度谱方差特征；

根据样本带噪语音信号，计算语音信号谐波当前帧的基波周期T₀与最大基波周期的比值，得到1维基波周期特征；

将22维子带对数谱能量特征、18维梅尔倒谱系数特征、1维幅度谱方差特征、1维基波周期特征合并，一共得到42维信号特征，对应构成42维的特征向量。一帧信号对应一个特征向量。

在对神经网络模型进行训练时，可以一次输入多帧信号对应的多个特征向量，以增加单次训练的学习效率，由于特征向量维度的大幅降低，这种连续多帧(例如5-10帧)一次输入的方式整体平均功耗仍然有所降低，能够适用于多数低功耗、低资源平台。

更进一步地，也可以将特征向量逐帧依次输入预先训练好的神经网络模型中，即一次仅输入一个特征向量，并非连续多帧对应的特征向量一起输入，这种单次仅输入一帧信号对应的特征向量的方式，能够适用于更低功耗、更低资源的硬件平台。

预先训练好的神经网络模型，在其训练阶段同样采用42维特征向量作为输入加以训练，具体训练过程参见上述模型训练阶段的描述，此处不再赘述。

基于神经网络模型输出目标函数IRM。具体地，将目标函数IRM(l,b)恢复成全频带增益函数IRM(l,k)；然后IRM(l,k)*Y(l,k)，得到降噪后的纯净语音频域信号E(l,k)，对进行短时傅里叶逆变换，得到纯净语音信号。

可选的，在该实施例中，作为一种可实施方式，对E(l,k)进行短时傅里叶逆变换之后，还通过重叠相加(overlap-add)技术对逆变换之后的信号进一步处理，得到降噪后的纯净语音信号e(n)。

具体地，作为一种可实施方式，采用如下重叠相加技术：E(l,k)在经过短时傅里叶逆变换之后恢复成加窗时域信号，利用当前帧的后半部以及上一帧的前半部加窗时域信号相加，去除窗函数的影响，得到正常幅度包络的语音信号。

基于同一发明构思，本申请实施例还提供一种传声器，参阅图7所示，包括存储器701和处理器702，其中：

存储器701存储有可执行指令；

处理器702，用于读取并执行存储器中存储的可执行指令，以实现如下操作：

对待处理的带噪语音信号进行短时傅里叶变换，得到带噪频域信号；将带噪频域信号划分为多个子带，基于多个子带、带噪频域信号和带噪语音信号，提取多个信号特征，构成特征向量，特征向量的维度小于或等于M，M为正整数，10≤M≤325；将特征向量输入预先训练得到的神经网络模型，通过神经网络模型输出目标函数，目标函数用于表征带噪频域信号与纯净语音频域信号的相对函数关系；根据目标函数和带噪频域信号，计算纯净语音频域信号；对纯净语音频域信号进行短时傅里叶逆变换，得到纯净语音信号。

可选的，基于多个子带、带噪频域信号和带噪语音信号，提取多个信号特征，构成特征向量时，处理器具体用于实现如下操作：

针对带噪频域信号中的每一帧，执行以下操作：基于带噪频域信号，计算当前一帧对应的多个子带对数谱能量、多个梅尔频率倒谱系数和不同频点间幅度谱的方差；基于带噪语音信号，计算当前一帧对应的基波周期与最大基波周期的比值；将多个子带对数谱能量、多个梅尔频率倒谱系数、不同频点间幅度谱的方差以及比值，作为提取出的信号特征，构成当前一帧对应的特征向量。

可选的，将带噪语音信号划分为多个子带，具体包括：将带噪语音信号划分为Q个子带，1＜Q≤257；计算当前一帧对应的多个梅尔频率倒谱系数，具体包括：计算当前一帧对应的T个梅尔频率倒谱系数和T个一阶梅尔频率倒谱系数、T个二阶梅尔频率倒谱系数，6≤T≤22。

基于同一发明构思，本申请实施例还提供一种电子设备，参阅图8所示，电子设备与传声器信号连接，包括存储器801和处理器802，其中：

存储器801存储有可执行指令；

处理器802，用于读取并执行存储器中存储的可执行指令，以实现上述语音信号降噪处理方法。

综上，本申请提出了一种语音信号降噪处理方法，传声器和电子设备，一方面通过采用特定的循环神经网络结构，对输入网络的特征参数长时时序关系进行建模，减少网络模型输入特征等相关参数，另一方面通过子带划分，减少网络输入、输出节点规模，从而进一步减少网络模型的参数维度。大量实验证明，本申请提出的降噪处理方法在占用内存小于60kB，运算量小于60MIPS，算法延时小于20ms的限制条件下，仍能取得较好的动态噪声抑制性能，可适用于主流低功耗ARM(Advanced RISC Machine，微处理器)以及DSP(DigitalSignal Processor，数字信号处理器)硬件平台。并且应用场景广泛，既可应用于实时语音通信系统，也可以应用于非实时的语音信号增强技术中。

采用本申请降噪处理方法处理的babble噪声干扰信号以及增强信号频谱图分别参阅图9a和图9b所示；利用本申请降噪处理方法处理的马路摩托发动机噪声干扰信号以及增强信号频谱图分别参阅图10a和图10b所示。

需要理解，本文中的“第一”，“第二”等描述，仅仅为了描述的简单而对相似概念进行区分，并不具有其他限定作用。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，的程序可以存储于计算机可读存储介质中，存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：opticaldisc)及其任意组合。

以上，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

本申请上述实施例侧重于技术方案相比于现有技术改进之处的描述，对于上述实施例中未详细阐述的部分技术手段，作为一种可实施方式，包括但不限于采用下列参考文献所记载的相应的实施方式。

参考文献

[1]Boll S.Suppression of acoustic noise in speech using spectralsubtraction[J].IEEE Transactions on acoustics,speech,and signal processing,1979,27(2):113-120.

[2]Ephraim Y,Malah D.Speech enhancement using a minimum mean-squareerror log-spectral amplitude estimator[J].IEEE transactions on acoustics,speech,and signal processing,1985,33(2):443-445.

[3]Hasan M K,Salahuddin S,Khan M R.Amodified a priori SNR for speechenhancement using spectral subtraction rules[J].IEEE signal processingletters,2004,11(4):450-453.

[4]Xu Y,Du J,Dai L R,et al.An experimental study on speechenhancement based on deep neural networks[J].IEEE Signal processing letters,2013,21(1):65-68.

[5]Narayanan A,Wang D L.Ideal ratio mask estimation using deep neuralnetworks for robust speech recognition[C]//2013IEEE International Conferenceon Acoustics,Speech and Signal Processing.IEEE,2013:7092-7096.

[6]Zhao H,Zarar S,Tashev I,et al.Convolutional-recurrent neuralnetworks for speech enhancement[C]//2018IEEE International Conference onAcoustics,Speech and Signal Processing(ICASSP).IEEE,2018:2401-2405.

[7]Davis,S.Mermelstein,P.(1980)Comparison of ParametricRepresentations for Monosyllabic Word Recognition in Continuously SpokenSentences.In IEEE Transactions on Acoustics,Speech,and Signal Processing,Vol.28 No.4,pp.357-366.

Claims

1.一种语音信号降噪处理方法，其特征在于，包括：

构建神经网络模型的网络结构，具体包括：采用五层网络结构，输入层采用全连接层，所述输入层对应的激活函数为tanh函数；输出层采用全连接层，所述输出层对应的激活函数为sigmoid函数；中间隐藏层采用循环神经网络GRU模型，所述中间隐藏层对应的激活函数采用relu函数以及sigmoid函数，不同的中间隐藏层之间的连接方式包括邻层连接和跨层连接；

将所述特征向量输入预先训练得到的所述神经网络模型，通过所述神经网络模型输出目标函数，所述目标函数用于表征所述带噪频域信号与纯净语音频域信号的相对函数关系；

2.如权利要求1所述的方法，其特征在于，基于所述多个子带、所述带噪频域信号和所述带噪语音信号，提取多个信号特征，构成特征向量，具体包括：

针对所述带噪频域信号中的每一帧，执行以下操作：

将所述多个子带对数谱能量、所述多个梅尔频率倒谱系数、所述不同频点间幅度谱的方差以及当前一帧对应的基波周期与最大基波周期的比值，作为提取出的信号特征，构成所述当前一帧对应的特征向量。

3.如权利要求2所述的方法，其特征在于：

将所述带噪语音信号划分为多个子带，具体包括：将所述带噪语音信号划分为Q个子带，1＜Q≤257；

4.如权利要求1所述的方法，其特征在于，将所述特征向量输入预先训练得到的神经网络模型之前，进一步包括：

5.一种传声器，其特征在于，包括存储器和处理器，其中：

所述存储器存储有可执行指令；

6.如权利要求5所述的传声器，其特征在于，基于所述多个子带、所述带噪频域信号和所述带噪语音信号，提取多个信号特征，构成特征向量时，所述处理器，具体用于实现如下操作：

针对所述带噪频域信号中的每一帧，执行以下操作：

7.如权利要求6所述的传声器，其特征在于：

8.一种电子设备，其特征在于，所述电子设备与传声器信号连接，所述电子设备包括存储器和处理器，其中：

所述存储器存储有可执行指令；

所述处理器，用于读取并执行存储器中存储的可执行指令，以实现如权利要求1-4任一项所述的方法。