CN117153181B

CN117153181B - 语音降噪方法、设备及存储介质

Info

Publication number: CN117153181B
Application number: CN202310158450.2A
Authority: CN
Inventors: 陈圆
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2024-06-04
Anticipated expiration: 2043-02-10
Also published as: CN117153181A

Abstract

本申请实施例提供了一种语音降噪方法、设备及存储介质，涉及终端技术领域。电子设备可以获取第n+1语音信号，采用第n+1滤波系数对第n+1语音信号进行噪声过滤，得到第n+1语音信号对应的第n+1降噪信号；第n+1滤波系数与第n滤波系数、第n误差和第n步长有关，第n步长与第n误差满足双曲正切函数关系，n为自然数。这样，根据误差调整步长来确定滤波系数，可以快速获取到对应误差满足要求的稳态滤波系数，后续更新的滤波系数也是稳态滤波系数，进而提高对语音信号的降噪效果，解决固定步长的LMS算法存在的对语音信号的降噪效果差的问题。

Description

语音降噪方法、设备及存储介质

技术领域

本申请涉及终端技术领域，尤其涉及一种语音降噪方法、设备及存储介质。

背景技术

在语音通信应用中，终端设备通常需要对其采集的语音信号进行降噪处理，得到降噪语音信号，以提高基于降噪语音信号的交互效果。

在可能的实现方式中，终端设备采用固定步长的最小均方误差(least meansquare，LMS)算法，对终端设备采集的用户语音进行噪声过滤，得到用于交互的降噪语音信号。

固定步长的LMS算法存在对语音信号的降噪效果差的问题。

发明内容

本申请实施例提供一种语音降噪方法，应用于终端技术领域，解决了固定步长的LMS算法存在的对语音信号的降噪效果差的问题。

第一方面，本申请实施例提出一种语音降噪方法。该方法包括：获取第n+1语音信号；采用第n+1滤波系数对第n+1语音信号进行噪声过滤，得到第n+1语音信号对应的第n+1降噪信号；其中，第n+1滤波系数与第n滤波系数、第n误差和第n步长有关，第n滤波系数包括处理第n语音信号时采用的滤波系数，第n误差包括第n期望信号与第n降噪信号的差，第n期望信号包括基于波束形成对第n语音信号进行预定向得到的信号，第n降噪信号包括采用第n滤波系数处理第n语音信号得到的信号，第n步长与第n误差满足双曲正切函数关系，n为自然数。

由于第n步长与第n误差满足双曲正切函数关系，若第n误差绝对值越大，则第n步长越大，若第n误差绝对值越小，则第n步长越小。这样，可以实现根据误差绝对值的大小，对应调整步长，以确定滤波系数，实现在滤波系数的不断更新过程中，能快速获得稳态滤波系数，并在获得稳态滤波系数之后，后续更新的滤波系数也为稳态滤波系数。稳态滤波系数包括对应误差不超出误差预设范围的滤波系数。采用稳态滤波系数对语音信号进行噪声过滤，得到误差不超出误差预设范围或误差绝对值不超过误差阈值的降噪信号，提高了语音信号的降噪效果。

在一种可能的实现方式中，第n步长μ(n)与第n误差e(n)满足公式：

其中，α和β均为大于零的常数。

这样，当误差绝对值越大，步长越大。误差绝对值越小，则步长也越小。通过第n步长μ(n)与第n误差e(n)的函数关系式，实现根据误差自适应调整步长。通常，若降噪信号对应的误差不超出误差预设范围，则表征降噪信号为符合要求的降噪信号。反之，若降噪信号对应的误差超出误差预设范围，则表征降噪信号为不符合要求的降噪信号。不符合要求的降噪信号越少，则用户可感知到降噪效果越好。此外，通过对α和β的调整、设置，可以实现对第n步长μ(n)与第n误差e(n)的关系曲线形状的调整、设置，以便于根据应用场景的实际需求对采用本申请实施例提供的语音降噪方法的电子设备的降噪性能进行匹配调整和控制。

在一种可能的实现方式中，第n+1滤波系数与第n滤波系数、第n误差和第n步长满足公式：

其中，W_m(n+1)为第n+1滤波系数，W_m(n)为第n滤波系数，0≤m≤K-1，K为滤波阶数，且K为正整数，U(n-m)为对第n语音信号x(n)中提取的噪声信号U(n)进行修正后的信号，λ_max为U(n-m)自相关矩阵的最大值。

这样，在满足的条件下，可以收敛得到稳态滤波系数。

在一种可能的实现方式中，第n语音信号x(n)包括对麦克风阵列中各麦克风所采集的信号进行时延补偿后的信号，且第n语音信号x(n)满足公式：

x(n)＝[X₁(n-τ₁),X₂(n-τ₂),…,X_M(n-τ_M)]^T；

第n语音信号中提取的噪声信号U(n)满足公式：

U(n)＝W_Cx(n)；

其中，X₁、X₂、…、X_M分别为麦克风阵列中第1、第2、…、第M麦克风各自采集的信号，τ₁、τ₂、…、τ_M分别为麦克风阵列中各麦克风各自相对于预设参考麦克风的时延，且d为相邻麦克风间的距离，c为声速，θ为声源信号的到达方向，T为转置符号，/>

这样，通过对麦克风阵列中各麦克风所采集的信号进行时延补偿得到第n语音信号x(n)，可以实现对各麦克风所采集的信号进行标准化，以便于提高对所采集的信号的噪声过滤效果。通过从第n语音信号中提取的噪声信号U(n)，以便于在采用第n+1滤波系数对第n+1语音信号进行噪声过滤时，使得第n+1语音信号中的噪声信号被更加彻底的过滤掉。

在一种可能的实现方式中，第n期望信号满足公式：

其中，W_B为固定权重的集合，且W_B满足W_B＝[w₁，w₂，…，w_M]^T。

这样，便于在采用第n+1滤波系数对第n+1语音信号进行噪声过滤过程中，为降噪信号的降噪效果提供可参考且与实际获取的语音信号相适应的判断基准。

在一种可能的实现方式中，第n降噪信号y(n)满足公式：

其中，T为转置符号。

在一种可能的实现方式中，在采用第n+1滤波系数对第n+1语音信号进行噪声过滤，得到第n+1语音信号对应的第n+1降噪信号之后，若第n+1误差不超出误差预设范围，则确定第n+1滤波系数为稳态滤波系数，并采用稳态滤波系数对后续获取到的语音信号进行噪声过滤。

这样，若噪声环境恒定不变，后续获取到的语音信号对应的降噪信号均为满足降噪要求或对应误差在误差预设范围内的降噪信号。若确定第n+1滤波系数为稳态滤波系数，则可以不用继续更新滤波系数，直接采用所确定的稳态滤波系数对后续获取到的语音信号进行噪声过滤，可以降低对后续获取到的语音信号进行噪声过滤的时延，进一步提升用户的使用体验感。

在一种可能的实现方式中，在采用第n+1滤波系数对第n+1语音信号进行噪声过滤，得到第n+1语音信号对应的第n+1降噪信号之后，采用噪声掩蔽阈值和谱减参数，对第n+1降噪信号进行谱减处理，得到第n+1纯净语音信号。

这样，由于噪声干扰通常都是随机的，且为了进一步消除采用第n+1滤波系数对第n+1语音信号进行噪声过滤后，第n+1降噪信号中的残余噪声对语音通信可能造成的影响，可以将第n+1降噪信号中的残余噪声控制在第n+1噪声掩蔽阈值以下。如此，接收第n+1降噪信号的人耳可以容忍该残余噪声，更符合人耳听觉特性，提高接收第n+1降噪信号的用户的听觉体验感。

在一种可能的实现方式中，采用噪声掩蔽阈值和谱减参数，对第n+1降噪信号进行谱减处理，得到第n+1纯净语音信号，包括：

采用最小值统计MS噪声估计算法对第n+1降噪信号进行噪声估计，获得第n+1噪声幅值；并对第n+1降噪信号进行快速傅里叶变换FFT，得到第n+1语音幅值和第n+1语音相位；

采用第n+1噪声幅值和第n+1语音幅值进行噪声掩蔽阈值计算，得到第n+1噪声掩蔽阈值T_n+1,f(ω)，且

基于第n+1噪声掩蔽阈值T_n+1,f(ω)，按如下公式：

确定第n+1降噪信号的谱减参数a_n+1(ω)和b_n+1(ω)；

采用第n+1噪声幅值、第n+1降噪信号的谱减参数a_n+1(ω)和b_n+1(ω)，对第n+1语音幅值进行谱减处理，得到第n+1纯净语音幅值；

对第n+1纯净语音幅值和第n+1语音相位进行快速傅里叶逆变换IFFT，得到第n+1纯净语音信号；

其中，T_n+1,i(ω)为扩展后的第n+1噪声掩蔽阈值，为通过归一化将T_n+1,i(ω)转换为扩展前的巴克Bark域的掩蔽阈值，T_n+1,abs(ω)为第n+1绝对听觉阈值，且为第n+1降噪信号对应的过衰减因子的最大值，a_n+1,min为第n+1降噪信号对应的过衰减因子的最小值，b_n+1,max为第n+1降噪信号对应的谱底限的最大值，b_n+1,min为第n+1降噪信号对应的谱底限的最小值，T_n+1,max为第n+1降噪信号对应的掩蔽阈值按帧更新的最大值，T_n+1,min为第n+1降噪信号对应的掩蔽阈值按帧更新的最小值，ω为数字频率。

在一种可能的实现方式中，扩展后的第n+1噪声掩蔽阈值T_n+1,i(ω)满足公式：

其中，C_n+1,i为扩散巴克Bark域频谱，S_ij为扩散矩阵中的元素，abs(j-i)≤25，i为已被掩蔽信号的Bark频率，j为正被掩蔽信号的Bark频率，B_n+1,i为分段的Bark域中第i段的能量，f_n+1,li为第i段的最低频率，f_n+1,hi为第i段的最高频率，P_n+1(ω)为将第n+1噪声幅值与第n+1降噪信号相减后的信号的功率谱，Re(ω)为将第n+1噪声幅值与第n+1降噪信号相减后的信号的实部，Im(ω)分别为将第n+1噪声幅值与第n+1降噪信号相减后的信号的虚部，O_i为第i段掩蔽能量的偏移函数，v为音调系数，v表征几何学上的两个阈值偏移程度。

第二方面，本申请实施例提供一种电子设备，该电子设备包括：处理器和存储器；存储器存储计算机执行指令；处理器执行存储器存储的计算机执行指令，使得电子设备执行如第一方面的方法。

第三方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序。计算机程序被处理器执行时实现如第一方面的方法。

第四方面，本申请实施例提供一种计算机程序产品，计算机程序产品包括计算机程序，当计算机程序被运行时，使得计算机执行如第一方面的方法。

第五方面，本申请实施例提供了一种芯片，芯片包括处理器，处理器用于调用存储器中的计算机程序，以执行如第一方面的方法。

应当理解的是，本申请的第二方面至第五方面与本申请的第一方面的技术方案相对应，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

附图说明

图1为本申请实施例提供的电子设备100的结构示意图；

图2为本申请实施例提供的电子设备100的软件结构示意图；

图3为本申请实施例提供的应用场景图；

图4为本申请实施例提供的步长与误差的关系图；

图5为本申请实施例提供的语音降噪方法流程图；

图6为本申请实施例提供的电子设备的另一结构示意图；

图7为本申请实施例提供的电子设备的又一结构示意图；

图8为本申请实施例提供的芯片的硬件结构示意图。

具体实施方式

为了便于清楚描述本申请实施例的技术方案，以下，对本申请实施例中所涉及的部分术语和技术进行简单介绍：

1、部分术语

在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如，第一芯片和第二芯片仅仅是为了区分不同的芯片，并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a--c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。

2、电子设备

本申请实施例的电子设备可以包括具有图像处理功能的手持式设备、车载设备等。例如，一些电子设备为：手机(mobile phone)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备(mobile internet device，MID)、可穿戴设备，虚拟现实(virtual reality，VR)设备、增强现实(augmented reality，AR)设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端、蜂窝电话、无绳电话、会话启动协议(session initiation protocol，SIP)电话、无线本地环路(wireless local loop，WLL)站、个人数字助理(personal digital assistant，PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、可穿戴设备，5G网络中的终端设备或者未来演进的公用陆地移动通信网络(publicland mobile network，PLMN)中的终端设备等，本申请实施例对此并不限定。

作为示例而非限定，在本申请实施例中，该电子设备还可以是可穿戴设备。可穿戴设备也可以称为穿戴式智能设备，是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称，如助听器、眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能，例如：智能手表或智能眼镜等，以及只专注于某一类应用功能，需要和其它设备如智能手机配合使用，如各类进行体征监测的智能手环、智能首饰等。

此外，在本申请实施例中，电子设备还可以是物联网(internet of things，IoT)系统中的终端设备，IoT是未来信息技术发展的重要组成部分，其主要技术特点是将物品通过通信技术与网络连接，从而实现人机互连，物物互连的智能化网络。

本申请实施例中的电子设备也可以称为：终端设备、用户设备(user equipment，UE)、移动台(mobile station，MS)、移动终端(mobile terminal，MT)、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置等。

在本申请实施例中，电子设备或各个网络设备包括硬件层、运行在硬件层之上的操作系统层，以及运行在操作系统层上的应用层。该硬件层包括中央处理器(centralprocessing unit，CPU)、内存管理单元(memory management unit，MMU)和内存(也称为主存)等硬件。该操作系统可以是任意一种或多种通过进程(process)实现业务处理的计算机操作系统，例如，Linux操作系统、Unix操作系统、Android操作系统、iOS操作系统或windows操作系统等。该应用层包含浏览器、通讯录、文字处理软件、即时通信软件等应用。

为了能够更好地理解本申请实施例，下面对本申请实施例的电子设备的结构进行介绍：

图1示出了电子设备100的结构示意图。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现电子设备100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。I2S接口和PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种功能应用以及数据处理。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本发明实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图2是本发明实施例的电子设备100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图2所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图2所示，应用程序框架层可以包括语音降噪器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

语音降噪器用于管理语音通信程序。语音降噪器可以对语音通信过程中的语音按本申请实施例提供的语音降噪方法进行语音降噪处理或噪声过滤。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面结合捕获拍照场景，示例性说明电子设备100软件以及硬件的工作流程。

当触摸传感器180K接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。以该触摸操作是触摸单击操作，该单击操作所对应的控件为相机应用图标的控件为例，相机应用调用应用框架层的接口，启动相机应用，进而通过调用内核层启动摄像头驱动，通过摄像头193捕获静态图像或视频。

在可能的实现方式中，终端设备采用固定步长的最小均方误差(least meansquare，LMS)算法，对终端设备采集的用户语音进行噪声过滤，得到用于交互的降噪语音信号。固定步长的LMS算法具体包括滤波、误差估计、更新权向量。

滤波：y(k)＝W^H(k)x(k)；

误差估计：e(k)＝d(k)-y(k)；

更新权向量：W(k+1)＝W(k)+2ue(k)x(k)；

其中，x(k)为采集的第k语音信号，d(k)为第k期望信号，d(k)是对第k语音信号进行固定波束形成得到的，y(k)为实际滤波后得到的信号，第k误差e(k)为第k期望信号与第k滤波信号的差，W(k)为用于对第k语音信号进行滤波的第k权向量，第k滤波信号为采用第k权向量对第k语音信号进行滤波后得到的信号。与第k语音信号x(k)相邻的后一个第k+1语音信号x(k+1)，其对应的第k+1权向量W(k+1)是采用固定步长u对第k权向量、第k误差和第k语音信号进行计算得到的。权向量的更新过程是一个迭代计算的过程。

对于语音信号的降噪而言，若滤波信号与对应期望信号的差的绝对值越小，即误差绝对值越小，则滤波信号中噪声越少，说明对语音信号的降噪效果越好。第k+1滤波信号是采用第k+1语音信号x(k+1)对应的第k+1权向量滤波得到的，第k+1滤波信号与第k+1权向量密切相关。而后一个权向量(如第k+1权向量)是以固定步长u，对前一个权向量、误差和语音信号(如第k权向量、第k误差和第k语音信号)进行迭代计算得到的。

误差绝对值越大，滤波信号与期望信号之间的偏差越大。通常，在前一个权向量对应的误差绝对值比较大的情况下，步长越大，后续的权向量能更快速的收敛到稳态权向量。稳态权向量是指对应误差绝对值不超过预设阈值的权向量，或者是指对应误差不超出误差预设范围的权向量。稳态权向量表征对对应语音信号进行降噪的降噪效果好。步长越大，可以在权向量更新开始后，快速得到稳态权向量，进而得到降噪效果好的滤波信号。

然而，在固定步长的LMS算法中，步长u为固定值。若固定步长u取值较大，虽然快速得到了稳态权向量，如第k权向量，但由于步长u固定，且步长u取值较大，则基于固定步长u和第k权向量计算得到的第k+1权向量可能成为非稳态权向量。类似的，基于第k+1权向量得到的第k+2权向量也可能成为非稳态权向量。非稳态权向量对语音信号的降噪效果差。由于权向量收敛到稳态权向量后，基于稳态权向量继续进行权向量的更新，后续得到的权向量并非都是稳态权向量，即权向量稳定性差，由此导致对后续获取的语音信号的降噪效果差。

可能的实现方式中，为了兼顾快速得到稳态权向量和基于稳态权向量继续更新得到更多的稳态权向量，会选择折中的步长值作为固定步长。然而，无论固定步长值如何选择，均会存在稳态权向量的获取速度和权向量稳定性的损失，进而，导致固定步长的LMS算法存在对语音信号降噪效果差的问题。

在权向量的更新过程中，若在权向量收敛到稳态权向量之前，或算法收敛之前，采用较大步长确定权向量，可以实现算法的快速收敛，以快速得到稳态权向量。在算法收敛之后，采用较小的步长确定权向量，使得算法收敛之后的权向量仍然是稳态权向量。在整个权向量的更新过程中，实现快速获得稳态权向量，并在获得稳态权向量之后，后续更新的权向量也为稳态权向量。由此，不但可以对所获取的语音信号进行快速降噪且其降噪效果好，并对后续获取的语音信号的降噪一直保持着好的降噪效果。由于对于语音接收端的用户而言，所接收的语音中的噪声多少，带噪语音时长的长短，是可以直接感受到的。因此，对语音信号进行快速、降噪效果好且稳定的降噪，还可以提高用户的体验感。在本申请实施例中，权向量也称为滤波系数。稳态滤波系数表征对应误差绝对值不超过预设阈值的滤波系数。稳态滤波系数也可以表征对应误差不超出误差预设范围的滤波系数。

有鉴于此，本申请提出一种语音降噪方法，采用变步长的LMS算法对所获取的语音信号进行噪声过滤，其中，步长与误差满足双曲正切函数关系，根据误差对应调整步长，以确定用于噪声过滤的滤波系数，实现快速获得稳态滤波系数，并使得基于稳态滤波系数更新得到的滤波系数也为稳态滤波系数，以提高对语音信号的降噪效果，解决固定步长的LMS算法存在对语音信号降噪效果差的问题。

下面结合部分实施例对本申请提出的语音降噪方法进行说明。

图3为本申请实施例提供的应用场景图。如图3所示，该场景包括用户，电子设备和通信网络。用户例如图3中所示的用户A和用户B。电子设备如图3所示的电子设备A与电子设备B。用户A与用户B各自采用电子设备A与电子设备B，通过通信网络进行语音通信。语音通信包括但不限于语音通话、视频通话。电子设备A、电子设备B各自的结构可以如图1所示的电子设备100的结构。

例如，在用户A与用户B的语音通信中，电子设备A可以获取用户A发出的第n+1语音信号。电子设备A采用第n+1滤波系数对所获取的第n+1语音信号进行噪声过滤，得到第n+1语音信号对应的第n+1降噪信号，实现对第n+1语音信号的语音降噪。其中，第n+1滤波系数与第n滤波系数、第n误差和第n步长有关。第n滤波系数包括电子设备A处理第n语音信号时采用的滤波系数。第n误差包括第n期望信号与第n降噪信号的差。第n期望信号包括电子设备A基于波束形成对第n语音信号进行预定向得到的信号。第n降噪信号包括电子设备A采用第n滤波系数处理第n语音信号得到的信号。第n步长与第n误差满足双曲正切函数关系，n为自然数。在图3所示的示例性应用场景中，电子设备A可以通过通信网络将其噪声过滤得到的第n+1降噪信号发送到语音通信对应端的电子设备B。

类似的，在图3所示的用户A与用户B的语音通信的示例性应用场景中，电子设备B也可以获取用户B发出的第n+1语音信号。电子设备B采用第n+1滤波系数对所获取的第n+1语音信号进行噪声过滤，得到第n+1语音信号对应的第n+1降噪信号。电子设备B通过通信网络将其噪声过滤得到的第n+1降噪信号发送到语音通信对应端的电子设备A。

示例性地，图4为本申请实施例提供的步长与误差的关系图。第n步长与第n误差满足如图4所示的双曲正切函数关系。第n误差绝对值越大，则第n步长越大。第n误差绝对值越小，则第n步长越小。根据误差绝对值的大小，可以对应调整步长以确定滤波系数，实现在滤波系数的更新过程中，快速获得稳态滤波系数，并在获得稳态滤波系数之后，后续更新的滤波系数均是对应误差不超出误差预设范围的稳态滤波系数。稳态滤波系数也可以表征误差绝对值不超过误差阈值的误差所对应的滤波系数。电子设备A采用稳态滤波系数对语音信号进行噪声过滤，得到误差不超出误差预设范围的降噪信号，提高了语音信号的降噪效果。

本申请实施例提供的语音降噪方法，能快速获得稳态滤波系数，减小了获取稳态滤波系数的时间，减少了滤波系数更新过程中非稳态滤波系数的数量，缩短了采用非稳态滤波系数进行语音信号降噪处理的时长。当采用非稳态滤波系数进行语音信号降噪处理的时长足够短，用户并不能直观感受到采用非稳态滤波系数处理得到的降噪信号中的噪声，可以提高用户体验感。在获得稳态滤波系数之后，后续更新的滤波系数均是稳态滤波系数。采用稳态滤波系数处理语音信号所得到降噪信号中噪声少甚至没有噪声，降噪效果好，进一步提高了用户对采用本申请实施例提供的语音降噪方法的电子设备的使用体验感。

下面结合图3、图4、图5对本申请实施例提供的语音降噪方法进行详细说明。图5为本申请实施例提供的语音降噪方法流程图。图5所示实施例的执行主体可以是图3所示实施例中的电子设备A。如图5所示，该方法包括：

S101、获取第n+1语音信号。

在本申请实施例中，电子设备A获取用户A发出的第n+1语音信号。电子设备A也可以获取具有声音播放功能的其他设备播放的第n+1语音信号。

S102、采用第n+1滤波系数对第n+1语音信号进行噪声过滤，得到第n+1语音信号对应的第n+1降噪信号；其中，第n+1滤波系数与第n滤波系数、第n误差和第n步长有关，第n滤波系数包括处理第n语音信号时采用的滤波系数，第n误差包括第n期望信号与第n降噪信号的差，第n期望信号包括基于波束形成对第n语音信号进行预定向得到的信号，第n降噪信号包括采用第n滤波系数处理第n语音信号得到的信号，第n步长与第n误差满足双曲正切函数关系，n为自然数。

在本申请实施例中，电子设备A采用第n+1滤波系数对第n+1语音信号进行噪声过滤，得到第n+1语音信号对应的第n+1降噪信号。第n+1滤波系数可以基于第n滤波系数、第n误差和第n步长确定。第n步长与第n误差满足双曲正切函数关系，若第n误差绝对值越大，则第n步长越大，若第n误差绝对值越小，则第n步长越小。这样，可以实现根据误差绝对值的大小，对应调整步长，以确定滤波系数。此外，在滤波系数的不断更新过程中，能快速获得稳态滤波系数，并在获得稳态滤波系数之后，后续更新的滤波系数也为稳态滤波系数。稳态滤波系数包括对应误差不超出误差预设范围的滤波系数。采用稳态滤波系数对语音信号进行噪声过滤，得到误差不超出误差预设范围或误差绝对值不超过误差阈值的降噪信号，提高了语音信号的降噪效果。

可选地，第n步长μ(n)与第n误差e(n)满足公式：

其中，α和β均为大于零的常数。这样，第n步长μ(n)与第n误差e(n)满足了双曲正切函数关系。如图4所示，当误差绝对值越大，步长越大。误差绝对值越小，则步长也越小。通过第n步长μ(n)与第n误差e(n)的函数关系式，实现根据误差自适应调整步长。通常，若降噪信号对应的误差不超出误差预设范围，则表征降噪信号为符合要求的降噪信号。反之，若降噪信号对应的误差超出误差预设范围，则表征降噪信号为不符合要求的降噪信号。不符合要求的降噪信号越少，则用户可感知到降噪效果越好。在本申请实施例中，通过对α和β的调整、设置，可以实现对第n步长μ(n)与第n误差e(n)的关系曲线形状的调整、设置，以便于根据应用场景的实际需求对电子设备A的降噪性能进行匹配地调整和控制。

可选地，第n+1滤波系数与第n滤波系数、第n误差、第n步长、第n语音信号满足公式：

示例性地，第n语音信号x(n)包括对麦克风阵列中各麦克风所采集的信号进行时延补偿后的信号，且第n语音信号x(n)满足公式：

x(n)＝[X₁(n-τ₁),X₂(n-τ₂),…,X_M(n-τ_M)]^T；

第n语音信号中提取的噪声信号U(n)满足公式：

U(n)＝W_Cx(n)；

可选地，麦克风阵列方式包括但不限于环形六麦阵列、线性二麦阵列、线性四麦阵列等阵列方式。

可选地，第n期望信号包括基于波束形成对第n语音信号进行预定向得到的信号。示例性地，电子设备A对第n语音信号x(n)进行固定波束形成，得到第n期望信号d(n)。这样，便于在采用第n+1滤波系数对第n+1语音信号进行噪声过滤过程中，为降噪信号的降噪效果提供可参考且与实际获取的语音信号相适应的判断基准。第n期望信号满足公式：

可选地，第n降噪信号y(n)满足公式：

其中，T为转置符号。

可选地，若电子设备A所处的噪声环境恒定不变，电子设备A在采用第n+1滤波系数对第n+1语音信号进行噪声过滤，得到第n+1语音信号对应的第n+1降噪信号之后，若第n+1误差不超出误差预设范围，电子设备A则可以确定第n+1滤波系数为稳态滤波系数，并采用稳态滤波系数对后续获取到的语音信号进行噪声过滤。这样，后续获取到的语音信号对应的降噪信号均为满足降噪要求或对应误差在误差预设范围内的降噪信号。若电子设备A确定第n+1滤波系数为稳态滤波系数，则电子设备A可以不用继续更新滤波系数，直接采用所确定的稳态滤波系数对后续获取到的语音信号进行噪声过滤，可以降低对后续获取到的语音信号进行噪声过滤的时延，进一步提升用户对电子设备A的使用体验感。

可选地，由于噪声干扰通常都是随机的，且为了进一步消除采用第n+1滤波系数对第n+1语音信号进行噪声过滤后，第n+1降噪信号中的残余噪声对语音通信可能造成的影响，可以将第n+1降噪信号中的残余噪声控制在第n+1噪声掩蔽阈值以下。这样，接收第n+1降噪信号的人耳可以容忍该残余噪声，更符合人耳听觉特性，提高接收第n+1降噪信号的用户的听觉体验感。因此，电子设备A在采用第n+1滤波系数对第n+1语音信号进行噪声过滤，得到第n+1语音信号对应的第n+1降噪信号之后，电子设备A可以采用噪声掩蔽阈值和谱减参数，对第n+1降噪信号进行谱减处理，得到第n+1纯净语音信号。

示例性地，电子设备A可以按S201-S205所示的方式采用噪声掩蔽阈值和谱减参数，对第n+1降噪信号进行谱减处理：

S201、电子设备A采用最小值统计(minimum statistics，MS)噪声估计算法对第n+1降噪信号进行噪声估计，获得第n+1噪声幅值。示例性地，电子设备A通过在一个固定窗长之内跟踪平滑功率谱密度的最小值并更新噪声的功率谱密度来估计噪声。可选地，电子设备A可以采用对每一帧都进行更新最小值的方式进行噪声估计，以使噪声估计的延时最小。示例性地，对于某一帧λ而言，噪声的功率谱密度p²(λ,h)满足公式：

其中，h为频率采样点。B_min(λ,h)为偏差校正因子，且1≤B_min(λ,h)≤D。P_min(λ,h)为最小功率估计。P(λ,h)为带噪信号功率谱的估计，带噪信号如第n+1降噪信号。D为搜索最小值的窗长。M(D)为D的函数，且其取值范围为0到1。Q_eq(λ,h)为归一化方差。为P(λ,h)的二阶矩估计。/>为P(λ,h)的均值估计的平方。|Y(λ,h)|²为带噪语音帧的短时周期图。δ为平滑常数。

电子设备A还对第n+1降噪信号进行快速傅里叶变换(fast fourier transform，FFT)，得到第n+1语音幅值和第n+1语音相位。

S202、电子设备A采用第n+1噪声幅值和第n+1语音幅值进行噪声掩蔽阈值计算，得到第n+1噪声掩蔽阈值T_n+1,f(ω)，且

示例性地，电子设备A可以引入扩展函数，扩展函数满足abs(j-i)≤25)。电子设备A按如下公式进行扩展后的第n+1噪声掩蔽阈值T_n+1，i(ω)计算：

电子设备A通过归一化将T_n+1,i(ω)转换为扩展前的巴克(Bark)域的掩蔽阈值由于低于绝对听觉阈值的噪声是不可闻的，因此电子设备A将/>与第n+1绝对听觉阈值T_n+1,abs(ω)进行比较。电子设备A确定/>和T_n+1,abs(ω)中值最大的为第n+1噪声掩蔽阈值T_n+1,f(ω)。

第n+1绝对听觉阈值T_n+1,abs(ω)满足公式：

其中，C_n+1,i为扩散巴克Bark域频谱，S_ij为扩散矩阵中的元素，abs(j-i)≤25，i为已被掩蔽信号的Bark频率，j为正被掩蔽信号的Bark频率，B_n+1,i为分段的Bark域中第i段的能量，f_n+1,li为第i段的最低频率，f_n+1,hi为第i段的最高频率，P_n+1(ω)为将第n+1噪声幅值与第n+1降噪信号相减后的信号的功率谱，Re(ω)为将第n+1噪声幅值与第n+1降噪信号相减后的信号的实部，Im(ω)分别为将第n+1噪声幅值与第n+1降噪信号相减后的信号的虚部，O_i为第i段掩蔽能量的偏移函数，v为音调系数，v表征几何学上的两个阈值偏移程度。ω为数字频率。

S203、电子设备A基于第n+1噪声掩蔽阈值T_n+1,f(ω)，可以按如下公式：

确定第n+1降噪信号的谱减参数a_n+1(ω)和b_n+1(ω)；

S204、电子设备A采用第n+1噪声幅值、第n+1降噪信号的谱减参数a_n+1(ω)和b_n+1(ω)，对第n+1语音幅值进行谱减处理，得到第n+1纯净语音幅值。电子设备A对第n+1语音幅值进行谱减处理，可以将第n+1降噪信号中的噪声的幅度控制在听觉掩蔽曲线之下，使得噪声在主观上变得不可闻，或使得噪声无法被人耳感知。

S205、电子设备A对第n+1纯净语音幅值和第n+1语音相位进行快速傅里叶逆变换(Inverse Fast Fourier Transform，IFFT)，得到第n+1纯净语音信号。

其中，T_n+1,i(ω)为扩展后的第n+1噪声掩蔽阈值，为通过归一化将T_n+1,i(ω)转换为扩展前的巴克Bark域的掩蔽阈值，T_n+1,abs(ω)为第n+1绝对听觉阈值，且 a_n+1,max为第n+1降噪信号对应的过衰减因子的最大值，a_n+1,min为第n+1降噪信号对应的过衰减因子的最小值，b_n+1,max为第n+1降噪信号对应的谱底限的最大值，b_n+1,min为第n+1降噪信号对应的谱底限的最小值，T_n+1,max为第n+1降噪信号对应的掩蔽阈值按帧更新的最大值，T_n+1,min为第n+1降噪信号对应的掩蔽阈值按帧更新的最小值，ω为数字频率。

无论第n+1降噪信号中的残留噪声是相干噪声，还是非相干噪声，或者是相干噪声和非相干噪声，电子设备A采用噪声掩蔽阈值和谱减参数，对第n+1降噪信号进行谱减处理，均可以将第n+1降噪信号中的残留噪声进行有效抑制，使第n+1降噪信号中的残留噪声不被人耳感知，使得第n+1降噪信号中的残留噪声不会对交互产生不利影响。

本申请实施例提供的语音降噪方法，通过采用第n滤波系数、第n语音信号，以及满足双曲正切函数关系的第n步长与第n误差，确定出第n+1滤波系数，采用第n+1滤波系数对第n+1语音信号进行噪声过滤，得到第n+1降噪信号，为了进一步对第n+1降噪信号中的残留噪声进行抑制，还采用噪声掩蔽阈值和谱减参数，对第n+1降噪信号进行谱减处理，得到第n+1纯净语音信号。本申请实施例提供的语音降噪方法，在算法上提高了算法的收敛速度，快速得到稳态滤波系数，并在得到稳态滤波系数后，后续更新得到的滤波系数均为稳态滤波系数，减少了滤波系数更新过程中非稳态滤波系数的数量，也减小了采用非稳态滤波系数对所获取的语音信号进行噪声过滤的时长，提高了对语音信号的降噪效果，改进了语音质量。此外，采用噪声掩蔽阈值和谱减参数对降噪信号进行谱减处理，将降噪信号中的残留噪声的幅度控制在听觉掩蔽曲线之下，使得噪声在主观上变得不可闻，或使得噪声无法被人耳感知，得到纯净语音信号，消除了背景噪声对语音通信的影响，提高了语音通信效果，还可以提高语音自然度，使用户乐于接受，还提升了用户对采用本申请实施例语音降噪方法的电子设备的使用体验感。

本申请实施例还提供一种电子设备。图6为本申请实施例提供的电子设备的另一结构示意图。如图6所示，该电子设备包括声音采集模块61和声音信号处理模块62。

声音采集模块61，使用麦克风阵列采集声音信号或语音信号。

声音信号处理模块62，从声音采集模块61获取第n+1语音信号，使用语音增强算法对接收到的麦克风信号(如第n+1语音信号)进行处理。示例性地，声音信号处理模块62采用第n+1滤波系数对第n+1语音信号进行噪声过滤，得到第n+1语音信号对应的第n+1降噪信号。其中，第n+1滤波系数与第n滤波系数、第n误差和第n步长有关。第n滤波系数包括处理第n语音信号时采用的滤波系数。第n误差包括第n期望信号与第n降噪信号的差。第n期望信号包括基于波束形成对第n语音信号进行预定向得到的信号。第n降噪信号包括采用第n滤波系数处理第n语音信号得到的信号。第n步长与第n误差满足双曲正切函数关系。n为自然数。

可选地，该电子设备还包括声音输出模块63。声音输出模块63可以将声音信号处理模块62处理得到的第n+1降噪信号输出到计算机(personal computer，PC)端。声音输出模块63也可以将声音信号处理模块62处理得到的第n+1降噪信号输出到电子设备上的扬声器模块和/或蓝牙模块。

本申请实施例提供的电子设备，其具体实现原理和技术效果与图5所示实施例的具体实现原理和技术效果类似，本实施例此处不再赘述。

本申请实施例还提供一种电子设备。图7为本申请实施例提供的电子设备的又一结构示意图。如图7所示，该电子设备包括：麦克风阵列采集模块701、固定波束形成模块702、分块矩阵处理模块703、自适应噪声抵消滤波模块704、噪声估计模块705、快速傅里叶变换模块706、第一谱减模块707、听觉掩蔽阈值计算模块708、谱减参数确定模块709、第二谱减模块710、快速傅里叶逆变换模块711。

语音信号获取模块701，用于获取第n+1语音信号，例如从麦克风阵列中获取第n+1语音信号。

固定波束形成模块702，用于对第n语音信号x(n)进行固定波束形成，得到第n期望信号d(n)。

分块矩阵处理模块703，用于抑制第n语音信号x(n)中固定波束形成方向的语音信号，得到对应的噪声信号U(n)。或者，用于从第n语音信号x(n)中提取的噪声信号U(n)。

自适应噪声抵消滤波模块704，用于采用第n+1滤波系数对第n+1语音信号进行噪声过滤，得到第n+1语音信号对应的第n+1降噪信号。其中，第n+1滤波系数与第n滤波系数、第n误差和第n步长有关，第n滤波系数包括处理第n语音信号时采用的滤波系数，第n误差包括第n期望信号与第n降噪信号的差，第n期望信号包括基于波束形成对第n语音信号进行预定向得到的信号，第n降噪信号包括采用第n滤波系数处理第n语音信号得到的信号，第n步长与第n误差满足双曲正切函数关系，n为自然数。

噪声估计模块705，用于采用最小值统计(minimum statistics，MS)噪声估计算法对第n+1降噪信号进行噪声估计，获得第n+1噪声幅值。

快速傅里叶变换模块706，用于对第n+1降噪信号进行快速傅里叶变换(fastfourier transform，FFT)，得到第n+1语音幅值和第n+1语音相位。

第一谱减模块707，用于将第n+1噪声幅值与第n+1降噪信号相减，得到第一谱减后信号的功率谱P_n+1(ω)。

听觉掩蔽阈值计算模块708，用于采用第n+1噪声幅值和第n+1语音幅值进行噪声掩蔽阈值计算，得到第n+1噪声掩蔽阈值T_n+1,f(ω)。

谱减参数确定模块709，用于基于第n+1噪声掩蔽阈值T_n+1,f(ω)，确定第n+1降噪信号的谱减参数a_n+1(ω)和b_n+1(ω)。

第二谱减模块710，用于采用第n+1噪声幅值、第n+1降噪信号的谱减参数a_n+1(ω)和b_n+1(ω)，对第n+1语音幅值进行谱减处理，得到第n+1纯净语音幅值。

快速傅里叶逆变换模块711，用于对第n+1纯净语音幅值和第n+1语音相位进行快速傅里叶逆变换(Inverse Fast Fourier Transform，IFFT)，得到第n+1纯净语音信号。

本领域技术人员可以理解，方法和装置可以相互结合和引用，本申请实施例提供的相关装置可以执行上述列表排序的方法中的步骤。

本申请实施例提供的语音降噪方法，可以应用在具备通信功能的电子设备中。电子设备包括终端设备，终端设备的具体设备形态等可以参照上述相关说明，此处不再赘述。

本申请实施例提供一种电子设备，该电子设备包括：处理器和存储器；存储器存储计算机执行指令；处理器执行存储器存储的计算机执行指令，使得电子设备执行上述方法。

本申请实施例提供一种芯片。图8为本申请实施例提供的芯片的硬件结构示意图。芯片包括一个或两个以上(包括两个)处理器81、通信线路82、通信接口83和存储器84。处理器81用于调用存储器中的计算机程序，以执行上述实施例中的技术方案。其实现原理和技术效果与上述相关实施例类似，此处不再赘述。

本申请实施例还提供了一种计算机可读存储介质。计算机可读存储介质存储有计算机程序。计算机程序被处理器执行时实现上述方法。上述实施例中描述的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。如果在软件中实现，则功能可以作为一个或多个指令或代码存储在计算机可读介质上或者在计算机可读介质上传输。计算机可读介质可以包括计算机存储介质和通信介质，还可以包括任何可以将计算机程序从一个地方传送到另一个地方的介质。存储介质可以是可由计算机访问的任何目标介质。

一种可能的实现方式中，计算机可读介质可以包括RAM，ROM，只读光盘(compactdisc read-only memory，CD-ROM)或其它光盘存储器，磁盘存储器或其它磁存储设备，或目标于承载的任何其它介质或以指令或数据结构的形式存储所需的程序代码，并且可由计算机访问。而且，任何连接被适当地称为计算机可读介质。例如，如果使用同轴电缆，光纤电缆，双绞线，数字用户线(Digital Subscriber Line，DSL)或无线技术(如红外，无线电和微波)从网站，服务器或其它远程源传输软件，则同轴电缆，光纤电缆，双绞线，DSL或诸如红外，无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘，激光盘，光盘，数字通用光盘(Digital Versatile Disc，DVD)，软盘和蓝光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光光学地再现数据。上述的组合也应包括在计算机可读介质的范围内。

本申请实施例提供一种计算机程序产品，计算机程序产品包括计算机程序，当计算机程序被运行时，使得计算机执行上述方法。

本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理单元以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种语音降噪方法，其特征在于，包括：

获取第n+1语音信号；

采用第n+1滤波系数对所述第n+1语音信号进行噪声过滤，得到所述第n+1语音信号对应的第n+1降噪信号；其中，所述第n+1滤波系数与第n滤波系数、第n误差和第n步长有关，所述第n滤波系数包括处理第n语音信号时采用的滤波系数，所述第n误差包括第n期望信号与第n降噪信号的差，所述第n期望信号包括基于波束形成对所述第n语音信号进行预定向得到的信号，所述第n降噪信号包括采用所述第n滤波系数处理第n语音信号得到的信号，所述第n步长与所述第n误差满足双曲正切函数关系，n为自然数；

所述第n步长μ(n)与所述第n误差e(n)满足公式：

其中，α和β均为大于零的常数；

所述第n+1滤波系数与第n滤波系数、第n误差和第n步长满足公式：

其中，W_m(n+1)为所述第n+1滤波系数，W_m(n)为所述第n滤波系数，0≤m≤K-1，K为滤波阶数，且K为正整数，U(n-m)为对所述第n语音信号x(n)中提取的噪声信号U(n)进行修正后的信号，λ_max为U(n-m)自相关矩阵的最大值。

2.根据权利要求1所述的方法，其特征在于，所述第n语音信号x(n)包括对麦克风阵列中各麦克风所采集的信号进行时延补偿后的信号，且所述第n语音信号x(n)满足公式：

x(n)＝[X₁(n-τ₁)，X₂(n-τ₂)，…，X_M(n-τ_M)]^T；

所述第n语音信号中提取的噪声信号U(n)满足公式：

U(n)＝W_Cx(n)；

其中，X₁、X₂、…、X_M分别为所述麦克风阵列中第1、第2、…、第M麦克风各自采集的信号，τ₁、τ₂、…、τ_M分别为所述麦克风阵列中各麦克风各自相对于预设参考麦克风的时延，且d为相邻麦克风间的距离，c为声速，θ为声源信号的到达方向，T为转置符号，/>

3.根据权利要求2所述的方法，其特征在于，所述第n期望信号满足公式：

4.根据权利要求1所述的方法，其特征在于，所述第n降噪信号y(n)满足公式：

其中，T为转置符号。

5.根据权利要求1-4任一项所述的方法，其特征在于，在所述采用第n+1滤波系数对所述第n+1语音信号进行噪声过滤，得到所述第n+1语音信号对应的第n+1降噪信号之后，还包括：

若第n+1误差不超出误差预设范围，则确定所述第n+1滤波系数为稳态滤波系数，并采用所述稳态滤波系数对后续获取到的语音信号进行噪声过滤。

6.根据权利要求1-4任一项所述的方法，其特征在于，在所述采用第n+1滤波系数对所述第n+1语音信号进行噪声过滤，得到所述第n+1语音信号对应的第n+1降噪信号之后，还包括：

采用噪声掩蔽阈值和谱减参数，对所述第n+1降噪信号进行谱减处理，得到第n+1纯净语音信号。

7.根据权利要求6所述的方法，其特征在于，所述采用噪声掩蔽阈值和谱减参数，对所述第n+1降噪信号进行谱减处理，得到第n+1纯净语音信号，包括：

采用最小值统计MS噪声估计算法对所述第n+1降噪信号进行噪声估计，获得第n+1噪声幅值；并对所述第n+1降噪信号进行快速傅里叶变换FFT，得到第n+1语音幅值和第n+1语音相位；

采用所述第n+1噪声幅值和所述第n+1语音幅值进行噪声掩蔽阈值计算，得到第n+1噪声掩蔽阈值T_n+1，f(ω)，且

基于所述第n+1噪声掩蔽阈值T_n+1，f(ω)，按如下公式：

确定所述第n+1降噪信号的谱减参数a_n+1(ω)和b_n+1(ω)；

采用所述第n+1噪声幅值、所述第n+1降噪信号的谱减参数a_n+1(ω)和b_n+1(ω)，对所述第n+1语音幅值进行谱减处理，得到第n+1纯净语音幅值；

对所述第n+1纯净语音幅值和所述第n+1语音相位进行快速傅里叶逆变换IFFT，得到第n+1纯净语音信号；

其中，T_n+1，i(ω)为扩展后的第n+1噪声掩蔽阈值，为通过归一化将T_n+1，i(ω)转换为扩展前的巴克Bark域的掩蔽阈值，T_n+1，abs(ω)为第n+1绝对听觉阈值，且/> a_n+1，max为第n+1降噪信号对应的过衰减因子的最大值，a_n+1，min为第n+1降噪信号对应的过衰减因子的最小值，b_n+1，max为第n+1降噪信号对应的谱底限的最大值，b_n+1，min为第n+1降噪信号对应的谱底限的最小值，T_n+1，max为第n+1降噪信号对应的掩蔽阈值按帧更新的最大值，T_n+1，min为第n+1降噪信号对应的掩蔽阈值按帧更新的最小值，ω为数字频率。

8.根据权利要求7所述方法，其特征在于，所述扩展后的第n+1噪声掩蔽阈值T_n+1，i(ω)满足公式：

其中，C_n+1，i为扩散巴克Bark域频谱，S_ij为扩散矩阵中的元素，abs(j-i)≤25，i为已被掩蔽信号的Bark频率，j为正被掩蔽信号的Bark频率，B_n+1，i为分段的Bark域中第i段的能量，f_n+1，li为第i段的最低频率，f_n+1，hi为第i段的最高频率，P_n+1(ω)为将第n+1噪声幅值与第n+1降噪信号相减后的信号的功率谱，Re(ω)为将第n+1噪声幅值与第n+1降噪信号相减后的信号的实部，Im(ω)分别为将第n+1噪声幅值与第n+1降噪信号相减后的信号的虚部，O_i为第i段掩蔽能量的偏移函数，v为音调系数，v表征几何学上的两个阈值偏移程度。

9.一种电子设备，其特征在于，包括：处理器和存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，使得所述电子设备执行如权利要求1-8中任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的方法。

11.一种计算机程序产品，其特征在于，包括计算机程序，当所述计算机程序被运行时，使得计算机执行如权利要求1-8任一项所述的方法。

12.一种芯片，所述芯片包括处理器，处理器用于调用存储器中的计算机程序，以执行如权利要求1-8任一项所述的方法。