CN113160846A

CN113160846A - 噪声抑制方法和电子设备

Info

Publication number: CN113160846A
Application number: CN202110435611.9A
Authority: CN
Inventors: 杨银弟
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-07-23

Abstract

本申请公开了一种噪声抑制方法和电子设备，属于语音处理技术领域。该方法包括：对M个麦克风对应的数字信号进行分帧加窗处理，得到与所述M个麦克风一一对应的M个第一声音时域信号，M为大于1的整数；对所述M个第一声音时域信号进行相干性计算，得到所述M个第一声音时域信号对应的频域相干性数据；在基于所述频域相干性数据确定所述M个第一声音时域信号中存在目标噪声的情况下，确定所述M个第一声音时域信号的声音类型，所述声音类型用于表征所述M个第一声音时域信号中是否存在语音，所述目标噪声为持续时间小于第一预设阈值的噪声；基于所述声音类型，对所述M个第一声音时域信号中存在的所述目标噪声进行抑制处理。

Description

噪声抑制方法和电子设备

技术领域

本申请属于语音处理技术领域，具体涉及一种噪声抑制方法和电子设备。

背景技术

随着电子技术的高速发展，用户对电子设备输出的语音质量要求越来越高，因此，需要对麦克风采集的语音信号进行增强处理，以抑制语音信号中的噪声，提高语音质量。其中，语音信号的噪声可以包括平稳噪声和瞬态噪声，瞬态噪声如风噪，其通常持续时间比较短且能量比较大，很容易被人耳感知，需要对其进行抑制，以提高语音质量。

目前，噪声抑制方式通常针对地是语音信号的平稳噪声，而对于瞬态噪声，其抑制效果比较差。

发明内容

本申请实施例的目的是提供一种噪声抑制方法和电子设备，能够解决对于语音信号的瞬态噪声的抑制效果比较差的问题。

第一方面，本申请实施例提供了一种噪声抑制方法，该方法包括：

对M个麦克风对应的数字信号进行分帧加窗处理，得到与所述M个麦克风一一对应的M个第一声音时域信号，M为大于1的整数；

对所述M个第一声音时域信号进行相干性计算，得到所述M个第一声音时域信号对应的频域相干性数据；

在基于所述频域相干性数据确定所述M个第一声音时域信号中存在目标噪声的情况下，确定所述M个第一声音时域信号的声音类型，所述声音类型用于表征所述M个第一声音时域信号中是否存在语音，所述目标噪声为持续时间小于第一预设阈值的噪声；

基于所述声音类型，对所述M个第一声音时域信号中存在的所述目标噪声进行抑制处理。

第二方面，本申请实施例提供了一种噪声抑制装置，该装置包括：

分帧加窗处理模块，用于对M个麦克风对应的数字信号进行分帧加窗处理，得到与所述M个麦克风一一对应的M个第一声音时域信号，M为大于1的整数；

相干性计算模块，用于对所述M个第一声音时域信号进行相干性计算，得到所述M个第一声音时域信号对应的频域相干性数据；

第一确定模块，用于在基于所述频域相干性数据确定所述M个第一声音时域信号中存在目标噪声的情况下，确定所述M个第一声音时域信号的声音类型，所述声音类型用于表征所述M个第一声音时域信号中是否存在语音，所述目标噪声为持续时间小于第一预设阈值的噪声；

噪声抑制处理模块，用于基于所述声音类型，对所述M个第一声音时域信号中存在的所述目标噪声进行抑制处理。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本申请实施例中，通过结合不同麦克风的第一声音时域信号的频域相干性和噪声估计，确定第一声音时域信号是否存在目标噪声，所述目标噪声为持续时间小于第一预设阈值的噪声，即该目标噪声为瞬态噪声，在确定第一声音时域信号存在瞬态噪声的情况下，通过确定第一声音时域信号的声音类型，该声音类型表征第一声音时域信号为纯噪声信号还是包括了噪声和语音的信号，并基于该声音类型，对第一声音时域信号中存在的目标噪声进行抑制处理。如此，针对不同声音类型的第一声音时域信号，可以采用不同的瞬态噪声抑制方法，这样在提升噪声抑制能力的同时，还可以降低对语音的损伤，从而可以提高瞬态噪声的抑制效果。

附图说明

图1是本申请实施例提供的噪声抑制方法的流程图；

图2是对双麦克风对应的数字信号进行噪声抑制的流程示意图；

图3风噪抑制增益和频域相干性修正参数值的关系示意图；

图4是本申请实施例提供的噪声抑制装置的结构图；

图5是本申请实施例提供的电子设备的结构图；

图6为实现本申请实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的噪声抑制进行详细地说明。

图1是本申请实施例提供的噪声抑制方法的流程图，如图1所示，包括以下步骤：

步骤101，对M个麦克风对应的数字信号进行分帧加窗处理，得到与所述M个麦克风一一对应的M个第一声音时域信号。

其中，M为大于1的整数。

该步骤中，所述M个麦克风中每个麦克风均可以为声学传感器，其可以采集空间中的声场，以获得声音信号。所述M个麦克风可以按照一定规则进行排列，以构成麦克风阵列，用来对声场的空间特性进行采样并处理，最终得到M个麦克风对应的数字信号即M个数字信号，这M个数字信号为同源信号。

针对这M个数字信号中每个数字信号，均可以采用相同的分帧加窗处理方式，对数字信号进行分帧加窗处理，最终得到每个麦克风对应的数字信号的多个声音时域信号。这多个声音时域信号均为短时信号，即时间很短的信号。

比如，针对第一麦克风对应的数字信号，以20ms的分帧间隔对该数字信号进行分帧加窗处理，得到该数字信号的多个声音时域信号，第一麦克风为这M个麦克风中任一麦克风。

而第一麦克风的第一声音时域信号即为第一麦克风对应的数字信号的多个声音时域信号中任一声音时域信号，即该第一声音时域信号与第一麦克风对应，为第一麦克风对应的数字信号加窗后的任一帧声音时域信号。并且，针对每个麦克风，均可以得到与之对应的第一声音时域信号，这样，对M个麦克风对应的数字信号进行分帧加窗处理后，即可得到与所述M个麦克风一一对应的M个第一声音时域信号。

另外，这M个第一声音时域信号均为相同时间段的声音时域信号，比如，均为麦克风对应的数字信号中20ms至40ms的声音时域信号。

步骤102，对所述M个第一声音时域信号进行相干性计算，得到所述M个第一声音时域信号对应的频域相干性数据。

该步骤中，可以对这M个第一声音时域信号进行相干性计算，具体地，可以对这M个第一声音时域信号中每个第一声音时域信号进行傅里叶变换如短时傅里叶变换，(Short-Time Fourier Transform，STFT)，得到这M个第一声音时域信号的频域信号。

以两个麦克风为例，参见图2，图2是对双麦克风对应的数字信号进行噪声抑制的流程示意图，如图2所示，输入信号为对双麦克风的采集信号进行采样后的双通道数字信号，对输入的时域信号进行分帧加窗处理，得到加窗后的时域信号即第一声音时域信号。之后，采用STFT进行时频表示，得到第一声音时域信号的频域表示。

比如，麦克风A对应的数字信号加窗后的第一声音时域信号为该麦克风A对应的数字信号加窗后的第n帧声音时域信号，用x1(n)表示，STFT变换后的频域信号用X1(n，f)，其中，f表示频域内的频点。

麦克风B对应的数字信号加窗后的第一声音时域信号为该麦克风B对应的数字信号加窗后的第n帧声音时域信号，用x2(n)表示，STFT变换后的频域信号用X2(n，f)，其中，f表示频域内的第f个频点。

而对所述M个第一声音时域信号进行相干性计算指的是基于这M个第一声音时域信号对应的频域信号进行频域相干性计算，得到频域相干性数据。具体地，针对每个第一声音时域信号，可以计算对应的频域信号在各个频点上的自谱功率密度(Auto PowerSpectral Densities，APSD)；之后基于计算得到的APSD，可以计算M个第一声音时域信号对应的频域信号中每两个第一声音时域信号对应的频域信号在各个频点上的互谱功率密度(Cross Power Spectral Density，CPSD)；基于计算得到的APSD和CPSD，计算所述M个第一声音时域信号对应的频域相干性数据。

比如，M为3时，3个第一声音时域信号分别为信号A、信号B和信号C，针对信号A、信号B和信号C，分别计算对应的频域信号在各个频点上的APSD。

之后基于信号A的APSD和信号B的APSD，可以计算信号A和信号B对应的频域信号在各个频点上的CPSD，并基于信号A的APSD、信号B的APSD、以及信号A和信号B对应的频域信号在各个频点上的CPSD，计算得到信号A和信号B对应的频域相干性数据。

基于信号B的APSD和信号C的APSD，计算信号B和信号C对应的频域信号在各个频点上的CPSD，并基于信号B的APSD、信号C的APSD、以及信号B和信号C对应的频域信号在各个频点上的CPSD，计算得到信号B和信号C对应的频域相干性数据。

基于信号A的APSD和信号C的APSD，可以计算信号A和信号C对应的频域信号在各个频点上的CPSD，并基于信号A的APSD、信号C的APSD、以及信号A和信号C对应的频域信号在各个频点上的CPSD，计算得到信号A和信号C对应的频域相干性数据。

其中，频域相干性数据包括所述M个第一声音时域信号对应的频域信号在各个频点上的频域相干性参数值，而某频点上的频域相干性参数值可以用所述M个第一声音时域信号对应的频域信号在该频点上的相干幅度平方(Magnitude Squared Coherence，MSC)来表征。

以两个麦克风为例，如图2所示，对这两个麦克风对应的第一声音时域信号STFT变换后的频域信号进行频域相干性计算，得到频域相干性数据，用于进行噪声检测。

其频域相干性计算方式如下：

采用公式PSD_X1(n，f)＝a*PSD_X1(n-1，f)+(1-a)*X1(n，f)*conj(X1(n，f))，计算麦克风A的APSD。其中，PSD_X1(n，f)表示麦克风A对应的数字信号的第n帧声音时域信号STFT变换后的频域信号的第f个频点的APSD，PSD_X1(n-1，f)表示麦克风A对应的数字信号的第n-1帧声音时域信号STFT变换后的频域信号的第f个频点的APSD，a表示权重参数。

采用公式PSD_X2(n，f)＝a*PSD_X2(n-1，f)+(1-a)*X2(n，f)*conj(X2(n，f))，计算麦克风B的APSD。其中，PSD_X2(n，f)表示麦克风B对应的数字信号的第n帧声音时域信号STFT变换后的频域信号的第f个频点的APSD，PSD_X2(n-1，f)表示麦克风B对应的数字信号的第n-1帧声音时域信号STFT变换后的频域信号的第f个频点的APSD，a表示权重参数。

采用公式CPSD_X1X2(n，f)＝a*CPSD_X1X2(n-1，f)+(1-a)*X1(n，f)*conj(X2(n，f))，计算麦克风A和麦克风B的CPSD。其中，CPSD_X1X2(n，f)表示双麦克风对应的数字信号的第n帧声音时域信号STFT变换后的频域信号的第f个频点的CPSD，CPSD_X1X2(n-1，f)表示双麦克风对应的数字信号的第n-1帧声音时域信号STFT变换后的频域信号的第f个频点的CPSD。

采用公式MSC_X1X2(n，f)＝(CPSD_X1X2(n，f)*conj(CPSD_X1X2(n，f)))/(PSD_X1(n，f)*PSD_X2(n，f))，计算双麦克风的MSC。其中，MSC_X1X2(n，f)即表示双麦克风对应的数字信号的第n帧声音时域信号STFT变换后的频域信号的第f个频点的MSC，第f个频点的MSC即为第f个频点上的频域相干性参数值，而双麦克风对应的频域相干性数据包括该频域信号中所有频点的MSC。

步骤103，在基于所述频域相干性数据确定所述M个第一声音时域信号中存在目标噪声的情况下，确定所述M个第一声音时域信号的声音类型，所述声音类型用于表征所述M个第一声音时域信号中是否存在语音。

该步骤中，所述目标噪声为持续时间小于第一预设阈值的噪声，该第一预设阈值通常设置的比较小，表明为持续时间很短的噪声，即该目标噪声为瞬态噪声，比如风噪。以下目标噪声以风噪为例进行详细说明。

风噪是一种典型的瞬态噪声，其持续时间为几十毫秒到几秒不等，在户外场景中比较常见，其很容易被人耳感知，且风噪能量一般来说也较大，因此，在语音信号中存在风噪的情况下，会严重降低通话的语音质量和可懂度，对用户造成不好的通话体验。

通常来说，M个麦克风接收到的M个第一声音时域信号为同源信号，而M个麦克风接收到的风噪为非同源信号，因此，可以利用该M个第一声音时域信号对应的频域相干性数据检测第一声音时域信号中是否存在风噪。

其可以采用该频域相干性数据中所有频点上的频域相干性参数值，来检测第一声音时域信号中是否存在风噪，也可以采用该频域相干性数据中部分频点如低频段的频点上的频域相干性参数值，来检测第一声音时域信号中是否存在风噪。

在实现过程中，可以计算用来检测风噪的所有或部分频点上的频域相干性参数值的目标值，该目标值可以为平均值和中位值中的至少一项，基于该目标值，来检测第一声音时域信号中是否存在风噪。

由于通常各通道的第一声音时域信号之间是强相关的，而各通道的风噪之间的相关性很弱，因此可以将该目标值与第二预设阈值进行比较，在目标值小于该第二预设阈值的情况下，确定第一声音时域信号中存在风噪，而在目标值大于或等于该第二预设阈值的情况下，确定第一声音时域信号中不存在风噪。

比如，M为2时，两个第一声音时域信号分别为信号A和信号B，可以计算信号A和信号B对应的频域相干性数据中所有或部分频点上的频域相干性参数值的目标值，在该目标值小于第二预设阈值的情况下，确定信号A和信号B中存在风噪，而在目标值大于或等于该第二预设阈值的情况下，确定信号A和信号B中不存在风噪。

又比如，M为3时，三个第一声音时域信号分别为信号A、信号B和信号C，在单通道输出语音信号的情况下，在基于这三个信号中任意两个信号对应的频域相干性数据确定不存在风噪的情况下，确定这三个信号中不存在风噪，否则，确定这三个信号中存在风噪。

在多通道分别输出语音信号的情况下，若计算得到的信号A和信号B对应的频域相干性数据中所有或部分频点上的频域相干性参数值的目标值小于第二预设阈值，而信号B和信号C对应的频域相干性数据中所有或部分频点上的频域相干性参数值的目标值大于或等于第二预设阈值，信号A和信号C对应的频域相干性数据中所有或部分频点上的频域相干性参数值的目标值大于或等于第二预设阈值，则确定信号A和信号B中不存在风噪，而信号C中存在风噪。

在基于所述频域相干性数据确定M个第一声音时域信号中存在目标噪声的情况下，可以确定该M个第一声音时域信号的声音类型，该声音类型可以包括两种，一种表征该M个第一声音时域信号包括语音和目标噪声，另一种表征该M个第一声音时域信号仅包括目标噪声。

目标噪声以风噪为例进行说明，若检测到第一声音时域信号存在风噪，可以利用相干性、基音周期、信噪比等信息，采用现有的或新的语音估计方法，对第一声音时域信号即对麦克风对应的数字信号中存在风噪的帧进行语音估计，得到语音存在的概率，以确定第一声音时域信号中是否存在语音，得到该M个第一声音时域信号的声音类型。

若第一声音时域信号中存在语音，则第一声音时域信号的声音类型表征该第一声音时域信号为存在风噪的语音段，若第一声音时域信号中不存在语音，则第一声音时域信号的声音类型表征该第一声音时域信号为非语音段，即为纯风噪，如图2所示。

另外，在基于所述频域相干性数据确定M个第一声音时域信号中不存在目标噪声如风噪的情况下，则针对麦克风对应的数字信号中不存在目标噪声如风噪的帧，比如第一声音时域信号，可以采用波束形成、后滤波等传统方法或新的方法，来对第一声音时域信号中的平稳噪声进行抑制，如图2所示。

这样，可以将频域相干性数据在某种意义上作为一维语音存在概率，用于纯风噪的估计，如此可以提升风噪的抑制能力，对强风噪也能进行有效抑制。

步骤104，基于所述声音类型，对所述M个第一声音时域信号中存在的所述目标噪声进行抑制处理。

该步骤中，可以针对存在目标噪声如风噪的第一声音时域信号和纯风噪的第一声音时域信号采用不同的噪声抑制方案，来对第一声音时域信号中存在的目标噪声进行抑制处理。其噪声抑制原则可以为，针对M个麦克风对应的数字信号的任一帧声音时域信号，在纯风噪时可以有效地抑制风噪，尽可能地消除人耳对风噪的感知，而在存在风噪的语音段，在完整保留语音的同时，可以降低风噪对语音的影响。

另外，针对这M个第一声音时域信号，可以基于不同的或相同的噪声抑制增益，分别对这M个第一声音时域信号中的目标噪声进行抑制处理，得到噪声抑制后的多个输出信号，这样可以保持多通道信号的空间特性和立体声效果。也可以对这M个第一声音时域信号进行波束形成，生成一个信号后，在基于噪声抑制增益对该信号进行噪声抑制，得到噪声抑制后的输出信号。

本实施例中，通过结合不同麦克风的第一声音时域信号的频域相干性和噪声估计，确定第一声音时域信号是否存在目标噪声，所述目标噪声为持续时间小于第一预设阈值的噪声，即该目标噪声为瞬态噪声，在确定第一声音时域信号存在瞬态噪声的情况下，通过确定第一声音时域信号的声音类型，该声音类型表征第一声音时域信号为纯噪声信号还是包括了噪声和语音的信号，并基于该声音类型，对第一声音时域信号中存在的目标噪声进行抑制处理。如此，针对不同声音类型的第一声音时域信号，可以采用不同的瞬态噪声抑制方法，这样在提升噪声抑制能力的同时，还可以降低对语音的损伤，从而可以提高瞬态噪声的抑制效果。

并且，麦克风对应的数字信号中的其他短时段的声音时域信号也可以采用相同的方式进行噪声抑制，如此，可以实现对M个麦克风对应的数字信号中的瞬态噪声的有效抑制。

可选地，所述频域相干性数据包括所述M个第一声音时域信号在N个频点中每个频点上的频域相干性参数值，所述N个频点为所述M个第一声音时域信号对应的频域信号的频点，N为大于1的整数；

所述步骤102之后，所述方法还包括：

获取所述频域相干性数据中K个目标频点上的频域相干性参数值，所述K个目标频点为所述N个频点按照频率值从小到大的顺序排列的序列中排列在前的K个频点，K为小于N的正整数；

确定所述K个目标频点上的频域相干性参数值的目标值，所述目标值包括平均值和中位值中的至少一项；

在所述目标值小于第二预设阈值的情况下，确定所述M个第一声音时域信号中存在所述目标噪声。

本实施方式中，瞬态噪声如风噪，一般只会占据信号的低频部分，而高频部分可能有一部分其他平稳噪声或者语音，由于高频部分的高相干性的语音和其他噪声，若使用整个频段上的频点的MSC来做风噪检测，这样在很大程度上会降低风噪检测的准确性。并且，相对于单麦克风的基于多特征融合的风噪检测方法只能检测出纯风噪的场景来说，低频点的相干性方法在信号中存在语音或不存在语音的场景下，都能有效地检测出信号中是否存在风噪。因此，可以采用低频段的频点的频域相干性参数值来进行风噪检测，以提高风噪检测的准确性。

具体地，可以获取频域相干性数据中K个目标频点上的频域相干性参数值即MSC，该K个目标频点为所述N个频点按照频率值从小到大的顺序排列的序列中排列在前的K个频点，即该目标频点为N个频点中低频段的频点。K可以根据实际情况进行设定，比如，可以为10，即获取频域相干性数据中前10个频点上的MSC。

其中，N个频点为M个第一声音时域信号进行STFT变换后得到的频域信号的频点，而所述频域相干性数据中包括M个第一声音时域信号在N个频点中每个频点的频域相干性参数值。

之后，可以确定这K个目标频点上的MSC的目标值，该目标值可以包括平均值和中位值中的至少一项，平均值可以为算术平均值、几何平均值或平方平均值等。

在该目标值小于第二预设阈值的情况下，可以确定该M个第一声音时域信号中存在瞬态噪声如风噪，而在该目标值大于或等于第二预设阈值的情况下，可以确定该M个第一声音时域信号中不存在瞬态噪声如风噪。其中，第二预设阈值可以根据实际情况进行设定，这里不进行限定。

本实施方式中，通过采用低频段的频点的频域相干性参数值来进行风噪检测，这样可以提高风噪检测的准确性。

可选地，所述步骤104具体包括：

在所述声音类型表征所述M个第一声音时域信号中不存在语音的情况下，将所述频域相干性数据作为平滑系数；

基于M个第二声音时域信号对应的噪声估计值，对所述M个第一声音时域信号对应的噪声值进行平滑处理，得到所述M个第一声音时域信号对应的噪声估计值；

基于所述M个第一声音时域信号对应的噪声估计值，确定所述M个第一声音时域信号的噪声抑制增益；

基于所述M个第一声音时域信号的噪声抑制增益，对所述M个第一声音时域信号中存在的所述目标噪声进行抑制处理；

其中，所述M个第二声音时域信号为对所述M个麦克风对应的数字信号进行分帧加窗处理后得到的信号，所述M个第二声音时域信号与所述M个麦克风一一对应，第一麦克风对应的第二声音时域信号为时间在所述第一麦克风对应的第一声音时域信号之前的信号，所述第一麦克风对应的第二声音时域信号与所述第一麦克风对应的第一声音时域信号相邻，所述第一麦克风为所述M个麦克风中任一麦克风。

本实施方式限定的是对于M个麦克风对应的数字信号中针对纯风噪的帧的噪声抑制过程，可以对M个第一声音时域信号的噪声增益进行估计，得到M个第一声音时域信号对应的噪声估计值，并基于这M个第一声音时域信号对应的噪声估计值，确定M各第一声音时域信号的噪声抑制增益，之后可以基于噪声抑制增益对第一声音时域信号中存在的所述目标噪声进行抑制处理，如图2所示。

具体地，可以将频域相干性数据即各频点的MSC作为平滑系数，基于M个第二声音时域信号对应的噪声估计值对M个第一声音时域信号对应的噪声值即噪声增益进行平滑处理，得到M个第一声音时域信号对应的噪声估计值。

其中，在进行噪声增益估计时，可以对M个第一声音时域信号进行波束形成后生成的信号中的噪声增益进行估计，也可以针对每个第一声音时域信号，对该第一声音时域信号中的噪声增益进行估计，这里不进行具体限定。

以两个麦克风为例，M个第一声音时域信号对应的噪声估计值可以采用公式PSDw(n，f)＝MSC_X1X2(n，f)*PSDw(n-1，f)+(1-MSC_X1X2(n，f))*PSDX(n，f)表示。其中，PSDw(n，f)表示M个第一声音时域信号对应的噪声估计值，PSDw(n-1，f)表示M个第二声音时域信号对应的噪声估计值，PSDX(n，f)表示M个第一声音时域信号对应的噪声增益。针对一个麦克风，第二声音时域信号即为该麦克风对应的数字信号中第一声音时域信号的相邻前一帧信号。

从该公式可以看出，采用各频点的MSC来作为瞬态噪声如风噪估计更新的平滑系数，在低频段的频点上，若存在风噪，该频点上的MSC小，相应加权在该频点上的噪声增益的权重大，而在高频段的频点上，若存在语音，该频点上的MSC大，相应加权在该频点上的噪声增益的权重小。这样，在能准确估计瞬态噪声如风噪的同时，也能降低由于语音存在的误检测而造成的对语音的损伤，更好地保留语音信号。

得到噪声估计值之后，可以基于M个第一声音时域信号对应的噪声估计值，计算M个第一声音时域信号的噪声抑制增益。其中，M个第一声音时域信号的噪声抑制增益与其噪声估计值可以呈正比关系，即某频点上的噪声估计值越大，该频点上的噪声抑制增益也即越大，反之。

之后，可以基于M个第一声音时域信号的噪声抑制增益，计算信号的先验信噪比和后验信噪比，用谱减法、维纳滤波或者最小均方误差降噪方法来对瞬态噪声如风噪进行抑制处理。

本实施方式中，针对非语音段即纯风噪的信号，将各通道信号之间的频域相干性数据，作为风噪增益估计更新的平滑系数，在低频段的频点上，若存在风噪，该频点上的MSC小，相应加权在该频点上的噪声增益的权重大，而在高频段的频点上，若存在语音，该频点上的MSC大，相应加权在该频点上的噪声增益的权重小。这样，在能准确估计瞬态噪声如风噪的同时，也能降低由于语音存在的误检测而造成的对语音的损伤，更好地保留语音信号，如此可以提高风噪抑制能力，减弱残留风噪。

可选地，所述将所述频域相干性数据作为平滑系数，包括：

针对每个第一声音时域信号，将所述频域相干性数据作为平滑系数；

所述基于M个第二声音时域信号对应的噪声估计值，对所述M个第一声音时域信号对应的噪声值进行平滑处理，得到所述M个第一声音时域信号对应的噪声估计值，包括；

基于目标声音时域信号对应的噪声估计值，对所述第一声音时域信号对应的噪声值进行平滑处理，得到所述第一声音时域信号对应的噪声估计值；

其中，所述目标声音时域信号为所述M个第二声音时域信号中的信号，所述目标声音时域信号与所述第一声音时域信号从同一麦克风对应的数字信号分帧加窗处理后得到。

本实施方式中，在一些应用场景如录音场景中，可以进行多个信号的输出，以保持多通道信号如双通道信号的空间特征和立体声效果。

以双麦克风为例，输入两通道的信号，由于麦克风的设置位置和方位的不同，采集到的信号中风噪的能量可能也会不同。在该应用场景中，可以针对每个通道的信号即第一声音时域信号，对该第一声音时域信号中的噪声增益进行估计，得到每个第一声音时域信号的噪声估计值。

具体将所述频域相干性数据作为平滑数据，基于M个第二声音时域信号中目标声音时域信号对应的噪声估计值，对该第一声音时域信号对应的噪声值进行平滑处理，得到该第一声音时域信号对应的噪声估计值。这样，若两个通道的信号对应的噪声值不同即风噪大小不同，得到的噪声估计值也会不同。

之后，根据两个通道的信号对应的噪声估计值不同，可以计算得到不同的风噪抑制增益，得到两通道分别进行噪声如风噪抑制处理后的输出信号，如此在有效抑制瞬态噪声如风噪的同时，还可以保持双通道信号的空间特性和立体声效果。

可选地，所述步骤104具体包括：

在所述声音类型表征所述M个第一声音时域信号中存在语音的情况下，对所述频域相干性数据在N个频点上进行线性修正，得到所述M个第一声音时域信号在所述N个频点上的频域相干性修正数据；

基于所述频域相干性修正数据，采用目标函数，确定所述M个第一声音时域信号的噪声抑制增益；

基于所述M个第一声音时域信号的噪声抑制增益，对所述M个第一声音时域信号中存在的所述目标噪声进行抑制；

其中，所述N个频点为所述M个第一声音时域信号对应的频域信号的频点，N为大于1的整数，所述频点上的频域相干性修正数据的修正值与所述频点的频率值正相关。

本实施方式限定的是对于M个麦克风对应的数字信号中针对存在瞬态噪声如风噪和语音的帧的噪声抑制过程，若第一声音时域信号中同时包括语音和瞬态噪声，可以采用多个信号的相干性，来对瞬态噪声如风噪进行抑制，如图2所示。

具体地，由于浊音信号(包括瞬态噪声的信号)谐波大多集中在4kHz以下，而高频很少会有瞬态噪声如风噪存在，因此，低频相对于高频来说，其相干性通常会比较弱。

利用瞬态噪声如风噪能量在整个频段内的分布随着频率值增大而递减，且瞬态噪声能量主要集中在低频段的特性，对频域相干性数据在整个频段内做线性修正。

以两个麦克风为例，采用公式MSC_X1X2_fix(n，f)＝MSC_X1X2(n，f)+f*stride，来对频域相干性数据进行线性修正。其中，MSC_X1X2_fix(n，f)为第f个频点的频域相干性修正参数值，且N个频点的频域相干性修正参数值即可以构成频域相干性修正数据，stride是MSC修正的步长，通常设置为比较小的固定值，取值范围可以为(0，1/N)。其中，N可以根据STFT变换时的参数来确定，为大于1的正整数，在一可选实施方式中，N可以为256。

从该公式可以看出，频点的频率值越小，该频点上的频域相干性修正参数值对应的修正值则越小，频点的频率值越大，该频点上的频域相干性修正参数值对应的修正值则越大，即频点上的频域相干性修正数据的修正值与该频点的频率值正相关。

之后，可以基于频域相干性修正数据，采用目标函数，确定M个第一声音时域信号的噪声抑制增益。其中，该目标函数可以利用瞬态噪声如风噪能量在整个频段内的分布随着频率值增大而递减的特性，当频点的频率值越小时，频域相干性修正参数值越小，所确定的该频点上的噪声抑制增益则越大，而当频点的频率值越大时，频域相干性修正参数值越大，所确定的该频点上的噪声抑制增益则越小。

所述目标函数可以为S函数或者与S函数同类性质的函数，这里不进行具体限定。

以两个麦克风为例，利用S函数，计算得到第一声音时域信号的风噪抑制增益，公式为WNS_G(n，f)＝1/(1+exp(-(MSC_X1X2_fix(n，f)-0.5)/r。其中，WNS_G(n，f)表示第一声音时域信号在第f个频点上的噪声抑制增益，r取值范围通常为2至10之间，用来控制风噪抑制增益随频域相干性修正参数值的变化的平滑度，r取值越小，风噪抑制增益越接近于阶跃突变，r取值较大，可以实现风噪抑制增益的平滑渐变，风噪抑制增益和频域相干性修正参数值的关系如图3所示。

本实施方式中，利用瞬态噪声如风噪的性质进行频域相干性数据的修正，得到频域相干性修正数据，使用S函数，基于频域相干性修正数据，来计算得到最终的风噪抑制增益，这样，可以使得高频段的语音的信号保留的更完整，而可以对低频段的瞬态噪声如风噪进行有效抑制。

并且，通过S函数的映射能够实现瞬态噪声如风噪在频点间的平滑抑制，频域相关性小的被认为是瞬态噪声如风噪，进行有效抑制，最大抑制可达到60dB；而频域相关性大的认为是语音，增益接近于1，从而能有效地保留语音。

需要说明的是，本申请实施例提供的噪声抑制方法，执行主体可以为噪声抑制装置，或者该噪声抑制装置中的用于执行噪声抑制方法的控制模块。本申请实施例中以噪声抑制装置执行噪声抑制方法为例，说明本申请实施例提供的噪声抑制装置。

参见图4，图4是本申请实施例提供的噪声抑制装置的结构图，如图4所示，噪声抑制装置400包括：

分帧加窗处理模块401，用于对M个麦克风对应的数字信号进行分帧加窗处理，得到与所述M个麦克风一一对应的M个第一声音时域信号，M为大于1的整数；

相干性计算模块402，用于对所述M个第一声音时域信号进行相干性计算，得到所述M个第一声音时域信号对应的频域相干性数据；

第一确定模块403，用于在基于所述频域相干性数据确定所述M个第一声音时域信号中存在目标噪声的情况下，确定所述M个第一声音时域信号的声音类型，所述声音类型用于表征所述M个第一声音时域信号中是否存在语音，所述目标噪声为持续时间小于第一预设阈值的噪声；

噪声抑制处理模块404，用于基于所述声音类型，对所述M个第一声音时域信号中存在的所述目标噪声进行抑制处理。

可选地，所述频域相干性数据包括所述M个第一声音时域信号在N个频点中每个频点上的频域相干性参数值，所述N个频点为所述M个第一声音时域信号对应的频域信号的频点，N为大于1的整数；所述装置还包括：

获取模块，用于获取所述频域相干性数据中K个目标频点上的频域相干性参数值，所述K个目标频点为所述N个频点按照频率值从小到大的顺序排列的序列中排列在前的K个频点，K为小于N的正整数；

第二确定模块，用于确定所述K个目标频点上的频域相干性参数值的目标值，所述目标值包括平均值和中位值中的至少一项；

第三确定模块，用于在所述目标值小于第二预设阈值的情况下，确定所述M个第一声音时域信号中存在所述目标噪声。

可选地，所述噪声抑制处理模块404包括：

第一确定单元，用于在所述声音类型表征所述M个第一声音时域信号中不存在语音的情况下，将所述频域相干性数据作为平滑系数；

平滑处理单元，用于基于M个第二声音时域信号对应的噪声估计值对所述M个第一声音时域信号对应的噪声值进行平滑处理，得到所述M个第一声音时域信号对应的噪声估计值；

第二确定单元，用于基于所述M个第一声音时域信号对应的噪声估计值，确定所述M个第一声音时域信号的噪声抑制增益；

第一噪声抑制处理单元，用于基于所述M个第一声音时域信号的噪声抑制增益，对所述M个第一声音时域信号中存在的所述目标噪声进行抑制处理；

可选地，所述第一确定单元，具体用于针对每个第一声音时域信号，将所述频域相干性数据作为平滑系数；

所述平滑处理单元，具体用于基于目标声音时域信号对应的噪声估计值，对所述第一声音时域信号对应的噪声值进行平滑处理，得到所述第一声音时域信号对应的噪声估计值；

可选地，所述噪声抑制处理模块404包括：

修正单元，用于在所述声音类型表征所述M个第一声音时域信号中存在语音的情况下，对所述频域相干性数据在N个频点上进行线性修正，得到所述M个第一声音时域信号在所述N个频点上的频域相干性修正数据；

第三确定单元，用于基于所述频域相干性修正数据，采用目标函数，确定所述M个第一声音时域信号的噪声抑制增益；

第二噪声抑制处理单元，用于基于所述M个第一声音时域信号的噪声抑制增益，对所述M个第一声音时域信号中存在的所述目标噪声进行抑制处理；

本申请实施例中的噪声抑制装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的噪声抑制装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的噪声抑制装置能够实现图1至图3的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图5所示，本申请实施例还提供一种电子设备500，包括处理器501，存储器502，存储在存储器502上并可在所述处理器501上运行的程序或指令，该程序或指令被处理器501执行时实现上述噪声抑制方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图6为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备600包括但不限于：射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、以及处理器610等部件。

本领域技术人员可以理解，电子设备600还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器610逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图6中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器610，用于：

处理器610，还用于：

可选地，处理器610，还用于：

应理解的是，本申请实施例中，输入单元604可以包括图形处理器(GraphicsProcessing Unit，GPU)6041和麦克风6042，图形处理器6041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元606可包括显示面板6061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板6061。用户输入单元607包括触控面板6071以及其他输入设备6072。触控面板6071，也称为触摸屏。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器609可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器610可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器610中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述噪声抑制方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述噪声抑制方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种噪声抑制方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述频域相干性数据包括所述M个第一声音时域信号在N个频点中每个频点上的频域相干性参数值，所述N个频点为所述M个第一声音时域信号对应的频域信号的频点，N为大于1的整数；

所述对所述M个第一声音时域信号进行相干性计算，得到所述M个第一声音时域信号对应的频域相干性数据之后，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述声音类型，对所述M个第一声音时域信号中存在的所述目标噪声进行抑制处理，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述频域相干性数据作为平滑系数，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述声音类型，对所述M个声音时域信号中存在的所述目标噪声进行抑制处理，包括：

6.一种噪声抑制装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述频域相干性数据包括所述M个第一声音时域信号在N个频点中每个频点上的频域相干性参数值，所述N个频点为所述M个第一声音时域信号对应的频域信号的频点，N为大于1的整数；所述装置还包括：

8.根据权利要求6所述的装置，其特征在于，所述噪声抑制处理模块包括：

平滑处理单元，用于基于M个第二声音时域信号对应的噪声估计值，对所述M个第一声音时域信号对应的噪声值进行平滑处理，得到所述M个第一声音时域信号对应的噪声估计值；

9.根据权利要求8所述的装置，其特征在于，所述第一确定单元，具体用于针对每个第一声音时域信号，将所述频域相干性数据作为平滑系数；

10.根据权利要求6所述的装置，其特征在于，所述噪声抑制处理模块包括：

11.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-5任一项所述的噪声抑制方法的步骤。

12.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-5任一项所述的噪声抑制方法的步骤。