CN113539290A

CN113539290A - 语音降噪方法和装置

Info

Publication number: CN113539290A
Application number: CN202010322987.4A
Authority: CN
Inventors: 廖猛; 范泛; 陈伟宾; 吴超
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2021-10-22
Anticipated expiration: 2040-04-22
Also published as: CN113539290B

Abstract

本申请提供了一种语音降噪的方法和装置，该方法包括：获取M个第一语音频谱信号；对该M个第一语音频谱信号进行第一滤波降噪处理，得到M个第一降噪信号；根据该M个第一降噪信号中的每个第一降噪信号，确定第一掩码信息，该第一掩码信息用于表示该每个第一降噪信号中包括的多个频点中的每个频点属于第一目标频点的概率值，该第一目标频点包括预设的第一目标语音的频谱信号中包括的频点；根据该第一掩码信息，对该M个第一语音频谱信号进行第二滤波降噪处理，得到M个第二降噪信号，该M个第二降噪信号用于识别该第一语音中是否包含该第一目标语音。采用本申请提供的语音降噪方法和装置，能够提高语音信号的信噪比，从而提高语音识别的精确性。

Description

语音降噪方法和装置

技术领域

本申请涉及音频处理技术领域，并且更具体地，涉及音频处理技术领域中的语音降噪方法和装置。

背景技术

随着人工智能的发展，人机交互在移动设备或者穿戴设备(如平板、手机)上使用已经相当广泛，越来越多的人使用语音交互。语音唤醒和语音识别技术是实现语音交互的关键技术。

当前，语音唤醒和语音识别技术在高信噪比下已经有非常好的性能，但是在强嘈杂环境下，比如电视噪声和音乐噪声等，唤醒率和识别率较低，语音交互体验受到严重影响。

因此，如何提高语音信号的信噪比，从而提高语音交互体验成为亟待解决的问题。

发明内容

本申请提供一种语音降噪方法和装置，能够提高语音信号的信噪比，从而提高语音识别的精确性。

第一方面，本申请实施例提供一种语音降噪方法，该方法包括：获取M个第一语音频谱信号，所述M个第一语音频谱信号是通过N个麦克风对用户的第一语音进行采集得到的，M和N均为大于1的整数，且N大于或等于M；对所述M个第一语音频谱信号进行第一滤波降噪处理，得到M个第一降噪信号；根据所述M个第一降噪信号中的每个第一降噪信号，确定第一掩码信息，所述第一掩码信息用于表示所述每个第一降噪信号中包括的多个频点中的每个频点属于第一目标频点的概率值，所述第一目标频点包括预设的第一目标语音的频谱信号中包括的频点；根据所述第一掩码信息，对所述M个第一语音频谱信号进行第二滤波降噪处理，得到M个第二降噪信号，所述M个第二降噪信号用于识别所述第一语音中是否包含所述第一目标语音。

本申请实施例采用平行的滤波降噪结构，第一次滤波降噪能够初步增强该M个第一降噪信号中包含的该第一目标语音，并通过该M个第一降噪信号得到频点级的第一掩码信息。第二次滤波降噪通过频点级的第一掩码信息进行控制，一方面能够实现嘈杂环境下相干噪声的精确抑制，从而增强该M个第二降噪信号中包含的第一目标语音，以提高第一目标语音的识别率。

需要说明的是，所述信号采集装置可以包括麦克风阵列，所述麦克风阵列中包括所述 N个麦克风。

可选地，所述N个麦克风可以采用多种阵型布局，例如，该N个麦克风可以呈“直线”阵型布局，或该N个麦克风可以呈“三角形”阵型布局，或该N个麦克风可以呈“多边形”阵型布局，或该N个麦克风可以呈不规则阵型布局，本申请实施例对此不作限定。

需要说明的是，无论麦克风阵列中的N个麦克风采用什么样的阵型布局，一旦该麦克风阵列确定，那么，该麦克风阵列中包括的麦克风数量、每个麦克风的位置、任意两个麦克风之间的距离等与该麦克风阵列相关的参数均可以确定。

可选地，所述语音降噪装置可以通过多种方式获取所述M个第一语音频谱信号，本申请实施例对此不作限定。

在第一种可能的实现方式中，所述语音降噪装置可以接收信号采集装置采集的N个第二语音信号；对所述N个第二语音信号中的每个第二语音信号进行频域转换，得到N个第二语音频谱信号；对所N个第二语音频谱信号进行第一处理，得到所述M个第一语音频谱信号，其中，所述第一处理可以包括波达方向(direction of arrival，DOA)处理或波束成形(beam forming，BF)处理。

需要说明的是，在本申请实施例中，对第二语音信号进行频域转换，可以理解为对所述第二语音信号进行频点数为T的快速傅氏变换(fast Fourier transformation，FFT)，得到所述第二语音频谱信号，T为大于1的整数，所述第二语音频谱信号用于表示所述T个频点和所述T个频点中每个频点处的幅值之间的映射关系。

可选地，所述第一处理包括DOA处理或BF处理，可以理解为：所述第一处理包括所述DOA处理，或所述第一处理包括所述BF处理，或所述第一处理包括所述DOA处理和所述BF处理。

在第二种可能的实现方式中，所述语音降噪装置可以接收所述信号采集装置采集的N 个第一语音信号；对所述N个第一语音信号进行频域转换，得到所述M个第一语音频谱信号。

需要说明的是，在本申请实施例中，对第一语音信号进行频域转换，可以理解为对所述第一语音信号进行频点数为T的FFT，得到所述第一语音频谱信号，该第一语音频谱信号用于表示所述T个频点和所述T个频点中每个频点处的幅值之间的映射关系。

可选地，当N>M时所述语音降噪装置可以通过上述第一种可能的实现方式获取所述 M个第一语音频谱信号；当N＝M(例如：N和M均取值为2、3)时，所述语音降噪装置可以通过上述第二种可能的实现方式获取所述M个第一语音频谱信号。

例如：N取值为4、5……，M取值为2时，所述语音降噪装置可以通过上述第一种可能的实现方式获取所述M个第一语音频谱信号。

又例如：N和M均取值为2或3时，所述语音降噪装置可以通过上述第二种可能的实现方式获取所述M个第一语音频谱信号。

需要说明的是，所述语音降噪装置可以包括第一滤波器，本申请实施例中所述的第一滤波降噪处理可以理解为通过所述第一滤波器进行的滤波降噪处理。

在一种可能的实现方式中，所述第一滤波器可以为第一自适应滤波器，对应的，所述第一滤波降噪处理可以为第一自适应滤波降噪处理。

需要说明的是，自适应滤波器是指根据环境的改变，使用自适应算法来改变滤波器的参数和结构的滤波器。一般情况下，不改变自适应滤波器的结构。而自适应滤波器的系数是由自适应算法更新的时变系数。即其系数自动连续地适应于给定信号，以获得期望响应。自适应滤波器的最重要的特征就在于它能够在未知环境中有效工作，并能够跟踪输入信号的时变特征。

可选地，所述语音降噪装置可以采用多种自适应算法对所述M个第一语音频谱信号进行第一滤波降噪处理，本申请实施例对此不作限定。

在第一种可能的实现方式中，所述语音降噪装置可以采用实时自适应算法对所述M 个第一语音频谱信号进行第一滤波降噪处理。

例如：当N>M时，采用实时自适应算法对所述M个第一语音频谱信号进行第一滤波降噪处理。

需要说明的是，在麦克风数量较多的情况下，对麦克风阵列采集得到的N个第二语音频谱信号进行通过第一处理得到M个第一语音频谱信号，能够区分出M个第一语音频谱信号中的目标波束和干扰波束，且对目标波束中的干扰信号以及干扰波束中的目标信号都具有一定的抑制作用。因此，根据干扰波束对目标波束进行实时滤波，一方面能够滤除目标波束中的干扰信号，另一方面对目标波束的损伤不大。

在第二种可能的实现方式中，所述语音降噪装置可以采用延时自适应算法对所述M 个第一语音频谱信号进行第一滤波降噪处理。

例如：当N＝M时，采用延迟自适应算法对所述M个第一语音频谱信号进行第一滤波降噪处理。

需要说明的是，在麦克风数量较少的情况下，无需对麦克风阵列采集得到的M个第一语音频谱信号进行第一处理，每个麦克风采集得到的第一语音频谱信号中包含的目标信号和干扰信号的成分较接近。如果采用实时自适应算法对所述M个第一语音频谱信号进行第一滤波降噪处理，则可能由于分不清目标信号和干扰信号，导致同时滤除掉目标信号和干扰信号的情况。因此，采用延迟自适应算法对所述M个第一语音频谱信号进行第一滤波降噪处理，通过历史帧对当前帧进行滤波处理，能够避免由于分不清目标信号和干扰信号，导致同时滤除目标信号和干扰信号的情况。

需要说明的是，第一语音信号频谱信号通常可以被切分为一段一段的，并依次逐段地进行处理，其中，一段可以理解为一个时间单位。

例如：上述一段或一个时间单位可以为帧。其中，1帧可以为10～50ms。

在一种可能的实现方式中，所述语音降噪装置可以逐帧对所述M个第一语音频谱信号进行第一自适应滤波降噪处理，得到每帧对应的多个子第一降噪信号；将所述每帧对应的多个子第一降噪信号按照帧序列排序，得到所述M个第一降噪信号。

也就是说，所述语音降噪装置可以对所述M个第一语音频谱信号中与所述每帧对应的多个子第一语音频谱信号进行第一自适应滤波降噪处理，得到所述每帧对应的多个第一子降噪信号。

例如：以每个第一语音频谱信号包括W帧为例，所述M个第一语音频谱信号中第i-1个第一语音频谱信号中与第K帧对应的是第i-1个子第一语音频谱信号，第i个第一语音频谱信号中与所述第K帧对应的是第i个子第一语音频谱信号，第i+1个第一语音频谱信号中与所述第K帧对应的是第i+1个子第一语音频谱信号，同理地，可以得到所述第K 帧对应的M个子第一语音频谱信号，其中，W为大于0的整数，i为大于0且小于M的整数，K为大于0且小于W的整数。

相应地，对第i-1个子第一语音频谱信号进行第一自适应滤波降噪处理，得到第i-1 个子第一降噪信号，对第i个子第一语音频谱信号进行第一自适应滤波降噪处理，得到第i个子第一降噪信号，对第i+1个子第一语音频谱信号进行第一自适应滤波降噪处理，得到第i+1个子第一降噪信号，同理地，可以得到所述第K帧对应的M个子第一降噪信号。

综上所述，通过与上述第K帧类似的处理方法，可以得到所述N帧中的每帧对应的M个子第一降噪信号，将所述每帧对应的M个子第一降噪信号按照帧序列排序，可以得到M个第一降噪信号。

采用本申请实施例提供的语音降噪方法，对所述M个第一语音频谱信号进行第一滤波降噪处理，得到M个第一降噪信号，能够抑制相干噪声，例如：电视机、音箱、人声干扰等噪声，从而能够提升所述M个第一语音频谱信号中所述第一语音的信噪比。

需要说明的是，所述第一目标语音的频谱信号是通过对所述第一目标语音的语音信号进行频域转换得到的，所述第一目标频点包括所述第一目标语音的频谱信号中包括的多个频点。

还需要说明的是，若所述第一掩码信息表示某个频点属于所述第一目标频点的概率值大于预设的概率阈值，则可以认为所述频点属于所述第一目标频点。

还需要说明的是，所述语音降噪装置需要在出厂时配置所述第一目标语音。

可选地，所述语音降噪装置可以通过多种方式，根据所述M个第一降噪信号中的每个第一降噪信号，确定所述第一掩码信息，本申请实施例对此不作限定。

在一种可能的实现方式中，所述语音降噪装置可以将所述M个第一降噪信号中每个第一降噪信号的频谱特征信息输入第一神经网络模型，得到所述第一掩码信息，所述每个第一降噪信号的频谱特征信息用于表示所述每个第一降噪信号的频谱分布特征。

其中，所述第一神经网络模型是根据第一训练数据样本集训练得到的，所述第一训练数据样本集中包括至少一个第一样本数据组，所述至少一个第一样本数据组中的每个第一样本数据组包括第一样本语音频谱信号的频谱特征信息和与所述第一样本语音频谱信号对应的第二样本语音频谱信号的频谱特征信息，所述第一样本语音频谱信号包括所述第一目标语音，所述第二样本语音频谱信号包括所述第一样本语音频谱信号和噪声。

需要说明的是，上述第一样本语音频谱信号是对麦克风采集的第一样本语音信号进行频域转换得到的，所述第一样本语音信号包含第一目标语音，但不包含噪声。

也就是说，所述第一样本语音频谱信号为纯净的样本语音频谱信号。

还需要说明的是，上述第二样本语音频谱信号是对麦克风采集的第二样本语音信号进行频域转换得到的，所述第二样本语音信号包含第一目标语音，且包含电视、音箱、人声等噪声。

也就是说，所述第二样本语音频谱信号为与所述第一样本语音频谱信号对应的带噪声样本语音频谱信号。

可选地，属于不同的第一样本数据组的第二样本语音频谱信号中包含的噪声可以不同，属于不同的第一样本数据组中包含的第一目标语音可以属于不同的样本用户，这样可以提高所述第一神经网络模型训练的精确性。

可选地，所述每个第一降噪信号的频谱特征信息可以通过多种方式表示所述每个第一降噪信号的频谱分布特征，本申请实施例对此不作限定。

在一种可能的实现方式中，所述每个第一降噪信号的频谱特征信息可以为所述每个第一降噪信号的频谱。

在另一种可能的实现方式中，所述每个第一降噪信号的频谱特征信息可以为所述每个第一降噪信号的子带对数功率谱。

可选地，在将所述每个第一降噪信号的频谱特征信息输入第一神经网络模型，得到所述掩码信息之前，所述语音降噪装置需要先获取所述第一神经网络模型。

可选地，所述语音降噪装置可以通过多种方式获取所述第一神经网络模型，本申请实施例对此不作限定。

在第一种可能的实现方式中，所述语音降噪装置可以在出厂时配置所述第一神经网络模型。

在第二种可能的实现方式中，所述语音降噪装置可以接收其它装置发送的所述第一神经网络模型。其中，所述其它装置可以理解为除所述语音降噪装置外任何具有所述第一神经网络模型的装置。

可选地，所述服务器可以为本地服务器或者云端的服务器，本申请实施例对此不作限定。

可选地，所述语音降噪装置可以通过多种方式接收所述服务器发送的所述第一神经网络模型，本申请实施例对此不作限定。

也就是说，服务器侧可以负责训练和维护所述第一神经网络模型，当所述语音降噪装置需要所述第一神经网络模型时，可以向服务器请求所述第一神经网络模型。

又例如：所述语音降噪装置可以周期性接收所述服务器发送的所述第一神经网络模型。

也就是说，服务器侧可以负责训练和维护所述第一神经网络模型，并周期性向服务器推送所述第一神经网络模型或更新所述第一神经网络模型。

在第三种可能的实现方式中，所述语音降噪装置可以自己根据上述第一训练数据样本集训练得到所述第一神经网络模型。

可选地，所述语音降噪装置可以将所述M个第一降噪信号逐帧输入所述第一神经网络模型，得到每帧对应的多个子第一降噪信号的掩码信息，所述多个子第一降噪信号的掩码信息用于表示所述每个子第一降噪信号包括的多个频点中每个频点属于所述第一目标频点的概率值；将所述每帧对应的多个子第一降噪信号的掩码信息按照帧序列排列，得到所述第一掩码信息。

本申请实施例提供的语音降噪方法，使用DNN网络对第一目标语音的频谱信号中包括的频点进行建模得到第一神经网络模型，该第一神经网络模型能够估计出第一目标语音区别于其它语音内容的频点级的第一掩码信息。

可选地，在所述语音降噪装置确定出所述第一掩码信息之后，还可以对所述第一掩码信息进行修正。

在一种可能的实现方式中，所述语音降噪装置可以将所述M个第一降噪信号输入语音识别系统，例如：关键词检出系统，得到识别结果，所述识别结果用于表示所述每个第一降噪信号中包括的每帧属于第一目标帧的概率值，所述第一目标帧包括所述第一目标语音的频谱信号中包括的每一帧；根据所述识别结果，对所述第一掩码信息进行修正。

可选地，所述语言降噪装置可以通过多种方式根据所述识别结果，对所述第一掩码信息进行修正，本申请实施例对此不作限定。

在一种可能的实现方式中，当所述识别结果表示所述M个第一降噪信号中的第一目标降噪信号的第一帧属于所述第一目标帧的概率值小于预设的第一概率阈值时，将所述第一掩码信息中所述第一目标降噪信号的所述第一帧包括的每个频点属于所述第一目标频点的概率值均修正为0，其中，所述第一帧为所述第一目标降噪信号的任意一帧。

在另一种可能的实现方式中，当所述识别结果表示所述第一目标降噪信号的第一帧属于所述第一目标帧的概率值大于或等于所述第一概率阈值时，可以保持所述第一掩码信息中所述第一帧包括的每个频点属于所述第一目标频点的概率值不变。

需要说明的是，所述语音识别系统可以为现有的语音识别系统，例如：现有的KWS系统。

需要说明的是，所述语音降噪装置可以参考上述第一神经网络模型的获取方式获取所述第二神经网络模型，为避免重复，此处不再赘述。

还需要说明的是，所述第一神经网络模型和所述第二神经网络模型的区别为：所述第一神经网络模型输出的第一掩码信息是频点级的，所述第二神经网络模型输出的识别结果是帧级的。例如：所述第一神经网络模型和所述第二神经网络模型都可以通过对所述第一训练数据样本集进行训练得到，但是两个模型的损失函数不同，从而第一神经网络模型的输出是频点级的，所述第二神经网络模型输出是帧级的。

采用本申请实施例提供的语音降噪方法，结合所述第二神经网络模型的识别结果，对第一掩码信息进行修正，能够进一步提高第一掩码信息的精确性。

需要说明的是，所述语音降噪装置可以包括第二滤波器，所述第二滤波降噪处理可以理解为通过所述第二滤波器进行的滤波降噪处理。

在一种可能的实现方式中，所述第二滤波器可以为第二滤波器，本申请实施例中所述的第二滤波降噪处理可以理解为通过所述第二滤波器进行的滤波降噪处理。

在一种可能的实现方式中，所述第二滤波器可以为第二自适应滤波器，对应的，所述第二滤波降噪处理可以为第二自适应滤波降噪处理。

在第一种可能的实现方式中，所述语音降噪装置可以采用延时自适应算法对所述M 个第一语音频谱信号进行第二滤波降噪处理。

在第二种可能的实现方式中，所述语音降噪装置可以采用实时自适应算法对所述M 个第一语音频谱信号进行第二滤波降噪处理。

可选地，所述语音降噪装置可以逐帧对所述M个第一语音频谱信号进行第二自适应滤波降噪处理，得到每帧对应的多个子第二降噪信号；将所述每帧对应的多个子第二降噪信号按照帧序列排序，得到所述M个第二降噪信号。

可选地，所述语音降噪装置可以根据所述第一掩码信息，对所述M个第一降噪信号中的每个第一降噪信号逐帧进行第二滤波降噪处理，得到每帧对应的多个第二子降噪信号；将所述每帧对应的多个第二子降噪信号按照帧序列进行排序，得到所述M个第二降噪信号。

可选地，所述方法还包括：所述语音降噪装置将所述M个第二降噪信号发送至语音识别装置，所述语音识别装置根据所述M个第二降噪信号对所述第一语音进行语音识别，以确定所述第一语音中是否包含所述第一目标语音。

需要说明的是，采用本申请实施例提供的语音降噪方法，通过第一掩码信息监督控制对所述多个第一语音信号的频谱信号进行第二滤波降噪处理，能够在不损伤第一目标语音的基础上，进一步提升降噪的精确性，因此，根据M个第二降噪信号对所述第一语音进行语音识别，能够提高语音识别的准确率。

也就是说，结合第一掩码信息控制第二次滤波所使用的滤波系数更新，能够进行精确的相干噪声的降噪。

可选地，当根据所述M个第二降噪信号对所述第一语音进行识别，确定所述第一语音中包含所述第一目标语音时，所述方法还包括：所述语音降噪装置获取M个第三语音频谱信号，所述M个第三语音频谱信号是通过所述N个麦克风对所述用户的第二语音进行采集得到的；根据所述第二滤波降噪处理所使用的滤波系数，对所述M个第三语音频谱信号进行第三滤波降噪处理，得到M个第三降噪信号；根据M个第二目标降噪信号，对所述M个第三降噪信号进行降噪，得到第四降噪信号，所述第四降噪信号用于识别所述第二语音中是否包含预设的第二目标语音，所述M个第二目标降噪信号为所述M个第二降噪信号中与所述第一目标语音对应的部分。

需要说明的是，所述语音降噪装置可以逐帧对所述第三语音频谱信号进行所述第三滤波降噪处理，得到所述第四降噪信号；所述语音降噪信号可以根据所述第二目标降噪信号，对所述M个第三降噪信号逐帧进行降噪，得到所述第四降噪信号。

可选地，所述语音降噪装置可以通过多种方式根据所述M个第二降噪信号，确定所述第一语音中是否包含所述第一目标语音，本申请实施例对此不作限定。

在一种可能的实现方式中，所述语音降噪装置可以包括缓存，所述语音降噪装置可以按照先入先出的原则，逐帧保存所述M个第二降噪信号和所述第一掩码信息。

也就是说，所述缓存中存储有至少一帧对应的目标掩码信息和所述至少一帧对应的M 个第二目标降噪信号。

相应地，所述语音降噪装置可以根据所述目标掩码信息，确定所述M个第二目标降噪信号中每个第二目标降噪信号的掩码值，所述每个第二目标降噪信号的掩码值为所述每个第二目标降噪信号包括的多个频点中每个频点属于所述第一目标频点的概率值之和，且所述每个第二目标降噪信号的掩码值越大，从所述每个第二目标降噪信号中识别出所述第一目标语音的概率越大；根据所述M个第二目标降噪信号中每个第二目标降噪信号的掩码值，确定所述第一语音中是否包含所述第一目标语音。

需要说明的是，所述语音降噪装置根据所述第二滤波降噪处理所使用的滤波系数，对所述M个第三语音频谱信号进行第三滤波降噪处理，得到M个第三降噪信号，可以理解为：当从所述第一语音中识别出所述第一目标语音时，所述语音降噪装置可以保存对所述缓存中存储的最后一帧进行所述第二滤波降噪处理所使用的滤波系数，对所述M个第三语音频谱信号进行第三滤波降噪处理，得到所述M个第三降噪信号。

采用本申请实施例提供的语音降噪方法，所述语音降噪装置结合第一掩码信息控制第二滤波器所使用的滤波系数的更新，能够进行精确的相干噪声的降噪，因此，所述语音降噪装置可以采用检测出所述第一目标语音时所述第二滤波器所使用的滤波系数，控制后续语音识别阶段的降噪过程，从而能够提高嘈杂环境下相干噪声的精确抑制。

可选地，所述语音降噪装置可以通过多种方式，根据所述M个第二目标降噪信号，对所述M个第三降噪信号进行降噪，得到第四降噪信号，本申请实施例对此不作限定。

在第一种可能的实现方式中，所述语音降噪装置可以从所述M个第二目标降噪信号中确定出第二参考降噪信号，所述第二参考降噪信号为所述M个第二目标降噪信号中识别出所述第一目标语音的概率最大的第二目标降噪信号；根据所述第二参考降噪信号从所述M个第三降噪信号中确定出第三参考降噪信号；根据所述第二参考降噪信号，对所述第三参考降噪信号进行降噪，得到所述第四降噪信号。

在第二种可能的实现方式中，所述语音降噪装置可以从所述M个第二目标降噪信号中确定出第二参考降噪信号，所述第二参考降噪信号为所述M个第二目标降噪信号中识别出所述第一目标语音的概率最大的第二目标降噪信号；根据所述每个第二降噪信号与所述第二参考降噪信号之间的相似度，确定所述每个第二降噪信号的加权值；根据所述M 个第二降噪信号中每个第二降噪信号的加权值，对所述M个第二降噪信号进行加权，得到第一加权降噪信号；根据所述M个第二降噪信号中每个第二降噪信号的加权值，对所述M个第三降噪信号进行加权，得到第二加权降噪信号；根据所述第一加权降噪信号，对所述第二加权降噪信号进行降噪，得到所述第四降噪信号。

可选地，所述语音降噪装置可以通过多种方式从所述M个第二目标降噪信号中确定出第二参考降噪信号，本申请实施例对此不作限定。

在一种可能的实现方式中，所述语音降噪装置可以确定所述每个第二目标降噪信号包括的多个频点中每个频点属于所述第一目标语音的概率值之和；将所述M个第二目标降噪信号中掩码值最大的第二目标降噪信号确定为所述第二参考降噪信号。

需要说明的是，由于掩码值越高的第二目标降噪信号对应的加权值越大，即对所述M 个第二目标降噪信号进行基于注意力机制的加权融合，既能够充分利用掩码值最高的第二目标降噪信号，也能够在M个第二目标降噪信号间相关性较强时综合利用所述M个第二目标降噪信号。因此，基于所述注意力机制对M个第二目标降噪信号进行加权得到所述第一加权降噪信号，能够有效增强所述第一目标语音。

还需要说明的是，由于M个第三降噪信号和M个第二目标降噪信号一一对应，也就是说，每个第二目标降噪信号和与所述每个第二目标降噪信号对应的第三降噪信号可以为同一个麦克风采集得到的，或属于同一个声源方向，因此，每个第三降噪信号都采用与所述每个第三降噪信号对应的第二目标降噪信号的权值进行加权，同样能够达到增强上述对 M个第二目标降噪信号进行基于注意力机制的加权融合的效果。

进一步，当确定所述第一语音中包括所述第一目标语音时，可以结合所述第一加权降噪信号的特征信息，对第二加权降噪信号进行降噪，这样就能够对所述第二加权降噪信号中具有所述特征信息的用户所说的第二目标语音进行针对性增强，同时能够达到抑制其他信号的目的。

可选地，所述语音降噪装置可以通过多种方式，根据所述第一加权降噪信号，对所述第二加权降噪信号进行降噪，得到所述第四降噪信号，本申请实施例对此不作限定。

在一种可能的实现方式中，所述语音降噪装置可以确定所述第一加权降噪信号的特征信息，所述特征信息包括所述用户的声纹特征或位置特征；根据所述第一加权降噪信号的特征信息，对所述第二加权降噪信号进行降噪，得到所述第四降噪信号。

例如：以所述特征信息为用户的声纹特征为例，所述语音降噪信号可以将所述第一加权降噪信号的特征信息、所述第二加权降噪信号的特征信息和所述第二加权降噪信号进行拼接，得到拼接信号；将所述拼接信号输入第三神经网络模型，得到第二掩码信息，所述第二掩码信息用于表示所述第二加权降噪信号包括的多个频点中每个频点属于第二目标频点的概率值，所述第二目标频点包括所述第二目标语音的频谱信号中包括的频点；根据所述第二掩码信息，对所述第二加权降噪信号进行降噪，得到所述第四降噪信号。

又例如：以所述特征信息为用户的声源方向特征为例，所述语音降噪装置可以确定所述M个第二目标降噪信号中的所述第二参考降噪信号对应的声源方向相对于所述M个第三语音频谱信号中的至少两个第三语音频谱信号的声源方向特征；将所述声源方向特征和所述第二加权降噪信号进行拼接，得到拼接信号；将所述拼接信号输入第四神经网络模型，得到第三掩码信息，所述第三掩码信息用于表示所述第二加权降噪信号中包括的多个频点中每个频点属于所述第二目标频点的概率值；根据所述第三掩码信息，对所述第二加权降噪信号进行降噪，得到所述第四降噪信号。

可选地，本申请实施例中所述的第一目标语音或第二目标语音可以为出厂时为所述语音降噪装置配置的一个词或者一句话，本申请实施例对此不作限定。

在一种可能的实现方式中，所述第一目标语音可以为用于唤醒终端的唤醒词，所述第二目标语音可以为用于控制终端执行相应操作的控制指令。

例如：所述第一目标语音为唤醒词“小A，小A”，所述第二目标语音为控制指令“请播放《小猪佩奇》”。

在另一种可能的实现方式中，所述第一目标语音可以为用于控制终端执行相应操作的第一控制指令，所述第二目标语音可以为用于控制终端执行相应操作的第二控制指令。

例如：所述第一目标语音为第一控制指令“请播放下一曲”，所述第二目标语音为第二控制指令“请提高音量”。

需要说明的是，现有的智能终端在每个新用户使用前，都需要先对该新用户进行离线注册，即智能终端需要预先获取与该新用户相关的特征信息，注册之后，该新用户才能正常的与该智能终端进行语音交互，而对于没有注册的新用户则无法使用该智能终端。

然而，以本申请实施例提供的所述语音降噪装置集成在智能终端中为例，当所述第一目标语音为唤醒词、所述第二目标语音为控制指令时，所述语音降噪装置在语音唤醒词识别阶段识别采集的语音信号中是否包含预设的所述唤醒词，当识别出用户的唤醒词时，唤醒所述智能终端，即对该用户进行在线注册，并在语音控制指令识别阶段识别采集的语音信号是否包含预设的所述控制指令，当识别出上述用户的控制指令时，所述智能终端可以直接执行该控制指令。

也就是说，采用本申请实施例提供的语音降噪方法，对于每一个新用户，只要所述智能终端在线检测出该新用户的唤醒词，就可以直接在线注册，即对该智能终端进行唤醒，唤醒之后就可以正常与该新用户进行语音交互，并对该智能终端进行控制，能够解决现有技术中新用户离线注册才能控制所述智能终端的问题，可以提高用户使用的便捷性。

第二方面，本申请实施例还提供一种语音处理系统，所述语音处理系统包括：语音采集装置、语音降噪装置和语音识别装置。

所述语音采集装置包括麦克风阵列，所述麦克风阵列包括MIC 1～MIC N，所述MIC1～MIC N用于采集用户的第一语音的语音信号X₁₁(t)～X_1N(t)，并将语音信号X₁₁(t)～X_1N(t) 发送至所述语音降噪装置。

所述语音降噪装置包括第一处理模块、第一滤波降噪处理模块、神经网络模型模块以及第二滤波降噪处理模块。

所述第一处理模块用于接收所述语音采集装置发送的所述语音信号X₁₁(t)～X_1N(t)，对所述语音信号X₁₁(t)～X_1N(t)的频谱信号X₁₁(ω)～X_1N(ω)进行所述第一处理，得到语音频谱信号S₁₁(ω)～S_1M(ω)，并将所述语音频谱信号S₁₁(ω)～S_1M(ω)发送至第一滤波降噪处理模块。

例如：当N>3时，所述第一处理模块用于对所述语音信号X₁₁(t)～X_1N(t)的频谱信号 X₁₁(ω)～X_1N(ω)进行所述第一处理，得到语音频谱信号S₁₁(ω)～S_1M(ω)，且N>M。

上述第一处理模块的处理过程可以参考上述第一方面及其各种可能的实现方式中所述的方法中相应的实现过程，为避免重复，此处不再赘述。

又例如：当N＝2、3时，所述第一处理模块用于对所述语音信号X₁₁(t)～X_1N(t)进行STFT 处理，得到所述语音频谱信号S₁₁(ω)～S_1M(ω)，且N＝M。

所述第一滤波降噪处理模块用于接收第一处理模块发送的所述语音频谱信号 S₁₁(ω)～S_1M(ω)，对所述语音频谱信号S₁₁(ω)～S_1M(ω)进行第一滤波降噪处理，得到降噪信号 Y₁₁(ω)～Y_1M(ω)，并将降噪信号Y₁₁(ω)～Y_1M(ω)发送至神经网络模型模块。

上述第一滤波降噪处理模块的处理过程可以参考上述第一方面及其各种可能的实现方式中所述的方法中相应的实现过程，为避免重复，此处不再赘述。

所述神经网络模型模块用于接收第一滤波降噪处理模块发送的所述降噪信号Y₁₁(ω)～Y_1M(ω)，根据所述降噪信号Y₁₁(ω)～Y_1M(ω)，确定第一掩码信息，所述第一掩码信息用于表示所述降噪信号Y₁₁(ω)～Y_1M(ω)中每个降噪信号包括的多个频点中每个频点属于第一目标频点的概率值，所述第一目标频点包括预设的第一目标语音的频谱信号中包括的频点，并将所述第一掩码信息发送至第二滤波降噪处理模块。

上述神经网络模型模块的处理过程可以参考上述第一方面及其各种可能的实现方式中所述的方法中相应的实现过程，为避免重复，此处不再赘述。

所述第二滤波降噪处理模块用于接收所述神经网络模型模块发送的所述第一掩码信息，根据所述第一掩码信息，对所述语音频谱信号S₁₁(ω)～S_1M(ω)进行第二滤波降噪处理，得到降噪信号Z₁₁(ω)～Z_1M(ω)，并将所述降噪信号Z₁₁(ω)～Z_1M(ω)发送至语音识别装置。

上述第二滤波降噪处理模块的处理过程可以参考上述第一方面及其各种可能的实现方式中所述的方法中相应的实现过程，为避免重复，此处不再赘述。

所述语音识别装置用于接收所述第二滤波降噪处理模块发送的降噪信号 Z₁₁(ω)～Z_1M(ω)，根据所述降噪信号Z₁₁(ω)～Z_1M(ω)对所述第一语音进行语音识别，以确定所述第一语音中是否包含所述第一目标语音。

需要说明的是，上述语音处理系统采用平行的滤波降噪结构，第一次滤波降噪能够凸显该M个第一降噪信号中包含的该第一目标语音，通过该M个第一降噪信号得到频点级的第一掩码信息。第二次滤波降噪通过频点级的第一掩码信息进行控制，一方面能够实现嘈杂环境下相干噪声的精确抑制，从而增强该M个第二降噪信号中包含的第一目标语音，以提高第一目标语音的识别率。

可选地，所述语音降噪装置还可以包括：缓存模块、语音识别模块、第一注意力机制模块、第二注意力机制模块和降噪模块。

所述缓存模块用于存储上述降噪信号Z₁₁(ω)～Z_1M(ω)和第一掩码信息。

需要说明的是，所述缓存模块是按照先入先出的原则，逐帧保存所述降噪信号 Z₁₁(ω)～Z_1M(ω)和所述第一掩码信息。

还需要说明的是，以当前所述缓存模块中存储至少一帧对应的降噪信号V₁(ω)～V_M(ω) 以及所述至少一帧对应的目标掩码信息为例，所述缓存模块还用于将所述降噪信号 V₁(ω)～V_M(ω)以及所述目标掩码信息发送至语音识别模块。

所述语音识别模块用于接收所述缓存模块发送的所述降噪信号V₁(ω)～V_M(ω)以及所述目标掩码信息；根据所述目标掩码信息，确定所述降噪信号V₁(ω)～V_M(ω)中每个降噪信号包括的多个频点中的每个频点属于所述第一目标频点的概率值之和；根据所述降噪信号V₁(ω)～V_M(ω)中每个降噪信号包括的多个频点中的每个频点属于所述第一目标频点的概率值之和，确定所述第一语音中是否包括所述第一目标语音。

当所述语音识别模块从所述降噪信号V₁(ω)～V_M(ω)中识别出所述第一目标语音时，控制所述第二滤波降噪处理模块将处理所述降噪信号V₁(ω)～V_M(ω)中的最后一帧时所使用的滤波系数发送至第一滤波降噪处理模块，并通过所述滤波系数对后续阶段的语音信号进行滤波降噪。

所述语音采集装置还用于采集所述用户的第二语音的语音信号X₂₁(t)～X_2N(t)，并将语音信号X₂₁(t)～X_2N(t)发送至所述语音降噪装置。

所述第一处理模块还用于接收所述语音采集装置发送的所述语音信号X₂₁(t)～X_2N(t)，对所述语音信号X₂₁(t)～X_2N(t)的频谱信号X₂₁(ω)～X_2N(ω)进行所述第一处理，得到语音频谱信号S₂₁(ω)～S_2M(ω)，并将所述语音频谱信号S₂₁(ω)～S_2M(ω)发送至第一滤波降噪处理模块。

所述第一滤波降噪处理模块用于接收第一处理模块发送的所述语音频谱信号 S₂₁(ω)～S_2M(ω)以及第二滤波降噪处理模块发送的所述滤波系数，根据所述滤波系数对所述语音频谱信号S₂₁(ω)～S_2M(ω)进行第一滤波降噪处理，得到降噪信号Y₂₁(ω)～Y_2M(ω)，并将降噪信号Y₂₁(ω)～Y_2M(ω)发送至第二注意力机制模块。

此外，当所述语音识别模块从所述降噪信号V₁(ω)～V_M(ω)中识别出所述第一目标语音时，控制所述缓存模块将所述降噪信号V₁(ω)～V_M(ω)发送至第一注意力机制模块。

所述第一注意力机制模块用于接收所述缓存模块发送的所述降噪信号V₁(ω)～V_M(ω)，从所述降噪信号V₁(ω)～V_M(ω)中确定出参考降噪信号，所述参考降噪信号为所述降噪信号 V₁(ω)～V_M(ω)中识别出所述第一目标语音的概率最大的降噪信号，根据所述降噪信号 V₁(ω)～V_M(ω)中每个降噪信号与所述参考降噪信号之间的相似度，确定所述降噪信号 V₁(ω)～V_M(ω)中每个降噪信号的加权值；根据所述降噪信号V₁(ω)～V_M(ω)中每个降噪信号的加权值，对所述降噪信号V₁(ω)～V_M(ω)进行加权，得到加权降噪信号J₁(ω)，并将所述加权降噪信号J₁(ω)发送至降噪模块，并将所述降噪信号V₁(ω)～V_M(ω)中每个降噪信号的加权值发送至第二注意力机制模块。

所述第二注意力机制模块用于接收所述第一注意力机制模块发送的所述降噪信号 V₁(ω)～V_M(ω)中每个降噪信号的加权值，并根据所述降噪信号V₁(ω)～V_M(ω)中每个降噪信号的加权值对所述降噪信号Y₂₁(ω)～Y_2M(ω)进行加权，得到加权降噪信号J₂(ω)，并将所述加权降噪信号J₂(ω)发送至降噪模块。

所述降噪模块用于接收所述第一注意力机制模块发送的加权降噪信号J₁(ω)以及所述第二注意力机制模块发送的加权降噪信号J₂(ω)，根据所述加权降噪信号J₁(ω)，对所述加权降噪信号J₂(ω)进行降噪，得到目标降噪信号J_d(ω)，并将所述目标降噪信号J_d(ω)发送至所述语音识别装置。

需要说明的是，上述降噪模块的处理过程可以上述第一方面中所述语音降噪装置根据所述第一加权降噪信号，对所述第二加权降噪信号进行降噪，得到所述第四降噪信号的实现过程，为避免重复，此处不再赘述。

需要说明的是，对所述降噪信号V₁(ω)～V_M(ω)进行基于注意力机制的加权融合，既能够充分利用所述降噪信号V₁(ω)～V_M(ω)中识别出第一目标语音的概率值最高的参考降噪信号，也能够在所述降噪信号V₁(ω)～V_M(ω)间相关性较强时综合利用所述降噪信号V₁(ω)～V_M(ω)。因此，基于注意力机制对降噪信号V₁(ω)～V_M(ω)进行加权得到所述加权降噪信号J₁(ω)，能够有效增强所述第一目标语音。

此外，当确定第一语音信号中包括第一目标语音时，可以结合所述加权降噪信号J₁(ω) 的特征信息，对加权降噪信号J₂(ω)进行降噪，这样就能够对所述加权降噪信号J₂(ω)中具有所述特征信息的用户的第二目标语音进行针对性增强，同时能够达到抑制其他信号的目的。

所述语音识别装置用于接收所述降噪模块发送的所述目标降噪信号J_d(ω)，并对所述目标降噪信号J_d(ω)进行语音识别，以识别所述第二语音中是否包含所述第二目标语音。

第三方面，本申请实施例还提供一种语音降噪装置，该装置包括用于执行上述各方面或其任意可能的实现方式中的方法的单元。

第四方面，本申请实施例还提供另一种语音降噪装置，该装置包括处理器和存储器，该存储器中存储有指令，该处理器执行该指令时，使得该装置执行上述各方面或其任意可能的实现方式中该的方法。

第五方面，本申请实施例还提供一种芯片装置，该芯片装置包括处理器和通信接口，该处理器用于从该通信接口调用并运行指令，当该处理器执行该指令时，实现如上述各方面或其任意可能的实现方式中该的方法。

第六方面，本申请实施例还提供一种计算机可读存储介质，该存储介质中存储有计算机程序或指令，当该计算机程序或指令被通信装置执行时，实现上述各方面或其任意可能的实现方式中该的方法。

第七方面，本申请实施例还提供一种计算机程序产品，该计算机程序产品中包含指令，当该指令在计算机或处理器上运行时，使得该计算机或该处理器实现上述各方面或其任意可能的实现方式中该的方法。

附图说明

图1提供了本申请实施例的语音处理系统100的示意性框图；

图2提供了本申请实施例的语音降噪方法200的示意性流程图；

图3提供了本申请实施例的声源1与麦克风m和麦克风n之间的位置关系图；

图4提供了本申请实施例的第一滤波器的滤波原理示意图；

图5提供了本申请实施例的另一第一滤波器的滤波原理示意图；

图6提供了本申请实施例的第一神经网络模型的训练和使用过程示意图；

图7提供了本申请实施例的第三神经网络模型的训练过程示意图；

图8提供了本申请实施例的第三神经网络模型的结构示意图；

图9提供了本申请实施例的第四神经网络模型的训练过程示意图；

图10提供了本申请实施例的另一语音处理系统100的示意性框图；

图11提供了本申请实施例的又一语音处理系统100的示意性框图；

图12提供了本申请实施例的语音降噪装置300的示意性框图；

图13提供了本申请实施例的语音降噪装置400的示意性框图；

图14示出了本申请实施例的终端500的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

图1示出了本申请实施例提供的语音处理系统100的示意性框图。如图1所示，该语音处理系统100包括语音采集装置110、语音降噪装置和语音识别装置130。

语音采集装置110用于采集用户说话的语音信号。

语音降噪装置用于接收语音采集装置110发送的所述语音信号，对所述语音信号进行频域转换，得到语音频谱信号，再对所述语音频谱信号进行降噪处理，得到降噪信号，并将所述降噪信发送至语音识别装置130。

语音识别装置130用于接收语音降噪装置发送的所述降噪信号，识别所述降噪信号中是否包含预设的目标语音。

可选地，所述目标语音可以为唤醒词或控制指令，所述唤醒词用于唤醒终端，所述控制指令用于控制终端执行相应的操作。

需要说明的是，终端与用户的语音交互过程可以分为语音唤醒词识别和语音控制指令识别两个阶段，在语音唤醒词识别阶段，所述终端识别所述降噪信号中是否包含唤醒词，在语音识别阶段，所述终端识别所述降噪信号中是否包含控制指令。

可选地，语音采集装置110、语音降噪装置和语音识别装置130可以是三个独立的装置，这三个装置可以分别安装在终端上；或者，语音采集装置110、语音降噪装置和语音识别装置130可以集成在一个设备中，该设备安装在终端上；或者，语音采集装置110和语音降噪装置可以集成在一个设备中，该设备和语音识别装置130分别安装在终端上；或者，语音采集装置110和语音识别装置130可以集成在一个设备中，该设备和语音降噪装置处理装置分别安装在终端上；或者，语音降噪装置和语音识别装置130可以集成在一个设备中，该设备和语音采集装置110分别安装在终端上。

需要说明的是，无论语音采集装置110、语音降噪装置和语音识别装置130是集成在一个设备中还是分别是独立的装置，在下文的描述中，都以语音采集装置、语音降噪装置和语音识别装置来进行描述。

可选地，语音采集装置110和语音降噪装置之间以及语音降噪装置和语音识别装置 130之间可以通过有线方式或无线方式进行通信，本申请实施例对此不作限定。

需要说明的是，上述有线方式可以为通过数据线连接、或通过内部总线连接实现通信。

还需要说明的是，上述无线方式可以为通过通信网络实现通信，该通信网络可以是局域网，也可以是通过中继(relay)设备转接的广域网，或者包括局域网和广域网。当该通信网络为局域网时，示例性的，该通信网络可以是wifi热点网络、wifi P2P网络、蓝牙网络、zigbee网络或近场通信(near field communication，NFC)网络等近距离通信网络。当该通信网络为广域网时，示例性的，该通信网络可以是第三代移动通信技术(3rd-generation wireless telephone technology，3G)网络、第四代移动通信技术(the 4thgeneration mobile communication technology，4G)网络、第五代移动通信技术(5th-generation mobile communication technology，5G)网络、未来演进的公共陆地移动网络(public land mobile network，PLMN)或因特网等，本申请实施例对此不作限定。

还需要说明的是，上述终端可以为具有语音交互功能的设备，例如，该终端可以为(智能)音箱、(智能)手机、(智能)车载设备、笔记本电脑、(智能)电视机、可穿戴设备等，本申请实施例对此不作限定。

可选地，上述终端中还可以包括具有其它功能的其他装置，例如，摄像装置、导航装置等，本申请实施例对此不作限定。

需要说明的是，本申请实施例对上述各种装置安装的具体位置和具体功能等不作限定。

图2示出了本申请实施例提供的语音降噪方法200的示意性流程图。如图2所示，该方法200可以应用于图1中所示的语音处理系统100，并由图1中所示的语音降噪装置执行。

S210，获取M个第一语音频谱信号，所述M个第一语音频谱信号是通过N个麦克风对用户的第一语音进行采集得到的，M和N均为大于1的整数，且N大于或等于M。

下面将结合示例详细介绍上述两种不同的情况下，语音降噪装置获取所述M个第一语音频谱信号的实现过程。

情况一：N>M。

语音降噪装置接收N个麦克风采集所述第一语音得到的N个第二语音信号X₁(t),…, X_N(t)，对该N个第二语音信号分别进行频域转换得到的N个第二语音频谱信号X₁(ω),…, X_N(ω)，对该N个第二语音频谱信号进行DOA处理和BF处理得到M个第一语音频谱信号S₁(ω),…,S_M(ω)，M<N。

需要说明的是，广义互相关函数时延估计算法通过两个麦克风采集的两个语音信号 (本段描述的语音信号指广义上的语音信号)的互相关函数峰值来估计时延值。在声源定位系统中，若麦克风阵列中的每个麦克风接收到的语音信号都来自于同一个声源，则各通道信号之间具有较强的相关性。理想情况下，通过计算每两个语音信号之间的相关函数，就可以确定两个麦克风观测同一个声源发出的两个语音信号之间的时延值。

其中，上述DOA处理可以包括以下步骤：

为麦克风阵列设定一个参考原点，该参考原点可以为该麦克风阵列中的任意一个麦克风或任意一个位置，以麦克风阵列中的第一麦克风对包括麦克风m和麦克风n，且设定麦克风m作为参考原点为例，则麦克风m和麦克风n采集到的两个第二语音信号的互相关函数可以通过以下公式(1)确定。

其中，

表示相位变换(PHAse Transformation，PHAT)加权函数。

需要说明的是，上述公式(1)中仅以PHAT加权函数为例进行介绍，本申请实施例还可以采用其它加权函数，本申请实施例对此不作限定。由于PHAT加权函数相当于对信号白化滤波，使互相关函数的峰更加尖锐，能够较好的抑制混响。

进一步地，可以通过如下公式(2)确定声源到达麦克风m和麦克风n的时间差τ₁。

其中，τ₁的取值满足

为

的最大值。

进一步地，可以通过如下公式(3)确定声源到麦克风m和麦克风n的连线之间的夹角θ以及声源到麦克风m和麦克风n的时间差τ₁之间的关系。

其中，τ₁表示声源到麦克风m和麦克风n的时间差，θ表示声源到麦克风m和麦克风n的连线之间的夹角，d_mn表示麦克风m与麦克风n之间的距离，c表示声速。

例如：图3示出了声源1与麦克风m和麦克风n之间的位置关系图，θ表示声源1到麦克风m和麦克风n的连线之间的夹角，d_mn表示麦克风m与麦克风n之间的距离，cτ₁表示声源1到麦克风m和麦克风n的距离差。

上面所述的公式(1)～(3)仅示意性示出如何通过任意一个麦克风对中每个麦克风的参数定位一个声源位置，即确定该声源相对于麦克风对的角度。

此外，为了更准确的进行多个声源的角度估计，可以通过以下公式(4)确定麦克风阵列中的所有麦克风的加权的互相关函数之和，并根据所有麦克风的加权的互相关函数之和定位多个声源的位置，即确定多个声源中每个声源相对于麦克风阵列的角度。

可选地，所述语音降噪装置可以根据y(τ)曲线上的包括的多个峰值，确定多个目标峰值，该多个目标峰值中的任意一个目标峰值用于定位与该任意一个目标峰值对应的声源，所述多个目标峰值的数量小于所述N个麦克风的数量。

可选地，可以通过多种方式根据所述y(τ)曲线上的包括的L个峰值，确定M个目标峰值，本申请实施例对此不作限定。

在第一种可能的实现方式中，当L≥M时，可以将所述L个峰值中最大的M个值确定为该M个目标峰值。

在第二种可能的实现方式中，当L>M时，可以根据上述公式(3)确定所述L个峰值中每个峰值对应的角度，得到L个角度，从所述L个角度确定出角度差大于预设的角度阈值的K个角度，在所述K个角度中确定出最大的M个角度，将所述M个角度中每个角度对应的峰值，确定为所述M目标峰值。

在第三种可能实现的方式中，当L<M时，可以为所述L个峰值添补M-L个峰值，得到M个峰值，并将所述M个峰值确定为所述M个目标峰值。

可选地，可以通过多种方式为所述M个峰值添补M-L个峰值，得到所述M个峰值，本申请实施例对此不作限定。

在第一种可能的实现方式中，可以根据所述L个峰值和所述第一帧的前一帧确定的 M-L个峰值，确定所述M个峰值。

在第二种可能的实现方式中，可以根据所述L个峰值和预设的M-L个初始角度对应的M-L个峰值，确定所述M个峰值。

需要说明的是，所述语音降噪装置还可以通过其他现有的方法为所述L个峰值填补 M-L个峰值，得到所述M个峰值，本申请实施例对此不作限定。

经过上述DOA处理，能够得到M个声源中每个声源相对于麦克风阵列的角度，即得到M个θ。

上述BF处理可以包括以下步骤：

以M个声源中的第一声源相对于麦克风阵列的入射角度为θ_r为例，可以通过以下公式(5)所表示的导向矢量表示所述第一声源到达每个麦克风和上述设定为参考原点的麦克风m的时间差。

a(θ,f)＝[a_1m(θ,f),a_2m(θ,f),...,a_Nm(θ,f)]^T (5)

其中，

a_rm(θ,f)表示第一声源达到麦克风r和麦克风m的时间差，f表示频域转换时的频率，d_rm表示麦克风r与麦克风m之间的距离。

进一步地，可以通过以下公式(6)确定扩散场噪声的协方差矩阵Q。

根据上述公式(6)，可以通过以下公式(7)表示超指向波束成形的滤波系数，并通过如下公式(8)表示波束成形的输出。

S_r＝W^HX，其中，X＝[X₁,X₂,...,X_N] (8)

类似地，对于M个θ，即M个不同的声源方向，可以通过上述公式(5)～公式(8)，确定每个声源方向上对输入信号进行BF处理后输出的M个第一语音频谱信号S₁(ω),…, S_M(ω)。

情况二：N＝M。

语音降噪装置接收M个麦克风采集的M个第一语音信号S₁(t),…,S_M(t)，对该M个第一语音信号分别进行FFT，得到所述M个第一语音频谱信号S₁(ω),…,S_M(ω)。

S220，对所述M个第一语音频谱信号进行第一滤波降噪处理，得到M个第一降噪信号。

例如：当M＝N时，采用延迟自适应算法对所述M个第一语音频谱信号进行第一滤波降噪处理。

下面将结合例子详细介绍在上述两种不同的情况下，语音降噪装置对M个第一语音频谱信号S₁(ω),…,S_M(ω)进行第一自适应滤波降噪处理的实现过程。

需要说明的是，为描述方便起见，以下描述中将部分省略频域标，例如，用S₁,…,S_M代替S₁(ω),…,S_M(ω)。

情况一：N>M。

以N的取值大于3为例，M个第一语音频谱信号中第K帧对应的M个子第一语音频谱信号为S₁(K),...,S_M(K)，S_x(K)表示S₁(K),...,S_M(K)中的待滤波信号，S_y(K)表示用于对所述S_x(K)进行滤波的参考信号为例，介绍所述语音降噪装置对所述S₁(K),...,S_M(K)进行实时自适应滤波降噪处理的实现过程，其中，S_x(K)与S_y(K)为所述第K帧对应的不同的子第一语音频谱信号，K为大于0的整数。

图4示出了第一自适应滤波器对所述S₁(K),...,S_M(K)进行实时自适应滤波降噪处理的原理示意图。如图4所示，S_x(K)为待滤波信号，S_y(K)为参考信号。首先，初始化第一自适应滤波器的滤波系数W₁、残差信号E_x和所述残差信号E_x的平滑残差功率谱R_x，使得 W₁(0)＝0，E_x(0)＝0，R_x(0)＝0，并初始化后验误差方差矩阵P_X为单位矩阵。

通过以下公式(9)可以确定所述第K帧的残差信号E_x(K)。

E_x(K)＝S_x(K)-W₁ ^H(K-1)S_y(K) (9)

其中，K表示第K帧，S_x(K)表示所述第K帧的待滤波信号，S_y(K)表示所述S_x(K)的参考信号，K-1表示第K-1帧，W₁ ^H(K-1)表示所述第一自适应滤波器在所述第K-1帧所使用的滤波器系数。

进一步，可以通过以下公式(10)确定所述平滑残差功率谱R_x(K)，通过以下公式(11) 确定卡尔曼(Kalman)增益g_x(K)，通过以下公式(12)确定所述后验误差方差矩阵P_x(K)，并进一步通过以下公式(13)确定所述第一自适应滤波器在所述第K帧所使用的滤波系数 W₁(K)。

R_x(K)＝(1α-)R_x(K-1)+α|E_x(K)|² (10)

其中，α表示所述残差信号的平滑残差功率谱R_x的更新速率，0.1≤α≤0.2。

W₁(K)＝W₁(K-1)+g_x(K)E_x(K) (13)

综上所述，对所述第K帧的所述M个子第一语音频谱信号S₁,...,S_M中的每个子第一语音频谱信号进行上述实时自适应滤波降噪处理，可以得到所述第K帧对应的M个子第一降噪信号E₁(ω),…,E_M(ω)。

类似的，对所述M个第一语音频谱信号逐帧进行上述实时自适应滤波降噪处理，就能够得到每帧对应的M个子第一降噪信号；将所述每帧对应的M个子第一降噪信号按照帧序列排序，得到M个第一降噪信号。

情况二：N＝M

以N和M的取值均为3为例，3个第一语音频谱信号中第K帧对应的3个子第一语音频谱信号为S₁(K),S₂(K),S₃(K)，S_x(K)表示S₁(K),S₂(K),S₃(K)中的待滤波信号，S_y(K)表示用于对所述S_x(K)进行滤波的参考信号为例，介绍所述语音降噪装置对所述S₁(K),

S₂(K),S₃(K)进行延迟自适应滤波降噪处理的实现过程，其中，S_x(K)与S_y(K)为所述第K帧对应的不同的子第一语音频谱信号，K为大于0的整数。

图5示出了第一自适应滤波器对所述S₁,S₂,S₃进行延迟自适应滤波降噪处理的原理示意图。如图5所示，S_x(K)为待滤波信号，S_y(K)为参考信号。首先，初始化第一自适应滤波器的滤波系数W₁、残差信号E_x和所述残差信号E_x的平滑残差功率谱R_x，使得W₁(0)＝0， E_x(0)＝0，R_x(0)＝0，并初始化后验误差方差矩阵P_X为单位矩阵。

通过以下公式(14)可以确定所述第K帧的残差信号E_x(K)。

E_x(K)＝S_x(K)-W₁ ^H(K-D)S_y(K) (14)

其中，K表示第K帧，S_x(K)表示所述第K帧的待滤波信号，S_y(K)表示所述S_x(K)的参考信号，K-D表示第K-D帧，W₁ ^H(K-D)表示所述第一自适应滤波器在所述第K-D帧所使用的滤波器系数。

进一步，可以通过以下公式(15)确定所述平滑残差功率谱R_x(K)，通过以下公式(16) 确定卡尔曼增益g_x(K)，通过以下公式(17)确定所述后验误差方差矩阵P_x(K)，并进一步通过以下公式(18)确定所述第一自适应滤波器在所述第K帧所使用的滤波系数W₁(K)。

R_x(K)＝(1-α)R_x(K-D)+α|E_x(K)|² (15)

W₁(K)＝W₁(K-D)+g_x(K)E_x(K) (18)

综上所述，对所述第K帧的所述M个子第一语音频谱信号S₁,S₂,S₃中的每个子第一语音频谱信号进行上述延迟自适应滤波降噪处理，可以得到所述第K帧对应的3个子第一降噪信号E₁(ω),E₂(ω),E₃(ω)。

类似的，对所述3个第一语音频谱信号逐帧进行上述延迟自适应滤波降噪处理，就能够得到每帧对应的3个子第一降噪信号；将所述每帧对应的3个子第一降噪信号按照帧序列排序，得到3个第一降噪信号。

S230，根据所述M个第一降噪信号中的每个第一降噪信号，确定第一掩码信息，所述第一掩码信息用于表示所述每个第一降噪信号中包括的多个频点中的每个频点属于第一目标频点的概率值，所述第一目标频点包括预设的第一目标语音的频谱信号中包括的频点。

例如：所述语音降噪装置可以接收服务器发送的所述第一神经网络模型。

例如：所述语音降噪装置可以向所述服务器发送模型请求，所述模型请求用于请求所述第一神经网络模型，并接收所述服务器根据所述模型请求发送的所述第一神经网络模型。

例如：图6示出了所述语音降噪装置训练和使用所述第一神经网络模型的过程。

可选地，所述语音降噪装置可以将上述第一训练数据样本集输入深度神经网络(deep neural networks，DNN)进行训练，得到所述第一神经网络模型。

可选地，所述DNN可以采用多种网络结构，本申请实施例对此不作限定。

例如：所述DNN的输入点数为89点，为对数功率谱子带特征，例如，第一样本语音频谱信号和第二样本语音频谱信号的信号采样率为16k，FFT为512点，则有效频点为257 个，将频点合并为89个子带。合并方法为：首先，将信号分为四个频带， [0,1k],[1k,3k],[3k,5.5k],[5.5k,8k]，每个频带内对应的子带个数分别为32，32，16，9；然后，各子带对应的截止频点分别为：[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32]、[34,36,38,40,42,44,46,48,50,52,54,56,58,60,62,64,66,68,70,72, 74,76,78,80,82,84,86,88,90,92,94,96]、[99,103,107,111,115,120,125,130,135,140,145,151, 157,163,169,175]、[182,188,195,203,211,220,229,239,257]；最后，将子带内的各频点求平均值。

该DNN可以包括2层卷积神经网络(convolutional neural networks，CNN)：卷积核为3*3，特征数为16，卷积步长为2；2层门控递归单元(gate recurrent unit，GRU)：输入和输出点数均为23，2个反卷积层：卷积核为3*3，特征数为16，后一层输出特征数为 8；1层全连接层：输入点数为89*8，输出点数为89。按照子带合并规则映射为257个频点的第一掩码信息。

需要说明的是，所述DNN的各层可以采用随机初始化，采用随机梯度下降算法训练，采用指数下降的方式作为学习率，上述DNN网络可以采用以下公式(19)作为损失函数。

其中，T表示纯净的样本语音频谱信号，X表示与纯净的样本语音频谱信号匹配的带噪的样本语音频谱信号，M表示帧数，B表示每帧包括的频点数，m表示帧数索引，b表示频点索引，mask表示第一掩码信息，且0<mask<1。

可选地，在S230之后，所述语音降噪装置还可以对所述第一掩码信息进行修正。

在一种可能的实现方式中，所述语音降噪装置可以将所述M个第一降噪信号输入语音识别系统，例如：关键词检出(keyword spotting，KWS)系统，得到识别结果，所述识别结果用于表示所述每个第一降噪信号中包括的每帧属于第一目标帧的概率值，所述第一目标帧包括所述第一目标语音的频谱信号中包括的每一帧；根据所述识别结果，对所述第一掩码信息进行修正。

例如：以所述第一目标降噪信号的所述第一帧包括10个频点，这10个频点中每个频点属于所述第一目标频点的概率值分别为：0.75、0.58、0.52、0.53、0.44、0.38、0.26、0.33、0.45、0.19，当识别结果表示所述第一目标降噪信号的所述第一帧属于所述第一目标帧的概率值为0.3，且所述第一概率阈值为0.5时，可以将上述10个频点中每个频点属于所述第一目标频点的概率值修正为：0、0、0、0、0、0、0、0、0、0。

例如：以所述第一目标降噪信号的所述第一帧包括10个频点，这10个频点中每个频点属于所述第一目标频点的概率值分别为：0.75、0.68、0.82、0.73、0.94、0.58、0.56、0.43、0.45、0.39，当识别结果表示所述第一目标降噪信号的所述第一帧属于所述第一目标帧的概率值为0.8，且所述第一概率阈值为0.5时，可以维持上述10个频点中每个频点属于所述第一目标频点的概率值不变。

可选地，所述语音识别系统可以为一个神经网络模型。

可选地，以所述语音识别系统为第二神经网络模型为例，所述语音降噪装置可以通过多种方式获取所述第二神经网络模型，本申请实施例对此不作限定。

S240，根据所述第一掩码信息，对所述M个第一语音频谱信号进行第二滤波降噪处理，得到M个第二降噪信号，所述M个第二降噪信号用于识别所述第一语音中是否包含所述第一目标语音。

需要说明的是，本申请实施例中所述的第一语音频谱信号是通过对用户的第一语音采集采集得到的，可以理解为所述第一语音频谱信号包括所述第一语音的频谱信号。

相应地，所述第一语音中包括所述第一目标语音，可以理解为所述第一语音频谱信号包括所述第一目标语音的频谱信号。

类似地，所述第二降噪信号是通过对第一语音频谱信号进行两次滤波降噪处理得到的，因此，所述第一语音频谱信号包括所述第一目标语音，可以理解为所述第二降噪信号包括所述第一目标语音。

下面将以M个第一语音频谱信号中第K帧对应的M个子第一语音频谱信号为S₁(K),..., S_M(K)，S_x(K)表示S₁(K),...,S_M(K)中的待滤波信号，S_y(K)表示用于对所述S_x(K)进行滤波的参考信号为例，介绍所述语音降噪装置对所述S₁(K),...,S_M(K)进行实时自适应滤波降噪处理的实现过程，其中，S_x(K)与S_y(K)为所述第K帧对应的不同的子第一语音频谱信号，K 为大于0的整数。

首先，初始化第二自适应滤波器的滤波系数W₂、残差信号E_x和所述残差信号E_x的平滑残差功率谱R_x，使得W₂(0)＝0，E_x(0)＝0，R_x(0)＝0，并初始化后验误差方差矩阵P_X为单位矩阵。

通过以下公式(20)可以确定所述第K帧的残差信号E_x(K)。

E_x(K)＝S_x(K)-W₂ ^H(K-1)S_y(K) (20)

其中，K表示第K帧，S_x(K)表示所述第K帧的待滤波信号，S_y(K)表示所述S_x(K)的参考信号，K-1表示第K-1帧，W₂ ^H(K-1)表示所述第二自适应滤波器在所述第K-1帧所使用的滤波器系数。

进一步，可以通过以下公式(21)确定所述平滑残差功率谱R_x(K)，通过以下公式(22) 确定卡尔曼(Kalman)增益g_x(K)，通过以下公式(23)确定所述后验误差方差矩阵P_x(K)，并进一步通过以下公式(24)确定所述第二自适应滤波器在所述第K帧所使用的滤波系数 W₂(K)。

R_x(K)＝(1α-)R_x(K-1)+α|E_x(K)|² (21)

W₂(K)＝W₂(K-1)+g_x(K)E_x(K) (24)

需要说明的是，f(mask)表示掩码函数，本申请实施例对具体的函数不作限定。

例如：f(mask)＝1-mask。

又例如：

综上所述，对所述第K帧的所述M个子第一语音频谱信号S₁,...,S_M中的每个子第一语音频谱信号进行上述实时自适应滤波降噪处理，可以得到所述第K帧对应的M个子第二降噪信号E₁(ω),…,E_M(ω)。

类似的，对所述M个第一语音频谱信号逐帧进行上述实时自适应滤波降噪处理，就能够得到每帧对应的M个子第二降噪信号；将所述每帧对应的M个子第二降噪信号按照帧序列排序，得到M个第二降噪信号。

可选地，在S240之后，所述方法还包括：所述语音降噪装置将所述M个第二降噪信号发送至语音识别装置，所述语音识别装置根据所述M个第二降噪信号对所述第一语音进行语音识别，以确定所述第一语音中是否包含所述第一目标语音。

综上所述，本申请实施例采用平行的滤波降噪结构，第一次滤波降噪能够凸显该M个第一降噪信号中包含的该第一目标语音，通过该M个第一降噪信号得到频点级的第一掩码信息。第二次滤波降噪通过频点级的第一掩码信息进行控制，一方面能够实现嘈杂环境下相干噪声的精确抑制，从而增强该M个第二降噪信号中包含的第一目标语音，以提高第一目标语音的识别率。

还需要说明的是，所述语音降噪装置可以逐帧对所述第三语音频谱信号进行所述第三滤波降噪处理，得到所述第四降噪信号；所述语音降噪信号可以根据所述第二目标降噪信号，对所述M个第三降噪信号逐帧进行降噪，得到所述第四降噪信号。

也就是说，所述缓存中存储有所述第一掩码信息中与至少一帧对应的目标掩码信息和所述M个第二降噪信号中与所述至少一帧对应的M个第二目标降噪信号。

例如：所述语音降噪装置可以通过以下公式(25)确定所述每个第二目标降噪信号的掩码值K_mask，即所述每个第二目标降噪信号包括的多个频点中每个频点属于所述第一目标频点的概率值之和。

进一步，当所述M个第二目标降噪信号中的至少一个掩码值K_mask大于或等于预设的掩码值阈值的第二目标降噪信号时，所述语音降噪装置可以确定所述第一语音中包含所述第一目标语音。

需要说明的是，本申请实施例中的M个第二目标降噪信号与M个第三降噪信号一一对应，其中，每个第二目标降噪信号和与所述每个第二目标降噪信号对应的第三降噪信号可以为同一个麦克风采集得到的，或属于同一个声源方向。

在一种可能的实现方式中，所述语音降噪装置可以通过上述公式(25)对所述M个第二目标降噪信号的每个第二目标降噪信号进行处理，得到所述每个第二目标降噪信号对应的K_mask值，将所述M个第二目标降噪信号中K_mask值最大的第二目标降噪信号确定为所述第二参考降噪信号。

例如：以所述M个第二目标降噪信号为F₁(ω),…,F₂(ω)(简写为F₁,…,F_M)，第二参考降噪信号为F_r，1≤r≤M为例，可以通过以下公式(26)确定第p个第二目标降噪信号与第二参考降噪信号的相似度d_r,p，通过以下公式(27)确定第p个第二目标降噪信号的加权值α_r,p，并通过以下公式(28)确定所述第一加权降噪信号Z₁。

d_r,p＝F_r ^HF_p (26)

相应地，以所述M个第三降噪信号为G₁(ω),…,G₂(ω)(简写为G₁,…,G_M)为例，可以通过以下公式(29)确定所述第二加权降噪信号Z₂。

需要说明的是，通过公式(26)～(27)可以得知K_mask值越高的第二目标降噪信号对应的加权值越大，即对所述M个第二目标降噪信号进行基于注意力机制的加权融合，既能够充分利用K_mask值最高的第二目标降噪信号，也能够在M个第二目标降噪信号间相关性较强时综合利用所述M个第二目标降噪信号。因此，基于所述注意力机制对M个第二目标降噪信号进行加权得到所述第一加权降噪信号，能够有效增强所述第一目标语音。

需要说明的是，下面介绍上述第二种可能的实现方式中所述语音降噪信号根据所述第一加权降噪信号，对所述第二加权降噪信号进行降噪，得到所述第四降噪信号的实现过程。

应理解，上述第一种可能的实现方式中所述语音降噪装置根据所述第二参考降噪信号，对所述第三参考降噪信号进行降噪，得到所述第四降噪信号的实现过程，与第二种可能的实现方式类似，为避免重复，此处不再赘述。

其中，所述第三神经网络模型是根据第二训练数据样本集训练得到的，所述第二训练数据样本集包括至少一个第二样本数据组，所述至少一个第二样本数据组与至少一个样本用户一一对应，所述至少一个第二样本数据组中每个第二样本数据组包括第三样本语音频谱信号、第四样本语音频谱信号、所述第四样本语音频谱信号的声纹特征和第五样本语音频谱信号的声纹特征，所述第三样本语音频谱信号包含所述每个第二样本数据组对应的样本用户的语音，所述第四样本语音频谱信号包括所述第三样本语音频谱信号和噪声，所述第五样本语音频谱信号包括所述每个第二样本数据组对应的样本用户的所述第二目标语音。

需要说明的是，不同的样本语音频谱信号组对应不同的样本用户时，第二训练数据样本集具有多样性，根据第二训练数据样本集训练得到的第三神经网络模型精确性更高。

可选地，在所述语音降噪装置将所述拼接信号输入第三神经网络模型，得到所述第二掩码信息之前，所述语音降噪信号需要获取所述第三神经网络模型。

可选地，所述语音降噪信号可以通过与获取第一神经网络模型类似的方法，获取所述第三神经网络模型，为避免重复，此处不再赘述。

在一种可能的实现方式中，所述语音降噪装置可以根据所述第二训练数据样本集和神经网络(neural networks，NN)，训练得到所述第三神经网络模型。

例如：图7示出了所述第三神经网络的训练过程。如图7所示，所述第三神经网络的训练包括以下步骤：

步骤1：分别对所述第二训练数据样本集中的每个第二样本数据组进行以下处理：

(1)提取第四样本语音频谱信号的声纹特征；

(2)提取第五样本语音频谱信号的声纹特征；

(3)将所述第四样本语音频谱信号的声纹特征、所述第五样本语音频谱信号的声纹特征和所述第四样本语音频谱信号拼接在一起，得到样本拼接信号；

通过上述步骤1处理，可以得到多个样本拼接信号。

步骤2：将所述多个样本拼接信号作为NN的输入进行训练。其中，NN输出为所述每个第四样本语音频谱信号的掩码信息，所述每个第四样本语音频谱信号的掩码信息用于表示所述每个第四样本语音频谱信号包括的多个频点中每个频点属于所述第二目标语音的概率值；根据每个第四样本语音频谱信号的掩码信息对每个第四样本语音频谱信号进行降噪，得到目标样本降噪信号；将所述目标样本降噪信号与所述多个第三样本语音频谱信号中的每个第三样本语音频谱信号的最小均方误差作为所述NN的损失函数。

相应地，图8示出了所述第三神经网络模型的结构示意图。如图8所示，所述第三神经网络模型的使用过程包括：提取所述第一加权降噪信号的声纹特征和所述第二加权降噪信号的声纹特征，并将所述第一加权信号的声纹特征、所述第二加权信号的声纹特征和所述第二加权降噪信号进行拼接，得到拼接向量，取连续200帧的拼接向量作为所述NN的输入。在所述NN中，首先通过一个全连接层，得到200×256×16维的输出；然后经过一个Unet网络，模型大小如图8所示；最后通过一个全连接得到200×256×1维的拼接向量的掩码信息；将该拼接向量的掩码信息作用于200帧的拼接向量得到目标降噪信号。

其中，所述第四神经网络模型是根据第三训练数据样本集训练得到的，所述第三训练数据样本集包括至少一个第三样本数据组，所述至少一个第三样本数据组与至少一个声源方向一一对应，所述至少一个第三样本数据组中每个第三样本数据组包括所述每个第三样本数据组对应的声源方向上的第六样本语音频谱信号、第七样本语音频谱信号、多个第八样本语音频谱信号中的至少两个第八样本语音频谱信号和第八样本参考降噪信号对应的声源角度，所述第八样本参考降噪信号为多个第八样本降噪信号中属于所述第二目标语音的概率值最大的第八样本降噪信号，所述多个第八样本降噪信号是对所述多个第八样本语音频谱信号进行降噪得到的，所述第六样本语音频谱信号包含所述每个第三样本数据组对应的声源方向上的样本用户的语音，所述第七样本语音频谱信号包括所述第六样本语音频谱信号和噪声，所述多个第八样本语音频谱信号中的每个第八样语音频谱信号包含所述每个第三样本数据组对应的声源方向上的样本用户的所述第二目标语音。

例如，当N大于M时，所述M个第二目标降噪信号中的所述第二参考降噪信号对应的声源方向为θ为例，可以通过以下公式(30)确定所述声源方向θ相对于任意两个第三语音频谱信号的声源方向特征T(t,f)。

其中，a_mn(θ,f)表示所述声源方向θ相对于麦克风m和麦克风n的导向矢量，t表示时域的时刻，f表示频域的频点，

Y_xm(t,f)表示麦克风m采集得到的第三语音频谱信号X_m(ω)，Y_xn(t,f)表示麦克风n采集得到的第三语音频谱信号 X_n(ω)。

又例如，当N大于M时，所述M个第二目标降噪信号中的所述第二参考降噪信号对应的声源方向为θ为例，可以通过以下公式(31)确定所述声源方向θ相对于所述M个第三语音频谱信号的声源方向特征T(t,f)。

可选地，在所述语音降噪装置将所述拼接信号输入第四神经网络模型，得到所述第三掩码信息之前，所述语音降噪信号需要获取所述第四神经网络模型。

可选地，所述语音降噪信号可以通过与获取第一神经网络模型类似的方法，获取所述第四神经网络模型，为避免重复，此处不再赘述。

在一种可能的实现方式中，所述语音降噪装置可以根据所述第三训练数据样本集和 NN，训练得到所述第四神经网络模型。

例如：图9示出了所述第四神经网络的训练过程。如图9所示，所述第四神经网络的训练包括以下步骤：

步骤1：分别对所述第三训练数据样本集中每个第三样本数据组进行以下处理：

(1)对所述多个第八样本语音频谱信号进行所述第一降噪滤波和所述第二降噪滤波处理，得到多个第八样本降噪信号；

(2)从所述多个第八样本降噪信号中确定所述第八样本参考降噪信号，所述第八样本参考降噪信号为所述多个第八样本降噪信号中K_mask最高的第八样本降噪信号；

(3)确定所述第八样本参考降噪信号对应的声源方向相对于所述多个第八样本语音频谱信号中的至少两个第八样本语音频谱信号，如第八样本语音频谱信号m和第八样本语音频谱信号n，的声源方向特征；

(4)将所述声源方向特征和所述第七样本语音频谱信号拼接在一起，得到样本拼接信号；

通过上述步骤1处理，可以得到多个样本拼接信号。

步骤2：将所述多个样本拼接信号作为NN的输入进行训练。其中，NN输出为所述每个第七样本语音频谱信号的掩码信息，所述每个第七样本语音频谱信号的掩码信息用于表示所述每个第七样本语音频谱信号包括多个频点中每个频点属于所述第二目标语音的概率值；根据每个第七样本语音频谱信号的掩码信息对每个第七样本语音频谱信号进行降噪，得到目标样本降噪信号；将所述目标样本降噪信号与所述每个第六样本语音频谱信号的最小均方误差作为所述NN的损失函数。

相应地，与图8类似，所述第四神经网络模型的使用过程包括：确定所述M个第二目标降噪信号中的所述第二参考降噪信号对应的声源方向相对于所述M个第三语音频谱信号中的至少两个第三语音频谱信号的声源方向特征；将所述声源特征和所述第二加权降噪信号进行拼接，得到拼接向量；取连续200帧的拼接向量作为所述NN的输入。在所述NN中，首先通过一个全连接层，得到200×256×16维的输出；然后经过一个Unet网络，模型大小如图8所示；最后通过一个全连接得到200×256×1维的拼接向量的掩码信息；将该拼接向量的掩码信息作用于200帧的拼接向量得到目标降噪信号。

可选地，所述方法还包括：所述语音降噪装置将所述目标降噪信号发送给所述语音识别装置，所述语音识别装置根据所述目标降噪信号对所述第二语音进行语音识别，以确定的是否属于所述第二目标语音。

需要说明的是，上面仅以所述语音降噪装置根据M个第二目标降噪信号，对所述M个第三降噪信号进行降噪，得到第四降噪信号为例，介绍了基于注意力机制的加权融合方法以及基于特征信息的降噪方法，但本申请实施例对此不作限定。

也就是说，本申请实施例可以采用所述基于注意力机制的加权融合方法和基于特征信息的降噪方法，根据用户的任意的第一段语音的频谱信号对所述用户的任意的第二段语音的频谱信号进行降噪处理。

上面结合图2至图9介绍了本申请实施例提供的语音降噪方法200，下面将结合图10 介绍本申请实施例提供的语音处理系统100的另一示意性框图。

如图10所示，所述语音处理系统100包括：语音采集装置110、语音降噪装置和语音识别装置130。

所述语音采集装置110包括麦克风阵列，所述麦克风阵列包括MIC 1～MIC N，所述MIC 1～MIC N用于采集用户的第一语音的语音信号X₁₁(t)～X_1N(t)，并将语音信号 X₁₁(t)～X_1N(t)发送至所述语音降噪装置。

需要说明的是，图10中未示出时域和频域标记。

所述语音降噪装置包括第一处理模块121、滤波降噪处理模块122、神经网络模型模块123以及滤波降噪处理模块124。

所述第一处理模块121用于接收所述语音采集装置110发送的所述语音信号 X₁₁(t)～X_1N(t)，对所述语音信号X₁₁(t)～X_1N(t)的频谱信号X₁₁(ω)～X_1N(ω)进行所述第一处理，得到语音频谱信号S₁₁(ω)～S_1M(ω)，并将所述语音频谱信号S₁₁(ω)～S_1M(ω)发送至滤波降噪处理模块122。

例如：当N>3时，所述第一处理模块121用于对所述语音信号X₁₁(t)～X_1N(t)的频谱信号X₁₁(ω)～X_1N(ω)进行所述第一处理，得到语音频谱信号S₁₁(ω)～S_1M(ω)，且N>M。

上述第一处理模块121的处理过程可以参考方法200中的S210中相应的实现过程，为避免重复，此处不再赘述。

又例如：当N＝2、3时，所述第一处理模块121用于对所述语音信号X₁₁(t)～X_1N(t)进行STFT处理，得到所述语音频谱信号S₁₁(ω)～S_1M(ω)，且N＝M。

所述滤波降噪处理模块122用于接收第一处理模块121发送的所述语音频谱信号S₁₁(ω)～S_1M(ω)，对所述语音频谱信号S₁₁(ω)～S_1M(ω)进行第一滤波降噪处理，得到降噪信号 Y₁₁(ω)～Y_1M(ω)，并将降噪信号Y₁₁(ω)～Y_1M(ω)发送至神经网络模型模块123。

上述滤波降噪处理模块122的处理过程可以参考方法200中的S220的实现过程，为避免重复，此处不再赘述。

所述神经网络模型模块123用于接收滤波降噪模块122发送的所述降噪信号 Y₁₁(ω)～Y_1M(ω)，根据所述降噪信号Y₁₁(ω)～Y_1M(ω)，确定第一掩码信息，所述第一掩码信息用于表示所述降噪信号Y₁₁(ω)～Y_1M(ω)中每个降噪信号包括的多个频点中每个频点属于第一目标频点的概率值，所述第一目标频点包括预设的第一目标语音的频谱信号中包括的频点，并将所述第一掩码信息发送至滤波降噪处理模块124。

上述神经网络模型模块123的处理过程可以参考方法200中的S230的实现过程，为避免重复，此处不再赘述。

所述滤波降噪处理模块124用于接收所述神经网络模型模块123发送的所述第一掩码信息，根据所述第一掩码信息，对所述语音频谱信号S₁₁(ω)～S_1M(ω)进行第二滤波降噪处理，得到降噪信号Z₁₁(ω)～Z_1M(ω)，并将所述降噪信号Z₁₁(ω)～Z_1M(ω)发送至语音识别装置130。

上述滤波降噪处理模块124的处理过程可以参考方法200中的S240的实现过程，为避免重复，此处不再赘述。

所述语音识别装置130用于接收所述滤波降噪处理模块124发送的降噪信号 Z₁₁(ω)～Z_1M(ω)，根据所述降噪信号Z₁₁(ω)～Z_1M(ω)对所述第一语音进行语音识别，以确定所述第一语音中是否包含所述第一目标语音。

需要说明的是，上述语音处理系统100采用平行的滤波降噪结构，第一次滤波降噪能够凸显该M个第一降噪信号中包含的该第一目标语音，通过该M个第一降噪信号得到频点级的第一掩码信息。第二次滤波降噪通过频点级的第一掩码信息进行控制，一方面能够实现嘈杂环境下相干噪声的精确抑制，从而增强该M个第二降噪信号中包含的第一目标语音，以提高第一目标语音的识别率。

可选地，如图11所示，所述语音降噪装置还可以包括：缓存模块125、语音识别模块126、注意力机制模块127、注意力机制模块128和降噪模块129。

所述缓存模块125用于存储上述降噪信号Z₁₁(ω)～Z_1M(ω)和第一掩码信息。

需要说明的是，所述缓存模块125是按照先入先出的原则，逐帧保存所述降噪信号Z₁₁(ω)～Z_1M(ω)和所述第一掩码信息。

还需要说明的是，以当前所述缓存模块125中存储至少一帧对应的降噪信号 V₁(ω)～V_M(ω)以及所述至少一帧对应的目标掩码信息为例，所述缓存模块125还用于将所述降噪信号V₁(ω)～V_M(ω)以及所述目标掩码信息发送至语音识别模块126。

所述语音识别模块126用于接收所述缓存模块125发送的所述降噪信号V₁(ω)～V_M(ω) 以及所述目标掩码信息；根据所述目标掩码信息，确定所述降噪信号V₁(ω)～V_M(ω)中每个降噪信号包括的多个频点中的每个频点属于所述第一目标频点的概率值之和；根据所述降噪信号V₁(ω)～V_M(ω)中每个降噪信号包括的多个频点中的每个频点属于所述第一目标频点的概率值之和，确定所述第一语音中是否包括所述第一目标语音。

当所述语音识别模块126确定所述第一语音中包括所述第一目标语音时，控制所述滤波降噪处理模块124将处理所述降噪信号V₁(ω)～V_M(ω)中的最后一帧时所使用的滤波系数发送至滤波降噪处理模块122，并通过所述滤波系数对后续阶段的语音信号进行滤波降噪。

所述语音采集装置110还用于采集所述用户的第二语音的语音信号X₂₁(t)～X_2N(t)，并将语音信号X₂₁(t)～X_2N(t)发送至所述语音降噪装置。

所述第一处理模块121还用于接收所述语音采集装置110发送的所述语音信号 X₂₁(t)～X_2N(t)，对所述语音信号X₂₁(t)～X_2N(t)的频谱信号X₂₁(ω)～X_2N(ω)进行所述第一处理，得到语音频谱信号S₂₁(ω)～S_2M(ω)，并将所述语音频谱信号S₂₁(ω)～S_2M(ω)发送至滤波降噪处理模块122。

所述滤波降噪处理模块122用于接收第一处理模块121发送的所述语音频谱信号S₂₁(ω)～S_2M(ω)以及滤波降噪处理模块124发送的所述滤波系数，根据所述滤波系数对所述语音频谱信号S₂₁(ω)～S_2M(ω)进行第一滤波降噪处理，得到降噪信号Y₂₁(ω)～Y_2M(ω)，并将降噪信号Y₂₁(ω)～Y_2M(ω)发送至注意力机制模块128。

此外，当所述语音识别模块126从所述降噪信号V₁(ω)～V_M(ω)中识别出所述第一目标语音时，控制所述缓存模块125将所述降噪信号V₁(ω)～V_M(ω)发送至注意力机制模块127。

所述注意力机制模块127用于接收所述缓存模块125发送的所述降噪信号 V₁(ω)～V_M(ω)，从所述降噪信号V₁(ω)～V_M(ω)中确定出参考降噪信号，所述参考降噪信号为所述降噪信号V₁(ω)～V_M(ω)中识别出所述第一目标语音的概率最大的降噪信号，根据所述降噪信号V₁(ω)～V_M(ω)中每个降噪信号与所述参考降噪信号之间的相似度，确定所述降噪信号V₁(ω)～V_M(ω)中每个降噪信号的加权值；根据所述降噪信号V₁(ω)～V_M(ω)中每个降噪信号的加权值，对所述降噪信号V₁(ω)～V_M(ω)进行加权，得到加权降噪信号J₁(ω)，并将所述加权降噪信号J₁(ω)发送至降噪模块129，并将所述降噪信号V₁(ω)～V_M(ω)中每个降噪信号的加权值发送至注意力机制模块128。

所述注意力机制模块128用于接收所述注意力机制模块127发送的所述降噪信号V₁(ω)～V_M(ω)中每个降噪信号的加权值，并根据所述降噪信号V₁(ω)～V_M(ω)中每个降噪信号的加权值对所述降噪信号Y₂₁(ω)～Y_2M(ω)进行加权，得到加权降噪信号J₂(ω)，并将所述加权降噪信号J₂(ω)发送至降噪模块129。

所述降噪模块129用于接收所述注意力机制模块127发送的加权降噪信号J₁(ω)以及所述注意力机制模块128发送的加权降噪信号J₂(ω)，根据所述加权降噪信号J₁(ω)，对所述加权降噪信号J₂(ω)进行降噪，得到目标降噪信号J_d(ω)，并将所述目标降噪信号J_d(ω)发送至所述语音识别装置130。

需要说明的是，上述降噪模块129的处理过程可以参考方法200中所述语音降噪装置根据所述第一加权降噪信号，对所述第二加权降噪信号进行降噪，得到所述第四降噪信号的实现过程，为避免重复，此处不再赘述。

所述语音识别装置130用于接收所述降噪模块129发送的所述目标降噪信号J_d(ω)，并对所述目标降噪信号J_d(ω)进行语音识别，以识别所述第二语音中是否包含所述第二目标语音。

需要说明的是，上述语音处理系统100中的各模块实现功能的具体步骤可以参考方法 200中相应功能的步骤，各模还可以用于执行方法200中各该模块功能相应的其他步骤，为避免重复，此处不再赘述。

上面结合图10和图11介绍了本申请实施例提供的语音处理系统200，下面将结合图 12和13介绍本申请实施例提供的语音降噪装置300。

需要说明的是，语音降噪装置300可以为上述方法200实施例中所述的语音降噪装置，本申请实施例对此不作限定。

可以理解的是，装置300为了实现上述功能，其包含了执行各个功能相应的硬件和/ 或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本实施例可以根据上述方法示例对装置300进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是，本实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图12示出了上述实施例中涉及的语音降噪装置一种可能的组成示意图，如图12所示，该装置300可以包括：收发单元310和处理单元320。

其中，处理单元320可以控制收发单元310实现上述方法200实施例中所述的方法，和/或用于本文所描述的技术的其他过程。

需要说明的是，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

本实施例提供的装置300用于执行上述方法200，因此可以达到与上述实现方法相同的效果。

在一种可能的实现方式中，装置300为语音降噪装置，对应的，处理单元310可以包括第一处理模块121、滤波降噪处理模块122、神经网络模型模块123和滤波降噪处理模块124。可选地，处理单元310还可以包括缓存模块125、语音识别模块126、注意力机制模块127、注意力机制模块128和降噪模块129。或者可以说，处理单元310能够实现第一处理模块121、滤波降噪处理模块122、神经网络模型模块123、滤波降噪处理模块 124、缓存模块125、语音识别模块126、注意力机制模块127、注意力机制模块128和降噪模块129对应的功能。

在采用集成的单元的情况下，装置300可以包括处理单元、存储单元和通信单元。其中，处理单元可以用于对装置300的动作进行控制管理，例如，可以用于支持装置300执行上述各个单元执行的步骤。存储单元可以用于支持装置300执行存储程序代码和数据等。通信单元可以用于支持装置300与其他设备的通信。

其中，处理单元可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理(digital signal processing，DSP)和微处理器的组合等等。存储单元可以是存储器。通信单元具体可以为射频电路、蓝牙芯片、Wi-Fi芯片等与其他电子设备交互的设备。

在一种可能的实现方式中，本实施例所涉及的装置300可以为具有图13所示结构的语音降噪装置400，该装置400包括处理器410和收发器420，该处理器410和收发器420 通过内部连接通路互相通信。图12中的处理单元320所实现的相关功能可以由处理器410 来实现，收发单元310所实现的相关功能可以由处理器410控制收发器420来实现。

可选地，该装置400还可以包括存储器430，该处理器410、该收发器420和该存储器430通过内部连接通路互相通信。图12中所述的存储单元所实现的相关功能可以由存储器430来实现。

在一种可能的实现方式中，当上述方法200中的语音降噪装置部署在终端中时，本申请实施例所涉及的装置300可以为终端。

图14示出了一种终端500的结构示意图。如图14所示，终端500可以包括处理器510，外部存储器接口520，内部存储器521，通用串行总线(universal serial bus，USB)接口530，充电管理模块540，电源管理模块541，电池542，天线1，天线2，移动通信模块550，无线通信模块560，音频模块570，扬声器570A，受话器570B，麦克风570C，耳机接口570D，传感器模块580，按键590，马达591，指示器592，摄像头593，显示屏 594，以及用户标识模块(subscriber identification module，SIM)卡接口595等。

可以理解的是，本申请实施例示意的结构并不构成对终端500的具体限定。在本申请另一些实施例中，终端500可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器510可以包括一个或多个处理单元，例如：处理器510可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器 (digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的部件，也可以集成在一个或多个处理器中。在一些实施例中，终端500也可以包括一个或多个处理器510。其中，控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。在其他一些实施例中，处理器510中还可以设置存储器，用于存储指令和数据。示例性地，处理器510中的存储器可以为高速缓冲存储器。该存储器可以保存处理器510刚用过或循环使用的指令或数据。如果处理器510需要再次使用该指令或数据，可从所述存储器中直接调用。这样就避免了重复存取，减少了处理器510的等待时间，因而提高了终端500处理数据或执行指令的效率。

在一些实施例中，处理器510可以包括一个或多个接口。接口可以包括集成电路间(inter-integrated circuit，I2C)接口，集成电路间音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，SIM 卡接口，和/或USB接口等。其中，USB接口530是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口530可以用于连接充电器为终端500充电，也可以用于终端500与外围设备之间传输数据。该USB接口530 也可以用于连接耳机，通过耳机播放音频。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对终端500的结构限定。在本申请另一些实施例中，终端500也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块540用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块540可以通过USB接口530接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块540可以通过终端500的无线充电线圈接收无线充电输入。充电管理模块540为电池542充电的同时，还可以通过电源管理模块541为终端供电。

电源管理模块541用于连接电池542，充电管理模块540与处理器510。电源管理模块541接收电池542和/或充电管理模块540的输入，为处理器510，内部存储器521，外部存储器，显示屏594，摄像头593，和无线通信模块560等供电。电源管理模块541还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块541也可以设置于处理器510中。在另一些实施例中，电源管理模块541和充电管理模块540也可以设置于同一个器件中。

终端500的无线通信功能可以通过天线1，天线2，移动通信模块550，无线通信模块560，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端500中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块550可以提供应用在终端500上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块550可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(lownoise amplifier，LNA)等。移动通信模块550可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块550还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块550的至少部分功能模块可以被设置于处理器510中。在一些实施例中，移动通信模块550的至少部分功能模块可以与处理器510的至少部分模块被设置在同一个器件中。

无线通信模块560可以提供应用在终端500上的包括无线局域网(wirelesslocalarea networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequencymodulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。

可选地，无线通信模块560可以是集成至少一个通信处理模块的一个或多个器件，其中，一个通信处理模块可以对应于一个网络接口，该网络接口可以设置在不同的业务功能模式，设置在不同模式下的网络接口可以建立与该模式对应的网络连接。。

例如：通过P2P功能模式下的网络接口可以建立支持P2P功能的网络连接，通过STA功能模式下的网络接口可以建立支持STA功能的网络连接，通过AP模式下的网络接口可以建立支持AP功能的网络连接。

无线通信模块560经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器510。无线通信模块560还可以从处理器510接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

终端500通过GPU，显示屏594，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏594和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器510可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏594用于显示图像，视频等。显示屏594包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed， Micro-oLed，量子点发光二极管(quantum dotlightemitting diodes，QLED)等。在一些实施例中，终端500可以包括1个或多个显示屏594。

在本申请的一些实施例中，当显示面板采用OLED、AMOLED、FLED等材料时，上述图14中的显示屏594可以被弯折。这里，上述显示屏594可以被弯折是指显示屏可以在任意部位被弯折到任意角度，并可以在该角度保持，例如，显示屏594可以从中部左右对折。也可以从中部上下对折。本申请中，将可以被弯折的显示屏称为可折叠显示屏。其中，该触摸显示屏可以是一块屏幕，也可以是多块屏幕拼凑在一起组合成的显示屏，在此不做限定。

终端500的显示屏594可以是一种柔性屏，目前，柔性屏以其独特的特性和巨大的潜力而备受关注。柔性屏相对于传统屏幕而言，具有柔韧性强和可弯曲的特点，可以给用户提供基于可弯折特性的新交互方式，可以满足用户对于终端的更多需求。对于配置有可折叠显示屏的终端而言，终端上的可折叠显示屏可以随时在折叠形态下的小屏和展开形态下大屏之间切换。因此，用户在配置有可折叠显示屏的终端上使用分屏功能，也越来越频繁。

终端500可以通过ISP，摄像头593，视频编解码器，GPU，显示屏594以及应用处理器等实现拍摄功能。

ISP用于处理摄像头593反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP 还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头593 中。

摄像头593用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体 (complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP 加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，终端500可以包括1个或多个摄像头593。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端500在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。终端500可以支持一种或多种视频编解码器。这样，终端500可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递业务功能，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端500的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口520可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端500 的存储能力。外部存储卡通过外部存储器接口520与处理器510通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器521可以用于存储一个或多个计算机程序，该一个或多个计算机程序包括指令。处理器510可以通过运行存储在内部存储器521的上述指令，从而使得终端500执行本申请一些实施例中所提供的灭屏显示的方法，以及各种应用以及数据处理等。内部存储器521可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统；该存储程序区还可以存储一个或多个应用(比如图库、联系人等)等。存储数据区可存储终端500 使用过程中所创建的数据(比如照片，联系人等)等。此外，内部存储器521可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储部件，闪存部件，通用闪存存储器(universal flash storage，UFS)等。在一些实施例中，处理器510可以通过运行存储在内部存储器521的指令，和/或存储在设置于处理器510中的存储器的指令，来使得终端500执行本申请实施例中所提供的灭屏显示的方法，以及其他应用及数据处理。终端500可以通过音频模块570，扬声器570A，受话器570B，麦克风570C，耳机接口570D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

传感器模块580可以包括压力传感器580A，陀螺仪传感器580B，气压传感器580C，磁传感器580D，加速度传感器580E，距离传感器580F，接近光传感器580G，指纹传感器580H，温度传感器580J，触摸传感器580K，环境光传感器580L，骨传导传感器580M 等。

本实施例还提供一种计算机存储介质，该计算机存储介质中存储有计算机指令，当该计算机指令在电子设备上运行时，使得电子设备执行上述相关方法步骤实现上述实施例中的语音降噪方法。

本实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的语音降噪方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的语音降噪方法。

其中，本实施例提供的服务器、终端、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种语音降噪方法，其特征在于，包括：

获取M个第一语音频谱信号，所述M个第一语音频谱信号是通过N个麦克风对用户的第一语音进行采集得到的，M和N均为大于1的整数，且N大于或等于M；

对所述M个第一语音频谱信号进行第一滤波降噪处理，得到M个第一降噪信号；

根据所述M个第一降噪信号中的每个第一降噪信号，确定第一掩码信息，所述第一掩码信息用于表示所述每个第一降噪信号中包括的多个频点中的每个频点属于第一目标频点的概率值，所述第一目标频点包括预设的第一目标语音的频谱信号中包括的频点；

根据所述第一掩码信息，对所述M个第一语音频谱信号进行第二滤波降噪处理，得到M个第二降噪信号，所述M个第二降噪信号用于识别所述第一语音中是否包含所述第一目标语音。

2.根据权利要求1所述的方法，其特征在于，所述根据所述M个第一降噪信号中的每个第一降噪信号，确定第一掩码信息，包括：

将所述M个第一降噪信号中的每个第一降噪信号的频谱特征信息输入第一神经网络模型，得到所述第一掩码信息，所述每个第一降噪信号的频谱特征信息用于表示所述每个第一降噪信号的频谱分布特征，其中，所述第一神经网络模型是根据第一训练数据样本集训练得到的，所述第一训练数据样本集中包括至少一个第一样本数据组，所述至少一个第一样本数据组中的每个第一样本数据组包括第一样本语音频谱信号的频谱特征信息和与所述第一样本语音频谱信号对应的第二样本语音频谱信号的频谱特征信息，所述第一样本语音频谱信号包括所述第一目标语音，所述第二样本语音频谱信号包括所述第一样本语音频谱信号和噪声。

3.根据权利要求1或2所述的方法，其特征在于，当M大于N时，所述获取M个第一语音频谱信号，包括：

接收所述N个麦克风对所述第一语音进行采集得到的N个第二语音信号，所述N个麦克风与所述N个第二语音信号一一对应；

对所述N个第二语音信号进行频域转换，得到N个第二语音频谱信号；

对所述N个第二语音频谱信号进行第一处理，得到所述M个第一语音频谱信号，其中，所述第一处理包括波达方向处理或波束成形处理。

4.根据权利要求1或2所述的方法，其特征在于，当M等于N时，所述获取M个第一语音频谱信号，包括：

接收所述N个麦克风对所述第一语音进行采集得到的N个第一语音信号，所述N个麦克风与所述N个第一语音信号一一对应；

对所述N个第一语音信号进行频域转换，得到所述M个第一语音频谱信号。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

根据所述M个第二降噪信号对所述第一语音进行语音识别，以确定所述第一语音中是否包含所述第一目标语音。

6.根据权利要求5所述的方法，其特征在于，当确定所述第一语音中包含所述第一目标语音时，所述方法还包括：

获取M个第三语音频谱信号，所述M个第三语音频谱信号是通过所述N个麦克风对所述用户的第二语音进行采集得到的；

根据所述第二滤波降噪处理所使用的滤波系数，对所述M个第三语音频谱信号进行第三滤波降噪处理，得到M个第三降噪信号；

根据M个第二目标降噪信号，对所述M个第三降噪信号进行降噪，得到第四降噪信号，所述第四降噪信号用于识别所述第二语音中是否包含预设的第二目标语音，所述M个第二目标降噪信号为所述M个第二降噪信号中与所述第一目标语音对应的部分。

7.根据权利要求6所述的方法，其特征在于，所述根据M个第二目标降噪信号，对所述M个第三降噪信号进行降噪，得到第四降噪信号，包括：

从所述M个第二目标降噪信号中确定出第二参考降噪信号，所述第二参考降噪信号为所述M个第二目标降噪信号中识别出所述第一目标语音的概率最大的第二目标降噪信号；

根据所述每个第二降噪信号与所述第二参考降噪信号之间的相似度，确定所述每个第二降噪信号的加权值；

根据所述M个第二降噪信号中每个第二降噪信号的加权值，对所述M个第二降噪信号进行加权，得到第一加权降噪信号；

根据所述M个第二降噪信号中每个第二降噪信号的加权值，对所述M个第三降噪信号进行加权，得到第二加权降噪信号；

根据所述第一加权降噪信号，对所述第二加权降噪信号进行降噪，得到所述第四降噪信号。

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一加权降噪信号，对所述第二加权降噪信号进行降噪，得到所述第四降噪信号，包括：

确定所述第一加权降噪信号的特征信息，所述特征信息包括所述用户的声纹特征或位置特征；

根据所述第一加权降噪信号的特征信息，对所述第二加权降噪信号进行降噪，得到所述第四降噪信号。

9.根据权利要求6至8中任一项所述的方法，其特征在于，在所述获取M个第三语音频谱信号之前，所述方法还包括：

确定所述M个第二目标降噪信号中每个第二目标降噪信号的掩码值，所述每个第二目标降噪信号的掩码值为所述每个第二目标降噪信号包括的多个频点中每个频点属于所述第一目标频点的概率值之和，且所述每个第二目标降噪信号的掩码值越大，所述每个第二目标降噪信号中识别出所述第一目标语音的概率越大；

当所述M个第二目标降噪信号中的至少一个第二目标降噪信号的掩码值大于或等于预设的掩码值阈值时，确定所述M个第二目标降噪信号中包含所述第一目标语音。

10.根据权利要求6至9中任一项所述的方法，其特征在于，

所述第一目标语音为唤醒词，所述唤醒词用于唤醒终端，所述第二目标语音为第一控制指令，所述第一控制指令用于控制所述终端执行与所述第一控制指令对应的操作；或，

所述第一目标语音为第二控制指令，所述第二控制指令用于控制所述终端执行与所述第二控制指令对应的操作。

11.一种语音降噪装置，其特征在于，包括：

获取单元，用于获取M个第一语音频谱信号，所述M个第一语音频谱信号是通过N个麦克风对用户的第一语音进行采集得到的，M和N均为大于1的整数，且N大于或等于M；

第一滤波单元，用于对所述M个第一语音频谱信号进行第一滤波降噪处理，得到M个第一降噪信号；

处理单元，用于根据所述M个第一降噪信号中的每个第一降噪信号，确定第一掩码信息，所述第一掩码信息用于表示所述每个第一降噪信号中包括的多个频点中的每个频点属于第一目标频点的概率值，所述第一目标频点包括预设的第一目标语音的频谱信号中包括的频点；

第二滤波单元，用于根据所述第一掩码信息，对所述M个第一语音频谱信号进行第二滤波降噪处理，得到M个第二降噪信号，所述M个第二降噪信号用于识别所述第一语音中是否包含所述第一目标语音。

12.根据权利要求11所述的装置，其特征在于，所述处理单元具体用于：

13.根据权利要求11或12所述的装置，其特征在于，当M大于N时，所述获取单元具体用于：

14.根据权利要求11或12所述的装置，其特征在于，当M等于N时，所述获取单元具体用于：

15.根据权利要求11至14中任一项所述的装置，其特征在于，所述装置还包括语音识别单元，

所述语音识别单元用于根据所述M个第二降噪信号对所述第一语音进行语音识别，以确定所述第一语音中是否包含所述第一目标语音。

16.根据权利要求15所述的装置，其特征在于，所述装置还包括降噪单元，

所述获取单元还用于：

当所述语音识别单元根据所述M个第二降噪信号对所述第一语音进行识别，确定所述第一语音中包含所述第一目标语音时，获取M个第三语音频谱信号，所述M个第三语音频谱信号是通过所述N个麦克风对所述用户的第二语音进行采集得到的，所述N个麦克风的数量大于或等于所述M个第三语音频谱信号的数量；

所述第一滤波单元还用于：

所述降噪单元用于根据M个第二目标降噪信号，对所述M个第三降噪信号进行降噪，得到第四降噪信号，所述第四降噪信号用于识别所述第二语音中是否包含预设的第二目标语音，所述M个第二目标降噪信号为所述M个第二降噪信号中与所述第一目标语音对应的部分。

17.根据权利要求16所述的装置，其特征在于，所述降噪单元具体用于：

18.根据权利要求17所述的装置，其特征在于，所述降噪单元具体用于：

19.根据权利要求16至18中任一项所述的装置，其特征在于，所述处理单元还用于：

在所述获取M个第三语音频谱信号之前，确定所述M个第二目标降噪信号中每个第二目标降噪信号的掩码值，所述每个第二目标降噪信号的掩码值为所述每个第二目标降噪信号包括的多个频点中每个频点属于所述第一目标频点的概率值之和，且所述每个第二目标降噪信号的掩码值越大，所述每个第二目标降噪信号中识别出所述第一目标语音的概率越大；

20.根据权利要求11至20中任一项所述的装置，其特征在于，

21.一种语音降噪装置，其特征在于，包括处理器和存储器，所述存储器中存储有指令，所述处理器执行所述指令时，使得所述装置执行上述权利要求1至10中任一项所述的方法。

22.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序或指令，当所述计算机程序或指令被通信装置执行时，实现上述权利要求1至10中任一项所述的方法。

23.一种计算机程序产品，其特征在于，所述计算机程序产品中包含指令，当所述指令在计算机或处理器上运行时，使得所述计算机或所述处理器实现上述权利要求1至10中任一项所述的方法。