CN107910011A

CN107910011A - 一种语音降噪方法、装置、服务器及存储介质

Info

Publication number: CN107910011A
Application number: CN201711458315.0A
Authority: CN
Inventors: 王海坤; 马峰; 王智国
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2018-04-13
Anticipated expiration: 2037-12-28
Also published as: EP3734599A1; KR102456125B1; JP2021503633A; EP3734599C0; ES2960555T3; EP3734599B1; KR20200074199A; US11064296B2; US20200389728A1; CN107910011B; EP3734599A4; JP7109542B2; WO2019128140A1

Abstract

本申请提供了一种语音降噪方法、装置、服务器及存储介质，语音降噪方法包括：获取声学麦克风和非声学麦克风同步采集的语音信号；根据非声学麦克风采集的语音信号进行语音活动性检测，得到语音活动性检测结果；根据语音活动性检测结果，对声学麦克风采集的语音信号进行降噪，得到降噪后的语音信号。在本申请中，通过以上方式可以增强降噪的效果，提高语音信号的质量。

Description

一种语音降噪方法、装置、服务器及存储介质

技术领域

本申请涉及数字信号处理技术领域，特别涉及一种语音降噪方法、装置、服务器及存储介质。

背景技术

随着语音技术的快速发展，其已广泛应用在日常生活和工作中的多个领域，为人们的生活和工作提供了极大的便利。

然而，在语音技术的应用过程中，语音信号的质量一般会因噪声等因素的干扰而下降，而语音信号质量的下降会直接影响语音信号的应用(如，语音识别、语音播放等)。因此，如何提高语音信号的质量成为亟需解决的问题。

发明内容

为解决上述技术问题，本申请实施例提供一种语音降噪方法、装置、服务器及存储介质，以达到提高语音信号质量的目的，技术方案如下：

一种语音降噪方法，包括：

获取声学麦克风和非声学麦克风同步采集的语音信号；

根据所述非声学麦克风采集的语音信号进行语音活动性检测，得到语音活动性检测结果；

根据所述语音活动性检测结果，对所述声学麦克风采集的语音信号进行降噪，得到降噪后的语音信号。

一种语音降噪装置，包括：

语音信号获取模块，用于获取声学麦克风和非声学麦克风同步采集的语音信号；

语音活动性检测模块，用于根据所述非声学麦克风采集的语音信号进行语音活动性检测，得到语音活动性检测结果；

语音降噪模块，用于根据所述语音活动性检测结果，对所述声学麦克风采集的语音信号进行降噪，得到降噪后的语音信号。

一种服务器，包括：至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述存储器存储的程序，所述程序用于：

获取声学麦克风和非声学麦克风同步采集的语音信号；

一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如上语音降噪方法的各个步骤。

与现有技术相比，本申请的有益效果为：

在本申请中，获取声学麦克风和非声学麦克风同步采集的语音信号，其中，非声学麦克风可以通过与环境噪声无关的方式(如，检测人的皮肤或喉部骨骼的振动)采集语音信号，在此基础上，根据非声学麦克风采集的语音信号进行语音活动性检测，相比于根据声学麦克风采集的语音信号进行语音活动性检测，可以降低环境噪声的影响，提高检测的准确度，进而根据非声学麦克风采集的语音信号得到的语音活动性检测结果，对声学麦克风采集的语音信号进行降噪，增强降噪的效果，提高降噪后语音信号的质量，进而可以为后续语音信号应用提供高质量的语音信号。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音降噪方法的一种流程图；

图2为非声学麦克风采集的语音信号的基频信息的分布示意图；

图3为本发明实施例提供的语音降噪方法的另一种流程图；

图4为本发明实施例提供的语音降噪方法的再一种流程图；

图5为本发明实施例提供的语音降噪方法的再一种流程图；

图6为本发明实施例提供的语音降噪方法的再一种流程图；

图7为本发明实施例提供的语音降噪方法的再一种流程图；

图8为本发明实施例提供的语音降噪方法的再一种流程图；

图9为本发明实施例提供的语音降噪方法的再一种流程图；

图10为本发明实施例提供的语音降噪方法的再一种流程图；

图11为本发明实施例提供的语音降噪装置的一种逻辑结构示意图；

图12为服务器的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在对本申请实施例公开的语音降噪方法进行介绍之前，首先对本申请实施例公开的语音降噪方法的构思过程进行简要介绍，具体如下：

为了提高语音信号的质量，已知技术处理方式可以采用语音降噪技术，对语音进行增强，来提高语音的识别性。已有的语音降噪技术可以包括：单麦克风语音降噪方法或麦克风阵列语音降噪方法。

其中，单麦克风语音降噪方法充分考虑了噪声和语音信号的统计特性，对于平稳噪声具有较好的抑制效果，但是无法预测统计特性不稳定的非平稳噪声，并且会存在一定程度的语音失真。因此单麦克风语音降噪方法的语音降噪能力比较有限。

而麦克风阵列语音降噪方法由于融合了语音信号的时序信息和空间信息，因此相较于单麦克风语音降噪方法仅仅利用信号的时序信息，能更好的平衡噪声抑制幅度和语音失真度控制的关系，并且对非平稳噪声有一定的抑制效果。但是，受制于成本和设备尺寸的限制，某些应用场景下不可能使用无限多的麦克风，因此即使使用麦克风阵列进行语音降噪，也无法取得满意的语音降噪效果。

鉴于单麦克风语音降噪方法和麦克风阵列语音降噪方法存在的问题，申请人在研究过程中试图通过不采用声学麦克风(如，单麦克风或麦克风阵列)，而是采用与环境噪声无关的信号采集装置(本文中下述均称为非声学麦克风，如，骨导麦克风、光学麦克风)，通过与环境噪声无关的方式采集语音信号(如，骨导麦克风主要通过紧贴脸部或喉部的骨骼，检测骨骼的振动并将其转化成语音信号；光学麦克风又称激光麦克风，通过激光发射器发射激光到喉部或者脸部的皮肤，并通过接收器接收由于皮肤振动产生的反射信号，然后分析发射激光和反射激光的差异，并将其转化成语音信号)，更大程度的降低噪声对语音通信或语音识别的干扰。

但是，上述非声学麦克风也具有一定的局限性，首先是由于骨骼和皮肤振动的频率不可能太快，因此非声学麦克风采集的信号上限不高，基本不超过2000Hz；同时由于只有发浊音的时候声带才会振动，清音不振动，因此非声学麦克风也只能采集到浊音信号。基于以上原因，基于非声学麦克风采集到的语音信号虽然具有较强的抗噪性，但是采集到的语言信号不完整，如果单独使用非声学麦克风，在绝大多数的场合仍不能满足语音通信和语音识别的要求，最终申请人提出了下述的的语音降噪方法，通过获取声学麦克风和非声学麦克风同步采集的语音信号，及根据所述非声学麦克风采集的语音信号进行语音活动性检测，得到语音活动性检测结果，及根据所述语音活动性检测结果，对所述声学麦克风采集的语音信号进行降噪，得到降噪后的语音信号，实现语音的降噪。

接下来对本申请实施例公开的语音降噪方法进行介绍，请参见图1，可以包括：

步骤S100、获取声学麦克风和非声学麦克风同步采集的语音信号。

本实施例中，声学麦克风可以包括：单个声学麦克风或声学麦克风阵列。

可以理解的是，声学麦克风可以放置在可以采集到语音信号的任意位置，来进行语音信号的采集。而，非声学麦克风则需要放置在可以采集到语音信号的区域(比如，骨导麦克风需要紧贴喉部或脸部骨骼，光学麦克风则需要放置在激光可以照射到说话人的皮肤振动区域(侧脸部和喉部)的位置)，来进行语音信号的采集。

声学麦克风和非声学麦克风同步采集语音信号，可以提高声学麦克风采集的语音信号和非声学麦克风采集的语音信号的一致性，提高语音信号处理的便利性。

步骤S110、根据所述非声学麦克风采集的语音信号进行语音活动性检测，得到语音活动性检测结果。

一般地，语音降噪过程中需要进行语音存在与否的检测，但在信噪比较低的环境下，仅使用声学麦克风采集的语音信号进行语音存在与否的检测，准确性不高，为了提高语音存在与否的检测的准确性，本实施例利用非声学麦克风采集的语音信号，进行语音活动性检测，来实现语音存在与否的检测，可以降低环境噪声对检测的影响，提高语音存在与否的检测的准确性。

当然，语音存在与否的检测的准确性的提高，也可以提高最终的语音降噪效果。

步骤S120、根据所述语音活动性检测结果，对所述声学麦克风采集的语音信号进行降噪，得到降噪后的语音信号。

利用所述语音活动性检测结果，对所述声学麦克风采集的语音信号进行降噪处理，可以减少所述声学麦克风采集的语音信号中的噪声成分，使降噪处理后的声学麦克风语音信号中的语音成分更加凸显。

在本申请的另一个实施例中，对前述实施例中S110、根据所述非声学麦克风采集的语音信号进行语音活动性检测，得到语音活动性检测结果的过程进行介绍，具体可以包括：

A1、确定所述非声学麦克风采集的语音信号的基频信息。

本步骤确定的所述非声学麦克风采集的语音信号的基频信息可以理解为语音信号的基音频率，即人在说话时声门闭合的频率。

一般地，男性语音的基频范围为50～250Hz；女性语音的基频范围为120～500Hz。同时，由于所述非声学麦克风可以采集到频率低于2000Hz的语言信号，因此可以从所述非声学麦克风采集的语音信号中确定出完整的基频信息。

现结合图2，以光学麦克风采集的语音信号为例，对确定的所述非声学麦克风采集的语音信号的基频信息在语音信号中的分布进行说明，如图2所示，基频信息为频率在50～500Hz之间的部分。

A2、利用所述基频信息进行语音活动性检测，得到语音活动性检测结果。

由于基频信息为所述非声学麦克风采集的语音信号中较为明显的音频信息，因此本实施例可以利用非声学麦克风采集的语音信号中的基频信息，进行语音活动性检测，来实现语音存在与否的检测，可以降低环境噪声对检测的影响，提高语音存在与否的检测的准确性。

需要说明的是，语音活动性检测的具体实施方式有多种，具体可以包括但不局限于：

帧级别语音活动性检测；

或，频点级别语音活动性检测；

或，帧级别语音活动性检测与频点级别语音活动性检测相结合，完成语音活动性检测。

另，需要指出的是，与前述介绍的语音活动性检测的不同的具体实施方式相对应，前述实施例中S120、根据所述语音活动性检测结果，对所述声学麦克风采集的语音信号进行降噪，得到降噪后的语音信号的具体实施方式也不同。

接下来，基于前述介绍的语音活动性检测的各个具体实施方式，对利用所述基频信息进行语音活动性检测，及其对应的前述实施例中S120、根据所述语音活动性检测结果，对所述声学麦克风采集的语音信号进行降噪，得到降噪后的语音信号的具体实施方式进行一一介绍。

首先，介绍与帧级别语音活动性检测的实施方式相对应的语音降噪方法，请参见图3，可以包括：

步骤S200、获取声学麦克风和非声学麦克风同步采集的语音信号。

步骤S200与前述实施例中步骤S100相同，步骤S200的详细过程可以参见前述实施例中步骤S100的介绍，在此不再赘述。

步骤S210、确定所述非声学麦克风采集的语音信号的基频信息。

步骤S210与前述实施例中步骤A1相同，步骤S210的详细过程可以参见前述实施例中步骤A1的介绍，在此不再赘述。

步骤S220、利用所述基频信息，对所述声学麦克风采集的语音信号进行帧级别语音活动性检测，得到帧级别语音活动性检测结果。

本步骤为前述实施例中A2利用所述基频信息进行语音活动性检测，得到语音活动性检测结果的一种具体实施方式。

利用所述基频信息，对所述声学麦克风采集的语音信号进行帧级别语音活动性检测，得到帧级别语音活动性检测结果的具体过程，可以包括：

B1、检测所述基频信息是否为零。

若所述基频信息不为零，则执行步骤B2，若所述基频信息为零，则执行步骤B3。

B2、确定所述声学麦克风采集的语音信号中与所述基频信息对应的语音帧中存在语音信号。

B3、检测所述声学麦克风采集的语音信号的信号强度。

若检测到所述声学麦克风采集的语音信号的信号强度低，则执行步骤B4。

B4、确定所述声学麦克风采集的语音信号中与所述基频信息对应的语音帧中不存在语音信号。

在检测到所述基频信息为零的基础上，进一步通过检测所述声学麦克风采集的语音信号的信号强度，来提高确定所述声学麦克风采集的语音信号中与所述基频信息对应的语音帧中不存在语音信号这一结果的准确性。

本实施例中，由于基频信息为非声学麦克风采集的语音信号中的基频信息，而非声学麦克风可以通过与环境噪声无关的方式采集语音信号，可以通过检测基频信息对应的语音帧中是否存在语音信号，降低环境噪声对检测的影响，提高检测的准确性。

步骤S230、根据所述帧级别语音活动性检测结果，对所述声学麦克风采集的语音信号进行第一降噪处理，得到第一降噪处理后声学麦克风采集的语音信号。

需要说明的是，对于所述声学麦克风包括的单个声学麦克风或声学麦克风阵列而言，根据所述帧级别语音活动性检测结果，对所述声学麦克风采集的语音信号进行降噪的过程有所不同，具体如下：

针对单个声学麦克风，可以利用帧级别语音活动性检测结果，进行噪声谱估计的更新，可以使噪声类型估计的更加准确，进而可以利用更新的噪声谱估计对所述声学麦克风采集的语音信号进行降噪。其中，利用更新的噪声谱估计对所述声学麦克风采集的语音信号进行降噪可以参见已有技术中利用噪声谱估计进行降噪的过程，在此不再赘述。

针对声学麦克风阵列，利用帧级别语音活动性检测结果，可以更新声学麦克风阵列语音降噪系统中的阻塞矩阵、自适应噪声消除滤波器，进而可以利用更新后的阻塞矩阵、自适应噪声消除滤波器对所述声学麦克风采集的语音信号进行降噪。其中，利用更新后的阻塞矩阵、自适应噪声消除滤波器对所述声学麦克风采集的语音信号进行降噪，可以参见已有技术在此不再赘述。

本实施例利用非声学麦克风采集的语音信号中的基频信息，进行帧级别语音活动性检测，来实现语音存在与否的检测，可以降低环境噪声对检测的影响，提高语音存在与否的检测的准确性，在提高语音存在与否的检测的准确性的基础上，利用帧级别语音活动性检测结果，对声学麦克风采集的语音信号进行第一降噪处理，可以减少所述声学麦克风采集的语音信号中的噪声成分，使第一降噪处理后的声学麦克风语音信号中的语音成分更加凸显。

在本申请的另一个实施例中，介绍与频点级别语音活动性检测的实施方式相对应的语音降噪方法，请参见图4，可以包括：

步骤S300、获取声学麦克风和非声学麦克风同步采集的语音信号。

步骤S300与前述实施例中步骤S100相同，步骤S300的详细过程可以参见前述实施例中步骤S100的介绍，在此不再赘述。

步骤S310、确定所述非声学麦克风采集的语音信号的基频信息。

步骤S310与前述实施例中步骤A1相同，步骤S310的详细过程可以参见前述实施例中步骤A1、确定所述非声学麦克风采集的语音信号的基频信息的介绍，在此不再赘述。

步骤S320、根据所述基频信息，确定语音的高频频点分布信息。

可以明确的是，语音信号是宽频信号，并且在频谱分布上具有一定的稀疏性，即语音信号的某一个语音帧中有些频点是语音成分，有些频点是噪声成分。而为了更好的抑制噪声频点，保留语音频点，首先需要确定出语音频点。确定语音频点的方式可以为本步骤提出的根据所述基频信息，确定语音的高频频点分布信息。

可以理解的是，语音的高频频点为语音成分，而非噪声成分。

需要说明的是，在某些应用环境(如，高噪环境)下，部分频点成分信噪比为负值，仅靠声学麦克风难以准确的估计频点是语音成分还是噪声成分，因此本实施例采用根据非声学麦克风的语音信号的基频信息，估计语音频点(即确定语音的高频频点分布信息)，来提高语音频点估计的准确性。

根据所述基频信息，确定语音的高频频点分布信息的具体过程，可以包括：

C1、对所述基频信息进行倍乘运算，得到倍乘后的基频信息。

对所述基频信息进行倍乘运算可以理解为：对所述基频信息乘以大于1的数，如将所述基频信息分别乘以2、3、4、…、N，所述N为大于1的数。

C2、按照预设频点扩展值，对所述倍乘后的基频信息进行扩展，得到语音的高频频点分布区间，作为所述语音的高频频点分布信息。

需要说明的是，在语音降噪的过程中，一般可以忍受一些残留的噪声，但是无法接受语音成分的损失，因此为了尽可能多的保留语音成分，可以按照预设频点扩展值对所述倍乘后的基频信息进行扩展，减少通过基频信息确定的高频频点的遗漏个数。

优选的，预设频点扩展值可以设置为1或2。

本实施例中，语音的高频频点分布区间可以表示为：2*f±Δ,3*f±Δ,...,N*f±Δ。

其中，f表示基频信息，2*f、3*f、…、N*f表示倍乘后的基频信息，Δ表示预设频点扩展值。

步骤S330、根据所述高频频点分布信息，对所述声学麦克风采集的语音信号进行频点级别语音活动性检测，得到频点级别语音活动性检测结果。

在前述步骤S320确定语音的高频频点分布信息后，可以根据所述高频频点分布信息，对所述声学麦克风采集的语音信号进行频点级别语音活动性检测，确定语音帧中的高频频点为语音成分，非高频频点为噪声成分。基于此，根据所述高频频点分布信息，对所述声学麦克风采集的语音信号进行频点级别语音活动性检测，得到频点级别语音活动性检测结果的具体过程，可以包括：

将所述声学麦克风采集的语音信号中，频点为所述高频频点的频点确定为存在语音信号的频点，频点非所述高频频点的频点确定为不存在语音信号的频点。

步骤S340、根据所述频点级别语音活动性检测结果，对所述声学麦克风采集的语音信号进行第二降噪处理，得到第二降噪处理后声学麦克风采集的语音信号。

具体地，根据所述频点级别语音活动性检测结果对单个声学麦克风或声学麦克风阵列采集的语音信号进行降噪的过程，可以参见前述实施例中步骤S230介绍的根据帧级别语音活动性检测结果进行降噪的过程，在此不再赘述。

需要说明的是，本实施例中，根据所述频点级别语音活动性检测结果，对所述声学麦克风采集的语音信号进行了降噪处理，为了与前述实施例中第一降噪处理过程进行区分，这里定义为第二降噪处理方式。

本实施例中，根据所述高频频点分布信息，进行频点级别语音活动性检测，来实现语音存在与否的检测，可以降低环境噪声对检测的影响，提高语音存在与否的检测的准确性，在提高语音存在与否的检测的准确性的基础上，利用频点级别语音活动性检测结果，对声学麦克风采集的语音信号进行第二降噪处理，可以减少声学麦克风采集的语音信号中的噪声成分，使第二降噪处理后的声学麦克风语音信号中的语音成分更加凸显。

在本申请的另一个实施例中，介绍与频点级别语音活动性检测的实施方式相对应的另外一种语音降噪方法，请参见图5，可以包括：

步骤S400、获取声学麦克风和非声学麦克风同步采集的语音信号。

具体地，非声学麦克风采集的语音信号具体为浊音信号。

步骤S410、确定所述非声学麦克风采集的语音信号的基频信息。

确定所述非声学麦克风采集的语音信号的基频信息可以理解为：确定所述浊音信号的基频信息。

步骤S420、根据所述基频信息，确定语音的高频频点分布信息。

步骤S430、根据所述高频频点分布信息，对所述声学麦克风采集的语音信号进行频点级别语音活动性检测，得到频点级别语音活动性检测结果。

步骤S440、根据所述非声学麦克风采集的浊音信号包含的各语音帧的时间点，在所述声学麦克风采集的语音信号中获取相同时间点的语音帧，作为待处理语音帧。

步骤S450、根据所述频点级别语音活动性检测结果，对所述待处理语音帧中各频点进行增益处理，得到增益后语音帧，各所述增益后语音帧组成增益后的声学麦克风采集的浊音信号。

其中，增益处理的过程可以包括：将频点为所述高频频点的频点乘以第一增益值，频点为非所述高频频点的频点乘以第二增益值，所述第一增益值大于所述第二增益值。

由于第一增益值大于第二增益值，高频频点为语音成分，因此将频点为所述高频频点的频点乘以第一增益值，频点为非所述高频频点的频点乘以第二增益值，可以使语音成分相比于噪声成分能够明显得到增强，增益后语音帧即增强后的语音帧，各增强后的语音帧组成增强后的浊音信号，从而实现对声学麦克风采集的语音信号的增强。

一般地，第一增益值的值可以设置为1，第二增益值的取值范围可以设置为大于0且小于0.5，具体可以从大于0且小于0.5的取值范围中选取任意一个值作为所述第二增益值的值。

可选的，对所述待处理语音帧中各频点进行增益处理，得到增益后语音帧，可以采用如下增益处理关系式计算：

S_SEi＝S_Ai*Comb_i i＝1,2,...,M

S_SEi表示增益后语音帧，S_Ai表示待处理语音帧中的第i个频点，i表示频点，M表示一个待处理语音帧中频点的总个数；

Comb_i表示增益值，其中Comb_i的大小可根据如下赋值关系式确定：

G_H表示第一增益值，f表示基频信息，hfp表示高频频点分布信息，i∈hfp表示第i个频点为高频频点，G_min表示第二增益值，表示第i个频点为非高频频点。

另，需要说明的是，基于语音的高频频点分布区间可以表示为：2*f±Δ,3*f±Δ,...,N*f±Δ的实施方式，由n*f±Δ可以代替前述介绍的赋值关系式中的hfp，对赋值关系式进行优化，优化后的赋值关系式可以表示为：

本实施例，根据所述高频频点分布信息，进行频点级别语音活动性检测，来实现语音存在与否的检测，可以降低环境噪声对检测的影响，提高语音存在与否的检测的准确性，在提高语音存在与否的检测的准确性的基础上，利用频点级别语音活动性检测结果，对声学麦克风采集的语音信号进行增益处理(增益处理过程也可以看作降噪处理的过程)，可以使增益处理后的声学麦克风语音信号中的语音成分更加凸显。

在本申请的另一个实施例中，介绍与频点级别语音活动性检测的实施方式相对应的另外一种语音降噪方法，请参见图6，可以包括：

步骤S500、获取声学麦克风和非声学麦克风同步采集的语音信号。

具体地，非声学麦克风采集的语音信号具体为：浊音信号。

步骤S510、确定所述非声学麦克风采集的语音信号的基频信息。

步骤S520、根据所述基频信息，确定语音的高频频点分布信息。

步骤S530、根据所述高频频点分布信息，对所述声学麦克风采集的语音信号进行频点级别语音活动性检测，得到频点级别语音活动性检测结果。

步骤S540、根据所述频点级别语音活动性检测结果，对所述声学麦克风采集的语音信号进行第二降噪处理，得到第二降噪处理后声学麦克风采集的语音信号。

步骤S500-S540与前述实施例中步骤S300-S340一一对应，步骤S500-S540的详细过程可以参见前述实施例中步骤S300-S340的介绍，在此不再赘述。

步骤S550、根据所述非声学麦克风采集的浊音信号包含的各语音帧的时间点，在所述第二降噪处理后声学麦克风采集的语音信号中获取相同时间点的语音帧，作为待处理语音帧。

步骤S560、根据所述频点级别语音活动性检测结果，对所述待处理语音帧中各频点进行增益处理，得到增益后语音帧，各所述增益后语音帧组成增益后的声学麦克风采集的浊音信号。

其中，所述增益处理的过程可以包括：将频点为所述高频频点的频点乘以第一增益值，频点为非所述高频频点的频点乘以第二增益值，所述第一增益大于所述第二增益。

步骤S550-S560的详细过程可以参见步骤S440-S450的相关介绍，在此不再赘述。

本实施例，首先对声学麦克风采集的语音信号进行了第二降噪处理，然后对第二降噪处理后声学麦克风采集的语音信号进行了增益处理，可以进一步减少声学麦克风采集的语音信号中的噪声成分，使增益后的声学麦克风语音信号中的语音成分更加凸显。

在本申请的另一个实施例中，介绍与帧级别语音活动性检测与频点级别语音活动性检测相结合的实施方式相对应的语音降噪方法，请参见图7，可以包括：

步骤S600、获取声学麦克风和非声学麦克风同步采集的语音信号。

步骤S610、确定所述非声学麦克风采集的语音信号的基频信息。

步骤S620、利用所述基频信息，对所述声学麦克风采集的语音信号进行帧级别语音活动性检测，得到帧级别语音活动性检测结果。

步骤S630、根据所述帧级别语音活动性检测结果，对所述声学麦克风采集的语音信号进行第一降噪处理，得到第一降噪处理后声学麦克风采集的语音信号。

步骤S600-S630与前述实施例中步骤S200-S230一一对应，步骤S600-S630的详细过程可以参见前述实施例中步骤S200-S230的相关介绍，在此不再赘述。

步骤S640、根据所述基频信息，确定语音的高频频点分布信息。

本步骤的详细过程可以参见前述实施例中步骤S320的相关介绍，在此不再赘述。

步骤S650、根据所述高频频点分布信息，对所述声学麦克风采集的语音信号中，帧级别语音活动性检测结果表示的存在语音信号的语音帧进行频点级别语音活动性检测，得到频点级别语音活动性检测结果。

根据所述高频频点分布信息，对所述声学麦克风采集的语音信号中，帧级别语音活动性检测结果表示的存在语音信号的语音帧进行频点级别语音活动性检测，得到频点级别语音活动性检测结果的具体过程，可以包括：

根据所述高频频点分布信息，将所述声学麦克风采集的语音信号中，帧级别语音活动性检测结果表示的存在语音信号的语音帧中频点为所述高频频点的频点确定为存在语音信号的频点，频点非所述高频频点的频点确定为不存在语音信号的频点。

步骤S660、根据所述频点级别语音活动性检测结果，对所述第一降噪处理后声学麦克风采集的语音信号进行第二降噪处理，得到第二降噪处理后声学麦克风采集的语音信号。

本实施例，首先利用帧级别语音活动性检测结果，对声学麦克风采集的语音信号进行第一降噪处理，可以减少声学麦克风采集的语音信号中的噪声成分，然后利用频点级别语音活动性检测结果，对第一降噪处理后声学麦克风采集的语音信号进行第二降噪处理，可以进一步减少第一降噪处理后声学麦克风采集的语音信号中的噪声成分，使第二降噪处理后声学麦克风语音信号中的语音成分更加凸显。

在本申请的另一个实施例中，介绍与帧级别语音活动性检测与频点级别语音活动性检测相结合的实施方式相对应的另一种语音降噪方法，请参见图8，可以包括：

步骤S700、获取声学麦克风和非声学麦克风同步采集的语音信号。

具体地，非声学麦克风采集的语音信号具体为：浊音信号。

步骤S710、确定所述非声学麦克风采集的语音信号的基频信息。

步骤S720、利用所述基频信息，对所述声学麦克风采集的语音信号进行帧级别语音活动性检测，得到帧级别语音活动性检测结果。

步骤S730、根据所述帧级别语音活动性检测结果，对所述声学麦克风采集的语音信号进行第一降噪处理，得到第一降噪处理后声学麦克风采集的语音信号。

步骤S700-S730与前述实施例中步骤S200-S230一一对应，步骤S700-S730的详细过程可以参见前述实施例中步骤S700-S730的相关介绍，在此不再赘述。

步骤S740、根据所述基频信息，确定语音的高频频点分布信息。

步骤S750、根据所述高频频点分布信息，对所述声学麦克风采集的语音信号进行频点级别语音活动性检测，得到频点级别语音活动性检测结果。

步骤S760、根据所述非声学麦克风采集的浊音信号包含的各语音帧的时间点，在所述第一降噪处理后声学麦克风采集的语音信号中获取相同时间点的语音帧，作为待处理语音帧。

步骤S770、根据所述频点级别语音活动性检测结果，对所述待处理语音帧中各频点进行增益处理，得到增益后语音帧，各所述增益后语音帧组成增益后的声学麦克风采集的浊音信号。

所述增益处理的过程可以包括：将频点为所述高频频点的频点乘以第一增益值，频点为非所述高频频点的频点乘以第二增益值，所述第一增益值大于所述第二增益值。

步骤S770的详细过程可以参见前述实施例中步骤S450的详细过程，在此不再赘述。

本实施例，首先利用帧级别语音活动性检测结果，对声学麦克风采集的语音信号进行第一降噪处理，可以减少所述声学麦克风采集的语音信号中的噪声成分，在此基础上，利用频点级别语音活动性检测结果，对第一降噪处理后声学麦克风采集的语音信号进行增益处理，可以减少第一降噪处理后声学麦克风采集的语音信号中的噪声成分，使增益后声学麦克风语音信号中的语音成分更加凸显。

基于前述实施例通过帧级别语音活动性检测与频点级别语音活动性检测相结合，在本申请的另一个实施例中，介绍另外一种语音降噪方法，请参见图9，可以包括：

步骤S800、获取声学麦克风和非声学麦克风同步采集的语音信号。

具体地，非声学麦克风采集的语音信号具体为：浊音信号。

步骤S810、确定所述非声学麦克风采集的语音信号的基频信息。

步骤S820、利用所述基频信息，对所述声学麦克风采集的语音信号进行帧级别语音活动性检测，得到帧级别语音活动性检测结果。

步骤S830、根据所述帧级别语音活动性检测结果，对所述声学麦克风采集的语音信号进行一次降噪，得到一次降噪后声学麦克风采集的语音信号。

步骤S840、根据所述基频信息，确定语音的高频频点分布信息。

步骤S850、根据所述高频频点分布信息，对所述声学麦克风采集的语音信号中，帧级别语音活动性检测结果表示的存在语音信号的语音帧进行频点级别语音活动性检测，得到频点级别语音活动性检测结果。

步骤S860、根据所述频点级别语音活动性检测结果，对所述第一降噪处理后声学麦克风采集的语音信号进行第二降噪处理，得到第二降噪处理后声学麦克风采集的语音信号。

步骤S800-S860的详细过程可以参见前述实施例中步骤S600-S660的相关介绍，在此不再赘述。

步骤S870、根据所述非声学麦克风采集的浊音信号包含的各语音帧的时间点，在所述第二降噪处理后声学麦克风采集的语音信号中获取相同时间点的语音帧，作为待处理语音帧。

步骤S880、根据所述频点级别语音活动性检测结果，对所述待处理语音帧中各频点进行增益处理，得到增益后语音帧，各所述增益后语音帧组成增益后的声学麦克风采集的浊音信号。

本步骤的详细过程可以参见前述实施例中步骤S450的详细过程，在此不再赘述。

可以理解的是，由于增益过程也可以看作是降噪过程，因此增益后的声学麦克风采集的浊音信号可以理解为：三次降噪后的声学麦克风采集的浊音信号。

本实施例，首先利用帧级别语音活动性检测结果，对声学麦克风采集的语音信号进行第一降噪处理，可以减少所述声学麦克风采集的语音信号中的噪声成分，在此基础上，利用频点级别语音活动性检测结果，对第一降噪处理后声学麦克风采集的语音信号进行第二降噪处理，可以减少第一降噪处理后声学麦克风采集的语音信号中的噪声成分，在此基础上，对第二降噪处理后声学麦克风采集的语音信号进行增益处理，可以减少第二降噪处理后声学麦克风采集的语音信号中的噪声成分，使增益后的声学麦克风语音信号中的语音成分更加凸显。

基于前述各个实施例的内容，在本申请的另一个实施例中，扩展出另外一种语音降噪方法，请参见图10，可以包括：

步骤S900、获取声学麦克风和非声学麦克风同步采集的语音信号。

具体地，非声学麦克风采集的语音信号具体为：浊音信号。

步骤S910、根据所述非声学麦克风采集的语音信号进行语音活动性检测，得到语音活动性检测结果。

步骤S920、根据所述语音活动性检测结果，对所述声学麦克风采集的语音信号进行降噪，得到降噪后的浊音信号。

步骤S900-S920的详细过程可以参见前述各个实施例中相关步骤的介绍，在此不再赘述。

步骤S930、将降噪后的浊音信号输入清音预测模型，得到所述清音预测模型输出的清音信号。

所述清音预测模型为预先利用标注有清音信号和浊音信号各自出现的起、止时间点的训练语音信号进行训练得到。

一般地，语音中会同时包含浊音信号和清音信号，因此在得到降噪后的浊音信号后，需要预测语音中的清音信号。具体地，可以采用清音预测模型，预测清音信号。

所述清音预测模型模型可以为但不局限于DNN(Deep Neural Network，深度神经网络)模型。

可以理解的是，预先利用标注有清音信号和浊音信号各自出现的起、止时间点的训练语音信号训练清音预测模型，可以保证训练得到的清音预测模型能够准确的预测出清音信号。

步骤S940、将所述清音信号和所述降噪后的浊音信号组合，得到组合后的语音信号。

将所述清音信号和所述降噪后的浊音信号组合的过程可以参见已有的语音信号组合过程，在此不再赘述将所述清音信号和所述降噪后的浊音信号组合的详细过程。

组合后的语音信号可以理解为：既包括清音信号又包括降噪后的浊音信号的完整语音信号。

在本申请的另一个实施例中，对所述清音预测模型的训练过程进行介绍，具体可以包括：

D1、获取训练语音信号。

为了保证训练的准确性，训练语音信号中需包括清音信号和浊音信号。

D2、标注出所述训练语音信号中清音信号和浊音信号各自出现的起、止时间点。

D3、利用标注有清音信号和浊音信号各自出现的起、止时间点的训练语音信号，训练清音预测模型。

训练后的清音预测模型即前述实施例的步骤S930中使用的清音预测模型。

在本申请的另一个实施例中，对上述获取的训练语音信号进行介绍，具体可以包括：

选取满足预设训练条件的语音信号。

所述预设训练条件可以包括：

语音信号中所有不同音素出现的次数的分布满足设定分布条件；

和/或，语音信号中包含的不同音素的组合方式的种类满足设定组合方式种类要求。

优选的，设定分布条件可以为均匀分布。

当然，设定分布条件也可以为大部分因素出现的次数均匀分布，个别或少数因素出现的次数非均匀分布。

优选的，设定组合方式种类要求可以为包含全部的组合方式种类。

当然，设定组合方式种类要求也可以为包含预设个数的组合方式种类。

语音信号中所有不同因素出现的次数的分布满足设定分布条件，可以保证选取出的满足预设训练条件的语音信号中所有不同音素出现的次数的分布尽可能的均匀分布；语音信号中包含的不同音素的组合方式的种类满足设定组合方式种类要求可以保证选取出的满足预设训练条件的语音信号中不同音素之间的组合方式尽可能的丰富和全面。

选取满足预设训练条件的语音信号，可以满足训练精度的要求，同时可以减少训练语音信号的数据量，进而提高训练效率。

基于前述各个实施例介绍的内容，在所述声学麦克风包括：声学麦克风阵列的情况下，在本申请的另一个实施例中，扩展出另外一种语音降噪方法，语音降噪方法还可以包括：

S1、根据所述声学麦克风阵列采集的语音信号，确定语音输出者的方位区间。

S2、检测所述非声学麦克风采集的语音信号，与所述声学麦克风同步采集的语音信号中，相同时间点对应的语音帧是否存在语音信号，得到检测结果。

检测结果可以包括：所述非声学麦克风采集的语音信号，与所述声学麦克风同步采集的语音信号中，相同时间点对应的语音帧均存在语音信号或均不存在语音信号。

S3、根据所述检测结果，从所述目标语音输出者的方位区间中确定所述目标语音输出者的方位。

根据步骤S2中所述非声学麦克风采集的语音信号，与所述声学麦克风同步采集的语音信号中，相同时间点对应的语音帧均存在语音信号或均不存在语音信号的检测结果，可以通过确定相同时间点对应的语音帧均存在语音信号或不存在语音信号，来确定声学麦克风采集的语音信号和非声学麦克风采集的语音信号属于同一个语音输出者，进而可以根据非声学麦克风采集的语音信号从所述目标语音输出者的方位区间中确定所述目标语音输出者的方位。

可以理解的是，若多个人在同一时刻均说话，仅依靠声学麦克风阵列采集的语音信号，难以确定某一个目标语音输出者的方位，但是可以通过非声学麦克风采集的语音信号来辅助确定语音输出者的方位，具体则是采用本实施例中的步骤S1-S3实现。

下面对本发明实施例提供的语音降噪装置进行介绍，下文描述的语音降噪装置可认为是，服务器为实现本发明实施例提供的语音降噪方法，所需设置的程序模块。下文描述的语音降噪装置内容，可与上文描述的语音降噪方法内容相互对应参照。

图11为本发明实施例提供的语音降噪装置的一种逻辑结构示意图，该装置可应用于服务器，参照图11，该语音降噪装置可以包括：

语音信号获取模块11，用于获取声学麦克风和非声学麦克风同步采集的语音信号。

语音活动性检测模块12，用于根据所述非声学麦克风采集的语音信号进行语音活动性检测，得到语音活动性检测结果。

语音降噪模块13，用于根据所述语音活动性检测结果，对所述声学麦克风采集的语音信号进行降噪，得到降噪后的语音信号。

本实施例中，所述语音活动性检测模块12包括：

基频信息确定模块，用于确定所述非声学麦克风采集的语音信号的基频信息。

语音活动性检测子模块，用于利用所述基频信息进行语音活动性检测，得到语音活动性检测结果。

本实施例中，所述语音活动性检测子模块可以包括：

帧级别语音活动性检测模块，用于利用所述基频信息，对所述声学麦克风采集的语音信号进行帧级别语音活动性检测，得到帧级别语音活动性检测结果。

与之相对应地，所述语音降噪模块可以包括：

一次降噪模块，用于根据所述帧级别语音活动性检测结果，对所述声学麦克风采集的语音信号进行一次降噪，得到一次降噪后声学麦克风采集的语音信号。

本实施例中，上述语音降噪装置还可以包括：

高频频点分布信息确定模块，用于根据所述基频信息，确定语音的高频频点分布信息。

频点级别语音活动性检测模块，用于根据所述高频频点分布信息，对所述声学麦克风采集的语音信号中，帧级别语音活动性检测结果表示的存在语音信号的语音帧进行频点级别语音活动性检测，得到频点级别语音活动性检测结果；

与之相对应地，所述语音降噪模块还可以包括：

二次降噪模块，用于根据所述频点级别语音活动性检测结果，对所述一次降噪后声学麦克风采集的语音信号进行二次降噪，得到二次降噪后声学麦克风采集的语音信号。

本实施例中，所述帧级别语音活动性检测模块可以包括：

基频信息检测模块，用于检测所述基频信息是否为零；

若所述基频信息不为零，则确定所述声学麦克风采集的语音信号中与所述基频信息对应的语音帧中存在语音信号；

若所述基频信息为零，则检测所述声学麦克风采集的语音信号的信号强度，若检测到所述声学麦克风采集的语音信号的信号强度低，则确定所述声学麦克风采集的语音信号中与所述基频信息对应的语音帧中不存在语音信号。

本实施例中，所述高频频点分布信息确定模块可以包括：

倍乘运算模块，用于对所述基频信息进行倍乘运算，得到倍乘后的基频信息；

基频信息扩展模块，用于按照预设频点扩展值，对所述倍乘后的基频信息进行扩展，得到语音的高频频点分布区间，作为所述语音的高频频点分布信息。

本实施例中，所述频点级别语音活动性检测模块可以包括：

频点级别语音活动性检测子模块，用于将所述声学麦克风采集的语音信号中，帧级别语音活动性检测结果表示的存在语音信号的语音帧中，频点为所述高频频点的频点确定为存在语音信号的频点，频点非所述高频频点的频点确定为不存在语音信号的频点。

本实施例中，所述非声学麦克风采集的语音信号可以为浊音信号。

基于所述非声学麦克风采集的语音信号为浊音信号的实施方式，所述语音降噪模块，还可以包括：

语音帧获取模块，用于根据所述浊音信号包含的各语音帧的时间点，在所述二次降噪后声学麦克风采集的语音信号中获取相同时间点的语音帧，作为待处理语音帧；

增益处理模块，用于对所述待处理语音帧中各频点进行增益处理，得到增益后语音帧，各所述增益后语音帧组成三次降噪后的声学麦克风采集的浊音信号；

其中，所述增益处理的过程包括：将频点为所述高频频点的频点乘以第一增益值，频点为非所述高频频点的频点乘以第二增益值，所述第一增益值大于所述第二增益值。

基于上述语音降噪装置，所述降噪后的语音信号可以为降噪后的浊音信号，基于此，语音降噪装置还可以包括：

清音信号预测模块，用于将所述降噪后的浊音信号输入清音预测模型，得到所述清音预测模型输出的清音信号，所述清音预测模型为预先利用标注有清音信号和浊音信号各自出现的起、止时间点的训练语音信号进行训练得到；

语音信号组合模块，用于将所述清音信号和所述降噪后的浊音信号组合，得到组合后的语音信号。

本实施例中，上述语音降噪装置还可以包括：

清音预测模型训练模块，用于获取训练语音信号，及标注出所述训练语音信号中清音信号和浊音信号各自出现的起、止时间点，及利用标注有清音信号和浊音信号各自出现的起、止时间点的训练语音信号，训练清音预测模型。

清音预测模型训练模块可以包括：

训练语音信号获取模块，用于选取满足预设训练条件的语音信号，所述预设训练条件包括：

语音信号中所有不同音素出现的次数的分布满足设定分布条件；和/或，

语音信号中包含的不同音素的组合方式的种类满足设定组合方式种类要求。

基于前述介绍的语音降噪装置，在所述声学麦克风可以包括：声学麦克风阵列的情况下，语音降噪装置还可以包括：

语音输出者方位确定模块，用于根据所述声学麦克风阵列采集的语音信号，确定语音输出者的方位区间，及检测所述非声学麦克风采集的语音信号，与所述声学麦克风同步采集的语音信号中，相同时间点对应的语音帧是否存在语音信号，得到检测结果，及根据所述检测结果，从所述目标语音输出者的方位区间中确定所述目标语音输出者的方位。

本发明实施例提供的语音降噪装置可应用于服务器，如通信服务器；可选的，图12示出了服务器的硬件结构框图，参照图12，服务器的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本发明实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取声学麦克风和非声学麦克风同步采集的语音信号；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本发明实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

获取声学麦克风和非声学麦克风同步采集的语音信号；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

以上对本申请所提供的一种语音降噪方法、装置、服务器及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音降噪方法，其特征在于，包括：

获取声学麦克风和非声学麦克风同步采集的语音信号；

2.根据权利要求1所述的方法，其特征在于，所述根据所述非声学麦克风采集的语音信号进行语音活动性检测，得到语音活动性检测结果，包括：

确定所述非声学麦克风采集的语音信号的基频信息；

利用所述基频信息进行语音活动性检测，得到语音活动性检测结果。

3.根据权利要求2所述的方法，其特征在于，所述利用所述基频信息进行语音活动性检测，得到语音活动性检测结果，包括：

利用所述基频信息，对所述声学麦克风采集的语音信号进行帧级别语音活动性检测，得到帧级别语音活动性检测结果；

所述根据所述活动性检测结果，对所述声学麦克风采集的语音信号进行降噪，得到降噪后的语音信号，包括：

根据所述帧级别语音活动性检测结果，对所述声学麦克风采集的语音信号进行一次降噪，得到一次降噪后声学麦克风采集的语音信号。

4.根据权利要求3所述的方法，其特征在于，所述利用所述基频信息进行语音活动性检测，得到语音活动性检测结果，还包括：

根据所述基频信息，确定语音的高频频点分布信息；

根据所述高频频点分布信息，对所述声学麦克风采集的语音信号中，帧级别语音活动性检测结果表示的存在语音信号的语音帧进行频点级别语音活动性检测，得到频点级别语音活动性检测结果；

所述根据所述活动性检测结果，对所述声学麦克风采集的语音信号进行降噪，得到降噪后的语音信号，还包括：

根据所述频点级别语音活动性检测结果，对所述一次降噪后声学麦克风采集的语音信号进行二次降噪，得到二次降噪后声学麦克风采集的语音信号。

5.根据权利要求3所述的方法，其特征在于，利用所述基频信息，对所述声学麦克风采集的语音信号进行帧级别语音活动性检测，得到帧级别语音活动性检测结果，包括：

检测所述基频信息是否为零；

6.根据权利要求4所述的方法，其特征在于，所述根据所述基频信息，确定语音的高频频点分布信息，包括：

对所述基频信息进行倍乘运算，得到倍乘后的基频信息；

按照预设频点扩展值，对所述倍乘后的基频信息进行扩展，得到语音的高频频点分布区间，作为语音的高频频点分布信息。

7.根据权利要求4所述的方法，其特征在于，所述根据所述高频频点分布信息，对所述声学麦克风采集的语音信号中，帧级别语音活动性检测结果表示的存在语音信号的语音帧进行频点级别语音活动性检测，得到频点级别语音活动性检测结果，包括：

将所述声学麦克风采集的语音信号中，帧级别语音活动性检测结果表示的存在语音信号的语音帧中，频点为所述高频频点的频点确定为存在语音信号的频点，频点非所述高频频点的频点确定为不存在语音信号的频点。

8.根据权利要求4所述的方法，其特征在于，所述非声学麦克风采集的语音信号为浊音信号；

根据所述浊音信号包含的各语音帧的时间点，在所述二次降噪后声学麦克风采集的语音信号中获取相同时间点的语音帧，作为待处理语音帧；

对所述待处理语音帧中各频点进行增益处理，得到增益后语音帧，各所述增益后语音帧组成三次降噪后的声学麦克风采集的浊音信号；

9.根据权利要求1-8任一项所述的方法，其特征在于，所述降噪后的语音信号为降噪后的浊音信号，该方法还包括：

将所述降噪后的浊音信号输入清音预测模型，得到所述清音预测模型输出的清音信号，所述清音预测模型为预先利用标注有清音信号和浊音信号各自出现的起、止时间点的训练语音信号进行训练得到；

将所述清音信号和所述降噪后的浊音信号组合，得到组合后的语音信号。

10.一种语音降噪装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述语音活动性检测模块包括：

基频信息确定模块，用于确定所述非声学麦克风采集的语音信号的基频信息；

12.根据权利要求11所述的装置，其特征在于，所述语音活动性检测子模块包括：

帧级别语音活动性检测模块，用于利用所述基频信息，对所述声学麦克风采集的语音信号进行帧级别语音活动性检测，得到帧级别语音活动性检测结果；

所述语音降噪模块包括：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

高频频点分布信息确定模块，用于根据所述基频信息，确定语音的高频频点分布信息；

所述语音降噪模块还包括：

14.根据权利要求12所述的装置，其特征在于，所述帧级别语音活动性检测模块包括：

基频信息检测模块，用于检测所述基频信息是否为零；

15.根据权利要求13所述的装置，其特征在于，所述高频频点分布信息确定模块包括：

16.根据权利要求13所述的装置，其特征在于，所述频点级别语音活动性检测模块包括：

17.根据权利要求13所述的装置，其特征在于，所述非声学麦克风采集的语音信号为浊音信号；

所述语音降噪模块，还包括：

18.根据权利要求10-17任一项所述的装置，其特征在于，所述降噪后的语音信号为降噪后的浊音信号，该装置还包括：

19.一种服务器，其特征在于，包括：至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述存储器存储的程序，所述程序用于：

获取声学麦克风和非声学麦克风同步采集的语音信号；

20.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-9任一项所述的语音降噪方法的各个步骤。