CN115910095A

CN115910095A - 一种语音增强方法、装置、计算机设备以及存储介质

Info

Publication number: CN115910095A
Application number: CN202211458680.2A
Authority: CN
Inventors: 谢鹏
Original assignee: Hunan Goke Microelectronics Co Ltd
Current assignee: Hunan Goke Microelectronics Co Ltd
Priority date: 2022-11-21
Filing date: 2022-11-21
Publication date: 2023-04-04

Abstract

本发明公开了一种语音增强方法、装置、计算机设备以及计算机可读存储介质，涉及计算机应用技术领域，其中方法包括：获取音视频数据，其中所述音视频数据包含图像信息和语音信号；确定所述语音信号中是否存在人声；若存在所述人声，确定所述图像信息中是否存在对应的面部信息；若存在所述面部信息，则根据所述面部信息调整噪声增益因子；利用所述噪声增益因子抑制噪声得到增强的所述语音信号；相较于现有的增强语音的方法，本发明通过音视频信息结合实现语音增强的方法，避免受到环境噪声的影响，更好地抑制非稳态噪声，能更准确地识别语音信号，提高了语音的质量以及具有较高的鲁棒性。

Description

一种语音增强方法、装置、计算机设备以及存储介质

技术领域

本发明涉及计算机应用技术领域，特别涉及一种语音增强方法、装置、计算机设备以及计算机可读存储介质。

背景技术

在很多视频会话场景中，麦克风采集人声的同时也会采集到的背景噪声，这会大大降低用户体验，会加大视频另一端的人对说话内容理解的难度，因此需要对声音信号进行语音增强处理包括去除噪声，还有提高人说话声质量等。

目前现有的语音增强方法可以分为传统方法和深度学习这两种方法，其中传统方法包含噪声估计和噪声抑制两个步骤，根据输入的语音信号判断是否存在噪声，当语音不存在时更新噪声估计，然后使用统计学方法、维纳滤波或者谱减法方法等方法在含噪信号上进行噪声抑制。但是使用传统方法不能抑制非稳态噪声，在低信噪比下，噪声估计的准确率降低，会把弱人声成分当作噪声，这样就会导致噪声去除不干净、损伤人声质量。并且在低信噪比下，基音估计和共振峰准确率也会降低，无法对基音和他的倍频进行保护，无法使用共振峰来减少语音失真。另一种深度学习方法需要搭建深度学习模型，学习含噪语音频谱到干净语音频谱的映射，这种方法可以去除非稳态噪声，但是去噪效果与数据集相关，对于数据集中没出现过的噪声，去噪效果不够好。

发明内容

本发明的目的是提供一种语音增强方法、装置、计算机设备以及计算机可读存储介质，相较于现有的增强语音的方法，本发明通过音视频信息结合实现语音增强的方法，避免受到环境噪声的影响，更好地抑制非稳态噪声，能更准确地识别语音信号，提高了语音的质量以及具有较高的鲁棒性。

依据本发明的一个方面，本发明提供了一种语音增强方法，包括：

获取音视频数据，其中所述音视频数据包含图像信息和语音信号；

确定所述语音信号中是否存在人声；

若存在所述人声，确定所述图像信息中是否存在对应的面部信息；

若存在所述面部信息，则根据所述面部信息调整噪声增益因子；

利用所述噪声增益因子抑制噪声得到增强的所述语音信号。

可选地，所述根据所述面部信息调整噪声增益因子，包括：

提取所述面部信息中的唇部动作信息，利用动作识别模块识别所述唇部动作信息得到发音的音素；

根据所述音素，从数据库中提取正常发音的基音与共振峰频率；

根据所述基音与所述共振峰频率，调整所述噪声增益因子。

可选地，所述提取所述面部信息中的唇部动作信息，包括：

利用神经网络模型提取所述面部信息得到所述唇部动作信息。

可选地，所述获取音视频数据之后，还包括：

提取所述语音信号得到音频特征；

提取所述图像信息得到唇部信息；

利用时间同步将所述音频特征与所述唇部信息拼接得到音视频融合信息；

相应的，所述确定所述图像信息中是否存在对应的面部信息，包括：

确定所述音视频融合信息中是否存在与所述音频特征对应的所述唇部信息。

可选地，所述提取所述图像信息得到唇部信息，包括：

对所述图像信息进行唇部定位；

根据所述唇部定位，提取得到与所述唇部定位对应的所述唇部信息。

可选地，所述确定所述语音信号中是否存在人声，包括：

利用人声检测模块确定所述语音信号中是否存在所述人声。

可选地，所述方法，还包括：

若不存在所述人声，则根据所述语音信号得到噪声估计；

相应的，所述利用所述噪声增益因子抑制噪声得到增强的所述语音信号，包括：

利用所述噪声估计和所述噪声增益因子，抑制噪声得到增强的所述语音信号。

本发明提供一种语音增强装置，包括：

接收模块，用于获取音视频数据，其中所述音视频数据包含图像信息和语音信号；

第一判断模块，用于确定所述语音信号中是否存在人声；

第二判断模块，用于若存在所述人声，确定所述图像信息中是否存在对应的面部信息；

调整模块，用于若存在所述面部信息，则根据所述面部信息调整噪声增益因子；

语音增强模块，用于利用所述噪声增益因子抑制噪声得到增强的所述语音信号。

本发明提供一种计算机设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述所述的语音增强方法。

本发明提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上述所述语音增强方法的步骤。

可见，相较于现有的增强语音的方法，本发明通过音视频信息结合实现语音增强的方法，避免受到环境噪声的影响，更好地抑制非稳态噪声，能更准确地识别语音信号，提高了语音的质量以及具有较高的鲁棒性。本申请还提供一种语音增强装置、计算机设备及计算机可读存储介质，具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例所提供的一种语音增强方法的流程图；

图2为本发明实施例所提供的另一种语音增强方法的流程图；

图3为本发明实施例所提供的一种非人声语音增强方法的流程图；

图4为本发明实施例所提供的一种语音增强装置的结构框图；

图5为本发明实施例所提供的一种计算机设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

基于现有技术存在的问题，本发明提供了一种语音增强方法，相较于现有的增强语音的方法，本发明通过音视频信息结合实现语音增强的方法，避免受到环境噪声的影响，更好地抑制非稳态噪声，能更准确地识别语音信号，提高了语音的质量以及具有较高的鲁棒性。

下面进行详细介绍，请参考图1，图1为本发明实施例所提供的一种语音增强方法的流程图，本发明实施例一种语音增强方法可以包括：

步骤S101：获取音视频数据，其中音视频数据包含图像信息和语音信号。

本发明实施例中音视频数据可以为语音信号与图像信息相结合的数据，其中，语音信号可以为包含人声和非人声的语音数据，图像信息可以为包含面部信息、环境信息等大量通过拍摄获得的图像数据。本发明实施例中对获取音视频数据的方式不做限制，可以为通过手机设备获取，也可以为通过其它音视频录制设备获取。

步骤S102：确定语音信号中是否存在人声。然后执行步骤S103：若存在人声，确定图像信息中是否存在对应的面部信息。

本发明实施例中可以先确定语音信号中是否存在人声，若存在人声则执行步骤S103：若存在人声，确定图像信息中是否存在对应的面部信息。其中，面部信息可以为包含人脸信息、唇部动作信息以及眼睛等信息，需要说明的是，本发明实施例中可以在人声检测模块中根据语音信号中的频谱变化确定是否存在人声，也可以根据语音信号的其它音频特征确定是否存在人声，本发明实施例中对此不做限制。

步骤S104：若存在面部信息，则根据面部信息调整噪声增益因子。然后根据噪声增益因子，执行步骤S105：利用噪声增益因子抑制噪声得到增强的语音信号。

本发明实施例中可以根据面部信息，提取面部信息中的唇部动作信息，利用动作识别识别唇部动作信息得到发音的音素，然后根据音素，从数据库中提取正常发音的基音与共振峰频率，最后根据基音与共振峰频率，调整噪声增益因子。需要说明的是，动作识别可以利用隐马尔科夫方法，可以利用神经网络的方法，也可以使用两者相结合的方法，本发明实施例中对此不做限制。其中，本发明实施例中可以利用神经网络模型提取面部信息得到唇部动作信息，然后根据唇部动作信息，利用动作识别得到当前发音的音素，例如根据面部信息中唇部动作，利用卷积神经网络和循环神经网络识别当前动作相对应的音素，如识别为“你好”，那么可以得到“ni3”“h”“ao3”这三个音素,其中3表示第三个音调，需要说明的是，卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一，卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类。循环神经网络是一类以序列数据为输入，在序列的演进方向进行递归且所有节点按链式连接的递归神经网络，在自然语言处理如语音识别、语言建模、机器翻译等领域有应用，也被用于各类时间序列预报。

具体的，本发明实施例中根据基音与共振峰频率调整噪声增益因子，可以利用以下公式进行调整计算，公式如下：

其中，G_K’为调整后的噪声增益因子，如果k是共振峰频率或者基音的倍频，则G_K’保持为G_k不变；如果k不是共振峰频率和基音的倍频，则G_K’＝δG_k。在实际应用中δ的取值范围为0-1，例如δ可以取值0.3。即在共振峰和倍频处少抑制一点，可以减少语音失真，提升可懂度，而在非共振峰频率和非倍频的情况下，使用抑制多一点。

需要说明的是，本发明实施例中可以通过维纳滤波法，统计学方法，谱减法等方法计算得到噪声增益因子，

在具体的实施例中，利用维纳滤波方法中的公式得到噪声增益因子，其计算公式如下：

其中，G_wiener为维纳滤波增益因子，ξ_k为频率k的先验信噪比，其中ξ_k可以使用判决引导方法来估计，公式如下：

其中，α是一个平滑常数，

表示第m-1帧得到的频率k增强后的信号，|Y_k(m)|和|D_k(m)|分别表示含噪语音和噪声谱。

相应的，根据得到的增益因子，执行步骤S105：利用噪声增益因子抑制噪声得到增强的语音信号，本发明实施例中可以通过将噪声增益因子与频域相乘的方式得到增强的语音信号，例如在维纳滤波方法中根据公式，得到增强的语音信号，公式如下：

其中，

表示估计的降噪后的语音信号，Y(ω_k)为含噪信号在频域上的表示。

需要说明的是，本发明实施例中还可以利用频谱最小均方误差法MMSE，得到增强的语音信号，例如在频谱最小均方误差法中根据公式得到增强的语音信号，公式如下：

其中,I₀,I₁分别表示零阶和一阶修正贝塞尔函数，

表示估计的降噪后的语音信号，γ_k为后验信噪比，可以根据公式计算得到，公式如下：

其中，表示频域λ_d(k)表示噪声估计。

可见，本发明实施例中若存在所述面部信息，则根据所述面部信息调整噪声增益因子，然后利用噪声增益因子抑制噪声得到增强的语音信号，实现语音增强，本发明实施例中通过音视频结合的方式，能更精确地识别语音信号中的发音音素，提升了语音的质量以及通过音素获取正常发音来调整噪声增益因子，可以更好地抑制非稳态噪声，避免受到环境噪声的影响，具有较高的鲁棒性。

请参考图2，为本发明实施例所提供的另一种语音增强方法。

步骤S201：获取音视频数据，其中音视频数据包含语音信号与图像信息。

步骤S202：提取语音信号得到音频特征。

本发明实施例中可以对音视频数据中的语音信号进行语音特征提取得到音频特征例如提取人声等，对语音特征进行提取可以提高语音识别的效率，保障语音识别的质量。

步骤S203：提取图像信息得到唇部信息。

本发明实施例中唇部信息为包含唇部动作特征等，需要说明的是，本发明实施例中需要先对图像信息进行人脸检测，提取出人脸图像，再提取人脸图像中的唇部信息。在一些实施例中，可以先对提取出的人脸图像进行压缩，对压缩后的图像数据再进行相应处理，可以进一步减小复杂度，需要说明的是，本发明实施例中对压缩后的图像数据进行唇部定位，然后根据唇部定位，提取与唇部定位对应的唇部信息，其中，对压缩图像的方法不做限制，可以使用主成分分析的方法压缩图像信息，可以为利用离散余弦变换的方法压缩图像信息，也可以为小波变换的方法压缩图像信息。

步骤S204：利用时间同步将音频特征与唇部信息拼接得到音视频融合信息。

本发明实施例中音视频融合信息包含音频特征与视觉特征，可以根据时间信息将时间同步的音频特征与视觉特征拼接，再对拼接后的融合特征降维得到音视频融合信息，本发明实施例中可以使用LDA(Linear discriminant analysis)即线性判别分析，后面接一个MLLT(maximum likelihood data rotation)即最大似然估计对融合特征数据进行变换得到音视频融合信息，可以提高语音识别的效率。

步骤S205：确定所述音视频融合信息中是否存在与音频特征对应的唇部信息。

步骤S206：若存在唇部信息，则根据唇部信息调整噪声增益因子。

步骤S207：利用噪声增益因子抑制噪声得到增强的语音信号。

基于上述实施例，本发明实施例提供了一种语音增强方法，相较于现有的增强语音的方法，本发明根据唇部调整噪声增益因子，然后利用噪声增益因子抑制噪声得到增强的语音信号实现语音增强的方式，避免受到环境噪声的影响，更好地抑制非稳态噪声，能更准确地识别语音信号，提高了语音的质量以及具有较高的鲁棒性。

请参考图3，本发明实施例所提供的一种非人声语音增强方法的流程图，本发明实施例一种非人声语音增强方法可以包括：

步骤S301：获取音视频数据，其中音视频数据包含图像信息和语音信号。

步骤S302：确定语音信号中是否存在人声。

步骤S303：若不存在人声，则根据语音信号得到噪声估计。

本发明实施例中噪声估计为利用算法对噪声的大小进行数值估计，常见的噪声估计算法有递归平均、最小值追踪以及直方图统计等方法，本发明实施例中可以利用递归平均的方法得到噪声估计。

本发明实施例中可以当不存在人声时，根据语音信号更新噪声估计；当存在人声时，不更新已有的噪声估计。需要说明的是，可以利用递归平均方法进行一阶递归得到噪声估计，其中一阶递归的公式如下：

P(k,l)＝α(k,l)P(k,l-1)+(1-α(k,l))Y(k,l)

其中，P(k,l)为噪声估计，Y(k,l)为第l帧语音信号，α可以看成是语音存在概率，当α为1则表示频带k语音存在，即存在人声时的语音，使用P(k,l-1)作为当前帧l的噪音估计；当α为0，表示不存在人声仅存在语音信号，P(k,l)就等于Y(k,l)。在实际应用中，若为非人声，那么P(k,l)＝Y(k,l)，并完成更新噪声估计；如果为人声，那么基音和基音的倍频所对应的α要设成一个接近于1的值例如0.98，减弱噪声估计，达到保护人声的目的。男生基音一般为0到200Hz，例如基音为100Hz，那么倍频为200/300/400/500/等等，倍频用于降噪的同时保护人声信息。需要说明的是，Y(k,l)可以根据公式得到，公式如下：

Y(k,l)＝X(k,l)+D(k,l)

其中，Y(k,l)为第l帧语音信号，X(k,l)为频率k的含噪语音，D(k,l)为干净语音和噪声。当为非人声麦克风采集到的Y(k,l)就等于D(k,l)。

本发明实施例中通过根据语音信号进行噪声估计的方式，可以更好地抑制非稳态噪声，能更准确地识别语音信号，提高了语音的质量以及具有较高的鲁棒性。

步骤S304：利用噪声估计和噪声增益因子，抑制噪声得到增强的语音信号。

本发明实施例中可以根据噪声估计和噪声增益因子，抑制噪声得到增强的语音信号，可以将噪声估计作为参数带入维纳滤波方法中，通过对噪声估计和噪声增益因子计算得到增强的语音信号，也可以将噪声估计作为参数带入频谱最小均方误差法中，通过对噪声估计和噪声增益因子计算得到增强的语音信号，本发明实施例中对抑制噪声的方法不做限制。

基于上述实施例，本发明实施例提供了一种语音增强方法，相较于现有的增强语音的方法，本发明根据语音信号得到噪声估计，然后根据噪声估计和噪声增益因子抑制噪声得到增强的语音信号实现语音增强的方式，避免受到环境噪声的影响，更好地抑制非稳态噪声，能更准确地识别语音信号，提高了语音的质量以及具有较高的鲁棒性。

下面对本发明实施例所提供的一种语音增强装置以及计算机设备进行介绍，下文描述的语音增强装置以及计算机设备与上文描述的语音增强方法可相互对应参照。

请参考图4，图4为本发明实施例所提供的一种语音增强装置的结构框图，该装置可以包括：

接收模块10，用于获取音视频数据，其中所述音视频数据包含图像信息和语音信号；

第一判断模块20，用于确定所述语音信号中是否存在人声；

第二判断模块30，用于若存在所述人声，确定所述图像信息中是否存在对应的面部信息；

调整模块40，用于若存在所述面部信息，则根据所述面部信息调整噪声增益因子；

语音增强模块50，用于利用所述噪声增益因子抑制噪声得到干净的所述语音信号。

基于上述实施例，所述调整模块40，可以包括：

识别单元，用于提取所述面部信息中的唇部动作信息，利用动作识别识别所述唇部动作信息得到发音的音素；

提取单元，用于根据所述音素，从数据库中提取正常发音的基音与共振峰频率；

调整单元，用于根据所述基音与所述共振峰频率，调整所述噪声增益因子。

基于上述任意实施例，所述识别单元，可以包括：

提取子单元，用于利用神经网络模型提取所述面部信息得到所述唇部动作信息；

识别子单元，用于根据所述唇部动作信息，利用所述动作识别得到当前发音的所述音素。

基于上述任意实施例，所述接收模块10之后，可以包括

音频提取模块，用于提取所述语音信号得到音频特征；

视觉提取模块，用于提取所述图像信息得到唇部信息；

融合模块，用于利用时间同步将所述音频特征与所述唇部信息拼接得到音视频融合信息。

本发明实施例中可以在得到音视频融合信息后确定所述音视频融合信息中是否存在与所述音频特征对应的所述唇部信息。

基于上述任意实施例，所述视觉提取模块，可以包括：

定位单元，用于对所述图像信息进行唇部定位；

提取单元，用于根据所述唇部定位，提取得到与所述唇部定位对应的所述唇部信息。

基于上述任意实施例，所述第一判断模块20，可以包括：

判断单元，用于利用人声检测模块确定所述语音信号中是否存在所述人声。

基于上述任意实施例，所述第一判断模块20之后，还可以包括：

噪声估计模块，用于若不存在所述人声，则根据所述语音信号得到噪声估计；

本发明实施例中可以利用所述噪声估计和所述噪声增益因子，抑制噪声得到增强的所述语音信号。

本发明实施例中通过第二判断模块30，用于若存在所述人声，确定所述图像信息中是否存在对应的面部信息以及调整模块40，用于若存在所述面部信息，则根据所述面部信息调整噪声增益因子，利用音视频信息结合实现语音增强的方法，避免受到环境噪声的影响，更好地抑制非稳态噪声，能更准确地识别语音信号，提高了语音的质量以及具有较高的鲁棒性。

请参考图5，图5为本发明实施例所提供的一种计算机设备的结构框图，该计算机设备包括：

存储器10，用于存储计算机程序；

处理器20，用于执行所述计算机程序时，以实现上述的语音增强方法。

如图4所示，为计算机设备的结构示意图，可以包括：存储器10、处理器20、通信接口31、输入输出接口32以及通信总线33。

在本发明实施例中，存储器10中用于存放一个或者一个以上程序，程序可以包括程序代码，程序代码包括计算机操作指令，在本申请实施例中，存储器10中可以存储有用于实现以下功能的程序：

确定所述语音信号中是否存在人声；

利用所述噪声增益因子抑制噪声得到增强的所述语音信号。

在一种可能的实现方式中，存储器10可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及至少一个功能所需的应用程序等；存储数据区可存储使用过程中所创建的数据。

此外，存储器10可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括NVRAM。存储器存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可以包括各种系统程序，用于实现各种基础任务以及处理基于硬件的任务。

处理器20可以为中央处理器(Central Processing Unit，CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件，处理器20可以是微处理器或者也可以是任何常规的处理器等。处理器20可以调用存储器10中存储的程序。

通信接口31可以为用于与其他设备或者系统连接的接口。

输入输出接口32可以为用于获取外界输入数据或向外界输出数据的接口。

当然，需要说明的是，图5所示的结构并不构成对本申请实施例中计算机设备的限定，在实际应用中计算机设备可以包括比图5所示的更多或更少的部件，或者组合某些部件。

本发明实施例中通过音视频信息结合实现语音增强的方法，避免受到环境噪声的影响，更好地抑制非稳态噪声，能更准确地识别语音信号，提高了语音的质量以及具有较高的鲁棒性。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机可执行指令，计算机可执行指令被处理器加载并执行时，实现获取音视频数据，其中所述音视频数据包含图像信息和语音信号；确定所述语音信号中是否存在人声；若存在所述人声，确定所述图像信息中是否存在对应的面部信息；若存在所述面部信息，则根据所述面部信息调整噪声增益因子；利用所述噪声增益因子抑制噪声得到增强的所述语音信号。相较于现有的增强语音的方法，本发明实施例中通过音视频信息结合实现语音增强的方法，避免受到环境噪声的影响，更好地抑制非稳态噪声，能更准确地识别语音信号，提高了语音的质量以及具有较高的鲁棒性。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种语音增强方法、装置、计算机设备以及存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种语音增强方法，其特征在于，包括：

确定所述语音信号中是否存在人声；

利用所述噪声增益因子抑制噪声得到增强的所述语音信号。

2.如权利要求1所述的语音增强方法，其特征在于，所述根据所述面部信息调整噪声增益因子，包括：

根据所述基音与所述共振峰频率，调整所述噪声增益因子。

3.如权利要求2所述的语音增强方法，其特征在于，所述提取所述面部信息中的唇部动作信息，包括：

4.如权利要求1所述的语音增强方法，其特征在于，所述获取音视频数据之后，还包括：

提取所述语音信号得到音频特征；

提取所述图像信息得到唇部信息；

5.如权利要求4所述的语音增强方法，其特征在于，所述提取所述图像信息得到唇部信息，包括：

对所述图像信息进行唇部定位；

6.如权利要求1所述的语音增强方法，其特征在于，所述确定所述语音信号中是否存在人声，包括：

利用人声检测模块确定所述语音信号中是否存在所述人声。

7.如权利要求1所述的语音增强方法，其特征在于，所述方法，还包括：

若不存在所述人声，则根据所述语音信号得到噪声估计；

8.一种语音增强装置，其特征在于，包括：

第一判断模块，用于确定所述语音信号中是否存在人声；

9.一种计算机设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的语音增强方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至7任一项所述语音增强方法的步骤。