CN113223552B

CN113223552B - 语音增强方法、装置、设备、存储介质及程序

Info

Publication number: CN113223552B
Application number: CN202110465272.9A
Authority: CN
Inventors: 夏洁; 方思敏; 罗丽云; 李开
Original assignee: RDA Microelectronics Shanghai Co Ltd
Current assignee: RDA Microelectronics Shanghai Co Ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2023-06-13
Anticipated expiration: 2041-04-28
Also published as: CN113223552A

Abstract

本申请提供一种语音增强方法、装置、设备、存储介质及程序，该方法包括：获取通过麦克风阵列采集得到的语音信号，确定出语音信号在目标方向上的信干比，并根据信干比确定出目标方向对应的语音增强参数，进而，利用该语音增强参数对语音信号进行处理，得到增强后的语音信号。上述过程中，根据信干比确定语音增强参数的过程简单、易于实现，与采用基于聚类的CGMM方式、基于神经网络的方式相比，计算量较小，从而能够提高语音增强的实时性。

Description

语音增强方法、装置、设备、存储介质及程序

技术领域

本申请涉及数据处理技术领域，尤其涉及一种语音增强方法、装置、设备、存储介质及程序。

背景技术

在语音交互场景中，麦克风采集的语音信号通常带有噪声和/或干扰，因此，可以通过对采集到的语音信号进行处理，以提取出尽可能纯净的原始语音，这一过程被称为语音增强。

通常采用自适应波束形成算法进行语音增强。自适应波束形成算法能够根据周围环境噪声场的变化情况，不断调整语音增强参数(即用于进行语音增强的参数)以适应周围环境，从而保证语音增强的效果。相关技术中，在确定语音增强参数时，采用基于聚类的复数混合高斯模型(complex gaussian mixture model，CGMM)的方式，或者，采用基于神经网络的方式。

然而，上述两种方式的计算量较大，导致语音增强的实时性较差。

发明内容

本申请提供一种语音增强方法、装置、设备、存储介质及程序，用以提高语音增强的实时性。

第一方面，本申请提供一种语音增强方法，包括：

获取通过麦克风阵列采集得到的语音信号；

根据所述语音信号以及目标方向，确定所述语音信号在所述目标方向上的信干比，所述目标方向为目标声源对应的方向；

根据所述信干比，确定所述目标方向对应的语音增强参数；

根据所述语音增强参数对所述语音信号进行处理，得到增强后的语音信号。

一种可能的实现方式中，所述语音增强参数为最小方差无失真响应MVDR波束形成权重参数；根据所述信干比，确定所述目标方向对应的语音增强参数，包括：

根据所述信干比，确定所述语音信号在所述目标方向上的掩蔽值，所述掩蔽值用于指示所述语音信号中的噪声干扰信号对纯净语音信号的遮蔽程度；

根据所述掩蔽值，确定所述目标方向对应的所述MVDR波束形成权重参数。

一种可能的实现方式中，根据所述信干比，确定所述语音信号在所述目标方向上的掩蔽值，包括：

若所述信干比大于预设阈值，则确定所述掩蔽值为第一预设值；或者，

若所述信干比小于或者等于所述预设阈值，则确定所述掩蔽值为第二预设值。

一种可能的实现方式中，根据所述掩蔽值，确定所述目标方向对应的所述MVDR波束形成权重参数，包括：

根据所述掩蔽值，确定所述语音信号对应的噪声干扰协方差矩阵；

根据所述噪声干扰协方差矩阵，以及所述麦克风阵列在所述目标方向的导向矢量，确定所述目标方向对应的所述MVDR波束形成权重参数。

一种可能的实现方式中，根据所述语音增强参数对所述语音信号进行处理，得到增强后的语音信号，包括：

根据所述MVDR波束形成权重参数对所述语音信号进行MVDR波束形成处理，得到增强后的语音信号。

一种可能的实现方式中，根据所述语音信号以及目标方向，确定所述语音信号在所述目标方向上的信干比，包括：

根据所述目标方向，从所述语音信号中提取得到目标信号；

根据所述目标方向，从所述语音信号中提取得到噪声干扰信号；

根据所述目标信号和所述噪声干扰信号，确定所述信干比。

一种可能的实现方式中，根据所述目标方向，从所述语音信号中提取得到目标信号，包括：

获取超指向波束形成噪声矩阵；

根据所述超指向波束形成噪声矩阵和所述麦克风阵列在所述目标方向的导向矢量，确定所述目标方向对应的超指向波束形成权重参数；

根据所述目标方向对应的超指向波束形成权重参数，对所述语音信号进行超指向波束形成处理，得到所述目标信号。

一种可能的实现方式中，根据所述目标方向，从所述语音信号中提取得到噪声干扰信号，包括：

根据所述麦克风阵列在所述目标方向的导向矢量，生成阻塞矩阵；

根据所述阻塞矩阵，对所述语音信号进行处理，得到所述噪声干扰信号。

一种可能的实现方式中，根据所述目标信号和所述噪声干扰信号，确定所述信干比，包括：

根据所述目标信号，确定所述目标信号的能量；

根据所述噪声干扰信号，确定所述噪声干扰信号的能量；

根据所述目标信号的能量和所述噪声干扰信号的能量，确定所述信干比。

一种可能的实现方式中，根据所述语音信号以及目标方向，确定所述语音信号在所述目标方向上的信干比之前，还包括：

对所述语音信号进行波达方向估计处理，确定出所述目标方向。

第二方面，本申请提供一种语音增强装置，包括：

获取模块，用于获取通过麦克风阵列采集得到的语音信号；

第一确定模块，用于根据所述语音信号以及目标方向，确定所述语音信号在所述目标方向上的信干比，所述目标方向为目标声源对应的方向；

第二确定模块，用于根据所述信干比，确定所述目标方向对应的语音增强参数；

处理模块，用于根据所述语音增强参数对所述语音信号进行处理，得到增强后的语音信号。

一种可能的实现方式中，所述语音增强参数为最小方差无失真响应MVDR波束形成权重参数，所述第二确定模块具体用于：

一种可能的实现方式中，所述第二确定模块具体用于：

一种可能的实现方式中，所述处理模块具体用于：

一种可能的实现方式中，所述第一确定模块具体用于：

根据所述目标方向，从所述语音信号中提取得到目标信号；

根据所述目标信号和所述噪声干扰信号，确定所述信干比。

一种可能的实现方式中，所述第一确定模块具体用于：

获取超指向波束形成噪声矩阵；

一种可能的实现方式中，所述第一确定模块具体用于：

根据所述目标信号，确定所述目标信号的能量；

根据所述噪声干扰信号，确定所述噪声干扰信号的能量；

一种可能的实现方式中，所述装置还包括：

第三确定模块，用于对所述语音信号进行波达方向估计处理，确定出所述目标方向。

第三方面，本申请提供一种电子设备，包括：存储器和处理器，所述处理器执行所述存储器中的程序指令，用于实现第一方面任一项所述的方法。

第四方面，本申请提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一项所述的方法。

第五方面，本申请提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的方法。

本申请提供的语音增强方法、装置、设备、存储介质及程序，该方法包括：获取通过麦克风阵列采集得到的语音信号，确定出语音信号在目标方向上的信干比，并根据信干比确定出目标方向对应的语音增强参数，进而，利用该语音增强参数对语音信号进行处理，得到增强后的语音信号。上述过程中，由于信干比的确定过程、以及根据信干比确定语音增强参数的过程简单、易于实现，与采用基于聚类的CGMM方式、基于神经网络的方式相比，计算量较小，从而能够提高语音增强的实时性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A至图1F为麦克风阵列的示意图；

图2为本申请实施例提供的语音信号的处理过程示意图；

图3为本申请实施例提供的一种语音增强方法的流程示意图；

图4为本申请实施例提供的另一种语音增强方法的流程示意图；

图5为本申请实施例提供的一种语音增强过程的示意图；

图6为本申请实施例提供的一种语音增强装置的结构示意图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于理解，首先对本申请所涉及的概念进行说明。

语音增强：是指从含噪语音中提取尽可能纯净的原始语音的技术。

远场：拾音装置与声源距离较近的情况。在远场场景中，拾音装置通常为麦克风阵列。

近场：拾音装置与声源距离较远的情况。在近场场景中，拾音装置可以为麦克风阵列或者单麦克风。

麦克风阵列：是指一组位于空间不同位置的全向麦克风按照一定的形状规则布置形成的阵列，是对空间传播声音信号进行空间采样的一种装置，采集到的信号包含了其空间位置信息。麦克风阵列可以应用在终端设备或者计算机设备的音频接收模块，用于接收处理音频信号。

根据麦克风阵列的拓扑结构，可以分为线性阵列、平面阵列和立体阵列等。图1A至图1F为麦克风阵列的示意图。其中，图1A和图1B示出的是线性阵列，图1C、图1D和图1E示出的是平面阵列，图1F示出的是立体阵列。需要说明的是，实际应用中，可以采用各种各样的阵列形式，图1A至图1F所示仅为几种可能的示例，本申请对于麦克风阵列的具体形式不作限定。

随着人工智能技术的发展，越来越多的终端设备具有语音交互功能。本实施例中，将具有语音交互功能的终端设备称为语音交互设备。语音交互设备中设置有拾音装置(例如单麦克风或者麦克风阵列)。语音交互设备可以通过拾音装置采集语音信号，并对语音信号进行语音识别等处理。

本实施例的语音交互设备包括但不限于：智能手机、笔记本电脑、平板电脑、智能音箱、智能车载设备、智能机器人、智能家居设备、智能穿戴设备等。以智能音箱的交互场景为例，用户在向智能音箱发出语音指令时，由于周围环境不可避免的存在噪声和/或干扰，例如：白噪声、其他用户交谈的声音、电视机的声音等，使得智能音箱采集到的语音信号并不是纯净的语音信号，而是包含噪声和/或干扰的语音信号。

下面结合图2对语音信号的处理过程进行介绍。

图2为本申请实施例提供的语音信号的处理过程示意图。图2中采用麦克风阵列作为拾音装置。相对于单麦克风而言，麦克风阵列可以拾取不同方向的声源发出的语音信号，使得能够对语音信号进行时空处理，有助于提高语音交互效果。

如图2所示，语音交互设备的麦克风阵列从声源采集语音信号，该语音信号为包含噪声和/或干扰的语音信号。通过对采集到的语音信号进行增强处理，以降低噪声和/或干扰，得到增强后的语音信号。进一步的，可以根据增强后的语音信号进行各种语音应用的处理。其中，语音应用包括但不限于：语音识别、关键词检测、唤醒检测等。通过对语音信号进行增强处理，能够提高后续语音应用处理过程的准确率。

需要说明的是，上述的语音增强过程、语音应用的处理过程可以由语音交互设备实现，还可以由与语音交互设备通信连接的服务器实现。该服务器可以为云端服务器。

通常，采用自适应波束形成算法进行语音增强。波束形成算法利用了麦克风阵列的空间信息，在空域上进行空域滤波，以达到增强期望方向信号、抑制噪声和/或干扰的目标。自适应波束形成算法能够根据周围环境噪声场的变化情况，不断调整用于进行语音增强的参数以适应周围环境，从而保证语音增强的效果。相关技术中，在确定语音增强参数时，采用基于聚类的复数混合高斯模型(complex gaussian mixture model，CGMM)的方式，或者，采用基于神经网络的方式。

然而，发明人在实现本申请的过程中发现，上述两种方式的计算量较大，导致语音增强的实时性较差。为此，本申请提供一种语音增强方法，可以确定出语音信号的信干比，并根据信干比确定出语音增强参数，该过程简单、易于实现、计算量较小，从而能够提高语音增强的实时性。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图3为本申请实施例提供的一种语音增强方法的流程示意图。如图3所示，本实施例的方法包括：

S301：获取通过麦克风阵列采集得到的语音信号。

其中，麦克风阵列可以为下述中的任意一种：线性阵列、平面阵列、立体阵列等。本实施例对于麦克风阵列的具体阵列形式不作限定。

S302：根据所述语音信号以及目标方向，确定所述语音信号在所述目标方向上的信干比，所述目标方向为目标声源对应的方向。

本申请实施例中，麦克风阵列采集到的语音信号中除了包括目标声源发出的纯净语音信号之外，还包括噪声干扰信号。噪声干扰信号包括下述中的至少一项：除目标声源之外的其他声源发出的信号、背景白噪声等。

为了描述方便，本申请实施例中将目标声源对应的方向称为目标方向。上述语音信号中在目标方向上的采集到的信号称为目标信号(即纯净语音信号)。语音信号中除目标信号之外的部分为噪声干扰信号。

其中，目标声源是指期望采集声音的声源。例如，以智能音箱为例，向智能音箱发出语音指令的用户即为目标声源。

语音信号在目标方向上的信干比(Signal-to-interference ratio，SIR)，用于指示目标信号与噪声干扰信号的比例。示例性的，可以从语音信号中提取出目标信号和噪声干扰信号，根据目标信号的能量与噪声干扰信号的能量，计算得到信干比。

S303：根据所述信干比，确定所述目标方向对应的语音增强参数。

S304：根据所述语音增强参数对所述语音信号进行处理，得到增强后的语音信号。

由于信干比反映了语音信号中含噪声和/或干扰的比例情况，因此，可以根据语音信号在目标方向上的信干比，确定出目标方向对应的语音增强参数。进而，根据语音增强参数对语音信号进行增强处理，得到增强后的语音信号。

本实施例中，可以采用自适应波束形成算法对语音信号进行增强处理。示例性的，可以对语音信号进行分帧处理，若某一帧在目标方向上的信干比较高，则说明该帧包含的语音信号较为纯净；若某一帧在目标方向上的信干比较低，则说明该帧包含的噪声和/或干扰较多。进而，可以根据每帧的信干比情况，自适应的调节波束形成算法对应的语音增强参数，以保证语音增强效果。

本申请实施例提供的语音增强方法，包括：获取通过麦克风阵列采集得到的语音信号，确定出语音信号在目标方向上的信干比，并根据信干比确定出目标方向对应的语音增强参数，进而，利用该语音增强参数对语音信号进行处理，得到增强后的语音信号。上述过程中，由于信干比的确定过程、以及根据信干比确定语音增强参数的过程简单、易于实现，与采用基于聚类的CGMM方式、基于神经网络的方式相比，计算量较小，从而能够提高语音增强的实时性。

在上述实施例的基础上，下面结合一种具体的自适应波束形成算法，描述本申请实施例的具体实现方式。

图4为本申请实施例提供的另一种语音增强方法的流程示意图。本实施例中，以最小方差无失真响应(minimum variance distortionless response，MVDR)波束形成算法为例进行描述。MVDR波束形成算法广泛应用在远场麦克风阵列语音增强中。MVDR波束形成算法可以在保持期望方向上的目标信号增益不变的同时，使噪声和/或其他方向的干扰功率最小。

如图4所示，本实施例的方法包括：

S401：获取通过麦克风阵列采集得到的语音信号。

S402：根据所述语音信号以及目标方向，确定所述语音信号在所述目标方向上的信干比，所述目标方向为目标声源对应的方向。

应理解，S401和S402的具体实现方式与图3中的S301和S302类似，此处不作赘述。

S403：根据所述信干比，确定所述语音信号在所述目标方向上的掩蔽值，所述掩蔽值用于指示所述语音信号中的噪声干扰信号对纯净语音信号的遮蔽程度。

一种可能的实现方式中，掩蔽值(mask)可以为理想二值掩蔽(ideal binarymask，IBM)，还可以为理想比值掩蔽(ideal ratio mask，IRM)。

当采用IBM时，若信干比大于预设阈值，则确定掩蔽值为第一预设值。例如，第一预设值可以为1。该情况表示语音信号中纯净语音信号的比重较大。若信干比小于或者等于预设阈值，则确定掩蔽值为第二预设值。例如，第二预设值可以为0。该情况表示语音信号中噪声干扰信号比重较大。

当采用IRM时，不同于IBM的非0即1，而是可以计算得到介于0和1之间的一个值，这样可以较为精确的反映出噪声干扰信号对纯净语音信号的遮蔽程度。

S404：根据所述掩蔽值，确定所述目标方向对应的MVDR波束形成权重参数。

在确定出语音信号对应的掩蔽值(mask)之后，由于掩蔽值表征带噪语音中噪声和/或干扰对纯净语音的遮蔽情况，因此，可以根据掩蔽值确定出语音信号对应的噪声干扰协方差矩阵。进而，根据噪声干扰协方差矩阵，以及麦克风阵列在目标方向的导向矢量，确定出目标方向对应的MVDR波束形成权重参数。

S405：根据所述MVDR波束形成权重参数对所述语音信号进行MVDR波束形成处理，得到增强后的语音信号。

应理解，根据MVDR波束形成权重参数对语音信号进行MVDR波束形成处理的过程属于现有技术，此处不作赘述。

本实施例中，通过确定出语音信号在目标方向上的信干比，使得可以根据信干比确定出MVDR波束形成权重参数，进而根据MVDR波束形成权重参数对语音信号进行MVDR波束形成处理，与采用基于聚类的CGMM方式、基于神经网络的方式相比，能够降低计算量，提高语音增强的实时性。

上述任意实施例的基础上，下面结合一个更具体的实施例对本申请方案进行更详细的描述。

图5为本申请实施例提供的一种语音增强过程的示意图。本实施例中依然以MVDR波束形成算法为例进行描述。

本实施例中，对麦克风阵列采集到的语音信号进行分帧加窗做短时傅立叶变换，得到语音信号X(n，f)。其中，n＝{1，2，...，N}，n为帧索引，f＝{1，2，...，F-1}，f为离散频率点。

进一步的，结合图5，可以对语音信号X(n，f)进行如下几个步骤的处理，得到增强后的语音信号Y_MVDR(n，f)。

S501：估计目标方向。

示例性的，可以通过对语音信号进行波达方向估计(direction of arrival，DOA)处理，确定出目标方向。本实施例中，将目标方向记为θ。

S502：提取目标信号。

应理解的是，可以采用多种方式从语音信号中提取得到目标信号。示例性的，可以采用超指向波束形成(super directive beamforming，SDB)算法对目标方向θ进行波束增强得到，还可以采用延时求和波束形成(delay and sum beamforming，DSB)算法对目标方向θ进行波束增强得到。

下面以SDB为例进行描述。SDB相比于DSB可以在空间获得更高的指向性，而且主瓣宽度随信号频率的变化较小，因此，采用SDB提取得到的目标信号更加准确。

具体的，可以获取超指向波束形成噪声矩阵，根据超指向波束形成噪声矩阵和所述麦克风阵列在目标方向的导向矢量，确定所述目标方向对应的超指向波束形成权重参数；进而，根据所述目标方向对应的超指向波束形成权重参数，对所述语音信号进行超指向波束形成处理，得到所述目标信号。

示例性的，超指向波束形成噪声矩阵为散射噪声场，可以描述反射封闭空间接近各向同性噪声场，如下所示：

其中，RSDB为超指向波束形成的噪声矩阵，d为麦克风阵列中麦克风之间的间隔，c为声速，f为频率点。

超指向波束形成权重参数W_SDB(f，θ)如下：

a(f，θ)＝[1，e^{-j2πfdsinθ/c}，...，e^{-j2πf(M-1)dsinθ/c}]

其中，a(f，θ)为麦克风阵列的导向矢量，M为麦克风的数量。超指向波束形成权重参数中，使用对角加载来减轻超指向带来的白噪声增益低的问题，I_M×M为M行M列的对角阵，ε控制对角加载量，设为1e^-2。

进一步的，超指向波束形成得到目标信号Y_SDB(n，f)如下：

Y_SDB(n，f)＝W_SDB(f，θ)^HX(n，f)

S503：计算目标信号的能量。

示例性的，通过对目标信号进行功率计算，得到目标信号的能量如下：

其中，

表示当前时刻计算得到目标信号的能量。

进一步的，还可以对目标信号的能量进行平滑处理，如下：

其中，P_{SDB_t-1}(n，f)表示上一时刻平滑后的目标信号的能量，P_SDB(n，f)为当前时刻平滑后的目标信号的能量，α为功率平滑系数。

S504：提取噪声干扰信号。

应理解的是，可以采用多种方式从语音信号中提取得到噪声干扰信号。下面以采用阻塞矩阵提取的方式为例进行描述。

具体的，可以根据麦克风阵列在所述目标方向的导向矢量，生成阻塞矩阵，进而，根据阻塞矩阵，对所述语音信号进行处理，得到所述噪声干扰信号。

示例性的，阻塞矩阵如下所示：

其中，a(f，θ)为麦克风阵列的导向矢量，0_1×(M-1)为M-1个0元素的行向量，I_M×M为M行M列的对角阵，B(f)为阻塞矩阵。

进一步的，通过阻塞矩阵输出的噪声干扰信号Y_BM(n，f)为：

Y_BM(n，f)＝B(f)^HX(n，f)

S505：计算噪声干扰信号的能量。

示例性的，通过对噪声干扰信号进行功率计算，得到噪声干扰信号的能量如下：

其中，

表示当前时刻计算得到噪声干扰信号的能量。

进一步的，还可以对噪声干扰信号的能量进行平滑处理，如下：

其中，P_{BM_t-1}(n，f)表示上一时刻平滑后的噪声干扰信号的能量，P_BM(n，f)为当前时刻平滑后的噪声干扰信号的能量，α为功率平滑系数。

S506：计算信干比。

示例性的，通过计算目标信号的能量与噪声干扰信号的能量之间的比值，得到信干比。如下：

其中，

表示信干比，δ为极小的常数，用来保护除法操作。

S507：确定掩蔽值。

示例性的，可以根据信干比，确定出掩蔽值mask。

其中，thd为预设阈值。这样，当mask(n，f)＝1，指示当前时频点的目标信号的比重较大；当mask(n，f)＝0，指示当前时频点的噪声干扰信号的比重较大。

S508：确定噪声干扰协方差矩阵。

示例性的，可以根据掩蔽值对噪声干扰协方差矩阵进行更新，如下：

也就是说，当掩蔽值为1时，不更新噪声干扰协方差矩阵，直接采用上一帧的噪声干扰协方差矩阵。当掩蔽值为0时，根据当前帧的语音信号对噪声干扰协方差矩阵进行更新。其中，β为平滑因子。

S509：确定MVDR波束形成权重参数。

示例性的，可以根据噪声干扰协方差矩阵R_n(n，f)，以及麦克风阵列的导向矢量a(f，θ)，得到MVDR波束形成权重参数W_MVDR(f，θ)。如下：

S510：MVDR波束形成处理。

示例性的，利用MVDR波束形成权重参数W_MVDR(f，θ)对语音信号X(n，f)进行处理，得到增强后的语音信号V_MVDR(n，f)，如下：

Y_MVDR(n，f)＝W_MVDR(f，θ)^HX(n，f)

图6为本申请实施例提供的一种语音增强装置的结构示意图。该装置可以为软件和/或硬件的形式。该装置可以为芯片或者芯片模组等。该装置可以设置在语音交互设备中，或者设置在与语音交互设备通信连接的服务器中。

如图6所示，本实施例提供的语音增强装置600，可以包括：获取模块601、第一确定模块602、第二确定模块603和处理模块604。

其中，获取模块601，用于获取通过麦克风阵列采集得到的语音信号；

第一确定模块602，用于根据所述语音信号以及目标方向，确定所述语音信号在所述目标方向上的信干比，所述目标方向为目标声源对应的方向；

第二确定模块603，用于根据所述信干比，确定所述目标方向对应的语音增强参数；

处理模块604，用于根据所述语音增强参数对所述语音信号进行处理，得到增强后的语音信号。

一种可能的实现方式中，所述语音增强参数为最小方差无失真响应MVDR波束形成权重参数，所述第二确定模块603具体用于：

一种可能的实现方式中，所述第二确定模块603具体用于：

一种可能的实现方式中，所述处理模块604具体用于：

一种可能的实现方式中，所述第一确定模块602具体用于：

根据所述目标方向，从所述语音信号中提取得到目标信号；

根据所述目标信号和所述噪声干扰信号，确定所述信干比。

一种可能的实现方式中，所述第一确定模块602具体用于：

获取超指向波束形成噪声矩阵；

一种可能的实现方式中，所述第一确定模块602具体用于：

根据所述目标信号，确定所述目标信号的能量；

根据所述噪声干扰信号，确定所述噪声干扰信号的能量；

一种可能的实现方式中，所述装置还包括：第三确定模块(图6未示出)。

所述第三确定模块，用于对所述语音信号进行波达方向估计处理，确定出所述目标方向。

本实施例提供的语音增强装置，可用于执行上述任一方法实施例的技术方案，其实现原理和技术效果类似，此处不作赘述。

图7为本申请实施例提供的一种电子设备的结构示意图。该电子设备可以是语音交互设备，包括但不限于：智能手机、笔记本电脑、平板电脑、智能音箱、智能车载设备、智能机器人、智能家居设备、智能穿戴设备等。该电子设备还可以是与语音交互设备通信连接的服务器。

如图7所示，本实施例提供的电子设备700，包括：存储器701和处理器702。其中，存储器701和处理器702通信连接；示例性的，存储器701、处理器702可以通过通信总线703通信，所述存储器701用于存储计算机程序，所述处理器701执行所述计算机程序实现上述语音增强方法。其实现原理和技术效果类似，此处不作赘述。

可选的，上述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的语音增强方法实施例中的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

本申请实施例还提供一种计算机可读存储介质，包括：其上存储有计算机程序，该程序被处理器执行时实现上述任意方法实施例所述的语音增强方法。

实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储器(存储介质)包括：只读存储器(英文：read-only memory，缩写：ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(英文：magnetic tape)、软盘(英文：floppydisk)、光盘(英文：optical disc)及其任意组合。

本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理单元以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

在本申请中，术语“包括”及其变形可以指非限制性的包括；术语“或”及其变形可以指“和/或”。本本申请中术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。本申请中，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种语音增强方法，其特征在于，包括：

获取通过麦克风阵列采集得到的语音信号；

根据所述信干比，确定所述目标方向对应的语音增强参数；

根据所述语音增强参数对所述语音信号进行处理，得到增强后的语音信号；

所述语音增强参数为最小方差无失真响应MVDR波束形成权重参数；根据所述信干比，确定所述目标方向对应的语音增强参数，包括：

根据所述信干比，确定所述语音信号在所述目标方向上的掩蔽值，所述掩蔽值用于指示所述语音信号中的噪声干扰信号对纯净语音信号的遮蔽程度；若所述信干比大于预设阈值，则确定所述掩蔽值为第一预设值；或者，若所述信干比小于或者等于所述预设阈值，则确定所述掩蔽值为第二预设值；

根据所述掩蔽值，确定所述目标方向对应的所述MVDR波束形成权重参数；

根据所述掩蔽值，确定所述目标方向对应的所述MVDR波束形成权重参数，包括：

根据所述掩蔽值，确定所述语音信号对应的噪声干扰协方差矩阵；当掩蔽值为所述第一预设值时，不更新噪声干扰协方差矩阵；当掩蔽值为所述第二预设值时，根据当前帧的语音信号对噪声干扰协方差矩阵进行更新；

2.根据权利要求1所述的方法，其特征在于，根据所述语音增强参数对所述语音信号进行处理，得到增强后的语音信号，包括：

3.根据权利要求1或2所述的方法，其特征在于，根据所述语音信号以及目标方向，确定所述语音信号在所述目标方向上的信干比，包括：

根据所述目标方向，从所述语音信号中提取得到目标信号；

根据所述目标信号和所述噪声干扰信号，确定所述信干比。

4.根据权利要求3所述的方法，其特征在于，根据所述目标方向，从所述语音信号中提取得到目标信号，包括：

获取超指向波束形成噪声矩阵；

5.根据权利要求3所述的方法，其特征在于，根据所述目标方向，从所述语音信号中提取得到噪声干扰信号，包括：

6.根据权利要求3至5任一项所述的方法，其特征在于，根据所述目标信号和所述噪声干扰信号，确定所述信干比，包括：

根据所述目标信号，确定所述目标信号的能量；

根据所述噪声干扰信号，确定所述噪声干扰信号的能量；

7.根据权利要求1至6任一项所述的方法，其特征在于，根据所述语音信号以及目标方向，确定所述语音信号在所述目标方向上的信干比之前，还包括：

8.一种语音增强装置，其特征在于，包括：

获取模块，用于获取通过麦克风阵列采集得到的语音信号；

处理模块，用于根据所述语音增强参数对所述语音信号进行处理，得到增强后的语音信号；

所述语音增强参数为最小方差无失真响应MVDR波束形成权重参数，所述第二确定模块具体用于：

所述第二确定模块具体用于：

9.根据权利要求8所述的装置，其特征在于，所述处理模块具体用于：

10.根据权利要求8或9所述的装置，其特征在于，所述第一确定模块具体用于：

根据所述目标方向，从所述语音信号中提取得到目标信号；

根据所述目标信号和所述噪声干扰信号，确定所述信干比。

11.根据权利要求10所述的装置，其特征在于，所述第一确定模块具体用于：

获取超指向波束形成噪声矩阵；

12.根据权利要求10所述的装置，其特征在于，所述第一确定模块具体用于：

13.根据权利要求10至12任一项所述的装置，其特征在于，所述第一确定模块具体用于：

根据所述目标信号，确定所述目标信号的能量；

根据所述噪声干扰信号，确定所述噪声干扰信号的能量；

14.根据权利要求8至13任一项所述的装置，其特征在于，所述装置还包括：

15.一种电子设备，其特征在于，包括：存储器和处理器，所述处理器执行所述存储器中的程序指令，用于实现权利要求1-7任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。