CN107742522B

CN107742522B - 基于麦克风阵列的目标语音获取方法及装置

Info

Publication number: CN107742522B
Application number: CN201710994211.5A
Authority: CN
Inventors: 徐东阳; 王海坤; 王智国; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2022-01-14
Anticipated expiration: 2037-10-23
Also published as: EP3703053A4; JP7011075B2; HUE065302T2; PL3703053T3; JP2021500634A; US11081123B2; KR102469516B1; KR20200066366A; WO2019080553A1; US20200342887A1; ES2967132T3; EP3703053B1; EP3703053A1; EP3703053C0; CN107742522A

Abstract

本发明公开了一种基于麦克风阵列的目标语音获取方法及装置，该方法包括：接收基于麦克风阵列采集的语音信号；确定预选目标语音信号及其方向；分别对所述预选目标语音信号进行强方向增益和弱方向增益处理，得到强增益信号和弱增益信号；基于所述强增益信号进行端点检测，得到端点检测结果；根据所述端点检测结果对所述弱增益信号进行端点处理，得到最终目标语音信号。利用本发明，可以得到准确、可靠的目标语音信号，进而避免目标语音质量对后续目标语音处理产生不利影响。

Description

基于麦克风阵列的目标语音获取方法及装置

技术领域

本发明涉及语音信号处理领域，具体涉及一种基于麦克风阵列的目标语音获取方法及装置。

背景技术

随着信息技术的突飞猛进式发展，越来越多的智能交互产品问世，语音作为最自然、最便捷的交互方式之一，是现今智能交互产品主流的交互方式。在实际语音交互过程中，交互效果直接受语音质量影响，而现实环境复杂多变，存在各种影响语音质量的噪声，因而如何较好地消除噪声、提高目标语音质量在交互场景极其重要。

现有主流的针对目标语音的降噪方法是基于麦克风阵列的降噪：利用多个麦克风得到语音信号的空间信息，对目标方向的目标信号进行语音增强，对非目标方向噪声进行抑制。该方法在麦克风数目较多时效果较好，但在实际应用中考虑到设备的成本和布局的限制，麦克风数目难以达到理想的数目，此时，各波束方向拾音区域较大，在目标方向信号所对应的波束中极有可能既包含目标语音，又包含非目标语音，在目标方向信号增强过程中，如果要想较好地去除噪声进行噪声强抑制，可能会导致目标语音失真，对后续目标语音处理带来不可逆转的影响。因而在现有技术中，一般不进行较强的噪声抑制，此时必然存在噪声残留，噪声残留会导致端点检测不准确，进而在后续目标语音处理，如语音识别中，会出现各种因端点检测不准确导致的插入或缺失错误，影响用户体验。

发明内容

本发明实施例提供一种基于麦克风阵列的目标语音获取方法及装置，以得到准确、可靠的目标语音信号，进而避免目标语音质量对后续目标语音处理产生不利影响。

为此，本发明提供如下技术方案：

一种基于麦克风阵列的目标语音获取方法，所述方法包括：

接收基于麦克风阵列采集的语音信号；

确定预选目标语音信号及其方向；

对所述预选目标语音信号分别进行强方向增益和弱方向增益处理，得到强增益信号和弱增益信号；

基于所述强增益信号进行端点检测，得到端点检测结果；

根据所述端点检测结果对所述弱增益信号进行端点处理，得到最终目标语音信号。

优选地，所述确定预选目标语音信号及其方向包括：

通过声源定位确定预选目标语音信号及其方向。

优选地，所述确定预选目标语音信号及其方向包括：

对所述语音信号进行波束成形处理，得到不同方向波束；

从所述不同方向波束中选择满足预设条件的波束，根据选择的波束确定目标语音信号及其方向。

优选地，所述对所述预选目标语音信号分别进行强方向增益和弱方向增益处理，得到强增益信号和弱增益信号包括：

设定强方向增益的拾音区角度和过渡带角度、以及弱方向增益的拾音区角度和过渡带角度；所述强方向增益的拾音区角度小于所述弱方向增益的拾音区角度，所述强方向增益的过渡带角度小于所述弱方向增益的过渡带角度；

根据强方向增益的拾音区角度和过渡带角度，确定基于声源方位角的强方向增益，根据弱方向增益的拾音区角度和过渡带角度，确定基于声源方位角的弱方向增益；所述声源方位角是指所述预选目标语音信号的方位角；

分别根据所述基于声源方位角的强方向增益和弱方向增益，得到强增益信号和弱增益信号。

优选地，所述强方向增益的拾音区角度小于所述预选目标语音信号波束主瓣的角度。

优选地，所述分别对所述预选目标语音信号进行强方向增益和弱方向增益处理，得到强增益信号和弱增益信号还包括：

计算所述预选目标信号和干扰信号的平滑能量比γ；

根据所述平滑能量比γ及预设的高能量比阈值和低能量比阈值确定增益调整系数；

根据所述增益调整系数分别对所述强方向增益和弱方向增益进行调整。

优选地，所述根据所述平滑能量比γ及预设的高能量比阈值和低能量比阈值确定增益调整系数包括：

在所述平滑能量比γ大于所述高能量比阈值时，将所述增益调整系数设定为1；在所述平滑能量比γ小于所述低能量比阈值时，将所述增益调整系数设定K₀；在所述平滑能量比γ大于等于所述低能量比阈值并且小于等于所述高能量比阈值时，将所述增益调整系数设定为K₁，其中，K₁＞K₀。

优选地，所述方法还包括：

在根据满足预设条件的波束确定预选目标语音信号及其方向之前，对各波束进行自适应滤波降噪处理；或者

在确定预选目标语音信号及其方向之后，对所述预选目标语音信号进行自适应滤波降噪处理。

一种基于麦克风阵列的目标语音获取装置，所述装置包括：信号接收模块、预选模块、增益处理模块、端点检测模块、目标语音提取模块。其中：

所述信号接收模块接收基于麦克风阵列采集的语音信号，并将所述语音信号输出给所述预选模块；

所述预选模块用于确定预选目标语音信号及其方向；

所述增益处理模块对所述预选目标语音信号分别进行强方向增益和弱方向增益处理，得到强增益信号和弱增益信号，将所述强增益信号输出给所述端点检测模块，将所述弱增益信号输出给所述目标语音提取模块；

所述端点检测模块基于所述强增益信号进行端点检测，将端点检测结果输出给所述目标语音提取模块；

所述目标语音提取模块根据所述端点检测结果对所述弱增益信号进行端点处理，得到最终目标语音信号。

优选地，所述预选模块通过声源定位确定预选目标语音信号及其方向。

优选地，所述预选模块包括：

波束形成单元，用于对所述语音信号进行波束成形处理，得到不同方向波束；

确定单元，用于从所述波束形成单元得到的不同方向波束中选择满足预设条件的波束，根据选择的波束确定所述预选目标语音信号及其方向。

优选地，所述增益处理模块包括：

角度设置单元，用于设定强方向增益的拾音区角度和过渡带角度、以及弱方向增益的拾音区角度和过渡带角度；所述强方向增益的拾音区角度小于所述弱方向增益的拾音区角度，所述强方向增益的过渡带角度小于所述弱方向增益的过渡带角度；

增益计算单元，用于根据强方向增益的拾音区角度和过渡带角度，确定基于声源方位角的强方向增益，根据弱方向增益的拾音区角度和过渡带角度，确定基于声源方位角的弱方向增益；所述声源方位角是指所述预选目标语音信号的方位角；

增益信号生成单元，用于分别根据所述基于声源方位角的强方向增益和弱方向增益，得到强增益信号和弱增益信号。

优选地，所述增益处理模块还包括：

能量比阈值设置单元，用于设定高能量比阈值和低能量比阈值；

能量比计算单元，用于计算所述预选目标信号和干扰信号的平滑能量比γ；

增益调整系数确定单元，用于根据所述平滑能量比γ及所述高能量比阈值和低能量比阈值确定增益调整系数；

增益修正单元，用于根据所述增益调整系数分别对所述增益计算单元得到的所述强方向增益和弱方向增益进行调整。

优选地，所述预选模块还包括：

降噪单元，设置在所述波束形成单元和所述确定单元之间，对所述波束形成单元得到的各波束进行自适应滤波降噪处理；

或者；所述装置还包括：

降噪模块，设置在所述预选模块和增益模块之间，对所述预选模块确定的预选目标语音信号进行自适应滤波降噪处理。

一种计算机可读存储介质，包括计算机程序代码，该计算机程序代码由一个计算机单元执行，使得该计算机单元执行前面所述的基于麦克风阵列的目标语音获取方法中的步骤。

本发明实施例提供的基于麦克风阵列的目标语音获取方法及装置，接收基于麦克风阵列采集的语音信号，确定预选目标语音信号及其方向，再对所述预选目标语音信号分别进行强、弱方向增益处理，得到强增益信号和弱增益信号，由于强增益后的语音信号中残留的噪声信号较少，因此基于所述强增益信号进行端点检测，可以得到准确的端点检测结果；由于弱增益后的语音信号中，目标语音失真很小，因此根据该端点检测结果，对所述弱增益信号进行端点处理，可以得到可信度更高的目标语音信号。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例基于麦克风阵列的目标语音获取方法的流程图；

图2是本发明实施例中基于声源方位角设计的增益示意图；

图3是本发明实施例基于麦克风阵列的目标语音获取装置的一种结构框图；

图4是本发明装置实施例中增益处理模块的一种结构示意图；

图5是本发明装置实施例中增益处理模块的另一种结构示意图；

图6是本发明实施例基于麦克风阵列的目标语音获取装置的另一种结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

语音增强的目标是在保证不损坏目标语音结构的前提下，减少甚至消除接收信号中存在的噪声，从而提高语音的清晰度。为此，本发明实施例提供一种基于麦克风阵列的目标语音获取方法及装置，基于麦克风阵列接收的语音信号，确定预选目标语音信号及其方向；对所述预选目标语音信号分别进行强方向增益和弱方向增益处理，得到强增益信号和弱增益信号；基于所述强增益信号进行端点检测，得到端点检测结果；根据所述端点检测结果对所述弱增益信号进行端点处理，得到最终目标语音信号。

如图1所示，是本发明实施例基于麦克风阵列的目标语音获取方法的流程图，包括以下步骤：

步骤101，接收基于麦克风阵列采集的语音信号。

在具体应用中，在接收到语音信号后，还需要对其进行预处理。

以包含M个麦克风的麦克风阵列接收语音信号x_m(t)为例，对所述语音信号进行预处理主要指将接收到的语音信号从时域变换到频域，得到频域语音信号x(k,l)＝[x₁(k,l),x₂(k,l)...x_m(k,l)...x_M(k,l)]^T，其中x_m(k,l)表示第m个麦克风接收到的频域语音信号，其中k表示信号的频率，l表示语音帧序号。

步骤102，确定预选目标语音信号及其方向。

在本发明实施例中，所述预选目标语音信号可以是特定命令词语音信号和/或特定目标人语音信号、有效语音信号等，不论是何种语音信号，均可以采用声源定位方式确定预选目标语音信号及其方向。所述声源定位的具体过程与现有技术相同，在此不再赘述。

在采用声源定位方式确定预选目标语音信号及其方向之前，还可以对所述语音信号进行降噪处理，具体可以采用现有技术中的一些降噪方式，对此本发明实施例不做限定。

另外，在确定预选目标语音信号及其方向时，还可以先对所述语音信号进行波束成形处理，得到不同方向波束；然后从所述不同方向波束中选择满足预设条件的波束，根据选择的波束作确定目标语音信号及其方向。

波束成形具体可以采用现有技术，比如基于方向估计的自适应算法、基于信号结构的波束形成方法等，对此本发明实施例不做限定。

麦克风固定波束形成过程如下：

假设M个麦克风形成N个固定波束，各个麦克风对应的波束形成系数为：

w(k，l)＝[w₁(k，l)，w₂(k，l)，……，w_M(k，l)]^T (1)

其中，k表示信号的频率，l表示语音帧序号；

则固定波束的输出为：

fix(k，l)＝w^H(k，l)x(k，l) (2)

上述固定波束形成系数可以基于期望方向信号无失真、其他方向输出信号功率足够小的原则进行计算得到。

需要说明的是，在实际应用中，在得到各波束后，还可以对其进行自适应滤波降噪处理。所述自适应滤波降噪处理包括多通道去混响、广义旁瓣相消等处理，也可采用现有其他降噪方法，对此不做限定。下面以广义旁瓣相消为例进行说明。

广义旁瓣相消的目的是对非目标方向的信号进行抑制，具体实现过程如下：

首先获得噪声参考信号：

u(k，l)＝B(k，l)^Hx(k，l) (3)

其中u＝[u₁(k，l)，L，u_M-1(k，l)]^T是(M-1)×1矢量；B(k，l)是(M-1)×M的阻塞矩阵，可基于最大化抑制期望方向信号的原则得到，该矩阵用于得到剔除掉目标信号外的噪声参考信号。

然后从固定波束信号中滤除噪声信号，固定波束信号中的噪声信号可以用噪声参考信号乘以系数得到，最终的期望波束信号可以表示为：

Y(k,l)＝fix(k,l)-H(k,l)^Hu(k,l) (4)

其中，H(k,l)^H表示滤波器系数，可以通过归一化线性最小均方误差(LMS)算法进行更新获得。

在前面提到，在本发明实施例中，所述预选目标语音信号可以是特定命令词语音信号和/或特定目标人语音信号，在这种情况下，可以对各波束进行特定命令词和/或声纹识别，在识别到特定命令词和/或特定目标人后，挑选识别结果满足预设条件，比如识别分数最高的波束作为预选目标语音信号，相应地，该波束的方向即为预选目标语音信号的方向。对于所述预选目标语音信号为有效语音信号的情况，可以对各波束基于设定准则挑选出预选目标语音并确定其对应方向。所述设定准则可以是以下任意一项或组合：能量最大、信噪比最高。

需要说明的是，上述语音信号的自适应滤波降噪处理中多通道去混响、广义旁瓣相消等步骤，还可以在方位确定准确性允许的情况下，在目标语音方向确定之后进行，即对预选目标语音信号进行自适应滤波降噪处理，对此本发明实施例不做限定。

步骤103，对所述预选目标语音信号分别进行强方向增益和弱方向增益，得到强增益信号和弱增益信号。

因为GSC(Generalized Sidelobe Canceller，广义旁瓣抵消器)在非目标方向噪声抑制时通常只能抑制一部分非目标方向的噪声，通过方向增益处理可以对噪声进一步抑制。

为此，在本发明实施例中，通过两种强度的方向增益处理，分别得到强方向增益处理后的语音信号即强增益信号和弱方向增益处理后的语音信号即弱增益信号。处理后得到的强增益信号，其所残留的噪声信号较少，但目标语音信号相应也有较大的失真；而弱增益信号属性则相反。

增益处理过程如下：

1)设定强方向增益的拾音区角度和过渡带角度、以及弱方向增益的拾音区角度和过渡带角度；所述强方向增益的拾音区角度小于所述弱方向增益的拾音区角度，所述强方向增益的过渡带角度小于所述弱方向增益的过渡带角度；

2)根据强方向增益的拾音区角度和过渡带角度，确定基于声源方位角的强方向增益，根据弱方向增益的拾音区角度和过渡带角度，确定基于声源方位角的弱方向增益；所述声源方位角是指所述预选目标语音信号的方位角；

3)分别根据所述基于声源方位角的强方向增益和弱方向增益，得到强增益信号和弱增益信号。

考虑到不同干扰情况下对所述预选目标语音信号的影响，进一步地，在上述步骤2)和步骤3)之间，还可以包括以下步骤：对基于声源方位角的强方向增益和弱方向增益进行调整，相应地，在步骤3)需要根据调整后的强方向增益和弱方向增益，得到强增益信号和弱增益信号。

方向增益可通过以下公式表示：

其中，g_i(θ,l)表示基于声源方位角θ设计的增益；如示意图2所示，θ为声源方位角，即指所述预选目标语音信号的方位角；-T1到T1的区域表示拾音区，T1到T2的区域、以及-T2到-T1的区域表示过渡带，大于T2和小于-T2的区域表示非拾音区。

需要说明的是：强方向增益和弱方向增益的区别在于T1和T2的取值。

在强方向增益时，T1的值取得较小(一般小于目标波束主瓣的角度，可根据实际应用情况确定)，T2取值尽可能接近于T1，使得过渡带尽可能窄，以保证非拾音区的增益尽可能小，接近于0。当拾音区较小，同时过渡带设计得比较窄时，容易造成目标语音的失真，但是强方向增益处理后得到的强增益信号主要用于后续的目标语音开始和结束点检测，失真并不造成影响。

在弱方向增益时，T1取值相较于强方向增益大些，一般可稍小于或等于目标波束主瓣的角度(可根据实际应用情况确定)，而T2取值可设计得尽可能大，保证声源估计错误时，目标语音分量不被过分抑制。

进一步地，考虑到不同干扰情况下对所述预选目标语音信号的影响，还可以对基于声源方位角的强方向增益和弱方向增益进行调整。对增益的调整过程如下：

首先计算预选目标信号和干扰信号的平滑能量比γ，根据所述平滑能量比γ及预设的高能量比阈值和低能量比阈值确定增益调整系数，从而在不同的平滑能量比情况下，对应不同的增益调整系数；然后根据所述增益调整系数分别对所述强方向增益和弱方向增益进行调整。

所述平滑能量比γ可以根据常规的平滑方式来计算，比如，可以采用以下公式计算得到：

其中，

和β为加权系数，

其值可根据实际应用情况确定，比如分别为0.9和0.1。Y_target(k,l)表示预选目标信号，Y_interfere(k,l)表示干扰信号。

比如，对强方向增益和弱方向增益的具体调整公式如下：

其中，

i＝1、2，分别对应强方向增益和弱方向增益。γ(k,l)表示频率为k的第l帧的预选目标信号和干扰信号的平滑能量比，所述干扰信号可以取其它波束中能量最大的波束；γ_high、γ_low分别表示高能量比阈值、低能量比阈值，其取值可根据实际应用情况确定，比如分别为4和0.4。K₀为修正系数，主要用于在弱方向增益的时候，在有double-talk(双向通话)的情况下，对增益的修正，一般取一个较小的值，如0.2。

在确定好强、弱两方向增益后，得到增益后的两路信号，即强增益信号和弱增益信号：

Y₁(k,l)＝G₁(k,l)Y(k,l) (8)

Y₂(k,l)＝G₂(k,l)Y(k,l) (9)

其中，Y(k,l)表示所述预选目标语音信号，Y₁(k,l)和Y₂(k,l)分别为强增益信号和弱增益信号。

步骤104，基于所述强增益信号进行端点检测，得到端点检测结果。

端点检测是从包含语音的一段信号中准确地确定语音的起始点和终止点，从而确定语音和非语音信号。有效的端点检测不仅在语音识别、处理等应用中减少数据的采集量，还能排除无声段和噪声段的干扰，得到有效的语音信号。具体的端点检测可以采用现有技术，比如基于短时能量和短时平均过零率的端点检测、基于倒谱特征的端点检测、基于熵的端点检测等。

步骤105，根据所述端点检测结果对所述弱增益信号进行端点处理，得到最终目标语音信号。

也就是说，根据步骤105得到的语音的起始点和终止点的位置，从所述弱增益信号得到最终目标语音信号。

本发明实施例提供的基于麦克风阵列的目标语音获取方法，接收基于麦克风阵列采集的语音信号，确定预选目标语音信号及其方向，对所述预选目标语音信号分别进行强、弱方向增益处理，得到强增益信号和弱增益信号，由于强增益后的语音信号中残留的噪声信号较少，因此基于所述强增益信号进行端点检测，可以得到准确的端点检测结果；由于弱增益后的语音信号中，目标语音失真很小，因此根据该端点检测结果，对所述弱增益信号进行端点处理，可以得到可信度更高的目标语音信号。

相应地，本发明实施例还提供一种计算机可读存储介质，包括计算机程序代码，该计算机程序代码由一个计算机单元执行，使得该计算机单元执行本发明基于麦克风阵列的目标语音获取方法实施例中的各步骤。

相应地，本发明实施例还提供一种基于麦克风阵列的目标语音获取装置，如图3所示，是该装置的一种结构框图，包括：信号接收模块301，预选模块302，增益处理模块303，端点检测模块304，目标语音提取模块305。其中：

所述信号接收模块301接收基于麦克风阵列采集的语音信号，并将所述语音信号输出给所述预选模块302；

所述预选模块302用于根据所述语音信号确定预选目标语音信号及其方向；

所述增益处理模块303对所述预选目标语音信号分别进行强方向性增益和弱方向性增益，得到强增益信号和弱增益信号，将所述强增益信号输出给所述端点检测模块304，将所述弱增益信号输出给所述目标语音提取模块305；

所述端点检测模块304基于所述强增益信号进行端点检测，将端点检测结果输出给所述目标语音提取模块305；

所述目标语音提取模块305根据所述端点检测结果对所述弱增益信号进行端点处理，得到最终目标语音信号。

在实际应用中，所述信号接收模块301还需要对接收的语音信号进行预处理，对所述语音信号进行预处理主要指将接收到的语音信号从时域变换到频域，得到频域语音信号。

在本发明的一个实施例中，所述预选模块302可以通过声源定位确定预选目标语音信号及其方向。

在本发明的另一个实施例中，所述预选模块302可以先对所述语音信号进行波束成形处理，得到不同方向波束；然后选择满足预设条件的波束，根据选择的波束作确定目标语音信号及其方向。相应地，在该实施例中，所述预选模块302可以包括以下两个单元：

波束形成单元，用于对所述语音信号进行波束成形处理，得到不同方向波束，具体可以采用现有技术，比如基于方向估计的自适应算法、基于信号结构的波束形成方法等；

比如，所述预选目标语音信号可以是特定命令词语音信号和/或特定目标人语音信号，在这种情况下，所述确定单元可以对各波束进行特定命令词和/或声纹识别，在识别到特定命令词和/或特定目标人后，通挑选识别结果满足预设条件，比如识别分数最高的波束作为预选目标语音信号，相应地，该波束的方向即为预选目标语音信号的方向。

再比如，所述目预选目标语音信号为有效语音信号，在这种情况下，所述确定单元可以对各波束基于设定准则挑选出预选目标语音并确定其对应方向。所述设定准则可以是以下任意一项或组合：能量最大、信噪比最高。

需要说明的是，在上述波束形成单元和确定单元之间，还可设置降噪单元，对所述波束形成单元得到的各波束进行自适应滤波降噪处理，所述自适应滤波降噪处理包括以下任意一种或多种：多通道去混响、广义旁瓣相消。

如图4所示，是本发明装置实施例中增益处理模块的一种结构示意图。

在该实施例中，所述增益处理模块包括：

角度设置单元41，用于设定强方向增益的拾音区角度和过渡带角度、以及弱方向增益的拾音区角度和过渡带角度；所述强方向增益的拾音区角度小于所述弱方向增益的拾音区角度，所述强方向增益的过渡带角度小于所述弱方向增益的过渡带角度；所述强方向增益的拾音区角度小于所述预选目标语音信号波束主瓣的角度。

增益计算单元42，用于根据所述强方向增益的拾音区角度和过渡带角度，确定基于声源方位角的强方向增益，根据所述弱方向增益的拾音区角度和过渡带角度，确定基于声源方位角的弱方向增益；所述声源方位角是指所述预选目标语音信号的方位角；

增益信号生成单元43，用于分别根据所述基于声源方位角的强方向增益和弱方向增益，得到强增益信号和弱增益信号。

如图5所示，是本发明装置实施例中增益处理模块的另一种结构示意图。

与图4所示实施例相比，在该实施例中，所述增益处理模块还包括：

能量比阈值设置单元51，用于设定高能量比阈值和低能量比阈值；

能量比计算单元52，用于计算所述预选目标信号和干扰信号的平滑能量比γ；

增益调整系数确定单元53，用于根据所述平滑能量比γ及所述高能量比阈值和低能量比阈值确定增益调整系数；

增益修正单元54，用于根据所述增益调整系数分别对所述增益计算单元42得到的强方向增益和弱方向增益进行调整。

相应地，在该实施例中，增益信号生成单元43需要根据所述增益修正单元54调整后的强方向增益和弱方向增益，得到强增益信号和弱增益信号。

当然，在实际应用中，上述角度设置单元41和能量比阈值设置单元51可以是独立的，也可以是集成于一体的，对此本发明实施例不做限定。

如图6所示，是该装置的另一种结构框图，与图3所示实施例相比较，在该实施例中，所述装置还包括：设置在所述预选模块302和所述增益模块303之间的降噪模块306，用于对所述预选模块302确定的预选目标语音信号进行自适应滤波降噪处理，比如多通道去混响、广义旁瓣相消等处理，当然，也可以包括现有技术中的其它降噪处理，对此本发明实施例不做限定。

本发明实施例提供的基于麦克风阵列的目标语音获取装置，基于麦克风阵列采集的语音信号，确定预选目标语音信号及其方向，再对所述预选目标语音信号分别进行强、弱方向增益处理，得到强增益信号和弱增益信号，由于强增益后的语音信号中残留的噪声信号较少，因此基于所述强增益信号进行端点检测，可以得到准确的端点检测结果；由于弱增益后的语音信号中，目标语音失真很小，因此根据该端点检测结果，对所述弱增益信号进行端点处理，可以得到可信度更高的目标语音信号。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。而且，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及装置；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于麦克风阵列的目标语音获取方法，其特征在于，所述方法包括：

接收基于麦克风阵列采集的语音信号；

确定预选目标语音信号及其方向；

对所述预选目标语音信号分别进行强方向增益和弱方向增益处理，分别确定强方向增益和弱方向增益，基于所述强方向增益和所述弱方向增益得到强增益信号和弱增益信号；

基于所述强增益信号进行端点检测，得到端点检测结果；

根据所述端点检测结果对所述弱增益信号进行端点处理，得到最终目标语音信号；

所述对所述预选目标语音信号分别进行强方向增益和弱方向增益处理，分别确定强方向增益和弱方向增益，包括：

根据所述强方向增益的拾音区角度和过渡带角度，确定基于声源方位角的强方向增益，根据所述弱方向增益的拾音区角度和过渡带角度，确定基于声源方位角的弱方向增益；所述声源方位角是指所述预选目标语音信号的方位角。

2.根据权利要求1所述的方法，其特征在于，所述确定预选目标语音信号及其方向包括：

通过声源定位确定预选目标语音信号及其方向。

3.根据权利要求1所述的方法，其特征在于，所述确定预选目标语音信号及其方向包括：

对所述语音信号进行波束成形处理，得到不同方向波束；

4.根据权利要求1所述的方法，其特征在于，所述基于所述强方向增益和所述弱方向增益得到强增益信号和弱增益信号，包括：

5.根据权利要求1所述的方法，其特征在于，所述强方向增益的拾音区角度小于所述预选目标语音信号波束主瓣的角度。

6.根据权利要求1所述的方法，其特征在于，分别对所述预选目标语音信号进行强方向增益和弱方向增益处理，分别确定强方向增益和弱方向增益，还包括：

计算所述预选目标语音信号和干扰信号的平滑能量比γ；

根据所述增益调整系数分别对所述强方向增益和弱方向增益进行调整；

所述基于所述强方向增益和所述弱方向增益得到强增益信号和弱增益信号，包括：

分别根据调整后的强方向增益和弱方向增益，得到强增益信号和弱增益信号。

7.根据权利要求6所述的方法，其特征在于，所述根据所述平滑能量比γ及预设的高能量比阈值和低能量比阈值确定增益调整系数包括：

8.根据权利要求3所述的方法，其特征在于，所述方法还包括：

9.一种基于麦克风阵列的目标语音获取装置，其特征在于，所述装置包括：信号接收模块、预选模块、增益处理模块、端点检测模块、目标语音提取模块；其中：

所述信号接收模块用于接收基于麦克风阵列采集的语音信号，并将所述语音信号输出给所述预选模块；

所述预选模块用于确定预选目标语音信号及其方向；

所述增益处理模块对所述预选目标语音信号分别进行强方向增益和弱方向增益处理，分别确定强方向增益和弱方向增益，基于所述强方向增益和所述弱方向增益得到强增益信号和弱增益信号，将所述强增益信号输出给所述端点检测模块，将所述弱增益信号输出给所述目标语音提取模块；

所述端点检测模块用于基于所述强增益信号进行端点检测，将端点检测结果输出给所述目标语音提取模块；

所述目标语音提取模块用于根据所述端点检测结果对所述弱增益信号进行端点处理，得到最终目标语音信号；

所述增益处理模块包括：

增益计算单元，用于根据所述强方向增益的拾音区角度和过渡带角度，确定基于声源方位角的强方向增益，根据所述弱方向增益的拾音区角度和过渡带角度，确定基于声源方位角的弱方向增益；所述声源方位角是指所述预选目标语音信号的方位角。

10.根据权利要求9所述的装置，其特征在于，所述预选模块通过声源定位确定预选目标语音信号及其方向。

11.根据权利要求9所述的装置，其特征在于，所述预选模块包括：

12.根据权利要求9所述的装置，其特征在于，

13.根据权利要求9所述的装置，其特征在于，所述强方向增益的拾音区角度小于所述预选目标语音信号波束主瓣的角度。

14.根据权利要求9所述的装置，其特征在于，所述增益处理模块还包括：

能量比计算单元，用于计算所述预选目标语音信号和干扰信号的平滑能量比γ；

增益修正单元，用于根据所述增益调整系数分别对所述增益计算单元得到的所述强方向增益和弱方向增益进行调整；

所述增益信号生成单元具体用于：分别根据调整后的强方向增益和弱方向增益，得到强增益信号和弱增益信号。

15.根据权利要求11所述的装置，其特征在于，

所述预选模块还包括：

或者；所述装置还包括：

16.一种计算机可读存储介质，其特征在于，包括计算机程序代码，该计算机程序代码由一个计算机单元执行，使得该计算机单元执行如权利要求1至8任一项所述的基于麦克风阵列的目标语音获取方法中的步骤。