CN112259117B

CN112259117B - 一种目标声源锁定和提取的方法

Info

Publication number: CN112259117B
Application number: CN202011042009.0A
Authority: CN
Inventors: 叶剑豪; 瞿虎林; 周伟林
Original assignee: Shanghai Shenghan Information Technology Co ltd
Current assignee: Shanghai Shenghan Information Technology Co ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2024-05-14
Anticipated expiration: 2040-09-28
Also published as: CN112259117A

Abstract

本发明公开了一种目标声源锁定和提取的方法，首先通过多通道BSS算法AUX‑IVA(基于辅助函数的独立向量分析)提取出多个声源，再通过基于SNR(信噪比)和语音识别系统反馈的自适应目标声源锁定进行声源选择。在此基础上，再通过声源分离中的不同声源相对的空间信息判断纯干扰声源段，并进行消除。最后使用基于DNN的VAD端点检测。算法提取最终的目标声源有效语音段，语音识别系统的反馈同样作用于VAD算法。基于时间窗的AUX‑IVA算法，总体算法收敛迭代次数所需少，更加轻量级，且进一步利用空间信息进行干扰源和目标源的分离提取。

Description

一种目标声源锁定和提取的方法

技术领域

本发明涉及一种目标声源锁定和提取的方法，尤其涉及一种强非稳态干扰环境下基于多通道声源分离和端点检测的目标声源锁定和提取的方法。

背景技术

语音作为新一代的人机交互方式正在越来越多的被用在嵌入式设备中，如汽车中的车机和家用电器，融入到人们的日常生活中。然而这些带语音识别交互功能的嵌入式设备所在的环境通常包含了非稳态的干扰源。虽然近年来的降噪算法发展迅速，且越来越多的使用DNN(神经网络)的建模方式。但是当干扰源和目标声源的声学特征具有很强的共性时，传统语音增强算法的工作流通常无法从这种强非稳态干扰源中区分出目标声源，如具有高保真音响的电视播放的新闻节目等。而输入语音识别系统的理想信号应该是在目标声源和干扰声源重叠部分提取出目标声源信号，且在无目标声源段没有干扰声源输入语音识别系统。

传统的语音增强算法流程中，降噪算法虽然已经可以比较好的能应对一些与人声区别较大的日常噪声。但是对于和人声声学特征非常相似的干扰声源，降噪算法没有能力去区分目标声源。而单纯的多通道声源BSS(盲分离)算法虽然可以应对多个声源的情况，但是由于是盲分离，其无法锁定目标声源，并且在实际语音交互环境下由于混响和其他信号失真的影响，会留下大量纯干扰声源。

本发明主要目为在语音交互场景下，将含有多个声源的多路语音信号进行声源分离，并自适应地锁定目标声源从而提取出目标声源段，且同时大幅减少纯干扰声源信号段的能量水平，从而使语音识别系统在强非稳态干扰源下能够正常识别目标声源的有效语音。并且系统足够轻量级从而能够部署在大部分嵌入式系统中。

发明内容

本发明为解决上述技术问题而采用的技术方案是提供一种目标声源锁定和提取的方法，使用分离声源的SNR和语音识别反馈来自动锁定目标声源。

其中，具体技术方案为：

1)使用基于辅助函数的窗移独立向量分析；

2)在分离后的多通道声源中选择目标声源；

3)基于分离后声源相对空间信息的纯干扰声源段检测和消除；

4)使用基于DNN的VAD算法进行最终目标声源语音段提取。

上述的一种目标声源锁定和提取的方法，其中，1)使用基于辅助函数的窗移独立向量分析，具体为：

步骤1)将M个麦克风采集到的包含M个源信号的混合信号x_m(n)，1≤m≤M进行短时傅里叶变换，得到其频域表示x(ω，τ)，其中ω和τ分别为频率和时间索引，总的频段数为K；并初始化盲分离矩阵W(ω，τ)；

步骤2)累积得到L_b帧混合信号的频域表示X(ω，τ)，并使用W(ω，τ)对其进行分离，得到估计的包含M个源的信号Y(ω，τ)，即Y(ω，τ)＝X(ω，τ)W(ω，τ)，Y(ω，τ)为Mx1的向量；

步骤3)依据公式(1)和公式(2)更新辅助函数V_m(ω；τ)；

式(1)中，α(0≤α≤1)是遗忘因子，L_b为块大小；

步骤4)依据公式(3)和公式(4)更新盲分离矩阵W(ω，τ)，式(3)中e^k表示一个列向量，其中第k个元素为1，其余为0；

w_m(ω；τ)←(W(ω；τ)V_m(ω；τ))^-1e^m (3)

步骤2)、3)和4)按算法1所示进行迭代计算W(ω，τ)和分离M路声源得到最终的Y(ω，τ)。

算法1：Block-Online的AuxIVA更新规则；

for τ＝1 to Nτ do；

更新源分离矩阵：W(ω；τ)＝W(ω；τ-1)；

for n＝1 to N do；

for m＝1 to M do：

公式(1)更新r_k(τ)(如步骤3))；

for ω＝1 to N_ω do；

更新辅助变量V_k(ω；τ)(如步骤3))和盲矩阵更新(如步骤4))；

end for

end for。

上述的一种目标声源锁定和提取的方法，其中，2)在分离后的多通道声源中选择目标声源，具体为：

步骤6)对于每一个分离的声源S_m(ω，τ)＝Y(ω，τ)[m]，做一个大时间窗T帧的滑动统计，又将这个大时间窗切割成n个时长为1帧的小时间窗；用公式(5)计算每个分离声源的小时间窗能量，其中i为小时间窗的索引：

步骤7)对于当前大时间窗，对于每个分离的声源S_m获取最大/最小的小时间窗累积能量，见公式(6)(7)：

E_max_m＝Max{E_m[i]}，i＝0，1，2...n-1 (6)

E_min_m＝Min{E_m[i]}，i＝0，1，2...n-1 (7)

使用当前大时间窗每个声源统计得到的最大/最小值去分别更新信号/噪声的能量统计，其中α为平滑参数，t为大时间窗的索引，见公式(8)(9)：

Speech_m(t)＝α x E_max_m+(1-α)x Speech_m(t-1) (8)

Noise_m(t)＝α x E_max_m+(1-α)x Noise_m(t-1) (9)

步骤8)使用语音识别系统反馈进一步提升声源锁定准确率：在语音交互中，语音识别系统既作为声学处理的下游任务，反过来给予声学处理模块以信息反馈；

当语音交互被触发，触发点的前T_target帧被认为是极大概率存在有效语音的，对这一段时间的最大值进行统计，增强对于信噪比计算中的语音信号的估计准确度，从而影响SNR_mt的计算，具体操作上，当有语音交互被触发时，同样将T_target帧切分成为1帧的小时间窗，使用类似公式(5)进行语音信号的统计，见公式(10)(11)：

E_max_target_m＝Max(E_target_m[i])，i＝0，1，2...n-1 (11)

使用公式(12)对目标区域内的最大值去和当前语音信号的统计做加权：

Speech_m(t)＝γ x E_max_target_m+(1-γ)x Speech_m(t) (12)

步骤9)最后更新信号噪声比，β为平滑系数：

对于每个大时间窗，做一次判决，取信噪比SNR_m(t)最大的一路分离声源作为目标声源S_target(ω，τ)。

上述的一种目标声源锁定和提取的方法，其中，3)基于分离后声源相对空间信息的纯干扰声源段检测和消除，具体为：

步骤10)进一步利用目标声源和干扰声源的空间相关信息，从而判断当前block是否是纯干扰噪声源，是，则将当前窗进行静音；多通道盲分离方法本质上是让多路输入信号通过多个空间滤波器，每个空间滤波器接收多路信号，将这多路信号中的同一声源信号提取到同一路输出中，则每个空间滤波器的作用就是提取目标声源信号，且滤出其他声源信号，则目标声源对应的空间滤波器SF_target输出S_target(ω，τ)和其他声源(干扰噪声源)对应的空间滤波器SF_in输出S_in(ω，τ)存在比例关系可以用来区分当前窗是否为纯干扰噪声。

上述的一种目标声源锁定和提取的方法，其中，分析如下：

假设X为多路接收到的信号，且假设盲源分离对于各个源头的分离效果是均衡的，则在语音交互中存在两种情况：

情况一计算空间滤波器输出比R：

X(ω，τ)＝S+N，其中S为理想纯目标语音信号，N为理想纯干扰噪声源；当SNR>>0时，该R值>>1，当SNR＝0时，该R值会接近于1；

情况二计算空间滤波器输出比R：

X＝N，接收到的是纯干扰噪声源。则在任意信噪比情况下啊，R值都会小于1。

由以上分析，由于AUX-IVA是以L_b帧为基础单位进行迭代，纯干扰噪声源的判决也可以L_b帧为基础单位进行迭代，可得R值计算公式(16)：

步骤11)利用情况二的突出特征来判断当前窗是否是纯干扰噪声，使用固定阈值或者长窗平滑R值作为阈值，即当有阈值R_thresh:

R<R_thresh:当前窗为纯干扰噪声段；

R≥R_thresh:当前窗存在语音信号；

根据以上R值的判断对纯干扰噪声段进行静音处理得到S_{target_trim}(ω，τ)。

上述的一种目标声源锁定和提取的方法，其中，4)使用基于DNN的VAD算法进行最终目标声源语音段提取，具体为：

步骤12)VAD系统采用基于神经网络的算法得分和基于能量的算法得分的双门限法来区分音频帧的属性：语音帧和非语音帧；考虑到实际应用场景的复杂性，神经网络模型训练数据准备阶段，在基础数据集中加入了充分的远场模拟数据，并混入了不同类型、不同信噪比的噪声数据；依据神经网络的强大学习能力，从不同的数据集中学习到有效语音的特征，从而获得比较的强语音区分能力；

具体为，DNN接收处理过后的目标声源信号S_{target_trim}(ω，τ)作为输入，对于每一帧τ都得到一个0-1的DNN_score(τ)＝DNN(S_{target_trim}(ω，τ))；

步骤13)语音识别系统反馈进行端点检测算法的鲁棒性提升：处理后的目标声源信号S_{target_trim}(ω，τ)的信噪比一般为0db以上，所以估计有效语音段的能量即可获得当前环境音频的最大能量；充分利用整个系统框架的结构优势，根据语音识别系统的反馈的时间位置信息，系统能够获取到当前环境音频能量的最大值E_bg；在系统的运行期间，首先，使用公式(17)计算S_{target_trim}(ω，τ)每一帧τ的能量E(τ)；

步骤14)更新背景音频能量的时候，系统中存储宽口大小为n的的能量窗，并在语音识别系统反馈的时间点，取能量窗中最大的能量值作为当前待更新的能量值E_bg_curr，使用平滑算法从而能够有效的估计环境不同时段的音频能量水平，具体见公式(19)其中αV为平滑参数。

E_bg_curr＝Max[E(τ_i)]，i＝0，1，2...n-1 (18)

E_bg＝αV×E_bg+(1-αV)×E_bg_curr (19)

步骤15)根据当前帧的能量E(τ)和环境能量E_bg，依据公式(20)计算得到当前帧的能量得分；

Energy_score(τ)＝E(τ)/E_bg (20)

步骤16)根据当前帧的DNN得分DNN_score(τ)和能量得分Energy_score(τ)，公式(21)计算得到当前帧的最终得分Score(τ)，其中βV为能量权重。当Score(τ)大于语音判定阈值speech_thres，判定当前帧为语音帧，否则为非语音帧；

在获取当前帧得分过程中，动态估计了系统工作环境的能量水平，使得能量得分的获取具有一定的自适应能力，从而提高了VAD系统的鲁棒性；

Score(τ)＝βV×Energy_score(τ)+(1-βV)×DNN_score(τ) (21)

步骤17)根据得到的Score(τ)，当Score(τ)＞＝VAD阈值vad_threshold时，判定第τ帧为存在语音信号，否则判定为语音不存在，从而提取最终目标声源的有效语音段。

本发明相对于现有技术具有如下有益效果：

本发明所设计的目标声源提取系统，首先通过多通道BSS算法AUX-IVA(基于辅助函数的独立向量分析)提取出多个声源，再通过基于SNR(信噪比)和语音识别系统反馈的自适应目标声源锁定进行声源选择。在此基础上，再通过声源分离中的不同声源相对的空间信息判断纯干扰声源段，并进行消除。最后使用基于DNN的VAD端点检测)算法提取最终的目标声源有效语音段，语音识别系统的反馈同样作用于VAD算法。

1、基于时间窗的AUX-IVA算法，总体算法收敛迭代次数所需少，更加轻量级。

2、使用分离声源的SNR和语音识别反馈来自动锁定目标声源。

3、结合不同声源的相对空间信息来判断纯干扰声源段，从而对纯干扰声源信号段进行增益控制和消除。

4、基于远场模拟和噪声增强数据训练的基于DNN的VAD算法，具有对噪声的识别能力和远场语音的VAD能力。

5、将语音识别系统反馈加入到VAD算法中。

6、该系统对于麦克风阵列的拓扑结构没有先验要求，可以使用大于等于2个麦克风数量的的任意拓扑结构麦克风阵列作为算法硬件基础。

附图说明

图1为目标声源语音提取框图。

图2为语音识别反馈的示意图。

图3为端点检测框图的示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述。

本发明的总体系统执行框图如图1描述，图1是目标声源语音提取框图。

具体操作流程具体描述如下：

1、使用基于辅助函数的窗移独立向量分析。

步骤1)将M个麦克风采集到的包含M个源信号的混合信号x_m(n)，1≤m≤M进行短时傅里叶变换，得到其频域表示x(ω，τ)，其中ω和τ分别为频率和时间索引，总的频段数为K。并初始化盲分离矩阵W(ω，τ)；

步骤2)累积得到L_b帧混合信号的频域表示X(ω，τ)，并使用W(ω，τ)对其进行分离，得到估计的包含M个源的信号Y((ω，τ)，即Y(ω，τ)＝X(ω，τ)W(ω，τ)，Y(ω，τ)为Mx1的向量；

步骤3)依据公式(1)和公式(2)更新辅助函数V_m(ω；τ)；

式(1)中，α(0≤α≤1)是遗忘因子，L_b为块大小；

w_m(ω；τ)←(W(ω；τ)V_m(ω；τ))^-1e^m (3)

步骤2)，3)和4)按算法1所示进行迭代计算W(ω，τ)和分离M路声源得到最终的Y(ω，τ)。

算法1：Block-Online的AuxIVA更新规则。

for τ＝1 to N_τ do

更新源分离矩阵：W(ω；τ)＝W(ω；τ-1)；

forn＝1 to N do

for m＝1 to M do

公式(1)更新r_k(τ)(如步骤3))；

forω＝1to N_ω do

更新辅助变量V_k(ω；τ)(如步骤3))和盲矩阵更新(如步骤4))；

end for

2、在分离后的多通道声源中选择目标声源。

步骤6)对于每一个分离的声源S_m(ω，τ)＝Y(ω，τ)[m]，做一个大时间窗T帧的滑动统计，又将这个大时间窗切割成n个时长为1帧的小时间窗。用公式(5)计算每个分离声源的小时间窗能量，其中i为小时间窗的索引：

E_max_m＝Max{E_m[i]}，i＝0，1，2...n-1 (6)

E_min_m＝Min{E_m[i]}，i＝0，1，2...n-1 (7)

Speech_m(t)＝α x E_max_m+(1-α)x Speech_m(t-1) (8)

Noise_m(t)＝α x E_max_m+(1-α)x Noise_m(t-1) (9)

步骤8)使用语音识别系统反馈进一步提升声源锁定准确率：在语音交互中，语音识别系统既可以作为声学处理的下游任务，又可以反过来给予声学处理模块以信息反馈。本发明结合了这样一种语音识别系统反馈机制，从而帮助信噪比统计时对语音信号的精确定位。如图2所示，当语音交互被触发，触发点的前T_target帧可以被认为是极大概率存在有效语音的，对这一段时间的最大值进行统计，可以增强对于信噪比计算中的语音信号的估计准确度，从而影响SNR_m，t的计算。具体操作上，当有语音交互被触发时，同样将T_target帧切分成为1帧的小时间窗，使用类似公式(5)进行语音信号的统计，见公式(10)(11)：

E_max_target_m＝Max(E_target_m[i])，i＝0，1，2...n-1 (11)

Speech_m(t)＝γ x E_max_target_m+(1-γ) x Speech_m(t) (12)

步骤9)最后更新信号噪声比，β为平滑系数：

3、基于分离后声源相对空间信息的纯干扰声源段检测和消除

步骤10)进一步利用目标声源和干扰声源的空间相关信息，从而判断当前block是否是纯干扰噪声源，如果是，则可以将当前窗进行静音。多通道盲分离方法本质上是让多路输入信号通过多个空间滤波器，每个空间滤波器接收多路信号，将这多路信号中的同一声源信号提取到同一路输出中。则每个空间滤波器的作用就是提取目标声源信号，且滤出其他声源信号。则目标声源(语音信号)对应的空间滤波器SF_target输出S_target(ω，τ)和其他声源(干扰噪声源)对应的空间滤波器SF_in输出S_in(ω，τ)存在比例关系可以用来区分当前窗是否为纯干扰噪声。

分析如下：

情况一计算空间滤波器输出比R：

X(ω，τ)＝S+N，其中S为理想纯目标语音信号，N为理想纯干扰噪声源(可以是多个噪声源叠加)。当SNR＞＞0时，该R值＞＞1，当SNR＝0时，该R值会接近于1。

情况二计算空间滤波器输出比R：

步骤11)我们可以利用情况二的突出特征来判断当前窗是否是纯干扰噪声：使用固定阈值或者长窗平滑R值作为阈值都可以取得较好效果。即当有阈值R_thresh：

R＜R_thresh：当前窗为纯干扰噪声段；

R＞＝R_thresh：当前窗存在语音信号；

4、使用基于DNN的VAD算法进行最终目标声源语音段提取

一般而言，语音识别系统需要声学前端提供包含有效语音片段的语音信号，而VAD定义为从连续音频信号中检测出实际语音片段的起始点和终止点，从而提取出有效的语音片段，可以为语音识别系统去除不必要的非语音片段，减少了后续语音处理系统的计算压力，有利于提高系统的响应速度。

一般来说，在高信噪比条件下，VAD任务相对容易，传统基于能量或谱熵的检测方法即可得到较高的检测精度。目标声源信号S_{target_trim}(ω，τ)虽然已去除了空间上的干扰噪声，信号，但是有可能残留一些稳态或者伪稳态的空间不想干的残留噪声。因此，本发明设计了一种噪声鲁棒且支持混响语音的VAD算法，见图3。图3为端点检测框图。

步骤12)VAD系统采用基于神经网络的算法得分和基于能量的算法得分的双门限法来区分音频帧的属性：语音帧和非语音帧。考虑到实际应用场景的复杂性(远场拾音和噪声环境)，神经网络模型训练数据准备阶段，在基础数据集中加入了充分的远场模拟数据，并混入了不同类型、不同信噪比的噪声数据；依据神经网络的强大学习能力，从不同的数据集中学习到有效语音的特征，从而获得比较的强语音区分能力。具体来讲，DNN接收处理过后的目标声源信号S_{target_trim}(ω，τ)作为输入，对于每一帧τ都得到一个0-1的DNN_score(τ)＝DNN(S_{target_trim}(ω，τ))。

步骤13)语音识别系统反馈进行端点检测算法的鲁棒性提升：处理后的目标声源信号S_{target_trim}(ω，τ)的信噪比一般为0db以上，所以估计有效语音段的能量即可获得当前环境音频的最大能量。充分利用整个系统框架的结构优势，根据语音识别系统的反馈的时间位置信息，系统能够获取到当前环境音频能量的最大值E_bg。在系统的运行期间，首先，使用公式(17)计算S_{target_trim}(ω，τ)每一帧τ的能量E(τ)。

E_bg_curr＝Max[E(τ_i)]，i＝0，1，2...n-1 (18)

E_bg＝αV×E_bg+(1-αV)×E_bg_curr (19)

步骤15)根据当前帧的能量E(τ)和环境能量E_bg，依据公式(20)计算得到当前帧的能量得分。

Energy_score(τ)＝E(τ)/E_bg (20)

步骤16)根据当前帧的DNN得分DNN_score(τ)和能量得分Energy_score(τ)，公式(21)计算得到当前帧的最终得分Score(τ)，其中βV为能量权重。当Score(τ)大于语音判定阈值speech_thres，判定当前帧为语音帧，否则为非语音帧。在获取当前帧得分过程中，动态估计了系统工作环境的能量水平，使得能量得分的获取具有一定的自适应能力，从而提高了VAD系统的鲁棒性。

Score(τ)＝βV×Energy_score(τ)+(1-βV)×DNN_score(τ) (21)

虽然本发明已以较佳实施例揭示如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，当可作些许的修改和完善，因此本发明的保护范围当以权利要求书所界定的为准。

Claims

1.一种目标声源锁定和提取的方法，其特征在于：

(1)使用基于辅助函数的窗移独立向量分析；

(2)在分离后的多通道声源中选择目标声源；

(3)基于分离后声源相对空间信息的纯干扰声源段检测和消除；

(4)使用基于DNN的VAD算法进行最终目标声源语音段提取；

使用基于辅助函数的窗移独立向量分析，具体为：

步骤1将M个麦克风采集到的包含M个源信号的混合信号x_m(n)，1≤m≤M进行短时傅里叶变换，得到其频域表示x(ω，τ)，其中ω和τ分别为频率和时间索引，总的频段数为K；并初始化盲分离矩阵W(ω，τ)；

步骤2累积得到L_b帧混合信号的频域表示X(ω，τ)，并使用W(ω，τ)对其进行分离，得到估计的包含M个源的信号Y(ω，τ)，即Y(ω，τ)＝X(ω，τ)W(ω，τ)，Y(ω，τ)为Mx1的向量；

步骤3依据公式(1)和公式(2)更新辅助函数V_m(ω；τ)；

式(1)中，α(0≤α≤1)是遗忘因子，L_b为块大小；

步骤4依据公式(3)和公式(4)更新盲分离矩阵W(ω，τ)，式(3)中e^k表示一个列向量，其中第k个元素为1，其余为0；

w_m(ω；τ)←(W(ω；τ)V_m(ω；τ))^-1e^m (3)

步骤2、3和4按算法1所示进行迭代计算W(ω，τ)和分离M路声源得到最终的Y(ω，τ)；

算法1：Block-Online的AuxIVA更新规则；

在分离后的多通道声源中选择目标声源，具体为：

步骤6对于每一个分离的声源S_m(ω，τ)＝Y(ω，τ)[m]，做一个大时间窗T帧的滑动统计，又将这个大时间窗切割成n个时长为1帧的小时间窗；用公式(5)计算每个分离声源的小时间窗能量，其中i为小时间窗的索引：

步骤7对于当前大时间窗，对于每个分离的声源S_m获取最大/最小的小时间窗累积能量，见公式(6)(7)：

E_max_m＝Max{E_m[i]}，i＝0，1，2...n-1 (6)

E_min_m＝Min{E_m[i]}，i＝0，1，2...n-1 (7)

Speech_m(t)＝α x E_max_m+(1-α) x Speech_m(t-1) (8)

Noise_m(t)＝α x E_max_m+(1-α) x Noise_m(t-1) (9)

步骤8使用语音识别系统反馈进一步提升声源锁定准确率：在语音交互中，语音识别系统既作为声学处理的下游任务，反过来给予声学处理模块以信息反馈；

当语音交互被触发，触发点的前T_target帧被认为是极大概率存在有效语音的，对这一段时间的最大值进行统计，增强对于信噪比计算中的语音信号的估计准确度，从而影响SNR_m，t的计算，具体操作上，当有语音交互被触发时，同样将T_target帧切分成为1帧的小时间窗，使用公式(5)进行语音信号的统计，见公式(10)(11)：

E_max_target_m＝Max(E_target_m[i])，i＝0，1，2...n-1 (11)

Speech_m(t)＝γ x E_max_target_m+(1-γ) x Speech_m(t) (12)

步骤9)最后更新信号噪声比，β为平滑系数：

对于每个大时间窗，做一次判决，取信噪比SNR_m(t)最大的一路分离声源作为目标声源S_target(ω，τ)；

3基于分离后声源相对空间信息的纯干扰声源段检测和消除，具体为：

步骤10进一步利用目标声源和干扰声源的空间相关信息，从而判断当前block是否是纯干扰噪声源，是，则将当前窗进行静音；多通道盲分离方法本质上是让多路输入信号通过多个空间滤波器，每个空间滤波器接收多路信号，将这多路信号中的同一声源信号提取到同一路输出中，则每个空间滤波器的作用就是提取目标声源信号，且滤出其他声源信号，则目标声源对应的空间滤波器SF_target输出S_target(ω，τ)和其他声源(干扰噪声源)对应的空间滤波器SF_in输出S_in(ω，τ)存在比例关系可以用来区分当前窗是否为纯干扰噪声；

分析如下：

情况一计算空间滤波器输出比R：

X(ω，τ)＝S+N，其中S为理想纯目标语音信号，N为理想纯干扰噪声源；当SNR＞＞0时，该R值＞＞1，当SNR＝0时，该R值会接近于1；

情况二计算空间滤波器输出比R：

X＝N，接收到的是纯干扰噪声源，则在任意信噪比情况下啊，R值都会小于1；

步骤11利用情况二的突出特征来判断当前窗是否是纯干扰噪声，使用固定阈值或者长窗平滑R值作为阈值，即当有阈值R_thresh：

R＜R_thresh：当前窗为纯干扰噪声段；

R≥R_thresh：当前窗存在语音信号；

根据以上R值的判断对纯干扰噪声段进行静音处理得到S_{target_trim}(ω，τ)；

使用基于DNN的VAD算法进行最终目标声源语音段提取，具体为：

步骤12VAD系统采用基于神经网络的算法得分和基于能量的算法得分的双门限法来区分音频帧的属性：语音帧和非语音帧；考虑到实际应用场景的复杂性，神经网络模型训练数据准备阶段，在基础数据集中加入了充分的远场模拟数据，并混入了不同类型、不同信噪比的噪声数据；依据神经网络的强大学习能力，从不同的数据集中学习到有效语音的特征，从而获得比较的强语音区分能力；

步骤13语音识别系统反馈进行端点检测算法的鲁棒性提升：处理后的目标声源信号S_{target_trim}(ω，τ)的信噪比一般为0db以上，所以估计有效语音段的能量即可获得当前环境音频的最大能量；充分利用整个系统框架的结构优势，根据语音识别系统的反馈的时间位置信息，系统能够获取到当前环境音频能量的最大值E_bg；在系统的运行期间，首先，使用公式(17)计算S_{target_trim}(ω，τ)每一帧τ的能量E(τ)；

步骤14更新背景音频能量的时候，系统中存储宽口大小为n的能量窗，并在语音识别系统反馈的时间点，取能量窗中最大的能量值作为当前待更新的能量值E_bg_curr，使用平滑算法从而能够有效的估计环境不同时段的音频能量水平，具体见公式(19)其中αV为平滑参数；

E_bg_curr＝Max[E(τ_i)]，i＝0，1，2...n-1 (18)

E_bg＝αV×E_bg+(1-αV)×E_bg_curr (19)

步骤15根据当前帧的能量E(τ)和环境能量E_bg，依据公式(20)计算得到当前帧的能量得分；

Energy_score(τ)＝E(τ)/E_bg (20)

步骤16根据当前帧的DNN得分DNN_score(τ)和能量得分Energy_score(τ)，公式(21)计算得到当前帧的最终得分Score(τ)，其中βV为能量权重，当Score(τ)大于语音判定阈值speech_thres，判定当前帧为语音帧，否则为非语音帧；

Score(τ)＝βV×Energy_score(τ)+(1-βV)×DNN_score(τ) (21)

步骤17根据得到的Score(τ)，当Score(τ)＞＝VAD阈值vad_threshold时，判定第τ帧为存在语音信号，否则判定为语音不存在，从而提取最终目标声源的有效语音段。