CN113113049A

CN113113049A - 一种联合语音增强的语音活动检测方法

Info

Publication number: CN113113049A
Application number: CN202110292283.1A
Authority: CN
Inventors: 张晓雷; 谭旭; 陈益江
Original assignee: Northwestern Polytechnical University; Shenzhen Institute of Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University; Shenzhen Institute of Northwestern Polytechnical University
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2021-07-13

Abstract

本发明公开了一种联合语音增强的语音活动检测方法，首先在Conv‑TasNet全卷积网络基础上构建联合网络模型，联合网络模型整体分为三个部分：编码器、时间卷积网络和解码器；针对语音增强SE任务和语音活动检测VAD任务采用两个单独的解码器，而共用同一组编码器与TCN网络；TCN网络输出掩码与编码器输出点乘后作为两个解码器的输入；采用mSI‑SDR及交叉熵的联合损失函数在训练阶段对结果进行评估；最终采用Adam优化器对网络进行训练，训练完成的网络能够较好地实现语音活动检测。本发明通过将语音增强和语音端点检测联合训练，提高了语音端点检测的鲁棒性，使其在复杂的噪声环境，特别是人声干扰剧烈的环境中依然能够保持较高的性能。

Description

一种联合语音增强的语音活动检测方法

技术领域

本发明属于语音识别技术领域，具体涉及一种语音活动检测方法。

背景技术

语音活动检测(voice activity detection,VAD)旨在区分音频记录中的语音段和噪声段。对于许多与语音相关的应用(例如语音识别和说话者识别)是重要的前端。近年来，基于深度学习的VAD带来了显着的性能提升。特别是将时域信号直接带入深度网络的端到端VAD是最近的研究趋势。

尽管基于深度学习的VAD已显示出其效果，但如何在低信噪比(signal-to-noiseratio,SNR)环境中进一步提高其性能却是长期利益。单个VAD很难满足要求。一个自然的想法是将语音增强(speech enhancement,SE)引入VAD。最早的方法使用基于深度学习的方法间语音增强网络初始化VAD。也有方法使用语音增强网络首先对语音进行降噪，然后使用降噪后的语音作为VAD的输入，对增强网络和VAD进行联合微调。但当SE模块的性能很差时，使用增强结果作为VAD的输入可能会对VAD造成损害。针对此问题的现有解决方法有：使用先进的语音增强方法来提取VAD的去噪特征；使用U-Net同时估计干净的语音频谱和噪声频谱，然后使用增强的语音频谱图通过阈值直接进行VAD；使用基于降噪变分自编码器的SE模块的输出和潜在变量作为VAD的输入；将基于卷积循环网络的SE提取的嘈杂声特征和增强的声学特征串联起来，作为基于残差卷积神经网络的VAD的输入等。此外，还有方法提出了多目标网络来联合训练SE和VAD以提高它们的性能，其中VAD和SE共享相同的网络，并且具有不同的损失函数。但是以上方法对VAD的性能提升有限。

发明内容

为了克服现有技术的不足，本发明提供了一种联合语音增强的语音活动检测方法，首先在Conv-TasNet全卷积网络基础上构建联合网络模型，联合网络模型整体分为三个部分：编码器、时间卷积网络和解码器；针对语音增强SE任务和语音活动检测VAD任务采用两个单独的解码器，而共用同一组编码器与TCN网络；TCN网络输出掩码与编码器输出点乘后作为两个解码器的输入；采用mSI-SDR及交叉熵的联合损失函数在训练阶段对结果进行评估；最终采用Adam优化器对网络进行训练，训练完成的网络能够较好地实现语音活动检测。本发明通过将语音增强和语音端点检测联合训练，提高了语音端点检测的鲁棒性，使其在复杂的噪声环境，特别是人声干扰剧烈的环境中依然能够保持较高的性能。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1：给定时间长度为T的音频数据x，其中x∈R^1×T，将音频数据x划分为N帧信号，音频数据x为纯净语音信号s与噪声n的混合信号，表示为：

x＝s+n (1)

步骤2：联合网络模型设计；

步骤2-1：在Conv-TasNet全卷积网络基础上增加一个解码器，网络体系结构包含三个部分：编码器、分离网络TCN以及两个解码器，两个解码器分别为SE解码器和VAD解码器；语音增强SE任务和语音活动检测VAD任务共享同一个编码器和分离网络；语音增强SE任务使用SE解码器生成增强的语音，语音活动检测VAD任务使用VAD解码器生成软预测评分；

步骤2-2：编码器内核大小为L，步幅为L/2；将音频数据x输入编码器，编码器将音频数据x转换为特征图W∈R^N×K，其中K是特征向量的数量；

再将特征图W输入分离网络TCN，分离网络TCN输出掩码M∈R^N×K；再将特征图W和掩码M进行逐元素乘法，得到去噪特征图D∈R^N×K，表示如下：

D＝M⊙W

其中⊙表示逐元素乘法；

步骤2-3：SE解码器和VAD解码器均以去噪特征图D作为输入；

SE解码器生成纯净语音信号s的估计值

VAD解码器生成VAD分数，在VAD解码器后面增加Sigmoid函数，将VAD解码器的输出限制在0和1之间，输出为

表示语音活动检测VAD软预测评分；

步骤3：构建联合损失函数；

定义联合损失：

其中

和

分别是语音活动检测和语音增强的损失函数，λ∈(0，1)是平衡两个损失函数的超参数；

为交叉熵损失函数；

在语音增强损失SI-SDR的基础上引入语音活动检测VAD标签及软预测评分，构造新的语音增强损失mSI-SDR：

其中

y＝[y₁，...，y_T]为语音活动检测VAD的预测标签；

步骤4：采用Adam优化器对联合网络模型进行训练，训练完成后得到最终的联合网络模型。

本发明的有益效果如下：

1、本发明同时进行语音增强和语音端点检测，提高了工作效率。

2、本发明通过将语音增强和语音端点检测联合训练，提高了语音端点检测的鲁棒性，使其在复杂的噪声环境，特别是人声干扰剧烈的环境中依然能够保持较高的性能。

附图说明

图1为本发明方法联合网络模型结构示意图。

图2为本发明实施例参考干净语音波形图。

图3为本发明实施例含噪语音波形图。

图4为本发明实施例Multi-mSS模型增强结果波形图。

图5为本发明实施例单SE模型增强结果波形图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明采用了基于Conv-TasNet的全卷积网络，使语音增强(SE)任务和语音活动检测(VAD)任务共享相同的编码器和分离模块，最后使用两个解码器分别生成增强的语音和语音似然比。

如图1所示，一种联合语音增强的语音活动检测方法，包括以下步骤：

x＝s+n (1)

步骤2：联合网络模型设计；

步骤2-2：编码器主要是一维卷积层，编码器内核大小为L，步幅为L/2；将音频数据x输入编码器，编码器将音频数据x转换为特征图W∈R^N×K，其中K是特征向量的数量；

D＝M⊙W

其中⊙表示逐元素乘法；

步骤2-3：解码器是两个独立的一维转置卷积层，每个都对编码器执行相反的尺寸变换。SE解码器和VAD解码器均以去噪特征图D作为输入；

SE解码器生成纯净语音信号s的估计值

表示语音活动检测VAD软预测评分；

步骤3：构建联合损失函数；

定义联合损失：

其中

和

为交叉熵损失函数；

因为语音增强损失SI-SDR经常被用作端到端语音分离的优化目标，所以联合学习的传统思想是共同优化语音增强损失SI-SDR和交叉熵损失函数

但此策略中的两个解码器为独立优化，无法同时优化VAD和语音增强，而VAD和语音增强具有许多共同的特性。例如，最早的基于理想二进制掩蔽的语音增强功能可以看作是应用于每个频段的VAD。

为了同时受益于VAD和语音增强的优势，本发明提出了一种新的语音增强损失，称为mSI-SDR，作为联合训练的增强。mSI-SDR是对常规SI-SDR的修订。SI-SDR旨在解决信噪比中与比有关的问题：

其中s为参考信号，

为估计信号，

为比例因子。

其中

y＝[y₁，...，y_T]为语音活动检测VAD的预测标签；

从式(4)可看出mSI-SDR将增强后语音、纯净语音、VAD预测标签及预测概率均考虑在内。式(4)对于优化VAD与SE具有重要作用，使得

专注于增强语音活动片段。

具体实施例：

本实施例设置两组子实验，组别一、二旨在说明算法在VAD任务及SE任务上的改进效果。

组别一：本发明将提出的方法表示为使用mSI-SDR损失的联合模型(Multi-mSS)。为了与Multi-mSS进行比较，训练了一个使用SI-SDR损失的联合模型(Multi-SS)和一个只有VAD功能的模型，表示为单VAD模型。Multi-SS具有与Multi-mSS完全相同的网络结构。其SE解码器的目标设置为SI-SDR。单VAD模型去除了SE解码器，并只使用VAD损失函数vad作为优化目标。使用接收器工作特性(ROC)曲线，ROC曲线下的面积(AUC)和相等错误率(EER)作为VAD的评估指标。以每10ms的信号作为计算AUC和EER的值。

组别二：除了上述Multi-mSS模型和Multi-SS模型外，训练了一个只有语音增强功能的模型，表示为单SE模型。使用语音质量的感知评估(PESQ)，短时客观可懂度度(STOI)和尺度不变的信号失真比(SI-SDR)作为语音增强的评估指标对上述三个模型进行测试。

(1)数据准备：

如图2所示，干净语音采用华尔街日报(WSJ0)数据集。其包含来自101位演讲者的12776语音训练，来自10位发言人的1206语音验证，以及来自8位发言人的651语言评估。录音中只有20％是静音。为减轻分类不平衡的问题，分别在每个音频记录的开头和结尾添加了0.5和1秒的静音段。

用于训练和校准的噪声源为一大型噪声库，其中包含超过20000个噪声段。测试的噪声源是五种不可观噪声，其中公共汽车，咖啡厅，行人和街道的噪声来自CHiME-3数据集，而babble噪声来自NOISEX-92噪声语料库。从[-5,5]dB的范围内随机选择训练和开发集中每个嘈杂语音并记录的SNR级别。测试器的SNR级别分别设置为-5dB，0dB和5dB，训练集、开发集、测试集之间的噪音源不重叠。将所有信号重新采样到16kHz。通过将Ramirez VAD与人为定义的平滑规则应用于干净的语音，可以获得真实的VAD标签。如图3为合噪后的语音波形图。

(2)网络参数设置

对于模型训练，每个训练音频记录都被裁剪为几个4秒的片段。训练时每批数据的容量设置为8。使用Adam优化器。初始学习速率设置为1e-3，若验证集中的性能在3个连续的时间段内都没有改善，则将减半。最低学习率设置为1e-8，权重衰减设置为1e-5。如果训练效果没有提升，即在连续6个训练周期中发生错乱时训练就会停止。编码帧长L＝32，其他超参数设置同Conv-TasNet。

(3)实验结果

表1组别一：Multi-mSS、Multi-SS和单VAD模型的语音检测指标比较

表1为本发明的Multi-mSS与单VAD模型之间的比较结果。可看出，在所有噪声环境和SNR条件下，Multi-mSS均优于单VAD模型(AUC及EER指标)。当信噪比降低时，相对性能提高更为显著。例如，在-5dB的babble噪声(人声干扰噪声)下，Multi-mSS相比单VAD的模型有73.77％的相对AUC提升和59.83％的相对EER提升。当信噪比增加到5dB时，两种相对提升分别降低到50.00％和37.23％。

在声学环境复杂的嘈杂环境中，Multi-mSS的优势显而易见。具体而言，在人声、咖啡厅和行人环境中，相对EER提升分别为55.38％，38.02％和35.11％。相比之下，公共汽车和街道环境中的相对EER提升仅为21.12％和26.13％。

表2组别二：Multi-mSS、Multi-SS和单SE模型的语音增强指标比较

如图4为Multi-mSS模型增强结果波形图，图5为单SE模型增强结果波形图，组别二列出了Multi-mSS、Multi-SS和单SE模型在语音增强上的性能表现。表2中的结果表明，Multi-mSS模型的性能在指标上有略微下降，但通过实际的时频谱图比较可以看出，相比单SE模型，Multi-mSS模型对背景噪声的抑制更为显著，说明本发明所提出的联合工作的效用是明显的。