CN113160855B

CN113160855B - 在线语音活性检测系统改进方法和装置

Info

Publication number: CN113160855B
Application number: CN202110592214.2A
Authority: CN
Inventors: 俞凯; 徐薛楠; 丁翰林; 吴梦玥
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2022-10-21
Anticipated expiration: 2041-05-28
Also published as: CN113160855A

Abstract

本发明公开在线语音活性检测系统改进方法和装置，其中，一种在线语音活性检测系统改进方法，包括：将真实世界可用的语音活性检测系统作为教师模型；利用所述教师模型输出待测语音的帧级别的语音概率，其中，所述待测语音包括真实世界的语音数据；将所述帧级别的语音概率作为训练标签训练学生模型，其中，所述学生模型的双向门控循环单元改为单向门控循环单元；用所述学生模型给出的概率预测语音和非语音。

Description

在线语音活性检测系统改进方法和装置

技术领域

本发明属于模型训练技术领域，尤其涉及在线语音活性检测系统改进方法和装置。

背景技术

相关技术中，一般的语音活性检测系统旨在检测出一段音频中有语音的部分，通过将一段语音分帧，送入模型中，由模型学习出语音的特征，判断某一帧是否为语音帧。真实世界中可用的语音活性检测系统采用类似的技术，但是在真实数据中表现得更好。

发明人在实现本申请的过程中发现现有技术的方案存在以下缺陷：一般的语音活性检测系统在噪声环境下表现不够鲁棒，真实世界可用的语音活性检测系统在干净的语音环境或者合成噪声环境下的表现不够好，而且无法做到在线使用。

发明内容

本发明实施例提供一种在线语音活性检测系统改进方法和装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种在线语音活性检测系统改进方法，包括：将真实世界可用的语音活性检测系统作为教师模型；利用所述教师模型输出待测语音的帧级别的语音概率，其中，所述待测语音包括真实世界的语音数据；将所述帧级别的语音概率作为训练标签训练学生模型，其中，所述学生模型的双向门控循环单元改为单向门控循环单元；用所述学生模型给出的概率预测语音和非语音。

第二方面，本发明实施例提供一种在线语音活性检测系统改进装置，包括：教师模型程序模块，配置为将真实世界可用的语音活性检测系统作为教师模型；输出程序模块，配置为利用所述教师模型输出待测语音的帧级别的语音概率，其中，所述待测语音包括真实世界的语音数据；训练程序模块，配置为将所述帧级别的语音概率作为训练标签训练学生模型，其中，所述学生模型的双向门控循环单元改为单向门控循环单元；以及预测程序模块，配置为用所述学生模型给出的概率预测语音和非语音。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的在线语音活性检测系统改进方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的在线语音活性检测系统改进方法的步骤。

本申请的方法和装置通过将真实世界可用的语音活性检测系统作为教师模型，通过其输出的帧级别的语音概率，作为训练标签训练学生模型，同时将学生模型变成更小的模型，并将其中的双向门控循环单元改为单向门控循环单元，得到性能更好的、更轻量级的线上可用的语音活性检测系统。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种在线语音活性检测系统改进方法的流程图；

图2为本发明一实施例提供的教师学生模型；

图3为本发明一实施例提供的两个段随机的逐帧语音概率从Aurora 4采样；

图4为本发明一实施例提供的一种在线语音活性检测系统改进装置的框图；

图5为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的在线语音活性检测系统改进方法一实施例的流程图，本实施例的在线语音活性检测系统改进方法对语音在线语音活性检测系统进行改进。

如图1所示，在步骤101中，将真实世界可用的语音活性检测系统作为教师模型；

在步骤102中，利用所述教师模型输出待测语音的帧级别的语音概率，其中，所述待测语音包括真实世界的语音数据；

在步骤103中，将所述帧级别的语音概率作为训练标签训练学生模型，其中，所述学生模型的双向门控循环单元改为单向门控循环单元；

在步骤104中，用所述学生模型给出的概率预测语音和非语音。

本申请实施例将真实世界可用的语音活性检测系统作为教师模型，通过其输出的帧级别的语音概率，作为训练标签训练学生模型，同时将学生模型变成更小的模型，并将其中的双向门控循环单元改为单向门控循环单元，得到性能更好的、更轻量级的线上可用的语音活性检测系统

在一些可选的实施例中，在将真实世界可用的语音活性检测系统作为教师模型之前，所述方法还包括：

通过弱监督的方式训练得到一个所述真实世界可用的语音活性检测系统作为教师模型。

在一些可选的实施例中，上述方法还包括：在段级别的监督下对所述教师模型进行训练。

在一些可选的实施例中，所述待测语音为合成的加噪语音数据。

在一些可选的实施例中，所述利用所述教师模型输出待测语音的帧级别的语音概率包括：

对于给定的待测语音数据的输入音频段，估计每个声音时间e的帧概率y_t ^T(e)；

将所述帧概率用作软标签，以向所述学生模型提供帧级别的监督。

在一些可选的实施例中，将学生模型训练成二进制分类器，以区分语音和非语音，所述将所述帧级别的语音概率作为训练标签训练学生模型包括：

将由所述教师模型预测的声音事件的帧概率转换为二进制标签以进行学生模型的训练。

在一些可选的实施例中，语音标签集为S，教师模型为T，学生模型为s，计算公式如下：

S(Speech)＝{Speech，Conversation，…}

其中，

为学生模型的训练标签。

需要说明的是，上述方法步骤并不用于限制各步骤的执行顺序，实际上，某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行，本申请在此没有限制。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现现有技术中存在的缺陷主要是由以下原因导致的：一般的语音活性检测系统因为使用HMM得到的标注，需要干净的语音或者在干净语音上添加合成噪声，无法使用真实的声音用于训练；真实世界可用的语音活性检测系统没有帧级别的标签，而且有双向的门控循环单元，所以性能不够好，而且无法在线使用。

相关领域的技术人员在面对上述技术问题时，通常让标注人员为语音事件标注帧级别的标签；因为真实世界可用的语音活性检测系统还没有得到广泛使用。

本申请实施例将真实世界可用的语音活性检测系统作为教师模型，通过其输出的帧级别的语音概率，作为训练标签训练学生模型，同时将学生模型变成更小的模型，并将其中的双向门控循环单元改为单向门控循环单元，得到性能更好的、更轻量级的线上可用的语音活性检测系统。

请参考图2，其示出了本申请一个方案的具体流程图。其中，中英文对照：obtainframe-level pesudo labels：获取帧级伪标签；label：标签；prediction：预测；training：训练；inference：推断；predicted segment：预测段；frame-level BCI loss：帧级标签BCE损失。

1、用已有的方法，通过弱监督的方式训练得到一个教师模型；

2、用教师模型给出的每个时刻的语音和噪声的概率作为帧级别标签，训练一个更加轻量的、只有单向门控循环单元的学生模型；

3、用学生模型给出的语音的概率预测语音出现的时刻。

在实现本申请的过程中，发明人还采用过如下备选方案：用合成的加躁语音数据，用其帧级别的标签来训练模型。优点:有帧级别的标签，能够让模型训得更好；缺点:训练数据不是真实的，在真实世界的测试中不够鲁棒。

在实现本申请的过程中，发明人还采用过如下beta版：将学生模型也用和教师模型一样的结构，仅仅利用教师模型得到的强标签训练。优点是这样可以最大程度提升学生模型的能力，缺点是这样得到的学生模型仍然有双向门控循环单元，无法线上使用。

本发明得到的在线轻量级语音活性检测模型不仅在真实世界的测试数据上表现良好，而且参数量小，能够部署到计算能力较差的嵌入式设备上，作为真实世界中各种语音相关任务的前处理，大大减小后续语音处理任务的计算量。

语音活动检测(VAD)是用于语音相关任务(例如自动语音识别(ASR))的基本预处理部分。传统的VAD系统需要强帧级别监督信号来进行训练，从而限制了它们在实际测试场景中的性能。前人研究中提出的通用VAD(GPVAD)框架显著增强了VAD的噪声鲁棒性。但是，GPVAD模型相对较大，仅适用于离线测试。这项工作使用了知识蒸馏的框架，其中(大型，离线)的教师模型为(轻型，在线)的学生模型提供帧级别的监督信号。实验验证了本申请实施例提出的轻量级学生模型在包括干净、合成噪音和真实场景在内的所有测试集上均优于GPVAD。在树莓派上进行测试时，本申请实施例最小的学生模型仅使用教师模型的2.2％参数和15.9％的时间成本进行推理。

1简介

语音活动检测(VAD)旨在区分音频流中的非语音段和语音段。强大的VAD系统应该能够区分音频中的语音片段和非语音片段，包括静音，非语音人类声音，环境声音以及所有其他可能的一般噪声。VAD是语音和信号处理任务(例如自动语音识别(ASR)，说话者验证(SV)和文本到语音合成(TTS))的关键预处理步骤。由于无标签数据的要求，无监督的VAD曾经在研究中很流行。随着深度学习的发展，深度神经网络(DNN)，尤其是卷积神经网络(CNN)和递归神经网络(RNN)已在VAD中获得成功的应用。VAD的最新工作致力于提高对噪声和领域失配的鲁棒性，其中训练数据是通过将具有前景或背景噪声加入干净语音而合成的嘈杂数据集。

有监督的VAD方法需要帧级标签(每个帧中都存在语音)，这些标签是通过对纯语音数据进行训练的隐马尔可夫模型(HMM)给出的对齐方式获得的。传统的监督VAD方法受转写的ASR数据的可用性的限制，并且无法在噪声未知的真实数据上进行训练。

一种可能的选择是手动标记现实数据集中的语音，而丢弃ASR流程。但是，昂贵的人工成本导致这种方法不能用于大型数据集。在VAD中最近研究了只需要段级别标签的弱监督训练。此类经过段级监督信号训练的VAD模型因其对一般声音的鲁棒性而被称为通用VAD(GPVAD)框架。

尽管GPVAD框架在实际测试场景中表现良好，但其在干净和合成噪声场景下的性能却不如传统的完全监督VAD方法。本申请实施例假设这种行为不仅源自监督信号的标签质量(即，不正确的段级“语音”标签)，还源于其位置(无法访问帧级标签)。为了减小GPVAD与传统VAD之间的性能差异，本申请实施例使用教师-学生学习为弱监督的学生提供帧级别的监督。

GPVAD的另一个问题是参数冗余，因为轻量级和较短的推理持续时间对于VAD等预处理任务至关重要。在先前的工作中显示，训练多达527个声音事件标签(GPV-F)的框架在性能上远远超过了朴素的二分类器。但是，由于VAD模型仅需要区分语音和非语音信号，因此有可能不需要全部了解每个噪音类别。换句话说，由于目标大小的减小(527→2)，GPV-F包含VAD的冗余参数。教师-学生训练是一种将知识从深层模型蒸馏成小型模型的常用方法，可以防止小型模型无法适应大型训练数据集。

在本文中，本申请实施例建议使用教师-学生学习来为实际VAD应用程序开发几种轻量级模型，这些模型占用空间小(磁盘上的磁盘空间小于1MB)。本申请实施例的实验证明，本申请实施例提出的轻量级学生模型在包括干净，合成和真实场景在内的所有测试集上均优于GPVAD。还应注意，先前使用的GPVAD框架是离线模型，这意味着在可以计算预测之前，需要将整个段输入模型。通过更改架构，本申请实施例消除了输出概率对未来输入的依赖性，从而形成了在线GPVAD框架。在树莓派上进行测试时，本申请实施例最小的学生模型仅使用教师模型的2.2％参数和15.6％的持续时间成本进行推理。

本文的结构如下。第2节介绍了建议的教师-学生方法。实验设置在第3节中给出。在第4节中，介绍了结果和分析。第五节总结全文。

图2示出了本申请实施例提出的教师学生模型。首先，在段级别的监督下对教师进行了训练。训练后，老师会为学生模型提供帧级别的监督。知识转移还将可学习标签的数量从527减少到2。然后，对经过训练的学生模型进行测试。

2使用GPVAD进行教师-学生学习

如图2所示，本申请实施例的教师-学生(TS)框架基于先前介绍的GPVAD范例。首先，在声音事件检测数据集(此处为AudioSet)上以段级别的监督训练GPVAD教师T模型，以区分声音事件。教师有两个输出：直接可训练的段级声音事件检测器和不可训练的帧级检测器。帧级声音事件检测器是通过反向传播间接地训练的，该反向传播是从段级预测和标签(ground truth)之间的损失中进行的。

然后，对于给定的输入音频段，T估计每个声音事件e的帧概率ytT(e)。估算值用作软标签，以向学生S提供帧级别的监督。请注意，T被训练为预测527个不同事件(其中之一是语音)，而S被训练为二进制分类器，以区分语音和非语音。演讲。因此，将由T预测的事件概率转换为二进制标签以进行学生训练。

由于AudioSet包含多个与语音相关的歧义事件标签，因此，学生S在蒸馏的语音标签集S(Speech)上接受训练，该语音标签集S(Speech)包含AudioSet本体中的父标签“Speech”及其所有(七个)子级，例如，男性语音，会话，演讲。将包含所有事件的标签集作为E，然后将学生训练标签

定义为：

本申请实施例将与语音相关事件的最大概率用作“语音”的代表，将所有非语音事件的最大概率用作“非语音”的代表，因为目标是教给学生最好的语言能力。区分语音和非语音事件。请注意，

这使学生模型能够同时预测语音和噪声。通过预测

和标签(ground truth)

之间的帧级二进制交叉熵(BCE，binary cross entropy)损失对学生进行训练：

在推理过程中，忽略

而仅采用

来预测语音段。

教师GPVAD教师T模型是五层CRNN模型，也称为CDur，在SED中取得了不错的表现。CNN可以识别频谱图中的时间-频率模式，而连接了双向门控线性单元(BiGRU)可以增强模型在时间上对声音事件进行定位的能力。表1中显示了模型架构。

表1：教师模型的详细配置。每个卷积块都包含一个批处理归一化层，一个二维卷积层和一个负斜率为0.1的LeakyReLU激活层。所有卷积层都使用零填充的3×3滤波器。每个子采样(Sub)块都表示为[t↓f]，分别表示时间和频率维度上因子t，f的子采样。默认情况下使用p＝4的LP范数二次采样。c表示输出标签的数量。所有可训练的块均以粗体突出显示。其中，#params：参数个数；output size：输出尺寸

尽管老师需要大量参数才能对527个声音事件进行充分建模，但学生仅被要求学习二进制分类问题，从而大大减少了他们所需的参数量。为了减小参数的大小并启用在线测试，本申请实施例专注于两个主要方面。首先，由于教师模型的大多数参数位于其卷积层内，因此本申请实施例删除了包含最多参数的层，即最终和倒数第二(4,5)个Conv块。其次，双向GRU无法在线测试，因为它需要访问将来和过去的输入帧。标准的单向GRU取代了它。因此，本申请实施例提出了三种具有不同通道数的模型架构，表示为CRNN-Ck，k＝8,16,32，如表2所示。请注意，在最后一次卷积之后添加了一个平均池化层以减小频率维度到一个。

尽管本申请实施例的教师模型和学生模型之间的参数数量差异很大，但本申请实施例假设在语音预测方面，所得的学生模型应该能够像老师一样表现出色。

表2：CRNN3学生模型的参数。列出了每个卷积块和GRU隐藏单元的通道号。还提供了参数大小与教师模型之间的比较。请注意，仅在训练期间使用上采样以匹配输入时间分辨率。

3.实验

数据集在这项工作中，训练数据集仅是AudioSet的平衡子集，与本申请实施例之前的工作中的GPVAD训练集相同。数据集包含约21,000个Youtube音频段，最长持续时间为10秒。每个音频段都由来自527个声音事件类别的一个或多个事件标签进行注释。与传统的有监督的VAD训练数据集相比，该数据集包含不可预测的未知的真实噪声。测试数据集与先前的工作一致，包括干净的Aurora 4，合成噪声的Aurora 4和真实的DCASE18数据集。

特征在这项工作中，使用librosa将64维对数梅尔功率谱图(LMS)用作音频特征。对于每个样本，通过2048点短时傅立叶变换(带有40ms和20ms偏移的Hann窗口)提取LMS。由于AudioSet中的音频段的持续时间是可变的，因此在训练时，所有数据都将填充为数据批中的最长样本长度。在测试和推理过程中，每个音频段都独立输入到模型，而无需填充。

训练数据集分为90％训练子集和10％验证子集。所有学生模型都经过最多300个轮次的训练，并具有10个轮次的提前停止策略。使用Adam优化算法进行训练，起始学习率为1e-3。神经网络是在PyTorch框架中实现的。

后处理用于从输出概率中获得预测。在离线VAD中，像双重阈值这样的后处理可以帮助平滑预测的细分并提高性能[19]。但是，在在线设置中不能使用双阈值，因此在这项工作中默认采用阈值为φ＝0.3的阈值处理。

在先前的工作之后，本申请实施例从帧级别和细分级别对本申请实施例的模型进行了测试。对于帧级别测试，采用了宏观和微观F1得分(F1-宏和F1micro)，曲线下面积(AUC)和帧错误率(FER)。对于段级别的测试，本申请实施例选择基于事件的F1-分数(Event-F1)，该事件通常在声音事件检测测试中使用，重视语音活动起音和偏移的预测准确性。不连续的预测语音片段会受到事件F1的惩罚。设置200毫秒的t-collar以允许开始预测公差。此外，参考与预测之间的持续时间差异允许为20％。

4.结果

4.1教师-学生训练

本申请实施例首先将TS框架的性能与之前的弱监督管道，教师(GPV-F)和强监督VAD-C进行比较，如表3所示。在本实验中，本申请实施例仅关注最大的学生模型，CRNN3-C32。由于本申请实施例更改了后处理方法，因此使用直接阈值过滤重新测试了GPV-F和VAD-C。结果表明，在所有指标上，学生模型都明显优于教师模型(例如，在干净的Aurora 4上发生事件F1 56.47→72.61)，这表明了框架级监督的重要性。就AUC而言，弱监督模型和强监督模型之间的性能差距已大大缩小。使用适当的在线后处理方法，可以进一步提高GPVAD框架的性能。应该注意的是，与传统的HMM对齐标签相比，用于训练的伪标签不可避免地包含更多错误。但是，帧级别的监督导致令人印象深刻的性能增强。本申请实施例假设教师模型从段级别的标签中学习语音发生的模式，而学生模型检测语音接通和偏移的能力通过帧级别的监督从本质上得到了提高。

表3：强监督的VAD-C，弱监督的GPV-F和最大的学生CRNN3-C32的VAD结果。粗体字表示每个数据集的最佳结果。

为了直观地显示语音定位性能，本申请实施例从干净的测试集中Aurora 4中随机选择了两个样本。图2显示了标注(ground truth)概率和帧级概率。显示了在语音边界方面，CRNN3-C32的性能比GPV-F好得多。在最上面的示例中，GPV-F预测第二个语音片段标注(ground truth)中有两个短暂的停顿，而在最下面的示例中，由GPV-F预测的第8秒左右的沉默片段比标注(ground truth)要长得多。相比之下，经过帧级训练的学生模型CRNN3-C32能够预测准确的语音和静音边界。其中，testset：测试集，clean：干净的，synthetic，合成的，real：真实的，model：模型，metric：衡量标准。

图3示出了两个段随机的逐帧语音概率从Aurora 4采样。还描述了后处理的阈值。深色框表示GPV-F无法提供准确的段边界的情况。其中：Audio clip：音频段，speech：语音；time：时间；ground truth：标注。

4.2学生模型之间的比较

表4列出了三种具有不同渠道的学生模型的表现。为简单起见，本申请实施例仅在实际测试集DCASE18上列出AUC和event-F1。在教师-学生基于学习的知识蒸馏中，学生的表现通常会随着参数的减少而降低。但是，在本申请实施例建议的学生中没有观察到这种现象：不同学生之间的表现差距很小。这证实了本申请实施例的假设，即大型模型包含有关不同噪声类别的冗余知识。本申请实施例的轻量级学生模型从老师那里提取了与语音建模最相关的知识。

表4：真实测试集DCASE18上不同学生的结果。

4.3模型大小和推理速度

为了比较不同模型的计算成本，本申请实施例测试了它们的平均推理速度。测试输入均为10秒的音频片段。结果显示在表5中。本申请实施例最小的CRNN-C8仅包含GPV-F的2.7％参数，磁盘上的大小为76KB。它足够轻巧，可以方便地部署在嵌入式系统上，这对于诸如VAD之类的预处理技术至关重要。如表5所示，随着模型尺寸的减小，树莓派的推理时间显著减少。CRNN3-C8仅需要GPV-F持续时间成本的15.6％即可进行推理，使其能够用于低延迟应用。

表5：不同模型及其FLOPS的推理速度的比较。推理时间在Raspberry Pi 3Model B上进行了测试。其中，Raspberry Pi表示树莓派。

5.结论

在本文中，本申请实施例提出了一种教师-学生学习的方法，以实现两个目标：1)通过结合帧级监督来填补传统VAD模型和GPVAD之间在干净和合成噪声数据集上的性能差距；2)通过知识蒸馏开发轻量级的在线GPVAD框架。提出了三种轻量级的GPVAD体系结构。结果表明，在同一数据集上的教师-学生学习可以显著提高VAD的表现。在所有测试集上，学生都大大超过了老师。在三个测试组上，最大的学生CRNN3-C32对老师的Event-F1绝对增加了16.14％，4.18％和7.25％。同时，通过知识蒸馏显著减少了学生模型的模型大小和计算成本。缩小模型尺寸几乎不会导致性能下降，而树莓派的推理速度大约快五倍。最小的型号在磁盘上仅占用76KB，使其非常适合一般情况下的在线VAD应用程序。

请参考图4，其示出了本发明一实施例提供的在线语音活性检测系统改进装置的框图。

如图4所示，在线语音活性检测系统改进装置400，包括教师模型程序模块410、输出程序模块420、训练程序模块430和预测程序模块440。

其中，教师模型程序模块410，配置为将真实世界可用的语音活性检测系统作为教师模型；输出程序模块420，配置为利用所述教师模型输出待测语音的帧级别的语音概率，其中，所述待测语音包括真实世界的语音数据；训练程序模块430，配置为将所述帧级别的语音概率作为训练标签训练学生模型，其中，所述学生模型的双向门控循环单元改为单向门控循环单元；以及预测程序模块440，配置为用所述学生模型给出的概率预测语音和非语音。

应当理解，图4中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图4中的诸模块，在此不再赘述。

值得注意的是，本公开的实施例中的模块并不用于限制本公开的方案，例如判断模块可以描述为当设备处于交互状态时，判断交互状态是否为播放场景的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如判断模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的在线语音活性检测系统改进方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

将真实世界可用的语音活性检测系统作为教师模型；

利用所述教师模型输出待测语音的帧级别的语音概率，其中，所述待测语音包括真实世界的语音数据；

将所述帧级别的语音概率作为训练标签训练学生模型，其中，所述学生模型的双向门控循环单元改为单向门控循环单元；

用所述学生模型给出的概率预测语音和非语音。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据在线语音活性检测系统改进装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至在线语音活性检测系统改进装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项在线语音活性检测系统改进方法。

图5是本发明实施例提供的电子设备的结构示意图，如图5所示，该设备包括：一个或多个处理器510以及存储器520，图5中以一个处理器510为例。在线语音活性检测系统改进方法的设备还可以包括：输入装置530和输出装置540。处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。存储器520为上述的非易失性计算机可读存储介质。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例在线语音活性检测系统改进方法。输入装置530可接收输入的数字或字符信息，以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于在线语音活性检测系统改进装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

将真实世界可用的语音活性检测系统作为教师模型；

用所述学生模型给出的概率预测语音和非语音。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种在线语音活性检测系统改进方法，包括：

将真实世界可用的语音活性检测系统作为教师模型；

用所述学生模型给出的概率预测语音和非语音，

其中，所述教师模型为五层CRNN模型，所述学生模型为三层CRNN模型，相比于所述教师模型，所述学生模型中删除了五层中的最后两层。

2.根据权利要求1所述的方法，其中，在将真实世界可用的语音活性检测系统作为教师模型之前，所述方法还包括：

3.根据权利要求2所述的方法，还包括：

在段级别的监督下对所述教师模型进行训练。

4.根据权利要求1所述的方法，其中，所述待测语音为合成的加噪语音数据。

5.根据权利要求4所述的方法，其中，所述利用所述教师模型输出待测语音的帧级别的语音概率包括：

6.根据权利要求5所述的方法，其中，将学生模型训练成二进制分类器，以区分语音和非语音，所述将所述帧级别的语音概率作为训练标签训练学生模型包括：

7.根据权利要求6所述的方法，其中，语音标签集为S，教师模型为T，学生模型为s，计算公式如下：

S(Speech)＝{Speech，Conversation，…}

其中，

为学生模型的训练标签。

8.一种在线语音活性检测系统改进装置，包括：

教师模型程序模块，配置为将真实世界可用的语音活性检测系统作为教师模型；

输出程序模块，配置为利用所述教师模型输出待测语音的帧级别的语音概率，其中，所述待测语音包括真实世界的语音数据；

训练程序模块，配置为将所述帧级别的语音概率作为训练标签训练学生模型，其中，所述学生模型的双向门控循环单元改为单向门控循环单元；

预测程序模块，配置为用所述学生模型给出的概率预测语音和非语音，

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。