CN112786029A

CN112786029A - 使用弱监督数据训练vad的方法及装置

Info

Publication number: CN112786029A
Application number: CN202011561510.8A
Authority: CN
Inventors: 杨云亭
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-05-11
Anticipated expiration: 2040-12-25
Also published as: CN112786029B

Abstract

本发明公开了一种使用弱监督数据训练VAD的方法及装置，方法包括：判断所述模型是否已经经过训练；若所述模型未经过训练，获取待训练音频，从所述待训练音频中提取声学信号特征；将所述声学信号特征中的帧级别预测标签整合，得到句子级别预测标签；将所述句子级别预测标签输入所述模型中，训练所述模型使得所述模型的输出的计算结果基本等于所述待训练音频的人工标记结果，本发明使用神经网络模型直接训练句子级别标签的数据，在训练过程中将帧级别的预测整合到句子级别的预测标签，然后与标注的句子级别的标签进行loss的计算，通过模型去调优。

Description

使用弱监督数据训练VAD的方法及装置

技术领域

本发明涉及神经网络模型领域，具体涉及一种使用弱监督数据训练VAD的方法及装置。

背景技术

模拟人类实际神经网络模型的数学方法问世以来，人们已慢慢习惯了把这种人工神经网络模型直接称为神经网络模型。神经网络模型在系统辨识、模式识别、智能控制等领域有着广泛而吸引人的前景，特别在智能控制中，人们对神经网络模型的自学习功能尤其感兴趣，并且把神经网络模型这一重要特点看作是解决自动控制中控制器适应能力这个难题的关键钥匙之一。

发明人在使用神经网络模型训练语音时发现随着计算力的提升和神经网络模型的发展，这些方法大都采用了同样技术原理的神经网络模型，对语音数据进行了更强更复杂的特征表达，同时对给定一段音频数据进行语音与非语音的分类；而这样的训练方法缺陷在于训练数据上，需要训练数据的帧级别标签用于最终loss的计算，但这个帧级别标签的数据的获得是有一定困难的，一是人工标注，二是基于已有的声学模型去做对齐，如果使用人工标注需要大量的人力物力及时间，如果使用已有的声学模型的前提是已经有一个准确度相当的声学模型。

发明内容

本发明的目的在于提供一种使用弱监督数据训练VAD的方法和使用方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明提供一种使用弱监督数据训练VAD的方法，

包括：向模型中输入用于训练所述模型的语音，得到所述模型在训练过程中输出的帧级别概率；将得到的帧级别概率聚合成句子级别概率，通过句子级别概率得到句子级别标签；利用得到的句子级别标签进行loss计算，训练所述模型使得所述模型输出的计算结果基本等于所述用于训练所述模型的语音的人工标记结果；接收原始音频，从所述原始音频中提取声学信号特征；将声学信号特征输入到上述模型中；获取所述训练后的模型输出的对所述待原始音频中语音和非语音的分类结果。

第二方面，本发明提供一种使用弱监督数据训练VAD的装置，语音接收程序模块，配置为向模型中输入用于训练所述模型的语音，得到所述模型在训练过程中输出的帧级别概率；聚合程序模块，配置为将得到的帧级别概率聚合成句子级别概率，通过句子级别概率得到句子级别标签；计算程序模块，配置为利用得到的句子级别标签进行loss计算，训练所述模型使得所述模型输出的计算结果基本等于所述用于训练所述模型的语音的人工标记结果；接收程序模块，配置为接收原始音频，从所述原始音频中提取声学信号特征；输入程序模块，配置为将声学信号特征输入到上述模型中；输出程序模块，配置为获取所述训练后的模型输出的对所述待原始音频中语音和非语音的分类结果。

第三方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的用于一种使用弱监督数据训练VAD方法的步骤。

本发明直接训练句子级别标签的数据，在训练过程中将帧级别的预测整合到句子级别的预测标签，然后与标注的句子级别的标签进行loss的计算，通过模型去调优，本发明为了使用训好的模型预测音频的语音与非语音的位置，还增加了后处理的方法，在预测的时候，将模型对音频预测的帧级别的结果进行阈值卡段，选出超过一定阈值的区间作为整个音频识别出的语音段，从帧数同样可以转到时间上，进而得出对音频语音段的识别。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种使用弱监督数据训练VAD的方法的流程图；

图2为本发明一实施例提供的另一种使用弱监督数据训练VAD的方法的流程图；

图3为本发明一实施例提供的一种模型训练流程图；

图4为本发明一实施例提供的一种使用弱监督数据训练VAD装置的框图；

图5为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的一种使用弱监督数据训练VAD一实施例的流程图，本实施例的训练方法适用于各种需要训练语音识别的场景。

如图1所示，在步骤101中，向模型中输入用于训练所述模型的语音，得到所述模型在训练过程中输出的帧级别概率；

在步骤102中，将得到的帧级别概率聚合成句子级别概率，通过句子级别概率得到句子级别标签；

在步骤103中，利用得到的句子级别标签进行loss计算，训练所述模型使得所述模型输出的计算结果基本等于所述用于训练所述模型的语音的人工标记结果；

在步骤104中，接收原始音频，从所述原始音频中提取声学信号特征；

在步骤105中，将声学信号特征输入到上述模型中；

在步骤106中，获取所述训练后的模型输出的对所述待原始音频中语音和非语音的分类结果。

本申请实施例通过直接训练句子级别标签的数据，在训练过程中将帧级别的预测整合到句子级别的预测标签，然后与标注的句子级别的标签进行loss的计算，通过模型去调优，本发明为了使用训好的模型预测音频的语音与非语音的位置，还增加了后处理的方法，在预测的时候，将模型对音频预测的帧级别的结果进行阈值卡段，选出超过一定阈值的区间作为整个音频识别出的语音段，从帧数同样可以转到时间上，进而得出对音频语音段的识别。

进一步参考图2，其示出了本申请另一种使用弱监督数据训练VAD的方法的流程图。该流程图主要针对在步骤106“获取所述训练后的模型输出的对所述待原始音频中语音和非语音的分类结果”之后的步骤的流程图。

如图2所示，在步骤202中，对训练后的模型输出的对所述待原始音频中语音和非语音的分类结果进行阈值卡段，得到超过阈值的区间；

在步骤203中，对超过阈值的区间从帧数同样转到时间，得到超过阈值的区间时间段。

在一些可选的实施例中，将得到的帧级别概率聚合成句子级别概率，通过句子级别概率得到句子级别标签包括：将所述声学信号特征中的帧级别预测标签通过聚合函数整合，得到句子级别预测标签。

在一些可选的实施例中，训练所述模型使得所述模型的输出的计算结果基本等于所述待训练音频的人工标记结果包括：对所述模型的输出的计算结果和所述人工标记结果进行损失函数的计算使得所述模型的输出的计算结果基本等于所述待训练音频的人工标记结果。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本发明的过程中发现这些相似技术的缺陷：

随着计算力的提升和神经网络模型的发展，这些方法大都采用了同样技术原理的神经网络模型，对语音数据进行了更强更复杂的特征表达，同时对给定一段音频数据进行语音与非语音的分类。

这些技术的主要缺陷在于训练数据上，一般都是需要训练数据的帧级别标签用于最终loss的计算，但这个帧级别标签的数据的获得是有一定困难的。一个是人工标注，这样的人力物力时间都是一个比较大的开销，另一种方法是基于已有的声学模型去做对齐，但这种方法的前提是有一个准确度相当的声学模型。

发明人在实现本发明的过程中发现为什么不容易想到原因：

这些劣势主要是由一开始的技术发展所导致的原因，并未考虑到句子级别标签的数据能够带来一定的性能。

其中一种方法，可以提取声学信号特征，通过阈值判断语音与非语音。另一种方法可以通过机器学习实现对语音进行语音与非语音的一个分类问题。另外专业做语音的公司，也必然会存在一个可以正常识别的语音识别模型，这个时候可以通过声学模型对对齐来得到训练数据帧级别的标签，也就可以拿此数据进行训练深度神经网络模型的vad。

这种方式的出发点源于音频检测领域，在音频检测方向上的音频事件检测，对训练数据做事件起始时间和类别的标注比较困难，于是衍生出用句子级别的数据训练,而且这种弱监督的训练方式，确实可以在实际的测试表现出很好的性能。

本申请实施例的方案通过以下方案解决上述现有技术中存在的技术问题：发明人使用深度神经网络模型直接训练句子级别标签的数据，在训练过程中使用聚合函数将帧级别的预测整合到句子级别的预测标签，然后就可以与标注的句子级别的标签进行loss的计算，通过模型去调优了，但是如何用训好的模型预测音频的语音与非语音的位置，还需要加入一下后处理的方法。发明人的后处理方法是用阈值方式，在预测的时候，将模型对音频预测的帧级别的结果进行阈值卡段，选出超过一定阈值的区间作为整个音频识别出的语音段，从帧数同样可以转到时间上，进而得出对音频语音段的识别。其中，对于阈值卡段，由于我们从模型中拿到的帧级别的概率，并不是非静音片段的时间段，所以需要通过阈值，找到满足阈值要求的时间段。我们的阈值处理方法是先通过一个低阈值找到阈值中大于这个阈值的值，并找到连续的段，在这些段中，还要求最大值一定要大于另一个高阈值，通过这样的方式找到的时间段即为非静音段的时间段。比如低阈值0.2，高阈值0.75

(1)数据准备：

发明人提出方法的格式下表1，

表1

音频名称	音频标签
		xxx.wav	Speech
yyy.wav	No_speech
		zzz.wav	Speech
…	…

以往神经网络模型训练vad的数据格式见下下表2,(音频标签是对齐后的结果):

表2

音频名称	音频标签
		xxx.wav	0000111…111000
yyy.wav	000000000000000
		zzz.wav	1110000…11111
…	…

(2)训练过程如图3所示。

(3)模型结构图见下表3

表3：

Layer	size
		linear	528Units
linear	256Units
		conv	32Channel，3x3Kernel
conv	128Channel，3x3kernel
		conv	128Channel，3x3kernel
conv	128Channel，3x3kernel
		dropout	0.3
GRU	128Units
		linear	64Units
Linear	2Units

发明人在实现本申请的过程中，还尝试过以下方案：

我们曾考虑过使用层数更深的网络模型训练句子级别标签数据的方法，理想情况下，这种模型会带来很大程度上性能的提升，但同时也存在模型大，延迟也会相应增加的问题，无疑会增加上线的风险。

使用公开的音频检测的数据集AudioSet进行多分类模型的训练，不只做speech和no speech的分类，也可以包括baby cry、cough、alarm等。使用训好的模型检测音频，只需关注识别为specch的语音片段。这种方法可以直接学到非语音音频中的具体的类别数据的特征，但也由于该数据集存在类别不均衡的问题，很容易导致模型更偏向于样本数多的类别，进而增加错误的风险。所以这种方式的训练需要针对类别不平衡的数据做些策略的优化，训练的时候要保证每个batch中的类别的样本数均衡，这样训练出的模型效果也可以被保证。

对于一种基于句子级别标签的数据训练语音端点检测的方案，所能够直接达到的效果就是减轻了数据标注的人力物力，更深层次的，由于句子级别标签的数据比较容易获得，使用大数据量训练一个性能好的vad模型就会变得更简单，省去了人工标注或者已有模型对数据对齐的麻烦和所带来的误差。

进一步参考图4，其示出了本发明提供一种使用弱监督数据训练VAD的装置框图。

如图4所示，使用弱监督数据训练VAD的训练装置400包括语音接收程序模块401、聚合程序模块402、计算程序模块403、接收程序模块404、输入程序模块405、输出程序模块406。

其中，语音接收程序模块401，配置为向模型中输入用于训练所述模型的语音，得到所述模型在训练过程中输出的帧级别概率；聚合程序模块402，配置为将得到的帧级别概率聚合成句子级别概率，通过句子级别概率得到句子级别标签；计算程序模块403，配置为利用得到的句子级别标签进行loss计算，训练所述模型使得所述模型输出的计算结果基本等于所述用于训练所述模型的语音的人工标记结果；接收程序模块404，配置为接收原始音频，从所述原始音频中提取声学信号特征；输入程序模块405，配置为将声学信号特征输入到所述模型中；输出程序模块406，配置为获取所述训练后的模型输出的对所述待原始音频中语音和非语音的分类结果。

应当理解，图4中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图4中的诸模块，在此不再赘述。

值得注意的是，还可以通过硬件处理器来实现相关功能模块在此不再赘述。

图5是本发明实施例提供的电子设备的结构示意图，如图5所示，该设备包括：一个或多个处理器510以及存储器520，图5中以一个处理器510为例。一种使用弱监督数据训练VAD的设备还可以包括：输入装置530和输出装置540。处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。存储器520为上述的非易失性计算机可读存储介质。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例用于一种使用弱监督数据训练VAD训练的方法。输入装置530可接收输入的数字或字符信息，以及产生与一种使用弱监督数据训练VAD训练的装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于一种使用弱监督数据训练VAD训练装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行。

其他具有数据交互功能的电子装置。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种使用弱监督数据训练VAD的方法，包括：

向模型中输入用于训练所述模型的语音，得到所述模型在训练过程中输出的帧级别概率；

将得到的帧级别概率聚合成句子级别概率，通过句子级别概率得到句子级别标签；

利用得到的句子级别标签进行loss计算，训练所述模型使得所述模型输出的计算结果基本等于所述用于训练所述模型的语音的人工标记结果；

接收原始音频，从所述原始音频中提取声学信号特征；

将声学信号特征输入到所述模型中；

获取所述训练后的模型输出的对所述待原始音频中语音和非语音的分类结果。

2.根据权利要求1所述的方法，所述将得到的帧级别概率聚合成句子级别概率，通过句子级别概率得到句子级别标签包括：

将所述声学信号特征中的帧级别预测标签通过聚合函数整合，得到句子级别预测标签。

3.根据权利要求1所述的方法，所述训练所述模型使得所述模型的输出的计算结果基本等于所述待训练音频的人工标记结果包括：

对所述模型的输出的计算结果和所述人工标记结果进行损失函数的计算使得所述模型的输出的计算结果基本等于所述待训练音频的人工标记结果。

4.根据权利要求1所述的方法，在获取所述训练后的模型输出的对所述待原始音频中语音和非语音的分类结果后，所述方法还包括:

对训练后的模型输出的对所述待原始音频中语音和非语音的分类结果进行阈值卡段，得到超过阈值的区间，对超过阈值的区间从帧数同样转到时间，得到超过阈值的区间时间段。

5.一种使用弱监督数据训练VAD的装置，其包括，

语音接收程序模块，配置为向模型中输入用于训练所述模型的语音，得到所述模型在训练过程中输出的帧级别概率；

聚合程序模块，配置为将得到的帧级别概率聚合成句子级别概率，通过句子级别概率得到句子级别标签；

计算程序模块，配置为利用得到的句子级别标签进行loss计算，训练所述模型使得所述模型输出的计算结果基本等于所述用于训练所述模型的语音的人工标记结果；

接收程序模块，配置为接收原始音频，从所述原始音频中提取声学信号特征；

输入程序模块，配置为将声学信号特征输入到所述模型中；

输出程序模块，配置为获取所述训练后的模型输出的对所述待原始音频中语音和非语音的分类结果。

6.根据权利要求1所述的方法，所述聚合程序模块包括配置为：

7.根据权利要求1所述的方法，所述计算程序模块包括配置为：

8.根据权利要求1所述的装置，所述装置还包括:

阈值卡段程序模块，配置为对训练后的模型输出的对所述待原始音频中语音和非语音的分类结果进行阈值卡段，得到超过阈值的区间，对超过阈值的区间从帧数同样转到时间，得到超过阈值的区间时间段。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至4任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至4任一项所述方法的步骤。