CN111312218A

CN111312218A - 神经网络的训练和语音端点检测方法及装置

Info

Publication number: CN111312218A
Application number: CN201911391398.5A
Authority: CN
Inventors: 胡雪成
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-06-19
Anticipated expiration: 2039-12-30
Also published as: CN111312218B

Abstract

本发明公开神经网络的训练和语音端点检测方法及装置，其中，一种神经网络的训练和语音端点检测方法，包括将语音音频数据和非语音音频数据随机混合形成混合音频数据；提取混合音频数据的声学特征；以及将声学特征输入FSMN模型中，训练FSMN模型使得FSMN模型的输出的对于语音音频数据和非语音音频数据的分类基本等于混合音频数据中语音音频数据和非语音音频数据的分类本申请实施例的方案混合非语音音频数据和语音音频数据，之后用于前馈序列记忆神经网络的输入对该神经网络进行训练，使得该神经网络能够输出各音频数据单元属于语音音频数据还是非语音音频数据的分类，之后可以用于语音端点检测，使得语音端点检测的结果更加精准。

Description

神经网络的训练和语音端点检测方法及装置

技术领域

本发明属于语音端点检测技术领域，尤其涉及神经网络的训练和语音端点检测方法及装置。

背景技术

相关技术中，语音活动检测VAD(Voice Activity Detection)又称语音端点检测，语音边界检测。用于检测连续音频流数据中是否有语音片段出现。

如图1所示，实时计算语音片段的开始(T1)和结束(T2)时间，为了保证后续语音识别或者语音唤醒的效果，会将开始时间提前、结束时间滞后，最终输出T0和T3两个时间点。

发明人在实现本申请的过程中发现，现有方案至少存在以下缺陷：1、延迟高，影响用户体验；2、没有检测到语音，语音片段被拒掉了；3、误触发，非语音片段被检测为语音；4、语音片段切的不准，语音片段的开头被切，结尾被切。

发明内容

本发明实施例提供一种神经网络的训练和语音端点检测方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种神经网络的训练方法，包括：将语音音频数据和非语音音频数据随机混合形成混合音频数据；提取所述混合音频数据的声学特征；以及将所述声学特征输入FSMN模型中，训练所述FSMN模型使得所述FSMN模型的输出的对于语音音频数据和非语音音频数据的分类基本等于所述混合音频数据中语音音频数据和非语音音频数据的分类。

第二方面，本发明实施例提供一种语音端点检测方法，包括：提取待测音频的声学特征，将所述音频特征输入至根据第一方面所述的方法训练后的FSMN模型中；获取所述训练后的FSMN模型输出的对所述待测音频中各帧音频的分类结果，其中，所述分类结果包括语音音频数据和非语音音频数据；以及对所述分类结果进行平滑处理，输出平滑后的各段语音音频数据的端点。

第三方面，本发明实施例提供一种神经网络的训练装置，包括：混合模块，配置为将语音音频数据和非语音音频数据随机混合形成混合音频数据；提取模块，配置为提取所述混合音频数据的声学特征；以及训练模块，配置为将所述声学特征输入FSMN模型中，训练所述FSMN模型使得所述FSMN模型的输出的对于语音音频数据和非语音音频数据的分类基本等于所述混合音频数据中语音音频数据和非语音音频数据的分类。

第四方面，本发明实施例提供一种语音端点检测装置，包括：输入模块，配置为提取待测音频的声学特征，将所述音频特征输入至根据前述方法训练后的FSMN模型中；结果获取模块，配置为获取所述训练后的FSMN模型输出的对所述待测音频中各帧音频的分类结果，其中，所述分类结果包括语音音频数据和非语音音频数据；以及端点输出模块，配置为对所述分类结果进行平滑处理，输出平滑后的各段语音音频数据的端点。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的神经网络的训练或语音端点检测方法的步骤。

第六方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的神经网络的训练或语音端点检测方法的步骤。

本申请的方法和装置提供的方案通过将语音音频数据和非语音音频数据混合成混合音频数据，之后用于前馈序列记忆神经网络的输入对该神经网络进行训练，使得该神经网络能够输出各音频数据单元属于语音音频数据还是非语音音频数据的分类，之后可以用于语音端点检测，使得语音端点检测的结果更加精准。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中一个示例的语音片段波形图；

图2为本发明一实施例提供的一种神经网络的训练方法的流程图；

图3为本发明一实施例提供的另一种神经网络训练方法的流程图；

图4为本发明一实施例提供的一种语音端点检测方法的流程图；

图5为本发明一实施例提供的FSMN神经网络结构图；

图6为本申请一实施例提供的一种VAD训练方法的流程图。

图7为本发明一实施例提供的一种神经网络的训练装置的框图；

图8为本发明一实施例提供的一种语音端点检测装置的框图；

图9是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图2，其示出了本申请的神经网络的训练和语音端点检测方法一实施例的流程图，本实施例的神经网络的训练和语音端点检测方法可以适用于公众账号的智能对话机器人，例如各种社交软件中的公众账号，本申请在此没有限制。

如图2所示，在步骤201中，将语音音频数据和非语音音频数据随机混合形成混合音频数据；

在步骤202中，提取所述混合音频数据的声学特征；

在步骤203中，将所述声学特征输入FSMN(Feedforward Sequential MemoryNetworks,前馈序列记忆神经网络)模型中，训练所述FSMN模型使得所述FSMN模型的输出的对于语音音频数据和非语音音频数据的分类基本等于所述混合音频数据中语音音频数据和非语音音频数据的分类。

在本实施例中，对于步骤201，神经网络的训练装置将收集到的用户语音音频数据和非语音音频数据，将每一帧语音音频和每一帧的非语音音频随机混合形成混合音频数据；然后，对于步骤202，神经网络的训练装置提取所述混合音频数据的声学特征；

最后，对于步骤203，神经网络的训练装置将所述声学特征输入到FSMN模型中，训练所述FSMN模型使得所述FSMN模型的输出的对于语音音频数据和非语音音频数据的分类基本等于所述混合音频数据中语音音频数据和非语音音频数据的分类。

本实施例的方法通过将语音音频数据和非语音音频数据混合成混合音频数据，之后用于前馈序列记忆神经网络的输入对该神经网络进行训练，使得该神经网络能够输出各音频数据单元属于语音音频数据还是非语音音频数据的分类，之后可以用于语音端点检测，使得语音端点检测的结果更加精准。

进一步参考图3，其示出了本申请另一实施例的神经网络训练方法，该流程图主要是针对流程图2中步骤203“训练所述FSMN模型使得所述FSMN神经网后的输出的对于语音音频数据和非语音音频数据的分类基本等于所述验证集”进一步限定的步骤的流程。

如图3所示，在步骤301中，基于所述混合音频数据形成训练集和验证集；

在步骤302中，基于所述训练集和所述验证集的交叉熵来训练所述FSMN模型，判断训练后的FSMN模型的性能是否满足预设要求；

在步骤303中，若性能不满足预设要求，对所述FSMN模型进行超参数调节，并重新训练所述FSMN模型直至所述FSMN模型的性能满足预设要求。

在本实施例中，对于步骤301，神经网络的训练装置基于所述混合音频数据形成训练集和验证集，其中，训练集(Training Dataset)是用来训练模型使用的，当我们的模型训练好之后，我们并不知道他的表现如何。这个时候就可以使用验证集(ValidationDataset)来看看模型在新数据(验证集和测试集是不同的数据)上的表现如何，例如，训练集相当于上课学知识，验证集就相当于课后的练习题，用来纠正和强化学到的知识。之后，对于步骤302，基于训练集和验证集，采用交叉熵来训练FSMN模型，判断训练后的FSMN模型的性能是否满足预设要求。最后，对于步骤303，通过一些参数来验证模型的性能是否满足预设要求，如果不满足，则对所述FSMN模型进行超参数调节，并重新训练所述FSMN模型直至所述FSMN模型的性能满足预设要求。

本实施例的方法通过以上步骤可以确保最终训练出来的模型性能良好，满足要求。

在一些可选的实施例中，上述语音音频数据和所述非语音音频数据均为多场景类型的音频数据。从而覆盖多场景类型的音频数据，使得最终训练出来的模型能够更好地适应不同的场景。

进一步可选的，所述声学特征包括Fbank特征。

请参考图4，其示出了本申请一实施例提供的一种语音端点检测方法。

如图4所示，在步骤401中，提取待测音频的声学特征，将所述音频特征输入至根据以上实施例所述的方法训练后的FSMN模型中；

在步骤402中，获取所述训练后的FSMN模型输出的对所述待测音频中各帧音频的分类结果，其中，所述分类结果包括语音音频数据和非语音音频数据；

在步骤403中，对所述分类结果进行平滑处理，输出平滑后的各段语音音频数据的端点。

在本实施例中，对于步骤401，语音端点检测装置先提取待测音频的声学特征，然后将提取的特征输入至按照之前的实施例训练后的FSMN模型中。之后，对于步骤402，获取该训练后的FSMN模型输出的对于各帧音频属于语音音频数据还是非语音音频数据的分类结果。最后，对于步骤403，对该分类结果进行平滑处理，可以包括将将其中一些语音音频数据帧连成语音音频数据段。例如，有两个被判断为语音音频数据帧的距离很近，则可以将它们连在一起。本申请在此没有限制。

本实施例的方法通过提取声学特征之后输入至训练后的FSMN模型中，获取模型输出的分类结果，最后再进行平滑处理就能形成多段音频，之后输出各段音频的起始点即可。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中，发现现有技术中存在的缺陷主要是由于以下原因导致的：

原因1：分类算法计算时间长；

原因2：分类算法的计算某一时刻t的输出，用到了时间t之后的音频信息，在提升准确性的情况下，延迟变差了；

原因3：噪音环境下，分类算法性能不够好，没有区分语音和非语音，也没有区分好语音和非语音的时间边界点；

原因4：测试的音频质量差，可能存在语音幅度过小，背景噪声太大，音频掉帧等情况。

本领域技术人员在面对现有技术中存在的上述缺陷时，通常会采用以下方案：一般他们会采取DNN(Deep Networks，深度神经网络)的模型或者是GRU(Gate RecurrentUnit，门控循环单元)的模型来训练VAD，但是DNN的模型没有考虑到前后时间上的连续性，GRU的模型虽然考虑了时间的连续性，但是GRU会记录全部的历史信息，噪音环境下容易受到异常值的干扰，导致性能不稳定。

本申请实施例采用的以下方案解决上述现有技术中存在的至少一个缺陷：首先，我们采取的是FSMN模型来训练VAD，FSMN模型含有记忆单元，可以保存某个固定帧数的历史信息，所以FSMN模型能够考虑到前后时间上的连续性，但同时又不用记录全部的信息，噪音环境下受异常值干扰的影响较小。其次，FSMN模型的记忆单元可以只保存以前的历史信息，那么在计算的时候模型的延时就不会太大。最后，我们训练用的数据包含了各种场景的语音和非语音，数据比较丰富，FSMN模型能够学到这些信息，所以对语音边界的区分以及语音非语音的判断会更准。

请参考图5，其示出了FSMN网络结构图。

请参考图6，其示出了本申请一实施例提供的一种VAD训练方法的流程图。

如图所示，步骤1：准备好多场景类型的语音音频数据，准备好多场景的非语音音频数据。

步骤2：音频随机混合，提取fbank特征

步骤3：数据分成训练集和验证集

步骤4：使用fsmn神经网络模型基于交叉熵的准则来训练准备好的数据。

步骤5：超参数调试，训练出性能正常的模型。

步骤6：输入带测音频，对模型输出结果做平滑后处理，输出语音非语音的时间点。

本申请实施例的方案能够实现以下效果：由于VAD模型后面一般跟着的是ASR(Automatic Speech Recognition，自动语音识别)系统，所以VAD模型性能越好，ASR识别率就越高，同时VAD能够做到准确地判断语音和非语音的话，那么就会减少ASR在语音的时候未识别和非语音的时候去识别的概率。如果是在整个语音交互系统中，用户就会很明显地感觉到这种错误，没有发出语音系统却跟我交互了，发出语音了系统却没有反应。所以我们提高VAD的性能有助于提升整个语音交互系统的用户体验，可以提升公司产品的竞争力。

请参考图7，其示出了本发明一实施例提供的一种神经网络的训练装置的框图。

如图7所示，一种神经网络的训练装置700，包括混合模块710、提取模块720和训练模块730。

其中，混合模块710，配置为将语音音频数据和非语音音频数据随机混合形成混合音频数据；提取模块720，配置为提取所述混合音频数据的声学特征；以及训练模块730，配置为将所述声学特征输入FSMN模型中，训练所述FSMN模型使得所述FSMN模型的输出的对于语音音频数据和非语音音频数据的分类基本等于所述混合音频数据中语音音频数据和非语音音频数据的分类。

在一些可选的实施例中，上述训练模块730还配置为：基于所述混合音频数据形成训练集和验证集；基于所述训练集和所述验证集的交叉熵来训练所述FSMN模型，判断训练后的FSMN模型的性能是否满足预设要求；以及若性能不满足预设要求，对所述FSMN模型进行超参数调节，并重新训练所述FSMN模型直至所述FSMN模型的性能满足预设要求。

请参考图8，其示出了本发明一实施例提供的一种语音端点检测装置的框图。

如图8所示，神经网络的训练和语音端点检测装置800，包括输入模块810、结果获取模块820和端点输出模块830。

其中，输入模块810，配置为提取待测音频的声学特征，将所述音频特征输入至根据前述实施例中任一项所述的方法训练后的FSMN模型中；结果获取模块820，配置为获取所述训练后的FSMN模型输出的对所述待测音频中各帧音频的分类结果，其中，所述分类结果包括语音音频数据和非语音音频数据；以及端点输出模块830，配置为对所述分类结果进行平滑处理，输出平滑后的各段语音音频数据的端点。

应当理解，图7和图8中记载的诸模块与参考图2、图3和图4中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图7和图8中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如分词模块可以描述为将接收的语句文本分为说法和至少一个词条的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如分词模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的神经网络的训练和语音端点检测方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

将语音音频数据和非语音音频数据随机混合形成混合音频数据；

提取所述混合音频数据的声学特征；

将所述声学特征输入FSMN模型中，训练所述FSMN模型使得所述FSMN模型的输出的对于语音音频数据和非语音音频数据的分类基本等于所述混合音频数据中语音音频数据和非语音音频数据的分类。

提取待测音频的声学特征，将所述音频特征输入至根据前述方法训练后的FSMN模型中；

获取所述训练后的FSMN模型输出的对所述待测音频中各帧音频的分类结果，其中，所述分类结果包括语音音频数据和非语音音频数据；

对所述分类结果进行平滑处理，输出平滑后的各段语音音频数据的端点。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据神经网络训练或语音端点检测装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至神经网络训练或语音端点检测装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项神经网络训练或语音端点检测方法。

图9是本发明实施例提供的电子设备的结构示意图，如图9所示，该设备包括：一个或多个处理器910以及存储器920，图9中以一个处理器910为例。神经网络训练或语音端点检测方法的设备还可以包括：输入装置930和输出装置940。处理器910、存储器920、输入装置930和输出装置940可以通过总线或者其他方式连接，图9中以通过总线连接为例。存储器920为上述的非易失性计算机可读存储介质。处理器910通过运行存储在存储器920中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例神经网络训练或语音端点检测方法。输入装置930可接收输入的数字或字符信息，以及产生与神经网络训练或语音端点检测装置的用户设置以及功能控制有关的键信号输入。输出装置940可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于神经网络的训练装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

提取所述混合音频数据的声学特征；

作为另一种实施方式，上述电子设备应用于语音端点检测装置中，包括：

提取待测音频的声学特征，将所述音频特征输入至前述方法训练后的FSMN模型中；

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种神经网络的训练方法，包括：

提取所述混合音频数据的声学特征；

2.根据权利要求1所述的方法，其中，所述训练所述FSMN模型使得所述FSMN模型的输出的对于语音音频数据和非语音音频数据的分类基本等于所述验证集包括：

基于所述混合音频数据形成训练集和验证集；

基于所述训练集和所述验证集的交叉熵来训练所述FSMN模型，判断训练后的FSMN模型的性能是否满足预设要求；

若性能不满足预设要求，对所述FSMN模型进行超参数调节，并重新训练所述FSMN模型直至所述FSMN模型的性能满足预设要求。

3.根据权利要求1或2所述的方法，其中，所述语音音频数据和所述非语音音频数据均为多场景类型的音频数据。

4.根据权利要求3所述的方法，其中，所述声学特征包括Fbank特征。

5.一种语音端点检测方法，包括：

提取待测音频的声学特征，将所述音频特征输入至根据权利要求1-4中任一项所述的方法训练后的FSMN模型中；

6.一种神经网络的训练装置，包括：

混合模块，配置为将语音音频数据和非语音音频数据随机混合形成混合音频数据；

提取模块，配置为提取所述混合音频数据的声学特征；

训练模块，配置为将所述声学特征输入FSMN模型中，训练所述FSMN模型使得所述FSMN模型的输出的对于语音音频数据和非语音音频数据的分类基本等于所述混合音频数据中语音音频数据和非语音音频数据的分类。

7.根据权利要求6所述的装置，其中，所述训练模块还配置为：

基于所述混合音频数据形成训练集和验证集；

8.一种语音端点检测装置，包括：

输入模块，配置为提取待测音频的声学特征，将所述音频特征输入至根据权利要求1-4中任一项所述的方法训练后的FSMN模型中；

结果获取模块，配置为获取所述训练后的FSMN模型输出的对所述待测音频中各帧音频的分类结果，其中，所述分类结果包括语音音频数据和非语音音频数据；

端点输出模块，配置为对所述分类结果进行平滑处理，输出平滑后的各段语音音频数据的端点。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。