CN113113001A

CN113113001A - 人声激活检测方法、装置、计算机设备和存储介质

Info

Publication number: CN113113001A
Application number: CN202110425564.XA
Authority: CN
Inventors: 徐泓洋; 王广新; 杨汉丹
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-07-13

Abstract

本申请提供一种人声激活检测方法、装置、计算机设备和存储介质，其中方法包括：实时采集语音数据；提取所述语音数据中每一帧音频数据对应的语音特征向量；依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中；其中，所述预设的人声激活检测模型基于时延神经网络训练得到，输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量；基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声。本申请基于时延神经网络训练得到的人声激活检测模型检测人声，不仅检测速度快，且模型结合了当前帧及其上下文的语音，检测效果好。

Description

人声激活检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及语音识别技术领域，特别涉及一种人声激活检测方法、装置、计算机设备和存储介质。

背景技术

传统的VAD(voice activity detection，声音激活检测)算法作为一个前端监测模块，常用于实时唤醒系统以及实时语音识别等系统中，用于过滤实时录音数据，减少后续模型不必要的计算。但是，目前的VAD算法只能检测环境中有没有声音，无法区分这个声音是不是后续模型需要的声音，即无法区分人声和非人声。

发明内容

本申请的主要目的为提供一种人声激活检测方法、装置、计算机设备和存储介质，旨在克服目前无法检测环境中是否有人声的缺陷。

为实现上述目的，本申请提供了一种人声激活检测方法，包括以下步骤：

实时采集语音数据；所述语音数据包括多帧音频数据；

提取所述语音数据中每一帧音频数据对应的语音特征向量；

依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中；其中，输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量；

基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声。

进一步地，所述人声激活检测模型至少包括第一卷积层、第二卷积层、第三卷积层以及分类层；

所述基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声的步骤，包括：

将所述预设帧音频数据对应的语音特征向量输入至所述第一卷积层进行卷积运算，得到第一中间特征向量；

将所述第一中间特征向量输入至所述第二卷积层进行卷积运算，得到第二中间特征向量；

将所述第二中间特征向量输入至所述第三卷积层进行卷积运算，得到第三中间特征向量；

将所述第三中间特征向量输入至所述分类层中进行分类，得出所述预设帧音频数据中是否包括人声的检测结果。

进一步地，所述第一卷积层、第二卷积层、第三卷积层为一维膨胀卷积网络；其中，所述第一卷积层的dilate＝1，context＝3，所述第二卷积层的dilate＝3，context＝3，所述第三卷积层的dilate＝3，context＝15。

进一步地，所述实时采集语音数据的步骤之前，还包括：

获取训练数据；所述训练数据包括多帧训练音频，所述训练数据为带噪的音频文件；

提取每一帧训练音频对应的训练特征向量；

依序将预设帧训练音频对应的训练特征向量输入至时延神经网络中进行训练，得到所述人声激活检测模型。

进一步地，所述获取训练数据的步骤，包括：

获取干净的人声语音；其中，所述干净的人声语音为不包括噪声以及混响的语音；

基于预设的语音识别模型检测所述干净的人声语音中每个字对应的音频帧；

将所述干净的人声语音中每个字对应的音频帧标注为第一标签，将其余的音频帧标注为第二标签；

对标注后的所述干净的人声语音进行加噪以及加混响处理，得到所述训练数据。

本申请还提供了一种人声激活检测装置，包括：

采集单元，用于实时采集语音数据；所述语音数据包括多帧音频数据；

第一提取单元，用于提取所述语音数据中每一帧音频数据对应的语音特征向量；

第一输入单元，用于依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中；其中，输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量；

检测单元，用于基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声。

所述检测单元，具体用于：

进一步地，还包括：

获取单元，用于获取训练数据；所述训练数据包括多帧训练音频，所述训练数据为带噪的音频文件；

第二提取单元，用于提取每一帧训练音频对应的训练特征向量；

训练单元，用于依序将预设帧训练音频对应的训练特征向量输入至时延神经网络中进行训练，得到所述人声激活检测模型。

进一步地，所述获取单元，具体包括：

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请提供的人声激活检测方法、装置、计算机设备和存储介质，包括：实时采集语音数据；提取所述语音数据中每一帧音频数据对应的语音特征向量；依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中；其中，所述预设的人声激活检测模型基于时延神经网络训练得到，输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量；基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声。本申请基于时延神经网络训练得到的人声激活检测模型检测人声，不仅检测速度快，且模型结合了当前帧及其上下文的语音，检测效果好。

附图说明

图1是本申请一实施例中人声激活检测方法步骤示意图；

图2是本申请一实施例中人声激活检测装置结构框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例在提供了一种人声激活检测方法，包括以下步骤：

步骤S1，实时采集语音数据；所述语音数据包括多帧音频数据；

步骤S2，提取所述语音数据中每一帧音频数据对应的语音特征向量；

步骤S3，依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中；其中，所述预设的人声激活检测模型基于时延神经网络训练得到，输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量；

步骤S4，基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声。

在本实施例中，上述人声激活检测方法应用于实时检测环境语音中是否包括人声。上述人声激活检测(speech activity detection，SAD)是相对于“声音激活检测”而言，目前的声音激活检测只能检测环境中是否有声音，而无法区分人声以及非人声；而本实施例中的人声激活检测即是为了区分人声以及非人声。

如上述步骤S1所述的，实时采集环境中的语音数据，环境中可能包括人声、汽车声音、雨声等等。在本实施例中，只将清楚说话的声音作为人声，而其它声音均作为噪声数据，例如人的咳嗽、哼唱、鼾声、呻吟、狗叫声等等均作为噪声。

如上述步骤S2所述的，为了将语音数据输入至人声激活检测模型中进行运算，需要将上述每一帧音频数据都转换为对应的语音特征向量；具体地，可以采用傅里叶变换的方式进行语音特征向量的提取，在此不进行赘述。

由于音频特征为40维的FBank，因此上述每一帧音频数据(0.02*16000＝320点)转化为1X 40的语音特征向量。

如上述步骤S3-S4所述的，上述预设的人声激活检测模型预先基于时延神经网络训练得到，将预设帧的音频数据对应的语音特征向量输入至预设的人声激活检测模型中进行人声检测，从而基于上述人声激活检测模型检测上述实时采集的语音数据中是否包括人声。

其中，输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量。即在本实施例中，进行人声激活检测时，不仅仅是输入当前帧音频数据对应的语音特征向量，还需要结合上下文的音频数据对应的语音特征向量。这是因为语音的特征前后帧之间是相关的，在处理语音数据时，需要结合上下文的语音信息；本实施例中的时延神经网络是用于语音识别中的一种结合上下文信息进行预测的神经网络，预测每一帧数据时，输入为当前帧的前面几帧数据，当前帧数据以及未来几帧的数据。之所以叫时延就是因为需要等待未来几帧的数据，因此由于“时延”机制，预测的要比实际的慢几十毫秒。

在一实施例中，上述预设帧为20-30帧，可取一个值为23。

具体地，正常语速情况下，一个字的发音持续时间在200-300ms之间，以20ms为一帧数据的窗长，10ms为一帧数据的步长，则一个字的发音帧数在20-30帧之间，取其中的一个值23为例，则上述人声激活检测模型一次输入23帧的音频数据对应的语音特征向量进行计算；此23帧音频数据对应的语音特征向量对应给出一个是否包括人声的检测结果。

在一实施例中，所述人声激活检测模型至少包括第一卷积层、第二卷积层、第三卷积层以及分类层；

所述基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声的步骤S4，包括：

在本实施例中，所述第一卷积层、第二卷积层、第三卷积层为一维膨胀卷积网络；该网络通过不同的dialted系数来控制上下文信息的范围。其中，所述第一卷积层的dilate＝1，context＝3，所述第二卷积层的dilate＝3，context＝3，所述第三卷积层的dilate＝3，context＝15。

具体地，得益于上述第一卷积层、第二卷积层、第三卷积层的网络结构，对上述预设帧音频数据对应的语音特征向量进行多层的特征提取，并且使得提取出的特征向量的帧数逐渐下降，最终只输出一帧的特征向量(即上述第三中间特征向量)至分类层中进行分类，通过上述网络结构，不仅使得提取特征向量的过程中可以结合上下文信息，有能力表达语音特征向量在时间上的关系；而且网络是多层的，每层对语音特征有较强的抽象能力，经过多层提取，对特征向量的提取深度更深，有益于特征向量的表达以及后续的分类计算结果，提升模型效果。

具体地，上述预设帧为23帧，上述第一卷积层输入23帧的语音特征向量，使用dilate＝1，context＝3的网络结构输出21帧的第一中间特征向量；

第二卷积层输入21帧的第一中间特征向量，用dilate＝3，context＝3的网络结构输出15帧的第二中间特征向量；

第三卷积层输入15帧的第二中间特征向量，用dilate＝3，context＝15的网络结构输出1帧的第三中间特征向量；

最后将这一帧的第三中间特征向量输入至分类层中进行分类，输出是否包括人声的检测结果。其中，分类层的分类函数为softmax函数。

在一实施例中，所述实时采集语音数据的步骤S1之前，还包括：

步骤S01，获取训练数据；所述训练数据包括多帧训练音频，所述训练数据为带噪的音频文件；

步骤S02，提取每一帧训练音频对应的训练特征向量；

步骤S03，依序将预设帧训练音频对应的训练特征向量输入至时延神经网络中进行训练，得到所述人声激活检测模型。

在本实施例中，预先训练上述时延神经网络，得到上述人声激活检测模型，训练上述时延神经网络可采用反向传播算法，上述训练数据为带噪的音频文件，该音频文件中包括有人声，且预先对人声进行了标注，同时对其它声音也进行了标注；例如，人声标注为1，非人声标注为0。

将上述训练数据中每一帧的音频都转换成对应的训练特征向量，上述转换可采用傅里叶转换等，在此不进行赘述。

然后依序将预设帧的训练音频对应的训练特征向量输入至时延神经网络中进行迭代训练，得到所述人声激活检测模型。其中，上述训练过程使用交叉熵损失函数(cross_entropy loss)计算损失值，损失值为预测标签与真实标签之间的损失值；基于反向传播算法，不断调整时延神经网络中的网络参数(网络权值)，从而最小化上述损失值，最终得到上述训练完成的人声激活检测模型。

在一个实施例中，所述获取训练数据的步骤01，包括：

在本实施例中，提出一个制作训练数据的过程；预先获取干净的人声语音，该干净的人声语音中只包括人声，而不包括任何其他噪声或者混响。

训练数据的构造过程需要一个语音识别模型来进行数据标注，目前主流的端到端语音识别模型在干净的数据集上可以达到96％以上的正确识别效果，这个识别率足够使用。为了保证对音频数据帧标注的准确率，本方案中可以预先使用三千小时的干净语音数据(不带混响不带噪声)来训练语音识别模型，然后用训练得到的上述语音识别模型在干净的人声语音上进行标注对齐，即通过语音识别模型，将所述干净的人声语音中每个字对应的音频帧标注为第一标签，将其余的音频帧标注为第二标签；第一标签可以为“1”，第二标签可以为“0”。

例如，一个干净的人声语音，语音内容为“你好今天放假”，通过上述语音识别模型进行对齐后得到每个字对应的音频帧，将每个文字对应的帧片段标注为1，其余音频帧标注为0。

进一步地，对标注后的所述干净的人声语音进行加噪(加噪的音频为收集到的非人声语音数据)以及加混响处理，至此就得到了可以用于训练人声激活检测模型的训练数据。

综上所述，为本申请实施例中提供的人声激活检测方法，包括：实时采集语音数据；提取所述语音数据中每一帧音频数据对应的语音特征向量；依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中；其中，所述预设的人声激活检测模型基于时延神经网络训练得到，输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量；基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声。本申请基于时延神经网络训练得到的人声激活检测模型检测人声，不仅检测速度快，且模型结合了当前帧及其上下文的语音，检测效果好。

参照图2，本申请一实施例中还提供了一种人声激活检测装置，包括：

采集单元10，用于实时采集语音数据；所述语音数据包括多帧音频数据；

第一提取单元20，用于提取所述语音数据中每一帧音频数据对应的语音特征向量；

第一输入单元30，用于依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中；其中，所述预设的人声激活检测模型基于时延神经网络训练得到，输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量；

检测单元40，用于基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声。

在一个实施例中，所述人声激活检测模型至少包括第一卷积层、第二卷积层、第三卷积层以及分类层；

所述检测单元40，具体用于：

在一个实施例中，还包括：

在一个实施例中，所述获取单元，具体包括：

在一个实施例中，所述第一卷积层、第二卷积层、第三卷积层为一维膨胀卷积网络；其中，所述第一卷积层的dilate＝1，context＝3，所述第二卷积层的dilate＝3，context＝3，所述第三卷积层的dilate＝3，context＝15。

在本实施例中，上述人声激活检测装置实施例中的各个单元的具体实现方式，请参照上述人声激活检测方法实施例中所述，在此不再进行赘述。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储人声激活检测模型等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人声激活检测方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种人声激活检测方法。可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

综上所述，为本申请实施例中提供的人声激活检测方法、装置、计算机设备和存储介质，包括：实时采集语音数据；提取所述语音数据中每一帧音频数据对应的语音特征向量；依序将预设帧音频数据对应的语音特征向量输入至预设的人声激活检测模型中；其中，所述预设的人声激活检测模型基于时延神经网络训练得到，输入的所述预设帧音频数据对应的语音特征向量包括当前帧及其上下文的多帧音频数据分别对应的语音特征向量；基于所述人声激活检测模型，检测所述预设帧音频数据中是否包括人声。本申请基于时延神经网络训练得到的人声激活检测模型检测人声，不仅检测速度快，且模型结合了当前帧及其上下文的语音，检测效果好。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种人声激活检测方法，其特征在于，包括以下步骤：

实时采集语音数据；所述语音数据包括多帧音频数据；

提取所述语音数据中每一帧音频数据对应的语音特征向量；

2.根据权利要求1所述的人声激活检测方法，其特征在于，所述人声激活检测模型至少包括第一卷积层、第二卷积层、第三卷积层以及分类层；

3.根据权利要求2所述的人声激活检测方法，其特征在于，所述第一卷积层、第二卷积层、第三卷积层为一维膨胀卷积网络；其中，所述第一卷积层的dilate＝1，context＝3，所述第二卷积层的dilate＝3，context＝3，所述第三卷积层的dilate＝3，context＝15。

4.根据权利要求1所述的人声激活检测方法，其特征在于，所述实时采集语音数据的步骤之前，还包括：

提取每一帧训练音频对应的训练特征向量；

5.根据权利要求4所述的人声激活检测方法，其特征在于，所述获取训练数据的步骤，包括：

6.一种人声激活检测装置，其特征在于，包括：

7.根据权利要求6所述的人声激活检测装置，其特征在于，所述人声激活检测模型至少包括第一卷积层、第二卷积层、第三卷积层以及分类层；

所述检测单元，具体用于：

8.根据权利要求6所述的人声激活检测装置，其特征在于，还包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。