CN110600015A

CN110600015A - 一种语音的密集分类方法及相关装置

Info

Publication number: CN110600015A
Application number: CN201910880593.8A
Authority: CN
Inventors: 陈孝良; 王超; 冯大航; 常乐
Original assignee: Beijing Sound Intelligence Technology Co Ltd
Current assignee: Beijing Sound Intelligence Technology Co Ltd; Beijing SoundAI Technology Co Ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2019-12-20
Anticipated expiration: 2039-09-18
Also published as: CN110600015B

Abstract

本发明公开了一种语音的密集分类方法及相关装置，该方法包括：获取输入语音；提取所述输入语音中第一预设数量维度第一特征；将所述第一预设数量维度第一特征进行扩维，得到第二预设数量维度目标特征；将所述第二预设数量维度目标特征在全卷积网络中进行处理，得到所述输入语音的分类结果。上述的分类方法中，将所述输入语音作为整体进行分析，不存在重复，提高了感受野，进而提高了分类能力。

Description

一种语音的密集分类方法及相关装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音的密集分类方法及相关装置。

背景技术

在对语音进行分类过程中，首先将输入语音进行分帧，然后对每一帧进行分类，以基于神经网络进行分类为例，为了得到当前帧的类别，可以将当前帧周围的若干帧作为当前帧的上下文进行训练。例如对于当前帧使用前后25帧的上下文作为输入窗口，每次滑动输入窗口给神经网络训练，得到当前帧的分类结果。

发明人对现有的分类过程进行研究发现，所需要的存储空间随输入窗口的步长和大小以及输入语音的长度等急剧上升，此外，由于相邻帧所具有的上下文基本是重复的，会带来计算的冗余，并且上下文的大小限制了感受野的大小进而限制了分类能力。

发明内容

有鉴于此，本发明提供了一种语音的密集分类方法及相关装置，用以解决现有的分类过程中，所需要的存储空间是随输入窗口的步长和大小以及输入语音的长度等急剧上升的，此外，由于相邻帧所具有的上下文基本是重复的，会带来计算的冗余，并且上下文的大小限制了感受野的大小进而限制了分类能力的问题。具体方案如下：

一种语音的密集分类方法，包括：

获取输入语音；

提取所述输入语音中第一预设数量维度第一特征；

将所述第一预设数量维度第一特征进行扩维，得到第二预设数量维度目标特征；

将所述第二预设数量维度目标特征在全卷积网络中进行处理，得到所述输入语音的分类结果。

上述的方法，可选的，将所述第二预设数量维度目标特征在全卷积网络中进行处理，得到所述输入语音的分类结果，包括：

设定池化核、步长和扩张率，其中，所述池化核和所述步长相等；

依据所述池化核、所述步长和所述扩张率对所述第二预设数量维度目标特征在全卷积网络中进行扩张卷积、批归一化、整流线性单元和池化操作，得到所述输入语音的分类结果。

上述的方法，可选的，依据所述池化核、所述步长和所述扩张率对所述第二预设数量维度目标特征在全卷积网络中进行扩张卷积、批归一化、整流线性单元和池化操作，得到所述输入语音的分类结果，还包括：

获取分类过程中的损失函数，依据所述损失函数采用反向传播算法进行梯度更新。

上述的方法，可选的，将所述第二预设数量维度目标特征在全卷积网络中进行处理，得到所述输入语音的分类结果，还包括：

依据所述分类结果对语音唤醒、语音活动检测或者语音识别进行分析。

上述的方法，可选的，其特征在于，提取所述输入语音中第一预设数量维度第一特征，包括：

将所述输入语音划分为第三预设数量的帧；

将所述第三预设数量的帧进行预加重、加窗和傅里叶变换处理后，得到能量谱；

将所述能量谱进行滤波后得到所述第一预设数量维度第一特征。

上述的方法，可选的，将所述第一预设数量维度第一特征进行扩维，得到第二预设数量维度目标特征，包括：

将所述第一预设数量维度第一特征进行一阶差分处理得到第一预设数量维度第二特征；

将所述第一预设数量维度第二特征进行二阶差分处理得到第一预设数量维度第三特征；

其中，所述第一预设数量维度第一特征、所述第一预设数量维度第二特征和所述第一预设数量维度第三特征组成第二预设数量维度目标特征。

一种语音的密集分类装置，包括：

获取模块，用于获取输入语音；

提取模块，用于提取所述输入语音中第一预设数量维度第一特征；

扩充模块，用于将所述第一预设数量维度第一特征进行扩维，得到第二预设数量维度目标特征；

分类模块，用于将所述第二预设数量维度目标特征在全卷积网络中进行处理，得到所述输入语音的分类结果。

上述的装置，可选的，所述分类模块包括：

设定单元，用于设定池化核、步长和扩张率，其中，所述池化核和所述步长相等；

分类处理单元，用于依据所述池化核、所述步长和所述扩张率对所述第二预设数量维度目标特征在全卷积网络中进行扩张卷积、批归一化、整流线性单元和池化操作，得到所述输入语音的分类结果。

一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述的一种语音的密集分类方法。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述的一种语音的密集分类方法。

与现有技术相比，本发明包括以下优点：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种语音的密集分类方法流程图；

图2为本申请实施例公开的一种全卷积网络的结构示意图；

图3为本申请实施例公开的一种语音的密集分类装置结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

本发明公开了一种语音的密集分类方法及相关装置，应用在智能设备终端通过对输入语音进行分类，确定所述输入语音所属的类别，其中，所述分类方法可以应用在语音活动检测VAD(Voice Activity Detection)、自动语音识别ASR(Automatic SpeechRecognition)和语音唤醒KWS(keyword spotting)等分类过程中，所述分类方法的执行流程如图1所示，包括步骤：

S101、获取输入语音；

本发明实施例中，通过智能设备终端获取输入语音，其中，所述智能设备终端可以为智能音箱，智能机器人等可以进行语音分类的智能终端设备，其中，所述输入语音是一段语音且所述输入语音的帧长在10ms-30ms内是短时平稳的。

S102、提取所述输入语音中第一预设数量维度第一特征；

本发明实施例中，对所述输入语音进行分帧，由于所述输入语音帧长在10ms-30ms内是短时平稳的，超过这个时长就不是短时平稳信号了，而且帧移一般选取为帧长的一半，因此，采用以25ms的帧长和10ms的帧移为例进行分帧操作，本发明实施例以将所述输入语音分为t帧为例进行说明。为了突出帧的高频特征，分帧之后进行预加重，如公式(1)所示：

s′(n)＝s(n)-k·s(n-1) (1)

其中，k＝0.97；

s(n)-当前帧的特征；

s(n-1)-与当前帧相邻的上一帧的特征；

s′(n)-当前帧的高频特征；

对所述输入语音的各个帧进行预加重之后，进行加窗处理，本发明实施例中采用kaldi中的povey进行加窗处理，但是对加窗的具体形式不进行限定。

加窗以后采用短时傅里叶变换STFT，将所述各个帧的时域信号转换到频域，并计算能量谱，将所述能量谱经过第一预设数量的梅尔滤波器，得到第一预设数量维度第一特征。其中，所述第一预设的数量为20，将自然频率转换为梅尔频率并取对数，得到fliterbank20维第一特征。

S103、将所述第一预设数量维度第一特征进行扩维，得到第二预设数量维度目标特征；

本发明实施例中，将所述fliter bank20维第一特征加入一阶差分和二阶差分进行扩维，其中，对于一阶差分的处理，采用窗长为3即前后7个第一特征进行差分，公式如下：

其中：

n-窗长；

i的取值为1-20；

Δs(i)-21-40维的第二特征(第一预设数量维度第二特征)；

对于二阶差分的处理，处理的过程与一阶差分相同只是公式(2)i的取值为20-40，输出Δs(i)-41-60维的第三特征(第一预设数量维度第三特征)，其中，所述第一预设数量维度第一特征、所述第一预设数量维度第二特征和所述第一预设数量维度第三特征组成第二预设数量维度目标特征。其中，所述第一预设数量为20，所述第二预设数量为60，因此，所述第二预设数量维度目标特征为t×60维度的向量。

进一步的，采用交叉熵损失函数和反向传播算法对全卷积网络进行梯度更新。

S104、将所述第二预设数量维度目标特征在全卷积网络中进行处理，得到所述输入语音的分类结果。

本发明实施例中，所述全卷积网络结构示意图如图2所示，其中，所述第二预设的数量维度目标特征的在卷积层进行扩张卷积、批归一化(增加泛化能力)、整流线性单元(避免了梯度爆炸和梯度消失问题)和池化操作。采用的卷积核大小为5，卷积步长为1，边缘扩充(padding)方式是填零(例如：在第1层上下各填2个0扩充)。其中，所述第二预设数量维度目标特征在所述全卷积网络中进行扩张卷积和池化，池化的目的是为了进行频率维度的降维，卷积的目的是为了增大感受野。本发明实施例中以选择最大池化方式为例进行池化，对池化的具体方式不进行限定，池化的目的是将输出由t×60维度的向量，变为t×1维度的向量。假设选定池化核为2、步长为2，衰减的过程为60->30->15->7->3->1，因此，池化过程需要5个卷积层便可将频率维度由60维降为1维。图2所示的全卷积网络中共计9个卷积层，在对后续6-9卷积层进行操作时，只进行扩张卷积操作，卷积处理的是t×1维度的向量，不进行池化操作。依据扩张率{1，2，3，5，1，2，3，5，1}，可以计算出所述第二预设数量维度目标特征的感受野，在卷积层第一层，网络的感受野是卷积核的大小为5，在卷积层第二层，网络还是大小为5的卷积核，但扩张率为2，相当于9×9的卷积核(例如：卷积核[1，1，1，1，1]，扩张率为2相当于在每两个数中间添加(2-1)个0，于是卷积核变为[1，0，1，0，1，0，1，0，1])，因此在第二层网络的感受野为13，依此类推，9层网络的总感受野是89。若采用非扩张卷积，9层网络的总感受野是41，感受野计算公式为：

rf_new＝(rf_old-1)*s+ks (3)

其中，s-步幅；

ks-卷积核大小；

rf_new-当前层感受野；

rf_old-与当前层相邻的上一层的感受野；

卷积计算过程中采用的扩张率为{1，2，3，5，1，2，3，5，1}是为了减少棋盘效应(网格效应)的产生，但所述扩张率的取值不限于上述的固定取值，也可以为其它值。如图2所示的全卷积网络，和原始的全卷积网络不同，没有采用上采样层(反卷积层)，是因为考虑到若采用反卷积层，输入的大小必须是特定维度(例如2的整数次幂)，这样在池化后恢复的时候才能保证帧维度大小不变，本发明是通过扩张卷积而非池化的方式来增大感受野，可以保证输入的任意性。

进一步的，利用卷积操作的位移和感受野来实现逐帧位移和逐帧上下文，扩大感受野的同时减少了参数。

依据上述的计算方法得到频率维度为1，帧维度为t和类别个数为n矩阵，其中，所述类别个数表征所述输入语音帧每一个分帧对应的概率，n的取值与具体的应用场景有关，依据所述矩阵确定所述输入语音的分类结果。

针对所述分类结果进行举例说明，将上述的分类过程应用于自动语音识别过程中时，依据输入语音确定分类过程中的类别，将所述输入语音划分给对应的输入类别。例如输入语音为“请打开空调”，识别的结果可以为“请打开空调”、“请开空调”、“请打空调”和“请空调”等情况。

将上述的分类过程应用于语音唤醒检测时，例如输入语音为“请打开空调”，识别的结果可以为“请打开空调”、“请开空调”、“请打空调”和“请空调”等情况，在语音唤醒过程中，可以依据具体的唤醒规则，为识别结果评分，依据评分确定是否依据输入语音进行唤醒，本发明实施例中，对所述唤醒规则不进行限定。

将上述的分类过程应用于语音活动检测过程中时，将所述输入语音划分成两个，一类静音类，一类为语音类，其中，静音类可以为所述输入语音中的停顿部分，所述语音类可以为所述输入语音中存在声音信号的部分。识别结果要么为静音类要么为语音类，依据识别结果可以将所述输入语音中的静音类剔除，剩余纯语音部分用于后续分析。

进一步的，上述的处理过程是基于图2所示的全卷积网络的应用，针对图2所示的全卷积网络的训练的方法与应用过程相同，在训练过程中，将学习率设定为0.001024，共训练20代(epoch)，每隔5代学习率指数衰减一半，块大小(batch size)为64，优化算法是随机梯度下降算法(SGD)，损失函数是交叉熵损失函数，没有使用权重衰减。训练完成后，输入任意帧长>89帧(要大于感受野)的语音，即可输出相同帧长的预测值，不同的预测值代表不同分类结果。

本发明公开了一种语音的密集分类方法，包括：获取输入语音；提取所述输入语音中第一预设数量维度第一特征；将所述第一预设数量维度第一特征进行扩维，得到第二预设数量维度目标特征；将所述第二预设数量维度目标特征在全卷积网络中进行处理，得到所述输入语音的分类结果。上述的分类方法中，将所述输入语音作为整体进行分析，不存在重复，提高了感受野，进而提高了分类能力。

基于上述的一种语音的密集分类方法，本发明实施例中，还提供了一种语音的密集分类装置，所述分类装置的结构框图如图3所示，包括步骤：

获取模块201、提取模块202、扩充模块203和分类模块204。

其中，

所述获取模块201，用于获取输入语音；

所述提取模块202，用于提取所述输入语音中第一预设数量维度第一特征；

所述扩充模块203，用于将所述第一预设数量维度第一特征进行扩维，得到第二预设数量维度目标特征；

所述分类模块204，用于将所述第二预设数量维度目标特征在全卷积网络中进行处理，得到所述输入语音的分类结果。

本发明公开了一种语音的密集分类装置，包括：获取输入语音；提取所述输入语音中第一预设数量维度第一特征；将所述第一预设数量维度第一特征进行扩维，得到第二预设数量维度目标特征；将所述第二预设数量维度目标特征在全卷积网络中进行处理，得到所述输入语音的分类结果。上述的分类装置中，将所述输入语音作为整体进行分析，不存在重复，提高了感受野，进而提高了分类能力。

本发明实施例中，所述分类模块204包括：

设定单元205和分类处理单元206。

其中，

所述设定单元205，用于设定池化核、步长和扩张率，其中，所述池化核和所述步长相等；

所述分类处理单元206，用于依据所述池化核、所述步长和所述扩张率对所述第二预设数量维度目标特征在全卷积网络中进行扩张卷积、批归一化、整流线性单元和池化操作，得到所述输入语音的分类结果。

所述密集分类装置包括处理器和存储器，上述获取模块、提取模块、扩充模块和分类模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过，将所述输入语音作为整体进行分析，不存在重复，提高了感受野，进而提高了分类能力。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述语音的密集分类方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述语音的密集分类方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

获取输入语音；

提取所述输入语音中第一预设数量维度第一特征；

将所述输入语音划分为第三预设数量的帧；

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行有如下方法步骤的程序：

获取输入语音；

提取所述输入语音中第一预设数量维度第一特征；

将所述输入语音划分为第三预设数量的帧；

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种语音的密集分类方法及相关装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音的密集分类方法，其特征在于，包括：

获取输入语音；

提取所述输入语音中第一预设数量维度第一特征；

2.根据权利要求1所述的方法，其特征在于，将所述第二预设数量维度目标特征在全卷积网络中进行处理，得到所述输入语音的分类结果，包括：

3.根据权利要求2所述的方法，其特征在于，依据所述池化核、所述步长和所述扩张率对所述第二预设数量维度目标特征在全卷积网络中进行扩张卷积、批归一化、整流线性单元和池化操作，得到所述输入语音的分类结果，还包括：

4.根据权利要求1所述的方法，其特征在于，将所述第二预设数量维度目标特征在全卷积网络中进行处理，得到所述输入语音的分类结果，还包括：

5.根据权利要求1所述的方法，其特征在于，提取所述输入语音中第一预设数量维度第一特征，包括：

将所述输入语音划分为第三预设数量的帧；

6.根据权利要求1所述的方法，其特征在于，将所述第一预设数量维度第一特征进行扩维，得到第二预设数量维度目标特征，包括：

7.一种语音的密集分类装置，其特征在于，包括：

获取模块，用于获取输入语音；

8.根据权利要求7所述的装置，其特征在于，所述分类模块包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至6中任意一项所述的一种语音的密集分类方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至6中任意一项所述的一种语音的密集分类方法。