CN112989106B

CN112989106B - 音频分类方法、电子设备以及存储介质

Info

Publication number: CN112989106B
Application number: CN202110537040.XA
Authority: CN
Inventors: 马路; 杨嵩
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-07-30
Anticipated expiration: 2041-05-18
Also published as: CN112989106A

Abstract

本发明公开了一种音频分类方法、电子设备以及存储介质，其中，该方法包括：确定待处理音频信号；将待处理音频信号输入至编码器；将编码器输出的音频信号输入至瓶颈层；将瓶颈层输出的音频信号输入至多尺度特征提取模块，提取输入尺度特征提取模块的音频信号的不同尺度特征；将不同尺度特征输入至分类器，获取对音频的分类结果。解决了现有技术中由于采用短时傅里叶变换将时域音频转换到时频域的二维语谱图进行音频分类，导致分类模型较大，且准确率和实时率不高的问题。在本发明中利用堆叠的一维膨胀卷积网络提取输入音频的多尺度特征，并利用不同尺度特征进行音频分类，模型结构小，且具有较高的准确率和实时率。

Description

音频分类方法、电子设备以及存储介质

技术领域

本发明涉及音频分类技术领域，具体涉及一种音频分类方法、电子设备以及存储介质。

背景技术

音频分类的目的在于将音频分成多个类别，例如：音乐声、人声、静音、背景音等。音频分类是很多音频或语音技术的前提，如：音频分割，需要将连续输入的音频流按照音频类别分割成多个音频段；语音活度检测，需要判决连续输入的音频流是否为人声。

音频分类是很多音频和语音处理的基础技术，分类的正确率和实时率直接影响后面音频分割和语音识别的准确率以及实时率。常规的音频分类模型多借鉴图像分类方法，采用时频二维卷积模型，首先将时域音频通过短时傅里叶变换为时频域的二维语谱图，之后采用二维卷积提取高维特征。由于采用短时傅里叶变换将时域音频转换到时频域的二维语谱图，因此真实音频中一部分信息会丢失，并且在较高准确率情况下实时率不高。

针对现有技术中由于采用短时傅里叶变换将时域音频转换到时频域的二维语谱图，导致分类模型较大，且准确率和实时率不高的问题，还未提出有效的解决方案。

发明内容

有鉴于此，本发明实施例提供了一种音频分类方法、电子设备以及存储介质，以解决现有技术中由于采用短时傅里叶变换将时域音频转换到时频域的二维语谱图进行音频分类，导致分类模型较大，且准确率和实时率不高的问题。

为此，本发明实施例提供了如下技术方案：

本发明第一方面，提供了一种音频分类方法，包括：

确定待处理音频信号；

将所述待处理音频信号输入至编码器；

将所述编码器输出的音频信号输入至瓶颈层；

将所述瓶颈层输出的音频信号输入至多尺度特征提取模块，提取输入多尺度特征提取模块的音频信号的不同尺度特征；

将所述不同尺度特征输入至分类器，获取对音频的分类结果。

可选地，所述方法还包括分类器，

所述分类器包含：注意力机制层、长短时记忆网络层、线性层以及Softmax层；

将所述不同尺度特征输入至所述注意力机制层，合并所述不同尺度特征，得到聚焦后的特征；

将所述聚焦后的特征输入至所述长短时记忆网络层；

将所述时序记忆特征输入至线性层，连接所有所述时序记忆特征；

将所述线性层处理后的音频信号输入至所述Softmax层，获得音频分类结果。

可选地，所述方法还包括注意力机制层，

所述注意力机制层包含：键、值、查询;

将输入所述分类器的所述不同尺度特征同时作为键和值，并且通过长短时记忆网络层的上一时刻的隐层特征获取查询，获得聚焦后的特征。

可选地，所述方法还包括：

所述多尺度特征提取模块由多组膨胀卷积网络级联构成，每一组包含多个级联的膨胀卷积块，并且每个所述膨胀卷积块的膨胀率按照2的指数倍增大。

可选地，所述膨胀卷积块包括：逐点卷积层、第一PReLU激活函数层、第一归一化层、深度卷积层、第二PReLU激活函数层、第二归一化层以及第一一维卷积层；

通过所述逐点卷积层、所述第一PReLU激活函数层、所述第一归一化层、所述深度卷积层、所述第二PReLU激活函数层以及所述第二归一化层依次对第一音频信号进行处理，获得第二音频信号；

将所述第二音频信号输入至所述第一一维卷积层与第二一维卷积层，获得第三音频信号与第四音频信号；

将所述第三音频信号输入至所述分类器；

将所述第四音频信号与所述第一音频信号叠加，获得第五音频信号，并提高分类网络深度；

将所述第五音频信号输入至下一个所述膨胀卷积块。

可选地，在训练所述音频分类网络时，所述方法还包括：通过交叉熵损失函数对所述音频分类网络进行反向传播，用于修正分类网络参数。

本发明第二方面，提供了一种音频分类装置，包括：

确定模块，用于确定待处理音频信号；

编码模块，用于将所述待处理音频信号输入至编码器；

输出模块，用于将所述编码器输出的音频信号输入至瓶颈层；

多尺度特征提取模块，用于将所述瓶颈层输出的音频信号输入至多尺度特征提取模块，提取输入多尺度特征提取模块的音频信号的不同尺度特征；

分类模块，用于将所述不同尺度特征输入至分类器，获取对音频的分类结果。

可选地，所述分类模块包含：注意力机制层、长短时记忆网络层、线性层以及Softmax层；

聚焦单元，用于将所述不同尺度特征输入至所述注意力机制层，合并所述不同尺度特征，得到聚焦后的特征；

第一获取单元，用于将所述聚焦后的特征输入至所述长短时记忆网络层，获取时序记忆特征；

输入单元，用于将所述时序记忆特征输入至线性层；

第二获取单元，用于将所述线性层处理后的音频信号输入至所述Softmax层，获得音频分类结果。

本发明第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述第一方面中任一所述的音频分类方法。

本发明第四方面，提供了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述第一方面中任一所述的一种音频分类方法。

本发明实施例技术方案，具有如下优点：

本发明实施例提供了一种音频分类方法、电子设备以及存储介质，其中，该方法包括：确定待处理音频信号；将待处理音频信号输入至编码器；将编码器输出的音频信号输入至瓶颈层；将瓶颈层输出的音频信号输入至多尺度特征提取模块，提取输入多尺度特征提取模块的音频信号的不同尺度特征；将该不同尺度特征输入至分类器，获取对音频的分类结果。解决了现有技术中由于采用短时傅里叶变换将时域音频转换到时频域的二维语谱图进行音频分类，导致分类模型较大，且准确率和实时率不高的问题。在本发明实施例中利用堆叠的一维膨胀卷积网络提取输入音频的多尺度特征，并利用多尺度特征进行音频分类，模型结构小，且具有较高的准确率和实时率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的音频分类方法的流程图；

图2是根据本发明实施例的音频分类网络的结构示意图；

图3是根据本发明实施例的膨胀卷积块结构示意图；

图4是根据本发明实施例的音频分类网络配置表；

图5是根据本发明实施例的音频分类装置的结构框图；

图6是根据本发明实施例的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请中，“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本申请，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本申请。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本申请的描述变得晦涩。因此，本申请并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

根据本发明实施例，提供一种音频分类方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

在本实施例中提供了一种音频分类方法实施例，可用于音频分类系统，例如语音识别系统。图1是根据本发明实施例的音频分类方法的流程图，并且图2是根据本发明实施例的音频分类网络的结构示意图，如图1与图2所示，音频分类流程包括如下步骤：

步骤S101，确定待处理音频信号。待处理音频信号为混合音频信号，可以被本发明实施例中的分类网络处理。

步骤S102，将待处理音频信号输入至编码器（Encoder）。具体地，编码器由一个一维卷积构成，由此将待处理音频信号有一维时域变换到二维空间，其中二维空间包括音频的时域特征与该音频编码模块的通道。

步骤S103，将编码器输出的音频信号输入至瓶颈层（Bottleneck）。具体地，瓶颈层包含一个层归一化层与一个一维卷积层，用于将输入至瓶颈层的音频信号在通道或时域做归一化以及减少计算量。

步骤S104，将瓶颈层输出的音频信号输入至多尺度特征提取模块（Multi-ScaleFeature Extraction），提取输入多尺度特征提取模块的音频信号的不同尺度特征。具体地，通过多尺度特征提取模块中多组膨胀卷积网络提取出输入至该模块的音频信号的特征，并将提取到的特征输出。

步骤S105，将该不同尺度特征输入至分类器（Classifier），获取对音频的分类结果。具体地，通过分类器中的Softmax层实现对输入至该层的音频信号进行分类，并获取对音频的分类结果。

通过上述步骤，由于现有的音频分类方法通常是借鉴图像分类方法，采用时频二维卷积模型，首先将时域音频通过短时傅里叶变换为时频域的二维语谱图，之后采用二维卷积提取高维特征，进而实现音频分类。区别于现有技术中的音频分类方法，在本发明实施例中，通过堆叠多个膨胀率不同的多个卷积块，提取多尺度信息，模型简单，实时率高，且分类准确率高。这就解决了现有技术中由于采用短时傅里叶变换将时域音频转换到时频域的二维语谱图进行音频分类，导致分类模型较大，且准确率和实时率不高的问题。在本发明实施例中利用堆叠的一维膨胀卷积网络提取输入音频的多尺度特征，并利用多尺度特征进行音频分类，模型结构小，且具有较高的准确率和实时率。

为了说明分类器的构成，在一个可选实施例中，分类器包含：注意力机制层（Attention）、长短时记忆网络层（LSTM Layers）、线性层（Linear）以及Softmax层。将不同尺度特征输入至注意力机制层，合并不同尺度特征，得到聚焦后的特征。具体地，注意力机制是一种信息分配机制或信息对齐机制。通过注意力机制层对输入的不同尺度特征抉择重要程度，并且通过加权求和的方式获取特征的有效性。

将聚焦后的特征输入至该长短时记忆网络层，获取时序记忆特征。具体地，相较于传统的神经网络而言，长短时记忆网络层非常适合对于与时间序列高度相关音频信号的处理，由此利用长短时记忆网络层对将要分类的音频信号进行处理，使得音频信号更易于分类，避免出现错误。

将时序记忆特征输入至线性层。具体地，线性层的每一个结点与长短时记忆网络层的每一个结点相连，用于将该时序记忆特征综合起来。同时，线性层与全连接层的作用相同。

将线性层处理后的音频信号输入至该Softmax层，获得音频分类结果。具体地，利用Softmax函数对线性层处理后的音频信号进行分类，计算简单，效果显著。

为了进一步说明注意力机制层，在一个可选实施例中，该注意力机制层包含：键（Key）、值（Value）、查询（Query）。将输入分类器的不同尺度特征（Source）同时作为键和值，并且通过长短时记忆网络层的上一时刻的隐层特征获取查询，获得聚焦后的特征。具体地，将Source中的构成元素可以想象成是由一系列的<Key,Value>数据对构成，通过计算Query和各个Key的相似性或者相关性，得到每个Key对应Value的权重系数，然后对Value进行加权求和，进而获得Attention的输出数值。因此实质上Attention机制是对Source中元素的Value值进行加权求和，而Query和Key用来计算对应Value的权重系数。

为了说明多尺度特征提取模块，在一个可选实施例中，多尺度特征提取模块由多组膨胀卷积网络级联构成，每一组包含多个级联的膨胀卷积块，并且每个所述膨胀卷积块的膨胀率按照2的指数倍增大。具体地，多尺度特征提取模块是由多个膨胀卷积块级联构成。其中，膨胀卷积块为因果情况时，填充0的数量为：

(dilation*(kernel_size-1))/2，

非因果情况时，填充0的数量为：

dilation*(kernel_size-1)；

dilation表示膨胀率，kernel_size表示卷积核大小，X表示每组膨胀网络中该膨胀卷积快的数量，i表示第i个卷积块，其中

,i最大取值为X。

为了进一步说明膨胀卷积块，在一个可选实施例中，每个膨胀卷积块为一个膨胀卷积。其中，膨胀卷积（Dilated Convolution）是在标准卷积（Standard Convolution）的卷积图（Convolution map）的基础上注入空洞，即填充0，以此来增加感受野（receptionfield）。因此，膨胀卷积在标准卷积的基础上多了一个超参数（hyper-parameter），称之为膨胀率（dilation rate），并且膨胀率指的是卷积核（kernel）的间隔数量。在本发明实施例中，通过判断膨胀卷积块是否为因果情况而填充不同数量的0，进而达到增加感受野而不增加计算量的目的。

为了说明膨胀卷积块的结构，在一个可选的实施例中，如图3所示，膨胀卷积块包括：逐点卷积层、第一PReLU激活函数层、第一归一化层、深度卷积层、第二PReLU激活函数层、第二归一化层以及第一一维卷积层。通过逐点卷积层、第一PReLU激活函数层、第一归一化层、深度卷积层、第二PReLU激活函数层以及第二归一化层依次对第一音频信号进行处理，获得第二音频信号。具体地，第一音频信号包括瓶颈层输出的音频信号与上一膨胀卷积块输入至该膨胀卷积块的信号。在本发明实施例中，膨胀卷积块为通过利用深度可分离卷积替代常规卷积，即拆分成一个逐点卷积，用1x1-Conv表示，和一个深度卷积，用D-Conv表示，对输入的音频信号进行处理。通过归一化层保证经过激活函数处理后的音频信号尺度不变，并且采用PReLU（parametric rectified linear unit）作为激活函数，对音频信号进行非线性处理，增加非线性拟合能力。PReLU函数表示为：

其中，x表示输入至该激活函数的音频信号，

为负值部分的斜率。

将第二音频信号输入至第一一维卷积层与第二一维卷积层，获得第三音频信号与第四音频信号。将第三音频信号输入至分类器。由此将该膨胀卷积快提取到的音频特征输入至分类器。

将第四音频信号与第一音频信号叠加，获得第五音频信号，并提高分类网络深度。将第五音频信号输入至下一个该膨胀卷积块。

在一个可选的实施例中，音频分类网络需要进行网络配置，其网络配置表如图4所示。其中，F表示Encoder的输出通道数；L表示Encoder的卷积核大小；瓶颈层输出通道数为B，多尺度特征提取模块的每一组1-D Conv Block数量为X，一共堆叠了R组；分类器的输入为不同尺度的特征，LSTM层的输出经过线性层之后，输出通道数为C，即：将音频分为C个类别。

在本实施例中还提供了一种音频分类装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种音频分类装置，如图5所示，包括：

确定模块51，用于确定待处理音频信号；

编码模块52，用于将待处理音频信号输入至编码器；

输出模块53，用于将编码器输出的音频信号输入至瓶颈层，；

多尺度特征提取模块54，用于将瓶颈层输出的音频信号输入至多尺度特征提取模块，提取输入多尺度特征提取模块的音频信号的不同尺度特征；

分类模块55，用于将不同尺度特征输入至分类器，获取对音频的分类结果。

可选地，该分类模块包含：注意力机制层、长短时记忆网络层、线性层以及Softmax层；

聚焦单元，用于将不同尺度特征输入至该注意力机制层，合并所述不同尺度特征，得到聚焦后的特征；

第一获取单元，用于将聚焦后的特征输入至长短时记忆网络层，获取时序记忆特征；

输入单元，用于将时序记忆特征输入至线性层；

第二获取单元，用于将线性层处理后的音频信号输入至所述Softmax层，获得音频分类结果。

本实施例中的音频分类装置是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本发明实施例还提供一种电子设备，具有上述图5所示的音频分类装置。

请参阅图6，图6是本发明可选实施例提供的电子设备结构示意图，如图6所示，该电子设备可以包括：至少一个处理器601，例如CPU（Central Processing Unit，中央处理器），至少一个通信接口603，存储器606，至少一个通信总线602。其中，通信总线602用于实现这些组件之间的连接通信。其中，通信接口603可以包括显示屏（Display）、键盘（Keyboard），可选通信接口603还可以包括标准的有线接口、无线接口。存储器606可以是高速RAM存储器（Random Access Memory，随机存取存储器），也可以是非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。存储器606可选的还可以是至少一个位于远离前述处理器601的存储装置。其中处理器601可以结合图5所描述的装置，存储器606中存储应用程序，且处理器601调用存储器606中存储的程序代码，以用于执行上述任一方法步骤。

其中，通信总线602可以是外设部件互连标准（peripheral componentinterconnect，简称PCI）总线或扩展工业标准结构（extended industry standardarchitecture，简称EISA）总线等。通信总线602可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器606可以包括易失性存储器（英文：volatile memory），例如随机存取存储器（英文：random-access memory，缩写：RAM）；存储器也可以包括非易失性存储器（英文：non-volatile memory），例如快闪存储器（英文：flash memory），硬盘（英文：hard diskdrive，缩写：HDD）或固态硬盘（英文：solid-state drive，缩写：SSD）；存储器606还可以包括上述种类的存储器的组合。

其中，处理器601可以是中央处理器（英文：central processing unit，缩写：CPU），网络处理器（英文：network processor，缩写：NP）或者CPU和NP的组合。

其中，处理器601还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路（英文：application-specific integrated circuit，缩写：ASIC），可编程逻辑器件（英文：programmable logic device，缩写：PLD）或其组合。上述PLD可以是复杂可编程逻辑器件（英文：complex programmable logic device，缩写：CPLD），现场可编程逻辑门阵列（英文：field-programmable gate array，缩写：FPGA），通用阵列逻辑（英文：generic arraylogic, 缩写：GAL）或其任意组合。

可选地，存储器604还用于存储程序指令。处理器601可以调用程序指令，实现如本申请图1和2实施例中所示的音频分类方法。

本发明实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的音频分类方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、快闪存储器（Flash Memory）、硬盘（Hard DiskDrive，缩写：HDD）或固态硬盘（Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种音频分类方法，其特征在于，包括：

确定待处理音频信号；

将所述待处理音频信号输入至编码器；

将所述编码器输出的音频信号输入至瓶颈层；

将所述不同尺度特征输入至分类器，获取对音频的分类结果；

所述多尺度特征提取模块由多组膨胀卷积网络级联构成，每一组包含多个级联的膨胀卷积块，并且每个所述膨胀卷积块的膨胀率按照2的指数倍增大；

所述膨胀卷积块包括：逐点卷积层、第一PReLU激活函数层、第一归一化层、深度卷积层、第二PReLU激活函数层、第二归一化层以及第一一维卷积层；

将所述第三音频信号输入至所述分类器；

将所述第五音频信号输入至下一个所述膨胀卷积块。

2.根据权利要求1所述的音频分类方法，其特征在于，所述分类器包含：注意力机制层、长短时记忆网络层、线性层以及Softmax层；

将所述聚焦后的特征输入至所述长短时记忆网络层，获取时序记忆特征；

将所述时序记忆特征输入至线性层；

3.根据权利要求2所述的音频分类方法，其特征在于，

所述注意力机制层包含：键、值、查询;

4.根据权利要求1-3中任一所述的音频分类方法，其特征在于，在训练音频分类网络时，所述方法还包括：通过交叉熵损失函数对所述音频分类网络进行反向传播，用于修正分类网络参数。

5.一种音频分类装置，其特征在于，包括：

确定模块，用于确定待处理音频信号；

编码模块，用于将所述待处理音频信号输入至编码器；

分类模块，用于将所述不同尺度特征输入至分类器，获取对音频的分类结果；

将所述第三音频信号输入至所述分类器；

将所述第五音频信号输入至下一个所述膨胀卷积块。

6.根据权利要求5所述的音频分类装置，其特征在于，所述分类模块包含：注意力机制层、长短时记忆网络层、线性层以及Softmax层；

输入单元，用于将所述时序记忆特征输入至线性层；

7.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述权利要求1-4中任一所述的音频分类方法。

8.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现上述权利要求1-4中任一所述的音频分类方法。