CN110047506A

CN110047506A - 一种基于卷积神经网络和多核学习svm的关键音频检测方法

Info

Publication number: CN110047506A
Application number: CN201910319987.6A
Authority: CN
Inventors: 朱宸都; 应娜; 李怡菲; 蔡哲栋; 刘兆森; 杨鹏
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Hangzhou Dianzi University; Hangzhou Electronic Science and Technology University
Priority date: 2019-04-19
Filing date: 2019-04-19
Publication date: 2019-07-23
Anticipated expiration: 2039-04-19
Also published as: CN110047506B

Abstract

本发明提出一种基于卷积神经网络和多核学习SVM的关键音频检测方法，包括步骤：S1：处理音频数据集，得到音频原始波形序列数据集和音频声谱图数据集；S2：建立提取音频原始波形序列特征的一维卷积神经网络和提取音频声谱图特征的二维卷积神经网络；S3：使用音频的原始波形序列数据集和声谱图数据集分别训练一维和二维卷积神经网络，得到对应的两个特征提取的网络模型；S4：输入音频的原始波形序列和声谱图分别至对应的两个网络模型，提取对应的特征；S5：输入两类特征至多核支持向量机，构建基于特征融合模型的核函数，进行音频分类。本发明所述检测方法将卷积神经网络从音频语谱图和音频原始波形中提取的特征进行融合，提高了检测识别准确率。

Description

一种基于卷积神经网络和多核学习SVM的关键音频检测方法

技术领域

本发明属于音频监控技术领域，主要涉及安防领域，具体来说，即安防领域下音频监控中的关键音频检测方法。

背景技术

随着多媒体技术发展，越来越多公共场所安装了音频监控以保障公共安全。声音信息中包含了不亚于图像信息的信息量，通过监控识别公共场合声音信息，可以迅速发现所关注的事件，从而做出应对。声音信息具有良好的实时性，对视频监控具有良好的辅助作用。

卷积神经网络本质上是多层感知机模型的简单扩展，然而对于他们系统架构的更改带来更多的不同，使得他们更加适合用于图片分类，典型的卷积神经网络包含众多的网络层堆叠在一起：输入层、一群卷基层和池化层，有限数量的全连接层和输出层。

多核学习是一种特征融合方法，可以处理异质或不规则数据，巨大的样本量，样本的不均匀分布以及其他问题，在多核学习中，多种特征被组织成组，并且每个组拥有自己的核函数。这些不同的核函数被组合成一个新的核函数，该核函数用于分类器中。

发明内容

本发明提出一种基于卷积神经网络和多核学习SVM的音频事件检测方法，利用多核学习方法将卷积神经网络从音频语谱图和音频原始波形中提取的特征进行融合的方法，以达到两种特征互补来提高音频事件检测识别准确率的目的。

为达到上述技术目的，本发明采取如下技术方案：

一种基于卷积神经网络和多核学习SVM的关键音频检测方法，包括步骤：

S1：处理音频数据集，得到音频原始波形序列数据集和音频声谱图数据集；

S2：分别建立提取音频原始波形序列特征的一维卷积神经网络和提取音频声谱图特征的二维卷积神经网络；

S3：使用音频的原始波形序列数据集和声谱图数据集分别训练一维卷积神经网络和二维卷积神经网络，得到对应的两个特征提取的网络模型；

S4：输入音频的原始波形序列和声谱图分别至对应的两个网络模型，提取得到对应的特征；

S5：输入两类特征至多核支持向量机，构建基于特征融合模型的核函数，进行音频分类。

进一步地，所述步骤S3具体实施步骤如下：

S3.1：音频原始波形序列输入至一维卷积神经网络中，输出该波形对应于各个音频类别的可能性，随着网络输入端和输出端的数据不断更新，更新网络参数，直到训练结束；

S3.2：音频声谱图输入至二维卷积神经网络中，输出该声谱图对应于各个音频类别的可能性，随着网络输入端和输出端的数据不断更新，更新网络参数，直到训练结束。

进一步地，所述数据集中含有多种类别音频事件，各个类音频数量大约相同，都是安全监控中的关键音频事件；

进一步地，所述一维和二维卷积神经网络结构中均包含卷基层，池化层和BatchNormalization层；

进一步地，所述多核支持向量机，采用不同的特征向量来得到不同的核函数，并将其线性加权获得新的核函数。

本发明与现有技术相比，具有如下优点：

1.本发明以深度学习的方法直接从音频的原始波形序列和声谱图中提取相应特征，使得特征对于目标类别更具有相关性。

2.本发明采用特征融合的方法，分别从音频时域特征和频域特征着手，使得特征具有互补性并且提高识别准确率。

附图说明

图1是本发明所述检测方法流程图；

图2是音频原始波形序列数据集示例图；

图3是音频声谱图数据集示例图；

图4是生成网络G₁和G₂的结构图；

图5是音频事件检测模型的流程图。

具体实施方式

以下参考附图，对本发明的进一步详细阐述。

现有音频事件检测模型，以分辨音频所属事件类别为训练目标。提取音频的原始波形序列和声谱图，得到音频的两种表示形式。如此，一个音频有两种储存方式，分别作为音频的的原始波形训练集D_waveform和音频的声谱图训练集D_spec。最后为数据集中的数据打上相应的所属音频事件的类别标签。数据集示例图，如图2和图3所示。

基于不同的数据集，搭建不同的卷积神经网络。音频原始波形序列为一维信号，搭建一维卷积神经网络G₁来提取音频原始波形中的特征进行音频事件的分类训练。音频声谱图为二维信号，搭建二维卷积神经网络G₂来提取声谱图的特征进行音频事件的分类训练。网络G₁和G₂的结构如图4所示。

每个音频对应的原始波形序列和声谱图分别输入至网络G₁和G₂，分别提取网络的全连接层数据x₁和x₂作为从音频的原始波形序列提取的特征向量和从音频声谱图提取的特征向量。两种特征向量训练得到不同的核函数，并将其线性加权获得新的核函数，得到基于多特征融合的多核支持向量机。利用两类特征向量训练此类多核支持向量机，音频数据集共N类音频事件，所以要训练N*(N-1)个分类器，测试的时候将样本音频的原始波形序列和声谱图通过网络G₁和G₂得到的特征向量依次送入这10个分类器，采用一对一投票策略，将判定次数最多的类别作为此样本的分类结果。

由此，本发明提出了基于卷积神经网络和多核学习SVM的关键音频检测模型。模型结构如图5所示。

如图1所示，一种基于卷积神经网络和多核学习SVM的关键音频检测方法，涉及安全监控中遇到的异常音频。其实现过程是：在音频的原始波形序列的数据集和声谱图数据集基础上训练得到一个一维卷积神经网络和一个二维卷积神经网络，提取两个网络的全连接层作为两个网络提取的两类特征的特征向量，采用不同的特征向量来得到不同的核函数，并将其线性加权获得新的核函数，以此训练多核支持向量机。测试时将输入网络提取样本音频的两类特征至训练的多核支持向量机，根据判定次数最多的类别作为此样本的分类结果。

本发明的优选实施例如下：

一种基于卷积神经网络和多核学习SVM的关键音频检测方法，按如下步骤进行：

1.处理含有N类音频事件的音频数据集，得到数据集中每个音频所对应的原始波形序列和声谱图，分别整理成单独的原始波形序列数据集D_waveform和声谱图数据集D_spec，并为数据集中的数据按音频事件的类别打上对应的标签Y；

2.建立一维卷积神经网络G₁和二维卷积神经网络G₂，两个网络的最后两层均为全连接层L_ful和Softmax层，网络输出为关于输入数据所属各个音频事件类别的概率向量P，以保证网络训练可靠性；

3.训练过程中，输入数据集D_waveform中数据到一维卷积神经网络，网络Softmax层输出属于各个音频事件类别的概率向量P。根据以下公式，更新网络参数：

训练过程中，输入数据集D_spec中数据到二维卷积神经网络，网络Softmax层输出属于各个音频事件类别的概率向量P。根据以下公式，更新网络参数：

4.根据步骤1,2,3可训练得到音频原始波形序列和音频声谱图的两个特征提取模型，分别输入原始波形序列和声谱图，提取网络G₁和G₂的全连接层作为训练得到的两类特征向量x₁和x₂；

5.根据步骤4得到的每段音频的特征向量x₁和x₂，采用不同的特征向量来得到不同的核函数，并将其线性加权获得新的核函数其中K_m(x_i,x_j)为第种特征所对应的核函数，d_m为这种特征对应的权值，由此得到基于多特征融合的多核支持向量机。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于卷积神经网络和多核学习SVM的关键音频检测方法，其特征在于，包括步骤：

S3：使用音频原始波形序列数据集和音频声谱图数据集分别训练一维卷积神经网络和二维卷积神经网络，得到对应的两个特征提取的网络模型；

2.如权利要求1所述的一种基于卷积神经网络和多核学习SVM的关键音频检测方法，其特征在于，所述步骤S3具体实施步骤如下：

3.如权利要求1所述的一种基于卷积神经网络和多核学习SVM的关键音频检测方法，其特征在于：

所述音频原始波形序列数据集和音频声谱图数据集均含有多种类别音频事件，每个类别的音频数量相同。

4.如权利要求1所述的一种基于卷积神经网络和多核学习SVM的关键音频检测方法，其特征在于：

所述一维卷积神经网络和二维卷积神经网络结构中均包含卷基层、池化层和BatchNormalization层。

5.如权利要求4所述的一种基于卷积神经网络和多核学习SVM的关键音频检测方法，其特征在于：

所述多核支持向量机，采用不同的特征向量来得到不同的核函数，并将其线性加权获得新的核函数。