CN110808070B

CN110808070B - 音频监控中基于深度随机森林的声音事件分类方法

Info

Publication number: CN110808070B
Application number: CN201911112306.5A
Authority: CN
Inventors: 余春艳; 刘煌; 李明达
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2022-05-06
Anticipated expiration: 2039-11-14
Also published as: CN110808070A

Abstract

本发明涉及一种音频监控中基于深度随机森林的声音事件分类方法，包括以下步骤：步骤S1：从监控的音频文件中提取梅尔能量特征，并将其处理成特征序列；步骤S2:对每一类声音事件训练一个深度随机森林分类器,通过组合多个二分类模型，形成最终的深度随机森林声音事件分类模型；步骤S3:使用最终的深度随机森林声音事件分类模型对声音事件进行预测，得到声音事件的预测概率;步骤S4:根据得到的预测概率，进行事件分类后处理,得到声音事件分类结果。本发明基于随机森林的音频事件浅层检测方法和深度结构相结合，能够有效的对重叠声音事件进行检测并快速分类。

Description

音频监控中基于深度随机森林的声音事件分类方法

技术领域

本发明涉及监控系统中音频信号处理方法，具体涉及一种音频监控中基于深度随机森林的声音事件分类方法。

背景技术

随着移动互联网技术的快速发展，人们可获取的音频数据呈爆炸式增长。如何从庞大、杂乱的音频数据中找出感兴趣的音频信息，是目前许多研究者关注的焦点。音频事件分类与检测是音频信息检索的重要基础，可以帮助解决感兴趣音频事件检出、分类等问题。

安全监控系统是维护社会秩序、打击犯罪的强有力手段。传统的安全监控主要是基于视频图像。虽然城市中摄像头越来越多，但是安全保障还有待进一步提升。传统视频监控不能对某些异常情况及时地发出警报，而且需要一定的外部条件如光照、目标物体、清晰度等。基于音频事件检测的音频监控能够实时检测现场的声音，对一些异常音频事件如尖叫声、枪声进行监测，弥补视频监控的不足。因此，音频监控可以辅助视频监控，结合两者的优势组成多模安全监控系统，音频事件检测是音频监控的核心模块。

发明内容

有鉴于此，本发明的目的在于提供一种音频监控中基于深度随机森林的声音事件分类方法，能够有效的对重叠声音事件进行检测并快速分类。

为实现上述目的，本发明采用如下技术方案：

一种音频监控中基于深度随机森林的声音事件分类方法，包括以下步骤：

步骤S1：从监控的音频文件中提取梅尔能量特征，并将其处理成特征序列；

步骤S2:对每一类声音事件训练一个深度随机森林分类器,通过组合多个二分类模型，形成最终的深度随机森林声音事件分类模型；;

步骤S3:使用最终的深度随机森林声音事件分类模型对声音事件进行预测，得到声音事件的预测概率;

步骤S4:根据得到的预测概率，进行事件分类后处理,得到声音事件分类结果。

进一步的，所述步骤S1具体为：

步骤S11:将音频监控文件使用时长1.2秒，每隔0.02秒的滑动窗口进行切分，得到N个音频片;

步骤S12:将切分得到的每个音频片段内，按照帧长40ms，帧移20ms进行划分，得到61个音频帧；

步骤S13:对每个音频帧计算梅尔能量特征，得到每帧123维特征；

步骤S14:将61帧合成一个数据，最终得到N*61*123的特征，将得到的特征数据

处理成N*7503维序列格式，构成特征序列。

进一步的，所述训练深度随机森林分类器,具体为：

步骤S21:对于级联森林中第一层级联层，输入7503维原始特征；通过对森林中所有树求平均，该森林将输出一个2维类预测概率；

步骤S22:若每层级联层包含12个森林，则在第一层级联层的末端将得到7527维的特征向量，由12个2维类向量级联7503维原始特征向量得到；

步骤S23:每个级联层接收其前一级处理的特征信息，并且级联原始特征后作为下一层的输入特征，下一级联层使用该输入特征进行训练，级联层层数将持续进行纵向深度拓展。

步骤S24:每个个级联层训练完成后，将使用验证集判断性能是否得到提升，没有提升则级联层层数将停止纵向深度拓展。

进一步的，所述步骤S3具体为：

步骤S31:通过计算不同类别的训练样例在叶子结点上所占的百分比，每一颗树都会产生一个预测概率;

步骤S32:将同一个森林的所有树的预测概率做平均，输出类预测概率。

进一步的，所述步骤S4具体为：

步骤S41:将预测概率阈值设置为0.5，判断每1.2秒时长的音频片段数据里某一声音事件类出现次数是否大于等于10，若是，则分类出该声音事件的类别；

步骤S42:对事件进行平滑处理，合并相邻连续事件，同时设置允许存在的最小事件长度为0.05秒，如果事件长度小于0.05秒，则删除该事件，最终得到分类结果。

本发明与现有技术相比具有以下有益效果：

本发明基于随机森林的音频事件浅层检测方法和深度结构相结合，能够有效的对重叠声音事件进行检测并快速分类。

附图说明

图1是本发明的方法流程示意框图；

图2是本发明的实施例中训练深度随机森林流程图；

图3是本发明的实施例中类预测概率生成图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本实施例中提供一种音频监控中基于深度随机森林的声音事件分类方法，使用TUT2017和TUT2016声音事件数据集是DCASE2017（Detection andClassification of Acoustic Scenes and Events）和DCASE2016挑战公开的数据集，分别是室外街道和室内家庭真实环境下的音频记录，各自包含24个和10个音频文件，包含12种声音事件类型；每个音频文件声音长度为3-5分钟，双声道“.wav”格式，采样率为44.1kHz，量化精度为24位。

具体包括以下步骤：

处理成N*7503维序列格式，构成特征序列。

步骤S3:给定音频监控文件F，按照步骤S2完成划分，得到N*7503维的输入矩阵，使用组合的深度随机森林声音事件分类模型进行预测，得到N个音频片段中包含的声音事件的预测概率；

步骤S4:每50个音频片段为一组，对应音频持续区间为该组第一个音频片段的持续区间。每组进行一次声音事件分类，将预测概率阈值设置为0.5，判断当前50个片段数据里某一声音事件类出现次数是否大于等于10，是的话，则分类出该声音事件的类别。同时每个分组内进行一次事件平滑处理，合并相邻音频片段中的连续事件，同时设置允许存在的最小事件长度为0.05秒，如果合并处理后，单一事件持续长度小于0.05秒，则删除该事件。最终合并所有分组的事件分类结果，得到音频监控文件F中包含的声音事件种类以及持续区间。

在本实施例中，所述训练深度随机森林分类器,具体为：

在本实施例中，所述步骤S2中，为了支持多样性，该结构中每层级联层使用了随机森林和完全随机森林两种不同类型的随机森林。为简单起见，图2中给出每一级的包含两棵不同类型的随机森林，其中完全随机森林不是随机选择一个特征用来划分，而是考虑全部特征作为候选特征，选择划分后基尼指数最小的特征。同一级联层中的每个深度随机森林输出二维类预测概率，将类预测概率级联原始特征后，输入到下一级联层。

在本实施例中，所述步骤S3,类预测概率生成如图3所示，级联层中的每一个森林，由随机树集成而成，通过计算不同类别的训练样例在叶子结点上所占的百分比，每一颗树都会产生一个预测概率。然后，同一个森林的所有树的预测概率做平均，最后输出类预测概率。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种音频监控中基于深度随机森林的声音事件分类方法，其特征在于，包括以下步骤：

步骤S2:对每一类声音事件训练一个深度随机森林分类器,通过组合多个二分类模型，形成最终的深度随机森林声音事件分类模型；

步骤S4:根据得到的预测概率，进行事件分类后处理,得到声音事件分类结果；

所述步骤S1具体为：

处理成N*7503维序列格式，构成特征序列；

所述训练深度随机森林分类器,具体为：

步骤S23:每个级联层接收其前一级处理的特征信息，并且级联原始特征后作为下一层的输入特征，下一级联层使用该输入特征进行训练，级联层层数将持续进行纵向深度拓展；

步骤S24:每个个级联层训练完成后，将使用验证集判断性能是否得到提升，没有提升则级联层层数将停止纵向深度拓展；

所述步骤S3具体为：

步骤S32:将同一个森林的所有树的预测概率做平均，输出类预测概率；

所述步骤S4具体为：