CN110808070B - 音频监控中基于深度随机森林的声音事件分类方法 - Google Patents
音频监控中基于深度随机森林的声音事件分类方法 Download PDFInfo
- Publication number
- CN110808070B CN110808070B CN201911112306.5A CN201911112306A CN110808070B CN 110808070 B CN110808070 B CN 110808070B CN 201911112306 A CN201911112306 A CN 201911112306A CN 110808070 B CN110808070 B CN 110808070B
- Authority
- CN
- China
- Prior art keywords
- sound event
- audio
- random forest
- cascade
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 32
- 238000012544 monitoring process Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims abstract description 10
- 238000013145 classification model Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000012805 post-processing Methods 0.000 claims abstract description 3
- 239000013598 vector Substances 0.000 claims description 9
- 238000012935 Averaging Methods 0.000 claims description 5
- 239000012634 fragment Substances 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 7
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明涉及一种音频监控中基于深度随机森林的声音事件分类方法,包括以下步骤:步骤S1:从监控的音频文件中提取梅尔能量特征,并将其处理成特征序列;步骤S2:对每一类声音事件训练一个深度随机森林分类器,通过组合多个二分类模型,形成最终的深度随机森林声音事件分类模型;步骤S3:使用最终的深度随机森林声音事件分类模型对声音事件进行预测,得到声音事件的预测概率;步骤S4:根据得到的预测概率,进行事件分类后处理,得到声音事件分类结果。本发明基于随机森林的音频事件浅层检测方法和深度结构相结合,能够有效的对重叠声音事件进行检测并快速分类。
Description
技术领域
本发明涉及监控系统中音频信号处理方法,具体涉及一种音频监控中基于深度随机森林的声音事件分类方法。
背景技术
随着移动互联网技术的快速发展,人们可获取的音频数据呈爆炸式增长。如何从庞大、杂乱的音频数据中找出感兴趣的音频信息,是目前许多研究者关注的焦点。音频事件分类与检测是音频信息检索的重要基础,可以帮助解决感兴趣音频事件检出、分类等问题。
安全监控系统是维护社会秩序、打击犯罪的强有力手段。传统的安全监控主要是基于视频图像。虽然城市中摄像头越来越多,但是安全保障还有待进一步提升。传统视频监控不能对某些异常情况及时地发出警报,而且需要一定的外部条件如光照、目标物体、清晰度等。基于音频事件检测的音频监控能够实时检测现场的声音,对一些异常音频事件如尖叫声、枪声进行监测,弥补视频监控的不足。因此,音频监控可以辅助视频监控,结合两者的优势组成多模安全监控系统,音频事件检测是音频监控的核心模块。
发明内容
有鉴于此,本发明的目的在于提供一种音频监控中基于深度随机森林的声音事件分类方法,能够有效的对重叠声音事件进行检测并快速分类。
为实现上述目的,本发明采用如下技术方案:
一种音频监控中基于深度随机森林的声音事件分类方法,包括以下步骤:
步骤S1:从监控的音频文件中提取梅尔能量特征,并将其处理成特征序列;
步骤S2:对每一类声音事件训练一个深度随机森林分类器,通过组合多个二分类模型,形成最终的深度随机森林声音事件分类模型;;
步骤S3:使用最终的深度随机森林声音事件分类模型对声音事件进行预测,得到声音事件的预测概率;
步骤S4:根据得到的预测概率,进行事件分类后处理,得到声音事件分类结果。
进一步的,所述步骤S1具体为:
步骤S11:将音频监控文件使用时长1.2秒,每隔0.02秒的滑动窗口进行切分,得到N个音频片;
步骤S12:将切分得到的每个音频片段内,按照帧长40ms,帧移20ms进行划分,得到61个音频帧;
步骤S13:对每个音频帧计算梅尔能量特征,得到每帧123维特征;
进一步的,所述训练深度随机森林分类器,具体为:
步骤S21:对于级联森林中第一层级联层,输入7503维原始特征;通过对森林中所有树求平均,该森林将输出一个2维类预测概率;
步骤S22:若每层级联层包含12个森林,则在第一层级联层的末端将得到7527维的特征向量,由12个2维类向量级联7503维原始特征向量得到;
步骤S23:每个级联层接收其前一级处理的特征信息,并且级联原始特征后作为下一层的输入特征,下一级联层使用该输入特征进行训练,级联层层数将持续进行纵向深度拓展。
步骤S24:每个个级联层训练完成后,将使用验证集判断性能是否得到提升,没有提升则级联层层数将停止纵向深度拓展。
进一步的,所述步骤S3具体为:
步骤S31:通过计算不同类别的训练样例在叶子结点上所占的百分比,每一颗树都会产生一个预测概率;
步骤S32:将同一个森林的所有树的预测概率做平均,输出类预测概率。
进一步的,所述步骤S4具体为:
步骤S41:将预测概率阈值设置为0.5,判断每1.2秒时长的音频片段数据里某一声音事件类出现次数是否大于等于10,若是,则分类出该声音事件的类别;
步骤S42:对事件进行平滑处理,合并相邻连续事件,同时设置允许存在的最小事件长度为0.05秒,如果事件长度小于0.05秒,则删除该事件,最终得到分类结果。
本发明与现有技术相比具有以下有益效果:
本发明基于随机森林的音频事件浅层检测方法和深度结构相结合,能够有效的对重叠声音事件进行检测并快速分类。
附图说明
图1是本发明的方法流程示意框图;
图2是本发明的实施例中训练深度随机森林流程图;
图3是本发明的实施例中类预测概率生成图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本实施例中提供一种音频监控中基于深度随机森林的声音事件分类方法,使用TUT2017和TUT2016声音事件数据集是DCASE2017(Detection andClassification of Acoustic Scenes and Events)和DCASE2016挑战公开的数据集,分别是室外街道和室内家庭真实环境下的音频记录,各自包含24个和10个音频文件,包含12种声音事件类型;每个音频文件声音长度为3-5分钟,双声道“.wav”格式,采样率为44.1kHz,量化精度为24位。
具体包括以下步骤:
步骤S1:从监控的音频文件中提取梅尔能量特征,并将其处理成特征序列;
步骤S11:将音频监控文件使用时长1.2秒,每隔0.02秒的滑动窗口进行切分,得到N个音频片;
步骤S12:将切分得到的每个音频片段内,按照帧长40ms,帧移20ms进行划分,得到61个音频帧;
步骤S13:对每个音频帧计算梅尔能量特征,得到每帧123维特征;
步骤S2:对每一类声音事件训练一个深度随机森林分类器,通过组合多个二分类模型,形成最终的深度随机森林声音事件分类模型;;
步骤S3:给定音频监控文件F,按照步骤S2完成划分,得到N*7503维的输入矩阵,使用组合的深度随机森林声音事件分类模型进行预测,得到N个音频片段中包含的声音事件的预测概率;
步骤S4:每50个音频片段为一组,对应音频持续区间为该组第一个音频片段的持续区间。每组进行一次声音事件分类,将预测概率阈值设置为0.5,判断当前50个片段数据里某一声音事件类出现次数是否大于等于10,是的话,则分类出该声音事件的类别。同时每个分组内进行一次事件平滑处理,合并相邻音频片段中的连续事件,同时设置允许存在的最小事件长度为0.05秒,如果合并处理后,单一事件持续长度小于0.05秒,则删除该事件。最终合并所有分组的事件分类结果,得到音频监控文件F中包含的声音事件种类以及持续区间。
在本实施例中,所述训练深度随机森林分类器,具体为:
步骤S21:对于级联森林中第一层级联层,输入7503维原始特征;通过对森林中所有树求平均,该森林将输出一个2维类预测概率;
步骤S22:若每层级联层包含12个森林,则在第一层级联层的末端将得到7527维的特征向量,由12个2维类向量级联7503维原始特征向量得到;
步骤S23:每个级联层接收其前一级处理的特征信息,并且级联原始特征后作为下一层的输入特征,下一级联层使用该输入特征进行训练,级联层层数将持续进行纵向深度拓展。
步骤S24:每个个级联层训练完成后,将使用验证集判断性能是否得到提升,没有提升则级联层层数将停止纵向深度拓展。
在本实施例中,所述步骤S2中,为了支持多样性,该结构中每层级联层使用了随机森林和完全随机森林两种不同类型的随机森林。为简单起见,图2中给出每一级的包含两棵不同类型的随机森林,其中完全随机森林不是随机选择一个特征用来划分,而是考虑全部特征作为候选特征,选择划分后基尼指数最小的特征。同一级联层中的每个深度随机森林输出二维类预测概率,将类预测概率级联原始特征后,输入到下一级联层。
在本实施例中,所述步骤S3,类预测概率生成如图3所示,级联层中的每一个森林,由随机树集成而成,通过计算不同类别的训练样例在叶子结点上所占的百分比,每一颗树都会产生一个预测概率。然后,同一个森林的所有树的预测概率做平均,最后输出类预测概率。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (1)
1.一种音频监控中基于深度随机森林的声音事件分类方法,其特征在于,包括以下步骤:
步骤S1:从监控的音频文件中提取梅尔能量特征,并将其处理成特征序列;
步骤S2:对每一类声音事件训练一个深度随机森林分类器,通过组合多个二分类模型,形成最终的深度随机森林声音事件分类模型;
步骤S3:使用最终的深度随机森林声音事件分类模型对声音事件进行预测,得到声音事件的预测概率;
步骤S4:根据得到的预测概率,进行事件分类后处理,得到声音事件分类结果;
所述步骤S1具体为:
步骤S11:将音频监控文件使用时长1.2秒,每隔0.02秒的滑动窗口进行切分,得到N个音频片;
步骤S12:将切分得到的每个音频片段内,按照帧长40ms,帧移20ms进行划分,得到61个音频帧;
步骤S13:对每个音频帧计算梅尔能量特征,得到每帧123维特征;
所述训练深度随机森林分类器,具体为:
步骤S21:对于级联森林中第一层级联层,输入7503维原始特征;通过对森林中所有树求平均,该森林将输出一个2维类预测概率;
步骤S22:若每层级联层包含12个森林,则在第一层级联层的末端将得到7527维的特征向量,由12个2维类向量级联7503维原始特征向量得到;
步骤S23:每个级联层接收其前一级处理的特征信息,并且级联原始特征后作为下一层的输入特征,下一级联层使用该输入特征进行训练,级联层层数将持续进行纵向深度拓展;
步骤S24:每个个级联层训练完成后,将使用验证集判断性能是否得到提升,没有提升则级联层层数将停止纵向深度拓展;
所述步骤S3具体为:
步骤S31:通过计算不同类别的训练样例在叶子结点上所占的百分比,每一颗树都会产生一个预测概率;
步骤S32:将同一个森林的所有树的预测概率做平均,输出类预测概率;
所述步骤S4具体为:
步骤S41:将预测概率阈值设置为0.5,判断每1.2秒时长的音频片段数据里某一声音事件类出现次数是否大于等于10,若是,则分类出该声音事件的类别;
步骤S42:对事件进行平滑处理,合并相邻连续事件,同时设置允许存在的最小事件长度为0.05秒,如果事件长度小于0.05秒,则删除该事件,最终得到分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911112306.5A CN110808070B (zh) | 2019-11-14 | 2019-11-14 | 音频监控中基于深度随机森林的声音事件分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911112306.5A CN110808070B (zh) | 2019-11-14 | 2019-11-14 | 音频监控中基于深度随机森林的声音事件分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110808070A CN110808070A (zh) | 2020-02-18 |
CN110808070B true CN110808070B (zh) | 2022-05-06 |
Family
ID=69502667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911112306.5A Expired - Fee Related CN110808070B (zh) | 2019-11-14 | 2019-11-14 | 音频监控中基于深度随机森林的声音事件分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110808070B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506796A (zh) * | 2017-08-25 | 2017-12-22 | 电子科技大学 | 一种基于深度森林的阿尔兹海默病分类方法 |
CN107808663A (zh) * | 2017-10-25 | 2018-03-16 | 重庆大学 | 基于dbn和rf算法的帕金森病语音数据分类系统 |
CN108231067A (zh) * | 2018-01-13 | 2018-06-29 | 福州大学 | 基于卷积神经网络与随机森林分类的声音场景识别方法 |
CN108806718A (zh) * | 2018-06-06 | 2018-11-13 | 华中师范大学 | 基于对enf相位谱和瞬时频率谱分析的音频鉴定方法 |
WO2019028255A1 (en) * | 2017-08-02 | 2019-02-07 | Veritone, Inc. | METHODS AND SYSTEMS FOR OPTIMIZING SELECTION OF MOTORS |
CN109389037A (zh) * | 2018-08-30 | 2019-02-26 | 中国地质大学(武汉) | 一种基于深度森林和迁移学习的情感分类方法 |
-
2019
- 2019-11-14 CN CN201911112306.5A patent/CN110808070B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019028255A1 (en) * | 2017-08-02 | 2019-02-07 | Veritone, Inc. | METHODS AND SYSTEMS FOR OPTIMIZING SELECTION OF MOTORS |
CN107506796A (zh) * | 2017-08-25 | 2017-12-22 | 电子科技大学 | 一种基于深度森林的阿尔兹海默病分类方法 |
CN107808663A (zh) * | 2017-10-25 | 2018-03-16 | 重庆大学 | 基于dbn和rf算法的帕金森病语音数据分类系统 |
CN108231067A (zh) * | 2018-01-13 | 2018-06-29 | 福州大学 | 基于卷积神经网络与随机森林分类的声音场景识别方法 |
CN108806718A (zh) * | 2018-06-06 | 2018-11-13 | 华中师范大学 | 基于对enf相位谱和瞬时频率谱分析的音频鉴定方法 |
CN109389037A (zh) * | 2018-08-30 | 2019-02-26 | 中国地质大学(武汉) | 一种基于深度森林和迁移学习的情感分类方法 |
Non-Patent Citations (1)
Title |
---|
Acoustic Scene Classification using Convolutional Neural Networks and Multi-Scale Multi-Feature Extration;An Dang, etc;<2018ICCE>;20180329 * |
Also Published As
Publication number | Publication date |
---|---|
CN110808070A (zh) | 2020-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Anomaly detection in surveillance video based on bidirectional prediction | |
CN109065030B (zh) | 基于卷积神经网络的环境声音识别方法及系统 | |
CN108830212B (zh) | 一种视频行为时间轴检测方法 | |
Carletti et al. | Audio surveillance using a bag of aural words classifier | |
Bountourakis et al. | Machine learning algorithms for environmental sound recognition: Towards soundscape semantics | |
US10930301B1 (en) | Sequence models for audio scene recognition | |
Shah et al. | Audio iot analytics for home automation safety | |
Giannakopoulos et al. | A multimodal approach to violence detection in video sharing sites | |
CN110097026B (zh) | 一种基于多维要素视频分割的段落关联规则评判方法 | |
Abbasi et al. | A large-scale benchmark dataset for anomaly detection and rare event classification for audio forensics | |
CN111933109A (zh) | 一种音频监测方法及系统 | |
Drossos et al. | Language modelling for sound event detection with teacher forcing and scheduled sampling | |
Dogan et al. | A novel ternary and signum kernelled linear hexadecimal pattern and hybrid feature selection based environmental sound classification method | |
Pleva et al. | The joint database of audio events and backgrounds for monitoring of urban areas | |
Rahman et al. | Hybrid system for automatic detection of gunshots in indoor environment | |
Arslan et al. | Performance of deep neural networks in audio surveillance | |
Mulimani et al. | Extraction of MapReduce-based features from spectrograms for audio-based surveillance | |
CN111539445A (zh) | 一种半监督特征融合的对象分类方法及系统 | |
Dong et al. | At the speed of sound: Efficient audio scene classification | |
CN110808070B (zh) | 音频监控中基于深度随机森林的声音事件分类方法 | |
CN110580915B (zh) | 基于可穿戴式设备的声源目标识别系统 | |
CN116884433A (zh) | 基于图注意力的伪造语音检测方法及系统 | |
US20220358952A1 (en) | Method and apparatus for recognizing acoustic anomalies | |
CN115240142B (zh) | 基于跨媒体的室外重点场所人群异常行为预警系统和方法 | |
CN114697087B (zh) | 一种基于报警时序的报警关联方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220506 |
|
CF01 | Termination of patent right due to non-payment of annual fee |