CN110808070B - 音频监控中基于深度随机森林的声音事件分类方法 - Google Patents

音频监控中基于深度随机森林的声音事件分类方法 Download PDF

Info

Publication number
CN110808070B
CN110808070B CN201911112306.5A CN201911112306A CN110808070B CN 110808070 B CN110808070 B CN 110808070B CN 201911112306 A CN201911112306 A CN 201911112306A CN 110808070 B CN110808070 B CN 110808070B
Authority
CN
China
Prior art keywords
sound event
audio
random forest
cascade
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201911112306.5A
Other languages
English (en)
Other versions
CN110808070A (zh
Inventor
余春艳
刘煌
李明达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201911112306.5A priority Critical patent/CN110808070B/zh
Publication of CN110808070A publication Critical patent/CN110808070A/zh
Application granted granted Critical
Publication of CN110808070B publication Critical patent/CN110808070B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明涉及一种音频监控中基于深度随机森林的声音事件分类方法,包括以下步骤:步骤S1:从监控的音频文件中提取梅尔能量特征,并将其处理成特征序列;步骤S2:对每一类声音事件训练一个深度随机森林分类器,通过组合多个二分类模型,形成最终的深度随机森林声音事件分类模型;步骤S3:使用最终的深度随机森林声音事件分类模型对声音事件进行预测,得到声音事件的预测概率;步骤S4:根据得到的预测概率,进行事件分类后处理,得到声音事件分类结果。本发明基于随机森林的音频事件浅层检测方法和深度结构相结合,能够有效的对重叠声音事件进行检测并快速分类。

Description

音频监控中基于深度随机森林的声音事件分类方法
技术领域
本发明涉及监控系统中音频信号处理方法,具体涉及一种音频监控中基于深度随机森林的声音事件分类方法。
背景技术
随着移动互联网技术的快速发展,人们可获取的音频数据呈爆炸式增长。如何从庞大、杂乱的音频数据中找出感兴趣的音频信息,是目前许多研究者关注的焦点。音频事件分类与检测是音频信息检索的重要基础,可以帮助解决感兴趣音频事件检出、分类等问题。
安全监控系统是维护社会秩序、打击犯罪的强有力手段。传统的安全监控主要是基于视频图像。虽然城市中摄像头越来越多,但是安全保障还有待进一步提升。传统视频监控不能对某些异常情况及时地发出警报,而且需要一定的外部条件如光照、目标物体、清晰度等。基于音频事件检测的音频监控能够实时检测现场的声音,对一些异常音频事件如尖叫声、枪声进行监测,弥补视频监控的不足。因此,音频监控可以辅助视频监控,结合两者的优势组成多模安全监控系统,音频事件检测是音频监控的核心模块。
发明内容
有鉴于此,本发明的目的在于提供一种音频监控中基于深度随机森林的声音事件分类方法,能够有效的对重叠声音事件进行检测并快速分类。
为实现上述目的,本发明采用如下技术方案:
一种音频监控中基于深度随机森林的声音事件分类方法,包括以下步骤:
步骤S1:从监控的音频文件中提取梅尔能量特征,并将其处理成特征序列;
步骤S2:对每一类声音事件训练一个深度随机森林分类器,通过组合多个二分类模型,形成最终的深度随机森林声音事件分类模型;;
步骤S3:使用最终的深度随机森林声音事件分类模型对声音事件进行预测,得到声音事件的预测概率;
步骤S4:根据得到的预测概率,进行事件分类后处理,得到声音事件分类结果。
进一步的,所述步骤S1具体为:
步骤S11:将音频监控文件使用时长1.2秒,每隔0.02秒的滑动窗口进行切分,得到N个音频片;
步骤S12:将切分得到的每个音频片段内,按照帧长40ms,帧移20ms进行划分,得到61个音频帧;
步骤S13:对每个音频帧计算梅尔能量特征,得到每帧123维特征;
步骤S14:将61帧合成一个数据,最终得到N*61*123的特征,将得到的特征数据
Figure RE-RE-DEST_PATH_IMAGE002
处理成N*7503维序列格式,构成特征序列。
进一步的,所述训练深度随机森林分类器,具体为:
步骤S21:对于级联森林中第一层级联层,输入7503维原始特征;通过对森林中所有树求平均,该森林将输出一个2维类预测概率;
步骤S22:若每层级联层包含12个森林,则在第一层级联层的末端将得到7527维的特征向量,由12个2维类向量级联7503维原始特征向量得到;
步骤S23:每个级联层接收其前一级处理的特征信息,并且级联原始特征后作为下一层的输入特征,下一级联层使用该输入特征进行训练,级联层层数将持续进行纵向深度拓展。
步骤S24:每个个级联层训练完成后,将使用验证集判断性能是否得到提升,没有提升则级联层层数将停止纵向深度拓展。
进一步的,所述步骤S3具体为:
步骤S31:通过计算不同类别的训练样例在叶子结点上所占的百分比,每一颗树都会产生一个预测概率;
步骤S32:将同一个森林的所有树的预测概率做平均,输出类预测概率。
进一步的,所述步骤S4具体为:
步骤S41:将预测概率阈值设置为0.5,判断每1.2秒时长的音频片段数据里某一声音事件类出现次数是否大于等于10,若是,则分类出该声音事件的类别;
步骤S42:对事件进行平滑处理,合并相邻连续事件,同时设置允许存在的最小事件长度为0.05秒,如果事件长度小于0.05秒,则删除该事件,最终得到分类结果。
本发明与现有技术相比具有以下有益效果:
本发明基于随机森林的音频事件浅层检测方法和深度结构相结合,能够有效的对重叠声音事件进行检测并快速分类。
附图说明
图1是本发明的方法流程示意框图;
图2是本发明的实施例中训练深度随机森林流程图;
图3是本发明的实施例中类预测概率生成图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本实施例中提供一种音频监控中基于深度随机森林的声音事件分类方法,使用TUT2017和TUT2016声音事件数据集是DCASE2017(Detection andClassification of Acoustic Scenes and Events)和DCASE2016挑战公开的数据集,分别是室外街道和室内家庭真实环境下的音频记录,各自包含24个和10个音频文件,包含12种声音事件类型;每个音频文件声音长度为3-5分钟,双声道“.wav”格式,采样率为44.1kHz,量化精度为24位。
具体包括以下步骤:
步骤S1:从监控的音频文件中提取梅尔能量特征,并将其处理成特征序列;
步骤S11:将音频监控文件使用时长1.2秒,每隔0.02秒的滑动窗口进行切分,得到N个音频片;
步骤S12:将切分得到的每个音频片段内,按照帧长40ms,帧移20ms进行划分,得到61个音频帧;
步骤S13:对每个音频帧计算梅尔能量特征,得到每帧123维特征;
步骤S14:将61帧合成一个数据,最终得到N*61*123的特征,将得到的特征数据
Figure RE-173855DEST_PATH_IMAGE002
处理成N*7503维序列格式,构成特征序列。
步骤S2:对每一类声音事件训练一个深度随机森林分类器,通过组合多个二分类模型,形成最终的深度随机森林声音事件分类模型;;
步骤S3:给定音频监控文件F,按照步骤S2完成划分,得到N*7503维的输入矩阵,使用组合的深度随机森林声音事件分类模型进行预测,得到N个音频片段中包含的声音事件的预测概率;
步骤S4:每50个音频片段为一组,对应音频持续区间为该组第一个音频片段的持续区间。每组进行一次声音事件分类,将预测概率阈值设置为0.5,判断当前50个片段数据里某一声音事件类出现次数是否大于等于10,是的话,则分类出该声音事件的类别。同时每个分组内进行一次事件平滑处理,合并相邻音频片段中的连续事件,同时设置允许存在的最小事件长度为0.05秒,如果合并处理后,单一事件持续长度小于0.05秒,则删除该事件。最终合并所有分组的事件分类结果,得到音频监控文件F中包含的声音事件种类以及持续区间。
在本实施例中,所述训练深度随机森林分类器,具体为:
步骤S21:对于级联森林中第一层级联层,输入7503维原始特征;通过对森林中所有树求平均,该森林将输出一个2维类预测概率;
步骤S22:若每层级联层包含12个森林,则在第一层级联层的末端将得到7527维的特征向量,由12个2维类向量级联7503维原始特征向量得到;
步骤S23:每个级联层接收其前一级处理的特征信息,并且级联原始特征后作为下一层的输入特征,下一级联层使用该输入特征进行训练,级联层层数将持续进行纵向深度拓展。
步骤S24:每个个级联层训练完成后,将使用验证集判断性能是否得到提升,没有提升则级联层层数将停止纵向深度拓展。
在本实施例中,所述步骤S2中,为了支持多样性,该结构中每层级联层使用了随机森林和完全随机森林两种不同类型的随机森林。为简单起见,图2中给出每一级的包含两棵不同类型的随机森林,其中完全随机森林不是随机选择一个特征用来划分,而是考虑全部特征作为候选特征,选择划分后基尼指数最小的特征。同一级联层中的每个深度随机森林输出二维类预测概率,将类预测概率级联原始特征后,输入到下一级联层。
在本实施例中,所述步骤S3,类预测概率生成如图3所示,级联层中的每一个森林,由随机树集成而成,通过计算不同类别的训练样例在叶子结点上所占的百分比,每一颗树都会产生一个预测概率。然后,同一个森林的所有树的预测概率做平均,最后输出类预测概率。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (1)

1.一种音频监控中基于深度随机森林的声音事件分类方法,其特征在于,包括以下步骤:
步骤S1:从监控的音频文件中提取梅尔能量特征,并将其处理成特征序列;
步骤S2:对每一类声音事件训练一个深度随机森林分类器,通过组合多个二分类模型,形成最终的深度随机森林声音事件分类模型;
步骤S3:使用最终的深度随机森林声音事件分类模型对声音事件进行预测,得到声音事件的预测概率;
步骤S4:根据得到的预测概率,进行事件分类后处理,得到声音事件分类结果;
所述步骤S1具体为:
步骤S11:将音频监控文件使用时长1.2秒,每隔0.02秒的滑动窗口进行切分,得到N个音频片;
步骤S12:将切分得到的每个音频片段内,按照帧长40ms,帧移20ms进行划分,得到61个音频帧;
步骤S13:对每个音频帧计算梅尔能量特征,得到每帧123维特征;
步骤S14:将61帧合成一个数据,最终得到N*61*123的特征,将得到的特征数据
Figure DEST_PATH_IMAGE002
处理成N*7503维序列格式,构成特征序列;
所述训练深度随机森林分类器,具体为:
步骤S21:对于级联森林中第一层级联层,输入7503维原始特征;通过对森林中所有树求平均,该森林将输出一个2维类预测概率;
步骤S22:若每层级联层包含12个森林,则在第一层级联层的末端将得到7527维的特征向量,由12个2维类向量级联7503维原始特征向量得到;
步骤S23:每个级联层接收其前一级处理的特征信息,并且级联原始特征后作为下一层的输入特征,下一级联层使用该输入特征进行训练,级联层层数将持续进行纵向深度拓展;
步骤S24:每个个级联层训练完成后,将使用验证集判断性能是否得到提升,没有提升则级联层层数将停止纵向深度拓展;
所述步骤S3具体为:
步骤S31:通过计算不同类别的训练样例在叶子结点上所占的百分比,每一颗树都会产生一个预测概率;
步骤S32:将同一个森林的所有树的预测概率做平均,输出类预测概率;
所述步骤S4具体为:
步骤S41:将预测概率阈值设置为0.5,判断每1.2秒时长的音频片段数据里某一声音事件类出现次数是否大于等于10,若是,则分类出该声音事件的类别;
步骤S42:对事件进行平滑处理,合并相邻连续事件,同时设置允许存在的最小事件长度为0.05秒,如果事件长度小于0.05秒,则删除该事件,最终得到分类结果。
CN201911112306.5A 2019-11-14 2019-11-14 音频监控中基于深度随机森林的声音事件分类方法 Expired - Fee Related CN110808070B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911112306.5A CN110808070B (zh) 2019-11-14 2019-11-14 音频监控中基于深度随机森林的声音事件分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911112306.5A CN110808070B (zh) 2019-11-14 2019-11-14 音频监控中基于深度随机森林的声音事件分类方法

Publications (2)

Publication Number Publication Date
CN110808070A CN110808070A (zh) 2020-02-18
CN110808070B true CN110808070B (zh) 2022-05-06

Family

ID=69502667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911112306.5A Expired - Fee Related CN110808070B (zh) 2019-11-14 2019-11-14 音频监控中基于深度随机森林的声音事件分类方法

Country Status (1)

Country Link
CN (1) CN110808070B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506796A (zh) * 2017-08-25 2017-12-22 电子科技大学 一种基于深度森林的阿尔兹海默病分类方法
CN107808663A (zh) * 2017-10-25 2018-03-16 重庆大学 基于dbn和rf算法的帕金森病语音数据分类系统
CN108231067A (zh) * 2018-01-13 2018-06-29 福州大学 基于卷积神经网络与随机森林分类的声音场景识别方法
CN108806718A (zh) * 2018-06-06 2018-11-13 华中师范大学 基于对enf相位谱和瞬时频率谱分析的音频鉴定方法
WO2019028255A1 (en) * 2017-08-02 2019-02-07 Veritone, Inc. METHODS AND SYSTEMS FOR OPTIMIZING SELECTION OF MOTORS
CN109389037A (zh) * 2018-08-30 2019-02-26 中国地质大学(武汉) 一种基于深度森林和迁移学习的情感分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019028255A1 (en) * 2017-08-02 2019-02-07 Veritone, Inc. METHODS AND SYSTEMS FOR OPTIMIZING SELECTION OF MOTORS
CN107506796A (zh) * 2017-08-25 2017-12-22 电子科技大学 一种基于深度森林的阿尔兹海默病分类方法
CN107808663A (zh) * 2017-10-25 2018-03-16 重庆大学 基于dbn和rf算法的帕金森病语音数据分类系统
CN108231067A (zh) * 2018-01-13 2018-06-29 福州大学 基于卷积神经网络与随机森林分类的声音场景识别方法
CN108806718A (zh) * 2018-06-06 2018-11-13 华中师范大学 基于对enf相位谱和瞬时频率谱分析的音频鉴定方法
CN109389037A (zh) * 2018-08-30 2019-02-26 中国地质大学(武汉) 一种基于深度森林和迁移学习的情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Acoustic Scene Classification using Convolutional Neural Networks and Multi-Scale Multi-Feature Extration;An Dang, etc;<2018ICCE>;20180329 *

Also Published As

Publication number Publication date
CN110808070A (zh) 2020-02-18

Similar Documents

Publication Publication Date Title
Chen et al. Anomaly detection in surveillance video based on bidirectional prediction
CN109065030B (zh) 基于卷积神经网络的环境声音识别方法及系统
CN108830212B (zh) 一种视频行为时间轴检测方法
Carletti et al. Audio surveillance using a bag of aural words classifier
Bountourakis et al. Machine learning algorithms for environmental sound recognition: Towards soundscape semantics
US10930301B1 (en) Sequence models for audio scene recognition
Shah et al. Audio iot analytics for home automation safety
Giannakopoulos et al. A multimodal approach to violence detection in video sharing sites
CN110097026B (zh) 一种基于多维要素视频分割的段落关联规则评判方法
Abbasi et al. A large-scale benchmark dataset for anomaly detection and rare event classification for audio forensics
CN111933109A (zh) 一种音频监测方法及系统
Drossos et al. Language modelling for sound event detection with teacher forcing and scheduled sampling
Dogan et al. A novel ternary and signum kernelled linear hexadecimal pattern and hybrid feature selection based environmental sound classification method
Pleva et al. The joint database of audio events and backgrounds for monitoring of urban areas
Rahman et al. Hybrid system for automatic detection of gunshots in indoor environment
Arslan et al. Performance of deep neural networks in audio surveillance
Mulimani et al. Extraction of MapReduce-based features from spectrograms for audio-based surveillance
CN111539445A (zh) 一种半监督特征融合的对象分类方法及系统
Dong et al. At the speed of sound: Efficient audio scene classification
CN110808070B (zh) 音频监控中基于深度随机森林的声音事件分类方法
CN110580915B (zh) 基于可穿戴式设备的声源目标识别系统
CN116884433A (zh) 基于图注意力的伪造语音检测方法及系统
US20220358952A1 (en) Method and apparatus for recognizing acoustic anomalies
CN115240142B (zh) 基于跨媒体的室外重点场所人群异常行为预警系统和方法
CN114697087B (zh) 一种基于报警时序的报警关联方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220506

CF01 Termination of patent right due to non-payment of annual fee