CN113707175A - 基于特征分解分类器与自适应后处理的声学事件检测系统 - Google Patents
基于特征分解分类器与自适应后处理的声学事件检测系统 Download PDFInfo
- Publication number
- CN113707175A CN113707175A CN202110974087.2A CN202110974087A CN113707175A CN 113707175 A CN113707175 A CN 113707175A CN 202110974087 A CN202110974087 A CN 202110974087A CN 113707175 A CN113707175 A CN 113707175A
- Authority
- CN
- China
- Prior art keywords
- feature
- classifier
- event
- acoustic event
- adaptive post
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 111
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 67
- 238000012805 post-processing Methods 0.000 title claims abstract description 62
- 230000003044 adaptive effect Effects 0.000 claims abstract description 47
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000009499 grossing Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 7
- 239000010410 layer Substances 0.000 claims description 55
- 230000006870 function Effects 0.000 claims description 34
- 238000013527 convolutional neural network Methods 0.000 claims description 27
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 19
- 125000004122 cyclic group Chemical group 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 239000002356 single layer Substances 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 23
- 230000000694 effects Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003467 diminishing effect Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明涉及基于特征分解分类器与自适应后处理的声学事件检测系统,包括:特征提取网络、特征分解分类器和自适应后处理模块,特征提取网络用于获取输入音频特征的高级特征表示;特征分解分类器用于分解高级特征表示并根据不同事件类型选择相应子特征空间;根据子特征空间信息输出帧级别检测结果;自适应后处理模块用于对帧级别检测结果做平滑处理,得到最终的检测结果。本申请实施例的系统能依据目标事件,针对性学习单一事件的特征信息,并且针对目标事件的特征分解,减轻了重叠事件中其他事件特征的干扰,同时采用自适应后处理方法,过滤系统预测结果中包含的错误时间信息,平滑音频中的事件分布,极大提高了对事件时间戳检测的准确性。
Description
技术领域
本发明涉及人工智能技术与声学事件检测技术领域,具体涉及基于特征分解分类器与自适应后处理的声学事件检测系统。
背景技术
近年来随着人工智能技术的发展,智能化技术逐渐改变着人们的生活方式。在智能语音技术方面,远程音视频通话、智能语音交互系统、智能语音音箱等多样化音频技术应用到了我们生活的方方面面。在传统语音技术如语音识别、声纹识别、语音合成等技术发展的同时,新兴音频处理技术也逐渐成为研究热潮。如,声音场景分类、声场事件定位、异常音频事件分类,声学事件检测技术的应用需求也越来越多。其中,声学事件检测任务是模仿人类辨识在某些环境中发生的声学事件的能力,利用音频信号处理技术以及深度学习技术完成对声学事件的分类与辨析,如分辨环境中包含“宠物叫声”、“门铃声”、“汽车发动机声”等等。
声学事件检测(AED)是指对一段音频中所出现的声学事件做出识别,同时要分辨出事件的开始和偏移时间戳。目前,声学事件检测技术有着非常广泛的应用前景,如智能家居设备、智能健康监测系统、无人驾驶技术、语音识别技术以及远程音视频通信技术等。例如,在音视频会议中,声学事件检测技术可以分析会议人员所处环境信息,依据所检测出的环境信息对音频通信做出适应性调整,如,可辅助语音增强技术、语音分离技术等改善音视频通话的质量;在城市安防以及巡检等工作中,可依据检测出的声学信息,分辨是否存在潜在危险信息,辅助人员判断是否需要执行相关措施。此外,实时获取的环境信息,还可以辅助智能交通、智能驾驶等技术;在设备异常声音检测中,声学事件检测技术能及时监控设备的工作状态,辅助工作人员对设备做出更细致分析。
简言之,随着人工智能与深度学习技术的发展,声学事件检测技术逐渐成为当前工业界的研究重点,无论在民用还是国防等方面都有着大量的应用前景与空间。作为新型研究方向,当前声学事件检测技术依旧存在着技术、设备等方面的难点。在探究声学事件检测算法过程中,主要发现存在四点影响检测准确性的问题:
1、在实际应用环境中,部分目标事件重叠现象,导致检测过程中无法准确获取事件的时间戳信息;
2、采集的训练数据包含复杂的事件类型,多种事件类型分布不平衡问题,导致所训练模型的性能同样出现不均衡问题;
3、待测目标事件自身差异性较大,即在一段音频片段中部分目标事件持续时间过长或过短,系统难以捕获准确的时间戳信息;
4、训练数据标注困难。所采集的训练数据中事件分布不平衡并且存在大量非目标事件干扰,人工标注容易引入误差,难以获取准确时间戳信息。
发明内容
本发明提供一种基于特征分解分类器与自适应后处理的声学事件检测系统,能够解决上述技术问题。
本发明解决上述技术问题的技术方案如下:
基于特征分解分类器与自适应后处理的声学事件检测系统,包括:特征提取网络、特征分解分类器和自适应后处理模块,
特征提取网络用于获取输入音频特征的高级特征表示;
特征分解分类器用于分解高级特征表示并根据不同事件类型选择相应子特征空间;根据子特征空间信息输出帧级别检测结果;
自适应后处理模块用于对帧级别检测结果做平滑处理,得到最终的检测结果。
在一些实施例中,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,特征提取网络包括:复杂教师模型和轻量化学生模型。
在一些实施例中,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,复杂教师模型包括:5组双层卷积神经网络模块和2层循环神经网络模块,2层循环神经网络模块用于提取卷积神经网络模块的时间信息;
轻量化学生模型包括:3组单层卷积神经网络模块、2层循环神经网络模块;
其中,每个卷积神经网络模块包括:标准化层,池化层以及激活函数。
在一些实施例中,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,循环神经网络模块的节点个数均与上层所连接的卷积神经网络模块的最后一层节点个数相同。
在一些实施例中,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,特征提取网络还用于:
通过监督学习与无监督学习相结合的方式,学习不同标注类型音频数据的特征信息;
不同标注类型音频数据包括:强标记音频数据、弱标记音频数据和无标记音频数据。
在一些实施例中,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,
监督学习使用交叉熵损失函数;
无监督学习使用均方误差损失函数;
计算复杂教师模型与轻量化学生模型之间的均方误差损失函数;随着训练的进行,轻量化学生模型趋于稳定,使用较小权重μ微调复杂教师模型。
在一些实施例中,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,总体的损失函数表示为:
在一些实施例中,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,每次迭代训练时,最小化复杂教师模型与轻量化学生模型之间的一致性损失函数,使得轻量化学生模型与复杂教师模型的预测结果输出特征趋于一致性。
在一些实施例中,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,特征分解分类器还用于:
计算事件类型所要保留的特征子空间维度参考因子:
根据事件类型所要保留的特征子空间维度参考因子计算单类事件类型所要保留高级特征表示的维度。
在一些实施例中,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,特征分解分类器还包括:分类器部分,分类器部分包括:声学事件检测任务分支和声学事件分类任务分支;
声学事件检测任务分支包括;具有较大隐藏状态的全连接层,预设事件类型个数相同的多组全连接层以及sigmoid激活函数,每个单独的全连接层中均包括二分类操作;二分类操作用于获取每一帧特征信息中是否存在事件;
声学事件分类任务分支包括:注意力模块。
在一些实施例中,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,声学事件检测任务分支用于确定帧级别检测后验概率;
声学事件分类任务分支用于确定事件级别的分类后验概率。
在一些实施例中,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,自适应后处理模块用于对帧级别检测结果做平滑处理,得到最终的检测结果,包括:
根据训练集中强标签数据集中事件分布,确定不同事件的平均持续时间;
根据目标事件特性确定中值滤波窗口,对帧级别检测后验概率做后处理操作,得到最终的检测结果。
本发明的有益效果是:基于特征分解分类器与自适应后处理的声学事件检测系统,包括:特征提取网络、特征分解分类器和自适应后处理模块,特征提取网络用于获取输入音频特征的高级特征表示;特征分解分类器用于分解高级特征表示并根据不同事件类型选择相应子特征空间;根据子特征空间信息输出帧级别检测结果;自适应后处理模块用于对帧级别检测结果做平滑处理,得到最终的检测结果。本申请实施例能依据目标事件,针对性学习单一事件的特征信息,同时采用自适应后处理方法,过滤模型预测结果中包含的错误时间信息,平滑音频中的事件分布,极大提高了对事件时间戳检测的准确性,并且针对目标事件的特征分解,减轻了重叠事件中其他事件特征的干扰。
附图说明
图1为本发明实施例提供的基于特征分解分类器与自适应后处理的声学事件检测系统。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本申请的限定。基于所描述的本申请的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
图1为本发明实施例提供的基于特征分解分类器与自适应后处理的声学事件检测系统。
基于特征分解分类器与自适应后处理的声学事件检测系统,结合图1,包括:特征提取网络101、特征分解分类器102和自适应后处理模块103,
特征提取网络101用于获取输入音频特征的高级特征表示;
具体的,本申请实施例中的特征提取网络101主要由卷积神经网络与循环神经网络以及与卷积神经网络层相匹配的下采样层、规整层、激活函数,用于获取输入音频特征的高级特征表示;
特征分解分类器102用于分解高级特征表示并根据不同事件类型选择相应子特征空间;根据子特征空间信息输出帧级别检测结果;
具体的,本申请实施例中特征分解分类器102根据特征提取网络所输出的高级特征表示针对不同事件类型通过分解算法选择相应子特征空间,并依据新的子空间特征信息输出预测事件的后验概率即帧级别检测结果。
自适应后处理模块103用于对帧级别检测结果做平滑处理,得到最终的检测结果。
具体的,本申请实施例中自适应后处理模块103用于对数据集的先验知识进行相关统计分析,对特征分解分类器102输出事件的后验概率即帧级别检测结果做平滑处理,得到最终的检测结果。
在一些实施例中,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,特征提取网络包括:复杂教师模型和轻量化学生模型。
在一些实施例中,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,复杂教师模型包括:5组双层卷积神经网络模块和2层循环神经网络模块,2层循环神经网络模块用于提取卷积神经网络模块的时间信息;
轻量化学生模型包括:3组单层卷积神经网络模块、2层循环神经网络模块;
其中,每个卷积神经网络模块包括:标准化层,池化层以及激活函数。
具体的,本申请实施例中结合卷积神经网络的卷积神经网络与循环神经网络以及与卷积神经网络层相匹配的下采样层、规整层、激活函数搭建复杂教师模型和轻量化学生模型。
对于复杂教师模型,输入音频特征首先经过标准化层,通过对输入网络的小批量数据做标准化处理有利于更容易学习到音频数据之中的规律,加快复杂教师模型学习速度,在标准化层之后,有5组两层卷积神经网络模块,每组卷积神经网络模块均是由标准化层,下采样层以及激活函数构成;在复杂教师模型中,卷积神经网络模块中的下采样层在频域和时域均进行下采样操作,每次相同比例的下采样后,有利于复杂教师模型更好的学习到不同维度更细致的特征信息。
对于轻量化学生模型,输入特征同样首先经过一层标准化层,在标准化层后是3组单层卷积神经网络模块,卷积神经网络模型的结构与复杂教师模型相同,但是其下采样层仅仅在频域进行下采样操作,时域保持原始特征维度,没有任何时间压缩比例,有利与保证音频特征中时间维度信息的完整性,从而更好的事件边界检测。并且,轻量化学生模型不仅可以学习不同的特征信息,而且可以减少模型参数,提高训练效率。
对于复杂教师模型与轻量化学生模型不同的卷积神经网络模块后,加入2层循环神经网络模块。具体的,选择双向门控循环神经网络提取卷积神经网络模块的时间信息。
在一些实施例中,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,循环神经网络模块的节点个数均与上层所连接的卷积神经网络模块的最后一层节点个数相同。
具体的,本申请实施例中的循环神经网络模块的节点个数均与上层所连接的卷积神经网络模块的最后一层节点个数相同,从而有利于根据卷积神经网络模块输出的高级特征表示进一步获取时间维度特征信息。
在一些实施例中,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,特征提取网络还用于:
通过监督学习与无监督学习相结合的方式,学习不同标注类型音频数据的特征信息;
具体的,本申请实施例中,在特征提取网络中的教师-学生模型模型的逐次迭代学习中,通过监督学习与无监督学习相结合的方式,充分学习不同标注类型音频数据中的特征信息,极大提高整个声学事件检测系统的性能。
不同标注类型音频数据包括:强标记音频数据、弱标记音频数据和无标记音频数据。
具体的,本申请实施例中,强标记音频数据包含事件类型、事件时间戳信息,弱标记音频数据包含事件类型,不包含事件时间戳信息,无标记音频数据不包含事件类型和事件时间戳信息。
在一些实施例中,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,
监督学习使用交叉熵损失函数;
无监督学习使用均方误差损失函数;
计算复杂教师模型与轻量化学生模型之间的一致性损失函数;随着训练的进行,轻量化学生模型趋于稳定,使用较小权重μ微调复杂教师模型。
具体的,本申请实施例中,通过计算复杂教师模型与轻量化学生模型之间的一致性损失函数即均方误差损失函数,使得复杂教师模型在后期的迭代训练中对轻量化学生模型具有指导训练的作用,当模型逐渐收敛时,轻量化学生模型通过加权一致性损失函数对复杂教师模型做出微调,进一步优化复杂教师模型。
在一些实施例中,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,总体的损失函数表示为:
在一些实施例中,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,每次迭代训练时,最小化复杂教师模型与轻量化学生模型之间的一致性损失函数,使得轻量化学生模型与复杂教师模型的预测结果输出特征趋于一致性。
现有技术中,可获取对应音频特征的高级特征表示,但是对于多标签分类任务,当某个事件类型经常与事件类型同时出现时,直接依据高级特征表示做分类很难区分每个事件类型。即训练集中给定可识别信息不足的事件类型的高级特征子空间的形成将很大程度上受到那些与它们同现出现的事件类型的干扰。当不平衡集合中某些事件类型的具有很多可识别信息的音频片段的数量特别小时,这种影响将会加剧。为了减轻这种影响,本申请通过特征分解分类器对高级特征表示做分解操作,为多个事件类型重新建模多个特征子空间,下文详细介绍。
在一些实施例中,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,特征分解分类器还用于:
计算事件类型所要保留的特征子空间维度参考因子:
根据事件类型所要保留的特征子空间维度参考因子kc计算单类事件类型c所要保留高级特征表示的维度。
具体的,本申请实施例中,每个不同事件类型共享高级特征表示的不同部分而不是整个特征空间,并且根据其先验信息预先分解高级特征空间为特征子空间。为此,首先计算事件类型c所要保留的特征子空间维度参考因子kc:
kc=[((1-n)·lc+n)·d]
假设对于事件类型c,包含来自其他事件类型的很少干扰的音频片段的比例越大,就越需要学习事件类型方面的可识别信息,从而需要更大的特征空间。相比之下,这些片段的比例越小,需要的特征空间的体积就越小,以防止过度拟合。由于这个原因,kc随着这些c类音频片段比例的增加而增加。考虑到过小的kc严重削弱了模型识别事件类型c的能力,本申请利用常数因子n(0≤n≤1)来减轻这种影响,然后,其中lc(0≤lc≤1)与训练集中包含干扰的音频片段数量有关。随着n增加到1,特征分解选择退化为整个特征空间。根据一个音频片段覆盖的事件类型越多,其他事件类型对其中任何一个造成的干扰就越多的原则来量化干扰的级别,即:
本申请中,Nci表示训练集中包含i类的音频片段的数量,vi是表示这些音频片段重要性的相应常数系数。假设其他事件类型对片段中的任何一个事件类型造成的干扰越少,片段就越重要,为此本申请确定vi:
最终,根据所计算的事件类型c所要保留的特征子空间维度参考因子kc,即可获得单类事件类型c所要保留高级特征表示的维度:
Dfea=Fdim·kc
在一些实施例中,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,特征分解分类器还包括:分类器部分,分类器部分包括:声学事件检测任务分支和声学事件分类任务分支;
声学事件检测任务分支包括;具有较大隐藏状态的全连接层,预设事件类型个数相同的多组全连接层以及sigmoid激活函数,每个单独的全连接层中均包括二分类操作;二分类操作用于获取每一帧特征信息中是否存在事件;
声学事件分类任务分支包括:注意力模块。
在一些实施例中,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,声学事件检测任务分支用于确定帧级别检测后验概率;
声学事件分类任务分支用于确定事件级别的分类后验概率。
具体的,本申请实施例中将声学事件检测任务和分类任务分成两个独立的分支,依据上述特征分解分类器所获取的独立于事件的多组特征子空间,声学事件检测任务分支首先使用具有较大隐藏状态的全连接层,然后接预设事件类型个数相同的多组全连接层以及sigmoid激活函数,在每个单独的全连接层中均需做二分类操作,获取每一帧特征信息中是否存在事件,即得到帧级别检测后验概率;在声学事件分类分支中,卷积神经网络模块和循环神经网络模块的输出被连接作为“线性”层的输入特征,随后是注意力模块,通过注意力模块后即得到事件级别的分类后验概率。
在音频分类和声学事件检测任务中,模型的帧级预测输出很多情况下是非连续的,例如,在实际环境下所采集音频中可能包含大量的背景噪声或者异常的非目标事件以及在检测过程中出现的许多检测异常值,可能产生太多极短持续时间的目标事件发生,进而导致不准确的时间戳检测。传统的方法是应用线性或非线性滤波器来平滑预测输出。但对于复杂条件下的多目标事件检测,音频片段中每个事件的后续持续时间差异很大。具有固定窗口大小的传统中值滤波不再适用。
鉴于此,上述基于特征分解分类器与自适应后处理的声学事件检测系统中,自适应后处理模块用于对帧级别检测结果做平滑处理,得到最终的检测结果,包括:
根据训练集中强标签数据集中事件分布,确定不同事件的平均持续时间;
根据目标事件特性确定中值滤波窗口,对帧级别检测后验概率做后处理操作,得到最终的检测结果。
具体的,本申请实施例中通过依据强标签训练数据的分布统计学规律,依据目标事件的平均持续时间计算出具有自适应窗口大小的中值滤波器组。此外,考虑到每个事件持续时间不是均匀分布的,使用平均持续时间来优化中值滤波窗口大小可能不是最佳的。因此,设计使用特定于事件的中值滤波窗口大小,如下所示:
其中,Wc,c=1,2,3,...,C是C类的中值滤波窗口大小,Nc是C类目标事件由短到长排序后所计算累积分布函数的片段个数。Li是事件c的第i段的持续时间,β是一个比例因子,在实验中设置为1/3。所有强标签音频数据均参与计算都用于计算中值滤波窗口Wc。
此外,对音频分类预测后验概率和音频事件检测帧级别后验概率之间应用元素级别乘法,以确保音频事件检测和分类结果的一致性。
F1得分,是统计学中用来衡量分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率,F1得分可以看作是模型精确率和召回率的一种加权平均,它的最大值是1,最小值是0。其计算方式为:
将本申请方法进行验证,基于特征分解分类器与自适应后处理的声学事件检测系统对事件检测系统性能有明显提升。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本申请的实施方式,但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (12)
1.基于特征分解分类器与自适应后处理的声学事件检测系统,其特征在于,包括:特征提取网络、特征分解分类器和自适应后处理模块,
所述特征提取网络用于获取输入音频特征的高级特征表示;
所述特征分解分类器用于分解所述高级特征表示并根据不同事件类型选择相应子特征空间;根据子特征空间信息输出帧级别检测结果;
所述自适应后处理模块用于对所述帧级别检测结果做平滑处理,得到最终的检测结果。
2.根据权利要求1所述的基于特征分解分类器与自适应后处理的声学事件检测系统,其特征在于,所述特征提取网络包括:复杂教师模型和轻量化学生模型。
3.根据权利要求2所述的基于特征分解分类器与自适应后处理的声学事件检测系统,其特征在于,
所述复杂教师模型包括:5组双层卷积神经网络模块和2层循环神经网络模块,所述2层循环神经网络模块用于提取所述卷积神经网络模块的时间信息;
所述轻量化学生模型包括:3组单层卷积神经网络模块、2层循环神经网络模块;
其中,每个卷积神经网络模块包括:标准化层,池化层以及激活函数。
4.根据权利要求3所述的基于特征分解分类器与自适应后处理的声学事件检测系统,其特征在于,所述循环神经网络模块的节点个数均与上层所连接的卷积神经网络模块的最后一层节点个数相同。
5.根据权利要求2所述的基于特征分解分类器与自适应后处理的声学事件检测系统,其特征在于,所述特征提取网络还用于:
通过监督学习与无监督学习相结合的方式,学习不同标注类型音频数据的特征信息;
所述不同标注类型音频数据包括:强标记音频数据、弱标记音频数据和无标记音频数据。
6.根据权利要求5所述的基于特征分解分类器与自适应后处理的声学事件检测系统,其特征在于,
所述监督学习使用交叉熵损失函数;
所述无监督学习使用均方误差损失函数;
计算所述复杂教师模型与所述轻量化学生模型之间的均方误差损失函数;随着训练的进行,所述轻量化学生模型趋于稳定,使用较小权重μ微调所述复杂教师模型。
8.根据权利要求7所述的基于特征分解分类器与自适应后处理的声学事件检测系统,其特征在于,
每次迭代训练时,最小化所述复杂教师模型与所述轻量化学生模型之间的均方误差损失函数,使得所述轻量化学生模型与所述复杂教师模型的预测结果输出特征趋于一致性。
9.根据权利要求1所述的基于特征分解分类器与自适应后处理的声学事件检测系统,其特征在于,所述特征分解分类器还用于:
计算事件类型所要保留的特征子空间维度参考因子:
根据所述事件类型所要保留的特征子空间维度参考因子计算单类事件类型所要保留高级特征表示的维度。
10.根据权利要求1所述的基于特征分解分类器与自适应后处理的声学事件检测系统,其特征在于,所述特征分解分类器还包括:分类器部分,所述分类器部分包括:声学事件检测任务分支和声学事件分类任务分支;
所述声学事件检测任务分支包括;具有较大隐藏状态的全连接层,预设事件类类型个数相同的多组全连接层以及sigmoid激活函数,每个单独的全连接层中均包括二分类操作;所述二分类操作用于获取每一帧特征信息中是否存在事件;
所述声学事件分类任务分支包括:注意力模块。
11.根据权利要求5所述的基于特征分解分类器与自适应后处理的声学事件检测系统,其特征在于,
所述声学事件检测任务分支用于确定帧级别检测后验概率;
所述声学事件分类任务分支用于确定事件级别的分类后验概率。
12.根据权利要求1所述的基于特征分解分类器与自适应后处理的声学事件检测系统,其特征在于,所述自适应后处理模块用于对所述帧级别检测结果做平滑处理,得到最终的检测结果,包括:
根据训练集中强标签数据集中事件分布,确定不同事件的平均持续时间;
根据目标事件特性确定中值滤波窗口,对所述帧级别检测后验概率做后处理操作,得到所述最终的检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110974087.2A CN113707175B (zh) | 2021-08-24 | 2021-08-24 | 基于特征分解分类器与自适应后处理的声学事件检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110974087.2A CN113707175B (zh) | 2021-08-24 | 2021-08-24 | 基于特征分解分类器与自适应后处理的声学事件检测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113707175A true CN113707175A (zh) | 2021-11-26 |
CN113707175B CN113707175B (zh) | 2023-12-19 |
Family
ID=78654372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110974087.2A Active CN113707175B (zh) | 2021-08-24 | 2021-08-24 | 基于特征分解分类器与自适应后处理的声学事件检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113707175B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114974303A (zh) * | 2022-05-16 | 2022-08-30 | 江苏大学 | 自适应层次聚合的弱监督声音事件检测方法及系统 |
CN115331697A (zh) * | 2022-10-14 | 2022-11-11 | 中国海洋大学 | 多尺度环境声音事件识别方法 |
US12080319B2 (en) | 2022-05-16 | 2024-09-03 | Jiangsu University | Weakly-supervised sound event detection method and system based on adaptive hierarchical pooling |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301858A (zh) * | 2017-05-31 | 2017-10-27 | 华南理工大学 | 基于音频特征空间分层描述的音频分类方法 |
US20170372725A1 (en) * | 2016-06-28 | 2017-12-28 | Pindrop Security, Inc. | System and method for cluster-based audio event detection |
CN110010156A (zh) * | 2017-12-07 | 2019-07-12 | 英特尔公司 | 基于对事件子部分的序列的建模的声音事件检测 |
CN110070895A (zh) * | 2019-03-11 | 2019-07-30 | 江苏大学 | 一种基于监督变分编码器因素分解的混合声音事件检测方法 |
CN110148428A (zh) * | 2019-05-27 | 2019-08-20 | 哈尔滨工业大学 | 一种基于子空间表示学习的声学事件识别方法 |
US20210005067A1 (en) * | 2018-02-28 | 2021-01-07 | Robert Bosch Gmbh | System and Method for Audio Event Detection in Surveillance Systems |
CN112447189A (zh) * | 2020-12-01 | 2021-03-05 | 平安科技(深圳)有限公司 | 语音事件检测方法、装置、电子设备及计算机存储介质 |
CN113160855A (zh) * | 2021-05-28 | 2021-07-23 | 思必驰科技股份有限公司 | 在线语音活性检测系统改进方法和装置 |
-
2021
- 2021-08-24 CN CN202110974087.2A patent/CN113707175B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170372725A1 (en) * | 2016-06-28 | 2017-12-28 | Pindrop Security, Inc. | System and method for cluster-based audio event detection |
CN107301858A (zh) * | 2017-05-31 | 2017-10-27 | 华南理工大学 | 基于音频特征空间分层描述的音频分类方法 |
CN110010156A (zh) * | 2017-12-07 | 2019-07-12 | 英特尔公司 | 基于对事件子部分的序列的建模的声音事件检测 |
US20210005067A1 (en) * | 2018-02-28 | 2021-01-07 | Robert Bosch Gmbh | System and Method for Audio Event Detection in Surveillance Systems |
CN110070895A (zh) * | 2019-03-11 | 2019-07-30 | 江苏大学 | 一种基于监督变分编码器因素分解的混合声音事件检测方法 |
CN110148428A (zh) * | 2019-05-27 | 2019-08-20 | 哈尔滨工业大学 | 一种基于子空间表示学习的声学事件识别方法 |
CN112447189A (zh) * | 2020-12-01 | 2021-03-05 | 平安科技(深圳)有限公司 | 语音事件检测方法、装置、电子设备及计算机存储介质 |
CN113160855A (zh) * | 2021-05-28 | 2021-07-23 | 思必驰科技股份有限公司 | 在线语音活性检测系统改进方法和装置 |
Non-Patent Citations (2)
Title |
---|
YUNHAO LIANG, ET AL.: "adaptive focal loss with data augmentation for semi-supervised sound event detection", 《IEEE DCASE 2021 CHALLENGE》 * |
高利剑: "环境辅助的混合声音事件检测方法研究", 《中国优秀硕士学位论文全文库(信息科技辑)》, no. 10 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114974303A (zh) * | 2022-05-16 | 2022-08-30 | 江苏大学 | 自适应层次聚合的弱监督声音事件检测方法及系统 |
WO2023221237A1 (zh) * | 2022-05-16 | 2023-11-23 | 江苏大学 | 自适应层次聚合的弱监督声音事件检测方法及系统 |
US12080319B2 (en) | 2022-05-16 | 2024-09-03 | Jiangsu University | Weakly-supervised sound event detection method and system based on adaptive hierarchical pooling |
CN115331697A (zh) * | 2022-10-14 | 2022-11-11 | 中国海洋大学 | 多尺度环境声音事件识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113707175B (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Basu et al. | Use of artificial neural network in pattern recognition | |
CN113707175B (zh) | 基于特征分解分类器与自适应后处理的声学事件检测系统 | |
Grzeszick et al. | Bag-of-features methods for acoustic event detection and classification | |
CN110070895B (zh) | 一种基于监督变分编码器因素分解的混合声音事件检测方法 | |
CN111161715A (zh) | 一种基于序列分类的特定声音事件检索与定位的方法 | |
CN110175526A (zh) | 狗情绪识别模型训练方法、装置、计算机设备及存储介质 | |
Phan et al. | Spatio-temporal attention pooling for audio scene classification | |
CN110956953A (zh) | 基于音频分析与深度学习的争吵识别方法 | |
CN104795064A (zh) | 低信噪比声场景下声音事件的识别方法 | |
CN111859010B (zh) | 一种基于深度互信息最大化的半监督音频事件识别方法 | |
CN112446242A (zh) | 声学场景分类方法、装置及相应设备 | |
CN114023354A (zh) | 基于聚焦损失函数的指导型声学事件检测模型训练方法 | |
CN114926825A (zh) | 一种基于时空特征融合的车辆驾驶行为检测方法 | |
Wang et al. | A novel underground pipeline surveillance system based on hybrid acoustic features | |
Rao et al. | Exploring the impact of optimal clusters on cluster purity | |
CN115063612A (zh) | 基于面审视频的欺诈预警方法、装置、设备及存储介质 | |
Atkar et al. | Speech emotion recognition using dialogue emotion decoder and CNN Classifier | |
CN113160823B (zh) | 基于脉冲神经网络的语音唤醒方法、装置及电子设备 | |
Lu et al. | Temporal Attentive Pooling for Acoustic Event Detection. | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Hu et al. | Speech emotion recognition based on attention mcnn combined with gender information | |
Jin et al. | Polyphonic sound event detection using capsule neural network on multi-type-multi-scale time-frequency representation | |
CN110363074B (zh) | 一种针对复杂抽象化事物的类人化识别交互方法 | |
Phan et al. | Enabling early audio event detection with neural networks | |
CN115798055A (zh) | 一种基于cornersort跟踪算法的暴力行为检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |