CN112133326A - 一种基于对抗神经网络的枪声数据增广与检测方法 - Google Patents
一种基于对抗神经网络的枪声数据增广与检测方法 Download PDFInfo
- Publication number
- CN112133326A CN112133326A CN202010932883.5A CN202010932883A CN112133326A CN 112133326 A CN112133326 A CN 112133326A CN 202010932883 A CN202010932883 A CN 202010932883A CN 112133326 A CN112133326 A CN 112133326A
- Authority
- CN
- China
- Prior art keywords
- data
- gunshot
- audio
- neural network
- mel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 56
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 230000003042 antagnostic effect Effects 0.000 title claims abstract description 39
- 230000003321 amplification Effects 0.000 title claims abstract description 17
- 238000003199 nucleic acid amplification method Methods 0.000 title claims abstract description 17
- 238000004088 simulation Methods 0.000 claims abstract description 33
- 238000012216 screening Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000012360 testing method Methods 0.000 claims abstract description 15
- 230000003416 augmentation Effects 0.000 claims abstract description 8
- 239000000203 mixture Substances 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 44
- 238000000034 method Methods 0.000 claims description 33
- 238000002156 mixing Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000003825 pressing Methods 0.000 claims description 2
- 230000003190 augmentative effect Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明专利公开了一种基于对抗神经网络的枪声数据增广与检测方法,包括:对数据库中的真实枪声进行音频数据增强,得到增强数据;基于真实枪声数据,通过对抗神经网络生成仿真数据;筛选分类器对仿真数据进行筛选得到逼真数据,逼真数据与增强数据组成增广数据;增广数据与背景音频混叠后得到数据集,并划分为训练集和测试集;训练C‑RNN模型并用其实现最终的枪声检测识别。本发明解决了枪声事件检测中数据量不足而导致的特征不明显或部分误检的问题,主要的技术包括:音频数据增强;使用对抗神经网络生成新的数据;使用梅尔频率倒谱系数与混合高斯模型结合的筛选分类器;使用C‑RNN对枪声进行检测;在长音频数据中通过枪声模板粗定位加速检测。
Description
技术领域
本发明属于人工智能声学检测领域,具体涉及一种基于对抗神经网络的枪声数据增广与检测方法
背景技术
枪声事件检测是声学信号处理的一个应用,在安全监控、场景分析、危机处理、法律取证等领域由广阔的应用前景。常见的声学事件检测包括波形检测、模板匹配等基于一维时域的波形分析方法,混合高斯模型、支持向量机、随机森林等基于声学特征与机器学习的方法,以及近年涌现的基于梅尔频谱与深度神经网络的深度学习方法等。
专利文献1(公开号:CN105424170A)公开了一种基于时域分析的枪声检测方法。(发明名称:一种枪声探测计数方法及系统)。该方法主要通过短时幅度上升沿检测来实现枪声识别,在枪声-背景信噪比低的情况下枪声信号可能会被淹没而导致漏检;专利文献2(公开号:CN104916289A)公开了一种基于支持向量机的声学事件检测方法(发明名称:行车噪声环境下快速声学事件的检测方法)。该方法使用梅尔频率倒谱系数作为特征,使用支持向量机作为分类器,并用噪声模型进行去噪。该方法中没有对数据集进行数据增强和规模扩充,数据多样性以及分类器的泛化性能受到限制;专利文献3(公开号:CN110808033A)公开了一种音频数据增强方法(发明名称:一种基于双重数据增强策略的音频分类方法)。该方法使用了旋转、调音、变调、加噪四种增强方法以及转化为语谱图再通过随机替换均值进行二次数据增强的方法,但该方法对原始数据的多样性扩充仍比较有限。
近年来出现了基于梅尔频谱与深度神经网络的声学事件检测方法,这种方法需要利用大规模的数据集进行数据驱动模型训练,并在大规模声学事件检测中获得了较好的效果。但是由于枪击的特殊性,枪声数据在获取上存在较大困难,因此难以获得规模足够大的可用数据集。
数据增强技术可以增加数据的多样性和数量。常见的音频数据增强方法的包括添加噪声、时域平移、音高平移、调整采样率、时域拉伸等,以及近年出现的多宽度频率增量、声音扰动、频谱增强等方法。这类方法都是在原有音频的时域或频域上进行有限的改动,对整体数据集的规模扩充效果十分有限。
发明内容
为解决上述问题,本发明公开了一种基于对抗神经网络的枪声数据增广与检测方法,使用对抗神经网络和数据增强结合的方法对枪声数据集进行规模增广;使用C-RNN对枪声进行检测实现效率与准确率的平衡;基于互相关算法的模板粗匹配加速较长音频的检测速度。
为达到上述目的,本发明的技术方案如下:
一种基于对抗神经网络的枪声数据增广与检测方法,包括以下步骤:
(1)对数据库中的真实数据进行音频数据增强,得到增强数据;
(2)用真实数据训练对抗神经网络;
(3)通过对抗神经网络生成仿真数据;
(4)使用筛选分类器对仿真数据进行筛选,得到逼真数据和欠逼真数据;
(5)合并增强数据和逼真数据,得到增广数据;
(6)将增广数据中的枪声音频与背景声音频进行混合得到数据集;
(7)将数据集分割为训练集和测试集,并分别用训练集和测试集对C-RNN模型进行训练和测试;
(8)对于较长的音频,使用枪声模板在音频中进行粗定位,再通过C-RNN模型做枪声检测。
进一步的,步骤(1)中,通过添加噪声、时域平移、音高平移、调整采样率、时域拉伸及多宽度频率增量、声音扰动、频谱增强各种方法进行音频数据增强。
进一步的,步骤(1)中,每一种数据增强方法均可以基于真实数据得到一定数量的新数据。
进一步的,步骤(2)中,对抗神经网络由生成器G和判别器D组成。
进一步的,步骤(2)中,生成器G由多个全连接层和多个反卷积层组成。随机向量输入生成器G后,首先经过多个全连接层调整至合适长度,然后通过多层反卷积得到音频向量。
进一步的,步骤(2)中,判别器D由多个卷积层和多个全连接层组成。音频向量输入判别器D后,首先经过多个卷积池化层进行特征提取,然后由多个全连接层得到单一输出,最后通过sigmoid函数输出判别。
进一步的,步骤(2)中,生成器G的输入是随机向量,输出是其生成的仿真音频向量。判别器的输入是仿真音频向量或真实音频向量,在两者之间切换,输出是对仿真音频和真实音频的判别,判别结果通过损失函数反馈给生成器G和判别器D。
进一步的,步骤(2)中,生成器G和判别器D根据损失函数的反馈调整网络参数,迭代直到损失函数收敛。
进一步的,步骤(2)中,音频数据输入对抗神经网络之前,先进行降采样操作以提高对抗神经网络的处理效率和收敛速度。对抗神经网络生成的音频输出通过上采样恢复其采样率。
进一步的,步骤(3)中,以随机向量作为对抗神经网络的输入,每个随机输入通过对抗神经网络均得到一个枪声仿真音频,重复此操作直至数据量达到一定规模,形成仿真数据。
进一步的,步骤(3)中,使用全1向量代替随机向量,输入对抗神经网络的生成器G获取用于一个用于目标粗定位的枪声模板K(t)。
进一步的,步骤(4)中,使用基于梅尔频率倒谱系数的混合高斯模型作为筛选分类器,对仿真数据进行筛选。
进一步的,步骤(4)中,先将音频经过巴特沃斯滤波器进行初步清洗,再对枪声信号进行端点检测。通过梅尔频率转换、梅尔滤波器滤波、对数处理、余弦变换将枪声片段转化为梅尔频率倒谱系数特征向量,然后输入混合高斯模型中进行分类。
进一步的,步骤(4)中,先用真实枪声数据库对筛选分类器进行训练。然后用训练好的筛选分类器对仿真数据进行筛选,将仿真数据划分为逼真数据和欠逼真数据。
进一步的,步骤(4)中,采用基于短时能量、基于短时过零率的端点检测。
进一步的,步骤(6)中,对于第i次混合,设枪声音频Ei′(t)共有LE个采样点,背景声音频Bi(t)共有LB个采样点,则随机选定枪声音频在背景声音频中的开始位置si,si∈[0,LB-LE],并按下式对枪声音频Ei′(t)进行补齐:
其中,Ei(t)是补齐后的枪声音频。
进一步的,步骤(5)中,将枪声音频Ei(t)与背景声音频Bi(t)按比例R进行混合:
Di(t)=Bi(t)+EBR·Mi·Ei(t)
其中,LE是枪声音频Ei(t)的采样点总数,LB是背景声音频Bi(t)的采样点总数,Mi为混入系数,每次计算时Mi有50%的概率取1,否则取0。每次混合时,R依次取-6dB,0dB,6dB得到3个混合结果Di-6dB(t),DiodB(t),Di+6dB(t),并将其加入数据集。
进一步的,步骤(7)中,C-RNN模型从训练集读入音频数据D(t)后,依次对D(t)及进行分帧、加窗操作,将分帧、加窗后的数据进行梅尔频率转换,通过nmel组梅尔滤波器滤波并取对数得到对数梅尔频谱logMel(w,fmel),w和fmel分别为帧的总数和梅尔频率。
进一步的,步骤(7)中,对于梅尔频谱logMel(w,f)上的每一帧wi,使用nconv个尺寸均为的lconv的1维卷积核进行滑动卷积操作得到nconv个卷积输出,每个均为(nmel-lconv+1)×1的向量。对每个向量进行最大池化操作,最终每一帧wi在卷积处理后,均得到nconv个标量输出。
进一步的,步骤(7)中,将每一帧的nconv个输出送入nconv个输入的RNN网络中。RNN网络中每层均有nconv个LSTM神经单元,经过多层LSTM网络后,数据送到RNN网络的输出层。
进一步的,步骤(7)中,RNN网络输出层的nconv个输出送入全连接层,经过多个全连接层后,以一个sigmoid函数作为输出,输出即为枪声事件出现的可能性预测。
进一步的,步骤(7)中,每个迭代周期结束后使用测试集数据测试C-RNN的正确率并将损失函数结果反馈给神经网络,直至其收敛。
进一步的,步骤(8)中,使用对抗神经网络生成的模板与实际检测数据进行互相关卷积运算:
S(t)=D(t)*K(t)
其中D(t)为音频序列,K(t)为枪声模板。
进一步的,步骤(8)中,根据互相关S(t)的大小匹配最可能出现枪声的位置。
本发明的有益效果:
本发明克服了基于深度学习的枪声事件检测中数据集规模太小而导致的问题,适用于各类的枪声检测应用;使用对抗神经网络和数据增强结合的方法对枪声数据集进行规模增广;使用C-RNN对枪声进行检测实现效率与准确率的平衡;基于互相关算法的模板粗匹配可以加速较长音频的检测速度;方法兼容性强,对于其他声学数据集扩充也具有借鉴意义。
附图说明
图1为本方法的实施架构。
图2为生成对抗网络的实施架构。
图3为生成器G的结构与判别器D的结构对比图。
图4为C-RNN的实施架构。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
生成对抗网络是一种基于博弈论的神经网络模型。在生成对抗网络中,生成器G负责生成内容,判别器D则负责分辨内容的真伪。经过不断的迭代后,生成器G和判别器D的博弈达到纳什均衡,即判别器D已无法分辨内容到底来自生成器G还是来自真实数据,此时生成器G生成的内容具有很高的逼真度。本发明就是根据这个原理,使用对抗神经网络和数据增强结合的方法对枪声数据集进行规模增广,使用C-RNN对枪声进行检测,具体如图1所示,包括以下部分:
(1)对数据库中的真实数据进行音频数据增强,得到增强数据;
(2)训练对抗神经网络;
(3)通过对抗神经网络生成仿真数据;
(4)使用筛选分类器对仿真数据进行筛选,得到逼真数据和欠逼真数据;
(5)合并增强数据和逼真数据,得到增广数据;
(6)将增广数据中的枪声音频与背景声音频进行混合;
(7)将数据集分割为训练集和测试集,并分别用训练集和测试集对C-RNN模型进行训练和测试;
(8)对于较长的音频,使用枪声模板在音频中进行粗定位,再通过C-RNN模型做枪声检测。
具体而言,基于对抗神经网络的枪声数据增广与检测方法的操作过程为:
步骤1:获取真实枪声数据库。
步骤2:将真实枪声数据库进行降采样处理,通过对抗神经网络生成仿真数据库并将其上采样。音频数据输入对抗神经网络之前,先进行降采样操作以提高对抗神经网络的处理效率和收敛速度。对抗神经网络由生成器G和判别器D组成,生成器G由多个全连接层和多个反卷积层组成。随机向量输入生成器G后,首先经过多个全连接层调整至合适长度,然后通过多层反卷积得到音频向量。判别器D由多个卷积层和多个全连接层组成。音频向量输入判别器D后,首先经过多个卷积池化层进行特征提取,然后由多个全连接层得到单一输出,最后通过sigmoid函数输出判别。生成器G和判别器D根据损失函数的反馈调整网络参数,迭代直到损失函数收敛。以随机向量作为对抗神经网络的输入,每个随机输入通过对抗神经网络均得到一个枪声仿真音频,重复此操作直至数据量达到一定规模,形成仿真数据。其次,使用全1向量代替随机向量,输入对抗神经网络的生成器G获取用于一个用于目标粗定位的枪声模板K(t)。对抗神经网络生成的音频输出通过上采样恢复其采样率。
步骤3:将仿真数据库经过梅尔频率倒谱系数与混合高斯模型结合的筛选分类器筛选出逼真数据与欠逼真数据。采用基于短时能量、基于短时过零率的端点检测,使用基于梅尔频率倒谱系数的混合高斯模型作为筛选分类器,对仿真数据进行筛选。先将音频经过巴特沃斯滤波器进行初步清洗,再对枪声信号进行端点检测。通过梅尔频率转换、梅尔滤波器滤波、对数处理、余弦变换将枪声片段转化为梅尔频率倒谱系数特征向量,然后输入混合高斯模型中进行分类。用真实枪声数据库对筛选分类器进行训练,然后用训练好的筛选分类器对仿真数据进行筛选,将仿真数据划分为逼真数据和欠逼真数据。
步骤4:将真实枪声数据库经过传统数据增强方法生成增强数据。通过添加噪声、时域平移、音高平移、调整采样率、时域拉伸及多宽度频率增量、声音扰动、频谱增强等方法进行音频数据增强。每一种数据增强方法均可以基于真实数据得到一定数量的新数据。
步骤5:将逼真数据、增强数据与真实枪声数据库组合成增广数据。
步骤6:向增广数据中混入背景声音形成所需的训练集。随机选定枪声音频在背景声音频中的开始位置si,si∈[0,LB-LE],并按公式对枪声音频Ei′(t)进行补齐,然后将枪声音频Ei(t)与背景声音频Bi(t)按比例R进行混合。
步骤7:将所获得的训练集放入C-RNN中训练枪声检测模型。C-RNN模型从训练集读入音频数据D(t)后,依次对D(t)及进行分帧、加窗操作,将分帧、加窗后的数据进行梅尔频率转换,通过nmel组梅尔滤波器滤波并取对数得到对数梅尔频谱logMel(w,fmel),w和fmel分别为帧的总数和梅尔频率。对于梅尔频谱logMel(w,f)上的每一帧wi,使用nconv个尺寸均为的lconv的1维卷积核进行滑动卷积操作得到nconv个卷积输出,每个均为(nmel-lconv+1)×1的向量。对每个向量进行最大池化操作,最终每一帧wi在卷积处理后,均得到nconv个标量输出。将每一帧的nconv个输出送入nconv个输入的RNN网络中。RNN网络中每层均有nconv个LSTM神经单元,经过多层LSTM网络后,数据送到RNN网络的输出层。RNN网络输出层的nconv个输出送入全连接层,经过多个全连接层后,以一个sigmoid函数作为输出,输出即为枪声事件出现的可能性预测。在每个迭代周期结束后使用测试集数据测试C-RNN的正确率并将损失函数结果反馈给神经网络,直至其收敛。
步骤8:使用基于互相关的模板粗匹配方法加速C-RNN的训练。使用对抗神经网络生成的模板与实际检测数据进行互相关卷积运算,然后根据互相关S(t)的大小匹配最可能出现枪声的位置。
步骤9:将需要检测的数据放入C-RNN即可完成检测。
本发明中基于对抗神经网络的枪声数据增广与检测方法能够实现以下功能:
可以实现枪声事件检测。
可以实现从较少初始数据集扩充到较大数据集且不丢失其特征。
可以实现对数据集数据的筛选与分类。
可以实现对音频模板的粗匹配检测加速。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。
Claims (10)
1.一种基于对抗神经网络的枪声数据增广与检测方法,其特征在于:包括以下步骤:
(1)对数据库中的真实数据进行音频数据增强,得到增强数据;
(2)用真实数据训练对抗神经网络;
(3)通过对抗神经网络生成仿真数据;
(4)使用筛选分类器对仿真数据进行筛选,得到逼真数据和欠逼真数据;
(5)合并增强数据和逼真数据,得到增广数据;
(6)将增广数据中的枪声音频与背景声音频进行混合得到数据集;
(7)将数据集分割为训练集和测试集,并分别用训练集和测试集对C-RNN模型进行训练和测试;
(8)对于较长的音频,使用枪声模板在音频中进行粗定位,再通过C-RNN模型做枪声检测。
2.根据权利要求1所述的一种基于对抗神经网络的枪声数据增广与检测方法,其特征在于:步骤(1)中,通过添加噪声、时域平移、音高平移、调整采样率、时域拉伸及多宽度频率增量、声音扰动、频谱增强各种方法进行音频数据增强。
3.根据权利要求1所述的一种基于对抗神经网络的枪声数据增广与检测方法,其特征在于:步骤(2)中,对抗神经网络由生成器G和判别器D组成,所述生成器G由多个全连接层和多个反卷积层组成,随机向量输入生成器G后,首先经过多个全连接层调整至合适长度,然后通过多层反卷积得到音频向量;所述判别器D由多个卷积层和多个全连接层组成,音频向量输入判别器D后,首先经过多个卷积池化层进行特征提取,然后由多个全连接层得到单一输出,最后通过sigmoid函数输出判别,所述生成器G的输入是随机向量,输出是其生成的仿真音频向量,判别器的输入是仿真音频向量或真实音频向量,在两者之间切换,输出是对仿真音频和真实音频的判别,判别结果通过损失函数反馈给生成器G和判别器D,生成器G和判别器D根据损失函数的反馈调整网络参数,迭代直到损失函数收敛。
4.根据权利要求1所述的一种基于对抗神经网络的枪声数据增广与检测方法,其特征在于:步骤(3)中,以随机向量作为对抗神经网络的输入,每个随机输入通过对抗神经网络均得到一个枪声仿真音频,重复此操作直至数据量达到一定规模,形成仿真数据。
5.根据权利要求1所述的一种基于对抗神经网络的枪声数据增广与检测方法,其特征在于:步骤(3)中,使用全1向量代替随机向量,输入对抗神经网络的生成器G获取用于一个用于目标粗定位的枪声模板K(t)。
6.根据权利要求1所述的一种基于对抗神经网络的枪声数据增广与检测方法,其特征在于:步骤(4)中,使用基于梅尔频率倒谱系数的混合高斯模型作为筛选分类器,对仿真数据进行筛选。
7.根据权利要求1所述的一种基于对抗神经网络的枪声数据增广与检测方法,其特征在于:步骤(4)中,采用基于短时能量、基于短时过零率的端点检测,先将音频经过巴特沃斯滤波器进行初步清洗,再对枪声信号进行端点检测。通过梅尔频率转换、梅尔滤波器滤波、对数处理、余弦变换将枪声片段转化为梅尔频率倒谱系数特征向量,然后输入混合高斯模型中进行分类,用真实枪声数据库对筛选分类器进行训练。然后用训练好的筛选分类器对仿真数据进行筛选,将仿真数据划分为逼真数据和欠逼真数据。
8.根据权利要求1所述的一种基于对抗神经网络的枪声数据增广与检测方法,其特征在于:步骤(6)中,对于第i次混合,设枪声音频Ei′(t)共有LE个采样点,背景声音频Bi(t)共有LB个采样点,则随机选定枪声音频在背景声音频中的开始位置si,si∈[0,LB-LE],并按下式对枪声音频Ei′(t)进行补齐:
其中,Ei(t)是补齐后的枪声音频。
步骤(6)中,将枪声音频Ei(t)与背景声音频Bi(t)按比例R进行混合:
Di(t)=Bi(t)+EBR·Mi·Ei(t)
其中,LE是枪声音频Ei(t)的采样点总数,LB是背景声音频Bi(t)的采样点总数,Mi为混入系数,每次计算时Mi有50%的概率取1,否则取0,每次混合时,R依次取-6dB,0dB,6dB得到3个混合结果Di-6dB(t),DiodB(t),Di+6dB(t),并将其加入数据集。
9.根据权利要求1所述的一种基于对抗神经网络的枪声数据增广与检测方法,其特征在于:步骤(7)中,C-RNN模型从训练集读入音频数据D(t)后,依次对D(t)及进行分帧、加窗操作,将分帧、加窗后的数据进行梅尔频率转换,通过nmel组梅尔滤波器滤波并取对数得到对数梅尔频谱logMel(w,fmel),w和fmel分别为帧的总数和梅尔频率,对于梅尔频谱logMel(w,f)上的每一帧wi,使用nconv个尺寸均为的lconv的1维卷积核进行滑动卷积操作得到nconv个卷积输出,每个均为(nmel-lconv+1)×1的向量,对每个向量进行最大池化操作,最终每一帧wi在卷积处理后,均得到nconv个标量输出,将每一帧的nconv个输出送入nconv个输入的RNN网络中,RNN网络中每层均有nconv个LSTM神经单元,经过多层LSTM网络后,数据送到RNN网络的输出层,RNN网络输出层的nconv个输出送入全连接层,经过多个全连接层后,以一个sigmoid函数作为输出,输出即为枪声事件出现的可能性预测,每个迭代周期结束后使用测试集数据测试C-RNN的正确率并将损失函数结果反馈给神经网络,直至其收敛。
10.根据权利要求1所述的一种基于对抗神经网络的枪声数据增广与检测方法,其特征在于:步骤(8)中,使用对抗神经网络生成的模板与实际检测数据进行互相关卷积运算:
S(t)=D(t)*K(t)
其中D(t)为音频序列,K(t)为枪声模板,
然后根据互相关S(t)的大小匹配音频中枪声最可能出现的位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010932883.5A CN112133326A (zh) | 2020-09-08 | 2020-09-08 | 一种基于对抗神经网络的枪声数据增广与检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010932883.5A CN112133326A (zh) | 2020-09-08 | 2020-09-08 | 一种基于对抗神经网络的枪声数据增广与检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112133326A true CN112133326A (zh) | 2020-12-25 |
Family
ID=73847422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010932883.5A Pending CN112133326A (zh) | 2020-09-08 | 2020-09-08 | 一种基于对抗神经网络的枪声数据增广与检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112133326A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112669284A (zh) * | 2020-12-29 | 2021-04-16 | 天津大学 | 一种利用生成对抗网络来实现肺结节检测的方法 |
CN113611293A (zh) * | 2021-08-19 | 2021-11-05 | 内蒙古工业大学 | 一种蒙古语数据集扩充方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103021421A (zh) * | 2012-12-24 | 2013-04-03 | 天津大学 | 用于枪声的多级筛选检测识别方法 |
US20190057189A1 (en) * | 2017-08-17 | 2019-02-21 | Innovative World Solutions, LLC | Alert and Response Integration System, Device, and Process |
CN109599126A (zh) * | 2018-12-29 | 2019-04-09 | 广州丰石科技有限公司 | 一种基于mel能量谱和卷积神经网络的声音故障识别方法 |
CN109671433A (zh) * | 2019-01-10 | 2019-04-23 | 腾讯科技(深圳)有限公司 | 一种关键词的检测方法以及相关装置 |
CN109767785A (zh) * | 2019-03-06 | 2019-05-17 | 河北工业大学 | 基于卷积神经网络的环境噪声识别分类方法 |
CN110085215A (zh) * | 2018-01-23 | 2019-08-02 | 中国科学院声学研究所 | 一种基于生成对抗网络的语言模型数据增强方法 |
CN110516561A (zh) * | 2019-08-05 | 2019-11-29 | 西安电子科技大学 | 基于dcgan和cnn的sar图像目标识别方法 |
US20200162489A1 (en) * | 2018-11-16 | 2020-05-21 | Airspace Systems, Inc. | Security event detection and threat assessment |
CN111477247A (zh) * | 2020-04-01 | 2020-07-31 | 宁波大学 | 基于gan的语音对抗样本生成方法 |
CN111599376A (zh) * | 2020-06-01 | 2020-08-28 | 华南理工大学 | 一种基于空洞卷积循环神经网络的声音事件检测方法 |
CN111603776A (zh) * | 2020-05-21 | 2020-09-01 | 上海艾为电子技术股份有限公司 | 音频数据中枪声的识别方法、马达的驱动方法及相关装置 |
-
2020
- 2020-09-08 CN CN202010932883.5A patent/CN112133326A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103021421A (zh) * | 2012-12-24 | 2013-04-03 | 天津大学 | 用于枪声的多级筛选检测识别方法 |
US20190057189A1 (en) * | 2017-08-17 | 2019-02-21 | Innovative World Solutions, LLC | Alert and Response Integration System, Device, and Process |
CN110085215A (zh) * | 2018-01-23 | 2019-08-02 | 中国科学院声学研究所 | 一种基于生成对抗网络的语言模型数据增强方法 |
US20200162489A1 (en) * | 2018-11-16 | 2020-05-21 | Airspace Systems, Inc. | Security event detection and threat assessment |
CN109599126A (zh) * | 2018-12-29 | 2019-04-09 | 广州丰石科技有限公司 | 一种基于mel能量谱和卷积神经网络的声音故障识别方法 |
CN109671433A (zh) * | 2019-01-10 | 2019-04-23 | 腾讯科技(深圳)有限公司 | 一种关键词的检测方法以及相关装置 |
CN109767785A (zh) * | 2019-03-06 | 2019-05-17 | 河北工业大学 | 基于卷积神经网络的环境噪声识别分类方法 |
CN110516561A (zh) * | 2019-08-05 | 2019-11-29 | 西安电子科技大学 | 基于dcgan和cnn的sar图像目标识别方法 |
CN111477247A (zh) * | 2020-04-01 | 2020-07-31 | 宁波大学 | 基于gan的语音对抗样本生成方法 |
CN111603776A (zh) * | 2020-05-21 | 2020-09-01 | 上海艾为电子技术股份有限公司 | 音频数据中枪声的识别方法、马达的驱动方法及相关装置 |
CN111599376A (zh) * | 2020-06-01 | 2020-08-28 | 华南理工大学 | 一种基于空洞卷积循环神经网络的声音事件检测方法 |
Non-Patent Citations (4)
Title |
---|
张克明 等: "基于生成对抗网络的稀有音频事件检测研究", 《信息工程大学学报》, vol. 20, no. 5, 31 October 2019 (2019-10-31), pages 542 - 546 * |
杨吕祥: "基于改进的CRNN的暴力音频事件检测方法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科学辑》, no. 7, 15 July 2020 (2020-07-15), pages 136 - 220 * |
王诗佳: "基于深度学习的声音事件识别研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科学辑》, no. 5, 15 May 2019 (2019-05-15), pages 136 - 131 * |
赵杰: "基于深度学习的危险声音检测技术研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科学辑》, no. 8, 15 August 2020 (2020-08-15), pages 136 - 75 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112669284A (zh) * | 2020-12-29 | 2021-04-16 | 天津大学 | 一种利用生成对抗网络来实现肺结节检测的方法 |
CN113611293A (zh) * | 2021-08-19 | 2021-11-05 | 内蒙古工业大学 | 一种蒙古语数据集扩充方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108711436B (zh) | 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法 | |
CN110827837B (zh) | 一种基于深度学习的鲸鱼活动音频分类方法 | |
CN107393542A (zh) | 一种基于双通道神经网络的鸟类物种识别方法 | |
CN109065072A (zh) | 一种基于深度神经网络的语音质量客观评价方法 | |
CN108922513A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
Sun et al. | Underwater single-channel acoustic signal multitarget recognition using convolutional neural networks | |
CN110148425A (zh) | 一种基于完整局部二进制模式的伪装语音检测方法 | |
CN108198561A (zh) | 一种基于卷积神经网络的翻录语音检测方法 | |
CN112133326A (zh) | 一种基于对抗神经网络的枪声数据增广与检测方法 | |
CN114863937B (zh) | 基于深度迁移学习与XGBoost的混合鸟鸣识别方法 | |
CN112259120A (zh) | 基于卷积循环神经网络的单通道人声与背景声分离方法 | |
CN113191178A (zh) | 一种基于听觉感知特征深度学习的水声目标识别方法 | |
CN109036470A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
Taenzer et al. | Investigating CNN-based Instrument Family Recognition for Western Classical Music Recordings. | |
CN117275510A (zh) | 一种基于多梯度流网络的小样本水声目标识别方法及系统 | |
CN110136746B (zh) | 一种基于融合特征的加性噪声环境下手机来源识别方法 | |
Lu et al. | Shallow convolutional neural networks for acoustic scene classification | |
Xu et al. | Self-supervised learning–based underwater acoustical signal classification via mask modeling | |
Lu et al. | Detecting Unknown Speech Spoofing Algorithms with Nearest Neighbors. | |
Chen et al. | Underwater acoustic target classification with joint learning framework and data augmentation | |
CN113658607A (zh) | 基于数据增强和卷积循环神经网络的环境声音分类方法 | |
CN110580915B (zh) | 基于可穿戴式设备的声源目标识别系统 | |
CN110444225B (zh) | 基于特征融合网络的声源目标识别方法 | |
CN115586516A (zh) | 一种基于深度学习和多特征提取的舰船辐射噪声识别方法 | |
CN115620731A (zh) | 一种语音特征提取与检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201225 |
|
RJ01 | Rejection of invention patent application after publication |