CN112133326A - 一种基于对抗神经网络的枪声数据增广与检测方法 - Google Patents

一种基于对抗神经网络的枪声数据增广与检测方法 Download PDF

Info

Publication number
CN112133326A
CN112133326A CN202010932883.5A CN202010932883A CN112133326A CN 112133326 A CN112133326 A CN 112133326A CN 202010932883 A CN202010932883 A CN 202010932883A CN 112133326 A CN112133326 A CN 112133326A
Authority
CN
China
Prior art keywords
data
gunshot
audio
neural network
mel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010932883.5A
Other languages
English (en)
Inventor
招梓枫
李煊鹏
林涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010932883.5A priority Critical patent/CN112133326A/zh
Publication of CN112133326A publication Critical patent/CN112133326A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明专利公开了一种基于对抗神经网络的枪声数据增广与检测方法,包括:对数据库中的真实枪声进行音频数据增强,得到增强数据;基于真实枪声数据,通过对抗神经网络生成仿真数据;筛选分类器对仿真数据进行筛选得到逼真数据,逼真数据与增强数据组成增广数据;增广数据与背景音频混叠后得到数据集,并划分为训练集和测试集;训练C‑RNN模型并用其实现最终的枪声检测识别。本发明解决了枪声事件检测中数据量不足而导致的特征不明显或部分误检的问题,主要的技术包括:音频数据增强;使用对抗神经网络生成新的数据;使用梅尔频率倒谱系数与混合高斯模型结合的筛选分类器;使用C‑RNN对枪声进行检测;在长音频数据中通过枪声模板粗定位加速检测。

Description

一种基于对抗神经网络的枪声数据增广与检测方法
技术领域
本发明属于人工智能声学检测领域,具体涉及一种基于对抗神经网络的枪声数据增广与检测方法
背景技术
枪声事件检测是声学信号处理的一个应用,在安全监控、场景分析、危机处理、法律取证等领域由广阔的应用前景。常见的声学事件检测包括波形检测、模板匹配等基于一维时域的波形分析方法,混合高斯模型、支持向量机、随机森林等基于声学特征与机器学习的方法,以及近年涌现的基于梅尔频谱与深度神经网络的深度学习方法等。
专利文献1(公开号:CN105424170A)公开了一种基于时域分析的枪声检测方法。(发明名称:一种枪声探测计数方法及系统)。该方法主要通过短时幅度上升沿检测来实现枪声识别,在枪声-背景信噪比低的情况下枪声信号可能会被淹没而导致漏检;专利文献2(公开号:CN104916289A)公开了一种基于支持向量机的声学事件检测方法(发明名称:行车噪声环境下快速声学事件的检测方法)。该方法使用梅尔频率倒谱系数作为特征,使用支持向量机作为分类器,并用噪声模型进行去噪。该方法中没有对数据集进行数据增强和规模扩充,数据多样性以及分类器的泛化性能受到限制;专利文献3(公开号:CN110808033A)公开了一种音频数据增强方法(发明名称:一种基于双重数据增强策略的音频分类方法)。该方法使用了旋转、调音、变调、加噪四种增强方法以及转化为语谱图再通过随机替换均值进行二次数据增强的方法,但该方法对原始数据的多样性扩充仍比较有限。
近年来出现了基于梅尔频谱与深度神经网络的声学事件检测方法,这种方法需要利用大规模的数据集进行数据驱动模型训练,并在大规模声学事件检测中获得了较好的效果。但是由于枪击的特殊性,枪声数据在获取上存在较大困难,因此难以获得规模足够大的可用数据集。
数据增强技术可以增加数据的多样性和数量。常见的音频数据增强方法的包括添加噪声、时域平移、音高平移、调整采样率、时域拉伸等,以及近年出现的多宽度频率增量、声音扰动、频谱增强等方法。这类方法都是在原有音频的时域或频域上进行有限的改动,对整体数据集的规模扩充效果十分有限。
发明内容
为解决上述问题,本发明公开了一种基于对抗神经网络的枪声数据增广与检测方法,使用对抗神经网络和数据增强结合的方法对枪声数据集进行规模增广;使用C-RNN对枪声进行检测实现效率与准确率的平衡;基于互相关算法的模板粗匹配加速较长音频的检测速度。
为达到上述目的,本发明的技术方案如下:
一种基于对抗神经网络的枪声数据增广与检测方法,包括以下步骤:
(1)对数据库中的真实数据进行音频数据增强,得到增强数据;
(2)用真实数据训练对抗神经网络;
(3)通过对抗神经网络生成仿真数据;
(4)使用筛选分类器对仿真数据进行筛选,得到逼真数据和欠逼真数据;
(5)合并增强数据和逼真数据,得到增广数据;
(6)将增广数据中的枪声音频与背景声音频进行混合得到数据集;
(7)将数据集分割为训练集和测试集,并分别用训练集和测试集对C-RNN模型进行训练和测试;
(8)对于较长的音频,使用枪声模板在音频中进行粗定位,再通过C-RNN模型做枪声检测。
进一步的,步骤(1)中,通过添加噪声、时域平移、音高平移、调整采样率、时域拉伸及多宽度频率增量、声音扰动、频谱增强各种方法进行音频数据增强。
进一步的,步骤(1)中,每一种数据增强方法均可以基于真实数据得到一定数量的新数据。
进一步的,步骤(2)中,对抗神经网络由生成器G和判别器D组成。
进一步的,步骤(2)中,生成器G由多个全连接层和多个反卷积层组成。随机向量输入生成器G后,首先经过多个全连接层调整至合适长度,然后通过多层反卷积得到音频向量。
进一步的,步骤(2)中,判别器D由多个卷积层和多个全连接层组成。音频向量输入判别器D后,首先经过多个卷积池化层进行特征提取,然后由多个全连接层得到单一输出,最后通过sigmoid函数输出判别。
进一步的,步骤(2)中,生成器G的输入是随机向量,输出是其生成的仿真音频向量。判别器的输入是仿真音频向量或真实音频向量,在两者之间切换,输出是对仿真音频和真实音频的判别,判别结果通过损失函数反馈给生成器G和判别器D。
进一步的,步骤(2)中,生成器G和判别器D根据损失函数的反馈调整网络参数,迭代直到损失函数收敛。
进一步的,步骤(2)中,音频数据输入对抗神经网络之前,先进行降采样操作以提高对抗神经网络的处理效率和收敛速度。对抗神经网络生成的音频输出通过上采样恢复其采样率。
进一步的,步骤(3)中,以随机向量作为对抗神经网络的输入,每个随机输入通过对抗神经网络均得到一个枪声仿真音频,重复此操作直至数据量达到一定规模,形成仿真数据。
进一步的,步骤(3)中,使用全1向量代替随机向量,输入对抗神经网络的生成器G获取用于一个用于目标粗定位的枪声模板K(t)。
进一步的,步骤(4)中,使用基于梅尔频率倒谱系数的混合高斯模型作为筛选分类器,对仿真数据进行筛选。
进一步的,步骤(4)中,先将音频经过巴特沃斯滤波器进行初步清洗,再对枪声信号进行端点检测。通过梅尔频率转换、梅尔滤波器滤波、对数处理、余弦变换将枪声片段转化为梅尔频率倒谱系数特征向量,然后输入混合高斯模型中进行分类。
进一步的,步骤(4)中,先用真实枪声数据库对筛选分类器进行训练。然后用训练好的筛选分类器对仿真数据进行筛选,将仿真数据划分为逼真数据和欠逼真数据。
进一步的,步骤(4)中,采用基于短时能量、基于短时过零率的端点检测。
进一步的,步骤(6)中,对于第i次混合,设枪声音频Ei′(t)共有LE个采样点,背景声音频Bi(t)共有LB个采样点,则随机选定枪声音频在背景声音频中的开始位置si,si∈[0,LB-LE],并按下式对枪声音频Ei′(t)进行补齐:
Figure BDA0002670881800000031
其中,Ei(t)是补齐后的枪声音频。
进一步的,步骤(5)中,将枪声音频Ei(t)与背景声音频Bi(t)按比例R进行混合:
Figure BDA0002670881800000032
Di(t)=Bi(t)+EBR·Mi·Ei(t)
其中,LE是枪声音频Ei(t)的采样点总数,LB是背景声音频Bi(t)的采样点总数,Mi为混入系数,每次计算时Mi有50%的概率取1,否则取0。每次混合时,R依次取-6dB,0dB,6dB得到3个混合结果Di-6dB(t),DiodB(t),Di+6dB(t),并将其加入数据集。
进一步的,步骤(7)中,C-RNN模型从训练集读入音频数据D(t)后,依次对D(t)及进行分帧、加窗操作,将分帧、加窗后的数据进行梅尔频率转换,通过nmel组梅尔滤波器滤波并取对数得到对数梅尔频谱logMel(w,fmel),w和fmel分别为帧的总数和梅尔频率。
进一步的,步骤(7)中,对于梅尔频谱logMel(w,f)上的每一帧wi,使用nconv个尺寸均为的lconv的1维卷积核进行滑动卷积操作得到nconv个卷积输出,每个均为(nmel-lconv+1)×1的向量。对每个向量进行最大池化操作,最终每一帧wi在卷积处理后,均得到nconv个标量输出。
进一步的,步骤(7)中,将每一帧的nconv个输出送入nconv个输入的RNN网络中。RNN网络中每层均有nconv个LSTM神经单元,经过多层LSTM网络后,数据送到RNN网络的输出层。
进一步的,步骤(7)中,RNN网络输出层的nconv个输出送入全连接层,经过多个全连接层后,以一个sigmoid函数作为输出,输出即为枪声事件出现的可能性预测。
进一步的,步骤(7)中,每个迭代周期结束后使用测试集数据测试C-RNN的正确率并将损失函数结果反馈给神经网络,直至其收敛。
进一步的,步骤(8)中,使用对抗神经网络生成的模板与实际检测数据进行互相关卷积运算:
S(t)=D(t)*K(t)
其中D(t)为音频序列,K(t)为枪声模板。
进一步的,步骤(8)中,根据互相关S(t)的大小匹配最可能出现枪声的位置。
本发明的有益效果:
本发明克服了基于深度学习的枪声事件检测中数据集规模太小而导致的问题,适用于各类的枪声检测应用;使用对抗神经网络和数据增强结合的方法对枪声数据集进行规模增广;使用C-RNN对枪声进行检测实现效率与准确率的平衡;基于互相关算法的模板粗匹配可以加速较长音频的检测速度;方法兼容性强,对于其他声学数据集扩充也具有借鉴意义。
附图说明
图1为本方法的实施架构。
图2为生成对抗网络的实施架构。
图3为生成器G的结构与判别器D的结构对比图。
图4为C-RNN的实施架构。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
生成对抗网络是一种基于博弈论的神经网络模型。在生成对抗网络中,生成器G负责生成内容,判别器D则负责分辨内容的真伪。经过不断的迭代后,生成器G和判别器D的博弈达到纳什均衡,即判别器D已无法分辨内容到底来自生成器G还是来自真实数据,此时生成器G生成的内容具有很高的逼真度。本发明就是根据这个原理,使用对抗神经网络和数据增强结合的方法对枪声数据集进行规模增广,使用C-RNN对枪声进行检测,具体如图1所示,包括以下部分:
(1)对数据库中的真实数据进行音频数据增强,得到增强数据;
(2)训练对抗神经网络;
(3)通过对抗神经网络生成仿真数据;
(4)使用筛选分类器对仿真数据进行筛选,得到逼真数据和欠逼真数据;
(5)合并增强数据和逼真数据,得到增广数据;
(6)将增广数据中的枪声音频与背景声音频进行混合;
(7)将数据集分割为训练集和测试集,并分别用训练集和测试集对C-RNN模型进行训练和测试;
(8)对于较长的音频,使用枪声模板在音频中进行粗定位,再通过C-RNN模型做枪声检测。
具体而言,基于对抗神经网络的枪声数据增广与检测方法的操作过程为:
步骤1:获取真实枪声数据库。
步骤2:将真实枪声数据库进行降采样处理,通过对抗神经网络生成仿真数据库并将其上采样。音频数据输入对抗神经网络之前,先进行降采样操作以提高对抗神经网络的处理效率和收敛速度。对抗神经网络由生成器G和判别器D组成,生成器G由多个全连接层和多个反卷积层组成。随机向量输入生成器G后,首先经过多个全连接层调整至合适长度,然后通过多层反卷积得到音频向量。判别器D由多个卷积层和多个全连接层组成。音频向量输入判别器D后,首先经过多个卷积池化层进行特征提取,然后由多个全连接层得到单一输出,最后通过sigmoid函数输出判别。生成器G和判别器D根据损失函数的反馈调整网络参数,迭代直到损失函数收敛。以随机向量作为对抗神经网络的输入,每个随机输入通过对抗神经网络均得到一个枪声仿真音频,重复此操作直至数据量达到一定规模,形成仿真数据。其次,使用全1向量代替随机向量,输入对抗神经网络的生成器G获取用于一个用于目标粗定位的枪声模板K(t)。对抗神经网络生成的音频输出通过上采样恢复其采样率。
步骤3:将仿真数据库经过梅尔频率倒谱系数与混合高斯模型结合的筛选分类器筛选出逼真数据与欠逼真数据。采用基于短时能量、基于短时过零率的端点检测,使用基于梅尔频率倒谱系数的混合高斯模型作为筛选分类器,对仿真数据进行筛选。先将音频经过巴特沃斯滤波器进行初步清洗,再对枪声信号进行端点检测。通过梅尔频率转换、梅尔滤波器滤波、对数处理、余弦变换将枪声片段转化为梅尔频率倒谱系数特征向量,然后输入混合高斯模型中进行分类。用真实枪声数据库对筛选分类器进行训练,然后用训练好的筛选分类器对仿真数据进行筛选,将仿真数据划分为逼真数据和欠逼真数据。
步骤4:将真实枪声数据库经过传统数据增强方法生成增强数据。通过添加噪声、时域平移、音高平移、调整采样率、时域拉伸及多宽度频率增量、声音扰动、频谱增强等方法进行音频数据增强。每一种数据增强方法均可以基于真实数据得到一定数量的新数据。
步骤5:将逼真数据、增强数据与真实枪声数据库组合成增广数据。
步骤6:向增广数据中混入背景声音形成所需的训练集。随机选定枪声音频在背景声音频中的开始位置si,si∈[0,LB-LE],并按公式对枪声音频Ei′(t)进行补齐,然后将枪声音频Ei(t)与背景声音频Bi(t)按比例R进行混合。
步骤7:将所获得的训练集放入C-RNN中训练枪声检测模型。C-RNN模型从训练集读入音频数据D(t)后,依次对D(t)及进行分帧、加窗操作,将分帧、加窗后的数据进行梅尔频率转换,通过nmel组梅尔滤波器滤波并取对数得到对数梅尔频谱logMel(w,fmel),w和fmel分别为帧的总数和梅尔频率。对于梅尔频谱logMel(w,f)上的每一帧wi,使用nconv个尺寸均为的lconv的1维卷积核进行滑动卷积操作得到nconv个卷积输出,每个均为(nmel-lconv+1)×1的向量。对每个向量进行最大池化操作,最终每一帧wi在卷积处理后,均得到nconv个标量输出。将每一帧的nconv个输出送入nconv个输入的RNN网络中。RNN网络中每层均有nconv个LSTM神经单元,经过多层LSTM网络后,数据送到RNN网络的输出层。RNN网络输出层的nconv个输出送入全连接层,经过多个全连接层后,以一个sigmoid函数作为输出,输出即为枪声事件出现的可能性预测。在每个迭代周期结束后使用测试集数据测试C-RNN的正确率并将损失函数结果反馈给神经网络,直至其收敛。
步骤8:使用基于互相关的模板粗匹配方法加速C-RNN的训练。使用对抗神经网络生成的模板与实际检测数据进行互相关卷积运算,然后根据互相关S(t)的大小匹配最可能出现枪声的位置。
步骤9:将需要检测的数据放入C-RNN即可完成检测。
本发明中基于对抗神经网络的枪声数据增广与检测方法能够实现以下功能:
可以实现枪声事件检测。
可以实现从较少初始数据集扩充到较大数据集且不丢失其特征。
可以实现对数据集数据的筛选与分类。
可以实现对音频模板的粗匹配检测加速。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。

Claims (10)

1.一种基于对抗神经网络的枪声数据增广与检测方法,其特征在于:包括以下步骤:
(1)对数据库中的真实数据进行音频数据增强,得到增强数据;
(2)用真实数据训练对抗神经网络;
(3)通过对抗神经网络生成仿真数据;
(4)使用筛选分类器对仿真数据进行筛选,得到逼真数据和欠逼真数据;
(5)合并增强数据和逼真数据,得到增广数据;
(6)将增广数据中的枪声音频与背景声音频进行混合得到数据集;
(7)将数据集分割为训练集和测试集,并分别用训练集和测试集对C-RNN模型进行训练和测试;
(8)对于较长的音频,使用枪声模板在音频中进行粗定位,再通过C-RNN模型做枪声检测。
2.根据权利要求1所述的一种基于对抗神经网络的枪声数据增广与检测方法,其特征在于:步骤(1)中,通过添加噪声、时域平移、音高平移、调整采样率、时域拉伸及多宽度频率增量、声音扰动、频谱增强各种方法进行音频数据增强。
3.根据权利要求1所述的一种基于对抗神经网络的枪声数据增广与检测方法,其特征在于:步骤(2)中,对抗神经网络由生成器G和判别器D组成,所述生成器G由多个全连接层和多个反卷积层组成,随机向量输入生成器G后,首先经过多个全连接层调整至合适长度,然后通过多层反卷积得到音频向量;所述判别器D由多个卷积层和多个全连接层组成,音频向量输入判别器D后,首先经过多个卷积池化层进行特征提取,然后由多个全连接层得到单一输出,最后通过sigmoid函数输出判别,所述生成器G的输入是随机向量,输出是其生成的仿真音频向量,判别器的输入是仿真音频向量或真实音频向量,在两者之间切换,输出是对仿真音频和真实音频的判别,判别结果通过损失函数反馈给生成器G和判别器D,生成器G和判别器D根据损失函数的反馈调整网络参数,迭代直到损失函数收敛。
4.根据权利要求1所述的一种基于对抗神经网络的枪声数据增广与检测方法,其特征在于:步骤(3)中,以随机向量作为对抗神经网络的输入,每个随机输入通过对抗神经网络均得到一个枪声仿真音频,重复此操作直至数据量达到一定规模,形成仿真数据。
5.根据权利要求1所述的一种基于对抗神经网络的枪声数据增广与检测方法,其特征在于:步骤(3)中,使用全1向量代替随机向量,输入对抗神经网络的生成器G获取用于一个用于目标粗定位的枪声模板K(t)。
6.根据权利要求1所述的一种基于对抗神经网络的枪声数据增广与检测方法,其特征在于:步骤(4)中,使用基于梅尔频率倒谱系数的混合高斯模型作为筛选分类器,对仿真数据进行筛选。
7.根据权利要求1所述的一种基于对抗神经网络的枪声数据增广与检测方法,其特征在于:步骤(4)中,采用基于短时能量、基于短时过零率的端点检测,先将音频经过巴特沃斯滤波器进行初步清洗,再对枪声信号进行端点检测。通过梅尔频率转换、梅尔滤波器滤波、对数处理、余弦变换将枪声片段转化为梅尔频率倒谱系数特征向量,然后输入混合高斯模型中进行分类,用真实枪声数据库对筛选分类器进行训练。然后用训练好的筛选分类器对仿真数据进行筛选,将仿真数据划分为逼真数据和欠逼真数据。
8.根据权利要求1所述的一种基于对抗神经网络的枪声数据增广与检测方法,其特征在于:步骤(6)中,对于第i次混合,设枪声音频Ei′(t)共有LE个采样点,背景声音频Bi(t)共有LB个采样点,则随机选定枪声音频在背景声音频中的开始位置si,si∈[0,LB-LE],并按下式对枪声音频Ei′(t)进行补齐:
Figure FDA0002670881790000021
其中,Ei(t)是补齐后的枪声音频。
步骤(6)中,将枪声音频Ei(t)与背景声音频Bi(t)按比例R进行混合:
Figure FDA0002670881790000022
Di(t)=Bi(t)+EBR·Mi·Ei(t)
其中,LE是枪声音频Ei(t)的采样点总数,LB是背景声音频Bi(t)的采样点总数,Mi为混入系数,每次计算时Mi有50%的概率取1,否则取0,每次混合时,R依次取-6dB,0dB,6dB得到3个混合结果Di-6dB(t),DiodB(t),Di+6dB(t),并将其加入数据集。
9.根据权利要求1所述的一种基于对抗神经网络的枪声数据增广与检测方法,其特征在于:步骤(7)中,C-RNN模型从训练集读入音频数据D(t)后,依次对D(t)及进行分帧、加窗操作,将分帧、加窗后的数据进行梅尔频率转换,通过nmel组梅尔滤波器滤波并取对数得到对数梅尔频谱logMel(w,fmel),w和fmel分别为帧的总数和梅尔频率,对于梅尔频谱logMel(w,f)上的每一帧wi,使用nconv个尺寸均为的lconv的1维卷积核进行滑动卷积操作得到nconv个卷积输出,每个均为(nmel-lconv+1)×1的向量,对每个向量进行最大池化操作,最终每一帧wi在卷积处理后,均得到nconv个标量输出,将每一帧的nconv个输出送入nconv个输入的RNN网络中,RNN网络中每层均有nconv个LSTM神经单元,经过多层LSTM网络后,数据送到RNN网络的输出层,RNN网络输出层的nconv个输出送入全连接层,经过多个全连接层后,以一个sigmoid函数作为输出,输出即为枪声事件出现的可能性预测,每个迭代周期结束后使用测试集数据测试C-RNN的正确率并将损失函数结果反馈给神经网络,直至其收敛。
10.根据权利要求1所述的一种基于对抗神经网络的枪声数据增广与检测方法,其特征在于:步骤(8)中,使用对抗神经网络生成的模板与实际检测数据进行互相关卷积运算:
S(t)=D(t)*K(t)
其中D(t)为音频序列,K(t)为枪声模板,
然后根据互相关S(t)的大小匹配音频中枪声最可能出现的位置。
CN202010932883.5A 2020-09-08 2020-09-08 一种基于对抗神经网络的枪声数据增广与检测方法 Pending CN112133326A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010932883.5A CN112133326A (zh) 2020-09-08 2020-09-08 一种基于对抗神经网络的枪声数据增广与检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010932883.5A CN112133326A (zh) 2020-09-08 2020-09-08 一种基于对抗神经网络的枪声数据增广与检测方法

Publications (1)

Publication Number Publication Date
CN112133326A true CN112133326A (zh) 2020-12-25

Family

ID=73847422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010932883.5A Pending CN112133326A (zh) 2020-09-08 2020-09-08 一种基于对抗神经网络的枪声数据增广与检测方法

Country Status (1)

Country Link
CN (1) CN112133326A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112669284A (zh) * 2020-12-29 2021-04-16 天津大学 一种利用生成对抗网络来实现肺结节检测的方法
CN113611293A (zh) * 2021-08-19 2021-11-05 内蒙古工业大学 一种蒙古语数据集扩充方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021421A (zh) * 2012-12-24 2013-04-03 天津大学 用于枪声的多级筛选检测识别方法
US20190057189A1 (en) * 2017-08-17 2019-02-21 Innovative World Solutions, LLC Alert and Response Integration System, Device, and Process
CN109599126A (zh) * 2018-12-29 2019-04-09 广州丰石科技有限公司 一种基于mel能量谱和卷积神经网络的声音故障识别方法
CN109671433A (zh) * 2019-01-10 2019-04-23 腾讯科技(深圳)有限公司 一种关键词的检测方法以及相关装置
CN109767785A (zh) * 2019-03-06 2019-05-17 河北工业大学 基于卷积神经网络的环境噪声识别分类方法
CN110085215A (zh) * 2018-01-23 2019-08-02 中国科学院声学研究所 一种基于生成对抗网络的语言模型数据增强方法
CN110516561A (zh) * 2019-08-05 2019-11-29 西安电子科技大学 基于dcgan和cnn的sar图像目标识别方法
US20200162489A1 (en) * 2018-11-16 2020-05-21 Airspace Systems, Inc. Security event detection and threat assessment
CN111477247A (zh) * 2020-04-01 2020-07-31 宁波大学 基于gan的语音对抗样本生成方法
CN111599376A (zh) * 2020-06-01 2020-08-28 华南理工大学 一种基于空洞卷积循环神经网络的声音事件检测方法
CN111603776A (zh) * 2020-05-21 2020-09-01 上海艾为电子技术股份有限公司 音频数据中枪声的识别方法、马达的驱动方法及相关装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021421A (zh) * 2012-12-24 2013-04-03 天津大学 用于枪声的多级筛选检测识别方法
US20190057189A1 (en) * 2017-08-17 2019-02-21 Innovative World Solutions, LLC Alert and Response Integration System, Device, and Process
CN110085215A (zh) * 2018-01-23 2019-08-02 中国科学院声学研究所 一种基于生成对抗网络的语言模型数据增强方法
US20200162489A1 (en) * 2018-11-16 2020-05-21 Airspace Systems, Inc. Security event detection and threat assessment
CN109599126A (zh) * 2018-12-29 2019-04-09 广州丰石科技有限公司 一种基于mel能量谱和卷积神经网络的声音故障识别方法
CN109671433A (zh) * 2019-01-10 2019-04-23 腾讯科技(深圳)有限公司 一种关键词的检测方法以及相关装置
CN109767785A (zh) * 2019-03-06 2019-05-17 河北工业大学 基于卷积神经网络的环境噪声识别分类方法
CN110516561A (zh) * 2019-08-05 2019-11-29 西安电子科技大学 基于dcgan和cnn的sar图像目标识别方法
CN111477247A (zh) * 2020-04-01 2020-07-31 宁波大学 基于gan的语音对抗样本生成方法
CN111603776A (zh) * 2020-05-21 2020-09-01 上海艾为电子技术股份有限公司 音频数据中枪声的识别方法、马达的驱动方法及相关装置
CN111599376A (zh) * 2020-06-01 2020-08-28 华南理工大学 一种基于空洞卷积循环神经网络的声音事件检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
张克明 等: "基于生成对抗网络的稀有音频事件检测研究", 《信息工程大学学报》, vol. 20, no. 5, 31 October 2019 (2019-10-31), pages 542 - 546 *
杨吕祥: "基于改进的CRNN的暴力音频事件检测方法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科学辑》, no. 7, 15 July 2020 (2020-07-15), pages 136 - 220 *
王诗佳: "基于深度学习的声音事件识别研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科学辑》, no. 5, 15 May 2019 (2019-05-15), pages 136 - 131 *
赵杰: "基于深度学习的危险声音检测技术研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科学辑》, no. 8, 15 August 2020 (2020-08-15), pages 136 - 75 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112669284A (zh) * 2020-12-29 2021-04-16 天津大学 一种利用生成对抗网络来实现肺结节检测的方法
CN113611293A (zh) * 2021-08-19 2021-11-05 内蒙古工业大学 一种蒙古语数据集扩充方法

Similar Documents

Publication Publication Date Title
CN108711436B (zh) 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法
CN110827837B (zh) 一种基于深度学习的鲸鱼活动音频分类方法
CN107393542A (zh) 一种基于双通道神经网络的鸟类物种识别方法
CN109065072A (zh) 一种基于深度神经网络的语音质量客观评价方法
CN108922513A (zh) 语音区分方法、装置、计算机设备及存储介质
Sun et al. Underwater single-channel acoustic signal multitarget recognition using convolutional neural networks
CN110148425A (zh) 一种基于完整局部二进制模式的伪装语音检测方法
CN108198561A (zh) 一种基于卷积神经网络的翻录语音检测方法
CN112133326A (zh) 一种基于对抗神经网络的枪声数据增广与检测方法
CN114863937B (zh) 基于深度迁移学习与XGBoost的混合鸟鸣识别方法
CN112259120A (zh) 基于卷积循环神经网络的单通道人声与背景声分离方法
CN113191178A (zh) 一种基于听觉感知特征深度学习的水声目标识别方法
CN109036470A (zh) 语音区分方法、装置、计算机设备及存储介质
Taenzer et al. Investigating CNN-based Instrument Family Recognition for Western Classical Music Recordings.
CN117275510A (zh) 一种基于多梯度流网络的小样本水声目标识别方法及系统
CN110136746B (zh) 一种基于融合特征的加性噪声环境下手机来源识别方法
Lu et al. Shallow convolutional neural networks for acoustic scene classification
Xu et al. Self-supervised learning–based underwater acoustical signal classification via mask modeling
Lu et al. Detecting Unknown Speech Spoofing Algorithms with Nearest Neighbors.
Chen et al. Underwater acoustic target classification with joint learning framework and data augmentation
CN113658607A (zh) 基于数据增强和卷积循环神经网络的环境声音分类方法
CN110580915B (zh) 基于可穿戴式设备的声源目标识别系统
CN110444225B (zh) 基于特征融合网络的声源目标识别方法
CN115586516A (zh) 一种基于深度学习和多特征提取的舰船辐射噪声识别方法
CN115620731A (zh) 一种语音特征提取与检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201225

RJ01 Rejection of invention patent application after publication