CN113658607A - 基于数据增强和卷积循环神经网络的环境声音分类方法 - Google Patents
基于数据增强和卷积循环神经网络的环境声音分类方法 Download PDFInfo
- Publication number
- CN113658607A CN113658607A CN202110838615.1A CN202110838615A CN113658607A CN 113658607 A CN113658607 A CN 113658607A CN 202110838615 A CN202110838615 A CN 202110838615A CN 113658607 A CN113658607 A CN 113658607A
- Authority
- CN
- China
- Prior art keywords
- data enhancement
- neural network
- layer
- convolution
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 49
- 230000007613 environmental effect Effects 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 38
- 125000004122 cyclic group Chemical group 0.000 title claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 230000005236 sound signal Effects 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 23
- 230000000306 recurrent effect Effects 0.000 claims description 18
- 238000013145 classification model Methods 0.000 claims description 15
- 238000009432 framing Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 241000282414 Homo sapiens Species 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 238000007664 blowing Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 10
- 238000006243 chemical reaction Methods 0.000 abstract description 2
- 239000000284 extract Substances 0.000 abstract 1
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于数据增强和卷积循环神经网络的环境声音分类方法,包括:对环境声音音频进行预处理,提取对数gammatone频谱图特征,去除特征中的静音帧,并对特征值进行归一化处理;设计基于卷积循环神经网络的环境声音分类系统,将用于特征提取的堆叠卷积神经网络与用于时间信息捕捉的循环神经网络相结合,实现图像特征向时间序列的转化;对数据集ESC‑10和数据集ESC‑50应用数据增强。本发明对环境声音进行特征提取,对其进行数据增强并用于卷积循环神经网络的训练,从而实现环境声音的分类并提高分类准确性与稳定性。
Description
技术领域
本发明属于音频信号处理技术,涉及一种基于数据增强和卷积循环神经网络的环境声音分类方法。
背景技术
环境声音分类为音频监控、场景检测、智能设备感知等方面起到了极其重大的作用,极大地扩展了机器感知人类所生活的环境的能力,为人们的生活提供相当大的便利,因此在信息技术高度发展的今天,环境噪声识别得到愈加广泛的使用。
目前的环境声音分类技术中,传统的声音识别算法一般有支持向量机、高斯混合模型、隐马尔可夫模型等,虽然他们在环境声音的识别分类方面起到一定的作用,但这些识别模型都只是符号化的系统,降低了建模能力,因此在实际环境中对不同质量的声音信号的识别性能大幅下降,分类效果远远达不到人们对环境噪声分类准确度的要求。人工神经网络的出现使得人们可以让机器具有类似于人的思考方式,人工神经网络能够创建抽象的数学模型,但现有的神经网络的网络结构形式单一,对环境噪声的分类效果并不理想。
发明内容
本发明的目的在于提供一种基于数据增强和卷积循环神经网络的环境声音分类方法,对数gammatone频谱图特征进行数据增强,设计出与声音特征相适应的卷积循环神经网络并对环境声音进行识别分类,提高模型识别的准确率。
实现本发明目的的技术解决方案为:一种基于数据增强和卷积循环神经网络的环境声音分类方法,包括如下步骤:
对环境声音音频进行预处理,提取对数gammatone频谱图特征;
去除对数gammatone频谱图特征中的静音帧,并进行特征归一化;
设计基于卷积循环神经网络的环境声音分类系统;
设计基于特征图旋转或翻转的数据增强方法、Cutout数据增强方法以及Cutmix数据增强方法;
对ESC-10数据集合ESC-50数据集分别使用数据增强,并将增强数据用于卷积循环神经网络模型的训练,得到基于数据增强和卷积循环神经网络的环境声音分类系统,并验证该系统的分类准确性;
其中环境声音音频预处理包括:
对声音信号进行预加重,补充声音信号的高频部分;
对预加重后的声音信号进行分帧和加窗操作。
本发明提供一种基于数据增强和卷积循环神经网络的环境声音分类方法,与现有技术相比,本发明的优点为:(1)以区分性较强的声学特征对数gammatone频谱图特征为训练样本;(2)将静音帧等无关信息进行过滤,防止无关信息对分类性能的影响,提高分类准确性;(3)将特征值进行归一化,方便数据增强时进行特征组合;(4)与传统的环境声音分类模型相比,本发明使用了卷积循环神经网络的分类模型,发挥卷积神经网络的特征提取和特征分类能力,以及循环神经网络的动态时间信息捕捉能力,具有更强的非线性函数拟合能力,更能统计学习样本特征和类别之间的对应关系;(5)对训练集进行数据增强,降低较小数据集对分类模型的影响,提高分类准确性,增强模型的鲁棒性;6.对训练集分别使用三种不同的数据增强方案,比较不同数据增强方式对环境声音分类的不同影响。
附图说明
图1是基于卷积循环神经网络的环境声音分类系统框架;
图2是环境声音的特征提取流程图;
图3是卷积循环神经网络的结构图;
具体实施方式
一种基于数据增强和卷积循环神经网络的环境声音分类方法,包括如下步骤:
对环境声音音频进行预处理,提取对数gammatone频谱图特征;
去除对数gammatone频谱图特征中的静音帧等无关信息,并进行特征归一化;
设计基于卷积循环神经网络的环境声音分类系统;
设计基于特征图旋转或翻转的传统数据增强方法、Cutout数据增强方法以及Cutmix数据增强方法;
对ESC-10数据集合ESC-50数据集分别使用数据增强,并将增强数据用于卷积循环神经网络模型的训练,得到基于数据增强和卷积循环神经网络的环境声音分类系统,并验证该系统的分类准确性。
其中环境声音音频预处理包括:
对声音信号进行预加重,补充声音信号的高频部分;
对预加重后的声音信号进行分帧和加窗操作,分帧可以获取声音信号的局部稳定信号,加窗可以防止声音信号在分帧时切片处产生的信号突变,防止特征提取过程中的频谱泄露。
进一步的,声音信号所描述的场景特征包括狗吠,打雷,虫鸣,枪声,鸟叫,鸣笛及人类非语音这些环境声音中的一种或多种。
进一步的,对声音信号进行预加重,对高频分量进行补偿处理,该操作对噪声信号并没有影响,突出音频信号的高频部分。
进一步的,音频预加重的传递函数为:
H(z)=1-αz-1,α→1
α表示加重系数,z表示原始声音信号,H(z)为预加重后声音信号。
进一步的,为了获取一段音频中的局部特征,需要对音频进行分帧和加窗,声音信号的分帧操作可获得局部平稳的音频信号,相邻两帧之间有部分重叠,帧移占帧长的1/2;声音信号加窗是对分帧后的音频帧添加窗函数,可以防止在每帧音频切片的起始或终止位置的信号产生较大变化,使音频信号更加平滑,防止在后面的特征提取过程中发生频谱泄露。
进一步的,提取音频信号的对数gammatone频谱图特征,根据特征参数的维度确定卷积循环神经网络的输入维度为128×128;第一层到第十层卷积层的卷积核的大小为3×3,步进长度为1×1,最大池化大小2×2,BatchNormalization特征归一化,ReLU作为激活函数;第一层和第二层卷积层的卷积核的个数为32,第三层和第四层卷积层的卷积核个数为64,第五层和第六层卷积层的卷积核个数为128,第七层和第八层卷积层的卷积核个数为256,第九层和第十层卷积层的卷积核个数为512;一层时间分布层;循环神经网络部分使用两层GRU门控循环单元,单元个数都为1024;两层全连接层,第一层隐藏单元的个数为1024,ReLU作为激活函数,Dropout概率为0.3,第二层隐藏单元的个数为512,ReLU作为激活函数,Dropout概率为0.6;输出层的输出单元的个数为环境声音的样本类别个数,Softmax作为激活函数。
为了去除一段音频中的无声部分,确定音频信号的有效部分,需要对音频进行特征提取过程中进行特征过滤。
为了方便数据增强时的特征组合,需要对特征进行归一化处理,将特征值归一化到[0,1]之间或[0,255]的灰度化。
为了发挥卷积神经网络特征提取和特征分类能力,以及循环神经网络动态时间信息捕捉能力,需要将卷积神经网络与循环神经网络进行结合,形成卷积循环神经网络分类模型。
为了降低有限数据集对模型分类性能的影响,需要将训练集进行数据增强,增加训练样本容量,提高分类模型分类准确性的同时,提高分类模型的鲁棒性。
进一步的,对ESC-10数据集和ESC-50数据集进行数据增强,以5-折交叉验证的方式训练卷积循环神经网络分类模型。对每种数据集,按4:1的比例分成训练集和验证集,仅对训练集进行数据增强并用于模型训练,验证集用于验证模型精度。
进一步的,对训练集分别进行传统数据增强、Cutout数据增强和Cutmix数据增强,比较三种增强方案对分类模型性能的影响。
进一步的,传统数据增强是随机地对特征图进行水平翻转或逆时针旋转,Cutout数据增强是随机地剪切并舍弃特征图中的部分区域,Cutmix数据增强是以某种比例随机组合两种不同特征。其中,
Cutmix数据增强的实现公式如下:
进一步的,使用分类性能最好的数据增强方案,用ESC-50数据集评估训练好的卷积循环神经网络分类模型,验证数据增强用于基于卷积循环神经网络的环境声音分类系统的重要作用。
下面结合附图和具体实施例对本发明作进一步详细描述。
实施例
一种基于数据增强和卷积循环神经网络的环境声音分类方法,包括:对环境声音音频进行预处理,提取对数gammatone频谱图特征,去除特征中的静音帧,并对特征值进行归一化处理;设计基于卷积循环神经网络的环境声音分类系统,将用于特征提取的堆叠卷积神经网络与用于时间信息捕捉的循环神经网络相结合,实现图像特征向时间序列的转化,并将转化后的时间序列特征向量映射到全连接层隐藏空间,再由Softmax层将特征图从隐藏空间映射到类别空间,完成特征分类;对数据集ESC-10和数据集ESC-50应用数据增强。
如图1所示,基于卷积循环神经网络的环境声音分类系统框架,主要分为训练过程和测试过程。训练过程分为原始音频输入,预处理,特征提取,模型训练,输出声音类别。原始音频来源于ESC-10数据集和ESC-50数据中的音频文件,然后对其中的音频进行预处理,包括分帧和加窗,取帧长为1024,取帧移为512,将不稳定的音频分帧成多个切片,获取具有短时稳定的音频帧,然后对每帧音频进行汉明加窗,防止在每帧的起始或终止位置的特征参数有较大变化,防止特征提取过程中发生频谱泄露。提取到的音频特征对数gammatone频谱图特征输入至分类模型中进行训练,完成模型的训练阶段。在模型的测试过程中,对数据集进行同样的预处理和特征提取,但不同之处在于仅将特征样本输入至分类模型获取模型的分类结果,该结果将和特征样本的真实类别相比较,以验证模型对特征分类的正确与否,从而得到模型的分类准确性。无论是训练过程还是测试过程,都涉及到环境声音分类的两个主要部分:特征提取和特征分类,其中特征提取过程如下:
如图2所示,首先对数据集的音频进行预加重,增加原始波形的高频分量,预加重参数设置为0.97。数据集ESC-10和数据集ESC-50的每个音频,其长度为5s左右,对其进行采样率为44100Hz的重采样,得到长度为220500的音频采样点,对其进行帧长为1024,帧移为512的分帧处理,得到429个长度为1024的音频帧,接着对这429个音频帧进行加窗处理,加窗函数使用汉明窗,使429个音频帧的首尾两端的幅值变化更加平滑。接下来,对加窗后的音频帧采取傅里叶变换,将音频的时域信息转化为频域信息,得到大小为429×512的音频时频特征。然后对时频特征使用gammatone滤波器组进行滤波处理,其操作为时频特征与gammatone滤波器组矩阵的矩阵相乘,gammatone滤波器组的个数为128,即gammatone滤波器组矩阵的大小为128×512,时频特征经过gammatone滤波器组滤波后得到大小为429×128的gammatone频谱图特征。最后将gammatone频谱图特征映射到对数尺度,形成对数gammatone频谱图特征。
将大小为429×128的对数gammatone频谱图特征进行分帧处理得到128×128的方形特征,然后进行[0,1]的归一化或[0,255]的灰度化,前者将特征矩阵的值与频谱图的绝对值的最大值相除后进行0.5倍的缩放和0.5的偏移,后者将特征矩阵的值与频谱图的绝对值的最大值相除后进行125倍的缩放和125的偏移。
对处理后的对数gammatone频谱图特征进行数据增强,增强操作分别传统数据增强、Cutout数据增强和Cutmix数据增强。
基于卷积神经网络的环境声音分类模型结构如图3所示,CNN虚线框部分以卷积-卷积-池化的堆叠方式构建卷积循环神经网络的卷积部分,将大小为128×128的对数gammatone频谱图特征进行卷积运算并在池化层的作用下特征图的大小逐层减半,最后一层的池化层的输出特征图大小为512×4×4。然后特征图经过时间分布层的转换,将特征图转换成大小为4×2048的时间序列,然后用两层GRU网络提取时间序列中的时域信息。最后用两层全连接层对时间序列进行分类,并且在全连接层之后分别使用大小为0.3和0.6的Dropout层随机舍弃部分神经元的连接,防止模型过拟合。最后使用Softmax作为模型的输出层,计算对数gammatone频谱图特征在类别空间的概率大小。
Claims (10)
1.一种基于数据增强和卷积循环神经网络的环境声音分类方法,其特征在于,包括如下步骤:
对环境声音音频进行预处理,提取对数gammatone频谱图特征;
去除对数gammatone频谱图特征中的静音帧,并进行特征归一化;
设计基于卷积循环神经网络的环境声音分类系统;
设计基于特征图旋转或翻转的数据增强方法、Cutout数据增强方法以及Cutmix数据增强方法;
对ESC-10数据集合ESC-50数据集分别使用数据增强,并将增强数据用于卷积循环神经网络模型的训练,得到基于数据增强和卷积循环神经网络的环境声音分类系统,并验证该系统的分类准确性;
其中环境声音音频预处理包括:
对声音信号进行预加重,补充声音信号的高频部分;
对预加重后的声音信号进行分帧和加窗操作。
2.根据权利要求1所述的基于数据增强和卷积循环神经网络的环境声音分类方法,其特征在于,声音信号所描述的场景特征包括狗吠,打雷,虫鸣,枪声,鸟叫,鸣笛及人类非语音这些环境声音中的一种或多种。
3.根据权利要求1或2所述的基于数据增强和卷积循环神经网络的环境声音分类方法,其特征在于,对声音信号进行预加重,对高频分量进行补偿处理,该操作对噪声信号没有影响,突出音频信号的高频部分。
4.根据权利要求3所述的基于数据增强和卷积循环神经网络的环境声音分类方法,其特征在于,音频预加重的传递函数为:
H(z)=1-αz-1,α→1
α表示加重系数,z表示原始声音信号,H(z)为预加重后声音信号。
5.根据权利要求4所述的基于数据增强和卷积循环神经网络的环境声音分类方法,其特征在于,对声音进行分帧和加窗,相邻两帧之间有部分重叠,帧移占帧长的1/2;声音信号加窗是对分帧后的音频帧添加窗函数。
6.根据权利要求5所述的基于数据增强和卷积循环神经网络的环境声音分类方法,其特征在于,提取音频信号的对数gammatone频谱图特征,根据特征参数的维度确定卷积循环神经网络的输入维度为128×128;第一层到第十层卷积层的卷积核的大小为3×3,步进长度为1×1,最大池化大小2×2,BatchNormalization特征归一化,ReLU作为激活函数;第一层和第二层卷积层的卷积核的个数为32,第三层和第四层卷积层的卷积核个数为64,第五层和第六层卷积层的卷积核个数为128,第七层和第八层卷积层的卷积核个数为256,第九层和第十层卷积层的卷积核个数为512;一层时间分布层;循环神经网络部分使用两层GRU门控循环单元,单元个数都为1024;两层全连接层,第一层隐藏单元的个数为1024,ReLU作为激活函数,Dropout概率为0.3,第二层隐藏单元的个数为512,ReLU作为激活函数,Dropout概率为0.6;输出层的输出单元的个数为环境声音的样本类别个数,Softmax作为激活函数。
7.根据权利要求6所述的基于数据增强和卷积循环神经网络的环境声音分类方法,其特征在于,对ESC-10数据集和ESC-50数据集进行数据增强,以5-折交叉验证的方式训练卷积循环神经网络分类模型;对每种数据集,按4:1的比例分成训练集和验证集,仅对训练集进行数据增强并用于模型训练,验证集用于验证模型精度。
8.根据权利要求7所述的基于数据增强和卷积循环神经网络的环境声音分类方法,其特征在于,对训练集分别进行基于特征图旋转或翻转的数据增强、Cutout数据增强和Cutmix数据增强,比较三种增强方案对分类模型性能的影响。
10.根据权利要求9所述的基于数据增强和卷积循环神经网络的环境声音分类方法,其特征在于,使用分类性能最好的数据增强方案,用ESC-50数据集评估训练好的卷积循环神经网络分类模型,验证数据增强用于基于卷积循环神经网络的环境声音分类系统的重要作用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110838615.1A CN113658607A (zh) | 2021-07-23 | 2021-07-23 | 基于数据增强和卷积循环神经网络的环境声音分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110838615.1A CN113658607A (zh) | 2021-07-23 | 2021-07-23 | 基于数据增强和卷积循环神经网络的环境声音分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113658607A true CN113658607A (zh) | 2021-11-16 |
Family
ID=78478084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110838615.1A Pending CN113658607A (zh) | 2021-07-23 | 2021-07-23 | 基于数据增强和卷积循环神经网络的环境声音分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113658607A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114882909A (zh) * | 2022-04-18 | 2022-08-09 | 珠海高凌信息科技股份有限公司 | 一种环境声音分类分析方法、装置和介质 |
CN115662464A (zh) * | 2022-12-29 | 2023-01-31 | 广州市云景信息科技有限公司 | 一种智能识别环境噪声的方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160210988A1 (en) * | 2015-01-19 | 2016-07-21 | Korea Institute Of Science And Technology | Device and method for sound classification in real time |
CN110047512A (zh) * | 2019-04-25 | 2019-07-23 | 广东工业大学 | 一种环境声音分类方法、系统及相关装置 |
CN111599376A (zh) * | 2020-06-01 | 2020-08-28 | 华南理工大学 | 一种基于空洞卷积循环神经网络的声音事件检测方法 |
-
2021
- 2021-07-23 CN CN202110838615.1A patent/CN113658607A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160210988A1 (en) * | 2015-01-19 | 2016-07-21 | Korea Institute Of Science And Technology | Device and method for sound classification in real time |
CN110047512A (zh) * | 2019-04-25 | 2019-07-23 | 广东工业大学 | 一种环境声音分类方法、系统及相关装置 |
CN111599376A (zh) * | 2020-06-01 | 2020-08-28 | 华南理工大学 | 一种基于空洞卷积循环神经网络的声音事件检测方法 |
Non-Patent Citations (5)
Title |
---|
张智超: "基于深度学习的环境声音识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 02, pages 5 - 11 * |
张科 等: "基于融合特征以及卷积神经网络的环境声音分类系统研究", 《西北工业大学学报》, vol. 38, no. 1, pages 162 - 169 * |
张诚: "室内多声道人类活动声音事件分类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 04, pages 15 - 17 * |
朱博青: "基于卷积神经网络的声音分类方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 01, pages 23 - 51 * |
黄费贞: "基于声谱图特征的声音事件识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 02, pages 21 - 44 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114882909A (zh) * | 2022-04-18 | 2022-08-09 | 珠海高凌信息科技股份有限公司 | 一种环境声音分类分析方法、装置和介质 |
CN115662464A (zh) * | 2022-12-29 | 2023-01-31 | 广州市云景信息科技有限公司 | 一种智能识别环境噪声的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108711436B (zh) | 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法 | |
CN108597496B (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
US7082394B2 (en) | Noise-robust feature extraction using multi-layer principal component analysis | |
CN106782511A (zh) | 修正线性深度自编码网络语音识别方法 | |
CN106952649A (zh) | 基于卷积神经网络和频谱图的说话人识别方法 | |
CN111261183A (zh) | 一种语音去噪的方法及装置 | |
CN113658607A (zh) | 基于数据增强和卷积循环神经网络的环境声音分类方法 | |
CN113488060B (zh) | 一种基于变分信息瓶颈的声纹识别方法及系统 | |
CN117095694B (zh) | 一种基于标签层级结构属性关系的鸟类鸣声识别方法 | |
CN114863937A (zh) | 基于深度迁移学习与XGBoost的混合鸟鸣识别方法 | |
Ge et al. | Environment-Dependent Attention-Driven Recurrent Convolutional Neural Network for Robust Speech Enhancement. | |
Zhao et al. | Anti-forensics of environmental-signature-based audio splicing detection and its countermeasure via rich-features classification | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Song et al. | Research on scattering transform of urban sound events detection based on self-attention mechanism | |
CN110808067A (zh) | 基于二值多频带能量分布的低信噪比声音事件检测方法 | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
CN114882906A (zh) | 一种新型环境噪声识别方法及系统 | |
CN117854540B (zh) | 基于神经网络和多维特征融合的水声目标识别方法及系统 | |
Ouyang | Single-Channel Speech Enhancement Based on Deep Neural Networks | |
CN113506583B (zh) | 利用残差网络的伪装语音检测方法 | |
EP4233051B1 (en) | An apparatus for providing a processed audio signal, a method for providing a processed audio signal, an apparatus for providing neural network parameters and a method for providing neural network parameters | |
Ashurov et al. | Classification of Environmental Sounds Through Spectrogram-Like Images Using Dilation-Based CNN | |
CN118230722B (zh) | 基于ai的智能语音识别方法及系统 | |
CN114882867B (zh) | 基于滤波器组频率区分的深度网络波形合成方法及装置 | |
Yan et al. | Sound event recognition based in feature combination with low snr |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |