CN113658607A - 基于数据增强和卷积循环神经网络的环境声音分类方法 - Google Patents

基于数据增强和卷积循环神经网络的环境声音分类方法 Download PDF

Info

Publication number
CN113658607A
CN113658607A CN202110838615.1A CN202110838615A CN113658607A CN 113658607 A CN113658607 A CN 113658607A CN 202110838615 A CN202110838615 A CN 202110838615A CN 113658607 A CN113658607 A CN 113658607A
Authority
CN
China
Prior art keywords
data enhancement
neural network
layer
convolution
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110838615.1A
Other languages
English (en)
Inventor
杨能
刘伟伟
刘光杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202110838615.1A priority Critical patent/CN113658607A/zh
Publication of CN113658607A publication Critical patent/CN113658607A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于数据增强和卷积循环神经网络的环境声音分类方法,包括:对环境声音音频进行预处理,提取对数gammatone频谱图特征,去除特征中的静音帧,并对特征值进行归一化处理;设计基于卷积循环神经网络的环境声音分类系统,将用于特征提取的堆叠卷积神经网络与用于时间信息捕捉的循环神经网络相结合,实现图像特征向时间序列的转化;对数据集ESC‑10和数据集ESC‑50应用数据增强。本发明对环境声音进行特征提取,对其进行数据增强并用于卷积循环神经网络的训练,从而实现环境声音的分类并提高分类准确性与稳定性。

Description

基于数据增强和卷积循环神经网络的环境声音分类方法
技术领域
本发明属于音频信号处理技术,涉及一种基于数据增强和卷积循环神经网络的环境声音分类方法。
背景技术
环境声音分类为音频监控、场景检测、智能设备感知等方面起到了极其重大的作用,极大地扩展了机器感知人类所生活的环境的能力,为人们的生活提供相当大的便利,因此在信息技术高度发展的今天,环境噪声识别得到愈加广泛的使用。
目前的环境声音分类技术中,传统的声音识别算法一般有支持向量机、高斯混合模型、隐马尔可夫模型等,虽然他们在环境声音的识别分类方面起到一定的作用,但这些识别模型都只是符号化的系统,降低了建模能力,因此在实际环境中对不同质量的声音信号的识别性能大幅下降,分类效果远远达不到人们对环境噪声分类准确度的要求。人工神经网络的出现使得人们可以让机器具有类似于人的思考方式,人工神经网络能够创建抽象的数学模型,但现有的神经网络的网络结构形式单一,对环境噪声的分类效果并不理想。
发明内容
本发明的目的在于提供一种基于数据增强和卷积循环神经网络的环境声音分类方法,对数gammatone频谱图特征进行数据增强,设计出与声音特征相适应的卷积循环神经网络并对环境声音进行识别分类,提高模型识别的准确率。
实现本发明目的的技术解决方案为:一种基于数据增强和卷积循环神经网络的环境声音分类方法,包括如下步骤:
对环境声音音频进行预处理,提取对数gammatone频谱图特征;
去除对数gammatone频谱图特征中的静音帧,并进行特征归一化;
设计基于卷积循环神经网络的环境声音分类系统;
设计基于特征图旋转或翻转的数据增强方法、Cutout数据增强方法以及Cutmix数据增强方法;
对ESC-10数据集合ESC-50数据集分别使用数据增强,并将增强数据用于卷积循环神经网络模型的训练,得到基于数据增强和卷积循环神经网络的环境声音分类系统,并验证该系统的分类准确性;
其中环境声音音频预处理包括:
对声音信号进行预加重,补充声音信号的高频部分;
对预加重后的声音信号进行分帧和加窗操作。
本发明提供一种基于数据增强和卷积循环神经网络的环境声音分类方法,与现有技术相比,本发明的优点为:(1)以区分性较强的声学特征对数gammatone频谱图特征为训练样本;(2)将静音帧等无关信息进行过滤,防止无关信息对分类性能的影响,提高分类准确性;(3)将特征值进行归一化,方便数据增强时进行特征组合;(4)与传统的环境声音分类模型相比,本发明使用了卷积循环神经网络的分类模型,发挥卷积神经网络的特征提取和特征分类能力,以及循环神经网络的动态时间信息捕捉能力,具有更强的非线性函数拟合能力,更能统计学习样本特征和类别之间的对应关系;(5)对训练集进行数据增强,降低较小数据集对分类模型的影响,提高分类准确性,增强模型的鲁棒性;6.对训练集分别使用三种不同的数据增强方案,比较不同数据增强方式对环境声音分类的不同影响。
附图说明
图1是基于卷积循环神经网络的环境声音分类系统框架;
图2是环境声音的特征提取流程图;
图3是卷积循环神经网络的结构图;
具体实施方式
一种基于数据增强和卷积循环神经网络的环境声音分类方法,包括如下步骤:
对环境声音音频进行预处理,提取对数gammatone频谱图特征;
去除对数gammatone频谱图特征中的静音帧等无关信息,并进行特征归一化;
设计基于卷积循环神经网络的环境声音分类系统;
设计基于特征图旋转或翻转的传统数据增强方法、Cutout数据增强方法以及Cutmix数据增强方法;
对ESC-10数据集合ESC-50数据集分别使用数据增强,并将增强数据用于卷积循环神经网络模型的训练,得到基于数据增强和卷积循环神经网络的环境声音分类系统,并验证该系统的分类准确性。
其中环境声音音频预处理包括:
对声音信号进行预加重,补充声音信号的高频部分;
对预加重后的声音信号进行分帧和加窗操作,分帧可以获取声音信号的局部稳定信号,加窗可以防止声音信号在分帧时切片处产生的信号突变,防止特征提取过程中的频谱泄露。
进一步的,声音信号所描述的场景特征包括狗吠,打雷,虫鸣,枪声,鸟叫,鸣笛及人类非语音这些环境声音中的一种或多种。
进一步的,对声音信号进行预加重,对高频分量进行补偿处理,该操作对噪声信号并没有影响,突出音频信号的高频部分。
进一步的,音频预加重的传递函数为:
H(z)=1-αz-1,α→1
α表示加重系数,z表示原始声音信号,H(z)为预加重后声音信号。
进一步的,为了获取一段音频中的局部特征,需要对音频进行分帧和加窗,声音信号的分帧操作可获得局部平稳的音频信号,相邻两帧之间有部分重叠,帧移占帧长的1/2;声音信号加窗是对分帧后的音频帧添加窗函数,可以防止在每帧音频切片的起始或终止位置的信号产生较大变化,使音频信号更加平滑,防止在后面的特征提取过程中发生频谱泄露。
进一步的,提取音频信号的对数gammatone频谱图特征,根据特征参数的维度确定卷积循环神经网络的输入维度为128×128;第一层到第十层卷积层的卷积核的大小为3×3,步进长度为1×1,最大池化大小2×2,BatchNormalization特征归一化,ReLU作为激活函数;第一层和第二层卷积层的卷积核的个数为32,第三层和第四层卷积层的卷积核个数为64,第五层和第六层卷积层的卷积核个数为128,第七层和第八层卷积层的卷积核个数为256,第九层和第十层卷积层的卷积核个数为512;一层时间分布层;循环神经网络部分使用两层GRU门控循环单元,单元个数都为1024;两层全连接层,第一层隐藏单元的个数为1024,ReLU作为激活函数,Dropout概率为0.3,第二层隐藏单元的个数为512,ReLU作为激活函数,Dropout概率为0.6;输出层的输出单元的个数为环境声音的样本类别个数,Softmax作为激活函数。
为了去除一段音频中的无声部分,确定音频信号的有效部分,需要对音频进行特征提取过程中进行特征过滤。
为了方便数据增强时的特征组合,需要对特征进行归一化处理,将特征值归一化到[0,1]之间或[0,255]的灰度化。
为了发挥卷积神经网络特征提取和特征分类能力,以及循环神经网络动态时间信息捕捉能力,需要将卷积神经网络与循环神经网络进行结合,形成卷积循环神经网络分类模型。
为了降低有限数据集对模型分类性能的影响,需要将训练集进行数据增强,增加训练样本容量,提高分类模型分类准确性的同时,提高分类模型的鲁棒性。
进一步的,对ESC-10数据集和ESC-50数据集进行数据增强,以5-折交叉验证的方式训练卷积循环神经网络分类模型。对每种数据集,按4:1的比例分成训练集和验证集,仅对训练集进行数据增强并用于模型训练,验证集用于验证模型精度。
进一步的,对训练集分别进行传统数据增强、Cutout数据增强和Cutmix数据增强,比较三种增强方案对分类模型性能的影响。
进一步的,传统数据增强是随机地对特征图进行水平翻转或逆时针旋转,Cutout数据增强是随机地剪切并舍弃特征图中的部分区域,Cutmix数据增强是以某种比例随机组合两种不同特征。其中,
Cutmix数据增强的实现公式如下:
Figure BDA0003178060380000041
其中xA,xB分别表示两种待组合的特征,yA,yB分别表示xA,xB所属的样本,M表示二进制掩码矩阵,⊙表示矩阵对应元素相乘,λ表示两种特征的组合率,
Figure BDA0003178060380000042
分别表示两种特征组合后的特征和类别。
进一步的,使用分类性能最好的数据增强方案,用ESC-50数据集评估训练好的卷积循环神经网络分类模型,验证数据增强用于基于卷积循环神经网络的环境声音分类系统的重要作用。
下面结合附图和具体实施例对本发明作进一步详细描述。
实施例
一种基于数据增强和卷积循环神经网络的环境声音分类方法,包括:对环境声音音频进行预处理,提取对数gammatone频谱图特征,去除特征中的静音帧,并对特征值进行归一化处理;设计基于卷积循环神经网络的环境声音分类系统,将用于特征提取的堆叠卷积神经网络与用于时间信息捕捉的循环神经网络相结合,实现图像特征向时间序列的转化,并将转化后的时间序列特征向量映射到全连接层隐藏空间,再由Softmax层将特征图从隐藏空间映射到类别空间,完成特征分类;对数据集ESC-10和数据集ESC-50应用数据增强。
如图1所示,基于卷积循环神经网络的环境声音分类系统框架,主要分为训练过程和测试过程。训练过程分为原始音频输入,预处理,特征提取,模型训练,输出声音类别。原始音频来源于ESC-10数据集和ESC-50数据中的音频文件,然后对其中的音频进行预处理,包括分帧和加窗,取帧长为1024,取帧移为512,将不稳定的音频分帧成多个切片,获取具有短时稳定的音频帧,然后对每帧音频进行汉明加窗,防止在每帧的起始或终止位置的特征参数有较大变化,防止特征提取过程中发生频谱泄露。提取到的音频特征对数gammatone频谱图特征输入至分类模型中进行训练,完成模型的训练阶段。在模型的测试过程中,对数据集进行同样的预处理和特征提取,但不同之处在于仅将特征样本输入至分类模型获取模型的分类结果,该结果将和特征样本的真实类别相比较,以验证模型对特征分类的正确与否,从而得到模型的分类准确性。无论是训练过程还是测试过程,都涉及到环境声音分类的两个主要部分:特征提取和特征分类,其中特征提取过程如下:
如图2所示,首先对数据集的音频进行预加重,增加原始波形的高频分量,预加重参数设置为0.97。数据集ESC-10和数据集ESC-50的每个音频,其长度为5s左右,对其进行采样率为44100Hz的重采样,得到长度为220500的音频采样点,对其进行帧长为1024,帧移为512的分帧处理,得到429个长度为1024的音频帧,接着对这429个音频帧进行加窗处理,加窗函数使用汉明窗,使429个音频帧的首尾两端的幅值变化更加平滑。接下来,对加窗后的音频帧采取傅里叶变换,将音频的时域信息转化为频域信息,得到大小为429×512的音频时频特征。然后对时频特征使用gammatone滤波器组进行滤波处理,其操作为时频特征与gammatone滤波器组矩阵的矩阵相乘,gammatone滤波器组的个数为128,即gammatone滤波器组矩阵的大小为128×512,时频特征经过gammatone滤波器组滤波后得到大小为429×128的gammatone频谱图特征。最后将gammatone频谱图特征映射到对数尺度,形成对数gammatone频谱图特征。
将大小为429×128的对数gammatone频谱图特征进行分帧处理得到128×128的方形特征,然后进行[0,1]的归一化或[0,255]的灰度化,前者将特征矩阵的值与频谱图的绝对值的最大值相除后进行0.5倍的缩放和0.5的偏移,后者将特征矩阵的值与频谱图的绝对值的最大值相除后进行125倍的缩放和125的偏移。
对处理后的对数gammatone频谱图特征进行数据增强,增强操作分别传统数据增强、Cutout数据增强和Cutmix数据增强。
基于卷积神经网络的环境声音分类模型结构如图3所示,CNN虚线框部分以卷积-卷积-池化的堆叠方式构建卷积循环神经网络的卷积部分,将大小为128×128的对数gammatone频谱图特征进行卷积运算并在池化层的作用下特征图的大小逐层减半,最后一层的池化层的输出特征图大小为512×4×4。然后特征图经过时间分布层的转换,将特征图转换成大小为4×2048的时间序列,然后用两层GRU网络提取时间序列中的时域信息。最后用两层全连接层对时间序列进行分类,并且在全连接层之后分别使用大小为0.3和0.6的Dropout层随机舍弃部分神经元的连接,防止模型过拟合。最后使用Softmax作为模型的输出层,计算对数gammatone频谱图特征在类别空间的概率大小。

Claims (10)

1.一种基于数据增强和卷积循环神经网络的环境声音分类方法,其特征在于,包括如下步骤:
对环境声音音频进行预处理,提取对数gammatone频谱图特征;
去除对数gammatone频谱图特征中的静音帧,并进行特征归一化;
设计基于卷积循环神经网络的环境声音分类系统;
设计基于特征图旋转或翻转的数据增强方法、Cutout数据增强方法以及Cutmix数据增强方法;
对ESC-10数据集合ESC-50数据集分别使用数据增强,并将增强数据用于卷积循环神经网络模型的训练,得到基于数据增强和卷积循环神经网络的环境声音分类系统,并验证该系统的分类准确性;
其中环境声音音频预处理包括:
对声音信号进行预加重,补充声音信号的高频部分;
对预加重后的声音信号进行分帧和加窗操作。
2.根据权利要求1所述的基于数据增强和卷积循环神经网络的环境声音分类方法,其特征在于,声音信号所描述的场景特征包括狗吠,打雷,虫鸣,枪声,鸟叫,鸣笛及人类非语音这些环境声音中的一种或多种。
3.根据权利要求1或2所述的基于数据增强和卷积循环神经网络的环境声音分类方法,其特征在于,对声音信号进行预加重,对高频分量进行补偿处理,该操作对噪声信号没有影响,突出音频信号的高频部分。
4.根据权利要求3所述的基于数据增强和卷积循环神经网络的环境声音分类方法,其特征在于,音频预加重的传递函数为:
H(z)=1-αz-1,α→1
α表示加重系数,z表示原始声音信号,H(z)为预加重后声音信号。
5.根据权利要求4所述的基于数据增强和卷积循环神经网络的环境声音分类方法,其特征在于,对声音进行分帧和加窗,相邻两帧之间有部分重叠,帧移占帧长的1/2;声音信号加窗是对分帧后的音频帧添加窗函数。
6.根据权利要求5所述的基于数据增强和卷积循环神经网络的环境声音分类方法,其特征在于,提取音频信号的对数gammatone频谱图特征,根据特征参数的维度确定卷积循环神经网络的输入维度为128×128;第一层到第十层卷积层的卷积核的大小为3×3,步进长度为1×1,最大池化大小2×2,BatchNormalization特征归一化,ReLU作为激活函数;第一层和第二层卷积层的卷积核的个数为32,第三层和第四层卷积层的卷积核个数为64,第五层和第六层卷积层的卷积核个数为128,第七层和第八层卷积层的卷积核个数为256,第九层和第十层卷积层的卷积核个数为512;一层时间分布层;循环神经网络部分使用两层GRU门控循环单元,单元个数都为1024;两层全连接层,第一层隐藏单元的个数为1024,ReLU作为激活函数,Dropout概率为0.3,第二层隐藏单元的个数为512,ReLU作为激活函数,Dropout概率为0.6;输出层的输出单元的个数为环境声音的样本类别个数,Softmax作为激活函数。
7.根据权利要求6所述的基于数据增强和卷积循环神经网络的环境声音分类方法,其特征在于,对ESC-10数据集和ESC-50数据集进行数据增强,以5-折交叉验证的方式训练卷积循环神经网络分类模型;对每种数据集,按4:1的比例分成训练集和验证集,仅对训练集进行数据增强并用于模型训练,验证集用于验证模型精度。
8.根据权利要求7所述的基于数据增强和卷积循环神经网络的环境声音分类方法,其特征在于,对训练集分别进行基于特征图旋转或翻转的数据增强、Cutout数据增强和Cutmix数据增强,比较三种增强方案对分类模型性能的影响。
9.根据权利要求8所述的基于数据增强和卷积循环神经网络的环境声音分类方法,其特征在于,基于特征图旋转或翻转的数据增强是随机地对特征图进行水平翻转或逆时针旋转,Cutout数据增强是随机地剪切并舍弃特征图中的部分区域,Cutmix数据增强是以某种比例随机组合两种不同特征;其中,
Cutmix数据增强的实现公式如下:
Figure FDA0003178060370000021
其中xA,xB分别表示两种待组合的特征,yA,yB分别表示xA,xB所属的样本,M表示二进制掩码矩阵,⊙表示矩阵对应元素相乘,λ表示两种特征的组合率,
Figure FDA0003178060370000022
分别表示两种特征组合后的特征和类别。
10.根据权利要求9所述的基于数据增强和卷积循环神经网络的环境声音分类方法,其特征在于,使用分类性能最好的数据增强方案,用ESC-50数据集评估训练好的卷积循环神经网络分类模型,验证数据增强用于基于卷积循环神经网络的环境声音分类系统的重要作用。
CN202110838615.1A 2021-07-23 2021-07-23 基于数据增强和卷积循环神经网络的环境声音分类方法 Pending CN113658607A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110838615.1A CN113658607A (zh) 2021-07-23 2021-07-23 基于数据增强和卷积循环神经网络的环境声音分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110838615.1A CN113658607A (zh) 2021-07-23 2021-07-23 基于数据增强和卷积循环神经网络的环境声音分类方法

Publications (1)

Publication Number Publication Date
CN113658607A true CN113658607A (zh) 2021-11-16

Family

ID=78478084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110838615.1A Pending CN113658607A (zh) 2021-07-23 2021-07-23 基于数据增强和卷积循环神经网络的环境声音分类方法

Country Status (1)

Country Link
CN (1) CN113658607A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882909A (zh) * 2022-04-18 2022-08-09 珠海高凌信息科技股份有限公司 一种环境声音分类分析方法、装置和介质
CN115662464A (zh) * 2022-12-29 2023-01-31 广州市云景信息科技有限公司 一种智能识别环境噪声的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160210988A1 (en) * 2015-01-19 2016-07-21 Korea Institute Of Science And Technology Device and method for sound classification in real time
CN110047512A (zh) * 2019-04-25 2019-07-23 广东工业大学 一种环境声音分类方法、系统及相关装置
CN111599376A (zh) * 2020-06-01 2020-08-28 华南理工大学 一种基于空洞卷积循环神经网络的声音事件检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160210988A1 (en) * 2015-01-19 2016-07-21 Korea Institute Of Science And Technology Device and method for sound classification in real time
CN110047512A (zh) * 2019-04-25 2019-07-23 广东工业大学 一种环境声音分类方法、系统及相关装置
CN111599376A (zh) * 2020-06-01 2020-08-28 华南理工大学 一种基于空洞卷积循环神经网络的声音事件检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
张智超: "基于深度学习的环境声音识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 02, pages 5 - 11 *
张科 等: "基于融合特征以及卷积神经网络的环境声音分类系统研究", 《西北工业大学学报》, vol. 38, no. 1, pages 162 - 169 *
张诚: "室内多声道人类活动声音事件分类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 04, pages 15 - 17 *
朱博青: "基于卷积神经网络的声音分类方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 01, pages 23 - 51 *
黄费贞: "基于声谱图特征的声音事件识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 02, pages 21 - 44 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882909A (zh) * 2022-04-18 2022-08-09 珠海高凌信息科技股份有限公司 一种环境声音分类分析方法、装置和介质
CN115662464A (zh) * 2022-12-29 2023-01-31 广州市云景信息科技有限公司 一种智能识别环境噪声的方法及系统

Similar Documents

Publication Publication Date Title
CN108711436B (zh) 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法
CN108597496B (zh) 一种基于生成式对抗网络的语音生成方法及装置
US7082394B2 (en) Noise-robust feature extraction using multi-layer principal component analysis
CN106782511A (zh) 修正线性深度自编码网络语音识别方法
CN106952649A (zh) 基于卷积神经网络和频谱图的说话人识别方法
CN111261183A (zh) 一种语音去噪的方法及装置
CN113658607A (zh) 基于数据增强和卷积循环神经网络的环境声音分类方法
CN113488060B (zh) 一种基于变分信息瓶颈的声纹识别方法及系统
CN117095694B (zh) 一种基于标签层级结构属性关系的鸟类鸣声识别方法
CN114863937A (zh) 基于深度迁移学习与XGBoost的混合鸟鸣识别方法
Ge et al. Environment-Dependent Attention-Driven Recurrent Convolutional Neural Network for Robust Speech Enhancement.
Zhao et al. Anti-forensics of environmental-signature-based audio splicing detection and its countermeasure via rich-features classification
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Song et al. Research on scattering transform of urban sound events detection based on self-attention mechanism
CN110808067A (zh) 基于二值多频带能量分布的低信噪比声音事件检测方法
TWI749547B (zh) 應用深度學習的語音增強系統
CN114882906A (zh) 一种新型环境噪声识别方法及系统
CN117854540B (zh) 基于神经网络和多维特征融合的水声目标识别方法及系统
Ouyang Single-Channel Speech Enhancement Based on Deep Neural Networks
CN113506583B (zh) 利用残差网络的伪装语音检测方法
EP4233051B1 (en) An apparatus for providing a processed audio signal, a method for providing a processed audio signal, an apparatus for providing neural network parameters and a method for providing neural network parameters
Ashurov et al. Classification of Environmental Sounds Through Spectrogram-Like Images Using Dilation-Based CNN
CN118230722B (zh) 基于ai的智能语音识别方法及系统
CN114882867B (zh) 基于滤波器组频率区分的深度网络波形合成方法及装置
Yan et al. Sound event recognition based in feature combination with low snr

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination