CN113808604A - 基于伽马通频谱分离的声场景分类方法 - Google Patents
基于伽马通频谱分离的声场景分类方法 Download PDFInfo
- Publication number
- CN113808604A CN113808604A CN202111090034.0A CN202111090034A CN113808604A CN 113808604 A CN113808604 A CN 113808604A CN 202111090034 A CN202111090034 A CN 202111090034A CN 113808604 A CN113808604 A CN 113808604A
- Authority
- CN
- China
- Prior art keywords
- gamma
- pass
- component
- harmonic
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000000084 gamma-ray spectrum Methods 0.000 title description 3
- 238000013145 classification model Methods 0.000 claims abstract description 41
- 238000001228 spectrum Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims description 21
- 230000005251 gamma ray Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 13
- 230000003595 spectral effect Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000001965 increasing effect Effects 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 8
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供的基于伽马通频谱分离的声场景分类方法,其利用伽马通频谱图,并将音频样本信息分离出谐波分量、打击源分量以及残差分量三个部分,基于伽马通频谱图的残差分量,能够有效减少背景噪音中的谐波噪音和打击源噪音,以达到降低背景噪音的效果,进而提升了声场景分类模型的分类准确率,同时提高了声场景分类模型的泛化能力。
Description
技术领域
本发明涉及声场景分类技术领域,具体为基于伽马通频谱分离的声场景分类方法。
背景技术
声音是传递信息的重要媒介,也是人类听觉感知系统的重要组成部分。在对复杂环境中的声音事件进行感知方面,人类的固有能力使其不仅能同时捕捉多个声源的信息,如交谈声、敲门声和手机铃声等,且能有选择地屏蔽周围的背景噪音,如空调声、键盘敲击声等。当前,随着智能技术的快速发展,许多智能设备虽能高效地识别语音信息和声纹信息,但对复杂环境中的声音事件进行分类识别时,往往会因为背景噪音的影响,而导致分类识别的准确率不高。
发明内容
为了解决因背景噪音导致生场景分类识别准确率低的问题,本发明提供基于伽马通频谱分离的声场景分类方法,其可以有效地减少背景噪音的影响,提高声音分类识别的准确率。
本发明的技术方案是这样的:基于伽马通频谱分离的声场景分类方法,其包括以下步骤:
S1:采集原始音频样本信息,对其进行预处理;
S2:将预处理后的所述原始音频样本信息经过傅里叶变换处理,经过用于提取声学特征的伽马通滤波器处理,得到所述原始音频样本信息对应的伽马通频谱图,记做伽马通频谱图;
其特征在于,其还包括以下步骤:
S3:将所述伽马通频谱图的时域分量和频域分量分别进行中值滤波计算,得到所述伽马通频谱图的谐波增强部分和打击源增强部分;
S4:定义所述所述伽马通频谱图的残差部分,并计算出所述伽马通频谱图的谐波增强部分、打击源增强部分和残差部分的相对分量;
S5:基于所述伽马通频谱图,结合所述谐波增强部分、所述打击源增强部分和所述残差部分的相对分量,计算得到所述伽马通频谱图的谐波分量、打击源分量以及残差分量;
S6:构建声场景分类模型;
S7:将所述伽马通频谱图的所述谐波分量、所述打击源分量、所述残差分量三种声学特征作为训练用数据,输入所述声场景分类模型进行训练,得到训练好的所述声场景分类模型;
S8:将待分类音频样本信息,进行特征分离处理,将得到对应的谐波分量、打击源分量以及残差分量,输入到所述训练好的所述声场景分类模型中,得到分类结果。
其进一步特征在于:
步骤S2中,所述伽马通滤波器组的脉冲响应的经典模型为:
f是是基于赫兹尺度的频率;
步骤S3中,所述伽马通频谱图的谐波增强部分和打击源增强部分的计算方法如下:
将所述伽马通频谱图Sg的时域分量Sg(t)和频域分量Sg(f)的绝对值,作为输入信号输入中值滤波器:
y(a)=m{x(a),l}=median{x(a-j,a+j),j=(l-1)/2}
式中,median(.)为中值滤波器,a为信号值,l为滤波器总长度,j为滤波器左右方向的有效长度,x(.)为输入信号;
输出信号为所述伽马通频谱图Sg的谐波增强部分Hg和打击源增强部分Pg;
式中,lp为打击源增强部分的滤波器长度,lh为谐波增强部分的滤波器长度;
步骤S4中,所述伽马通频谱图的残差部分Rg定义为:
Rg=|sg|-(Pg+Hg)
步骤S4所述伽马通频谱图谐波增强部分、打击源增强部分和残差部分的相对分量MHg、MPg和MRg的计算公式为;
步骤S5中,到所述伽马通频谱图的谐波分量GSHC、打击源分量GSPC以及残差分量GSRC的定义如下:
步骤S6中,基于CNN构建所述声场景分类模型;
所述声场景分类模型包括:通道数递增的连续的Conv层,所述Conve层的最后设置一个全连接层;
每个所述Conv层包括:两个连续的卷积层;每个所述卷积层后面分别依次跟着一个BR层、一个最大池化层;所述BR层基于RELU函数实现;
基于所述声场景分类模型进行分类前,将所述谐波分量、所述打击源分量、所述残差分量三种声学特征输入所述声场景分类模型时,需在声学特征数据的维度的基础上增加一维表示通道数的向量;
训练好的所述声场景分类模型通过softmax函数输出分类预测;
步骤S1中,所述原始音频样本信息包括:音频时长和采样频率,所述预处理包括:预加重、分帧、加窗。
本发明提供的基于伽马通频谱分离的声场景分类方法,其利用伽马通频谱图,并将音频样本信息分离出谐波分量、打击源分量以及残差分量三个部分,基于伽马通频谱图的残差分量,能够有效减少背景噪音中的谐波噪音和打击源噪音,以达到降低背景噪音的效果,进而提升了声场景分类模型的分类准确率,同时提高了声场景分类模型的泛化能力。
附图说明
图1为本发明中伽马通频谱分离原理示意图;
图2为本发明中声场景分类模型的网络结构示意图。
具体实施方式
本发明基于伽马通频谱分离的声场景分类方法,首先对原始音频数据进行频谱分离操作,具体步骤如图1所示。
S1:采集原始音频样本信息,对其进行预处理;
本实施例中,原始音频样本信息包括:音频时长和采样频率,预处理包括:预加重、分帧、加窗。
S2:将预处理后的原始音频样本信息经过傅里叶变换处理得到频谱图S;
对于频谱图S经过用于提取声学特征的伽马通滤波器处理,得到原始音频样本信息对应的伽马通频谱图,记做伽马通频谱图Sg。
本专利中的声学特征提取方法是以频谱图的谐波打击源分离方法为基础,结合伽马通滤波器的特点提出的一种特征提取方法。伽马通语谱图(Gamma-tone spectrogram,Gts)和伽马通频率倒谱系数(Gamma-tone frequency cepstral coefficients,GFCC)是基于等效矩形带宽频率尺度的伽马通滤波器组得到的声学特征。
Gamma-tone滤波器组是耳蜗标准滤波器。它是模拟人耳听觉系统的滤波器组。Gamma-tone(伽马通语)滤波器组脉冲响应的经典模型为:
其中,f是基于赫兹尺度的频率;
将频谱图s通过上述伽马通滤波器组得到伽马通频谱图Sg。
S3:将伽马通频谱图的时域分量和频域分量分别进行中值滤波计算,得到伽马通频谱图的谐波增强部分和打击源增强部分;
伽马通频谱图的谐波增强部分和打击源增强部分的计算方法如下:
将伽马通频谱图Sg的时域分量Sg(t)和频域分量Sg(f)的绝对值,作为输入信号输入中值滤波器:
y(a)=m{x(a),l}=median{x(a-j,a+j),j=(l-1)/2}
式中,median(.)为中值滤波器,a为信号值,l为滤波器总长度,j为滤波器左右方向的有效长度,x(.)为输入信号;
输出信号为伽马通频谱图Sg的谐波增强部分Hg和打击源增强部分Pg,具体如下所示:
式中,lp为打击源增强部分的滤波器长度,lh为谐波增强部分的滤波器长度。
S4:定义伽马通频谱图的残差部分,并计算出伽马通频谱图的谐波增强部分、打击源增强部分和残差部分的相对分量;
伽马通频谱图的残差部分Rg定义为:
Rg=|sg|-(Pg+Hg)
其中,伽马通频谱图谐波增强部分、打击源增强部分和残差部分的相对分量MHg、MPg和MRg的计算公式为;
S5:基于伽马通频谱图,结合谐波增强部分、打击源增强部分和残差部分的相对分量,计算得到伽马通频谱图的谐波分量、打击源分量以及残差分量;
到伽马通频谱图的伽马通频谱图谐波分量(Gamma-tone Spectrogram HarmonicComponent,以下简称谐波分量GSHC)、伽马通频谱图打击源分量(Gamma-tone SpectrogramPercussive-source Component,以下简称打击源分量GSPC)以及伽马通频谱图谐波分量(Gamma-tone Spectrogram Residual Component,以下谐波分量GSRC)的定义如下:
S6:构建声场景分类模型;
本发明技术方案中,基于CNN构建声场景分类模型;
声场景分类模型包括:通道数递增的连续的Conv层,Conve层的最后设置一个全连接层;
每个Conv层包括:两个连续的卷积层;每个卷积层后面分别依次跟着一个BR层、一个最大池化层;最后声场景分类模型通过softmax函数输出分类预测。
即:Conv层的结构为:
卷积层+BR层+最大池化层+卷积层+BR层+最大池化层;
本实施例中,CNN网络的主体结构是由三组通道数递增的Conv层和一个全连接层组成,如图2所示,声场景分类模型的网络结构为:
输入层(input)+Conv层+Conv层+Conv层+全连接层+输出层(softmax)。
设置Conv层中的每一个卷积层中卷积核的尺寸为3×3,且卷积核在特征图上均匀扫过的步长设置为1,BR层是由批归一化batch-normalization和激活函数RectifiedLinear Unit(简称RELU)组成,其计算公式为:
全连接层是利用全局平均池化处理,将卷积操作后的特征图层池化为一维数据,并在池化处理后使用dropout处理,舍弃部分网络节点来降低模型出现过拟合的风险。
最后声场景分类模型通过softmax函数输出分类预测,softmax计算公式为
Si表示softmax函数,i为正整数,zi全连接层的输出值。
S7:将伽马通频谱图的谐波分量、打击源分量、残差分量三种声学特征作为训练用数据,输入声场景分类模型进行训练,得到训练好的声场景分类模型;
其中,基于声场景分类模型进行分类前,将谐波分量、打击源分量、残差分量三种声学特征输入声场景分类模型时,需在声学特征数据的维度的基础上增加一维表示通道数的向量。
如图2所示,为本发明中主体网络的连接示意图,以GSHC特征输入为例,声学特征的特征向量输入网络进行训练之前,需要在原有的2维向量的基础上,增加一维表示通道数的向量,来适应网络中的卷积操作,即,将三种声学特征的特征向量均扩展为分别表示(帧数、特征维数、通道数)的三维向量;如:GSHC特征向量原始为2维向量:(174,128),扩展后为:(174,128,1)。
特征向量输入图2所述的声场景分类模型后,首先经过三组通道数递增的Conv层,其中,第一组Conv层中包含两个通道数为32,卷积核尺寸为3,卷积核滑动步长为1的卷积层以及两组批标准化(Batch-Normalization)处理和激活函数Rectified Linear Unit(简称RELU)处理,卷积核通过均匀扫过特征图来实现卷积操作,以一个卷积核的卷积操作为例,其计算公式为:
其中,求和∑表示卷积层前向传播的过程,I表示输入的特征图,s表示输出的特征图,K表示卷积核,
*表示卷积运算,(i,j)表示特征图上的特征向量,(m,n)表示卷积核的尺寸。
然后采用最大池化处理,并设置池化尺寸为3×3;第二组Conv层的参数设置较第一组Conv层只改变了通道个数和池化尺寸,其两个通道数为64,池化尺寸为3×3;第三组Conv层的参数设置较第二组Conv层只改变了通道个数,其两个通道数为128。从Conv层输出的特征图层进入全连接层,先通过全局平均池化处理将特征图层池化为一维数据,再经过全连接处理得到长度为256的一维特征数据,最后通过Dropout处理来降低模型过拟合的概率。将输出后的特征数据再通过全连接处理得到长度为256的一维特征数据,以及Dropout处理来降低模型过拟合的概率,最后通过归一化指数函数Softmax处理后,输出最终分类预测结果。
S8:使用训练好的声场景分类模型进行分类操作时,将待分类音频样本信息,进行特征分离处理,将得到对应的谐波分量、打击源分量以及残差分量,输入到训练好的声场景分类模型中,得到分类结果。
为了确认本发明技术方案中的基于伽马通频谱分离的声场景分类方法的性能,在Window10系统、显卡GTX1660Ti、CPU为i7-9750H、内存32G的实验环境下,使用keras+TensorFlow作为深度学习框架,采用城市声音事件分类标准数据集UrbanSound8k,其中:fold1-9作为训练集,训练集样本个数为7895;测试集为fold10中wav音频文件,样本个数为838;分别进行以下实验:
(1)数据增强对模型影响的对比实验,
(2)多声学特征和单一声学特征对模型影响的对比试验;
(3)通过环境音频数据集ESC50来检验伽马通频谱分离的声场景分类方法的泛化能力。
利用本专利中的声场景分类模型(图中标记为CNN)和常用的ResNet18模型作为分类模型,以伽马通频谱图(Gamma-tone spectrogram,以下简称Gts)、GSHC、GSPC以及GSRC作为输入数据,在Urbansound8K和ESC-50数据集上进行声场景分类实验,并对比分类准确率的变化情况,具体结果如表1所示:
表1伽马通频谱图分离实验
传统的音频数据分类方法中,主要采用未经处理的频谱图特征作为输入数据,这会导致音频样本中的背景噪音对分类模型产生较大的影响。表1中给出不同声学特征输入的声场景分类准确率对比,可以从表1中的实验数据看出,相较于未经处理的伽马通频谱图特征(Gts),将经过特征分离的GSHC、GSPC和GSRC输入CNN网络时,模型的分类准确率均有所提升,在两个数据集上平均提升了1.7%和1.1%,其中GSRC特征的准确率在两个数据集上均达到最高,分别为89.4%和86.4%。
而在基于ResNet18模型的分类结果数据中,相较于未经处理的伽马通频谱图特征(Gts),将特征分离后的GSHC、GSPC和GSRC输入ResNet18网络时,ResNet18模型的分类准确率也是同样地均有所提升,在两个数据集上平均提升了1.3%和1.8%,其中GSRC特征的准确率在两个数据集上均达到最高,分别为89.9%和87.2%。
综上所述,基于表1的分类准确率数据可以得到,特征分离后得到的特征相比原始特征输入在分类准确率方面有一定的提升,且GSRC特征能有效减少背景噪音的影响从而提高模型的准确率。本发明提供的声场景分类方法,在处理音频数据时,引入了伽马通频谱图分离方式,将待分类音频数据尽心频谱分离,将其分离出:谐波分量、打击源分量以及残差分量,然后输入声场景分类模型中,使得声场景分类模型的准确率以及泛化能力都有一定的提升。
Claims (10)
1.基于伽马通频谱分离的声场景分类方法,其包括以下步骤:
S1:采集原始音频样本信息,对其进行预处理;
S2:将预处理后的所述原始音频样本信息经过傅里叶变换处理,经过用于提取声学特征的伽马通滤波器处理,得到所述原始音频样本信息对应的伽马通频谱图,记做伽马通频谱图;
其特征在于,其还包括以下步骤:
S3:将所述伽马通频谱图的时域分量和频域分量分别进行中值滤波计算,得到所述伽马通频谱图的谐波增强部分和打击源增强部分;
S4:定义所述所述伽马通频谱图的残差部分,并计算出所述伽马通频谱图的谐波增强部分、打击源增强部分和残差部分的相对分量;
S5:基于所述伽马通频谱图,结合所述谐波增强部分、所述打击源增强部分和所述残差部分的相对分量,计算得到所述伽马通频谱图的谐波分量、打击源分量以及残差分量;
S6:构建声场景分类模型;
S7:将所述伽马通频谱图的所述谐波分量、所述打击源分量、所述残差分量三种声学特征作为训练用数据,输入所述声场景分类模型进行训练,得到训练好的所述声场景分类模型;
S8:将待分类音频样本信息,进行特征分离处理,得到对应的谐波分量、打击源分量以及残差分量,将得到的三种声学特征输入到所述训练好的所述声场景分类模型中,得到分类结果。
3.根据权利要求2所述基于伽马通频谱分离的声场景分类方法,其特征在于:步骤S3中,所述伽马通频谱图的谐波增强部分和打击源增强部分的计算方法如下:
将所述伽马通频谱图Sg的时域分量Sg(t)和频域分量Sg(f)的绝对值,作为输入信号输入中值滤波器:
y(a)=m{x(a),l}=median{x(a-j,a+j),j=(l-1)/2}
式中,median(.)为中值滤波器,a为信号值,l为滤波器总长度,j为滤波器左右方向的有效长度,x(.)为输入信号;
输出信号为所述伽马通频谱图Sg的谐波增强部分Hg和打击源增强部分Pg;
式中,lp为打击源增强部分的滤波器长度,lh为谐波增强部分的滤波器长度。
4.根据权利要求3所述基于伽马通频谱分离的声场景分类方法,其特征在于:步骤S4中,所述伽马通频谱图的残差部分Rg定义为:
Rg=|sg|-(Pg+Hg)。
7.根据权利要求1所述基于伽马通频谱分离的声场景分类方法,其特征在于:步骤S6中,基于CNN构建所述声场景分类模型;
所述声场景分类模型包括:通道数递增的连续的Conv层,所述Conve层的最后设置一个全连接层;
每个所述Conv层包括:两个连续的卷积层;每个所述卷积层后面分别依次跟着一个BR层、一个最大池化层;所述BR层基于RELU函数实现。
8.根据权利要求1所述基于伽马通频谱分离的声场景分类方法,其特征在于:步骤S8中,基于所述声场景分类模型进行分类前,将所述谐波分量、所述打击源分量、所述残差分量三种声学特征输入所述声场景分类模型时,需在每种声学特征数据的维度的基础上增加一维表示通道数的向量。
9.根据权利要求1所述基于伽马通频谱分离的声场景分类方法,其特征在于:训练好的所述声场景分类模型通过softmax函数输出分类预测。
10.根据权利要求1所述基于伽马通频谱分离的声场景分类方法,其特征在于:步骤S1中,所述原始音频样本信息包括:音频时长和采样频率,所述预处理包括:预加重、分帧、加窗。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111090034.0A CN113808604B (zh) | 2021-09-16 | 2021-09-16 | 基于伽马通频谱分离的声场景分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111090034.0A CN113808604B (zh) | 2021-09-16 | 2021-09-16 | 基于伽马通频谱分离的声场景分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113808604A true CN113808604A (zh) | 2021-12-17 |
CN113808604B CN113808604B (zh) | 2023-11-14 |
Family
ID=78895661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111090034.0A Active CN113808604B (zh) | 2021-09-16 | 2021-09-16 | 基于伽马通频谱分离的声场景分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113808604B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114898772A (zh) * | 2022-06-22 | 2022-08-12 | 辽宁工程技术大学 | 一种基于特征分层和改进ecapa-tdnn的声学场景分类的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390952A (zh) * | 2019-06-21 | 2019-10-29 | 江南大学 | 基于双特征2-DenseNet并联的城市声音事件分类方法 |
CN110600054A (zh) * | 2019-09-06 | 2019-12-20 | 南京工程学院 | 基于网络模型融合的声场景分类方法 |
CN111145726A (zh) * | 2019-10-31 | 2020-05-12 | 南京励智心理大数据产业研究院有限公司 | 基于深度学习的声场景分类方法、系统、装置及存储介质 |
CN112466333A (zh) * | 2020-11-24 | 2021-03-09 | 深圳信息职业技术学院 | 一种声学场景分类方法与系统 |
-
2021
- 2021-09-16 CN CN202111090034.0A patent/CN113808604B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390952A (zh) * | 2019-06-21 | 2019-10-29 | 江南大学 | 基于双特征2-DenseNet并联的城市声音事件分类方法 |
CN110600054A (zh) * | 2019-09-06 | 2019-12-20 | 南京工程学院 | 基于网络模型融合的声场景分类方法 |
CN111145726A (zh) * | 2019-10-31 | 2020-05-12 | 南京励智心理大数据产业研究院有限公司 | 基于深度学习的声场景分类方法、系统、装置及存储介质 |
CN112466333A (zh) * | 2020-11-24 | 2021-03-09 | 深圳信息职业技术学院 | 一种声学场景分类方法与系统 |
Non-Patent Citations (4)
Title |
---|
DERRY FITZGERALD ETC.: "Harmonic/Percussive Separation Using Median Filtering", 《13TH INTERNATIONAL CONFERENCE ON DIGITAL AUDIO EFFECTS (DAFX-10), GRAZ:IEEE PRESS》, pages 1 - 4 * |
ZILONG HUANG ETC.: "Urban sound classification based on 2-order dense convolutional network using dual features", 《ELSEVIER》, pages 107243 - 107251 * |
曹毅 等: "D-2-DenseNet噪音鲁棒的城市音频分类模型", 《北京邮电大学学报》, vol. 44, no. 1, pages 86 - 91 * |
王玥 等: "基于伽马通滤波器组的听觉特征提取算法研究", 《电子学报》, vol. 38, no. 3, pages 525 - 528 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114898772A (zh) * | 2022-06-22 | 2022-08-12 | 辽宁工程技术大学 | 一种基于特征分层和改进ecapa-tdnn的声学场景分类的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113808604B (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
Delcroix et al. | Compact network for speakerbeam target speaker extraction | |
Xiang et al. | A nested u-net with self-attention and dense connectivity for monaural speech enhancement | |
CN108877823B (zh) | 语音增强方法和装置 | |
WO2013149123A1 (en) | Monaural speech filter | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
Do et al. | Speech source separation using variational autoencoder and bandpass filter | |
CN113191178A (zh) | 一种基于听觉感知特征深度学习的水声目标识别方法 | |
CN110765868A (zh) | 唇读模型的生成方法、装置、设备及存储介质 | |
CN105679321B (zh) | 语音识别方法、装置及终端 | |
CN111798875A (zh) | 一种基于三值量化压缩的vad实现方法 | |
Mun et al. | The sound of my voice: Speaker representation loss for target voice separation | |
CN112183582A (zh) | 一种多特征融合的水下目标识别方法 | |
Do et al. | Speech Separation in the Frequency Domain with Autoencoder. | |
CN113808604B (zh) | 基于伽马通频谱分离的声场景分类方法 | |
JP2020071482A (ja) | 語音分離方法、語音分離モデル訓練方法及びコンピュータ可読媒体 | |
Agcaer et al. | Optimization of amplitude modulation features for low-resource acoustic scene classification | |
CN113488069B (zh) | 基于生成式对抗网络的语音高维特征快速提取方法和装置 | |
CN113327589B (zh) | 一种基于姿态传感器的语音活动检测方法 | |
CN115691539A (zh) | 基于视觉导引的两阶段语音分离方法及系统 | |
CN114189781A (zh) | 双麦神经网络降噪耳机的降噪方法及系统 | |
Opochinsky et al. | Single-microphone speaker separation and voice activity detection in noisy and reverberant environments | |
CN116631406B (zh) | 基于声学特征生成的身份特征提取方法、设备及存储介质 | |
Srinivasarao | Speech signal analysis and enhancement using combined wavelet Fourier transform with stacked deep learning architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |