CN109978034B - 一种基于数据增强的声场景辨识方法 - Google Patents

一种基于数据增强的声场景辨识方法 Download PDF

Info

Publication number
CN109978034B
CN109978034B CN201910201430.2A CN201910201430A CN109978034B CN 109978034 B CN109978034 B CN 109978034B CN 201910201430 A CN201910201430 A CN 201910201430A CN 109978034 B CN109978034 B CN 109978034B
Authority
CN
China
Prior art keywords
audio
data
training
sound scene
audio samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910201430.2A
Other languages
English (en)
Other versions
CN109978034A (zh
Inventor
李艳雄
张聿晗
王武城
刘名乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910201430.2A priority Critical patent/CN109978034B/zh
Publication of CN109978034A publication Critical patent/CN109978034A/zh
Application granted granted Critical
Publication of CN109978034B publication Critical patent/CN109978034B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于数据增强的声场景辨识方法,包括下列步骤:首先采集并标注不同声场景的音频样本;然后预处理,对音频样本进行预加重、分帧和加窗处理;接着进行数据增强,提取各音频样本的谐波源和冲击源,得到更充足的音频样本,从音频样本及其谐波源和冲击源中提取对数梅尔滤波器组特征,再将上述三个特征堆叠成一个三通道的高维特征,接着采用混合增强技术构造更丰富的训练样本;最后将上述三通道高维特征输入到Xception网络进行判决,辨识出各音频样本所对应的声场景。本发明的数据增强方法可以有效提高Xception网络分类器的泛化能力,稳定网络的训练过程。在对声场景进行辨识时,本方法可取得更优的辨识效果。

Description

一种基于数据增强的声场景辨识方法
技术领域
本发明涉及音频信号处理和深度学习技术领域,具体涉及一种基于数据增强的声场景辨识方法。
背景技术
音频信号含有丰富的信息,并具有非接触性、自然性的优势。声场景则是音频信号在语义层面上的高级表示。声场景辨识的任务是将语义标签和音频流相关联,标识声音产生环境的类别。该技术能使智能设备根据声音感知周围环境,从而做出恰当的决策。目前音频数据海量增长,由于人工标注数据非常耗时耗力,因此有准确标签的音频样本非常少。没有标签的音频样本是不能直接用来训练分类器的。如何基于有限的有标签音频样本构造更加多样性的训练数据从而构建更具泛化能力的分类器,是目前声场景辨识任务需要解决的主要问题之一。目前主要采用人工标注的方式增加有标签数据的多样性,但人工标注成本非常高。另外,在不同的分类任务中需要重新标注数据样本,不具备通用性,使得人工标注的成本更加高。为了克服人工标注数据成本高、有标签训练数据不足的问题,目前亟待采用数据增强的方法,增加有限的有标签音频数据的多样性,从而提高对复杂分类器的适应性及其泛化能力。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于数据增强的声场景辨识方法,该方法对音频数据集进行数据增强处理,并将其相应堆叠后得到的三通道高维声学特征输入Xception网络分类器进行训练,训练完毕后对测试集数据进行测试,实现声场景辨识。
本发明的目的可以通过采取如下技术方案达到:
一种基于数据增强的声场景辨识方法,所述的声场景辨识方法包括:
S1、音频样本准备步骤,利用录音设备在不同声场景采集音频样本,并进行人工标注,然后将上述音频样本划分为训练集和测试集;
S2、预处理步骤,分别对训练集和测试集中音频样本进行预加重、分帧、加窗处理;
S3、数据增强步骤,分离各音频样本的谐波源和冲击源,再分别提取音频样本、谐波源、冲击源的对数梅尔滤波器组特征,再将上述三个对数梅尔滤波器组特征堆叠成一个三通道的高维特征,接着采用混合增强技术构造新的训练样本数据;
S4、声场景辨识步骤,将上述各音频样本的三通道高维特征输入已训练好的Xception网络,得到各音频样本的声场景类别。
进一步地,所述的S1、音频样本准备步骤过程如下:
S1.1、利用录音设备采集音频数据:在不同场景放置录音设备,记录相应场景的音频样本,其采样频率为16kHz,量化位数为16bit;
S1.2、划分数据集:将标注好的音频样本随机划分为不相交的训练集与测试集,其中训练集占比约为80%,测试集占比约为20%。
进一步地,所述的S2、预处理步骤过程如下:
S2.1、预加重:利用数字滤波器对输入音频进行滤波,该滤波器的传递函数为:
H(z)=1-az-1
其中a为常数,取值为0.96;
S2.2、分帧:将预加重后的音频按照帧长40ms切分成音频帧,帧移为20ms;
S2.3、加窗:采用汉明窗作为窗函数,并与各音频帧相乘实现加窗处理,窗函数ω(n)采用汉明窗:
Figure BDA0001997576100000031
其中,N表示帧长,取值为400。
进一步地,所述的S3、数据增强步骤过程如下:
S3.1、对音频进行谐波源和冲击源分离,定义代价函数J(H,P):
Figure BDA0001997576100000032
Hk,t+Pk,t=Wk,t
Hk,t≥0,Pk,t≥0,
其中,k和t分别表示频率和时间,σH与σP分别表示控制谐波源和冲击源平滑度的参数因子,Hk,t、Pk,t分别表示第t帧谐波源、冲击源的频谱,Wk,t表示第t帧音频的能量谱,H和P是Hk,t和Pk,t的集合;
令代价函数的偏导满足:
Figure BDA0001997576100000033
即可最小化J(H,P),从而得到Hk,t和Pk,t,分别对Hk,t和Pk,t进行短时傅里叶逆变换,得到相应的谐波源ht(n)与冲击源pt(n);
S3.2、提取对数梅尔滤波器组特征,过程如下:
S3.2.1、对第t帧音频信号xt(n)进行离散傅立叶变换操作,得到其线性频谱Xt(k):
Figure BDA0001997576100000034
S3.2.2、对上述线性频谱Xt(k)进行梅尔频率滤波器组滤波,获得其梅尔频谱,其中,梅尔频率滤波器组为若干个带通滤波器Hm(k),M为滤波器的个数,每个滤波器具有三角形滤波特性,即其中心频率为f(m),当m值较小时相邻f(m)的间隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
Figure BDA0001997576100000041
其中,f(m)定义如下:
Figure BDA0001997576100000042
其中,fl、fh分别表示滤波器的最低频率和最高频率,fs表示采样频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
故可得第t帧音频数据的对数梅尔滤波器组特征LF为:
LF=ln[Xt(k)Hm(k)],0≤m<M;
S3.3、构建三通道的高维特征,过程法如下:
S3.3.1、对第t帧音频信号的谐波源ht(n)与冲击源pt(n)进行对数梅尔滤波器组特征提取,提取对数梅尔滤波器组特征,分别得到相应的对数梅尔滤波器组特征LFh与LFp
S3.3.2、将LF、LFh与LFp进行堆叠,得到三通道的高维特征:
Figure BDA0001997576100000051
S3.4、采用混合增强方法对训练数据进行数据增强。
进一步地,所述的步骤S3.4、采用混合增强方法对训练数据进行数据增强过程如下:
构建新的训练样本数据
Figure BDA0001997576100000052
Figure BDA0001997576100000053
Figure BDA0001997576100000054
其中,(vi,yi)与(vj,yj)是从原训练数据中随机抽取的两个索引为i和j的样本,yi与yj是训练样本的标签,
Figure BDA0001997576100000055
表示新训练数据,
Figure BDA0001997576100000056
表示相应的新数据标签,
Figure BDA0001997576100000057
表示取整运算,参数λ服从贝塔分布:
Figure BDA0001997576100000058
λ∈[0,1],
其中,α和β为形状参数,贝塔分布的均值为
Figure BDA0001997576100000059
方差为
Figure BDA00019975761000000510
取α=β,u为积分变量。
进一步地,所述的S4、声场景辨识步骤如下:
S4.1、训练Xception网络分类器,网络训练的目标函数采用交叉熵损失函数:
Figure BDA00019975761000000511
其中,C为声场景类别的数目,
Figure BDA00019975761000000512
为第c类声场景的标签,pc为第c类声场景的输出概率,网络的训练以最小化损失函数
Figure BDA00019975761000000513
为目标;
S4.2、输出辨识结果,训练并调试完毕Xception网络分类器后,对测试集样本进行S2-S3步骤处理,将其高维特征输入Xception网络,得到每一类声场景的输出概率,取输出概率最大的那类声场景作为该音频样本的判决结果。
本发明相对于现有技术具有如下的优点及效果:
1、本发明将Xception网络应用于声场景辨识,能有效建模复杂声场景,相比于传统的高斯混合模型、支持向量机等分类器能取得更佳的辨识结果。
2、本发明对可用的有限音频数据进行数据增强处理,增加了音频数据的多样性,减少了人工标注的数据量,提高了分类器训练效率;另外,数据增强处理也挖掘出了数据之间的潜在区分特性,使辨识效果更优异。
附图说明
图1是本发明公开的一种基于数据增强的声场景辨识方法的流程步骤图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例公开了一种基于数据增强的声场景辨识方法的具体实施过程,如图1所示,该声场景辨识方法具体步骤操作如下:
S1、音频样本准备:利用录音设备在不同声场景采集音频样本,并进行人工标注,然后将上述音频样本划分为训练集和测试集。
在本实施例中,该步骤具体包括以下步骤:
S1.1、利用录音设备采集音频数据:在不同场景放置录音设备,记录相应场景的音频样本,其采样频率为16kHz,量化位数为16bit。
S1.2、划分数据集:将标注好的音频样本随机划分为不相交的训练集与测试集,其中训练集占比约为80%,测试集占比约为20%。
S2、预处理:分别对训练集和测试集中音频样本进行预加重、分帧、加窗处理。
在本实施例中,该步骤具体包括以下步骤:
S2.1、预加重:利用数字滤波器对输入音频进行滤波,该滤波器的传递函数为:
H(z)=1-az-1
其中a为常数,取值为0.96;
S2.2、分帧:将预加重后的音频按照帧长40ms切分成音频帧,帧移为20ms;
S2.3、加窗:采用汉明窗作为窗函数,并与各音频帧相乘实现加窗处理,窗函数ω(n)采用汉明窗:
Figure BDA0001997576100000071
其中,N表示帧长(采样点个数),取值为400。
S3、数据增强:分离各音频样本的谐波源和冲击源,再分别提取音频样本及其谐波源和冲击源的对数梅尔滤波器组特征,再将上述三个对数梅尔滤波器组特征堆叠成一个三通道的高维特征,接着采用混合增强技术构造新的训练样本数据。
在本实施例中,该步骤具体包括以下步骤:
S3.1、对音频进行谐波源和冲击源分离:定义代价函数J(H,P):
Figure BDA0001997576100000081
Hk,t+Pk,t=Wk,t
Hk,t≥0,Pk,t≥0,
其中,k和t分别表示频率和时间,σH与σP分别表示控制谐波源和冲击源平滑度的参数因子,Hk,t、Pk,t分别表示第t帧谐波源、冲击源的频谱,Wk,t表示第t帧音频的能量谱,H和P是Hk,t和Pk,t的集合;令代价函数的偏导满足:
Figure BDA0001997576100000082
即可最小化J(H,P),从而得到Hk,t和Pk,t,分别对Hk,t和Pk,t进行短时傅里叶逆变换,得到相应的谐波源ht(n)与冲击源pt(n);
S3.2、提取对数梅尔滤波器组特征,过程如下:
S3.2.1、对第t帧音频信号xt(n)进行离散傅立叶变换操作,得到其线性频谱Xt(k):
Figure BDA0001997576100000083
S3.2.2、对上述线性频谱Xt(k)进行梅尔频率滤波器组滤波,获得其梅尔频谱,梅尔频率滤波器组为若干个带通滤波器Hm(k),M为滤波器的个数,每个滤波器具有三角形滤波特性,即其中心频率为f(m),当m值较小时相邻f(m)的间隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
Figure BDA0001997576100000091
其中,f(m)定义如下:
Figure BDA0001997576100000092
其中,fl、fh分别表示滤波器的最低频率和最高频率,fs表示采样频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
故可得第t帧音频数据的对数梅尔滤波器组特征LF为:
LF=ln[Xt(k)Hm(k)],0≤m<M;
S3.3、构建三通道的高维特征,过程法如下:
S3.3.1、对第t帧音频信号的谐波源ht(n)与冲击源pt(n)进行步骤S3.2处理,提取对数梅尔滤波器组特征,分别得到相应的对数梅尔滤波器组特征LFh与LFp
S3.3.2、将LF、LFh与LFp进行堆叠,得到三通道的高维特征:
Figure BDA0001997576100000093
S3.4、采用混合增强方法对训练数据进行数据增强,构建新的训练样本数据
Figure BDA0001997576100000094
Figure BDA0001997576100000095
Figure BDA0001997576100000096
其中,(vi,yi)与(vj,yj)是从原训练数据中随机抽取的两个索引为i和j的样本,yi与yj是训练样本的标签,
Figure BDA0001997576100000101
表示新训练数据,
Figure BDA0001997576100000102
表示相应的新数据标签,
Figure BDA0001997576100000103
表示取整运算,参数λ服从贝塔分布:
Figure BDA0001997576100000104
λ∈[0,1],
其中,α和β为形状参数,贝塔分布的均值为
Figure BDA0001997576100000105
方差为
Figure BDA0001997576100000106
取α=β,u为积分变量。
S4、声场景辨识:将上述各音频样本的三通道高维特征输入已训练好的Xception网络,得到各音频样本的声场景类别。
在本实施例中,该步骤具体包括以下步骤:
S4.1、训练Xception网络分类器,网络训练的目标函数采用交叉熵损失函数:
Figure BDA0001997576100000107
其中,C为声场景类别的数目,
Figure BDA0001997576100000108
为第c类声场景的标签,pc为第c类声场景的输出概率,网络的训练以最小化损失函数
Figure BDA0001997576100000109
为目标,具体的训练方法详见参考文献:
Figure BDA00019975761000001010
Chollet.Xception:Deep Learning with Depthwise Separable Convolutions,2017IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2017,pp.1800-1807;
S4.2、输出辨识结果:训练并调试完毕Xception网络分类器后,对测试集样本进行S2-S3步骤处理,将其高维特征输入Xception网络,得到每一类声场景的输出概率,取输出概率最大的那类声场景作为该音频样本的判决结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种基于数据增强的声场景辨识方法,其特征在于,所述的声场景辨识方法包括:
S1、音频样本准备步骤,利用录音设备在不同声场景采集音频样本,并进行人工标注,然后将上述音频样本划分为训练集和测试集;
S2、预处理步骤,分别对训练集和测试集中音频样本进行预加重、分帧、加窗处理;
S3、数据增强步骤,分离各音频样本的谐波源和冲击源,再分别提取音频样本、谐波源、冲击源的对数梅尔滤波器组特征,再将上述三个对数梅尔滤波器组特征堆叠成一个三通道的高维特征,接着采用混合增强技术构造新的训练样本数据,其中,采用混合增强方法对训练数据进行数据增强过程如下:
构建新的训练样本数据
Figure FDA0002694136250000011
Figure FDA0002694136250000012
Figure FDA0002694136250000013
其中,(vi,yi)与(vj,yj)是从原训练数据中随机抽取的两个索引为i和j的样本,yi与yj是训练样本的标签,
Figure FDA0002694136250000014
表示新训练数据,
Figure FDA0002694136250000015
表示相应的新数据标签,
Figure FDA0002694136250000016
表示取整运算,参数λ服从贝塔分布:
Figure FDA0002694136250000017
其中,α和β为形状参数,贝塔分布的均值为
Figure FDA0002694136250000018
方差为
Figure FDA0002694136250000021
取α=β,u为积分变量;
S4、声场景辨识步骤,将上述各音频样本的三通道高维特征输入已训练好的Xception网络,得到各音频样本的声场景类别。
2.根据权利要求1所述的一种基于数据增强的声场景辨识方法,其特征在于,所述的S1、音频样本准备步骤过程如下:
S1.1、利用录音设备采集音频数据:在不同场景放置录音设备,记录相应场景的音频样本,其采样频率为16kHz,量化位数为16bit;
S1.2、划分数据集:将标注好的音频样本随机划分为不相交的训练集与测试集,其中训练集占比约为80%,测试集占比约为20%。
3.根据权利要求1所述的一种基于数据增强的声场景辨识方法,其特征在于,所述的S2、预处理步骤过程如下:
S2.1、预加重:利用数字滤波器对输入音频进行滤波,该滤波器的传递函数为:
H(z)=1-az-1
其中a为常数,取值为0.96;
S2.2、分帧:将预加重后的音频按照帧长40ms切分成音频帧,帧移为20ms;
S2.3、加窗:采用汉明窗作为窗函数,并与各音频帧相乘实现加窗处理,窗函数ω(n)采用汉明窗:
Figure FDA0002694136250000022
其中,N表示帧长,取值为400。
4.根据权利要求1所述的一种基于数据增强的声场景辨识方法,其特征在于,所述的S3、数据增强步骤过程如下:
S3.1、对音频进行谐波源和冲击源分离,定义代价函数J(H,P):
Figure FDA0002694136250000031
Hk,t+Pk,t=Wk,t
Hk,t≥0,Pk,t≥0,
其中,k和t分别表示频率和时间,σH与σP分别表示控制谐波源和冲击源平滑度的参数因子,Hk,t、Pk,t分别表示第t帧谐波源、冲击源的频谱,Wk,t表示第t帧音频的能量谱,H和P是Hk,t和Pk,t的集合;
令代价函数的偏导满足:
Figure FDA0002694136250000032
即可最小化J(H,P),从而得到Hk,t和Pk,t,分别对Hk,t和Pk,t进行短时傅里叶逆变换,得到相应的谐波源ht(n)与冲击源pt(n);
S3.2、提取对数梅尔滤波器组特征,过程如下:
S3.2.1、对第t帧音频信号xt(n)进行离散傅立叶变换操作,得到其线性频谱Xt(k):
Figure FDA0002694136250000033
S3.2.2、对上述线性频谱Xt(k)进行梅尔频率滤波器组滤波,获得其梅尔频谱,其中,梅尔频率滤波器组为若干个带通滤波器Hm(k),M为滤波器的个数,每个滤波器具有三角形滤波特性,即其中心频率为f(m),当m值较小时相邻f(m)的间隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
Figure FDA0002694136250000041
其中,f(m)定义如下:
Figure FDA0002694136250000042
其中,fl、fh分别表示滤波器的最低频率和最高频率,fs表示采样频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
故可得第t帧音频数据的对数梅尔滤波器组特征LF为:
LF=ln[Xt(k)Hm(k)],0≤m<M;
S3.3、构建三通道的高维特征,过程法如下:
S3.3.1、对第t帧音频信号的谐波源ht(n)与冲击源pt(n)进行对数梅尔滤波器组特征提取,提取对数梅尔滤波器组特征,分别得到相应的对数梅尔滤波器组特征LFh与LFp
S3.3.2、将LF、LFh与LFp进行堆叠,得到三通道的高维特征:
Figure FDA0002694136250000043
S3.4、采用混合增强方法对训练数据进行数据增强。
5.根据权利要求1所述的一种基于数据增强的声场景辨识方法,其特征在于,所述的S4、声场景辨识步骤如下:
S4.1、训练Xception网络分类器,网络训练的目标函数采用交叉熵损失函数:
Figure FDA0002694136250000051
其中,C为声场景类别的数目,
Figure FDA0002694136250000052
为第c类声场景的标签,pc为第c类声场景的输出概率,网络的训练以最小化损失函数
Figure FDA0002694136250000053
为目标;
S4.2、输出辨识结果,训练并调试完毕Xception网络分类器后,对测试集样本进行S2-S3步骤处理,将其高维特征输入Xception网络,得到每一类声场景的输出概率,取输出概率最大的那类声场景作为该音频样本的判决结果。
CN201910201430.2A 2019-03-18 2019-03-18 一种基于数据增强的声场景辨识方法 Active CN109978034B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910201430.2A CN109978034B (zh) 2019-03-18 2019-03-18 一种基于数据增强的声场景辨识方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910201430.2A CN109978034B (zh) 2019-03-18 2019-03-18 一种基于数据增强的声场景辨识方法

Publications (2)

Publication Number Publication Date
CN109978034A CN109978034A (zh) 2019-07-05
CN109978034B true CN109978034B (zh) 2020-12-22

Family

ID=67079139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910201430.2A Active CN109978034B (zh) 2019-03-18 2019-03-18 一种基于数据增强的声场景辨识方法

Country Status (1)

Country Link
CN (1) CN109978034B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110808033B (zh) * 2019-09-25 2022-04-15 武汉科技大学 一种基于双重数据增强策略的音频分类方法
CN111341341B (zh) * 2020-02-11 2021-08-17 腾讯科技(深圳)有限公司 音频分离网络的训练方法、音频分离方法、装置及介质
CN111754988B (zh) * 2020-06-23 2022-08-16 南京工程学院 基于注意力机制和双路径深度残差网络的声场景分类方法
CN111723874B (zh) * 2020-07-02 2023-05-26 华南理工大学 一种基于宽度和深度神经网络的声场景分类方法
CN112257521B (zh) * 2020-09-30 2023-04-07 中国人民解放军军事科学院国防科技创新研究院 基于数据增强和时频分离的cnn水声信号目标识别方法
CN112435686A (zh) * 2020-11-19 2021-03-02 中国南方电网有限责任公司超高压输电公司 一种基于数据增强的电力设备故障声音识别方法
CN112466333A (zh) * 2020-11-24 2021-03-09 深圳信息职业技术学院 一种声学场景分类方法与系统
CN113611288A (zh) * 2021-08-06 2021-11-05 南京华捷艾米软件科技有限公司 一种音频特征提取方法、装置及系统
CN117095694B (zh) * 2023-10-18 2024-02-23 中国科学技术大学 一种基于标签层级结构属性关系的鸟类鸣声识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104919821A (zh) * 2012-09-27 2015-09-16 声摩逊实验室 用于重放音频信号的方法和系统
CN106775562A (zh) * 2016-12-09 2017-05-31 奇酷互联网络科技(深圳)有限公司 音频参数处理的方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3913442A (en) * 1974-05-16 1975-10-21 Nippon Musical Instruments Mfg Voicing for a computor organ
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US8934640B2 (en) * 2007-05-17 2015-01-13 Creative Technology Ltd Microphone array processor based on spatial analysis
US9536540B2 (en) * 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US20150242182A1 (en) * 2014-02-24 2015-08-27 Honeywell International Inc. Voice augmentation for industrial operator consoles
CN104616663A (zh) * 2014-11-25 2015-05-13 重庆邮电大学 一种结合hpss的mfcc-多反复模型的音乐分离方法
CN105355210B (zh) * 2015-10-30 2020-06-23 百度在线网络技术(北京)有限公司 用于远场语音识别的预处理方法和装置
EP3171362B1 (en) * 2015-11-19 2019-08-28 Harman Becker Automotive Systems GmbH Bass enhancement and separation of an audio signal into a harmonic and transient signal component
CN106053070B (zh) * 2016-06-30 2018-05-29 中国人民解放军国防科学技术大学 基于分离信号包络谱特征的轴承滚动体故障增强诊断方法
CN106952643A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
CN108061653B (zh) * 2017-12-05 2019-11-05 安徽大学 基于谐波-冲击多普勒调制复合字典的列车轮对轴承轨边声信号分离方法
CN108490349B (zh) * 2018-01-23 2020-08-18 浙江大学山东工业技术研究院 基于Mel频率倒谱系数的电机异音检测方法
CN109256146B (zh) * 2018-10-30 2021-07-06 腾讯音乐娱乐科技(深圳)有限公司 音频检测方法、装置及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104919821A (zh) * 2012-09-27 2015-09-16 声摩逊实验室 用于重放音频信号的方法和系统
CN106775562A (zh) * 2016-12-09 2017-05-31 奇酷互联网络科技(深圳)有限公司 音频参数处理的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Deep Convolutional Neural Networks and Data Augmentation for Acoustic Event Detection";Naoya Takahashi et al.;《arXiv:1604.07160v2》;20161208;第1-5页 *

Also Published As

Publication number Publication date
CN109978034A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109978034B (zh) 一种基于数据增强的声场景辨识方法
Xiong et al. A pursuit of temporal accuracy in general activity detection
CN105976809B (zh) 基于语音和面部表情的双模态情感融合的识别方法及系统
CN109614979B (zh) 一种基于选择与生成的数据增广方法及图像分类方法
Tzinis et al. Into the wild with audioscope: Unsupervised audio-visual separation of on-screen sounds
Xie et al. DeRPN: Taking a further step toward more general object detection
CN108305616A (zh) 一种基于长短时特征提取的音频场景识别方法及装置
CN110808033B (zh) 一种基于双重数据增强策略的音频分类方法
Wang et al. A curated dataset of urban scenes for audio-visual scene analysis
CN107220235A (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN110110580B (zh) 一种面向Wi-Fi信号的手语孤立词识别网络构建及分类方法
CN102930298A (zh) 基于多层增强hmm的语音-视觉融合的情感识别方法
CN103985381A (zh) 一种基于参数融合优化决策的音频索引方法
CN108962229A (zh) 一种基于单通道、无监督式的目标说话人语音提取方法
Lopes et al. Selection of training instances for music genre classification
Zhang et al. Automatic discrimination of text and non-text natural images
CN107274912B (zh) 一种手机录音的设备来源辨识方法
Xie et al. Audio-only bird species automated identification method with limited training data based on multi-channel deep convolutional neural networks
CN113822377B (zh) 基于对比自学习的伪造人脸检测方法
CN108364637A (zh) 一种音频句子边界检测方法
CN114330454A (zh) 一种基于ds证据理论融合特征的生猪咳嗽声音识别方法
Shu et al. Time-frequency performance study on urban sound classification with convolutional neural network
CN109472307A (zh) 一种训练图像分类模型的方法和装置
Singh et al. Implementation and evaluation of DWT and MFCC based ISL gesture recognition
CN116434759A (zh) 一种基于srs-cl网络的说话人识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant