CN109978034A - 一种基于数据增强的声场景辨识方法 - Google Patents

一种基于数据增强的声场景辨识方法 Download PDF

Info

Publication number
CN109978034A
CN109978034A CN201910201430.2A CN201910201430A CN109978034A CN 109978034 A CN109978034 A CN 109978034A CN 201910201430 A CN201910201430 A CN 201910201430A CN 109978034 A CN109978034 A CN 109978034A
Authority
CN
China
Prior art keywords
data
audio
sample
sound
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910201430.2A
Other languages
English (en)
Other versions
CN109978034B (zh
Inventor
李艳雄
张聿晗
王武城
刘名乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910201430.2A priority Critical patent/CN109978034B/zh
Publication of CN109978034A publication Critical patent/CN109978034A/zh
Application granted granted Critical
Publication of CN109978034B publication Critical patent/CN109978034B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种基于数据增强的声场景辨识方法,包括下列步骤:首先采集并标注不同声场景的音频样本;然后预处理,对音频样本进行预加重、分帧和加窗处理;接着进行数据增强,提取各音频样本的谐波源和冲击源,得到更充足的音频样本,从音频样本及其谐波源和冲击源中提取对数梅尔滤波器组特征,再将上述三个特征堆叠成一个三通道的高维特征,接着采用混合增强技术构造更丰富的训练样本;最后将上述三通道高维特征输入到Xception网络进行判决,辨识出各音频样本所对应的声场景。本发明的数据增强方法可以有效提高Xception网络分类器的泛化能力,稳定网络的训练过程。在对声场景进行辨识时,本方法可取得更优的辨识效果。

Description

一种基于数据增强的声场景辨识方法
技术领域
本发明涉及音频信号处理和深度学习技术领域,具体涉及一种基于数据增强的声场景辨识方法。
背景技术
音频信号含有丰富的信息,并具有非接触性、自然性的优势。声场景则是音频信号在语义层面上的高级表示。声场景辨识的任务是将语义标签和音频流相关联,标识声音产生环境的类别。该技术能使智能设备根据声音感知周围环境,从而做出恰当的决策。目前音频数据海量增长,由于人工标注数据非常耗时耗力,因此有准确标签的音频样本非常少。没有标签的音频样本是不能直接用来训练分类器的。如何基于有限的有标签音频样本构造更加多样性的训练数据从而构建更具泛化能力的分类器,是目前声场景辨识任务需要解决的主要问题之一。目前主要采用人工标注的方式增加有标签数据的多样性,但人工标注成本非常高。另外,在不同的分类任务中需要重新标注数据样本,不具备通用性,使得人工标注的成本更加高。为了克服人工标注数据成本高、有标签训练数据不足的问题,目前亟待采用数据增强的方法,增加有限的有标签音频数据的多样性,从而提高对复杂分类器的适应性及其泛化能力。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于数据增强的声场景辨识方法,该方法对音频数据集进行数据增强处理,并将其相应堆叠后得到的三通道高维声学特征输入Xception网络分类器进行训练,训练完毕后对测试集数据进行测试,实现声场景辨识。
本发明的目的可以通过采取如下技术方案达到:
一种基于数据增强的声场景辨识方法,所述的声场景辨识方法包括:
S1、音频样本准备步骤,利用录音设备在不同声场景采集音频样本,并进行人工标注,然后将上述音频样本划分为训练集和测试集;
S2、预处理步骤,分别对训练集和测试集中音频样本进行预加重、分帧、加窗处理;
S3、数据增强步骤,分离各音频样本的谐波源和冲击源,再分别提取音频样本、谐波源、冲击源的对数梅尔滤波器组特征,再将上述三个对数梅尔滤波器组特征堆叠成一个三通道的高维特征,接着采用混合增强技术构造新的训练样本数据;
S4、声场景辨识步骤,将上述各音频样本的三通道高维特征输入已训练好的Xception网络,得到各音频样本的声场景类别。
进一步地,所述的S1、音频样本准备步骤过程如下:
S1.1、利用录音设备采集音频数据:在不同场景放置录音设备,记录相应场景的音频样本,其采样频率为16kHz,量化位数为16bit;
S1.2、划分数据集:将标注好的音频样本随机划分为不相交的训练集与测试集,其中训练集占比约为80%,测试集占比约为20%。
进一步地,所述的S2、预处理步骤过程如下:
S2.1、预加重:利用数字滤波器对输入音频进行滤波,该滤波器的传递函数为:
H(z)=1-az-1
其中a为常数,取值为0.96;
S2.2、分帧:将预加重后的音频按照帧长40ms切分成音频帧,帧移为20ms;
S2.3、加窗:采用汉明窗作为窗函数,并与各音频帧相乘实现加窗处理,窗函数ω(n)采用汉明窗:
其中,N表示帧长,取值为400。
进一步地,所述的S3、数据增强步骤过程如下:
S3.1、对音频进行谐波源和冲击源分离,定义代价函数J(H,P):
Hk,t+Pk,t=Wk,t
Hk,t≥0,Pk,t≥0,
其中,k和t分别表示频率和时间,σH与σP分别表示控制谐波源和冲击源平滑度的参数因子,Hk,t、Pk,t分别表示第t帧谐波源、冲击源的频谱,Wk,t表示第t帧音频的能量谱,H和P是Hk,t和Pk,t的集合;
令代价函数的偏导满足:
即可最小化J(H,P),从而得到Hk,t和Pk,t,分别对Hk,t和Pk,t进行短时傅里叶逆变换,得到相应的谐波源ht(n)与冲击源pt(n);
S3.2、提取对数梅尔滤波器组特征,过程如下:
S3.2.1、对第t帧音频信号xt(n)进行离散傅立叶变换操作,得到其线性频谱Xt(k):
S3.2.2、对上述线性频谱Xt(k)进行梅尔频率滤波器组滤波,获得其梅尔频谱,其中,梅尔频率滤波器组为若干个带通滤波器Hm(k),M为滤波器的个数,每个滤波器具有三角形滤波特性,即其中心频率为f(m),当m值较小时相邻f(m)的间隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
其中,f(m)定义如下:
其中,fl、fh分别表示滤波器的最低频率和最高频率,fs表示采样频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
故可得第t帧音频数据的对数梅尔滤波器组特征LF为:
LF=ln[Xt(k)Hm(k)],0≤m<M;
S3.3、构建三通道的高维特征,过程法如下:
S3.3.1、对第t帧音频信号的谐波源ht(n)与冲击源pt(n)进行对数梅尔滤波器组特征提取,提取对数梅尔滤波器组特征,分别得到相应的对数梅尔滤波器组特征LFh与LFp
S3.3.2、将LF、LFh与LFp进行堆叠,得到三通道的高维特征:
S3.4、采用混合增强方法对训练数据进行数据增强。
进一步地,所述的步骤S3.4、采用混合增强方法对训练数据进行数据增强过程如下:
构建新的训练样本数据
其中,(vi,yi)与(vj,yj)是从原训练数据中随机抽取的两个索引为i和j的样本,yi与yj是训练样本的标签,表示新训练数据,表示相应的新数据标签,表示取整运算,参数λ服从贝塔分布:
λ∈[0,1],
其中,α和β为形状参数,贝塔分布的均值为方差为取α=β,u为积分变量。
进一步地,所述的S4、声场景辨识步骤如下:
S4.1、训练Xception网络分类器,网络训练的目标函数采用交叉熵损失函数:
其中,C为声场景类别的数目,为第c类声场景的标签,pc为第c类声场景的输出概率,网络的训练以最小化损失函数为目标;
S4.2、输出辨识结果,训练并调试完毕Xception网络分类器后,对测试集样本进行S2-S3步骤处理,将其高维特征输入Xception网络,得到每一类声场景的输出概率,取输出概率最大的那类声场景作为该音频样本的判决结果。
本发明相对于现有技术具有如下的优点及效果:
1、本发明将Xception网络应用于声场景辨识,能有效建模复杂声场景,相比于传统的高斯混合模型、支持向量机等分类器能取得更佳的辨识结果。
2、本发明对可用的有限音频数据进行数据增强处理,增加了音频数据的多样性,减少了人工标注的数据量,提高了分类器训练效率;另外,数据增强处理也挖掘出了数据之间的潜在区分特性,使辨识效果更优异。
附图说明
图1是本发明公开的一种基于数据增强的声场景辨识方法的流程步骤图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例公开了一种基于数据增强的声场景辨识方法的具体实施过程,如图1所示,该声场景辨识方法具体步骤操作如下:
S1、音频样本准备:利用录音设备在不同声场景采集音频样本,并进行人工标注,然后将上述音频样本划分为训练集和测试集。
在本实施例中,该步骤具体包括以下步骤:
S1.1、利用录音设备采集音频数据:在不同场景放置录音设备,记录相应场景的音频样本,其采样频率为16kHz,量化位数为16bit。
S1.2、划分数据集:将标注好的音频样本随机划分为不相交的训练集与测试集,其中训练集占比约为80%,测试集占比约为20%。
S2、预处理:分别对训练集和测试集中音频样本进行预加重、分帧、加窗处理。
在本实施例中,该步骤具体包括以下步骤:
S2.1、预加重:利用数字滤波器对输入音频进行滤波,该滤波器的传递函数为:
H(z)=1-az-1
其中a为常数,取值为0.96;
S2.2、分帧:将预加重后的音频按照帧长40ms切分成音频帧,帧移为20ms;
S2.3、加窗:采用汉明窗作为窗函数,并与各音频帧相乘实现加窗处理,窗函数ω(n)采用汉明窗:
其中,N表示帧长(采样点个数),取值为400。
S3、数据增强:分离各音频样本的谐波源和冲击源,再分别提取音频样本及其谐波源和冲击源的对数梅尔滤波器组特征,再将上述三个对数梅尔滤波器组特征堆叠成一个三通道的高维特征,接着采用混合增强技术构造新的训练样本数据。
在本实施例中,该步骤具体包括以下步骤:
S3.1、对音频进行谐波源和冲击源分离:定义代价函数J(H,P):
Hk,t+Pk,t=Wk,t
Hk,t≥0,Pk,t≥0,
其中,k和t分别表示频率和时间,σH与σP分别表示控制谐波源和冲击源平滑度的参数因子,Hk,t、Pk,t分别表示第t帧谐波源、冲击源的频谱,Wk,t表示第t帧音频的能量谱,H和P是Hk,t和Pk,t的集合;令代价函数的偏导满足:
即可最小化J(H,P),从而得到Hk,t和Pk,t,分别对Hk,t和Pk,t进行短时傅里叶逆变换,得到相应的谐波源ht(n)与冲击源pt(n);
S3.2、提取对数梅尔滤波器组特征,过程如下:
S3.2.1、对第t帧音频信号xt(n)进行离散傅立叶变换操作,得到其线性频谱Xt(k):
S3.2.2、对上述线性频谱Xt(k)进行梅尔频率滤波器组滤波,获得其梅尔频谱,梅尔频率滤波器组为若干个带通滤波器Hm(k),M为滤波器的个数,每个滤波器具有三角形滤波特性,即其中心频率为f(m),当m值较小时相邻f(m)的间隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
其中,f(m)定义如下:
其中,fl、fh分别表示滤波器的最低频率和最高频率,fs表示采样频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
故可得第t帧音频数据的对数梅尔滤波器组特征LF为:
LF=ln[Xt(k)Hm(k)],0≤m<M;
S3.3、构建三通道的高维特征,过程法如下:
S3.3.1、对第t帧音频信号的谐波源ht(n)与冲击源pt(n)进行步骤S3.2处理,提取对数梅尔滤波器组特征,分别得到相应的对数梅尔滤波器组特征LFh与LFp
S3.3.2、将LF、LFh与LFp进行堆叠,得到三通道的高维特征:
S3.4、采用混合增强方法对训练数据进行数据增强,构建新的训练样本数据
其中,(vi,yi)与(vj,yj)是从原训练数据中随机抽取的两个索引为i和j的样本,yi与yj是训练样本的标签,表示新训练数据,表示相应的新数据标签,表示取整运算,参数λ服从贝塔分布:
λ∈[0,1],
其中,α和β为形状参数,贝塔分布的均值为方差为取α=β,u为积分变量。
S4、声场景辨识:将上述各音频样本的三通道高维特征输入已训练好的Xception网络,得到各音频样本的声场景类别。
在本实施例中,该步骤具体包括以下步骤:
S4.1、训练Xception网络分类器,网络训练的目标函数采用交叉熵损失函数:
其中,C为声场景类别的数目,为第c类声场景的标签,pc为第c类声场景的输出概率,网络的训练以最小化损失函数为目标,具体的训练方法详见参考文献: Chollet.Xception:Deep Learning with Depthwise SeparableConvolutions,2017IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2017,pp.1800-1807;
S4.2、输出辨识结果:训练并调试完毕Xception网络分类器后,对测试集样本进行S2-S3步骤处理,将其高维特征输入Xception网络,得到每一类声场景的输出概率,取输出概率最大的那类声场景作为该音频样本的判决结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (6)

1.一种基于数据增强的声场景辨识方法,其特征在于,所述的声场景辨识方法包括:
S1、音频样本准备步骤,利用录音设备在不同声场景采集音频样本,并进行人工标注,然后将上述音频样本划分为训练集和测试集;
S2、预处理步骤,分别对训练集和测试集中音频样本进行预加重、分帧、加窗处理;
S3、数据增强步骤,分离各音频样本的谐波源和冲击源,再分别提取音频样本、谐波源、冲击源的对数梅尔滤波器组特征,再将上述三个对数梅尔滤波器组特征堆叠成一个三通道的高维特征,接着采用混合增强技术构造新的训练样本数据;
S4、声场景辨识步骤,将上述各音频样本的三通道高维特征输入已训练好的Xception网络,得到各音频样本的声场景类别。
2.根据权利要求1所述的一种基于数据增强的声场景辨识方法,其特征在于,所述的S1、音频样本准备步骤过程如下:
S1.1、利用录音设备采集音频数据:在不同场景放置录音设备,记录相应场景的音频样本,其采样频率为16kHz,量化位数为16bit;
S1.2、划分数据集:将标注好的音频样本随机划分为不相交的训练集与测试集,其中训练集占比约为80%,测试集占比约为20%。
3.根据权利要求1所述的一种基于数据增强的声场景辨识方法,其特征在于,所述的S2、预处理步骤过程如下:
S2.1、预加重:利用数字滤波器对输入音频进行滤波,该滤波器的传递函数为:
H(z)=1-az-1
其中a为常数,取值为0.96;
S2.2、分帧:将预加重后的音频按照帧长40ms切分成音频帧,帧移为20ms;
S2.3、加窗:采用汉明窗作为窗函数,并与各音频帧相乘实现加窗处理,窗函数ω(n)采用汉明窗:
其中,N表示帧长,取值为400。
4.根据权利要求1所述的一种基于数据增强的声场景辨识方法,其特征在于,所述的S3、数据增强步骤过程如下:
S3.1、对音频进行谐波源和冲击源分离,定义代价函数J(H,P):
Hk,t+Pk,t=Wk,t
Hk,t≥0,Pk,t≥0,
其中,k和t分别表示频率和时间,σH与σP分别表示控制谐波源和冲击源平滑度的参数因子,Hk,t、Pk,t分别表示第t帧谐波源、冲击源的频谱,Wk,t表示第t帧音频的能量谱,H和P是Hk,t和Pk,t的集合;
令代价函数的偏导满足:
即可最小化J(H,P),从而得到Hk,t和Pk,t,分别对Hk,t和Pk,t进行短时傅里叶逆变换,得到相应的谐波源ht(n)与冲击源pt(n);
S3.2、提取对数梅尔滤波器组特征,过程如下:
S3.2.1、对第t帧音频信号xt(n)进行离散傅立叶变换操作,得到其线性频谱Xt(k):
S3.2.2、对上述线性频谱Xt(k)进行梅尔频率滤波器组滤波,获得其梅尔频谱,其中,梅尔频率滤波器组为若干个带通滤波器Hm(k),M为滤波器的个数,每个滤波器具有三角形滤波特性,即其中心频率为f(m),当m值较小时相邻f(m)的间隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
其中,f(m)定义如下:
其中,fl、fh分别表示滤波器的最低频率和最高频率,fs表示采样频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
故可得第t帧音频数据的对数梅尔滤波器组特征LF为:
LF=ln[Xt(k)Hm(k)],0≤m<M;
S3.3、构建三通道的高维特征,过程法如下:
S3.3.1、对第t帧音频信号的谐波源ht(n)与冲击源pt(n)进行对数梅尔滤波器组特征提取,提取对数梅尔滤波器组特征,分别得到相应的对数梅尔滤波器组特征LFh与LFp
S3.3.2、将LF、LFh与LFp进行堆叠,得到三通道的高维特征:
S3.4、采用混合增强方法对训练数据进行数据增强。
5.根据权利要求4所述的一种基于数据增强的声场景辨识方法,其特征在于,所述的步骤S3.4、采用混合增强方法对训练数据进行数据增强过程如下:
构建新的训练样本数据
其中,(vi,yi)与(vj,yj)是从原训练数据中随机抽取的两个索引为i和j的样本,yi与yj是训练样本的标签,表示新训练数据,表示相应的新数据标签,表示取整运算,参数λ服从贝塔分布:
λ∈[0,1],
其中,α和β为形状参数,贝塔分布的均值为方差为取α=β,u为积分变量。
6.根据权利要求1所述的一种基于数据增强的声场景辨识方法,其特征在于,所述的S4、声场景辨识步骤如下:
S4.1、训练Xception网络分类器,网络训练的目标函数采用交叉熵损失函数:
其中,C为声场景类别的数目,为第c类声场景的标签,pc为第c类声场景的输出概率,网络的训练以最小化损失函数为目标;
S4.2、输出辨识结果,训练并调试完毕Xception网络分类器后,对测试集样本进行S2-S3步骤处理,将其高维特征输入Xception网络,得到每一类声场景的输出概率,取输出概率最大的那类声场景作为该音频样本的判决结果。
CN201910201430.2A 2019-03-18 2019-03-18 一种基于数据增强的声场景辨识方法 Active CN109978034B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910201430.2A CN109978034B (zh) 2019-03-18 2019-03-18 一种基于数据增强的声场景辨识方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910201430.2A CN109978034B (zh) 2019-03-18 2019-03-18 一种基于数据增强的声场景辨识方法

Publications (2)

Publication Number Publication Date
CN109978034A true CN109978034A (zh) 2019-07-05
CN109978034B CN109978034B (zh) 2020-12-22

Family

ID=67079139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910201430.2A Active CN109978034B (zh) 2019-03-18 2019-03-18 一种基于数据增强的声场景辨识方法

Country Status (1)

Country Link
CN (1) CN109978034B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110808033A (zh) * 2019-09-25 2020-02-18 武汉科技大学 一种基于双重数据增强策略的音频分类方法
CN111341341A (zh) * 2020-02-11 2020-06-26 腾讯科技(深圳)有限公司 音频分离网络的训练方法、音频分离方法、装置及介质
CN111723874A (zh) * 2020-07-02 2020-09-29 华南理工大学 一种基于宽度和深度神经网络的声场景分类方法
CN111754988A (zh) * 2020-06-23 2020-10-09 南京工程学院 基于注意力机制和双路径深度残差网络的声场景分类方法
CN112257521A (zh) * 2020-09-30 2021-01-22 中国人民解放军军事科学院国防科技创新研究院 基于数据增强和时频分离的cnn水声信号目标识别方法
CN112435686A (zh) * 2020-11-19 2021-03-02 中国南方电网有限责任公司超高压输电公司 一种基于数据增强的电力设备故障声音识别方法
CN112466333A (zh) * 2020-11-24 2021-03-09 深圳信息职业技术学院 一种声学场景分类方法与系统
CN113611288A (zh) * 2021-08-06 2021-11-05 南京华捷艾米软件科技有限公司 一种音频特征提取方法、装置及系统
CN117095694A (zh) * 2023-10-18 2023-11-21 中国科学技术大学 一种基于标签层级结构属性关系的鸟类鸣声识别方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3913442A (en) * 1974-05-16 1975-10-21 Nippon Musical Instruments Mfg Voicing for a computor organ
CN1622200A (zh) * 2003-11-26 2005-06-01 微软公司 多传感语音增强方法和装置
CN104616663A (zh) * 2014-11-25 2015-05-13 重庆邮电大学 一种结合hpss的mfcc-多反复模型的音乐分离方法
WO2015126718A1 (en) * 2014-02-24 2015-08-27 Honeywell International Inc. Voice augmentation for industrial operator consoles
CN104919821A (zh) * 2012-09-27 2015-09-16 声摩逊实验室 用于重放音频信号的方法和系统
CN105355210A (zh) * 2015-10-30 2016-02-24 百度在线网络技术(北京)有限公司 用于远场语音识别的预处理方法和装置
CN105376673A (zh) * 2007-10-19 2016-03-02 创新科技有限公司 基于空间分析的麦克风阵列处理器
CN105474311A (zh) * 2013-07-19 2016-04-06 视听公司 基于听觉场景分析及语音模型化的语音信号分离及合成
CN106053070A (zh) * 2016-06-30 2016-10-26 中国人民解放军国防科学技术大学 基于分离信号包络谱特征的轴承滚动体故障增强诊断方法
CN106775562A (zh) * 2016-12-09 2017-05-31 奇酷互联网络科技(深圳)有限公司 音频参数处理的方法及装置
CN106941006A (zh) * 2015-11-19 2017-07-11 哈曼贝克自动系统股份有限公司 音频信号分离成谐波和瞬态信号分量和音频信号低音增强
CN106952643A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
CN108061653A (zh) * 2017-12-05 2018-05-22 安徽大学 基于谐波-冲击多普勒调制复合字典的列车轮对轴承轨边声信号分离方法
CN108490349A (zh) * 2018-01-23 2018-09-04 浙江大学山东工业技术研究院 基于Mel频率倒谱系数的电机异音检测方法
CN109256146A (zh) * 2018-10-30 2019-01-22 腾讯音乐娱乐科技(深圳)有限公司 音频检测方法、装置及存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3913442A (en) * 1974-05-16 1975-10-21 Nippon Musical Instruments Mfg Voicing for a computor organ
CN1622200A (zh) * 2003-11-26 2005-06-01 微软公司 多传感语音增强方法和装置
CN105376673A (zh) * 2007-10-19 2016-03-02 创新科技有限公司 基于空间分析的麦克风阵列处理器
CN104919821A (zh) * 2012-09-27 2015-09-16 声摩逊实验室 用于重放音频信号的方法和系统
CN105474311A (zh) * 2013-07-19 2016-04-06 视听公司 基于听觉场景分析及语音模型化的语音信号分离及合成
WO2015126718A1 (en) * 2014-02-24 2015-08-27 Honeywell International Inc. Voice augmentation for industrial operator consoles
CN104616663A (zh) * 2014-11-25 2015-05-13 重庆邮电大学 一种结合hpss的mfcc-多反复模型的音乐分离方法
CN105355210A (zh) * 2015-10-30 2016-02-24 百度在线网络技术(北京)有限公司 用于远场语音识别的预处理方法和装置
CN106941006A (zh) * 2015-11-19 2017-07-11 哈曼贝克自动系统股份有限公司 音频信号分离成谐波和瞬态信号分量和音频信号低音增强
CN106053070A (zh) * 2016-06-30 2016-10-26 中国人民解放军国防科学技术大学 基于分离信号包络谱特征的轴承滚动体故障增强诊断方法
CN106775562A (zh) * 2016-12-09 2017-05-31 奇酷互联网络科技(深圳)有限公司 音频参数处理的方法及装置
CN106952643A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
CN108061653A (zh) * 2017-12-05 2018-05-22 安徽大学 基于谐波-冲击多普勒调制复合字典的列车轮对轴承轨边声信号分离方法
CN108490349A (zh) * 2018-01-23 2018-09-04 浙江大学山东工业技术研究院 基于Mel频率倒谱系数的电机异音检测方法
CN109256146A (zh) * 2018-10-30 2019-01-22 腾讯音乐娱乐科技(深圳)有限公司 音频检测方法、装置及存储介质

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CL´EMENT LAROCHE ET AL.: ""Hybrid Projective Nonnegative Matrix Factorization with Drum Dictionaries for Harmonic/Percussive Source Separation"", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
DANIEL STOLLER ET AL.: ""Adversarial Semi-Supervised Audio Source Separation Applied to Singing Voice Extraction"", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
LU LU ET AL.: ""Shallow Convolutional Neural Networks for Acoustic Scene Classification"", 《WUHAN UNIVERSITY JOURNAL OF NATURAL SCIENCES》 *
NAOYA TAKAHASHI ET AL.: ""Deep Convolutional Neural Networks and Data Augmentation for Acoustic Event Detection"", 《ARXIV:1604.07160V2》 *
YANXIONG LI ET AL.: ""Anomalous Sound Detection Using Deep Audio Representation and a BLSTM Network for Audio Surveillance of Roads"", 《IEEE ACCESS》 *
常广晖 等: ""一种循环平稳声场的声源识别定位方法"", 《海军工程大学学报》 *
王辰 等: ""基于声像特征的场景检测"", 《计算机应用研究》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110808033B (zh) * 2019-09-25 2022-04-15 武汉科技大学 一种基于双重数据增强策略的音频分类方法
CN110808033A (zh) * 2019-09-25 2020-02-18 武汉科技大学 一种基于双重数据增强策略的音频分类方法
CN111341341A (zh) * 2020-02-11 2020-06-26 腾讯科技(深圳)有限公司 音频分离网络的训练方法、音频分离方法、装置及介质
CN111754988B (zh) * 2020-06-23 2022-08-16 南京工程学院 基于注意力机制和双路径深度残差网络的声场景分类方法
CN111754988A (zh) * 2020-06-23 2020-10-09 南京工程学院 基于注意力机制和双路径深度残差网络的声场景分类方法
CN111723874A (zh) * 2020-07-02 2020-09-29 华南理工大学 一种基于宽度和深度神经网络的声场景分类方法
CN111723874B (zh) * 2020-07-02 2023-05-26 华南理工大学 一种基于宽度和深度神经网络的声场景分类方法
CN112257521A (zh) * 2020-09-30 2021-01-22 中国人民解放军军事科学院国防科技创新研究院 基于数据增强和时频分离的cnn水声信号目标识别方法
CN112435686A (zh) * 2020-11-19 2021-03-02 中国南方电网有限责任公司超高压输电公司 一种基于数据增强的电力设备故障声音识别方法
CN112466333A (zh) * 2020-11-24 2021-03-09 深圳信息职业技术学院 一种声学场景分类方法与系统
CN113611288A (zh) * 2021-08-06 2021-11-05 南京华捷艾米软件科技有限公司 一种音频特征提取方法、装置及系统
CN117095694A (zh) * 2023-10-18 2023-11-21 中国科学技术大学 一种基于标签层级结构属性关系的鸟类鸣声识别方法
CN117095694B (zh) * 2023-10-18 2024-02-23 中国科学技术大学 一种基于标签层级结构属性关系的鸟类鸣声识别方法

Also Published As

Publication number Publication date
CN109978034B (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
CN109978034A (zh) 一种基于数据增强的声场景辨识方法
CN107393542B (zh) 一种基于双通道神经网络的鸟类物种识别方法
CN111950723B (zh) 神经网络模型训练方法、图像处理方法、装置及终端设备
CN108537271A (zh) 一种基于卷积去噪自编码机防御对抗样本攻击的方法
CN107220235A (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN101719222B (zh) 分类器训练方法和装置以及人脸认证方法和装置
CN110082821B (zh) 一种无标签框微地震信号检测方法及装置
CN105022835A (zh) 一种群智感知大数据公共安全识别方法及系统
CN104778476B (zh) 一种图像分类方法
CN108961227B (zh) 一种基于空域和变换域多特征融合的图像质量评价方法
CN110110580B (zh) 一种面向Wi-Fi信号的手语孤立词识别网络构建及分类方法
CN110718235A (zh) 异常声音检测的方法、电子设备及存储介质
CN110263215A (zh) 一种视频情感定位方法及系统
CN109784368A (zh) 一种应用程序分类的确定方法和装置
CN110610500A (zh) 基于动态语义特征的新闻视频自适应拆条方法
CN110046544A (zh) 基于卷积神经网络的数字手势识别方法
CN103955942A (zh) 一种基于svm的2d图像的深度图提取方法
CN107609564A (zh) 基于联合分割和傅里叶描述子库的水下目标图像识别方法
CN111462162A (zh) 一种特定类别图片的前景分割算法
CN112466334A (zh) 一种音频识别方法、设备及介质
CN103366175A (zh) 基于潜在狄利克雷分配的自然图像分类方法
CN108364637A (zh) 一种音频句子边界检测方法
CN110490133A (zh) 一种基于生成对抗网络由父母照片生成子女照片的方法
CN110097603A (zh) 一种时尚图像主色调解析方法
CN109472307A (zh) 一种训练图像分类模型的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant