CN112712096A - 基于深度递归非负矩阵分解的音频场景分类方法及系统 - Google Patents

基于深度递归非负矩阵分解的音频场景分类方法及系统 Download PDF

Info

Publication number
CN112712096A
CN112712096A CN201911022350.7A CN201911022350A CN112712096A CN 112712096 A CN112712096 A CN 112712096A CN 201911022350 A CN201911022350 A CN 201911022350A CN 112712096 A CN112712096 A CN 112712096A
Authority
CN
China
Prior art keywords
audio
nmf
network
dictionary
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911022350.7A
Other languages
English (en)
Inventor
高圣翔
黄远
杨晶超
孙晓晨
沈亮
林格平
刘发强
胡琦
刘建
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Original Assignee
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, National Computer Network and Information Security Management Center filed Critical Institute of Acoustics CAS
Priority to CN201911022350.7A priority Critical patent/CN112712096A/zh
Publication of CN112712096A publication Critical patent/CN112712096A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了基于深度递归非负矩阵分解的音频场景分类方法及系统,该方法包括:将待分类的音频信号按照贝叶斯信息准则进行音频场景切分;将切分后的每一段音频划分为多个块,每个块包括多个音频帧;以块为单位分别输入多个预先训练好的深度递归NMF网络,得到每块音频在不同子空间中的展开特征;将不同子空间中的展开特征拼接为一个长特征向量,输入支持向量机,获得每块音频的类别判别结果;计算该段音频所有块的类别判别结果的均值,由此得到该段音频的所属类别。本发明的方法将深度NMF用于音频场景分类,通过探索相邻帧之间NMF系数的递归关系,降低模型复杂度,提高泛化能力。

Description

基于深度递归非负矩阵分解的音频场景分类方法及系统
技术领域
本发明涉及音频分类领域,具体涉及基于深度递归非负矩阵分解(NonnegativeMatrix Factorization,NMF)的音频场景分类方法及系统。
背景技术
音频作为多媒体信息的重要组成部分,对其分析、检索和使用已成为日常生活中不可避免的问题。如何对海量音频信息进行高效管理、分析和利用已然成为音频信号处理领域一个极富挑战的问题。音频场景分类是对音频的初步分析,是音频高效管理和充分使用的前提。它关注如何让计算机能够分辨场景中的各种声音,识别特定场景中的基本声学要素,并能根据这些要素对新场景归类。
传统的音频分类系统主要分为两步操作:首先,利用变换从待分析信号中提取出频谱、基频、音色、共振峰等声学特征;其次,高斯混合模型(GMM)、隐马尔可夫模型(HMM)或支持向量机(SVM)被用作后端分类器完成对信号的归类。
近年来,随着深度学习的发展,人们开始研究大数据驱动的音频场景分类算法。一种直接的方法就是用深度神经网络(DNN)替换GMM作为后端分类器。由于DNN 能够通过改变隐含层数量增加模型复杂度,并通过层次化结构实现特征的多次变换, DNN通常表现出比传统分类器更好的性能。另一种方式则采用卷积神经网络(CNN) 作为前端特征提取器,后端则采用DNN或者CNN作为分类器。全网络结构允许模型进行联合训练,从而进一步提升系统性能。
基于DNN的音频场景分类算法充分利用了网络的强大建模能力,但是DNN的不可解释性极大地增加了其优化和训练过程的复杂性。与之相反,由于NMF是基于一组统计模型,因而它易于扩展,如稀疏性正则、卷积化等。但是,NMF在测试阶段需要解迭代优化问题,这会增加推理所需时间。
发明内容
本发明的目的在于克服上述缺陷,在借鉴深度递归神经网络结构的基础上,将NMF的迭代优化计算利用网络进行展开(unfolding)。由于采用深度递归结构的NMF 能够利用反向传播算法进行高效计算,从而提高了NMF在测试/训练阶段的计算速度,使得NMF能够利用海量数据进行训练。另外,相较于DNN,NMF能够给建模提供更好的解释性。结果表明,在少量训练数据的情况下,深度递归NMF比DNN 具有更好的泛化能力;而在大数据情况下,性能于DNN相当。
为实现上述目的,本发明提出了一种基于深度递归非负矩阵分解的音频场景分类方法,该方法包括:
将待分类的音频信号按照贝叶斯信息准则进行音频场景切分;
将切分后的每一段音频划分为多个块,每个块包括多个音频帧;以块为单位分别输入多个预先训练好的深度递归NMF网络,得到每块音频在不同子空间中的展开特征;将不同子空间中的展开特征拼接为一个长特征向量,输入支持向量机,获得每块音频的类别判别结果;
计算该段音频所有块的类别判别结果的均值,由此得到该段音频的所属类别。
作为上述方法的一种改进,所述深度递归NMF网络为一个改进的堆叠RNN,包括K个处理层,每个处理层包括t个处理单元;对应处理每个块中的t个音频帧: x1,x2,…,xt
其中网络的第k层的第i个处理单元的输出为:
Figure RE-GDA0002360869610000021
Figure RE-GDA0002360869610000022
Figure RE-GDA0002360869610000023
是一个N维的行向量
Figure RE-GDA0002360869610000024
Figure RE-GDA0002360869610000025
其中,1≤i≤t;W(k)表示第k层对应的字典,
Figure RE-GDA0002360869610000029
是W(k)的转置,I为单位矩阵,α(k)是第k层对应的非负权重,b=λ/α(k)为截断门限,λ是一个控制网络输出特征稀疏性的参数;当k=1时,
Figure RE-GDA0002360869610000026
其中,
Figure RE-GDA0002360869610000027
表示权重系数;
第k个处理层的每个单元的输入为
Figure RE-GDA0002360869610000028
则所述展开特征为第K层输出组成的向量:
Figure RE-GDA0002360869610000031
作为上述方法的一种改进,所述方法还包括对深度递归NMF网络进行训练的步骤,具体包括:
基于各类干净音频信号和稀疏NMF,利用乘积更新准则训练得到相应干净音频字典W(clean)
利用实际带噪数据,训练字典W=[W(clean),W(noise)];其中,W(noise)为噪声字典;在采用稀疏NMF训练过程中,保持W(clean)不变,只更新W(noise);W= [W(1),W(2),…,W(K)];
利用获得的字典W和预先设定的非负权重α和
Figure RE-GDA0002360869610000032
初始化深度递归NMF网络;其中,
Figure RE-GDA0002360869610000033
是初始迭代点;α=[α(1)(2)(K)];
为了训练深度递归NMF网络,解如下的优化问题:
Figure RE-GDA0002360869610000034
其中,训练深度递归NMF参数θ包括:字典W,非负权重α和
Figure RE-GDA0002360869610000035
训练数据为 {Xi,Yi}i=1:I;I是音频训练样本总数,Xi和Yi分别表示第i个训练样本的网络输入及其期望输出;
Figure RE-GDA0002360869610000036
是代价函数;
Figure RE-GDA0002360869610000037
是神经网络实际输出;θ是神经网络参数;
代价函数
Figure RE-GDA0002360869610000038
选为:
Figure RE-GDA0002360869610000039
其中,Xf,t为输入信号xt的第f个频率点的频谱;Yf,t是干净信号的第t帧,第f个频率点的频谱;Mt,f是取值范围在0和1之间的待估计掩码值,输入信号X中假定含有一定程度噪声干扰;Y是干净信号。
作为上述方法的一种改进,所述方法还包括:
将非负权重α用新变量
Figure RE-GDA00023608696100000310
代替:
Figure RE-GDA00023608696100000311
当求解出
Figure RE-GDA00023608696100000312
后,计算非负权重α:
Figure RE-GDA00023608696100000313
其中,ε>0,exp(·)和ln(·)分别表示指数和对数运算;
将字典W用新变量
Figure RE-GDA0002360869610000041
代替:
Figure RE-GDA0002360869610000042
当求解出
Figure RE-GDA0002360869610000043
后,计算字典W:
Figure RE-GDA0002360869610000044
其中,
Figure RE-GDA0002360869610000045
表示矩阵
Figure RE-GDA0002360869610000046
的第f行;exp(·)和ln(·)分别表示指数和对数运算。
本发明还提供了一种基于深度递归非负矩阵分解的音频场景分类系统,所述系统包括:
切分模块,用于将待分类的音频信号按照贝叶斯信息准则进行音频场景切分;
音频块的类别判别模块,用于将切分后的每一段音频划分为多个块,每个块包括多个音频帧;以块为单位分别输入多个预先训练好的深度递归NMF网络,得到每块音频在不同子空间中的展开特征;将不同子空间中的展开特征拼接为一个长特征向量,输入支持向量机,获得每块音频的类别判别结果;
音频段类别计算模块,用于计算该段音频所有块的类别判别结果的均值,由此得到该段音频的所属类别。
作为上述系统的一种改进,所述深度递归NMF网络为一个改进的堆叠RNN,包括K个处理层,每个处理层包括t个处理单元;对应处理每个块中的t个音频帧: x1,x2,…,xt
其中网络的第k层的第i个处理单元的输出为:
Figure RE-GDA0002360869610000047
Figure RE-GDA0002360869610000048
Figure RE-GDA0002360869610000049
是一个N维的行向量
Figure RE-GDA00023608696100000410
Figure RE-GDA00023608696100000411
其中,1≤i≤t;W(k)表示第k层对应的字典,
Figure RE-GDA00023608696100000412
是W(k)的转置,I为单位矩阵,α(k)是第k层对应的非负权重,b=λ/α(k)为截断门限,λ是一个控制网络输出特征稀疏性的参数;当k=1时,
Figure RE-GDA0002360869610000051
其中,
Figure RE-GDA0002360869610000052
表示权重系数;
第k个处理层的每个单元的输入为
Figure RE-GDA0002360869610000053
则所述展开特征为第K层输出组成的向量:
Figure RE-GDA0002360869610000054
作为上述系统的一种改进,所述系统还包括深度递归NMF网络训练模块,用于对各类深度递归NMF网络进行训练;具体过程为:
基于各类干净音频信号和稀疏NMF,利用乘积更新准则训练得到相应干净音频字典W(clean)
利用实际带噪数据,训练字典W=[W(clean),W(noise)];其中,W(noise)为噪声字典;在采用稀疏NMF训练过程中,保持W(clean)不变,只更新W(noise);W= [W(1),W(2),…,W(K)];
利用获得的字典W和预先设定的非负权重α和
Figure RE-GDA0002360869610000055
初始化深度递归NMF网络;其中,
Figure RE-GDA0002360869610000056
是初始迭代点;α=[α(1)(2)(K)];
为了训练深度递归NMF网络,解如下的优化问题:
Figure RE-GDA0002360869610000057
其中,训练深度递归NMF参数θ包括:字典W,非负权重α和
Figure RE-GDA0002360869610000058
训练数据为 {Xi,Yi}i=1:I;I是音频训练样本总数,Xi和Yi分别表示第i个训练样本的网络输入及其期望输出;
Figure RE-GDA0002360869610000059
是代价函数;
Figure RE-GDA00023608696100000510
是神经网络实际输出;θ是神经网络参数;
代价函数
Figure RE-GDA00023608696100000511
选为:
Figure RE-GDA00023608696100000512
其中,Xf,t为输入信号xt的第f个频率点的频谱;Yf,t是干净信号的第t帧,第f个频率点的频谱;Mt,f是取值范围在0和1之间的待估计掩码值,输入信号X中假定含有一定程度噪声干扰;Y是干净信号。
本发明的优势在于:
本发明的方法将深度NMF用于音频场景分类,通过探索相邻帧之间NMF系数的递归关系,降低模型复杂度,提高泛化能力。
附图说明
图1为本发明的方法的流程图;
图2为本发明的深度递归NMF网络的示意图;
图3为本发明的深度递归NMF网络的第K层第t个单元的处理过程示意图;
图4为现有技术的深度堆叠RNN的示意图;
图5为图4的深度堆叠RNN的一个单元的处理过程的示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案进行详细的说明。
深度递归NMF借鉴了deep unfolding的思想:通过将统计模型的推理过程转换成深度网络结构,使得网络能够利用反向传播算法对进行有监督训练。
假定输入信号幅度谱为F×T的矩阵X,NMF假设X能够被近似为
Figure RE-GDA0002360869610000064
其中,W(F×N维)和H(N×T维)均是非负矩阵;W是非负字典,H基的非负激活系数,F信号频点数,T信号帧数,N字典中的基数量。
NMF对公式(1)进行优化,求得W和H。注意到,H通过1-范数操作被强制稀疏,以保证得到有意义的解。
Figure RE-GDA0002360869610000061
公式(1)中,
Figure RE-GDA0002360869610000062
是贝塔-散度度量,β取为2:
Figure RE-GDA0002360869610000063
在半监督语音分离应用中,语音字典W(clean)首先从纯净信号中训练得到;接着通过在含噪数据上更新字典W=[W(clean),W(noise)]的噪声对应部分和激活矩阵 H=[H(clean),H(noise)],得到噪音字典W(noise)。在测试阶段,保持字典W不变,更新激活矩阵H,以使得(4)最小。此时,H可以理解为X在字典W所张成的空间中的投影;H(v)和H(y)分别为噪声和语音在空间W中的表示。
为了加快模型收敛,NMF优化采用了一种改进的梯度下降算法:
通常,公式(1)的求解通过乘积更新来完成。但是,乘积更新过程收敛缓慢,因此本发明采用迭代软门限方法(Iterative soft-thresholding algorithm,ISTA)进行 NMF的优化。ISTA是改进的梯度下降法,它通常用于解如下优化问题:
Figure RE-GDA0002360869610000071
其中,f是一个平滑函数,g是一个非平滑函数。ISTA以1/K的速度进行收敛,而梯度下降法以
Figure RE-GDA0002360869610000072
收敛,K表示迭代次数。
表1给出了
Figure RE-GDA0002360869610000073
Figure RE-GDA0002360869610000074
时,ISTA算法的流程。其中, 1/α表示步长,
Figure RE-GDA0002360869610000075
表示应用公式(6)于向量
Figure RE-GDA0002360869610000076
b是一个实值门限。
Figure RE-GDA0002360869610000077
表1:基本ISTA算法
Figure RE-GDA0002360869610000078
在测试阶段,能够利用ISTA算法独立求解H的每一帧,则
Figure RE-GDA0002360869610000079
是H的第t帧。为了简化问题,K取为固定值。然而,对每一帧独立计算ISTA忽略了相邻帧之间的相关性。因此,采用递归形式的ISTA算法(见表2),使得第t帧的迭代初始值
Figure RE-GDA00023608696100000710
能够考虑前q帧的输出
Figure RE-GDA00023608696100000711
此处是现有算法的一个介绍,主要用于帮助理解递归ISTA算法。
表2:递归ISTA算法
Figure RE-GDA00023608696100000712
Figure RE-GDA0002360869610000081
如图1所示,本发明提出了一种基于深度递归非负矩阵分解(Nonnegative MatrixFactorization,NMF)的音频场景分类方法,该方法包括:
步骤1)信号首先被贝叶斯信息准则(BIC)进行音频场景切分;
步骤2)对切分后的每一段音频,经过各个深度递归NMF网络进行相应特征提取;
所述深度递归NMF网络的类型包括:语音、音乐、噪声、鸟鸣、流水声等。
步骤3)将NMF网络输出系数的均值作为输入向量,用支持向量机(SVM)对所属音频类别进行判断。
深度递归NMF网络分为训练和测试两个阶段。在训练阶段,各类音频被分别用于递归NMF网络训练,得到针对特定音频的深度网络。在测试阶段,各音频网络被作为特征提取器,待检测音频分别通过各网络得到激活输出。输出的大小,反映了输入在音频网络空间中的表示情况,而重建误差反映了基对信号表示的质量,进而体现了输入音频属于该类别的概率。
对于深度递归NMF,图2和图3给出了其展开后的网络结构。网络的递归形式,通过将t时刻之前的q个解的凸组合作为该时刻迭代初始值来体现。由于非负ISTA的非线性激活函数是ReLU,深度递归NMF网络可以通过将堆叠RNN进行修改后得到,
改进主要体现在以下两部分。
1、对每时刻t,输入直接连接到网络的每个节点;
2、网络中的唯一时间递归存在于,将t时刻之前的q个顶层结点连接到t时刻的底层节点。为了对比,图4和图5给出一个典型的堆叠RNN的结构,其中网络的第k层为:
Figure RE-GDA0002360869610000082
其中,σb是激活函数;对于第一层,
Figure RE-GDA0002360869610000083
为了训练深度递归NMF网络,解如下的优化问题:
Figure RE-GDA0002360869610000091
其中,训练数据{Xi,Yi}i=1:I
Figure RE-GDA0002360869610000092
是训练代价函数;
Figure RE-GDA0002360869610000093
是神经网络输出;θ是神经网络权重。反向传播算法被用于网络训练。
对于场景分类问题,神经网络尝试去重建输入信号X。为了增加网络的鲁棒性,借鉴语音分离中的掩码思想,代价函数选为:
Figure RE-GDA0002360869610000094
其中,输入信号X中假定含有一定程度噪声干扰;Y是干净信号;M是待估计的掩码。为了体现信号的在基空间的展开质量,网络输出一维
Figure RE-GDA0002360869610000095
表示重建误差的比例。
由于深度递归NMF是一个优化问题,考虑使用稀疏NMF估计出迭代的初始值。整个训练过程如下:
1、利用各类干净音频信号和稀疏NMF的乘积更新准则训练相应干净字典 W(clean)
2、利用实际带噪数据和稀疏NMF算法,训练字典W=[W(clean),W(noise)]。训练过程中,保持W(clean)不变,只更新噪声字典W(noise)
3、初始化深度递归NMF:利用获得的字典W和ISTA所需的优化参数α和
Figure RE-GDA0002360869610000096
4、训练深度递归NMF参数
Figure RE-GDA0002360869610000097
利用方程(5)和(6)。
当初始化网络后,ISTA算法中α须恰当选择,以使得K步迭代(此处迭代就是 NMF中的迭代次数,对应于深度递归NMF的层数)。具后,模型达到一个较好的性能。实验发现,当NMF中基向量的个数N=100时,α取为50;N=1000时,α取为400。为了保证权重α的非负性要求,算法没有直接优化α。引入新变量
Figure RE-GDA0002360869610000098
被初始化为ln( ε+α),则
Figure RE-GDA0002360869610000099
就是待优化的模型权重。同理,对于W,引入新变量
Figure RE-GDA00023608696100000910
Figure RE-GDA00023608696100000911
则算法优化归一化模型权重
Figure RE-GDA00023608696100000912
其中,ε是一个很小的正数,以保证对数运算正确;
Figure RE-GDA00023608696100000913
表示矩阵
Figure RE-GDA00023608696100000914
的第f行;exp(·)和ln(·)分别表示指数和对数运算。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于深度递归非负矩阵分解的音频场景分类方法,该方法包括:
将待分类的音频信号按照贝叶斯信息准则进行音频场景切分;
将切分后的每一段音频划分为多个块,每个块包括多个音频帧;以块为单位分别输入多个预先训练好的深度递归NMF网络,得到每块音频在不同子空间中的展开特征;将不同子空间中的展开特征拼接为一个长特征向量,输入支持向量机,获得每块音频的类别判别结果;
计算该段音频所有块的类别判别结果的均值,由此得到该段音频的所属类别。
2.根据权利要求1所述的方法,其特征在于,所述深度递归NMF网络为一个改进的堆叠RNN,包括K个处理层,每个处理层包括t个处理单元;对应处理每个块中的t个音频帧:x1,x2,…,xt
其中网络的第k层的第i个处理单元的输出为:
Figure FDA0002247640270000011
Figure FDA0002247640270000012
Figure FDA0002247640270000013
是一个N维的行向量
Figure FDA0002247640270000014
Figure FDA0002247640270000015
其中,1≤i≤t;W(k)表示第k层对应的字典,
Figure FDA0002247640270000016
是W(k)的转置,I为单位矩阵,α(k)是第k层对应的非负权重,b=λ/α(k)为截断门限,λ是一个控制网络输出特征稀疏性的参数;当k=1时,
Figure FDA0002247640270000017
其中,
Figure FDA0002247640270000018
表示权重系数;
第k个处理层的每个单元的输入为
Figure FDA0002247640270000019
则所述展开特征为第K层输出组成的向量:
Figure FDA00022476402700000110
3.根据权利要求2所述的方法,其特征在于,所述方法还包括对深度递归NMF网络进行训练的步骤,具体包括:
基于各类干净音频信号和稀疏NMF,利用乘积更新准则训练得到相应干净音频字典W(clean)
利用带噪数据,训练字典W=[W(clean),W(noise)];其中,W(noise)为噪声字典;在采用稀疏NMF训练过程中,保持W(clean)不变,只更新W(noise);W=[W(1),W(2),…,W(K)];
利用获得的字典W和预先设定的非负权重α和
Figure FDA0002247640270000021
初始化深度递归NMF网络;其中,
Figure FDA0002247640270000022
是初始迭代点;α=[α(1),α(2),α(K)];
为了训练深度递归NMF网络,解如下的优化问题:
Figure FDA0002247640270000023
其中,训练深度递归NMF参数θ包括:字典W,非负权重α和
Figure FDA0002247640270000024
训练数据为{Xi,Yi}i=1:I;I是音频训练样本总数,Xi和Yi分别表示第i个训练样本的网络输入及其期望输出;
Figure FDA0002247640270000025
是代价函数;
Figure FDA0002247640270000026
是神经网络实际输出;θ是神经网络参数;
代价函数
Figure FDA0002247640270000027
选为:
Figure FDA0002247640270000028
其中,Xf,t为输入信号xt的第f个频率点的频谱;Yf,t是干净信号的第t帧,第f个频率点的频谱;Mt,f是取值范围在0和1之间的待估计掩码值,输入信号X中假定含有一定程度噪声干扰;Y是干净信号。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将非负权重α用新变量
Figure FDA0002247640270000029
代替:
Figure FDA00022476402700000210
当求解出
Figure FDA00022476402700000211
后,计算非负权重α:
Figure FDA00022476402700000212
其中,ε>0,exp(·)和ln(·)分别表示指数和对数运算;
将字典W用新变量
Figure FDA0002247640270000031
代替:
Figure FDA0002247640270000032
当求解出
Figure FDA0002247640270000033
后,计算字典W:
Figure FDA0002247640270000034
其中,
Figure FDA0002247640270000035
表示矩阵
Figure FDA0002247640270000036
的第f行;exp(·)和ln(·)分别表示指数和对数运算。
5.一种基于深度递归非负矩阵分解的音频场景分类系统,其特征在于,所述系统包括:
切分模块,用于将待分类的音频信号按照贝叶斯信息准则进行音频场景切分;
音频块的类别判别模块,用于将切分后的每一段音频划分为多个块,每个块包括多个音频帧;以块为单位分别输入多个预先训练好的深度递归NMF网络,得到每块音频在不同子空间中的展开特征;将不同子空间中的展开特征拼接为一个长特征向量,输入支持向量机,获得每块音频的类别判别结果;
音频段类别计算模块,用于计算该段音频所有块的类别判别结果的均值,由此得到该段音频的所属类别。
6.根据权利要求5所述的系统,其特征在于,所述深度递归NMF网络为一个改进的堆叠RNN,包括K个处理层,每个处理层包括t个处理单元;对应处理每个块中的t个音频帧:x1,x2,…,xt
其中网络的第k层的第i个处理单元的输出为:
Figure FDA0002247640270000037
Figure FDA0002247640270000038
Figure FDA0002247640270000039
是一个N维的行向量
Figure FDA00022476402700000310
Figure FDA00022476402700000311
其中,1≤i≤t;W(k)表示第k层对应的字典,
Figure FDA00022476402700000312
是W(k)的转置,I为单位矩阵,α(k)是第k层对应的非负权重,b=λ/α(k)为截断门限,λ是一个控制网络输出特征稀疏性的参数;当k=1时,
Figure FDA0002247640270000041
其中,
Figure FDA0002247640270000042
表示权重系数;
第k个处理层的每个单元的输入为
Figure FDA0002247640270000043
则所述展开特征为第K层输出组成的向量:
Figure FDA0002247640270000044
7.根据权利要求6所述的系统,其特征在于,所述系统还包括深度递归NMF网络训练模块,用于对各类深度递归NMF网络进行训练;具体过程为:
基于各类干净音频信号和稀疏NMF,利用乘积更新准则训练得到相应干净音频字典W(clean)
利用实际带噪数据,训练字典W=[W(clean),W(noise)];其中,W(noise)为噪声字典;在采用稀疏NMF训练过程中,保持W(clean)不变,只更新W(noise);W=[W(1),W(2),…,W(K)];
利用获得的字典W和预先设定的非负权重α和
Figure FDA0002247640270000045
初始化深度递归NMF网络;其中,
Figure FDA0002247640270000046
是初始迭代点;α=[α(1),α(2),α(K)];
为了训练深度递归NMF网络,解如下的优化问题:
Figure FDA0002247640270000047
其中,训练深度递归NMF参数θ包括:字典W,非负权重α和
Figure FDA0002247640270000048
训练数据为{Xi,Yi}i=1:I;I是音频训练样本总数,Xi和Yi分别表示第i个训练样本的网络输入及其期望输出;
Figure FDA0002247640270000049
是代价函数;
Figure FDA00022476402700000410
是神经网络实际输出;θ是神经网络参数;
代价函数
Figure FDA00022476402700000411
选为:
Figure FDA00022476402700000412
其中,Xf,t为输入信号xt的第f个频率点的频谱;Yf,t是干净信号的第t帧,第f个频率点的频谱;Mt,f是取值范围在0和1之间的待估计掩码值,输入信号X中假定含有一定程度噪声干扰;Y是干净信号。
CN201911022350.7A 2019-10-25 2019-10-25 基于深度递归非负矩阵分解的音频场景分类方法及系统 Pending CN112712096A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911022350.7A CN112712096A (zh) 2019-10-25 2019-10-25 基于深度递归非负矩阵分解的音频场景分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911022350.7A CN112712096A (zh) 2019-10-25 2019-10-25 基于深度递归非负矩阵分解的音频场景分类方法及系统

Publications (1)

Publication Number Publication Date
CN112712096A true CN112712096A (zh) 2021-04-27

Family

ID=75540637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911022350.7A Pending CN112712096A (zh) 2019-10-25 2019-10-25 基于深度递归非负矩阵分解的音频场景分类方法及系统

Country Status (1)

Country Link
CN (1) CN112712096A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220262386A1 (en) * 2020-02-10 2022-08-18 Tencent Technology (Shenzhen) Company Limited Speech enhancement method and apparatus, electronic device, and computer- readable storage medium
US12009004B2 (en) * 2020-02-10 2024-06-11 Tencent Technology (Shenzhen) Company Limited Speech enhancement method and apparatus, electronic device, and computer-readable storage medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150242180A1 (en) * 2014-02-21 2015-08-27 Adobe Systems Incorporated Non-negative Matrix Factorization Regularized by Recurrent Neural Networks for Audio Processing
CN109448703A (zh) * 2018-11-14 2019-03-08 山东师范大学 结合深度神经网络和主题模型的音频场景识别方法及系统
CN110334243A (zh) * 2019-07-11 2019-10-15 哈尔滨工业大学 基于多层时序池化的音频表示学习方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150242180A1 (en) * 2014-02-21 2015-08-27 Adobe Systems Incorporated Non-negative Matrix Factorization Regularized by Recurrent Neural Networks for Audio Processing
CN109448703A (zh) * 2018-11-14 2019-03-08 山东师范大学 结合深度神经网络和主题模型的音频场景识别方法及系统
CN110334243A (zh) * 2019-07-11 2019-10-15 哈尔滨工业大学 基于多层时序池化的音频表示学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SCOTT WISDOM ET AL.: ""Deep recurrent NMF for speech separation by unfolding iterative thresholding"", IEEEXPLORE, pages 254 - 258 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220262386A1 (en) * 2020-02-10 2022-08-18 Tencent Technology (Shenzhen) Company Limited Speech enhancement method and apparatus, electronic device, and computer- readable storage medium
US12009004B2 (en) * 2020-02-10 2024-06-11 Tencent Technology (Shenzhen) Company Limited Speech enhancement method and apparatus, electronic device, and computer-readable storage medium

Similar Documents

Publication Publication Date Title
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN110400579B (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
CN110197286B (zh) 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法
JP6243858B2 (ja) 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
US5566270A (en) Speaker independent isolated word recognition system using neural networks
CN111161744B (zh) 同时优化深度表征学习与说话人类别估计的说话人聚类方法
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
JPH05333898A (ja) 時系列信号処理装置
CN113380255B (zh) 一种基于迁移训练的声纹识别中毒样本生成方法
US5924066A (en) System and method for classifying a speech signal
Lee et al. Deeptwist: Learning model compression via occasional weight distortion
CN114678030A (zh) 基于深度残差网络和注意力机制的声纹识别方法及装置
Kurimo Using self-organizing maps and learning vector quantization for mixture density hidden Markov models
CN113196385B (zh) 用于音频信号处理的方法和系统及计算机可读存储介质
Sun et al. Progressive multi-target network based speech enhancement with snr-preselection for robust speaker diarization
CN113889099A (zh) 一种语音识别方法及系统
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
Gordienko et al. Adaptive iterative pruning for accelerating deep neural networks
Sahay et al. SVM and ANN: A comparative evaluation
CN112712096A (zh) 基于深度递归非负矩阵分解的音频场景分类方法及系统
CN111833851B (zh) 一种自动学习优化声学模型的方法
Wu et al. Mirex 2017 submission: Automatic audio chord recognition with miditrained deep feature and blstm-crf sequence decoding model
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备
Guoqiang et al. A noise classification algorithm based on SAMME and BP neural network
Seo Minimum Word Error Rate Training for Speech Separation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination