CN112712096A - 基于深度递归非负矩阵分解的音频场景分类方法及系统 - Google Patents
基于深度递归非负矩阵分解的音频场景分类方法及系统 Download PDFInfo
- Publication number
- CN112712096A CN112712096A CN201911022350.7A CN201911022350A CN112712096A CN 112712096 A CN112712096 A CN 112712096A CN 201911022350 A CN201911022350 A CN 201911022350A CN 112712096 A CN112712096 A CN 112712096A
- Authority
- CN
- China
- Prior art keywords
- audio
- nmf
- network
- dictionary
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了基于深度递归非负矩阵分解的音频场景分类方法及系统,该方法包括:将待分类的音频信号按照贝叶斯信息准则进行音频场景切分;将切分后的每一段音频划分为多个块,每个块包括多个音频帧;以块为单位分别输入多个预先训练好的深度递归NMF网络,得到每块音频在不同子空间中的展开特征;将不同子空间中的展开特征拼接为一个长特征向量,输入支持向量机,获得每块音频的类别判别结果;计算该段音频所有块的类别判别结果的均值,由此得到该段音频的所属类别。本发明的方法将深度NMF用于音频场景分类,通过探索相邻帧之间NMF系数的递归关系,降低模型复杂度,提高泛化能力。
Description
技术领域
本发明涉及音频分类领域,具体涉及基于深度递归非负矩阵分解(NonnegativeMatrix Factorization,NMF)的音频场景分类方法及系统。
背景技术
音频作为多媒体信息的重要组成部分,对其分析、检索和使用已成为日常生活中不可避免的问题。如何对海量音频信息进行高效管理、分析和利用已然成为音频信号处理领域一个极富挑战的问题。音频场景分类是对音频的初步分析,是音频高效管理和充分使用的前提。它关注如何让计算机能够分辨场景中的各种声音,识别特定场景中的基本声学要素,并能根据这些要素对新场景归类。
传统的音频分类系统主要分为两步操作:首先,利用变换从待分析信号中提取出频谱、基频、音色、共振峰等声学特征;其次,高斯混合模型(GMM)、隐马尔可夫模型(HMM)或支持向量机(SVM)被用作后端分类器完成对信号的归类。
近年来,随着深度学习的发展,人们开始研究大数据驱动的音频场景分类算法。一种直接的方法就是用深度神经网络(DNN)替换GMM作为后端分类器。由于DNN 能够通过改变隐含层数量增加模型复杂度,并通过层次化结构实现特征的多次变换, DNN通常表现出比传统分类器更好的性能。另一种方式则采用卷积神经网络(CNN) 作为前端特征提取器,后端则采用DNN或者CNN作为分类器。全网络结构允许模型进行联合训练,从而进一步提升系统性能。
基于DNN的音频场景分类算法充分利用了网络的强大建模能力,但是DNN的不可解释性极大地增加了其优化和训练过程的复杂性。与之相反,由于NMF是基于一组统计模型,因而它易于扩展,如稀疏性正则、卷积化等。但是,NMF在测试阶段需要解迭代优化问题,这会增加推理所需时间。
发明内容
本发明的目的在于克服上述缺陷,在借鉴深度递归神经网络结构的基础上,将NMF的迭代优化计算利用网络进行展开(unfolding)。由于采用深度递归结构的NMF 能够利用反向传播算法进行高效计算,从而提高了NMF在测试/训练阶段的计算速度,使得NMF能够利用海量数据进行训练。另外,相较于DNN,NMF能够给建模提供更好的解释性。结果表明,在少量训练数据的情况下,深度递归NMF比DNN 具有更好的泛化能力;而在大数据情况下,性能于DNN相当。
为实现上述目的,本发明提出了一种基于深度递归非负矩阵分解的音频场景分类方法,该方法包括:
将待分类的音频信号按照贝叶斯信息准则进行音频场景切分;
将切分后的每一段音频划分为多个块,每个块包括多个音频帧;以块为单位分别输入多个预先训练好的深度递归NMF网络,得到每块音频在不同子空间中的展开特征;将不同子空间中的展开特征拼接为一个长特征向量,输入支持向量机,获得每块音频的类别判别结果;
计算该段音频所有块的类别判别结果的均值,由此得到该段音频的所属类别。
作为上述方法的一种改进,所述深度递归NMF网络为一个改进的堆叠RNN,包括K个处理层,每个处理层包括t个处理单元;对应处理每个块中的t个音频帧: x1,x2,…,xt;
其中网络的第k层的第i个处理单元的输出为:
作为上述方法的一种改进,所述方法还包括对深度递归NMF网络进行训练的步骤,具体包括:
基于各类干净音频信号和稀疏NMF,利用乘积更新准则训练得到相应干净音频字典W(clean);
利用实际带噪数据,训练字典W=[W(clean),W(noise)];其中,W(noise)为噪声字典;在采用稀疏NMF训练过程中,保持W(clean)不变,只更新W(noise);W= [W(1),W(2),…,W(K)];
为了训练深度递归NMF网络,解如下的优化问题:
其中,训练深度递归NMF参数θ包括:字典W,非负权重α和训练数据为 {Xi,Yi}i=1:I;I是音频训练样本总数,Xi和Yi分别表示第i个训练样本的网络输入及其期望输出;是代价函数;是神经网络实际输出;θ是神经网络参数;
其中,Xf,t为输入信号xt的第f个频率点的频谱;Yf,t是干净信号的第t帧,第f个频率点的频谱;Mt,f是取值范围在0和1之间的待估计掩码值,输入信号X中假定含有一定程度噪声干扰;Y是干净信号。
作为上述方法的一种改进,所述方法还包括:
其中,ε>0,exp(·)和ln(·)分别表示指数和对数运算;
本发明还提供了一种基于深度递归非负矩阵分解的音频场景分类系统,所述系统包括:
切分模块,用于将待分类的音频信号按照贝叶斯信息准则进行音频场景切分;
音频块的类别判别模块,用于将切分后的每一段音频划分为多个块,每个块包括多个音频帧;以块为单位分别输入多个预先训练好的深度递归NMF网络,得到每块音频在不同子空间中的展开特征;将不同子空间中的展开特征拼接为一个长特征向量,输入支持向量机,获得每块音频的类别判别结果;
音频段类别计算模块,用于计算该段音频所有块的类别判别结果的均值,由此得到该段音频的所属类别。
作为上述系统的一种改进,所述深度递归NMF网络为一个改进的堆叠RNN,包括K个处理层,每个处理层包括t个处理单元;对应处理每个块中的t个音频帧: x1,x2,…,xt;
其中网络的第k层的第i个处理单元的输出为:
作为上述系统的一种改进,所述系统还包括深度递归NMF网络训练模块,用于对各类深度递归NMF网络进行训练;具体过程为:
基于各类干净音频信号和稀疏NMF,利用乘积更新准则训练得到相应干净音频字典W(clean);
利用实际带噪数据,训练字典W=[W(clean),W(noise)];其中,W(noise)为噪声字典;在采用稀疏NMF训练过程中,保持W(clean)不变,只更新W(noise);W= [W(1),W(2),…,W(K)];
为了训练深度递归NMF网络,解如下的优化问题:
其中,训练深度递归NMF参数θ包括:字典W,非负权重α和训练数据为 {Xi,Yi}i=1:I;I是音频训练样本总数,Xi和Yi分别表示第i个训练样本的网络输入及其期望输出;是代价函数;是神经网络实际输出;θ是神经网络参数;
其中,Xf,t为输入信号xt的第f个频率点的频谱;Yf,t是干净信号的第t帧,第f个频率点的频谱;Mt,f是取值范围在0和1之间的待估计掩码值,输入信号X中假定含有一定程度噪声干扰;Y是干净信号。
本发明的优势在于:
本发明的方法将深度NMF用于音频场景分类,通过探索相邻帧之间NMF系数的递归关系,降低模型复杂度,提高泛化能力。
附图说明
图1为本发明的方法的流程图;
图2为本发明的深度递归NMF网络的示意图;
图3为本发明的深度递归NMF网络的第K层第t个单元的处理过程示意图;
图4为现有技术的深度堆叠RNN的示意图;
图5为图4的深度堆叠RNN的一个单元的处理过程的示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案进行详细的说明。
深度递归NMF借鉴了deep unfolding的思想:通过将统计模型的推理过程转换成深度网络结构,使得网络能够利用反向传播算法对进行有监督训练。
NMF对公式(1)进行优化,求得W和H。注意到,H通过1-范数操作被强制稀疏,以保证得到有意义的解。
公式(1)中,是贝塔-散度度量,β取为2:在半监督语音分离应用中,语音字典W(clean)首先从纯净信号中训练得到;接着通过在含噪数据上更新字典W=[W(clean),W(noise)]的噪声对应部分和激活矩阵 H=[H(clean),H(noise)],得到噪音字典W(noise)。在测试阶段,保持字典W不变,更新激活矩阵H,以使得(4)最小。此时,H可以理解为X在字典W所张成的空间中的投影;H(v)和H(y)分别为噪声和语音在空间W中的表示。
为了加快模型收敛,NMF优化采用了一种改进的梯度下降算法:
通常,公式(1)的求解通过乘积更新来完成。但是,乘积更新过程收敛缓慢,因此本发明采用迭代软门限方法(Iterative soft-thresholding algorithm,ISTA)进行 NMF的优化。ISTA是改进的梯度下降法,它通常用于解如下优化问题:
表1:基本ISTA算法
在测试阶段,能够利用ISTA算法独立求解H的每一帧,则是H的第t帧。为了简化问题,K取为固定值。然而,对每一帧独立计算ISTA忽略了相邻帧之间的相关性。因此,采用递归形式的ISTA算法(见表2),使得第t帧的迭代初始值能够考虑前q帧的输出此处是现有算法的一个介绍,主要用于帮助理解递归ISTA算法。
表2:递归ISTA算法
如图1所示,本发明提出了一种基于深度递归非负矩阵分解(Nonnegative MatrixFactorization,NMF)的音频场景分类方法,该方法包括:
步骤1)信号首先被贝叶斯信息准则(BIC)进行音频场景切分;
步骤2)对切分后的每一段音频,经过各个深度递归NMF网络进行相应特征提取;
所述深度递归NMF网络的类型包括:语音、音乐、噪声、鸟鸣、流水声等。
步骤3)将NMF网络输出系数的均值作为输入向量,用支持向量机(SVM)对所属音频类别进行判断。
深度递归NMF网络分为训练和测试两个阶段。在训练阶段,各类音频被分别用于递归NMF网络训练,得到针对特定音频的深度网络。在测试阶段,各音频网络被作为特征提取器,待检测音频分别通过各网络得到激活输出。输出的大小,反映了输入在音频网络空间中的表示情况,而重建误差反映了基对信号表示的质量,进而体现了输入音频属于该类别的概率。
对于深度递归NMF,图2和图3给出了其展开后的网络结构。网络的递归形式,通过将t时刻之前的q个解的凸组合作为该时刻迭代初始值来体现。由于非负ISTA的非线性激活函数是ReLU,深度递归NMF网络可以通过将堆叠RNN进行修改后得到,
改进主要体现在以下两部分。
1、对每时刻t,输入直接连接到网络的每个节点;
2、网络中的唯一时间递归存在于,将t时刻之前的q个顶层结点连接到t时刻的底层节点。为了对比,图4和图5给出一个典型的堆叠RNN的结构,其中网络的第k层为:
为了训练深度递归NMF网络,解如下的优化问题:
对于场景分类问题,神经网络尝试去重建输入信号X。为了增加网络的鲁棒性,借鉴语音分离中的掩码思想,代价函数选为:
由于深度递归NMF是一个优化问题,考虑使用稀疏NMF估计出迭代的初始值。整个训练过程如下:
1、利用各类干净音频信号和稀疏NMF的乘积更新准则训练相应干净字典 W(clean);
2、利用实际带噪数据和稀疏NMF算法,训练字典W=[W(clean),W(noise)]。训练过程中,保持W(clean)不变,只更新噪声字典W(noise);
当初始化网络后,ISTA算法中α须恰当选择,以使得K步迭代(此处迭代就是 NMF中的迭代次数,对应于深度递归NMF的层数)。具后,模型达到一个较好的性能。实验发现,当NMF中基向量的个数N=100时,α取为50;N=1000时,α取为400。为了保证权重α的非负性要求,算法没有直接优化α。引入新变量被初始化为ln( ε+α),则就是待优化的模型权重。同理,对于W,引入新变量令则算法优化归一化模型权重其中,ε是一个很小的正数,以保证对数运算正确;表示矩阵的第f行;exp(·)和ln(·)分别表示指数和对数运算。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种基于深度递归非负矩阵分解的音频场景分类方法,该方法包括:
将待分类的音频信号按照贝叶斯信息准则进行音频场景切分;
将切分后的每一段音频划分为多个块,每个块包括多个音频帧;以块为单位分别输入多个预先训练好的深度递归NMF网络,得到每块音频在不同子空间中的展开特征;将不同子空间中的展开特征拼接为一个长特征向量,输入支持向量机,获得每块音频的类别判别结果;
计算该段音频所有块的类别判别结果的均值,由此得到该段音频的所属类别。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括对深度递归NMF网络进行训练的步骤,具体包括:
基于各类干净音频信号和稀疏NMF,利用乘积更新准则训练得到相应干净音频字典W(clean);
利用带噪数据,训练字典W=[W(clean),W(noise)];其中,W(noise)为噪声字典;在采用稀疏NMF训练过程中,保持W(clean)不变,只更新W(noise);W=[W(1),W(2),…,W(K)];
为了训练深度递归NMF网络,解如下的优化问题:
其中,训练深度递归NMF参数θ包括:字典W,非负权重α和训练数据为{Xi,Yi}i=1:I;I是音频训练样本总数,Xi和Yi分别表示第i个训练样本的网络输入及其期望输出;是代价函数;是神经网络实际输出;θ是神经网络参数;
其中,Xf,t为输入信号xt的第f个频率点的频谱;Yf,t是干净信号的第t帧,第f个频率点的频谱;Mt,f是取值范围在0和1之间的待估计掩码值,输入信号X中假定含有一定程度噪声干扰;Y是干净信号。
5.一种基于深度递归非负矩阵分解的音频场景分类系统,其特征在于,所述系统包括:
切分模块,用于将待分类的音频信号按照贝叶斯信息准则进行音频场景切分;
音频块的类别判别模块,用于将切分后的每一段音频划分为多个块,每个块包括多个音频帧;以块为单位分别输入多个预先训练好的深度递归NMF网络,得到每块音频在不同子空间中的展开特征;将不同子空间中的展开特征拼接为一个长特征向量,输入支持向量机,获得每块音频的类别判别结果;
音频段类别计算模块,用于计算该段音频所有块的类别判别结果的均值,由此得到该段音频的所属类别。
7.根据权利要求6所述的系统,其特征在于,所述系统还包括深度递归NMF网络训练模块,用于对各类深度递归NMF网络进行训练;具体过程为:
基于各类干净音频信号和稀疏NMF,利用乘积更新准则训练得到相应干净音频字典W(clean);
利用实际带噪数据,训练字典W=[W(clean),W(noise)];其中,W(noise)为噪声字典;在采用稀疏NMF训练过程中,保持W(clean)不变,只更新W(noise);W=[W(1),W(2),…,W(K)];
为了训练深度递归NMF网络,解如下的优化问题:
其中,训练深度递归NMF参数θ包括:字典W,非负权重α和训练数据为{Xi,Yi}i=1:I;I是音频训练样本总数,Xi和Yi分别表示第i个训练样本的网络输入及其期望输出;是代价函数;是神经网络实际输出;θ是神经网络参数;
其中,Xf,t为输入信号xt的第f个频率点的频谱;Yf,t是干净信号的第t帧,第f个频率点的频谱;Mt,f是取值范围在0和1之间的待估计掩码值,输入信号X中假定含有一定程度噪声干扰;Y是干净信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911022350.7A CN112712096A (zh) | 2019-10-25 | 2019-10-25 | 基于深度递归非负矩阵分解的音频场景分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911022350.7A CN112712096A (zh) | 2019-10-25 | 2019-10-25 | 基于深度递归非负矩阵分解的音频场景分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112712096A true CN112712096A (zh) | 2021-04-27 |
Family
ID=75540637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911022350.7A Pending CN112712096A (zh) | 2019-10-25 | 2019-10-25 | 基于深度递归非负矩阵分解的音频场景分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112712096A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220262386A1 (en) * | 2020-02-10 | 2022-08-18 | Tencent Technology (Shenzhen) Company Limited | Speech enhancement method and apparatus, electronic device, and computer- readable storage medium |
US12009004B2 (en) * | 2020-02-10 | 2024-06-11 | Tencent Technology (Shenzhen) Company Limited | Speech enhancement method and apparatus, electronic device, and computer-readable storage medium |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150242180A1 (en) * | 2014-02-21 | 2015-08-27 | Adobe Systems Incorporated | Non-negative Matrix Factorization Regularized by Recurrent Neural Networks for Audio Processing |
CN109448703A (zh) * | 2018-11-14 | 2019-03-08 | 山东师范大学 | 结合深度神经网络和主题模型的音频场景识别方法及系统 |
CN110334243A (zh) * | 2019-07-11 | 2019-10-15 | 哈尔滨工业大学 | 基于多层时序池化的音频表示学习方法 |
-
2019
- 2019-10-25 CN CN201911022350.7A patent/CN112712096A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150242180A1 (en) * | 2014-02-21 | 2015-08-27 | Adobe Systems Incorporated | Non-negative Matrix Factorization Regularized by Recurrent Neural Networks for Audio Processing |
CN109448703A (zh) * | 2018-11-14 | 2019-03-08 | 山东师范大学 | 结合深度神经网络和主题模型的音频场景识别方法及系统 |
CN110334243A (zh) * | 2019-07-11 | 2019-10-15 | 哈尔滨工业大学 | 基于多层时序池化的音频表示学习方法 |
Non-Patent Citations (1)
Title |
---|
SCOTT WISDOM ET AL.: ""Deep recurrent NMF for speech separation by unfolding iterative thresholding"", IEEEXPLORE, pages 254 - 258 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220262386A1 (en) * | 2020-02-10 | 2022-08-18 | Tencent Technology (Shenzhen) Company Limited | Speech enhancement method and apparatus, electronic device, and computer- readable storage medium |
US12009004B2 (en) * | 2020-02-10 | 2024-06-11 | Tencent Technology (Shenzhen) Company Limited | Speech enhancement method and apparatus, electronic device, and computer-readable storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
CN110197286B (zh) | 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法 | |
JP6243858B2 (ja) | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム | |
US5566270A (en) | Speaker independent isolated word recognition system using neural networks | |
CN111161744B (zh) | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
JPH05333898A (ja) | 時系列信号処理装置 | |
CN113380255B (zh) | 一种基于迁移训练的声纹识别中毒样本生成方法 | |
US5924066A (en) | System and method for classifying a speech signal | |
Lee et al. | Deeptwist: Learning model compression via occasional weight distortion | |
CN114678030A (zh) | 基于深度残差网络和注意力机制的声纹识别方法及装置 | |
Kurimo | Using self-organizing maps and learning vector quantization for mixture density hidden Markov models | |
CN113196385B (zh) | 用于音频信号处理的方法和系统及计算机可读存储介质 | |
Sun et al. | Progressive multi-target network based speech enhancement with snr-preselection for robust speaker diarization | |
CN113889099A (zh) | 一种语音识别方法及系统 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
Gordienko et al. | Adaptive iterative pruning for accelerating deep neural networks | |
Sahay et al. | SVM and ANN: A comparative evaluation | |
CN112712096A (zh) | 基于深度递归非负矩阵分解的音频场景分类方法及系统 | |
CN111833851B (zh) | 一种自动学习优化声学模型的方法 | |
Wu et al. | Mirex 2017 submission: Automatic audio chord recognition with miditrained deep feature and blstm-crf sequence decoding model | |
CN112951270B (zh) | 语音流利度检测的方法、装置和电子设备 | |
Guoqiang et al. | A noise classification algorithm based on SAMME and BP neural network | |
Seo | Minimum Word Error Rate Training for Speech Separation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |