CN109859771B - 一种联合优化深层变换特征与聚类过程的声场景聚类方法 - Google Patents

一种联合优化深层变换特征与聚类过程的声场景聚类方法 Download PDF

Info

Publication number
CN109859771B
CN109859771B CN201910033838.3A CN201910033838A CN109859771B CN 109859771 B CN109859771 B CN 109859771B CN 201910033838 A CN201910033838 A CN 201910033838A CN 109859771 B CN109859771 B CN 109859771B
Authority
CN
China
Prior art keywords
clustering
neural network
convolutional neural
layer
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910033838.3A
Other languages
English (en)
Other versions
CN109859771A (zh
Inventor
李艳雄
刘名乐
王武城
张聿晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910033838.3A priority Critical patent/CN109859771B/zh
Publication of CN109859771A publication Critical patent/CN109859771A/zh
Application granted granted Critical
Publication of CN109859771B publication Critical patent/CN109859771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明公开了一种联合优化深层变换特征与聚类过程的声场景聚类方法,步骤如下:a、提取各样本的对数梅尔谱特征并作为一个初始类,初始化一个卷积神经网络;b、将各样本的对数梅尔谱特征输入卷积神经网络,提取深层变换特征;c、采用凝聚分层聚类算法合并最相似的两个类,得到新的类标签及样本并用于更新卷积神经网络,类数减一,再采用更新后的卷积神经网络将各样本的对数梅尔谱特征变换为深层变换特征;d、如果当前类数等于真实类数,则停止聚类,得到联合优化的声场景聚类结果和卷积神经网络,否则跳到第c步。本方法的深层变换特征提取与聚类交替进行,得到联合优化结果,与传统聚类方法相比性能更优;与传统分类方法相比更具普适性。

Description

一种联合优化深层变换特征与聚类过程的声场景聚类方法
技术领域
本发明涉及音频信号处理与模式识别技术领域,特别涉及一种联合优 化深层变换特征与聚类过程的声场景聚类方法。
背景技术
声场景聚类(Acoustic scene clustering,ASC)是对采集到的各类声场景 音频样本进行相似度比较,将相同类别的音频样本合并在一起。声场景聚 类的目的主要是让机器更加智能化,使其拥有类似于人类分辨周围声学环 境的能力,从而能够为人类提供更智能化的服务。声场景聚类技术是音频 监控、自动辅助驾驶、多媒体内容分析与检索等应用领域的重要基础,具 有重要的研究价值与实际意义。
传统的监督声场景分类方法需要对每个音频训练样本进行人工标注 以便训练分类器,但人工标注成本昂贵、主观性强、效率低。目前各类声 场景的音频数据爆炸式增长,很多样本都没有标签,因此有监督的声场景 聚类方法在实际应用时有一定的局限性。目前无监督的声场景分类方法一 般将音频特征提取与声场景聚类分开进行,不能得到最优的声场景聚类结 果。因此,如何联合优化特征提取与声场景聚类过程以便得到较优的聚类结果,是进一步提高声场景聚类性能的关键,也是海量音频数据被充分挖 掘利用的重要手段之一。目前亟待提出一种联合优化深层变换特征与聚类 过程的声场景聚类方法,有效克服了目前方法的不足。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种联合优化 深层变换特征与聚类过程的声场景聚类方法。
本发明的目的可以通过采取如下技术方案达到:
一种联合优化深层变换特征与聚类过程的声场景聚类方法,所述的声 场景聚类方法包括如下步骤:
S1、提取对数梅尔谱特征:对各类声场景的样本进行预加重、分帧、 加窗,然后分别提取每一音频帧的对数梅尔谱特征;
S2、初始化各类及卷积神经网络:将每个样本作为一个初始类,初始 化生成一个卷积神经网络用于提取深层变换特征;
S3、更新卷积神经网络,提取新的深层变换特征:根据类标签及各类 样本更新卷积神经网络参数,并用更新后的卷积神经网络提取各类样本的 深层变换特征;
S4、合并最相似的两个类:采用凝聚分层聚类算法将相似度最大的两 个类合并在一起,得到新的类标签和各类样本,类数减一;
S5、聚类收敛判决:如果当前类数等于真实类数,则停止聚类,得到 联合优化的声场景聚类结果和卷积神经网络,否则跳到步骤S3。
进一步地,所述的步骤S1中提取对数梅尔谱特征具体包括以下步骤:
S1.1、音频数据采集与标注:在不同的场景采集音频数据流,然后将 每一个音频数据流分割成一定长度的音频段,三人或三人以上对音频段进 行人工标注,对于存在异议的音频段标注,按照少数服从多数的原则确定 最终的标签;
S1.2、预加重:设置数字滤波器的传递函数为H(z)=1-αz-1,其中α为 一个系数且取值为:0.9≤α≤1,读入的音频段通过该数字滤波器后实现预 加重;
S1.3、分帧、加窗:
S1.3.1、对音频段进行分帧与加窗,帧长和帧移所对应的采样点个数分 别为N=0.025×fs和S=0.01×fs,其中fs为采样频率,将读入的音频段切分 成音频帧s′t(n),1≤t≤T,1≤n≤N,其中T和N分别表示帧数和每帧的采样点 数;
S1.3.2、窗函数ω(n)为汉明窗:
Figure BDA0001945175650000031
S1.3.3、将每帧音频信号s′t(n)与汉明窗ω(n)相乘得到加窗后的音频信 号st(n):
st(n)=ω(n)×s′t(n) n=0,1,...,N-1;t=1,2,...,T;
S1.4、提取对数频谱特征:
S1.4.1、对第t帧音频信号st(n)做离散傅立叶变换(Discrete FourierTransformation,DFT)得到线性频谱Xt(k):
Figure BDA0001945175650000032
S1.4.2、将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱, 再进行对数运算得到对数频谱St(m),其中梅尔频率滤波器组为若干个带通 滤波器Hm(k),0≤m<M,M为滤波器的个数,其值设置为13,每个滤波 器具有三角形滤波特性,其中心频率为f(m),当m值较小时相邻f(m)的间 隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递 函数为:
Figure RE-GDA0002015625050000041
其中,0≤m<M,f(m)定义如下:
Figure BDA0001945175650000042
其中,fl、fh为滤波器的最低频率和最高频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
因此由线性频谱Xt(k)到对数频谱St(m)的变换为:
Figure BDA0001945175650000043
S1.4.3、对每帧音频信号重复步骤S1.3.1)~S1.4.2),得到所有音频帧的 上述对数频谱St(m)特征,将它们按帧的顺序组合成一个特征矩阵。
进一步地,所述的步骤S2初始化各类及卷积神经网络具体包括以下 步骤:
S2.1、初始化各类:每个待聚类样本作为一个初始类;
S2.2、初始化卷积神经网络结构:以对数梅尔谱特征作为输入,生成 一个卷积神经网络(Convolutional Neural Network,CNN),网络参数包括 展开率(Unrolling rate)、批量大小(batch size)、学习率(Learning rate)、 权重衰减(weight decay)、动量(momentum)以及后续聚类所使用的相关 参数。
进一步地,所述的卷积神经网络中包括四个模块,其中每一模块包括 以下子层:卷积层、池化层、激励层以及批量标准化层;
其中,所述的卷积层表示如下:
Figure BDA0001945175650000051
式中,
Figure BDA0001945175650000052
表示输入第l层的第j批样本的特征,
Figure BDA0001945175650000053
表示第l层的卷积核(输 入特征是第j批样本中的第i个样本得到特征),
Figure BDA0001945175650000054
表示第l层的偏置(输 入是第j批样本的特征),ψ(·)表示激活函数,Mj表示第j批样本;
所述池化层采用最大池化方法
所述激励层的激励函数采用整流线性函数(Rectified Linear Unit, ReLU),其作用是增强神经网络各层之间的非线性关系;
所述批量标准化层的计算过程如下:
近似白化预处理:
Figure BDA0001945175650000055
变换重构:
Figure BDA0001945175650000056
其中,E[ξ(q)]是每一批训练数据神经元ξ(q)的平均值,
Figure BDA0001945175650000057
是每一批 数据神经元ξ(q)的标准差,γ(q)与β(q)均为可学习重构参数,让网络学习恢 复出原始网络所要学习的特征分布。
批量标准化(Batch Normalization,BN)主要作用是解决网络的梯度爆 炸问题以及加快网络的收敛速度,
进一步地,所述的卷积神经网络还包括全连接层,所述的全连接层用 于将卷积神经网络学习到的特征表示映射到样本标记空间,在卷积神经网 络输出端加入两个全连接层FC1与FC2,其中FC1的节点数设置为5040, FC2的节点数设置为160。
进一步地,所述的步骤S3中更新卷积神经网络,提取新的深层变换特 征的过程如下:
将提取的声学特征输入该网络,得到新的深层变换特征;经过一定次 数的聚类更新类标签之后,根据损失函数与更新的类标签,采用反向传播 算法更新网络参数,使网络所提取的深层变换特征更具区分性,从而得到 更优的聚类结果。
进一步地,所述的损失函数公式如下:
Figure BDA0001945175650000061
Figure BDA0001945175650000062
表示当前第t类,
Figure BDA0001945175650000063
表示与
Figure BDA0001945175650000064
距离最近的类,Kc是一个表示类别数 的常数,
Figure BDA0001945175650000065
表示除
Figure BDA0001945175650000066
Figure BDA0001945175650000067
的其他相邻类,A(·)是一个计算类间相 似度的函数,
Figure BDA0001945175650000068
表示第p阶段的迭代次数。
进一步地,所述的步骤S4中合并最相似的两个类包括以下步骤:
S4.1、假设所有样本的特征矩阵集合
Figure BDA00019451756500000614
ns为样本总个数, 根据x构造邻度矩阵
Figure BDA0001945175650000069
W的第(i,j)个元素Wij定义如下:
Figure BDA00019451756500000610
其中
Figure BDA00019451756500000611
Figure BDA00019451756500000612
为特征矩阵xi与xj的欧式距离的平方,σ2是一个尺度参数,定义 为第i个特征矩阵xi与其他
Figure BDA00019451756500000613
个高斯均值超矢量之间的欧式距离矢量的 方差,Ks表示样本数的常数;
S4.2、根据邻度矩阵合并距离最近的类,更新当前类的标签及样本。
本发明相对于现有技术具有如下的优点及效果:
1)、本发明通过卷积神经网络变换得到的新特征,比传统音频特征能 更有效刻画复杂声场景的特性差异,在声场景聚类中获得更加优异的效果
2)、本发明是一种无监督的声场景聚类方法,无需事先知道声场景类 型及训练表征各声场景的分类器,与有监督的方法相比更具普适性。
附图说明
图1是本发明公开的一种联合优化深层变换特征与聚类过程的声场景 聚类方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本 发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。 基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,图1是一种联合优化深层变换特征与聚类过程的声场景 聚类方法的一个实施例的流程图,其主要包括以下过程:
S1、提取对数梅尔谱特征:对各类声场景的音频样本进行预加重、分 帧、加窗,然后分别提取每一音频帧的对数梅尔谱;
S2、初始化各类及卷积神经网络:将每个样本作为一个初始类,初始 化生成一个卷积神经网络用于提取深层变换特征;
S3、更新卷积神经网络,提取新的深层变换特征:根据类标签及各类 样本更新卷积神经网络参数,并用更新后的卷积神经网络提取各类样本的 深层变换特征;
S4、合并最相似的两个类:采用凝聚分层聚类算法将相似度最大的两 个类合并在一起,得到新的类标签和各类样本,类数减一;
S5、聚类收敛判决:如果当前类数等于真实类数,则停止聚类,得到 联合优化的声场景聚类结果和卷积神经网络,否则跳到S3。
本实施例中,步骤S1中提取对数梅尔谱特征具体包括以下步骤:
S1.1、音频数据采集与标注:在不同的场景采集音频数据流,然后将 每一个音频数据流分割成一定长度的音频段,三人或三人以上对音频段进 行人工标注,对于存在异议的音频段标注,按照少数服从多数的原则确定 最终的标签;
S1.2、预加重:设置数字滤波器的传递函数为H(z)=1-αz-1,其中α为 一个系数且取值为:0.9≤α≤1,读入的音频段通过该数字滤波器后实现预 加重;
S1.3、分帧、加窗:
S1.3.1、对音频段进行分帧与加窗,帧长和帧移所对应的采样点个数分 别为N=0.025×fs和S=0.01×fs,其中fs为采样频率,将读入的音频段切分 成音频帧s′t(n),1≤t≤T,1≤n≤N,其中T和N分别表示帧数和每帧的采样点 数;
S1.3.2、窗函数ω(n)为汉明窗:
Figure BDA0001945175650000081
S1.3.3、将每帧音频信号s′t(n)与汉明窗ω(n)相乘得到加窗后的音频信 号st(n):
st(n)=ω(n)×s′t(n) n=0,1,...,N-1;t=1,2,...,T;
S1.4、提取对数频谱特征:
S1.4.1、对第t帧音频信号st(n)做离散傅立叶变换(Discrete FourierTransformation,DFT)得到线性频谱Xt(k):
Figure BDA0001945175650000091
S1.4.2、将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱, 再进行对数运算得到对数频谱St(m),其中梅尔频率滤波器组为若干个带通 滤波器Hm(k),0≤m<M,M为滤波器的个数,其值设置为13,每个滤波 器具有三角形滤波特性,其中心频率为f(m),当m值较小时相邻f(m)的间 隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递 函数为:
Figure RE-GDA0002015625050000092
其中,0≤m<M,f(m)定义如下:
Figure BDA0001945175650000093
其中,fl、fh为滤波器的最低频率和最高频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
因此由线性频谱Xt(k)到对数频谱St(m)的变换为:
Figure BDA0001945175650000094
S1.4.3、对每帧音频信号重复步骤S1.3.1)~S1.4.2),得到所有音频帧的 上述对数频谱St(m)特征,将它们按帧的顺序组合成一个特征矩阵。
本实施例中,步骤S2中初始化各类及卷积神经网络具体包括以下步 骤:
所述的步骤S2初始化各类及卷积神经网络具体包括以下步骤:
S2.1、初始化各类:每个待聚类样本作为一个初始类;
S2.2、初始化卷积神经网络结构:以对数梅尔谱特征作为输入,生成 一个卷积神经网络(Convolutional Neural Network,CNN),网络参数包括 展开率(Unrolling rate)、批量大小(batch size)、学习率(Learning rate)、 权重衰减(weight decay)、动量(momentum)以及后续聚类所使用的相关 参数。
以上卷积神经网络中包括四个模块,其中每一模块包括以下子层:卷 积层、池化层、激励层以及批量标准化层;
其中,卷积层表示如下:
Figure BDA0001945175650000101
式中,
Figure BDA0001945175650000102
表示输入第l层的第j批样本的特征,
Figure BDA0001945175650000103
表示第l层的卷积核(输 入特征是第j批样本中的第i个样本得到特征),
Figure BDA0001945175650000104
表示第l层的偏置(输 入是第j批样本的特征),ψ(·)表示激活函数,Mj表示第j批样本;
池化层采用最大池化方法
激励层的激励函数采用整流线性函数(Rectified Linear Unit,ReLU), 其作用是增强神经网络各层之间的非线性关系;
批量标准化层的计算过程如下:
近似白化预处理:
Figure BDA0001945175650000105
变换重构:
Figure BDA0001945175650000106
其中,E[ξ(q)]是每一批训练数据神经元ξ(q)的平均值,
Figure BDA0001945175650000107
是每一批 数据神经元ξ(q)的标准差,γ(q)与β(q)均为可学习重构参数,让网络学习恢 复出原始网络所要学习的特征分布。
批量标准化(Batch Normalization,BN)主要作用是解决网络的梯度爆 炸问题以及加快网络的收敛速度,
上述卷积神经网络还包括全连接层,所述的全连接层用于将卷积神经 网络学习到的特征表示映射到样本标记空间,在卷积神经网络输出端加入 两个全连接层FC1与FC2,其中FC1的节点数设置为5040,FC2的节点 数设置为160。
全连接层在网络中起到分类器的作用,可以将网络学习到的特征表示 映射到样本标记空间,在卷积神经网络输出端加入两个全连接层。
本实施例中,步骤S3中更新卷积神经网络,提取新的深层变换特征具 体过程如下:
将提取的声学特征输入该网络,得到新的深层变换特征;经过一定次 数的聚类更新类标签之后,根据损失函数与更新的类标签,采用反向传播 算法更新网络参数,使网络所提取的深层变换特征更具区分性,从而得到 更优的聚类结果。
本实施例中,损失函数公式如下:
Figure BDA0001945175650000111
Figure BDA0001945175650000112
表示当前第t类,
Figure BDA0001945175650000113
表示与
Figure BDA0001945175650000114
距离最近的类,Kc是一个表示类别数 的常数,
Figure BDA0001945175650000115
表示除
Figure BDA0001945175650000116
Figure BDA0001945175650000117
的其他相邻类,A(·)是一个计算类间相 似度的函数,
Figure BDA0001945175650000118
表示第p阶段的迭代次数。
本实施例中,步骤S4中合并最相似的两个类具体包括以下步骤:
S4.1、假设所有样本的特征矩阵集合
Figure BDA0001945175650000119
ns为样本总个数, 根据x构造邻度矩阵
Figure BDA00019451756500001110
W的第(i,j)个元素Wij定义如下:
Figure BDA0001945175650000121
其中
Figure BDA0001945175650000122
Figure BDA0001945175650000123
为特征矩阵xi与xj的欧式距离的平方,σ2是一个尺度参数,定义 为第i个特征矩阵xi与其他
Figure BDA0001945175650000124
个高斯均值超矢量之间的欧式距离矢量的 方差,Ks表示样本数的常数;
S4.2、根据邻度矩阵合并距离最近的类,合并之后更新当前类的标签 及样本。
本实施例中,步骤S5中聚类收敛判决具体包括以下步骤:
各类更新完毕后,如果当前类数等于真实类数,则停止聚类,得到联 合优化的声场景聚类结果和卷积神经网络;否则跳到步骤S3。
综上所述,本实施例公开的一种联合优化深层变换特征与聚类过程的 声场景聚类方法:第一步,提取对数梅尔谱特征,对各类声场景的音频样 本进行预加重、分帧、加窗,然后分别提取每一音频帧的对数梅尔谱;第 二步,初始化各类及卷积神经网络,将每个样本作为一个初始类,初始化 生成一个卷积神经网络用于提取深层变换特征;第三步,更新卷积神经网 络,提取新的深层变换特征:根据类标签及各类样本更新卷积神经网络参 数,并用更新后的卷积神经网络提取各类样本的深层变换特征;第四步, 合并最相似的两个类,采用凝聚分层聚类算法将相似度最大的两个类合并 在一起,得到新的类标签和各类样本,类数减一;第五步,聚类收敛判决, 如果当前类数等于真实类数,则停止聚类,得到联合优化的声场景聚类结 果和卷积神经网络,否则跳到第三步。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上 述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改 变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明 的保护范围之内。

Claims (6)

1.一种联合优化深层变换特征与聚类过程的声场景聚类方法,其特征在于,所述的声场景聚类方法包括如下步骤:
S1、提取对数梅尔谱特征:对各类声场景的样本进行预加重、分帧、加窗,然后分别提取每一音频帧的对数梅尔谱特征;
S2、初始化各类及卷积神经网络:将每个样本作为一个初始类,初始化生成一个卷积神经网络用于提取深层变换特征;
S3、更新卷积神经网络,提取新的深层变换特征:根据类标签及各类样本更新卷积神经网络参数,并用更新后的卷积神经网络提取各类样本的深层变换特征;
其中,所述的步骤S3中更新卷积神经网络,提取新的深层变换特征的过程如下:
将提取的声学特征输入该网络,得到新的深层变换特征;经过一定次数的聚类更新类标签之后,根据损失函数与更新的类标签,采用反向传播算法更新网络参数,使网络所提取的深层变换特征更具区分性,从而得到更优的聚类结果;所述的损失函数公式如下:
Figure FDA0002633130910000011
Figure FDA0002633130910000012
表示当前第t类,
Figure FDA0002633130910000013
表示与
Figure FDA0002633130910000014
距离最近的类,Kc是一个表示类别数的常数,
Figure FDA0002633130910000015
表示除
Figure FDA0002633130910000016
Figure FDA0002633130910000017
的其他相邻类,A(·)是一个计算类间相似度的函数,
Figure FDA0002633130910000018
表示第p阶段的迭代次数;
S4、合并最相似的两个类:采用凝聚分层聚类算法将相似度最大的两个类合并在一起,得到新的类标签和各类样本,类数减一;
S5、聚类收敛判决:如果当前类数等于真实类数,则停止聚类,得到联合优化的声场景聚类结果和卷积神经网络,否则跳到步骤S3。
2.根据权利要求1所述的一种联合优化深层变换特征与聚类过程的声场景聚类方法,其特征在于,所述的步骤S1中提取对数梅尔谱特征包括以下步骤:
S1.1、音频数据采集与标注:在不同的场景采集音频数据流,然后将每一个音频数据流分割成一定长度的音频段,三人或三人以上对音频段进行人工标注,对于存在异议的音频段标注,按照少数服从多数的原则确定最终的标签;
S1.2、预加重:设置数字滤波器的传递函数为H(z)=1-αz-1,其中α为一个系数且取值为:0.9≤α≤1,读入的音频段通过该数字滤波器后实现预加重;
S1.3、分帧、加窗:
S1.3.1、对音频段进行分帧与加窗,帧长和帧移所对应的采样点个数分别为N=0.025×fs和S=0.01×fs,其中fs为采样频率,将读入的音频段切分成音频帧s′t(n),1≤t≤T,1≤n≤N,其中T和N分别表示帧数和每帧的采样点数;
S1.3.2、采用汉明窗作为窗函数ω(n):
Figure FDA0002633130910000021
S1.3.3、将每帧音频信号s′t(n)与汉明窗ω(n)相乘得到加窗后的音频信号st(n):
st(n)=ω(n)×s′t(n)n=0,1,...,N-1,t=1,2,...,T;
S1.4、提取对数频谱特征:
S1.4.1、对第t帧音频信号st(n)做离散傅立叶变换得到线性频谱Xt(k):
Figure FDA0002633130910000031
S1.4.2、将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),其中梅尔频率滤波器组为若干个带通滤波器Hm(k),0≤m<M,M为滤波器的个数,每个滤波器具有三角形滤波特性,其中心频率为f(m),每个带通滤波器的传递函数为:
Figure FDA0002633130910000032
其中,0≤m<M,f(m)定义如下:
Figure FDA0002633130910000033
其中,fl、fh为滤波器的最低频率和最高频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
因此由线性频谱Xt(k)到对数频谱St(m)的变换为:
Figure FDA0002633130910000034
S1.4.3、对每帧音频信号重复步骤S1.3.1)~S1.4.2),得到所有音频帧的上述对数频谱St(m)特征,将它们按帧的顺序组合成一个特征矩阵。
3.根据权利要求1所述的一种联合优化深层变换特征与聚类过程的声场景聚类方法,其特征在于,所述的步骤S2中初始化各类及卷积神经网络包括以下步骤:
S2.1、初始化各类:每个待聚类样本作为一个初始类;
S2.2、初始化卷积神经网络结构:以对数梅尔谱特征作为输入,生成一个卷积神经网络,网络参数包括展开率、批量大小、学习率、权重衰减、动量以及后续聚类所使用的参数。
4.根据权利要求3所述的一种联合优化深层变换特征与聚类过程的声场景聚类方法,其特征在于,所述的卷积神经网络中包括四个模块,其中每一模块包括以下子层:卷积层、池化层、激励层以及批量标准化层;
其中,所述的卷积层表示如下:
Figure FDA0002633130910000041
式中,
Figure FDA0002633130910000042
表示输入第l层的第j批样本的特征,
Figure FDA0002633130910000043
表示第l层的卷积核,输入特征是第j批样本中的第i个样本得到特征,
Figure FDA0002633130910000044
表示第l层的偏置,输入是第j批样本的特征,ψ(·)表示激活函数,Mj表示第j批样本;
所述池化层采用最大池化方法
所述激励层的激励函数采用整流线性函数;
所述批量标准化层的计算过程如下:
近似白化预处理:
Figure FDA0002633130910000045
变换重构:
Figure FDA0002633130910000046
其中,E[ξ(q)]是每一批训练数据神经元ξ(q)的平均值,
Figure FDA0002633130910000047
是每一批数据神经元ξ(q)的标准差,γ(q)与β(q)均为可学习重构参数,让网络学习恢复出原始网络所要学习的特征分布。
5.根据权利要求3所述的一种联合优化深层变换特征与聚类过程的声场景聚类方法,其特征在于,所述的卷积神经网络还包括全连接层,所述的全连接层用于将卷积神经网络学习到的特征表示映射到样本标记空间,在卷积神经网络输出端加入两个全连接层FC1与FC2,其中FC1的节点数设置为5040,FC2的节点数设置为160。
6.根据权利要求1所述的一种联合优化深层变换特征与聚类过程的声场景聚类方法,其特征在于,所述的步骤S4中合并最相似的两个类包括以下步骤:
S4.1、假设所有样本的特征矩阵集合
Figure FDA0002633130910000051
ns为样本总个数,根据x构造邻度矩阵
Figure FDA0002633130910000052
W的第(i,j)个元素Wij定义如下:
Figure FDA0002633130910000053
其中
Figure FDA0002633130910000054
Figure FDA0002633130910000055
为特征矩阵xi与xj的欧式距离的平方,σ2是一个尺度参数,定义为第i个特征矩阵xi与其他
Figure FDA0002633130910000056
个高斯均值超矢量之间的欧式距离矢量的方差,Ks表示样本数的常数;
S4.2、根据邻度矩阵合并距离最近的类,更新当前类的标签及样本。
CN201910033838.3A 2019-01-15 2019-01-15 一种联合优化深层变换特征与聚类过程的声场景聚类方法 Active CN109859771B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910033838.3A CN109859771B (zh) 2019-01-15 2019-01-15 一种联合优化深层变换特征与聚类过程的声场景聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910033838.3A CN109859771B (zh) 2019-01-15 2019-01-15 一种联合优化深层变换特征与聚类过程的声场景聚类方法

Publications (2)

Publication Number Publication Date
CN109859771A CN109859771A (zh) 2019-06-07
CN109859771B true CN109859771B (zh) 2021-03-30

Family

ID=66894671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910033838.3A Active CN109859771B (zh) 2019-01-15 2019-01-15 一种联合优化深层变换特征与聚类过程的声场景聚类方法

Country Status (1)

Country Link
CN (1) CN109859771B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111326167B (zh) * 2020-03-09 2022-05-13 广州深声科技有限公司 一种基于神经网络的声学特征转换方法
CN111754988B (zh) * 2020-06-23 2022-08-16 南京工程学院 基于注意力机制和双路径深度残差网络的声场景分类方法
CN111723874B (zh) * 2020-07-02 2023-05-26 华南理工大学 一种基于宽度和深度神经网络的声场景分类方法
CN112270933B (zh) * 2020-11-12 2024-03-12 北京猿力未来科技有限公司 一种音频识别方法和装置
CN112418289B (zh) * 2020-11-17 2021-08-03 北京京航计算通讯研究所 一种不完全标注数据的多标签分类处理方法及装置
CN117253472B (zh) * 2023-11-16 2024-01-26 上海交通大学宁波人工智能研究院 一种基于生成式深度神经网络的多区域声场重建控制方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530689A (zh) * 2013-10-31 2014-01-22 中国科学院自动化研究所 一种基于深度学习的聚类方法
CN105550744A (zh) * 2015-12-06 2016-05-04 北京工业大学 一种基于迭代的神经网络聚类方法
CN106952644A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于瓶颈特征的复杂音频分割聚类方法
CN108229419A (zh) * 2018-01-22 2018-06-29 百度在线网络技术(北京)有限公司 用于聚类图像的方法和装置
WO2018155481A1 (ja) * 2017-02-27 2018-08-30 ヤマハ株式会社 情報処理方法および情報処理装置
CN108615532A (zh) * 2018-05-03 2018-10-02 张晓雷 一种应用于声场景的分类方法及装置
CN108932950A (zh) * 2018-05-18 2018-12-04 华南师范大学 一种基于标签扩增与多频谱图融合的声音场景识别方法
CN108962278A (zh) * 2018-06-26 2018-12-07 常州工学院 一种助听器声场景分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180017501A1 (en) * 2016-07-13 2018-01-18 Sightline Innovation Inc. System and method for surface inspection

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530689A (zh) * 2013-10-31 2014-01-22 中国科学院自动化研究所 一种基于深度学习的聚类方法
CN105550744A (zh) * 2015-12-06 2016-05-04 北京工业大学 一种基于迭代的神经网络聚类方法
CN106952644A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于瓶颈特征的复杂音频分割聚类方法
WO2018155481A1 (ja) * 2017-02-27 2018-08-30 ヤマハ株式会社 情報処理方法および情報処理装置
CN108229419A (zh) * 2018-01-22 2018-06-29 百度在线网络技术(北京)有限公司 用于聚类图像的方法和装置
CN108615532A (zh) * 2018-05-03 2018-10-02 张晓雷 一种应用于声场景的分类方法及装置
CN108932950A (zh) * 2018-05-18 2018-12-04 华南师范大学 一种基于标签扩增与多频谱图融合的声音场景识别方法
CN108962278A (zh) * 2018-06-26 2018-12-07 常州工学院 一种助听器声场景分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Deep Convolutional Neural Networks and Data Augmentation for Environment Sound Classification》;Justin Salamon et al.;《IEEE Signal Processing Leteers》;20170123;第24卷(第3期);全文 *
《基于深度特征学习的图像自适应目标识别算法》;张骞予 等;《太原理工大学学报》;20180731;第49卷(第4期);第592-597页 *

Also Published As

Publication number Publication date
CN109859771A (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
CN109859771B (zh) 一种联合优化深层变换特征与聚类过程的声场景聚类方法
CN107515895B (zh) 一种基于目标检测的视觉目标检索方法与系统
CN106952644A (zh) 一种基于瓶颈特征的复杂音频分割聚类方法
CN111291614B (zh) 基于迁移学习多模型决策融合的儿童癫痫综合症分类方法
CN109993100B (zh) 基于深层特征聚类的人脸表情识别的实现方法
CN109559736B (zh) 一种基于对抗网络的电影演员自动配音方法
CN111161715B (zh) 一种基于序列分类的特定声音事件检索与定位的方法
CN111985533B (zh) 一种基于多尺度信息融合的增量式水声信号识别方法
CN111738303B (zh) 一种基于层次学习的长尾分布图像识别方法
CN112434732A (zh) 一种基于特征筛选的深度学习分类方法
CN111723239B (zh) 一种基于多模态的视频标注方法
CN111653267A (zh) 一种基于时延神经网络的快速语种识别方法
CN112529638B (zh) 基于用户分类和深度学习的服务需求动态预测方法及系统
CN112367273A (zh) 基于知识蒸馏的深度神经网络模型的流量分类方法及装置
CN115101076B (zh) 一种基于多尺度通道分离卷积特征提取的说话人聚类方法
CN111583957B (zh) 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法
CN111310719B (zh) 一种未知辐射源个体识别及检测的方法
CN110458071B (zh) 一种基于dwt-dfpa-gbdt的光纤振动信号特征提取与分类方法
CN113707175B (zh) 基于特征分解分类器与自适应后处理的声学事件检测系统
CN114595728A (zh) 一种基于自监督学习的信号去噪方法
CN113505856A (zh) 一种高光谱影像无监督自适应分类方法
CN113095479A (zh) 一种基于多尺度注意力机制的冰下层结构提取方法
CN113111786A (zh) 基于小样本训练图卷积网络的水下目标识别方法
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法
Yu Research on music emotion classification based on CNN-LSTM network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant