CN106952644A - 一种基于瓶颈特征的复杂音频分割聚类方法 - Google Patents
一种基于瓶颈特征的复杂音频分割聚类方法 Download PDFInfo
- Publication number
- CN106952644A CN106952644A CN201710101550.6A CN201710101550A CN106952644A CN 106952644 A CN106952644 A CN 106952644A CN 201710101550 A CN201710101550 A CN 201710101550A CN 106952644 A CN106952644 A CN 106952644A
- Authority
- CN
- China
- Prior art keywords
- audio
- layer
- sigma
- training
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000011218 segmentation Effects 0.000 title claims abstract description 25
- 238000013528 artificial neural network Methods 0.000 claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 230000003595 spectral effect Effects 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 72
- 238000012549 training Methods 0.000 claims description 70
- 230000006870 function Effects 0.000 claims description 54
- 230000000007 visual effect Effects 0.000 claims description 35
- 230000005236 sound signal Effects 0.000 claims description 31
- 230000004913 activation Effects 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 238000001228 spectrum Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 23
- 238000005070 sampling Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 7
- 230000037433 frameshift Effects 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于瓶颈特征的复杂音频分割聚类方法,包括如下步骤,首先构造一个带瓶颈层的深度神经网络;接着读入复杂音频流,对复杂音频流进行端点检测,然后提取非静音段的音频特征并输入深度神经网络,从深度神经网络的瓶颈层提取瓶颈特征;以瓶颈特征作为输入,采用基于贝叶斯信息准则的音频分割方法,使得每个音频段只包含一种音频类型且相邻音频段的音频类型不同;最后,采用谱聚类算法对分割后的音频段进行聚类,得到复杂音频的音频类型个数,并将相同音频类型的音频段合并在一起。本发明采用的瓶颈特征是一种深层变换特征,比传统音频特征能更有效刻画复杂音频类型的特性差异,在复杂音频分割聚类中获得更加优异的效果。
Description
技术领域
本发明涉及音频信号处理与模式识别技术,特别涉及一种基于瓶颈特征的复杂音频分割聚类方法。
背景技术
随着多媒体采集设备、互联网及云存储平台的发展与普及,海量复杂音频内容分析与检索的需求日益迫切。复杂音频分割、聚类作为一种无监督的方法,是音频内容分析的重要手段之一。虽然可以采用人工标注的方法找出音频流中的各音频类型,但人工标注成本高、主观性强、效率低,而有监督的音频分类方法需要预先知道音频流中的音频类型、提前训练特定类型的分类器。因此无监督的复杂音频分割、聚类方法应用范围更广,更适合海量复杂音频数据的内容分析。
传统的复杂音频分割聚类方法采用的特征大多来源于语音识别领域,如梅尔频率倒谱系数,感知线性预测系数等。由于复杂音频中的各类音频事件来源各异,没有语音那样的特定结构单元(音素或音节),在语音识别中能有效刻画语音单元差异的传统音频特征并不一定能有效刻画复杂音频类型之间的特性差异。因此,提取有效刻画复杂音频类型差异的特征是提升复杂音频分割与聚类性能的关键。
发明内容
本发明的目的在于克服现有技术的不足和缺点,提供一种基于瓶颈特征的复杂音频分割聚类方法:首先训练一个带瓶颈层的深度神经网络;接着,提取复杂音频流的音频特征并输入深度神经网络,从深度神经网络的瓶颈层提取瓶颈特征;以瓶颈特征作为输入,采用基于贝叶斯信息准则的音频分割方法对复杂音频流进行分割,使得每个音频段只包含一种音频类型,相邻音频段的音频类型不同;最后,采用谱聚类算法对分割后的音频段进行聚类,得到复杂音频中的音频类型个数,并将相同音频类型的音频段合并在一起。
本发明的目的通过以下技术方案实现:一种基于瓶颈特征的复杂音频分割聚类方法,其特征在于,包括如下步骤:
S1、带瓶颈层的深度神经网络构造:读入训练数据并提取梅尔频率倒谱系数(MelFrequency Cepstral Coefficients,MFCC)特征,再通过无监督预训练和有监督精确调整两个步骤构造一个带瓶颈层的深度神经网络(Deep Neural Network,DNN)特征提取器;
S2、端点检测:读入复杂音频流,通过基于门限判决的静音检测方法找出音频流中所有的静音段和非静音信号段,并将各个非静音信号段拼接成一个长信号段;
S3、瓶颈特征提取:提取上述长信号段的MFCC特征并输入DNN特征提取器,从DNN特征提取器的瓶颈层提取瓶颈特征;
S4、音频分割:采用基于贝叶斯信息准则(Bayes Information Criterion,BIC)的方法检测长信号段中的音频类型改变点,根据这些改变点把长信号段分割成若干个音频段,使得每个音频段只包含一种音频类型且相邻音频段的音频类型不同;
S5、音频聚类:采用谱聚类算法对各音频段进行聚类,得到音频类型个数,并将相同音频类型的音频段合并在一起。
优选的,步骤S1中带瓶颈层的深度神经网络构造具体包括以下步骤:
S1.1、读入训练数据并提取MFCC特征,具体步骤如下:
S1.1.1、预加重:设置数字滤波器的传递函数为H(z)=1-αz-1,其中α为一个系数且取值为:0.9≤α≤1,读入的音频流通过该数字滤波器后实现预加重;
S1.1.2、分帧:设置音频帧的帧长为25毫秒、帧移为10毫秒,帧长和帧移所对应的采样点个数分别为N=0.025×fs和S=0.01×fs,其中fs为音频采样频率,将读入的音频流切分成音频帧xt'(n),1≤t≤T,0≤n≤N-1,其中T和N分别表示帧数和每帧的采样点数;
S1.1.3、窗函数ω(n)为汉明窗:
将每帧音频信号xt'(n)与汉明窗ω(n)相乘得到加窗后的音频信号xt(n):
xt(n)=ω(n)×xt'(n) n=0,1,...,N-1;t=1,2,...,T
S1.1.4、提取MFCC特征:
S1.1.4.1、对第t帧音频信号xt(n)做离散傅立叶变换(Discrete FourierTransformation,DFT)得到线性频谱Xt(k):
S1.1.4.2、将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),其中梅尔频率滤波器组为若干个带通滤波器Hm(k),0≤m<M,M为滤波器的个数,其值设置为13,每个滤波器具有三角形滤波特性,其中心频率为f(m),当m值较小时相邻f(m)的间隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
其中,0≤m<M,f(m)定义如下:
其中,fl、fh为滤波器的最低频率和最高频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
因此由线性频谱Xt(k)到对数频谱St(m)的变换为:
S1.1.4.3、将上述对数频谱St(m)经过离散余弦变换(Discrete CosineTransformation,DCT)变换到倒谱域,得到第t帧音频信号的MFCC特征,即Ct(p):
S1.1.4.3、对每帧音频信号重复步骤S1.1.4.1-S1.1.4.3,得到所有音频帧的MFCC特征,将它们按帧的顺序组合成一个MFCC特征矩阵;
S1.2、预训练:采用逐层堆叠受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)的方法构造一个深度置信网(Deep Belief Nets,DBN),得到预训练的网络参数;
RBM采用基于能量的通用分布模型去表示任意概率分布,其能量函数定义为:
其中v,h分别代表可视层单元和隐含层单元的状态矢量,wij表示可视层第i个节点与隐含层第j个节点的连接权重,vi和ai分别表示可视层的第i个节点的状态和偏移量,hj和bj分别表示隐含层的第j个节点的状态和偏移量,vis和hid分别表示可视层和隐含层的节点集合;当所有参数都确定时,可以得到RBM能量函数关于v和h的联合概率分布:
由联合分布得到边缘概率分布:
条件概率为:
高斯-伯努利RBM的条件概率分布可以表示为:
其中表示是均值为方差为V的高斯分布,表示输入为的Sigmoid函数,Sigmoid函数σ(x)的表达式为σ(x)=1/[1+exp(-x)],
伯努利-伯努利RBM的条件概率分布表示为:
在给定训练集其中ns为训练样本数目,训练一个RBM就是通过调整参数θ={W,a,b}来表征给定的训练样本,使得在该参数下由相应RBM表示的概率分布尽可能地与训练数据相符,其中W表示权重系数,a表示可视层的偏移量,b表示隐含层的偏移量,
训练RBM的目标就是最大化似然函数:
即:
其中p(d(t))为对样本d(t)的似然估计;
DBN的构造过程具体包括如下步骤:
S1.2.1、选取当前帧的前后5帧作为上下文信息,共计11*13=143维作为第一个RBM的可视层输入节点数,隐含层节点数取固定值1024,将输入特征的每一维进行倒谱均值方差归一化,采用对比散度(Contrastive Divergence,CD)算法训练一个高斯-伯努利RBM;
具体过程如下:
S1.2.1.1、将连接权重初始化,值为10-3,偏移量、似然函数对权重的偏导数、似然函数对可视层以及隐含层偏移量的偏导数均初始化为0,迭代次数设置为30;
S1.2.1.2、对每一次迭代,取初始值d(0),d(0)={di (0)},i∈vis,为训练样本集合D中的任意一个样本d,执行k步Gibbs采样得到d(k),其中在第s步(s=0,2...,k-1)过程如下:
S1.2.1.2.1、隐含层中的每一个节点的激活概率可以表示为:
S1.2.1.2.2、产生[0,1]区间的随机数rj,得到隐含层状态h(s):
S1.2.1.2.3、根据隐含层状态h(s),得到可视层每一个节点的激活概率为:
S1.2.1.2.4、产生[0,1]上的随机数ri,重构可视层输入d(s+1):
S1.2.1.3、经过k步Gibbs采样后得到的d(k)近似估计RBM参数的梯度:
其中p(hi=1|d(k))表示在可视层限定为已知的训练样本d(k)时隐含层的激活概率,由于该RBM为高斯-伯努利RBM,则
S1.2.1.4、得到似然函数对权重的偏导数、似然函数对可视层以及隐含层偏移量的偏导数ΔW,Δa和Δb,其中
S1.2.1.5、更新参数:
式中η为权重学习率,设置为0.01;
S1.2.2、保持上一个RBM的权重和偏移量不变,将上一个RBM的隐含层作为下一个RBM的可视层,并保持隐含层节点数与可视层节点数相同,迭代训练一个伯努利-伯努利RBM,其步骤与S1.2.1类似,只是在执行k步Gibbs采样得到d(k)时,其可视层每一个节点的激活概率公式变为:
此过程中,权重学习率变为0.04,迭代次数降为15次;
S1.2.3、按照S1.2.2中的步骤,重复迭代训练伯努利-伯努利RBM,直到瓶颈层的前一个隐含层;
S1.2.4、将RBM的隐含层节点数设置为MFCC特征维数的2倍,按照S1.2.2中的步骤,迭代训练伯努利-伯努利RBM;
S1.2.5、恢复隐含层节点数为1024,按照S1.2.2中的步骤,重复迭代训练伯努利-伯努利RBM,直到最后一个隐含层;
S1.2.6、将所有的RBM按照构造时的顺序依次堆叠起来,就构成一个带瓶颈层的DBN;
S1.3、精确调整:采用有监督训练方法对预训练后的DBN网络参数进行精确调整,具体包括如下步骤:
S1.3.1、在DBN的基础上再增加一个输出层,并随机初始化DBN最后一层与该增加的输出层之间的网络参数,从而构成一个完整的深度神经网络DNN;
S1.3.2、利用反向传播(Back-propagation,BP)算法有监督地调整DNN网络参数,每一次迭代的具体步骤如下:
S1.3.2.1、计算样本损失函数:
对于单个有标签的训练样本(x,t),其中x为声学特征,t为样本标签,其维度与输出节点数相同,即训练的音频类别数,对于音频类型集合Y={y1,y2,..,yk,..,yK},t={t1,t2,…ti,…,tK},其中ti:
单个样本损失函数记为:
其中hW,b(x)为网络输出层的激活函数的输出值;
给定一个含有n个训练样本集{(x(1),t(1)),(x(2),t(2)),...,(x(n),t(n))},则整体损失函数为:
其中ml为网络总层数,sl为第l层上的节点总数,为第l层的节点i与第l+1层的节点j之间的连接权重,λ为平衡因子;
S1.3.2.2、根据S1.3.2.1中的整体样本损失函数,分别对网络连接权重和偏移量求导,利用反向传播算法得到偏导数值,具体过程如下:
S1.3.2.2.1、首先利用前向传播算法,分别计算隐含层以及输出层中所有节点的激活值
其中σ(·)为选取的Sigmoid激活函数,表示第l层第i个单元的加权和,即:
S1.3.2.2.2、对于输出层的每个输出单元i,其残差为:
其中ti表示输出层第i个节点的标签,为输出层第i个节点的激活值,表示输出层第i个单元的加权和,
根据反向传播算法,对于输出层前的各个隐含层(l=2,3,…,ml-2,ml-1),依次计算其残差为:
其中表示第l个隐含层的第i个节点与第l+1个隐含层中第j个节点的连接权重,为第l+1层的残差,表示第l层第i个单元的加权和,表达式为:
S1.3.2.2.3、单个样本最终的偏导数值为:
其中,δ(l+1)={δi (l+1)},i=1,2,...,sl为第l+1层的残差向量,a(l)={ai (l)},i=1,2,...,sl为第l层的激活值,T为转置符号,
对于i=1:n的所有训练样本{(x(1),t(1)),(x(2),t(2)),...,(x(n),t(n))},则有:
其中ΔW(l)是一个与矩阵W(l)={Wij (l)}维度相同的矩阵,初始化为0,Δb(l)是一个与矩阵b(l)={bi (l)}维度相同的向量,初始值也为0,ΔW(l,i)和Δb(l,i)分别表示对第i个训练样本计算出的ΔW(l)和b(l),
S1.3.2.3、更新网络的连接权重W(l)和偏移量b(l):
其中α为学习速率,设置为0.01,λ为平衡因子,设为0.08;
优选的,所述步骤S2中对读入的复杂音频信号做端点检测包括以下步骤:
S2.1、按照步骤S1.1.1-S1.1.3对复杂音频信号做预加重,分帧,加窗处理,将读入的音频文件分成T帧,如果最后一帧音频信号的采样点个数小于N,则将其舍去;计算第t帧音频信号xt(n)的能量Et:
得到音频流的能量特征矢量E={E1,E2,...,ET},其中T为总帧数;
S2.2、用固定的能量门限判断静音与非静音信号段有很大的局限性,因为各种环境下的非静音信号能量相差很大,但非静音信号与静音之间能量大小的相对关系是不变的,所以定义每帧音频的能量门限TE:
TE=min(E)+0.3×[mean(E)-min(E)],
其中,min(E)是各帧能量的最小值,mean(E)是各帧能量的平均值。
S2.3、将每帧音频的能量与能量门限比较,低于能量门限的帧为静音帧,否则为非静音帧,将所有静音帧都舍弃,将相邻的非静音帧按时间顺序拼接成一个非静音信号段。
优选的,步骤S3中瓶颈特征提取包括以下步骤:
S3.1、按照步骤S1.1.4提取端点检测后非静音信号的MFCC特征;
S3.2、将MFCC特征输入到DNN特征提取器,从DNN特征提取器的瓶颈层提取瓶颈特征。
优选的,步骤S4中音频分割包括以下步骤:
S4.1、将长信号段的特征矩阵切分成数据窗,窗长为200帧,窗移为10帧;
S4.2、计算两个相邻数据窗(x和y)之间的BIC距离,BIC距离计算公式如下:
其中,z是将数据窗x和y合并之后得到的数据窗,nx和ny分别是数据窗x和y的帧数,Fx、Fy和Fz分别是数据窗x、y和z的特征矩阵,cov(Fx)、cov(Fy)和cov(Fz)分别是特征矩阵Fx、Fy和Fz的协方差矩阵,det(·)表示求矩阵的行列式值,α是惩罚系数且实验取值为2.0;
S4.3、如果BIC距离ΔBIC大于零,则这两个数据窗被视为属于两个不同的音频类型,否则这两个数据窗被视为属于同一个音频类型并将它们合并;
S4.4、不断滑动数据窗判断两个相邻数据窗之间的BIC距离是否大于零,并保存音频类型改变点,直到长信号段的所有相邻数据窗之间的BIC距离都被判断完为止,得到若干只包含一种音频类型的音频段,且相邻音频段的类型不同。
优选的,步骤S5中音频事件聚类包括以下步骤:
S5.1、假设音频分割后的所有音频段特征矩阵集合F={F1,F2,...,FJ},J为音频段总个数,根据F构造亲和矩阵A∈RJ×J,A的第(j,k)个元素Ajk定义如下:
其中d(Fj,Fk)是特征矩阵Fj与Fk之间的欧氏距离,σj是一个尺度参数,定义为第j个特征矩阵Fj与其他J-1个特征矩阵之间的欧氏距离矢量的方差;
S5.2、对角矩阵H的第(j,j)个元素代表亲和矩阵中第j行所有元素之和,再根据对角矩阵H和A构造归一化的亲和矩阵:
S5.3、计算矩阵L的前Kmax个最大的特征值{λ1,λ2,...,λi,...,λKmax}及其特征矢量{q1,q2,...,qi,...,qKmax},其中1≤i≤Kmax,qi为列矢量,λ1≥λ2≥...≥λi≥…≥λKmax,根据相邻特征值之间的差值估计最优类别数(即音频类数)K:
根据估计出来的音频类型个数K,构造矩阵Q=[q1,q2,...,qK]∈RJ×K;
S5.4、归一化矩阵Q的每一行,得到矩阵Y∈RJ×K,Y的第(j,k)个元素Yjk:
S5.5、将矩阵中的每一行当作空间RK中的一个点,利用K均值算法(K-meansalgorithm)将矩阵Y的J行聚类成K类。将特征矩阵Fj所对应的音频段判为第k类,当且仅当矩阵Y的第j行被聚类在第k类中;
S5.6、根据上述聚类结果,得到音频类型个数,并将相同音频类型的音频段合并在一起。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明中的瓶颈特征是一种深层变换特征,比传统音频特征能更有效刻画复杂音频类型的特性差异,在复杂音频分割聚类中获得更加优异的效果。
2、本发明方法是一种无监督的音频内容分析方法,无需事先知道音频类型及训练分类器,与有监督的方法相比更具普适性。
3、本发明方法是复杂音频内容分析与检索、音频场景估计、音频摘要提取等应用的重要基础。
附图说明
图1为本发明的RBM网络结构图;
图2为本发明的DBN网络结构图;
图3为本发明的带瓶颈层的DNN生成过程示意图;
图4为本发明实施例的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
图4是基于瓶颈特征的复杂音频分割聚类方法的一个实施例的流程图,它主要包括以下过程:
1、带瓶颈层的深度神经网络构造:读入训练数据并提取MFCC特征,再通过无监督预训练和有监督精确调整两个步骤训练一个带瓶颈层的DNN特征提取器;具体步骤包括:
S1.1、读入训练数据并提取梅尔频率倒谱系数特征,具体步骤如下:
S1.1.1、预加重:设置数字滤波器的传递函数为H(z)=1-αz-1,其中α为一个系数且取值为:0.9≤α≤1,读入的音频流通过该数字滤波器后实现预加重;
S1.1.2、分帧:设置音频帧的帧长为25毫秒、帧移为10毫秒,帧长和帧移所对应的采样点个数分别为N=0.025×fs和S=0.01×fs,其中fs为音频采样频率,将读入的音频流切分成音频帧xt'(n),1≤t≤T,0≤n≤N-1,其中T和N分别表示帧数和每帧的采样点数;
S1.1.3、窗函数ω(n)为汉明窗:
将每帧音频信号xt'(n)与汉明窗ω(n)相乘得到加窗后的音频信号xt(n):
xt(n)=ω(n)×xt'(n) n=0,1,...,N-1;t=1,2,...,T,
S1.1.4、提取梅尔频率倒谱系数特征:
S1.1.4.1、对第t帧音频信号xt(n)做离散傅立叶变换得到线性频谱Xt(k):
S1.1.4.2、将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),其中梅尔频率滤波器组为若干个带通滤波器Hm(k),0≤m<M,M为滤波器的个数,每个滤波器具有三角形滤波特性,其中心频率为f(m),当m值较小时相邻f(m)的间隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
其中,0≤m<M,f(m)定义如下:
其中,fl、fh为滤波器的最低频率和最高频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
因此由线性频谱Xt(k)到对数频谱St(m)的变换为:
S1.1.4.3、将上述对数频谱St(m)经过离散余弦变换变换到倒谱域,得到第t帧音频信号的梅尔频率倒谱系数特征,即Ct(p):
S1.1.4.3、对每帧音频信号重复步骤S1.1.4.1-S1.1.4.3,得到所有音频帧的梅尔频率倒谱系数特征,将它们按帧的顺序组合成一个梅尔频率倒谱系数特征矩阵;
S1.2、预训练:采用逐层堆叠受限玻尔兹曼机的方法构造一个深度置信网,得到预训练的网络参数;RBM的网络结构如图1所示,DBN的网络结构如图2所示;
受限玻尔兹曼机采用基于能量的通用分布模型去表示任意概率分布,其能量函数定义为:
其中v,h分别代表可视层单元和隐含层单元的状态矢量,wij表示可视层第i个节点与隐含层第j个节点的连接权重,vi和ai分别表示可视层的第i个节点的状态和偏移量,hj和bj分别表示隐含层的第j个节点的状态和偏移量,vis和hid分别表示可视层和隐含层的节点集合;当所有参数都确定时,可以得到受限玻尔兹曼机能量函数关于v和h的联合概率分布:
由联合分布得到边缘概率分布:
条件概率为:
高斯-伯努利受限玻尔兹曼机的条件概率分布可以表示为:
其中表示是均值为方差为V的高斯分布,表示输入为的Sigmoid函数,Sigmoid函数σ(x)的表达式为σ(x)=1/[1+exp(-x)];
伯努利-伯努利受限玻尔兹曼机的条件概率分布表示为:
在给定训练集其中ns为训练样本数目,训练一个受限玻尔兹曼机就是通过调整参数θ={W,a,b}来表征给定的训练样本,使得在该参数下由相应受限玻尔兹曼机表示的概率分布尽可能地与训练数据相符,其中W表示权重系数,a表示可视层的偏移量,b表示隐含层的偏移量,
训练受限玻尔兹曼机的目标就是最大化似然函数:
即:
其中p(d(t))为对样本d(t)的似然估计;
深度置信网的构造过程具体包括如下步骤:
S1.2.1、选取当前帧的前后5帧作为上下文信息,共计11*13=143维作为第一个受限玻尔兹曼机的可视层输入节点数,隐含层节点数取固定值1024,将输入特征的每一维进行倒谱均值方差归一化,采用对比散度算法训练一个高斯-伯努利受限玻尔兹曼机;
具体过程如下:
S1.2.1.1、将连接权重初始化,值10-3,偏移量、似然函数对权重的偏导数、似然函数对可视层以及隐含层偏移量的偏导数均初始化为0,迭代次数设置为30;
S1.2.1.2、对每一次迭代,取初始值d(0),d(0)={di (0)},i∈vis,为训练样本集合D中的任意一个样本d,执行k步Gibbs采样得到d(k),其中在第s步(s=0,2...,k-1)过程如下:
S1.2.1.2.1、隐含层中的每一个节点的激活概率可以表示为:
S1.2.1.2.2、产生[0,1]区间的随机数rj,得到隐含层状态h(s):
S1.2.1.2.3、根据隐含层状态h(s),得到可视层每一个节点的激活概率为:
S1.2.1.2.4、产生[0,1]上的随机数ri,重构可视层输入d(s+1):
S1.2.1.3、经过k步Gibbs采样后得到的d(k)近似估计受限玻尔兹曼机参数的梯度:
其中p(hi=1|d(k))表示在可视层限定为已知的训练样本d(k)时隐含层的激活概率,由于该RBM为高斯-伯努利RBM,则
S1.2.1.4、得到似然函数对权重的偏导数、似然函数对可视层以及隐含层偏移量的偏导数ΔW,Δa和Δb,其中
S1.2.1.5、更新参数:
式中η为权重学习率,设置为0.01;
S1.2.2、保持上一个受限玻尔兹曼机的权重和偏移量不变,将上一个受限玻尔兹曼机的隐含层作为下一个受限玻尔兹曼机的可视层,并保持隐含层节点数与可视层节点数相同,迭代训练一个伯努利-伯努利受限玻尔兹曼机,其步骤与S1.2.1类似,只是在执行k步Gibbs采样得到d(k)时,其可视层每一个节点的激活概率公式变为:
此过程中,权重学习率变为0.04,迭代次数降为15次;
S1.2.3、按照S1.2.2中的步骤,重复迭代训练伯努利-伯努利受限玻尔兹曼机,直到瓶颈层的前一个隐含层;
S1.2.4、将受限玻尔兹曼机的隐含层节点数设置为梅尔频率倒谱系数特征维数的2倍,按照S1.2.2中的步骤,迭代训练伯努利-伯努利受限玻尔兹曼机;
S1.2.5、恢复隐含层节点数为1024,按照S1.2.2中的步骤,重复迭代训练伯努利-伯努利受限玻尔兹曼机,直到最后一个隐含层;
S1.2.6、将所有的受限玻尔兹曼机按照构造时的顺序依次堆叠起来,就构成一个带瓶颈层的深度置信网;
S1.3、精确调整:采用有监督训练方法对预训练后的深度置信网络参数进行精确调整,具体包括如下步骤:
S1.3.1、在深度置信网的基础上再增加一个输出层,并随机初始化深度置信网最后一层与该增加的输出层之间的网络参数,从而构成一个完整的深度神经网络;其过程示意图如图3所示;
S1.3.2、利用反向传播算法有监督地调整深度神经网络参数,最大迭代次数设为100,并且当相邻两次迭代的损失变化率小于0.01时终止训练,对于每一次迭代,具体步骤如下:
S1.3.2.1、计算样本损失函数:
对于单个有标签的训练样本(x,t),其中x为声学特征,t为样本标签,其维度与输出节点数相同,即训练的音频类别数,对于音频类型集合Y={y1,y2,..,yk,..,yK},t={t1,t2,…ti,…,tK},其中ti:
单个样本损失函数记为:
其中hW,b(x)为网络输出层的激活函数的输出值;
给定一个含有n个训练样本集{(x(1),t(1)),(x(2),t(2)),...,(x(n),t(n))},则整体损失函数为:
其中ml为网络总层数,sl为第l层上的节点总数,为第l层的节点i与第l+1层的节点j之间的连接权重,λ为平衡因子;
S1.3.2.2、根据S1.3.2.1中的整体样本损失函数,分别对网络连接权重和偏移量求导,利用反向传播算法得到偏导数值,具体过程如下:
S1.3.2.2.1、首先利用前向传播算法,分别计算隐含层以及输出层中所有节点的激活值
其中σ(·)为选取的Sigmoid激活函数,表示第l层第i个单元的加权和,即:
S1.3.2.2.2、对于输出层的每个输出单元i,其残差为:
其中ti表示输出层第i个节点的标签,为输出层第i个节点的激活值,表示输出层第i个单元的加权和,
根据反向传播算法,对于输出层前的各个隐含层(l=2,3,…,ml-2,ml-1),依次计算其残差为:
其中表示第l个隐含层的第i个节点与第l+1个隐含层中第j个节点的连接权重,为第l+1层的残差,表示第l层第i个单元的加权和,表达式为:
S1.3.2.2.3、单个样本最终的偏导数值为:
其中,为第l+1层的残差向量,a(l)={ai (l)},i=1,2,...,sl为第l层的激活值,T为转置符号,
对于i=1:n的所有训练样本{(x(1),t(1)),(x(2),t(2)),...,(x(n),t(n))},则有:
其中ΔW(l)是一个与矩阵W(l)={Wij (l)}维度相同的矩阵,初始化为0,Δb(l)是一个与矩阵b(l)={bi (l)}维度相同的向量,初始值也为0,ΔW(l,i)和Δb(l,i)分别表示对第i个训练样本计算出的ΔW(l)和b(l),
S1.3.2.3、更新网络的连接权重和偏移量:
其中α为学习速率,设置为0.01,λ为平衡因子,设为0.08。
2、端点检测:读入复杂音频流,通过基于门限判决的静音检测方法找出音频流中所有的静音段和非静音信号段,并将各个非静音信号段拼接成一个长信号段;具体步骤如下:
S2.1、按照步骤S1.1.1-S1.1.3对复杂音频信号做预加重,分帧,加窗处理,将读入的音频文件分成T帧,如果最后一帧音频信号的采样点个数小于N,则将其舍去;计算第t帧音频信号xt(n)的能量Et:
得到音频流的能量特征矢量E={E1,E2,...,ET},其中T为总帧数;
S2.2、用固定的能量门限判断静音与非静音信号段有很大的局限性,因为各种环境下的非静音信号能量相差很大,但非静音信号与静音之间能量大小的相对关系是不变的,所以定义每帧音频的能量门限TE:
TE=min(E)+0.3×[mean(E)-min(E)],
其中,min(E)是各帧能量的最小值,mean(E)是各帧能量的平均值;
S2.3、将每帧音频的能量与能量门限比较,低于能量门限的帧为静音帧,否则为非静音帧,将所有静音帧都舍弃,将相邻的非静音帧按时间顺序拼接成一个非静音信号段。
3、瓶颈特征提取:提取的上述长信号段的MFCC特征并输入到DNN特征提取器,从DNN特征提取器的瓶颈层提取瓶颈特征;具体步骤如下:
S3.1、按照步骤S1.1.4提取端点检测后非静音信号的MFCC特征;
S3.2、将MFCC特征输入到DNN特征提取器,从DNN特征提取器的瓶颈层提取瓶颈特征。
4、音频分割:通过贝叶斯信息准则检测长信号段中的音频类型改变点,根据这些改变点把长信号段分割成若干个音频段,使得每个音频段只包含一种音频类型,相邻音频段的音频类型不同;
S4.1、将长信号段的特征矩阵切分成数据窗,窗长为200帧,窗移为10帧;
S4.2、计算两个相邻数据窗(x和y)之间的BIC距离,BIC距离计算公式如下:
其中,z是将数据窗x和y合并之后得到的数据窗,nx和ny分别是数据窗x和y的帧数,Fx、Fy和Fz分别是数据窗x、y和z的特征矩阵,cov(Fx)、cov(Fy)和cov(Fz)分别是特征矩阵Fx、Fy和Fz的协方差矩阵,det(·)表示求矩阵的行列式值,α是惩罚系数且实验取值为2.0;
S4.3、如果BIC距离ΔBIC大于零,则这两个数据窗被视为属于两个不同的音频类型,否则这两个数据窗被视为属于同一个音频类型并将它们合并;
S4.4、不断滑动数据窗判断两个相邻数据窗之间的BIC距离是否大于零,并保存音频类型改变点,直到长信号段的所有相邻数据窗之间的BIC距离都被判断完为止,得到若干只包含一种音频类型的音频段,且相邻音频段的类型不同。
5、音频聚类:采用谱聚类算法对各音频段进行聚类,得到音频类型个数,并将相同音频类型的音频段合并在一起。
S5.1、假设音频分割后的所有音频段特征矩阵集合F={F1,F2,...,FJ},J为音频段总个数,根据F构造亲和矩阵A∈RJ×J,A的第(j,k)个元素Ajk定义如下:
其中d(Fj,Fk)是特征矩阵Fj与Fk之间的欧氏距离,σj是一个尺度参数,定义为第j个特征矩阵Fj与其他J-1个特征矩阵之间的欧氏距离矢量的方差;
S5.2、对角矩阵H的第(j,j)个元素代表亲和矩阵中第j行所有元素之和,再根据对角矩阵H和A构造归一化的亲和矩阵:
S5.3、计算矩阵L的前Kmax个最大的特征值及其特征矢量其中1≤i≤Kmax,qi为列矢量,根据相邻特征值之间的差值估计最优类别数(即音频类数)K:
根据估计出来的音频类型个数K,构造矩阵Q=[q1,q2,...,qK]∈RJ×K;
S5.4、归一化矩阵Q的每一行,得到矩阵Y∈RJ×K,Y的第(j,k)个元素Yjk:
S5.5、将矩阵中的每一行当作空间RK中的一个点,利用K均值算法(K-meansalgorithm)将矩阵Y的J行聚类成K类。将特征矩阵Fj所对应的音频段判为第k类,当且仅当矩阵Y的第j行被聚类在第k类中;
S5.6、根据上述聚类结果,得到音频类型个数,并将相同音频类型的音频段合并在一起。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.一种基于瓶颈特征的复杂音频分割聚类方法,其特征在于,包括如下步骤:
S1、带瓶颈层的深度神经网络构造:读入训练数据并提取梅尔频率倒谱系数特征,再通过无监督预训练和有监督精确调整两个步骤构造一个带瓶颈层的深度神经网络特征提取器;
S2、端点检测:读入复杂音频流,通过基于门限判决的静音检测方法找出音频流中所有的静音段和非静音信号段,并将各个非静音信号段拼接成一个长信号段;
S3、瓶颈特征提取:提取S1步骤中的梅尔频率倒谱系数特征并输入深度神经网络特征提取器,从深度神经网络特征提取器的瓶颈层提取瓶颈特征;
S4、音频分割:采用基于贝叶斯信息准则的方法检测长信号段中的音频类型改变点,根据这些改变点把长信号段分割成若干个音频段,使得每个音频段只包含一种音频类型且相邻音频段的音频类型不同;
S5、音频聚类:采用谱聚类算法对各音频段进行聚类,得到音频类型个数,并将相同音频类型的音频段合并在一起。
2.根据权利要求1所述的一种基于瓶颈特征的复杂音频分割聚类方法,其特征在于,步骤S1中带瓶颈层的深度神经网络构造具体包括以下步骤:
S1.1、读入训练数据并提取梅尔频率倒谱系数特征,具体步骤如下:
S1.1.1、预加重:设置数字滤波器的传递函数为H(z)=1-αz-1,其中α为一个系数且取值为:0.9≤α≤1,读入的音频流通过该数字滤波器后实现预加重;
S1.1.2、分帧:设置音频帧的帧长为25毫秒、帧移为10毫秒,帧长和帧移所对应的采样点个数分别为N=0.025×fs和S=0.01×fs,其中fs为音频采样频率,将读入的音频流切分成音频帧x′t(n),1≤t≤T,0≤n≤N-1,其中T和N分别表示帧数和每帧的采样点数;
S1.1.3、窗函数ω(n)为汉明窗:
将每帧音频信号x′t(n)与汉明窗ω(n)相乘得到加窗后的音频信号xt(n):
xt(n)=ω(n)×x′t(n) n=0,1,...,N-1;t=1,2,...,T,
S1.1.4、提取梅尔频率倒谱系数特征:
S1.1.4.1、对第t帧音频信号xt(n)做离散傅立叶变换得到线性频谱Xt(k):
S1.1.4.2、将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),其中梅尔频率滤波器组为若干个带通滤波器Hm(k),0≤m<M,M为滤波器的个数,每个滤波器具有三角形滤波特性,其中心频率为f(m),当m值较小时相邻f(m)的间隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
其中,0≤m<M,f(m)定义如下:
其中,fl、fh为滤波器的最低频率和最高频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
因此由线性频谱Xt(k)到对数频谱St(m)的变换为:
S1.1.4.3、将上述对数频谱St(m)经过离散余弦变换变换到倒谱域,得到第t帧音频信号的梅尔频率倒谱系数特征,即Ct(p):
S1.1.4.4、对每帧音频信号重复步骤S1.1.4.1-S1.1.4.3,得到所有音频帧的梅尔频率倒谱系数特征,将它们按帧的顺序组合成一个梅尔频率倒谱系数特征矩阵;
S1.2、预训练:采用逐层堆叠受限玻尔兹曼机的方法构造一个深度置信网,得到预训练的网络参数;
受限玻尔兹曼机采用基于能量的通用分布模型去表示任意概率分布,其能量函数定义为:
其中v,h分别代表可视层单元和隐含层单元的状态矢量,wij表示可视层第i个节点与隐含层第j个节点的连接权重,vi和ai分别表示可视层的第i个节点的状态和偏移量,hj和bj分别表示隐含层的第j个节点的状态和偏移量,vis和hid分别表示可视层和隐含层的节点集合;当所有参数都确定时,可以得到受限玻尔兹曼机能量函数关于v和h的联合概率分布:
由联合分布得到边缘概率分布:
条件概率为:
高斯-伯努利受限玻尔兹曼机的条件概率分布可以表示为:
其中表示是均值为方差为V的高斯分布,表示输入为的Sigmoid函数,Sigmoid函数σ(x)的表达式为σ(x)=1/[1+exp(-x)];
伯努利-伯努利受限玻尔兹曼机的条件概率分布表示为:
在给定训练集其中ns为训练样本数目,训练一个受限玻尔兹曼机就是通过调整参数θ={W,a,b}来表征给定的训练样本,使得在该参数下由相应受限玻尔兹曼机表示的概率分布尽可能地与训练数据相符,其中W表示权重系数,a表示可视层的偏移量,b表示隐含层的偏移量;
训练受限玻尔兹曼机的目标就是最大化似然函数:
即:
其中p(d(t))为对样本d(t)的似然估计;
深度置信网的构造过程具体包括如下步骤:
S1.2.1、选取当前帧的前后5帧作为上下文信息,共计11*13=143维作为第一个受限玻尔兹曼机的可视层输入节点数,隐含层节点数取固定值1024,将输入特征的每一维进行倒谱均值方差归一化,采用对比散度算法训练一个高斯-伯努利受限玻尔兹曼机,具体过程如下:
S1.2.1.1、将连接权重初始化,值为10-3,偏移量、似然函数对权重的偏导数、似然函数对可视层以及隐含层偏移量的偏导数均初始化为0,迭代次数设置为30;
S1.2.1.2、对每一次迭代,取初始值d(0),d(0)={di (0)},i∈vis,为训练样本集合D中的任意一个样本d,执行k步Gibbs采样得到d(k),其中在第s步(s=0,2...,k-1)过程如下:
S1.2.1.2.1、隐含层中的每一个节点的激活概率可以表示为:
S1.2.1.2.2、产生[0,1]区间的随机数rj,得到隐含层状态h(s):
S1.2.1.2.3、根据隐含层状态h(s),得到可视层每一个节点的激活概率为:
S1.2.1.2.4、产生[0,1]上的随机数ri,重构可视层输入d(s+1):
S1.2.1.3、经过k步Gibbs采样后得到的d(k)近似估计受限玻尔兹曼机参数的梯度:
其中p(hi=1|d(k))表示在可视层限定为已知的训练样本d(k)时隐含层的激活概率,由于该RBM为高斯-伯努利RBM,则
S1.2.1.4、得到似然函数对权重的偏导数、似然函数对可视层以及隐含层偏移量的偏导数ΔW,Δa和Δb,其中
S1.2.1.5、更新参数:
式中η为权重学习率,设置为0.01;
S1.2.2、保持上一个受限玻尔兹曼机的权重和偏移量不变,将上一个受限玻尔兹曼机的隐含层作为下一个受限玻尔兹曼机的可视层,并保持隐含层节点数与可视层节点数相同,迭代训练一个伯努利-伯努利受限玻尔兹曼机,其步骤与S1.2.1类似,只是在执行k步Gibbs采样得到d(k)时,其可视层每一个节点的激活概率公式变为:
此过程中,权重学习率变为0.04,迭代次数降为15次;
S1.2.3、按照S1.2.2中的步骤,重复迭代训练伯努利-伯努利受限玻尔兹曼机,直到瓶颈层的前一个隐含层;
S1.2.4、将受限玻尔兹曼机的隐含层节点数设置为梅尔频率倒谱系数特征维数的2倍,按照S1.2.2中的步骤,迭代训练伯努利-伯努利受限玻尔兹曼机;
S1.2.5、恢复隐含层节点数为1024,按照S1.2.2中的步骤,重复迭代训练伯努利-伯努利受限玻尔兹曼机,直到最后一个隐含层;
S1.2.6、将所有的受限玻尔兹曼机按照构造时的顺序依次堆叠起来,就构成一个带瓶颈层的深度置信网;
S1.3、精确调整:采用有监督训练方法对预训练后的深度置信网络参数进行精确调整,具体包括如下步骤:
S1.3.1、在深度置信网的基础上再增加一个输出层,并随机初始化深度置信网最后一层与该增加的输出层之间的网络参数,从而构成一个完整的深度神经网络;
S1.3.2、利用反向传播算法有监督地调整深度神经网络参数,最大迭代次数设为100,并且当相邻两次迭代的损失变化率小于0.01时终止训练,对于每一次迭代,具体步骤如下:
S1.3.2.1、计算样本损失函数:
对于单个有标签的训练样本(x,t),其中x为声学特征,t为样本标签,其维度与输出节点数相同,即训练的音频类别数,对于音频类型集合Y={y1,y2,..,yk,..,yK},t={t1,t2,…ti,…,tK},其中ti:
单个样本损失函数记为:
其中hW,b(x)为网络输出层的激活函数的输出值,
给定一个含有n个训练样本集{(x(1),t(1)),(x(2),t(2)),...,(x(n),t(n))},则整体损失函数为:
其中ml为网络总层数,sl为第l层上的节点总数,为第l层的节点i与第l+1层的节点j之间的连接权重,λ为平衡因子;
S1.3.2.2、根据S1.3.2.1中的整体样本损失函数,分别对网络连接权重和偏移量求导,利用反向传播算法得到偏导数值,具体过程如下:
S1.3.2.2.1、首先利用前向传播算法,分别计算隐含层以及输出层中所有节点的激活值
其中σ(·)为选取的Sigmoid激活函数,表示第l层第i个单元的加权和,即:
S1.3.2.2.2、对于输出层的每个输出单元i,其残差为:
其中ti表示输出层第i个节点的标签,为输出层第i个节点的激活值,表示输出层第i个单元的加权和;
根据反向传播算法,对于输出层前的各个隐含层(l=2,3,…,ml-2,ml-1),依次计算其残差为:
其中表示第l个隐含层的第i个节点与第l+1个隐含层中第j个节点的连接权重,为第l+1层的残差,表示第l层第i个单元的加权和,表达式为:
S1.3.2.2.3、单个样本最终的偏导数值为:
其中,δ(l+1)={δi (l+1)},i=1,2,...,sl为第l+1层的残差向量,a(l)={ai (l)},i=1,2,...,sl为第l层的激活值,T为转置符号,
对于i=1:n的所有训练样本{(x(1),t(1)),(x(2),t(2)),...,(x(n),t(n))},迭代有:
其中ΔW(l)是一个与矩阵W(l)={Wij (l)}维度相同的矩阵,初始化为0,Δb(l)是一个与矩阵b(l)={bi (l)}维度相同的向量,初始值也为0,ΔW(l,i)和Δb(l,i)分别表示对第i个训练样本计算出的ΔW(l)和b(l),
S1.3.2.3、更新网络的连接权重W(l)和偏移量b(l):
其中α为学习速率,设置为0.01,λ为平衡因子,设为0.08。
3.根据权利要求1所述的一种基于瓶颈特征的复杂音频分割聚类方法,其特征在于,步骤S2中对读入的复杂音频信号做端点检测包括以下步骤:
S2.1、按照步骤S1.1.1-S1.1.3对复杂音频信号做预加重,分帧,加窗处理,将读入的音频文件分成T帧,如果最后一帧音频信号的采样点个数小于N,则将其舍去;计算第t帧音频信号xt(n)的能量Et:
得到音频流的能量特征矢量E={E1,E2,...,ET},其中T为总帧数;
S2.2、用固定的能量门限判断静音与非静音信号段有很大的局限性,因为各种环境下的非静音信号能量相差很大,但非静音信号与静音之间能量大小的相对关系是不变的,所以定义每帧音频的能量门限TE:
TE=min(E)+0.3×[mean(E)-min(E)],
其中,min(E)是各帧能量的最小值,mean(E)是各帧能量的平均值;
S2.3、将每帧音频的能量与能量门限比较,低于能量门限的帧为静音帧,否则为非静音帧,将所有静音帧都舍弃,将相邻的非静音帧按时间顺序拼接成一个非静音信号段。
4.根据权利要求1所述的一种基于瓶颈特征的复杂音频分割聚类方法,其特征在于,步骤S3中瓶颈特征提取包括以下步骤:
S3.1、按照步骤S1.1.4提取端点检测后非静音信号的梅尔频率倒谱系数特征;
S3.2、将梅尔频率倒谱系数特征输入到深度神经网络特征提取器,从深度神经网络特征提取器的瓶颈层提取瓶颈特征。
5.根据权利要求1所述的一种基于瓶颈特征的复杂音频分割聚类方法,其特征在于,步骤S4中音频分割包括以下步骤:
S4.1、将长信号段的特征矩阵切分成数据窗,窗长为200帧,窗移为10帧;
S4.2、计算两个相邻数据窗x和y之间的贝叶斯信息准则距离,贝叶斯信息准则距离计算公式如下:
其中,z是将数据窗x和y合并之后得到的数据窗,nx和ny分别是数据窗x和y的帧数,Fx、Fy和Fz分别是数据窗x、y和z的特征矩阵,cov(Fx)、cov(Fy)和cov(Fz)分别是特征矩阵Fx、Fy和Fz的协方差矩阵,det(·)表示求矩阵的行列式值,α是惩罚系数;
S4.3、如果贝叶斯信息准则距离ΔBIC大于零,则这两个数据窗被视为属于两个不同的音频类型,否则这两个数据窗被视为属于同一个音频类型并将它们合并;
S4.4、不断滑动数据窗判断两个相邻数据窗之间的贝叶斯信息准则距离是否大于零,并保存音频类型改变点,直到长信号段的所有相邻数据窗之间的贝叶斯信息准则距离都被判断完为止,得到若干只包含一种音频类型的音频段,且相邻音频段的类型不同。
6.根据权利要求1所述的一种基于瓶颈特征的复杂音频分割聚类方法,其特征在于,步骤S5中音频事件聚类包括以下步骤:
S5.1、假设音频分割后的所有音频段特征矩阵集合F={F1,F2,...,FJ},J为音频段总个数,根据F构造亲和矩阵A∈RJ×J,A的第(j,k)个元素Ajk定义如下:
其中d(Fj,Fk)是特征矩阵Fj与Fk之间的欧氏距离,σj是一个尺度参数,定义为第j个特征矩阵Fj与其他J-1个特征矩阵之间的欧氏距离矢量的方差;
S5.2、对角矩阵H的第(j,j)个元素代表亲和矩阵中第j行所有元素之和,再根据对角矩阵H和A构造归一化的亲和矩阵:
S5.3、计算矩阵L的前Kmax个最大的特征值及其特征矢量其中1≤i≤Kmax,qi为列矢量,根据相邻特征值之间的差值估计最优类别数,即音频类数K:
根据估计出来的音频类型个数K,构造矩阵Q=[q1,q2,...,qK]∈RJ×K;
S5.4、归一化矩阵Q的每一行,得到矩阵Y∈RJ×K,Y的第(j,k)个元素Yjk:
S5.5、将矩阵中的每一行当作空间RK中的一个点,利用K均值算法(K-means algorithm)将矩阵Y的J行聚类成K类。将特征矩阵Fj所对应的音频段判为第k类,当且仅当矩阵Y的第j行被聚类在第k类中;
S5.6、根据上述聚类结果,得到音频类型个数,并将相同音频类型的音频段合并在一起。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710101550.6A CN106952644A (zh) | 2017-02-24 | 2017-02-24 | 一种基于瓶颈特征的复杂音频分割聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710101550.6A CN106952644A (zh) | 2017-02-24 | 2017-02-24 | 一种基于瓶颈特征的复杂音频分割聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106952644A true CN106952644A (zh) | 2017-07-14 |
Family
ID=59466425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710101550.6A Pending CN106952644A (zh) | 2017-02-24 | 2017-02-24 | 一种基于瓶颈特征的复杂音频分割聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106952644A (zh) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107527630A (zh) * | 2017-09-22 | 2017-12-29 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法、装置和计算机设备 |
CN107748898A (zh) * | 2017-11-03 | 2018-03-02 | 北京奇虎科技有限公司 | 文件分类方法、装置、计算设备及计算机存储介质 |
CN108132995A (zh) * | 2017-12-20 | 2018-06-08 | 北京百度网讯科技有限公司 | 用于处理音频信息的方法和装置 |
CN108182949A (zh) * | 2017-12-11 | 2018-06-19 | 华南理工大学 | 一种基于深度变换特征的高速公路异常音频事件分类方法 |
CN108257592A (zh) * | 2018-01-11 | 2018-07-06 | 广州势必可赢网络科技有限公司 | 一种基于长短期记忆模型的人声分割方法及系统 |
CN108417206A (zh) * | 2018-02-27 | 2018-08-17 | 四川云淞源科技有限公司 | 基于大数据的信息高速处理方法 |
CN108538285A (zh) * | 2018-03-05 | 2018-09-14 | 清华大学 | 一种基于多任务神经网络的多样例关键词检测方法 |
CN108538312A (zh) * | 2018-04-28 | 2018-09-14 | 华中师范大学 | 基于贝叶斯信息准则的数字音频篡改点自动定位的方法 |
CN108682417A (zh) * | 2018-05-14 | 2018-10-19 | 中国科学院自动化研究所 | 语音识别中的小数据语音声学建模方法 |
CN108694951A (zh) * | 2018-05-22 | 2018-10-23 | 华南理工大学 | 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法 |
CN108766461A (zh) * | 2018-07-17 | 2018-11-06 | 厦门美图之家科技有限公司 | 音频特征提取方法及装置 |
CN108898077A (zh) * | 2018-06-15 | 2018-11-27 | 杭州天铂红外光电技术有限公司 | 电力设备红外热图的识别方法和电力设备红外识别系统 |
CN108922559A (zh) * | 2018-07-06 | 2018-11-30 | 华南理工大学 | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 |
CN109034246A (zh) * | 2018-07-27 | 2018-12-18 | 中国矿业大学(北京) | 一种路基含水状态的确定方法及确定系统 |
CN109192199A (zh) * | 2018-06-30 | 2019-01-11 | 中国人民解放军战略支援部队信息工程大学 | 一种结合瓶颈特征声学模型的数据处理方法 |
CN109300470A (zh) * | 2018-09-17 | 2019-02-01 | 平安科技(深圳)有限公司 | 混音分离方法和混音分离装置 |
CN109308471A (zh) * | 2018-09-29 | 2019-02-05 | 河海大学常州校区 | 一种肌电信号特征提取方法 |
CN109357749A (zh) * | 2018-09-04 | 2019-02-19 | 南京理工大学 | 一种基于dnn算法的电力设备音频信号分析方法 |
CN109410917A (zh) * | 2018-09-26 | 2019-03-01 | 河海大学常州校区 | 基于改进型胶囊网络的语音数据分类方法 |
CN109712641A (zh) * | 2018-12-24 | 2019-05-03 | 重庆第二师范学院 | 一种基于支持向量机的音频分类和分段的处理方法 |
CN109859771A (zh) * | 2019-01-15 | 2019-06-07 | 华南理工大学 | 一种联合优化深层变换特征与聚类过程的声场景聚类方法 |
WO2019154107A1 (zh) * | 2018-02-12 | 2019-08-15 | 阿里巴巴集团控股有限公司 | 基于记忆性瓶颈特征的声纹识别的方法及装置 |
CN110176250A (zh) * | 2019-05-30 | 2019-08-27 | 哈尔滨工业大学 | 一种基于局部学习的鲁棒声学场景识别方法 |
CN110189768A (zh) * | 2019-05-13 | 2019-08-30 | 西安交通大学 | 一种基于条件随机场的中国民歌地域分类方法 |
CN110390946A (zh) * | 2019-07-26 | 2019-10-29 | 龙马智芯(珠海横琴)科技有限公司 | 一种语音信号处理方法、装置、电子设备和存储介质 |
CN110517667A (zh) * | 2019-09-03 | 2019-11-29 | 龙马智芯(珠海横琴)科技有限公司 | 一种语音处理方法、装置、电子设备和存储介质 |
CN110704637A (zh) * | 2019-09-29 | 2020-01-17 | 出门问问信息科技有限公司 | 一种多模态知识库的构建方法、装置及计算机可读介质 |
CN110751942A (zh) * | 2018-07-20 | 2020-02-04 | 北京京东金融科技控股有限公司 | 一种识别特征声音的方法和装置 |
CN110913242A (zh) * | 2018-09-18 | 2020-03-24 | 阿基米德(上海)传媒有限公司 | 一种广播音频标签自动化生成方法 |
CN110942766A (zh) * | 2019-11-29 | 2020-03-31 | 厦门快商通科技股份有限公司 | 音频事件检测方法、系统、移动终端及存储介质 |
CN111354373A (zh) * | 2018-12-21 | 2020-06-30 | 中国科学院声学研究所 | 一种基于神经网络中间层特征滤波的音频信号分类方法 |
CN111681674A (zh) * | 2020-06-01 | 2020-09-18 | 中国人民大学 | 一种基于朴素贝叶斯模型的乐器种类识别方法和系统 |
CN113377994A (zh) * | 2021-07-08 | 2021-09-10 | 哈尔滨理工大学 | 一种基于旋律特征聚类与优化的哼唱检索方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968986A (zh) * | 2012-11-07 | 2013-03-13 | 华南理工大学 | 基于长时特征和短时特征的重叠语音与单人语音区分方法 |
-
2017
- 2017-02-24 CN CN201710101550.6A patent/CN106952644A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968986A (zh) * | 2012-11-07 | 2013-03-13 | 华南理工大学 | 基于长时特征和短时特征的重叠语音与单人语音区分方法 |
Non-Patent Citations (2)
Title |
---|
冷严: "复杂音频的事件检测与分类中的关键问题研究", 《博士研究生学位论文》 * |
金海: "基于深度神经网络的音频事件检测", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107527630A (zh) * | 2017-09-22 | 2017-12-29 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法、装置和计算机设备 |
CN107527630B (zh) * | 2017-09-22 | 2020-12-11 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法、装置和计算机设备 |
CN107748898A (zh) * | 2017-11-03 | 2018-03-02 | 北京奇虎科技有限公司 | 文件分类方法、装置、计算设备及计算机存储介质 |
CN108182949A (zh) * | 2017-12-11 | 2018-06-19 | 华南理工大学 | 一种基于深度变换特征的高速公路异常音频事件分类方法 |
CN108132995A (zh) * | 2017-12-20 | 2018-06-08 | 北京百度网讯科技有限公司 | 用于处理音频信息的方法和装置 |
CN108257592A (zh) * | 2018-01-11 | 2018-07-06 | 广州势必可赢网络科技有限公司 | 一种基于长短期记忆模型的人声分割方法及系统 |
WO2019154107A1 (zh) * | 2018-02-12 | 2019-08-15 | 阿里巴巴集团控股有限公司 | 基于记忆性瓶颈特征的声纹识别的方法及装置 |
CN108417206A (zh) * | 2018-02-27 | 2018-08-17 | 四川云淞源科技有限公司 | 基于大数据的信息高速处理方法 |
CN108538285A (zh) * | 2018-03-05 | 2018-09-14 | 清华大学 | 一种基于多任务神经网络的多样例关键词检测方法 |
CN108538285B (zh) * | 2018-03-05 | 2021-05-04 | 清华大学 | 一种基于多任务神经网络的多样例关键词检测方法 |
CN108538312A (zh) * | 2018-04-28 | 2018-09-14 | 华中师范大学 | 基于贝叶斯信息准则的数字音频篡改点自动定位的方法 |
CN108682417A (zh) * | 2018-05-14 | 2018-10-19 | 中国科学院自动化研究所 | 语音识别中的小数据语音声学建模方法 |
CN108694951A (zh) * | 2018-05-22 | 2018-10-23 | 华南理工大学 | 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法 |
CN108694951B (zh) * | 2018-05-22 | 2020-05-22 | 华南理工大学 | 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法 |
CN108898077A (zh) * | 2018-06-15 | 2018-11-27 | 杭州天铂红外光电技术有限公司 | 电力设备红外热图的识别方法和电力设备红外识别系统 |
CN108898077B (zh) * | 2018-06-15 | 2021-09-10 | 杭州天铂红外光电技术有限公司 | 电力设备红外热图的识别方法和电力设备红外识别系统 |
CN109192199A (zh) * | 2018-06-30 | 2019-01-11 | 中国人民解放军战略支援部队信息工程大学 | 一种结合瓶颈特征声学模型的数据处理方法 |
CN108922559A (zh) * | 2018-07-06 | 2018-11-30 | 华南理工大学 | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 |
CN108766461A (zh) * | 2018-07-17 | 2018-11-06 | 厦门美图之家科技有限公司 | 音频特征提取方法及装置 |
CN110751942B (zh) * | 2018-07-20 | 2024-10-18 | 京东科技控股股份有限公司 | 一种识别特征声音的方法和装置 |
CN110751942A (zh) * | 2018-07-20 | 2020-02-04 | 北京京东金融科技控股有限公司 | 一种识别特征声音的方法和装置 |
CN109034246A (zh) * | 2018-07-27 | 2018-12-18 | 中国矿业大学(北京) | 一种路基含水状态的确定方法及确定系统 |
CN109357749A (zh) * | 2018-09-04 | 2019-02-19 | 南京理工大学 | 一种基于dnn算法的电力设备音频信号分析方法 |
CN109300470A (zh) * | 2018-09-17 | 2019-02-01 | 平安科技(深圳)有限公司 | 混音分离方法和混音分离装置 |
CN110913242B (zh) * | 2018-09-18 | 2021-12-10 | 阿基米德(上海)传媒有限公司 | 一种广播音频标签自动化生成方法 |
CN110913242A (zh) * | 2018-09-18 | 2020-03-24 | 阿基米德(上海)传媒有限公司 | 一种广播音频标签自动化生成方法 |
CN109410917B (zh) * | 2018-09-26 | 2021-11-16 | 河海大学常州校区 | 基于改进型胶囊网络的语音数据分类方法 |
CN109410917A (zh) * | 2018-09-26 | 2019-03-01 | 河海大学常州校区 | 基于改进型胶囊网络的语音数据分类方法 |
CN109308471A (zh) * | 2018-09-29 | 2019-02-05 | 河海大学常州校区 | 一种肌电信号特征提取方法 |
CN111354373A (zh) * | 2018-12-21 | 2020-06-30 | 中国科学院声学研究所 | 一种基于神经网络中间层特征滤波的音频信号分类方法 |
CN109712641A (zh) * | 2018-12-24 | 2019-05-03 | 重庆第二师范学院 | 一种基于支持向量机的音频分类和分段的处理方法 |
CN109859771B (zh) * | 2019-01-15 | 2021-03-30 | 华南理工大学 | 一种联合优化深层变换特征与聚类过程的声场景聚类方法 |
CN109859771A (zh) * | 2019-01-15 | 2019-06-07 | 华南理工大学 | 一种联合优化深层变换特征与聚类过程的声场景聚类方法 |
CN110189768A (zh) * | 2019-05-13 | 2019-08-30 | 西安交通大学 | 一种基于条件随机场的中国民歌地域分类方法 |
CN110189768B (zh) * | 2019-05-13 | 2021-02-02 | 西安交通大学 | 一种基于条件随机场的中国民歌地域分类方法 |
CN110176250A (zh) * | 2019-05-30 | 2019-08-27 | 哈尔滨工业大学 | 一种基于局部学习的鲁棒声学场景识别方法 |
CN110176250B (zh) * | 2019-05-30 | 2021-05-07 | 哈尔滨工业大学 | 一种基于局部学习的鲁棒声学场景识别方法 |
CN110390946A (zh) * | 2019-07-26 | 2019-10-29 | 龙马智芯(珠海横琴)科技有限公司 | 一种语音信号处理方法、装置、电子设备和存储介质 |
CN110517667A (zh) * | 2019-09-03 | 2019-11-29 | 龙马智芯(珠海横琴)科技有限公司 | 一种语音处理方法、装置、电子设备和存储介质 |
CN110704637A (zh) * | 2019-09-29 | 2020-01-17 | 出门问问信息科技有限公司 | 一种多模态知识库的构建方法、装置及计算机可读介质 |
CN110942766A (zh) * | 2019-11-29 | 2020-03-31 | 厦门快商通科技股份有限公司 | 音频事件检测方法、系统、移动终端及存储介质 |
CN111681674A (zh) * | 2020-06-01 | 2020-09-18 | 中国人民大学 | 一种基于朴素贝叶斯模型的乐器种类识别方法和系统 |
CN111681674B (zh) * | 2020-06-01 | 2024-03-08 | 中国人民大学 | 一种基于朴素贝叶斯模型的乐器种类识别方法和系统 |
CN113377994A (zh) * | 2021-07-08 | 2021-09-10 | 哈尔滨理工大学 | 一种基于旋律特征聚类与优化的哼唱检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106952644A (zh) | 一种基于瓶颈特征的复杂音频分割聚类方法 | |
Ding et al. | Autospeech: Neural architecture search for speaker recognition | |
CN112204657A (zh) | 利用提前停止聚类的讲话者分离 | |
CN110120218B (zh) | 基于gmm-hmm的高速公路大型车辆识别方法 | |
CN111161744B (zh) | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 | |
CN105206270B (zh) | 一种组合pca和rbm的孤立数字语音识别分类系统及方法 | |
CN108694951B (zh) | 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法 | |
CN109559736B (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
CN107146601A (zh) | 一种用于说话人识别系统的后端i‑vector增强方法 | |
CN110853654B (zh) | 一种模型生成方法、声纹识别方法及对应装置 | |
KR102406512B1 (ko) | 음성인식 방법 및 그 장치 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN111754988A (zh) | 基于注意力机制和双路径深度残差网络的声场景分类方法 | |
CN110853630B (zh) | 面向边缘计算的轻量级语音识别方法 | |
CN109859771B (zh) | 一种联合优化深层变换特征与聚类过程的声场景聚类方法 | |
CN109300470B (zh) | 混音分离方法和混音分离装置 | |
Sun et al. | Progressive multi-target network based speech enhancement with snr-preselection for robust speaker diarization | |
CN111653267A (zh) | 一种基于时延神经网络的快速语种识别方法 | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
CN112766368A (zh) | 一种数据分类方法、设备和可读存储介质 | |
CN111666996A (zh) | 一种基于attention机制的高精度设备源识别方法 | |
Shah et al. | Unsupervised Vocal Tract Length Warped Posterior Features for Non-Parallel Voice Conversion. | |
CN111354373A (zh) | 一种基于神经网络中间层特征滤波的音频信号分类方法 | |
CN117789699A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
CN102237082B (zh) | 语音识别系统的自适应方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170714 |