CN104731890A - 一种结合plsa和at的音频事件分类方法 - Google Patents

一种结合plsa和at的音频事件分类方法 Download PDF

Info

Publication number
CN104731890A
CN104731890A CN201510114394.8A CN201510114394A CN104731890A CN 104731890 A CN104731890 A CN 104731890A CN 201510114394 A CN201510114394 A CN 201510114394A CN 104731890 A CN104731890 A CN 104731890A
Authority
CN
China
Prior art keywords
mrow
audio
msub
test
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510114394.8A
Other languages
English (en)
Other versions
CN104731890B (zh
Inventor
冷严
李登旺
程传福
万洪林
王晶晶
方敬
徐新艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201510114394.8A priority Critical patent/CN104731890B/zh
Publication of CN104731890A publication Critical patent/CN104731890A/zh
Application granted granted Critical
Publication of CN104731890B publication Critical patent/CN104731890B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开了一种结合PLSA和AT的音频事件分类方法,该方法在训练阶段用训练样本训练PLSA模型和AT模型;在分类阶段,对于待分类的音频文档,首先用PLSA模型求得文档中潜在的音频事件,然后用AT模型从潜在音频事件中找出若干音频事件作为分类结果。本发明提出的结合PLSA和AT的音频事件分类方法既能很好地分类纯净音频事件,又能很好地分类混叠音频事件,而且在分类混叠音频事件时能识别出其中的多个音频事件,而不仅仅是识别出其中的一个音频事件。

Description

一种结合PLSA和AT的音频事件分类方法
技术领域
本发明涉及一种结合PLSA和AT的音频事件分类方法。
背景技术
音频信息是多媒体信息的一种重要表现形式。音频领域中的音频事件分类技术在实际生活中具有广泛的应用,不但可以用于进行多媒体检索、安全监控,而且可以用于智能机器人和智能家居工程。
音频文档主要包含两类音频事件,即纯净音频事件和混叠音频事件。纯净音频事件是指某一时刻只有一个音频事件发生,发生的音频事件在此刻与其它音频事件没有时间上的交叠;混叠音频事件是指某一时刻有多个音频事件同时发生,发生的音频事件在此刻产生时间上的交叠。
目前的音频分类技术能很好地分类纯净音频事件,但在对混叠音频事件分类时则分类性能大为降低。这主要是因为混叠音频事件受混叠的影响,其特征较混叠之前的纯净音频事件的特征发生了明显的改变,加大了分类的难度。此外,目前多数的混叠音频事件分类技术是将混叠音频事件分类为其所包含的某一音频事件,而未能识别出其中的多个音频事件,这也影响了分类性能的提高。
发明内容
本发明的目的就是为了解决上述问题,提供一种结合PLSA和AT的音频事件分类方法,本发明结合两种主题模型,即PLSA(Probabilistic Latent Semantic Analysis)模型和AT(Author-Topic model)模型,进行分类。PLSA模型和AT模型的提出最初都是用于文本分析。PLSA已有研究将其引入音频领域进行语义标注和视频分类等,而对于AT模型,现在还未见将其应用于音频领域的相关研究。本发明创新性地将AT模型引入到音频分类领域,并创新性地将其和PLSA模型结合起来进行分类。本发明提出的结合PLSA和AT的音频事件分类方法既能很好地分类纯净音频事件,又能很好地分类混叠音频事件,而且在分类混叠音频事件时能识别出其中的多个音频事件,而不仅仅是识别出其中的一个音频事件。
为了实现上述目的,本发明采用如下技术方案:
一种结合PLSA和AT的音频事件分类方法,包括如下步骤:
步骤(1):通过训练音频文档训练得到AT模型;
步骤(2):通过训练音频文档训练得到PLSA模型;
步骤(3):通过步骤(2)得到的PLSA模型,求得待分类的音频文档包含的潜在的M个音频事件;
步骤(4):通过步骤(1)得到的AT模型,从步骤(3)潜在的M个音频事件中选择N个音频事件作为分类结果,其中,1≤N<M。
所述步骤(1)的具体步骤为:
步骤(1-1):输入训练音频文档:
训练音频文档中既包含纯净音频事件的音频文档,又包含混叠音频事件的音频文档;
步骤(1-2):分帧及特征提取:
对训练音频文档进行分帧处理,每一帧作为一个样本;然后,以帧为单位提取音频特征;
步骤(1-3):通过聚类得到各个音频样本的字表达;
步骤(1-4):通过吉布斯采样训练得到AT模型的“作者—主题”分布Θ和“主题—字”分布Φ。
所述步骤(1-3)的步骤为:
采用Kmeans聚类算法对步骤(1-2)中分帧得到的样本进行聚类;
假设训练集中共有L个样本,记为{f1,f2,…,fL};聚类共得到W个簇,W个簇的簇中心样本记为{C1,C2,…,Cj,…,CW},将{C1,C2,…,Cj,…,CW}作为音频字典,则音频字典中的每个样本Cjj∈{1,2,…,W}表示音频字典中的一个音频字;
根据音频字典,每个样本都能够得到如下的音频字表达:
IDX ( f i ) = arg min j , j ∈ { 1,2 , . . . , W } Dis ( f i , C j ) - - - ( 1 )
其中,
fi表示训练集中的第i个样本,下标i表示第i个;
Cj表示聚类得到的第j个簇的簇中心样本,下标j表示第j个;
W表示聚类得到的簇的个数,或者称为音频字典中字的个数;
IDX(fi)表示样本fi在音频字典中的索引,或者称为样本fi的字表达;
Dis(fi,Cj)表示样本fi和簇中心样本Cj之间的距离。
所述步骤(1-4)的步骤为:将训练样本中包含的音频事件作为样本的作者;假设“作者—主题”分布Θ和“主题—字”分布Φ的先验分布分别是服从参数为α和β的Dirichlet分布,α和β是已知的参数值;
将每个音频文档中的所有字连接成一个向量,将整个训练集中所有音频文档连接起来组成一个新的向量,用w表示此新的向量;
每个字对应一个作者和一个主题,因此w中每个字的作者组成一个向量,用x表示;w中每个字的主题组成一个向量,用z表示;
假设训练集中共有A个作者、T个主题,则向量x中的每个元素在A个作者中取值,向量z中的每个元素在T个主题中取值。
训练“作者—主题”分布Θ和“主题—字”分布Φ是在同一个训练过程中同时进行的。此训练过程具体分两步执行:第一步,吉布斯采样:
首先,对向量x和z进行随机初始化,
然后,在吉布斯采样的每轮迭代过程中,根据公式(2)对w中每个字的作者和主题进行顺序采样:
P ( x di = a , z di = t | w di = w , z - di , x - di , w - di , α , β ) ∝ C wt , - di WT + β Σ w * C w * t , - di WT + Wβ C ta , di TA + α Σ t * C t * a , - di TA + Tα - - - ( 2 )
其中,a、t、w分别表示某一具体的作者、主题、字,其取值为a∈{1,…,A},t∈{1,…,T},w∈{1,…,W};W表示音频字典中的字的数量,T表示训练集中主题的数量,A表示训练集中作者的数量;
wdi表示训练集中第d个文档中的第i个字;
xdi、zdi分别表示训练集中第d个文档中的第i个字所对应的作者、主题;
z-di表示向量z中除去第d个文档中的第i个字所对应的主题以外,由其它元素所组成的向量;
x-di表示向量x中除去第d个文档中的第i个字所对应的作者以外,由其它元素所组成的向量;
w-di表示向量w中除去第d个文档中的第i个字所对应的字以外,由其它元素所组成的向量;
CTA表示统计得到的“作者—主题”矩阵;
表示矩阵CTA中第t行第a列的矩阵元素,即训练集中除去第d个文档中的第i个字之外,由其它所有的字统计得到的作者为a,同时主题为t的字的总数目;
CWT表示“主题—字”矩阵,表示矩阵CWT中第w行第t列的矩阵元素,即训练样本集中除去第d个文档中的第i个字之外,由其它所有的字统计得到的字为w,同时主题为t的字的总数目;
表示矩阵CTA中第t*行第a列的矩阵元素,用t*以和中的t进行区分;
表示矩阵CWT中第w*行第t列的矩阵元素,用w*以和中的w进行区分;
吉布斯采样的一轮迭代指的是按照公式(2)对w中每个字的主题和作者都进行一遍采样;如此迭代若干轮后,则认为z和x的联合概率分布已经收敛;在z和x的联合概率分布收敛之后继续迭代;
第二步:假设吉布斯采样在z和x的联合概率分布收敛之后又迭代了S轮,每轮迭代后的z和x的采样值记为(zs,xs),s=1,2,…,S;
s表示z和x的联合概率分布收敛之后继续迭代的第s轮,由(zs,xs)统计得到相应的(CTA)s矩阵和(CWT)s矩阵,(CTA)s和(CWT)s分别表示由第s轮采样值(zs,xs)统计得到的CTA矩阵和CWT矩阵;
对S个矩阵(CTA)s,s=1,2,…,S取平均,并对平均矩阵逐列进行归一化即得到最终的“作者—主题”分布Θ;
对S个矩阵(CWT)s s=1,2,…,S取平均,并对平均矩阵逐列进行归一化即得到最终的“主题—字”分布Φ。
所述步骤(1-2)的分帧处理是指:帧长取32毫秒,帧移取16毫秒,每一帧作为一个样本;
所述步骤(1-2)的音频特征包括MFCC(Mel频率倒谱系数)、能量、能量熵、过零率、频谱衰减、频谱质心和频谱通量;
所述步骤(2)的具体步骤为:
步骤(2-1):将音频事件作为PLSA模型中的主题;步骤(2-2):PLSA模型中的音频字典直接采用AT模型中创建的音频字典;
步骤(2-3):通过PLSA模型的训练得到音频事件关于字典中各个字的概率分布p(w|a)w∈{1,…,W};
a表示某一具体音频事件,假设训练集中共有A个音频事件,则a的取值为a∈{1,…,A;}
w表示音频字典中的某一具体的字;
W表示音频字典中的字的数量;
对于某一音频事件a,首先找出训练集中所有包含音频事件a的音频文档;
步骤(2-4):由于步骤(1-3)已经得到音频文档中各个音频样本的字表达,所以直接统计得到训练集中所有包含音频事件a的音频文档中各个字的数目,将统计结果记为向量(h1,…,hW);h1表示训练集中所有包含音频事件a的音频文档中所包含的第1个音频字的数量;hW表示训练集中所有包含音频事件a的音频文档中所包含的第W个音频字的数量;
步骤(2-5):将向量(h1,…,hW)归一化则得到音频事件a关于字典中各个字的概率分布p(w|a)w∈{1,…,W}。
所述步骤(3)的具体步骤为:
步骤(3-1):用dtest表示待分类的音频文档,对待分类音频文档采用步骤(1-2)所述的方法进行分帧、特征提取,并根据训练阶段的步骤(1-3)得到的音频字典求得各帧的字表达,最后统计待分类音频文档关于音频字的直方图,并用直方图来表达待分类音频文档dtest
步骤(3-2):分类采用EM迭代方法,在EM迭代的最大化步骤中,保持p(w|a)w∈{1,…,W}的值为训练阶段的值不变;EM迭代收敛后得到p(dtest|a)和p(a),p(dtest|a)表示待分类音频文档dtest关于音频事件a的条件概率,p(a)表示音频事件a的概率;
步骤(3-3):通过公式(3)求得待分类音频文档dtest关于各个音频事件的概率分布p(a|dtest):
p ( a | d test ) = p ( d test | a ) p ( a ) Σ a * p ( d test | a * ) p ( a * ) - - - ( 3 )
其中,p(a*)表示音频事件a*的概率,p(dtest|a*)表示待分类音频文档dtest关于音频事件a*的条件概率;
步骤(3-4):将概率最大的前M个音频事件作为待分类音频文档dtest的潜在音频事件,即:
PAE ( d test ) = arg F M a max { p ( a | d test ) , a = 1 , . . . , A } - - - ( 4 )
其中,PAE(dtest)表示待分类音频文档dtest的潜在音频事件;FMmax{·}表示数值集合{·}中的前M个最大的数值。
所述步骤(4)的具体步骤为:
步骤(4-1):假设步骤(3-4)中得到的M个潜在音频事件为ai i=1,…,M,通过公式(5)求得在已知潜在音频事件ai的条件下,其中,i=1,…,M,待分类音频文档dtest的perplexity值;
perplexity ( d test | a i , Θ , Φ ) = exp ( - log p ( d test | a i , Θ , Φ ) N test ) - - - ( 5 )
其中,Ntest表示待分类音频文档dtest中字的数目,p(dtest|ai,Θ,Φ)表示在已知潜在音频事件ai、“作者—主题”分布Θ和“主题—字”分布Φ的条件下,待分类音频文档dtest的后验概率,通过公式(6)求算:
p ( d test | a i , Θ , Φ ) = Π i = 1 N test p ( w test i | a i , Θ , Φ ) = Π i = 1 N test Σ t = 1 T p ( w test i , z test i = t | x test i = a i , Θ , Φ ) = Π i = 1 N test Σ t = 1 T p ( w test i | z test i = t , Φ ) p ( z test i = t | x test i = a i , Θ ) = Π i = 1 N test Σ t = 1 T Φ w test i t Θ ta i - - - ( 6 )
其中,表示待分类音频文档dtest中的第i个字;表示待分类音频文档dtest中第i个字的潜在主题;t表示某一具体主题;表示待分类音频文档dtest中第i个字的作者;表示“作者—主题”分布Θ中的第t行第ai列的元素;表示“主题—字”分布Φ中的第行第t列元素;
步骤(4-2):通过公式(7)从潜在的M个音频事件中选择N个音频事件作为分类结果,1≤N<M:
AE ( d test ) = arg F N a i min { perplexity , i = 1 , . . . , M } - - - ( 7 )
AE(dtest)表示待分类音频文档dtest的分类结果;FNmin{·}表示数值集合{·}中的前N个最小的数值;对于包含纯净音频事件的音频文档,N取1;对于包含两个音频事件的混叠音频文档,N取2,以此类推。
本发明的有益效果:
1.迄今还未见将AT引入音频领域的相关研究,本发明创新性地将AT引入音频事件分类领域。AT是文本分析领域的一种模型,将其引入音频事件分类领域需要解决如何对模型进行改造以使其适用于分类等问题。本发明将AT用于音频事件分类,AT能很好地挖掘音频事件的语义结构,进而能很好地发掘音频文档中的音频事件。本发明为将AT引入音频领域开展相关研究开拓了思路,提供了一定的方法借鉴。
2.AT和PLSA两种主题模型能很好地挖掘各类音频事件及各个音频文档的潜在语义结构,因此两者的结合能很好地分析音频文档中包含的音频事件。本发明提出的结合PLSA和AT的音频事件分类方法不但能很好地分类纯净音频事件,而且能很好地分类混叠音频事件。
3.本发明提出的结合PLSA和AT的音频事件分类方法在分类混叠音频事件时能识别出混叠音频事件中的多个音频事件,而现有的多数混叠音频事件分类技术只能识别出其中的一个音频事件。
附图说明
图1本发明的整体方法流程图;
图2AT模型训练流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
该专利当中的工作得到了国家自然科学基金(61401259)和山东省优秀中青年科学家科研奖励基金(BS2013DX035)的资助
本发明提出的基于PLSA和AT的音频事件分类算法的整个实施流程如图1所示:
(一)通过训练音频文档训练得到AT模型
AT模型的训练流程如图2所示:
(1)输入训练音频文档
训练音频文档中既包含纯净音频事件的音频文档,又包含混叠音频事件的音频文档。
(2)分帧及特征提取
对训练音频文档首先进行分帧处理,帧长取32毫秒,帧移取16毫秒,每一帧作为一个样本;然后,以帧为单位提取音频特征。本申请提取的音频特征包括MFCC(Mel频率倒谱系数)、能量、能量熵、过零率、频谱衰减、频谱质心和频谱通量。
(3)通过聚类得到各个音频样本的字表达
本申请采用常用的Kmeans聚类算法对训练流程(2)中分帧得到的样本进行聚类。假设训练集中共有L个样本,记为{f1,f2,…,fL};聚类共得到W个簇,W个簇的簇中心样本记为{C1,C2,…,CW},将{C1,C2,…,CW}作为音频字典,则其中的每个样本Cjj∈{1,2,…,W}表示音频字典中的一个音频字。根据音频字典,每个样本都可以如下得到其字表达:
IDX ( f i ) = arg min j , j ∈ { 1,2 , . . . , W } Dis ( f i , C j ) - - - ( 1 )
fi表示训练集中的第i个样本,下标i表示第i个。Cj表示聚类得到的第j个簇的簇中心样本,下标j表示第j个。W表示聚类得到的簇的个数,或者称为音频字典中字的个数。IDX(fi)表示样本fi在音频字典中的索引,或者称为样本fi的字表达。Dis(fi,Cj)表示样本fi和簇中心样本Cj之间的距离。
(4)通过吉布斯采样训练得到AT模型的“作者—主题”分布Θ和“主题—字”分布Φ
由于训练音频文档中包含的音频事件是已知的,所以分帧后各个训练样本中包含的音频事件也是已知的。本发明将训练样本中包含的音频事件作为样本的作者。假设“作者—主题”分布Θ和“主题—字”分布Φ的先验分布分别是服从参数为α和β的Dirichlet分布,α和β是已知的参数值。将每个音频文档中的所有字连接成一个向量,将整个训练集中所有音频文档连接起来组成一个新的向量,用w表示此新的向量。每个字对应一个作者和一个主题,因此w中每个字的作者组成一个向量,用x表示;w中每个字的主题组成一个向量,用z表示。假设训练集中共有A个作者、T个主题,则向量x中的每个元素在此A个作者中取值,向量z中的每个元素在此T个主题中取值。
训练“作者—主题”分布Θ和“主题—字”分布Φ是在同一个训练过程中同时进行的。此训练过程具体分两步执行:
第一步,吉布斯采样。首先,对向量x和z进行随机初始化,然后在吉布斯采样的每轮迭代过程中,根据以下公式对w中每个字的作者和主题进行顺序采样:
P ( x di = a , z di = t | w di = w , z - di , x - di , w - di , α , β ) ∝ C wt , - di WT + β Σ w * C w * t , - di WT + Wβ C ta , di TA + α Σ t * C t * a , - di TA + Tα - - - ( 2 )
其中,a、t、w分别表示某一具体的作者、主题、字,其取值为a∈{1,…,A},t∈{1,…,T},w∈{1,…,W}。W表示音频字典中的字的数量,T表示训练集中主题的数量,A表示训练集中作者的数量。wdi表示训练集中第d个文档中的第i个字;xdi、zdi分别表示训练集中第d个文档中的第i个字所对应的作者、主题;z-di、x-di、w-di分别表示向量z、x、w中除去第d个文档中的第i个字所对应的主题、作者、字以外,由其它元素所组成的向量。CTA表示统计得到的“作者—主题”矩阵。表示矩阵CTA中第t行第a列的矩阵元素,即训练集中除去第d个文档中的第i个字之外,由其它所有的字统计得到的作者为a,同时主题为t的字的总数目。CWT表示“主题—字”矩阵,表示矩阵CWT中第w行第t列的矩阵元素,即训练样本集中除去第d个文档中的第i个字之外,由其它所有的字统计得到的字为w,同时主题为t的字的总数目。表示矩阵CTA中第t*行第a列的矩阵元素,这里用t*以和中的t进行区分。表示矩阵CWT中第w*行第t列的矩阵元素,这里用w*以和中的w进行区分。吉布斯采样的一轮迭代指的是按照公式(2)对w中每个字的主题和作者都进行一遍采样。如此迭代若干轮后则认为z和x的联合概率分布已经收敛。在z和x的联合概率分布收敛之后继续迭代。
第二步:假设吉布斯采样在z和x的联合概率分布收敛之后又迭代了S轮,每轮迭代后的z和x的采样值记为(zs,xs),s=1,2,…,S。s表示z和x的联合概率分布收敛之后继续迭代的第s轮。由(zs,xs)统计得到相应的(CTA)s矩阵和(CWT)s矩阵,(CTA)s和(CWT)s分别表示由第s轮采样值(zs,xs)统计得到的CTA矩阵和CWT矩阵。对S个矩阵(CTA)s s=1,2,…S,取平均,并对平均矩阵逐列进行归一化即得到最终的“作者—主题”分布Θ;对S个矩阵(CWT)ss=1,2,…,S取平均,并对平均矩阵逐列进行归一化即得到最终的“主题—字”分布Φ。
(二)通过训练音频文档训练得到PLSA模型
PLSA最初是用于文本文档分析的一种主题模型。由于音频文档和文本文档的可比性,因此可以将其引入到音频分类领域。为了能应用PLSA进行音频分类,本发明将音频事件作为PLSA模型中的主题,PLSA模型中的音频字典直接采用AT模型中创建的音频字典。
本发明希望通过PLSA模型的训练得到音频事件关于字典中各个字的概率分布p(w|a)w∈{1,…,W}。a表示某一具体音频事件,假设训练集中共有A个音频事件,则a的取值为a∈{1,…,A}。w表示音频字典中的某一具体的字。W表示音频字典中的字的数量。由于训练集中每个音频文档所包含的音频事件已知,所以p(w|a)w∈{1,…,W}可以通过简单的统计得到。对于某一音频事件a,首先找出训练集中所有包含音频事件a的音频文档;由于在训练AT模型时已经通过聚类得到音频文档中各个音频样本的字表达,所以这里可以直接统计得到训练集中所有包含音频事件a的音频文档中各个字的数目,将统计结果记为向量(h1,…,hW)。h1和hW分别表示训练集中所有包含音频事件a的音频文档中所包含的第1个音频字和第W个音频字的数量。将向量(h1,…,hW)归一化则得到音频事件a关于字典中各个字的概率分布p(w|a)w∈{1,…,W}。
(三)对待分类的音频文档,通过训练得到的PLSA模型求得其包含的潜在的M个音频事件
用dtest表示待分类的音频文档,对待分类音频文档采用和训练阶段(一)中的第(2)步中同样的方法进行分帧、特征提取,并根据训练阶段得到的音频字典求得各帧的字表达,最后统计待分类音频文档关于音频字的直方图,并用此直方图来表达待分类音频文档dtest。分类采用EM迭代方法,在EM迭代的最大化步骤中,保持p(w|a)w∈{1,…,W}的值为训练阶段的值不变。EM迭代收敛后得到p(dtest|a)和p(a),p(dtest|a)表示待分类音频文档dtest关于音频事件a的条件概率,p(a)表示音频事件a的概率。然后通过下式求得待分类音频文档dtest关于各个音频事件的概率分布p(a|dtest):
p ( a | d test ) = p ( d test | a ) p ( a ) Σ a * p ( d test | a * ) p ( a * ) - - - ( 3 )
p(a*)表示音频事件a*的概率,p(dtest|a*)表示待分类音频文档dtest关于音频事件a*的条件概率。这里用a*以和a进行区分。
得到p(a|dtest)a∈{1,…,A}之后,将概率最大的前M个音频事件作为待分类音频文档dtest的潜在音频事件,即:
PAE ( d test ) = arg F M a max { p ( a | d test ) , a = 1 , . . . , A } - - - ( 4 )
PAE(dtest)表示待分类音频文档dtest的潜在音频事件。FMmax{·}表示数值集合{·}中的前M个最大的数值。
(四)对待分类的音频文档,通过训练得到的AT模型从其潜在的M个音频事件中选择N(1≤N<M)个音频事件作为分类结果
假设前一步骤(三)中得到的M个潜在音频事件为ai i=1,…,M,通过下式求得在已知潜在音频事件ai i=1,…,M的条件下,待分类音频文档dtest的perplexity值。
perplexity ( d test | a i , Θ , Φ ) = exp ( - log p ( d test | a i , Θ , Φ ) N test ) - - - ( 5 )
Ntest表示待分类音频文档dtest中字的数目。p(dtest|ai,Θ,Φ)表示在已知潜在音频事件ai、“作者—主题”分布Θ和“主题—字”分布Φ的条件下,待分类音频文档dtest的后验概率,通过下式求算:
p ( d test | a i , Θ , Φ ) = Π i = 1 N test p ( w test i | a i , Θ , Φ ) = Π i = 1 N test Σ t = 1 T p ( w test i , z test i = t | x test i = a i , Θ , Φ ) = Π i = 1 N test Σ t = 1 T p ( w test i | z test i = t , Φ ) p ( z test i = t | x test i = a i , Θ ) = Π i = 1 N test Σ t = 1 T Φ w test i t Θ ta i - - - ( 6 )
表示待分类音频文档dtest中的第i个字;表示待分类音频文档dtest中第i个字的潜在主题;t表示某一具体主题;表示待分类音频文档dtest中第i个字的作者;表示“作者—主题”分布Θ中的第t行第ai列的元素;表示“主题—字”分布Φ中的第行第t列元素。
在求得待分类音频文档dt 的M个perplexity值:perplexity(dtest|ai,Θ,Φ)i=1…,M之后,通过下式从潜在的M个音频事件中选择N(1≤N<M)个音频事件作为分类结果:
AE ( d test ) = arg F N a i min { perplexity , i = 1 , . . . , M } - - - ( 7 )
AE(dtest)表示待分类音频文档dtest的分类结果;FNmin{·}表示数值集合{·}中的前N个最小的数值。对于包含纯净音频事件的音频文档,N取1;对于包含两个音频事件的混叠音频文档,N取2,以此类推。
为了验证本发明提出的结合PLSA和AT的音频事件分类方法的分类性能,本发明将其和Andrey Temko在《Acoustic event detection in meeting-room environments》一文中提出的ISO-CLUSTER音频事件分类方法以及baseline音频事件分类方法进行了对比。分类性能的评价指标采用精确率Pre,召回率Rec以及F1,其定义为:
Pre = ce es - - - ( 8 )
Pec = ce gt - - - ( 9 )
F 1 = 2 · Pre · Rec Pre + Rec - - - ( 10 )
gt、es、ce分别表示音频文档中真实存在的音频事件的数量、分类方法分类得到的音频事件的数量、分类方法分类得到的正确音频事件的数量。
分类数据库采用由5集情景喜剧Friends所创建的Friends数据库。音频字典中字的数目W设置为500;AT模型中主题的数量T设置为100;潜在音频事件的数量M设置为5。将本发明提出的结合PLSA和AT的音频事件分类方法简记为PLSA-AT。Baseline、ISO-CLUSTER、PLSA-AT三种方法对纯净音频事件的平均分类结果如表1所示,对混叠音频事件的平均分类结果如表2所示。
表1 Baseline、ISO-CLUSTER、PLSA-AT三种方法对纯净音频事件的平均分类结果;
表2 Baseline、ISO-CLUSTER、PLSA-AT三种方法对混叠音频事件的平均分类结果
从表1和表2可见,本发明提出的结合PLSA和AT的音频事件分类方法无论是分类纯净音频事件,还是分类混叠音频事件,其分类精确率、召回率和F1值都要高于Baseline和ISO-CLUSTER,因此,本发明提出的结合PLSA和AT的音频事件分类方法不但能很好地分类纯净音频事件,而且能很好地分类混叠音频事件。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种结合PLSA和AT的音频事件分类方法,其特征是,包括如下步骤:
步骤(1):通过训练音频文档训练得到AT模型;
步骤(2):通过训练音频文档训练得到PLSA模型;
步骤(3):通过步骤(2)得到的PLSA模型,求得待分类的音频文档包含的潜在的M个音频事件;
步骤(4):通过步骤(1)得到的AT模型,从步骤(3)潜在的M个音频事件中选择N个音频事件作为分类结果,其中,1≤N<M。
2.如权利要求1所述的一种结合PLSA和AT的音频事件分类方法,其特征是,所述步骤(1)的具体步骤为:
步骤(1-1):输入训练音频文档:
训练音频文档中既包含纯净音频事件的音频文档,又包含混叠音频事件的音频文档;
步骤(1-2):分帧及特征提取:
对训练音频文档进行分帧处理,每一帧作为一个样本;然后,以帧为单位提取音频特征;
步骤(1-3):通过聚类得到各个音频样本的字表达;
步骤(1-4):通过吉布斯采样训练得到AT模型的“作者—主题”分布Θ和“主题—字”分布Φ。
3.如权利要求1所述的一种结合PLSA和AT的音频事件分类方法,其特征是,
所述步骤(1-3)的步骤为:
采用Kmeans聚类算法对步骤(1-2)中分帧得到的样本进行聚类;
假设训练集中共有L个样本,记为{f1,f2,…,fL};聚类共得到W个簇,W个簇的簇中心样本记为{C1,C2,…,Cj,…,CW}将{C1,C2,…,Cj,…,CW}作为音频字典,则音频字典中的每个样本Cjj∈{1,2,,W}表示音频字典中的一个音频字;
根据音频字典,每个样本都能够得到如下的音频字表达:
IDX ( f i ) = arg min j , j ∈ { 1,2 , . . . W } Dis ( f i , C j ) - - - ( 1 )
其中,
fi表示训练集中的第i个样本,下标i表示第i个;
Cj表示聚类得到的第j个簇的簇中心样本,下标j表示第j个;
W表示聚类得到的簇的个数,或者称为音频字典中字的个数;
IDX(fi)表示样本fi在音频字典中的索引,或者称为样本fi的字表达;
Dis(fi,Cj)表示样本fi和簇中心样本Cj之间的距离。
4.如权利要求1所述的一种结合PLSA和AT的音频事件分类方法,其特征是,
所述步骤(1-4)的步骤为:将训练样本中包含的音频事件作为样本的作者;假设“作者—主题”分布Θ和“主题—字”分布Φ的先验分布分别是服从参数为α和β的Dirichlet分布,α和β是已知的参数值;
将每个音频文档中的所有字连接成一个向量,将整个训练集中所有音频文档连接起来组成一个新的向量,用w表示此新的向量;
每个字对应一个作者和一个主题,因此w中每个字的作者组成一个向量,用x表示;w中每个字的主题组成一个向量,用z表示;
假设训练集中共有A个作者、T个主题,则向量x中的每个元素在A个作者中取值,向量z中的每个元素在T个主题中取值;
训练“作者—主题”分布Θ和“主题—字”分布Φ是在同一个训练过程中同时进行的;此训练过程具体分两步执行:第一步,吉布斯采样;
第二步:假设吉布斯采样在z和x的联合概率分布收敛之后又迭代了S轮,每轮迭代后的z和x的采样值记为(zs,xs),s=1,2,…,S;
s表示z和x的联合概率分布收敛之后继续迭代的第s轮,由(zs,xs)统计得到相应的(CTA)s矩阵和(CWT)s矩阵,(CTA)s和(CWT)s分别表示由第s轮采样值(zs,xs)统计得到的CTA矩阵和CWT矩阵;
对S个矩阵(CTA)s,s=1,2,…,S取平均,并对平均矩阵逐列进行归一化即得到最终的“作者—主题”分布Θ;
对S个矩阵(CWT)ss=1,2,…,S取平均,并对平均矩阵逐列进行归一化即得到最终的“主题—字”分布Φ。
5.如权利要求4所述的一种结合PLSA和AT的音频事件分类方法,其特征是,
所述吉布斯采样的步骤为:
首先,对向量x和z进行随机初始化,
然后,在吉布斯采样的每轮迭代过程中,根据公式(2)对w中每个字的作者和主题进行顺序采样:
P ( x di = a , z di = t | w di = w , z - di , x - di , w - di , α , β ) ∝ C wt , - di WT + β Σ w * C w * t , - di WT + Wβ C ta , - di TA + α Σ t * C t * a , - di TA + Tα - - - ( 2 )
其中,a、t、w分别表示某一具体的作者、主题、字,其取值为a∈{1,…,A},t∈{1,…,T},w∈{1,…,W};W表示音频字典中的字的数量,T表示训练集中主题的数量,A表示训练集中作者的数量;
wdi表示训练集中第d个文档中的第i个字;
xdi、zdi分别表示训练集中第d个文档中的第i个字所对应的作者、主题;
z-di表示向量z中除去第d个文档中的第i个字所对应的主题以外,由其它元素所组成的向量;
x-di表示向量x中除去第d个文档中的第i个字所对应的作者以外,由其它元素所组成的向量;
w-di表示向量w中除去第d个文档中的第i个字所对应的字以外,由其它元素所组成的向量;
CTA表示统计得到的“作者—主题”矩阵;
表示矩阵CTA中第t行第a列的矩阵元素,即训练集中除去第d个文档中的第i个字之外,由其它所有的字统计得到的作者为a,同时主题为t的字的总数目;
CWT表示“主题—字”矩阵,表示矩阵CWT中第w行第t列的矩阵元素,即训练样本集中除去第d个文档中的第i个字之外,由其它所有的字统计得到的字为w,同时主题为t的字的总数目;
表示矩阵CTA中第t*行第a列的矩阵元素,用t*以和中的t进行区分;
表示矩阵CWT中第w*行第t列的矩阵元素,用w*以和中的w进行区分;
吉布斯采样的一轮迭代指的是按照公式(2)对w中每个字的主题和作者都进行一遍采样;如此迭代若干轮后,则认为z和x的联合概率分布已经收敛;在z和x的联合概率分布收敛之后继续迭代。
6.如权利要求2所述的一种结合PLSA和AT的音频事件分类方法,其特征是,
所述步骤(1-2)的分帧处理是指:帧长取32毫秒,帧移取16毫秒,每一帧作为一个样本。
7.如权利要求2所述的一种结合PLSA和AT的音频事件分类方法,其特征是,
所述步骤(1-2)的音频特征包括MFCC、能量、能量熵、过零率、频谱衰减、频谱质心和频谱通量。
8.如权利要求1所述的一种结合PLSA和AT的音频事件分类方法,其特征是,
所述步骤(2)的具体步骤为:
步骤(2-1):将音频事件作为PLSA模型中的主题;
步骤(2-2):PLSA模型中的音频字典直接采用AT模型中创建的音频字典;
步骤(2-3):通过PLSA模型的训练得到音频事件关于字典中各个字的概率分布p(w|a)w∈{1,…,W};
a表示某一具体音频事件,假设训练集中共有A个音频事件,则a的取值为a∈{1,…,A;
w表示音频字典中的某一具体的字;
W表示音频字典中的字的数量;
对于某一音频事件a,首先找出训练集中所有包含音频事件a的音频文档;
步骤(2-4):由于步骤(1-3)已经得到音频文档中各个音频样本的字表达,所以直接统计得到训练集中所有包含音频事件a的音频文档中各个字的数目,将统计结果记为向量(h1,…,hW);h1表示训练集中所有包含音频事件a的音频文档中所包含的第1个音频字的数量;hW表示训练集中所有包含音频事件a的音频文档中所包含的第W个音频字的数量;
步骤(2-5):将向量(h1,…,hW)归一化则得到音频事件a关于字典中各个字的概率分布p(w|a)w∈{1,…,W}。
9.如权利要求1所述的一种结合PLSA和AT的音频事件分类方法,其特征是,
所述步骤(3)的具体步骤为:
步骤(3-1):用dtest表示待分类的音频文档,对待分类音频文档采用步骤(1-2)所述的方法进行分帧、特征提取,并根据训练阶段的步骤(1-3)得到的音频字典求得各帧的字表达,最后统计待分类音频文档关于音频字的直方图,并用直方图来表达待分类音频文档dtest
步骤(3-2):分类采用EM迭代方法,在EM迭代的最大化步骤中,保持p(w|a)w∈{1,…,W}的值为训练阶段的值不变;EM迭代收敛后得到p(dtest|a)和p(a),p(dtest|a)表示待分类音频文档dtest关于音频事件a的条件概率,p(a)表示音频事件a的概率;
步骤(3-3):通过公式(3)求得待分类音频文档dtest关于各个音频事件的概率分布p(a|dtest):
p ( a | d test ) = p ( d test | a ) p ( a ) Σ a * p ( d test | a * ) p ( a * ) - - - ( 3 )
其中,p(a*)表示音频事件a*的概率,p(dtest|a*)表示待分类音频文档dtest关于音频事件a*的条件概率;
步骤(3-4):将概率最大的前M个音频事件作为待分类音频文档dtest的潜在音频事件,即:
PAE ( d test ) = arg F M a max { p ( a | d test ) , a = 1 , . . . , A } - - - ( 4 )
其中,PAE(dtest)表示待分类音频文档dtest的潜在音频事件;FMmax{·}表示数值集合{·}中的前M个最大的数值。
10.如权利要求1所述的一种结合PLSA和AT的音频事件分类方法,其特征是,
所述步骤(4)的具体步骤为:
步骤(4-1):假设步骤(3-4)中得到的M个潜在音频事件为aii=1,…,M,通过公式(5)求得在已知潜在音频事件ai的条件下,其中,i=1,…,M,待分类音频文档dtest的perplexity值;
perplexity ( d test | a i , Θ , Φ ) = exp ( - log p ( d test | a i , Θ , Φ ) N test ) - - - ( 5 )
其中,Ntest表示待分类音频文档dtest中字的数目,p(dtest|ai,Θ,Φ)表示在已知潜在音频事件ai、“作者—主题”分布Θ和“主题—字”分布Φ的条件下,待分类音频文档dtest的后验概率,通过公式(6)求算:
p ( d test | a i , Θ , Φ ) = Π i = 1 N test p ( w test i | a i , Θ , Φ ) = Π i = 1 N test Σ t = 1 T p ( w test i , z test i = t | w test i = a i , Θ , Φ ) = Π i = 1 N test Σ t = 1 T p ( w test i | z test i = t , Φ ) p ( z test i = t | x test i = a i , Θ ) = Π i = 1 N test Σ t = 1 T Φ w test i t Θ ta i - - - ( 6 )
其中,表示待分类音频文档dtest中的第i个字;表示待分类音频文档dtest中第i个字的潜在主题;t表示某一具体主题;表示待分类音频文档dtest中第i个字的作者;表示“作者—主题”分布Θ中的第t行第ai列的元素;表示“主题—字”分布Φ中的第行第t列元素;
步骤(4-2):通过公式(7)从潜在的M个音频事件中选择N个音频事件作为分类结果,1≤N<M:
AE ( d test ) = arg F N a i min { perplexirty ( d test | a i , Θ , Φ ) , i = 1 , . . . , M } - - - ( 7 )
AE(dtest)表示待分类音频文档dtest的分类结果;FNmin{·}表示数值集合{·}中的前N个最小的数值;对于包含纯净音频事件的音频文档,N取1;对于包含两个音频事件的混叠音频文档,N取2,以此类推。
CN201510114394.8A 2015-03-16 2015-03-16 一种结合plsa和at的音频事件分类方法 Expired - Fee Related CN104731890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510114394.8A CN104731890B (zh) 2015-03-16 2015-03-16 一种结合plsa和at的音频事件分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510114394.8A CN104731890B (zh) 2015-03-16 2015-03-16 一种结合plsa和at的音频事件分类方法

Publications (2)

Publication Number Publication Date
CN104731890A true CN104731890A (zh) 2015-06-24
CN104731890B CN104731890B (zh) 2017-12-12

Family

ID=53455777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510114394.8A Expired - Fee Related CN104731890B (zh) 2015-03-16 2015-03-16 一种结合plsa和at的音频事件分类方法

Country Status (1)

Country Link
CN (1) CN104731890B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107204193A (zh) * 2017-06-12 2017-09-26 山东师范大学 基于直方图统计和池化算法的音频场景识别方法及装置
CN111261174A (zh) * 2018-11-30 2020-06-09 杭州海康威视数字技术股份有限公司 音频的分类方法、装置、终端及计算机可读存储介质
CN112183225A (zh) * 2020-09-07 2021-01-05 中国海洋大学 一种基于概率潜在语义分析的水下目标信号特征提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832470A (en) * 1994-09-30 1998-11-03 Hitachi, Ltd. Method and apparatus for classifying document information
CN102819746A (zh) * 2012-07-10 2012-12-12 电子科技大学 基于作者-流派主题模型的遥感图像自动类别标注方法
CN104269169A (zh) * 2014-09-09 2015-01-07 山东师范大学 一种混叠音频事件分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832470A (en) * 1994-09-30 1998-11-03 Hitachi, Ltd. Method and apparatus for classifying document information
CN102819746A (zh) * 2012-07-10 2012-12-12 电子科技大学 基于作者-流派主题模型的遥感图像自动类别标注方法
CN104269169A (zh) * 2014-09-09 2015-01-07 山东师范大学 一种混叠音频事件分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陆海先等: "基于潜在主题的视频异常行为分析", 《通信技术》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107204193A (zh) * 2017-06-12 2017-09-26 山东师范大学 基于直方图统计和池化算法的音频场景识别方法及装置
CN107204193B (zh) * 2017-06-12 2020-05-29 山东师范大学 基于直方图统计和池化算法的音频场景识别方法及装置
CN111261174A (zh) * 2018-11-30 2020-06-09 杭州海康威视数字技术股份有限公司 音频的分类方法、装置、终端及计算机可读存储介质
CN111261174B (zh) * 2018-11-30 2023-02-17 杭州海康威视数字技术股份有限公司 音频的分类方法、装置、终端及计算机可读存储介质
CN112183225A (zh) * 2020-09-07 2021-01-05 中国海洋大学 一种基于概率潜在语义分析的水下目标信号特征提取方法
CN112183225B (zh) * 2020-09-07 2022-07-05 中国海洋大学 一种基于概率潜在语义分析的水下目标信号特征提取方法

Also Published As

Publication number Publication date
CN104731890B (zh) 2017-12-12

Similar Documents

Publication Publication Date Title
CN110413986B (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
Ullrich et al. Boundary Detection in Music Structure Analysis using Convolutional Neural Networks.
CN104269169B (zh) 一种混叠音频事件分类方法
Dai et al. Long short-term memory recurrent neural network based segment features for music genre classification
US20120078631A1 (en) Recognition of target words using designated characteristic values
CN107342077A (zh) 一种基于因子分析的说话人分段聚类方法及系统
CN107293302A (zh) 一种用于语音测谎系统中的稀疏谱特征提取方法
CN104881401A (zh) 一种专利文献聚类方法
Jacob Speech emotion recognition based on minimal voice quality features
CN104731890B (zh) 一种结合plsa和at的音频事件分类方法
CN116110405B (zh) 一种基于半监督学习的陆空通话说话人识别方法及设备
Kaushik et al. Automatic audio sentiment extraction using keyword spotting.
CN105609116A (zh) 一种语音情感维度区域的自动识别方法
Kholghi et al. Active learning for classifying long‐duration audio recordings of the environment
Tirronen et al. Hierarchical multi-class classification of voice disorders using self-supervised models and glottal features
Huang et al. Speech emotion recognition using convolutional neural network with audio word-based embedding
Bigot et al. Person name recognition in ASR outputs using continuous context models
CN106991171A (zh) 基于智慧校园信息服务平台的话题发现方法
Amid et al. Unsupervised feature extraction for multimedia event detection and ranking using audio content
Leng et al. Audio scene recognition based on audio events and topic model
Zeng et al. A novel approach to musical genre classification using probabilistic latent semantic analysis model
CN105447158A (zh) 一种基于图的专利搜索日志中同义词集自动挖掘方法
Han et al. Active learning for dimensional speech emotion recognition.
Chen et al. System and keyword dependent fusion for spoken term detection
CN113851117A (zh) 语音关键词识别方法、系统、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171212

Termination date: 20190316

CF01 Termination of patent right due to non-payment of annual fee