CN104731890A

CN104731890A - 一种结合plsa和at的音频事件分类方法

Info

Publication number: CN104731890A
Application number: CN201510114394.8A
Authority: CN
Inventors: 冷严; 李登旺; 程传福; 万洪林; 王晶晶; 方敬; 徐新艳
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2015-03-16
Filing date: 2015-03-16
Publication date: 2015-06-24
Anticipated expiration: 2035-03-16
Also published as: CN104731890B

Abstract

本发明公开了一种结合PLSA和AT的音频事件分类方法，该方法在训练阶段用训练样本训练PLSA模型和AT模型；在分类阶段，对于待分类的音频文档，首先用PLSA模型求得文档中潜在的音频事件，然后用AT模型从潜在音频事件中找出若干音频事件作为分类结果。本发明提出的结合PLSA和AT的音频事件分类方法既能很好地分类纯净音频事件，又能很好地分类混叠音频事件，而且在分类混叠音频事件时能识别出其中的多个音频事件，而不仅仅是识别出其中的一个音频事件。

Description

一种结合PLSA和AT的音频事件分类方法

技术领域

本发明涉及一种结合PLSA和AT的音频事件分类方法。

背景技术

音频信息是多媒体信息的一种重要表现形式。音频领域中的音频事件分类技术在实际生活中具有广泛的应用，不但可以用于进行多媒体检索、安全监控，而且可以用于智能机器人和智能家居工程。

音频文档主要包含两类音频事件，即纯净音频事件和混叠音频事件。纯净音频事件是指某一时刻只有一个音频事件发生，发生的音频事件在此刻与其它音频事件没有时间上的交叠；混叠音频事件是指某一时刻有多个音频事件同时发生，发生的音频事件在此刻产生时间上的交叠。

目前的音频分类技术能很好地分类纯净音频事件，但在对混叠音频事件分类时则分类性能大为降低。这主要是因为混叠音频事件受混叠的影响，其特征较混叠之前的纯净音频事件的特征发生了明显的改变，加大了分类的难度。此外，目前多数的混叠音频事件分类技术是将混叠音频事件分类为其所包含的某一音频事件，而未能识别出其中的多个音频事件，这也影响了分类性能的提高。

发明内容

本发明的目的就是为了解决上述问题，提供一种结合PLSA和AT的音频事件分类方法,本发明结合两种主题模型，即PLSA(Probabilistic Latent Semantic Analysis)模型和AT(Author-Topic model)模型，进行分类。PLSA模型和AT模型的提出最初都是用于文本分析。PLSA已有研究将其引入音频领域进行语义标注和视频分类等，而对于AT模型，现在还未见将其应用于音频领域的相关研究。本发明创新性地将AT模型引入到音频分类领域，并创新性地将其和PLSA模型结合起来进行分类。本发明提出的结合PLSA和AT的音频事件分类方法既能很好地分类纯净音频事件，又能很好地分类混叠音频事件，而且在分类混叠音频事件时能识别出其中的多个音频事件，而不仅仅是识别出其中的一个音频事件。

为了实现上述目的，本发明采用如下技术方案：

一种结合PLSA和AT的音频事件分类方法，包括如下步骤：

步骤(1)：通过训练音频文档训练得到AT模型；

步骤(2)：通过训练音频文档训练得到PLSA模型；

步骤(3)：通过步骤(2)得到的PLSA模型,求得待分类的音频文档包含的潜在的M个音频事件；

步骤(4)：通过步骤(1)得到的AT模型，从步骤(3)潜在的M个音频事件中选择N个音频事件作为分类结果，其中，1≤N＜M。

所述步骤(1)的具体步骤为：

步骤(1-1)：输入训练音频文档：

训练音频文档中既包含纯净音频事件的音频文档，又包含混叠音频事件的音频文档；

步骤(1-2)：分帧及特征提取：

对训练音频文档进行分帧处理，每一帧作为一个样本；然后，以帧为单位提取音频特征；

步骤(1-3)：通过聚类得到各个音频样本的字表达；

步骤(1-4)：通过吉布斯采样训练得到AT模型的“作者—主题”分布Θ和“主题—字”分布Φ。

所述步骤(1-3)的步骤为：

采用Kmeans聚类算法对步骤(1-2)中分帧得到的样本进行聚类；

假设训练集中共有L个样本，记为{f₁,f₂,…,f_L}；聚类共得到W个簇，W个簇的簇中心样本记为{C₁,C₂,…,C_j,…,C_W}，将{C₁,C₂,…,C_j,…,C_W}作为音频字典，则音频字典中的每个样本C_jj∈{1,2,…,W}表示音频字典中的一个音频字；

根据音频字典，每个样本都能够得到如下的音频字表达：

IDX (f_{i}) = \underset{j, j &Element; {1,2, . . ., W}}{\arg \min} Dis (f_{i}, C_{j}) - - - (1)

其中，

f_i表示训练集中的第i个样本，下标i表示第i个；

C_j表示聚类得到的第j个簇的簇中心样本，下标j表示第j个；

W表示聚类得到的簇的个数，或者称为音频字典中字的个数；

IDX(f_i)表示样本f_i在音频字典中的索引，或者称为样本f_i的字表达；

Dis(f_i,C_j)表示样本f_i和簇中心样本C_j之间的距离。

所述步骤(1-4)的步骤为：将训练样本中包含的音频事件作为样本的作者；假设“作者—主题”分布Θ和“主题—字”分布Φ的先验分布分别是服从参数为α和β的Dirichlet分布，α和β是已知的参数值；

将每个音频文档中的所有字连接成一个向量，将整个训练集中所有音频文档连接起来组成一个新的向量，用w表示此新的向量；

每个字对应一个作者和一个主题，因此w中每个字的作者组成一个向量，用x表示；w中每个字的主题组成一个向量，用z表示；

假设训练集中共有A个作者、T个主题，则向量x中的每个元素在A个作者中取值，向量z中的每个元素在T个主题中取值。

训练“作者—主题”分布Θ和“主题—字”分布Φ是在同一个训练过程中同时进行的。此训练过程具体分两步执行：第一步，吉布斯采样：

首先，对向量x和z进行随机初始化，

然后，在吉布斯采样的每轮迭代过程中，根据公式(2)对w中每个字的作者和主题进行顺序采样：

\begin{matrix} P (x_{di} = a, z_{di} = t | w_{di} = w, z_{- di}, x_{- di}, w_{- di}, α, β) &Proportional; \\ \frac{C_{wt, - di}^{WT} + β}{Σ_{w^{*}} C_{w^{*} t, - di}^{WT} + Wβ} \frac{C_{ta, di}^{TA} + α}{Σ_{t^{*}} C_{t^{*} a, - di}^{TA} + Tα} \end{matrix} - - - (2)

其中，a、t、w分别表示某一具体的作者、主题、字，其取值为a∈{1,…,A}，t∈{1,…,T}，w∈{1,…,W}；W表示音频字典中的字的数量，T表示训练集中主题的数量，A表示训练集中作者的数量；

w_di表示训练集中第d个文档中的第i个字；

x_di、z_di分别表示训练集中第d个文档中的第i个字所对应的作者、主题；

z_-di表示向量z中除去第d个文档中的第i个字所对应的主题以外，由其它元素所组成的向量；

x_-di表示向量x中除去第d个文档中的第i个字所对应的作者以外，由其它元素所组成的向量；

w_-di表示向量w中除去第d个文档中的第i个字所对应的字以外，由其它元素所组成的向量；

C^TA表示统计得到的“作者—主题”矩阵；

表示矩阵C^TA中第t行第a列的矩阵元素，即训练集中除去第d个文档中的第i个字之外，由其它所有的字统计得到的作者为a，同时主题为t的字的总数目；

C^WT表示“主题—字”矩阵，表示矩阵C^WT中第w行第t列的矩阵元素，即训练样本集中除去第d个文档中的第i个字之外，由其它所有的字统计得到的字为w，同时主题为t的字的总数目；

表示矩阵C^TA中第t^*行第a列的矩阵元素，用t^*以和中的t进行区分；

表示矩阵C^WT中第w^*行第t列的矩阵元素，用w^*以和中的w进行区分；

吉布斯采样的一轮迭代指的是按照公式(2)对w中每个字的主题和作者都进行一遍采样；如此迭代若干轮后,则认为z和x的联合概率分布已经收敛；在z和x的联合概率分布收敛之后继续迭代；

第二步：假设吉布斯采样在z和x的联合概率分布收敛之后又迭代了S轮，每轮迭代后的z和x的采样值记为(z^s，x^s)，s＝1,2,…,S；

s表示z和x的联合概率分布收敛之后继续迭代的第s轮，由(z^s，x^s)统计得到相应的(C^TA)^s矩阵和(C^WT)^s矩阵，(C^TA)^s和(C^WT)^s分别表示由第s轮采样值(z^s，x^s)统计得到的C^TA矩阵和C^WT矩阵；

对S个矩阵(C^TA)^s,s＝1,2,…,S取平均，并对平均矩阵逐列进行归一化即得到最终的“作者—主题”分布Θ；

对S个矩阵(C^WT)^s s＝1,2,…,S取平均，并对平均矩阵逐列进行归一化即得到最终的“主题—字”分布Φ。

所述步骤(1-2)的分帧处理是指：帧长取32毫秒，帧移取16毫秒，每一帧作为一个样本；

所述步骤(1-2)的音频特征包括MFCC(Mel频率倒谱系数)、能量、能量熵、过零率、频谱衰减、频谱质心和频谱通量；

所述步骤(2)的具体步骤为：

步骤(2-1)：将音频事件作为PLSA模型中的主题；步骤(2-2)：PLSA模型中的音频字典直接采用AT模型中创建的音频字典；

步骤(2-3)：通过PLSA模型的训练得到音频事件关于字典中各个字的概率分布p(w|a)w∈{1,…,W}；

a表示某一具体音频事件，假设训练集中共有A个音频事件，则a的取值为a∈{1,…,A；}

w表示音频字典中的某一具体的字；

W表示音频字典中的字的数量；

对于某一音频事件a，首先找出训练集中所有包含音频事件a的音频文档；

步骤(2-4)：由于步骤(1-3)已经得到音频文档中各个音频样本的字表达，所以直接统计得到训练集中所有包含音频事件a的音频文档中各个字的数目，将统计结果记为向量(h₁,…,h_W)；h₁表示训练集中所有包含音频事件a的音频文档中所包含的第1个音频字的数量；h_W表示训练集中所有包含音频事件a的音频文档中所包含的第W个音频字的数量；

步骤(2-5)：将向量(h₁,…,h_W)归一化则得到音频事件a关于字典中各个字的概率分布p(w|a)w∈{1,…,W}。

所述步骤(3)的具体步骤为：

步骤(3-1)：用d_test表示待分类的音频文档，对待分类音频文档采用步骤(1-2)所述的方法进行分帧、特征提取，并根据训练阶段的步骤(1-3)得到的音频字典求得各帧的字表达，最后统计待分类音频文档关于音频字的直方图，并用直方图来表达待分类音频文档d_test；

步骤(3-2)：分类采用EM迭代方法，在EM迭代的最大化步骤中，保持p(w|a)w∈{1,…,W}的值为训练阶段的值不变；EM迭代收敛后得到p(d_test|a)和p(a)，p(d_test|a)表示待分类音频文档d_test关于音频事件a的条件概率，p(a)表示音频事件a的概率；

步骤(3-3)：通过公式(3)求得待分类音频文档d_test关于各个音频事件的概率分布p(a|d_test)：

p (a | d_{test}) = \frac{p (d_{test} | a) p (a)}{Σ_{a^{*}} p (d_{test} | a^{*}) p (a^{*})} - - - (3)

其中，p(a^*)表示音频事件a^*的概率，p(d_test|a^*)表示待分类音频文档d_test关于音频事件a^*的条件概率；

步骤(3-4)：将概率最大的前M个音频事件作为待分类音频文档d_test的潜在音频事件，即：

\begin{matrix} PAE (d_{test}) = \\ \arg \underset{a}{F_{M}} \max {p (a | d_{test}), a = 1, . . ., A} \end{matrix} - - - (4)

其中，PAE(d_test)表示待分类音频文档d_test的潜在音频事件；F_Mmax{·}表示数值集合{·}中的前M个最大的数值。

所述步骤(4)的具体步骤为：

步骤(4-1)：假设步骤(3-4)中得到的M个潜在音频事件为a_i i＝1,…,M，通过公式(5)求得在已知潜在音频事件a_i的条件下，其中，i＝1,…,M，待分类音频文档d_test的perplexity值；

\begin{matrix} perplexity (d_{test} | a_{i}, Θ, Φ) \\ = \exp (- \frac{\log p (d_{test} | a_{i}, Θ, Φ)}{N_{test}}) \end{matrix} - - - (5)

其中，N_test表示待分类音频文档d_test中字的数目，p(d_test|a_i,Θ,Φ)表示在已知潜在音频事件a_i、“作者—主题”分布Θ和“主题—字”分布Φ的条件下，待分类音频文档d_test的后验概率，通过公式(6)求算：

\begin{matrix} p (d_{test} | a_{i}, Θ, Φ) \\ = Π_{i = 1}^{N_{test}} p (w_{test}^{i} | a_{i}, Θ, Φ) \\ = Π_{i = 1}^{N_{test}} Σ_{t = 1}^{T} p (w_{test}^{i}, z_{test}^{i} = t | x_{test}^{i} = a_{i}, Θ, Φ) \\ = Π_{i = 1}^{N_{test}} Σ_{t = 1}^{T} p (w_{test}^{i} | z_{test}^{i} = t, Φ) p (z_{test}^{i} = t | x_{test}^{i} = a_{i}, Θ) \\ = Π_{i = 1}^{N_{test}} Σ_{t = 1}^{T} Φ_{w_{test}^{i} t} Θ_{{ta}_{i}} \end{matrix} - - - (6)

其中，表示待分类音频文档d_test中的第i个字；表示待分类音频文档d_test中第i个字的潜在主题；t表示某一具体主题；表示待分类音频文档d_test中第i个字的作者；表示“作者—主题”分布Θ中的第t行第a_i列的元素；表示“主题—字”分布Φ中的第行第t列元素；

步骤(4-2)：通过公式(7)从潜在的M个音频事件中选择N个音频事件作为分类结果，1≤N＜M：

\begin{matrix} AE (d_{test}) = \\ \arg \underset{a_{i}}{F_{N}} \min {perplexity, i = 1, . . ., M} \end{matrix} - - - (7)

AE(d_test)表示待分类音频文档d_test的分类结果；F_Nmin{·}表示数值集合{·}中的前N个最小的数值；对于包含纯净音频事件的音频文档，N取1；对于包含两个音频事件的混叠音频文档，N取2，以此类推。

本发明的有益效果：

1.迄今还未见将AT引入音频领域的相关研究，本发明创新性地将AT引入音频事件分类领域。AT是文本分析领域的一种模型，将其引入音频事件分类领域需要解决如何对模型进行改造以使其适用于分类等问题。本发明将AT用于音频事件分类，AT能很好地挖掘音频事件的语义结构，进而能很好地发掘音频文档中的音频事件。本发明为将AT引入音频领域开展相关研究开拓了思路，提供了一定的方法借鉴。

2.AT和PLSA两种主题模型能很好地挖掘各类音频事件及各个音频文档的潜在语义结构，因此两者的结合能很好地分析音频文档中包含的音频事件。本发明提出的结合PLSA和AT的音频事件分类方法不但能很好地分类纯净音频事件，而且能很好地分类混叠音频事件。

3.本发明提出的结合PLSA和AT的音频事件分类方法在分类混叠音频事件时能识别出混叠音频事件中的多个音频事件，而现有的多数混叠音频事件分类技术只能识别出其中的一个音频事件。

附图说明

图1本发明的整体方法流程图；

图2AT模型训练流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

该专利当中的工作得到了国家自然科学基金(61401259)和山东省优秀中青年科学家科研奖励基金(BS2013DX035)的资助

本发明提出的基于PLSA和AT的音频事件分类算法的整个实施流程如图1所示：

(一)通过训练音频文档训练得到AT模型

AT模型的训练流程如图2所示：

(1)输入训练音频文档

训练音频文档中既包含纯净音频事件的音频文档，又包含混叠音频事件的音频文档。

(2)分帧及特征提取

对训练音频文档首先进行分帧处理，帧长取32毫秒，帧移取16毫秒，每一帧作为一个样本；然后，以帧为单位提取音频特征。本申请提取的音频特征包括MFCC(Mel频率倒谱系数)、能量、能量熵、过零率、频谱衰减、频谱质心和频谱通量。

(3)通过聚类得到各个音频样本的字表达

本申请采用常用的Kmeans聚类算法对训练流程(2)中分帧得到的样本进行聚类。假设训练集中共有L个样本，记为{f₁,f₂,…,f_L}；聚类共得到W个簇，W个簇的簇中心样本记为{C₁,C₂,…,C_W}，将{C₁,C₂,…,C_W}作为音频字典，则其中的每个样本C_jj∈{1,2,…,W}表示音频字典中的一个音频字。根据音频字典，每个样本都可以如下得到其字表达：

IDX (f_{i}) = \underset{j, j &Element; {1,2, . . ., W}}{\arg \min} Dis (f_{i}, C_{j}) - - - (1)

f_i表示训练集中的第i个样本，下标i表示第i个。C_j表示聚类得到的第j个簇的簇中心样本，下标j表示第j个。W表示聚类得到的簇的个数，或者称为音频字典中字的个数。IDX(f_i)表示样本f_i在音频字典中的索引，或者称为样本f_i的字表达。Dis(f_i,C_j)表示样本f_i和簇中心样本C_j之间的距离。

(4)通过吉布斯采样训练得到AT模型的“作者—主题”分布Θ和“主题—字”分布Φ

由于训练音频文档中包含的音频事件是已知的，所以分帧后各个训练样本中包含的音频事件也是已知的。本发明将训练样本中包含的音频事件作为样本的作者。假设“作者—主题”分布Θ和“主题—字”分布Φ的先验分布分别是服从参数为α和β的Dirichlet分布，α和β是已知的参数值。将每个音频文档中的所有字连接成一个向量，将整个训练集中所有音频文档连接起来组成一个新的向量，用w表示此新的向量。每个字对应一个作者和一个主题，因此w中每个字的作者组成一个向量，用x表示；w中每个字的主题组成一个向量，用z表示。假设训练集中共有A个作者、T个主题，则向量x中的每个元素在此A个作者中取值，向量z中的每个元素在此T个主题中取值。

训练“作者—主题”分布Θ和“主题—字”分布Φ是在同一个训练过程中同时进行的。此训练过程具体分两步执行：

第一步，吉布斯采样。首先，对向量x和z进行随机初始化，然后在吉布斯采样的每轮迭代过程中，根据以下公式对w中每个字的作者和主题进行顺序采样：

\begin{matrix} P (x_{di} = a, z_{di} = t | w_{di} = w, z_{- di}, x_{- di}, w_{- di}, α, β) &Proportional; \\ \frac{C_{wt, - di}^{WT} + β}{Σ_{w^{*}} C_{w^{*} t, - di}^{WT} + Wβ} \frac{C_{ta, di}^{TA} + α}{Σ_{t^{*}} C_{t^{*} a, - di}^{TA} + Tα} \end{matrix} - - - (2)

其中，a、t、w分别表示某一具体的作者、主题、字，其取值为a∈{1,…,A}，t∈{1,…,T}，w∈{1,…,W}。W表示音频字典中的字的数量，T表示训练集中主题的数量，A表示训练集中作者的数量。w_di表示训练集中第d个文档中的第i个字；x_di、z_di分别表示训练集中第d个文档中的第i个字所对应的作者、主题；z_-di、x_-di、w_-di分别表示向量z、x、w中除去第d个文档中的第i个字所对应的主题、作者、字以外，由其它元素所组成的向量。C^TA表示统计得到的“作者—主题”矩阵。表示矩阵C^TA中第t行第a列的矩阵元素，即训练集中除去第d个文档中的第i个字之外，由其它所有的字统计得到的作者为a，同时主题为t的字的总数目。C^WT表示“主题—字”矩阵，表示矩阵C^WT中第w行第t列的矩阵元素，即训练样本集中除去第d个文档中的第i个字之外，由其它所有的字统计得到的字为w，同时主题为t的字的总数目。表示矩阵C^TA中第t^*行第a列的矩阵元素，这里用t^*以和中的t进行区分。表示矩阵C^WT中第w^*行第t列的矩阵元素，这里用w^*以和中的w进行区分。吉布斯采样的一轮迭代指的是按照公式(2)对w中每个字的主题和作者都进行一遍采样。如此迭代若干轮后则认为z和x的联合概率分布已经收敛。在z和x的联合概率分布收敛之后继续迭代。

第二步：假设吉布斯采样在z和x的联合概率分布收敛之后又迭代了S轮，每轮迭代后的z和x的采样值记为(z^s，x^s)，s＝1,2,…,S。s表示z和x的联合概率分布收敛之后继续迭代的第s轮。由(z^s，x^s)统计得到相应的(C^TA)^s矩阵和(C^WT)^s矩阵，(C^TA)^s和(C^WT)^s分别表示由第s轮采样值(z^s，x^s)统计得到的C^TA矩阵和C^WT矩阵。对S个矩阵(C^TA)^s s＝1,2,…S,取平均，并对平均矩阵逐列进行归一化即得到最终的“作者—主题”分布Θ；对S个矩阵(C^WT)^ss＝1,2,…,S取平均，并对平均矩阵逐列进行归一化即得到最终的“主题—字”分布Φ。

(二)通过训练音频文档训练得到PLSA模型

PLSA最初是用于文本文档分析的一种主题模型。由于音频文档和文本文档的可比性，因此可以将其引入到音频分类领域。为了能应用PLSA进行音频分类，本发明将音频事件作为PLSA模型中的主题，PLSA模型中的音频字典直接采用AT模型中创建的音频字典。

本发明希望通过PLSA模型的训练得到音频事件关于字典中各个字的概率分布p(w|a)w∈{1,…,W}。a表示某一具体音频事件，假设训练集中共有A个音频事件，则a的取值为a∈{1,…,A}。w表示音频字典中的某一具体的字。W表示音频字典中的字的数量。由于训练集中每个音频文档所包含的音频事件已知，所以p(w|a)w∈{1,…,W}可以通过简单的统计得到。对于某一音频事件a，首先找出训练集中所有包含音频事件a的音频文档；由于在训练AT模型时已经通过聚类得到音频文档中各个音频样本的字表达，所以这里可以直接统计得到训练集中所有包含音频事件a的音频文档中各个字的数目，将统计结果记为向量(h₁,…,h_W)。h₁和h_W分别表示训练集中所有包含音频事件a的音频文档中所包含的第1个音频字和第W个音频字的数量。将向量(h₁,…,h_W)归一化则得到音频事件a关于字典中各个字的概率分布p(w|a)w∈{1,…,W}。

(三)对待分类的音频文档，通过训练得到的PLSA模型求得其包含的潜在的M个音频事件

用d_test表示待分类的音频文档，对待分类音频文档采用和训练阶段(一)中的第(2)步中同样的方法进行分帧、特征提取，并根据训练阶段得到的音频字典求得各帧的字表达，最后统计待分类音频文档关于音频字的直方图，并用此直方图来表达待分类音频文档d_test。分类采用EM迭代方法，在EM迭代的最大化步骤中，保持p(w|a)w∈{1,…,W}的值为训练阶段的值不变。EM迭代收敛后得到p(d_test|a)和p(a)，p(d_test|a)表示待分类音频文档d_test关于音频事件a的条件概率，p(a)表示音频事件a的概率。然后通过下式求得待分类音频文档d_test关于各个音频事件的概率分布p(a|d_test)：

p (a | d_{test}) = \frac{p (d_{test} | a) p (a)}{Σ_{a^{*}} p (d_{test} | a^{*}) p (a^{*})} - - - (3)

p(a^*)表示音频事件a^*的概率，p(d_test|a^*)表示待分类音频文档d_test关于音频事件a^*的条件概率。这里用a^*以和a进行区分。

得到p(a|d_test)a∈{1,…,A}之后，将概率最大的前M个音频事件作为待分类音频文档d_test的潜在音频事件，即：

\begin{matrix} PAE (d_{test}) = \\ \arg \underset{a}{F_{M}} \max {p (a | d_{test}), a = 1, . . ., A} \end{matrix} - - - (4)

PAE(d_test)表示待分类音频文档d_test的潜在音频事件。F_Mmax{·}表示数值集合{·}中的前M个最大的数值。

(四)对待分类的音频文档，通过训练得到的AT模型从其潜在的M个音频事件中选择N(1≤N＜M)个音频事件作为分类结果

假设前一步骤(三)中得到的M个潜在音频事件为a_i i＝1,…,M，通过下式求得在已知潜在音频事件a_i i＝1,…,M的条件下，待分类音频文档d_test的perplexity值。

\begin{matrix} perplexity (d_{test} | a_{i}, Θ, Φ) \\ = \exp (- \frac{\log p (d_{test} | a_{i}, Θ, Φ)}{N_{test}}) \end{matrix} - - - (5)

N_test表示待分类音频文档d_test中字的数目。p(d_test|a_i,Θ,Φ)表示在已知潜在音频事件a_i、“作者—主题”分布Θ和“主题—字”分布Φ的条件下，待分类音频文档d_test的后验概率，通过下式求算：

\begin{matrix} p (d_{test} | a_{i}, Θ, Φ) \\ = Π_{i = 1}^{N_{test}} p (w_{test}^{i} | a_{i}, Θ, Φ) \\ = Π_{i = 1}^{N_{test}} Σ_{t = 1}^{T} p (w_{test}^{i}, z_{test}^{i} = t | x_{test}^{i} = a_{i}, Θ, Φ) \\ = Π_{i = 1}^{N_{test}} Σ_{t = 1}^{T} p (w_{test}^{i} | z_{test}^{i} = t, Φ) p (z_{test}^{i} = t | x_{test}^{i} = a_{i}, Θ) \\ = Π_{i = 1}^{N_{test}} Σ_{t = 1}^{T} Φ_{w_{test}^{i} t} Θ_{{ta}_{i}} \end{matrix} - - - (6)

表示待分类音频文档d_test中的第i个字；表示待分类音频文档d_test中第i个字的潜在主题；t表示某一具体主题；表示待分类音频文档d_test中第i个字的作者；表示“作者—主题”分布Θ中的第t行第a_i列的元素；表示“主题—字”分布Φ中的第行第t列元素。

在求得待分类音频文档d_t 的M个perplexity值：perplexity(d_test|a_i,Θ,Φ)i＝1…，M之后，通过下式从潜在的M个音频事件中选择N(1≤N＜M)个音频事件作为分类结果：

\begin{matrix} AE (d_{test}) = \\ \arg \underset{a_{i}}{F_{N}} \min {perplexity, i = 1, . . ., M} \end{matrix} - - - (7)

AE(d_test)表示待分类音频文档d_test的分类结果；F_Nmin{·}表示数值集合{·}中的前N个最小的数值。对于包含纯净音频事件的音频文档，N取1；对于包含两个音频事件的混叠音频文档，N取2，以此类推。

为了验证本发明提出的结合PLSA和AT的音频事件分类方法的分类性能，本发明将其和Andrey Temko在《Acoustic event detection in meeting-room environments》一文中提出的ISO-CLUSTER音频事件分类方法以及baseline音频事件分类方法进行了对比。分类性能的评价指标采用精确率Pre，召回率Rec以及F1，其定义为：

Pre = \frac{ce}{es} - - - (8)

Pec = \frac{ce}{gt} - - - (9)

F 1 = \frac{2 \cdot Pre \cdot Rec}{Pre + Rec} - - - (10)

gt、es、ce分别表示音频文档中真实存在的音频事件的数量、分类方法分类得到的音频事件的数量、分类方法分类得到的正确音频事件的数量。

分类数据库采用由5集情景喜剧Friends所创建的Friends数据库。音频字典中字的数目W设置为500；AT模型中主题的数量T设置为100；潜在音频事件的数量M设置为5。将本发明提出的结合PLSA和AT的音频事件分类方法简记为PLSA-AT。Baseline、ISO-CLUSTER、PLSA-AT三种方法对纯净音频事件的平均分类结果如表1所示，对混叠音频事件的平均分类结果如表2所示。

表1 Baseline、ISO-CLUSTER、PLSA-AT三种方法对纯净音频事件的平均分类结果；

表2 Baseline、ISO-CLUSTER、PLSA-AT三种方法对混叠音频事件的平均分类结果

从表1和表2可见，本发明提出的结合PLSA和AT的音频事件分类方法无论是分类纯净音频事件，还是分类混叠音频事件，其分类精确率、召回率和F1值都要高于Baseline和ISO-CLUSTER，因此，本发明提出的结合PLSA和AT的音频事件分类方法不但能很好地分类纯净音频事件，而且能很好地分类混叠音频事件。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种结合PLSA和AT的音频事件分类方法，其特征是，包括如下步骤：

步骤(1)：通过训练音频文档训练得到AT模型；

步骤(2)：通过训练音频文档训练得到PLSA模型；

2.如权利要求1所述的一种结合PLSA和AT的音频事件分类方法，其特征是，所述步骤(1)的具体步骤为：

步骤(1-1)：输入训练音频文档：

步骤(1-2)：分帧及特征提取：

步骤(1-3)：通过聚类得到各个音频样本的字表达；

3.如权利要求1所述的一种结合PLSA和AT的音频事件分类方法，其特征是，

所述步骤(1-3)的步骤为：

采用Kmeans聚类算法对步骤(1-2)中分帧得到的样本进行聚类；

假设训练集中共有L个样本，记为{f₁，f₂，…，f_L}；聚类共得到W个簇，W个簇的簇中心样本记为{C₁，C₂，…，C_j，…，C_W}将{C₁，C₂，…，C_j，…，C_W}作为音频字典，则音频字典中的每个样本C_jj∈{1,2,，W}表示音频字典中的一个音频字；

根据音频字典，每个样本都能够得到如下的音频字表达：

IDX (f_{i}) = \underset{j, j &Element; {1,2, . . . W}}{\arg \min} Dis (f_{i}, C_{j}) - - - (1)

其中，

f_i表示训练集中的第i个样本，下标i表示第i个；

C_j表示聚类得到的第j个簇的簇中心样本，下标j表示第j个；

W表示聚类得到的簇的个数，或者称为音频字典中字的个数；

Dis(f_i,C_j)表示样本f_i和簇中心样本C_j之间的距离。

4.如权利要求1所述的一种结合PLSA和AT的音频事件分类方法，其特征是，

假设训练集中共有A个作者、T个主题，则向量x中的每个元素在A个作者中取值，向量z中的每个元素在T个主题中取值；

训练“作者—主题”分布Θ和“主题—字”分布Φ是在同一个训练过程中同时进行的；此训练过程具体分两步执行：第一步，吉布斯采样；

第二步：假设吉布斯采样在z和x的联合概率分布收敛之后又迭代了S轮，每轮迭代后的z和x的采样值记为(z^s，x^s)，s＝1，2，…，S；

对S个矩阵(C^TA)^s，s＝1，2，…，S取平均，并对平均矩阵逐列进行归一化即得到最终的“作者—主题”分布Θ；

对S个矩阵(C^WT)^ss＝1,2，…，S取平均，并对平均矩阵逐列进行归一化即得到最终的“主题—字”分布Φ。

5.如权利要求4所述的一种结合PLSA和AT的音频事件分类方法，其特征是，

所述吉布斯采样的步骤为：

首先，对向量x和z进行随机初始化，

\begin{matrix} P (x_{di} = a, z_{di} = t | w_{di} = w, z_{- di}, x_{- di}, w_{- di}, α, β) &Proportional; \\ \frac{C_{wt, - di}^{WT} + β}{Σ_{w^{*}} C_{w^{*} t, - di}^{WT} + Wβ} \frac{C_{ta, - di}^{TA} + α}{Σ_{t^{*}} C_{t^{*} a, - di}^{TA} + Tα} \end{matrix} - - - (2)

其中，a、t、w分别表示某一具体的作者、主题、字，其取值为a∈{1,…，A}，t∈{1,…，T}，w∈{1，…，W}；W表示音频字典中的字的数量，T表示训练集中主题的数量，A表示训练集中作者的数量；

w_di表示训练集中第d个文档中的第i个字；

C^TA表示统计得到的“作者—主题”矩阵；

吉布斯采样的一轮迭代指的是按照公式(2)对w中每个字的主题和作者都进行一遍采样；如此迭代若干轮后,则认为z和x的联合概率分布已经收敛；在z和x的联合概率分布收敛之后继续迭代。

6.如权利要求2所述的一种结合PLSA和AT的音频事件分类方法，其特征是，

所述步骤(1-2)的分帧处理是指：帧长取32毫秒，帧移取16毫秒，每一帧作为一个样本。

7.如权利要求2所述的一种结合PLSA和AT的音频事件分类方法，其特征是，

所述步骤(1-2)的音频特征包括MFCC、能量、能量熵、过零率、频谱衰减、频谱质心和频谱通量。

8.如权利要求1所述的一种结合PLSA和AT的音频事件分类方法，其特征是，

所述步骤(2)的具体步骤为：

步骤(2-1)：将音频事件作为PLSA模型中的主题；

步骤(2-2)：PLSA模型中的音频字典直接采用AT模型中创建的音频字典；

步骤(2-3)：通过PLSA模型的训练得到音频事件关于字典中各个字的概率分布p(w|a)w∈{1，…，W}；

a表示某一具体音频事件，假设训练集中共有A个音频事件，则a的取值为a∈{1，…，A；

w表示音频字典中的某一具体的字；

W表示音频字典中的字的数量；

步骤(2-4)：由于步骤(1-3)已经得到音频文档中各个音频样本的字表达，所以直接统计得到训练集中所有包含音频事件a的音频文档中各个字的数目，将统计结果记为向量(h₁，…，h_W)；h₁表示训练集中所有包含音频事件a的音频文档中所包含的第1个音频字的数量；h_W表示训练集中所有包含音频事件a的音频文档中所包含的第W个音频字的数量；

步骤(2-5)：将向量(h₁，…，h_W)归一化则得到音频事件a关于字典中各个字的概率分布p(w|a)w∈{1，…，W}。

9.如权利要求1所述的一种结合PLSA和AT的音频事件分类方法，其特征是，

所述步骤(3)的具体步骤为：

步骤(3-2)：分类采用EM迭代方法，在EM迭代的最大化步骤中，保持p(w|a)w∈{1，…，W}的值为训练阶段的值不变；EM迭代收敛后得到p(d_test|a)和p(a)，p(d_test|a)表示待分类音频文档d_test关于音频事件a的条件概率，p(a)表示音频事件a的概率；

p (a | d_{test}) = \frac{p (d_{test} | a) p (a)}{Σ_{a^{*}} p (d_{test} | a^{*}) p (a^{*})} - - - (3)

\begin{matrix} PAE (d_{test}) = \\ \arg F_{\underset{a}{M}} \max {p (a | d_{test}), a = 1, . . ., A} \end{matrix} - - - (4)

10.如权利要求1所述的一种结合PLSA和AT的音频事件分类方法，其特征是，

所述步骤(4)的具体步骤为：

步骤(4-1)：假设步骤(3-4)中得到的M个潜在音频事件为a_ii＝1，…，M，通过公式(5)求得在已知潜在音频事件a_i的条件下，其中，i＝1，…，M，待分类音频文档d_test的perplexity值；

\begin{matrix} perplexity (d_{test} | a_{i}, Θ, Φ) \\ = \exp (- \frac{\log p (d_{test} | a_{i}, Θ, Φ)}{N_{test}}) \end{matrix} - - - (5)

\begin{matrix} p (d_{test} | a_{i}, Θ, Φ) \\ = Π_{i = 1}^{N_{test}} p (w_{test}^{i} | a_{i}, Θ, Φ) \\ = Π_{i = 1}^{N_{test}} Σ_{t = 1}^{T} p (w_{test}^{i}, z_{test}^{i} = t | w_{test}^{i} = a_{i}, Θ, Φ) \\ = Π_{i = 1}^{N_{test}} Σ_{t = 1}^{T} p (w_{test}^{i} | z_{test}^{i} = t, Φ) p (z_{test}^{i} = t | x_{test}^{i} = a_{i}, Θ) \\ = Π_{i = 1}^{N_{test}} Σ_{t = 1}^{T} Φ_{w_{test}^{i} t} Θ_{{ta}_{i}} \end{matrix} - - - (6)

\begin{matrix} AE (d_{test}) = \\ \arg F_{\underset{a_{i}}{N}} \min {perplexirty (d_{test} | a_{i}, Θ, Φ), i = 1, . . ., M} \end{matrix} - - - (7)