CN106205609A

CN106205609A - 一种基于音频事件和主题模型的音频场景识别方法及其装置

Info

Publication number: CN106205609A
Application number: CN201610525055.3A
Authority: CN
Inventors: 冷严; 徐新艳; 李登旺; 程传福
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2016-07-05
Filing date: 2016-07-05
Publication date: 2016-12-07
Anticipated expiration: 2036-07-05
Also published as: CN106205609B

Abstract

本发明公开了基于音频事件和主题模型的音频场景识别方法及其装置，该方法包括训练音频场景分类模型；提取待识别音频文档的主题分布作为音频特征，并将提取的音频特征代入音频场景分类模型中进行分类识别，最终输出待识别音频文档的音频场景类别。本发明提出以音频事件作为统计单元，创新性地对音频文档‑音频事件共现矩阵进行主题分析，其与人类的音频场景识别模式更加一致，因此本发明提出的音频场景识别思路更加合理，更能提高识别的准确率。

Description

一种基于音频事件和主题模型的音频场景识别方法及其装置

技术领域

本发明属于音频识别领域，尤其涉及一种基于音频事件和主题模型的音频场景识别方法及其装置。

背景技术

音频场景识别是指对于一个音频文档，识别出该音频文档所发生的环境，或者换句话说，音频场景识别是指通过音频信息来感知周围环境。音频场景识别技术具有非常广泛的应用价值，将其用于移动终端设备可以使设备很好地感知周围环境，进而能自动地调整设备状态；音频场景识别还可以用于智能家居、老年人健康监护等等。

主题模型是在文本分析领域广泛应用的一类模型，近几年有很多研究将其用于音频领域，并且已有研究将主题模型用于音频场景识别。当前的研究在将主题模型用于音频场景识别时一般都是遵循以下范式：首先将音频文档进行分割处理得到一系列帧；然后将这些帧进行聚类以创建音频字典；根据字典将帧映射成音频字；对映射后的音频字进行统计以生成音频文档-音频字共现矩阵；用主题模型对音频文档-音频字共现矩阵进行分析可以得到每个音频文档的主题分布；用主题分布作为音频特征来表征音频文档，最后通过分类模型实现音频场景识别。

从以上范式可以看出当前的研究主要都是对音频文档-音频字共现矩阵进行主题分析，这种传统的将主题模型用于音频场景识别时所遵循的范式与人类进行音频场景识别的思维模式不一致：通常人类在进行音频场景识别时会首先分析音频文档中都有哪些音频事件，然后根据这些音频事件进一步分析这些音频事件想要反映什么主题，最后，通过对这些主题的分析做出识别判断；而上述传统的做法中没有考虑音频事件，而是以音频字作为统计单元，音频字没有明确的物理含义，也不是人类进行场景识别时所考虑的物理单元，因此上述传统的识别方法与人类进行音频场景识别的思维模式不一致。人工智能领域的专家一直都在致力于研究如何让机器模仿人类的思维模式进行思考，研究表明，使机器模仿人类的思维模式进行思考能很好地提高机器的智能水平，因此，与那些和人类识别思维模式一致的方法相比，上述传统的识别方法的识别准确率会相对较低，为了解决上述问题，本发明提出对音频文档-音频事件共现矩阵进行主题分析。

在求音频文档-音频事件共现矩阵时，常规的方法是首先对音频文档中的音频事件进行分类识别，然后进行统计得到音频文档-音频事件共现矩阵。常规方法在分类识别音频事件时需要创建分类模型，当音频事件类别较多时，计算量将会非常大；此外，常规的求取方法容易受音频事件误分类的影响，导致训练集的音频文档-音频事件共现矩阵和测试集的音频文档-音频事件共现矩阵的一致性较差，进而降低音频场景识别准确率。

发明内容

为了解决现有技术的缺点，本发明提供一种基于音频事件和主题模型的音频场景识别方法及其装置。本发明的该方法对音频文档-音频事件共现矩阵进行主题分析；同时，为了突出音频文档的主题，对音频文档的音频事件分布进行了加权处理，加权的权值是根据音频事件的主题熵来确定的。

为了实现上述目的，本发明采用如下技术方案：

一种基于音频事件和主题模型的音频场景识别方法，包括：

步骤(1)：训练音频场景分类模型；

训练音频场景分类模型的具体过程包括：

步骤(1.1)：获取训练音频文档并存储至训练音频文档集中，对训练音频文档集中的训练音频文档进行分帧和提取特征处理，创建音频字典；

步骤(1.2)：求取训练音频文档集的音频文档-音频事件共现矩阵；

步骤(1.3)：用主题模型PLSA对训练音频文档集的音频文档-音频事件共现矩阵进行主题分析，求得训练音频文档集中每个音频文档的主题分布；

步骤(1.4)：将每个音频文档的主题分布作为音频文档的音频特征来训练音频场景分类模型；

步骤(2)：求取待识别音频文档的主题分布作为音频特征，并将求取的音频特征代入音频场景分类模型中进行分类识别，最终输出待识别音频文档的音频场景类别。

本发明对音频文档-音频事件共现矩阵进行主题分析，对音频文档-音频事件共现矩阵进行主题分析与人类的音频场景识别模式更加一致，因此本发明提出的音频场景识别思路更加合理，能有效地提高识别准确率。

在步骤(1.1)中对训练音频文档集中的训练音频文档进行分帧处理的过程中，因为音频文档是短时平稳的，如果相邻两帧之间没有重叠的话，很可能会导致后续特征提取步骤中提取的音频特征在相邻两帧之间的变化较大，因此，为了使音频特征平滑变化，在分帧处理时设置帧与帧之间有50％的重叠。

在步骤(1.1)中还对训练音频文档集中的训练音频文档提取MFCC特征，在对训练音频文档集中的训练音频文档提取MFCC特征之后，对训练音频文档集里每一音频场景类中的所有帧进行聚类，聚类后取簇质心组成音频字典，簇质心为音频字典的音频字。采用聚类的方法生成音频字典是在用主题模型对音频文档进行主题分析时业内常用的方法，该方法简单高效。

在所述步骤(1.2)中求取训练音频文档集的音频文档-音频事件共现矩阵的过程中，包括：

根据音频字典将训练音频文档集中所有帧映射成音频字；

统计训练音频文档集里每个音频文档中各个音频字的出现次数，得到训练音频文档集的音频文档-音频字共现矩阵；

统计训练音频文档集里每个标注的音频事件中各个音频字的出现次数，得到训练音频文档集的音频事件-音频字共现矩阵。对于具有多个音频事件标签的音频帧，其在参与统计音频事件-音频字共现矩阵时，是按比例分配给其内包含的各个音频事件，在标签序列中排序越靠前的音频事件获得的比例成分越大；

采用主题模型PLSA将音频文档-音频字共现矩阵分解成第一子矩阵和第二子矩阵相乘的形式，其中，第一子矩阵为音频事件-音频字共现矩阵，第二子矩阵中的每一列对应一个训练音频文档在各个音频事件上的概率分布；

采用主题模型PLSA对第一子矩阵进行矩阵分解，生成音频事件-主题矩阵，音频事件-主题矩阵的每一列表示一个音频事件在各个主题上的概率分布；

根据音频事件-主题矩阵的每一列中的音频事件-主题分布求取各个音频事件的主题熵；

根据主题熵求取各个音频事件的加权系数；

采用各个音频事件的加权系数对训练音频文档中的音频事件分布进行加权，对加权后的音频事件分布进行归一化，并乘上训练音频文档集中音频帧的总数目，最终得到训练音频文档集的音频文档-音频事件共现矩阵。

根据音频字典将训练音频文档集中所有帧映射成音频字的方法为：

对训练音频文档集中的每个帧，从音频字典中找出与其最近邻的音频字来表示相应的帧。

本发明提出的通过矩阵分解求取音频文档-音频事件共现矩阵的方法能很好地保证训练集的音频文档-音频事件共现矩阵和测试集的音频文档-音频事件共现矩阵的一致性，因而能有效地提高音频场景识别准确率。

此外，音频事件分布加权处理后，音频文档的主题将更加突出，将能更好地表征不同的音频场景，因而更有利于后续的音频场景识别；本发明提出的加权方法并不局限于对音频事件分布的加权，该加权方法的思路可以推广至任何其它使用主题模型进行分类识别的方法中。

所述步骤(2)求取待识别音频文档的主题分布作为音频特征的过程，包括：

获取待识别音频文档并存储至待识别音频文档集中，求取待识别音频文档集的音频文档-音频事件共现矩阵；

采用主题模型PLSA对待识别音频文档集的音频文档-音频事件共现矩阵进行主题分析，求得待识别音频文档集中每个音频文档的主题分布；

将待识别音频文档集中每个音频文档的主题分布作为待识别音频文档的音频特征。

每个音频文档中可能包含多个主题，但是这些主题的主次地位不同，那些分布概率大的主题是音频文档的主要主题，那些分布概率小的主题是次要主题；同理，每一种音频场景类可能包含多个主题，这些主题的主次地位不同，同一音频场景类中的音频文档的主要主题将集中于某几个主题上，不同音频场景类中的音频文档的主要主题趋向于集中在不同的主题上，因此音频文档的主题分布能很好地表征其场景类别信息，将使得不同音频场景类下的音频文档具有很好的区分性。

待识别音频文档集的音频文档-音频事件共现矩阵求取过程，包括：

对待识别音频文档进行分帧处理，帧与帧之间有50％的重叠，并提取待识别音频文档每一帧的MFCC特征；

根据音频字典将待识别音频文档集中所有帧映射成音频字；

统计待识别音频文档集里每个音频文档中各个音频字的出现次数，得到待识别音频文档集的音频文档-音频字共现矩阵；

采用主题模型PLSA将待识别音频文档集的音频文档-音频字共现矩阵分解成第一子矩阵和第二子矩阵相乘的形式，其中，第一子矩阵为训练音频文档集的音频事件-音频字共现矩阵；第二子矩阵中的每一列对应一个待识别音频文档在各个音频事件上的概率分布；

采用训练阶段求得的各个音频事件的加权系数对待识别音频文档中的音频事件分布进行加权，对加权后的音频事件分布进行归一化，并乘上待识别音频文档集中音频帧的总数目，最终得到待识别音频文档集的音频文档-音频事件共现矩阵。

根据音频字典将待识别音频文档集中所有帧映射成音频字的方法为：

对待识别音频文档集中的每个帧，从音频字典中找出与其最近邻的音频字来表示相应的帧。

一种基于音频事件和主题模型的音频场景识别装置，包括：

音频场景分类模型生成模块，所述音频场景分类模型生成模块包括音频字典创建模块，其被配置为获取训练音频文档并存储至训练音频文档集中，对训练音频文档集中的训练音频文档进行分帧和提取特征处理，创建音频字典；

音频文档-音频事件共现矩阵求取模块，其被配置为求取训练音频文档集的音频文档-音频事件共现矩阵；

音频文档的主题分布求取模块，其被配置为采用主题模型PLSA对训练音频文档集的音频文档-音频事件共现矩阵进行主题分析，求得训练音频文档集中每个音频文档的主题分布；

音频场景分类模型训练模块，其被配置为将每个训练音频文档的主题分布作为音频文档的音频特征来训练音频场景分类模型；

所述音频场景识别装置还包括音频特征提取模块，其被配置为提取待识别音频文档的主题分布作为音频特征；

输出模块，其被配置为将待识别音频文档的音频特征代入音频场景分类模型中进行分类识别，并输出待识别音频文档的音频场景类别。

本发明的有益效果为：

(1)本发明提出以音频事件作为统计单元，创新性地对音频文档-音频事件共现矩阵进行主题分析，其与人类的音频场景识别模式更加一致，因此本发明提出的音频场景识别思路更加合理，更能提高识别的准确率。

(2)为了突出音频文档的音频主题，本发明提出对音频文档的音频事件分布进行加权；该加权方法的权值是通过音频事件的主题熵确定的，因此那些主题突出的音频事件将得到加强，而那些主题不突出的音频事件将被削弱。加权处理后，音频文档的主题将更加突出，将能更好地表征不同的音频场景，因而更有利于后续的音频场景识别；本发明提出的加权方法并不局限于对音频事件分布的加权，该加权方法的思路可以推广至任何其它使用主题模型进行分类识别的方法中。

(3)本发明通过PLSA矩阵分解的方法求取音频文档-音频事件共现矩阵，本发明提出的音频文档-音频事件共现矩阵求取方法和常规的求取方法相比具有以下优势：本发明提出的矩阵分解方法不需要创建分类模型，因而计算量小，求解的效率高；能很好地保证训练集的音频文档-音频事件共现矩阵和测试集的音频文档-音频事件共现矩阵的一致性，因而能有效地提高音频场景识别准确率。

附图说明

图1是本发明提出的音频场景识别方法示意图；

图2是训练音频文档集的音频文档-音频字共现矩阵分解过程示意图；

图3是训练音频文档集的音频文档-音频事件共现矩阵分解过程示意图；

图4是待识别音频文档集的音频文档-音频字共现矩阵分解过程示意图；

图5是识别阶段对待识别音频文档集的音频文档-音频事件共现矩阵分解过程示意图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明：

如图1所示，本发明提出的音频场景识别方法主要分为两大模块：训练过程和识别过程。其中，训练过程包括创建音频字典、求取音频文档-音频事件共现矩阵、基于PLSA的主题分析和训练分类模型四部分；识别过程包括求取音频文档-音频事件共现矩阵、基于PLSA的主题分析和识别输出三部分。以下将对各个部分做详细介绍。

首先介绍训练过程：

(一)创建音频字典

对训练音频文档进行分帧处理。因为对音频信号提取频域特征时，要求信号必须是平稳的，而音频信号具有短时平稳特性，因此分帧时帧长不能取得过长，通常帧长在20～60毫秒之间取值，本发明将帧长设定为30毫秒，将音频文档分割成30毫秒长的帧。为了使相邻帧的特征平滑变化，设定帧与帧之间有50％的重叠。对每个帧提取39维的MFCC特征。标准的MFCC特征是13维的，标准MFCC只反映了音频的静态特征。研究表明把静态、动态特征结合起来能有效地提高系统的识别性能，为此，本发明在提取标准MFCC的同时，通过一阶差分和二阶差分求得动态MFCC特征，静态、动态特征总计39维。对训练集里每一音频场景类中的所有帧进行k均值聚类，聚类后取簇质心组成音频字典，也就是说音频字典是由训练集中各个音频场景类聚类后的簇质心创建成的，这些簇质心称为音频字典的音频字。

(二)求取音频文档-音频事件共现矩阵

首先根据音频字典将训练集中所有帧映射成音频字，映射的方法是：对每个帧，从音频字典中找出与其最近邻(基于欧氏距离)的音频字，用此音频字来表示该帧；其次，统计训练集里每个音频文档中各个音频字的出现次数，得到训练集的音频文档-音频字共现矩阵，记为C_train。训练音频文档中的音频事件可以提前进行标注，因此训练集中各个帧的音频事件标签是已知的，为此，可以统计训练集里每个音频事件中各个音频字的出现次数，进而得到训练集的音频事件-音频字共现矩阵，记为A_train。

假设训练集中共有N个音频文档和n个不同的音频事件，分别记为{d₁,…,d_N}和{e₁,e₂,…,e_n}，假设音频字典中共有M个音频字，则C_train是一个M×N的矩阵，A_train是一个M×n的矩阵。用主题模型PLSA(Probabilistic Latent Semantic Analysis)对矩阵C_train进行分解，将C_train分解成A_train和B_train相乘的形式，如图2所示。B_train是一个n×N的矩阵，其每一列对应一个音频文档，表示音频文档在各个音频事件上的概率分布；其中，N、M和n均为大于等于1的正整数。

由于在音频文档中，同一时刻经常会有多个音频事件同时发生，因此在为训练音频文档标注音频事件时，某一时间段若有多个音频事件同时发生，将标注所有的音频事件标签，但是要对这些标签根据人类感知特性进行排序，也就是说最突出的、首先被感知的音频事件的标签排在第一位，其次被感知的音频事件的标签排在第二位，以此类推。在此标注情况下，训练集的音频事件-音频字共现矩阵A_train的统计方法如下：

假设训练集中某个音频文档的某一帧的音频事件标签有m个，其音频事件标签序列为[l₁,l₂,…,l_m]，l_i(i＝1,…,m)表示其音频事件标签序列中的第i个标签，l_i从{e₁,e₂,…,e_n}中取值。其中，m为大于等于1的正整数。在统计音频事件-音频字共现矩阵A_train时，这一音频帧将参与其内包含的所有音频事件的统计，但参与的比例不同。在统计该音频文档中由l_i所代表的音频事件的出现次数时，该音频帧参与的比例co(l_i)为：

c o (l_{i}) = \frac{2 (m + 1 - i)}{m (m + 1)} - - - (1)

满足

这表明：对于具有多个音频事件标签的音频帧，其在参与统计音频事件-音频字共现矩阵A_train时，是按比例分配给其内包含的各个音频事件，在标签序列中排序越靠前的音频事件获得的比例成分越大。之所以如此设置是因为人类在识别音频场景时，主要是根据音频文档中的突出音频事件进行判断，而将其它次要音频事件作为辅助，因此按照公式(1)将一帧按比例分配给各个音频事件将有助于强调音频文档中的突出音频事件。

在反映音频文档的主题时，各个音频事件所发挥的作用是不同的，为了突出强调那些对反映主题起重要作用的音频事件，有必要对音频文档的音频事件分布进行加权。本发明认为如果一个音频事件的主题十分突出，则这样的音频事件更加重要。

本发明用主题熵反映音频事件的重要性，为此，首先通过PLSA对音频事件-音频字共现矩阵A_train进行矩阵分解。假设有T1个潜在主题{z₁,…,z_T1}，z₁表示第1个潜在主题，z_T1表示第T1个潜在主题，则经过PLSA矩阵分解后可以生成一个尺寸为T1×n的音频事件-主题矩阵，记为E，E的每一列表示一个音频事件在主题{z₁,…,z_T1}上的概率分布。矩阵E的第(i,j)个元素记为其中，z_i表示第i个主题，e_j表示第j个音频事件，表示音频事件e_j在主题z_i上的概率值。用尺寸为1×n的向量H表示各个音频事件的主题熵，其第j个元素记为H(e_j)，H(e_j)表示音频事件e_j的主题熵，其值通过下式求解：

H (e_{j}) = - Σ_{i = 1}^{T 1} p_{z_{i}}^{e_{j}} \log_{2} (p_{z_{i}}^{e_{j}}) - - - (3)

其中，表示矩阵E的第(i,j)个元素，z_i表示第i个主题，e_j表示第j个音频事件。对音频事件来说，主题熵值越小意味着其主题越突出，换句话说，主题熵越小意味着该音频事件的发生主要反映少数几个主题；而主题熵值越大意味着该音频事件的发生将会反映很多不同的主题。因此，本发明认为主题熵越小的音频事件，其对反映音频场景的主题的重要性越大。基于主题熵，本发明设计了一个系数，用其来评价音频事件的重要性，并用其对音频文档的音频事件分布进行加权。用尺寸为1×n的向量c来表示各个音频事件的加权系数，其第i个元素记为c(e_i)，c(e_i)表示音频事件e_i的加权系数，其求解方法如下：

c (e_{i}) = e^{- | H (e_{i}) - \min (H) | / 2 var (H)} - - - (4)

c(e_i)＝c(e_i)/min(c) (5)

公式(5)表示的是将c(e_i)用min(c)进行归一化以后再重新覆盖原来的c(e_i)的值。

其中，H(e_i)表示音频事件e_i的主题熵，min(H)表示求向量H中元素的最小值，var(H)表示求向量H中元素的方差，min(c)表示求向量c中元素的最小值。

记矩阵B_train的第(i,j)个元素为d_j表示第j个音频文档，e_i表示第i个音频事件。用c对训练音频文档中的音频事件分布进行加权，即对B_train中的各列进行加权：

p_{e_{i}}^{d_{j}} = c (e_{i}) \cdot p_{e_{i}}^{d_{j}}, (i = 1, ..., n; j = 1, ..., N) - - - (6)

加权后，为了使矩阵B_train中的各列表达的是音频文档中各个音频事件的出现次数，而不是在各个音频事件上的概率分布，为此还要对B_train做以下处理：

p^{d_{j}} = n o r m (p^{d_{j}}) - - - (7)

p^{d_{j}} = f N u m \cdot p^{d_{j}} - - - (8)

其中，表示矩阵B_train的第j列，表示对进行归一化，fNum表示训练集中的帧的总数量。在做了以上处理之后的B_train即为求取的训练集的音频文档-音频事件共现矩阵。

(三)基于PLSA的主题分析

本发明采用PLSA作为主题模型。用PLSA对(二)中求取的训练集的音频文档-音频事件共现矩阵B_train进行矩阵分解，矩阵分解如图3所示。假设共有T2个潜在主题，则矩阵分解后的P_train是一个尺寸为n×T2的矩阵，Q_train是一个尺寸为T2×N的矩阵。Q_train的每一列对应一个音频文档，表示音频文档在T2个潜在主题上的概率分布。Q_train中的每一列即为对训练音频文档集经过PLSA主题分析后所得到的训练音频文档的主题分布。

(四)训练分类模型

Q_train的每一列对应一个音频文档的主题分布，将该主题分布作为音频文档的音频特征，并用其训练分类模型。本发明采用支持向量机SVM(Support Vector Machine)作为分类模型。SVM是二值分类模型，在用其分类多个音频场景时采用一对一的多类分类策略。

以下介绍识别过程：

(一)求取音频文档-音频事件共现矩阵

识别阶段对音频文档-音频事件共现矩阵的求取和训练阶段类似。首先将待识别的音频文档进行分帧处理，帧长30毫秒，帧与帧之间有50％的重叠；然后，对于每一帧，通过在字典中找到其最近邻以将其映射成音频字；统计待识别音频文档中各个音频字的出现次数即可得到待识别音频文档的音频文档-音频字共现矩阵，记为C_test；用PLSA对C_test进行矩阵分解，将C_test分解成A_train和B_test相乘的形式，矩阵分解如图4所示。假设待识别的音频文档数目为N_test，则B_test是尺寸为n×N_test的矩阵。记矩阵B_test的第(i,k)个元素为d_k表示第k个待识别的音频文档，e_i表示第i个音频事件，用训练阶段求得的系数向量c对待识别音频文档中的音频事件分布进行如下加权：

q_{e_{i}}^{d_{k}} = c (e_{i}) \cdot q_{e_{i}}^{d_{k}}, (i = 1, ..., n; k = 1, ..., N_{t e s t}) - - - (9)

为了使矩阵B_test中的各列表达的是音频文档中各个音频事件的出现次数，对B_test做以下处理：

q^{d_{k}} = n o r m (q^{d_{k}}) - - - (10)

q^{d_{k}} = {fNum}_{t e s t} \cdot q^{d_{k}} - - - (11)

其中，表示矩阵B_test的第k列，表示对进行归一化，fNum_test表示待识别音频文档集中的帧的总数量。做了以上处理之后的B_test即为求取的待识别音频文档集的音频文档-音频事件共现矩阵。公式(11)表示的是将用fNum_test与的乘积重新覆盖原来的的值。

(二)基于PLSA的主题分析

在训练阶段对矩阵B_train进行矩阵分解得到了尺寸为n×T2的矩阵P_train；在识别阶段用PLSA对矩阵B_test进行矩阵分解，将其分解成矩阵P_train和矩阵Q_test相乘的形式，矩阵分解如图5所示。矩阵分解后得到的Q_test是一个尺寸为T2×N_test的矩阵，Q_test的每一列对应一个音频文档，表示音频文档在T2个潜在主题上的概率分布。Q_test的每一列即为对待识别音频文档集经过PLSA主题分析后所得到的待识别音频文档的主题分布。

(三)识别输出

Q_test的每一列对应一个音频文档的主题分布，将该主题分布作为音频文档的音频特征，并将其代入训练阶段训练得到的SVM分类模型中进行分类识别，根据一对一的多类分类策略最终输出得到待识别音频文档的音频场景类别。

本发明的基于音频事件和主题模型的音频场景识别装置，包括：

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于音频事件和主题模型的音频场景识别方法，其特征在于，包括：

步骤(1)：训练音频场景分类模型；

训练音频场景分类模型的具体过程包括：

2.如权利要求1所述的一种基于音频事件和主题模型的音频场景识别方法，其特征在于，在步骤(1.1)中对训练音频文档集中的训练音频文档进行分帧处理的过程中，设置帧与帧之间有50％的重叠。

3.如权利要求1所述的一种基于音频事件和主题模型的音频场景识别方法，其特征在于，在步骤(1.1)中还对训练音频文档集中的训练音频文档提取MFCC特征，在对训练音频文档集中的训练音频文档提取MFCC特征之后，对训练音频文档集里每一音频场景类中的所有帧进行聚类，聚类后取簇质心组成音频字典，簇质心为音频字典的音频字。

4.如权利要求1所述的一种基于音频事件和主题模型的音频场景识别方法，其特征在于，在所述步骤(1.2)中求取训练音频文档集的音频文档-音频事件共现矩阵的过程中，包括：

根据音频字典将训练音频文档集中所有帧映射成音频字；

根据主题熵求取各个音频事件的加权系数；

5.如权利要求4所述的一种基于音频事件和主题模型的音频场景识别方法，其特征在于，根据音频字典将训练音频文档集中所有帧映射成音频字的方法为：

6.如权利要求1所述的一种基于音频事件和主题模型的音频场景识别方法，其特征在于，所述步骤(2)求取待识别音频文档的主题分布作为音频特征的过程，包括：

7.如权利要求6所述的一种基于音频事件和主题模型的音频场景识别方法，其特征在于，求取待识别音频文档集的音频文档-音频事件共现矩阵的过程，包括：

根据音频字典将待识别音频文档集中所有帧映射成音频字；

8.如权利要求7所述的一种基于音频事件和主题模型的音频场景识别方法，其特征在于，根据音频字典将待识别音频文档集中所有帧映射成音频字的方法为：

9.一种基于音频事件和主题模型的音频场景识别装置，其特征在于，包括：