CN109448703B

CN109448703B - 结合深度神经网络和主题模型的音频场景识别方法及系统

Info

Publication number: CN109448703B
Application number: CN201811355295.9A
Authority: CN
Inventors: 冷严; 齐广慧; 李登旺; 华庆; 方敬
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2021-05-11
Anticipated expiration: 2038-11-14
Also published as: CN109448703A

Abstract

本公开公开了结合深度神经网络和主题模型的音频场景识别方法及系统，该方法在训练阶段分别训练音频事件分类DNN神经网络、PLSA主题模型、音频场景识别DNN神经网络。测试阶段，首先将测试音频文档逐帧通过音频事件分类DNN神经网络；然后用神经网络的输出构建“音频文档‑音频事件”共现矩阵，并用PLSA主题模型对该共现矩阵进行矩阵分解，分解得到测试音频文档在潜在主题上的主题分布；最后，以“音频文档‑主题”分布作为音频场景识别DNN神经网络的输入，求得识别结果。本发明创新性地将深度神经网络和主题模型相结合，主题模型的引入有利于为深度神经网络提供更多有用信息，进而提高网络的分类识别能力。

Description

结合深度神经网络和主题模型的音频场景识别方法及系统

技术领域

本公开涉及音频场景识别技术领域，特别是涉及结合深度神经网络和主题模型的音频场景识别方法及系统。

背景技术

本部分的陈述仅仅是提高了与本公开相关的背景技术，并不必然构成现有技术。

音频场景识别是计算听觉领域重要的研究内容，可广泛应用于公共场合的智能安全监控，智能家居工程及智能机器人，具有非常广泛的应用价值。

近几年，有研究将深度学习技术应用于音频场景识别。这类研究通常是将音频文档作为神经网络的输入，在神经网络的输出端直接输出识别结果。这类方法完全依赖于神经网络，没有结合其他优秀模型。如果能在神经网络的基础上结合其它模型，为神经网络的分类识别提供更多有用信息，则必将能提高音频场景的分类识别准确率。

发明内容

为了解决现有技术的不足，本公开提供了结合深度神经网络和主题模型的音频场景识别方法及系统，该方法通过将主题模型和深度神经网络结合，为神经网络提供了更多有用信息，进而增强深度神经网络的识别能力。

第一方面，本公开提供了结合深度神经网络和主题模型的音频场景识别方法；

结合深度神经网络和主题模型的音频场景识别方法，包括：

利用训练音频事件片段，训练基于深度神经网络的音频事件分类模型；

将训练音频场景文档输入到训练好的基于深度神经网络的音频事件分类模型中，输出训练音频场景文档的表征向量；

用训练音频场景文档的表征向量训练主题模型，训练结束后输出音频场景文档的主题分布向量；

利用训练音频场景文档的主题分布向量和相应的音频场景类别标签对基于深度神经网络的音频场景识别模型进行训练；

将测试音频文档，输入到训练好的基于深度神经网络的音频事件分类模型中，输出测试音频场景文档的表征向量；

将测试音频场景文档的表征向量输入到训练好的主题模型中，输出测试音频文档的主题分布向量；

将测试音频文档的主题分布向量，输入到训练好的基于深度神经网络的音频场景识别模型中，输出音频场景类别识别结果。

在一些实施方式中，结合深度神经网络和主题模型的音频场景识别方法，还包括：

将训练音频文件分为训练音频事件片段和训练音频场景文档。

所述训练音频事件片段，是指只包含一种音频事件的音频文件，比如语音片段，笑声片段等。

所述训练音频场景文档，是指某个场景下包含多种音频事件的音频文件。比如地铁站音频场景文档，办公室音频场景文档等等。

在一些实施方式中，训练基于深度神经网络的音频事件分类模型的具体步骤为：

步骤(101)：对训练集中的训练音频事件片段进行分帧处理，每帧作为一个训练音频样本；

步骤(102)：对每个训练音频样本进行音频特征提取，用提取的音频特征表征训练音频样本；假设分帧处理后共有N个样本，将其表达为{(x_i,y_i),i＝1,...,N}，其中x_i表示第i个样本的音频特征，y_i表示第i个样本的类标签；

步骤(103)：设定基于深度神经网络的音频事件分类模型；

步骤(104)：以{(x_i,y_i),i＝1,...,N}作为训练数据，对基于深度神经网络的音频事件分类模型进行训练，最后得到训练好的基于深度神经网络的音频事件分类模型。

在一些实施方式中，所述步骤(101)将帧长设定为30毫秒，帧移设定为15毫秒；

在一些实施方式中，所述步骤(102)对每个训练音频样本提取39维MFCC特征，用所述39维MFCC特征来表达每个训练音频样本；y_i采用one-hot表达方式；假设训练集中共有M类音频事件，则y_i是M维向量。假设类标签y_i表达的是M类中的第j类，则y_i向量的第j维为1，其它维的值都为0；

在一些实施方式中，所述步骤(103)基于深度神经网络的音频事件分类模型，包括：

依次连接的输入层、第一隐藏层、第二隐藏层、第三隐藏层和输出层；

所述输入层，用于接收训练样本x_i，i＝1,2,...,N；

所述第一隐藏层，用于接收输入层的输出值，计算得到当前隐藏层内各个神经元的输出值；

所述第二隐藏层，用于接收第一隐藏层的输出值，计算得到当前隐藏层内各个神经元的输出值；

所述第三隐藏层，用于接收第二隐藏层的输出值，计算得到当前隐藏层内各个神经元的输出值；

所述输出层，用于接收第三隐藏层的输出值，计算得到当前输出层各个神经元的输出值；

输入层节点个数为39个；每个隐藏层的节点个数设定78个；

将输出层节点个数设定为训练集中音频事件的类别数M；

每个节点采用ReLU函数作为激活函数。

在一些实施方式中，将训练音频场景文档输入到训练好的基于深度神经网络的音频事件分类模型中，输出训练音频场景文档的表征向量的具体步骤为：

步骤(201)：对训练音频场景文档进行和步骤(101)中同样的分帧处理；

步骤(202)：对训练音频场景文档进行和步骤(102)中同样的特征提取处理；

步骤(203)：对每个训练音频场景文档，将其逐帧输入到训练好的基于深度神经网络的音频事件分类模型，在训练好的基于深度神经网络的音频事件分类模型的输出端得到每一帧的M维向量，M维向量的每个元素值表示当前帧中每个音频事件的出现次数；

步骤(204)：对每个音频场景文档，将其所有帧的M维向量相加求和，用和值向量表征音频场景文档；

步骤(205)：以每个训练音频场景文档的和值向量作为列向量，将所有训练音频场景文档排列成一个矩阵A_train。

在一些实施方式中，用训练音频场景文档的表征向量训练主题模型，训练结束后输出音频场景文档的主题分布向量的具体步骤为：

步骤(301)：以矩阵A_train作为主题模型PLSA(Probabilistic Latent SemanticAnalysis)的输入,训练主题模型PLSA，训练结果中，PLSA对矩阵A_train进行矩阵分解，分解后得到Q_train。

A_train＝P_train*Q_train；

假设共有T个潜在主题，P_train表示尺寸为M×T的矩阵，矩阵的每一列代表一个主题在M个不同音频事件上的分布。

在一些实施方式中，所述步骤(301)矩阵分解，矩阵分解后的Q_train是一个尺寸为T×L的矩阵。Q_train的每一列对应一个音频文档，表示音频文档在T个潜在主题上的概率分布。Q_train中的每一列即为对训练音频文档经过PLSA主题分析后所得到的训练音频文档的主题分布。

在一些实施方式中，利用训练音频文档的主题分布向量和相应的音频场景类别标签对基于深度神经网络的音频场景识别模型进行训练之前，需要先建立基于深度神经网络的音频场景识别模型，所述基于深度神经网络的音频场景识别模型，包括：

依次连接的输入层、第一隐藏层、第二隐藏层、第三隐藏层、原始输出层、softmax层和最终输出层；

所述输入层，用于接收训练音频文档的主题分布向量；

所述原始输出层，用于接收第三隐藏层的输出值，计算得到当前输出层各个神经元的输出值；

softmax层，用于接收原始输出层的输出值，将其转换为概率分布值；

最终输出层，用于输出softmax层的转换值。

输入层节点个数设定为潜在主题的个数T，每个隐藏层的节点个数设定为输入层节点个数的2倍，即2T；假设训练集中的音频场景类别数为K，则将原始输出层和最终输出层节点个数设定为K，神经网络的节点采用ReLU函数作为激活函数。

在一些实施方式中，利用训练音频文档的主题向量和相应的音频场景类别标签对基于深度神经网络的音频场景识别模型进行训练的具体步骤为：

步骤(401)：假设Q_train中的每一列用f_i表示，i＝1,...,L，f_i对应训练集中的第i个音频场景文档，表示第i个音频场景文档在T个潜在主题上的概率分布。f_i对应的音频场景类别标签用z_i表示；以{(f_i,z_i),i＝1,...,L}作为训练数据，对基于深度神经网络的音频场景识别模型进行训练。

所述z_i采用one-hot表达方式，即z_i是K维向量，假设其属于第j类音频场景，则z_i的第j维的值为1，其它维的值都为0。

在一些实施方式中，将测试音频文档，输入到训练好的基于深度神经网络的音频事件分类模型中，输出测试音频场景文档的表征向量的具体步骤为：

步骤(501)：对测试音频场景文档进行与训练音频场景文档一样的分帧处理和特征提取处理；

步骤(502)：对每个测试音频场景文档，将其提取的特征逐帧输入到训练好的基于深度神经网络的音频事件分类模型中，输出每一帧的M维向量；M维向量的各个元素值表示当前帧中各个音频事件的出现次数；

步骤(503)：对每个测试音频场景文档，将其所有帧的M维向量相加求和，用该和值向量表达该音频场景文档；

步骤(504)：以每个测试音频场景文档的和值向量作为列向量，将所有测试音频场景文档排列成一个矩阵A_test。

在一些实施方式中，将测试音频场景文档的表征向量输入到训练好的主题模型中，输出测试音频文档的主题向量的具体步骤为：

步骤(601)：以矩阵A_test作为步骤(301)中训练好的主题模型PLSA的输入，PLSA对A_test进行矩阵分解，矩阵分解的过程中，保持训练阶段步骤(301)中求得的P_train不变，矩阵分解后得到矩阵Q_test。

A_test＝P_train*Q_test；

在一些实施方式中，将测试音频文档的主题向量，输入到训练好的基于深度神经网络的音频场景识别模型中，输出场景类别识别结果：

步骤(701)：对矩阵Q_test中的每一列，将其作为步骤(401)中训练好的基于深度神经网络的音频场景识别模型的输入，网络的输出值表示Q_test中的每一列所代表的测试音频文档在各个音频场景类上的概率分布，记概率分布为[g₁,g₂,...,g_k]；g₁表示在第1类音频场景上的概率值，g_k表示在第k类音频场景上的概率值。

步骤(702)：求得测试音频文档的音频场景类别标签label：

其中，g_i表示在第i类音频场景上的概率值。

第二方面，本公开还提供了一种结合深度神经网络和主题模型的音频场景识别系统；

结合深度神经网络和主题模型的音频场景识别系统，包括：

音频事件分类模型训练模块，利用训练音频事件片段，训练基于深度神经网络的音频事件分类模型；

训练音频场景文档的表征向量提取模块，将训练音频场景文档输入到训练好的基于深度神经网络的音频事件分类模型中，输出训练音频场景文档的表征向量；

训练音频场景文档的主题分布向量提取模块，用训练音频场景文档的表征向量训练主题模型，训练结束后输出音频场景文档的主题分布向量；

音频场景识别模型训练模块，利用训练音频场景文档的主题分布向量和相应的音频场景类别标签对基于深度神经网络的音频场景识别模型进行训练；

测试音频场景文档的表征向量提取模块，将测试音频文档，输入到训练好的基于深度神经网络的音频事件分类模型中，输出测试音频场景文档的表征向量；

主题分布向量提取模块，将测试音频场景文档的表征向量输入到训练好的主题模型中，输出测试音频文档的主题分布向量；

音频场景类别识别模块，将测试音频文档的主题分布向量，输入到训练好的基于深度神经网络的音频场景识别模型中，输出音频场景类别识别结果。

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面任一可能的实现方式中的方法。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面任一可能的实现方式中的任一方法的步骤。

与现有技术相比，本公开的有益效果是：

(1)本发明创新性地将深度神经网络和主题模型相结合，主题模型的引入有利于为深度神经网络提供更多有用信息，进而提高网络的分类识别能力。

(2)本发明提出在训练音频事件分类DNN神经网络时以帧为单位作为输入，输出端采用one-hot表示方法，这种设计能很好地统计音频文档中各个音频事件的出现次数，因而能精确地构建“音频文档-音频事件”共现矩阵，提高主题模型的分析精度。

(3)本发明通过主题模型为音频场景文档提取统一维度的特征表达，避免了音频场景文档长度不同所带来的处理问题。

(4)本发明提出的深度神经网络和主题模型的结合方案并不局限于音频场景识别，其可以广泛地推广到各个分类判别领域，为其它分类判别领域提供方法借鉴。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为一个或多个实施方式的结合深度神经网络和主题模型的音频场景识别方法流程图；

图2为一个或多个实施方式的用于音频事件分类的DNN神经网络结构图；

图3为一个或多个实施方式的PLSA对A_traint的矩阵分解示意图；

图4为一个或多个实施方式的用于音频场景识别的DNN神经网络结构图；

图5为一个或多个实施方式的PLSA对A_test的矩阵分解示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1：如图1所示，本发明提出的音频场景识别方法主要分为两大模块：训练过程和分类测试过程。其中，训练过程包括基于DNN的音频事件分类模型训练、音频文档主题模型训练、基于DNN的音频场景识别模型训练。分类测试过程包括基于DNN的音频事件分类、音频文档主题分析、基于DNN的音频场景识别。以下将对各个部分做详细介绍。

首先介绍训练过程：

(一)基于DNN的音频事件分类模型训练

训练集中的训练数据包括两部分：音频事件的音频片段，音频场景文档。基于DNN的音频事件分类模型采用纯净音频事件的音频片段进行训练。首先对纯净音频事件的音频片段进行分帧处理，每帧作为一个音频样本。根据经验法则，本发明将帧长设定为30毫秒，帧移设定为15毫秒。表征音频信号最常用的特征是39维MFCC特征，因此本申请对每个帧提取39维MFCC特征，用此39维MFCC特征来表达训练音频样本。假设训练集中的纯净音频事件片段在经过分帧和特征提取处理后共有N个样本，将其表达为以下形式{(x_i,y_i),i＝1,...,N}，其中x_i表示第i个样本，y_i表示第i个样本的类标签，采用one-hot表达方式。假设训练集中共有M类不同的纯净音频事件，则y_i是M维向量。假设类标签y_i表达的是M类中的第j类，则y_i向量的第j维为1，其它维的值都为0。

音频事件分类模型采用如图2所示的DNN神经网络结构，神经网络包含输入层，3个隐藏层和输出层。因为训练音频样本采用39维MFCC特征表达，所以将DNN神经网络的输入层节点个数设定为39。将每个隐藏层的节点个数设定为输入层节点个数的2倍，即78。神经网络的输出层节点个数设定为训练集中纯净音频事件的类别数M。每个节点采用ReLU函数作为激活函数。以{(x_i,y_i),i＝1,...,N}作为训练数据，采用深度学习技术训练DNN神经网络。

(二)音频文档主题模型训练

训练集中的训练数据包括两部分：纯净音频事件的音频片段，音频场景文档。音频文档主题模型训练部分采用音频场景文档作为训练数据。首先对音频场景文档进行和(一)中同样的分帧及特征提取处理；然后，对每个音频场景文档，将其逐帧通过(一)中训练好的DNN神经网络，每一帧在网络的输出端会得到M维向量，该向量表达的是该帧中各个音频事件的出现次数。将音频场景文档的所有帧的网络输出相加求和，用该和值向量表达该音频场景文档；最后，以每个音频场景文档的和值向量作为列向量，将其排列成一个矩阵，记为A_train,该矩阵表达的是“音频场景文档-音频事件”共现矩阵。假设训练集中共有L个音频场景文档，则A_train是尺寸为M×L的矩阵。

本发明采用PLSA作为主题模型，以A_train作为音频文档主题模型的输入。PLSA对“音频场景文档-音频事件”共现矩阵A_train,进行矩阵分解，矩阵分解如图3所示。假设共有T个潜在主题，则矩阵分解后的P_train是尺寸为M×T的矩阵，矩阵的每一列代表一个主题在M个不同音频事件上的分布；Q_train是一个尺寸为T×L的矩阵，Q_train的每一列对应一个音频文档，表示音频文档在T个潜在主题上的概率分布。Q_train中的每一列即为对训练音频文档经过PLSA主题分析后所得到的训练音频文档的主题分布。

(三)基于DNN的音频场景识别模型训练

音频场景识别模型同样采用如图4所示的DNN神经网络结构。神经网络包含输入层、3个隐藏层、原始输出层，softmax层和最终输出层。softmax层的作用是将原始输出层的值转换为一个概率分布。因为DNN神经网络的输入是Q_train中的每一列，因此DNN神经网络的输入层节点个数设定为T。将每个隐藏层的节点个数设定为输入层节点个数的2倍，即2T。假设训练集中的音频场景类别数为K，则将神经网络的原始输出层和最终输出层节点个数设定为K。神经网络的节点采用ReLU函数作为激活函数。假设Q_train中的每一列用f_i,i＝1,...,L表示，其相应的音频场景类别标签用z_i,i＝1,...,L表示。z_i采用one-hot表达方式，即z_i是K维向量，假设其属于第j类音频场景，则z_i的第j维的值为1，其它维的值都为0。以{(f_i,z_i),i＝1,...,L}作为训练数据，采用深度学习技术训练DNN神经网络。

以下介绍分类测试过程：

(一)基于DNN的音频事件分类

对测试音频场景文档进行和训练阶段同样的分帧及特征提取处理。对每个测试音频场景文档，将其逐帧通过训练阶段(一)中训练好的DNN神经网络，每一帧在网络的输出端会得到M维向量，该向量表达的是该帧中各个音频事件的出现次数。对每个测试音频场景文档，将其所有帧的网络输出相加求和，用该和值向量表达该音频场景文档；最后，以每个测试音频场景文档的和值向量作为列向量，将其排列成一个矩阵，记为A_test。假设测试集中共有S个音频场景文档，则A_test是尺寸为M×S的矩阵。

(二)音频文档主题分析

以A_test作为音频文档主题模型的输入。PLSA对A_test进行矩阵分解，矩阵分解如图5所示,分解过程中保持训练阶段求得的P_train不变，矩阵分解后的Q_test是一个尺寸为T×S的矩阵。Q_test的每一列对应一个测试音频文档，表示测试音频文档在T个潜在主题上的概率分布。Q_test中的每一列即为对测试音频文档经过PLSA主题分析后所得到的测试音频文档的主题分布。

(三)基于DNN的音频场景识别

Q_test中的一列表示某一测试音频文档的主题分布，将其作为训练阶段(三)中训练好的DNN神经网络的输入，在网络的输出端会得到该测试音频文档在各个音频场景类上的概率分布，假设此概率分布为[g₁,...,g_K]，则该测试音频文档的音频场景类别标签通过下式求得：

实施例2：本公开还提供了一种结合深度神经网络和主题模型的音频场景识别系统；

结合深度神经网络和主题模型的音频场景识别系统，包括：

实施例3：本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成方法中的各个操作，为了简洁，在此不再赘述。

应理解，在本公开中，该处理器可以是中央处理单元CPU，该处理器还算可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外一点，所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

实施例4：所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.结合深度神经网络和主题模型的音频场景识别方法，其特征是，包括：

步骤(103)：设定基于深度神经网络的音频事件分类模型；

步骤(104)：以{(x_i,y_i),i＝1,...,N}作为训练数据，对基于深度神经网络的音频事件分类模型进行训练，最后得到训练好的基于深度神经网络的音频事件分类模型；

将训练音频场景文档输入到训练好的基于深度神经网络的音频事件分类模型中，输出训练音频场景文档的表征向量的具体步骤为：

步骤(205)：以每个训练音频场景文档的和值向量作为列向量，将所有训练音频场景文档排列成一个矩阵A_train；

用训练音频场景文档的表征向量训练主题模型，训练结束后输出音频场景文档的主题分布向量的具体步骤为：

步骤(301)：以矩阵A_train作为主题模型PLSA的输入,训练主题模型PLSA，训练结果中，PLSA对矩阵A_train进行矩阵分解，分解后得到Q_train；

A_train＝P_train*Q_train；

假设共有T个潜在主题，P_train表示尺寸为M×T的矩阵，矩阵的每一列代表一个主题在M个不同音频事件上的分布；所述步骤(301)矩阵分解，矩阵分解后的Q_train是一个尺寸为T×L的矩阵；Q_train的每一列对应一个音频文档，表示音频文档在T个潜在主题上的概率分布；Q_train中的每一列即为对训练音频文档经过PLSA主题分析后所得到的训练音频文档的主题分布；

利用训练音频文档的主题向量和相应的音频场景类别标签对基于深度神经网络的音频场景识别模型进行训练的具体步骤为：

步骤(401)：假设Q_train中的每一列用f_i表示，i＝1,...,L，f_i对应训练集中的第i个音频场景文档，表示第i个音频场景文档在T个潜在主题上的概率分布；f_i对应的音频场景类别标签用z_i表示；以{(f_i,z_i),i＝1,...,L}作为训练数据，对基于深度神经网络的音频场景识别模型进行训练；

2.如权利要求1所述的结合深度神经网络和主题模型的音频场景识别方法，其特征是，结合深度神经网络和主题模型的音频场景识别方法，还包括：

将训练音频文件分为训练音频事件片段和训练音频场景文档；所述训练音频事件片段，是指只包含一种音频事件的音频文件；所述训练音频场景文档，是指某个场景下包含多种音频事件的音频文件。

3.如权利要求1所述的结合深度神经网络和主题模型的音频场景识别方法，其特征是，所述基于深度神经网络的音频事件分类模型，包括：

所述输入层，用于接收训练样本x_i，i＝1,2,...,N；

输入层节点个数为39个；每个隐藏层的节点个数设定78个；

将输出层节点个数设定为训练集中音频事件的类别数M；

每个节点采用ReLU函数作为激活函数。

4.如权利要求1所述的结合深度神经网络和主题模型的音频场景识别方法，其特征是，利用训练音频文档的主题分布向量和相应的音频场景类别标签对基于深度神经网络的音频场景识别模型进行训练之前，需要先建立基于深度神经网络的音频场景识别模型，所述基于深度神经网络的音频场景识别模型，包括：

所述输入层，用于接收训练音频文档的主题分布向量；

最终输出层，用于输出softmax层的转换值；

5.如权利要求1所述的结合深度神经网络和主题模型的音频场景识别方法，其特征是，将测试音频文档，输入到训练好的基于深度神经网络的音频事件分类模型中，输出测试音频场景文档的表征向量的具体步骤为：

步骤(504)：以每个测试音频场景文档的和值向量作为列向量，将所有测试音频场景文档排列成一个矩阵A_test；

将测试音频场景文档的表征向量输入到训练好的主题模型中，输出测试音频文档的主题向量的具体步骤为：

步骤(601)：以矩阵A_test作为步骤(301)中训练好的主题模型PLSA的输入，PLSA对A_test进行矩阵分解，矩阵分解的过程中，保持训练阶段步骤(301)中求得的P_train不变，矩阵分解后得到矩阵Q_test：

A_test＝P_train*Q_test；

将测试音频文档的主题向量，输入到训练好的基于深度神经网络的音频场景识别模型中，输出场景类别识别结果：

步骤(701)：对矩阵Q_test中的每一列，将其作为步骤(401)中训练好的基于深度神经网络的音频场景识别模型的输入，网络的输出值表示Q_test中的每一列所代表的测试音频文档在各个音频场景类上的概率分布，记概率分布为[g₁,g₂,...,g_k]；g₁表示在第1类音频场景上的概率值，g_k表示在第k类音频场景上的概率值；

步骤(702)：求得测试音频文档的音频场景类别标签label：

其中，g_i表示在第i类音频场景上的概率值。

6.结合深度神经网络和主题模型的音频场景识别系统，其特征是，包括：

步骤(103)：设定基于深度神经网络的音频事件分类模型；

A_train＝P_train*Q_train；