CN108305616B

CN108305616B - 一种基于长短时特征提取的音频场景识别方法及装置

Info

Publication number: CN108305616B
Application number: CN201810039421.3A
Authority: CN
Inventors: 袁庆升; 白海钏; 张鹏远; 包秀国; 刘洋; 张翠; 汪立东; 杜翠兰; 时磊; 张鸿; 云晓春; 颜永红; 崔佳; 林绅文; 王钲淇
Original assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Priority date: 2018-01-16
Filing date: 2018-01-16
Publication date: 2021-03-16
Anticipated expiration: 2038-01-16
Also published as: CN108305616A

Abstract

本发明涉及一种基于长短时特征提取的音频场景识别方法及装置，该方法包括，对输入待识别音频信号进行预处理；对经过预处理后的所述待识别音频信号，进行短时音频特征提取，再进行长时音频特征提取，将所述待识别音频信号的所述长、短时音频特征联合，输入分类模型及其融合模型，进行分类和识别，输出音频场景的识别标签。本发明在常规短时特征提取的基础之上，进一步联合音频场景长时特征，可以表征复杂的音频场景信息，输入分类模型及其融合模型，进行分类和识别，输出音频场景的识别标签，其鲁棒性更强、区分性更好，且能够在更大程度上表征场景数据的整体特性，识别效率高、稳定性强。

Description

一种基于长短时特征提取的音频场景识别方法及装置

技术领域

本发明涉及音频场景识别领域，特别涉及一种基于长短时特征提取的音频场景识别方法及装置。

背景技术

伴随着信息化社会的发展和互联网技术的普及，大量的数字化音频内容充斥在日常生活当中。面对数据量的快速膨胀，传统基于手工本文标注和结构化先验知识的分析方法受到效率和稳定性的限制，无法实现对音频数据的内容分析和信息管理，从而使得真正被人关注的信息或有价值的知识被淹没在海量的音频大数据当中。与此同时，真实声音采集条件下的特定复杂场景同样限制了人们对数字化音频内容和事件的有效管理。这里音频场景的复杂性主要体现在背景声音的多样性及其时频非平稳特性、声场空间混响条件的不确定性以及多个声源目标的时频交叠性。在真实环境下对音频场景和事件检测需要模拟人类的听觉感知和音频场景理解机制，提取能够表征潜在的、有限的先验信息、具有某种规律和内容的特征信息，进而为音频内容中场景识别、事件检测以及音频内容高层语义的知识挖掘提供支撑，以期实现对海量音频数据的高效管理。

随着大数据和机器学习理论的迅猛发展，声音中所携带的信息已经可以被更深入地发掘和利用。音频场景分类通过采用信号处理和机器学习方法对一段连续音频流进行分析，辨别该段音频发生的环境场景，并联合特定的语义标签对系统输入的所有音频场景类别进行区分。一般来说，音频场景识别技术主要分为音频特征的提取和分类模型的构建两个方面。其中，特征提取模块对后续模型识别性能的提升具有至关重要的作用。目前音频场景识别主要采用传统识别特征，例如：短时能量、过零率、梅尔频率倒谱系数等及其变种、采用模型拟合或无监督学习得到的特征等，这些特征基本上都是在较短时间窗内进行分析和提取而得到。由于实际音频场景存在背景噪声等干扰声、场景采集的真实环境具有复杂性以及场景频谱结构具有多样性等原因，音频场景数据与语音和音乐信号相比，频谱结构更为复杂，甚至同一种场景数据也会呈现不同的时频动态变化。而且音频场景数据跟语音信号相比，具有较长时间范围内的稳定性，且存在更强的全局整体特性。因此目前借鉴其他领域采用帧级别的短时特征并不足以表征复杂的音频场景信息，需针对音频场景识别领域引入鲁棒性更强、区分性更好的特征提取方法，且能够在更大程度上表征场景数据的整体特性。

常见音频场景识别系统的流程图如图1所示，常见音频场景识别系统根据输入的音频文件，首先对其进行预处理，该模块具体包括音频格式转换、采样率转换，对格式统一后的音频信号进行分帧、加窗、预滤波和预加重等处理过程。然后，对经过预处理后的信号进行时域、频域和倒谱域等特征提取和不同方式的特征拼接过程。接下来，采用不同分类模型及其融合模型根据提取的特征进行分类和识别，这些模型包括GMM(Gaussian MixtureModel)、HMM(Hidden Markov Model)、SVM(Support Vector Machine)等传统分类模型，也可以是CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)、TDNN(Time-DelayNeuralNetwork)、LSTM(Long Short-Term Memory)等深度神经网络模型。最后对识别结果进行多数投票、打分融合等后处理过程得到最终的音频场景识别标签。

鉴于音频场景数据存在背景噪声干扰、场景采集环境复杂以及频谱结构多样等原因，目前很难找到能够充分表征不同音频场景信息的有效特征。

发明内容

本发明的目的在于，克服现有技术中很难找到能够充分表征不同音频场景信息的有效特征的问题，引入鲁棒性更强、区分性更好的特征提取方法，从而提供一种基于长短时特征提取的音频场景识别方法及装置。

为了解决上述技术问题，第一方面，本发明实施例提供一种基于长短时特征提取的音频场景识别方法，包括：

对输入待识别音频信号进行预处理；

对经过预处理后的所述待识别音频信号，进行短时音频特征提取，再进行长时音频特征提取；

将所述待识别音频信号的所述长、短时音频特征联合，输入分类模型及其融合模型，进行分类和识别，输出音频场景的识别标签。

作为上述方法的一种改进，所述短时音频特征提取，为短时窗内或者帧级别的短时音频特征提取；

所述短时音频特征包括：时域特征、频域特征和倒谱特征。

作为上述方法的又一种改进，所述长时音频特征提取，包括：整条音频文件的音频场景高斯超向量和音频场景总变化因子特征提取。

作为上述方法的再一种改进，所述音频场景高斯超向量特征提取，包括：

使用大量音频场景背景数据训练一个与目标场景无关的背景模型；

然后针对每个音频场景进行最大后验估计，更新所述背景模型参数，得到不同目标场景的GMM模型；

对所述目标场景均值向量进行更新得到

采用计算统计量的方法将所述目标场景的均值向量

拼接成一个高维的超向量Sn，所述Sn为音频场景高斯超向量。

作为上述方法的还一种改进，所述音频场景总变化因子特征提取，包括：

构建GMM-UBM模型，采用期望最大化算法计算得到模型参数

提取高斯超向量；

根据GMM-UBM、高斯超向量和总变化因子分析模型假设，计算总变化矩阵T；

计算总变化因子w_n的期望；

将w_n期望进行存储得到SI-vector特征向量，所述SI-vector特征向量为音频场景总变化因子特征向量。

第二方面，本发明实施例提供一种基于长短时特征提取的音频场景识别装置，

包括：预处理模块，用于对输入待识别音频信号进行预处理；

短时提取模块，用于对经过预处理后的所述待识别音频信号，进行短时音频特征提取；

长时提取模块，用于在所述短时提取模块对短时音频特征提取后，进行长时音频特征提取；

输出模块，用于将所述待识别音频信号的所述长、短时音频特征联合，输入分类模型及其融合模型，进行分类和识别，输出音频场景的识别标签。

作为上述装置的一种改进，所述短时提取模块，具体用于短时窗内或者帧级别的短时音频特征提取；所述短时音频特征包括：时域特征、频域特征和倒谱特征。

作为上述装置的又一种改进，所述长时提取模块，包括：

第一提取子模块，用于整条音频文件的音频场景高斯超向量特征提取；

第二提取子模块，用于音频场景总变化因子特征提取。

作为上述装置的再一种改进，所述第一提取子模块，具体用于使用大量音频场景背景数据训练一个与目标场景无关的背景模型；然后针对每个音频场景进行最大后验估计，更新所述背景模型参数，得到不同目标场景的GMM模型；对所述目标场景均值向量进行更新得到

采用计算统计量的方法将所述目标场景的均值向量

拼接成一个高维的超向量Sn，所述Sn为音频场景高斯超向量。

作为上述装置的还一种改进，所述第二提取子模块，具体用于构建GMM-UBM模型，采用期望最大化算法计算得到模型参数

提取高斯超向量；根据GMM-UBM、高斯超向量和总变化因子分析模型假设，计算总变化矩阵T；计算总变化因子w_n的期望；将w_n期望进行存储得到SI-vector特征向量，所述SI-vector特征向量为音频场景总变化因子特征向量。

本发明的优点在于，本发明的一种基于长短时特征提取的音频场景识别方法及装置，针对现有技术中很难找到能够充分表征不同音频场景信息的有效特征的问题，引入鲁棒性更强、区分性更好的特征提取方法，本发明在常规短时特征提取的基础之上，进一步联合音频场景长时特征，可以表征复杂的音频场景信息，输入分类模型及其融合模型，进行分类和识别，输出音频场景的识别标签，其鲁棒性更强、区分性更好，且能够在更大程度上表征场景数据的整体特性，识别效率高、稳定性强。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为现有技术中常见音频场景识别系统的流程图；

图2为本发明实施例提供的基于长短时特征提取的音频场景识别方法的流程图；

图3为本发明实施例提供的长短时特征提取框架图；

图4为本发明实施例提供的音频场景识别系统；

图5为本发明实施例提供的基于长短时特征提取的音频场景识别装置。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种基于长短时特征提取的音频场景识别方法，参照图2所示，包括：

S201、对输入待识别音频信号进行预处理；

S202、对经过预处理后的所述待识别音频信号，进行短时音频特征提取，再进行长时音频特征提取；

S203、将所述待识别音频信号的所述长、短时音频特征联合，输入分类模型及其融合模型，进行分类和识别，输出音频场景的识别标签。

本发明在常规短时特征提取的基础之上，进一步联合音频场景长时特征，可以表征复杂的音频场景信息，输入分类模型及其融合模型，进行分类和识别，输出音频场景的识别标签，其鲁棒性更强、区分性更好，且能够在更大程度上表征场景数据的整体特性，识别效率高、稳定性强。

下面将对音频场景的特征提取进行详细介绍，如图3所示，该过程分为短时特征提取过程和长时特征提取过程两块内容，训练和测试的时候均按照该流程进行特征提取过程，用于后端模型的分类和识别。

音频场景特征提取之前，需要对输入音频信号进行预处理。上述步骤S201，具体包括：首先是对音频格式、采样率、声道数目等进行转换，常见音频信号采样率包括8kHz、16kHz、44.1kHz。然后该信号通过等时间间隔采样转换为特征序列，由于音频信号在10ms～50ms内具有短时平稳性，所以算法需要对输入信号进行分帧处理(加短时窗)，一般帧长设置为20ms，帧移10ms或者帧长40ms，帧移20ms。考虑到音频信号采样率的提升及音频信号内容的复杂性，可以将帧长和帧移适当加长。语音信号常见的预加重模块在此处并不适用，原因在于语音信号受声门激励和口鼻辐射等影响，高频部分约在800Hz以上按照6dB/倍频程衰减，而音频信号并不适应该原理。

步骤S202中短时音频特征提取，一般包括在短时帧或若干拼接帧内进行不同时频域特征或倒谱特征及其变种特征的提取过程。相对于语音和音乐文件，音频文件背景噪声更为复杂、频谱结构更加多样，仅在短时特征基础上进行音频场景识别效果一般。并且将包含场景信息的整条音频文件进行对比发现：相同场景的整段音频具有明显的整体相似性，在较长时间段内发生事件、产生背景噪声的次序略有区别但事件内容、噪声类型基本相似，频谱结构相近；不同场景的整段音频具有明显的区分性，在较长时间段内事件内容、噪声类型区别较大，频谱分布差异明显。因此，本发明在常规短时特征提取的基础之上，进一步联合音频场景长时特征进行识别，音频场景识别方法应用于音频场景识别系统，增加了针对整段音频文件进行综合处理来更好表达音频整体信息的特征提取步骤。

上述音频场景识别系统如图4所示，首先根据背景数据经过特征提取、高斯混合模型训练得到一个高斯通用背景模型即GMM-UBM(Gaussian MixtureModel-UniversalBackground Model)，同时基于背景数据和统计量计算得到总变化因子分析模型；然后，分别对训练数据中每个音频文件逐帧提取短时音频特征向量；接下来根据训练好的GMM-UBM，结合训练数据提取的短时特征向量对统计量进行计算，并基于计算出的统计量和前面得到的总变化因子分析模型进一步提取总变化因子w_n来表征训练数据中每条音频的整体信息，并将训练数据中的长、短时音频特征联合(例如将长短时特征逐帧串联拼接，或将短时特征经前后帧拓展后与长时特征进行串联拼接)输入识别模型(例如深度神经网络)进行训练，最后根据训练好的模型和测试音频对不同场景进行识别，其中测试数据长短时特征的提取过程与训练数据类似，不再赘述。通过上述过程，最终完成对不同音频场景类型的识别过程。

基于长短时联合特征提取的音频场景识别方法，具体操作如下：

第一，对经过预处理后的音频信号，音频场景识别系统首先进行短时窗内或者说帧级别的短时特征提取。短时特征包括短时能量、基频、过零率等时域特征；频谱重心、频谱通量、谱平坦度、谱熵等频域特征；还有梅尔频率倒谱系数、Gammatone滤波器组倒谱系数等倒谱特征等。假设数据集中共有N条音频场景文件，第n(n＝1,…,N)条音频所提取的短时特征向量用x_n来表示。

第二，在短时特征提取完成的基础上，音频场景识别系统将继续对音频场景长时特征进行提取。长时特征的提取包括整条音频文件的高斯超向量(GaussianSupervector)和场景总变化因子(Scene Identity Vector,SI-vector)特征提取两个步骤，下面将分别对这两部分内容进行详细介绍。

A)音频场景高斯超向量

高斯超向量主要来源于高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)。GMM-UBM基于GMM模型构建，建模方法是首先使用大量音频场景背景数据训练一个与目标场景无关的背景模型，然后针对每个场景进行最大后验估计，更新背景模型参数，从而达到估计每个场景GMM模型参数的目的。

高斯混合模型是一种非常适于构建概率密度的统计模型，只要高斯数足够大，高斯混合模型可以描述任意一种概率分布。高斯混合模型中的混合高斯分布是一系列高斯分布的加权组合。假设背景训练数据集中共有N条音频，每条音频的总帧数为P帧。假设：第n(n＝1,…,N)条音频的第p(p＝1,…,P)帧的特征向量用x_np来表示；对于M个高斯分布，在第j(j＝1,…,M)个高斯分布上产生向量x_np的概率密度函数为p_j(x_np)；；高斯混合模型的权重向量定义为π_j，并且有π_j≥0；

则x_np的概率密度函数可以表示为：

对于高斯混合模型中的第j个高斯分量有p_j(x_np)＝N(x_np|μ_j,Σ_j)，N(.)表示高斯分布。于是，上述公式化为：

在上述GMM-UBM模型中，采用期望最大化算法计算得到模型参数

音频场景高斯超向量是在上述UBM模型基础上根据目标场景音频数据进行最大后验估计得到不同目标场景的GMM模型，同时对目标场景均值向量进行更新得到

并进行拼接所得。这里的目标场景是指训练或测试数据集中包含的音频场景，假设目标场景的音频文件总条数仍为N，第n(n＝1,…,N)条音频的第p(p＝1,…,P)帧的特征向量仍用x_np来表示，这里采用p(j|x_np)表示场景特征向量x_np在GMM-UBM模型中第j个高斯上的后验概率值，j＝1,…,M。下面将采用计算统计量的方法对目标场景的均值向量进行更新。

首先，需要求解第n条音频在第j个高斯上的零阶统计量N_jn与一阶统计量F_jn：

根据所得到的统计量对模型的均值向量进行更新，有

其中，初值β₀一般取值为8～20之间，常取16。

根据上述所得目标场景GMM模型各个高斯分量的均值向量

拼接成一个高维的超向量Sn，称之为音频场景高斯超向量。该高斯超向量维数通常在10000维以上，每个场景模型的超向量长度一致。

B)音频场景总变化因子

GMM-UBM系统通过高斯混合模型的训练将场景的低维声学特征投影到高维空间上，成为具有较高维度的高斯超向量。鉴于高斯超向量的联合因子分析(Joint FactorAnalysis,JFA)和总变化因子分析具有比较成熟的技术，而且音频场景特征不仅需要充分表征内容等信息，同时需要考虑去除特征间冗余，能在较少维度下保证特征的鲁棒性，因此本发明将音频场景的高斯超向量进行压缩投影，使其变成一种能够表征场景标签的低维因子SI-vector，在较少维度下作为长时鲁棒特征来描述不同音频场景的整体信息。下面将对该长时特征的提取过程进行详细介绍。

SI-vector来源于总变化空间中的总变化因子分析。总变化空间由总变化矩阵T来构建，该空间将高维空间的高斯超向量通过因子分析的方式映射到低维空间，得到的低维因子就是音频场景总变化因子w_n。假设训练或者测试数据集中共有N条音频文件，第n条音频的高斯超向量用Sn来表示。GMM高斯数目设为M，则总变化因子w_n分析的模型假设如下：

S_n＝m+Tw_n (6)

其中，

w_n～N(0,I) (9)

符号t代表矩阵的转置。

上述公式8中N(.)表示高斯分布，总变化因子分析模型中，总变化因子w_n符合均值为0，方差为I的高斯分布。假设训练和测试音频的特征维数设为F，总变化因子的维数设为C，则总变化矩阵T的大小为MF×C。总变化因子分析假设不区分场景类别和这个场景对应音频的类别，认为它们都是等价且独立的。由于模型假设中并未假设因子分析独立的的均值和方差，它们依附于GMM-UBM的模型参数，均值m由UBM均值向量构成，方差∑由UBM各高斯分量上的方差按对角线拼接而成。

从上述模型假设来看，总变化因子分析模型中只有一个隐藏因子T，即模型需要估计的参数为T，下面将采用期望最大化算法和模型假设即公式6对参数T进行推导和估计。为方便计算，首先求解第n条音频在第j个高斯上的Baum-Welch统计量N’_jn与F’_jn，公式如下：

为了方便得到后验概率，进行如下的矩阵拼接：

N_n＝[N′_1nN′_2n…N′_Mn]^t (12)

F_n＝[F′_1nF′_2n…F′_Mn]^t (13)

根据Baum-Welch统计量和GMM-UBM模型，可得到如下结果：

其中，

E[w_n]＝＝(T^t∑^-1N_nT+I)^-1(T^t∑^-1F_n) (15)

E[w_nw_n ^t]＝(T^t∑^-1N_nT+I)^-1+E[w_n]E[w_n]^t (16)

符号t代表矩阵的转置。

在上述期望最大化算法中，求期望和最大化两步之间利用的参数互相依赖，相辅相成。满足一定的迭代次数或满足算法收敛条件之后，模型T估计完毕。根据上述求解过程，可以得到总变化因子w_n的期望。最后将所求总变化因子的期望进行存储得到每条音频文件的总变化因子特征向量，从而完成音频场景长时特征的提取。

下面举例说明本实施例提供的基于长短时特征提取的音频场景识别方法。

1.预处理：对输入音频信号进行预处理，具体包括音频格式转换、采样率转换，以及对格式统一后的音频信号进行分帧、加窗、预滤波和预加重等处理过程。

2.短时特征提取：对预处理后的信号进行时域、频域和倒谱域等特征提取和不同方式的特征拼接过程。

3.长时特征SI-vector提取：

A)构建GMM-UBM，采用期望最大化算法计算得到模型参数

B)提取高斯超向量；

C)根据GMM-UBM、高斯超向量和模型假设，计算总变化矩阵T；

D)计算总变化因子w_n的期望；

E)将w_n期望进行存储得到SI-vector特征向量。

4.模型识别：长、短时特征联合输入不同模型例如GMM、HMM、SVM、CNN、RNN、TDNN、LSTM等及其融合模型进行分类和识别；

5.后处理：对识别结果进行平滑、融合等处理，最终输出音频场景识别标签。

基于同一发明构思，本发明实施例还提供了基于长短时特征提取的音频场景识别装置，由于该装置所解决问题的原理与前述基于长短时特征提取的音频场景识别方法相似，因此该装置的实施可以参见前述方法的实施，重复之处不再赘述。

本发明实施例还提供了一种基于长短时特征提取的音频场景识别装置，参照图5所示，包括：

预处理模块51，用于对输入待识别音频信号进行预处理；

短时提取模块52，用于对经过预处理后的所述待识别音频信号，进行短时音频特征提取；

长时提取模块53，用于在所述短时提取模块对短时音频特征提取后，进行长时音频特征提取；

输出模块54，用于将所述待识别音频信号的所述长、短时音频特征联合，输入分类模型及其融合模型，进行分类和识别，输出音频场景的识别标签。

在一个实施例中，所述短时提取模块52，具体用于短时窗内或者帧级别的短时音频特征提取；所述短时音频特征包括：时域特征、频域特征和倒谱特征。

在一个实施例中，所述长时提取模块53，包括：

第一提取子模块531，用于整条音频文件的音频场景高斯超向量特征提取；

第二提取子模块532，用于音频场景总变化因子特征提取。

在一个实施例中，所述第一提取子模块531，具体用于使用大量音频场景背景数据训练一个与目标场景无关的背景模型；然后针对每个音频场景进行最大后验估计，更新所述背景模型参数，得到不同目标场景的GMM模型；对所述目标场景均值向量进行更新得到

采用计算统计量的方法将所述目标场景的均值向量

拼接成一个高维的超向量Sn，所述Sn为音频场景高斯超向量。

在一个实施例中，所述第二提取子模块532，具体用于构建GMM-UBM模型，采用期望最大化算法计算得到模型参数

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于长短时特征提取的音频场景识别方法，其特征在于，包括：

对输入待识别音频信号进行预处理；

将所述待识别音频信号的所述长、短时音频特征联合，输入分类模型及其融合模型，进行分类和识别，输出音频场景的识别标签；

所述短时音频特征提取，为短时窗内或者帧级别的短时音频特征提取；所述短时音频特征包括：时域特征、频域特征和倒谱特征；

所述长时音频特征提取，包括：整条音频文件的音频场景高斯超向量和音频场景总变化因子特征提取；

所述音频场景高斯超向量特征提取，包括：

对所述目标场景均值向量进行更新得到

采用计算统计量的方法将所述目标场景的均值向量

拼接成一个高维的超向量Sn，所述Sn为音频场景高斯超向量；

所述音频场景总变化因子特征提取，包括：

构建GMM-UBM模型，采用期望最大化算法计算得到模型参数

提取高斯超向量；

计算总变化因子w_n的期望；

2.一种基于长短时特征提取的音频场景识别装置，其特征在于，包括：

预处理模块，用于对输入待识别音频信号进行预处理；

输出模块，用于将所述待识别音频信号的所述长、短时音频特征联合，输入分类模型及其融合模型，进行分类和识别，输出音频场景的识别标签；

所述短时提取模块，具体用于短时窗内或者帧级别的短时音频特征提取；所述短时音频特征包括：时域特征、频域特征和倒谱特征；

所述长时提取模块，包括：

第二提取子模块，用于音频场景总变化因子特征提取；

所述第一提取子模块，具体用于使用大量音频场景背景数据训练一个与目标场景无关的背景模型；然后针对每个音频场景进行最大后验估计，更新所述背景模型参数，得到不同目标场景的GMM模型；对所述目标场景均值向量进行更新得到

采用计算统计量的方法将所述目标场景的均值向量

拼接成一个高维的超向量Sn，所述Sn为音频场景高斯超向量；

所述第二提取子模块，具体用于构建GMM-UBM模型，采用期望最大化算法计算得到模型参数