CN110718234A

CN110718234A - 基于语义分割编解码网络的声学场景分类方法

Info

Publication number: CN110718234A
Application number: CN201910822432.3A
Authority: CN
Inventors: 马欣欣; 马勇; 顾明亮
Original assignee: Jiangsu Normal University
Current assignee: Jiangsu Normal University
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2020-01-21

Abstract

本发明公开了一种基于语义分割编解码网络的声学场景分类方法，包括如下步骤：S10，分别提取待识别音频数据的梅尔声谱图和标准声谱图；S20，在分别对所述梅尔声谱图和所述标准声谱图进行归一化处理后，将归一化处理后的梅尔声谱图和标准声谱图进行融合处理，得到融合特征；S30，将所述融合特征分别输入SegNet声学模型和UNet声学模型；S40、获取所述SegNet声学模型的第一输出结果以及所述UNet声学模型的第二输出结果，根据所述第一输出结果和第二输出结果确定所述第二输出结果中各个单元音频的声学场景。采用本方法能够使待识别音频数据中的各个单元音频均准确地确定相应声学场景，可以提高声学场景的识别性能。

Description

基于语义分割编解码网络的声学场景分类方法

技术领域

本发明涉及声音信号处理技术领域，尤其涉及一种基于语义分割编解码网络的声学场景分类方法。

背景技术

环境声音或背景声音是一个丰富、未被完全发掘的信息源，其提供了一种了解人类活动、通讯方式以及所处环境的途径。近年来，环境声音有着许多的实际应用，许多研究者试图通过音频信息使移动机器人获得更好的环境感知能力，让机器人获得听觉，其还被应用在机器人巡航、机器人辅助、音频检索，以及其他基于情景感知、可穿戴设备上，如智能手机可以根据使用者所处环境自动切换提醒方式、根据使用者所在位置提供有用信号。

而针对环境声音所进行的声学场景分类，其目的就是通过环境声音对声学场景进行分类，从而使得智能对象或设备可以直接利用从声学场景中提取的信息来调整系统或应用程序参数或行为，以满足消费者对不同环境和个性化的需求。

声学场景是指具有一定时长、一定语义环境的连续语音片段，即某些特定场景中产生的特定声学信号组成的一组声音，如公园、办公室和机场等环境。声学场景分类(Acoustic Scene Classification，ASC)是对记录环境声音的输入音频流分配一个预定义类别标签的过程(如图1所示)，以此表征记录的环境，作为一个感知周围环境的有效方法，被广泛应用于机器人导航、移动机器人的情景感知中。传统方案往往依据背景音进行相应声学场景的识别，存在识别准确率差的问题，影响相应地识别性能。

发明内容

针对以上问题，本发明提出一种基于语义分割编解码网络的声学场景分类方法。

为实现本发明的目的，提供一种基于语义分割编解码网络的声学场景分类方法，包括如下步骤：

S10，分别提取待识别音频数据的梅尔声谱图和标准声谱图；

S20，在分别对所述梅尔声谱图和所述标准声谱图进行归一化处理后，将归一化处理后的梅尔声谱图和标准声谱图进行融合处理，得到融合特征；

S30，将所述融合特征分别输入SegNet声学模型和UNet声学模型；所述SegNet声学模型为依据融合特征输出待识别音频数据中各个单元音频的参考声学场景，以及各个单元音频相对于相应参考声学场景的准确度的一种网络模型；所述UNet声学模型为依据融合特征输出待识别音频数据中各个单元音频的参考声学场景，以及各个单元音频相对于相应参考声学场景的准确度的另一种网络模型；

S40、获取所述SegNet声学模型的第一输出结果以及所述UNet声学模型的第二输出结果，根据所述第一输出结果和第二输出结果确定所述第二输出结果中各个单元音频的声学场景。

在其中一个实施例中，上述基于语义分割编解码网络的声学场景分类方法，还包括：

在将所述待识别音频数据预处理成设定格式的音频数据后，执行分别提取待识别音频数据的梅尔声谱图和标准声谱图的过程；所述设定格式包括：左声道、右声道、双声道融合或者双声道相减。

在其中一个实施例中，所述提取待识别音频数据的梅尔声谱图包括：

对所述待识别音频数据进行傅里叶变换转换到频域上，采用梅尔频率滤波器对应频域信号进行处理，得到所述梅尔声谱图。

在其中一个实施例中，所述提取待识别音频数据的标准声谱图包括：

将所述待识别音频数据进行分帧、加窗，对得到的每一帧信号进行傅里叶变换，将每一帧的变换结果沿另一个维度堆叠起来，得到所述标准声谱图。

在其中一个实施例中，所述将归一化处理后的梅尔声谱图和标准声谱图进行融合处理包括：

根据归一化处理后的梅尔声谱图确定梅尔声谱特征，根据归一化处理后的标准声谱图确定标准声谱特征；

将所述梅尔声谱特征和所述标准声谱特征代入融合公式计算所述融合特征；所述融合公式包括：

F＝[w₁×f₁,w₂×f₂]，

式中，F表示融合特征，w₁表示第一权值，w₂表示第二权值，f₁表示梅尔声谱特征，f₂表示标准声谱特征。

作为一个实施例，所述w₁、w2的计算公式包括：

式中，A₁表示梅尔声谱特征的识别率，A₂表示标准声谱特征的识别率。

根据所述第一输出结果和第二输出结果确定混淆矩阵；

根据所述混淆矩阵计算总体准确率以及各类声学场景的类型准确率和类型召回率。

作为一个实施例中，所述总体准确率的计算公式包括：

所述类型准确率的计算公式包括：

所述类型召回率的计算公式包括：

式中，M表示混淆矩阵，acc(M)表示总体准确率，M_i,j表示M的第i行，第j列元素，c表示声学场景的类别数；Precision(i,M)表示M中第i行的类型准确率，Recall(i,M)表示M中第i行的类型召回率。

上述基于语义分割编解码网络的声学场景分类方法，可以分别提取待识别音频数据的梅尔声谱图和标准声谱图，在分别对所述梅尔声谱图和所述标准声谱图进行归一化处理后，将归一化处理后的梅尔声谱图和标准声谱图进行融合处理，得到融合特征，将所述融合特征分别输入SegNet声学模型和UNet声学模型，再获取所述SegNet声学模型的第一输出结果以及所述UNet声学模型的第二输出结果，根据所述第一输出结果和第二输出结果确定所述第二输出结果中各个单元音频的声学场景，以及各个单元音频相对于相应声学场景的准确率等信息，使待识别音频数据中的各个单元音频均可以准确地确定相应声学场景，可以提高声学场景的识别性能。

附图说明

图1是声学场景分类输入输出结果示意图；

图2是一个实施例的基于语义分割编解码网络的声学场景分类方法流程图；

图3是另一个实施例的基于语义分割编解码网络的声学场景分类方法示意图；

图4是一个实施例的系统开发期间的4折交叉验证示意图；

图5是一个实施例的Mel spectrogram的提取过程示意图；

图6为一个实施例的SegNet网络结构示意图；

图7为一个实施例的用于声学场景分类SegNet网络模型图；

图8为一个实施例的UNet网络结构示意图；

图9为另一个实施例的4折交叉验证的过程示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参考图2所示，图2为一个实施例的基于语义分割编解码网络的声学场景分类方法流程图，包括如下步骤：

S10，分别提取待识别音频数据的梅尔声谱图和标准声谱图。

上述步骤之前可以对待识别音频数据进行相应预处理，将其转换为设定格式，以保证梅尔声谱图和标准声谱图提取过程的顺利性。

具体地，对预处理后的待识别音频数据进行语音分析，分别提取梅尔声谱图(Melspectrogram)和标准声谱图(standard spectrogram)两种特征。Standard spectrogram是由短时傅里叶变换(STFT)得到的，首先把一段信号进行分帧、加窗，再对每一帧进行傅里叶变换(FFT)，最后把每一帧的结果沿另一个维度堆叠起来，就可得到类似于一幅图的二维信号形式，因为我们的原始信号就是声音信号，所以通过STFT展开得到的二维信号就是标准声谱图，但其表达的信息是三维的。Mel spectrogram是在Mel域上针对人的声音感知机理提出的特征提取方法。由于人耳对声音的感知不是线性的，即人耳对声音的低频比对声音的高频更加敏感。所以，常常需要将线性频谱转移到非线性的梅尔频谱上。梅尔声谱图的提取过程为：首先对时域信号进行傅里叶变换转换到频域上，然后再利用梅尔频率滤波器对应频域信号进行处理，就可以得到梅尔频谱。

在一个实施例中，普通频率转换到梅尔频率的公式如下：

mel(f)＝2595log₁₀(1+f/700)，

其中，f表示频率。

S20，在分别对所述梅尔声谱图和所述标准声谱图进行归一化处理后，将归一化处理后的梅尔声谱图和标准声谱图进行融合处理，得到融合特征。

上述步骤可以分别提取Mel spectrogram、Standard spectrogram两种特征，由于Mel spectrogram特征主要是针对人耳在低频信号下的感知能力的特征分析，Standardspectrogram则主要分析声音信号的高频部分的声学特征，为了充分利用声音信号在不同频段内的声学特征，我们首先对两种不同声谱图进行归一化处理，然后针对两种不同声谱图分别提取图谱特征，给每个特征赋予相应的权值进行加权拼接，即实现了两种不同声学特征的融合，将融合后的声学特征作为之后网络模型的输入。

S30，将所述融合特征分别输入SegNet声学模型和UNet声学模型；所述SegNet声学模型为依据融合特征输出待识别音频数据中各个单元音频的参考声学场景，以及各个单元音频相对于相应参考声学场景的准确度的一种网络模型；所述UNet声学模型为依据融合特征输出待识别音频数据中各个单元音频的参考声学场景，以及各个单元音频相对于相应参考声学场景的准确度的另一种网络模型。

在一个实施例中，可以将融合后的声学特征(融合特征)输入到网络模型中进行学习，在训练集数据上学习获得最佳的声学模型，分别搭建SegNet、UNet两种网络模型；SegNet是一种新颖且实用的深度全连接卷积网络用于语义的像素级的语义分割。SegNet网络即由编码层(encoder)、解码层(decoder)、分类层(softmax)构成。本实施例可以采用一个4层的SegNet，每一个编码层中包含卷积、线性修正单元(Relu)激活函数、池化(pool)操作。每一个decode都使用记住位置的pool进行上采样，没有Relu操作，卷积操作的滤波器(filter)和encode的都没有关系，这使得优化每一对encode和decode更加容易，最后一层是一个softmax分类器来对每个声学场景进行分类，10个类别。UNet网络主要分为四个主要部分预处理(preprocessing)、下卷积(down convolution)、上卷积(up convolution)、输出映射(output map)。本实施例进行三次下卷积层，每个下卷积层实际包括两次下卷积层和一次池化(pooling)，同样反卷积层也设为三次，每个反卷积层实际包括一个反卷积，一个连接操作和两次下卷积。由此可以学习获得SegNet、UNet对应的两种最佳声学模型，然后测试阶段针对测试集音频数据集在该两种模型下分类正确率进行分数融合。采用加权平均融合的方法对声学场景分类正确率进行融合，以最优化分类性能。具体步骤为：将声学场景音频数据集设置为4折交叉验证，其中3折为训练集数据，1折为测试集数据，然后在测试集数据上按照预处理、特征提取、特征融合的步骤，将融合后的声学特征分别输入到训练阶段学习得到的SegNet和UNet对应的最佳声学模型中，即可实现两种网络模型下对输入不同音频场景类别的预测标签打分。不同的网络模型对不同的声学场景有着不同的分类正确率，为了最优化最终的分类性能，进行4折交叉验证时，对每一折的输出结果保存，然后将4折交叉验证的分类正确率进行加权平均融合最终的分类正确率。

S40、获取所述SegNet声学模型的第一输出结果以及所述SegNet声学模型的第二输出结果，根据所述第一输出结果和第二输出结果确定所述第二输出结果中各个单元音频的声学场景。

上述第一输出结果包括SegNet声学模型针对待识别音频数据中各个单元音频输出的标签(参考声学场景)，以及各个单元音频相对于相应标签的准确率。上述第二输出结果包括UNet声学模型针对待识别音频数据中各个单元音频输出的标签(参考声学场景)，以及各个单元音频相对于相应标签的准确率。具体地，针对某个单元音频，SegNet声学模型和UNet声学模型识别的标签往往是一致的，此时可以将SegNet声学模型和UNet声学模型识别的标签作为该单元音频的标签，对第一输出结果中的准确率和第二输出结果中的准确率进行加权求和，以得到该单元音频相对于相应标签的准确率(分类正确率)。

在一个示例中，SegNet声学模型和Unet声学模型这两种编解码网络模型其分类正确率有所不同，为了综合各自的优点，可以采用分数融合的方法对分类性能进行优化。采用average加权平均的方法进行分数(准确率)融合，利用该方法分别在SegNet、Unet两种网络模型上进行K折交叉验证输出预测结果，然后将K折不同的分类结果进行平均作为该模型下的分类正确率，最后将SegNet、Unet两种模型下的分类正确率按照一定的权值进行加权平均。

在一个实施例中，上述基于语义分割编解码网络的声学场景分类方法，还包括：

在将所述待识别音频数据预处理成设定格式的音频数据后，执行分别提取待识别音频数据的梅尔声谱图和标准声谱图的过程；所述设定格式包括：左声道、右声道、双声道融合、和/或双声道相减。

具体地，上述待识别音频数据可以采用DCASE2018声学场景分类竞赛的音频数据集(TUT Urban Acoustic Scene 2018 dataset)，该音频数据集是以44.1kHz重采样率、24比特量化、双声道的wav格式存储；该数据集分别记录了六个不同城市的十种声学场景，分别为：机场、商场(室内)、站台(地铁)、人行街道、公共广场、街道(机动车道)、乘坐电车、乘坐公交、乘坐地铁、城市公园。每个场景类别已预先定义过，并且选择合适的位置进行描述。

进一步地，本实施例将原始音频数据集(待识别音频数据)的双声道的音频预处理成如下四种格式：左声道(Left)、右声道(Left)、双声道融合Mid(Left+Right)，双声道相减Side(Left-Right)。

在一个实施例中，上述提取待识别音频数据的梅尔声谱图包括：

Mel spectrogram是在Mel域上针对人的声音感知机理提出的特征提取方法。由于人耳对声音的感知不是线性的，即人耳对声音的低频比对声音的高频更加敏感。所以，常常需要将线性频谱转移到非线性的梅尔频谱上。梅尔声谱图的提取过程可以包括：首先对时域信号进行傅里叶变换转换到频域上，然后再利用梅尔频率滤波器对应频域信号进行处理，就可以得到梅尔频谱，确定所需的梅尔声谱图。

在一个实施例中，上述提取待识别音频数据的标准声谱图包括：

Standard spectrogram是由短时傅里叶变换(STFT)得到的，首先把一段信号进行分帧、加窗，再对每一帧进行傅里叶变换(FFT)，最后把每一帧的结果沿另一个维度堆叠起来，就可得到类似于一幅图的二维信号形式，因为我们的原始信号就是声音信号，所以通过STFT展开得到的二维信号就是标准声谱图，但其表达的信息是三维的。

在一个实施例中，上述将归一化处理后的梅尔声谱图和标准声谱图进行融合处理包括：

F＝[w₁×f₁,w₂×f₂]，

作为一个实施例，上述w₁、w₂的计算公式包括：

具体地，本实施例提取Mel spectrogram、Standard spectrogram两种特征，由于Mel spectrogram特征主要是针对人耳在低频信号下的感知能力的特征分析，Standardspectrogram则主要分析声音信号的高频部分的声学特征，为了充分利用声音信号在不同频段内的声学特征，可以对两种不同声谱图特征进行归一化，然后给每个特征赋予相应的权值进行加权拼接，即实现了两种不同声学特征的融合，将融合后的声学特征(融合特征)作为之后各个网络模型的输入。

根据所述第一输出结果和第二输出结果确定混淆矩阵；

作为一个实施例，上述总体准确率的计算公式包括：

所述类型准确率的计算公式包括：

所述类型召回率的计算公式包括：

式中，M表示混淆矩阵，acc(M)表示总体准确率，M_i,j表示M的第i行，第j列，c表示声学场景的类别数；Precision(i,M)表示M中第i行的类型准确率，Recall(i,M)表示M中第i行的类型召回率。

声学场景分类作为一个单分类任务，在评价某一模型下声学场景分类正确率时，本实施例采用混淆矩阵，混淆矩阵可以清晰的显示输出声学场景各类别标签之间的混淆。混淆矩阵是一个N×N的矩阵，N代表总体数据的类别数，矩阵的一列代表的是模型预测的类别，矩阵的一行代表样本所属的真实类别。混淆矩阵的一列上所有数字之和，就是该模型所预测的某一类的样本总数；而矩阵一行之和就是样本总数中某一类的样本总量。

上述混淆矩阵作为第一输出结果中的准确率和第二输出结果中的准确率融合前后的分析依据，使用待识别音频数据中各个单元音频相对于相应标签的最终准确率即可得到，用于细致化分析分数融合前后的不同场景之间的混淆程度，通过分数融合前后的混淆矩阵的显示，可以直观的反映分数融合的优势，同时也为我们直观的显示了混淆程度较大的声学场景类别为哪几类，可以方便我们之后的实验优化与分析。

在一个实施例中，上述基于语义分割编解码网络的声学场景分类方法也可以参考图3所示，包括如下过程：

步骤1，本实例获取到的音频数据集来自声学场景分类和声音事件检测挑战赛Detection and Classification of Acoustic Scenes and Events(DCASE)，选用DCASE2018中声学场景分类任务(Acoustic Scenes Classification)的音频数据集TUTUrban Acoustic Scenes 2018，该数据集包括开发集(Development dataset，共8640段)和验证集(Evaluation dataset，共3600段)。本实施例仅使用开发集数据(Development)，首先，将开发集数据进一步划分为3个训练集(train set)、一个测试集(test set)用于系统开发期间的4折交叉验证，如图4所示。每段音频均是10s时长、采样率为44.1kHz、24bit量化率的双声道音频数据集。将双声道的音频预处理成左声道(Left)、右声道(Right)、双声道融合Mid(Left+Right)、双声道相减Side(Left-Right)的类型。

步骤2，对声学场景音频数据集中的训练集数据依次提取其Mel spectrogram、standard spectrogram特征。具体过程如下，利用python编程语言，调用librosa工具包，通过调用内置spectrogram函数即可实现标准声谱图特征的提取，同时使用specshow函数实现声谱图波形的显示与保存，去除空白边缘，将图片大小设置为360×480。由于librosa工具包已经集成了各种数学计算过程，可以快捷的实现声谱图的绘制，其实际理论过程可以参考图1所示。同上利用librosa中的melspectrogram函数、specshow函数实现梅尔声谱图的绘制，同样去除空白边缘。在一个示例中，Mel spectrogram的提取过程可以参考图5所示。

进一步地，上述步骤对预处理后的音频数据进行语音分析，语音的时域分析和频域分析是语音分析的两种重要方法，但是都各自存在着局限性。时域分析对语音信号的频率特性没有直观的呈现，频域特性中又没有语音信号随时间变化的关系。而声谱图综合了时域和频域的优点，明显的显示出了语音频谱随时间的变化情况、声谱图的横轴为时间，纵轴为频率，任意给定频率成分在给定时刻的强弱用颜色深浅来表示，颜色越深表示语音能量越强。声谱图中的时频结构反映了信号时域和频域结构，可以形成声学感知的稀疏基函数。由此，对预处理后的音频数据提取其语谱图特征，分别提取梅尔声谱图(Melspectrogram)、标准语谱图(Standard spectrogram)等声谱图特征。针对上述步骤提取梅尔声谱图(Mel spectrogram)、标准声谱图(Standard spectrogram)特征。Melspectrogram是在梅尔域上针对人的声音感知机理提出的特征提取方法，Standardspectrogram是客观的直接对音频进行短时傅里叶变换得到特征。为了综合两种特征提取方法的特点，我们将分别提取出来的声谱图特征进行特征融合，以充分利用音频的声谱图特征。为了避免不同的特征的数量级差别较大在特征融合时数量级较大的淹没数量级较小的特征，首先对两种特征进行归一化，然后按照一定的权重值进行加权拼接，即为融合特征，将融合特征作为语义分割编解码网络的输入，经过网络模型的分类器即可实现声学场景类别分类。

步骤3，声学特征融合，将训练集上提取的两种声学特征进行特征融合作为之后构建的语义分割编解码网络的输入。上述步骤2中我们分别提取出了Mel spectrogram、standard spectrogram特征，在进行特征融合时，为了保证两种声学特征具有相同的特征数量级，先进行特征归一化。本发明中我们将Mel spectrogram、standard spectrogram特征分别记为f₁、f₂，对这两个特征进行加权拼接，拼接后的特征用F表示，语音声谱图的融合特征可以表示为：

F＝[w₁×f₁,w₂×f₂]，

式中F表示特征f₁和f₂的加权拼接，即为融合特征，w₁表示第一权值(f₁的权值)，w₂表示第二权值(f₂的权值)，这里权值分配通过单个特征的识别率进行设置，f₁和f₂的识别率分别为A₁、A₂：

步骤4，搭建用于语义分割的编解码网络，将训练集数据上提取的声谱图特征进行特征融合输入到该网络模型中，用以训练学习在训练集数据上获得对应的声学模型，为测试集的声学场景分类预测提供最佳的声学模型。以SegNet为例具体搭建过程如下，SegNet由编码层encoder、解码层decoder和分类层softmax组成。在一个示例中，SegNet的正式版有13个卷积层，5个池化层，对应13反个卷积层，5个上采样层，如图6所示。本实施例采用的是SegNet的basic版，共4个卷积层，4个池化层，对应4个反卷积层和4个上采样层。如图7所示，搭建用于语音分割编解码网络的声学场景分类系统(SegNet)，其中Conv2D为二维卷积，Stride设置步长为1，激活函数(activation)为线性修正单元(relu)，批处理(BatchNormalization)，最大池化层(MaxPooling)设置池化核为2×2，上采样二维卷积层(UpSampling2D)。UNet由Conv卷积层、ReLU线性修正单元、复制copy、剪切crop、上卷积up-conv等构成；在一个示例中，UNet网络结构如图8所示，其中输入为声谱图(input imagetile)，输出为语义分割映射(output segmentation map)，三维卷积核(conv 3×3)，线性修正单元(ReLU)，复制(copy)，剪切(crop)，最大池化层2×2池化核(max pool 2×2)，二维上卷积(up-conv 2×2)，一维卷积(conv 1×1)。UNet网络包括两大部分，一部分用于特征提取，与VGG类似，另一部分是上采样部分。特征提取部分，每经过一个池化层就产生一个尺度，包括原图尺度一共有5个尺度。上采样部分，每采样一次，就和特征提取部分对应的通道数相同融合，但是融合之前要将其修剪归一化。

在一个示例中，可以预先搭建SegNet、UNet两种语义分割编解码网络结构；语义分割是一个需要整合各种空间尺度信息的问题，它意味着平衡局部和全局信息。一方面，细粒度或局部信息是实现良好像素级精度的关键；另一方面，从图像的全局上下文中集成信息是来解决局部歧义的重要点。基于此，可以将语音信号提取其声谱图特征二维图像，构建语义分割编解码网络用语声学场景分类。声学场景可以看成由一个或几个类别的声学事件构成的音频段，通过对某一类型的声学场景中的代表性声音事件进行识别，即可确定该种类型的声学场景，如机场声学环境下其代表性声音事件就是飞机发动机的声音，通过确定某一音频中是否包含飞机发动机的声音事件即可确定飞机场景。因此，语义分割在声学场景分类中的应用即从音频流中分割出代表性声音事件区域，并根据其代表性声音事件的声学特征识别该事件类型，从而确定声学场景类别。编码器-解码器(encoder-decoder)架构，编码器通过池化层逐渐减少空间维度，解码器则逐渐恢复物体的细节和空间维度。SegNet网络由编码层(encoder)、解码层(decoder)、分类层(softmax)三大部分构成，SegNet网络和全卷积网络FCN结构类似，只是在编码器使用了VGG16的13个卷积层，在池化过程中保存了最大池化的索引，上采样恢复原来到位置，其他位置的元素为0，然后进行反卷积。UNet网络主要分为四个主要部分预处理(preprocessing)、下卷积(down convolution)、上卷积(upconvolution)、输出映射(output map)，该网络主要建立在FCN的网络架构上，添加了上采样阶段，并且添加了很多的特征通道，允许更多的原理图像纹理的信息在高分辨率的层中进行传播，UNet网络没有全连接层，只使用每个卷积的valid部分，这样可以保证分割得到的结果都是基于缺失的上下文特征得到的。

步骤5，将步骤4中学习得到的两种声学模型，用于测试集的声学场景类别预测，在以上两种声学模型中均采用softmax作为分类器，即可实现不同输入音频场景的分类。将softmax设置为10，即10个场景，用于场景类别标签输出。由于两种声学模型在测试集音频数据上会产生不同的分类性能，为了得到更好的预测结果，本发明针对不同模型下的分类正确率进行分数融合，以筛选出不同模型在不同场景下的最优正确率。具体操作如下，首先将开发集数据分成4折，其中任意3折为训练集数据，剩余1折为测试集数据，训练集、测试集分别进行预处理、特征提取、特征融合，然后我们在SegNet模型上依次进行4折交叉验证，分别输出4折交叉验证下的测试集数据上的分类正确率，然后对4折下的正确率进行加权平均作为该模型下的分类正确率，同时记录这4次训练下的训练误差和验证误差作为之后分数融合加权平均的权值参考值，在一个示例中，4折交叉验证的过程可以参考图9所示；同样在UNet模型上进行如上操作。至此，两种模型下的测试集声学场景分类正确率已经得到。此时，利用average加权平均的方法进行两种模型下的分类正确率融合，首先按照交叉验证时的误差值设置权值配比，然后为不同的模型分配权值进行加权平均融合，就可以得到分数融合后的测试集上的声学场景分类正确率。

声学场景分类作为一个单分类任务，在评价某一模型下声学场景分类正确率时，采用到了混淆矩阵，混淆矩阵可以清晰的显示输出声学场景各类别标签之间的混淆。混淆矩阵是一个N×N的矩阵，N代表总体数据的类别数，矩阵的一列代表的是模型预测的类别，矩阵的一行代表样本所属的真实类别。混淆矩阵的一列上所有数字之和，就是该模型所预测的某一类的样本总数；而矩阵一行之和就是样本总数中某一类的样本总量。

本实施例引入混淆矩阵作为上述步骤5中的分数融合前后的分析依据，使用步骤5上的测试集声学场景分类正确率即可得到，用于细致化分析分数融合前后的不同场景之间的混淆程度，通过分数融合前后的混淆矩阵的显示，可以直观的反映分数融合的优势，同时也为我们直观的显示了混淆程度较大的声学场景类别为哪几类，可以方便我们之后的实验优化与分析。

根据混淆矩阵，可以计算总体准确率：

M_i,j表示M的第i行，第j列元素，c表示声学场景的类别数，取值为：1,2，···，10。

第i类的准确率(Precision)和召回率(Recall)，可以按如下公式计算：

本实施例采用的语义分割编解码网络，语义分割是一个需要整合各种空间尺度信息的问题。它还意味着平衡局部和全局信息，一方面，细粒度或局部信息是实现良好像素级精度的关键；另一方面，从图像的全局上下文中集成信息来解决局部歧义也很重要。基于此，提出了基于语义分割编解码网络的声学场景分类，可以更好的解决环境声音混杂在全局信息难以分辨的局部歧义问题，同样也可以通过某些典型环境声的局部信息实现更准的分类精度。可以利用语义分割编解码拓扑结构实现了声学场景分类，更好的解决环境声音复杂难以分辨的难题，也可以更精确的实现典型环境声的分类。

需要说明的是，本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换，以使这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本申请实施例的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。