CN117476036A

CN117476036A - 一种环境噪声识别方法、系统、设备和介质

Info

Publication number: CN117476036A
Application number: CN202311818042.1A
Authority: CN
Inventors: 郑建辉; 叶永华; 殷艺敏
Original assignee: Guangzhou Soundbox Acoustic Tech Co ltd
Current assignee: Guangzhou Soundbox Acoustic Tech Co ltd
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-01-30
Anticipated expiration: 2043-12-27
Also published as: CN117476036B

Abstract

本发明涉及声音识别技术领域，公开了一种环境噪声识别方法、系统、设备和介质。本发明将原始音频数据划分为有标签的源域原始音频数据和无标签的目标域原始音频数据；构建包括对比学习网络、对抗训练学习网络和分类识别网络的音频识别网络模型；将每个音频数据转换为对应的声谱图组并进行特征提取，得到特征向量组；根据特征向量组在源域和目标域对对比学习网络和对抗训练学习网络进行训练，并根据源域特征向量组对所述分类识别网络进行标签的分类识别训练，得到训练好的音频识别网络模型；通过训练好的音频识别网络模型对环境噪声进行识别分类。本发明降低了数据标记的成本,提高了环境噪声分类的准确性，提高了模型的泛化能力。

Description

一种环境噪声识别方法、系统、设备和介质

技术领域

本发明涉及声音识别技术领域，特别是涉及一种环境噪声识别方法、系统、设备和介质。

背景技术

声音作为信息的主要载体，是人们感知周围环境的重要途径之一，也是反映生物行为的重要特征。声音信号的处理一直备受研究学者的关注，研究重点主要有人声和环境声音两类，由此衍生出的主要研究方向为自动语音识别和环境声音分类(EnvironmentalSound Classification, ESC)。

自动语音识别的任务是把平稳的人类语音信号转换为文本信息，而ESC则是将各类非平稳的环境声音信号进行准确的分类。由于ESC 的研究重点是自然界中的非平稳声信号，并且受环境因素的影响，现实中常会存在复杂的背景噪声，因此其研究难度相对较大。

由于ESC任务的标记数据相对稀缺，因此当前卷积神经网络在ESC任务上存在难以扩展模型深度问题，机器学习与深度学习模型正是依赖于海量数据，不断训练与更新模型，逐步提升模型的性能。虽然我们可以通过网络等多媒体获得海量数据，但是这些数据一般是初级的原始形态，大多都缺乏正确的人工标注。同时，根据应用的不同，所需的数据类型，数据标注样式也会有变化。因此，需要利用已知的数据标记设计有效的环境声音分类方法。

发明内容

本发明的目的是解决现有环境噪声分类技术中缺乏大规模标签数据集导致的声音分类不准确的问题。

为了实现上述目的，第一方面，本发明提供一种环境噪声识别方法，所述方法包括：

将原始音频数据依据是否有标签划分为有标签的源域原始音频数据和无标签的目标域原始音频数据；

构建音频识别网络模型，所述音频识别网络模型包括对比学习网络、对抗训练学习网络和分类识别网络；

分别将每一个源域原始音频数据和目标域原始音频数据转换为对应的源域声谱图组和目标域声谱图组；

对所述源域声谱图组和目标域声谱图组进行特征提取，分别得到源域特征向量组和目标域特征向量组；

根据所述源域特征向量组和目标域特征向量组，在源域和目标域对所述对比学习网络和对抗训练学习网络进行训练，并根据所述源域特征向量组对所述分类识别网络进行标签的分类识别训练，得到训练好的音频识别网络模型；

通过训练好的音频识别网络模型对环境噪声进行识别分类。

进一步地，所述分别将每一个源域原始音频数据和目标域原始音频数据转换为对应的源域声谱图组和目标域声谱图组，包括：

使用连续小波变换将源域原始音频数据转换为源域声谱图；

使用离散小波变换将源域原始音频数据转换为源域数据增强声谱图，并将所述源域数据增强声谱图分别进行旋转、锐化、色彩调整和翻转得到源域数据增强声谱图组；

每个源域原始音频数据对应的源域声谱图和源域数据增强声谱图组构成一个源域声谱图组；

使用短时傅里叶变换将目标域原始音频数据转换为目标域声谱图；

使用离散小波变换将目标域原始音频数据转换为目标域数据增强声谱图，并将所述目标域数据增强声谱图分别进行旋转、锐化、色彩调整和翻转得到目标域数据增强声谱图组；

每个目标域原始音频数据对应的目标域声谱图和目标域数据增强声谱图组构成一个目标域声谱图组；

进一步地，所述根据所述源域特征向量组和目标域特征向量组，在源域和目标域对所述对比学习网络和对抗训练学习网络进行训练，包括：

分别在源域和目标域，以最小批处理的大小为单位，选取单位内一个音频对应的特征向量组作为正样本，单位内其他音频的特征向量组作为负样本，通过对比学习网络进行对比学习，分别产生多个源域正负样本对和目标域正负样本对，并分别存储进源域样本队列和目标域样本队列中；

从所述源域样本队列和目标域样本队列选取数据输入对抗训练学习网络进行对抗训练学习，将源域的特征学习分类能力迁移到目标域中。

进一步地，所述通过对比学习网络进行对比学习，分别产生多个源域正负样本对和目标域正负样本对，包括：

分别在源域和目标域，对单位内每个特征向量组通过对比学习，拉近同一特征向量组内的特征向量之间的距离，拉远所述特征向量组内的特征向量与其他特征向量组内特征向量的距离，以形成正负样本对。

进一步地，从所述源域样本队列和目标域样本队列选取数据输入对抗训练学习网络进行对抗训练学习，将源域的特征学习分类能力迁移到目标域中，包括：

将源域样本队列和目标域样本队列中的数据进行梯度反转，提取时间序列，并创建相应的嵌入值，通过所述嵌入值，使用领域判别器进行对抗训练，根据源域和目标域的数据分布，预测目标域的数据所属的标签。

进一步地，所述音频识别网络模型训练过程中的总损失函数为：

其中，为预测损失，/>为领域分类损失的权重系数，取值范围为（0，1），/>为领域分类损失，/>为对比损失的权重系数，取值范围为（0，1），/>为源域的对比损失，为目标域的对比损失。

进一步地，所述短时傅里叶变换将原始音频数据的音频信号分解为一系列时间窗口，对每个时间窗口应用傅里叶变换，得到音频信号在时间和频率上的二维表示；

所述连续小波变换使用不同尺度的小波函数对原始音频数据的音频信号进行分解，得到声谱图在视频域上的连续小波变换表示；

所述离散小波变换将原始音频数据的音频信号分解为不同频带的多分辨率表示，得到多尺度域上的离散小波变换表示。

第二方面，本发明提供一种环境噪声识别系统，用于实现上述环境噪声识别方法，所述系统包括：

数据分类模块，用于将原始音频数据依据是否有标签划分为有标签的源域原始音频数据和无标签的目标域原始音频数据。

模型构建模块，用于构建音频识别网络模型，所述音频识别网络模型包括对比学习网络、对抗训练学习网络和分类识别网络。

声谱转换模块，用于分别将每一个源域原始音频数据和目标域原始音频数据转换为对应的源域声谱图组和目标域声谱图组。

特征提取模块，用于对所述源域声谱图组和目标域声谱图组进行特征提取，分别得到源域特征向量组和目标域特征向量组。

模型训练模块，用于根据所述源域特征向量组和目标域特征向量组，在源域和目标域对所述对比学习网络和对抗训练学习网络进行训练，并根据所述源域特征向量组对所述分类识别网络进行标签的分类识别训练，得到训练好的音频识别网络模型。

识别分类模块，用于通过训练好的音频识别网络模型对环境噪声进行识别分类。

第三方面，本发明提供一种计算机设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如上所述的环境噪声识别方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如上所述的环境噪声识别方法。

本发明的一种环境噪声识别方法、系统、设备和介质，与现有技术相比，其有益效果在于：基于少量标签数据和大量无标签数据，充分利用无标签环境噪声分类数据集，避免了目前需要从头收集数据、花费大量人力物力标记的问题，降低了数据标记的成本；采用对抗学习的无监督域适应方法，将有标签域的音频分类能力，迁移到无标签域中，提高环境噪声分类的准确性，缓解了小样本数据的问题，提高了模型的泛化能力。

附图说明

图1为本发明实施例提供的环境噪声识别方法的步骤流程图；

图2为本发明实施例提供的环境噪声识别方法的模型网络结构图；

图3为本发明实施例提供的环境噪声识别方法的模型的特征提取网络图；

图4为本发明实施例提供的环境噪声识别系统的结构框图；

图5为本发明实施例提供的计算机设备的结构图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

需要说明的是，文中的步骤编号，仅为了方便具体实施例的解释，不作为限定步骤执行先后顺序的作用。本实施例提供的方法可以由相关的服务器执行，且下文均以服务器作为执行主体为例进行说明。

如图1所示，本发明实施例提供的一种环境噪声识别方法，包括步骤S11至S15:

步骤S11，将原始音频数据依据是否有标签划分为有标签的源域原始音频数据和无标签的目标域原始音频数据。

由于当前带有标签的环境噪音分类公开数据集相对较少，给构建准确的分类模型带来了挑战，与此相反，大量的无标签环境音频数据却可以轻易获得。

因此，本发明实施例采用有限的少量有标签数据，和大量的无标签数据作为音频识别模型训练的源数据，并进行分类；具体地，将有标签的音频数据划分进源域，无标签的音频数据划分进目标域。

步骤S12，构建音频识别网络模型，所述音频识别网络模型包括对比学习网络、对抗训练学习网络和分类识别网络。

其中对比学习网络用于通过对比学习形成大量的正负样本对，对抗训练学习网络使用源域和目标域的正负样本对进行对抗训练，使源域和目标域的属于呈现相近的特征分布，分类识别网络用于根据源域的数据进行标签的分类识别训练。

步骤S13，分别将每一个源域原始音频数据和目标域原始音频数据转换为对应的源域声谱图组和目标域声谱图组。

为了更好地利用无标签数据，让模型学习呈现更好的特征表示，本发明实施例对输入音频识别模型的音频数据引入多种数学方式对音频数据进行处理，将每个音频数据转换为一组声谱图。

进行数据处理的数学方式具体包括短时傅里叶变换(STFT:Short-Time FourierTransform)、连续小波变换(CWT:Continuous Wavelet Transform)和离散小波变换(DWT:Discrete Wavelet Transform)。

具体地，不同的转换方式包括：

对于分布在源域中的音频数据，使用连续小波变换对音频数据进行处理，得到声谱图；使用离散小波变换对音频数据进行处理，转换为数据增强声谱图/>，并将数据增强声谱图/>分别进行旋转、锐化、色彩调整和翻转得到数据增强声谱图/>；

每个音频数据对应的声谱图和数据增强声谱图/>构成一个声谱图组。

对于分布在目标域中的音频数据，使用短时傅里叶变换对音频数据进行处理，得到声谱图；使用离散小波变换对音频数据进行处理，转换为数据增强声谱图/>，并将数据增强声谱图/>分别进行旋转、锐化、色彩调整和翻转得到数据增强声谱图；

具体地，上述数据处理方式对声谱图进行转换的操作为：

短时傅里叶变换将音频数据信号分解为一系列时间窗口，对每个时间窗口应用傅里叶变换，得到频谱信息；该频谱信息是声谱图在时频域上的表示，也即在时间和频率上的二维表示；

连续小波变换使用不同尺度的小波函数对音频信号进行分解，可以捕捉到音频信号的瞬时频率变化，从而得到声谱图在视频域上的连续小波变换表示；

离散小波变换将音频信号分解为不同频带的多分辨率表示，可以提供紧凑的表示和较好的时间和频率分辨率，从而得到多尺度域上的离散小波变换表示。

步骤S14，对所述源域声谱图组和目标域声谱图组进行特征提取，分别得到源域特征向量组和目标域特征向量组。

对源域声谱图组和目标域声谱图组中的每个声谱图分别进行特征提取，使用特征提取器F ()对声谱图进行特征提取，使用MoCo动量更新特征提取器/>(/>)对各数据增强声谱图进行特征提取，得到它们的特征向量。其中，声谱图的特征向量表示为q，各数据增强声谱图的特征向量表示为k。分别得到源域特征向量组和目标域特征向量组；特征向量用于后续的学习训练。

步骤S15，根据所述源域特征向量组和目标域特征向量组，在源域和目标域对所述对比学习网络和对抗训练学习网络进行训练，并根据所述源域特征向量组对所述分类识别网络进行标签的分类识别训练，得到训练好的音频识别网络模型。

在训练过程中，以小批量处理（Mini-Batch）的大小为单位，本实施例以每个batch包含10个数据分别对应的特征向量组为例子，对于单位batch内的每个特征向量组进行训练。

选取一个特征向量组中，同一特征向量组内的特征向量互为正样本，单位batch内其他特征向量组中的特征向量作为负样本，进行对比学习，拉近特征向量组内的特征向量之间的距离，拉远特征向量组内的特征向量与其他特征向量组内的特征向量的距离，对batch内的每个样本计算对比损失再取均值，即为一次迭代的损失函数，表示为：

其中，q为特征向量组中的声谱图的对应特征向量，k为特征向量组中数据增强声谱图对应的特征向量，τ>0 ，为温度缩放参数。

经过多次迭代训练，可以得到多个正负样本对，将正负样本对存储进样本队列中。

该对比学习作为训练模型中的一部分，属于无监督学习的范畴，在训练过程中无需关注样本的标签，只需要关注正样本和负样本之间的空间距离，全面地学习各样本中的特征表示，增强分类器与辨别器之间的博弈能力，使用这样的方式定义正样本和负样本，不仅可以让模型学习到不同样本的差异性特征，也可以让模型学习到正样本之间不同域的图像它们之间的相似性特征，为后续迁移学习的域适应训练提供更深层的特征表示。

将源域和目标域的样本队列中的数据进行梯度反转，提取时间序列，并创建相应的嵌入值，通过所述嵌入值，使用领域判别器进行对抗训练，将源域的特征学习分类能力迁移到目标域中，根据源域和目标域的数据分布，预测目标域的数据所属的标签。

具体地，如图2所示，本发明的模型训练总损失的计算过程为：模型的特征提取器F()对样本数据进行提取，分别对/>和/>创建相应的嵌入值/>和/>，分类器网络C(/>)经过训练，可使用嵌入式/>预测源域时间序列的标签/>。判别器网络D(/>)的训练目的是区分源样本队列中的嵌入式/>和目标嵌入式/>。在这种训练中，我们为源域数据实例引入域标签 d= 0，为目标域数据实例引入域标签 d = 1。

在具体的对抗训练中，要减少预测损失和领域分类损失/>，具体地：

预测损失用于对特征提取器F(/>)和分类器C(/>)进行联合训练，以便正确预测源域的标签，预测损失为：

其中，其中，L_pred为标准交叉熵损失；

领域分类损失用于学习领域不变的特征表征，领域判别器D(/>)被训练为最小化领域分类损失，而特征提取器F(/>)则被训练为同时最大化相同的损失，此过程通过F(/>)和D(/>)之间的梯度反转层R(/>)来实现，R(/>)的定义为：

因此，领域分类损失表示为：

在本实施例中，利用动量对比（MoCo）形式的对比学习来捕捉每个领域的深度特征表征。具体地，以随机实例化的方式依次应用以下函数: DWT、旋转、锐化、色彩调整，翻转来对原始音频数据进行处理。之后会得到每个样本的两个视图，分别称为查询和关键/>。随后由特征提取器对这两个视图进行处理，得到它们的嵌入值/>= F(/>) 和/>=/>(/>)。其中，/>(/>)是 MoCo 的动量更新特征提取器。

为了训练动量更新特征提取器，使梯度不通过(/>)反向传播。相反，权重/>是通过动量更新的。

其中，m∈[0, 1) 是动量系数。对比学习的目标为通过投影网络 Q()投射/>，并使投影 Q(/>) 更接近其正向样本/>（相对于存储在队列 {/>中的负向样本），而队列{/> 是前几批/>的集合。这就产生了大量的负样本对（队列大小 J≫批次大小 N），因此有助于更好地进行上下文表征。每个训练步骤结束后，一批/>会被存储在大小为 J 的队列中。

因此，对于每个域，对比损失为：

其中，τ>0 是温度缩放参数，上式中所有的嵌入都已归一化，由于本发明实施例中存在两个域，也即源域和目标域，故分别以和/>表示。

因此，整个音频识别分类模型训练过程中的总损失函数为：

其中，为领域分类损失的权重系数，取值范围为（0，1），/>为对比损失的权重系数，取值范围为（0，1），/>为源域的对比损失，/>为目标域的对比损失。

通过源域和目标域数据进行对抗学习的训练，使得有标签数据和无标签数据保存一致的数据分布，达到让有标签的数据为无标签的数据标注的效果，同时充分利用无标签数据，可以提高模型的鲁棒性和泛化能力。

步骤S16，通过训练好的音频识别网络模型对环境噪声进行识别分类。

将需要进行识别的音频数据，输入进音频识别模型，对环境噪声进行识别分类，为之进行数据标注。

本发明的一种环境噪声识别方法基于少量标签数据和大量无标签数据，充分利用无标签环境噪声分类数据集，避免了目前需要从头收集数据、花费大量人力物力标记的问题，降低了数据标记的成本；采用对抗学习的无监督域适应方法，将有标签域的音频分类能力，迁移到无标签域中，提高环境噪声分类的准确性，缓解了小样本数据的问题，提高了模型的泛化能力。

本发明实施例还提供一种环境噪声识别系统，用于执行如上所述的环境噪声识别方法，图4为本发明实施例的系统结构框图，所述系统包括：

数据分类模块21，用于将原始音频数据依据是否有标签划分为有标签的源域原始音频数据和无标签的目标域原始音频数据；

模型构建模块22，用于构建音频识别网络模型，所述音频识别网络模型包括对比学习网络、对抗训练学习网络和分类识别网络；

声谱转换模块23，用于分别将每一个源域原始音频数据和目标域原始音频数据转换为对应的源域声谱图组和目标域声谱图组；

特征提取模块24，用于对所述源域声谱图组和目标域声谱图组进行特征提取，分别得到源域特征向量组和目标域特征向量组；

模型训练模块25，用于根据所述源域特征向量组和目标域特征向量组，在源域和目标域对所述对比学习网络和对抗训练学习网络进行训练，并根据所述源域特征向量组对所述分类识别网络进行标签的分类识别训练，得到训练好的音频识别网络模型；

识别分类模块26，用于通过训练好的音频识别网络模型对环境噪声进行识别分类。

本发明实施例提出的系统的技术特征和技术效果与本发明实施例提出的方法相同，在此不予赘述。上述系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各模块对应的操作。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如上所述的环境噪声识别方法。

本发明实施例还提供了一种计算机设备，图5为本发明提供的一种计算机设备的一个优选实施例的结构框图，所述计算机设备包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如上所述的环境噪声识别方法。

优选地，所述计算机程序可以被分割成一个或多个模块/单元（如计算机程序1、计算机程序2、……），所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述计算机设备中的执行过程。

所述处理器可以是中央处理单元（Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（Digital SignalProcessor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现成可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，通用处理器可以是微处理器，或者所述处理器也可以是任何常规的处理器，所述处理器是所述计算机设备的控制中心，利用各种接口和线路连接所述计算机设备的各个部分。

所述存储器主要包括程序存储区和数据存储区，其中，程序存储区可存储操作系统、至少一个功能所需的应用程序等，数据存储区可存储相关数据等。此外，所述存储器可以是高速随机存取存储器，还可以是非易失性存储器，例如插接式硬盘，智能存储卡（SmartMedia Card，SMC）、安全数字（Secure Digital，SD）卡和闪存卡（Flash Card）等，或所述存储器也可以是其他易失性固态存储器件。

需要说明的是，上述计算机设备可包括，但不仅限于，处理器、存储器，本领域技术人员可以理解，图5结构框图仅仅是计算机设备的示例，并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

综上，本发明实施例提供的一种环境噪声识别方法、系统、设备和介质，基于少量标签数据和大量无标签数据，充分利用无标签环境噪声分类数据集，缓解目前需要从头收集数据、花费大量人力物力标记的问题，降低了数据标记的成本；采用无监督域适应方法，将有标签域的声谱图图像分类能力，迁移到无标签的声谱图中，提高环境噪声分类的准确性；应用对抗学习方法对训练集进行扩充，缓解小样本数据的问题，提高了模型的泛化能力。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通计数人员来说，在不脱离本发明计数原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种环境噪声识别方法，其特征在于，所述方法包括：

通过训练好的音频识别网络模型对环境噪声进行识别分类。

2.根据权利要求1所述的环境噪声识别方法，其特征在于，所述分别将每一个源域原始音频数据和目标域原始音频数据转换为对应的源域声谱图组和目标域声谱图组，包括：

使用连续小波变换将源域原始音频数据转换为源域声谱图；

每个目标域原始音频数据对应的目标域声谱图和目标域数据增强声谱图组构成一个目标域声谱图组。

3.根据权利要求1所述的环境噪声识别方法，其特征在于，所述根据所述源域特征向量组和目标域特征向量组，在源域和目标域对所述对比学习网络和对抗训练学习网络进行训练，包括：

4.根据权利要求3所述的环境噪声识别方法，其特征在于，所述通过对比学习网络进行对比学习，分别产生多个源域正负样本对和目标域正负样本对，包括：

5.根据权利要求3所述的环境噪声识别方法，其特征在于，从所述源域样本队列和目标域样本队列选取数据输入对抗训练学习网络进行对抗训练学习，将源域的特征学习分类能力迁移到目标域中，包括：

6.根据权利要求1所述的环境噪声识别方法，其特征在于，所述音频识别网络模型训练过程中的总损失函数为：

其中，为预测损失，/>为领域分类损失的权重系数，取值范围为（0，1），/>为领域分类损失，/>为对比损失的权重系数，取值范围为（0，1），/>为源域的对比损失，/>为目标域的对比损失。

7.根据权利要求2所述的环境噪声识别方法，其特征在于：

所述短时傅里叶变换将原始音频数据的音频信号分解为一系列时间窗口，对每个时间窗口应用傅里叶变换，得到音频信号在时间和频率上的二维表示；

8.一种环境噪声识别系统，其特征在于，所述系统包括：

数据分类模块，用于将原始音频数据依据是否有标签划分为有标签的源域原始音频数据和无标签的目标域原始音频数据；

模型构建模块，用于构建音频识别网络模型，所述音频识别网络模型包括对比学习网络、对抗训练学习网络和分类识别网络；

声谱转换模块，用于分别将每一个源域原始音频数据和目标域原始音频数据转换为对应的源域声谱图组和目标域声谱图组；

特征提取模块，用于对所述源域声谱图组和目标域声谱图组进行特征提取，分别得到源域特征向量组和目标域特征向量组；

模型训练模块，用于根据所述源域特征向量组和目标域特征向量组，在源域和目标域对所述对比学习网络和对抗训练学习网络进行训练，并根据所述源域特征向量组对所述分类识别网络进行标签的分类识别训练，得到训练好的音频识别网络模型；

9.一种计算机设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如权利要求1至7中任一项所述的环境噪声识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1至7中任一项所述的环境噪声识别方法。