CN115954019B

CN115954019B - 一种融合自注意力和卷积操作的环境噪声识别方法及系统

Info

Publication number: CN115954019B
Application number: CN202310196580.5A
Authority: CN
Inventors: 郑建辉
Original assignee: Guangzhou Soundbox Acoustic Tech Co ltd
Current assignee: Guangzhou Soundbox Acoustic Tech Co ltd
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-05-30
Anticipated expiration: 2043-03-03
Also published as: CN115954019A

Abstract

本发明提供了一种融合自注意力和卷积操作的环境噪声识别方法及系统，所述方法包括：获取待分析环境噪声数据；对所述待分析环境噪声数据进行预处理，得到对应的声音频谱图；将所述声音频谱图输入至预先构建的环境噪声识别网络模型进行分类预测，得到对应的声纹识别结果；所述环境噪声识别网络模型包括依次连接的声纹特征提取模块、奇异值分解特征精炼模块、上下文特征提取模块和MLP分类器。本发明通过设计采用自注意力机制和卷积操作融合对声谱图进行特征提取，采用奇异值分解对声谱图特征进行个性特征筛选，以及结合基于注意力的双向门控循环单元网络进一步提取时序特征的全新声纹识别模型，能有效提高环境噪音识别的鲁棒性、精准性和高效性。

Description

一种融合自注意力和卷积操作的环境噪声识别方法及系统

技术领域

本发明涉及声纹识别技术领域，特别是涉及一种融合自注意力和卷积操作的环境噪声识别方法及系统。

背景技术

随着城市化进程的发展，噪声污染日益严重，已成为影响城市居民身体健康和生活质量的重要环境因素，对于噪声污染的监测和治理也逐渐成为人们关心的问题。

最新研究表明，人们对声音的舒适度不仅取决于噪音的分贝数，还取决于噪声源，如铁路、公路、飞机的交通噪声，邻里之间的噪声和工业噪声等对人体健康和生活质量的影响并不相同。因此，忽略噪声源信息仅基于平均时间内加权声压的测量噪声进行监测的方法并不能满足实际应用需求，反之，若能采用声音内容的分类技术来识别噪声源信息及相对应的强度信息，可以更好的了解影响居民日常生活的声音问题，对噪声进行更加有效的评估，便于对症下药，找到精准的声学解决方案，进而极大促进城市噪声的管理，提高居民的城市生活质量。

现有噪声智能识别方法通常是基于卷积神经网络模型对噪声进行分类识别。尽管卷积神经网络在环境音频的特征提取方面表现不错，但当城市噪声类别增多且背景声复杂时，使用这种将声学信号直接转化成声谱图，再基于声谱图进行图像识别的方式所得到的分类准确率并不高，并且泛化能力也较弱，并不能对复杂多变的城市音频数据进行准确有效的分类识别，也不能为城市噪声管理提供可靠依据，亟需进一步提升和优化。

发明内容

本发明的目的是提供一种融合自注意力和卷积操作的环境噪声识别方法，通过考虑城市环境噪声的特性，针对性设计采用自注意力机制和卷积操作融合对声谱图进行特征提取，采用奇异值分解对声谱图特征进行个性特征筛选，以及采用基于注意力的双向门控循环单元网络进一步提取时序特征的全新声纹识别模型，解决现有待分析环境噪声数据识别的缺陷，在有效保证声纹特征提取的高效、全面且精准的基础上，还增加了特征的本质性和区分度，进而有效提高环境噪音识别的鲁棒性、精准性和高效性。

为了实现上述目的，有必要针对上述技术问题，提供了一种融合自注意力和卷积操作的环境噪声识别方法及系统。

第一方面，本发明实施例提供了一种融合自注意力和卷积操作的环境噪声识别方法，所述方法包括以下步骤：

获取待分析环境噪声数据；

对所述待分析环境噪声数据进行预处理，得到对应的声音频谱图；

将所述声音频谱图输入至预先构建的环境噪声识别网络模型进行分类预测，得到对应的声纹识别结果；所述环境噪声识别网络模型包括依次连接的声纹特征提取模块、奇异值分解特征精炼模块、上下文特征提取模块和MLP分类器。

进一步地，所述对所述待分析环境噪声数据进行预处理，得到对应的声音频谱图的步骤包括：

将所述待分析环境噪声数据进行短时傅立叶变换处理，得到对应的能量谱图；

计算所述能量谱图的Delta信息，并采用γ型滤波器对所述能量谱图进行滤波处理，得到γ频谱图；

将所述Delta信息和所述γ频谱图串联，得到对数γ频谱图；

将所述对数γ频谱图按照预设时间间隔进行分割，得到若干个对数γ频谱分割图；

将所述对数γ频谱分割图的分割时序作为第三维次数，并按照第三维次数由小到大的顺序对所述对数γ频谱分割图进行正序排列，得到所述声音频谱图。

进一步地，所述声纹特征提取模块为ACmix模型；所述上下文特征提取模块包括依次连接的带注意力机制的双向门控循环单元网络和自注意力网络；所述带注意力机制的双向门控循环单元网络包括双向门控循环单元网络和注意力机制模块。

进一步地，所述将所述声音频谱图输入至预先构建的环境噪声识别网络模型进行分类预测，得到对应的声纹识别结果的步骤包括：

将所述声音频谱图输入所述声纹特征提取模块进行基于自注意力和卷积的融合特征提取，得到初始声纹特征；

将所述初始声纹特征输入所述奇异值分解特征精炼模块进行特征去冗余处理，得到声纹精炼特征；

将所述声纹精炼特征输入所述上下文特征提取模块进行上下文信息提取，得到声纹上下文特征向量；

将所述声纹上下文特征向量输入所述MLP分类器进行分类预测，得到所述声纹识别结果。

进一步地，所述将所述初始声纹特征输入所述奇异值分解特征精炼模块进行特征去冗余处理，得到声纹精炼特征的步骤包括：

获取所述初始声纹特征中各个特征图对应的特征矩阵集；

对各个特征矩阵集里的各个初始特征矩阵进行奇异值分解，得到对应的主成分特征向量；所述主成分特征向量为所述初始特征矩阵的最大奇异值对应的特征向量；

根据所述主成分特征向量，将对应的初始特征矩阵进行去冗余处理，得到所述精炼特征矩阵；所述精炼特征矩阵表示为：

其中，

和/>

分别表示初始特征矩阵和精炼特征矩阵；/>

表示最大奇异值，/>

和/>

分别表示初始特征矩阵/>

的最大奇异值对应的左奇异向量和右奇异向量；

将各个精炼特征矩阵进行标准化处理，得到标准化特征矩阵；

将各个标准化特征矩阵组合，得到所述声纹精炼特征。

进一步地，所述将所述声纹精炼特征输入所述上下文特征提取模块进行上下文信息提取，得到声纹上下文特征向量的步骤包括：

将所述声纹精炼特征输入所述双向门控循环单元网络进行双向编码处理，得到隐状态表示向量；

将所述隐状态表示向量输入所述注意力机制模块进行帧级别注意力融合，得到初始上下文特征向量；

将所述初始上下文特征输入所述自注意力网络进行优化处理，得到所述声纹上下文特征向量。

进一步地，所述将所述初始上下文特征向量输入所述自注意力网络进行优化处理，得到所述声纹上下文特征向量的步骤包括：

根据所述初始上下文特征向量，得到上下文特征矩阵；所述上下文特征矩阵表示为：

其中，

表示第t个时间步的初始上下文特征向量；

将所述上下文特征矩阵中的各个行向量采用Softmax函数进行归一化处理，得到优化上下文特征矩阵；所述优化上下文特征矩阵表示为：

其中，

和/>

分别表示上下文特征矩阵/>

和优化上下文特征矩阵/>

的第i个行向量；

根据所述优化上下文特征矩阵，计算得到所述声纹上下文特征向量；所述声纹上下文特征向量表示为：

=/>

其中，

表示优化上下文特征矩阵；/>

表示第t个时间步的声纹上下文特征向量。

第二方面，本发明实施例提供了一种融合自注意力和卷积操作的环境噪声识别系统，所述系统包括：

数据采集模块，用于获取待分析环境噪声数据；

预处理模块，用于对所述待分析环境噪声数据进行预处理，得到对应的声音频谱图；

声纹识别模块，用于将所述声音频谱图输入至预先构建的环境噪声识别网络模型进行分类预测，得到对应的声纹识别结果；所述环境噪声识别网络模型包括依次连接的声纹特征提取模块、奇异值分解特征精炼模块、上下文特征提取模块和MLP分类器。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

上述本申请提供了一种融合自注意力和卷积操作的环境噪声识别方法及系统，通过所述方法，实现了预先构建依次连接的声纹特征提取模块、奇异值分解特征精炼模块、上下文特征提取模块和MLP分类器的环境噪声识别网络模型，并在对获取的待分析环境噪声数据进行预处理得到对应的声音频谱图后，将声音频谱图输入至环境噪声识别网络模型进行分类预测，得到对应的声纹识别结果的技术方案。与现有技术相比，该融合自注意力和卷积操作的环境噪声识别方法，通过考虑城市环境噪声的特性，针对性设计采用自注意力机制和卷积操作融合对声谱图进行特征提取，采用奇异值分解对声谱图特征进行个性特征筛选，以及结合基于注意力的双向门控循环单元网络进一步提取时序特征的全新声纹识别模型，在有效保证声纹特征提取的高效、全面且精准的基础上，增加特征的本质性和区分度，进而有效提高环境噪音识别的鲁棒性、精准性和高效性，为城市噪声管理提供可靠依据。

附图说明

图1是本发明实施例中融合自注意力和卷积操作的环境噪声识别网络模型架构示意图；

图2是本发明实施例中融合自注意力和卷积操作的环境噪声识别方法的流程示意图；

图3是本发明实施例中对待分析噪声数据预处理生成声谱图的过程示意图；

图4是本发明实施例中ACmix的结构示意图；

图5是本发明实施例中带注意力机制的双向门控循环单元网络的结构示意图；

图6是本发明实施例中双向门控循环单元网络的门控循环单元模型的隐状态结构示意图；

图7是本发明实施例中融合自注意力和卷积操作的环境噪声识别系统的结构示意图；

图8是本发明实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案和有益效果更加清楚明白，下面结合附图及实施例，对本发明作进一步详细说明，显然，以下所描述的实施例是本发明实施例的一部分，仅用于说明本发明，但不用来限制本发明的范围。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的融合自注意力和卷积操作的环境噪声识别方法可应用于可并发处理多个终端应用数据的服务器上。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器可根据图1所示的环境噪声识别网络模型架构对实时采集的环境噪声数据进行识别分析，生成对应的声纹识别结果用于服务器后续的研究使用或发送至终端，供终端的使用者查看分析；下述实施例将对本发明的融合自注意力和卷积操作的环境噪声识别方法进行详细说明。

在一个实施例中，如图2所示，提供了一种融合自注意力和卷积操作的环境噪声识别方法，包括以下步骤：

S11、获取待分析环境噪声数据；其中，待分析环境噪声数据可理解为由用户所能够采集到的需要进行声源和强度识别分析的环境噪声数据，具体采集方法可根据实际情况选取，此处不作限制。

S12、对所述待分析环境噪声数据进行预处理，得到对应的声音频谱图；其中，预处理可理解为将待分析环境噪声数据处理为便于网络模型分类识别的数据形式，原则上可将采集的原始数据转换为MEL频谱图或对数MEL频谱图，但考虑到对数γ频谱特征在分类精度方面表现较好，本实例优选地将待分析环境噪声数据经过一系列处理，得到对应的对数γ频谱图再进行识别分析；

具体的，所述对所述待分析环境噪声数据进行预处理，得到对应的声音频谱图的步骤包括：

将所述待分析环境噪声数据进行短时傅立叶变换处理，得到对应的能量谱图；其中，能量谱图可理解为将原始音频信号采用短时傅立叶变换(Short Time FourierTransform，STFT)，并使用尺寸为23 ms(44.1 kHz的1024个样品)和50％重叠的提取规则提取得到谱图；

计算所述能量谱图的Delta信息，并采用γ型滤波器对所述能量谱图进行滤波处理，得到γ频谱图；其中，γ型滤波器可理解为128波段γ型滤波器，用生成所需γ频谱图；为了有效利用有限的数据，将频谱图分为128帧(约1.5帧)重叠50％，计算能量谱图的Delta信息，并将γ频谱图及其Delta信息串联得到的3-D特征(log-gts)作为后续网络模型的输入；

将所述Delta信息和所述γ频谱图串联，得到对数γ频谱图；

将所述对数γ频谱图按照预设时间间隔进行分割，得到若干个对数γ频谱分割图；其中，预设时间间隔可在满足小于对应频谱图尺寸上总时间的基础上，根据实际应用需求任意选取；

将所述对数γ频谱分割图的分割时序作为第三维次数，并按照第三维次数由小到大的顺序对所述对数γ频谱分割图进行正序排列，得到所述声音频谱图；其中，第三维次数可理解为便于对得到的对数γ频谱分割图按照时间先后次序进行管理的第三维变量，对应得到如图3所示的声音频谱图。

S13、将所述声音频谱图输入至预先构建的环境噪声识别网络模型进行分类预测，得到对应的声纹识别结果；所述环境噪声识别网络模型（ACGRU模型）主要由基于卷积与注意力融合的特征提取，以及对提取到的特征依次进行去冗余精炼处理和核心上下文时序特征抽取后再进行分类识别的两个阶段组成，包括依次连接的声纹特征提取模块、奇异值分解特征精炼模块、上下文特征提取模块和MLP分类器；

其中，声纹特征提取模块可理解为基于卷积与注意力融合的特征提取的第一阶段处理模块，原则上可采用任意满足声谱图特征提取要求的网络模块，但为了保证为了保证初始声纹特征提取的精准和高效，本实施例优选地，选用将深度神经网络技术中的自注意力机制和卷积操作进行了融合的ACmix模型；该模型以最小的计算开销优雅地集成了卷积和自注意力，其通过先使用卷积对输入特征进行映射以获得丰富的中间特征，再分别以卷积和自注意力的方式重用和聚合中间特征，在融合卷积和自注意力两者优点的同时，有效避免了二次投影操作；

具体的，ACmix模型如图4所示，分为两个阶段：1)阶段一（卷积路径）通过3个1×1卷积对输入特征进行投影，然后变形函数（reshape操作为N个片段，得到包含3×N特征映射的一组丰富的中间特征；2)阶段二（特征转移聚合和自注意力路径），其特征转移聚合模块收到中间特征后，采用全连接层MLP生成非线性特征映射，并对生成映射特征进行转移和聚合形成对输入特征的卷积处理，实现相传统的CNN网络一样从局部感受野抽取有用的特征信息；对应的自注意力路径集合N组中间特征，每组共有3个来自1×1卷积的特征图，对应的三个特征图分别作为query、key和value值，按照传统的多头自注意力模块进行操作计算；最后，将两个路径生成的特征张量进行加权相加，其权值由两个可学习标量（

）控制，最终生成了H×W×C的融合特征图：

其中，

和/>

分别表示注意力路径输出特征图和卷积路径输出特征图；

由于ACmix融合了卷积和自注意力两者的优势，将其应用于声谱图特征的提取中能实现混合表征学习增强，有效加强了对数γ频谱分割图特征的提取能力，进而为后续声纹识别提供可靠保障；

上述奇异值分解特征精炼模块可理解为基于奇异值分解（SVD，Singular ValueDecomposition）将声纹特征提取模块提取得到的声谱图特征进行一步筛选，消除特征图中共有的冗余信息，保留独特的个性信息，进而便于后续分类器的有效处理。需要说明是，此处对于奇异值分解方法的使用与传统图像分析的使用并不相同：在现有的图像分析中使用奇异值分解主要是用于抽取最大前几个奇异值和对应的特征向量来重构矩阵，使得保留主成分而忽略其他次要成分；而本实施例中考虑到每种类型的噪声声谱图像差异性不大，共性特征远大于个性特征的情况，对奇异值分解的使用是反其道而行之，基于个性特征都编码在较小的奇异值和对应的特征向量中的事实，通过将奇异值分解得到的第一主成分所对应的最大奇异值从特征图中删除而保留次要成分，实现对声谱图特征的精炼，增加了特征的鲁棒性和本质性，不仅便于对声谱图进行更好地适配分析处理，有效提升分类精度，而且计算简单、运行高效；

上下文特征提取模块可理解为对奇异值分解特征精炼模块处理得到的声纹精炼特征进行更加有效的对上下文语义信息进行编码获取精准有效的上下文时序特征，进而提升环境噪声分类模型的准确性和鲁棒性的特征提取模块，考虑到声谱图具有时序性，为了更好地处理序列信息，本实施例优选的将其设计为包括依次连接的带注意力机制的双向门控循环单元网络Bi-GRU（Bidirectional Gated Recurrent Unit）和自注意力网络的网络结构；其中，带注意力机制的双向门控循环单元网络如图5所示，包括双向门控循环单元网络和注意力机制模块，对应的门控循环单元网络是循环神经网络（Recurrent NeuralNetwork, RNN）的一种，其支持隐状态(hidden state)的门控(gate)，即模型有专门机制确定何时更新隐状态，以及何时重置隐状态，对应的隐状态结构如图6所示，对应的门控循环单元更新公式为：

式中，

其中，

表示时间步/>

对应的批量样本；/>

表示上一个时间步t-1的隐状态，/>

表示隐藏单元个数；/>

表示时间步t的候选隐状态（candidatehidden state）；/>

和/>

分别表示重置门和更新门；

和/>

是权重参数，/>

是偏置参数，/>

表示样本个数；/>

表示sigmoid函数，用于将输入值转换到区间(0,1)；符号/>

是Hadamard积（按元素乘积）运算符；tanh表示非线性激活函数，以确保候选隐状态中的值保持在区间(-1,1)中。

门控循环单元网络中，每当更新门

接近1时，模型就倾向只保留旧状态；此时，来自/>

的信息基本上被忽略，从而有效地跳过了依赖链条中的时间步t；相反，当/>

接近0时，新的隐状态/>

就会接近候选隐状态/>

。此种设计可以有效解决循环神经网络中的梯度消失问题，并能更好地捕获时间步距离很长的序列间的依赖关系。本实施例中使用改进的带有注意力机制的双向门控循环单元Bi-GRU，基于GRU中的隐藏层H，利用帧级注意力（frameattention）来获得注意力权重，并将权重与声谱图每一帧的输入特征进行相乘，再将注意力加权聚合以形成信息量丰富的上下文特征向量，具体的应用过程如下：

通过Bi-GRU双向（从左往右，从右往左）输出的隐状态拼接

以获得/>

的隐状态表示向量，对应的注意力机制的计算公式如下:

其中，

为Bi-GRU层第t个时间步的输出特征向量，/>

为随机初始化并在训练中学习的注意力权重矩阵（注意力权重是可学习的参数，在训练过程中会更新迭代到稳定为止），/>

为注意力层的最终输出的上下文特征向量。

需要说明的是，声谱图是一个帧序列，有非常明显的时序特征，但是每帧可能都包含了冗余信息，本实施例基于此优选使用Bi-GRU，不仅通过利用门控机制过滤无效特征，有效控制序列的编码质量，而且使用前向+后向的双向编码，可以生成信息量更加丰富的上下文语义特征；同时，通过在Bi-GRU基础上进一步加入了注意力机制，不再将所有的特征一视同仁搞平均主义，而是将包含了更重要、更本质语义信息的特征赋予更大的权重（权重都是可学习的参数，可在训练过程中自动调优），使得它们在最终的上下文编码上能更加显著突出，即进一步提高编码质量，更加方便后续分类器的处理。

此外，原则上经过带注意力机制的双向门控循环单元网络Bi-GRU提取得到的上下文时序特征向量就可以直接输入分类器得到识别结果，但为了使得显著的特征可以进一步占据主导地位，可区分度更高，本实施例优选地在使用带注意力的Bi-GRU生成的上下文特征向量基础上，再进一步应用自注意力（Self-Attention）计算来优化改上下文特征向量，以保证得到能够进一步提升分类精度的更加有效的时序特征。

通过上述将ACmix模型、奇异值分解、带注意力的双向门控循环单元Bi-GRU模型的有效融合，就得到了本申请用噪声分类识别的网络模型，再通过收集训练数据对其进行有效训练，即可得到能直接用于噪声分类预测的环境噪声识别网络模型。具体的，所述将所述声音频谱图输入至预先构建的环境噪声识别网络模型进行分类预测，得到对应的声纹识别结果的步骤包括：

将所述声音频谱图输入所述声纹特征提取模块进行基于自注意力和卷积的融合特征提取，得到初始声纹特征；其中，初始声纹特征可理解为通过ACmix模型获取的融合特征图，具体获取过程如下：

在第一阶段：通过3个1×1卷积对输入声谱图进行投影，然后变形函数（reshape）操作为N个片段。因此，获得了包含3×N特征映射的一组丰富的中间特征。

在第二阶段：收到中间特征后，采用全连接层MLP（Multilayer Perceptron），生成非线性特征映射；然后通过对生成的特征进行转移和聚合，形成对输入特征进行卷积处理，这样可以像传统的CNN网络一样从局部感受野抽取有用的特征信息；

对于自注意力路径，将上述所得的中间特征集合到N组中，每组包含3个特征，每个特征来自1×1卷积；对应的三个特征图分别作为query、key和value，利用传统的多头自注意力模块进行操作计算；

最后，将两个路径生成的特征张量进行加权相加，最终生成了维数为H×W×C的融合特征图，即得到声音频谱图对应的初始声纹特征。

将所述初始声纹特征输入所述奇异值分解特征精炼模块进行特征去冗余处理，得到声纹精炼特征；其中，所述将所述初始声纹特征输入所述奇异值分解特征精炼模块进行特征去冗余处理，得到声纹精炼特征的步骤包括：

获取所述初始声纹特征中各个特征图对应的特征矩阵集；其中，各个特征图对应的特征矩阵集可理解为将每个初始声纹特征图（H×W×C维的张量

）看作是C个H×W矩阵的组合；

对各个特征矩阵集里的各个初始特征矩阵进行奇异值分解，得到对应的主成分特征向量；所述主成分特征向量为所述初始特征矩阵的最大奇异值对应的特征向量；其中，主成分特征向量的获取过程可理解为：

先对各个特征图对应的特征矩阵集中的每个初始特征矩阵

进行奇异值分解，令/>

为初始特征矩阵/>

的非零奇异值的数量，则初始特征矩阵/>

可以表达成：

其中，

为第/>

个奇异值，/>

和/>

分别对应/>

的第/>

个左奇异向量和右奇异向量；

再对初始特征矩阵的所有奇异值按照大小进行排序，找到该矩阵的最大奇异值，并将该最大奇异值对应的左奇异向量和右奇异向量作为主成分特征向量。

其中，

和/>

分别表示初始特征矩阵和精炼特征矩阵；/>

表示最大奇异值，/>

和/>

分别表示初始特征矩阵/>

的最大奇异值对应的左奇异向量和右奇异向量；

将各个精炼特征矩阵进行标准化处理，得到标准化特征矩阵；其中，标准化处理可理解为对精炼特征矩阵

（/>

像素的高度和宽度）中的每个元素/>

，进行z值(z-score)标准化；具体操作如下：

令

，/>

则z值(z-score)标准化处理后的矩阵

中的每个元素/>

可表示为：

通过对

个矩阵/>

均采用上述方法进行同样的标准化操作，可形成

的精炼特征图张量/>

，即得到标准化特征矩阵；

将各个标准化特征矩阵组合，得到所述声纹精炼特征。

需要说的是，本实施例中标准化方法采用z-score标准化实现，能够将不同量级的数据转化为统一量度的z-score分值进行比较，且经过处理的精炼特征图符合标准正态分布（均值为0，标准差为1），进而使得模型在更新参数的同时更易于收敛，进而提升模型运行效果。

将所述声纹精炼特征输入所述上下文特征提取模块进行上下文信息提取，得到声纹上下文特征向量；其中，上下文特征提取模块对输入的声纹精炼特征进行处理的过程可参见前文对该模块功能结构的相关描述；具体的，所述将所述声纹精炼特征输入所述上下文特征提取模块进行上下文信息提取，得到声纹上下文特征向量的步骤包括：

将所述初始上下文特征输入所述自注意力网络进行优化处理，得到所述声纹上下文特征向量，具体包括：

根据所述初始上下文特征向量，得到上下文特征矩阵；所述上下文特征矩阵

表示为：

其中，

表示第t个时间步的初始上下文特征向量；

其中，

和/>

分别表示上下文特征矩阵/>

和优化上下文特征矩阵/>

的第i个行向量；

=/>

其中，

表示优化上下文特征矩阵；/>

表示第t个时间步的声纹上下文特征向量；

通过上述处理过程易知，在使用带注意力的Bi-GRU生成的上下文特征向量基础上，再进一步应用自注意力（Self-Attention）计算来优化改上下文特征向量，可使得显著的特征更加突出且占主导地位，进而使得各个特征的可区分度更高，能有效提升分类精度；

本申请实施例通过针对噪声声谱图的特性预先构建通过ACmix模型基于自注意力机制和卷积融合进行初始声纹特征提取，通过奇异值分解对得到初始声纹特征进行去冗余精炼，以及通过带注意力机制的双向门控循环单元网络和自注意力网络的对精炼特征进行高质量上下文时序特征的提取，再使用MLP分类器进行分类识别的一种全新的环境噪声识别网络模型，并通过该模型基于待分析环境噪声数据预处理得到的声音频谱图进行分类预测，得到对应的声纹识别结果的技术方案，不仅能有效保证声纹特征提取的高效、全面且精准，而且能增加提取特征的本质性和区分度，进而有效提高环境噪音识别的鲁棒性、精准性和高效性，为城市噪声管理提供可靠依据。

在一个实施例中，如图7所示，提供了一种融合自注意力和卷积操作的环境噪声识别系统，所述系统包括：

数据采集模块1，用于获取待分析环境噪声数据；

预处理模块2，用于对所述待分析环境噪声数据进行预处理，得到对应的声音频谱图；

声纹识别模块3，用于将所述声音频谱图输入至预先构建的环境噪声识别网络模型进行分类预测，得到对应的声纹识别结果；所述环境噪声识别网络模型包括依次连接的声纹特征提取模块、奇异值分解特征精炼模块、上下文特征提取模块和MLP分类器。

关于融合自注意力和卷积操作的环境噪声识别系统的具体限定可以参见上文中对于融合自注意力和卷积操作的环境噪声识别方法的限定，在此不再赘述。上述融合自注意力和卷积操作的环境噪声识别系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图8示出一个实施例中计算机设备的内部结构图，该计算机设备具体可以是终端或服务器。如图8所示，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示器和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现融合自注意力和卷积操作的环境噪声识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域普通技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法的步骤。

综上，本发明实施例提供的一种融合自注意力和卷积操作的环境噪声识别方法及系统，其融合自注意力和卷积操作的环境噪声识别方法实现了预先构建依次连接的声纹特征提取模块、奇异值分解特征精炼模块、上下文特征提取模块和MLP分类器的环境噪声识别网络模型，并在对获取的待分析环境噪声数据进行预处理得到对应的声音频谱图后，将声音频谱图输入至环境噪声识别网络模型进行分类预测，得到对应的声纹识别结果的技术方案，该方法通过考虑城市环境噪声的特性，针对性设计采用自注意力机制和卷积操作融合对声谱图进行特征提取，采用奇异值分解对声谱图特征进行个性特征筛选，以及结合基于注意力的双向门控循环单元网络进一步提取时序特征的全新声纹识别模型，在有效保证声纹特征提取的高效、全面且精准的基础上，增加特征的本质性和区分度，进而有效提高环境噪音识别的鲁棒性、精准性和高效性，为城市噪声管理提供可靠依据。

本说明书中的各个实施例均采用递进的方式描述，各个实施例直接相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。需要说明的是，上述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种优选实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本申请的保护范围。因此，本申请专利的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种融合自注意力和卷积操作的环境噪声识别方法，其特征在于，所述方法包括以下步骤：

获取待分析环境噪声数据；

将所述声音频谱图输入至预先构建的环境噪声识别网络模型进行分类预测，得到对应的声纹识别结果；所述环境噪声识别网络模型包括依次连接的声纹特征提取模块、奇异值分解特征精炼模块、上下文特征提取模块和MLP分类器；其中，所述声纹特征提取模块为ACmix模型；所述上下文特征提取模块包括依次连接的带注意力机制的双向门控循环单元网络和自注意力网络；所述带注意力机制的双向门控循环单元网络包括双向门控循环单元网络和注意力机制模块。

2.如权利要求1所述的融合自注意力和卷积操作的环境噪声识别方法，其特征在于，所述对所述待分析环境噪声数据进行预处理，得到对应的声音频谱图的步骤包括：

将所述Delta信息和所述γ频谱图串联，得到对数γ频谱图；

3.如权利要求1所述的融合自注意力和卷积操作的环境噪声识别方法，其特征在于，所述将所述声音频谱图输入至预先构建的环境噪声识别网络模型进行分类预测，得到对应的声纹识别结果的步骤包括：

4.如权利要求3所述的融合自注意力和卷积操作的环境噪声识别方法，其特征在于，所述将所述初始声纹特征输入所述奇异值分解特征精炼模块进行特征去冗余处理，得到声纹精炼特征的步骤包括：

获取所述初始声纹特征中各个特征图对应的特征矩阵集；

根据所述主成分特征向量，将对应的初始特征矩阵进行去冗余处理，得到精炼特征矩阵；所述精炼特征矩阵表示为：

其中，

和/>

分别表示初始特征矩阵和精炼特征矩阵；/>

表示最大奇异值，/>

和/>

分别表示初始特征矩阵/>

的最大奇异值对应的左奇异向量和右奇异向量；

将各个标准化特征矩阵组合，得到所述声纹精炼特征。

5.如权利要求3所述的融合自注意力和卷积操作的环境噪声识别方法，其特征在于，所述将所述声纹精炼特征输入所述上下文特征提取模块进行上下文信息提取，得到声纹上下文特征向量的步骤包括：

6.如权利要求5所述的融合自注意力和卷积操作的环境噪声识别方法，其特征在于，所述将所述初始上下文特征输入所述自注意力网络进行优化处理，得到所述声纹上下文特征向量的步骤包括：

其中，

表示第t个时间步的初始上下文特征向量；

其中，

和/>

分别表示上下文特征矩阵/>

和优化上下文特征矩阵/>

的第i个行向量；

=/>

其中，

表示优化上下文特征矩阵；/>

表示第t个时间步的声纹上下文特征向量。

7.一种融合自注意力和卷积操作的环境噪声识别系统，其特征在于，所述系统包括：

数据采集模块，用于获取待分析环境噪声数据；

声纹识别模块，用于将所述声音频谱图输入至预先构建的环境噪声识别网络模型进行分类预测，得到对应的声纹识别结果；所述环境噪声识别网络模型包括依次连接的声纹特征提取模块、奇异值分解特征精炼模块、上下文特征提取模块和MLP分类器；其中，所述声纹特征提取模块为ACmix模型；所述上下文特征提取模块包括依次连接的带注意力机制的双向门控循环单元网络和自注意力网络；所述带注意力机制的双向门控循环单元网络包括双向门控循环单元网络和注意力机制模块。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一所述方法的步骤。