CN115376518B

CN115376518B - 一种实时噪声大数据的声纹识别方法、系统、设备和介质

Info

Publication number: CN115376518B
Application number: CN202211314627.5A
Authority: CN
Inventors: 郑建辉
Original assignee: Guangzhou Soundbox Acoustic Tech Co ltd
Current assignee: Guangzhou Soundbox Acoustic Tech Co ltd
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-01-20
Anticipated expiration: 2042-10-26
Also published as: CN115376518A

Abstract

本发明提供了一种实时噪声大数据的声纹识别方法、系统、设备及介质，所述方法包括：获取环境噪声数据，并生成环境噪声数据的对数γ频谱图；将对数γ频谱图进行预处理，得到对应的三维对数γ频谱图；将三维对数γ频谱图输入至预先构建的包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器的高区分度双重域学习网络模型进行分类预测，得到对应的声纹识别结果。本发明通过使用门控循环单元网络和反事实因果注意力学习层并行提取时间结构特征和频率特征，并采用相似性矩阵与注意力机制结合的方式进行特征融合，有效提高了环境噪音分类模型的鲁棒性、运行效率以及分类精准性。

Description

一种实时噪声大数据的声纹识别方法、系统、设备和介质

技术领域

本发明涉及声纹识别技术领域，特别是涉及一种实时噪声大数据的声纹识别方法、系统、计算机设备和存储介质。

背景技术

近年来，环境声音分类在环保监控、家庭自动化、场景分析和机器听觉中都受到了广泛的关注。环境声音分类与音乐/语音识别任务不同之处在于环境声音分类的时间结构特征和频率特征更加复杂多变，应用传统技术方案通常无法获得良好的性能。

目前学术界为了提升环境声音分类性能主要采用DSP信号处理和机器学习两种技术。然而，DSP信号处理技术虽然可以处理一些浅层简单特征，且在环境声音分类中成功应用了一些基于字典的方法，但这类方案往往需要繁琐的特征设计过程才能获得一定的精度。同时，环境声音分类中应用的机器学习技术，如高斯混合模型(GMM)、支持向量机(SVM)和神经网络模型，虽然应用了多种特征变换方案能够处理复杂的高维特征，在一定程度上提升了特征提取能力，但其不仅模型泛化能力较弱，而且识别过程中仅关注声谱图中的特征频率，而忽略了环境声音具有复杂的时间结构特征，如环境声音可以是短暂的(如枪声)、连续的(如下雨)或间歇的(如狗叫声)等，并不能简单地通过现有技术来有效模拟的问题，进而降低了模型的稳健性和分类精准性。

发明内容

本发明的目的是提供一种实时噪声大数据的声纹识别方法，通过设计一种基于时间结构域和频域的高区分度双重域学习网络来专注于语义相关、突出帧以及音频数据时间结构特征等内容，解决现有环境噪声数据识别的缺陷，有针对性的提高城市环境噪音音频分类模型的鲁棒性和运行效率的同时，进一步提高环境噪音音频分类的精准性。

为了实现上述目的，有必要针对上述技术问题，提供了一种实时噪声大数据的声纹识别方法、系统、计算机设备和存储介质。

第一方面，本发明实施例提供了一种实时噪声大数据的声纹识别方法，所述方法包括以下步骤：

获取环境噪声数据，并生成所述环境噪声数据的对数γ频谱图；

将所述对数γ频谱图进行预处理，得到对应的三维对数γ频谱图；

将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测，得到对应的声纹识别结果；所述高区分度双重域学习网络模型包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器。

进一步地，所述生成所述环境噪声数据的对数γ频谱图的步骤包括：

将所述环境噪声数据进行短时傅立叶变换处理，得到对应的能量谱图；

计算所述能量谱图的Delta信息，并采用γ型滤波器对所述能量谱图进行滤波处理，得到γ频谱图；

将所述Delta信息和所述γ频谱图串联，得到所述对数γ频谱图。

进一步地，所述将所述对数γ频谱图进行预处理，得到对应的三维对数γ频谱图的步骤包括：

将所述对数γ频谱图按照预设时间间隔进行分割，得到若干个对数γ频谱分割图；

将所述对数γ频谱分割图的分割时序作为第三维次数，并按照第三维次数由小到大的顺序对所述对数γ频谱分割图进行正序排列，得到所述三维对数γ频谱图。

进一步地，所述双重域特征提取模块包括并联的高区分度时间结构特征模块和高区分度频率特征模块；

所述高区分度时间结构特征模块为门控循环单元网络；

所述高区分度频率特征模块包括依次连接的输入层、反事实因果注意力学习层和输出层。

进一步地，所述反事实因果注意力学习层的损失函数表示为：

式中，

其中，

表示反事实因果注意力学习层的损失值；

表示分类标签；

和

均表示交叉熵损失函数；

表示

的第i个分量；A表示反事实因果注意力学习层得到的注意力图；

表示反事实因果注意力学习层基于反事实干预得到的注意力图；

表示softmax分类器基于注意力图A的输出结果的第i个分量；

表示softmax分类器基于注意力图

的输出结果；

表示因果推理干预；

表示三维对数γ频谱图；A表示反事实因果注意力学习层得到的注意力图；X表示频率特征图；Y (A=A, X=X)表示使用A原值的注意力计算结果；Y (do(A=

)，X=X)表示反事实选择时，用

代替A后的注意力计算结果。

进一步地，所述将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测，得到对应的声纹识别结果的步骤包括：

将所述三维对数γ频谱图输入所述双重域特征提取模块进行特征提取，得到对应的时间结构特征图和频率特征图；

将所述时间结构特征图和所述频率特征图输入所述有效特征融合模块进行特征融合，得到时频融合特征；

将所述时频融合特征依次输入所述下采样模块、全连接层和softmax分类器进行处理，得到所述声纹识别结果。

进一步地，所述将所述时间结构特征图和所述频率特征图输入所述有效特征融合模块进行特征融合，得到时频融合特征的步骤包括：

根据所述时间结构特征图和所述频率特征图，得到特征相似矩阵；

将所述特征相似矩阵分别输入第一卷积层和第二卷积层进行卷积处理，得到对应的时间权重矩阵和频率权重矩阵；

根据所述时间权重矩阵和所述频率权重矩阵对所述时间结构特征图和所述频率特征图进行融合，得到所述时频融合特征。

第二方面，本发明实施例提供了一种实时噪声大数据的声纹识别系统，所述系统包括：

数据获取模块，用于取环境噪声数据，并生成所述环境噪声数据的对数γ频谱图；

预处理模块，用于将所述对数γ频谱图进行预处理，得到对应的三维对数γ频谱图；

声纹识别模块，用于将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测，得到对应的声纹识别结果；所述高区分度双重域学习网络模型包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

上述本申请提供了一种实时噪声大数据的声纹识别方法、系统、计算机设备及存储介质，通过所述方法，实现了在获取环境噪声数据后，生成对应的对数γ频谱图，并将对其进行预处理得到的三维对数γ频谱图输入至预先构建的包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器的高区分度双重域学习网络模型进行分类预测，得到对应的声纹识别结果的技术方案。与现有技术相比，该实时噪声大数据的声纹识别方法，通过使用门控循环单元网络和反事实因果注意力学习层并行提取时间结构特征和频率特征，并采用相似性矩阵与注意力机制结合的方式进行特征融合，有效提高了环境噪音分类模型的鲁棒性、运行效率以及分类精准性。

附图说明

图1是本发明实施例中实时噪声大数据的声纹识别方法的应用场景示意图；

图2是本发明实施例中实时噪声大数据的声纹识别模型框架示意图；

图3是本发明实施例中实时噪声大数据的声纹识别方法的流程示意图；

图4是本发明实施例中生成的对数γ频谱图示意图；

图5中本发明实施例中生成的三维对数γ频谱图的过程示意图；

图6是本发明实施例中双重域特征提取模块中门控循环单元模型的结构示意图；

图7是图6中门控循环单元模型中的隐状态结构示意图；

图8是本发明实施例中双重域特征提取模块中频率特征提取模块的结构示意图；

图9是图8中反事实因果注意力学习层的结构示意图；

图10是本发明实施例中有效特征融合模块的结构示意图；

图11是本发明实施例中实时噪声大数据的声纹识别系统的结构示意图；

图12是本发明实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案和有益效果更加清楚明白，下面结合附图及实施例，对本发明作进一步详细说明，显然，以下所描述的实施例是本发明实施例的一部分，仅用于说明本发明，但不用来限制本发明的范围。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的实时噪声大数据的声纹识别方法可应用于图1所示的并发处理多个终端应用数据的服务器上。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器可根据图2所示的声纹识别模型架构对获取的环境实时噪声数据进行分析判断，生成对应的声纹识别结果用于服务器后续的研究使用或发送至终端，供终端的使用者查看分析；下述实施例将对本发明的实时噪声大数据的声纹识别方法进行详细说明。

在一个实施例中，如图3所示，提供了一种实时噪声大数据的声纹识别方法，包括以下步骤：

S11、获取环境噪声数据，并生成所述环境噪声数据的对数γ频谱图；其中，环境噪声数据可理解为由用户使用移动噪声采集设备（如手机APP）或其他专用采集环境噪声数据的设备，在检测现场采集的一段连续不间断（可以为10秒或20秒等）的实时噪声音频数据，具体的采集设备和采集时长此处不作限制；

基于环境声音分类采用对数γ频谱特征在分类精度方面比采用对数MEL频谱图表现更好的考虑，本实施例优选将采集到的环境噪声数据数据统一进行对数γ频谱特征提取，生成对数γ频谱图再进行使用；具体地，所述生成所述环境噪声数据的对数γ频谱图的步骤包括：

将所述环境噪声数据进行短时傅立叶变换处理，得到对应的能量谱图；其中，能量谱图是使用的尺寸为23 ms(44.1 kHz的1024个样品)短时傅立叶变换并基于50％重叠的原则提取得到；

计算所述能量谱图的Delta信息，并采用γ型滤波器对所述能量谱图进行滤波处理，得到γ频谱图；其中，得到γ频谱图的过程可理解为将128波段γ型滤波器应用于能量谱图，并将所得的频谱图转换为对数尺度，且为了有效利用有限的数据，进一步将频谱图分为128帧(约1.5帧)重叠50％；

将所述Delta信息和所述γ频谱图串联，得到所述对数γ频谱图；其中，对数γ频谱图如图4所示为将Delta信息和γ频谱图串联得到的3-D特征，可表示为

。

S12、将所述对数γ频谱图进行预处理，得到对应的三维对数γ频谱图；其中，预处理可理解为便于后续模型提取声纹特征所进行的频谱图分割处理，具体地，如图5所示，所述将所述对数γ频谱图进行预处理，得到对应的三维对数γ频谱图的步骤包括：

将所述对数γ频谱图按照预设时间间隔进行分割，得到若干个对数γ频谱分割图；其中，预设时间间隔可基于实际采集环境噪声数据的时长，根据实际应用需求进行确定，只需满足小于频谱图尺寸上的总时长即可，此处不作具体限制；

S13、将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测，得到对应的声纹识别结果；所述高区分度双重域学习网络模型H2DNet(Highdiscrimination Dual-domain Net)包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器；其中，所述双重域特征提取模块包括并联的高区分度时间结构特征模块(HDT：High Discrimination Time Feature )和高区分度频率特征模块(HDF：High Discrimination Frequency Feature)，分别用于提取声谱图的时间结构域特征和频域特征；

本实施例基于串行运算会损坏声谱图信息连续性的考虑，将双重域特征提取模块中分别提取时间结构域和频域的相关特征的两个特征提取模块采用并行运算的模式结合，不仅可以很好的保留声谱图原本的信息特征，使得提取的特征更加准确全面，而且可以提高模型的运算速率，从而达到更好的特征提取效果；原则上，双重域特征提取模块中的时间结构特征模块和频率特征模块可沿用现有的提取方法，但为了保证提取的特征更精准更具有区分度，本实施例优选地，将高区分度时间结构特征模块采用能够自适应地捕捉不同时间尺度的依赖关系，且广泛应用于序列建模的门控循环单元网络（Gated Recurrent Unit,GRU）进行声谱图时间相关性特征学习与提取，且高区分度频率特征模块设计为包括依次连接的输入层、反事实因果注意力学习层和输出层的基于反事实因果注意力的网络模型。

门控循环单元网络（Gated Recurrent Unit, GRU）用更新门(update gate)和复位门(reset gate)两个门限单元来调节单元内部的信息流，且更新门(update gate)决定单元更新其内容的程度，复位门(reset gate)决定遗忘其之前隐状态的程度，没有单独的记忆单元，模型计算效率较高且可以有效节约计算成本；本实施例所使用的门控循环单元网络结构介绍如下：

对于只有单隐藏层的多层感知机而言，设隐藏层的激活函数为

，给定一个小批量样本

，其中批量大小为

，输入维度为

，则隐藏层的输出

通过下式计算：

（1）

简单循环神经网络相当于单隐藏层的多层感知机在不同时间序列的关联组合得到，其网络结构如图6所示。假设在时间步有小批量输入

。换言之，对于

个序列样本的小批量，

的每一行对应于来自该序列的时间步

处的一个样本。接下来，用

表示时间步

的隐藏变量。与多层感知机不同的是，在这里保存了前一个时间步的隐藏变量

，并引入了一个新的权重参数

来描述如何在当前时间步中使用前一个时间步的隐藏变量。具体地说，当前时间步隐藏变量由当前时间步的输入与前一个时间步的隐藏变量一起计算得出：

（2）

式（2）与式(1)相比多添加了一项

。从相邻时间步的隐藏变量

和

之间的关系可知，这些变量捕获并保留了序列直到其当前时间步的历史信息，就如当前时间步下神经网络的状态或记忆，因此这样的隐藏变量被称为隐状态。由于在当前时间步中，隐状态使用的定义与前一个时间步中使用的定义相同，因此式(2)的计算是循环，于是基于循环计算的隐状态神经网络被命名为循环神经网络。

对于时间步，输出层的输出类似于多层感知机中的计算：

门控循环单元与普通的循环神经网络之间的关键区别在于后者支持隐状态(hidden state)的门控，这意味着模型有专门的机制来确定应该何时更新隐状态，以及应该何时重置隐状态，具体计算门控循环单元网络中的隐状态结构图如图7所示。

门控循环单元中有重置门（reset gate）和更新门（update gate），输入是由当前时间步的输入和前一时间步的隐状态给出。两个门的输出是由使用sigmoid激活函数的两个全连接层给出。

对于给定的时间步

，假设输入是一个小批量

(样本个数：

，输入个数：

)，上一个时间步的隐状态是

(隐藏单元个数：

）。那么，重置门

和更新门

的计算如下所示：

(3)

(4)

其中

和

是权重参数，

是偏置参数。在这里，使用sigmoid函数将输入值转换到区间(0, 1)中。

接下来，将重置门与式(2)中的常规隐状态更新机制集成，得到在时间步t的候选隐状态（candidate hidden state）

。

(5)

其中，

和

是权重参数，

是偏置项，符号

是 Hadamard积（按元素乘积）运算符，且使用tanh非线性激活函数来确保候选隐状态中的值保持在区间(-1.1)中。

与式(2)相比，式(5)中的

和

的元素相乘可以减少以往状态的影响。每当重置门

中的项接近时，恢复一个如式(2)中的普通的循环神经网络。对于重置门

中所有接0的项，候选隐状态是以

作为输入的多层感知机的结果。因此，任何预先存在的隐状态都会被重置为默认值。

式(5)计算了候选隐状态，仍然需要结合更新门

的效果。这一步确定新的隐状态

在多大程度上来自旧的状态

和新的候选状态

。更新门

仅需要在

和

之间进行按元素的凸组合就可以实现目标，即得出了门控循环单元的最终更新公式：

(6)

每当更新门

接近1时，模型就倾向只保留旧状态。此时，来自

的信息基本上被忽略，从而有效地跳过了依赖链条中的时间步t。相反，当

接近0时，新的隐状态

就会接近候选隐状态

。这些设计可以帮助处理循环神经网络中的梯度消失问题，并更好地捕获时间步距离很长的序列的依赖关系。例如，如果整个子序列的所有时间步的更新门都接近于1，则无论序列的长度如何，在序列起始时间步的旧隐状态都将很容易保留并传递到序列结束。

本实施例采用的门控循环单元网络结构相对简单，较适用于构建大型网络，不仅能保证提取精准有效时间结构特征，而且能保证特征提取过程中能有效节约计算成本，提高计算效率。

上述高区分度频率特征模块HDF的作用主要在于重点提取声谱图中的有效信息，尽管卷积神经网络可以达到提取特征和判别特征的效果，但是对于一些相似性结构的图像在细粒度的视觉识别任务中效果表现不佳，基于此，本实施例针对声谱图的细粒度图像分类任务优选采用注意力模块(attention module)来定位图像中的某些重要区域，以改善图像分类的精度。

现有注意力机制大多采用注意力模块仅由最终损失函数监督的弱监督方式学习视觉注意力，而这种方法只明确地监督最终预测(如分类任务的类别概率)，而忽略了预测与注意力之间的因果关系，且不能区分主要线索和有偏见的线索。例如，如果一个特定类别(公路上汽车的鸣笛声)大多数训练样本总伴随着下雨声，那么注意力模型很可能将下雨声视为一个区分因素。虽然这些有偏差的线索可能也有利于在当前数据集上的分类，但注意力模型应该只关注区别模式，即主要线索。此外，直接从数据中学习可能会导致模型只关注对象的某些属性，而不是所有属性，这可能会限制测试集的泛化能力。即，现有的注意力学习方案是次优的，学习到的注意力有效性不能总是得到保证，注意力可能缺乏识别力、明确的意义和鲁棒性。基于此，本实施例提出了一种超越传统似然最大化的注意力学习方法来减轻数据偏差的影响，采用反事实因果注意力CAL (Counterfactual AttentionLearning)注意力模型，通过比较事实(即学习得到的注意力)和反事实(即未纠正的注意力)对最终预测(即分类分数)的影响来量化注意力的质量，再使用差异最大化以鼓励网络学习更有效的视觉注意力，并减少有偏训练集的影响的方法学习音频数据的频率特征。具体地，高区分度频率特征模块HDF的网络结构如图8所示：

输入层则是将之前处理好的三维对数γ频谱图的依次输入，虽然频谱图是一个三维结构，但是HDF在输出层之前是将一个三维结构的图形分解成多个二维图形进行并行处理的过程。

反事实因果注意力学习CAL(Counterfactual Attention Learning)层，通过比较事实和反事实对最终预测的影响来量化关注注意力的质量，其主要由卷积神经网络结构和注意力机制模型组成，分别学习基本特征映射和“软”注意力特征图。CAL是一个模型十分灵活的框架，可增强注意力学习并减轻数据集偏差的影响，在声谱图细粒度的视觉识别任务有很强的针对性，可以有效增加模型的声纹识别能力。

CAL层也是HDF模块的核心部分，具体结构详细结构如图9中CAL模块所示，分别学习基本特征映射和注意力，给定图像I和对应的大小为H×W×C的CNN特征图X=f(I)，其中，H表示高度(Height)、W表示宽度(Width)，且C是通道数(Channel），即深度；视觉空间注意力模型M旨在发现图像的区别区域，通过显式地结合物体的结构知识来改进CNN特征图X。视觉空间注意力模型M大致可以分为两类：第一种类型旨在学习“硬”注意力特征图，其中每个注意力可以表示为一个边界框或分割掩码，覆盖了某个感兴趣的区域；第二种类型与“硬”注意力模型不同，更广泛的注意力模型是基于学习“软”注意图，更容易优化。本实施例中重点研究了这组方法，模型采用多头注意力模块，注意力模型的目的是学习物体各部分的空间分布，注意力图可以表示为A∈H×W×N，其中N为注意力数量，且使用注意力模型M，注意力图可以计算为：

(7)

其中，

∈H×W是覆盖某一部分的注意力图，如狗叫声比较高分贝的地方；注意力模型M采用二维卷积层和ReLU激活函数实现。然后使用注意力图对特征图进行软加权，并通过全局平均池化操作进行聚合：

(8)

其中，∗表示两个张量的元素相乘，则全局表示Y为：

(9)

式(9)可理解为将

表示连接起来，再对汇总的表示进行归一化（normalize），最终得到Y。

需要说明的是，与传统的注意力卷积神经网络模型相比，本实施例将使用因果关系来衡量学习注意力的质量，然后通过鼓励网络产生更多有影响力的注意力图来改进模型。通过引入因果图，可以通过直接操作几个变量的值来分析因果关系并看到效果，这种操作在因果推理被称为干预，可以用do(·)表示，通过清除某个变量的所有传入链接并给该变量分配某个值来执行，例如，在因果图中，do(A=

)意味着要求变量A取

的值，并切断X→ A的联系，以迫使变量不再由其因果父X引起。受因果推理方法的启发，本实施例采用反事实干预来研究学习到的视觉注意力的质量。反事实干预(A=

)是通过一种假想的干预来改变假定不同的变量的状态，通过任意的注意力图

来取代已习得的注意力图，并保持特征图X 不变。根据式(8)和式(9)，可得到干预后的最终预测结果：

(10)

其中，

是softmax分类器基于反事实干预图特征

得到的输出结果。

在实际应用中，可以使用随机注意力、统一注意力或反向注意力作为反事实。在衡量习得的注意力质量时，本实施例优选地采用观察到的预测Y (A=A, X=X)和它的反事实选择Y (do(A=̄A)，X=X)之间的差异来表示习得的注意力对预测结果的实际影响：

(11)

其中，表示对预测影响的

和γ是反事实注意力的分布，注意力的有效性可以解释为与错误的注意力相比，这种注意力如何改善最终预测结果。因此，可以用

来衡量习得注意力的质量。此外，可以将注意力质量作为一种监督信号来明确指导注意力学习过程，本实施例优选地基于注意力质量设计得到的应用于注意力学习过程中的目标函数，即反事实因果注意力学习层的损失函数表示为：

(12)

式中，

其中，

表示反事实因果注意力学习层的损失值；

表示分类标签；

和

均表示交叉熵损失函数；

表示

的第i个分量；

表示softmax分类器基于注意力图A得到的输出结果的第i个分量；

表示反事实因果注意力学习层得到的第i个注意力图；

通过对式（12）所示的新目标函数的优化，期望达到两方面的目的：

1）注意力模型应尽可能改进基于错误注意力的预测，鼓励注意发现最具鉴别性的区域，避免次优结果;

2）对基于错误注意力的预测进行惩罚，使得分类器更多地基于主线索而不是有偏线索进行决策，减少了有偏训练集的影响。

需要注意的是，在实际操作中，不需要计算式(11)中的期望，在训练过程中，只对每个观察到的注意力抽样一个反事实注意力，也符合随机梯度下降SGD的思想。因此，该方法在推理过程中不会引入明显的额外计算。

输出层是用于将不同并行路线上CAL层得到的有效特征向量图进行特征融合，考虑到经过CAL层得到的特征向量已经包含稳定的细节，若再采用复杂的融合方式，反而会打乱之前提取好的特征向量，本实施例优选采用简单的累加求均值方式得到

。

基于上述优选结构的高区分度时间结构特征模块和高区分度频率特征模块并联即可得到的双重域特征提取模块，实现同时对音频数据的时间结构特征和频率特征进行精准且全面地提取。

本实施例所采用的高区分度双重域学习网络模型可理解为通过预先训练构建得到的稳定模型，其训练过程的数据处理步骤与真实分类应用的步骤相同，下面以分类预测为例对高区分度双重域学习网络模型处理三维对数γ频谱图数据得到分类预测结果的过程进行详细说明。具体地，所述将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测，得到对应的声纹识别结果的步骤包括：

将所述三维对数γ频谱图输入所述双重域特征提取模块进行特征提取，得到对应的时间结构特征图和频率特征图；其中，时间结构特征图和频率特征图为声谱图分别输入到HDT和HDF模块后得到同等维度大小的时间结构特征向量

和频率特征向量

，具体的获取方式可参见上文双重域特征提取模块结构的介绍，此处不再赘述；

将所述时间结构特征图和所述频率特征图输入所述有效特征融合模块（EFF）进行特征融合，得到时频融合特征；其中，时频融合特征可理解为对上述特征向量

和特征向量

经过图10所示的有效特征融合模块处理得到的特征；本实施例所使用的有效特征融合模块并没有简单使用累加求和、累乘，平均等传统的特征融合方法，而是受多视角图像特征融合深度学习方法的启发，采用了一种注意机制和相似性矩阵的特征融合方法，让模型可以获取两个特征向量的相似性矩阵，并运用卷积神经网络进行反馈传播分别得到两个特征向量的权重后，将特征向量

和

分别乘以各自的权重向量

和

累加得到融合后的特征向量

。具体地，所述将所述时间结构特征图和所述频率特征图输入所述有效特征融合模块进行特征融合，得到时频融合特征的步骤包括：

根据所述时间结构特征图和所述频率特征图，得到特征相似矩阵；其中，特征相似矩阵可理解为表示融合两个特征图

和

的矩阵，表示为：

(13)

将所述特征相似矩阵分别输入第一卷积层和第二卷积层进行卷积处理，得到对应的时间权重矩阵和频率权重矩阵；其中，第一卷积层和第二卷积层均为二维卷积层，而对应的卷积核尺寸不同；对应得到的时间权重矩阵和频率权重矩阵可表示为：

(14)

(15)

根据所述时间权重矩阵和所述频率权重矩阵对所述时间结构特征图和所述频率特征图进行融合，得到所述时频融合特征；其中，时频融合特征表示为：

(16)

式中，

(17)

(18)

基于式（17）和（18）可知，两个加权矩阵

和

可以灵活地增强了一个特征点的贡献，而压缩另一个特征点的贡献。卷积神经网络不共享权值，通过将二维特征映射与相应的权值矩阵相乘分别的得到

和

，最后将两则得到求和得到来实现特征融合。比如，两个不同的音频声谱图的图像相似，则H2Det网络则可以加强声谱图的时间结构特征的权重，从而通过时间结构特征的角度更易区分两个不同类别声谱图的差异性，避免了单一特征提取的识别困难。

本实施例的特征融合方式根据不同的特征向量之间的相关性进行调整，是不断进行动态学习的过程，能够让模型更加有效得关注到声谱图中的有语义区分度的特征向量，从而提高模型的鲁棒性；此外，该特征融合方式可广泛运用于一些深度学习特征融合，有利于模型根据权重结果进行反向传播，从而自动调整模型权重，而不是一开始就固定好参数，并且这样的融合方式没有增强大量的计算量损失，相比于其他动态的融合方式更为简单，有利于提高计算效率。

将所述时频融合特征依次输入所述下采样模块、全连接层（FC）和softmax分类器进行处理，得到所述声纹识别结果；其中，下采样模块可采用单个简单的多层感知机模型MLP，其对时频融合特征下采样得到的特征直接输入一个全连接层，全连接层的作用是将多维度的特征向量拉取到同一个维度，得到一个一维的特征向量，最后将得到的一维特征向量输入到softmax激活函数，最终得到分类结果概率值分布，即声纹识别结果。

本申请实施例通过对获取的环境噪声数据进行处理得到用于分类预测的三维对数γ频谱图后，将对其进行预处理得到的三维对数γ频谱图输入至预先构建的包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器的高区分度双重域学习网络模型进行分类预测，得到对应的声纹识别结果的技术方案，不仅通过采用更加全面有效的提取声谱图中频率特征和时间结构特征的双重域特征提取模块增强声纹识别功能，而且通过采用频率特征和时间结构特征并行提取的方法提升模型提取特征的运行速率的同时，还通过引入CAL技术，从因果关系的角度出发，通过比较事实(即习得的注意力)和反事实(即未纠正的注意力)对最终预测(即分类分数)的影响来量化注意力的质量，赋能AI模型学会如何区分主要线索和有偏见的线索，进而达到提取高质量的视觉上下文线索的目的，提高城市噪音音频分类模型的鲁棒性和精准性。

在一个实施例中，如图11所示，提供了一种实时噪声大数据的声纹识别系统，所述系统包括：

数据获取模块1，用于取环境噪声数据，并生成所述环境噪声数据的对数γ频谱图；

预处理模块2，用于将所述对数γ频谱图进行预处理，得到对应的三维对数γ频谱图；

声纹识别模块3，用于将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测，得到对应的声纹识别结果；所述高区分度双重域学习网络模型包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器。

关于实时噪声大数据的声纹识别系统的具体限定可以参见上文中对于实时噪声大数据的声纹识别方法的限定，在此不再赘述。上述实时噪声大数据的声纹识别系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图12示出一个实施例中计算机设备的内部结构图，该计算机设备具体可以是终端或服务器。如图12所示，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示器和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现实时噪声大数据的声纹识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域普通技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法的步骤。

综上，本发明实施例提供的一种实时噪声大数据的声纹识别方法、系统、计算机设备及存储介质，其实时噪声大数据的声纹识别方法实现了在获取环境噪声数据后，生成对应的对数γ频谱图，并将对其进行预处理得到的三维对数γ频谱图输入至预先构建的包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器的高区分度双重域学习网络模型进行分类预测，得到对应的声纹识别结果的技术方案，该方法提出一种基于时间结构域和频域的高区分度双重域学习网络来专注于语义相关、突出帧以及音频数据时间结构特征等内容，不仅通过提取更加全面有效的的双重域特征来增强声纹识别功能，而且通过采用频率特征和时间结构特征并行提取的方法提升模型提取特征的运行速率的同时，还通过引入CAL技术，从因果关系的角度出发，通过比较事实和反事实对最终预测的影响来量化注意力的质量，赋能AI模型学会如何区分主要线索和有偏见的线索，进而达到提取高质量的视觉上下文线索的目的，以及采用相似性矩阵与注意力机制结合的方式进行特征融合，提高城市噪音音频分类模型的鲁棒性、运行效率和精准性。

本说明书中的各个实施例均采用递进的方式描述，各个实施例直接相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。需要说明的是，上述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种优选实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本申请的保护范围。因此，本申请专利的保护范围应以所述权利要求的保护范围为准。