CN114203184A

CN114203184A - 一种多状态声纹特征识别方法及装置

Info

Publication number: CN114203184A
Application number: CN202111453025.3A
Authority: CN
Inventors: 张广学; 肖龙源; 李稀敏; 叶志坚
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2022-03-18

Abstract

本发明涉及一种多状态声纹特征识别方法及装置。其方法包括，获取音频信号，将所述音频信号进行预处理，得到语音特征集后将语音特征集输入至声纹识别网络模型中，得到多个声纹特征状态，根据所述语音特征集的多个声纹特征状态，对所述声纹特征状态进行相似度计算，并对当前声纹特征状态进行更新，根据所述声纹特征状态对所述声纹识别网络模型的参数进行迭代更新，直至所述声纹识别网络模型收敛。本发明通过对音频信号多状态声纹特征的相似度计算，通过损失函数对网络参数的更新，同时保证网络参数更新过程中，声纹特征状态转变的连续性，从而对于相似或者相同的音频信号的不同状态进行关联，并可以准确识别。

Description

一种多状态声纹特征识别方法及装置

技术领域

本发明涉及语音识别领域，尤其涉及一种多状态声纹特征识别方法及装置。

背景技术

随着机器学习的迅速发展，声纹识别技术在金融反欺诈等方有着巨大的潜力和迫切的需求。深度学习采用多层神经层的结构，通过逐层传递从输入层原始数据中提取信息，自动挖掘大型数据集中复杂的复杂表示特征，避免了人工特征工程。深度信念网络、堆叠去噪自动编码器和长短时记忆网络已得到了应用，较于传统的机器学习方法有良好动态学习效果。卷积神经网络作为一种分布式并行深度网络模型，也在故障诊断中得到了广泛的应用。

与其他深度学习方法相比，时延神经网络(TNDD)最早是在1989年，由Hinton提出，目的在于解决音素的识别。但是这种结构只考虑了局部的上下文信息，而ECAPA-TDNN则了考虑全局的信息，因此更适合对一段时间内的声纹特征进行提取。但是，同一个人在不同时间段的或是不同身体健康状况下的声纹特征会有一些差别，因此，有必要对这种情况下的声纹特征关联性进行处理分析。另外，现有的声纹模型训练完成后在发音方式相同的人之间的声纹区分度还有待提高，这就限制了声纹识别技术的推广。

发明内容

为解决上述现有技术无法高精度识别同一语音的问题，本发明提供一种多状态声纹特征识别方法及装置。技术方案如下：一种多状态声纹特征识别方法，包括以下步骤，

S1，获取音频信号，并将所述音频信号进行预处理，得到语音特征集；

S2，将语音特征集输入至声纹识别网络模型中，得到多个声纹特征状态，其中所述声纹特征状态包括当前声纹特征状态和历史声纹特征状态；

S3，根据所述语音特征集中音频信号的多个声纹特征状态，对所述声纹特征状态进行相似度计算，并对当前声纹特征状态进行更新，

S4,根据所述声纹特征状态的数量对所述声纹识别网络模型的参数进行迭代更新，直至所述声纹识别网络模型收敛。

在上述方法的基础上本发明还可以做以下改进。

进一步，所述S1中将所述音频信号进行预处理具体为，获取音频信号后，将所述音频信号依次进行预加重处理、分帧处理、加窗处理、快速傅里叶变换处理、三角带通滤波器以及对数运算和动态差分参数运算后，得到所述语音特征集。

进一步，所述S1还包括：将所述语音特征集中语音特征选取固定长度后输入所述声纹识别网络模型，固定长度为T。

进一步，在所述S1之前还包括：对所述音频信号进行降噪处理和去混响处理。

进一步，所述S3中对所述声纹特征状态进行相似度计算，并对当前声纹特征状态进行更新具体为：将当前声纹特征状态和历史声纹特征状态进行相似度计算；

若当前声纹特征状态的数量小于N且当前声纹特征状态与历史声纹特征状态的距离大于第一阈值，则增加新的声纹特征状态；

若当前声纹特征状态的数量小于N而当前声纹特征状态与历史声纹特征状态的距离小于第一阈值，则将历史声纹特征状态与当前声纹特征状态进行合并状态并计数；

若当前声纹特征状态的数量等于N且当前声纹特征状态与历史声纹特征状态的距离大于第一阈值，对所述离群声纹特征状态或新增声纹特征状态进行类间距离计算，

如果所述离群声纹特征状态或新增声纹特征状态与历史纹特征状态相似度高，则删除所述离群声纹特征状态或新增声纹特征状态；

如果所述离群声纹特征状态或新增声纹特征状态与历史纹特征状态相似度低，则更新N个声纹特征状态之间的距离并将声纹特征状态间距离最小的两个声纹特征状态合并。

进一步，所述S4具体为：用所述语音特征集对所述声纹识别网络模型进行多次迭代训练，根据所述声纹特征状态数量或者声纹特征状态均值进行 AAM-Softmax计算，当所述标准差abs＝(r2–x2)小于第二阈值时，判断所述初步训练的声纹识别网络模型已经收敛，其中r为声纹特征状态分类概率， x为初始期望目标参数。

进一步，所述声纹识别网络模型包括：输入层、特征提取层以及输出层，所述输入层为时延神经网络结构，其用于对所述语音特征集进行预输入处理；

所述特征提取层包括SE残差网络层和特征融合层，所述语音特征集通过输入层进行预输入处理后，将输入的语音特征利用所述SE残差网络层进行特征降维以及维度回升处理后，得到语音特征矢量，将所述语音特征矢量通过所述特征融合层进行多层特征计算得到声纹特征向量；

所述输出层包括注意力统计池化层和AAM-Softmax层，所述声纹特征向量通过所述注意力统计池化层对声纹分类概率进行池化，所述AAM-Softmax 层用于根据声纹分类概率对所述音频信号进行声纹分类。

本发明另一个目的在于还提供一种多状态声纹特征识别装置，包括存储器和处理器，所述存储器存储有至少一段程序，所述至少一段程序由所述处理器执行以实现上述的多状态声纹特征识别方法。

本发明再一个目的在于还提供一种计算机可读存储介质，包括存储器，所述存储器内存储有计算机程序，所述计算机程序被处理器执行时，实现如上述的多状态声纹特征识别方法。

本发明的有益效果是，通过对音频信号多状态声纹特征的相似度计算，通过损失函数对网络参数的更新，同时保证网络参数更新过程中，声纹特征状态转变的连续性，从而对于相似或者相同的音频信号(同一物体或者同一个人发出的音频信号)的不同状态进行关联，并可以准确识别。

附图说明

图1为本发明一种多状态声纹特征识别方法的流程图；

图2为音频信号的特征提取方法流程图；

图3为网络反向传播算法流程图；

图4为声纹识别网络模型结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，本发明提供一种多状态声纹特征识别方法及装置，包括以下步骤，

S3，根据所述语音特征集中音频信号的多个声纹特征状态，对所述声纹特征状态进行相似度计算，并对当前声纹特征状态进行更新；

本发明通过对音频信号多状态声纹特征的相似度计算，通过损失函数对网络参数的更新，同时保证网络参数更新过程中，声纹特征状态转变的连续性，从而对于相似或者相同的音频信号(同一物体或者同一个人发出的音频信号)的不同状态进行关联，并可以准确识别。

在本实施例中具体地，将所述音频信号提取成语音特征如图2所示，通过对所述音频信号进行降噪处理和去混响处理，尽量避免由于不可抗力因素而造成的音频信号不稳定，提高音频信号质量。将所述语音特征集中语音特征选取固定长度后输入所述声纹识别网络模型，固定长度为T。在本发明中采用的是语音特征参数中MFCC参数来对于所述音频信号进行数据提取，得到语音特征集。

获取音频信号后，将所述音频信号提取成语音特征如图2所示，将所述音频信号依次进行预加重处理、分帧处理、加窗处理、快速傅里叶变换处理、三角带通滤波器以及对数运算和动态差分参数运算后，得到所述语音特征序列集。对所述音频信号进行预加重处理其实是将音频信号通过一个高通滤波器：

H(Z)＝1-μz^-1；

式中其中H(Z)为音频信号，μ的值介于0.9-1.0之间。通过对于音频信号高频部分的预加重处理，可以使得信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发生过程中声带和嘴唇的效应，来补偿音频信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰。将进行预加重处理后的音频信号进行分帧处理，预设N(N为自然数)个采样点集合成一帧。可以避免由于相邻两帧的变化过大，导致相邻帧之间有一段重叠区域。而后将音频信号中每一帧进行加窗处理，即将音频信号中每一帧乘以汉明窗，以增加帧左端和右端的连续性，使得音频信号大致呈现一种周期变化。

由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在音频信号中每一帧乘以汉明窗后，音频信号中每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对音频信号的频谱取模平方得到音频信号的功率谱。将音频信号的功率谱通过三角形滤波器组，进行平滑化处理，同时消除功率谱中的谐波，突显原先语音的共振峰、降低运算量。

此外，通过对音频信号中每一帧的音量(即能量)，这一语音的重要特征的对数能量计算。以及对于音频信号中语音动态特性通过动态差分参数的提取来描述。把每一帧的语音特进行多维化处理，并使得动、静态特征进行结合，可以在语音特征序列集进行识别训练时，有效提高识别网络的识别性能。

在本实施例中具体地，将当前声纹特征状态和历史声纹特征状态进行相似度计算，例如计算余弦相似度；若当前声纹特征状态的数量小于N且当前声纹特征状态与历史声纹特征状态的距离大于第一阈值，则增加新的声纹特征状态；若当前声纹特征状态的数量小于N而当前声纹特征状态与历史声纹特征状态的距离小于第一阈值，则将历史声纹特征状态与当前声纹特征状态进行合并状态并计数；

若当前声纹特征状态的数量等于N且当前声纹特征状态与历史声纹特征状态的距离大于第一阈值，对所述离群声纹特征状态或新增声纹特征状态进行类间距离计算，若所述离群声纹特征状态或新增声纹特征状态与历史纹特征状态相似度高，则删除所述离群声纹特征状态或新增声纹特征状态；若所述离群声纹特征状态或新增声纹特征状态与历史纹特征状态相似度低，则更新N个声纹特征状态之间的距离并将声纹特征状态间距离最小的两个声纹特征状态合并。

在本实施例中具体地，用所述语音特征集对所述声纹识别网络模型进行多次迭代训练，根据所述声纹特征状态数量或者声纹特征状态均值进行 AAM-Softmax计算，当所述标准差abs＝(r2–x2)小于第二阈值时，判断所述初步训练的声纹识别网络模型已经收敛，其中r为声纹特征状态分类概率， x为初始期望目标参数。

网络模型的效果评估及优化的目标，对全连接层网络特征映射到样本的标记空间做出预测，然后与真实值比较，用来衡量该预测值与真实样本标记之间的距离，通过误差反向传播指导网络参数学习与表示学习。对于多分类任务，一般选用交叉熵损失函数(Cross-entropy Loss Function)，定义为真实值和预测值之间的交叉熵。交叉熵表现了实际输出与期望输出的距离，交叉熵的值越小，两者越接近。对于给定训练集

将所有样本输入网络，得到网络输出为

则在数据集A上的目标函数为：

式中y_n为第n个数据对应的标签的向量表示，通过最小化目标函数来迭代更新优化学习参数，Loss越小，

与y_n越接近，预测值则越接近真值。

如图3所示，反向传播算法实现了一个迭代的过程。在每次迭代的开始，首先需要选取一小批训练数据，这一小批数据称为一个batch。然后，这个 batch会利用当前网络初始化的权重和阈值，从输人层经过隐藏层，最后达到输出层，得到预测结果。由于训练数据和真实标注一一对应，可以计算出当前模型的预测值与真值间的距离，并利用预测结果与真实值构成代价函数，这个过程为前向传播过程。通过链式法则，可以计算损失函数关于每个参数的导数，将目标函数关于第一层的神经元的净输入的偏导数定义为误差项，作为中间变量。由于第一层的一个神经元的误差项，是所有与之相连的第1+1 层的所有神经元的误差项的权重和，然后，再乘上该神经元激活函数的梯度。可以将误差从输出层向隐藏层反向传播，直至传播到输入层。在反向传播的过程中，根据误差调整各参数的值，不断迭代上述过程，直至目标收敛，损失函数达到最优值。基于预测值和真值之间的差距，反向传播算法会相应更新模型参数，使得在这个batch在模型的预测结果和真实标签更接近。当确定了目标函数网络结构后，就可以用自动微分来计算目标函数关于每个参数的梯度，然后选择一种优化算法，用基于梯度的优化算法，得到目标函数的最优值并迭代更新优化参数。

在本实施例中具体地，如图4所示输入层、特征提取层以及输出层，所述输入层为时延神经网络结构即一维神经网络卷积层，其用于对所述语音特征集进行预输入处理，其中包括激活函数，所述激活函数主要用于把卷积层输出结果做非线性映射操作，目前主要有ReLU、sigmoid、tanh等函数，本发明以ReLU(Rectified Linear Unit)整流线性单元作为较优实施例，在深度神经网络的特定范围内，具有非线性和线性的特点，对于大于0的所有输入来说，相对应的梯度都有一常数导数值，使得信息整合能力大大增强，加快和简化了网络的训练。此外，ReLU可有效地减少CNN模型的梯度消失和过拟合问题；所述特征提取层包括SE残差网络层和特征融合层，其中所述SE 残差网络层包括多个SE残差网络结构，所述SE残差网络结构主要包含 Squeeze(压缩)和Excitation(激励)两部分，其中所述语音特征集通过输入层进行预输入处理后，将输入的语音特征利用所述SE残差网络层中的 Squeeze(压缩)部分进行特征降维，具体地，例如W，H表示特征宽度，高度。C表示通道数，输入特征大小为W×H×C，SE残差网络层中压缩部分的全局平均池化(global average pooling)，经过压缩操作后，特征压缩为 1×1×C向量。随后将压缩后的特征向量通过一个Sigmoid(激活函数)的门获得0值1之间归一化的权重，最后通过一个Scale(回升)的操作来将归一化后的权重加权到每个通道的特征上以进行维度回升后，得到语音特征矢量，这样可以使得特征具有更多的非线性，可以更好地拟合通道间复杂的相关性。同时极大地减少了参数量和计算量。

本发明中所述SE残差网络层包括多个SE残差网络结构，下面以采用了三层SE-Res2Block，第一层SE-Res2Block输出语音特征矢量C1，第二层 SE-Res2Block网络结构输出语音特征矢量C2，第三层SE-Res2Block输出语音特征矢量C3。将语音特征矢量C1、C2、C3进行所述特征融合层进行多层特征计算得到声纹特征向量。所述声纹特征向量通过所述注意力统计池化层对声纹分类概率进行池化，所述输出层包括输出层以及分类层，所述 AAM-Softmax层用于根据声纹分类概率对所述音频信号进行声纹分类，即用于分类问题，其表达式是在全连接层基础上将激活函数换为AAM-Softmax函数。前一个神经网络层活性值作为AAM-Softmax层的输入层，AAM-Softmax 层的输出有K个神经元对应着K类样本标签通过AAM-Softmax层计算类得分，用归一化的指数函数来表示当前批量样本所属不同种类的概率分布情况，取分类概率最大的输出作为最终的预测。

在时延神经网络结构、注意力统计池化层以及输出层中对于数据的处理还包括批规范化操作(batch normalization，BN)，BN是一种有效的逐层归一化方法，批数据在模型前向传播过程中，模型各层的参数分布发生改变，这就导致了训练的速度降低，同时要求良好的参数初始化，使得训练具有饱和非线性的模型变得非常困难，因此，需要对神经网络中的隐含层进行批规范化操作，在模型每次训练时通过变换将输入批次数据缩放平移至稳定的均值和标准差，使得净输入的每一维都归一化到标准正态分布，从而提高优化效率，而不需特别在意参数的初始化。虽然批规范化操作也可以应用在神经元的活性值上，但批规范化净输入更有利于网络优化。因此，实际应用中BN 一般用在在仿射变换之后、激活函数之前。应用BN层可以增强模型对输入不同分布的适应性，有轻微正则化效果，不仅加快了模型收敛速度、训练速度，有效提高了模型收敛率，可一定程度缓解深层网络训练时的“梯度弥散”效应，对网络泛化性能起到一定提升作用，从而使得训练深层网络模型更加容易和稳定。此外BN还可以用来加快模型的训练速度，甚至提高模型精度。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的方法实施例仅仅是示意性的，例如，步骤的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个步骤可以结合或者可以集成到另一个步骤，或一些特征可以忽略，或不执行。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种多状态声纹特征识别方法，其特征在于：包括以下步骤，

S1，获取音频信号，将所述音频信号进行预处理，得到语音特征集；

S3，根据所述语音特征集的多个声纹特征状态，对所述声纹特征状态进行相似度计算，并对当前声纹特征状态进行更新；

S4，根据所述声纹特征状态对所述声纹识别网络模型的参数进行迭代更新，直至所述声纹识别网络模型收敛。

2.根据权利要求1所述的多状态声纹特征识别方法，其特征在于：所述S1中将所述音频信号进行预处理具体为，获取音频信号后，将所述音频信号依次进行预加重处理、分帧处理、加窗处理、快速傅里叶变换处理、三角带通滤波器以及对数运算和动态差分参数运算后，得到所述语音特征集。

3.根据权利要求1所述的多状态声纹特征识别方法，其特征在于：所述S1还包括：将所述语音特征集中语音特征选取固定长度后，输入至所述声纹识别网络模型。

4.根据权利要求1所述的多状态声纹特征识别方法，其特征在于：在所述S1之前还包括：对所述音频信号进行降噪处理和去混响处理。

5.根据权利要求1所述的多状态声纹特征识别方法，其特征在于：所述S3中对所述声纹特征状态进行相似度计算，并对当前声纹特征状态进行更新具体为：将当前声纹特征状态和历史声纹特征状态进行相似度计算；

若当前声纹特征状态的数量等于N且当前声纹特征状态与历史声纹特征状态的距离大于第一阈值，则对所述离群声纹特征状态或新增声纹特征状态进行类间距离计算，

6.根据权利要求1所述的多状态声纹特征识别方法，其特征在于：所述S4具体为：用所述语音特征集对所述声纹识别网络模型进行多次迭代训练，根据所述声纹特征状态数量或者声纹特征状态均值进行AAM-Softmax计算，当所述标准差abs＝(r2–x2)小于第二阈值时，判断所述初步训练的声纹识别网络模型已经收敛，其中r为声纹特征状态分类概率，x为初始期望目标参数。

7.根据权利要求2所述的多状态声纹特征识别方法，其特征在于：所述声纹识别网络模型包括：输入层、特征提取层以及输出层，所述输入层为时延神经网络结构，其用于对所述语音特征集进行预输入处理；

所述输出层包括注意力统计池化层和AAM-Softmax层，所述声纹特征向量通过所述注意力统计池化层对声纹分类概率进行池化，所述AAM-Softmax层用于根据声纹分类概率对所述音频信号进行声纹分类。

8.一种多状态声纹特征识别装置，其特征在于，包括存储器和处理器，所述存储器存储有至少一段程序，所述至少一段程序由所述处理器执行以实现如权利要求1至7任一所述的多状态声纹特征识别方法。

9.一种计算机可读存储介质，其特征在于：包括存储器，所述存储器内存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至7任一项所述的多状态声纹特征识别方法。