CN115064175A

CN115064175A - 一种说话人识别方法

Info

Publication number: CN115064175A
Application number: CN202210700736.4A
Authority: CN
Inventors: 邓立新; 周琪; 孙明铭
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-09-16

Abstract

本发明公开了一种说话人识别方法，是一种使用人们语音特征进行身份验证的技术，又称声纹识别。该方法通过Fbank提取说话人的特征参数作为网络结构的输入，在DenseNet的基础上不仅引入多尺度思想，来降低模型训练过程中信息的丢失量，而且结合SE‑block网络模型对浅层网络信息进行筛选，以降低样本中噪声信息的干扰，还引入可分离卷积的思想，从而有效的减少训练过程中网络参数的数目，可以很好的增强网络模型的非线性表达能力。本发明的基于DenseNet‑SEblock说话人识别方法实现了在计算成本略有增加的基础上改善传统的卷积神经网络模型，解决了特征信息随着深度的增加在网络层的训练过程中丢失一部分的问题，有效提高了网络模型的识别率。

Description

一种说话人识别方法

技术领域

本发明涉及一种说话人识别方法，是一种使用人们语音特征进行身份验证的生物识别技术。

背景技术

说话人识别是生物识别和语音识别领域中的一个主要课题，由于声音中蕴含着丰富的信息，人们可以通过语音感知说话人的年龄、说话时的心情、性别以及说话人的身份等，从而可以凭借声音进行身份识别验证。从特征采集的成本的角度还是在使用时便捷性的角度考虑，说话人识别技术都有着显而易见的优势，该技术可用于反电信诈骗和走失儿童的找寻、线上客服身份核验、金融防欺诈、对来电客户进行身份识别、线上金融业务办理、多终端验证身份、享受智能化的家居生活体验、智能汽车和许多其他应用。常用的传统输入特征有：倒谱、线性预测系数(LPC)和线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)、Fbank特征，其中Fbank特征是在MFCC 的基础上演变出而来，与MFCC不同的是它没有通过MFCC步骤中的DCT 处理，也就是将取对数运算后的倒谱特征进行离散余弦变换，从而可以保留更多的生物个性特征，所以随着深度学习的兴起和在说话人识别领域的应用，相比较MFCC，Fbank更受研究人员的偏爱。

近年来，为了提高说话人识别的准确率，使其广泛地适用于市场和各类服务领域，科研人员提出了许多识别方法有：矢量量化VQ模型、动态时间规整法DTW模型、高斯混合模型GMM、隐马尔可夫模型HMM，在说话人识别领域中，深度学习已经是人们研究的重点之一，并逐渐取代诸如GMM等传统的人识别模型有：人工神经网络(ANN)，深度学习(DL)、卷积神经网络(CNN)、卷积神经网络残差网络等，但是现有深度学习网络也有着自身的不足：在完成网络模型的训练的过程中需要计算的相关参数十分庞大且耗费时间，只适合大数据集下的情形，在实用性方面，神经网络训练过程中对设备的要求较高，存在一定的局限性；随着网络结构的加深可以使其具备更强的拟合能力，但是会导致出现误差梯度的消失的问题，随着卷积的深入，会不可避免的丢失掉一部分特征信息，最终影响实验结果。

有鉴于此，确有必要提出一种基于DenseNet-SE block说话人识别方法，以解决上述问题。

发明内容

本发明的目的在于提供一种说话人识别方法，该方法基于DenseNet- SE block有针对性地减轻梯度消失问题，且该方法能有效的加强特征的传输，降低样本中噪声信息的干扰，减少训练过程中网络参数的数目，且可以很好的增强网络模型的非线性表达能力，最终提高整体的识别效果。

为实现上述目的，本发明提供一种基于DenseNet-SE block说话人识别方法，用于对说话人进行识别，所述说话人识别方法包括以下步骤：

步骤1、获取音频数据及音频数据标记，音频数据划分为训练集数据和测试集数据；

步骤2、对训练集数据进行数据增强，使用数据增强方法Mixup；

步骤3、对音频数据进行预处理，然后再对音频数据做傅立叶变换并计算通过滤波器的能量，以获取Fbank特征数据；

步骤4、定义DenseNet-SEblock模型的结构以及DenseNet-SEblock模型的训练参数；

步骤5、使用增强的训练集数据对DenseNet-SEblock模型进行训练；

步骤6、将测试集数据特征信息输入到训练完成的DenseNet-SEblock模型中进行判决，得出识别结果；

步骤7、得到输入测试集数据的模型的概率矩阵、识别率；

作为本发明的进一步改进，步骤1中的音频数据为北京数据堂科技股份有限公司制作并开源的Aidatatang-200zh开源语音数据库中，抽取的150个说话人，单个说话人总时长为五分钟至十分钟之间，每个说话人包含60个音频样本，其中50个样本作为训练集，10个样本作为测试集，总时长达到 50小时，作为实验中的样本库。所有音频文件都编码为单通道，并以16位精度以16kHz采样。数据标记具体为：将读取到的音频按照不同的标签保存，即train_sound，train_label，test_sound，test_label分别代表训练集和测试集的音频数据和对应的说话人标签。

作为本发明的进一步改进，步骤2中的数据增强方法Mixup以线性插值的方式来构建新的训练样本和标签，增强了训练样本之间的线性表达，改进当前的神经网络架构的泛化能力，从而减少对错误标签的记忆、增加对抗样本的鲁棒性。其表达式为：

其中(x_i,y_i)和(x_j,y_j)为训练数据中随机抽取的两个样本，λ为服从B分布的参数。

作为本发明的进一步改进，步骤3中的预处理包括预加重、分帧处理和加窗函数、端点检测，预加重的滤波器设为：，其中a预加重滤波器的系数参数，通常取值范围为0.9～1；分帧处理将一段比较长的非平稳语音信号的分析，转变成一个个平稳语音帧，一般一帧的帧长为10～30ms，帧移与帧长的比值为0～0.5；加窗通过使用滑动窗口对原始语音序列进行等间隔分割实现，即将每一帧乘以汉明窗，通过窗函数的音频信号为：s_W(n)＝s(n)w(n)，其中s(n)为原始语音信号序列，w(n)为汉明窗函数，计算公式为：

其中N为帧长；端点检测的双门限法算法用于从原始音频信号中识别出语音段和非语音段，有效的减少原始音频中无意义的部分。具体实现为设定一个较高的短时能量门限，一般取所有帧的短时能量平均值，设定一个较低的短时能量门限T₁和短时过零率的阈值Z_s，将低于T₁门限的内容判决为静音段，高于T₁并低于T₂的内容进行阈值的判定。计算公式为：

其中E_n为短时能量，Z_n为短时过零率，sgn[]为符号函数；

利用傅立叶变换并计算通过滤波器的能量取对数来获取Fbank特征数据。的计算公式为：

X_m(w)＝FFT(X_m(n))；

其中，x_m(n)为音频信号时域采样序列，x_m(w)为对应频域的功率谱，m 是指帧的序列，H_m(k)为梅尔滤波器组函数，满足

f(m)为三角滤波器中第m滤波器的中心频率，m是指滤波器的数量，通常取20～40， Mel(f)是梅尔频率，f为实际语音信号频率。

作为本发明的进一步改进，步骤4中DenseNet-SEblock模型的结构包含输入层、四个DenseBlock模块和三个Transition模块，全局池化层，BP 算法模块，两个引入了SEblock网络模型的特征通道，所述输入层用于向网络输入元素；所述全局池化层用于对最后输出的多维特征进行平均化的处理，将其转变成低维的特征值，从而可以减少网路模型的参数，防止最终出现过拟合的现象；

作为本发明的进一步改进，所述DenseBlock模块由多层的DenseLayer模块组成，采用的是密集连接方式，即指网络模型中的当前网络层的输入都蕴含前面所有网络层的输出，从而在保证网络层之间能够进行最大程度的信息传递的前提下直接将所有层进行连接起来，第L层网络的输出为： x_L＝H_L([x₀,x₁,...,x_L-1])，其中x为输入层，H_L()为层与层之间的传输函数，所述DenseLayer模块包括BN层、ReLU层、卷积层，所述BN用于缓解反向传播中的梯度消失的问题，提高模型训练速度，提高网络泛化性能；所述ReLU 层用于进行非线性映射；所述卷积层内设有卷积核，卷积层之间通过神经元连接，用于降低通道数目。

作为本发明的进一步改进，所述Transition模块位于两个DenseBlock模块中间，主要用于降低特征的数目和压缩模型的大小，由归一化层、卷积层、平均池化层组成，所述归一化层用于对输入特征经过归一化处理；所述卷积层内设有卷积核，卷积层之间通过神经元连接，用于降低通道数目；所述平均池化层用于进行特征压缩处理。

作为本发明的进一步改进，所述BP算法模块用于优化算法调整神经网络中初始化参数的值，使得预测结果与实际结果之间的偏差降低到特定标准之下，从而达到优化模型参数的效果，通过ReLu激活函数实现，计算公式为：

其中w_ij为权值，

为神经网络中第L-1层第i神经元的输出，

为神经网络中第L层中第j神经元的输入，

为实际输出

和期望输出

之间的偏差， σ为激活函数，δ^L为最后一层神经网络的偏差，再由后往前计算每一层神经网络产生的偏差。

作为本发明的进一步改进，所述SEblock网络模块的特殊通道由两个 SEblock模块和两个全局池化层组成，所述SEblock模块由全局平均池化层、两个全连接层、ReLu激活函数、sigmoid函数组成，所述全局平均池化层用于将空间上分布的所有信息点的值平均为一个值，使最终的scale对整个通道起作用，从而利用通道间的相关性的同时屏蔽掉空间分布上的相关性；所述两个全连接层分别用于降低通道数目到原来的1/r，其中r为降维参数，增加通道数至最初的数目；所述ReLu激活函数用于连接两个全连接层；所述sigmoid函数用于将权重值加权到之前的特征矩阵上，从而获得筛选后的特征矩阵。

作为本发明的进一步改进，步骤4中DenseNet-SEblock模型的训练参数包括将通道数为64；卷积核设为3x3；步长(stride)设为2；四层 DenseBlock中的卷积层数目分别设为6、12、24、8；第二个Transition模块和第三个Transition模块的输出特征参数的大小分别设为256x16x8和512x8x4；两个SEblock网络模块的输入特征参数的大小分别设为256x16x8和512x8x4；

作为本发明的进一步改进：步骤6具体为：将增强训练集中的数据经 Fbank特征提取后的特征参数作为结构和训练参数均已定义好的DenseNet-SE block模型的输入端数据，最后经过全局池化操作得到样本的一维特征参数，之后通过反向传播算法调整模型中的参数，最终的使得预测结果与实际结果之间的偏差降低到特定标准之下。

作为本发明的进一步改进，步骤6具体为：将事先预处理好的测试音频样本输入到DenseNet-SE block网络模型中，模型输入的测试音频首先要通过端点检测排除静音部分后，再提取出Fbank特征。最后将从DenseNet- SE block网络中提取出的特征信息后直接输入到Softmax分类层中，实现说话人的辨别，所述Softmax分类层用于解散计算预测音频属于不同说话人的概率值，计算公式为：

其中

为元素的指数，∑e^Vj为所有元素的指数和的比值。

作为本发明的进一步改进，步骤7具体为：在训练后的DenseNet- SEblock模型中输入所述测试集数据并在最终的分类层中识别样本对应的说话人，得出测试集数据在说话人样本的概率矩阵；识别率的值为正确识别出的样本个数与测试样本集的总数之比，本发明采用的说话人识别的评价指标为识别率(Accuracy，ACC)。

本发明的有益效果是：本发明的基于DenseNet-SE block说话人识别方法通过数据增强技术，对原始训练数据集中随机选择的两个示例来混合创建每个训练样本，从而规范神经网络而且增强训练样本之间的线性表达，减少对错误标签的记忆，增加对抗样本的鲁棒性，并能够稳定对生成对抗网络的训练过程。通过引入SEblock网络模型对浅层网络信息进行筛选，以降低样本中噪声信息的干扰，从而降低模型训练过程中信息的丢失量，自适应地重新校准通道方式的特征响应，最终提高网络模型的识别率。

附图说明

图1是本发明说话人识别分类方法的流程图。

图2是图1中DenseBlock模快的结构示意图。

图3是图1中Transition模块的结构示意图。

图4是图1中SEblock模块的结构示意图。

图5是两种识别系统在不同迭代次数下的识别率示意图。两种系统，即DenseNet-ICTL基准识别模型和本发明的DenseNet-SEblock识别模型。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明提供了一种基于DenseNet-SEblock说话人识别方法，该方法基于常用深度学习进行改进的DenseNet-SEblock模型，通过音频数据读取和获取特征数据、定义DenseNet-SEblock模型的结构DenseNet-SEblock模型的训练参数以及模型训练过程，模型测试过程，其中通过数据增强技术，增强训练样本之间的线性表达，从而增加对抗样本的鲁棒性，引入SE block网络模型，对浅层网络信息进行筛选，从而降低模型训练过程中信息的丢失量。

请参阅图1所示，音频数据读取和获取特征数据包括如下两个步骤：

步骤1、获取音频数据及音频数据标记，音频数据划分为训练集数据和测试集数据。

其中，音频数据为北京数据堂科技股份有限公司制作并开源的 Aidatatang-200zh开源语音数据库中，抽取的150个说话人，单个说话人总时长为五分钟至十分钟之间，每个说话人包含60个音频样本，其中50个样本作为训练集，10个样本作为测试集，总时长达到50小时，作为实验中的样本库。所有音频文件都编码为单通道，并以16位精度以16kHz采样。数据标记具体为：将读取到的音频按照不同的标签保存，即train_sound，train_label， test_sound，test_label分别代表训练集和测试集的音频数据和对应的说话人标签。

步骤2、对训练集数据进行数据增强，使用数据增强方法Mixup。

其中，Mixup以线性插值的方式来构建新的训练样本和标签，增强了训练样本之间的线性表达，改进当前的神经网络架构的泛化能力，从而减少对错误标签的记忆、增加对抗样本的鲁棒性。其表达式为：

步骤3、对音频数据进行预处理，然后再对音频数据做傅立叶变换并计算通过滤波器的能量，以获取Fbank特征数据。

其中预处理包括预加重、分帧处理和加窗函数、端点检测，预加重的目的是为了补偿高频分量的损失，提升高频分量，预加重的滤波器设为： H(z)＝1-az^-1，其中a为预加重滤波器的系数参数，通常取值范围为0.9～1，分帧处理是为了使相邻两帧之间的参数能比较平稳地过渡，保证语音信号的平滑性，加窗函数的目的是减少频域中存在的泄漏，将对每一帧的语音乘以汉明窗，音频数据X(n)经预处理后为时域数据X_m(n)；端点检测的目的是去除原始音频中无意义的部分，从而减少后续音频数据处理的工作量，最后提高识别的准确率，通过计算短时能量和短时过零率来设置阈值，其计算公式为：

其中E_n为短时能量，Z_n为短时过零率，sgn[]为符号函数，随后对X_m(n)做傅立叶变换并计算通过滤波器的能量来获取音频数据的特征数据，对每一帧进行FFT (傅立叶变换)变换，变换公式为：X_m(w)＝FFT(X_m(n))，使音频数据从时域数据转变为频域数据，然后对每一帧FFT后的数据计算能量谱，并将能量谱通过梅尔滤波器，其计算公式为：

随后进行非线性对数运算，将实际频率转换到梅尔倒谱刻度上，获取倒谱上的谱估计，可以削弱噪声对特征参数的影响并且规整频谱系数的数值分布，从而使音频特征更加明显，很好的拟合人耳听觉特性中对信号能量的非线性感知的现象，计算公式为：

其中，x_m(n)为音频信号时域采样序列，x_m(w)为对应频域的功率谱， m是指帧的序列，H_m(k)为梅尔滤波器组函数，满足

f(m)为三角滤波器中第m滤波器的中心频率，m是指滤波器的数量，通常取20～40， Mel(f)是梅尔频率，f为实际语音信号频率，本实施例中，滤波器优选为 Mel滤波器，但不应以此为限。

请参阅图1～图4所示，定义DenseNet-SEblock模型的结构和DenseNet- SEblock模型的训练参数部分包括如下两个步骤：

步骤4、定义DenseNet-SEblock模型的结构以及DenseNet-SEblock模型的训练参数。

DenseNet-SEblock模型的结构包含输入层、四个DenseBlock模块和三个Transition模块组成，全局池化层，BP算法模块，两个引入了SE block网络模型的特征通道，所述输入层用于向网络输入元素(图1中结构)，输入层向网络中输入二维特征图像，全局池化层对最后输出的多维特征进行平均化的处理，将其转变成低维的特征值置向量相加。

DenseBlock模块由多层的DenseLayer模块组成(图2中的DenseLayer1，DenseLayer2，DenseLayer3，)，采用的是密集连接方式，即指网络模型中的当前网络层的输入都蕴含前面所有网络层的输出，从而在保证网络层之间能够进行最大程度的信息传递的前提下直接将所有层进行连接起来，第L层网络的输出为：x_L＝H_L([x₀,x₁,...,x_L-1])，其中x为输入层，H_L()为层与层之间的传输函数，DenseLayer模块包括BN层、ReLU层、卷积层(图2中的BN、Relu、 Conv2d)，BN对输入的分布平滑于，缓解反向传播中的梯度消失的问题，从而提高模型训练速度，提高网络泛化性能，ReLU层输入的元素进行非性映射，卷积层内设有卷积核，卷积层之间通过神经元连接，用于降低通道数目。

Transition模块位于两个DenseBlock模块中间，可以降低特征的数目和压缩模型的大小，由归一化层、卷积层、平均池化层组成(图3中的BN、 Relu、Conv2d、AvgPool)，归一化层对输入特征经过归一化处理，卷积层内设有卷积核，卷积层之间通过神经元连接，可以降低通道数目，平均池化层对特征进行压缩处理。

BP算法模块能够优化算法调整神经网络中初始化参数的值，使得预测结果与实际结果之间的偏差降低到特定标准之下，从而达到优化模型参数的效果，通过ReLu激活函数实现，计算公式为：

其中w_ij为权值，

为神经网络中第L-1层第i神经元的输出，

为神经网络中第L层中第j神经元的输入，

为实际输出

和期望输出

之间的偏差，σ为激活函数，δ^L为最后一层神经网络的偏差，再由后往前计算每一层神经网络产生的偏差。

SEblock网络模块的特殊通道由两个SEblock模块和两个全局池化层组成 (图1中的SEblock1、SEblock2、Globalpool1、Globalpool3)，SE-block模块由全局平均池化层、两个全连接层、ReLu激活函数、sigmoid函数组成( 图1中的GlobalPool、Linear1、ReLu、Linear2、sigmoid、Scale)，全局平均池化层将空间上分布的所有信息点的值平均为一个值，使最终的scale对整个通道起作用，从而利用通道间的相关性的同时屏蔽掉空间分布上的相关性，两个全连接层分别将通道数目降低到原来的1/r，其中r为降维参数，将通道数增加至最初的数目，ReLu激活函数将两个全连接层连接，sigmoid 函数将权重值加权到之前的特征矩阵上，从而获得筛选后的特征矩阵。

DenseNet-SEblock模型的训练参数包括将通道数为64；卷积核设为3x3；步长(stride)设为2；四层DenseBlock中的卷积层数目分别设为6、12、24、 8；第二个Transition模块和第三个Transition模块的输出特征参数的大小分别设为256x16x8和512x8x4；两个SEblock网络模块的输入特征参数的大小分别设为256x16x8和512x8x4；

步骤5、使用增强的训练集数据对DenseNet-SEblock模型进行训练。

将增强训练集中数据经Fbank特征提取后的特征参数作为结构和训练参数均已定义好的DenseNet-SEblock模型的输入端数据，最后经过全局池化操作得到样本的一维特征参数，之后通过反向传播算法调整模型中的参数，最终的使得预测结果与实际结果之间的偏差降低到特定标准之下。

请参阅图1～图5所示，测试集数据分类结果获取和处理部分包括以下步骤；

步骤6、将测试集数据特征信息输入到训练完成的DenseNet-SEblock模型中进行判决，得出识别结果。

将事先预处理好的测试音频样本输入到DenseNet-SEblock网络模型中，模型输入的测试音频首先要通过端点检测排除静音部分后，再提取出Fbank 特征，最后将从DenseNet-SE block网络中提取出的特征信息后直接输入到 Softmax分类层中，实现说话人的辨别，所述Softmax分类层用于解散计算预测音频属于不同说话人的概率值，计算公式为：

其中

为元素的指数，∑e^Vj为所有元素的指数和的比值。

步骤7、得到输入测试集数据的模型的概率矩阵、识别率。

将测试集数据输入训练后的DenseNet-SEblock模型，并在最终的分类层中识别样本对应的说话人，得出测试集数据在说话人样本的概率矩阵，，识别率的值为正确识别出的样本个数与测试样本集的总数之比，本发明采用的说话人识别的评价指标为识别率(Accuracy，ACC)。本次实验中网络模型的迭代次数都初始化为100，实验中抽取了每20次迭代次数的结果进行分析 (选取迭代次数为20,40,60,80,100)，当迭代次数达到80次以上时，网络模型的识别准确率趋向平稳，两个模型迭代最优时的准确率分别是 92.68％和96.8％，即DenseNet-SEblock模型的说话人识别在识别准确率方面要高于DenseNet-ICTL网络模型的识别效果。

综上所述，本发明提供了一种基于DenseNet-SEblock说话人识别方法，通过提取说话人的特征参数Fbank作为网络结构的输入，同时将网络的输出结构从单一尺度输出修改为多尺度输出，并结合SEblock网络(Squeeze and Excitation Networks)以提高网络结构模型的准确率和函数表征能力。这种算法的实现，在计算成本略有增加的基础上改善传统的卷积神经网络模型随着深度的增加，特征信息不可避免地会在网络层的训练过程中丢失一部分的问题，很好的提高网络模型的识别率。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种说话人识别方法，用于辨析声音生物特征的特性进而验证说话人身份，其特征在于，基于DenseNet-SE block技术，包括以下步骤：

步骤4、定义DenseNet-SE block模型的结构以及DenseNet-SE block模型的训练参数；

步骤5、使用增强的训练集数据对DenseNet-SE block模型进行训练；

步骤6、将测试集数据特征信息输入到训练完成的DenseNet-SE block模型中进行判决，得出识别结果；

步骤7、得到输入测试集数据的模型的概率矩阵、识别率。

2.根据权利要求1所述的说话人识别方法，其特征在于：所述步骤1中的所述音频数据从数据库中，抽取的150个说话人，单个说话人总时长为五分钟至十分钟之间，每个说话人包含60个音频样本，其中50个样本作为训练集，10个样本作为测试集，总时长50小时，作为样本库；所有音频数据都编码为单通道，并以16位精度以16kHz采样；将读取到的音频按照不同的标签保存，即train_sound，train_label，test_sound，test_label分别代表训练集和测试集的音频数据和对应的说话人标签。

3.根据权利要求1所述的说话人识别方法，其特征在于：所述步骤2中的数据增强方法Mixup以线性插值的方式来构建新的训练样本和标签，其表达式为：

4.根据权利要求1所述的说话人识别方法，其特征在于：所述步骤3中的预处理包括预加重、分帧处理和加窗函数、端点检测，所述预加重的滤波器设为：H(z)＝1-az^-1，其中a预加重滤波器的系数参数，取值范围为0.9～1；所述分帧处理将一段非平稳语音信号的分析，转变成若干个平稳语音帧，一帧的帧长为10～30ms，帧移与帧长的比值为0～0.5；所述加窗通过使用滑动窗口对原始语音序列进行等间隔分割实现，即将每一帧乘以汉明窗，通过窗函数的音频信号为：s_W(n)＝s(n)w(n)，其中s(n)为原始语音信号序列，w(n)为汉明窗函数，计算公式为：

其中N为帧长；所述端点检测的双门限法算法用于从原始音频信号中识别出语音段和非语音段，设定高的短时能量门限，取所有帧的短时能量平均值，设定低的短时能量门限T₁和短时过零率的阈值Z_s，将低于T₁门限的内容判决为静音段，高于T₁并低于T₂的内容进行阈值的判定，计算公式为：

其中E_n为短时能量，Z_n为短时过零率，sgn[]为符号函数；

利用傅立叶变换并计算通过滤波器的能量取对数来获取Fbank特征数据，计算公式为：

X_m(w)＝FFT(X_m(n))；

其中，x_m(n)为音频信号时域采样序列，x_m(w)为对应频域的功率谱，m是指帧的序列，H_m(k)为梅尔滤波器组函数，满足

f(m)为三角滤波器中第m个滤波器的中心频率，m是指滤波器的数量，取20～40，Mel(f)是梅尔频率，f为实际语音信号频率。

5.根据权利要求1所述的说话人识别方法，其特征在于：所述步骤4中DenseNet-SEblock模型的结构包含输入层、四个DenseBlock模块和三个Transition模块组成，全局池化层，BP算法模块，两个引入了SE block网络模型的特征通道，所述输入层用于向网络输入元素；所述全局池化层用于对最后输出的多维特征进行平均化的处理，将其转变成低维的特征值；所述DenseNet-SE block模型的训练参数包括将通道数为64；卷积核设为3x3；步长(stride)设为2；四层DenseBlock中的卷积层数目分别设为6、12、24、8；第二个Transition模块和第三个Transition模块的输出特征参数的大小分别设为256x16x8和512x8x4；两个SE block网络模块的输入特征参数的大小分别设为256x16x8和512x8x4；

所述DenseBlock模块由若干层DenseLayer模块组成，采用的是密集连接方式，即网络模型中的当前网络层的输入都蕴含前面所有网络层的输出，第L层网络的输出为：x_L＝H_L([x₀,x₁,...,x_L-1])，其中x为输入层，H_L()为层与层之间的传输函数，所述DenseLayer模块包括BN层、ReLU层、卷积层；所述卷积层内设有卷积核，卷积层之间通过神经元连接；

所述Transition模块位于两个DenseBlock模块中间，由归一化层、卷积层、平均池化层组成，所述归一化层用于对输入特征经过归一化处理；所述卷积层内设有卷积核，卷积层之间通过神经元连接。

6.根据权利要求5所述的说话人识别方法，其特征在于：所述BP算法模块用于优化算法调整神经网络中初始化参数的值，通过ReLu激活函数实现，计算公式为：

其中w_ij为权值，

为神经网络中第L-1层第i神经元的输出，

为神经网络中第L层中第j神经元的输入，

为实际输出

和期望输出

7.根据权利要求5所述的说话人识别方法，其特征在于：所述SE block网络模块的特征通道由两个SE block模块和两个全局池化层组成，所述SE block模块由全局平均池化层、两个全连接层、ReLu激活函数、sigmoid函数组成，所述全局平均池化层用于将空间上分布的所有信息点的值平均为一个值；所述两个全连接层分别用于降低通道数目到原来的1/r，其中r为降维参数，增加通道数至最初的数目；所述ReLu激活函数用于连接两个全连接层；所述sigmoid函数用于将权重值加权到之前的特征矩阵上，从而获得筛选后的特征矩阵。

8.根据权利要求1所述的说话人识别方法，其特征在于：步骤5具体为：将训增强训练集中数据经Fbank特征提取后的特征参数作为结构和训练参数均已定义好的DenseNet-SEblock模型的输入端数据，最后经过全局池化操作得到样本的一维特征参数，之后通过反向传播算法调整模型中的参数，最终使得预测结果与实际结果之间的偏差降低。

9.根据权利要求1所述的说话人识别方法，其特征在于：步骤6具体为：将事先预处理好的测试音频样本输入到DenseNet-SE block网络模型中，模型输入的测试音频首先要通过端点检测排除静音部分后，再提取出Fbank特征。最后将从DenseNet-SE block网络中提取出的特征信息后直接输入到Softmax分类层中，实现说话人的辨别，所述Softmax分类层用于解散计算预测音频属于不同说话人的概率值，计算公式为：

其中

为元素的指数，∑e^Vj为所有元素的指数和的比值。

10.根据权利要求1所述的说话人识别方法，其特征在于：步骤7具体为：在训练后的DenseNet-SEblock模型中输入所述测试集数据并在最终的分类层中识别样本对应的说话人，得出测试集数据在说话人样本的概率矩阵；识别率的值为正确识别出的样本个数与测试样本集的总数之比。