CN111724794A

CN111724794A - 一种说话人识别方法

Info

Publication number: CN111724794A
Application number: CN202010552954.9A
Authority: CN
Inventors: 兰朝凤; 赵宏运; 郭思诚; 陈小艳; 苏桤木
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-09-29

Abstract

一种说话人识别方法，解决了现有说话人模型识别准确率和稳定性不高的问题，属于声纹识别技术领域。本发明包括：提取说话人语音特征，作为训练集；建立说话人身份识别的网络模型，该网络模型是在融合模型的基础上结合基于附加间隔Softmax损失函数建立的，利用步骤一的训练集对所述网络模型进行训练，利用训练好的网络模型确定待识别的说话人语音特征的类别，所述基于附加间隔Softmax损失函数增加了类别中的决策间隔，使同一类别之间特征向量和权重向量的间隔距离更小，同时增大不同类别特征向量的间隔距离。提高了识别精确度，具有较好的鲁棒性。

Description

一种说话人识别方法

技术领域

本发明涉及一种基于CNN与GRU融合的说话人识别方法，属于声纹识别技术领域。

背景技术

声纹识别(Voiceprint Recognition,VPR)是生物特征识别技术中重要的研究方向之一，它通过计算机识别人特有的生理特征或行为特征，进而实现个人身份鉴定。声纹识别也称为说话人识别(Speaker Recognition)，常被应用于国防安全、远程监视、刑侦犯罪、声控锁等方面。随着互联网行业的蓬勃发展，说话人识别技术已经融入到各个领域之中，人们也在各行各业中追求能应用于海量数据的快速、便捷智能识别方式及方法。随着技术的进步，传统声纹识别方法已经无法满足对大数据的精准处理，伴随终端设备性能的大幅提高，对设备计算能力和内存容量有较高要求的深度学习方法逐渐引起研究人员的关注，因而学术界对说话人识别的研究热点也从传统机器学习转向了深度学习。目前虽已有一些深度学习算法促进了语音识别技术的发展，但说话人识别技术仍然是一项具有挑战性的任务。

说话人识别领域早期研究主要聚焦于特征参数的提取与匹配模型的搭建上，传统说话人识别模型大部分由语音信号频率上的短时倒谱特性得到其声学特征，再利用识别算法对说话人身份进行判别。常用倒谱特征如线性预测倒谱系数(Linear predictioncepstral coefficents，LPCC)和梅尔倒谱系数(Mel-scale frequency cepstral coeffi-cients，MFCC)等，传统匹配模型算法如高斯混合模型(Gaussian mixture model，GMM)、隐马尔科夫模型(Hidden markov model，HMM)和支持向量机(Support vector machine，SVM)等。上述传统方法虽然可以对说话人身份进行有效识别，但当需要识别的类别增多时会导致系统性能降低、计算时间变长及运行效率下降的缺陷。随着深度学习技术的发展，促进了传统说话人识别方法与深度学习方法的结合，有些学者提出了具有针对性的说话人识别网络结构。近年来，卷积神经网络(Convolutional Neural Network，CNN)和循环神经网络(Recurrent Neural Network，RNN)在识别技术领域应用效果显著，CNN常用于处理高维图像信息，在图像分类领域受到广泛关注。RNN常用来处理文本和语音数据等具有序列特性的特征，在语音识别、文本分类等领域取得了较好的效果。RNN本身存在长时依赖问题，在训练RNN的过程中可能会出现梯度爆炸和梯度消失现象，为此许多学者对这一问题进行深入研究，并提出了相应的解决方案。此外，也有一些学者将CNN与RNN结合使用，构建融合模型，如使用CNN-RNN混合网络实现手写字的分类识别，基于CNN-LSTM模型对文本进行分类。对于说话人识别任务，由于语音包含的信息是具有前后关联的时序信号，利用CNN结合RNN的方法可以在多维度上对语音信号进行分析，能够让模型学习到更多的说话人特征。

真实场景中，说话人识别任务因存在复杂的环境噪声、语言的多样性、不同的发声方式等因素，因此对模型的区分性提出了更高要求。传统说话人识别模型常用hinge-loss、Softmax-loss损失函数，此种函数在注重区分相似度特征任务中效果较好，但对于多类别、类内类间差别不明显的任务效果欠佳。

发明内容

针对现有说话人模型识别准确率和稳定性不高的问题，本发明提供一种说话人识别方法。

本发明的一种说话人识别方法，所述方法包括：

步骤一、提取说话人语音特征，作为训练集；

步骤二、建立说话人身份识别的网络模型，该网络模型是在融合模型的基础上结合基于附加间隔Softmax损失函数建立的，利用步骤一的训练集对所述网络模型进行训练，所述基于附加间隔Softmax损失函数为：

其中，L_AMS表示分数，s为缩放因子，m为间隔系数，c为训练集中训练类别的总数，n为训练集中训练样本个数，y_i为第i个训练样本对应的标签，θ_j表示第j个训练类别向量间的角度，θ_yi表示第i个训练样本对应标签的权重向量与输入特征向量间的夹角；

Softmax损失函数的输入特征向量和权重向量的决策间隔为ψ(θ)为：

ψ(θ)＝cosθ-m

m表示间隔系数，θ表示输入特征向量与权重向量的夹角；

步骤三、利用训练好的网络模型确定待识别的说话人语音特征的类别。

作为优选，所述步骤三包括：

将待识别的说话人语音特征输入到CNN网络，经卷积最大池化处理后输出特征向量；

对CNN网络输出特征向量进行处理，获得时间序列特征，将该时间序列特征输入至GRU网络；

使用层归一化方法，计算GRU网络隐藏层所有神经元节点输入的平均值μ和方差σ，并由同一个标准化操作，获得标准化输出特征向量c；

将标准化输出特征向量传输到最后一层全连接层，其特征被映射到全连接层的特征空间；

使用基于附加间隔Softmax损失函数对特征空间内的说话人特征进行分类并确认其身份。

作为优选，平均值

其中，K表示输入的维度，h_k表示GRU网络中隐藏层输出的第k维向量，γ表示激活函数，g表示待更新的增益，b表示偏置参数，h表示上一层的输出。

作为优选，所述步骤一和步骤三中，对说话人的语音进行分帧加窗处理，将每帧的短时平稳信号进行短时傅里叶变换，得到反映信号能量密度的语谱图，作为说话人语音特征。

本发明的有益效果：本发明结合附加间隔Softmax损失函数(AM-Softmax)，将CNN与GRU融合的网络结构，构建AM-CNN-GRU网络模型。提取语谱图中深层的说话人身份特征，并对隐藏层的输出运用层归一化方法约束高维特征分布，提高网络训练速度和准确度，为改善基于度量的分类方法，运用附加间隔Softmax损失函数提取相似的声纹特征，并在说话人识别语料库中进行实验验证。本发明解决了说话人分类学习类内多样性、类间差异性的问题，提升了模型识别的准确率和稳定性。

附图说明

图1为CNN模型的原理示意图；

图2为门控循环单元的原理示意图；

图3为语谱图；

图4为Softmax与AM-Softmax决策边界示意图；

图5为AM-CNN-GRU网络模型的原理示意图；

图6为识别率与GRU网络节点数关系图；

图7为本发明的AM-CNN-GRU模型的识别率与迭代次数关系曲线；

图8为基于欧几里得范数的正则化模型的识别率与迭代次数关系曲线。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

本实施方式的一种说话人识别方法，首先，将数据库中的语音信号进行预处理，提取说话人语音特征，作为训练集；然后，建立说话人身份识别的网络模型，本实施方式的网络模型是在现有融合模型的基础上结合基于附加间隔Softmax损失函数，基于附加间隔Softmax损失函数增加了类别中的决策间隔，使同一类别之间特征向量和权重向量的间隔距离更小，同时增大不同类别特征向量的间隔距离，实现分类；将训练集中的特征输入到说话人身份识别的网络模型中训练建立说话人特征模型库，并对待识别说话人特征与训练好的建立说话人特征模型库中对应的身份特征进行相似度匹配，相似度达到一定阀值后确认身份。

优选实施例中，本实施方式中使用灰度语谱图作为网络模型的输入特征，根据人类发音的短时平稳特性，对一段语音进行分帧加窗处理，此时可将一帧语音片段视为短时平稳信号，对其进行短时傅里叶变换(Short-Time Fourier Transform,STFT)，即得到反映信号能量密度的语谱图。语谱图作为语音的图像表示，可直观反映出信号时间与频率的关系及能量大小。语谱图作为网络的输入特征可以保留更多的说话人信息，使模型能充分的学习到代表说话人身份的个性特征。本实施方式利用AISHELL-1语音库中的一段语音，生成的特征语谱图如图3所示。由图3可知，语音信号强弱随时间和频率变化呈现不同的状态，颜色较深的代表能量值较大，在语音中所占比重大，反之相反。因此，可以直接利用语谱图来反应语音信号的强弱与频率和时间的关系。

优选实施例中，本实施方式的融合模型选择了CNN网络与GRU网络，构建说话人身份识别的网络模型(AM-CNN-GRU)。

CNN网络是深度学习领域常用的网络模型之一，是一种多层前馈神经网络。CNN网络结构包含若干个卷积层与池化层。卷积层各层神经元之间局部连接共享权值与偏置，拥有局部感受野和权值共享的特点，可以很大程度上减少计算过程中产生的参数，提升训练速度，池化层用来压缩卷积层处理后输入的高维特征来减少参数矩阵维度，进而降低模型计算复杂度，使用池化层对输入图像进行伸缩、平移操作不改变图像本身特性。常用的池化方法有最大池化、平均池化和全局池化，使用最多的是最大池化方法。由两层卷积层和池化层构成的卷积神经网络简单模型，如图1所示。

图1中，语谱图作为声纹特征的图像表示输入到CNN网络，CNN网络的每个卷积核以滑动窗口的方式按步长进行卷积计算，通过卷积池化的交替作用实现对声纹特征提取。

CNN网络能提取数据的局部特征，抽象化描述数据特性，同时在空间维度上提取表征能力强的高维特征，语谱图作为语音的图像表示能直观反应说话者语音特征的各种信息，因此本实施方式将语谱图作为CNN网络的输入特征，利用CNN网络在图像学习中的优势，提取语音信号空间维度上的特征表示。由于经过CNN网络提取的语音特征维度较高需要降维处理，本实施方式选择最大池化对提取的高维语音特征进行压缩、平移操作，该方法可以在降低维度的同时有效的保留声纹特征的主要身份信息。一个CNN模块实际分为卷积层、激活层和池化层，对于卷积核大小、步长、特征映射数量和池化大小需要根据实际问题进行设置。

RNN擅长处理具有先后顺序的序列特征，区分时间维度上不同信息的关联性。通常采用LSTM或GRU模型作为隐藏层来解决RNN长时依赖的问题，GRU相比于LSTM结构更简单，训练速度相对较快，所以本实施方式选择使用GRU提取语音信号的时序特征。

在传统神经网络中，输入数据之间相互独立，而循环神经网络不仅可以处理当前时刻的语音特征，还能将处理过的时间序列信息进行编码，具备一定记忆功能。随着输入数据量增大，传统循环神经网络无法处理时间序列较长的数据，很难将更早的信息传递到当前时刻，导致在反馈过程中遗漏掉一些重要信息。长短时记忆网络(Long short termmemory，LSTM)是利用内部三个门控单元控制的循环神经网络，具备记忆和遗忘信息的能力，可有效防止RNN反馈消失问题的出现。

门控循环单元网络(Gated Recurrent Unit，GRU)由Cho等人提出，GRU拥有两个门控单元—重置门和更新门。更新门相当于融合了LSTM中的输入门和遗忘门，去除掉了细胞状态，使用隐藏状态来进行信息的传递，训练时在样本数量相同的情况下这种网络结构能具有较少的网络参数使训练速度更快，其网络如图2所示。

图2中，x_t为当前时刻输入，a_t-1为前一时刻状态，a_t为更新后的状态，γ为sigmoid激活函数，z_t为更新门，r_t为重置门。更新门控制前一时刻的状态信息输入到当前状态的程度，更新门值越大说明前一时刻的状态信息保存越多。重置门控制忘记前一状态信息程度，值越小忘记得程度越大。

假设当前时刻输入为x_t，前一时刻状态为a_t-1，则更新门和重置门的状态可以通过x_t和a_t-1求得，重置门重置后的a_t-1连接输入x_t，加入激活函数tanh得到a^～，然后利用更新门控制状态更新，得到更新后的状态a_t，它们之间的关系式可表达为：

其中，W为权重，*表示矩阵乘积。更新门z_t的取值范围为(0,1)，其值越接近1，表示记忆下来的数据越多，越接近0表示忘掉的数据越多。GRU由两个门控制记忆和遗忘，控制方式更加灵活。

GRU网络由多层GRU隐藏层叠加构成，和传统神经网络模型相比，GRU的隐藏层不仅可以连接上一层隐藏层，且隐藏层中各神经元间也有联系，每一层都有时间上的循环反馈，反馈结果和输出由各门单元进行控制。设计GRU模块，需要考虑网络模型的深度与隐藏层中神经元节点的数量，因此应该依据实际的实验环境进行设定。分类学习的神经网络模型中分类器性能对说话人识别模型最终识别效果影响很大，通常模型最后一层全连接层的特征是声纹信息在特征空间的映射，对全连接层的输出使用角度距离、余弦距离或欧氏距离等度量方式比较特征之间的相似度，完成特征分类。在上述融合模型的基础上，本实施方式选择的分类学习的神经网络模型基于附加间隔Softmax损失函数，具体为：

ψ(θ)＝cosθ-m

m表示间隔系数，θ表示输入特征向量与权重向量的夹角；

在训练过程中现有的Softmax损失函数为：

其中，W_j表示第j训练类别的权重向量，f_i是第i个训练样本最后全连接层的类别输出向量，θ_j是向量间的角度。Softmax的工作是使||W₁||||f||cos(θ₁)＞||W₂||||f||cos(θ₂)，从而得到f正确的分类结果。

Softmax的输出代表特征被分类到每一类的概率，理想的特征识别方法学习到的特征应当在特定度量空间中，需要满足同一类的最大类内距离小于不同类的最小类间距离，然而说话人识别任务中Softmax损失函数注重寻找同类相似特征，而相邻类之间特征距离没有得到优化，因此需对度量学习方式进行改进。本实施方式的基于附加间隔Softmax损失函数(AM-Softmax)是一种优化说话人分类模型，本实施方式的基于附加间隔Softmax损失函数引入了角间距的概念，增加了类别中的决策间隔，使同一类别之间特征向量和权重向量的间隔距离更小，同时增大不同类别特征向量的间隔距离。

本实施方式的基于附加间隔Softmax损失函数对权重向量W和输入特征向量f进行归一化处理，将输入特征映射到一个半径为r(r＝1)的超球面上，使特征向量间的距离变为rcos(θ)，由于余弦值域的限制使损失的收敛值较大，因此增加缩放因子参数s用以调节超球面的半径距离，表示为scos(θ)。

添加间隔系数m，通过改变m数值调节类间决策间隔ψ(θ)，由此来优化特征间的距离分布，提高特征的可分辨性。以二分类决策为例，Softmax与AM-Softmax决策边界如图4所示。

优选实施例中，本实施方式的说话人身份识别的网络模型，如图5所示，识别过程为：

在建立融合模型过程中，考虑到要将CNN网络处理后的语谱图数据输入到GRU网络，需要对输出的特征数据进行进一步处理，变为GRU网络可识别的时间序列特征。将语谱图输入到CNN网络，经卷积池化处理后输出特征映射数量可表示为F，大小可表示为H×L的特征向量(H和L分别表示输出特征向量的高和宽)。为了使GRU网络能够提取到语谱图的时序特征，对输出特征数据进行处理，用一个序列C表示GRU网络的输入，可写为C＝[C₀,C₂,C₃,..C_j,..C_L]，0≤j≤L，C_j是一个维度为H×F的向量，即相当于输入GRU的是时长为L特征维度为H×F的时序向量。

使用层归一化(layer-normalization,LN)方法对融合模型进行归一化，计算隐藏层所有神经元节点输入的平均值和方差，并由同一个标准化操作达到约束高维特征分布的目的。层归一化均值μ、方差σ及标准化输出特征向量c的计算公式如下：

平均值

其中，K表示输入的维度，h_k表示GRU网络中隐藏层输出的第k维向量，γ表示激活函数，g表示待更新的增益，b表示偏置参数，h表示上一层的输出；

将归一化后的特征向量传输到最后一层全连接层(Fully Connected Layer，FC)，其特征被映射到全连接层的特征空间，然后使用附加间隔Softmax分类器对特征空间内的说话人特征进行分类并确认其身份，最终完成说话人身份识别。

实验：

1、实验环境

实验环境在TensorFlow框架下进行实验。实验设备采用处理器Inter(R)Core(TM)i7-9700 CPU@3.00GHz，安装内存32G，操作系统64位Windows10，GPU型号GEFORCE RTX 2080Ti，实验在GPU模式下运行。

2、语音数据集

本发明采用Kaldi平台上开源语音数据集Aishell-1，语音总时长共计10,680min。数据集中包含400名来自中国不同方言地区的男性和女性说话人语音信息，每人350条语音样本，采样频率为16kHz，录制环境相对安静。数据集中选取其中的100人进行实验，男女比例为1:1。实验中随机抽取每人80％的样本作为训练集、约有28000条语音数据，其余20％作为验证集和测试集、约7000条语音数据。从数据集样本中截取3s时长的语音片段进行训练，语音样本随机输入到模型中，如果语音时长不足3s，那么对该语音重复采样使语音达到3s，满足输入各样本大小相同。

3、评价指标

实验采用识别准确率ACC(accuracy)来评估说话人识别算法的性能，则说话人识别准确率函数定义为：

其中，N为说话人的总数，P_i为第i个说话人的精确度，TP表示分类正确的个数，FP表示分类错误的个数。

4、实验结果及分析

4.1、模型训练及参数设置

本发明在实验过程中，对语音样本截取、特征提取和标准化处理的过程如下：语音信号截取的时间长度为3s，语音片段生成语谱图设置每帧的特征长度为512维、帧长度为25ms、帧移为10ms；对3s原始语音数据利用汉明窗进行分帧加窗处理，提取短时傅里叶变换STFT特征，并对其取其对数，得到大小为257×297的语谱图；使用离差标准化方法对语谱图的每个像素值进行标准化处理，将数据映射到[0,1]区间内转化为无量纲数值，生成灰度语谱图。

训练时使用Adam优化算法更新模型参数，学习率为0.001，训练过程中学习率逐渐下降到1e^-5，权值衰减系数为1e^-4，每批数据大小为32。设置附加间隔Softmax的超参数s为30，m为0.35。为验证AM-CNN-GRU网络模型的识别效果，文中设置了不同的对比实验以检验算法的识别性能。

利用监督学习的方式对模型进行训练，处理过程如下：将训练数据打上标签，并把所有语音数据和标签数据作为训练集输入到模型中进行训练，查看训练结果。经过多次实验后，选择将CNN模块设置为单层卷积池化结构，卷积层中卷积核数设置为32、卷积大小为3×3、步长为2×2。池化层采用最大池化，池化大小为2×2，即选择2×2范围内最大值作为输出，步长设为2×2，激活函数为Relu。实验过程中考虑到模型的参数数量及模型容量，对识别率存在一定影响，因此，对GRU模块设置不同网络层数与节点数量，观察模型参数变化与识别率的关系。实验过程中选定GRU网络模块层数为一层、两层与三层，节点数量设置为256、512及1024，训练迭代30次，在测试集中的实验结果如图6所示。

由图6可知，隐藏层为一层，节点数分别为256、512、1024时的识别率为88.56％、89.72％和90.57％；隐藏层为两层时，不同节点数量的识别率为88.90％、90.65％和94.15％；隐藏层为三层时，不同节点数量的识别率为95.70％、96.38％和96.04％，参数设置在三层、节点数512时的识别率最高。因此，将GRU模块设为三层隐藏层结构、每层神经元节点数量设置为512时，模型识别效果最佳。

本发明模型中加入Dropout预防网络发生过拟合的情况，设置Dropout丢弃率为25％。对于GRU的输出，使用层归一化方法衰减无关特征的权重约束特征分布，避免过拟合，同时提高模型训练速度和精度。标准化后的数据映射到最后的全连接层，作为当前说话人特征表示，节点数量设置为256。AM-CNN-GRU网络结构参数设置如表1所示。

表1网络参数表

结构	参数
		Con2D	32,3×3,2×2
Maxpooling	2×2,2×2
		dropout	0.25
GRU	512
		layer-normal	-
FC	256
		AM-Softmax	30,0.35

4.2、不同损失函数下模型识别率研究

分类训练准则一般优化目标为一对多，在说话人识别任务中典型的方法有Center-loss和A-Softmax-loss。Center-loss和A-Softmax-loss均体现了分类学习的思想。Center-loss在训练过程中为每个类学习一个特征中心，通过减少特征与特征中心距离的平方使每个样本特征聚集向对应的特征，即缩小类内距离。

通常Center-loss与Softmax一起使用效果更好，因此本发明将Softmax和Center-loss结合使用。A-Softmax的思想与AM-Softmax相似，为特征向量与归一化权值向量的夹角θ添加了一个间隔系数m，使其夹角距离表示为ψ(θ)＝(-1)^kcos(mθ)-2k，实现增大类间距并缩小类内距离。在此条件下，其它参数设置见4.1节，训练迭代100次，分别使用Softmax损失函数、A-Softmax损失函数、中心损失函数(Center-loss)和附加间隔Softmax损失函数(AM-Softmax)训练说话人识别模型。分析不同损失函数测试集的准确率与训练时间，实验结果如表2所示。

表2不同损失函数下的识别准确率与训练时间

由表2可知，使用AM-Softmax、Softmax、A-Softmax及Center-loss方法的识别率分别为98.20％、94.52％、97.37及96.26％，可见AM-Softmax识别率分别比使用Softmax、A-Softmax及Center-loss方法识别率提升了3.68％、0.83％及1.94％；在训练时间上，A-Softmax所用时间最长、速度最慢，而Softmax、Center-loss及AM-Softmax这三种方法所用时间相差不大，A-Softmax的训练时间明显高于其余几种模型的原因是，A-Softmax在优化过程中需要优化角度的arccos函数，反向传播时存在很大的计算开销和内存开销从而使训练速度下降。由此可知，基于AM-Softmax的模型有更好的识别效果，可以有效的增大类间距缩小类内距离，降低了计算复杂度，减少了运算时间。

4.3、层归一化方法的鲁棒性分析

为探讨本发明提出方法的鲁棒性，将本发明方法与基于欧几里得范数的正则化模型进行对比，实验参数设置见4.1节，结果如图7和图8所示。

图7中层归一化的AM-CNN-GRU模型，从第1次迭代到第20次迭代训练集与验证集识别率均稳步上升，在第20次迭代验证集识别率为87.76％，当迭代次数为30时趋于平稳，识别率为96.25％；图8中L2范数模型在一定程度上也可使模型收敛，但需要更多的训练时间，训练集与验证集的识别率由迭代次数1增加到迭代次数30次时逐渐增大，当迭代次数为30时的识别率为84.77％，当迭代50次时识别率达到91.04％，此后趋于平缓。由此可见，层归一化模型的识别率随迭代次数增加稳步上升，上升过程中波动小，而L2范数模型上升过程波动较大，即使用L2范数的模型对数据的学习平稳性低于层归一化模型。由此可知，层归一化方法能有效的提升本发明模型的收敛速度，训练时较为稳定，使用本发明方法训练的模型识别率更高，具有一定的鲁棒性。

4.4、不同模型与AM-CNN-GRU的识别率对比

为分析本发明方法的识别效果，将基于Softmax的CNN和GRU模型作为对比试验，实验结果如表3所示。实验设计：CNN网络与GRU网络为3层结构；每层CNN结构为卷积层、池化层、批归一化层(batch normalization，BN)，卷积层的第一层卷积核数为32，核大小为5×5，后两层的卷积核数为64，核大小为3×3，步长为1×1。其它参数设置见4.1节；GRU模型与本发明GRU模块设计部分相同。

表3比较不同模型测试集中的准确率

由表3可知，在相同实验条件下，AM-CNN-GRU在识别性能方面均优于其他两种模型，比CNN和GRU模型分别提升了5.48％和12.39％，说明使用附加间隔Softmax损失函数可以对不同种类之间的特征差异距离增大，使同种类别特征相互靠近，同时说明融合网络模型能更好的学习语谱图特征。由此可见，本发明所提方法的说话人识别准确率较高，并具有一定的鲁棒性。

本发明结合CNN和GRU网络的优势，提出融合CNN与GRU网络来学习说话人特征的方法，针对具有类内多样性、类间差异性的说话人识别问题，提出基于附加间隔Softmax损失函数的方法，建立AM-CNN-GRU说话人识别模型。首先，本发明使用语谱图作为模型输入特征，保证输入信息的完整，并利用附加间隔Softmax结合CNN-GRU训练说话人模型，学习语谱图空间维度和时间维度抽象表达的个性特征，提取深层的声纹特征进行相似度识别。其次，模型中加入了层归一化方法，目的是防止过拟合的现象并提升模型训练速度。最后，通过对比不同模型的识别率，验证本发明方法可以精确的对说话人身份进行识别，对比不同损失函数算法，证明附加间隔Softmax方法有效的提升模型分类性能，解决了说话人分类学习类内多样性、类间差异性的问题，提升了模型识别精度。此外实验分析了模型的鲁棒性，对比使用层归一化和L2范数归一化的识别效果，证明层归一化的本发明模型具有更快的学习效率。本发明在深度学习基础上，提出提高说话人识别效果的新方法，对说话人识别的区分性和稳定性要求给出了有效的解决方案。

Claims

1.一种说话人识别方法，其特征在于，所述方法包括：

步骤一、提取说话人语音特征，作为训练集；

ψ(θ)＝cosθ-m

m表示间隔系数，θ表示输入特征向量与权重向量的夹角；

2.根据权利要求1所述的说话人识别方法，其特征在于，所述步骤三包括：

3.根据权利要求2所述的说话人识别方法，其特征在于，

平均值

4.根据权利要求1所述的说话人识别方法，其特征在于，所述步骤一和步骤三中，对说话人的语音进行分帧加窗处理，将每帧的短时平稳信号进行短时傅里叶变换，得到反映信号能量密度的语谱图，作为说话人语音特征。