CN110277100A

CN110277100A - 基于Alexnet改进的声纹识别方法、存储介质和终端

Info

Publication number: CN110277100A
Application number: CN201910529995.3A
Authority: CN
Inventors: 张晖; 丁一全; 赵海涛; 孙雁飞; 朱洪波
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2019-09-24

Abstract

一种基于Alexnet改进的声纹识别方法、存储介质和终端，所述方法包括：对输入的语音信号进行快速傅里叶分析，得到对应的语谱图；采用预设的Alexnet卷积神经网络从所述语谱图中提取对应的声纹特征；基于所提取的声纹特征对所述语音信号的说话者身份进行分类识别。上述的方案，可以提高声纹识别的准确性。

Description

基于Alexnet改进的声纹识别方法、存储介质和终端

技术领域

本发明属于声纹识别技术领域，特别是涉及一种基于Alexnet改进的声纹识别方法、存储介质和终端。

背景技术

生物特征是每个人固有的特征，具有唯一性和稳定性。声纹识别技术作为仅次于指纹和掌纹的第三大生物识别技术，在识别领域有广泛的的研究和应用。目前声纹识别技术不断进步，准确率不断提升。

但是，现有的声纹识别方法，存在着识别精度低下的问题。

发明内容

本发明解决的技术问题是如何提高声纹识别的准确性。

为了达到上述目的，本发明提供一种基于Alexnet改进的声纹识别方法，所述方法包括：

对输入的语音信号进行快速傅里叶分析，得到对应的语谱图；

采用预设的Alexnet卷积神经网络从所述语谱图中提取对应的声纹特征；

基于所提取的声纹特征对所述语音信号的说话者身份进行分类识别。

可选地，所述采用预设的Alexnet卷积神经网络从所述语谱图中提取对应的声纹特征，包括：

采用预设的Alexnet卷积神经网络依次对所述语谱图执行卷积操作、池化处理操作和输出数据部分随机丢弃操作两次、连续三次所述卷积操作和一次所述池化处理操作。

可选地，所述卷积操作所采用的卷积层的数量为5，卷积核个数为32，卷积核大小为11，步长为1。

可选地，所述池化处理操作为1-max pooling最大池化操作，其卷积核个数为32，卷积核大小为3，步长为1。

可选地，所述基于所提取的声纹特征对所述语音信号进行识别，包括：

采用SVM分类器对所提取的声纹特征对应的语音输出者的身份进行识别。

可选地，所述采用SVM分类器对所提取的声纹特征对应的说话者的身份进行识别，包括：

采用SVM中的径向基核函数对所提取的声纹特征对应的说话者的身份进行分类。

可选地，所述语谱图为二维或三维语谱图。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述任一项所述的基于Alexnet改进的声纹识别方法的步骤。

本发明实施例还提供了一种终端，包括存储器和处理器，所述存储器上储存有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述任一项所述的基于Alexnet改进的声纹识别方法的步骤。

与现有技术相比，本发明的有益效果为：

上述的方案，通过对输入的语音信号进行快速傅里叶分析，得到对应的语谱图，并采用预设的Alexnet卷积神经网络从所述语谱图中提取对应的声纹特征，再基于所提取的声纹特征对所述语音信号的说话者身份进行分类识别，由于采用预设的Alexnet卷积神经网络从所述语谱图中提取对应的声纹特征，与现有的单一性的声纹特征相比，可以提高声纹特征识别的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于Alexnet改进的声纹识别方法的流程示意图；

图2是本发明实施例的一种基于Alexnet改进的声纹识别装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。本发明实施例中有关方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

如背景技术所述，现有技术中，常见的声纹特征提取方法包括梅尔(Mel)频率倒谱系数、线性预测倒谱系数等等，所提取的声纹特征较为单一，故存在着识别准确性低下的问题。

本发明的技术方案通过对输入的语音信号进行快速傅里叶分析，得到对应的语谱图，并采用预设的Alexnet卷积神经网络从所述语谱图中提取对应的声纹特征，再基于所提取的声纹特征对所述语音信号的说话者身份进行分类识别，由于采用预设的Alexnet卷积神经网络从所述语谱图中提取对应的声纹特征，与现有的单一性的声纹特征相比，可以提高声纹特征识别的准确性。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例的一种基于Alexnet改进的声纹识别方法的流程示意图。参见图1，一种基于Alexnet改进的声纹识别方法，具体可以包括如下的步骤：

步骤S101：对输入的语音信号进行快速傅里叶分析，得到对应的语谱图。

在具体实施中，对输入的语音信号进行快速傅里叶分析，得到对应的语谱图时，可以首先按照预设的帧长n对输入的语音信号x(t)进行分帧处理，得到m个帧x(m,n)；接着，在对得到的m个帧x(m,n)执行快速傅里叶变换，将时域信号x(m,n)转换得到频域信号X(m,n)；之后，对得到的频域信号做周期图，得到周期图Y(m,n)＝X(m,n)*X(m,n)’，其中，X(m,n)’为频域信号X(m,n)的共轭复数；最后，取周期图Y(m,n)的对数并扩大10倍，并将帧数m根据时间变换一下刻度，将帧长n根据频率变换一下刻度，绘制成对应的二维或者三维语谱图。

步骤S102：采用预设的Alexnet卷积神经网络从所述语谱图中提取对应的声纹特征。

在本发明一实施例中，采用改进的Alexnet卷积神经网络从所述语谱图中提取对应的声纹特征。具体而言，所述Alexnet卷积神经网络包括5个卷积层、三个池化层和三个丢弃(dropout)单元。其中，在采用所述改进的Alexnet卷积神经网络从所述语谱图中提取对应的声纹特征时，首先采用卷积层、池化层和丢弃单元依次所述语谱图依次执行包括卷积操作、池化处理操作和输出数据部分随机丢弃操作在内的操作两次，接着再采用卷积单元和池化层执行包括卷积操作和池化处理在内的操作连续两次。

其中，在将语谱图执行卷积运算时，如果卷积核大小设置过大，则难以聚焦到细致的特征，过小则会存在计算量增加、收敛性变慢的问题，因此，在本发明一实施例中，所述卷积操作所采用的卷积层的数量为5，卷积核个数为32，卷积核大小为11，步长为1。在执行池化操作时，采用最大池化的池化，为了使卷积后的输出映射图能在更小的区域高度抽象，以概括到整体的数据特征，在本发明一实施例中，所述池化处理操作为1-max pooling最大池化操作，其卷积核个数为32，卷积核大小为3，步长为1。在每一层池化层后加入丢弃单元，从而利用丢弃单元将神经网络某一层的输出节点数据随机丢弃一部分，减少过拟合风险。

步骤S103：基于所提取的声纹特征对所述语音信号的说话者身份进行分类识别。

在具体实施中，在提取到对应的声纹特征是，可以采用预设的SVM分类器对所提取的声纹特征对应的语音输出者的身份进行识别。其中，SVM是常见的一种判别方法。在机器学习领域，通常用来进行模式识别、分类以及回归分析。SVM方法是通过一个非线性映射p，把样本空间映射到一个高维乃至无穷维的特征空间中，使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题。简单地说，就是升维和线性化。其中，升维，就是把样本向高维空间做映射。但是，作为分类、回归等问题来说，很可能在低维样本空间无法线性处理的样本集，在高维特征空间中却可以通过一个线性超平面实现线性划分(或回归)。

在具体实施中，采用预设的SVM分类器对所提取的声纹特征对应的语音输出者的身份进行识别时，可以使用SVM中常用的核函数来进行声纹分类；将上一步骤提取出的声纹特征送入训练好的SVM中进行声纹分类，从而识别出说话人身份。当然，本领域的技术人员可以根据实际的需要，选择SVM中其他常用的核函数进行声纹分类，如线性核函数K(x,y)＝x·y、多项式核函数K(x,y)＝[(x·y)+1]^d、径向基函数K(x,y)＝exp(-|x-y|^2/d^2)和二层神经网络核函数K(x,y)＝tanh(a(x·y)+b)等。

上述对本发明实施例中的方法进行了描述，下面将对上述的方法对应的装置进行介绍。参见图2，本发明中的一种基于Alexnet改进的声纹识别装置20，可以包括傅里叶分析单元201、声纹特征提取单元202和身份识别单元203，其中：

傅里叶分析单元201，适于对输入的语音信号进行快速傅里叶分析，得到对应的语谱图；其中，所述语谱图为二维或三维语谱图。

声纹特征提取单元202，适于采用预设的Alexnet卷积神经网络从所述语谱图中提取对应的声纹特征；在具体实施中，声纹特征提取单元202，适于采用预设的Alexnet卷积神经网络依次对所述语谱图执行卷积操作、池化处理操作和输出数据部分随机丢弃操作两次、连续三次所述卷积操作和一次所述池化处理操作。在本发明一实施例中，声纹特征提取单元202执行所述卷积操作所采用的卷积层的数量为5，卷积核个数为32，卷积核大小为11，步长为1。在本发明另一实施例中，声纹特征提取单元202执行所述池化处理操作为1-maxpooling最大池化操作，其卷积核个数为32，卷积核大小为3，步长为1。

身份识别单元203，适于基于所提取的声纹特征对所述语音信号的说话者身份进行分类识别。

在本发明一实施例中，所述身份识别单元203，适于采用SVM分类器对所提取的声纹特征对应的语音输出者的身份进行识别。在本发明另一实施例中，所述身份识别单元203，适于采用SVM中的径向基核函数对所提取的声纹特征对应的说话者的身份进行分类。

本发明实施例还供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述的基于Alexnet改进的声纹识别方法的步骤。其中，所述的基于Alexnet改进的声纹识别方法请参见前述部分的详细介绍，不再赘述。

本发明实施例还供了一种终端，包括存储器和处理器，所述存储器上储存有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述的基于Alexnet改进的声纹识别方法的步骤。其中，所述的基于Alexnet改进的声纹识别方法请参见前述部分的详细介绍，不再赘述。

采用本发明实施例中的上述的方案，对输入的语音信号进行快速傅里叶分析，得到对应的语谱图，并采用预设的Alexnet卷积神经网络从所述语谱图中提取对应的声纹特征，再基于所提取的声纹特征对所述语音信号的说话者身份进行分类识别，由于采用预设的Alexnet卷积神经网络从所述语谱图中提取对应的声纹特征，与现有的单一性的声纹特征相比，可以提高声纹特征识别的准确性。

进一步地，采用预设的Alexnet卷积神经网络去除Alexnet中的全连接层，而采用预设的SVM分类器对所提取的声纹特征对应的语音输出者的身份进行识别，从而可以减轻模型的计算负担，节约计算资源。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，本发明要求保护范围由所附的权利要求书、说明书及其等效物界定。

Claims

1.一种基于Alexnet改进的声纹识别方法，其特征在于，包括：

2.根据权利要求1所述的基于Alexnet改进的声纹识别方法，其特征在于，所述采用预设的Alexnet卷积神经网络从所述语谱图中提取对应的声纹特征，包括：

3.根据权利要求2所述的基于Alexnet改进的声纹识别方法，其特征在于，所述卷积操作所采用的卷积层的数量为5，卷积核个数为32，卷积核大小为11，步长为1。

4.根据权利要求2或3所述的基于Alexnet改进的声纹识别方法，其特征在于，所述池化处理操作为1-max pooling最大池化操作，其卷积核个数为32，卷积核大小为3，步长为1。

5.根据权利要求1所述的基于Alexnet改进的声纹识别方法，其特征在于，所述基于所提取的声纹特征对所述语音信号进行识别，包括：

6.根据权利要求1所述的基于Alexnet改进的声纹识别方法，其特征在于，所述采用SVM分类器对所提取的声纹特征对应的说话者的身份进行识别，包括：

7.根据权利要求1所述的基于Alexnet改进的声纹识别方法，其特征在于，所述语谱图为二维或三维语谱图。

8.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至7任一项所述的基于Alexnet改进的声纹识别方法的步骤。

9.一种终端，其特征在于，包括存储器和处理器，所述存储器上储存有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行权利要求1至7任一项所述的基于Alexnet改进的声纹识别方法的步骤。