CN109754812A

CN109754812A - 一种基于卷积神经网络的防录音攻击检测的声纹认证方法

Info

Publication number: CN109754812A
Application number: CN201910092782.9A
Authority: CN
Inventors: 谢志峰; 张伟彬; 徐向民
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2019-05-14

Abstract

本发明公开了一种基于卷积神经网络的防录音攻击声纹认证方法，包括步骤：步骤S101：获取待检测音频构建声纹认证数据集；步骤S102：对声纹认证数据集的音频进行特征提取，包括特征MFCC、瓶颈层特征；步骤S103：结合MobileNet和Unet构建卷积神经网络；步骤S104：将声纹认证数据集输入到卷积神经网络进行训练；步骤S105：使用测试音频，将瓶颈层特征输入到训练好的卷积神经网络中得到测试分数判断真实说话或录音音频。本发明结合了Unet和MobileNet两模型的特点，具有较低的模型复杂度，即较低的模型大小和耗费较小的计算资源，且具有较高识别准确率，能够移植并应用在手机端和嵌入式设备中。

Description

一种基于卷积神经网络的防录音攻击检测的声纹认证方法

技术领域

本发明涉及深度学习、声纹识别领域，尤其涉及一种基于卷积神经网络的防录音攻击检测的声纹认证方法。

背景技术

声纹识别技术，是一种常见而实用的生物认证技术，然而，随着识别技术的进步，破解的技术也在发展。常见的破解声纹识别系统技术的方法有真人模仿以及机器模仿两种，真人模仿是有经验的人员通过模拟说话人的声线，发声技巧，从而达到冒充说话者的方法，而机器模仿又包括了机器合成，机器录音播放攻击等方法。

其中，录音攻击是使用高保真的录音设备，将说话者人物声音进行录制，然后再使用音频去破解声纹认证系统。此方法由于是来自本人声音，而且相比于专业人员模仿，这种方法更容易实现，目标说话者的音频更容易取得，且具有真实性，因此对于声纹认证系统的威胁极大。

目前，解决说话人识别系统的问题，现有的方法是通过提取说话者音频的声纹特征，与已经录制的声音进行匹配，从而判断说话者身份以及是否录音亦或是真人的问题。然而目前仍然存在着模型消耗大、提取特征的准确率还可以进一步提升的问题。

发明内容

针对上述技术问题，本发明提供了一种基于卷积神经网络的防录音攻击的声纹认证方法，该方法结合Unet和MobileNet两种模型的特点，具有较高的识别准确度和较低的模型消耗。

本发明提供通过如下技术方案实现：

一种基于卷积神经网络的防录音攻击声纹认证方法，包括以下步骤：

步骤S101：获取待检测音频，通过数据采集和静音端点检测两种方式构建常用的可以防录音攻击的声纹认证数据集；

步骤S102：对声纹认证数据集的音频进行特征提取，包括特征MFCC、LFCC、CQCC、以及使用全连接神经网络提取的瓶颈层特征；

步骤S103：结合MobileNet的深度可分解操作和Unet首层和最后层神经网络进行连接的方式，构建卷积神经网络；

步骤S104：将采集到的所述声纹认证数据集输入到构建好的卷积神经网络进行训练，学习分辨出各种录音设备声音和真实说话声音的能力；

步骤S105：将卷积神经网络训练成功并收敛后，使用测试音频，将瓶颈层特征输入到训练好的网络中并得到测试分数，也就是可信度，当超过分数阈值时，则认为此段音频可信，为真实说话者，否则，则认为是录音音频。

进一步地，步骤S101中，所述待检测音频包括人的真实说话声，以及在不同录音设备录制后播放的声音。

进一步地，所述步骤S102中，对声纹认证数据集的音频进行特征提取前，先对声纹认证数据集中的录音音频和真实语音音频分别进行预加重、加窗、端点检测处理。

进一步地，所述步骤S102中，提取瓶颈层特征时，使用全连接神经网络对音频进行特征提取，以特征MFCC、LFCC、CQCC作为模型输入以及输出，将全连接神经网络中间的瓶颈层的输出作为此音频的特征，输入到真正用于识别的卷积神经网络中。

进一步地，所述步骤S103中，使用轻型神经网络MobileNet将卷积层操作分解成深度卷积和1×1的卷积，实现减少存储空间，减少计算量的功能。

进一步地，所述步骤S103中，所构建的卷积神经网络的输入层与一层标准卷积层相连，之后使用四层步长为2的下采样卷积层，然后四层步长为2的上采样反卷积层，第1层卷积层与最后一层卷积层进行直接连接，最后通过softmax多分类器输出最终的分类结果。

相比现有技术，本发明具有如下有益效果：

本发明的卷积神经网络使用瓶颈层特征作为模型输入，即使用神经网络瓶颈层提取特征，再使用卷积神经网络进行分类，使用瓶颈层网络有利于学习的音频中的低层特征。而使用MobileNet基于深度可分解卷积，这种卷积把标准卷积操作拆分成一个深度卷积和一个1×1的点卷积，可以大量减少计算和模型尺寸。

附图说明

图1为本发明实施例提供的一种防录音攻击的声纹认证方法的一个实施例的流程示意图；

图2为本发明实施例提供的一种防录音攻击的声纹认证方法的另一个实施例的流程示意图。

具体实施方式

本发明实施提供一种基于卷积神经网络的防录音攻击的声纹认证方法，用于解决现有的说话人识别系统语音识别准确率低，模型体量大的问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

图1所示，本实施例提出的基于卷积神经网络的防录音攻击的声纹认证方法，主要包括：

步骤101：获取待检测音频，进行预加重处理及端点检测，提取待检测音频的MFCC特征向量，所述待检测音频包括人的真实说话声，以及在不同录音设备录制后播放的声音。

步骤102：结合MobileNet的深度可分解操作和Unet首层和最后层神经网络进行连接的方式，构建新的卷积神经网络；在网络结构中，输入层与一层标准卷积层相连，之后使用四层步长为2的下采样卷积层，然后四层步长为2的上采样反卷积层，第1层卷积层与最后一层卷积层进行直接连接，最后通过softmax多分类器输出最终的分类结果。

步骤103：将网络训练成功并收敛后，使用测试音频，提取测试音频的瓶颈层特征输入到训练好的网络中并得到测试分数，也就是可信度，当超过分数阈值时，则认为此段音频可信，为真实说话者，否则，则认为是录音音频。

实施例二

图2所示，本实施例的基于卷积神经网络的防录音攻击的声纹认证方法，主要包括：

步骤201：获取待检测音频，进行预加重处理及端点检测，提取待检测音频的MFCC特征向量，所述待检测音频包括人的真实说话声，以及在不同录音设备录制后播放的声音。

步骤202：使用步骤S101中提出的特征向量，训练一个全连接神经网络，模型输入和输出是S101中提取的MFCC特征，即训练一个自编码器。

步骤203：将所有音频通过步骤202中训练的全连接神经网络，取其瓶颈层输出，作为新网络的特征输入。

步骤204：结合MobileNet的深度可分解操作和Unet首层和最后层神经网络进行连接的方式，构建卷积神经网络；在网络结构中，输入层与一层标准卷积层相连，之后使用四层步长为2的下采样卷积层，然后四层步长为2的上采样反卷积层，第1层卷积层与最后一层卷积层进行直接连接，最后通过softmax多分类器输出最终的分类结果。

步骤205：对步骤203提取好的瓶颈层特征，使用步骤204设计好的卷积神经网络进行训练学习，学习不同音频的特征。

步骤206：将网络训练成功并收敛后，使用测试音频，用步骤S203提取的测试音频的瓶颈层特征，输入到训练好的网络中并得到测试分数，也就是可信度，当超过分数阈值时，则认为此段音频可信，为真实说话者，否则，则认为是录音音频。

本实施例，通过数据采集和端点检测的方式获取数据，使用自编码器神经网络提取瓶颈层特征。结合经典卷积神经网络MobileNet的深度可分解操作，设计了一种新的卷积神经网络模型，并在采集到的数据集进行训练，从而实现鉴别录音攻击的目的。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于卷积神经网络的防录音攻击声纹认证方法，包括以下步骤：

2.根据权利要求1所述基于卷积神经网络的防录音攻击的声纹识别方法，其特征在于，步骤S101中，所述待检测音频包括人的真实说话声，以及在不同录音设备录制后播放的声音。

3.根据权利要求1所述基于卷积神经网络的防录音攻击的声纹识别方法，其特征在于，所述步骤S102中，对声纹认证数据集的音频进行特征提取前，先对声纹认证数据集中的录音音频和真实语音音频分别进行预加重、加窗、端点检测处理。

4.根据权利要求1所述基于卷积神经网络的防录音攻击的声纹识别方法，其特征在于，所述步骤S102中，提取瓶颈层特征时，使用全连接神经网络对音频进行特征提取，以特征MFCC、LFCC、CQCC作为模型输入以及输出，将全连接神经网络中间的瓶颈层的输出作为此音频的特征，输入到真正用于识别的卷积神经网络中。

5.根据权利要求1所述基于卷积神经网络的防录音攻击的声纹识别方法，其特征在于，所述步骤S103中，使用轻型神经网络MobileNet将卷积层操作分解成深度卷积和1×1的卷积，实现减少存储空间，减少计算量的功能。

6.根据权利要求1所述基于卷积神经网络的防录音攻击的声纹识别方法，其特征在于，步骤S103中，所构建的卷积神经网络的输入层与一层标准卷积层相连，之后使用四层步长为2的下采样卷积层，然后四层步长为2的上采样反卷积层，第1层卷积层与最后一层卷积层进行直接连接，最后通过softmax多分类器输出最终的分类结果。