CN109754812A - 一种基于卷积神经网络的防录音攻击检测的声纹认证方法 - Google Patents

一种基于卷积神经网络的防录音攻击检测的声纹认证方法 Download PDF

Info

Publication number
CN109754812A
CN109754812A CN201910092782.9A CN201910092782A CN109754812A CN 109754812 A CN109754812 A CN 109754812A CN 201910092782 A CN201910092782 A CN 201910092782A CN 109754812 A CN109754812 A CN 109754812A
Authority
CN
China
Prior art keywords
neural networks
convolutional neural
audio
layer
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910092782.9A
Other languages
English (en)
Inventor
谢志峰
张伟彬
徐向民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910092782.9A priority Critical patent/CN109754812A/zh
Publication of CN109754812A publication Critical patent/CN109754812A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于卷积神经网络的防录音攻击声纹认证方法,包括步骤:步骤S101:获取待检测音频构建声纹认证数据集;步骤S102:对声纹认证数据集的音频进行特征提取,包括特征MFCC、瓶颈层特征;步骤S103:结合MobileNet和Unet构建卷积神经网络;步骤S104:将声纹认证数据集输入到卷积神经网络进行训练;步骤S105:使用测试音频,将瓶颈层特征输入到训练好的卷积神经网络中得到测试分数判断真实说话或录音音频。本发明结合了Unet和MobileNet两模型的特点,具有较低的模型复杂度,即较低的模型大小和耗费较小的计算资源,且具有较高识别准确率,能够移植并应用在手机端和嵌入式设备中。

Description

一种基于卷积神经网络的防录音攻击检测的声纹认证方法
技术领域
本发明涉及深度学习、声纹识别领域,尤其涉及一种基于卷积神经网络的防录音攻击检测的声纹认证方法。
背景技术
声纹识别技术,是一种常见而实用的生物认证技术,然而,随着识别技术的进步,破解的技术也在发展。常见的破解声纹识别系统技术的方法有真人模仿以及机器模仿两种,真人模仿是有经验的人员通过模拟说话人的声线,发声技巧,从而达到冒充说话者的方法,而机器模仿又包括了机器合成,机器录音播放攻击等方法。
其中,录音攻击是使用高保真的录音设备,将说话者人物声音进行录制,然后再使用音频去破解声纹认证系统。此方法由于是来自本人声音,而且相比于专业人员模仿,这种方法更容易实现,目标说话者的音频更容易取得,且具有真实性,因此对于声纹认证系统的威胁极大。
目前,解决说话人识别系统的问题,现有的方法是通过提取说话者音频的声纹特征,与已经录制的声音进行匹配,从而判断说话者身份以及是否录音亦或是真人的问题。然而目前仍然存在着模型消耗大、提取特征的准确率还可以进一步提升的问题。
发明内容
针对上述技术问题,本发明提供了一种基于卷积神经网络的防录音攻击的声纹认证方法,该方法结合Unet和MobileNet两种模型的特点,具有较高的识别准确度和较低的模型消耗。
本发明提供通过如下技术方案实现:
一种基于卷积神经网络的防录音攻击声纹认证方法,包括以下步骤:
步骤S101:获取待检测音频,通过数据采集和静音端点检测两种方式构建常用的可以防录音攻击的声纹认证数据集;
步骤S102:对声纹认证数据集的音频进行特征提取,包括特征MFCC、LFCC、CQCC、以及使用全连接神经网络提取的瓶颈层特征;
步骤S103:结合MobileNet的深度可分解操作和Unet首层和最后层神经网络进行连接的方式,构建卷积神经网络;
步骤S104:将采集到的所述声纹认证数据集输入到构建好的卷积神经网络进行训练,学习分辨出各种录音设备声音和真实说话声音的能力;
步骤S105:将卷积神经网络训练成功并收敛后,使用测试音频,将瓶颈层特征输入到训练好的网络中并得到测试分数,也就是可信度,当超过分数阈值时,则认为此段音频可信,为真实说话者,否则,则认为是录音音频。
进一步地,步骤S101中,所述待检测音频包括人的真实说话声,以及在不同录音设备录制后播放的声音。
进一步地,所述步骤S102中,对声纹认证数据集的音频进行特征提取前,先对声纹认证数据集中的录音音频和真实语音音频分别进行预加重、加窗、端点检测处理。
进一步地,所述步骤S102中,提取瓶颈层特征时,使用全连接神经网络对音频进行特征提取,以特征MFCC、LFCC、CQCC作为模型输入以及输出,将全连接神经网络中间的瓶颈层的输出作为此音频的特征,输入到真正用于识别的卷积神经网络中。
进一步地,所述步骤S103中,使用轻型神经网络MobileNet将卷积层操作分解成深度卷积和1×1的卷积,实现减少存储空间,减少计算量的功能。
进一步地,所述步骤S103中,所构建的卷积神经网络的输入层与一层标准卷积层相连,之后使用四层步长为2的下采样卷积层,然后四层步长为2的上采样反卷积层,第1层卷积层与最后一层卷积层进行直接连接,最后通过softmax多分类器输出最终的分类结果。
相比现有技术,本发明具有如下有益效果:
本发明的卷积神经网络使用瓶颈层特征作为模型输入,即使用神经网络瓶颈层提取特征,再使用卷积神经网络进行分类,使用瓶颈层网络有利于学习的音频中的低层特征。而使用MobileNet基于深度可分解卷积,这种卷积把标准卷积操作拆分成一个深度卷积和一个1×1的点卷积,可以大量减少计算和模型尺寸。
附图说明
图1为本发明实施例提供的一种防录音攻击的声纹认证方法的一个实施例的流程示意图;
图2为本发明实施例提供的一种防录音攻击的声纹认证方法的另一个实施例的流程示意图。
具体实施方式
本发明实施提供一种基于卷积神经网络的防录音攻击的声纹认证方法,用于解决现有的说话人识别系统语音识别准确率低,模型体量大的问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
图1所示,本实施例提出的基于卷积神经网络的防录音攻击的声纹认证方法,主要包括:
步骤101:获取待检测音频,进行预加重处理及端点检测,提取待检测音频的MFCC特征向量,所述待检测音频包括人的真实说话声,以及在不同录音设备录制后播放的声音。
步骤102:结合MobileNet的深度可分解操作和Unet首层和最后层神经网络进行连接的方式,构建新的卷积神经网络;在网络结构中,输入层与一层标准卷积层相连,之后使用四层步长为2的下采样卷积层,然后四层步长为2的上采样反卷积层,第1层卷积层与最后一层卷积层进行直接连接,最后通过softmax多分类器输出最终的分类结果。
步骤103:将网络训练成功并收敛后,使用测试音频,提取测试音频的瓶颈层特征输入到训练好的网络中并得到测试分数,也就是可信度,当超过分数阈值时,则认为此段音频可信,为真实说话者,否则,则认为是录音音频。
实施例二
图2所示,本实施例的基于卷积神经网络的防录音攻击的声纹认证方法,主要包括:
步骤201:获取待检测音频,进行预加重处理及端点检测,提取待检测音频的MFCC特征向量,所述待检测音频包括人的真实说话声,以及在不同录音设备录制后播放的声音。
步骤202:使用步骤S101中提出的特征向量,训练一个全连接神经网络,模型输入和输出是S101中提取的MFCC特征,即训练一个自编码器。
步骤203:将所有音频通过步骤202中训练的全连接神经网络,取其瓶颈层输出,作为新网络的特征输入。
步骤204:结合MobileNet的深度可分解操作和Unet首层和最后层神经网络进行连接的方式,构建卷积神经网络;在网络结构中,输入层与一层标准卷积层相连,之后使用四层步长为2的下采样卷积层,然后四层步长为2的上采样反卷积层,第1层卷积层与最后一层卷积层进行直接连接,最后通过softmax多分类器输出最终的分类结果。
步骤205:对步骤203提取好的瓶颈层特征,使用步骤204设计好的卷积神经网络进行训练学习,学习不同音频的特征。
步骤206:将网络训练成功并收敛后,使用测试音频,用步骤S203提取的测试音频的瓶颈层特征,输入到训练好的网络中并得到测试分数,也就是可信度,当超过分数阈值时,则认为此段音频可信,为真实说话者,否则,则认为是录音音频。
本实施例,通过数据采集和端点检测的方式获取数据,使用自编码器神经网络提取瓶颈层特征。结合经典卷积神经网络MobileNet的深度可分解操作,设计了一种新的卷积神经网络模型,并在采集到的数据集进行训练,从而实现鉴别录音攻击的目的。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (6)

1.一种基于卷积神经网络的防录音攻击声纹认证方法,包括以下步骤:
步骤S101:获取待检测音频,通过数据采集和静音端点检测两种方式构建常用的可以防录音攻击的声纹认证数据集;
步骤S102:对声纹认证数据集的音频进行特征提取,包括特征MFCC、LFCC、CQCC、以及使用全连接神经网络提取的瓶颈层特征;
步骤S103:结合MobileNet的深度可分解操作和Unet首层和最后层神经网络进行连接的方式,构建卷积神经网络;
步骤S104:将采集到的所述声纹认证数据集输入到构建好的卷积神经网络进行训练,学习分辨出各种录音设备声音和真实说话声音的能力;
步骤S105:将卷积神经网络训练成功并收敛后,使用测试音频,将瓶颈层特征输入到训练好的网络中并得到测试分数,也就是可信度,当超过分数阈值时,则认为此段音频可信,为真实说话者,否则,则认为是录音音频。
2.根据权利要求1所述基于卷积神经网络的防录音攻击的声纹识别方法,其特征在于,步骤S101中,所述待检测音频包括人的真实说话声,以及在不同录音设备录制后播放的声音。
3.根据权利要求1所述基于卷积神经网络的防录音攻击的声纹识别方法,其特征在于,所述步骤S102中,对声纹认证数据集的音频进行特征提取前,先对声纹认证数据集中的录音音频和真实语音音频分别进行预加重、加窗、端点检测处理。
4.根据权利要求1所述基于卷积神经网络的防录音攻击的声纹识别方法,其特征在于,所述步骤S102中,提取瓶颈层特征时,使用全连接神经网络对音频进行特征提取,以特征MFCC、LFCC、CQCC作为模型输入以及输出,将全连接神经网络中间的瓶颈层的输出作为此音频的特征,输入到真正用于识别的卷积神经网络中。
5.根据权利要求1所述基于卷积神经网络的防录音攻击的声纹识别方法,其特征在于,所述步骤S103中,使用轻型神经网络MobileNet将卷积层操作分解成深度卷积和1×1的卷积,实现减少存储空间,减少计算量的功能。
6.根据权利要求1所述基于卷积神经网络的防录音攻击的声纹识别方法,其特征在于,步骤S103中,所构建的卷积神经网络的输入层与一层标准卷积层相连,之后使用四层步长为2的下采样卷积层,然后四层步长为2的上采样反卷积层,第1层卷积层与最后一层卷积层进行直接连接,最后通过softmax多分类器输出最终的分类结果。
CN201910092782.9A 2019-01-30 2019-01-30 一种基于卷积神经网络的防录音攻击检测的声纹认证方法 Pending CN109754812A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910092782.9A CN109754812A (zh) 2019-01-30 2019-01-30 一种基于卷积神经网络的防录音攻击检测的声纹认证方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910092782.9A CN109754812A (zh) 2019-01-30 2019-01-30 一种基于卷积神经网络的防录音攻击检测的声纹认证方法

Publications (1)

Publication Number Publication Date
CN109754812A true CN109754812A (zh) 2019-05-14

Family

ID=66407186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910092782.9A Pending CN109754812A (zh) 2019-01-30 2019-01-30 一种基于卷积神经网络的防录音攻击检测的声纹认证方法

Country Status (1)

Country Link
CN (1) CN109754812A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110223676A (zh) * 2019-06-14 2019-09-10 苏州思必驰信息科技有限公司 欺骗录音检测神经网络模型的优化方法及系统
CN110246506A (zh) * 2019-05-29 2019-09-17 平安科技(深圳)有限公司 人声智能检测方法、装置及计算机可读存储介质
CN110491391A (zh) * 2019-07-02 2019-11-22 厦门大学 一种基于深度神经网络的欺骗语音检测方法
CN110706232A (zh) * 2019-09-29 2020-01-17 五邑大学 纹理图像分割方法、电子装置及计算机存储介质
CN110782877A (zh) * 2019-11-19 2020-02-11 合肥工业大学 基于Fisher混合特征和神经网络的语音鉴别方法和系统
CN110797031A (zh) * 2019-09-19 2020-02-14 厦门快商通科技股份有限公司 语音变音检测方法、系统、移动终端及存储介质
CN110838303A (zh) * 2019-11-05 2020-02-25 南京大学 一种利用传声器阵列的语音声源定位方法
CN111524528A (zh) * 2020-05-28 2020-08-11 Oppo广东移动通信有限公司 防录音检测的语音唤醒方法及装置
CN111899718A (zh) * 2020-07-30 2020-11-06 北京字节跳动网络技术有限公司 用于识别合成语音的方法、装置、设备和介质
CN112509598A (zh) * 2020-11-20 2021-03-16 北京小米松果电子有限公司 音频检测方法及装置、存储介质
CN113053397A (zh) * 2021-03-04 2021-06-29 常州分音塔科技有限公司 一种防录音攻击身份认证方法、装置及系统
CN113314148A (zh) * 2021-07-29 2021-08-27 中国科学院自动化研究所 基于原始波形的轻量级神经网络生成语音鉴别方法和系统
CN113360869A (zh) * 2020-03-04 2021-09-07 北京嘉诚至盛科技有限公司 启动应用的方法、电子设备和计算机可读介质
CN114040052A (zh) * 2021-11-01 2022-02-11 江苏号百信息服务有限公司 一种电话声纹识别音频采集和有效音频筛选的方法
CN115086045A (zh) * 2022-06-17 2022-09-20 海南大学 基于声纹伪造检测的数据安全防护方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080082323A1 (en) * 2006-09-29 2008-04-03 Bai Mingsian R Intelligent classification system of sound signals and method thereof
CN108039176A (zh) * 2018-01-11 2018-05-15 广州势必可赢网络科技有限公司 一种防录音攻击的声纹认证方法、装置及门禁系统
CN108345831A (zh) * 2017-12-28 2018-07-31 新智数字科技有限公司 基于点云数据的道路图像分割的方法、装置以及电子设备
CN108447490A (zh) * 2018-02-12 2018-08-24 阿里巴巴集团控股有限公司 基于记忆性瓶颈特征的声纹识别的方法及装置
CN108922559A (zh) * 2018-07-06 2018-11-30 华南理工大学 基于语音时频变换特征和整数线性规划的录音终端聚类方法
CN109272997A (zh) * 2018-08-31 2019-01-25 广东小天才科技有限公司 一种智能设备及其投影交互方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080082323A1 (en) * 2006-09-29 2008-04-03 Bai Mingsian R Intelligent classification system of sound signals and method thereof
CN108345831A (zh) * 2017-12-28 2018-07-31 新智数字科技有限公司 基于点云数据的道路图像分割的方法、装置以及电子设备
CN108039176A (zh) * 2018-01-11 2018-05-15 广州势必可赢网络科技有限公司 一种防录音攻击的声纹认证方法、装置及门禁系统
CN108447490A (zh) * 2018-02-12 2018-08-24 阿里巴巴集团控股有限公司 基于记忆性瓶颈特征的声纹识别的方法及装置
CN108922559A (zh) * 2018-07-06 2018-11-30 华南理工大学 基于语音时频变换特征和整数线性规划的录音终端聚类方法
CN109272997A (zh) * 2018-08-31 2019-01-25 广东小天才科技有限公司 一种智能设备及其投影交互方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《MENNATULLAH SIAM ET AL.》: "《A Comparative Study of Real-time Semantic Segmentation for Autonomous Driving》", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS (CVPRW)》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246506A (zh) * 2019-05-29 2019-09-17 平安科技(深圳)有限公司 人声智能检测方法、装置及计算机可读存储介质
CN110223676A (zh) * 2019-06-14 2019-09-10 苏州思必驰信息科技有限公司 欺骗录音检测神经网络模型的优化方法及系统
CN110491391A (zh) * 2019-07-02 2019-11-22 厦门大学 一种基于深度神经网络的欺骗语音检测方法
CN110797031A (zh) * 2019-09-19 2020-02-14 厦门快商通科技股份有限公司 语音变音检测方法、系统、移动终端及存储介质
CN110706232A (zh) * 2019-09-29 2020-01-17 五邑大学 纹理图像分割方法、电子装置及计算机存储介质
CN110838303A (zh) * 2019-11-05 2020-02-25 南京大学 一种利用传声器阵列的语音声源定位方法
CN110782877A (zh) * 2019-11-19 2020-02-11 合肥工业大学 基于Fisher混合特征和神经网络的语音鉴别方法和系统
CN113360869A (zh) * 2020-03-04 2021-09-07 北京嘉诚至盛科技有限公司 启动应用的方法、电子设备和计算机可读介质
CN111524528A (zh) * 2020-05-28 2020-08-11 Oppo广东移动通信有限公司 防录音检测的语音唤醒方法及装置
CN111899718A (zh) * 2020-07-30 2020-11-06 北京字节跳动网络技术有限公司 用于识别合成语音的方法、装置、设备和介质
CN112509598A (zh) * 2020-11-20 2021-03-16 北京小米松果电子有限公司 音频检测方法及装置、存储介质
CN113053397A (zh) * 2021-03-04 2021-06-29 常州分音塔科技有限公司 一种防录音攻击身份认证方法、装置及系统
CN113314148A (zh) * 2021-07-29 2021-08-27 中国科学院自动化研究所 基于原始波形的轻量级神经网络生成语音鉴别方法和系统
CN114040052A (zh) * 2021-11-01 2022-02-11 江苏号百信息服务有限公司 一种电话声纹识别音频采集和有效音频筛选的方法
CN114040052B (zh) * 2021-11-01 2024-01-19 江苏号百信息服务有限公司 一种电话声纹识别音频采集和有效音频筛选的方法
CN115086045A (zh) * 2022-06-17 2022-09-20 海南大学 基于声纹伪造检测的数据安全防护方法及装置

Similar Documents

Publication Publication Date Title
CN109754812A (zh) 一种基于卷积神经网络的防录音攻击检测的声纹认证方法
CN104036774B (zh) 藏语方言识别方法及系统
CN106847292B (zh) 声纹识别方法及装置
TWI527023B (zh) A voiceprint recognition method and apparatus
CN109065033B (zh) 一种基于随机深度时延神经网络模型的自动语音识别方法
CN102982809B (zh) 一种说话人声音转换方法
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
CN105575394A (zh) 基于全局变化空间及深度学习混合建模的声纹识别方法
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN110473566A (zh) 音频分离方法、装置、电子设备及计算机可读存储介质
CN107633842A (zh) 语音识别方法、装置、计算机设备及存储介质
CN107221320A (zh) 训练声学特征提取模型的方法、装置、设备和计算机存储介质
CN107331384A (zh) 语音识别方法、装置、计算机设备及存储介质
CN107103903A (zh) 基于人工智能的声学模型训练方法、装置及存储介质
CN108648759A (zh) 一种文本无关的声纹识别方法
CN108109613A (zh) 用于智能对话语音平台的音频训练和识别方法及电子设备
CN108172218A (zh) 一种语音建模方法及装置
CN103117060A (zh) 用于语音识别的声学模型的建模方法、建模系统
CN104123933A (zh) 基于自适应非平行训练的语音转换方法
CN109147774B (zh) 一种改进的延时神经网络声学模型
CN110600014B (zh) 一种模型训练方法、装置、存储介质及电子设备
CN109616105A (zh) 一种基于迁移学习的带噪语音识别方法
CN107039036A (zh) 一种基于自动编码深度置信网络的高质量说话人识别方法
CN109637526A (zh) 基于个人身份特征的dnn声学模型的自适应方法
CN109377981A (zh) 音素对齐的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190514