CN116312548A - 一种针对说话人识别系统对抗样本的通用检测系统及方法 - Google Patents
一种针对说话人识别系统对抗样本的通用检测系统及方法 Download PDFInfo
- Publication number
- CN116312548A CN116312548A CN202310123820.9A CN202310123820A CN116312548A CN 116312548 A CN116312548 A CN 116312548A CN 202310123820 A CN202310123820 A CN 202310123820A CN 116312548 A CN116312548 A CN 116312548A
- Authority
- CN
- China
- Prior art keywords
- audio
- module
- sequence
- stability
- original audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims description 13
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 10
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000006837 decompression Effects 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000010998 test method Methods 0.000 claims 3
- 230000007123 defense Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种对说话人识别系统对抗样本的通用检测系统,包括包括多通道音频干扰模块,用于对输入的原始音频进行音频干扰,生成与原始音频对应的音频变种集合;说话人系统识别模块,用于将生成的音频变种集合输入至说话人识别系统中,提取音频变种集合对应的得分序列和判别结果序列;稳定性特征提取模块,用于对获得的得分序列和判别结果序列进行统计数特征提取,并将提取获得的特征值与得分序列进行联接,获得稳定性表示特征;单类别判别模块,根据稳定性表示特征,对输入的原始音频是否为对抗样本进行判断。本发明还公开了一种通用检测方法。本发明提供的系统可以可自适应多种情况下的对抗样本攻击检测,从而强化语音识别的安全性。
Description
技术领域
本发明涉及语音检测技术领域,尤其涉及一种针对说话人识别系统对抗样本的通用检测系统及方法。
背景技术
随着人工智能的发展,通过深度学习对于语音对应说话人的识别也在一些重要的产业中逐渐得到大规模应用(例如语音支付功能),然而由于深度学习技术本身存在一些安全漏洞,不可避免地,基于深度学习的说话人识别系统也受到这些安全漏洞的威胁,一个主要的安全威胁来自针对说话人识别系统的对抗样本攻击,为了抵御对抗样本攻击带来的威胁,亟需提出一种有效的防御方案进行处理。
针对语音领域对抗样本攻击的防御手段包括三大类,第一类的目标是使得说话人识别系统更加稳定,对于已经训练好的说话人识别系统进行重新训练,主要通过修改模型训练时的损失函数,加入对于预设对抗样本攻击算法的考量,使得重新训练的说话人识别系统决策边界更加光滑。第二类是通过音频前处理方法来提取音频样本中的良性部分,之前的工作主要通过训练一个提取器来提纯原始音频样本,或者通过训练一个对抗样本分离网络,或者是利用滤波等信号处理方法来提纯原始音频的良性部分。第三类是检测对抗样本,之前的工作通过训练一个VGG二分类器,或者使用音频神经编码器来发现对抗样本。
这些基于对抗训练和基于样本提纯的工作要么需要很大的额外开销来重新训练网络,要么对于原始系统本身带来了比较大的性能影响。除此以外,几乎所有现有的工作都只能防御一部分有限的对抗样本攻击算法。
专利文献CN103780319A公开了一种基于谱型分析的自适应音频干扰检测方法,包括:频谱数据获取,目标点设立,判别窗口数据获取,音频干扰判别和检测结束判别。该方法需要对音频数据进行逐帧检测效率较低,且无法处理对抗样本攻击。
专利文献CN114050918A公开了一种音频数据的处理方法、装置、检测服务器以及存储介质,该方法包括:采集音频发送端发送的音频数据;解析音频数据,得到发送端标识和目标数据;将发送端标识和目标数据发送至检测服务器,检测服务器用于根据发送端标识和目标数据进行音频干扰或替换攻击检测。该方法需要对音频数据的标识进行识别,从而通过机器人学习的方式进行检测,但是该方法不具备通用性,无法抵御其他类型的对抗样本攻击。
发明内容
为了解决上述问题,本发明提供了一种针对说话人识别系统对抗样本的通用检测系统,该通用检测系统可自适应多种情况下的对抗样本攻击检测,从而强化语音识别的安全性。
一种针对说话人识别系统对抗样本的通用检测系统,包括:
包括多通道音频干扰模块,说话人系统识别模块,稳定性特征提取模块以及单类别判别模块;
所述多通道音频干扰模块,用于对输入的原始音频进行音频干扰,生成与原始音频对应的音频变种集合;
所述说话人系统识别模块,用于将生成的音频变种集合输入至说话人识别系统中,提取音频变种集合对应的得分序列和判别结果序列;
所述稳定性特征提取模块,用于对提取的得分序列和判别结果序列进行统计数特征提取,并将提取获得的特征值与得分序列进行联接,获得稳定性表示特征;
所述单类别判别模块,利用提取获得的稳定性表示特征,对输入的原始音频是否为对抗样本进行判断,以输出判别结果。
本发明基于原始音频构建多种音频变种,并基于说话人系统中对输入的音频变种进行识别,根据识别结果及识别得分进行特征提取,根据提取获得的稳定性表示特征对原始音频是否为对抗样本进行判断,从而适应多种类型的对抗样本攻击。
具体的,所述音频干扰包括量子化-去量子化,添加随机噪声,音频压缩及解压缩,随机删除时间片段和随机删除频率片段,从而丰富待识别的音频变种类型,提高识别的准确率。
具体的,所述特征值包括得分序列和判别结果序列求差后的均值,方差以及极差。
具体的,所述单类别判别模块包括判别器,所述判别器仅采用正样本进行训练。
优选的,所述判别器采用One-Class SVM。
具体的,所述判别器采用高斯核函数,其具体公式如下:
式中,x和y为提取获得的稳定性表示特征,γ为高斯核的超参数,‖x-y‖为两个稳定性表示特征向量的二阶范数。
本发明还提供了一种通用检测方法,通过上述所述的针对说话人识别系统对抗样本的通用检测系统实现,所述通用检测方法包括:
步骤1、获取原始音频,并对所述原始音频进行音频干扰,获得对应的音频变种集合;
步骤2、将步骤1获得的音频变种集合输入至目标说话人系统中,输出对应的得分序列和判别结果序列;
步骤3、对步骤2获得的得分序列和判别结果序列进行统计数特征提取,获得对应的特征值;
步骤4、对步骤2获得的得分序列和步骤3获得的特征值进行联接处理,获得稳定性表示特征;
步骤5、将步骤4获得的稳定性表示特征输入至预训练获得的判别器中,输出原始音频是否为对抗样本的判断结果。
具体的,在步骤1中,所述音频干扰的具体过程如下:
步骤1-1、对原始音频进行量子化-去量子化处理,处理后音频大小为8~9bits;
步骤1-2、对原始音频进行随机噪声添加,其中信噪比包括10db和20db;
步骤1-3、采用flac格式对原始音频进行压缩及解压缩处理,处理后音频大小为8bit;
步骤1-4、对原始音频中的随机时间片段进行剔除处理;
步骤1-5、对原始音频中的随机频率片段进行剔除处理;
步骤1-6、将步骤1-1至步骤1-5处理后的音频进行存储,获得对应的音频变种集合。
与现有技术相比,本发明的有益效果:
本发明提出的针对说话人识别系统对抗样本的防御系统,能够检测多种对抗样本攻击算法生成的攻击样本,能够在自适应攻击的场景下正常工作,能够在数字空间和物理空间中都高效稳定地工作,可以为已部署的说话人识别系统提供稳定鲁邦且即插即用的防御方案。
附图说明
图1为本实施例提供的一种针对说话人识别系统对抗样本的通用检测系统的结构示意图;
图2为本实施例提供的稳定性特征提取的算法流程框图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅是为了助于本技术领域的普通技术人员对本发明原理和知识的理解,而不用于限制本发明的范围,不能认为是限制本发明的应用场景。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,但基于本发明的原理和宗旨对实施例所做的变形、变化和转换同样落于本申请所附权利要求书所限定的范围。并且显而易见的是,本说明书仅以优选的实施方式作为举例,无需详尽所有的实施方式。
如图1所示,为本实施例提供的一种针对说话人识别系统对抗样本的通用检测系统,该系统包括:
多通道音频干扰模块,用于对输入的原始音频进行音频干扰,生成与原始音频对应的音频变种集合,该模块对待检测的音频进行预处理,从而破坏其原始音频的特征,便于后续待识别特征的获取,其中音频干扰包括量子化-去量子化,添加随机噪声,音频压缩及解压缩,随机删除时间片段和随机删除频率片段。
说话人系统识别模块,用于生成的音频变种集合输入至说话人识别系统中,提取音频变种集合对应的得分序列和判别结果序列,该模块与外部的说话人识别系统对接,将变频变种集合输入后仅提取识别过程生成的得分序列和判别结果序列。
如图2所示,稳定性特征提取模块,用于对获取的得分序列和判别结果序列进行统计数特征提取,并将提取获得的特征值与得分序列进行联接,获得稳定性表示特征,其中提取获得的特征值包括分序列和判别结果序列求差后的均值,方差以及极差,具体表达式如下:
方差:var=Variance(v)
极差:rag=Range(v)
均值:m1=Mean(v)
最大值:m2=Max(v)
式中,v为提取获得的得分序列。
根据上述特征值与得分序列进行联接,具体表达式如下:
v‘=[v,var,rag,m1,m2]
式中,v‘为稳定性表示特征。
单类别判别模块,利用上述稳定性特征提取模块提取获得的稳定性表示特征,通过预训练获得的One-Class SVM判别器对原始音频进行判别,以输出该原始音频是否为对抗样本的判别结果。
其中,该One-Class SVM判别器采用高斯核函数,具体定义如下:
本实施例还提供了一种通用检测方法,该方法通过上述实施例所述的针对说话人识别系统对抗样本的通用检测系统实现,具体过程如下:
步骤1、获取原始音频,并对所述原始音频进行音频干扰,获得对应的音频变种集合,其中音频干扰的具体步骤如下:
步骤1-1、对原始音频进行量子化-去量子化处理,处理后音频大小为8~9bits;
步骤1-2、对原始音频进行随机噪声添加,其中信噪比包括10db和20db;
步骤1-3、采用flac格式对原始音频进行压缩及解压缩处理,处理后音频大小为8bit;
步骤1-4、对原始音频中的随机时间片段进行剔除处理;
步骤1-5、对原始音频中的随机频率片段进行剔除处理;
步骤1-6、将步骤1-1至步骤1-5处理后的音频进行存储,获得对应的音频变种集合。
步骤2、将步骤1获得的音频变种集合输入至目标说话人系统中,输出对应的得分序列和判别结果序列。
步骤3、对步骤2获得的得分序列和判别结果序列进行统计数特征提取,获得对应的特征值。
步骤4、对步骤2获得的得分序列和步骤3获得的特征值进行联接处理,获得稳定性表示特征。
步骤5、将步骤4获得的稳定性表示特征输入至预训练获得的判别器中,输出原始音频是否为对抗样本的判断结果。
本实施例提供的方法能够检测多种对抗样本攻击算法生成的攻击样本,能够在自适应攻击的场景下正常工作,能够在数字空间和物理空间中都高效稳定地工作,可以为已部署的说话人识别系统提供稳定鲁邦且即插即用的防御方案。
Claims (8)
1.一种针对说话人识别系统对抗样本的通用检测系统,其特征在于,包括多通道音频干扰模块,说话人系统识别模块,稳定性特征提取模块以及单类别判别模块;
所述多通道音频干扰模块,用于对输入的原始音频进行音频干扰,生成与原始音频对应的音频变种集合;
所述说话人系统识别模块,用于将生成的音频变种集合输入至说话人识别系统中,提取音频变种集合对应的得分序列和判别结果序列;
所述稳定性特征提取模块,用于对获得的得分序列和判别结果序列进行统计数特征提取,并将提取获得的特征值与得分序列进行联接,获得稳定性表示特征;
所述单类别判别模块,利用提取获得的稳定性表示特征,对输入的原始音频是否为对抗样本进行判断,以输出判别结果。
2.根据权利要求1所述的针对说话人识别系统对抗样本的通用检测系统,其特征在于,所述音频干扰包括量子化-去量子化,添加随机噪声,音频压缩及解压缩,随机删除时间片段和随机删除频率片段。
3.根据权利要求1所述的针对说话人识别系统对抗样本的通用检测系统,所述特征值包括得分序列和判别结果序列求差后的均值,方差以及极差。
4.根据权利要求1所述的针对说话人识别系统对抗样本的通用检测系统,其特征在于,所述单类别判别模块包括判别器,所述判别器仅采用正样本进行训练。
5.根据权利要求4所述的针对说话人识别系统对抗样本的通用检测系统,其特征在于,所述判别器采用One-Class SVM。
7.一种通用检测方法,其特征在于,通过如权利要求1~6任一项所述的针对说话人识别系统对抗样本的通用检测系统实现,所述通用检测方法包括:
步骤1、获取原始音频,并对所述原始音频进行音频干扰,获得对应的音频变种集合;
步骤2、将步骤1获得的音频变种集合输入至目标说话人系统中,输出对应的得分序列和判别结果序列;
步骤3、对步骤2获得的得分序列和判别结果序列进行统计数特征提取,获得对应的特征值;
步骤4、对步骤2获得的得分序列和步骤3获得的特征值进行联接处理,获得稳定性表示特征;
步骤5、将步骤4获得的稳定性表示特征输入至预训练获得的判别器中,输出原始音频是否为对抗样本的判断结果。
8.根据权利要求7所述的通用检测方法,其特征在于,在步骤1中,所述音频干扰的具体过程如下:
步骤1-1、对原始音频进行量子化-去量子化处理,处理后音频大小为8~9bits;
步骤1-2、对原始音频进行随机噪声添加,其中信噪比包括10db和20db;
步骤1-3、采用flac格式对原始音频进行压缩及解压缩处理,处理后音频大小为8bit;
步骤1-4、对原始音频中的随机时间片段进行剔除处理;
步骤1-5、对原始音频中的随机频率片段进行剔除处理;
步骤1-6、将步骤1-1至步骤1-5处理后的音频进行存储,获得对应的音频变种集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310123820.9A CN116312548A (zh) | 2023-02-16 | 2023-02-16 | 一种针对说话人识别系统对抗样本的通用检测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310123820.9A CN116312548A (zh) | 2023-02-16 | 2023-02-16 | 一种针对说话人识别系统对抗样本的通用检测系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116312548A true CN116312548A (zh) | 2023-06-23 |
Family
ID=86829706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310123820.9A Pending CN116312548A (zh) | 2023-02-16 | 2023-02-16 | 一种针对说话人识别系统对抗样本的通用检测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116312548A (zh) |
-
2023
- 2023-02-16 CN CN202310123820.9A patent/CN116312548A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109714322B (zh) | 一种检测网络异常流量的方法及其系统 | |
CN110767216A (zh) | 一种基于pso算法的语音识别攻击防御方法 | |
CN113436646B (zh) | 一种采用联合特征与随机森林的伪装语音检测方法 | |
CN114495950A (zh) | 一种基于深度残差收缩网络的语音欺骗检测方法 | |
CN105701835A (zh) | 面向电力设施的图像边缘检测方法及系统 | |
CN110968845A (zh) | 基于卷积神经网络生成的针对lsb隐写的检测方法 | |
CN115622806B (zh) | 一种基于bert-cgan的网络入侵检测方法 | |
CN112733954A (zh) | 一种基于生成对抗网络的异常流量检测方法 | |
CN116707992A (zh) | 一种基于生成对抗网络的恶意流量规避检测方法 | |
CN115188384A (zh) | 基于余弦相似性和语音去噪的声纹识别对抗样本的防御方法 | |
CN109254654B (zh) | 一种结合PCA和PCANet的驾驶疲劳特征提取方法 | |
CN117012204B (zh) | 一种针对说话人识别系统对抗样本的防御方法 | |
CN116312548A (zh) | 一种针对说话人识别系统对抗样本的通用检测系统及方法 | |
CN117857088A (zh) | 一种网络流量异常检测方法、系统、设备及介质 | |
CN113296148A (zh) | 基于时域和小波域双通道卷积神经网络的微震识别方法 | |
CN110007341B (zh) | 一种基于IfnoGAN和SSD模型的微地震有效信号的识别方法及系统 | |
CN116469394A (zh) | 一种基于谱图去噪和对抗学习的鲁棒说话人识别方法 | |
CN115187784A (zh) | 一种基于孪生网络与集成增强决策的启发式对抗样本防御方法 | |
CN114664311A (zh) | 一种记忆网络增强的变分推断无声攻击检测方法 | |
CN113159181A (zh) | 基于改进的深度森林的工业控制网络异常检测方法和系统 | |
CN114822587B (zh) | 一种基于常数q变换的音频特征压缩方法 | |
CN116756637B (zh) | 一种无线信号智能检测识别方法及计算机可读存储介质 | |
CN114745200B (zh) | 一种基于恶意代码动态取证模型的恶意代码检测方法 | |
CN116230012B (zh) | 一种基于元数据对比学习预训练的两阶段异音检测方法 | |
CN114327978B (zh) | 基于矩变量的系统故障模式识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |