CN116312548A

CN116312548A - 一种针对说话人识别系统对抗样本的通用检测系统及方法

Info

Publication number: CN116312548A
Application number: CN202310123820.9A
Authority: CN
Inventors: 卢立; 王琨; 巴钟杰; 林峰; 任奎
Original assignee: ZJU Hangzhou Global Scientific and Technological Innovation Center
Current assignee: ZJU Hangzhou Global Scientific and Technological Innovation Center
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-06-23

Abstract

本发明公开了一种对说话人识别系统对抗样本的通用检测系统，包括包括多通道音频干扰模块，用于对输入的原始音频进行音频干扰，生成与原始音频对应的音频变种集合；说话人系统识别模块，用于将生成的音频变种集合输入至说话人识别系统中，提取音频变种集合对应的得分序列和判别结果序列；稳定性特征提取模块，用于对获得的得分序列和判别结果序列进行统计数特征提取，并将提取获得的特征值与得分序列进行联接，获得稳定性表示特征；单类别判别模块，根据稳定性表示特征，对输入的原始音频是否为对抗样本进行判断。本发明还公开了一种通用检测方法。本发明提供的系统可以可自适应多种情况下的对抗样本攻击检测，从而强化语音识别的安全性。

Description

一种针对说话人识别系统对抗样本的通用检测系统及方法

技术领域

本发明涉及语音检测技术领域，尤其涉及一种针对说话人识别系统对抗样本的通用检测系统及方法。

背景技术

随着人工智能的发展，通过深度学习对于语音对应说话人的识别也在一些重要的产业中逐渐得到大规模应用(例如语音支付功能)，然而由于深度学习技术本身存在一些安全漏洞，不可避免地，基于深度学习的说话人识别系统也受到这些安全漏洞的威胁，一个主要的安全威胁来自针对说话人识别系统的对抗样本攻击，为了抵御对抗样本攻击带来的威胁，亟需提出一种有效的防御方案进行处理。

针对语音领域对抗样本攻击的防御手段包括三大类，第一类的目标是使得说话人识别系统更加稳定，对于已经训练好的说话人识别系统进行重新训练，主要通过修改模型训练时的损失函数，加入对于预设对抗样本攻击算法的考量，使得重新训练的说话人识别系统决策边界更加光滑。第二类是通过音频前处理方法来提取音频样本中的良性部分，之前的工作主要通过训练一个提取器来提纯原始音频样本，或者通过训练一个对抗样本分离网络，或者是利用滤波等信号处理方法来提纯原始音频的良性部分。第三类是检测对抗样本，之前的工作通过训练一个VGG二分类器，或者使用音频神经编码器来发现对抗样本。

这些基于对抗训练和基于样本提纯的工作要么需要很大的额外开销来重新训练网络，要么对于原始系统本身带来了比较大的性能影响。除此以外，几乎所有现有的工作都只能防御一部分有限的对抗样本攻击算法。

专利文献CN103780319A公开了一种基于谱型分析的自适应音频干扰检测方法，包括：频谱数据获取，目标点设立，判别窗口数据获取，音频干扰判别和检测结束判别。该方法需要对音频数据进行逐帧检测效率较低，且无法处理对抗样本攻击。

专利文献CN114050918A公开了一种音频数据的处理方法、装置、检测服务器以及存储介质，该方法包括：采集音频发送端发送的音频数据；解析音频数据，得到发送端标识和目标数据；将发送端标识和目标数据发送至检测服务器，检测服务器用于根据发送端标识和目标数据进行音频干扰或替换攻击检测。该方法需要对音频数据的标识进行识别，从而通过机器人学习的方式进行检测，但是该方法不具备通用性，无法抵御其他类型的对抗样本攻击。

发明内容

为了解决上述问题，本发明提供了一种针对说话人识别系统对抗样本的通用检测系统，该通用检测系统可自适应多种情况下的对抗样本攻击检测，从而强化语音识别的安全性。

一种针对说话人识别系统对抗样本的通用检测系统，包括：

包括多通道音频干扰模块，说话人系统识别模块，稳定性特征提取模块以及单类别判别模块；

所述多通道音频干扰模块，用于对输入的原始音频进行音频干扰，生成与原始音频对应的音频变种集合；

所述说话人系统识别模块，用于将生成的音频变种集合输入至说话人识别系统中，提取音频变种集合对应的得分序列和判别结果序列；

所述稳定性特征提取模块，用于对提取的得分序列和判别结果序列进行统计数特征提取，并将提取获得的特征值与得分序列进行联接，获得稳定性表示特征；

所述单类别判别模块，利用提取获得的稳定性表示特征，对输入的原始音频是否为对抗样本进行判断，以输出判别结果。

本发明基于原始音频构建多种音频变种，并基于说话人系统中对输入的音频变种进行识别，根据识别结果及识别得分进行特征提取，根据提取获得的稳定性表示特征对原始音频是否为对抗样本进行判断，从而适应多种类型的对抗样本攻击。

具体的，所述音频干扰包括量子化-去量子化，添加随机噪声，音频压缩及解压缩，随机删除时间片段和随机删除频率片段，从而丰富待识别的音频变种类型，提高识别的准确率。

具体的，所述特征值包括得分序列和判别结果序列求差后的均值，方差以及极差。

具体的，所述单类别判别模块包括判别器，所述判别器仅采用正样本进行训练。

优选的，所述判别器采用One-Class SVM。

具体的，所述判别器采用高斯核函数，其具体公式如下：

式中，x和y为提取获得的稳定性表示特征，γ为高斯核的超参数，‖x-y‖为两个稳定性表示特征向量的二阶范数。

本发明还提供了一种通用检测方法，通过上述所述的针对说话人识别系统对抗样本的通用检测系统实现，所述通用检测方法包括：

步骤1、获取原始音频，并对所述原始音频进行音频干扰，获得对应的音频变种集合；

步骤2、将步骤1获得的音频变种集合输入至目标说话人系统中，输出对应的得分序列和判别结果序列；

步骤3、对步骤2获得的得分序列和判别结果序列进行统计数特征提取，获得对应的特征值；

步骤4、对步骤2获得的得分序列和步骤3获得的特征值进行联接处理，获得稳定性表示特征；

步骤5、将步骤4获得的稳定性表示特征输入至预训练获得的判别器中，输出原始音频是否为对抗样本的判断结果。

具体的，在步骤1中，所述音频干扰的具体过程如下：

步骤1-1、对原始音频进行量子化-去量子化处理，处理后音频大小为8～9bits；

步骤1-2、对原始音频进行随机噪声添加，其中信噪比包括10db和20db；

步骤1-3、采用flac格式对原始音频进行压缩及解压缩处理，处理后音频大小为8bit；

步骤1-4、对原始音频中的随机时间片段进行剔除处理；

步骤1-5、对原始音频中的随机频率片段进行剔除处理；

步骤1-6、将步骤1-1至步骤1-5处理后的音频进行存储，获得对应的音频变种集合。

与现有技术相比，本发明的有益效果：

本发明提出的针对说话人识别系统对抗样本的防御系统，能够检测多种对抗样本攻击算法生成的攻击样本，能够在自适应攻击的场景下正常工作，能够在数字空间和物理空间中都高效稳定地工作，可以为已部署的说话人识别系统提供稳定鲁邦且即插即用的防御方案。

附图说明

图1为本实施例提供的一种针对说话人识别系统对抗样本的通用检测系统的结构示意图；

图2为本实施例提供的稳定性特征提取的算法流程框图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅是为了助于本技术领域的普通技术人员对本发明原理和知识的理解，而不用于限制本发明的范围，不能认为是限制本发明的应用场景。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，但基于本发明的原理和宗旨对实施例所做的变形、变化和转换同样落于本申请所附权利要求书所限定的范围。并且显而易见的是，本说明书仅以优选的实施方式作为举例，无需详尽所有的实施方式。

如图1所示，为本实施例提供的一种针对说话人识别系统对抗样本的通用检测系统，该系统包括：

多通道音频干扰模块，用于对输入的原始音频进行音频干扰，生成与原始音频对应的音频变种集合，该模块对待检测的音频进行预处理，从而破坏其原始音频的特征，便于后续待识别特征的获取，其中音频干扰包括量子化-去量子化，添加随机噪声，音频压缩及解压缩，随机删除时间片段和随机删除频率片段。

说话人系统识别模块，用于生成的音频变种集合输入至说话人识别系统中，提取音频变种集合对应的得分序列和判别结果序列，该模块与外部的说话人识别系统对接，将变频变种集合输入后仅提取识别过程生成的得分序列和判别结果序列。

如图2所示，稳定性特征提取模块，用于对获取的得分序列和判别结果序列进行统计数特征提取，并将提取获得的特征值与得分序列进行联接，获得稳定性表示特征，其中提取获得的特征值包括分序列和判别结果序列求差后的均值，方差以及极差，具体表达式如下：

方差：var＝Variance(v)

极差：rag＝Range(v)

均值：m1＝Mean(v)

最大值：m2＝Max(v)

式中，v为提取获得的得分序列。

根据上述特征值与得分序列进行联接，具体表达式如下：

v^‘＝[v,var,rag,m1,m2]

式中，v^‘为稳定性表示特征。

单类别判别模块，利用上述稳定性特征提取模块提取获得的稳定性表示特征，通过预训练获得的One-Class SVM判别器对原始音频进行判别，以输出该原始音频是否为对抗样本的判别结果。

其中，该One-Class SVM判别器采用高斯核函数，具体定义如下：

式中，x和y为提取获得的稳定性表示特征，‖x-y‖为两个稳定性表示特征向量的二阶范数，

为高斯核的超参数，n_features为稳定性表示特征的维度，X.var()为训练数据的方差。

本实施例还提供了一种通用检测方法，该方法通过上述实施例所述的针对说话人识别系统对抗样本的通用检测系统实现，具体过程如下：

步骤1、获取原始音频，并对所述原始音频进行音频干扰，获得对应的音频变种集合，其中音频干扰的具体步骤如下：

步骤1-4、对原始音频中的随机时间片段进行剔除处理；

步骤1-5、对原始音频中的随机频率片段进行剔除处理；

步骤2、将步骤1获得的音频变种集合输入至目标说话人系统中，输出对应的得分序列和判别结果序列。

步骤3、对步骤2获得的得分序列和判别结果序列进行统计数特征提取，获得对应的特征值。

步骤4、对步骤2获得的得分序列和步骤3获得的特征值进行联接处理，获得稳定性表示特征。

本实施例提供的方法能够检测多种对抗样本攻击算法生成的攻击样本，能够在自适应攻击的场景下正常工作，能够在数字空间和物理空间中都高效稳定地工作，可以为已部署的说话人识别系统提供稳定鲁邦且即插即用的防御方案。

Claims

1.一种针对说话人识别系统对抗样本的通用检测系统，其特征在于，包括多通道音频干扰模块，说话人系统识别模块，稳定性特征提取模块以及单类别判别模块；

所述稳定性特征提取模块，用于对获得的得分序列和判别结果序列进行统计数特征提取，并将提取获得的特征值与得分序列进行联接，获得稳定性表示特征；

2.根据权利要求1所述的针对说话人识别系统对抗样本的通用检测系统，其特征在于，所述音频干扰包括量子化-去量子化，添加随机噪声，音频压缩及解压缩，随机删除时间片段和随机删除频率片段。

3.根据权利要求1所述的针对说话人识别系统对抗样本的通用检测系统，所述特征值包括得分序列和判别结果序列求差后的均值，方差以及极差。

4.根据权利要求1所述的针对说话人识别系统对抗样本的通用检测系统，其特征在于，所述单类别判别模块包括判别器，所述判别器仅采用正样本进行训练。

5.根据权利要求4所述的针对说话人识别系统对抗样本的通用检测系统，其特征在于，所述判别器采用One-Class SVM。

6.根据权利要求4或5所述的针对说话人识别系统对抗样本的通用检测系统，其特征在于，所述判别器采用高斯核函数，其具体公式如下：

7.一种通用检测方法，其特征在于，通过如权利要求1～6任一项所述的针对说话人识别系统对抗样本的通用检测系统实现，所述通用检测方法包括：

8.根据权利要求7所述的通用检测方法，其特征在于，在步骤1中，所述音频干扰的具体过程如下：

步骤1-4、对原始音频中的随机时间片段进行剔除处理；

步骤1-5、对原始音频中的随机频率片段进行剔除处理；