CN116418574A

CN116418574A - 一种基于频域扰动的说话人识别系统查询攻击方法

Info

Publication number: CN116418574A
Application number: CN202310335164.9A
Authority: CN
Inventors: 李武军; 冷嘉怿; 左楚霄
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-07-11

Abstract

本发明公开了一种基于频域扰动的说话人识别系统查询攻击方法，步骤如下：初始化基于频域的对抗扰动向量，然后进行循环：每次循环在全一向量和初始对抗扰动向量之间选择添加后刚好使得目标系统误判说话人身份的中间扰动；利用蒙特卡洛梯度估计方法获得在新扰动处的梯度；尝试将当前扰动按照梯度方向移动一段距离，这段距离通过如果移动后无法误导目标系统则将移动距离减半，重复这个过程直到可以成功误导目标系统，将经过移动后的扰动作为新的初始扰动参与到下一轮循环。不断重复以上步骤，达到停止条件时，将中间扰动添加到原始音频上作为对抗音。本发明能够在低于200的查询次数内成功欺骗说话人识别系统，使目标系统错误判断语音中说话人的身份。

Description

一种基于频域扰动的说话人识别系统查询攻击方法

技术领域

本发明涉及说话人识别系统，特别是一种基于频域扰动的说话人识别系统查询攻击方法。

背景技术

目前，基于DNN的说话人识别系统已被广泛应用于许多重要领域，如银行认证和在线支付等，但DNN模型非常容易受到攻击，为了使ASI服务提供者意识到可能的攻击，一些工作已经通过设计不同的ASI系统的攻击方式来研究ASI的攻击问题。现有的ASI攻击方法主要集中在白盒攻击，即攻击者可以获得模型和数据集的细节。然而，说话人识别服务提供商出于安全考虑，通常不会披露他们的数据集、模型结构和参数，而是只提供API供使用者调用查询。因此，白盒攻击在大多数情况下不适合攻击真实世界的说话人识别系统，只需要访问系统的输出的黑盒攻击才更具有实用价值。

此外，所有现有针对说话人识别系统的攻击方法都是基于时域的扰动而产生的攻击，其输入的维度大小与原始音频相同。这个尺寸通常会达到几万维，严重增加了黑盒攻击的难度和查询成本。说话人识别系统所利用的声纹是和语音长度、语音内容不相关的特征，所以只在频域添加扰动就可以修改音频对应的声纹，使得说话人识别系统判断错误。因此，急需设计一种更适合攻击说话人识别系统的基于频域的对抗扰动。

发明内容

发明目的：本发明的目的是提供一种基于频域扰动的说话人识别系统查询攻击方法，攻击方不再需要获得模型的信息，只需要通过查询获得模型对音频的识别结果即可实施攻击，从而降低对原始音频的语音质量和内容的影响，提高对抗扰动的成功率。

技术方案：本发明所述的一种基于频域扰动的说话人识别系统查询攻击方法，包括以下步骤：

(1)输入一段攻击者的语音x，目标说话人标记y，目标说话人识别系统的查询接口I及其对应函数φ，最大查询次数Q，扰动维度M，二分法误差上限l，扰动大小上限∈，梯度估计查询次数B，安全系数γ；

(2)定义基于频域添加扰动的函数P，函数输入为一段音频和一个长度为M的一维向量f；

(3)从0到1的均匀分布中随机采样出一个M维的向量

作为频域扰动；

(4)为语音x添加扰动获得

(5)判断

是否为1，如果不是则返回步骤(4)；否则，/>

(6)初始化轮数计数器t＝1；

(7)使用二分查找法获得α，满足

对应的对抗音频/>

刚好被识别为y而如果α增加l则不行；

(8)利用蒙特卡洛梯度估计法估计计算梯度J；

(9)更新对抗音频

(10)初始化步长

(11)更新频域扰动

(12)判断φ(P(x,f^*))是否为1，如果不是则ξ＝ξ/2，返回步骤(11)；否则，t＝t+1；

(13)判断是否已经查询了超过Q次或是

其中l表示x的维度，如果是则结束攻击流程并返回对抗音频x^*，否则返回步骤(7)。

所述步骤(1)所述的查询接口对应函数具体为：

定义查询结果函数φ，若当前语音x通过查询接口I获得的识别结果为目标说话人y，则φ(x)＝1，如果不是目标说话人y则φ(x)＝-1。

所述步骤(2)所述的基于频域添加扰动的函数P具体为：

(2.1)获得语音x的能量谱为F(x)，其中F是短时离散傅里叶变换函数，它的逆变换为F^-1；

(2.2)初始化和短时离散傅里叶变换后频域数量相等的一维向量m，根据M维梅尔滤波器组的M个滤波器中心点在f中相同下标的位置填充f中的元素，随后利用线性插值法填充m中的剩余元素；

(2.3)计算添加扰动后的音频P(x,f)＝F^-1(WAF(x))；其中，W,A是对角矩阵，

所述步骤(4)所述添加的扰动为：

其中q表示当前查询次数，γ为安全系数。

所述步骤(8)所述蒙特卡洛梯度法估计的梯度为：

其中

是/>

个从均匀分布中获得的独立同分布随机向量。

一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的一种基于频域扰动的说话人识别系统查询攻击方法。

一种计算机设备，包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的一种基于联邦学习的电力数据异常检测方法。

有益效果：与现有技术相比，本发明具有如下优点：

1、本发明适用于攻击黑盒说话人识别系统，能够在低于200的查询次数内成功欺骗说话人识别系统，使得目标系统错误判断语音中说话人的身份；

2、本发明所述方法对语音质量和内容的影响都远小于现有技术，大幅提高了对抗扰动的成功率。

附图说明

图1为本发明所述方法的步骤流程图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

如图1所示，一种基于频域扰动的说话人识别系统查询攻击方法，步骤如下：

(1)输入一段攻击者的语音x，目标说话人标记y，目标说话人识别系统的查询接口I及其对应函数φ：若当前语音x通过查询接口I获得的识别结果为目标说话人y，则φ(x)＝1，如果不是目标说话人y则φ(x)＝-1；输入最大查询次数Q＝500，扰动维度M＝40，扰动大小上限∈＝0.005，梯度估计查询次数B，安全系数γ。

(2)定义基于频域添加扰动的函数P函数输入为一段音频和一个长度为40的一维向量f。

(3)从0到1的均匀分布中随机采样出一个40维的向量

作为频域扰动。

(4)为语音x添加扰动获得

(5)判断

是否为1，如果不是则返回步骤(4)；否则，/>

(6)初始化轮数计数器t＝1。

(7)使用二分查找法获得α，满足

对应的对抗音频/>

刚好被识别为y而如果α增加l＝0.0000000001则不行。

(8)利用蒙特卡洛梯度估计法估计计算梯度

其中

是/>

个从均匀分布中获得的独立同分布随机向量。

(9)更新对抗音频

(10)初始化步长

(11)更新频域扰动

(12)判断φ(P(x,f^*))是否为1，如果不是则ξ＝ξ/2，返回步骤(11)；否则，t＝t+1。

(13)判断是否已经查询了超过Q次或是

本发所述方法在多个说话人识别系统上进行了实验。实验结果表明，本发明中的频域扰动无论在语音质量还是对语音内容的干扰都远小于现有在时域添加扰动的方法。在此基础上的查询攻击方法能够在200次的查询内以高成功率攻击现有的最先进的说话人识别系统。