CN116418574A - 一种基于频域扰动的说话人识别系统查询攻击方法 - Google Patents

一种基于频域扰动的说话人识别系统查询攻击方法 Download PDF

Info

Publication number
CN116418574A
CN116418574A CN202310335164.9A CN202310335164A CN116418574A CN 116418574 A CN116418574 A CN 116418574A CN 202310335164 A CN202310335164 A CN 202310335164A CN 116418574 A CN116418574 A CN 116418574A
Authority
CN
China
Prior art keywords
disturbance
frequency domain
query
recognition system
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310335164.9A
Other languages
English (en)
Inventor
李武军
冷嘉怿
左楚霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202310335164.9A priority Critical patent/CN116418574A/zh
Publication of CN116418574A publication Critical patent/CN116418574A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Biology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于频域扰动的说话人识别系统查询攻击方法,步骤如下:初始化基于频域的对抗扰动向量,然后进行循环:每次循环在全一向量和初始对抗扰动向量之间选择添加后刚好使得目标系统误判说话人身份的中间扰动;利用蒙特卡洛梯度估计方法获得在新扰动处的梯度;尝试将当前扰动按照梯度方向移动一段距离,这段距离通过如果移动后无法误导目标系统则将移动距离减半,重复这个过程直到可以成功误导目标系统,将经过移动后的扰动作为新的初始扰动参与到下一轮循环。不断重复以上步骤,达到停止条件时,将中间扰动添加到原始音频上作为对抗音。本发明能够在低于200的查询次数内成功欺骗说话人识别系统,使目标系统错误判断语音中说话人的身份。

Description

一种基于频域扰动的说话人识别系统查询攻击方法
技术领域
本发明涉及说话人识别系统,特别是一种基于频域扰动的说话人识别系统查询攻击方法。
背景技术
目前,基于DNN的说话人识别系统已被广泛应用于许多重要领域,如银行认证和在线支付等,但DNN模型非常容易受到攻击,为了使ASI服务提供者意识到可能的攻击,一些工作已经通过设计不同的ASI系统的攻击方式来研究ASI的攻击问题。现有的ASI攻击方法主要集中在白盒攻击,即攻击者可以获得模型和数据集的细节。然而,说话人识别服务提供商出于安全考虑,通常不会披露他们的数据集、模型结构和参数,而是只提供API供使用者调用查询。因此,白盒攻击在大多数情况下不适合攻击真实世界的说话人识别系统,只需要访问系统的输出的黑盒攻击才更具有实用价值。
此外,所有现有针对说话人识别系统的攻击方法都是基于时域的扰动而产生的攻击,其输入的维度大小与原始音频相同。这个尺寸通常会达到几万维,严重增加了黑盒攻击的难度和查询成本。说话人识别系统所利用的声纹是和语音长度、语音内容不相关的特征,所以只在频域添加扰动就可以修改音频对应的声纹,使得说话人识别系统判断错误。因此,急需设计一种更适合攻击说话人识别系统的基于频域的对抗扰动。
发明内容
发明目的:本发明的目的是提供一种基于频域扰动的说话人识别系统查询攻击方法,攻击方不再需要获得模型的信息,只需要通过查询获得模型对音频的识别结果即可实施攻击,从而降低对原始音频的语音质量和内容的影响,提高对抗扰动的成功率。
技术方案:本发明所述的一种基于频域扰动的说话人识别系统查询攻击方法,包括以下步骤:
(1)输入一段攻击者的语音x,目标说话人标记y,目标说话人识别系统的查询接口I及其对应函数φ,最大查询次数Q,扰动维度M,二分法误差上限l,扰动大小上限∈,梯度估计查询次数B,安全系数γ;
(2)定义基于频域添加扰动的函数P,函数输入为一段音频和一个长度为M的一维向量f;
(3)从0到1的均匀分布中随机采样出一个M维的向量
Figure SMS_1
作为频域扰动;
(4)为语音x添加扰动获得
Figure SMS_2
(5)判断
Figure SMS_3
是否为1,如果不是则返回步骤(4);否则,/>
Figure SMS_4
Figure SMS_5
(6)初始化轮数计数器t=1;
(7)使用二分查找法获得α,满足
Figure SMS_6
对应的对抗音频/>
Figure SMS_7
刚好被识别为y而如果α增加l则不行;
(8)利用蒙特卡洛梯度估计法估计计算梯度J;
(9)更新对抗音频
Figure SMS_8
(10)初始化步长
Figure SMS_9
(11)更新频域扰动
Figure SMS_10
(12)判断φ(P(x,f*))是否为1,如果不是则ξ=ξ/2,返回步骤(11);否则,t=t+1;
(13)判断是否已经查询了超过Q次或是
Figure SMS_11
其中l表示x的维度,如果是则结束攻击流程并返回对抗音频x*,否则返回步骤(7)。
所述步骤(1)所述的查询接口对应函数具体为:
定义查询结果函数φ,若当前语音x通过查询接口I获得的识别结果为目标说话人y,则φ(x)=1,如果不是目标说话人y则φ(x)=-1。
所述步骤(2)所述的基于频域添加扰动的函数P具体为:
(2.1)获得语音x的能量谱为F(x),其中F是短时离散傅里叶变换函数,它的逆变换为F-1
(2.2)初始化和短时离散傅里叶变换后频域数量相等的一维向量m,根据M维梅尔滤波器组的M个滤波器中心点在f中相同下标的位置填充f中的元素,随后利用线性插值法填充m中的剩余元素;
(2.3)计算添加扰动后的音频P(x,f)=F-1(WAF(x));其中,W,A是对角矩阵,
Figure SMS_12
所述步骤(4)所述添加的扰动为:
Figure SMS_13
其中q表示当前查询次数,γ为安全系数。
所述步骤(8)所述蒙特卡洛梯度法估计的梯度为:
Figure SMS_14
其中
Figure SMS_15
是/>
Figure SMS_16
个从均匀分布中获得的独立同分布随机向量。
一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的一种基于频域扰动的说话人识别系统查询攻击方法。
一种计算机设备,包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的一种基于联邦学习的电力数据异常检测方法。
有益效果:与现有技术相比,本发明具有如下优点:
1、本发明适用于攻击黑盒说话人识别系统,能够在低于200的查询次数内成功欺骗说话人识别系统,使得目标系统错误判断语音中说话人的身份;
2、本发明所述方法对语音质量和内容的影响都远小于现有技术,大幅提高了对抗扰动的成功率。
附图说明
图1为本发明所述方法的步骤流程图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
如图1所示,一种基于频域扰动的说话人识别系统查询攻击方法,步骤如下:
(1)输入一段攻击者的语音x,目标说话人标记y,目标说话人识别系统的查询接口I及其对应函数φ:若当前语音x通过查询接口I获得的识别结果为目标说话人y,则φ(x)=1,如果不是目标说话人y则φ(x)=-1;输入最大查询次数Q=500,扰动维度M=40,扰动大小上限∈=0.005,梯度估计查询次数B,安全系数γ。
(2)定义基于频域添加扰动的函数P函数输入为一段音频和一个长度为40的一维向量f。
(3)从0到1的均匀分布中随机采样出一个40维的向量
Figure SMS_17
作为频域扰动。
(4)为语音x添加扰动获得
Figure SMS_18
(5)判断
Figure SMS_19
是否为1,如果不是则返回步骤(4);否则,/>
Figure SMS_20
Figure SMS_21
(6)初始化轮数计数器t=1。
(7)使用二分查找法获得α,满足
Figure SMS_22
对应的对抗音频/>
Figure SMS_23
刚好被识别为y而如果α增加l=0.0000000001则不行。
(8)利用蒙特卡洛梯度估计法估计计算梯度
Figure SMS_24
其中
Figure SMS_25
是/>
Figure SMS_26
个从均匀分布中获得的独立同分布随机向量。
(9)更新对抗音频
Figure SMS_27
(10)初始化步长
Figure SMS_28
(11)更新频域扰动
Figure SMS_29
(12)判断φ(P(x,f*))是否为1,如果不是则ξ=ξ/2,返回步骤(11);否则,t=t+1。
(13)判断是否已经查询了超过Q次或是
Figure SMS_30
其中l表示x的维度,如果是则结束攻击流程并返回对抗音频x*,否则返回步骤(7)。
本发所述方法在多个说话人识别系统上进行了实验。实验结果表明,本发明中的频域扰动无论在语音质量还是对语音内容的干扰都远小于现有在时域添加扰动的方法。在此基础上的查询攻击方法能够在200次的查询内以高成功率攻击现有的最先进的说话人识别系统。

Claims (7)

1.一种基于频域扰动的说话人识别系统查询攻击方法,其特征在于,包括以下步骤:
(1)输入一段攻击者的语音x,目标说话人标记y,目标说话人识别系统的查询接口I及其对应函数φ,最大查询次数Q,扰动维度M,二分法误差上限l,扰动大小上限∈,梯度估计查询次数B,安全系数γ;
(2)定义基于频域添加扰动的函数P,函数输入为一段音频和一个长度为M的一维向量f;
(3)从0到1的均匀分布中随机采样出一个M维的向量
Figure FDA0004156184820000011
作为频域扰动;
(4)为语音x添加扰动获得
Figure FDA0004156184820000012
(5)判断
Figure FDA0004156184820000013
是否为1,如果不是则返回步骤(4);否则,/>
Figure FDA0004156184820000014
Figure FDA0004156184820000015
(6)初始化轮数计数器t=1;
(7)使用二分查找法获得α,满足
Figure FDA0004156184820000016
对应的对抗音频/>
Figure FDA0004156184820000017
刚好被识别为y而如果α增加l则不行;
(8)利用蒙特卡洛梯度估计法估计计算梯度J;
(9)更新对抗音频
Figure FDA0004156184820000018
(10)初始化步长
Figure FDA0004156184820000019
(11)更新频域扰动
Figure FDA00041561848200000110
(12)判断φ(P(x,f*))是否为1,如果不是则ξ=ξ/2,返回步骤(11);否则,t=t+1;
(13)判断是否已经查询了超过Q次或是
Figure FDA00041561848200000111
其中l表示x的维度,如果是则结束攻击流程并返回对抗音频x*,否则返回步骤(7)。
2.根据权利要求1所述的一种基于频域扰动的说话人识别系统查询攻击方法,其特征在于,所述步骤(1)所述的查询接口对应函数具体为:
定义查询结果函数φ,若当前语音x通过查询接口I获得的识别结果为目标说话人y,则φ(x)=1,如果不是目标说话人y则φ(x)=-1。
3.根据权利要求1所述的一种基于频域扰动的说话人识别系统查询攻击方法,其特征在于,所述步骤(2)所述的基于频域添加扰动的函数P具体为:
(2.1)获得语音x的能量谱为F(x),其中F是短时离散傅里叶变换函数,它的逆变换为F-1
(2.2)初始化和短时离散傅里叶变换后频域数量相等的一维向量m,根据M维梅尔滤波器组的M个滤波器中心点在f中相同下标的位置填充f中的元素,随后利用线性插值法填充m中的剩余元素;
(2.3)计算添加扰动后的音频P(x,f)=F-1(WAF(x));其中,W,A是对角矩阵,
Figure FDA0004156184820000021
Aii=mi
4.根据权利要求1所述的一种基于频域扰动的说话人识别系统查询攻击方法,其特征在于,所述步骤(4)所述添加的扰动为:
Figure FDA0004156184820000022
其中q表示当前查询次数,γ为安全系数。
5.根据权利要求1所述的一种基于频域扰动的说话人识别系统查询攻击方法,其特征在于,所述步骤(8)所述蒙特卡洛梯度法估计的梯度为:
Figure FDA0004156184820000023
其中
Figure FDA0004156184820000024
是/>
Figure FDA0004156184820000025
个从均匀分布中获得的独立同分布随机向量。
6.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的一种基于频域扰动的说话人识别系统查询攻击方法。
7.一种计算机设备,包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的一种基于联邦学习的电力数据异常检测方法。
CN202310335164.9A 2023-03-31 2023-03-31 一种基于频域扰动的说话人识别系统查询攻击方法 Pending CN116418574A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310335164.9A CN116418574A (zh) 2023-03-31 2023-03-31 一种基于频域扰动的说话人识别系统查询攻击方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310335164.9A CN116418574A (zh) 2023-03-31 2023-03-31 一种基于频域扰动的说话人识别系统查询攻击方法

Publications (1)

Publication Number Publication Date
CN116418574A true CN116418574A (zh) 2023-07-11

Family

ID=87054293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310335164.9A Pending CN116418574A (zh) 2023-03-31 2023-03-31 一种基于频域扰动的说话人识别系统查询攻击方法

Country Status (1)

Country Link
CN (1) CN116418574A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117993027A (zh) * 2024-03-28 2024-05-07 之江实验室 针对重复查询攻击的数据保护方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117993027A (zh) * 2024-03-28 2024-05-07 之江实验室 针对重复查询攻击的数据保护方法和装置

Similar Documents

Publication Publication Date Title
Pasquini et al. Improving password guessing via representation learning
Zolotukhin et al. Analysis of HTTP requests for anomaly detection of web attacks
US9501640B2 (en) System and method for statistical analysis of comparative entropy
CN112364745B (zh) 一种对抗样本的生成方法、装置及电子设备
CN112231703B (zh) 一种结合api模糊处理技术的恶意软件对抗样本生成方法
WO2019018049A1 (en) REUSABLE FLOU EXTRACTOR BASED ON LEARNING ASSUMPTION WITH SECURE ERROR AGAINST QUANTUM ATTACKS
CN116418574A (zh) 一种基于频域扰动的说话人识别系统查询攻击方法
CN111461979B (zh) 验证码图像去噪识别方法、电子装置及存储介质
Chen et al. You are caught stealing my winning lottery ticket! making a lottery ticket claim its ownership
Yin et al. Generalizable black-box adversarial attack with meta learning
Yin et al. Boosting adversarial attacks on neural networks with better optimizer
CN110119621B (zh) 异常系统调用的攻击防御方法、系统及防御装置
Jiang et al. A new steganography without embedding based on adversarial training
Huang et al. What can discriminator do? towards box-free ownership verification of generative adversarial networks
Deng et al. Decision-based attack to speaker recognition system via local low-frequency perturbation
CN112019354B (zh) 一种基于生成式对抗网络的口令遍历装置及方法
JP7223372B2 (ja) 学習装置、学習方法及び学習プログラム
Comesana et al. Asymptotically optimum universal watermark embedding and detection in the high-snr regime
CN117079053A (zh) 基于梯度平均的人工智能图像识别对抗攻击方法及系统
CN115719085B (zh) 一种深度神经网络模型反演攻击防御方法及设备
Zheng et al. Robust detection model for portable execution malware
CN113472703B (zh) 一种ofdm信道估计方法
Bajaj et al. Best hiding capacity scheme for variable length messages using particle swarm optimization
Din et al. Text steganalysis using evolution algorithm approach
Ren et al. Dimension-independent certified neural network watermarks via mollifier smoothing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination